CN112861782A - 票据照片关键信息提取系统及方法 - Google Patents

票据照片关键信息提取系统及方法 Download PDF

Info

Publication number
CN112861782A
CN112861782A CN202110248041.2A CN202110248041A CN112861782A CN 112861782 A CN112861782 A CN 112861782A CN 202110248041 A CN202110248041 A CN 202110248041A CN 112861782 A CN112861782 A CN 112861782A
Authority
CN
China
Prior art keywords
key information
text
unit
vector
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110248041.2A
Other languages
English (en)
Other versions
CN112861782B (zh
Inventor
陶越
徐树公
贾智伟
陈靖超
姜秀峰
穆世义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110248041.2A priority Critical patent/CN112861782B/zh
Publication of CN112861782A publication Critical patent/CN112861782A/zh
Application granted granted Critical
Publication of CN112861782B publication Critical patent/CN112861782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种票据照片关键信息提取系统及方法,包括:前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块,前端模块采集图片并通过通信单元发送至文本检测单元,文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置,并相应裁剪图片后通过通信单元发送至识别单元,识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元,关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示,回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库。

Description

票据照片关键信息提取系统及方法
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种票据照片关键信息提取系统及方法。
背景技术
现有的票据关键信息提取技术的主要特点是:通过文本识别检测技术获得整张票据上的文字内容。通过模板匹配或者正则表达式来提取关键信息。
这类技术的主要缺陷和不足为:通过模板匹配的方式的方法只能从固定模板类型的票据上提取出关键信息。一旦票据图片的版式不符合系统中含有的模板,就无法正确提取出正确的关键信息。正则表达式匹配来提取关键信息的方法需要人为分析关键信息的格式,设计正则表达式。一旦出现超过正则表达式的关键信息,就无法正确提取出正确的关键信息。
发明内容
本发明针对现有技术存在的上述不足,提出一种票据照片关键信息提取系统及方法,通过深度神经网络,将文本内容和文本内容位置的结构化信息相结合以提升准确度,能够适应不同方式的文本内容位置信息结合以及多种词向量的转换方式。
本发明是通过以下技术方案实现的:
本发明涉及一种票据照片关键信息提取系统,包括:前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块,其中:前端模块采集图片并通过通信单元发送至文本检测单元,文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置,并相应裁剪图片后通过通信单元发送至识别单元,识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元,关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示,回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库。
技术效果
与现有技术相比,本发明能够从无固定格式的票据图片中提取出关键信息,关键信息提取方法结合了富文本内容中的二维位置信息,可以选择性使用字向量,词向量,位置向量。位置向量添加的位置可以灵活变动并且结合方式多样,通过回馈机制进一步方便数据集的后续收集增广,减少人工标注的耗时,方便分析错误情况。
附图说明
图1为本发明系统示意图;
图2为本发明方法流程图;
图3为商场票据关键信息提取的APP界面和演示效果的示意图。
具体实施方式
如图1所示,为本实施例涉及的一种商场票据关键信息提取系统,包括:用于用户进行交互的前端模块和使用分层式的票据关键信息提取模块,其中:前端模块通过人机交互界面获得输入图像并输出提取出的信息,商场票据关键信息提取模块根据获得的图片信息,进行文本检测识别和关键信息网络推理并得到提取出来的关键信息结果。
所述的前端模块,包括:拍摄单元、相册单元、上传单元、显示单元以及判断单元,其中:拍摄单元调取前端设备的摄像头进行拍摄,相册单元读取前端设备的存储内容,选择其中的图片,上传单元将拍摄单元拍摄的图片或者相册单元选择的图片上传到服务器,显示单元从服务器接收关键信息提取结果后显示在前端界面上,判断单元接收用户对关键信息的判断,上传单元与判断单元相连,将用户的判断结果上传至服务器。
所述的商场票据关键信息提取模块,包括:通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元,其中:通信单元接收图片后,将图片发送至文本检测单元,文本检测单元根据接收到的图片信息,进行文本检测神经网络推理并得到文本内容块的坐标位置,再根据文本块的坐标位置裁剪图片,文本检测单元将文本内容块的坐标位置和裁剪完毕的图片发送至通信单元,通信单元将裁剪的图片发送至识别模块,识别单元根据剪裁好的图片识别出文本转录内容后传送给通信单元,通信单元将文本坐标位置和文本转录内容发送至关键信息提取单元,关键信息提取单元根据坐标位置和转录内容结果使用上文提到的关键信息提取网络进行推理并得到关键信息,处理得到的关键信息通过通信单元发送至前端模块,用户在前端模块判断后将结果发给通信单元,回馈单元与通信单元相连,接收用户的判断结果后更新数据库。
所述的关键信息是指:票据中的商店,地址,总价格和日期。
用户可以选择性地判断关键信息结果是否提取正确。当用户反馈了判断结果,那么后端会记录下用户的判断结果,结果正确的内容会补充到数据库中,错误的结果同样也会保存,方便后续的错误分析。
所述的文本检测单元使用的DBnet网络。
所述的识别单元使用的算法是业界针对中文识别通用的CRNN的算法改进版,即特征提取部分由VGG改为了ResNet45。本实施例采取了多种票据的背景作为生成的文本内容的背景,并且为了获得更逼真的生成数据,添加了高斯模糊,并且增加了随机mask来模拟打印效果较差的数据。通过合成数据,能够训练出识别准确率为88%的识别网络。
所述的关键信息提取单元采用的是上文所述的关键信息提取网络。
如图2所示,为本实施例涉及一种基于上述票据照片关键信息提取系统的关键信息提取方法,包括训练阶段和测试阶段,其中:
步骤1、训练阶段,包括训练数据的生成、模型的构建、损失函数的设计、模型训练,具体为:
步骤1.1、训练数据的生成:训练采用公开的SROIE数据集(SROIE数据集是一个针对英文票据检测识别和关键信息提取任务的数据集),由于SROIE数据集中提供的标注和所需训练网络的格式不符。因此需要对数据集进行前处理生成本实施例训练模型需要使用到的标注格式。
所述的标注是指:每张图片上的文本块中的内容,文本块的位置和关键信息,其中文本块中的内容和位置为:文本内容,x1,y1,x2,y2,,x3,y3,x4,y4,(x1,y1为文本块的左下角的坐标点,x2,y2为文本块的右下角的坐标点,x3,y3为文本块的右上角的坐标点,x4,y4为文本块的左上角的坐标点),关键信息是指:{“date”:“2019-xx-xx”,“address”:”china”,“company”:”walmarxxx”,“total”,“34.00”}。
所述的SROIE数据集包括1000张票据照片和每张票据的标注,分别将其划分为训练集、验证集和测试集,训练集有500张,验证集有100张,测试集有374张。
所述的前处理是指:
①位置坐标的归一化处理:针对所有文本块的四个顶点坐标,将其x轴上的值和y轴上的值按照图片的宽度和高度进行归一化,之后再乘以1000后取整;针对文本块中的每一个单词,计算其左下角的坐标xl,yl和右上角的坐标xr,yr,其中
Figure BDA0002964873480000031
Figure BDA0002964873480000032
n为文本块的总字数,m为当前单词是文本块中的第几个单词。
②使用BIO方法标注文本内容:每一个单词对应其标注,根据其内容判断,非关键信息的内容标注为字母O,关键信息内容的标注则与关键信息的种类名称一一对应。
所述的标注,其格式为:单词,xl,yl,xr,yr,label。例如:China,12,10,35,6,B-Addr Shanghai,40,10,60,6,I-Addr。
步骤1.2、模型的构建:向量转化,即文本内容的向量化和文本位置信息的向量化,文本内容的向量化进一步包括字符向量化和词语向量化,其中字符向量化通过三层CNN网络实现,词语向量化通过GloVe词向量的方式或通过BERT的方式获得;文本位置信息的向量化通过可学习的方式转换或正余弦的方式转换,将位置向量与文本内容融合后,通过一层CRF层预测最后的标注。
所述的可学习的方式转换是指:通过一个id,然后根据这个id去搜索对应的向量,这个向量会随着网络的训练改变,即可学习。
所述的正余弦是指:
Figure BDA0002964873480000041
其中:pos为文本在序列中的位置,i为数值在向量中的位置。
所述的位置向量与文本内容结合包括:i)在文本内容向量化完毕之后结合;ii)位置向量通过BiLSTM之后与文本内容向量通过BiLSTM之后结合;iii)位置向量与文本内容向量通过BiLSTM之后结合。
所述的位置向量与文本内容的结合方式包括:i)相加形式结合:两个向量直接相加;ii)相连形式结合:两个向量头尾相连;iii)基于注意力机制相加形式结合:位置向量和融合向量分别乘以各自的权重后分别通过Tanh激活函数,之后这二者相连之后通过Softmax之后获得注意力权重。这个注意力权重分别乘以位置向量和融合向量后相加得到融合的特征向量。
步骤1.3、设计交叉熵损失损失函数,具体为:
Figure BDA0002964873480000042
其中:N为标签的个数,pk为正确标签向量,qk为神经网络输出的结果向量。
步骤1.4、模型训练:加载预训练好的文本内容向量化网络参数,其他的网络权重采用随机参数初始化,偏置采用全0初始化;针对步骤1.2向量转化进行微调,即采用Adam算法进行模型参数的更新,当模型迭代次数达到预设的迭代次数时,停止训练并保存训练好的模型。
所述的网络参数是指:针对文本内容向量化和文本位置向量化的模块,学习率为2*10-5,而之后的BiLSTM和CRF层的学习率为1*10-3
步骤2、测试阶段:将已有的文本块内容和文本块位置经过步骤1.1前处理转化为要求的格式,通过训练后的关键信息提取网络,得到的关键信息与标注结果进行比对得到召回率
Figure BDA0002964873480000043
Figure BDA0002964873480000044
正确率
Figure BDA0002964873480000045
阳f1分数
Figure BDA0002964873480000046
其中:TP是指:把正样本成功预测为正;TN是指:把负样本成功预测为负;FP是指:负样本错误地预测为正;FN是指:把正样本错误地预测为负。
本实施例进一步采用不同的网络结构在训练集上训练之后,可以发现不同的位置信息的接入位置能够带来不同的结果。使用GloVe词向量的时候,使用不同的结合方式,不同的结合位置能够带来不同的结果。
表1在SROIE验证集上基于GloVe词向量不同的结合方式的结果
Figure BDA0002964873480000051
使用BERT来转换词向量的时候,能够带来更好的结果。有使用固定BERT词向量的方法和微调的方法。
表2在SROIE验证集上基于BERT模型训练的不同的结果
Figure BDA0002964873480000052
本实施例进一步在中文商场票据数据集上进行性能测试:采用总共有500张的中文商场票据数据集,包括400多家店铺的打印票据,图片由手机拍摄获得。图片中的票据会存在一定的倾斜角度和弯曲,难度比SROIE高。本实施例将标注的中文商场票据数据集中450张作为训练集,50张作为测试集。
由于中文商场票据数据集标注格式和英文SROIE的标注方式相同。因此需要根据提供的标注来生成本实施例训练模型需要使用到的标注格式。中文BERT的预训练模型使用的分词方式是将句子中的每个字作为个体,所以就没有加入CNN形式的字向量提取。使用在SROIE数据集上的最优网络结构在中文商场票据数据集上获得的结果。结果如表3所示。
表3在中文商场票据数据集的结果
Figure BDA0002964873480000053
如图3所示,为本实施例采用的前端设备的界面和演示效果。本实施例中关键信息提取网络,在CPU为Intel(R)Xeon(R)Gold 6126,显卡为Rtx2080ti的服务器上进行推理,结果由制作SROIE数据集的官方网站进行评测。平均推理速度为0.1s。
表4为官方评测结果:
Figure BDA0002964873480000061
本发明的票据关键信息提取系统在服务器上运行,前端发送中文商场票据集中的图片。测试结果为,每张图片的平均整体推理时间为4.17s,平均准确率为64%。综上,本发明利用了BERT预训练模型,并结合了富文本的二维位置信息。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (10)

1.一种票据照片关键信息提取系统,其特征在于,包括:前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块,其中:前端模块采集图片并通过通信单元发送至文本检测单元,文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置,并相应裁剪图片后通过通信单元发送至识别单元,识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元,关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示,回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库;
所述的关键信息是指:票据中的商店,地址,总价格和日期。
2.根据权利要求1所述的票据照片关键信息提取系统,其特征是,所述的前端模块,包括:拍摄单元、相册单元、上传单元、显示单元以及判断单元,其中:拍摄单元调取前端设备的摄像头进行拍摄,相册单元读取前端设备的存储内容,选择其中的图片,上传单元将拍摄单元拍摄的图片或者相册单元选择的图片上传到服务器,显示单元从服务器接收关键信息提取结果后显示在前端界面上,判断单元接收用户对关键信息的判断,上传单元与判断单元相连,将用户的判断结果上传至服务器;用户选择性地判断关键信息结果是否提取正确,选择的结果保存以进行错误分析。
3.根据权利要求1所述的票据照片关键信息提取系统,其特征是,所述的识别单元使用针对中文识别通用的CRNN的算法改进版,即特征提取部分为ResNet45,添加高斯模糊的同时增加随机mask来模拟打印效果较差的数据。
4.一种基于上述任一权利要求所述系统的关键信息提取方法,其特征在于,包括训练阶段和测试阶段,其中:
步骤1、训练阶段,包括训练数据的生成、模型的构建、损失函数的设计、模型训练,具体为:
步骤1.1、训练数据的生成:训练采用公开的SROIE数据集前处理生成本实施例训练模型需要使用到的标注格式;
步骤1.2、模型的构建:将文本内容的向量化和文本位置信息的向量化,其中:
所述的文本内容的向量化包括通过三层CNN网络实现的字符向量化和通过GloVe词向量的方式或通过BERT的方式实现的词语向量化;
所述的文本位置信息的向量化通过可学习的方式转换或正余弦的方式转换,将位置向量与文本内容融合后,通过一层CRF层预测最后的标注;
步骤1.3、设计交叉熵损失损失函数,具体为:
Figure FDA0002964873470000021
其中:N为标签的个数,pk为正确标签向量,qk为神经网络输出的结果向量;
步骤1.4、模型训练:加载预训练好的文本内容向量化网络参数,其他的网络权重采用随机参数初始化,偏置采用全0初始化,针对步骤1.2向量转化进行微调,即采用Adam算法进行模型参数的更新,当模型迭代次数达到预设的迭代次数时,停止训练并保存训练好的模型;
步骤2、测试阶段:将已有的文本块内容和文本块位置经过步骤1.1前处理转化为要求的格式,通过训练后的关键信息提取网络,得到的关键信息与标注结果进行比对得到召回率
Figure FDA0002964873470000022
Figure FDA0002964873470000023
正确率
Figure FDA0002964873470000024
和f1分数
Figure FDA0002964873470000025
其中:TP是指:把正样本成功预测为正;TN是指:把负样本成功预测为负;FP是指:负样本错误地预测为正;FN是指:把正样本错误地预测为负。
5.根据权利要求4所述的关键信息提取方法,其特征是,所述的标注是指:每张图片上的文本块中的内容、文本块的位置和关键信息,其中:文本块中的内容和位置为:文本内容,x1,y1,x2,y2,,x3,y3,x4,y4,其中:x1,y1为文本块的左下角的坐标点,x2,y2为文本块的右下角的坐标点,x3,y3为文本块的右上角的坐标点,x4,y4为文本块的左上角的坐标点。
6.根据权利要求4所述的关键信息提取方法,其特征是,所述的前处理是指:
①位置坐标的归一化处理:针对所有文本块的四个顶点坐标,将其x轴上的值和y轴上的值按照图片的宽度和高度进行归一化,之后再乘以1000后取整;针对文本块中的每一个单词,计算其左下角的坐标xl,yl和右上角的坐标xr,yr,其中
Figure FDA0002964873470000026
Figure FDA0002964873470000027
n为文本块的总字数,m为当前单词是文本块中的第几个单词;
②使用BIO方法标注文本内容:每一个单词对应其标注,根据其内容判断,非关键信息的内容标注为字母O,关键信息内容的标注则与关键信息的种类名称一一对应。
7.根据权利要求4所述的关键信息提取方法,其特征是,所述的可学习的方式转换是指:通过一个id,然后根据这个id去搜索对应的向量,这个向量会随着网络的训练改变,即可学习。
8.根据权利要求4所述的关键信息提取方法,其特征是,所述的正余弦是指:
Figure FDA0002964873470000028
Figure FDA0002964873470000031
其中:pos为文本在序列中的位置,i为数值在向量中的位置。
9.根据权利要求4所述的关键信息提取方法,其特征是,所述的位置向量与文本内容结合包括:i)在文本内容向量化完毕之后结合;ii)位置向量通过BiLSTM之后与文本内容向量通过BiLSTM之后结合;iii)位置向量与文本内容向量通过BiLSTM之后结合。
10.根据权利要求4所述的关键信息提取方法,其特征是,所述的位置向量与文本内容的结合方式包括:i)相加形式结合:两个向量直接相加;ii)相连形式结合:两个向量头尾相连;iii)基于注意力机制相加形式结合:位置向量和融合向量分别乘以各自的权重后分别通过Tanh激活函数,之后这二者相连之后通过Softmax之后获得注意力权重,将该注意力权重分别乘以位置向量和融合向量后相加得到融合的特征向量。
CN202110248041.2A 2021-03-07 2021-03-07 票据照片关键信息提取系统及方法 Active CN112861782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110248041.2A CN112861782B (zh) 2021-03-07 2021-03-07 票据照片关键信息提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110248041.2A CN112861782B (zh) 2021-03-07 2021-03-07 票据照片关键信息提取系统及方法

Publications (2)

Publication Number Publication Date
CN112861782A true CN112861782A (zh) 2021-05-28
CN112861782B CN112861782B (zh) 2023-06-20

Family

ID=75994109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110248041.2A Active CN112861782B (zh) 2021-03-07 2021-03-07 票据照片关键信息提取系统及方法

Country Status (1)

Country Link
CN (1) CN112861782B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569629A (zh) * 2021-06-11 2021-10-29 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN115497114A (zh) * 2022-11-18 2022-12-20 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110472041A (zh) * 2019-07-01 2019-11-19 浙江工业大学 一种面向客服在线质检的文本分类方法
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664897A (zh) * 2018-04-18 2018-10-16 平安科技(深圳)有限公司 票据识别方法、装置及存储介质
CN110472041A (zh) * 2019-07-01 2019-11-19 浙江工业大学 一种面向客服在线质检的文本分类方法
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质
CN110569846A (zh) * 2019-09-16 2019-12-13 北京百度网讯科技有限公司 图像文字识别方法、装置、设备及存储介质
CN112232149A (zh) * 2020-09-28 2021-01-15 北京易道博识科技有限公司 一种文档多模信息和关系提取方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINGHUI LIAO ET AL.: "Real-time Scene Text Detection with Differentiable Binarization", 《ARXIV》 *
MINGHUI LIAO ET AL.: "Real-time Scene Text Detection with Differentiable Binarization", 《ARXIV》, 3 December 2019 (2019-12-03), pages 1 - 8 *
WEIHONG MA ET AL.: "Joint Layout Analysis, Character Detection and Recognition for Historical Document Digitization", 《ARXIV》 *
WEIHONG MA ET AL.: "Joint Layout Analysis, Character Detection and Recognition for Historical Document Digitization", 《ARXIV》, 14 July 2020 (2020-07-14), pages 1 - 6 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569629A (zh) * 2021-06-11 2021-10-29 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113569629B (zh) * 2021-06-11 2023-09-15 杭州玖欣物联科技有限公司 一种机加工图纸关键信息提取和敏感信息脱敏的模型方法
CN113591864A (zh) * 2021-07-28 2021-11-02 北京百度网讯科技有限公司 文本识别模型框架的训练方法、装置及系统
CN115497114A (zh) * 2022-11-18 2022-12-20 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法
CN115497114B (zh) * 2022-11-18 2024-03-12 中国烟草总公司四川省公司 一种卷烟物流收货票据的结构化信息提取方法

Also Published As

Publication number Publication date
CN112861782B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN112861782B (zh) 票据照片关键信息提取系统及方法
CN110287479B (zh) 命名实体识别方法、电子装置及存储介质
CN109034727B (zh) 自助电子政务处理方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN109034159A (zh) 图像信息提取方法和装置
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN107391760A (zh) 用户兴趣识别方法、装置及计算机可读存储介质
CN109961068A (zh) 图像识别、训练、搜索方法和装置及设备、介质
CN112418209B (zh) 文字识别方法、装置、计算机设备及存储介质
CN111767883B (zh) 一种题目批改方法及装置
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN110738262B (zh) 文本识别方法和相关产品
CN110287952A (zh) 一种维语图片字符的识别方法及系统
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN111581367A (zh) 一种题目录入的方法和系统
CN112766255A (zh) 一种光学文字识别方法、装置、设备及存储介质
CN111126367A (zh) 一种图像分类方法及系统
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN107291775A (zh) 错误样本的修复语料生成方法和装置
CN110287341A (zh) 一种数据处理方法、装置以及可读存储介质
CN115620312A (zh) 跨模态字符笔迹验证方法、系统、设备及存储介质
CN110334590B (zh) 图像采集引导方法以及装置
CN117077679B (zh) 命名实体识别方法和装置
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant