CN111062397A - 一种智能票据处理系统 - Google Patents
一种智能票据处理系统 Download PDFInfo
- Publication number
- CN111062397A CN111062397A CN201911312507.XA CN201911312507A CN111062397A CN 111062397 A CN111062397 A CN 111062397A CN 201911312507 A CN201911312507 A CN 201911312507A CN 111062397 A CN111062397 A CN 111062397A
- Authority
- CN
- China
- Prior art keywords
- text
- character
- bundle
- probability
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 47
- 238000012937 correction Methods 0.000 claims abstract description 99
- 238000012015 optical character recognition Methods 0.000 claims abstract description 25
- 238000013518 transcription Methods 0.000 claims abstract description 18
- 230000035897 transcription Effects 0.000 claims abstract description 18
- 238000013528 artificial neural network Methods 0.000 claims description 39
- 239000011159 matrix material Substances 0.000 claims description 33
- 238000000034 method Methods 0.000 claims description 30
- 102100032202 Cornulin Human genes 0.000 claims description 24
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000011176 pooling Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims 2
- 238000007689 inspection Methods 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract description 5
- 238000010168 coupling process Methods 0.000 description 11
- 230000008878 coupling Effects 0.000 description 8
- 238000005859 coupling reaction Methods 0.000 description 8
- 229910001220 stainless steel Inorganic materials 0.000 description 7
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical compound [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 239000010935 stainless steel Substances 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 229910000831 Steel Inorganic materials 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000010959 steel Substances 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 210000005266 circulating tumour cell Anatomy 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/273—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion removing elements interfering with the pattern to be recognised
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种智能票据处理系统,通过神经网络模型识别票据图像中的文本信息,利用识别票据图像时产生的内部信息,通过文字束搜索转录和词库选择处理,选择最优的候选文本句子,通过神经网络模型进行纠错,输出更准确的票据文本识别结果。将光学字符识别与文本纠错紧密耦合,相对现有松耦合的票据识别系统能有效地提高文本纠错的性能,提高票据文本识别的准确度。
Description
技术领域
本发明涉及一种智能票据处理系统,属于OCR识别领域。
背景技术
随着近几年来信息处理技术,基于机器深度学习进行文字定位和文字识别的光学字符识别(OCR)系统的性能得到极大提高,在某些领域文字识别的准确率接近人工识别的水平,帮助实现多种场景应用的落地,比如身份证的识别、车牌的识别。在一些商业应用领域,比如票据报销和银行交易等方面,OCR技术也在发挥重要的作用。OCR识别需要针对识别结果进行纠错确保结果的正确性,利用机器自动文本纠错是一种重要的途径,目前主要有两种主流方法:将语言错误归类然后采用分类方法对这些错误类别进行识别方法,以及借鉴统计机器翻译的思想将语言纠错视为机器翻译过程的方法。
现有技术中,基于机器深度学习的OCR识别与纠错的处理两个环节是松耦合的,如图2所示,OCR识别模块输出一串文字,文本纠错模块以该文字串作为输入,纠正其中可能存在的识别错误,除了文本纠错模块以OCR识别模块的输出作为输入之外,两个模块之间没有其它关联,这种松耦合的关系使得识别的精确度不高,难以胜任复杂的识别场景。
发明内容
为了解决上述技术问题,本发明提供一种智能票据处理系统,利用识别票据图像时产生的内部信息,通过文字束搜索转录和词库选择处理,选择最优的候选文本句子进行纠错,输出最终票据识别结果,有效地提高文本纠错的性能,提高文本识别的准确度
本发明的技术方案:
一种智能票据处理系统,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1:输入待识别的票据图像。
S2:接收所述票据图像,通过神经网络识别模型对所述票据图像进行光学字符识别,输出经过识别的文本信息和字符概率矩阵,其中,所述字符概率矩阵记录不同时序不同字符出现的概率,是神经网络识别模型识别文本过程中产生的辅助信息。
S3:对所述字符概率矩阵执行束搜索转录得到候选文本集合,其中,束是对每个时间步下的某个字符组成的字符序列进行处理后得到的文本结果,束搜索转录通过迭代式的寻找候选文字的束集合并对其进行评分排序。
S4:对所述候选文本集合执行词库选择操作,将所述候选文本集合中的文本按顺序与预先设置的词库进行文字比对,输出经过选择的最优文本句子。
S5:通过神经网络纠错模型对所述最优文本句子进行纠错,对输入的最优文本句子进行语义判断和词库匹配处理,纠正句子里面可能存在的字符识别错误,输出经过纠错的最终文本信息。
所述S2步骤中,所述神经网络识别模型为CRNN文字识别模型,所述 CRNN文字识别模型的骨干网络为卷积神经网络,所述CRNN文字识别模型的工作步骤具体为:
S21:所述卷积神经网络对所述票据图像提取文字特征,通过卷积层、池化层,获得文字特征图,再将文字特征图按列切分转化生成文本特征序列,每一列的数据表示该列所表示的字符的特征。
S22:LSTM网络接收所述文本特征序列,执行序列建模处理并输出建模序列。
S23:SoftMax分类器接收所述建模序列,对所述建模序列上的每一个时间步长预测可能出现的字符及其概率,所述SoftMax分类器的输出为一个矩阵,所述矩阵表示所有字符在每个时间步长上出现的概率,记为字符概率矩阵 Ppred,大小为Nc×T,其中,Nc表示文本可能出现的字符个数,T表示文本的时间步长。
S24;对SoftMax分类器输出的信息进行整合处理,得到经过识别的文本信息。
所述CRNN文字识别模型采用的卷积神经网络为残差网络ResNet-34。
所述CRNN文字识别模型在训练过程中采用CTC损失函数计算模型损失,并执行校正操作。
S2步骤中,通过深度学习文本检测模型进行文本位置定位,所述神经网络识别模型根据文本位置进行文本识别。
所述S3步骤中的束搜索转录具体为:
S31:接收所述字符概率矩阵,从第一个时间步开始,按照时间步的顺序迭代寻找、扩大以及合并不同的字符路径,得到包含不同文字束的候选文字集合。
S32:对每个文字束,计算其当前时间步的分数,并以此对候选文字集合进行排序,一个文字束b在时间步t(t>=1)的分数公式为:
Pscore(b,t)=Pd(b,t)+Pnd(b,t),
其中,Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和,Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和。
S33:所述文字束b的所属路径进入下一个时间步,在其末尾加入一个新的字符,并根据字符情况更新文字束b分数公式中或的数值。
当加入的新的字符是‘-’的时候,相应的束不会变化,该文字束的分数更新如下:
Pd(b,t+1)=Pd(b,t+1)+Pscore(b,t)×Ppred('blank',t+1),
其中,Pd(b,t+1)为在t+1时刻所有属于b的以‘-’为末尾字符的路径的概率和,Ppred('blank',t+1)为‘blank’字符在t+1时刻出现的概率,即非字符标记‘-’的概率。
当加入的新字符和该束的末尾字符相同且该字符不是‘-’,相应的文字束也不会发生变化,该文字束的分数更新如下:
Pnd(b,t+1)=Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1),
其中,Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和, Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率。
当加入的字符c和该束的末尾字符不同,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1),
其中,Pnd(b+c,t+1)为在t+1时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Pnd(b+c,t)为在t时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Ppred(c,t+1)为字符c在t+1时刻出现的概率。
当加入的字符c和原束的末尾字符相同且相关路径的末尾是‘-’,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1);
S34:完成所有的时间步,得到最终的候选文本集合,终止束搜索转录。
S33步骤中,预先设置一个字符概率阈值,加入新字符时,从当前时间步下概率大于所述字符概率阈值的字符中进行选择。
所述S4步骤中的词库选择具体为:
S41:接收候选文本集合,所述候选文本集合里面的文本句子按分数排序。
S42:从所述候选文本集合里面选择第一个文本句子作为待处理文本句子。
S43:判断待处理文本句子是否含有词库未收录的词:
当待处理文本句子里面没有词库未收录的单词,则所述待处理文本句子通过词库检查,将句子作为最优的文本句子,并进入步骤S46。
当待处理文本句子里面含有词库未收录的单词,则进入下一步。
S44:如果候选文本集合里面还有未处理的文本句子,则选择未处理句子里面分数最高的一个作为待处理文本句子,并转入S43;否则,进入下一步。
S45:如果所有候选文本句子都没有通过词库检查,则将候选文本集合里面分数最高的文本句子作为最优的文本句子,转入下一步。
S46:输出选择的最优的文本句子。
所述S5步骤中,所述神经网络纠错模型为基于Seq2Seq的语言模型,所述 Seq2Seq语言模型内部采用的神经网络纠错器,其包含一个内置编码器和对应解码器的LSTM序列模型,具体的纠错步骤为:
S51:搜集训练样本,所述训练文本包含错误的OCR识别文本和对应的正确的纠错文本。
S52:对错误的OCR识别文本进行字粒度分割,逐个字符传入LSTM序列模型的编码器,并输入所述文本的特征序列,经过编码和对应解码操作,解码器逐个解码输出相应的纠错字符。
S53:计算解码输出的结果和正确的目标纠错文本之间的误差,采用后向误差传递和优化器去修正模型内部的参数,最终达到收敛,完成模型的训练。
S54:将最优文本句子输入训练好的Seq2Seq语言模型,通过编码器生成一个固定长度的编码特征,然后将从编码器得到的编码特征传入解码器,解码器对编码特征进行解码,输出经过纠错的最终文本信息。
采用候选文本句子文字集监督机制进行纠错后处理,在S5步骤中,当完成步骤S54的纠错后,所述经过纠错的最终文本有至少一个字不在所述候选文本集合里所有字组成的集合里时,则重新进行纠错。
本发明具有如下有益效果:
1、本发明提供一种智能票据处理系统,通过光学字符识别与文字纠错紧耦合处理,充分利用识别文本过程中产生的识别信息,通过文字束搜索转录和词库选择处理,选择最优的候选文本句子进行纠错处理,使得识别结果更精确;
2、进一步地,使用基于深度学习的神经网络,尤其是CRNN文字识别模型进行文本识别,识别结果精度高,模型更成熟;
3、进一步地,利用基于Seq2Seq语言模型纠错语义的纠错方法进行纠错,纠错速度快,精度高,模型更成熟;
4、进一步地,采用候选文本句子文字集监督机制进行纠错后处理,用以避免误纠问题,可以有效地增加纠错模块的可靠性,提高整体纠错模块的灵活度。
5、进一步地,本发明可以针对不同的场景,选择合适的各类模型进行文本识别和纠错,适用范围广。
附图说明
图1为本发明一种智能票据处理系统的工作流程示意图;
图2为现有技术的文本识别系统的工作流程图;
图3为本发明一种智能票据处理系统的一个实施例的工作流程示意图;
图4为本发明一种智能票据处理系统的一个实施例中的待识别文字片段样本示意图;
图5为本发明一种智能票据处理系统的一个实施例中束搜索转录文字束公式计算示意图;
图6为本发明一种智能票据处理系统的一个实施例中采用的Seq2Seq语言模型的字粒度的编码-解码纠错示意图;
图7为本发明一种智能票据处理系统的一个实施例中采用的Seq2Seq语言模型的编码-解码纠错示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
如图1所示,一种智能票据处理系统,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1:输入待识别的票据图像。
S2:接收所述票据图像,通过神经网络识别模型对所述票据图像进行光学字符识别,输出经过识别的文本信息和字符概率矩阵,其中,所述字符概率矩阵记录不同时序不同字符出现的概率,是神经网络识别模型识别文本过程中产生的辅助信息。
所述神经网络模型为CRNN文字识别模型,其输出的字符概率矩阵是模型在对文字依次进行识别时,预测到当前位置可能出现的字符的概率,也即按时序运行时的字符预测概率,简单来说,模型预测时取各时间序列上概率最大的字符组成预测结果。在本实施例中,输入图4的票据图像,“无锡亿特不锈钢有限公司”,CRNN模型可能输出预测的文本“大锡亿特个锈钢有限公同”。在传统的松耦合文本识别系统里,OCR预测的文本“大锡亿特个锈钢有限公同”将被直接输入纠错模块进行纠错处理。在紧耦合方法里面,OCR预测将字符概率矩阵输出给负责耦合处理的部分。字符概率矩阵具有如表1所示的形式。
表1:文字识别模型输出字符概率矩阵Ppred示例
表1显示了字符概率矩阵中的部分序列,省略了后续几个时间步的概率,只用来说明矩阵的构成。其中,横列表示各个时间步上所述字符出现的概率。纵列表示模型在预测过程中判断出现的字符。比如在时间步t0,模型预测当前字符识“大”的概率为0.55,而正确的字符“无”为0.38,神经网络识别模型输出的文本信息第一位置为“大”,而这明显是错误的,原因在于图片中有一条横线干扰,导致识别错误,这就需要后续进行纠错。表中“-”符号是模型判断当前可能出现的空符。
所述S2步骤中,所述神经网络识别模型为CRNN文字识别模型,所述 CRNN文字识别模型的骨干网络为卷积神经网络,所述CRNN文字识别模型的工作步骤具体为:
S21:所述卷积神经网络对所述票据图像提取文字特征,通过卷积层、池化层,获得文字特征图,再将文字特征图按列切分转化生成文本特征序列,每一列的数据表示该列所表示的字符的特征。
CRNN识别模型运用现有技术,卷积层负责提取图象特征,池化层负责缩小特征图大小,一个神经网络包含多个卷积层和池化层,层数根据使用的残差网络而有所不同,最终将一个票据图像,转化为一个序列,或者也可以理解为一个矩阵(这个矩阵和后面的字符概率矩阵不是一个矩阵),这个序列每一列上的数字表示机器所理解的字符特征,一般为512维的数组。下文LSTM网络负责将这个特征序列处理成Softmax分类器所能理解的规格序列,所以需要进行建模处理。
S22:LSTM网络接收所述文本特征序列,执行序列建模处理并输出建模序列。
S23:SoftMax分类器接收所述建模序列,对所述建模序列上的每一个时间步长预测可能出现的字符及其概率,所述SoftMax分类器的输出为一个矩阵,所述矩阵表示所有字符在每个时间步长上出现的概率,记为字符概率矩阵Ppred,大小为Nc×T,其中,Nc表示文本可能出现的字符个数,T表示文本的时间步长。
这里NC和T是描述矩阵的大小,结合表一理解,NC就是所有预测的字符,不同字符在不同位置预测概率不同,T就是预测文本时进行的时间步,每一步预测一个位置上的字符。
S24;对SoftMax分类器输出的信息进行整合处理,得到经过识别的文本信息。
文字识别模块的任务是对文本进行文字识别,输出识别的文本以及选择好的识别器内部的信息。具体选择哪些类型的识别器内部的信息,取决于所采用的文本纠错模块和耦合模块以及相应的纠错性能。在文字识别任务方面,同样有几种比较成熟的深度学习模型可以选择,比如主流的采用卷积神经网络和长短时记忆网络(long short term memory,LSTM)以及CTC的CRNN模型,以及基于注意力机制的模型。
在CRNN模型中,卷积神经网络具有多个阶段(stage),每个阶段都包含一定数目的卷积模块(提取图象特征)和池化层(缩小特征图大小)等。
CRNN模型的训练和预测均可以采用传统的处理,收集一定数量的定位好的文字片段训练样本,比如200000张。每个训练样本包括文字片段图片和文字片段中文字的标注。
所述CRNN文字识别模型采用的卷积神经网络为残差网络ResNet-34。
所述CRNN文字识别模型在训练过程中采用CTC损失函数计算模型损失,并执行校正操作。
CRNN模型经过训练后,可以用于文本的识别。在对SoftMax分离器输出进行处理后,可以直接得到预测的文本。
S2步骤中,通过深度学习文本检测模型进行文本位置定位,所述神经网络识别模型根据文本位置进行文本识别。
根据待处理的扫描的文档图片里面文字的分布情况,可以按照需要选择文本定位子模块。如果待处理的文档图片里面的文字分布已经适合神经网络识别模型处理,可以不需要使用文本定位子模块。如果需要,可以使用很多已经成熟的深度学习模型用于文本定位任务,比如CTPN、EAST、FastText等。
S3:对所述字符概率矩阵执行束搜索转录得到候选文本集合,其中,束是对每个时间步下的某个字符组成的字符序列进行处理后得到的文本结果,束搜索转录通过迭代式的寻找候选文字的束集合并对其进行评分排序。
束搜索技术的功能是从文字识别模型输出的字符预测概率矩阵获取多个识别文本句子,并按照句子的出现概率排序,组成候选集。先介绍下路径和束的概念,路径是以每个时间步下的某个字符组成的字符序列,如‘无无’、‘无- 锡’等。束是对路径进行处理后得到的最终的文本结果。一般地,对路径的处理方式包括去除重复字符和背景字符‘-’(blank)。比如‘无无’经过处理后得到“无”,‘无-锡’经过处理后得到“无锡”。为了方便区分,后续用单引号标注路径,双引号标注文字束。文字束搜索是一种迭代式的寻找候选文字束集合并对其进行评分的过程,简单来说,通过遍历所有时间步上的字符,组成理论上的全部文字集合,并计算所有文字的分数,按照分数大小进行排序,分数越高一定程度上可以认为这组文字的可信度越高,分数计算公式在下文详述。
所述S3步骤中的束搜索转录具体为:
S31:接收所述字符概率矩阵,从第一个时间步开始,按照时间步的顺序迭代寻找、扩大以及合并不同的字符路径,得到包含不同文字束的候选文字集合。
S32:对每个文字束,计算其当前时间步的分数,并以此对候选文字集合进行排序,一个文字束b在时间步t(t>=1)的分数公式为:
Pscore(b,t)=Pd(b,t)+Pnd(b,t),
其中,Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和, Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和。
S33:所述文字束b的所属路径进入下一个时间步,在其末尾加入一个新的字符,并根据字符情况更新文字束b分数公式中或的数值。
当加入的新的字符是‘-’的时候,相应的束不会变化,该文字束的分数更新如下:
Pd(b,t+1)=Pd(b,t+1)+Pscore(b,t)×Ppred('blank',t+1),
其中,Pd(b,t+1)为在t+1时刻所有属于b的以‘-’为末尾字符的路径的概率和,Ppred('blank',t+1)为‘blank’字符在t+1时刻出现的概率,即非字符标记‘-’的概率。
当加入的新字符和该束的末尾字符相同且该字符不是‘-’,相应的文字束也不会发生变化,该文字束的分数更新如下:
Pnd(b,t+1)=Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1),
其中,Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和, Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率。
当加入的字符c和该束的末尾字符不同,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1),
其中,Pnd(b+c,t+1)为在t+1时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Pnd(b+c,t)为在t时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Ppred(c,t+1)为字符c在t+1时刻出现的概率。
当加入的字符c和原束的末尾字符相同且相关路径的末尾是‘-’,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1);
S34:完成所有的时间步,得到最终的候选文本集合,终止束搜索转录。
S33步骤中,预先设置一个字符概率阈值,加入新字符时,从当前时间步下概率大于所述字符概率阈值的字符中进行选择。
这里是给束搜索转录设置条件,减少计算量和候选文本量,剔除可能性很小的候选文本:选字的时候不是把这一步所有可能出现的字都包含进去,这计算可能性较大的那几个字,比如最后一步从公到司,只计算司,同,冈这些大几率的字,而其他的不计算。
对于文字束搜索转录的计算方法进行举例说明,以图4所示文字片段“无锡亿特不锈钢有限公司”,带入表1中的数据计算t0到t1束“无”的分数,如图5所示,包括两个时间步(t0,t1),两个字符'大','无'以及blank标记(图中用'-' 表示)。然后圆球上的数字表示相应字符在当前时间步上出现的概率。
第一个时间步t0,可以得到束“大”的概率为:
Pscore(大,t0)=0.55,其中Pd(大,t0)=0,Pnd(大,t0)=0.55。
束“无”的概率为:
Pscore(无,t0)=0.38,其中Pd(无,t0)=0,Pnd(无,t0)=0.38。
束“-”的概率为:
Pscore(blank,t0)=0.02,Pd(blank,t0)=0.02,Pnd(blank,t0)=0。
进入下一个时间步t1,当想要计算束“无”的概率:
Pscore(无,t1)=Pd(无,t1)+Pnd(无,t1),
其中,
Pd(无,t1)=Pscore(无,t0)*Ppred(blank,t1)=0.38*0.80=0.304,
Pnd(无,t1)=Pscore(blank,t0)*Ppred(无,t1)+Pnd(无,t0)*Ppred(无,t1) =0.02*0.04+0.38*0.04=0.016。
最终Pscore(无,t1)=0.304+0.016=0.32。
按照字符概率矩阵中的数值继续进行计算,直至完成所有束的分数计算。
经过文字束搜索之后,输出一个候选束集合。在本实施例中,候选束集合里面的文字束(以下称为文本句子)按照分数从高到低排列分别为:
“大锡亿特个锈钢有限公同”,
“大锡亿特个锈钢有限公司”,
“大锡亿特不锈钢有限公同”,
“无锡亿特个锈钢有限公同”等。
S4:对所述候选文本集合执行词库选择操作,将所述候选文本集合中的文本按顺序与预先设置的词库进行文字比对,输出经过选择的最优文本句子。
词库选择算法的目的就是从候选的文本句子集合里面选择出最优的一个文本句子,词库算法选择的文本句子将作为输出送到神经网络纠错模型进行纠错处理。
词库可以从目前公开的大规模文本语料中直接获取,比如人民日报、维基百科数据等等。另外也可以根据应用场景收集领域内的相关文本数据作为词库的来源。得到原始的语料之后,采用常用的分词工具对文本进行分词、去重,得到最终的词库。在本实施例中,词库根据目标公司财务系统中的数据进行获取,将财务系统中所有的账务往来公司的名称作为词库构成组件,分词一般选择保留常见的名词,比如地名,商品名,组织结构名称等,再根据百科数据等常见数据库扩充词组范围,例如增加全国城市名称。
在实施例中,首先对第一个候选文本“大锡亿特个锈钢有限公同”进行分词,得到‘大锡’、‘亿’、‘特’、‘个’、‘锈钢’、‘有限’、‘公同’,逐个判断是否收录于词库里。当所有词语都在词库里出现,则相应的候选文本通过词库检查,作为结果输出。如果第一个候选文本没有通过检查,则顺延到下一个文本。
在本实例中,第一个候选文本中的‘大锡’,‘公同’未通过词库检查,顺延至下一文本继续检查。因为所有的候选文本都没有通过检查,所以仍旧把第一个候选文本“大锡亿特个锈钢有限公同”作为结果输出。
所述S4步骤中的词库选择具体为:
S41:接收候选文本集合,所述候选文本集合里面的文本句子按分数排序。
S42:从所述候选文本集合里面选择第一个文本句子作为待处理文本句子。
S43:判断待处理文本句子是否含有词库未收录的词:
当待处理文本句子里面没有词库未收录的单词,则所述待处理文本句子通过词库检查,将句子作为最优的文本句子,并进入步骤S46。
当待处理文本句子里面含有词库未收录的单词,则进入下一步。
S44:如果候选文本集合里面还有未处理的文本句子,则选择未处理句子里面分数最高的一个作为待处理文本句子,并转入S43;否则,进入下一步。
S45:如果所有候选文本句子都没有通过词库检查,则将候选文本集合里面分数最高的文本句子作为最优的文本句子,转入下一步。
S46:输出选择的最优的文本句子。
耦合是将神经网络识别模型输出的更丰富的信息进行适当的处理,将信息有效地转换成神经网络纠错模型可以处理的内容和格式。神经网络识别模型可以根据需要输出不同种类的内部处理信息,比如特征图以及字符预测概率矩阵 Ppred等。针对选择的不同的神经网络识别模型输出的内部处理信息,负责耦合处理的部分将相应地设计和采用不同的处理方法。在具体工程实现上,负责耦合处理的部分可以作为一个单独的模块独立实现,也可以和文本纠错一起实现。在本实施例中,负责耦合处理的部分主要是束搜索转录和词库选择。
S5:通过神经网络纠错模型对所述最优文本句子进行纠错,对输入的最优文本句子进行语义判断和词库匹配处理,纠正句子里面可能存在的字符识别错误,输出经过纠错的最终文本信息。
语义判断是通过神经网络模型学习大量的常见语句,使得模型能够理解不同词语组合中的意义,配合上常用词库中的近义词,同义词等词组,可以在基本理解输入的词句所表达的意义,并且替换错误的词句,达到纠错的目的。在本实施例中,神经网络模型的训练样本来自目标公司的财务系统,收录大量公司,单位,商品名录词条,并按照各种公开企业名录和商品列表进行扩充。
所述神经网络纠错模型采用Seq2Seq语言模型,其结构是一个编码-解码的 LSTM序列模型。其主要思路是把最优文本句子看作成待翻译的源语句,将纠错后的文本看作是翻译后的目标语句。
如图6和图7所示,将最优文本句子“大锡亿特个锈钢有限公同”输入至 Seq2Seq语言模型中,进行字粒度分割后得到11个单字符,分别送入LSTM序列模型的编码器中,LSTM序列模型是长短期记忆网络(LSTM,Long Short-Term Memory),是一种时间循环神经网络。LSTM序列模型的编码器负责将输入的11个字符序列压缩成指定长度的向量,即图7中的一列数组,这个向量看成是这个序列的语义,是模型经过语义识别后的分析结果,这个过程称为编码。语义向量是模型内部的机器语言,可以理解为模型认为的当前语句可能要表达几种含义。
解码器接收语义向量,经过LSTM序列模型的依次翻译,每一次翻译都将上一个翻译字符结合语义向量整合作为输入进入下一个字符翻译过程,最终输出经过纠错的正确文本“无锡亿特不锈钢有限公司”。
文本纠错的功能是对输入的文本句子进行处理,纠正句子里面可能存在的字符识别错误,提高文本识别的正确率。对文本句子进行纠错的方法有很多,比如基于规则的词库匹配方法和基于深度学习的RNN序列模型等等。本发明提出一种基于Seq2Seq语言模型纠错语义的纠错方法为例,以下将描述基于 Seq2Seq语言模型的文本纠错的处理过程。需要指出的是,文本纠错模块可以采用其它的纠错方法。基于Seq2Seq语言模型的纠错器,训练可以选择地利用 OCR识别器的识别结果,可以看作是专门为识别器定制而成。
本发明提出的Seq2Seq语言模型纠错方法里面采用的神经网络纠错器,其结构是一个编码-解码的LSTM序列模型。其主要思路是把OCR或者耦合模块输出的文本句子看作成待翻译的源语句,将纠错后的文本看作是翻译后的目标语句。
所述S5步骤中,所述神经网络纠错模型为基于Seq2Seq的语言模型,所述 Seq2Seq语言模型内部采用的神经网络纠错器,其包含一个内置编码器和对应解码器的LSTM序列模型,具体的纠错步骤为:
S51:搜集训练样本,所述训练文本包含错误的OCR识别文本和对应的正确的纠错文本。
S52:对错误的OCR识别文本进行字粒度分割,逐个字符传入LSTM序列模型的编码器,并输入所述文本的特征序列,经过编码和对应解码操作,解码器逐个解码输出相应的纠错字符。
S53:计算解码输出的结果和正确的目标纠错文本之间的误差,采用后向误差传递和优化器去修正模型内部的参数,最终达到收敛,完成模型的训练。
S54:将最优文本句子输入训练好的Seq2Seq语言模型,通过编码器生成一个固定长度的编码特征,然后将从编码器得到的编码特征传入解码器,解码器对编码特征进行解码,输出经过纠错的最终文本信息。
采用候选文本句子文字集监督机制进行纠错后处理,在S5步骤中,当完成步骤S54的纠错后,所述经过纠错的最终文本有至少一个字不在所述候选文本集合里所有字组成的集合里时,则重新进行纠错。
首先候选文本集合包含了所有可能的字,即所有正确的字和相似的字,当纠错后的句子里出现了没有的字,说明出现了纠错模型自己生造的字,比如图4 这个文本最后一个字“司”,可能是同,司,冈等等,但是纠错后这个位置变成了“会”,说明纠错明显错误,需要重新纠错。
如图3所示,神经网络纠错模型还可以接受神经网络识别模型输出的识别文本,作为对照,进行纠错。
本发明提供一种智能票据处理系统,通过OCR识别模块与纠错模块紧耦合处理,充分利用OCR识别模块识别文本过程中产生的识别信息,通过包含文字束搜索和词库选择的耦合模块进行处理,选择最优的候选文本句子,输入到纠错模块进行纠错处理,使得识别结果更精确;OCR识别模块使用CRNN文字识别模型进行文本识别,识别结果精度高,模型更成熟;纠错模块利用基于 Seq2Seq语言模型纠错语义的纠错方法进行纠错,纠错速度快,精度高,模型高成熟;采用候选文本句子文字集监督机制进行纠错后处理,用以避免误纠问题,可以有效地增加纠错模块的可靠性,提高整体纠错模块的灵活度;本发明可以针对不同的场景,选择合适的各类模型进行文本识别和纠错,适用范围广。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包含在本发明的专利保护范围内。
Claims (10)
1.一种智能票据处理系统,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1:输入待识别的票据图像;
S2:接收所述票据图像,通过神经网络识别模型对所述票据图像进行光学字符识别,输出经过识别的文本信息和字符概率矩阵,其中,所述字符概率矩阵记录不同时序不同字符出现的概率,是神经网络识别模型识别文本过程中产生的辅助信息;
S3:对所述字符概率矩阵执行束搜索转录得到候选文本集合,其中,束是对每个时间步下的某个字符组成的字符序列进行处理后得到的文本结果,束搜索转录通过迭代式的寻找候选文字的束集合并对其进行评分排序;
S4:对所述候选文本集合执行词库选择操作,将所述候选文本集合中的文本按顺序与预先设置的词库进行文字比对,输出经过选择的最优文本句子;
S5:通过神经网络纠错模型对所述最优文本句子进行纠错,对输入的最优文本句子进行语义判断和词库匹配处理,纠正句子里面可能存在的字符识别错误,输出经过纠错的最终文本信息。
2.根据权利要求1所述的一种智能票据处理系统,其特征在于:所述S2步骤中,所述神经网络识别模型为CRNN文字识别模型,所述CRNN文字识别模型的骨干网络为卷积神经网络,所述CRNN文字识别模型的工作步骤具体为:
S21:所述卷积神经网络对所述票据图像提取文字特征,通过卷积层、池化层,获得文字特征图,再将文字特征图按列切分转化生成文本特征序列,每一列的数据表示该列所表示的字符的特征;
S22:LSTM网络接收所述文本特征序列,执行序列建模处理并输出建模序列;
S23:SoftMax分类器接收所述建模序列,对所述建模序列上的每一个时间步长预测可能出现的字符及其概率,所述SoftMax分类器的输出为一个矩阵,所述矩阵表示所有字符在每个时间步长上出现的概率,记为字符概率矩阵Ppred,大小为Nc×T,其中,Nc表示文本可能出现的字符个数,T表示文本的时间步长;
S24;对SoftMax分类器输出的信息进行整合处理,得到经过识别的文本信息。
3.根据权利要求2所述的一种智能票据处理系统,其特征在于:所述CRNN文字识别模型采用的卷积神经网络为残差网络ResNet-34。
4.根据权利要求2所述的基于机器学习的文本识别系统,其特征在于:所述CRNN文字识别模型在训练过程中采用CTC损失函数计算模型损失,并执行校正操作。
5.根据权利要求1所述的基于机器学习的文本识别系统,其特征在于:S2步骤中,通过深度学习文本检测模型进行文本位置定位,所述神经网络识别模型根据文本位置进行文本识别。
6.根据权利要求2所述的一种智能票据处理系统,其特征在于:所述S3步骤中的束搜索转录具体为:
S31:接收所述字符概率矩阵,从第一个时间步开始,按照时间步的顺序迭代寻找、扩大以及合并不同的字符路径,得到包含不同文字束的候选文字集合;
S32:对每个文字束,计算其当前时间步的分数,并以此对候选文字集合进行排序,一个文字束b在时间步t(t>=1)的分数公式为:
Pscore(b,t)=Pd(b,t)+Pnd(b,t),
其中,Pd(b,t)代表所有属于b的以‘-’为末尾字符的路径的概率和,Pnd(b,t)代表其他不以‘-’为末尾字符的路径的概率和;
S33:所述文字束b的所属路径进入下一个时间步,在其末尾加入一个新的字符,并根据字符情况更新文字束b分数公式中或的数值:
当加入的新的字符是‘-’的时候,相应的束不会变化,该文字束的分数更新如下:
Pd(b,t+1)=Pd(b,t+1)+Pscore(b,t)×Ppred('blank',t+1),
其中,Pd(b,t+1)为在t+1时刻所有属于b的以‘-’为末尾字符的路径的概率和,Ppred('blank',t+1)为‘blank’字符在t+1时刻出现的概率,即非字符标记‘-’的概率;
当加入的新字符和该束的末尾字符相同且该字符不是‘-’,相应的文字束也不会发生变化,该文字束的分数更新如下:
Pnd(b,t+1)=Pnd(b,t+1)+Pnd(b,t)×Ppred(b,t+1),
其中,Pnd(b,t+1)为在t+1时刻其他不以‘-’为末尾字符的路径的概率和,Ppred(b,t+1)为字符‘b’在t+1时刻出现的概率;
当加入的字符c和该束的末尾字符不同,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pscore(b,t)×Ppred(c,t+1),
其中,Pnd(b+c,t+1)为在t+1时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Pnd(b+c,t)为在t时刻代表所有不属于b+c的以‘-’为末尾字符的路径的概率和,Ppred(c,t+1)为字符c在t+1时刻出现的概率;
当加入的字符c和原束的末尾字符相同且相关路径的末尾是‘-’,则文字束发生变化,该文字束的分数更新如下:
Pnd(b+c,t+1)=Pnd(b+c,t+1)+Pd(b,t)×Ppred(c,t+1);
S34:完成所有的时间步,得到最终的候选文本集合,终止束搜索转录。
7.根据权利要求6所述的一种智能票据处理系统,其特征在于:S33步骤中,预先设置一个字符概率阈值,加入新字符时,从当前时间步下概率大于所述字符概率阈值的字符中进行选择。
8.根据权利要求1所述的一种智能票据处理系统,其特征在于:所述S4步骤中的词库选择具体为:
S41:接收候选文本集合,所述候选文本集合里面的文本句子按分数排序;
S42:从所述候选文本集合里面选择第一个文本句子作为待处理文本句子;
S43:判断待处理文本句子是否含有词库未收录的词:
当待处理文本句子里面没有词库未收录的单词,则所述待处理文本句子通过词库检查,将句子作为最优的文本句子,并进入步骤S46;
当待处理文本句子里面含有词库未收录的单词,则进入下一步;
S44:如果候选文本集合里面还有未处理的文本句子,则选择未处理句子里面分数最高的一个作为待处理文本句子,并转入S43;否则,进入下一步;
S45:如果所有候选文本句子都没有通过词库检查,则将候选文本集合里面分数最高的文本句子作为最优的文本句子,转入下一步;
S46:输出选择的最优的文本句子。
9.根据权利要求1所述的一种智能票据处理系统,其特征在于:所述S5步骤中,所述神经网络纠错模型为基于Seq2Seq的语言模型,所述Seq2Seq语言模型内部采用的神经网络纠错器,其包含一个内置编码器和对应解码器的LSTM序列模型,具体的纠错步骤为:
S51:搜集训练样本,所述训练文本包含错误的OCR识别文本和对应的正确的纠错文本;
S52:对错误的OCR识别文本进行字粒度分割,逐个字符传入LSTM序列模型的编码器,并输入所述文本的特征序列,经过编码和对应解码操作,解码器逐个解码输出相应的纠错字符;
S53:计算解码输出的结果和正确的目标纠错文本之间的误差,采用后向误差传递和优化器去修正模型内部的参数,最终达到收敛,完成模型的训练;
S54:将最优文本句子输入训练好的Seq2Seq语言模型,通过编码器生成一个固定长度的编码特征,然后将从编码器得到的编码特征传入解码器,解码器对编码特征进行解码,输出经过纠错的最终文本信息。
10.根据权利要求9所述的一种智能票据处理系统,其特征在于,采用候选文本句子文字集监督机制进行纠错后处理,在S5步骤中,当完成步骤S54的纠错后,所述经过纠错的最终文本有至少一个字不在所述候选文本集合里所有字组成的集合里时,则重新进行纠错。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312507.XA CN111062397A (zh) | 2019-12-18 | 2019-12-18 | 一种智能票据处理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911312507.XA CN111062397A (zh) | 2019-12-18 | 2019-12-18 | 一种智能票据处理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111062397A true CN111062397A (zh) | 2020-04-24 |
Family
ID=70302408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911312507.XA Pending CN111062397A (zh) | 2019-12-18 | 2019-12-18 | 一种智能票据处理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062397A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652162A (zh) * | 2020-06-08 | 2020-09-11 | 成都知识视觉科技有限公司 | 一种医疗单证结构化知识提取的文本检测与识别方法 |
CN111666885A (zh) * | 2020-06-08 | 2020-09-15 | 成都知识视觉科技有限公司 | 一种医疗单证结构化知识提取的模板构建与匹配方法 |
CN111783710A (zh) * | 2020-07-09 | 2020-10-16 | 上海海事大学 | 医药影印件的信息提取方法和系统 |
CN111881825A (zh) * | 2020-07-28 | 2020-11-03 | 深圳市点通数据有限公司 | 一种基于多感知数据的交互式文本识别方法和系统 |
CN111916050A (zh) * | 2020-08-03 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN112329814A (zh) * | 2020-09-29 | 2021-02-05 | 山东浪潮通软信息科技有限公司 | 一种发票数据处理方法及设备 |
CN112464845A (zh) * | 2020-12-04 | 2021-03-09 | 山东产研鲲云人工智能研究院有限公司 | 票据识别方法、设备及计算机存储介质 |
CN113435437A (zh) * | 2021-06-24 | 2021-09-24 | 随锐科技集团股份有限公司 | 开关分合指示牌状态的识别方法、识别装置及存储介质 |
CN113743393A (zh) * | 2020-11-17 | 2021-12-03 | 广州市科传计算机科技股份有限公司 | 一种基于人工智能的销售小票校验方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8953885B1 (en) * | 2011-09-16 | 2015-02-10 | Google Inc. | Optical character recognition |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109726715A (zh) * | 2018-12-27 | 2019-05-07 | 信雅达系统工程股份有限公司 | 一种文字图像序列化识别、结构化数据输出方法 |
CN110024026A (zh) * | 2016-11-28 | 2019-07-16 | 谷歌有限责任公司 | 使用语音识别模型生成结构化文本内容 |
-
2019
- 2019-12-18 CN CN201911312507.XA patent/CN111062397A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8953885B1 (en) * | 2011-09-16 | 2015-02-10 | Google Inc. | Optical character recognition |
CN110024026A (zh) * | 2016-11-28 | 2019-07-16 | 谷歌有限责任公司 | 使用语音识别模型生成结构化文本内容 |
CN109376658A (zh) * | 2018-10-26 | 2019-02-22 | 信雅达系统工程股份有限公司 | 一种基于深度学习的ocr方法 |
CN109726715A (zh) * | 2018-12-27 | 2019-05-07 | 信雅达系统工程股份有限公司 | 一种文字图像序列化识别、结构化数据输出方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666885A (zh) * | 2020-06-08 | 2020-09-15 | 成都知识视觉科技有限公司 | 一种医疗单证结构化知识提取的模板构建与匹配方法 |
CN111652162A (zh) * | 2020-06-08 | 2020-09-11 | 成都知识视觉科技有限公司 | 一种医疗单证结构化知识提取的文本检测与识别方法 |
CN111783710B (zh) * | 2020-07-09 | 2023-10-03 | 上海海事大学 | 医药影印件的信息提取方法和系统 |
CN111783710A (zh) * | 2020-07-09 | 2020-10-16 | 上海海事大学 | 医药影印件的信息提取方法和系统 |
CN111881825A (zh) * | 2020-07-28 | 2020-11-03 | 深圳市点通数据有限公司 | 一种基于多感知数据的交互式文本识别方法和系统 |
CN111881825B (zh) * | 2020-07-28 | 2023-10-17 | 深圳市点通数据有限公司 | 一种基于多感知数据的交互式文本识别方法和系统 |
CN111967246A (zh) * | 2020-07-30 | 2020-11-20 | 湖南大学 | 一种购物票据识别结果纠错方法 |
CN111916050A (zh) * | 2020-08-03 | 2020-11-10 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、存储介质和电子设备 |
CN112329814A (zh) * | 2020-09-29 | 2021-02-05 | 山东浪潮通软信息科技有限公司 | 一种发票数据处理方法及设备 |
CN112329814B (zh) * | 2020-09-29 | 2022-10-11 | 浪潮通用软件有限公司 | 一种发票数据处理方法及设备 |
CN113743393A (zh) * | 2020-11-17 | 2021-12-03 | 广州市科传计算机科技股份有限公司 | 一种基于人工智能的销售小票校验方法 |
CN112464845A (zh) * | 2020-12-04 | 2021-03-09 | 山东产研鲲云人工智能研究院有限公司 | 票据识别方法、设备及计算机存储介质 |
CN113435437A (zh) * | 2021-06-24 | 2021-09-24 | 随锐科技集团股份有限公司 | 开关分合指示牌状态的识别方法、识别装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062376A (zh) | 基于光学字符识别与纠错紧耦合处理的文本识别方法 | |
CN111062397A (zh) | 一种智能票据处理系统 | |
CN114444479B (zh) | 一种端到端中文语音文本纠错方法、装置和存储介质 | |
CN109800414B (zh) | 语病修正推荐方法及系统 | |
Truong et al. | Improvement of end-to-end offline handwritten mathematical expression recognition by weakly supervised learning | |
CN114429132B (zh) | 一种基于混合格自注意力网络的命名实体识别方法和装置 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN109948144B (zh) | 一种基于课堂教学情境的教师话语智能处理的方法 | |
CN114495910B (zh) | 文本纠错方法、系统、设备及存储介质 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
Romero-Gómez et al. | Automatic alignment of handwritten images and transcripts for training handwritten text recognition systems | |
CN112989806A (zh) | 一种智能化文本纠错模型训练方法 | |
CN113393916B (zh) | 一种冠脉医疗报告结构关系提取的方法和装置 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
Saluja et al. | Error detection and corrections in Indic OCR using LSTMs | |
CN113221542A (zh) | 一种基于多粒度融合与Bert筛选的中文文本自动校对方法 | |
CN117094311B (zh) | 一种关于中文语法纠错的误纠过滤器的建立方法 | |
Tassopoulou et al. | Enhancing handwritten text recognition with n-gram sequence decomposition and multitask learning | |
CN113420766B (zh) | 一种融合语言信息的低资源语种ocr方法 | |
CN115565179A (zh) | 一种字符识别后纠错方法、系统及装置 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN111782773B (zh) | 基于级连模式的文本匹配方法及装置 | |
CN114328938B (zh) | 一种影像报告结构化提取方法 | |
CN116450781A (zh) | 问答的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20240816 |
|
AD01 | Patent right deemed abandoned |