CN112418209A - 文字识别方法、装置、计算机设备及存储介质 - Google Patents
文字识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112418209A CN112418209A CN202011478206.7A CN202011478206A CN112418209A CN 112418209 A CN112418209 A CN 112418209A CN 202011478206 A CN202011478206 A CN 202011478206A CN 112418209 A CN112418209 A CN 112418209A
- Authority
- CN
- China
- Prior art keywords
- image
- character recognition
- character
- subspace
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims abstract description 69
- 230000007246 mechanism Effects 0.000 claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 46
- 238000013518 transcription Methods 0.000 claims abstract description 28
- 230000035897 transcription Effects 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 18
- 238000011176 pooling Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000015654 memory Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 238000012015 optical character recognition Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了文字识别方法、装置、计算机设备及存储介质。该方法包括:获取样本图像和文字识别模型,用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的特征图像;通过所述文字识别模型的BiLSTM循环层对所述特征图像中的每个字符进行上下文分析,确定各字符的概率分布矩阵;基于所述概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;最后利用最优的文字识别模型对识别图像进行文字识别,得到文字识别结果。该方法提高文字识别模型识别文字的准确性。
Description
技术领域
本发明涉及文字识别技术领域,尤其涉及一种文字识别方法、装置、计算机设备及存储介质。
背景技术
随着社会经济的发展和科学技术的进步,图像识别技术逐渐被应用到更多的行业领域中,OCR(光学字符识别,Optical Character Recognition,是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程)文字识别技术有着丰富的应用场景,包括已经在日常生活中广泛应用的面向垂类的结构化文本识别,如车牌识别、银行卡信息识别、身份证信息识别、火车票信息识别等等。此外,通用OCR文字识别技术也有广泛的应用,如在视频场景中,经常使用OCR文字识别技术进行字幕自动翻译、内容安全监控等等。但在实际应用中,尤其是在广泛的通用场景下,OCR文字识别技术也面临一些挑战,比如仿射变换、尺度问题、光照不足、拍摄模糊等技术难点;并且OCR文字识别应用常对接海量数据,但要求数据能够得到实时处理;并且OCR应用常部署在移动端或嵌入式硬件,而端侧的存储空间和计算能力有限,因此对OCR模型的大小和预测速度有很高的要求。
发明内容
本发明实施例提供了一种文字识别方法、装置、计算机设备及存储介质,旨在解决复杂背景下的文字识别准确率低及识别效率不高的问题。
第一方面,本发明实施例提供了一种文字识别方法,其包括:
训练阶段:
获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述特征图像中各预测字符的第一概率分布矩阵,所述第一概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
识别阶段:
输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
第二方面,本发明实施例提供了一种文字识别装置,其包括:
获取模块,用于获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
第一特征提取模块,用于利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
第一概率计算模块,用于通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述特征图像中各预测字符的第一概率分布矩阵,所述第一概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
损失计算模块,用于基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
第二特征提取模块,用于输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
第二概率计算模块,用于通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
冗余去除模块,用于基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文字识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的文字识别方法。
本发明实施例提供了一种文字识别方法、装置、计算机设备及存储介质。该方法包括获取样本图像和文字识别模型;用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的特征图像;通过所述文字识别模型的BiLSTM循环层对所述特征图像中的每个字符的特征进行上下文分析,确定所述特征图像中各预测字符的概率分布矩阵;基于所述概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块、子空间注意力机制模块及BiLSTM循环层,确定所述识别图像中各字符的概率分布矩阵;基于所述文字识别模型的CTC转录层从所述识别图像的概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。该方法通过子空间注意力机制模块实现多空间特征提取,进一步提高文字识别模型识别文字的准确性的同时,提高文字识别模型的预测效率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的文字识别方法的流程示意图;
图2为本发明实施例提供的文字识别方法中步骤S120的流程示意图;
图3为本发明实施例提供的文字识别方法中步骤S122的流程示意图;
图4为本发明实施例提供的文字识别方法中步骤S130的流程示意图;
图5为本发明实施例提供的文字识别装置的示意性框图;
图6为本发明实施例提供的文字识别模型的子空间注意力机制模块的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、字符和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、字符、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何路径以及所有可能路径,并且包括这些路径。
请参阅图1为本发明实施例提供的文字识别方法的流程示意图,该方法包括步骤S110~S140以及T110~T130。
训练阶段:
S110、获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
本实施例中,作为用于训练文字识别模型的样本图像,样本图像需为包含至少一个字符的图像。样本图像在输入文字识别模型之前,需进行归一化处理,将每张样本图像调整至同样大小。例如,输入像素大小为w×h×3(此处w×h代表图像尺寸,3代表图像的3个通道,即R、G、B)的文字图像,将图像归一化至同样大小,即归一化至大小w×32×3的图像,并分为训练样本集、验证样本集和测试样本集。文字识别模型是用于对包含字符的图像进行文字识别,采用改进后的混合神经网络,包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层。具体的,混合神经网络的卷积核可以是3×3、5×5等。BiLSTM循环层是基于双向长短期记忆(Bi-directional Long Short-Term Memory,BiLSTM)的循环层,是由前向LSTM与后向LSTM组合而成。两者在自然语言处理任务中都常被用来建模上下文信息。CTC转录层(Connectionist temporal classification,CTC)是基于联结时序分类的转录层,用于解决时序类数据的分类问题。
S120、利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
本实施例中,采用轻量级网络MobileNetV3用于目标检测与语义分割任务,结合深度可分离卷积及限性瓶颈的倒残差结构,改进MobileNetV3中的SE注意力机制,使得轻量级网络MobileNetV3的注意力机制成为一种层数更深、特征维度更高、参数更少的轻量级子空间注意力机制。轻量级网络MobileNetV3是卷积神经网络模型的一种。利用一定数量的倒残差结构模块获取一定数量的特征图像,可插入一个子空间注意力机制模块,进行特征图像进行特征“重标定”,得到特征图像在各子空间中的不同注意力特征提取,该子空间注意力机制模块主要是将特征图像分组,分别进行基于卷积的空间注意力机制的学习,为每个特征子空间推导不同的注意力特征图像,拼接注意力特征图像,得到第一特征图像,实现多尺度特征表示。该子空间注意力机制模块可根据特征提取情况,在特征提取主干网络的卷积层间进行随机添加,但由于添加子空间注意力机制模块会导致模型的层数增加,为了保证模型的效率,子空间注意力机制模块和特征提取网络都采用深度可分离卷积和点卷积,用来压缩参数数量并轻量化网络。
在一实施例中,如图2所示,步骤S120包括:
S121、利用所述倒残差结构模块对所述样本图像进行特征提取,得到卷积特征图像;
S122、利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取,得到在预置个数的注意力子空间中的注意力特征图像,并将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
本实施例中,将样本图像输入文字识别模型后,利用倒残差结构模块对样本图像进行卷积特征提取,得到指定大小的卷积特征图像;再利用预置不同的注意力权重机制的子空间注意力机制模块,对卷积特征图像进行注意力特征提取,然后将注意力特征提取得到的注意力特征图像进行拼接、合并,得到样本图像对应的第一特征图像。
在一实施例中,如图3所示,步骤S122包括:
S1221、将所述卷积特征图像按通道切分为g组,得到多个子空间特征图;
S1222、对每一所述子空间特征图进行深度可分离卷积,然后通过最大池化层进行池化,再进行点卷积处理,再使用softmax函数进行计算得到对应的权重矩阵;
S1223、将所述权重矩阵与对应的所述子空间特征图进行点乘,得到多个权重特征图像;
S1224、将各所述权重特征图像与对应的所述子空间特征图进行残差处理,得到对应注意力子空间的注意力特征图像;
S1225、将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
本实施例中,为了方便各个子空间注意力机制模块对卷积特征图像进行子空间特征提取,将卷积特征图像按通道切分为g组,得到用于进行不同注意力空间特征提取的多个子空间特征图。基于多个子空间特征图,对每个子空间特征图进行深度可分离卷积处理,为了保持特征图大小不变,加入了补零操作,深度可分离卷积之后再通过最大池化层进行最大池化处理,池化后进行点卷积处理。相比常规的特征提取处理,深度可分离卷积处理结合点卷积处理可以更好的提取特征。在利用softmax函数对提取的特征图像进行计算,得到特征图像对应的权重矩阵。权重矩阵中的每个权重表示对应的子空间特征图的权重,所有子空间特征图的权重和为1。接着令权重矩阵中每个权重与对应的子空间特征图进行点乘,计算得到多个子空间特征图对应的权重特征图像。再将各权重特征图像与对应的子空间特征图进行残差处理,得到对应注意力子空间的注意力特征图像,最后将各注意力特征图像拼接起来,得到第一特征图像。
进一步的,如图6为子空间注意力机制模块结构示意图,其中,DW为深度可分离卷积处理,Maxpooling为最大池化处理,PW为点卷积处理。
例如,将w/8×h/8×40的特征图像输入到子空间注意力机制模块。该子空间注意力机制模块首先将输入的特征图像按通道分为g组分别处理,每组有40/g个特征图像,得到多个子空间特征图,每个子空间特征图大小为w/8×h/8×40/g。各个子空间特征图首先进行深度可分离卷积处理,卷积核大小为1×1,接着通过步长为1,尺寸为33的最大池化层,为了保持特征图像大小不变,加入了补零操作。使用1×1的点卷积处理,得到w/8×h/8×1的子空间特征图。深度可分离卷积和点卷积两个部分的结合使用可以更好的提取特征,相比常规的卷积操作,参数数量和运算成本低。使用softmax处理,将w/8×h/8×1子空间特征图扩展为w/8×h/8×40/g的权重矩阵。输入w/8×h/8×40/g的权重矩阵与对应的w/8×h/8×1子空间特征图,通过点乘方式分配权重,再对权重特征图像与对应的子空间特征图进行残差处理,得到对应的注意力子空间w/8×h/8×40/g注意力特征图像。最后将所有w/8×h/8×40/g注意力特征图像进行拼接,得到第一特征图像。
进一步地,在步骤S120之后,还包括:
对所述特征图像依次进行一次卷积、池化、二次卷积和三次卷积。
本实施例中,根据实际情况,得到特征图像后,用户可以根据实际情况需要对特征图像进行进一步卷积处理和池化处理,如一次卷积特征提取、池化处理、二次卷积特征提取和三次卷积特征提取。
本实施例中使用的改进后的混合神经网络的结构如表1所示:
表1
需要注意的是,表1中的倒残差块即为倒残差结构模块,文字识别模型包含多个倒残差结构模块和多个子空间注意力机制模块,conv2d表示二维卷积,pool表示池化,bneck表示瓶颈。其中,倒残差结构模块的数量大于子空间注意力机制模块的数量,并且每一子空间注意力机制模块与一个对应的倒残差结构模块配合使用。例如,用户可以在每一个倒残差结构模块后都使用单独的一个子空间注意力机制模块对特征图像进行指定注意力特征提取;也可以在多个倒残差结构模块对特征图像进行特征提取后,再使用一个子空间注意力机制模块进行指定注意力特征提取。具体的,本发明实施例所使用的文字识别模型中包含倒残差结构模块设有15个,子空间注意力机制模块设有8个。
输入图像w×h×3经第一卷积块进行卷积处理得到w/2×h/2×16,然后经过3个卷积核为3×3的线性瓶颈的倒残差结构模块(即第一倒残差块、第二倒残差块、第三倒残差块)后,得到大小为w/4×h/4×24的卷积特征图像,再输入到1个卷积核为5×5的线性瓶颈的倒残差结构模块(即第四倒残差块)后,得到大小为w/8×h/8×40的卷积特征图像,这样经过共计4个倒残差结构模块的处理后,得到大小为w/8×h/8×40的卷积特征图像。然后将所述大小为w/8×h/8×40的卷积特征图像输入到子空间注意力机制模块进行处理,得到特征图像w/8×h/8×40。
然后将得到的特征图像w/8×h/8×40经两个5×5的线性瓶颈的倒残差结构模块和对应的子空间注意力机制模块,以及经5个3×3的线性瓶颈的倒残差结构模块,得到112个w/16×h/16大小的特征图像,在此处插入一个子空间注意力机制模块进行处理,将输出的特征图像再通过1个3×3的线性瓶颈的倒残差结构模块,及一个子空间注意力机制模块,得到112个w/16×h/16的特征图像。再通过3个5×5的线性瓶颈的倒残差结构模块及子空间注意力机制模块,得到w/16×h/16×160。最后经过一层1×1的卷积(即第二卷积块)、2×2的池化(即第一池化块)和2层1×1卷积(即第三卷积块和第四卷积块),得到大小为w/32×h/32×1280的特征图像。
S130、通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述第一特征图像中各预测字符的第一概率分布矩阵,所述概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
本实施例中,为了预测从卷积层获取的特征序列的各预测字符的概率分布,利用BiLSTM循环层的双向长期记忆结构,对特征图像中每个字符进行前向量预测与后向量预测。根据前向向量预测和后向向量预测,对特征图像中每个字符的特征进行上下文分析,再汇总上下文分析结果得到第一特征图像中各预测字符的概率集合,即第一概率分布矩阵。BiLSTM循环层有256个隐藏节点,经过BiLSTM循环层后变为长度为T×nclass的向量,再经过softmax函数处理,列向量每个元素代表对应的字符预测概率,得到从卷积层获取的特征序列的第一概率分布矩阵。
在一实施例中,如图4所示,步骤S130包括:
S131、对所述第一特征图像进行划分,得到所述第一特征图像的特征序列;
S132、将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元,分别得到前向向量和后向向量,将所述前向向量和后向向量进行对应拼接得到预测字符向量;
S133、通过softmax函数对所述预测字符向量进行概率计算,得到所述第一概率分布矩阵。
本实施例中,将第一特征图像进行划分,得到最大时间长度T,每个输入列向量D,形成第一特征图像的特征序列。然后将特征序列输入到BiLSTM循环层,输入的特征序列在BiLSTM循环层中向前传递和向后传递分别是两个长短期记忆层(LSTM),前向LSTML单元和后向LSTMR单元,而且这两个(LSTM)单元都连接着一个输出层,最后将输出的向量拼接在一起,从而得到第一特征图像的预测字符向量。这个结构提供给输出层输入序列中每一个字符完整的过去和未来的上下文信息,为网络提供了额外的前后联系,并且能够更快,更充分的学习问题。
例如,输入特征序列[x1,x2,x3,…,xi]到BiLSTM循环层,每个前向LSTML单元输出特征序列中每一个向量的前向向量,分别为hL1,hL2,hL3,…,hLi。每个后向LSTMR单元输出特征序列中每一个向量的后向向量,分别为hR1,hR2,hR3,…,hRi。分别将hL1和hRi拼接成为向量h1,hL2和hRi-1拼接成为向量h2,以此类推得到特征序列的预测字符向量。
S140、基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
本实施例中,一个文本标签中可以有多个不同的字符对齐组合。例如,“aa-b”和“aabb”以及“-abb”都代表相同的文本(“ab”),但是与图像的对齐方式不同,其中,“-”代表空格。也就是说,一个文本标签存在一条或多条的字符对齐路径。计算BiLSTM循环层输出的概率分布矩阵中所有对齐路径的概率之和,进而根据概率之和及预置的损失函数,计算误差损失对文字识别模型的模型参数进行优化,从而得到最优的文字识别模型。其中,使用的损失函数具体如下:
其中,表示时间t输出πt的概率,π表示输出的字符对齐组合,p(πx)表示基于输入x的输出字符对齐组合的概率,p(zx)表示所有对齐路径的概率之和,z表示字符对齐路径B到所有对齐路径的映射关系,L(S)表示负的最大似然,为了计算方便,对似然取对数。
识别阶段:
T110、输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
T120、通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
T130、基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
本实施例中,转录是将BiLSTM循环层对每个预测字符向量所做的预测转换成序列标签的过程。使用CTC转录层把标签分布通过去重、整合等操作,归纳字符间的连接特性,转换成最终的识别结果。BiLSTM循环层进行时序分类时,会出现很多冗余信息,比如一个字母被连续识别两次或存在空格,因而通过CTC转录层中的去除空格机制来有效去除冗余信息。将识别图像输入文字识别模型中,基于预训练好的文字识别模型的倒残差结构模块及子空间注意力机制模块对识别图像进行特征提取,提取识别图像的第二特征图像,然后通过文字识别模型的BiLSTM循环层对第二特征图像中每个字符的特征进行上下文分析,输出所有预测字符对应的第二概率分布矩阵。BiLSTM循环层中计算得到第二概率分布矩阵后,随机组合概率分布矩阵中所有的预测字符,得到多条字符对齐路径。对于一段长度为T的特征序列,每个预测字符经过BiLSTM循环层都会输出一个softmax向量,表示该预测字符的预测概率,所有预测字符的这些概率传输给CTC转录层后,输出最可能的字符对齐路径,再经过去除空格和去重操作,就可以得到最终的序列标签(即文字识别结果)。需要知道的是,第二概率分布矩阵与第一概率分布矩阵的组成一样,区别在于第一概率分布矩阵为样本图像的预测字符的概率分布矩阵,而第二概率分布矩阵为识别图像的预测字符的概率分布矩阵。
该方法可以捕获特征子空间里的关系,针对每个特征子空间倾斜单独的注意力特征图像实现了多尺度和多频率的特征表示,对于细粒度的图像特征提取而言更为理想。该方法能够解决复杂背景下的文字和背景的分割问题,提高文字识别准确率,同时由于参数量大大减少,可将模型大小初步减少90%以上,通过减小通道数,使得模型大小进一步缩小,而且还可以对轻量型CNN中的即插即用模块进行部署。
本发明实施例还提供一种文字识别装置,该文字识别装置用于执行前述文字识别方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的文字识别装置的示意性框图。该文字识别装置100可以配置于服务器中。
如图5所示,文字识别装置100包括获取模块110、第一特征提取模块120、概率计算模块130、损失计算模块140、第二特征提取模块150、第二概率计算模块160、冗余去除模块170。
获取模块110,用于获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
第一特征提取模块120,用于利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
第一概率计算模块130,用于通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述第一特征图像中各预测字符的第一概率分布矩阵,所述概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
损失计算模块140,用于基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
第二特征提取模块150,用于输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
第二概率计算模块160,用于通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
冗余去除模块170,用于基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
在一实施例中,第一特征提取模块120包括:
第一提取单元,用于利用所述倒残差结构模块对所述样本图像进行特征提取,得到卷积特征图像;
第二提取单元,用于利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取,得到在预置个数的注意力子空间中的注意力特征图像,并将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
在一实施例中,第二提取单元包括:
切分子单元,用于将所述卷积特征图像按通道切分为g组,得到多个子空间特征图;
权重计算子单元,用于对每一所述子空间特征图进行深度可分离卷积,然后通过最大池化层进行池化,再进行点卷积处理,再使用softmax函数进行计算得到对应的权重矩阵;
点乘子单元,用于将各所述权重矩阵与对应的所述子空间特征图进行点乘,得到多个权重特征图像;
残差子单元,用于将各所述权重特征图像与对应的所述子空间特征图进行残差处理,得到对应注意力子空间的注意力特征图像;
拼接子单元,用于将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
在一实施例中,第一概率计算模块130包括:
划分单元,用于对所述第一特征图像进行划分,得到所述第一特征图像的特征序列;
拼接单元,用于将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元,分别得到前向向量和后向向量,将所述前向向量和后向向量进行对应拼接得到预测字符向量;
计算单元,用于通过softmax函数对所述预测字符向量进行概率计算,得到所述第一概率分布矩阵。
上述装置实施例的内容与上述方法实施例的内容一一对应,关于装置实施例的具体技术细节可参考方法实施例的描述。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的文字识别方法。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的文字识别方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种文字识别方法,其特征在于,包括:
训练阶段:
获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述特征图像中各预测字符的第一概率分布矩阵,所述第一概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
识别阶段:
输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
2.根据权利要求1所述的文字识别方法,其特征在于,所述利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像包括:
利用所述倒残差结构模块对所述样本图像进行特征提取,得到卷积特征图像;
利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取,得到在预置个数的注意力子空间中的注意力特征图像,并将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
3.根据权利要求2所述的文字识别方法,其特征在于,所述利用所述子空间注意力机制模块对所述卷积特征图像进行特征提取,得到在预置个数的注意力子空间中的注意力特征图像,并将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像,包括:
将所述卷积特征图像按通道切分为g组,得到多个子空间特征图;
对每一所述子空间特征图进行深度可分离卷积,然后通过最大池化层进行池化,再进行点卷积处理,再使用softmax函数进行计算得到对应的权重矩阵;
将各所述权重矩阵与对应的所述子空间特征图进行点乘,得到多个权重特征图像;
将各所述权重特征图像与对应的所述子空间特征图进行残差处理,得到对应注意力子空间的注意力特征图像;
将各所述注意力子空间中的注意力特征图像进行拼接,得到所述第一特征图像。
4.根据权利要求2所述的文字识别方法,其特征在于,所述文字识别模型中包含多个倒残差结构模块和多个子空间注意力机制模块,其中,所述倒残差结构模块的数量大于所述子空间注意力机制模块的数量,并且每一所述子空间注意力机制模块与一个对应的所述倒残差结构模块配合使用。
5.根据权利要求4所述的文字识别方法,其特征在于,所述倒残差结构模块设有15个,所述子空间注意力机制模块设有8个。
6.根据权利要求1所述的文字识别方法,其特征在于,所述利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像之后,还包括:
对所述特征图像依次进行一次卷积、池化、二次卷积和三次卷积。
7.根据权利要求1所述的文字识别方法,其特征在于,所述通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述第一特征图像中对各预测字符的第一概率分布矩阵包括:
对所述第一特征图像进行划分,得到所述第一特征图像的特征序列;
将所述特征序列输入至所述BiLSTM循环层中的前向LSTML单元和后向LSTMR单元,分别得到前向向量和后向向量,将所述前向向量和后向向量进行对应拼接得到预测字符向量;
通过softmax函数对所述预测字符向量进行概率计算,得到所述第一概率分布矩阵。
8.一种文字识别装置,其特征在于,包括:
获取模块,用于获取样本图像及文字识别模型,所述样本图像包含至少一个字符,所述文字识别模型为包括倒残差结构模块、子空间注意力机制模块、BiLSTM循环层和CTC转录层的混合神经网络;
第一特征提取模块,用于利用所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述样本图像进行特征提取,得到所述样本图像的第一特征图像;
第一概率计算模块,用于通过所述文字识别模型的BiLSTM循环层对所述第一特征图像中每个字符的特征进行上下文分析,确定所述特征图像中各预测字符的第一概率分布矩阵,所述第一概率分布矩阵由T个1×nclass列向量构成,其中,T为最大时间长度,nclass为预测字符,所述概率分布矩阵的列向量表示每个元素代表对应的预测概率;
损失计算模块,用于基于所述第一概率分布矩阵及所述文字识别模型的CTC转录层中预置的损失函数计算误差损失,并根据所述误差损失对所述文字识别模型的模型参数进行优化,得到最优的文字识别模型;
第二特征提取模块,用于输入识别图像至所述文字识别模型,通过所述文字识别模型的倒残差结构模块及子空间注意力机制模块对所述识别图像进行特征提取,得到所述识别图像的第二特征图像;
第二概率计算模块,用于通过所述文字识别模型的BiLSTM循环层对所述第二特征图像中每个字符的特征进行上下文分析,确定所述识别图像的第二概率分布矩阵;
冗余去除模块,用于基于所述文字识别模型的CTC转录层从所述第二概率分布矩阵中提取出最大概率路径,并对所述最大概率路径进行冗余去除处理,得到文字识别结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文字识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的文字识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478206.7A CN112418209B (zh) | 2020-12-15 | 2020-12-15 | 文字识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011478206.7A CN112418209B (zh) | 2020-12-15 | 2020-12-15 | 文字识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418209A true CN112418209A (zh) | 2021-02-26 |
CN112418209B CN112418209B (zh) | 2022-09-13 |
Family
ID=74775209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011478206.7A Active CN112418209B (zh) | 2020-12-15 | 2020-12-15 | 文字识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418209B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801228A (zh) * | 2021-04-06 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN113052176A (zh) * | 2021-04-09 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 一种字符识别模型训练方法、装置及系统 |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113361522A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 确定字符序列的方法、装置和电子设备 |
CN113792741A (zh) * | 2021-09-17 | 2021-12-14 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN114332844A (zh) * | 2022-03-16 | 2022-04-12 | 武汉楚精灵医疗科技有限公司 | 医学图像的智能分类应用方法、装置、设备和存储介质 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN110210480A (zh) * | 2019-06-05 | 2019-09-06 | 北京旷视科技有限公司 | 文字识别方法、装置、电子设备和计算机可读存储介质 |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
US20200175053A1 (en) * | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
CN111598087A (zh) * | 2020-05-15 | 2020-08-28 | 润联软件系统(深圳)有限公司 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
CN111666931A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
-
2020
- 2020-12-15 CN CN202011478206.7A patent/CN112418209B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180101726A1 (en) * | 2016-10-10 | 2018-04-12 | Insurance Services Office Inc. | Systems and Methods for Optical Character Recognition for Low-Resolution Documents |
CN110321755A (zh) * | 2018-03-28 | 2019-10-11 | 中移(苏州)软件技术有限公司 | 一种识别方法及装置 |
US20200175053A1 (en) * | 2018-11-30 | 2020-06-04 | Sony Interactive Entertainment Inc. | System and method for converting image data into a natural language description |
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN110210480A (zh) * | 2019-06-05 | 2019-09-06 | 北京旷视科技有限公司 | 文字识别方法、装置、电子设备和计算机可读存储介质 |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111598087A (zh) * | 2020-05-15 | 2020-08-28 | 润联软件系统(深圳)有限公司 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
CN111666931A (zh) * | 2020-05-21 | 2020-09-15 | 平安科技(深圳)有限公司 | 基于混合卷积文字图像识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王茂森 等: "一种新的场景文本识别模型", 《北京理工大学学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801228A (zh) * | 2021-04-06 | 2021-05-14 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN112801228B (zh) * | 2021-04-06 | 2021-08-06 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、电子设备及其存储介质 |
CN113052176A (zh) * | 2021-04-09 | 2021-06-29 | 平安国际智慧城市科技股份有限公司 | 一种字符识别模型训练方法、装置及系统 |
CN113159013A (zh) * | 2021-04-28 | 2021-07-23 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113159013B (zh) * | 2021-04-28 | 2024-05-07 | 平安科技(深圳)有限公司 | 基于机器学习的段落识别方法、装置、计算机设备和介质 |
CN113361522A (zh) * | 2021-06-23 | 2021-09-07 | 北京百度网讯科技有限公司 | 确定字符序列的方法、装置和电子设备 |
CN113361522B (zh) * | 2021-06-23 | 2022-05-17 | 北京百度网讯科技有限公司 | 用于确定字符序列的方法、装置和电子设备 |
CN113792741A (zh) * | 2021-09-17 | 2021-12-14 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN113792741B (zh) * | 2021-09-17 | 2023-08-11 | 平安普惠企业管理有限公司 | 文字识别方法、装置、设备及存储介质 |
CN114332844A (zh) * | 2022-03-16 | 2022-04-12 | 武汉楚精灵医疗科技有限公司 | 医学图像的智能分类应用方法、装置、设备和存储介质 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112418209B (zh) | 2022-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112418209B (zh) | 文字识别方法、装置、计算机设备及存储介质 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Sermanet et al. | Convolutional neural networks applied to house numbers digit classification | |
CN113591546B (zh) | 语义增强型场景文本识别方法及装置 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN111461174A (zh) | 多层次注意力机制的多模态标签推荐模型构建方法及装置 | |
CN114358203A (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN112288018A (zh) | 文字识别网络的训练方法、文字识别方法和装置 | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
CN115658955B (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN114881038B (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
Gupta et al. | Smartidocr: Automatic detection and recognition of identity card number using deep networks | |
Vankadaru et al. | Text Identification from Handwritten Data using Bi-LSTM and CNN with FastAI | |
CN115982652A (zh) | 一种基于注意力网络的跨模态情感分析方法 | |
Malhotra et al. | End-to-end historical handwritten ethiopic text recognition using deep learning | |
Luo et al. | ICDAR 2023 Competition on Detecting Tampered Text in Images | |
CN112966569B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 | |
CN117744656B (zh) | 一种结合小样本学习和自校验的命名实体识别方法及系统 | |
Bharadwaj et al. | Handwriting Recognition Using CNN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000 Patentee after: China Resources Digital Technology Co.,Ltd. Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000 Patentee before: Runlian software system (Shenzhen) Co.,Ltd. |