CN111598087A - 不规则文字的识别方法、装置、计算机设备及存储介质 - Google Patents
不规则文字的识别方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111598087A CN111598087A CN202010413346.XA CN202010413346A CN111598087A CN 111598087 A CN111598087 A CN 111598087A CN 202010413346 A CN202010413346 A CN 202010413346A CN 111598087 A CN111598087 A CN 111598087A
- Authority
- CN
- China
- Prior art keywords
- text image
- morn
- network
- irregular
- updated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 230000001788 irregular Effects 0.000 title claims abstract description 55
- 238000012937 correction Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 45
- 229920006170 Therban® Polymers 0.000 claims abstract description 18
- 238000005070 sampling Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000013604 expression vector Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/247—Aligning, centring, orientation detection or correction of the image by affine transforms, e.g. correction due to perspective effects; Quadrilaterals, e.g. trapezoids
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种不规则文字的识别方法、装置、计算机设备及存储介质,其方法包括:对不规则文字的初始文本图像进行分解处理得到多块小图像;对每块小图像执行MORN矫正流程,得到更新文本图像后将其再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;将规则文本图像输入RBAN网络并输出两个解码器预测结果;选择log‑softmax得分之和高的解码器预测结果作为最终识别结果。该方法针对不规则文字图像利用MORN方法进行多次矫正得到规则文字图像,再把规则文字图像输入RBAN网络中进行文字识别,提高了对不规则文字识别的识别率。
Description
技术领域
本发明涉及数字图像处理技术领域,尤其涉及一种不规则文字的识别方法、装置、计算机设备及存储介质。
背景技术
随着智能化的应用,大众和企业对图像或视频中文字识别的需求越来越多,但自然场景文本识别的难度极高,其原因在于文本的布局可能存在弯曲、褶皱、换向等问题,其中的文字也可能存在字体多样、字号字颜色不一的问题。
经典的基于深度学习的文字识别方法采用卷积循环网络(CRNN)模型,其以卷积特征作为输入,通过双向长短期记忆网络(BiLSTM)进行序列处理,可以使得文字识别的效率大幅提升;但是其只在规则和规范的文字上识别准确率较好,在不规则文字上应用十分有限。
现有技术中,为解决对不规则文字的识别,各种基于深度神经网络的文字识别模型也在不断的迭代和发展;其中,多目标矫正注意力网络(MORAN)由矫正子网络MORN(multi-object rectificationnetwork,简称MORN)和识别子网络ASRN(attention-basedsequence network,简称ASRN)组成,MORN中设计了一种新颖的像素级弱监督学习机制用于不规则文本的形状纠正,大大降低了对不规则文本的识别难度。
但是,该多目标矫正注意力网络仅仅对变形角度较小的不规则文字的识别效果较好,当文字变形角度较大时,识别率仍然有待提高。
发明内容
本发明的目的是提供一种不规则文字的识别方法、装置、计算机设备及存储介质,旨在解决现有技术对不规则文字的识别率不高的问题。
第一方面,本发明实施例提供一种不规则文字的识别方法,包括:
通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续MORN执行矫正流程直至得到规则文本图像;
将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
第二方面,本发明实施例还提供一种不规则文字的识别装置,其包括:
获取单元,用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
第一矫正单元,用于对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
第二矫正单元,用于将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次MORN执行矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;
输出单元,用于将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择单元,用于选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的不规则文字的识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的不规则文字的识别方法。
本发明实施例提供一种不规则文字的识别方法、装置、计算机设备及存储介质,其中方法包括:通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;对每块小图像执行MORN矫正流程,得到更新文本图像;其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。该方法针对不规则文字图像利用MORN方法进行多次矫正得到规则文字图像,再把规则文字图像输入RBAN网络中进行文字识别,提高了对不规则文字识别的识别率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的不规则文字的识别方法的流程示意图;
图2为本发明实施例提供的不规则文字的识别方法的子流程示意图;
图3为本发明实施例提供的不规则文字的识别方法的原理框图;
图4为本发明实施例提供的不规则文字的识别方法的又一子流程示意图;
图5为本发明实施例提供的不规则文字的识别方法的又一子流程示意图;
图6为本发明实施例提供的不规则文字的识别装置的示意性框图;
图7为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1为本发明实施例提供的一种不规则文字的识别方法的流程图;
该方法包括步骤S101~S105:
S101、通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像。
本实施例中,MORN矫正网络用于对不规则文字的初始文本图像进行矫正,矫正前需要将初始文本图像切分为多块小图像,这样做可以更准确的对不规则文字进行矫正。
在一实施例中,如图2所示,所述步骤S101包括:
S201、将所述初始文本图像经过一个池化层进行池化,然后经过一个卷积层进行卷积并输出多个小图像;
S202、将每一小图像进行一次池化,然后再依次进行一次卷积和一次池化,再进行三次卷积,然后再进行一次池化,最后利用Tanh函数进行激活;
本实施例中,如图3所示,先将初始文本图像经过一个池化层进行池化,实现对初始文本图像的降维,即初始文本图像的识别问题转化为特征表达向量的识别问题,可以降低计算的复杂程度,减少冗余信息所造成的识别误差,提高识别的精度;然后再经过卷积层进行卷积:提取初始文本图像上各个部分的特征表达向量,对各个部分的特征表达向量经过处理形成多个小图像并输出。
将每一块小图像进行一次池化,然后再依次进行一次卷积和一次池化,再进行三次卷积,然后再进行一次池化,实现了每一小图像的进一步降维和卷积,更便于后续进行矫正,最后通过Tanh函数计算公式进行激活,得到可以进行矫正的小图像。
S102、对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像。
本实施例中,通过MORN矫正网络对每一块小图像上不规则的文字进行矫正,然后将矫正后的每一块小图像与其对应在初始文本图像位置上的部分进行坐标计算,得到矫正前后的偏移量,然后在初始文本图像上进行采样并得到采样点,最后根据偏移量,对采样点进行偏移调整,即可得到更新文本图像。
在一实施例中,如图4所示,所述在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,包括步骤S401~S402。
S401、采集初始文本图像上的坐标点像素并作为采样点;
S402、将采样点与偏移量进行映射操作,所述映射关系为:
x2=x1+ox1,y2=y1+oy1;其中,(ox1,oy1)为小图像上的偏移坐标,(x1,y1)为采样点的坐标点像素,(x2,y2)为更新文本图像的坐标点像素。
本实施例中,初始文本图像MRON矫正的过程为:根据映射关系,将初始文本图像的采样点加上小图像的偏移坐标,得到更新文本图像的坐标点像素,根据更新文本图像的坐标点像素即可构成更新文本图像。
本发明采用MRON矫正方式,不需要字符位置或像素级分割的监督信息,从而使得网络的训练大大简化,这样的变换也摆脱了几何变换的限制。
S103、将所述更新文本图像再次执行MRON矫正流程,并判断本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MRON矫正流程直至得到规则文本图像;
本实施例中,由于一次矫正可能无法将不规则文字完全矫正,故需要再次执行MRON矫正流程,得到本次的更新文本图像,然后将本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像进行对比,判断这两个更新文本图像是否相同,若相同,则说明本次更新文本图像无变化,即已经完成矫正,故将本次得到的更新文本图像作为规则文本图像,若不同,则将本次得到的更新文本图像再次执行MRON矫正流程,直至得到规则文本图像。
需要说明的是,本实施例在判断矫正前后的两个更新文本图像是否相同的过程中,这里相同的概念可以是指广义的相同,即比较的两个更新文本图像可以不完全一模一样,允许存在在一定范围内的微小差别,但对最终识别结果无影响。
S104、将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器。
本实施例中,预先将得到规则文字图像输入RBAN网络中的训练模型进行训练,使RBAN网络具有针对该规则文字图像的识别功能;所述RBAN网络识别规则文字图像的过程为:输入规则文字图像,通过编码器对规则文本图像进行特征提取并分析,然后输出编码器两个方向的信息,再由双向解码器分别对这两个方向的信息进行分析处理并输出两个解码器的预测结果,再根据log-softmax值选择出最终识别结果;本实施例中采用的双向解码器可以考虑到语序之间的词意联系,有助于提高识别率。
在一实施例中,如图5所示,所述步骤S104包括:
S501、将所述规则文本图像输入一个53层的残差神经网络来提取特征,其中,所述残差神经网络中每个残差模块(Block)包含了一个1x1和3x3的卷积(conv),前两个残差模块步长(stride)为2,其余的残差模块步长变为1;
S502、然后将提取的特征输入至BiLSTM模型,得到左至右和右至左两个方向的输出。
本实施例中,按下述残差神经网络的网络配置表中的模块信息和配置信息执行对规则文本图像的特征提取。
表1残差神经网络的网络配置表
然后将提取的特征输入至BiLSTM(双向长短期记忆网络)模型进行序列处理,最后得到左至右和右至左两个方向的输出。
在一实施例中,所述步骤S104还包括:
通过编码器左至右和右至左两个方向的输出对应输入至双向解码器中的左至右解码器和右至左解码器,分别得到两个解码器预测结果。
本实施例中,通过双向解码器捕捉两个方向的信息可以获得剩余的其他有效信息的提示,针对编码器的输出,由左至右解码器和右至左解码器分别对左至右和右至左两个方向进行分析,得出两个解码器预测结果,两个解码器预测结果包含各自预测值的log-softmax得分之和。
S105、选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
本实施例中,log-softmax是指对softmax进行一次log运算得到的结果。softmax则是指接受一个实数向量并返回一个概率分布。所述解码器预测结果的log-softmax得分之和越高,其识别率就越高,将两个预测结果的预测值的log-softmax得分之和进行对比,选择预测值的log-softmax得分之和中高的那一个预测结果,并作为最终识别结果。
在一实施例中,所述MRON矫正流程还包括:
在执行MRON矫正流程的过程中,将每次得到的更新文本图像作为输入图像更新偏移坐标。
本实施例中,在多次执行MRON矫正流程的过程中,每次得到的更新文本图像变换时需要进行双线性插值,这样会导致丢失关键像素信息,因此将每次得到的更新文本图像作为网络输入图像去更新偏移坐标。
在一实施例中,所述不规则文字的识别方法还包括:
按下述公式进行损失函数计算损失值,并根据损失值使用反向传播对RBAN网络中的参数进行更新:
本实施例中,为了进一步优化RBAN网络的识别率,通过上述公式计算出损失函数的损失值,根据损失值使用反向传播对RBAN网络中的参数进行更新,从而提高RBAN网络的识别率。
如图6所示,本发明实施例还提供一种不规则文字的识别装置600,包括:获取单元601、第一矫正单元602、第二矫正单元603、输出单元604以及选择单元605。
获取单元601,用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像。
第一矫正单元602,用于对每块小图像执行MRON矫正流程,得到更新文本图像;
其中,所述MRON矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像。
第二矫正单元603,用于将所述更新文本图像再次执行MRON矫正流程,并判断本次得到的更新文本图像与上一次执行MRON矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MRON矫正流程直至得到规则文本图像。
输出单元604,用于将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果。
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器。
选择单元605,用于选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
该装置利用MORN方法进行多次矫正得到规则文字图像,再把规则文字图像输入RBAN网络中进行文字识别,提高了对不规则文字识别的识别率。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述不规则文字的识别装置可以实现为计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。
请参阅图7,图7是本发明实施例提供的计算机设备的示意性框图。该计算机设备700是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图7,该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。
该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行不规则文字的识别方法。
该处理器702用于提供计算和控制能力,支撑整个计算机设备700的运行。
该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行不规则文字的识别方法。
该网络接口705用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图7中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域技术人员可以理解,图7中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例的不规则文字的识别方法。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种不规则文字的识别方法,其特征在于,包括:
通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MORN矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;
将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
3.根据权利要求1所述的不规则文字的识别方法,其特征在于,所述在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像,包括:
采集初始文本图像上的坐标点像素并作为采样点;
将采样点与偏移量进行映射操作,所述映射关系为:
x2=x1+ox1,y2=y1+oy1;其中,(ox1,oy1)为小图像上的偏移坐标,(x1,y1)为采样点的坐标点像素,(x2,y2)为更新文本图像的坐标点像素。
4.根据权利要求1所述的不规则文字的识别方法,其特征在于,所述将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果,包括:
将所述规则文本图像输入一个53层的残差神经网络来提取特征,其中,所述残差神经网络中每个残差模块包含了一个1x1和3x3的卷积,前两个残差模块步长为2,其余的残差模块步长变为1;
然后将提取的特征输入至BiLSTM模型,得到左至右和右至左两个方向的输出。
5.根据权利要求4所述的不规则文字的识别方法,其特征在于,所述将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果,还包括:
通过编码器左至右和右至左两个方向的输出对应输入至双向解码器中的左至右解码器和右至左解码器,分别得到两个解码器预测结果。
6.根据权利要求1所述的不规则文字的识别方法,其特征在于,所述MORN矫正流程还包括:
在执行MORN矫正流程的过程中,将每次得到的更新文本图像作为输入图像更新偏移坐标。
8.一种不规则文字的识别装置,其特征在于,包括:
获取单元,用于通过MORN矫正网络中的卷积对不规则文字的初始文本图像进行分解处理得到多块小图像;
第一矫正单元,用于对每块小图像执行MORN矫正流程,得到更新文本图像;
其中,所述MRON矫正流程包括:对每块小图像进行回归偏移量计算,获得偏移量并对所述偏移量进行平滑操作;然后在所述初始文本图像上进行采样,将采样点与所述偏移量进行映射操作,得到更新文本图像;
第二矫正单元,用于将所述更新文本图像再次执行MORN矫正流程,并判断本次得到的更新文本图像与上一次执行MORN矫正流程得到的更新文本图像是否相同,若相同则将本次得到的更新文本图像作为规则文本图像,否则继续执行MORN矫正流程直至得到规则文本图像;
输出单元,用于将所述规则文本图像输入预设的RBAN网络,并输出两个解码器预测结果;
其中,所述RBAN网络包括一个编码器和一个带注意力机制的双向解码器;
选择单元,用于选择log-softmax得分之和高的解码器预测结果,并作为最终识别结果。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的不规则文字的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的不规则文字的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413346.XA CN111598087B (zh) | 2020-05-15 | 2020-05-15 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010413346.XA CN111598087B (zh) | 2020-05-15 | 2020-05-15 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598087A true CN111598087A (zh) | 2020-08-28 |
CN111598087B CN111598087B (zh) | 2023-05-23 |
Family
ID=72182519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010413346.XA Active CN111598087B (zh) | 2020-05-15 | 2020-05-15 | 不规则文字的识别方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598087B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163596A (zh) * | 2020-09-04 | 2021-01-01 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN112183525A (zh) * | 2020-09-15 | 2021-01-05 | 中保车服科技服务股份有限公司 | 一种文本识别模型的构建及文本识别方法和装置 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN113052162A (zh) * | 2021-05-27 | 2021-06-29 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、装置、可读存储介质及计算设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
US20190102653A1 (en) * | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
CN109840524A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 文字的类型识别方法、装置、设备及存储介质 |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
-
2020
- 2020-05-15 CN CN202010413346.XA patent/CN111598087B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190102653A1 (en) * | 2017-09-29 | 2019-04-04 | Konica Minolta Laboratory U.S.A., Inc. | Local connectivity feature transform of binary images containing text characters for optical character/word recognition |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109840524A (zh) * | 2019-01-04 | 2019-06-04 | 平安科技(深圳)有限公司 | 文字的类型识别方法、装置、设备及存储介质 |
CN109886264A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种文字检测方法、设备及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
牛小明: "图文识别技术综述", 《中国体视学与图像分析》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163596A (zh) * | 2020-09-04 | 2021-01-01 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN112163596B (zh) * | 2020-09-04 | 2024-01-05 | 华南理工大学 | 复杂场景文本识别方法、系统、计算机设备及存储介质 |
CN112183525A (zh) * | 2020-09-15 | 2021-01-05 | 中保车服科技服务股份有限公司 | 一种文本识别模型的构建及文本识别方法和装置 |
CN112183525B (zh) * | 2020-09-15 | 2023-11-24 | 中保车服科技服务股份有限公司 | 一种文本识别模型的构建及文本识别方法和装置 |
CN112418209A (zh) * | 2020-12-15 | 2021-02-26 | 润联软件系统(深圳)有限公司 | 文字识别方法、装置、计算机设备及存储介质 |
CN113052162A (zh) * | 2021-05-27 | 2021-06-29 | 北京世纪好未来教育科技有限公司 | 一种文本识别方法、装置、可读存储介质及计算设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111598087B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558893B2 (en) | Systems and methods for recognizing characters in digitized documents | |
CN111598087B (zh) | 不规则文字的识别方法、装置、计算机设备及存储介质 | |
CN110334179B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
US11157796B2 (en) | Joint position estimation device, joint position estimation method, and joint position estimation program | |
CN110287775B (zh) | 手掌图像裁剪方法、装置、计算机设备及存储介质 | |
CN111583100A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
US20220270341A1 (en) | Method and device of inputting annotation of object boundary information | |
CN111985414B (zh) | 一种关节点位置确定方法及装置 | |
CN113159013A (zh) | 基于机器学习的段落识别方法、装置、计算机设备和介质 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN114694158A (zh) | 票据的结构化信息的提取方法及电子设备 | |
CN114239760B (zh) | 多模态模型训练以及图像识别方法、装置、电子设备 | |
CN115564975A (zh) | 图像的匹配方法、装置、终端设备及存储介质 | |
CN110211032B (zh) | 汉字字符的生成方法、装置及可读存储介质 | |
CN115760807A (zh) | 一种视网膜眼底图像配准方法及系统 | |
CN114170257A (zh) | 一种拟合弯曲目标轮廓的、装置、计算机设备及存储介质 | |
CN116306612A (zh) | 一种词句生成方法及相关设备 | |
CN110728359B (zh) | 搜索模型结构的方法、装置、设备和存储介质 | |
CN115376195B (zh) | 训练多尺度网络模型的方法及人脸关键点检测方法 | |
CN113255700B (zh) | 图像的特征图的处理方法及装置、存储介质、终端 | |
CN113761934B (zh) | 一种基于自注意力机制的词向量表示方法及自注意力模型 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN115409159A (zh) | 对象操作方法、装置、计算机设备以及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000 Applicant after: China Resources Digital Technology Co.,Ltd. Address before: Room 2301, building 2, Fangda Plaza, No.20, Gaofa West Road, Taoyuan community, Taoyuan Street, Nanshan District, Shenzhen, Guangdong 518000 Applicant before: Runlian software system (Shenzhen) Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |