CN106022363A - 一种适用于自然场景下的中文文字识别方法 - Google Patents
一种适用于自然场景下的中文文字识别方法 Download PDFInfo
- Publication number
- CN106022363A CN106022363A CN201610319179.6A CN201610319179A CN106022363A CN 106022363 A CN106022363 A CN 106022363A CN 201610319179 A CN201610319179 A CN 201610319179A CN 106022363 A CN106022363 A CN 106022363A
- Authority
- CN
- China
- Prior art keywords
- node
- training
- template
- word
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000012549 training Methods 0.000 claims abstract description 82
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 230000008569 process Effects 0.000 claims description 26
- 239000000284 extract Substances 0.000 claims description 16
- 150000001875 compounds Chemical class 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000003475 lamination Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000010339 dilation Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 244000182264 Lucuma nervosa Species 0.000 claims description 3
- RTHCYVBBDHJXIQ-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]propan-1-amine Chemical compound C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 RTHCYVBBDHJXIQ-UHFFFAOYSA-N 0.000 claims description 3
- 230000001149 cognitive effect Effects 0.000 claims 1
- 230000007935 neutral effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 230000002194 synthesizing effect Effects 0.000 abstract description 2
- 210000005036 nerve Anatomy 0.000 abstract 1
- 238000007781 pre-processing Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 51
- 230000001755 vocal effect Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2111—Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Physiology (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种应用于自然场景下的中文文字识别的方法,通过建模训练阶段和文字识别阶段两个阶段进行文字识别。建模训练阶段依次先建立模板文字的树状结构表示,然后合成训练集,再训练卷积神经网络,之后提取节点的深度模板特征,最后建立并训练马尔科夫随机场;文字识别阶段则先对待识别图片进行图片预处理,然后提取输入图片的深度特征,随后最小化马尔科夫随机场能量函数,最后识别文字。本方法在进行文字识别时,同时考虑了文字的局部特征和全局结构,通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响,提高了识别的效率。
Description
技术领域
本发明涉及中文文字的识别方法,尤其涉及一种适用于自然场景下的中文文字的识别方法。
背景技术
文字识别在输入法、车牌识别、税票识别和书籍内容识别等领域有着极高的应用需求。有不少相关的技术已经投入了商业使用,并且取得了较好的效果。但大部分技术都仅限于特定的使用场景,现有技术在自然场景下的文字识别效果并不令人满意。
根据应用场景不同,常见的中文文字识别算法主要分为两类:基于笔画跟踪的方法和基于图片的方法。其中基于笔画跟踪的方法通常用在手机等的中文输入法上。由于自然场景中的文字难以确定笔画位置和笔画顺序,所以这种方法并不适用于自然场景下的文字识别。基于图片的中文文字识别算法主要有二次判别函数分类法、最近邻分类法和卷积神经网络法。二次判别函数分类法和最近邻分类法对图片文字的判别性特征要求较高,而自然场景下的文字常常受到复杂背景、光照和形状扭曲等影响,因此在自然场景下提取的文字特征往往包含很大噪声,所以这两种方法的使用效果并不理想。卷积神经网络法对训练数据的要求较高,如果训练数据的分布不太广泛,它的泛化能力就受到限制,以至于不能识别字形变化较大的文字。
发明内容
为了解决现有中文文字识别方法中存在的不适用于自然场景下的文字识别、识别率低的问题。本发明提出一种可以在自然场景下高效的进行中文文字识别方法。本方法同时利用文字的局部特征和全局结构来识别中文文字,通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合,克服了自然场景下由于文字模糊、形变大对识别效果的影响。具体识别方法如下。
一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:
建模训练阶段:
步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上所有的端点、交点和转折点,设为节点;两两连接所有节点,以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小生成树{G|(V,S)},最小生成树{G|(V,S)}即模板文字的树状结构;其中G表示最小生成树,V表示节点集合{Vi|i=1,2,...,v},v为节点数量,Vi表示第i个节点,S表示边集合{Sj|j=1,2,...,s},s表示边的数量,Sj表示第j条边;
步骤1-2,合成训练集;先将模板文字进行旋转、放射、腐蚀、膨胀变换,得到变形文字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40×40的灰度图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置;
步骤1-3,训练卷积神经网络;将训练集中的灰度图打包,然后输入卷积神经网络,卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全连接层对特征图进行处理,最后向后传播梯度以更新卷积神经网络的各层参数。在上述过程进行多次迭代后,卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号表示;
步骤1-4,提取节点的深度模板特征;
第1-401步,提取节点Vi在灰度图上的位置坐标(x,y),找出该节点Vi在特征图上对应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节点Vi的特征向量;
第1-402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均向量;
第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征fi;
步骤1-5,建立并训练马尔科夫随机场;建立马尔科夫随机场的能量函数E,能量函数E=Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,
其中,fi为节点Vi的深度模板特征,表示节点Vi在特征图中对应的像素编号,表示在特征图中对应的特征向量,αi为权重系数;
其中lj是树状结构中边Sj的长度,θj表示树状结构中边Sj与水平方向的夹角,σ(j)是边Sj在特征图中对应的标号,lσ(j)表示边Sj在特征图中对应的边的长度,θσ(j)表示边Si在特征图中对应的边与水平方向的夹角,βj和γj为权重系数;
然后训练马尔科夫随机场的能量函数,得到三个权重系数αi、βj和γj的取值,即完成对这一模板文字的马尔科夫随机场的训练;
步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练;
文字识别阶段:
步骤2-1,图片预处理;将输入的图片转化为待识别灰度图,并把待识别灰度图的尺寸调整为40×40;
步骤2-2,提取输入图片的深度特征;
第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;
第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值;
步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值,寻找每一类模板文字的能量函数的最小值;
步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的值所对应的模板文字作为识别结果,输出。
如上所述的适用于自然场景下的中文文字识别方法,在建模训练阶段的步骤1-5中,训练马尔科夫随机场的能量函数时使用随机梯度下降方法进行训练。
本发明所述的识别方法,在建模训练阶段的步骤1-6中,所述的全部模板文字包括3500个常用汉字。
本发明所述的识别方法,在所述的建模训练阶段的步骤1-3中,卷积神经网络的结构顺序依次如下:输入层为40×40的灰度图;第一卷积层的过滤器数量为48个,过滤器大小为5×5,步幅设为1,输出结构为48×36×36;第一最大池化层的窗口大小为2×2,步幅为1,输出结构为48×18×18;第二卷积层的过滤器数量为96个,过滤器大小为5×5,步幅设为1,输出结构为96×14×14;第二最大池化层的窗口大小为2×2,步幅为1,输出结构为96×7×7;第一全连接层的输出为1×1000;第二全连接层的输出为1×3500;SoftMax层的输出为1×3500。
本发明所述的适用于自然场景下的中文文字识别方法,在文字识别阶段的步骤2-3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法进行计算。
本方法,首先通过建模训练阶段建立各类模板文字的马尔科夫随机场,即相当于为文字建立的模型。在建模时,先建立模板文字的树状结构,树状结构的节点对应为模板文字中笔画的转折点和端点,得到文字的结构特征。将模板文字中由卷积神经网络训练计算推导出的特征向量表示的局部特征,即深度模板特征,通过一元项中特征向量的形式融合在马尔科夫随机场的能量函数中。类似的,由于马尔科夫随机场的能量函数的二元项中同时考虑了模板文字中节点以及两两连接节点所形成的边之间的角度关系,因此模板文字的全局结构特征得以在能量函数的二元项当中体现。这样一来,通过马尔科夫随机场的能量函数所建立的模板文字模型会同时反映文字的局部特征和全局结构。建模训练时,需要对每个汉字都对应建立一个马尔科夫随机场的模型,每个马尔科夫随机场都对应模板文字中的一个类别,唯一的表示一个汉字。这样,在文字识别阶段进行匹配时,就会同时对文字的局部特征和全局结构特征进行考察,从而避免自然场景下由于文字模糊、形变而造成识别效率低的情况。
本方法将文字识别转变成一个分类问题。本方法中,将常用的3500个汉字对应为3500个类。在本专利中,每一类文字有一个马尔科夫随机场,也就是说,我们为每一类文字分别建立了一个表示该类文字的模型,这个模型就是马尔科夫随机场,3500个汉字就有3500个马尔科夫随机场。每一个马尔科夫随机场都有它自己的能量函数。当给定一张待识别的文字时,我们只需要分别计算这个文字与3500个模型的匹配程度,找到最与之匹配的模型,就可以识别出文字了。本方法通过处理待识别文字得到的最小化的能量函数值来衡量待识别文字与之前训练过的模板文字模型的匹配程度。最小化的能量函数值越低表示待识别文字与模板文字模型的匹配程度越高。最小化的能量函数值最低则表示待识别文字与模板文字模型的匹配程度最高。而匹配的过程就是将模板文字的树状结构中每一个节点恰当的投影到待识别文字的图片中的过程。匹配过程中的不同投影点就是模板文字的树状结构的不同节点,匹配时通过马尔科夫随机场的能量函数来评价匹配程度,以寻找最佳的投影点。对于一个待识别文字,3500个马尔科夫随机场就有各自对应的3500个最小化能量;在这3500个值中找出最小的那个,这个值对应的马尔科夫随机场所代表的那一类文字,就是待识别文字的识别结果。
区别于现有技术,本发明具有如下的有益效果:
本发明通过马尔科夫随机场能量函数的一元项和二元项,将文字的局部特征和全局结构特征结合起来进行建模和匹配比较。这样的方法避免了现有的文字识别技术中对笔画位置和笔画顺序的依赖,使得本方法更适合应用于自然场景中。同时,由于本发明所述的识别方法只需要对待识别图片中文字的结构特征和局部特征进行处理,不需要掌握待识别图片文字的全部判别性特征,因而应用于自然场景下时不需要考虑背景、光照、形状扭曲等对识别特征的影响。而且,由于在建模训练阶段本发明就已经考虑到了自然场景所产生的噪声。本发明在合成训练集时需要对模板文字进行旋转、放射、腐蚀、膨胀变换并且将这些变形文字与不同背景图片融合。这样,在通过卷积神经网络对训练集进行建模训练时就将自然场景中的噪声进行了处理,这样得到的模板文字模型就已经对实际应用中所可能出现的噪声进行了处理。因而,在文字识别阶段将待识别文字与模板文字模型进行匹配时,自然场景中噪声所产生的影响就会减小,采用本方法时,识别效率就会提高。
进一步的,本发明在建模训练阶段的步骤1-5中,使用随机梯度下降方法训练马尔科夫随机场。因为能量函数是凸函数,所以适用梯度下降的方法。随机梯度下降的每一次迭代都随机选取少量的样本计算梯度,因而采用这种方式使得训练效率更高,建模训练过程得以缩短。类似的,本发明在文字识别阶段的步骤2-3中,使用信念传播算法寻找每一类模板文字的能量函数的最小值。由于马尔科夫随机场的无向图是树状的,其中不存在环,所以信念传播算法可以快速的求得能量函数的最小值,从而进一步提高了本方法的识别速度。
由于常用的汉字只有3500个,因而,本发明在对模板文字进行建模训练时只需要针对3500个常用汉字进行建模即可满足一般的识别需求。这样可以减少建模训练所需的时间,降低本方法对识别装置存储容量的要求,进一步降低成本。这样也可以在保证识别效果的前提下减少匹配与识别过程所花的时间,提高识别效率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和或其他方面的优点将会变得更加清楚。
图1为本发明流程图。
图2举例说明了对文字模板骨架化,在骨架上标记端点、转折点交点,生成文字的树状结构表示等过程。
图3显示了部分合成的训练数据。
图4是卷积神经网络的结构示意图。
具体实施方式:
本发明所述的适用于自然场景下的中文文字识别方法同时利用基于深度卷积神经网络和马尔科夫随机场进行文字识别。深度卷积神经网络负责提取文字的局部特征,马尔科夫随机场从局部特征和文字的结构特征两方面来对文字进行建模。识别时,本方法根据马尔科夫随机场能量函数的最小值来评价待识别文字与模板文字模型的匹配程度,从而识别文字。
下面结合附图对本发明做更加详细的解释:
如图1所示,左侧框表示建模训练阶段的步骤流程,右侧则表示文字识别阶段。本方法的特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:
建模训练阶段:
步骤1-1,建立模板文字的树状结构表示;
这一步骤中,首先,提取模板文字的骨架;然后,选取骨架上所有的端点、交点和转折点,设为节点,建立带权重的完全无向图;最后,计算该完全无向图的最小生成树{G|(V,S)},生成树状结构;此处所谓的骨架就是模板文字的笔画架构,由节点按照笔画链接而成。
步骤1-2,合成训练集;
步骤1-3,训练卷积神经网络;
步骤1-4,提取节点的深度模板特征;
步骤1-5,建立并训练马尔科夫随机场;此处可使用随机梯度下降方法训练马尔科夫随机场。随机梯度下降的每一次迭代都随机选取少量的样本计算梯度,因而采用这种方式使得训练效率更高,建模训练过程得以缩短。
步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练。这里,出于效率考虑,针对一般的识别需求,只需要对常用的3500个常用汉字进行建模训练即可。这样一来节省了模板文字模型的存储要求,另一方面也节省了建模训练的时间以及设计成本。
文字识别阶段:
步骤2-1,图片预处理;
步骤2-2,提取输入图片的深度特征;
步骤2-3,最小化马尔科夫随机场能量函数;
步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的值所对应的模板文字作为识别结果,输出。
具体而言,以图2中的“中”字为例,图2(a)首先给出了模板文字,建模训练阶段中,各步骤具体实现如下:
步骤1-1,建立模板文字的树状结构表示。首先,提取模板文字的骨架,得到图2(b)中的结构。然后,寻找骨架上所有的端点、交点和转折点,设为节点。具体的8个节点如图2(c)所示,包括上下2个端点,左右4个转折点,中间2个交点。两两连接所有节点,以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重,建立带权重的完全无向图。最后,计算该完全无向图的最小生成树{G|(V,S)},最小生成树{G|(V,S)}即模板文字的树状结构;以“中”字为例,其最小生成树G包含8个节点和7条边,V表示节点集合{Vi|i=1,2,...,8},S表示边集合{Sj|i=1,2,...,7}。
步骤1-2,合成训练集。先将模板文字进行旋转、仿射、腐蚀、膨胀变换,得到变形文字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40×40的灰度图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置。图3显示了部分模板文字进行合成后形成的灰度图。
其中,旋转即将模板文字旋转一定角度;仿射即将模板文字按照一定角度进行拉伸变化;腐蚀即遮盖模板文字某些笔画中的一部分;膨胀即将模板文字进行扩张变形。所谓的跟踪树状结构中每一个节点在灰度图中位置的变换,就是指,在进行模板文字变换的时候同时保存个节点在不同变换状态下的位置坐标,保存下各节点在变形状态下的位置关系,以便后续卷积神经网络及后续的步骤提取节点的深度模板特征。理论上融合的背景图片可以有无数多个,实际建模训练中,我们仅选取了几种常见的背景进行融合处理。
步骤1-3,训练卷积神经网络。将训练集中的灰度图打包,然后输入卷积神经网络,卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全连接层对特征图进行处理,最后向后传播梯度以更新卷积神经网络的各层参数。在上述过程进行多次迭代后,卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号表示。
其中卷积神经网络的具体结构参见图4:输入层为40×40的灰度图—第一卷积层(48×36×36)—第一最大池化层(48×18×18)—第二卷积层(96×14×14)—第二最大池化层(96×7×7)—第一全连接层(1000)—第二全连接层(3500)—SoftMax层(3500)。其中,第一个卷积层的过滤器数量为48个,过滤器大小为5×5,步幅设为1。两个池化层都使用最大池化,窗口大小为2×2,步幅为1。第二个卷积层的过滤器数量为96个,过滤器大小为5×5,步幅设为1。第二池化层与第一个相同。紧接着是两个全连接层。最后一个是SoftMax层,3500对应的是文字的类别数量。卷积神经网络的训练数据来自于上一步所合成的训练集,使用后向传播方法进行训练。
步骤1-4,提取节点的深度模板特征。本步骤具体需要进行如下三步的处理:
第1-401步,提取节点Vi在灰度图上的位置坐标(x,y),找出该节点Vi在特征图上对应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节点Vi的特征向量。由于步骤1-3中各图片在第二个最大池化层的输出为7×7的96通道的特征图,因而,对应节点Vi的特征向量的维度为96维。
第1-402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均向量;
第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征fi;
步骤1-5,建立并训练马尔科夫随机场。建立马尔科夫随机场的能量函数E,能量函数E=Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,
其中,fi为节点Vi的深度模板特征,表示节点Vi在特征图中对应的像素编号,表示在特征图中对应的特征向量,αi为权重系数;
其中lj是树状结构中边Sj的长度,θj表示树状结构中边Sj与水平方向的夹角,σ(j)是边Sj在特征图中对应的标号,lσ(j)表示边Sj在特征图中对应的边的长度,θσ(j)表示边Sj在特征图中对应的边与水平方向的夹角,βj和γj为权重系数;二元项通过边的长度和角度可以表示出树状结构中的边的长度和角度变化。
然后训练马尔科夫随机场的能量函数,得到三个权重系数αi、βj和γj的取值,即完成对这一模板文字的马尔科夫随机场的训练;
步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练。
利用马尔科夫随机场建立的模板文字模型中的一元项采用了特征向量表示模板文字的局部特征。而同时将模板文字中节点以及两两连接节点所形成的边之间的角度关系则通过马尔科夫随机场的能量函数的二元项表示,因此使得模板文字的全局结构特征得以在能量函数的二元项当中体现。这样一来,通过马尔科夫随机场的能量函数所建立的模板文字模型会同时反映文字的局部特征和全局结构。
文字识别阶段中,各步骤具体实现如下:
步骤2-1,图片预处理。将输入的图片转化为待识别灰度图,并把待识别灰度图的尺寸调整为40×40;
步骤2-2,提取输入图片的深度特征。具体步骤如下:
第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;
第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值。
能量函数由一元项和二元项相加得到。一元项中的fi(节点Vi的深度模板特征)已通过建模训练阶段的步骤1-4得到计算得到。二元项中的lj(树状结构中边Sj的长度)和θj(树状结构中边Sj与水平方向的夹角)由文字的树状结构决定。一元项的权重系数α和二元项的权重系数β,γ均已通过建模训练阶段的步骤1-5的训练得出。这些参数在能量函数中是作为常数存在的。由于树状结构的边由对应的两个节点相连而得到,即可以通过边两端的两个节点唯一确定,也就是说,二元项中的θσ(j)和lσ(j)均由一元项中的确定。因此能量函数的值就只与树状结构的节点在待识别特征图中不同像素编号有关。是96维的深度特征向量,由卷积神经网络第二个最大池化层输出得到。lσ(j)和θσ(j)均通过所确定的边的对应关系计算得到。通过改变的取值,可以得到能量函数在不同下的取值,这个值用来评价在这种对应关系下测试文字与模型的匹配程度。能量函数的值越小就说明匹配程度越高。
步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值,寻找每一类模板文字的能量函数的最小值。本步骤中利用信念传播算法求解马尔科夫随机场的能量函数在不同下的最小值。这个最小值对应于模板文字的树状结构与待识别文字的最佳匹配状态,用来衡量马尔科夫随机场所表示的文字模型与待识别文字的匹配程度。
信念传播算法的具体计算步骤可参考Christopher在2006年由Springer出版的《Pattern recognition and machine learning》一书,其所公开的内容整体作为参考而引入至此。
步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的值所对应的模板文字作为识别结果,输出。
所有马尔科夫随机场的最小化能量函数值中取值最小就表示这个模板文字与待识别文字的匹配程度最高,这个值对应的马尔科夫随机场所表示的文字类别就是待识别图片的识别结果。
本领域普通技术人员可以理解:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种适用于自然场景下的中文文字识别方法,其特征在于:通过建模训练阶段和文字识别阶段两个阶段进行文字识别,具体识别步骤如下:
建模训练阶段:
步骤1-1,建立模板文字的树状结构表示;首先,提取模板文字的骨架,找到骨架上所有的端点、交点和转折点,设为节点;两两连接所有节点,以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重,建立带权重的完全无向图;计算该完全无向图的最小生成树{G|(V,S)},最小生成树{G|(V,S)}即模板文字的树状结构;其中G表示最小生成树,V表示节点集合{Vi|i=1,2,...,v},v为节点数量,Vi表示第i个节点,S表示边集合{Sj|j=1,2,...,s},s为边的数量,Sj表示第j条边,i和j均为整数;
步骤1-2,合成训练集;先将模板文字进行旋转、仿射、腐蚀、膨胀变换,得到变形文字;然后将变形文字与不同背景图片融合,每个融合后的变形文字生成一张40×40的灰度图,将该模板文字生成的所有灰度图合成为一个训练集;在合成训练集的同时,跟踪树状结构中的每一个节点在灰度图中位置的变换,记录每个节点在训练集中对应的位置;
步骤1-3,训练卷积神经网络;将训练集中的灰度图打包,然后输入卷积神经网络,卷积神经网络先进行第一层卷积,然后进行最大池化层处理,最大池化层处理后再依次进行第二层卷积和第二层最大池化处理,第二层最大池化处理后输出特征图,接着用两个全连接层对特征图进行处理,最后向后传播梯度以更新卷积神经网络的各层参数;在上述过程进行多次迭代后,卷积神经网络训练完毕;将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号,节点Vi所对应的像素用编号表示;
步骤1-4,提取节点的深度模板特征;
第1-401步,提取节点Vi在灰度图上的位置坐标(x,y),找出该节点Vi在特征图上对应的位置(7x/40,7y/40),读取节点Vi在特征图上对应位置(7x/40,7y/40)的值,即得到节点Vi的特征向量;
第1-402步,按照上述步骤读取节点Vi在每一张灰度图中的位置坐标,通过位置坐标找到该节点所有的特征向量,节点Vi的深度模板特征fi即该节点所有的特征向量的平均向量;
第1-403步,依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征fi;
步骤1-5,建立并训练马尔科夫随机场;建立马尔科夫随机场的能量函数E,能量函数E=Eu+Ep,其中Eu为能量函数的一元项,Ep为能量函数的二元项,
其中,fi为节点Vi的深度模板特征,表示节点Vi在特征图中对应的像素编号,表示在特征图中对应的特征向量,αi为权重系数;
其中lj是树状结构中边Sj的长度,θj表示树状结构中边Sj与水平方向的夹角,σ(j)是边Sj在特征图中对应的标号,lσ(j)表示边Sj在特征图中对应的边的长度,θσ(j)表示边Sj在特征图中对应的边与水平方向的夹角,βj和γj为权重系数;
然后训练马尔科夫随机场的能量函数,得到三个权重系数αi、βj和γj的取值,即完成对这一模板文字的马尔科夫随机场的训练;
步骤1-6,依次按照步骤1-1至步骤1-5的顺序,完成全部模板文字的建模训练;
文字识别阶段:
步骤2-1,图片预处理;将输入的图片转化为待识别灰度图,并把待识别灰度图的尺寸调整为40×40;
步骤2-2,提取输入图片的深度特征;
第2-201步,用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识别灰度图,保留第二层最大池化处理后的输出,得到待识别灰度图的特征图;
第2-202步,按照建模训练阶段得到的每一类模板文字的能量函数,计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值;
步骤2-3,最小化马尔科夫随机场能量函数;根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值,寻找每一类模板文字的能量函数的最小值;
步骤2-4,匹配文字;比较上一步中各类模板文字的能量函数的最小值,将其中最小的值所对应的模板文字作为识别结果,输出。
2.根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的建模训练阶段的步骤1-5中,训练马尔科夫随机场的能量函数时使用随机梯度下降方法进行训练。
3.根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的建模训练阶段的步骤1-6所述的全部模板文字包括3500个常用汉字。
4.根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的建模训练阶段的步骤1-3中,卷积神经网络的结构顺序依次如下:输入层为40×40的灰度图;第一卷积层的过滤器数量为48个,过滤器大小为5×5,步幅设为1,输出结构为48×36×36;第一最大池化层的窗口大小为2×2,步幅为1,输出结构为48×18×18;第二卷积层的过滤器数量为96个,过滤器大小为5×5,步幅设为1,输出结构为96×14×14;第二最大池化层的窗口大小为2×2,步幅为1,输出结构为96×7×7;第一全连接层的输出为1×1000;第二全连接层的输出为1×3500;SoftMax层的输出为1×3500。
5.根据权利要求1所述的适用于自然场景下的中文文字识别方法,其特征在于,所述的文字识别阶段的步骤2-3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法进行计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610319179.6A CN106022363B (zh) | 2016-05-12 | 2016-05-12 | 一种适用于自然场景下的中文文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610319179.6A CN106022363B (zh) | 2016-05-12 | 2016-05-12 | 一种适用于自然场景下的中文文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106022363A true CN106022363A (zh) | 2016-10-12 |
CN106022363B CN106022363B (zh) | 2019-02-12 |
Family
ID=57100448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610319179.6A Active CN106022363B (zh) | 2016-05-12 | 2016-05-12 | 一种适用于自然场景下的中文文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106022363B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN107203606A (zh) * | 2017-05-17 | 2017-09-26 | 西北工业大学 | 基于卷积神经网络的自然场景下文本检测与识别方法 |
CN107368831A (zh) * | 2017-07-19 | 2017-11-21 | 中国人民解放军国防科学技术大学 | 一种自然场景图像中的英文文字和数字识别方法 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN108205699A (zh) * | 2016-12-20 | 2018-06-26 | 谷歌有限责任公司 | 生成用于神经网络输出层的输出 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN111414916A (zh) * | 2020-02-29 | 2020-07-14 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111414913A (zh) * | 2019-01-08 | 2020-07-14 | 北京地平线机器人技术研发有限公司 | 一种文字识别方法以及识别装置、电子设备 |
WO2022257578A1 (zh) * | 2021-06-07 | 2022-12-15 | 京东科技信息技术有限公司 | 用于识别文本的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279753A (zh) * | 2013-06-09 | 2013-09-04 | 中国科学院自动化研究所 | 一种基于树结构指导的英文场景文本块识别方法 |
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
CN105205448A (zh) * | 2015-08-11 | 2015-12-30 | 中国科学院自动化研究所 | 基于深度学习的文字识别模型训练方法和识别方法 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
-
2016
- 2016-05-12 CN CN201610319179.6A patent/CN106022363B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103279753A (zh) * | 2013-06-09 | 2013-09-04 | 中国科学院自动化研究所 | 一种基于树结构指导的英文场景文本块识别方法 |
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
CN105205448A (zh) * | 2015-08-11 | 2015-12-30 | 中国科学院自动化研究所 | 基于深度学习的文字识别模型训练方法和识别方法 |
CN105320961A (zh) * | 2015-10-16 | 2016-02-10 | 重庆邮电大学 | 基于卷积神经网络和支持向量机的手写数字识别方法 |
Non-Patent Citations (5)
Title |
---|
CUNZHAO SHI 等: "Scene Text Recognition using Part-based Tree-structured Character Detection", 《2013 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 * |
SANGHEETA ROY 等: "Word recognition in natural scene and video images using Hidden Markov Model", 《 2013 FOURTH NATIONAL CONFERENCE ON COMPUTER VISION, PATTERN RECOGNITION, IMAGE PROCESSING AND GRAPHICS (NCVPRIPG)》 * |
XIAOLONG LIU 等: "Natural Scene character recognition using Markov Random Field", 《2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR)》 * |
孙雷: "自然场景图像中的文字检测", 《中国博士学位论文全文数据库 信息科技辑》 * |
胡迪雨: "手写体数字识别方法的应用及研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN106503715B (zh) * | 2016-11-07 | 2019-01-29 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN108205699A (zh) * | 2016-12-20 | 2018-06-26 | 谷歌有限责任公司 | 生成用于神经网络输出层的输出 |
CN108205699B (zh) * | 2016-12-20 | 2021-09-14 | 谷歌有限责任公司 | 生成用于神经网络输出层的输出 |
CN107203606A (zh) * | 2017-05-17 | 2017-09-26 | 西北工业大学 | 基于卷积神经网络的自然场景下文本检测与识别方法 |
CN107368831A (zh) * | 2017-07-19 | 2017-11-21 | 中国人民解放军国防科学技术大学 | 一种自然场景图像中的英文文字和数字识别方法 |
CN107368831B (zh) * | 2017-07-19 | 2019-08-02 | 中国人民解放军国防科学技术大学 | 一种自然场景图像中的英文文字和数字识别方法 |
CN107705805A (zh) * | 2017-10-25 | 2018-02-16 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN107705805B (zh) * | 2017-10-25 | 2021-01-29 | 北京奇虎科技有限公司 | 音频查重的方法及装置 |
CN108491836B (zh) * | 2018-01-25 | 2020-11-24 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN108491836A (zh) * | 2018-01-25 | 2018-09-04 | 华南理工大学 | 一种自然场景图像中中文文本整体识别方法 |
CN111414913A (zh) * | 2019-01-08 | 2020-07-14 | 北京地平线机器人技术研发有限公司 | 一种文字识别方法以及识别装置、电子设备 |
CN111414913B (zh) * | 2019-01-08 | 2024-02-02 | 北京地平线机器人技术研发有限公司 | 一种文字识别方法以及识别装置、电子设备 |
CN110414519A (zh) * | 2019-06-27 | 2019-11-05 | 众安信息技术服务有限公司 | 一种图片文字的识别方法及其识别装置 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN111414916A (zh) * | 2020-02-29 | 2020-07-14 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
CN111414916B (zh) * | 2020-02-29 | 2024-05-31 | 中国平安财产保险股份有限公司 | 图像中文本内容提取生成方法、装置及可读存储介质 |
WO2022257578A1 (zh) * | 2021-06-07 | 2022-12-15 | 京东科技信息技术有限公司 | 用于识别文本的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106022363B (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106022363A (zh) | 一种适用于自然场景下的中文文字识别方法 | |
CN101714262B (zh) | 单幅图像的三维场景重建方法 | |
CN106845499A (zh) | 一种基于自然语言语义的图像目标检测方法 | |
CN108875807A (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN107451661A (zh) | 一种基于虚拟图像数据集的神经网络迁移学习方法 | |
CN106127684A (zh) | 基于双向递归卷积神经网络的图像超分辨率增强方法 | |
CN106203354A (zh) | 基于混合深度结构的场景识别方法 | |
CN105205448A (zh) | 基于深度学习的文字识别模型训练方法和识别方法 | |
CN103345656A (zh) | 一种基于多任务深度神经网络的数据识别方法及装置 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
CN108197294A (zh) | 一种基于深度学习的文本自动生成方法 | |
CN102201236A (zh) | 一种高斯混合模型和量子神经网络联合的说话人识别方法 | |
CN109408776A (zh) | 一种基于生成式对抗网络的书法字体自动生成算法 | |
CN111401156B (zh) | 基于Gabor卷积神经网络的图像识别方法 | |
CN107491729B (zh) | 基于余弦相似度激活的卷积神经网络的手写数字识别方法 | |
CN106295245A (zh) | 基于Caffe的堆栈降噪自编码基因信息特征提取的方法 | |
CN110210538A (zh) | 一种家居图像多目标识别方法及装置 | |
CN108647682A (zh) | 一种基于区域卷积神经网络模型的品牌Logo检测与识别方法 | |
CN111259950B (zh) | 一种基于3d模型训练yolo神经网络的方法 | |
CN111709244A (zh) | 一种用于矛盾纠纷事件因果关系识别的深度学习方法 | |
CN108052959A (zh) | 一种提高深度学习图片识别算法鲁棒性的方法 | |
CN111931813A (zh) | 一种基于cnn的宽度学习分类方法 | |
CN104182771A (zh) | 基于带丢包自动编码技术的时间序列数据图形化分析方法 | |
CN107679501A (zh) | 一种基于标签自提纯的深度学习方法 | |
CN106874959A (zh) | 一种多尺度扫描级联森林学习机的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |