CN105678300A

CN105678300A - 一种复杂图像文字序列识别方法

Info

Publication number: CN105678300A
Application number: CN201511020647.1A
Authority: CN
Inventors: 刘世林; 何宏靖; 陈炳章; 吴雨浓; 姚佳
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-15

Abstract

本发明涉及图像文字识别领域，特别涉及一种复杂图像文字序列识别方法，本发明采用一个滑动采样框对待识别图像文字序列进行滑动采样，通过CNN对采样获得的子图片进行特征提取，然后将特征输出到RNN中，所述RNN根据输入信号，依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白；依次记录和整合各个时刻RNN的识别结果，获得完整的识别结果；所述RNN每个时刻的输入信号还包括上一时刻递归神经网络的输出信号。本发明方法克服了复杂图像文字序列的切分难题，显著提高了图像文字的识别效率和准确率。

Description

一种复杂图像文字序列识别方法

技术领域

本发明涉及图像文字识别领域，特别涉及一种复杂图像文字序列识别方法。

背景技术

随着社会的发展，产生了大量对古籍、文档、票据、名片等纸质媒体数字化的需求，这里的数字化不仅仅限于使用扫描仪或者相机进行“照片化”，更重要的是将这些纸质文件转化成以可读、可编辑的文档来进行存储，实现这一过程需要对扫描出的图片进行图像文字识别，而传统的图像文字识别为光学文字识别(OCR)。

常规的OCR方法包括了图片的切分，特征提取，单字符识别等处理过程，其中图片的切分包含了大量的图像预处理过程，比如倾斜矫正，背景去噪，单字符的提取；这些处理过程不仅繁琐耗时，而且可能使得图片损失很多可用信息；而且当待识别图片中包含多个文字的字符串时，传统的OCR方法需要将原字符串切分成若干包含单个文字的小图片进行分别识别，而进行文字切分最常用的方法为投影法，即是将图像文字二值化处理后，通过垂直投影找到两个文字之间的分界线，根据分界线将文字切分开来，该方法主要、问题为：当待识别图像文字中包含背景噪音、字符扭曲、字符粘合等情况下，造成文字的切分困难。特别是当待识别图像文字中混合了左右偏旁的汉子、字母、数字、符号时，或者在待识别图像文字中混合有半角和全角格式的字符，由于格式的差异造成字符大小和间隙存在区别，通过简单的投影法不能准确的将待识别图像文字中的单字符切分出来。而一旦切分出现了问题，就很难得到准确的识别结果。

面对巨大的识别需要急需一种能够快速高效的图像文字识别方法。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供一种复杂图像文字序列识别方法。本发明方法通过一个滑动采样框，通过滑动采样的方式提取待识别图像文字序列中的字符信息，并将滑动采样框每次采样获取到的信息输入到卷积神经网络(CNN)中，通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络(RNN)中，通过递归神经网络实现连续预测多个字符的目的。

为了实现上述发明目的，本发明提供了以下技术方案：一种复杂图像文字序列识别方法通过一个滑动采样框对待处理图像文字序列进行滑动采样，并将采样获得的子图片输入到卷积神经网络中；

由所述卷积神经网络对输入的子图片提取特征，并将提取的特征数据输入到递归神经网络中；由所述递归神经输出识别结果；所述递归神经网络的输入信号还包括：上一时刻递归神经网络的输出数据；

依次迭代；将每个时刻所述递归神经网络的识别结果记录合并，得到待识别图像文字序列的完整识别结果。

具体的，本发明方法包含以下实现步骤：

(1)构建卷积神经网络和递归神经网络模型，所述递归神经网络各个时刻输入信号包括：所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络的输出数据；

(2)使用训练样本集来训练所述卷积神经网络和递归神经网络模型；

(3)由滑动采样框对待识别图像文字序列进行滑动采样，并将采样结果输入训练好的所述卷积神经网络中，由所述卷积神经网络提取待识别图片的特征数据，输入到所述递归神经网络中，经过所述递归神经网络的依次迭代，输出待识别图像文字序列的完整识别结果。

具体的，本发明方法中所使用的递归神经网络向前算法的计算公式如下：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，为当前时刻递归神经网络中隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出；w_ih，w_h＇h，为对应的权重参数。为当前时刻递归神经网络输出层神经元的输入；w_hk为输出层各神经元对应的权重；为当前时刻递归神经网络输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例。

进一步的，本发明方法中，信号正向传递时用到的参数w_ih，w_h＇h都是跨时序共享的，这样避免了模型复杂度的线性增长，导致可能的过拟合。

进一步的，本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重。

进一步的，在神经网络训练过程中，通过开发集来检验神经网络的训练结果，及时调整神经网络的训练方向，防止过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。

作为一种优选，所述滑动采样框满足以下条件：a≤L≤1.5a，0.5b≤W≤1.5b，其中L为矩形滑动采样框的长，W为矩形滑动采样框的宽，a为待识别字符图片的长，b为待识别字符图片的宽。

作为一种优选，所述滑动采样框每次滑动的距离H满足以下条件：0.4b≤H≤0.6b。

进一步的，在进行模型训练时，需要对训练样本进行人工标注，根据识别情况将样本图像文字中的汉字、数字、字母以及标点符号分别进行相应的标注，其中将汉字字符的前部分和后部分分别标注，比如说将汉字中的“字”分别标注为“字1”和“字2”，“字1”是指“字”的前部分，“字2”是指“字”的后部分。相应的，本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母以及标点符号。

特别的，很多左右结构的汉字具有相同的部首，而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来，这样的情况下，为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注，将相同部首标注统一标注，将对应偏旁分别标注，在识别的后期再对识别结果进行合并，输出完整的汉字。

进一步的，在对待处理图像文字进行滑动采样处理前，包含进行归一化处理的过程，所述待处理图像文字包含：训练样本、开发样本、待识别图像文字；所述归一化处理包括：统一待处理图像文字的大小，设置待识别图片允许的最长字数(比如设定句子的长度为20)设置最大的对应递归次数为40次。

进一步的，在进行归一化处理过程中，为了避免数据变形，尺寸的放大缩小使用等比例的方式，与目标尺寸缺失的区域用背景色补齐。

进一步的，在进行所述卷积神经网络和递归神经网络模型训练时，包含对训练样本和开发样本进行人工标注的过程；对训练样本和开发样本进行人工标注时，将汉字字符的前部分和后部分分别标注。对训练样本或者开发样本进行人工标注时，当样本图像中包含的字数少于设置的最长字数时，使用<SP>标记符将样本图片中的字数补齐。

与现有技术相比，本发明的有益效果：本发明提供一种复杂图像文字序列识别方法，采用一个滑动采样框对待识别图像文字序列进行滑动采样，通过CNN对采样获得的子图片进行特征提取，然后将特征输出到RNN中，所述RNN根据输入信号，依次识别出汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白；依次记录和整合各个时刻RNN的识别结果，获得完整的识别结果；所述RNN每个时刻的输出信号出卷积神经网络提取的子图片特征外，还包括上一时刻递归神经网络的输出数据。本发明系统的克服了OCR识别前先要进行图片切分的弊端，解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题，提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中递归使用了上一轮的输出数据，这样这每次输出识别结果在依赖本次采样数据的同时也依赖了先前的特征信息，识别结果依赖的输入信息更加丰富。总之本发明方向显著提高了混合有汉字、数字、字母以及标点符号的复杂图像文字序列的识别效率；在图像文字识别领域，具有广阔的应用前景。

附图说明：

图1为本发明方法文字序列识别过程信号流向示意图。

图2为本发明方法的实现过程示意图。

图3为卷积神经网络结构示意图。

图4为局有相同偏旁的汉字字符标注示例图1。

图5为局有相同偏旁的汉字字符标注示例图2。

图6为实施1的图像文字序列识别过程示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种复杂图像文字序列识别方法；通过一个滑动采样框，通过滑动采样的方式提取待识别图像文字序列中的字符信息，并将滑动采样框每次采样获取到的信息输入到卷积神经网络中，通过卷积神经网络提取对应采样框的特征数据输入到递归神经网络中，通过递归神经网络实现连续预测多个字符的目的。

为了实现上述发明目的，本发明提供如图1所示的技术方案：一种复杂图像文字序列识别方法，通过一个滑动采样框对待处理图像文字序列进行滑动采样，并将采样获得的子图片输入到卷积神经网络中；

由所述卷积神经网络对输入的子图片提取特征，并将提取的特征数据输入到递归神经网络中，由所述递归神经输出识别结果；所述递归神经网络的输入信号还包括：上一时刻递归神经网络的输出数据；

具体的，本发明方法包含如图2所示的以下实现步骤：

(1)构建卷积神经网络和递归神经网络模型，所述递归神经网络各个时刻输入信号包括：所述卷积神经网络提取的样本特征数据，上一时刻递归神经网络的输出数据。本发明采用的卷积神经网络主要是用于子图片特征的自动学习，图3所示，卷积神经网络的工作原理如下：卷积神经网络的每一个特征图(featuremap，图中的竖排长方形所示)的产生都是通过自有的一个卷积核(即如图3中的小矩形框，在指定的特征图里是共享的)进行初步的特征抽取，二次采样层对卷积层所提取的特征进行采样，以主要解决卷积层所抽取特征的冗余性。简言之，所述卷积神经网络通过卷积层提取图片的不同特征，通过二次采样层对提取到的特征进行采样，以去除冗余信息(在一个卷积神经网络中可以包含多个卷积层，二次采样层和全连接层)，最后通过全连接层将不同的特征图串联起来构成最终完整的子图片特征，本发明方法使用卷积神经网络，依次对滑动采样框所提取的子图片进行特征提取，避免了传统OCR识别方法中所采取的图片切分步骤，避免了单字符切分错误可能导致的不可逆转的识别错误。

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，为当前时刻递归神经网络中隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出(特别的b⁰＝0)，θ()为到的函数；w_ih，W_h＇h，为对应的权重参数，在一次向前算法传递过程中，参数w_ih，W_h＇h均是跨时序共享的，所谓跨时序共享是指递归神经网络在一次信号正向传递过程中，各个时刻w_ih，W_h＇h的值相同(并非w_ih＝w_h＇h)，不同时刻RNN的w_ih，W_h＇h值相同，降低了模型参数的复杂程度，也避免了模型复杂度的线性增长导致可能的过拟合。为当前时刻递归神经网络输出层神经元的输入；W_hk为输出层各神经元对应的权重；为当前时刻递归神经网络输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例，一般情况下，将选择值最大的输出神经元对应的类别为该时刻递归神经网络的识别结果。

从上述公式可以看出本发明方法中所使用的递归神经网络中隐含层神经元的输入数据包括CNN提取出来的特征数据，上一时刻递归神经网络隐含层的输出数据，因此本发明使用的递归神经网络在预测当前时刻的字(词)的时候，既依赖了图像的特征，也依赖了上一时刻输出的特征。

进一步的，本发明采用上述向前算法在卷积神经网络和递归神经网络中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重，误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元，获得各层神经元的误差信号，进而修正各神经元的权重。通过向前算法逐层传输运算数据，并通过向后算法来逐渐修改个神经元的权重的过程就是神经网络的训练过程；重复上述过程，直到预测结果的正确率达到设定的阈值，停止训练，此时可认为所述卷积神经网络和递归神经网络模型已经训练完成。

进一步的，在神经网络训练过程中，通过开发集来检验神经网络的训练结果及时调整神经网络的训练方向，防止模型过拟合情况的发生，在模型训练过程中，仅仅保留在开发集上识别准确率最高的训练模型。使用开发集来避免神经网络训练过程中的过拟合，是机器学习领域中的常见技术具体过程不再赘述。

作为一种优选，所述滑动采样框满足以下条件：a≤L≤1.5a，0.5b≤W≤1.5b，其中L为矩形滑动采样框的长，W为矩形滑动采样框的宽，a为待识别字符图片的长，b为待识别字符图片的宽。本发明方法实现的图像文字序列识别，通过滑动取样框依次序对待识别的图像文字序列进行取样，取样框的大小可设计成与待识别图片单个汉字字符的大小相当，则每次采样可以覆盖大约一个汉字字符的面积；且经过优选，所述滑动采样框每次滑动的距离H满足以下条件：0.4b≤H≤0.6b，即将每次滑动的距离设置为半个取样框的长度，这样每次采样大约可以覆盖半个汉字字符、一个数字、字母或者标点符号，方便识别神经网络的识别；同时保证了相邻时刻的采样框截取的子图片具有重叠部分，保证相邻时刻的RNN的输入信号的平滑过渡，将每次取样框采样的数据输入到卷积神经网络和递归神经网络中，由递归神经网络每次根据输入数据输出识别结果，该识别结果分为汉字的前部分、汉字的后部分、数字、字母、标点符号或者空白。本发明系统的克服了OCR识别前先要进行图片切分的弊端，解决了混合有汉字(包括左右结构的汉字)、数字、字母、符号等复杂文字序列的识别问题，提高了复杂文字序列的识别的准确率。同时本发明中采用的递归神经网络在模型训练和应用的过程中RNN递归使用了上一轮的输出数据，这样这每次输出识别数据时在依赖本次采样数据的同时也依赖了先前的特征，识别的准确率更高。

进一步的，在进行模型训练时，需要对训练样本进行人工标注，根据识别情况将样本图像文字中的汉字、数字、字母、标点符号或者空白分别进行相应的标注，其中将汉字字符的前部分和后部分分别标注，比如说将汉字中的“字”分别标注为“字1”和“字2”，“字1”是指“字”的前部分，“字2”是指“字”的后部分。

相应的，本发明中所述递归神经网络的识别结果包含“汉字的前部分”、“汉字的后部分”、数字、字母、标点符号以及空白。由于一般情况下汉字的宽度是半角格式的数字或者字母宽度的两倍，本发明在进行文字识别时，所述滑动采样框每次约滑动半个采样框的距离。这样情况下次递归神经网络的识别输出对应半个滑动采样框截取的内容，如果待识别的字符是汉字字符，通过这种采样方式最终的识别结果将会汉字拆分成前部分和后部分；而这样的采样方式会自然的将左右结构的汉字字符，拆分成左右两部分，并且对应的输出结果为汉字字符的左偏旁和右偏旁，当递归神经网络相邻两个时刻的输出为同一个汉字的左右偏旁时，稍后的识别输出时会将左右偏旁合并为一个完整的汉字，从而以最简单的方式解决了左右结构图像汉字的切分和识别难题，极大的提高了图像文字的识别效率。而当半个滑动采样框所截取的内容为数字、字母、标点符号或者空白时，由于数字、字母、标点符号的宽度大多是在半个汉字宽度的范围内，半个滑动采样框刚好能够覆盖字符的全部内容，对应的识别输出结果也为完整的数字、字母或者标点。可以看出通过本发明方法在不经过字符切分的前提下巧妙的解决了混合有汉字、数字、字母的图像文字的识别问题。

特别的，很多左右结构的汉字具有相同的部首，而本发明的识别方法会将左右结构的汉字的左右部分分别识别出来，这样的情况下，为了简化识别结果可以将这样左右结构的汉字的左右两部分分别标注，在识别的后期再对识别结果进行合并，输出完整的汉字。如图4所示，比如说：仁、什、仟、亿、价……等汉字，具有相同的部首“亻”，将该部首统一标注为“亻1”，而将这些字对应右偏旁分别标注为“亻2”、“亻3”、“亻4”、“亻5”、“亻6”……。或者如图5所示，汉字：叮、叹、吃、吖、叱……包含相同的部首“口”，为与单独的汉字“口”的标注相区别，将部首“口”标注为“口3”，而将上述汉字的右偏旁分别标注为：“口4”、“口5”、“口6”、“口7”、“口9”……；相应的递归神经网络经过迭代识别，依次输出对应汉字的部首和右偏旁，然后将该部首和右偏旁整合，形成完整的汉字识别结果。

进一步的，在进行模型训练时，包含将训练样本图标进行归一化处理和人工标注过程，归一化处理样本，使得样本的基本参数均一，降低模型训练时数据无关复杂度，有利于简化模型训练过程；其中归一化处理过程包括：设定图像文字序列可能的最长字数，比如设定图像文字序列的字符个数为20，待识别文字序列的长度与递归神经网络的最大递归次数相对应，在进行训练样本准备时设置待识别文字序列的最长字符数可以对应的预设递归神经网络的最大递归次数(比如当将比如设定图像文字序列的字符个数为20时，递归神经网络的最大递归次数对应为40次)，增加模型的稳定性和可预见性。

进一步的，将归一化的图片进行人工标注，对训练样本和开发样本进行人工标注时，将汉字字符的前部分和后部分分别标注。

进一步的，在对训练样本和开发样本进行人工标注时，如果待标注的句子字的字符数小于设置的最大字符数时(不足20)，使用一个特殊的词语进行补齐(比如使用“<SP>”将不足20个字符的样本图片补齐至20个字符的长度，相应的，当递归神经网络识别出<SP>时，将结束递归)。

实施例1

如图6所示，当待识别图像文字序列中包好的字符串为：“A公司2015年度的财务情况：”，经过本发明方法各个时刻递归神经网络的识别结果依次为：“A公1公2司1司22015年1年2度1度2白3白4贝3贝4务1务2忄1忄2冫1冫2：”，将上述识别结果整合后最终的识别结果为：“A公司2015年度的财务情况：”。可以看出本发明方法在不需要字符切分的情况下，实现了混合有左右结构的汉字字符、数字、字母或者标点符号的复杂的图像文字序列的快速识别。

Claims

1.一种复杂图像文字序列识别方法，其特征在于，包含以下实现过程：

经过一个滑动采样框对待处理图像文字序列进行滑动采样，并将采样获得的子图片输入到卷积神经网络中；

依次迭代，将每个时刻所述递归神经网络的识别结果记录合并，得到待处理图像文字序列的识别结果。

2.如权利要求1所述的方法，其特征在于，所述递归神经网络采用以下向前算法公式：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{t} = Σ_{h}^{H} w_{h k} b_{h}^{t}

y_{k}^{t} = \frac{\exp (a_{k}^{t})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{t})}

其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为卷积神经网络提取出来的特征数据，为当前时刻递归神经网络中隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出；为当前时刻递归神经网络输出层神经元的输入；为当前时刻递归神经网络输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值加和的比例。

3.如权利要求1或者2所述的方法，其特征在于，所述滑动采样框满足以下条件：a≤L≤1.5a，0.5b≤W≤1.5b，其中L为矩形滑动采样框的长，W为矩形滑动采样框的宽，a为待识别字符图片的长，b为待识别字符图片的宽。

4.如权利要求3所述的方法，其特征在于，所述滑动采样框每次滑动的距离H满足以下条件：0.4b≤H≤0.6b。

5.如权利要求4所述的方法，其特征在于，在对待处理图像文字进行滑动处理前，包含进行归一化处理的过程，所述待处理图像文字包含：训练样本、开发样本、待识别图像文字；

所述归一化处理包括：统一待处理图像文字的大小，设置待识别图片允许的最长字数。

6.如权利要求5所述的方法，其特征在于，对训练样本和开发样本进行人工标注时，将汉字字符的前部分和后部分分别标注。

7.如权利要求6所述的方法，其特征在于，对训练样本或者开发样本进行人工标注时，当样本图像中包含的字数少于设置的最长字数时，使用<SP>标记符将样本图片中的字数补齐。