CN108596167B

CN108596167B - 一种变长光学字符文字快速识别系统及方法、装置

Info

Publication number: CN108596167B
Application number: CN201810354034.9A
Authority: CN
Inventors: 黄玉飞; 杜飞
Original assignee: Shanghai Yikai Intelligent Technology Co ltd
Current assignee: Shanghai Taimei Nebula Digital Technology Co ltd
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2020-08-21
Anticipated expiration: 2038-04-19
Also published as: CN108596167A

Abstract

本发明属于光学字符识别技术领域，公开了一种变长光学字符文字快速识别系统及方法、装置，仿射变换层，对输入数据进行线性变换操作；卷积模块层，在机器学习语境下将卷积简单的当作局部特征乘以对应的权重，再累加；最大池化层，筛选出数据周围的最大特征进行输出。本发明可以动态的处理任意长度的文字图像序列，不需要对原始图像进行压缩或放大，尽可能保留原始图像的全部信息，避免了因图像预处理而造成的图像损坏问题。其次，本发明采取动态切割子序列图像的方式进行识别，有效的减少了识别图像文字模型所需的内存，并加快了识别整个文字图像序列所需的计算时间。

Description

一种变长光学字符文字快速识别系统及方法、装置

技术领域

本发明属于光学字符识别技术领域，尤其涉及一种变长光学字符文字快速识别系统及方法、装置。

背景技术

目前，业内常用的现有技术是这样的：光学字符识别(Optical CharacterRecognition，OCR)是指将电子设备(例如扫描仪或数码相机)获取的纸制打印字符图像数据，转化成计算机文字的过程。目前，医院的检查化验单、病例报告多以纸制文档进行存储，大量珍贵的历史数据难以得到充分利用，并且医务人员常常需要将纸制文字手工录入到计算机中，这一过程不但耗费了大量的人力资本，而且常常由于不可避免的人为误差而导致数据的错误录入。为了充分利用医疗历史数据，加快医疗信息化进程并减少人力成本，快速而高效的光学字符识别技术将具有很大的经济价值及社会意义。深度卷积神经网络(DeepConvolutional Neural Network，DCNN)是一种模拟哺乳动物视觉神经系统的机器学习模型，其广泛应用于图像识别、目标检测等领域。深度卷积神经网络可以高效而精确的识别图像数据，但传统的深度卷积网络需要固定输入图片的尺寸，因此虽然深度卷积网络可以高精度的识别单个文字，但却很难将其应用于处理变长尺寸的图像。特别对于检查化验单、病例报告而言，通常需要识别大量长文本图像文字，因此虽然深度卷积网络对于光学字符识别具有很大的潜力，但由于模型结构限制，目前还很难单独的识别变长的文字图像。

综上所述，现有技术存在的问题是：传统的深度卷积网络需要固定输入图片的尺寸，很难将其应用于处理变长尺寸的图像。变长尺寸的图像通常需要缩放或裁剪到固定的尺寸，这直接带来的技术问题就是使得原始图像失真严重，有时还会发生严重的形变现象，导致图像识别率不高。

解决上述技术问题的难度和意义：要保留图像高保真的情况下处理变长尺寸图像是一个非常困难的问题，但本发明通过分析变长光学字符文字图像内容不重叠、图像内容规整等特性，利用现有的CNN目标定位技术进行图像的动态定位与切割，可以有效的减少识别模型的规模，并提升模型的识别精确度。

发明内容

针对现有技术存在的问题，本发明提供了一种变长光学字符文字快速识别系统及方法、装置。

本发明是这样实现的，一种变长光学字符文字快速识别系统，所述变长光学字符文字快速识别系统包括：

仿射变换层，对输入数据进行线性变换操作；

卷积模块层，在机器学习语境下将卷积简单的当作局部特征乘以对应的权重，再累加；

最大池化层，筛选出数据周围的最大特征进行输出。

进一步，所述卷积模块层包含：1层卷积层、1层非线性激活层、1层批量归一化层、1层Dropout层；全连接模块层包含：1层仿射变换层，1层非线性变换层，1层批量归一化层，1层Dropout层；

非线性激活层，将当前层的输出数据进行非线性压缩，使得输出数据被映射到另一个非线性特征空间；

批量归一化层，使深度卷积网络的各层可以解耦，需要在网络的各输出层之后接一层批量归一化层，将每一层数据归一化为均值为0，标准差为1的标准正态分布数据；

Dropout层，是使用随机采样的方式，通过强制只训练部分神经网络来提升模型的整体性能。

本发明的另一目的在于提供一种所述变长光学字符文字快速识别系统的变长光学字符文字快速识别方法，所述变长光学字符文字快速识别方法包括以下步骤：

步骤一，按顺序切取文字图像最左边的一段文字；

步骤二，使用深度卷积神经网络识别切取文字图像中最左边第一个字符，并定位该文字结束横坐标；

步骤三，根据该横坐标抹除原始文字图像中此坐标之前的所有内容，并将该横坐标累加到总横坐标中；

步骤四，以该横坐标为起始点，重复步骤一-步骤三；

步骤五，若总横坐标大于原始文字图像长度，则执行完毕，退出执行操作。

进一步，所述变长光学字符文字快速识别方法的仿射变换是对输入数据进行线性变换操作，x_i表示第i维输入数据，w_i表示第i维数据对应权重，b表示常数项：

进一步，所述变长光学字符文字快速识别方法的卷积操作有输入数据为三行四列的矩阵数据，使用编号a-l表示，卷积核为二行二列的矩阵权重，使用编号w-z表示，使用卷积核从输入数据左上角一直局部线性加和到右下角。

进一步，所述变长光学字符文字快速识别方法的非线性激活层将当前层的输出数据进行非线性压缩，使得输出数据被映射到另一个非线性特征空间，使用ReLU非线性激活函数，函数将输入数据x的负值全部截断为0：

f(x)＝max(x,0)。

进一步，所述变长光学字符文字快速识别方法的批量归一化层一次采样m条数据训练，用

表示训练第k条数据时，第j层的第i神经元的输出值；μ_i,j表示这批数据在第j层的第i神经元处的平均输出值；σ_i,j表示这批数据在第j层的第i神经元处输出值的标准差，批量归一化后的输出值：

其中神经元输出的均值μ_i,j；

神经元输出值的标准差σ_i,j；

其中δ是一个常数。

进一步，所述变长光学字符文字快速识别方法的Dropout层给每个神经元独立地设置一个二项分布的神经元激活概率r_i ^(l)，值为0，则表明当前神经元抑制；值为1，则表明当前神经元可用。

本发明的另一目的在于提供一种机器学习装置，所述装置用于执行如上所述变长光学字符文字快速识别方法。

综上所述，本发明的优点及积极效果为：本发明可以动态的处理任意长度的文字图像序列，不需要对原始图像进行压缩或放大，尽可能保留原始图像的全部信息，避免了因图像预处理而造成的图像损坏问题。其次，本发明采取动态切割子序列图像的方式进行识别，有效的减少了识别图像文字模型所需的内存，并加快了识别整个文字图像序列所需的计算时间。本发明的一实施例如图9所示，在GPU运行速率方面是传统方法的4倍；如图11所示，在GPU的内存消耗方面是传统模型的十分之一；如图10所示，在识别正确率方面相比传统方法提升了1％。

附图说明

图1是本发明实施例提供的变长光学字符文字快速识别系统结构示意图；

图中：1、卷积模块层；2、最大池化层；3、全连接模块层；4、仿射变换层。

图2是本发明实施例提供的变长光学字符文字快速识别方法流程图。

图3是本发明实施例提供的变长文字图像识别流程图。

图4是本发明实施例提供的操作示意图。

图5是本发明实施例提供的深度卷积神经网络模型结构示意图。

图6是本发明实施例提供的卷积神经网络的卷积层操作示意图。

图7是本发明实施例提供的Dropout层操作示意图。

图8是本发明实施例提供的最大池化层操作示意图。

图9是是本发明实施例提供的与常见算法的GPU平均运算速率比较示柱状图。

图10是本发明实施例提供的与常见算法的识别正确率比较柱状图。

图11是本发明实施例提供的与常见算法的GPU内存消耗比较柱状图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的变长光学字符文字快速识别系统包括：卷积模块层1、最大池化层2、全连接模块层3、仿射变换层4。

卷积模块层包含：1层卷积层、1层非线性激活层、1层批量归一化层、1层Dropout层；全连接模块层包含：1层仿射变换层，1层非线性变换层，1层批量归一化层，1层Dropout层。接下来将详细介绍每一基本层的功能作用：

仿射变换层4，对输入数据进行线性变换操作；仿射变换是对输入数据进行线性变换操作，如公式(1)所示，x_i表示第i维输入数据，w_i表示第i维数据对应权重，b表示常数项。仿射变换所做的事情就是将输入数据各个维度乘以对应权重并累加起来：

卷积模块层1，在机器学习语境下将卷积简单的当作局部特征乘以对应的权重，然后再累加起来即可；如图6卷积操作示意图，输入数据为三行四列的矩阵数据，使用编号a-l表示，卷积核为二行二列的矩阵权重，使用编号w-z表示，而卷积操作就是使用卷积核从输入数据左上角一直局部线性加和到右下角。

非线性激活层，将当前层的输出数据进行非线性压缩，使得输出数据被映射到另一个非线性特征空间；如公式(2)所示，是本发明使用的ReLU非线性激活函数，该函数的功能为将输入数据x的负值全部截断为0。

f(x)＝max(x,0)(公式2)

批量归一化层，使深度卷积网络的各层可以解耦，需要在网络的各输出层之后接一层批量归一化层，将每一层数据归一化为均值为0，标准差为1的标准正态分布数据；假设一次采样m条数据训练，用

表示训练第k条数据时，第j层的第i神经元的输出值；μ_i,j表示这批数据在第j层的第i神经元处的平均输出值；σ_i,j表示这批数据在第j层的第i神经元处输出值的标准差。批量归一化后的输出值就如公式3所示：

其中神经元输出的均值μ_i,j如公式4所示：

神经元输出值的标准差σ_i,j如公式5所示：

其中δ是一个很小的常数，目的是为了防止

的产生。

Dropout层，是使用随机采样的方式，通过强制只训练部分神经网络来提升模型的整体性能；如图7所示，给每个神经元独立地设置一个二项分布的“神经元激活”概率r_i ^(l)，若该值为0，则表明当前神经元抑制；如果该值为1，则表明当前神经元可用。

最大池化层2，筛选出数据周围的最大特征进行输出。最大池化方法不但可以提高卷积神经网络的平移不变性、旋转不变性等能力，还能有效缩减网络的尺寸，提高执行效率，减少内存消耗。如图8所示，最大池化层的原理是筛选出数据周围的最大特征进行输出，例如输入数据的前三维特征分别为：0.1、1、0.2，通过最大池化层的筛选，第二维特征1会得到保留并进行输出，而第3-5维特征分别为：0.2、0.1、0.0，此时最大的第三维特征0.2便会得到保留并进行输出。

如图2所示，本发明实施例提供的变长光学字符文字快速识别方法包括以下步骤：

S101：按顺序切取文字图像最左边的一段文字；

S102：使用深度卷积神经网络识别切取文字图像中最左边第一个字符，并定位该文字结束横坐标；

S103：根据该横坐标抹除原始文字图像中此坐标之前的所有内容，并将该横坐标累加到总横坐标中；

S104：以该横坐标为起始点，重复步骤S101-步骤S103；

S105：若总横坐标大于原始文字图像长度，则执行完毕，退出执行操作。

下面结合附图对本发明的应用原理作进一步的描述。

1、变长文字图像识别方法介绍

本发明的实施例描述变长文字图像识别的方法，变长文字图像指在一幅图像中，图像内容的文字长度以及图像的尺寸无法确定。例如，一副图像可包含5个字符，10个字符，或100个字符不等，而图像的寸尺可以是32*100、48*100或22*88等任意尺寸。文字识别指将图像中的文字翻译为计算机字符，在本发明中专指识别图像中最左边文字。文字定位指预测图像文字所在位置的坐标，在本发明中专指定位图像中最左边文字结束的横坐标。

图3是本发明实施例的变长文字图像识别流程图。本实施例可大概包括步骤103的切取第一段文字、步骤105的识别载入图像最左边文字、步骤106的定位载入图像最左边文字结束位置和步骤108的切除已识别文字。

在步骤101，载入一张原始图片时，系统会存储该图片的长宽信息，并初始化一个全局变量记录当前切取图像的起始位置，默认情况下该变量的初始值为0。

在步骤102，系统会判断总横坐标的值是否大于载入原始图像的长度。若大于该长度，则说明图像已经识别完毕，应当终止识别。若小于该长度，则说明图像还未识别完毕，应当继续识别图像。

在步骤103，系统会切取从原图最左边为起始，固定长度的子图像。在默认情况下，子图像的高为原始图像的高，而长可以根据识别模型来设置，通常情况下可设置为2倍或2.5倍训练字符大小。

在步骤104，系统会将切取到的子图像载入到深度卷积神经网络中进行识别以及定位。在默认情况下，载入的子图像不需要进行数据预处理，但也可以根据识别模型的特点做一些去噪、二值化等基本的图像预处理步骤。

在步骤105，深度卷积神经网络通过对载入的子图像进行多层卷积提取、池化等操作，预测该图像最左边文字属于各个分类的可能性概率，然后选取最大概率的分类作为最终的分类结果。需要注意的是，载入的图像可能不包含任何可识别文字，或者由于图像噪声过大等原因造成识别模型预测的各分类概率都很低，此时需要做一个阈值判断，若预测的最大概率低于该阈值，则将此次预测标记为空分类(图像中没有文字)。

在步骤106，深度卷积神经网络通过对载入的子图像进行多层卷积提取、池化等操作，首先预测该图像最左边文字的结束位置，然后将该预测值进行取整操作。需要注意的是，载入的图像可能不包含任何可识别的文字，此时可以输出1/2载入图像长度作为默认预测值。

在步骤107，系统将106步骤获得的最左文字结束位置坐标累加到总横坐标中。为了保证系统不会出现死循环，该步骤需要设置一个最小更新值，若新坐标小于该更新值，则将新坐标替换为最小更新值进行更新。

在步骤108，系统会根据106步骤获得的最左文字结束位置坐标，将该坐标之前的图像内容进行切除。和步骤107相同，如果预测坐标小于最小更新值，则切除最小更新值之前的图像内容。

为了更具体说明本发明，图4为本发明的一具体实施例。如图4所示，载入的原始图像尺寸为：40*600，内容为：“本检验结果仅反应送检标本的情况”的长文本图像。系统首先会截取纵坐标0-40像素，横坐标0-100像素的子图像，也就是图像内容为“本检马”的子图像。然后将子图像载入深度卷积网络中进行识别与定位，识别到的内容为“本”，而预测的坐标为40。然后再更新总横坐标，将原始图像0-40像素，内容“本”的子图切除，并截取横坐标40-140像素，内容为“检验结”的子图进行下一循环的识别及定位。

2、深度卷积神经网络模型介绍

深度卷积神经网络是一种模拟哺乳动物视觉神经系统而发明的计算模型。其结构灵活多变，通常需要针对特定的任务设计特定的模型结构，如图5所示，是本发明设计的一具体模型结构。该模型堆叠了7层网络模块层，包含了：4层卷积模块层、1层最大池化层、1层全连接模块层、1层仿射变换层，而每个卷积模块层又包含了：1层卷积层、1层非线性激活层、1层批量归一化层、1层Dropout层，全连接模块层包含了：1层仿射变换层，1层非线性变换层，1层批量归一化层，1层Dropout层。

下面结合实验对本发明的应用效果作详细的描述。

为了更具体的比较本发明的优劣势，比较了本发明与CNN(Convolutional NeuralNetwork，卷积神经网络)，RNN(Recurrent neural Network，循环神经网络)，LSTM(LongShort-Term Memory，长短记忆机)同CTC(Connectionist temporal classification，连接主义时序分类)组合模型，在GPU运行速率，识别准确率，GPU内存消耗三个维度上的性能比较。

在实验中，制作了50000张，图片高为48像素，长为256-1024像素的医疗化验单文字图像数据，由于传统深度学习模型需要统一输入图像的尺寸，因此输入到传统深度学习模型中的数据会预先缩放为高48像素，长512像素图片，而由于本发明可以处理任意变长图像，因此输入到本发明实例中的图像不做缩放处理，本次实验所用的GPU为英伟达旗下的GEFORCE GTX 1080Ti。

如图9所示，在GPU平均运行速率方面，使用类循环神经网络(RNN、LSTM)的模型执行速率通常会大于10毫秒/张，其中RNN+CTC模型为11.2毫秒/张，LSTM+CTC模型为12.2毫秒/张，CNN+RNN+CTC模型为14.5毫秒/张，CNN+LSTM+CTC模型为15.5毫秒/张。而只使用CNN模型的运行速率为2.4毫秒/张，本发明的运行速率为4.3毫秒/张。

如图10所示，在识别正确率方面，RNN+CTC、LSTM+CTC、CNN+CTC的准确率仅仅为：0.852、0.874、0.90，而CNN+RNN+CTC和CNN+LSTM+CTC的正确在0.933和0.94，本发明的识别正确率达到最高的0.95。

如图11所示，在GPU内存消耗方面，CNN+RNN+CTC和CNN+LSTM+CTC模型分别占用高达389M以及503M内存，而RNN+CTC、LSTM+CTC、CNN+CTC结构也需要消耗120M、202M以及200M内存，但本发明实例只需要仅仅50M内存即可。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法包括以下步骤：

步骤一，按顺序切取文字图像最左边的一段文字子图像；

步骤二，使用深度卷积神经网络识别切取的文字子图像中最左边第一个字符，并定位该字符结束的横坐标；

步骤四，以该横坐标为起始点，重复步骤一-步骤三；

2.如权利要求1所述的变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法的仿射变换是对输入数据进行线性变换操作，x_i表示第i维输入数据，w_i表示第i维数据对应权重，b表示常数项：

3.如权利要求1所述的变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法的卷积操作有输入数据为三行四列的矩阵数据，使用编号a-l表示，卷积核为二行二列的矩阵权重，使用编号w-z表示，使用卷积核从输入数据左上角一直局部线性加和到右下角。

4.如权利要求1所述的变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法的非线性激活层将当前层的输出数据进行非线性压缩，使得输出数据被映射到另一个非线性特征空间，使用ReLU非线性激活函数，函数将输入数据x的负值全部截断为0：

f(x)＝max(x,0)。

5.如权利要求1所述的变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法的批量归一化层一次采样m条数据训练，用

其中神经元输出的均值μ_i,j；

神经元输出值的标准差σ_i,j；

其中δ是一个常数。

6.如权利要求1所述的变长光学字符文字快速识别方法，其特征在于，所述变长光学字符文字快速识别方法的Dropout层给每个神经元独立地设置一个二项分布的神经元激活概率r_i ^(l)，值为0，则表明当前神经元抑制；值为1，则表明当前神经元可用。

7.一种变长光学字符文字快速识别系统，其特征在于，所述变长光学字符文字快速识别系统配置为执行如权利要求1-6任一项所述变长光学字符文字快速识别方法，且包括：

仿射变换层，对输入数据进行线性变换操作；

最大池化层，筛选出数据周围的最大特征进行输出。

8.如权利要求7所述的变长光学字符文字快速识别系统，其特征在于，所述卷积模块层包含：1层卷积层、1层非线性激活层、1层批量归一化层、1层Dropout层；全连接模块层包含：1层仿射变换层，1层非线性变换层，1层批量归一化层，1层Dropout层；

9.一种机器学习装置，其特征在于，所述装置用于执行权利要求1～6任意一项所述变长光学字符文字快速识别方法。