CN108898137A

CN108898137A - 一种基于深度神经网络的自然图像字符识别方法及系统

Info

Publication number: CN108898137A
Application number: CN201810517976.4A
Authority: CN
Inventors: 黄凯
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2018-11-27
Anticipated expiration: 2038-05-25
Also published as: CN108898137B

Abstract

本发明公开了一种基于深度神经网络的自然图像字符识别方法及系统，其方法包括图像采集融合、字符定位、字符识别以及合理性判断的步骤；其系统包括图像采集融合单元、字符检测单元、字符识别单元以及合理性判断单元；字符检测单元通过训练得到的字符探测器自动定位图像中字符所在区域；字符识别单元通过构建的多接口CNN先将字符分为中文、英文和数字三大类，再对相应类别的字符进行识别；合理性判断单元中将识别单元的输出结果与基于字符的LSTM模型预测结果融合，提高中文连续字符识别的合理性。该自然图像字符识别方法及系统可智能地对自然图像中字符进行识别，核心处理模型均由深度神经网络构成，能最大程度模拟人脑，具备较高的鲁棒性和识别精度。

Description

一种基于深度神经网络的自然图像字符识别方法及系统

技术领域

本发明属于目标字符识别技术领域，更具体地，涉及一种基于深度神经网络的自然图像字符识别方法及系统。

背景技术

随着现代科学技术的不断发展与互联网的广泛普及，数字图像信息资源也呈现出指数级的增长，工作生活中需要人工记录大量图像信息。因此如何快速准确地将自然图像中需要记录的文字信息直接通过计算机识别出来成为了一个亟待解决的问题。

目前的光学字符识别(Optical Character Recognition，OCR)模型主要分为字符分割和字符识别两个部分，但是传统的字符分割方法均需要通过滑动窗口的选择和SVM的大量计算分类正负样本，这些方法通常涉及到的计算量非常庞大，无法做到实时完成线上测试。另一方面，传统的字符识别方法均是通过人工选取文字特征来解决特征提取问题，而这类人工选取特征通常会在特征的准确性和全面性上有误差，不仅如此，自然图像的像素信息缺失或者光照问题也会导致识别准确率下降。因此，一个表现优秀的字符检测识别系统必须具备高效的字符分割能力和高鲁棒性的字符识别能力。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度神经网络的自然图像字符识别方法及系统，其目的在于提高自然图像中字符的检测速度和识别精度。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度神经网络的自然图像字符识别方法，包括如下步骤：

(1)图像采样及预处理：

采集待识别自然场景的多帧图像，并将同一目标的多帧图像根据各像素点的辐射度进行加权，融合得到HDR图像；对融合得到的HDR图像进行阈值化和标准化处理得到二值图像，并对二值图像按比例压缩进行尺寸裁剪，得到预处理图像；

(2)字符检测：

采用开源的字符检测图像库训练Faster RCNN中的RPN网络得到用于字符定位的深度神经网络模型，作为字符定位器；利用该字符定位器对自然图像进行判定，将其中含有字符的图像块判定为正样本；通过对正样本回归拟合得到字符所在位置的坐标；通过位置坐标信息将预处理图像进行分割，得到需要识别的字符图像块的集合；

(3)字符识别：

采用包含印刷体和手写体的字符图像数据库来训练一个三接口的CNN网络，将获得的深度神经网络模型作为字符识别器；将步骤(2)得到待识别字符图像块的集合输入该字符识别器，得到初步识别结果；

(4)合理性判断：

训练一个基于字符的LSTM预测模型作为合理性判断器；将步骤(3)得到的初步识别结果中的连续中文作为字符数列输入到所述合理性判断器，将所述合理性判断器的输出作为自然语言预测结果；并将自然语言预测结果与上述的初步识别结果根据预设权重进行加权得到最终的识别结果。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(1)包括如下子步骤：

(1.1)采集待识别自然场景的2帧或2帧以上的图像，将同一目标的多帧图像按照特征点配准原则进行匹配，根据曝光时间以及CMOS灰度值，得到该像素点原本的辐射度；

(1.2)计算辐射度图像合成一幅图像后每个像素点处的权重；

(1.3)通过加权求和得到最佳的HDR图像；

(1.4)将该HDR图像进行阈值化和标准化处理得到二值图像，并对其按比例压缩尺寸，裁剪得到预处理图像。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(2)包括如下子步骤：

(2.1)采用在ImageNet数据库上训练好的VGG19网络参数作为初始化数据，采用开源的字符检测图像库作为训练数据训练RPN网络，得到用于字符定位的深度神经网络模型，作为字符定位器；

(2.2)通过所述字符定位器对所述预处理图像提取基础特征，并以卷积特征块上的每个像素点为中心构造9种窗口，完成对整幅图像的窗口遍历；

(2.3)求取遍历得到的窗口与真实隔离开关的映射窗口之间的重叠部分，将重叠部分超过70％的窗口判定为正样本，将重叠部分小于30％的窗口判定为负样本，来训练该字符定位器使之具备判断图像块是否为目标字符的能力；

(2.4)对识别出的正样本图像块进行窗口精修；并对精修后的正样本图像块的坐标值的进行回归拟合得到精确的字符所在位置信息；

(2.5)通过上述位置信息将待识别图像进行分割，得到字符图像块的集合；

(2.6)对该字符图像块的集合进行阈值化和腐蚀膨胀操作，得到待识别的字符图像集。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(2.4)包括如下子步骤：

(2.4.1)获取候选窗口的坐标P＝(P_x,P_y,P_w,P_h)；

(2.4.2)通过用于字符定位的深度神经网络模型的回归拟合得到精修需要的评析量和尺度放缩量，根据该评析量和尺度放缩量通过几何变换得到精修后的坐标。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(3)包括如下子步骤：

(3.1)采用包含印刷体和手写体的字符图像数据库来训练一个三接口的CNN网络，将获得的深度神经网络模型作为字符识别器；

(3.2)将步骤(2)得到的待识别的字符图像块的集合进行尺寸统一和阈值化；

(3.3)将尺寸统一和阈值化处理后的字符图像集输入所述字符识别器进行识别，获得候选文本结果作为初步识别结果。

优选地，上述基于深度神经网络的自然图像字符识别方法，其三接口的CNN网络包括判断网络和识别网络；

所述判别网络的输出为一个三维向量，三维的数据分别表示图像是汉字，数字和字母的概率；

所述识别网络包括三个小型的神经网络结构，对于数字图像和字母图像直接利用判断网络最后一层特征作为识别网络的输入，以小型的神经网络进行训练；而对于汉字图像则采用重新构造的CNN网络，网络前一部分参数以判断网络的参数作为初始化，后一部分参数随机初始化，利用汉字字符图像库对整个识别网络进行训练。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(4)包括如下子步骤：

(4.1)采用中文维基百科语料信息作为训练数据对一个基于字符的LSTM预测模型进行训练，获得合理性判断器；

(4.2)将步骤(3)获得的初步识别结果进行整合，提取其中的连续中文字符；

(4.3)将上述连续中文字符中的首个字符以词向量的形式输入合理性判断器，得到i个预测结果中概率最高的中文字符，作为自然语言预测结果；

(4.4)将自然语言预测结果与步骤(3)获得的初步识别结果按照预设权重进行加权，得到合理性纠正后的识别结果。

优选地，上述基于深度神经网络的自然图像字符识别方法，其步骤(4.4)包括如下子步骤：

(4.4.1)令自然语言预测结果中按概率排序的前i个结果为L＝{L₁,L₂,L₃,..._i,}L；

(4.4.2)令初步识别结果的i个结果按概率排序为C＝{C₁,C₂,C₃,...,C_i}

(4.4.3)初步识别结果的系数为a_Ci＝6-i(i＝1,…,5)，自然语言预测结果的系数为

(4.4.4)根据预设权重，将自然语言预测结果与初步识别结果进行加权求和得到加权值(j*a_Li+(1-j)*a_Ci)；其中，j为自然语言预测结果所占权重；

(4.4.5)将加权值进行排序并选取最大加权值对应的C_i作为最终的识别结果；其中，C_i是指初步识别结果中的第i个字符。

为实现本发明目的，按照本发明另一方面，提供了基于深度神经网络的自然图像字符识别系统，包括依次连接的图像采集融合单元、字符检测单元、字符识别单元、合理性判断单元；

其中，图像采集融合单元用于对待识别自然场景进行图像采集并对采集到的多帧图像进行融合；

字符检测单元用于采用训练得到的字符定位深度神经网络模型对图像采集融合单元的输出结果进行定位，自动定位图像中字符所在区域；

字符识别单元用于采用训练得到的多接口CNN模型将字符检测单元得到的字符图像集中的字符分为中文、英文和数字三大类，并对相应类别的字符进行识别；

合理性判断单元用于采用训练得到的基于字符的LSTM模型获得候选的预测字符，并用于将字符识别单元输出的初步识别结果与该预测字符按照预设的权重融合，得到最终的识别结果，以提高中文连续字符识别的识别准确率。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于深度神经网络的自然图像字符识别方法及系统，首先对采集到的多帧图像进行融合，得到信息完备的HDR图像；然后利用自然图像库中训练完成的RPN网络实现对HDR图像中字符的定位；再利用包含印刷体和手写体的字符图像数据库来训练一个三接口的CNN模型得到字符识别器，并利用该字符识别器完成对字符的识别；最后将字符识别结果中的连续中文字符输入训练好的LSTM模型中得到自然语言预测结果，将自然语言预测结果与CNN模型的字符识别结果加权得到最终的识别结果。该方法及系统针对现有自然图像中字符检测识别系统的问题，直接利用深度神经网络完成对自然图像中字符的检测和识别，在字符检测时只需要线下训练保存模型，线上直接检测定位，避免了线上测试的大量计算时间。而在字符识别时，利用CNN模型进行识别，并采用基于字符的LSTM模型对识别结果进行合理性判断，从而确保模型对自然图像的像素信息缺失和光照等因素仍保持高鲁棒性。本发明提供的系统及方法能够有效提高自然图像中字符的检测速度和识别精度，并且对图像中字符的遮挡、部分缺失等情况具备较强的鲁棒性。

附图说明

图1是本发明提供的基于深度神经网络的自然图像字符识别方法的中的字符检测模型的结构示意图；

图2是实施例中的字符识别三接口CNN模型示意图；

图3是实施例中的识别流程示意图；

图4是本发明提供的基于深度神经网络的自然图像字符识别系统的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于深度神经网络的自然图像字符识别方法，首先对待识别自然场景的多帧图像进行融合，得到信息完备的高动态范围图像(High-Dynamic Range，HDR)；然后采用自然图像库中训练好的区域选取网络(Region Proposal Network，RPN)实现对HDR图像中字符的定位；再创建印刷体字符图像库，利用包含印刷体和手写体的字符图像数据库对多接口卷积神经网络(Convolutional Neural Networks，CNN)模型的训练，并利用训练好的模型完成对字符的识别；最后将字符识别结果中的连续中文字符输入训练好的长短期记忆(Long-Short Term Memory，LSTM)模型中得到预测结果，根据LSTM预测结果与CNN模型的识别结果得到最终的识别结果并输出。

以下具体阐述本发明提供的基于深度神经网络的自然图像字符识别方法的一个实施例的流程。

(1)图像采样及融合，包括如下子步骤：

(1.1)采集待识别自然场景的2帧或2帧以上的图像，将同一目标的多帧图像按照特征点配准原则进行匹配，根据曝光时间以及CMOS灰度值，得到像素点原本的辐射度；

(1.2)计算辐射度图像合成一幅图像后每个像素点处的权重；

(1.3)通过加权求和得到最佳的HDR图像；该图像能够最大程度还原待识别目标的细节信息，减少曝光度和噪声对图像的影响；

(1.4)将上述HDR图像进行阈值化和标准化处理得到二值图像，并对二值图像按比例压缩尺寸，裁剪得到预处理图像。

(2)字符检测，包括如下子步骤：

(2.1)在对自然图像进行字符检测之前，通过训练得到能自动定位字符的字符定位深度神经网络模型；实施例中采用的深度神经网络模型结构参照图1所示，该模型结构与Faster RCNN中的RPN网络结构类似，该模型的前19层网络将利用在ImageNet数据库上训练好的VGG19网络参数作为初始化；实施例中采用开源的字符检测图像库作为训练数据，利用该训练数据来训练上述模型，得到能自动定位字符的字符定位深度神经网络模型，作为字符定位器；

(2.2)通过该字符定位器对步骤(1)得到的预处理图像提取基础特征，并以卷积特征块上的每个像素点为中心构造9种窗口，完成对整幅图像的窗口遍历；

(2.3)求取遍历得到的窗口与真实隔离开关的映射窗口之间的重叠部分，若重叠部分超过70％则判定该遍历窗口为正样本，重叠小于30％则判定为负样本，以此训练网络使之具备判断图像块是否为目标字符的能力；

(2.4)对识别出的正样本图像块进行窗口精修，使得最终的字符定位更加准确；该窗口精修具体包括如下子步骤：

(2.4.1)获取候选窗口的坐标P＝(P_x,P_y,P_w,P_h)；

(2.4.2)通过网络的回归得到精修需要的评析量和尺度放缩量，根据该评析量和尺度放缩量通过几何变换得到精修后的坐标。

通过大量数据训练后，通过该字符定位深度神经网络模型智能的将自然图像中含有字符的图像块判定为正样本，通过对正样本的坐标值(x₁,y₁,x₂,y₂)的回归拟合得到精确的字符所在位置信息；

(2.5)通过上述的位置信息将待识别图像进行分割，得到字符图像块的集合；

(2.6)经过阈值化和腐蚀膨胀操作后得到待识别的字符图像集。

(3)字符识别，包括如下子步骤：

(3.1)在字符识别之前，通过训练获得精确度较高的字符识别深度神经网络模型作为字符识别器；该步骤具体包括如下子步骤：

(3.1.1)构造一个完备的训练字符图像库，该图像库包括手写体字符图像库和印刷体字符图像库；手写体字符图像库主要由手写体汉字、数字和英文字母的开源数据库组成，而印刷体字符图像库则通过以下方法构建：

(a)将标准字符(例如汉字)通过工具箱映射到图像上，得到不同汉字的单个字符图像；

(b)为了加强模型的普适性，将常见的印刷体类型应用在字符上得到了图像样本，即对于每个字符均存在多种不同印刷体的样本；

(c)将图像样本进行预处理，以将图像归一化，并放缩到64x64大小相同的尺寸；

(d)将归一化后的每个样本通过翻转变形处理进行样本扩充印刷体字符图像库。

按照上述的方法，可以建造适用于名牌识别的印刷体数字、字母和汉字图像库；实施例中的印刷体数据库使用了62种印刷体样式，选用了常用中文的6000多字、52个英文字符和10个数字。

(3.1.2)构造一个用于识别的字符识别深度学习模型；实施例中构建的字符识别深度学习模型的结构参照图2所示，是一个三接口CNN模型，该模型主要包括判断网络和识别网络；图像通过判断网络输出某种类型的概率值，然后将判断网络最后一层特征输入其对应的识别网络中进行识别。

实施例中，判断网络是一个完整的CNN结构，其输出为一个三维向量，这三个数据分别表示图像是汉字，数字和字母的概率。判断网络只判断字符图像的类别，可随机在三种数据库中抽取相同样本个数的样本数据对其进行训练。识别网络是小型的神经网络结构，对于数字图像和字母图像这种类别数不高的数据库，直接利用判断网络最后一层特征作为识别网络的输入，重新建立两个小型的神经网络进行训练。对于汉字图像的识别网络而言，为避免直接使用判断网络的特征进行训练导致丢失一部分图像细节，本处重新构造了一个CNN网络，网络前一部分参数以判断网络的参数作为初始化，后一部分参数随机初始化，然后利用汉字图像库对整个识别网络进行训练，整个识别流程参照图3所示。

(3.2)将步骤(2)得到的待识别的字符图像集进行尺寸统一和阈值化；

(3.3)将尺寸统一和阈值化处理后的字符图像集输入步骤(3.1)训练好的字符识别器进行识别，获得候选文本结果作为初步识别结果；

(3.4)为了防止字符识别过程中因为模糊或者像素缺失导致的识别错误问题，在识别中文字符图像时，将初步识别结果按概率排序并取出其中的前N个进行保存以对初步识别结果进行步骤(4)的合理性判断；实施例中，N取5。

(4)合理性判断，包括如下子步骤：

(4.1)训练一个鲁棒性强的合理性判断深度神经网络模型以实现线上的合理性判断；实施例中采用一个基于字符的LSTM预测模型，该模型的训练数据为中文维基百科语料信息；训练结束后，保存该LSTM模型作为系统的合理性判断器。

(4.2)将字符识别单元输出候选文本结果进行整合，提取其中的连续中文字符。

(4.3)将连续中文字符中的首个字符以词向量的形式输入上述步骤(4.1)训练好的LSTM模型中，得到5个预测结果中概率最高的中文字符，作为自然语言预测结果。

实施例中，纠正第n个结果时，将前(n-1)个识别字符同时输入训练好的LSTM模型重复(4.3)～(4.4)的处理。

将通过LSTM预测得到的预测字符与步骤(3)通过多接口CNN得到的初步识别结果融合的方法，包括如下子步骤：

(4.4.1)令LSTM预测输出中按概率排序的前5个结果表示为L＝{L₁,L₂,L₃,L₄,L₅}；

(4.4.2)令步骤(3)初步识别输出的5个结果按概率排序表示为C＝{C₁,C₂,C₃,C₄,C₅}；

(4.4.3)设识别结果的系数为a_Ci＝6-i(i＝1,…,5)，预测结果的系数为

(4.4.4)根据预设权重，将自然语言预测结果与初步识别结果进行加权求和，将加权求和的结果进行排序并选取其中最大值对应的C_i为最终的识别结果；实施例中，融合时，将自然语言预测结果a_Ci的权重设置为0.7，将初步识别结果a_Li的权重设置为0.3；加权求和的结果为(0.7a_Li+0.3a_Ci)。

参照图4，是实施例提供的基于深度神经网络的自然图像字符识别系统，包括图像采集融合单元、字符检测单元、字符识别单元、合理性判断单元；

字符识别单元用于采用构建的多接口CNN将字符检测单元得到的字符图像集中的字符分为中文、英文和数字三大类，并对相应类别的字符进行识别；

合理性判断单元用于采用基于字符的LSTM模型获得候选的自然语言预测结果，并用于将字符识别单元输出的初步识别结果与该自然语言预测结果按照预设的权重融合，得到最终的识别结果，以提高连续字符识别的识别准确率。

实施例提供的基于深度神经网络的自然图像字符识别系统，其字符检测单元通过训练深度定位模型RPN得到字符探测器，自动定位图像中字符所在区域；字符识别单元通过构建的多接口CNN先将字符分为中文、英文和数字三大类，再对相应类别的字符进行识别，这种多接口模型可以大幅提高识别精度；在合理性判断单元中，将识别单元的输出的初步识别结果与基于字符的LSTM模型的自然语言预测结果融合，提高中文连续字符识别的合理性。本发明所构建的多个深度神经网络一经训练完成便可以直接进行在线计算，不需要重复训练；所构建的深度学习神经网络具有超强的语义学习能力，通过本方法及系统能实时进行合理性判断，对初步识别结果进行合理性纠正；本发明提供的这种方法及系统可智能地对任意自然图像中字符进行定位识别，由于该系统的核心处理模型均由深度神经网络构成，能最大程度模拟人脑，可最大程度保证该方法及系统对于字符的识别准确率和鲁棒能力。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度神经网络的自然图像字符识别方法，其特征在于，包括如下步骤：

(1)采集待识别自然场景的多帧图像，并将同一目标的多帧图像根据各像素点的辐射度进行加权，融合得到HDR图像；对融合得到的HDR图像进行阈值化和标准化处理得到二值图像，并对二值图像按比例压缩进行尺寸裁剪，得到预处理图像；

(2)采用开源的字符检测图像库训练RPN网络得到深度神经网络模型作为字符定位器；利用所述字符定位器对自然图像进行判定，将其中含有字符的图像块判定为正样本；通过对正样本回归拟合得到字符所在位置的坐标；通过位置坐标信息将预处理图像进行分割，得到待识别的字符图像块的集合；

(3)采用包含印刷体和手写体的字符图像数据库来训练一个三接口的CNN网络，将获得的深度神经网络模型作为字符识别器；将步骤(2)得到待识别字符图像块的集合输入该字符识别器，得到初步识别结果；

(4)训练一个基于字符的LSTM预测模型作为合理性判断器；将所述的初步识别结果中的连续中文作为字符数列输入到所述合理性判断器，将所述合理性判断器的输出作为自然语言预测结果；并将所述自然语言预测结果与所述初步识别结果根据预设权重进行加权得到加权值，根据加权值排序得到最终的识别结果。

2.如权利要求1所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(1)包括如下子步骤：

(1.2)计算辐射度图像合成一幅图像后每个像素点处的权重；

(1.3)通过加权求和得到最佳的HDR图像；

(1.4)将所述HDR图像进行阈值化和标准化处理得到二值图像，并通过按比例压缩尺寸裁剪，得到预处理图像。

3.如权利要求1或2所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(2)包括如下子步骤：

(2.3)求取遍历得到的窗口与真实隔离开关的映射窗口之间的重叠部分，将重叠部分超过70％的窗口判定为正样本，将重叠部分小于30％的窗口判定为负样本，来训练所述字符定位器使之具备判断图像块是否为目标字符的能力；

(2.5)通过所述位置信息将待识别图像进行分割，得到字符图像块的集合；

(2.6)对所述字符图像块的集合进行阈值化和腐蚀膨胀操作，得到待识别的字符图像集。

4.如权利要求3所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(2.4)包括如下子步骤：

(2.4.1)获取候选窗口的坐标P＝(P_x,P_y,P_w,P_h)；

(2.4.2)通过用于字符定位的深度神经网络模型的回归拟合得到精修需要的评析量和尺度放缩量，根据所述评析量和尺度放缩量通过几何变换得到精修后的坐标。

5.如权利要求1或2所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(3)包括如下子步骤：

6.如权利要求5所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述三接口的CNN网络包括判断网络和识别网络；

7.如权利要求1或2所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(4)包括如下子步骤：

(4.3)将所述连续中文字符中的首个字符以词向量的形式输入所述合理性判断器，得到i个预测结果中概率最高的中文字符，作为自然语言预测结果；

8.如权利要求7所述的基于深度神经网络的自然图像字符识别方法，其特征在于，所述步骤(4.4)包括如下子步骤：

(4.4.1)令自然语言预测结果中按概率排序的前i个结果为

9.一种基于深度神经网络的自然图像字符识别系统，其特征在于，包括依次连接的图像采集融合单元、字符检测单元、字符识别单元、合理性判断单元；

所述图像采集融合单元用于对待识别自然场景进行图像采集并对采集到的多帧图像进行融合；