CN108090400A

CN108090400A - 一种图像文本识别的方法和装置

Info

Publication number: CN108090400A
Application number: CN201611036897.9A
Authority: CN
Inventors: 程耀; 宋刘汉; 宋刘一汉; 杜安安; 许宝亮
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2016-11-23
Filing date: 2016-11-23
Publication date: 2018-05-29
Anticipated expiration: 2036-11-23
Also published as: CN108090400B

Abstract

本发明实施例公开了一种图像文本识别的方法，所述方法包括：构建单行文本图像训练集；利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型；利用所述单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。如此，实现了对自然场景单行文本信息的有效识别，降低了人工分割的成本。本发明实施例还公开了一种图像文本识别的装置。

Description

一种图像文本识别的方法和装置

技术领域

本发明涉及图像识别领域，尤其涉及一种图像文本识别的方法和装置。

背景技术

随着科技的发展和社会的进步，越来越多的科技成果正在应用于人们的日常生活中，并且改变着人们的生活其中，图像文本识别技术的应用更是越来越广泛。但随着信息井喷式增长，以及人们对图像中文本识别精度的要求不断提升，传统的图像文本识别技术已经无法满足时代的需求，对于传统的图像文本识别技术主要存在以下的问题。

第一，对于传统的光字符识别技术(Optical Character Recognition，OCR)在图像文本识别中主要面向高质量的文档图像。此类技术假设输入图像背景干净、字体简单且文字排布整齐，在符合要求的情况下能够达到很高的识别水平。与文档图像文字识别不同，自然随机的场景中的文字识别则面临着图像背景复杂、分辨率低、字体多样、分布随意等挑战，传统OCR在此类情况下几乎无法被应用。

第二，应用神经网络算法进行图像文本识别，此方法需要输入大量的单个字符图像作为神经网络的训练集，这种训练集需要人工从大量图片中进行分割得到，分割时必然会引入误差信息，导致识别准确度下降；分割过程耗时耗力人工成本大，且得到的训练集有限无法满足大数据时代人们对于海量信息的需求。

发明内容

为解决上述技术问题，本发明实施例期望提供一种图像文本识别的方法和装置，实现了对自然场景单行文本信息的有效识别，既解决了对海量图像进行人工分割标注时耗时耗力的问题，又大幅提高了识别单行文本图像的准确率，避免了由于对图像中文本分割造成的误差。

本发明的技术方案是这样实现的：

本发明实施例提供了一种图像文本识别的方法，包括：

构建单行文本图像训练集；

利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型；

利用所述单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。

上述方案中，所述构建单行文本图像训练集包括：获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用所述生成的单行文本图像构建单行文本图像训练集。

上述方案中，所述预设的构建方式包括：随机改变字符的形状，或随机的改变字符组合的背景或前景。

上述方案中，在生成对应的单行文本图像之后，所述方法还包括：对所述单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

上述方案中，利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型，包括：利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用所述文本序列特征训练递归神经网络(Long Short-TermMemory，LSTM)识别模型，得到单行文本识别模型。

本发明实施例还提供了一种图像文本识别的装置，其特征在于，所述装置包括：构建模块、训练模块和识别模块；其中，

构建模块，用于构建单行文本图像训练集；

处理模块，用于利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型；

识别模块，用于利用所述单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。

上述方案中，所述构建模块，具体用于获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用所述生成的单行文本图像构建单行文本图像训练集。

上述方案中，所述构建模块，还用于在生成对应的单行文本图像之后，对所述单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

上述方案中，所述处理模块，具体用于利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用所述文本序列特征训练递归神经网络LSTM识别模型，得到单行文本识别模型。

本发明实施例中，构建单行文本图像训练集；利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型；利用所述单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。如此，实现了对自然场景单行文本信息的有效识别，既解决了对海量图像进行人工分割标注时耗时耗力的问题，又大幅提高了识别单行文本图像的准确率，避免了由于对图像中文本的单独分割造成的误差。

附图说明

图1为本发明图像文本识别的方法的第一实施例的流程图；

图2为本发明图像文本识别的方法的第二实施例的流程图；

图3为本发明实施例中单行文本图像示意图；

图4为本发明实施例图像文本识别的装置的组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

图1为本发明图像文本识别的方法的第一实施例的流程图，如图1所示，该方法包括：

步骤100：构建单行文本图像训练集。

示例性的，构建单行文本图像训练集可以包括：获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用生成的单行文本图像构建单行文本图像训练集。

这里的字符组合可以是由汉字组成的词语，也可以是由罗马字母组成的英文单词，阿拉伯数组和特殊字符组成的字符串，还可以是汉字、字母和特殊字符的组合。

在实际实施时，建立字符集可以是，从现代汉语常用词语库、现代英语常用词语库、热门应用程序语料库等资源中，获取常用的和最新的汉语、英语和其他字符资源，组成字符集合。这里，也可以根据使用国家的不同，建立使用国常用有语言文字字符集合，例如，印度语、西班牙语、阿拉伯语、葡萄牙语等。

进一步地，在获得字符集后，依据预设的构建方式生成对应的单行文本图像可以是，模拟自然场景的特点，将字符集中每一种字符组合扩展成具有不同形状及背景的单行文本图像。

优选地，预设的构建方式可以包括：随机改变字符的形状，或随机的改变字符组合的背景或前景；这里，随机改变字符的形状可以是：改变字符的字体、对字符进行字体仿真变换等，例如，将字符集中的每一中字符可以作以下至少一种扩展：1、设置不同字体，包括：宋体、黑体、仿宋、微软雅黑、新罗马体Times New Roman、西文正文Calibri等；2、字体仿真变换，包括：旋转、偏移、间隔、模糊处理、锐化处理等。

随机的改变字符组合的背景或前景可以是：将模拟的自然场景增加到字符组合的背景或前景中。

本步骤中，在生成对应的单行文本图像之后，还可以包括：对单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

需要说明的是，对字符集合进行扩展生成单行文本图像后，得到的单行文本图像的尺寸不同，因此为了方便下一步对神经网络模型的训练，需要将获得的单行文本图像的宽度调整到相同尺寸。在实际应用中，可以对单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。由于字符集合中的每一种字符组合的长度不可能相同，因此不对单行文本图像的长度做限制。

示例性的，单行文本图像的宽度可以定为32个像素，对生成的单行文本图像在宽度方向上进行扩大或缩小，或者对单行文本图像的尺寸进行整体的缩放，使宽度最终调整为32个像素。

本步骤中，通过构建的海量单行文本图像训练集可有效模拟真实场景数据，解决海量标注数据难以获取的难题。

步骤101：利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型。

本步骤中，利用卷积神经网络提取单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用文本序列特征训练递归神经网络(Long Short-Term Memory，LSTM)识别模型，得到单行文本识别模型。

优选地，单行文本图像对应的文本序列特征，可以是利用去掉全连接层的卷积神经网络提取对应的文本序列特征。

在训练LSTM时，可以将文本序列特征输入到LSTM递归神经网络，并通过双向传播方法逐层修正神经网络中各结点的权值来迭代优化单行文本识别模型。

本步骤中，利用卷积神经网络提取单行文本图像中的文本序列特征，替代传统的人工选取序列特征的方法，并利用LSTM递归神经网络实现对单行文本识别模型的训练。与现有技术相比，该发明实施例对自然场景的单行文本图像识别过程具有较强鲁棒性。

步骤102：利用所述单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。

本步骤中，在进行随机场景图像文本识别时，首先需将一副随机场景的图像进行单行文本切割；然后将切割后的单行文本图像作为初始值，输入到上述得到的单行文本识别模型中，并实时输出与单行文本图像包含的文字信息相对应的识别结果。

需要说明的是，在对随机场景的图像进行切割后还可以包括：对切割后的单行文本图像进行缩放处理，使得切割后的单行文本图像的宽度变为预设的固定的像素，便于单行文本识别模型的识别处理。例如，对切割后的单行文本图像在宽度方向上进行扩大或缩小，或者对切割后的单行文本图像的尺寸进行整体的缩放，使宽度最终调整为32个像素。

本发明实施例中，构建单行文本图像训练集；利用单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型；利用单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。这样，通过构建的海量单行文本图像训练集可有效模拟真实场景数据，即解决海量标注数据难以获取的难题，也解决了对海量图像进行人工分割标注时耗时耗力的问题，大幅提高了识别单行文本图像的准确率，避免了由于对图像中文本的单独分割造成的误差；利用卷积神经网络提取单行文本图像中的文本序列特征，替代传统的人工选取序列特征的方法，对自然场景的单行文本图像识别过程具有较强鲁棒性。

第二实施例

为了能更加体现本发明的目的，在本发明第一实施例的基础上，以汉字识别为例进行进一步的举例说明。

图2为本发明图像文本识别的方法的第二实施例的流程图，该方法包括：

步骤200：从常用语料库中获取常用的和最新的词语，组成词语集。

在实际实施时，可以从现代汉语常用词语库、热门应用程序语料库等资源中，获取常用的和最新的词语资源。例如，共获得最常用和最新的词语共202639个，其中包含6699个不同的汉字。

步骤201：模拟自然场景的特点，将词语集中每一个词语扩展成具有不同形状及背景的单行文本图像，并构建单行文本图像训练集。

具体的，对词语集中每一个词语的扩展方式可以是：随机改变词语的字体，随机对词语做仿真变换，或随机增加词语的背景或前景。

优选地，将词语集中的每一个词语可以作如下扩展：1、5种字体，包括：宋体、黑体、新宋体、仿宋和微软雅黑；2、2种仿真变换，包括：旋转或偏移；3、3种随机处理，包括：随机增加下划线、随机增加模糊处理、随机增加锐化处理；4、2种自然场景增加方式，随机的将模拟的自然场景增加到字符组合的背景或前景中。

在实际实施时，将获得的所有202639个词语分别扩展成50种不同的单行文本图像后，将所有图像的尺寸经过缩小或放大变化，使所有图像的宽度都固定在32个像素，图像的长度不受限制。最后将得到10131950张单行文本图像，作为单行文本图像训练集，该训练集共包含6699个汉字。

图3为本发明实施例中单行文本图像示意图，如图3所示，首先对获得的词语“深层神经网络”进行扩展，获得不同类型的单行文本图像；例如，字体设置为微软雅黑，词语文本作逆时针旋转15°，增加下划线，增加25％的锐化处理，背景中随机叠加部分噪声。其次，统一单行文本图像尺寸，例如，可以将获得的单行文本图像在宽度方向上进行扩大或缩小，或者对图像的尺寸进行整体的缩放，使宽度最终调整为32个像素。

步骤202：将每一个单行文本图像数据转换文件格式。

优选地，将步骤201中得到的单行文本图像训练集中的每一个单行文本图像数据进行格式转换，得到可用于深层神经网络训练使用的lmdb文件，其中包含可用于深层神经网络torch工具使用的二进制文件，以及每一个汉字对应的文本标签信息，文本标签信息是用于指示每一个汉字的标识信息。

示例性的，图2中每一个汉字都有对应的文本标签信息可以是，“深”对应标签为00A；“层”对应标签为00B；“神”对应标签为00C；“经”对应标签为00D；“网”对应标签为00E；“络”对应标签为00F。每一个汉字都有唯一的标签信息。

步骤203：使用卷积神经网络提取单行文本序列特征。

在实际实施时，将单行文本图像训练集中的每一个单行文本图像对应的lmdb文件输入到深层神经网络torch工具，设置关键参数maps 64-128-256-256-512-512-512，将最后一层卷积层得到的map映射作为序列特征。这里，单行文本图像中包含的每一个汉字会得到对应的序列特征。

步骤204：利用文本图像序列特征训练递归神经网络LSTM识别模型，得到单行文本识别模型。

优选地，利用文本图像序列特征训练双向递归神经网络，使用ADADELTA优化方法，利用连接时序分类(Connectionist Temporal Classification，CTC)方法将序列特征与文本标签消息联系，通过时间的后向迭代传播深层神经网络中各层结点之间的关联，优化深层神经网络中各层结点的权值，得到单行文本识别模型。

需要说明的是，本步骤可以通过离线操作实现。

步骤205：使用单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。

在实际实施时，先将一副随机场景的图像进行单行文本切割，将切割后的单行文本图像作为初始值，输入到基于深层神经网络的单行文本识别模型中，并实时输出与单行文本图像包含的文字信息相对应的识别结果。

需要说明的是，本步骤可以通过在线操作实现。

第三实施例

针对本发明实施例的方法，本发明实施例还提供了一种图像文本识别的装置。图4为本发明实施例图像文本识别的装置的组成结构示意图，如图4所示，该装置包括：构建模块400、处理模块401和识别模块402；其中，

构建模块400，用于构建单行文本图像训练集。

处理模块401，用于利用单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型。

识别模块402，用于利用单行文本识别模型识别随机场景的单行文本图像，得到识别后的文本信息。

构建模块400，具体用于获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用生成的单行文本图像构建单行文本图像训练集。

优选地，预设的构建方式可以包括：随机改变字符的形状，或随机的改变字符组合的背景或前景。

构建模块400，还用于在生成对应的单行文本图像之后，对单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

处理模块401，具体用于利用卷积神经网络提取单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用文本序列特征训练递归神经网络LSTM识别模型，得到单行文本识别模型。

在实际应用中，构建模块400、处理模块401和识别模块402均可由位于终端设备中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro Processor Unit，MPU)、数字信号处理器(Digital Signal Processor，DSP)、或现场可编程门阵列(FieldProgrammable Gate Array，FPGA)等实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种图像文本识别的方法，其特征在于，所述方法包括：

构建单行文本图像训练集；

2.根据权利要求1所述的方法，其特征在于，所述构建单行文本图像训练集包括：获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用所述生成的单行文本图像构建单行文本图像训练集。

3.根据权利要求2所述的方法，其特征在于，所述预设的构建方式包括：随机改变字符的形状，或随机的改变字符组合的背景或前景。

4.根据权利要求2所述的方法，其特征在于，在生成对应的单行文本图像之后，所述方法还包括：对所述单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

5.根据权利要求1所述的方法，其特征在于，利用所述单行文本图像训练集训练预设的神经网络模型，得到单行文本识别模型，包括：利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用所述文本序列特征训练递归神经网络LSTM识别模型，得到单行文本识别模型。

6.一种图像文本识别的装置，其特征在于，所述装置包括：构建模块、训练模块和识别模块；其中，

构建模块，用于构建单行文本图像训练集；

7.根据权利要求6所述的装置，其特征在于，所述构建模块，具体用于获取至少一种字符组合，利用获取的至少一种字符组合建立字符集，将所述字符集中每一种字符组合依据预设的构建方式生成对应的单行文本图像，利用所述生成的单行文本图像构建单行文本图像训练集。

8.根据权利要求7所述的装置，其特征在于，所述预设的构建方式包括：随机改变字符的形状，或随机的改变字符组合的背景或前景。

9.根据权利要求7所述的装置，其特征在于，所述构建模块，还用于在生成对应的单行文本图像之后，对所述单行文本图像进行缩放处理，使得缩放处理后的单行文本图像的宽度为预设的固定的像素。

10.根据权利要求6所述的装置，其特征在于，所述处理模块，具体用于利用卷积神经网络提取所述单行文本图像训练集中每一个单行文本图像对应的文本序列特征，利用所述文本序列特征训练递归神经网络LSTM识别模型，得到单行文本识别模型。