CN109522892A

CN109522892A - 神经网络辅助的文字图像信息标注方法

Info

Publication number: CN109522892A
Application number: CN201811147409.0A
Authority: CN
Inventors: 谭培波; 肖运凯; 么新新; 张学龙; 刘伟华; 高艳
Original assignee: Beiming Zhitong (beijing) Technology Co Ltd
Current assignee: Beiming Zhitong (beijing) Technology Co Ltd
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-26

Abstract

本发明公开了一种神经网络辅助的文字图像信息标注方法，待识别的文字图片在用神经网络模型进行识别前经过行文字倾斜校正，所述行文字倾斜校正包括以下步骤：步骤一、利用投影法将待识别的文字图片按行切分得多条行文字图片，用每条行文字图片的竖直中心线将该条行文字图片分为左半部分和右半部分；步骤二、将每条行文字图片中左半部分字符像素点的中心点和右半部分字符像素点的中心点连线并计算斜率；步骤三、以左半部分字符像素点的中心点为定点，将左半部分字符像素点的中心点右侧的所有字符像素点均向下或向上平移至步骤二中所述斜率为零。本发明极大的减少了人工键盘输入文字信息的次数，从而减少了键入错别字的可能性。

Description

神经网络辅助的文字图像信息标注方法

技术领域

本发明涉及数据处理技术领域。更具体地说，本发明涉及一种神经网络辅助的文字图像信息标注方法。

背景技术

随着科技的发展，如今越来越多的文件与书籍都以电子化的形式出现，但在文字电子化技术出现之前，有大量的书籍文件是以油墨印刷体的形式存在的，并且受到印刷技术限制，大量文字的清晰度并不能得到保证。这些文件在经扫描仪扫描成图片的过程中也可能进一步损失一定的清晰度。为了满足在当今条件下对于这些文字的电子检索需求，对于这些印刷文件的电子化是很有必要的。

传统的光学识别(OCR)手段主要利用文字的特征信息进行识别，而现如今越来越多的光学识别程序开始采用神经网络等统计学工具对文字进行识别。这些工具往往需要大量标注好的数据进行训练才能达到对文字图片的一定识别率。

这些大量标注好的数据的标注手段主要依赖人工手段，由人来对每个文字进行分辨并记录结果，这个过程会耗费大量时间，并且存在识别者记录同音字、形近字等错别字的可能性。

发明内容

本发明的一个目的是解决至少上述问题，并提供至少后面将说明的优点。

本发明还有一个目的是提供一种减少人工对图像中文字进行标注消耗的时间，降低识别者输入错别字的可能性由神经网络辅助的文字图像信息标注方法。

为了实现根据本发明的这些目的和其它优点，提供了一种神经网络辅助的文字图像信息标注方法，待识别的文字图片在用神经网络模型进行识别前经过行文字倾斜校正，所述行文字倾斜校正包括以下步骤：

步骤一、利用投影法将待识别的文字图片按行切分得多条行文字图片，用每条行文字图片的竖直中心线将该条行文字图片分为左半部分和右半部分；

步骤二、将每条行文字图片中左半部分字符像素点的中心点和右半部分字符像素点的中心点连线并计算斜率；

步骤三、以左半部分字符像素点的中心点为定点，将左半部分字符像素点的中心点右侧的所有字符像素点均向下或向上平移至步骤二中所述斜率为零。

优选的是，步骤二中获取每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点的算法包括：以行宽方向做横轴，以行高方向做纵轴，计算左半部分字符像素点或右半部分字符像素点的纵轴坐标平均值作为纵坐标，以左半部分行宽一半处或右半部分行宽一半处对应的横坐标值作为横坐标，即可确定每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点。

优选的是，待识别的文字图片经过行文字倾斜校正后生成多条新的行文字图片，利用投影法将新生成的行文字图片切分成多个单字符图片，并将每一单字符图片输入到神经网络模型中，得出单字符图片最可能对应的数个字符。

优选的是，新生成的行文字图片切分成多个单字符图片的过程中，若第一次切分出的多个子图中有宽高比大于一常数值的子图，则将该子图沿宽度方向按该子图宽高比为该常数值的倍数的整数部分进行均分，得到第二次切分子图。

优选的是，神经网络模型在使用前先用已标注好的字符图像进行训练，以使神经网络模型将字符图像与该字符图像对应标注的字符相关联，所述神经网络模型采用卷积神经网络。

优选的是，已标注好的字符图像通过分割标注好的文字图片得到，若标注好的文字图片中有中文字符，按中文字符字宽相同的先验知识进行等分，若标注好的文字图片中有英文、数字及标点符号半角字符，按中文字符的一半宽度进行分割。

优选的是，已标注好的字符图像在输入神经网络模型前进行等比例缩放处理，以适应神经网络模型输入模板的要求，已标注好的字符图像在放入输入模板后用白色像素点填充输入摸板中无颜色的像素点。

优选的是，已标注好的字符图像放入输入模板后，还进行改变已标注好的字符图像的大小、改变已标注好的字符图像处于模板中的位置以及改变已标注好的字符图像的摆放角度其中至少一项，以增强神经网络模型对同一字符的不同出现形式的识别能力。

优选的是，神经网络模型的训练过程为：将符合神经网络模型输入模板要求的已标注好的字符图像以像素点矩阵的形式作为输入矩阵，将该字符图像对应标注的字符以神经网络模型可识别的编码方式进行编码并作为输出矩阵，将输入矩阵与输出矩阵放入神经网络模型中训练。

本发明至少包括以下有益效果：本发明提供了一种神经网络辅助的文字图像信息标注方法，极大的减少了人工键盘输入文字信息的次数，从而减少了键入错别字的可能性，同时缩短了标注所消耗的时间；此外，本发明通过矫正各行图片的倾斜提升了分割的成功率；并且通过在训练神经网络前对图像信息进行增强加强了神经网络模型的适应性与识别率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明其中一实施例所述已标注的文字图像示意图；

图2为本发明其中一实施例所述已标注的文字图像分割示意图；

图3为本发明其中一实施例所述通过等比例变形适应输入模板的文字图像示意图；

图4为本发明其中一实施例所述待标注的新文字图片示意图；

图5为本发明其中一实施例所述待标注的新文字图片行斜率示意图；

图6为本发明其中一实施例所述待标注的新文字图片经过倾斜校正后示意图；

图7为本发明其中一实施例所述供标注者使用的一种图形界面示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

需要说明的是，下述实施方案中所述实验方法，如无特殊说明，均为常规方法，所述试剂和材料，如无特殊说明，均可从商业途径获得；在本发明的描述中，术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

本发明提供一种神经网络辅助的文字图像信息标注方法，先使用已标注好的字符图像来训练神经网络模型，再将待识别的文字图片放入训练好的神经网络模型中进行识别，得到文字图片中电子化的字符，待识别的文字图片在用神经网络模型进行识别前经过行文字倾斜校正，所述行文字倾斜校正包括以下步骤：

步骤二、将每条行文字图片中左半部分字符像素点的中心点和右半部分字符像素点的中心点连线并计算斜率，每条行文字图片中左半部分字符像素点的中心点和右半部分字符像素点的中心点连线代表行文字图片中字符的倾斜趋势；

上述实施例在使用过程中，由于解决了行文字图片中整行字符倾斜的问题，提升了后续将行文字图片分割成单字符图片的成功率，使得神经网络识别正确率大大提高。

在另一实施例中，步骤二中获取每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点的算法包括：以行宽方向做横轴，以行高方向做纵轴，计算左半部分字符像素点或右半部分字符像素点的纵轴坐标平均值作为纵坐标，所述纵轴坐标平均值的计算方法为：

其中，m为左半部分或右半部分字符像素点的个数，h_i为第i个像素点的纵轴高度值；

以左半部分行宽一半处或右半部分行宽一半处对应的横坐标值作为横坐标，即可确定每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点。

上述实施例在使用过程中，根据左半部分字符像素点或右半部分字符像素点的高度值进行平均计算，结果能准确反映左半部分或右半部分中所有字符像素点的平均高度，得到的左半部分字符像素点的中心点或右半部分字符像素点的中心点能准确反映左半部分字符像素点或右半部分字符像素点分布的中心位置，因此左半部分字符像素点的中心点与右半部分字符像素点的中心点的连线能较好的反映出整行字符的倾斜趋势。

在另一实施例中，以左半部分字符像素点的中心点为定点，将行文字图片中该定点以右的像素点根据步骤二计算的斜率以及与定点的水平距离上下移动一定的距离，上下移动距离的计算方法为：

其中，θ为步骤二中所述斜率所对应的角度，为目标像素点与左半行字符像素点的中心点的水平距离。

在另一实施例中，待识别的文字图片经过行文字倾斜校正后生成多条新的行文字图片，对处理好的新的行文字图片重新利用投影法进行切割，切去多余空白，再次利用投影法将行文字图片切分成多个单字符图片，并将每一单字符图片输入到神经网络模型中，得出单字符图片最可能对应的数个字符，标注人员进行选择，如没有正确选项则进行人工键盘输入，接着标注人员记录操作的结果，进而完成对文字图像信息的标注。

在另一实施例中，新生成的行文字图片切分成多个单字符图片的过程中，若第一次切分出的多个子图中有宽高比大于一常数值的子图，则将该子图沿宽度方向按该子图宽高比为该常数值的倍数的整数部分进行均分，得到第二次切分子图。这一常数值，在一般的铅字油印文件中约为1.08，在其他条件下可能发生改变。通过第二次切分，可以将第一次切分后子图中仍然有粘接在一起的多个字符进一步分割，得到只包含一个字符的子图，大大提升神经网络模型的识别成功率。

在另一实施例中，神经网络模型在使用前先用已标注好的字符图像进行训练，以使神经网络模型将字符图像与该字符图像对应标注的字符相关联，所述神经网络模型采用卷积神经网络。

在另一实施例中，已标注好的字符图像通过分割标注好的文字图片得到，若标注好的文字图片中有中文字符，按中文字符字宽相同的先验知识进行等分，若标注好的文字图片中有英文、数字及标点符号半角字符，按中文字符的一半宽度进行分割。该分割方法与一般印刷文件的字符宽度规律比较吻合，不容易出现完整字符被分割成两部分的情况。

在另一实施例中，已标注好的文字字符图像在输入神经网络模型前进行等比例缩放处理，以适应神经网络模型输入模板的要求，已标注好的文字字符图像在放入输入模板后用白色像素点填充输入摸板中无颜色的像素点。

在另一实施例中，已标注好的字符图像放入输入模板后，还进行改变已标注好的字符图像的大小、改变已标注好的字符图像处于模板中的位置以及改变已标注好的字符图像的摆放角度其中至少一项，以增强神经网络模型对同一字符的不同出现形式的识别能力。

在另一实施例中，神经网络模型的训练过程为：将符合神经网络模型输入模板要求的已标注好的字符图像以像素点矩阵的形式作为输入矩阵，将该字符图像对应标注的字符以神经网络模型可识别的编码方式进行编码并作为输出矩阵，将输入矩阵与输出矩阵放入神经网络模型中训练。输出矩阵的编码方式可以为独热(One-hot)编码、向量空间(Vector space)编码或任意一种可用于神经网络输出层的编码方式。我们使用卷积神经网络(CNN)，其中网络的层(Layer)数、每层的神经元(Neuron)的数量、卷积层(Convolutionlayer)、降采样层(Pooling layer)、连接层(Connected layer)、丢失层(Dropout layer)等的选择、顺序、配置、搭配方法，激活层(Activation layer)所使用的激活方式(Activation function)均可根据硬件性能进行调整。

<实施例>

获取已标注完成的图像数据，如图1所示，当遇到已经录入的标注有多个字的图片时，首先对已有标注信息进行分析，由于此图的标注信息为“本段”，属于两个汉字，根据对汉字铅字油印的先验知识认为汉字字符图片的字宽可近似视作相同，所以如图2将其等分成两幅图，并分别标注为“本”与“段”。

而后，如图3所示将上一步得到的图像一一居中后按较长边等比例拉伸，使其较长边可以充满60个像素点，并对较短边与60像素点之间的部分填充空白像素点。这里我们使用的是长宽均为60像素的输入模板，图3中的较长边是沿X轴方向的边。

进一步的，将处理完成的图像通过旋转、缩放、平移等手段增强后，与所的标注数据中对应字符制作成神经网站的输入矩阵与输出矩阵，导入卷积神经网络中进行训练，获得一训练好的神经网络模型。

对新文件的标注在获取文件图像后如图4所示，首先利用投影法将油印文件中的文字行切分出来，而后对行文字图片中的文字校正行的倾斜度，将文字图片中的行的方向调整为水平方向。具体方法如图5，将本行所有组成字符的黑色像素点按照本行的竖直中心线划分为左半行字符像素点和右半行字符像素点，继续计算左半行字符像素点的中心点与右半行字符像素点的中心点，并将左半行字符像素点的中心点与右半行字符像素点的中心点连线计算连线斜率，得出本行平均斜率；再通过将此平均斜率转化为零，并且再次使用投影法将该行文字图片上下的空白部分切除，从而取得如图6这样的校正后的行图像。

而后进一步的，利用投影法将行中的每个文字切分出来，此时得到的子图大部分为单个文字的图像，如果观察子图的宽度与高度的比值大于一个常数值，则参考大于这个常数的倍数进行均分，得到一系列子图。这一常数，在一般的铅字油印文件中约为1.08，在其他条件下可能发生改变。

在此基础上，将获得的子图如图3所示一一居中后按较长边等比例拉伸，使其较长边可以充满60个像素点，并对较短边与60像素点之间的部分填充空白像素点。这里我们使用的是长宽均为60像素的输入模板，图3中的较长边是沿X轴方向的边。将处理好的子图输入到刚刚训练完成的神经网络模型中，通过其进行预测，将输出矩阵中的数据按照可能性大小进行排序，选取可能性最高的10个结果展示到图形界面上。

同时如图7所示，图形界面也将需要标注的子图以及用作上下文参考的子图所在行的图像一同展示在图形界面上，供标注者进行选择；同时提供一个文本框及多个按钮，用于当以上给出的结果中没有对应子图文字的正确选项时进行人工键盘输入使用，同时按钮可以用于辅助记录一些文字自身的信息，可以包括：是否是完整文字、是否是繁体字、是否是非文字信息等。

进一步的，当使用者完成以此操作以后记录标注者所选择或输入的信息，记下每个子图所对应的文字标注信息。

在完成一张图片的标注以后回到以上所述所有步骤的开始，更新模型后重复进行操作。

经上述过程，针对每张图片均能得到其中的文字图像与对应的标注信息。

经过验证，本方法实现的文字图像信息标注方法具有提高人工标注速度，降低人为失误的优势。通过使用神经网络对标注过程进行辅助，标注人员很多时候只需进行选择而不需使用键盘输入文字，通过测试部门对400张文字图片进行测试，使用本方法的测试者平均节省时间超过50％，平均错误率由0.5％下降至0.25％。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.神经网络辅助的文字图像信息标注方法，其特征在于，待识别的文字图片在用神经网络模型进行识别前经过行文字倾斜校正，所述行文字倾斜校正包括以下步骤：

2.如权利要求1所述的文字图像信息标注方法，其特征在于，步骤二中获取每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点的算法包括：以行宽方向做横轴，以行高方向做纵轴，计算左半部分字符像素点或右半部分字符像素点的纵轴坐标平均值作为纵坐标，以左半部分行宽一半处或右半部分行宽一半处对应的横坐标值作为横坐标，即可确定每条行文字图片中左半部分字符像素点或右半部分字符像素点的中心点。

3.如权利要求1所述的文字图像信息标注方法，其特征在于，待识别的文字图片经过行文字倾斜校正后生成多条新的行文字图片，利用投影法将新生成的行文字图片切分成多个单字符图片，并将每一单字符图片输入到神经网络模型中，得出单字符图片最可能对应的数个字符。

4.如权利要求3所述的文字图像信息标注方法，其特征在于，新生成的行文字图片切分成多个单字符图片的过程中，若第一次切分出的多个子图中有宽高比大于一常数值的子图，则将该子图沿宽度方向按该子图宽高比为该常数值的倍数的整数部分进行均分，得到第二次切分子图。

5.如权利要求1所述的文字图像信息标注方法，其特征在于，神经网络模型在使用前先用已标注好的字符图像进行训练，以使神经网络模型将字符图像与该字符图像对应标注的字符相关联，所述神经网络模型采用卷积神经网络。

6.如权利要求5所述的文字图像信息标注方法，其特征在于，已标注好的字符图像通过分割标注好的文字图片得到，若标注好的文字图片中有中文字符，按中文字符字宽相同的先验知识进行等分，若标注好的文字图片中有英文、数字及标点符号半角字符，按中文字符的一半宽度进行分割。

7.如权利要求5所述的文字图像信息标注方法，其特征在于，已标注好的字符图像在输入神经网络模型前进行等比例缩放处理，以适应神经网络模型输入模板的要求，已标注好的字符图像在放入输入模板后用白色像素点填充输入摸板中无颜色的像素点。

8.如权利要求7所述的文字图像信息标注方法，其特征在于，已标注好的字符图像放入输入模板后，还进行改变已标注好的字符图像的大小、改变已标注好的字符图像处于模板中的位置以及改变已标注好的字符图像的摆放角度其中至少一项，以增强神经网络模型对同一字符的不同出现形式的识别能力。

9.如权利要求7所述的文字图像信息标注方法，其特征在于，神经网络模型的训练过程为：将符合神经网络模型输入模板要求的已标注好的字符图像以像素点矩阵的形式作为输入矩阵，将该字符图像对应标注的字符以神经网络模型可识别的编码方式进行编码并作为输出矩阵，将输入矩阵与输出矩阵放入神经网络模型中训练。