CN111783763A

CN111783763A - 基于卷积神经网络的文本定位框校正方法及其系统

Info

Publication number: CN111783763A
Application number: CN202010647992.2A
Authority: CN
Inventors: 茹超飞; 黄征
Original assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Current assignee: Shanghai Shenyao Intelligent Technology Co ltd; Xiamen Shangji Network Technology Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2020-10-16

Abstract

本发明涉及基于卷积神经网络的文本定位框校正方法及其系统，搭建神经网络进行文本定位框校正，针对文本定位框左右两端分别进行单独的训练，设置后续验证步骤对结果进行验证，确保训练出的模型符合要求。相比于现有技术，利用训练得到的文本框校正模型，对文本图片中文本定位框的校正处理，可以有效提升文字检测方法定位的精度，获得更加准确的文字定位框，提高图片文字识别的准确率和文字检测与识别系统的实用性。

Description

基于卷积神经网络的文本定位框校正方法及其系统

技术领域

本发明涉及基于卷积神经网络的文本定位框校正方法及其系统，属于OCR文字识别领域。

背景技术

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。随着近年来图像处理技术的进步，对于OCR文字识别的需求越来越多。在OCR文字识别过程，最基础的步骤就是对于图像中的文字进行精确定位，只有完成精准的定位，才能确保后续识别到的文字是正确的没有缺漏。目前，基于候选区域和基于分割这两大类目标检测方法是最常用的定位方法。

现有技术中，在使用一些文字定位方法对文本图片进行文字定位时，会出现文字定位边界模糊不精确的现象，这种现象大部分表现为文本定位框未能完全定位到全部文本；或者文本定位框过大，导致包含了不相关的文字。这些定位方法虽然能够定位到所需文本的绝大部分，但在文本区域的四个顶点边角处的定位依旧存在精度不足的问题，比如：(1)由于票据自身版式设计问题，导致票据中各文字高度可能存在不同，使用矩形文本定位框有时不能完全包围所需文本，会有小部分文本未被框住；(2)单据文件中某些无文字意义符号会被当作文本定位。不精确的文本定位对后续的文字识别工作存在不利的影响，直接影响到识别结果的准确度，导致输出不正确结果。

发明内容

为了解决上述技术问题，本发明提供基于卷积神经网络的文本定位框校正方法及其系统，在获得初始文本定位框后，通过经训练的卷积神经网络CNN模型对文本定位框进行精细地校正，提高目标检测方法在文字定位方面的准确率。

本发明的技术方案一：

基于卷积神经网络的文本定位框校正方法，包括如下步骤：

S1：获取多个待定位的文本图像。

S2：将获取的多个待定位的文本图像输入文本检测模型，所述文本检测模型对所述待定位的文本图像进行文本的粗定位，输出经过定位的文本图像，以及待校正的文本定位框的左右两端上下四个端点坐标值。

S3：建立文本定位框校正模型，训练所述文本定位框校正模型。

S4：将待校正的文本定位框及其对应的图像内容进行裁剪缩放后，输入训练好的文本定位框校正模型，输出文本定位框左右端点的校正值，进行端点校正后得到经过校正的文本定位框，进入后续OCR识别流程。

S3步骤具体为：

S31：对经过定位的文本图像进行标注，标注出真实的文本定位框位置，输出文本定位框的左右两端四个点对应的真实端点坐标值。

S32：对经过定位的文本图像的左端和右端进行裁剪分别获得左端图片和右端图片，关联文本定位框两侧端点真实坐标信息，生成左端图片标签和右端图片标签，所述图片标签和对应的图片构成图片训练样本。

S33：建立文本定位框左端校正模型和右端校正模型，所述文本定位框左端校正模型和右端校正模型以卷积神经网络CNN模型为主体，通过卷积滤波器组件模型内部的卷积层，所述文本定位框左端校正模型和右端校正模型的输入分别为经过裁剪的左端图片和右端图片，所述左端图片和右端图片经过卷积层，下采样层，全连接层的依次处理，分别输出一个含四个参数的一维变量，所述四个参数分别代表左侧和右端两个端点横坐标和纵坐标应该调整的像素值。

S34：训练所述文本定位框左端校正模型和右端校正模型，分别将左端图片训练样本和右端图片训练样本送入所述文本定位框左端校正模型和右端校正模型中，训练出可用于进行文本定位框校正的文本定位框校正模型。

S32步骤具体为：

S321：将文本定位框的左上端点和左下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向左向右和垂直向上向下各延伸预设单位长度作四条直线，得到一个矩形，沿着矩形四边进行裁剪得到左端图片和文本定位框的左侧两个端点的坐标。

S322：将左端图片调整并输出为预设尺寸。

S323：计算文本定位框左端两坐标与对应的真实端点坐标的实际像素差，根据比例计算图片调整尺寸后的相对像素差dx1，dy1，dx2，dy2，保存为左端图片标签，其中dx1表示左上端点横坐标像素差值，dy1表示左上端点纵坐标像素差值，dx2表示左下端点横坐标像素差值，dy2表示左下端点纵坐标像素差值。

S324：将文本定位框的右上端点和右下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向左向右和垂直向上向下各延伸预设单位长度作四条直线，得到一个矩形，沿着矩形四边进行裁剪得到左端图片和文本定位框的左侧两个端点的坐标。

S325：将右端图片调整并输出为预设尺寸。

S326：计算文本定位框右端两坐标与对应的真实端点坐标的实际像素差，根据比例计算图片调整尺寸后的相对像素差dx3，dy3，dx4，dy4，保存为右端图片标签，其中dx3表示右上端点横坐标像素差值，dy3表示右上端点纵坐标像素差值，dx4表示右下端点横坐标像素差值，dy4表示右下端点纵坐标像素差值。

S327：分别将左端图片标签和对应的左端图片，右端图片标签和右端图片进行关联设置，构成图片训练样本。

S32步骤中，当左端图片或右端图片中未发现任意一个真实端点坐标，则认为此图片为失效图片，不列为训练样本。

S34步骤中，完成模型训练后对模型正确度进行验证，对文本定位框左端校正模型和右端校正模型分别计算校正前和校正后的端点与对应真实端点的横坐标与纵坐标的差值的绝对值，将校正前后绝对值相减，若所得值大于零则说明校正后的端点更靠近真实坐标，则校正有效果，否则需要重新训练。

技术方案二：

基于卷积神经网络的文本定位框校正系统，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

S1：获取多个待定位的文本图像。

S3步骤具体为：

S32步骤具体为：

S322：将左端图片调整并输出为预设尺寸。

S325：将右端图片调整并输出为预设尺寸。

本发明具有如下有益效果：

1、本发明的基于卷积神经网络的文本定位框校正方法及其系统，通过搭建神经网络进行文本定位框校正，精度高，效率快；

2、本发明的基于卷积神经网络的文本定位框校正方法及其系统，通过针对文本定位框左右两端分别进行单独的训练，减少需要进行缩放的统一尺寸，计算量相对较小，针对性更强；

3、本发明的基于卷积神经网络的文本定位框校正方法及其系统，通过设置后续验证步骤，通过对结果的验证，确保训练出的模型符合要求。

附图说明

图1为本发明的基于卷积神经网络的文本定位框校正方法的流程图；

图2为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的文本图像示意图；

图3为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的文本框示意图；

图4为本发明的基于卷积神经网络的文本定位框校正方法的裁剪范围示意图；

图5为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的的左端模型训练样本裁剪示意图；；

图6为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的左端模型训练样本示意图；

图7为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的训练样本标签示意图；

图8为本发明的基于卷积神经网络的文本定位框校正方法的文本定位框校正模型结构示意图；

图9为本发明的基于卷积神经网络的文本定位框校正方法的一个实施例的校正结果示意图；

图10为本发明的基于卷积神经网络的文本定位框校正方法的模型验证示意图。

具体实施方式

下面结合附图和具体实施例来对本发明进行详细的说明。

实施例一

如图1所示，基于卷积神经网络的文本定位框校正方法，包括如下步骤：

S1：获取多个待定位的文本图像。

如图2所示，此图为文本图像，即带有文字的图像。矩形框即为文本检测模型经过粗定位得到的文本定位框，可以看到，这个文本定位框上边没有将所有文字的上部包含在内，会导致后续识别错误。四个圆点标出的角点即为文本定位框的四个点，所谓坐标值是按图来建立坐标轴，一像素点为一单位。

文本检测可以采用很多成熟的深度学习网络模型，比如Faster-RCNN等。本发明不受文本检测模型的限制。文本校正网络的输出为待校正文本框端点需要调整的值或者该需要调整值经过一些变换后得到的值，本发明将仅以输出为待校正文本框端点需要调整的值加以说明。

S3步骤具体为：

如图3所示，外围矩形框为标注出的真实文本框，内部矩形框为原文本定位框。对文本图像的标注初期采用人工手动操作，由操作人员通过人工识别确定文本框的真位置，并使用工具进行标注，后期可通过机器和人工辅助进行标注。标记使用LabelImg软件，是一个可视化的图像标定工具，属于深度学习领域常用的标注工具。

关联的过程即为系统在当前图片的属性中添加对应的真实端点坐标信息，当训练系统打开一个图片，读取其属性，自动得到图片对应的真实端点坐标信息。

S32步骤具体为：

在本实施例中，将文本定位框的左上端点和左下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向左和向右各延伸2个单位长度作两条水平直线，垂直向上向下各延伸1.5个单位长度做两条垂直直线，得到一个矩形，沿着矩形四边进行裁剪得到长宽比为4：3的左端图片和文本定位框的左侧两个端点的坐标。

如图4所示，图中右上点(x1，y1)为左端上端点，左下点(x2，y2)为左端下端点，两端点连线取中点，两端点高度差为y1与y2的差值，记为L，则以原点为图边长为2L+2L，高为1.5L+1.5L进行裁剪。

连线是为了确定中心点，并以此中心点作为原点对图像进行裁剪。上下延伸1.5L，左右延伸2L是为了最大限度的将文本保留下来，避免出现裁剪过程中将文字的某些部分剪掉了。

如图5所示，为实施例中左端裁剪示意图，上下两个圈处为文本定位框的两个端点，粗线为端点连线，中间圈为中心点，也即原点。一般情况下两个端点的横坐标X1和X2是一样的，但是不排除某些图像产生畸变导致定位框的上下端点不在一条垂直线上。如图6所示，将左端裁剪得到左端图片。

S322：将左端图片调整并输出为预设尺寸。本实施例中，预设尺寸为192×256像素大小。

S323：计算文本定位框左端两坐标与对应的真实端点坐标的实际像素差，根据比例计算图片调整尺寸后的相对像素差dx1，dy1，dx2，dy2，保存为左端图片标签，其中dx1表示左上端点横坐标像素差值，dy1表示左上端点纵坐标像素差值，dx2表示左下端点横坐标像素差值，dy2表示左下端点纵坐标像素差值。如图7所示，本实施例中，当前图片中标注了真实端点和检测端点，以及端点之间的差值。

本实施例中，将文本定位框的右上端点和右下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向右和向右各延伸2个单位长度作两条水平直线，垂直向上向下各延伸1.5个单位长度做两条垂直直线，得到一个矩形，沿着矩形四边进行裁剪得到长宽比为4：3的右端图片和文本定位框的右侧两个端点的坐标。

S325：将右端图片调整并输出为预设尺寸。本实施例中预设尺寸为192×256像素大小的尺寸。

图片标签就是步骤“计算文本定位框右端两坐标与对应的真实端点坐标的实际像素差，根据比例计算图片调整尺寸后的相对像素差dx3，dy3，dx4，dy4，保存为右端图片标签，”即检测端点和真实端点的像素差，将这个像素差保存为一个为数据段，就是一个图片标签，可以理解为这个图片的一个属性。

关联设置，即系统将端点图片和对应的图片标签进行连接，可以理解为将这两个文件打包为一个整体，当训练系统读取图片时，自动识别到其对应的图片标签，获取像素差值。

因为检测模型进行文本框检测时不一定是百分百覆盖正确文本的，偶尔也会出现识别到的文本框根本没有选中真实文本。此时通过在图片中寻找真实端点坐标的方式来筛选错误的图片，减少样本的错误率。

由于文本长度不定，票据图片文本框长宽比变化较大，将整个文本框对应的图像都调整成同一尺寸效果不佳。本发明将文本框校正的处理分为两个部分，即分别对文本左端和右端进行校正。对文本左端和右端校正的模型采用相同的网络结构，但是采用不同的数据分别进行训练，训练完成后对文本框左侧两个端点和右侧两个端点分别进行校正。

因为左右两端文字方向不同，一般情况下，左端图片的左侧为空白右侧为文字，右端图片的左侧为文字右侧为空白，通过分开训练，减少训练系统自行学习识别左右端的过程，可以提高训练的效率。

如图8所示，为本实施例中使用的模型架构示意图，在本实施例中，输入为192×256像素3通道的图像，最终输出为一个含四个参数的一维变量，四个参数分别代表左侧两端点应该调整的像素值。。

在本实施例中，卷积神经网络结构和运作流程为：

输入经过裁剪的192×256像素3通道的左端图片或右端图片到第一个卷积层，用3×3卷积核进行卷积，输出190×254像素20通道的特征图至第一个下采样层，用2×2卷积核进行最大池化，输出95×127像素20通道的特征图。

将95×127像素20通道的特征图输入第二个卷积层，用3×3卷积核进行卷积，输出93×125像素20通道的特征图至第二个下采样层，用2×2卷积核进行最大池化，输出46×64像素20通道的特征图。

将46×64像素20通道的特征图输入第三个卷积层，用3×3卷积核进行卷积，输出44×62像素20通道的特征图至第三个下采样层，用2×2卷积核进行最大池化，输出22×31像素20通道的特征图。

将22×31像素20通道的特征图输入第四个卷积层，用3×3卷积核进行卷积，输出18×27像素16通道的特征图至第四个下采样层，用2×2卷积核进行最大池化，输出9×13像素16通道的特征图。

将9×13像素16通道的特征图依次送入三个全连接层，最终输出一个含四个参数的一维变量，所述四个参数分别代表左侧或右端两个端点横坐标和纵坐标应该调整的像素值。

根据上述单个训练样本生成的方法，在一定数目(比如3000张)单据图片、图片标注和利用检测模型已检测到的文本框的基础上，生成用于文本框左端和右端模型的一定数目的文本框训练图片和相应标签。最后将这些图片和标签训练文本框校正网络，得到训练好的文本框左端模型和右端模型。

对训练好的网络校正模型，可选地在测试数据集上进行测试，评估网络校正模型的性能，并根据观察到的性能确定是否需要进一步加强训练或者可以投入实际使用。测试数据集可以采用与训练数据集图片相似的方式产生。比如利用EAST检测模型检测的图片和输出的文本框坐标，产生测试样本集，然后输入到已训练好的左端(或者右端)文本框校正模型中，得到左上端点横坐标、左上端点纵坐标、左下端点横坐标、左下端点纵坐标应该调整的像素值。

在训练好的模型的性能达到应用的要求后，可以将模型应用到新的待校正的文本框及其对应的图像内容，输出文本框左右端点的校正值，从而得到校正的文本框。可选地，根据训练好的模型在实际应用中的性能，不定期地对文本框校正模型进行加强训练，以提高和优化模型的性能。

在本方法的有效性测试中，考虑到文本框校正网络是在已有文本框的基础上进行修正，对文字定位的精确率precision和召回率recall结果影响不会很大，此文本框校正网络更多的是对文本框进行像素级的修正，因此我们利用了端点之间的像素差来衡量此校正方法是否有效。如图10所示，对左右端模型分别计算校正前和校正后的端点与标注框端点横坐标与纵坐标的差值的绝对值，将校正前后绝对值相减，若所得值大于零则说明校正后的端点更靠近真实标注框，则校正有效果。

通过对约3000张测试样本集图片横、纵坐标像素差绝对值的计算后，统计每个文本框校正效果平均值如下表1所示：

左端	平均像素差	右端	平均像素差
				左上点横坐标	19.75	右上点横坐标	11.19
左上点纵坐标	1.70	右上点纵坐标	2.52
				左下点横坐标	19.48	右下点横坐标	11.16
左下点纵坐标	2.18	右下点纵坐标	2.86

表1.文本框校正效果表

上表中数据全部为正值，说明文本框校正网络对文本框校正后能够使文本框更加接近真实标注，可以看到在总体平均值上而言，此校正方法对横坐标有1到3个像素点的校正效果，对纵坐标有10到20个像素点的矫正效果。说明了校正后的文本框能更加准确地反映真实文本位置，标明网络模型有效。

如图9所示，通过矫正后的文字定位框会更加接近真实文本框，图中内框代表原检测框，外框代表矫正后的文本框。可以看到原来的文本检测框太过狭窄，漏掉了文本上端的部分笔画，而利用此方法矫正过后的文本框则完整包含了所有文本信息，这对后续文字识别会有一定的帮助。

本发明的基于卷积神经网络的文本定位框校正方法及其系统，通过搭建神经网络进行文本定位框校正，精度高，效率快；通过针对文本定位框左右两端分别进行单独的训练，减少需要进行缩放的统一尺寸，只需对左右端进行裁剪，计算量相对较小，针对性更强；通过设置后续验证步骤，通过对结果的验证，确保训练出的模型符合要求。

实施例二

S1：获取多个待定位的文本图像。

S3步骤具体为：

S32步骤具体为：

S322：将左端图片调整并输出为预设尺寸。

S325：将右端图片调整并输出为预设尺寸。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包含在本发明的专利保护范围内。

Claims

1.基于卷积神经网络的文本定位框校正方法，其特征在于，包括如下步骤：

S1：获取多个待定位的文本图像；

S2：将获取的多个待定位的文本图像输入文本检测模型，所述文本检测模型对所述待定位的文本图像进行文本的粗定位，输出经过定位的文本图像，以及待校正的文本定位框的左右两端上下四个端点坐标值；

S3：建立文本定位框校正模型，训练所述文本定位框校正模型；

2.根据权利要求1所述的基于卷积神经网络的文本定位框校正方法，其特征在于，S3步骤具体为：

S31：对经过定位的文本图像进行标注，标注出真实的文本定位框位置，输出文本定位框的左右两端四个点对应的真实端点坐标值；

S32：对经过定位的文本图像的左端和右端进行裁剪分别获得左端图片和右端图片，关联文本定位框两侧端点真实坐标信息，生成左端图片标签和右端图片标签，所述图片标签和对应的图片构成图片训练样本；

S33：建立文本定位框左端校正模型和右端校正模型，所述文本定位框左端校正模型和右端校正模型以卷积神经网络CNN模型为主体，通过卷积滤波器组件模型内部的卷积层，所述文本定位框左端校正模型和右端校正模型的输入分别为经过裁剪的左端图片和右端图片，所述左端图片和右端图片经过卷积层，下采样层，全连接层的依次处理，分别输出一个含四个参数的一维变量，所述四个参数分别代表左侧和右端两个端点横坐标和纵坐标应该调整的像素值；

3.根据权利要求2所述的基于卷积神经网络的文本定位框校正方法，其特征在于，S32步骤具体为：

S321：将文本定位框的左上端点和左下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向左向右和垂直向上向下各延伸预设单位长度作四条直线，得到一个矩形，沿着矩形四边进行裁剪得到左端图片和文本定位框的左侧两个端点的坐标；

S322：将左端图片调整并输出为预设尺寸；

S324：将文本定位框的右上端点和右下端点进行连线，以连线的中点作为原点，计算两端点的高度差，记为一个单位长度，以原点为中心，水平向左向右和垂直向上向下各延伸预设单位长度作四条直线，得到一个矩形，沿着矩形四边进行裁剪得到左端图片和文本定位框的左侧两个端点的坐标；

S325：将右端图片调整并输出为预设尺寸；

S326：计算文本定位框右端两坐标与对应的真实端点坐标的实际像素差，根据比例计算图片调整尺寸后的相对像素差dx3，dy3，dx4，dy4，保存为右端图片标签，其中dx3表示右上端点横坐标像素差值，dy3表示右上端点纵坐标像素差值，dx4表示右下端点横坐标像素差值，dy4表示右下端点纵坐标像素差值；

4.根据权利要求2所述的基于卷积神经网络的文本定位框校正方法，其特征在于，S32步骤中，当左端图片或右端图片中未发现任意一个真实端点坐标，则认为此图片为失效图片，不列为训练样本。

5.根据权利要求2所述的基于卷积神经网络的文本定位框校正方法，其特征在于：S34步骤中，完成模型训练后对模型正确度进行验证，对文本定位框左端校正模型和右端校正模型分别计算校正前和校正后的端点与对应真实端点的横坐标与纵坐标的差值的绝对值，将校正前后绝对值相减，若所得值大于零则说明校正后的端点更靠近真实坐标，则校正有效果，否则需要重新训练。

6.基于卷积神经网络的文本定位框校正系统，其特征在于，包括存储器和处理器，所述存储器存储有指令，所述指令适于由处理器加载并执行以下步骤：

S1：获取多个待定位的文本图像；

7.根据权利要求6所述的基于卷积神经网络的文本定位框校正系统，其特征在于，S3步骤具体为：

8.根据权利要求7所述的基于卷积神经网络的文本定位框校正系统，其特征在于，S32步骤具体为：

S322：将左端图片调整并输出为预设尺寸；

S325：将右端图片调整并输出为预设尺寸；

9.根据权利要求7所述的基于卷积神经网络的文本定位框校正系统，其特征在于，S32步骤中，当左端图片或右端图片中未发现任意一个真实端点坐标，则认为此图片为失效图片，不列为训练样本。

10.根据权利要求7所述的基于卷积神经网络的文本定位框校正系统，其特征在于：S34步骤中，完成模型训练后对模型正确度进行验证，对文本定位框左端校正模型和右端校正模型分别计算校正前和校正后的端点与对应真实端点的横坐标与纵坐标的差值的绝对值，将校正前后绝对值相减，若所得值大于零则说明校正后的端点更靠近真实坐标，则校正有效果，否则需要重新训练。