CN112699861B

CN112699861B - 一种基于神经网络热点图的自然场景票据矫正方法

Info

Publication number: CN112699861B
Application number: CN202110311983.0A
Authority: CN
Inventors: 金天
Original assignee: Hangzhou Xuegu Intelligent Technology Co ltd
Current assignee: Hangzhou Xuegu Intelligent Technology Co ltd
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-06-22
Anticipated expiration: 2041-03-24
Also published as: CN112699861A

Abstract

本发明公开了一种基于神经网络热点图的自然场景票据矫正方法，包括以下步骤：对票据多个关键点的坐标进行标注获得关键点坐标标签；对票据图片进行预处理获得固定成统一高宽大小为h*w的票据图；对每张票据图片的关键点坐标标签进行标签预处理，得到h*w大小的热点图监督标签；构建基于热点图的神经网络，输出h*w*1大小的热点图；模型训练好之后，通过输入票据图片得到预测的Heatmap热点图，将热点图恢复到原始大小的新热点图，将热点图每个大于一定阈值的像素值都设为1，否则设为0；利用索引操作得到关键点坐标，将关键点向外扩大得到新的关键点，通过高阶多项式的非线性几何变换将原始图像矫正到统一尺度上。

Description

一种基于神经网络热点图的自然场景票据矫正方法

技术领域

本发明涉及场景文字识别领域，特别涉及一种基于神经网络热点图的自然场景票据矫正方法。

背景技术

人工智能发展到现在，深度神经网络已经得到广泛的使用，在学术界中，计算机三大视觉（图片分类，目标检测，图像分割）任务得到了飞速的发展，随着学术界的突飞猛进，工业界开始寻找对应产品的落地，自然场景文本识别（STR），就是近几年快速发展的项目。

相对于传统光学字符识别（OCR），自然场景文本识别（STR）最大的区别在于自然场景文本识别对背景的约束更小，场景更加复杂。传统的光学字符识别一般使用高拍仪、扫描仪之类的设备，得到没有褶皱、光照统一、背景统一的文本图片，以保证较高的识别准确率，这使得传统光学字符识别使用受限，而自然场景文本识别摆脱了这些设备的限制，使用普通的相机采集自然场景下的文本图片，但数据的复杂度（例如出现倾斜、光照、褶皱以及遮挡等情况）却大大增加。

现有的自然场景文本识别（STR）解决方法为先检测后识别为主，只要样本量足够大，理论上是可以解决所有问题的，当遇到与训练集样本数据分布较为类似的样本就可以得到比较不错的效果，以上解决方法中有一个非常明显的条件就是样本要足够大，这样才能保住文本检测时没有漏检或误检，事实上无法从真实场景中获得如此多的样本，且采集的样本的数据分布会非常广；因此非常有必要对采集的数据归一化到统一的维度，从而使STR任务对样本的需求大大降低，且检测和识别精度也会大大提升。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于神经网络热点图的自然场景票据矫正方法，将不规则形状的文本图片矫正成统一的尺寸、形状，从而大大降低自然场景文字识别（STR）任务的难度。

本发明的上述技术目的是通过以下技术方案得以实现的：

一种基于神经网络热点图的自然场景票据矫正方法，包括以下步骤：

步骤S1，对票据图片多个关键点的坐标进行标注，从而获得每张票据图片的关键点坐标标签；

步骤S2，对票据图片进行预处理，具体将票据图片固定成统一高宽为h*w大小、并带填充操作的预处理票据图，填充操作需传入表示填充边界长度的填充操作信息参数；

步骤S3，对每张票据图片的关键点坐标标签进行标签预处理，具体将每张票据图片的关键点坐标标签、以及填充操作信息进行缩放，得到相应固定成h*w大小的预处理票据图的关键点坐标；然后对每张票据图片标签使用函数将每一个坐标用一个概率图来表示，对步骤S2中预处理获得的预处理票据图中的每个像素位置都给予一个表示该像素点属于对应类别关键点的概率，最终得到h*w大小的热点图监督标签；

步骤S4，构建基于热点图的神经网络，此神经网络主要由下采样、上采样、特征融合三部分组成；通过卷积神经网络完成下采样，对下采样的特征经过多个过度网络，再通过双线性插值法进行上采样，利用特征金字塔完成下采样和上采样的特征融合，最后输出h*w*1大小的热点图；

步骤S5，使用损失函数度量模型输出h*w大小热点图和h*w大小的热点图监督标签的误差，并利用神经网络训练的优化器进行反向传播，不断地进行迭代以更新神经网络参数权重，从而找到损失最低点实现优化模型；

步骤S6，模型训练好之后，通过输入票据图片，得到预测的Heatmap热点图；

步骤S7，得到预测的h*w大小的Heatmap热点图后，首先将Heatmap热点图恢复到原始票据图片大小的新热点图，其次进行高斯模糊处理，再次将热点图每个像素值基于预先设定阈值的设置为1或0，最后利用索引操作得到关键点坐标；

步骤S8，得到关键点坐标后将关键点向外扩大得到新的关键点，接着通过高阶多项式的非线性几何变换将原始图像矫正到统一尺度上。

进一步优选为，所述步骤S2中将票据图片固定成统一高宽为h*w大小、并带填充操作的预处理票据图具体通过：首先将票据图片固定高或宽为h或w，接着利用边缘填充函数进行边缘像素补充以防止原图在缩放成固定大小后失真，得到h*w大小的预处理票据图；填充操作信息参数包括左、右、上、下填充边界的长度。

进一步优选为，所述下采样用于抽取带有位置信息与语义信息的高层次特征，具体通过将步骤S2预处理获得的固定成h*w大小的预处理票据图经过正常卷积和下采样卷积操作得到对应大小的特征图。

进一步优选为，所述上采样用于下采样提取到抽象特征后，通过上采样将特征图还原到原图大小，从而对图像进行像素级别的分类；具体通过将下采样得到的特征图首先经过残差块得到新的特征图，然后新的特征图经过上采样操作和正常卷积操作得到h*w*1大小的热点图。

进一步优选为，所述特征融合用于融合上采样和下采样的不同层次信息，有效的防止信息随着网络的加深而丢失；具体通过将上采样的特征图通过残差块传递后，分别与下采样过程中与上采样通道数相同的特征图进行逐元素相加。

进一步优选为，所述步骤S7中索引操作采用OpenCV库得到关键点坐标，具体通过依次利用OpenCV库中的查找轮廓、填充凸多边形、检测最大值及最大值索引操作得到关键点坐标。

基于上述内容，关于关键点的检测背景或选择介绍如下：

关键点回归的Ground Truth（真值）的构建问题，主要有两种思路，Coordinate（坐标）和Heatmap（热点图），Coordinate即直接将关键点坐标作为最后网络需要回归的目标，这种情况下可以直接得到每个坐标点的直接位置信息；Heatmap即将每一类坐标用一个概率图来表示，对图片中的每个像素位置都给予一个概率，表示该点属于对应类别关键点的概率，比较自然的是，距离关键点位置越近的像素点的概率越接近1，距离关键点越远的像素点的概率越接近0，具体可以通过相应函数进行模拟，如Gaussian等，如果同一个像素位置距离不同关键点的距离大小不同，即相对于不同关键点该位置的概率不一样，这时可以取Max（最大）或Average（平均）。

对于两种Ground Truth的差别，Coordinate网络在本质上来说，需要回归的是每个关键点的一个相对于图片的offset（偏移量），而长距离offset在实际学习过程中是很难回归的，误差较大，同时在训练中的过程，提供的监督信息较少，整个网络的收敛速度较慢；Heatmap网络直接回归出每一类关键点的概率，在一定程度上每一个点都提供了监督信息，网络能够较快的收敛，同时对每一个像素位置进行预测能够提高关键点的定位精度，在可视化方面，Heatmap 也要优于Coordinate，除此之外，实践证明，Heatmap确实要远优于Coordinate。

因此，本发明选择更优的Heatmap方法，通过基于热点图的自然场景票据关键点检测神经网络，检测得到多个关键点，再基于高阶多项式的非线性几何变换将图像矫正到统一对正的尺度上。

综上所述，本发明对比于现有技术的有益效果为：

本发明主要针对自然场景文本识别中的纸质票据识别，通过引入热点图的方式精确定位多个关键点，并通过高阶多项式的非线性几何变换保证即使在有破损、缺失、遮挡的情况下可以做到使得任意角度，任意尺度的票据，依旧变换到统一尺度。

这种方式大大提高了后续流程文本检测的召回率，以及文本识别的精度，同时也大大减少了对样本量的需求；另外这种基于热点图的检测方式较神经网络直接回归的方式有一个极大的优点，在一张高分辨率的图片中通过卷积神经网络下采样之间回归出多个关键点是非常不精准的，而热点图可以完美使用不同尺度特征，并做到标签的软化，在关键点检测的准确率上也得到了大大的提高。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为实施例中人工标注关键点的示例图；

图2为实施例中神经网络结构图；

图3为实施例中票据的矫正图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式，也可表示一些实施例或一些实施方式的情况。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件（包括固件、驻留软件、微代码等），或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种基于神经网络热点图的自然场景票据矫正方法。

需要说明的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面对本发明中所涉及的技术术语进行简单描述，以便相关人员更好的理解本方案。

边缘填充函数copyMakeBorder：扩充src的边缘，将图像变大，然后以各种外插方式自动填充图像边界，这个函数实际上调用了函数cv::borderInterpolate，这个函数最重要的功能就是为了处理边界，比如均值滤波或者中值滤波中，使用copyMakeBorder将原图稍微放大，然后我们就可以处理边界的情况。

Adam优化器：是神经网络训练的基本优化器，是目前使用最广泛、收敛速度较快且收敛过程较稳定的优化器。

步骤S1，对票据多个关键点的坐标进行人工标注，从而获得每张票据的关键点坐标标签；

步骤S2，对高宽为H*W（H和W分别表示原图片的高和宽）大小的票据图片进行预处理：首先将票据图片固定成统一的h*w大小（h和w分别表示固定图片的高宽，可以根据实际场景设置合适的h和w），具体实现是先固定高或宽为h或w，然后利用OpenCV的边缘填充函数copyMakeBorder（需要传入填充操作信息参数，即左、右、上、下填充边界的长度）进行边缘像素补充（这样做的目的可以防止原图在缩放成固定大小后失真）得到h*w大小新图片，其次对新图片的每一个像素进行归一化操作（作用：加快模型训练收敛速度，实现方式：（图片每个像素值/255）–0.5），最后还对新图片进行数据增强操作，如高斯模糊，亮度变换，对比度变换等（此过程属于图像预处理过程，目的是增加样本的多样性，防止过拟合）。

步骤S3，对每张票据图片的关键点坐标标签进行标签预处理，具体为：

将每张票据图片的坐标标签根据H/h、W/w（H和W分别表示原图片的高和宽，h和w分别表示固定图片的高宽，即为步骤S2中的H、W、h、w）、以及填充操作信息（边缘填充函数copyMakeBorder需要传入填充操作信息参数，即左、右、上、下填充边界的长度）进行缩放，得到相应固定成h*w大小的票据图片的关键点坐标；

然后对每张票据图片标签使用高斯函数将每一个坐标用一个概率图来表示，对步骤S2中预处理获得的固定成h*w大小的票据图中的每个像素位置都给予一个概率，表示该点属于对应类别关键点的概率（距离关键点位置越近的像素点的概率越接近1，距离关键点越远的像素点的概率越接近0），最终得到h*w大小的热点图监督标签。

步骤S4，构建基于热点图的神经网络，此神经网络主要由下采样、上采样、特征融合三部分组成；通过卷积神经网络完成下采样，对下采样的特征经过多个过度网络，再通过双线性插值法进行上采样，利用特征金字塔完成下采样和上采样的特征融合，最后输出h*w*1大小的热点图；现对下采样、上采样、特征融合三部分进行展开描述：

下采样：作用是抽取带有位置信息与语义信息的高层次特征；具体实现过程：步骤S2得到的固定成h*w大小图片经过5次正常卷积，4次下采样卷积（图片最终缩小16倍）操作得到（h/16）*（w/16）* 256大小的特征图，涉及到的正常卷积和下采样卷积次数不局限于此，在此实施例中只是便于理解进行举例说明；

上采样：作用是下采样提取到抽象特征后通过上采样将特征图还原到原图大小，从而对图像进行像素级别的分类；具体实现过程：下采样得到的特征图首先经过3个残差块得到新的特征图，然后新的特征图经过4次上采样操作，7次正常卷积操作得到h*w*1大小的热点图；

特征融合：作用是融合上采样和下采样的不同层次信息，有效的防止信息随着网络的加深而丢失；具体实现过程：将上采样通道数为64/128的特征图通过5/4个残差块传递后，分别与下采样过程中通道数为64/128的特征图进行逐元素相加。

步骤S5，使用L2损失函数度量模型输出h*w大小热点图和h*w大小的热点图监督标签的误差，并利用Adam优化器进行反向传播不断地进行迭代以更新神经网络参数权重，从而找到损失最低点实现优化模型，最终使我们的模型达到较好的效果；

步骤S7，得到预测的h*w大小的Heatmap热点图后，首先将Heatmap热点图恢复到原始H*W大小的新热点图，其次进行高斯模糊处理，再次将热点图每个大于阈值0.1（阈值可根据实际场景设置合适的值）的像素值都设置为1，小于等于阈值0.1都设置为0；最后利用OpenCV库中的查找轮廓、填充凸多边形、检测最大值及最大值索引操作得到关键点坐标。

现根据具体的增值税发票进行实际介绍，具体如下：

a、对增值税发票4个关键点的坐标进行人工标注，从而获得每张发票的关键点坐标标签，图1中四个端角上的4个红点的坐标，即为需要人工标注的关键点坐标，因图片无法显示彩色，4个红点的坐标对应于图1中4个端角上的小圆圈；

b、对H*W（H和W分别表示原图片的高和宽）大小的增值税发票图片进行图像预处理：首先将图片固定成统一的512*512大小带填充操作的图，固定成具体大小可根据实际需要进行更改，不局限于512*512大小，在此实施例中，只是示例性的进行具体解释介绍，其次对图片像素进行归一化操作，最后在训练的过程中，还对数据集进行数据增强操作（高斯模糊，亮度变换，对比度变换等）；

c、对每张增值税发票的关键点坐标标签进行标签预处理：首先对每张增值税发票的坐标标签根据H/512，W/512，以及填充操作信息进行缩放，得到相应固定成512*512大小带填充操作的发票图的关键点坐标；

然后对每张增值税发票标签使用高斯函数将每一个坐标用一个概率图来表示，对图片中的每个像素位置都给予一个概率，表示该点属于对应类别关键点的概率（距离关键点位置越近的像素点的概率越接近1，距离关键点越远的像素点的概率越接近0），最终得到512*512大小的热点图监督标签；

d、根据图2神经网络结构构建基于热点图的关键点检测神经网络，此神经网络主要由下采样、上采样、特征融合三部分组成；通过卷积神经网络完成下采样；对下采样的特征经过多个过度网络，再通过转置卷积上采样；利用特征金字塔完成下采样和上采样的特征融合；最后输出对应关键点数量的通道，每个通道预测一个关键点的热点图；

e、使用L2损失函数度量输出结果和监督标签的误差，并不断地利用Adam优化器经过反向传播进行迭代，以更新神经网络参数权重，从而找到损失最低点，最终使我们的模型达到更优的效果；

f、模型训练好之后，通过输入增值税发票图片，预测得到Heatmap热点图；

g、得到预测的512*512大小的Heatmap热点图后，首先将Heatmap热点图恢复到原始H*W大小的新热点图，其次进行高斯模糊处理，再次将热点图每个大于阈值0.1（阈值可根据实际场景设置合适的值）的值设置为1，否则设置为0；最后依次通过查找轮廓、填充凸多边形、检测最大值及最大值索引操作得到4个关键点坐标；

h、得到关键点后先将4个关键点向外扩大（目的是使得4个关键点所包围的图像区域信息完整）得到新的4个关键点，然后通过高阶多项式的非线性几何变换将原始图像对齐到统一尺度上（图3）；

i、完成对齐操作后再进行文本检测、文本识别，最终完成整个场景文本识别STR任务。

针对上述图2展示的神经网络结构，现对其进行进一步展开：

图中下侧的四边形表示正常卷积操作：3*3卷积核，stride为1，通道数为c；

图中左下侧的Image表示原图，H、W、3分别代表原图的高、宽及通道数；

图中Input表示固定大小的新图，h、w、3分别代表新图的高、宽及通道数；

图中x0.5表示下采样卷积操作：3*3卷积核，stride为2，通道数为c；

图中x2表示上采样操作：采用双线性插值法；

图中res_block表示残差块结构，x3、x4、x5表示重复此结构3、4、5次；

图中位于res_block右侧的⊕表示逐元素相加。

以上所述仅是本发明的示范性实施方式，而非用于限制本发明的保护范围，本发明的保护范围由所附的权利要求确定。

Claims

1.一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，包括以下步骤：

步骤S3，对每张票据图片的关键点坐标标签进行标签预处理，具体将每张票据图片的关键点坐标标签、以及填充操作信息进行缩放，得到相应固定成h*w大小的预处理票据图的关键点坐标；然后对每张票据图片的关键点坐标标签使用函数将每一个坐标用一个概率图来表示，对步骤S2中预处理获得的预处理票据图中的每个像素点都给予一个表示该像素点属于对应类别关键点的概率，最终得到h*w大小的热点图监督标签；

步骤S4，构建基于热点图的神经网络，此神经网络主要由下采样、上采样、特征融合三部分组成；输入数据为步骤S2的预处理票据图，首先通过卷积神经网络完成下采样，对下采样的特征经过多个过度网络，再通过双线性插值法进行上采样，利用特征金字塔完成下采样和上采样的特征融合，最后输出h*w大小的热点图；

步骤S5，使用损失函数度量模型输出h*w大小的热点图和h*w大小的热点图监督标签的误差，并利用神经网络训练的优化器进行反向传播，不断地进行迭代以更新神经网络参数权重，从而找到损失最低点实现优化模型；

步骤S7，得到预测的h*w大小的Heatmap热点图后，首先将Heatmap热点图恢复到原始票据图片大小的新热点图，其次进行高斯模糊处理，再次将热点图每个大于预先设定阈值的像素值设置为1，否则像素值设置为0，最后利用索引操作得到关键点坐标；

2.根据权利要求1所述的一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，所述步骤S2中将票据图片固定成统一高宽为h*w大小、并带填充操作的预处理票据图具体通过：首先将票据图片固定高或宽为h或w，接着利用边缘填充函数进行边缘像素补充以防止原图在缩放成固定大小后失真，得到h*w大小的预处理票据图；填充操作信息参数包括左、右、上、下填充边界的长度。

3.根据权利要求1所述的一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，所述下采样用于抽取带有位置信息与语义信息的高层次特征，具体通过将步骤S2预处理获得的固定成h*w大小的预处理票据图经过正常卷积和下采样卷积操作得到对应大小的特征图。

4.根据权利要求3所述的一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，所述上采样用于下采样提取到抽象特征后，通过上采样将特征图还原到原图大小，从而对图像进行像素级别的分类；具体通过将下采样得到的特征图首先经过残差块得到新的特征图，然后新的特征图经过上采样操作和正常卷积操作得到h*w*1大小的热点图。

5.根据权利要求4所述的一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，所述特征融合用于融合上采样和下采样的不同层次信息，有效的防止信息随着网络的加深而丢失；具体通过将上采样的特征图通过残差块传递后，分别与下采样过程中与上采样通道数相同的特征图进行逐元素相加。

6.根据权利要求1所述的一种基于神经网络热点图的自然场景票据矫正方法，其特征在于，所述步骤S7中索引操作采用OpenCV库得到关键点坐标，具体通过依次利用OpenCV库中的查找轮廓、填充凸多边形、检测最大值及最大值索引操作得到关键点坐标。