CN110490232A

CN110490232A - 训练文字行方向预测模型的方法、装置、设备、介质

Info

Publication number: CN110490232A
Application number: CN201910650971.3A
Authority: CN
Inventors: 李健; 张连毅; 武卫东
Original assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP
Current assignee: BEIJING INFOQUICK SINOVOICE SPEECH TECHNOLOGY CORP; Beijing Sinovoice Technology Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2019-11-22
Anticipated expiration: 2039-07-18
Also published as: CN110490232B

Abstract

本发明提供了训练文字行方向预测模型的方法、装置、设备、介质，涉及图像检测技术领域。本发明通过获得样本图像集，所述样本图像集中的每张样本图像携带预先标记的坐标信息和旋转角度信息，该坐标信息表征该样本图像中的文字行的坐标，该旋转角度信息表征该样本图像中的文字行的旋转角度；在文字行检测模型中的最后一层卷积层后添加1×1的卷积层，得到改进后的文字行检测模型；将所述样本图像集输入到所述改进后的文字行检测模型中，得到文字行方向预测模型。因此，提高了文字行方向预测的鲁棒性。

Description

训练文字行方向预测模型的方法、装置、设备、介质

技术领域

本发明涉及图像检测技术领域，特别是涉及训练文字行方向预测模型的方法、装置、设备、介质。

背景技术

自然场景中的文字行检测场景复杂、文字行方向任意，例如街拍的店铺图像，图像中的文字大小不一样，文字行方向排列不一致，并且文字容易受图像背景影响等。而图像是传递信息的重要媒介，是数据信息化的线上线下打通基础，对于图像文字行检测具有重要实际意义，例如将网络爬虫到的图像进行文字行检测，对检测到的文字行进行识别，从而判断该图像中是否含有敏感信息等。

目前，图像文字检测方法通常采用直接预测文字行四个点坐标和基于像素级分割的方法预测文字行区域，其只能检测从左到右排列的标准文字行。当文字行存在一定范围旋转时，现有检测方法不能对其完全定位；当文字行方向变化比较大时，现有检测方法也不能给出文字行方向旋转角度大小。这导致现有技术在自然场景下的检测鲁棒性低，影响图像文字识别效果。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的训练文字行方向预测模型的方法、装置、设备、介质。

第一方面，本发明提供了一种训练文字行方向预测模型的方法，该方法包括：

获得样本图像集，所述样本图像集中的每张样本图像携带预先标记的坐标信息和旋转角度信息，该坐标信息表征该样本图像中的文字行的坐标，该旋转角度信息表征该样本图像中的文字行的旋转角度；

在文字行检测模型中的最后一层卷积层后添加1×1的卷积层，得到改进后的文字行检测模型；

将所述样本图像集输入到所述改进后的文字行检测模型中，得到文字行方向预测模型。

优选地，将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

优选地，所述文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络构建的PixelLink网络模型。

优选地，对所述样本图像集中每一张携带坐标信息的样本图像随机选择四个方向中的任意一个方向进行旋转，并根据旋转方向标记该样本图像携带的旋转角度信息；其中，所述四个方向包括：0°、90°、180°以及270°。

优选地，对所述样本图像集中每一张样本图像，随机选择-45°到45°之间的一个角度进行旋转，并对旋转后的样本图像进行数据增强；

将所述样本图像集输入到所述改进后的文字行检测模型，包括：

将数据增强后的样本图像所组成的样本图像集输入到所述改进后的文字行检测模型。

第二方面，本发明提供了一种训练文字行方向预测模型的装置，该装置包括：

获取模块，用于获得样本图像集，所述样本图像集中的每张样本图像携带预先标记的坐标信息和旋转角度信息，该坐标信息表征该样本图像中的文字行的坐标，该旋转角度信息表征该样本图像中的文字行的旋转角度；

改进模块，用于在文字行检测模型中的最后一层卷积层后添加1×1的卷积层，得到改进后的文字行检测模型；

训练模块，用于将所述样本图像集输入到所述改进后的文字行检测模型中，得到文字行方向预测模型。

优选地，输出模块，用于将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

优选地，旋转子模块，用于对所述样本图像集中每一张携带坐标信息的样本图像随机选择四个方向中的任意一个方向进行旋转，并根据旋转方向标记该样本图像携带的旋转角度信息；其中，所述四个方向包括：0°、90°、180°以及270°。

优选地，数据增强模块，用于对所述样本图像集中每一张样本图像，随机选择-45°到45°之间的一个角度进行旋转，并对旋转后的样本图像进行数据增强；

所述训练模块包括：训练子模块，用于将数据增强后的样本图像所组成的样本图像集输入到所述改进后的文字行检测模型。

第三方面，本发明提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，优选地，所述处理器执行所述程序时实现如第一方面所述的一种训练文字行方向预测模型的方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质，优选地，所述计算机程序被处理器执行时实现如第一方面所述的一种训练文字行方向预测模型的方法的步骤。

与现有技术相比，本发明实施例包括以下优点：

在本发明实施例中，通过对样本图像集中的每张图像进行数据增强，更加考虑到了图像方向旋转增强，增加了样本图像集中样本的多样性，让样本尽可能多的覆盖所有在使用场景见到的所有图像存在形式。同时，本发明在文字行检测模型最后一层卷积层后添加1×1的卷积层，增加了文字行方向预测的功能。除了能检测出文字行位置信息，还可以判断输入图像文字行是否旋转，通过输出的文字行的旋转角度和文字行坐标，从而将文字行区域图像旋转，得到文字行正常输出序列，提高了文字行方向预测模型的鲁棒性。此外，本发明中文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络的构建PixelLink网络模型，使得文字行检测模型参数量少，内存占用率小，极大降低了文字行方向预测模型的大小。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种训练文字行方向预测模型的方法的步骤流程图；

图2是本发明实施例提供的一种训练文字行方向预测模型的装置的框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

参照图1，出示了本发明的一种训练文字行方向预测模型的方法的步骤流程图，具体可以包括如下步骤：

在步骤S1中，获得样本图像集，所述样本图像集中的每张样本图像携带预先标记的坐标信息和旋转角度信息，该坐标信息表征该样本图像中的文字行的坐标，该旋转角度信息表征该样本图像中的文字行的旋转角度；

在本发明实施例中，图像对应的文字行坐标为文字行四个角的坐标，每个坐标包含2个数，四个角的坐标总共8个数。图像中文字行旋转角度为该图像在经过四个方向(0°、90°、180°、270°)旋转后的角度，并且标记该图像的label值，即该图像旋转角度的值为该图像的label值，也是文字行的旋转角度。

在本发明实施例中，样本图像集包括真实场景拍摄的图像，还有用程序仿真生成的仿真图像。这些图像中均有各种方向、大小、形状排列的文字行，文字行的数目不做要求，文字行中的文字内容可以是中文、英文、法文等语种，本发明并不做规定。

在本发明实施例中，用户在获取样本图像集的同时也获取样本测试图像集。用户可以按照6:1的比例合成仿真样本图像和真实拍摄图像。将所有的图像打乱随机分为7份，其中6份用于训练文字行方向预测模型，1份用于检测文字行方向预测模型。例如：合成仿真样本和实际拍摄图像共计70万张，将这70万张图像随机划分为两部分，一部分数量为60万张，用来训练文字行方向预测模型，另一部分数量为10万张，用来检测文字行方向预测模型。

结合上述实施例，在步骤S1获得样本图像集的步骤中，还包括以下步骤:

在步骤S11中，对所述样本图像集中每一张携带坐标信息的样本图像随机选择四个方向中的任意一个方向进行旋转，并根据旋转方向标记该样本图像携带的旋转角度信息；其中，所述四个方向包括：0°、90°、180°以及270°。

在本发明实施例中，选用TensorFlow框架对改进后的文字行检测模型进行训练。这里选用的框架不仅仅是TensorFlow框架，还可以是Theano、Keras、caffe、pytorch等深度学习框架，本发明不做限制。在0°、90°、180°、270°四个方向中随机选择一个方向进行旋转，并将随机选择的角度作为新的label值。例如，将图像随机旋转的角度为90°，该图像被旋转后需要告诉TensorFlow框架当前旋转的图像为90°，将原始图像的label值重新赋值为90°。

在步骤S2中，在文字行检测模型中的最后一层卷积层后添加1×1的卷积层，得到改进后的文字行检测模型；

在本发明实施例中，在文字行检测模型中的最后一层卷积层添加1×1的卷积层是独立预测文字行方向，该卷积层的大小为1×1×4，1×1卷积通道为4，代表输出特征图为4个，每个特征图上单独负责一个方向的预测，四个方向旧是四个特征图。该方向预测只是预测文字行在0°、90°、180°、270°四个方向值。

结合上述实施例，在步骤S2中得到改进后的文字行检测模型的步骤中，还包括以下步骤:

在步骤S21中，所述文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络构建的PixelLink网络模型。

PixelLink网络模型是一种自然场景下基于像素级分割的文字行检测算法。PixelLink网络模型基于像素级分割完成最终文字行区域检测。

在本实施例中，PixelLink网络模型的主干，既可以是原始VGG网络，也可以是Mobilenet_v2深度神经网络。在本实施例中优选Mobilenet_v2深度神经网络作为PixelLink网络模型的主干。

具体的，Mobilenet_v2深度神经网络包含初始的的32个卷积核的全卷积层，后接19个残差瓶颈层，同时使用ReLU6作为非线性激活函数，用于低精度计算时，ReLU6激活函数更加鲁棒，并且在训练时候利用dropout和batchnorm规范化。

在本发明实施例中，Mobilenet_v2深度神经网络先通过运算后获取关于图像纹理、颜色、形状、空间关系等抽象图像描述，即特征图。每个特征图代表了同一个原始图像上的不同位置空间、纹理等特征描述，即往PixelLink网络模型中输入一张图像，通过Mobilenet_v2深度神经网络运算可以得到多个图，运算后得到的多个图就是该输入图像的多个特征图并且特征图的数量并不固定，一般为2的倍数，如4,8,16等，最多可以达到1024个。

然后，从提取的特征图中选择四个基础特征图。从多个特征图中选择四个特征图的标准是通过各个特征图的大小关系选择，一般大小关系为连续倍数关系。例如：第一个特征图大小为8×8，那么第二个特征图的大小关系为16×16，第三个特征图打的大小关系为32×32，第四个特征图的大小关系为64×64。每个特征图都是一个长乘宽大小的矩形图。

最后，将每个基础特征图分别做1×1的卷积，使得基础特征图降维，该降维处理只是改变基础特征图通道数并不改变该基础特征图的宽和高。将降维后的特征图采用如内插值方法，即在降维后的特征图像素的基础上，在像素点之间采用合适的插值算法插入新的元素，使得本层降维后的特征图和上层特征图的大小一样后再将它们拼接在一起，得到Mobilenet_v2深度神经网络最后一层的融合特征图。在融合特征图上添加一个1×1卷积层进行文字行方向预测，输出文字行方向预测、text/no text二分类预测和像素点八个方向像素连接预测。从而使得PixelLink网络模型得到文字行位置四个点坐标信息和文字行旋转方向角度。此方法除了检测文字行位置信息，还可以判断输入图像文字行是否旋转，可以根据此预测结果将文字行旋转摆正，大幅提升了任意方向文字行检测识别结果。

在本发明实施例中，Mobilenet_v2深度神经网络实时一种针对移动端的轻量级检测分类算法，优点是模型参数少，网络计算量少，方便在移动端部署。

在步骤S3中，将所述样本图像集输入到所述改进后的文字行检测模型中，得到文字行方向预测模型。

在本发明实施例中，将样本图像集输入到改进后的文字行检测模型中，是对改进的文字行检测模型的训练，最终得到文字行方向预测模型。

具体的，在本发明实施例中，此步骤还包括对期望的网络模型进行检测。其检测方法为：获取样本测试图像集，此样本测试图像集包括合成仿真样本图像和真实拍摄图像。将该样本测试图像集输送至改进后的文字行检测模型中计算得到每个该样本图像中的文字行四个点坐标信息和样本图像中的文字行的旋转角度，再用真实对应该样本图像中的每个文字行四个点坐标信息和文字行的旋转角度进行对比，得到多个差异指数，训练过程观察该差异值，俗称训练loss函数，该值下降到可以人为接受或者达到指定训练次数后，则改进后的文字行检测模型训练成功；否则，则继续训练改进后的文字行检测模型。

结合上述实施例，在步骤S3中将样本图像集输入到所述改进后的文字行检测模型中之前，还包括以下步骤:

在步骤S31中，对所述样本图像集中每一张样本图像，随机选择-45°到45°之间的一个角度进行旋转，并对旋转后的样本图像进行数据增强；

在本发明实施例中，用第三方如opencv等开源工具在-45°～45°随机旋转一个角度进行图像旋转和其他形式的数据增强，如图像模糊、图像倾斜、遮挡覆盖、添加对比度、明亮度以及高斯模糊化等数据增强手段。

在步骤S32中，将所述样本图像集输入到所述改进后的文字行检测模型，包括：将数据增强后的样本图像所组成的样本图像集输入到所述改进后的文字行检测模型。

结合上述实施例，在本发明的另外一个实施例中，使用文字行方向预测模型的方法。该方法除包括步骤S1-步骤S3外，还包括以下步骤：

在步骤S4中，将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

本实施例中，文字行被矩形框圈住，通过矩形框四个直角坐标确定文字行实际的位置，每一个文字的中心点连成的线段与图像的横边之间的夹角为文字行旋转角度信息，再根据该文字行旋转角度信息对文字行区域图像有针对性的旋转，从而使文字行摆正，从而提升后续文字识别的准确率。每一个文字的中心点连成的线段与图像的横边之间的夹角为文字行的倾斜角度。

基于本发明实施例，可以达到如下有益效果：

1、增加了样本图像集中样本的多样性。

本发明通过对样本图像集中的每张图像进行数据增强，更加考虑到了图像方向旋转增强，增加了样本图像集中样本的多样性，让样本尽可能多的覆盖所有在使用场景见到的所有图像存在形式。

2、提高了文字行方向预测模型的鲁棒性。

本发明在文字行检测模型最后一层卷积层后添加1×1的卷积层，增加了文字行方向预测的功能。除了能检测出文字行位置信息，还可以判断输入图像文字行是否旋转，通过输出的文字行的旋转角度和文字行坐标，从而将文字行区域图像旋转，得到文字行正常输出序列，提高了文字行方向预测模型的鲁棒性。

3、减少了文字行方向预测模型参数量，减少了内存的占用，极大降低了文字行方向预测模型的大小。

本发明中文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络的构建PixelLink网络模型，使得文字行检测模型参数量少，内存占用率小，极大降低了文字行方向预测模型的大小。

参照图2，出示了本发明实施例提供的一种训练文字行方向预测模型的装置的框图，具体可以包括如下模块：

获取模块11，用于获得样本图像集，所述样本图像集中的每张样本图像携带预先标记的坐标信息和旋转角度信息，该坐标信息表征该样本图像中的文字行的坐标，该旋转角度信息表征该样本图像中的文字行的旋转角度。

改进模块12，用于在文字行检测模型中的最后一层卷积层后添加1×1的卷积层，得到改进后的文字行检测模型。

训练模块13，用于将所述样本图像集输入到所述改进后的文字行检测模型中，得到文字行方向预测模型。

输出模块14，用于将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

数据增强模块15，用于对所述样本图像集中每一张样本图像，随机选择-45°到45°之间的一个角度进行旋转，并对旋转后的样本图像进行数据增强。

在一个可选的实现方式中，所述改进模块12中所述文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络构建的PixelLink网络模型。

在一个可选的实现方式中，所述获取模块11包括：

旋转子模块，用于对所述样本图像集中每一张携带坐标信息的样本图像随机选择四个方向中的任意一个方向进行旋转，并根据旋转方向标记该样本图像携带的旋转角度信息；其中，所述四个方向包括：0°、90°、180°以及270°。

在一个可选的实现方式中，所述训练模块13包括：

训练子模块，用于将数据增强后的样本图像所组成的样本图像集输入到所述改进后的文字行检测模型。

基于同一发明构思，本发明另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可再处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本发明另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本发明的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种训练文字行方向预测模型的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

3.根据权利要求1所述的方法，其特征在于，所述文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络构建的PixelLink网络模型。

4.根据权利要求1所述的方法，其特征在于，所述获得样本图像集的步骤包括：

对所述样本图像集中每一张携带坐标信息的样本图像随机选择四个方向中的任意一个方向进行旋转，并根据旋转方向标记该样本图像携带的旋转角度信息；其中，所述四个方向包括：0°、90°、180°以及270°。

5.根据权利要求1所述的方法，其特征在于，在将所述样本图像集输入到所述改进后的文字行检测模型中之前，还包括：

对所述样本图像集中每一张样本图像，随机选择-45°到45°之间的一个角度进行旋转，并对旋转后的样本图像进行数据增强；

6.一种训练文字行方向预测模型的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

输出模块，用于将待识别图像输入所述文字行方向预测模型，输出所述待识别图像中的文字行的坐标信息和旋转角度信息，该坐标信息表征该待识别图像中的文字行的坐标，该旋转角度信息表征该待识别图像中的文字行的旋转角度。

8.根据权利要求6所述的装置，其特征在于，所述文字行检测模型是以Mobilenet_v2深度神经网络作为主干网络构建的PixelLink网络模型。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5中任一项所述的一种训练文字行方向预测模型的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的一种训练文字行方向预测模型的方法的步骤。