CN110163208A

CN110163208A - 一种基于深度学习的场景文字检测方法和系统

Info

Publication number: CN110163208A
Application number: CN201910426384.6A
Authority: CN
Inventors: 彭小兵; 刘新华; 李方敏; 旷海兰; 张韬; 杨志邦
Original assignee: Changsha University
Current assignee: HUNAN CLOUD ARCHIVE INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2019-08-23
Anticipated expiration: 2039-05-22
Also published as: CN110163208B

Abstract

本发明公开了一种基于深度学习的场景文字检测方法，包括：获取主要数据集和补充数据集，并为主要数据集和补充数据集中的每幅图像生成训练标签，从补充数据集中选择N张图像，并将N张图像输入卷积神经网络模型，利用卷积神经网络中的卷积块对N张图像进行逐层特征融合，以得到N张图像中每个像素点的融合特征，计算N张图像中每个像素点的融合特征的分割损失值和回归损失值，使用Adam优化算法更新卷积神经网络的权重，并重复达到预定迭代次数，从而生成预训练好的卷积神经网络。本发明能解决现有场景文字检测方法中存在的无法检测倾斜文字、以及容易受到底层错误特征的干扰而导致检测准确率低的技术问题。

Description

一种基于深度学习的场景文字检测方法和系统

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于深度学习的场景文字检测方法和系统。

背景技术

文字作为人类文明的标志和信息交流的载体、广泛的存在于自然场景图像中(例如：路牌、商品名称、车牌等)，相较图像中的其他自然场景内容(例如：树木、行人、建筑物等)，场景文字具有更强的逻辑性和更概括的表达性，能更加有效的提供高层语义信息，准确的检测识别图像中的文字将有助于场景内容的分析和理解。

相比印刷体文档中的光学字符检测这类经典问题，对场景文字检测的研究相对滞后。目前广泛使用的场景文字检测方法包括基于候选文字连接网络(Connectionist TextProposal Network，简称CTPN)的方法、以及基于全卷积网络(Fully convolutionalnetwork，简称FCN)的方法。其中基于CTPN的方法是从Faster R-CNN改进而来，能有效的检测出复杂场景的横向分布的文字；而基于FCN网络的方法是使用FCN网络对图像进行像素级的分类，从而解决了语义级别的图像分割问题。

然而，上述两种场景文字检测方法都存在一些不可忽略的技术问题：1、基于CTPN的方法只能够检测水平的文字，无法实现对倾斜文字的检测；2、基于FCN的方法在特征融合的过程中容易受到底层错误特征的干扰，从而导致检测过程的准确度偏低。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于深度学习的场景文字检测方法和系统，其目的在于，解决现有场景文字检测方法中存在的无法检测倾斜文字的技术问题、以及容易受到底层错误特征的干扰而导致检测准确率低的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于深度学习的场景文字检测方法，包括以下步骤：

(1)获取主要数据集和补充数据集，并为主要数据集和补充数据集中的每幅图像生成训练标签，训练标签包括像素类型标签、以及包围框坐标偏移标签；

(2)从步骤(1)中获取的补充数据集中选择N张图像，并将N张图像输入卷积神经网络模型，利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合，以得到N张图像中每个像素点的融合特征；

(3)根据以下公式计算步骤(2)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值：

(4)使用Adam优化算法更新步骤(2)中卷积神经网络的权重，并重复上述步骤(2)和(3)达到预定迭代次数，从而生成预训练好的卷积神经网络。

(5)从步骤(1)中获取的主要数据集中选择N张图像，并将N张图像输入步骤(4)预训练好的卷积神经网络模型，利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合，以得到N张图像中每个像素点的融合特征；

(6)计算步骤(5)得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值：

(7)使用Adam优化算法更新步骤(4)中预训练好的卷积神经网络的权重，并重复上述步骤(5)和(6)达到预定迭代次数，从而生成训练好的卷积神经网络。

(8)获取场景文字图像，将获取的该场景文字图像输入步骤(7)中训练好的卷积神经网络中，从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。

优选地，主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合，补充数据集采用的是SynthText数据集中的10万张图像构成的集合，卷积神经网络是ResNet-50。

优选地，步骤(1)中生成训练标签的过程具体为，首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标，从而形成多个包围框，将包围框向内压缩10％，然后在图像上标记出压缩后的包围框；随后将包围框内所有像素点的像素类型标签设置为1，用于表示像素点是文字像素，将包围框外的所有像素点的像素类型标签设置为0，用于表示像素点是非文字像素，将包围框之间重叠部分的所有像素点的像素类型标签也设置为0，最后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值，即为包围框坐标偏移标签。

优选地，步骤(2)具体为，首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合，以得到该图像中每个像素点的融合特征A，然后将融合特征A与卷积块ResStage2输出的特征进行融合，以得到融合特征B，最后将融合特征B与ResStage1输出的特征进行融合，从而得到最终的该图像中每个像素点的融合特征C。

优选地，每次的融合操作具体为，首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配，然后对匹配结果中分辨率低的特征进行2倍上采样操作，最后使用点积运算对采样操作的结果进行特征逐点融合。

优选地，分割损失函数为其中表示融合特征，α_t表示平衡权重系数，且有：其中y表示每个像素点的像素类型标签，α为N张图像中像素类型标签为0的所有像素点占整个N张图像中全部像素点的比例，回归损失函数为其中smoothL1表示平滑损失函数，G表示像素点的包围框坐标偏移标签，P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签，d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离。

优选地，步骤(4)中的预定迭代次数是60000，步骤(7)中的预定迭代次数是20000。

按照本发明的另一方面，提供了一种基于深度学习的场景文字检测系统，包括：

第一模块，用于获取主要数据集和补充数据集，并为主要数据集和补充数据集中的每幅图像生成训练标签，训练标签包括像素类型标签、以及包围框坐标偏移标签；

第二模块，用于从第一模块中获取的补充数据集中选择N张图像，并将N张图像输入卷积神经网络模型，利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合，以得到N张图像中每个像素点的融合特征；

第三模块，用于根据以下公式计算第二模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值：

第四模块，用于使用Adam优化算法更新第二模块中卷积神经网络的权重，并重复上述第二模块和第三模块达到预定迭代次数，从而生成预训练好的卷积神经网络。

第五模块，用于从第一模块获取的主要数据集中选择N张图像，并将N张图像输入第四模块预训练好的卷积神经网络模型，利用该卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行特征融合，以得到N张图像中每个像素点的融合特征；

第六模块，用于计算第五模块得到的N张图像中每个像素点的融合特征的分割损失值和回归损失值：

第七模块，用于使用Adam优化算法更新第四模块中预训练好的卷积神经网络的权重，并重复上述第五模块和第六模块达到预定迭代次数，从而生成训练好的卷积神经网络。

第八模块，用于获取场景文字图像，将获取的该场景文字图像输入第七模块训练好的卷积神经网络中，从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)由于本发明首先通过位于包围框以内的文字像素点来确定其与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值，再根据获取的偏移值最终得到检测结果，从而能够避免基于CTPN的方法中只能处理水平包围框所带来的限制，并使得本发明的方法可以用于处理水平或倾斜的文字检测；

(2)由于本发明步骤(2)中采用了不同的卷积块实现逐层特征融合过程，从而能够在避免受到底层的错误特征干扰的前提下，分割出同一场景图像中不同尺度的文字区域，进而提高了文本识别的精度。

附图说明

图1是本发明基于深度学习的场景文字检测方法的流程图。

图2是本发明中使用的卷积神经网络的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明基于深度学习的场景文字检测方法包括以下步骤：

具体而言，本步骤中获取的主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合，补充数据集采用的是SynthText数据集中的10万张图像；

本步骤中生成训练标签的过程具体为，首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标，从而形成多个包围框。考虑到ICDAR2015标注质量较低，包围框内含有过多背景像素，所以需要将包围框向内压缩10％，然后在图像上标记出压缩后的包围框；随后将包围框内所有像素点的像素类型标签设置为1，用于表示像素点是文字像素，将包围框外的所有像素点的像素类型标签设置为0，用于表示像素点是非文字像素，将包围框之间重叠部分的所有像素点的像素类型标签也设置为0，目的是避免实例之间的粘连，以上即获取了每幅图像的像素类型标签；然后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值，即为包围框坐标偏移标签。

(2)从步骤(1)中获取的补充数据集中选择N张图像，并将N张图像输入卷积神经网络模型(如图2所示)，利用卷积神经网络中的卷积块ResStage4、ResStage3、ResStage2、ResStage1对N张图像进行逐层特征融合，以得到N张图像中每个像素点的融合特征，其中N的取值是15；

具体而言，本步骤中使用的卷积神经网络是ResNet-50。

本步骤中首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合，以得到该图像中每个像素点的融合特征A，然后将融合特征A与卷积块ResStage2输出的特征进行融合，以得到融合特征B，最后将融合特征B与ResStage1输出的特征进行融合，从而得到最终的该图像中每个像素点的融合特征C。

每次的融合操作均包括三步：首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配，然后对匹配结果中分辨率低的特征进行2倍上采样操作，其中上采样是使用双线性插值方法，最后使用点积运算对采样操作的结果进行特征逐点融合。

分割损失函数为其中表示融合特征，α_t表示平衡权重系数，且有：其中y表示每个像素点的像素类型标签，α为N张图像中像素类型标签为0的所有像素点占整个N张图像中全部像素点的比例；

回归损失函数为其中smoothL1表示平滑损失函数，G表示像素点的包围框坐标偏移标签，P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签，d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离(该距离为一个4维向量)。

本步骤中，预定迭代次数是60000。

本步骤中融合操作和上述步骤(2)完全相同，在此不再赘述。

本步骤中计算分割损失值和回归损失值的操作和上述步骤(3)完全相同，在此不再赘述。

本步骤中，预定迭代次数是20000。

(8)获取场景文字图像，将获取的该场景文字图像输入步骤(7)中训练好的卷积神经网络中，从而得到该场景文字图像中每个像素点的类型(即文字像素和非文字像素)、以及属于文字类型的每个像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值；

在本步骤中，是通过手机拍摄、相册选取的方式获取场景文字图像，也可以从ICDAR2013或ICDAR2015测试集中获取场景文字图像。

测试结果比较

以下将本发明的方法和几种现有的场景文字检测方法进行性能比较：

1、文字区域分割准确度

在本部分中，主要验证了本发明在文字区域分割上的效果。为了验证本发明可以解决场景文字尺度多样性的问题，在ICDAR2013上进行了实验，对比模型为ResNet-50和FCN-8s。表1为分割准确率以及平均绝对误差的指标对比。

表1

从表1中可以看出，本发明分割效果最好，在准确率和平均绝对误差指标上都占有明显优势。

2、文字实例定位准确度

在本部分中，主要验证本发明对多方向场景文字的定位效果，在ICDAR2015上进行实验，与其他算法指标对比如表2所示。

表2

从表2可以看出，本发明方法定位准确率较好，可用于实际应用。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的场景文字检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的场景文字检测方法，其特征在于，

主要数据集是公开的ICDAR2013数据集和ICDAR2015数据集的混合；

补充数据集采用的是SynthText数据集中的10万张图像构成的集合；

卷积神经网络是ResNet-50。

3.根据权利要求1所述的场景文字检测方法，其特征在于，步骤(1)中生成训练标签的过程具体为，首先从每幅图像对应的文本文件中逐一取出四个顶点的坐标，从而形成多个包围框，将包围框向内压缩10％，然后在图像上标记出压缩后的包围框；随后将包围框内所有像素点的像素类型标签设置为1，用于表示像素点是文字像素，将包围框外的所有像素点的像素类型标签设置为0，用于表示像素点是非文字像素，将包围框之间重叠部分的所有像素点的像素类型标签也设置为0，最后计算每个包围框中像素点与其所处包围框4个顶点坐标中每一个顶点坐标之间的偏移值，即为包围框坐标偏移标签。

4.根据权利要求1所述的场景文字检测方法，其特征在于，步骤(2)具体为，首先是利用卷积神经网络中的卷积块ResStage4和ResStage3对每张图像进行融合，以得到该图像中每个像素点的融合特征A，然后将融合特征A与卷积块ResStage2输出的特征进行融合，以得到融合特征B，最后将融合特征B与ResStage1输出的特征进行融合，从而得到最终的该图像中每个像素点的融合特征C。

5.根据权利要求4所述的场景文字检测方法，其特征在于，每次的融合操作具体为，首先卷积块输出的特征经过1×1的卷积层进行特征通道数匹配，然后对匹配结果中分辨率低的特征进行2倍上采样操作，最后使用点积运算对采样操作的结果进行特征逐点融合。

6.根据权利要求1所述的场景文字检测方法，其特征在于，

回归损失函数为其中smoothL1表示平滑损失函数，G表示像素点的包围框坐标偏移标签，P表示步骤(2)得到的融合特征经过Sigmod函数预测后的包围框坐标偏移标签，d(i,V)表示第i个像素点与其所处的包围框的4个顶点V之间的距离。

7.根据权利要求1所述的场景文字检测方法，其特征在于，步骤(4)中的预定迭代次数是60000，步骤(7)中的预定迭代次数是20000。

8.一种基于深度学习的场景文字检测系统，其特征在于，包括：