CN110766008A

CN110766008A - 一种面向任意方向和形状的文本检测方法

Info

Publication number: CN110766008A
Application number: CN201911034756.7A
Authority: CN
Inventors: 严海; 贾昌鑫
Original assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Current assignee: BEIJING THUNISOFT INFORMATION TECHNOLOGY Co Ltd
Priority date: 2019-10-29
Filing date: 2019-10-29
Publication date: 2020-02-07

Abstract

本发明提供一种面向任意方向和形状的文本检测方法，包括人工合成数据训练阶段、弱监督训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，针对只有词级标注框没有字符标注框的原始数据图像，采用弱监督训练阶段进行训练。本发明可以更好的检测目标较大的文本。同时，在后置处理时对检测到的相邻较近的文本框进行连接操作，有效的减少了文本检测的间断问题。

Description

一种面向任意方向和形状的文本检测方法

技术领域

本发明涉及文本检测识别技术领域，尤其涉及一种面向任意方向和形状的文本检测方法。

背景技术

随着人工智能进程的不断发展，自然场景下的文字识别也成为了该进程中不可或缺的一环。如今，文字在自然场景下无处不在，例如道路中的交通指示牌、商场中店铺的名称、公共场所中的宣传语等等。计算机视觉作为人工智能重要的组成部分，自然场景下的文字识别便是依靠计算机视觉技术。自然场景下的文字识别主要是对视觉图像中的文字识别过程，主要分为图像中文字检测和文字内容识别两个部分。其中，文字检测的主要作用是定位图像中文字的位置便于后期对文字的识别。因此，文字检测在整个文字识别过程中有着至关重要的作用。

目前，自然场景下的文字复杂多样。不仅文字角度、形状、颜色多变，而且文字背景复杂，干扰因素众多。因此，基于计算机视觉的方法检测自然场景下的文字是一项极具挑战性的任务。

随着深度神经网络的不断发展，目前基于神经网络的文字检测方法主要可以分为三类。第一类是基于通用的目标检测方法，采取生成文字候选框的方式，对候选框进行分类和位置修正。第二类是基于分割的检测方法，首先从图像中将文字部分分割出来，然后使用最大稳定极值区域方法提取候选的文字部分，最后使用候选的文字区域部分预测整个文本行的方向。第三类是结合第二类方法在分割出文字区域部分的同时预测图像中文字的几何形状。

在自然场景下，图像中的文字可能以任意角度和位置呈现，使得检测模型对于竖向和形状不规则的文字检测效果较差。因此，需要对现有技术进行改进，从而对任意方向和形状的文本能进行准确地检测。

发明内容

对上述的提出的问题，本发明旨在提出一种鲁棒性更强的文字检测方法，可以对任意方向和形状的文本进行检测。本发明是一种基于CRAFT模型在自然场景下的文字检测方法，CRAFT模型可对任意方向和形状的文本进行检测，模型具有较强的泛化能力。

本发明的技术方案如下：

一种面向任意方向和形状的文本检测方法，包括人工合成数据训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，所述的人工合成数据训练阶段包括：

步骤S1、根据字符标注框对每幅原始数据图像生成独立的区域高斯热力图；

步骤S2、每两个相邻的字符标注框组成一个字符标注框对，对每个字符标注框对生成连通性高斯热力图；

步骤S3、对原始数据图像进行数据增强处理，增强处理的方式包括但不限于随机裁剪、随机旋转和颜色转换；

步骤S4、将增强处理过的数据图像输入CRAFT网络模型中进行训练，得到CRAFT强文本检测模型；

所述的测试阶段包括：

步骤S5、将待检测的图像输入CRAFT强文本检测模型中，CRAFT强文本检测模型输出待检测图像中各区域存在文字的概率分数图以及文字连通的概率分数图；

步骤S6、将存在文字的概率分数图和文字连通的概率分数图进行相加，使用连通域算法对相加后的分数图分割出文字区域前景和非文字区域背景；

步骤S7、根据文字区域前景坐标求出所属区域的最小矩形，然后根据对应的坐标变换，将所述最小矩形转换至原始数据图像，进而得到图像中的文字区域；

步骤S8、对所述文字区域处理得到文本检测框；

步骤S9、对文本检测框排序，将同一行中相邻的文本检测框进行连接，合成一个统一的文本检测框。

进一步的，所述的步骤S1中独立的区域高斯热力图的生成方法为：对大小为512*512像素的矩形的最大内切圆生成中心点数值为1的高斯图，以高斯图中心点为中心，截取部分高斯图比例为0.4，然后求出截取的高斯图区域仿射变换到字符标注框的放射变换矩阵，最后根据放射变换矩阵将完整的高斯图仿射变换至字符标注框区域。

进一步的，所述的步骤S2具体包括：

分别求出每个字符标注框上下两个三角形的中心，将一个字符标注框对中的上下四个三角形中心相连组成新的四边形；或者分别求出每个字符标注框左右两个三角形的中心，将一个字符标注框对中的左右四个三角形中心相连组成新的四边形，对组成的新的四边形生成独立的连通性高斯热力图。

进一步的，所述的随机旋转是对原始数据图像进行顺时针方向10度和逆时针方向10度的随机旋转。

进一步的，所述的颜色转换是随机的改变原始数据图像的亮度和饱和度。

进一步的，所述的随机裁剪是将原始数据图像的尺寸随机的扩展为原尺寸的1至3倍，然后随机选定扩展后的数据图像中一个文字区域，以该文字区域的左上角为左上角顶点在扩展后的数据图像中截取设定大小的区域。

优选的，所述设定大小的区域为768*768像素。

进一步的，如果截取区域没有包含整个文字区域，则扩大截取区域，使截取区域包含整个文字区域，然后对扩大后的截取区域的长边缩小至768像素，短边按照与长边相同的比例缩小。

进一步的，如果缩小后的区域图像不足768*768像素，则使用0值对所述缩小后的区域图像进行填充，使其满足768*768像素。

进一步的，对原始数据图像进行随机旋转和随机裁剪的数据增强处理的同时，对原始数据图像的区域高斯热力图和连通性高斯热力图进行相同的数据增强操作，生成区域高斯热力图标签和连通性高斯热力图标签。

进一步的，将增强处理过的数据图像输入到CRAFT网络模型中，CRAFT网络模型会输出预测的区域高斯热力图和预测的连通性高斯热力图，分别计算预测的区域高斯热力图和区域高斯热力图标签二者之间的损失值、预测的连通性高斯热力图和连通性高斯热力图标签二者之间的损失值。

进一步的，将预测的高斯热力图中分数小于0.1的作为负样本，大于0.1的作为正样本。

进一步的，损失值采用最小均方误差损失函数计算，使用OHEM算法控制正样板与负样本的比例为1:3，负样本不足时统计所有的负样本，没有正样本时选取前500负样本损失均值作为损失值。

进一步的，将待检测的图像输入CRAFT强文本检测模型之前，将待检测的图像的长边扩大到1280像素，短边按照与长边相同的比例扩大。

进一步的，在步骤S6中，分别将存在文字的概率分数图和文字连通的概率分数图中大于阈值的分数设置为1，小于阈值的分数设置为0。

优选的，所述的阈值为0.4。

进一步的，在步骤S8中，对文字区域处理的步骤具体包括：扫描词级区域分数图，找到每个文字区域最大的竖向线，连接每个文字区域最大竖向线的中心点，连接后的线作为词级区域的中心线，然后在每个字符区域内在竖向线的中心点作中心线的垂直线，分别将词级区域的第一个字符和最后一个字符的垂直线分别平移至各自文字区域的最左端和最右端，最后连接该词级区域内的垂直线，得到文本检测框。

进一步的，一种面向任意方向和形状的文本检测方法还包括弱监督训练阶段，针对只有词级标注框没有字符标注框的原始数据图像，采用弱监督训练阶段进行训练，所述的弱监督训练阶段包括：

步骤S1’、将有词级标注框的原始数据图像采用弱监督方式生成伪字符标注框；

步骤S2’、根据伪字符标注框对每幅原始数据图像生成独立的区域高斯热力图；

步骤S3’、每两个相邻的伪字符标注框组成一个伪字符标注框对，对每个伪字符标注框对生成连通性高斯热力图；

步骤S4’、根据伪字符标注框个数和实际的词中字符标注框个数的比例分别生成区域高斯热力图和连通性高斯热力图可信度分数图；

步骤S5’、将具有伪字符标注框的原始数据图像和词级标注框的原始数据图像按照1：5的比例输入到CRAFT强文本检测模型中进行训练。

进一步的，所述的伪字符标注框的形成方法为：

步骤S101’、将有词级标注框的原始数据图像，根据词级标注框的信息裁剪出词级文字区域，将词级文字区域输入到CRAFT强文本检测模型中，预测词级文字区域中存在文字的概率分数图；

步骤S102’、使用分水岭算法分割预测的存在文字的概率分数图的文字区域前景和非文字区域背景；

步骤S103’、根据文字区域前景坐标求出词级文字区域的最小矩形，然后根据对应的坐标变换，将该最小矩形转换至原始图像，进而得到词级标注基础上的伪字符标注框。

进一步的，在步骤S101’中，将裁剪出的词级文字区域短边固定为64像素大小，同时采用裁剪图像和原始数据图像相结合的方式预测词级文字区域中的文字概率分数图。

本发明的有益效果在于：

在数据预处理时，保证了一定量的原始图像中文本尺寸较大的区域输入到模型中进行训练，可以更好的检测目标较大的文本。同时，在后置处理时对检测到的相邻较近的文本框进行连接操作，有效的减少了文本检测的间断问题。

附图说明

图1本发明实施例一的方法示意图；

图2本发明实施例二的方法示意图；

图3为左右相邻的字符标注框的四边形的形成方式示意图；

图4为上下相邻的字符标注框的四边形的形成方式示意图。

具体实施方式

下面结合附图对本公开实施例进行详细描述。

以下通过特定的具体实例说明本公开的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本公开的其他优点与功效。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。本公开还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本公开的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

实施例一

本发明提出的任意方向和形状的文字检测方法主要是基于CRAFT模型的改进得来的，主要包括网络模型的训练和文字的检测定位。

CRAFT网络模型基于VGG16深度卷积神经网络提取图像的特征，Conv1、Conv2、Conv3、Conv4和Conv5分别为VGG16网络的第一层至第五层卷积模块，CRAFT网络模型在VGG16网络的基础上增加了Conv6卷积模块以及将原有的全连接层改为了池化层。CRAFT网络模型将Conv6层特征图和Conv5层特征采用逐元素相加的方式生成新得特征图，然后将新的特征图进行上采样与Conv4层的特征图逐元素相加再一次生成新的特征图，同理重复该步骤直至与Conv2层的特征图相加并进行上采样得到最新的特征图，然后将最新的特征图进行四次卷积操作，进而预测图像中文字的区域高斯图分数和连通性高斯图分数。此外，CRAFT网络模型分别计算两种损失，区域高斯图损失和连通性高斯图损失。

本发明的一种面向任意形状和方向的文字检测方法，包括以下步骤：

人工合成数据训练阶段

具体包括：

1)将具有字符标注的图像，根据字符标注框对每幅图像生成独立的区域高斯热力图；

字符标注框即单词字符(英文字母)的框的标注(坐标)。

进一步的，区域高斯热力图的生成方法为：首先需要对大小为512*512矩形的最大内切圆生成中心点数值为1的高斯图，以高斯图中心点为中心，截取部分高斯图比例为0.4，然后求出截取的高斯图区域仿射变换到字符标注框的放射变换矩阵，最后根据放射变换矩阵将完整的高斯图仿射变换至字符标注框区域，就形成了单个字符标注框的区域高斯热力图。

2)两个相邻的字符标注框组成一个字符标注框对，分别求出每个字符标注框上下两个三角形的中心，将四个三角形中心组成新的四边形；或者分别求出每个字符标注框左右两个三角形的中心，将四个三角形中心组成新的四边形，然后对组成的新的四边形生成独立的连通性高斯热力图；

新的四边形获取方式为：字符标注框为矩阵框，矩阵框的两个对角线可以把矩阵框分为四个三角形，因此，两个左右相邻的矩阵框，每个框都取其上下两个三角形，这样便组成四个三角形，由四个三角形的中心组成四边形，如图3的虚线框所示；或者两个上下相邻的矩阵框，每个框都取其左右两个三角形，这样便组成四个三角形，由四个三角形的中心组成四边形，如图4的虚线框所示。图3和图4只是为了说明四边形的形成方式，不代表四边形的形状和位置就是如此，形状和位置根据三角形的中心点计算确定。

连通性高斯热力图的生成方法为：根据四个中心点组成的矩形，按照区域高斯热力图的生成方式，进而生成连通性高斯热力图。其中，截图的部分高斯热力图的比例为0.15，其余生成方式均与区域高斯热力图一致。

在人工合成数据训练阶段中，由于数据集具有字符级的标注信息，因此可以直接对原始数据图像生成区域高斯图和连通性高斯图。该数据集是具有每个字符标注框的集合，即对于由多个英文字母组成的词中，该数据集清楚的标记了每个字母的标注框(坐标)，而一般的数据集只有词整体的标注框(坐标)。

3)原始数据图像进行数据增强处理，数据增强方法包括随机裁剪、随机旋转和颜色转换；

随机旋转部分是对图像进行顺时针方向10度和逆时针方向10度的随机旋转。

颜色转换部分是随机的改变图像的亮度和饱和度。

随机裁剪部分，首先对原始图像按照1倍、2倍或3倍的比例随机扩展图像的大小，随机选取图像中的某个文字区域，在0至图像的宽减去768像素和0至图像的高减去768像素的大小区域，或者文字区域的宽减去768像素至图像的宽减去768像素和文字区域的高减去768像素至图像的高减去768像素的大小区域生成随机数，作为裁剪后图像的左上角顶点，以该顶点分别在扩展后的图像中截取768*768像素大小的区域。如果截取的区域无法包含整个文字区域，则扩大截取的区域，使得截取后的图像区域可以包含整个文字区域。此外，如果扩大了截取的区域，则将截取后的区域的长边缩小至768像素大小，短边按照相应比例进行缩小，此时如果缩小后的裁剪区域不足768*768像素大小，则对该截取图像区域进行补0操作，使得裁剪的区域满足768*768像素大小。768像素的值为优选值，也可以为其他的像素值，具体看实验效果，本发明中实验结果表明取768的像素最好。

其中，在对原始数据图像进行随机旋转和随机裁剪两个部分数据增强操作的同时相应的对生成的区域高斯热力图和连通性高斯热力图进行相同的数据增强操作，生成区域高斯热力图标签和连通性高斯热力图标签，作为训练时原始数据图像的标签。另外，颜色变换增强部分只对原始数据图像进行操作。

4)处理好的图像输入到CRAFT网络模型中进行训练，进而得到CRAFT强文本检测模型；

训练阶段，将增强处理过的数据图像输入到CRAFT网络模型中，CRAFT网络模型会输出预测的区域高斯热力图和预测的连通性高斯热力图，分别计算预测的区域高斯热力图和区域高斯热力图标签二者之间的损失值、预测的连通性高斯热力图和连通性高斯热力图标签二者之间的损失值。在对应的文字区域中，将预测的高斯热力图中，分数小于0.1的作为负样本，大于0.1的作为正样本。训练时采用的损失函数为MSE Loss(最小均方误差损失函数)，使用OHEM算法控制正负样本的比例为1:3，负样本不足时统计所有的负样本，没有正样本选取前500负样本损失均值作为损失值。OHEM(online hard example mining)算法训练基于区域的卷积检测算子的高效目标检测算法，能够对简单样本和一些小数量样本进行抑制，使得训练过程更加高效。

测试阶段

具体包括：

5)将待检测的图像输入CRAFT强文本检测模型中，CRAFT强文本检测模型输出待检测图像中各区域存在文字的概率分数图以及文字连通的概率分数图；

进一步的，在测试阶段前，还包括对待检测图片进行预处理的步骤：首先将待检测图像的长边扩大到1280，短边按照相应比例进行扩大。

6)将存在文字的概率分数图和文字连通的概率分数图进行相加，使用连通域算法对相加后的分数图分割出文字区域前景和非文字区域背景；

进一步的，检测时网络输出的存在文字的概率分数图以及文字连通的概率分数图分别根据不同的阈值将两个预测的分数图中的大于阈值的分数设置为1，小于阈值的分数设置为0。

进一步的，所述阈值为0.4。

7)根据文字区域前景坐标求出该区域的最小矩形，然后根据对应的坐标变换，将该最小矩形转换至原始图像，进而得到图像中的文字区域；

8)对所述文字区域处理得到文本检测框，首先扫描每个文本检测框，找到每个文字区域局部最大的竖向线，连接各个文字区域竖最大向线的中心点，连接后的线作为词级区域的中心线，然后在每个文字区域大小内在竖向线的中心点作中心线的垂直线，分别将词级区域的第一个字符和最后一个字符的垂直线分别平移至各自字符区域的最左端和最右端，最后连接该词级区域内的垂直线，得到文本检测框。

9)在得到图像中文本的检测框后，进一步对图像中文本框进行排序，针对同一行中检测文本框较近的文本进行连接，将满足要求的临近的文本框合成一个统一的文本框。

在后置处理部分，首先对预测的区域高斯热力图和连通性热力图进行二值化处理，分别将这两个高斯图中大于0.4的值设置为1，小于0.4的值设置为0，然后将这两个高斯图进行逐元素相加操作，使用连通域算法分割相加后的高斯图中的文字区域和非文字区域，最后根据文字区域的坐标获得该区域的最小外接矩形，通过矩形的坐标点通过坐标变换进而得到图像中文字区域的位置。

实施例二

与实施例一不同的是，还包括弱监督训练阶段。在弱监督训练阶段，使用的数据为人工合成数据和无字符标注数据。由于无字符级标注的数据只有词级标注信息，无法直接对单个字符生成对应的高斯图，因此需要根据实施例一中训练的CRAFT网络模型预测伪字符标注框，同时生成相应的可信度分数图。具体的弱监督训练阶段包括：

10)针对没有字符级标注只有词级标注的数据图像，采用弱监督方式生成伪字符级标注框；具体生成伪字符级标注框的步骤如下：

10.1)根据图像的词级标注，裁剪出词级文字区域部分，将该部分输入到CRAFT强文本检测模型中，预测该区域中存在文字的概率分数图；

进一步的，将裁剪出的词级文字区域短边固定为64像素大小，同时采用裁剪图像和原始图像相结合的方式预测图像中的文字概率分数图。

10.2)使用分水岭算法分割11)中预测的存在文字的概率分数图的文字区域前景和非文字区域背景；

10.3)根据文字区域前景坐标求出该区域的最小矩形，然后根据对应的坐标变换，将该最小矩形转换至原始图像，进而得到词级标注基础上的伪字符标注框；

11)对预测的伪字符标注框采用步骤1)和步骤2)中的方法分别生成区域高斯热力图和连通性高斯热力图；

12)根据预测的词中伪字符标注框个数和实际的词中字符标注框个数的比例分别生成区域高斯热力图和连通性高斯热力图可信度分数图；

进一步的，可信度分数图针对整个词级标注区域，具有伪字符标注框的图像中的区域高斯热力图和连通性高斯热力图可信度分数图中的可信度分数均为1；

13)将具有伪字符标注框的图像和词级标注的图像按照1：5的比例输入到CRAFT网络模型中进行训练；

训练时，网络预测的图像中的每个像素的损失均需乘以对应的可信度分数图中的分数值；

14)将待检测图像采用步骤5)-9)的方法得到图像中的文字区域。

在生成伪字符标注的过程中，首先根据词级标注信息从图像中裁剪出相应的文本区域，同时将裁剪的区域的短边长度保持在64像素大小，并使用实施例一中训练的模型对裁剪的文字区域预测其区域高斯热力图，然后使用分水岭算法对预测的区域高斯热力图中的文字区域前景和非文字区域进行分割，同时不同的字符文字也会被分割开，因此可以根据不同的字符文字区域坐标求取对应的字符文字区域的最小矩形坐标，进而将词级标注信息转换为伪字符级标注信息。在词级标注数据中，可以获得词中字符个数，根据预测的伪字符个数和实际的词中字符数的比值作为当前词级区域的可信度分数。

相较于实施例一，在弱监督训练阶段对每个图像不仅生成高斯图而且生成可信度分数图，用以表示预测的伪字符标注信息的可信度。具有字符级标注信息的图像的可信度分数图的值均为1，具有词级标注信息的图像可信度分数图在词级文字区域的值为伪字符个数和实际的词中字符数的比值，其它区域的可信度分数值为1。训练过程中具有字符标注的数据和具有词级标注的数据的比例为1：5，此外，在损失函数计算损失，需要将损失图与可信度分数图逐元素相乘，然后计算得出最后的损失值，其他的训练过程均与实施例一相同。

以上仅为说明本发明的实施方式，并不用于限制本发明，对于本领域的技术人员来说，凡在本发明的精神和原则之内，不经过创造性劳动所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向任意方向和形状的文本检测方法，其特征在于：包括人工合成数据训练阶段和测试阶段，针对有字符标注框的原始数据图像采用人工合成数据训练阶段进行训练，所述的人工合成数据训练阶段包括：

所述的测试阶段包括：

步骤S8、对所述文字区域处理得到文本检测框；

2.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的步骤S1中独立的区域高斯热力图的生成方法为：对大小为512*512像素的矩形的最大内切圆生成中心点数值为1的高斯图，以高斯图中心点为中心，截取部分高斯图比例为0.4，然后求出截取的高斯图区域仿射变换到字符标注框的放射变换矩阵，最后根据放射变换矩阵将完整的高斯图仿射变换至字符标注框区域。

3.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的颜色转换是随机的改变原始数据图像的亮度和饱和度。

4.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的随机裁剪是将原始数据图像的尺寸随机的扩展为原尺寸的1至3倍，然后随机选定扩展后的数据图像中一个文字区域，以该文字区域的左上角为左上角顶点在扩展后的数据图像中截取设定大小的区域。

5.根据权利要求4所述的一种面向任意方向和形状的文本检测方法，其特征在于：如果截取区域没有包含整个文字区域，则扩大截取区域，使截取区域包含整个文字区域，然后对扩大后的截取区域的长边缩小至设定的768像素，短边按照与长边相同的比例缩小。

6.根据权利要求5所述的一种面向任意方向和形状的文本检测方法，其特征在于：如果缩小后的区域图像不足768*768像素，则使用0值对所述缩小后的区域图像进行填充，使其满足768*768像素。

7.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：在步骤S8中，对文字区域处理的步骤具体包括：扫描词级区域分数图，找到每个文字区域最大的竖向线，连接每个文字区域最大竖向线的中心点，连接后的线作为词级区域的中心线，然后在每个字符区域内在竖向线的中心点作中心线的垂直线，分别将词级区域的第一个字符和最后一个字符的垂直线分别平移至各自文字区域的最左端和最右端，最后连接该词级区域内的垂直线，得到文本检测框。

8.根据权利要求1所述的一种面向任意方向和形状的文本检测方法，其特征在于：还包括弱监督训练阶段，针对只有词级标注框没有字符标注框的原始数据图像，采用弱监督训练阶段进行训练，所述的弱监督训练阶段包括：

9.根据权利要求8所述的一种面向任意方向和形状的文本检测方法，其特征在于：所述的伪字符标注框的形成方法为：

10.根据权利要求9所述的一种面向任意方向和形状的文本检测方法，其特征在于：在步骤S101’中，将裁剪出的词级文字区域短边固定为64像素大小，同时采用裁剪图像和原始数据图像相结合的方式预测词级文字区域中的文字概率分数图。