CN110738207B

CN110738207B - 一种融合文字图像中文字区域边缘信息的文字检测方法

Info

Publication number: CN110738207B
Application number: CN201910855189.5A
Authority: CN
Inventors: 彭博; 高子平; 李天瑞
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-06-19
Anticipated expiration: 2039-09-10
Also published as: CN110738207A

Abstract

本发明公开了一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics，FTES)。该方法将一幅图像划分成文字区域、边缘区域和背景区域。FTES使用FTES‑Net语义分割网络对包含文字的图像多次进行迭代学习，学习完成的FTES‑Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图。从语义分割图中提取文字语义区域分割图，通过连通区域分析和孔洞分析，删除文字语义区域分割图中面积较小的连通区域和孔洞区域，在对文字语义区域分割图进行图像扩张运算和轮廓检测，获取到文字边缘轮廓。与现有技术相比，提出了一种新图像文字检测方法可以检测图像中任意形状的文字区域。

Description

一种融合文字图像中文字区域边缘信息的文字检测方法

技术领域

本发明涉及自然场景图像文字检测技术领域，特别涉及一种融合文字图像中文字区域边缘信息的文字检测方法。

背景技术

图像文字可以反映出一幅图像的含义和内容。场景文本检测对于图像理解和检索具有重要价值。场景文本过程主要分为两部分：文本检测和文本识别。文本检测为定位文字区域在图像中的详细位置，文本识别为识别区域中为何种字符或文字。文本检测是场景文本处理的第一步，对文本识别的准确性至关重要。近年来，由于自然场景文本检测在互联网行业的成功应用，场景文本检测成为自动驾驶，场景理解和产品搜索的研究热点。

自然场景文本检测与传统的OCR不同，场景文本检测面临多张字体，字体大小不一和背景复杂等各种挑战。传统的文本检测方法通常需要结合候选区域生成和过滤，区域合并等一系列处理，这导致需要多个模块来协调工作，运行时间变长和优化困难。随着神经网络和语义分割的发展，大量优秀模型被应用到文本检测的领域。

场景文本检测可以分为两个分支。第一个分支是基于边框回归的方法。CTPN是一种使用Faster r-cnn改进后的文本检测方法，可以检测多个小型文本框然后合成文本区域，但仅可用于检测垂直和水平文本。RRPN在CTPN的基础上将文字区域旋转角度添加到标签信息中，可以检测旋转的四边形文字区域。Textboxes++删除了Textboxes的全连接层，整个网络结构只有卷积和池化操作，可以实现多尺度输入，检测不同大小的文字区域。Seglink使用SSD模型并整合了CTPN小型候选框方法，提出whthin-layer和cross-layer用于检测任意角度的四边形文本区域。EAST通过直接回归四边形文本框顶点在图像中的位置，消除了不必要的中间步骤(获得候选区域和文本分割)，其精度更高、速度更快。CTPN、RRPN、Textboxes++和Seglink等方法都采用回归线性文本坐标点来定位文本区域。然而，对于任意形状的非线性文本区域，这些方法难以获得较好的性能。

文本检测另一个分支是语义分割，这是近年来流行的一种方案。文字/非文字区域被分成不同类别的语义区域。但对于一些文字区域密集的文字图像，通过对文字区域、背景区域进行二分类语义处理会出现文字区域非常靠近、乃至重叠的情况。在这种情况下，文字/非文字区域分割将非常困难，有时甚至不可能执行语义分割。因此，解决文字区域邻近或重叠问题对文字检测非常重要。Mask textspotter是一个基于Mask r-cnn的文本字符实例分割方法，但在一幅图像中文本区域的数量是不确定的，并且难以表示具有不同实例的不同区域。PSENet预测了多个不同大小的分割结果，然后使用小分割语义图扩展与大分割语义图合并，最终产生与真实文本区域相同大小的分割语义图。

为更好地解决文本检测中文本区域的邻近和重叠问题，本发明采用一种融合文本边缘语义方法(Fusing Text Edge Semantics，FTES)，将图像中所有文字区域添加了轮廓框，把一幅图像划分为文本，边缘和背景三个语义区域，将文字区域检测转化为三分类的语义分割问题。首先使用FTES-Net语义分割网络提取语义分割图，然后从语义分割图中提取文字语义区域分割图，通过连通区域分析和孔洞分析，删除文字语义区域分割图中面积较小的连通区域和孔洞区域，在对文字语义区域分割图进行图像扩张运算和轮廓检测，提取文字边缘轮廓实现检测图像中任意形状的文字区域。

发明内容

为解决上述现有技术存在的问题，本发明的目的在于提供一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics)；

本发明的技术方案是：一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics，FTES)，使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习，学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图，从语义分割图中提取文字语义区域分割图，通过连通区域分析和孔洞分析，删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域，在对文字语义区域分割图进行图像扩张运算和轮廓检测，提取文字边缘轮廓实现检测图像中任意形状的文字区域；包含以下主要步骤：

步骤1：数据标注与数据增强；

步骤2：训练FTES-Net语义分割网络；

步骤3：获取文字轮廓；

优选的，所述步骤1包括：

步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集，对原始数据集图像中文字区域进行坐标点标注，通过逐次连接标注的坐标点构成文字区域轮廓框，轮廓框宽度根据文字区域面积动态设置，轮廓框内部区域标注为文字区域，轮廓框外部区域标注为背景区域，重新标注后的数据构成目标数据；

步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换，分别获得模型训练数据集和模型目标数据集；

所述步骤2包括：

步骤2.1模型参数配置：在步骤1.2中获得模型训练数据集的总量为S；模型过程设置N个epochs,即模型迭代训练N次，设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练S次，每次1幅图像参与训练，模型训练使用Adam损失函数作为损失优化函数；

步骤2.2训练FTES-Net网络：将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络，FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图，计算语义分割图与步骤1.2中模型目标数据集中对应标注图像的损失，损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加，以最小化损失函数为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数；

步骤2.3迭代训练：重复步骤2.2，当所有的epochs迭代训练完后保存FTES-Net模型和模型参数信息；

所述步骤3包括：

步骤3.1获取语义分割图：加载步骤2.3保存的FTES-Net模型和模型参数信息，将需要检测的文字图像输入到FTES-Net模型，生成对应的语义分割图；

步骤3.2噪声去除：提取步骤3.1语义分割图中的文字语义区域，通过连通区域分析和孔洞分析，删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域，生成新的文字语义区域分割图；

步骤3.3提取文字轮廓框：对步骤3.2中的文字语义区域分割图进行图像扩张操作，然后通过轮廓检测生成文字轮廓曲线框，对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。

优选的，所述步骤2中步骤2.2多分类交叉熵损失函数为：

其中，l_c为交叉熵损失，N为语义区域类别数量，C为像素总数，X_i为像素类别预测概率值。所述Dice损失函数为：

其中，l_text，l_edge，l_background分别为文字、边缘和背景语义区域的损失，R为真实文字区域，

为FTES-Net预测输出的文字区域。y_t和y_p真实概率和预测概率。

优选的，融合多分类交叉熵损失函数和Dice损失函数后为：

l＝l_c+λl_text+μl_edge+vl_background

λ,μ,ν为权重系数，分别为2，5，1。以最小化损失函数l为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。

优选的，所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10％，所述随机缩放后图像的长和宽为16的整倍数。

相对于现有技术，本发明的有益效果为：

1、本发明的方法将一幅自然图像划分为文字区域、边缘区域和背景区域，通过边缘区域将文字区域和背景区域分割开，避免了直接分割文字区域和背景区域产生区域邻近和区域重叠问题。

2、FTES-Net网络为语义分割网络，可以检测弯曲、垂直和定向等任意形状的文字。

3、本发明提出的FTES文字检测方法可以扩展到PDF文字检测、车牌文字检测、广告牌文字检测等领域，其方法具有较好的泛化能力和鲁棒性。

附图说明

图1是图片文字区域检测工作流程图。

图2是FTES-Net语义分割网络结构图。FTES-Net语义分割网络由三个输入图像(Input image)编码层和预测图像(Predict image)解码层组成，在编码层与解码层路径采用了跨层连接(Cross-layer concatenate)组合成特征融合层。编码层与解码层路径各个模块中通过卷积操作(Convolution operation)提取图像信息,池化操作(Pooloperation)进行特征降维。

图3是FTES方法提出的文字图像标注方法。其中图(a)为标注好的语义分割图，白色为文字区域、黑色为背景区域、灰色为边缘区域。图(b)为文字区域被灰色轮廓框标记过的结果图像。

图4是一幅文字图像的中间过程处理结果图。其中(a)为由FTES-Net语义分割网络生成语义分割图。(b)为去除噪声以后的文字区域语义分割图。(c)为标注出检测轮廓的文字图像。

图5是FTES方法在Total-Text数据集测试图像中随机抽出的三幅测试图像。其中(a)列是由FTES-Net语义分割网络得到的语义分割图。(b)列是由经过去噪、提取文字区域轮廓框得到的文字区域轮廓图。(c)列是标准的文字区域轮廓图。

图6是FTES方法在CTW1500数据集测试图像中随机抽出的二幅测试图像。其中(a)列是由FTES-Net语义分割网络得到的语义分割图。(b)列是由经过去噪、提取文字区域轮廓框得到的文字区域轮廓图。(c)列是标准的文字区域轮廓图。

具体实施方式

下面结合附图和具体实施方式对本发明技术方案做进一步详细描述：

实施步骤如下所示：如图1-6所示，

步骤1、数据集预处理

步骤1.1建立模型数据集:将采集到的文字图像构成原始数据集，对原始数据集图像中文字区域进行坐标点标注，通过逐次连接标注的坐标点构成文字区域轮廓框，轮廓框宽度根据文字区域面积动态设置。轮廓框内部区域为标注为文字区域，轮廓框外部区域标注为背景区域，重新标注后的数据构成目标数据；

步骤1.2图像数据增强(Image data augmentation):对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪(裁剪面积比例不超过原始图片大小10％)、和随机缩放变换(缩放后图像的长和宽为16的整倍数)，分别获得模型训练数据集和模型目标数据集。

步骤2、训练FTES-Net语义分割网络

步骤2.1模型参数配置：在步骤1.2中获得模型训练数据集的总量为1255张；模型过程设置120个epochs，即模型迭代训练120次，设置每一个epoch的batch-size值为1,即在每次迭代训练过程中需要进行训练120次，每次1幅图像参与训练，模型训练使用Adam(学习率为10^-4)损失函数作为损失优化函数；

步骤2.2训练FTES-Net网络：将步骤1.2中模型训练数据集逐次输入给FTES-Net语义分割网络，FTES-Net网络经过前向传播生成包含文字语义区域、边缘语义区域和背景语义区域的语义分割图，计算语义分割图与步骤1.2中模型目标数据集中的对应标注图像的损失，损失函数采用多分类交叉熵损失函数和Dice损失函数按重要性进行权重分配后相加。多分类交叉熵损失函数为：

其中，l_c为交叉熵损失，N为语义区域类别数量，C为像素总数，X_i为像素类别预测概率值。

Dice损失函数为：

融合多分类交叉熵损失函数和Dice损失函数后为：

l＝l_c+λl_text+μl_edge+vl_background

λ,μ,ν为权重系数，分别为2，5，1，以最小化损失函数l为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。

步骤3、获取文字轮廓

步骤3.2噪声去除：提取步骤3.1语义分割图中的文字语义区域，通过连通区域分析和孔洞分析，删除文字语义区域中面积小于300的连通区域和面积小于150的孔洞区域，生成新的文字语义区域分割图。

步骤3.3提取文字轮廓框：对步骤3.2中的文字语义区域分割图用3*3的卷积核(全部值为1)进行图像扩张操作，然后通过轮廓检测生成文字轮廓曲线框，对文字轮廓曲线框进行平滑处理生成最终文字轮廓框。

为验证本发明的有效性，本发明在两个不同的数据集上进行了测试评价，评价指标为查准率P(Precision)、查全率R(Recall)、F1-score，三个评价指标的取值范围为[0,1]，计算公式如公式(6-8)。

其中TP、FN、FP分别对应为正确检测的文字区域、错误检测为背景的文字区域、错误检测为文字的区域。对于使用的两个数据集的详细信息如下表1。

表1两个文字图像数据集详细信息

A.Total-Text数据集

在Total-Text数据集上，本发明方法与Seglink、EAST、Textboxes、CENet、Masktextspotter、TextNet、Textsnake、PSENet八种方法做了测试比较，其实验的结果如表2所示：

表2不同方法下Total-Text数据集300幅测试图像的的P、R、F1-Score平均值PF1-score

表2是三个评价指标在Total-Text数据集300张测试集图片上的平均值，可以看出FTES相比于Seglink、EAST、Textboxes、CENet、Mask textspotter、TextNet获得了更高的查准率P和查全率R，在综合指标F1-score上取得了最好的结果。

B、CTW1500数据集

在CTW1500数据集上，本发明方法与Seglink、CTPN、EAST、DMPNet、CTD、

Textsnake、PSENet七种方法做了测试比较，其实验的结果如表3所示：

表3不同方法下CTW1500数据集500幅测试图像的P、R、F1-Score平均值PRF1-score

表3是三个评价指标在CTW1500数据集500张测试集图片上的平均值，FTES相比于Seglink、CTPN获得了更高的查准率P,相比于Seglink、CTPN、EAST、DMPNet、CTD获得了更高的查全率R，相比于Seglink、CTPN、EAST、DMPNet在综合指标F1-score上取得了最好的结果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何不经过创造性劳动想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书所限定的保护范围为准。

Claims

1.一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text EdgeSemantics，FTES)，其特征在于：使用FTES-Net语义分割网络对包含文字的图像多次进行迭代学习，学习完成的FTES-Net语义分割网络把一幅输入图像映射到包含文字语义区域、边缘语义区域和背景语义区域的语义分割图，从语义分割图中提取文字语义区域分割图，通过连通区域分析和孔洞分析，删除文字语义区域中面积小于正常文字区域面积的连通区域和孔洞区域，生成新的文字语义区域分割图，提取文字边缘轮廓实现检测图像中任意形状的文字区域；包含以下主要步骤：

步骤1：数据标注与数据增强；

步骤1包括：

步骤1.1建立模型数据集：将采集到的文字图像构成原始数据集，对原始数据集图像中文字区域进行坐标点标注，通过逐次连接标注的坐标点构成文字区域轮廓框，轮廓框宽度根据文字区域面积动态设置，轮廓框内部区域标注为文字区域，轮廓框外部区域标注为背景区域，重新标注后的数据构成目标数据；

步骤1.2图像数据增强(Image data augmentation)：对步骤1.1中原始数据集和目标数据集进行相同的随机翻转变换、随机裁剪、和随机缩放变换，分别获得模型训练数据集和模型目标数据集；

步骤2：训练FTES-Net语义分割网络；

步骤2包括：

步骤3：获取文字轮廓；

步骤3包括：

2.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics，FTES)，其特征在于：所述步骤2中步骤2.2多分类交叉熵损失函数为：

其中，l_c为交叉熵损失，N为语义区域类别数量，C为像素总数，X_i为像素类别预测概率值，所述Dice损失函数为：

为FTES-Net预测输出的文字区域，y_t和y_p真实概率和预测概率。

3.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics，FTES)，其特征在于：融合多分类交叉熵损失函数和Dice损失函数后为：

λ,μ,ν为权重系数，分别为2，5，1，以最小化损失函数

为目的采用梯度下降方法进行反向传播更新FTES-Net网络参数。

4.根据权利里要求1所述的一种融合文字图像中文字区域边缘信息的文字检测方法(Fusing Text Edge Semantics，FTES)，其特征在于：所述步骤1.2中原始数据集和目标数据集随机裁剪的裁剪面积比例不超过原始图片大小10％，所述随机缩放后图像的长和宽为16的整倍数。