CN114972947B

CN114972947B - 一种基于模糊语义建模的深度场景文本检测方法和装置

Info

Publication number: CN114972947B
Application number: CN202210882622.6A
Authority: CN
Inventors: 王芳芳; 徐晓刚; 李萧缘; 王军; 曹卫强
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-07-26
Filing date: 2022-07-26
Publication date: 2022-12-06
Anticipated expiration: 2042-07-26
Also published as: CN114972947A

Abstract

本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置，该方法包括：步骤一，获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集；步骤二，对数据集中的图像进行特征学习与全局特征融合，得到融合的全局特征图；步骤三，对融合的全局特征图进行像素级别语义分类，同时通过数值回归预测像素级别的语义可靠性，在全监督下进行多分支的联合优化，完成端到端联合学习框架的构建；步骤四，使用端到端联合学习框架，预测图像中的模糊语义信息，并利用可靠性分析及融合获得文本属性图；步骤五，对文本属性图进行二值化和联通域提取，得到最终的文本检测结果。本发明实现方法简便，灵活鲁棒，适用范围广。

Description

一种基于模糊语义建模的深度场景文本检测方法和装置

技术领域

本发明属于计算机视觉领域，涉及一种基于模糊语义建模的深度场景文本检测方法和装置。

背景技术

场景文本检测被定义为如下问题：在自然场景图像中发现多方向、多语种、弯曲或不规则形态的文本区域位置。由于统计建模的有效性，目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架，输入一幅图像，输出检测的文本区域。

近年来，在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。计算机视觉任务主要有两个关键点：第一点是如何自底向上地挖掘文本像素级别的语义信息从而能够适应多种多样的文本形状；第二点是如何建模文本区域边缘的语义模糊性从而解决由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种基于模糊语义建模的深度场景文本检测方法和装置，针对上述第一点，本发明认为利用语义分割框架，通过特征提取网络和特征金字塔网络进行全局特征融合以及端到端特征学习能够有效挖掘像素级别语义信息；针对第二点，本发明认为文本实例分界线区域具有独特的语义特性，同时挖掘文本及实例分界线两种语义信息并进行语义可靠性分析能够更精准地发现和区分不同文本目标的边界，具体的技术方案如下：

一种基于模糊语义建模的深度场景文本检测方法，包括以下步骤：

步骤一，获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集；

步骤二，利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合，得到融合的全局特征图；

步骤三，对融合的全局特征图进行像素级别语义分类，同时通过数值回归预测像素级别的语义可靠性，在全监督下进行多分支的联合优化，完成端到端联合学习框架的构建；

步骤四，使用端到端联合学习框架，预测图像中的模糊语义信息，并利用可靠性分析及融合获得文本属性图；

步骤五，对获得的文本属性图进行二值化和联通域提取，得到最终的文本检测结果。

进一步地，所述步骤二具体包括以下子步骤：

（2.1）利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征；

（2.2）利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合，得到融合的全局特征图。

进一步地，所述步骤三具体包括以下子步骤：

（3.1）基于融合的全局特征图，建立4个结构一致的预测分支，每个预测分支包含三层卷积操作，对所述全局特征图上每个像素位置分别预测其文本语义类别得分

、实例分界线语义类别得分

、文本可靠性值

以及实例分界线可靠性值

；

（3.2）对由所述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化，从而建立端到端联合学习框架，框架总体损失函数为：

+

+

,

其中

与

为smooth L1损失函数，

与

为归一化焦点损失函数。

进一步地，所述步骤四具体为：

基于由步骤一到步骤三建立的端到端联合学习框架，输入待预测图像，通过最小化损失函数学习得到文本分割图T、文本可靠性图

、实例分界线分割图S、实例分界线可靠性图

，利用上述四张输出图进行可靠性分析并融合为最终的文本属性图M：

其中

为平衡分支区间的加权系数。

进一步地，所述步骤五具体为：

对步骤四输出的文本属性图进行轮廓发现即二值化和联通域提取，得到文本区域的坐标表示：

其中，

为二值化函数，

为联通与提取函数，其中每一个文本实例均用点集

表示，

和

分别表示一个文本区域的第m个坐标的横、纵坐标，N表示坐标点个数。

进一步地，利用所述文本区域的坐标，通过文本区域扩张相交及截断距离函数的方式生成文本真值图、实例分界线真值图、文本可靠性真值图及实例分界线可靠性真值图；

其中，所述文本真值图具体为：利用文本区域坐标的真值数据进行二值化填充，文本区域内部填充为1，背景为0，作为文本区域的真值图

；

所述实例分界线真值图具体为：文本轮廓根据自身的尺度，以行高的1/5作为扩张参数进行适应性扩张，扩张之后的相近文本实例发生重叠，重叠区域定义为实例分界线区域的真值图

；

所述文本可靠性真值图和实例分界线可靠性真值图具体为：针对文本区域及实例分界线区域的边缘通过截断函数计算像素位置的语义可靠性，获得文本和实例分界线的可靠性真值图

以及

，截断函数为：

其中

度量像素位置

与其距离最近的语义边界

之间的欧氏距离，

是像素位置

处的二值化标签，

是截断阈值，同时也是归一化系数，

的绝对值代表位置

处像素的可靠性，而正负号则用来区分语义的倾向性。

一种基于模糊语义建模的深度场景文本检测装置，包括一个或多个处理器，用于实现所述的基于模糊语义建模的深度场景文本检测方法。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现所述的基于模糊语义建模的深度场景文本检测方法。

相比于现有的场景文本检测方法，本发明具有以下有益效果：

首先，本发明的场景文本检测方法从冗余去除的角度解决自底向上的任意形态场景文本检测方法中由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题，在自然图像中发现并探索文本和实例分界线这两种模糊语义；

其次，本发明提出了提出对模糊语义的边界进行可靠性建模并通过可靠性分析来解决语义边界上的竞争问题，判定最终的语义属性，从而获得清晰完整的实例边界，提升了场景文本检测的效果；

最后，本发明的场景文本检测方法作为一个简单直接的基于语义分割的轻量级框架，以联通域提取的方式一次性获得最终检测结果，不需要任何迭代式或其他复杂的后处理步骤，其效果超过了很多基于分割的多阶段的方法；

且本发明在场景理解、自动驾驶等场景中，具有良好的应用价值，例如，在自动驾驶任务中，场景中的文本包含大量帮助理解场景和辅助驾驶的信息，准确检测文本所在位置是利用场景文本信息的基础，本发明的场景文本检测方法能够快速准确地定位图像中的文本区域，为后续利用分析文本信息提供基础。

附图说明

图1为本发明一种基于模糊语义建模的深度场景文本检测方法的流程示意图；

图2a至图2c为本发明实施例中的原始图像；

图3为本发明的学习网络的框架图；

图4为本发明实施例中的语义分割框架对于自然场景图像中随机形态文本的检测效果图；

图5为本发明实施例的一种基于模糊语义建模的深度场景文本检测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

在场景文本检测中，文本的几何属性多变且语义边界模糊，因此本发明基于卷积神经网络进行自底向上的像素级别文本区域发现，并建模文本及实例分界线的语义信息和可靠性，最后通过有效的训练策略来进行网络优化，具体提出一种基于模糊语义建模的深度场景文本检测方法和装置，在自然场景图像当中挖掘两种相互竞争的模糊边界语义类别，即文本和实例分界线，并通过像素级别的多标签分类和模糊语义的可靠性分析，从去除冗余的角度进行任意形状的场景文本目标检测；本发明使用一阶段深度学习分割框架，利用跨图像像素级别的焦点损失函数进行网络优化，其实现方法简便，灵活鲁棒，适用范围广。

更加详细的，如图1所示，所述的一种基于模糊语义建模的深度场景文本检测方法，包括以下步骤：

步骤一，获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集。具体的，本发明在三个具有真值标注的数据集上实施，分别为：

SCUT-CTW1500数据集：该数据集包含1000张训练图像，500张测试图像；

TotalText数据集：该数据集包含1255张训练图像，300张测试图像；

ICDAR-ArT数据集：该数据集包含5603张训练图像，4563张测试图像。

步骤二，利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合，得到融合的全局特征图。

该步骤具体实现方法包括：

步骤三，对融合的全局特征图进行像素级别语义分类，同时通过数值回归预测像素级别的语义可靠性，在全监督下进行多分支的联合优化，完成端到端联合学习框架的构建。

该步骤具体实现方法包括：

、实例分界线语义类别得分

、文本可靠性值

以及实例分界线可靠性值

；

（3.2）对上述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化，从而建立端到端联合学习框架，框架总体损失函数为：

+

+

,

其中

与

为smooth L1损失函数，

与

为归一化焦点损失函数，以正样本点处的分割损失函数为例：

其中

为当前图像中所有样本像素点的总数，

为当前处理过所有图像当中正样本点的训练权重动态均值，

为当前位置

处的可靠性值，

为当前位置预测出的概率值，

为当前图像所有正样本点的数量，权重

。

步骤四，使用端到端联合学习框架，预测图像中的模糊语义信息，并利用可靠性分析及融合获得文本属性图。

该步骤具体实现方法包括：

、实例分界线分割图S、实例分界线可靠性图

其中

为平衡分支区间的加权系数。

该步骤具体实现方法包括：

其中，

为二值化函数，

为联通与提取函数，其中每一个文本实例均用点集

表示，

和

最后，利用文本区域的坐标信息，通过文本区域扩张相交及截断距离函数等方式生成文本、实例分界线、文本可靠性及实例分界线可靠性四种真值图，具体如下：

利用文本区域坐标的真值数据进行二值化填充，文本区域内部填充为1，背景为0，作为文本区域的真值图

；

文本轮廓根据自身的尺度，以行高的1/5作为扩张参数进行适应性扩张，扩张之后的相近文本实例发生重叠，重叠区域定义为实例分界线区域的真值图

；

针对文本区域及实例分界线区域的边缘通过截断函数计算像素位置的语义可靠性，获得文本和实例分界线的可靠性真值图

以及

，截断函数为：

其中

度量像素位置

与其距离最近的语义边界

之间的欧氏距离，

是像素位置

处的二值化标签，

是截断阈值，同时也是归一化系数，本发明方法实验中

=10。

的绝对值代表位置

处像素的可靠性，而正负号则用来区分语义的倾向性。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施，分别为：

SCUT-CTW1500数据集：该数据集包含1000张训练图像，500张测试图像。

TotalText数据集：该数据集包含1255张训练图像，300张测试图像。

本实施例在每个数据集上分别进行实验，数据集中图像举例如图2a至图2c所示。

文本检测的主要流程如下：

1）通过全卷积网络及特征金字塔结构网络提取图像的多尺度特征图；

2）利用卷积操作和拼接操作对每个尺度特征图进行抽取和融合，得到全局特征图；

3）在全局特征图上构建四个预测分支，分别预测特征图上每个样本点的文本语义分类得分、实例分界线语义分类得分、文本语义可靠性、实例分界线语义可靠性；

4）联合优化语义分类和可靠性回归分支；

5）使用所述学习框架预测语义及可靠性信息，得到文本属性图；

6）对文本属性图进行二值化和联通域提取得到最终文本检测结果，整体学习网络框架如图3所示，对于自然场景图像中随机形态文本的检测效果图如图4所示。

为综合比较本方法的有效性，我们比较了其他较先进方法，并对本方法中提出的实例分界线分割、可靠性分析以及归一化焦点损失函数三项操作进行了有效性分析。本实施例检测结果的准确率(precision)、召回率(recall)及综合性能（F-measure）见表1至表3所示，其中F-measure表示准确率与召回率之间的平衡综合性能：

。表中数据显示了本发明在precision，recall以及F-measure三个指标上的表现，与其他基于语义分割框架的方法和其他基于回归框架的方法相比，本方法在整体上有了进一步的提升。

表1为本实施例在SCUT-CTW1500数据集上各评价指标：

表2为本实施例在TotalText数据集上各评价指标：

表3为本实施例在ICDAR-ArT数据集上各评价指标：

表4为本实施例提出的实例分界线分割、可靠性分析及归一化焦点损失函数的有效性分析：

通过以上技术方案，本发明实施基于深度学习技术提供了一种基于模糊语义建模的深度场景文本检测方法。本发明可以在各种真实图像数据上挖掘文本及实例分界线语义信息及其语义可靠性，从而得到准确的检测结果。

与前述基于模糊语义建模的深度场景文本检测方法的实施例相对应，本发明还提供了一种基于模糊语义建模的深度场景文本检测装置的实施例。

参见图5，本发明实施例提供的一种基于模糊语义建模的深度场景文本检测装置，包括一个或多个处理器，用于实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。

本发明基于模糊语义建模的深度场景文本检测装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明基于模糊语义建模的深度场景文本检测装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。