CN112966691B

CN112966691B - 基于语义分割的多尺度文本检测方法、装置及电子设备

Info

Publication number: CN112966691B
Application number: CN202110399687.0A
Authority: CN
Inventors: 张盛峰; 付川
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-14
Filing date: 2021-04-14
Publication date: 2022-09-16
Anticipated expiration: 2041-04-14
Also published as: CN112966691A

Abstract

本发明涉及深度学习以及计算机视觉领域，具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备；所述方法包括采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置；本发明通过双标签进行监督学习，充分利用了高级语义特征，降低了潜在的语义特征学习。

Description

基于语义分割的多尺度文本检测方法、装置及电子设备

技术领域

本发明涉及深度学习以及计算机视觉领域，具体涉及一种基于语义分割的多尺度文本检测方法、装置及电子设备。

背景技术

随着计算设备的计算力的增强，深度学习算法不断出现在各类应用；特别在计算机视觉方面，由于便携设备的计算能力不断增强，拥有摄像头的移动设备也越来越普及，由此产生了大量的图像。在待处理的图像中不可避免地会涉及到其他不相关的背景，这些背景对后续的字符内容处理会带来很大的干扰。

在自然场景下，利用手机等摄像设备对于字符内容进行拍摄，不可能避免地会受到自然场景下的许多因素干扰，这些干扰会影响后续的进行字符检测处理结果的准确度，因此需要一种具有适合较复杂条件下的字符定位技术帮助准确定位到字符位置，以达到减少自然条件下所带外界噪声对于文本内容分析的干扰目的。而在自然场景下对于字符定位技术方面的研究依旧较少，急需进一步探索与研究。

在计算机视觉领域，通常检测字符使用的是形态学操作方法，利用计算机视觉中的图像形态学操作，包括膨胀、腐蚀等基本操作，即可实现简单场景的文字检测，例如检测书籍拍照图像中的文字区域位置。然而这些方式有着无法避免的缺点，传统的检测方法一般都是扫描整张图像，这样就会引入许多自然场景的干扰像素，例如存在许多类似字符的符号或者物体，导致加大了人工特征寻找目标的难度。除此之外，传统检测的方法大多都需要人工设置阈值来调整检测灵敏度，阈值过高会导致检测过多干扰因素从而无法进行人工特征匹配，而阈值过低会导致无法检测到所需字符。

在公开号为CN107563377A的中国专利中披露了通过传统边缘检测和文字区域的证件关键区域检测定位方法检测字符。但该方法是针对证件等简单应用场景字符检测，文字区域较为固定，抗干扰能力弱，可扩展性性弱。

而基于深度学习的字符检测算法在过去几年里受到了较为重视的研究，随着人工智能的发展以及一些基于深度卷积神经网络(Convolutional Neural Networks)网络的字符算法的发展，例如，经典字符检测网络CTPN。基于深度学习的检测方法已经取得了较好的效果，并且随着深度卷积神经网络架构性能的提升，其检测性能也会越来越好；然而，基于深度学习的字符检测网络输出图像字符区域存在边界定位不够准确，并且字符尺度变化较大造成的漏检，背景干扰等在内的许多问题。

发明内容

基于现有技术存在的问题，本发明提出了一种基于语义分割的多尺度文本检测方法、装置及电子设备，设计了基于语义分割的字符检测网络，通过利用图像分割任务，将图像分割任务中丰富的语义信息最大限度的融合进分割的过程，这能够得到更加准确的字符区域边界，同时使用图像增强方法提高模型的泛化能力。除此之外，还利用多尺度的注意力机制以及对尺度不敏感的损失函数缓解字符的尺度变化剧烈导致字符漏检的问题。

在本发明的第一方面，本发明提供了一种基于语义分割的多尺度文本检测方法，所述方法包括：

采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；

将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；

将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；

将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。

进一步的，所述训练字符图像中包括制作出文本中心区域标签和文本边界区域标签，即按照字符图像中各个文本长宽比例确定出自适应大小的文本中心区域标注框，并作为文本中心区域标签；按照字符图像中各个文本长宽比确定出自适应大小的收缩边界，将收缩边界与字符图像原边界所形成的中间区域标注框作为文本边界区域标签。

其中，所述语义分割的字符检测网络包括将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出多尺度的语义信息特征和各层细节特征；将提取到的语义信息特征进行图像分割，并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征；将提取到的各层细节特征进行图像分割，并由文本中心区域标签进行监督学习得到文本中心区域特征；将图像分割后的文本边界区域特征和文本中心区域特征进行融合。

进一步的，所述将训练字符图像输入到语义分割的字符检测网络中时，利用迁移学习的方式，采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练，再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练。

进一步的，所述提取出语义信息特征和各层细节特征的过程包括在语义分割的字符检测网络的图像分割通道中，使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小；在主干网络中的第三层卷积层采用混合膨胀卷积操作，在主干网络的第四层卷积层进行注意力膨胀卷积操作；采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重，通过该可学习权重学习出各通道的重要程度，并按照该重要程度去提升或抑制相应通道的特征，通过主干网络各层卷积层的卷积操作，输出各层细节特征；在主干网络的输出层中进行像素级别和类级别的分类，确定出语义特征信息。

进一步的，所述像素级别的分类产生的分割损失采用Dice损失函数，所述类级别的分类产生的分割损失采用二元交叉熵。

进一步的，所述将图像分割后的文本边界区域特征和文本中心区域特征进行融合所产生的融合损失采用双标签融合损失表示，具体表示为：

L_S＝L_fusion(f(F_seg,F_shape|X；W))

其中，L_S表示双标签融合损失；F_seg为文本边界区域特征，F_region为文本中心区域特征，f(*|W)表示特征图融合操作，X表示标签图像，即带有文本边界区域标签或/和文本中心区域标签的字符图像；W表示其中卷积操作的参数；L_fusion(F)表示融合模块操作，融合之后的输出再采用的二值化操作，表述为：

其中，P_i,j为特征图中的(i j)坐标处的像素的字符概率值；0，1分别表示二值化之后的像素值大小，t为图像二值化的阈值。

进一步的，将所述分割融合后的字符图像进行后处理包括提取出字符图像的连通域轮廓，并确定该轮廓的外接多边形；利用多边形裁剪算法，对外接多边形的区域面积进行膨胀；将膨胀后的区域面积与膨胀后的外接多边形的周长的比值作为偏移量，利用所述偏移量计算出字符区域，即字符的坐标位置。

在本发明的第二方面，本发明还提供了一种基于语义分割的多尺度文本检测装置，所述装置包括：

图像采集单元，用于采集字符图像，并对所述字符图像进行预处理；

图像处理单元，用于将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；

图像融合单元，用于将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；

图像检测单元，用于将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。

在本发明的第三方面，本发明还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面所述的一种基于语义分割的多尺度文本检测方法。

由于采用以上技术方案，本发明具有以下优点：

1、本发明利用图像分割任务中所得到的语义信息去指导模型预测图像的分割边界，通过收缩原样本区域缓解由于网络分割的带来的粘连问题。本发明的网络充分利用图像分割任务中丰富的语义特征，通过使用一系列反卷积或者上采样将主干网络提取的特征图像还原到原图1/4大小，最终得到分割图像。将右端多尺度融合得到的边界图像输出与中心分割图像输出进行融合操作，充分利用了高级语义特征，降低了潜在的语义特征学习。

2、本发明提出一种带有注意力的多尺度特征图提取模块(Feature FusionModule)，此模块通过输入的方式和利用主干网络中输出的不同尺度特征图融合，将多尺度特征信息融合为分割图像。该模块主要将主干网络的最后两层卷积层中替换成加入了混合膨胀卷积(Hybrid Dilated Convolution)的操作，在卷积层中设置一组四个不同膨胀率(Dilation Rate)的卷积核依次进行卷积，能够减少膨胀卷积产生的空洞并增大感受野。同时对于每一分支的膨胀率加入注意力机制赋予各通道的一个可学习权重，使得模型主动学习特征图各通道的重要程度，并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。最后，优化损失函数，加入了相似度比较损失函数和边界优化函数，该损失函数考虑像素的领域关系，引入新的有用的信息，缓解了网络分割边界定位不准确问题。

3、本发明提出一种正对不同长短的文本标签制作方法，此方法针对不同长宽比的矩形文本设置了不同的收缩比例，这样弥补了由于感受野不足导致后处理时带来的文本字符前后字符丢失的缺点。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供下附图进行说明：

图1是本发明的一种实施例中基于语义分割的多尺度文本检测方法架构图；

图2是本发明的优选实施例中基于语义分割的多尺度文本检测方法架构图；

图3是本发明实施例的一种基于语义分割的多尺度文本检测方法流程图；

图4是本发明的融合多尺度语义分割的图像字符检测网络结构示意图；

图5是本发明的多尺度的空洞卷积注意力模块的结构示意图；

图6是本发明实施例中融合语义信息指导的图像字符检测网络后处理流程示意图；

图7是本发明实施例中一种基于语义分割的多尺度文本检测装置结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

图1展示了本发明的一种实施例中基于语义分割的场景文本字符检测方法架构图，如图1所示，整个检测方法包括将字符图像以及对应的文本边界区域标签和文本中心区域标签输入到语义分割网络中，所述网络进行文字定位后输出字符图像的字符区域。

图2展示了本发明的优选实施例中基于语义分割的场景文本字符检测方法架构图，如图2所示，整个检测方法包括将字符图像以及对应的文本边界区域标签和文本中心区域标签输入到语义分割网络中，所述语义分割网络分为主干网络、两个图像分割模块以及语义融合模块；该主干网络是一种特征提取模块，用于提取出字符图像的语义信息特征和各层细节特征；然后分别通过图像分割模块进行监督学习，将监督学习后的结果通过语义融合模块输出得到最终的分割图像，继续采用后处理模块得到字符图像的最终输出。

图3展示了本发明实施例的一种基于语义分割的多尺度文本检测方法流程图，如图3所示，所述方法包括：

101、采集字符图像，并对所述字符图像进行预处理；所述字符图像包括训练字符图像和待测字符图像；

首先，采集包含有字符的图像，这里的图像可以是训练符号图像也可以是待测字符图像，还可以是验证字符图像。

在一些实施例中，可以对训练符号图像制作出对应的标签，本实施例提供了一种新型的文本标签制作方法，即按照原始文本长宽比例的不同，制作出不同比例大小的文本中心区域标签。

具体的，本发明的文本标签制作方法主要针对非弯曲文本，其主要方法是通过收缩原始文本框的各边的长度，对收缩后的各边围成的新文本框作为文本中心区域标签。

在一些实施例中，所述训练字符图像可以是待测字符图像的相关领域的合成数据，举个例子，假设所述待测字符图像的领域为A类，所述训练字符图像的领域可以B类或者C类等等，也就是说本发明可以利用迁移学习的方式，采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练，再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练。

102、将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；

所述语义分割的字符检测网络包括将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出语义信息特征和各层细节特征；将提取到的语义信息特征进行图像分割，并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征；将提取到的各层细节特征进行图像分割，并由文本中心区域标签进行监督学习得到文本中心区域特征；将图像分割后的文本边界区域特征和文本中心区域特征进行融合。

在语义分割的字符检测网络的图像分割通道中，使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小；在主干网络中的第三层卷积层采用混合膨胀卷积操作，在主干网络的第四层卷积层进行注意力膨胀卷积操作；采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重，通过该可学习权重学习出各通道的重要程度，并按照该重要程度去提升或抑制相应通道的特征，通过主干网络各层卷积层的卷积操作，输出各层细节特征；在主干网络的输出层中进行像素级别分类和类级别分类，确定出语义特征信息。

具体的，本发明首先构建一个基于语义分割的字符检测网络，所述检测网络中的特征提取模块中主要提出了一种空洞卷积注意力模块，该模块镶嵌在特征提取模块中。

在上述检测网络下，继续构建一个融合图像分割语义信息的字符检测神经网络，将图像输入网络中去检测自然场景下的字符区域。

在本发明实施例中，所述基于语义分割的字符检测网络具体包括特征提取模块、分割模块以及语义融合模块，这些模块刚好对应特征提取阶段、图像分割阶段、以及语义融合阶段。

其中特征提取模块为字符检测网络的主干网络，使用去掉全连接层和最后的池化层的ResNet18网络。

图像分割模块使用特征提取模块提取到的语义特征进行图像分割任务，由图像分割标签进行监督，该图像分割模块使用特征提取模块提取到的各层细节特征进行分割任务，由图像中心区域标签进行监督。

语义融合模块则使用图像分割模块提取到的边界特征和中心区域语义特征融合，然后得到最终的分割图像。

在一些优选实施例中，如图4所示，网络的左半部分由ResNet18去掉全连接层和最后一层池化层而来，共有4个残差块。右半部分由4个反卷积计算块构成。本发明采用Tensorflow框架构建此字符检测网络，网络中图像分割通道通过使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原图大小的1/4。

如图5所示，在特征提取模块中，将主干网络的第三层卷积层中替换成混合膨胀卷积(Hybrid Dilated Convolution)操作，膨胀率设为3。在第四层卷积层则使用了本发明提出的注意力膨胀卷积模块，该层中设置一组四个不同膨胀率(Dilation Rate)的卷积核依次进行卷积，不仅能够增大感受野，同时对于每一分支的膨胀率都有注意力机制模块赋予各通道的一个可学习权重，使得模型主动学习特征图各通道的重要程度，并能够按照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。最后，优化损失函数，不仅考虑类级别的分割损失和像素级别的分割损失，还加入了相似度比较损失函数，该损失函数考虑像素的领域关系，引入新的有用的信息，缓解了网络分割边界定位不准确问题。

定义基于语义分割的检测网络的损失函数，融合图像分割模块提取到文本边界区域特征和文本中心区域特征，本发明定义一种新的损失函数训练此网络。为了使网络训练更加充分，采用一种混合的损失函数使得标签可以更好的监督各层网络特征图。

首先，对于整个分割过程，分割过程主要产生了分类为文本边界区域的损失和分类为文本中心区域的损失；对于分类为文本中心区域的损失，本实施例对分割结果采用Dice Loss损失函数，Dice Loss直接把分割效果评估指标作为损失去监督网络，因此直接且有效。当然为了处理一些特殊情况，本发明可以采用平滑的Dice Loss，这样不仅避免了标签和分割图同时为零的情况，并且还可以减少过拟合。该损失函数是比较分割图和标签之间的面积比，在计算交并比时还忽略了大量背景像素，因此在一定程度上解决了正负样本不均衡的问题，并且以面积的方式计算损失相对于逐像素计算收敛速度更快。其损失函数表示为：

其中，P_center(i)表示文本中心区域分割预测第i个像素值，G_center(i)表示文本中心区域标签第i个像素的值。L_center表示文本中心损失函数，这样可以将较低置信度的像素抑制，因此可以更加正确的对文本定位。

对于分类为文本边界区域的损失，本发明考虑二元交叉熵损失和图像相似性损失来衡量，其中二元交叉熵(BCE)损失从类级别来衡量分割结果，表示为：

其中，size(Y)表示像素标签数量，Y_i表示为第i个像素标签；P_i表示预测图像具备第i个像素标签。

考虑到二元交叉熵(BCE)损失和Dice loss分别从单个像素级别和类级别来衡量分割结果，但这两种损失函数并没有考虑相邻像素之间的关联，因此本发明还需利用传统的图像相似性衡量标准来衡量分割的效果，其损失函数表示如下：

其中μ_x、μ_y和σ_x、σ_y分别表示标签图像X和预测图像Y的均值和标准差。C1和C2是两个很小的数，是避免均值和方差为零的情况，这两个数值可以人为设定。

受传统边缘检测算子(如Sobel等)的启发，在分割阶段，为了对分割结果更加细化，减少图像分割带来的边缘粘连问题，考虑使用传统的边缘检测算子，加大对边缘的惩罚，该方式在一定程度上缓解了这种现象。其损失函数表示如下：

式中，f表示输入图像，K_laplace表示Laplace算子，abs表示取绝对值；conv表示卷积运算；

表示边缘计算后的输入图像；σ表示ReLu激活函数，当网络输入是预测分割图时，

等价于预测图像P；当网络输入为标签分割图时，

等价于标签图像Y；然后利用交叉熵计算图像标签的边缘梯度和预测分割的图像边缘标签，通过优化分割边界在一定程度上可以避免分割网络边界粘连的情况发生。

最终将图像分割的中心区域与图像边界进行融合并进行最终损失函数，相加进行计算，最终的分割损失函数表示如下：

L＝αL_center+(α+ρ)L_BCE+βL_ssim

其中，α表示第一分割融合参数；β表示第二分割融合参数；ρ表示第三分割融合参数；这几个参数可以人为定义，也可以通过机器学习进行训练学习确定。通过上述几种的损失函数相加作为最终损失函数，使网络能够更好地融合图像分割任务中丰富语义信息，并且在训练过程中模型能够更准确的学习文本以及文本的形状特性。

103、将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；

在上述过程中，确定了字符图像的文本边界区域标签和文本中心区域标签，那么就提取出字符图像的文本边界区域和文本中心区域，主干网络即特征提取模块中提取出了不同尺度的特征图，而分割网络即图像分割图像对所述不同尺度的特征图进行分割；本实施例采用的语义融合模块是一种多尺度特征融合模块(Feature Fusion Module)，多尺度特征模块接收主干网络各层输出的不同尺度特征图。此模块能够将主干网络中输出的不同尺度特征图和分割网络中的特征图进行融合，将多尺度特征信息融合为语义分割图像。

其中，本发明可以将不同尺度特征图进行1×1卷积降维操作以及上采样操作，再将5个不同层级得到的特征图进行维度拼接，得到两个原图尺寸大小的1/4且通道数为1的输出特征图。最后再通过1×1卷积降维操作得到图像字符检测任务的融合之后的输出，通过文本中心区域标签进行监督。

在本发明实施例中，在语义融合模块中定义了新的模型损失函数来融合两种输出特征信息，并在双标签指导下进行训练，其新定义的损失函数表示为：

L_S＝L_fusion(f(F_seg,F_shape|X；W))

其中，B_i,j表示融合后的特征图中的(i,j)坐标处的像素值，该像素值为0或者1；P_i,j为特征图中的(i,j)坐标处的像素的字符概率值；0，1分别表示二值化之后的像素值大小，t为图像二值化的阈值。

本网络使用双标签进行监督训练，主干网络采用ResNet18网络，最终输出的分割图像由低级语义特征和高级语义特征融合之后的二值化操作得到。

可以理解的是，本发明所采用的语义分割的字符检测网络至少包括训练过程和检测过程，其中训练过程可以采用迁移学习的方式进行训练，具体的，可以先利用相关领域的人工合成数据对网络进行预训练，再使用开源的公开数据对预训练的网络进行微调。在合成数据集上的预训练时，学习率设为0.001，图像大小调整为640*640，迭代400轮，batch_size设为8，优化器使用Adam。然后在ICDAR2017公开文字检测数据者集上微调迭代800轮，在该数据集上采用了旋转、平移、随机裁剪等在内的数据增强方式，并且使用了难样本挖掘算法(OHEM)，以使每一个batch_size的正负样本比例保持在1：3，其他参数与预训练时设为一致；训练完成后，保存训练完成的字符检测网络，并且将网络部署到服务器的GPU模块上，调整网络状态至端口监听状态。当客户端通过监听端口发送输入图像，服务器上部署的边缘检测网络自动进行推理预测，得到输入图像对应的字符图像，且通过相应端口发送给客户端，在检测过程中，即获取预测场景下的字符区域图像；需要调用服务器端的检测网络，输入预处理之后的输入图像，并返回最终的字符图像。

104、将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。

在得到最终的分割文本中心区域之后，本发明直接将文本中心进行膨胀得到完整的文本区域。然后使用opencv中的findContours()可以直接获取连通域的轮廓，然后使用approxPolyDP()直接提取连通域的最小外接多边形，得到图像中的文字区域的坐标表示。

对字符分割图像进行后处理操作，其后处理流程示意图如图6所示，首先使用OpenCV库调用findContours()对连通域图像进行轮廓提取，然后使用approxPolyDP()直接提取连通域的最小外接多边形，在得到文本区域的外接多边形之后，基于多边形裁剪算法，将多边形区域面积膨胀一定的倍数，然后比上多边形的周长得到最终的偏移量。根据偏移量计算出最终的字符的坐标位置。

图7展示了一种基于语义分割的多尺度文本检测装置结构图，如图7所示，所述装置包括：

201、图像采集单元，用于采集字符图像，并对所述字符图像进行预处理；

202、图像处理单元，用于将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签；

203、图像融合单元，用于将字符图像所对应的文本边界区域与文本中心区域进行二值化融合，得到分割融合后的字符图像；

204、图像检测单元，用于将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的一种基于语义分割的多尺度文本检测方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于语义分割的多尺度文本检测方法，其特征在于，所述方法包括：

在对训练字符图像制作标签时，按照训练字符图像中各个文本长宽比例确定出自适应大小的文本中心区域标注框，并作为文本中心区域标签；按照训练字符图像中各个文本长宽比确定出自适应大小的收缩边界，将收缩边界与训练字符图像原边界所形成的中间区域标注框作为文本边界区域标签；

将预处理后的字符图像输入到语义分割的字符检测网络中，输出字符图像的文本边界区域标签和文本中心区域标签，具体包括：

将训练字符图像或待测字符图像输入到语义分割的字符检测网络中提取出多尺度的语义信息特征和各层细节特征；将提取到的语义信息特征进行图像分割，并由文本边界区域标签和文本中心区域标签进行监督学习得到文本边界区域特征；将提取到的各层细节特征进行图像分割，并由文本中心区域标签进行监督学习得到文本中心区域特征；将图像分割后的文本边界区域特征和文本中心区域特征进行融合；

其中，将训练字符图像输入到语义分割的字符检测网络中时，利用迁移学习的方式，采用人工合成图像数据集对所述语义分割的字符检测网络进行预训练，再采用公开字符图像数据集对所述语义分割的字符检测网络进行微调训练；

其中，提取出语义信息特征和各层细节特征的过程包括在语义分割的字符检测网络的图像分割通道中，使用一系列反卷积或者上采样将主干网络提取的图像特征还原到原始字符图像的1/4大小；在主干网络中的第三层卷积层采用混合膨胀卷积操作，在主干网络的第四层卷积层进行注意力膨胀卷积操作；采用注意力机制对第四层卷积层各通道所对应的膨胀率赋予一个可学习权重，通过该可学习权重学习出各通道的重要程度，并按照该重要程度去提升或抑制相应通道的特征，通过主干网络各层卷积层的卷积操作，输出多尺度的各层细节特征；在主干网络的输出层中进行像素级别和类级别的分类，确定出语义特征信息；

定义了新的模型损失函数来融合两种输出特征信息，并在双标签指导下进行训练，网络使用双标签进行监督训练，主干网络采用ResNet18网络，最终输出的分割图像由低级语义特征和高级语义特征融合之后的二值化操作得到；

新定义的模型损失函数表示为：

L_S＝L_fusion(f(F_seg,F_shape|X；W))

其中，L_S表示双标签融合损失；F_seg为文本边界区域特征，F_shape为文本中心区域特征，f(*|W)表示特征图融合操作，X表示标签图像，即带有文本边界区域标签或/和文本中心区域标签的字符图像；W表示其中卷积操作的参数；L_fusion(F)表示融合模块操作，融合之后的输出再采用的二值化操作，表述为：

其中，B_i,j表示融合后的特征图中的(i,j)坐标处的像素值，该像素值为0或者1；P_i,j为特征图中的(i,j)坐标处的像素的字符概率值；0，1分别表示二值化之后的像素值大小，t为图像二值化的阈值；

将所述分割融合后的字符图像进行后处理，确定出字符区域，即字符的坐标位置；

提取出字符图像的连通域轮廓，并确定该轮廓的外接多边形；利用多边形裁剪算法，对外接多边形的区域面积进行膨胀；将膨胀后的区域面积与膨胀后的外接多边形的周长的比值作为偏移量，利用所述偏移量计算出字符区域，即字符的坐标位置。

2.根据权利要求1所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述像素级别的分类产生的分割损失采用Dice损失函数，所述类级别的分类产生的分割损失采用二元交叉熵。

3.一种基于语义分割的多尺度文本检测装置，用于实现如权利要求1或2所述的一种基于语义分割的多尺度文本检测方法，其特征在于，所述装置包括：

4.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2所述的一种基于语义分割的多尺度文本检测方法。