CN112926569A

CN112926569A - 一种社交网络中的自然场景图像文本检测方法

Info

Publication number: CN112926569A
Application number: CN202110279656.1A
Authority: CN
Inventors: 王国胤; 陈卓; 刘群
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-08
Anticipated expiration: 2041-03-16
Also published as: CN112926569B

Abstract

本发明属于社交网络技术领域，具体涉及一种社交网络中的自然场景图像文本检测方法，该方法包括：实时获取社交网络中待检测的自然场景图像数据；对获取的数据进行预处理；将预处理后的数据输入到训练好的多粒度特征融合模型中，得到数据检测结果；本发明不仅可以提高图像中的文本检测准确率，而且减少了复杂模型所需要的时间开销，优化了自然场景下复杂环境对图像中文本检测的影响。

Description

一种社交网络中的自然场景图像文本检测方法

技术领域

本发明属于社交网络技术领域，具体涉及一种社交网络中的自然场景图像文本检测方法。

背景技术

随着互联网的的发展和移动通讯设备的普及，用户不再仅仅在电脑端使用移动社交网络平台所提供的各种服务，而是随时随地在通过各种移动设备进行着个人的网上社交。在信息时代的大环境下，社交网络已成为人们线上沟通交流，传递信息最常用的工具。目前，社交网络中的用户越来越倾向于用图片来分享自己的生活状态和生活轨迹。文本作为人类文明的标志、信息交流的载体，广泛地存在与社交网络中的自然场景图像中，相较于图像中的其它自然场景内容，如：树木、行人、建筑物等各种景观，自然场景中的文字则具有更强的逻辑性与更概括的表达性，能提供更多的高层语义信息，准确地识别图像中的文本将有助于场景内容的分析与理解，有助于获取社交网络用户的生活足迹相关信息，对用户的社交关系分析起着极其重要的作用。

目前，针对自然场景文本处理的研究工作主要使用两大类方法。第一种是传统的自然场景文本检测方法，该方法又分为基于像素连通域分析的方法和基于滑动检测窗口的方法，该方法主要依赖于图像的像素和文本的形状、排列、笔画宽度等特征，首先获得文本候选区域，然后采用手动设计的特征对所获得的候选区域进行验证，以此确定图像中的文本信息区域。另一种是基于深度学习的自然场景文本检测方法，深度学习的方法通过神经网络模型组合低层特征从而形成高层特征来表示属性类别，并设计专用的损失函数让计算机自动并精准学习图像中文字信息的特征。

但是由于目前对深度神经网络模型的鲁棒性要求越来越高，过于复杂以及多方向与形变文本检测的问题，因此需要综合鲁棒性和模型检测精确度，以达到对社交网络中的图像进行有效分析。

发明内容

为解决以上现有技术存在的问题，本发明提出了一种社交网络中的自然场景图像文本检测方法，该方法包括：实时获取社交网络中待检测的自然场景图像数据；对获取的数据进行预处理；将预处理后的数据输入到训练好的多粒度特征融合模型中，得到数据检测结果；

训练多粒度特征融合模型的过程包括：

S1：采集社交网络中的自然场景图像数据集，对图像中的文本信息进行标注；

S2：将获取的数据集划分为训练集和测试集，对训练集中的数据进行预处理；

S3：将预处理后的数据输入到多粒度特征融合模型中进行训练；

S4：将测试集中的数据输入到训练后的多粒度特征融合模型中，得到该图像文本预测和文本几何图矩阵；

S5：根据可视化文本框计算模型的损失函数；当损失函数最小时，完成模型的训练；

S6：将测试集中的数据输入到模型中，输出文本特征向量，对输出的文本特征向量进行消除冗余计算，在检测图像上生成可视化文本框。

优选的，对数据集中的数据进行划分的过程包括：采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集，其他数据作为验证集；对于训练集中的数据，根据图像标注信息对标注的文本框加入0、1标签，其中人眼难以识别的包含模糊、细小文本的标注框信息标为0，清晰可见具有语义的文本标注框信息标为1。

优选的，将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括：

S31：提取输入图像的四个粒度信息，将大小为输入图像的1/4的特征向量设置为粒度1，大小为输入图像的1/8的特征向量设置为粒度2，将大小为输入图像的1/16的特征向量设置为粒度3，将大小为输入图像的1/32的特征向量设置为粒度4；

S32：采用ReLU激活函数对提取的四个粒度信息进行激活；

S33：将激活后的四个粒度信息进行特征融合；其中粒度1和粒度2融合，粒度2和粒度3融合，粒度3和粒度4融合，生成三个多粒度特征图；

S34：将三个多粒度特征向量进行融合得到最终的预测特征。

进一步的，在进行多粒度融合过程中，采用通道注意力机制对残差通道注意力网络进行改进；多粒度融合的表达式为：

h_j＝concat(Unpool(f_j-1),f_j)

其中，j∈{2,3,4}，concat(·)表示向量的拼接操作，Unpool(·)表示双线性插值计算；

采用通道注意力机制对残差通道注意力网络进行改进的公式为：

CAⁱ＝σ(Wⁱhⁱ+bⁱ)

其中，i，j∈{1,2,3}，h^·代表进行粒度融合后的特征向量，Wⁱ，W^j代表可学习的参数，σ(·)代表sigmoid激活函数，CAⁱ和RCA^j分别代表生成的通道注意力权重值和残差通道注意力权重值。

进一步的，得到最终的预测特征的表达式为：

Z＝σ(Pool(concat(RCA¹,RCA²,RCA³)))

其中，concat(·)表示向量的拼接操作，Pool(·)表示最大池化，σ(·)表示ReLU激活函数。

优选的，计算模型的损失函数的过程为：

S51：确定模型的损失函数种类，包括分数图损失和几何图损失；

S52：采用Dice损失函数对分数图进行优化，得到分数图损失L_s；

S53：采用IOU损失函数对几何图进行优化，得到几何图损失L_g；

S54：根据分数图损失L_s和几何图损失L_g得到模型的损失函数。

进一步的，分数图损失L_s的表达式为：

其中，y_true和y_pred分别表示分数图的真实值和预测值。

进一步的，得到几何图损失L_g的过程包括：

S531：采用IOU损失函数对矩形框进行优化，优化后的表达式为：

其中，L_R表示回归矩形框损失，

表示预测的几何形状，R^*表示真实的几何形状，∩表示相交，∪表示相并；

S532：计算相交矩形

的宽度和高度以及联合区域；根据联合区域以及相交矩形区域计算旋转角度损失；旋转角度损失的表达式为：

其中，

表示对旋转角度的预测，θ^*表示实际值；

S533：根据矩形框损失L_R和旋转角度损失计算几何图损失L_g，其表达式为：

L_g＝L_R+λ_θL_θ

其中，λ_θ表示几何图损失的权重参数。

进一步的，模型的损失函数为：

L＝L_s+λ_gL_g

其中，λ_g表示权重。

优选的，在检测图像上生成可视化文本框的过程包括：

S61：根据模型预测输出的几何特征向量生成对应的几何体，判断生成的几何体是否为有效的几何体，若有效，则保留，否则舍弃；

S62：对生成的几何体依次进行IOU计算，若两个几何体的相交面积大于设置的阈值，则对该两个几何体进行合并，得到合并后的几何体，否则不进行合并；

S63：对和并后的几何体进行集合，根据几何体的权值进行降序排列，将该序列记为List，取List中权值最高的几何体x，依次计算该几何体与其它几何体的IoU值，判断该值与设置的阈值的大小，若大于设置的阈值，则保留x，否则丢弃x并将List中的权值剔除；

S64：依次对List中所有的权值重复步骤S63，直到List中所有的权值王朝迭代筛选；

S65：将完成筛选的几何体映射到图像的对应位置，生成最终的文本预测框。

本发明基于基础特征网络提取出的特征，抽取不同卷积层的粒度特征，利用上采样逐层往上将特征两两融合，依层次进行粒度融合的方式使VGG-16网络提取出来的特征图联系更紧密，让神经网络在训练模型的过程中能够更好地学习到不同粒度之间信息的关系，利于增加网络的性能；本发明在进行粒度特征融合的时候加入基于通道注意力改进的残差通道注意力网络，不仅可以提升网络对文本信息的聚焦，也可以通过残差思想将上下有联系的特征相结合，防止有用特征的丢失。

附图说明

图1为本发明的文本检测流程示意图；

图2为本发明的模型训练结构示意图；

图3为本发明的多粒度特征融合网络结构示意图；

图4为基础特征提取网络VGG16结构示意图；

图5为多粒度特征融合模块结构示意图；

图6为残差通道注意力网络模块结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种社交网络中的自然场景图像文本检测方法，如图1所示，该方法包括：实时获取社交网络中待检测的自然场景图像数据；对获取的数据进行预处理；将预处理后的数据输入到训练好的多粒度特征融合模型中，得到数据检测结果。

如图2所示，训练多粒度特征融合模型的过程包括：

S6：将测试集中的数据输入到训练过的模型中，输出文本特征向量，对输出的文本特征向量进行消除冗余计算，在检测图像上生成可视化文本框。

如图3所示，多粒度特征融合模型的结构包括基础特征提取网络、多粒度特征融合模块以及残差通道注意力模块。

一种基础特征提取网络的具体结构，如图4所示，本发明的基础特征提取网络为VGG-16结构。首先，图像经过VGG-16网络进行特征提取；然后，将提取特征的网络按粒度分层，提取网络层block2的输出为粒度1，提取网络层block3的输出为粒度2，提取网络层block4的输出为粒度3，提取网络层block5的输出为粒度4。采用多粒度特征融合模块将四个粒度进行拼接融合生成三个多粒度特征图，多粒度特征融合模块的结构如图5所示。图5中的RCAB为残差通道注意力模块，其结构如图6所示，将生成的三个多粒度特征图进行卷积操作，提取特征，将提取的特征输入到下一个卷积层，并将前一个卷积层提取的特征与第二个卷积层提取的特征进行乘积，并将乘积结果与输入的特征图进行融合拼接，生成最后的输出特征图。

对数据集中的数据进行划分的过程包括：采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集，其他数据作为验证集；对于训练集中的数据，根据图像标注信息对标注的文本框加入0、1标签，其中人眼难以识别的包含模糊、细小文本的标注框信息标为0，清晰可见具有语义的文本标注框信息标为1。

将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括：

S32：采用ReLU激活函数对提取的四个粒度信息进行激活；激活的公式为：

f_i＝σ(Conv(f_i))

其中，i∈{1,2,3,4}，f_i为粒度信息，σ(·)为ReLU激活函数，Conv(·)表示卷积操作。

S33：将激活后的四个粒度信息进行特征融合；其中粒度1和粒度2融合，粒度2和粒度3融合，粒度3和粒度4融合，生成三个多粒度特征图；融合的表达式为：

h_j＝concat(Unpool(f_j-1),f_j)

在进行多粒度融合过程中，采用通道注意力机制对残差通道注意力网络进行改进；其公式为：

CAⁱ＝σ(Wⁱhⁱ+bⁱ)

S34：将三个多粒度特征向量进行融合得到最终的预测特征。预测特征的表达式为：

Z＝σ(Pool(concat(RCA¹,RCA²,RCA³)))

计算模型的损失函数的过程为：

S51：确定模型的损失函数种类，包括分数图损失和几何图损失；将模型的输出分为两部分，一是模型对自然场景图像中的文字像素点的预测分数图，二是模型对文字框的几何特征预测。

S52：采用Dice损失函数对分数图进行优化，得到分数图损失L_s；分数图损失L_s的表达式为：

其中，y_true和y_pred分别表示分数图的真实值和预测值。

S531：对于自然场景图像，文本的排列往往不是水平排列，对于文本框的几何特征预测，采用IOU损失函数对矩形框进行优化，优化后的表达式为：

其中，L_R表示回归矩形框损失，

表示预测的几何形状，R^*表示真实的几何形状，∩表示相交，∪表示相并。

S532：计算相交矩形

的宽度和高度以及联合区域；根据联合区域以及相交矩形区域计算旋转角度损失；

相交矩形

的宽度和高度分别为：

其中，d₁、d₂、d₃、d₄分别表示特征图中像素到对应矩形的上、右、下、和左边界的距离。

联合区的表达式为：

旋转角度损失的表达式为：

其中，

表示对旋转角度的预测，θ^*表示实际值；

L_g＝L_R+λ_θL_θ

其中，λ_θ表示几何图的损失权重参数。

优选的，λ_θ的值设置为10。

S54：根据分数图损失L_s和几何图损失L_g得到模型的损失函数。模型的损失函数的表达式为：

L＝L_s+λ_gL_g

其中，λ_g表示权重。

优选的，λ_g的值设置为1。

在检测图像上生成可视化文本框的过程包括：

S61：根据模型预测输出的几何特征向量生成对应的几何体，判断生成的几何体是否为有效的几何体，若有效，则保留，否则舍弃。

根据几何特征向量生成对应的几何体的过程包括根据模型预测输出的得分图和几何图计算生成的几何文本狂；从得分图中可以判断图像中的像素点是否属于文本框；从几何图中的可以判断像素点离文本框的四个距离和倾斜的角度；根据像素点是否属于文本框、素点离文本框的距离以及倾斜角度判断文本框的对角线是否相交，若相交，则为有效几何体，否则为无效几何体。

S62：对生成的几何体依次进行IoU计算，若两个几何体的相交面积大于设置的阈值，则对该两个几何体进行合并，得到合并后的几何体，否则不进行合并。

优选的，设置的阈值为0.3。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种社交网络中的自然场景图像文本检测方法，其特征在于，包括：实时获取社交网络中待检测的自然场景图像数据；对获取的数据进行预处理；将预处理后的数据输入到训练好的多粒度特征融合模型中，得到数据检测结果；

训练多粒度特征融合模型的过程包括：

2.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，对数据集中的数据进行划分的过程包括：采用交叉验证的方式将已标注的图像数据随机选取2/3的数据作为训练集，其他数据作为验证集；对于训练集中的数据，根据图像标注信息对标注的文本框加入0、1标签，其中人眼难以识别的包含模糊、细小文本的标注框信息标为0，清晰可见具有语义的文本标注框信息标为1。

3.根据权利要求1所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，将预处理后的数据输入到多粒度特征融合模型中进行训练的过程包括：

S32：采用ReLU激活函数对提取的四个粒度信息进行激活；

S34：将三个多粒度特征向量进行融合得到最终的预测特征。

4.根据权利要求3所述的一种社交网络中的自然场景图像文本检测方法，其特征在于，在进行多粒度融合过程中，采用通道注意力机制对残差通道注意力网络进行改进；多粒度融合的表达式为：

h_j＝concat(Unpool(f_j-1),f_j)

其中，j∈{2,3,4}，concat(·)表示向量的拼接操作，Unpool(·)表示双线性插值计算；采用通道注意力机制对残差通道注意力网络进行改进的公式为：

CAⁱ＝σ(Wⁱhⁱ+bⁱ)