CN111967463A

CN111967463A - 一种检测自然场景中弯曲文本的曲线拟合的方法

Info

Publication number: CN111967463A
Application number: CN202010584515.6A
Authority: CN
Inventors: 徐健锋; 邹伟康; 刘澜; 吴俊杰; 江飞翔; 杨迎方
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2020-11-20

Abstract

本发明公开了一种自然场景弯曲文本的检测方法，方法包括：S1:获取包含弯曲文本的自然场景图片的数据集；S2:利用将VGG‑16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取，得到特征图；S3:对步骤S2中的特征图进行卷积处理得到段和链接；S4:取步骤S3中每个段的上下中心点，将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域，得到的区域即为文本检测框；S5:输出步骤S4中的文本检测框。本发明能够更精准的定位到自然场景中的弯曲文本，可以非常灵活和高效地检测任意长度和方向的文本。

Description

一种检测自然场景中弯曲文本的曲线拟合的方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种自然场景弯曲文本的检测方法。

背景技术

近年来，在自然场景文本的检测与识别等方面，国内外学者掀起了一股研究热潮。其驱动因素既有应用前景，也有研究价值。一方面，场景文本检测与识别在场景理解、地理定位、自动驾驶、图像检索等众多实用系统中发挥着越来越重要的作用。另一方面，由于场景文本具有一般目标检测对象不具备的属性，例如文本大多数以长矩形形式存在，而普通的目标检测对象长宽比接近于1；普通物体存在明显的闭合边缘轮廓，而文本没有；文本中包含多个文字，而文字之间是有间隔的，如果检测做的不好，就会把每个字都当成文本行给框出来而非整行作为文本框。

不规则文本检测是文本检测中的一个难点问题。其主要原因是大多数现有的文本检测方法都基于一个共同的假设，即文本实例形状大致是呈线性的，因此采用相对简单的轴对齐矩形、旋转矩形或四边形来表示检测框。尽管这些方法在标准基准上取得了进展，但在处理不规则形状(例如曲线文本)的文本实例时，依然可能会显现不足。

发明内容

本发明提供一种自然场景弯曲文本检测方法，能够更精准的定位到自然场景中的弯曲文本，可以非常灵活和高效地检测任意长度和方向的文本。

为解决上述技术问题，本发明提供一种自然场景弯曲文本检测方法，包括如下步骤：

S1:获取包含弯曲文本的自然场景图片的图像数据集；

S2利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤(1)中获得的图像数据集进行特征提取，得到特征图；

S3:对步骤S2中的特征图进行卷积处理得到段和链接；

S4:取步骤S3中每个段的上下中心点，将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域，得到的区域即为文本检测框；

S5输出步骤S4中的文本检测框。

步骤S1中，所述图像数据集为已有的公共的场景曲线文本图像数据集，或者临时采集场景中的曲线文本图像数据集，所述图像数据集中包含有N张训练图片，每张训练图片中至少有一个曲线文本区域，并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，所述标注文件称为标签。

步骤S2中，网络结构是使用一个预先训练好的VGG-16网络作为骨干网(conv1到pool5)。在SSD之后，将VGG-16的全连接层转换为卷积层(fc6转换为conv6，fc7转换为conv7)。接着是一些额外的卷积层(conv8_1到conv11)，它们可以用更大的感受野提取更深层次的特征。

步骤S3中，段也是定向框，用s＝(xs，ys，ws，hs，θs)表示。通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段。每个默认框都与一个特征图位置相关联，它的得分和偏移量将根据该位置的特征进行预测。

一个链接连接一对相邻的段，表示它们属于同一个单词。在此，相邻段是在相邻特征图位置处检测到的那些段。链接不仅是将段组合成完整单词所必需的，而且有助于分隔两个相邻单词-在两个相邻单词之间，链接应该被预测为否定的。

使用相同的特征来显式地检测段之间的链接。由于在一个特征图位置上只检测到一个段，段可以通过它们的特征图位置(x，y)和层索引l(用s(x，y，l)表示)进行索引。

当局部检测到段时，一对相邻的段在输入图像上也相邻。卷积预测器也可以检测到链接。一个预测器为连接到8个相邻段的链接，输出为16个通道。每2个通道均经过softmax归一化以获得链接得分。

在的网络中，在不同的特征层上以不同的尺度检测段。每个层处理一系列比例。使这些范围重叠，以免在其边缘丢失比例。但结果是，同一个单词的段可以同时在多个层上被检测到，从而产生冗余。

跨层链接将两个特征层上的段与相邻的索引连接起来。例如，在conv4_3和conv7之间检测到跨层链接，因为它们的索引分别为l＝1和l＝2。

这种对的一个重要特性是，由于它们之间的下采样层(最大池化或跨步2卷积)，第一层的大小总是第二层的两倍。只有当所有特征层的大小都为偶数时，此特性才有效。实际上，通过将输入图像的宽度和高度都可除以128来确保这一特性。例如，1000×800图像的大小调整为1024×768，这是最接近的有效大小。

此外，跨层链接由卷积预测器检测。预测器输出8个跨层链接通道。每2个通道被softmax归一化，以产生一个跨层链接的分数。在特征层l＝2，…，6上检测到跨层链接，但在l＝1(conv4_3)上检测不到跨层链接，因为它没有优先的特征层。

通过跨层链接，可以连接不同比例的段，然后进行组合。与传统的非最大抑制相比，跨层连接提供了一种可训练的冗余连接方式。

步骤S4中，在卷积预测器检测到段和链接之后，可以利用最小二乘拟合曲线的方法来计算出边界框。

对于段上下边界中点p_i,p_j，要寻找y与x之间的近似函数关系

用

近似描述已知数据(x_i,y_i)(i＝0,1,2...,m)，不必要求在每个点x_i处，误差

都为0，只需在所有点处的某种总体误差最小即可。设给定基函数

在集合

中寻求形如

的函数，使其近似已知数据。

步骤S5中，根据上述步骤输出由曲线c1，c2和直线方程l1，l2围成的区域c*＝(c1,c2,l1,l2)。

与现有技术相比，本发明的有益效果是：本发明使用一种改进的全卷积神经网络，使用曲线拟合的方法可以很好地拟合任意形状(水平，多方向和弯曲的形式)和长度的文本，具有自适应的检测效果，同时还可以检测非拉丁文字的长行，例如中文，且模型结构简单检测效率高。由于它对文本结构的复杂多样性具有良好的适应能力，为了适应外部环境而改变其形状，能够更精准的定位到自然场景中的弯曲文本，可以非常灵活和高效地检测任意长度和方向的文本。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

如图1所示，一种自然场景弯曲文本的检测方法，包括如下步骤：

S1：获取包含弯曲文本的自然场景图片的图像数据集；

图像数据集为已有的公共的场景曲线文本图像数据集，或者临时采集场景中的曲线文本图像数据集，所述图像数据集中包含有N张训练图片，每张训练图片中至少有一个曲线文本区域，并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，所述标注文件称为标签。

S2：利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取，得到特征图；

网络结构是使用一个预先训练好的VGG-16网络作为骨干网(conv1到pool5)。在SSD之后，将VGG-16的全连接层转换为卷积层(fc6转换为conv6，fc7转换为conv7)。接着是一些额外的卷积层(conv8_1到conv11)，它们可以用更大的感受野提取更深层次的特征。

在6个特征层上检测到段和链接，分别是conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11。这些特征层提供不同粒度的高质量深层特征(conv4_3最细，conv11最粗)，在6层中每层增加一个3×3核的卷积预测器来检测段和链接。用l＝1，…，6对特征层和预测器进行索引。

S3：对步骤S2中的特征图进行卷积处理得到段和链接；

段也是定向框，用s＝(xs，ys，ws，hs，θs)表示。通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段。每个默认框都与一个特征图位置相关联，它的得分和偏移量将根据该位置的特征进行预测。为了简单起见，只将一个默认框与特征图位置相关联。特征图大小为wl×hl的第l特征层，特征图上的位置(x，y)对应于图像上的默认框中心位置为(xa，ya)，

其中wI,hI，为输入图像的宽和高，wl×hl为第l特征层的特征图的宽和高。默认框的宽度和高度都设置为常数al。

卷积预测器产生7个通道用于分段检测。其中，对2个通道进行进一步的softmax归一化，得到(0，1)中的段分数。其余5个是几何偏移。特征图上的某个位置(x，y)，将该位置沿深度的矢量表示为(Δxs，Δys，Δws，Δhs，Δθs)。然后，通过以下方法计算此位置的段：

x_s＝a_lΔx_s+x_a

y_s＝a_lΔy_s+y_a

w_s＝a_l exp(Δw_s)

h_s＝a_l exp(Δh_s)

θ_s＝Δθ_s (2)

这里，常数al控制输出段的比例。应根据第l层的感受野大小来选择。使用一个经验公式来选择这个尺寸：

其中γ＝1.5。

使用相同的特征来显式地检测段之间的链接。由于在一个特征图位置上只检测到一个段，段可以通过它们的特征图位置(x，y)和层索引l(用s(x，y，l)表示)进行索引。一个段的层内邻居为同一特征层上的8个连通邻居

这种对的一个重要特性是，由于它们之间的下采样层(最大池化或跨步2卷积)，第一层的大小总是第二层的两倍。只有当所有特征层的大小都为偶数时，此特性才有效。实际上，通过将输入图像的宽度和高度都可除以128来确保这一特性。例如，1000×800图像的大小调整为1024×768，这是最接近的有效大小。段的跨层邻居为

它们是前一层的段。每段有4个跨层邻居。通过两层之间的两倍大小关系来确保对应关系。

S4：取步骤S3中每个段的上下中心点，将其拟合成上下两条曲线并与末端段两侧边界连接形成一个封闭区域，得到的区域即为文本检测框；

在卷积预测器检测到段和链接之后，可以利用最小二乘拟合曲线的方法来计算出边界框。

段表示为s＝(x_s,y_s,w_s,h_s,θ_s)，段的上边界中点为

段的下边界中的为

分别记为p_i＝(x_i,y_i)，p_j＝(x_j,y_j)。段两边边界的上下顶点为:

对于段上下边界中点p_i,p_j，要寻找y与x之间的近似函数关系

用

在集合

中寻求形如

的函数，使其近似已知数据。

对给定的数据(x_i,y_i)(i＝0,1,2...,m)，若

使得

则称y＝y*(x)为曲线族中Ω的最小二乘拟合曲线，均方误差。

要确定拟合曲线(5)中的待定系数

由(6)式知，就是求多元函数

的最小值点

由多元函数取极值的必要条件，有

从而有

这是n+1个方程、n+1个未知数的线性方程组，借助矩阵运算，可写成如下矩阵形式：

A^TAc＝A^Ty (8)

其中，

c＝(c₀,c₁,...,c_n)^T,y＝(y₀,y₁,...,y_m)

而

方程组(8)称为法方程组，设

线性无关，则行列式|A^TA|≠0，线性方程组(8)存在唯一的一组解。

若取基函数Ω＝span{1,x,x²,...,xⁿ}，法方程的系数矩阵显然非奇异，求解法方程组，得到拟合系数

从而得到

再由多元函数取极值的充分条件可证明，求出的y*(x)确实是方程组(6)的解，即y*(x)为最小二乘拟合曲线。

S5：输出步骤S4中的文本检测框；

根据上述步骤输出由曲线c1，c2和直线方程l1，l2围成的区域c*＝(c1,c2,l1,l2)。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

以上所述仅表达了本发明的优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形、改进及替代，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种自然场景弯曲文本的检测方法，其特征在于，包括以下步骤：

S1:获取包含弯曲文本的自然场景图片的图像数据集；

S2:利用将VGG-16网络中的所有全连接层改为卷积层的全卷积神经网络对步骤S1中获得的图像数据集进行特征提取，得到特征图；

S3:对步骤S2中的特征图进行卷积处理得到段和链接；

S5:输出步骤S4中的文本检测框。

2.根据权利要求1所述的一种自然场景弯曲文本的检测方法，其特征在于，步骤S1中，所述图像数据集为已有的公共的场景曲线文本图像数据集，或者临时采集场景中的曲线文本图像数据集，所述图像数据集中包含有N张训练图片，每张训练图片中至少有一个曲线文本区域，并且有一个以矩形或者多边形的顶点坐标来描述图片中所有文本区域位置信息的标注文件，所述标注文件称为标签。

3.根据权利要求1所述的一种自然场景弯曲文本的检测方法，其特征在于，步骤S2中，使用一个预先训练好的VGG-16网络作为骨干网的网络结构；

在SSD之后，将VGG-16的全连接层转换为卷积层；

接着是一些额外的卷积层，它们可以用更大的感受野提取更深层次的特征。

4.根据权利要求1所述的一种自然场景弯曲文本的检测方法，其特征在于，步骤S3中，段是定向框，用s＝(xs，ys，ws，hs，θs)表示；

通过估计输入图像上一组默认框的置信度得分和几何偏移来检测段；

每个默认框都与一个特征图位置相关联，它的得分和偏移量将根据该位置的特征进行预测。

5.根据权利要求4所述的一种自然场景弯曲文本的检测方法，其特征在于，一个链接连接一对相邻的段，表示它们属于同一个单词；

链接不仅是将段组合成完整单词所必需的，而且有助于分隔两个相邻单词-在两个相邻单词之间，链接应该被预测为否定的；

使用相同的特征来显式地检测段之间的链接，由于在一个特征图位置上只检测到一个段，段可以通过它们的特征图位置和层索引l进行索引；

当局部检测到段时，一对相邻的段在输入图像上也相邻，卷积预测器也可以检测到链接，一个预测器为连接到8个相邻段的链接，输出为16个通道，每2个通道均经过softmax归一化以获得链接得分。

6.根据权利要求5所述的一种自然场景弯曲文本的检测方法，其特征在于，以跨层链接将两个特征层上的段与相邻的索引连接起来；

这种对的一个重要特性是，由于它们之间的下采样层，第一层的大小总是第二层的两倍，只有当所有特征层的大小都为偶数时，此特性才有效；

跨层链接由卷积预测器检测，预测器输出8个跨层链接通道，每2个通道被softmax归一化，以产生一个跨层链接的分数，在特征层l＝2，…，6上检测到跨层链接，但在l＝1上检测不到跨层链接，因为它没有优先的特征层。

7.根据权利要求6所述的一种自然场景弯曲文本的检测方法，其特征在于，跨层链接，可以连接不同比例的段，然后进行组合，与传统的非最大抑制相比，跨层连接提供了一种可训练的冗余连接方式。

8.如权利要求1所述的检测自然场景中弯曲文本的曲线拟合的方法，其特征在于，步骤S4中，在卷积预测器检测到段和链接之后，可以利用最小二乘拟合曲线的方法来计算出边界框；

对于段上下边界中点p_i,p_j，要寻找y与x之间的近似函数关系

用

都为0，只需在所有点处的某种总体误差最小即可；

设给定基函数

在集合

中寻求形如

的函数，使其近似已知数据。

9.如权利要求1所述的检测自然场景中弯曲文本的曲线拟合的方法，其特征在于，步骤S5中，根据上述步骤输出由曲线c1，c2和直线方程l1，l2围成的区域c*＝(c1,c2,l1,l2)。