CN110399879A

CN110399879A - 一种基于注意力机制的文本行单字分割方法

Info

Publication number: CN110399879A
Application number: CN201910517862.4A
Authority: CN
Inventors: 李兆海; 金连文; 杨海林; 周伟英
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-11-01
Anticipated expiration: 2039-06-14
Also published as: CN110399879B

Abstract

本发明公开一种基于注意力机制的文本行单字分割方法，包括收集文本行训练图像；对图像的尺寸做归一化；对训练图像做数据增广；创建基于注意力机制的文本行识别网络；通过大量训练数据训练得到识别模型；将待分割文本行图像输入到识别模型中，通过注意力机制的权重概率分布计算单字分割结果；本发明注意力机制中的权重概率分布，在识别文本行内容的同时，能够将文本行中的单字分割出来，并且只需要标注文本内容，而不需要标注单字的位置，节省了大量人力，实现了弱监督的文本行单字分割。

Description

一种基于注意力机制的文本行单字分割方法

技术领域

本发明涉及计算机视觉领域，特别是涉及一种基于注意力机制的文本行单字分割方法。

背景技术

文字，在人类历史的进程中扮演了重要的角色，是人类社会信息交流最重要的工具之一。无论是书籍报纸，表单证件等正式文档，还是车牌路标，商家招牌等户外标识，都离不开文字。随着多媒体和信息技术的发展，数以亿计的图像充斥在互联网的每一个角落，人们希望能够通过计算机来高效地理解和处理图像，而文字信息对于图像理解至关重要。因此，文本图像识别一直是数字图像处理领域的热门研究方向。

文本行识别的目标是将已经切分好的文本行图像中的文本内容识别出来，目前效果最好的文本行识别算法都是基于序列识别模型的，即不需要切分单字，而是直接将文本行图像输入到序列模型中，得出最后的识别结果。虽然序列识别模型的识别效果较好，但是识别出的各个文字与文本行图像无法对应起来，当识别出错时，无法判断原图中哪部分的信息导致了识别错误。因此，如何在序列识别模型中分割单字是一个待解决的问题。

发明内容

本发明的目的是提供一种基于注意力机制的文本行单字分割方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于注意力机制的文本行单字分割方法，包括以下步骤：

S1、收集文本行训练图像；

S2、对图像的尺寸做归一化；

S3、对训练图像做数据增广；

S4、创建基于注意力机制的文本行识别网络；

S5、通过大量训练数据训练得到识别模型；

S6、将待分割文本行图像输入到识别模型中，通过注意力机制的权重概率分布计算单字分割结果。

优选的，所述步骤S2的尺寸归一化具体为：将所有文本行图像的尺寸归一化到h_s×w_s。

优选的，所述步骤S3的数据增广方式包括以下几种：

S3.1、高斯模糊：对输入图像做随机高斯模糊；

S3.2、改变亮度和对比度：随机改变输入图像的亮度和对比度；

S3.3、图像旋转：对输入图像做随机旋转处理；

S3.4、动态模糊：对输入图像做随机动态模糊；

优选的，所述步骤S4的识别网络创建包括以下步骤：

S4.1、全卷积神经网络编码器

全卷积神经网络编码器包含了6个依次连接的卷积层结构，前面的5个卷积层结构都包含了一个卷积层，一个ReLU激活函数以及一个聚合层，每个聚合层都使网络中的特征图尺寸减小一半，归一化后的图像尺寸为h_s×w_s，则每一个卷积层输出的特征图尺寸分别为

最后一个卷积层结构包括一个卷积层，一个ReLU激活函数以及一个BN层；为了方便后续使用LSTM提取语义特征，设计该卷积层的参数，使得输出的特征图高度为1，宽度为W_e；

S4.2、构建循环神经网络提取特征序列中的语义信息

将步骤S4.1中提取的一维特征序列输入到两层双向循环神经网络BLSTM中，此外，两层BLSTM都配备了Dropout层；

S4.3、基于注意力机制的解码器

解码器包括注意力机制模块、循环神经网络LSTM和全连接层，在LSTM的每一个时间点，注意力机制模块根据LSTM的状态特征和输入的特征序列生成一个权重概率分布，来决定特征序列中每一个位置的权重；随后，根据权重概率分布和特征序列得到当前时刻的加权特征，再利用一个全连接层将加权特征解码输出，得到当前时刻的识别结果，循环每个时间点，即可得到最终的识别结果。

优选的，所述步骤S4.3的注意力机制的解码计算过程包含以下步骤：

S4.3.1、首先，假设特征序列为h，其长度为L，LSTM的状态特征为s，注意力机制生成的概率分布为α和特征序列h计算得到的加权特征为g，解码器的输出为y；

S4.3.2、根据上一时刻的状态和输入的特征序列，得到当前时刻特征序列的每一个位置对应的权重：

e_t，j＝ω^Ttanh(Ws_t-1+Vh_j+b)

其中，e_t，j表示t时刻特征序列的j位置h_j对应的权重，ω^T，W和V是待学习权值，b是待学习偏置值，s_t-1表示t-1时刻的状态特征；

S4.3.3、对步骤S4.3.2中的权重e_t，j做归一化处理，得到当前时刻特征序列每个位置的概率：

其中，α_t，j表示t时刻特征序列的j位置h_j对应的权重概率，exp表示自然常数e为底的指数函数；

S4.3.4、根据概率分布和特征序列得到加权特征：

其中，g_t表示t时刻特征序列h对应的加权特征；

S4.3.5、利用加权特征和前一时刻的状态得到当前时刻的识别结果：

y_t＝FC(s_t-1，g_t)

y_t表示t时刻的识别结果，FC表示全连接层；

S4.3.6、更新LSTM的状态特征：

s_t＝LSTM(s_t-1，g_t，y_t)

其中，s_t表示t时刻的LSTM的状态特征。

优选的，所述步骤S5的识别模型训练方式采用自适应梯度下降方法，参数公式如下：

x_t＝x_t-1-g′_t

其中，g_t是第t次迭代时的梯度，x_t是第t次迭代时需要更新的权重，s_t、Δx_t和g′_t为中间状态变量，ρ和ε为超参数；

优选的，所述步骤S6包含以下步骤：

S6.1、根据权利要求4所创建的卷积神经网络结构，计算出特征序列中每一个点的坐标({x_fi}_{i＝0，1...，L}，1)对应回原图的坐标({x_si}_{i＝0，1...，L}，{y_fi}_{i＝0，1...，L})；具体的计算方式是通过卷积神经网络中相邻两层之间的坐标映射关系逐层计算，假设(x_l+1，y_l+1)是第l+1层网络中的坐标，第l层网络中的坐标(x_l，y_l)计算公式如下：

其中，k_l是第l层网络的核大小，p_l是第l层网络贴边尺寸；

S6.2、将待分割的文本行图像输入到已训练完成的识别模型中，得到注意力机制的权重概率分布为α，假设权重概率分布为α为{α_it}_{i＝0，1...，L，t＝1，2，...，T}，其中L是特征序列的长度，T是时间点的个数；在每个时间点，将权重概率分布为a与S6.1得到的原图对应坐标({x_si}_{i＝0，1...，L}，{y_si}_{i＝0，1...，L})进行点乘，就得到该时间点注意力模块所关注的位置坐标(x_αt，y_αt)，计算公式如下：

通过上述的注意力机制坐标映射计算每一个时间点，都能在原图上找到一个关注点，即所述关注点为文本行中所有单字的中心位置。

S6.3通过特征序列上像素点对应回原图的感受野大小来确定单字检测框的尺寸，假设第i层的感受野尺寸为r_i，则相邻层之间感受野尺寸的对应关系如下式计算：

r_i(r_i+1-1)×S_i+K_i

其中，K表示卷积或者聚合层核的大小，S表示步长；计算出特征序列上的一个点对应回原图S的感受野大小r_sh×r_sw，那么单字检测框的高h_d和宽w_d由以下公式计算：

h_d＝r_sh×β_h

w_d＝r_sw×β_w

其中，β_h是高度缩放因子，β_w是宽度缩放因子；通过以上计算，每一个单字的位置可由一个中心点为(x_αt，y_αt)，高度为h_d，宽度为w_d的矩形框确定。

本发明公开了以下技术效果：

1、本发明使用基于注意力机制的序列识别模型来识别文本行图像，该模型的鲁棒性好，识别率高；

2、本发明利用注意力机制中的权重概率分布，在识别文本行内容的同时，能够将文本行中的单字分割出来；

3、本发明提出的单字分割模型的训练数据只需要标注文本内容，而不需要标注单字的位置，节省了大量人力，实现了弱监督的文本行单字分割。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图；

图2为本发明序列识别模型示意图；

图3为本发明单字分割方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参见图1，以中文古籍文本行图像的识别与分割问题为例，本发明公开了一种基于注意力机制的文本行单字分割方法，包括以下步骤：

S1、收集文本行训练图像

收集的中文古籍文本行图像来自于高丽藏大藏经，文本行图像是从高丽藏大藏经的扫描件中按列切分得到的。训练集共有约30万张文本行图像，标签是文本行内容，文本行中所包含的文字类别数为6025；

S2、对图像尺寸归一化；

将所有文本行图像的尺寸归一化到h_s×w_s，h_s设置为100，Ws设置为1000；

S3、对训练图像做数据增广，数据增广的方式主要包括以下几种：

S3.1、高斯模糊：对输入图像做随机高斯模糊，模糊核的半径为3-5个像素；

S3.2、改变亮度和对比度：随机改变输入图像的亮度和对比度，公式如下：

g(i，j)＝α×f(i，j)+β

其中，g(i，j)表示处理后的图像上坐标为(i，j)的像素点的像素值，f(i，j)表示处理前的原图像上坐标为(i，j)的像素点的像素值，α表示对比度系数，β表示亮度系数，α的范围为0.5-1.5，β的范围为0-49，；

S3.3、图像旋转：对输入图像做随机旋转处理，图像旋转角度范围为-5°-5°；

S3.4、动态模糊：对输入图像做动态模糊，模糊核半径的范围为7-9个像素。

S4、创建基于注意力机制的文本行识别网络，具体包含以下步骤：

S4.1、全卷积神经网络编码器

全卷积神经网络编码器的作用是从文本行图像中提取特征序列，用于后续的解码。全卷积神经网络编码器包含了6个依次连接的卷积层结构，前面的5个卷积层结构分别包含一个卷积层，一个ReLU激活函数以及一个聚合层。卷积层的作用是提取特征，聚合层的作用是减少网络参数和计算量，防止过拟合。每个聚合层都使网络中的特征图尺寸减小一半，归一化后的图像尺寸为h_s×w_s，则每一个卷积层输出的特征图尺寸分别为

最后一个卷积层结构包括一个卷积层，一个ReLU激活函数以及一个BN层，BN层能够加快训练速度，提高网络的泛化性能。为了方便后续使用LSTM提取语义特征，设计该卷积层的参数，使得输出的特征图高度为1，宽度为W_e；

全卷积神经网络编码器的结构如下表所示：

在上表中，maps表示输出特征图的维度，K表示卷积层/聚合层的核尺寸，S表示步长，P表示补零(Padding)的大小。

S4.2、构建循环神经网络提取特征序列中的语义信息

将步骤S4.1提取的一维特征序列输入到两层双向循环神经网络BLSTM中，用于提取特征序列中的上下文语义信息，增强特征的表达能力，此外，两层BLSTM都配备了Dropout层，用于缓解过拟合，两层BLSTM的输出维度均为256；

S4.3、基于注意力机制的解码器

解码器包括注意力机制模块，循环神经网络LSTM和全连接层，在LSTM的每一个时间点，注意力机制模块根据LSTM的状态特征和输入的特征序列生成一个权重概率分布，来决定特征序列中每一个位置的权重。随后，根据权重概率分布α和特征序列h可以得到当前时刻的加权特征，再利用一个全连接层将加权特征解码输出，得到当前时刻的识别结果，循环每个时间点，即可得到最终的识别结果；

参见图2，上述步骤S4.3的解码过程可以分为以下几个步骤：

S4.3.1、首先，假设特征序列为h，其长度为L，LSTM的状态特征(上下文信息)为s，注意力机制生成的权重概率分布为α，权重概率分布为α和特征序列h计算得到的加权特征为g，解码器的输出为y；

e_t，j＝ω^Ttanh(Ws_t-1+Vh_j+b)

上式中，e_t，j表示t时刻特征序列的j位置h_j对应的权重，ω^T，W和V是待学习权值，b表示待学习偏置值，s_t-1表示t-1时刻的状态特征；

S4.3.3、用Softmax函数对步骤S4.3.2中的权重e_t，j做归一化处理，算出的权重做归一化，得到当前时刻特征序列每个位置的概率，即权重概率分布α：

S4.3.4、根据权重概率分布α和特征序列得到加权特征：

其中，g_t表示t时刻特征序列h对应的加权特征；

y_t＝FC(s_t-1，g_t)

其中，y_t表示t时刻的识别结果，FC表示全连接层；

S4.3.6、更新LSTM的状态特征：

s_t＝LSTM(s_t-1，g_t，y_t)

其中，s_t表示t时刻的LSTM的状态特征。

S5、通过大量训练数据训练得到识别模型；

神经网络模型采用自适应梯度下降方法，参数更新公式如下：

x_t＝x_t-1-g′_t

其中，g_t是第t次迭代时的梯度，xt是第t次迭代时需要更新的权重，s_t，Δx_t和g′_t为中间状态变量，ρ和ε为超参数，ρ设置为0.9，ε设置为0.000001；

S6、将待分割文本行图像输入到识别模型中，通过注意力机制的权重概率分布计算单字分割结果。步骤S6包含以下步骤：

S6.1、根据权利要求4所构建的卷积神经网络结构，计算出特征序列中每一个点的坐标({x_fi}_{i＝0，1...，L}，1)对应回原图的坐标({x_si}_{i＝0，1...，L}，{y_fi}_{i＝0，1...，L})。具体的计算方式是通过卷积神经网络中相邻两层之间的坐标映射关系逐层计算，假设(x_l+1，y_l+1)是第l+1层网络中的坐标，第l层网络中的坐标(x_l，y_l)计算公式如下：

其中，k_l是第l层网络的核大小，p_l是第l层网络贴边尺寸。

S6.2、将待分割的文本行图像输入到已训练完成的识别模型中，得到注意力机制的权重概率分布α，假设权重概率分布α为{α_it}_{i＝0，1...，L，t＝1，2，...，T}，其中L是特征序列的长度，T是时间点的个数。在每个时间点，将权重概率分布α与步骤S6.1得到的原图对应坐标({x_si}_{i＝0，1...，L}，{y_si}_{i＝0，1...，L})进行点乘，就可以得到该时间点注意力模块所关注的位置(x_αt，y_αt)，计算公式如下：

通过上述的注意力机制坐标映射计算，每一个时间点，都能在原图上找到一个“关注点”，事实上该“关注点”就是文本行中所有单字的中心位置。

S6.3、通过特征序列上像素点对应回原图的感受野大小来确定单字检测框的尺寸，假设第i层的感受野尺寸为r_i，则相邻层之间感受野尺寸的对应关系如下式计算：

r_i=(r_i+1)×S_i+K_i

其中，K表面卷积或者聚合层核的大小，S表示步长。通过以上计算，得出特征序列上的一个点对应回原图S的感受野大小r_sh×r_sw，那么单字检测框的高h_d和宽w_d由以下公式计算：

h_d＝r_sh×β_h

w_d＝r_sw×β_w

其中，β_h是高度缩放因子，β_w是宽度缩放因子。

通过以上计算，每一个单字的位置可由一个中心点为(x_αt，y_αt)，高度为h_d，宽度为w_d的矩形框确定。

在本实施例中，β_h取0.5，β_w取0.75，上述确定单字位置的过程参见图3。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于注意力机制的文本行单字分割方法，其特征在于：包括以下步骤：

S1、收集文本行训练图像；

S2、对图像的尺寸做归一化；

S3、对训练图像做数据增广；

S4、创建基于注意力机制的文本行识别网络；

S5、通过大量训练数据训练得到识别模型；

2.根据权利要求1所述的基于注意力机制的文本行单字分割方法，其特征在于，所述步骤S2的尺寸归一化具体为：将所有文本行图像的尺寸归一化到h_s×w_s。

3.根据权利要求1所述的文本行单字分割方法，其特征在于，所述步骤S3的数据增广方式包括以下几种：

S3.1、高斯模糊：对输入图像做随机高斯模糊；

S3.3、图像旋转：对输入图像做随机旋转处理；

S3.4、动态模糊：对输入图像做随机动态模糊。

4.根据权利要求1所述的文本行单字分割方法，其特征在于，所述步骤S4的识别网络的创建包括以下步骤：

S4.1、创建全卷积神经网络编码器

S4.2、构建循环神经网络提取特征序列中的语义信息

S4.3、基于注意力机制的解码器

5.根据权利要求4所述的文本行单字分割方法，其特征在于，所述步骤S4.3的注意力机制的解码计算过程包含以下步骤：

S4.3.1、首先，假设特征序列为h，其长度为L，LSTM的状态特征为s，注意力机制生成的概率分布为a和特征序列h计算得到的加权特征为g，解码器的输出为y；

e_t，j＝ω^Ttanh(Ws_t-1+Vh_j+b)

S4.3.4、根据概率分布和特征序列得到加权特征：

其中，g_t表示t时刻特征序列h对应的加权特征；

y_t＝FC(s_t-1，g_t)

y_t表示t时刻的识别结果，FC表示全连接层；

S4.3.6、更新LSTM的状态特征：

s_t＝LSTM(s_t-1，g_t，y_t)

其中，s_t表示t时刻的LSTM的状态特征。

6.根据权利要求1所述的文本行单字分割方法，其特征在于，所述步骤S5的识别模型训练方式采用自适应梯度下降方法，参数公式如下：

x_t＝x_t-1-g′_t

其中，g_t是第t次迭代时的梯度，x_t是第t次迭代时需要更新的权重，s_t、Δx_t和g′_t为中间状态变量，ρ和ε为超参数。

7.根据权利要求1所述的文本行单字分割方法，其特征在于，所述步骤S6包含以下步骤：

其中，k_l是第l层网络的核大小，p_l是第l层网络贴边尺寸；

S6.2、将待分割的文本行图像输入到已训练完成的识别模型中，得到注意力机制的权重概率分布为α，假设权重概率分布为α为{α_it}_{i＝0，1...，L，t＝1，2，...，T}，其中L是特征序列的长度，T是时间点的个数；在每个时间点，将权重概率分布α与S6.1得到的原图对应坐标({x_si}_{i＝0，1...，L，}{y_si}_{i＝0，1...，L})进行点乘，就得到该时间点注意力模块所关注的位置坐标(x_at，y_αt)，计算公式如下：

r_i＝(r_i+1-1)×S_i+K_i

h_d＝r_sh×β_h

w_d＝r_sw×β_w