CN115439859A

CN115439859A - 一种基于字符移动任务的自监督文本识别方法

Info

Publication number: CN115439859A
Application number: CN202211017001.8A
Authority: CN
Inventors: 金连文; 张晓怡; 汪嘉鹏; 薛洋
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-08-23
Filing date: 2022-08-23
Publication date: 2022-12-06
Anticipated expiration: 2042-08-23
Also published as: CN115439859B

Abstract

本发明公开了一种基于字符移动任务的自监督文本识别方法，包括以下步骤：首先移动手写单词图像中的字符，然后预测字符移动的像素值，通过电子设备获得手写单词的图像，然后对单词图像进行数据增强和字符移动，再构建神经网络来进行预训练，分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类，最后，文本识别模型读入预训练阶段的编码器参数来对手写单词图像及对应标签进行微调训练；本发明设计的字符移动任务通过辅助整词级别的对比学习可以有效地在预训练阶段学习到单词图像的特征表示，从而在网络微调阶段达到收敛速度更快和识别率更高的效果。

Description

一种基于字符移动任务的自监督文本识别方法

技术领域

本发明属于模式识别与人工智能技术领域，特别涉及一种基于字符移动任务的自监督文本识别方法。

背景技术

文本识别对于各种纸质文档数字化具有重要意义。目前大多数的文本识别模型都是基于全监督的训练方法，这种方法依赖大量的标注数据，而数据的标注需要耗费大量的人力物力。同时，现在随着互联网技术的发展，数据的获取更加简单，数据的规模甚至可以达到万亿级。对于这些无标注数据，进行人工标注是不现实的，所以探索一种自监督的、无需使用人工标注的训练方式是非常必要的。

近几年随着各种深度学习技术的发展，基于对比学习的自监督学习方法在通用目标的检测和识别展现出了巨大的潜力。它通过将同一张图像的不同数据增强方式的图像进行对比学习来学习到通用目标的特征表示，从而可以加速下游任务的收敛速度，也可以达到少量的训练数据实现较好的任务效果。

目前，针对手写文本，基于对比学习的自监督学习方法SeqCLR方法(Aberdam A，Litman R，Tsiper S，et al.Sequence-to-sequence contrastive learning for textrecognition[C].In：Proceedings of the IEEE Conference on Computer Vision andPattern Recognition(CVPR)，2021.15302-15312.)利用了文本的序列化组成的特点，在特征提取后加入了实例映射函数来使文本的特征向量序列化，然后进行对比学习来学习文本的特征表示。但是，SeqCLR方法在序列化过程中会存在对原始文本的过分割和欠分割的现象，所以这种序列化的方式其实是不够准确的。此外，SeqCLR方法也没有很好地利用原始的文本图像的独特先验知识。

发明内容

本发明的目的是为了有效利用深度网络模型的特征表示能力和手写文本图像的独特属性，学习文本图像数据样本的分布，从而实现了一种自监督文本识别方法。该方案具有加快下游任务收敛和提高识别准确性等特点，具有很高的使用价值。

本发明至少通过如下技术方案之一实现。

一种基于字符移动任务的自监督文本识别方法，包括以下步骤：

(1)通过电子设备获取手写单词的图像；

(2)对单词图像进行数据预处理；

(3)对单词图像进行字符定位、字符选取和字符移动，然后确定字符移动的标签；

(4)构建神经网络进行预训练，分别是对同一张原图的不同数据增强的图像进行对比学习和对经过字符移动的图像进行分类；

(5)将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，然后使用文本识别模型对手写单词图像及标签进行调整。

进一步地，使用能够手写输入的电子设备获得手写单词的灰度图像。

进一步地，所述步骤(2)的预处理是对原图I进行数据增强T(·)，包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化，其中各增强方式的相关参数每次在设置的范围内随机选取；在设置范围内随机选取一组参数t₁，得到第一图像

在设置范围内随机选取一组参数t₂，得到第二图像

然后对第一图像I_k和第二图像I_q进行图像大小调整，调整为H×W，其中H为图像高度，W为图像宽度；然后将第一图像I_k归一化到[0，1]。

进一步地，所述步骤(3)的字符定位包括以下步骤：

(311)对于第二图像I_q，通过垂直投影得到垂直投影分布Sta；

首先对第二图像I_q进行自适应二值化，然后归一化到[0，1]，这时文本所在的区域值为1，再进行行求和得到垂直投影分布Sta；

(312)对于垂直投影分布Sta中小于数值m的数置零，其中m取Sta中倒数第二小的投影值，然后从垂直投影分布Sta中得到字符块区域集U＝{u₁，u₂，...，u_i...，u_l}，其中u_i定义为字符块区域，即投影值非零的连续区域；l表示字符块区域数量。

进一步地，所述步骤(3)的字符选取包括以下步骤：

(321)从字符块区域集U中随机选取两个位置loc_b和loc_a分别作为字符移动前所在位置和字符移动的目标位置，关于loc_b和loc_a的选取分为以下三种情况：

如果|U|＝0，说明没有字符块区域，令m为Sta中最小的投影值，返回步骤(312)继续求得字符块区域集U；

如果|U|＝1，说明只有一个字符块区域，即U＝u₁，此时，从u₁的前40％的位置h₁和后40％的位置h₂中各选取一个位置，然后再将这两个位置随机作为loc_b和loc_a；

如果|U|≥2，说明有两个及以上的字符块区域，此时，从U中随机选取两个字符块区域u_b和u_a分别作为字符所在的初始字符块区域和移动的目标字符块区域；然后从u_b中随机选定一个位置作为loc_b，从u_a中随机选定一个位置作为loc_a；

(322)确定需要移动的字符宽度，最终选取出需要移动的字符图像；初始的需要移动的字符图像半宽设定为：

其中W为第二图像I_q的宽度；设定字符移动的目标位置loc_a与图像边界的最小距离为border_a，字符移动前所在位置loc_b与图像边界的最小距离为border_b，需要移动的字符图像的半宽为：

w_move＝min(w_ini，border_a，border_b) (1)

选取出需要移动的字符图像为：

img_b＝I_q[0：H，loc_b-w_move：loc_b+w_move]

其中H为第二图像I_q的高度，w_move为需要移动的字符图像的半宽。

进一步地，所述步骤(3)的字符移动包括以下步骤：

字符移动的目标位置原图片为：

img_a＝I_q[0：H，loc_a-w_move：loc_a+w_move]

将需要移动的字符图像img_b以1-λ的比例叠加到第二图像I_q的img_a上，第二图像I_q的其他位置保持不变，然后得到移动图像MI，即

img_a＝λimg_a+(1-λ)img_b (2)

其中λ表示叠加比例，0＜λ＜1。

进一步地，确定字符移动的标签具体为：

字符移动的像素值pixel_move＝loc_a-loc_b，当pixel_move＜0时，表示字符向左移动；当pixel_move＞0时，表示字符向右移动；将字符移动任务定义为分类任务，令分类的标签label＝pixel_move+W，其中W为第二图像I_q的宽度。

进一步地，所述神经网络包括编码映射模块Q、动量编码映射模块K和多层感知器；

所述编码映射模块Q包括编码器E和映射器，编码映射模块Q根据随机梯度下降优化器来训练；将编码映射模块Q中编码器E的输出特征输入到多层感知器中，然后将输出的特征向量进行分类以预测图像中字符移动的像素值；

所述动量编码映射模块K与编码映射模块Q具有相同网络结构，使用编码映射模块Q的参数进行动量更新；设编码映射模块Q中编码器E和映射器的参数为θ_q，动量编码映射模块K中编码器和映射器的参数为θ_k，动量更新的公式为：

nθ_k+(1-n)θ_q→θ_k (3)

其中n表示动量大小，0＜n＜1。

进一步地，神经网络的预训练包括：将经过数据增强

后得到的第一图像I_k和经过数据增强

以及字符移动后得到的移动图像MI分别经过动量编码映射模块K与编码映射模块Q，然后计算损失值，损失函数的公式为：

其中，C为负样本的长度；τ为超参数；MI_q为经过编码映射模块Q后的特征向量；k₊是经过动量编码映射模块K后的特征向量，是MI_q的正样本，与MI_q来自同一张原图；k_i是经过动量编码映射模块K后的特征向量，是MI_q的负样本，即与MI_q不来自同一张原图，i＝1...C；

对于负样本，预设一个负样本的大小，然后将每次经过动量编码映射模块K后的特征向量进行存储，在达到预设的负样本量之后，将最先存储的特征向量进行删除，然后储存新的特征向量；

对于经过数据增强

以及字符移动后得到的移动图像MI，除了将其经过编码映射模块Q的输出向量参与公式(4)的计算外，还会将编码映射模块Q中编码器E的输出特征输入到多层感知器中，然后将多层感知器输出的特征向量进行分类来预测图像中字符移动的像素值，分类的公式为：

其中N为批大小；y_i为移动图像MI对应的字符移动标签的one-hot向量；p_i为多层感知器预测出的概率向量，计算公式为：

其中F(MI_i)为一个批中第i张移动图像MI经过编码映射模块Q的编码器E和多层感知器的输出特征向量；MI_i为一个批中第i张移动图像MI；MI_j为一个批中第j张移动图像MI；最终总的损失函数为

其中α为超参数。

进一步地，文本识别模型采用编码器-解码器的结构，文本识别模型的编码器的结构与编码映射模块Q的编码器E相同；

训练过程需要先将步骤(4)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，而解码器的参数随机初始化，然后再根据输入的手写单词图像和对应标签对整个文本识别模型进行微调训练。

与现有的技术相比，本发明的有益效果为：

(1)本发明针对手写文本图像的独特属性，提出一个字符移动任务。通过移动文本图像中的字符，然后使网络预测字符移动的像素值，从而实现字符级别的特征学习。

(2)本发明的预训练阶段通过字符级别和整词级别这两个层次来联合学习手写文本图像的特征表示，从而学习到有效的文本图像表征。

(3)预训练阶段无需使用人工标注数据，从而节省大量的人力物力，并且可以利用成千上万的无标注数据，具有重大的应用价值。

(4)本发明预训练阶段得到的编码器参数可以加快下游的文本识别任务的收敛速度，并且达到更好的识别准确率。

附图说明

图1是实施例一种基于字符移动任务的自监督文本识别方法的流程示意图；

图2是实施例的深度模型示意图；

图3是实施例的字符移动示例图。

具体实施方式

下面结合实施例和附图对本发明做进一步地说明，但本发明的实施方式不限于此。

实施例1

本实施例的一种基于字符移动任务的自监督文本识别方法如图1所示，包括下列步骤：

(1)数据获取：使用手机、平板等可以手写输入的电子设备获得手写单词的灰度图像。由于后续的字符定位是通过垂直投影来定位，所以这里获得由字母横向序列化组合成为单词的语言，如英语、德语、法语等。

(2)数据处理，包括以下步骤：

(2-1)对原图I分别进行两次数据增强并调整图像大小为H×W，其中H为图像高度，W为图像宽度，然后得到第一图像I_k和第二图像I_q。数据增强包括仿射变换、笔画抖动、笔画覆盖和笔画粗细变化等，其中各增强方式的相关参数每次在特定范围内随机选取。例如对于仿射变换的放缩的范围是[0.5，1.05]，对于笔画抖动的抖动范围是图片宽度的[0.2，0.5]，对于笔画覆盖的旋转叠加角度是[-8，8]，对于笔画粗细变化是原始粗细的倍数范围是[0.2，3]。

(2-2)对于第二图像I_q，通过垂直投影得到垂直投影分布Sta。

首先对第二图像I_q进行自适应二值化，然后归一化到[0，1]。这时文本所在的区域值为1，再进行行求和得到垂直投影分布Sta，该分布可以反映单词图像中各字符的大致位置。

(2-3)为粗略消除手写笔画黏连问题，对于垂直投影分布Sta中小于数值m的数置零，其中m可取Sta中倒数第二小的投影值。然后从垂直投影分布Sta中就可以得到字符块区域集U＝{u₁，u₂，...，u_i...，u_l}，其中u_i定义为字符块区域，即投影值非零的连续区域；l表示字符块区域数量。

(2-4)从字符块区域集U中随机选取两个位置loc_b和loc_a分别作为字符移动前所在位置和字符移动的目标位置。关于loc_b和loc_a的选取分为以下三种情况：

如果|U|＝0，说明没有字符块区域。令m为Sta中最小的投影值，返回步骤(2-3)继续求得字符块区域集U。

如果|U|＝1，说明只有一个字符块区域，即U＝u₁。此时，从u₁的前40％的位置h₁和后40％的位置h₂中各选取一个位置，然后再将这两个位置随机作为loc_b和loc_a。

如果|U|≥2，说明有两个及以上的字符块区域。此时，从U中随机选取两个字符块区域u_b和u_a分别作为字符移动前后的字符块区域。然后从u_b中随机选定一个位置作为loc_b，从u_a中随机选定一个位置作为loc_a。

(2-5)确定字符移动的宽度，然后将需要移动的字符叠加到移动的目标位置上。

初始的字符移动半宽为

其中W为图像I_q的宽度。设定位置loc_a与图像边界的最小距离为border_a，位置loc_b与图像边界的最小距离为border_b。最终的字符移动的半宽为

w_move＝min(w_ini，border_a，border_b) (1)

此时需要移动的字符图片为：

img_b＝I_q[0：H，loc_b-w_move：loc_b+w_move]

其中H为第二图像I_q的高度，w_move为需要移动的字符图像的半宽，由公式(1)得到。

字符移动的目标位置原图片为：

img_a＝I_q[0：H，loc_a-w_move：loc_a+w_move]

最后将需要移动的字符图像img_b以1-λ的比例叠加到第二图像I_q的img_a上，第二图像I_q的其他位置保持不变，然后得到移动图像MI，即

img_a＝λimg_a+(1-λ)img_b (2)

其中λ表示叠加比例(0＜λ＜1)。

(2-6)确定字符移动的标签。

字符移动的像素值pixel_move＝loc_a-loc_b。当pixel_move＜0时，表示字符向左移动；当pixel_move＞0时，表示字符向右移动。这里将字符移动任务定义为分类任务，令分类的标签label＝pixel_move+W，其中W为图像I_q的宽度。由于先将图像I_q调整宽度为W再进行字符移动，所以左右移动像素的最大值为W，分类的类别数为2W+1。

(3)网络预训练，包括以下步骤：

(3-1)构建神经网络，包括编码器、映射器和多层感知器。所述编码器，如表1所示。映射器包括节点数为512和128的全连接层，如表2所示。多层感知器结构如表3所示，包括节点数为512和201的全连接层。

表1编码器结构

表2映射器结构

网络层	具体设置	特征图尺寸
			全连接层	节点数512	512×512
全连接层	节点数128	512×128

表3多层感知器结构

网络层	具体设置	特征图尺寸
			全连接层	节点数512	512×512
全连接层	节点数201	512×201

首先由编码器E和映射器组合为编码映射模块Q，此模块根据随机梯度下降优化器来训练。与模块Q具有相同网络结构的动量编码映射模块K使用模块Q的参数来进行动量更新。设模块Q的参数为θ_q，模块K的参数为θ_k，更新的公式为

nθ_k+(1-n)θ_q→θ_k (3)

其中n表示动量大小(0＜n＜1)。

(3-2)进行预训练。图像I_k和图像MI分别经过模块K和模块Q，然后计算损失值，损失函数的公式为

其中，C为负样本的长度，τ为超参数；MI_q为经过编码映射模块Q后的特征向量；k₊是经过动量编码映射模块K后的特征向量，是MI_q的正样本，即与MI_q来自同一张原图；k_i(i＝1...C)是经过动量编码映射模块K后的特征向量，是MI_q的负样本，即与MI_q不来自同一张原图。

对于负样本，会预设一个负样本的大小，然后将每次经过模块K后的特征向量进行存储，在达到预设的负样本量之后，会将最先的那批特征向量进行删除，然后储存新的特征向量。

对于图像MI，会将编码映射模块Q中编码器E的输出特征输入到多层感知器中，然后将输出的特征向量进行分类来预测图像中字符移动的像素值，分类的公式为

其中F(MI_i)为一个批中第i张移动图像MI经过编码映射模块的编码器E和多层感知器的输出特征向量；MI_i为一个批中第i张移动图像MI；MI_j为一个批中第j张移动图像MI。

最终总的损失函数为

其中α为超参数。然后根据以上设置对网络进行预训练。

(4)将预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，然后使用文本识别模型对手写单词图像及标签进行微调。

文本识别模型采用“编码器-解码器”的结构，编码器的结构与步骤(3)预训练的编码器模型结构相同，解码器可以采用基于CTC或者是基于Attention或者是基于Transformer的序列解码器。例如基于Attention的解码器是隐藏层节点数为256的Attention模型。

微调训练过程需要先将步骤(3)预训练得到的神经网络的编码器参数读入到文本识别模型的编码器中，而解码器的参数随机初始化。然后再根据输入的手写单词图像和对应标签对整个文本识别模型进行微调训练。在图2所示的实例中，显示本发明的模型示意图。

本发明首先针对这种过分割和欠分割现象进行改进，即不进行序列化的过程，直接从整词级别的对比学习来有效学习文本图像中的整体表示。同时，本发明还基于手写文本图像的独特先验属性，提出了一个字符级别的字符移动任务，即移动图像中的字符然后预测移动的像素值。本发明通过这个字符级别的移动任务去辅助整词级别的对比学习可以有效地学习到文本图像中的特征表示，从而加快了下游文本识别任务的收敛速度和识别准确性，具有较高的应用价值。

实施例2

本实施例的一种基于字符移动任务的自监督文本识别方法与实施例1的不同是步骤(3-2)的预训练模型中数据获取的不同。其他步骤与实施例1的相同。

本实施例的预训练数据获取是对于一张原图I，连续进行四次不同的数据增强得到四张图像I_k，连续进行四次不同的数据增强和字符移动得到四张图像MI。然后在一个批次中，每次来自相同原图的四张图像I_k会相邻排列输入动量编码映射模块K中进行特征提取；每次来自相同原图的四张图像MI会相邻排列输入编码映射模块Q中进行特征提取。因此，本实施例的批大小是实施例1中的四倍。

实施例3

本实施例的一种基于字符移动任务的自监督文本识别方法与实施例1的不同是步骤(3-2)的预训练模型中数据获取和对比学习损失函数的输入不同。其他步骤与实施例1的相同。

本实施例的预训练数据获取是对于原图I分别进行两次数据增强后得到第一图像I_k和第二图像I_q，然后对第二图像I_q进行字符移动得到图像MI。

然后第一图像I_k和第二图像I_q分别经过动量编码映射模块K和编码映射模块Q，然后计算损失值，损失函数的公式为

其中，C为负样本的长度，τ为超参数；q为图像I_q经过编码映射模块Q后的特征向量；k₊是经过动量编码映射模块K后的特征向量，是q的正样本，即与q来自同一张原图；k_i(i＝1...C)是经过动量编码映射模块K后的特征向量，是q的负样本，即与q不来自同一张原图。

同时，图像MI经过编码映射模块Q中的编码器E和多层感知器，编码器E和多层感知器的结构与实施例1的相同。然后进行分类来预测图像中字符移动的像素值，分类的公式如实施例1的公式(5)所示。

本发明的实施方式并不受上述实施例的限制，其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。