CN111126386A

CN111126386A - 场景文本识别中基于对抗学习的序列领域适应方法

Info

Publication number: CN111126386A
Application number: CN201911321106.0A
Authority: CN
Inventors: 周水庚; 林景煌; 程战战
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2020-05-08
Anticipated expiration: 2039-12-20
Also published as: CN111126386B

Abstract

本发明属于人工智能技术领域，具体为一种基于属于机器视觉场景文本识别任务上的领域适应方法。本发明方法包括：构建CNN‑LSTM网络、注意力网络；将两者组合成场景文本识别网络；将自源域与目标域的场景图像输入场景文本识别网络，由CNN‑LSTM从输入的场景图像中提取图像特征，由注意力网络对图像特征进行再编码，提取出每一个字符的对应特征，实现将图像中的文本信息切分成字符级别信息；最后运用基于对抗学习的迁移学习技术，构建域分类网络，与场景文本识别网络共同构成对抗生成网络，最终使模型能够有效适应目标域。本发明充分利用少量目标域标定样本，解决了在实际场景文本识别任务中经常出现的样本稀缺问题，提高识别效果。

Description

场景文本识别中基于对抗学习的序列领域适应方法

技术领域

本发明属于人工智能技术领域，具体涉及场景文本识别中基于对抗学习的序列领域适应方法。

背景技术

随着计算视觉领域的快速发展，场景文本识别的应用覆盖了生活中的各个方面。但是深度学习保证效果的一个很关键因素就是需要提供大量的标定样本，然而在实际中往往仅能提供少量的标定样本。常见的解决方法是采用已有的拥有大量样本的相关场景的样本参与训练，但是由于场景间的差异，其效果常是不尽人意。目前已有的关于领域适应的方法有一个共同的问题，就是它们都是针对计算机视觉任务中的分类任务上的，通过类似对抗学习的方法或者其他方法，减少源域与目标域之间的差异，最终在目标域上取得最佳效果。但是对像文本识别这样的序列识别任务无能为力。

术语解释：

对抗学习(Adversarial Learning)：通过一种交替迭代的训练方式，最终使模型能够生成以假乱真的目标(特征表示、图像等)。常用于图像生成、图像超分辨、领域适应等领域。

领域适应(Domain Adaptation)：是迁移学习的一种，利用信息丰富的源域样本，通过减少领域间分布差异等手段，来提升目标域模型的性能。

迁移学习(Transfer Learning)：运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。

序列到序列学习(Sequence to Sequence Learning)：也简称为序列学习，指将输入的序列数据进行识别、转换等生成输出序列的参数化机器学习方法，广泛用于机器翻译、语音识别、OCR等领域。

源域：与目标域任务相似，拥有大量样本的场景；

目标域：仅少量的标定样本的场景；

注意力模型(Attention Model，AM)：是一种对齐模型，能够实现Target与关键特征的对齐，具体表现在目标词与原图对应区域的对齐。

发明内容

本发明的目的在于提出一种能够适应目标域、提高识别效果的基于对抗学习的序列领域适应方法。

本发明提出的基于对抗学习的序列领域适应方法，其基本步骤为：

首先，构建一个CNN-LSTM网络作为编码器，构建一个注意力网络作为解码器；将两者组合成一个场景文本识别网络，并在注意力网络中添加一个注意力松弛结构；

然后，将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络，由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征，再由注意力网络对图像特征进行再编码，提取出每一个字符的对应特征，实现将图像中的文本信息“切分”成字符级别信息；

然后运用基于对抗学习的迁移学习技术，构建一个域分类网络，与上述场景文本识别网络共同构成一个对抗生成网络，让注意力网络最小化源域与目标域的差异，最终使模型能够有效适应目标域，充分利用少量的目标域的标定样本，解决标定样本过少的问题。

本发明方法关注了场景文本识别过程中对于特定领域识别能力薄弱的缺陷，结合注意力网络与对抗学习的特点，使在有大量训练数据的源数据集上训练的场景文本识别网络，能够有效地在仅有少量数据的目标场景下同样拥有良好的识别效果，图1展示了本发明的主要架构，本发明的整个网络架构包括一个编码器，解码器以及一个域分类网络；其中：

所述编码器(CNN-LSTM网络)：其基干为多层神经网络组成，每一层为卷积神经网络，正则化结构以及非线性激活函数；其主要功能的提取图像特征，将数据从原始特征空间映射到高维的抽象特征空间；其后为一个长短期记忆网络，其功能为将上述特征的上下文依赖加以解析，对特征重新编码。其工作方式为：

X＝(x₁,…,x_M)表示为编码信息，其过程如图2-1中的Step 1所示。经过编码，可以得到原始信息的编码序列(约定为特征序列)，其中每个特征都对应原图中的某个区域。

所述解码器(注意力网络)，由注意力结构，长短期记忆网络以及注意力松弛结构构成；用于对编码器输出的特征，进行注意力处理，输出图像中每个字符对应的特征，用于后续的识别。注意力结构与长短期记忆网络为其结构主体，对编码器输出特征进行处理，逐字符输出对应特征，主要工作方式为：

e_t,j＝w^Ttanh(Ws_t-1+Vh_j+b)

注意力松弛结构主要解决了注意力结构原有的容易导致过于把注意力集中在一个过于狭窄的区域，工作方式为：

其中，λ∈[0,1]为一个可以调整的超参数，控制了保留的注意力的程度。η∈Z⁺控制了注意力的松弛范围。A(t,j±i)表示了与当前特征相邻的注意力权重。其效果简要效果可参考图2。

所述域分类网络，由双层神经网络组成，为全连接神经网络与非线性激活函数；主要功能为对注意力网络输出的源域与目标域字符特征进行分类，判断其来源，用于与场景文本识别网络进行对抗学习，使得场景文本识别网络能够有效地在目标域识别。

整个模型的算法具体步骤如下。

步骤1，将源域与目标域的图片原文件先进行缩放，得到固定大小的图像。并对图像进行数据预处理(对数据进行标准化处理，减均值除标准差)，目标域的数据还需要分成训练集与测试集，源域中的数据全部作为训练集。

步骤2，将训练集中的所有样本打乱顺序，每次按照固定的比例分别从源域与目标域中选取一批图像输入输入到编码器中进行初步的编码与特征提取。

步骤3，对于提取的特征，利用注意力网络结构进行特征的在编码，获得字符特征序列，经过后续的网络结构直接进行分类，获得识别的文本结果。

步骤4，对于整体网络模型的参数，使用源域的图像进行预训练，其基本的模型训练优化函数如下：

其中，I为预测的文本序列结果，

为文本标定中的第t个字符，θ_att为所有编码器与注意力网络的参数。对该优化目标函数计算关于模型参数的导数，并进行反向传播更新参数；参数更新的优化算法为ADAM算法。

步骤5，使用源域数据，并使用步骤2，步骤3，步骤4的方式训练，获得模型的初始化参数。

步骤6，源域与目标域的图像与步骤5类似的特征提取方式，唯一的区别在于，其在原本的注意力结构中，添加并使用注意力松弛结构，提取字符特征序列。

步骤7，对步骤6中的字符特征序列，通过采样产生一系列特征对；特征对是本发明的一个重点，本发明的生成对抗策略是通过混淆不同类的特征对，进而实现源场景到目标场景的迁移；其中每个特征对由2个字符特征组成，特征对总共分为4个类别，如图3所示，根据特征的不同来源以及不同类别，特征对具体分为：

同场景(均为源场景)、同一(字符)类别；

不同场景(第一个特征为源场景，第二个为目标场景)、同一类别；

同场景、不同类别；

不同场景、不同类别。

步骤8，对域分类网络进行预训练，即对上述特征对进行分类，损失函数为Softmaxloss，记为

训练域分类网络参数。

其中域分类网络为一个4分类器，该损失函数的目的在于使其能够正确区分这4组特征对，掌握不同类的特征对间的差异。

步骤9，对场景文本识别网络的参数进行更新，使用对抗学习训练方式训练，具体分为以下两个子过程：

(1)判别过程：更新域识别网络参数，训练方式与步骤8相同，即使用

作为损失函数；

(2)生成过程：更新编码器与注意力网络中参数，其具体损失函数为：

该损失函数的作用在于使域分类网络难以区分(或混淆)

与

以及

与

由图3中的例子所示，以

与

的混淆为例，假设域分类网络已经经过良好训练，能够正确区分上述4个类别。上述损失函数

使得来自

的特征对逐渐向

靠近，也就是注意力网络逐渐忽略源域与目标域的差异，更倾向于关注源域与目标域的共性；

通过以上两个子过程，训练完毕后可以使得场景文本识别网络在保留识别效果的情况下，同时来自源场景与目标场景的样本逐渐不可区分。

步骤10，训练完毕的模型可用于在仅有少量样本的目标域进行识别，相比于仅在目标域训练的网络模型，能够非常有效地提高识别效果。

本发明方法框架简单、使用方便、可扩展性强、可解释性强，在四个场景文本数据集进行了实验，达到或超过现有最好方法的水平。本发明方法解决了在实际场景文本识别任务中经常出现的样本稀缺问题，使得模型能够适应目标域，提高识别效果。

附图说明

图1为本发明的整体网络模型的架构图。

图2为本发明的注意力松弛效果图。

图3为本发明的特征配对机制图示。

图4位在不同的目标域大小下正确率增幅变化。

具体实施方式

下面通过具体例子，进一步介绍本发明方法，并进行性能测试与分析。

本发明提供的序列领域适应方法，是基于深度神经网络的端到端训练的有监督学习的方法，需要预先准备好用于训练的源域数据以及目标域数据。

本发明方法的具体步骤如下：

其中，I为预测的文本序列结果，

步骤7，对步骤6中的字符特征序列，通过采样产生一系列特征对。特征对是本发明的一个重点，本发明的生成对抗策略是通过混淆不同类的特征对，进而实现源场景到目标场景的迁移。

训练域分类网络参数；

作为损失函数；

性能测试与分析

实验分别选取了四个视频数据集用于方法的分析：Street View Text、ICDAR2003、ICDAR2013和ICDAR 2015。以下分别简称为SVT、IC03、IC13、IC15。SVT是从谷歌街景中收集的数据集，包含了257张训练图像以及647张测试图像。IC03为ICDAR比赛的数据集，包含936张训练图像以及867张测试图像。IC13、IC15分别为ICDAR2003的后续比赛，分别包含训练图像数据680张和4066张，测试图像数据1015张和1811张。

2、训练设置及超参数设置

本发明使用的网络的基干网络模型包括VGG网络模型(7层卷积神经网络)以及ResNet网络模型，输出的类别包括26个英文字符，10个数字字符以及1个结束符。MCD模块包括了3层的全连接网络，通道大小分别为1024，1024，4个。网络主要使用了ADADELTA以及Adam的优化方法训练，批大小设置为64个样本，图像均缩放为256*32的大小。

实验均采用单张24G显存的Nvidia TeslaP40，神经网络通过Caffe框架实现。

3.对比方法

为了比较本发明方法的性能，我们选择和目前最好的一些文本识别的方法进行对比，以及通用的FineTune方法作为比较。本发明的方法缩写为FASDA(Few-shotAdversarial Sequence Domain Adaptation)。

4、性能测试结果

评价指标：本实验采用准确率作为算法性能的评价指标。对数据集内的所有图像计算出相应的指标，计算准确率即可，具体见表1、2。

FASDA在多个数据集上都达到了更佳的效果。可以看出本发明的方法在这些数据集上都能够提高正确率，在部分实验上甚至能够提高超过5％的正确率。

本发明方法也与目前最好的方法效果进行了比较，具体见表3。

表3中我们的方法在很多实验上均取得了最佳的效果，同时与其他方法不同。其他方法均对网络结构进行了改动，也就是说明他们的方法需要更大的计算量，而本发明中，仅仅在训练的时候需要添加参数，该方法在实际运用中可以将训练添加的参数完全移除，剩余部分与普通食物基于注意力的识别网络结构相同，但是能够取得更好的识别结果。

此外，本发明方法也对具体的提升幅度进行探究，具体见图4。

本发明方法在目标域数据极少时效果不明显，但是稍微提高目标域数据的情况下，本发明能够迅速的提升正确率，但同时随着目标域数据的持续增长，正确率增幅会逐渐减小，这是因为在足够的数据下，领域迁移的效果会逐渐不明显，但是本方法与传统的FineTune方法还是有很明显的提升效果。

本发明的核心创新是：提出了一种能够运用在场景文本识别上的基于对抗学习的序列领域适应方法。其带来的有益效果是：解决在实际场景文本识别任务中经常出现的样本稀缺问题，通过提出的方法，使得模型能够适应目标域，提高识别效果。

表1在通用数据集上对比FineTune与FASDA

Method	SVT	IC03	IC13	IC15
					Source Only	19.6	44.1	46.8	14.5
FT w/T	23.9	46.9	49.7	15.5
					FT w/S+T	25.1	52.3	51.1	16.4
FASDA-CR	27.5	55.8	54.9	18.6
					FASDA-CR<sup>+</sup>	28.8	56.8	56.6	19.1
FASDA-IA-CR<sup>+</sup>	29.4	58.1	57.5	19.2

表2在私有数据集上对比FineTune与FASDA

表3，发明方法与目前最好的方法效果比较