CN111126386A - 场景文本识别中基于对抗学习的序列领域适应方法 - Google Patents

场景文本识别中基于对抗学习的序列领域适应方法 Download PDF

Info

Publication number
CN111126386A
CN111126386A CN201911321106.0A CN201911321106A CN111126386A CN 111126386 A CN111126386 A CN 111126386A CN 201911321106 A CN201911321106 A CN 201911321106A CN 111126386 A CN111126386 A CN 111126386A
Authority
CN
China
Prior art keywords
network
attention
domain
scene
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911321106.0A
Other languages
English (en)
Other versions
CN111126386B (zh
Inventor
周水庚
林景煌
程战战
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN201911321106.0A priority Critical patent/CN111126386B/zh
Publication of CN111126386A publication Critical patent/CN111126386A/zh
Application granted granted Critical
Publication of CN111126386B publication Critical patent/CN111126386B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于人工智能技术领域,具体为一种基于属于机器视觉场景文本识别任务上的领域适应方法。本发明方法包括:构建CNN‑LSTM网络、注意力网络;将两者组合成场景文本识别网络;将自源域与目标域的场景图像输入场景文本识别网络,由CNN‑LSTM从输入的场景图像中提取图像特征,由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息切分成字符级别信息;最后运用基于对抗学习的迁移学习技术,构建域分类网络,与场景文本识别网络共同构成对抗生成网络,最终使模型能够有效适应目标域。本发明充分利用少量目标域标定样本,解决了在实际场景文本识别任务中经常出现的样本稀缺问题,提高识别效果。

Description

场景文本识别中基于对抗学习的序列领域适应方法
技术领域
本发明属于人工智能技术领域,具体涉及场景文本识别中基于对抗学习的序列领域适应方法。
背景技术
随着计算视觉领域的快速发展,场景文本识别的应用覆盖了生活中的各个方面。但是深度学习保证效果的一个很关键因素就是需要提供大量的标定样本,然而在实际中往往仅能提供少量的标定样本。常见的解决方法是采用已有的拥有大量样本的相关场景的样本参与训练,但是由于场景间的差异,其效果常是不尽人意。目前已有的关于领域适应的方法有一个共同的问题,就是它们都是针对计算机视觉任务中的分类任务上的,通过类似对抗学习的方法或者其他方法,减少源域与目标域之间的差异,最终在目标域上取得最佳效果。但是对像文本识别这样的序列识别任务无能为力。
术语解释:
对抗学习(Adversarial Learning):通过一种交替迭代的训练方式,最终使模型能够生成以假乱真的目标(特征表示、图像等)。常用于图像生成、图像超分辨、领域适应等领域。
领域适应(Domain Adaptation):是迁移学习的一种,利用信息丰富的源域样本,通过减少领域间分布差异等手段,来提升目标域模型的性能。
迁移学习(Transfer Learning):运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。
序列到序列学习(Sequence to Sequence Learning):也简称为序列学习,指将输入的序列数据进行识别、转换等生成输出序列的参数化机器学习方法,广泛用于机器翻译、语音识别、OCR等领域。
源域:与目标域任务相似,拥有大量样本的场景;
目标域:仅少量的标定样本的场景;
注意力模型(Attention Model,AM):是一种对齐模型,能够实现Target与关键特征的对齐,具体表现在目标词与原图对应区域的对齐。
发明内容
本发明的目的在于提出一种能够适应目标域、提高识别效果的基于对抗学习的序列领域适应方法。
本发明提出的基于对抗学习的序列领域适应方法,其基本步骤为:
首先,构建一个CNN-LSTM网络作为编码器,构建一个注意力网络作为解码器;将两者组合成一个场景文本识别网络,并在注意力网络中添加一个注意力松弛结构;
然后,将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络,由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征,再由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息“切分”成字符级别信息;
然后运用基于对抗学习的迁移学习技术,构建一个域分类网络,与上述场景文本识别网络共同构成一个对抗生成网络,让注意力网络最小化源域与目标域的差异,最终使模型能够有效适应目标域,充分利用少量的目标域的标定样本,解决标定样本过少的问题。
本发明方法关注了场景文本识别过程中对于特定领域识别能力薄弱的缺陷,结合注意力网络与对抗学习的特点,使在有大量训练数据的源数据集上训练的场景文本识别网络,能够有效地在仅有少量数据的目标场景下同样拥有良好的识别效果,图1展示了本发明的主要架构,本发明的整个网络架构包括一个编码器,解码器以及一个域分类网络;其中:
所述编码器(CNN-LSTM网络):其基干为多层神经网络组成,每一层为卷积神经网络,正则化结构以及非线性激活函数;其主要功能的提取图像特征,将数据从原始特征空间映射到高维的抽象特征空间;其后为一个长短期记忆网络,其功能为将上述特征的上下文依赖加以解析,对特征重新编码。其工作方式为:
Figure BDA0002327174380000021
X=(x1,…,xM)表示为编码信息,其过程如图2-1中的Step 1所示。经过编码,可以得到原始信息的编码序列(约定为特征序列),其中每个特征都对应原图中的某个区域。
所述解码器(注意力网络),由注意力结构,长短期记忆网络以及注意力松弛结构构成;用于对编码器输出的特征,进行注意力处理,输出图像中每个字符对应的特征,用于后续的识别。注意力结构与长短期记忆网络为其结构主体,对编码器输出特征进行处理,逐字符输出对应特征,主要工作方式为:
Figure BDA0002327174380000022
et,j=wTtanh(Wst-1+Vhj+b)
Figure BDA0002327174380000023
Figure BDA0002327174380000024
注意力松弛结构主要解决了注意力结构原有的容易导致过于把注意力集中在一个过于狭窄的区域,工作方式为:
Figure BDA0002327174380000031
Figure BDA0002327174380000032
其中,λ∈[0,1]为一个可以调整的超参数,控制了保留的注意力的程度。η∈Z+控制了注意力的松弛范围。A(t,j±i)表示了与当前特征相邻的注意力权重。其效果简要效果可参考图2。
所述域分类网络,由双层神经网络组成,为全连接神经网络与非线性激活函数;主要功能为对注意力网络输出的源域与目标域字符特征进行分类,判断其来源,用于与场景文本识别网络进行对抗学习,使得场景文本识别网络能够有效地在目标域识别。
整个模型的算法具体步骤如下。
步骤1,将源域与目标域的图片原文件先进行缩放,得到固定大小的图像。并对图像进行数据预处理(对数据进行标准化处理,减均值除标准差),目标域的数据还需要分成训练集与测试集,源域中的数据全部作为训练集。
步骤2,将训练集中的所有样本打乱顺序,每次按照固定的比例分别从源域与目标域中选取一批图像输入输入到编码器中进行初步的编码与特征提取。
步骤3,对于提取的特征,利用注意力网络结构进行特征的在编码,获得字符特征序列,经过后续的网络结构直接进行分类,获得识别的文本结果。
步骤4,对于整体网络模型的参数,使用源域的图像进行预训练,其基本的模型训练优化函数如下:
Figure BDA0002327174380000033
其中,I为预测的文本序列结果,
Figure BDA0002327174380000034
为文本标定中的第t个字符,θatt为所有编码器与注意力网络的参数。对该优化目标函数计算关于模型参数的导数,并进行反向传播更新参数;参数更新的优化算法为ADAM算法。
步骤5,使用源域数据,并使用步骤2,步骤3,步骤4的方式训练,获得模型的初始化参数。
步骤6,源域与目标域的图像与步骤5类似的特征提取方式,唯一的区别在于,其在原本的注意力结构中,添加并使用注意力松弛结构,提取字符特征序列。
步骤7,对步骤6中的字符特征序列,通过采样产生一系列特征对;特征对是本发明的一个重点,本发明的生成对抗策略是通过混淆不同类的特征对,进而实现源场景到目标场景的迁移;其中每个特征对由2个字符特征组成,特征对总共分为4个类别,如图3所示,根据特征的不同来源以及不同类别,特征对具体分为:
Figure BDA0002327174380000041
同场景(均为源场景)、同一(字符)类别;
Figure BDA0002327174380000042
不同场景(第一个特征为源场景,第二个为目标场景)、同一类别;
Figure BDA0002327174380000043
同场景、不同类别;
Figure BDA0002327174380000044
不同场景、不同类别。
步骤8,对域分类网络进行预训练,即对上述特征对进行分类,损失函数为Softmaxloss,记为
Figure BDA0002327174380000045
训练域分类网络参数。
Figure BDA0002327174380000046
其中域分类网络为一个4分类器,该损失函数的目的在于使其能够正确区分这4组特征对,掌握不同类的特征对间的差异。
步骤9,对场景文本识别网络的参数进行更新,使用对抗学习训练方式训练,具体分为以下两个子过程:
(1)判别过程:更新域识别网络参数,训练方式与步骤8相同,即使用
Figure BDA0002327174380000047
作为损失函数;
(2)生成过程:更新编码器与注意力网络中参数,其具体损失函数为:
Figure BDA0002327174380000048
该损失函数的作用在于使域分类网络难以区分(或混淆)
Figure BDA0002327174380000049
Figure BDA00023271743800000410
以及
Figure BDA00023271743800000411
Figure BDA00023271743800000412
由图3中的例子所示,以
Figure BDA00023271743800000413
Figure BDA00023271743800000414
的混淆为例,假设域分类网络已经经过良好训练,能够正确区分上述4个类别。上述损失函数
Figure BDA00023271743800000415
使得来自
Figure BDA00023271743800000416
的特征对逐渐向
Figure BDA00023271743800000417
靠近,也就是注意力网络逐渐忽略源域与目标域的差异,更倾向于关注源域与目标域的共性;
通过以上两个子过程,训练完毕后可以使得场景文本识别网络在保留识别效果的情况下,同时来自源场景与目标场景的样本逐渐不可区分。
步骤10,训练完毕的模型可用于在仅有少量样本的目标域进行识别,相比于仅在目标域训练的网络模型,能够非常有效地提高识别效果。
本发明方法框架简单、使用方便、可扩展性强、可解释性强,在四个场景文本数据集进行了实验,达到或超过现有最好方法的水平。本发明方法解决了在实际场景文本识别任务中经常出现的样本稀缺问题,使得模型能够适应目标域,提高识别效果。
附图说明
图1为本发明的整体网络模型的架构图。
图2为本发明的注意力松弛效果图。
图3为本发明的特征配对机制图示。
图4位在不同的目标域大小下正确率增幅变化。
具体实施方式
下面通过具体例子,进一步介绍本发明方法,并进行性能测试与分析。
本发明提供的序列领域适应方法,是基于深度神经网络的端到端训练的有监督学习的方法,需要预先准备好用于训练的源域数据以及目标域数据。
本发明方法的具体步骤如下:
步骤1,将源域与目标域的图片原文件先进行缩放,得到固定大小的图像。并对图像进行数据预处理(对数据进行标准化处理,减均值除标准差),目标域的数据还需要分成训练集与测试集,源域中的数据全部作为训练集。
步骤2,将训练集中的所有样本打乱顺序,每次按照固定的比例分别从源域与目标域中选取一批图像输入输入到编码器中进行初步的编码与特征提取。
步骤3,对于提取的特征,利用注意力网络结构进行特征的在编码,获得字符特征序列,经过后续的网络结构直接进行分类,获得识别的文本结果。
步骤4,对于整体网络模型的参数,使用源域的图像进行预训练,其基本的模型训练优化函数如下:
Figure BDA0002327174380000051
其中,I为预测的文本序列结果,
Figure BDA0002327174380000052
为文本标定中的第t个字符,θatt为所有编码器与注意力网络的参数。对该优化目标函数计算关于模型参数的导数,并进行反向传播更新参数;参数更新的优化算法为ADAM算法。
步骤5,使用源域数据,并使用步骤2,步骤3,步骤4的方式训练,获得模型的初始化参数。
步骤6,源域与目标域的图像与步骤5类似的特征提取方式,唯一的区别在于,其在原本的注意力结构中,添加并使用注意力松弛结构,提取字符特征序列。
步骤7,对步骤6中的字符特征序列,通过采样产生一系列特征对。特征对是本发明的一个重点,本发明的生成对抗策略是通过混淆不同类的特征对,进而实现源场景到目标场景的迁移。
步骤8,对域分类网络进行预训练,即对上述特征对进行分类,损失函数为Softmaxloss,记为
Figure BDA0002327174380000061
训练域分类网络参数;
Figure BDA0002327174380000062
其中域分类网络为一个4分类器,该损失函数的目的在于使其能够正确区分这4组特征对,掌握不同类的特征对间的差异。
步骤9,对场景文本识别网络的参数进行更新,使用对抗学习训练方式训练,具体分为以下两个子过程:
(1)判别过程:更新域识别网络参数,训练方式与步骤8相同,即使用
Figure BDA0002327174380000063
作为损失函数;
(2)生成过程:更新编码器与注意力网络中参数,其具体损失函数为:
Figure BDA0002327174380000064
步骤10,训练完毕的模型可用于在仅有少量样本的目标域进行识别,相比于仅在目标域训练的网络模型,能够非常有效地提高识别效果。
性能测试与分析
实验分别选取了四个视频数据集用于方法的分析:Street View Text、ICDAR2003、ICDAR2013和ICDAR 2015。以下分别简称为SVT、IC03、IC13、IC15。SVT是从谷歌街景中收集的数据集,包含了257张训练图像以及647张测试图像。IC03为ICDAR比赛的数据集,包含936张训练图像以及867张测试图像。IC13、IC15分别为ICDAR2003的后续比赛,分别包含训练图像数据680张和4066张,测试图像数据1015张和1811张。
2、训练设置及超参数设置
本发明使用的网络的基干网络模型包括VGG网络模型(7层卷积神经网络)以及ResNet网络模型,输出的类别包括26个英文字符,10个数字字符以及1个结束符。MCD模块包括了3层的全连接网络,通道大小分别为1024,1024,4个。网络主要使用了ADADELTA以及Adam的优化方法训练,批大小设置为64个样本,图像均缩放为256*32的大小。
实验均采用单张24G显存的Nvidia TeslaP40,神经网络通过Caffe框架实现。
3.对比方法
为了比较本发明方法的性能,我们选择和目前最好的一些文本识别的方法进行对比,以及通用的FineTune方法作为比较。本发明的方法缩写为FASDA(Few-shotAdversarial Sequence Domain Adaptation)。
4、性能测试结果
评价指标:本实验采用准确率作为算法性能的评价指标。对数据集内的所有图像计算出相应的指标,计算准确率即可,具体见表1、2。
FASDA在多个数据集上都达到了更佳的效果。可以看出本发明的方法在这些数据集上都能够提高正确率,在部分实验上甚至能够提高超过5%的正确率。
本发明方法也与目前最好的方法效果进行了比较,具体见表3。
表3中我们的方法在很多实验上均取得了最佳的效果,同时与其他方法不同。其他方法均对网络结构进行了改动,也就是说明他们的方法需要更大的计算量,而本发明中,仅仅在训练的时候需要添加参数,该方法在实际运用中可以将训练添加的参数完全移除,剩余部分与普通食物基于注意力的识别网络结构相同,但是能够取得更好的识别结果。
此外,本发明方法也对具体的提升幅度进行探究,具体见图4。
本发明方法在目标域数据极少时效果不明显,但是稍微提高目标域数据的情况下,本发明能够迅速的提升正确率,但同时随着目标域数据的持续增长,正确率增幅会逐渐减小,这是因为在足够的数据下,领域迁移的效果会逐渐不明显,但是本方法与传统的FineTune方法还是有很明显的提升效果。
本发明的核心创新是:提出了一种能够运用在场景文本识别上的基于对抗学习的序列领域适应方法。其带来的有益效果是:解决在实际场景文本识别任务中经常出现的样本稀缺问题,通过提出的方法,使得模型能够适应目标域,提高识别效果。
表1在通用数据集上对比FineTune与FASDA
Method SVT IC03 IC13 IC15
Source Only 19.6 44.1 46.8 14.5
FT w/T 23.9 46.9 49.7 15.5
FT w/S+T 25.1 52.3 51.1 16.4
FASDA-CR 27.5 55.8 54.9 18.6
FASDA-CR<sup>+</sup> 28.8 56.8 56.6 19.1
FASDA-IA-CR<sup>+</sup> 29.4 58.1 57.5 19.2
表2在私有数据集上对比FineTune与FASDA
Figure BDA0002327174380000071
Figure BDA0002327174380000081
表3,发明方法与目前最好的方法效果比较
Figure BDA0002327174380000082

Claims (4)

1.一种场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,基本流程为:
(1)首先,构建一个CNN-LSTM网络作为编码器,构建一个注意力网络作为解码器;将两者组合成一个场景文本识别网络,并在注意力网络中添加一个注意力松弛结构;
(2)然后,将一对分别来自源域与目标域的场景图像同时输入场景文本识别网络,由CNN-LSTM网络的编码器作为基干从输入的源域与目标域的场景图像中提取图像特征,再由注意力网络对图像特征进行再编码,提取出每一个字符的对应特征,实现将图像中的文本信息“切分”成字符级别信息;
(3)最后,运用基于对抗学习的迁移学习技术,构建一个域分类网络,与上述场景文本识别网络共同构成一个对抗生成网络,让注意力网络最小化源域与目标域的差异,最终使模型能够有效适应目标域,充分利用少量的目标域的标定样本,解决标定样本过少的问题;
其中:
所述编码器,即CNN-LSTM网络,其基干为多层神经网络组成,每一层为卷积神经网络,正则化结构以及非线性激活函数;其主要功能是提取图像特征,将数据从原始特征空间映射到高维的抽象特征空间;其后为一个长短期记忆网络,其功能为将上述特征的上下文依赖加以解析,对特征重新编码;其重新编码的工作方式为:
Figure FDA0002327174370000011
X=(x1,…,xM)表示为编码信息;经过编码,得到原始信息的编码序列,即为特征序列,其中每个特征都对应原图中的某个区域;
所述解码器,即注意力网络,由注意力结构、长短期记忆网络以及注意力松弛结构构成;用于对编码器输出的特征,进行注意力处理,输出图像中每个字符对应的特征,用于后续的识别;注意力结构与长短期记忆网络为其结构主体,对编码器输出特征进行处理,逐字符输出对应特征;
注意力松弛结构主要用于解决注意力结构原有的容易导致过于把注意力集中在一个狭窄区域的问题;
所述域分类网络,由双层神经网络组成,为全连接神经网络与非线性激活函数;其主要功能为对注意力网络输出的源域与目标域字符特征进行分类,判断其来源,用于与场景文本识别网络进行对抗学习,使得场景文本识别网络能够有效地在目标域识别。
2.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,所述解码器中,注意力结构与长短期记忆网络对输出特征进行处理,逐字符输出对应特征,主要方式为:
Figure FDA0002327174370000021
et,j=wTtanh(Wst-1+Vhj+b)
Figure FDA0002327174370000022
Figure FDA0002327174370000023
3.根据权利要求1所述的场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,所述解码器中,注意力松弛结构的工作方式为:
Figure FDA0002327174370000024
Figure FDA0002327174370000025
其中,λ∈[0,1]为一个可以调整的超参数,用于控制保留的注意力的程度,η∈Z+,用于控制注意力的松弛范围;A(t,j±i)表示与当前特征相邻的注意力权重。
4.根据权利要求1-3之一所述的场景文本识别中基于对抗学习的序列领域适应方法,其特征在于,具体步骤如下:
步骤1,将源域与目标域的图片原文件先进行缩放,得到固定大小的图像;并对图像进行数据预处理,包括对数据进行标准化处理、减均值除标准差;将目标域的数据分成训练集与测试集,源域中的数据全部作为训练集;
步骤2,将训练集中的所有样本打乱顺序,每次按照固定的比例分别从源域与目标域中选取一批图像输入到编码器中进行初步的编码与特征提取;
步骤3,对于提取的特征,利用注意力网络结构进行特征的再编码,获得字符特征序列,经过后续的网络结构直接进行分类,获得识别的文本结果;
步骤4,对于整体网络模型的参数,使用源域的图像进行预训练,其基本的模型训练优化函数如下:
Figure FDA0002327174370000026
其中,I为预测的文本序列结果,
Figure FDA0002327174370000027
为文本标定中的第t个字符,θatt为所有编码器与注意力网络的参数;对该优化目标函数计算关于模型参数的导数,并进行反向传播更新参数;参数更新的优化算法采用ADAM算法;
步骤5,使用源域数据,并使用步骤2、步骤3、步骤4的方式训练,获得模型的初始化参数;
步骤6,源域与目标域的图像与步骤5类似的特征提取方式,唯一的区别在于,其在原本的注意力结构中,添加并使用注意力松弛结构,提取字符特征序列;
步骤7,对步骤6中的字符特征序列,通过采样产生一系列特征对;其中每个特征对由2个字符特征组成,特征对总共分为4个类别,具体为:
Figure FDA0002327174370000031
同场景:均为源场景,同一类别;
Figure FDA0002327174370000032
不同场景:第一个特征为源场景,第二个为目标场景,同一类别;
Figure FDA0002327174370000033
同场景,不同类别;
Figure FDA0002327174370000034
不同场景,不同类别;
步骤8,对域分类网络进行预训练,即对上述特征对进行分类,损失函数为Softmaxloss,记为
Figure FDA0002327174370000035
训练域分类网络参数;
Figure FDA0002327174370000036
其中,域分类网络为一个4分类器,该损失函数的目的在于使其能够正确区分这4组特征对,掌握不同类的特征对间的差异;
步骤9,对场景文本识别网络的参数进行更新,使用对抗学习训练方式训练,具体分为以下两个子过程:
(1)判别过程:更新域识别网络参数,训练方式与步骤8相同,即使用
Figure FDA0002327174370000037
作为损失函数;
(2)生成过程:更新编码器与注意力网络中参数,其具体损失函数为:
Figure FDA0002327174370000038
通过以上两个子过程,训练完毕后使得场景文本识别网络在保留识别效果的情况下,同时来自源场景与目标场景的样本逐渐不可区分;
步骤10,训练完毕的模型用于在仅有少量样本的目标域进行识别。
CN201911321106.0A 2019-12-20 2019-12-20 场景文本识别中基于对抗学习的序列领域适应方法 Active CN111126386B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321106.0A CN111126386B (zh) 2019-12-20 2019-12-20 场景文本识别中基于对抗学习的序列领域适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321106.0A CN111126386B (zh) 2019-12-20 2019-12-20 场景文本识别中基于对抗学习的序列领域适应方法

Publications (2)

Publication Number Publication Date
CN111126386A true CN111126386A (zh) 2020-05-08
CN111126386B CN111126386B (zh) 2023-06-30

Family

ID=70500358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321106.0A Active CN111126386B (zh) 2019-12-20 2019-12-20 场景文本识别中基于对抗学习的序列领域适应方法

Country Status (1)

Country Link
CN (1) CN111126386B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402012A (zh) * 2020-06-03 2020-07-10 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN111814823A (zh) * 2020-05-26 2020-10-23 北京控制工程研究所 一种基于场景模板生成的迁移学习方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN111984762A (zh) * 2020-08-05 2020-11-24 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN112308090A (zh) * 2020-09-21 2021-02-02 北京沃东天骏信息技术有限公司 图像分类方法及装置
CN112307914A (zh) * 2020-10-20 2021-02-02 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112926665A (zh) * 2021-03-02 2021-06-08 安徽七天教育科技有限公司 一种基于领域自适应的文本行识别系统以及使用方法
CN113033669A (zh) * 2021-03-29 2021-06-25 东北大学 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法
CN113065417A (zh) * 2021-03-17 2021-07-02 国网河北省电力有限公司 基于生成对抗式风格迁移的场景文本识别方法
CN113158993A (zh) * 2021-05-21 2021-07-23 济南博观智能科技有限公司 一种多场景反光背心穿戴识别模型创建方法及相关组件
CN113610082A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113936143A (zh) * 2021-09-10 2022-01-14 北京建筑大学 基于注意力机制和生成对抗网络的图像识别泛化方法
CN114092930A (zh) * 2022-01-07 2022-02-25 中科视语(北京)科技有限公司 一种文字识别方法及系统
CN114693972A (zh) * 2022-03-29 2022-07-01 电子科技大学 一种基于重建的中间域领域自适应方法
CN115050032A (zh) * 2022-05-02 2022-09-13 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909101A (zh) * 2017-11-10 2018-04-13 清华大学 基于卷积神经网络的半监督迁移学习字符识别方法及系统
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110097049A (zh) * 2019-04-03 2019-08-06 中国科学院计算技术研究所 一种自然场景文本检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PINGPING XIAO等: "STV2KL:A New Benchmaek for Scene Text Detection and Recognition", PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON INTERNET MULTIMEDIA COMPUTING AND SERVICE *
王来兵: "基于贝叶斯与生成式对抗网络的手写字文本识别算法", 黑龙江工业学院学报(综合版), vol. 08, no. 08 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814823A (zh) * 2020-05-26 2020-10-23 北京控制工程研究所 一种基于场景模板生成的迁移学习方法
CN111814823B (zh) * 2020-05-26 2023-08-15 北京控制工程研究所 一种基于场景模板生成的迁移学习方法
CN111402012B (zh) * 2020-06-03 2020-08-25 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN111402012A (zh) * 2020-06-03 2020-07-10 江苏省质量和标准化研究院 一种基于迁移学习的电商缺陷产品识别方法
CN111984762B (zh) * 2020-08-05 2022-12-13 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN111984762A (zh) * 2020-08-05 2020-11-24 中国科学院重庆绿色智能技术研究院 一种对抗攻击敏感的文本分类方法
CN111860525A (zh) * 2020-08-06 2020-10-30 宁夏宁电电力设计有限公司 一种适用于端子排的自底向上光学字符识别方法
CN112308090A (zh) * 2020-09-21 2021-02-02 北京沃东天骏信息技术有限公司 图像分类方法及装置
CN112308090B (zh) * 2020-09-21 2024-06-18 北京沃东天骏信息技术有限公司 图像分类方法及装置
CN112307914A (zh) * 2020-10-20 2021-02-02 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112307914B (zh) * 2020-10-20 2024-05-14 西北工业大学 一种基于文本信息指导的开放域图像内容识别方法
CN112926665A (zh) * 2021-03-02 2021-06-08 安徽七天教育科技有限公司 一种基于领域自适应的文本行识别系统以及使用方法
CN113065417A (zh) * 2021-03-17 2021-07-02 国网河北省电力有限公司 基于生成对抗式风格迁移的场景文本识别方法
CN113033669B (zh) * 2021-03-29 2024-05-14 东北大学 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法
CN113033669A (zh) * 2021-03-29 2021-06-25 东北大学 一种基于可学习的特征图过滤与图注意力网络的视觉场景识别方法
CN113158993A (zh) * 2021-05-21 2021-07-23 济南博观智能科技有限公司 一种多场景反光背心穿戴识别模型创建方法及相关组件
CN113610082B (zh) * 2021-08-12 2024-09-06 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113610082A (zh) * 2021-08-12 2021-11-05 北京有竹居网络技术有限公司 一种字符识别方法及其相关设备
CN113936143A (zh) * 2021-09-10 2022-01-14 北京建筑大学 基于注意力机制和生成对抗网络的图像识别泛化方法
CN113936143B (zh) * 2021-09-10 2022-07-01 北京建筑大学 基于注意力机制和生成对抗网络的图像识别泛化方法
CN114092930A (zh) * 2022-01-07 2022-02-25 中科视语(北京)科技有限公司 一种文字识别方法及系统
CN114092930B (zh) * 2022-01-07 2022-05-03 中科视语(北京)科技有限公司 一种文字识别方法及系统
CN114693972B (zh) * 2022-03-29 2023-08-29 电子科技大学 一种基于重建的中间域领域自适应方法
CN114693972A (zh) * 2022-03-29 2022-07-01 电子科技大学 一种基于重建的中间域领域自适应方法
CN115050032A (zh) * 2022-05-02 2022-09-13 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法
CN115050032B (zh) * 2022-05-02 2024-07-16 清华大学 一种基于特征对齐和熵正则化的域适应文本图像识别方法

Also Published As

Publication number Publication date
CN111126386B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN111126386A (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
CN107316307B (zh) 一种基于深度卷积神经网络的中医舌图像自动分割方法
CN111583263B (zh) 一种基于联合动态图卷积的点云分割方法
CN109214452B (zh) 基于注意深度双向循环神经网络的hrrp目标识别方法
CN111680706B (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN109871830A (zh) 基于三维深度残差网络的空谱融合高光谱图像分类方法
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN107220506A (zh) 基于深度卷积神经网络的乳腺癌风险评估分析系统
CN113674288B (zh) 一种非小细胞肺癌数字病理图像组织自动分割方法
Beikmohammadi et al. SWP-LeafNET: A novel multistage approach for plant leaf identification based on deep CNN
CN111461025B (zh) 一种自主进化的零样本学习的信号识别方法
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN114998603B (zh) 一种基于深度多尺度特征因子融合的水下目标检测方法
CN113011487A (zh) 一种基于联合学习与知识迁移的开放集图像分类方法
CN109239670A (zh) 基于结构嵌入和深度神经网络的雷达hrrp识别方法
CN116433909A (zh) 基于相似度加权多教师网络模型的半监督图像语义分割方法
CN110136113B (zh) 一种基于卷积神经网络的阴道病理图像分类方法
CN113516097B (zh) 一种基于改进EfficentNet-V2的植物叶片疾病识别方法
CN111242028A (zh) 基于U-Net的遥感图像地物分割方法
CN111325259A (zh) 一种基于深度学习和二进制编码的遥感图像分类方法
CN115830401B (zh) 一种小样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant