CN115050032A - 一种基于特征对齐和熵正则化的域适应文本图像识别方法 - Google Patents
一种基于特征对齐和熵正则化的域适应文本图像识别方法 Download PDFInfo
- Publication number
- CN115050032A CN115050032A CN202210477095.0A CN202210477095A CN115050032A CN 115050032 A CN115050032 A CN 115050032A CN 202210477095 A CN202210477095 A CN 202210477095A CN 115050032 A CN115050032 A CN 115050032A
- Authority
- CN
- China
- Prior art keywords
- text
- domain
- source domain
- sequence
- line image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000003044 adaptive effect Effects 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 13
- 230000006978 adaptation Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于特征对齐和熵正则化的域适应文本图像识别方法,该方法包括:通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,极小化求解得到初始识别模型;将源域有文本标签的文本行图像和目标域无文本标签的文本行图像输入初始识别模型,计算域适应学习的总损失函数,极小化求解得到最终识别模型;将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。本发明能够利用源域文本行图像和目标域文本行图像进行域适应学习,提高了模型对目标域样本的识别性能。
Description
技术领域
本发明涉及计算机视觉与机器学习领域,提供了一种基于特征对齐和熵正则化的域适应文本图像识别方法,可应用于手写文本图像识别、场景文本图像识别以及其他序列建模任务。
背景技术
文本图像识别是计算机视觉与机器学习领域的关键技术之一,在基于内容的图像检索、场景理解与分析等方面具有广泛的应用前景。在文本图像识别研究中,手写文本图像识别是一项前沿课题。由于手写文字图像具有多变的书写风格、不同图像质量条件,手写文本图像识别面临多种挑战。随着深度学习技术的兴起,基于深层神经网络的文本图像识别技术逐渐取代了传统方法。但是,深度神经网络在实际应用中还存在一些问题,特别是深度神经网络的监督学习需要大量具有标签的真实图像样本,在与文本识别技术相关的实际应用中难以满足,例如获取大量具有文本标签的手写文本图像样本较为困难。
一种解决上述问题的方法是领域自适应(Domain Adaptation,DA),或称域适应,用于实现模型从具有标签的监督数据集到无标签的非监督数据集的迁移学习。当前域适应方法主要针对于分类任务,例如单个字符图像识别。在面向文本行图像识别的序列建模任务上,还缺少相应有效的域适应技术解决方案。
发明内容
本发明旨在至少一定程度上解决上述相关技术问题。
为此,本发明的目的在于提出一种基于特征对齐和熵正则化的域适应文本图像识别方法,通过利用源域有文本标签的文本行图像和目标域无文本标签的文本行图像对经预训练得到的初始识别模型进行域适应学习,提高模型对目标域样本的识别性能。
本发明的另一个目的在于提出一种基于特征对齐和熵正则化的域适应文本图像识别装置。
为达上述目的,本发明的基于特征对齐和熵正则化的域适应文本图像识别方法,包括以下步骤:
一种基于特征对齐和熵正则化的域适应文本图像识别方法,所述方法包括:
S1,将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过所述编码器将输入的所述文本行图像转换为隐含表示特征序列,通过所述解码器将所述隐含表示特征序列转换输出为初始预测文本序列及所述预测文本序列各字符的预测概率,利用所述解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过所述源域交叉熵损失极小化求解得到初始识别模型;
S2,将所述源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入所述初始识别模型,计算域适应学习的总损失函数,通过所述总损失函数极小化求解得到最终识别模型;其中,所述总损失函数包括:所述源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
S3,将待测试的目标域文本行图像输入所述最终识别模型,得到所述解码器输出的最终预测文本序列。
本发明的基于特征对齐和熵正则化的域适应文本图像识别方法,将域适应方法引入文本行图像识别,结合特征分布统计量对齐和降低预测结果的信息熵,提高模型对实际样本的适应能力。
另外,本发明上述的基于特征对齐和熵正则化的域适应文本图像识别方法,还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述目标域的信息熵正则项的计算方法,包括:对于按批次输入所述初始识别模型的目标域文本行图像,利用所述解码器的输出预测文本序列及所述预测文本序列各字符的预测概率,根据信息熵的定义计算每批次目标域数据的平均信息熵,作为所述目标域的信息熵正则项。
进一步地,在本发明的一个实施例中,所述源域与目标域的特征对齐损失的计算方法,包括:将源域与目标域双路数据按批次输入所述初始识别模型,对于所述编码器提取的隐含表示特征序列,分别计算每路数据隐含表示特征序列中特征向量的一阶统计量和二阶统计量,得到所述双路数据之间一阶和二阶统计量的差异总和,作为所述源域与目标域的特征对齐损失。
进一步地,在本发明的一个实施例中,所述源域交叉熵损失的计算方法,包括:对于所述解码器输出的源域样本预测文本序列中的每一字符及对应的预测概率,利用所述源域样本文本标签中对应的字符真值,计算每批次源域数据的平均交叉熵作为所述源域交叉熵损失。
进一步地,在本发明的一个实施例中,所述方法,还包括:对所述源域样本文本标签进行预处理,统计所述源域样本文本标签中的字符集合,并在所述字符集合和所述文本标签中添加控制符号;对每张文本行图像进行预处理,将文本行图像的像素值动态范围线性变换到预设区间,并对所述每张文本行图像在保持图像宽高比不变条件下,将图像高度归一化到预设高度。
为达到上述目的,本发明另一方面提出了一种基于特征对齐和熵正则化的域适应文本图像识别装置,包括:
初始识别模型获取模块,用于将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过所述编码器将输入的所述文本行图像转换为隐含表示特征序列,通过所述解码器将所述隐含表示特征序列转换输出为初始预测文本序列及所述预测文本序列各字符的预测概率,利用所述解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过所述源域交叉熵损失极小化求解得到初始识别模型;
最终识别模型获取模块,用于将所述源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入所述初始识别模型,计算域适应学习的总损失函数,通过所述总损失函数极小化求解得到最终识别模型;其中,所述总损失函数包括:所述源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
文本预测模块,用于将待测试的目标域文本行图像输入所述最终识别模型,得到所述解码器输出的最终预测文本序列。
本发明实施例的基于特征对齐和熵正则化的域适应文本图像识别装置,将域适应方法引入文本行图像识别,结合特征分布统计量对齐和降低预测结果的信息熵,提高了模型的泛化能力。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法流程图;
图2为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法所用的源域与目标域样本示例图;
图3为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法中利用源域样本进行监督学习得到初始识别模型的流程图;
图4为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法中利用源域和目标域样本进行域适应学习得到最终识别模型的流程图;
图5为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法中利用最终识别模型将待测试的目标域文本行图像转换为预测文本的流程图;
图6为根据本发明实施例的解码器输出的张量降维可视化示意图;
图7为根据本发明实施例的基于特征对齐和熵正则化的域适应文本图像识别装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分的实施例,而不是全部的实施例。基于本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面参照附图描述根据本发明实施例提出的基于特征对齐和熵正则化的域适应文本图像识别方法及装置,首先将参照附图描述根据本发明实施例提出的基于特征对齐和熵正则化的域适应文本图像识别方法。
图1为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法流程图;
如图1所示,该基于特征对齐和熵正则化的域适应文本图像识别方法包括以下步骤:
S1,将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器将隐含表示特征序列转换输出为初始预测文本序列及所述预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过源域交叉熵损失极小化求解得到初始识别模型;
S2,将源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入初始识别模型,计算域适应学习的总损失函数,通过总损失函数极小化求解得到最终识别模型;其中,总损失函数包括:源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
S3,将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。
图2为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法所用的源域与目标域样本示例;在本发明实施例中,采用的样本图像数据集为IAM手写英文文本行数据集(https://fki.tic.heia-fr.ch/databases/iam-handwriting-database),一共有10042张手写文本行图像,总书写者有657位,字符集包括大小写英文字母、数字、标点等共79个字符。由于IAM训练集和测试集来自不同的书写者,在本发明实施例中,IAM训练集作为源域,利用了源域样本的文本标签进行监督学习,测试集作为目标域,域适应学习中不使用目标域样本的文本标签信息。在测试阶段,可利用IAM测试集提供的文本标签计算模型性能指标。模型性能的评价指标为测试集数据上的字符错误率(CER)和单词错误率(WER),指标越低表示模型性能越好。
图3、4、5分别为根据本发明实施例的一种基于特征对齐和熵正则化的域适应文本图像识别方法步骤S1、S2和S3的流程图;其中训练阶段包括步骤S1和S2,测试阶段为步骤S3。
如图3、4、5所示,文本行识别模型包括编码器和解码器。所述编码器用于将输入文本行图像转换为隐含表示特征序列,可以采用的深层神经网络架构包括并不限于结合卷积神经网络(convolutional neural network,CNN)与循环神经网络(recurrent neuralnetwork,RNN)的模型,或者为基于自注意力机制的Transformer模型;所述解码器用于将隐含表示特征序列转换为解码结果输出,可以采用的深层神经网络架构包括并不限于RNN或基于自注意力机制的Transformer模型。在本发明实例中,编码器设计为CNN和RNN的组合,CNN模型为ResNet-32(参见Cheng Z,Bai F,Xu Y,et al.Focusing attention:Towardsaccurate text recognition in natural images,ICCV.2017:5076-5084),RNN模型为深度学习常用的双向长短时记忆(Long short-term memory,LSTM)网络,一共为2层,每层输出数据维度为256。解码器为深度学习常用的Transformer模型中的解码器(Decoder),具有两层解码层(Decode Layer),每个解码层注意力头数(Heads)设为4,即具有4个注意力单元,每一个注意力单元输出数据特征维数为512。
如图3所示,利用具有文本标签的源域文本行图像样本训练具有编码器与解码器架构的模型,得到初始识别模型。
具体地,在训练阶段开始之前,对源域文本行图像的文本标签进行处理,统计文本标签中所有出现的字符集合S,并在字符集合中添加控制符号,包括:<SOS>符号作为文本开始、<EOS>符号作为文本结束、<UNK>符号作为未知字符、<PAD>符号作为空字符;所得字符集的大小为|S|;在每个文本行图像对应的文本标签前面加上<SOS>文本开始符号,后面加上<EOS>文本结束符号;
具体地,在训练阶段中,对每张文本行图像进行预处理,将文本行图像的像素值动态范围线性变换到[-1,1]区间;并对所述输入文本行图像的高度归一化到预设高度H,例如H取值为64,并使得图像的宽高比与原图的宽高比保持一致;
具体地,每次从源域采样N张图像作为一个批次的训练样本,经过预处理之后,记录每张图像的宽度Wi,i=1,…,N,并选取最大宽度记为W,为便于深度学习并行计算,将宽度小于W的图像在水平方向后端填充取值为0的像素值补齐到最大宽度W,将该批次图像堆叠成形状为N×C×H×W的第一张量,即图像数据张量,其中,N为该批次图像数目,C为通道数,H为归一化的高度,W为该批次样本最大图像宽度;
将第一张量输入编码器,得到形状为N×C′×H′×W′的第二张量,其中,C′、H′、W′为变换后数据的通道数、高度、宽度;根据每张图像的宽度Wi,i=1,…,N,计算编码器输出的第二张量中非补齐部分的宽度W′i,i=1,…,N,此信息用于提取隐含表示特征序列中非宽度补齐部分;
将第二张量在高度对应的维度通过取平均或类似操作进行维度约简,得到形状为N×C′×W′的第三张量,将第三张量改变维度顺序得到N×W′×C′的第一特征序列,将第一特征序列输入编码器进行序列编码,得到形状为N×W′×C′的第二特征序列,即隐含表示特征序列。
将第二特征序列和源域文本行图像的文本标签输入解码器,利用源域数据文本标签采用“教师强制”(teacher forcing)方式训练解码器。解码器不仅利用输入的第二特征序列,而且利用当前解码步之前对应文本标签中的字符序列,由此输出当前解码时间步的预测字符及对应的概率。对于解码器输出的源域样本预测文本序列中的每一字符及对应的概率,利用源域样本文本标签中对应的字符真值,计算各批次平均交叉熵损失Ls,通过源域交叉熵损失Ls极小化按批次迭代训练模型,得到初始识别模型。
在本发明实施例中,基于PyTorch深度学习平台实现算法,训练模型采用的优化器为ADADELTA优化器(参见https://pytorch.org/docs/stable/generated/torch.optim.Adadelta.html),每批次选取16张源域文本行图像,一共训练200轮,前120轮学习率设为0.5,接着60轮学习率设为0.1,最后20轮学习率设为0.01。
如图4所示,基于初始识别模型,利用源域和目标域样本进行域适应学习得到最终识别模型。
具体地,将源域有文本标签的文本行图像、目标域无文本标签的文本行图像作为双路数据按批次输入模型,经编码器得到第二特征序列,即隐含表示特征序列;
将源域和目标域双路数据的第二特征序列输入解码器,对于源域数据,解码器采用“教师强制”方式,计算交叉熵损失Ls;
对于目标域数据,由于没有对应的文本标签,解码器不采用“教师强制”方式,而是利用第二特征序列和当前解码时间步之前的预测字符序列,输出当前解码步的预测字符及对应的概率,根据信息熵的定义计算每批次目标域数据的平均信息熵,作为信息熵正则项Lt;
可以理解的是,目标域的信息熵正则项Lt的具体计算过程为,对于目标域一个批次N个样本中的第k个样本,将编码器提取的隐含表示特征序列输入所述解码器,并同时在解码器中输入<SOS>文本开始符号作为预测文本序列初始值,解码器逐步根据输入的隐含表示特征序列和当前解码步之前输出预测文本序列(第一解码时间步采用<SOS>文本开始符号),输出当前解码时间步得到的预测文本序列及其中各字符对应的概率,直至解码输出<EOS>文本结束符号,或者解码时间步达到预设的迭代次数上限T(即最大解码时间步总数),这时输出的有效解码字符个数为Tk,Tk≤T;将每一批次输出的有效解码字符(包括<EOS>文本结束符号)对应的概率拼接为形状N×T×|S|的张量P,并基于张量P计算平均信息熵其中,Tk为一个批次N个样本中的第k个样本的解码时间步,Tk≤T,T为最大解码时间步总数,|S|为字符集的大小,Pkij为第k个样本第i个字符对应于字符集第j类的概率,log为按自然常数为底取对数运算;
在本发明实施例中,解码迭代次数上限T设为150次。
进一步地,还利用源域目标域双路数据对应的第二特征序列各时刻特征向量计算特征对齐损失Lf,即双路数据之间特征向量一阶和二阶统计量的差异总和。
具体地,将源域和目标域数据对应的第二特征序列非宽度补齐部分,分别在宽度方向排列成形状Ws×C′的矩阵Xs和形状Wt×C′的矩阵Xt,计算一阶统计量特征均值的对齐损失为:
可以得到源域与目标域的特征对齐损失为:
其中,λ为超参数,取值范围为[0,1]。在本发明实施例中,超参数λ取1。
进一步地,将交叉熵损失、信息熵和特征对齐损失加权求和得到总损失函数,总损失函数为L=Ls+ktLt+kfLf。其中,kt和kf为超参数,取值范围均为[0,1]。在本发明实施例中,超参数kt取0.01,kf取0.1。
在本发明实施例中,在初始识别模型的基础上,通过使得总损失函数极小化实现域适应学习,采用的优化器为ADADELTA优化器。每批次从源域和目标域各选取8张样本图像,一共训练100轮,前70轮学习率为0.01,后30轮学习率为0.005,经过域适应学习得到最终识别模型。
如图5所示,基于最终识别模型,输入待测试的目标域文本行图像,得到预测文本。
具体地,将待测试的目标域文本行图像输入最终识别模型,经编码器处理得到隐含表示特征序列,将隐含表示特征序列和<SOS>文本开始符号输入解码器,采用集束搜索(Beam Search)方式进行迭代解码,集束宽度(Beam Width)设为b。在迭代的第一步,解码器根据隐含表示特征序列和输入的<SOS>文本开始符号,输出预测的下一字符及概率,选取概率最大的b个字符,拼接在<SOS>文本开始符号后,作为b条字符串序列,再输入解码器;在迭代过程中,解码器根据隐含表示特征序列和上一步解码得到的b条字符串序列,输出预测的下一字符及概率,选取概率最大的b个字符,分别拼接在原来的b条字符串序列后,得到b2条字符串序列,然后从这b2条字符串序列中选取累积概率最大的b条字符串序列,作为当前解码时间步的输出;继续迭代,直至解码输出字符为<EOS>文本结束符号或达到预设的最大迭代次数(如150次),选取累积概率最大的字符串序列,作为该文本行图像的预测文本输出。
优选地,该过程超参数b取5。
图6为根据本发明实施例的解码器输出的张量降维可视化示意图;
为了更好地显示最终识别模型的效果,从源域和目标域中各选取100张图像,获取这些图像经过模型解码器输出的张量,使用t-SNE(T-distributed Stochastic NeighborEmbedding)方法进行可视化。通过选取出现次数最多的12类字符,比较域适应前后张量降维可视化效果。从图6可以看出,通过采用本发明实施例的基于特征对齐和熵正则化的域适应文本图像识别方法,“n”和“r”、“o”和“a”等相似字更易于区分。
进一步地,本发明实施例在IAM手写英文数据集测试集上的实验结果如表1所示。
表1在IAM手写英文数据集测试集上的实验结果
本发明实施例的基于特征对齐和熵正则化的域适应文本图像识别方法,通过利用源域有文本标签的文本行图像和目标域无文本标签的文本行图像对经预训练得到的初始识别模型进行域适应学习,提高模型对目标域样本的识别性能。
为了实现上述实施例,如图7所示,本发明还提供了一种基于特征对齐和熵正则化的域适应文本图像识别装置10,该装置10包括:初始识别模型获取模块100、最终识别模型获取模块200和文本预测模块300。
初始识别模型获取模块100,用于将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过编码器将输入的文本行图像转换为隐含表示特征序列,通过解码器将隐含表示特征序列转换输出为初始预测文本序列及预测文本序列各字符的预测概率,利用解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过源域交叉熵损失极小化求解得到初始识别模型;
最终识别模型获取模块200,用于将源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入初始识别模型,计算域适应学习的总损失函数,通过总损失函数极小化求解得到最终识别模型;其中,总损失函数包括:源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
文本预测模块300,用于将待测试的目标域文本行图像输入最终识别模型,得到解码器输出的最终预测文本序列。
进一步地,上述最终识别模型获取模块200,包括:
信息熵正则项计算模块,用于对于按批次输入初始识别模型的目标域文本行图像,利用解码器的输出预测文本序列及预测文本序列各字符的预测概率,根据信息熵的定义计算每批次目标域数据的平均信息熵,作为目标域的信息熵正则项。
进一步地,上述最终识别模型获取模块200,还包括:
特征对齐损失计算模块,用于将源域与目标域双路数据按批次输入初始识别模型,对于编码器提取的隐含表示特征序列,分别计算每路数据隐含表示特征序列中特征向量的一阶统计量和二阶统计量,得到双路数据之间一阶和二阶统计量的差异总和,作为源域与目标域的特征对齐损失。
进一步地,上述最终识别模型获取模块200,还包括:
交叉熵损失计算模块,用于对于解码器输出的源域样本预测文本序列中的每一字符及对应的预测概率,利用源域样本文本标签中对应的字符真值,计算源域交叉熵损失。
进一步地,装置10,还包括:
文本标签预处理模块,用于对源域样本文本标签进行预处理,统计源域样本文本标签中的字符集合,并在字符集合和所述文本标签中添加控制符号;
文本行图像预处理模块,用于对每张文本行图像进行预处理,将文本行图像的像素值动态范围线性变换到预设区间,并对每张文本行图像在保持图像宽高比不变条件下,将图像高度归一化到预设高度。
本发明实施例的基于特征对齐和熵正则化的域适应文本图像识别方法及装置,有效降低了字符错误率和单词错误率,提高了模型对目标域样本的适应能力。
需要说明的是,前述对基于特征对齐和熵正则化的域适应文本图像识别方法实施例的解释说明也适用于该实施例的基于特征对齐和熵正则化的域适应文本图像识别装置,此处不再赘述。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种基于特征对齐和熵正则化的域适应文本图像识别方法,其特征在于,所述方法包括:
S1,将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过所述编码器将输入的所述文本行图像转换为隐含表示特征序列,通过所述解码器将所述隐含表示特征序列转换输出为初始预测文本序列及所述预测文本序列各字符的预测概率,利用所述解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过所述源域交叉熵损失极小化求解得到初始识别模型;
S2,将所述源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入所述初始识别模型,计算域适应学习的总损失函数,通过所述总损失函数极小化求解得到最终识别模型;其中,所述总损失函数包括:所述源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
S3,将待测试的目标域文本行图像输入所述最终识别模型,得到所述解码器输出的最终预测文本序列。
2.根据权利要求1所述的方法,其特征在于,所述目标域的信息熵正则项的计算方法,包括:
对于按批次输入所述初始识别模型的目标域文本行图像,利用所述解码器的输出预测文本序列及所述预测文本序列各字符的预测概率,根据信息熵的定义计算每批次目标域数据的平均信息熵,作为所述目标域的信息熵正则项。
3.根据权利要求1所述的方法,其特征在于,所述源域与目标域的特征对齐损失的计算方法,包括:
将源域与目标域双路数据按批次输入所述初始识别模型,对于所述编码器提取的隐含表示特征序列,分别计算每路数据隐含表示特征序列中特征向量的一阶统计量和二阶统计量,得到所述双路数据之间一阶和二阶统计量的差异总和,作为所述源域与目标域的特征对齐损失。
4.根据权利要求1所述的方法,其特征在于,所述源域交叉熵损失的计算方法,包括:
对于所述解码器输出的源域样本预测文本序列中的每一字符及对应的预测概率,利用所述源域样本文本标签中对应的字符真值,计算每批次源域数据的平均交叉熵作为所述源域交叉熵损失。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
对所述源域样本文本标签进行预处理,统计所述源域样本文本标签中的字符集合,并在所述字符集合和所述文本标签中添加控制符号;
对每张文本行图像进行预处理,将文本行图像的像素值动态范围线性变换到预设区间,并将所述每张文本行图像在保持图像宽高比不变条件下,将图像高度归一化到预设高度。
6.一种基于特征对齐和熵正则化的域适应文本图像识别装置,其特征在于,包括:
初始识别模型获取模块,用于将源域样本有文本标签的文本行图像作为单路数据按批次输入具有编码器与解码器架构的模型,通过所述编码器将输入的所述文本行图像转换为隐含表示特征序列,通过所述解码器将所述隐含表示特征序列转换输出为初始预测文本序列及所述预测文本序列各字符的预测概率,利用所述解码器的转换输出和源域样本文本标签计算源域交叉熵损失,通过所述源域交叉熵损失极小化求解得到初始识别模型;
最终识别模型获取模块,用于将所述源域样本有文本标签的文本行图像和目标域无文本标签的文本行图像作为双路数据按批次输入所述初始识别模型,计算域适应学习的总损失函数,通过所述总损失函数极小化求解得到最终识别模型;其中,所述总损失函数包括:所述源域交叉熵损失、目标域的信息熵正则项和源域与目标域的特征对齐损失;
文本预测模块,用于将待测试的目标域文本行图像输入所述最终识别模型,得到所述解码器输出的最终预测文本序列。
7.根据权利要求6所述的装置,其特征在于,所述最终识别模型获取模块,包括:
信息熵正则项计算模块,用于对于按批次输入所述初始识别模型的目标域文本行图像,利用所述解码器的输出预测文本序列及所述预测文本序列各字符的预测概率,根据信息熵的定义计算每批次目标域数据的平均信息熵,作为所述目标域的信息熵正则项。
8.根据权利要求6所述的装置,其特征在于,所述最终识别模型获取模块,还包括:
特征对齐损失计算模块,用于将源域与目标域双路数据按批次输入所述初始识别模型,对于所述编码器提取的隐含表示特征序列,分别计算每路数据隐含表示特征序列中特征向量的一阶统计量和二阶统计量,得到所述双路数据之间一阶和二阶统计量的差异总和,作为所述源域与目标域的特征对齐损失。
9.根据权利要求6所述的装置,其特征在于,所述最终识别模型获取模块,还包括:
交叉熵损失计算模块,用于对于所述解码器输出的源域样本预测文本序列中的每一字符及对应的预测概率,利用源域样本文本标签中对应的字符真值,计算每批次源域数据的平均交叉熵作为所述源域交叉熵损失。
10.根据权利要求6所述的装置,其特征在于,所述装置,还包括:
文本标签预处理模块,用于对所述源域样本文本标签进行预处理,统计所述源域样本文本标签中的字符集合,并在所述字符集合和所述文本标签中添加控制符号;
文本行图像预处理模块,用于对每张文本行图像进行预处理,将文本行图像的像素值动态范围线性变换到预设区间,并对所述每张文本行图像在保持图像宽高比不变条件下,将图像高度归一化到预设高度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477095.0A CN115050032A (zh) | 2022-05-02 | 2022-05-02 | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210477095.0A CN115050032A (zh) | 2022-05-02 | 2022-05-02 | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115050032A true CN115050032A (zh) | 2022-09-13 |
Family
ID=83157761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210477095.0A Pending CN115050032A (zh) | 2022-05-02 | 2022-05-02 | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115050032A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393872A (zh) * | 2022-10-27 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
WO2020238734A1 (zh) * | 2019-05-27 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、计算机设备和存储介质 |
CN113283336A (zh) * | 2021-05-21 | 2021-08-20 | 湖南大学 | 一种文本识别方法与系统 |
CN113343683A (zh) * | 2021-06-18 | 2021-09-03 | 山东大学 | 一种融合自编码器和对抗训练的中文新词发现方法及装置 |
CN113486987A (zh) * | 2021-08-04 | 2021-10-08 | 电子科技大学 | 基于特征解耦的多源域适应方法 |
US20210390686A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Unsupervised content-preserved domain adaptation method for multiple ct lung texture recognition |
-
2022
- 2022-05-02 CN CN202210477095.0A patent/CN115050032A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020238734A1 (zh) * | 2019-05-27 | 2020-12-03 | 腾讯科技(深圳)有限公司 | 图像分割模型的训练方法、装置、计算机设备和存储介质 |
CN110390326A (zh) * | 2019-06-14 | 2019-10-29 | 华南理工大学 | 一种基于集聚交叉熵损失函数的序列识别方法 |
CN111126386A (zh) * | 2019-12-20 | 2020-05-08 | 复旦大学 | 场景文本识别中基于对抗学习的序列领域适应方法 |
US20210390686A1 (en) * | 2020-06-15 | 2021-12-16 | Dalian University Of Technology | Unsupervised content-preserved domain adaptation method for multiple ct lung texture recognition |
CN113283336A (zh) * | 2021-05-21 | 2021-08-20 | 湖南大学 | 一种文本识别方法与系统 |
CN113343683A (zh) * | 2021-06-18 | 2021-09-03 | 山东大学 | 一种融合自编码器和对抗训练的中文新词发现方法及装置 |
CN113486987A (zh) * | 2021-08-04 | 2021-10-08 | 电子科技大学 | 基于特征解耦的多源域适应方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115393872A (zh) * | 2022-10-27 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种训练文本分类模型的方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xie et al. | Differentiable top-k with optimal transport | |
Xiao et al. | Heterogeneous knowledge distillation for simultaneous infrared-visible image fusion and super-resolution | |
CN112329760B (zh) | 基于空间变换网络端到端印刷体蒙古文识别翻译的方法 | |
CN111461157B (zh) | 一种基于自学习的跨模态哈希检索方法 | |
CN111695456B (zh) | 一种基于主动判别性跨域对齐的低分辨人脸识别方法 | |
Ning et al. | Semantics-consistent representation learning for remote sensing image–voice retrieval | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN111738169B (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN112164067A (zh) | 一种基于多模态子空间聚类的医学图像分割方法及装置 | |
CN113688822A (zh) | 一种时序注意力机制场景图像识别方法 | |
CN115098620A (zh) | 一种注意力相似度迁移的跨模态哈希检索方法 | |
CN114911958B (zh) | 一种基于语义偏好的快速图像检索方法 | |
CN112990196B (zh) | 基于超参数搜索和二阶段训练的场景文字识别方法及系统 | |
CN114973222B (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN115019104A (zh) | 基于多源域自注意力的小样本遥感图像分类方法及系统 | |
CN114359946A (zh) | 一种基于残差注意力Transformer的光学乐谱图像识别方法 | |
Biswas et al. | A hybrid deep architecture for robust recognition of text lines of degraded printed documents | |
CN114299512A (zh) | 一种基于汉字字根结构的零样本小篆识别方法 | |
CN115050032A (zh) | 一种基于特征对齐和熵正则化的域适应文本图像识别方法 | |
Zou et al. | Quaternion block sparse representation for signal recovery and classification | |
Sarraf | French word recognition through a quick survey on recurrent neural networks using long-short term memory RNN-LSTM | |
Ríos-Vila et al. | On the use of transformers for end-to-end optical music recognition | |
CN113392214B (zh) | 基于k选择策略稀疏自注意力的文本分类方法及系统 | |
Momeni et al. | A transformer-based approach for Arabic offline handwritten text recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |