CN114973226A - 自监督对比学习自然场景中文本识别系统训练方法 - Google Patents

自监督对比学习自然场景中文本识别系统训练方法 Download PDF

Info

Publication number
CN114973226A
CN114973226A CN202210532609.8A CN202210532609A CN114973226A CN 114973226 A CN114973226 A CN 114973226A CN 202210532609 A CN202210532609 A CN 202210532609A CN 114973226 A CN114973226 A CN 114973226A
Authority
CN
China
Prior art keywords
text
image
positive
training
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210532609.8A
Other languages
English (en)
Inventor
武星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202210532609.8A priority Critical patent/CN114973226A/zh
Publication of CN114973226A publication Critical patent/CN114973226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种自监督对比学习自然场景中文本识别系统训练方法,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像‑文本损失和文本‑图像损失,将正样本图像‑文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。采用自然图像文本与文本的正负样本集同时进行识别训练,获得具有对自然场景中文本对比学习能力的识别模型,训练后模型可对自然场景中文本进行检测识别,大大降低对有标注数据集的依赖程度。

Description

自监督对比学习自然场景中文本识别系统训练方法
技术领域
本发明涉及一种文本检测与识别技术,特别涉及一种自监督对比学习自然场景中文本识别系统训练方法。
背景技术
深度学习的成功往往依赖于海量数据的支持,其中监督学习技术成熟,但是对海量的数据进行标注需要花费大量的时间和资源,自然场景文本检测与识别领域也不例外。而无监督学习不需要对数据标签产生依赖,可以自动发现数据中潜在的结构,节省了大量时间以及硬件资源。因此学术界以及工业界对无监督学习算法的投入与研究越来越多。
对比学习作为无监督学习中的一种,着重于学习同类实例之间的共同特征,区分非同类实例之间的不同之处。与生成式学习相比,对比式学习不需要关注实例上繁琐的细节,只需要在抽象语义级别的特征空间上学会对数据的区分即可,因此模型以及其优化变得更加简单,且泛化能力更强。对比学习的目标是学习一个编码器,此编码器对同类数据进行相似的编码,并使不同类的数据的编码结果尽可能的不同。
基于自监督对比学习的文本检测与识别方法,可分为以下五个部分:(1)数据增强流程;(2)编码器;(3)表征提取;(4)相似性度量;(5)损失函数。假设D={x1,x2,...,xN}是一个大小为N的无标记数据集,对比学习的前提条件是所有实例都单独归为一类,即数据集D共有N个类别标签。为了构建更多的同类数据样本,需要从相同的数据样本x∈D中生成两个特征(vα,v+),其中vα定义为锚特征(anchor feature),v+定义为正例特征(positivefeature)。同样地,为了构建不同类数据样本,从不同的数据样本x'生成负例特征v-。根据任务的实际情况,上述三个特征可以是向量
Figure BDA0003642164510000011
或者是多维张量
Figure BDA0003642164510000021
下面从五个部分进行展开描述:
数据增强流程:在自然场景文本检测与识别任务中,数据增强流程的目的是生成用于对比学习的锚、正例以及负例特征,即APN特征。将αn定义为一个随机自然场景文本图像增强处理,例如随机翻转和随机通道丢弃。随后,即可将A=(α12,...,αN)定义为按顺序应用这些增强方式的流程。可以将A应用于x来生成一个新的自然场景文本图像数据样本xi,xi保留了x的本质上的特征。该策略提供了一种用来生成由样本x定义的同一个类别的多个样本。换句话说,可以将x作为监督信号。
对于生成自然场景文本图像的锚特征和正例特征,可供选择的方法不计其数。其中一种生成vα和v+的方法是从相同的特征向量采样两个子集,此时vα、v+∈vx(vx为样本x的特征全集)。第二种方法是对相同的输入,经过两次A,此时vα~A(x),由于A的随机性,该方法将生成两个不同的特征集。同样地,负例特征v-~A(x')通过一样的处理方式得到,不同的是基于样本x'。
编码器:将fθ定义为一个用θ参数化的编码器,该自然场景文本图像编码器可以是任何函数的近似,例如全连接或卷积神经网络。编码器将输入v映射为向量r的集合,向量r的集合可以称其为x的表示。当x为图像,输入通道为s,宽度为w,高度为h时,编码器fθ则进行如下映射:
Figure BDA0003642164510000022
换句话说,自然场景文本图像编码器返回k个c维特征向量作为输入的表示。当编码器是一个卷积神经网络时,r是一个特征图m的向量集合,其中
Figure BDA0003642164510000023
表征提取:为了进行自然场景文本图像对比学习,需要提取可以相互比较的表征。令rα=fθ(vα)为锚表征、r+=fθ(v+)为正例表征、r-=fθ(v-)为负例表征。表征由应用于v·的编码器或编码器序列中提取得到。有许多方法可以执行表征提取,其中一种方法是对于任意一个表征
Figure BDA0003642164510000031
生成一个单独的d维向量作为编码器的最后输出。另一种方法是为每一个表征
Figure BDA0003642164510000032
输出一个矩阵,并将rα的一个子集与r-的一个子集进行比较,从而生成多个负例得分。
相似性度量:令φ(ra,rb)度量自然场景文本图像两种表征ra和rb之间的相似性。该函数输出一个标量得分S,用于度量ra和rb之间的相似性。举例来说,相似性度量有点积、余弦相似度或双线性变换,如
Figure BDA0003642164510000033
在该情况下,φ有其独立的参数W。
损失函数:将S+=φ(rα,r+)作为自然场景文本图像正例得分,S-=φ(rα,r-)作为负例得分。将损失函数定义为反映学习进度的正负得分的组合。最小化这个损失函数对应于最大化正例得分和最小化负例得分。目前,广泛使用的损失函数有:负例对比估计损失、Triplet Loss以及InfoNCE。
目前,大部分文本检测与识别方法是基于有监督学习,该类方法极大程度上依赖于海量的自然场景文本数据,并且这些数据集无法覆盖千变万化的实际场景,导致实际应用时无法达到理想的精度。虽然有学者提出基于弱监督学习的文本识别方法,但只能用于虚拟数据集的训练中,无法适用于真实场景文本数据集。此外,目前尚未有相关学者基于对比式学习对文本识别任务展开相关研究。
对比学习作为自监督学习方法中的一种重要研究方法,最近在计算机视觉领域中有许多很成功的研究工作。在对比学习任务中,目标是生成实例的表示,使相似的实例彼此接近,而远离不相似的实例。在监督学习中,实例之间的相似性则是由标签决定。然而,如果没有标签,我们必须寻求一种新的方法来利用隐含在实例中的相似性。对比学习应运而生,通过从未标记的数据集生成锚点、正样本和负样本来表示样本间的相似性。
目前,自然场景文本检测与识别需要大量的人工标注,使得成本十分高昂,如何仍然是一个待解决的开放性问题。
发明内容
针对自然场景文本检测与识别算法依赖于大量有标注数据集的问题,提出了一种自监督对比学习自然场景中文本识别系统训练方法,采用自然图像文本与文本的正负样本集同时进行识别训练,获得具有对自然场景中文本对比学习能力的识别模型,训练后模型可对自然场景中文本进行检测识别,大大降低对有标注数据集的依赖程度。
本发明的技术方案为:一种自监督对比学习自然场景中文本识别系统训练方法,具体包括如下步骤:
1)图像正负样本:采用公开图像数据集,选取一张自然场景文本图像进行经过图像增强处理后,获得同类多个样本作为图像正样本,其他自然场景文本图像经过图像增强处理扩充样本后作为图像负样本;
2)文本标签正负样本:步骤1)图像正样本对应的文本标签进行文本增强处理后,获得同类多个样本作为文本标签正样本,步骤1)中图像负样本对应的文本标签进行文本增强处理扩充样本后作为文本负样本;
3)步骤1)获得的图像正负样本送入图像编码器进行特征向量提取,步骤2)获得的文本标签正负样本送入文本编码器进行特征向量提取;
4)步骤3)图像编码器输出的特征向量与文本编码器输出的特征向量作为向量对进行相似度计算,分别获得图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数,用于对自然场景文本图像中文本特征进行提取。
进一步,所述步骤1)中图像增强处理为:对于一张自然场景文本图像,经过图像增强函数tv,tv为一个随机变换函数,自然场景文本图像增强处理后,获得m张增强处理后自然场景文本图像,处理后图像保留原图本质上的特征。
进一步,所述步骤3)具体实现方法:增强后的图像正负样本
Figure BDA0003642164510000056
经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签正负样本
Figure BDA0003642164510000057
经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出;
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
Figure BDA0003642164510000051
将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
Figure BDA0003642164510000052
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
进一步,所述步骤4)中损失计算方法:在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u),用(vi,ui)表示第i对特征向量对,训练目标包含两个损失函数计算,第一个损失函数是第i对图像-文本对比损失为:
Figure BDA0003642164510000053
其中,<vi,ui>表示余弦相似度,即<vi,ui>=vTu/||v||||u||,用来度量vi和ui两者的相似性,
Figure BDA0003642164510000054
表示温度系数,作为调节余弦相似度权重的超参数,第二个损失函数是第i对文本-图像对比损失为:
Figure BDA0003642164510000055
最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
Figure BDA0003642164510000061
其中,λ∈[0,1]是标量权重。
进一步,所述文本编码器中文本编码器函数fu参与文本标签正负样本对比学习,通过两个损失函数的加权计算,辅助训练图像编码器函数,提升文本识别精度。
一种自监督对比学习自然场景中文本识别系统中图像编码器训练方法,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。
本发明的有益效果在于:本发明自监督对比学习自然场景中文本识别系统训练方法,解决了现有图像数据中文本识别模型对有标注数据集高度依赖的问题。
附图说明
图1为本发明基于自监督对比学习的自然场景文本检测与识别系统运用示意图;
图2为本发明基于自监督对比学习的自然场景文本检测与识别训练具体实现图;
图3为本发明中正负样本示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
图1基基于自监督对比学习的自然场景文本检测与识别系统运用示意图。相机捕获自然场景文本图像,送入训练后自然场景文本检测与识别模型,对输入的自然场景文本图像进行推理预测,识别出自然场景文本图像中的文本。
如图2所示基于自监督对比学习的自然场景文本检测与识别训练具体实现图,输入为公开数据集,分为两部分,分别是n张自然场景文本图像样本xv和对应图像中的n个文本标签样本xu。对于每一张自然场景文本图像,都会经过图像增强函数tv,tv为一个随机自然场景文本图像增强处理,例如随机翻转和随机通道丢弃,从而自然场景文本图像样本xv增强处理后得到n×m张自然场景文本图像样本
Figure BDA0003642164510000071
保留了xv的本质上的特征。该策略为提供了一种用来生成由一个图像样本扩充为同一个类别的多个样本,即被称为图像正样本,与此同时,其余的所有文本图像扩充后样本均作为该图像的负样本,如图3所示正负样本示意图。同样地,对于每一个文本标签,都会经过文本增强函数tu,tu为一个随机文本增强处理,从而文本标签样本集xu增强处理后得到n×m个文本标签
Figure BDA0003642164510000072
保留了xu的本质上的特征。该策略提供了一种用来生成由图像正样本对应的文本标签扩充为同一个类别的多个样本,即被称为标签正样本,与此同时,其余的所有文本标签扩充后文本标签样本作为该标签的负样本。通常情况下,只需要对图像进行增强处理即可得到对比学习所需的正负样本,本发明中同时也对文本标签进行增强处理,获取文本标签的正负样本,使得最终训练得到更鲁棒的模型,同时也充分利用公开数据集中的标签信息,提高了数据的利用效率。
随后,将增强后的图像样本
Figure BDA0003642164510000073
输入图像编码器函数fv,将增强后的文本标签
Figure BDA0003642164510000074
输入文本编码器函数fu。图像编码器函数fv和文本编码器函数fu均为参数化的编码器,可以是任何函数的近似,例如全连接或卷积神经网络。模型训练的目标是学习一个参数化的图像编码器函数fv,文本编码器函数fu也会在训练过程中学习得到,但是在训练结束后的推理过程中不需要用到文本编码器函数fu,换句话说,文本编码器函数fu是为了辅助训练一个更鲁棒的图像编码器函数fv。增强后的图像样本
Figure BDA0003642164510000081
经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签
Figure BDA0003642164510000082
经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出。
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,具体地说,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
Figure BDA0003642164510000083
类似地,将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
Figure BDA0003642164510000084
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u)。用(vi,ui)表示第i对特征向量对。训练目标包含两个损失函数计算。第一个损失函数是第i对图像-文本对比损失:
Figure BDA0003642164510000085
其中,<vi,ui〉表示余弦相似度,即<vi,ui〉=vTu/||v||||u||,用来度量vi和ui两者的相似性。此外,
Figure BDA0003642164510000086
表示温度系数,作为调节余弦相似度权重的超参数。这种损失函数的形式与InfoNCE损失相同,最小化这种损失将导致编码器在表示函数下最大限度地保留正例对之间的互信息。直观地说,这是N路分类器的log损失,它试图预测(vi,ui)为正例对。值得注意的是,与之前使用相同模态输入之间的对比损失的工作不同,图像-文本对比损失对于每个输入对是不对称的模式。因此,将类似的第二个损失函数是第i对文本-图像对比损失定义为:
Figure BDA0003642164510000091
然后,最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
Figure BDA0003642164510000092
其中,λ∈[0,1]是标量权重。值得注意的是,通过构造两个损失的加权组合,实现了显式上计算正例对的损失,隐式中使得模型学会分辨负例样本之间的区别。最小化这个损失函数对应于最大化正例得分和最小化负例得分,从而大幅提高模型辨别正负样本的能力,最终提升在推理过程中对自然场景文本图像中的文本的识别精度。
在本发明的实施例中,对评估结果考察精度和准确度时,通常采用数学统计中的均方误差方法,而结果实用性差。本发明提出了新的结果考察方法,能够实现像素级评价指标来评估输出结果,从而极大解决了实际问题中的评估不可靠性和准确度,验证了本系统的实际应用性。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种自监督对比学习自然场景中文本识别系统训练方法,其特征在于,具体包括如下步骤:
1)图像正负样本:采用公开图像数据集,选取一张自然场景文本图像进行经过图像增强处理后,获得同类多个样本作为图像正样本,其他自然场景文本图像经过图像增强处理扩充样本后作为图像负样本;
2)文本标签正负样本:步骤1)图像正样本对应的文本标签进行文本增强处理后,获得同类多个样本作为文本标签正样本,步骤1)中图像负样本对应的文本标签进行文本增强处理扩充样本后作为文本负样本;
3)步骤1)获得的图像正负样本送入图像编码器进行特征向量提取,步骤2)获得的文本标签正负样本送入文本编码器进行特征向量提取;
4)步骤3)图像编码器输出的特征向量与文本编码器输出的特征向量作为向量对进行相似度计算,分别获得图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数,用于对自然场景文本图像中文本特征进行提取。
2.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤1)中图像增强处理为:对于一张自然场景文本图像,经过图像增强函数tv,tv为一个随机变换函数,自然场景文本图像增强处理后,获得m张增强处理后自然场景文本图像,处理后图像保留原图本质上的特征。
3.根据权利要求1所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤3)具体实现方法:增强后的图像正负样本
Figure FDA0003642164500000011
经过图像编码器函数fv后得到d维特征向量hv作为图像编码器的最后输出,同样地,增强后的文本标签正负样本
Figure FDA0003642164500000012
经过文本编码器函数fu后得到d维特征向量hu作为文本编码器的最后输出;
得到hv和hu之后,为了避免模型在训练过程中出现过拟合现象,对hv和hu均采取非线性转化,将hv输入非线性投影函数gv,从而得到特征向量v作为gv的输出:
Figure FDA0003642164500000021
将hu输入非线性投影函数gu,从而得到特征向量u作为gu的输出:
Figure FDA0003642164500000022
gv和gu属于两个不同模态的投影函数,分别从它们的编码器空间投影到相同的d维空间进行对比学习。
4.根据权利要求3所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述步骤4)中损失计算方法:在训练时,从训练数据中抽取一个小批量的N个图像-文本输入对(xv,xu),并计算它们的特征向量对(v,u),用(vi,ui)表示第i对特征向量对,训练目标包含两个损失函数计算,第一个损失函数是第i对图像-文本对比损失为:
Figure FDA0003642164500000023
其中,<vi,ui>表示余弦相似度,即<vi,ui>=vTu/||v||||u||,用来度量vi和ui两者的相似性,
Figure FDA0003642164500000024
表示温度系数,作为调节余弦相似度权重的超参数,第二个损失函数是第i对文本-图像对比损失为:
Figure FDA0003642164500000025
最终训练损失定义为对每个小批次处理中所有正例图像-文本对的两个损失的加权组合,选择所有小批次损失函数的平均值作为最终训练损失:
Figure FDA0003642164500000026
其中,λ∈[0,1]是标量权重。
5.根据权利要求4所述自监督对比学习自然场景中文本识别系统训练方法,其特征在于,所述文本编码器中文本编码器函数fu参与文本标签正负样本对比学习,通过两个损失函数的加权计算,辅助训练图像编码器函数,提升文本识别精度。
6.一种自监督对比学习自然场景中文本识别系统中图像编码器训练方法,其特征在于,将图像正负样本中的文本标签作为文本标签正负样本,送入文本编码器中进行对比学习,作为图像编码器的辅助训练学习,再采用图像正负样本中提取的图像特征和文本标签正负样本中提取的文本特征组成特征对,分别计算图像-文本损失和文本-图像损失,将正样本图像-文本对的两个损失的加权组合最小为目标对系统进行训练,最终获得图像编码器中参数化的图像编码器函数。
CN202210532609.8A 2022-05-13 2022-05-13 自监督对比学习自然场景中文本识别系统训练方法 Pending CN114973226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210532609.8A CN114973226A (zh) 2022-05-13 2022-05-13 自监督对比学习自然场景中文本识别系统训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210532609.8A CN114973226A (zh) 2022-05-13 2022-05-13 自监督对比学习自然场景中文本识别系统训练方法

Publications (1)

Publication Number Publication Date
CN114973226A true CN114973226A (zh) 2022-08-30

Family

ID=82982426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210532609.8A Pending CN114973226A (zh) 2022-05-13 2022-05-13 自监督对比学习自然场景中文本识别系统训练方法

Country Status (1)

Country Link
CN (1) CN114973226A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495712A (zh) * 2022-09-28 2022-12-20 支付宝(杭州)信息技术有限公司 数字作品处理方法及装置
CN116631566A (zh) * 2023-05-23 2023-08-22 重庆邮电大学 一种基于大数据的医学影像报告智能生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115495712A (zh) * 2022-09-28 2022-12-20 支付宝(杭州)信息技术有限公司 数字作品处理方法及装置
CN115495712B (zh) * 2022-09-28 2024-04-16 支付宝(杭州)信息技术有限公司 数字作品处理方法及装置
CN116631566A (zh) * 2023-05-23 2023-08-22 重庆邮电大学 一种基于大数据的医学影像报告智能生成方法
CN116631566B (zh) * 2023-05-23 2024-05-24 广州合昊医疗科技有限公司 一种基于大数据的医学影像报告智能生成方法

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
Li et al. SCL-MLNet: Boosting few-shot remote sensing scene classification via self-supervised contrastive learning
Boughida et al. A novel approach for facial expression recognition based on Gabor filters and genetic algorithm
CN110866140A (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
CN108427921A (zh) 一种基于卷积神经网络的人脸识别方法
CN114973226A (zh) 自监督对比学习自然场景中文本识别系统训练方法
CN111582044A (zh) 基于卷积神经网络和注意力模型的人脸识别方法
CN112232184B (zh) 一种基于深度学习和空间转换网络的多角度人脸识别方法
CN115731441A (zh) 基于数据跨模态迁移学习的目标检测和姿态估计方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
Zhu et al. Feature distilled tracking
CN116110089A (zh) 一种基于深度自适应度量学习的面部表情识别方法
Wang et al. Graph-based safe support vector machine for multiple classes
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
El Alami et al. Efficient color face recognition based on quaternion discrete orthogonal moments neural networks
Elbarawy et al. Facial expressions recognition in thermal images based on deep learning techniques
Ge et al. Deep spatial attention hashing network for image retrieval
CN117154256A (zh) 锂电池的电化学修复方法
Cheng et al. Activity guided multi-scales collaboration based on scaled-CNN for saliency prediction
US20230186600A1 (en) Method of clustering using encoder-decoder model based on attention mechanism and storage medium for image recognition
Ma Fixed-point tracking of English reading text based on mean shift and multi-feature fusion
Mahesh et al. Zernike moments and machine learning based gender classification using facial images
Li et al. Deep convolutional neural network for real and fake face discrimination
Lei et al. Student action recognition based on multiple features
Pei et al. FGO-Net: Feature and Gaussian Optimization Network for visual saliency prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination