CN113837231A - 一种基于混合样本与标签的数据增强的图像描述方法 - Google Patents

一种基于混合样本与标签的数据增强的图像描述方法 Download PDF

Info

Publication number
CN113837231A
CN113837231A CN202111005885.0A CN202111005885A CN113837231A CN 113837231 A CN113837231 A CN 113837231A CN 202111005885 A CN202111005885 A CN 202111005885A CN 113837231 A CN113837231 A CN 113837231A
Authority
CN
China
Prior art keywords
image
mixed
sentence
input
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111005885.0A
Other languages
English (en)
Other versions
CN113837231B (zh
Inventor
纪荣嵘
李毅男
纪家沂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202111005885.0A priority Critical patent/CN113837231B/zh
Publication of CN113837231A publication Critical patent/CN113837231A/zh
Application granted granted Critical
Publication of CN113837231B publication Critical patent/CN113837231B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于混合样本与标签的数据增强的图像描述方法,涉及人工智能。1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)将步骤1)提取的图像特征按照服从beta分布的权值进行线性混合;3)将输入的语言数据以词嵌入的形式进行和步骤2)权值一样的线性混合;4)将混合后的图像特征和词嵌入输入到模型中,得到生成的句子;5)将生成的句子和被混合的两个图像的对应真实句子进行损失计算,采用一个混合的损失函数将两个损失值混合,并更新模型参数,实现数据增强,并用混合的输入和对应的混合的目标来强化图像描述方法生成句子的多样性和判别性。具有很强的迁移性,能适用于现有大多数的图像描述模型,并都取得性能提升。

Description

一种基于混合样本与标签的数据增强的图像描述方法
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及图片用自然语言对图像客观内容进行描述的一种基于混合样本与标签的数据增强的图像描述方法。
背景技术
随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。图像自动描述(ImageCaptioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是用自然语言描述图像的视觉内容。它的主要挑战不仅在于充分理解图像中的对象和关系,还在于生成与视觉语义相匹配的流利句子。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器-解码器框架的方法,通常采用预训练卷积神经网络(CNN)的变体作为图像编码器,同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数,使得该任务取得极大的进展。
Xu等人[1]首次在图像描述任务中引入注意力机制,以在每个生成步骤中专注于最相关的区域。Lu等人[2]开发自适应注意来确定在每个解码步骤中是依赖视觉特征还是语言模型状态。Rennie等人[3]将强化学习技术引入到图像描述任务中,极大的提升图像描述方法的性能。最近,Anderson等人[4]还提出自下而上的注意力技术,以基于图像的区域特征来找到最相关的显着区域。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中,Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。
在增强生成的图像描述语句的多样性方面,Dai等人[8]和Dognin等人[9]使用生成对抗网络(GAN)来生成多样且类似于人类所描述的句子。Dai等人[10]使用对比学习技术来生成独特的句子,同时保持所生成句子的整体质量。Luo等人[11]使用检索模型来创建判别度高的训练目标,以生成各种字幕。同样,liu等人[12]训练另一种检索模型来使用检索得分优化,而不是CIDEr奖励值优化在强化学习阶段训练图像描述模型。但是,这些方法过于复杂且不易训练,并且没有解决由MS COCO数据集的数据不足引起的负面语言偏置的问题。
在图像分类领域,为解决数据集的偏置问题,加强模型的鲁棒性和泛化性,Zhang等人[13]提出一种简单且与数据集无关的数据增强方法,称为Mixup,该方法通过线性插值两个图像及其标签来随机创建新的训练样本。实验表明,它可以提高模型的性能和泛化能力,从而降低过度拟合的风险。Verma等人[14]对Mixup进行改进,在隐含空间中执行插值,以获得高级信息和更平滑的决策边界。Chen等人[15]将隐含空间的Mixup应用于文本分类。Ling等人[16]在Person ReID任务中用到Mixup。然而,Mixup在上述任务中只被应用到分类任务中,而没在序列生成任务上进行尝试。
参考文献:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel.2017.Self-critical sequence training forimage captioning.InCVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
[5].Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.
[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.
[7].Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.
[8].Bo Dai,Sanja Fidler,Raquel Urtasun,and Dahua Lin.2017.Towardsdiverse and natural image descriptions via a conditional gan.In ICCV.
[9].Pierre Dognin,Igor Melnyk,Youssef Mroueh,Jerret Ross,and TomSercu.2019.Adversarial semantic alignment for improved image captions.InCVPR.
[10].Bo Dai and Dahua Lin.2017.Contrastive Learning for ImageCaptioning.In NeurIPS
[11].Ruotian Luo,Brian Price,Scott Cohen,and Gregory Shakhnarovich.2018.Discriminability objective for training descriptive captions.In CVPR.
[12].Xihui Liu,Hongsheng Li,Jing Shao,Dapeng Chen,and XiaogangWang.2018.Show,tell and discriminate:Image captioning by self-retrieval withpartially labeled data.In ECCV.
[13].Hongyi Zhang,Moustapha Cisse,Yann N Dauphin,and David Lopez-Paz.2018.mixup:Beyond empirical risk minimization.In ICLR.
[14].Vikas Verma,Alex Lamb,Christopher Beckham,Amir Najafi,IoannisMitliagkas,David Lopez-Paz,and Yoshua Bengio.2019.Manifold mixup:Betterrepresentations by interpolating hidden states.In ICML.
[15].Jiaao Chen,Zichao Yang,and Diyi Yang.2020.Mixtext:Linguistically-informed interpolation of hidden space for semi-supervisedtext classification.In ACL.
[16].Yongguo Ling,Zhun Zhong,Zhiming Luo,Paolo Rota,Shaozi Li,andNicu Sebe.2020.Class-Aware Modality Mix and Center-Guided Metric Learning forVisible-Thermal Person Re-Identification.In ACM MM.
发明内容
本发明的目的在于针对传统图像描述方法生成的语句缺乏判别性与多样性,以及所用数据集数据标准不足的缺点,提供一种基于混合样本与标签的数据增强的图像描述方法。通过混合不同输入的图像特征、语句词嵌入以及对于的损失函数值,使模型通过学习更加复杂的样本与目标来提升生成的图像描述语句的质量和判别性。
本发明包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征V={v1,v2,...,vN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ;
3)将输入的批次中的数据顺序打乱,将原序数据和乱序数据按照权值λ和(1-λ)进行线性混合;包括图像特征的混合和语句词嵌入的混合;
4)将步骤3)的混合输入送入解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数,实现数据增强。
在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤2)中,所述采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ的具体方法是:使用numpy库中的random.beta方法为每个批次的输入数据生成服从beta分布的权值λ,其中,beta分布的参数为(0.5,0.5)。
在步骤3)中,所述将输入的图像特征混合和语句词嵌入混合的具体过程为:对于每一个批次输入的图像特征V,先将其随机打乱顺序得到Vs,然后将V与Vs按照权值λ进行线性混合得到混合图像特征
Figure BDA0003237203830000041
即:
Figure BDA0003237203830000042
Figure BDA0003237203830000043
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征。
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量。将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将原序数据S与乱序数据Ss按照权值λ进行线性混合得到混合语句输入
Figure BDA0003237203830000044
即:
Figure BDA0003237203830000045
Figure BDA0003237203830000046
其中,wi和wj分别属于S和Ss中的同一位置的词嵌入,n为该位置。
Figure BDA0003237203830000047
为混合词嵌入向量,T为被混合的两个句子中的最长的一句的长度,m是这一批次输入的总共的句子个数。
在步骤4)中,所述将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数的具体过程为:
在图像描述任务中,定义语言解码器为Decoder,它的第t时刻的输入由混合图像特征
Figure BDA0003237203830000048
Figure BDA0003237203830000049
的前t-1个词嵌入构成,输出为第t时刻的隐藏状态ht,即:
Figure BDA00032372038300000410
p(yt|Yt-1)=soft max(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
Figure BDA0003237203830000051
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的针对被混合的两个图像的两个目标句子
Figure BDA0003237203830000059
和b=(∑mr(Ym))/k来说,本方法的混合损失函数定义为:
Figure BDA0003237203830000052
Figure BDA0003237203830000053
Figure BDA0003237203830000054
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0003237203830000055
Figure BDA0003237203830000056
Figure BDA0003237203830000057
其中,
Figure BDA0003237203830000058
beam search采样的第m个句子,b=(∑mr(Ym))/k作为基线值。
本发明的优点如下:
通过本发明所提出的方案能够获得一个简单便捷的,针对多模态数据集进行数据增强的图像描述方法。本发明针对带有负面语义偏置的图像描述数据集中,使用一种多模态的数据增强方法,通过混合不同的输入的图像特征、语句词嵌入以及它们的对应损失值,让图像描述模型可以学习更加复杂多样的数据样本,提升图像描述语句的质量与判别性。同时,本发明具有很强的迁移性,能够适用于现有大多数的图像描述模型,并都取得性能提升。
附图说明
图1是本发明于混合样本与标签的数据增强的图像描述方法的流程图;其中,λ是混合的权值
图2是语句词嵌入混合并生成描述语句的流程图;其中,wi是原始的单词,ei是单词的词嵌入向量,yi是预测出的单词;
图3是混合损失值的流程图;
图4是不同的图像描述模型生成的句子对比图。其中,Baseline指的是Transformer模型,Transformer是一种经典的图像描述基线方法。(a)图中为不同的图像有相同的主语,(b)图中为不同的图像生成相同的描述句子;
图5则是DLCT模型(当前性能最好方法)和DLCT使用本发明方法训练后在生成某个单词时关注区域的可视化的对比图。
具体实施方式
以下实施例将结合附图对本发明进行详细说明。
本发明包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征V;
2)对于图像对应的输入语句,转换为词嵌入矩阵;
3)将图像特征V和语句词嵌入S打乱顺序得到VS和Ss,将V和Vs,S和Ss按照服从beta分布的权值λ进行混合得到对应的混合特征
Figure BDA0003237203830000061
Figure BDA0003237203830000062
4)将前述的图像混合特征
Figure BDA0003237203830000063
和语句词嵌入混合特征
Figure BDA0003237203830000064
送入到语言解码器中,生成图像描述语句YT
5)将前述生成的图像描述语句YT与被混合的两个图像对应的两个标签语句Yi *
Figure BDA0003237203830000065
进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数。本发明上述整体流程的流程图如图1所示。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到10201个单词,对数据集描述中出现次数小于五的单词进行剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2,......,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。首先,查询图像和待检索图像库的图像特征抽取的形式化描述为:对于训练集中的每幅图像提取d维的特征,得到一个d×n的原始视觉特征矩阵X=[x1,x2,...,xn]∈Rd×n,其中,n表示训练集中的训练样本个数,xi为矩阵X第i列表示样本集合中第i个维度为d的特征向量。
2、图像特征混合:
将每一批次的图像特征输入V打乱顺序得到Vs。然后将V与Vs按照权值λ进行线性混合得到混合图像特征
Figure BDA0003237203830000071
即:
Figure BDA0003237203830000072
Figure BDA0003237203830000073
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征。
3、语句词嵌入混合:
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量。将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将S与Ss按照权值λ进行线性混合得到混合语句输入
Figure BDA0003237203830000074
即:
Figure BDA0003237203830000075
Figure BDA0003237203830000076
其中,wi和wj分别属于S和Ss中的同一位置的词嵌入,n为该位置。
Figure BDA0003237203830000077
为混合词嵌入向量,T为被混合的两个句子中的最长的一句的长度,m是这一批次输入的总共的句子个数。具体流程如图2所示;
4、图像描述语句生成:
在图像描述任务中,定义语言解码器为Decoder,它的第t时刻的输入由混合图像特征
Figure BDA0003237203830000081
Figure BDA0003237203830000082
的前t-1个词嵌入构成,输出为第t时刻的隐藏状态ht,即:
Figure BDA0003237203830000083
p(yt|Yt-1)=soft max(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
Figure BDA0003237203830000084
其中,T为句子长度;
5、混合损失函数:
本发明通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的针对被混合的两个图像的两个目标句子
Figure BDA0003237203830000085
和b=(∑mr(Ym))/k来说,本方法的混合损失函数定义为:
Figure BDA0003237203830000086
Figure BDA0003237203830000087
Figure BDA0003237203830000088
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure BDA0003237203830000089
Figure BDA00032372038300000810
Figure BDA00032372038300000811
其中,
Figure BDA00032372038300000812
beam search采样的第m个句子,b=(∑mr(Ym))/k作为基线值,具体流程如图3所示。
为验证本发明提出的方法的可行性和先进性,在通用的评估图像描述方法的数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,可以看到在多种评估指标上以及不同的图像特征上,使用本发明所提出的方法训练原有的经典模型,在所有的指标上都有提升。此外,如图4所示,通过可视化输入图像所生成的文本描述(示例给出的描述为英文,中文描述自动生成过程同理),可以看到由于本发明的方法训练模型时采用混合的特征和损失值,和使用原本方法训练的基线模型(Transformer)相比,其在图像描述上取得很明显的增强,生成的图像描述语句判别性得到显著提升。图5为当前最好方法(DLCT)和使用本发明方法训练的DLCT对解码器关注区域的可视化的对比,该结果表明使用本发明方法进行训练后,原本模型可以更准确更具体的定位到要描述的区域,并生成对应的描述词语。
表1 本发明方法与当前最先进方法的比较
Figure BDA0003237203830000091
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (5)

1.一种基于混合样本与标签的数据增强的图像描述方法,其特征在于包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征V={v1,v2,...,vN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ;
3)将输入的批次中的数据的顺序打乱,将原序数据和乱序数据按照权值λ和(1-λ)进行线性混合;包括图像特征的混合和语句词嵌入的混合;
4)将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数,实现数据增强。
2.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤2)中,所述权值λ产生方法是:使用numpy库中的random.beta方法为每个批次的输入数据生成服从beta分布的权值λ,其中,beta分布的参数为(0.5,0.5)。
4.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在在步骤3)中,所述图像特征的混合和语句词嵌入的混合的具体过程为:对于每一个批次输入的图像特征V,先将其随机打乱顺序得到Vs,然后将V与Vs按照权值λ进行线性混合得到混合图像特征
Figure FDA0003237203820000011
即:
Figure FDA0003237203820000012
Figure FDA0003237203820000013
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征;
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”;然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量;将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将S与Ss按照权值λ进行线性混合得到混合语句输入
Figure FDA0003237203820000021
即:
Figure FDA0003237203820000022
Figure FDA0003237203820000023
其中,wi和wj分别属于S和Ss中的同一位置的词嵌入,n为该位置;
Figure FDA0003237203820000024
为混合词嵌入向量,T为被混合的两个句子中的最长的一句的长度,m是这一批次输入的总共的句子个数。
5.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤4)中,所述将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数的具体过程为:
在图像描述任务中,定义语言解码器为Decoder,它的第t时刻的输入由混合图像特征
Figure FDA0003237203820000025
Figure FDA0003237203820000026
的前t-1个词嵌入构成,输出为第t时刻的隐藏状态ht,即:
Figure FDA0003237203820000027
p(yt|Yt-1)=softmax(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语;对于预测的句子YT={y0,…yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
Figure FDA0003237203820000028
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的针对被混合的两个图像的两个目标句子
Figure FDA0003237203820000029
和b=(∑mr(Ym))/k来说,本方法的混合损失函数定义为:
Figure FDA00032372038200000210
Figure FDA00032372038200000211
Figure FDA0003237203820000031
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Figure FDA0003237203820000032
Figure FDA0003237203820000033
Figure FDA0003237203820000034
其中,
Figure FDA0003237203820000035
beam search采样的第m个句子,b=(∑mr(Ym))/k作为基线值。
CN202111005885.0A 2021-08-30 2021-08-30 一种基于混合样本与标签的数据增强的图像描述方法 Active CN113837231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005885.0A CN113837231B (zh) 2021-08-30 2021-08-30 一种基于混合样本与标签的数据增强的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005885.0A CN113837231B (zh) 2021-08-30 2021-08-30 一种基于混合样本与标签的数据增强的图像描述方法

Publications (2)

Publication Number Publication Date
CN113837231A true CN113837231A (zh) 2021-12-24
CN113837231B CN113837231B (zh) 2024-02-27

Family

ID=78961638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005885.0A Active CN113837231B (zh) 2021-08-30 2021-08-30 一种基于混合样本与标签的数据增强的图像描述方法

Country Status (1)

Country Link
CN (1) CN113837231B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693940A (zh) * 2022-03-22 2022-07-01 电子科技大学 基于深度学习的特征混合可分解性增强的图像描述方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111951207A (zh) * 2020-08-25 2020-11-17 福州大学 基于深度增强学习和语义损失的图像质量增强方法
KR20210029110A (ko) * 2019-09-05 2021-03-15 고려대학교 산학협력단 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
CN112580580A (zh) * 2020-12-28 2021-03-30 厦门理工学院 一种基于数据增强与模型融合的病理性近视识别方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210029110A (ko) * 2019-09-05 2021-03-15 고려대학교 산학협력단 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统
CN111951207A (zh) * 2020-08-25 2020-11-17 福州大学 基于深度增强学习和语义损失的图像质量增强方法
CN112580580A (zh) * 2020-12-28 2021-03-30 厦门理工学院 一种基于数据增强与模型融合的病理性近视识别方法
CN112819013A (zh) * 2021-01-29 2021-05-18 厦门大学 基于层内层间联合全局表示的图像描述方法
CN113254599A (zh) * 2021-06-28 2021-08-13 浙江大学 一种基于半监督学习的多标签微博文本分类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
CONNOR SHORTEN.ET AL: "A survey on image data augmentation dor deep learning", 《JOURNAL OF BIG DATA》 *
VIKTOR OLSSON.ET AL: "CLASSMIX: SEGMENTATION-BASED DATA AUGMENTATION FOR SEMI-SUPERVISED LEARNING", 《ARXIV》 *
张磊等: "遥感图像目标检测的数据增广研究", 《测绘科学技术学报》, no. 05 *
葛轶洲等: "序列数据的数据增强方法综述", 《计算机科学与探索》, vol. 15, no. 07 *
陆健强等: "基于 Mixup 算法和卷积神经网络的 柑橘黄龙病果实识别研究", 《华南农业大学学报》, vol. 42, no. 03 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693940A (zh) * 2022-03-22 2022-07-01 电子科技大学 基于深度学习的特征混合可分解性增强的图像描述方法
CN114693940B (zh) * 2022-03-22 2023-04-28 电子科技大学 基于深度学习的特征混合可分解性增强的图像描述方法

Also Published As

Publication number Publication date
CN113837231B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
Pu et al. Boosting continuous sign language recognition via cross modality augmentation
Zhong et al. Comprehensive image captioning via scene graph decomposition
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
Zhang et al. Radical analysis network for zero-shot learning in printed Chinese character recognition
Chandio et al. Cursive text recognition in natural scene images using deep convolutional recurrent neural network
CN112819013A (zh) 基于层内层间联合全局表示的图像描述方法
CN113837233B (zh) 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN114529903A (zh) 文本细化网络
Li et al. Adapting clip for phrase localization without further training
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
Wang et al. Tag: Boosting text-vqa via text-aware visual question-answer generation
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
Tayyab et al. Recognition of Visual Arabic Scripting News Ticker From Broadcast Stream
Liu et al. Residual recurrent CRNN for end-to-end optical music recognition on monophonic scores
CN113837231B (zh) 一种基于混合样本与标签的数据增强的图像描述方法
CN117437426A (zh) 一种高密度代表性原型指引的半监督语义分割方法
Rasheed et al. A deep learning-based method for Turkish text detection from videos
Li et al. Dual relation network for scene text recognition
Ji et al. Text-to-image generation via semi-supervised training
Mirza et al. Impact of pre-processing on recognition of cursive video text
Salman et al. Proposed Deep Learning System for Arabic Text Detection and Recognition
Rafi et al. A linear sub-structure with co-variance shift for image captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant