CN113837231A - 一种基于混合样本与标签的数据增强的图像描述方法 - Google Patents
一种基于混合样本与标签的数据增强的图像描述方法 Download PDFInfo
- Publication number
- CN113837231A CN113837231A CN202111005885.0A CN202111005885A CN113837231A CN 113837231 A CN113837231 A CN 113837231A CN 202111005885 A CN202111005885 A CN 202111005885A CN 113837231 A CN113837231 A CN 113837231A
- Authority
- CN
- China
- Prior art keywords
- image
- mixed
- sentence
- input
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000002156 mixing Methods 0.000 claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 10
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract 2
- 238000012549 training Methods 0.000 claims description 24
- 230000002787 reinforcement Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 10
- 230000000007 visual effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 4
- 238000006467 substitution reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 2
- 230000037431 insertion Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000005728 strengthening Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- VTYYLEPIZMXCLO-UHFFFAOYSA-L Calcium carbonate Chemical compound [Ca+2].[O-]C([O-])=O VTYYLEPIZMXCLO-UHFFFAOYSA-L 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000019987 cider Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Machine Translation (AREA)
Abstract
一种基于混合样本与标签的数据增强的图像描述方法,涉及人工智能。1)采用目标检测器提取待描述图像的若干个候选区对应的特征;2)将步骤1)提取的图像特征按照服从beta分布的权值进行线性混合;3)将输入的语言数据以词嵌入的形式进行和步骤2)权值一样的线性混合;4)将混合后的图像特征和词嵌入输入到模型中,得到生成的句子;5)将生成的句子和被混合的两个图像的对应真实句子进行损失计算,采用一个混合的损失函数将两个损失值混合,并更新模型参数,实现数据增强,并用混合的输入和对应的混合的目标来强化图像描述方法生成句子的多样性和判别性。具有很强的迁移性,能适用于现有大多数的图像描述模型,并都取得性能提升。
Description
技术领域
本发明涉及人工智能领域中的图像自动描述,特别是涉及图片用自然语言对图像客观内容进行描述的一种基于混合样本与标签的数据增强的图像描述方法。
背景技术
随着计算机视觉技术的发展,完成目标检测、识别、分割等任务已经不能满足人们的生产需求,对如何自动客观的对图像内容自动描述有迫切的需求。图像自动描述(ImageCaptioning)是近年来人工智能界提出的一个机器终极智能任务,它的任务是用自然语言描述图像的视觉内容。它的主要挑战不仅在于充分理解图像中的对象和关系,还在于生成与视觉语义相匹配的流利句子。和目标检测及语义分割等任务不同,图像自动描述要将图像中的物体、属性、物体间的关系以及相应的场景等用自动语言进行整体而客观的描述,该任务是计算机视觉理解的重要方向之一,被视为人工智能的一个重要标志。
较早的图像自动描述方法主要采用基于模板的方法和基于检索的方法实现。近年来受自然语言处理发展的影响,开始使用基于编码器-解码器框架的方法,通常采用预训练卷积神经网络(CNN)的变体作为图像编码器,同时使用递归神经网络(RNN)作为解码器。并引入注意力机制以及以强化学习为基础的目标函数,使得该任务取得极大的进展。
Xu等人[1]首次在图像描述任务中引入注意力机制,以在每个生成步骤中专注于最相关的区域。Lu等人[2]开发自适应注意来确定在每个解码步骤中是依赖视觉特征还是语言模型状态。Rennie等人[3]将强化学习技术引入到图像描述任务中,极大的提升图像描述方法的性能。最近,Anderson等人[4]还提出自下而上的注意力技术,以基于图像的区域特征来找到最相关的显着区域。Huang等人[5]则首次引入自然语言处理中的transformer模型到图像描述任务中,Pan等人[6]和Cornia[7]等人都使用Transformer模型来代替递归神经网络并取得最好的性能。
在增强生成的图像描述语句的多样性方面,Dai等人[8]和Dognin等人[9]使用生成对抗网络(GAN)来生成多样且类似于人类所描述的句子。Dai等人[10]使用对比学习技术来生成独特的句子,同时保持所生成句子的整体质量。Luo等人[11]使用检索模型来创建判别度高的训练目标,以生成各种字幕。同样,liu等人[12]训练另一种检索模型来使用检索得分优化,而不是CIDEr奖励值优化在强化学习阶段训练图像描述模型。但是,这些方法过于复杂且不易训练,并且没有解决由MS COCO数据集的数据不足引起的负面语言偏置的问题。
在图像分类领域,为解决数据集的偏置问题,加强模型的鲁棒性和泛化性,Zhang等人[13]提出一种简单且与数据集无关的数据增强方法,称为Mixup,该方法通过线性插值两个图像及其标签来随机创建新的训练样本。实验表明,它可以提高模型的性能和泛化能力,从而降低过度拟合的风险。Verma等人[14]对Mixup进行改进,在隐含空间中执行插值,以获得高级信息和更平滑的决策边界。Chen等人[15]将隐含空间的Mixup应用于文本分类。Ling等人[16]在Person ReID任务中用到Mixup。然而,Mixup在上述任务中只被应用到分类任务中,而没在序列生成任务上进行尝试。
参考文献:
[1].Xu,K.;Ba,J.;Kiros,R.;Cho,K.;Courville,A.;Salakhudinov,R.;Zemel,R.;and Bengio,Y.2015.Show,attend and tell:Neural image caption generationwith visual attention.In ICML.
[2].Lu,J.;Xiong,C.;Parikh,D.;and Socher,R.2017.Knowing when to look:Adaptive attention via a visual sentinel for image captioning.In CVPR.
[3].Steven J Rennie,Etienne Marcheret,Youssef Mroueh,JerretRoss,andVaibhava Goel.2017.Self-critical sequence training forimage captioning.InCVPR.
[4].Anderson,P.;He,X.;Buehler,C.;Teney,D.;Johnson,M.;Gould,S.;andZhang,L.2018.Bottom-up and top-down attention for image captioning and visualquestion answering.In CVPR.
[5].Huang,L.;Wang,W.;Chen,J.;andWei,X.-Y.2019.Attention on Attentionfor Image Captioning.In ICCV.
[6].Yingwei Pan,Ting Yao,Yehao Li,and Tao Mei.2020.X-linear attentionnetworks for image captioning.In CVPR.
[7].Cornia,M.;Stefanini,M.;Baraldi,L.;and Cucchiara,R.2020.Meshed-Memory Transformer for Image Captioning.In CVPR.
[8].Bo Dai,Sanja Fidler,Raquel Urtasun,and Dahua Lin.2017.Towardsdiverse and natural image descriptions via a conditional gan.In ICCV.
[9].Pierre Dognin,Igor Melnyk,Youssef Mroueh,Jerret Ross,and TomSercu.2019.Adversarial semantic alignment for improved image captions.InCVPR.
[10].Bo Dai and Dahua Lin.2017.Contrastive Learning for ImageCaptioning.In NeurIPS
[11].Ruotian Luo,Brian Price,Scott Cohen,and Gregory Shakhnarovich.2018.Discriminability objective for training descriptive captions.In CVPR.
[12].Xihui Liu,Hongsheng Li,Jing Shao,Dapeng Chen,and XiaogangWang.2018.Show,tell and discriminate:Image captioning by self-retrieval withpartially labeled data.In ECCV.
[13].Hongyi Zhang,Moustapha Cisse,Yann N Dauphin,and David Lopez-Paz.2018.mixup:Beyond empirical risk minimization.In ICLR.
[14].Vikas Verma,Alex Lamb,Christopher Beckham,Amir Najafi,IoannisMitliagkas,David Lopez-Paz,and Yoshua Bengio.2019.Manifold mixup:Betterrepresentations by interpolating hidden states.In ICML.
[15].Jiaao Chen,Zichao Yang,and Diyi Yang.2020.Mixtext:Linguistically-informed interpolation of hidden space for semi-supervisedtext classification.In ACL.
[16].Yongguo Ling,Zhun Zhong,Zhiming Luo,Paolo Rota,Shaozi Li,andNicu Sebe.2020.Class-Aware Modality Mix and Center-Guided Metric Learning forVisible-Thermal Person Re-Identification.In ACM MM.
发明内容
本发明的目的在于针对传统图像描述方法生成的语句缺乏判别性与多样性,以及所用数据集数据标准不足的缺点,提供一种基于混合样本与标签的数据增强的图像描述方法。通过混合不同输入的图像特征、语句词嵌入以及对于的损失函数值,使模型通过学习更加复杂的样本与目标来提升生成的图像描述语句的质量和判别性。
本发明包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征V={v1,v2,...,vN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ;
3)将输入的批次中的数据顺序打乱,将原序数据和乱序数据按照权值λ和(1-λ)进行线性混合;包括图像特征的混合和语句词嵌入的混合;
4)将步骤3)的混合输入送入解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数,实现数据增强。
在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCALVOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
在步骤2)中,所述采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ的具体方法是:使用numpy库中的random.beta方法为每个批次的输入数据生成服从beta分布的权值λ,其中,beta分布的参数为(0.5,0.5)。
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征。
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量。将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将原序数据S与乱序数据Ss按照权值λ进行线性混合得到混合语句输入即:
在步骤4)中,所述将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数的具体过程为:
p(yt|Yt-1)=soft max(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的针对被混合的两个图像的两个目标句子和b=(∑mr(Ym))/k来说,本方法的混合损失函数定义为:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
本发明的优点如下:
通过本发明所提出的方案能够获得一个简单便捷的,针对多模态数据集进行数据增强的图像描述方法。本发明针对带有负面语义偏置的图像描述数据集中,使用一种多模态的数据增强方法,通过混合不同的输入的图像特征、语句词嵌入以及它们的对应损失值,让图像描述模型可以学习更加复杂多样的数据样本,提升图像描述语句的质量与判别性。同时,本发明具有很强的迁移性,能够适用于现有大多数的图像描述模型,并都取得性能提升。
附图说明
图1是本发明于混合样本与标签的数据增强的图像描述方法的流程图;其中,λ是混合的权值
图2是语句词嵌入混合并生成描述语句的流程图;其中,wi是原始的单词,ei是单词的词嵌入向量,yi是预测出的单词;
图3是混合损失值的流程图;
图4是不同的图像描述模型生成的句子对比图。其中,Baseline指的是Transformer模型,Transformer是一种经典的图像描述基线方法。(a)图中为不同的图像有相同的主语,(b)图中为不同的图像生成相同的描述句子;
图5则是DLCT模型(当前性能最好方法)和DLCT使用本发明方法训练后在生成某个单词时关注区域的可视化的对比图。
具体实施方式
以下实施例将结合附图对本发明进行详细说明。
本发明包括以下步骤:
1)对于图像库中的图像,首先使用卷积神经网络抽取相应的图像特征V;
2)对于图像对应的输入语句,转换为词嵌入矩阵;
5)将前述生成的图像描述语句YT与被混合的两个图像对应的两个标签语句Yi *和进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数。本发明上述整体流程的流程图如图1所示。
具体的每个模块如下:
1、深度卷积特征抽取与描述数据预处理
对所有训练数据中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,得到10201个单词,对数据集描述中出现次数小于五的单词进行剔除,使用“<UNK>”进行替代,同时加入开始符“<BOS>”和结束符“<END>”分别在描述句子的开头和结尾。
先使用预训练好的目标检测器提取36个固定的候选区或将图像分成7×7的特征区域,并使用残差深度卷积网络提出各个候选区相对应的特征V={v1,v2,......,vN},其中,vi∈Rd,i=1,2,...,N,d为各个特征向量的维度,k为50,d为2048。首先,查询图像和待检索图像库的图像特征抽取的形式化描述为:对于训练集中的每幅图像提取d维的特征,得到一个d×n的原始视觉特征矩阵X=[x1,x2,...,xn]∈Rd×n,其中,n表示训练集中的训练样本个数,xi为矩阵X第i列表示样本集合中第i个维度为d的特征向量。
2、图像特征混合:
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征。
3、语句词嵌入混合:
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”。然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量。将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将S与Ss按照权值λ进行线性混合得到混合语句输入即:
4、图像描述语句生成:
p(yt|Yt-1)=soft max(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语。对于预测的句子YT={y0,…,yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;
5、混合损失函数:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
为验证本发明提出的方法的可行性和先进性,在通用的评估图像描述方法的数据集MSCOCO进行模型的评估。其中和最新图像自动描述方法的量化比较如表1所示,可以看到在多种评估指标上以及不同的图像特征上,使用本发明所提出的方法训练原有的经典模型,在所有的指标上都有提升。此外,如图4所示,通过可视化输入图像所生成的文本描述(示例给出的描述为英文,中文描述自动生成过程同理),可以看到由于本发明的方法训练模型时采用混合的特征和损失值,和使用原本方法训练的基线模型(Transformer)相比,其在图像描述上取得很明显的增强,生成的图像描述语句判别性得到显著提升。图5为当前最好方法(DLCT)和使用本发明方法训练的DLCT对解码器关注区域的可视化的对比,该结果表明使用本发明方法进行训练后,原本模型可以更准确更具体的定位到要描述的区域,并生成对应的描述词语。
表1 本发明方法与当前最先进方法的比较
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。
Claims (5)
1.一种基于混合样本与标签的数据增强的图像描述方法,其特征在于包括以下步骤:
1)采用目标检测器随机提取待描述图像的若干个候选区和各个候选区对应的特征V={v1,v2,...,vN},其中,ai∈Rd,i=1,2,...,N,d为各个特征向量的维度,N为候选区的数量;
2)采用随机种子生成器对每个批次的输入生成一个服从beta分布的权值λ;
3)将输入的批次中的数据的顺序打乱,将原序数据和乱序数据按照权值λ和(1-λ)进行线性混合;包括图像特征的混合和语句词嵌入的混合;
4)将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数,实现数据增强。
2.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤1)中,所述目标检测器的训练方法是:目标检测器采用Faster-RCNN框架,其骨架网络是深度卷积残差网络,首先采用端到端的方法在经典目标检测数据集PASCAL VOC2007中进行训练,然后在多模态数据集Visual Genome上进一步训练微调网络参数。
3.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤2)中,所述权值λ产生方法是:使用numpy库中的random.beta方法为每个批次的输入数据生成服从beta分布的权值λ,其中,beta分布的参数为(0.5,0.5)。
4.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在在步骤3)中,所述图像特征的混合和语句词嵌入的混合的具体过程为:对于每一个批次输入的图像特征V,先将其随机打乱顺序得到Vs,然后将V与Vs按照权值λ进行线性混合得到混合图像特征即:
其中,v和vs是V和Vs中对应位置被混合的两个图像,n是这两个图像的第n个特征;
对于每一个批次输入的语句,首先对训练集中的文本内容进行去停用词处理,并将所有英文词汇进行小写化;然后对文本内容按空格进行分词,对于得到的若干单词,剔除数据集描述中出现次数小于阈值的单词,使用“<UNK>”进行替代;最后,句子的开头和结尾分别加入开始符“<BOS>”和结束符“<END>”;然后将这一批次的句子长度统一为最长的那一句,长度不够的进行补0,得到输入语句S=(w1,w2,...,wT),wi是每个词的词嵌入向量;将其按照和图像特征一致的打乱顺序打乱得到Ss,然后将S与Ss按照权值λ进行线性混合得到混合语句输入即:
5.如权利要求1所述一种基于混合样本与标签的数据增强的图像描述方法,其特征在于在步骤4)中,所述将步骤3)的混合输入送入到解码器中,生成图像的描述语句,并分别与被混合的两个图像对应的两个标签语句进行损失值计算,将损失值按照权值λ和(1-λ)进行混合得到最终的损失值,用此损失值训练更新网络参数的具体过程为:
p(yt|Yt-1)=softmax(Wyht),
其中,Wy为待训练的参数矩阵,将隐含状态映射到词汇表,Yt-1是t-1时间步的标签词语;对于预测的句子YT={y0,…yT}而言,生成整个句子的概率由每个词的概率累乘得到,即
其中,T为句子长度;通过监督学习和强化学习两个阶段对模型进行训练;在监督学习阶段,采用交叉熵,对于给定的针对被混合的两个图像的两个目标句子和b=(∑mr(Ym))/k来说,本方法的混合损失函数定义为:
在强化学习阶段,采用强化学习进行训练,其损失函数的梯度定义为:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005885.0A CN113837231B (zh) | 2021-08-30 | 2021-08-30 | 一种基于混合样本与标签的数据增强的图像描述方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111005885.0A CN113837231B (zh) | 2021-08-30 | 2021-08-30 | 一种基于混合样本与标签的数据增强的图像描述方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113837231A true CN113837231A (zh) | 2021-12-24 |
CN113837231B CN113837231B (zh) | 2024-02-27 |
Family
ID=78961638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111005885.0A Active CN113837231B (zh) | 2021-08-30 | 2021-08-30 | 一种基于混合样本与标签的数据增强的图像描述方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113837231B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693940A (zh) * | 2022-03-22 | 2022-07-01 | 电子科技大学 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111951207A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 基于深度增强学习和语义损失的图像质量增强方法 |
KR20210029110A (ko) * | 2019-09-05 | 2021-03-15 | 고려대학교 산학협력단 | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 |
CN112580580A (zh) * | 2020-12-28 | 2021-03-30 | 厦门理工学院 | 一种基于数据增强与模型融合的病理性近视识别方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
-
2021
- 2021-08-30 CN CN202111005885.0A patent/CN113837231B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210029110A (ko) * | 2019-09-05 | 2021-03-15 | 고려대학교 산학협력단 | 딥러닝 기반 소수 샷 이미지 분류 장치 및 방법 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
CN111951207A (zh) * | 2020-08-25 | 2020-11-17 | 福州大学 | 基于深度增强学习和语义损失的图像质量增强方法 |
CN112580580A (zh) * | 2020-12-28 | 2021-03-30 | 厦门理工学院 | 一种基于数据增强与模型融合的病理性近视识别方法 |
CN112819013A (zh) * | 2021-01-29 | 2021-05-18 | 厦门大学 | 基于层内层间联合全局表示的图像描述方法 |
CN113254599A (zh) * | 2021-06-28 | 2021-08-13 | 浙江大学 | 一种基于半监督学习的多标签微博文本分类方法 |
Non-Patent Citations (5)
Title |
---|
CONNOR SHORTEN.ET AL: "A survey on image data augmentation dor deep learning", 《JOURNAL OF BIG DATA》 * |
VIKTOR OLSSON.ET AL: "CLASSMIX: SEGMENTATION-BASED DATA AUGMENTATION FOR SEMI-SUPERVISED LEARNING", 《ARXIV》 * |
张磊等: "遥感图像目标检测的数据增广研究", 《测绘科学技术学报》, no. 05 * |
葛轶洲等: "序列数据的数据增强方法综述", 《计算机科学与探索》, vol. 15, no. 07 * |
陆健强等: "基于 Mixup 算法和卷积神经网络的 柑橘黄龙病果实识别研究", 《华南农业大学学报》, vol. 42, no. 03 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114693940A (zh) * | 2022-03-22 | 2022-07-01 | 电子科技大学 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
CN114693940B (zh) * | 2022-03-22 | 2023-04-28 | 电子科技大学 | 基于深度学习的特征混合可分解性增强的图像描述方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113837231B (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pu et al. | Boosting continuous sign language recognition via cross modality augmentation | |
Zhong et al. | Comprehensive image captioning via scene graph decomposition | |
CN111737511B (zh) | 基于自适应局部概念嵌入的图像描述方法 | |
Zhang et al. | Radical analysis network for zero-shot learning in printed Chinese character recognition | |
Chandio et al. | Cursive text recognition in natural scene images using deep convolutional recurrent neural network | |
CN112819013A (zh) | 基于层内层间联合全局表示的图像描述方法 | |
CN113837233B (zh) | 基于样本自适应语义引导的自注意力机制的图像描述方法 | |
CN113035311A (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
CN114529903A (zh) | 文本细化网络 | |
Li et al. | Adapting clip for phrase localization without further training | |
CN116229482A (zh) | 网络舆情分析中视觉多模态文字检测识别及纠错方法 | |
Wu et al. | Tdv2: A novel tree-structured decoder for offline mathematical expression recognition | |
Wang et al. | Tag: Boosting text-vqa via text-aware visual question-answer generation | |
Wang et al. | Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network | |
Tayyab et al. | Recognition of Visual Arabic Scripting News Ticker From Broadcast Stream | |
Liu et al. | Residual recurrent CRNN for end-to-end optical music recognition on monophonic scores | |
CN113837231B (zh) | 一种基于混合样本与标签的数据增强的图像描述方法 | |
CN117437426A (zh) | 一种高密度代表性原型指引的半监督语义分割方法 | |
Rasheed et al. | A deep learning-based method for Turkish text detection from videos | |
Li et al. | Dual relation network for scene text recognition | |
Ji et al. | Text-to-image generation via semi-supervised training | |
Mirza et al. | Impact of pre-processing on recognition of cursive video text | |
Salman et al. | Proposed Deep Learning System for Arabic Text Detection and Recognition | |
Rafi et al. | A linear sub-structure with co-variance shift for image captioning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |