CN112308080A - 面向指向性视觉理解和分割的图像描述预测方法 - Google Patents

面向指向性视觉理解和分割的图像描述预测方法 Download PDF

Info

Publication number
CN112308080A
CN112308080A CN202011222105.3A CN202011222105A CN112308080A CN 112308080 A CN112308080 A CN 112308080A CN 202011222105 A CN202011222105 A CN 202011222105A CN 112308080 A CN112308080 A CN 112308080A
Authority
CN
China
Prior art keywords
segmentation
directional
language
visual
logit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011222105.3A
Other languages
English (en)
Other versions
CN112308080B (zh
Inventor
王振宁
许金泉
王溢
蔡碧颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanqiang Zhishi Xiamen Technology Co ltd
Original Assignee
Nanqiang Zhishi Xiamen Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanqiang Zhishi Xiamen Technology Co ltd filed Critical Nanqiang Zhishi Xiamen Technology Co ltd
Priority to CN202011222105.3A priority Critical patent/CN112308080B/zh
Publication of CN112308080A publication Critical patent/CN112308080A/zh
Application granted granted Critical
Publication of CN112308080B publication Critical patent/CN112308080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:分别获取RGB图像在三个尺度的视觉特征:Fv1,Fv2,Fv3,以及描述语言的语言特征;将语言特征与视觉特征Fv1融合,然后进行多尺度的融合,进而通过自底而下的融合,得到新的特征为{Fm1′,Fm2′,Fm3′};利用Fm3′预测得到指向性视觉分割结果,利用Fm1′预测得到指向性视觉理解结果;给定预测得到的指向性视觉分割结果,以及指向性视觉理解结果的目标框和其对应的置信度,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。此种预测方法可提高预测精度。

Description

面向指向性视觉理解和分割的图像描述预测方法
技术领域
本发明属于图像处理技术领域,涉及指向性视觉理解和分割,特别涉及一种面向指向性视觉理解和分割的图像描述预测方法。
背景技术
指向性视觉理解和分割,是两种基于视觉和语言的多模态任务。给定关于图像中的某个物体的描述,指向性视觉理解需要将图像中的对应目标的外接矩形计算出来,而指向性视觉分割需要将图像中的对应物体的掩膜计算出来。
在目前的方法和文献中,指向性视觉理解和分割通常被视作为两种不同的任务,从而被设计出了不同的神经网络。对于指向性视觉理解,现有的方法大多采用多阶段的神经网络。具体而言,现有的方法先利用目标检测网络提取和检测出图片中的不同物体,再通过计算指向性描述语句与物体之间的相似度,从而得到与描述最相关的物体。另外还有部分方法采用单阶段的神经网络,把语言信息嵌入到卷积神经网络中直接回归出描述物体的外接矩形。而对于指向性视觉分割,现有方法通过将语言信息与视觉神经网络进行融合,从而进一步预测出对应描述物体的掩膜。
现有的方法中,大多采用两个单任务神经网络来分别建模这两个方法,比如MMI,CMN,ParalAttn等方法用于建模指向性视觉理解,另外DMN,RRN,KWA等方法用于建模指向性视觉分割。同时少部分多任务的神经网络是基于多阶段的建模方法,比如MattNet采用基于Mask-RCNN的多任务目标检测器来同时预测出图像中所有物体的外接矩形以及掩膜,再通过语言信息与物体信息的匹配来获取与描述内容最相关的物体的外接矩形和掩膜。由于基于多阶段的网络结构极度依赖于目标检测器来提取和检测图片中的物体,这导致了它们的泛化性能较差,网络的推理时间久,同时在训练过程中两个任务之间也几乎没有起到互相促进协同的作用。
发明内容
本发明的目的,在于提供一种面向指向性视觉理解和分割的图像描述预测方法,其可提高预测精度。
为了达成上述目的,本发明的解决方案是:
一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤2,分别获取RGB图像在三个尺度的视觉特征:
Figure BDA0002762428800000021
Figure BDA0002762428800000022
以及描述语言的语言特征:
Figure BDA0002762428800000023
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1′,Fm2′,Fm3′};
步骤4,利用Fm3′预测得到指向性视觉分割结果
Figure BDA0002762428800000024
表示52×52个位置的每个位置上物体的分割结果;利用Fm1′预测得到指向性视觉理解结果
Figure BDA0002762428800000025
分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度;
步骤5,给定预测得到的指向性视觉分割结果Logits,以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi被更新为:
Figure BDA0002762428800000026
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。
上述步骤2中,利用在COCO目标检测数据集上训练好的神经网络Darknet53作为视觉编码器,得到RGB图像在三个尺度的视觉特征:
Figure BDA0002762428800000031
Figure BDA0002762428800000032
上述步骤2中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,得到语言特征:
Figure BDA0002762428800000033
上述步骤3中,将视觉特征Fv1与语言特征进行融合得到Fm1的公式是:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU激活函数,⊙为Hadamard积,
Figure BDA0002762428800000034
Figure BDA0002762428800000035
为可学习的权重。
上述步骤3中,进行多尺度的融合,得到三个尺度的多模态特征的公式是:
Figure BDA0002762428800000036
Figure BDA0002762428800000037
其中,UpSample()表示赋值函数,σ为Leaky-ReLU激活函数,[]表示两个矩阵在最后一个维度进行拼接并且i∈{2,3}。
上述步骤4中,基于训练的神经网络进行预测,所用的损失函数的计算方法是:
步骤A,通过如下线性映射得到需要预测的结果:
Logits=Sigmoid(F′m1Wls)
Logitxy=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
其中,
Figure BDA0002762428800000038
Figure BDA0002762428800000039
Logits为指向性视觉分割结果,与标签Labels直接计算损失函数,如下:
Figure BDA00027624288000000310
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标、长宽、置信度:
Figure BDA0002762428800000041
Figure BDA0002762428800000042
Figure BDA0002762428800000043
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
Figure BDA0002762428800000044
步骤B,将Fm1′和Fm3′通过基于语言的注意力模块GARAN得到注意力特征
Figure BDA0002762428800000045
Figure BDA0002762428800000046
设计如下损失函数,通过优化两个注意力特征来最大化面向指向性视觉理解任务和面向指向性视觉分割任务的共同关注:
lcem=-log(Es′TscEc′)
其中:
Figure BDA0002762428800000047
Figure BDA0002762428800000048
Figure BDA0002762428800000049
上式的
Figure BDA00027624288000000410
以及
Figure BDA00027624288000000411
表示为
Figure BDA00027624288000000412
Figure BDA00027624288000000413
中的一个元素;训练过程中通过最小化lcem来优化两个任务之间的共同关注,则最终的损失函数加权相加为:
l=0.1×ls+lxy+lwh+lconf+lcem
上述神经网络的训练过程中,使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。
采用上述方案后,本发明利用单阶段的神经网络来同时建模指向性视觉理解和指向性视觉分割两个任务,但是,由于利用单阶段神经网络来同时建模两个任务容易出现预测分歧的问题,即两个任务预测的物体可能会不一致,这大大影响了检测的精度。因此,本发明的改进点体现在:
(1)本发明采用一项基于协同能量最大化的损失函数来最大化两个任务之间的共同关注,并利用自适应的后处理方法解决单阶段多任务神经网络在建模这两个任务过程中预测不一致的关键问题,大大提高了两个任务的协同性;
(2)本发明采用一种基于单阶段的神经网络来建模指向性视觉理解和分割两个任务,同时这两个任务在训练过程中能够互相促进。
附图说明
图1是指向性视觉分割和理解图示;
图2是预测分歧的图示;
图3是单阶段协同多任务网络结构图示。
具体实施方式
以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
本发明提供一种面向指向性视觉理解和分割的图像描述预测方法,包括如下过程:
一、模型实施过程:
1.1模型的输入:
模型的输入分别为一张RGB的图像,其大小为416×416×3,以及一句对于图中某个物体的描述语言,其中模型的最长文本输入设置为15,如图1所示。
1.2视觉特征编码器:
首先,对于输入的RGB图像,我们利用在COCO[1]目标检测数据集上预训练好的神经网络Darknet53[2]来作为视觉编码器,从而得到三个尺度的视觉特征:
Figure BDA0002762428800000051
1.3语言特征编码器:
接着,针对于输入的描述语言,我们首先利用预训练好的词向量Glove[3]来将语言转换成特征向量,接着利用LSTM[4]作为语言编码器,得到语言特征:
Figure BDA0002762428800000061
1.4多模态多尺度的特征编码器:
如图3所示,为了得到视觉和语言的联合表示,我们将两种模态的信息进行多模态融合,首先我们将语言特征的维度变成1×1×1024,接着,我们将视觉特征Fv1与其进行融合得到Fm1,其过程如下式:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU[2]激活函数,⊙为Hadamard积,
Figure BDA0002762428800000062
Figure BDA0002762428800000063
为可学习的权重。接着,我们进行多尺度的融合,如下式所示:
Figure BDA0002762428800000064
Figure BDA0002762428800000065
其中,UpSample()表示赋值函数,[]表示两个矩阵在最后一个维度进行拼接并且i∈{2,3},由此,我们得到了三个尺度的多模态特征{Fm1,Fm2,Fm3}。为了进一步增强视觉特征,我们再通过自底而下的融合来更新多尺度多模态特征,如下式所示:
Figure BDA0002762428800000066
Figure BDA0002762428800000067
其中i∈{2,3},得到新的特征为{Fm1′,Fm2′,Fm3′}。
1.5模型的输出:
根据上一步骤得到的特征{Fm1′,Fm2′,Fm3′},我们利用Fm1′,Fm3′来分别计算指向性视觉理解和分割的结果,计算过程如下:
Logits=Sigmoid(F′m3Wls)
Logitxy=Sigmoid(F′m1Wxy)
Logitwh=exp(F′m1Wwh)
Logitconf=Sigmoid(F′m1Wconf)
其中,
Figure BDA0002762428800000068
为可学习的权重。
Figure BDA0002762428800000069
为指向性视觉分割结果,它表示为每个位置上(总共52×52个位置)物体的分割结果。
Figure BDA0002762428800000071
为指向性理解的结果,他们分别表示每个位置上(总共13×13个位置)预测出来关于物体的外接矩形的中心坐标,长宽以及置信度。
1.6自适应的后处理:
如图3所示,给定指向性视觉分割分支预测得到的指向性视觉分割结果Logits,以及指向性视觉理解预测得到的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi可以被更新为:
Figure BDA0002762428800000072
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,算法利用指向性视觉理解分支的预测结果来自适应地增强并重新得到指向性视觉分割分支的预测结果。其中,我们设置αup和αdec分别为1.5和0.5。
二、模型训练过程:
2.1损失函数的计算:
利用得到的Fm1′和Fm3′,我们分别用于建模指向性视觉理解任务和指向性视觉分割任务。我们通过线性映射得到需要预测的结果,如下式所示:
Logits=Sigmoid(F′m1Wls)
Logitxy=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
其中,
Figure BDA0002762428800000073
Figure BDA0002762428800000074
Logits为指向性视觉分割结果,与标签Labels直接计算损失函数,如下:
Figure BDA0002762428800000081
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标,长宽以及置信度。
Figure BDA0002762428800000082
Figure BDA0002762428800000083
Figure BDA0002762428800000084
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
Figure BDA0002762428800000085
此外,如图2所示,我们提出了一种协同能量最大化的损失函数。首先我们将Fm1′和Fm3′通过一个基于语言的注意力模块GARAN[5]来得到注意力特征
Figure BDA0002762428800000086
Figure BDA0002762428800000087
我们设计了一项损失函数来通过优化两个注意力特征来最大化两个任务分支的共同关注。该项损失可以写成下式:
lcem=-log(Es′TscEc′)
其中:
Figure BDA0002762428800000088
Figure BDA0002762428800000089
Figure BDA00027624288000000810
上式的
Figure BDA00027624288000000815
以及
Figure BDA00027624288000000812
表示为
Figure BDA00027624288000000813
Figure BDA00027624288000000814
中的一个元素。训练过程中通过最小化lcem来优化两个任务之间的共同关注。最终的损失函数可以加权相加为:
l=0.1×ls+lxy+lwh+lconf+lcem
通过梯度下降,可优化训练模型参数。
2.2模型训练参数设置:
在训练过程中,我们使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。模型总共训练45轮,在第30,35,40轮迭代时,模型的学习率下降10倍。
2.3模型的训练:
对于模型的训练,我们首先将输入的图片和语言经过步骤一得到模型的输出结果,接着我们通过步骤2.1来计算模型输出和标注好的标签之间的损失函数,最后,我们利用损失函数的梯度反向传播来更新步骤一中的模型参数,训练和迭代过程的设置如步骤2.2所描述。最终我们完成整个模型的训练。
三、模型部署过程:
在经过步骤二的模型训练后,对于训练完毕的模型,我们将输入的图片和描述语言经过步骤一即可得到模型的输出作为模型的预测结果。
参考文献:
[1]Tsungyi Lin,Michael Maire,Serge J Belongie,James Hays,PietroPerona,Deva Ramanan,Piotr Dollar,and C Lawrence Zitnick.Microsoft coco:Commonobjects in context.In ECCV,2014.
[2]Joseph Redmon and Ali Farhadi.Yolov3:An incremental improvement.InarXiv preprint,2018.
[3]Jeffrey Pennington,Richard Socher,and Christopher Manning.Glove:Global vectors for word representation.In EMNLP,2014.
[4]Sepp Hochreiter and Jurgen Schmidhuber.1997.Long short-termmemory.Neural Computation(1997).
[5]Zhou Yiyi,Ji Rongrong,Gen Luo,Sun Xiaoshuai,Jinsong Su,Chia-WenLin,and Qi Tian.A real-time global inference network for one-stage referringexpression comprehension.In arXiv preprint,2019.
以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (7)

1.一种面向指向性视觉理解和分割的图像描述预测方法,用于根据RGB图像和描述语言,在RGB图像中定位描述语言指代的对象;其特征在于包括如下步骤:
步骤1,设置输入的RGB图像的大小为416×416×3,描述语言的最长文本输入设置为15;
步骤2,分别获取RGB图像在三个尺度的视觉特征:
Figure FDA0002762428790000011
Figure FDA0002762428790000012
以及描述语言的语言特征:
Figure FDA0002762428790000013
步骤3,将语言特征的维度变成1×1×1024,将视觉特征Fv1与其进行融合得到Fm1,然后进行多尺度的融合,得到三个尺度的多模态特征{Fm1,Fm2,Fm3};进而通过自底而下的融合以更新多模态特征,得到新的特征为{Fm1′,Fm2′,Fm3′};
步骤4,利用Fm3′预测得到指向性视觉分割结果
Figure FDA0002762428790000014
表示52×52个位置的每个位置上物体的分割结果;利用Fm1′预测得到指向性视觉理解结果
Figure FDA0002762428790000015
分别表示13×13个位置的每个位置上预测得到的关于对象的外接矩形的中心坐标、长宽、置信度;
步骤5,给定预测得到的指向性视觉分割结果Logits,以及指向性视觉理解结果的目标框记为b和其对应的置信度记为p,其中Logits中的每个元素oi被更新为:
Figure FDA0002762428790000016
其中αup和αdec由下式自适应地决定:
αup=sin(p)*p
αdec=-sin(p)*p
通过上式,利用指向性视觉理解的预测结果来自适应地增强并重新得到指向性视觉分割的预测结果。
2.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤2中,利用在COCO目标检测数据集上训练好的神经网络Darknet53作为视觉编码器,得到RGB图像在三个尺度的视觉特征:
Figure FDA0002762428790000021
3.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤2中,利用训练好的词向量Glove将描述语言转换成特征向量,然后利用LSTM作为语言编码器,得到语言特征:
Figure FDA0002762428790000022
4.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤3中,将视觉特征Fv1与语言特征进行融合得到Fm1的公式是:
Fm1=σ(Fv1Wv1)⊙σ(ftWt)
其中,σ为Leaky-ReLU激活函数,⊙为Hadamard积,
Figure FDA0002762428790000023
Figure FDA0002762428790000024
为可学习的权重。
5.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤3中,进行多尺度的融合,得到三个尺度的多模态特征的公式是:
Figure FDA0002762428790000025
Figure FDA0002762428790000026
其中,UpSample()表示赋值函数,σ为Leaky-ReLU激活函数,[]表示两个矩阵在最后一个维度进行拼接并且i∈{2,3}。
6.如权利要求1所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述步骤4中,基于训练的神经网络进行预测,所用的损失函数的计算方法是:
步骤A,通过如下线性映射得到需要预测的结果:
Logits=Sigmoid(F′m1Wls)
Logitxv=Sigmoid(F′m3Wxy)
Logitwh=exp(F′m3Wwh)
Logitconf=Sigmoid(F′m3Wconf)
其中,
Figure FDA0002762428790000031
Figure FDA0002762428790000032
Logits为指向性视觉分割结果,与标签Labels直接计算损失函数,如下:
Figure FDA0002762428790000033
而Logitxy,Logitwh,Logitconf分别为预测的物体外接矩形的中心坐标、长宽、置信度:
Figure FDA0002762428790000034
Figure FDA0002762428790000035
Figure FDA0002762428790000036
其中BinaryCrossEntry和SmoothL1定义为:
BinaryCrossEntry(x,x′)=x′log(x)+(1-x′)log(1-x)
Figure FDA0002762428790000037
步骤B,将Fm1′和Fm3′通过基于语言的注意力模块GARAN得到注意力特征
Figure FDA0002762428790000038
Figure FDA0002762428790000039
设计如下损失函数,通过优化两个注意力特征来最大化面向指向性视觉理解任务和面向指向性视觉分割任务的共同关注:
lcem=-log(Es′TscEc′)
其中:
Figure FDA00027624287900000310
Figure FDA00027624287900000311
Figure FDA00027624287900000312
上式的
Figure FDA00027624287900000313
以及
Figure FDA00027624287900000314
表示为
Figure FDA00027624287900000315
Figure FDA00027624287900000316
中的一个元素;训练过程中通过最小化lcem来优化两个任务之间的共同关注,则最终的损失函数加权相加为:
l=0.1×ls+lxy+lwh+lconf+lcem
7.如权利要求6所述的一种面向指向性视觉理解和分割的图像描述预测方法,其特征在于:所述神经网络的训练过程中,使用Adam优化器,并设置初始学习率和batchsize分别为0.001和35。
CN202011222105.3A 2020-11-05 2020-11-05 面向指向性视觉理解和分割的图像描述预测方法 Active CN112308080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222105.3A CN112308080B (zh) 2020-11-05 2020-11-05 面向指向性视觉理解和分割的图像描述预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222105.3A CN112308080B (zh) 2020-11-05 2020-11-05 面向指向性视觉理解和分割的图像描述预测方法

Publications (2)

Publication Number Publication Date
CN112308080A true CN112308080A (zh) 2021-02-02
CN112308080B CN112308080B (zh) 2023-05-30

Family

ID=74325014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222105.3A Active CN112308080B (zh) 2020-11-05 2020-11-05 面向指向性视觉理解和分割的图像描述预测方法

Country Status (1)

Country Link
CN (1) CN112308080B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801234A (zh) * 2021-04-12 2021-05-14 中国人民解放军国防科技大学 基于神经网络的图像诗句描述生成方法、装置和设备
CN113128431A (zh) * 2021-04-25 2021-07-16 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113592881A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
CN115019037A (zh) * 2022-05-12 2022-09-06 北京百度网讯科技有限公司 对象分割方法及对应模型的训练方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
CN110490880A (zh) * 2019-08-16 2019-11-22 重庆邮电大学 一种基于局部视觉线索的髋关节x光图像分割方法及系统
US20200117951A1 (en) * 2018-10-15 2020-04-16 Ancestry.com Operations Inc. (019404) (019404) Image captioning with weakly-supervised attention penalty
CN111858882A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101877007A (zh) * 2010-05-18 2010-11-03 南京师范大学 融合空间方位关系语义的遥感图像检索方法
US20200117951A1 (en) * 2018-10-15 2020-04-16 Ancestry.com Operations Inc. (019404) (019404) Image captioning with weakly-supervised attention penalty
CN110490880A (zh) * 2019-08-16 2019-11-22 重庆邮电大学 一种基于局部视觉线索的髋关节x光图像分割方法及系统
CN111858882A (zh) * 2020-06-24 2020-10-30 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
颜野;夏海缀;李旭升;何为;朱学华;张智荧;肖春雷;刘余庆;黄华;何良华;卢剑;: "基于U型卷积神经网络学习的前列腺癌影像重建模型在手术导航中的应用", 北京大学学报(医学版) *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801234A (zh) * 2021-04-12 2021-05-14 中国人民解放军国防科技大学 基于神经网络的图像诗句描述生成方法、装置和设备
CN113128431A (zh) * 2021-04-25 2021-07-16 北京亮亮视野科技有限公司 视频片段检索方法、装置、介质与电子设备
CN113515886A (zh) * 2021-04-28 2021-10-19 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113515886B (zh) * 2021-04-28 2023-11-24 上海科技大学 基于地标特征卷积的视觉定位方法、系统、终端及介质
CN113592881A (zh) * 2021-08-03 2021-11-02 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
CN113592881B (zh) * 2021-08-03 2023-11-03 深圳思谋信息科技有限公司 图片指代性分割方法、装置、计算机设备和存储介质
CN115019037A (zh) * 2022-05-12 2022-09-06 北京百度网讯科技有限公司 对象分割方法及对应模型的训练方法、装置及存储介质

Also Published As

Publication number Publication date
CN112308080B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN109902293B (zh) 一种基于局部与全局互注意力机制的文本分类方法
CN109299262B (zh) 一种融合多粒度信息的文本蕴含关系识别方法
CN112308080A (zh) 面向指向性视觉理解和分割的图像描述预测方法
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及系统
CN111951805A (zh) 一种文本数据处理方法及装置
CN110083702B (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN114676234A (zh) 一种模型训练方法及相关设备
CN113486669B (zh) 应急救援输入语音的语义识别方法
CN115221846A (zh) 一种数据处理方法及相关设备
Le et al. An overview of deep learning in industry
CN113505193A (zh) 一种数据处理方法及相关设备
WO2020108545A1 (zh) 语句处理方法、语句解码方法、装置、存储介质及设备
CN114445832A (zh) 基于全局语义的文字图像识别方法、装置及计算机设备
CN113780059A (zh) 一种基于多特征点的连续手语识别方法
CN115796182A (zh) 一种基于实体级跨模态交互的多模态命名实体识别方法
CN116432019A (zh) 一种数据处理方法及相关设备
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
Su et al. Low-rank deep convolutional neural network for multitask learning
CN115292439A (zh) 一种数据处理方法及相关设备
CN117668292A (zh) 一种跨模态敏感信息识别方法
CN117197569A (zh) 图像审核方法、图像审核模型训练方法、装置和设备
CN110197521B (zh) 基于语义结构表示的视觉文本嵌入方法
CN110888944A (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant