CN112926662B - 一种基于多尺度语言嵌入rec的目标检测方法 - Google Patents

一种基于多尺度语言嵌入rec的目标检测方法 Download PDF

Info

Publication number
CN112926662B
CN112926662B CN202110222614.4A CN202110222614A CN112926662B CN 112926662 B CN112926662 B CN 112926662B CN 202110222614 A CN202110222614 A CN 202110222614A CN 112926662 B CN112926662 B CN 112926662B
Authority
CN
China
Prior art keywords
image
features
language
feature
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110222614.4A
Other languages
English (en)
Other versions
CN112926662A (zh
Inventor
赵泰锦
李宏亮
邱荷茜
孟凡满
吴庆波
许林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110222614.4A priority Critical patent/CN112926662B/zh
Publication of CN112926662A publication Critical patent/CN112926662A/zh
Application granted granted Critical
Publication of CN112926662B publication Critical patent/CN112926662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于多尺度语言嵌入REC的目标检测方法,把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置,提升了网络对于视觉上下文的利用能力,相比于基准的普通基于单阶段REC的目标检测方法,预测准确率更高。

Description

一种基于多尺度语言嵌入REC的目标检测方法
技术领域
本发明涉及单阶段指称表达理解(Referring Expression Comprehension,REC)技术,特别涉及基于REC的目标检测技术。
背景技术
常规的目标检测技术是指给定一幅输入图像,寻找出图像中所有指定类别的目标并给出它们的位置,随着人工智能技术在多个行业中的广泛应用,在许多场景中,我们需要算法根据人的需求有针对性地寻找特定目标(如:在一幅监控图中寻找一个穿着红色衣服的小女孩),常规目标检测算法已经不能满足各种差异化的需求。表达理解算法REC是一种结合了计算机视觉和自然语言处理的多模态检测技术,它能根据一句输入的语言在输入图像中找到语言描述的目标。REC旨在解决语言和图像的对齐问题,也是多模态的基础技术之一,被应用在图文检索、视觉问答、机器导航等任务中。
目前的REC主要分为单阶段方法和双阶段算法两类,其中双阶段方法指先提取出输入图像中所有可能的候选目标,再在这些候选目标中选择出最符合描述的目标,这种方法由于需要先检测出所有目标再进行选择,计算量很大,速度也很慢;同时,需要检测的目标可能在第一阶段中没有被标注出,这将导致第二阶段的错误执行,因此双阶段方法的性能高度依赖于提取的候选目标的质量。单阶段方法是指在分别提取图像和语言特征后,对两种特征进行融合,并使用融合后的特征直接预测符合语言描述的目标在图像中的位置,该方法有着计算量更小,速度更快的特点。
在实际应用场景中,我们常常需要借助一个物体与周围物体的相对关系来对其进行描述如:打着绿色伞的男人,此种情况下,如果仅寻找目标本身,而不对其周围的视觉上下文进行考虑,网络难以正确定位目标。因此,REC任务是上下文敏感的,现有的单阶段方法没有考虑周围环境对该点的影响。
发明内容
本发明所要解决的技术问题是,提供一种通过增强单阶段REC算法中视觉上下文利用能力从而提高检测准确率的目标检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于多尺度语言嵌入REC的目标检测方法,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
现有的单阶段方法在视觉特征谱空间域上每一个点独立地计算与语言的相似度,没有考虑周围环境对该点的影响。本发明把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置。
本发明的有益效果是,提升了网络对于视觉上下文的利用能力,相比于基准的普通单阶段算法,预测准确率更高。
附图说明
图1为基于单阶段REC的目标检测的总体流程示意图。
图2为实施例中多尺度局部特征融合方式示意图。
图3为实施例中带位置信息的全局特征融合方式示意图。
具体实施方式
本发明的具体实施方式如图1所示:
1.获取一幅输入的图像I和一句输入的语言描述
Figure BDA0002952063180000021
ut代表语言描述中的第t个字,用卷积神经网络提取图像特征
Figure BDA0002952063180000031
fv=CNN(I)
其中CNN表示卷积神经网络主干;
将语言描述转化为词向量,用双向长短期记忆人工神经网络提取前向和后向隐层语言描述特征,将前后向特征拼接起来作为最终的语言特征
Figure BDA0002952063180000032
et=embedding(ut)
Figure BDA0002952063180000033
Figure BDA0002952063180000034
Figure BDA0002952063180000035
其中embedding表示词嵌入,
Figure BDA0002952063180000036
Figure BDA0002952063180000037
分别表示前向和后向的长短期记忆人工神经网络,[·]表示向量的拼接操作。
2.沿着通道层用一个全连接层将语言特征的维度从Cl改变到Cv,与图像特征fv点乘,用Softmax函数映射并乘上对应系数,得到图像-语言响应谱
Figure BDA0002952063180000038
将Mg与fv求哈达玛乘积,得到局部初步融合特征fmp
Mg=HW*Softmax(fv⊙FC(fl))
Figure BDA0002952063180000039
其中FC表示带偏置的全连接层,Softmax为激活函数,H和W分别表示表示图像特征fv的长和宽,⊙表示点乘,
Figure BDA00029520631800000310
表示哈达玛乘。
3.沿着通道层用3个独立全连接层将语言特征的维度从Cl改变到Cv,Cv*9,Cv*25,将输出变形为
Figure BDA00029520631800000311
的不同尺度的卷积核,与图像特征fv做二维卷积,得到三个不同的上下文响应谱
Figure BDA00029520631800000312
将fmp分别与
Figure BDA00029520631800000313
点乘,得到二次融合的局部上下文融合特征
Figure BDA00029520631800000314
Figure BDA00029520631800000315
沿通道拼接起来,并用1*1卷积降维,得到最终局部融合特征fmu,如图2所示;
ki=FCi(fl)
Figure BDA00029520631800000316
Figure BDA00029520631800000317
Figure BDA0002952063180000041
其中FCi表示对应于卷积核ki的参数独立的全连接层,Conv2d(a,b)表示以b为卷积核,在a上做二维卷积,Conv1*1表示沿通道方法的1*1卷积,输入维度为3Cv,输出维度为Cv
4.将图像特征fv输入到一个平均池化层中,得到全局图像特征
Figure BDA0002952063180000042
沿着通道层用一个全连接层将语言特征的维度从Cl改变到Cv,将语言特征与fvg求哈达玛积,得到全局融合特征fmg;同时生成特征图的坐标谱,与复制到
Figure BDA0002952063180000043
的fmg沿通道拼接,并用1*1卷积将维度改变到Cv,得到包含位置信息的全局融合特征fpg,如图3所示;
fvg=AvgPool(fv)
Figure BDA0002952063180000044
fpg=Conv1*1([dupli(fmg),coord])
其中AvgPool代表全局平均池化,dupli表示将一个Cv*1*1维的向量扩充成C*H*W的矩阵,coord代表坐标谱
Figure BDA0002952063180000045
i与j分别表示图像特征fv的特征点的横、纵坐标;Conv1*1的输入维度为Cv+8,输出维度为Cv
5.将fmu与fpg沿通道拼接,输入检测头中,得到语言描述的目标在图像中的位置,以坐标框的形式表示;
Bbox=DetectionHead([fmu,fpg])
其中DetectionHead表示检测头。

Claims (9)

1.一种基于多尺度语言嵌入REC的目标检测方法,其特征在于,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
2.如权利要求1所述方法,其特征在于,步骤2-1)具体如下:
先使语言特征fl的维度与图像特征fv的维度相同;
将统一维度的语言特征fl与图像特征fv点乘,再用Softmax函数对点乘结果进行映射并乘上图像特征fv的尺寸得到图像-语言响应谱Mg
将图像-语言响应谱Mg与图像特征fv求哈达玛积得到初步融合的局部多模态特征fmp
3.如权利要求2所述方法,其特征在于,通过全连接层实现语言特征fl的维度改变,使得语言特征fl的维度与图像特征fv的维度相同。
4.如权利要求1所述方法,其特征在于,步骤2-2)具体如下:
将语言特征的维度改变到N种不同尺度,确定的N种不同尺度的卷积核后将N种不同尺度的语言特征分别与图像特征fv做二维卷积,得到N个不同上下文响应谱
Figure FDA0002952063170000011
将fmp分别与N个不同上下文响应谱
Figure FDA0002952063170000012
点乘,得到N个二次融合的局部多模态特征并进行拼接,再使拼接后的二次融合的局部多模态特征的维度与图像特征fv的维度相同,得到最后的局部多模态特征fmu
5.如权利要求4所述方法,其特征在于,N=3;使用3个独立全连接层将语言特征的维度从Cl改变到3种不同尺度Cv,Cv*9,Cv*25,Cv表示图像特征fv的维度;将3种不同尺度的语言特征分别与图像特征fv做二维卷积是使用的3种卷积核分别为
Figure FDA0002952063170000021
Figure FDA0002952063170000022
表示实数域。
6.如权利要求1所述方法,其特征在于,步骤3)具体如下:
得到图像特征fv的全局图像特征fvg
使语言特征fl的维度与图像特征fv的维度相同;将统一维度的语言特征fl与全局图像特征fvg求哈达玛积,得到全局融合特征fmg;再将全局融合特征fmg扩充成Cv*H*W的矩阵;Cv表示图像特征fv的维度,H和W分别表示图像特征fv的长和宽;
同时,得到图像特征的坐标谱coord,
Figure FDA0002952063170000023
i与j分别表示图像特征fv的特征点的横、纵坐标;
将扩充后的全局融合特征fmg与坐标谱coord先拼接,再对拼接结果的维度改变到图像特征fv的维度相同,得到包含位置信息的全局融合特征fpg
7.如权利要求6所述方法,其特征在于,利用全局平均池化得到图像特征fv的全局图像特征fvg
8.如权利要求1所述方法,其特征在于,步骤1)使用卷积神经网络提取图像特征。
9.如权利要求1所述方法,其特征在于,步骤1)使用长短期记忆人工神经网络提取语言特征。
CN202110222614.4A 2021-02-25 2021-02-25 一种基于多尺度语言嵌入rec的目标检测方法 Active CN112926662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110222614.4A CN112926662B (zh) 2021-02-25 2021-02-25 一种基于多尺度语言嵌入rec的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110222614.4A CN112926662B (zh) 2021-02-25 2021-02-25 一种基于多尺度语言嵌入rec的目标检测方法

Publications (2)

Publication Number Publication Date
CN112926662A CN112926662A (zh) 2021-06-08
CN112926662B true CN112926662B (zh) 2022-05-03

Family

ID=76172591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110222614.4A Active CN112926662B (zh) 2021-02-25 2021-02-25 一种基于多尺度语言嵌入rec的目标检测方法

Country Status (1)

Country Link
CN (1) CN112926662B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358177A (zh) * 2017-06-27 2017-11-17 维拓智能科技(深圳)有限公司 一种基于图像分析的中远距离行人检测方法及终端设备
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN111598183A (zh) * 2020-05-22 2020-08-28 上海海事大学 一种多特征融合图像描述方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074500B2 (en) * 2017-06-20 2021-07-27 Battelle Memorial Institute Prediction of social media postings as trusted news or as types of suspicious news
CN110222700A (zh) * 2019-05-30 2019-09-10 五邑大学 基于多尺度特征与宽度学习的sar图像识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107358177A (zh) * 2017-06-27 2017-11-17 维拓智能科技(深圳)有限公司 一种基于图像分析的中远距离行人检测方法及终端设备
CN108648746A (zh) * 2018-05-15 2018-10-12 南京航空航天大学 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN109670576A (zh) * 2018-11-29 2019-04-23 中山大学 一种多尺度视觉关注图像描述方法
CN110458282A (zh) * 2019-08-06 2019-11-15 齐鲁工业大学 一种融合多角度多模态的图像描述生成方法及系统
CN111598183A (zh) * 2020-05-22 2020-08-28 上海海事大学 一种多特征融合图像描述方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多尺度特征的图像描述生成模型;周星光等;《湖北工业大学学报》;20200415(第02期);第63-28页正文全文 *

Also Published As

Publication number Publication date
CN112926662A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112766244B (zh) 目标对象检测方法、装置、计算机设备和存储介质
CN111210443A (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN110674741A (zh) 一种基于双通道特征融合的机器视觉中手势识别方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN109934183B (zh) 图像处理方法及装置、检测设备及存储介质
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN112508032A (zh) 一种联合物体上下文信息的人脸图像分割方法及分割网络
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
CN114743062A (zh) 一种建筑特征的识别方法及装置
CN115346261A (zh) 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法
CN114299101A (zh) 图像的目标区域获取方法、装置、设备、介质和程序产品
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN112926662B (zh) 一种基于多尺度语言嵌入rec的目标检测方法
CN117033609A (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN116311518A (zh) 一种基于人体交互意图信息的层级人物交互检测方法
CN113052156B (zh) 光学字符识别方法、装置、电子设备和存储介质
Axyonov et al. Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language
CN114821438A (zh) 一种基于多路径激励的视频人体行为识别方法及系统
CN115239974A (zh) 融合注意力机制的视觉同步定位与地图构建闭环检测方法
Karthik et al. Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach
Shane et al. Sign Language Detection Using Faster RCNN Resnet
CN113971830A (zh) 一种人脸识别方法、装置、存储介质及电子设备
CN113688864A (zh) 一种基于分裂注意力的人-物交互关系分类方法
CN112949672A (zh) 商品识别方法、装置、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant