CN112926662B - 一种基于多尺度语言嵌入rec的目标检测方法 - Google Patents
一种基于多尺度语言嵌入rec的目标检测方法 Download PDFInfo
- Publication number
- CN112926662B CN112926662B CN202110222614.4A CN202110222614A CN112926662B CN 112926662 B CN112926662 B CN 112926662B CN 202110222614 A CN202110222614 A CN 202110222614A CN 112926662 B CN112926662 B CN 112926662B
- Authority
- CN
- China
- Prior art keywords
- image
- features
- language
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于多尺度语言嵌入REC的目标检测方法,把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置,提升了网络对于视觉上下文的利用能力,相比于基准的普通基于单阶段REC的目标检测方法,预测准确率更高。
Description
技术领域
本发明涉及单阶段指称表达理解(Referring Expression Comprehension,REC)技术,特别涉及基于REC的目标检测技术。
背景技术
常规的目标检测技术是指给定一幅输入图像,寻找出图像中所有指定类别的目标并给出它们的位置,随着人工智能技术在多个行业中的广泛应用,在许多场景中,我们需要算法根据人的需求有针对性地寻找特定目标(如:在一幅监控图中寻找一个穿着红色衣服的小女孩),常规目标检测算法已经不能满足各种差异化的需求。表达理解算法REC是一种结合了计算机视觉和自然语言处理的多模态检测技术,它能根据一句输入的语言在输入图像中找到语言描述的目标。REC旨在解决语言和图像的对齐问题,也是多模态的基础技术之一,被应用在图文检索、视觉问答、机器导航等任务中。
目前的REC主要分为单阶段方法和双阶段算法两类,其中双阶段方法指先提取出输入图像中所有可能的候选目标,再在这些候选目标中选择出最符合描述的目标,这种方法由于需要先检测出所有目标再进行选择,计算量很大,速度也很慢;同时,需要检测的目标可能在第一阶段中没有被标注出,这将导致第二阶段的错误执行,因此双阶段方法的性能高度依赖于提取的候选目标的质量。单阶段方法是指在分别提取图像和语言特征后,对两种特征进行融合,并使用融合后的特征直接预测符合语言描述的目标在图像中的位置,该方法有着计算量更小,速度更快的特点。
在实际应用场景中,我们常常需要借助一个物体与周围物体的相对关系来对其进行描述如:打着绿色伞的男人,此种情况下,如果仅寻找目标本身,而不对其周围的视觉上下文进行考虑,网络难以正确定位目标。因此,REC任务是上下文敏感的,现有的单阶段方法没有考虑周围环境对该点的影响。
发明内容
本发明所要解决的技术问题是,提供一种通过增强单阶段REC算法中视觉上下文利用能力从而提高检测准确率的目标检测方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于多尺度语言嵌入REC的目标检测方法,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
现有的单阶段方法在视觉特征谱空间域上每一个点独立地计算与语言的相似度,没有考虑周围环境对该点的影响。本发明把语言特征转化为不同尺度的卷积核,并与视觉特征进行卷积,得到语言特征与视觉特征每个点及其周围的点的相似度,将得到的相似度谱作用回原始视觉特征上,加强与语言相关的视觉特征的表达,同时引入全局视觉语言相互作用信息及位置信息,预测被描述的目标的位置。
本发明的有益效果是,提升了网络对于视觉上下文的利用能力,相比于基准的普通单阶段算法,预测准确率更高。
附图说明
图1为基于单阶段REC的目标检测的总体流程示意图。
图2为实施例中多尺度局部特征融合方式示意图。
图3为实施例中带位置信息的全局特征融合方式示意图。
具体实施方式
本发明的具体实施方式如图1所示:
fv=CNN(I)
其中CNN表示卷积神经网络主干;
et=embedding(ut)
Mg=HW*Softmax(fv⊙FC(fl))
3.沿着通道层用3个独立全连接层将语言特征的维度从Cl改变到Cv,Cv*9,Cv*25,将输出变形为的不同尺度的卷积核,与图像特征fv做二维卷积,得到三个不同的上下文响应谱将fmp分别与点乘,得到二次融合的局部上下文融合特征将沿通道拼接起来,并用1*1卷积降维,得到最终局部融合特征fmu,如图2所示;
ki=FCi(fl)
其中FCi表示对应于卷积核ki的参数独立的全连接层,Conv2d(a,b)表示以b为卷积核,在a上做二维卷积,Conv1*1表示沿通道方法的1*1卷积,输入维度为3Cv,输出维度为Cv。
4.将图像特征fv输入到一个平均池化层中,得到全局图像特征沿着通道层用一个全连接层将语言特征的维度从Cl改变到Cv,将语言特征与fvg求哈达玛积,得到全局融合特征fmg;同时生成特征图的坐标谱,与复制到的fmg沿通道拼接,并用1*1卷积将维度改变到Cv,得到包含位置信息的全局融合特征fpg,如图3所示;
fvg=AvgPool(fv)
fpg=Conv1*1([dupli(fmg),coord])
其中AvgPool代表全局平均池化,dupli表示将一个Cv*1*1维的向量扩充成C*H*W的矩阵,coord代表坐标谱i与j分别表示图像特征fv的特征点的横、纵坐标;Conv1*1的输入维度为Cv+8,输出维度为Cv。
5.将fmu与fpg沿通道拼接,输入检测头中,得到语言描述的目标在图像中的位置,以坐标框的形式表示;
Bbox=DetectionHead([fmu,fpg])
其中DetectionHead表示检测头。
Claims (9)
1.一种基于多尺度语言嵌入REC的目标检测方法,其特征在于,包括以下步骤:
步骤1)接收输入的图像与语言,分别提取图像特征和语言特征;
步骤2)获取最终局部融合特征:
步骤2-1)计算图像特征中每个特征点与语言特征的相似度得到图像-语言响应谱,利用图像-语言响应谱加强图像特征得到局部初步融合特征;
步骤2-2)计算局部初步融合特征中每个特征点的N种尺度邻近区域与语言特征的相似度得到N个上下文响应谱,分别利用N个局部上下文融合特征,再融合N个加强后的局部初步融合特征得到最终局部融合特征;N为大于等于2的整数;
步骤3)计算图像特征与语言特征的全局融合特征,同时添加位置信息,得到带位置信息的全局融合特征;
步骤4)根据最终局部融合特征和带位置信息的全局融合特征完成对待检测目标位置的预测。
2.如权利要求1所述方法,其特征在于,步骤2-1)具体如下:
先使语言特征fl的维度与图像特征fv的维度相同;
将统一维度的语言特征fl与图像特征fv点乘,再用Softmax函数对点乘结果进行映射并乘上图像特征fv的尺寸得到图像-语言响应谱Mg;
将图像-语言响应谱Mg与图像特征fv求哈达玛积得到初步融合的局部多模态特征fmp。
3.如权利要求2所述方法,其特征在于,通过全连接层实现语言特征fl的维度改变,使得语言特征fl的维度与图像特征fv的维度相同。
7.如权利要求6所述方法,其特征在于,利用全局平均池化得到图像特征fv的全局图像特征fvg。
8.如权利要求1所述方法,其特征在于,步骤1)使用卷积神经网络提取图像特征。
9.如权利要求1所述方法,其特征在于,步骤1)使用长短期记忆人工神经网络提取语言特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222614.4A CN112926662B (zh) | 2021-02-25 | 2021-02-25 | 一种基于多尺度语言嵌入rec的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110222614.4A CN112926662B (zh) | 2021-02-25 | 2021-02-25 | 一种基于多尺度语言嵌入rec的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926662A CN112926662A (zh) | 2021-06-08 |
CN112926662B true CN112926662B (zh) | 2022-05-03 |
Family
ID=76172591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110222614.4A Active CN112926662B (zh) | 2021-02-25 | 2021-02-25 | 一种基于多尺度语言嵌入rec的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926662B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358177A (zh) * | 2017-06-27 | 2017-11-17 | 维拓智能科技(深圳)有限公司 | 一种基于图像分析的中远距离行人检测方法及终端设备 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN111598183A (zh) * | 2020-05-22 | 2020-08-28 | 上海海事大学 | 一种多特征融合图像描述方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074500B2 (en) * | 2017-06-20 | 2021-07-27 | Battelle Memorial Institute | Prediction of social media postings as trusted news or as types of suspicious news |
CN110222700A (zh) * | 2019-05-30 | 2019-09-10 | 五邑大学 | 基于多尺度特征与宽度学习的sar图像识别方法及装置 |
-
2021
- 2021-02-25 CN CN202110222614.4A patent/CN112926662B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107358177A (zh) * | 2017-06-27 | 2017-11-17 | 维拓智能科技(深圳)有限公司 | 一种基于图像分析的中远距离行人检测方法及终端设备 |
CN108648746A (zh) * | 2018-05-15 | 2018-10-12 | 南京航空航天大学 | 一种基于多模态特征融合的开放域视频自然语言描述生成方法 |
CN109670576A (zh) * | 2018-11-29 | 2019-04-23 | 中山大学 | 一种多尺度视觉关注图像描述方法 |
CN110458282A (zh) * | 2019-08-06 | 2019-11-15 | 齐鲁工业大学 | 一种融合多角度多模态的图像描述生成方法及系统 |
CN111598183A (zh) * | 2020-05-22 | 2020-08-28 | 上海海事大学 | 一种多特征融合图像描述方法 |
Non-Patent Citations (1)
Title |
---|
基于多尺度特征的图像描述生成模型;周星光等;《湖北工业大学学报》;20200415(第02期);第63-28页正文全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926662A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766244B (zh) | 目标对象检测方法、装置、计算机设备和存储介质 | |
CN111210443A (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN110674741A (zh) | 一种基于双通道特征融合的机器视觉中手势识别方法 | |
CN115131797B (zh) | 一种基于特征增强金字塔网络的场景文本检测方法 | |
CN109934183B (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN113554032B (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
WO2019167784A1 (ja) | 位置特定装置、位置特定方法及びコンピュータプログラム | |
CN112508032A (zh) | 一种联合物体上下文信息的人脸图像分割方法及分割网络 | |
CN114863407A (zh) | 一种基于视觉语言深度融合的多任务冷启动目标检测方法 | |
CN114743062A (zh) | 一种建筑特征的识别方法及装置 | |
CN115346261A (zh) | 基于改进ConvMixer网络和动态焦点损失的视听情感分类方法 | |
CN114299101A (zh) | 图像的目标区域获取方法、装置、设备、介质和程序产品 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN112926662B (zh) | 一种基于多尺度语言嵌入rec的目标检测方法 | |
CN117033609A (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN116311518A (zh) | 一种基于人体交互意图信息的层级人物交互检测方法 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
Axyonov et al. | Method of multi-modal video analysis of hand movements for automatic recognition of isolated signs of Russian sign language | |
CN114821438A (zh) | 一种基于多路径激励的视频人体行为识别方法及系统 | |
CN115239974A (zh) | 融合注意力机制的视觉同步定位与地图构建闭环检测方法 | |
Karthik et al. | Survey on Gestures Translation System for Hearing Impaired People in Emergency Situation using Deep Learning Approach | |
Shane et al. | Sign Language Detection Using Faster RCNN Resnet | |
CN113971830A (zh) | 一种人脸识别方法、装置、存储介质及电子设备 | |
CN113688864A (zh) | 一种基于分裂注意力的人-物交互关系分类方法 | |
CN112949672A (zh) | 商品识别方法、装置、设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |