CN112509009A - 一种基于自然语言信息辅助的目标追踪方法 - Google Patents

一种基于自然语言信息辅助的目标追踪方法 Download PDF

Info

Publication number
CN112509009A
CN112509009A CN202011482969.9A CN202011482969A CN112509009A CN 112509009 A CN112509009 A CN 112509009A CN 202011482969 A CN202011482969 A CN 202011482969A CN 112509009 A CN112509009 A CN 112509009A
Authority
CN
China
Prior art keywords
target
features
natural language
feature
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011482969.9A
Other languages
English (en)
Other versions
CN112509009B (zh
Inventor
张世雄
李楠楠
龙仕强
朱鑫懿
魏文应
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Original Assignee
Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Instritute Of Intelligent Video Audio Technology Longgang Shenzhen filed Critical Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority to CN202011482969.9A priority Critical patent/CN112509009B/zh
Publication of CN112509009A publication Critical patent/CN112509009A/zh
Application granted granted Critical
Publication of CN112509009B publication Critical patent/CN112509009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于自然语言信息辅助的目标追踪方法,包括对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。本方法结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。

Description

一种基于自然语言信息辅助的目标追踪方法
技术领域
本发明涉及计算机目标追踪的技术领域,特别涉及一种基于自然语言信息辅助的目标追踪方法。
背景技术
目标追踪是计算机视觉研究的热门领域之一,是指在一段连续的视频帧中,利用人工智能技术,自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域,例如:自动驾驶、智慧城市以及智能监控等多个场景。
目标追踪属于一个具有挑战的计算机视觉任务,对于视频中的运动目标而言,目标的运动场景很容易发生变化,而且目标本身也在运动中不断的变化。这些变化为目标追踪带来了不少的挑战。其中,常见的挑战有以下两种:遮挡挑战,是指目标在运动过程中存在部分或完全被遮挡,形变挑战,当目标在运动过程中,目标的外观、形态有可能会发生改变,这会对追踪的效果产生影响;以及背景杂乱的挑战,是指目标在运动过程中,其背景变化多样复杂,随时也会有光照的变化,背景中也可能会出现相似的目标,这些都对追踪的效果产生干扰,尤其实在长效追踪中,目标特征的变化导致长效追踪实现存在者挑战。目前,在大多数目标追踪领域主要用到的方法是利用深度卷积网络来提取特征从而进行短效追踪。
针对目前追踪领域存在的问题,主要是因为特征不够强大,缺乏更高层的语义信息对追踪的目标进行描述。
发明内容
鉴于此,本发明提供了一种基于自然语言信息辅助的目标追踪方法,结合自然语言信息和视觉信息优势,利用自然语言提供的高层次语义特征辅助视觉特征,使目标追踪更加稳定。
本发明的技术方案如下:
本发明的基于自然语言信息辅助的目标追踪方法,包括以下步骤:S1:对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;S2:基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及S3:利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。
优选的,在上述目标追踪方法中,在步骤S1中,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。
优选的,在上述目标追踪方法中,在步骤S1中,目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,获取到目标图块,将目标图块输入到训练好的卷积神经网络中,然后分别提取卷积神经网络的三个特征输出层,并对三个特征输出层输出的图像特征进行融合,生成多层特征,图像特征检测器将多层特征作为模板来进行检测。
优选的,在上述目标追踪方法中,在步骤S2中,构建自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量;构建视觉追踪模型,将从第一帧提取的目标视觉特征作为目标的模板特征,并将视觉特征向量排列成一维的特征向量。
优选的,在上述目标追踪方法中,在步骤S2中,对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,得到新的图像;对于新来的一帧图像,重复上述操作。
优选的,在上述目标追踪方法中,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
根据本发明的技术方案,产生的有益效果是:
1)提供了一种先进的目标追踪方法,利用改变了单一依靠视觉信息进行目标追踪的传统模式,即提供了一种以自然语言描述为条件跟踪目标,将自然语言强大的描述效果融入到视觉特征中,提高了目标追踪的效率,减少了误跟踪或者目标漂移等情况,使得目标追踪的持续时间更长效果更好。
2)设计了一种新的互补融合模型,可以有效地将自然语言信息和计算机视觉信息进行有效的互补融合。传统的自然语言信息需要循环神经网络来进行特征提取,而传统的视觉信息需要卷积神经网络来进行特征的提取。本发明的互补模型可以有效地将循环神经网络提取的自然语言特征和卷积神经网络提取的计算机视觉特征相互结合,融合了两种特征的优点,弥补了相互存在的缺点。
3)在提取视觉特征过程中,将多个神经网络输出层进行融合,改变了以往依靠只依靠最后一层作为单一层输出的方法,将浅层特征、中间层特征和高层特征进行融合,得到的融合特征提高了特征表示的丰富度,克服了浅层特征中对目标大小敏感对语义信息不敏感而高层特征对语义信息敏感而对大小不敏感的弊端,对特征进行了一个互补。
为了更好地理解和说明本发明的构思、工作原理和发明效果,下面结合附图,通过具体实施例,对本发明进行详细说明如下:
附图说明
图1是本发明的一种基于自然语言信息辅助的目标追踪方法的流程图。
具体实施方式
本发明的基于自然语言信息辅助的目标追踪方法涉及的是一种视频序列中针对单目标追踪的方法,采用自然语言信息作为辅助的目标追踪的模式,在视频序列追踪目标的过程中,增加对目标的自然语言描述,这些语义的描述可以增加在追踪过程中的高层的语义信息,使得目标追踪更加的准确。
本发明的目标追踪方法利用自然语言信息作为辅助,可以将自然语言信息和视觉信息相互结合进行目标的追踪,同时,利用自然语言特征的特性以及计算机视觉信息的特性,设计了一种可以对两种特征进行融合的方法,大大扩展可检测的范围和精度。最后,利用自然语言信息提供的长期有效特征对目标特征进行修正,提高了目标追踪的有效时长,使得针对目标的长效追踪成为现实。
本发明的目标追踪方法的原理是:1)分别利用卷积神经网络(CNN)和长短记忆网络(LSTM)提取目标的图像特征和对目标进行描述的自然语言特征;2)利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应;3)利用融合了多层特征的图像特征检测器去确定图像特征的响应。
图1为本发明的一种基于自然语言信息辅助的目标追踪方法的流程图,本发明的基于自然语言信息辅助的目标追踪方法包括如下步骤:
S1:对图像进行视觉特征和自然语言特征描述,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征,即图像特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。
其中,利用卷积神经网络(CNN)从目标框中提出目标的初始视觉特征,即图像特征;利用长短记忆网络LSTM从目标描述中提取目标的初始自然语言特征。目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,由此,可以获取到目标图块,将目标图块输入到训练好的卷积神经网络中,然后分别提取CNN网络的三个特征输出层,对特征层FC6、特征层FC7和特征层FC8输出的图像特征进行融合,生成多层特征,图像特征检测器将多层特征作为模板来进行检测。候选区域由随机在目标中心点进行随机密集采样得到的。以同样的方法获取候选图块的特征。
如图1所示,开始时,对目标进行初始化,提取视觉特征,提取语言特征,会将需要追踪的目标利用方框框出,利用最多25个自然语言的词来对目标进行描述。
S2:基于初始的视觉特征构建视觉追踪模型(即,图1中的构建视觉模板),以及基于初始的自然语言追踪模型构建自然语言的响应模型(即,图1中的构建语言模板)。
其中,基于初始的自然语言追踪模型构建自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量,其中,初始的自然语言追踪模型基于初始的自然语言特征;构建视觉追踪模型,将从第一帧提取的目标图像特征作为目标的模板特征,并将图像特征向量排列成一维的特征向量。
S3:利用融合了多层特征的图像特征检测器确定图像特征的响应(图1中的视觉响应),以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应(图1中的语言响应)。
在该步骤S3中,具体操作为:对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,即图1中的获取目标位置,得到新的图像;对于新来的一帧图像,重复上述操作。
具体地,利用自然语言描述确定搜索范围,例如,假设我们的追踪目标是可以被描述为:“在视频中追踪一个穿蓝色上衣,背着黑色背包的男子”,这便是目标追踪的初始描述,利用LSTM模型提取到初始帧中目标的关键信息:“蓝色上衣、背包、男子”作为目标的属性即属性(at1,at2,at3)。在随后的视频帧中,我们通过对图像进行检测,在图像检测中,同时具有“蓝色上衣、背包、男子“这三种属性的图块响应最高。
在S1中,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
本发明的测试效果,由于本发明提出的基于自然语言信息辅助的目标追踪方法是基于计算视觉的追踪提升方法的提升。本发明将提升前的和提升后分别进行测试对比,测试数据集为国际知名追踪数据集OTB50和OTB99,对比效果见表1。
Figure BDA0002838144580000051
表1中OTB51和OTB99分别是国际知名测试数据集,用来测试目标追踪算法的效果,Baseline和本发明分别表示提升前只基于计算机视觉的算法和提升后本发明的算法,IoU国际通用对追踪效果评估的方法,是指是预测和真值两个区域重叠的部分除以两个区域的集合部分得出的结果。
以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制,依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims (6)

1.一种基于自然语言信息辅助的目标追踪方法,其特征在于,包括以下步骤:
S1:对图像进行视觉特征和自然语言特征描述,并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征;
S2:基于初始的视觉特征构建视觉追踪模型,以及基于初始的自然语言追踪模型构建自然语言的响应模型;以及
S3:利用融合了多层特征的图像特征检测器确定视觉特征的响应,以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。
2.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S1中,利用预训练好的卷积神经网络(CNN)提取目标和候选区域的所述视觉特征,以及利用长短记忆网络(LSTM)提取对目标进行描述的所述自然语言特征。
3.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S1中,目标特征是在第一帧中,是由人进行标注,由目标中心点(x,y)和目标的宽和高(w,h)组成,获取目标图块,将所述目标图块输入到训练好的卷积神经网络中,然后分别提取所述卷积神经网络的三个特征输出层,并对所述三个特征输出层输出的图像特征进行融合,生成多层特征,图像特征检测器将所述多层特征作为模板来进行检测。
4.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S2中,构建所述自然语言的响应模型,用于寻找图片中与第一帧图片中目标描述最高的响应区域,其语言特征也被排列成一维的特征向量;构建所述视觉追踪模型,将从第一帧提取的目标视觉特征作为目标的模板特征,并将视觉特征向量排列成一维的特征向量。
5.根据权利要求1所述的目标追踪方法,其特征在于,在步骤S2中,对于新来的图像帧,利用视觉特征对图像进行检测,将目标的视觉特征与后选区域的特征进行对比,检测出前10个相似度高的图块作为输出;将输出的10个图块进行自然语言属性的检测,从10个图块中检测响应最高的作为目标的图块;输出目标在新一帧中的位置,得到新的图像;对于新来的一帧图像,重复上述操作。
6.根据权利要求1-5任一项所述的目标追踪方法,其特征在于,通过特征融合的方式获取到目标的图像特征j,以及在新的图像中候选特征{k1,k2,k3,……,kn},从而计算目标特征j与候选特征k之间的相似度,筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10},分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测,从10个图块中检测响应最高的作为目标的图块。
CN202011482969.9A 2020-12-16 2020-12-16 一种基于自然语言信息辅助的目标追踪方法 Active CN112509009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011482969.9A CN112509009B (zh) 2020-12-16 2020-12-16 一种基于自然语言信息辅助的目标追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011482969.9A CN112509009B (zh) 2020-12-16 2020-12-16 一种基于自然语言信息辅助的目标追踪方法

Publications (2)

Publication Number Publication Date
CN112509009A true CN112509009A (zh) 2021-03-16
CN112509009B CN112509009B (zh) 2024-04-12

Family

ID=74972363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011482969.9A Active CN112509009B (zh) 2020-12-16 2020-12-16 一种基于自然语言信息辅助的目标追踪方法

Country Status (1)

Country Link
CN (1) CN112509009B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159217A (zh) * 2021-05-12 2021-07-23 深圳龙岗智能视听研究院 一种基于事件相机的注意力机制目标检测的方法
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107133569A (zh) * 2017-04-06 2017-09-05 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
TW201818277A (zh) * 2016-11-10 2018-05-16 美商高通公司 自然語言物件追蹤
CN110390289A (zh) * 2019-07-17 2019-10-29 苏州大学 基于指称理解的视频安防检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201818277A (zh) * 2016-11-10 2018-05-16 美商高通公司 自然語言物件追蹤
CN107133569A (zh) * 2017-04-06 2017-09-05 同济大学 基于泛化多标记学习的监控视频多粒度标注方法
CN110390289A (zh) * 2019-07-17 2019-10-29 苏州大学 基于指称理解的视频安防检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QI FENG 等: "Modeling Context Between Objects for Referring Expression Understanding", 《ARXIV》 *
ZHENYANG LI 等: "Tracking by Natural Language Specification", 《IEEE》 *
李晨曦: "基于语言和视觉模型的目标跟踪算法研究", 《CNKI》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159217A (zh) * 2021-05-12 2021-07-23 深圳龙岗智能视听研究院 一种基于事件相机的注意力机制目标检测的方法
CN113159217B (zh) * 2021-05-12 2023-08-01 深圳龙岗智能视听研究院 一种基于事件相机的注意力机制目标检测的方法
CN113936040A (zh) * 2021-10-15 2022-01-14 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法
CN113936040B (zh) * 2021-10-15 2023-09-15 哈尔滨工业大学 基于胶囊网络和自然语言查询的目标跟踪方法

Also Published As

Publication number Publication date
CN112509009B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
Guo et al. Learning to measure change: Fully convolutional siamese metric networks for scene change detection
An et al. Performance evaluation of model-based gait on multi-view very large population database with pose sequences
Kawewong et al. Online and incremental appearance-based SLAM in highly dynamic environments
Gao et al. Multi-perspective and multi-modality joint representation and recognition model for 3D action recognition
Ren et al. Overview of object detection algorithms using convolutional neural networks
Xiao et al. Deep learning for occluded and multi‐scale pedestrian detection: A review
CN105160649A (zh) 基于核函数非监督聚类的多目标跟踪方法及系统
CN112509009A (zh) 一种基于自然语言信息辅助的目标追踪方法
Liu et al. A novel shot detection approach based on ORB fused with structural similarity
Kawewong et al. PIRF-Nav 2.0: Fast and online incremental appearance-based loop-closure detection in an indoor environment
Almaadeed et al. A novel approach for robust multi human action recognition and summarization based on 3D convolutional neural networks
Hao et al. Recognition of basketball players’ action detection based on visual image and Harris corner extraction algorithm
Jiao et al. Vehicle wheel weld detection based on improved YOLO v4 algorithm
Yang et al. An object detection and tracking system for unmanned surface vehicles
Jiang et al. A unified tree-based framework for joint action localization, recognition and segmentation
Jin et al. Depth-aware gaze-following via auxiliary networks for robotics
Zhang et al. Two-stream RGB-D human detection algorithm based on RFB network
Ahmad et al. Embedded deep vision in smart cameras for multi-view objects representation and retrieval
Yun et al. Part-level convolutional neural networks for pedestrian detection using saliency and boundary box alignment
Pang et al. Analysis of computer vision applied in martial arts
Tang et al. Using a selective ensemble support vector machine to fuse multimodal features for human action recognition
Liang et al. Egocentric hand pose estimation and distance recovery in a single RGB image
Zhong et al. Online learning 3D context for robust visual tracking
Li et al. Deep fusion of multi-layers salient CNN features and similarity network for robust visual place recognition
CN106558065A (zh) 基于图像颜色和纹理分析实现对目标的实时视觉跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant