CN112509009A

CN112509009A - 一种基于自然语言信息辅助的目标追踪方法

Info

Publication number: CN112509009A
Application number: CN202011482969.9A
Authority: CN
Inventors: 张世雄; 李楠楠; 龙仕强; 朱鑫懿; 魏文应
Original assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Current assignee: Instritute Of Intelligent Video Audio Technology Longgang Shenzhen
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-03-16
Anticipated expiration: 2040-12-16
Also published as: CN112509009B

Abstract

本发明提供了一种基于自然语言信息辅助的目标追踪方法，包括对图像进行视觉特征和自然语言特征描述，并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征；基于初始的视觉特征构建视觉追踪模型，以及基于初始的自然语言追踪模型构建自然语言的响应模型；以及利用融合了多层特征的图像特征检测器确定视觉特征的响应，以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。本方法结合自然语言信息和视觉信息优势，利用自然语言提供的高层次语义特征辅助视觉特征，使目标追踪更加稳定。

Description

一种基于自然语言信息辅助的目标追踪方法

技术领域

本发明涉及计算机目标追踪的技术领域，特别涉及一种基于自然语言信息辅助的目标追踪方法。

背景技术

目标追踪是计算机视觉研究的热门领域之一，是指在一段连续的视频帧中，利用人工智能技术，自动追踪视频连续帧中出现的某个固定目标。目标追踪作为一项基础技术广泛应用于各种领域，例如：自动驾驶、智慧城市以及智能监控等多个场景。

目标追踪属于一个具有挑战的计算机视觉任务，对于视频中的运动目标而言，目标的运动场景很容易发生变化，而且目标本身也在运动中不断的变化。这些变化为目标追踪带来了不少的挑战。其中，常见的挑战有以下两种：遮挡挑战，是指目标在运动过程中存在部分或完全被遮挡，形变挑战，当目标在运动过程中，目标的外观、形态有可能会发生改变，这会对追踪的效果产生影响；以及背景杂乱的挑战，是指目标在运动过程中，其背景变化多样复杂，随时也会有光照的变化，背景中也可能会出现相似的目标，这些都对追踪的效果产生干扰，尤其实在长效追踪中，目标特征的变化导致长效追踪实现存在者挑战。目前，在大多数目标追踪领域主要用到的方法是利用深度卷积网络来提取特征从而进行短效追踪。

针对目前追踪领域存在的问题，主要是因为特征不够强大，缺乏更高层的语义信息对追踪的目标进行描述。

发明内容

鉴于此，本发明提供了一种基于自然语言信息辅助的目标追踪方法，结合自然语言信息和视觉信息优势，利用自然语言提供的高层次语义特征辅助视觉特征，使目标追踪更加稳定。

本发明的技术方案如下：

本发明的基于自然语言信息辅助的目标追踪方法，包括以下步骤：S1：对图像进行视觉特征和自然语言特征描述，并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征；S2：基于初始的视觉特征构建视觉追踪模型，以及基于初始的自然语言追踪模型构建自然语言的响应模型；以及S3：利用融合了多层特征的图像特征检测器确定视觉特征的响应，以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。

优选的，在上述目标追踪方法中，在步骤S1中，利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征，以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。

优选的，在上述目标追踪方法中，在步骤S1中，目标特征是在第一帧中，是由人进行标注，由目标中心点(x,y)和目标的宽和高(w,h)组成，获取到目标图块，将目标图块输入到训练好的卷积神经网络中，然后分别提取卷积神经网络的三个特征输出层，并对三个特征输出层输出的图像特征进行融合，生成多层特征，图像特征检测器将多层特征作为模板来进行检测。

优选的，在上述目标追踪方法中，在步骤S2中，构建自然语言的响应模型，用于寻找图片中与第一帧图片中目标描述最高的响应区域，其语言特征也被排列成一维的特征向量；构建视觉追踪模型，将从第一帧提取的目标视觉特征作为目标的模板特征，并将视觉特征向量排列成一维的特征向量。

优选的，在上述目标追踪方法中，在步骤S2中，对于新来的图像帧，利用视觉特征对图像进行检测，将目标的视觉特征与后选区域的特征进行对比，检测出前10个相似度高的图块作为输出；将输出的10个图块进行自然语言属性的检测，从10个图块中检测响应最高的作为目标的图块；输出目标在新一帧中的位置，得到新的图像；对于新来的一帧图像，重复上述操作。

优选的，在上述目标追踪方法中，通过特征融合的方式获取到目标的图像特征j，以及在新的图像中候选特征{k1,k2,k3,……，kn}，从而计算目标特征j与候选特征k之间的相似度，筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10}，分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测，从10个图块中检测响应最高的作为目标的图块。

根据本发明的技术方案，产生的有益效果是:

1)提供了一种先进的目标追踪方法，利用改变了单一依靠视觉信息进行目标追踪的传统模式，即提供了一种以自然语言描述为条件跟踪目标，将自然语言强大的描述效果融入到视觉特征中，提高了目标追踪的效率，减少了误跟踪或者目标漂移等情况，使得目标追踪的持续时间更长效果更好。

2)设计了一种新的互补融合模型，可以有效地将自然语言信息和计算机视觉信息进行有效的互补融合。传统的自然语言信息需要循环神经网络来进行特征提取，而传统的视觉信息需要卷积神经网络来进行特征的提取。本发明的互补模型可以有效地将循环神经网络提取的自然语言特征和卷积神经网络提取的计算机视觉特征相互结合，融合了两种特征的优点，弥补了相互存在的缺点。

3)在提取视觉特征过程中，将多个神经网络输出层进行融合，改变了以往依靠只依靠最后一层作为单一层输出的方法，将浅层特征、中间层特征和高层特征进行融合，得到的融合特征提高了特征表示的丰富度，克服了浅层特征中对目标大小敏感对语义信息不敏感而高层特征对语义信息敏感而对大小不敏感的弊端，对特征进行了一个互补。

为了更好地理解和说明本发明的构思、工作原理和发明效果，下面结合附图，通过具体实施例，对本发明进行详细说明如下：

附图说明

图1是本发明的一种基于自然语言信息辅助的目标追踪方法的流程图。

具体实施方式

本发明的基于自然语言信息辅助的目标追踪方法涉及的是一种视频序列中针对单目标追踪的方法，采用自然语言信息作为辅助的目标追踪的模式，在视频序列追踪目标的过程中，增加对目标的自然语言描述，这些语义的描述可以增加在追踪过程中的高层的语义信息，使得目标追踪更加的准确。

本发明的目标追踪方法利用自然语言信息作为辅助，可以将自然语言信息和视觉信息相互结合进行目标的追踪，同时，利用自然语言特征的特性以及计算机视觉信息的特性，设计了一种可以对两种特征进行融合的方法，大大扩展可检测的范围和精度。最后，利用自然语言信息提供的长期有效特征对目标特征进行修正，提高了目标追踪的有效时长，使得针对目标的长效追踪成为现实。

本发明的目标追踪方法的原理是：1)分别利用卷积神经网络(CNN)和长短记忆网络(LSTM)提取目标的图像特征和对目标进行描述的自然语言特征；2)利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应；3)利用融合了多层特征的图像特征检测器去确定图像特征的响应。

图1为本发明的一种基于自然语言信息辅助的目标追踪方法的流程图，本发明的基于自然语言信息辅助的目标追踪方法包括如下步骤：

S1：对图像进行视觉特征和自然语言特征描述，利用预训练好的卷积神经网络(CNN)提取目标和候选区域的视觉特征，即图像特征，以及利用长短记忆网络(LSTM)提取对目标进行描述的自然语言特征。

其中，利用卷积神经网络(CNN)从目标框中提出目标的初始视觉特征，即图像特征；利用长短记忆网络LSTM从目标描述中提取目标的初始自然语言特征。目标特征是在第一帧中，是由人进行标注，由目标中心点(x,y)和目标的宽和高(w,h)组成，由此，可以获取到目标图块，将目标图块输入到训练好的卷积神经网络中，然后分别提取CNN网络的三个特征输出层，对特征层FC6、特征层FC7和特征层FC8输出的图像特征进行融合，生成多层特征，图像特征检测器将多层特征作为模板来进行检测。候选区域由随机在目标中心点进行随机密集采样得到的。以同样的方法获取候选图块的特征。

如图1所示，开始时，对目标进行初始化，提取视觉特征，提取语言特征，会将需要追踪的目标利用方框框出，利用最多25个自然语言的词来对目标进行描述。

S2：基于初始的视觉特征构建视觉追踪模型(即，图1中的构建视觉模板)，以及基于初始的自然语言追踪模型构建自然语言的响应模型(即，图1中的构建语言模板)。

其中，基于初始的自然语言追踪模型构建自然语言的响应模型，用于寻找图片中与第一帧图片中目标描述最高的响应区域，其语言特征也被排列成一维的特征向量，其中，初始的自然语言追踪模型基于初始的自然语言特征；构建视觉追踪模型，将从第一帧提取的目标图像特征作为目标的模板特征，并将图像特征向量排列成一维的特征向量。

S3：利用融合了多层特征的图像特征检测器确定图像特征的响应(图1中的视觉响应)，以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应(图1中的语言响应)。

在该步骤S3中，具体操作为：对于新来的图像帧，利用视觉特征对图像进行检测，将目标的视觉特征与后选区域的特征进行对比，检测出前10个相似度高的图块作为输出；将输出的10个图块进行自然语言属性的检测，从10个图块中检测响应最高的作为目标的图块；输出目标在新一帧中的位置，即图1中的获取目标位置，得到新的图像；对于新来的一帧图像，重复上述操作。

具体地，利用自然语言描述确定搜索范围，例如，假设我们的追踪目标是可以被描述为：“在视频中追踪一个穿蓝色上衣，背着黑色背包的男子”，这便是目标追踪的初始描述，利用LSTM模型提取到初始帧中目标的关键信息：“蓝色上衣、背包、男子”作为目标的属性即属性(at1,at2,at3)。在随后的视频帧中，我们通过对图像进行检测，在图像检测中，同时具有“蓝色上衣、背包、男子“这三种属性的图块响应最高。

在S1中，通过特征融合的方式获取到目标的图像特征j，以及在新的图像中候选特征{k1,k2,k3,……，kn}，从而计算目标特征j与候选特征k之间的相似度，筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10}，分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测，从10个图块中检测响应最高的作为目标的图块。

本发明的测试效果，由于本发明提出的基于自然语言信息辅助的目标追踪方法是基于计算视觉的追踪提升方法的提升。本发明将提升前的和提升后分别进行测试对比，测试数据集为国际知名追踪数据集OTB50和OTB99，对比效果见表1。

表1中OTB51和OTB99分别是国际知名测试数据集，用来测试目标追踪算法的效果，Baseline和本发明分别表示提升前只基于计算机视觉的算法和提升后本发明的算法，IoU国际通用对追踪效果评估的方法，是指是预测和真值两个区域重叠的部分除以两个区域的集合部分得出的结果。

以上说明是依据本发明的构思和工作原理的最佳实施例。上述实施例不应理解为对本权利要求保护范围的限制，依照本发明构思的其他实施方式和实现方式的组合均属于本发明的保护范围。

Claims

1.一种基于自然语言信息辅助的目标追踪方法，其特征在于，包括以下步骤：

S1：对图像进行视觉特征和自然语言特征描述，并提取目标和候选区域的视觉特征和对目标进行描述的自然语言特征；

S2：基于初始的视觉特征构建视觉追踪模型，以及基于初始的自然语言追踪模型构建自然语言的响应模型；以及

S3：利用融合了多层特征的图像特征检测器确定视觉特征的响应，以及利用自然语言特征检测器检测候选图像同时获取候选图像对自然语言特征的响应。

2.根据权利要求1所述的目标追踪方法，其特征在于，在步骤S1中，利用预训练好的卷积神经网络(CNN)提取目标和候选区域的所述视觉特征，以及利用长短记忆网络(LSTM)提取对目标进行描述的所述自然语言特征。

3.根据权利要求1所述的目标追踪方法，其特征在于，在步骤S1中，目标特征是在第一帧中，是由人进行标注，由目标中心点(x,y)和目标的宽和高(w,h)组成，获取目标图块，将所述目标图块输入到训练好的卷积神经网络中，然后分别提取所述卷积神经网络的三个特征输出层，并对所述三个特征输出层输出的图像特征进行融合，生成多层特征，图像特征检测器将所述多层特征作为模板来进行检测。

4.根据权利要求1所述的目标追踪方法，其特征在于，在步骤S2中，构建所述自然语言的响应模型，用于寻找图片中与第一帧图片中目标描述最高的响应区域，其语言特征也被排列成一维的特征向量；构建所述视觉追踪模型，将从第一帧提取的目标视觉特征作为目标的模板特征，并将视觉特征向量排列成一维的特征向量。

5.根据权利要求1所述的目标追踪方法，其特征在于，在步骤S2中，对于新来的图像帧，利用视觉特征对图像进行检测，将目标的视觉特征与后选区域的特征进行对比，检测出前10个相似度高的图块作为输出；将输出的10个图块进行自然语言属性的检测，从10个图块中检测响应最高的作为目标的图块；输出目标在新一帧中的位置，得到新的图像；对于新来的一帧图像，重复上述操作。

6.根据权利要求1-5任一项所述的目标追踪方法，其特征在于，通过特征融合的方式获取到目标的图像特征j，以及在新的图像中候选特征{k1,k2,k3,……，kn}，从而计算目标特征j与候选特征k之间的相似度，筛选除相似度最高的10个候选特征{k1,k2,k3,……,k10}，分别对这10个候选特征的图块进行自然语言属性(at1,at2,at3)检测，从10个图块中检测响应最高的作为目标的图块。