CN114820716B

CN114820716B - 基于计算机视觉的目标跟踪方法及系统

Info

Publication number: CN114820716B
Application number: CN202210745595.8A
Authority: CN
Inventors: 王成卓; 史卓; 徐哲贤; 包鑫; 朱程铭
Original assignee: Zte Software Technology Nanchang Co ltd
Current assignee: Nanchang Zhongzhan Shuzhi Technology Co ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-13
Anticipated expiration: 2042-06-29
Also published as: CN114820716A

Abstract

本发明公开了一种基于计算机视觉的目标跟踪方法及系统，该方法包括：获取目标视频的当前图像帧，采用改进的卷积神经网络模型对所述当前图像帧进行检测，输出目标位置；采用k邻域搜索算法，根据所述目标位置确定目标区域；采用所述改进的卷积神经网络模型提取所述目标区域的目标特征，并将所述目标特征融合为特征图像，所述特征图像具有所述预设维度；将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框。本发明能够解决现有技术中，当跟踪的目标尺寸较小，且目标被遮挡时，目标跟踪的效果较差的技术问题。

Description

基于计算机视觉的目标跟踪方法及系统

技术领域

本发明涉及图像数据处理技术领域，特别是涉及一种基于计算机视觉的目标跟踪方法及系统。

背景技术

目标跟踪是指在视频序列中对感兴趣的目标进行有效的跟踪，通过计算机获取到视频，并对视频信息进行处理和分析，在视频图像中找到独立的运动目标，在后续的视频序列中检测出运动目标区域位置并且标记出来，为后期对目标的轨迹、行为等信息进行分析做准备。目前计算机视觉技术已广泛应用于目标跟踪的实际应用中。

在民用领域中，目标跟踪主要用于海上交通管制、空中交通管制和卫星导航、定位与监视等方面。在军事领域中，目标跟踪的主要应用包括战场监视、海洋监视、防空、空中攻击和火力控制等方面。随着科学技术的不断发展，现代跟踪环境的显著变化，各种应用系统对多目标跟踪提出了日益复杂的要求。

现有技术中，当跟踪的目标尺寸较小，且目标被遮挡时，目标跟踪的效果较差，最终导致无法有效的对目标进行跟踪。

发明内容

为此，本发明的一个实施例提出一种基于计算机视觉的目标跟踪方法，以解决现有技术中，当跟踪的目标尺寸较小，且目标被遮挡时，目标跟踪的效果较差的技术问题。

根据本发明一实施例的基于计算机视觉的目标跟踪方法，包括：

获取目标视频的当前图像帧，采用改进的卷积神经网络模型对所述当前图像帧进行检测，输出目标位置，所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量，所述特征融合层通过目标卷积核先对特征图进行降维，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测；

采用k邻域搜索算法，根据所述目标位置确定目标区域；

采用所述改进的卷积神经网络模型提取所述目标区域的目标特征，并将所述目标特征融合为特征图像，所述特征图像具有所述预设维度；

将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框。

根据本发明实施例的基于计算机视觉的目标跟踪方法，采用改进的卷积神经网络模型对所述当前图像帧进行检测，改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，不含全连接层，而使用全局平均池化的方式产生长度固定的特征向量，此外，增加了特征融合层，能够对不同粒度的特征进行了融合，提升了对输入图像尺寸的敏感性，解决了因目标过小，导致特征丢失的问题；此外，在改进的卷积神经网络模型的基础上，引入k邻域搜索算法快速根据目标位置确定目标区域，并利用长短期记忆神经网络模型对时序空间信息的表达能力，选择性的保留目标的运动特征和语义特征，降低了目标跟踪时对特征提取器的依赖，提升了目标被遮挡情况下的跟踪性能。

另外，根据本发明上述实施例的基于计算机视觉的目标跟踪方法，还可以具有如下附加的技术特征：

进一步地，在本发明的一个实施例中，所述跟踪框和所述目标区域均为矩形；

采用k邻域搜索算法，根据所述目标位置确定目标区域的步骤中，所述目标区域满足以下条件式：

H₁/W₁=H₂/W₂=k；

其中，H₁表示所述当前图像帧的上一图像帧对应的目标跟踪框的长，W₁表示所述当前图像帧的上一图像帧对应的目标跟踪框的宽，H₂表示所述当前图像帧对应的目标区域的长，W₂表示所述当前图像帧对应的目标区域的宽，k为预设的比例系数。

进一步地，在本发明的一个实施例中，k的取值范围为1＜k≤4。

进一步地，在本发明的一个实施例中，所述长短期记忆神经网络模型的表达式如下：

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

其中，h _t表示t时刻的输出值，o _t表示所述长短期记忆神经网络模型中神经元的输出门的表达式，tanh表示tanh激活函数，f _t表示所述长短期记忆神经网络模型中神经元的遗忘门的表达式，c _t-1表示t-1时刻的候选向量，i _t表示所述长短期记忆神经网络模型中神经元的输入门的表达式，W _o表示输出门的权重，h _t-1表示t-1时刻的输出值，x _t表示t时刻的输入值，b _o表示输出门的偏置参数。

进一步地，在本发明的一个实施例中，将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框的步骤包括：

将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以得到目标跟踪框的顶点预测坐标值；

获取目标跟踪框的顶点坐标参考标准值；

判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内；

若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内，则输出并显示目标跟踪框。

本发明的另一个实施例提出一种基于计算机视觉的目标跟踪系统，以解决现有技术中，当跟踪的目标尺寸较小，且目标被遮挡时，目标跟踪的效果较差的技术问题。

一种目标跟踪系统，包括：

获取检测模块，用于获取目标视频的当前图像帧，采用改进的卷积神经网络模型对所述当前图像帧进行检测，输出目标位置，所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量，所述特征融合层通过目标卷积核先对特征图进行降维，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测；

目标确定模块，用于采用k邻域搜索算法，根据所述目标位置确定目标区域；

特征提取模块，用于采用所述改进的卷积神经网络模型提取所述目标区域的目标特征，并将所述目标特征融合为特征图像，所述特征图像具有所述预设维度；

输入跟踪模块，用于将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框。

根据本发明实施例的目标跟踪系统，采用改进的卷积神经网络模型对所述当前图像帧进行检测，改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，不含全连接层，而使用全局平均池化的方式产生长度固定的特征向量，此外，增加了特征融合层，能够对不同粒度的特征进行了融合，提升了对输入图像尺寸的敏感性，解决了因目标过小，导致特征丢失的问题；此外，在改进的卷积神经网络模型的基础上，引入k邻域搜索算法快速根据目标位置确定目标区域，并利用长短期记忆神经网络模型对时序空间信息的表达能力，选择性的保留目标的运动特征和语义特征，降低了目标跟踪时对特征提取器的依赖，提升了目标被遮挡情况下的跟踪性能。

另外，根据本发明上述实施例的目标跟踪系统，还可以具有如下附加的技术特征：

所述目标确定模块采用k邻域搜索算法，根据所述目标位置确定目标区域的过程中，所述目标区域满足以下条件式：

H₁/W₁=H₂/W₂=k；

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

进一步地，在本发明的一个实施例中，所述输入跟踪模块具体用于：

获取目标跟踪框的顶点坐标参考标准值；

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实施例了解到。

附图说明

本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是根据本发明第一实施例的目标跟踪方法的流程图；

图2是图1中步骤S104的详细流程图；

图3是根据本发明第二实施例的目标跟踪系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明第一实施例提出的目标跟踪方法，所述方法包括步骤S101~S104：

S101，获取目标视频的当前图像帧，采用改进的卷积神经网络模型对所述当前图像帧进行检测，输出目标位置。

其中，现有技术中，一个完整的卷积神经网络模型通常由输入层、卷积层、池化层、全连接层和分类器组成，而本申请中改进的卷积神经网络模型删除了全连接层，并增加了特征融合层。

具体的，本申请中改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量，这使得多尺度训练的方式对模型进行训练成为可能，且提升了算法的鲁棒性和检测精度。

上述改进的卷积神经网络模型，相比传统的卷积神经网络模型，增加了特征融合层，所述特征融合层通过目标卷积核先对特征图进行降维，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测。在特征融合层中能够对不同粒度的特征进行融合，特征融合层通过目标卷积核先对特征图进行降维，目标卷积核是人工设置的、预设尺寸的卷积核，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测，例如生成16*16*2048维度的多粒度特征进行目标检测。

S102，采用k邻域搜索算法，根据所述目标位置确定目标区域。

其中，由于在目标跟踪过程中，被跟踪的目标的位置不会发生突变，相邻帧视频图像中目标的位置通常也相近。因此可以采用k邻域搜索算法，根据目标位置确定目标区域，本实施例中，所述跟踪框和所述目标区域均为矩形。

H₁/W₁=H₂/W₂=k；

具体实施时，可以根据实际的目标跟踪场景，设定k的值，来实现用户希望的目标区域的确定，优选的，k的取值范围为1＜k≤4，能够在保证较小计算量的前提下，确保目标跟踪的准确性。

S103，采用所述改进的卷积神经网络模型提取所述目标区域的目标特征，并将所述目标特征融合为特征图像，所述特征图像具有所述预设维度。

其中，采用步骤S101中提出的改进的卷积神经网络模型来提取目标区域的目标特征，并将所述目标特征融合为具有所述预设维度的特征图像。

S104，将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框。

其中，所述长短期记忆神经网络模型的表达式如下：

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

此外，请参阅图2，步骤S104，将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框的步骤包括步骤S1041~S1044：

S1041，将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以得到目标跟踪框的顶点预测坐标值。

S1042，获取目标跟踪框的顶点坐标参考标准值。

S1043，判断所述顶点预测坐标值与所述顶点坐标参考标准值的差值是否在预设范围内。

S1044，若所述顶点预测坐标值与所述顶点坐标参考标准值的差值在预设范围内，则输出并显示目标跟踪框。

应当理解的，若顶点预测坐标值与所述顶点坐标参考标准值的差值超出了预设范围，则需要返回步骤S103重新进行目标特征的提取。

综上，根据本发明实施例的目标跟踪方法，采用改进的卷积神经网络模型对所述当前图像帧进行检测，改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，不含全连接层，而使用全局平均池化的方式产生长度固定的特征向量，此外，增加了特征融合层，能够对不同粒度的特征进行了融合，提升了对输入图像尺寸的敏感性，解决了因目标过小，导致特征丢失的问题；此外，在改进的卷积神经网络模型的基础上，引入k邻域搜索算法快速根据目标位置确定目标区域，并利用长短期记忆神经网络模型对时序空间信息的表达能力，选择性的保留目标的运动特征和语义特征，降低了目标跟踪时对特征提取器的依赖，提升了目标被遮挡情况下的跟踪性能。

请参阅图3，基于同一发明构思，本发明第二实施例提出的目标跟踪系统，包括：

本实施例中，所述跟踪框和所述目标区域均为矩形；

H₁/W₁=H₂/W₂=k；

本实施例中，k的取值范围为1＜k≤4。

本实施例中，所述长短期记忆神经网络模型的表达式如下：

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

本实施例中，所述输入跟踪模块具体用于：

获取目标跟踪框的顶点坐标参考标准值；

此外，本发明的实施例还提出一种可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现上述方法的步骤。

此外，本发明的实施例还提出一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法的步骤。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于计算机视觉的目标跟踪方法，其特征在于，所述方法包括：

获取目标视频的当前图像帧以及当前图像帧的上一帧图像帧，采用改进的卷积神经网络模型对所述当前图像帧的上一帧图像帧进行检测，输出当前图像帧的上一帧图像帧的目标位置，所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量，所述特征融合层通过目标卷积核先对特征图进行降维，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测；

采用k邻域搜索算法，基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域；

将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框；

其中，所述跟踪框和所述目标区域均为矩形；

采用k邻域搜索算法，基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域的步骤中，所述目标区域满足以下条件式：

H₁/W₁=H₂/W₂=k；

2.根据权利要求1所述的基于计算机视觉的目标跟踪方法，其特征在于，k的取值范围为1＜k≤4。

3.根据权利要求1所述的基于计算机视觉的目标跟踪方法，其特征在于，所述长短期记忆神经网络模型的表达式如下：

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

4.根据权利要求1所述的基于计算机视觉的目标跟踪方法，其特征在于，将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框的步骤包括：

获取目标跟踪框的顶点坐标参考标准值；

5.一种基于计算机视觉的目标跟踪系统，其特征在于，所述系统包括：

获取检测模块，用于获取目标视频的当前图像帧以及当前图像帧的上一帧图像帧，采用改进的卷积神经网络模型对所述当前图像帧的上一帧图像帧进行检测，输出当前图像帧的上一帧图像帧的目标位置，所述改进的卷积神经网络模型由输入层、卷积层、池化层、分类器、特征融合层组成，所述改进的卷积神经网络模型使用全局平均池化的方式产生预设尺寸的特征向量，所述特征融合层通过目标卷积核先对特征图进行降维，再将不同特征图在通道上进行叠加，以生成预设维度的多粒度特征进行目标检测；

目标确定模块，用于采用k邻域搜索算法，基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域；

输入跟踪模块，用于将所述特征图像作为长短期记忆神经网络模型的输入，通过所述长短期记忆神经网络模型对所述特征图像中目标跟踪框的坐标进行回归，以输出并显示目标跟踪框；

其中，所述跟踪框和所述目标区域均为矩形；

所述目标确定模块采用k邻域搜索算法，基于当前图像帧的上一帧图像帧的目标位置确定当前图像帧的目标区域的过程中，所述目标区域满足以下条件式：

H₁/W₁=H₂/W₂=k；

6.根据权利要求5所述的基于计算机视觉的目标跟踪系统，其特征在于，k的取值范围为1＜k≤4。

7.根据权利要求5所述的基于计算机视觉的目标跟踪系统，其特征在于，所述长短期记忆神经网络模型的表达式如下：

h _t=o _t*tanh(f _t*c _t-1+i _t*tanh(W _o*[h _t-1, x _t]+b _o))

8.根据权利要求5所述的基于计算机视觉的目标跟踪系统，其特征在于，所述输入跟踪模块具体用于：

获取目标跟踪框的顶点坐标参考标准值；