CN108053423A

CN108053423A - 一种多目标动物跟踪方法及装置

Info

Publication number: CN108053423A
Application number: CN201711269761.7A
Authority: CN
Inventors: 孙龙清; 李玥; 邹远炳; 罗冰; 刘岩; 李亿杨
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2018-05-18

Abstract

本发明提供一种多目标动物跟踪方法及装置。所述方法包括：将原始的动物视频数据输入训练好的深度神经网络，获取所述动物视频数据对应的动物模型；所述训练好的深度神经网络包括多个卷积层、下采样层和特定分类层；利用所述动物模型对所述原始的动物视频数据中的多个目标动物进行跟踪。本发明针对传统目标跟踪方法存在跟踪精度低、遮挡时跟踪性能差等问题，通过训练好的深度神经网络进行动物视频数据中的多个目标动物进行跟踪，提高了跟踪系统的鲁棒性，具有一定的实用性。

Description

一种多目标动物跟踪方法及装置

技术领域

本发明涉及数字视频图像处理领域，更具体地，涉及一种多目标动物跟踪方法及装置。

背景技术

运动目标跟踪是机器视觉的热门课题，广泛应用于跟踪以给出养殖管理决策，基于图像处理的目标动物跟踪方法能够进一步提高动物行为视频分析的自动化程度。视觉目标跟踪研究的难点在于保证算法的鲁棒性和准确性，Mean Shift算法、卡尔曼滤波算法、粒子滤波算法、光流算法等都能在一定条件下有效地跟踪目标。但以上方法需要进行建模或进行复杂的滤波运算，增加了算法的时间复杂度，跟踪的实时性效果受到影响；当目标运动速度过快或遮挡较为严重时，传统目标跟踪算法往往会发生目标的定位偏差甚至丢失，没有解决在跟踪目标之间互遮挡时的可靠性和鲁棒性问题。

近年来发展起来的卷积神经网络是一种新的目标分类识别方法，具有大规模并行处理能力、良好的自适应性以及较强的学习能力，基于卷积神经网络的图像模式识别和运动目标检测在农业信息化领域的应用已经成为一个新的研究热点。Held等在深度置信网络方面的重大研究工作发表以来，深度学习作为机器学习的新方向，在人工智能领域许多重要问题上得到广泛应用；Zeiler等基于CNN提取特征，当直接使用深度学习模型进行在线跟踪时，存在运行速度慢、难以满足跟踪实时性要求的问题。

传统人工神经网络形式简单学习能力强，在可控环境中具有较为准确的跟踪结果，广泛用于目标识别和跟踪领域，但是以往神经网络模型多为浅层神经网络，产生大量训练样本，存在着需要大量数据训练、迭代运算时间长等不足。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的多目标动物跟踪方法及装置。

根据本发明的一个方面，提供一种多目标动物跟踪方法，包括：

将原始的动物视频数据输入训练好的深度神经网络，获取所述动物视频数据对应的动物模型；所述训练好的深度神经网络包括多个卷积层、下采样层和特定分类层；

利用所述动物模型对所述原始的动物视频数据中的多个目标动物进行跟踪。

根据本发明的另一个方面，还提供一种多目标动物跟踪装置，包括输入模块和跟踪模块；

所述输入模块，用于将原始的动物视频数据输入训练好的深度神经网络，获取所述动物视频数据对应的动物模型；所述训练好的深度神经网络包括多个卷积层、下采样层和特定分类层；

所述跟踪模块，用于利用所述动物模型对所述原始的动物视频数据中的多个目标动物进行跟踪。

本发明提出一种多目标动物跟踪方法，针对传统目标跟踪方法存在跟踪精度低、遮挡时跟踪性能差等问题，通过训练好的深度神经网络进行动物视频数据中的多个目标动物进行跟踪，提高了跟踪系统的鲁棒性，具有一定的实用性。

附图说明

图1为本发明实施例一种多目标动物跟踪方法流程示意图；

图2为本发明实施例所述深度神经网络的训练步骤示意图；

图3为本发明实施例一种多目标动物跟踪装置示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

针对动物视觉跟踪过程中普遍存在背景复杂、光线变化、目标遮挡等干扰，而现有跟踪算法抗干扰能力差、鲁棒性低的问题，本发明实施例利用视频中图像序列样本量充足这一特点，结合深度学习方法，提出一种自适应多特提征取的多目标动物跟踪方法。

图1为本发明实施例一种多目标动物跟踪方法流程示意图，如图1所示的多目标动物跟踪方法，包括：

S100，将原始的动物视频数据输入训练好的深度神经网络，获取所述动物视频数据对应的动物模型；所述训练好的深度神经网络包括多个卷积层、下采样层和特定分类层；

其中，所述卷积层用于特征图的卷积操作。具体做法是：以前一层的一个或多个特征图作为输入，将该输入与一个或多个卷积核进行卷积操作，产生一个或者多个输出。

所述下采样层用于对卷积层输出的特征图进行采样，以实现降维等作用。

所述特定分类层用于对输出结果进行分类，得到分类结果。

S200，利用所述动物模型对所述原始的动物视频数据中的多个目标动物进行跟踪。本实施例中的原始的动物视频数据是实时读取的动物视频数据。

本发明实施例提出一种多目标动物跟踪方法，针对传统目标跟踪方法存在跟踪精度低、遮挡时跟踪性能差等问题，通过训练好的深度神经网络进行动物视频数据中的多个目标动物进行跟踪，提高了跟踪系统的鲁棒性，具有一定的实用性。

本发明实施例所述多目标动物跟踪方法，可以用于跟踪各种家畜、家禽，包括猪、牛、羊、马、鸡、鸭等，但不限于上述；也可以用于跟踪其他环境下捕获的动物图像。

在一个可选的实施例中，通过以下步骤获取所述训练好的深度神经网络，如图2所示：

S101，获取训练样本集中的动物视频图像，并对所述动物视频图像中的目标动物进行标注，将标注后的动物视频图像作为训练数据；

本实施例训练样本集中包含足够的训练样本，每个训练样本为一个动物视频图像；可以通过人工对动物视频图像中的目标动物进行标注，将标注后的动物视频图像作为训练数据，可以提高跟踪的精度度。

S102，采用主成分分析PCA对训练数据进行降维处理，获取所述训练数据的主要特征；

S103，构建包括多个卷积层、下采样层和特定分类层的深度神经网络；

S104，采用所述深度神经网络对降维后的训练数据进行训练并更新所述深度神经网络的网络参数，所述网络参数包括卷积核参数和偏置参数。

本发明实施例通过主成分分析(PCA)技术提取动物主要特征，结合深度卷积神经网络对降维后的数据进行模型训练，对其重要的结构参数和训练策略进行优化和改进，建立基于卷积神经网络的动物跟踪模型。通过训练好的网络跟踪视频中目标动物，解决目前跟踪算法中普遍存在的可靠性与准确性差等问题，实现动物实际养殖环境下的多目标高精度的有效地跟踪。

在一个可选的实施例中，步骤S102中，所述采用主成分分析PCA对训练数据进行降维处理，获取所述训练数据的主要特征，具体包括：

利用所述训练数据的像素矩阵的均值向量对所述训练数据进行中心化处理，并计算中心化后的协方差矩阵；

对所述协方差矩阵进行特征分解，并按从大到小的顺序排序，获得所述训练数据的所有特征向量；

基于所述所有特征向量，获取前d个特征值所对应的特征子空间，并通过特征子空间投影获得图像特征向量；其中，所述前d个特征值之和与所有特征向量之和的比值大于或等于预设比值。

基于上述实施例，所述利用所述训练数据的像素矩阵的均值向量对所述训练数据进行中心化处理，并计算中心化后的协方差矩阵，具体包括：

基于L个训练数据，将每一个N＝m×n维的训练数据的像素值构成一个矩阵X_m×n，并将所述矩阵X_m×n转换成一个列向量x_i，获得由列向量构成的训练样本集{x₁,x₂,...,x_L}；

利用列向量x_i的均值向量μ将L个训练数据对应的矩阵进行中心化，其中列向量x_i的均值向量μ通过下式获取：

利用下式计算中心化后的协方差矩阵S：

基于上述实施例，所述对所述协方差矩阵进行特征分解，并按从大到小的顺序排序，获得所述训练数据的所有特征向量，具体包括：

令A＝[x₁-μ,x₂-μ,...,x_L-μ]，其中x₁、x₂及x_L为所述训练样本集中的元素，μ为列向量x_i的均值向量，则协方差矩阵S＝AA^T；具体的，本实施例中所述协方差矩阵S的维数为N×N；

采用奇异值分解法求解AA^T，将求得的特征值λ按从大到小的顺序排列。

基于上述实施例，所述基于所述所有特征向量，获取前d个特征值所对应的特征子空间，并通过特征子空间投影获得图像特征向量，具体包括：

设前r个特征值之和与所有特征值之和的比值为Φ，计算公式为：

其中，λ_i为第i个特征值；

获取Φ大于所述预设比值的前d个特征值为λ_i(i＝1,...,d)，且λ₁≥λ₂≥...≥λ_d＞0，并获取对应的特征向量υ_i(i＝1,...,d)；具体的，所述预设比值可以根据实际需要而选取，本发明实施例对此不作限定。优选的，所述预设比值为90％，即Φ≥90％。

根据u₁,u₂,...,u_d构成一个特征子空间，通过特征子空间投影获得任一帧图像M的系数向量作为图像特征向量：

其中，u_i为AA^T的正交归一特征向量，A＝[x₁-μ,x₂-μ,...,x_L-μ]，x_L训练样本集的样本，μ为列向量x_i的均值向量。

在一个可选的实施例中，步骤S103，所述构建包括多个卷积层、下采样层和一个特定分类层的深度神经网络，其中卷积层的计算公式为：

式中，l为层数，和分别为当前层的特征图和上一层的特征图，表示从上一层第i个特征图到当前第j个特征图的卷积核，表示当前层第j个偏置，f(x)为神经元的激活函数；M_j为上一层的感受野。在卷积神经网络CNN中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野。

具体的，本实施例卷积层扮演特征提取器的角色，前一层的输出经过大小固定的卷积操作得到卷积层的输出。

具体的，本实施例选取较为常用的S型函数(sigmoid)作为神经元的激活函数，其表达式为：

所述下样层计算公式为：

式中，s×s是下采样模板尺度，为模板的权值。

本实施例中，当通过卷积核处理视频图像后，得到的特征图通过下采样的方法进行降维，减小了来自卷积层的计算复杂度，并且下采样层神经元具有平移不变性，增强了网络对输入图像的鲁棒性。为了保留更多纹理等信息，本实施例采用最大值下采样方法进行特征图进行降维，如上式。

所述深度神经网络还包括全连接输出层，所述全连接输出层的输出结果为：

式中，为输出节点值，为当前层模板的卷积核，为输出层偏置。

本实施例的全连接指上一层的任何一个神经元与下一层的所有神经元都有连接，通过这种方式全连接相当于训练了一个多分类的分类器，学习了目标的全局特征。具体的，本实施例采用softmax函数作为多分类器。

在一个可选的实施例中，所述采用所述深度神经网络对降维后的训练数据进行训练并更新网络参数，所述网络参数包括卷积核参数和偏置参数，具体包括：

按批次读取降维后的训练数据，依次将所有批次的训练数据输入所述深度神经网络进行训练；

计算训练过程中的损失误差，并根据所述损失误差更新所述深度神经网络的卷积核参数和偏置参数。

本发明实施例卷积核的更新问题关系到跟踪的准确性，在目标跟踪中非常重要。卷积神经网络的学习过程就是根据训练数据来调整神经元之间的连接权重以及每个功能神经元的偏置，也就是神经网络学到的东西，蕴含在连接权重与偏置中。

具体的，所述卷积核参数和偏置参数通过下式表示：

式中，w^l和b^l分别为第l层的卷积核和偏置，Δw^l和Δb^l分别由前向传播算法计算得到，α和β为学习率，m表示第l层神经元的个数。优选的，学习率α和β可以设置为0.01。

图3为本发明实施例一种多目标动物跟踪装置示意图，如图3所示的多目标动物跟踪装置，包括输入模块和跟踪模块；

所述输入模块，用于将原始的动物视频数据输入训练好的深度神经网络，获取所述动物视频数据对应的动物模型；所述训练好的深度神经网络包括多个卷积层、下采样层和一个特定分类层；

本发明实施例的装置，可用于执行图1所示的多目标动物跟踪方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多目标动物跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过以下步骤获取所述训练好的深度神经网络：

获取训练样本集中的动物视频图像，并对所述动物视频图像中的目标动物进行标注，将标注后的动物视频图像作为训练数据；

采用主成分分析PCA对训练数据进行降维处理，获取所述训练数据的主要特征；

构建包括多个卷积层、下采样层和特定分类层的深度神经网络；

采用所述深度神经网络对降维后的训练数据进行训练并更新所述深度神经网络的网络参数，所述网络参数包括卷积核参数和偏置参数。

3.根据权利要求2所述的方法，其特征在于，所述采用主成分分析PCA对训练数据进行降维处理，获取所述训练数据的主要特征，具体包括：

基于所述所有特征向量，获取前d个特征值所对应的特征子空间，并通过特征子空间投影获得图像特征向量；

其中，所述前d个特征值之和与所有特征向量之和的比值大于或等于预设比值。

4.根据权利要求3所述的方法，其特征在于，所述利用所述训练数据的像素矩阵的均值向量对所述训练数据进行中心化处理，并计算中心化后的协方差矩阵，具体包括：

<mrow> <mi>&mu;</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mi>L</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>;</mo> </mrow>

利用下式计算中心化后的协方差矩阵S：

<mrow> <mi>S</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>L</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>&mu;</mi> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>.</mo> </mrow>

5.根据权利要求4所述的方法，其特征在于，所述对所述协方差矩阵进行特征分解，并按从大到小的顺序排序，获得所述训练数据的所有特征向量，具体包括：

令A＝[x₁-μ,x₂-μ,...,x_L-μ]，其中x₁、x₂及x_L为所述训练样本集中的元素，μ为列向量x_i的均值向量，则协方差矩阵S＝AA^T；

6.根据权利要求5所述的方法，其特征在于，所述基于所述所有特征向量，获取前d个特征值所对应的特征子空间，并通过特征子空间投影获得图像特征向量，具体包括：

其中，λ_i为第i个特征值；

获取Φ大于所述预设比值的前d个特征值为λ_i(i＝1,...,d)，且λ₁≥λ₂≥...≥λ_d＞0，并获取对应的特征向量υ_i(i＝1,...,d)；

<mrow> <mover> <mi>M</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>u</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>u</mi> <mn>2</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>u</mi> <mi>d</mi> </msub> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mi>M</mi> <mo>;</mo> </mrow>

其中，A＝[x₁-μ,x₂-μ,...,x_L-μ]，x_L训练样本集的样本，μ为列向量x_i的均值向量。

7.根据权利要求2所述的方法，其特征在于，所述构建包括多个卷积层、下采样层和一个特定分类层的深度神经网络，其中卷积层的计算公式为：

<mrow> <msubsup> <mi>x</mi> <mi>j</mi> <mi>l</mi> </msubsup> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>&Element;</mo> <msub> <mi>M</mi> <mi>j</mi> </msub> </mrow> </munder> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>&times;</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mi>l</mi> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

式中，l为层数，和分别为当前层的特征图和上一层的特征图，表示从上一层第i个特征图到当前第j个特征图的卷积核，表示当前层第j个偏置，f(x)为神经元的激活函数，M_j为上一层的感受野；

所述下样层计算公式为：

<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>=</mo> <mi>g</mi> <mrow> <mo>(</mo> <msubsup> <mi>k</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>&times;</mo> <mfrac> <mn>1</mn> <msup> <mi>s</mi> <mn>2</mn> </msup> </mfrac> <munder> <mo>&Sigma;</mo> <mrow> <mi>s</mi> <mo>&times;</mo> <mi>s</mi> </mrow> </munder> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>l</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>+</mo> <msubsup> <mi>b</mi> <mi>i</mi> <mi>l</mi> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

式中，s×s是下采样模板尺度，为模板的权值。

<mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>=</mo> <mi>s</mi> <mrow> <mo>(</mo> <munder> <mo>&Sigma;</mo> <mrow> <mo>&ForAll;</mo> <mi>i</mi> </mrow> </munder> <mo>(</mo> <mrow> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mo>&times;</mo> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> </mrow> <mo>)</mo> <mo>+</mo> <msubsup> <mi>b</mi> <mi>j</mi> <mrow> <mi>o</mi> <mi>u</mi> <mi>t</mi> </mrow> </msubsup> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

8.根据权利要求2所述的方法，其特征在于，所述采用所述深度神经网络对降维后的训练数据进行训练并更新网络参数，所述网络参数包括卷积核参数和偏置参数，具体包括：

9.根据权利要求8所述的方法，其特征在于，所述卷积核参数和偏置参数通过下式表示：

<mrow> <msup> <mi>w</mi> <mi>l</mi> </msup> <mo>=</mo> <msup> <mi>w</mi> <mi>l</mi> </msup> <mo>-</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msup> <mi>&Delta;w</mi> <mi>l</mi> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mi>&beta;w</mi> <mi>l</mi> </msup> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

<mrow> <msup> <mi>b</mi> <mi>l</mi> </msup> <mo>=</mo> <msup> <mi>b</mi> <mi>l</mi> </msup> <mo>-</mo> <mi>&alpha;</mi> <mo>&lsqb;</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <msup> <mi>&Delta;b</mi> <mi>l</mi> </msup> <mo>&rsqb;</mo> <mo>;</mo> </mrow>

式中，w^l和b^l分别为第l层的卷积核和偏置，Δw^l和Δb^l分别由前向传播算法计算得到，α和β为学习率，m表示第l层神经元的个数。

10.一种多目标动物跟踪装置，其特征在于，包括输入模块和跟踪模块；