CN108230354A

CN108230354A - 目标跟踪、网络训练方法、装置、电子设备和存储介质

Info

Publication number: CN108230354A
Application number: CN201710352230.8A
Authority: CN
Inventors: 任思捷; 陈晓濠; 刘建博; 于志洋; 孙文秀; 严琼; 张瑞; 戴宇荣
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2018-06-29
Anticipated expiration: 2037-05-18
Also published as: CN108230354B

Abstract

本发明实施例提供了一种目标跟踪、网络训练方法、装置、电子设备和存储介质，其中，所述目标跟踪方法包括：基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。由于上述在目标预测过程中得到的位置信息可直接用于目标跟踪，因此，本发明实施例降低了目标跟踪的计算量，提高了目标跟踪的效率。

Description

目标跟踪、网络训练方法、装置、电子设备和存储介质

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种目标跟踪方法、装置和一种神经网络训练方法、装置以及电子设备和计算机可读存储介质。

背景技术

在计算机视觉研究中，目标跟踪是指给出目标在跟踪视频某帧中的初始状态(如位置，尺寸)，自动估计目标在后续帧中的状态。其中，目标可以为物体、人体等。目标跟踪在很多实际工业场景中有着广泛的应用价值，如安防监控、自助辅助驾驶和机器人导航等。

发明内容

本发明实施例提供了目标跟踪技术方案。

根据本发明实施例的第一方面，提供了一种目标跟踪方法，包括：基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

可选地，所述预测结果评价检测包括：预测结果准确性检测，和/或，预测结果错误代价检测。

可选地，对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，包括：针对所述至少部分目标预测区域中的每个目标预测区域，分别检测每个目标预测区域的第一损失代价信息和第二损失代价信息；其中，所述第一损失代价信息表征将目标预测区域预测为包括所述目标的区域的预测结果准确性以及预测结果错误代价，所述第二损失代价信息表征将目标预测区域预测为包括所述目标的最小外包矩形的预测结果准确性以及预测结果错误代价。

可选地，所述神经网络包括第一卷积神经网络。

可选地，在所述基于神经网络对视频图像进行目标预测之前，所述方法还包括：根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到所述第一卷积神经网络。

可选地，根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，包括：删除所述第二卷积神经网络中至少部分用于进行下采样的结构，和/或，减小所述第二卷积神经网络中与下采样相关的参数，得到所述待训练的第一卷积神经网络。

可选地，所述用于进行下采样的结构包括池化层；和/或，所述与下采样相关的参数包括卷积层的步长。

可选地，删除的所述池化层包括位于所述待训练的第一卷积神经网络浅层的至少一池化层，和/或，步长减小的所述卷积层包括位于所述待训练的第一卷积神经网络浅层的至少一卷积层。

根据本发明实施例的第二方面，还提供了一种神经网络训练方法，包括：根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

可选地，删除的所述池化层包括位于所述待训练的第一神经网络浅层的至少一池化层，和/或，步长减小的所述卷积层包括位于所述待训练的第一神经网络浅层的至少一卷积层。

根据本发明实施例的第三方面，还提供了一种目标跟踪装置，包括：目标预测模块，用于基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；评价检测模块，用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；区域确定模块，用于确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；目标跟踪模块，用于在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

可选地，所述评价检测模块，包括：准确性检测子模块，用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果准确性检测，和/或，错误代价检测子模块，用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果错误代价检测。

可选地，所述评价检测模块，用于针对所述至少部分目标预测区域中的每个目标预测区域，分别检测每个目标预测区域的第一损失代价信息和第二损失代价信息；其中，所述第一损失代价信息表征将目标预测区域预测为包括所述目标的区域的预测结果准确性以及预测结果错误代价，所述第二损失代价信息表征将目标预测区域预测为包括所述目标的最小外包矩形的预测结果准确性以及预测结果错误代价。

可选地，所述神经网络包括第一卷积神经网络。

可选地，所述装置还包括：网络构建模块，用于在所述目标预测模块基于神经网络对视频图像进行目标预测之前，根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；网络调整模块，用于基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到所述第一卷积神经网络。

可选地，所述网络构建模块，包括：结构删除子模块，用于删除所述第二卷积神经网络中至少部分用于进行下采样的结构，和/或，参数减小子模块，用于减小所述第二卷积神经网络中与下采样相关的参数，得到所述待训练的第一卷积神经网络。

根据本发明实施例的第四方面，还提供了一种神经网络训练装置，包括：网络构建模块，用于根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；网络调整模块，用于基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

根据本发明实施例的第五方面，还提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的目标跟踪方法对应的操作。

根据本发明实施例的第六方面，还提供了一种电子设备，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第二方面所述的神经网络训练方法对应的操作。

根据本发明实施例的第七方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域的可执行指令；用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测的可执行指令；用于确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域的可执行指令；用于在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪的可执行指令。

根据本发明实施例的第八方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有：用于根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络的可执行指令，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；用于基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络的可执行指令。

根据本发明实施例提供的技术方案，基于神经网络对视频图像进行目标预测，实现区分视频图像中的目标和背景，得到视频图像中的多个目标预测区域。进而对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域，其中，满足设定条件的目标预测区域可以理解为准确度较高的目标预测区域。在得到准确度较高的目标跟踪区域之后，可以在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪，目标预测区域的位置信息可以包括坐标点信息、像素点信息等等，得到目标预测区域的位置信息即确定目标在视频图像中的具体状态(如位置、尺寸)。本发明实施例通过目标预测和预测结果评价检测相结合，在得到视频图像的多个目标预测区域之后，进行预测结果评价检测得到满足设定条件的目标预测区域，直接利用目标预测得到的图像特征确定目标预测区域，进而得到满足设定条件的目标预测区域，再根据满足设定条件的目标预测区域的位置信息进行目标跟踪，由于上述在目标预测过程中得到的位置信息可直接用于目标跟踪，因此降低了目标跟踪的计算量，提高了目标跟踪的效率。

附图说明

图1是根据本发明实施例一的目标跟踪方法的步骤流程图；

图2是根据本发明实施例二的目标跟踪方法的步骤流程图；

图3是根据本发明实施例二的目标跟踪方法中的ZF网络的结构示意图；

图4是根据本发明实施例二的目标跟踪方法中的RPN的结构示意图；

图5是根据本发明实施例三的神经网络训练方法的步骤流程图；

图6是根据本发明实施例四的目标跟踪装置的结构框图；

图7是根据本发明实施例五的目标跟踪装置的结构框图；

图8是根据本发明实施例六的神经网络训练装置的结构框图；

图9是根据本发明实施例七的电子设备的结构示意图；

图10是根据本发明实施例八的电子设备的结构示意图。

具体实施方式

下面结合附图(若干附图中相同的标号表示相同的元素)和实施例，对本发明实施例的具体实施方式作进一步详细说明。以下实施例用于说明本发明，但不用来限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

实施例一

参照图1，示出了根据本发明实施例一的目标跟踪方法的步骤流程图。

本实施例的目标跟踪方法包括以下步骤：

步骤S100、基于神经网络对视频图像进行目标预测，得到视频图像中的多个目标预测区域。

本实施例中的神经网络可以是已训练完毕的、用于预测视频图像中的目标区域的神经网络(所述神经网络包括但不限于卷积神经网络、递归神经网络、全连接神经网络等)，通过神经网络可以区分视频图像中的目标和背景，本实施例中，基于神经网络对视频图像进行目标预测，主要得到视频图像中的多个目标预测区域。

本实施例中，视频图像可以是来源于图像采集设备的视频图像，由一帧一帧的图像组成，也可以为单独的一帧图像或者一幅图像，还可以来源于其他设备。

步骤S102、对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测。

本实施例中，可以对多个目标预测区域中的全部目标预测区域进行预测结果评价检测，也可以对多个目标预测区域中的部分目标预测区域进行预测结果评价检测，即对多个目标预测区域进行全部检测和抽样检测。若对多个目标预测区域进行抽样检测，可以提升目标在线跟踪的速度。

步骤S104、确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域。

本实施例中的设定条件可以与上述步骤S102中的预测结果评价检测相关联，上述步骤S102进行预测结果评价检测的主要目的是确定满足设定条件的目标预测区域。本实施例中的设定条件可以根据实际情况进行设定，本实施例对设定条件的内容不做具体限制。

步骤S106、在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

本实施例中，目标预测区域的位置信息可以包括但不限于像素点信息和/或坐标点信息。上述步骤S100中得到多个目标预测区域，即得到多个目标预测区域的位置信息。利用目标预测区域的位置信息即可确定目标预测区域在视频图像中的具体位置，本实施例对根据目标预测区域的位置信息进行目标跟踪的技术手段不做限制。

通过本实施例提供的目标跟踪方法，基于神经网络对视频图像进行目标预测，实现区分视频图像中的目标和背景，得到视频图像中的多个目标预测区域。进而对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域，其中，满足设定条件的目标预测区域可以理解为准确度较高的目标预测区域。在得到准确度较高的目标跟踪区域之后，可以在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪，目标预测区域的位置信息可以包括坐标点信息、像素点信息等等，得到目标预测区域的位置信息即确定目标在视频图像中的具体状态(如位置、尺寸)。本实施例通过目标预测和预测结果评价检测相结合，在基于神经网络得到视频图像的多个目标预测区域之后，进行预测结果评价检测得到满足设定条件的目标预测区域，与现有的基于深度学习的目标跟踪方法相比，直接利用目标预测得到的图像特征确定目标预测区域，进而得到满足设定条件的目标预测区域，再根据满足设定条件的目标预测区域的位置信息进行目标跟踪，由于上述在目标预测过程中得到的位置信息可直接用于目标跟踪，因此降低了目标跟踪的计算量，提高了目标跟踪的效率。

实施例二

参照图2，示出了根据本发明实施例二的目标跟踪方法的步骤流程图。

本实施例在上述实施例的基础上，强调与上述实施例的不同之处，相同之处可以参照上述实施例中的介绍和说明。

经典的目标跟踪方法可以被分为产生式(generative model)和判别式(discriminative model)两大类别。产生式方法运用生成模型描述目标的表观特征，之后通过搜索候选目标来最小化重构误差。比较有代表性的算法有稀疏编码(sparse coding)，在线密度估计(online density estimation)和主成分分析(Principal ComponentAnalysis，PCA)等。产生式方法着眼于对目标本身的刻画，忽略背景信息，在目标自身变化剧烈或者被遮挡时容易产生漂移。与之相对的，判别式方法通过训练分类器来区分目标和背景。近年来，各种机器学习算法被应用在判别式方法上，其中比较有代表性的有多示例学习方法(multiple instance learning)，Boosting(一种提高任意给定学习算法准确度的方法)和结构支持向量机(structured Support Vector Machine)等。判别式方法因为显著区分背景和目标的信息，表现更为鲁棒，逐渐在目标跟踪方法占据主流地位。本实施例中的目标跟踪方法属于判别式方法。

本实施例的目标跟踪方法包括以下步骤：

步骤S200、根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络。

本实施例中，第一神经网络可以包括：输入层、特征提取层和分类层。输入层用于输入视频图像，特征提取层用于对视频图像进行特征提取，然后将提取得到的特征通过分类层进行分类得到目标预测区域。在一种可选的实施方式中，第一神经网络可以为卷积神经网络，例如可采用但不限于蔡勒和费格斯模型(Zeiler and Fergus model，ZF)-区域方案网络(Region Proposal Networks，RPN)，如图3和图4所示，图3为ZF网络的结构示意图，图4为RPN的结构示意图。在图3中，输入的视频图像(Input Image)的大小是224*224*3，第一个卷积层的卷积核的维度是7*7*3*96，第一个卷积层的卷积结果是110*110*96，然后做一次池化，得到第一个池化层，第一个池化层的池化核大小是3*3，池化后视频图像的维度是55*55*96。然后是再一次卷积，这次的卷积核的维度是5*5*96*256，得到第二个卷积层的卷积结果是26*26*256，以此类推，直到第五个卷积层，最后将第五个卷积层的输出结果13*13*256送给RPN，第六层和第七层以及输出层(Output)实现视频图像中的目标和背景分类，第六层和第七层均设置4096个神经元，也可以根据实际情况设置其他神经元数量，本实施例中采用C类分类输出函数输出目标和背景的分类结果。在图4中，卷积特征图(convfeature map)的维度是13*13*256，滑动窗口(sliding window)的大小是3*3，滑动窗口可以用k个锚箱(anchor boxes)填充，经过中间层(intermediate layer)得到256-d的特征向量。本实施例中，k＝1(k体现目标的长宽比和尺寸大小的种类，k＝1表示只有一种长宽比：1：1和一种尺寸大小)，所以分类层(box-classification layer，cls layer)是2个输出节点，在256-d的特征向量和cls layer之间使用一个1*1*256*2的卷积核，就可以得到分类层的输出结果。回归层(box-regression layer，reg layer)与分类层的情况相似，回归层的输出是4个输出节点，所以对应的卷积核是1*1*256*4，可以得到回归层的输出结果。本实施例中，第二卷积神经网络也可以包括但不限于ZF-RPN。可以理解，上述卷积神经网络的结构仅为可选例子，不应理解为对本发明技术方案实质的限制。

第二卷积神经网络训练用的样本图像的分辨率大于待训练的第一卷积神经网络训练用的样本图像的分辨率，第一卷积神经网络可以理解为经过压缩处理，但尽量不损失预测精度的第二卷积神经网络，利用第一卷积神经网络可以快速、准确地实现第二卷积神经网络的功能。训练第一卷积神经网络的目的主要是将基于大分辨率样本训练得到的第二卷积神经网络的网络性能迁移到基于小分辨率样本训练得到的卷积神经网络中。在第一卷积神经网络的训练过程中，可以采用老师-学生的训练方法，从大的第二卷积神经网络中训练得到一个小的第一卷积神经网络。

由于训练好的第一卷积神经网络主要面向相对第二卷积神经网络而言较小分辨率输入图像的处理应用，因此，可基于第二卷积神经网络进行简化网络结构的构建，以更好满足应用需求。采用该方案进行神经网络的构建，是在迁移第二卷积神经网络主体结构的基础上，对部分下采样处理部分进行简化或删除。可选地，本步骤S200可以删除第二卷积神经网络中至少部分用于进行下采样的结构，和/或，减小第二卷积神经网络中与下采样相关的参数，得到待训练的第一卷积神经网络。其中，用于进行下采样的结构可以包括池化层；和/或，与下采样相关的参数可以包括卷积层的步长。本实施例对下采样的结构以及下采样相关的参数不做具体限制。一种可选的实施方式中，删除的池化层可以包括位于待训练的第一卷积神经网络浅层的至少一池化层，和/或，步长减小的卷积层可以包括位于待训练的第一卷积神经网络浅层的至少一卷积层。其中，待训练的第一卷积神经网络浅层可以理解为第一卷积神经网络的网络结构的中部以前的层，例如，第一个池化层、第一个卷积层，或者第一个和第二个池化层、第一个和第二个卷积层，本实施例对第一卷积神经网络浅层的层数不做限制。本实施例中，删除第一卷积神经网络浅层的池化层，和/或，减小第一卷积神经网络浅层的卷积层的步长，原因在于浅层的池化层和卷积层在下采样过程中的作用明显，删除第一卷积神经网络浅层的池化层，和/或，减小第一卷积神经网络浅层的卷积层的步长可以明显增加第一卷积神经网络的训练速度。

步骤S202、基于待训练的第一卷积神经网络训练用的样本图像、并以第二卷积神经网络的输出为指导信息，调整待训练的第一卷积神经网络的网络参数，以得到第一卷积神经网络。

本实施例中，基于待训练的第一卷积神经网络训练用的样本图像、并以第二卷积神经网络的输出为指导信息的目的主要是使得训练得到的第一卷积神经网络可以实现第二卷积神经网络的目标预测作用，且不损失第二卷积神经网络的目标预测的精度。可选地，在不改变第一卷积神经网络的网络架构的情况下，调整第一卷积神经网络的池化层和卷积层。

在训练第一卷积神经网络的过程中，越早调整池化层和卷积层，训练第一卷积神经网络的计算量越少，因此，本实施例可以选择第一卷积神经网络的网络结构中的浅层池化层和卷积层进行调整。

通常来说，在卷积神经网络的训练过程中，基于大尺寸样本图像(即支持大的输入图像)训练得到的卷积神经网络的性能更好，但速度较慢；基于小尺寸样本图像(即支持小尺寸的输入图像)训练得到的卷积神经网络的性能较差，但速度较快。本实施例将基于大尺寸样本图像训练卷积神经网络和基于小尺寸样本图像训练卷积神经网络综合起来考虑，目标是基于小尺寸样本图像训练得到的卷积神经网络的性能更好，且速度更快。本实施例中训练第一卷积神经网络可以包括如下两个关键步骤：

1、网络构建：先用大尺寸样本图像训练完毕一个第二卷积神经网络，在第二卷积神经网络的基础上去除下采样的部分功能(因为支持小尺寸的输入图像的卷积神经网络不需要很多下采样的功能)，进而构建好第一卷积神经网络。

2、指导训练：基于小尺寸样本图像训练第一卷积神经网络，在训练过程中，为了接近甚至达到第二卷积神经网络的性能，是以第二卷积神经网络对样本图像的检测输出结果为指导(也可以理解为监督)信息，来调整第一卷积神经网络的网络参数，使得第一卷积神经网络对同样样本图像的检测输出结果尽可能接近甚至相同于第二卷积神经网络的相应检测输出结果。

步骤S204、基于第一卷积神经网络对视频图像进行目标预测，得到视频图像中的多个目标预测区域。

本实施例中，除了基于第一卷积神经网络进行目标预测之外，还可以基于其他神经网络进行目标预测，例如，递归神经网络、全连接神经网络等等，本实施对神经网络的具体种类不做限制。

步骤S206、对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域。

本步骤S206中，为了提高确定目标预测区域的准确性，引入了准确性和/或错误代价等多重衡量要素，可选地，准确性衡量要素相关的评价检测包括对多个目标预测区域中的至少部分目标预测区域进行预测结果准确性检测，和/或，错误代价衡量要素相关的评价检测包括预测结果错误代价检测。本实施例中，预测结果准确性检测和预测结果错误代价检测可以是多样的、灵活的，可以根据具体实际需要而定，本实施例对预测结果准确性检测和预测结果错误代价检测所采用的具体技术手段不做限制。一种可选的实施方式中，针对至少部分目标预测区域中的每个目标预测区域，分别检测每个目标预测区域的第一损失代价信息和第二损失代价信息。其中，第一损失代价信息表征将目标预测区域预测为包括目标的区域的预测结果准确性以及预测结果错误代价，第二损失代价信息表征将目标预测区域预测为包括目标的最小外包矩形的预测结果准确性以及预测结果错误代价。例如，可以采用损失代价函数对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测。其中，损失代价函数用于衡量目标预测区域是否为一个目标的分类和目标预测区域是否为最小外包矩形的分类的损失，以及目标预测区域是否为一个目标的分类出错和目标预测区域是否为最小外包矩形的分类出错的代价，可选地，损失代价函数可以由两个分类损失函数以及各自的平衡变量组成，损失代价函数可以为：

其中，L_RPN2T表示损失代价值，即设定条件，a_i表示目标预测区域i是一个目标的预测概率，a_i ^*是目标预测区域i的标签。q_i表示最小外包矩形的预测概率，q_i ^*是最小外包矩形的真实数据。L_cls是分类损失函数。α和β是两个变量，分别用于平衡两个分类损失函数。

可以理解，上述分类损失函数仅为一个例子，不应作为对本发明技术方案实质的限定。在本发明公开的技术方案的启示下，本领域技术人员可以构建出满足评价检测所需的其他形式的损失函数。

可选地，本实施例中的损失代价函数可以接在图3中的输出层之后，对多个目标预测区域进行抽样检测，若某目标预测区域经过损失代价函数抽样检测后得到的损失代价值满足设定条件，例如在0～0.5之间，则可以确定该目标预测区域为满足设定条件的目标预测区域。

步骤S208、在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

在包括视频图像的视频帧序列中，可以存在多个与视频图像相近或相似的其他视频图像，可以针对视频帧序列中的任一视频图像进行目标跟踪，若被跟踪的目标出现在连续的视频图像中，则可以确定连续的目标跟踪结果。

根据本实施例提供的目标跟踪方法，预先根据已训练完成的第二卷积神经网络构建第一卷积神经网络，并对第一卷积神经网络进行指导训练，使得第一卷积神经网络的目标预测准确性与第二卷积神经网络相比损失较小甚至没有损失，即达到或基本达到第二卷积神经网络的准确性的前提下，从大的第二卷积神经网络中训练得到一个小且高效的第一卷积神经网络。基于第二卷积神经网络构建并指导训练第一卷积神经网络，相当于对第二卷积神经网络进行压缩，相比于直接训练第一卷积神经网络，既能提高速度又能保证准确性。

采用第一卷积神经网络对视频图像进行目标预测，实现区分视频图像中的目标和背景，得到视频图像中的多个目标预测区域。进而利用损失代价函数对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，得到满足设定条件的目标预测区域，其中，满足设定条件的目标预测区域可以理解为准确度较高的目标预测区域。在得到准确度较高的目标跟踪区域之后，可以在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪，目标预测区域的位置信息可以包括坐标点信息、像素点信息等等，得到目标预测区域的位置信息即确定目标在视频图像中的具体状态(如位置、尺寸)。

本实施例对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测时，引入了准确性和错误代价的双重衡量要素，提高了目标预测区域确定的准确性。

本实施例提出了一种同时考虑目标、背景分类准确度以及目标预测区域的位置信息的质量的损失代价函数，利用损失代价函数对目标预测区域进行预测结果评价检测，确定满足设定条件的目标预测区域，进而根据满足设定条件的目标预测区域的位置信息进行目标跟踪，实现鲁棒的目标跟踪方法。

本实施例通过高效的第一卷积神经网络和损失代价函数相结合，在采用第一卷积神经网络得到视频图像的多个目标预测区域之后，直接利用损失代价函数进行预测结果评价检测得到满足设定条件的目标预测区域，直接利用目标预测得到的图像特征确定目标预测区域，进而得到满足设定条件的目标预测区域，再根据满足设定条件的目标预测区域的位置信息进行目标跟踪，由于上述在目标预测过程中得到的位置信息可直接用于目标跟踪，因此降低了目标跟踪的计算量，提高了目标跟踪的效率。

本实施例可以应用在自助辅助驾驶场景中，通过对目标物体或者目标行人进行跟踪，实现避障功能；还可以应用在机器人导航场景中，实现机器人的行走跟踪；也可以应用在安防监控场景中，提高监控效果。

实施例三

参照图5，示出了根据本发明实施例三的神经网络训练方法的步骤流程图。

本实施例的神经网络训练方法包括如下步骤。

步骤S500、根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络。

本实施例中，第二卷积神经网络训练用的样本图像的分辨率大于待训练的第一卷积神经网络训练用的样本图像的分辨率，第一卷积神经网络可以理解为经过压缩处理，但不损失预测精度的第二卷积神经网络，利用第一卷积神经网络可以快速、准确地实现第二卷积神经网络的功能。训练第一卷积神经网络的目的主要是减少第二卷积神经网络在对视频图像进行目标预测过程中的计算量。在第一卷积神经网络的训练过程中，可以采用老师-学生的训练方法，从大的第二卷积神经网络中训练得到一个小的第一卷积神经网络。

可选地，本步骤S500可以删除第二卷积神经网络中至少部分用于进行下采样的结构，和/或，减小第二卷积神经网络中与下采样相关的参数，得到待训练的第一卷积神经网络。其中，用于进行下采样的结构可以包括池化层；和/或，与下采样相关的参数可以包括卷积层的步长。本实施例对下采样的结构以及下采样相关的参数不做具体限制。一种可选的实施方式中，删除的池化层可以包括位于待训练的第一卷积神经网络浅层的至少一池化层，和/或，步长减小的卷积层可以包括位于待训练的第一卷积神经网络浅层的至少一卷积层。其中，待训练的第一卷积神经网络浅层可以理解为第一卷积神经网络的网络结构的中部以前的层，例如，第一个池化层、第一个卷积层，或者第一个和第二个池化层、第一个和第二个卷积层，本实施例对第一卷积神经网络浅层的层数不做限制。

步骤S502、基于待训练的第一卷积神经网络训练用的样本图像、并以第二卷积神经网络的输出为指导信息，调整待训练的第一卷积神经网络的网络参数，以得到第一卷积神经网络。

需要说明的是，本实施例中的步骤S500可以参照上述实施例二中的步骤S200中的介绍，本实施中的步骤S502可以参照上述实施例二中的步骤S202中的介绍，在此不再赘述。

根据本实施例提供的神经网络训练方法，根据已训练完成的第二卷积神经网络构建第一卷积神经网络，并对第一卷积神经网络进行指导训练，使得第一卷积神经网络的目标预测准确性与第二卷积神经网络相比损失较小甚至没有损失，即达到或基本达到第二卷积神经网络的准确性的前提下，从大的第二卷积神经网络中训练得到一个小且高效的第一卷积神经网络。基于第二卷积神经网络构建并指导训练第一卷积神经网络，相当于对第二卷积神经网络进行压缩，相比于直接训练第一卷积神经网络，既能提高速度又能保证准确性。

实施例四

参照图6，示出了根据本发明实施例四的目标跟踪装置的结构框图。

本实施例提供的目标跟踪装置包括：目标预测模块60，用于基于神经网络对视频图像进行目标预测，得到视频图像中的多个目标预测区域；评价检测模块61，用于对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；区域确定模块62，用于确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域；目标跟踪模块63，用于在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

本实施例的目标跟踪装置用于实现前述多个实施例中相应的目标跟踪方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例五

参照图7，示出了根据本发明实施例五的目标跟踪装置的结构框图。

本实施例提供的目标跟踪装置包括：目标预测模块70，用于基于神经网络对视频图像进行目标预测，得到视频图像中的多个目标预测区域；评价检测模块71，用于对多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；区域确定模块72，用于确定至少部分目标预测区域中检测结果满足设定条件的目标预测区域；目标跟踪模块73，用于在包括视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

可选地，评价检测模块71包括：准确性检测子模块710，用于对多个目标预测区域中的至少部分目标预测区域进行预测结果准确性检测，和/或，错误代价检测子模块711，用于对多个目标预测区域中的至少部分目标预测区域进行预测结果错误代价检测。

可选地，评价检测模块71，用于针对至少部分目标预测区域中的每个目标预测区域，分别检测每个目标预测区域的第一损失代价信息和第二损失代价信息；其中，第一损失代价信息表征将目标预测区域预测为包括目标的区域的预测结果准确性以及预测结果错误代价，第二损失代价信息表征将目标预测区域预测为包括目标的最小外包矩形的预测结果准确性以及预测结果错误代价。

可选地，神经网络包括第一卷积神经网络。

可选地，目标跟踪装置还包括：网络构建模块74，用于在目标预测模块70基于神经网络对视频图像进行目标预测之前，根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，第二卷积神经网络训练用的样本图像的分辨率大于待训练的第一卷积神经网络训练用的样本图像的分辨率；网络调整模块75，用于基于待训练的第一卷积神经网络训练用的样本图像、并以第二卷积神经网络的输出为指导信息，调整待训练的第一卷积神经网络的网络参数，以得到第一卷积神经网络。

可选地，网络构建模块74包括：结构删除子模块740，用于删除第二卷积神经网络中至少部分用于进行下采样的结构，和/或，参数减小子模块741，用于减小第二卷积神经网络中与下采样相关的参数，得到待训练的第一卷积神经网络。

可选地，用于进行下采样的结构包括池化层；和/或，与下采样相关的参数包括卷积层的步长。

可选地，删除的池化层包括位于待训练的第一神经网络浅层的至少一池化层，和/或，步长减小的卷积层包括位于待训练的第一神经网络浅层的至少一卷积层。

实施例六

参照图8，示出了根据本发明实施例六的神经网络训练装置的结构框图。

本实施例提供的神经网络训练装置包括：网络构建模块80，用于根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，第二卷积神经网络训练用的样本图像的分辨率大于待训练的第一卷积神经网络训练用的样本图像的分辨率；网络调整模块81，用于基于待训练的第一卷积神经网络训练用的样本图像、并以第二卷积神经网络的输出为指导信息，调整待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

可选地，网络构建模块80包括：结构删除子模块800，用于删除第二卷积神经网络中至少部分用于进行下采样的结构，和/或，参数减小子模块801，用于减小第二卷积神经网络中与下采样相关的参数，得到待训练的第一卷积神经网络。

本实施例的神经网络训练装置用于实现前述实施例中相应的神经网络训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。

实施例七

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图9，其示出了适于用来实现本发明实施例的目标跟踪装置的电子设备900的结构示意图：如图9所示，电子设备900包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)901，和/或一个或多个图像处理器(GPU)913等，处理器可以根据存储在只读存储器(ROM)902中的可执行指令或者从存储部分908加载到随机访问存储器(RAM)903中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件912和/或通信接口909。其中，通信组件912可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口909包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口909经由诸如因特网的网络执行通信处理。

处理器可与只读存储器902和/或随机访问存储器903中通信以执行可执行指令，通过通信总线904与通信组件912相连、并经通信组件912与其他目标设备通信，从而完成本发明实施例提供的任一项目标跟踪方法对应的操作，例如，基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

此外，在RAM903中，还可存储有装置操作所需的各种程序和数据。CPU901或GPU913、ROM902以及RAM903通过通信总线904彼此相连。在有RAM903的情况下，ROM902为可选模块。RAM903存储可执行指令，或在运行时向ROM902中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口905也连接至通信总线904。通信组件912可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口909。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

需要说明的，如图9所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图9的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

实施例八

本发明实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图10，其示出了适于用来实现本发明实施例的目标跟踪装置的电子设备1000的结构示意图：如图10所示，电子设备1000包括一个或多个处理器、通信元件等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)1001，和/或一个或多个图像处理器(GPU)1013等，处理器可以根据存储在只读存储器(ROM)1002中的可执行指令或者从存储部分1008加载到随机访问存储器(RAM)1003中的可执行指令而执行各种适当的动作和处理。通信元件包括通信组件1012和/或通信接口1009。其中，通信组件1012可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡，通信接口1009包括诸如LAN卡、调制解调器等的网络接口卡的通信接口，通信接口1009经由诸如因特网的网络执行通信处理。

处理器可与只读存储器1002和/或随机访问存储器1003中通信以执行可执行指令，通过通信总线1004与通信组件1012相连、并经通信组件1012与其他目标设备通信，从而完成本发明实施例提供的任一项神经网络训练方法对应的操作，例如，根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

此外，在RAM1003中，还可存储有装置操作所需的各种程序和数据。CPU1001或GPU1013、ROM1002以及RAM1003通过通信总线1004彼此相连。在有RAM1003的情况下，ROM1002为可选模块。RAM1003存储可执行指令，或在运行时向ROM1002中写入可执行指令，可执行指令使处理器执行上述通信方法对应的操作。输入/输出(I/O)接口1005也连接至通信总线1004。通信组件1012可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在通信总线链接上。

以下部件连接至I/O接口1005：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007；包括硬盘等的存储部分1008；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信接口1009。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1008。

需要说明的，如图10所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图10的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信元件可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明的保护范围。

特别地，根据本发明实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本发明实施例提供的方法步骤对应的指令，例如，根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。在这样的实施例中，该计算机程序可以通过通信元件从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器执行时，执行本发明实施例的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明实施例的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明实施例的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明实施例的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明实施例的方法的程序的记录介质。

本发明实施例的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式，很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种目标跟踪方法，其特征在于，包括：

基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；

对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；

确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；

在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

2.根据权利要求1所述的方法，其特征在于，所述预测结果评价检测包括：预测结果准确性检测，和/或，预测结果错误代价检测。

3.根据权利要求1所述的方法，其特征在于，对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测，包括：

针对所述至少部分目标预测区域中的每个目标预测区域，分别检测每个目标预测区域的第一损失代价信息和第二损失代价信息；其中，所述第一损失代价信息表征将目标预测区域预测为包括所述目标的区域的预测结果准确性以及预测结果错误代价，所述第二损失代价信息表征将目标预测区域预测为包括所述目标的最小外包矩形的预测结果准确性以及预测结果错误代价。

4.一种神经网络训练方法，其特征在于，包括：

根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；

基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

5.一种目标跟踪装置，其特征在于，包括：

目标预测模块，用于基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域；

评价检测模块，用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测；

区域确定模块，用于确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域；

目标跟踪模块，用于在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪。

6.一种神经网络训练装置，其特征在于，包括：

网络构建模块，用于根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；

网络调整模块，用于基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络。

7.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-3任一项所述的目标跟踪方法对应的操作。

8.一种电子设备，其特征在于，包括：处理器、存储器、通信元件和通信总线，所述处理器、所述存储器和所述通信元件通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求4所述的神经网络训练方法对应的操作。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有：

用于基于神经网络对视频图像进行目标预测，得到所述视频图像中的多个目标预测区域的可执行指令；

用于对所述多个目标预测区域中的至少部分目标预测区域进行预测结果评价检测的可执行指令；

用于确定所述至少部分目标预测区域中检测结果满足设定条件的目标预测区域的可执行指令；

用于在包括所述视频图像的视频帧序列中根据满足设定条件的目标预测区域的位置信息进行目标跟踪的可执行指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有：

用于根据已训练完成的第二卷积神经网络构建待训练的第一卷积神经网络的可执行指令，其中，所述第二卷积神经网络训练用的样本图像的分辨率大于所述待训练的第一卷积神经网络训练用的样本图像的分辨率；

用于基于所述待训练的第一卷积神经网络训练用的样本图像、并以所述第二卷积神经网络的输出为指导信息，调整所述待训练的第一卷积神经网络的网络参数，以得到训练完成的第一卷积神经网络的可执行指令。