CN106874856A

CN106874856A - 一种目标跟踪状态模型训练方法及装置

Info

Publication number: CN106874856A
Application number: CN201710039530.0A
Authority: CN
Inventors: 谯帅; 彭莉; 张如高
Original assignee: BOCOM SMART NETWORK TECHNOLOGIES Inc
Current assignee: BOCOM SMART NETWORK TECHNOLOGIES Inc
Priority date: 2017-01-19
Filing date: 2017-01-19
Publication date: 2017-06-20

Abstract

本发明提供一种目标跟踪状态模型训练方法及装置，通过获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型；利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息；从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息；根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确；当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。该发明通过目标在不同状态下的已知轨迹信息不断更新所述跟踪状态模型，实现训练所述跟踪状态模型的目的，从而实现不同情况下自动对目标的跟踪状态进行转换。

Description

一种目标跟踪状态模型训练方法及装置

技术领域

本发明涉及目标跟踪技术领域，具体涉及一种目标跟踪状态模型训练方法及装置。

背景技术

目标跟踪技术在智能安防领域、车载辅助系统或者军事领域等都有着十分广泛的应用。目标跟踪技术通常先检测出目标，然后对检测出的目标进行跟踪。例如,在多目标跟踪过程中，需要对多个目标进行管理，由于每个目标都有各自的生存周期，即从目标出现到目标消失，每个目标在生命周期中正常跟踪状态与丢失状态如何进行正确转换，目标被遮挡或者在某一帧没有被检测到，以及每帧检测到的新目标如何与已有的跟踪目标进行关联。在目标跟踪过程中，出现目标交叉或粘连时容易发生目标合并以及目标间的漂移从而导致目标标识互换的情况；或者由于目标与背景的漂移导致假目标；或者当目标在快速运动时出现目标跟断的情况，或者在前后关联时同一目标没有关联上，又产生新的目标标识，导致同一目标出现两个目标标识的情况。

现有目标跟踪方法中对目标状态的管理，大多通过人工规则对目标状态进行处理，当遇到不同情况时设置不同的规则流程，对于上述目标跟踪过程中出现的较多复杂的实际情况，现有目标跟踪方法的准确度较低。

发明内容

本发明要解决的技术问题在于克服现有目标跟踪状态根据人工规则处理准确度较低的缺陷。

本发明提供一种目标跟踪状态模型训练方法，包括：

获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型；

利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息；

从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息；

根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确；

当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。

优选地，所述从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息，包括：

确定目标状态；

计算帧间相似性；

根据所述目标状态和所述帧间相似性，计算奖励值；

根据所述奖励值，选择具有最大奖励值的轨迹；

根据最大奖励值输出所述最大奖励值对应的轨迹信息。

优选地，所述确定目标状态，包括：

根据所述跟踪状态模型在不同状态下输出的轨迹信息，确定目标状态。

优选地，所述计算帧间相似性，包括：利用式(1)计算帧间相似性：

f(s)＝Wφ(s)+b (1)

式(1)中，s表示目标状态，φ(s)表示目标状态的向量，W和b为权重。

优选地，所述根据所述目标状态和所述帧间相似性，计算奖励值，包括：利用式(2)计算奖励值：

R(s,a)＝y(a)(Wφ(s)+b) (2)

式(2)中，a表示跟踪动作，y(a)表示跟踪动作a对应的权重系数。

本发明还提供一种目标跟踪状态模型训练装置，包括：

获取单元，用于获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型；

输出单元，用于利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息；

选择单元，用于从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息；

判断单元，用于根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确；

更新单元，用于当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。

优选地，所述选择单元包括：

状态确定子单元，用于确定目标状态；

相似性计算子单元，用于计算帧间相似性；

奖励值计算子单元，用于根据所述目标状态和所述帧间相似性，计算奖励值；

选择子单元，用于根据所述奖励值，选择具有最大奖励值的轨迹；

输出子单元，用于根据最大奖励值输出所述最大奖励值对应的轨迹信息。

优选地，所述确定目标状态，包括：

f(s)＝Wφ(s)+b (1)

R(s,a)＝y(a)(Wφ(s)+b) (2)

本发明技术方案，具有如下优点：

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一种目标跟踪状态模型训练方法的流程图；

图2为一种目标跟踪状态模型训练装置的示意图；

图3为目标跟踪状态转换的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种目标跟踪状态模型训练方法，该方法的流程图如图1所示。包括如下步骤：

S1：获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型。所述已知轨迹信息可以包括目标的轨迹位置和目标特征。所述目标的跟踪状态模型包括相似性方程和奖励函数。

具体地，所述不同状态可以包括假设状态、正常状态、丢失状态和删除状态。所述假设状态是指当目标初次出现时，将其作为待跟踪的目标。优选地，为防止目标提取或检测带来的误检等造成的干扰，只有一帧出现的目标并不立即将其作为待跟踪的目标，只有在同一场景中前后连续多帧都出现该目标时，才将其作为待跟踪的目标。所述正常状态是指目标在视频序列的前后帧中都被检测关联到，则该目标处于正常跟踪状态。优选地，当目标的外观发生变化时，需要对目标进行更新。所述丢失状态是由于目标被遮挡或者在某一帧没有被检测到等原因，使得目标在某一帧没有被跟踪到。此时将目标状态转换为丢失状态，同时保留该目标在上一时刻被跟踪到时的目标特征。所述删除状态是指对于处于丢失状态的目标，持续一段时间没有再次被检测到，则可以判定该目标已经离开场景。此时将目标删除，不再跟踪。被跟踪的目标可以在多个状态之间进行转换，状态的转换构成一系列的动作集合。

S2：利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息。

S3：从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息。具体地，当获得目标在当前状态s下输出的轨迹信息时，根据所述当前状态s的向量执行动作a，则所述目标从当前状态s转移到下一状态sNext，同时接收到所述目标跟踪状态模型的奖励函数的反馈。

S4：根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确。将所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息进行对比，具体地，可以通过坐标位置信息进行对比。当目标在一个状态下的坐标位置信息和相应状态的已知坐标位置信息不一致时，判定所述目标的跟踪状态不正确。

S5：当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。根据已知轨迹信息对所述相似性方程和奖励函数进行更新。

本发明提供的目标跟踪状态模型训练方法，通过获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型；利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息；从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息；根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确；当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。该发明通过目标在不同状态下的已知轨迹信息不断更新所述跟踪状态模型，实现训练所述跟踪状态模型的目的，从而实现不同情况下自动对目标的跟踪状态进行转换。

作为一个具体的实施方式，上述步骤S3包括以下子步骤：

S31：确定目标状态。根据所述跟踪状态模型在不同状态下输出的轨迹信息，确定目标状态。

具体地，从新目标出现被检测到，进入假设状态，会有两种状态可以转换：正常状态和丢失状态，其动作分别是a1和a2，如图3所示。

对处于正常状态下的目标，可以采用光流跟踪方法，对跟踪到的光流采用前后反馈的对称性验证以及相似性度量。将检测结果与已有跟踪结果关联，可以通过计算跟踪的预测位置与检测框的重叠度，避免关联到误检，也可采用多种特征包括但不限于两者质心的L2距离、重叠度及梯度等。正常状态下可以转换的状态有持续保持正常状态，或者由于遮挡或目标离开视野进入丢失状态，例如可以是短暂丢失状态，其动作分别是a3和a4。

对每个处于短暂丢失状态的目标，计算与当前检测结果的相似度，通过匈牙利算法进行数据关联，判断是继续处于短暂丢失状态，还是关联重新出现的检测框，转回跟踪的正常状态,其动作分别是a5和a6。

优选地，对于短暂丢失状态下的目标，可以转换的状态还包括丢失状态，其动作是a7；对于长期丢失状态下的目标，可以转换的状态为丢失状态或删除状态，其动作是a8。

S32：计算帧间相似性。具体地，可以根据式(1)所示的相似性方程计算帧间相似性。

f(s)＝Wφ(s)+b (1)

作为一个具体的实施方式，对于处于丢失状态的目标t和检测结果d，使用相似性方程预测是否关联。可以具体展开相似性方程如下：

w₁φ₁(T,d_k)+...+w_nφ_n(T,d_k)+b

其中，T表示目标轨迹，d_k表示当前帧检测到的第k个目标。W₁，W₂，…Wn，b各权重是通过学习得到的，给出已知视频序列中目标的真值轨迹以及初始化相似性方程，跟踪目标并收集来自真值位置的反馈，其中各系数初始值是随机产生的。

通过一系列特征表示来度量T与d_k之间的相似度，选择相似度最大的结果作为目标在当前帧跟踪到的位置，从而实现利用数据关联进行目标跟踪的目的。其中特征度量从表观appearance、运动模型motion、空间位置location等进行描述。具体地，当w₁φ₁(T,d_k)+...+w_nφ_n(T,d_k)+b≥0时，目标轨迹T与第k个目标d_k关联；否则不关联。

S33：根据所述目标状态和所述帧间相似性，计算奖励值；

根据式(2)所示的奖励函数计算奖励值：

R(s,a)＝y(a)(Wφ(s)+b) (2)

式(2)中，y(a)表示执行动作a时的权重系数，所述跟踪动作可以包括上述a1至a8中的任意一个。y(a)作为各动作的权重系数，取值可以为0、1、-1。例如，在跟踪目标处于假设状态，当动作为a1时，y(a)＝1；当动作为a2时，y(a)＝-1；其它动作时为0。

其中后一项(W,b)定义了SVM(Support Vector Machine，支持向量机)的分类超平面。在机器学习领域，SVM是一个有监督的学习模型，通常用来进行模式识别、分类以及回归分析。将检测结果的置信度、目标所在位置及尺度作为特征，通过标注数据学习得到权重W及b。

优选地，可以定义不同状态下的具体奖励函数。

例如，假设状态下的奖励函数如式(3)所示：

跟踪正常状态下的奖励函数如式(4)所示：

式(4)中，e_medFB表示光流跟踪中所有前向-后向误差的中值，e₀表示最低可以接受的误差，O_mean表示跟踪的预测位置和检测框的重叠度，O₀为同一目标时位置框的重叠阈值。y(a)为各动作的权重系数。例如，当动作为a3时，y(a)＝1；当动作为a4时，y(a)＝-1。

丢失状态下的奖励函数如式(5)所示：

式(5)中，M指当前帧中检测到M个目标结果，处于丢失状态的目标需要与其中的每个目标进行相似度判断，y(a)表示执行动作a时的权重系数。例如，当动作为a6时，y(a)＝1；当动作为a5时，y(a)＝-1。

对于关联上检测结果的目标，将其转入正常跟踪状态，并利用检测结果更新目标；未关联上的，保持该目标的丢失状态。

当前检测出的目标，未与已有的跟踪目标匹配上的，认为是新进入的目标，将该目标转入假设状态，作为待跟踪的新目标，进行后续的跟踪。

S34：根据所述奖励值，选择具有最大奖励值的轨迹。通过有效策略学习进行状态转换，从而使得整个过程中的奖励回报最大，也即实现了目标准确的跟踪。

S35：根据最大奖励值输出所述最大奖励值对应的轨迹信息。

根据更新相似性方程来提高跟踪性能。在对数据关联产生错误决策的时候，对相似性方程进行更新，有利于收集难样例训练数据来训练相似性方程。比如目标与新检测的结果产生了错误的关联，通过调整系数，将错误进行纠正。当决策过程能够成功的跟踪目标时，完成对相似性方程即目标跟踪状态模型的训练，实现根据模型自动对跟踪的目标进行状态转换，同时使得状态转换过程中的奖励反馈值最大，也即实现了对目标的准确跟踪。

实施例2

本实施例提供一种目标跟踪状态模型训练装置，该装置的示意图如图2所示。包括：

获取单元10，用于获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型。所述已知轨迹信息可以包括目标的轨迹位置和目标特征。所述目标的跟踪状态模型包括相似性方程和奖励函数。

输出单元20，用于利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息。

选择单元30，用于从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息。具体地，当获得目标在当前状态s下输出的轨迹信息时，根据所述当前状态s的向量执行动作a，则所述目标从当前状态s转移到下一状态sNext，同时接收到所述目标跟踪状态模型的奖励函数的反馈。

判断单元40，用于根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确。将所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息进行对比，具体地，可以通过坐标位置信息进行对比。当目标在一个状态下的坐标位置信息和相应状态的已知坐标位置信息不一致时，判定所述目标的跟踪状态不正确。

更新单元50，用于当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。根据已知轨迹信息对所述相似性方程和奖励函数进行更新。

本发明提供的目标跟踪状态模型训练装置，通过获取视频序列中目标在不同状态下的已知轨迹信息和所述目标的跟踪状态模型；利用所述跟踪状态模型跟踪所述视频序列中的目标，得到所述跟踪状态模型在不同状态下输出的轨迹信息；从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息；根据所述一个状态下的轨迹信息和相应状态的所述已知轨迹信息，判断所述目标的跟踪状态是否正确；当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。该发明通过目标在不同状态下的已知轨迹信息不断更新所述跟踪状态模型，实现训练所述跟踪状态模型的目的，从而实现不同情况下自动对目标的跟踪状态进行转换。

作为一个具体的实施方式，选择单元30包括：

状态确定子单元，用于确定目标状态。根据所述跟踪状态模型在不同状态下输出的轨迹信息，确定目标状态。

相似性计算子单元，用于计算帧间相似性。具体地，可以根据式(1)所示的相似性方程计算帧间相似性。

f(s)＝Wφ(s)+b (1)

奖励值计算子单元，用于根据所述目标状态和所述帧间相似性，计算奖励值。具体地，可以根据式(2)所示的奖励函数计算奖励值：

R(s,a)＝y(a)(Wφ(s)+b) (2)

选择子单元，用于根据所述奖励值，选择具有最大奖励值的轨迹。通过有效策略学习进行状态转换，从而使得整个过程中的奖励回报最大，也即实现了目标准确的跟踪。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种目标跟踪状态模型训练方法，其特征在于，包括：

当所述目标的跟踪状态不正确时，更新所述跟踪状态模型。

2.根据权利要求1所述的方法，其特征在于，所述从所述跟踪状态模型在不同状态下输出的轨迹信息中，选择一个状态下的轨迹信息，包括：

确定目标状态；

计算帧间相似性；

根据所述目标状态和所述帧间相似性，计算奖励值；

根据所述奖励值，选择具有最大奖励值的轨迹；

根据最大奖励值输出所述最大奖励值对应的轨迹信息。

3.根据权利要求2所述的方法，其特征在于，所述确定目标状态，包括：

4.根据权利要求2所述的方法，其特征在于，所述计算帧间相似性，包括：利用式(1)计算帧间相似性：

f(s)＝Wφ(s)+b (1)

5.根据权利要求2所述的方法，其特征在于，所述根据所述目标状态和所述帧间相似性，计算奖励值，包括：利用式(2)计算奖励值：

R(s,a)＝y(a)(Wφ(s)+b) (2)

6.一种目标跟踪状态模型训练装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述选择单元包括：

状态确定子单元，用于确定目标状态；

相似性计算子单元，用于计算帧间相似性；

8.根据权利要求7所述的装置，其特征在于，所述确定目标状态，包括：

9.根据权利要求7所述的装置，其特征在于，所述计算帧间相似性，包括：利用式(1)计算帧间相似性：

f(s)＝Wφ(s)+b (1)

10.根据权利要求7所述的装置，其特征在于，所述根据所述目标状态和所述帧间相似性，计算奖励值，包括：利用式(2)计算奖励值：

R(s,a)＝y(a)(Wφ(s)+b) (2)