CN111476883A

CN111476883A - 多视角无标记动物的三维姿态轨迹重建方法及装置

Info

Publication number: CN111476883A
Application number: CN202010238716.0A
Authority: CN
Inventors: 刘烨斌; 安亮; 王松涛; 戴琼海
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-31
Anticipated expiration: 2040-03-30
Also published as: CN111476883B

Abstract

本发明公开了一种多视角无标记动物的三维姿态轨迹重建方法及装置，其中，方法包括：S1：搭建多视角采集系统，采集动物自由运动视频；S2：训练深度学习模型；S3：对当前帧各个视角进行动物目标检测；S4：对每个检测出的动物提取二维关键点；S5：使用迭代极大团算法将不同视角的动物关联为若干个聚类；S6：在每个聚类中求解动物的三维姿态；S7：对每一帧，重复步骤S3‑S6；S8：在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。该方法可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

Description

多视角无标记动物的三维姿态轨迹重建方法及装置

技术领域

本发明涉及计算机视觉与动物行为学技术领域，特别涉及一种多视角无标记动物的三维姿态轨迹重建方法及装置。

背景技术

随着计算机技术的普及和发展，计算行为学逐渐取代传统的行为学成为新的动物行为研究范式。计算行为学，即利用感知设备和计算设备，自动化地捕捉动物的姿态轨迹，得到数字化的、无人为认知偏差的行为数据，从而应用于行为模式挖掘与分类，辅助脑科学研究、系统神经科学研究以及疾病研究。

现有多数动物姿态轨迹重建的方法使用RFID(射频识别)来完成长时间的特定对象识别与跟踪。还有一些方法使用单个深度相机来捕捉2.5维图像数据(二维图像+视角深度信息)进行姿态分析。上述两类方法要么对动物本身有侵害(RFID需要植入射频芯片)，要么受到观察视场角的限制，难以应用于较大的哺乳动物的姿态捕捉。

另外，多视角系统作为无标记运动捕捉系统的典型方案，已经在多人体姿态跟踪上取得了良好效果。然而，无标记地对动物进行长时间三维姿态重建仍是一个未解决的问题。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种多视角无标记动物的三维姿态轨迹重建方法，该方法可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

本发明的另一个目的在于提出一种多视角无标记动物的三维姿态轨迹重建装置。

为达到上述目的，本发明一方面实施例提出了一种多视角无标记动物的三维姿态轨迹重建方法，包括以下步骤：步骤S1：采集动物自由运动视频；步骤S2：在所述动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络；步骤S3：将每个视角图像输入到所述目标检测神经网络中，得到对应视角下每个检测出的动物的边框；步骤S4：将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标；步骤S5：同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物；步骤S6：在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态；步骤S7：对每一帧，重复步骤S3-S6；步骤S8：在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。

本发明实施例的多视角无标记动物的三维姿态轨迹重建方法，实现了在稀疏多视角(不超过10个视角)采集条件下，多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时，可长达数天)三维姿态轨迹重建，从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

另外，根据本发明上述实施例的多视角无标记动物的三维姿态轨迹重建方法还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述步骤S1包括：获得相机的内参和外参；对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；对视频在线处理，或者导出存储至本地的视频进行后续处理。

进一步地，在本发明的一个实施例中，所述步骤S5包括：S51：将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点的对极距离的平均；S52：给定对极距离的阈值，删除权重大于该阈值的边，得到一个稀疏的图G₂；S53：在图G₂中，使用极大团枚举算法枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；S54：找到损失函数最小的极大团，将其取出到集合Θ中；S55：对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

进一步地，在本发明的一个实施例中，所述步骤S6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型，其中，所述模型包含表面顶点和三角面片、嵌入的骨架s_i,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数，其中，1≤i≤N，N为嵌入骨架的点数；所述模型由骨架的旋转角θ_i驱动，每个θ_i为三维向量，代表自由度为3的旋转，将所有θ_i作为所述模型的驱动参数θ，每个骨架点的坐标未θ的函数s_i(θ)，则对于该聚类中的关键点

1≤k≤J，J为关键点数量，最小化目标函数

其中i_k为模型骨架点对应第i个关键点的序号，π^c为第c个视角的投影变换矩阵，w为正则项权重系数，通过最小化E(θ)，得到经过模型约束后的三维关键点

作为该动物的三维姿态。

进一步地，在本发明的一个实施例中，在所述步骤S8中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。

为达到上述目的，本发明另一方面实施例提出了一种多视角无标记动物的三维姿态轨迹重建装置，包括：采集模块，用于采集动物自由运动视频；训练模块，用于在所述动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络；检测模块，用于将每个视角图像输入到所述目标检测神经网络中，得到对应视角下每个检测出的动物的边框；提取模块，用于将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标；关联模块，用于同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物；求解模块，用于在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态；重复模块，用于对每一帧，重复步骤检测模块、提取模块、关联模块和求解模块；跟踪模块，用于在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。

本发明实施例的多视角无标记动物的三维姿态轨迹重建装置，实现了在稀疏多视角(不超过10个视角)采集条件下，多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时，可长达数天)三维姿态轨迹重建，从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

另外，根据本发明上述实施例的多视角无标记动物的三维姿态轨迹重建装置还可以具有以下附加的技术特征：

进一步地，在本发明的一个实施例中，所述采集模块进一步用于获得相机的内参和外参；对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；对视频在线处理，或者导出存储至本地的视频进行后续处理。

进一步地，在本发明的一个实施例中，所述关联模块进一步用于将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点的对极距离的平均；给定对极距离的阈值，删除权重大于该阈值的边，得到一个稀疏的图G₂；在图G₂中，使用极大团枚举算法枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；找到损失函数最小的极大团，将其取出到集合Θ中；对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

进一步地，在本发明的一个实施例中，所述求解模块中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型，其中，所述模型包含表面顶点和三角面片、嵌入的骨架s_i,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数，其中，1≤i≤N，N为嵌入骨架的点数；所述模型由骨架的旋转角θ_i驱动，每个θ_i为三维向量，代表自由度为3的旋转，将所有θ_i作为所述模型的驱动参数θ，每个骨架点的坐标未θ的函数s_i(θ)，则对于该聚类中的关键点

1≤k≤J，J为关键点数量，最小化目标函数

作为该动物的三维姿态。

进一步地，在本发明的一个实施例中，在所述跟踪模块中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的多视角无标记动物的三维姿态轨迹重建方法的流程图；

图2为根据本发明实施例的多视角无标记动物的三维姿态轨迹重建装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法及装置，首先将参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法。

图1是本发明一个实施例的多视角无标记动物的三维姿态轨迹重建方法的流程图。

如图1所示，该多视角无标记动物的三维姿态轨迹重建方法包括以下步骤：

步骤S1：采集动物自由运动视频。

可以了理解的是，搭建多视角采集系统，采集动物自由运动视频。

其中，在本发明的一个实施例中，获得相机的内参和外参；对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；对视频在线处理，或者导出存储至本地的视频进行后续处理。

具体而言，多视角采集系统需要事先进行标定，获得相机的内参和外参；动物自由运动视频的原始数据可以同步也可以不同步，对于不同的视频可以后期进行人工同步；视频可以在线处理，也可以先存储到本地，然后导出进行后续处理。观测动物可以是小鼠、猪、猴子等某一类动物，其数量≥1。

步骤S2：在动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络。

可以理解的是，训练深度学习模型：在多视角视频中随机挑选若干帧，人工标注动物边框和关键点，训练目标检测神经网络和关键点检测神经网络。其中，深度学习模型的计算框架不受限制(包括pytorch、mxnet、tensorflow、caffe、darknet、torch等)，目标检测神经网络和关键点检测神经网络的具体方法不受限制。

步骤S3：将每个视角图像输入到目标检测神经网络中，得到对应视角下每个检测出的动物的边框。

可以理解的是，对当前帧各个视角进行动物目标检测：将每个视角图像输入到目标检测神经网络中，得到该视角下每个检测出的动物的边框。

步骤S4：将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标。

可以理解的是，对每个检测出的动物提取二维关键点：将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解出该二维位置在原图中的像素坐标。

步骤S5：同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物。

可以理解的是，使用迭代极大团算法将不同视角的动物关联为若干个聚类：同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物。

具体而言，步骤S5的迭代极大团算法包括如下步骤：

S51：将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点(不为空的关键点)的对极距离的平均；

S52：给定对极距离的阈值，删除权重大于该阈值的边，得到一个稀疏的图G₂；

S53：在图G₂中，使用极大团枚举算法(Maximal Clique Enumeration)枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；

S54：找到损失函数最小的极大团，将其取出到集合Θ中，即Θ＝Θ∪C，Θ初始为空，并在G₂中删除C的所有顶点和与C相连的所有边；S55：对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

此时，Θ中的团对应的是最终的聚类，同一聚类在各个视角上的检测结果对应同一只动物。

步骤S6：在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态。

可以理解的是，在每个聚类中求解动物的三维姿态：在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，从而得到该动物的三维姿态。

在本发明的一个实施例中，步骤6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型；其中，

该模型包含表面顶点和三角面片、嵌入的骨架s_i,1≤i≤N(N为嵌入骨架的点数)、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数。该模型的由骨架的旋转角θ_i驱动，每个θ_i为三维向量，代表自由度为3的旋转。将所有θ_i一起看做该模型的驱动参数θ，每个骨架点的坐标看做θ的函数s_i()，则对于该聚类中的关键点

(1≤k≤J，J为关键点数量)，最小化目标函数

其中i_k为模型骨架点对应第i个关键点的序号，π^c为第c个视角的投影变换矩阵，w为正则项权重系数。通过最小化E(θ)，可以得到经过模型约束后的三维关键点

作为该动物的三维姿态。

步骤S7：对每一帧，重复步骤S3-S6。

步骤S8：在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。

在本发明的一个实施例中，在步骤S8中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。

综上，本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法，实现了在稀疏多视角(不超过10个视角)采集条件下，多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时，可长达数天)三维姿态轨迹重建，从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

其次参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建装置。

图2是本发明一个实施例的多视角无标记动物的三维姿态轨迹重建装置的结构示意图。

如图2所示，该多视角无标记动物的三维姿态轨迹重建装置10包括：采集模块100、训练模块200、检测模块300、提取模块400、关联模块500、求解模块600、重复模块700和跟踪模块800。

其中，采集模块100用于采集动物自由运动视频；训练模块200用于在动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络；检测模块300用于将每个视角图像输入到目标检测神经网络中，得到对应视角下每个检测出的动物的边框；提取模块400用于将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标；关联模块500用于同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物；求解模块600用于在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态；重复模块700用于对每一帧，重复步骤检测模块300、提取模块400、关联模块500和求解模块600；跟踪模块800用于在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。

进一步地，在本发明的一个实施例中，采集模块100进一步用于获得相机的内参和外参；对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；对视频在线处理，或者导出存储至本地的视频进行后续处理。

进一步地，在本发明的一个实施例中，关联模块600进一步用于将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点的对极距离的平均；给定对极距离的阈值，删除权重大于该阈值的边，得到一个稀疏的图G₂；在图G₂中，使用极大团枚举算法枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；找到损失函数最小的极大团，将其取出到集合Θ中；对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

进一步地，在本发明的一个实施例中，求解模块600中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型，其中，模型包含表面顶点和三角面片、嵌入的骨架s_i,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数，其中，1≤i≤N，N为嵌入骨架的点数；模型由骨架的旋转角θ_i驱动，每个θ_i为三维向量，代表自由度为3的旋转，将所有θ_i作为模型的驱动参数θ，每个骨架点的坐标未θ的函数s_i(θ)，则对于该聚类中的关键点

1≤k≤J，J为关键点数量，最小化目标函数

作为该动物的三维姿态。

进一步地，在本发明的一个实施例中，在跟踪模块800中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。

需要说明的是，前述对多视角无标记动物的三维姿态轨迹重建方法实施例的解释说明也适用于该实施例的多视角无标记动物的三维姿态轨迹重建装置，此处不再赘述。

根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建装置，实现了在稀疏多视角(不超过10个视角)采集条件下，多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时，可长达数天)三维姿态轨迹重建，从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种多视角无标记动物的三维姿态轨迹重建方法，其特征在于，包括以下步骤：

步骤S1：采集动物自由运动视频；

步骤S2：在所述动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络；

步骤S3：将每个视角图像输入到所述目标检测神经网络中，得到对应视角下每个检测出的动物的边框；

步骤S4：将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标；

步骤S5：同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物；

步骤S6：在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态；

步骤S7：对每一帧，重复步骤S3-S6；

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

获得相机的内参和外参；

对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；

对视频在线处理，或者导出存储至本地的视频进行后续处理。

3.根据权利要求1所述的方法，其特征在于，所述步骤S5包括：

S51：将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点的对极距离的平均；

S53：在图G₂中，使用极大团枚举算法枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；

S54：找到损失函数最小的极大团，将其取出到集合Θ中；

S55：对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

4.根据权利要求1所述的方法，其特征在于，所述步骤S6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型，其中，

所述模型包含表面顶点和三角面片、嵌入的骨架s_i，、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数，其中，1≤i≤N，N为嵌入骨架的点数；

所述模型由骨架的旋转角θ_i驱动，每个θ_i为三维向量，代表自由度为3的旋转，将所有θ_i作为所述模型的驱动参数θ，每个骨架点的坐标未θ的函数s_i(θ)，则对于该聚类中的关键点

1≤k≤J，J为关键点数量，最小化目标函数

作为该动物的三维姿态。

5.根据权利要求1所述的方法，其特征在于，在所述步骤S8中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。

6.一种多视角无标记动物的三维姿态轨迹重建装置，其特征在于，包括：

采集模块，用于采集动物自由运动视频；

训练模块，用于在所述动物自由运动视频中随机挑选若干帧，标注动物边框和关键点，以训练目标检测神经网络和关键点检测神经网络；

检测模块，用于将每个视角图像输入到所述目标检测神经网络中，得到对应视角下每个检测出的动物的边框；

提取模块，用于将每个检测出的动物利用边框切割出包含该动物的子图，对子图使用关键点检测神经网络，得到该动物的每个关键点的二维位置，并求解得到二维位置在原图中的像素坐标；

关联模块，用于同一聚类在每个视角上至多包含一个动物检测结果，同一聚类里的检测对应同一只动物；

求解模块，用于在每个聚类中，利用多视角二维关键点拟合可驱动的动物表面模型，得到该动物的三维姿态；

重复模块，用于对每一帧，重复步骤检测模块、提取模块、关联模块和求解模块；

跟踪模块，用于在时域上对前后两帧动物三维姿态进行跟踪，得到多个动物的姿态轨迹。

7.根据权利要求6所述的装置，其特征在于，所述采集模块进一步用于获得相机的内参和外参；对动物自由运动视频的原始数据进行同步或不同步，或者对于不同的视频后期进行人工同步；对视频在线处理，或者导出存储至本地的视频进行后续处理。

8.根据权利要求6所述的装置，其特征在于，所述关联模块进一步用于将每个视角下检测出的动物视为图G₁的顶点，在图G₁中，同一视角下的顶点不连边，不同视角下的任意两个顶点连有带权重的边，边的权重为两顶点对应的动物所有有效关键点的对极距离的平均；给定对极距离的阈值，删除权重大于该阈值的边，得到一个稀疏的图G₂；在图G₂中，使用极大团枚举算法枚举所有的极大团，对每个极大团C计算损失函数f(C)＝E(C)+λp(C)，E(C)为C中所有边的权重的平均，p(C)是对C的顶点数量的惩罚项，C的顶点数量越多，p(C)越小，λ是平衡因子，是正实数；找到损失函数最小的极大团，将其取出到集合Θ中；对更新后的G₂，重复步骤S52-S54，直到最大的极大团包含的顶点数小于2。

9.根据权利要求6所述的装置，其特征在于，所述求解模块中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型，其中，

1≤k≤J，J为关键点数量，最小化目标函数

作为该动物的三维姿态。

10.根据权利要求6所述的装置，其特征在于，在所述跟踪模块中，前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据，使用匈牙利算法求解前后两帧的最优匹配。