CN111476883A - 多视角无标记动物的三维姿态轨迹重建方法及装置 - Google Patents
多视角无标记动物的三维姿态轨迹重建方法及装置 Download PDFInfo
- Publication number
- CN111476883A CN111476883A CN202010238716.0A CN202010238716A CN111476883A CN 111476883 A CN111476883 A CN 111476883A CN 202010238716 A CN202010238716 A CN 202010238716A CN 111476883 A CN111476883 A CN 111476883A
- Authority
- CN
- China
- Prior art keywords
- animal
- dimensional
- module
- model
- view
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种多视角无标记动物的三维姿态轨迹重建方法及装置,其中,方法包括:S1:搭建多视角采集系统,采集动物自由运动视频;S2:训练深度学习模型;S3:对当前帧各个视角进行动物目标检测;S4:对每个检测出的动物提取二维关键点;S5:使用迭代极大团算法将不同视角的动物关联为若干个聚类;S6:在每个聚类中求解动物的三维姿态;S7:对每一帧,重复步骤S3‑S6;S8:在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。该方法可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
Description
技术领域
本发明涉及计算机视觉与动物行为学技术领域,特别涉及一种多视角无标记动物的三维姿态轨迹重建方法及装置。
背景技术
随着计算机技术的普及和发展,计算行为学逐渐取代传统的行为学成为新的动物行为研究范式。计算行为学,即利用感知设备和计算设备,自动化地捕捉动物的姿态轨迹,得到数字化的、无人为认知偏差的行为数据,从而应用于行为模式挖掘与分类,辅助脑科学研究、系统神经科学研究以及疾病研究。
现有多数动物姿态轨迹重建的方法使用RFID(射频识别)来完成长时间的特定对象识别与跟踪。还有一些方法使用单个深度相机来捕捉2.5维图像数据(二维图像+视角深度信息)进行姿态分析。上述两类方法要么对动物本身有侵害(RFID需要植入射频芯片),要么受到观察视场角的限制,难以应用于较大的哺乳动物的姿态捕捉。
另外,多视角系统作为无标记运动捕捉系统的典型方案,已经在多人体姿态跟踪上取得了良好效果。然而,无标记地对动物进行长时间三维姿态重建仍是一个未解决的问题。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种多视角无标记动物的三维姿态轨迹重建方法,该方法可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
本发明的另一个目的在于提出一种多视角无标记动物的三维姿态轨迹重建装置。
为达到上述目的,本发明一方面实施例提出了一种多视角无标记动物的三维姿态轨迹重建方法,包括以下步骤:步骤S1:采集动物自由运动视频;步骤S2:在所述动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络;步骤S3:将每个视角图像输入到所述目标检测神经网络中,得到对应视角下每个检测出的动物的边框;步骤S4:将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标;步骤S5:同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物;步骤S6:在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态;步骤S7:对每一帧,重复步骤S3-S6;步骤S8:在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
本发明实施例的多视角无标记动物的三维姿态轨迹重建方法,实现了在稀疏多视角(不超过10个视角)采集条件下,多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时,可长达数天)三维姿态轨迹重建,从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
另外,根据本发明上述实施例的多视角无标记动物的三维姿态轨迹重建方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S1包括:获得相机的内参和外参;对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;对视频在线处理,或者导出存储至本地的视频进行后续处理。
进一步地,在本发明的一个实施例中,所述步骤S5包括:S51:将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点的对极距离的平均;S52:给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;S53:在图G2中,使用极大团枚举算法枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;S54:找到损失函数最小的极大团,将其取出到集合Θ中;S55:对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
进一步地,在本发明的一个实施例中,所述步骤S6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型,其中,所述模型包含表面顶点和三角面片、嵌入的骨架si,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数,其中,1≤i≤N,N为嵌入骨架的点数;所述模型由骨架的旋转角θi驱动,每个θi为三维向量,代表自由度为3的旋转,将所有θi作为所述模型的驱动参数θ,每个骨架点的坐标未θ的函数si(θ),则对于该聚类中的关键点1≤k≤J,J为关键点数量,最小化目标函数 其中ik为模型骨架点对应第i个关键点的序号,πc为第c个视角的投影变换矩阵,w为正则项权重系数,通过最小化E(θ),得到经过模型约束后的三维关键点作为该动物的三维姿态。
进一步地,在本发明的一个实施例中,在所述步骤S8中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
为达到上述目的,本发明另一方面实施例提出了一种多视角无标记动物的三维姿态轨迹重建装置,包括:采集模块,用于采集动物自由运动视频;训练模块,用于在所述动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络;检测模块,用于将每个视角图像输入到所述目标检测神经网络中,得到对应视角下每个检测出的动物的边框;提取模块,用于将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标;关联模块,用于同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物;求解模块,用于在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态;重复模块,用于对每一帧,重复步骤检测模块、提取模块、关联模块和求解模块;跟踪模块,用于在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
本发明实施例的多视角无标记动物的三维姿态轨迹重建装置,实现了在稀疏多视角(不超过10个视角)采集条件下,多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时,可长达数天)三维姿态轨迹重建,从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
另外,根据本发明上述实施例的多视角无标记动物的三维姿态轨迹重建装置还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述采集模块进一步用于获得相机的内参和外参;对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;对视频在线处理,或者导出存储至本地的视频进行后续处理。
进一步地,在本发明的一个实施例中,所述关联模块进一步用于将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点的对极距离的平均;给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;在图G2中,使用极大团枚举算法枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;找到损失函数最小的极大团,将其取出到集合Θ中;对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
进一步地,在本发明的一个实施例中,所述求解模块中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型,其中,所述模型包含表面顶点和三角面片、嵌入的骨架si,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数,其中,1≤i≤N,N为嵌入骨架的点数;所述模型由骨架的旋转角θi驱动,每个θi为三维向量,代表自由度为3的旋转,将所有θi作为所述模型的驱动参数θ,每个骨架点的坐标未θ的函数si(θ),则对于该聚类中的关键点1≤k≤J,J为关键点数量,最小化目标函数 其中ik为模型骨架点对应第i个关键点的序号,πc为第c个视角的投影变换矩阵,w为正则项权重系数,通过最小化E(θ),得到经过模型约束后的三维关键点作为该动物的三维姿态。
进一步地,在本发明的一个实施例中,在所述跟踪模块中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的多视角无标记动物的三维姿态轨迹重建方法的流程图;
图2为根据本发明实施例的多视角无标记动物的三维姿态轨迹重建装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法及装置,首先将参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法。
图1是本发明一个实施例的多视角无标记动物的三维姿态轨迹重建方法的流程图。
如图1所示,该多视角无标记动物的三维姿态轨迹重建方法包括以下步骤:
步骤S1:采集动物自由运动视频。
可以了理解的是,搭建多视角采集系统,采集动物自由运动视频。
其中,在本发明的一个实施例中,获得相机的内参和外参;对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;对视频在线处理,或者导出存储至本地的视频进行后续处理。
具体而言,多视角采集系统需要事先进行标定,获得相机的内参和外参;动物自由运动视频的原始数据可以同步也可以不同步,对于不同的视频可以后期进行人工同步;视频可以在线处理,也可以先存储到本地,然后导出进行后续处理。观测动物可以是小鼠、猪、猴子等某一类动物,其数量≥1。
步骤S2:在动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络。
可以理解的是,训练深度学习模型:在多视角视频中随机挑选若干帧,人工标注动物边框和关键点,训练目标检测神经网络和关键点检测神经网络。其中,深度学习模型的计算框架不受限制(包括pytorch、mxnet、tensorflow、caffe、darknet、torch等),目标检测神经网络和关键点检测神经网络的具体方法不受限制。
步骤S3:将每个视角图像输入到目标检测神经网络中,得到对应视角下每个检测出的动物的边框。
可以理解的是,对当前帧各个视角进行动物目标检测:将每个视角图像输入到目标检测神经网络中,得到该视角下每个检测出的动物的边框。
步骤S4:将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标。
可以理解的是,对每个检测出的动物提取二维关键点:将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解出该二维位置在原图中的像素坐标。
步骤S5:同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物。
可以理解的是,使用迭代极大团算法将不同视角的动物关联为若干个聚类:同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物。
具体而言,步骤S5的迭代极大团算法包括如下步骤:
S51:将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点(不为空的关键点)的对极距离的平均;
S52:给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;
S53:在图G2中,使用极大团枚举算法(Maximal Clique Enumeration)枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;
S54:找到损失函数最小的极大团,将其取出到集合Θ中,即Θ=Θ∪C,Θ初始为空,并在G2中删除C的所有顶点和与C相连的所有边;S55:对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
此时,Θ中的团对应的是最终的聚类,同一聚类在各个视角上的检测结果对应同一只动物。
步骤S6:在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态。
可以理解的是,在每个聚类中求解动物的三维姿态:在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,从而得到该动物的三维姿态。
在本发明的一个实施例中,步骤6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型;其中,
该模型包含表面顶点和三角面片、嵌入的骨架si,1≤i≤N(N为嵌入骨架的点数)、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数。该模型的由骨架的旋转角θi驱动,每个θi为三维向量,代表自由度为3的旋转。将所有θi一起看做该模型的驱动参数θ,每个骨架点的坐标看做θ的函数si(),则对于该聚类中的关键点(1≤k≤J,J为关键点数量),最小化目标函数其中ik为模型骨架点对应第i个关键点的序号,πc为第c个视角的投影变换矩阵,w为正则项权重系数。通过最小化E(θ),可以得到经过模型约束后的三维关键点作为该动物的三维姿态。
步骤S7:对每一帧,重复步骤S3-S6。
步骤S8:在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
在本发明的一个实施例中,在步骤S8中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
综上,本发明实施例提出的多视角无标记动物的三维姿态轨迹重建方法,实现了在稀疏多视角(不超过10个视角)采集条件下,多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时,可长达数天)三维姿态轨迹重建,从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
其次参照附图描述根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建装置。
图2是本发明一个实施例的多视角无标记动物的三维姿态轨迹重建装置的结构示意图。
如图2所示,该多视角无标记动物的三维姿态轨迹重建装置10包括:采集模块100、训练模块200、检测模块300、提取模块400、关联模块500、求解模块600、重复模块700和跟踪模块800。
其中,采集模块100用于采集动物自由运动视频;训练模块200用于在动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络;检测模块300用于将每个视角图像输入到目标检测神经网络中,得到对应视角下每个检测出的动物的边框;提取模块400用于将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标;关联模块500用于同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物;求解模块600用于在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态;重复模块700用于对每一帧,重复步骤检测模块300、提取模块400、关联模块500和求解模块600;跟踪模块800用于在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
进一步地,在本发明的一个实施例中,采集模块100进一步用于获得相机的内参和外参;对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;对视频在线处理,或者导出存储至本地的视频进行后续处理。
进一步地,在本发明的一个实施例中,关联模块600进一步用于将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点的对极距离的平均;给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;在图G2中,使用极大团枚举算法枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;找到损失函数最小的极大团,将其取出到集合Θ中;对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
进一步地,在本发明的一个实施例中,求解模块600中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型,其中,模型包含表面顶点和三角面片、嵌入的骨架si,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数,其中,1≤i≤N,N为嵌入骨架的点数;模型由骨架的旋转角θi驱动,每个θi为三维向量,代表自由度为3的旋转,将所有θi作为模型的驱动参数θ,每个骨架点的坐标未θ的函数si(θ),则对于该聚类中的关键点1≤k≤J,J为关键点数量,最小化目标函数其中ik为模型骨架点对应第i个关键点的序号,πc为第c个视角的投影变换矩阵,w为正则项权重系数,通过最小化E(θ),得到经过模型约束后的三维关键点作为该动物的三维姿态。
进一步地,在本发明的一个实施例中,在跟踪模块800中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
需要说明的是,前述对多视角无标记动物的三维姿态轨迹重建方法实施例的解释说明也适用于该实施例的多视角无标记动物的三维姿态轨迹重建装置,此处不再赘述。
根据本发明实施例提出的多视角无标记动物的三维姿态轨迹重建装置,实现了在稀疏多视角(不超过10个视角)采集条件下,多只(不少于4只)同种动物(比如小叔、小猪、猴子等动物)在同一饲养或社交环境下的长时序(不少于1小时,可长达数天)三维姿态轨迹重建,从而可以有效解决现有技术中没有对动物进行无标记三维姿态轨迹重建的方法的问题。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种多视角无标记动物的三维姿态轨迹重建方法,其特征在于,包括以下步骤:
步骤S1:采集动物自由运动视频;
步骤S2:在所述动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络;
步骤S3:将每个视角图像输入到所述目标检测神经网络中,得到对应视角下每个检测出的动物的边框;
步骤S4:将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标;
步骤S5:同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物;
步骤S6:在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态;
步骤S7:对每一帧,重复步骤S3-S6;
步骤S8:在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
获得相机的内参和外参;
对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;
对视频在线处理,或者导出存储至本地的视频进行后续处理。
3.根据权利要求1所述的方法,其特征在于,所述步骤S5包括:
S51:将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点的对极距离的平均;
S52:给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;
S53:在图G2中,使用极大团枚举算法枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;
S54:找到损失函数最小的极大团,将其取出到集合Θ中;
S55:对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
4.根据权利要求1所述的方法,其特征在于,所述步骤S6中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型,其中,
所述模型包含表面顶点和三角面片、嵌入的骨架si,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数,其中,1≤i≤N,N为嵌入骨架的点数;
5.根据权利要求1所述的方法,其特征在于,在所述步骤S8中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
6.一种多视角无标记动物的三维姿态轨迹重建装置,其特征在于,包括:
采集模块,用于采集动物自由运动视频;
训练模块,用于在所述动物自由运动视频中随机挑选若干帧,标注动物边框和关键点,以训练目标检测神经网络和关键点检测神经网络;
检测模块,用于将每个视角图像输入到所述目标检测神经网络中,得到对应视角下每个检测出的动物的边框;
提取模块,用于将每个检测出的动物利用边框切割出包含该动物的子图,对子图使用关键点检测神经网络,得到该动物的每个关键点的二维位置,并求解得到二维位置在原图中的像素坐标;
关联模块,用于同一聚类在每个视角上至多包含一个动物检测结果,同一聚类里的检测对应同一只动物;
求解模块,用于在每个聚类中,利用多视角二维关键点拟合可驱动的动物表面模型,得到该动物的三维姿态;
重复模块,用于对每一帧,重复步骤检测模块、提取模块、关联模块和求解模块;
跟踪模块,用于在时域上对前后两帧动物三维姿态进行跟踪,得到多个动物的姿态轨迹。
7.根据权利要求6所述的装置,其特征在于,所述采集模块进一步用于获得相机的内参和外参;对动物自由运动视频的原始数据进行同步或不同步,或者对于不同的视频后期进行人工同步;对视频在线处理,或者导出存储至本地的视频进行后续处理。
8.根据权利要求6所述的装置,其特征在于,所述关联模块进一步用于将每个视角下检测出的动物视为图G1的顶点,在图G1中,同一视角下的顶点不连边,不同视角下的任意两个顶点连有带权重的边,边的权重为两顶点对应的动物所有有效关键点的对极距离的平均;给定对极距离的阈值,删除权重大于该阈值的边,得到一个稀疏的图G2;在图G2中,使用极大团枚举算法枚举所有的极大团,对每个极大团C计算损失函数f(C)=E(C)+λp(C),E(C)为C中所有边的权重的平均,p(C)是对C的顶点数量的惩罚项,C的顶点数量越多,p(C)越小,λ是平衡因子,是正实数;找到损失函数最小的极大团,将其取出到集合Θ中;对更新后的G2,重复步骤S52-S54,直到最大的极大团包含的顶点数小于2。
9.根据权利要求6所述的装置,其特征在于,所述求解模块中的可驱动的动物表面模型为对应于所观测的动物类型手动设计的动物模型,其中,
所述模型包含表面顶点和三角面片、嵌入的骨架si,、骨架到表面顶点的蒙皮系数、表面顶点到骨架的回归系数,其中,1≤i≤N,N为嵌入骨架的点数;
10.根据权利要求6所述的装置,其特征在于,在所述跟踪模块中,前后两帧时域跟踪使用两帧时间三维姿态的平均欧式距离作为判据,使用匈牙利算法求解前后两帧的最优匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238716.0A CN111476883B (zh) | 2020-03-30 | 2020-03-30 | 多视角无标记动物的三维姿态轨迹重建方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010238716.0A CN111476883B (zh) | 2020-03-30 | 2020-03-30 | 多视角无标记动物的三维姿态轨迹重建方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476883A true CN111476883A (zh) | 2020-07-31 |
CN111476883B CN111476883B (zh) | 2023-04-07 |
Family
ID=71750520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010238716.0A Active CN111476883B (zh) | 2020-03-30 | 2020-03-30 | 多视角无标记动物的三维姿态轨迹重建方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476883B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113627255A (zh) * | 2021-07-07 | 2021-11-09 | 中国科学院自动化研究所 | 一种小鼠行为量化分析方法、装置、设备及可读存储介质 |
WO2022041129A1 (zh) * | 2020-08-28 | 2022-03-03 | 中国科学院深圳先进技术研究院 | 一种动物行为学记录三维捕捉装置、方法、系统及应用 |
CN114693576A (zh) * | 2022-03-28 | 2022-07-01 | 浙江大学 | 一种实验动物行为学三维数据记录方法 |
WO2022222011A1 (zh) * | 2021-04-19 | 2022-10-27 | 浙江大学 | 一种可驱动的隐式三维人体表示方法 |
WO2022265575A3 (en) * | 2021-06-14 | 2023-03-02 | Nanyang Technological University | Method and system for generating a training dataset for keypoint detection, and method and system for predicting 3d locations of virtual markers on a marker-less subject |
CN116403288A (zh) * | 2023-04-28 | 2023-07-07 | 中南大学 | 运动姿态的识别方法、识别装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020989A (zh) * | 2012-12-05 | 2013-04-03 | 河海大学 | 一种基于在线场景特征聚类的多视角目标跟踪方法 |
CN106897669A (zh) * | 2017-01-19 | 2017-06-27 | 同济大学 | 一种基于一致迭代多视角迁移学习的行人再辨识方法 |
CN106971145A (zh) * | 2017-03-03 | 2017-07-21 | 广东工业大学 | 一种基于极限学习机的多视角动作识别方法及装置 |
CN110020611A (zh) * | 2019-03-17 | 2019-07-16 | 浙江大学 | 一种基于三维假设空间聚类的多人动作捕捉方法 |
US20200043189A1 (en) * | 2017-01-13 | 2020-02-06 | Zhejiang University | Simultaneous positioning and dense three-dimensional reconstruction method |
-
2020
- 2020-03-30 CN CN202010238716.0A patent/CN111476883B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020989A (zh) * | 2012-12-05 | 2013-04-03 | 河海大学 | 一种基于在线场景特征聚类的多视角目标跟踪方法 |
US20200043189A1 (en) * | 2017-01-13 | 2020-02-06 | Zhejiang University | Simultaneous positioning and dense three-dimensional reconstruction method |
CN106897669A (zh) * | 2017-01-19 | 2017-06-27 | 同济大学 | 一种基于一致迭代多视角迁移学习的行人再辨识方法 |
CN106971145A (zh) * | 2017-03-03 | 2017-07-21 | 广东工业大学 | 一种基于极限学习机的多视角动作识别方法及装置 |
CN110020611A (zh) * | 2019-03-17 | 2019-07-16 | 浙江大学 | 一种基于三维假设空间聚类的多人动作捕捉方法 |
Non-Patent Citations (2)
Title |
---|
LIU YA-HUI, ET AL.: "POSITION ANALYSIS BASED ON MULTIPLE VIEWS IN MULTI-TARGET TRACKING", 《2010 IEEE YOUTH CONFERENCE ON INFORMATION, COMPUTING AND TELECOMMUNICATIONS》 * |
宋红 等: "视频中的多视角人脸检测与姿态判别", 《计算机辅助设计与图形学学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022041129A1 (zh) * | 2020-08-28 | 2022-03-03 | 中国科学院深圳先进技术研究院 | 一种动物行为学记录三维捕捉装置、方法、系统及应用 |
WO2022222011A1 (zh) * | 2021-04-19 | 2022-10-27 | 浙江大学 | 一种可驱动的隐式三维人体表示方法 |
WO2022265575A3 (en) * | 2021-06-14 | 2023-03-02 | Nanyang Technological University | Method and system for generating a training dataset for keypoint detection, and method and system for predicting 3d locations of virtual markers on a marker-less subject |
CN113627255A (zh) * | 2021-07-07 | 2021-11-09 | 中国科学院自动化研究所 | 一种小鼠行为量化分析方法、装置、设备及可读存储介质 |
CN113627255B (zh) * | 2021-07-07 | 2024-05-24 | 中国科学院自动化研究所 | 一种小鼠行为量化分析方法、装置、设备及可读存储介质 |
CN114693576A (zh) * | 2022-03-28 | 2022-07-01 | 浙江大学 | 一种实验动物行为学三维数据记录方法 |
CN114693576B (zh) * | 2022-03-28 | 2023-07-18 | 浙江大学 | 一种实验动物行为学三维数据记录方法 |
CN116403288A (zh) * | 2023-04-28 | 2023-07-07 | 中南大学 | 运动姿态的识别方法、识别装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111476883B (zh) | 2023-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476883B (zh) | 多视角无标记动物的三维姿态轨迹重建方法及装置 | |
Ruchay et al. | Accurate body measurement of live cattle using three depth cameras and non-rigid 3-D shape recovery | |
CN105740780B (zh) | 人脸活体检测的方法和装置 | |
CN106295568B (zh) | 基于表情和行为双模态结合的人类自然状态情感识别方法 | |
Sodhi et al. | In-field segmentation and identification of plant structures using 3D imaging | |
US8023726B2 (en) | Method and system for markerless motion capture using multiple cameras | |
Ruan et al. | Multi-correlation filters with triangle-structure constraints for object tracking | |
EP2584529A2 (en) | Method of image processing and device therefore | |
Wang et al. | Lying pose recognition for elderly fall detection | |
Liu et al. | Automatic estimation of dairy cattle body condition score from depth image using ensemble model | |
CN105760898A (zh) | 一种基于混合组回归方法的视觉映射方法 | |
Nuevo et al. | RSMAT: Robust simultaneous modeling and tracking | |
CN109068613A (zh) | 健康状态推定装置 | |
Chen et al. | Silhouette-based object phenotype recognition using 3D shape priors | |
CN116229189B (zh) | 基于荧光内窥镜的图像处理方法、装置、设备及存储介质 | |
Zhang et al. | Detecting kangaroos in the wild: the first step towards automated animal surveillance | |
Thang et al. | Estimation of 3-D human body posture via co-registration of 3-D human model and sequential stereo information | |
Noe et al. | Automatic detection and tracking of mounting behavior in cattle using a deep learning-based instance segmentation model | |
CN115376034A (zh) | 一种基于人体三维姿态时空关联动作识别的运动视频采集剪辑方法及装置 | |
CN108830222A (zh) | 一种基于信息性和代表性主动学习的微表情识别方法 | |
CN110674751A (zh) | 一种基于单目摄像机检测头部姿态的装置及方法 | |
Proença et al. | SHREC’15 Track: Retrieval of Oobjects captured with kinect one camera | |
Wang | Three-Dimensional Image Recognition of Athletes' Wrong Motions Based on Edge Detection. | |
Wu et al. | DeepShapeKit: accurate 4D shape reconstruction of swimming fish | |
Atienza-Vanacloig et al. | People and luggage recognition in airport surveillance under real-time constraints |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |