CN113643788A

CN113643788A - 基于多个图像获取设备确定特征点的方法及系统

Info

Publication number: CN113643788A
Application number: CN202110798485.3A
Authority: CN
Inventors: 张硕; 张惠斌
Original assignee: Beijing Plural Health Technology Co ltd
Current assignee: Beijing Plural Health Technology Co ltd
Priority date: 2021-07-15
Filing date: 2021-07-15
Publication date: 2021-11-12
Anticipated expiration: 2041-07-15
Also published as: CN113643788B

Abstract

本发明提供一种基于多个图像获取设备确定特征点的方法及系统，其中方法包括：根据所获取的动态图像生成每个图像获取设备各自的动态图像文件；根据预先设置的配置文件为每个动态图像文件确定各自的神经网络，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集；对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集，进而获得包括主体对象的三维信息；以及对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

Description

基于多个图像获取设备确定特征点的方法及系统

技术领域

本发明涉及图像识别技术领域，并且更具体地涉及一种基于多个图像获取设备确定特征点的方法及系统、计算机可读存储介质以及电子设备。

背景技术

目前，计算机视觉领域中的姿态评估技术已经在，诸如在体育运动赛事、临床外科模拟教学、脑功能开发以及康复训练等领域，取得了广泛的应用。然而，由于人体自身结构的对称性，以及开放场景的复杂性，导致现有的姿态评估方法在局部视野、人体特殊体位、人与人交互以及人与物交互等情况下会产生关键点或特征点识别失败的问题。

以康复训练为例，康复训练会进行局部关节的主动或被动锻炼，诸如肘关节屈伸、前臂旋前旋后等。视频采集往往采用近景局部视角。此时由于视野中采集的人体信息不完整而无法识别关键点或特征点。康复训练会进行不同体位的锻炼，诸如仰卧位、侧位站或坐等。比如在侧位站或坐时，由于人体自身的对称性结构，会产生自遮挡问题，使得靠近镜头的一侧会对远离侧产生遮挡，导致远离侧关键点或特征点识别失败。

此外，康复训练往往需要治疗师配合进行被动训练，此时因治疗师与患者紧密接触会产生互遮挡，从而导致关键点或特征点识别失败问题。比如治疗师协助康复患者进行前臂旋前旋后被动训练时，患者采取仰面平躺位，治疗师采用患者盘坐位。此时由于两者身体紧密接触，会导致上臂腕部关键点或特征点，以及部分下肢关键点或特征点识别失败。

康复训练往往会需要配合相关辅助器具来完成，诸如拉力绳、弹力球等。在使用过程中由于辅助器具对身体某些部位的遮挡也会导致关键点或特征点识别失败。

目前，现有技术中缺少对关键点或特征点识别失败问题的有效解决方案。本发明通过设计一种精准的分类框架，将康复医学、运动控制理论与计算机视觉、人工智能融合，解决姿态估计中人体自遮挡以及人与人、人与物互遮挡而导致的关键点估计失败的问题。

发明内容

为了解决现有技术中的问题，本发明提供了一种基于多个图像获取设备确定特征点的方法，所述方法包括：

每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像，并根据所获取的动态图像生成每个图像获取设备各自的动态图像文件；

根据预先设置的配置文件为每个动态图像文件确定各自的神经网络，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集；

对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集，基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息；以及

对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

在每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像之前还包括：

获取主体对象的位置属性和方向属性，基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置。

所述位置属性包括：主体对象的位置坐标和/或主题对象的位置区域。

所述方向属性包括：主体对象的单个朝向信息或主题对象的多个朝向信息。

所述获取主体对象的位置属性和方向属性包括：

接收输入数据并对输入数据进行解析以确定主体对象的位置属性和方向属性；或者

利用定位设备获取主体对象的定位信息，根据定位信息确定主体对象的位置属性和方向属性。

所述基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置包括：

基于位置属性和方向属性确定获取目标对象的动态图像的多个候选位置；

从多个候选位置中为每个图像获取设备确定基准位置；

其中每个图像获取设备的基准位置均不相同。

每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像包括：

每个图像获取设备在各自的基准位置处，以各自的预定拍摄角度分别获取主体对象的动态图像；或者

每个图像获取设备基于各自的基准位置形成移动路径，通过在各自的移动路径选择拍摄位置，并在拍摄位置处以所选择的拍摄角度分别获取主体对象的动态图像。

根据所获取的动态图像生成每个图像获取设备各自的动态图像文件包括：

根据每个图像获取设备各自所获取的动态图像，得到动态图像数据流；

利用动态图像数据流生成每个图像获取设备各自的动态图像文件。

所述预先设置的配置文件中包括神经网络的名称和神经网络的参数信息。

所述根据预先设置的配置文件为每个动态图像文件确定各自的神经网络包括：

根据预先设置的配置文件中的神经网络的名称确定所要使用的神经网络；

根据神经网络的参数信息对所要使用的神经网络进行参数配置；

将经过参数配置的神经网络确定为每个动态图像文件各自的神经网络；

其中每个动态图像文件的神经网络是相同的神经网络。

利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集包括：

利用每个动态图像文件各自的神经网络对每个图像获取设备所获取的动态图像文件进行数据处理，以获取与每个图像获取设备相关联的热图集。

所述对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集包括：

将多个热图集中的每个热图集依次选择作为当前热图集以进行：

将多个热图集中除了当前热图集之外的每个热图集确定为融合热图集；

基于多个融合热图集对当前热图集进行数据融合，以获得每个图像获取设备的经过数据融合的当前热图集。

所述基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息包括：

基于每个图像获取设备的经过数据融合的热图集进行主体对象的特征点的识别，得到多幅同一时刻的二维特征点；

根据每个图像获取设备的世界坐标系的坐标和图像坐标对二维特征点标定内外参数，基于内外参数获取包括主体对象的三维信息。

所述对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息包括：

利用图像识别设备对对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息。

所述对象信息包括：客体对象的数量和客体对象的类型。

基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

对客体对象的对象信息进行解析以确定客体对象的数量为零时，确定特征点修复类型为不进行修复；

当特征点修复类型为不进行修复时，不根据特征点修复类型对所述三维信息进行特征点的修复，直接根据主题对象的三维信息确定与主体对象相关联的多个特征点。

对客体对象的对象信息进行解析以确定客体对象的数量不为零并且客体对象的类型为辅助物体时，确定特征点修复类型为辅助物体修复；

利用主客体识别网络在三维信息中对主体对象进行整体标记，基于整体标记提取特征点，以及主体对象的空间特征和时间特征；

对客体对象进行特征点识别并进行特征点跟踪，所述特征点追踪包括对每一帧标记物理形状和位置信息，提取客体对象的空间特征和时间特征；

根据辅助物体修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

当辅助物体为跟随型辅助物体时，主体对象和客体对象在每一帧图像中的空间特征以及连续帧中的时间特征都进行变化；

当辅助物体为固定型辅助物体时，主体对象在每一帧图像中的空间特征以及连续帧的时间特征进行变化，而客体对象在每一帧图像中具有稳定的空间特征，且连续帧中的时间特征保持一致；

主题对象和客体对象的交互部分的空间特征存在波动。

根据辅助物体修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

利用主客体识别网络对经过数据融合的三维信息进行处理，其中主客体识别网络为融合自上而下的姿态识别网路与基于深度卷积的物体识别网络的识别网络；

对主体对象和客体对象进行标记，获得主体对象范围B_s和客体对象范围B_o；

在主体对象范围B_s内，通过自下而上的姿态识别网络对主体对象的多个部分进行初始识别，以获得多个初始特征点S_parts；

在客体对象范围B_o内，将客体对象标记为O；

提取每一帧的空间特征F_space，以及连续帧的时间特征F_time；

对空间特征F_space与时间特征F_time进行融合以确定客体对象的对象类别，分别进行跟随型辅助物体和固定型辅助物体的子场景标记s_i，其中i＝1，2；其中s₁为跟随型辅助物体并且s₂为固定型辅助物体；其中空间特征F_space包括：形状、体积、角度、纹理、颜色、梯度和位置；时间特征F_time包括位移、速度、上下文信息和旋转；

对于s₁子场景，随着时间推移，在主体对象范围的s₁子场景

和客体对象范围的s₁子场景

间存在动态交集

其中T₁为第一时间并且T₂为第二时间；

提取主体对象和客体对象两者的时间特征与空间特征，分别记为主体对象空间特征

主体对象时间特征

客体对象空间特征

和客体对象时间特征

在辅助物体的对象类别为跟随型辅助物体情况下，构建局部交互特征提取算子A_switho，针对

交集时间段[T₁，T₂]，对多个遮挡部位的初始特征点进行重新识别，从而确定与主体对象相关联的多个特征点s′_parts；

对于s₂子场景，随着时间推移，在主体对象范围的s₂子场景

和客体对象范围的s₂子场景

间存在动态交集

主体对象时间特征

和客体对象空间特征

其中在辅助物体的对象类别为固定型辅助物体的s₂场景下，客体对象静止不动，因此不存在客体对象时间特征

特征；

在动态交集

的时间段[T₁，T₂]内，由

进入

的范围而发生遮挡，对于每一个遮挡时刻t_j，利用主体对象和客体对象的局部交互特征提取算子A_sbyo，结合运动学先验知识K_prior，，对遮挡下的每一帧f(t＝t_j)进行修补，从而确定与主体对象相关联的多个特征点S″_parts。

对客体对象的对象信息进行解析以确定客体对象的数量不为零并且客体对象的类型为辅助对象时，确定特征点修复类型为辅助对象修复；

根据辅助对象修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

主体对象和客体对象在每一帧图像中的空间特征以及连续帧中的时间特征都进行变化。

根据辅助对象修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

获取主体对象和客体对象中每个的对象范围B_i，其jN≥i≥1，N为主体对象和客体对象的总数量，i为自然数；

针对每个B_i，通过自下而上的姿态识别网络对主体对象和客体对象各自的多个部分进行识别，以获得多个初始的特征点

其中N为主体对象和客体对象的总数量，M为主体对象或客体对象的所有初始特征点的总数量，其中

包括主体对象的多个初始的特征点和客体对象的多个初始的特征点；

通过B_i和

构造交互识别算子A_interactive，基于交互识别算子A_interactive对主体对象和客体对象的位于交互区域的部分中的特征点进行识别和修复；

构造主客体识别算子A_sando，(其中sando表示主体和物体)基于主客体识别算子A_sando分别计算

的时空特征

时空特征

对应于主体对象和客体对象中每个的对象范围B_i；

通过

计算主体对象和客体对象中每个的支撑点随时间的轨迹

其中T为时间范围上限，S为空间，下标s-t是时空特征，s-spatia为空间，t-temporal为时间以及主体对象和客体对象中全部支撑点随时间的轨迹

通过对比

与Co_t确定客体对象

以及主体对象S；

按照主体对象和客体对象重新对B_i进行初步分类，以获得主体对象范围B_s和客体对象范围B_o；对于时间维度，主体对象范围B_s和客体对象范围B_o存在动态交集

其中T₁为第一时间并且T₂为第二时间

提取主体对象和客体对象两者的时间特征与空间特征，在[T₁，T₂]的交互时间段内，分别记为主体对象空间特征

主体对象时间特征

客体对象空间特征

和客体对象时间特征

主客体识别算子A_sando在利用了特征点位置信息和点对方向信息的基础上，进一步添加力学信息

M≥j≥1；利用杠杆原理，分别计算动态交集

内

与

的力矩与力臂；结合运动学先验知识R_prior，对主体对象和客体对象的初始特征点进行重新标定以获得与主体对象相关联的多个特征点B′_s和与客体对象相关联的多个特征点B′_o。

当客体对象的数量为1时，基于交互识别算子A_interactive对主体对象和客体对象的位于交互区域的部分中的特征点进行识别和修复包括：

利用自上而下的姿态识别网路与自下而上的姿态识别网路结合后对对主体对象和客体对象的位于交互区域的部分中的特征点进行识别以获得数据主体对象范围B₁和客体对象范围B₂，以及主体对象的多个初始的特征点

和客体对象的多个初始的特征点

通过交互识别算子A_interactive，对B₁和B₂中淘汰的特征点进行互补范围的二次匹配；

更新以获取最新的特征点

分别得到

以及

根据本发明的另一方面，提供一种基于多个图像获取设备确定特征点的系统，所述系统包括：

多个图像获取设备，其中每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像，并根据所获取的动态图像生成每个图像获取设备各自的动态图像文件；

数据处理设备，用于根据预先设置的配置文件为每个动态图像文件确定各自的神经网络，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集；

数据融合设备，用于对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集，基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息；以及

图像识别设备，用于对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

根据本发明的另一方面，一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一所述的方法。

根据本发明的另一方面，一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一所述的方法。

本发明通过将康复医学、运动控制等理论知识融入到计算机视觉的姿态估计中，很好的解决了康复训练过程中各种关键点估计失败的问题。通过融合康复方案先验知识，将动作局部特征增强于传统部位识别网络之上，实现非完整人体动作识别，从而解决因局部视野而导致的关键点估计失败问题。通过多机位数据采集，融合相交视野数据，实现物理空间数据增强，提高网络对因人体对称性而导致自遮挡的识别精度。通过主动标记主客体(即主体为康复患者，客体为辅助物、康复医生或康复治疗师)，融合康复医学与运动控制理论知识，提取多维特征构建交互识别算子，对关键点识别网络结果进行再加工，对人与人交互过程中关联错误的部位进行重新匹配，以及对人与物交互过程中丢失的部位进行补全，从而解决人与人、人与物互遮挡的问题。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于多个图像获取设备确定特征点的方法的流程图；

图2为根据本发明实施方式的功能模块的结构示意图；

图3为根据本发明实施方式的确定空间物体点的精确位置的示意图；

图4为根据本发明实施方式的生成三维信息的示意图；

图5为根据本发明实施方式的提取特征点的示意图；

图6为根据本发明另一实施方式的提取特征点的示意图；

图7为根据本发明又一实施方式的提取特征点的示意图；

图8为根据本发明再一实施方式的提取特征点的示意图；

图9为根据本发明实施方式的基于多个图像获取设备确定特征点的系统的结构示意图。

具体实施方式

图1为根据本发明实施方式的基于多个图像获取设备确定特征点的方法100的流程图。方法100从步骤101处开始。

在步骤101，每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像，并根据所获取的动态图像生成每个图像获取设备各自的动态图像文件。在每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像之前还包括：获取主体对象的位置属性和方向属性，基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置。

所述位置属性包括：主体对象的位置坐标和/或主题对象的位置区域。方向属性包括：主体对象的单个朝向信息或主题对象的多个朝向信息。

所述获取主体对象的位置属性和方向属性包括：接收输入数据并对输入数据进行解析以确定主体对象的位置属性和方向属性；或者利用定位设备获取主体对象的定位信息，根据定位信息确定主体对象的位置属性和方向属性。

所述基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置包括：基于位置属性和方向属性确定获取目标对象的动态图像的多个候选位置；从多个候选位置中为每个图像获取设备确定基准位置；其中每个图像获取设备的基准位置均不相同。

每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像包括：每个图像获取设备在各自的基准位置处，以各自的预定拍摄角度分别获取主体对象的动态图像；或者每个图像获取设备基于各自的基准位置形成移动路径，通过在各自的移动路径选择拍摄位置，并在拍摄位置处以所选择的拍摄角度分别获取主体对象的动态图像。

根据所获取的动态图像生成每个图像获取设备各自的动态图像文件包括：根据每个图像获取设备各自所获取的动态图像，得到动态图像数据流；利用动态图像数据流生成每个图像获取设备各自的动态图像文件。

在步骤102，根据预先设置的配置文件为每个动态图像文件确定各自的神经网络，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集。

所述预先设置的配置文件中包括神经网络的名称和神经网络的参数信息。所述根据预先设置的配置文件为每个动态图像文件确定各自的神经网络包括：根据预先设置的配置文件中的神经网络的名称确定所要使用的神经网络；根据神经网络的参数信息对所要使用的神经网络进行参数配置；将经过参数配置的神经网络确定为每个动态图像文件各自的神经网络；其中每个动态图像文件的神经网络是相同的神经网络。

利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集包括：利用每个动态图像文件各自的神经网络对每个图像获取设备所获取的动态图像文件进行数据处理，以获取与每个图像获取设备相关联的热图集。

在步骤103，对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集，基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息。

所述对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集包括：将多个热图集中的每个热图集依次选择作为当前热图集以进行：将多个热图集中除了当前热图集之外的每个热图集确定为融合热图集；基于多个融合热图集对当前热图集进行数据融合，以获得每个图像获取设备的经过数据融合的当前热图集。

所述基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息包括：基于每个图像获取设备的经过数据融合的热图集进行主体对象的特征点的识别，得到多幅同一时刻的二维特征点；根据每个图像获取设备的世界坐标系的坐标和图像坐标对二维特征点标定内外参数，基于内外参数获取包括主体对象的三维信息。

在步骤104，对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

所述对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息包括：利用图像识别设备对对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息。所述对象信息包括：客体对象的数量和客体对象的类型。

基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：对客体对象的对象信息进行解析以确定客体对象的数量为零时，确定特征点修复类型为不进行修复；当特征点修复类型为不进行修复时，不根据特征点修复类型对所述三维信息进行特征点的修复，直接根据主题对象的三维信息确定与主体对象相关联的多个特征点。

基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：对客体对象的对象信息进行解析以确定客体对象的数量不为零并且客体对象的类型为辅助物体(辅助物体例如是手持设备等，或者是固定设备，例如大型器械)时，确定特征点修复类型为辅助物体修复；利用主客体识别网络在三维信息中对主体对象进行整体标记，基于整体标记提取特征点，以及主体对象的空间特征和时间特征；对客体对象进行特征点识别并进行特征点跟踪，所述特征点追踪包括对每一帧标记物理形状和位置信息，提取客体对象的空间特征和时间特征；根据辅助物体修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

当辅助物体为跟随型辅助物体时，主体对象和客体对象在每一帧图像中的空间特征以及连续帧中的时间特征都进行变化；当辅助物体为固定型辅助物体时，主体对象在每一帧图像中的空间特征以及连续帧的时间特征进行变化，而客体对象在每一帧图像中具有稳定的空间特征，且连续帧中的时间特征保持一致；主题对象和客体对象的交互部分的空间特征存在波动。

根据辅助物体修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：利用主客体识别网络对经过数据融合的三维信息进行处理，其中主客体识别网络为融合自上而下的姿态识别网路与基于深度卷积的物体识别网络的识别网络；

对主体对象(主体对象例如是要识别的目标对象或人)和客体对象进行标记，获得主体对象范围B_s和客体对象范围B_o；

在客体对象范围B_o内，将客体对象标记为O；

提取每一帧的空间特征F_space，以及连续帧的时间特征F_time；

对空间特征F_space与时间特征F_time进行融合以确定客体对象的对象类别，分别进行跟随型辅助物体(例如是，手持设备或移动设备)和固定型辅助物体(例如，固定设备或墙体)的子场景标记s_i，其中i＝1，2；其中s₁为跟随型辅助物体并且s₂为固定型辅助物体；其中空间特征F_space包括：形状、体积、角度、纹理、颜色、梯度和位置；时间特征F_time包括位移、速度、上下文信息和旋转；

和客体对象范围的s₁子场景

间存在动态交集

其中T₁为第一时间并且T₂为第二时间；

主体对象时间特征

客体对象空间特征

和客体对象时间特征

和客体对象范围的s₂子场景

间存在动态交集

主体对象时间特征

和客体对象空间特征

特征；

在动态交集

的时间段[T₁，T₂]内，由

进入

对客体对象的对象信息进行解析以确定客体对象的数量不为零并且客体对象的类型为辅助对象(例如，进行康复时的辅助人员等)时，确定特征点修复类型为辅助对象修复；

主体对象和客体对象在每一帧图像中的空间特征以及连续帧中的时间特征都进行变化。根据辅助对象修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

获取主体对象和客体对象中每个的对象范围B_i，其中N≥i≥1，N为主体对象和客体对象的总数量，i为自然数；

通过B_i和

构造主客体识别算子A_sando，基于主客体识别算子A_sando分别计算

的时空特征

时空特征

对应于主体对象和客体对象中每个的对象范围B_i；

通过

计算主体对象和客体对象中每个的支撑点随时间的轨迹

其中T为时间范围上限，S为空间，下标s-t是时空特征，s-spatial为空间，t-temporal为时间；以及主体对象和客体对象中全部支撑点随时间的轨迹

通过对比

与Co_t确定客体对象

以及主体对象S；

T₂≥t≥T₁；其中T₁为第一时间并且T₂为第二时间

主体对象时间特征

客体对象空间特征

和客体对象时间特征

利用杠杆原理，分别计算动态交集

内

与

和客体对象的多个初始的特征点

更新以获取最新的特征点

分别得到

以及

图2为根据本发明实施方式的功能模块的结构示意图。从功能结构上来说，本发明涉及数据融合模块、场景分类模块、遮挡修复模块、量化分析模块和量表映射模块。如其中数据融合模块用于：

姿态估计过程中，单机位模式对于遮挡等情况识别效果差，无法精确定位人体空间姿态位置信息。而多机位信息是解决该问题的一种可行且高效的方案，如图3所示，不同机位C_u和c_v同时拍摄空间物体任一点，分别得到平面像

和

从投影几何学计算可反推出空间物体点P的精确位置。

主流二维姿态识别利用heatmap来用于回归姿态各个关键点，本发明利用两路神经网络，分别获得不同机位的heatmap，然后通过融合两路heatmap图像，重新获取新的两路heatmap，从而获取空间三维姿态信息，具体流程图如图4所示。

场景分类模块与遮挡修复模块用于：在体育运动赛事、临床外科模拟教学、脑功能开发以及康复训练等领域，都属于遵循行业相关标准规范、且有特定约束条件下的半开放场景，即对人体的位置、人与物的交互、人与人的交互都有一定的规则要求。

所以本发明整体处理流程的首个环节是场景分类，通过人与物自动识别的分类网络等方式将场景分为单人、人与物、人与人三种场景。

1)单人：单人场景指的是识别区域内只有一个主体作为跟踪目标，其余都作为干扰因素进行排除。

2)人与物：通过场景分类自动识别出场景中的主体与客体，以康复训练为例，主体是康复患者，客体是康复辅具。通过识别网络对主体进行整体标记，然后提取关键点信息。对客体进行识别并进行跟踪，即每一帧标记物理的形状、位置信息等。通过提取客体的空间特征、时间特征再次将“人与物”交互场景分为“人用物”与“人靠物”两种子场景。

2.1人用物

该场景下，主体的人与客体的物，在每一帧图像中的空间特征以及连续帧中的时间特征都在变化。即主体的人与客体的物都是移动的。

2.2人靠物

该场景下，只有主体的人在每一帧图像中的空间特征以及连续帧的时间特征在变化，客体的物在每一帧图像中具有稳定的空间特征，且连续帧中的时间特征保持一致，仅在主客体交互部分的空间特征会有波动。即客体的物是不动的或者相对稳定的，主体的人是移动的。

具体的识别方案包括：融合数据结果直接进入主客体识别网络(即融合了自上而下的人体姿态识别网路与基于深度卷积的物体识别网络)，首先从整体上对主体的人与客体的物进行标记，获得主客体的范围边框回归Boundingbox，分别为B_s，B_o。在B_s范围内，通过自下而上网络对人体各部分进行初始的精准识别，标记S_parts。在B_o范围内，对客体的物标记为O。与此同时提取每一帧的空间特征F_space(比如形状、体积、角度、位置、纹理、颜色、梯度和位置)以及连续帧的时间特征F_time(位移、速度、上下文信息、旋转等)。融合空间特征F_space与时间特征F_time确定客体物的状态，分别进行“人用物”与“人靠物”两类子场景标记s_i，i＝1，2。

对于s₁场景下，随着时间推进，在

与

范围间存在着动态交集

此时同时提取主客体两者的时间与空间特征，分别记为

构建人用物局部交互特征提取算子A_switho，即subjectwithobject对

交集时间段[T₁，T₂]，重新精准识别各遮挡部位，获得完整关键点信息，标记为S′_parts。

对于s₂场景下，随着时间推进，在

与

范围间存在着动态交集

此时同时提取主客体两者的时间与空间特征，分别记为

(s₂场景下客体的物不动，因此不存在

特征，或者说

)。在

交集时间段[T₁，T₂]，

因为进入

范围，而发生遮挡，对于每一个遮挡时刻t_i，利用人靠物局部交互特征提取算子A_sbyo，即subjectbyobject，结合康复训练的运动学先验知识K_prior，，对遮挡下的每一帧f(t＝t_i)进行修补，从而得到新的关键部位识别结果S′_parts。

3)人与人：

融合数据结果直接进入自上而下的人体姿态识别网路，获取数据中每个人的Boundingbox范围，标记为B_i，N≥i≥1，N为总人数。针对每个B_i，进入自下而上姿态识别网络，识别对应的人体各部分，分别标记为

其中N同样为总人数，M为人体所有关键点总数(根据姿态模型不同，关键点个数略有不同，例如BODY_25、BODY_19、BODY_23、BODY_25B、BODY_135、COCO_BODY、MPI_BODY等等)。

3.1)通过B_i和

构造交互识别算子A_interactive，对交互区域的人体各部分进行识别修补，具体流程如下，

①初始自上而下与自下而上网络结合后生成的数据B₁和B₂，以及

和

如图5所示。

②通过PAF算子，对两个Boundingbox中淘汰关键点进行互补Boundingbox的二次匹配，如图6所示：

③重新更新最新的关节点

分别得到

以及

修复效果如图7所示。

3.2)通过构造主客体识别算子A_sando，分别计算每个

的时空特征

对应每个人体区域B_i。通过

计算每个人体的支撑点随时间的轨迹

以及整体全局支撑点随时间的轨迹

通过对比

与Co_t确定客体

以及主体S。

①按照主客体重新对B_i进行初步分类，分别标记为B_s和B_o，对于时间维度，主客体的Boundingbox会发生动态交集

此时同时提取主客体两者的时间与空间特征，分别记为

在[T₁，T₂]交互时间段内，如图8所示。

②算子A_sando在利用了关键点位置信息、点对方向信息基础上，进一步添加力学信息

M≥j≥1。因为人体骨骼属于刚性不变结构，利用杠杆原理，分别计算接触区域

内

与

的力矩与力臂。并融合康复训练方案先验知识R_prior，对主客体重新标定B′_s和B′_o。

至此完成单人、人与物、人与人各个场景下的遮挡补全工作以及主客体识别工作。

量化分析模块用于基于述场景分类与遮挡修复模块结果，能够获得主客体(单人情况下只有主体)精准的Boundingbox数据B_i，N≥i≥1，以及对应的完整的各个关键点数据S′_parts与

在此基础上统计并计算各类定量特征，主要有静态特征、动态特征、统计特征，以及运动学特征等。

量表映射模块用于对目标对象的多个特征点进行归一化处理，以获取多个通用特征点，并基于至少一个通用特征点的变化角度和/或移动数据确定目标对象的运动属性。根据预先定义的数据映射规则将目标对象的运行属性映射为预定格式的数据文件。

图9为根据本发明实施方式的基于多个图像获取设备确定特征点的系统900的结构示意图。系统900包括：图像获取设备901、数据处理设备902、数据融合设备903以及图像识别设备904。

多个图像获取设备901，其中每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像，并根据所获取的动态图像生成每个图像获取设备各自的动态图像文件。在每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像之前还包括：获取主体对象的位置属性和方向属性，基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置。

数据处理设备902，用于根据预先设置的配置文件为每个动态图像文件确定各自的神经网络，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集。

数据融合设备903，用于对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集，基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息。

图像识别设备904，用于对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点。

在客体对象范围B_o内，将客体对象标记为O；

提取每一帧的空间特征F_space，以及连续帧的时间特征F_time；

和客体对象范围的s；子场景

间存在动态交集

其中T₁为第一时间并且T₂为第二时间；

主体对象时间特征

客体对象空间特征

和客体对象时间特征

和客体对象范围的s₂子场景

间存在动态交集

主体对象时间特征

和客体对象空间特征

特征；

在动态交集

的时间段[T₁，T₂]内，由

进入

通过B_i和

的时空特征

时空特征

对应于主体对象和客体对象中每个的对象范围B_i；

通过

计算主体对象和客体对象中每个的支撑点随时间的轨迹

通过对比

与Co_t确定客体对象

以及主体对象S；

其中T₁为第一时间并且T₂为第二时间

主体对象时间特征

客体对象空间特征

和客体对象时间特征

利用杠杆原理，分别计算动态交集

内

与

和客体对象的多个初始的特征点

更新以获取最新的特征点

分别得到

以及

Claims

1.一种基于多个图像获取设备确定特征点的方法，所述方法包括：

2.根据权利要求1所述所述的方法，在每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像之前还包括：

3.根据权利要求2所述的方法，所述位置属性包括：主体对象的位置坐标和/或主题对象的位置区域。

4.根据权利要求2所述的方法，所述方向属性包括：主体对象的单个朝向信息或主题对象的多个朝向信息。

5.根据权利要求2所述的方法，所述获取主体对象的位置属性和方向属性包括：

6.根据权利要求2所述的方法，所述基于位置属性和方向属性为多个图像获取设备中每个图像获取设备确定基准位置包括：

从多个候选位置中为每个图像获取设备确定基准位置；

其中每个图像获取设备的基准位置均不相同。

7.根据权利要求1所述的方法，每个图像获取设备基于各自的基准位置分别获取主体对象的动态图像包括：

8.根据权利要求1所述的方法，根据所获取的动态图像生成每个图像获取设备各自的动态图像文件包括：

9.根据权利要求1所述的方法，所述预先设置的配置文件中包括神经网络的名称和神经网络的参数信息。

10.根据权利要求9所述的方法，所述根据预先设置的配置文件为每个动态图像文件确定各自的神经网络包括：

其中每个动态图像文件的神经网络是相同的神经网络。

11.根据权利要求1所述的方法，利用每个动态图像文件各自的神经网络进行数据处理，以获取与每个图像获取设备相关联的热图集包括：

12.根据权利要求1所述的方法，所述对多个热图集进行数据融合以获得每个图像获取设备的经过数据融合的热图集包括：

13.根据权利要求1所述的方法，所述基于每个图像获取设备的经过数据融合的热图集获得包括主体对象的三维信息包括：

14.根据权利要求1所述的方法，所述对每个动态图像文件进行图像识别以确定三维信息所涉及的客体对象的对象信息包括：

15.根据权利要求1或14所述的方法，所述对象信息包括：客体对象的数量和客体对象的类型。

16.根据权利要求1所述的方法，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

17.根据权利要求1所述的方法，基于客体对象的对象信息确定特征点修复类型，根据特征点修复类型对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

18.根据权利要求17所述的方法，当辅助物体为跟随型辅助物体时，主体对象和客体对象在每一帧图像中的空间特征以及连续帧中的时间特征都进行变化；

主题对象和客体对象的交互部分的空间特征存在波动。

19.根据权利要求18所述的方法，根据辅助物体修复对所述三维信息进行特征点的修复，以确定与主体对象相关联的多个特征点包括：

在主体对象范围B_s内，通过自下而上的姿态识别网络对主体对象的多个部分进行初始识别,以获得多个初始特征点S_parts；

在客体对象范围B_o内，将客体对象标记为O；

提取每一帧的空间特征F_space，以及连续帧的时间特征F_time；

对空间特征F_space与时间特征F_time进行融合以确定客体对象的对象类别，分别进行跟随型辅助物体和固定型辅助物体的子场景标记s_i，其中i＝1,2；其中s₁为跟随型辅助物体并且s₂为固定型辅助物体；其中空间特征F_space包括：形状、体积、角度、纹理、颜色、梯度和位置；时间特征F_time包括位移、速度、上下文信息和旋转；