CN117854666B

CN117854666B - 一种三维人体康复数据集构建方法及装置

Info

Publication number: CN117854666B
Application number: CN202410262492.5A
Authority: CN
Inventors: 王宏升; 林峰
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-06-04
Anticipated expiration: 2044-03-07
Also published as: CN117854666A

Abstract

本说明书公开了一种三维人体康复数据集构建方法及装置。在本说明书提供的三维人体康复数据集构建方法中，通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集目标用户在执行各标准动作时的目标视频；对目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含目标用户在执行一个标准动作时的视频内容；针对每个动作视频，根据该动作视频中目标用户执行的标准动作确定该动作视频的动作标签；根据动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据；根据动作标签、二维人体关键点数据与三维人体网格数据，构建三维人体康复数据集。

Description

一种三维人体康复数据集构建方法及装置

技术领域

本说明书涉及计算机技术领域，尤其涉及一种三维人体康复数据集构建方法及装置。

背景技术

如今，在康复治疗的领域中，人体康复数据集是一种至关重要的辅助医疗手段。相比于由康复治疗师一对一地对患者的康复训练进行观察与记录的方式，引入人体康复数据集这种数字化手段来重建患者的三维人体数据能够有效节省人力资源并加快康复效率。

然而，随着现代化康复治疗技术的高速发展，以及医疗诊断等领域对于大规模、多样化的人体运动数据需求的日益增长，现有的数据集构建方法由于往往依赖于人工标注，存在着标注成本高昂、效率低下、标注质量参差不齐等问题，已经开始难以满足康复治疗的需求。

因此，如何更加高效地构建高质量的三维人体康复数据集是一个亟待解决的问题。

发明内容

本说明书提供一种三维人体康复数据集构建方法及装置，以至少部分地解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种三维人体康复数据集构建方法，包括：

通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集所述目标用户在执行所述各标准动作时的目标视频；

对所述目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含所述目标用户在执行一个标准动作时的视频内容；

针对每个动作视频，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签；

根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据；

根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集。

可选地，对所述目标视频进行裁剪，得到若干动作视频，具体包括：

提取所述目标视频的音频数据；

根据预设的指定词在所述音频数据中出现的位置，对所述目标视频进行裁剪，得到若干动作视频。

可选地，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签，具体包括：

将该视频输入预先训练的匹配模型，使所述匹配模型识别该动作视频中所述目标用户执行的标准动作，并将所述目标用户执行的标准动作的动作名称作为该动作视频的动作标签进行输出。

可选地，根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据，具体包括：

对该动作视频进行切割，得到该动作视频的图像帧序列；

针对所述图像帧序列中的每个图像帧，确定该图像帧中所述目标用户的人物位置；

根据所述动作捕捉数据与所述人物位置，确定该图像帧中各人体关键点的位置；

根据该动作视频的图像帧中包含的各图像帧中各人体关键点的位置，确定与该动作视频的动作标签对应的二维人体关键点数据。

可选地，确定该图像帧中所述目标用户的人物位置，具体包括：

在该图像帧中确定完全包含所述目标用户的最小矩形框架；

将所述最小矩形框架的中心点确定为所述目标用户的位置。

可选地，根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的三维人体网格数据，具体包括：

将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型，使所述重建模型输出所述各图像帧中所述目标用户的三维人体模型；

根据该动作视频的图像帧序列包含的所述各图像帧中所述目标用户的三维人体模型与所述二维人体关键点数据，确定与该动作视频的动作标签对应的三维人体网格数据。

可选地，所述重建模型至少包含提取层、空间解耦层、时间解耦层、输出层；

将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型，使所述重建模型输出所述各图像帧中所述目标用户的三维人体模型，具体包括：

将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型；

采用所述提取层提取所述各图像帧的图像特征；

将所述各图像帧的图像特征分别输入所述空间解耦层与所述时间解耦层，分别得到所述空间解耦层输出的空间解耦特征与所述时间解耦层输出的时间解耦特征；

通过所述输出层，根据所述空间解耦特征、所述时间解耦特征与所述各图像帧中所述目标用户的人物位置输出所述各图像帧中所述目标用户的三维人体模型。

本说明书提供的一种三维人体康复数据集构建装置，所述装置包括：

采集模块，用于通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集所述目标用户在执行所述各标准动作时的目标视频；

裁剪模块，用于对所述目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含所述目标用户在执行一个标准动作时的视频内容；

标注模块，用于针对每个动作视频，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签；

确定模块，用于根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据；

构建模块，用于根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述三维人体康复数据集构建方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述三维人体康复数据集构建方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的三维人体康复数据集构建方法中，通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集所述目标用户在执行所述各标准动作时的目标视频；对所述目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含所述目标用户在执行一个标准动作时的视频内容；针对每个动作视频，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签；根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据；根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集。

在采用本方法构建人体三维康复数据集时，可通过一套全自动的流程，采集到多视角、多目标环境的数据，增加了数据的泛化性与实用性，避免了训练时容易过拟化的情况，同时减少了繁琐的人力消耗，加快了数据集标注的效率。通过全自动的音频裁剪，可以将冗长的目标视频全自动地裁剪为大量的细化动作视频，避免了繁琐的多次开关拍摄与人力视频裁剪过程，大幅度提升了数据集制作效率。通过对每种动作以及完成程度均进行采集，本方法所采集的数据可以直接用来训练用于判断动作完整性的模型，可以直接应用到数字化康复技术之中。同时，本方法中地的动作标签、二维人体关键点数据、三维人体网格数据均通过模型生成，有效减少了人力消耗以及数据集的构造时间。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种三维人体康复数据集构建方法的流程示意图；

图2为本说明书提供的一种红外采集设备与视频采集设备的设置方式示意图；

图3为本说明书提供的一种三维人体康复数据集构建装置的示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种三维人体康复数据集构建方法的流程示意图，具体包括以下步骤：

S100：通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集所述目标用户在执行所述各标准动作时的目标视频。

本说明书所提供的三维人体康复数据集构建方法中的所有步骤均可由任何具有计算功能的电子设备实现，例如终端、服务器等设备。

在医疗领域中，采用三维人体康复数据集来客观评定患者在康复治疗过程中的表现是一种合理且高效的辅助医疗手段。一般的，由于三维人体康复数据集的主要作用于患者进行康复训练的阶段，因此三维人体康复数据集中通常会包含各种在康复训练过程中患者可能需要做出的动作所对应的人体数据。

本方法主要应用于构建在医疗领域中使用的三维人体康复数据集，基于此，可在此步骤中，首先采集目标用户在执行预设的各标准动作时的人体运动数据，也就是动作捕捉数据和目标视频。其中，目标用户可以为任意体型正常且健康、健全的人。目标用户主要负责以标准的姿势做出各种预设的标准动作，以供各种采集设备采集各种需要的数据，以在后续步骤中应用。

动作捕捉数据可通过红外采集设备配合较为成熟的动作捕捉软件获得，例如qualisys等软件。动作捕捉数据可包括但不限于人体各部位在执行各标准动作时的空间位置、速度、加速度、角速度、角加速度等信息。目标视频可通过视频采集设备进行采集，用于记录目标用户在执行各标准动作时的过程。

在本方法中，采用的红外采集设备与视频采集设备的位置可根据具体需求进行设置，本说明书对此不做具体限制。举例来说，如图2所示，为了采集到全方位的动作捕捉数据与目标视频，可将红外采集设备（红外镜头）设置为平均对称的四方分布，以全方位地检测到三维（Three Dimensions，3D）反光点从而采集到数据；视频采集设备（视频镜头）设置于目标用户的四个正点方向和四个顶角方向，对目标用户进行多角度的拍摄。同时，红外采集设备和视频采集设备的数量也可根据具体需求进行设置，例如可设置48个红外采集设备、8个视频采集设备等，本说明书同样对此不做具体限制。

在本方法中，为了使最终构建出的三维人体康复数据集能够对患者的康复过程起到最大的帮助，本方法中预设的动作可基于例如Fugl-Meyer定量表、Brunnstrom定量表等临床医学上广泛应用的康复训练表进行设计。以此为依据设计出的康复动作不仅能够在研究中使用，还可用于康复评估，为康复治疗提供客观的参考标准。通过采用Fugl-Meyer定量表和Brunnstrom定量表，可以实现量化评估康复动作的效果，为医疗领域的专业人士提供更具体、可操作的数据。这不仅有助于科学评估患者的康复进展，还为制定个性化的治疗计划提供了基础。

更进一步地，为了更全面地涵盖康复过程中可能涉及的不同情况，在本方法中，可将三维人体康复数据集分为上肢和下肢两个部分。这样的划分能够深入研究和评估不同身体部位的康复效果。同时，在这种思想下，拍摄的标准动作中也会包括仰卧位、坐立位、站立位等各种不同姿态下的动作，以模拟患者在不同康复阶段和生活场景中的实际行为。

S102：对所述目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含所述目标用户在执行一个标准动作时的视频内容。

通常情况下，为了保证运动数据采集的连贯性以及节省采集时间，在一次采集过程中会让目标用户连续执行全部需要采集的标准动作，一次采集的过程中不会出现长时间的暂停或休息。在目标用户执行动作的过程中，可通过语音播报的形式来告知目标用户当前需要完成的行为。例如，可向目标用户播报“动作A开始”、“动作A结束”等语音，以使目标用户做出正确的标准动作。

需要考虑到的是，在患者进行康复训练时，不同的患者对于相同的标准动作能够完成的程度不同。例如，对于膝关节屈曲这一动作，有些患者可能能够做到膝关节90度屈曲，有些患者只能够做到膝关节45度屈曲。因此，本方法为每个标准动作设置了0、1、2三个不同的阶段等级，在采集人体运动数据时，需要让作为动作样本的目标用户在执行每个标准动作时，均将三各不同阶段等级的动作全部完成。根据预先设置的用于指示目标用户执行标准动作的语音播报的不同，目标用户可采用不同的方式完成标准动作。

举例来说，对于“肘关节伸直，肩关节屈曲”这一动作，可将屈曲90°设置为等级0，屈曲135度设置为等级1，屈曲180度设置为等级2。一种情况，在目标用户听到“动作：肘关节伸直，肩关节屈曲，开始”这一语音播报时，可平缓地做出肘关节伸直，肩关节90度到180度的屈曲，即一次性完成标准动作的所有阶段。另一种情况，语音播报会在先播放“动作：肘关节伸直，肩关节屈曲”后，依次播放“阶段零，开始”、“阶段零，结束”、“阶段一，开始”……等语音，直到指示目标用户完成标准动作的所有阶段。

可以想到的，不同的标准动作并不能够混合在一起进行分析。因此，需要对包含了所有标准动作的录像的目标视频进行裁剪，使每个不同的标准动作分开单独存在于一个动作视频中。在对目标视频进行裁剪时，可存在多种不同的方式，本说明书在此提供一种具体实施例以供参考。具体地，可提取所述目标视频的音频数据；根据预设的指定词在所述音频数据中出现的位置，对所述目标视频进行裁剪，得到若干动作视频。

由于目标用户需要根据语音播报的指示来完成相应的标准动作，因此，在采集目标视频的过程中，会将所有语音播报作为音频内容采集到目标视频中。其中，指定词可以是动作名称、阶段提示词、“开始”、“结束”等词。对于每个标准动作，语音播报都会清晰、完整地播放其动作名称，结合各阶段提示以及“开始”、“结束”等标志性较强的词汇，可以非常准确地将目标视频划分为若干包含不同标准动作的动作视频。当然，需要注意的是，在采集目标视频的过程中需要保证采集场地相对安静，尽量不要出现影响语音播报的杂音，以保证音频数据中的语音播报能够被准确识别。

具体来说，在实际操作时，可提取目标视频的单通道的音频数据，采样率可根据需求进行设置，例如16kHz等。利用例如PaddleSpeechde等较为成熟的先进流式音频算法，对音频数据中的声音信息进行高效而准确的识别，全面地理解音频中包含的信息。这个流程不仅仅是简单的声音转文字，更是对音频数据的深度分析和理解。通过这一步骤，可以将音频信息转化为文本信息，并将其有序地记录在日志文件中，以便后续的处理和分析，不仅为数据的可追溯性提供了便利，还为进一步的语义分析和模型训练提供了高质量的输入。

为了精确捕捉音频信息的时序性，为后续的分析和整合提供可靠的基础，并更精准地理解和利用每个信息块所包含的内容，流式音频生成的每个信息块之间可存在一定的时间间隔，这一间隔可根据具体需求进行设置，例如80毫秒等。对各信息块进行处理时，通过判断上下文信息是否重复，可以去除重复信息，确保每个信息块与其准确的时间戳的对应关系。这一步骤的精密处理有助于确保数据的准确性和可信度，为整个流程的顺利进行提供有力的支持。

基于我们在上述步骤中提取的文本信息以及相应的时间戳，可以迅速定位到语音中涉及的指定词所出现的时刻。进而可以准确地确定出目标视频中每个标准动作的起始时刻和结束时刻，并进一步作为各动作视频的起点和终点对目标视频进行裁剪。这个过程不仅高效，高且精确，通过精准的时间戳，能够准确划分出需要的动作视频，去除无用的空白片段，极大地提升了数据处理的精度和效率。

更进一步地，在目标用户执行标准动作的过程中，可能会出现失误、没有理解语音播报指令以及其它突发情况等意外事件，但目标视频的采集并不会停止。此时，采集到的目标视频中便会存在一段或多段无用的意外片段。当意外事件发生在执行两个标准动作之间的空白时间时，裁剪视频的过程会自然地将这部分去除掉。相反的，当意外事件发生在某一个标准动作的执行过程之中时，划分出的相应的动作视频中就会存在一大段无用的视频片段。此时，就需要进一步删除动作视频中的部分无用内容。具体来说，可以采用与裁剪目标视频时相同的方式，在每个动作视频中的音频数据中，找到与执行标准动作无关的声音的开始时刻与结束时刻，并将二者之间的内容删除。

S104：针对每个动作视频，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签。

在将目标视频裁剪为动作视频时，只能够保证每个不同的动作视频中包含了不同的标准动作，但并不清楚每个动作视频中包含的标准动作具体是哪一个。为了后续分析得到的数据能够与标准动作正确对应，在此步骤中，需要识别出每个动作视频中包含的具体的标准动作并对动作视频打上相应的动作标签。

具体地，可将该视频输入预先训练的匹配模型，使所述匹配模型识别该动作视频中所述目标用户执行的标准动作，并将所述目标用户执行的标准动作的动作名称作为该动作视频的动作标签进行输出。

其中，预先训练的匹配模型可以是任何具有匹配功能的神经网络模型，例如较为成熟的ActionCLIP等模型，本说明书对此不做具体限制。以ActionCLIP模型为例进行说明。ActionCLIP是一种多模态模型，旨在处理图像和文本之间的关系。ActionCLIP的设计使其能够理解和表示图像和文本之间的语义关联。同时，ActionCLIP也是一种新的视角，它将此任务建模为一个多模态学习框架内的视频文本匹配问题，通过更多的语义语言监督来加强视频表示，并使模型能够在没有任何进一步标记数据或参数要求的情况下进行零样本动作识别。

在匹配模型中可通过预先训练存储一组自定义的标签（例如：['膝关节屈曲'、'手触腰椎'、'前臂旋前旋后'、'腕关节屈伸']），这一组标签与本方法中目标用户执行的各标准动作相匹配，标签可以是标准动作的动作名称，每个标签对应于一个标准动作。在向模型输入动作视频后，ActionCLIP模型会返回对每一种标签的置信度。当某一标签的置信度大于等于70%时，可认为这一标签是正样本，并将这一标签作为这一动作视频的动作标签。当某一标签的置信度小于70%时，可认为这一标签是负样本，应当忽略。如果不存在任何标签的置信度超过70%，可对这一动作视频进行人工审查。在本方法目前已经试验性构建的三维人体康复数据集中，有98%的动作视频均存在超过70%置信度的标签。这表明通过这一方式，可极大幅度降低人力消耗，并加快数据集的构造效率。这一标注方法为零样本动作识别提供了新的途径，并为后续模型的训练和性能提升奠定了坚实基础。

最终，得到的每个不同的动作视频可采用不同的视频标识进行区分并存储。视频标识的命名方式可根据具体需求进行设置，本说明书对此不做具体限制。本方法在此提供一个具体实施例以供参考。具体地，可采用一个包含六位数字的编号作为视频标识。在上述视频标识中，第一位数字代表目标用户的编号，第二位数字代表动作视频中的标准动作，第三位数字对应于采集该段视频的视频采集设备的编号，第四到第六位数字则构成了该视频数据的唯一编号。举例来说，比如编号为120011的动作视频，可以解读为：0号视频采集设备拍摄了编号为1的目标用户执行编号为2的标准动作的动作视频，这一动作视频的序号为011。

S106：根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据。

经过本方法上述各步骤确定出各包含不同标准动作的动作视频，并得到每个动作视频的动作标签后，可在此步骤中，进一步确定出每个动作标签对应的二维人体关键点数据和三维人体网格数据。

其中，可首先确定出二维人体关键点数据。具体地，可对该动作视频进行切割，得到该动作视频的图像帧序列；针对所述图像帧序列中的每个图像帧，确定该图像帧中所述目标用户的人物位置；根据所述动作捕捉数据与所述人物位置，确定该图像帧中各人体关键点的位置；根据该动作视频的图像帧中包含的各图像帧中各人体关键点的位置，确定与该动作视频的动作标签对应的二维人体关键点数据。

通常情况下，二维人体关键点可通过深度学习技术或传统计算机视觉技术来获得，传统的人体关键点检测方法主要包括基于图结构和形变部件模型的方法，这些方法涉及2D人体部件检测器，使用图模型建立各部件的连通性，并结合人体运动学的相关约束不断优化图结构模型来估计人体姿态，相比之下，本方法采用的深度学习技术在人体关键点检测方面表现出色。深度学习方法检测2D关键点的基本思路是，将人体关键点检测问题转化为一个回归问题，即输入一张图片，输出该图片中所有关键点的坐标。

由此，可首先对动作视频进行切割，得到动作视频的图像帧序列。其中，切割得到的图像帧序列中包含的图像数量可根据需求进行设置，例如，可切割为每秒钟30帧等，本说明书对此不做具体限制。

在确定一个图像帧中各人体关键点的位置时，可采用例如YOLO Pose等较为成熟的算法。YOLOPose算法的独特之处在于其端到端训练的能力以及对目标关键点相似性（Object Keypoint Similarity，OKS）指标的有效优化。通过端到端训练，该算法能够在单一的训练过程中联合学习人物定位和二维人体关键点回归，从而实现更加一体化的模型训练。

在人物定位方面，YOLOPose采用了先定位人物位置，以人物位置作为初始点回归二维人体关键点。在确定人物位置时，可具体地，在该图像帧中确定完全包含所述目标用户的最小矩形框架；将所述最小矩形框架的中心点确定为所述目标用户的位置。

在上述方法中，可采用单阶段目标检测算法YOLO进行人物定位，以确定目标用户地位置。在输入图像帧后，YOLO就会迅速而准确地使用一个最小矩形检测框来定位目标用户的位置。这一单阶段的目标检测方法具有高效性和简洁性，通过在一次前向传播中完成检测和定位，避免了多阶段检测算法的复杂性。由于YOLO将人物直接与最小外接矩形相匹配，能够有效地去除与人物动作无关的大量背景信息，从而显著降低了数据集的储存、构建与计算成本。这种方法不仅提高了算法的速度，也为后续的数据处理和分析提供了更为干净、精确的人物定位结果。同时，由于降低了冗余信息，还使得训练过程更为高效，为实现快速而可靠的目标检测奠定了坚实的基础。同时，这种方法有效地避免了在画面中存在多个人物造成骨骼错移位等问题。通过使用边界框（bounding box，bbox）中心点，算法能够更加准确地聚焦于人物的位置，使得二维人体关键点的回归更为稳定。

此外，优化OKS指标也是YOLOPose算法表现卓越的原因之一。OKS指标是评估关键点检测性能的重要标准，通过有效地优化这一指标，算法能够在训练过程中更好地对人体姿态进行建模，提高检测的精度和鲁棒性。

进一步地，在确定出一个动作标签的二维人体关键点数据后，可继续确定出该动作标签的三维人体康复数据集。具体地，可将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型，使所述重建模型输出所述各图像帧中所述目标用户的三维人体模型；根据该动作视频的图像帧序列包含的所述各图像帧中所述目标用户的三维人体模型与所述二维人体关键点数据，确定与该动作视频的动作标签对应的三维人体网格数据。其中，重建模型可以是例如STDFormer等神经网络模型，本说明书对此不做具体限制。

基于单目图像的人体网格重建方法可大致分为两类：基于模型的方法，依赖于带有参数的SMPL（Statistical Body Model for 3D Human Shape and Pose Estimation）回归，以及无模型方法，直接从输入特征回归人体网格顶点的3D坐标。而必须考虑的是，参数模型方法和无模型方法都可能会受到时空特征耦合问题的影响，影响重建结果。并且在帧间上下文中，从帧内实例解开的特征在时间序列上累积。静态目标特征（例如相对静态的躯干）的主导地位，对模型在连续视频片段的网格重建过程中提取连续帧间运动特征提出了挑战。这一挑战导致重建网格序列中帧间运动信息的丢失，并伴随着累积的重建误差。最终，这会导致重建的人体网格出现抖动和连续性失真。

为解决上述问题，本方法提出了基于PointHMR算法引入空间解耦（SpaceDecouple，SD）和时间解耦（Time Decouple，TD）的STDFormer 专门用于从单目视频重建连续的3D人体网格模型。具体地，所述重建模型至少包含提取层、空间解耦层、时间解耦层、输出层；在应用该模型时，可将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型；采用所述提取层提取所述各图像帧的图像特征；将所述各图像帧的图像特征分别输入所述空间解耦层与所述时间解耦层，分别得到所述空间解耦层输出的空间解耦特征与所述时间解耦层输出的时间解耦特征；通过所述输出层，根据所述空间解耦特征、所述时间解耦特征与所述各图像帧中所述目标用户的人物位置输出所述各图像帧中所述目标用户的三维人体模型。

空间解耦通过空间定位、空间交互、空间对齐去完成。其中，空间定位为，为了将空间目标特征与包含复杂非目标特征的重建窗口分离开来，本方法沿着空间特征的不同维度学习注意力。空间交互为，网络结构旨在不同尺度上与每个通道进行交互，增强通道维度中空间目标相关特征表达的一致性。空间对齐为，在通道维度获取了空间目标特征的关联特征后，有必要进一步增强目标特征在整个特征空间中的响应。本方法提出学习一个空间注意力图，以增强在重建对象的空间对齐位置上目标特征的响应，并建立一个编码全局信息的远程依赖模型。最终，该模块不仅保留了准确的空间位置信息，而且通过对通道之间及其对应的空间位置之间的一致性特征进行编码，高效地学习了用于空间对齐的一致特征。

时间解耦分析了连续视频剪辑的整体空间目标特征，并沿时间序列维度提取帧间运动特征，从而在时间、空间和通道维度上解耦运动和静态特征。本说明书将此方法的应用扩展到伪三维时间维度，使其能够将连续视频剪辑作为整体进行分析。

在一具体实施例中，对于每一个动作视频，可将该动作视频包含的图像帧序列按8帧一组分成若干个视频片段，每个视频片段作为一个批次（batch，b）。本方法中，模型dataset输出的是b*s*c*h*w，其中b为视频片段的数量，s为每个视频片段中包含的图像帧的数量，也就是8；c为通道数，h为高，w为宽。随后可将b和s合并，这样就可以正常使用单帧的网络框架。若是其中需要时序的信息，可以将b和s拆开，从而变成有时序信息的数据。在重建模型中，空间解耦层SD与时间解耦层TD是并联结构。在SD中相当于把数据维度变成了b×s×G×（c/G）×h×w，以（c/G）×h×w为单位处理，其中，G为可根据需求进行设置的动态参数；在TD相当于是把数据维度变成b×c×s×h×w，以s×h×w为单位处理。矩阵相乘是在空间、时间维度解耦后单独做的，SD和TD都存在对应的权重矩阵，在得到这SD和TD的输出后使用全局平均池化对这二者的输出计算权重，最后将加权和作为SD与TD相互结合的最终输出。

在对重建模型进行训练时，重建模型的损失可由三部分组成：顶点损失（Lvertices）、二维关节损失（L2D）、三维关节损失（L3D）。其中，顶点损失为目标顶点坐标预测顶点坐标的误差距离，二维关节损失为二维关节点目标与预测之间的平均距离误差，三维关节损失为三维关节点目标与预测之间的平均距离误差。将三种损失加权求和，可作为最终的损失用于训练重建模型。即：

L=λ1LVertices+λ2L2D +λ3L3D

其中，λ1、λ2、λ3分别为顶点损失、二维关节损失、三维关节损失的权重，可根据具体需求进行设置，本说明书对此不做具体限制。

S108：根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集。

最终，可根据步骤S106确定出的各动作标签的二维人体关键点数据和三维人体网格数据，构建出三维人体康复数据集。在三维人体康复数据集中，每个不同的标准动作，也就是动作标签，都存在一个对应的二维人体关键点数据和一个三维人体网格数据。这些数据可以被理解为在正常情况下，人物做出动作标签对应的标准动作时，其身体姿态应该与该动作标签对应的二维人体关键点数据以及三维人体网格数据相匹配。在后续应用时，可采用三维人体康复数据集帮助患者在康复训练时更加高效、准确地重建患者在做出训练动作时的二维关键点数据和三维人体模型，以辅助医疗人员对患者的真实情况拥有最好的了解，并做出最好的应对。

以上是本说明书提供的三维人体康复数据集构建方法，基于同样的思路，本说明书还提供了相应的三维人体康复数据集构建装置，如图3所示。

图3为本说明书提供的一种三维人体康复数据集构建装置示意图，具体包括：

采集模块200，用于通过红外采集设备采集目标用户在执行预设的各标准动作时的动作捕捉数据，并通过视频采集设备采集所述目标用户在执行所述各标准动作时的目标视频；

裁剪模块202，用于对所述目标视频进行裁剪，得到若干动作视频，其中，每个动作视频中包含所述目标用户在执行一个标准动作时的视频内容；

标注模块204，用于针对每个动作视频，根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签；

确定模块206，用于根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据和三维人体网格数据；

构建模块208，用于根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集。

可选地，所述裁剪模块202，具体用于提取所述目标视频的音频数据；根据预设的指定词在所述音频数据中出现的位置，对所述目标视频进行裁剪，得到若干动作视频。

可选地，所述标注模块204，具体用于将该视频输入预先训练的匹配模型，使所述匹配模型识别该动作视频中所述目标用户执行的标准动作，并将所述目标用户执行的标准动作的动作名称作为该动作视频的动作标签进行输出。

可选地，所述确定模块206，具体用于对该动作视频进行切割，得到该动作视频的图像帧序列；针对所述图像帧序列中的每个图像帧，确定该图像帧中所述目标用户的人物位置；根据所述动作捕捉数据与所述人物位置，确定该图像帧中各人体关键点的位置；根据该动作视频的图像帧中包含的各图像帧中各人体关键点的位置，确定与该动作视频的动作标签对应的二维人体关键点数据。

可选地，所述确定模块206，具体用于在该图像帧中确定完全包含所述目标用户的最小矩形框架；将所述最小矩形框架的中心点确定为所述目标用户的位置。

可选地，所述确定模块206，具体用于将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型，使所述重建模型输出所述各图像帧中所述目标用户的三维人体模型；根据该动作视频的图像帧序列包含的所述各图像帧中所述目标用户的三维人体模型与所述二维人体关键点数据，确定与该动作视频的动作标签对应的三维人体网格数据。

所述确定模块206，具体用于将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型；采用所述提取层提取所述各图像帧的图像特征；将所述各图像帧的图像特征分别输入所述空间解耦层与所述时间解耦层，分别得到所述空间解耦层输出的空间解耦特征与所述时间解耦层输出的时间解耦特征；通过所述输出层，根据所述空间解耦特征、所述时间解耦特征与所述各图像帧中所述目标用户的人物位置输出所述各图像帧中所述目标用户的三维人体模型。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的三维人体康复数据集构建方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的三维人体康复数据集构建方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（ProgrammableLogic Device, PLD）（例如现场可编程门阵列（Field Programmable Gate Array，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（HardwareDescription Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（AdvancedBoolean Expression Language）、AHDL（Altera Hardware Description Language）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（JavaHardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（Ruby HardwareDescription Language）等，目前最普遍使用的是VHDL（Very-High-Speed IntegratedCircuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种三维人体康复数据集构建方法，其特征在于，包括：

根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集；

根据该动作视频中所述目标用户执行的标准动作确定该动作视频的动作标签，具体包括：

将该视频输入预先训练的匹配模型，使所述匹配模型识别该动作视频中所述目标用户执行的标准动作，并将所述目标用户执行的标准动作的动作名称作为该动作视频的动作标签进行输出；

根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的二维人体关键点数据，具体包括：

对该动作视频进行切割，得到该动作视频的图像帧序列；

根据该动作视频的图像帧中包含的各图像帧中各人体关键点的位置，确定与该动作视频的动作标签对应的二维人体关键点数据；

根据所述动作捕捉数据与该动作视频，确定与该动作视频的动作标签对应的三维人体网格数据，具体包括：

2.如权利要求1所述的方法，其特征在于，对所述目标视频进行裁剪，得到若干动作视频，具体包括：

提取所述目标视频的音频数据；

3.如权利要求1所述的方法，其特征在于，确定该图像帧中所述目标用户的人物位置，具体包括：

在该图像帧中确定完全包含所述目标用户的最小矩形框架；

将所述最小矩形框架的中心点确定为所述目标用户的位置。

4.如权利要求1所述的方法，其特征在于，所述重建模型至少包含提取层、空间解耦层、时间解耦层、输出层；

采用所述提取层提取所述各图像帧的图像特征；

5.一种三维人体康复数据集构建装置，其特征在于，包括：

构建模块，用于根据所述动作标签、所述二维人体关键点数据与所述三维人体网格数据，构建三维人体康复数据集；

所述标注模块，具体用于将该视频输入预先训练的匹配模型，使所述匹配模型识别该动作视频中所述目标用户执行的标准动作，并将所述目标用户执行的标准动作的动作名称作为该动作视频的动作标签进行输出；

所述确定模块，具体用于对该动作视频进行切割，得到该动作视频的图像帧序列；针对所述图像帧序列中的每个图像帧，确定该图像帧中所述目标用户的人物位置；根据所述动作捕捉数据与所述人物位置，确定该图像帧中各人体关键点的位置；根据该动作视频的图像帧中包含的各图像帧中各人体关键点的位置，确定与该动作视频的动作标签对应的二维人体关键点数据；

所述确定模块，具体用于将所述图像帧序列中的各图像帧与所述各图像帧中所述目标用户的人物位置输入预先训练的重建模型，使所述重建模型输出所述各图像帧中所述目标用户的三维人体模型；根据该动作视频的图像帧序列包含的所述各图像帧中所述目标用户的三维人体模型与所述二维人体关键点数据，确定与该动作视频的动作标签对应的三维人体网格数据。

6.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~4任一项所述的方法。

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~4任一项所述的方法。