CN108665492B

CN108665492B - 一种基于虚拟人的舞蹈教学数据处理方法及系统

Info

Publication number: CN108665492B
Application number: CN201810258505.6A
Authority: CN
Inventors: 陆羽皓
Original assignee: Beijing Guangnian Wuxian Technology Co Ltd
Current assignee: Beijing Virtual Point Technology Co Ltd
Priority date: 2018-03-27
Filing date: 2018-03-27
Publication date: 2020-09-18
Anticipated expiration: 2038-03-27
Also published as: CN108665492A

Abstract

本发明公开了一种基于虚拟人的舞蹈教学数据处理方法以及系统。所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：采集人体多模态数据并解析，从中提取舞蹈视频片段；基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应所述舞蹈动作的人体3D骨骼动作序列；对所述人体3D骨骼动作序列进行渲染，获取渲染结果；利用所述虚拟人展示所述人体3D骨骼动作序列的渲染结果。根据本发明的方法及系统，可以利用虚拟人进行流畅、自然的舞蹈动作展示，从而大大提高虚拟人的用户体验。

Description

一种基于虚拟人的舞蹈教学数据处理方法及系统

技术领域

本发明涉及计算机领域，具体涉及一种用于虚拟机器人的舞蹈生成方法及系统。

背景技术

在人类日常的生产生活过程中，教学是一个相当重要的环节。人类依靠教学环节将知识、技能以及经验等传承给下一代。

在通常情况下，教学的主要过程是由教师将文字以及图片的形式保存的教学相关资料展示给学生。但是，文字以及图片的局限性在于其不能精准的描述姿势动作。如果要提高精度，就需要增加大量的文字细节描述或是不同角度的动作细节图片，尤其的，针对一套动作流程，需要针对每个动作环节、姿势变化进行相关描述，这不仅会大大增大资料数据量，而且也会大大提高之后教学中教师的展示难度以及学生的理解难度。即使采用视频影像的方式，虽然可以描述连贯的动作流程，但是由于视角、服装以及背景干扰等因素的限制，仍然无法完美的展示动作细节。

因此，在需要精准的动作描述的教学环节(例如舞蹈教学)中，是以教师亲自将肢体动作展示给学生为主，而文字以及图片的形式保存的教学相关资料的展示只能作为辅助。

由于以教师亲自肢体动作展示的教学方式需要教师本人必须展示精准肢体动作的能力，因此大大增加了教师的培训难度，限制了教师数量。另外，受限于教师个人精力，在以教师亲自肢体动作展示的教学方式下，同一教师可以同时教授的学生数目也被大大限制。这大大提高了教学成本，增加了教学推广的难度。

发明内容

本发明提供了一种基于虚拟人的舞蹈教学数据处理方法，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

采集人体多模态数据并解析，从中提取舞蹈视频片段；

基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应所述舞蹈动作的人体3D骨骼动作序列；

对所述人体3D骨骼动作序列进行渲染，获取渲染结果；

利用所述虚拟人展示所述人体3D骨骼动作序列的渲染结果。

在一实施例中，所述方法还包括：

提取所述舞蹈动作对应的教师3D骨骼动作序列；

根据所述教师3D骨骼动作序列与所述人体3D骨骼动作序列进行对比，获取对比结果；

输出所述对比结果对应的多模态数据。

在一实施例中，基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应所述舞蹈动作的人体3D骨骼动作序列，包括：

基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成第一人体3D骨骼动作序列，所述第一人体3D骨骼动作序列包含由于所述人体姿态估计算法产生的误差存在抖动；

基于舞蹈动作预测集和滤波算法，将包含抖动的第一人体3D骨骼动作序列处理成无抖动的所述人体3D骨骼动作序列。

在一实施例中，所述方法还包括：

根据舞蹈动作预测集匹配采样算法生成舞蹈动作序列。

在一实施例中，所述方法还包括：

采集实际舞蹈动作数据，获取实际舞蹈过程中人体3D骨骼关键点位置序列；

以实际舞蹈过程中人体3D骨骼关键点位置序列作为训练集，基于深度学习算法，训练所述舞蹈动作预测集。

本发明还提出了一种存储介质，所述存储介质上存储有可实现如本发明所述方法的程序代码。

本发明还提出了一种用于虚拟人的舞蹈教学数据处理系统，所述系统包括：

输入获取模块，其配置为采集人体多模态数据并解析，从中提取舞蹈视频片段；

动作序列采集模块，其配置为基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应所述舞蹈动作的人体3D骨骼动作序列。

在一实施例中，系统还包括舞蹈动作预测集，所述动作序列采集模块包括：

动作解构单元，其配置为基于所述人体姿态估计算法对所述舞蹈动作进行解构及估算，生成第一人体3D骨骼动作序列，所述第一人体3D骨骼动作序列包含由于所述人体姿态估计算法产生的误差存在抖动；

滤波单元，其配置为基于所述舞蹈动作预测集和滤波算法，将包含抖动的第一人体3D骨骼动作序列处理成无抖动的所述人体3D骨骼动作序列。

在一实施例中，所述系统还包括：

动作对比模块，其配置为提取所述舞蹈动作对应的标准动作序列，根据所述标准动作序列与所述人体3D骨骼动作序列进行对比，获取对比结果。

本发明还提出了一种虚拟人系统，所述系统包括智能设备以及云端服务器，其中：

所述云端服务器包含如本发明所述的舞蹈教学数据处理系统，所述舞蹈教学数据处理系统配置为调用所述云端服务器的能力接口获取所述人体多模态数据并解析，生成并输出所述人体3D骨骼动作序列，其中，所述云端服务器的能力接口包括语义理解接口、视觉识别接口、情感计算接口、认知计算接口；

所述智能设备包括：

用户界面，其配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人并令所述虚拟人展示与所述虚拟人执行参数对应的舞蹈动作；

人机交互输入输出模块，其配置为获取多模态数据以及输出所述虚拟人执行参数，其中，所述多模态数据包括所述人体多模态数据；

通信模块，其配置为输出所述多模态数据并接收多模态输出数据，所述多模态输出数据包括人体3D骨骼动作序列；

中央处理单元，其配置为利用所述多模态输出数据计算与所述多模态输出数据相对应的虚拟人执行参数。

根据本发明的方法及系统，可以利用虚拟人进行流畅、自然的舞蹈动作展示，从而大大提高虚拟人的用户体验。

本发明的其它特征或优点将在随后的说明书中阐述。并且，本发明的部分特征或优点将通过说明书而变得显而易见，或者通过实施本发明而被了解。本发明的目的和部分优点可通过在说明书、权利要求书以及附图中所特别指出的步骤来实现或获得。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例共同用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据本发明一实施例的方法流程图；

图2～图4是根据本发明实施例的方法的部分流程图；

图5～图10是根据本发明不同实施例的系统结构简图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此本发明的实施人员可以充分理解本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程并依据上述实现过程具体实施本发明。需要说明的是，只要不构成冲突，本发明中的各个实施例以及各实施例中的各个特征可以相互结合，所形成的技术方案均在本发明的保护范围之内。

在通常情况下，教学的主要过程是由教师将文字以及图片的形式保存的教学相关资料展示给学生。但是，在现有技术中，文字以及图片的局限性在于其不能精准的描述姿势动作，如果要提高精度，就需要增加大量的文字细节描述或是不同角度的动作细节图片，尤其的，针对一套动作流程，需要针对每个动作环节、姿势变化进行相关描述，这不仅会大大增大资料数据量，而且也会大大提高之后教学中教师的展示难度以及学生的理解难度。即使采用视频影像的方式，虽然可以描述连贯的动作流程，但是由于视角、服装以及背景干扰等因素的限制，仍然无法完美的展示动作细节。

然而，采用教师本人示范的方式，虽然降低了学生的理解难度；但是，由于以教师亲自肢体动作展示的教学方式需要教师本人必须展示精准肢体动作的能力，因此大大增加了教师的培训难度，限制了教师数量。另外，受限于教师个人精力，在以教师亲自肢体动作展示的教学方式下，同一教师可以同时教授的学生数目也被大大限制。这大大提高了教学成本，增加了教学推广的难度。

针对上述问题，本发明提出了一种基于虚拟人(虚拟机器人)的舞蹈教学数据处理方法。在本发明的方法中，虚拟人在智能设备运行，且虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力。在本发明的方法中，利用虚拟人代替教师进行舞蹈动作展示，这样，就会消除由教师亲自展示所带来的种种限制，从而大大降低教学成本，降低教学推广的难度。

这里需要指出的是，虽然本发明描述的是舞蹈教学相关的方法以及系统，但是本发明的方法以及系统的具体应用场景并不仅限于舞蹈教学。任何需要进行肢体动作展示的应用场景都可以使用本发明所提出的方法以及系统，例如体育动作示范、武术动作示范等等。

虚拟人是以人类或者与人类相似的形态为其虚拟形象。这就使得虚拟人可以利用其虚拟形象模拟人类的行为动作。相较于文字以及图片描述，利用虚拟人进行动作姿势展示的细节全面性得到大大提高。尤其的，在虚拟人具备3D形象时，动作姿势展示的视角限制也被解决。

然而，人类的动作行为的协调性以及连贯性在很大程度上是依托于人类自身肉体构造以及潜意识的动作协调能力上的，但是，虚拟人所展示的舞蹈动作则是完全由人类预先设计好的。如果动作设计不到位，则很容易出现动作连贯性不够、姿势僵化变形以及肢体不协调等问题，尤其的，会发生虚拟人的动作完全超出人类肢体物理限度的情况。

在本发明的方法中，将自然的人体实际动作直接转化为人体3D骨骼动作序列，该人体3D骨骼动作序列包含舞蹈动作过程中人类骨骼各个关键节点的位置变化情况。在虚拟人进行舞蹈动作展示时，将虚拟人的肢体关键节点与人体3D骨骼动作序列中人类骨骼各个关键节点对应，根据人体3D骨骼动作序列中人类骨骼各个关键节点的位置变化情况决定虚拟人的肢体关键节点的位置变化。

接下来基于附图详细描述根据本发明实施例的方法的详细流程，附图的流程图中示出的步骤可以在包含诸如一组计算机可执行指令的计算机系统中执行。虽然在流程图中示出了各步骤的逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

具体的，如图1所示，在一实施例中，本发明的方法包含以下流程：

S110，采集人体多模态数据并解析，从中提取舞蹈视频片段；

S120，基于人体姿态估计算法对舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应舞蹈动作的人体3D骨骼动作序列；

S130，渲染人体3D骨骼动作序列；

S140，利用虚拟人展示人体3D骨骼动作序列的渲染结果。

具体的，在一实施例中，在步骤S110中，可以采集并提取早已录制完成的舞蹈视频片段，也可以在舞蹈者进行舞蹈的同时实时录制获取舞蹈视频片段。

进一步的，在实际的应用场景中，舞蹈动作往往是伴随音乐的。因此，在一实施例中，在步骤S110中，还获取舞蹈动作对应的音频数据。具体的，舞蹈视频片段包含同步播放的音乐。在步骤S120中，对音频数据进行特征解析，提取音频特征(节奏、乐谱等)。统一时间节点变化，将音频特征与人体3D骨骼动作序列中骨骼关键点位置变化对应关联。在步骤S130中，在利用虚拟人展示人体3D骨骼动作序列的同时，按照统一的时间节点，同步播放舞蹈动作对应的音频数据。

进一步的，在实际应用场景中，在使用人体姿态估计算法的过程中，由于舞蹈视频片段的清晰度、视角以及衣物/背景干扰等因素，人体姿态估计算法的计算结果包含误差存在抖动。也就是说，会无法定位准确的骨骼关键节点位置。而是只能确定一个位置范围。根据该位置范围确定的骨骼关键节点位置则有可能和实际的骨骼关键节点位置存在偏差，这就可能导致动作姿势的走形，从而影响最终生成的人体3D骨骼动作序列对应的舞蹈动作的自然、连贯程度。

为了确保准确的将自然的人体实际动作转化为人体3D骨骼动作序列，避免转化出僵硬、不流畅的人体3D骨骼动作序列，在一实施例中，在进行人体3D骨骼动作序列转化时还引入了舞蹈动作预测集。

在人类进行动作时，为了保证动作的自然流畅，动作的变化是具有特定的规律的。例如，在手移动到特定位置，会使手腕、手肘以及肩关节配合，同时协调动作，在确保动作不超出人体的物理许可的前提下，平滑过渡的改变手的位置。尤其的，在舞蹈动作中，为了实现动作的美感，这种运动规律更为明显(在体育运动、武术动作时，也会遵循特定的动作规律)。因此，针对某以特定的动作姿势，为了保证整体动作的流畅以及美感，下一个衔接的动作姿势是可以进行一定程度上的预测的。也就是说，在舞蹈过程中，当确定一个动作姿势时，就可以大致的预测下一个动作姿势的肢体关键节点的位置范围。超出该位置范围的动作姿势是无法自然流畅的与上一个动作姿势衔接的。

基于上述分析，在一实施例中，建立了舞蹈动作预测集。该舞蹈动作预测集包含舞蹈动作流程中，不同动作姿势之间的变化衔接逻辑。基于舞蹈动作预测集将自然的人体实际动作转化为人体3D骨骼动作序列，可以有效地保证生成的人体3D骨骼动作序列自然流畅、符合舞蹈动作美感要求。

具体的，如图2所示，在一实施例中，在生成对应舞蹈动作的人体3D骨骼动作序列的过程中，首先基于人体姿态估计算法对舞蹈视频片段中的舞蹈动作进行解构及估算，生成第一人体3D骨骼动作序列，该第一人体3D骨骼动作序列包含由于人体姿态估计算法产生的误差存在抖动(S210)；然后基于舞蹈动作预测集和滤波算法，将包含抖动的第一人体3D骨骼动作序列处理成无抖动的人体3D骨骼动作序列(S220)。具体的，根据当前的动作姿势基于舞蹈动作预测集预测下一个衔接的动作姿势，从而从骨骼关键节点的位置抖动范围内确定最合理的位置。

进一步的，考虑到音乐节奏因素，在一实施例中，舞蹈动作预测集还包含不同动作姿势之间的变化衔接逻辑对应的音频特征。即，在步骤S220中，根据当前的动作姿势基于舞蹈动作预测集预测下一个衔接的动作姿势时，同步考虑对应时间节点的音频特征，从而进一步提高骨骼关键节点位置准确度，提高人体3D骨骼动作序列与伴奏音乐的匹配度。

进一步的，在一实施例中，本发明的方法采用训练集的方式生成舞蹈动作预测集。具体的，采集实际舞蹈动作数据，获取实际舞蹈过程中人体3D骨骼关键点位置序列；以实际舞蹈过程中人体3D骨骼关键点位置序列作为训练集，基于深度学习算法，训练舞蹈动作预测集。

进一步的，在一实施例中，本发明的方法还实现了舞蹈动作对比。具体的，如图3所示，在一实施例中，在生成人体3D骨骼动作序列(S320)后提取舞蹈动作对应的标准动作序列(S330)；根据标准动作序列与人体3D骨骼动作序列进行对比，获取对比结果(S340)；输出对比结果对应的多模态数据(S350)。

具体的，在一实施例中，对比结果可以是两个动作序列的差异点描述，也可以是以标准动作序列为基础，对人体3D骨骼动作序列进行的评价。

这样，在实际的应用场景中，将根据老师的舞蹈动作制作对应的标准动作序列并保存，然后就可以实现针对学生的舞蹈动作(对应当前生成的人体3D骨骼动作序列)的自动对比评价。

进一步的，在一实施例中，在进行动作序列对比的过程中还引入音频特征参量。即，对比人体3D骨骼动作序列与标准动作序列与对应的音频数据的时间节点匹配差异。

进一步的，在一实施例中，在输出对比结果对应的多模态数据的同时，也可以同时的对标准动作序列进行渲染，利用虚拟人展示标准动作序列的渲染结果。

进一步的，在一实施例中，本发明的方法还实现了舞蹈动作的原创，根据舞蹈动作预测集匹配采样算法生成舞蹈动作序列。即，并不是根据实际的舞蹈动作生成对应的人体3D骨骼动作序列，而是基于舞蹈设计需求，自主生成舞蹈动作序列。自主生成的舞蹈动作序列可以直接保存/输出，也可以经渲染后由虚拟人展示。

具体的，如图4所示，在一实施例中，首先确定一个初始舞蹈动作姿势(S410)，提取该舞蹈动作姿势对应的人体3D骨骼节点位置(S411)；然后基于舞蹈动作预测集预测初始舞蹈动作姿势衔接的下一个舞蹈动作姿势对应的人体3D骨骼节点位置的概率分布(S420)；接着通过采样算法从人体3D骨骼节点位置的概率分布中确定下一个舞蹈动作姿势对应的人体3D骨骼节点位置(S430)。将已确定的下一个舞蹈动作姿势对应的人体3D骨骼节点位置作为初始量继续进行预测，不断重复直到生成一套完整的舞蹈动作序列。

进一步的，考虑到舞蹈配乐，在一实施例中，在进行舞蹈动作序列的原创生成时还引入了音频特征参量。具体的，首先确定原创舞蹈动作的配乐，获取对应的音频数据。提取音频数据的音频特征，在预测下一个舞蹈动作姿势对应的人体3D骨骼节点位置的概率分布时考虑对应时间节点的音频特征。

进一步的，基于本发明的方法，本发明还提出了一种存储介质，该存储介质上存储有可实现本发明所述方法的程序代码。

进一步的，基于本发明的方法，本发明还提出了一种用于虚拟人的舞蹈教学数据处理系统。如图5所示，在一实施例中，系统包括：

输入获取模块510，其配置为采集人体多模态数据并解析，从中提取舞蹈视频片段；

动作序列采集模块520，其配置为基于人体姿态估计算法对舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应舞蹈动作的人体3D骨骼动作序列。

进一步的，在一实施例中，系统还包括：

渲染模块，其配置为渲染所述人体3D骨骼动作序列，生成可由虚拟人展示的渲染结果。

进一步的，如图6所示，在一实施例中，系统还包括舞蹈动作预测集630。

动作序列采集模块620包括：

动作解构单元621，其配置为基于人体姿态估计算法对舞蹈视频片段中的舞蹈动作进行解构及估算，生成第一人体3D骨骼动作序列，第一人体3D骨骼动作序列包含由于人体姿态估计算法产生的误差存在抖动；

滤波单元622，其配置为基于舞蹈动作预测集621和滤波算法，将包含抖动的第一人体3D骨骼动作序列处理成无抖动的人体3D骨骼动作序列。

进一步的，如图7所示，在一实施例中，系统还包括：

动作对比模块740，其配置为提取舞蹈动作对应的标准动作序列，根据标准动作序列与人体3D骨骼动作序列进行对比，获取对比结果。

具体的，在一实施例中动作对比模块740从标准动作库741中提取已保存的标准动作序列。

进一步的，如图8所示，在一实施例中，系统还包括动作序列生成模块840。动作序列生成模块840包括骨骼关键点位置预测单元841以及采样单元842。

输入获取模块810获取初始舞蹈动作姿势并输出到动作序列生成模块840。动作序列生成模块840提取该舞蹈动作姿势对应的人体3D骨骼节点位置；骨骼关键点位置预测单元841基于舞蹈动作预测集830预测初始舞蹈动作姿势衔接的下一个舞蹈动作姿势对应的人体3D骨骼节点位置的概率分布并输出到采样单元842。采样单元842通过采样算法从人体3D骨骼节点位置的概率分布中确定下一个舞蹈动作姿势对应的人体3D骨骼节点位置并返回给骨骼关键点位置预测单元841。骨骼关键点位置预测单元841将已确定的下一个舞蹈动作姿势对应的人体3D骨骼节点位置作为初始量继续进行预测，不断重复直到生成一套完整的舞蹈动作序列。

进一步的，考虑到音乐伴奏，在一实施例中，系统还包括音频解析模块。音频解析模块配置为解析舞蹈视频片段的音频数据，获取音频特征，从而在滤波单元消除抖动的过程中参考音频特征进行骨骼关键点位置的确定。

进一步的，在一实施例中，系统在获取初始舞蹈动作姿势的同时获取对应的伴奏音乐。音频解析模块配置为解析伴奏音乐的音频数据，获取音频特征，从而在骨骼关键点位置预测单元预测骨骼关键点位置概率分布的过程中参考音频特征进行骨骼关键点位置概率分布的预测。

具体的，如图9所示，系统包括输入获取模块910、音频解析模块950、舞蹈动作预测集930、动作序列生成模块940、动作序列采集模块920、标准动作库971、动作对比模块970以及渲染模块960。系统可以实现基于实际舞蹈动作视频采集的人体3D骨骼动作序列生成、匹配伴奏音乐的原创舞蹈动作序列生成以及舞蹈者舞蹈动作与标准舞蹈动作的对比评价。进一步的，系统还可以通过渲染生成可供虚拟人展示的数据文件。

进一步的，基于本发明的舞蹈教学数据处理方法以及舞蹈教学数据处理系统，本发明还提出了一种虚拟人系统。具体的，如图10所示，在一实施例中，系统包括智能设备120以及云端服务器110。

云端服务器110包含本发明所述的舞蹈教学数据处理系统以及多个能力接口。云端服务器110配置为利用能力接口和/或舞蹈教学数据处理系统对智能设备120发送的多模态数据进行解析，并决策多模态输出数据。具体的，多模态数据解析过程中各个能力接口分别调用对应的逻辑处理。

具体的，云端服务器110的能力接口包括语义理解接口111、视觉识别接口112、情感计算接口113、认知计算接口114。

具体的，在一实施例中，以下为各个接口的说明：

语义理解接口，其接收从智能设备的通信模块转发的特定语音指令，对其进行语音识别以及基于大量语料的自然语言处理。

视觉识别接口，可以针对人体、人脸、场景依据计算机视觉算法、深度学习算法等进行视频内容检测、识别、跟踪等。即根据预定的算法对图像进行识别，给出定量的检测结果。具备图像预处理功能、特征提取功能和决策功能。其中：

图像预处理功能可以是对获取的视觉采集数据进行基本处理，包括颜色空间转换、边缘提取、图像变换和图像阈值化；

特征提取功能可以提取出图像中目标的肤色、颜色、纹理、运动和坐标等特征信息；

决策功能可以是对特征信息，按照一定的决策策略分发给需要该特征信息的具体多模态输出设备或多模态输出应用，如实现人脸检测、人物肢体识别、运动检测等功能。

情感计算接口，其接收从通信模块转发的多模态数据，利用情感计算逻辑(可以是情绪识别技术)来计算用户当前的情绪状态。情绪识别技术是情感计算的一个重要组成部分，情绪识别研究的内容包括面部表情、语音、行为、文本和生理信号识别等方面，通过以上内容可以判断用户的情绪状态。情绪识别技术可以仅通过视觉情绪识别技术来监控用户的情绪状态，也可以采用视觉情绪识别技术和声音情绪识别技术结合的方式来监控用户的情绪状态，且并不局限于此。在本实施例中，优选采用二者结合的方式来监控情绪。

情感计算接口是在进行视觉情绪识别时，通过使用图像采集设备收集人类面部表情图像，而后转换成可分析数据，再利用图像处理等技术进行表情情绪分析。理解面部表情，通常需要对表情的微妙变化进行检测，比如脸颊肌肉、嘴部的变化以及挑眉等。

认知计算接口，其接收从通信模块转发的多模态数据，认知计算接口用以处理多模态数据进行数据采集、识别和学习，以获取用户画像、知识图谱等，以对多模态输出数据进行合理决策。

智能设备120包括用户界面121、通信模块122、中央处理单元123以及人机交互输入输出模块124。

用户界面121配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人。

人机交互输入输出模块124配置为获取多模态数据以及输出虚拟人执行参数。具体的，在一实施例中，多模态数据包括来自周围环境的数据及与用户进行交互的多模态交互数据。

通信模块122配置为输出人机交互输入输出模块124获取到的多模态数据到云端服务器110，并接收来自云端服务器110的多模态输出数据。

中央处理单元123配置为利用通信模块122接收的多模态输出数据计算与该多模态输出数据相对应的虚拟人执行参数。

具体的，在一具体应用场景中，人机交互输入输出模块124配置为获取包括人体多模态数据的多模态数据。

通信模块122配置为输出包括人体多模态数据的多模态数据到云端服务器110。

云端服务器110中的舞蹈教学数据处理系统配置为调用云端服务器110的能力接口(111、112、113、114)获取人体多模态数据(例如，调用视觉识别接口112从通信模块122输出的多模态数据中获取人体多模态数据并提取出舞蹈视频片段)并解析，生成并输出人体3D骨骼动作序列。

通信模块122还配置为接收包括人体3D骨骼动作序列的多模态输出数据。

中央处理单元123配置为利用多模态输出数据计算与多模态输出数据相对应的虚拟人执行参数，例如，对人体3D骨骼动作序列进行渲染。

用户界面121配置为基于虚拟人执行参数在预设显示区域内显示被唤醒的虚拟人并令虚拟人展示与虚拟人执行参数对应的动作从而实现舞蹈动作展示。

上述为本申请实施例的一种示意性的技术方案。本申请中，智能设备与云端服务器连接使得虚拟人具备多模态人机交互的能力，即具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等Artificial Intelligence(AI)的能力。虚拟人可以以3D虚拟形象通过所述智能设备进行显示，具备特定形象特征，并且可以为虚拟人配置社会属性、人格属性和人物技能等。

具体来说，社会属性可以包括：外貌、姓名、服饰、装饰、性别、籍贯、年龄、家庭关系、职业、职位、宗教信仰、感情状态、学历等属性；人格属性可以包括：性格、气质等属性；人物技能可以包括：唱歌、跳舞、讲故事、培训等专业技能，并且人物技能展示不限于肢体、表情、头部和/或嘴部的技能展示。

在本申请中，虚拟人的社会属性、人格属性和人物技能等可以使得多模态交互的解析和决策结果更倾向或更为适合该虚拟人。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。本发明所述的方法还可有其他多种实施例。在不背离本发明实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变或变形，但这些相应的改变或变形都应属于本发明的权利要求的保护范围。

Claims

1.一种基于虚拟人的舞蹈教学数据处理方法，其特征在于，所述虚拟人在智能设备运行，且所述虚拟人具备预设形象特征和预设属性，在处于交互状态时启动语音、情感、视觉和感知能力，所述方法包括：

采集人体多模态数据并解析，从中提取舞蹈视频片段；

对所述人体3D骨骼动作序列进行渲染，获取渲染结果；

利用所述虚拟人展示所述人体3D骨骼动作序列的渲染结果；

其中，通过以下操作生成对应所述舞蹈动作的人体3D骨骼动作序列：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取所述舞蹈动作对应的教师3D骨骼动作序列；

输出所述对比结果对应的多模态数据。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据舞蹈动作预测集匹配采样算法生成舞蹈动作序列。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.一种存储介质，其特征在于，所述存储介质上存储有可实现如权利要求1-4中任一项所述方法的程序代码。

6.一种用于虚拟人的舞蹈教学数据处理系统，其特征在于，所述系统包括：

动作序列采集模块，其配置为基于人体姿态估计算法对所述舞蹈视频片段中的舞蹈动作进行解构及估算，生成对应所述舞蹈动作的人体3D骨骼动作序列；

所述系统还包括舞蹈动作预测集，所述动作序列采集模块包括：

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

8.一种虚拟人系统，其特征在于，所述系统包括智能设备以及云端服务器，其中：

所述云端服务器包含如权利要求6或7所述的舞蹈教学数据处理系统，所述舞蹈教学数据处理系统配置为调用所述云端服务器的能力接口获取所述人体多模态数据并解析，生成并输出所述人体3D骨骼动作序列，其中，所述云端服务器的能力接口包括语义理解接口、视觉识别接口、情感计算接口、认知计算接口；

所述智能设备包括：