CN116954364A

CN116954364A - 肢体动作交互方法、装置、电子设备及存储介质

Info

Publication number: CN116954364A
Application number: CN202310723995.3A
Authority: CN
Inventors: 田尊明
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2023-10-27

Abstract

本申请涉及一种肢体动作交互方法、装置、电子设备及存储介质，包括：获取目标对象的第一肢体动作信息和语音文本信息；从预设的肢体动作识别模型中确定第一肢体动作信息的动作类别文本；根据动作类别文本和语音文本信息，确定肢体动作文本标签，在预设的肢体动作库中确定第二肢体动作信息，驱动虚拟对象进行肢体动作输出。本申请可以根据第一肢体动作信息从肢体动作模型中确定动作类别文本，进而根据语音文本信息和动作类别文本确定肢体动作文本标签，再从肢体动作库中确定虚拟对象的第二肢体动作信息，实现通过目标对象的语音和肢体动作即可直接与虚拟对象进行肢体交互，解决了与虚拟对象之间进行便捷的肢体交互问题，提高了目标对象的体验感。

Description

肢体动作交互方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术领域，具体涉及一种肢体动作交互方法、装置、电子设备及存储介质。

背景技术

目前，常用的人机交互方式大多数还是基于触摸屏的交互方式，例如手机、自助快递柜等。在电视领域，基本是基于遥控器的交互方式。无论手机、自助快递柜还是电视，均要求用户与设备的交互工具(例如遥控器、触摸屏)进行接触，一旦用户与设备的交互工具之间存在间隔，则无法实现与设备的交互，限制了用户与设备交互的空间延展性，同时给用户带来不便。

发明内容

为了解决如何与虚拟对象进行便捷的肢体交互的技术问题，本申请提供了一种肢体动作交互方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种肢体动作交互方法，所述方法包括：

获取目标对象的第一肢体动作信息和语音文本信息；

从预设的肢体动作识别模型中确定所述第一肢体动作信息的动作类别文本；

根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签；

根据所述肢体动作文本标签在预设的肢体动作库中确定第二肢体动作信息；

根据所述第二肢体动作信息驱动虚拟对象进行肢体动作输出；

可选地，获取目标对象的第一肢体动作信息，包括：

获取目标对象的视频信息；

从所述视频信息中确定目标区域，所述目标区域包括所述目标对象；

从所述目标区域提取所述目标对象的所述第一肢体动作信息；

可选地，从预设的肢体识别模型中确定所述第一肢体动作信息的动作类别文本，包括：

基于所述第一肢体动作信息，获取从模型服务模块中返回的蒙皮多人线性参数；

根据所述蒙皮多人线性参数从所述肢体识别模型中确定对应的所述动作类别文本；

可选地，根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签，包括：

在肢体动作响应策略中，根据所述动作类别文本和所述语音文本信息匹配目标响应策略；

从所述目标响应策略中提取所述肢体动作文本标签；

可选地，从预设的肢体动作识别模型中确定所述第一肢体动作信息的动作类别文本之前，所述方法还包括：获取肢体识别模型，所述肢体识别模型包括所述肢体动作识别模型和所述肢体动作库；

其中，所述肢体识别模型的建立过程，包括：

采集训练样本的人体动作信息数据集；

构建虚拟对象模型，确定所述虚拟对象模型的人体关键点骨架；

将所述人体动作信息数据集与所述人体关键点骨架进行关联，得到虚拟对象的肢体动作片段；

根据所述肢体动作片段构建所述肢体动作库；

对所述肢体动作库中的所述肢体动作片段配置肢体动作文本标签数据集，根据所述肢体动作文本标签数据集和所述肢体动作片段训练所述肢体动作识别模型；

可选地，所述方法还包括：构建肢体交互策略；其中，所述肢体交互策略基于语义文本配置肢体动作响应的肢体动作文本标签；

可选地，将所述人体动作信息数据集与所述人体关键点骨架进行关联，得到虚拟对象的肢体动作片段，包括：

将所述人体动作信息数据集与所述人体关键点骨架进行关联，获得初步驱动动作；

基于回归神经网络和所述人体动作信息数据集对所述初步驱动动作进行回归学习，得到所述肢体动作片段。

第二方面，本申请提供了一种肢体动作交互装置，所述装置包括：

获取模块，用于获取目标对象的第一肢体动作信息和语音文本信息；

文本确定模块，用于从预设的肢体识别模型中确定所述第一肢体动作信息的动作类别文本；

标签确定模块，用于根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签；

肢体动作确定模块，用于根据所述肢体动作文本标签在肢体动作库中确定第二肢体动作信息；

驱动输出模块，用于根据所述第二肢体动作信息驱动虚拟对象进行肢体动作输出。

第三方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一项实施例所述的肢体动作交互方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的肢体动作交互方法的步骤。

本申请的有益效果：

本申请实施例提供的该方法，获取目标对象的第一肢体动作信息和语音文本信息；从预设的肢体动作识别模型中确定所述第一肢体动作信息的动作类别文本；根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签；根据所述肢体动作文本标签在预设的肢体动作库中确定第二肢体动作信息；根据所述第二肢体动作信息驱动虚拟对象进行肢体动作输出。该方法，可以根据目标对象的第一肢体动作信息从肢体动作模型中确定动作类别文本，进而根据目标对象的语音文本信息和动作类别文本确定肢体动作文本标签，再从肢体动作库中确定虚拟对象的第二肢体动作信息，实现通过目标对象的语音和肢体动作即可直接与虚拟对象进行肢体交互，解决了目标对象与虚拟对象之间进行便捷的肢体交互的问题，提高了目标对象的体验感。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的一种肢体动作交互方法的流程示意图；

图2为本申请一个实施例提供的一种肢体动作交互方法的交互示意图；

图3为本申请一个实施例提供的一种肢体识别模型建立的流程示意图；

图4为本申请一个实施例提供的一种肢体动作交互装置的结构示意图；

图5为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

以下将参照附图和优选实施例来说明本申请的实施方式，本领域技术人员可由本说明书中所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。应当理解，优选实施例仅为了说明本申请，而不是为了限制本申请的保护范围。

本申请第一实施例提供了一种肢体动作交互方法，如图1，包括：

步骤101，获取目标对象的第一肢体动作信息和语音文本信息。

目标对象可以是用户，也可以是其他的动物，比如用户养的宠物，以下实施例中以目标对象为用户进行举例说明，不代表对目标对象的限制。应当可以理解，当目标对象为用户时，虚拟对象可以是与用户进行交互的虚拟世界中的虚拟数字人，也可以是虚拟宠物等，不作限制。

在用户与虚拟数字人的交互界面，可以通过摄像头采集用户的第一肢体动作信息，当然也可以采集用户的音频，比如语音信息。

具体地，获取目标对象的第一肢体动作信息，包括：获取目标对象的视频信息，从视频信息中确定目标区域，目标区域包括目标对象，从目标区域提取目标对象的第一肢体动作信息。

本实施例中，可以通过摄像头获取用户的视频信息，再从视频信息中用户所处的目标区域中，提取用户的第一肢体动作信息。也可以通过摄像头的音频采集单元(比如麦克风)获取用户的音频信息，从音频信息中提取用户的语音文本信息。

本实施例中，通过摄像头可以方便的进行肢体动作信息的采集，无需价格高昂的专用动作捕捉设备，降低硬件的需求，提高适用场景。

步骤102，从预设的肢体动作识别模型中确定第一肢体动作信息的动作类别文本。

肢体动作模型为该用户与虚拟数字人交互设备预先设置并训练好的模型，该肢体动作模型可以根据输入的肢体动作匹配其对应的动作类别文本。

一个实施例中，从预设的肢体识别模型中确定第一肢体动作信息的动作类别文本，包括：基于第一肢体动作信息，获取从模型服务模块中返回的蒙皮多人线性参数，根据蒙皮多人线性参数从肢体识别模型中确定对应的动作类别文本。

蒙皮多人线性参数即SMPL(Skinned Multi-Person Linear Model)参数，本实施例中，可以从模型服务模块获取基于第一肢体动作信息返回的SMPL参数，再根据SMPL参数从肢体识别模型中确定该SMPL参数对应的动作类别文本。该肢体识别模型可以是根据SMPL模型来搭建并进行训练得到的一种模型。

步骤103，根据动作类别文本和语音文本信息，确定肢体动作文本标签。

一个实施例中，根据动作类别文本和语音文本信息，确定肢体动作文本标签，包括：在肢体动作响应策略中，根据动作类别文本和语音文本信息匹配目标响应策略，从目标响应策略中提取肢体动作文本标签。

本实施例中，可以根据动作类别文本和语音文本信息共同确定肢体动作文本标签，使肢体动作更可控更准确自然。

步骤104，根据肢体动作文本标签在预设的肢体动作库中确定第二肢体动作信息。

第二肢体动作信息是虚拟对象的肢体动作信息，肢体动作库中包括预先训练的文本标签与虚拟对象的肢体动作的映射关系，在确定肢体动作文本标签后，可以直接根据肢体动作文本标签在肢体动作库中确定其对应的第二肢体动作信息，提高文本标签与肢体动作的匹配速度，可使虚拟交互场景即时性更强，提高用户体验。

步骤105，根据第二肢体动作信息驱动虚拟对象进行肢体动作输出。

该方法，可以根据目标对象的第一肢体动作信息从肢体动作模型中确定动作类别文本，进而根据目标对象的语音文本信息和动作类别文本确定肢体动作文本标签，再从肢体动作库中确定虚拟对象的第二肢体动作信息，实现通过目标对象的语音和肢体动作即可直接与虚拟对象进行肢体交互，解决了目标对象与虚拟对象之间进行便捷的肢体交互的问题，提高了目标对象的体验感。

该方法可以使虚拟对象根据用户的第一肢体动作信息和语音文本信息，作出进行交互的肢体动作，驱动虚拟对象进行肢体动作输出的第二肢体动作是预先训练好的肢体动作库中的动作，该动作可控且自然，提高了用户在交互过程中的体验感。

一个实施例中，从预设的肢体动作识别模型中确定第一肢体动作信息的动作类别文本之前，方法还包括：获取肢体识别模型，肢体识别模型包括肢体动作识别模型和肢体动作库。

其中，肢体识别模型的建立过程，包括：

采集训练样本的人体动作信息数据集，构建虚拟对象模型，确定虚拟对象模型的人体关键点骨架，将人体动作信息数据集与人体关键点骨架进行关联，得到虚拟对象的肢体动作片段，根据肢体动作片段构建肢体动作库，对肢体动作库中的肢体动作片段配置肢体动作文本标签数据集，根据肢体动作文本标签数据集和肢体动作片段训练肢体动作识别模型。

本实施例中，以虚拟对象为虚拟数字人举例说明，通过采集训练样本(此处为人体样本)的人体动作信息数据集来构建虚拟对象模型，具体地，可以通过单目视频人体动作捕捉技术，采集真人肢体交互场景的肢体动作数据，通过3D建模工具构建虚拟对象模型，再确定虚拟对象模型的人体关键点骨架，将人体动作信息数据集与人体关键点骨架进行关联，比如，将手腕、肘、肩、脖子等需经常活动的关节部位作为关键点骨架，将人体动作信息数据集中的数据与这些关键点骨架关联，将关联的数据作为肢体动作片段，再对肢体动作片段肢体动作再现，根据姿态差异进行微调训练，并对训练完成的肢体动作片段进行打标签，打标之后即可作为肢体动作库中的一个肢体动作信息。

一个实施例中，方法还包括：构建肢体交互策略，其中，肢体交互策略基于语义文本配置肢体动作响应的肢体动作文本标签。

本实施例中，在对话管理平台，可以基于语义文本，配置肢体动作相应的文本标签，方便之后通过肢体动作库来根据文本标签召回对应的虚拟人物的肢体动作信息来驱动虚拟人物。

一个实施例中，将人体动作信息数据集与人体关键点骨架进行关联，得到虚拟对象的肢体动作片段，包括：将人体动作信息数据集与人体关键点骨架进行关联，获得初步驱动动作，基于回归神经网络和人体动作信息数据集对初步驱动动作进行回归学习，得到肢体动作片段。

本实施例中，可通过回归神经网络模型，对虚拟对象的肢体动作片段进行多次的回归学习，使其更接近于人体自然的动作，在学习过程中，还可以对每次学习前后的差异进行记录分析，以使学习过程中具有针对性，重点调整差异较大的部分，以提高回归神经网络学习的效率。

一个具体地实施例中，一种肢体动作交互方法的交互示意图，如图2，用户在与虚拟数字人的交互界面，通过摄像头传入肢体动作信息，后台通过肢体识别模型获得动作的类别，再经过对话管理系统获得肢体响应策略，在肢体动作库召回对应参数后，驱动虚拟人物进行肢体动作呈现，来完成交互，具体包括：

在用户与虚拟数字人的交互界面，用户可以通过摄像头进行视频动作交互和语音交互。具体地，用户视频动作输入，会请求模型服务模块，最终获得动作类别的文本：首先会请求HMR模型服务，获得SMPL参数返回，然后请求肢体动作识别模型，获得对应的动作类别文本，并请求对话管理平台服务。

用户语音文本输入，会直接请求对话管理平台服务。

对话管理平台接受输入文本后，匹配肢体动作响应策略，输出包含肢体动作文本标签的反馈结果，通过响应文本，在肢体动作库检索获得肢体动作信息。

肢体动作数据片段传入虚拟形象渲染SDK，可以驱动虚拟人物进行肢体动作输出。

本实施例中，可以实现对肢体运动信息转文本语义的识别过程，进而能实现同时支持语音文本和肢体动作触发虚拟数字人的动作响应，实现通过目标对象的语音和肢体动作即可直接与虚拟数字人进行肢体交互，解决了用户与虚拟数字人之间进行便捷的肢体交互的问题，提高了用户的体验感。

一个具体地实施例中，肢体识别模型建立的流程示意图，如图3，包括：

步骤S1、肢体动作采集。

采用单目视频人体动作捕捉技术，采集两人肢体交互场景的人体动作信息数据集。具体地，对真人肢体动作的运动信息采集，首先会采用SMPL模型对人体进行参数化，通过85个参数来表征人体模型的运动信息。然后针对视频中的RGB图片帧序列，通过HMR模型对视频中人体对象的SMPL模型参数进行回归，其中24*3个姿态参数可用于表征肢体的运动信息数据。

其中，在肢体交互场景采集两个人的肢体交互，可以是训练样本更接近实际交互的场景，提高采集数据的真实性，使动作更接近于实际。

步骤S2、构建虚拟人物模型。

3D建模工具平台构建虚拟人物模型，并绑定人体关键点骨架。

步骤S3、肢体动作再现。

将步骤S1采集的数据和步骤S2的肢体骨骼模型关联，获得初步驱动效果。对比步骤S1的视频数据，调整虚拟人物的肢体动作，获得调整前后的对比数据集，采用回归神经网络，回归学习人工调整参数经验，实现原始SMPL模型参数经动作信息转换模型预测后的数据，能驱动虚拟人物的肢体动作与视频录制动作接近一致。

步骤S4、构建肢体动作库。

在三维建模软件中，对步骤S3优化后的虚拟人物肢体动作片段，进行微调，将调整后的肢体动作进行保存，保留肢体动作片段对应的动作信息数据帧，并对数据帧做好肢体语义的文本标签，并在步骤S1采集的肢体交互配对的基础上，基于肢体语义习惯，补充肢体片段的配对结果。

步骤S5、构建肢体动作识别模型。

基于步骤S4构建的肢体动作对应文本标签的数据集，训练肢体动作分类模型，实现针对输入的肢体动作信息数据帧片段，预测对应的文本标签。

步骤S6、构建肢体交互策略，也就是构建虚拟人物的肢体交互策略。

在对话管理平台，基于语义文本，配置肢体动作响应的文本标签，后续则可从动作库召回指定动作信息来驱动虚拟人物。进一步的，对话管理平台提供基于业务流的对话树配置，支持多轮对话，在对话树的流转边可以配置流转逻辑，在节点中可以配置执行逻辑。

进一步的，在对话管理平台，还可以增加特定语义场景，在回复语中结合可匹配的肢体动作片段，以实现语音驱动虚拟数字人的肢体交互。在实施例中，用户通过语音说“你好，XXX”，在唤醒虚拟数字人的同时，语音转换后的文本在调用对话管理平台的能力时，识别到是一个打招呼场景的技能，则可以触发虚拟数字人的回复“嗨，你好呀，XXX”，并执行一个打招呼的肢体动作。

该方法，通过单目视频人体动作捕捉技术，获得初始运动信息，并构建了动作信息转换模型，实现了采集动作在虚拟数字人模型上更好的复现，能快速扩建肢体动作库，通过对肢体动作库进行肢体语义的文本信息打标，实现对肢体运动信息转文本语义的识别过程，进而能实现同时支持语音文本和肢体动作触发虚拟数字人的动作响应。

基于同一技术构思，本申请第二实施例提供了一种肢体动作交互装置，如图4，所述装置包括：

获取模块401，用于获取目标对象的第一肢体动作信息和语音文本信息；

文本确定模块402，用于从预设的肢体识别模型中确定所述第一肢体动作信息的动作类别文本；

标签确定模块403，用于根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签；

肢体动作确定模块404，用于根据所述肢体动作文本标签在肢体动作库中确定第二肢体动作信息；

驱动输出模块405，用于根据所述第二肢体动作信息驱动虚拟对象进行肢体动作输出。

该装置可以根据目标对象的第一肢体动作信息从肢体动作模型中确定动作类别文本，进而根据目标对象的语音文本信息和动作类别文本确定肢体动作文本标签，再从肢体动作库中确定虚拟对象的第二肢体动作信息，实现通过目标对象的语音和肢体动作即可直接与虚拟对象进行肢体交互，解决了目标对象与虚拟对象之间进行便捷的肢体交互的问题，提高了目标对象的体验感。

如图5所示，本申请第三实施例提供了一种电子设备，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

在一个实施例中，处理器111，用于执行存储器113上所存放的程序时，实现前述任意一个方法实施例提供的肢体动作交互方法的步骤：

获取目标对象的第一肢体动作信息和语音文本信息；

根据所述第二肢体动作信息驱动虚拟对象进行肢体动作输出。

上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。通信总线可以是外设部件互连标准(Peripheral Component Interconnect，简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本申请第四实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。

可选地，在本申请实施例中，计算机可读介质被设置为存储用于处理器执行上述方法的程序代码。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本申请实施例在具体实现时，可以参阅上述各个实施例，具有相应的技术效果。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSP Device，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅是为充分说明本申请而所举的较佳的实施例，本申请的保护范围不限于此。本技术领域的技术人员在本申请基础上所作的等同替代或变换，均在本申请的保护范围之内。

Claims

1.一种肢体动作交互方法，其特征在于，所述方法包括：

获取目标对象的第一肢体动作信息和语音文本信息；

2.根据权利要求1所述的方法，其特征在于，获取目标对象的第一肢体动作信息，包括：

获取目标对象的视频信息；

从所述目标区域提取所述目标对象的所述第一肢体动作信息。

3.根据权利要求1所述的方法，其特征在于，从预设的肢体识别模型中确定所述第一肢体动作信息的动作类别文本，包括：

根据所述蒙皮多人线性参数从所述肢体识别模型中确定对应的所述动作类别文本。

4.根据权利要求1所述的方法，其特征在于，根据所述动作类别文本和所述语音文本信息，确定肢体动作文本标签，包括：

从所述目标响应策略中提取所述肢体动作文本标签。

5.根据权利要求1所述的方法，其特征在于，从预设的肢体动作识别模型中确定所述第一肢体动作信息的动作类别文本之前，所述方法还包括：获取肢体识别模型，所述肢体识别模型包括所述肢体动作识别模型和所述肢体动作库；

其中，所述肢体识别模型的建立过程，包括：

采集训练样本的人体动作信息数据集；

根据所述肢体动作片段构建所述肢体动作库；

对所述肢体动作库中的所述肢体动作片段配置肢体动作文本标签数据集，根据所述肢体动作文本标签数据集和所述肢体动作片段训练所述肢体动作识别模型。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：构建肢体交互策略；其中，所述肢体交互策略基于语义文本配置肢体动作响应的肢体动作文本标签。

7.根据权利要求5所述的方法，其特征在于，将所述人体动作信息数据集与所述人体关键点骨架进行关联，得到虚拟对象的肢体动作片段，包括：

8.一种肢体动作交互装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法。