CN115797606A

CN115797606A - 基于深度学习的3d虚拟数字人交互动作生成方法及系统

Info

Publication number: CN115797606A
Application number: CN202310075538.8A
Authority: CN
Inventors: 黄倞知; 董鉴非; 李莉萍
Original assignee: Hefei Twin Universe Technology Co ltd
Current assignee: Hefei Twin Universe Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-03-14
Anticipated expiration: 2043-02-07
Also published as: CN115797606B

Abstract

本发明公开了一种基于深度学习的3D虚拟数字人交互动作生成方法及系统，包括：基于大数据获取人体局部特征部位的视频流，构建虚拟数字人的参考运动序列，基于参考运动序列及深度学习构建虚拟数字人交互动作生成模型；获取虚拟交互空间中虚拟数字人的当前交互任务分析动作特征描述，通过虚拟数字人交互动作生成模型结合动作特征描述生成动作信息；对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，将优化后的动作信息组成虚拟数字人交互动作序列。本发明通过建立高效全面的运动特征描述构建交互动作生成模型，并与当前行为及任务相结合使得虚拟人在仿真过程中能够给用户提供各种准确的反馈信息。

Description

基于深度学习的3D虚拟数字人交互动作生成方法及系统

技术领域

本发明涉及虚拟现实交互技术领域，更具体的，涉及一种基于深度学习的3D虚拟数字人交互动作生成方法及系统。

背景技术

虚拟数字人一直是三维视觉和计算机图形学的研究热点，相关技术更是广泛应用于AR、VR、全息通信、影视与游戏制作等多个领域。数字人的基本研究可描述为将人以及与之相关的人体、人脸以及服装等对象进行数字化表示，表示内容则往往涉及数字人的几何外观和语义信息。通过数字人的语义参数化模型进行关联对数字人的三维几何和材质外观进行高保真的描述刻画，并对数字人的语义信息进行有效表示。此外，针对不同的任务场景，往往也对应着构建高效、训练有效以及语义理解等不同的任务需求，伴随着则需要在相应的任务场景下设计有针对性的数字人表示方式和重建方法。

由于人体运动系统的冗余性、主动性和底层运动机理的复杂性，虚拟人的特定交互动作生成与控制技术成为当前虚拟现实和计算机动画应用领域的热点与难点问题。目前的虚拟人交互动作生成从生物力学角度进行人体运动的逼真建模仿真，所生成的人体动作和生理指标数据逼真准确，但模型的复杂性导致实时性难以保证；因此，通过对虚拟场景和任务的交互感知，基于各种生理、心理模型自主进行决策规划，进行各种复杂的人体行为仿真，进行生成相应交互动作是现在亟需解决的问题之一。

发明内容

为了解决上述技术问题，本发明提出了一种基于深度学习的3D虚拟数字人交互动作生成方法及系统。

本发明第一方面提供了一种基于深度学习的3D虚拟数字人交互动作生成方法，包括：

基于大数据获取特征部位的视频流，通过获取的视频流提取关键帧信息转化为关键RGB视频流序列，将提取的关键RGB视频流序列进行预处理；

根据预处理后的关键RGB视频流序列构建虚拟数字人的参考运动序列，基于所述参考运动序列及深度学习构建虚拟数字人交互动作生成模型；

获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息；

对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，将优化后的动作信息组成虚拟数字人交互动作序列。

本方案中，通过获取的视频流提取关键帧信息转化为关键RGB视频流序列，将提取的关键RGB视频流序列进行预处理，具体为：

通过大数据方法根据虚拟数字人的目标特征部位建立检索任务，根据相似度计算获取符合预设标准的含有目标特征部位的RGB视频流；

基于数据检索获取的RGB视频流通过时序提取帧图像数据选取关键帧信息，根据边缘算法提取关键帧信息中目标特征部位的轮廓信息，通过所述轮廓信息生成点云信息；

将点云信息进行杂点消除后获取各关键帧信息中点云信息的重叠度，预设重叠度阈值，将重叠度大于所述重叠度的关键帧信息进行拼接，通过拼接后的关键帧信息转化为关键RGB视频流序列；

根据所述关键RGB视频流序列通过三维姿态估计提取对应的运动序列，将运动序列根据运动类型进行数据标注，并进行平滑去噪及数据适配获取平滑稳定的运动序列。

本方案中，基于所述参考运动序列及深度学习构建虚拟数字人交互动作生成模型，具体为：

通过关键RGB视频流序列对应的运动序列构建虚拟数字人特定动作类型的参考运动序列，通过海量的运动序列进行数据整合生成满足虚拟数字人动作生成需求的参考运动序列数据集；

将所述参考运动序列数据集映射到低维向量空间生成各运动类型的低维向量表示，并根据动作相似度计算获取各个低维向量表示的联系；

通过图卷积神经网络对各运动类型的低维向量表示及对应的联系进行学习，并引入注意力机制选择性聚合低维向量空间中各个参考运动序列节点的特征，获取结构特征向量；

根据结构特征向量利用半监督学习进行图卷积神经网络的训练，经过预设迭代训练次数后进行准确性验证，将符合准确性验证标准的网络结构进行输出获取虚拟数字人交互动作生成模型。

本方案中，获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，具体为：

获取虚拟交互空间中的指令信息，对所属指令信息进行识别获取关键词特征或特定动作特征作为虚拟数字人的当前任务信息；

根据当前任务信息进行任务识别，利用大数据技术在搜索空间中进行数据检索，计算当前任务信息与搜索空间中数据的相似度，获取相似度符合预设标准的任务信息对应的动作序列及动作约束构建候选数据集；

将所述候选数据集中的数据进行动作特征提取，结合虚拟数字人所处环境的环境约束及位置约束对相关物理参数进行约束，生成当前任务信息的动作特征描述；

根据所述动作特征描述生成新的数据标签对候选数据集中的动作序列进行数据标注，并映射到低维向量空间。

本方案中，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息，具体为：

将动作特征描述映射低维向量空间中进行更新后，在虚拟数字人交互动作生成模型中，利用双通道卷积进行信息传递获取参考运动序列数据集对应的低维向量空间中各个运动序列向量节点的结构特征表示及动作特征描述的特征表示；

获取各个运动序列向量节点的运动特征描述时，通过注意力机制改进聚合函数，通过注意力权重表征节点对应的运动特征描述的重要性，通过注意力权重结合节点特征进行特征聚合获取基于运动特征描述的节点特征；

将图卷积及邻居聚合操作后各个运动序列向量节点的结构特征表示及动作特征描述的特征表示进行特征融合获取混合特征，通过全连接层将所述混合特征进行特征变换生成概率矩阵；

根据各运动序列向量节点的概率矩阵获取对应概率值，选取概率值大于预设概率值阈值的运动序列进行拼接进行输出，生成动作信息。

本方案中，对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，具体为：

获取虚拟数字人交互动作生成模型输出的动作信息序列，构建虚拟数字人生成动作评估模型对动作信息序列中各动作数据的流畅自然程度进行评价；

根据大数据检索获取虚拟数字人交互动作自然性评价指标，通过所述评价指标基于层次分析法及模糊综合评价进行流畅自然程度评价；

通过层次分析模型构建判断矩阵获取评价指标的指标权重，根据评价指标确定动作数据流畅自然的评价因素集合，通过模糊综合评价判断评价因素对预设重要性评价等级的隶属度，得到隶属度矩阵；

根据所述隶属度矩阵及指标权重计算模糊综合评价结果，获取动作信息序列中各个动作数据的流畅自然程度评价等级，选取流程自然程度评价等级不符合预设标准的动作数据进行标记；

获取符合程自然程度评价等级标准的动作数据获取运动捕捉数据特性作为优化标准，利用实时环境约束生成新的优化约束对标记动作数据的动作范围空间进行更新优化。

本发明第二方面还提供了一种基于深度学习的3D虚拟数字人交互动作生成系统，该系统包括：存储器、处理器，所述存储器中包括一种基于深度学习的3D虚拟数字人交互动作生成方法程序，所述一种基于深度学习的3D虚拟数字人交互动作生成的方法程序被所述处理器执行时实现如下步骤：

附图说明

图1示出了本发明一种基于深度学习的3D虚拟数字人交互动作生成方法的流程图；

图2示出了本发明根据当前交互任务分析动作特征描述的方法流程图；

图3示出了本发明通过虚拟数字人交互动作生成模型结合动作特征描述生成动作信息的方法流程图；

图4示出了本发明一种基于深度学习的3D虚拟数字人交互动作生成系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于深度学习的3D虚拟数字人交互动作生成方法的流程图。

如图1所示，本发明第一方面提供了一种基于深度学习的3D虚拟数字人交互动作生成方法，包括：

S102，基于大数据获取特征部位的视频流，通过获取的视频流提取关键帧信息转化为关键RGB视频流序列，将提取的关键RGB视频流序列进行预处理；

S104，根据预处理后的关键RGB视频流序列构建虚拟数字人的参考运动序列，基于所述参考运动序列及深度学习构建虚拟数字人交互动作生成模型；

S106，获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息；

S108，对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，将优化后的动作信息组成虚拟数字人交互动作序列。

需要说明的是，通过大数据方法根据虚拟数字人的目标特征部位（手部）建立检索任务，根据相似度计算获取符合预设标准的含有目标特征部位的RGB视频流；基于数据检索获取的RGB视频流通过时序提取帧图像数据选取关键帧信息，根据边缘算法提取关键帧信息中目标特征部位的轮廓信息，通过所述轮廓信息生成点云信息；将点云信息进行杂点消除后获取各关键帧信息中点云信息的重叠度，预设重叠度阈值，将重叠度大于所述重叠度的关键帧信息进行拼接，通过拼接后的关键帧信息转化为关键RGB视频流序列；根据所述关键RGB视频流序列通过三维姿态估计提取对应的运动序列，其中手部的三维姿态估计可以使用Minimal-Hand等开源框架进行获取，将运动序列根据运动类型进行数据标注，并进行平滑去噪及数据适配获取平滑稳定的运动序列。

图2示出了本发明根据当前交互任务分析动作特征描述的方法流程图。

根据本发明实施例，获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，具体为：

S202，获取虚拟交互空间中的指令信息，对所属指令信息进行识别获取关键词特征或特定动作特征作为虚拟数字人的当前任务信息；

S204，根据当前任务信息进行任务识别，利用大数据技术在搜索空间中进行数据检索，计算当前任务信息与搜索空间中数据的相似度，获取相似度符合预设标准的任务信息对应的动作序列及动作约束构建候选数据集；

S206，将所述候选数据集中的数据进行动作特征提取，结合虚拟数字人所处环境的环境约束及位置约束对相关物理参数进行约束，生成当前任务信息的动作特征描述；

S208，根据所述动作特征描述生成新的数据标签对候选数据集中的动作序列进行数据标注，并映射到低维向量空间。

需要说明的是，通过关键RGB视频流序列对应的运动序列构建虚拟数字人特定动作类型的参考运动序列，通过海量的运动序列进行数据整合生成满足虚拟数字人动作生成需求的参考运动序列数据集；将所述参考运动序列数据集映射到低维向量空间生成各运动类型的低维向量表示，并根据动作相似度计算获取各个低维向量表示的联系；通过图卷积神经网络对各运动类型的低维向量表示及对应的联系进行学习，并引入注意力机制选择性聚合低维向量空间中各个参考运动序列节点的特征，获取结构特征向量；根据结构特征向量利用半监督学习进行图卷积神经网络的训练，经过预设迭代训练次数后进行准确性验证，将符合准确性验证标准的网络结构进行输出获取虚拟数字人交互动作生成模型。

图3示出了本发明通过虚拟数字人交互动作生成模型结合动作特征描述生成动作信息的方法流程图。

根据本发明实施例，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息，具体为：

S302，将动作特征描述映射低维向量空间中进行更新后，在虚拟数字人交互动作生成模型中，利用双通道卷积进行信息传递获取参考运动序列数据集对应的低维向量空间中各个运动序列向量节点的结构特征表示及动作特征描述的特征表示；

S304，获取各个运动序列向量节点的运动特征描述时，通过注意力机制改进聚合函数，通过注意力权重表征节点对应的运动特征描述的重要性，通过注意力权重结合节点特征进行特征聚合获取基于运动特征描述的节点特征；

S306，将图卷积及邻居聚合操作后各个运动序列向量节点的结构特征表示及动作特征描述的特征表示进行特征融合获取混合特征，通过全连接层将所述混合特征进行特征变换生成概率矩阵；

S308，根据各运动序列向量节点的概率矩阵获取对应概率值，选取概率值大于预设概率值阈值的运动序列进行拼接进行输出，生成动作信息。

需要说明的是，通过注意力机制改进聚合函数，通过注意力权重表征节点对应的运动特征描述的重要性，根据节点特征进行特征变换的公式为：

其中，

表示节点i特征变化后的向量化表示，

表示向量映射参数，将向量映射为实数，

表示特征维度变换的权重矩阵及偏置，

表示节点特征，

表示激活函数；

利用节点特征变换后的向量化表示根据自注意力机制获取注意力权重q，

，将所述注意力权重结合节点特征通过内积得到基于运动特征描述的节点特征，通过向量拼接将各个运动序列向量节点的结构特征表示及动作特征描述的特征表示进行特征融合。

需要说明的是，获取虚拟数字人交互动作生成模型输出的动作信息序列，构建虚拟数字人生成动作评估模型对动作信息序列中各动作数据的流畅自然程度进行评价；根据大数据检索获取虚拟数字人交互动作自然性评价指标，通过所述评价指标基于层次分析法及模糊综合评价进行流畅自然程度评价；通过层次分析模型构建判断矩阵获取评价指标的指标权重，根据评价指标确定动作数据流畅自然的评价因素集合，通过模糊综合评价判断评价因素对预设重要性评价等级的隶属度，得到隶属度矩阵；建立评价指标层次结构，根据层级结构中各层的判断矩阵生成各指标的指标权重，指标层与目标层的隶属度通过其下一层指标的隶属度与权重进行计算，针对不同重要性评价等级：不流畅自然、一般流畅自然、流畅自然、特别流畅自然设置对应的隶属度，分别为70、80、90、100，根据所述隶属度矩阵及指标权重计算模糊综合评价结果，获取动作信息序列中各个动作数据的流畅自然程度评价等级，选取流程自然程度评价等级不符合预设标准的动作数据进行标记；获取符合程自然程度评价等级标准的动作数据获取运动捕捉数据特性作为优化标准，利用实时环境约束生成新的优化约束对标记动作数据的动作范围空间进行更新优化。

根据本发明实施例，根据任务指令及环境约束的实时更新，进行交互动作的实时变化，具体为：

当虚拟数字人所处环境的环境特征及位置特征的变化幅度大于预设幅度阈值时，则判断虚拟数字人受到外界强行干扰，干扰结束后获取虚拟数字人的实时位姿信息；

获取实时任务指令判断当前任务有无改变，若无改变，则基于实时位姿信息基于参考运动序列数据集中获取最佳过渡动作序列，继续完成当前交互任务；

若有改变，则获取当前任务与历史任务对应参考运动序列的马氏距离计算二者关联性，当所述关联性大于等于预设关联性阈值时，则获取二者参考运动序列中的重复动作节点，基于位移距离最小原则利用交互动作生成模型将重复动作节点进行拼接，并按照交互任务的目标交互点位置设置完成优先级，获取更新后动作序列；

当所述关联性小于预设关联性阈值时，则按照任务指令时间戳的时序信息设置完成优先级，并实时获取任务指令的反馈，根据反馈调整完成优先级，拼接任务的动作序列。

本发明第二方面还提供了一种基于深度学习的3D虚拟数字人交互动作生成系统4，该系统包括：存储器41、处理器42，所述存储器中包括一种基于深度学习的3D虚拟数字人交互动作生成方法程序，所述一种基于深度学习的3D虚拟数字人交互动作生成的方法程序被所述处理器执行时实现如下步骤：

其中，

表示节点i特征变化后的向量化表示，

表示向量映射参数，将向量映射为实数，

表示特征维度变换的权重矩阵及偏置，

表示节点特征，

表示激活函数；

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于深度学习的3D虚拟数字人交互动作生成方法程序，所述一种基于深度学习的3D虚拟数字人交互动作生成方法程序被处理器执行时，实现如上述任一项所述的一种基于深度学习的3D虚拟数字人交互动作生成方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，通过获取的视频流提取关键帧信息转化为关键RGB视频流序列，将提取的关键RGB视频流序列进行预处理，具体为：

3.根据权利要求1所述的一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，基于所述参考运动序列及深度学习构建虚拟数字人交互动作生成模型，具体为：

4.根据权利要求1所述的一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，具体为：

5.根据权利要求1所述的一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息，具体为：

6.根据权利要求1所述的一种基于深度学习的3D虚拟数字人交互动作生成方法，其特征在于，对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，具体为：

7.一种基于深度学习的3D虚拟数字人交互动作生成系统，其特征在于，该系统包括：存储器、处理器，所述存储器中包括一种基于深度学习的3D虚拟数字人交互动作生成方法程序，所述一种基于深度学习的3D虚拟数字人交互动作生成方法程序被所述处理器执行时实现如下步骤：

8.根据权利要求7所述的一种基于深度学习的3D虚拟数字人交互动作生成系统，其特征在于，获取虚拟交互空间中虚拟数字人的当前交互任务，根据所述当前交互任务分析动作特征描述，具体为：

9.根据权利要求7所述的一种基于深度学习的3D虚拟数字人交互动作生成系统，其特征在于，通过所述虚拟数字人交互动作生成模型结合动作特征描述生成动作信息，具体为：

10.根据权利要求7所述的一种基于深度学习的3D虚拟数字人交互动作生成系统，其特征在于，对生成的动作信息进行评估分析动作的流畅自然程度，根据评估结果生成动作的优化约束，具体为：