CN116310012A

CN116310012A - 一种基于视频的三维数字人姿态驱动方法、设备及系统

Info

Publication number: CN116310012A
Application number: CN202310596178.6A
Authority: CN
Inventors: 陈尧森; 张思勤; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-23
Anticipated expiration: 2043-05-25
Also published as: CN116310012B

Abstract

本发明公开了一种基于视频的三维数字人姿态驱动方法、设备及系统，属于计算机视觉和计算机图形学技术领域，包括步骤：S1，制作基础原子动画库：制作若干原子动画文件，作为驱动数字人的基础动画；S2，现实人物视频数据采集：使用实时的视频信号或已录制的视频；S3，姿态的估计识别：使用姿态识别算法估计视频中人物的姿态并获得姿态数据；S4，姿态数据与动画匹配：通过姿态相似性算法，找出与现实人物姿态最相似的动画；S5，使用实时视频姿态检测并匹配动画，动画融合过渡的方法，实现视频对三维数字人模型的驱动。本发明解决了目前三维数字人姿态驱动效果差的问题。

Description

一种基于视频的三维数字人姿态驱动方法、设备及系统

技术领域

本发明涉及计算机视觉和计算机图形学技术领域，更为具体的，涉及一种基于视频的三维数字人姿态驱动方法、设备及系统。

背景技术

随着数字媒体的快速发展，特别是数字人的制作过程中，方便快速并且稳定驱动三维数字人成为非常重要的挑战。传统的惯性动捕技术和光学动捕技术都较为成熟有很好的精度和稳定性，但对设备和场地有着较高的要求，随着人工智能技术的发展和移动互联网的兴起，基于视频的低成本动作捕捉技术大大拓展了动捕技术的受众范围，具有广阔的发展前景。

虽然视频动捕技术近年来已取得了很大的进步，但整体性能和传统的惯捕、光捕等方案仍有较大差距，特别是在存有遮挡，场景复杂等情况下，很容易出现检测不稳定，检测错误等问题，这些问题都会对驱动数字人产生影响。对于要求较高的应用场景来说，单独的视频动捕的方法来驱动数字人并不能满足使用要求，需要一种更加稳定的驱动三维数字人的方法。因此，如何使用视频动捕技术稳定驱动三维数字人成为一个亟需解决的技术问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视频的三维数字人姿态驱动方法、设备及系统，旨在解决目前三维数字人姿态驱动效果差的问题。

本发明的目的是通过以下方案实现的：

一种基于视频的三维数字人姿态驱动方法，包括以下步骤：

S1，制作基础原子动画库：制作若干原子动画文件，作为驱动数字人的基础动画；

S2，现实人物视频数据采集：使用实时的视频信号或已录制的视频；

S3，姿态的估计识别：使用姿态识别算法估计视频中人物的姿态并获得姿态数据；

S4，姿态数据与动画匹配：通过姿态相似性算法，找出与现实人物姿态最相似的动画；

S5，使用实时视频姿态检测并匹配动画，动画融合过渡的方法，实现视频对三维数字人模型的驱动。

进一步地，在步骤S2中，包括子步骤：视频中人物的姿势动作从已有动画中选择；在背景处无遮挡拍摄完整的人物姿态。

进一步地，在步骤S3中，姿态识别算法采用已训练好的姿态估计模型进行识别，得到视频中人物姿态的数据。

进一步地，在步骤S4中，所述通过姿态相似性算法，找出与现实人物姿态最相似的动画，包括子步骤：

S41，读取动画文件数据；

S42，使用姿态相似性算法将姿态数据依次与各动画关键帧的数据进行相似性计算；

S43，找出关键帧姿态与识别姿态差异最小的动画作为匹配结果。

进一步地，在步骤S42中，所述使用姿态相似性算法将姿态数据依次与各动画关键帧的数据进行相似性计算，包括子步骤：

基于姿态的骨骼旋转四元数，设计如下两组姿态数据之间的相似性计算公式：

四元数的差表示两个四元数的角位移，两相同四元数计算差的结果为单位四元数，将识别姿态骨骼四元数与动画关键帧姿态骨骼四元数的差与单位四元数之间的距离作为相似性指标；

两个姿态的第

个骨骼旋转四元数差的计算公式为：

其中，

为被计算骨骼的序号，/>

为四元数差的数组，/>

为四元数虚部，/>

为四元数实部，/>

，/>

，/>

为虚部单位，/>

，/>

，/>

为虚部系数，/>

为姿态识别骨骼旋转四元数数组，/>

为动画骨骼旋转四元数数组，/>

和/>

各包含一个姿态用于计算相似性的若干骨骼数据；

两个姿态的第

个骨骼差异值为两骨骼旋转四元数的差与单位四元数间的距离，计算公式为：

其中，

用于计算两个姿态的第/>

个骨骼的相似度，/>

为两个姿态第/>

个骨骼的四元数差，/>

，/>

为/>

的虚部系数，/>

为/>

的实部；

两个姿态用于计算的所有骨骼的平均差异值计算公式为：

其中，

为每个姿态计算的骨骼数目，/>

为骨骼序号，/>

为平均差异值。

进一步地，在步骤S5中，所述使用实时视频姿态检测并匹配动画，动画融合过渡的方法，包括子步骤：

S51，渲染引擎中实时视频姿态检测并匹配动画；

S52，添加动画之间的过渡效果；

S53，对动画的播放时刻和播放时长进行控制；

S54，配置动画并驱动数字人模型。

进一步地，在步骤S51中，所述实时视频姿态检测并匹配动画，包括子步骤：姿势检测窗口以一定帧长度实时滑动前进，在窗口末端达到当前动画结束前的若干帧位置时，使用检测窗口内采样帧的姿势与原子动画关键帧姿势进行匹配，决定下一动画；该若干帧即为过渡动画长度。

进一步地，在步骤S52中，所述添加动画之间的过渡效果，包括子步骤：采用权重融合的方法，在匹配确定下一动画后，上一动画末尾与下一动画起始的若干帧使用权重从0至1的混合，实现姿势的平滑过渡效果；该若干帧即为过渡动画长度。

一种基于视频的三维数字人姿态驱动设备，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。

一种基于视频的三维数字人姿态驱动系统，包括如上所述的基于视频的三维数字人姿态驱动设备。

本发明的有益效果包括：

本发明通过采集现实中人物的动作视频，使用姿态估计算法获得视频中的动作数据，将动作数据与现有动画进行匹配，使用与视频中人物姿态最相近的动画驱动数字人，从而实现基于视频的三维数字人姿态的驱动。

本发明能够基于视频来对三维的数字人模型进行稳定的动作驱动。

本发明实施例方案相比于使用姿态识别数据直接驱动数字人方法的改进点之一为动画匹配识别姿态并替代和原子动画驱动数字人的整体步骤。

本发明通过将动画与视频人物姿态使用相似性算法进行计算后匹配并替代，使姿势估计算法可能产生的识别不稳定和识别错误等问题在驱动数字人时不会产生实际影响，从而避免了使用视频驱动数字人时的抖动或姿势错误等问题，使视频动捕对数字人的驱动更加稳定和准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于视频的三维数字人姿态驱动方法的流程示意图；

图2为本发明实施例中姿势识别并匹配动画示意图；

图3为本发明实施例中两动画间融合过渡的示意图；

图4为本发明实施例中使用原始数据驱动和使用匹配动画驱动数字人的效果对比。需要说明，图4的图像是虚拟人，由计算机程序生成，不代表真人照片。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1所示，一种基于视频的三维数字人姿态驱动方法，包括以下步骤：

在实际应用过程中，在步骤S2中，包括子步骤：视频中人物的姿势动作从已有动画中选择；在背景处无遮挡拍摄完整的人物姿态。

在实际应用过程中，在步骤S3中，姿态识别算法采用已训练好的姿态估计模型进行识别，得到视频中人物姿态的数据。

在实际应用过程中，在步骤S4中，所述通过姿态相似性算法，找出与现实人物姿态最相似的动画，包括子步骤：

S41，读取动画文件数据；

在实际应用过程中，在步骤S42中，所述使用姿态相似性算法将姿态数据依次与各动画关键帧的数据进行相似性计算，包括子步骤：

两个姿态的第

个骨骼旋转四元数差的计算公式为：

其中，

为被计算骨骼的序号，/>

为四元数差的数组，/>

为四元数虚部，/>

为四元数实部，/>

，/>

，/>

为虚部单位，/>

，/>

，/>

为虚部系数，/>

为姿态识别骨骼旋转四元数数组，/>

为动画骨骼旋转四元数数组，/>

和/>

各包含一个姿态用于计算相似性的若干骨骼数据；

两个姿态的第

其中，

用于计算两个姿态的第/>

个骨骼的相似度，/>

为两个姿态第/>

个骨骼的四元数差，/>

，/>

为/>

的虚部系数，/>

为/>

的实部；

两个姿态用于计算的所有骨骼的平均差异值计算公式为：

其中，

为每个姿态计算的骨骼数目，/>

为骨骼序号，/>

为平均差异值。

在实际应用过程中，在步骤S5中，所述使用实时视频姿态检测并匹配动画，动画融合过渡的方法，包括子步骤：

S51，渲染引擎中实时视频姿态检测并匹配动画；

S52，添加动画之间的过渡效果；

S53，对动画的播放时刻和播放时长进行控制；

S54，配置动画并驱动数字人模型。

在实际应用过程中，在步骤S51中，所述实时视频姿态检测并匹配动画，包括子步骤：如图2所示，姿势检测窗口以一定帧长度实时滑动前进，在窗口末端达到当前动画结束前的若干帧（过渡动画长度）位置时，使用检测窗口内采样帧的姿势与原子动画关键帧姿势进行匹配，决定下一动画。

在实际应用过程中，在步骤S52中，所述添加动画之间的过渡效果，包括子步骤：如图3所示，采用权重融合的方法，在匹配确定下一动画后，上一动画末尾与下一动画起始的若干帧（过渡动画长度）使用权重从0至1的混合，实现姿势的平滑过渡效果。

在实际应用过程中，步骤S5中，在实现所述驱动数字人模型时，如图4所示，使用姿态相似性算法将识别姿态与相似的原子动画进行匹配后用原子动画替代原始识别姿态数据的驱动动作更加准确自然，避免了姿态识别原始数据可能产生的抖动和骨骼位置旋转错误等问题。

在实际应用过程中，本发明还提供一种基于视频的三维数字人姿态驱动设备，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如上任一项所述的方法。

在实际应用过程中，本发明还提供一种基于视频的三维数字人姿态驱动系统，包括如上所述的基于视频的三维数字人姿态驱动设备。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于视频的三维数字人姿态驱动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S2中，包括子步骤：视频中人物的姿势动作从已有动画中选择；在背景处无遮挡拍摄完整的人物姿态。

3.根据权利要求1所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S3中，姿态识别算法采用已训练好的姿态估计模型进行识别，得到视频中人物姿态的数据。

4.根据权利要求1所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S4中，所述通过姿态相似性算法，找出与现实人物姿态最相似的动画，包括子步骤：

S41，读取动画文件数据；

5.根据权利要求4所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S42中，所述使用姿态相似性算法将姿态数据依次与各动画关键帧的数据进行相似性计算，包括子步骤：

两个姿态的第

个骨骼旋转四元数差的计算公式为：

其中，

为被计算骨骼的序号，/>

为四元数差的数组，/>

为四元数虚部，/>

为四元数实部，/>

，/>

，/>

为虚部单位，/>

，/>

，/>

为虚部系数，/>

为姿态识别骨骼旋转四元数数组，/>

为动画骨骼旋转四元数数组，/>

和/>

各包含一个姿态用于计算相似性的若干骨骼数据；

两个姿态的第

其中，

用于计算两个姿态的第/>

个骨骼的相似度，/>

为两个姿态第/>

个骨骼的四元数差，/>

，/>

为/>

的虚部系数，/>

为/>

的实部；

两个姿态用于计算的所有骨骼的平均差异值计算公式为：

其中，

为每个姿态计算的骨骼数目，/>

为骨骼序号，/>

为平均差异值。

6.根据权利要求1所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S5中，所述使用实时视频姿态检测并匹配动画，动画融合过渡的方法，包括子步骤：

S51，渲染引擎中实时视频姿态检测并匹配动画；

S52，添加动画之间的过渡效果；

S53，对动画的播放时刻和播放时长进行控制；

S54，配置动画并驱动数字人模型。

7.根据权利要求6所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S51中，所述实时视频姿态检测并匹配动画，包括子步骤：姿势检测窗口以一定帧长度实时滑动前进，在窗口末端达到当前动画结束前的若干帧位置时，使用检测窗口内采样帧的姿势与原子动画关键帧姿势进行匹配，决定下一动画；该若干帧即为过渡动画长度。

8.根据权利要求6所述的基于视频的三维数字人姿态驱动方法，其特征在于，在步骤S52中，所述添加动画之间的过渡效果，包括子步骤：采用权重融合的方法，在匹配确定下一动画后，上一动画末尾与下一动画起始的若干帧使用权重从0至1的混合，实现姿势的平滑过渡效果；该若干帧即为过渡动画长度。

9.一种基于视频的三维数字人姿态驱动设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，当所述计算机程序被所述处理器加载时并执行如权利要求1~8任一项所述的方法。

10.一种基于视频的三维数字人姿态驱动系统，其特征在于，包括如权利要求9所述的基于视频的三维数字人姿态驱动设备。