CN115187708A

CN115187708A - 一种虚拟主播角色模型和语音数据叠加摄录视频系统

Info

Publication number: CN115187708A
Application number: CN202211114839.9A
Authority: CN
Inventors: 张卫平; 黄筱雨; 丁烨; 张思琪; 张伟; 李显阔; 李蕙男
Original assignee: Global Digital Group Co Ltd
Current assignee: Global Digital Group Co Ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-10-14
Anticipated expiration: 2042-09-14
Also published as: CN115187708B

Abstract

本发明提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统，包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块，所述动作采集模块用于采集真人的动作数据，所述音频采集模块用于采集真人的音频数据，所述场景数据库用于保存三维场景数据，所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动，所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄，并结合音频数据输出完整的音像数据；本系统能够将不同真人的动作数据和音频数据合成到一个虚拟人身上得到音像数据，使得虚拟人能够同时表现不同真人的优点。

Description

一种虚拟主播角色模型和语音数据叠加摄录视频系统

技术领域

本发明涉及一般的图像数据处理或产生领域，具体涉及一种虚拟主播角色模型和语音数据叠加摄录视频系统。

背景技术

虚拟主播以原创的虚拟人格设定、形象在视频网站、社交平台上进行活动，部分虚拟主播会借助安置在头部与肢体上的传感器，通过光学动作捕捉系统捕捉真人动作和表情，将动作数据同步到虚拟角色上，目前的虚拟主播通常时采集一个人的数据同步到虚拟角色上，但一个人往往具有优缺点，使得虚拟角色也存在缺点，例如跳舞水平好但唱歌水平差，或者唱歌水平好但跳舞水平差。若采集多个人的数据，可以使虚拟角色表现地更加完美，但如何将多个人的采集数据完美地合成在一个虚拟人上是需要解决的问题。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

现在已经开发出了很多虚拟主播摄录系统，经过我们大量的检索与参考，发现现有的虚拟主播系统有如公开号为CN112446938A所公开的系统，这些系统一般包括建模单元，用于创建虚拟主播角色模型；采集单元，用于采集演绎数据，演绎数据包括动作数据、表情数据及语音数据；分析单元，用于根据演绎数据进行情感分析，得到当前情绪；存储单元，用于存储摄录的视频画面；合成单元，用于将声音数据虚拟化得到语音数据，并将当前情绪与语音数据进行关联得到播放语音；还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联，令虚拟主播角色模型按照动作数据执行相应动作；还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中。但该系统在同一时间采集的仍然是一个人的数据，无法将多个表演者的优势点同步并合并在一个虚拟人身上。

发明内容

本发明的目的在于，针对所存在的不足，提出了一种虚拟主播角色模型和语音数据叠加摄录视频系统。

本发明采用如下技术方案：

一种虚拟主播角色模型和语音数据叠加摄录视频系统，包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块，所述动作采集模块用于采集真人的动作数据，所述音频采集模块用于采集真人的音频数据，所述场景数据库用于保存三维场景数据，所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动，所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄，并结合音频数据输出完整的音像数据；

所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元，所述音频预处理单元用于对音频数据处理得到发音数据，所述矢量处理单元用于将发音数据处理成矢量加载数据组，所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动；

虚拟模型中包括口型节点和肢体节点，所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动，所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动；

所述矢量加载数据组用

或

表示，其中，

表示口型节点，

表示肢体节点，

为动作矢量，j为动作矢量在矢量加载数据组中的序号，

为平面角，

为俯仰角，

为移动距离，

为动作时长；

所述拍摄模块从所述场景数据库中获取三维场景，并将虚拟主播模型加载到三维场景中，当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制，所述虚拟镜头将拍摄到的平面图像输出为视频数据，所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据；

进一步的，所述音频预处理单元内设有发音特征参数表，所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据，实音数据对应音频片段为目标音频，所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据，所述实音数据和所述缓冲数据统称为发音数据，所述发音数据用

表示，A为缓冲编码或发音编码，t为对应音频片段的时长；

进一步的，所述矢量处理单元内设有编码矢量对照表，所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量，一个发音编码对应多个口型节点，一个口型节点对应一组口型矢量和一个复原矢量，所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量

；

进一步的，所述口型矢量用

表示，其中，

为时长比例，所述矢量处理单元根据实音数据中的发音编码A从所述编码矢量对照表中获取口型矢量，并将时长比例与实音数据中的t相乘后得到实音数据的动作矢量

；

所述复原矢量用

表示，所述矢量处理单元根据缓冲数据获取前一个实音数据的复原矢量，将缓冲数据中的时间t添加到复原矢量中得到缓冲数据的动作矢量

；

进一步的，所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中：

；

；

；

其中，

、

和

分别为第k个口型矢量中的平面角、俯仰角和移动距离，m为该口型节点中口型矢量的数量。

本发明所取得的有益效果是：

本系统能够将不同表演者的动作数据与音频数据同时反应在一个虚拟人身上，在合成过程中，将音频数据先预处理成发音数据，然后再将发音数据处理成与动作采集模块采集的数据一致的矢量加载数据组，通过运行矢量加载数据组时虚拟人的肢体动作、口型动作与音频数据保持同步，最终能够呈现出一个表现力强劲的虚拟人表演视频。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1为本发明整体结构框架示意图；

图2为本发明动作矢量中平面角与俯仰角示意图；

图3为本发明编码矢量对照表内容示意图；

图4为本发明音频数据与发音数据关系示意图；

图5为本发明分析合成模块构成示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的精神下进行各种修饰与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

实施例一。

本实施例提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统，结合图1，包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块，所述动作采集模块用于采集真人的动作数据，所述音频采集模块用于采集真人的音频数据，所述场景数据库用于保存三维场景数据，所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动，所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄，并结合音频数据输出完整的音像数据；

结合图5，所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元，所述音频预处理单元用于对音频数据处理得到发音数据，所述矢量处理单元用于将发音数据处理成矢量加载数据组，所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动；

所述矢量加载数据组用

或

表示，其中，

表示口型节点，

表示肢体节点，

为动作矢量，j为动作矢量在矢量加载数据组中的序号，

为平面角，

为俯仰角，

为移动距离，

为动作时长；

所述音频预处理单元内设有发音特征参数表，所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据，实音数据对应音频片段为目标音频，所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据，所述实音数据和所述缓冲数据统称为发音数据，所述发音数据用

表示，A为缓冲编码或发音编码，t为对应音频片段的时长；

所述矢量处理单元内设有编码矢量对照表，所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量，一个发音编码对应多个口型节点，一个口型节点对应一组口型矢量和一个复原矢量，所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量

；

所述口型矢量用

表示，其中，

；

所述复原矢量用

；

所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中：

；

；

；

其中，

、

和

实施例二。

本实施包含了实施例一的全部内容，提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统，包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块，所述动作采集模块用于采集真人的动作数据，所述音频采集模块用于采集真人的音频数据，所述场景数据库用于保存三维场景数据，所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动，所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄，并结合音频数据输出完整的音像数据；

所述虚拟模型中包括肢体节点和口型节点，所述虚拟模型的运动包括肢体运动和口型运动，所述肢体节点通过运行矢量加载数据组后能够使虚拟模型产生肢体运动，所述口型节点通过运行矢量加载数据组后能够使虚拟模型产生口型运动，所述肢体节点需要的矢量加载数据组由所述动作采集模块直接提供，所述口型节点需要的矢量加载数据组由所述音频采集模块提供的音频数据处理后得到；

结合图4，所述分析合成模块包括音频预处理单元，所述音频预处理单元内设有发音特征参数表，所述文字特征参数表中记载了每种发音对应的音频特征，所述音频预处理单元接收从所述音频采集模块发送的音频数据后，根据所述发音特征参数表将音频数据转换成发音数据，所述发音数据由缓冲数据与实音数据构成，所述缓冲数据由缓冲编码和时间构成，所述实音数据由发音编码和时间构成，所述缓冲编码和所述发音编码具有相同的格式，所有的缓冲编码是一致的，不同的发音编码对应不同的文字发音，所述缓冲编码与所有的发音编码均不同，所述缓冲数据处于两个实音数据之间，所述缓冲数据和所述实音数据均用

表示，A表示缓冲编码或者发音编码，所述音频预处理单元处理后得到的发音数据用序列

表示，i表示缓冲数据或实音数据在序列中的序号，所述实音数据中的时间t表示被检测到具有一种发音对应音频特征的一段音频的时长，这段音频称为目标音频，所述缓冲数据中的时间t表示相邻两段目标音频之间的时间间隔，序列

中的首个和最后一个数据均为实音数据；

所述分析合成模块包括矢量处理单元，所述矢量处理单元用于将序列

处理成矢量加载数据组；

结合图3，所述矢量处理单元内设有编码矢量对照表，所述编码矢量对照表中记录了每个发音编码对应的矢量变化数据组，所述矢量变化数据组包括多个口型节点，每个口型节点包括一组口型矢量，所述口型矢量用

表示，其中，

为平面角，

为俯仰角，

为移动距离，

为时长比例，一组口型矢量中的

之和为1；

所述矢量处理单元获取序列

中的实音数据，根据所述实音数据中的发音编码从所述编码矢量对照表中获取对应的矢量变化数据组，将实音数据中的t与口型矢量中的

相乘，使每个口型矢量变为动作矢量

，其中，

；

所述编码矢量对照表中还记录了每个发音编码中每个口型节点的复原矢量

，

为复原矢量的平面角，

为复原矢量的俯仰角，

为复原矢量的移动距离，所述复原矢量为该口型节点口型矢量中

矢量和的反矢量；

所述矢量处理单元获取序列

中的缓冲数据，然后在前一个实音数据对应的复原矢量中添加缓冲数据中的时间t，得到一个动作矢量

，其中，

；

所述矢量处理单元按照序列

的顺序对每个口型节点的动作矢量进行整理，得到矢量加载数据组

，其中，j表示动作矢量的序号，P1表示口型节点；

所述动作采集模块直接从真人的动作中采集到矢量加载数据组

，其中，P2表示肢体节点；

所述分析合成模块包括模型动作单元，所述模型动作单元内设有虚拟主播模型，所述模型动作单元从所述矢量处理单元中获取口型节点的矢量加载数据组，所述模型动作单元从所述动作采集模块中获取肢体节点的矢量加载数据组，所述虚拟主播的模型中包括主动节点和被动节点，所述主动节点与矢量加载数据组中的口型节点和肢体节点一一对应，所述模型动作单元读取矢量加载数据后使主动节点发送对应的移动，所述被动节点会随着所述主动节点的移动而产生相应的移动，所述相应的移动并不是指相同的移动，被动节点的相应移动使整个模型不会因主动节点的移动而产生撕裂；

结合图2，当所述模型动作单元读取一个动作矢量

后，会使模型中对应的主动节点在

时间内沿着

确定的方向匀速移动d的距离，特别的，当矢量加载数据为

时，对应的主动节点会静止

时间；

所述拍摄模块从所述场景数据库中获取一个三维场景，将虚拟主播模型加载到三维场景中，所述拍摄模块中含有虚拟镜头，所述虚拟镜头能够在三维场景中拍摄获得平面图像，当启动拍摄后，所述模型动作单元开始读取矢量加载数据组，虚拟主播模型在三维场景中运动，所述虚拟镜头将拍摄到的平面图像输出为视频数据，所述视频数据与所述音频采集模块采集的音频数据合并后得到完整的音像数据；

所述编码矢量对照表中记录的复原矢量根据下式方式计算得到：

记一个口型节点的第k个口型矢量中的平面角、俯仰角和移动距离为

、

和

，则该口型节点的复原矢量为：

；

；

；

其中，m为该口型节点中口型矢量的数量。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的保护范围，所以凡是运用本发明说明书及附图内容所做的等效技术变化，均包含于本发明的保护范围内，此外，随着技术发展其中的元素可以更新的。

Claims

1.一种虚拟主播角色模型和语音数据叠加摄录视频系统，其特征在于，包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块，所述动作采集模块用于采集真人的动作数据，所述音频采集模块用于采集真人的音频数据，所述场景数据库用于保存三维场景数据，所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动，所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄，并结合音频数据输出完整的音像数据；

所述矢量加载数据组用

或

表示，其中，

表示口型节点，

表示肢体节点，

为动作矢量，j为动作矢量在矢量加载数据组中的序号，

为平面角，

为俯仰角，

为移动距离，

为动作时长；

所述拍摄模块从所述场景数据库中获取三维场景，并将虚拟主播模型加载到三维场景中，当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制，所述虚拟镜头将拍摄到的平面图像输出为视频数据，所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据。

2.如权利要求1所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统，其特征在于，所述音频预处理单元内设有发音特征参数表，所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据，实音数据对应音频片段为目标音频，所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据，所述实音数据和所述缓冲数据统称为发音数据，所述发音数据用

表示，A为缓冲编码或发音编码，t为对应音频片段的时长。

3.如权利要求2所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统，其特征在于，所述矢量处理单元内设有编码矢量对照表，所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量，一个发音编码对应多个口型节点，一个口型节点对应一组口型矢量和一个复原矢量，所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量