CN115187708A - 一种虚拟主播角色模型和语音数据叠加摄录视频系统 - Google Patents
一种虚拟主播角色模型和语音数据叠加摄录视频系统 Download PDFInfo
- Publication number
- CN115187708A CN115187708A CN202211114839.9A CN202211114839A CN115187708A CN 115187708 A CN115187708 A CN 115187708A CN 202211114839 A CN202211114839 A CN 202211114839A CN 115187708 A CN115187708 A CN 115187708A
- Authority
- CN
- China
- Prior art keywords
- data
- vector
- audio
- mouth shape
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009471 action Effects 0.000 claims abstract description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 161
- 238000007781 pre-processing Methods 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 description 18
- 238000000034 method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000008451 emotion Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000004148 unit process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/40—3D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—3D [Three Dimensional] animation
- G06T13/205—3D [Three Dimensional] animation driven by audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/80—2D [Two Dimensional] animation, e.g. using sprites
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;本系统能够将不同真人的动作数据和音频数据合成到一个虚拟人身上得到音像数据,使得虚拟人能够同时表现不同真人的优点。
Description
技术领域
本发明涉及一般的图像数据处理或产生领域,具体涉及一种虚拟主播角色模型和语音数据叠加摄录视频系统。
背景技术
虚拟主播以原创的虚拟人格设定、形象在视频网站、社交平台上进行活动,部分虚拟主播会借助安置在头部与肢体上的传感器,通过光学动作捕捉系统捕捉真人动作和表情,将动作数据同步到虚拟角色上,目前的虚拟主播通常时采集一个人的数据同步到虚拟角色上,但一个人往往具有优缺点,使得虚拟角色也存在缺点,例如跳舞水平好但唱歌水平差,或者唱歌水平好但跳舞水平差。若采集多个人的数据,可以使虚拟角色表现地更加完美,但如何将多个人的采集数据完美地合成在一个虚拟人上是需要解决的问题。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
现在已经开发出了很多虚拟主播摄录系统,经过我们大量的检索与参考,发现现有的虚拟主播系统有如公开号为CN112446938A所公开的系统,这些系统一般包括建模单元,用于创建虚拟主播角色模型;采集单元,用于采集演绎数据,演绎数据包括动作数据、表情数据及语音数据;分析单元,用于根据演绎数据进行情感分析,得到当前情绪;存储单元,用于存储摄录的视频画面;合成单元,用于将声音数据虚拟化得到语音数据,并将当前情绪与语音数据进行关联得到播放语音;还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联,令虚拟主播角色模型按照动作数据执行相应动作;还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中。但该系统在同一时间采集的仍然是一个人的数据,无法将多个表演者的优势点同步并合并在一个虚拟人身上。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种虚拟主播角色模型和语音数据叠加摄录视频系统。
本发明采用如下技术方案:
一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据;
进一步的,所述音频预处理单元内设有发音特征参数表,所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据,实音数据对应音频片段为目标音频,所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据,所述实音数据和所述缓冲数据统称为发音数据,所述发音数据用表示,A为缓冲编码或发音编码,t为对应音频片段的时长;
进一步的,所述矢量处理单元内设有编码矢量对照表,所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量,一个发音编码对应多个口型节点,一个口型节点对应一组口型矢量和一个复原矢量,所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量;
进一步的,所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中:
本发明所取得的有益效果是:
本系统能够将不同表演者的动作数据与音频数据同时反应在一个虚拟人身上,在合成过程中,将音频数据先预处理成发音数据,然后再将发音数据处理成与动作采集模块采集的数据一致的矢量加载数据组,通过运行矢量加载数据组时虚拟人的肢体动作、口型动作与音频数据保持同步,最终能够呈现出一个表现力强劲的虚拟人表演视频。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明动作矢量中平面角与俯仰角示意图;
图3为本发明编码矢量对照表内容示意图;
图4为本发明音频数据与发音数据关系示意图;
图5为本发明分析合成模块构成示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一。
本实施例提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,结合图1,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
结合图5,所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据;
所述音频预处理单元内设有发音特征参数表,所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据,实音数据对应音频片段为目标音频,所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据,所述实音数据和所述缓冲数据统称为发音数据,所述发音数据用表示,A为缓冲编码或发音编码,t为对应音频片段的时长;
所述矢量处理单元内设有编码矢量对照表,所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量,一个发音编码对应多个口型节点,一个口型节点对应一组口型矢量和一个复原矢量,所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量;
所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中:
实施例二。
本实施包含了实施例一的全部内容,提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述虚拟模型中包括肢体节点和口型节点,所述虚拟模型的运动包括肢体运动和口型运动,所述肢体节点通过运行矢量加载数据组后能够使虚拟模型产生肢体运动,所述口型节点通过运行矢量加载数据组后能够使虚拟模型产生口型运动,所述肢体节点需要的矢量加载数据组由所述动作采集模块直接提供,所述口型节点需要的矢量加载数据组由所述音频采集模块提供的音频数据处理后得到;
结合图4,所述分析合成模块包括音频预处理单元,所述音频预处理单元内设有发音特征参数表,所述文字特征参数表中记载了每种发音对应的音频特征,所述音频预处理单元接收从所述音频采集模块发送的音频数据后,根据所述发音特征参数表将音频数据转换成发音数据,所述发音数据由缓冲数据与实音数据构成,所述缓冲数据由缓冲编码和时间构成,所述实音数据由发音编码和时间构成,所述缓冲编码和所述发音编码具有相同的格式,所有的缓冲编码是一致的,不同的发音编码对应不同的文字发音,所述缓冲编码与所有的发音编码均不同,所述缓冲数据处于两个实音数据之间,所述缓冲数据和所述实音数据均用表示,A表示缓冲编码或者发音编码,所述音频预处理单元处理后得到的发音数据用序列表示,i表示缓冲数据或实音数据在序列中的序号,所述实音数据中的时间t表示被检测到具有一种发音对应音频特征的一段音频的时长,这段音频称为目标音频,所述缓冲数据中的时间t表示相邻两段目标音频之间的时间间隔,序列中的首个和最后一个数据均为实音数据;
结合图3,所述矢量处理单元内设有编码矢量对照表,所述编码矢量对照表中记录了每个发音编码对应的矢量变化数据组,所述矢量变化数据组包括多个口型节点,每个口型节点包括一组口型矢量,所述口型矢量用表示,其中,为平面角,为俯仰角,为移动距离,为时长比例,一组口型矢量中的之和为1;
所述分析合成模块包括模型动作单元,所述模型动作单元内设有虚拟主播模型,所述模型动作单元从所述矢量处理单元中获取口型节点的矢量加载数据组,所述模型动作单元从所述动作采集模块中获取肢体节点的矢量加载数据组,所述虚拟主播的模型中包括主动节点和被动节点,所述主动节点与矢量加载数据组中的口型节点和肢体节点一一对应,所述模型动作单元读取矢量加载数据后使主动节点发送对应的移动,所述被动节点会随着所述主动节点的移动而产生相应的移动,所述相应的移动并不是指相同的移动,被动节点的相应移动使整个模型不会因主动节点的移动而产生撕裂;
所述拍摄模块从所述场景数据库中获取一个三维场景,将虚拟主播模型加载到三维场景中,所述拍摄模块中含有虚拟镜头,所述虚拟镜头能够在三维场景中拍摄获得平面图像,当启动拍摄后,所述模型动作单元开始读取矢量加载数据组,虚拟主播模型在三维场景中运动,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述视频数据与所述音频采集模块采集的音频数据合并后得到完整的音像数据;
所述编码矢量对照表中记录的复原矢量根据下式方式计算得到:
其中,m为该口型节点中口型矢量的数量。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。
Claims (5)
1.一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114839.9A CN115187708B (zh) | 2022-09-14 | 2022-09-14 | 一种虚拟主播角色模型和语音数据叠加摄录视频系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211114839.9A CN115187708B (zh) | 2022-09-14 | 2022-09-14 | 一种虚拟主播角色模型和语音数据叠加摄录视频系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115187708A true CN115187708A (zh) | 2022-10-14 |
CN115187708B CN115187708B (zh) | 2022-11-15 |
Family
ID=83524617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211114839.9A Active CN115187708B (zh) | 2022-09-14 | 2022-09-14 | 一种虚拟主播角色模型和语音数据叠加摄录视频系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187708B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100303291A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Virtual Object |
CN112446938A (zh) * | 2020-11-30 | 2021-03-05 | 重庆空间视创科技有限公司 | 基于多模态的虚拟主播系统及方法 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN113760101A (zh) * | 2021-09-23 | 2021-12-07 | 北京字跳网络技术有限公司 | 一种虚拟角色控制方法、装置、计算机设备以及存储介质 |
-
2022
- 2022-09-14 CN CN202211114839.9A patent/CN115187708B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100303291A1 (en) * | 2009-05-29 | 2010-12-02 | Microsoft Corporation | Virtual Object |
CN112446938A (zh) * | 2020-11-30 | 2021-03-05 | 重庆空间视创科技有限公司 | 基于多模态的虚拟主播系统及方法 |
CN113194348A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 |
CN113192161A (zh) * | 2021-04-22 | 2021-07-30 | 清华珠三角研究院 | 一种虚拟人形象视频生成方法、系统、装置及存储介质 |
CN113760101A (zh) * | 2021-09-23 | 2021-12-07 | 北京字跳网络技术有限公司 | 一种虚拟角色控制方法、装置、计算机设备以及存储介质 |
Non-Patent Citations (2)
Title |
---|
KRUTI PANDYA等: "Virtual Coach: Monitoring Exercises and Aerobic Dance Generation", 《INTERNATIONAL RESEARCH JOURNAL OF ENGINEERING AND TECHNOLOGY (IRJET)》 * |
房杰: "基于动画捕获数据的若干计算机动画技术分析", 《浙江师范大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116095357A (zh) * | 2023-04-07 | 2023-05-09 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
CN116095357B (zh) * | 2023-04-07 | 2023-07-04 | 世优(北京)科技有限公司 | 虚拟主播的直播方法、装置及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115187708B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shlizerman et al. | Audio to body dynamics | |
CN111080759B (zh) | 一种分镜效果的实现方法、装置及相关产品 | |
CN112562722A (zh) | 基于语义的音频驱动数字人生成方法及系统 | |
JP2006287749A (ja) | 撮像装置、及びその制御方法 | |
JPH11219446A (ja) | 映像音響再生システム | |
CN102387292B (zh) | 运动图像处理装置、运动图像再现装置、运动图像处理方法及运动图像再现方法 | |
CN111429885A (zh) | 一种将音频片段映射为人脸嘴型关键点的方法 | |
CN115187708B (zh) | 一种虚拟主播角色模型和语音数据叠加摄录视频系统 | |
US20230061761A1 (en) | Synthetic emotion in continuously generated voice-to-video system | |
US20160379410A1 (en) | Enhanced augmented reality multimedia system | |
JP5055223B2 (ja) | 映像コンテンツ生成装置及びコンピュータプログラム | |
CN109064548B (zh) | 视频生成方法、装置、设备及存储介质 | |
US7257538B2 (en) | Generating animation from visual and audio input | |
CN114900733B (zh) | 一种视频生成方法、相关装置及存储介质 | |
CN109241956A (zh) | 合成图像的方法、装置、终端及存储介质 | |
JP2011186521A (ja) | 感情推定装置および感情推定方法 | |
CN114155322A (zh) | 一种场景画面的展示控制方法、装置以及计算机存储介质 | |
JP2005346471A (ja) | 情報処理方法、情報処理装置 | |
CN116051692B (zh) | 一种基于语音驱动的三维数字人脸部动画生成方法 | |
CN115601482A (zh) | 数字人动作控制方法及其装置、设备、介质、产品 | |
US11461948B2 (en) | System and method for voice driven lip syncing and head reenactment | |
JPWO2012093430A1 (ja) | 興味区間抽出装置、興味区間抽出方法 | |
Baker | The History of Motion Capture within the Entertainment Industry | |
WO2024060873A1 (zh) | 动态影像的生成方法和装置 | |
Wu et al. | Marker-removal networks to collect precise 3D hand data for RGB-based estimation and its application in piano |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |