CN115187708A - 一种虚拟主播角色模型和语音数据叠加摄录视频系统 - Google Patents

一种虚拟主播角色模型和语音数据叠加摄录视频系统 Download PDF

Info

Publication number
CN115187708A
CN115187708A CN202211114839.9A CN202211114839A CN115187708A CN 115187708 A CN115187708 A CN 115187708A CN 202211114839 A CN202211114839 A CN 202211114839A CN 115187708 A CN115187708 A CN 115187708A
Authority
CN
China
Prior art keywords
data
vector
audio
mouth shape
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211114839.9A
Other languages
English (en)
Other versions
CN115187708B (zh
Inventor
张卫平
黄筱雨
丁烨
张思琪
张伟
李显阔
李蕙男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Digital Group Co Ltd
Original Assignee
Global Digital Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Digital Group Co Ltd filed Critical Global Digital Group Co Ltd
Priority to CN202211114839.9A priority Critical patent/CN115187708B/zh
Publication of CN115187708A publication Critical patent/CN115187708A/zh
Application granted granted Critical
Publication of CN115187708B publication Critical patent/CN115187708B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/2053D [Three Dimensional] animation driven by audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;本系统能够将不同真人的动作数据和音频数据合成到一个虚拟人身上得到音像数据,使得虚拟人能够同时表现不同真人的优点。

Description

一种虚拟主播角色模型和语音数据叠加摄录视频系统
技术领域
本发明涉及一般的图像数据处理或产生领域,具体涉及一种虚拟主播角色模型和语音数据叠加摄录视频系统。
背景技术
虚拟主播以原创的虚拟人格设定、形象在视频网站、社交平台上进行活动,部分虚拟主播会借助安置在头部与肢体上的传感器,通过光学动作捕捉系统捕捉真人动作和表情,将动作数据同步到虚拟角色上,目前的虚拟主播通常时采集一个人的数据同步到虚拟角色上,但一个人往往具有优缺点,使得虚拟角色也存在缺点,例如跳舞水平好但唱歌水平差,或者唱歌水平好但跳舞水平差。若采集多个人的数据,可以使虚拟角色表现地更加完美,但如何将多个人的采集数据完美地合成在一个虚拟人上是需要解决的问题。
背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。
现在已经开发出了很多虚拟主播摄录系统,经过我们大量的检索与参考,发现现有的虚拟主播系统有如公开号为CN112446938A所公开的系统,这些系统一般包括建模单元,用于创建虚拟主播角色模型;采集单元,用于采集演绎数据,演绎数据包括动作数据、表情数据及语音数据;分析单元,用于根据演绎数据进行情感分析,得到当前情绪;存储单元,用于存储摄录的视频画面;合成单元,用于将声音数据虚拟化得到语音数据,并将当前情绪与语音数据进行关联得到播放语音;还用于将肢体动作和面部表情数据与虚拟主播角色模型进行关联,令虚拟主播角色模型按照动作数据执行相应动作;还用于将虚拟主播角色模型和声音数据叠加至摄录的视频画面中。但该系统在同一时间采集的仍然是一个人的数据,无法将多个表演者的优势点同步并合并在一个虚拟人身上。
发明内容
本发明的目的在于,针对所存在的不足,提出了一种虚拟主播角色模型和语音数据叠加摄录视频系统。
本发明采用如下技术方案:
一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述矢量加载数据组用
Figure 100002_DEST_PATH_IMAGE001
Figure 594392DEST_PATH_IMAGE002
表示,其中,
Figure 100002_DEST_PATH_IMAGE003
表示口型节点,
Figure 807199DEST_PATH_IMAGE004
表示肢体节点,
Figure 100002_DEST_PATH_IMAGE005
为动作矢量,j为动作矢量在矢量加载数据组中的序号,
Figure 388353DEST_PATH_IMAGE006
为平面角,
Figure 100002_DEST_PATH_IMAGE007
为俯仰角,
Figure 926781DEST_PATH_IMAGE008
为移动距离,
Figure 100002_DEST_PATH_IMAGE009
为动作时长;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据;
进一步的,所述音频预处理单元内设有发音特征参数表,所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据,实音数据对应音频片段为目标音频,所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据,所述实音数据和所述缓冲数据统称为发音数据,所述发音数据用
Figure 590456DEST_PATH_IMAGE010
表示,A为缓冲编码或发音编码,t为对应音频片段的时长;
进一步的,所述矢量处理单元内设有编码矢量对照表,所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量,一个发音编码对应多个口型节点,一个口型节点对应一组口型矢量和一个复原矢量,所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量
Figure 100002_DEST_PATH_IMAGE011
进一步的,所述口型矢量用
Figure 606954DEST_PATH_IMAGE012
表示,其中,
Figure 100002_DEST_PATH_IMAGE013
为时长比例,所述矢量处理单元根据实音数据中的发音编码A从所述编码矢量对照表中获取口型矢量,并将时长比例与实音数据中的t相乘后得到实音数据的动作矢量
Figure 183560DEST_PATH_IMAGE014
所述复原矢量用
Figure 100002_DEST_PATH_IMAGE015
表示,所述矢量处理单元根据缓冲数据获取前一个实音数据的复原矢量,将缓冲数据中的时间t添加到复原矢量中得到缓冲数据的动作矢量
Figure 892890DEST_PATH_IMAGE014
进一步的,所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中:
Figure 374687DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE017
Figure 460454DEST_PATH_IMAGE018
其中,
Figure 100002_DEST_PATH_IMAGE019
Figure 750621DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
分别为第k个口型矢量中的平面角、俯仰角和移动距离,m为该口型节点中口型矢量的数量。
本发明所取得的有益效果是:
本系统能够将不同表演者的动作数据与音频数据同时反应在一个虚拟人身上,在合成过程中,将音频数据先预处理成发音数据,然后再将发音数据处理成与动作采集模块采集的数据一致的矢量加载数据组,通过运行矢量加载数据组时虚拟人的肢体动作、口型动作与音频数据保持同步,最终能够呈现出一个表现力强劲的虚拟人表演视频。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。
附图说明
图1为本发明整体结构框架示意图;
图2为本发明动作矢量中平面角与俯仰角示意图;
图3为本发明编码矢量对照表内容示意图;
图4为本发明音频数据与发音数据关系示意图;
图5为本发明分析合成模块构成示意图。
具体实施方式
以下是通过特定的具体实施例来说明本发明的实施方式,本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用,本说明书中的各项细节也可基于不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。另外,本发明的附图仅为简单示意说明,并非依实际尺寸的描绘,事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容,但所公开的内容并非用以限制本发明的保护范围。
实施例一。
本实施例提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,结合图1,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
结合图5,所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述矢量加载数据组用
Figure 768869DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE023
表示,其中,
Figure 410065DEST_PATH_IMAGE024
表示口型节点,
Figure DEST_PATH_IMAGE025
表示肢体节点,
Figure 768366DEST_PATH_IMAGE026
为动作矢量,j为动作矢量在矢量加载数据组中的序号,
Figure DEST_PATH_IMAGE027
为平面角,
Figure 444198DEST_PATH_IMAGE028
为俯仰角,
Figure DEST_PATH_IMAGE029
为移动距离,
Figure 495330DEST_PATH_IMAGE030
为动作时长;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据;
所述音频预处理单元内设有发音特征参数表,所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据,实音数据对应音频片段为目标音频,所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据,所述实音数据和所述缓冲数据统称为发音数据,所述发音数据用
Figure DEST_PATH_IMAGE031
表示,A为缓冲编码或发音编码,t为对应音频片段的时长;
所述矢量处理单元内设有编码矢量对照表,所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量,一个发音编码对应多个口型节点,一个口型节点对应一组口型矢量和一个复原矢量,所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量
Figure 623823DEST_PATH_IMAGE032
所述口型矢量用
Figure DEST_PATH_IMAGE033
表示,其中,
Figure 785814DEST_PATH_IMAGE034
为时长比例,所述矢量处理单元根据实音数据中的发音编码A从所述编码矢量对照表中获取口型矢量,并将时长比例与实音数据中的t相乘后得到实音数据的动作矢量
Figure 253836DEST_PATH_IMAGE032
所述复原矢量用
Figure DEST_PATH_IMAGE035
表示,所述矢量处理单元根据缓冲数据获取前一个实音数据的复原矢量,将缓冲数据中的时间t添加到复原矢量中得到缓冲数据的动作矢量
Figure 738519DEST_PATH_IMAGE032
所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中:
Figure 557571DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
Figure 523253DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
Figure 642518DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE041
分别为第k个口型矢量中的平面角、俯仰角和移动距离,m为该口型节点中口型矢量的数量。
实施例二。
本实施包含了实施例一的全部内容,提供了一种虚拟主播角色模型和语音数据叠加摄录视频系统,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述虚拟模型中包括肢体节点和口型节点,所述虚拟模型的运动包括肢体运动和口型运动,所述肢体节点通过运行矢量加载数据组后能够使虚拟模型产生肢体运动,所述口型节点通过运行矢量加载数据组后能够使虚拟模型产生口型运动,所述肢体节点需要的矢量加载数据组由所述动作采集模块直接提供,所述口型节点需要的矢量加载数据组由所述音频采集模块提供的音频数据处理后得到;
结合图4,所述分析合成模块包括音频预处理单元,所述音频预处理单元内设有发音特征参数表,所述文字特征参数表中记载了每种发音对应的音频特征,所述音频预处理单元接收从所述音频采集模块发送的音频数据后,根据所述发音特征参数表将音频数据转换成发音数据,所述发音数据由缓冲数据与实音数据构成,所述缓冲数据由缓冲编码和时间构成,所述实音数据由发音编码和时间构成,所述缓冲编码和所述发音编码具有相同的格式,所有的缓冲编码是一致的,不同的发音编码对应不同的文字发音,所述缓冲编码与所有的发音编码均不同,所述缓冲数据处于两个实音数据之间,所述缓冲数据和所述实音数据均用
Figure 769874DEST_PATH_IMAGE042
表示,A表示缓冲编码或者发音编码,所述音频预处理单元处理后得到的发音数据用序列
Figure DEST_PATH_IMAGE043
表示,i表示缓冲数据或实音数据在序列中的序号,所述实音数据中的时间t表示被检测到具有一种发音对应音频特征的一段音频的时长,这段音频称为目标音频,所述缓冲数据中的时间t表示相邻两段目标音频之间的时间间隔,序列
Figure 872960DEST_PATH_IMAGE043
中的首个和最后一个数据均为实音数据;
所述分析合成模块包括矢量处理单元,所述矢量处理单元用于将序列
Figure 970229DEST_PATH_IMAGE043
处理成矢量加载数据组;
结合图3,所述矢量处理单元内设有编码矢量对照表,所述编码矢量对照表中记录了每个发音编码对应的矢量变化数据组,所述矢量变化数据组包括多个口型节点,每个口型节点包括一组口型矢量,所述口型矢量用
Figure 678422DEST_PATH_IMAGE044
表示,其中,
Figure DEST_PATH_IMAGE045
为平面角,
Figure 242258DEST_PATH_IMAGE046
为俯仰角,
Figure DEST_PATH_IMAGE047
为移动距离,
Figure 564131DEST_PATH_IMAGE048
为时长比例,一组口型矢量中的
Figure 340457DEST_PATH_IMAGE048
之和为1;
所述矢量处理单元获取序列
Figure 762211DEST_PATH_IMAGE043
中的实音数据,根据所述实音数据中的发音编码从所述编码矢量对照表中获取对应的矢量变化数据组,将实音数据中的t与口型矢量中的
Figure 965790DEST_PATH_IMAGE048
相乘,使每个口型矢量变为动作矢量
Figure DEST_PATH_IMAGE049
,其中,
Figure 777888DEST_PATH_IMAGE050
所述编码矢量对照表中还记录了每个发音编码中每个口型节点的复原矢量
Figure DEST_PATH_IMAGE051
Figure 889064DEST_PATH_IMAGE052
为复原矢量的平面角,
Figure DEST_PATH_IMAGE053
为复原矢量的俯仰角,
Figure 103007DEST_PATH_IMAGE054
为复原矢量的移动距离,所述复原矢量为该口型节点口型矢量中
Figure DEST_PATH_IMAGE055
矢量和的反矢量;
所述矢量处理单元获取序列
Figure 8647DEST_PATH_IMAGE043
中的缓冲数据,然后在前一个实音数据对应的复原矢量中添加缓冲数据中的时间t,得到一个动作矢量
Figure 511303DEST_PATH_IMAGE056
,其中,
Figure DEST_PATH_IMAGE057
所述矢量处理单元按照序列
Figure 157661DEST_PATH_IMAGE043
的顺序对每个口型节点的动作矢量进行整理,得到矢量加载数据组
Figure 819586DEST_PATH_IMAGE058
,其中,j表示动作矢量的序号,P1表示口型节点;
所述动作采集模块直接从真人的动作中采集到矢量加载数据组
Figure DEST_PATH_IMAGE059
,其中,P2表示肢体节点;
所述分析合成模块包括模型动作单元,所述模型动作单元内设有虚拟主播模型,所述模型动作单元从所述矢量处理单元中获取口型节点的矢量加载数据组,所述模型动作单元从所述动作采集模块中获取肢体节点的矢量加载数据组,所述虚拟主播的模型中包括主动节点和被动节点,所述主动节点与矢量加载数据组中的口型节点和肢体节点一一对应,所述模型动作单元读取矢量加载数据后使主动节点发送对应的移动,所述被动节点会随着所述主动节点的移动而产生相应的移动,所述相应的移动并不是指相同的移动,被动节点的相应移动使整个模型不会因主动节点的移动而产生撕裂;
结合图2,当所述模型动作单元读取一个动作矢量
Figure 302651DEST_PATH_IMAGE049
后,会使模型中对应的主动节点在
Figure 558183DEST_PATH_IMAGE060
时间内沿着
Figure DEST_PATH_IMAGE061
确定的方向匀速移动d的距离,特别的,当矢量加载数据为
Figure 745582DEST_PATH_IMAGE062
时,对应的主动节点会静止
Figure 527593DEST_PATH_IMAGE060
时间;
所述拍摄模块从所述场景数据库中获取一个三维场景,将虚拟主播模型加载到三维场景中,所述拍摄模块中含有虚拟镜头,所述虚拟镜头能够在三维场景中拍摄获得平面图像,当启动拍摄后,所述模型动作单元开始读取矢量加载数据组,虚拟主播模型在三维场景中运动,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述视频数据与所述音频采集模块采集的音频数据合并后得到完整的音像数据;
所述编码矢量对照表中记录的复原矢量根据下式方式计算得到:
记一个口型节点的第k个口型矢量中的平面角、俯仰角和移动距离为
Figure DEST_PATH_IMAGE063
Figure 775035DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE065
,则该口型节点的复原矢量为:
Figure 924388DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE067
Figure 178127DEST_PATH_IMAGE068
其中,m为该口型节点中口型矢量的数量。
以上所公开的内容仅为本发明的优选可行实施例,并非因此局限本发明的保护范围,所以凡是运用本发明说明书及附图内容所做的等效技术变化,均包含于本发明的保护范围内,此外,随着技术发展其中的元素可以更新的。

Claims (5)

1.一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,包括动作采集模块、音频采集模块、场景数据库、分析合成模块和拍摄模块,所述动作采集模块用于采集真人的动作数据,所述音频采集模块用于采集真人的音频数据,所述场景数据库用于保存三维场景数据,所述分析合成模块根据所述动作数据和所述音频数据使虚拟模型产生运动,所述拍摄模块用于在三维场景中对运动的虚拟模型进行拍摄,并结合音频数据输出完整的音像数据;
所述分析合成模块包括音频预处理单元、矢量处理单元和模型动作单元,所述音频预处理单元用于对音频数据处理得到发音数据,所述矢量处理单元用于将发音数据处理成矢量加载数据组,所述模型动作单元根据所述矢量加载数据组使虚拟模型产生运动;
虚拟模型中包括口型节点和肢体节点,所述口型节点运行所述矢量处理单元得到的矢量加载数据组后产生口型运动,所述肢体节点运行所述动作采集模块采集的矢量加载数据组后产生肢体运动;
所述矢量加载数据组用
Figure DEST_PATH_IMAGE001
Figure 969094DEST_PATH_IMAGE002
表示,其中,
Figure DEST_PATH_IMAGE003
表示口型节点,
Figure 387437DEST_PATH_IMAGE004
表示肢体节点,
Figure DEST_PATH_IMAGE005
为动作矢量,j为动作矢量在矢量加载数据组中的序号,
Figure 617561DEST_PATH_IMAGE006
为平面角,
Figure DEST_PATH_IMAGE007
为俯仰角,
Figure 677921DEST_PATH_IMAGE008
为移动距离,
Figure DEST_PATH_IMAGE009
为动作时长;
所述拍摄模块从所述场景数据库中获取三维场景,并将虚拟主播模型加载到三维场景中,当所述模型动作单元运行矢量加载数据组时启动虚拟镜头开启录制,所述虚拟镜头将拍摄到的平面图像输出为视频数据,所述拍摄模块将视频数据与音频数据合并后得到完整的音像数据。
2.如权利要求1所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,所述音频预处理单元内设有发音特征参数表,所述音频预处理单元根据所述发音特征参数表将音频数据中的对应片段转换成实音数据,实音数据对应音频片段为目标音频,所述音频预处理单元将目标音频之间的音频片段转换成缓冲数据,所述实音数据和所述缓冲数据统称为发音数据,所述发音数据用
Figure 447907DEST_PATH_IMAGE010
表示,A为缓冲编码或发音编码,t为对应音频片段的时长。
3.如权利要求2所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,所述矢量处理单元内设有编码矢量对照表,所述矢量对照表中包括发音编码、口型节点、口型矢量和复原矢量,一个发音编码对应多个口型节点,一个口型节点对应一组口型矢量和一个复原矢量,所述矢量处理单元将每个一个发音数据根据所述编码矢量对照表处理成一个动作矢量
Figure DEST_PATH_IMAGE011
4.如权利要求3所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,所述口型矢量用
Figure 302730DEST_PATH_IMAGE012
表示,其中,
Figure DEST_PATH_IMAGE013
为时长比例,所述矢量处理单元根据实音数据中的发音编码A从所述编码矢量对照表中获取口型矢量,并将时长比例与实音数据中的t相乘后得到实音数据的动作矢量
Figure 551309DEST_PATH_IMAGE011
所述复原矢量用
Figure 884201DEST_PATH_IMAGE014
表示,所述矢量处理单元根据缓冲数据获取前一个实音数据的复原矢量,将缓冲数据中的时间t添加到复原矢量中得到缓冲数据的动作矢量
Figure 839519DEST_PATH_IMAGE011
5.如权利要求4所述的一种虚拟主播角色模型和语音数据叠加摄录视频系统,其特征在于,所述口型节点的复原矢量通过下式计算得到并记录在编码矢量对照表中:
Figure DEST_PATH_IMAGE015
Figure 396402DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
其中,
Figure 866698DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure 695893DEST_PATH_IMAGE020
分别为第k个口型矢量中的平面角、俯仰角和移动距离,m为该口型节点中口型矢量的数量。
CN202211114839.9A 2022-09-14 2022-09-14 一种虚拟主播角色模型和语音数据叠加摄录视频系统 Active CN115187708B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211114839.9A CN115187708B (zh) 2022-09-14 2022-09-14 一种虚拟主播角色模型和语音数据叠加摄录视频系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211114839.9A CN115187708B (zh) 2022-09-14 2022-09-14 一种虚拟主播角色模型和语音数据叠加摄录视频系统

Publications (2)

Publication Number Publication Date
CN115187708A true CN115187708A (zh) 2022-10-14
CN115187708B CN115187708B (zh) 2022-11-15

Family

ID=83524617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211114839.9A Active CN115187708B (zh) 2022-09-14 2022-09-14 一种虚拟主播角色模型和语音数据叠加摄录视频系统

Country Status (1)

Country Link
CN (1) CN115187708B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116095357A (zh) * 2023-04-07 2023-05-09 世优(北京)科技有限公司 虚拟主播的直播方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100303291A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Virtual Object
CN112446938A (zh) * 2020-11-30 2021-03-05 重庆空间视创科技有限公司 基于多模态的虚拟主播系统及方法
CN113194348A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113192161A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN113760101A (zh) * 2021-09-23 2021-12-07 北京字跳网络技术有限公司 一种虚拟角色控制方法、装置、计算机设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100303291A1 (en) * 2009-05-29 2010-12-02 Microsoft Corporation Virtual Object
CN112446938A (zh) * 2020-11-30 2021-03-05 重庆空间视创科技有限公司 基于多模态的虚拟主播系统及方法
CN113194348A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人讲课视频生成方法、系统、装置及存储介质
CN113192161A (zh) * 2021-04-22 2021-07-30 清华珠三角研究院 一种虚拟人形象视频生成方法、系统、装置及存储介质
CN113760101A (zh) * 2021-09-23 2021-12-07 北京字跳网络技术有限公司 一种虚拟角色控制方法、装置、计算机设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KRUTI PANDYA等: "Virtual Coach: Monitoring Exercises and Aerobic Dance Generation", 《INTERNATIONAL RESEARCH JOURNAL OF ENGINEERING AND TECHNOLOGY (IRJET)》 *
房杰: "基于动画捕获数据的若干计算机动画技术分析", 《浙江师范大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116095357A (zh) * 2023-04-07 2023-05-09 世优(北京)科技有限公司 虚拟主播的直播方法、装置及系统
CN116095357B (zh) * 2023-04-07 2023-07-04 世优(北京)科技有限公司 虚拟主播的直播方法、装置及系统

Also Published As

Publication number Publication date
CN115187708B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
Shlizerman et al. Audio to body dynamics
CN111080759B (zh) 一种分镜效果的实现方法、装置及相关产品
CN112562722A (zh) 基于语义的音频驱动数字人生成方法及系统
JP2006287749A (ja) 撮像装置、及びその制御方法
JPH11219446A (ja) 映像音響再生システム
CN102387292B (zh) 运动图像处理装置、运动图像再现装置、运动图像处理方法及运动图像再现方法
CN111429885A (zh) 一种将音频片段映射为人脸嘴型关键点的方法
CN115187708B (zh) 一种虚拟主播角色模型和语音数据叠加摄录视频系统
US20230061761A1 (en) Synthetic emotion in continuously generated voice-to-video system
US20160379410A1 (en) Enhanced augmented reality multimedia system
JP5055223B2 (ja) 映像コンテンツ生成装置及びコンピュータプログラム
CN109064548B (zh) 视频生成方法、装置、设备及存储介质
US7257538B2 (en) Generating animation from visual and audio input
CN114900733B (zh) 一种视频生成方法、相关装置及存储介质
CN109241956A (zh) 合成图像的方法、装置、终端及存储介质
JP2011186521A (ja) 感情推定装置および感情推定方法
CN114155322A (zh) 一种场景画面的展示控制方法、装置以及计算机存储介质
JP2005346471A (ja) 情報処理方法、情報処理装置
CN116051692B (zh) 一种基于语音驱动的三维数字人脸部动画生成方法
CN115601482A (zh) 数字人动作控制方法及其装置、设备、介质、产品
US11461948B2 (en) System and method for voice driven lip syncing and head reenactment
JPWO2012093430A1 (ja) 興味区間抽出装置、興味区間抽出方法
Baker The History of Motion Capture within the Entertainment Industry
WO2024060873A1 (zh) 动态影像的生成方法和装置
Wu et al. Marker-removal networks to collect precise 3D hand data for RGB-based estimation and its application in piano

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant