CN116528017A - 数字人视频的生成方法、装置、电子设备和存储介质 - Google Patents
数字人视频的生成方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN116528017A CN116528017A CN202310446324.7A CN202310446324A CN116528017A CN 116528017 A CN116528017 A CN 116528017A CN 202310446324 A CN202310446324 A CN 202310446324A CN 116528017 A CN116528017 A CN 116528017A
- Authority
- CN
- China
- Prior art keywords
- target
- video
- generating
- image
- lip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000009471 action Effects 0.000 claims abstract description 104
- 230000002159 abnormal effect Effects 0.000 claims description 17
- 230000008859 change Effects 0.000 claims description 16
- 230000007935 neutral effect Effects 0.000 claims description 13
- 238000009877 rendering Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 6
- 238000004891 communication Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/816—Monomedia components thereof involving special video data, e.g 3D video
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种数字人视频的生成方法、装置、电子设备和存储介质,该方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,无需花费大量时间训练数字人生成模型,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
Description
技术领域
本申请涉及计算机技术领域,更具体地,涉及一种数字人视频的生成方法、装置、电子设备和存储介质。
背景技术
随着人工智能技术的不断发展,很多企业或机构为提升服务质量以及客户体验,采用数字人视频进行服务。
现有技术中,通过采集大量的数据(如不同姿态、语音等数据),进行联合训练,从而得到数字人生成模型,再通过语音驱动,表情驱动等方法制作数字人视频,这种方式一般耗时较长,造成数字人视频的生成效率低。
因此,如何提高数字人视频的生成效率,是目前有待解决的技术问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请实施例提出了一种数字人视频的生成方法、装置、电子设备和存储介质,用以提高数字人视频的生成效率。
第一方面,提供一种数字人视频的生成方法,所述方法包括:获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
第二方面,提供一种数字人视频的生成装置,所述装置包括:第一生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;第二生成模块,用于根据所述目标音频生成唇部动作参数;第三生成模块,用于从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;第四生成模块,用于根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的数字人视频的生成方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数字人视频的生成方法。
通过应用以上技术方案,获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,无需花费大量时间训练数字人生成模型,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种数字人视频的生成方法的流程示意图;
图2示出了本发明另一实施例提出的一种数字人视频的生成方法的流程示意图;
图3示出了本发明又一实施例提出的一种数字人视频的生成方法的流程示意图;
图4示出了本发明实施例提出的一种数字人视频的生成装置的结构示意图;
图5示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供一种数字人视频的生成方法,如图1所示,该方法包括以下步骤:
步骤S101,获取待播报的目标文本,根据所述目标文本生成目标音频。
本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法对目标文本进行语音合成处理,得到目标音频。目标音频可采用现有技术中的不同音频格式,本领域技术人员可灵活选用。
在本申请一些实施例中,所述根据所述目标文本生成目标音频,包括:
基于预设自编码模型生成与所述目标文本对应的发音编码;
将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;
将所述发音编码和所述特征编码进行合成,得到合成编码;
将所述合成编码输入预设解码器,得到所述目标音频。
本实施例中,预设自编码模型为训练好的基于注意力的自编码模型,先将目标文本进行分句和分词预处理后,输入预设自编码模型,根据预设自编码模型的输出得到发音编码,其中,预设自编码模型可由字符嵌入网络、多层全连接、一维卷积神经网络以及多层循环神经网络组成。
预设语音片段是一段符合预设发音风格的参考语音,用于使目标音频符合预设发音风格,将预设语音片段输入预设发音特征编码器,得到相应的特征编码,其中,预设发音特征编码器可由多层二维卷积神经网络和多层循环神经网络组成。预设发音特征编码器的训练过程可包括:获取一组包括不同年龄、性别和地区的说话人发出的不同语言的样本语音,将各样本语音输入到预设神经网络模型内,然后获取预设神经网络模型内的输出值,将输出值与输入值比较,计算损失函数,根据损失函数来调整预设神经网络模型内中的二维卷积神经网络和循环神经网络的权重参数,直到检测出损失函数满足了收敛的判定条件,则停止训练,得到预设发音特征编码器。
在得到发音编码和特征编码后,将两者进行合成,得到合成编码,最后将合成编码输入预设解码器进行解码,得到目标音频。其中,预设解码器可由基于注意力机制的循环神经网络、多层循环神经网络以及多层一维卷积神经网络和全连接神经网络组成。
通过将预设语音片段的预设发音风格加入目标音频,可以使目标音频的发音符合用户喜好的发音风格,提升了用户体验。
步骤S102,根据所述目标音频生成唇部动作参数。
在生成目标音频后,根据目标音频生成唇部动作参数,该唇部动作参数对应与目标音频匹配的唇部动作序列,后续可利用唇部动作参数使数字人执行相应的唇部动作。
步骤S103,从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像。
可预先录制真实人脸播报目标文本的视频,从该视频中提取与真实人脸对应的真实人脸图像,该真实人脸图像可以为一个或多个,例如可以是一个真实人脸的正面图像,也可以使多个从不同角度(如正面、侧面、俯视、仰视等)拍摄真实人脸的图像。真实人脸图像的形象描述参数用于从多个维度对真实人脸图像进行描述,例如,形象描述参数可包括脸型、发型、性格、性别、气质、年龄、职业等,根据形象描述参数生成目标数字人的形象图像,其中,目标数字人为最终生成的数字人视频中的数字人。
在本申请一些实施例中,所述根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像,包括:
从预设形象标签集合中确定与所述形象描述参数匹配的多个目标形象标签;
将各所述目标形象标签输入预设形象图像生成模型,根据所述预设形象图像生成模型的输出结果得到所述形象图像。
本实施例中,预设形象标签集合由多个预设形象标签组成,每个预设形象标签对应一种或多种形象描述参数,预先根据各预设形象标签训练出可以预测形象图像的预设形象图像生成模型。在获取形象描述参数后,将形象描述参数与预设形象标签集合中各预设形象标签进行比对,确定与形象描述参数匹配的多个目标形象标签,然后将各目标形象标签输入预设形象图像生成模型,预设形象图像生成模型可输出相应的形象图像,从而使目标形象更加符合形象描述参数,提高了目标形象的准确性。
另外,若预设形象标签集合不存在与形象描述参数匹配的目标形象标签,可将一组默认形象标签作为目标形象标签,从而保证可靠的生成目标形象。在得到形象图像后,可基于所述形象描述参数生成新的预设形象标签,并将新的预设形象标签加入预设形象标签集合,得到新的预设形象标签集合,然后基于新的预设形象标签集合重新对预设形象图像生成模型进行训练,以更新预设形象图像生成模型,从而提高了的预设形象图像生成模型的准确性。
步骤S104,根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
在获取目标音频、唇部动作参数和形象图像后,根据三者生成目标数字人播报目标文本的数字人视频,该数字人视频中,目标数字人的形象符合形象图像,并可执行与唇部动作参数对应的唇部动作,同时发出与目标音频对应的符合目标文本内容的声音。
通过应用以上技术方案,获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,无需花费大量时间训练数字人生成模型,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
本申请实施例还提出了一种数字人视频的生成方法,如图2所示,包括以下步骤:
步骤S201,获取待播报的目标文本,根据所述目标文本生成目标音频。
本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法对目标文本进行语音合成处理,得到目标音频。目标音频可采用现有技术中的不同音频格式,本领域技术人员可灵活选用。
步骤S202,根据所述目标音频生成唇部动作参数。
在生成目标音频后,根据目标音频生成唇部动作参数,该唇部动作参数对应与目标音频匹配的唇部动作序列,后续可利用唇部动作参数使数字人执行相应的唇部动作。
步骤S203,从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像。
可预先录制真实人脸播报目标文本的视频,从该视频中提取与真实人脸对应的真实人脸图像,该真实人脸图像可以为一个或多个,例如可以是一个真实人脸的正面图像,也可以使多个从不同角度(如正面、侧面、俯视、仰视等)拍摄真实人脸的图像。真实人脸图像的形象描述参数用于从多个维度对真实人脸图像进行描述,例如,形象描述参数可包括脸型、发型、性格、性别、气质、年龄、职业等,根据形象描述参数生成目标数字人的形象图像,其中,目标数字人为最终生成的数字人视频中的数字人。
步骤S204,根据所述唇部动作参数对所述形象图像中的所述目标数字人的唇部进行调整,得到多个第一视频帧。
由于唇部动作参数是根据目标音频生成的,因此,基于唇部动作参数对目标数字人的唇部进行调整,使形象图像中的目标数字人做出对应目标音频的不同的唇形,形成与各唇形对应的多个第一视频帧。
步骤S205,基于预设视频渲染算法对各所述第一视频帧中的所述目标数字人进行渲染,得到唇部动作视频。
基于预设视频渲染算法对各第一视频帧中的目标数字人进行渲染,使目标数字人的唇形按各第一视频帧连续变化,得到一段唇部动作视频。
步骤S206,将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频。
在得到唇部动作视频后,将唇部动作视频与目标音频进行融合,使唇部动作和目标音频匹配,得到目标数字人播报目标文本的数字人视频,从而提高了数字人视频的准确性。
在本申请一些实施例中,在将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频之前,所述方法还包括:
根据所述目标音频的语速对所述唇部动作视频的播放速度进行调整,并在所述唇部动作视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。
本实施例中,由于获取的唇部动作视频可能与目标音频的语速不匹配,会造成音画不同步的问题,通过根据目标音频的语速对唇部动作视频的播放速度进行调整,避免了后续将两者融合后出现音画不同步的问题。另外,还基于预设衔接异常判定条件判断唇部动作视频中是否存在异常视频帧,该异常视频帧为一组相邻视频帧,其会影响视频的流畅性,若存在异常视频帧,则对异常视频帧进行平滑补帧处理,从而提高了数字人视频的流畅性。另外,平滑补帧处理的具体过程为现有技术,具体过程不再赘述。
通过应用以上技术方案,获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述唇部动作参数对所述形象图像中的所述目标数字人的唇部进行调整,得到多个第一视频帧;基于预设视频渲染算法对各所述第一视频帧中的所述目标数字人进行渲染,得到唇部动作视频;将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
本申请实施例还提出了一种数字人视频的生成方法,如图3所示,包括以下步骤:
步骤S301,获取待播报的目标文本,根据所述目标文本生成目标音频。
本实施例中,待播报的目标文本可以是用户上传或从其他服务器获取的文本数据,后续使数字人对目标文本的内容进行播报。在获取目标文本后,根据目标文本生成目标音频,后续将目标音频作为数字人视频中数字人发出的声音。具体的,可基于语音合成算法对目标文本进行语音合成处理,得到目标音频。目标音频可采用现有技术中的不同音频格式,本领域技术人员可灵活选用。
步骤S302,根据所述目标音频中各音素的音频特征获取预设中性面部的唇部动作序列。
目标音频中包括多个音素,每个音素具有相应的音频特征,预设中性面部为不带有表情的面部,根据与各音频特征对应的唇形使预设中性面部的唇形发生变化,得到唇部动作序列。
步骤S303,根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数。
在预设中性面部中预先设定了多个预设唇部关键点,根据预设唇部关键点和唇部动作序列生成唇部动作参数,从而提高了唇部动作参数的准确性。
在本申请一些实施例中,所述根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数,包括:
将各所述预设唇部关键点进行单向连接,得到唇部边缘轮廓;
对所述唇部边缘轮廓进行曲线拟合,得到所述唇部边缘轮廓在所述唇部动作序列中的曲率变化参数;
基于各所述预设唇部关键点求得所述唇部边缘轮廓在所述唇部动作序列中的夹角变化参数;
根据所述曲率变化参数和所述夹角变化参数生成所述唇部动作参数。
本实施例中,先将各预设唇部关键点进行单向连接,得到唇部边缘轮廓,然后对唇部边缘轮廓进行曲线拟合,得到唇部边缘轮廓在唇部动作序列中的曲率变化参数,另外,还基于各预设唇部关键点确定唇部边缘轮廓在唇部动作序列中的夹角变化参数,其中,该夹角变化参数是根据第一三角区域和第二三角区域中预定角度的角度值确定的,第一三角区域是根据覆盖唇部左侧或右侧的唇部关键点构建的,第二三角区域是根据覆盖唇部上部或下部的唇部关键点构建的。最后,将曲率变化参数和夹角变化参数进行组合,得到唇部动作参数。以此通过唇部边缘轮廓的曲率变化和夹角变化确定唇部动作参数,从而进一步提高了唇部动作参数的准确性。
步骤S304,从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像。
可预先录制真实人脸播报目标文本的视频,从该视频中提取与真实人脸对应的真实人脸图像,该真实人脸图像可以为一个或多个,例如可以是一个真实人脸的正面图像,也可以使多个从不同角度(如正面、侧面、俯视、仰视等)拍摄真实人脸的图像。真实人脸图像的形象描述参数用于从多个维度对真实人脸图像进行描述,例如,形象描述参数可包括脸型、发型、性格、性别、气质、年龄、职业等,根据形象描述参数生成目标数字人的形象图像,其中,目标数字人为最终生成的数字人视频中的数字人。
步骤S305,根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
在获取目标音频、唇部动作参数和形象图像后,根据三者生成目标数字人播报目标文本的数字人视频,该数字人视频中,目标数字人的形象符合形象图像,并可执行与唇部动作参数对应的唇部动作,同时发出与目标音频对应的符合目标文本内容的声音。
通过应用以上技术方案,获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频中各音素的音频特征获取预设中性面部的唇部动作序列;根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
本申请实施例还提出了一种数字人视频的生成装置,如图4所示,所述装置包括:第一生成模块401,用于获取待播报的目标文本,根据所述目标文本生成目标音频;第二生成模块402,用于根据所述目标音频生成唇部动作参数;第三生成模块403,用于从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;第四生成模块404,用于根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
在具体的应用场景中,第四生成模块404,具体用于:根据所述唇部动作参数对所述形象图像中的所述目标数字人的唇部进行调整,得到多个第一视频帧;基于预设视频渲染算法对各所述第一视频帧中的所述目标数字人进行渲染,得到唇部动作视频;将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频。
在具体的应用场景中,所述装置还包括调整模块,用于:根据所述目标音频的语速对所述唇部动作视频的播放速度进行调整,并在所述唇部动作视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。
在具体的应用场景中,第三生成模块403,具体用于:从预设形象标签集合中确定与所述形象描述参数匹配的多个目标形象标签;将各所述目标形象标签输入预设形象图像生成模型,根据所述预设形象图像生成模型的输出结果得到所述形象图像。
在具体的应用场景中,第二生成模块402,具体用于:根据所述目标音频中各音素的音频特征获取预设中性面部的唇部动作序列;根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数。
在具体的应用场景中,第二生成模块402,还具体用于:将各所述预设唇部关键点进行单向连接,得到唇部边缘轮廓;对所述唇部边缘轮廓进行曲线拟合,得到所述唇部边缘轮廓在所述唇部动作序列中的曲率变化参数;基于各所述预设唇部关键点求得所述唇部边缘轮廓在所述唇部动作序列中的夹角变化参数;根据所述曲率变化参数和所述夹角变化参数生成所述唇部动作参数。
在具体的应用场景中,第一生成模块401,具体用于:基于预设自编码模型生成与所述目标文本对应的发音编码;将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;将所述发音编码和所述特征编码进行合成,得到合成编码;将所述合成编码输入预设解码器,得到所述目标音频。
通过应用以上技术方案,数字人视频的生成装置包括:第一生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;第二生成模块,用于根据所述目标音频生成唇部动作参数;第三生成模块,用于从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;第四生成模块,用于根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,只需根据待播报的文本和真实人脸的播报该文本的视频即可快速生成相应的数字人播报视频,从而提高了数字人视频的生成效率。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存储处理器的可执行指令;
处理器501,被配置为经由执行所述可执行指令来执行:
获取待播报的目标文本,根据所述目标文本生成目标音频;根据所述目标音频生成唇部动作参数;从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的数字人视频的生成方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的数字人视频的生成方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数字人视频的生成方法,其特征在于,所述方法包括:
获取待播报的目标文本,根据所述目标文本生成目标音频;
根据所述目标音频生成唇部动作参数;
从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;
根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频,包括:
根据所述唇部动作参数对所述形象图像中的所述目标数字人的唇部进行调整,得到多个第一视频帧;
基于预设视频渲染算法对各所述第一视频帧中的所述目标数字人进行渲染,得到唇部动作视频;
将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频。
3.如权利要求2所述的方法,其特征在于,在将所述唇部动作视频与所述目标音频进行融合,得到所述数字人视频之前,所述方法还包括:
根据所述目标音频的语速对所述唇部动作视频的播放速度进行调整,并在所述唇部动作视频中存在异常视频帧时,对所述异常视频帧进行平滑补帧处理,其中,所述异常视频帧为满足预设衔接异常判定条件的相邻视频帧。
4.如权利要求1所述的方法,其特征在于,所述根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像,包括:
从预设形象标签集合中确定与所述形象描述参数匹配的多个目标形象标签;
将各所述目标形象标签输入预设形象图像生成模型,根据所述预设形象图像生成模型的输出结果得到所述形象图像。
5.如权利要求1所述的方法,其特征在于,所述根据所述目标音频生成唇部动作参数,包括:
根据所述目标音频中各音素的音频特征获取预设中性面部的唇部动作序列;
根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数。
6.如权利要求5所述的方法,其特征在于,所述根据所述预设中性面部中的预设唇部关键点和所述唇部动作序列生成所述唇部动作参数,包括:
将各所述预设唇部关键点进行单向连接,得到唇部边缘轮廓;
对所述唇部边缘轮廓进行曲线拟合,得到所述唇部边缘轮廓在所述唇部动作序列中的曲率变化参数;
基于各所述预设唇部关键点求得所述唇部边缘轮廓在所述唇部动作序列中的夹角变化参数;
根据所述曲率变化参数和所述夹角变化参数生成所述唇部动作参数。
7.如权利要求1所述的方法,其特征在于,所述根据所述目标文本生成目标音频,包括:
基于预设自编码模型生成与所述目标文本对应的发音编码;
将符合预设发音风格的预设语音片段输入预设发音特征编码器,生成特征编码;
将所述发音编码和所述特征编码进行合成,得到合成编码;
将所述合成编码输入预设解码器,得到所述目标音频。
8.一种数字人视频的生成装置,其特征在于,所述装置包括:
第一生成模块,用于获取待播报的目标文本,根据所述目标文本生成目标音频;
第二生成模块,用于根据所述目标音频生成唇部动作参数;
第三生成模块,用于从真实人脸播报所述目标文本的视频中获取真实人脸图像,根据所述真实人脸图像的形象描述参数生成目标数字人的形象图像;
第四生成模块,用于根据所述目标音频、所述唇部动作参数和所述形象图像生成所述目标数字人播报所述目标文本的数字人视频。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任意一项所述的数字人视频的生成方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任意一项所述的数字人视频的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446324.7A CN116528017A (zh) | 2023-04-24 | 2023-04-24 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310446324.7A CN116528017A (zh) | 2023-04-24 | 2023-04-24 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116528017A true CN116528017A (zh) | 2023-08-01 |
Family
ID=87407606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310446324.7A Pending CN116528017A (zh) | 2023-04-24 | 2023-04-24 | 数字人视频的生成方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116528017A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558259A (zh) * | 2023-11-22 | 2024-02-13 | 北京风平智能科技有限公司 | 一种数字人播报风格控制方法及装置 |
-
2023
- 2023-04-24 CN CN202310446324.7A patent/CN116528017A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558259A (zh) * | 2023-11-22 | 2024-02-13 | 北京风平智能科技有限公司 | 一种数字人播报风格控制方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10380996B2 (en) | Method and apparatus for correcting speech recognition result, device and computer-readable storage medium | |
CN107391646B (zh) | 一种视频图像的语义信息提取方法及装置 | |
CN109874029B (zh) | 视频描述生成方法、装置、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
EP3885966B1 (en) | Method and device for generating natural language description information | |
KR102502985B1 (ko) | 대상 추천 방법, 신경망 및 그 훈련 방법, 장치 및 매체 | |
CN116884391B (zh) | 基于扩散模型的多模态融合音频生成方法及装置 | |
US11036996B2 (en) | Method and apparatus for determining (raw) video materials for news | |
US20240078385A1 (en) | Method and apparatus for generating text | |
CN115100582B (zh) | 基于多模态数据的模型训练方法及装置 | |
CN117173504A (zh) | 一种文生图模型的训练方法、装置、设备及存储介质 | |
CN112149642A (zh) | 一种文本图像识别方法和装置 | |
CN111061867A (zh) | 基于质量感知的文本生成方法、设备、存储介质及装置 | |
CN113886643A (zh) | 数字人视频生成方法、装置、电子设备和存储介质 | |
CN116528017A (zh) | 数字人视频的生成方法、装置、电子设备和存储介质 | |
CN112086087A (zh) | 语音识别模型训练方法、语音识别方法及装置 | |
CN112182281B (zh) | 一种音频推荐方法、装置及存储介质 | |
CN114139703A (zh) | 知识蒸馏方法及装置、存储介质及电子设备 | |
CN114297220A (zh) | 一种数据处理方法、装置、计算机设备以及存储介质 | |
CN113761845A (zh) | 一种文本生成方法、装置、存储介质及电子设备 | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN114333772A (zh) | 语音识别方法、装置、设备、可读存储介质及产品 | |
CN116074574A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN116561294A (zh) | 手语视频的生成方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |