CN113411655A

CN113411655A - 口播视频生成方法、装置、电子设备及存储介质

Info

Publication number: CN113411655A
Application number: CN202110540761.6A
Authority: CN
Inventors: 张辰怡; 叶小瑜; 邓红波; 邹坤达; 黄旭为; 魏涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-09-17

Abstract

本公开关于一种口播视频生成方法、装置、电子设备及存储介质，该方法包括显示视频创建页面，视频创建页面包括目标模板口播视频的编辑操作区域，编辑操作区域中展示有目标模板口播视频对应的至少一个视频元素；至少一个视频元素包括字幕配音元素；响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素；响应于视频生成指令，基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频。利用本公开实施例可以有效降低了口播视频制作成本，且提升了口播视频制作效率。

Description

口播视频生成方法、装置、电子设备及存储介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种口播视频生成方法、装置、电子设备及存储介质。

背景技术

口播视频是记录播音员进行播音活动的视频。目前，口播类视频的应用越来越广泛。相关技术中，在口播视频制作过程中，用户需要通过换脸工具的摄像头录制用户说话的过程，并通过对用户的面部特征的提取，生成一个唇部同步的人物形象，进而生成一个带有新人物形象的口播视频。但上述相关技术中需要用户真实进行一次语音播报过程的录制，存在口播视频制作成本高，制作效率低的问题。

发明内容

本公开提供一种口播视频生成方法、装置、电子设备及存储介质，以至少解决相关技术中口播视频制作成本高，制作效率低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种口播视频生成方法，包括：

显示视频创建页面，所述视频创建页面包括目标模板口播视频的编辑操作区域，所述编辑操作区域中展示有所述目标模板口播视频对应的至少一个视频元素；所述至少一个视频元素包括字幕配音元素；

响应于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新所述字幕配音元素对应的编辑操作区域中展示的字幕配音元素；

响应于视频生成指令，基于所述目标模板口播视频和更新后的字幕配音元素，生成目标口播视频。

可选的，所述字幕配音元素对应的编辑操作区域包括第一字幕配音控件，所述第一字幕配音控件用于触发基于文本信息更新所述字幕配音元素中的字幕信息和配音信息；所述字幕配音元素对应的编辑操作区域还包括文本编辑区域；

所述响应于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新所述字幕配音元素对应的编辑操作区域中展示的字幕配音元素包括：

若检测到基于所述文本编辑区域触发的文本编辑指令，获取所述文本编辑指令对应的目标文本信息；

基于所述目标文本信息更新所述目标模板口播视频对应的配音信息和字幕信息；

在所述文本编辑区域中展示更新后的字幕信息，并播放更新后的配音信息。

可选的，所述字幕配音元素对应的编辑操作区域还包括第二字幕配音控件，所述第二字幕配音控件用于触发基于音频信息更新所述字幕配音元素中的字幕信息和配音信息；所述字幕配音元素对应的编辑操作区域还包括音频配置控件；

若检测到基于所述音频配置控件触发的音频配置指令，获取所述音频配置指令对应的目标音频信息；

基于所述目标音频信息更新所述目标模板口播视频对应的字幕信息和配音信息；

在所述字幕配音元素对应的编辑操作区域中展示包括更新后的字幕信息的文本编辑区域。

可选的，所述字幕配音元素对应的编辑操作区域还包括文本样式编辑区域；所述方法还包括：

响应于基于所述文本样式编辑区域触发的第一样式编辑指令，更新所述文本编辑区域中展示的更新后的字幕信息的样式信息。

可选的，所述字幕配音元素对应的编辑操作区域还包括关键文本的样式编辑区域；所述方法还包括：

响应于基于所述样式编辑区域触发的第二样式编辑指令，更新所述文本编辑区域中展示的目标关键文本的样式信息，所述目标关键文本为所述更新后的字幕信息中基于预设标识标注的字幕信息。

可选的，所述至少一个视频元素还包括人像元素，所述方法还包括：

响应于基于所述人像元素对应编辑操作区域触发的人像编辑指令，在所述视频创建页面展示至少一个预设人像元素；

响应于基于任一预设人像元素触发的第一选择指令，基于所述第一选择指令对应的预设人像元素，更新所述编辑操作区域中展示的人像元素；

所述基于所述目标模板口播视频和更新后的字幕配音元素，生成目标口播视频包括：

基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人像元素，生成所述目标口播视频。

可选的，所述基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人像元素，生成所述目标口播视频包括：

获取所述目标模板口播视频对应的视频帧图像；

基于更新后的人像元素，对所述视频帧图像进行人像替换处理，得到第一目标视频帧图像；

根据所述更新后的字幕配音元素中的配音信息确定所述视频帧图像中目标对象的表情编码信息；

将所述表情编码信息和所述第一目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第一目标口播图像；

对所述第一目标口播图像和所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述至少一个视频元素还包括人脸元素，所述方法还包括：

响应于基于所述人脸元素对应的编辑操作区域触发的人脸编辑指令，在所述视频创建页面展示至少一个预设人脸图像；

响应于基于任一预设人脸图像触发的第二选择指令，基于所述第二选择指令对应的预设人脸图像，更新所述编辑操作区域中展示的人脸元素；

基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人脸元素，生成所述目标口播视频。

可选的，所述基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人脸元素，生成所述目标口播视频包括：

获取所述目标模板口播视频对应的视频帧图像；

基于人脸检测模型对所述视频帧图像进行人脸检测，得到人脸区域图像；

将所述人脸区域图像和更新后的人脸元素输入人脸合成模型进行人脸合成处理，得到目标人脸图像；

基于所述目标人脸图像和所述视频帧图像，确定第二目标视频帧图像；

将所述表情编码信息和所述第二目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第二目标口播图像；

对所述第二目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述至少一个视频元素还包括背景元素，所述方法还包括：

响应于基于所述背景元素对应的编辑操作区域触发的背景编辑指令，在所述视频创建页面展示至少一个预设背景元素；

响应于基于任一背景元素触发的第三选择指令，基于所述第三选择指令对应的预设背景元素，更新所述编辑操作区域中展示的背景元素；

基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的背景元素，生成所述目标口播视频。

可选的，所述基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的背景元素，生成所述目标口播视频包括：

获取所述目标模板口播视频对应的视频帧图像；

基于更新后的背景元素，对所述视频帧图像进行背景替换处理，得到第三目标视频帧图像；

将所述表情编码信息和所述第三目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第三目标口播图像；

对所述第三目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述基于所述目标模板口播视频和更新后的字幕配音元素，生成目标口播视频包括：

获取所述目标模板口播视频对应的视频帧图像；

将所述表情编码信息和所述视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第四目标口播图像；

对所述第四目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

根据本公开实施例的第二方面，提供一种口播视频生成装置，包括：

视频创建页面显示模块，被配置为执行显示视频创建页面，所述视频创建页面包括目标模板口播视频的编辑操作区域，所述编辑操作区域中展示有所述目标模板口播视频对应的至少一个视频元素；所述至少一个视频元素包括字幕配音元素；

字幕配音元素更新模块，被配置为执行响应于基于所述字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新所述字幕配音元素对应的编辑操作区域中展示的字幕配音元素；

目标口播视频生成模块，被配置为执行响应于视频生成指令，基于所述目标模板口播视频和更新后的字幕配音元素，生成目标口播视频。

所述字幕配音元素更新模块包括：

目标文本信息获取单元，被配置为执行若检测到基于所述文本编辑区域触发的文本编辑指令，获取所述文本编辑指令对应的目标文本信息；

第一配音字幕更新单元，被配置为执行基于所述目标文本信息更新所述目标模板口播视频对应的配音信息和字幕信息；

字幕信息展示更新单元，被配置为执行在所述文本编辑区域中展示更新后的字幕信息，并播放更新后的配音信息。

所述字幕配音元素更新模块包括：

目标音频信息获取单元，被配置为执行若检测到基于所述音频配置控件触发的音频配置指令，获取所述音频配置指令对应的目标音频信息；

第一配音字幕更新单元，被配置为执行基于所述目标音频信息更新所述目标模板口播视频对应的字幕信息和配音信息；

字幕信息展示单元，被配置为执行在所述字幕配音元素对应的编辑操作区域中展示包括更新后的字幕信息的文本编辑区域。

可选的，所述字幕配音元素对应的编辑操作区域还包括文本样式编辑区域；所述装置还包括：

第一样式信息更新模块，被配置为执行响应于基于所述文本样式编辑区域触发的第一样式编辑指令，更新所述文本编辑区域中展示的更新后的字幕信息的样式信息。

可选的，所述字幕配音元素对应的编辑操作区域还包括关键文本的样式编辑区域；所述装置还包括：

第二样式信息更新模块，被配置为执行响应于基于所述样式编辑区域触发的第二样式编辑指令，更新所述文本编辑区域中展示的目标关键文本的样式信息，所述目标关键文本为所述更新后的字幕信息中基于预设标识标注的字幕信息。

可选的，所述至少一个视频元素还包括人像元素，所述装置还包括：

预设人像元素展示模块，被配置为执行响应于基于所述人像元素对应编辑操作区域触发的人像编辑指令，在所述视频创建页面展示至少一个预设人像元素；

人像元素展示更新模块，被配置为执行响应于基于任一预设人像元素触发的第一选择指令，基于所述第一选择指令对应的预设人像元素，更新所述编辑操作区域中展示的人像元素；

所述目标口播视频生成模块还被配置为执行基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人像元素，生成所述目标口播视频。

可选的，所述目标口播视频生成模块包括：

第一视频帧图像获取单元，被配置为执行获取所述目标模板口播视频对应的视频帧图像；

人像替换处理单元，被配置为执行基于更新后的人像元素，对所述视频帧图像进行人像替换处理，得到第一目标视频帧图像；

第一表情编码信息确定单元，被配置为执行根据所述更新后的字幕配音元素中的配音信息确定所述视频帧图像中目标对象的表情编码信息；

第一视频帧编码处理单元，被配置为执行将所述表情编码信息和所述第一目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第一目标口播图像；

第一视频合成单元，被配置为执行对所述第一目标口播图像和所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述至少一个视频元素还包括人脸元素，所述装置还包括：

预设人脸图像展示模块，被配置为执行响应于基于所述人脸元素对应的编辑操作区域触发的人脸编辑指令，在所述视频创建页面展示至少一个预设人脸图像；

人脸元素展示更新模块，被配置为执行响应于基于任一预设人脸图像触发的第二选择指令，基于所述第二选择指令对应的预设人脸图像，更新所述编辑操作区域中展示的人脸元素；

所述目标口播视频生成模块还被配置为执行基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的人脸元素，生成所述。

可选的，所述目标口播视频生成模块包括：

第二视频帧图像获取单元，被配置为执行获取所述目标模板口播视频对应的视频帧图像；

人脸检测单元，被配置为执行基于人脸检测模型对所述视频帧图像进行人脸检测，得到人脸区域图像；

人脸合成处理单元，被配置为执行将所述人脸区域图像和更新后的人脸元素输入人脸合成模型进行人脸合成处理，得到目标人脸图像；

第二目标视频帧图像确定单元，被配置为执行基于所述目标人脸图像和所述视频帧图像，确定第二目标视频帧图像；

第二表情编码信息确定单元，被配置为执行根据所述更新后的字幕配音元素中的配音信息确定所述视频帧图像中目标对象的表情编码信息；

第二视频帧编码处理单元，被配置为执行将所述表情编码信息和所述第二目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第二目标口播图像；

第二视频合成单元，被配置为执行对所述第二目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述至少一个视频元素还包括背景元素，所述装置还包括：

预设背景元素展示模块，被配置为执行响应于基于所述背景元素对应的编辑操作区域触发的背景编辑指令，在所述视频创建页面展示至少一个预设背景元素；

背景元素展示更新模块，被配置为执行响应于基于任一背景元素触发的第三选择指令，基于所述第三选择指令对应的预设背景元素，更新所述编辑操作区域中展示的背景元素；

所述目标口播视频模块还被配置为执行基于所述目标模板口播视频、所述更新后的字幕配音元素和更新后的背景元素，生成所述目标口播视频。

可选的，所述目标口播视频生成模块包括：

第三视频帧图像获取单元，被配置为执行获取所述目标模板口播视频对应的视频帧图像；

背景替换处理单元，被配置为执行基于更新后的背景元素，对所述视频帧图像进行背景替换处理，得到第三目标视频帧图像；

第三表情编码信息确定单元，被配置为执行根据所述更新后的字幕配音元素中的配音信息确定所述视频帧图像中目标对象的表情编码信息；

第三视频帧编码处理单元，被配置为执行将所述表情编码信息和所述第三目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第三目标口播图像；

第三视频合成单元，被配置为执行对所述第三目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

可选的，所述目标口播视频生成模块包括：

第四视频帧图像获取单元，被配置为执行获取所述目标模板口播视频对应的视频帧图像；

第四表情编码信息确定单元，被配置为执行根据所述更新后的字幕配音元素中的配音信息确定所述视频帧图像中目标对象的表情编码信息；

第四视频帧编码处理单元，被配置为执行将所述表情编码信息和所述视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第四目标口播图像；

第四视频合成单元，被配置为执行对所述第四目标口播图像、所述更新后的字幕配音元素进行合成，得到所述目标口播视频。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例的第一方面中任一所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过在视频创建页面中提供目标模板口播视频，可以让用户在口播视频制作过程中，无需进行语音播报过程的录制，仅基于字幕配音元素对应的编辑操作区域进行字幕配音元素的配置，就可以进行口播视频的制作，按需生成记录语音播报过程的目标口播视频，在有效降低口播视频制作成本的同时，大大提升了口播视频制作效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种口播视频生成方法的流程图；

图2是根据一示例性实施例示出的一种视频创建页面的示意图；

图3是根据一示例性实施例示出的一种响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素的流程图；

图4是根据一示例性实施例示出的一种视频创建页面的示意图；

图5是根据一示例性实施例示出的一种响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素的流程图；

图6是根据一示例性实施例示出的一种视频创建页面的示意图；

图7是根据一示例性实施例示出的一种基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频的流程图；

图8是根据一示例性实施例示出的一种基于目标模板口播视频、更新后的字幕配音元素和更新后的人像元素，生成目标口播视频的流程图；

图9是根据一示例性实施例示出的一种基于目标模板口播视频、更新后的字幕配音元素和更新后的人脸元素，生成目标口播视频的流程图；

图10是根据一示例性实施例示出的一种基于目标模板口播视频、更新后的字幕配音元素和更新后的背景元素，生成目标口播视频的流程图；

图11是根据一示例性实施例示出的一种口播视频生成装置框图；

图12是根据一示例性实施例示出的一种用于视频生成的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

图1是根据一示例性实施例示出的一种口播视频生成方法的流程图，如图1所示，该口播视频生成方法用于终端电子设备中，包括以下步骤。

在步骤S101中，显示视频创建页面。

在一个具体的实施例中，视频创建页面可以包括目标模板口播视频的编辑操作区域，具体的，编辑操作区域中展示有上述目标模板口播视频对应的至少一个视频元素；在一个具体的实施例中，上述至少一个视频元素可以包括但不限于字幕配音元素、人像元素、人脸元素、背景元素、音量元素中的至少一种。

在一个可选的实施例中，视频创建页面还可以包括视频预览区域，该视频预览区域可以用于展示上述目标模板口播视频，以及用于进行目标模板口播视频的预览播放。

在实际应用中，在显示视频创建页面之前，可以显示模板展示页面，该模板展示页面可以包括预设数量个模板口播视频的模板视图；相应的，用户可以通过点击某一模板口播视频的模板视图的方式，触发视频创建页面的显示。具体的，用户点击的模板视图对应的模板口播视频为上述目标模板口播视频。

在一个具体的实施例中，模板口播视频的模板视图可以为能够反映目标模板口播视频中主要内容的图像，例如，封面图像等。在一个可选的实施例中，模板口播视频可以为预先基于视频软件制作好的视频，具体的，用于制作模板口播视频所涉及的播音员的肖像信息，语音信息等，均为经用户授权或者经过各方充分授权的信息。

在一个具体的实施例中，如图2所示，图2是根据一示例性实施例示出的一种视频创建页面的示意图。具体的，其中，100对应的区域为编辑操作区域，200对应的区域为视频预览区域。其中，101对应的区域为目标模板口播视频的人像元素对应的编辑操作区域、102对应的区域为目标模板口播视频的人脸元素对应的编辑操作区域，103对应的区域为目标模板口播视频的背景元素对应的编辑操作区域，104对应的区域为目标模板口播视频的音量元素对应的编辑操作区域，105对应的区域为目标模板口播视频的字幕配音元素对应的编辑操作区域。

在步骤S103中，响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素。

在一个具体的实施例中，用户可以通过上传文本信息，来生成口播视频中的配音信息和字幕信息。相应的，在一个可选的实施例中，上述字幕配音元素对应的编辑操作区域可以包括第一字幕配音控件，该第一字幕配音控件可以用于触发基于文本信息更新字幕配音元素中的字幕信息和配音信息；在一个具体的实施例中，如图2所示，第一字幕配音控件可以为“自定义字幕并朗读”控件。

在一个可选的实施例中，上述字幕配音元素对应的编辑操作区域还可以包括文本编辑区域；在一个具体的实施例中，如图2所示，文本编辑区域可以为图2中的106对应的区域。具体的，如图3所示，上述响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素可以包括以下步骤：

在步骤S301中，若检测到基于文本编辑区域触发的文本编辑指令，获取文本编辑指令对应的目标文本信息。

在步骤S303中，基于目标文本信息更新目标模板口播视频对应的配音信息和字幕信息。

在步骤S305中，在文本编辑区域中展示更新后的字幕信息，并播放更新后的配音信息。

在一个可选的实施例中，用户可以在文本编辑区域输入文本信息，以触发文本编辑指令，相应的，可以将输入的文本信息(目标文本信息)作为字幕信息，并通过语音合成技术将目标文本信息转换成配音信息(语音信息)。可选的，在文本编辑区域中展示字幕信息的同时，也可以播放对应的配音信息。

上述实施例中，通过获取文本信息，就可以实现对目标模板口播视频中配音信息和字幕信息的更新配置，大大提升视频制作的便利性。

在一个具体的实施例中，用户可以通过上传音频信息，来生成口播视频中的配音信息和字幕信息。相应的，在一个可选的实施例中，上述字幕配音元素对应的编辑操作区域还包括第二字幕配音控件，该第二字幕配音控件可以用于触发基于音频信息更新字幕配音元素中的字幕信息和配音信息。字幕配音元素对应的编辑操作区域还可以包括音频配置控件；

在一个具体的实施例中，如图4所示，图4是根据一示例性实施例示出的一种视频创建页面的示意图。具体的，第二字幕配音控件可以为图4中的“上传配音并提取字幕”控件。音频配置控件可以为图4中的“上传配音”控件。

在一个具体的实施例中，如图5所示，上述响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素可以包括：

在步骤S501中，若检测到基于音频配置控件触发的音频配置指令，获取音频配置指令对应的目标音频信息；

在步骤S503中，基于目标音频信息更新目标模板口播视频对应的字幕信息和配音信息；

在步骤S505中，在字幕配音元素对应的编辑操作区域中展示包括更新后的字幕信息的文本编辑区域。

在一个具体的实施例中，用户可以通过音频配置控件上传目标音频信息，进而可以将该目标音频信息作为配音信息，并通过语音识别将目标音频信息转换成配音信息。可选的，在编辑操作区域中展示包括更新后的字幕信息的文本编辑区域的同时，也可以展示配音信息的播放操作信息。具体的，该播放操作信息可以用于对配音信息进行播放，更新和删除等操作。

在一个具体的实施例中，在通过上传的音频信息，更新配音信息和字幕信息的同时，视频创建页面相应的更新，如图6所示，图6是根据一示例性实施例示出的一种视频创建页面的示意图。具体的，播放操作信息可以为图6中的600对应的信息。

在一个可选的实施例中，用户也可以对文本编辑区域内的更新后的字幕信息再次进行编辑，相应的，可以基于播放操作信息中的更新控件对配音信息进行更新，以便对字幕信息和配音信息进行更新匹配。

可选的，上述第一字幕配音控件对应的字幕配音元素更新方式可以为默认字幕配音更新方式，相应的，可以通过点击第二字幕配音控件，触发音频配置控件展示，进而基于上述图4对应实施例进行字幕配音元素更新。可选的，上述第二字幕配音控件对应的字幕配音元素更新方式可以为默认字幕配音更新方式，相应的，可以通过点击第一字幕配音控件，触发文本编辑区域的展示，进而基于上述图3对应实施例进行字幕配音元素更新。

上述实施例中，通过获取音频信息，就可以实现对目标模板口播视频中配音信息和字幕信息的更新配置，大大提升视频制作的便利性。

此外，需要说明的是，用于生成的字幕信息和配音信息的音频信息，或文本信息，均为经用户授权或者经过各方充分授权的信息。

在一个可选的实施例中，上述字幕配音元素对应的编辑操作区域还可以包括文本样式编辑区域；相应的，上述方法还可以包括：

响应于基于文本样式编辑区域触发的第一样式编辑指令，更新文本编辑区域中展示的更新后的字幕信息的样式信息。

在一个具体的实施例中，文本样式编辑区域可以设置进行文字颜色，文字字体，文字大小等文本样式的编辑控件。相应的，可以基于文本样式的编辑控件触发相应的样式编辑指令，进而可以更新字幕信息的样式信息。在一个具体的实施例中，如图2所示，上述文本样式编辑区域可以为图2中107对应的区域。

上述实施例中，通过设置文本样式编辑区域，可以便于对字幕信息的样式信息进行编辑，提升口播视频的多样性。

在一个可选的实施例中，上述字幕配音元素对应的编辑操作区域还可以包括关键文本的样式编辑区域；相应的，上述方法还可以包括：

响应于基于样式编辑区域触发的第二样式编辑指令，更新文本编辑区域中展示的目标关键文本的样式信息。

在实际应用中，针对一些关键文本可以通过对其进行特殊样式标注，以便更好的突出关键文本。在一个具体的实施例中，例如产品介绍的口播视频中，关键文本可以为产品名称。在一个具体的实施例中，用户可以结合预设标识选中文本编辑区域中的关键文本。具体的，预设标识可以包括但不限于首尾对应的两个标识信息，例如小括号、中括号、大括号、下划线等。相应的，目标关键文本为更新后的字幕信息中基于预设标识标注的字幕信息。在一个具体的实施例中，如图2所示，上述文本样式编辑区域可以为图2中108对应的区域。

上述实施例中，通过设置关键文本的样式编辑区域，可以便于对字幕信息中关键文本进行样式编辑，以便更好的突出关键文本，提升制作的口播视频的多样性。

在步骤S105中，响应于视频生成指令，基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频。

在一个具体的实施例中，如图7所示，上述基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频可以包括以下步骤：

在步骤S701中，获取目标模板口播视频对应的视频帧图像。

在一个具体的实施例中，可以提取目标模板口播视频中每一帧图像，得到上述视频帧图像。

在步骤S703中，根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息。

在一个具体的实施例中，表情编码信息可以为能够表征人物表情的信息，可选的，表情编码信息可以为facs系统(Facial Action Coding System，面部行为编码系统)中的AU(action unit，运动单元)系数。在实际应用中，音频信息中的每个音对应着一个表情，比如发“哦”这个音会对应一个表情，且该表情可以通过facs系统中某个AU对应的系数来量化。

在一个具体的实施例中，可以预先训练好用于确定表情编码信息的表情编码模型，具体的，表情编码模型可以基于具有训练表情编码信息的标注信息的训练音频对第一预设深度学习模型进行训练得到。

可选的，可以将配音信息输入表情编码模型进行表情编码处理，得到目标对象(播音人员)的表情编码信息。在一个具体的实施例中，可以将配音信息按照预设时间间隔进行划分，例如40毫秒，相应的，每40毫秒的配音信息可以对应一个表情编码信息。

在步骤S705中，将表情编码信息和视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第四目标口播图像。

在一个具体的实施例中，可以预先获取大量真实录制的视频，以真实录制的视频帧图像和播音人员的表情编码信息为第二预设深度学习模型的输入，输出为预测的视频帧图像；然后，计算输入视频帧图像与视频帧图像间的损失；基于损失来训练第二预设深度学习模型的，得到视频帧编码模型。

相应的，将目标对象的表情编码信息和对应视频帧图像输入视频帧编码模型进行视频帧编码处理，得到可以按照配音信息驱动目标对象表情的第四目标口播图像。

此外，需要说明的是，本公开真实录制的视频中涉及的用户信息均为经用户授权或者经过各方充分授权的信息。

在步骤S707中，对第四目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

在一个具体的实施例中，第四目标口播图像、更新后的字幕配音元素中的配音信息和字幕信息均对应的时间序列，相应的，可以结合时间序列对目标口播视频帧、更新后的字幕配音元素中的配音信息和字幕信息进行合成，得到上述目标口播视频结合。

上述实施例中，在合成目标口播视频过程中，结合配音信息确定的表情编码信息，生成目标口播视频中的每一帧目标口播图像，可以基于声音驱动目标模板口播视频中播音人员播音过程中的表情，大大提升得到的目标口播视频中播音人员的真实性和自然性。

在一个可选的实施例中，终端设备在本地进行目标口播视频的合成，可选的，也可以将用于合成目标口播视频的目标模板口播视频、更新后的字幕配音元素等信息发送给相应的服务器，以便服务器进行目标口播视频的合成，并将合成后的目标口播视频发送给终端设备，进而可以减轻终端设备上的计算压力。

由以上本说明书实施例提供的技术方案可见，本说明书中通过在视频创建页面中提供目标模板口播视频，可以让用户在口播视频制作过程中，无需进行语音播报过程的录制，仅基于字幕配音元素对应的编辑操作区域进行字幕配音元素的配置，就可以进行口播视频的制作，按需生成记录语音播报过程的目标口播视频，在有效降低口播视频制作成本的同时，大大提升了口播视频制作效率。

在一个可选的实施例中，在上述至少一个视频元素包括人像元素的情况下，上述方法还可以包括：

响应于基于人像元素对应编辑操作区域触发的人像编辑指令，在视频创建页面展示至少一个预设人像元素；

响应于基于任一预设人像元素触发的第一选择指令，基于第一选择指令对应的预设人像元素，更新编辑操作区域中展示的人像元素；

相应的，上述基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频包括：

基于目标模板口播视频、更新后的字幕配音元素和更新后的人像元素，生成目标口播视频。

在一个可选的实施例中，用户可以通过点击人像元素对应编辑操作区域触发人像编辑指令；可选的，在光标位于某一人像元素对应编辑操作区域的情况下，该人像元素对应编辑操作区域中可以展示用于触发该人像元素更换的“更换人像”控件，可选的，用户可以通过点击“更换人像”控件的方式触发人像编辑指令。在一个可选的实施例中，至少一个预设人像元素可以通过弹窗的方式展示在视频创建页面。

在一个具体的实施例中，预设人像元素可以为预设上传的大量预设生成的模板口播视频中人像元素。

在一个可选的实施例中，用户可以通过点击预设人像元素对应展示区域的方式触发第一选择指令；可选的，在光标位于某一预设人像元素对应展示区域的情况下，该预设人像元素对应展示区域中可以展示用于触发该预设人像元素选择的“使用人像”控件，可选的，用户可以通过点击“使用人像”控件的方式触发第一选择指令。

上述实施例中，通过人像元素对应编辑操作区域触发的人像编辑指令，可以便于用户在大量预设人像元素中进行人像元素选择，可以提升制作的目标口播视频中人物形象的多样性和丰富性。

在一个可选的实施例中，如图8所示，上述基于目标模板口播视频、更新后的字幕配音元素和更新后的人像元素，生成目标口播视频可以包括以下步骤：

在步骤S801中，获取目标模板口播视频对应的视频帧图像；

在步骤S803中，基于更新后的人像元素，对视频帧图像进行人像替换处理，得到第一目标视频帧图像。

在一个具体的实施例中，基于更新后的人像元素，对视频帧图像进行人像替换处理，得到第一目标视频帧图像可以包括基于背景识别模型对视频帧图像进行背景识别，得到背景图像，并基于背景图像和更新后的人像元素生成第一目标视频帧图像。

在一个具体的实施例中，背景识别模型可以为基于大量包括人像的训练图像和训练图像中背景图像的位置标注信息，对第三预设深度学习模型进行训练得到的。

在步骤S805中，根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

在步骤S807中，将表情编码信息和第一目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第一目标口播图像；

在步骤S809中，对第一目标口播图像和更新后的字幕配音元素进行合成，得到目标口播视频。

本说明书实施例中，步骤S801，以及S805、S807、S809中的细化可以参见上述图7对应的实施例中，在此不再赘述。

此外，需要说明的是，本说明书实施例中目标模板口播视频中的人像元素、用于训练背景识别模型等所涉及的人像的训练图像、用于替换目标模板口播视频中人像元素的预设人像元素，以及更新后的人像元素等人像元素，均为经用户、肖像所有者授权或者经过各方充分授权的信息。

上述实施例中，在合成目标口播视频过程中，结合配音信息确定的表情编码信息，以及包括用户选择的人像元素的视频帧图像，生成目标口播视频中的每一帧目标口播图像，可以基于声音驱动目标模板口播视频中播音人员播音过程中的表情，在提升得到的目标口播视频中播音人员的真实性和自然性的同时，大大提升制作的目标口播视频中人物形象的多样性和丰富性。

在一个可选的实施例中，在上述至少一个视频元素包括人脸元素的情况下，上述方法还可以包括：

响应于基于人脸元素对应的编辑操作区域触发的人脸编辑指令，在视频创建页面展示至少一个预设人脸图像；

响应于基于任一预设人脸图像触发的第二选择指令，基于第二选择指令对应的预设人脸图像，更新编辑操作区域中展示的人脸元素；

相应的，上述基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频可以包括：

基于目标模板口播视频、更新后的字幕配音元素和更新后的人脸元素，生成目标口播视频。

在一个可选的实施例中，用户可以通过点击人脸元素对应编辑操作区域触发人脸编辑指令；可选的，在光标位于某一人脸元素对应编辑操作区域的情况下，该人脸元素对应编辑操作区域中可以展示用于触发该人脸元素更换的“更换人脸”控件，可选的，用户可以通过点击“更换人脸”控件的方式触发人脸编辑指令。在一个可选的实施例中，至少一个预设人脸元素可以通过弹窗的方式展示在视频创建页面。

在一个具体的实施例中，预设人脸元素可以为预先基于生成式对抗网络(GAN，Generative Adversarial Networks)从真实人脸图像中提取特征信息后生成的，进而可以在保证图像真实性的基础上，大大提升图像的多样性。

在一个可选的实施例中，用户可以通过点击预设人脸元素对应展示区域的方式触发第二选择指令；可选的，在光标位于某一预设人脸元素对应展示区域的情况下，该预设人脸元素对应展示区域中可以展示用于触发该预设人脸元素选择的“使用人脸”控件，可选的，用户可以通过点击“使用人脸”控件的方式触发第二选择指令。

上述实施例中，通过人脸元素对应编辑操作区域触发的人脸编辑指令，可以便于用户在大量预设人脸元素中进行人脸元素选择，可以提升制作的目标口播视频中人物形象的多样性和丰富性。

在一个可选的实施例中，如图9所示，基于目标模板口播视频、更新后的字幕配音元素和更新后的人脸元素，生成目标口播视频可以包括以下步骤：

在步骤S901中，获取目标模板口播视频对应的视频帧图像；

在步骤S903中，基于人脸检测模型对视频帧图像进行人脸检测，得到人脸区域图像。

在一个具体的实施例中，人脸检测模型可以为基于大量包括人脸的训练图像和训练图像中人脸区域的位置标注信息，对第四预设深度学习模型进行训练得到的。相应的，基于人脸检测模型对视频帧图像进行人脸检测，可以得到视频帧图像中人脸区域的位置信息，进而，可以结合该位置信息，提取人脸区域图像。

在步骤S905中，将人脸区域图像和更新后的人脸元素输入人脸合成模型进行人脸合成处理，得到目标人脸图像；

在一个具体的实施例中，人脸合成模型可以为生成式对抗网络中生成器，相应的，将人脸区域图像和更新后的人脸元素输入人脸合成模型进行人脸合成处理，得到的目标人脸图像可以更好的与目标模板口播视频对应的视频帧图像中人物进行合成。

在步骤S907中，基于目标人脸图像和视频帧图像，确定第二目标视频帧图像。

在一个具体的实施例中，可以结合视频帧图像中人脸区域图像的位置信息，将目标人脸图像替换该人脸区域图像，得到对应的第二目标视频帧图像。

在步骤S909中，根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

在步骤S911中，将表情编码信息和第二目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第二目标口播图像；

在步骤S913中，对第二目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

本说明书实施例中，步骤S901，以及S909、S911、S913中的细化可以参见上述图7对应的实施例中，在此不再赘述。

此外，需要说明的是，上述目标模板口播视频中的人脸元素、用于训练人脸检测模型等涉及的人脸的训练图像、用于替换目标模板口播视频中人脸元素的预设人脸图像，以及更新后的人脸图像等人脸元素，均为经用户、肖像所有者授权或者经过各方充分授权的信息。

上述实施例中，在合成目标口播视频过程中，结合配音信息确定的表情编码信息，以及包括用户选择的人脸元素的视频帧图像，生成目标口播视频中的每一帧目标口播图像，可以基于声音驱动目标模板口播视频中播音人员播音过程中的表情，在提升得到的目标口播视频中播音人员的真实性和自然性的同时，大大提升制作的目标口播视频中人物形象的多样性和丰富性。

在一个可选的实施例中，在至少一个视频元素包括背景元素的情况下，上述方法还可以包括：

响应于基于背景元素对应的编辑操作区域触发的背景编辑指令，在视频创建页面展示至少一个预设背景元素；

响应于基于任一背景元素触发的第三选择指令，基于第三选择指令对应的预设背景元素，更新编辑操作区域中展示的背景元素；

基于目标模板口播视频、更新后的字幕配音元素和更新后的背景元素，生成目标口播视频。

在一个可选的实施例中，用户可以通过点击背景元素对应编辑操作区域触发背景编辑指令；可选的，在光标位于某一背景元素对应编辑操作区域的情况下，该背景元素对应编辑操作区域中可以展示用于触发该背景元素更换的“更换背景”控件，可选的，用户可以通过点击“更换背景”控件的方式触发背景编辑指令。在一个可选的实施例中，至少一个预设背景元素可以通过弹窗的方式展示在视频创建页面。

在一个具体的实施例中，预设背景元素可以为采集的背景图像。

在一个可选的实施例中，用户可以通过点击预设背景元素对应展示区域的方式触发第三选择指令；可选的，在光标位于某一预设背景元素对应展示区域的情况下，该预设背景元素对应展示区域中可以展示用于触发该预设背景元素选择的“使用背景”控件，可选的，用户可以通过点击“使用背景”控件的方式触发第三选择指令。

上述实施例中，通过背景元素对应编辑操作区域触发的背景编辑指令，可以便于用户在大量预设背景元素中进行背景元素选择，可以提升制作的目标口播视频中场景的多样性和丰富性。

在一个可选的实施例中，如图10所示，上述基于目标模板口播视频、更新后的字幕配音元素和更新后的背景元素，生成目标口播视频可以包括以下步骤：

在步骤S1001中，获取目标模板口播视频对应的视频帧图像；

在步骤S1003中，基于更新后的背景元素，对视频帧图像进行背景替换处理，得到第三目标视频帧图像。

在一个具体的实施例中，基于更新后的背景元素，对视频帧图像进行背景替换处理，得到第三目标视频帧图像可以包括基于人像识别模型对视频帧图像进行人像识别，得到视频帧图像中的目标对象图像；基于目标对象图像与更新后的背景元素生成第三目标视频帧图像；

在一个具体的实施例中，人像识别模型可以为基于大量包括人像的训练图像和训练图像中人像的位置标注信息，对第五预设深度学习模型进行训练得到的。

在步骤S1005中，根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

在步骤S1007中，将表情编码信息和第三目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第三目标口播图像；

在步骤S1009中，对第三目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

本说明书实施例中，步骤S1001，以及S1005、S1007、S1009中的细化可以参见上述图7对应的实施例中，在此不再赘述。

此外，需要说明的是，用于制作目标口播视频的人像元素、人脸元素、背景元素等，均为经用户授权或者经过各方充分授权的信息。

上述实施例中，在合成目标口播视频过程中，结合配音信息确定的表情编码信息，以及包括用户需求选择的背景元素的视频帧图像，生成目标口播视频中的每一帧目标口播图像，可以基于声音驱动目标模板口播视频中播音人员播音过程中的表情，在提升得到的目标口播视频中播音人员的真实性和自然性的同时，大大提升制作的目标口播视频中场景的多样性和丰富性。

图11是根据一示例性实施例示出的一种口播视频生成装置框图。参照图11，该装置包括：

视频创建页面显示模块1110，被配置为执行显示视频创建页面，视频创建页面包括目标模板口播视频的编辑操作区域，编辑操作区域中展示有目标模板口播视频对应的至少一个视频元素；至少一个视频元素包括字幕配音元素；

字幕配音元素更新模块1120，被配置为执行响应于基于字幕配音元素对应的编辑操作区域触发的字幕配音编辑指令，更新字幕配音元素对应的编辑操作区域中展示的字幕配音元素；

目标口播视频生成模块1130，被配置为执行响应于视频生成指令，基于目标模板口播视频和更新后的字幕配音元素，生成目标口播视频。

可选的，字幕配音元素对应的编辑操作区域包括第一字幕配音控件，第一字幕配音控件用于触发基于文本信息更新字幕配音元素中的字幕信息和配音信息；字幕配音元素对应的编辑操作区域还包括文本编辑区域；

字幕配音元素更新模块包括：

目标文本信息获取单元，被配置为执行若检测到基于文本编辑区域触发的文本编辑指令，获取文本编辑指令对应的目标文本信息；

第一配音字幕更新单元，被配置为执行基于目标文本信息更新目标模板口播视频对应的配音信息和字幕信息；

字幕信息展示更新单元，被配置为执行在文本编辑区域中展示更新后的字幕信息，并播放更新后的配音信息。

可选的，字幕配音元素对应的编辑操作区域还包括第二字幕配音控件，第二字幕配音控件用于触发基于音频信息更新字幕配音元素中的字幕信息和配音信息；字幕配音元素对应的编辑操作区域还包括音频配置控件；

字幕配音元素更新模块包括：

目标音频信息获取单元，被配置为执行若检测到基于音频配置控件触发的音频配置指令，获取音频配置指令对应的目标音频信息；

第一配音字幕更新单元，被配置为执行基于目标音频信息更新目标模板口播视频对应的字幕信息和配音信息；

字幕信息展示单元，被配置为执行在字幕配音元素对应的编辑操作区域中展示包括更新后的字幕信息的文本编辑区域。

可选的，字幕配音元素对应的编辑操作区域还包括文本样式编辑区域；上述装置还包括：

第一样式信息更新模块，被配置为执行响应于基于文本样式编辑区域触发的第一样式编辑指令，更新文本编辑区域中展示的更新后的字幕信息的样式信息。

可选的，字幕配音元素对应的编辑操作区域还包括关键文本的样式编辑区域；上述装置还包括：

第二样式信息更新模块，被配置为执行响应于基于样式编辑区域触发的第二样式编辑指令，更新文本编辑区域中展示的目标关键文本的样式信息，目标关键文本为更新后的字幕信息中基于预设标识标注的字幕信息。

可选的，至少一个视频元素还包括人像元素，上述装置还包括：

预设人像元素展示模块，被配置为执行响应于基于人像元素对应编辑操作区域触发的人像编辑指令，在视频创建页面展示至少一个预设人像元素；

人像元素展示更新模块，被配置为执行响应于基于任一预设人像元素触发的第一选择指令，基于第一选择指令对应的预设人像元素，更新编辑操作区域中展示的人像元素；

目标口播视频生成模块1130还被配置为执行基于目标模板口播视频、更新后的字幕配音元素和更新后的人像元素，生成目标口播视频。

可选的，目标口播视频生成模块1130包括：

第一视频帧图像获取单元，被配置为执行获取目标模板口播视频对应的视频帧图像；

人像替换处理单元，被配置为执行基于更新后的人像元素，对视频帧图像进行人像替换处理，得到第一目标视频帧图像；

第一表情编码信息确定单元，被配置为执行根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

第一视频帧编码处理单元，被配置为执行将表情编码信息和第一目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第一目标口播图像；

第一视频合成单元，被配置为执行对第一目标口播图像和更新后的字幕配音元素进行合成，得到目标口播视频。

可选的，至少一个视频元素还包括人脸元素，上述装置还包括：

预设人脸图像展示模块，被配置为执行响应于基于人脸元素对应的编辑操作区域触发的人脸编辑指令，在视频创建页面展示至少一个预设人脸图像；

人脸元素展示更新模块，被配置为执行响应于基于任一预设人脸图像触发的第二选择指令，基于第二选择指令对应的预设人脸图像，更新编辑操作区域中展示的人脸元素；

目标口播视频生成模块1130还被配置为执行基于目标模板口播视频、更新后的字幕配音元素和更新后的人脸元素，生成。

可选的，目标口播视频生成模块1130包括：

第二视频帧图像获取单元，被配置为执行获取目标模板口播视频对应的视频帧图像；

人脸检测单元，被配置为执行基于人脸检测模型对视频帧图像进行人脸检测，得到人脸区域图像；

人脸合成处理单元，被配置为执行将人脸区域图像和更新后的人脸元素输入人脸合成模型进行人脸合成处理，得到目标人脸图像；

第二目标视频帧图像确定单元，被配置为执行基于目标人脸图像和视频帧图像，确定第二目标视频帧图像；

第二表情编码信息确定单元，被配置为执行根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

第二视频帧编码处理单元，被配置为执行将表情编码信息和第二目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第二目标口播图像；

第二视频合成单元，被配置为执行对第二目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

可选的，至少一个视频元素还包括背景元素，上述装置还包括：

预设背景元素展示模块，被配置为执行响应于基于背景元素对应的编辑操作区域触发的背景编辑指令，在视频创建页面展示至少一个预设背景元素；

背景元素展示更新模块，被配置为执行响应于基于任一背景元素触发的第三选择指令，基于第三选择指令对应的预设背景元素，更新编辑操作区域中展示的背景元素；

目标口播视频模块还被配置为执行基于目标模板口播视频、更新后的字幕配音元素和更新后的背景元素，生成目标口播视频。

可选的，目标口播视频生成模块1130包括：

第三视频帧图像获取单元，被配置为执行获取目标模板口播视频对应的视频帧图像；

背景替换处理单元，被配置为执行基于更新后的背景元素，对视频帧图像进行背景替换处理，得到第三目标视频帧图像；

第三表情编码信息确定单元，被配置为执行根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

第三视频帧编码处理单元，被配置为执行将表情编码信息和第三目标视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第三目标口播图像；

第三视频合成单元，被配置为执行对第三目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

可选的，目标口播视频生成模块1130包括：

第四视频帧图像获取单元，被配置为执行获取目标模板口播视频对应的视频帧图像；

第四表情编码信息确定单元，被配置为执行根据更新后的字幕配音元素中的配音信息确定视频帧图像中目标对象的表情编码信息；

第四视频帧编码处理单元，被配置为执行将表情编码信息和视频帧图像输入视频帧编码模型进行视频帧编码处理，得到第四目标口播图像；

第四视频合成单元，被配置为执行对第四目标口播图像、更新后的字幕配音元素进行合成，得到目标口播视频。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据一示例性实施例示出的一种用于视频生成的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器、模型接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的模型接口用于与外部的终端通过模型连接通信。该计算机程序被处理器执行时以实现一种口播视频生成方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的口播视频生成方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的口播视频生成方法。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的口播视频生成方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种口播视频生成方法，其特征在于，包括：

2.根据权利要求1所述的口播视频生成方法，其特征在于，所述字幕配音元素对应的编辑操作区域包括第一字幕配音控件，所述第一字幕配音控件用于触发基于文本信息更新所述字幕配音元素中的字幕信息和配音信息；所述字幕配音元素对应的编辑操作区域还包括文本编辑区域；

3.根据权利要求1所述的口播视频生成方法，其特征在于，所述字幕配音元素对应的编辑操作区域还包括第二字幕配音控件，所述第二字幕配音控件用于触发基于音频信息更新所述字幕配音元素中的字幕信息和配音信息；所述字幕配音元素对应的编辑操作区域还包括音频配置控件；

4.根据权利要求2或3所述的口播视频生成方法，其特征在于，所述字幕配音元素对应的编辑操作区域还包括文本样式编辑区域；所述方法还包括：

5.根据权利要求2或3所述的口播视频生成方法，其特征在于，所述字幕配音元素对应的编辑操作区域还包括关键文本的样式编辑区域；所述方法还包括：

6.根据权利要求1至3任一所述的口播视频生成方法，其特征在于，所述至少一个视频元素还包括人像元素，所述方法还包括：

7.一种口播视频生成装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的口播视频生成方法。

9.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至6中任一项所述的口播视频生成方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1至6中任一项所述的口播视频生成方法。