CN114363531A

CN114363531A - 基于h5的文案解说视频生成方法、装置、设备以及介质

Info

Publication number: CN114363531A
Application number: CN202210044164.9A
Authority: CN
Inventors: 胡向杰
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-04-15
Anticipated expiration: 2042-01-14
Also published as: CN114363531B

Abstract

本申请实施例涉及人工智能领域，公开了基于H5的文案解说视频生成方法、装置、设备以及存储介质，方法包括：确定视频主题；根据视频主题获取制作目标文案解说视频所需的相关素材，并根据相关素材生成第一视频片段；从相关素材的视频素材中筛关键素材片段，并提取关键素材片段对应的文案解说音频及文案解说影像；根据文案解说音频获取关键素材片段中目标对象的第一语音数据，并根据文案解说影像获取目标对象对应的第二语音数据；根据第一语音数据和第二语音数据获取目标文本信息；根据关键素材片段对应的文案解说影像、目标语音数据及目标文本信息生成第二视频片段；根据第一视频片段及第二视频片段生成目标文案解说视频并插入预设网页。

Description

基于H5的文案解说视频生成方法、装置、设备以及介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于H5的文案解说视频生成方法、装置、设备以及存储介质。

背景技术

随着互联网技术和多媒体技术的发展，基于终端的页面也越来越多。页面的访问用户庞大且各种用户操作的终端种类繁多，面对使用不同终端的用户群体，目前的页面开发过程主要基于传统的移动网页实现展示类的用户需求，从而可以实现基于移动网页的传播营销。例如通过移动网页播放视频内容，营销人员将所需讲解的视频内容放到目标网页，通过操作终端，观看终端上安装的视频播放器展示的视频内容，从而向目标对象传达目标信息。

现有技术中，在制作网页视频，如在制作FLASH视频时通常需要一名设计师设计基础图片文件，需要一名视频设计师使用视频设计软件进行图片帧的扩展，然后再需要一名开发工程师对其进行反馈函数的动态效果编写，使得网页视频制作成本较高、制作时间长，并且网页视频产品的最终效果十分依赖于设计师的设计水平。

发明内容

本申请实施例的主要目的在于提供一种基于H5的文案解说视频生成方法、装置、设备以及存储介质，旨在降低网页视频制作的人工成本，提高网页视频制作效率及视频质量。

第一方面，本申请实施例提供一种基于H5的文案解说视频生成方法，包括：

获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题；

根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段；

从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像；

根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；

根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；

根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段；

根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。

第二方面，本申请实施例还提供一种基于H5的文案解说视频生成装置，包括：

视频主题模块，用于获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题；

第一片段模块，用于根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段；

素材筛选模块，用于从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像；

语音提取模块，用于根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；

文本信息模块，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；

第二片段模块，用于根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段；

视频生成模块，用于根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。

第三方面，本申请实施例还提供一种电子设备，电子设备包括处理器、存储器、存储在存储器上并可被处理器执行的计算机程序以及用于实现处理器和存储器之间的连接通信的数据总线，其中计算机程序被处理器执行时，实现如本申请说明书提供的任一项文案解说视频生成方法的步骤。

第四方面，本申请实施例还提供一种存储介质，用于计算机可读存储，其特征在于，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书提供的任一项文案解说视频生成方法的步骤。

本申请实施例提供一种基于H5的文案解说视频生成方法、装置、设备以及存储介质，其中，该方法包括获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题；根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段；从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像；根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段；根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。本申请通过获取目标文案解说视频的设计要求，并根据设计要求确定目标文案解说视频的视频主题，从而根据视频主题获取制作目标文案解说视频所需视频素材，通过从视频素材中筛选关键素材片段，并根据关键素材片段中的文案解说音频获取所述关键素材片段中目标对象的第一语音数据，根据关键素材片段中的文案解说影像提取目标对象对应的第二语音数据，利用第二语音数据和第一语音数据获取到目标语音数据，从而弥补通过所获取的语音数据中音频丢失，或者噪音干扰等，导致获取的音频信息不完整的问题，同时，根据目标语音数据生成目标文本信息，并利用文案解说影像、目标语音数据及目标文本信息生成关键素材片段对应的视频摘要，从而使得根据关键素材片段生成的目标文案解说视频质量较高，同时，电子设备可以根据用户设计要求自动生成较高质量的目标文案解说视频，提高了网页视频制作的效率，并可以有效降低网页视频制作的人工成本。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于H5的文案解说视频生成方法的流程示意图；

图2为本申请实施例提供的一种基于H5的文案解说视频生成方法的一种应用场景示意图；

图3为本申请实施例提供的一种基于H5的文案解说视频生成装置的模块结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

为解决上述问题，本申请实施例提供一种基于H5的文案解说视频生成方法、装置、设备以及存储介质，其中，该文案解说视频生成方法应用于电子设备，该电子设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、穿戴式设备等终端设备，也可以是服务器，其中，服务器可以为独立的服务器，也可以为服务器集群。

具体的，该方法包括获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题；根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段；从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像；根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据；根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息；根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段；根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。本申请通过获取目标文案解说视频的设计要求，并根据设计要求确定目标文案解说视频的视频主题，从而根据视频主题获取制作目标文案解说视频所需视频素材，通过从视频素材中筛选关键素材片段，并根据关键素材片段中的文案解说音频获取所述关键素材片段中目标对象的第一语音数据，根据关键素材片段中的文案解说影像提取目标对象对应的第二语音数据，利用第二语音数据和第一语音数据获取到目标语音数据，从而弥补通过所获取的语音数据中音频丢失，或者噪音干扰等，导致获取的音频信息不完整的问题，同时，根据目标语音数据生成目标文本信息，并利用文案解说影像、目标语音数据及目标文本信息生成关键素材片段对应的视频摘要，从而使得根据关键素材片段生成的目标文案解说视频质量较高，同时，电子设备可以根据用户设计要求自动生成较高质量的目标文案解说视频，提高了网页视频制作的效率，并可以有效降低网页视频制作的人工成本。

下面结合附图，对本申请的一些实施例作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参照图1，图1为本申请实施例提供的一种基于H5的文案解说视频生成方法的流程示意图。

如图1所示，该基于H5的文案解说视频生成方法包括步骤S1至步骤S7。

步骤S1：获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题。

示例性地，本申请实施例中以电子设备为服务器为例进行说明，但不限于电子设备仅可以为服务器，该电子设备也可以是终端设备。

用户想制作某个目标文案的解说视频时，可以通过终端设备101向服务器300发送对应的目标文案解说视频的设计要求，该设计要求至少包括目标文案解说视频的关键视频片段数量、每个关键视频片段的片段主题等。例如，用户想制作一个以目标文案的解说A公司产品的产品简介时，将目标文案的解说视频设计要求形成文字信息，并通过终端设备101发送给服务器300，如，设计要做中视频主题要求A产品解说介绍，并要求体现“十年一台阶”更上一层楼的寓意，且视频总时长为10分钟。

步骤S2：根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段。

如图2所示，服务器300设置有视频主题和文本素材、图像素材、音频素材及视频素材的对应关系，在确定视频主题后，通过视频主题可以确认与制作该视频主题可选的文本素材、图像素材、音频素材及视频素材。服务器300利用所获取的文本素材、图像素材、音频素材及视频素材可以制作与视频主题匹配的目标文案解说视频。

可以理解，文本素材、图像素材、音频素材及视频素材可以在服务器300本地存储，也可以放置在对应的数据服务器102中存储，在此不做限定，本申请实施例中，为便于说明，以文本素材、图像素材、音频素材及视频素材放置于数据服务器102为例进行说明。

示例性地，根据文本素材、图像素材及音频素材生成第一视频片段，具体地，获取第一片段生成指令，根据第一片段生成指令确定待生成视频片段的总帧数、每一帧的时间先后顺序及每一帧所需的文本素材、图像素材及音频素材、从而根据每一帧所需的文本素材、图像素材及音频素材生成对应的视频帧，并根据时间先后顺序将每一帧进行拼合从而获得目标文案解说视频的第一视频片段。

在一些实施方式中，所述根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，包括：

根据所述视频主题确定主题关键词，并获取与所述主题关键词匹配的主题同义词；

从数据库中获取与所述主题同义词及所述主题关键词中至少一者匹配的文本素材、图像素材、音频素材及视频素材。

示例性地，对视频主题进行关键词拆分，并将拆分后的词语与关键词库对比，从而获取对应的主题关键词，在确定主题关键词后，通过同义词库获取与主题关键词匹配的主题同义词，从而服务器300利用主题同义词和主题关键词共同从数据服务器102中获取到制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，从而使得所获取的素材更为完整，全面。

步骤S3：从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像。

示例性地，视频素材中可能存在较多与目标文案解说视频的设计要求不相关的内容，需要从视频素材中筛选出符合要求的关键素材片段，以根据关键素材片段制成目标文案解说视频。通常，每个关键素材片段中至少包括文案解说音频及文案解说影像，其中，每个文案解说音频包括多个音频帧，每个文案解说影像包括多个视频图像帧。将关键素材片段进行解码，从而获取到关键素材片段对应的文案解说音频及文案解说影像。

在一些实施方式中，所述从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，包括：

将所述视频素材分割成多个素材片段，并从多个所述素材片段中筛选具有解说预设文案的目标对象的目标素材片段；

获取每个所述目标素材片段中所出现的预设文案的文案信息，并对所述文案信息进行关键词提取，以获取文案关键词；

根据每个所述目标素材片段中对应的所述文案关键词的出现频率、及所述文案关键词的数量获取每个所述目标素材片段的关键程度；

选择所述关键程度最高的预设数量所述目标素材片段作为所述关键素材片段。

示例性地，将视频素材分割成多个素材片段，其中，视频素材的分割方法可以是随机分割，也可以是等时间分割，在此不做限定。

在获取到多个素材片段后，从素材片段中筛选出具有解说预设文案的目标对象的目标素材片段。例如，

每个素材片段的时长至少为T1，通过图像识别计算每个素材片段中讲解目标文案的目标对象的出现时间T2，T2小于或等于T1，当T2大于或等于0.6T1则认为目标对象在素材片段中的出现时间超过预设时间，从而可以筛选出部分符合初始要求的目标素材片段。

当初步筛选到符合初始要求的目标素材片段后，筛选出每个目标素材片段中出现预设文案的视频帧，将视频帧转换为对应的视频图片并通过OCR文字识别技术识别视频图片中所对应的预设文案的文案信息，并对文案进行关键词拆分，以获取关键词词集，通过预设关键词库从关键词词集中筛选出文案关键词。

统计筛选出的每个目标素材片段中所出现的文案关键词数量及文案关键词的出现频率，预设有目标素材片段的关键程度和关键词数量、文案关键词的出现频率之间的对应关系，根据文案关键词的出现频率及文案关键词的数量获取每个目标素材片段的关键程度，选择所述关键程度最高的预设数量所述目标素材片段作为关键素材片段。

在获取关键素材片段后，将关键素材片段进行解码，从而获取到关键素材片段对应的文案解说音频及文案解说影像。

步骤S4：根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据。

示例性地，所获取的文案解说音频中可能存在环境噪音，为了降低环境噪音的影响，需要从文案解说音频中分离出目标对象的第一语音数据。

通过文案解说影像获取目标对象的口型变化图像，并根据口型变化图像识别到视频对应中目标对象的唇语信息，从而根据唇语信息获取到文案解说影像中目标对象的第二语音数据，进而可以利用第一语音数据和第二语音数据获取到较为精准、全面的目标对象的目标语音。

例如，基于不同的声音具有不同的声纹特征，从而可以利用声纹特征将用户声音和环境噪声进行区分，以从文案解说音频中分离出目标对象的语音数据。

首先需要说明的是，所谓声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官--舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。

进一步地，声纹特征是与人类的发音机制的解剖学结构有关的声学特征，如频谱、倒频谱、共振峰、基音、反射系数等等、鼻音、带深呼吸音、沙哑音、笑声等；人类的声纹特征受社会经济状况、受教育水平、出生地、语义、修辞、发音、言语习惯等的影响。对于声纹特征，个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征，可以从利用数学方法建模的角度出发，声纹自动识别模型目前可以使用的特征包括：声学特征，如倒频谱；词法特征，如说话人相关的词n-gram，音素n-gram等；韵律特征，如利用ngram描述的基音和能量“姿势”。

实际应用中，进行声纹特征提取时，可以提取文案解说音频中用户的声纹特征数据，该声纹特征数据包括基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹、线性预测倒谱、线谱对、自相关和对数面积比、Mel频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)、感知线性预测中的至少一者。

在一些实施方式中，所述从所述文案解说音频中提取所述目标对象的第一语音数据，包括：

将文案解说音频输入到语音提取模型的特征提取网络进行特征提取，获取所述文案解说音频对应的特征向量，所述文案解说音频包括所述目标对象的第一语音数据和环境的噪声数据；

将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络，以从所述文案解说音频中提取出所述目标对象的第一语音数据，其中，所述语音提取模型通过用户语音训练获得，所述预设向量根据所述噪声数据获得，所述语音提取网络以所述预设向量为参考，调整所述第一语音数据和所述噪声数据在所述文案解说音频中所占的比例，以获取所述目标对象的第一语音数据。

示例性地，文案解说音频包括目标对象的第一语音数据和环境的噪声数据。基于目标对象为用户，用户语音与环境噪声具有较大的差别，利用用户语音和环境噪声训练语音提取模型，在进行目标对象语音数据提取时，将获取的文案解说音频输入到语音提取模型中进行特征提取，以获取文案解说音频对应的特征向量，并将获取终端设备所在环境的环境噪声并将环境噪声转换为对应的预设向量。

将预设向量及特征向量输入到语音提取模型的语音提取网络，以从文案解说音频中提取出目标对象的第一语音数据，其中，语音提取模型通过用户语音及环境噪声训练获得，预设向量根据噪声数据获得，语音提取网络以预设向量为参考，调整第一语音数据和噪声数据在文案解说音频中所占的比例，从而保获取目标对象的第一语音数据。

在一些实施方式中，所述从所述文案解说影像中提取所述目标对象的多张口型变化图像，以根据所述口型变化图像得到所述目标对象的第二语音数据，包括：

提取所述文案解说影像的每一帧视频图像中目标对象的口型图像，并根据所述文案解说影像的时间轴赋予所述口型图像对应的时间戳；

根据所述时间戳将所述口型图像输入至预设的唇语识别模型，以获取所述目标对象的第二语音数据。

示例性地，所获取的文案解说影像中包括N帧视频图像，提取N帧视频图像中每一帧图像里的目标对象口型图像，并根据每一帧图像的先后顺序为所提取到的口型图像赋予对应的时间戳，根据时间戳的先后顺序将口型图像输入至唇语识别模型中，以获取文案解说影像对应的第二语音数据。

例如，文案解说影像中第一帧获取到第一口型图像，第二帧获取到第二口型图像，第三帧获取到第三口型图像，直至第N帧获取到第N口型图像，根据每一帧图像的时间先后顺序赋予对应的口型图像时间戳，从而准确识别出目标对象的口型变化顺序，并根据该时间戳的先后顺序，将先后将文案解说影像的第一帧到第N帧所获取的口型图像输入至唇语识别模型中，以获取文案解说影像对应的第二语音数据。

步骤S5：根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息。

示例性地，第一语音数据中可能会因为环境噪音的影响造成所获取的目标对象语音被环境噪声覆盖或语音采集器受到环境干扰无法即使获取到目标对象语音，从而造成目标对象的语音缺失，在语音缺失部分利用第二语音数据所对应的部分进行补偿，从而获取到目标对象的目标语音数据。利用预设的语音识别模型识别所获取的目标语音数据，从而获取到目标文本信息。

在一些实施方式中，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

将所述第一语音数据和所述第二语音数据对比，判断所述第一语音数据是否存在语音缺失；

当所述第一语音数据存在语音缺失时，根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据。

在一些实施方式中，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据，包括：

标记所述第一语音数据的缺失部分，并获取与所述缺失部分对应的第一时间段；

从所述第二语音数据中获取与所述第一时间段对应的第二语音数据段，并利用所述第二语音数据段补偿所述缺失部分，得到所述目标语音数据。

示例性地，基于目标文案解说视频中的文案解说音频及文案解说影像为同步数据，因此第一语音数据和第二语音数据的起始时间相同，通过对比第一语音数据所对应的第一音频信号及第二语音数据所对应的第二音频信号在时间连续性上的相似度，从而判断出第一语音数据是否存在语音缺失，当存在语音缺失时，标记语音缺失部分，并获取缺失部分对应的第一时间段，从第二语音数据中获取与所述第一时间段相同时间段所对应的第二语音数据段，并利用第二语音数据段补偿第一语音数据的缺失部分，从而获取到目标对象的目标语音数据。

将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息。例如，通过自动语音识别(Automatic Speech Recognition，ASR)技术将目标语音数据转换为对应的文本，从而可以将所获得的目标文本信息作为目标语音数据对应的字幕。

步骤S6：根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段。

示例性地，将关键素材片段所获取的文案解说影像、目标语音数据、目标文本信息作为当前视频片段的源文件，将目标语音数据作为文案解说影像的解说语音，将目标文本信息作为文案解说影像的解说字幕，确定文案解说影像中目标对象开始讲解的时间点，并将该时间点与对应的目标语音数据的开始时间点对齐，同时，以目标对象开始讲解的时间点作为目标文本信息的出现时间，从而生成可以较为精准的生成目标文案解说视频所对应的第二视频片段。

步骤S7：根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。

示例性地，将第一视频片段和第二视频片段拼合从而形成目标文案解说视频，其中，第一视频片段和第二视频片段在目标文案解说视频中的先后顺序可以根据需要设定，例如，用户可以通过终端设备向服务器300发送第一视频片段和第二视频片段的排序指令，服务器300根据排序指令对第一视频片段和第二视频片段进行排序拼合从而形成目标文案解说视频。

在目标解说视频制作完成后，将目标文案解说视频插入预设的H5网页，并显示在H5页面可视窗口上。同时，在H5页面可视窗口上形成播放、前景、后退等操控虚拟按钮，以便用户操控。

在一些实施方式中，在虚拟按钮隐藏于可视窗口，在接收到触发信号后才显示，触发信号可以是用户点击可视窗口，或用户通过输入设备点击可视窗口。

请参阅图3，本申请实施例还提供了一种基于H5的文案解说视频生成装置200，其包括视频主题模块201、第一片段模块202、素材筛选模块203、语音提取模块204、文本信息模块205、第二片段模块206、及视频生成模块207。

其中，视频主题模块201，用于获取目标文案解说视频的设计要求，并根据所述设计要求确定所述目标文案解说视频的视频主题。

第一片段模块202，用于根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，并根据所述文本素材、所述图像素材及所述音频素材生成第一视频片段。

素材筛选模块203，用于从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，并提取所述关键素材片段对应的文案解说音频及文案解说影像。

语音提取模块204，用于根据所述文案解说音频获取所述关键素材片段中所述目标对象的第一语音数据，并根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据。

文本信息模块205，用于根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，并将所述目标语音数据输入至预设的语音识别模型，以获取目标文本信息。

第二片段模块206，用于根据所述关键素材片段对应的所述文案解说影像、所述目标语音数据及所述目标文本信息生成第二视频片段。

视频生成模块207，用于根据所述第一视频片段及所述第二视频片段生成所述目标文案解说视频，并将所述目标文案解说视频插入预设的H5网页，其中，所述目标文案解说视频显示在所述H5页面可视窗口上。

在一些实施方式中，素材筛选模块203从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段时，包括：

在一些实施方式中，语音提取模块204在根据所述文案解说音频的提取所述目标对象的第一语音数据时，包括：

将预设向量和所述特征向量输入到所述语音提取模型的语音提取网络，以从所述文案解说音频中提取出所述目标对象的第一语音数据，其中，所述语音提取模型通过用户语音训练获得，所述预设向量根据所述噪声数据获得，所述语音提取网络以所述预设向量为参考，调整所述第一语音数据和所述噪声数据在所述文案解说音频中所占的比例，从而保获取所述目标对象的第一语音数据。

在一些实施方式中，语音提取模块204在根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据时，包括：

提取所述文案解说影像的每一帧视频图像中所述目标对象的口型图像，并根据所述文案解说影像的时间轴赋予所述口型图像对应的时间戳；

根据所述时间戳将所述口型图像输入至预设的唇语识别模型，以获取所述文案解说影像中所述目标对象对应的第二语音数据。

在一些实施方式中，文本信息模块205在根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据时，包括：

在一些实施方式中，文本信息模块205在根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据时，包括：

在一些实施方式中，第一片段模块202在所述根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材时，包括：

请参阅图4，图4为本申请实施例提供的电子设备的结构示意性框图。

如图4所示，电子设备300包括处理器301和存储器302，处理器301和存储器302通过总线303连接，该总线比如为I2C(Inter-integrated Circuit)总线。

具体地，处理器301用于提供计算和控制能力，支撑整个电子设备的运行。处理器301可以是中央处理单元(Central Processing Unit，CPU)，该处理器301还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

具体地，存储器302可以是Flash芯片、只读存储器(ROM，Read-Only Memory)磁盘、光盘、U盘或移动硬盘等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请实施例方案相关的部分结构的框图，并不构成对本申请实施例方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现本申请实施例提供的任意一种基于H5的文案解说视频生成方法。

在一些实施方式中，处理器301用于运行存储在存储器中的计算机程序，并在执行计算机程序时实现如下步骤：

在一些实施方式中，处理器301从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段时，包括：

在一些实施方式中，处理器301在根据所述文案解说音频的提取所述目标对象的第一语音数据时，包括：

在一些实施方式中，处理器301在根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据时，包括：

在一些实施方式中，处理器301在根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据时，包括：

在一些实施方式中，处理器301在根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据时，包括：

在一些实施方式中，处理器301在所述根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材时，包括：

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述基于H5的文案解说视频生成方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供一种存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现如本申请说明书实施例提供的任一项基于H5的文案解说视频生成方法的步骤。

其中，存储介质可以是前述实施例的电子设备的内部存储单元，例如电子设备的硬盘或内存。存储介质也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施例中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。以上，仅为本申请的具体实施例，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于H5的文案解说视频生成方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述从所述视频素材中筛选具有解说预设文案的目标对象的关键素材片段，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述文案解说音频的提取所述目标对象的第一语音数据，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述文案解说影像获取所述关键素材片段中所述目标对象的多张口型变化图像，以根据多张所述口型变化图像获取所述目标对象对应的第二语音数据，包括：

5.如权利要求1所述的方法，其特征在于，所述根据所述第一语音数据和所述第二语音数据确定所述目标对象的目标语音数据，包括：

6.如权利要求5所述的方法，其特征在于，所述根据所述第二语音数据对所述第一语音数据进行语音补偿，得到所述目标语音数据，包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述根据所述视频主题获取制作所述目标文案解说视频所需的文本素材、图像素材、音频素材及视频素材，包括：

8.一种基于H5的文案解说视频生成装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器、存储器、存储在所述存储器上并可被所述处理器执行的计算机程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，其中所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的文案解说视频生成方法的步骤。

10.一种存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现权利要求1至7中任一项所述的文案解说视频生成方法的步骤。