CN116980538A

CN116980538A - 一种视频生成方法、装置、设备、介质及程序产品

Info

Publication number: CN116980538A
Application number: CN202310101025.XA
Authority: CN
Inventors: 陈小帅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-02-01
Filing date: 2023-02-01
Publication date: 2023-10-31

Abstract

本申请实施例公开了一种视频生成方法、装置、设备、介质及程序产品，其中的方法包括：获取目标音频及目标音频对应的音频文本；对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段；对至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；对目标音频和至少一个意境图像进行融合处理，生成目标视频。采用本申请实施例能够基于目标音频自动生成音频型视频，提高音频型视频的生成效率。

Description

一种视频生成方法、装置、设备、介质及程序产品

技术领域

本申请涉及计算机技术领域，具体涉及机器学习领域，尤其涉及一种视频生成方法、一种视频生成装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。

背景技术

音频型视频是音频和视频结合的一种多媒体数据，如音频为音乐时，该音频型视频可以称为音乐型视频；通过为音乐配置一张或多张图像，可以实现基于该音乐构建音乐型视频。

目前，为音乐配置的图像是已存在的(如多媒体平台已存储的资源)，或者由用户剪辑或绘制的；这使得现有技术生成的音乐型视频的内容较为单一，人力成本较高，且生成效率较低。因此，如何基于音频构建音频型视频，成为多媒体领域的研究热点。

发明内容

本申请实施例提供一种视频生成方法、装置、设备、介质及程序产品，能够基于目标音频自动生成音频型视频，提高音频型视频的生成效率。

一方面，本申请实施例提供了一种视频生成方法，该方法包括：

获取目标音频及目标音频对应的音频文本，音频文本用于描述目标音频的音频内容；

对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段；意境片段文本用于从文本维度，描述相对应的意境音频片段所表达的意境场景；

对至少一个意境片段文本所表达的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；意境图像用于从图像维度描述相匹配的意境音频片段所表达的意境场景；

对目标音频和至少一个意境图像进行融合处理，生成目标视频；目标视频中各意境图像，与目标音频中相匹配的各意境音频片段在时间上对齐。

另一方面，本申请实施例提供了一种视频生成装置，该装置包括：

获取单元，用于获取目标音频及目标音频对应的音频文本，音频文本用于描述目标音频的音频内容；

处理单元，用于对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段；意境片段文本用于从文本维度，描述相对应的意境音频片段所表达的意境场景；

处理单元，还用于对至少一个意境片段文本所表达的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；意境图像用于从图像维度描述相匹配的意境音频片段所表达的意境场景；

处理单元，还用于对目标音频和至少一个意境图像进行融合处理，生成目标视频；目标视频中各意境图像，与目标音频中相匹配的各意境音频片段在时间上对齐。

在一种实现方式中，音频文本中包含多个音频片段文本，每个音频片段文本中包含至少一个关键词；处理单元，还用于：

基于每个音频片段文本所包含的至少一个关键词，提取各音频片段文本的片段特征信息，片段特征信息用于表征相应音频片段文本的语义信息；

基于每个音频片段文本的片段特征信息，提取目标音频的音频特征信息，音频特征信息用于表征目标音频的语义信息；

对音频特征信息进行分类处理，得到类别概率；类别概率用于指示可描绘实体对应的关键词的数量，与音频文本所包含关键词的数量的比例，可描绘实体是指能够作为图像元素绘制在图像中的物体；

若类别概率大于概率阈值，则触发执行对音频文本进行意境切分的步骤。

在一种实现方式中，处理单元，用于对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段时，具体用于：

将音频文本切分为连续的多个音频片段文本，并在目标音频中确定与多个音频片段文本分别对应的音频片段；音频片段文本用于描述相对应的音频片段的片段内容；

按照意境完整度对多个音频片段文本进行合并，得到至少一个意境片段文本；

将合成意境片段文本的各音频片段文本所对应的音频片段进行合并，得到每个意境片段文本对应的意境音频片段。

在一种实现方式中，任一意境片段文本表示为目标意境片段文本；处理单元，用于按照意境完整度对多个音频片段文本进行合并，得到至少一个意境片段文本时，具体用于：

对多个音频片段文本中，相邻的一个或多个音频片段文本执行合并操作，得到合并音频片段文本；

对合并音频片段文本进行意境完整度识别，得到第一完整度结果；

若第一完整度结果指示：合并音频片段文本所描绘的意境场景的完整度大于或等于预设阈值，则将合并音频片段文本作为目标意境片段文本。

在一种实现方式中，处理单元，还用于：

若第一完整度结果指示：合并音频片段文本所描绘的意境场景的完整度小于预设阈值，则将多个音频片段文本中，与合并音频片段文本中最后一个音频片段文本相邻，且位于最后一个音频片段文本之后的音频片段文本，合并至合并音频片段文本，得到目标合并音频片段文本；

对目标合并音频片段文本进行意境完整度识别，得到第二完整度结果；

若第二完整度结果指示：目标合并音频片段文本所描绘的意境场景的完整度小于预设阈值，则继续执行上述步骤，直至完整度结果指示：合并后的音频片段文本所描绘的意境场景的完整度大于或等于预设阈值。

在一种实现方式中，合并操作包括：

若多个音频片段文本中第i个音频片段文本对应的音频片段的播放时长，小于时长阈值，则将第i+1个音频片段文本合并至第i个音频片段文本，得到初始音频片段文本；i为正整数；

若初始音频片段文本对应的合并音频片段的播放时长，小于时长阈值，则继续上述步骤，直至得到播放时长大于或等于时长阈值的合并音频片段所对应的合并音频片段文本。

在一种实现方式中，处理单元，用于对合并音频片段文本进行意境完整度识别，得到第一完整度结果时，具体用于：

对合成合并音频片段文本的每个音频片段文本进行关键词提取，得到合并音频片段文本对应的关键词；

基于合并音频片段文本对应的关键词，对合并音频片段文本进行特征提取，得到第一完整度结果。

在一种实现方式中，处理单元，用于对至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像时，具体用于：

对至少一个意境片段文本中的每个意境片段文本进行描述转换，得到每个意境片段文本对应的绘图描述文本；绘图描述文本是从图像维度表述相对应的意境片段文本所表达的语义；

基于每个意境片段文本对应的绘图描述文本，生成各意境音频片段的多个候选意境图像；

从各意境音频片段的多个候选意境图像中，为各意境音频片段选取相匹配的意境图像。

在一种实现方式中，任一意境片段文本表示为目标意境片段文本，且目标意境片段文本是由一个或多个词语组成，一个词语由一个或多个字符组成；目标意境片段文本对应的绘图描述文本中包含实体描述文本；处理单元，用于对至少一个意境片段文本中的每个意境片段文本进行描述转换，得到每个意境片段文本对应的绘图描述文本时，具体用于：

对目标意境片段文本中各词语进行编码，得到各词语的词特征表示；

对各词语的词特征表示进行解码，得到目标意境片段文本对应的实体描述文本。

在一种实现方式中，目标意境片段文本对应的绘图描述文本中还包含风格描述文本；处理单元，还用于：

获取目标音频对应的频谱图；

将频谱图切分为多个子频谱图，并获取各子频谱图的频域向量，任一子频谱图的频谱向量由任一子频谱图的词向量和位置向量组成；

对每个子频谱图的频域向量进行编码，得到目标音频的风格描述文本，并将目标音频的风格描述文本，作为目标意境片段文本对应的绘图描述文本所包含的风格描述文本。

在一种实现方式中，各意境音频片段中包含相邻的第j-1个意境音频片段和第j个意境音频片段，j为正整数；处理单元，用于从各意境音频片段的多个候选意境图像中，为各意境音频片段选取相匹配的意境图像时，具体用于：

当j＝1时，按照第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与第j个意境音频片段所表达的意境场景之间的相关性，从第j个意境音频片段的多个候选意境图像中，为第j个意境音频片段选取相匹配的意境图像；

当j>1时，按照第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与第j个意境音频片段所表达的意境场景之间的相关性，以及，第j个意境音频片段的多个候选意境图像，分别与第j-1个意境音频片段相匹配的意境图像之间的相关性，从第j个意境音频片段的多个候选意境图像中，为第j个意境音频片段选取相匹配的意境图像。

在一种实现方式中，处理单元，用于对目标音频和至少一个意境图像进行融合处理，生成目标视频时，具体用于：

将与每个意境音频片段相匹配的意境图像，按序拼接成连续的多帧视频帧；

将连续的多帧视频帧与目标音频进行融合，生成目标视频；

其中，按序是指：按照各意境音频片段的播放时间，在目标音频的播放时长中的播放位置之间的顺序。

在一种实现方式中，处理单元，还用于：

播放目标视频；

播放包括：在播放目标音频中各音频意境片段的过程中，对齐播放与各意境音频片段相匹配的意境图像。

在一种实现方式中，目标音频包括以下任一种：歌曲音频，朗诵音频或语音音频。

另一方面，本申请实施例提供了一种计算机设备，该计算机设备包括：

处理器，用于加载并执行计算机程序；

计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时，实现上述视频生成方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，该计算机程序适于由处理器加载并执行上述视频生成方法。

另一方面，本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时，实现上述视频生成方法。

本申请实施例支持对目标音频对应的音频文本进行意境切分，得到至少一个意境片段文本，一个意境片段文本与目标音频中的一个意境音频片段相对应，且用于描述相对应的意境音频片段所表达的意境场景；使得能够通过意境片段文本从文本维度，描述相对应的意境音频片段所表达的意境场景。进一步的，支持对至少一个意境片段文本所描绘的意境场景进行图像化处理，即将文本维度下的意境片段文本，转换为图像维度下的与意境片段文本相匹配的意境图像，以实现通过该意境图像直观地展示相应意境片段文本所描绘的意境场景。最后，对目标音频和至少一个意境图像进行融合处理，就可以构建得到目标视频(即音频型视频)。由上述方案可知，本申请实施例支持为目标音频所表达的每个意境场景生成相应的意境图像，该意境图像能够直观地表示出相应意境场景所包含的内容(如包含的实体，所想表达的意境内容等)，一方面，使得生成的音频型视频的图像内容与音频内容更为契合，实现对目标音频的充分利用，丰富音频型视频的生成方式。另一方面，这种基于目标音频自动生成意境图像构建音频型视频的方式，实现图像智能化生成，提高图像生成效率，从而在一定程度上提升音频型视频的构建效率，节省人力成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的一种音乐型视频的示意图；

图2是本申请一个示例性实施例提供的一种视频生成系统的架构示意图；

图3a是本申请一个示例性实施例提供的一种视频生成方法的流程示意图；

图3b是本申请一个示例性实施例提供的一种意境片段文本和意境音频片段的生成示意图；

图4是本申请一个示例性实施例提供的一种按照意境合并规则，合并得到意境片段文本的示意图；

图5a是本申请一个示例性实施例提供的一种完整度判定模型的结构示意图；

图5b是本申请一个示例性实施例提供的一种图像化处理的示意图；

图6是本申请一个示例性实施例提供的一种实体识别模型的结构示意图；

图7是本申请一个示例性实施例提供的一种风格识别模型的结构示意图；

图8是本申请一个示例性实施例提供的一种扩散模型的结构示意图；

图9是本申请一个示例性实施例提供的一种隐马尔可夫的结构示意图；

图10是本申请一个示例性实施例提供的一种相关度模型的结构示意图；

图11是本申请一个示例性实施例提供的另一种视频生成方法的流程示意图；

图12是本申请一个示例性实施例提供的一种判断模型的结构示意图；

图13是本申请一个示例性实施例提供的一种视频生成装置的结构示意图；

图14是本申请一个示例性实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例涉及音频型视频，音频型视频是以音频为主要内容，配以相关图像所构建的视频类的多媒体数据。其中，音频型视频所涉及的目标音频(如任一音频)可以包括以下任一种：歌曲音频(如音乐)，朗诵音频(如诗歌朗诵时的音频)或语音音频(如电话音频或录音音频等)等；值得注意的是，在目标音频为歌曲音频时，如该歌曲音频是一段音乐，那么基于该目标音频生成的音频型视频可以称为音乐型视频。当然，本申请实施例对音频型视频所涉及的目标音频的具体音频类型不作限定；为便于阐述，后续以目标音频为歌曲音频，基于目标音频生成的音频型视频为音乐型视频为例进行阐述，特在此说明。

在实际应用中，为目标音频配置图像以构建音乐型视频的过程中，为目标音频配置的图像往往是已经存在的；例如，图像原本是存储于网络中的，再如，图像是目标对象(如任一用户)从其他视频中剪辑得到的。由此可见，传统音乐型视频的构建需要由目标对象自主选择图像，且选择的图像是已经存在的，这不仅导致音乐型视频的构建人力成本较高，而且构建的音乐型视频的内容较为单一。基于此，本申请实施例提出一种视频生成方案，该视频生成方案能够自动对待生成音乐型视频的目标音频进行意境分析，以为该目标音频的每个意境音频片段构建新的意境图像，由此构建得到该目标音频的音乐型视频(在本申请实施例中称为目标视频)。

具体地，该视频生成方案可以包括：在获取到目标音频后，自动对该目标音频的音频文本(用于描述该目标音频的音频内容的文本，如歌词文本(简称为歌词))进行意境切分，得到至少一个意境片段文本，每个意境片段文本对应有目标音频中的一个意境音频片段，用于从文本维度描述相对应的意境音频片段所表达的意境场景。然后，为每个意境音频片段基于相对应的意境片段文本构建相匹配的意境图像；具体是为每个意境音频片段基于相对应的意境片段文本生成图像绘制提示语(如用于提示图像所包含的实体)和图像风格绘制提示语(如用于提示图像的绘图风格)。其次，再基于每个意境音频片段的图像绘制提示语和图像风格绘制提示语，为每个意境音频片段生成相匹配的意境图像。最后，将意境图像与目标音频融合，可以构建得到目标音频对应的目标视频(即音乐型视频)。

基于上述描述的视频生成方案所构建的，示例性音乐型视频的示意图可以参见图1。如图1所示，假设目标音频对应的音频文本为“长亭X，古道X，芳草XX天，…”，以目标音频中意境音频片段1对应的意境片段文本1为“长亭X，古道X”，意境音频片段2对应的意境片段文本2为“芳草XX天”为例。该意境片段文本1从文本维度，所描绘的意境音频片段1所表达的意境场景可以概述为：中式彩色亭子和驿道，图像风格为水彩风格；那么基于该意境片段文本1所描述的意境场景可以构建得到，与意境音频片段1相匹配的意境图像101，该意境图像101中的图像风格为水彩风格，且该意境图像101中包含“亭子”和“驿道”等实体。同理，该意境片段文本2从文本维度，所描绘的意境音频片段2所表达的意境场景可以概述为：连片的绿草，图像风格为水彩风格；那么基于该意境片段文本2所描述的意境场景可以构建得到，与意境音频片段2相匹配的意境图像102，该意境图像102中的图像风格为水彩风格，且该意境图像102中包含“绿草”等实体。

进一步的，融合各意境音频片段相匹配的意境图像和目标音频，所得到的目标视频中各意境图像，是与目标音频中相匹配的各意境音频片段在时间上对齐。这种对齐体现在：播放目标视频时，音频意境片段和相匹配的意境图像在播放时间上的对齐；也就是说，播放该目标视频时，播放的过程(或播放效果)为：在播放目标音频中各音频意境片段的过程中，对齐播放与各意境音频片段相匹配的意境图像。如图1所示的，假设意境片段文本1“长亭X，古道X”对应的意境音频片段1的播放时长为0.6秒，意境片段文本2“芳草XX天”对应的意境音频片段2的播放时长为0.5秒，且意境音频片段1和意境音频片段2在目标音频中是相邻的；那么在播放该目标视频时，在0-0.6秒播放意境音频片段1时，会同时播放该意境音频片段1相匹配的意境图像101，在0.6-0.11秒播放意境音频片段2时，会同时播放该意境音频片段2相匹配的意境图像102。这种对齐播放目标视频的方式，使得目标视频中每个视频帧(即一张意境图像)所表达的意境场景，与相应意境音频片段所表达的意境场景是相符的，从而提高目标视频的自然性。

由此可见，本申请实施例支持为目标音频所表达的每个意境场景，自动生成相应的意境图像，该意境图像能够直观地表示出相应意境场景所包含的内容(如包含的实体，所想表达的意境内容等)；然后，对目标音频的多个意境音频片段相匹配的意境图像之间的时序关系进行建模，以实现将多个意境音频片段相匹配的意境图像和目标音频融合，生成目标音频对应的目标视频。一方面，这种基于目标音频所包含的意境音频片段，生成的音乐型视频的图像内容与音频内容更为契合，提高音乐型视频的吸引力，提升对目标音频的利用率，丰富音视频平台所拥有的内容形态。另一方面，基于目标音频自动生成意境图像构建音乐型视频，可以实现图像智能化生成，提高图像生成效率，从而在一定程度上提升音乐型视频的构建效率，节省人力成本。又一方面，通过在时间上对齐目标视频中各意境图像，与目标音频中相匹配的各意境音频片段，提高目标视频中视频帧和意境音频片段的匹配性，提升用户体验。

在实际应用中，本申请实施例支持使用音视频平台来为目标音频配置图像，以构建音乐型视频(在本申请实施例中可以称为目标视频)，即该音视频平台部署了本申请实施例提供的视频生成方案，这样目标对象具有基于目标音频生成音乐型视频的需求时，可以调用该音视频平台自动为目标音频生成对应的目标视频。其中，音视频平台可以是指具备音视频编辑能力(如创建、调整和播放音频和视频能力)的应用程序。应用程序可是指为完成某项或多项特定工作的计算机程序；按照不同维度(如应用程序的运行方式、功能等)对应用程序进行归类，可得到同一应用程序在不同维度下的类型。例如：按照应用程序的运行方式分类，应用程序可包括但不限于：安装在终端中的客户端、无需下载安装即可使用的小程序(作为客户端的子程序)、通过浏览器打开的web(World Wide Web，全球广域网)应用程序等等。再如：按照应用程序的功能类型分类，应用程序可包括但不限于：IM(InstantMessaging，即时通信)应用程序、内容交互应用程序等等。其中，即时通信应用程序是指基于互联网的即时交流消息和社交交互的应用程序，即时通信应用程序可以包括但不限于：包含通信功能的社交应用程序、包含社交交互功能的地图应用程序、游戏应用程序等等。内容交互应用程序是指能够实现内容交互的应用程序，例如可以是网银、分享平台、个人空间、新闻等应用程序。

进一步的，音视频平台还可以是上述提及的应用程序所包含的，支持音视频编辑的插件(或功能)。例如，应用程序为客户端形式的即时通信应用程序，那么音视频平台可以是该即时通信应用程序中包含的音视频插件，此时通过该音视频插件，目标对象(如使用即时通信应用程序的任一对象)在使用该即时通信应用程序进行社交的过程中，可以直接在该即时通信应用程序中查看音频或视频，而无需应用跳转(如从即时通信应用程序跳转至独立的音视频应用程序中)。

为便于理解本申请实施例提供的视频生成方案，下面结合图2所示的视频生成系统，对视频生成方案的一种视频生成场景进行示例性说明。如图2所示，该视频生成系统中包含终端201和服务器202，本申请实施例对终端和服务器的数量和命名不作限定。

其中，终端201可以是指具有生成音乐型视频需求的目标对象，所使用的终端设备。终端设备可以包括但不限于：智能手机(如部署安卓(Android)系统的智能手机，或部署互联网操作系统(Internetworking Operating System，IO S)的智能手机)、平板电脑、便携式个人计算机、移动互联网设备(Mobile Int ernet Devices，简称MID)、车载设备、头戴设备、智能电视或智能家居等设备，本申请实施例并不对终端设备的类型进行限定，在此说明。终端201中可以部署上述提及的音视频平台，这样目标对象在具有生成音乐型视频的需求时，可以通过该终端201打开音视频平台执行音乐型视频的生成等操作。服务器202是终端201对应的后台服务器，用于与终端201进行交互，以实现为终端201中部署的音视频平台提供计算和应用服务支持。服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端201以及服务器202之间可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的视频生成方案可以是由计算机设备来执行的，该计算机设备可以包括图2所示系统中的终端和服务器，即本申请实施例支持由终端和服务器共同执行视频生成方案。具体实现中，若目标对象在使用终端的过程中，具有基于目标音频生成音乐型视频的需求，则该目标对象可以通过终端打开部署的音视频平台，此时目标对象可以在该音视频平台提供的音频上传界面(如用于上传目标音频的任一服务界面或窗口等)上传目标音频。进一步的，目标对象在音频上传界面中成功上传目标音频后，终端可以将该目标音频发送至服务器，这样服务器可以对该目标音频对应的音频文本(如接收目标音频时一同接收的，或者，基于目标音频自动生成的)进行意境切分，得到至少一个意境片段文本，每个意境片段文本对应目标音频中的一个意境音频片段。然后，服务器还基于每个意境片段文本为相应的意境音频片段生成相匹配的意境图像。最后，服务器融合各意境音频片段相匹配的意境图像和目标音频，生成目标音频对应的目标视频，该目标视频为音乐型视频，这样服务器可以将目标视频返回至终端，以便于目标对象通过终端编辑该目标视频(如播放、分享或下载该目标视频等)。

需要说明的是，图2所示只是本申请实施例提供的示例性的视频生成系统的架构示意图。在实际应用中该架构可以发生适应性变化，例如，本申请实施例提供的视频生成方案可以是由终端来执行的，此时前述提及的执行主体计算机设备为终端；此实现方式下，终端在获取到目标对象上传的目标音频后，可以执行为该目标音频生成目标视频的具体实施过程，而无需将目标音频发送至服务器端进行相关处理。再如，本申请实施例提供的视频生成方案还可以是由服务器来执行的，此时前述提及的执行主体计算机设备为服务器；此实现方式下，服务器在获取到目标音频后，可以直接执行为该目标音频生成目标视频的具体操作。另外，本申请实施例运用到具体产品或技术中时，如获取待处理的目标音频时，需要获得目标对象的许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

基于上述描述的视频生成方案，本申请实施例提出更为详细的视频生成方法，下面将结合附图对本申请实施例提出的视频生成方法进行详细介绍。

图3a示出了本申请一个示例性实施例提供的一种视频生成方法的流程示意图；本申请实施例以该视频生成方法，由上述提及的计算机设备执行为例进行说明，该视频生成方法可包括但不限于步骤S301-S304：

S301：获取目标音频及目标音频对应的音频文本。

具体实现中，在目标对象具有基于目标音频生成音乐型视频的需求时，目标对象可以上传该目标音频，以便于计算机设备获取到目标音频。正如前述所描述的，计算机设备可以是指终端或服务器；当计算机设备是终端时，目标对象通过终端上传目标音频时，确定终端获取到目标音频；当计算机设备是服务器时，目标对象需要通过终端上传目标音频后，由终端将目标音频转发至服务器，此时才确定服务器接收到目标音频。

其中，目标对象上传的目标音频的来源方式可以包括但是不限于：从终端的本地存储空间中获取目标音频(如电话录音音频等)，从网络中下载的目标音频(如网络歌曲等)，通过终端中的麦克风从目标对象所处物理环境中获取的目标音频，或者其他设备发送的目标音频，等等；本申请实施例对目标音频的来源方式不作限定，有利于目标对象将任意想要生成音乐型视频的目标音频上传计算机设备，满足目标对象选取丰富的音频类型的需求。例如，目标对象上传的目标音频的来源方式为其他设备发送的目标音频；此实现方式下，终端与其他设备之间已建立通信连接，那么终端可以直接从其他设备中接收到目标音频。其中，本申请实施例对终端与其他设备之间建立的通信连接方式不作限定，包括但不限于：近场通讯方式(用于短距离非接触式数据交换的技术；如近场通讯可包括但不限于：近距离无线通信(Near Field Communication，NFC)、蓝牙通信或wifi通信等)、数据通信(如邮件、会话、短信等方式)以及有线连接通信。

进一步的，目标音频对应有音频文本，该音频文本用于描述目标音频的音频内容；例如，在目标音频为歌曲音频(即音乐)时，该目标音频对应的音频文本为歌词文本，该歌词文本中记录了目标音频中每句歌曲所对应的歌词。根据目标音频对应的音频文本是否已事先存在，计算机设备获取目标音频对应的音频文本的获取方式有所不同；其中：

在一种实现方式中，目标音频对应的音频文本是事先存在的，即无论目标对象是否需要基于该目标音频生成音乐型视频，该目标音频对应的音频文本本身是已存在的。此实现方式下，计算机设备在获取目标音频时，可以一并获取该目标音频对应的音频文本；也就是说，目标对象上传目标音频时，可以一并上传该目标音频的音频文本，以便于计算机设备同时获取到目标音频和该目标音频对应的音频文本。

其他实现方式中，目标音频对应的音频文本不是事先存在的，即对于目标对象而言，可能只能获取到目标音频，而不能获取到该目标音频对应的音频文本。此实现方式下，计算机在获取到目标音频后，可以对该目标音频进行文本获取操作，以获取到该目标音频对应的音频文本。此处的文本获取操作可以包括：可选的，如果该目标音频是网络中已存在的歌曲音频或其他音频，那么可以在网络中搜索该目标音频对应的音频文本。可选的，如果该目标音频不是网络中已存在的音频，或者，在网络中并不存在该目标音频对应的音频文本，那么可以通过对该目标音频进行歌词识别，以获取到该目标音频对应的音频文本；其中，可以采用某些具有识别歌词的工具，对目标音频进行歌词识别，本申请实施例对该工具的具体种类不作限定。

综上所述，一方面，本申请实施例中目标音频的来源是较为丰富的，使得目标对象可以根据想要上传的目标音频的音频类型，采用相应的方式上传该目标音频，丰富目标对象可以上传的目标音频的音频类型。另一方面，本申请实施例中目标音频对应的音频文本的获取方式也可以有多种，这使得不会因为目标音频本身不存在音频文本，导致音乐型视频的生成失败，从而提升音乐型视频的生成成功率，提升用户体验和粘性。

S302：对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段。

其中，意境片段文本可以用于从文本维度，描述相对应的意境音频片段所表达的意境场景；所谓文本维度可以是指采用书面语言(如字、词语和句子)来描述意境场景的维度。例如，意境片段文本为“长亭X，古道X”，该意境片段文本通过采用词语“长亭”和“古道”，描述了包含长亭和古道的意境场景。

至少一个意境片段文本中的每个意境片段文本，与目标音频中的一个意境音频片段对应；可以将目标音频中的一个意境音频片段理解为目标音频中的一段音频，相应的，意境音频片段对应的意境片段文本是该一段音频对应的歌词文本。根据至少一个意境片段文本的数量不同，该意境片段文本有所不同；当至少一个意境片段文本的数量为1时，该意境片段文本其实就是目标音频对应的音频文本；当至少一个意境片段文本的数量大于1时，该每个意境片段文本是目标音频对应的音频文本中的一段文本。为便于阐述，本申请实施例以至少一个意境片段文本的数量大于1为例进行阐述，特在此说明。

在实际应用中，计算机设备获取到目标音频对应的音频文本后，可以将目标音频切分为多个意境小片段文本(或称为主题小片段文本，是目标音频中的单句歌词的歌词文本，单句歌词可以是通过划分符(如句号或回车等)对音频文本划分得到的)，并将所描述的意境场景一致，且对应的意境音频片段在目标音频中播放时间相邻的意境小片段文本，划分至同一意境片段文本中，从而得到至少一个意境片段文本。通过将播放时间相邻且意境场景一致的意境小片段文本划分至同一意境片段文本，可以确定划分得到的意境片段文本能够描述更为完整的意境场景，能够提高意境片段文本所描述意境场景的完整度，从而后续基于完整的意境场景生成的意境图像是更为生动和准确的，提高目标视频所包含各视频帧的连贯性和目标音频的匹配性。

下面结合图3b，对按照意境完整度切分音频文本，得到至少一个意境片段文本，以及确定每个意境片段文本相对应的意境音频片段的具体实施过程进行介绍；如图3b所示，该过程可以包括但是不限于步骤s11-s13，其中：

s11：将音频文本切分为连续的多个音频片段文本，并在目标音频中确定与多个音频片段文本分别对应的音频片段。此处的音频片段文本可以是目标音频对应的音频文本中的单句歌词的歌词文本，即上述提及的意境小片段文本；相应的，音频片段文本对应的音频片段可以是指目标音频中的一段音频。其中，音频片段文本用于描述相对应的音频片段的片段内容。

也就是说，在对待生成音乐型视频的目标音乐进行意境切分时，是先将目标音频依据每句歌词进行更小粒度片段切分，得到细粒度的音频片段和相应的音频片段文本；其中，切分后各细粒度的音频片段可以表示为：t0、t1、t2、t3、t4、……、tx。

s12：按照意境完整度对多个音频片段文本进行合并，得到至少一个意境片段文本。不难理解的是，如果一个意境片段文本所描述的意境场景更为完整，那么基于该意境片段文本为相对应的意境音频片段生成的相匹配的意境图像，所包含的图像内容更完整，且从最终生成的目标视频整体来看，该目标视频所包含的各视频帧所描述意境场景之间更为连贯和自然。基于此，本申请实施例支持按照意境完整度，将描述的意境场景一致的音频片段文本划分至同一意境片段文本，从而得到至少一个意境片段文本。

其中，本申请实施例支持按照意境合并规则，对多个音频片段文本进行合并，得到至少一个意境片段文本。该意境合并规则可以包括：1、音频片段文本对应的音频片段的时长小于时长阈值(如20秒)，i为正整数；2、将位于该音频片段文本之后，且相邻的一个或多个音频片段文本并入至当前音频片段文本，且需要满足合并后的合并音频片段文本所描绘的意境场景的的完整度大于预设阈值(或称为完整度阈值，可以表示为e，如e＝0.98(或90％))。

为便于阐述，假设至少一个意境片段文本中的任一意境片段文本表示为目标意境片段文本，下面结合图4并以该目标意境片段文本为例，对按照意境合并规则合并得到目标意境片段文本的过程进行介绍。如图4所示：

1)对多个音频片段文本中，相邻的一个或多个音频片段文本执行合并操作，得到合并音频片段文本；即该合并音频片段文本是由连续的多个音频片段文本中相邻的音频片段文本构成的。具体地，假设多个音频片段文本中的前i-1个音频片段文本已完成意境片段文本的合成，那么若多个音频片段文本中的第i个音频片段文本对应的音频片段的播放时长，小于时长阈值，则将第i+1个音频片段文本合并至第i个音频片段文本，得到初始音频片段文本；进一步的，若初始音频片段文本对应的合并音频片段的播放时长，小于时长阈值，则继续上述步骤，直至得到播放时长大于或等于时长阈值的合并音频片段所对应的合并音频片段文本。

举例来说，第i个音频片段文本相对应的音频片段的播放时长为5秒，则将第i+1个音频片段文本合并至该第i个音频片段文本，在该第i+1个音频片段文本相对应的音频片段的播放时长大于或等于15秒时，将合并后的初始音频片段文本作为一个意境片段文本。反之，在该第i+1个音频片段文本相对应的音频片段的播放时长小于15秒时，继续将第i+2个音频片段文本与上述合并后的初始音频片段文本进行合并。

2)对该合并音频片段文本进行意境完整度识别，得到第一完整度结果。若该第一完整度结果指示：合并音频片段文本所描绘的意境场景的完整度大于或等于预设阈值，表示当前的合并音频片段文本所描绘的意境场景已经足够完整，则将合并音频片段文本作为目标意境片段文本。反之，若第一完整度结果指示：合并音频片段文本所描绘的意境场景的完整度小于预设阈值，表示当前的合并音频片段文本所描绘的意境场景不够完整，则继续将多个音频片段文本中，与合并音频片段文本中最后一个音频片段文本相邻，且位于最后一个音频片段文本之后的音频片段文本，合并至合并音频片段，得到目标合并音频片段文本；然后，对目标合并音频片段文本进行意境完整度识别，得到第二完整度结果。

进一步的，再判断该第二完整度结果与预设阈值之间的关系；若第二完整度结果指示：目标合并音频片段文本所描绘的意境场景的完整度大于或等于预设阈值，表示目标合并音频片段文本所描绘的意境场景足够完整，则将该目标合并音频片段文本作为一个意境片段文本。反之，若第二完整度结果指示：目标合并音频片段文本所描绘的意境场景的完整度小于预设阈值，表示目标合并音频片段文本所描绘的意境场景不够完整，则继续执行上述步骤(即继续将多个音频片段文本中，与目标合并音频片段文本中最后一个音频片段文本相邻，且位于最后一个音频片段文本之后的音频片段文本，合并至目标合并音频片段文本，以及继续分析合并后的音频片段文本的意境完整度)，直至意境完整度结果指示：合并后的音频片段文本所描绘的意境场景的完整度大于或等于预设阈值。

上述内容主要阐述了对多个音频片段文本进行合并，以构建意境片段文本的具体实施过程；下面对构建意境片段文本的过程中，确定合并后的音频片段文本的完整度结果的具体实施过程进行介绍；具体地，本申请实施例支持调用训练好的完整度判定模型，来对合并音频片段文本进行意境完整度识别，得到第一完整度结果。也就是说，本申请实施例支持通过人工智能(Artificial Intelli gence，AI)来实现对合并音频片段文本的意境完整度识别。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提及的完整度判定模型，主要涉及人工智能领域下的机器学习等方向。机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。机器学习可以被看成一项任务，这个任务的目标就是让机器(广义上的计算机)通过学习来获得类似人类的智能。例如人类能从图像或视频中识别感兴趣的目标，那么计算机程序(AlphaGo或AlphaGo Zero)被设计成掌握了目标识别能力的程序。其中，多种方法可用来实现机器学习的任务，比如，神经网络、线性回归、决策树、支持向量机、贝叶斯分类器、强化学习、概率图模型、聚类等多种方法。

本申请实施例提供的完整度判定模型的模型训练过程，具体是利用预先标注好意境完整度的样本音频片段文本，来对完整度判定模型进行训练，使得训练好的完整度判定模型在接收到待判断完整度的音频片段文本后，能够输出该音频片段文本的较为准确的完整度结果。

上述提及的完整度判定模型的模型结构可以参见图5a；如图5a所示，在合并音频片段文本包含第i个音频片段文本和第i+1个音频片段文本时，首先，将第i个音频片段文本和第i+1个音频片段文本均输入至训练好的完整度判定模型。

然后，训练好的完整度判定模型可以对构成合并音频片段文本的每个音频片段文本进行关键词提取，具体是对第i个音频片段文本和第i+1个音频片段文本分别进行关键词提取，得到第i个音频片段文本对应的一个或多个关键词，以及第i+1个音频片段文本对应的一个或多个关键词，这些关键词作为合并音频片段文本对应的关键词。值得注意的是，本申请实施例对关键词提取的具体实施过程不作限定；例如，关键词提取可以是采用滑动窗口提取音频片段文本中的关键词，如滑动窗口的窗口大小为2，表示从音频片段文本所包含的第一个字符开始，利用滑动窗口将音频片段文本中每两个字符提取出来，作为该音频片段文本的一个关键词。

然后，基于合并音频片段文本对应的关键词，对合并音频片段文本进行特征提取，得到合并音频片段文本的第一完整度结果。如图5a所示，基于合并音频片段文本对应的关键词，对合并音频片段文本进行特征提取的过程可以包括：利用预训练模型提取每个关键词的词向量，并基于每个关键词的词向量，对合并音频片段文本进行特征提取，得到合并音频片段文本的特征信息，该特征信息用于表征合并音频片段文本的语义信息；然后，对合并音频片段文本的特征信息进行池化处理，得到池化后的特征信息；最后，利用全连接神经网络并基于池化后的特征信息进行分类处理，得到合并音频片段文本的第一完整度结果，该第一完整度结果可以表现为小数形式，如0.95，表示合并音频片段文本所描述的意境场景的完整度为95％。其中，上述提及的预训练模型可以包括BERT(Bidirectional EncoderRepresentation from Transformers)模型，或者ALBER T模型；ALBERT模型是对BERT模型的改进，能够解决BERT模型的较多参数量及训练时间过长的问题。其中，BERT模型和ALBERT模型的工作原理类似，是双向的Transformers网络的编码结构Encoder，该Transformers网络是一个依赖于注意力机制(attention)来计算输入和输出的转换模型；Transformers网络抛弃了卷积模型结构，仅仅通过注意力机制和前向神经网络(Feed Forwar d NeuralNetwork)，不需要使用序列对齐的循环架构就实现了较好的表现。

最后，若合并音频片段文本的第一完整度结果小于预设阈值，如第一完整度结果为0.95，小于预设阈值0.98，表示该合并音频片段文本所描述的意境场景的完整度不高，则可以继续进行音频片段文本的合并，并将合并后的音频片段文本再次输入完整度判定模型，直至输出的完整度结果大于或等于预设阈值。反之，若合并音频片段文本的第一完整度结果大于或等于预设阈值，如第一完整度结果为0.98，等于预设阈值0.98，表示该合并音频片段文本所描述的意境场景的完整度足够高，则将当前的合并音频片段文本作为一个意境片段文本。

s13：将合成意境片段文本的各音频片段文本所对应的音频片段进行合并，得到每个意境片段文本对应的意境音频片段。

基于上述步骤，得到至少一个意境片段文本后，本申请实施例还支持将合成意境片段文本的各音频片段文本所对应的音频片段进行合并，从而得到每个意境片段文本对应的意境音频片段。以至少一个意境片段文本中的任一个意境片段文本表示为目标意境片段文本为例，假设该目标意境片段文本由音频片段文本1、音频片段文本2和音频片段3合并得到的，那么按照音频片段文本1对应的音频片段1、音频片段文本2对应的音频片段2以及音频片段文本3对应的音频片段3，在目标音频中的播放时间顺序，将音频片段1、音频片段2和音频片段3进行连接，即得到目标音频片段文本对应的意境音频片段。

综上所述，通过上述步骤s11-s13所示的，按照意境完整度对目标音频中的单句歌词进行合并，来构建意境音频片段文本的方式，可以使得每个意境片段文本所描述的意境场景的完整度都较高，从而基于较为完整的意境片段文本绘制的意境图像更丰富，且意境图像之间更为连贯，使得生成的目标视频的质量更好。

S303：对至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像。

基于前述步骤可以得到目标音频对应的音频文本，所对应的至少一个意境片段文本；每个意境片段文本可以从文本维度，描述相对应的意境音频片段所表达的意境场景。为了实现针对目标音频配置图像，以生成音乐型视频，本申请实施例支持基于能够表达意境场景的意境片段文本，为每个意境音频片段生成相匹配的意境图像，从而根据每个意境音频片段相匹配的意境图像和目标音频构建音乐型视频。其中，意境音频片段相匹配的意境图像可以用于从图像维度，描述相匹配的意境音频片段所表达的意境场景；所谓图像维度可以是指采用图像元素来描述意境场景的维度。例如，意境音频片段所表达的意境场景为：包含长亭和古道的意境场景，那么为该意境音频片段生成的相匹配的意境图像中包含图像元素“长亭”和图像元素“古道”，进一步的，考虑到图像元素“长亭”和图像元素“古道”这类图像元素是具体一定形态的，可以用线条描绘出来的物体，因此可以将这类图像元素称为可描绘实体(简称为实体)，即可描绘实体是指能够作为图像元素绘制在图像中的物体。

考虑到每个意境片段文本所描述的意境场景的完整度是较高的，因此基于完整度较高的意境片段文本生成的意境图像，从图像维度所描述的意境场景的完整度也是较高的；一方面，能够确保生成的意境图像是与相应的意境音频片段所表达的意境场景相符合，另一方面，能够确保最终生成的音乐型视频所包含的每帧视频帧所描绘的内容是完整的。

具体实现中，对至少一个意境片段文本所描述的意境场景分别进行图像化处理，得到与各意境音频片段相匹配的意境图像的具体实施过程可以参见图5b；如图5b所示，该过程可以包括但是不限于步骤s21-s23，其中：

s21：对至少一个意境片段文本中的每个意境片段文本进行描述转换，得到每个意境片段文本对应的绘图描述文本。

在为每个意境音频片段生成相匹配的意境图像的过程中，考虑到意境片段文本是直接由音频文本所包含的单句歌词文本(即音频片段文本)合成的，而单句歌词文本往往为了韵律等原因，对所表达的意境场景的描述不够直接，这使得如果直接意境片段文本生成意境图像，会导致意境图像的生成质量不佳，如意境图像从图像维度所描述的意境场景，可能会与相对应的意境片段文本从文本维度所描述的意境场景，存在较大的差距。

基于此，本申请实施例支持先将意境片段文本进行描述转换，得到更容易绘图的绘图描述文本，这样基于该绘图描述文本绘制意境图像时，使得绘制的意境图像从图像维度所描述的意境场景，与相对应的意境片段文本从文本维度所描述的意境场景相符合。例如，意境片段文本为“长亭X，古道X”，那么对该意境片段文本进行描述转换后，得到对应的绘图描述文本可以为“中式彩色亭子和驿道，水彩风格”，该绘图描述文本中直接给出了意境场景所包含的可描绘实体为“亭子”和“驿道”，且还给出了意境图像的绘图风格为“水彩风格”，这使得基于直观地绘图描述文本能够更快且更准确地生成意境图像，对意境图像的生成更加友好。

由上述对意境片段文本对应的绘图描述文本的相关描述可知，绘图描述文本中包含两类文本，分别为实体描述文本和风格描述文本。其中，实体描述文本用于描述意境场景所包含的可描绘实体，如上述例子中的实体描述文本为“中式彩色亭子和驿道”。风格描述文本用于描述意境图像的绘图风格，如上述例子中的风格描述文本为“水彩风格”。根据描述文本的类型不同，对意境片段文本进行描述转换的具体实施过程并不相同，下面给出这两种描绘文本的示例性生成过程；其中：

(1)描述文本为实体描述文本。本申请实施例支持采用训练好的实体识别模型，来自动对意境片段文本进行描述转换，得到实体描述文本。本申请实施例提供的一种示例性的实体识别模型的结构示意图可以参见图6；如图6所示，该实体识别模型是一个Transformer生成模型，Transformer网络凭借其拥有的注意力机制能够更好地关注到意境片段文本中的可描述实体所对应的关键词，较好地实现针对意境片段文本的全局特征信息的提取；其中，关于Transformer的相关内容可以参见前述相关描述，在此不作赘述。实体识别模型的模型训练过程，具体是采用数据集对实体识别模型进行模型训练，该数据集中包含预先标注好的意境片段文本-实体描述文本(或理解为“歌词”–绘图描述)对，训练好的实体识别模型能够基于接收到的意境片段文本生成相对应的实体描述文本。

继续参见图6，该Transformer生成模型是由对称的编码模块(Transformer-Encoder)和解码模块(Transformer-Decoder)两个部分组成；下面以至少一个意境片段文本中的任一意境片段文本表示为目标意境片段文本为例，该目标意境片段文本对应的绘图描述文本中包含实体描述文本，对该目标意境片段文本对应的实体描述文本的生成过程进行说明。具体地，目标意境片段文本是由一个或多个词语组成，一个词语由一个或多个字符组成；例如，目标意境片段文本为“我有一只猫”，那么该目标意境片段所包含的词语可以包括“我”、“有”、“一只”和“猫”，其中词语“一只”是由字符“一”和“只”组成的；再如，目标意境片段文本为“长亭X，古道X”，该目标意境片段文本中包含词语可以包括“长亭”、“X”、“古道”和“边”，其中词语“长亭”是由字符“长”和“亭”组成，词语“古道”是由字符“古”和“道”组成。

首先，基于Transformer生成模型中的编码模块对目标意境片段文本中的各词语进行编码，得到各词语的词字特征表示，每个词特征表示用于指示相应词语的语义特征。具体是先获取该目标意境片段文本的每个词语的词向量表示，词语的词向量表示由该词语的embedding向量，和该词语在目标意境片段文本所包含的多个词语中的位置的embedding向量相加得到；然后，将每个词语的词向量表示输入至编码模块，经过编码模块对每个词语的词向量表示的特征提取，得到每个词语的词特征表示；参见图6可知编码模块的输入信息中还包含[CLS(classification)]标识，该[CLS]是用于代表整个目标意境片段文本的语义特征向量，即是代表整个目标意境片段文本的标签，代表目标意境片段文本的含义，可以用于对目标意境片段文本分类。

然后，在获取到Transformer生成模型中编码模块输出的各词语的词特征表示后，还支持将各词语的词特征表示输入Transformer生成模型中的解码模块，此时解码模块可以对各词语的词特征表示进行解码处理，具体是解码模块接收到翻译开始符[S]后，开始对目标意境片段文本中的第一个词语“长亭”进行转换，然后，再基于翻译开始符[S]和第一个词语“长亭”转换第二个词语“X”，依次实现针对每个词语的词特征表示的转换，从而得到目标意境片段文本对应的实体描述文本。值得注意的是，解码模块在依次转换词特征表示时，当转换为目标意境片段文本中的第k个词语时，需要通过掩膜(mask)操作遮盖住第k个词语之后的词语，以实现基于第k个词语之前的k-1个词语对第k个词语的预测。

(2)描述文本为风格描述文本。本申请实施例支持采用训练好的风格识别模型，来自动对进行风格识别，得到风格描述文本。其中，绘图风格可以包括但是不限于：水墨风格、水彩风格及科幻风格等，本申请实施例对不同绘图风格的风格描述文本不作限定。本申请实施例提供的一种示例性的风格识别模型的结构示意图可以参见图7；如图7所示，该风格识别模型可以称为Audio(音频)-Transfromer模型，是由Transformer网络的编码模块(Transformer-Encoder)和线性模块(linear)组成的。风格识别模型的模型训练过程，具体是在预先标注好音频对应的绘图风格数据集上进行训练，使得训练好的风格识别模型能够基于接收到的音频生成相对应的风格描述文本_。

值得注意的是，为了确保最终生成的音乐型视频的美观性和视觉稳定性，本申请实施例支持保持音乐型视频所包含的各视频帧的风格一致，即至少一个意境片段文本中每个意境片段文本对应的风格描述文本是相同的；这样，播放音乐型视频时，每帧视频帧的绘图风格均相同，确保音乐型视频的和谐性。基于此，本申请实施例支持将整个目标音频输入至图7所示的风格识别模型，这样通过对目标音频的整体音频进行风格识别，可以得到整个目标音频所表达的绘图风格，从而将该目标音频的风格描述文本作为该目标音频中每个意境音频片段的绘图描述文本所包含的风格描述文本，即作为上述提及的目标意境片段文本对应的绘图描述文本所包含的风格描述文本。下面对利用图7所示的风格识别模型，对整个目标音频进行风格识别的具体实施过程进行介绍；如图7所示：

首先，获取目标音频对应的频谱图，该频谱图是将目标音频从时域转换到频域所得到的图像，时域和频域是对目标音频进行分析的两个角度；具体可以采用傅里叶变换等算法将目标音频的时序图转换为梅尔频谱图(MEL频谱图)，具体是将时域下的音频信号分解为单个频率和频率幅度，由该单个频率和频率幅度构成目标音频的频谱图。然后，将频谱图切分为多个子频谱图，在切分频谱图时，可以将每个子频谱图的图像尺寸切分为相同尺寸，该尺寸的数值是沿着能够更好地分析子频谱图的特征的方向取值的，对此不作限定。然后，获取各子频谱图的频域向量，任一子频谱图的频谱向量由任一子频谱图的词向量(embedding向量)和位置向量(即该任一子频谱图在频谱图中的位置所表达的向量)组成；具体是采用风格识别模型所包含的线性映射层(linear projection)，实现对每个频谱图的向量表示，得到各子频谱图的频域向量。最后，再采用风格识别模型所包含的编码模块对各子频谱图的频域向量进行编码(即特征提取)，以得到目标音频的风格描述文本；具体是利用编码模块对各子频谱图的频域向量进行编码，得到目标音频的音频风格特征信息，然后对该音频风格特征信息进行线性变换和分类处理，得到目标音频属于不同绘图风格的概率，如属于水墨风格的概率为10％，属于水彩风格的概率为60％，以及属于科幻风格的概率为30％，此时确定目标音频属于水彩风格，即目标音频的风格描述文本为“水彩风格”。

需要说明的是，本申请实施例还支持将目标音频所包含的任一个意境音频片段，作为风格识别模型的输入信息，从而将该任一个意境音频片段的风格描述文本，作为目标音频中每个意境音频片段的风格描述文本。其中，利用风格识别模型对该任一个意境音频片段进行风格识别的具体实施过程，可以参见上述描述的，利用风格识别模型对整个目标音频进行风格识别的具体实施过程的相关描述，在此不作赘述。

还需说明的是，本申请实施例还支持对目标音频所包含的每个意境音频片段进行风格识别，得到每个意境音频片段的风格描述文本；这样，基于不同风格描述文本绘制的各意境音频片段相匹配的意境图像的风格有所不同，但能确保每个意境音频片段的意境图像的风格，与相应意境音频片段所表达的风格更为接近。

综上所述，通过上述步骤可以得到音频文本中每个意境片段文本的绘图描述文本，所包含的实体描述文本和风格描述文本，使得基于该绘图描述文本生成的意境图像与相应的意境片段文本的匹配度高，提升对目标音频的利用率。还值得注意的是，在目标对象对音乐型视频的风格有自定义需求时，本申请实施例还支持由目标对象自定义设置目标音频的绘图风格，此时无需对目标音频执行上述实现方式(2)，只需基于各意境片段文本的实体描述文本，和由目标对象上传的自定义风格描述文本，生成各意境片段文本的意境图像即可；这种由目标对象上传自定义的风格描述文本的方式，能够满足目标对象自定义绘图风格的需求，在一定程度上，提升视频生成方法的普适性。

s22：基于每个意境片段文本对应的绘图描述文本，生成各意境音频片段的多个候选意境图像。

基于前述步骤为每个意境音频片段构建好绘图描述文本后，支持基于绘图描述文本，生成各意境音频片段的多个候选意境图像；任一意境音频片段的多个候选意境图像中的每个候选意境图像，均从图像维度描述该任一意境音频片段所表达的意境场景，只是所描述的意境场景的描述完整或相关性的不同。

具体实现中，本申请实施例支持将任一意境音频片段的绘图描述文本输入至图像生成模型，由图像生成模型基于绘图描述文本生成相应意境音频片段的多个候选意境图像。本申请实施例对图像生成模型的具体模型结构不作限定，如图像生成模型可以包括但是不限于：扩散模型(Diffusion Models)，生成对抗网络(Generative AdversarialNetworks，GAN)或变分自编码器(Variational Autoencoder，VAE)等。本申请实施例提供的图像生成模型为扩散模型时，该扩散模型的模型结构示意图可以参见图8；如图8所示，将绘图描述文本作为扩散模型的输入信息后，该扩散模型在扩散过程(diffusion process)可以对该绘图描述文本进行噪声增加处理，具体是逐步向该绘图描述文本增加噪声(如增加T次，T为整数)。然后，在逆向扩散过程(reverse process)，可以对增加噪声后的绘图描述文本进行图像还原处理，得到绘图描述文本对应的候选意境图像，该候选意境图像即是意境音频片段的候选意境图像；在逆向扩散过程，具体是基于噪声获取生成候选意境图像所需的数据，以基于该数据生成候选意境图像。通过图像生成模型的多样性能力，较为容易地为目标音频中的意境音频片段构建出多个不同的候选意境图像，不仅提升音乐型视频的生产效率，而且丰富音乐型视频的内容多样性。

可以理解的是，上述只是以图像生成模型为扩散模型为例，给出为意境音频片段生成候选意境图像的示例性过程；根据图像生成模型的不同，为意境音频片段生成候选意境图像的具体实施过程并不相同，本申请实施例对候选意境图像的生成过程不作限定。

s23：从各意境音频片段的多个候选意境图像中，为各意境音频片段选取相匹配的意境图像。

基于上述步骤，可以为每个意境音频片段生成多个候选意境图像。进一步的，本申请实施例还支持从每个意境音频片段的多个候选意境图像中，选取一个与当前意境音频片段(即多个候选意境图像对应的意境音频片段)相关，且与当前意境音频片段的上一个意境音频片段所选取的意境图像相符的候选意境图像，作为当前意境音频片段的意境图像。由此可见，在为意境音频片段选取相匹配的意境图像时，一方面，参考该意境图像与该意境音频片段之间的相关性(如体现所描述的意境场景的相似性)，可以确保意境图像所描述的意境场景是相对应的意境音频片段所表达的意境场景；另一方面，参考该意境图像，与该意境音频片段之前的意境音频片段的意境图像之间的连续性(如两张意境图像均包含相同的图像元素)，可以确保最终生成的音乐型视频所包含的各视频帧之间的过渡更为自然。

以目标音频所包含的各意境音频片段中包含相邻的第j-1个意境音频片段，和第j个意境音频片段为例，j为正整数，对从第j个意境音频片段的多个候选意境图像中，为第j个意境音频片段选取相匹配的意境图像的具体实施过程进行介绍。具体实现中，当j＝1时，表示该第j个意境音频片段是目标音频中连续的多个意境音频片段中的第一个意境音频片段，考虑到该第一个意境音频片段之前，并不存在意境音频片段，因此为第一个意境音频片段选取意境图像时，可以只考虑该第一个意境音频片段，与多个候选意境图像之间的相关性，来为该第一个意境音频片段选取意境图像。具体是按照第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与第j个意境音频片段所表达的意境场景之间的相关性，从第j个意境音频片段的多个候选意境图像中，为第j个意境音频片段选取相匹配的意境图像。

当j>1时，表示该第j个意境音频片段是目标音频中，连续的多个意境音频片段中除第一个意境音频片段以外的意境音频片段，此时为第j个意境音频片段选取意境图像时，需要考虑该第一个意境音频片段与多个候选意境图像之间的相关性，以及该第一个意境音频片段的多个候选意境图像，与为第j-1个意境音频片段已选取的意境图像之间的相关性，来为该第j个意境音频片段选取意境图像；其中，两个意境图像之间的相关性可以体现为意境图像之间的连续性，如相邻两个意境图像包含共同的图像元素时，表示该两个意境图像之间的连续性更好。具体是按照第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与第j个意境音频片段所表达的意境场景之间的相关性，以及，第j个意境音频片段的多个候选意境图像，分别与相邻第j-1个意境音频片段相匹配的意境图像之间的相关性，从第j个意境音频片段的多个候选意境图像中，为第j个意境音频片段选取相匹配的意境图像。

本申请实施例支持采用隐马尔可夫模型(Hidden Markov Model，HMM)，来实现上述提及的为每个意境音频片段选取相匹配的意境图像的步骤。其中，隐马尔可夫模型是一个统计模型，可以用来描述一个含有隐含未知参数的马尔可夫过程；马尔科夫过程可以简单理解为：已知随机过程在时刻t所处状态的条件下，随机过程在时刻t+1所处状态，与随机过程在时刻t之前的状态无关，而仅与随机过程在t所处的状态有关。隐马尔可夫模型的模型结构的示意图可以参见图9；如图9所示，隐马尔可夫模型可以包括两个状态，分别为隐含状态S和可见状态O，在本申请实施例中隐含状态S可以是指意境音频片段，可见状态O可以是指该意境音频片段相匹配的意境图像。该隐马尔可夫模型中的箭头用于表示状态之间的依赖关系；例如，隐含状态S和可见状态O之间的箭头用于指示从一个隐含状态到一个可见状态的输出(即意境图像)，再如，隐含状态S和隐含状态S之间的箭头用于指示从一个隐含状态到下一个隐含状态的转换。

其中，隐马尔可夫模型可以是通过发射概率P(Ot|st)和转移概率P(st|st-1)(或表示为P(st-1→st))来为意境音频片段选取相匹配的意境图像的。发射概率P(Ot|st)用于表示意境音频片段和该意境音频片段的多个候选意境图像中每个候选意境图像的相关度；转移概率P(st|st-1)用于表示相邻意境音频片段相匹配的意境图像之间的连续性。

具体地，对于目标音频所包含的多个意境音频片段中的第一个意境音频片段来说，需要分别计算该第一个意境音频片段，与该第一个意境音频片段的多个候选意境图像中每个候选意境图像之间的发射概率；然后，将发射概率最大时相同的候选意境图像作为该第一个意境音频片段相匹配的意境图像。对于目标音频所包含的多个意境音频片段中除第一个意境音频片段外的其他意境音频片段来说，如第二个意境音频片段来说，需要分别计算第一个意境音频片段相匹配的意境图像，与该第二意境音频片段的多个候选意境图像中每个候选意境图像之间的转移概率；以及，计算分别计算该第二个意境音频片段，与该第二个意境音频片段的多个候选意境图像中每个候选意境图像之间的发射概率；最后，基于每个候选意境图像的转移概率和发射概率，为该第二个意境音频片段选取相匹配的意境图像。重复执行上述步骤，直至目标音频所包含的每个意境音频片段均成功选取意境图像，这样就可以为每个意境音频片段选取相匹配的意境图像，且确保每个意境音频片段相匹配的意境图像能够较为准确地描绘出，相应意境音频片段所表达的意境场景，且确保相邻意境音频片段的意境图像之间的连续性或连贯性，提升最终生成的音乐型视频的视频质量。

进一步的，上述提及的意境音频片段和候选意境图像之间的发射概率，以及，当前意境音频片段的候选意境图像，和上一意境音频片段相匹配的意境图像之间的转移概率，可以是通过相关度模型来确定的。本申请实施例对相关度模型的具体模型类型和结构不作限定，如相关度模型可以为CLIP(Contrastive Language-Image Pre-Training)模型，该CLIP模型是多模态模型，模态是指多媒体的形态，如文本和图像是属于两种模态。一种CLIP模型的模型结构的示意图可以参见图10；如图10所示，以通过该CLIP模型计算发射概率为例，该CLIP模型的多模态特性为图像选取任务(即从多个候选意境图像中选取与意境音频片段相匹配的意境图像)构建了动态的分类器。其中，文本编码模块(text encoder)用于对意境音频片段对应的意境片段文本进行特征提取，得到意境片段文本的文本特征；图像编码模块(image encoder)用于对意境音频片段的候选意境图像进行特征提取，得到候选意境图像的图像特征。然后，计算从候选意境图像中提取到的图像特征，和从意境片段文本中提取到的文本特征之间的余弦相似度。然后，从多个余弦相似度中确定取值最大的余弦相似度，并将该余弦相似度作为输入CLIP模型的候选意境图像和意境片段文本之间的发射概率。

综上所述，通过上述相关描述，可以为目标音频中的每个意境音频片段生成相匹配的意境图像，使得最终生成的音乐型视频所包含的视频帧(即意境图像)是基于目标音频的音频文本构建的，而不是已存在的图像，使得该音乐型视频的内容新颖且丰富；并且，基于目标音频生成意境图像，不仅充分利用该目标音频，且更容易捕获到目标对象所感兴趣的内容，进而提升音视频平台的内容丰富性。

S304：对目标音频和至少一个意境图像进行融合处理，生成目标视频。

基于前述步骤S301-S303所示的具体实施过程，可以获取到目标音频中每个意境音频片段相匹配的意境图像，这样可以将目标音频和每个意境音频片段相匹配的意境图像进行融合处理，以生成目标音频对应的目标视频。具体可以采用视频合成工具(如ffmpeg(fast forward mpeg))，将每个意境图像对应的意境音频片段的时间对齐在目标音频中的时间，实现合成最终的音乐型视频。

在本申请实施例中，提供一种基于目标音频自动生产音乐型视频的视频生成方法，该方法通过对目标音频的音频文本和与旋律进行深度建模，生成用于绘制意境图像的绘图描述文本，并基于图像生成模型和绘图描述文本为每个意境音频片段生成段歌词生成相关的意境图像，然后再对多个意境音频片段相匹配的意境图像进行整合，自动生成音乐型视频。这种基于目标音频所表达的意境场景直接生成意境图像的方式，一方面使得生成的音乐型视频的图像内容与音频内容更为契合，实现对目标音频的充分利用，提高音乐型视频的吸引力；另一方面实现图像智能化生成，提高图像生成效率，从而在一定程度上提升音乐型视频的构建效率，节省人力成本。

图11示出了本申请一个示例性实施例提供的另一种视频生成方法的流程示意图；本申请实施例以该视频生成方法由上述提及的计算机设备来执行为例进行说明，该视频生成方法可包括但不限于步骤S1101-S1105：

S1101：获取目标音频和音频文本。

需要说明的是，步骤S1101所示的具体实施过程，可以参见前述图3a所示实施例中步骤S301所示的具体实施过程的相关描述，在此不作赘述。

S1102：判断目标音频是否适合构建音乐型视频。

值得注意的是，有些音频所表达的音频内容是较为抽象且不易懂的，如这部分音频对应的音频文本中不包含可描绘实体，或包含少量的可描绘实体，因此为提高音乐型视频的生成效率，本申请实施例在对目标音频对应的音频文本进行意境切分，以构建音乐型视频之前，还支持先判断该目标音频是否适合构建为音乐型视频；只有在该目标音频适合构建音乐型视频时，才执行后续步骤，在一定程度上确保音乐型视频的视频质量，而且提高音乐型视频的生成效率。

考虑到目标音频中包含较多可描绘实体(如可描绘实体“长亭”和可描绘实体“古道”)时，更容易基于这些可描绘实体绘制出意境图像；因此，本申请实施例支持通过分析音频文本是否包含可描绘实体对应的关键词，以及包含可描绘实体对应的关键词的数量，来判断目标音频是否适合构建为音乐型视频。具体实现中，支持利用训练好的判断模型来自动识别目标音频是否适合构建为音乐型视频；该判断模型的示例性模型结构的示意图可以参见图12；下面结合图12对目标音频是否适合构建音乐型视频的判断过程进行介绍。

具体地，在目标音频的音频文本中包含多个音频片段文本，正如前述所描述的，该音频片段文本可以是指音频文本中的单句歌词文本；可以是依据划分符(如句号或回车符等)从音频文本中划分得到单句歌词文本的，本申请实施例对单句歌词文本的划分方式不作限定。首先，对该每个音频片段文本(即单句歌词)进行关键词提取，得到每个音频片段文本所包含的至少一个关键词，这些关键词中包含可描绘实体对应的关键词。然后，先通过第一特征提取模块(如ALBERT-Local模块和平均池化层)基于每个音频片段文本所包含的至少一个关键词，提取各音频片段文本的片段特征信息，片段特征信息用于表征相应音频片段文本的语义信息。

进一步的，再通过第二特征提取模块(如ALBERT-Global模块和平均池化层)基于每个音频片段文本的片段特征信息，提取整个目标音频的音频特征信息，音频特征信息用于表征目标音频的语义信息。最后，对音频特征信息进行分类处理，得到类别概率；该类别概率用于表征音频文本中的可描绘实体对应的关键词的比例，也就是说，可描绘实体对应的关键词的数量，与该音频文本所包含的全部关键词的数量的比值。若类别概率大于概率阈值，表示目标音频中包含的可描绘实体的数量较多，基于较多的可描绘实体，容易描绘出意境图像，则触发执行步骤S1103。反之，若类别概率小于或等于概率阈值，表示目标音频中包含的可描绘实体的数量较小，基于较少的可描绘实体难以描绘意境图像，此时可以输出提示信息，以提示目标对象当前的目标音频不适合构建音乐型视频。

由此可见，本申请实施例通过对目标音频对应的音频文本进行深度建模，具体是先对单句歌词文本进行建模表示，然后基于各单句歌词文本对整个音频文本进行深层次表示；通过这种由单句歌词文本到整个音频文本的层次化建模方式对音频文本进行理解，有效缓解音频文本较长时的建模困难文本，且在一定程度提高对目标音频是否适合构建音乐型视频的判断准确度。

值得注意的是，在判断目标音频不适合构建音乐型视频时，本申请实施例还支持采用默认的图像与该目标音频进行融合，以生成目标视频；该默认的图像可以是业务人员实现设置好的，此实现方式下，目标视频所包含的视频帧与音频内容之间的契合度不高，但是能够满足目标对象想要基于该目标音频生成目标视频的需求，在一定程度上也满足目标对象生成目标视频的需求。

S1103：若目标音频适合构建为音乐型视频，则对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段。

S1104：对至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像。

步骤S1103-S1104中，基于前述步骤S1102所示的具体实施过程，确定目标音频是适合构建为音乐型视频的音频的基础上，可以执行步骤S1103-S1104，以实现为该目标音频中各意境音频片段生成相匹配的意境图像。需要说明的是，步骤S1103-S1104所示的意境切分、确定意境音频片段以及图像化处理的具体实施过程，可以参见前述图3a所示实施例中步骤S302-S303所示的具体实施过程的相关描述，在此不作赘述。

S1105：对目标音频和至少一个意境图像进行融合处理，生成目标图像。

对目标音频和至少一个意境图像进行融合处理的具体实施过程可以包括：先将与每个意境音频片段相匹配的意境图像，按序拼接成连续的多帧视频帧；此处的按序是指：按照意境音频片段的播放时间，在目标音频的播放时长中的播放位置之间的顺序。然后，将连续的多帧视频帧与目标音频进行融合，生成目标视频。其中，最终生成的目标视频的播放效果可以参见前述图1所示的相关描述，在此不作赘述。

本申请实施例中，支持为目标音频所表达的每个意境场景生成相应的意境图像，该意境图像能够直观地表示出相应意境场景所包含的内容(如包含的实体，所想表达的意境内容等)，一方面使得生成的音乐型视频的图像内容与音频内容更为契合，实现对目标音频的充分利用，提高音乐型视频的吸引力；另一方面这种基于目标音频自动生成意境图像构建音乐型视频的方式，实现图像智能化生成，提高图像生成效率，从而在一定程度上提升音乐型视频的构建效率，节省人力成本。

上述详细阐述了本申请实施例的方法，为了便于更好地实施本申请实施例的上述方案，相应地，下面提供了本申请实施例的装置。

图13示出了本申请一个示例性实施例提供的一种视频生成装置的结构示意图；该视频生成装置可以用于执行图3a或图11所示的方法实施例中的部分或全部步骤。请参见图3a，该视频生成装置包括如下单元：

获取单元1301，用于获取目标音频及目标音频对应的音频文本，音频文本用于描述目标音频的音频内容；

处理单元1302，用于对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段；意境片段文本用于从文本维度，描述相对应的意境音频片段所表达的意境场景；

处理单元1302，还用于对至少一个意境片段文本所表达的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；意境图像用于从图像维度描述相匹配的意境音频片段所表达的意境场景；

处理单元1302，还用于对目标音频和至少一个意境图像进行融合处理，生成目标视频；目标视频中各意境图像，与目标音频中相匹配的各意境音频片段在时间上对齐。

在一种实现方式中，音频文本中包含多个音频片段文本，每个音频片段文本中包含至少一个关键词；处理单元1302，还用于：

在一种实现方式中，处理单元1302，用于对音频文本进行意境切分，得到至少一个意境片段文本，并在目标音频中确定与至少一个意境片段文本分别对应的意境音频片段时，具体用于：

在一种实现方式中，任一意境片段文本表示为目标意境片段文本；处理单元1302，用于按照意境完整度对多个音频片段文本进行合并，得到至少一个意境片段文本时，具体用于：

在一种实现方式中，处理单元1302，还用于：

在一种实现方式中，合并操作包括：

在一种实现方式中，处理单元1302，用于对合并音频片段文本进行意境完整度识别，得到第一完整度结果时，具体用于：

在一种实现方式中，处理单元1302，用于对至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像时，具体用于：

在一种实现方式中，任一意境片段文本表示为目标意境片段文本，且目标意境片段文本是由一个或多个词语组成，一个词语由一个或多个字符组成；目标意境片段文本对应的绘图描述文本中包含实体描述文本；处理单元1302，用于对至少一个意境片段文本中的每个意境片段文本进行描述转换，得到每个意境片段文本对应的绘图描述文本时，具体用于：

在一种实现方式中，目标意境片段文本对应的绘图描述文本中还包含风格描述文本；处理单元1302，还用于：

获取目标音频对应的频谱图；

在一种实现方式中，各意境音频片段中包含相邻的第j-1个意境音频片段和第j个意境音频片段，j为正整数；处理单元1302，用于从各意境音频片段的多个候选意境图像中，为各意境音频片段选取相匹配的意境图像时，具体用于：

在一种实现方式中，处理单元1302，用于对目标音频和至少一个意境图像进行融合处理，生成目标视频时，具体用于：

将连续的多帧视频帧与目标音频进行融合，生成目标视频；

在一种实现方式中，处理单元1302，还用于：

播放目标视频；

根据本申请的一个实施例，图13所示的视频生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该视频生成装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图3a及图11所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图13中所示的视频生成装置，以及来实现本申请实施例的视频生成方法。计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

本申请实施例中，支持为目标音频所表达的每个意境场景生成相应的意境图像，该意境图像能够直观地表示出相应意境场景所包含的内容(如包含的实体，所想表达的意境内容等)，一方面使得生成的音频型视频的图像内容与音频内容更为契合，实现对目标音频的充分利用，丰富音频型视频的生成方式；另一方面这种基于目标音频自动生成意境图像构建音乐型视频的方式，实现图像智能化生成，提高图像生成效率，从而在一定程度上提升音频型视频的构建效率，节省人力成本。

图14示出了本申请一个示例性实施例提供的一种计算机设备的结构示意图。请参见图14，该计算机设备包括处理器1401、通信接口1402以及计算机可读存储介质1403。其中，处理器1401、通信接口1402以及计算机可读存储介质1403可通过总线或者其它方式连接。其中，通信接口1402用于接收和发送数据。计算机可读存储介质1403可以存储在计算机设备的存储器中，计算机可读存储介质1403用于存储计算机程序，处理器1401用于执行计算机可读存储介质1403存储的计算机程序。处理器1401(或称CPU(Central ProcessingUnit，中央处理器))是计算机设备的计算核心以及控制核心，其适于实现一条或多条计算机程序，具体适于加载并执行一条或多条计算机程序从而实现相应方法流程或相应功能。

本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了计算机设备的处理系统。并且，在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条计算机程序。需要说明的是，此处的计算机可读存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机可读存储介质。

在一个实施例中，该计算机设备可以是前述实施例提到的终端或服务器；该计算机可读存储介质中存储有一条或多条计算机程序；由处理器1401加载并执行计算机可读存储介质中存放的一条或多条计算机程序，以实现上述显示处理方法实施例中的相应步骤；具体实现中，计算机可读存储介质中的一条或多条计算机程序，由处理器1401加载并执行本申请各实施例的步骤；其中，本申请各实施例的步骤可以参见前述各实施例的相关描述，在此不作赘述。

基于同一发明构思，本申请实施例中提供的计算机设备解决问题的原理与有益效果与本申请方法实施例中视频生成方法解决问题的原理和有益效果相似，可以参见方法的实施的原理和有益效果，为简洁描述，在这里不再赘述。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时，实现上述视频生成方法。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括计算机程序(一个或多个)。在计算机设备上加载和执行计算机程序时，计算机程序执行本申请实施例上述的流程或功能。计算机设备可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机程序可以存储在计算机可读存储介质中，或者通过计算机可读存储介质进行传输。计算机程序可以从一个网站站点、计算机设备、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机设备、服务器或数据中心进行传输。计算机可读存储介质可以是计算机设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种视频生成方法，其特征在于，包括：

获取目标音频及所述目标音频对应的音频文本，所述音频文本用于描述所述目标音频的音频内容；

对所述音频文本进行意境切分，得到至少一个意境片段文本，并在所述目标音频中确定与所述至少一个意境片段文本分别对应的意境音频片段；所述意境片段文本用于从文本维度，描述相对应的意境音频片段所表达的意境场景；

对所述至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；所述意境图像用于从图像维度描述相匹配的意境音频片段所表达的意境场景；

对所述目标音频和至少一个意境图像进行融合处理，生成目标视频；所述目标视频中各意境图像，与所述目标音频中相匹配的各意境音频片段在时间上对齐。

2.如权利要求1所述的方法，其特征在于，所述音频文本中包含多个音频片段文本，每个音频片段文本中包含至少一个关键词；所述对所述音频文本进行意境切分之前，还包括：

基于每个音频片段文本所包含的至少一个关键词，提取各音频片段文本的片段特征信息，所述片段特征信息用于表征相应音频片段文本的语义信息；

基于所述每个音频片段文本的片段特征信息，提取所述目标音频的音频特征信息，所述音频特征信息用于表征所述目标音频的语义信息；

对所述音频特征信息进行分类处理，得到类别概率；所述类别概率用于指示可描绘实体对应的关键词的数量，与所述音频文本所包含关键词的数量的比例，所述可描绘实体是指能够作为图像元素绘制在图像中的物体；

若所述类别概率大于概率阈值，则触发执行所述对所述音频文本进行意境切分的步骤。

3.如权利要求1所述的方法，其特征在于，所述对所述音频文本进行意境切分，得到至少一个意境片段文本，并在所述目标音频中确定与所述至少一个意境片段文本分别对应的意境音频片段，包括：

将所述音频文本切分为连续的多个音频片段文本，并在所述目标音频中确定与所述多个音频片段文本分别对应的音频片段；所述音频片段文本用于描述相对应的音频片段的片段内容；

按照意境完整度对所述多个音频片段文本进行合并，得到至少一个意境片段文本；

4.如权利要求3所述的方法，其特征在于，任一意境片段文本表示为目标意境片段文本；所述按照意境完整度对所述多个音频片段文本进行合并，得到至少一个意境片段文本，包括：

对所述多个音频片段文本中，相邻的一个或多个音频片段文本执行合并操作，得到合并音频片段文本；

对所述合并音频片段文本进行意境完整度识别，得到第一完整度结果；

若所述第一完整度结果指示：所述合并音频片段文本所描绘的意境场景的完整度大于或等于预设阈值，则将所述合并音频片段文本作为所述目标意境片段文本。

5.如权利要求4所述的方法，其特征在于，所述方法还包括：

若所述第一完整度结果指示：所述合并音频片段文本所描绘的意境场景的完整度小于预设阈值，则将所述多个音频片段文本中，与所述合并音频片段文本中最后一个音频片段文本相邻，且位于所述最后一个音频片段文本之后的音频片段文本，合并至所述合并音频片段文本，得到目标合并音频片段文本；

对所述目标合并音频片段文本进行意境完整度识别，得到第二完整度结果；

若所述第二完整度结果指示：所述目标合并音频片段文本所描绘的意境场景的完整度小于预设阈值，则继续执行上述步骤，直至完整度结果指示：合并后的音频片段文本所描绘的意境场景的完整度大于或等于预设阈值。

6.如权利要求4所述的方法，其特征在于，所述合并操作包括：

若所述多个音频片段文本中第i个音频片段文本对应的音频片段的播放时长，小于时长阈值，则将第i+1个音频片段文本合并至所述第i个音频片段文本，得到初始音频片段文本；i为正整数；

若所述初始音频片段文本对应的合并音频片段的播放时长，小于所述时长阈值，则继续上述步骤，直至得到播放时长大于或等于所述时长阈值的合并音频片段所对应的合并音频片段文本。

7.如权利要求4所述的方法，其特征在于，所述对所述合并音频片段文本进行意境完整度识别，得到第一完整度结果，包括：

对合成所述合并音频片段文本的每个音频片段文本进行关键词提取，得到所述合并音频片段文本对应的关键词；

基于所述合并音频片段文本对应的关键词，对所述合并音频片段文本进行特征提取，得到第一完整度结果。

8.如权利要求1所述的方法，其特征在于，所述对所述至少一个意境片段文本所描述的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像，包括：

对所述至少一个意境片段文本中的每个意境片段文本进行描述转换，得到所述每个意境片段文本对应的绘图描述文本；所述绘图描述文本是从图像维度表述相对应的意境片段文本所表达的语义；

基于所述每个意境片段文本对应的绘图描述文本，生成各意境音频片段的多个候选意境图像；

从所述各意境音频片段的多个候选意境图像中，为所述各意境音频片段选取相匹配的意境图像。

9.如权利要求8所述的方法，其特征在于，任一意境片段文本表示为目标意境片段文本，且所述目标意境片段文本是由一个或多个词语组成，一个词语由一个或多个字符组成；所述目标意境片段文本对应的绘图描述文本中包含实体描述文本；所述对所述至少一个意境片段文本中的每个意境片段文本进行描述转换，得到所述每个意境片段文本对应的绘图描述文本，包括：

对所述目标意境片段文本中各词语进行编码，得到所述各词语的词特征表示；

对所述各词语的词特征表示进行解码，得到所述目标意境片段文本对应的实体描述文本。

10.如权利要求9所述的方法，其特征在于，所述目标意境片段文本对应的绘图描述文本中还包含风格描述文本；所述方法还包括：

获取所述目标音频对应的频谱图；

将所述频谱图切分为多个子频谱图，并获取各子频谱图的频域向量，任一子频谱图的频谱向量由所述任一子频谱图的词向量和位置向量组成；

对每个子频谱图的频域向量进行编码，得到所述目标音频的风格描述文本，并将所述目标音频的风格描述文本，作为所述目标意境片段文本对应的绘图描述文本所包含的风格描述文本。

11.如权利要求8所述的方法，其特征在于，所述各意境音频片段中包含相邻的第j-1个意境音频片段和第j个意境音频片段，j为正整数；所述从所述各意境音频片段的多个候选意境图像中，为所述各意境音频片段选取相匹配的意境图像，包括：

当j＝1时，按照所述第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与所述第j个意境音频片段所表达的意境场景之间的相关性，从所述第j个意境音频片段的多个候选意境图像中，为所述第j个意境音频片段选取相匹配的意境图像；

当j>1时，按照所述第j个意境音频片段的多个候选意境图像所描述的意境场景，分别与所述第j个意境音频片段所表达的意境场景之间的相关性，以及，所述第j个意境音频片段的多个候选意境图像，分别与所述第j-1个意境音频片段相匹配的意境图像之间的相关性，从所述第j个意境音频片段的多个候选意境图像中，为所述第j个意境音频片段选取相匹配的意境图像。

12.如权利要求1所述的方法，其特征在于，所述对所述目标音频和至少一个意境图像进行融合处理，生成目标视频，包括：

将连续的所述多帧视频帧与所述目标音频进行融合，生成目标视频；

其中，所述按序是指：按照各意境音频片段的播放时间，在所述目标音频的播放时长中的播放位置之间的顺序。

13.如权利要求1所述的方法，其特征在于，所述方法还包括：

播放所述目标视频；

所述播放包括：在播放所述目标音频中各音频意境片段的过程中，对齐播放与所述各意境音频片段相匹配的意境图像。

14.如权利要求1-13任一项所述的方法，其特征在于，所述目标音频包括以下任一种：歌曲音频，朗诵音频或语音音频。

15.一种视频生成装置，其特征在于，包括：

获取单元，用于获取目标音频及所述目标音频对应的音频文本，所述音频文本用于描述所述目标音频的音频内容；

处理单元，用于对所述音频文本进行意境切分，得到至少一个意境片段文本，并在所述目标音频中确定与所述至少一个意境片段文本分别对应的意境音频片段；所述意境片段文本用于从文本维度，描述相对应的意境音频片段所表达的意境场景；

所述处理单元，还用于对所述至少一个意境片段文本所表达的意境场景分别进行图像化处理，生成与各意境音频片段相匹配的意境图像；所述意境图像用于从图像维度描述相匹配的意境音频片段所表达的意境场景；

所述处理单元，还用于对所述目标音频和至少一个意境图像进行融合处理，生成目标视频；所述目标视频中各意境图像，与所述目标音频中相匹配的各意境音频片段在时间上对齐。

16.一种计算机设备，其特征在于，

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1-14任一项所述的视频生成方法。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于被处理器加载并执行如权利要求1-14任一项所述的视频生成方法。

18.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-14任一项所述的视频生成方法。