CN114390218A

CN114390218A - 视频生成方法、装置、计算机设备和存储介质

Info

Publication number: CN114390218A
Application number: CN202210049042.9A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-17
Filing date: 2022-01-17
Publication date: 2022-04-22

Abstract

本申请涉及一种视频生成方法、装置、计算机设备和存储介质。该方法涉及网络媒体领域和人工智能技术领域，包括：获取目标对象的内容描述文本，内容描述文本是对目标对象所表达的内容进行描述的信息，内容描述文本包括多个子文本，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征，获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频。采用本方法能够提高处理多媒体数据的效率。

Description

视频生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种视频生成方法、装置、计算机设备和存储介质。

背景技术

随着计算机以及互联网技术的发展，出现了多媒体技术，多媒体技术是指通过计算机对文字、数据、图形、图片、动画、声音等多种媒体信息进行综合处理和管理，使用户可以通过多种感官与计算机进行实时信息交互的技术。越来越多的场景中，利用多媒体技术对多媒体数据进行处理，例如可以利用多媒体技术生成包括多种媒体数据的视频。

目前，互联网中的多媒体数据越来越多，在对多媒体数据进行处理之前，需要人工的从多种多样的媒体数据中筛选出所需要的媒体数据，再利用多媒体技术将人工筛选出的多种媒体数据进行处理。

然而，人工筛选媒体数据需要消耗较多的时间，导致多媒体数据的处理效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高处理多媒体数据的效率的视频生成方法、装置、计算机设备、存储介质和计算机程序产品。

一方面，本申请提供了一种视频生成方法。所述方法包括：获取目标对象的内容描述文本；所述内容描述文本是对所述目标对象所表达的内容进行描述的信息；所述内容描述文本包括多个子文本；对于每个所述子文本，对所述子文本进行语义特征提取，得到所述子文本的文本语义特征；获取从图片库的多个候选图片中分别提取的图片内容特征；针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片；结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示。

另一方面，本申请还提供了一种视频生成装置。所述装置包括：文本获取模块，用于获取目标对象的内容描述文本；所述内容描述文本是对所述目标对象所表达的内容进行描述的信息；所述内容描述文本包括多个子文本；文本特征提取模块，用于对于每个所述子文本，对所述子文本进行语义特征提取，得到所述子文本的文本语义特征；图片特征获取模块，用于获取从图片库的候选图片中提取的图片内容特征；图片确定模块，用于针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片；视频生成模块，用于结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示。

在一些实施例中，所述视频生成模块还用于：对于每个所述子文本，基于所述子文本相匹配的目标图片确定所述子文本对应的目标视频帧；将所述子文本叠加到对应的所述目标视频帧中，得到待编码视频帧；对各个所述待编码视频帧进行视频编码，生成所述子文本对应的视频片段；按照所述子文本在所述内容描述文本中的排序，对各个所述子文本对应的视频片段进行拼接，生成所述目标对象的推荐视频；所述推荐视频在播放时，将所述子文本与所述子文本对应的视频片段对应展示。

在一些实施例中，所述视频生成模块还用于：对于所述子文本相匹配的多个目标图片，按照所述多个目标图片的图片内容特征与所述子文本的文本语义特征之间的匹配度，对所述多个目标图片进行排列，得到目标图片序列；基于所述目标图片序列确定所述子文本对应的视频帧序列；所述视频帧序列中包括多个所述目标视频帧；将所述子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列；所述待编码视频帧序列中包括多个所述待编码视频帧。

在一些实施例中，所述视频生成模块还用于：按照各所述子文本在所述内容描述文本中的排序，确定各所述子文本相匹配的目标图片分别对应的播放时间；针对每个目标图片对应的播放时间，将所述目标图片相匹配的子文本与所述播放时间之间建立对应关系；将各所述目标图片按照相应的播放时间进行视频转换，以生成所述目标对象的推荐视频；所述推荐视频在播放时，将对应于同一播放时间的所述目标图片和所述子文本进行对应展示。

在一些实施例中，所述视频生成模块还用于：获取目标音频；结合各所述目标图片相匹配的子文本以及所述目标音频对各所述目标图片进行视频编码，得到编码视频；将所述编码视频与所述目标音频进行合并，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示，并同步播放所述目标音频。

在一些实施例中，所述视频生成模块还用于：获取候选音频集合，确定所述候选音频集合中的各个候选音频的音频风格；确定所述子文本的文本风格以及所述目标图片的图片风格；基于所述音频风格与所述文本风格之间的相似度、以及所述音频风格与所述图片风格之间的相似度，从所述候选音频集合中筛选得到目标音频。

在一些实施例中，所述视频生成模块还用于：将所述内容描述文本进行语音转换，得到所述内容描述文本对应的语音数据；将所述内容描述文本对应的语音数据，确定为所述目标音频。

在一些实施例中，所述图片确定模块还用于：计算所述子文本的文本语义特征分别与每个所述图片内容特征之间的匹配度，得到所述子文本对应的各个特征匹配度；基于所述子文本对应的各个特征匹配度，从各个所述图片内容特征中过滤掉所述特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个所述图片内容特征确定为第一图片内容特征；从各个所述第一图片内容特征对应的候选图片中，确定与所述子文本相匹配的目标图片。

在一些实施例中，所述图片确定模块还用于：确定所述子文本的邻近子文本；所述子文本与所述邻近子文本在所述内容描述文本中相邻；计算所述子文本的文本语义特征与所述邻近子文本的文本语义特征之间的差异，得到特征差异信息；计算所述第一图片内容特征与所述特征差异信息之间的相似度，将相似度大于相似度阈值的所述第一图片内容特征对应的候选图片，确定为与所述子文本相匹配的目标图片。

在一些实施例中，所述文本特征提取模块还用于：对所述子文本进行分词处理，得到多个词片段；对于每个所述词片段，对所述词片段进行语义特征提取，得到所述词片段的词语义特征；对各个所述词片段的词语义特征进行特征融合，得到所述子文本的文本语义特征。

在一些实施例中，所述目标对象为目标文本对象；所述内容描述文本，是所述目标文本对象所描述的内容的摘要描述信息；所述推荐视频，是用于对所述目标文本对象进行介绍的视频。

另一方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述视频合成方法的步骤。

另一方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述视频合成方法的步骤。

另一方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述视频合成方法的步骤。

上述视频生成方法、装置、计算机设备、存储介质和计算机程序产品，获取目标对象的内容描述文本，内容描述文本包括多个子文本，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征，获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频，推荐视频在播放时将目标图片和相匹配的子文本进行对应展示。由于内容描述文本是对目标对象所表达的内容进行描述的信息，子文本为内容描述文本中的文本，图片内容特征是从候选图片中提取的特征，因此，当图片内容特征与文本语义特征匹配时，子文本与候选图片所表达的内容匹配即相似度较高，实现了文本与图片的自动匹配，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。

附图说明

图1为一些实施例中视频生成方法的应用环境图；

图2为一些实施例中视频生成方法的流程示意图；

图3为一些实施例中视频生成界面的示意图；

图4为一些实施例中文本特征提取网络的结构图；

图5为一些实施例中编码器的结构图；

图6为一些实施例中图片特征提取网络的结构图；

图7为一些实施例中的推荐视频的效果图；

图8为一些实施例中的特征融合网络的结构图；

图9为一些实施例中视频生成方法的流程示意图；

图10为一些实施例中生成视频的原理图；

图11为一些实施例中计算匹配度的原理图；

图12为一些实施例中视频生成装置的结构框图；

图13为一些实施例中计算机设备的内部结构图；

图14为一些实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频生成方法，可以应用于如图1所示的应用环境中。该应用环境中包括终端102和服务器104。其中，终端102通过网络与服务器104进行通信。

具体地，终端102可以向服务器104发送视频生成请求，视频生成请求用于请求生成目标对象的推荐视频，推荐视频是用于介绍目标对象的视频。服务器104可以响应于视频生成请求，获取目标对象的内容描述文本，内容描述文本是对目标对象所表达的内容进行描述的信息，内容描述文本包括多个子文本，对于每个子文本，服务器104可以对子文本进行语义特征提取，得到子文本的文本语义特征，服务器104还可以获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频。服务器104还可以将生成的目标对象的推荐视频返回终端102。终端102可以播放目标对象的推荐视频，在播放推荐视频时，可以将目标图片和相匹配的子文本进行对应展示。

其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、智能电视、车载终端和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或云服务器来实现。

可以理解，上述应用场景仅是一种示例，并不构成对本申请实施例提供的视频生成方法的限定，本申请实施例提供的方法还可以应用在其他应用场景中，例如本申请提供的视频生成方法可以是由终端102执行的，终端102可以将生成的目标对象的推荐视频上传至服务器104，服务器104可以存储目标对象的推荐视频，也可以将目标对象的推荐视频转发至其他设备。

本申请提供的视频生成方法，可以应用于网络媒体领域中，例如网络媒体领域中可以利用本申请提供的视频生成方法对图片或文本进行处理。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的目标对象、内容描述文本、候选图片等数据都是在充分授权的情况下获取的。

本申请提供的视频生成可以是基于人工智能的，例如，本申请中，可以是利用匹配度检测模型确定与文本语义特征与图片内容特征的匹配度，从而确定与文本语义特征相匹配的图片内容特征的。匹配度检测模型是基于人工智能的模型，例如为训练好的神经网络模型，用于确定文本的语义特征与图片内容特征之间的匹配度。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的人工神经网络等技术，具体通过如下实施例进行说明：

在一些实施例中，如图2所示，提供了一种视频生成方法，该方法可以由服务器或终端执行，也可以由终端和服务器共同执行，本申请实施例中，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤202，获取目标对象的内容描述文本；内容描述文本是对目标对象所表达的内容进行描述的信息；内容描述文本包括多个子文本。

其中，对象可以包括图片、视频或文本中的至少一种。文本包括但不限于是小说、诗句、词句、歌词、文章、网页中的文字、图片中的文字、视频中的文字或教科书中的文字等。目标对象可以是任意的对象。例如，目标对象可以是文本形式的，例如可以是小说。文本形式的目标对象也可以称为目标文本对象。

内容描述文本是对目标对象所表达的内容进行描述的信息，可以是目标对象中所记载的内容，也可以是未在目标对象中记载但与目标对象的内容相关的信息，例如可以是目标对象的摘要信息，或者用于介绍目标对象而概括总结出的信息。以目标对象为小说为例，内容描述文本可以包括小说的名称、小说中的段落、小说的摘要或小说的简介等中的至少一种。目标对象的内容描述文本可以是服务器中预先存储的，也可以是服务器从其他设备获取的。目标对象可以是待生成推荐视频的对象，推荐视频是用于介绍目标对象的视频。推荐视频中可以包括目标对象的内容描述文本。内容描述文本包括多个子文本。

具体地，内容描述文本可以是服务器响应于终端发送的视频生成请求而获取的。视频生成请求用于请求生成目标对象的推荐视频，视频生成请求中可以携带目标对象的标识，还可以携带目标对象的内容描述文本。当然，视频生成请求中也可以未携带目标对象的内容描述文本，服务器中可以预先存储有目标对象的内容描述文本。服务器接收到视频生成请求后，当视频生成请求中携带内容描述文本时，则服务器可以从视频生成请求中提取得到目标对象的内容描述文本，当视频生成请求中未携带内容描述文本时，服务器可以从本地获取目标对象的内容描述文本，当然，也可以从存有目标对象的内容描述文本的其他设备获取目标对象的内容描述文本。其中，目标对象的标识可以为目标对象的名称，例如，当目标对象为小说时，目标对象的标识可以为小说的名称。

在一些实施例中，子文本可以是对内容描述文本进行切分得到的。例如，服务器可以确定切分字符，将内容描述文本中的字符与切分字符进行对比，将对比一致的字符在内容描述文本中的位置确定为切分位置，在内容描述文本中的切分位置处，将内容描述文本进行切分，得到多个子文本。切分字符包括但不限于是逗号、句号或分号中的至少一种。服务器还可以获取已训练的语义分割模型，利用语义分割模型对内容描述文本进行切分，得到多个子文本。语义分割模型用于根据语义对信息进行分割，分割出的各个子文本具有一定的语义。

在一些实施例中，终端可以展示视频生成界面，视频生成界面中可以包括对象标识填充区域，对象标识填充区域用于获取对象标识，对象标识用于唯一识别对象。当终端接收到视频生成操作时，可以响应于视频生成操作，获取对象标识填充区域中填充的对象标识，基于对象标识生成视频生成请求，向服务器发送携带对象标识的视频生成请求。其中，视频生成界面中还可以包括视频生成控件，视频生成控件用于触发视频生成操作，当终端接收到对视频生成控件的触发操作时，确定接收到视频生成操作。对视频生成控件的触发操作包括但不限于是鼠标的点击操作或触摸操作。

在一些实施例中，视频生成界面中可以包括内容描述文本填充区域，内容描述文本填充区域用于获取内容描述文本，当终端接收到视频生成操作时，响应于视频生成操作，获取内容描述文本填充区域中填充的目标对象的内容描述文本、以及获取对象标识填充区域中填充的对象标识，生成携带内容描述文本以及对象标识的视频生成请求。推荐视频中可以包括内容描述文本或对象标识中的至少一种。

在一些实施例中，服务器接收到视频生成请求，响应于视频生成请求，从视频生成请求中获取对象标识，将对象标识所标识的对象确定为目标对象，获取目标对象的内容描述文本，对内容描述文本进行切分得到多个子文本，对于每个子文本，查询与该子文本相匹配的图片，基于各个子文本以及各个子文本的相匹配的图片生成目标对象的推荐视频，将目标对象的推荐视频返回终端。

在一些实施例中，终端接收到服务器返回的推荐视频并展示推荐视频。具体地，视频生成界面中还可以包括视频展示区域，终端可以将推荐视频展示在视频展示区域中。当然，终端可以在视频生成界面之外的界面中展示推荐视频。

举例说明，如图3中的(a)所示，视频生成界面302中展示了对象标识填充区域304、内容描述文本填充区域306以及视频生成控件308，对象标识填充区域304中填充的是一首古诗的名称即“悯农”，内容描述文本填充区域306中填充的是古诗“悯农”这首诗中的内容即“春种一粒粟，秋收万颗子。四海无闲田，农夫犹饿死。”。当终端接收到对视频生成控件308的点击操作时，终端响应于点击操作，生成包括“悯农”以及“春种一粒粟，秋收万颗子。四海无闲田，农夫犹饿死。”的视频生成请求，将该视频生成请求发送至服务器。服务器响应于视频生成请求，生成古诗“悯农”对应的推荐视频，将推荐视频返回终端，终端展示古诗“悯农”对应的推荐视频，以对古诗“悯农”进行介绍。如图3中的(b)所示，视频生成界面302中展示了视频展示区域310，并在视频展示区域310中展示了介绍古诗“悯农”的视频，介绍古诗“悯农”的视频即为服务器为古诗“悯农”生成的推荐视频。

步骤204，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征。

其中，文本语义特征是对子文本的语义进行特征提取所得到的特征。子文本的语义是指子文本中的内容所表达的含义。

具体地，服务器可以利用已训练的文本特征提取网络提取文本的语义特征，例如，可以将子文本输入到文本特征提取网络中进行语义特征的提取，得到子文本的文本语义特征。文本特征提取网络可以是人工神经网络，包括但不限于是Word2Vec网络或BERT网络中的任意一种。其中，BERT为Bidirectional Encoder Representations from Transformers的缩写，中文代表：基于transformer的双向编码器表示，BERT也可以称为双向的transformer的Encoder(编码器)。BERT是一个语言表示模型(language representationmodel)，BERT模型的目标是利用无标注语料训练、获得文本的包含丰富语义信息的Representation(文本的语义表示)，然后将文本的语义表示在特定NLP(Natural LanguageProcessing，自然语言处理)任务中作微调，最终应用于该NLP任务。BERT被设计成一个深度双向模型，使得神经网络更有效地从第一层本身一直到最后一层捕获来自目标词的左右上下文的信息，能实现语言表征目标训练，通过深度双向Transformer模型达到语义理解的目的。

如图4所示，展示了一个BERT的网络结构图。其中，编码器可以是TransformerBlock(Transformer模块)，输入特征1-输入特征N排列成的序列为一个句子中的每个词对应的特征排列成的序列，例如，输入特征1为句子中的第一词的对应的特征，输入特征1可以用E1表示，输入特征2可以用E2表示，输入特征N可以用EN表示，E为embedding的缩写。输出特征1-输出特征N为隐藏层输出的结果，输出特征1可以用T1表示，输出特征2可以用T2表示，输入特征N可以用TN表示。Transformer为了提高机器翻译的效率，使用了Self-Attention机制，模型可以并行化训练，能够拥有全局信息。Transformer是一个encoder(编码器)-decoder(解码器)的结构，由若干个编码器和解码器堆叠形成。如图5所示，展示了Transformer的网络结构。图5中展示了编码器以及解码器的结构。编码器包括多头注意力模块(Multi-Head Attention)，还包括求和以及归一化模块(Add&norm)、前馈神经网络(Feed Forward)，用于将输入语料转化成特征向量。解码器的输入为编码器的输出以及已经预测的结果，解码器包括掩码多头注意力模块(Masked Multi-Head Attention)、多头注意力模块(Multi-Head Attention)以及一个全连接组成，用于输出最后结果的条件概率。编码器以及解码器中还包括求和以及归一化模块、前馈神经网络“N×”中的N表示编码器或解码器中包括N个相同的模块。

在一些实施例中，已训练的文本特征提取网络可以是已训练的匹配度检测模型中的网络。匹配度检测模型用于确定文本的语义特征与图片内容特征之间的匹配度。图片内容特征是对图片中的内容进行语义特征提取所得到的特征。匹配度检测模型中可以包括匹配度计算网络，匹配度计算网络用于计算匹配度，服务器可以将子文本输入到匹配度检测模型中，利用匹配度检测模型中的文本特征提取网络对子文本进行语义特征的提取，得到文本语义特征，将文本语义特征以及图片内容特征输入到匹配度计算网络中，计算得到文本语义特征与图片内容特征之间的匹配度。

步骤206，获取从图片库的多个候选图片中分别提取的图片内容特征。

其中，图片库中包括多个候选图片，多个是指至少两个，图片库可以是服务器中预先存储的，也可以是服务器从其他设备获取的。每个候选图片对应有图片内容特征，候选图片与图片内容特征一一对应。候选图片对应的图片内容特征是对该候选图片进行语义特征的提取所得到的特征。图片内容特征可以是服务器中预先存储的，也可以是服务器从其他设备获取的，或者是服务器通过对候选图片中的内容进行语义特征的提取所得到的特征。图片内容特征用于反映图片所表达的语义，即所表达的含义。图片内容特征可以表征候选图片中包括的事物的特征，事物可以是生命的或者无生命的，包括但不限于是人、动物、植物或建筑物中的至少一种。

具体地，服务器可以利用已训练的图片特征提取网络，对候选图片进行语义特征的提取，得到候选图片的图片内容特征。图片特征提取网络可以是匹配度检测模型中的网络，也可以是独立于匹配度检测模型的网络。图片特征提取网络可以是人工神经网络，包括但不限于是ResNet(残差网络，residual network)或VGG网络，例如可以是VGG16或VGG19，VGG为Visual Geometry Group的缩写，中文含义为：视觉几何组。VGG16中的16代表含有参数的有16个层。VGG16共包含参数约为1.38亿。VGG16中全部使用3*3的小型卷积核和2*2的最大池化层。VGG网络探索了卷积神经网络的深度与其性能之间的关系，通过反复堆叠3*3的小型卷积核和2*2的最大池化层，构建了16～19层深的卷积神经网络，通过不断加深网络结构提升性能。卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图片处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成，同时也包括关联权重和池化层(pooling layer)。卷积神经网络可以用Conv表示，如表1所示，展示了VGG网络的网络配置表。

表1 VGG网络的网络配置表

表1中，A、A-LRN、B、C、D、E表示不同深度的网络配置(ConvNet Confinguration)，convx-y中x表示卷积核尺寸，y表示特征通道数，比如，conv3-256表示3×3的卷积核并且通道数为256。其中，D和E两种配置较为常见，分别称为VGG16和VGG19。表2为VGG16的结构表。

表2 VGG16网络的结构表

表2中，(224x224 RGB image)表示输入图片的尺寸为224x224x3，分类层例如可以是softmax层。VGG16中，卷积核的大小为3*3，卷积核的步长(s)为1，填充(padding)采用的same convolution，池化层为最大池化(maxpool)的卷积核为2*2，步长为2。VGG16的优点是简化了卷积神经网络的结构，缺点是训练的特征数量较大。随着网络加深，图片的宽度和高度都在以一定的规律不断减小。VGG16网络结构能够将整个图片生成特征向量(embedding向量)，最终所有的图片都映射成为了1000阶的embedding向量，然后共同组成图片embedding向量库。如图6所示，展示了VGG16的架构图，图6中，输入为224x224x3大小的图片，虚线部分为最大池化层，括号中的各个模块为全连接层和激活层组成的模块，最后一个模块为分类层，其余的实线的部分的模块为卷积层和激活层组成的模块。

在一些实施例中，文本特征提取网络以及图片特征提取网络可以是分别训练得到的，也可以是联合训练的。例如，联合训练时，服务器可以获取样本文本以及样本图片，将样本文本输入到待训练的文本特征提取网络中进行特征提取，得到样本文本的语义特征，将样本图片输入到待训练的图片特征提取网络中，提取得到样本图片的图片内容特征，计算样本文本的语义特征与样本图片的图片内容特征之间的匹配度，得到预测匹配度，获取样本文本的语义特征与图片内容特征之间的真实的匹配度，得到标准匹配度，基于预测匹配度与标准匹配度之间的差值，调整文本特征提取网络以及图片特征提取网络的参数，直到文本特征提取网络以及图片特征提取网络收敛，得到已训练的文本特征提取网络以及已训练的图片特征提取网络。

步骤208，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片。

其中，文本语义特征与图片内容特征之间的匹配度，用于反映文本语义特征与图片内容特征之间的相似程度，匹配度越大，则越相似。目标图片是指与子文本相匹配的候选图片。例如，子文本为“为妈妈梳头”，则目标图片可以是包括“妈妈”、“子女”以及“头发”的图片。每个子文本的目标图片可以为一个或多个。不同的子文本相匹配的目标图片可以相同也可以不同。

具体地，图片内容特征为多个，对于每个子文本，对于每个子文本，服务器可以计算该子文本的文本语义特征与每个图片内容特征之间的匹配度，从而得到每个图片内容特征分别与文本语义特征之间的匹配度，从各个图片内容特征中确定匹配度满足匹配度较大条件的图片内容特征，将匹配度满足匹配度较大条件的图片内容特征确定为匹配内容特征，将匹配内容特征对应的候选图片确定为该子文本相匹配的目标图片。其中，匹配度较大条件可以包括匹配度最大或匹配度大于匹配度阈值中的至少一个。匹配度阈值可以预设或根据需要设置。例如，服务器可以将匹配度最大的图片内容特征对应的候选图片确定为目标图片。

在一些实施例中，服务器可以计算文本语义特征与图片内容特征之间的相似度，基于计算出的相似度确定文本语义特征与图片内容特征之间的匹配度，匹配度与相似度成正相关关系。例如，服务器可以将相似度确定为匹配度。其中，相似度例如可以是余弦相似度。

在一些实施例中，服务器可以计算文本语义特征与图片内容特征空间距离，基于计算出的空间距离确定匹配度。空间距离例如为余弦距离。余弦距离等于1减去余弦相似度所得到的结果。匹配度与空间距离成负相关关系。

其中，正相关关系指的是：在其他条件不变的情况下，两个变量变动方向相同，一个变量由大到小变化时，另一个变量也由大到小变化。可以理解的是，这里的正相关关系是指变化的方向是一致的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。例如，可以设置当变量a为10至20时，变量b为100，当变量a为20至30时，变量b为120。这样，a与b的变化方向都是当a变大时，b也变大。但在a为10至20的范围内时，b可以是没有变化的。负相关关系指的是：在其他条件不变的情况下，两个变量变动方向相反，一个变量由大到小变化时，另一个变量由小到大变化。可以理解的是，这里的负相关关系是指变化的方向是相反的，但并不是要求当一个变量有一点变化，另一个变量就必须也变化。

步骤210，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示。

其中，推荐视频是基于各个子文本以及各个子文本的目标图片合成的视频。目标图片相匹配的子文本根据子文本与目标图片的匹配关系确定，当子文本与目标图片相匹配时，则目标图片与子文本也相匹配。例如，子文本1与目标图片A相匹配，则目标图片A相匹配的子文本包括子文本1。

具体地，对于每个子文本，服务器可以基于该子文本以及该子文本的相匹配的目标图片生成该子文本相匹配的视频片段，将各个子文本分别相匹配的视频片段进行拼接，合成目标对象的推荐视频。子文本相匹配的视频片段中可以包括该子文本以及该子文本相匹配的目标图片。其中，在生成子文本的相匹配的视频片段时，服务器可以基于子文本相匹配的目标图片进行视频编码，得到视频片段中的画面内容，并将子文本确定为视频片段中的文本，从而生成视频片段，例如，可以将子文本确定为该子文本相匹配的视频片段中的字幕或者弹幕中的任意一种，并确定子文本的展示时间与相匹配的视频片段中的画面的播放时间相同，从而当推荐视频播放时，可以在播放视频片段的同时展示相匹配的子文本。

在一些实施例中，服务器可以将各个子文本分别相匹配的目标图片进行视频编码，得到推荐视频中的画面，并将内容描述文本确定为推荐视频中的文本，例如，可以将内容描述文本确定为推荐视频中的字幕或者弹幕中的任意一种，并确定内容描述文本的展示时间与推荐视频中的画面的播放时间相同，从而当推荐视频中的画面播放时，可以同步展示相匹配的子文本。

在一些实施例中，服务器合成推荐视频后，可以将推荐视频发送至终端，终端可以播放推荐视频，在播放推荐视频的过程中，当播放到基于目标图片生成的画面时，同步展示目标图片相匹配的子文本。

在一些实施例中，对于每个子文本，服务器可以将与子文本相匹配的目标图片进行视频转换，得到子文本相匹配的视频片段，按照子文本在内容描述文本中的排序，对子文本匹配的视频片段依次进行拼接，并按照各视频片段的播放时间确定相匹配的子文本的展示时间，以合成目标对象对应的推荐视频。其中，播放时间是指播放视频片段的时间。展示时间是指展示子文本的时间。子文本在内容描述文本中的位置越靠前，则子文本的展示时间越靠前，且子文本相匹配的视频片段的播放时间越靠前。子文本的展示时间与子文本相匹配的视频片段的播放时间相同。服务器可以将子文本确定为该子文本相匹配的视频片段的字幕或者弹幕中的任意一种。在播放推荐视频时，当播放到子文本相匹配的视频片段时，则同时展示该子文本。

在一些实施例中，服务器可以利用视频合成工具合成推荐视频。视频合成工具用于合成视频。例如可以为ffmpeg。其中，ffmpeg为一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是从头开发的。

在一些实施例中，服务器可以将内容描述文本转换成语音数据，在播放推荐视频中的画面的同时，播放内容描述文本转换成的语音数据。或者，服务器可以分别对各个子文本转换为语音片段，在展示子文本的过程中，播放该字文本转换为的语音片段。

在一些实施例中，服务器可以基于目标对象的对象标识、各个子文本以及各个子文本分别相匹配的目标图片，合成目标对象的推荐视频。推荐视频在播放时，可以展示对象标识。当目标对象为小说时，对象标识可以为小说的名称。

举例说明，以目标对象为小说为例进行说明，内容描述文本例如为小说的简介信息，如图7所示，展示了生成的推荐视频的效果图，图7展示了为小说《孝顺》生成的推荐视频，小说的简介信息包括“为妈妈梳头发”。图7中展示的画面中包括一名男子为母亲梳头发的场景，画面的内容与文本“为妈妈梳头发”所表达的内容相匹配的。

上述视频生成方法中，获取目标对象的内容描述文本，内容描述文本包括多个子文本，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征，获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频，推荐视频在播放时将目标图片和相匹配的子文本进行对应展示。由于内容描述文本是对目标对象所表达的内容进行描述的信息，子文本为内容描述文本中的文本，图片内容特征是从候选图片中提取的特征，因此，当图片内容特征与文本语义特征匹配时，子文本与候选图片所表达的内容匹配即相似度较高，实现了文本与图片的自动匹配，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。

在一些实施例中，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示的步骤包括：对于每个子文本，基于子文本相匹配的目标图片确定子文本对应的目标视频帧；将子文本叠加到对应的目标视频帧中，得到待编码视频帧；对各个待编码视频帧进行视频编码，生成子文本对应的视频片段；按照子文本在内容描述文本中的排序，对各个子文本对应的视频片段进行拼接，生成目标对象的推荐视频；推荐视频在播放时，将子文本与子文本对应的视频片段对应展示。

其中，子文本对应的目标视频帧是根据子文本相匹配的目标图片得到的。目标视频帧有多个，目标视频帧的数量可以预设或根据需要设置。各个目标视频帧可以相同，也可以不同，例如，当子文本相匹配的目标图片为一个时，各个目标视频帧可以均为子文本的目标图片。

具体地，服务器可以将子文本相匹配目标图片确定为子文本对应的目标视频帧。或者，服务器可以对目标图片的尺寸或者像素进行调整，将调整后所得到的图片确定为子文本的目标视频帧。每个目标图片可以得到一个或多个目标视频帧。子文本对应的各个目标视频帧中可以包括子文本相匹配的目标图片或者对该目标图片进行调整后所得到的图片中的至少一个。

在一些实施例中，对于每个子文本，服务器可以将该子文本分别叠加到每个该子文本对应的目标视频帧中，叠加后得到待编码视频帧。每个目标视频帧确定一个待编码视频帧。得到子文本的各个待编码视频帧后，对各个待编码视频帧进行视频编码，得到各个待编码视频帧分别对应的编码后的视频帧，基于各个编码后的视频帧得到该子文本对应的视频片段，该视频片段中包括各个编码后的视频帧。待编码视频帧以及编码后的视频帧与子文本在语义上是相匹配的。

在一些实施例中，服务器生成各个子文本分别对应的视频片段后，按照各个子文本在内容描述信息中的排序，对各个子文本对应的视频片段进行拼接，将拼接所得到的视频确定为目标对象的推荐视频。其中，子文本在内容描述信息中的排序越靠前，则子文本对应的视频片段在推荐视频中的播放顺序越靠前。

本实施例中，对于每个子文本，基于子文本相匹配的目标图片确定子文本对应的目标视频帧，将子文本叠加到对应的目标视频帧中，得到待编码视频帧，对各个待编码视频帧进行视频编码，生成子文本对应的视频片段，按照子文本在内容描述文本中的排序，对各个子文本对应的视频片段进行拼接，生成目标对象的推荐视频，从而提高了推荐视频中子文本与该子文本相匹配的视频画面在时间上的一致性。

在一些实施例中，子文本有多个相匹配的目标图片；对于每个子文本，基于子文本相匹配的目标图片确定子文本对应的目标视频帧包括：对于子文本相匹配的多个目标图片，按照多个目标图片的图片内容特征与子文本的文本语义特征之间的匹配度，对多个目标图片进行排列，得到目标图片序列；基于目标图片序列确定子文本对应的视频帧序列；视频帧序列中包括多个目标视频帧；将子文本叠加到对应的目标视频帧中，得到待编码视频帧包括：将子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列；待编码视频帧序列中包括多个待编码视频帧。

具体地，对于每个子文本，服务器可以按照目标图片的图片内容特征与子文本的文本语义特征之间的匹配度，对该子文本的各个目标图片进行排列，将匹配度较大的目标图片排列在匹配度较小的目标图片之前，得到目标图片序列。目标图片的图片内容特征与子文本的文本语义特征之间的匹配度越大，则目标图片在目标图片序列中的排序越靠前。

在一些实施例中，对于目标图片序列中的每个目标图片，基于该目标图片生成多个目标视频帧，将由该目标图片生成的多个目标视频帧排列成视频帧子序列，排列顺序可以根据需要设置，这里不限制。从而每个目标图片对应有一个视频帧子序列，服务器可以按照目标图片在目标图片序列中的排序，将各个视频帧子序列进行拼接，得到视频帧序列，目标图片在目标图片序列中的位置越靠前，则视频帧子序列在视频帧序列中的位置越靠前。

在一些实施例中，服务器可以将子文本叠加到由该子文本的目标图片得到的视频帧序列中的每个目标视频帧中，将叠加了子文本后的目标视频帧确定为待编码视频帧，按照目标视频帧在视频帧序列中的排序，对各个目标视频帧得到的待编码视频帧进行排列，得到待编码视频帧序列，服务器可以对待编码视频帧序列进行视频编码，生成子文本对应的视频片段。

本实施例中，按照多个目标图片的图片内容特征与子文本的文本语义特征之间的匹配度，对多个目标图片进行排列，得到目标图片序列，基于目标图片序列确定子文本对应的视频帧序列，视频帧序列中包括多个目标视频帧，将子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列，待编码视频帧序列中包括多个待编码视频帧。从而可以使得生成的视频片段中与文本匹配度较高的画面展示在前，提高了视频画面与文本在语义上的一致性。

在一些实施例中，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示包括：按照各子文本在内容描述文本中的排序，确定各子文本相匹配的目标图片分别对应的播放时间；针对每个目标图片对应的播放时间，将目标图片相匹配的子文本与播放时间之间建立对应关系；将各目标图片按照相应的播放时间进行视频转换，以生成目标对象的推荐视频；推荐视频在播放时，将对应于同一播放时间的目标图片和子文本进行对应展示。

其中，每个子文本可以对应有一个目标图片。目标图片对应的播放时间与推荐视频中由目标图片生成的多个视频帧在该推荐视频中的播放时间一致。

具体地，子文本在内容描述文本中的排序越靠前，则子文本相匹配的目标图片的播放时间越靠前。播放时间是指在推荐视频中播放的时间。服务器确定各个目标图片的播放时间后，按照播放时间对各个目标图片进行视频转换，合成目标推荐视频，例如，服务器可以基于播放时间对应的时长，确定该播放时间内需要播放的视频帧的数量，将该数量作为帧数量，基于子文本相匹配的各个目标图片生成帧数量的目标视频帧，对该帧数量的目标视频帧进行视频编码，生成该子文本对应的视频片段，将各个子文本的视频片段按照播放时间拼接得到推荐视频。

在一些实施例中，每个子文本对应有一个目标图片，对于每个子文本，可以基于播放时间确定该子文本的各个目标视频帧对应的播放时间点，从而可以按照播放时间点，对所有的子文本的目标视频帧进行排列，得到视频帧序列，播放时间点越靠前，则目标视频帧在视频帧序列中的排序越靠前，服务器可以对视频帧序列进行编码，生成推荐视频。播放时间点是指在推荐视频中呈现的时间点。其中，生成目标视频帧的步骤可以参考上述生成目标视频帧的步骤，目标视频帧中可以包括子文本。推荐视频在播放时，由目标图片生成的视频帧与同一播放时间的子文本同步展示，例如，目标图片A与子文本1相匹配，则目标图片A生成的视频帧在推荐视频中的播放时间为T，则子文本1在推荐视频中的展示时间为T。本实施例中，按照各子文本在内容描述文本中的排序，确定各子文本相匹配的目标图片分别对应的播放时间，针对每个目标图片对应的播放时间，将目标图片相匹配的子文本与播放时间之间建立对应关系，将各目标图片按照相应的播放时间进行视频转换，以生成目标对象的推荐视频，从而可以使得由目标图片生成的视频帧和同一播放时间的子文本同步播放，提高了推荐视频中相同语义的文本与画面在时间上的一致性。

在一些实施例中，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示包括：获取目标音频；结合各目标图片相匹配的子文本以及目标音频对各目标图片进行视频编码，得到编码视频；将编码视频与目标音频进行合并，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示，并同步播放目标音频。

其中，目标音频可以是预设的，也可以是根据需要选取的，例如可以从候选音频集合中选取的，或者，可以是由内容描述文本转换成的语义数据。

具体地，对于每个子文本，基于子文本相匹配的目标图片确定子文本对应的目标视频帧，将子文本叠加到对应的目标视频帧中，得到待编码视频帧，对各个待编码视频帧进行视频编码，生成子文本对应的视频片段，按照子文本在内容描述文本中的排序，对各个子文本对应的视频片段进行拼接，生成编码视频，将编码视频与目标音频进行合并，生成目标对象的推荐视频。推荐视频中包括该目标音频，播放推荐视频中的画面以及文本时，同步播放该目标音频。

在一些实施例中，服务器可以获取候选音频集合，候选音频集合中包括多个候选音频，服务器可以从候选音频集合中选取出目标音频。具体地，服务器可以根据候选音频的热度选取候选音频，例如，可以选取出热度最大的候选音频作为目标音频。

本实施例中，获取目标音频，结合各目标图片相匹配的子文本以及目标音频对各目标图片进行视频编码，得到编码视频，将编码视频与目标音频进行合并，生成目标对象的推荐视频，推荐视频在播放时将目标图片和相匹配的子文本进行对应展示，并同步播放目标音频，提高了合成的视频包含的媒体数据的丰富度。

在一些实施例中，获取目标音频包括：获取候选音频集合，确定候选音频集合中的各个候选音频的音频风格；确定子文本的文本风格以及目标图片的图片风格；基于音频风格与文本风格之间的相似度、以及音频风格与图片风格之间的相似度，从候选音频集合中筛选得到目标音频。

其中，候选音频集合中包括多个候选音频。候选音频集合可以是预先存储在服务器中，也可以是服务器从其他设备获取的。音频风格用于表征音频所表达的情感类型。文本风格用于表征子文本所表达的情感类型。图片风格用于表征目标图片所表达的情感类型。情感类型包括但不限于是平静、激动、欢快等中的至少一种，目标音频是指音频风格与文本风格以及图片风格一致的候选音频。候选音频可以为多个。

具体地，每个子文本相匹配的目标图片为一个，对于每个子文本，服务器可以将候选音频的音频风格与该子文本的文本风格进行对比，确定对比一致的各个候选音频，组成第一音频集合，对于第一音频集合中的每个候选音频，将该候选音频的音频风格与该子文本相匹配的目标图片的图片风格进行对比，当对比一致时，将该候选音频确定为与该子文本对应的匹配音频。服务器可以从各个子文本对应的匹配音频中筛选得到目标音频。例如，可以将各个子文本对应的匹配音频中的任意一个确定为目标音频。

本实施例中，获取候选音频集合，确定候选音频集合中的各个候选音频的音频风格；确定子文本的文本风格以及目标图片的图片风格；基于音频风格与文本风格之间的相似度、以及音频风格与图片风格之间的相似度，从候选音频集合中筛选得到目标音频，从而用音频强化了子文本以及目标图片所要表达的情感，提高了推荐视频的表达能力。

在一些实施例中，获取目标音频包括：将内容描述文本进行语音转换，得到内容描述文本对应的语音数据；将内容描述文本对应的语音数据，确定为目标音频。

具体地，服务器可以将内容描述文本进行语音转换，将内容描述文本转换为语音数据。例如，服务器可以获取内容描述文本中各个音素分别对应的音素特征，利用各个音频特征合成内容描述文本的语音数据。或者，服务器可以获取内容描述文本对应的梅尔声谱图，利用梅尔声谱图合成内容描述文本的语音数据。

在一些实施例中，服务器可以分别对内容描述文本划分得到的各个子文本进行语音转换，得到各个子文本分别对应的语音片段，将各个语音片段进行片接，得到目标音频。

本实施例中，将内容描述文本进行语音转换，得到内容描述文本对应的语音数据，将内容描述文本对应的语音数据，确定为目标音频，从而采用文字、图片以及语音的方式对目标对象进行介绍，提高了推荐视频的表达能力。

在一些实施例中，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片包括：针对每个子文本，计算子文本的文本语义特征分别与每个图片内容特征之间的匹配度，得到子文本对应的各个特征匹配度；基于子文本对应的各个特征匹配度，从各个图片内容特征中过滤掉特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个图片内容特征确定为第一图片内容特征；从各个第一图片内容特征对应的候选图片中，确定与子文本相匹配的目标图片。

其中，特征匹配度是指文本语义特征与图片内容特征之间的匹配度。匹配度阈值可以预设或者根据需要设置。第一图片内容特征是对各个图片内容特征进行过滤后所剩余的图片内容特征。第一图片内容特征可以有多个。

具体地，图片内容特征有多个，每个图片内容特征对应不同的候选图片，对于每个子文本，服务器可以计算该子文本的文本语义特征与每个图片内容特征之间的匹配度，得到多个特征匹配度，将特征匹配度与匹配度阈值进行对比，当特征匹配度小于匹配度阈值时，将该特征匹配度对应的图片内容特征确定为待过滤的图片内容特征。确定各个待过滤的图片内容特征后，服务器可以从各个图片内容特征中过滤掉各个待过滤的图片内容特征，将过滤后剩余的各个图片内容特征分别确定为第一图片内容特征。

在一些实施例中，服务器可以从各个第一图片内容特征对应的候选图片中选取得到目标图片，例如可以将各个第一图片内容特征对应的候选图片中的任意一个作为目标图片。或者，可以基于子文本的文本语义特征，从各个第一图片内容特征对应的候选图片中筛选得到目标图片。

本实施例中，计算子文本的文本语义特征分别与每个图片内容特征之间的匹配度，得到子文本对应的各个特征匹配度，基于子文本对应的各个特征匹配度，从各个图片内容特征中过滤掉特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个图片内容特征确定为第一图片内容特征，从各个第一图片内容特征对应的候选图片中，确定与子文本相匹配的目标图片，从而可以减少将匹配度低的候选图片作为子文本相匹配的目标图片的情况，提高了图片筛选的准确性。

在一些实施例中，从各个第一图片内容特征对应的候选图片中，确定与子文本相匹配的目标图片包括：确定子文本的邻近子文本；子文本与邻近子文本在内容描述文本中相邻；计算子文本的文本语义特征与邻近子文本的文本语义特征之间的差异，得到特征差异信息；计算第一图片内容特征与特征差异信息之间的相似度，将相似度大于相似度阈值的第一图片内容特征对应的候选图片，确定为与子文本相匹配的目标图片。

其中，子文本的邻近子文本是指在内容描述文本中与该子文本在位置上相邻的子文本，邻近子文本可以包括在前子文本或者在后子文本中的至少一种。在前子文本是指位于该子文本之前、且与该子文本相邻的子文本。在后子文本是指位于该子文本之后、且与该子文本相邻的子文本。特征差异信息是指子文本的文本语义特征与邻近子文本的文本语义特征之间的差异。特征差异信息反映了文本语义特征之间在语义上的区别，从而可以反映出子文本表达的但邻近子文本并未表达的信息。例如，子文本中包括“书包”，而邻近子文本中不包括“书包”，则特征差异信息中可以体现出“书包”的信息。

具体地，服务器可以按照子文本在内容描述文本中的位置，对各个子文本进行排列，得到子文本序列，子文本在内容描述文本中的位置越靠前，则子文本在子文本序列中的排序越靠前。对于每一个子文本，服务器可以从子文本序列中，获取排列在该子文本之前且与该子文本相邻的子文本，作为该子文本的在前子文本。服务器可以从子文本序列中，获取排列在该子文本之后且与该子文本相邻的子文本，作为该子文本的在后子文本，将在前子文本或者在后子文本中的至少一个确定为该子文本的邻近子文本。

在一些实施例中，服务器可以将文本语义特征与邻近子文本的文本语义特征进行差值计算，将计算的结果确定为特征差异信息。例如，对于每个子文本，服务器可以获取子文本的在前子文本的文本语义特征，将该在前子文本的文本语义特征确定为在前文本语义特征，获取子文本的在后子文本的文本语义特征，将该在后子文本的文本语义特征确定为在后文本语义特征，将该子文本的文本语义特征与在前子文本的文本语义特征进行差值计算，得到在前差异信息，将该子文本的文本语义特征与在后子文本的文本语义特征进行差值计算，得到在后差异信息，将在前差异信息以及在后差异信息确定为特征差异信息，即特征差异信息包括在前差异信息以及在后差异信息。

在一些实施例中，对于每一个图片内容特征，服务器可以计算第一图片内容特征与在前差异信息之间的相似度，得到在前相似度，计算第一图片内容特征与在后差异信息之间的相似度，得到在后相似度，当满足在前相似度大于相似度阈值或者在后相似度大于相似度阈值中的至少一种时，将该第一图片内容特征对应的候选图片确定为子文本相匹配的目标图片。

本实施例中，确定子文本的邻近子文本，子文本与邻近子文本在内容描述文本中相邻，计算子文本的文本语义特征与邻近子文本的文本语义特征之间的差异，得到特征差异信息，计算第一图片内容特征与特征差异信息之间的相似度，将相似度大于相似度阈值的第一图片内容特征对应的候选图片，确定为与子文本相匹配的目标图片。由于特征差异信息反映了文本语义特征之间在语义上的区别，从而可以反映出子文本表达的但邻近子文本并未表达的信息，因此，当第一图片内容特征与特征差异信息之间的相似度大于相似度阈值时，第一图片内容特征对应的候选图片中包括子文本表达出而邻近子文本未表达出的信息，从而使得选出的目标图片不仅与子文本相匹配还可以体现出子文本所特有的信息，提高了筛选出的图片的表达能力。

在一些实施例中，对子文本进行语义特征提取，得到子文本的文本语义特征包括：对子文本进行分词处理，得到多个词片段；对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征；对各个词片段的词语义特征进行特征融合，得到子文本的文本语义特征。

其中，词片段是指由词构成的片段，每个词可以包括一个或多个汉字，每个词也可以包括一个或多个英文单词。每个词片段可以包括一个词或多个词。词语义特征是对词片段进行语义特征的提取所得到的特征。

具体地，服务器可以获取词库，基于词库对子文本进行分词处理，得到多个词片段，词库中包括多个词，服务器可以将子文本中的与词库中的词相同的部分划分为一个词片段，从而得到多个词片段。

在一些实施例中，服务器可以将词片段输入到文本特征提取网络中进行语义特征的提取，得到词片段的词语义特征。

在一些实施例中，服务器得到各个词片段的词语义特征，对各个词语义特征进行统计运算，将统计运算的结果作为子文本的文本语义特征。其中，统计运算包括但不限于是均值运算、最值运算或加权计算中的任意一种。例如，可以对各个词语义特征进行加权计算，将加权计算的结果作为子文本的文本语义特征。

在一些实施例中，服务器可以获取已训练的特征融合网络，将各个词片段的词语义特征输入到特征融合网络进行特征融合，得到子文本的文本语义特征。例如，服务器可以按照词片段在子文本中的位置，对各个词片段的词语义特征进行排列，得到词语义特征序列，词片段在子文本中的位置越靠前，则词片段的词语义特征在词语义特征序列中的排序越靠前。将词语义特征序列输入到特征融合网络进行特征融合，得到子文本的文本语义特征。其中，特征融合网络用于对特征进行融合，可以是人工神经网络，包括但不限于是单向LSTM网络或双向LSTM网络中的任意一种。其中，LSTM为Long short-term memory的英文缩写，中文含义是：长短期记忆。图8中展示了一种特征融合网络，词语义特征序列为特征融合网络的输入数据，文本语义特征为特征融合网络的输出数据，将词语义特征序列输入到特征融合网络中进行特征融合，融合得到文本语义特征。

本实施例中，对子文本进行分词处理，得到多个词片段，对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征，对各个词片段的词语义特征进行特征融合，得到子文本的文本语义特征，在确定文本语义特征的过程中充分考虑了子文本中的各个词，提高了文本语义特征的准确度。

在一些实施例中，目标对象为目标文本对象；内容描述文本，是目标文本对象所描述的内容的摘要描述信息；推荐视频，是用于对目标文本对象进行介绍的视频。

其中，目标文本对象是指文本形式的对象，包括但不限于是小说、诗、技术类的文章等中的至少一种。例如，目标文本对象为小说。目标文本对象所描述的内容包括但不限于是与场景相关的内容、与故事情节相关的内容、与人物角色相关的内容、与地点相关的内容等中的至少一种。摘要描述信息是对目标文本对象所描述的内容进行概述的信息，摘要描述信息中可以包括目标文本对象中的人物、地点、故事情节、故事发生的时间或气候等中的至少一种。推荐视频可以作为对目标文本对象进行介绍的视频，例如当目标文本对象为小说时，推荐视频可以为宣传或介绍小说的视频，也可以称为小说宣传视频。

本实施例中，目标对象为目标文本对象，内容描述文本，是目标文本对象所描述的内容的摘要描述信息，推荐视频，是用于对目标文本对象进行介绍的视频，从而自动的生成了用于对目标文本对象进行介绍的视频，提高了多媒体数据的处理效率。

本申请还提供一种应用场景，该应用场景应用上述的视频生成方法。该应用场景为生成小说宣传视频的场景，具体地，如图9所示，该视频生成方法在该应用场景的应用如下：

步骤902，终端向服务器发送视频生成请求，视频生成请求中携带小说的摘要描述信息。

步骤904，服务器对摘要描述信息进行切分，得到多个子文本，分别对各个子文本进行语义特征提取，得到各个子文本分别对应的文本语义特征。

如图10所示，展示了一个生成视频的原理图。图中，文本特征生成网络也可以称为文本的embedding网络。图片特征提取网络也可以称为图片的embedding网络。视频生成模块也可以称为小说视频生成模块。图10中的子文本1～子文本n为对小说的摘要描述信息进行切分所得到的n个子文本，当按照句号切分时，每个子文本为摘要描述信息中的一句话。服务器将子文本输入到文本特征生成网络中，生成各个子文本分别对应的文本语义特征，图中的文本语义特征1～文本语义特征n为子文本1～子文本n对应的语义特征，文本语义特征i为子文本i的语义特征，1≤i≤n。

其中，文本特征生成网络可以包括文本特征提取网络以及文本特征融合网络，文本特征提取网络例如可以是bert网络，文本特征融合网络例如可以是双向的LSTM网络。服务器可以对子文本进行分词处理，得到多个词片段，将词片段输入到文本特征提取网络中提取得到词片段的词语义特征。将各个词片段的词语义特征排列得到词语义特征序列，将词语义特征序列输入到文本特征融合网络中进行融合，得到子文本的文本语义特征。例如，可以将bert网络输出的embedding序列输入到双向的LSTM中，然后提取其前向输出的隐藏状态和后向输出的隐藏状态，拼接成为最终的文本embedding向量即文本语义特征。

步骤906，服务器从图片内容特征库中，确定每个文本语义特征分别相匹配的图片内容特征。

其中，图片内容特征库中包括多个图片内容特征。服务器可以对图片库中的每个候选图片进行语义特征的提取，得到每个候选图片的图片内容特征，将图片库中的各个候选图片分别对应的图片内容特征。组成图片内容特征库。如图11所示，候选图片1～候选图片n为图片库中的各个候选图片，将候选图片输入到图片特征提取网络中，提取得到图片内容特征，组成图片内容特征库，图片内容特征1～图片内容特征n为候选图片1～候选图片n对应的图片内容特征。图片内容特征i为候选图片i的图片内容特征。图中的图片特征提取网络例如可以为VGG16网络。

服务器可以利用匹配模块，计算文本语义特征与图片内容特征之间的匹配度，根据匹配度确定与文本语义特征相匹配的图片内容特征。匹配模块用于计算文本的语义特征与图片内容特征之间的匹配度。匹配模块可以是已训练的人工神经网络，如图12所示，展示了匹配模块，匹配模块包括第一全连接层(fully connected layers，FC)、第二全连接层以及归一化层，归一化层例如可以是softmax层。第一全连接层用于将文本语义特征与图片内容特征的维度转为同一个维度的特征。匹配模块也可以称为多模态匹配模块。其中，多模态可以是描述同一对象的多媒体数据。例如，互联网环境下，描述某一特定对象的视频、图片、语音、文本等信息。多模态还可以指来自不同传感器的同一类媒体数据。例如可以是医学影像学中不同的检查设备所产生的图片数据，包括但不限于是B超(B-Scanultrasonography)、计算机断层扫描(CT)、核磁共振等。多模态还可以是物联网背景下不同传感器所检测到的同一对象数据等。多模态的信息具有不同的数据结构特点、表示形式的表意符号与信息。

服务器可以将文本语义特征和图片内容特征输入到第一全连接层中进行维度的变换，生成变换维度后的文本语义特征以及变换维度后的图片内容特征，其中，文本语义特征以及图片内容特征可以分别对应有一个第一全连接层。

服务器可以将变换维度后的文本语义特征与变换维度后的图片内容特征进行拼接，得到拼接特征，拼接特征的维度为变换维度后的文本语义特征的维度的两倍，将拼接特征输入到第二全连接层中，将第二全连接层输出的特征输入到归一化层，将归一化层的输出确定为文本语义特征与图片内容特征之间的匹配度。匹配度可以直接量化到0到1的概率。

匹配模块可以是基于样本图片内容特征以及样本文本语义特征训练得到的。具体地，服务器可以将样本图片内容特征以及样本文本语义特征输入到匹配模块中，得到匹配模块输出的匹配度，作为样本图片内容特征与样本文本语义特征之间的预测匹配度，获取样本图片内容特征与样本文本语义特征之间的真实的匹配度，作为目标匹配度，基于朝着使得预测匹配度与目标匹配度之间的差异值变小的方向，调整匹配模块的参数，得到已训练的匹配模块。

文本特征生成网络、图片特征提取网络以及匹配模块可以是联合训练的，也可以是独立训练的，文本特征生成网络、图片特征提取网络以及匹配模块可以是匹配度检测模型中的网络或模块。

步骤908，对于每个子文本，服务器从图片库中获取子文本的文本语义特征相匹配的图片内容特征所对应的候选图片，作为子文本相匹配的目标图片。

步骤910，对于每个子文本，基于子文本以及与该子文本相匹配的目标图片，合成该子文本相匹配的视频片段。

其中，服务器可以将子文本叠加到目标图片上，得到新的图片，可以对新的图片加上图片转场特效生成视频片段，然后对多条视频片段进行合并，最终生成小说宣传视频。例如，服务器可以利用ffmpeg对目标图片加入特效并生成视频片段。特效包括渐变或平移等中的至少一种。

步骤912，将各个子文本相匹配的视频片段进行拼接，生成小说宣传视频，并将各个子文本作为小说宣传视频中相匹配的视频片段的字幕。

其中，服务器可以将视频片段进行拼接并通过加字幕的方式将每个视频片段与子文本相对应，然后resize(调整尺寸)成为竖屏视频，最终生成小说宣发视频或小说宣传视频。

步骤914，服务器将小说宣传视频返回终端。

步骤916，终端播放小说宣传视频，在播放到视频片段中的画面的同时，展示与该视频片段相匹配的子文本。

上述视频生成方法中，自动获取了与小说的摘要描述信息切分得到的子文本相匹配的目标图片，并自动生成了小说宣传视频，提高了生成小说宣传视频的效率。

本申请提供的视频生成方法，使用embedding多模态匹配的方法，实现了文本和图片之间关联度多模态匹配的功能。

本申请提供的视频生成方法，可以用于为站内版权小说智能生成宣传视频，投放到短视频平台上进行为小说及小说平台进行拉新拉活。通过多模态匹配的方法，使用小说的简介文本或者概括文本，去事先准备好的图片库中进行多个图片文本得匹配，然后加上图片转场特效组合拼接生成整个小说宣传视频，同时在每个子视频片段的画面上加入小说简介文本，用于对小说内容进行简略的介绍。

本申请提供的视频生成方法，实现了一种全自动化的多模态匹配方法，节省了生成小说宣传视频的成本与制作时间，可以让整个链路形成工业化生产体系，高效快速的生成大批量视频。该方法使用多模态融合的模型进行文本与图片的匹配，减少了因为人工挑选中主观感受的原因造成文本图片匹配度不够的现象。通过使用VGG网络，提前让所有的图片进入到VGG网络模型中，建立成图片的embedding库，同时建立embedding与图片的映射，能够让每次匹配的过程中，文本与库中全量图片进行匹配搜索，提升了文本与最终确定的图片的匹配度。

本申请提供的视频生成方法中，可以使用embedding来作为多模态匹配的介质，使用bert提取文本embedding和通过使用VGG提取图片embedding，然后组建与图片库相对应的图片embedding库，相对于标签存储来说，每个图片都能够更加离散化，因为在进行图片embedding提取过程中，每个图片相当于分配了一个自己的id(标识)，一个id只对应一张图片的语义，所以不会造成一张图片的标签相悖。可以使用两个embedding通过计算距离来进行多模态的匹配融合，可以直接在整个图片embedding库中找到与文本信息最为匹配的图片，同时也是在语义上距离计算最小的，相对于标签匹配来说，该种多模态模型匹配的方案更能够精准的对应映射文本到图片，精确的匹配出top1，让生成的小说视频和小说文本在内容上更匹配。

应该理解的是，虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的视频生成方法的视频生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频生成装置实施例中的具体限定可以参见上文中对于视频生成方法的限定，在此不再赘述。

在一些实施例中，如图12所示，提供了一种视频生成装置，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：文本获取模块1202、文本特征提取模块1204、图片特征提取模块1206、图片确定模块1208和视频生成模块1210，其中：文本获取模块1202，用于获取目标对象的内容描述文本；内容描述文本是对目标对象所表达的内容进行描述的信息；内容描述文本包括多个子文本。文本特征提取模块1204，用于对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征。图片特征提取模块1206，用于获取从图片库的候选图片中提取的图片内容特征。图片确定模块1208，用于针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片。视频生成模块1210，用于结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示。

上述视频生成装置，获取目标对象的内容描述文本，内容描述文本包括多个子文本，对于每个子文本，对子文本进行语义特征提取，得到子文本的文本语义特征，获取从图片库的多个候选图片中分别提取的图片内容特征，针对每个子文本，基于子文本的文本语义特征与获取的各图片内容特征之间的匹配度，从多个候选图片中确定与子文本相匹配的目标图片，结合各目标图片相匹配的子文本对各目标图片进行视频转换，生成目标对象的推荐视频，推荐视频在播放时将目标图片和相匹配的子文本进行对应展示。由于内容描述文本是对目标对象所表达的内容进行描述的信息，子文本为内容描述文本中的文本，图片内容特征是从候选图片中提取的特征，因此，当图片内容特征与文本语义特征匹配时，子文本与候选图片所表达的内容匹配即相似度较高，实现了文本与图片的自动匹配，提高了筛选多媒体数据的效率，从而提高了对多媒体数据的处理的效率。

在一些实施例中，视频生成模块还用于：对于每个子文本，基于子文本相匹配的目标图片确定子文本对应的目标视频帧；将子文本叠加到对应的目标视频帧中，得到待编码视频帧；对各个待编码视频帧进行视频编码，生成子文本对应的视频片段；按照子文本在内容描述文本中的排序，对各个子文本对应的视频片段进行拼接，生成目标对象的推荐视频；推荐视频在播放时，将子文本与子文本对应的视频片段对应展示。

在一些实施例中，视频生成模块还用于：对于子文本相匹配的多个目标图片，按照多个目标图片的图片内容特征与子文本的文本语义特征之间的匹配度，对多个目标图片进行排列，得到目标图片序列；基于目标图片序列确定子文本对应的视频帧序列；视频帧序列中包括多个目标视频帧；将子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列；待编码视频帧序列中包括多个待编码视频帧。

在一些实施例中，视频生成模块还用于：按照各子文本在内容描述文本中的排序，确定各子文本相匹配的目标图片分别对应的播放时间；针对每个目标图片对应的播放时间，将目标图片相匹配的子文本与播放时间之间建立对应关系；将各目标图片按照相应的播放时间进行视频转换，以生成目标对象的推荐视频；推荐视频在播放时，将对应于同一播放时间的目标图片和子文本进行对应展示。

在一些实施例中，视频生成模块还用于：获取目标音频；结合各目标图片相匹配的子文本以及目标音频对各目标图片进行视频编码，得到编码视频；将编码视频与目标音频进行合并，生成目标对象的推荐视频；推荐视频在播放时将目标图片和相匹配的子文本进行对应展示，并同步播放目标音频。

在一些实施例中，视频生成模块还用于：获取候选音频集合，确定候选音频集合中的各个候选音频的音频风格；确定子文本的文本风格以及目标图片的图片风格；基于音频风格与文本风格之间的相似度、以及音频风格与图片风格之间的相似度，从候选音频集合中筛选得到目标音频。

在一些实施例中，视频生成模块还用于：将内容描述文本进行语音转换，得到内容描述文本对应的语音数据；将内容描述文本对应的语音数据，确定为目标音频。

在一些实施例中，图片确定模块还用于：计算子文本的文本语义特征分别与每个图片内容特征之间的匹配度，得到子文本对应的各个特征匹配度；基于子文本对应的各个特征匹配度，从各个图片内容特征中过滤掉特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个图片内容特征确定为第一图片内容特征；从各个第一图片内容特征对应的候选图片中，确定与子文本相匹配的目标图片。

在一些实施例中，图片确定模块还用于：确定子文本的邻近子文本；子文本与邻近子文本在内容描述文本中相邻；计算子文本的文本语义特征与邻近子文本的文本语义特征之间的差异，得到特征差异信息；计算第一图片内容特征与特征差异信息之间的相似度，将相似度大于相似度阈值的第一图片内容特征对应的候选图片，确定为与子文本相匹配的目标图片。

在一些实施例中，文本特征提取模块还用于：对子文本进行分词处理，得到多个词片段；对于每个词片段，对词片段进行语义特征提取，得到词片段的词语义特征；对各个词片段的词语义特征进行特征融合，得到子文本的文本语义特征。

关于视频生成装置的具体限定可以参见上文中对于视频生成方法的限定，在此不再赘述。上述视频生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种视频生成方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图14所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储内容描述文本、候选图片、子文本、文本语义特征、图片内容特征、视频片段、文本语义特征等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频生成方法。

本领域技术人员可以理解，图13和图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一些实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一些实施例中，还提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取目标对象的内容描述文本；所述内容描述文本是对所述目标对象所表达的内容进行描述的信息；所述内容描述文本包括多个子文本；

对于每个所述子文本，对所述子文本进行语义特征提取，得到所述子文本的文本语义特征；

获取从图片库的多个候选图片中分别提取的图片内容特征；

针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片；

结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示。

2.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：

对于每个所述子文本，基于所述子文本相匹配的目标图片确定所述子文本对应的目标视频帧；

将所述子文本叠加到对应的所述目标视频帧中，得到待编码视频帧；

对各个所述待编码视频帧进行视频编码，生成所述子文本对应的视频片段；

按照所述子文本在所述内容描述文本中的排序，对各个所述子文本对应的视频片段进行拼接，生成所述目标对象的推荐视频；所述推荐视频在播放时，将所述子文本与所述子文本对应的视频片段对应展示。

3.根据权利要求2所述的方法，其特征在于，所述子文本有多个相匹配的目标图片；所述对于每个所述子文本，基于所述子文本相匹配的目标图片确定所述子文本对应的目标视频帧包括：

对于所述子文本相匹配的多个目标图片，按照所述多个目标图片的图片内容特征与所述子文本的文本语义特征之间的匹配度，对所述多个目标图片进行排列，得到目标图片序列；

基于所述目标图片序列确定所述子文本对应的视频帧序列；所述视频帧序列中包括多个所述目标视频帧；

所述将所述子文本叠加到对应的所述目标视频帧中，得到待编码视频帧包括：

将所述子文本分别叠加到对应的视频帧序列中的每个目标视频帧中，得到待编码视频帧序列；所述待编码视频帧序列中包括多个所述待编码视频帧。

4.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：

按照各所述子文本在所述内容描述文本中的排序，确定各所述子文本相匹配的目标图片分别对应的播放时间；

针对每个目标图片对应的播放时间，将所述目标图片相匹配的子文本与所述播放时间之间建立对应关系；

将各所述目标图片按照相应的播放时间进行视频转换，以生成所述目标对象的推荐视频；所述推荐视频在播放时，将对应于同一播放时间的所述目标图片和所述子文本进行对应展示。

5.根据权利要求1所述的方法，其特征在于，所述结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示包括：

获取目标音频；

结合各所述目标图片相匹配的子文本以及所述目标音频对各所述目标图片进行视频编码，得到编码视频；

将所述编码视频与所述目标音频进行合并，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示，并同步播放所述目标音频。

6.根据权利要求5所述的方法，其特征在于，所述获取目标音频包括：

获取候选音频集合，确定所述候选音频集合中的各个候选音频的音频风格；

确定所述子文本的文本风格以及所述目标图片的图片风格；

基于所述音频风格与所述文本风格之间的相似度、以及所述音频风格与所述图片风格之间的相似度，从所述候选音频集合中筛选得到目标音频。

7.根据权利要求6所述的方法，其特征在于，所述获取目标音频包括：

将所述内容描述文本进行语音转换，得到所述内容描述文本对应的语音数据；

将所述内容描述文本对应的语音数据，确定为所述目标音频。

8.根据权利要求1所述的方法，其特征在于，所述针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片包括：

针对每个所述子文本，计算所述子文本的文本语义特征分别与每个所述图片内容特征之间的匹配度，得到所述子文本对应的各个特征匹配度；

基于所述子文本对应的各个特征匹配度，从各个所述图片内容特征中过滤掉所述特征匹配度小于匹配度阈值的图片内容特征，将剩余的各个所述图片内容特征确定为第一图片内容特征；

从各个所述第一图片内容特征对应的候选图片中，确定与所述子文本相匹配的目标图片。

9.根据权利要求8所述的方法，其特征在于，所述从各个所述第一图片内容特征对应的候选图片中，确定与所述子文本相匹配的目标图片包括：

确定所述子文本的邻近子文本；所述子文本与所述邻近子文本在所述内容描述文本中相邻；

计算所述子文本的文本语义特征与所述邻近子文本的文本语义特征之间的差异，得到特征差异信息；

计算所述第一图片内容特征与所述特征差异信息之间的相似度，将相似度大于相似度阈值的所述第一图片内容特征对应的候选图片，确定为与所述子文本相匹配的目标图片。

10.根据权利要求1所述的方法，其特征在于，所述对所述子文本进行语义特征提取，得到所述子文本的文本语义特征包括：

对所述子文本进行分词处理，得到多个词片段；

对于每个所述词片段，对所述词片段进行语义特征提取，得到所述词片段的词语义特征；

对各个所述词片段的词语义特征进行特征融合，得到所述子文本的文本语义特征。

11.根据权利要求1至10中任一项所述的方法，其特征在于，所述目标对象为目标文本对象；所述内容描述文本，是所述目标文本对象所描述的内容的摘要描述信息；所述推荐视频，是用于对所述目标文本对象进行介绍的视频。

12.一种视频生成装置，其特征在于，所述装置包括：

文本获取模块，用于获取目标对象的内容描述文本；所述内容描述文本是对所述目标对象所表达的内容进行描述的信息；所述内容描述文本包括多个子文本；

文本特征提取模块，用于对于每个所述子文本，对所述子文本进行语义特征提取，得到所述子文本的文本语义特征；

图片特征提取模块，用于获取从图片库的候选图片中提取的图片内容特征；

图片确定模块，用于针对每个所述子文本，基于所述子文本的文本语义特征与获取的各所述图片内容特征之间的匹配度，从所述多个候选图片中确定与所述子文本相匹配的目标图片；

视频生成模块，用于结合各所述目标图片相匹配的子文本对各所述目标图片进行视频转换，生成所述目标对象的推荐视频；所述推荐视频在播放时将所述目标图片和相匹配的子文本进行对应展示。

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。