CN112015949B

CN112015949B - 视频生成方法和装置、存储介质及电子设备

Info

Publication number: CN112015949B
Application number: CN202010873855.0A
Authority: CN
Inventors: 屠子睿; 俞一鹏; 孙子荀; 卢珑予
Original assignee: Tencent Technology Shanghai Co Ltd
Current assignee: Tencent Technology Shanghai Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-08-29
Anticipated expiration: 2040-08-26
Also published as: CN112015949A

Abstract

本发明公开了一种视频生成方法和装置、存储介质及电子设备。该方法包括：获取目标描述文字的描述特征；在描述特征包括目标描述文字的语义表征向量以及一组词语时，根据语义表征向量在目标素材集合中搜索第一素材，根据一组词语在目标素材集合中搜索第二素材，一组词语为对目标描述文字进行分词得到的词语，第一素材的素材描述向量与语义表征向量之间的相似度大于第一阈值，第二素材的素材描述信息与一组词语中的词语匹配，目标素材集合中包括多种类型的素材，多种类型包括视频类型；根据第一素材和第二素材生成与目标描述文字对应的目标视频。采用上述技术方案，解决了相关技术中，在基于文字生成视频时，存在生成的视频质量低的问题。

Description

视频生成方法和装置、存储介质及电子设备

技术领域

本发明涉及计算机领域，具体而言，涉及一种视频生成方法和装置、存储介质及电子设备。

背景技术

目前，为了提高用户的阅读体验，可以基于文字故事转换成视频观看，方便用户需求，且增加趣味性。

相关技术中，主要采取以下技术方案：

技术方案一：从故事文本中提取场景描述信息，根据场景描述信息生成含有相应场景画面的图像；然后基于图像生成视频。但是，该技术方案是针对帧级别的图像进行处理，再添加与文字相关的内容，生成视频的流畅程度有限且质量较低，无法很好的表达描述文字的内容。

技术方案二：获取待处理的纯文字类的文本；根据文本生成音频及字幕；从互联网中挖掘文本的相关图片；根据相关图片、音频及字幕生成视频。但是，在进行视频生成时，需要经过文本到音频、字幕、图像，再经由图像产生视频的流程，每一步都存在信息的损失，无法很好的表达描述文字的内容，且视频由图像组成，质量较低。

针对相关技术中，在基于文字生成视频时，存在生成的视频质量低的问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种视频生成方法和装置、存储介质及电子设备，以至少解决相关技术中，在基于文字生成视频时，存在生成的视频质量低的问题。

根据本发明实施例的一个方面，提供了一种视频生成方法，包括：获取目标描述文字的描述特征；在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型；根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。

根据本发明实施例的另一方面，还提供了一种视频生成装置，包括：第一获取单元，用于获取目标描述文字的描述特征；第一处理单元，用于在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型；第二处理单元，用于根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。

根据本申请的又一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频生成方法的各种可选实现方式中提供的方法。

根据本发明实施例的又一方面，还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器被设置为通过上述计算机程序执行执行上述视频生成方法。

通过本发明，首先获取目标描述文字的描述特征，如果描述特征中包括目标描述文字的语义表征向量，则根据语义表征向量在目标素材集合中搜索第一素材，如果描述特征中包括目标描述文字的一组词语，则根据该一组词语在目标素材集合中搜索第二素材，其中，对目标描述文字进行分词可以得到该一组词语，语义表征向量与第一素材的素材描述向量之间的相似度大于第一阈值，上述一组词语中的词语与第二素材的素材描述信息匹配，目标素材集合是一个包括多种类型的素材的素材集合，多种类型中至少包括视频类型。最后，根据搜索到的第一素材和第二素材生成与目标描述文字对应的目标视频。采用上述技术方案，由于目标素材集合中至少包括视频类型，那么，在目标素材集合中搜索到的第一素材和第二素材，必然是视频类型的素材，最后，基于第一素材和第二素材生成与目标描述文字对应的目标视频，使得生成的目标视频的来源素材中包含了视频类型的素材，不同于相关技术中基于图像生成目标视频，本发明实施例中基于视频类型的素材生成的目标视频，视频质量更高，效果更好，极大地提高了基于文字生成的目标视频的视频质量。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种视频生成方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的视频生成方法的流程示意图；

图3是根据本发明实施例的另一种可选的视频生成方法的流程示意图；

图4是根据本发明实施例的一种可选的对入库素材进行处理的流程示意图；

图5是根据本发明实施例的一种可选的确定素材描述向量的示意图；

图6是根据本发明实施例的一种可选的对描述文字进行处理的示意图；

图7是根据本发明实施例的一种可选的对目标视频添加特效的流程示意图；

图8是根据本发明实施例的一种可选的训练网络模型的流程示意图；

图9是根据本发明实施例的一种可选的目标视频的界面示意图(一)；

图10是根据本发明实施例的一种可选的目标视频的界面示意图(二)；

图11是根据本发明实施例的一种可选的目标视频的界面示意图(三)；

图12是根据本发明实施例的一种可选的目标视频的界面示意图(四)；

图13是根据本发明实施例的一种可选的视频生成装置的结构示意图；

图14是根据本发明实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例中涉及到的技术术语包括：

1、UGC内容(user generate content，简称UGC)，即由用户生成的内容创作。

2、视频理解系统：对直播流/视频网站/用户自行上传的游戏视频中的内容进行细粒度知识的解构和提取，并且实现结构化存储的系统，存储内容包括事件发生时间、人物和事件种类等。同时也对常驻的信息进行提取，如比分、个人战绩等。

3、ES系统：Elasticsearch(缩写为ES)是一个分布式的搜索和数据分析引擎，具有简单的搜索和存储能力，可以实现模糊搜索和精确搜索的需求。

4、关系抽取：关系抽取(Relation extraction)是信息抽取的一个子领域，具体指从非结构化数据中提取满足预定义关系的实体，将<实体-关系-实体>三元组转换成结构化数据供下游使用。

5、蒙太奇(Montage)：现多指一种电影剪辑技术，通过将一系列视点不同的多个视频组合使用来压缩空间、时间和信息。

6、多模态(Multi-modality)：即多种模态，包括视频、图片、文字和音频等多个信息输入\输出渠道，每个渠道作为一个模态，多模态即同时考虑这些信息渠道。

7、Faiss：Facebook开发的一个为稠密向量提供高效相似度搜索和聚类的框架。

8、CV能力：CV是Computer Vision的缩写，即计算机视觉，基于计算机对于视频/图像内容进行处理，提取需要的信息。

9、双向转换编码器(Bidirectional Encoder Representation fromTransformers，简称BERT：)，通过对大量数据的预训练，可以做到对任意特定长度文字序列形成向量表征。

10、Text2Video:表示由文本生成视频。

11、CNN：Convolution Neural Network卷积神经网络，常用于对图片进行特征提取的网络结构。

12、膨胀卷积门限网络(Dilated Gated Convolution Neural Network，简称DGCNN)，一种基于膨胀化离散感受野形成的卷积神经网络。

13、Relation label：用于描述实体间关系的标签，人工根据任务性质选取和定义。

14、Embedding：向量化的表征，根据样本、关系等形成的特征向量。

15、长短时记忆网络(Long Short-term Memory Network，简称LSTM)，常用于对序列信息进行特征提取的网络。

16、Fusion：不同模态之间的特征融合操作。

17、Wavenet：一类用于提取声学特征的网络模型。

18、Query：在搜索场景、匹配场景下，用于描述待匹配项的语义语句。

19、CG：Computer Graphics，用计算机技术进行视觉设计和生产的领域通称为CG。

根据本发明实施例的一个方面，提供了一种视频生成方法。可选地，上述视频生成方法可以但不限于应用于如图1所示的应用环境中。如图1所示，终端设备102获取目标描述文字的描述特征；服务器104在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型；终端设备102根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。可理解，以上仅为一种示例，本申请实施例在此不作限定。

可选地，上述方法可以应用于游戏产品、搜索软件等应用中，例如，在搜索软件中输入描述性文字，生成与该描述性文字相关的视频，或者，在游戏产品中，输入一段游戏场景的剧本，生成该剧本相关的视频，以上仅为一种示例性的场景，本实施例在此不作任何限定。

可选地，在本实施例中，上述终端设备可以是配置有目标客户端的终端设备，可以包括但不限于以下至少之一：手机(如Android手机、iOS手机等)、笔记本电脑、平板电脑、掌上电脑、MID(Mobile Internet Devices，移动互联网设备)、PAD、台式电脑、智能电视等。目标客户端可以是视频客户端、即时通信客户端、浏览器客户端、教育客户端等。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、WIFI及其他实现无线通信的网络。上述服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，或者是云服务器。上述只是一种示例，本实施例对此不做任何限定。

可选地，在本实施例中，作为一种可选的实施方式，该方法可以由服务器执行，也可以由终端设备执行，或者由服务器和终端设备共同执行，本实施例中，以由终端设备(例如，上述终端设备102)执行为例进行说明。如图2所示，上述视频生成方法的流程可以包括步骤：

步骤S202，获取目标描述文字的描述特征。

可选地，上述目标描述文字可以理解为用户输入的一段话、或者一个句子等，该目标描述文字可以用于搜索视频，也可以用于生成视频。

例如，场景1:用户输入一段描述内容用于创作视频：

“小乔和大乔在郊外玩。遇到了帅气的周瑜。小乔爱上了周瑜,虽然偶尔吵架打闹。直到一个叫做诸葛亮的男人出现，带领大军打得周瑜溃败，郁郁而终。小乔开始追着诸葛亮为夫报仇。”

场景2:用户输入语段描述用于检索视频：

“虞姬怎么打程咬金？”；“98K怎么进行瞄准？”。

对目标描述文字进行分词，可以得到目标描述文字的一组词语，对目标描述文字进行编码，可以得到目标描述文字的语义表征向量，上述目标描述文字的描述特征包括目标描述文字的语义表征向量和上述一组词语。

步骤S204，在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型。

可选地，通过上述步骤，可以得到目标描述文字的描述特征，如果描述特征包括目标描述文字的语义表征向量和一组词语时，根据语义表征向量在目标素材集合中进行搜索，得到第一素材，该第一素材的素材描述向量与语义表征向量的相似度大于第一阈值。并在目标素材集合中搜索与上述一组词语匹配的素材描述信息，得到第二素材。

对于上述目标素材集合来说，该目标素材集合中包括多种类型的素材，并且至少包括视频类型的素材，还可以包括图片类型、音频类型、文字类型等的素材。对于目标素材集合中的每个素材来说，每个素材均设置有对应的素材标签，素材标签包括素材描述向量和素材描述信息。其中，素材描述向量为基于每个素材的原始信息进行编码后所得到的，素材描述信息可以理解为对每个素材的一段简单的文字描述信息，该素材描述信息能够概括每个素材所要表达的信息。

步骤S206，根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。

可选地，在得到第一素材和第二素材之后，可以根据该第一素材和第二素材生成与目标描述文字对应的目标视频。目标视频的内容和第一素材和第二素材的内容相关，目标视频可以包括字幕，和/或，封面，和/或，音频，和/或，特效，和/或，视频，和/或，图片。本实施例对此不作任何限定。

通过本实施例，首先获取目标描述文字的描述特征，如果描述特征中包括目标描述文字的语义表征向量，则根据语义表征向量在目标素材集合中搜索第一素材，如果描述特征中包括目标描述文字的一组词语，则根据该一组词语在目标素材集合中搜索第二素材，其中，对目标描述文字进行分词可以得到该一组词语，语义表征向量与第一素材的素材描述向量之间的相似度大于第一阈值，上述一组词语中的词语与第二素材的素材描述信息匹配，目标素材集合是一个包括多种类型的素材的素材集合，多种类型中至少包括视频类型。最后，根据搜索到的第一素材和第二素材生成与目标描述文字对应的目标视频。采用上述技术方案，由于目标素材集合中至少包括视频类型，那么，在目标素材集合中搜索到的第一素材和第二素材，必然是视频类型的素材，最后，基于第一素材和第二素材生成与目标描述文字对应的目标视频，使得生成的目标视频的来源素材中包含了视频类型的素材，不同于相关技术中基于图像生成目标视频，本发明实施例中基于视频类型的素材生成的目标视频，视频质量更高，效果更好，极大地提高了基于文字生成的目标视频的视频质量。

以下详述如何获取目标描述文字的描述特征。

可选地，在本实施例中，上述获取目标描述文字的描述特征，包括：对上述目标描述文字进行分词，得到上述一组词语；在上述一组词语中选择目标关键词语，其中，上述目标关键词语与上述目标描述文字的语义相关；将上述目标关键词语输入到目标语义识别模型，得到上述目标语义识别模型输出的上述语义表征向量。

可选地，可以通过对目标描述文字进行分词，来得到上述一组词语，然后，在得到的一组词语中选择出目标关键词语语，选择出的目标关键词语能够高度概括出目标描述文字所表达的语义。然后，将选择出的目标关键词语输入到一个目标语义识别模型中，通过该目标语义识别模型，识别该目标关键词语并输出与目标关键词语对应的语义表征向量。

上述得到语义表征向量的方式仅为一种示例，还可以直接对上述一组词语进行编码，得到上述语义表征向量，本实施例在此不作任何限定。

通过本实施例，可以通过对目标描述文字进行分词，得到一组词语，然后选择出目标关键词语，进而通过目标关键词语来得到语义表征向量，使得语义表征向量能够高度概括出目标描述文字，避免冗余，能够使通过语义表征向量搜索第一素材的过程，变得更加高效，提高了搜索效率。

以下详述如何选择目标关键词语的过程。

可选地，在本实施例中，上述在上述一组词语中选择目标关键词语，包括：在上述一组词语中选择第一词语、第二词语和第三词语中的至少一个，得到上述目标关键词语，其中，上述第一词语为上述目标描述文字中的主语，上述第二词语为上述目标描述文字中的谓语，上述第三词语为上述目标描述文字中的宾语。

可选地，可以在一组词语中选择第一词语、第二词语和第三词语中的至少一个，来得到上述目标关键词语，其中，第一词语可以理解为目标描述文字中的主语，第二词语可以理解为目标描述文字中的谓语，第三词语可以理解为目标描述文字中的宾语。

例如，目标描述文字为“虞姬怎么打程咬金”，那么，对目标描述文字进行分词得到的上述一组词语可以为虞姬，怎么，打，程咬金，对上述一组词语进行选择得到的目标关键词语可以为虞姬，打，程咬金，或者，虞姬，程咬金。上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，由于主语、谓语、宾语是句子成分中最基本的成分，按照主语、谓语、宾语对一组词语进行选择，得到目标关键词语，可以使得到的目标关键词语能够最大程度的表示目标描述文字，提高了目标关键词语的准确性。

可选地，在本实施例中，上述方法还包括：在上述描述特征包括上述目标描述文字的语义表征向量的情况下，根据上述语义表征向量在上述目标素材集合中搜索上述第一素材；根据上述第一素材生成与上述目标描述文字对应的上述目标视频；或者，在上述描述特征包括一组词语的情况下，根据上述一组词语在上述目标素材集合中搜索上述第二素材；根据上述第二素材生成与上述目标描述文字对应的上述目标视频。

可选地，如果描述特征中包括了目标描述文字的语义表征向量，可以只根据该语义表征向量在目标素材集合中进行搜索，得到第一素材，然后根据第一素材来生成与目标描述文字对应的目标视频。或者

如果描述特征中包括了目标描述文字的一组词语，可以根据该一组词语在目标素材集合中进行搜索，得到第二素材，然后根据第二素材来生成与目标描述文字对应的目标视频。

通过本实施例，在实际应用中，目标素材集合中可能存在不能同时搜索到第一素材和第二素材的情况，此时，可以只根据目标描述文字的语义表征向量，在目标素材集合中搜索第一素材，并根据第一素材生成目标视频，或者，可以只根据目标描述文字的一组词语，在目标素材集合中搜索第二素材，并根据第二素材生成目标视频，这种通过多种方式得到目标视频，增加了生成目标视频的灵活性。

以下详述如何根据语义表征向量在目标素材集合中搜索第一素材。

可选地，在本实施例中，上述根据上述语义表征向量在目标素材集合中搜索第一素材，包括：在上述目标素材集合中搜索到上述视频类型的第三素材和图片类型的第四素材的情况下，将上述第三素材和上述第四素材作为上述第一素材，其中，上述多种类型包括上述图片类型，上述第三素材和上述第四素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值；或者，在上述目标素材集合中搜索到上述视频类型的第三素材和音频类型的第五素材的情况下，将上述第三素材和上述第五素材作为上述第一素材，其中，上述多种类型包括上述音频类型，上述第三素材和上述第五素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值；或者，在上述目标素材集合中搜索到上述视频类型的第三素材、上述图片类型的第四素材以及上述音频类型的第五素材的情况下，将上述第三素材、上述第四素材和上述第五素材作为上述第一素材，其中，上述多种类型包括上述图片类型和上述音频类型，上述第三素材、上述第四素材和上述第五素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值。

可选地，目标素材集合中可以包括多种类型的素材，如视频类型的素材、图片类型的素材、音频类型的素材、文字类型的素材。

如果目标素材集合中包括了视频类型的素材和图片类型的素材，可以通过语义表征向量在目标素材集合中进行搜索，得到视频类型的第三素材和图片类型的第四素材，并且第三素材和第四素材的素材描述向量与语义表征向量之间的相似度均大于第一阈值。需要说明的是，如果可以在目标素材集合中搜索到第三素材和第四素材，那么，第一素材包括第三素材和第四素材；如果只搜索到了第三素材，那么第一素材中只包括第三素材；如果只搜索到了第四素材，那么第一素材中只包括第四素材。或者

如果目标素材集合中包括了视频类型的素材和音频类型的素材，可以通过语义表征向量在目标素材集合中进行搜索，得到视频类型的第三素材和音频类型的第五素材，并且第三素材和第五素材的素材描述向量与语义表征向量之间的相似度均大于第一阈值。需要说明的是，如果可以在目标素材集合中搜索到第三素材和第五素材，那么，第一素材包括第三素材和第五素材；如果只搜索到了第三素材，那么第一素材中只包括第三素材；如果只搜索到了第五素材，那么第一素材中只包括第五素材。或者

如果目标素材集合中包括了视频类型的素材、图片类型的素材和音频类型的素材，可以通过语义表征向量在目标素材集合中进行搜索，得到视频类型的第三素材、图片类型的第四素材和音频类型的第五素材，并且第三素材、第四素材和第五素材的素材描述向量与语义表征向量之间的相似度均大于第一阈值。需要说明的是，如果可以在目标素材集合中搜索到第三素材、第四素材和第五素材，那么，第一素材包括第三素材、第四素材和第五素材；如果只搜索到了第三素材，那么第一素材中只包括第三素材；如果只搜索到了第四素材，那么第一素材中只包括第四素材；如果只搜索到了第五素材，那么第一素材中只包括第五素材，等等。

需要说明的是，第一素材可以为视频类型的素材、图片类型的素材、音频类型的素材以及文字类型的素材之间的任意组合。例如，第一素材可以为视频类型的素材+图片类型的素材。或者，第一素材可以为视频类型的素材+音频类型的素材。或者，第一素材可以为视频类型的素材+文字类型的素材。或者，第一素材可以为视频类型的素材+图片类型的素材+音频类型的素材。或者，第一素材可以为视频类型的素材+图片类型的素材+文字类型的素材。或者，第一素材可以为视频类型的素材+音频类型的素材+文字类型的素材。或者，第一素材可以为视频类型的素材+图片类型的素材+音频类型的素材+文字类型的素材。

通过本实施例，可以得到不同组合方式的第一素材，提高了第一素材的丰富性。

可选地，在本实施例中，上述根据上述一组词语在上述目标素材集合中搜索第二素材，包括：在上述目标素材集合中搜索到上述视频类型的第六素材和上述图片类型的第七素材的情况下，将上述第六素材和上述第七素材作为上述第二素材，其中，上述多种类型包括上述图片类型，上述第六素材和上述第七素材的素材描述信息与上述一组词语中的词语匹配；或者，在上述目标素材集合中搜索到上述视频类型的第六素材和上述音频类型的第八素材的情况下，将上述第六素材和上述第八素材作为上述第二素材，其中，上述多种类型包括上述音频类型，上述第六素材和上述第八素材的素材描述信息与上述一组词语中的词语匹配；或者，在上述目标素材集合中搜索到上述视频类型的第六素材、上述图片类型的第七素材和上述音频类型的第八素材的情况下，将上述第六素材、上述第七素材和上述第八素材作为上述第二素材，其中，上述多种类型包括上述图片类型和上述音频类型，上述第六素材、上述第七素材和上述第八素材的素材描述信息与上述一组词语中的词语匹配。

如果目标素材集合中包括了视频类型的素材和图片类型的素材，可以通过一组词语在目标素材集合中进行搜索，得到视频类型的第六素材和图片类型的第七素材，并且第六素材和第七素材的素材描述信息与一组词语中的词语匹配。需要说明的是，如果可以在目标素材集合中搜索到第六素材和第七素材，那么，第二素材包括第六素材和第七素材；如果只搜索到了第六素材，那么第二素材中只包括第六素材；如果只搜索到了第七素材，那么第二素材中只包括第七素材。或者

如果目标素材集合中包括了视频类型的素材和音频类型的素材，可以通过一组词语在目标素材集合中进行搜索，得到视频类型的第六素材和音频类型的第八素材，并且第六素材和第八素材的素材描述信息与一组词语中的词语匹配。需要说明的是，如果可以在目标素材集合中搜索到第六素材和第八素材，那么，第二素材包括第六素材和第八素材；如果只搜索到了第六素材，那么第二素材中只包括第六素材；如果只搜索到了第八素材，那么第二素材中只包括第八素材。或者

如果目标素材集合中包括了视频类型的素材、图片类型的素材和音频类型的素材，可以通过一组词语在目标素材集合中进行搜索，得到视频类型的第六素材、图片类型的第七素材和音频类型的第八素材，并且第六素材、第七素材和第八素材的素材描述信息与一组词语中的词语匹配。需要说明的是，如果可以在目标素材集合中搜索到第六素材、第七素材和第八素材，那么，第二素材包括第六素材、第七素材和第八素材；如果只搜索到了第六素材，那么第二素材中只包括第六素材；如果只搜索到了第七素材，那么第二素材中只包括第七素材；如果只搜索到了第八素材，那么第一素材中只包括第八素材，等等。

需要说明的是，第二素材可以为视频类型的素材、图片类型的素材、音频类型的素材以及文字类型的素材之间的任意组合。例如，第二素材可以为视频类型的素材+图片类型的素材。或者，第二素材可以为视频类型的素材+音频类型的素材。或者，第二素材可以为视频类型的素材+文字类型的素材。或者，第二素材可以为视频类型的素材+图片类型的素材+音频类型的素材。或者，第二素材可以为视频类型的素材+图片类型的素材+文字类型的素材。或者，第二素材可以为视频类型的素材+音频类型的素材+文字类型的素材。或者，第二素材可以为视频类型的素材+图片类型的素材+音频类型的素材+文字类型的素材。

通过本实施例，可以得到不同组合方式的第二素材，提高了第二素材的丰富性。

可选地，在本实施例中，上述根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频，包括：将上述第一素材和上述第二素材的并集确定为目标素材；根据上述目标素材生成与上述目标描述文字对应的上述目标视频。

可选地，在通过上述方式得到第一素材和第二素材之后，可能存在第一素材和第二素材之间有重复的素材的情况，可以将第一素材和第二素材的并集确定为目标素材，然后，根据目标素材生成与目标描述文字对应的目标视频。

通过本实施例，可以将基于不同的搜索条件得到的第一素材和第二素材的并集确定为最终的目标素材，并且目标素材中包含了视频类型的素材，使得目标素材的能够满足用户检索视频的需求，提高目标素材的质量。

可选地，在本实施例中，上述根据上述目标素材生成与上述目标描述文字对应的上述目标视频，包括：在上述目标素材包括上述视频类型的多个视频素材的情况下，在上述多个视频素材中选择一个视频素材，并根据上述一个视频素材生成上述目标视频；或者，在上述目标素材包括上述视频类型的多个视频素材以及图片类型的多个图片素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个图片素材中选择一个图片素材，并根据上述一个视频素材和上述一个图片素材生成上述目标视频，其中，上述多种类型包括上述图片类型；或者，在上述目标素材包括上述视频类型的多个视频素材以及音频类型的多个音频素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个音频素材中选择一个音频素材，并根据上述一个视频素材和上述一个音频素材生成上述目标视频，其中，上述多种类型包括上述音频类型；或者，在上述目标素材包括上述视频类型的多个视频素材、图片类型的多个图片素材、以及音频类型的多个音频素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个图片素材中选择一个图片素材，在上述多个音频素材中选择一个音频素材，并根据上述一个视频素材、上述一个图片素材以及上述一个音频素材生成上述目标视频，其中，上述多种类型包括上述图片类型和上述音频类型。

可选地，如果搜索到的目标素材中包括视频类型，并且包括多个视频素材的情况下，可以在多个视频素材中选择一个视频素材，并根据一个视频素材生成目标视频，其中，该一个视频素材可以为多个视频素材中评分最高的一个视频素材，或者，该一个视频素材可以为多个视频素材中与目标描述文字的描述特征匹配度最高的一个视频素材。或者

如果搜索到的目标素材中包括视频类型，并且包括多个视频素材，以及如果搜索到的目标素材中包括图片类型，并且包括多个图片素材的情况下，可以在多个视频素材中选择一个视频素材，在多个图片素材中选择一个图片素材，并根据一个视频素材和一个图片素材生成目标视频，其中，该一个视频素材可以为多个视频素材中评分最高的一个视频素材，或者，该一个视频素材可以为多个视频素材中与目标描述文字的描述特征匹配度最高的一个视频素材。该一个图片素材可以为多个图片素材中评分最高的一个图片素材，或者，该一个图片素材可以为多个图片素材中与目标描述文字的描述特征匹配度最高的一个图片素材。或者

如果搜索到的目标素材中包括视频类型，并且包括多个视频素材，以及如果搜索到的目标素材中包括图片类型，并且包括多个图片素材，以及如果搜索到的目标素材中包括音频类型，并且包括多个音频素材的情况下，可以在多个视频素材中选择一个视频素材，在多个图片素材中选择一个图片素材，在多个音频素材中选择一个音频素材，并根据一个视频素材、一个图片素材和一个音频素材生成目标视频，其中，该一个视频素材可以为多个视频素材中评分最高的一个视频素材，或者，该一个视频素材可以为多个视频素材中与目标描述文字的描述特征匹配度最高的一个视频素材。该一个图片素材可以为多个图片素材中评分最高的一个图片素材，或者，该一个图片素材可以为多个图片素材中与目标描述文字的描述特征匹配度最高的一个图片素材。该一个音频素材可以为多个音频素材中评分最高的一个音频素材，或者，该一个音频素材可以为多个音频素材中与目标描述文字的描述特征匹配度最高的一个音频素材。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，在搜索到的目标素材中包括多个视频素材，和/或，多个图片素材，和/或，以及多个音频素材时，可从中选出一个视频素材，和/或，一个图片素材，和/或，以及一个音频素材来生成目标视频，避免使用多个素材造成的目标视频的冗余，提高了目标视频的精简性。

可选地，在本实施例中，上述方法还包括：上述根据上述目标素材生成与上述目标描述文字对应的上述目标视频，包括：在上述目标素材包括上述视频类型的视频素材的情况下，对上述视频素材进行内容检测，得到目标检测结果，其中，上述目标检测结果用于表示上述视频素材中的关键信息，上述关键信息包括关键事件，和/或，关键画面，和/或，关键片段；根据上述目标检测结果和上述目标素材，生成上述目标视频。

可选地，在目标素材包含了视频类型的视频素材的情况下，对该视频素材的内容进行检测，得到目标检测结果，该目标检测结果能够表示视频素材中的关键信息，该关键信息可以理解为关键时间，和/或，关键画面，和/或，关键片段。

最终，可以根据目标检测结果和目标素材，生成最终的目标视频。

例如，当用户输入的目标描述文字为“虞姬怎么打程咬金”，通过搜索，得到了目标素材集合中“虞姬击杀程咬金”的综合排名比较靠前的视频素材，那么，可以对该视频素材进行检测，得到目标检测结果，目标检测结果表示的视频素材中的关键信息至少包括以下之一：“虞姬击杀程咬金”的一个或多个关键事件(例如，连杀、多杀、胜利等特殊场景)，和/或，“虞姬击杀程咬金”的一帧或多帧关键画面(如虞姬击杀程咬金的精彩高光的游戏画面)，和/或，“虞姬击杀程咬金”的一个或多个关键片段(如虞姬击杀程咬金的精彩高光的游戏片段)，然后根据得到的目标检测结果和目标素材，生成最终的目标视频。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本实施例，可以通过目标检测结果和目标素材生成目标视频，由于目标检测结果表示的时视频素材中的关键信息，可以使生成的目标视频，更加直观的表达出目标描述文字的关键信息，通过视频的方式为用户直观地展现出目标描述文字的关键信息，提高了信息表达的直观性、可观赏性，提高了用户体验。

可选地，在本实施例中，为上述目标检测结果表示的上述关键信息设置对应的转场特效；按照预定的编辑逻辑将上述目标素材编辑为上述目标视频，其中，上述目标视频中的上述关键信息上显示有上述对应的转场特效。

可选地，在通过上述方式得到目标检测结果所表示的关键信息之后，可以为该关键信息设置对应的转场特效。该转场特效可以由比较明显的文字(如彩色的艺术字)、图像、音效(如比较激昂的音乐)中的至少一个组成，在播放目标视频时，可以在播放到关键信息的时刻，或者，播放完关键信息之后，在目标视频中播放该转场特效。

当设置好关键信息的转场特效之后，可以按照预定的编辑逻辑，将目标素材编辑为目标视频，其中，目标视频的关键信息上显示有对应的转场特效。

通过本实施例，可以为目标视频添加相应的转场特效，通过转场特效的方式，可以使目标视频的表现效果更加丰满，有针对性，提高了目标视频的吸引力，提高了用户体验。

可选地，在本实施例中，按照预定的编辑逻辑将上述目标素材编辑为上述目标视频，包括：在上述目标素材还包括上述图片类型的图片素材的情况下，按照上述编辑逻辑为上述图片素材和上述视频素材设置对应的第一时间播放标签，并按照上述第一时间播放标签的顺序将上述图片素材和上述视频素材编辑为上述目标视频；或者，在上述目标素材还包括上述音频类型的音频素材的情况下，按照上述编辑逻辑为上述音频素材和上述视频素材设置对应的第二时间播放标签，并按照上述第二时间播放标签的顺序将上述音频素材和上述视频素材编辑为上述目标视频；或者，在上述目标素材还包括上述图片类型的图片素材以及上述音频类型的音频素材的情况下，按照上述编辑逻辑为上述图片素材、上述音频素材和上述视频素材设置对应的第三时间播放标签，并按照上述第三时间播放标签的顺序将上述图片素材、上述音频素材和上述视频素材编辑为上述目标视频。

可选地，如果目标素材还包括图片类型的图片素材，可以按照编辑逻辑为图片素材和视频素材设置对应的第一时间播放标签，并按照第一时间播放标签的顺序来编辑图片素材应该在目标视频的哪个时间节点播放，以及按照第一时间播放标签的顺序来编辑视频素材应该在目标视频的哪个时间节点播放，最终生成目标视频。或者

如果目标素材还包括音频类型的音频素材，可以按照编辑逻辑为音频素材和视频素材设置对应的第二时间播放标签，并按照第二时间播放标签的顺序来编辑音频素材应该在目标视频的哪个时间节点播放，以及按照第二时间播放标签的顺序来编辑视频素材应该在目标视频的哪个时间节点播放，最终生成目标视频。或者

如果目标素材还包括图片类型的图片素材、以及音频类型的音频素材，可以按照编辑逻辑为图片素材、音频素材和视频素材设置对应的第三时间播放标签，并按照第三时间播放标签的顺序来编辑图片素材应该在目标视频的哪个时间节点播放，以及按照第三时间播放标签的顺序来编辑音频素材应该在目标视频的哪个时间节点播放，以及按照第三时间播放标签的顺序来编辑视频素材应该在目标视频的哪个时间节点播放，最终生成目标视频。

例如，在目标素材包括视频类型的视频素材、图片类型的图片素材、以及音频类型的音频素材的情况下，可以在t1时刻开始播放视频素材，t2时刻播放图片素材，t3时刻播放音频素材。

通过本实施例，可以按照编辑逻辑为目标素材设置时间播放标签，使得目标视频可以在合适的时机展现目标素材中的视频素材，和/或音频素材，和/或图片素材，提高了目标视频的播放效果。

可选地，在本实施例中，上述方法还包括：获取上述视频类型的第一视频素材以及目标类型的素材，其中，上述目标类型的素材包括以下至少之一：图片类型的第一图片素材、音频类型的第一音频素材、文字类型的第一文字素材；将上述第一视频素材以及上述目标类型的素材分别输入到多模态向量确定模型中；通过上述多模态向量确定模型输出上述第一视频素材的素材描述向量，以及上述目标类型的素材的素材描述向量；其中，上述目标素材集合包括上述第一视频素材以及上述目标类型的素材，上述多种类型包括上述目标类型，上述多模态向量确定模型用于对于输入的素材分别获取上述视频类型下的描述向量以及上述目标类型下的描述向量，并将上述视频类型下的描述向量以及上述目标类型下的描述向量融合成上述输入的素材的素材描述向量。

可选地，多模态向量确定模型可以理解为一种多模态内容表征网络，多模态内容表征网络主要包含四个模态，视频模态、图片模态、描述文字模态、音频模态等多个信息输入\输出渠道，每个渠道作为一个模态，多模态即同时考虑这些信息渠道。

上述目标类型的素材包括以下至少之一：图片类型的第一图片素材、音频类型的第一音频素材、文字类型的第一文字素材，上述目标类型包括以下至少之一：图片类型、音频类型、文字类型。

当获取到视频类型的第一视频素材和图片类型的第一图片素材时，可以分别将第一视频素材和第一图片素材输入到多模态向量确定模型中，来得到多模态向量确定模型输出的第一视频素材的素材描述向量，以及第一图片素材的素材描述向量。其中，目标素材集合中包括了第一视频素材和第一图片素材，得到的第一视频素材的素材描述向量和第一图片素材的素材描述向量的格式相同。上述多模态向量确定模型可以用于对于输入的素材分别获取上述视频类型下的描述向量和上述图片类型下的描述向量，并将上述视频类型下的描述向量和上述图片类型下的描述向量融合成上述输入的素材的素材描述向量。或者

当获取到视频类型的第一视频素材和音频类型的第一音频素材时，可以分别将第一视频素材和第一音频素材输入到多模态向量确定模型中，来得到多模态向量确定模型输出的第一视频素材的素材描述向量，以及第一音频素材的素材描述向量。其中，目标素材集合中包括了第一视频素材和第一音频素材，得到的第一视频素材的素材描述向量和第一音频素材的素材描述向量的格式相同。上述多模态向量确定模型可以用于对于输入的素材分别获取上述视频类型下的描述向量和上述音频类型下的描述向量，并将上述视频类型下的描述向量和上述图片类型下的描述向量融合成上述输入的素材的素材描述向量。或者

当获取到视频类型的第一视频素材、图片类型的第一图片素材和音频类型的第一音频素材时，可以分别将第一视频素材、第一图片素材和第一音频素材输入到多模态向量确定模型中，来得到多模态向量确定模型输出的第一视频素材的素材描述向量，第一图片素材的素材描述向量，以及第一音频素材的素材描述向量。其中，目标素材集合中包括了第一视频素材、第一图片素材和第一音频素材，得到的第一视频素材的素材描述向量、第一图片素材的素材描述向量和第一音频素材的素材描述向量的格式相同。上述多模态向量确定模型可以用于对于输入的素材分别获取上述视频类型下的描述向量、图片类型下的描述向量和上述音频类型下的描述向量，并将上述视频类型下的描述向量、上述图片类型下的描述向量和音频类型下的描述向量融合成上述输入的素材的素材描述向量。

通过本实施例，可以将搜索到的视频类型的第一视频素材，和/或，图片类型的第一图片素材，和/或，音频类型的第一音频素材分别输入到多模态向量确定模型中，来得到第一视频素材的素材描述向量，和/或，上述第一图片素材的素材描述向量，和/或，第一音频素材的素材描述向量，进而将视频类型下的描述向量，和/或，图片类型下的描述向量，和/或，音频类型下的描述向量融合成上述输入的素材的素材描述向量，通过多模态向量确定模型可以同时考虑视频素材、图片素材和音频素材这些信息渠道，使得最终得到的输入的素材的素材描述向量更加具有代表性，信息更加完整，提高了信息的完整性。

可选地，在本实施例中，上述将上述第一视频素材输入到上述多模态向量确定模型中，得到上述多模态向量确定模型输出的上述第一视频素材的素材描述向量，包括：对上述第一视频素材进行内容识别，得到第一描述向量，其中，上述第一描述向量用于表征对上述第一视频素材所识别到的视频内容；在上述第一视频素材具有对应的第一素材描述信息的情况下，根据上述第一素材描述信息获取上述第一视频素材在文字类型下的第二描述向量，其中，上述第二描述向量用于表征上述第一素材描述信息，上述第一素材描述信息用于描述上述第一视频素材；在上述第一视频素材具有对应的第一图片的情况下，对上述第一图片进行内容识别，得到第三描述向量，其中，上述第三描述向量用于表征对上述第一图片所识别到的图片内容；在上述第一视频素材具有对应的第一音频的情况下，对上述第一音频进行内容识别，得到第四描述向量，其中，上述第四描述向量用于表征对上述第一音频所识别到的音频内容；将上述第一描述向量、上述第二描述向量、上述第三描述向量以及上述第四描述向量融合为上述第一视频素材的素材描述向量。

可选地，可以对第一视频素材的内容进行识别，得到第一描述向量，该第一描述向量可以用于表征对第一视频素材所识别到的视频内容。换言之，该第一描述向量表示的是第一视频素材的原始视频内容的信息。

当第一视频素材内容具有对应的第一素材描述信息时，可以根据该第一素材描述信息获取第一视频素材在文字类型下的第二描述向量。其中，该第二描述向量用于表征第一素材描述信息，第一素材描述信息用于描述第一视频素材。换言之，第二描述向量可以为用户为第一视频素材添加的描述文字，或者，存储第一视频素材的设备自动为第一视频素材添加的描述文字。

当第一视频素材内容具有对应的第一图片时，可以对该第一图片进行内容识别，得到第三描述向量，其中，第三描述向量可以用来表征对第一图片所识别到的图片内容。该第一图片可以理解为第一视频素材的封面，或者，第一视频素材中的精彩画面等。

当第一视频素材内容具有对应的第一音频时，可以对该第一音频进行内容识别，得到第四描述向量，其中，第四描述向量可以用来表征对第一音频所识别到的音频内容。该第一音频可以理解为第一视频素材的配乐中的高潮部分等。

最后，将上述第一描述向量、上述第二描述向量、上述第三描述向量以及上述第四描述向量融合为上述第一视频素材的素材描述向量。

需要说明的是，第一视频素材的素材描述向量中包括第一描述向量，以及包括上述第二描述向量、上述第三描述向量以及上述第四描述向量中的至少一个向量。在此不作任何限定。

通过本实施例，可以通过向量融合的方式，得到第一视频素材的素材描述向量，使得第一视频素材的素材描述向量可以包含多种信息，极大地丰富了第一视频素材的素材描述向量，进而可以使目标视频包含更多的信息，丰富了目标视频，提高了用户体验。

下面结合可选示例对视频生成方法的流程进行说明。该方法具体如下：

需要说明的是，以下过程以游戏应用场景为例进行说明，但本发明实施例还可以应用于影视视频、新闻视频、旅游视频、美食视频、社会纪实视频等领域，在此不对本方法的应用场景作任何限定。

如图3所示，上述方法主要包括两个方面：

第一方面：在内容段生成素材库：游戏内容作者上传视频、图片内容时，根据以计算机视觉(Computer Vision，简称CV)能力为主的知识细粒度提取模块后，基于结构化存储的知识信息，将素材进行智能入库，打上对应的不同粒度的表征标签，形成增量的素材库用于剪辑。

第二方面：在功能端进行Text2Video智能视频生成：游戏内容创作者构思剧本等描述文字后，基于描述文字和已有的视频、图片素材，进行素材的智能搜索，对候选素材进行视频内容和描述文字的特效添加和剪辑，来生成目标视频。作为一套自动化的UGC创作辅助工具，能够提供创作的素材推荐和完整创作视频的解决方案。

以游戏应用场景为例，以下介绍素材库(如目标素材集合)的构建过程，具体如下：

可选地，素材库的原生内容积累，主要依托于如下三个渠道，直播网站的游戏内容入库，外部视频网站的合作搬运以及用户上传，所有视频内容会经过一个统一的视频理解系统，如图3所示，对上述三个渠道得到的视频进行多层次的分类和检测。

如图4所示，可以基于cv能力构建的多层次视频理解系统，对入库素材进行解析，解析入库素材是否为游戏视频、是否为影视、动画cg类视频，如果是游戏视频，则游戏视频具体为何游戏，确定游戏类目后，进入细化的cv游戏理解系统，用于检测游戏视频中的主角英雄、事件类别(多杀、吃鸡等特殊场景)。结合人工审核，对每个视频打上具体的视频标签，用于对视频内容进行离散化的简要描述。

然后，如图5所示，对于任意一段素材内容(包括视频、图片、描述文字、标题、音频等)，还需要进行统一化的向量表征，具体表征的方式是通过一个多模态嵌入网络来对内容进行向量化，并将形成的内容表征向量与视频一起进行存储。

在完成一定程度的素材积累后，当内容素材可以覆盖绝大多数内容需求时，该素材库即可以承接text2video的能力。

可选地，可以按照以下方式实现素材的检索，

例如，上述方法可以应用于以下两个场景。

场景1:用户输入一段描述内容用于创作视频：

小乔和大乔在郊外玩。遇到了帅气的周瑜。小乔爱上了周瑜,虽然偶尔吵架打闹。直到一个叫做诸葛亮的男人出现，带领大军打得周瑜溃败，郁郁而终。小乔开始追着诸葛亮为夫报仇。

场景2:用户输入语段描述用于检索视频：

虞姬怎么打程咬金？

98K怎么进行瞄准？

在服务端获取到上述场景1或者场景2的描述文字后，服务端对描述文字进行解析，通过多路检索召回的方式，找寻目标视频video剪辑所需的源素材。第一路为基于ES系统的模糊匹配能力，ES系统对于搜索query可以做到简单的分词和模糊查询，并且实现检索结果的召回。第二路为基于FAISS的内容召回，描述文字将进入描述向量化网络，生成描述相关的向量表征。其中，FAISS是Facebook AI团队开源的针对聚类和相似性搜索库，为稠密向量提供高效相似度搜索和聚类，支持十已级别向量的搜索，是目前最为成熟的近似近邻搜索库，包含多种搜索任意大小向量集。

如图6所示，基于FAISS系统，将描述文字对应的语义表征向量和素材库中的内容向量表征(如素材描述向量)进行向量相似度计算，选取其中相似度最高的内容作为基础素材的补集。两路召回结构的并集作为原始创作素材，满足用户用于检索视频的需求。

可选地，可以按照以下方式实现基于描述文字的目标视频的生成。

可选地，如图7所示，内容创作基于素材检索的结果进行，通过对于描述语句的素材检索，可以得到一连串依据描述语句线性排列的候选素材，每个描述子句对应多个候选素材。模型已经给候选素材一个关联度(相似度)评分，随机选取评分较高的素材，经过视频内容理解系统后，确定视频种类以及精彩高光内容的出现时间点，以及人物位置等元素。经由特效添加模块，随机套用预设的特效脚本，实现光环添加，转场动效添加等功能，并剪辑成为一个终版视频。例如，素材检索的结果包括2个视频片段，1个音频，1个图像，那么可以先对图像进行处理，确定图像的播放时间点，再对视频片段进行处理，确定视频片段的播放时间点，最后将音频的音轨进行嵌入，剪辑得到目标视频。

需要说明的是，需要预先对模型进行训练。

内容表征网络和文字描述网络的协同训练构架如下：

清洗数据集，去除特殊字符后，得到纯净的文字描述文本。对于每条文本，人工搜索与之对应的内容素材，作为正例样本存储于训练数据中，同时打乱素材文字对，随机排列后进行人工选择，剔除模糊相近的内容-素材对，得到不相匹配的内容-素材候选对，作为负例样本，也存储于训练数据中。

如图8所示，多模态内容表征网络的主要包含四个模态，视频模态、图片模态、描述文字模态、音频模态。分别通过分帧后经过CNN网络、直接经过CNN网络、经过双向转换编码器bert预训练网络、经过wavenet网络(用于提取声学特征的网络模型)来提取四个模态的特征，然后通过一个模态融合网络后，得到内容模态的表征。

如图8所示，描述文本表征网络将会对短文本进行bert文字表征，然后通过一个膨胀卷积网络(Dynamic Graph CNN，简称DGCNN)来提取短文本内的关系三元组，得到关系三元组后，将会对三元组进行关系label的embedding，该关系模态和一开始提取的bert文字表征模态经过一个fusion layer后，得到描述文字的向量表征。

双网络以联合训练的方式进行梯度更新，两个表征共同进入一个分类网络层，以及采用交叉熵的模式进行网络训练。使得内容匹配的样本对中，内容表征和描述表征的向量相似度最高。

通过本实施例，上述基于text2video的方式，提供了一套完全自动的游戏领域文本转视频框架流程，且框架可在非游戏领域进行拓展和复用。作为一套text2video系统范例具有很强的参考价值。不仅满足现有信息流平台对于游戏视频内容的大量需求，还可以为游戏推广和宣传提供材料，有很强的商用价值。上述方式，可以为有创作欲望，但是并没有专业的视频剪辑能力，且没有大量时间收集有效素材的用户提供了一套可以使用的创作平台，满足素材挑选、视频剪辑、特效添加等多维度需求。同时，上述方式可以用于素材的搜索，满足用户对于视频内容的精准化搜索需求，也可反向服务于推荐场景。上述方式中，采用人工智能算法为描述文字生成了大量的匹配视频，形成了大量的视频-文本对，作为数据基础，使得训练完全端对端的视频转文字、文字转视频系统成为了可能，提高了文字转视频的能力。

以王者荣耀为例，对视频生成方法的表现效果进行说明，具体如下：

可选地，用户输入一段描述语句，如：庄周的高光时刻。服务端对该描述语句进行解析，通过多路检索召回的方式，在目标素材集合中搜索剪辑所需的候选素材，然后从这些候选素材中随机选取评分较高的素材，假设检索到了2个视频片段，1个音频，1个图像，然后，经过视频内容理解系统后，确定视频种类以及精彩高光内容的出现时间点，以及人物位置等元素。经由特效添加模块，随机套用预设的特效脚本，实现光环添加，转场动效添加等功能，并剪辑成为一个目标视频。目标视频的效果如图9-12所示。

在生成的目标视频中，可以在播放到图9中的第一时刻时，以转场特效的方式，显示庄周击杀的三个目标的头像，然后播放庄周击杀三个目标的游戏视频(图中未示出)，在播放完周击杀三个目标的游戏视频后，且播放到图10所示的第二时刻时，以转场特效的方式，显示庄周对击杀的三个目标造成的总伤害，当播放到如图11所示的第三时刻时，以转场特效的方式，显示庄周三连决胜的高光时刻，在播放到图12所示的第四时刻时，显示庄周在一局游戏的评分。

可理解，以上仅为一种示例，本实施例在此不作任何限定。

通过本实施例，可以在用户输入描述文字时，基于描述文字，生成相应的视频，能够以视频的形式直观地表现输入的描述文字的内容，极大地提高了用户体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的又一方面，还提供了一种视频生成装置，如图13所示，该装置包括：

第一获取单元1302，用于第一视频素材的素材描述向量；

第一处理单元1304，用于在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型；

第二处理单元1306，用于根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。

通过本实施例，首先获取目标描述文字的描述特征，如果描述特征中包括目标描述文字的语义表征向量，则根据语义表征向量在目标素材集合中搜索第一素材，如果描述特征中包括目标描述文字的一组词语，则根据该一组词语在目标素材集合中搜索第二素材，其中，对目标描述文字进行分词可以得到该一组词语，语义表征向量与第一素材的素材描述向量之间的相似度大于第一阈值，上述一组词语中的词语与第二素材的素材描述信息匹配，目标素材集合是一个包括多种类型的素材的素材集合，多种类型中至少包括视频类型，对于该目标素材集合中的每个素材，均设置有对应的素材标签，素材标签包括素材描述向量和素材描述信息。最后，根据搜索到的第一素材和第二素材生成与目标描述文字对应的目标视频。采用上述技术方案，由于目标素材集合中至少包括视频类型，那么，在目标素材集合中搜索到的第一素材和第二素材，必然是视频类型的素材，最后，基于第一素材和第二素材生成与目标描述文字对应的目标视频，使得生成的目标视频的来源素材中包含了视频类型的素材，不同于相关技术中基于图像生成目标视频，本发明实施例中基于视频类型的素材生成的目标视频，视频质量更高，效果更好，极大地提高了基于文字生成的目标视频的视频质量。

作为一种可选的技术方案，上述装置还包括：第三处理单元，用于在上述描述特征包括上述目标描述文字的语义表征向量的情况下，根据上述语义表征向量在上述目标素材集合中搜索上述第一素材；根据上述第一素材生成与上述目标描述文字对应的上述目标视频；或者，第四处理单元，用于在上述描述特征包括一组词语的情况下，根据上述一组词语在上述目标素材集合中搜索上述第二素材；根据上述第二素材生成与上述目标描述文字对应的上述目标视频。

作为一种可选的技术方案，上述第一获取单元，包括：第一处理模块，用于对上述目标描述文字进行分词，得到上述一组词语；第二处理模块，用于在上述一组词语中选择目标关键词语，其中，上述目标关键词语与上述目标描述文字的语义相关；第三处理模块，用于将上述目标关键词语输入到目标语义识别模型，得到上述目标语义识别模型输出的上述语义表征向量。

作为一种可选的技术方案，上述第二处理模块，还用于在上述一组词语中选择第一词语、第二词语和第三词语中的至少一个，得到上述目标关键词语，其中，上述第一词语为上述目标描述文字中的主语，上述第二词语为上述目标描述文字中的谓语，上述第三词语为上述目标描述文字中的宾语。

作为一种可选的技术方案，上述第一处理单元，包括：第一搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第三素材和图片类型的第四素材的情况下，将上述第三素材和上述第四素材作为上述第一素材，其中，上述多种类型包括上述图片类型，上述第三素材和上述第四素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值；或者，第二搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第三素材和音频类型的第五素材的情况下，将上述第三素材和上述第五素材作为上述第一素材，其中，上述多种类型包括上述音频类型，上述第三素材和上述第五素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值；或者，第三搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第三素材、上述图片类型的第四素材以及上述音频类型的第五素材的情况下，将上述第三素材、上述第四素材和上述第五素材作为上述第一素材，其中，上述多种类型包括上述图片类型和上述音频类型，上述第三素材、上述第四素材和上述第五素材的素材描述向量与上述语义表征向量之间的相似度大于上述第一阈值。

作为一种可选的技术方案，上述第一处理单元，包括：第四搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第六素材和上述图片类型的第七素材的情况下，将上述第六素材和上述第七素材作为上述第二素材，其中，上述多种类型包括上述图片类型，上述第六素材和上述第七素材的素材描述信息与上述一组词语中的词语匹配；或者，第五搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第六素材和上述音频类型的第八素材的情况下，将上述第六素材和上述第八素材作为上述第二素材，其中，上述多种类型包括上述音频类型，上述第六素材和上述第八素材的素材描述信息与上述一组词语中的词语匹配；或者，第六搜索模块，用于在上述目标素材集合中搜索到上述视频类型的第六素材、上述图片类型的第七素材和上述音频类型的第八素材的情况下，将上述第六素材、上述第七素材和上述第八素材作为上述第二素材，其中，上述多种类型包括上述图片类型和上述音频类型，上述第六素材、上述第七素材和上述第八素材的素材描述信息与上述一组词语中的词语匹配。

作为一种可选的技术方案，上述第二处理单元，包括：确定模块，用于将上述第一素材和上述第二素材的并集确定为目标素材；第四处理模块，用于根据上述目标素材生成与上述目标描述文字对应的上述目标视频。

作为一种可选的技术方案，上述第四处理模块，还用于在上述目标素材包括上述视频类型的视频素材的情况下，对上述视频素材进行内容检测，得到目标检测结果，其中，上述目标检测结果用于表示上述视频素材中的关键信息，上述关键信息包括关键事件，和/或，关键画面，和/或，关键片段；根据上述目标检测结果和上述目标素材，生成上述目标视频。

作为一种可选的技术方案，上述第四处理模块，还用于为上述目标检测结果表示的上述关键信息设置对应的转场特效；按照预定的编辑逻辑将上述目标素材编辑为上述目标视频，其中，上述目标视频中的上述关键信息上显示有上述对应的转场特效。

作为一种可选的技术方案，上述第四处理模块，还用于在上述目标素材还包括上述图片类型的图片素材的情况下，按照上述编辑逻辑为上述图片素材和上述视频素材设置对应的第一时间播放标签，并按照上述第一时间播放标签的顺序将上述图片素材和上述视频素材编辑为上述目标视频；或者，在上述目标素材还包括上述音频类型的音频素材的情况下，按照上述编辑逻辑为上述音频素材和上述视频素材设置对应的第二时间播放标签，并按照上述第二时间播放标签的顺序将上述音频素材和上述视频素材编辑为上述目标视频；或者，在上述目标素材还包括上述图片类型的图片素材以及上述音频类型的音频素材的情况下，按照上述编辑逻辑为上述图片素材、上述音频素材和上述视频素材设置对应的第三时间播放标签，并按照上述第三时间播放标签的顺序将上述图片素材、上述音频素材和上述视频素材编辑为上述目标视频。

作为一种可选的技术方案，上述装置还包括：第四处理单元，用于获取上述视频类型的第一视频素材以及目标类型的素材，其中，上述目标类型的素材包括以下至少之一：图片类型的第一图片素材、音频类型的第一音频素材、文字类型的第一文字素材；第五处理单元，用于将上述第一视频素材以及上述目标类型的素材分别输入到多模态向量确定模型中；第六处理单元，用于通过上述多模态向量确定模型输出上述第一视频素材的素材描述向量，以及上述目标类型的素材的素材描述向量；其中，上述目标素材集合包括上述第一视频素材以及上述目标类型的素材，上述多种类型包括上述目标类型，上述多模态向量确定模型用于对于输入的素材分别获取上述视频类型下的描述向量以及上述目标类型下的描述向量，并将上述视频类型下的描述向量以及上述目标类型下的描述向量融合成上述输入的素材的素材描述向量。

作为一种可选的技术方案，上述装置还包括：第七处理单元，用于对上述第一视频素材进行内容识别，得到第一描述向量，其中，上述第一描述向量用于表征对上述第一视频素材所识别到的视频内容；在上述第一视频素材具有对应的第一素材描述信息的情况下，根据上述第一素材描述信息获取上述第一视频素材在文字类型下的第二描述向量，其中，上述第二描述向量用于表征上述第一素材描述信息，上述第一素材描述信息用于描述上述第一视频素材；在上述第一视频素材具有对应的第一图片的情况下，对上述第一图片进行内容识别，得到第三描述向量，其中，上述第三描述向量用于表征对上述第一图片所识别到的图片内容；在上述第一视频素材具有对应的第一音频的情况下，对上述第一音频进行内容识别，得到第四描述向量，其中，上述第四描述向量用于表征对上述第一音频所识别到的音频内容；将上述第一描述向量、上述第二描述向量、上述第三描述向量以及上述第四描述向量融合为上述第一视频素材的素材描述向量。

作为一种可选的技术方案，上述第四处理模块，还用于在上述目标素材包括上述视频类型的多个视频素材的情况下，在上述多个视频素材中选择一个视频素材，并根据上述一个视频素材生成上述目标视频；或者，在上述目标素材包括上述视频类型的多个视频素材以及图片类型的多个图片素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个图片素材中选择一个图片素材，并根据上述一个视频素材和上述一个图片素材生成上述目标视频，其中，上述多种类型包括上述图片类型；或者，在上述目标素材包括上述视频类型的多个视频素材以及音频类型的多个音频素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个音频素材中选择一个音频素材，并根据上述一个视频素材和上述一个音频素材生成上述目标视频，其中，上述多种类型包括上述音频类型；或者，在上述目标素材包括上述视频类型的多个视频素材、图片类型的多个图片素材、以及音频类型的多个音频素材的情况下，在上述多个视频素材中选择一个视频素材，在上述多个图片素材中选择一个图片素材，在上述多个音频素材中选择一个音频素材，并根据上述一个视频素材、上述一个图片素材以及上述一个音频素材生成上述目标视频，其中，上述多种类型包括上述图片类型和上述音频类型。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标描述文字的描述特征；

S2，在上述描述特征包括上述目标描述文字的语义表征向量以及一组词语的情况下，根据上述语义表征向量在目标素材集合中搜索第一素材，根据上述一组词语在上述目标素材集合中搜索第二素材，其中，上述一组词语为对上述目标描述文字进行分词得到的词语，上述第一素材的素材描述向量与上述语义表征向量之间的相似度大于第一阈值，上述第二素材的素材描述信息与上述一组词语中的词语匹配，上述目标素材集合中包括多种类型的素材，上述多种类型包括视频类型；

S3，根据上述第一素材和上述第二素材生成与上述目标描述文字对应的目标视频。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取器)、磁盘或光盘等。

根据本发明实施例的又一方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述视频生成方法的各种可选实现方式中提供的方法。

可选地，在本实施例中，上述计算机程序产品或计算机程序可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取目标描述文字的描述特征；

根据本发明实施例的又一个方面，还提供了一种用于实施上述视频生成方法的电子设备，该电子设备可以是图1所示的终端设备。本实施例以该电子设备为终端设备为例来说明。如图14所示，该电子设备包括存储器1402和处理器1404，该存储器1402中存储有计算机程序，该处理器1404被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取目标描述文字的描述特征；

可选地，本领域普通技术人员可以理解，图14所示的结构仅为示意，其并不对上述电子设备的结构造成限定。例如，电子设备还可包括比图14中所示更多或者更少的组件(如网络接口等)，或者具有与图14所示不同的配置。

其中，存储器1402可用于存储软件程序以及模块，如本发明实施例中的视频生成方法和装置对应的程序命令/模块，处理器1404通过运行存储在存储器1402内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的视频生成方法。存储器1402可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1402可进一步包括相对于处理器1404远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。作为一种示例，如图14所示，上述存储器1402中可以但不限于包括上述视频生成装置中的第一获取单元1302，第一处理单元1304、第二处理单元1306。此外，还可以包括但不限于上述视频生成装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1406包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1406为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1408，用于显示上述目标视频，连接总线1410，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述终端设备或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点(P2P，Peer To Peer)网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来命令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干命令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种视频生成方法，其特征在于，包括：

获取目标描述文字的描述特征；

在所述描述特征包括所述目标描述文字的语义表征向量以及一组词语的情况下，根据所述语义表征向量在目标素材集合中搜索第一素材，根据所述一组词语在所述目标素材集合中搜索第二素材，其中，所述一组词语为对所述目标描述文字进行分词得到的词语，所述第一素材的素材描述向量与所述语义表征向量之间的相似度大于第一阈值，所述第二素材的素材描述信息与所述一组词语中的词语匹配，所述目标素材集合中包括多种类型的素材，所述多种类型包括视频类型；

根据所述第一素材和所述第二素材生成与所述目标描述文字对应的目标视频；

所述根据所述一组词语在所述目标素材集合中搜索第二素材，包括：

在所述目标素材集合中搜索到所述视频类型的第六素材和图片类型的第七素材的情况下，将所述第六素材和所述第七素材作为所述第二素材，其中，所述多种类型包括所述图片类型，所述第六素材和所述第七素材的素材描述信息与所述一组词语中的词语匹配；或者

在所述目标素材集合中搜索到所述视频类型的第六素材和音频类型的第八素材的情况下，将所述第六素材和所述第八素材作为所述第二素材，其中，所述多种类型包括所述音频类型，所述第六素材和所述第八素材的素材描述信息与所述一组词语中的词语匹配；或者

在所述目标素材集合中搜索到所述视频类型的第六素材、所述图片类型的第七素材和所述音频类型的第八素材的情况下，将所述第六素材、所述第七素材和所述第八素材作为所述第二素材，其中，所述多种类型包括所述图片类型和所述音频类型，所述第六素材、所述第七素材和所述第八素材的素材描述信息与所述一组词语中的词语匹配。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述描述特征包括所述目标描述文字的语义表征向量的情况下，根据所述语义表征向量在所述目标素材集合中搜索所述第一素材；根据所述第一素材生成与所述目标描述文字对应的所述目标视频；或者

在所述描述特征包括一组词语的情况下，根据所述一组词语在所述目标素材集合中搜索所述第二素材；根据所述第二素材生成与所述目标描述文字对应的所述目标视频。

3.根据权利要求1所述的方法，其特征在于，所述获取目标描述文字的描述特征，包括：

对所述目标描述文字进行分词，得到所述一组词语；

在所述一组词语中选择目标关键词语，其中，所述目标关键词语与所述目标描述文字的语义相关；

将所述目标关键词语输入到目标语义识别模型，得到所述目标语义识别模型输出的所述语义表征向量。

4.根据权利要求3所述的方法，其特征在于，所述在所述一组词语中选择目标关键词语，包括：

在所述一组词语中选择第一词语、第二词语和第三词语中的至少一个，得到所述目标关键词语，其中，所述第一词语为所述目标描述文字中的主语，所述第二词语为所述目标描述文字中的谓语，所述第三词语为所述目标描述文字中的宾语。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语义表征向量在目标素材集合中搜索第一素材，包括：

在所述目标素材集合中搜索到所述视频类型的第三素材和图片类型的第四素材的情况下，将所述第三素材和所述第四素材作为所述第一素材，其中，所述多种类型包括所述图片类型，所述第三素材和所述第四素材的素材描述向量与所述语义表征向量之间的相似度大于所述第一阈值；或者

在所述目标素材集合中搜索到所述视频类型的第三素材和音频类型的第五素材的情况下，将所述第三素材和所述第五素材作为所述第一素材，其中，所述多种类型包括所述音频类型，所述第三素材和所述第五素材的素材描述向量与所述语义表征向量之间的相似度大于所述第一阈值；或者

在所述目标素材集合中搜索到所述视频类型的第三素材、所述图片类型的第四素材以及所述音频类型的第五素材的情况下，将所述第三素材、所述第四素材和所述第五素材作为所述第一素材，其中，所述多种类型包括所述图片类型和所述音频类型，所述第三素材、所述第四素材和所述第五素材的素材描述向量与所述语义表征向量之间的相似度大于所述第一阈值。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一素材和所述第二素材生成与所述目标描述文字对应的目标视频，包括：

将所述第一素材和所述第二素材的并集确定为目标素材；

根据所述目标素材生成与所述目标描述文字对应的所述目标视频。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标素材生成与所述目标描述文字对应的所述目标视频，包括：

在所述目标素材包括所述视频类型的视频素材的情况下，对所述视频素材进行内容检测，得到目标检测结果，其中，所述目标检测结果用于表示所述视频素材中的关键信息，所述关键信息包括关键事件，和/或，关键画面，和/或，关键片段；

根据所述目标检测结果和所述目标素材，生成所述目标视频。

8.根据权利要求7所述的方法，其特征在于，所述根据所述目标检测结果和所述目标素材，生成所述目标视频，包括：

为所述目标检测结果表示的所述关键信息设置对应的转场特效；

按照预定的编辑逻辑将所述目标素材编辑为所述目标视频，其中，所述目标视频中的所述关键信息上显示有所述对应的转场特效。

9.根据权利要求8所述的方法，其特征在于，按照预定的编辑逻辑将所述目标素材编辑为所述目标视频，包括：

在所述目标素材还包括图片类型的图片素材的情况下，按照所述编辑逻辑为所述图片素材和所述视频素材设置对应的第一时间播放标签，并按照所述第一时间播放标签的顺序将所述图片素材和所述视频素材编辑为所述目标视频；或者

在所述目标素材还包括音频类型的音频素材的情况下，按照所述编辑逻辑为所述音频素材和所述视频素材设置对应的第二时间播放标签，并按照所述第二时间播放标签的顺序将所述音频素材和所述视频素材编辑为所述目标视频；或者

在所述目标素材还包括所述图片类型的图片素材以及所述音频类型的音频素材的情况下，按照所述编辑逻辑为所述图片素材、所述音频素材和所述视频素材设置对应的第三时间播放标签，并按照所述第三时间播放标签的顺序将所述图片素材、所述音频素材和所述视频素材编辑为所述目标视频。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述方法还包括：

获取所述视频类型的第一视频素材以及目标类型的素材，其中，所述目标类型的素材包括以下至少之一：图片类型的第一图片素材、音频类型的第一音频素材、文字类型的第一文字素材；

将所述第一视频素材，以及所述目标类型的素材分别输入到多模态向量确定模型中；

通过所述多模态向量确定模型输出所述第一视频素材的素材描述向量，以及所述目标类型的素材的素材描述向量；

其中，所述目标素材集合包括所述第一视频素材以及所述目标类型的素材，所述多种类型包括所述目标类型，所述多模态向量确定模型用于对于输入的素材分别获取所述视频类型下的描述向量以及所述目标类型下的描述向量，并将所述视频类型下的描述向量以及所述目标类型下的描述向量融合成所述输入的素材的素材描述向量。

11.根据权利要求10所述的方法，其特征在于，所述将所述第一视频素材输入到所述多模态向量确定模型中，通过所述多模态向量确定模型输出所述第一视频素材的素材描述向量，包括：

对所述第一视频素材进行内容识别，得到第一描述向量，其中，所述第一描述向量用于表征对所述第一视频素材所识别到的视频内容；

在所述第一视频素材具有对应的第一素材描述信息的情况下，根据所述第一素材描述信息获取所述第一视频素材在文字类型下的第二描述向量，其中，所述第二描述向量用于表征所述第一素材描述信息，所述第一素材描述信息用于描述所述第一视频素材；

在所述第一视频素材具有对应的第一图片的情况下，对所述第一图片进行内容识别，得到第三描述向量，其中，所述第三描述向量用于表征对所述第一图片所识别到的图片内容；

在所述第一视频素材具有对应的第一音频的情况下，对所述第一音频进行内容识别，得到第四描述向量，其中，所述第四描述向量用于表征对所述第一音频所识别到的音频内容；

将所述第一描述向量、所述第二描述向量、所述第三描述向量以及所述第四描述向量融合为所述第一视频素材的素材描述向量。

12.根据权利要求6所述的方法，其特征在于，所述根据所述目标素材生成与所述目标描述文字对应的所述目标视频，包括：

在所述目标素材包括所述视频类型的多个视频素材的情况下，在所述多个视频素材中选择一个视频素材，并根据所述一个视频素材生成所述目标视频；或者

在所述目标素材包括所述视频类型的多个视频素材以及图片类型的多个图片素材的情况下，在所述多个视频素材中选择一个视频素材，在所述多个图片素材中选择一个图片素材，并根据所述一个视频素材和所述一个图片素材生成所述目标视频，其中，所述多种类型包括所述图片类型；或者

在所述目标素材包括所述视频类型的多个视频素材以及音频类型的多个音频素材的情况下，在所述多个视频素材中选择一个视频素材，在所述多个音频素材中选择一个音频素材，并根据所述一个视频素材和所述一个音频素材生成所述目标视频，其中，所述多种类型包括所述音频类型；或者

在所述目标素材包括所述视频类型的多个视频素材、图片类型的多个图片素材、以及音频类型的多个音频素材的情况下，在所述多个视频素材中选择一个视频素材，在所述多个图片素材中选择一个图片素材，在所述多个音频素材中选择一个音频素材，并根据所述一个视频素材、所述一个图片素材以及所述一个音频素材生成所述目标视频，其中，所述多种类型包括所述图片类型和所述音频类型。

13.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至12任一项中所述的方法。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至12任一项中所述的方法。