CN114254158A

CN114254158A - 视频生成方法及其装置、神经网络的训练方法及其装置

Info

Publication number: CN114254158A
Application number: CN202210174087.9A
Authority: CN
Inventors: 王海峰; �田�浩; 肖欣延; 李幸; 吴甜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-03-29
Anticipated expiration: 2042-02-25
Also published as: CN114254158B; JP2023062173A; US20230214423A1

Abstract

本公开提供了一种视频生成方法及其装置、神经网络的训练方法及其装置，涉及人工智能领域，具体涉及自然语言处理技术、深度学习技术、和图像处理技术等。视频生成方法包括：获取文本的全局语义信息和局部语义信息，局部语义信息与文本中的文本片段对应；基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据；基于局部语义信息在数据库中进行检索，以得到与局部语义信息对应的至少一个第二数据；基于至少一个第一数据和至少一个第二数据，得到候选数据集；基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据；以及基于至少一个文本片段各自匹配的目标数据生成视频。

Description

视频生成方法及其装置、神经网络的训练方法及其装置

技术领域

本公开涉及人工智能领域，具体涉及自然语言处理技术、深度学习技术、计算机视觉技术、和图像处理技术等，特别涉及一种视频生成方法、一种神经网络的训练方法、一种视频生成装置、一种神经网络的训练装置、电子设备和计算机可读存储介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

数字内容是互联网的核心基础。与文本内容相比，视频内容包含更丰富的信息，对于用户更加友好，也具有更好的传播效果。随着移动互联网硬件设施的发展，视频内容的需求迅速增长。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种视频生成方法、一种神经网络的训练方法、一种视频生成装置、一种神经网络的训练装置、电子设备和计算机可读存储介质。

根据本公开的一方面，提供了一种视频生成方法，该方法包括：获取文本的全局语义信息和至少一个局部语义信息，其中，至少一个局部语义信息与文本中的至少一个文本片段对应；基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据；针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集；基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据；以及基于至少一个文本片段各自匹配的目标数据生成视频。

根据本公开的另一方面，提供了一种神经网络的训练方法，该神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对多个输入特征进行处理，该方法包括：获取样本文本、样本文本的真实全局语义信息、以及样本文本的至少一个真实局部语义信息，其中，至少一个真实局部语义信息和样本文本中的至少一个文本片段对应；将样本文本所包括的多个第一样本词输入神经网络，以得到样本文本的预测全局语义信息和至少一个预测局部语义信息；基于真实全局语义信息、预测全局语义信息、至少一个真实局部语义信息、以及至少一个预测局部语义信息，计算第一损失值；获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据；将样本文本片段所包括的多个第二样本词和正例样本数据所包括的至少一个正例图像块输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本视觉相关度，正例样本视觉相关度指示样本文本片段的文本信息和正例样本数据的视觉信息之间的相关度；将多个第二样本词和负例样本数据所包括的至少一个负例图像块输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本视觉相关度，负例样本视觉相关度指示样本文本片段的文本信息和负例样本数据的视觉信息之间的相关度；基于正例样本视觉相关度和负例样本视觉相关度，计算第二损失值，其中，第二损失值和正例样本视觉相关度成负相关，并且和负例样本视觉相关度成正相关；以及基于第一损失值和第二损失值，调整神经网络的参数。

根据本公开的另一方面，提供了一种视频生成装置，该装置包括：第一获取单元，被配置为获取文本的全局语义信息和至少一个局部语义信息，其中，至少一个局部语义信息与文本中的至少一个文本片段对应；第一检索单元，被配置为基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据；第二检索单元，被配置为针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；第二获取单元，被配置为基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集；匹配单元，被配置为基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据；以及生成单元，被配置为基于至少一个文本片段各自匹配的目标数据生成视频。

根据本公开的另一方面，提供了一种神经网络的训练装置，神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对多个输入特征进行处理，该装置包括：第三获取单元，被配置为获取样本文本、样本文本的真实全局语义信息、以及样本文本的至少一个真实局部语义信息，其中，至少一个真实局部语义信息和样本文本中的至少一个文本片段对应；第一输入单元，被配置为将样本文本所包括的多个第一样本词输入神经网络，以得到样本文本的预测全局语义信息和至少一个预测局部语义信息；第一计算单元，被配置为基于真实全局语义信息、预测全局语义信息、至少一个真实局部语义信息、以及至少一个预测局部语义信息，计算第一损失值；第四获取单元，被配置为获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据；第二输入单元，被配置为将样本文本片段所包括的多个第二样本词和正例样本数据所包括的至少一个正例图像块输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本视觉相关度，正例样本视觉相关度指示样本文本片段的文本信息和正例样本数据的视觉信息之间的相关度；第三输入单元，被配置为将多个第二样本词和负例样本数据所包括的至少一个负例图像块输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本视觉相关度，负例样本视觉相关度指示样本文本片段的文本信息和负例样本数据的视觉信息之间的相关度；第二计算单元，被配置为基于正例样本视觉相关度和负例样本视觉相关度，计算第二损失值，其中，第二损失值和正例样本视觉相关度成负相关，并且和负例样本视觉相关度成正相关；以及调整单元，被配置为基于第一损失值和第二损失值，调整神经网络的参数。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，这些指令被至少一个处理器执行，以使至少一个处理器能够执行上述方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述方法。

根据本公开的实施例，通过对文本进行多层次理解，以获取文本的全局语义信息和局部语义信息，进而基于上述多层次语义信息进行数据检索以得到候选数据，并基于文本片段和候选数据的相关度将二者进行匹配，使得能够生成先后内容连贯一致，与段落和文本整体均匹配且不违和的视频，提高用户观看体验。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1A示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图；

图1B示出了根据本公开的实施例的统一模态神经网络的示意图；

图2示出了根据本公开示例性实施例的视频生成方法的流程图；

图3示出了根据本公开示例性实施例的视频生成方法的流程图；

图4示出了根据本公开示例性实施例的视频生成方法的流程图；

图5示出了根据本公开示例性实施例的为至少一个文本片段匹配目标数据的流程图；

图6示出了根据本公开示例性实施例的神经网络的训练方法的流程图；

图7示出了根据本公开示例性实施例的神经网络的训练方法的流程图；

图8示出了根据本公开示例性实施例的神经网络的训练方法的流程图；

图9示出了根据本公开示例性实施例的视频生成装置的结构框图；

图10示出了根据本公开示例性实施例的视频生成装置的结构框图；

图11示出了根据本公开示例性实施例的视频生成装置的结构框图；

图12示出了根据本公开示例性实施例的神经网络的训练装置的结构框图；

图13示出了根据本公开示例性实施例的神经网络的训练装置的结构框图；

图14示出了根据本公开示例性实施例的神经网络的训练装置的结构框图；以及

图15示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

然而，人工制作视频的效率相对较低，无法与日益增长的视频内容的需求想匹配。而相较于人工制作视频，人工进行文字创作的效率更高；同时，互联网中已积累了大量的文本或者图文类型的内容。因此，如何基于文本内容，结合互联网中的大量素材自动生成视频内容，已成为亟待解决的问题。

目前，基于文本内容生成视频的方式主要有以下三种：

（1）基于文字到视频剪辑工具生成的方法：通过剪辑工具，首先将用户输入的文本内容自动转化为音频，随后通过配音、主持人配置、背景图配置等人工操作，最终生成视频；

（2）工具类文章或模板类文章生成解说视频的方法：首先通过摘要抽取工具，提取文字序列，随后基于文字序列进行图片检索，配合固定模板进行人工编辑生成多个视频片段，将各个片段进行拼接以最终生成视频；

（3）基于主题描述文本的视频生成方法：基于神经网络模型将文本转化为语义向量，进而根据语义向量生成视频。该方法可以针对简短的文字描述（例如，一群大雁在天上飞）自动生成简单场景下的视频。

其中，上述前两种方法存在自动化和智能化程度不高，生成的视频模式相对固定，适用场景较为单一，难以根据生成结果进行训练优化等缺点；虽然第三种方法可以实现简单文本自动生成视频的效果，但是由于该方法直接依赖于神经网络模型，因此生成过程难以控制，生成结果的真实性和可靠性难以保证。

为解决上述问题，本公开通过对文本进行多层次理解，以获取文本的全局语义信息和局部语义信息，进而基于上述多层次语义信息进行数据检索以得到候选数据，并基于文本片段和候选数据的相关度将二者进行匹配，使得能够生成先后内容连贯一致，与段落和文本整体均匹配且不违和的视频，提高用户观看体验。

下面将结合附图详细描述本公开的实施例。

图1A示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1，该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。

在本公开的实施例中，服务器120可以运行使得能够执行视频生成方法的一个或多个服务或软件应用。

在某些实施例中，服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中，这些服务可以作为基于web的服务或云服务提供，例如在软件即服务（SaaS）模型下提供给客户端设备101、102、103、104、105和/或106的用户。

在图1A所示的配置中，服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解，各种不同的系统配置是可能的，其可以与系统100不同。因此，图1是用于实施本文所描述的各种方法的系统的一个示例，并且不旨在进行限制。

用户可以使用客户端设备101、102、103、104、105和/或106来配置基本选项，编辑待生成视频的文本，修改神经网络所生成的全文关键词、段落关键词等。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备，但是本领域技术人员将能够理解，本公开可以支持任何数量的客户端设备。

客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备，例如便携式手持设备、通用计算机（诸如个人计算机和膝上型计算机）、工作站计算机、可穿戴设备、智能屏设备、自助服务终端设备、服务机器人、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统，例如MICROSOFT Windows、APPLE iOS、类UNIX操作系统、Linux或类Linux操作系统（例如GOOGLE Chrome OS）；或包括各种移动操作系统，例如MICROSOFT WindowsMobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理（PDA）等。可穿戴设备可以包括头戴式显示器（诸如智能眼镜）和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序，例如各种与Internet相关的应用程序、通信应用程序（例如电子邮件应用程序）、短消息服务（SMS）应用程序，并且可以使用各种通信协议。

网络110可以是本领域技术人员熟知的任何类型的网络，其可以使用多种可用协议中的任何一种（包括但不限于TCP/IP、SNA、IPX等）来支持数据通信。仅作为示例，一个或多个网络110可以是局域网（LAN）、基于以太网的网络、令牌环、广域网（WAN）、因特网、虚拟网络、虚拟专用网络（VPN）、内部网、外部网、公共交换电话网（PSTN）、红外网络、无线网络（例如蓝牙、WIFI）和/或这些和/或其他网络的任意组合。

服务器120可以包括一个或多个通用计算机、专用服务器计算机（例如PC（个人计算机）服务器、UNIX服务器、中端服务器）、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机，或者涉及虚拟化的其他计算架构（例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池）。在各种实施例中，服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。

服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个，包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。

在一些实施方式中，服务器120可以包括一个或多个应用程序，以分析和合并从客户端设备101、102、103、104、105和/或106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序，以经由客户端设备101、102、103、104、105和/或106的一个或多个显示设备来显示数据馈送和/或实时事件。

在一些实施方式中，服务器120可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器120也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器（VPS，Virtual Private Server）服务中存在的管理难度大、业务扩展性弱的缺陷。

系统100还可以包括一个或多个数据库130。在某些实施例中，这些数据库可以用于存储数据和其他信息。例如，数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据库130可以驻留在各种位置。例如，由服务器120使用的数据库可以在服务器120本地，或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据库130可以是不同的类型。在某些实施例中，由服务器120使用的数据库例如可以是关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

在某些实施例中，数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库，例如键值存储库，对象存储库或由文件系统支持的常规存储库。

图1A的系统100可以以各种方式配置和操作，以使得能够应用根据本公开所描述的各种方法和装置。

根据本公开的一方面，提供了一种视频生成方法。该方法包括：步骤S201、获取文本的全局语义信息和至少一个局部语义信息，其中，至少一个局部语义信息与文本中的至少一个文本片段对应；步骤S202、基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据；步骤S203、针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；步骤S204、基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集；步骤S205、基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据；以及步骤S206、基于至少一个文本片段各自匹配的目标数据生成视频。

由此，通过对文本进行多层次理解，以获取文本的全局语义信息和局部语义信息，进而基于上述多层次语义信息进行数据检索以得到候选数据，并基于文本片段和候选数据的相关度将二者进行匹配，使得能够生成先后内容连贯一致，与段落和文本整体均匹配且不违和的视频，提高用户观看体验。

在一个示例性实施例中，在一个关于时间点A发生的公众人物B参加公司C的产品发布活动D的文本中的某个文本片段中仅包括公众人物B，则在使用与该文本片段对应的局部语义信息（例如，关键词“公众人物B”）进行检索时，所得到的数据可能是与公司C、产品发布活动D或者时间点A完全不相关的视频，例如该公众人物B的传播度很广的娱乐视频，或者公众人物B为其他公司的产品代言的广告。如果将这样的数据作为与该文本片段匹配的目标视频，则会使得最终生成的视频客观上与文本的整体内容不匹配并且违和。而如果仅使用根据全局语义信息进行检索而得到的视频或图像数据，可能会导致无法得到充足的候选数据以生成视频。即便候选数据足够，也会使得最终生成的视频内容单一，客观上与各个文本片段之间的相关度低。例如，文本中的一个文本片段是关于公众人物B在参加产品发布活动D时描述的历史事件E，而历史事件E不是文本的全局语义信息，则与历史事件E相关的视频或图像无法被检索到，进而无法被匹配为该文本片段的目标数据。

此外，通过基于文本片段和候选数据之间相关度为文本片段匹配目标数据，可以确保目标数据并非仅与对应的文本片段的关键词相关（否则同样会出现上述客观上违和的情况），而是和文本片段整体相关。

根据一些实施例，在开始进行文本转视频之前，可以支持用户通过应用终端进行基本配置选项的设置。

在一些实施例中，可以支持用户对语音合成（TTS，Text to Speech）功能进行配置，包括选择是否开启语音合成功能、语音合成的音色、音量以及语速等。

在一些实施例中，可以支持用户对背景音乐进行配置，包括选择是否添加背景音乐、背景音乐的类型等。

在一些实施例中，可以支持用户对视频的生成方式进行配置，包括选择全自动视频生成、人机交互辅助视频生成等。

在一些实施例中，可以支持用户对统一模态神经网络的训练方式进行配置，包括选择是否开启基于用户反馈数据进行神经网络优化训练等。

在一些实施例中，可以支持用户对待转换文本的类型进行设置，其中，待转换文本的类型可以包括文本文档、包含图文内容的内容类页面、搜索关键词或搜索问题、实体词等。用户可以选择上述类型中的一种或多种类型的文本进行视频生成。用户可以在设置待转换文本的类型的基础上，进一步通过给出具体文本文档、页面URL地址、具体搜索关键词文本或搜索问题文本、具体实体词文本等，设置相应于上述类型的具体的待转换文本。

在一些实施例中，可以支持用户对上述一种或多种基本配置选项进行配置。

根据一些实施例，可以基于待转换文本，获取用于生成视频的所述文本。

在一些实施例中，响应于确定待转换文本为文本文档，可以对用户选择的文本文档中的文本内容进行直接读取，从而获取所述文本。

在一些实施例中，响应于确定待转换文本为包含图文内容的内容类页面，例如包含新闻文章、知识类文章、经验类文章等内容的页面，可以基于开源的网页解析工具（例如HTML Parser等），对用户选择的页面URL地址进行读取和解析，从而获取该页面的主体文本和图片内容，并获取页面的标题、正文、段落、加粗、图文位置关系、表格等Meta标签信息。

在一些实施例中，响应于确定待转换文本为搜索关键词或搜索问题，可以基于搜索关键词或搜索问题获取多个搜索结果，进而基于开源的网页解析工具（例如HTML Parser等），对每个搜索结果的页面URL地址进行读取和解析，从而获取该页面的主体文本和图片内容，并获取页面的标题、正文、段落、加粗、图文位置关系、表格等Meta标签信息。其中，用于获取搜索结果的搜索引擎以及数据库可以根据实际需求自行设置，在此不做限定。

在一些实施例中，可以在初步获取多个搜索结果之后，首先过滤掉搜索结果中的如广告等非内容类的页面，在过滤后的页面中选择与搜索关键词或搜索问题相关度较高，并且图像或视频素材更加丰富的多个内容类页面，进行上述处理。

在一些实施例中，响应于确定待转换文本为实体词，可以基于实体词，获取其对应的百科词条页面，进而基于开源的网页解析工具（例如HTML Parser等），对上述百科词条页面的页面URL地址进行读取和解析，从而获取该页面的主体文本和图片内容，并获取页面的标题、正文、段落、加粗、图文位置关系、表格等Meta标签信息。其中，实体词也即命名实体，包括人名、机构名、地名以及其他所有以名称为标识的实体。

根据一些实施例，在获取到所述文本后，可以利用经训练的统一模态神经网络对所述文本进行处理，以获取文本中的各类信息。

统一模态神经网络为可以对多种模态输入进行统一处理的神经网络模型，可以用于完成文本分类（关键词提取）、文本信息提取、文本和图像或视频的相关度计算、基于文本的图像或视频生成等任务。如图1B所示，统一模态神经网络的主体部分由多个Transformer层构成，并且可以根据下游任务的不同在多层Transformer之后耦接其他网络结构。统一模态神经网络可以接收文本、图像、或图文对等输入，并对这些输入进行嵌入以得到相应的文本特征或图像特征用以输入到多层Transformer，从而得到多层Transformer输出的综合语义表示。

具体地，对于文本输入W，首先通过词切分转化为词序列W = {[CLS], w ₁, … ,w _n, [SEP]}，然后通过多层Transformer获得上下文相关的语义表示；对于图像输入V，则通过将图像划分为多块，然后将图像块进行向量化，形成图像输入序列V = {[IMG], v ₁, …, v _t}，类似地通过多层Transformer获得视觉的语义表示。最后，对于图文对的输入（V，W），则将文本和视觉部分的输入序列进行拼接，形成V, W = {[IMG], v ₁, … , v _t, [CLS],w ₁, … , w _n, [SEP]}，同样通过多层Transformer，获得跨模态的语义表示。

上述[CLS]、[IMG]、[SEP]等为输入基于Transformer的神经网络的特殊符号。[CLS]和[IMG]分别可以用于提取文本序列和图像序列的整体语义表示，[SEP]可以用于作为多个输入之间的分割指示。

根据一些实施例，通过使用训练好的统一模态神经网络执行基于文本获取全局语义信息和局部语义信息、计算文本片段和图像或视频数据之间的相关度、摘要提取等多个任务，使得在这些任务中所使用的文本特征和视觉特征均位于同一个语义空间中，从而在这些任务之间建立了关联关系，进而使得神经网络输出的全局语义信息和局部语义信息更加贴合应用场景，并且提升了得到的相关度和摘要的准确性，使得生成的视频和文本内容高度一致，并且生成视频的目标数据之间具有逻辑关联、不违和。

在一些实施例中，对于视频输入，需要先进行抽帧，再将这些帧转换为图像块序列。抽帧间隔例如可以基于当前可用算力而确定。在可用算力充裕时可以使用较小的抽帧间隔，而在可用算力匮乏时可以使用较大的抽帧间隔。

在一些实施例中，可以使用多种方式对统一模态神经网络进行训练，例如跨模态对比学习、视频掩码预测、语言掩码预测等，也可以使用用户交互数据进行弱监督学习。在下文中将对如何训练统一模态神经网络进行详细描述。

在一些实施例中，对于篇幅较长的文本，直接根据文本全文生成的视频也会比较长，不利于视频的快速消费。因此如果希望制作内容凝炼的短视频，可以考虑对文本进行摘要提取。如图3所示，视频生成方法还可以包括：步骤S301、获取文本的摘要文本。可以理解的是，图3中的步骤S303、步骤S305-步骤S306、步骤S308、步骤S314-步骤S315的操作和效果分别和图2中的步骤S201-步骤S206的操作和效果相同，在此不做赘述。文本的摘要可以作为视频的字幕，并且可以进一步用于生成视频的语音，如后文将要描述的。在另一些实施例中，对于篇幅较短的文本，可以直接将文本作为摘要进行使用，也可以使用神经网络对文本进行精炼，在此不做限定。

在一些实施例中，文本的摘要文本可以是利用统一模态神经网络获取的。在一个示例性实施例中，可以采用抽取式的方法获取摘要文本。通过将文本以分句为单位同时输入统一模态神经网络，可以得到每一个分句是否为摘要的判断结果（例如，在每个分句前设置[CLS]，并基于每个分句的[CLS]对应的输出特征确定该分句是否属于摘要文本）。可以理解的是，也使用其他方法获取文本的摘要文本，在此不做限定。

根据一些实施例，用户可以对摘要进行人工修改。步骤S301、利用统一模态神经网络获取文本的摘要文本还可以包括：响应于接收到指示修改摘要文本的用户输入，基于用户输入修改至少摘要文本。此外，用户修改后的摘要可以作为样本数据用于进一步训练优化神经网络，如后文将要描述的。

根据一些实施例，视频生成方法还可以包括：步骤S302、基于摘要文本，确定视频字幕、视频语音、以及视频背景音乐中的至少一个。

在一些实施例中，可以将摘要文本进行进一步切分，以得到视频字幕。

在一些实施例中，可以通过语音合成（Text To Speech，TTS）技术将文本或摘要文本转换为视频语音。具体的，可以首先基于文本或摘要文本，获取文本的内容类型（例如叙事型、评论型、抒情型等），并且基于内容类型调用相应的语音合成的音调、音色、音量、语速等。

在一些实施例中，可以根据摘要文本的内容类型（例如，叙事型、评论型、抒情型等，或者例如，体育类、新闻类、娱乐类等）确定视频背景音乐的风格，并在音乐库中确定相应的音乐。可选的，也可以将视频语音的长度作为约束以选择时长接近的音乐作为视频背景音乐。

在一些实施例中，响应于确定用户将视频的生成方式配置为人机交互辅助视频生成的模式，也可以支持用户对语音合成的音色、音量以及语速等根据实际需要自行设置。

在一些实施例中，响应于确定用户将视频的生成方式配置为人机交互辅助视频生成的模式，可以支持用户对背景音乐进行配置，包括选择是否添加背景音乐、背景音乐的类型等。可选的，也可以为用户提供多个不同风格的背景音乐，支持用户根据实际需要自行选择背景音乐。

可以理解的，在一些实施例中，所生成的视频中可包含上述视频字幕、视频语音以及视频背景音乐中的一种或多种，在此不做限定。

在生成视频时，为使得生成的视频具有丰富的视觉要素，补充视频、图片等视觉素材数据是其中的关键步骤。

在步骤S303、获取文本的全局语义信息和至少一个局部语义信息。至少一个局部语义信息与文本中的至少一个文本片段对应。

在一些实施例中，全局语义信息例如可以是文本的全文关键词，局部语义信息例如可以是对应的文本片段的关键词。文本片段例如可以文本中的段落，也可以是文本中的句子，还可以是以其他粒度对文本进行划分而得到的或者以其他方式在文本中所确定的文本片段。

在一些实施例中，可以利用统一模态神经网络基于分类任务实现关键词预测。通过预先确定关键词列表以作为该分类任务所能预测的“类别”，并使用相应的样本对神经网络进行训练，以使得神经网络能够基于输入的文本输出若干个类别标签，其中的每一个对应关键词列表中的一个关键词。在另一些实施例中，神经网络可以对Transformer层输出至少一个输出特征进行融合处理，以提取文本的综合语义表示，进而基于该表示直接生成与输入的文本对应的关键词。可以理解的是，以上仅为确定文本关键词的两个示例方法，还可以使用其他的方式利用神经网络获取文本关键词。

在一些实施例中，全局语义信息例如可以是通过将文本全文输入统一模态神经网络而得到的。在一些实施例中，至少一个局部语义信息例如可以是通过直接将全文文本输入统一模态神经网络而得到的，也可以是通过将文本片段输入统一模态神经网络而得到的。在另一些实施例中，可以将文本全文输入神经网络，神经网络可以对Transformer层输出的与文本片段对应的输出特征进行融合处理，以提取该文本片段的综合语义表示，进而基于该表示直接生成该文本片段的局部语义信息。

根据一些实施例，步骤S303、获取文本的全局语义信息和至少一个局部语义信息可以包括：响应于接收到指示修改全局语义信息的用户输入，基于用户输入修改全局语义信息。此外，用户修改后的全局语义信息可以作为样本数据用于进一步训练优化神经网络，如后文将要描述的。

根据一些实施例，步骤S303、获取文本的全局语义信息和至少一个局部语义信息可以包括：响应于接收到指示修改至少一个局部语义信息的用户输入，基于用户输入修改至少一个局部语义信息。此外，用户修改后的局部语义信息可以作为样本数据用于进一步训练优化神经网络，如后文将要描述的。

由此，通过接收来自用户的用户输入，能够对全局语义信息和局部语义信息进行调整，以使得后续基于全局语义信息和局部语义信息进行检索可以得到与文本整体和文本片段的相关度更高的数据。此外，用户输入可以作为交互数据，用以优化神经网络。

根据一些实施例，视频生成方法还可以包括：步骤S304、在至少一个文本片段中识别至少一个实体词。在一个示例性实施例中，可以预先确定实体词表，并根据实体词表在文本片段中识别实体词。

在一些实施例中，在步骤S305、可以将文本的全局语义信息作为搜索词，在数据库中进行检索，以获取至少一个第一数据。第一数据可以是基于全局语义信息检索获得的图片数据或视频数据。

根据一些实施例，步骤S305、基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据可以包括：基于全局语义信息和文本的标题在数据库中进行检索，以得到至少一个第一数据。

在一些实施例中，可以将全局语义信息和文本的标题作为搜索词，在数据库中进行检索，以获取至少一个第一数据。

在一些实施例中，还可以结合上下文进行检索，例如，可以将文本全文或选取部分作为上下文信息。在一个示例中，由于将上下文信息全部作为搜索词会加重搜索引擎或数据库的负担，因此可以在使用搜索词进行检索后，使用上下文信息对结果进行过滤，从而能够在使用的计算资源量几乎不变的情况下提升搜索结果和文本的相关性。

在一些实施例中，数据库例如可以是通用的搜索引擎，也可以是特定的素材网站或素材数据库。获取至少一个第一数据的方式具体可以包括通过搜索引擎在线对全网进行搜索，对特定的素材网站进行搜索或对离线的素材数据库进行搜索。可以理解的，所应用的搜索引擎可以基于实际需要自行选择，在此不做限定。

在一些实施例中，在步骤S306、可以将每个文本片段的局部语义信息作为搜索关键词，在数据库中进行检索，以获取至少一个第二数据。第二数据可以包括基于每个文本片段的局部语义信息检索获得的图片或视频。

根据一些实施例，步骤S306、针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据可以包括：针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在数据库中进行检索，以得到至少一个第二数据。由此，通过在检索时使用对应的文本片段，可以提升检索结果和文本片段的相关性。

在一些实施例中，可以将局部语义信息和文本的标题作为搜索词，在数据库中进行检索，以获取至少一个第一数据。

根据一些实施例，针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在数据库中进行检索，以得到至少一个第二数据可以包括：针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到多个第二检索结果；以及基于与该局部语义信息对应的文本片段和文本中的至少一个对多个第二检索结果进行过滤，以得到至少一个第二数据。

在一些实施例中，也可以首先将每个文本片段的局部语义信息作为搜索关键词，在数据库中进行检索，以获取至少一个第二检索结果；随后，基于该局部语义信息所对应的文本片段与第二检索结果的相关度，进行第二检索结果的过滤，从而获取至少一个第二数据。由于将文本片段直接作为搜索词需要消耗大量计算资源，因此通过在检索时使用搜索词进行检索后，使用上下文信息对结果进行过滤，从而能够在使用少量计算资源的情况下提升搜索结果和文本的相关性，提升素材获取的效率。

在一些实施例中，获取至少一个第二数据或至少一个第二检索结果的方式具体可以包括通过搜索引擎在线对全网进行搜索，对特定的素材网站进行搜索或对离线的素材数据库进行搜索。可以理解的，所应用的搜索引擎可以基于实际需要自行选择，在此不做限定。

根据一些实施例，如图3所示，视频生成方法还可以包括：步骤S307、针对至少一个实体词中的每一个实体词，基于该实体词在数据库中进行检索，以得到与该实体词对应的至少一个第三数据。步骤S308、基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集可以包括：基于至少一个第一数据、与至少一个局部语义信息各自对应的至少一个第二数据、以及与至少一个实体词各自对应的至少一个第三数据，得到候选数据集。由此，通过基于实体词进行检索以获取第三数据，能够进一步丰富用于生成视频的素材数据，使得候选数据集中包括与文本中出现的实体词直接相关的数据。

在一些实施例中，在步骤S307，在上述获取每个文本片段实体词的基础上，进一步基于每个实体词作为搜索关键词，在数据库中进行检索，以获取至少一个第三数据，其中，第三数据可以包括基于每个文本片段的实体词检索获得的图片或视频。

根据一些实施例，步骤S307、针对至少一个实体词中的每一个实体词，基于该实体词在数据库中进行检索，以得到与该实体词对应的至少一个第三数据可以包括：针对至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在数据库中进行检索，以得到至少一个第三数据。由此，通过在检索时使用对应的文本片段，可以提升检索结果和文本片段的相关性。

在一些实施例中，可以将每个文本片段的实体词以及相应的文本片段作为搜索关键词，在数据库中进行检索，从而获取至少一个第三数据。

根据一些实施例，针对至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在数据库中进行检索，以得到与该实体词对应的至少一个第三数据可以包括：针对至少一个实体词中的每一个实体词，基于该实体词在数据库中进行检索，以得到多个第三检索结果；以及基于该实体词所在的文本片段和文本中的至少一个对多个第三检索结果进行过滤，以得到至少一个第三数据。

在一些实施例中，也可以首先将每个文本片段的实体词作为搜索关键词，在数据库中进行检索，以获取至少一个第三检索结果；随后，基于该实体词所对应的文本片段与第三检索结果的相关度，进行第三检索结果的过滤，从而获取至少一个第三数据。由于将文本片段直接作为搜索词需要消耗大量计算资源，因此通过在检索时使用搜索词进行检索后，使用上下文信息对结果进行过滤，从而能够在使用少量计算资源的情况下提升搜索结果和文本的相关性，提升素材数据获取的效率。

在一些实施例中，获取至少一个第三数据或至少一个第三检索结果的方式具体可以包括通过搜索引擎在线对全网进行搜索，对特定的素材网站进行搜索或对离线的素材数据库进行搜索。可以理解的，所应用的搜索引擎可以基于实际需要自行选择，在此不做限定。

在一个示例中，所获取到的候选数据集包括与全局语义信息对应的至少一个第一数据、与至少一个局部语义信息各自对应的至少一个第二数据以及与至少一个实体词各自对应的至少一个第三数据。通过上述方法，能够在从全局到局部再到词这三个不同的层次获取丰富的图像数据和视频数据。

在获取图像数据和视频数据的同时，还可以获取图像数据和视频数据的标题、描述信息等相关文本信息，以便后续对这些数据进行筛选，并为候选数据与文本内容的匹配过程提供更丰富的信息。

根据一些实施例，如图4所示，视频生成方法还可以包括：步骤S405、对候选数据集中的每一个候选数据进行内容理解，以得到该候选数据的内容语义信息；步骤S406、获取候选数据集中的每一个候选数据的描述文本信息；步骤S407、对候选数据集中的每一个候选数据的音频数据进行语音识别，以得到与该候选数据对应的语音文本信息。由此，可以得到候选数据的更丰富的多模态信息，用于在匹配环节和文本片段计算相关度，如后文将要描述的。图4中的步骤S401-步骤S404、以及步骤S408-步骤S409的操作和效果分别和图2中的步骤S201-步骤S206的操作和效果类似，在此不做赘述。

根据一些实施例，内容理解可以包括文本识别和实体识别中的至少一个。在一个示例中，可以基于视觉理解技术工具对视频数据或图像数据做文字识别，包括字幕、标题、弹幕等。在另一个示例中，可以使用目标检测的方式进行实体识别，例如公众人物识别、地点识别、旗帜识别等等。由此，内容理解结果可以提供候选数据中的更丰富的内容信息，提高文本片段和候选数据之间的相关度的准确性。

根据一些实施例，可以使用语音识别技术对候选数据中的音频数据进行语音识别，以得到相应的语音文本信息。由此，语音识别结果可以提供候选数据中的更丰富的内容信息，提高文本片段和候选数据之间的相关度的准确性。

回到图3。根据一些实施例，如图3所示，步骤S308、基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集包括：基于第一目标过滤规则对至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据进行过滤，以得到多个待切分数据；基于目标切分规则对多个待切分数据中的每一个待切分数据进行切分，以得到多个数据片段；以及基于第二目标过滤规则对多个数据片段进行过滤，以得到候选数据集。由此，通过对所获取到的数据进行筛选、切分和对切分后的数据进行进一步过滤，可以减少候选数据集中的不相关或者不适合作为素材数据的内容，进而在相关度计算和匹配环节可以减少计算量。

在一些实施例中，第一目标过滤规则例如可以为将特定的类型或满足特定的条件的视频过滤，例如场景单一的视频、观看次数少的视频、或用户打分较低的视频等等。

在一些实施例中，对于待切分数据，也即经过过滤后所获得的视频数据，可以首先进行切分，以获取多个数据片段（也即视频片段）。具体地，可以基于转场或视频帧的语义信息对视频进行切分。在获取多个数据片段的基础上，可以进一步将一些特定场景的片段（例如，场景变化小）进行过滤，仅保留与文本内容相关的视频片段，以作为候选数据。

在一些实施例中，第二目标过滤规则例如可以为将片头、片尾、转场过程等片段过滤。

当第一数据或第二数据为图像时，可以不对其进行过滤和切分。在一些实施例中，上述步骤同样可以用于基于实体词进行检索而得到的第三数据。

可以理解的是，以上实施例仅为示例性的，第一目标过滤规则和第二目标过滤规则可以根据需求进行设置，以使得得到的候选数据可以作为用于生成视频的素材数据。

根据一些实施例，如图3，视频生成方法还可以包括：步骤S309、在至少一个文本片段中确定用于直接生成视频数据或图像数据的目标文本片段；步骤S310、利用统一模态神经网络，基于目标文本片段直接生成第五数据，第五数据的视觉内容与目标文本片段相关联；以及步骤S311、将第五数据添加到候选数据集中。

在一些实施例中，预先训练好的统一模态神经网络具有基于人工智能能力的文字到图像或文字到视频生成，因此可以利用统一模态神经网络基于目标文本片段直接生成与目标文本片段描述的内容一致的图像或视频，也即第五数据。可以理解的，基于一个目标文本片段可以生成一个或多个第五数据，在此不做限定。由此，通过使用上述方法，能够进一步丰富作为素材的图像数据和视频数据，并且在数据库中没有对应的数据时能够提供合适的视觉素材数据，避免了没有可用的素材数据的情况。

在一个示例性实施例中，目标文本片段为“盘子上盛有五个苹果”，则可以通过直接生成的方式生成体现“盘子上盛有五个苹果”的图像数据。

根据一些实施例，直接生成第五数据可以包括：在目标文本片段中识别实体词；以及利用统一模态神经网络，基于实体词直接生成第五数据。

在一些实施例中，用于直接生成第五数据的实体词可以是实体对象，例如，名胜古迹、公众人物的肖像、机构的标志等。可以理解的，基于一个实体词可以生成一个或多个第五数据，在此不做限定。

在一些实施例中，可以首先对文本片段的局部语义信息和实体词进行检索，并且在确定检索结果较少时使用上述方法生成第五数据。在另一些实施例中，也可以同步进行数据检索和数据生成，以得到更加丰富的素材数据，进而再基于素材数据的质量或素材数据和对应的文本片段之间的相关度对素材数据进行筛选。可以理解的是，也可以支持用户自行在检索到的数据和生成的第五数据之间选择，在此不做限制。

在一些实施例中，当判定基于相应的文本片段能够生成质量较好的第五数据时（例如，描述具体物体的文本片段），也可以直接使用素材生成的方式得到候选数据。

可以理解的是，当前的基于人工智能能力的文字到视频生成方法在生成长视频时的效果欠佳，因此可以使用该方法生成较短的第五数据，并且可以不对第五数据进行切分、过滤等操作。

在一些实施例中，所获取到的候选数据集可以包括基于全局语义信息的至少一个第一数据、基于每个局部语义信息的至少一个第二数据、基于每个实体词获取的至少一个第三数据、以及基于目标文本片段生成的第五数据。

根据一些实施例，如图3所示，视频生成方法还可以包括：步骤S312、在原始页面中提取文本和与文本对应的一个或多个第四数据。一个或多个第四数据与文本中的不同于至少一个文本片段的一个或多个文本片段对应。

在一些实施例中，候选数据还可以包括文本所在的原始页面（即，待转换文本）中所呈现的视频和图像，也即第四数据。可以对原始页面中的视频和图像进行提取，从而获取第四数据。通过上述方法，能够获取到与文本和文本片段直接相关的图像数据和视频数据。

根据一些实施例，如图3所示，视频生成方法还可以包括：步骤S313、将一个或多个第四数据中的每一个第四数据确定为与该第四数据对应的文本片段的目标数据。由此，通过使用与文本片段相关度最高的原始文档中的数据作为与文本片段匹配的目标数据，提升了素材数据的丰富程度，同时降低了需要进行匹配的文本片段的数量，提升视频生成速度。

在步骤S314，基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据。

根据一些实施例，文本片段和候选数据的相关度可以包括文本片段的文本信息和对应的候选数据的视觉信息之间的视觉相关度，视觉相关度可以是使用统一模态神经网络基于输入的文本片段和输入的候选数据而确定的。

在一些实施例中，在步骤S314，可以利用神经网络计算每一个文本片段和每一个候选数据之间的视觉相关度，以得到至少一个文本片段和候选数据集中的候选数据之间的视觉相关度矩阵，进而根据优化策略为每一个文本片段匹配目标数据。

根据一些实施例，如图5所示，步骤S314、为至少一个文本片段匹配目标数据可以包括：步骤S501、利用统一模态神经网络，分别为至少一个文本片段中的每一个文本片段在候选数据集中确定与该文本片段的视觉相关度最高的第一数量的候选数据；以及步骤S502、基于所述至少一个文本片段各自和对应的第一数量的候选数据中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据。由此，通过先为每一个文本片段确定视觉相关度最高的第一数量的候选数据，进而从全局出发为每一个文本片段在对应的候选数据中匹配目标数据，能够降低匹配过程的复杂程度，提升匹配速度。

在一些实施例中，利用神经网络可以将候选数据的图像特征和文本片段的文本特征映射到同一个语义空间中，因此可以使用基于哈希的方法为每一个文本片段直接确定视觉相关度最高的第一数量的候选数据，而无需每一个文本片段和每一个候选数据之间的视觉相关度，从而显著降低了匹配过程的计算量，提升了匹配速度。可以理解的是，可以根据神经网络的性能需求和对匹配准确度的要求对第一数量的值进行设定，在此不作限定。

在一些实施例中，视觉相关度可以是结合上下文的文本片段与候选数据之间的相关度。上下文的文本片段可以包括在先的一个或多个文本片段或与其对应的局部语义信息/实体词，以及在后的一个或多个文本片段或与其对应的局部语义信息/实体词。在一个示例性实施例中，可以将当前文本片段、在先文本片段和在后文本片段所构成的段落和候选数据输入神经网络，以得到当前文本片段和该候选数据之间的视觉相关度。通过这样的方式，能够使得为相邻的文本片段匹配的目标数据之间同样具有相关性，并且使得最终生成的视频中，相邻的两个视频片段或图像之间具有一致性。在一个示例性实施例中，第一文本片段描述了进入餐厅，紧接在第一文本片段后的第二文本片段描述了点餐场景，紧接在第二文本片段后的第三文本片段描述了在餐厅中交谈的场景，通过结合上下文进行视觉相关度的计算，可以使得为三个文本片段匹配的目标素材数据均包括场景相似的餐厅（例如，均为快餐厅、法式餐厅、茶餐厅）。

根据一些实施例，视觉相关度可以是利用统一模态神经网络基于输入的文本片段、与输入的文本片段对应的局部语义信息、以及输入的候选数据而确定的。由此，可以使得与文本片段匹配的目标数据在与文本片段整体相关的基础上与对应的关键词同样高度匹配，保证了所选用的目标数据能够突出该文本片段的重点内容。

根据一些实施例，针对包括一个或多个实体词的文本片段，视觉相关度可以是利用统一模态神经网络基于该文本片段、一个或多个实体词、以及输入的候选数据而确定的。由此，可以使得与文本片段匹配的目标数据在与文本片段整体相关的基础上与对应的实体词同样高度匹配，避免了所选用的目标数据和文本片段整体匹配但所包括的实体与文本片段中出现的实体相差较大的情况。

在得到了与每一个文本片段对应的候选数据后，可以为每一个文本片段匹配目标数据。

在一些实施例中，可以使用目标优化策略进行匹配。目标优化策略例如可以包括贪心策略。在一个实施例中，可以使用贪心策略依次为每一个文本片段匹配视觉相关度最高的候选数据。在另一个实施例中，可以将所有文本片段和对应的候选数据之间的视觉相关度整体进行降序排列，从视觉相关度最高的组合开始，将每一组中的候选数据确定为该组中的文本片段的目标数据，并跳过包含已匹配的候选数据或已匹配的文本片段的组。

在一些实施例中，目标优化策略例如可以包括动态规划策略，从而能够得到所有文本段落和匹配的目标数据之间视觉相关度总和最高的匹配方案。

在匹配过程中还可以加入其它约束条件。在一些实施例中，可以将基于摘要文本中与文本片段对应的部分所生成的视频语音片段的时长作为约束条件，以确保为文本片段匹配的候选数据的时长和对应的视频语音片段的时长基本一致。在一些实施例中，还可以为文本片段匹配多个目标视频，并使用对应的视频语音片段的时长对这些目标视频的总时长进行约束。

根据一些实施例，如图5所示，步骤S314、为至少一个文本片段中的每一个文本片段匹配目标数据还可以包括：步骤S503、响应于确定至少一个文本片段中的一部分文本片段未成功匹配目标数据，利用统一模态神经网络，分别为一部分文本片段中的每一个文本片段在候选数据集中的未被匹配的候选数据中确定与该文本片段的相关度最高的第二数量的候选数据；以及步骤S504、基于一部分文本片段各自和对应的第二数量的候选数据中的每一个候选数据的相关度，为一部分文本片段匹配目标数据。由此，通过在第一轮匹配结束后对未成功匹配目标数据的文本片段进行第二轮匹配甚至多轮匹配，能够确保每一个文本片段均被匹配到目标数据。

可以理解的是，步骤S314还可以包括更多轮匹配，直至每一个文本片段均被匹配到目标数据。根据一些实施例，步骤S314、为至少一个文本片段中的每一个文本片段匹配目标数据还可以包括：响应于接收到指示将为至少一个文本片段中的一个文本片段匹配的目标数据修改为另一候选数据的用户输入，将另一候选数据确定为与该文本片段的目标数据。由此，可以根据用户反馈将为文本片段匹配的目标数据修改为其他候选数据。此外，用户输入可以作为交互数据，用以优化神经网络。

根据一些实施例，步骤S315、基于至少一个文本片段各自匹配的目标数据生成视频可以包括：基于视频字幕、视频语音、以及视频背景音乐中的至少一个以及与至少一个文本片段各自匹配的目标数据，生成视频。

在一些实施例中，当与文本片段对应的目标数据为视频数据时，该视频的时长和对应的视频语音片段的时长可能不完全一致，则可以在与其他文本片段匹配的目标数据中确定图像数据，并相应调整图像数据的显示时长，以保证视频字幕、视频语音和目标数据三者间对齐。可以理解的是，也可以使用其他方法保证对齐，例如在目标数据的时长大于对应的视频语音片段的时长时对目标数据进行切分等，在此不做限定。

在一些实施例中，在得到语音-字幕-视频时间轴之后，用户可以对对齐结果进行微调，实现文本字幕、语音和展现视频的秒级别以内的精准对齐。

以上实施例提供了根据文本片段的文本信息和候选数据的视觉信息之间的视觉相关度进行目标数据匹配的方案。在此基础上，还可以使用文本片段的文本信息和候选数据的其他模态的信息的相关度以提升匹配的准确性。

根据一些实施例，步骤S315、基于至少一个文本片段各自匹配的目标数据生成视频可以包括：基于至少一个文本片段各自匹配的目标数据和一个或多个文本片段各自匹配的目标数据生成所述视频。由此，可以将来自原始文本的目标数据（即一个或多个文本片段各自匹配的目标数据）和通过检索或直接生成方法而得到的目标数据（即至少一个文本片段各自匹配的目标数据）进行组合，以生成视频。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的内容语义信息之间的第一语义相关度。第一语义相关度可以是利用统一模态神经网络基于输入的文本片段和输入的内容语义信息而确定的。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的描述文本信息之间的第二语义相关度。第二语义相关度可以是利用统一模态神经网络基于输入的文本片段和输入的描述文本信息而确定的。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的语音文本信息之间的第三语义相关度。第三语义相关度可以是利用统一模态神经网络基于输入的文本片段和输入的语音文本信息而确定的。

可以理解的是，可以在第一语义相关度、第二语义相关度和第三语义相关度中择一或任选多个与视觉相关度组合，用以评估文本片段和候选数据之间的匹配程度。

在一些实施例中，在步骤S314，可以计算至少一个文本片段各自和候选数据集中的每一个候选数据的视觉相关度、第一语义相关度、第二语义相关度、以及第三语义相关度，并将这些语义相关度进行融合，以得到每一个文本片段和每一个候选数据之间的综合相关度，进而根据相应的综合相关度为每一个文本片段匹配目标数据。

在一些实施例中，在步骤S501，可以利用统一模态神经网络模型为每一个文本片段确定与该文本片段的视觉相关度最高的第一数量的候选数据，进而在步骤S502，可以基于文本片段和候选数据的综合相关度，为每一个文本片段匹配目标数据。

可以理解的是，以上实施例仅为使用上述多种相关度进行匹配的示例，还可以使用其他方法使用上述多种相关度进行匹配，例如可以基于视觉相关度为每一个文本片段确定第一数量的候选数据，并基于第一语义相关度、第二语义相关度、第三语义相关度或其组合对候选数据进行筛选，进而在筛选后的候选数据中确定与文本片段匹配的目标数据，在此不做限定。

根据本公开的另一方面，提供了一种神经网络的训练方法。神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对多个输入特征进行处理。如图6所示，训练方法包括：步骤S601、获取样本文本、样本文本的真实全局语义信息、以及样本文本的至少一个真实局部语义信息，其中，至少一个真实局部语义信息和样本文本中的至少一个文本片段对应；步骤S602、将样本文本所包括的多个第一样本词输入神经网络，以得到样本文本的预测全局语义信息和至少一个预测局部语义信息；步骤S603、基于真实全局语义信息、预测全局语义信息、至少一个真实局部语义信息、以及至少一个预测局部语义信息，计算第一损失值；步骤S604、获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据；步骤S605、将样本文本片段所包括的多个第二样本词和正例样本数据所包括的至少一个正例图像块输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本视觉相关度，正例样本视觉相关度指示样本文本片段的文本信息和正例样本数据的视觉信息之间的相关度；步骤S606、将样本文本片段所包括的多个第二样本词和负例样本数据所包括的至少一个负例图像块输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本视觉相关度，负例样本视觉相关度指示样本文本片段的文本信息和负例样本数据的视觉信息之间的相关度；步骤S607、基于正例样本视觉相关度和负例样本视觉相关度，计算第二损失值，其中，第二损失值和正例样本视觉相关度成负相关，并且和负例样本视觉相关度成正相关；以及步骤S608、基于第一损失值和第二损失值，调整神经网络的参数。

由此，通过使用样本文本、真实全局语义信息、以及局部语义信息进行训练，使得统一模态神经网络具备全局和局部语义信息提取的能力，而通过使用样本文本片段、对应的正例样本数据和对应的负例样本数据进行训练，使得统一模态神经网络具备文本或文本片段的文本信息和图像或视频数据的视觉信息之间的视觉相关度计算的能力。而通过对统一模态神经网络进行这两种训练，使得全局和局部语义信息提取和视觉相关度计算两个任务中的文本特征和视觉特征均位于同一个语义空间中，从而在两个任务之间建立了关联关系，进而使得神经网络在使用时所输出的全局语义信息和局部语义信息更加贴合应用场景，并且提升了相关度计算结果的准确度，使得生成的视频和文本内容高度一致。

根据一些实施例，可以首先使用无标记的大规模文本、视觉数据对统一模态神经网络进行自监督预训练。例如对文本数据使用掩码自监督学习，对图像数据使用图像重构自监督学习，以及对于图文数据使用跨模态对比学习，从而充分利用无标记数据使得统一模态神经网络具备特征表达能力。其中，文本掩码自监督学习可以是通过将输入的文本进行随机掩盖，并基于与掩盖的位置对应的输出预测被掩盖的词，进而基于真实标签和预测结果进行训练。图像重构自监督学习可以是通过类似的方式将图像中的部分区域进行掩盖，并基于输出的图像特征重构图像，进而基于原图像和重构的图像进行训练。跨模态对比学习可以是通过将文本数据和图像数据同时输入神经网络，并基于神经网络输出的对图文是否匹配的预测结果和图文之间的真实相关性进行训练。

根据一些实施例，样本文本的真实全局语义信息和真实局部语义信息例如可以是用户生成的。在一个实施例中，这两个语义信息可以是用户对神经网络生成的预测全局语义信息和预测局部语义信息进行手动修改后的内容。

根据一些实施例，正例样本数据和负例样本数据均为视频数据或图像数据。在一些实施例中，样本文本片段对应的正例样本数据例如可以用户手动选择的图像或视频，对应的负例样本数据例如可以是在其他数据中随机选择的数据。

由此，通过使用用户反馈的数据进行弱监督训练，可以进一步提升神经网络输出的结果的准确度，并且使得神经网络输出的结果和用户对候选数据选择的偏好更加贴合。

根据一些实施例，如图7所示，神经网络的训练方法可以还包括：步骤S708、获取真实样本摘要文本；步骤S709、将多个第一样本词输入神经网络，以得到样本文本的预测样本摘要文本；以及步骤S710、基于真实样本摘要文本和预测样本摘要文本，计算第三损失值。步骤S711、基于第一损失值和第二损失值，调整神经网络的参数可以包括：基于第一损失值、第二损失值和第三损失值，调整神经网络的参数。图7中的步骤S701-步骤S707的操作和效果与图6中的步骤S601-步骤S607的操作和效果类似，在此不做赘述。

由此，通过使用样本文本和真实样本摘要文本进行训练，使得统一模态神经网络具备摘要提取的能力。

根据一些实施例，真实样本摘要文本可以是基于用户输入而确定的。由此，通过使用用户输入或选择的数据进一步训练统一模态神经网络，能够实现反馈学习，保证视频生成效果能够持续升级优化。

根据一些实施例，如图8所示，神经网络的训练方法还可以包括：步骤S808、获取正例样本数据的相关文本信息以及负例样本数据的相关文本信息，相关文本信息包括对应的样本数据的内容语义信息、描述文本信息、以及语音文本信息中的至少一个；步骤S809、将多个第二样本词和正例样本数据的相关文本信息所包括的至少一个第三样本词输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本语义相关度，正例样本语义相关度指示样本文本片段的文本信息和正例样本数据的相关文本信息之间的相关度；步骤S810、将多个第二样本词和负例样本数据的相关文本信息所包括的至少一个第四样本词输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本语义相关度，负例样本语义相关度指示样本文本片段的文本信息和负例样本数据的相关文本信息之间的相关度；以及步骤S811、基于正例样本语义相关度和负例样本语义相关度，计算第四损失值，其中，第四损失值和正例样本语义相关度成负相关，并且和负例样本语义相关度成正相关。步骤S812、基于第一损失值、第二损失值和第四损失值，调整神经网络的参数。图8中的步骤S801-步骤S807的操作和效果与图6中的步骤S601-步骤S607的操作和效果类似，在此不做赘述。

由此，通过使用正例样本数据和负例样本数据的相关文本信息和文本片段的文本信息对神经网络进行训练，使得神经网络能够输出数据的相关文本信息和文本片段的文本信息之间的相关度，从而能够在将候选数据与文本片段进行匹配时提供更丰富的相关度信息。

根据本公开的另一方面，如图9所示，提供了一种视频生成装置900，包括：第一获取单元901，被配置为获取文本的全局语义信息和至少一个局部语义信息，其中，至少一个局部语义信息与文本中的至少一个文本片段对应；第一检索单元902，被配置为基于全局语义信息在数据库中进行检索，以得到对应于全局语义信息的至少一个第一数据；第二检索单元903，被配置为针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；第二获取单元904，被配置为基于至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集匹配单元905，被配置为基于至少一个文本片段各自和候选数据集中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据；以及生成单元906，被配置为基于至少一个文本片段各自匹配的目标数据生成视频。可以理解的是，视频生成装置900中的单元901-单元906的操作和效果分别和图2中的步骤S201-步骤S206的操作和效果类似，在此不做限定。

根据一些实施例，如图10所示，视频生成装置1000还可以包括：摘要获取单元1001，被配置为获取文本的摘要文本；以及第三确定单元1002，被配置为基于摘要文本，生成视频字幕、视频语音、以及视频背景音乐中的至少一个。可以理解的是，视频生成装置1000中的单元1003、单元1005-单元1006、单元1008、以及单元1014-单元1015的操作和效果分别和视频生成装置900中的单元901-单元906的效果类似，在此不做限定。

根据一些实施例，全局语义信息和至少一个局部语义信息可以是利用经训练的统一模态神经网络获取的。

根据一些实施例，如图10所示，视频生成装置1000还可以包括：第一识别单元1004，被配置为在至少一个文本片段中识别至少一个实体词。

根据一些实施例，第一检索单元1005可以包括：第三检索子单元，被配置为基于全局语义信息和文本的标题在数据库中进行检索，以得到至少一个第一数据。

根据一些实施例，第二检索单元1006可以包括：第二检索子单元，被配置为针对至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在数据库中进行检索，以得到至少一个第二数据。

根据一些实施例，如图10所示，视频生成装置1000还可以包括：第三检索单元1007，被配置为针对至少一个实体词中的每一个实体词，基于该实体词在数据库中进行检索，以得到与该实体词对应的至少一个第三数据。第二获取单元1008可以被进一步配置为基于至少一个第一数据、与至少一个局部语义信息各自对应的至少一个第二数据、以及与至少一个实体词各自对应的至少一个第三数据，得到候选数据集。

根据一些实施例，第三检索单元1007可以包括：第一检索子单元，被配置为针对至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在数据库中进行检索，以得到至少一个第三数据。

根据一些实施例，如图11所示，视频生成装置1100还可以包括：内容理解单元1105，被配置为对候选数据集中的每一个候选数据进行内容理解，以得到该候选数据的内容语义信息；描述文本获取单元1106，被配置为获取候选数据集中的每一个候选数据的描述文本信息；以及语音识别单元1107，被配置为对候选数据集中的每一个候选数据的音频数据进行语音识别，以得到与该候选数据对应的语音文本信息。可以理解的是，视频生成装置1100中的单元1101-单元1104、以及单元1108-单元1109的操作和效果分别和视频生成装置900中的单元901-单元906的操作和效果类似，在此不做赘述。

根据一些实施例，内容理解包括文本识别和实体识别中的至少一个。

回到图10。根据一些实施例，第二获取单元1008可以包括：第三获取子单元，被配置为基于第一目标过滤规则对至少一个第一数据和与至少一个局部语义信息各自对应的至少一个第二数据进行过滤，以得到多个待切分数据；切分子单元，被配置为基于目标切分规则对多个待切分数据中的每一个待切分数据进行切分，以得到多个数据片段；以及过滤子单元，被配置为基于第二目标过滤规则对多个数据片段进行过滤，以得到候选数据集。

根据一些实施例，如图10所示，视频生成装置1000还可以包括：第一确定单元1009，被配置为在至少一个文本片段中确定用于直接生成视频数据或图像数据的目标文本片段；数据生成单元1010，被配置为利用统一模态神经网络，基于目标文本片段直接生成第五数据；以及添加单元1011，被配置为将第五数据添加到候选数据集中。

根据一些实施例，数据生成单元可以包括：识别子单元，被配置为在目标文本片段中识别实体词；以及数据生成子单元，被配置为利用统一模态神经网络，基于实体词直接生成第五数据。

根据一些实施例，如图10所示，视频生成装置1000还可以包括：提取单元1012，被配置为在原始页面中提取文本和与文本对应的一个或多个第四数据，其中，一个或多个第四数据与文本中的不同于至少一个文本片段的一个或多个文本片段对应；以及第二确定单元1013，被配置为将一个或多个第四数据中的每一个第四数据确定为与该第四数据对应的文本片段的目标数据。

根据一些实施例，相关度可以包括相应的文本片段的文本信息和对应的候选数据的视觉信息之间的视觉相关度。视觉相关度可以是利用统一模态神经网络基于输入的文本片段和输入的候选数据而确定的。

根据一些实施例，匹配单元1014可以包括：确定子单元，被配置为利用统一模态神经网络，分别为至少一个文本片段中的每一个文本片段在候选数据集中确定与该文本片段的视觉相关度最高的第一数量的候选数据；以及匹配子单元，被配置为基于至少一个文本片段各自和对应的第一数量的候选数据中的每一个候选数据的相关度，为至少一个文本片段匹配目标数据。

根据一些实施例，视觉相关度可以是利用统一模态神经网络基于输入的文本片段、与输入的文本片段对应的局部语义信息、以及输入的候选数据而确定的。

根据一些实施例，针对至少一个文本片段中包括一个或多个实体词的文本片段，该文本片段和对应的候选数据的视觉相关度可以是利用统一模态神经网络基于该文本片段、一个或多个实体词、与该文本片段对应的局部语义信息、以及对应的候选数据而确定的。

根据一些实施例，候选数据集中的每一个候选数据至多与至少一个文本片段中的一个文本片段匹配。确定子单元可以被进一步配置为响应于确定至少一个文本片段中的一部分文本片段未成功匹配目标数据，利用统一模态神经网络，分别为一部分文本片段中的每一个文本片段在候选数据集中的未被匹配的候选数据中确定与该文本片段的相关度最高的第二数量的候选数据。匹配子单元可以被进一步配置为基于一部分文本片段各自和对应的第二数量的候选数据中的每一个候选数据的相关度，为一部分文本片段匹配目标数据。

根据一些实施例，生成单元1015可以包括：生成子单元，被配置为基于视频字幕、视频语音、以及视频背景音乐中的至少一个以及与至少一个文本片段各自匹配的目标数据，生成视频。

根据一些实施例，生成单元可以被进一步配置为基于至少一个文本片段各自匹配的目标数据和一个或多个文本片段各自匹配的目标数据生成视频。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的内容语义信息之间的第一语义相关度，第一语义相关度是利用统一模态神经网络基于输入的文本片段和输入的内容语义信息而确定的。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的描述文本信息之间的第二语义相关度。第二语义相关度是利用统一模态神经网络基于输入的文本片段和输入的描述文本信息而确定的。

根据一些实施例，相关度还可以包括相应的文本片段的文本信息和对应的候选数据的语音文本信息之间的第三语义相关度，第三语义相关度是利用统一模态神经网络基于输入的文本片段和输入的语音文本信息而确定的。

根据本公开的另一方面，如图12所示，还提供了一种神经网络的训练装置1200，神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对多个输入特征进行处理，该装置包括：第三获取单元1201，被配置为获取样本文本、样本文本的真实全局语义信息、以及样本文本的至少一个真实局部语义信息，其中，至少一个真实局部语义信息和样本文本中的至少一个文本片段对应；第一输入单元1202，被配置为将样本文本所包括的多个第一样本词输入神经网络，以得到样本文本的预测全局语义信息和至少一个预测局部语义信息；第一计算单元1203，被配置为基于真实全局语义信息、预测全局语义信息、至少一个真实局部语义信息、以及至少一个预测局部语义信息，计算第一损失值；第四获取单元1204，被配置为获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据，正例样本数据和负例样本数据均为视频数据或图像数据；第二输入单元1205，被配置为将样本文本片段所包括的多个第二样本词和正例样本数据所包括的至少一个正例图像块输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本视觉相关度的数值，正例样本视觉相关度指示样本文本片段的文本信息和正例样本数据的视觉信息之间的相关度；第三输入单元1206，被配置为将样本文本片段所包括的多个第二样本词和负例样本数据所包括的至少一个负例图像块输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本视觉相关度的数值，负例样本视觉相关度指示样本文本片段的文本信息和负例样本数据的视觉信息之间的相关度；第二计算单元1207，被配置为基于正例样本视觉相关度的数值和负例样本视觉相关度的数值，计算第二损失值，其中，第二损失值和正例样本视觉相关度的数值成负相关，并且和负例样本视觉相关度的数值成正相关；以及调整单元1208，被配置为基于第一损失值和第二损失值，调整神经网络的参数。可以理解的是，训练装置1200中的单元1201-单元1208的操作和效果分别和图6中的步骤S601-步骤S608的操作和效果类似，在此不做赘述。

根据一些实施例，如图13所示，神经网络的训练装置1300还可以包括：第五获取单元1308，被配置为获取真实样本摘要文本；第四输入单元1309，被配置为将多个第一样本词输入神经网络，以得到样本文本的预测样本摘要文本；以及第三计算单元1310，被配置为基于真实样本摘要文本和预测样本摘要文本，计算第三损失值。调整单元1311被进一步配置为基于第一损失值、第二损失值和第三损失值，调整神经网络的参数。可以理解的是，训练装置1300中的单元1301-单元1307的操作和效果分别和训练装置1200中的单元1201-单元1207的操作和效果类似，在此不做赘述。

根据一些实施例，如图14所示，神经网络的训练装置1400还可以包括：第六获取单元1408，被配置为获取正例样本数据的相关文本信息以及负例样本数据的相关文本信息，相关文本信息包括对应的样本数据的内容语义信息、描述文本信息、以及语音文本信息中的至少一个；第五输入单元1409，被配置为将多个第二样本词和正例样本数据的相关文本信息所包括的至少一个第三样本词输入神经网络，以得到样本文本片段和正例样本数据之间的正例样本语义相关度，正例样本语义相关度指示样本文本片段的文本信息和正例样本数据的相关文本信息之间的相关度；第六输入单元1410，被配置为将多个第二样本词和负例样本数据的相关文本信息所包括的至少一个第四样本词输入神经网络，以得到样本文本片段和负例样本数据之间的负例样本语义相关度，负例样本语义相关度指示样本文本片段的文本信息和负例样本数据的相关文本信息之间的相关度；以及第四计算单元1411，被配置为基于正例样本语义相关度和负例样本语义相关度，计算第四损失值，其中，第四损失值和正例样本语义相关度成负相关，并且和负例样本语义相关度成正相关。调整单元1412被进一步配置为基于第一损失值、第二损失值和第四损失值，调整神经网络的参数。可以理解的是，训练装置1400中的单元1401-单元1407的操作和效果分别和训练装置1200中的单元1201-单元1207的操作和效果类似，在此不做赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

参考图15，现将描述可以作为本公开的服务器或客户端的电子设备1500的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图15所示，设备1500包括计算单元1501，其可以根据存储在只读存储器（ROM）1502中的计算机程序或者从存储单元1508加载到随机访问存储器（RAM）1503中的计算机程序，来执行各种适当的动作和处理。在RAM 1503中，还可存储设备1500操作所需的各种程序和数据。计算单元1501、ROM 1502以及RAM 1503通过总线1504彼此相连。输入/输出（I/O）接口1505也连接至总线1504。

设备1500中的多个部件连接至I/O接口1505，包括：输入单元1506、输出单元1507、存储单元1508以及通信单元1509。输入单元1506可以是能向设备1500输入信息的任何类型的设备，输入单元1506可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元1507可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1508可以包括但不限于磁盘、光盘。通信单元1509允许设备1500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、802.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元1501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1501的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习网络算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1501执行上文所描述的各个方法和处理，例如视频生成方法和神经网络的训练方法。例如，在一些实施例中，视频生成方法和神经网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1502和/或通信单元1509而被载入和/或安装到设备1500上。当计算机程序加载到RAM 1503并由计算单元1501执行时，可以执行上文描述的视频生成方法和神经网络的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1501可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行视频生成方法和神经网络的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种视频生成方法，其特征在于，所述方法包括：

获取文本的全局语义信息和至少一个局部语义信息，其中，所述至少一个局部语义信息与所述文本中的至少一个文本片段对应；

基于所述全局语义信息在数据库中进行检索，以得到对应于所述全局语义信息的至少一个第一数据；

针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在所述数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；

基于所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集；

基于所述至少一个文本片段各自和所述候选数据集中的每一个候选数据的相关度，为所述至少一个文本片段匹配目标数据；以及

基于所述至少一个文本片段各自匹配的目标数据生成视频。

2.根据权利要求1所述的方法，还包括：

在所述至少一个文本片段中识别至少一个实体词；以及

针对所述至少一个实体词中的每一个实体词，基于该实体词在所述数据库中进行检索，以得到与该实体词对应的至少一个第三数据，

其中，所述基于所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集包括：

基于所述至少一个第一数据、与所述至少一个局部语义信息各自对应的至少一个第二数据、以及与所述至少一个实体词各自对应的至少一个第三数据，得到所述候选数据集。

3.根据权利要求2所述的方法，其中，所述针对所述至少一个实体词中的每一个实体词，基于该实体词在所述数据库中进行检索，以得到与该实体词对应的至少一个第三数据包括：

针对所述至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在所述数据库中进行检索，以得到所述至少一个第三数据。

4.根据权利要求3所述的方法，其中，所述针对所述至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在所述数据库中进行检索，以得到与该实体词对应的至少一个第三数据包括：

针对所述至少一个实体词中的每一个实体词，基于该实体词在所述数据库中进行检索，以得到多个第三检索结果；以及

基于该实体词所在的文本片段和所述文本中的至少一个对所述多个第三检索结果进行过滤，以得到所述至少一个第三数据。

5.根据权利要求1-4中任一项所述的方法，其中，所述针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在所述数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据包括：

针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在所述数据库中进行检索，以得到所述至少一个第二数据。

6.根据权利要求5所述的方法，其中，所述针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在所述数据库中进行检索，以得到所述至少一个第二数据包括：

针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在所述数据库中进行检索，以得到多个第二检索结果；以及

基于与该局部语义信息对应的文本片段和所述文本中的至少一个对所述多个第二检索结果进行过滤，以得到所述至少一个第二数据。

7.根据权利要求5所述的方法，其中，所述基于所述全局语义信息在数据库中进行检索，以得到对应于所述全局语义信息的至少一个第一数据包括：

基于所述全局语义信息和所述文本的标题在所述数据库中进行检索，以得到所述至少一个第一数据。

8.根据权利要求1所述的方法，其中，所述全局语义信息和所述至少一个局部语义信息是利用经训练的统一模态神经网络获取的，并且其中，所述相关度包括相应的文本片段的文本信息和对应的候选数据的视觉信息之间的视觉相关度，所述视觉相关度是利用所述统一模态神经网络基于输入的文本片段和输入的候选数据而确定的。

9.根据权利要求8所述的方法，还包括：

对所述候选数据集中的每一个候选数据进行内容理解，以得到该候选数据的内容语义信息，

其中，所述相关度还包括相应的文本片段的文本信息和对应的候选数据的内容语义信息之间的第一语义相关度，所述第一语义相关度是利用所述统一模态神经网络基于输入的文本片段和输入的内容语义信息而确定的。

10.根据权利要求9所述的方法，其中，所述内容理解包括文本识别和实体识别中的至少一个。

11.根据权利要求8所述的方法，还包括：

获取所述候选数据集中的每一个候选数据的描述文本信息，

其中，所述相关度还包括相应的文本片段的文本信息和对应的候选数据的描述文本信息之间的第二语义相关度，所述第二语义相关度是利用所述统一模态神经网络基于输入的文本片段和输入的描述文本信息而确定的。

12.根据权利要求8所述的方法，还包括：

对所述候选数据集中的每一个候选数据的音频数据进行语音识别，以得到与该候选数据对应的语音文本信息，

其中，所述相关度还包括相应的文本片段的文本信息和对应的候选数据的语音文本信息之间的第三语义相关度，所述第三语义相关度是利用所述统一模态神经网络基于输入的文本片段和输入的语音文本信息而确定的。

13.根据权利要求8-12中任一项所述的方法，其中，所述为所述至少一个文本片段匹配目标数据包括：

利用所述统一模态神经网络，分别为所述至少一个文本片段中的每一个文本片段在所述候选数据集中确定与该文本片段的视觉相关度最高的第一数量的候选数据；以及

基于所述至少一个文本片段各自和对应的第一数量的候选数据中的每一个候选数据的相关度，为所述至少一个文本片段匹配目标数据。

14.根据权利要求13所述的方法，其中，所述候选数据集中的每一个候选数据至多与所述至少一个文本片段中的一个文本片段匹配，其中，所述为所述至少一个文本片段匹配目标数据还包括：

响应于确定所述至少一个文本片段中的一部分文本片段未成功匹配目标数据，利用所述统一模态神经网络，分别为所述一部分文本片段中的每一个文本片段在所述候选数据集中的未被匹配的候选数据中确定与该文本片段的相关度最高的第二数量的候选数据；以及

基于所述一部分文本片段各自和对应的第二数量的候选数据中的每一个候选数据的相关度，为所述一部分文本片段匹配目标数据。

15.根据权利要求8所述的方法，其中，所述视觉相关度是利用所述统一模态神经网络基于输入的文本片段、与所述输入的文本片段对应的局部语义信息、以及输入的候选数据而确定的。

16.根据权利要求15所述的方法，还包括：

在所述至少一个文本片段中识别实体词，

其中，针对所述至少一个文本片段中包括一个或多个实体词的文本片段，该文本片段和对应的候选数据的视觉相关度是利用所述统一模态神经网络基于该文本片段、所述一个或多个实体词、与该文本片段对应的局部语义信息、以及所述对应的候选数据而确定的。

17.根据权利要求8所述的方法，还包括：

在所述至少一个文本片段中确定用于直接生成视频数据或图像数据的目标文本片段；

利用所述统一模态神经网络，基于所述目标文本片段直接生成第五数据，其中，所述第五数据的视觉内容与所述目标文本片段相关联；以及

将所述第五数据添加到所述候选数据集中。

18.根据权利要求17所述的方法，其中，所述基于所述目标文本片段直接生成第五数据包括：

在所述目标文本片段中识别实体词；以及

利用所述统一模态神经网络，基于所述实体词直接生成所述第五数据。

19.根据权利要求1所述的方法，还包括：

在原始页面中提取所述文本和与所述文本对应的一个或多个第四数据，其中，所述一个或多个第四数据与所述文本中的不同于所述至少一个文本片段的一个或多个文本片段对应；以及

将所述一个或多个第四数据中的每一个第四数据确定为与该第四数据对应的文本片段的目标数据，

其中，所述基于所述至少一个文本片段各自匹配的目标数据生成视频包括：

基于所述至少一个文本片段各自匹配的目标数据和所述一个或多个文本片段各自匹配的目标数据生成所述视频。

20.根据权利要求1所述的方法，其中，所述基于所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集包括：

基于第一目标过滤规则对所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据进行过滤，以得到多个待切分数据；

基于目标切分规则对所述多个待切分数据中的每一个待切分数据进行切分，以得到多个数据片段；以及

基于第二目标过滤规则对所述多个数据片段进行过滤，以得到所述候选数据集。

21.根据权利要求1所述的方法，还包括：

获取所述文本的摘要文本；以及

基于所述摘要文本，确定视频字幕、视频语音、以及视频背景音乐中的至少一个，

基于所述视频字幕、视频语音、以及视频背景音乐中的至少一个以及与所述至少一个文本片段各自匹配的目标数据，生成所述视频。

22.一种神经网络的训练方法，其特征在于，所述神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对所述多个输入特征进行处理，所述方法包括：

获取样本文本、所述样本文本的真实全局语义信息、以及所述样本文本的至少一个真实局部语义信息，其中，所述至少一个真实局部语义信息和所述样本文本中的至少一个文本片段对应；

将所述样本文本所包括的多个第一样本词输入所述神经网络，以得到所述样本文本的预测全局语义信息和至少一个预测局部语义信息；

基于所述真实全局语义信息、所述预测全局语义信息、所述至少一个真实局部语义信息、以及所述至少一个预测局部语义信息，计算第一损失值；

获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据；

将所述样本文本片段所包括的多个第二样本词和所述正例样本数据所包括的至少一个正例图像块输入所述神经网络，以得到所述样本文本片段和所述正例样本数据之间的正例样本视觉相关度，所述正例样本视觉相关度指示所述样本文本片段的文本信息和所述正例样本数据的视觉信息之间的相关度；

将所述多个第二样本词和所述负例样本数据所包括的至少一个负例图像块输入所述神经网络，以得到所述样本文本片段和所述负例样本数据之间的负例样本视觉相关度，所述负例样本视觉相关度指示所述样本文本片段的文本信息和所述负例样本数据的视觉信息之间的相关度；

基于所述正例样本视觉相关度和所述负例样本视觉相关度，计算第二损失值，其中，所述第二损失值和所述正例样本视觉相关度成负相关，并且和所述负例样本视觉相关度成正相关；以及

基于所述第一损失值和所述第二损失值，调整所述神经网络的参数。

23.根据权利要求22所述的方法，还包括：

获取真实样本摘要文本；

将所述多个第一样本词输入所述神经网络，以得到所述样本文本的预测样本摘要文本；以及

基于所述真实样本摘要文本和所述预测样本摘要文本，计算第三损失值，

其中，所述调整所述神经网络的参数包括：

基于所述第一损失值、所述第二损失值和所述第三损失值，调整所述神经网络的参数。

24.根据权利要求23所述的方法，其中，所述真实全局语义信息、所述至少一个真实局部语义信息、所述正例样本数据、以及所述真实样本摘要文本是基于用户输入而确定的。

25.根据权利要求22-24中任一项所述的方法，还包括：

获取所述正例样本数据的相关文本信息以及所述负例样本数据的相关文本信息，所述相关文本信息包括对应的样本数据的内容语义信息、描述文本信息、以及语音文本信息中的至少一个；

将所述多个第二样本词和所述正例样本数据的相关文本信息所包括的至少一个第三样本词输入所述神经网络，以得到所述样本文本片段和所述正例样本数据之间的正例样本语义相关度，所述正例样本语义相关度指示所述样本文本片段的文本信息和所述正例样本数据的相关文本信息之间的相关度；

将所述多个第二样本词和所述负例样本数据的相关文本信息所包括的至少一个第四样本词输入所述神经网络，以得到所述样本文本片段和所述负例样本数据之间的负例样本语义相关度，所述负例样本语义相关度指示所述样本文本片段的文本信息和所述负例样本数据的相关文本信息之间的相关度；以及

基于所述正例样本语义相关度和所述负例样本语义相关度，计算第四损失值，其中，所述第四损失值和所述正例样本语义相关度成负相关，并且和所述负例样本语义相关度成正相关，

其中，所述调整所述神经网络的参数包括：

基于所述第一损失值、所述第二损失值和所述第四损失值，调整所述神经网络的参数。

26.一种视频生成装置，其特征在于，所述装置包括：

第一获取单元，被配置为获取文本的全局语义信息和至少一个局部语义信息，其中，所述至少一个局部语义信息与所述文本中的至少一个文本片段对应；

第一检索单元，被配置为基于所述全局语义信息在数据库中进行检索，以得到对应于所述全局语义信息的至少一个第一数据；

第二检索单元，被配置为针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息在所述数据库中进行检索，以得到与该局部语义信息对应的至少一个第二数据；

第二获取单元，被配置为基于所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据，得到候选数据集；

匹配单元，被配置为基于所述至少一个文本片段各自和所述候选数据集中的每一个候选数据的相关度，为所述至少一个文本片段匹配目标数据；以及

生成单元，被配置为基于所述至少一个文本片段各自匹配的目标数据生成视频。

27.根据权利要求26所述的装置，还包括：

第一识别单元，被配置为在所述至少一个文本片段中识别至少一个实体词；以及

第三检索单元，被配置为针对所述至少一个实体词中的每一个实体词，基于该实体词在所述数据库中进行检索，以得到与该实体词对应的至少一个第三数据，

其中，所述第二获取单元被进一步配置为基于所述至少一个第一数据、与所述至少一个局部语义信息各自对应的至少一个第二数据、以及与所述至少一个实体词各自对应的至少一个第三数据，得到所述候选数据集。

28.根据权利要求27所述的装置，其中，所述第三检索单元包括：

第一检索子单元，被配置为针对所述至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在所述数据库中进行检索，以得到所述至少一个第三数据。

29.根据权利要求28所述的装置，其中，所述针对所述至少一个实体词中的每一个实体词，基于该实体词和该实体词所在的文本片段在所述数据库中进行检索，以得到与该实体词对应的至少一个第三数据包括：

30.根据权利要求26-29中任一项所述的装置，其中，所述第二检索单元包括：

第二检索子单元，被配置为针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在所述数据库中进行检索，以得到所述至少一个第二数据。

31.根据权利要求30所述的装置，其中，所述针对所述至少一个局部语义信息中的每一个局部语义信息，基于该局部语义信息和与该局部语义信息对应的文本片段在所述数据库中进行检索，以得到所述至少一个第二数据包括：

32.根据权利要求30所述的装置，其中，所述第一检索单元包括：

第三检索子单元，被配置为基于所述全局语义信息和所述文本的标题在所述数据库中进行检索，以得到所述至少一个第一数据。

33.根据权利要求26所述的装置，其中，所述全局语义信息和所述至少一个局部语义信息是利用经训练的统一模态神经网络获取的，并且其中，所述相关度包括相应的文本片段的文本信息和对应的候选数据的视觉信息之间的视觉相关度，所述视觉相关度是利用所述统一模态神经网络基于输入的文本片段和输入的候选数据而确定的。

34.根据权利要求33所述的装置，还包括：

内容理解单元，被配置为对所述候选数据集中的每一个候选数据进行内容理解，以得到该候选数据的内容语义信息，

35.根据权利要求34所述的装置，其中，所述内容理解包括文本识别和实体识别中的至少一个。

36.根据权利要求33所述的装置，还包括：

描述文本获取单元，被配置为获取所述候选数据集中的每一个候选数据的描述文本信息，

37.根据权利要求33所述的装置，还包括：

语音识别单元，被配置为对所述候选数据集中的每一个候选数据的音频数据进行语音识别，以得到与该候选数据对应的语音文本信息，

38.根据权利要求33-37中任一项所述的装置，其中，所述匹配单元包括：

确定子单元，被配置为利用所述统一模态神经网络，分别为所述至少一个文本片段中的每一个文本片段在所述候选数据集中确定与该文本片段的视觉相关度最高的第一数量的候选数据；以及

匹配子单元，被配置为基于所述至少一个文本片段各自和对应的第一数量的候选数据中的每一个候选数据的相关度，为所述至少一个文本片段匹配目标数据。

39.根据权利要求38所述的装置，其中，所述候选数据集中的每一个候选数据至多与所述至少一个文本片段中的一个文本片段匹配，

其中，所述确定子单元被进一步配置为响应于确定所述至少一个文本片段中的一部分文本片段未成功匹配目标数据，利用所述统一模态神经网络，分别为所述一部分文本片段中的每一个文本片段在所述候选数据集中的未被匹配的候选数据中确定与该文本片段的相关度最高的第二数量的候选数据，

并且其中，所述匹配子单元被进一步配置为基于所述一部分文本片段各自和对应的第二数量的候选数据中的每一个候选数据的相关度，为所述一部分文本片段匹配目标数据。

40.根据权利要求33所述的装置，其中，所述视觉相关度是利用所述统一模态神经网络基于输入的文本片段、与所述输入的文本片段对应的局部语义信息、以及输入的候选数据而确定的。

41.根据权利要求40所述的装置，还包括：

第二识别单元，被配置为在所述至少一个文本片段中识别实体词，

42.根据权利要求33所述的装置，还包括：

第一确定单元，被配置为在所述至少一个文本片段中确定用于直接生成视频数据或图像数据的目标文本片段；

数据生成单元，被配置为利用所述统一模态神经网络，基于所述目标文本片段直接生成第五数据，其中，所述第五数据的视觉内容与所述目标文本片段相关联；以及

添加单元，被配置为将所述第五数据添加到候选数据集中。

43.根据权利要求42所述的装置，其中，所述数据生成单元包括：

识别子单元，被配置为在所述目标文本片段中识别实体词；以及

数据生成子单元，被配置为利用所述统一模态神经网络，基于所述实体词直接生成所述第五数据。

44.根据权利要求26所述的装置，还包括：

提取单元，被配置为在原始页面中提取所述文本和与所述文本对应的一个或多个第四数据，其中，所述一个或多个第四数据与所述文本中的不同于所述至少一个文本片段的一个或多个文本片段对应；以及

第二确定单元，被配置为将所述一个或多个第四数据中的每一个第四数据确定为与该第四数据对应的文本片段的目标数据，

其中，所述生成单元被进一步配置为基于所述至少一个文本片段各自匹配的目标数据和所述一个或多个文本片段各自匹配的目标数据生成所述视频。

45.根据权利要求26所述的装置，其中，所述第二获取单元包括：

获取子单元，被配置为基于第一目标过滤规则对所述至少一个第一数据和与所述至少一个局部语义信息各自对应的至少一个第二数据进行过滤，以得到多个待切分数据；

切分子单元，被配置为基于目标切分规则对所述多个待切分数据中的每一个待切分数据进行切分，以得到多个数据片段；以及

过滤子单元，被配置为基于第二目标过滤规则对所述多个数据片段进行过滤，以得到所述候选数据集。

46.根据权利要求26所述的装置，还包括：

摘要获取单元，被配置为获取所述文本的摘要文本；以及

第三确定单元，被配置为基于所述摘要文本，确定视频字幕、视频语音、以及视频背景音乐中的至少一个，

其中，所述生成单元包括：

生成子单元，被配置为基于所述视频字幕、视频语音、以及视频背景音乐中的至少一个以及与所述至少一个文本片段各自匹配的目标数据，生成所述视频。

47.一种神经网络的训练装置，其特征在于，所述神经网络被配置为对接收到的多个输入进行嵌入以得到对应的多个输入特征，并利用自注意力机制对所述多个输入特征进行处理，所述装置包括：

第三获取单元，被配置为获取样本文本、所述样本文本的真实全局语义信息、以及所述样本文本的至少一个真实局部语义信息，其中，所述至少一个真实局部语义信息和所述样本文本中的至少一个文本片段对应；

第一输入单元，被配置为将所述样本文本所包括的多个第一样本词输入所述神经网络，以得到所述样本文本的预测全局语义信息和至少一个预测局部语义信息；

第一计算单元，被配置为基于所述真实全局语义信息、所述预测全局语义信息、所述至少一个真实局部语义信息、以及所述至少一个预测局部语义信息，计算第一损失值；

第四获取单元，被配置为获取样本文本片段、与该样本文本片段对应的正例样本数据和与该样本文本片段对应的负例样本数据；

第二输入单元，被配置为将所述样本文本片段所包括的多个第二样本词和所述正例样本数据所包括的至少一个正例图像块输入所述神经网络，以得到所述样本文本片段和所述正例样本数据之间的正例样本视觉相关度，所述正例样本视觉相关度指示所述样本文本片段的文本信息和所述正例样本数据的视觉信息之间的相关度；

第三输入单元，被配置为将所述多个第二样本词和所述负例样本数据所包括的至少一个负例图像块输入所述神经网络，以得到所述样本文本片段和所述负例样本数据之间的负例样本视觉相关度，所述负例样本视觉相关度指示所述样本文本片段的文本信息和所述负例样本数据的视觉信息之间的相关度；

第二计算单元，被配置为基于所述正例样本视觉相关度和所述负例样本视觉相关度，计算第二损失值，其中，所述第二损失值和所述正例样本视觉相关度成负相关，并且和所述负例样本视觉相关度成正相关；以及

调整单元，被配置为基于所述第一损失值和所述第二损失值，调整所述神经网络的参数。

48.根据权利要求47所述的装置，还包括：

第五获取单元，被配置为获取真实样本摘要文本；

第四输入单元，被配置为将所述多个第一样本词输入所述神经网络，以得到所述样本文本的预测样本摘要文本；以及

第三计算单元，被配置为基于所述真实样本摘要文本和所述预测样本摘要文本，计算第三损失值，

其中，所述调整单元被进一步配置为基于所述第一损失值、所述第二损失值和所述第三损失值，调整所述神经网络的参数。

49.根据权利要求48所述的装置，其中，所述真实全局语义信息、所述至少一个真实局部语义信息、所述正例样本数据、以及所述真实样本摘要文本是基于用户输入而确定的。

50.根据权利要求47-49中任一项所述的装置，还包括：

第六获取单元，被配置为获取所述正例样本数据的相关文本信息以及所述负例样本数据的相关文本信息，所述相关文本信息包括对应的样本数据的内容语义信息、描述文本信息、以及语音文本信息中的至少一个；

第五输入单元，被配置为将所述多个第二样本词和所述正例样本数据的相关文本信息所包括的至少一个第三样本词输入所述神经网络，以得到所述样本文本片段和所述正例样本数据之间的正例样本语义相关度，所述正例样本语义相关度指示所述样本文本片段的文本信息和所述正例样本数据的相关文本信息之间的相关度；

第六输入单元，被配置为将所述多个第二样本词和所述负例样本数据的相关文本信息所包括的至少一个第四样本词输入所述神经网络，以得到所述样本文本片段和所述负例样本数据之间的负例样本语义相关度，所述负例样本语义相关度指示所述样本文本片段的文本信息和所述负例样本数据的相关文本信息之间的相关度；以及

第四计算单元，被配置为基于所述正例样本语义相关度和所述负例样本语义相关度，计算第四损失值，其中，所述第四损失值和所述正例样本语义相关度成负相关，并且和所述负例样本语义相关度成正相关，

其中，所述调整单元被进一步配置为基于所述第一损失值、所述第二损失值和所述第四损失值，调整所述神经网络的参数。

51.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-25中任一项所述的方法。

52.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-25中任一项所述的方法。