CN114390365B

CN114390365B - 用于生成视频信息的方法和装置

Info

Publication number: CN114390365B
Application number: CN202210014449.8A
Authority: CN
Inventors: 詹忆冰; 胡林康
Original assignee: Jingdong Technology Information Technology Co Ltd
Current assignee: Jingdong Technology Information Technology Co Ltd
Priority date: 2022-01-04
Filing date: 2022-01-04
Publication date: 2024-04-26
Anticipated expiration: 2042-01-04
Also published as: CN114390365A

Abstract

本申请公开了用于生成视频信息的方法和装置，涉及计算机技术领域。该方法包括：获取预设视频中的多个视频片段以及多个视频分段；获取多个视频片段中每一个视频片段的片段表征；获取多个视频分段中每一个视频分段的分段表征；将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵。采用该方法生成的相关性矩阵生成面向查询信息的视频摘要，可以提高生成视频摘要的效率，以及避免生成视频摘要的局限性问题。

Description

用于生成视频信息的方法和装置

技术领域

本公开涉及计算机技术领域，具体涉及用于生成视频信息的方法和装置。

背景技术

随着人工智能技术的发展，越来越多的领域采用人工智能模型实现信息提取。现有的采用人工智能模型提取视频的视频摘要的方法，主要是采用基于样本查询信息以及样本视频摘要训练模型，以在模型应用过程中生成针对用户查询信息的视频摘要。

然而，现有的提取视频的视频摘要的方法存在查询效率低、以及模型应用局限性高的问题。

发明内容

本公开提供了一种用于生成视频信息的方法、装置、电子设备以及计算机可读存储介质。

根据本公开的第一方面，提供了一种用于生成视频信息的方法，包括：获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；获取多个视频片段中每一个视频片段的片段表征；获取多个视频分段中每一个视频分段的分段表征；将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性。

在一些实施例中，获取多个视频片段中每一个视频片段的片段表征，包括：针对每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息；将片段特征、第一类型信息以及片段位置信息，确定为该视频片段的片段表征。

在一些实施例中，获取多个视频分段中每一个视频分段的分段表征，包括：针对每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息；将分段特征、第二类型信息以及分段位置信息，确定为该视频分段的分段表征。

在一些实施例中，预设信息的表征包括：与预设查询信息关联的语义信息、用于表征当前表征的表征类型的第三类型信息。

在一些实施例中，用于生成视频信息的方法还包括：获取用户查询信息，确定用户查询信息的表征；基于用户查询信息的表征，从相关性矩阵中确定至少一个目标视频片段；根据至少一个目标视频片段生成预设视频的视频摘要。

根据本公开的第二方面，提供了一种用于训练模型的方法，包括：获取样本数据，其中，样本数据包括样本视频、以及用于表征样本查询信息的表征与样本视频中每一个视频片段之间的相关性的样本相关性矩阵；获取每一个视频片段的片段表征；获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成；将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及样本查询信息的表征，输入初始相关性预测模型，获得初始相关性预测模型生成的相关性矩阵；采用初始相关性预测模型生成的相关性矩阵、与样本相关性矩阵之间的损失，训练初始相关性预测模型，并得到目标相关性预测模型。

在一些实施例中，获取每一个视频片段的片段表征，包括：针对每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息；将片段特征、第一类型信息以及片段位置信息确定为该视频片段的片段表征。

在一些实施例中，获取每一个视频分段的分段表征，包括：针对每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息；将分段特征、第二类型信息以及分段位置信息确定为该视频分段的分段表征。

在一些实施例中，样本查询信息的表征包括：与样本查询信息关联的语义信息、用于表征当前表征的表征类型的第三类型信息。

根据本公开的第三方面，提供了一种用于生成视频信息的装置，包括：第一获取单元，被配置为获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；第二获取单元，被配置为获取多个视频片段中每一个视频片段的片段表征；第三获取单元，被配置为获取多个视频分段中每一个视频分段的分段表征；生成单元，被配置为将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性。

在一些实施例中，第二获取单元，包括：第一获取模块，被配置为针对每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息；第一确定模块，被配置为将片段特征、第一类型信息以及片段位置信息，确定为该视频片段的片段表征。

在一些实施例中，第三获取单元，包括：第二获取模块，被配置为针对每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息；第二确定模块，被配置为将分段特征、第二类型信息以及分段位置信息，确定为该视频分段的分段表征。

在一些实施例中，用于生成视频信息的装置还包括：查询信息获取单元，被配置为获取用户查询信息，确定用户查询信息的表征；提取单元，被配置为基于用户查询信息的表征，从相关性矩阵中确定至少一个目标视频片段；摘要单元，被配置为根据至少一个目标视频片段生成预设视频的视频摘要。

根据本公开的第四方面，提供了一种用于训练模型的装置，包括：第四获取单元，被配置为获取样本数据，其中，样本数据包括样本视频、以及用于表征样本查询信息的表征与样本视频中每一个视频片段之间的相关性的样本相关性矩阵；第五获取单元，被配置为获取每一个视频片段的片段表征；第六获取单元，被配置为获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成；预测单元，被配置为将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及样本查询信息的表征，输入初始相关性预测模型，获得初始相关性预测模型生成的相关性矩阵；训练单元，被配置为采用初始相关性预测模型生成的相关性矩阵、与样本相关性矩阵之间的损失，训练初始相关性预测模型，并得到目标相关性预测模型。

在一些实施例中，第五获取单元，包括：第三获取模块，被配置为针对每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息；第三确定模块，被配置为将片段特征、第一类型信息以及片段位置信息确定为该视频片段的片段表征。

在一些实施例中，第六获取单元，包括：第四获取模块，被配置为针对每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息；第四确定模块，被配置为将分段特征、第二类型信息以及分段位置信息确定为该视频分段的分段表征。

根据本公开的第五方面，本公开的实施例提供了一种电子设备，包括：一个或多个处理器：存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面提供的用于生成视频信息的方法或者实现如第二方面提供的用于训练模型的方法。

根据本公开的第六方面，本公开的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，其中，程序被处理器执行时实现如第一方面提供的用于生成视频信息的方法或者实现如第二方面提供的用于训练模型的方法。

本公开提供的用于生成视频信息的方法、装置，包括：获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；获取多个视频片段中每一个视频片段的片段表征；获取多个视频分段中每一个视频分段的分段表征；将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性，基于该相关性矩阵生成面向查询信息的视频摘要，可以提高生成视频摘要的效率，以及避免生成视频摘要的局限性问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请的实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于生成视频信息的方法的一个实施例的流程图；

图3是根据本申请的用于生成视频信息的方法的应用场景的流程图；

图4是根据本申请的用于训练模型的方法的一个实施例的流程图；

图5是根据本申请的用于训练模型的方法的应用场景的流程图；

图6是根据本申请的用于生成视频信息的装置的一个实施例的结构示意图；

图7是根据本申请的用于训练模型的装置的一个实施例的结构示意图；

图8是用来实现本申请实施例的用于生成视频信息的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1示出了可以应用本申请的用于生成视频信息的方法或用于生成视频信息的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是用户终端设备，其上可以安装有各种客户端应用，例如图像类应用、视频类应用、购物类应用、聊天类应用、搜索类应用、金融类应用等。

终端设备101、102、103可以是具有显示屏并且支持接收服务器消息的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、电子播放器、膝上型便携计算机和台式计算机等等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；获取多个视频片段中每一个视频片段的片段表征，以及多个视频分段中每一个视频分段的分段表征；将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性。

需要说明的是，本公开的实施例所提供的用于生成视频信息的方法可以由服务器105执行，相应地，用于生成视频信息的装置可以设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本公开的用于生成视频信息的方法的一个实施例的流程200，包括以下步骤：

步骤201，获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成。

在本实施例中，用于生成视频信息的方法的执行主体(例如图1所示的服务器105)可以获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频片段中包括预设视频中多个连续的视频帧，每一个视频分段中包括多个连续的视频片段。

步骤202，获取多个视频片段中每一个视频片段的片段表征。

在本实施例中，获取多个视频片段中每一个视频片段的片段表征，视频片段的片段表征中可以包括：该视频片段的特征；当前表征的类型，如当前表征是视频片段的表征；用于描述该视频片段的信息，如，视频片段在视频中的位置、视频片段包含的内容描述等。

步骤203，获取多个视频分段中每一个视频分段的分段表征。

在本实施例中，获取多个视频片段中每一个视频分段的分段表征，视频分段的分段表征中可以包括：该视频分段的特征；当前表征的类型，如当前表征是视频分段的表征；用于描述该视频分段的信息，如，视频分段在视频中的位置、视频分段包含的内容描述等。

步骤204，将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性。

在本实施例中，将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入预先训练好的目标相关性预测模型，以获得目标相关性预测模型生成的相关性矩阵，其中，该相关性矩阵中包括预设视频中的每一个视频片段与预设信息的表征之间的相关性，即，目标相关性预测模型用于基于视频中包含的视频片段与视频分段、以及预设信息的表征，生成包括预设视频中的每一个视频片段与预设信息的表征之间的相关性的相关性矩阵。

本实施例提供的用于生成视频信息的方法，将基于预设视频中包含的多个视频片段获取的多个片段表征、基于预设视频中包含的多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得包括视频片段与预设信息的表征之间的相关性的相关性矩阵，可以基于一次推理、生成相关性矩阵，在需要基于用户查询信息生成视频摘要时，可以基于该相关性矩阵，生成面向不同用户查询信息的视频摘要，实现一次推理，生成满足不同用户需求的不同的视频摘要，提高生成视频摘要的效率。

可选地，获取多个视频片段中每一个视频片段的片段表征，包括：针对每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息；将片段特征、第一类型信息以及片段位置信息，确定为该视频片段的片段表征。

在本实施例中，针对预设视频中包含的每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在预设视频中的位置的片段位置信息，并将所获取的上述三种信息确定为该视频片段的片段表征。其中，可以采用预先训练的视频特征提取模型提取视频片段特征(可以包括视频片段中内容特征的提取、视频片段中音频特征的提取、视频片段中音频包含的语义特征的提取。)。第一类型信息用于描述当前所获取的表征是视频片段的表征。采用上述三种信息作为视频片段的片段表征可以提高确定片段表征的准确性。

可选地，获取多个视频分段中每一个视频分段的分段表征，包括：针对每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息；将分段特征、第二类型信息以及分段位置信息，确定为该视频分段的分段表征。

在本实施例中，针对预设视频中包含的每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在预设视频中的位置的分段位置信息，并将所获取的上述三种信息作为该视频分段的分段表征。其中，可以采用预先训练的视频特征提取模型提取视频分段特征。第二类型信息用于描述当前所获取的表征是视频分段的表征。采用上述三种信息作为视频分段的分段表征可以提高确定分段表征的准确性。

可选地，预设信息的表征包括：与预设查询信息关联的语义信息、用于表征当前表征的表征类型的第三类型信息。

在本实施例中，预设信息的表征包括与预设查询信息关联的语义信息，以及包括用于表征当前表征的表征类型的第三类型信息。第三类型信息用于描述当前表征是预设信息的表征。其中，预设信息是在训练目标相关性预测模型时所采用的查询信息，预设信息的表征可以是查询信息所表达的语义，或者查询信息中所包含的概念/查询信息中所包含的概念的语义，查询信息中所包含的一个词语可以代表一个概念。采用上述两种信息作为预设信息的表征可以提高确定预设信息的表征的准确性。

在上述结合图2描述的实施例的一些可选的实现方式中，用于生成视频信息的方法还包括：获取用户查询信息，确定用户查询信息的表征；基于用户查询信息的表征，从相关性矩阵中确定至少一个目标视频片段；根据至少一个目标视频片段生成预设视频的视频摘要。

在本实施例中，获取用户查询信息，并确定用户查询信息的表征，具体而言，可以获取用户查询信息中所包含的概念或者语义，其中，用户查询信息中的每一个词语可以代表一个概念。从用于表征视频片段与预设信息的表征之间的相关性的相关性矩阵中，查询与当前用户查询信息的表征对应的视频片段，将查询到的视频片段作为目标视频片段，并采用目标视频片段生成面向用户查询信息的、预设视频的视频摘要。可以理解，预设信息是在训练模型是所采用的信息，预设信息可以包含大量概念以及语义，用户查询信息所包含的概念或者语义是预设信息所包含的概念或者语义的子集。故，基于用户查询信息的表征，可以从训练得到的模型所生成的相关性矩阵中、查询到对应的视频片段。

本实施例在基于用户查询信息生成视频摘要时，可以基于该相关性矩阵，生成面向不同用户查询信息的视频摘要，实现一次推理，生成满足不同用户需求的不同的视频摘要，提高生成视频摘要的效率。

在一些应用场景中，如图3所示，用于生成视频摘要的方法包括：

第一步，提取特征，以获得视频中各个视频片段的片段特征、各个视频分段的分段特征。

第二步，基于第一步提取的每一个视频片段的片段特征为每一个视频片段构建表征，基于每一个视频分段的分段特征为每一个视频分段构建分段表征。

第三步，将基于视频获得的多个片段表征、分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，该相关性矩阵中，包括该视频的每一个视频片段与预设信息的表征之间的相关性。

第四步，基于该相关性矩阵，可以得到面向不同查询信息的摘要。具体而言，该相关性矩阵中的每一行对应视频中的一个视频片段、每一列则对应概念词汇表中的一个概念，每一个元素代表该元素位置对应的视频片段、与该元素位置对应的概念之间的相关性。

相关性矩阵中的每一列中的每一个元素分别代表所有视频片段中每一个视频片段、与该列所对应的概念之间的相关性，因此，对一个用户查询信息可以通过聚合相关性矩阵中的特定列即可得到每个视频片段与该查询的相关性关系(即，解析该查询信息，获得其中包含的所有概念，聚合相关性矩阵中所有概念对应的列)：

中的每个分量对应一个视频片段，每个分量上的值代表对应的视频片段被选入摘要的可能性(或者理解为该视频片段与查询信息所包含的概念之间的相关性)，聚合中值最大的预设数目个分量对应的视频片段，并基于这些视频片段生成针对用户查询信息Q的视频摘要。

应用该方法，可以基于目标相关性预测模型推理一次，获得相关性矩阵，之后对于不同的用户查询信息，可以基于该相关性矩阵，聚合矩阵中特定的元素，生成针对不同用户查询信息的不同视频摘要，实现一次推理即可满足多种查询需求，可以避免对于同一视频的不同查询，在推理时需要为每一个单独的查询执行一次完整的推理流程、导致的查询效率低的问题。另外，可以避免模型不能适应新出现的查询，即在推理/预测时遇到从未在训练阶段出现过的查询时，无法生成视频摘要的问题。

继续参考图4，示出了根据本公开的用于训练模型的方法的一个实施例的流程400，包括以下步骤：

步骤401，获取样本数据，其中，样本数据包括样本视频、以及用于表征样本查询信息的表征与样本视频中每一个视频片段之间的相关性的样本相关性矩阵。

在本实施例中，用于训练模型的方法的执行主体(例如图1所示的服务器105)可以获取样本数据，样本数据中包括样本视频，以及用于表征样本查询信息的表征与样本视频中每一个视频片段之间的相关性的样本相关性矩阵。其中，每一个视频分段中包括多个连续的视频片段。

步骤402，获取每一个视频片段的片段表征。

在本实施例中，获取样本视频中每一个视频片段的片段表征，视频片段的片段表征中可以包括：该视频片段的特征；当前表征的类型，如当前表征是视频片段的表征；用于描述该视频片段的信息，如，视频片段在视频中的位置、视频片段包含的内容描述等。

步骤403，获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成。

在本实施例中，获取样本视频中每一个视频分段的分段表征，每个视频分段由样本视频中的多个连续的视频片段构成，视频分段的分段表征中可以包括：该视频分段的特征；当前表征的类型，如当前表征是视频分段的表征；用于描述该视频分段的信息，如，视频分段在视频中的位置、视频分段包含的内容描述等。

步骤404，将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及样本查询信息的表征，输入初始相关性预测模型，获得初始相关性预测模型生成的相关性矩阵。

在本实施例中，将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及样本查询信息的表征，输入初始相关性预测模型，以获得初始相关性预测模型生成的相关性矩阵，其中，该相关性矩阵中包括样本视频中的每一个视频片段与查询信息的表征之间的相关性。

步骤405，采用初始相关性预测模型生成的相关性矩阵、与样本相关性矩阵之间的损失，训练初始相关性预测模型，并得到目标相关性预测模型。

在本实施例中，采用初始相关性预测模型生成的相关性矩阵、与样本相关性矩阵之间的损失，对初始相关性预测模型进行训练，当经训练的初始相关性预测模型输出的相关性矩阵、与样本相关性矩阵之间的损失满足预设损失阈值时，停止训练，并将最后一轮训练中所得到的初始相关性预测模型作为目标相关性预测模型。

本实施例提供的用于训练模型的方法，基于该方法训练得到的目标相关性预测模型能够获得包括预设视频中视频片段与预设信息的表征之间的相关性的相关性矩阵，可以基于一次推理、生成相关性矩阵，基于用户查询信息生成视频摘要时，可以基于该相关性矩阵，生成面向不同用户查询信息的视频摘要，实现一次推理，生成满足不同用户需求的不同的视频摘要，提高生成视频摘要的效率。

另外，当用户查询信息从未出现在训练时所使用的样本查询信息时，也可以基于相关性矩阵，确定出预设视频中与用户查询信息最相关的视频片段，避免模型不能适应从未训练过的查询，从而避免了模型应用的局限性问题。

在一些应用场景中，如图5所示，用于训练模型的方法包括：

第一步，提取特征：将视频切分成若干连续切不重叠的视频片段V＝[v₁，v₂，...，v_N]，以及多个连续的视频片段构成一个分段，视频由可以表示为一组连续的视频分段V＝[S₁，S₂，…，S_M]，其中，视频分段S_j包括从视频片段v_(j-1)l+1，j∈[1，...，M]开始的l个连续视频片段。初始相关性预测模型从每一个视频片段中提取片段特征，并将连续的一组片段特征聚合为该连续的一组视频片段所组成的视频分段的分段特征：

其中，v_i代表视频片段i，S_j代表视频分段j，代表视频分段j的特征。

以及，获取查询信息的概念：每个查询中包含多个概念/单词，即，每个查询信息可以理解为概念的集合其中，/>代表概念的词汇表，由所有样本查询信息取并集得到。在模型训练阶段、以及使用训练完成的模型进行预测阶段，所有的查询信息都由该概念词汇表中的元素构成。

第二步，构建表征：基于第一步提取的每一个视频片段的片段特征为每一个视频片段构建片段表征，基于每一个视频分段的分段特征为每一个视频分段构建分段表征，以及构建记忆表征，其中，记忆表征是在模型训练过程中可以学习的变量，用于记忆训练数据中与查询信息及查询信息的概念相关的语义信息。

构建片段表征的方法包括：在片段特征上添加一个可学习的变量/>用于向自注意力模块标识这一特征是视频片段的特征，以及添加描述该片段在视频中的位置的向量PE(i)，i∈[1，...，N]，其中，i为视频片段的标识/编号，该向量由视频片段的编号映射得到。视频片段i的表征为：

构建分段表征的方法包括：在视频分段的分段特征上添加一个标识该特征的类型的可学习变量/>用于向自注意力模块标识这一特征是视频分段的特征，以及添加描述该视频分段在视频中的位置的向量/>即，对于一个包含l个连续视频片段的视频分段，使用其中间位置的片段编号来映射得到该视频分段的位置的位置信息。视频分段j的表征为：

构建记忆表征的方法包括：模型中引入可学习的变量作为记忆表征，用于记忆训练数据中与查询信息及查询信息的概念相关的语义信息，其中，K代表记忆表征的数量，以及添加标识这一表征的类型是记忆表征的变量/>

第三步，将基于视频获得的片段表征、分段表征，以及基于查询信息获得的记忆表征，输入自注意力模块，以获得对视频片段的联合表征，基于该联合表征，使用全连接神经网络层得到用于表征每一个视频片段与查询信息中所包含的概念关联的表征之间的相关性矩阵。在该步骤中，由于视频片段的数量相对于视频分段的数量更多(多个视频分段组成视频片段)，视频片段的数量相对于记忆表征的数量也更多(对于一般情况而言，查询信息中包含的概念有限)，故，在将三者信息输入至模型时候，可以输入一部分的片段表征、全部的分段表征、以及全部的记忆表征，将其三者组成序列：

利用自注意力模块的自注意力机制处理该输入序列S，以构建视频片段与视频分段、记忆表征之间的联系：

Self-Attention(S)＝Concat(head₁，...，head_h)W^O

其中，W^O，代表可学习的矩阵变量；i∈[1，...，h]代表基于注意力机制的网络中注意力头head的标识；X、Y、Z均为函数的形式参数，与用于计算head而输入的三个矩阵(即，/>)相对应；d代表自注意力模块中特征向量的维度，该式中对维度参量进行开方运算，可以提高训练过程的稳定性；Concat()以及Atte()是多头注意力机制中的预设函数，具体地，Concat()代表级联并联函数，Atte()代表自注意力机制函数；softmax()是机器学习中的预设函数。之后，可以利用前馈神经网络(FFN)与残差连接(Embedding)得到每个视频片段的联合表征：

FFN(x)＝max(0，xW1+b₁)W₂+b₂

Embedding(S)＝FFN(Self-Attention(S)+S)

其中，x代表FFN函数的形式参数；W₁、W₂、b₁、b₂均为待训练的模型参数，FFN是前馈神经网络；需要说明的是，输入的序列S经过自注意力模块处理后，每个视频片段对应的输出已经融合了其他视频片段以及记忆表征中的信息，即，每个视频片段的表征仅来自于该视频片段的自身，而此处得到的结果是经过自注意力机制/训练网络进行信息传递之后、结合了其他视频片段的信息的结果。故，相对于视频片段的表征而言，此处得到的结果为视频片段的联合表征。

取其中Embedding(S)中与视频片段相对应的部分即为对视频片段的最终的联合表征R^V。基于R^V，使用全连接神经网络(Fully-connected Neural Networks)即可得到用于表征视频片段与样本查询信息关联的信息/概念之间的相关性的相关性矩阵：

第四步，在训练阶段，采用人工制作的针对查询信息的视频摘要(也即，人工标注的标签)所包含的视频片段与概念之间的相关性、与上述相关性矩阵所包含的视频片段与概念之间的相关性之间的损失，训练上述模型中的各个参数。具体包括：

在训练模型之前首先生成表征视频片段与各个概念之间的相关性的标签矩阵：首先初始化一个与相关性矩阵形状相同的全零矩阵；然后对于训练数据中的任意一个查询及其人工制作的摘要，将这一摘要中包含的所有视频片段与查询中所包含的所有概念的相关性取值都置为1(也即，已选入视频摘要中的视频片段、与查询中的概念相关)；对所有样本查询都执行这一过程，即可得到一个二维矩阵形式的标签矩阵，其中，标签矩阵中的元素与相关性矩阵一一对应。

另外，由于自注意力机制在每次计算中输入的只有一部分视频片段(即，部分视频片段的表征、全部视频分段的表征、以及全部的记忆表征)，考虑到摘要标签的稀疏性，在每次计算采样视频片段时应当保持正样本(应当进入摘要的片段)与负样本(不应当进入摘要的片段)在每个输入序列S中的比例近似相等，以保证训练过程中样本的平衡性。为了保持这种样本间的平衡，每次采样需要从整个视频范围内随机采样视频片段，故模型处理的实际为打乱顺序后的视频片段序列。

在训练步骤中所采用的准确性损失函数可以是：

其中，代表标签矩阵中的元素；/>是模型预测的视频片段与概念之间的相关性的相关性矩阵中的元素，该元素与概念q相对应，其在视频片段序列中的位置标识是ij；exp()函数中的输入是当前所训练的模型预测的矩阵/>中相应元素的得分，该公式的分子部分计算的是所有以正样本(被选择为样本视频摘要中的视频片段为正样本)的预测得分为指数的幂之和，分母部分计算以所有样本的预测得分为指数的幂之和。

在训练步骤中，还可以对视频片段的联合表征R^V中的各个视频片段的联合表征向量添加多样性损失，以确保训练后的模型能够尽量提取多样化的视频片段，从而使基于提取的视频片段生成包含丰富视频内容的视频摘要，针对视频片段联合表征的多样性损失函数可以表示为：

其中，n′代表用于计算多样性损失的联合表征向量的数量；/>均代表视频片段的联合表征；“：”代表在矩阵中的某一行取所有元素，即，从矩阵中取某一行向量。

在训练步骤中，还可以对记忆表征添加多样性损失，针对记忆表征的多样性损失函数可以表示为：

其中，K代表用于计算对样性损失的记忆表征的矩阵R^C个数，/> 均代表记忆表征的矩阵。

在训练步骤中，可以采用以上三种损失的加权和，作为最终的用于训练模型的损失函数：

其中，λ_p，λ_v，λ_c分别为准确性损失、视频片段多样性损失以及记忆表征多样性损失的权重。

进一步参考图6，作为对上述各图所示方法的实现，本公开提供了一种用于生成视频信息的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于生成视频信息的装置，包括：第一获取单元601、第二获取单元602、第三获取单元603、生成单元604。其中，第一获取单元，被配置为获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；第二获取单元，被配置为获取多个视频片段中每一个视频片段的片段表征；第三获取单元，被配置为获取多个视频分段中每一个视频分段的分段表征；生成单元，被配置为将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得目标相关性预测模型生成的相关性矩阵，其中，相关性矩阵中包括视频片段与预设信息的表征之间的相关性。

上述装置600中的各单元与参考图2描述的方法中的步骤相对应。由此上文针对用于生成视频信息的方法描述的操作、特征及所能达到的技术效果同样适用于装置600及其中包含的单元，在此不再赘述。

进一步参考图7，作为对上述各图所示方法的实现，本公开提供了一种用于训练模型的装置的一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的用于训练模型的装置，包括：第四获取单元701、第五获取单元702、第六获取单元703、预测单元704、训练单元705。其中，第四获取单元，被配置为获取样本数据，其中，样本数据包括样本视频、以及用于表征样本查询信息的表征与样本视频中每一个视频片段之间的相关性的样本相关性矩阵；第五获取单元，被配置为获取每一个视频片段的片段表征；第六获取单元，被配置为获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成；预测单元，被配置为将基于多个视频片段获取的多个片段表征、基于多个视频分段获取的多个分段表征、以及样本查询信息的表征，输入初始相关性预测模型，获得初始相关性预测模型生成的相关性矩阵；训练单元，被配置为采用初始相关性预测模型生成的相关性矩阵、与样本相关性矩阵之间的损失，训练初始相关性预测模型，并得到目标相关性预测模型。

上述装置700中的各单元与参考图4描述的方法中的步骤相对应。由此上文针对用于训练模型的方法描述的操作、特征及所能达到的技术效果同样适用于装置700及其中包含的单元，在此不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图8所示，是根据本申请实施例的用于生成视频信息的方法的电子设备800的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示，该电子设备包括：一个或多个处理器801、存储器802，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。

存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中，该存储器存储有可由至少一个处理器执行的指令，以使该至少一个处理器执行本申请所提供的用于生成视频信息的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于生成视频信息的方法。

存储器802作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于生成视频信息的方法对应的程序指令/模块(例如，附图6所示的第一获取单元601、第二获取单元602、第三获取单元603、生成单元604)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于生成视频信息的方法。

存储器802可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于提取视频片段的电子设备的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器802可选包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至用于提取视频片段的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于生成视频信息的方法的电子设备还可以包括：输入装置803、输出装置804以及总线805。处理器801、存储器802、输入装置803和输出装置804可以通过总线805或者其他方式连接，图8中以通过总线805连接为例。

输入装置803可接收输入的数字或字符信息，以及产生与用于提取视频片段的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种用于生成视频信息的方法，包括：

获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；

获取所述多个视频片段中每一个视频片段的片段表征；

获取所述多个视频分段中每一个视频分段的分段表征；

将基于所述多个视频片段获取的多个片段表征、基于所述多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得所述目标相关性预测模型生成的相关性矩阵，其中，所述相关性矩阵中包括视频片段与预设信息的表征之间的相关性；

基于所述相关性矩阵生成面向用户查询信息的视频摘要，所述用户查询信息所包含的概念或者语义是所述预设信息所包含的概念或者语义的子集。

2.根据权利要求1所述的方法，其中，所述获取所述多个视频片段中每一个视频片段的片段表征，包括：

针对所述每一个视频片段，获取该视频片段的片段特征、用于描述当前所获取的表征的表征类型的第一类型信息、以及用于表征该视频片段在所述预设视频中的位置的片段位置信息；

将所述片段特征、所述第一类型信息以及所述片段位置信息，确定为该视频片段的片段表征。

3.根据权利要求1所述的方法，其中，所述获取所述多个视频分段中每一个视频分段的分段表征，包括：

针对所述每一个视频分段，获取该视频分段的分段特征、用于描述当前所获取的表征的表征类型的第二类型信息、以及用于表征该视频分段在所述预设视频中的位置的分段位置信息；

将所述分段特征、所述第二类型信息以及所述分段位置信息，确定为该视频分段的分段表征。

4.根据权利要求1所述的方法，其中，所述预设信息的表征包括：与预设查询信息关联的语义信息、用于表征当前表征的表征类型的第三类型信息。

5.根据权利要求1所述的方法，其中，所述方法还包括：

获取用户查询信息，确定所述用户查询信息的表征；

基于所述用户查询信息的表征，从所述相关性矩阵中确定至少一个目标视频片段；

根据所述至少一个目标视频片段生成所述预设视频的视频摘要。

6.一种用于训练模型的方法，包括：

获取样本数据，其中，所述样本数据包括样本视频、以及用于表征样本查询信息的表征与所述样本视频中每一个视频片段之间的相关性的样本相关性矩阵；

获取所述每一个视频片段的片段表征；

获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成；

将基于多个所述视频片段获取的多个片段表征、基于多个所述视频分段获取的多个分段表征、以及所述样本查询信息的表征，输入初始相关性预测模型，获得所述初始相关性预测模型生成的相关性矩阵；

采用所述初始相关性预测模型生成的相关性矩阵、与所述样本相关性矩阵之间的损失，训练所述初始相关性预测模型，并得到目标相关性预测模型，所述目标相关性预测模型用于生成预设视频中视频片段与预设信息的表征之间的相关性的相关性矩阵，所述相关性矩阵用于生成面向用户查询信息的视频摘要，所述用户查询信息所包含的概念或者语义是所述预设信息所包含的概念或者语义的子集。

7.根据权利要求6所述的方法，其中，所述获取所述每一个视频片段的片段表征，包括：

将所述片段特征、所述第一类型信息以及所述片段位置信息确定为该视频片段的片段表征。

8.根据权利要求6所述的方法，其中，所述获取每一个视频分段的分段表征，包括：

将所述分段特征、所述第二类型信息以及所述分段位置信息确定为该视频分段的分段表征。

9.根据权利要求6所述的方法，其中，所述样本查询信息的表征包括：与所述样本查询信息关联的语义信息、用于表征当前表征的表征类型的第三类型信息。

10.一种用于生成视频信息的装置，包括：

第一获取单元，被配置为获取预设视频中的多个视频片段以及多个视频分段，其中，每一个视频分段由多个连续的视频片段构成；

第二获取单元，被配置为获取所述多个视频片段中每一个视频片段的片段表征；

第三获取单元，被配置为获取所述多个视频分段中每一个视频分段的分段表征；

生成单元，被配置为将基于所述多个视频片段获取的多个片段表征、基于所述多个视频分段获取的多个分段表征、以及预设信息的表征，输入目标相关性预测模型，获得所述目标相关性预测模型生成的相关性矩阵，其中，所述相关性矩阵中包括视频片段与预设信息的表征之间的相关性；基于所述相关性矩阵生成面向用户查询信息的视频摘要，所述用户查询信息所包含的概念或者语义是所述预设信息所包含的概念或者语义的子集。

11.一种用于训练模型的装置，包括：

第四获取单元，被配置为获取样本数据，其中，所述样本数据包括样本视频、以及用于表征样本查询信息的表征与所述样本视频中每一个视频片段之间的相关性的样本相关性矩阵；

第五获取单元，被配置为获取所述每一个视频片段的片段表征；

第六获取单元，被配置为获取每一个视频分段的分段表征，其中，每一个视频分段由多个连续的视频片段构成；

预测单元，被配置为将基于多个所述视频片段获取的多个片段表征、基于多个所述视频分段获取的多个分段表征、以及所述样本查询信息的表征，输入初始相关性预测模型，获得所述初始相关性预测模型生成的相关性矩阵；

训练单元，被配置为采用所述初始相关性预测模型生成的相关性矩阵、与所述样本相关性矩阵之间的损失，训练所述初始相关性预测模型，并得到目标相关性预测模型，所述目标相关性预测模型用于生成预设视频中视频片段与预设信息的表征之间的相关性的相关性矩阵，所述相关性矩阵用于生成面向用户查询信息的视频摘要，所述用户查询信息所包含的概念或者语义是所述预设信息所包含的概念或者语义的子集。

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法或者执行权利要求6-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法或者执行权利要求6-9中任一项所述的方法。