CN109960747A

CN109960747A - 视频描述信息的生成方法、视频处理方法、相应的装置

Info

Publication number: CN109960747A
Application number: CN201910263207.0A
Authority: CN
Inventors: 王柏瑞; 马林; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-02
Filing date: 2019-04-02
Publication date: 2019-07-02
Anticipated expiration: 2039-04-02
Also published as: CN109960747B; US11861886B2; US20210256977A1; WO2020199904A1; EP3951617A1; EP3951617A4

Abstract

本申请实施例提供了一种视频描述信息的生成方法、视频处理方法、相应的装置。该视频描述信息的生成方法包括：获取待描述视频对应的帧级别视频特征序列；根据视频特征序列，生成待描述视频的全局词性序列特征；根据全局词性序列特征及视频特征序列，生成待描述视频的自然语言描述信息，本申请实施例能够有效地从视频数据中提取出自然语言对应的全局词性序列特征，用于引导生成准确的自然语言描述，提高视频描述的能力。

Description

视频描述信息的生成方法、视频处理方法、相应的装置

技术领域

本申请实施例涉及图像处理技术领域，具体而言，本申请实施例涉及一种视频描述信息的生成方法、视频处理方法、相应的装置。

背景技术

在互联网、大数据稳定发展的时代背景下，多媒体信息的需求量呈现爆发式增长，传统的信息处理技术已无法应对多媒体数据在标注、描述等任务上的需求。用自然语言对视频、图像等进行描述，对于人类来说非常简单，但对机器来说却是一项很难的任务，这需要机器能够跨越对图像理解的语义鸿沟，正确融合计算机视觉和自然语言处理这两项技术。目前，该方向的研究收到了广泛的关注，能够实现在安防、家居、医疗、教学等领域得到有效应用。

现有技术已经可以一定程度上实现机器对视频自动描述，但现有的技术主要通过将待描述视频的提取的帧级别特征变换为视频级别特征，再直接利用该视频级别特征作为解码器网络的输入得到自然语言描述，生成的自然语言描述往往过于简单，可能会不符合人的语言习惯，影响到后续对视频的理解和分析。

发明内容

本申请实施例为克服上述技术问题或者至少部分地解决上述技术问题，特提出以下技术方案：

第一方面，本申请实施例提供了一种视频描述信息的生成方法，该方法包括：

获取待描述视频对应的帧级别视频特征序列；

根据所述视频特征序列，生成所述待描述视频的全局词性序列特征；

根据所述全局词性序列特征及所述视频特征序列，生成所述待描述视频的自然语言描述信息。

在一种可选的实现方式中，所述视频特征序列为携带有时序信息的视频特征序列。

在一种可选的实现方式中，根据所述视频特征序列，生成所述待描述视频的全局词性序列特征，包括：

根据所述视频特征序列，确定所述待描述视频的融合特征；

基于所述待描述视频的融合特征，通过第一神经网络，生成所述待描述视频的全局词性序列特征。

在一种可选的实现方式中，根据所述视频特征序列，确定所述待描述视频的融合特征，包括：

确定所述第一神经网络的各个时刻对应的权重，所述权重为所述视频特征序列中的各个帧特征的权重；

根据各个时刻对应的权重，分别对所述视频特征序列中的各个帧特征进行融合，得到各个时刻对应的所述待描述视频的融合特征。

在一种可选的实现方式中，确定所述第一神经网络的任一时刻对应的权重，包括：

根据上一个时刻确定出的词性序列特征，以及所述视频特征序列中的各个帧特征，得到当前时刻对应的权重。

在一种可选的实现方式中，所述第一神经网络为长短期记忆网络。

在一种可选的实现方式中，根据所述全局词性序列特征及所述视频特征序列，生成所述待描述视频的自然语言描述信息，包括：

根据所述视频特征序列，确定所述待描述视频的融合特征；

基于所述全局词性序列特征及所述待描述视频的融合特征，通过第二神经网络，生成所述待描述视频的自然语言描述信息。

确定所述第二神经网络的各个时刻对应的权重，所述权重为所述视频特征序列中的各个帧特征的权重；

在一种可选的实现方式中，基于所述全局词性序列特征及所述待描述视频的融合特征，通过第二神经网络，生成所述待描述视频的自然语言描述信息，包括：

根据上一个时刻对应的词信息和所述全局词性序列特征，得到所述全局词性序列特征中当前时刻的预测引导信息；

根据待描述视频的融合特征和所述预测引导信息，通过第二神经网络，得到当前时刻对应的词信息；

根据各个时刻对应的词信息，生成所述待描述视频的自然语言描述信息。

在一种可选的实现方式中，所述第二神经网络为长短期记忆网络。

在一种可选的实现方式中，根据上一个时刻确定出的词信息和所述全局词性序列特征，得到所述全局词性序列特征中当前时刻的预测引导信息，包括：

根据上一个时刻确定出的词信息和所述全局词性序列特征，通过引导网络，得到所述全局词性序列特征中当前时刻的预测引导信息。

第二方面，本申请实施例提供了一种基于视频的自然语言描述信息的视频处理方法，该方法包括：

获取待处理视频的自然语言描述信息，所述待处理视频的自然语言描述信息是通过第一方面或第一方面的任一可选的实现方式中所示的方法获取的；

基于所述自然语言描述信息，对所述待处理视频进行相应的处理。

在一种可选的实现方式中，所述对所述待处理视频进行相应的处理，包括以下至少一种：

视频分类、视频检索、生成与所述待描述视频相应的提示信息。

第三方面，本申请实施例提供了一种视频描述信息的生成装置，该装置包括：

获取模块，用于获取待描述视频对应的帧级别视频特征序列；

第一生成模块，用于根据所述视频特征序列，生成所述待描述视频的全局词性序列特征；

第二生成模块，用于根据所述全局词性序列特征及所述视频特征序列，生成所述待描述视频的自然语言描述信息。

在一种可选的实现方式中，所述第一生成模块具体用于根据所述视频特征序列，确定所述待描述视频的融合特征；基于所述待描述视频的融合特征，通过第一神经网络，生成所述待描述视频的全局词性序列特征。

在一种可选的实现方式中，所述第一生成模块具体用于确定所述第一神经网络的各个时刻对应的权重，所述权重为所述视频特征序列中的各个帧特征的权重；根据各个时刻对应的权重，分别对所述视频特征序列中的各个帧特征进行融合，得到各个时刻对应的所述待描述视频的融合特征。

在一种可选的实现方式中，所述第一生成模块具体用于根据上一个时刻确定出的词性序列特征，以及所述视频特征序列中的各个帧特征，得到当前时刻对应的权重。

在一种可选的实现方式中，所述第二生成模块具体用于根据所述视频特征序列，确定所述待描述视频的融合特征；基于所述全局词性序列特征及所述待描述视频的融合特征，通过第二神经网络，生成所述待描述视频的自然语言描述信息。

在一种可选的实现方式中，所述第二生成模块具体用于确定所述第二神经网络的各个时刻对应的权重，所述权重为所述视频特征序列中的各个帧特征的权重；根据各个时刻对应的权重，分别对所述视频特征序列中的各个帧特征进行融合，得到各个时刻对应的所述待描述视频的融合特征。

在一种可选的实现方式中，所述第二生成模块具体用于根据上一个时刻对应的词信息和所述全局词性序列特征，得到所述全局词性序列特征中当前时刻的预测引导信息；根据待描述视频的融合特征和所述预测引导信息，通过第二神经网络，得到当前时刻对应的词信息；根据各个时刻对应的词信息，生成所述待描述视频的自然语言描述信息。

在一种可选的实现方式中，所述第二生成模块具体用于根据上一个时刻确定出的词信息和所述全局词性序列特征，通过引导网络，得到所述全局词性序列特征中当前时刻的预测引导信息。

第四方面，本申请实施例提供了一种基于视频的自然语言描述信息的视频处理装置，该装置包括：

获取模块，用于获取待处理视频的自然语言描述信息，所述待处理视频的自然语言描述信息是通过第一方面或第一方面的任一可选的实现方式中所示的方法获取的；

处理模块，用于基于所述自然语言描述信息，对所述待处理视频进行相应的处理。

在一种可选的实现方式中，所述处理模块具体用于以下至少一种：

第五方面，本申请实施例提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请实施例的第一方面或第一方面的任一可选的实现方式中所示的方法。

第六方面，本申请实施例提供了一种电子设备，该电子设备包括：

处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现本申请实施例的第二方面或第二方面的任一可选的实现方式中所示的方法。

第七方面，本申请实施例提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行以实现本申请实施例的第一方面或第一方面的任一可选的实现方式中所示的方法。

第八方面，本申请实施例提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行以实现本申请实施例的第二方面或第二方面的任一可选的实现方式中所示的方法。

本申请实施例提供的视频描述信息的生成方法、装置、电子设备及可读介质，采用获取待描述视频对应的帧级别视频特征序列；根据视频特征序列，生成待描述视频的全局词性序列特征；根据全局词性序列特征及视频特征序列，生成待描述视频的自然语言描述信息的方式，能够有效地从视频数据中提取出自然语言对应的全局词性序列特征，用于引导生成准确的自然语言描述，提高视频描述的能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图做简单的介绍。

图1为本申请实施例提供的视频描述信息的生成方法的流程示意图；

图2为本申请实施例提供的生成自然语言描述信息的框架与流程图；

图3为本申请实施例提供的词性序列特征生成器模块的流程图；

图4为本申请实施例提供的解码器模块的流程图；

图5为本申请实施例提供的视频描述信息的生成装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请实施例，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请实施例提供了一种视频描述信息的生成方法，如图1所示，该方法包括：

步骤S101：获取待描述视频对应的帧级别视频特征序列；

步骤S102：根据视频特征序列，生成待描述视频的全局词性序列特征；

步骤S103：根据全局词性序列特征及视频特征序列，生成待描述视频的自然语言描述信息。

本申请实施例提供的视频描述信息的生成方法，能够有效地从视频数据中提取出自然语言对应的全局词性序列特征，用于引导生成准确的自然语言描述，提高视频描述的能力。

本申请实施例中，待描述视频可以是实时拍摄的视频，例如智能监控及行为分析场景中，需要对摄像头实时拍摄的视频进行描述，此时，待描述视频可以是摄像头实时拍摄的视频；或者待描述视频可以是从网络中获取的视频，例如视频内容预览场景中，需要将网络获取的视频通过自然语言进行描述，实现用户对视频内容的预览，此时，待描述视频可以是网络中获取的需要进行预览的视频；或者，待描述视频可以是本地存储的视频，例如视频分类存储场景中，需要对视频进行描述，并根据描述信息进行分类存储，此时待描述视频可以是本地存储的需要进行分类存储的视频。

本领域技术人员应能理解，上述几种场景和视频来源仅为举例，基于这些范例进行的适当变化也可适用于本申请，本申请实施例并不对待描述视频的来源和场景进行限定。

在实际应用中，待描述视频也可认为是连续帧的图像集合，对待描述视频的处理，可以是对图像集合中的各帧图像的处理。

本申请实施例中，帧级别特征即为待描述视频的每一帧视频图像中提取的视频特征，帧级别视频特征序列即为每一帧视频图像的视频特征组合而成的序列。例如，可以利用卷积神经网络提取待描述视频的每一帧图像的视频特征，基于提取到的每一帧图像的视频特征得到帧级别视频特征序列。

作为示例地，对于一个包含m帧图像的待描述视频，从待描述视频的每一帧视频图像中提取视频特征，例如，从待描述视频的第一帧图像中提取的视频特征为v₁，从待描述视频的第二帧图像中提取的视频特征为v₂，从待描述视频的第m帧图像中提取的视频特征为v_m，以此类推。便可基于提取到的每一帧图像的视频特征获取帧级别视频特征序列V＝{v₁，v₂，…，v_m}。

本申请实施例中，为步骤S101提供了一种可行的实现方式，具体而言，利用卷积神经网络(Convolutional Neural Networks，CNN)为待描述视频的每一帧提取卷积神经网络特征，得到待描述视频对应的帧级别视频特征序列V＝{v₁，v₂，…，v_m}，直接用于步骤S102。

在实际应用中，用于提取卷积神经网络特征的卷积神经网络有多种，本领域技术人员可以根据实际情况进行选择，本申请实施例在此不做限定。

本申请实施例中，为步骤S101提供了另一种可行的实现方式，具体而言，视频特征序列为携带有时序信息的视频特征序列。即利用卷积神经网络为待描述视频的每一帧提取卷积神经网络特征(即帧级别视频特征)，得到卷积神经网络特征序列(即帧级别视频特征序列)之后，利用循环神经网络对提取的卷积神经网络特征序列进行时序信息的提取与融合，得到待描述视频对应的具有时序信息的帧级别视频特征序列。

其中，具有时序信息的帧级别视频特征序列即在帧级别视频特征序列V＝{v₁，v₂，…，v_m}的基础上，根据各个帧级别视频特征(v₁～v_m)在时间方向上的时序关系，提取帧级别视频特征序列的时序信息，并将提取的时序信息与帧级别视频特征序列进行融合。

作为示例地，对于一个包含m帧的待描述视频，获取到卷积神经网络特征序列V＝{v₁，v₂，…，v_m}之后，可以利用循环神经网络发掘序列V内部的时序信息，并嵌入序列V中，其执行过程可表示为：

h_i＝RNN(v_i，h_i-1)

其中，RNN表示循环神经网络的一般计算过程，h_i-1表示前i-1帧嵌入时序信息的帧级别视频特征序列，在输入第i帧卷积神经网络特征后，得到前i帧嵌入时序信息的帧级别视频特征序列h_i，将得到的前1帧(此时i＝1，即第1帧)嵌入时序信息的帧级别视频特征序列直至前m帧嵌入时序信息的帧级别视频特征序列进行组合，最终得到携带有时序信息的视频特征序列H＝{h₁，h₂，…，h_m}。

本申请实施例中，将携带有时序信息的视频特征序列H＝{h₁，h₂，…，h_m}用于执行步骤S102，通过携带有时序信息的视频特征序列，可以提升后续视频处理的准确性和可靠性。

实际应用中，进行时序信息的提取与融合的循环神经网络可以为基于长短期记忆单元(Long Short-Term Memory，LSTM)的循环神经网络等。

本申请实施例中，可通过编码器来执行步骤S101。其中，编码器中可以包含卷积神经网络，将待描述视频输入编码器后，输出待描述视频对应的帧级别视频特征序列。具体地，将待描述视频输入编码器，即输入编码器中的卷积神经网络，通过卷积神经网络提取待描述视频对应的帧级别视频特征序列，卷积神经网络输出提取的帧级别视频特征序列，并作为编码器的输出，进而利用编码器输出的视频特征序列执行步骤S102。或者，编码器中可以包含卷积神经网络和循环神经网络，将待描述视频输入编码器后，输出待描述视频对应的携带有时序信息的帧级别视频特征序列，如图2中的编码器所示。具体地，将待描述视频输入编码器，即输入编码器中的卷积神经网络(对应图2中的CNN)，通过卷积神经网络提取待描述视频对应的帧级别视频特征序列，卷积神经网络输出提取的帧级别视频特征序列，输入到编码器中的循环神经网络(对应图2中的h_i-1、h_i等模块)，通过循环神经网络对提取的卷积神经网络特征序列进行时序信息的提取与融合，循环神经网络输出携带有时序信息的视频特征序列，并作为编码器的输出，进而利用编码器输出的视频特征序列执行步骤S102。

进一步地，本申请实施例的步骤S102中，可以根据视频特征序列，生成待描述视频的全局词性序列特征。

即根据步骤S101中输出的视频特征序列，预测待描述视频的自然语言描述潜在的各个词性，生成全局词性序列特征。

本申请实施例中，全局词性是指待描述视频的自然语言描述信息所对应的各个词性，全局词性序列即为各个词性组合的序列，全局词性序列特征即为各个词性组合的序列的特征。其中，词性是字、词、词组或单词的一种属性，各种语言都会定义有多种词性。作为示例地，中文包括但不限于名词、动词、形容词、量词、副词、介词等词性；英语包括但不限于noun(名词)、verb(动词)、gerund(动名词)、adjective(形容词)、adverb(副词)、article(冠词)、preposition(介词)等词性；在其他语言中，也可能包括其他类型的词性，在此不再赘述。而词性序列是相对于自然语言描述的句子而言的，通常句子是由两个或多个词组成的，词性序列特征即为句子中的各个词的词性特征的组合。举例来说，若待描述视频潜在的内容为“一名男子在投篮……”，那么可能得到的词性序列特征为[冠词，名词，动词……]对应的特征。可以理解的是，在具体应用时，可以以英文字母来表示上述词性。例如，art.表示冠词，n.表示名词，v.表示动词等，即词性序列特征为[art.，n.，v.……]对应的特征。

本申请实施例中，为了根据视频特征序列，得到全局词性序列特征，步骤S102可具体包括以下步骤：

步骤S1021：根据视频特征序列，确定待描述视频的融合特征；

步骤S1022：基于待描述视频的融合特征，通过第一神经网络，生成待描述视频的全局词性序列特征。

其中，融合特征为视频特征序列中的各个视频特征进行融合处理后的融合视频特征。实际应用中，可以采用的融合处理方式有多种，本申请实施例对此不作限定。为便于理解，下面提供两种可行的实现方式。

一种可行的实现方式中，步骤S1021可以利用均特征算法，将视频特征序列变换为融合特征φ^(Z)，即对视频特征序列中的各个视频特征取均值，得到融合特征φ^(Z)。随后，将融合特征输入第一神经网络，输出待描述视频的全局词性序列特征。第一神经网络的各个时刻输入的融合特征可以为相同的融合特征φ^(Z)。

另一种可行的实现方式中，步骤S1021可以利用非线性网络，例如带有注意力机制的网络(也可称为融合网络)，针对第一神经网络的各个时刻，分别整合步骤S101获得的视频特征序列为各个时刻对应的不同的融合特征，例如t时刻对应融合特征本申请实施例中，第一神经网络可以为一个循环神经网络。其中，循环神经网络在处理过程中的不同时刻，均需要输入融合特征，那么，第一神经网络的各个时刻输入的融合特征为各个时刻分别对应的融合特征。

作为示例地，图3中示出了第一神经网络(对应图3中的等模块组成的神经网络)和融合网络(对应图3中的A网络)，该示例中的第一神经网络为循环神经网络。那么，第一神经网络对应的t-1时刻，输入的融合特征为第一神经网络对应的t时刻，输入的融合特征为第一神经网络对应的n时刻，输入的融合特征为以此类推。

具体地，上述融合特征的第二种可行的实现方式中，确定第一神经网络的各个时刻对应的权重，例如t时刻对应的权重为a^t，该权重(包括每个时刻对应的权重)为视频特征序列中的各个帧特征的权重，例如视频特征序列中的第i帧特征的权重为a_i；进而根据各个时刻对应的权重(即每个时刻对应的视频特征序列中的第一帧特征的权重，以t时刻对应的视频特征序列中的第i帧特征为例，权重为)，分别对视频特征序列中的各个帧特征进行融合，得到各个时刻对应的待描述视频的融合特征，即：

其中，表示第一神经网络的t时刻得到的融合特征。表示在t时刻由注意力机制动态分配给第i个帧特征的权重，满足：

可以理解，权重越大，表示对应的帧特征对当前词性的预测更有帮助。

本申请实施例中，可以根据上一个时刻确定出的词性序列特征，以及视频特征序列中的各个帧特征，得到当前时刻对应的权重，具体地，得到的计算过程如下：

其中，w^T、W、U和b均是可训练的参数，例如通过注意力机制网络分配权重时，w^T、W、U和b是在对注意力机制网络的训练过程中学习到的参数，exp()表示指数函数，tanh()表示双曲正切函数，此处也可用作激活函数，表示上一个时刻确定出的词性序列特征，h_i表示视频特征序列中的各个帧特征。

进一步地，步骤S1022中，将步骤S1021得到的融合特征输入第一神经网络，输出待描述视频的全局词性序列特征。

本申请实施例中，第一神经网络可以为一个循环神经网络。具体地，如图3所示，第一神经网络可以包括一层长短期记忆单元(对应图3中的等模块组成的神经网络)，其执行过程可表示为：

其中，LSTM^(Z)表示第一神经网络中的一层长短期记忆单元的相关运算操作；z_t-1是上一时刻预测出的词性，也可表示为上一时刻长短期记忆单元的记忆状态表示第一神经网络的t时刻对应的融合特征，也可替换为各个时刻相同的φ^(Z)(H)；表示上一个时刻确定出的词性序列特征，也对应着上一时刻长短期记忆单元的记忆状态隐藏状态；E(·)表示将输入映射到向量空间中；[·]表示级联操作。则如图3所示，当前时刻长短期记忆单元的隐藏状态和记忆状态分别表示当前时刻确定出的词性序列特征和当前时刻预测出的词性z_t。

这样，继续如图3所示，便可预测每一个词性，例如图3中输出的z_t-1，输出的z_t，输出的z_t+1等，以此类推，得到词性序列Z＝{z₁，z₂，…，z_n}和全局词性序列特征。具体地，当第一神经网络判定整个词性序列生成结束后，最后一个时刻的隐藏状态包含了整个序列的信息，即全局词性序列特征：

本申请实施例中，如图2所示，可通过词性序列生成器来执行步骤S102。其中，词性序列生成器中可以包含生成融合特征的网络(注意力机制网络A)和第一神经网络，将视频特征序列输入词性序列生成器后，输出全局词性序列特征，如图2中的词性序列生成器所示。具体地，将视频特征序列H＝{h₁，h₂，…，h_m}(对应图2中的h_i-1、h_i等模块输出携带有时序信息的视频特征，其他实施例中，也可以为CNN直接输出的V＝{v₁，v₂，…，v_m}，具体应用方式可参见H＝{h₁，h₂，…，h_m}，下文中将不再赘述)输入词性序列生成器，即输入词性序列生成器中的注意力机制网络A，通过注意力机制网络A将视频特征序列H＝{h₁，h₂，…，h_m}进行融合，注意力机制网络A输出融合得到的融合特征φ^(Z)，输入到第一神经网络，第一神经网络输出预测的全局词性序列特征例如图2所示的[冠词，名词，动词……]对应的特征，并作为词性序列生成器的输出，进而利用词性序列生成器输出的全局词性序列特征执行步骤S103。

本申请实施例中，每个词性预测正确的概率表示如下：

其中，W_z，b_z表示可学习的参数，例如是在对词性序列生成器的训练过程中学习到的参数。θ_z表示词性序列产生器的所有参数。P(z_t│z_<t，V；θ_z)表示对于给定的待描述视频V，在已经预测部分词性序列z_<t＝{z₁，z₂，…，z_t-1}的前提下，正确预测当前词性z_t的概率。

进一步地，本申请实施例的步骤S103中，可以根据全局词性序列特征及视频特征序列，生成待描述视频的自然语言描述信息。

本申请实施例中，如图4所示，步骤S103可具体包括以下步骤：

步骤S1031：根据视频特征序列，确定待描述视频的融合特征；

步骤S1032：基于全局词性序列特征及待描述视频的融合特征，通过第二神经网络，生成待描述视频的自然语言描述信息。

其中，步骤S1031的实现方式可参见上述步骤S1021，需要说明的是，如图4所示，若采用注意力机制来确定融合特征，那么步骤S1031中，第二神经网络(对应图4中的和等模块组成的神经网络)的各个时刻对应的权重可以通过两个层的隐藏状态来计算，通过确定第一神经网络的各个时刻对应的权重，例如t时刻对应的权重为β^t，该权重(包括每个时刻对应的权重)为视频特征序列中的各个帧特征的权重，例如视频特征序列中的第i帧特征的权重为β_i；进而根据各个时刻对应的权重(即每个时刻对应的视频特征序列中的第一帧特征的权重，以t时刻对应的视频特征序列中的第i帧特征为例，权重为)，分别对视频特征序列中的各个帧特征进行融合，得到各个时刻对应的待描述视频的融合特征：

其中，表示第二神经网络的t时刻得到的融合特征。表示在t时刻由注意力机制动态分配给第i个帧特征的权重，满足：

其他相同的部分可参见步骤S1021中介绍，在此不再赘述。

进一步地，步骤S1032中，将步骤S102得到的全局词性序列特征及步骤S1031得到的融合特征输入第二神经网络，输出待描述视频的自然语言描述信息。

本申请实施例中，步骤S1032可具体包括以下步骤：

步骤SA：根据上一个时刻对应的词信息和全局词性序列特征，得到全局词性序列特征中当前时刻的预测引导信息；

步骤SB：根据待描述视频的融合特征和预测引导信息，通过第二神经网络，得到当前时刻对应的词信息；

步骤SC；根据各个时刻对应的词信息，生成待描述视频的自然语言描述信息。

本申请实施例中，词信息可以但不限于包括自然语言对应的字、词、词组、单词等。

具体而言，步骤SA可由交叉门机制实现：

其中，s_t-1表示上一时刻预测出的词信息，W和b表示可学习的参数，例如是在对交叉门机制网络的训练过程中学习到的参数，σ(·)表示非线性激活函数。该步骤SA的作用是通过上一时刻的单词加强全局词性序列特征中与当前时刻待预测单词相关的预测引导信息，并由该预测引导信息引导步骤SB预测当前时刻单词。

本申请实施例中，如图4所示，步骤SA可以由一个引导网络CG(Context Guided)来实现，即根据上一个时刻确定出的词信息和全局词性序列特征，通过引导网络CG，得到全局词性序列特征中当前时刻的预测引导信息。

以及如图4所示，第二神经网络可以为一个循环神经网络。具体地，循环神经网络可以包括双层长短期记忆单元(对应图4中的等模块组成第一层和等模块组成第二层)，即步骤SB是根据待描述视频的融合特征和预测引导信息，通过双层长短期记忆单元，得到当前时刻对应的词信息。其执行过程可表示为：

其中，LSTM^(S1)和LSTM^(S2)分别表示第二神经网络中的第一层和第二层的长短期记忆单元的相关运算操作；S_t-1是上一时刻预测出的词信息，也可表示为上一时刻第二层长短期记忆单元的隐藏状态ψ表示引导网络输出的当前时刻待预测单词相关的预测引导信息；表示上一个时刻第一层长短期记忆单元的隐藏状态，可作为当前时刻第一层长短期记忆单元的输入；E(·)表示将输入映射到向量空间中；[·]表示级联操作。则如图4所示，通过公式一可得到当前时刻第一层长短期记忆单元的记忆状态和隐藏状态(对应图4中右侧的输出)，作为下一个时刻第一层长短期记忆单元的输入；同时当前时刻第一层长短期记忆单元的隐藏状态会作为当前时刻第二层长短期记忆单元的输入(对应图4中上侧的输出)；表示第二神经网络的t时刻对应的融合特征，也可替换为各个时刻相同的φ^(S)(H)；表示上一个时刻第二层长短期记忆单元的隐藏状态，可作为当前时刻第二层长短期记忆单元的输入，通过公式二可得到当前时刻第二层长短期记忆单元的记忆状态和隐藏状态当前时刻第二层长短期记忆单元的隐藏状态(对应图4中上侧的输出)即为是当前时刻预测出的词信息S_t。

可以理解，对于其他循环神经网络，上述过程各层的两个输出均为隐藏状态h，也可实现各个词信息的预测。

这样，第二神经网络便可一个词一个词地预测自然语言描述，例如图4中输出的s_t-1，输出的s_t等，以此类推，进而，在步骤SC中，即可根据各个时刻对应的词信息s₁，s₂，…，s_n，生成待描述视频的自然语言描述信息S＝{s₁，s₂，…，s_n}。

本申请实施例中，如图2所示，可通过解码器来执行步骤S103。其中，解码器中可以包含生成融合特征的网络(注意力机制网络A)和第二神经网络，将视频特征序列及全局词性序列特征输入解码器后，输出待描述视频的自然语言描述信息，如图2中的解码器所示。具体地，将视频特征序列H＝{h₁，h₂，…，h_m}(对应图2中的h_i-1、h_i等模块输出携带有时序信息的视频特征，其他实施例中，也可以为CNN直接输出的V＝{v₁，v₂，…，v_m}，具体应用方式可参见H＝{h₁，h₂，…，h_m}，下文中将不再赘述)和全局词性序列特征输入解码器，其中，视频特征序列H＝{h₁，h₂，…，h_m}输入解码器中的注意力机制网络A，通过注意力机制网络A将视频特征序列H＝{h₁，h₂，…，h_m}进行融合，注意力机制网络A输出融合得到的融合特征φ^(S)，输入到第二神经网络；全局词性序列特征输入解码器中的引导网络(对应图2中的引导模块)CG，通过引导网络CG单词加强全局词性序列特征中与当前时刻待预测单词相关的预测引导信息，引导网络CG输出预测引导信息，输入到第二神经网络；第二神经网络输出预测的词信息，例如图2所示的[s₁，s₂，…，s_n]，并作为解码器的输出，例如图2所示的输出句子“一名男子在投篮”。

本申请实施例中，词性序列生成器中包含的生成融合特征的网络和解码器中包含的生成融合特征的网络(注意力机制网络A)可以相同也可以不同，即可以分别单独设置也可以封装成一个，本申请实施例对此不作限定。

本申请实施例中，每个词信息预测正确的概率表示如下：

其中，W_s和b_s表示可学习的参数，例如是在对解码器的训练过程中学习到的参数。θ_s表示解码器的所有参数。Softmax函数将解码器当前时刻的第二层长短期记忆单元的隐藏状态转化为每个词信息的概率分布，从中预测最有可能的词信息。当解码器满足终止条件，即得到完整的自然语言描述信息。

本申请实施例中，除了上述介绍的全局词性序列特征的提取方式和引导方式，其他的在视频描述信息的生成方法中可能用到的神经网络以及非线性网络用来提高视频描述的准确性，也在本申请实施例的保护范围之内。

本申请实施例中，可以通过端到端的方式，对图2所示的整个网络进行训练，并采用最小化模型损失函数

具体而言，训练过程中的损失函数可表示为：

其中，λ是平衡参数，用于平衡词性序列生成器和解码器损失的影响。N表示训练数据的个数。对于每一个训练数据，其词性序列生成器和解码器损失可表示为：

本申请实施例提供的词性序列生成器以及引导网络能够有效挖掘自然语言描述信息的词性序列和待描述视频的视频特征序列之间的语义关系，并提供给解码器更多的特征利用空间，与现有技术中仅利用了视频级别的视觉特征，而忽略了自然语言中词性的影响相比，本申请实施例可以对待描述视频生成准确的自然语言描述信息，提高视频描述信息生成的性能，从而有助于对视频进行理解和分析，例如进行视频分类和检索等，具有潜在的经济效益。

下面以待描述视频的内容为一名男子在打篮球为例，整体描述本申请提供的视频描述信息的生成方法的实现流程，如图2所示，将待描述视频(对应图2中的输入视频)的各个视频帧均输入编码器，即输入编码器中的卷积神经网络(对应图2中的CNN)，通过卷积神经网络提取待描述视频对应的帧级别视频特征序列，卷积神经网络输出提取的帧级别视频特征序列，输入到编码器中的循环神经网络(对应图2中的h_i-1、h_i等模块)，通过循环神经网络对提取的卷积神经网络特征序列进行时序信息的提取与融合，循环神经网络输出携带有时序信息的视频特征序列(为便于描述，下文中称为高级视频序列特征)，并作为编码器的输出。编码器输出的高级视频序列特征输入词性序列生成器，即输入词性序列生成器中的注意力机制网络A，通过注意力机制网络A将高级视频序列特征进行融合，注意力机制网络A输出融合得到的融合特征φ^(Z)，输入到单层长短期记忆网络，单层长短期记忆网络输出预测的全局词性序列特征例如图2所示的[冠词，名词，动词……]对应的特征，并作为词性序列生成器的输出。编码器输出的高级视频序列特征和词性序列生成器输出的全局词性序列特征输入解码器，其中，高级视频序列特征输入解码器中的注意力机制网络A，通过注意力机制网络A将高级视频序列特征进行融合，注意力机制网络A输出融合得到的融合特征φ^(S)，输入到双层长短期记忆网络；全局词性序列特征输入解码器中的引导网络(对应图2中的引导模块)CG，通过引导网络CG单词加强全局词性序列特征中与当前时刻待预测单词相关的预测引导信息，引导网络CG输出预测引导信息，输入到双层长短期记忆网络；双层长短期记忆网络输出预测的词信息，例如图2所示的[s₁，s₂，…，s_n]，并作为解码器的输出，最后解码器输出自然语言描述信息“一名男子在投篮”。

实际应用中，编码器、词性序列生成器和解码器可以集成为一个功能网络，训练过程中，可以对编码器、词性序列生成器和解码器分别进行训练，也可以直接对该功能网络进行训练。在线应用过程中，将待描述视频输入该功能网络，即可自动输出自然语言描述信息。

本申请实施例提供的视频描述信息的生成方法(或者上述功能模块)，可以部署在终端上，对实时拍摄、下载或本地存储的视频进行描述，也可以部署在云端服务器，对数据库中或接收到的视频进行描述。

本申请实施例提供的视频描述信息的生成方法，具体可以用于提供视频内容理解服务。也可以部署在视频类网站用于视频分类和快速检索，或与语音系统结合用于辅助视觉障碍者等。

具体而言，本申请实施例还提供了一种基于视频的自然语言描述信息的视频处理方法，该方法包括：

步骤S201：获取待处理视频的自然语言描述信息，待处理视频的自然语言描述信息是通过上述任一实施例所示的视频描述信息的生成方法获取的；

其中，待处理视频可以是实时拍摄的视频，例如智能监控及行为分析场景中，需要对用户行为进行分类，此时，待处理视频可以是摄像头实时拍摄的视频；或者待处理视频可以是从网络中获取的视频，例如视频类网站或应用程序中，需要将视频进行分类，并基于分类结果可以实现快速检索或视频推荐，此时，待处理视频可以是网络中获取的需要进行预览的视频；或者，待处理视频可以是本地存储的视频。

本申请实施例中，也可以认为是将待处理视频输入上述功能网络，自动输出待处理视频的自然语言描述信息。具体的实现方式可参见上文中各实施例的介绍，在此不再赘述。

步骤S202：基于自然语言描述信息，对待处理视频进行相应的处理；

具体而言，对待处理视频进行相应的处理，包括以下至少一种：

视频分类、视频检索、生成与待描述视频相应的提示信息。

以对待处理视频进行相应的处理为对待处理视频进行视频分类为例，在一种可能的实施方式中，可以利用一个分类网络，基于生成的自然语言描述信息，对待处理视频进行分类。

具体地，分类网络中，可以先通过一个特征提取网络对自然语言描述信息提取文本特征，再通过一个分类器基于文本特征进行分类。

具体地，步骤S201中得到自然语言描述信息后，将自然语言描述信息输入分类网络，即输入分类网络中的特征提取网络，输出自然语言描述信息的文本特征，将特征提取网络输出的文本特征输入分类网络中的分类器，输出待处理视频的分类结果，并作为分类网络的输出。

本申请实施例提供的基于视频的自然语言描述信息的视频处理方法，在用于视频分类时，能够自动识别待处理视频，输出待处理视频的自然语言描述信息，进而可以基于待处理视频的自然语言描述信息对待处理视频进行分类，能够有效提升视频分类的效率和精度。

以对待处理视频进行相应的处理为对待处理视频进行视频检索为例，在一种可能的实施方式中，在获取待处理视频的自然语言描述信息后，已预先将待处理视频的自然语言描述信息进行存储。在进行视频检索时，接收检索条件，将检索条件与存储的待处理视频的自然语言描述信息进行匹配。在匹配成功时，根据匹配成功的自然语言描述信息，获取自然语言描述信息对应的待处理视频，并将获取的待处理视频作为检索结果进行展示。

在一种可能的实施方式中，为了提供检索效率，可以结合上述视频分类方法，在获取待处理视频的自然语言描述信息后，预先将待处理视频的自然语言描述信息进行分类存储。在进行视频检索时，接收检索条件，确定检索条件对应的视频的分类，在对应的分类中将检索条件与存储的待处理视频的自然语言描述信息进行匹配。在匹配成功时，根据匹配成功的自然语言描述信息，获取自然语言描述信息对应的待处理视频，并将获取的待处理视频作为检索结果进行展示。

本申请实施例提供的基于视频的自然语言描述信息的视频处理方法，在用于视频检索时，能够自动识别待处理视频，输出待处理视频的自然语言描述信息，进而可以基于待处理视频的自然语言描述信息对待处理视频进行检索，能够有效提升视频检索的效率和精度。

以对待处理视频进行相应的处理为生成与待描述视频相应的提示信息为例，在一种可能的实施方式中，在获取待处理视频的自然语言描述信息后，将获取的自然语言描述信息转换为音频信息，作为与待处理视频相应的提示信息。本申请实施例不限定将自然语言描述信息转换为音频信息的具体实现方式，本领域技术人员可以根据实际情况进行设置。该提示信息可以用于辅助用户理解视频内容。例如，该提示信息可以用于辅助视觉障碍者利用听觉理解视频内容。其他实施例中，根据获取的自然语言描述信息生成的与待描述视频相应的提示信息也可以为其他类型的信息。

本申请实施例提供的基于视频的自然语言描述信息的视频处理方法，在用于辅助视频理解时，能够自动识别待处理视频，输出待处理视频的自然语言描述信息，进而可以基于待处理视频的自然语言描述信息生成待处理视频相应的提示信息，能够有效辅助用户对视频的理解。

本领域技术人员应能理解，上述业务场景仅为举例，可以基于该范例进行的适当变化以用于其他场景，也可以属于本申请的精神或范畴。

本申请实施例还提供了一种视频描述信息的生成装置，如图5所示，该生成装置50可以包括：获取模块501、第一生成模块502和第二生成模块503，其中，

获取模块501用于获取待描述视频对应的帧级别视频特征序列；

第一生成模块502用于根据视频特征序列，生成待描述视频的全局词性序列特征；

第二生成模块503用于根据全局词性序列特征及视频特征序列，生成待描述视频的自然语言描述信息。

在一种可选的实现方式中，视频特征序列为携带有时序信息的视频特征序列。

在一种可选的实现方式中，第一生成模块502具体用于根据视频特征序列，确定待描述视频的融合特征；基于待描述视频的融合特征，生成待描述视频的全局词性序列特征。

在一种可选的实现方式中，第一生成模块502具体用于确定第一神经网络的各个时刻对应的权重，权重为视频特征序列中的各个帧特征的权重；根据各个时刻对应的权重，分别对视频特征序列中的各个帧特征进行融合，得到各个时刻对应的待描述视频的融合特征。

在一种可选的实现方式中，第一生成模块502具体用于根据上一个时刻确定出的词性序列特征，以及视频特征序列中的各个帧特征，得到当前时刻对应的权重。

在一种可选的实现方式中，第一神经网络为长短期记忆网络。

在一种可选的实现方式中，第二生成模块503具体用于根据视频特征序列，确定待描述视频的融合特征；基于全局词性序列特征及待描述视频的融合特征，生成待描述视频的自然语言描述信息。

在一种可选的实现方式中，第二生成模块503具体用于确定第二神经网络的各个时刻对应的权重，该权重为视频特征序列中的各个帧特征的权重；根据各个时刻对应的权重，分别对视频特征序列中的各个帧特征进行融合，得到各个时刻对应的待描述视频的融合特征。

在一种可选的实现方式中，第二生成模块503具体用于根据上一个时刻对应的词信息和全局词性序列特征，得到全局词性序列特征中当前时刻的预测引导信息；根据待描述视频的融合特征和预测引导信息，通过第二神经网络，得到当前时刻对应的词信息；根据各个时刻对应的词信息，生成待描述视频的自然语言描述信息。

在一种可选的实现方式中，第二神经网络为长短期记忆网络。

在一种可选的实现方式中，第二生成模块503具体用于根据上一个时刻确定出的词信息和全局词性序列特征，通过引导网络，得到全局词性序列特征中当前时刻的预测引导信息。

本申请实施例提供的视频描述信息的生成装置，能够有效挖掘自然语言描述信息的词性序列和待描述视频的视频特征序列之间的语义关系，并提供给解码器更多的特征利用空间，与现有技术中仅利用了视频级别的视觉特征，而忽略了自然语言中词性的影响相比，本申请实施例可以对待描述视频生成准确的自然语言描述信息，提高视频描述信息生成的性能，从而有助于对视频进行理解和分析，例如进行视频分类和检索等，具有潜在的经济效益。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的视频描述信息的生成装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种基于视频的自然语言描述信息的视频处理装置，该视频处理装置可以包括：获取模块以及处理模块，其中，

获取模块用于获取待处理视频的自然语言描述信息，待处理视频的自然语言描述信息是通过上述任一实施例所示的视频描述信息的生成方法获取的；

处理模块，用于基于自然语言描述信息，对待处理视频进行相应的处理。

在一种可选的实现方式中，对待处理视频进行相应的处理，包括以下至少一种：

视频分类、视频检索、生成与待描述视频相应的提示信息。

所属领域的技术人员可以清楚地了解到，本申请实施例提供的基于视频的自然语言描述信息的视频处理装置，其实现原理及产生的技术效果和前述方法实施例相同，为描述的方便和简洁，装置实施例部分未提及之处，可参考前述方法实施例中相应内容，在此不再赘述。

本申请实施例还提供了一种电子设备，包括：处理器和存储器，存储器存储有至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述方法实施例中相应内容。

可选地，电子设备还可以包括收发器。处理器和收发器相连，如通过总线相连。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本申请实施例的限定。

其中，处理器可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请实施例公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

本申请实施例提供的电子设备，能够有效挖掘自然语言描述信息的词性序列和待描述视频的视频特征序列之间的语义关系，并提供给解码器更多的特征利用空间，与现有技术中仅利用了视频级别的视觉特征，而忽略了自然语言中词性的影响相比，本申请实施例可以对待描述视频生成准确的自然语言描述信息，提高视频描述信息生成的性能，从而有助于对视频进行理解和分析，例如进行视频分类和检索等，具有潜在的经济效益。

本申请实施例还提供了一种可读存储介质，例如为计算机可读存储介质，该计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种视频描述信息的生成方法，其特征在于，包括：

获取待描述视频对应的帧级别视频特征序列；

2.根据权利要求1所述的生成方法，其特征在于，所述视频特征序列为携带有时序信息的视频特征序列。

3.根据权利要求1所述的生成方法，其特征在于，根据所述视频特征序列，生成所述待描述视频的全局词性序列特征，包括：

根据所述视频特征序列，确定所述待描述视频的融合特征；

4.根据权利要求3所述的生成方法，其特征在于，根据所述视频特征序列，确定所述待描述视频的融合特征，包括：

5.根据权利要求4所述的生成方法，其特征在于，确定所述第一神经网络的任一时刻对应的权重，包括：

6.根据权利要求3-5任一项所述的生成方法，其特征在于，所述第一神经网络为长短期记忆网络。

7.根据权利要求1所述的生成方法，其特征在于，根据所述全局词性序列特征及所述视频特征序列，生成所述待描述视频的自然语言描述信息，包括：

根据所述视频特征序列，确定所述待描述视频的融合特征；

8.根据权利要求7所述的生成方法，其特征在于，根据所述视频特征序列，确定所述待描述视频的融合特征，包括：

9.根据权利要求7所述的生成方法，其特征在于，基于所述全局词性序列特征及所述待描述视频的融合特征，通过第二神经网络，生成所述待描述视频的自然语言描述信息，包括：

10.根据权利要求9所述的生成方法，其特征在于，根据上一个时刻确定出的词信息和所述全局词性序列特征，得到所述全局词性序列特征中当前时刻的预测引导信息，包括：

11.一种基于视频的自然语言描述信息的视频处理方法，其特征在于，包括：

获取待处理视频的自然语言描述信息，所述待处理视频的自然语言描述信息是通过权利要求1-10任一项所述的方法获取的；

12.根据权利要求11所述的视频处理方法，其特征在于，所述对所述待处理视频进行相应的处理，包括以下至少一种：

13.一种视频描述信息的生成装置，其特征在于，包括：

14.一种基于视频的自然语言描述信息的视频处理装置，其特征在于，包括：

获取模块，用于获取待处理视频的自然语言描述信息，所述待处理视频的自然语言描述信息是通过权利要求1-10任一项所述的方法获取的；

15.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令、程序、代码集或指令集，当其在计算机上运行时，使得计算机执行如权利要求1-12任一项所述的方法。