CN114339450B

CN114339450B - 视频评论生成方法、系统、设备及存储介质

Info

Publication number: CN114339450B
Application number: CN202210235882.4A
Authority: CN
Inventors: 毛震东; 张勇东; 张菁菁; 方山城
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-03-11
Filing date: 2022-03-11
Publication date: 2022-07-15
Anticipated expiration: 2042-03-11
Also published as: CN114339450A

Abstract

本发明公开了一种视频评论生成方法、系统、设备及存储介质，通过将每个模态的所有元素映射到一个公共语义嵌入空间中，能够充分提取各模态的上下文信息，显式地对多个模态信息进行交互，实现跨模态数据间的语义关联；而且通过构造语义图结构并进行解码，不仅能够生成丰富多样的评论，还能够直接利用提取出的内容语义标签，确保了和视频内容表达的统一。

Description

视频评论生成方法、系统、设备及存储介质

技术领域

本发明涉及自然语言生成技术领域，尤其涉及一种视频评论生成方法、系统、设备及存储介质。

背景技术

从复杂的视频数据中理解视频内容和自动标注对人工智能如何为发展网络共享媒体赋能至关重要。评论是目前媒体平台最常见的文本形式之一。与其他文本形式不同，视频评论能够反映当前视频的主要内容和评论者的情感。早期的方法将视频信息视为由图像组成的序列信息，并通过视觉模型进行特征提取和序列关系建模。然而，这样的方法在实际场景中并不适用。首先，实际场景包括诸多无用的视频帧，给模型带来噪声信息；其次，评论普遍较短，具备概括性和非结构性，由视觉模态特征直接解码生成，难度较大。

传统的视频评论生成方法存在如下技术问题：1）将视频看做由一系列图片在时间帧上的连续排列，通过设计关键帧识别与提取以及复杂的帧内和帧间特征学习模块来理解视频内容，需要依赖大量的高质量视频标记数据（人工标记数据）来进行模型训练，而大量的高质量视频标记数据在现实中难以获取。2）需要基于情感倾向、内容主题等上下文精细地设定模版和语法规则以生成评论，同样受到人工成本的限制，同时生成内容短浅且模式单一，难以满足语言文字的创造性和变化性。3）缺乏对视频中的其他有价值的信息（如语音、字幕）的利用，当对视频内容理解不准确时，存在生成评论效果不佳的问题。

发明内容

本发明的目的是提供一种视频评论生成方法、系统、设备及存储介质，不仅能够生成丰富多样的评论文本，还能够确保评论文本和视频内容表达的统一；此外，也无需大量的高质量视频标记数据，从而降低人工成本。

本发明的目的是通过以下技术方案实现的：

一种视频评论生成方法，包括：

获取包含多模态信息的视频数据，对每一模态信息各自进行特征提取与类别预测，将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中，获得多模态词元序列；

将所述多模态词元序列输入至多模态词元交互模块，每一词元都与其他任意模态的词元进行交互，获得建立模态间和模态内关系后的词元组成的多模态序列；对所述多模态序列进行评分，利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分，构造包含多个模态信息的语义图；

对所述包含多个模态信息的语义图进行解码，获得预测文本。

一种视频评论生成系统，该系统包括：

多模态序列建模子模块，用于获取包含多模态信息的视频数据，对每一模态信息各自进行特征提取与类别预测，将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中，获得多模态词元序列；

语义图构造子模块，用于将所述多模态词元序列输入至多模态词元交互模块，每一词元都与其他任意模态的词元进行交互，获得建立模态间和模态内关系后的词元组成的多模态序列；对所述多模态序列进行评分，利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分，构造包含多个模态信息的语义图；

评论文本预测子模块，用于对所述包含多个模态信息的语义图进行解码，获得预测文本结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，通过将每个模态的所有元素映射到一个公共语义嵌入空间中，能够充分提取各模态的上下文信息，显式地对多个模态信息进行交互，实现跨模态数据间的语义关联；而且通过构造语义图结构并进行解码，不仅能够生成丰富多样的评论，还能够直接利用提取出的内容语义标签（即多模态序列建模时获得的各模态信息类别预测结果），确保了和视频内容表达的统一。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种视频评论生成方法的整体框架示意图；

图2为本发明实施例提供的可微分的多模态分词策略示意图；

图3为本发明实施例提供的包含两部分多模态Transformer网络及动态指针网络的原理示意图；

图4为本发明实施例提供的一种视频评论生成系统的示意图；

图5为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

为了解决传统的视频评论生成方法存在的诸多技术问题，本发明提供的一种视频评论生成方案，通过建立视频内容对应的文本和视频数据的对应关系进行信息挖掘，从而从文本层次来实现对视频中多个模态数据的理解，能够兼顾生成效果的多样性和准确性。

下面对本发明所提供的一种视频评论生成方案进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

如图1所示，一种视频评论生成方法，主要包括如下步骤：

步骤1、获取包含多模态信息的视频数据，对每一模态信息各自进行特征提取与类别预测，将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中，获得多模态词元序列。

步骤2、将所述多模态词元序列输入至多模态词元交互模块，每一词元都与其他任意模态的词元进行交互，获得建立模态间和模态内关系后的词元组成的多模态序列；对所述多模态序列进行评分，利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分，构造包含多个模态信息的语义图。

步骤3、对所述包含多个模态信息的语义图进行解码，获得预测文本。

图1展示了上述方法的整体框架，上述方法中获得多模态词元序列的步骤（即步骤1），获得多模态序列并构造包含多个模态信息的语义图的步骤（即步骤2），以及获得预测文本结果的步骤（即步骤3）各自通过一个子模块完成，三个子模块构成了图1所示的网络模型（视频评论生成模型）。

图1的多模态序列建模子模块主要执行前述步骤1，具体的：对于给定的包含多模态信息的视频数据，通过视觉特征提取网络（Video Backbone）、文本特征提取网络（TextBackbone）、语音特征提取网络（Audio Backbone）各自提取视觉特征、文本特征、语音特征，利用特定于模态的预训练分类器来获得每个模态的类别预测结果；然后，通过可微分的多模态分词策略，将类别预测结果对应的文本名称嵌入到共同的语义空间中，这使得整体框架支持端到端训练。

本领域技术人员可以理解，Backbone主要是指主干网络，一般设于模型前端，是用于特征提取的网络。

图1的语义图构造子模块主要执行前述步骤2，具体的：通过将所有模态的特征输入多模态transformer网络（即Multimodal Transformer，多模态词元交互模块）实现多个模态之间的交互和融合，由于在序列模型中，每个基本词单元（token，文中简称为“词元”）都可以关注到其他任意模态的全部词元，因此仅需让输出序列通过预测层即可得到每个词元的重要性得分和不同词元之间的相关性得分，基于词元的重要性得分和不同词元之间的相关性得分筛选出一系列词元，从而构造包含多个模态信息的语义图。

图1的语言模型为评论文本预测子模块，主要执行前述步骤3，基于语言模型对语义图进行解码，输入为语义图中的词元序列，输出预测文本。

为了便于理解，下面针对上述三个步骤的优选实施方式，以及训练的整体损失函数做详细的介绍。

一、多模态序列建模。

本发明实施例中，将包含多模态信息的视频数据表示为

，其中，

对应视觉模态，

对应文本模态，

对应语音模态，即

分别为视觉信息、文本信息、语音信息。

本发明实施例中，通过挖掘视频中视觉、文本、语音三个模态的信息，在公共语义空间进行了关联性建模，得到了具备丰富上下文信息的多模态序列表示；并提出了一种简单有效、无须设计额外融合模块的多个模态的序列建模方式，通过各模态的预训练分类器在预定义的语言词汇表之上预测类别，将来自不同模态的输入信号映射到公共语义语言空间来执行模态融合。主要说明如下：

1、使用

表示三种模态的特征提取网络（Video Backbone、TextBackbone、Audio Backbone），对于模态m对应的信息

通过特征提取网络

进行特征提取，并在预训练类别空间

上实现类别预测。

下面针对三种模态的特征提取网络的特征提取技术进行介绍。

1）对于Video Backbone，同时提取2D-CNN和3D-CNN特征。对2D-CNN而言，先对video采样至1 fps且每一帧都统一到尺寸224×224，使用在Image Net上的预训练模型ResNet-152提取每帧的2048维视觉特征向量。将5秒作为一个片段，并计算每个片段的所有帧的特征平均值作为片段级别的特征。对于3D-CNN，采用预训练的ResNeXt-101 3D CNN模型对视频中的每 16个非重叠帧进行提取，得到2048维的特征向量序列。

2）对于Text Backbone，使用预先训练的 Faster RCNN模型检测出视觉对象，并通过Rosetta OCR识别10个OCR文本并提取Fast Text特征。

3）对于Audio Backbone，使用Audio Set上的预训练模型CNN14识别512个声学事件。以16000 Hz的频率从对应的视频片段中采样音频片段，然后对其进行处理，提取Log-mel谱图，并输入至CNN14。

以上三种模态的特征提取网络都是在各自领域已有的并且得到广泛使用的预训练网络，它们均不参与后续模型的参数更新。

对于不同模态m，可根据实际情况或者经验设定相应的类别数

。示例性的，可以设定Video Backbone、Text Backbone和Audio Backbone输出特征中预测事件的类别总数分别为10、15、6。

使用预训练分类器来获得每一模态信息的类别预测结果，类别预测结果表示为：

其中，

是预训练分类器对

的归一化概率输出，

表示通过特征提取网络

对模态m对应的信息

进行特征提取，

表示信息

中的单个元素；c表示单个类别，

表示类别数目，

。

2、对于每一模态信息的类别预测结果，从中采样多个类别，将所有采样类别转换为一组文本嵌入向量。

其中，对于模态m，从类别预测结果中采样

个类别，将

个采样类别转换为一组文本嵌入向量

，即模态m的词元序列，模态m的词元序列中词元数目等于采样类别数

；在每一个采样类别转换为文本嵌入向量的过程中，先计算类别名（文本名称），再通过矩阵运算获得对应的文本嵌入向量，表示为：

其中，

表示模态m的采样类别

的one-hot编码向量（独热编码向量），

表示模态m的所有

个类别组成的集合的向量形式，

表示模态m的采样类别

对应的类别名，

是

维可学习的嵌入层（embedding层）；

表示模态m的采样类别

对应的类别名的文本嵌入向量，对应一个词元，采样类别数

为设定的正整数，

。

本领域技术人员可以理解，类别名是指相应类别对应的具体的词，例如，图2中的“树”为一个类别名，在计算需要将类别名转换为相应的向量表示。

在训练过程中，直接选择最大的预测输出将会丢失预测分布中的丰富信息，且会导致训练过程产生偏差，因此采样操作是必要的。为了使采样操作可导，利用Gumbel-Softmax技巧和分词的微分近似，图2展示了可微分的多模态分词策略。具体的：在训练过程中，归一化概率输出

上添加Gumbel噪声

实现重参数化，重参数化后的归一化概率输出记为

，结合Straight-Through Estimator，在训练过程的前向传播中，对重参数化后的归一化概率输出

采样前K个类别（K为正整数，具体数值可根据情况或者经验自行设定）；通过反向传播更新

维可学习的嵌入层

的参数；在反向传播中单个类别c的梯度如下：

其中，

，c’与c均表示单个类别，

表示梯度算子。

本领域技术人员可以理解，Gumbel-Softmax、Gumbel噪声与Straight-ThroughEstimator均为专有名称，前两个专有名称无对应中文名称，Straight-Through Estimator可以翻译为直通估计器。

3、通过上述方式，对所有模态都进行处理后，最终获得的多模态词元序列表示为

，

分别表示视觉模态、文本模态、语音模态的词元序列中词元数目，

对应视觉模态，

对应文本模态，

对应语音模态，多模态词元序列中的单个元素表示单个词元。通过设计上述策略，使得整个模块包括特定模块分类器在内都能够端到端地训练。

需要说明的是，图1与图2中生成的各类文本内容仅为举例说明。

二、多模态序列的语义图构造。

本发明实施例中，多模态词元交互模块可以通过一个L层的多模态Transformer网络（Multimodal Transformer layers）实现。每一个多模态Transformer层由一系列的多头注意力层及feed-forward前馈网络构成，并配有残差连接及层归一化方法。通过多头自注意机制，允许每个词元自由地关注其他模态的任意词元。这使得本发明可以通过相同的Transformer层，以相同的方式对模态间和模态内关系进行建模。多模态Transformer网络的输出每个词元的d维特征，是它们在多模态上下文中丰富的嵌入向量表示。

考虑到后续解码网络也包含一个多模态Transformer网络，为了区分，此处所使用的是第一多模态Transformer网络，解码网络使用的是第二多模态Transformer网络。两个多模态Transformer网络共享参数。

多模态序列的语义图构造流程可以描述为：

1、通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模，输入多模态词元序列

，

分别表示视觉模态、文本模态、语音模态词元序列中词元数目，

对应视觉模态，

对应文本模态，

对应语音模态，序列中的单个元素表示单个词元；输出多模态序列

，多模态序列中单个元素表示建立模态间和模态内词元的关系后的词元（即多模态词元）。

本发明实施例中，多模态词元序列包含了三个模态的词元序列，每一个模态的词元序列都是利用各自模态内部信息处理得到；而上述多模态序列中每一个元素都融合了其他模态的信息，从而构成的新的序列。

如图3所示，展示了第一多模态Transformer网络与第二多模态Transformer网络的原理，由于此处的第一多模态Transformer网络与解码网络中的第二多模态Transformer网络可以共享网络参数，且主要原理类似，因此可以一并理解。对于第一多模态Transformer网络而言，其输入即仅包含图3底部左侧的三个部分：视觉信息词元嵌入向量（video token embedding）、文本信息词元嵌入向量（text token embedding）、语音信息词元嵌入向量（Audio token embedding），这三个部分即为前文所述的多模态词元序列

，这三个部分在所涉及的相关模态的token即为多模态词元序列中的单个词元。

本发明实施例中，将第一多模态Transformer网络中的多头注意力机制自我注意应用于模态间和模态内上下文语境，自然地实现了每个模态元素的交互，提取出视频多个关键语义信息组和组内语义关联性结构。

2、利用线性层

，预测多模态序列

中每一词元的重要性得分，表示为：

其中，z表示多模态序列

中的单个词元，

表示单个词元的重要性得分。

根据词元的重要性得分大小选出关键词元

，利用RNN（循环神经网络）模型以关键词元

初始化隐藏层状态，对关键词元

与多模态序列

中其他词元之间的相关性（潜在依赖）进行建模，并计算相关性得分，利用相关性得分筛选出相关词元集合，再构建以关键词元

为中心的语义图

，表示为：

其中，式子

表示利用RNN模型建模关键词元

与多模态序列

中其他词元的相关性，RNN模型即为循环神经网络模型；式子

表示计算关键词元

与多模态序列

中其他词元的相关性得分，σ表示激活函数，

表示线性变换；

表示设定的阈值，它是一个超参，例如，可以设置

；

表示多模态序列

中除去关键词元

外的其他单个词元与关键词元

的相关性得分，

表示利用设定的阈值

筛选出的相关词元集合。

训练阶段，关键词元

为重要性得分最高的一个词元，即

，并利用关键词元与关键词元相关的多个词元构建一个语义图；推理阶段，关键词元为重要性得分最高的多个词元，选出多个关键词元后，对于每一关键词元，利用与其相关的多个词元构建一个语义图，推理阶段所选出的关键词元数据可根据实际情况或者经验自行设定。

三、基于语义图的文本生成。

得到语义图

之后，通过解码网络获得预测文本。如图3所示，解码网络包含多模态Transformer网络与动态指针网络（dynamic pointer network），如之前所述，将此部分所涉及的多模态Transformer网络称为第二多模态Transformer网络，与第一多模态Transformer网络共享参数。

在训练过程中，每一次都取重要性得分最高词元作为关键词源，因此，将构建出的单个语义图作为当前视频的全局表示，输出单个预测文本；但是，在推理过程中，会选出多个关键词源，因此，可以构建多个语义图，每个语义图都将对应一个预测文本，从而实现预测文本的多样性。

本发明实施例中，解码网络基于自回归的方式逐字符解码，输入为语义图

，通过所述第二多模态Transformer网络对所述语义图

中所有词元（包括关键词元与相关词元集合）构成的输入序列进行编码；第一个时间步，利用第二多模态Transformer网络编码时的隐状态向量结合词汇表，输出第一个预测字符；之后的时间步中，会结合上一时间步输出的预测字符输出当前时间步的预测字符，此时的预测字符为多模态序列的某个的词元，或者来自词汇表的词汇。

图3中的绘制的多模态Transformer网络同时展示了两个多模态Transformer网络的输入信息；对于第二多模态Transformer网络而言，左侧三部分输入会更改为语义图

中所有词元构成的输入序列，最右侧的输入部分即为之前所有时间步的预测字符，<begin>为开始符号，其中上一个时间步的预测字符的相关信息与参与当前时间步的预测；右上角为动态指针网络输出的一系列概率。

解码网络的主要流程如下：时间步t时，将所述第二多模态Transformer网络编码时的隐状态向量

通过线性层获得第一组概率，即选择词汇表中每一词汇的概率，其中，选择词汇表中第o个词汇的概率

表示为：

其中，

表示对应于词汇表中第o个词汇的权重向量，

表示对应于词汇表中第o个词汇的偏置参数；当t=1时，隐状态向量

通过输入的语义图产生；当

时，隐状态向量

通过输入的语义图

与上一时间步t-1预测字符的相关信息产生，

表示最大时间步。

本领域技术人员可以理解，词汇表是整个解码网络使用的词汇表，也即所选分词器对应的词汇表，它是固定的词汇表。每一时间步的输出可以是词汇表的某一个词汇也可以是直接复制多模态序列

的某个词元。

当t=1时，选择第一组概率中最大概率对应的词汇作为时间步1的预测字符。当

时，通过动态指针网络，综合所述第一多模态Transformer网络输出的多模态序列

和上一个时间步的预测结果获得第二组概率，即从多模态序列中选择各个词元的概率，其中，选择多模态序列

中的第j个词元

的概率

表示为：

其中，

表示多模态序列

中的第j个词元，

，这里主要是考虑到

中的词元存在三种表达形式，因此为了便于表示统一定义为

形式。

表示时间步t的隐状态向量，通过输入的语义图

与上一时间步t-1的预测字符的相关信息产生，

与

表示

对应的权重与偏置参数；

与

表示

对应的权重与偏置参数。

综合所述第一组概率与第二组概率，选择概率最大的词汇或者词元作为预测字符。如之前所述逐字符解码时，字符为某个模态的词元，或者来自固定的参考词汇表；因此，在迭代自回归解码过程中，如果上一时间步t-1输出的预测字符是来自多模态序列

的词元，

，则将词元对应的向量输入至所述第二多模态Transformer网络，由所述第二多模态Transformer网络结合词元对应的向量输出时间步t的隐状态向量

；如果上一时间步t-1输出的预测字符是来自词汇表中的词汇，

，则将词汇对应的权重向量（例如，前述公式中的

）输入至所述第二多模态Transformer网络，由所述第二多模态Transformer网络结合词汇对应的权重向量输出时间步t的隐状态向量

。此外，还添加了两个额外的d维向量作为输入，第一个d维向量是位置编码向量，它对应于当前时间步；第二个d维向量是类型编码向量，用来表示之前的预测输出是来自多模态词元还是固定的词汇表。

按照时间步的顺序综合所有预测字符，组成预测文本。

本领域技术人员可以理解，最大时间步

是指预测字符为<EoS>的时间步，也就是说，按照上述解码流程，当某一时间步输出的预测字符为<EoS>时，即表明到达最大时间步，停止解码流程。

上述迭代自回归解码过程中，引入了动态指针网络，形成一种基于动态复制的迭代解码方式，通过多步预测而不是一步生成序列，引入动态指针网络后，原来的解码层不仅可以输出固定的参考词汇表中的词汇同时还具备了从输入序列中动态复制的能力，兼顾了生成效果的多样性和准确性。

示例性的，可以设置多模态Transformer网络的层数为4，且多头自注意机制的个数为12，隐藏层维度d为1024，预测文本序列是解码最大步数

为16。

四、训练的整体损失函数。

如之前所述，前述三个步骤都各自通过一个子模块来完成，三个子模块构成视频评论生成模型，记为

。视频评论生成方法的过程描述为：

，

表示预测文本，

中的每一个元素表示一个时间步的预测字符，

表示预测文本中预测字符的数目，等同于解码时的最大时间步，

表示视频评论生成模型待学习的参数矩阵（包含三个子模块中所有待学习的参数），设定y表示训练时给定的ground-truth（标注信息）。

所述视频评论生成模型通过端到端的方式进行训练，损失函数表示为：

其中，w表示视频评论生成模型待学习的参数矩阵W中的单个参数向量，Cross- Entropy表示交叉熵损失，

表示

对应的标注信息，

。

本发明实施例上述方案，通过将每个模态的所有元素映射到一个公共语义嵌入空间中，能够充分提取各模态的上下文信息，显式地对多个模态信息进行交互，实现跨模态数据间的语义关联；而且通过构造语义图结构并进行解码，不仅能够生成丰富多样的评论，还能够直接利用提取出的内容语义标签，确保了和视频内容表达的统一。

实施例二

本发明还提供一种视频评论生成系统，其主要基于前述实施例一提供的方法实现，如图4所示，该系统主要包括：

如图4所示的主要结构可知，该系统包含前述实施例一中所述的网络模型，该网络模型对应各个步骤的主要工作原理在之前的实施例一中已经做了详细的介绍，故不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图5所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种视频评论生成方法，其特征在于，包括：

对所述包含多个模态信息的语义图进行解码，获得预测文本；

其中，对所述包含多个模态信息的语义图进行解码，获得预测文本的步骤通过解码网络实现；

所述解码网络包括：第二多模态Transformer网络与动态指针网络；所述解码网络基于自回归的方式逐字符解码，按照时间步的顺序综合所有预测字符，组成预测文本；解码流程包括：

时间步t时，将所述第二多模态Transformer网络产生的隐状态向量

表示为：

其中，

表示对应于词汇表中第o个词汇的权重向量，

通过输入的语义图产生；当

时，隐状态向量

通过输入的语义图

与上一时间步t-1预测字符的相关信息产生，

表示最大时间步；

当t=1时，选择第一组概率中最大概率对应的词汇作为时间步1的预测字符；

当

时，通过动态指针网络计算第二组概率，综合所述第一组概率与第二组概率，选择概率最大的词汇或者词元作为预测字符；所述第二组概率为从多模态序列中选择各个词元的概率，其中，选择多模态序列中的第j个词元

的概率

表示为：

其中，

、

表示隐状态向量

对应的权重与偏置参数；

与

表示多模态序列中的第j个词元

对应的权重与偏置参数；

其中，当

时，隐状态向量

通过输入的语义图

与上一时间步预测字符的相关信息产生包括：如果上一时间步t-1输出的预测字符是来自多模态序列

的词元，则将词元对应的向量输入至所述第二多模态Transformer网络，由所述第二多模态Transformer网络结合词元对应的向量输出时间步t的隐状态向量

；如果上一时间步t-1输出的预测字符是来自词汇表中的词汇，则将词汇对应的权重向量输入至所述第二多模态Transformer网络，由所述第二多模态Transformer网络结合词汇对应的权重向量输出时间步t的隐状态向量

。

2.根据权利要求1所述的一种视频评论生成方法，其特征在于，所述获取包含多模态信息的视频数据，对每一模态信息各自进行特征提取与类别预测包括：

将包含多模态信息的视频数据表示为

，其中，

对应视觉模态，

对应文本模态，

对应语音模态，

分别为视觉信息、文本信息、语音信息；

使用

表示三种模态的特征提取网络，对于模态m对应的信息

通过特征提取网络

进行特征提取，并在预训练类别空间

上实现类别预测，类别预测结果表示为：

其中，

是预训练分类器对

的归一化概率输出，

表示通过特征提取网络

对模态m对应的信息

进行特征提取，c表示单个类别，

表示类别数目，

表示信息

中的单个元素；

。

3.根据权利要求2所述的一种视频评论生成方法，其特征在于，所述将所有模态信息类别预测结果对应的文本名称嵌入到共同的语义空间中，获得多模态词元序列包括：

对于模态m，从类别预测结果中采样

个类别，将

个采样类别转换为一组文本嵌入向量，即模态m的词元序列，模态m的词元序列中词元数目等于采样类别数

；其中，对于采样类别先计算类别名，再通过矩阵运算获得对应的文本嵌入向量，表示为：

其中，

表示模态m的采样类别

的独热编码向量，

表示模态m的所有

个类别组成的集合的向量形式，

表示模态m的采样类别

对应的类别名，即文本名称，

是

维可学习的嵌入层，

表示模态m的类别数目；

表示模态m的采样类别

对应的类别名的文本嵌入向量，对应一个词元；采样类别数

为设定的正整数，

，

对应视觉模态，

对应文本模态，

对应语音模态；

对所有模态都进行处理后，获得的多模态词元序列，表示为

，

分别表示视觉模态、文本模态、语音模态的词元序列中词元数目。

4.根据权利要求3所述的一种视频评论生成方法，其特征在于，训练过程中，在归一化概率输出

上添加Gumbel噪声

实现重参数化，重参数化后的归一化概率输出记为

采样前K个类别；通过反向传播更新

维可学习的嵌入层

的参数；在反向传播中单个类别c的梯度如下：

其中，

，c’与c均表示单个类别，

表示梯度算子，K为正整数，Straight-Through Estimator表示直通估计器。

5.根据权利要求1或3所述的一种视频评论生成方法，其特征在于，将所述多模态词元序列输入至多模态词元交互模块，每一词元都与其他任意模态的词元进行交互，获得建立模态间和模态内关系后的词元组成的多模态序列；对所述多模态序列进行评分，利用获得的所述多模态序列中每一词元的重要性得分和不同词元之间的相关性得分，构造包含多个模态信息的语义图包括：

所述多模态词元交互模块使用第一多模态Transformer网络实现，通过所述第一多模态Transformer网络对模态间和模态内词元的关系进行建模，输入多模态词元序列