CN113784199A

CN113784199A - 一种用于生成视频描述文本的系统和方法

Info

Publication number: CN113784199A
Application number: CN202111060036.5A
Authority: CN
Inventors: 王树徽; 闫旭; 黄庆明
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2021-12-10
Anticipated expiration: 2041-09-10
Also published as: CN113784199B

Abstract

本发明提供的一种用于生成视频描述文本的系统，包括：视觉编码模块，用于对待处理的视频进行全局编码，得到全局视频特征，并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征；以及字幕生成模块，用于对视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。根据该系统进行的视频描述的生成方法中，生成的描述文本不仅更加具有视觉准确性和视觉一致性，前后文本更加连贯。

Description

一种用于生成视频描述文本的系统和方法

技术领域

本发明涉及多媒体领域的视频描述生成技术，具体涉及一种用于生成视频描述文本的系统和方法。

背景技术

最近，视频已经成为互联网上最常见的媒体形式，与图片和文字相比，视频能够传递更丰富多彩的信息。但绝大多数视频没有对应的文字描述，这极大地限制了信息传播的速度。因此，分析视频内容并生成对应描述文本的视频描述生成技术(VC，VideoCaptioning)，成为多模态领域最主要的研究方向之一。该技术有广泛的应用前景，如道路交通状况的实时播报、机场火车站等安防系统的智能搜索、为视障人士提供视觉辅助信息、家庭机器人的物品搜索等功能。

目前通用的视频描述生成技术能够对时长约6-25s的视频生成一句20词左右的描述文本。但实际应用场景中的视频，具有更长的时间跨度和更复杂的视觉内容。因此，能够对视频内的多个视频事件，生成详细的、语义内容丰富的视频描述生成任务，是一个非常具有挑战又具有广阔应用意义的任务。为了解决这个任务，首先对长视频进行事件识别，然后分别对每个事件生成一句描述文本，最后拼接得到段落描述。但这类方法没有对事件之间的关系进行建模，因此生成的文本不连贯。另外，还有一种方法是通过提取词性标注来提高文本描述的语法正确性，或者通过使用语音识别技术，提取音频特征，丰富视频表征信息，提升文本描述的内容一致性。

尽管现有的视频描述生成技术这些方法都在一定程度上完成了视频描述生成任务，但在对视频片段生成对应描述时，忽视了全局信息，使得生成的文本描述仍然具有前后语句不连贯、文本语义与视频内容不一致、重复词语较多等问题。同时，通过提取词性标注提高语法正确性或语音识别技术，提升文本描述内容一致性，较为复杂且成本高，且语音识别易出现错误，当视频为无声音或声音较少时无法提取音频特征，局限性大。

因此，生成一段能够准确描述视频内多个事件的描述文本，是极具挑战的任务。

发明内容

因此，本发明的目的在于克服上述现有技术的缺陷，提供一种用于生成视频描述文本的系统和方法。

本发明的目的是通过以下技术方案实现的：

根据本发明的第一方面，提供一种用于生成视频描述文本的系统，系统包括：视觉编码模块，用于对待处理的视频进行全局编码，得到全局视频特征，并利用所述待处理的视频的视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征；字幕生成模块，用于对所述每个视频帧的视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。

在本发明的一些实施例中，所述视觉编码模块包括：视觉嵌入单元，用于提取所述具有视频分段信息的视频的特征，得到具有视频分段信息的嵌入表征；全局视频编码单元，用于对所述嵌入表征进行全局编码，得到全局视频特征；局部片段编码单元，用于基于所述视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到局部片段特征，所述局部片段特征包括所述视频片段中每个视频帧对应的帧特征；以及池化单元，用于对所述局部片段特征进行池化处理，得到各视频片段中每个视频帧的视觉模态表征。

在本发明的一些实施例中，所述字幕生成模块包括预训练语言解码器，用于将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征，并根据文本模态表征预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本。

在本发明的一些实施例中，所述视频的首个视频片段的首个视频帧的视觉模态表征对应的文本起始字符中的向量值设为预定值，视频后续的所有视频帧的视觉模态表征对应的文本起始字符设为从在先预测得到的所有单词对应的文本模态表征中提取语义信息所得的词向量。

在本发明的一些实施例中，所述系统还包括跨模态信息流对齐模块，所述跨模态信息流对齐模块用于训练时指导从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，其中，所述视觉编码模块、字幕生成模块以及跨模态信息流对齐模块是按照以下方式训练获得的：获得训练集，其中，包括多个视频样本和每个视频样本对应的文本标签，其中，每个视频根据视频分段信息分割为多个视频片段，每个视频片段对应一个事件，所述文本标签包括所有事件对应的描述文本标签；利用训练集训练视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，根据生成的描述文本和对应的描述文本标签计算第一子损失，并且训练跨模态信息流对齐模块将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，根据对齐结果获得第二子损失；根据对第一子损失和第二子损失进行加权求和获得的总损失更新视觉编码模块、字幕生成模块以及跨模态信息流对齐模块的参数。

在本发明的一些实施例中，所述跨模态信息流对齐模块包括视觉流编码器、文本流编码器和对齐单元，所述将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，得到表示对齐误差的第二子损失的步骤包括：通过视频流编码器对连续输入的视觉模态表征进行编码，得到事件对应的视觉特征信息流总量；通过文本流编码器对连续输入的生成的描述文本进行编码，得到事件对应的文本特征信息流总量；通过对齐单元，计算相邻两个事件的视觉特征信息流总量间的视觉特征变化，得到视觉特征变化流；计算相邻两个事件的文本特征信息流总量间的文本特征变化，获得文本特征变化流；以及根据视觉特征变化流和文本特征变化流之间的绝对误差计算第二子损失。

在本发明的一些实施例中，所述视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，包括：利用视觉编码器，获得视频样本的各个视频片段中每个视频帧的视觉模态表征；跨模态信息流对齐模块基于视觉模态表征获得视觉特征变化流；字幕生成模块结合描述文本标签对视觉模态表征进行嵌入处理，获得事件对应的文本模态表征，并基于各个视频片段对应的文本模态表征以及视觉特征变化流，生成所述视频片段的描述文本。

根据本发明的第二方面，提供一种基于第一方面的系统用于生成视频描述文本的方法，方法包括：S1、利用视觉编码模块，对待处理的视频进行全局编码，得到全局视频特征，并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征，S2、利用字幕生成模块，对视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。

根据本发明的第三方面，提供一种计算机可读存储介质，其上包含有计算机程序，所述计算机程序可被处理器执行以实现本发明第二方面所述方法的步骤。

根据本发明的第四方面，提供一种电子设备，包括：一个或多个处理器；以及存储器，其中存储器用于存储一个或多个可执行指令；所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现本发明第二方面所述方法的步骤。

与现有技术相比，本发明的优点在于：

1、本发明的系统中包含有视觉编码器模块和字幕生成模块，通过视觉编码器模块获取全局视频特征，然后基于全局视频特征进行局部编码，得到每个视频帧的视觉模态表征，由此得到的视觉模态表征具有全局语义，由字幕生成模块基于该视觉模态表征生成的文本，具有前后语句连贯、契合度更高的优点，即：生成的视频描述文本的文本语义更连贯、更准确。

2、本发明的系统在通过训练获得的过程中，基于字幕损失和对齐损失的加权和调整系统的各个模块参数，使最终的系统能有效提高生成的描述文本的视觉准确性和一致性，并能够对给定的长视频，根据视频内的多个视频片段，生成多段能够详细描述视频片段内容的描述文本，且文本间具有篇章连贯性。

3、本发明通过跨模态信息流对齐模块将每个模态的信息变化过程都建模为一种信息的变化流(包括基于视觉特征信息流总量获得的视觉特征变化流和基于文本特征信息流总量获得的文本特征变化流)；对齐多个模态的变化流以拉近跨模态信息间的差距，更好的实现多模态信息间的对齐和理解，增加多模态信息间的表达一致性，即生成的描述文本和视觉的一致性。另外，字幕生成模块基于视觉特征变化信息，可生成语义丰富多样的描述文本。

附图说明

以下参照附图对本发明实施例作进一步说明，其中：

图1为根据本发明实施例用于生成视频描述文本的系统结构示意图；

图2为根据本发明实施例系统的视觉编码模块的工作流程示意图；

图3为根据本发明实施例的训练方法流程图；

图4为根据本发明实施例的训练集中的一个视频样本包括多个视频片段的示意图；

图5为根据本发明实施例基于系统的用于生成视频描述文本的方法流程图；

图6为根据本发明实施例进行测试对比实验时采用的视频片段图；

图7为根据本发明实施例进行测试对比实验时采用的视频片段图；

图8为根据本发明实施例进行测试对比实验时采用的视频片段图；

图9为根据本发明实施例进行测试对比实验时采用的视频片段图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如在背景技术中提到的，现有的视频描述生成技术这些方法都在一定程度上完成了视频描述生成任务，但在对视频片段生成对应描述时，忽视了全局信息，使得生成的文本描述仍然具有前后语句不连贯、文本语义与视频内容不一致的问题。发明人针对该问题，设计的用于生成视频描述文本的系统中包含有视觉编码器模块和字幕生成模块，通过视觉编码器模块中的全局视频编码单元和局部片段编码单元将视觉嵌入单元提取的嵌入表征依次进行全局编码和局部编码，获得的局部片段特征具有全局视频特征，利用视觉编码器模块中的池化单元获得局部片段特征中每个视频帧的视觉模态表征，该视觉模态表征具有全局语义，字幕生成模块基于该视觉模态表征生成的文本，具有前后语句连贯、契合度更高的优点，即生成的描述文本的文本语义更加连贯和准确。

基于上述研究，根据本发明的一个实施例，提供一种用于生成视频描述文本的系统，该系统包括视觉编码模块和字幕生成模块，下面将参照图1对该系统进行详细说明。

视觉编码模块，用于对待处理的视频进行全局编码，得到全局视频特征，并利用待处理的视频的视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征。

根据本发明的一个实施例，所述视觉编码模块包括：

视觉嵌入单元，用于提取具有视频分段信息的视频的特征，得到具有视频分段信息的嵌入表征；

全局视频编码单元，用于对所述嵌入表征进行全局编码，得到全局视频特征；

局部片段编码单元，用于基于视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到局部片段特征，所述局部片段特征包括所述视频片段中每个视频帧对应的帧特征；以及

池化单元，用于对局部片段特征进行池化处理，得到各视频片段中每个视频帧的视觉模态表征。

参照图2，视频编码模块在接收到待处理视频后，采用视觉嵌入单元获取嵌入表征，全局视频编码单元将嵌入表征进行编码后获得全局视频特征，局部片段编码单元基于视频分段信息和全局视频特征对视频片段进行编码获得局部片段特征，使得在对视频片段进行编码时，可获得具有全局视频特征的局部片段特征，池化单元将局部片段特征获得每个视频帧的视觉模态表征，其中，全局视频编码单元和局部片段编码单元为双向的前序编解码预测器(Transformer)。

字幕生成模块，用于对每个视频帧的视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。

根据本发明的一个实施例，字幕生成模块包括预训练语言解码器，用于将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征，并根据文本模态表征预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本。其中，预训练语言解码器的结构包括嵌入层(即Transformer自带的预处理层)、预训练语言模型(Generative Pre-trainedTransformers2.0，GPT-2，由Transformer构成)和分类层(Softmax层)。

根据本发明的一个实施例，视频的首个视频片段的首个视频帧的视觉模态表征对应的文本起始字符中的向量值设为预定值，视频后续的所有视频帧的视觉模态表征对应的文本起始字符设为从在先预测得到的所有单词对应的文本模态表征中提取语义信息所得的词向量。在此处的首个视频帧的视觉模态表征对应的文本起始字符为<BOS>，默认设置的<BOS>(预定值)可作为一种初始状态。

在前面的实施例中，将文本模态表征输入字幕生成模块的预训练语言模型中，以获得描述文本。但是，如此生成的描述文本可能和视频之间未对齐，由此导致一些描述文本超前出现或者滞后出现，影响用户体验。为解决此问题，根据本发明的一个实施例，参见图1，该系统还包括跨模态信息流对齐模块。跨模态信息流对齐模块包括视觉流编码器、文本流编码器和对齐单元。视觉流编码器对连续输入的视觉模态表征进行编码，得到视频片段对应的视觉特征信息流总量，文本流编码器对连续输入的生成的描述文本进行编码，得到视频片段对应的文本特征信息流总量，对齐单元计算相邻两个视频片段的视觉特征信息流总量间的视觉特征变化流，以及计算相邻两个视频片段的文本特征信息流总量间的文本特征变化流。预训练语言模型包括输入层、一个或者多个隐含层和全连接层，隐含层、全连接层分别包括多个节点。该系统被配置为：将文本模态表征和在跨模态信息流对齐模块中获得的视觉特征变化流均输入到字幕生成模块的预训练语言模型中，以获得描述文本；其中，视觉特征变化流直接作为全连接层之前的一个隐含层(比如前一层)的节点的输入，对全连接层的值进行Softmax处理后输出预测的单词。而将获得的视觉特征变化流直接作为全连接层前的一个隐含层的节点的输入，输入到预训练语言模型中，增强输出的预测单词与视觉的一致性，同时，根据输入的视觉特征变化流，使字幕生成模块更加关注视觉特征变化，使得生成的描述文本的语义也变得更加的丰富、多样化。

跨模态信息流对齐模块用于训练时指导从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，其中，跨模态信息流对齐模块中的对齐单元还用于在训练视觉编码模块、字幕生成模块以及跨模态信息流对齐模块时，将视觉特征变化流和文本特征变化流进行跨模态信息流对齐，以计算对齐损失(即第二子损失)。其中，所述视觉编码模块、字幕生成模块以及跨模态信息流对齐模块是按照以下方式训练获得的，如图3所示，包括步骤A1、A2和A3：

步骤A1、获得训练集，其中，包括多个视频样本和每个视频样本对应的文本标签，其中，每个视频根据视频分段信息分割为多个视频片段，每个视频片段对应一个事件，所述文本标签包括所有事件对应的描述文本标签。如图4所示：分段信息为[0.00，17.57]、[17.57，80.84]、[80.84，132.29]、[132.29，176.92]和[176.92，234.33]，通过分段信息将视频样本分割为五个视频片段，每个视频片段代表一个事件，文本标签根据事件顺序依次包括五句描述文本标签，事件1的描述文本标签：“A young girl is standing in a neonwet suit on a boat preparing to jump off”，事件2的描述文本标签：“T he camerapans the rest of the people on the boat and the girl finally jumps in wearingher equipment to breath efficiently”，事件3的描述文本标签：“A water buoy andrope is then shown as the girl goes deep under the water and swims withseveral schools of fish”，事件4的描述文本标签：“A boy then pulls out severalcards under the water and they begin doing truth or dares under the water andhe asks the women will she marry him.”事件5的描述文本标签：After the guy getshis answer,they leave from under the water and several pictures are shown toshow off the ring。

步骤A2、利用训练集训练视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，根据生成的描述文本和对应的描述文本标签计算第一子损失，并且训练跨模态信息流对齐模块将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，根据对齐结果获得第二子损失。

根据本发明的一个实施例，视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，包括：

利用视觉编码器，获得视频样本的各个视频片段中每个视频帧的视觉模态表征。

跨模态信息流对齐模块基于视觉模态表征获得视觉特征变化流。

字幕生成模块结合描述文本标签对视觉模态表征进行嵌入处理，获得事件对应的文本模态表征，并基于各个视频片段对应的文本模态表征以及视觉特征变化流，生成所述视频片段的描述文本。

根据生成的描述文本和对应的描述文本标签计算第一子损失(即字幕损失)，可通过计算交叉熵损失(CrossEntropy)获得，具体的计算方式如下：

其中，L_CE是交叉熵损失，K表示一个视频样本总共有K个事件，分别对应着K句描述文本标签，N表示第i个事件总共有N个单词，

表示第i句文本的第j个单词，

表示第i句文本的前j-1个已生成单词，f_i表示第i个事件的全部视频帧的视觉模态表征，

表示第i个视频片段产生的视觉特征变化流，p表示概率，

表示第i个事件的描述文本的第j个单词的概率分布(也就是预训练字幕生成模块中，根据前面生成的单词、视觉模态表征、视觉信息变化流时，预测下一个单词的概率)。

根据本发明的一个实施例，所述跨模态信息流对齐模块包括视觉流编码器、文本流编码器和对齐单元，其中，将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，得到表示对齐误差的第二子损失的步骤包括：

通过视频流编码器对连续输入的视觉模态表征进行编码，得到事件对应的视觉特征信息流总量；其中，每个事件对应的视觉特征信息流总量(由于视觉模态表征是连续输入的，计算事件对应的视觉特征信息流总量包括了基于该事件及该事件之前的视觉模态表征获得的视觉特征信息流总量)表示如下：

其中，

表示第i个事件对应的视觉信息流总量(包括了基于前i个视频片段的全部视觉模态表征获得的视觉特征信息流总量)，1≤i≤K,K表示视频中的事件数量，Visual-Flow-Encode(·)表示视觉流编码器，f_i表示细粒度的视觉模态表征，即第i个事件的全部视频帧的视觉模态表征。

通过文本流编码器对连续输入的生成的描述文本进行编码，得到事件对应的文本特征信息流总量；其中，文本流编码器接收字幕生成模块生成的描述文本{[F],c₁,[F],…,[F],c_i,[F]}作为输入，得到文本特征信息流总量，每个事件对应的文本特征信息流总量(包括了基于该事件及该事件之前生成的描述文本获得的文本特征信息流总量)表示如下：

其中，

表示第i个事件对应的文本特征信息流总量，Textual-Flow-Encode(·)表示文本信息流编码器，1≤i≤K，K表示视频中的事件数量，c_i表示第i个事件生成的描述文本，[F]为特殊符号，表示描述文本c_i和前一句描述文本c_i-1的间隔。

通过对齐单元，计算相邻两个事件对应的视觉特征信息流总量间的视觉特征变化，即计算相邻两个事件对应的视觉特征信息流总量之间的差值，得到视觉特征变化流；计算相邻两个事件对应的文本特征信息流总量间的文本特征变化，即计算相邻两个事件对应的文本特征信息流总量之间的差值，获得文本特征变化流；以及根据视觉特征变化流和文本特征变化流之间的绝对误差计算第二子损失。通过最小化第二子损失，以对齐多个模态(即视觉模态表征和文本模态表征)的变化流，可以拉近跨模态信息之间的差距，实现更好的多模态信息间的对齐和理解，增加多模态信息间的表达一致性。多模态信息流的概念可以应用于几乎所有的多模态理解任务，如图像/视频-文本检索、图像描述生成、文本图像生成、视觉问答、视觉语言导航等。

其中，视觉特征变化流可通过如下的计算方式表示：

其中，

表示第i个事件的视觉特征变化流，

表示第i个事件对应的视觉信息流总量(包括基于前i个视频片段的全部视觉模态表征获得的视觉特征信息流总量)，

表示第i-1个事件对应的视觉信息流总量(包括基于前i-1个视频片段的全部视觉模态表征获得的视觉特征信息流总量)。

文本特征变化流可通过如下的计算方式表示：

其中，

表示第i个事件的文本特征变化流，

表示第i句描述文本的文本信息流总量(包括基于前i个视频片段生成的全部描述文本获得的文本特征信息流总量)，

表示第i-1句描述文本的文本信息流总量(包括基于前i-1个视频片段生成的全部描述文本获得的文本特征信息流总量)

第二子损失可采用计算均方误差的方式获得，计算方式如下：

其中，L_MSE是第二子损失。

步骤A3、根据对第一子损失和第二子损失进行加权求和获得的总损失更新视觉编码模块、字幕生成模块以及跨模态信息流对齐模块的参数。其中，跨模态信息流对齐模块中的文本流编码器包括嵌入层(即Transformer自带的预处理层)和预训练语言模型(Generative Pre-trained Transformers2.0，GPT-2，由Transformer构成)，文本流编码器的参数与预训练语言解码器的嵌入层和预训练语言模型的参数共享。总损失表示如下：

L＝αL_CE+βL_MSE，

其中，α和β分别表示第一子损失和第二子损失的权重系数。

利用视觉编码器，获得视频样本的各个视频片段中每个视频帧的视觉模态表征；

跨模态信息流对齐模块基于视觉模态表征获得视觉特征变化流；

其中，按照以下方式生成视频片段的描述文本：

其中，G为生成的描述文本，

表示隐含层中的隐含层变量，

表示视觉特征变化流，

表示第i个事件的第j个单词的变量，W和b是全连接层参数，Softmax()表示分类层。

根据上述用于生成视频描述文本的的系统，本发明还提供一种用于生成视频描述文本的方法，如图5所示，方法包括步骤S1和S2。为了更好地理解本发明，下面结合具体的实施例针对每一个步骤分别进行详细说明：

S1、利用视觉编码模块，对待处理的视频进行全局编码，得到全局视频特征，并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征。得到各个视频片段的每个视频帧的视觉模态表征的具体方式同上述用于生成视频描述文本的系统中视觉编码模块获取每个视频帧的视觉模态表征的方式一致。

S2、利用字幕生成模块，对视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。

根据本发明的一个实施例，步骤S2包括：

利用预训练语言解码器，将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征，并根据文本模态表征预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本。

根据本发明的一个实施例，所述根据文本模态表征预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本，包括：

通过跨模态信息流对齐模块基于各个视频片段中每个视频帧的视觉模态表征，获得视觉特征变化流；其中，根据视觉模态表征获得视觉特征变化流的方法同上述用于生成视频描述文本的系统中的跨模态信息流对齐模块获取视觉特征变化流的方式一致，包括：

通过视频流编码器对连续输入的视觉模态表征进行编码，得到事件对应的视觉特征信息流总量；

通过对齐单元，计算相邻两个事件对应的视觉特征信息流总量间的视觉特征变化，即计算相邻两个事件对应的视觉特征信息流总量之间的差值，得到视觉特征变化流。

根据文本模态表征和视频片段对应的视觉特征变化流预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本。其中，通过Softmax分类层预测当前输入视频帧对应的单词。

为了验证本发明的视频描述的生成系统及方法的效果，发明人采用数据集(ActivityNet Captions ae-test split)进行验证，获得本发明与目前最好方法：用于连贯视频段落字幕的记忆增强循环变压器(Memory-augmented recurrent transformer forcoherent video paragraph captioning，MART)的对比试验结果，如下表所示(其中，↑符号表示指标越大越好，↓符号表示指标越小越好，因此，本发明的全部指标均比现有的MART好)：

	BLEU@4↑	METEOR↑	CIDEr-D↑	RE@4↓
					MART	9.78	15.57	22.16	5.44
本发明	10.21	17.38	23.66	0.23

下面举例对比本发明和MART方法生成的描述文本，

如图6表示的视频，其在MART方法的生成的描述文本为：Two kids are boxing ina boxing ring.The kids are engaged in a room.The kids are engaged in a game，本发明的方法生成的描述文本为：A man wearing a black shirt and red shorts isboxing in a ring.The woman then begins fighting with a man.The boy then kicksthe girl back and fourth，

如图7表示的视频，在MART方法的生成的描述文本为：People are paddling in ariver.They are paddling down the river.They are paddling down the river，本发明的方法生成的描述文本为：A large group of people are seen riding down theriver with rafts and paddling down a river.The people continue rafting downthe river as well as swimming in the river.They raft down a river,trying toget out of the raft。

如图8表示的视频，在MART方法的生成的描述文本为：A man jumps onto ahorse.He mounts the pommel horse.He does a hand stand before walking away，本发明的方法生成的描述文本为：A gymnast is seen standing ready with his arms upon a beam.He mounts the beam and begins to spin himself around and around.Hethen does a hand stand on the beam and walk away。

如图9表示的视频，在MART方法的生成的描述文本为：A girl is drinking froma cup of beer.She is drinking from a cup，本发明的方法生成的描述文本为：A girlis seen speaking to the camera while holding a drink and leads into herholding up various liquids.She continues to talk to the camera and shows offa bottle of beer。

通过上述对比结果和举例，在ActivityNet Captions的测试数据集上，我们提出的系统，与目前具有竞争力的最先进的方法MART相比，在四个指标上都有了显著提升。本发明相比MART方法生成的描述文本具有更丰富的文本语义，且句子更加连贯准确。

另外，本发明人还采用数据集(ActivityNet Captions ae-test split)，提出三个模块的消融实验(消融实验就是控制变量作用法，即只有一个待测试的模块变化其他条件保持不变以验证这个模块起到的作用)结果表如下所示：

其中，本发明GPT-2的参数是在预训练参数基础上进行微调的，消融实验中删除字幕生成模块中的GPT-2参数，是指随机初始化GPT-2参数，不借助通用的预训练参数进行训练。

最后，根据以上结果，说明在ActivityNet Captions的真实数据集上，本发明含有的三个主要模块分别被删除后，进行测试的结果与未删除的模型相比，性能都有所下降，这证明三个模块都是独立有效的。

需要说明的是，虽然上文按照特定顺序描述了各个步骤，但是并不意味着必须按照上述特定顺序来执行各个步骤，实际上，这些步骤中的一些可以并发执行，甚至改变顺序，只要能够实现所需要的功能即可。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以包括但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于生成视频描述文本的系统，其特征在于，包括：

视觉编码模块，用于对待处理的视频进行全局编码，得到全局视频特征，并利用所述待处理的视频的视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征；

字幕生成模块，用于对所述每个视频帧的视觉模态表征进行嵌入处理，得到文本模态表征，并基于文本模态表征生成描述文本。

2.根据权利要求1所述的系统，其特征在于，所述视觉编码模块包括：

视觉嵌入单元，用于提取具有所述视频分段信息的视频的特征，得到具有视频分段信息的嵌入表征；

局部片段编码单元，用于基于所述视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到局部片段特征，所述局部片段特征包括所述视频片段中每个视频帧对应的帧特征；以及

池化单元，用于对所述局部片段特征进行池化处理，得到各视频片段中每个视频帧的视觉模态表征。

3.根据权利要求1所述的系统，其特征在于，所述字幕生成模块包括预训练语言解码器，用于将按序输入的每个视频帧的视频模态表征依次与相应的文本起始字符拼接后进行嵌入处理得到文本模态表征，并根据文本模态表征预测当前输入视频帧对应的单词，根据视频片段的所有单词得到视频片段对应的描述文本。

4.根据权利要求3所述的系统，其特征在于，所述视频的首个视频片段的首个视频帧的视觉模态表征对应的文本起始字符中的向量值设为预定值，视频后续的所有视频帧的视觉模态表征对应的文本起始字符设为从在先预测得到的所有单词对应的文本模态表征中提取语义信息所得的词向量。

5.根据权利要求1或4所述的系统，其特征在于，所述系统还包括跨模态信息流对齐模块，所述跨模态信息流对齐模块用于训练时指导从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，其中，所述视觉编码模块、字幕生成模块以及跨模态信息流对齐模块是按照以下方式训练获得的：

获得训练集，其中，包括多个视频样本和每个视频样本对应的文本标签，其中，每个视频根据视频分段信息分割为多个视频片段，每个视频片段对应一个事件，所述文本标签包括所有事件对应的描述文本标签；

利用训练集训练视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，根据生成的描述文本和对应的描述文本标签计算第一子损失，并且训练跨模态信息流对齐模块将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，根据对齐结果获得第二子损失；

根据对第一子损失和第二子损失进行加权求和获得的总损失更新视觉编码模块、字幕生成模块以及跨模态信息流对齐模块的参数。

6.根据权利要求5所述的系统，其特征在于，所述跨模态信息流对齐模块包括视觉流编码器、文本流编码器和对齐单元，所述将从视觉编码模块获得的视觉模态表征和从字幕生成模块生成的描述文本进行跨模态信息流对齐，得到表示对齐误差的第二子损失的步骤包括：

通过文本流编码器对连续输入的生成的描述文本进行编码，得到事件对应的文本特征信息流总量；

通过对齐单元，计算相邻两个事件对应的视觉特征信息流总量间的视觉特征变化，得到视觉特征变化流；计算相邻两个事件对应的文本特征信息流总量间的文本特征变化，获得文本特征变化流；以及根据视觉特征变化流和文本特征变化流之间的绝对误差计算第二子损失。

7.根据权利要求6所述的系统，其特征在于，所述视觉编码模块和字幕生成模块学习生成各个视频片段的描述文本，包括：

8.一种基于权利要求1至7任一项的系统用于生成视频描述文本的方法，其特征在于，所述方法包括：

S1、利用视觉编码模块，对待处理的视频进行全局编码，得到全局视频特征，并利用视频分段信息和全局视频特征对相应的视频片段进行局部编码，得到各个视频片段中每个视频帧的视觉模态表征，

9.一种计算机可读存储介质，其特征在于，其上包含有计算机程序，所述计算机程序可被处理器执行以实现权利要求8所述方法的步骤。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

存储器，其中存储器用于存储一个或多个可执行指令；

所述一个或多个处理器被配置为经由执行所述一个或多个可执行指令以实现权利要求8所述方法的步骤。