CN116310984B

CN116310984B - 基于Token采样的多模态视频字幕生成方法

Info

Publication number: CN116310984B
Application number: CN202310263781.2A
Authority: CN
Inventors: 张宝斌; 高兴宇; 卫建泽; 潘博诚
Original assignee: Institute of Microelectronics of CAS
Current assignee: Institute of Microelectronics of CAS
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2024-01-30
Anticipated expiration: 2043-03-13
Also published as: CN116310984A

Abstract

本发明涉及一种基于Token采样的多模态视频字幕生成方法，属于人工智能技术领域，解决了现有技术中延迟过高，计算速率慢的问题。具体包括：对视频中各帧图像进行CNN卷积处理得到处理后的各图像；获取各图像的多个一维图片向量，将每个一维图片向量作为一个Token；将所有Token输入到Transformer中，利用Transformer中的多个Encoder块对Token提取高级语义特征，在特征提取过程中对Token进行剪枝；将最后一个Encoder块输出的特征输入至Transformer中的Decode中进行解码，得到视频中各帧图像对应的文本信息。实现了降低计算开销的目的。

Description

基于Token采样的多模态视频字幕生成方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于Token采样的多模态视频字幕生成方法。

背景技术

深度学习最近在解决特定的人工智能问题上取得了巨大的成功，比如在计算机视觉(CV)和自然语言处理(NLP)领域。作为视觉和语言两个维度之间的联系，视频字幕生成是生成描述视频视觉内容的自然语言语句(通常是一个句子)的任务。该任务可以分解为两个子任务，一个是通过透彻的理解对视频进行编码并学习更好的视觉表示，另一个是视频描述生成，它可以将学习到的表示逐字解码为顺序的句子。视觉感知和语言表达是人类智能的两个关键表现，而视频字幕生成则是从人类智能融合视觉和语言的典型范例。视频字幕生成的目的是用自然语言自动描述视频的视觉内容。自动字幕生成的实际应用包括视频检索和做索引，以及通过将视觉信号转化为文本信息，然后通过文字语音转化技术来帮助有视觉障碍的人群。

在深度学习盛行之前，视频字幕就已经受到了广泛的研究关注。在早期阶段，视频字幕生成方法首先基于人工设定好的特征检测视频中的视觉信息，然后通过预设好的模板生成句子。这些方法都高度依赖于模板，生成的句子也是始终是固定的句法结构。而当前基于深度学习的视频字幕生成方法通常以编码器-解码器的结构执行seq2seq的学习。在两者之间，利用使用了强大的深度神经网络的编码器来学习视频的编码表示，生成句子的解码器用于将学习到的视频编码表示转换为结构更灵活的句子。

视频编码表示的学习是视频理解的基础，并且通常涉及特征提取和聚合。最终目标是从多种模态中提取特征，然后在空间和时间上对它们进行聚合以生成紧凑的表示。2D和3D卷积神经网络(CNN)的最新进展已成功地改善了从视觉、音频和运动信息中学习表示的技术。尽管如此，很多问题，特别是对于视频字幕生成中的特征聚合仍然是一个棘手的挑战。为了探索视频字幕生成中的特征聚合问题，一些工作已经研究了多种不同角度出发的技术，例如空间、时间和模态方面的技术。

句子生成的解码器与NLP领域中的序列生成任务(例如文本摘要和机器翻译)具有相同的学习目标和评估指标。由于递归特性，在视频字幕生成任务中的解码器也存在挑战，例如曝光偏差和目标错误匹配。尽管有人在NLP领域提出了一些方法来解决这些问题，但视频内容的复杂性和字幕语料库相对较小，直接将这些解决方案应用于视频字幕很困难。此外，考虑到现实生活中的视频通常很长，如何总结视频中所有重要的内容仍然是一个值得挑战的问题。

Transformer(基于自注意力的编码-解码器网络)是由谷歌于2017年提出的具有里程碑意义的模型，同时也是语言AI革命的关键技术。

在此之前的SOTA模型都是以循环神经网络为基础(RNN,LSTM等)。从本质上来讲，RNN是以串行的方式来处理数据，对应到NLP任务上，即按照句中词语的先后顺序，每一个时间步处理一个词语。

相较于这种串行模式，Transformer的巨大创新便在于并行化的语言处理：文本中的所有词语都可以在同一时间进行分析，而不是按照序列先后顺序。为了支持这种并行化的处理方式，Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系，且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系，来决定应该对哪些词或短语赋予更多的注意力。

2020年之前的各种基于Transformer的模型基本只是与NLP任务有关。然而，最近一些文章已经将Transformer模型跨领域地引用到了计算机视觉任务中，并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代，甚至可能完全取代传统的卷积操作。这一方面取决于算力的不断膨胀，另一方面也因为Transformer在处理全局任务上有着天然的优势，能够更好的关注全局信息。但是算力的提升不是无成本的，尤其是在处理视频任务时，过大的计算量往往使得实际应用中的延迟过高，这就需要一种有效的方法在保证精度的同时减少计算过程中的开销。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于Token采样的多模态视频字幕生成方法，用以解决现有延迟过高，计算速率慢的问题。

一方面，本发明实施例提供了一种基于Token采样的多模态视频字幕生成方法，具体包括：

对视频中各帧图像进行CNN卷积处理得到处理后的各图像；

获取各图像的多个一维图片向量，将每个一维图片向量作为一个Token；

将所有Token输入到Transformer中，利用Transformer中的多个Encoder块对Token提取高级语义特征，在特征提取过程中对Token进行剪枝；

将最后一个Encoder块输出的特征输入至Transformer中的Decode中进行解码，得到视频中各帧图像对应的文本信息。

可选地，获取各图像的多个一维图片向量，包括：

将每个图像分割成多个块，将每块图像的RGB三通道像素值展开为一维向量，在每个一维向量中的首位置处加入该一维向量对应的图像块的位置编码，得到该图像块的一维图片向量；

设置0号位置编码的一维图片向量，将0号位置编码的一维图片向量和上述图像的所有图像块的一维图片向量作为该图像的多个一维图片向量。

可选地，所述0号位置编码的一维图片向量中只有位置编码没有像素信息，将所述0号位置编码作为标志位。

可选地，所述在特征提取过程中对Token进行剪枝，包括：

计算Encoder块输出的所有Token之间的注意力系数矩阵；

根据注意力系数矩阵计算每个Token的显著性得分；

将各Token的显著性得分按照由低至高的顺序进行排序，并根据排序后的各Token的显著性得分得到每个Token对应的分布函数；

根据各Token的分布函数对Token进行采样。

可选地，所述根据排序后的显著性得分得到每个Token对应的分布函数，包括：

对于序列中的某个Token，该Token的分布函数即为该Token的显著性得分与位于该Token之前的所有Token的显著性得分的累加值。

可选地，所述根据各Token的分布函数对Token进行采样包括：

按照各Token的分布函数大小对各Token进行排序；

找到分布函数处于中位的Token，将该Token的分布函数作为关键阈值；

对分布函数大于关键阈值的Token，进行密集采样，对分布函数小于关键阈值的Token进行稀疏采样。

可选地，采用如下公式计算注意力系数矩阵：

其中，A是注意力系数矩阵，d是每个Token的维数，A∈R^(N+1)×(N+1)，Q、K是Transformation中的Q、K矩阵，T表示矩阵转置运算。

可选地，采用如下公式计算每个Token的显著性得分：

其中，A_1,j是指标志位的Token和第j个Token的注意力系数，j>1，A_1,i指标志位的个Token和第i个Token的注意力系数，S_j是指第j个Token的显著性分数，V_i和V_j分别指的是第i个和第j个Token对应的Value向量。

可选地，所述利用Transformer中的多个Encoder块对Token提取高级语义特征，包括：

所述多个Encoder块依次级联，前一个Encoder块的输出作为后一个Encoder块的输入，将最后一个Encoder块输出的特征作为最终提取的高级语义特征。

可选地，所述在特征提取过程中对Token进行剪枝是对前一个Encoder块输出的Token进行剪枝，并将剪枝后的Token作为下一个Encoder的输入。

另一方面，与现有技术相比，本发明至少可实现如下有益效果之一：

1、本发明采用基于Token采样的多模态视频字幕生成方法，经过在TransformerEncoder中对Token采样进行剪枝，可以在确保任务精确度的情况下，大大减小计算所需要的开销。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例中一种基于Token采样的多模态视频字幕生成方法流程图；

图2为本发明实施例中采样方法流程图；

图3为本发明实施例中应用Token采样方法的视频文本生成网络结构图；

图4为现有技术中将图像展开为一维向量的原理示意图；

图5为矩阵运算原理示意图；

图6为注意力系数矩阵结构图；

图7为显著性得分的原理示意图；

图8为Transformer运算流程图；

图9为本发明实施例中显著性得分与分布函数示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于Token采样的多模态视频字幕生成方法，如图1所示。

与现有技术相比，本实施例提供的基于Token采样的多模态视频字幕生成方法，具体包括：

对视频中各帧图像进行CNN卷积处理得到处理后的各图像；

具体地，在获取各图像的多个一维图片向量时，将每个图像分割成多个块，将每块图像的RGB三通道像素值展开为一维向量，在每个一维向量中的首位置处加入该一维向量对应的图像块的位置编码，得到该图像块的一维图片向量；

设置0号位置编码的一维图片向量，将0号位置编码的一维图片向量和上述图像的所有图像块的一维图片向量作为该图像的多个一维图片向量。并将0号位置编码作为标志位，所述0号位置编码的一维图片向量中只有位置编码没有像素信息。

在特征提取过程中对Token进行剪枝，包括：计算Encoder块输出的所有Token之间的注意力系数矩阵；根据注意力系数矩阵计算每个Token的显著性得分；将各Token的显著性得分按照由低至高的顺序进行排序，并根据排序后的各Token的显著性得分得到每个Token对应的分布函数；根据各Token的分布函数对Token进行采样。如图2所示。

在Transformer中的各Encoder块运算过程中，都会对Token计算一次自注意力，对于每次得到的自注意力矩阵，我们认为第一行最能够体现每个Token对该层输出的影响力大小，这是因为第一行是计算了CLS(标志)位的Token与每个Token之间的注意力系数，而注意力系数正是在Transformer结构中衡量Token重要性的一个指标。

对于得到的注意力矩阵，我们接下来会将它与其对应的V矩阵进行相乘，并计算每一个Token在所有注意力与Value乘积中的占比，得到显著性分数。这是因为如果只看注意力系数来对Token进行采样的话，会因为每个Transformer块之后的Softmax层忽略掉Token本身的重要程度，这一部分会在具体实施方式中更具体的阐述。

根据排序后的显著性得分得到每个Token对应的分布函数，包括：对于序列中的某个Token，该Token的分布函数即为该Token的显著性得分与位于该Token之前的所有Token的显著性得分的累加值。得到的累加值为对应分布函数的大小，按照各Token的分布函数大小对各Token进行排序；找到分布函数处于中位的Token，将该Token的分布函数作为关键阈值；对分布函数大于关键阈值的Token，进行密集采样，对分布函数小于关键阈值的Token进行稀疏采样。

具体地，得到显著性分数之后，我们摈弃了以往的直接取N个最大值的采样方法，而是提出了一个新的分布函数，然后在分布函数之后的部分进行均匀采样。这是因为显著性分数的计算方法会将相似的特征进行分散，而单纯的根据值的大小来进行采样的话会导致所有这些特征都被舍弃掉，这并不是我们想要的，因此需要进行一次对累加值大小的排序。

实施例1

首先，在对Token采样过程中，是在整个网络模型中位于每两个TransformerEncoder块之间，将上一个Encoder块的输出作为输入，并将采样后的Token整体输出作为下一个Encoder块的输入。所述Encoder模块是由多个Encoder块组成。且多个Encoder块依次级联，前一个Encoder块的输出作为后一个Encoder块的输入，将最后一个Encoder块输出的特征作为最终提取的高级语义特征。在特征提取过程中对Token进行剪枝是对前一个Encoder块输出的Token进行剪枝，并将剪枝后的Token作为下一个Encoder的输入。如图3-4所示。

在需要进行剪枝的Encoder块中加入Token采样过程，此时根据上一个Encoder块的输出之后，首先会计算一个注意力系数，根据上一个Encoder块中计算得到的Q矩阵(Query)和K矩阵(Key)矩阵来进行计算，其计算公式如下所示：

其中，A是注意力系数矩阵，d是每个Token的维数，A∈R^(N+1)×(N+1)，Q、K是Transformation中的Q、K矩阵；T表示矩阵转置运算。如图5所示。

然后根据得到的A，计算每个Token的显著性得分，公式如下所示：

其中，A_1,j是指第1个Token(CLS位Token)和第j个Token的注意力系数，A_1,i同理，S_j是指第j个Token的显著性分数，V_i和V_j分别指的是第i个和第j个Token对应的Value向量。

在得到显著性分数之后，就可以将位于该Token之前的所有Token的显著性得分的累加值，得到分布函数，根据分布函数，采样时我们每次选择显著性分数最接近的Token作为候选Token。这样，我们每次经过采样模块之后，都会将Token数量从原来的N减少小于等于K，这是因为采样过程中可能会有不止一次采样到同一个Token。

其中，按照各Token的分布函数大小对各Token进行排序；找到分布函数处于中位的Token，将该Token的分布函数作为关键阈值；对分布函数大于关键阈值的Token，进行密集采样，对分布函数小于关键阈值的Token进行稀疏采样。

经过采样之后得到的Token作为下一个Encode块的输入，最后经过Encoder块提取到的高级语义特征后，将特征输入到Decoder部分，生成与多个连续图片对应的文本信息。

实施例2

在处理多种模态之间的信息转化的过程中，Transformer的结构可以理解成两部分，Encoder(即编码器)的作用是提取输入模态的特征；Decoder(即解码器)的作用是将提取出来的特征转化成另一种模态的表达形式。在本专利所适用的视频字幕生成任务中，视频字幕生成任务的目的是根据输入视频的内容，生成一段能够描述视频中所包含信息的文本信息，Encoder就用来提取输入视频中的信息，转变成为一种特征的表达形式，然后Decoder根据输入的特征生成相应的文本表述。

以输入图片为例(视频输入是多个图片帧的集合，所以处理视频也是把视频采样成图片来处理)，每张图片被分割成一个个的小块，然后每一个小块被展平成一维的向量，例如，一个16*16大小的具有RGB三个色彩通道的图片块，会被展平成一个一维的长度为16*16*3＝756的向量。图4的“Liner Projection of Flattened Patches”就是这个展平的过程。位置嵌入(Position)的步骤是给每个图片向量附加一个位置信息，表明这一块图片向量来源于整体的什么部分。图片中“0号位”的信息不是来自于图片的，这个位置也被称为CLS位(标志位)，这里面的信息只有位置信息，并不包含其他信息。

之后，经过分块、展平且加入位置信息的图片向量序列输入Encoder模块，如图5所示。里面的q、k、v都是输入的每一个图片向量分别与W^Q,W^K,W^V这三个矩阵做矩阵乘法得到的，这三个矩阵是通过网络训练学习得到的，每个图片向量的q、k、v分别堆叠在一起，就是Q、K、V矩阵。其中输入的图片向量就被称为Token(例如x1，x2)。经过网络训练学习得到每一层的注意力系数矩阵，如图6所示。其中的每一个小方块都代编一个注意力系数的值。得到注意力系数矩阵之后，就可以根据图7所示的计算方法得到这一层Encoder的输出，即图7中的Z₁,Z₂。多个Encoder块串联在一起，就得到了整个的Encoder部分的结构。每一层的输出都会作为下一层的输入。如图8所示。本发明通过对显著性得分以及分布函数进行排序，并基于分布函数找到中位点对应的关键阈值，对大于关键阈值的部分进行密集采样，小于关键阈值的部分稀疏采样，可以很好的控制计算量以及计算精度。如图9所示。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于Token采样的多模态视频字幕生成方法，其特征在于，具体包括：

对视频中各帧图像进行CNN卷积处理得到处理后的各图像；

将所有Token输入到Transformer中，利用Transformer中的多个Encoder块对Token提取高级语义特征，多个Encoder块依次级联，前一个Encoder块的输出作为后一个Encoder块的输入，将最后一个Encoder块输出的特征作为最终提取的高级语义特征；在特征提取过程中对Token进行剪枝是对前一个Encoder块输出的Token进行剪枝，并将剪枝后的Token作为下一个Encoder的输入；在特征提取过程中对Token进行剪枝包括：

第一步，计算Encoder块输出的所有Token之间的注意力系数矩阵；

第二步，根据注意力系数矩阵计算每个Token的显著性得分；

第三步，将各Token的显著性得分按照由低至高的顺序进行排序，并根据排序后的各Token的显著性得分得到每个Token对应的分布函数；

第四步，根据各Token的分布函数对Token进行采样；

2.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法，其特征在于，获取各图像的多个一维图片向量，包括：

3.根据权利要求2所述的基于Token采样的多模态视频字幕生成方法，其特征在于，所述0号位置编码的一维图片向量中只有位置编码没有像素信息，将所述0号位置编码作为标志位。

4.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法，其特征在于，所述根据排序后的显著性得分得到每个Token对应的分布函数，包括：

5.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法，其特征在于，所述根据各Token的分布函数对Token进行采样包括：

按照各Token的分布函数大小对各Token进行排序；

6.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法，其特征在于，采用如下公式计算注意力系数矩阵：

其中，A是注意力系数矩阵，d是每个Token的维数，A∈R^(N+1)×(N+1)，Q、K是Transformation中的Q、K矩阵；T表示矩阵转置运算。

7.根据权利要求1所述的基于Token采样的多模态视频字幕生成方法，其特征在于，采用如下公式计算每个Token的显著性得分：