CN116109978A

CN116109978A - 基于自约束动态文本特征的无监督视频描述方法

Info

Publication number: CN116109978A
Application number: CN202310110784.2A
Authority: CN
Inventors: 王涛; 李平; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-02-09
Filing date: 2023-02-09
Publication date: 2023-05-12

Abstract

本发明公开了基于自约束动态文本特征的无监督视频描述方法。本发明方法首先对视频均匀采样提取其视频外观和运动特征向量、目标特征向量和目标类别标记，获取随机描述语句的独热编码向量，将其和视频特征向量一起输入描述语句生成模块中；获取生成语句特征矩阵并将其输入伪标记生成模块中获取伪文本特征矩阵；将伪文本特征矩阵替换随机描述语句特征矩阵，重新输入描述语句生成模块中获取最终生成语句特征矩阵；最后通过贪心搜索算法生成对应描述语句。本发明方法无需人工标记，通过约束激活单元实现视觉信息和语言知识的匹配而缩小语义差异，并利用文本特征动态优化方式生成伪标记，有利于获得更流畅准确描述视频内容的自然语句。

Description

基于自约束动态文本特征的无监督视频描述方法

技术领域

本发明属于计算机视觉技术领域，尤其是视觉理解与分析领域，涉及一种基于自约束动态文本特征的无监督视频描述方法。

背景技术

在5G时代，视频作为最能还原真实世界的内容载体，已成为互联网中主要内容表现形式。如何准确理解视频内容已成为视频标题生成、视频检索、视障辅助、人机交互等实际应用领域的迫切挑战，如何用自然语言描述视频内容已成为计算机视觉语义理解的重要研究方向。在日常生活中，视障人群由于视觉通道的缺失或不完整，外界的多媒体信息难以有效传达到大脑，使得该群体的环境感知能力较弱。例如，无法像视力正常人群实现影视内容的画面语音文字的同步理解；针对视障人群可以利用视频描述技术，将视频内容变为文字描述，再利用语音转换技术将文字转换为语音播报，帮助视障人群通过声音理解影视画面内容，从而可满足该人群的日常需求。

视频描述任务旨在对给定的视频提取特征,并将其转换为一句或一段符合正确语法的自然语句。相对图像描述任务只需捕捉静态信息，视频描述任务需要对视频数据中多样、复杂的时空特征与语义特征进行分析、处理与重新表达,因而更具挑战性。

目前，主流的视频描述方法采用编码器-解码器(Encoder-decoder)框架。其中，编码器一般采用残差网络(ResNet，Residual Network)和卷积三维神经网络(C3D，Convolutional 3D Neural Network)分别获取视频的外观特征和运动特征；解码器一般采用长短时记忆网络(LSTM，Long-Short Time Memory)用于解码视频特征生成对应的描述语句。当前视频描述方法依赖于人工手动文本标记，该文本标记与视频之间为成对关系，利用全监督方式训练模型。为了减少文本标记依赖，有必要探讨无监督视频描述模型。近年来，大型预训练语言模型发展较快，包含大量的语言知识，如语法逻辑、词性信息和时态信息等，能显著提高生成语句的语义连贯性和准确性，可用于帮助无监督模型生成准确反映视频内容的自然语句。此外，在自然语言处理领，无监督语句生成任务一般采用强化学习方式，通过设计某种学习策略，使得模型在与环境交互过程中的回报最大化。

上述方法主要存在以下不足：(1)现有的视频描述模型依赖于大量的视频-文本描述对，但文本描述需要人工标记，导致人工成本较高，甚至会产生标记错误,极大限制了视频描述模型在实际场景中的应用范围；(2)在视频描述领域，利用大型预训练语言模型时，由于预训练的语言模型并不是为视觉任务设计，因此该预训练模型与视频描述任务存在不匹配问题，将导致生成语句语义错误，如生成与视频内容无关单词；(3)在自然语言处理领域，无监督生成任务利用强化学习微调大型预训练语言模型，将带来高昂的计算开销，难以满足数据量庞大的实际任务。基于以上考虑，迫切需要一种既能平衡视觉信息和语言知识，又能自动生成监督文本的无监督视频描述方法。

发明内容

本发明的目的就是针对现有技术的不足，提出了一种基于自约束动态文本特征的无监督视频描述方法，设计约束激活单元，平衡视觉输入和语言知识，解决预训练语言模型与视频描述任务不匹配问题；利用文本特征动态优化方法，生成伪标记，解决无监督任务缺乏监督信息问题，最终生成自然流畅的视频描述语句。

本发明方法获取视频数据集合后，依次进行如下操作：

步骤(1)对视频均匀采样得到帧序列，利用二维和三维卷积网络分别获取外观特征和运动特征向量，并通过更快速区域卷积神经网络获取目标类别标记和目标特征向量；

步骤(2)利用约束激活单元，构建描述语句生成模块，约束激活单元由视觉约束门和语言约束门组成，输入为外观特征、运动特征以及目标特征向量，输出为生成语句特征矩阵；

步骤(3)构建伪标记生成模块，输入为生成语句特征矩阵和目标类别标记，通过对生成语句特征矩阵动态更新获得伪文本特征矩阵；

步骤(4)将伪文本特征矩阵重新输入语句生成模块，作为伪标记，利用随机梯度下降算法优化描述语句生成模块和伪标记生成模块；

步骤(5)对新视频依次通过(1)～(4)得到生成语句的概率分布，利用贪心搜索算法得到相应的描述语句。

进一步，步骤(1)具体是：

(1-1)对视频均匀采样N个视频帧，获得帧序列集合三维张量x_i为第i帧图像，C′、H′、W′分别为视频帧的通道数、高度和宽度，3≤N≤10，为实数域；随机描述语句的独热(One-hot)编码向量集合为T为描述语句长度，1≤T≤20，y_t为描述语句的第t个单词在词汇表中的独热向量，n表示词汇表的单词个数，其中描述语句与视频为非对应关系，即随机一个自然语句都可作为该视频的描述语句；

(1-2)利用残差网络提取视频的外观特征向量集合表示第i帧的外观特征向量，d_a表示外观特征向量的维度大小，上、下标a表示外观(appearance)；利用卷积三维网络(C3D，Convolutional 3DNeural Network)提取视频的运动特征向量集合表示第i-1帧至第i+1帧提取的运动特征向量，d_m表示运动特征向量的维度，上、下标m表示运动(motion)；

(1-3)对于视频帧x_i，利用更快速区域卷积神经网络(Faster R-CNN，FastRegion-based Convolutional Neural Network)进行目标检测，获取第i帧的目标特征向量集合和整个视频中包含的目标类别标记o_i,j表示第i帧的第j个目标的特征向量，Q表示设定的视频帧目标数量，1≤Q≤5，d_o表示目标特征向量的维度大小,下标o表示目标(objective)，c_k表示第k个目标的类别标记向量，K为设定的目标类别数量，K≥1，d_c表示目标类别的维度大小，下标c表示类别(class)；

(1-4)对每个视频帧对应的目标特征向量进行最大池化操作，得到视频的池化目标特征向量集合其中Maxpool(·)表示在空间维度上进行最大池化操作，将外观特征向量运动特征向量和池化后的目标特征向量依次进行拼接，得到视频特征向量集合其中v_i表示为第i帧的视频特征向量，视频特征向量维度d_v＝d_a+d_m+d_o，下标v表示视频(video)。

再进一步，步骤(2)具体是：

(2-1)构造描述语句生成模块：描述语句生成模块由第二代生成式预训练转换器GPT-2(Generative Pre-training Transformer-2)和约束激活单元组成，其中GPT-2由L层转换器(Transformer)组成，L≥1，GPT-2为单向语言预训练模型，用于生成式任务，GPT-2已在大规模数据集上进行预训练，模型初始参数为预训练结果；约束激活单元由视觉约束门和语言约束门组成，用于平衡视觉信息和语言知识；

(2-2)将视频特征向量v_i和随机描述语句的独热编码向量y_t，通过全连接层映射到同一维度大小d，得到映射后的视频特征矩阵和随机描述语句特征矩阵[·]^T表示数学转置，矩阵的第i行矩阵的第t行和为可学习参数矩阵，下标y表示语句；

(2-3)计算视频特征的位置编码矩阵Postion(·)为计算位置编码函数，具体操作为表示矩阵PE^v第i行第ω列的值，mod表示取余数运算；同理得到语句位置编码矩阵将视频位置编码矩阵PE^v中的第i行和视频特征向量集合中第i个向量相加，语句位置编码矩阵PE^y中的第t行和随机描述语句特征向量集合中第t个向量相加，得到加入位置编码的视频特征矩阵和随机描述语句特征矩阵矩阵的第i行矩阵的第t行表示逐元素相加；

(2-4)将加入位置编码的视频特征矩阵和随机描述语句特征矩阵输入单向语言预训练模型GPT-2中第一层转换器的注意力子模块中，第二层开始将上一层转换器的输出矩阵替代位置编码的视频特征矩阵与随机描述语句特征矩阵输入单向语言预训练模型GPT-2中本层转换器的注意力子模块；注意力子模块由多头注意力层和线性层组成，计算各转换器的中间状态矩阵LayerNorm(·)表示层标准化操作，MultiHead(·)表示多头注意力操作；

Concat(·)表示通道拼接操作，为第l层对应的可学习参数矩阵，为第h个头注意力向量，h＝1,2,…,H，H表示注意力头的总数，H≥1，Attention(·)表示注意力操作，其中均为第l层和第h个头对应的可学习参数矩阵；

(2-5)将中间状态矩阵输入约束激活单元得到视觉-语言输出矩阵约束激活单元由视觉约束门和语言约束门组成，表示逐元素相乘；

首先获取视觉约束门矩阵和语言约束门矩阵上标vis表示视觉(vision)，上标lan表示语言(language)；矩阵B^vis的第t行第ω列的值矩阵B^lan的第t行第ω列的值σ(·)表示Sigmoid激活函数，阈值0＜τ＜1，ζ(·)表示判别函数，如果函数内语句满足条件，则返回1，否则返回0；

然后对视觉约束门矩阵B^vis进行标准化操作，得到标准化后的视觉约束门矩阵矩阵的第t行第ω列的值对语言约束门矩阵B^lan进行标准化操作，得到标准化后的语言约束门矩阵矩阵的第t行第ω列的值

(2-6)将视觉-语言输出矩阵输入由两个全连接层组成的前馈网络层，得到GPT-2中转换器的输出矩阵其中FFN(·)表示前馈操作，max(·)表示取最大值，为可学习参数矩阵和向量；

(2-7)所有层转换器处理完后，得到最后的输出矩阵通过该输出矩阵获取生成语句特征矩阵Y′＝H^LW′，其中为可学习参数矩阵。

更进一步，步骤(3)具体是：

(3-1)伪标记生成模块由鲁棒优化的BERT预训练模型RoBERTa(A RobustlyOptimized BERT Pretraining Approach，BERT为双向编码表征转化器(BidirectionalEncoder Representation from Transformers))、目标属性判断子模块、文本片段选择子模块、文本片段优化子模块组成；RoBERTa由M层转换器组成，M≥1，RoBERTa为双向语言预训练模型，用于文本单词预测和修改，同时RoBERTa已在大规模数据集上进行预训练，模型初始参数为预训练结果；目标类别判断子模块由多个线性层组成，用于判断之前得到的生成语句中是否包含检测得到的目标类别标记；文本片段选择子模块由多个线性层组成，用于动态选择生成语句中需要修改的文本片段；文本片段优化子模块由多个线性层组成，用于动态优化由文本片段选择子模块得到的文本片段；

(3-2)将一个全零向量拼接到生成语句特征矩阵Y′的第一行，得到一个带有目标类别属性的生成语句特征矩阵

(3-3)将带有目标类别属性的生成语句特征矩阵输入双向语言预训练模型的第一层转化器的注意力子模块中，第二层开始将上一层转换器的输出矩阵替代生成语句特征矩阵作为输入；注意力子模块由多头注意力层、线性层和前馈网络层组成，得到转换器的输出矩阵

为第m层的中间状态矩阵，为可学习参数矩阵和向量；

(3-4)所有层转换器处理完后，得到最后的输出矩阵将每一层输出矩阵的第一行取出组成目标预测类别特征向量集合其中表示第m层的输出矩阵的第一行向量；

(3-5)将目标预测类别特征向量集合输入目标类别判断子模块中，得到目标预测类别概率向量集合第k个目标预测类别概率其中softmax(·)为归一化指数函数，表示第k层的输出矩阵的第一行向量，为可学习参数矩阵；

(3-6)将查询集的目标属性概率a_k和真实目标类别标记向量c_k，通过交叉熵损失函数计算目标类别损失

(3-7)利用随机梯度下降法更新双向语言预训练模型，获取每层的反向传播梯度矩阵集合表示第m层的梯度矩阵；

(3-8)将第一层的反向传播梯度矩阵输入文本片段选择子模块中，将的第一行去除，再对通道维度进行二范数计算，得到每个单词对应的目标属性得分集合第t个单词|·||₂表示l₂-norm计算，为第一层的梯度矩阵的第t行；确定选取片段长度为υ，υ≥1，计算片段得分，从第t～t+υ个单词得分相加后的片段得分选出最低的片段得分表示得分最低片段的第一个单词所在位置；

(3-9)通过最低片段得分选取第一个单词所在位置将生成语句特征矩阵Y′的第行替换为全一向量，得到替换后的生成语句特征矩阵再将该矩阵输入双向语言预训练模型中，操作与(3-3)和(3-4)相同，最终得到第K层转换器的替换后生成语句对应的输出矩阵

(3-10)选取替换后对应的输出矩阵的第行，得到部分输出矩阵将输入文本片段优化子模块中，获取动态优化后的文本片段特征矩阵其中为可学习参数矩阵；

(3-11)将生成语句特征矩阵Y′的第行替换为文本片段特征矩阵最终得到伪文本特征矩阵

又进一步，步骤(4)具体是：

(4-1)将伪文本特征矩阵输入描述语句生成模块中，用于替换随机描述语句特征矩阵再次执行步骤(2-3)～(2-7)，得到最终生成语句特征矩阵

(4-2)利用全连接层及softmax函数计算最终生成语句的概率矩阵其中表示第一个全连接层中可学习的参数矩阵；再计算伪标记的概率矩阵其中表示第二个全连接层中可学习的参数矩阵；

(4-3)针对最终生成语句的概率矩阵伪标记的概率矩阵计算两者的交叉熵损失其中为生成语句的概率矩阵的第t行，为伪标记的概率矩阵的第t行。

还进一步，步骤(5)具体是：

(5-1)利用随机梯度下降法通过最小化交叉熵损失函数，优化视频描述模型直至收敛，其中视频描述模型包含描述语句生成模块和伪标记生成模块模块；

(5-2)输入新视频均匀采样N个视频帧后得到同时获取新随机描述语句的独热编码向量首先依次经过步骤(1)～(4)得到新的最终生成语句的概率矩阵对该矩阵的每一行通过贪心搜索算法从词汇表中将最大概率对应索引的单词作为生成的单词y_t′，最终获得描述语句{y₁′,...,y_t′,...,y′_T′}，为第t个单词，T′为生成语句长度。

本发明提出了基于自约束动态文本特征的无监督视频描述方法，具有以下特点：(1)首次提出基于无监督的视频描述模型，无需人工标记的描述语句，只需使用随机描述语句，降低人工标记成本；(2)平衡视觉输入信息和大规模语言预训练模型中已有的语言知识，避免生成与视频内容无关单词；(3)生成伪标记，为模型提供监督信息，从而无需使用强化学习等计算开销较大的方法，降低计算成本。

本发明适用于无人工标记语句的视频描述任务，有益效果包括：(1)无需使用人工标记，大大降低了人工成本，极大增加视频描述模型在实际场景中应用的可能性；(2)利用约束激活单元，实现视觉输入信息和语言知识之间的平衡，从而缩小生成语句与视频内容之间的语义差异；(3)利用文本特征动态优化方法，实现伪标记生成，同时要求伪标记包含视频中的目标类别信息，实现伪标记内容与视频内容匹配。

附图说明

图1是本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，一种基于自约束动态文本特征的无监督视频描述方法，首先对视频进行均匀采样提取其视频外观和运动特征、目标特征和目标类别标记，同时获取随机描述语句的独热编码向量；接着将视频特征向量和随机描述语句的独热编码向量，输入描述语句生成模块中获取生成语句特征矩阵；再在将生成语句特征矩阵输入伪标记生成模块中获取伪文本特征矩阵；将伪文本特征矩阵替换随机描述语句特征矩阵，重新输入描述语句生成模块中获取最终生成语句特征矩阵；在通过贪心搜索算法生成对应描述语句。本发明中提出的方法利用约束激活单元，实现视觉输入信息和语言知识之间的平衡，从而生成符合视频内容的描述语句，再利用文本特征动态优化方式生成伪标记文本，为模型提供监督信息，有利于缩小视觉内容与文本之间的语义鸿沟。该方法在获取视频数据集合后，依次进行如下操作：

步骤(1)对视频均匀采样得到帧序列，利用二维和三维卷积网络分别获取外观特征和运动特征向量，并通过更快速区域卷积神经网络获取目标类别标记和目标特征向量；具体是：

步骤(2)利用约束激活单元，构建描述语句生成模块，约束激活单元由视觉约束门和语言约束门组成，输入为外观特征、运动特征以及目标特征向量，输出为生成语句特征矩阵；具体是：

步骤(3)构建伪标记生成模块，输入为生成语句特征矩阵和目标类别标记，通过对生成语句特征矩阵动态更新获得伪文本特征矩阵；具体是：

为第m层的中间状态矩阵，为可学习参数矩阵和向量；

(3-8)将第一层的反向传播梯度矩阵输入文本片段选择子模块中，将的第一行去除，再对通道维度进行二范数计算，得到每个单词对应的目标属性得分集合第t个单词||·||₂表示l₂-norm计算，为第一层的梯度矩阵的第t行；确定选取片段长度为υ，υ≥1，计算片段得分，从第t～t+υ个单词得分相加后的片段得分选出最低的片段得分表示得分最低片段的第一个单词所在位置；

步骤(4)将伪文本特征矩阵重新输入语句生成模块，作为伪标记，利用随机梯度下降算法优化描述语句生成模块和伪标记生成模块；具体是：

步骤(5)对新视频依次通过(1)～(4)得到生成语句的概率分布，利用贪心搜索算法得到相应的描述语句；具体是：

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于自约束动态文本特征的无监督视频描述方法，其特征在于，首先获取视频数据集合，然后进行如下操作：

2.如权利要求1所述的基于自约束动态文本特征的无监督视频描述方法，其特征在于，步骤(1)具体是：

(1-1)对视频均匀采样N个视频帧，获得帧序列集合三维张量x_i为第i帧图像，C′、H′、W′分别为视频帧的通道数、高度和宽度，3≤N≤10，为实数域；随机描述语句的独热编码向量集合为T为描述语句长度，1≤T≤20，y_t为描述语句的第t个单词在词汇表中的独热向量，n表示词汇表的单词个数，其中描述语句与视频为非对应关系，即随机一个自然语句都可作为该视频的描述语句；

(1-2)利用残差网络提取视频的外观特征向量集合表示第i帧的外观特征向量，d_a表示外观特征向量的维度大小；利用卷积三维网络提取视频的运动特征向量集合表示第i-1帧至第i+1帧提取的运动特征向量，d_m表示运动特征向量的维度；

(1-3)对于视频帧x_i，利用更快速区域卷积神经网络进行目标检测，获取第i帧的目标特征向量集合和整个视频中包含的目标类别标记o_i,j表示第i帧的第j个目标的特征向量，Q表示设定的视频帧目标数量，1≤Q≤5，d_o表示目标特征向量的维度大小，c_k表示第k个目标的类别标记向量，K为设定的目标类别数量，K≥1，d_c表示目标类别的维度大小；

(1-4)对每个视频帧对应的目标特征向量进行最大池化操作，得到视频的池化目标特征向量集合其中Maxpool(·)表示在空间维度上进行最大池化操作，将外观特征向量运动特征向量和池化后的目标特征向量依次进行拼接，得到视频特征向量集合其中v_i表示为第i帧的视频特征向量，视频特征向量维度d_v＝d_a+d_m+d_o。

3.如权利要求2所述的基于自约束动态文本特征的无监督视频描述方法，其特征在于，步骤(2)具体是：

(2-1)构造描述语句生成模块：描述语句生成模块由第二代生成式预训练转换器GPT-2和约束激活单元组成，其中GPT-2由L层转换器组成，L≥1，GPT-2为单向语言预训练模型，用于生成式任务，GPT-2已在大规模数据集上进行预训练，模型初始参数为预训练结果；约束激活单元由视觉约束门和语言约束门组成，用于平衡视觉信息和语言知识；

(2-2)将视频特征向量v_i和随机描述语句的独热编码向量y_t，通过全连接层映射到同一维度大小d，得到映射后的视频特征矩阵和随机描述语句特征矩阵[·]^T表示数学转置，矩阵的第i行矩阵的第t行和为可学习参数矩阵；

(2-3)计算视频特征的位置编码矩阵Postion(·)为计算位置编码函数，具体操作为1≤ω≤d，表示矩阵PE^v第i行第ω列的值，mod表示取余数运算；同理得到语句位置编码矩阵将视频位置编码矩阵PE^v中的第i行和视频特征向量集合中第i个向量相加，语句位置编码矩阵PE^y中的第t行和随机描述语句特征向量集合中第t个向量相加，得到加入位置编码的视频特征矩阵和随机描述语句特征矩阵矩阵的第i行矩阵的第t行表示逐元素相加；

(2-4)将加入位置编码的视频特征矩阵和随机描述语句特征矩阵输入单向语言预训练模型GPT-2中第一层转换器的注意力子模块中，第二层开始将上一层转换器的输出矩阵替代位置编码的视频特征矩阵与随机描述语句特征矩阵输入单向语言预训练模型GPT-2中本层转换器的注意力子模块；注意力子模块由多头注意力层和线性层组成，计算各转换器的中间状态矩阵LayerNorm(·)表示层标准化操作，MultiHead(·)表示多头注意力操作；Concat(·)表示通道拼接操作，为第l层对应的可学习参数矩阵，为第h个头注意力向量，h＝1,2,…,H，H表示注意力头的总数，H≥1，Attention(·)表示注意力操作，其中均为第l层和第h个头对应的可学习参数矩阵；

首先获取视觉约束门矩阵和语言约束门矩阵矩阵B^vis的第t行第ω列的值矩阵B^lan的第t行第ω列的值σ(·)表示Sigmoid激活函数，阈值0＜τ＜1，ζ(·)表示判别函数，如果函数内语句满足条件，则返回1，否则返回0；然后对视觉约束门矩阵B^vis进行标准化操作，得到标准化后的视觉约束门矩阵矩阵的第t行第ω列的值对语言约束门矩阵B^lan进行标准化操作，得到标准化后的语言约束门矩阵矩阵的第t行第ω列的值

(2-7)所有层转换器处理完后，得到最后的输出矩阵通过该输出矩阵获取生成语句特征矩阵Y＝H^LW，其中为可学习参数矩阵。

4.如权利要求3所述的基于自约束动态文本特征的无监督视频描述方法，其特征在于，步骤(3)具体是：

(3-1)伪标记生成模块由鲁棒优化的BERT预训练模型RoBERTa、目标属性判断子模块、文本片段选择子模块、文本片段优化子模块组成；RoBERTa由M层转换器组成，M≥1，RoBERTa为双向语言预训练模型，用于文本单词预测和修改，同时RoBERTa已在大规模数据集上进行预训练，模型初始参数为预训练结果；目标类别判断子模块由多个线性层组成，用于判断之前得到的生成语句中是否包含检测得到的目标类别标记；文本片段选择子模块由多个线性层组成，用于动态选择生成语句中需要修改的文本片段；文本片段优化子模块由多个线性层组成，用于动态优化由文本片段选择子模块得到的文本片段；

为第m层的中间状态矩阵，为可学习参数矩阵和向量；

5.如权利要求4所述的基于自约束动态文本特征的无监督视频描述方法，其特征在于，步骤(4)具体是：

6.如权利要求5所述的基于自约束动态文本特征的无监督视频描述方法，其特征在于，步骤(5)具体是：