CN114743143A

CN114743143A - 一种基于多概念知识挖掘的视频描述生成方法及存储介质

Info

Publication number: CN114743143A
Application number: CN202210375021.6A
Authority: CN
Inventors: 王瀚漓; 张沁宇
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-12

Abstract

本发明涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质，所述方法包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征；所述视频描述生成模型训练时，从训练样本中进行视频‑文本知识、视频‑视频知识和文本‑文本知识的挖掘，优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。与现有技术相比，本发明具有主题相关度强、语义丰富度高、训练速度快等优点。

Description

一种基于多概念知识挖掘的视频描述生成方法及存储介质

技术领域

本发明涉及视频描述生成领域，尤其是涉及一种基于多概念知识挖掘的视频描述生成方法及存储介质。

背景技术

随着视频在网络上的占有量越来越大，新的市场和应用前景逐渐被开辟，使用计算机自动对视频数据进行理解分析并处理成为了目前需要解决的技术需求。视频描述生成作为视频理解的关键任务之一，旨在用自然语言的形式描述一段视频中发生的事情。该任务在婴幼儿早期教育、视障人士辅助设备开发和人机交互等领域具备广阔的应用前景。由于同时涉及计算机视觉和自然语言处理两个领域，对具有时序性的视频信息建模和自然语言描述语句生成存在一定的技术难度，相比于单领域或者静态的图像视觉任务的成果，视频描述生成任务依然存在一定的发展空间。

由于单模态的信息无法充分表征视频中的信息，基于多模态信息的视频描述生成方法是目前的主流方法，如CN113806587A公开的一种多模态特征融合的视频描述文本生成方法。现有许多方法主要通过优化视频特征和文本序列的处理或是添加额外的模态信息来获得先验知识以辅助模型生成描述语句，然而此类方法提取的先验知识仅侧重于视频内容中的单个组成元素，如主体或行为，无法覆盖视频中的全部内容。因此，研究如何充分利用多模态的信息并从中挖掘出更多更准确的知识以引导模型生成语法更准确、语义更丰富的视频描述语句，对于提高视频描述生成任务的性能具有重大的意义。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种主题相关度强、语义丰富度高、训练速度快的基于多概念知识挖掘的视频描述生成方法及存储介质。

本发明的目的可以通过以下技术方案来实现：

一种基于多概念知识挖掘的视频描述生成方法，包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征；

所述视频描述生成模型训练时，从训练样本中进行视频-文本知识、视频-视频知识和文本-文本知识的挖掘，优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。

进一步地，所述语义标签包括图像分类预测标签、行为识别预测标签、目标检测预测标签以及各标签对应的概率值。

进一步地，所述视觉特征和语义标签的提取以及所述视频-文本知识的挖掘基于外部的预训练模型实现，所述视频-视频知识和文本-文本知识的挖掘基于目标数据集语料库训练实现。

进一步地，所述视频-视频知识和文本-文本知识的挖掘具体为：

将训练样本中的2D特征和3D特征分别通过一个独立的编码器，输出2D特征编码和3D特征编码并进行拼接，进行视频描述生成任务的预训练，训练完成后，提取每个编码器中多头注意力层的参数和词嵌入层的参数；

基于词嵌入层的参数进行计算得到目标数据集语料库中各单词之间的局部语义相似度；

使用训练样本中的2D特征和3D特征进行视频多标签分类任务的预训练，训练过程中的损失函数基于所述局部语义相似度构建。

进一步地，所述损失函数表示为：

y_k,i；j+1＝y_k,i；j+T(sim_local(k,j),0.5)-y_k,i；j×T(sim_local(k,j),0.5)

T(x,t)＝x×sgn(max(x-t),0)

其中，p表示每个单词在该位置上出现的概率，p_m＝max(p-m,0)，m是一个控制负例贡献的超参数，γ⁺和γ^-分别是控制正例和负例权重的超参数，y_k,i；j+1代表第i个视频在对视频所属的第j+1个标签进行处理时字典中第k个标签的目标值，sim_local(k,j)表示局部语义相似度。

进一步地，对所述语义标签进行优化具体为：

基于大型词向量模型对所有语义标签所属数据集语料库中的各单词之间进行全局语义相似度的计算，并基于词嵌入层的参数计算得到目标数据集语料库中各单词之间的局部语义相似度，建立双重单词映射，获取每个语义标签的映射值，基于该映射值计算主题相关度，以设定数值选取主题相关度高的语义标签作为先验语义标签。

进一步地，所述大型词向量模型为GloVe模型。

进一步地，所述全局语义相似度和局部语义相似度采用的计算公式均为：

其中，

和

分别代表两个单词基于词嵌入层参数的词向量表示，α和β是控制语义相似度分布的超参数，在计算全局语义相似度和局部语义相似度取不同的数值。

进一步地，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入具体为：

将2D特征和3D特征分别通过一个独立的编码器得到2D特征编码和3D特征编码，将先验语义标签序列通过词嵌入层得到语义特征编码，将2D特征编码、3D特征编码和语义特征编码进行拼接送入解码器中进行预测。

本发明还提供一种计算机可读存储介质，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如上所述基于多概念知识挖掘的视频描述生成方法的指令。

与现有技术相比，本发明具有以下有益效果：

一、生成质量高：本发明模拟人类理解视频的模式，基于帧级信息(2D特征)和帧间信息(3D特征)应用不同任务挖掘出多概念的先验知识和丰富的语义标签，包括视频-视频知识、视频-文本知识、文本-文本知识的多概念知识等的挖掘；同时，本发明利用知识之间的强协同性，对语义标签进行了进一步的优化，使其更加匹配所属视频。本发明强壮的先验多概念知识能够有效提高模型生成描述语句的质量。

二、泛化能力强：本发明应用多种预训练和非预训练模型对训练样本进行知识挖掘，并基于大型词向量模型和预训练的词嵌入层对知识进行了优化，有效缓解了不同数据集语料库所带来的语义偏差，当应用于不同数据集时，具有更强的泛化能力。

三、训练速度快：本发明使用基于Transformer结构的网络，相比于其它基于LSTM结构的网络，本发明可以高效地并行计算，且在训练过程中具有更快的收敛速度。

附图说明

图1为本发明的整体架构示意图；

图2为本发明编码器结构示意图；

图3为本发明分类器结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供一种基于多概念知识挖掘的视频描述生成方法，包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征，所述语义标签包括图像分类预测标签、行为识别预测标签、目标检测预测标签以及各标签对应的概率值。其中，视频描述生成模型训练时，从训练样本中进行视频-文本知识、视频-视频知识和文本-文本知识的挖掘，优化视频描述生成模型中多头自注意力层的参数和词嵌入层的参数。

上述视频-视频知识和文本-文本知识的挖掘基于目标数据集语料库训练实现。由于图像分类、行为识别和目标检测是成熟的任务，有多个性能优异的预训练模型可供选择，即视觉特征和语义标签的提取以及视频-文本知识的挖掘基于外部的预训练模型实现；而视频多标签分类、视频描述生成任务并不成熟，数据集较少，且现有的成果结构不一、性能参差，不具备使用预训练模型得到想要的知识的能力，因此使用的是非预训练模型，即视频-视频知识和文本-文本知识的挖掘基于目标数据集语料库训练实现。

该方法能够实现对视频-视频知识、视频-文本知识、文本-文本知识等多知识挖掘，分别对应编码端中多头注意力层的参数、语义标签和词嵌入层的参数，有效提高模型生成描述语句的质量。

上述视频描述生成原理如图1所示。该方法涉及视频描述生成模型的训练，具体训练过程包括如下步骤：

S1、基于预训练模型进行训练样本的视觉特征提取和视频-文本知识挖掘，包括如图1中目标检测、图像分类和行为识别三小部分。

由于ResNeXt-101模型、MoViNet模型和Faster R-CNN模型分别在图像分类任务、行为识别任务和目标检测任务中表现优异，所以本实施例选用ResNeXt-101模型和MoViNet模型作为2D提取器、3D提取器和目标检测模型。给定输入视频，首先将视频频率转换为12帧/秒，等间隔采样32帧视频帧，缩放为224×224大小，由2D提取器对每一帧提取2D帧级特征和预测图像所属类别标签及概率，保留概率为0.95以上的类别标签。之后使用目标检测模型对32帧视频帧的每一帧检测帧中存在的对象及其概率，保留概率为0.5以上的类别标签。最后，将视频从头每间隔4帧采样连续的8帧，并将每一帧缩放为320×320大小，使用3D提取器对每一段8帧组成的视频帧序列提取3D帧间特征和预测视频片段所属类别标签及概率，保留概率为0.9以上的类别标签。2D帧级特征可以表征帧级空间域信息，3D帧间特征可以表征帧间时空域信息，类别标签是视频中内容的细粒度表示，概率代表其标签对应视频的置信度。

S2、基于非预训练模型的视频-视频和文本-文本知识挖掘。

所述视频-视频知识和文本-文本知识的挖掘具体为：

21)将训练样本中的2D特征和3D特征分别通过一个独立的编码器，输出2D特征编码和3D特征编码并进行拼接，进行视频描述生成任务的预训练，如图1中视频描述生成(预训练)部分所示，其编码器结构如图2所示，训练完成后，提取每个编码器中多头注意力层的参数和词嵌入层的参数。其中多头注意力层的参数代表了模型对于视觉特征处理方法的理解，词嵌入层的参数表征了模型将语料库中各单词投射至特征空间中的参数分布。

22)基于词嵌入层的参数进行计算得到目标数据集语料库中各单词之间的局部语义相似度。语义相似度采用的计算公式均为：

其中，

和

分别代表两个单词基于词嵌入层参数的词向量表示，α和β是控制语义相似度分布的超参数，在计算全局语义相似度和局部语义相似度取不同的数值。本实施例中，计算局部语义相似度时采用的α和β设置为-5和10。

23)使用训练样本中的2D特征和3D特征进行视频多标签分类任务的预训练，训练过程中的损失函数基于所述局部语义相似度构建。

视频多标签分类任务如图1中视频多标签分类部分所示，其分类器结构如图3所示。首先使用NLTK库对视频对应的描述语句进行词性分类和词性还原，将视频对应的描述语句中的名词、动词、形容词和副词作为视频的真值标签。之后将2D特征和3D特征分别通过一个独立的编码器，将输出的2D特征编码和3D特征编码进行拼接，输入分类器中进行训练。训练完成后，对测试视频预测视频中存在的语义标签。训练过程中，损失函数定义如下：

y_k,i；j+1＝y_k,i；j+T(sim_local(k,j),0.5)-y_k,i；j×T(sim_local(k,j),0.5) (3)

T(x,t)＝x×sgn(max(x-t),0) (4)

其中，p的表现形式是一个矩阵，矩阵的每一个元素表示生成的某个视频的描述语句的某个位置出现某个单词的概率，p_m＝max(p-m,0)，m是一个控制负例贡献的超参数，γ⁺和γ^-分别是控制正例和负例权重的超参数，本实施例中，m设置为0.05，γ⁺和γ^-分别设置为0和2。y_k,i；j+1代表第i个视频在对视频所属的第j+1个标签进行处理时字典中第k个标签的目标值，sim_local(k,j)表示局部语义相似度。当j＝0时，有y_k≠j,i；j＝0和y_j,i；j＝1。由此对第i个视频中的n个标签依次进行n轮迭代计算，每轮迭代时根据标签之间的语义相似度更新字典中每个单词与该视频的相关度，以此作为损失函数的目标真值。

S3、对语义标签进行优化，具体为：基于大型词向量模型对所有语义标签所属数据集语料库中的各单词之间进行全局语义相似度的计算，并基于词嵌入层的参数计算得到目标数据集语料库中各单词之间的局部语义相似度，建立双重单词映射，获取每个语义标签的映射值，基于该映射值计算主题相关度，以设定数值选取主题相关度高的语义标签作为先验语义标签。

对语义标签进行优化的具体步骤包括：

31)使用预训练GloVe模型对所有使用的数据集语料库中的单词提取词向量，应用公式(1)得到全局语义相似度，其中α和β设置为-10和20。

32)基于全局语义相似度和局部相似度建立全局单词映射和局部单词映射，由此每个标签都可以以一个值映射至目标数据集语料库汇中的每个单词，其值为该标签对应的概率值与全局语义相似度和局部语义相似度三者相乘，在此表示为

对于目标数据集字典中的每个单词w，其对应视频的主题相关度可以通过如下公式计算得到：

其中，p_j表示单词w所属任务的权重值，W_j表示对应任务语料库的字典。当得分超过1时，依照倍率将多个相同标签对应一个视频，取得分最高的10个标签作为视频对应的语义标签。当标签不足10个时，取得分最高的标签填充至10个。

通过上述训练过程获得可用的视频描述生成模型后，对一个待描述视频进行2D特征和3D特征的提取和语义标签的提取，将2D特征和3D特征分别通过一个独立的编码器得到2D特征编码和3D特征编码；基于上述语义标签优化方式获得先验语义标签序列，将先验语义标签序列通过词嵌入层得到语义特征编码；之后将2D特征编码、3D特征编码和语义特征编码进行拼接，送入解码器中进行预测，生成对应的描述结果。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。为了验证上述方法的性能，设计了以下实验。

本方法在MSVD和MSR-VTT两个基准数据集上进行了实验验证。其中，MSVD数据集包含1970个视频，平均时长9.65秒，每个视频片段对应平均41.04句描述语句，其平均长度为7.12个单词；MSR-VTT数据集包含10000个视频，平均时长14.88秒，每个视频片段对应20句描述语句，其平均长度为9.28个单词。对于两个数据集，均使用标准训练/验证/测试分支。

实验使用的评价指标包括BLEU@4，METEOR，ROUGE-L和CIDEr四种在视频描述生成领域常用的评价指标，实验结果如表1所示。

表1中，各方法所使用的特征均已列出，本方法以MCMMT表示。其中，N，IRV2，R，RX，C，I，3DRX，MVN，A，Ca和D分别代表NasNet，InceptionResNetV2，ResNet，ResNeXt，C3D，I3D，3D-ResNeXt-101，MoViNet，语音特征，MSR-VTT数据集中的类别标签和目标检测器的使用与否。B@4，M，R，C分别代表BLEU@4，METEOR，ROUGE-L和CIDEr四种评估指标。由于现有的视频描述生成方法使用了多种不同的特征组合，实验中也使用了三种特征组合以进行更公正的对比。在此令InceptionResNetV2特征和C3D特征的组合为特征组合I，ResNet101特征和3D-ResNeXt-101特征的组合为特征组合II，ResNeXt101特征和MoViNet特征的组合为特征组合III。以上三个特征组合中，特征组合I是较早的工作最常使用的特征组合，特征组合II是近期的工作中倾向于使用的特征组合，特征组合III是本方法基于任务的性能表现和所使用的数据集的多样性综合考虑所选择的特征组合。

表1本方法在MSVD和MSR-VTT数据集上与现有方法的比较结果

由表1中的数据可以得知，MCMMT方法在MSVD和MSR-VTT数据集上均取得了显著的突破，特别是在METEOR和CIDEr两个评估指标上。其中CIDEr是专门为图像/视频描述生成任务所设计的指标，其机制旨在惩罚语料库中较常出现却价值较低的单词并突出较少出现但更重要的单词，因此MCMMT在CIDEr上的巨大突破证明了其能够更有效捕捉视频中的关键信息。

对于特征组合I，MCMMT并没有表现出较优的性能，其主要原因是C3D的特征表现能力较差，其特征提取模型结构较为简单，且在仅包含体育运动的Sports1M数据集上进行预训练，而其他两个特征组合中的3D特征的特征提取模型结构更为巧妙，且所使用的数据集是包含更多类别的Kinetics-400和Kinetics-600数据集，基于此训练得到的模型具有更好的泛化能力。因此，C3D特征对于MSVD和MSR-VTT数据集中的大部分视频都具有较低的敏感度，且难以从中挖掘出与其他两者强壮程度相媲美的知识。相比之下，MCMMT在使用特征组合II的情况下在MSVD数据集上取得了全面的提升并在MSR-VTT数据集上取得了较为优异的结果；在使用特征组合III的情况下在MSVD数据集上取得了极大程度的突破：BLEU@4，METEOR，ROUGE-L，CIDEr成绩相比现有最好的表现分别提升了4.0％，3.7％，3.1％和22.4％，在MSR-VTT数据集上于METEOR和CIDEr评估指标上取得了最优的成绩并于BLEU@4和ROUGE-L两者上取得了次优的成绩。

为了探究MCMMT中各模块的有效程度，本方法以仅视觉特征作为输入的标准Transformer为骨干网络的视频描述生成模型作为基准模型，并将其与MCMMT方法进行客观比较。在各实验设置及参数设置均一致的情况下，其消融实验结果如表2所示。

表2本方法在MSVD和MSR-VTT数据集上基于模块的消融实验结果对比

其中，仅使用语义标签而不使用语义相似度表示挖掘出的语义标签仅使用与目标数据集重合的部分，不进行映射。根据同特征组合实验的第一行和第二行数据可以得出，强壮的视觉特征可以挖掘出丰富的语义知识以给予模型指引；根据同特征组合实验的第二行和第三行数据可以得出，语义相似度的加入也给模型带来了全方面的提升，这有力证明了语义相似度对于语义知识优化的效果十分显著；根据同特征组合实验的第三行和第四行数据可以得出，预训练模型所得到的初始化参数也给模型带来了较为清晰的指引，避免在训练过程中陷入局部鞍点。此外，语义相似度对多标签分类任务损失函数优化的结果如表3所示。

表3视频多标签分类任务损失函数优化前后结果对比

其中，标签的接受阈值为0.8；F1代表准确率和召回率的调和平均，使用的是标准0-1真值进行计算；S则在F1指标的基础上叠加了语义相似度，即使用优化后的目标真值进行计算；N表示最终挖掘出的语义标签数量。可见，语义相似度的引入有效提升了结果的mAP值，即提高了模型的全局准确率。其在N上的提升代表这种改进方法可以从视频中挖掘出更多的语义标签，避免标签较少而模型学习不充分的情况。由于挖掘出的语义标签数量增加，其F1值略有下降，而S值则大幅提升，这代表优化后挖掘出的语义标签在考虑了标签之间的相关性的基础上与视频的内容更加吻合，证明了该方法对于视频多标签分类任务的有效性。

最后，为了探究本方法中各任务对语义挖掘的贡献程度，本方法还做了一组实验以进行数据分析，其结果如表4所示，其中，“MLC”，“OD”，“AR”，“IC”分别代表视频多标签分类任务，目标检测任务，行为识别任务和图像分类任务，“Recall”指标代表生成描述语句与参考描述语句中语义词汇的召回率。表中的数据体现了，视频多标签分类任务对于语义知识的贡献最大，目标检测任务次之，而图像分类任务贡献极低。这其中的原因可能是视频多标签分类模型与目标任务具有相同的数据集和较为相近的任务目标，目标检测任务所使用的数据集具有较为广泛的标签分类，且覆盖了图像分类任务所使用的的数据集中较多的词汇。对比第一行和第三行数据，当引入语义标签给予模型先验知识的指引时，模型首先在生成描述语句的语法上进行了提升，而不是通常直觉上认为的语义方面。这其中的原因可能是由于语义知识给予了模型一个弱锚点，使得模型可以围绕这个锚点生成语法更为通顺的描述语句。在这之后，更强壮的语义知识指引模型生成语义性更加丰富的描述语句。

表4本方法使用特征组合III在MSR-VTT数据集上基于任务的消融实验结果对比

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于多概念知识挖掘的视频描述生成方法，其特征在于，包括：获取待处理的输入视频，对所述输入视频进行视觉特征和语义标签提取，并对所述语义标签进行优化，获得先验语义标签，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入，获得对应的描述结果，其中，所述视觉特征包括2D特征和3D特征；

2.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述语义标签包括图像分类预测标签、行为识别预测标签、目标检测预测标签以及各标签对应的概率值。

3.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述视觉特征和语义标签的提取以及所述视频-文本知识的挖掘基于外部的预训练模型实现，所述视频-视频知识和文本-文本知识的挖掘基于目标数据集语料库训练实现。

4.根据权利要求3所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述视频-视频知识和文本-文本知识的挖掘具体为：

5.根据权利要求4所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述损失函数表示为：

y_k,i；j+1＝y_k,i；j+T(sim_local(k,j),0.5)-y_k,i；j×T(sim_local(k,j),0.5)

T(x,t)＝x×sgn(max(x-t),0)

6.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，对所述语义标签进行优化具体为：

7.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述大型词向量模型为GloVe模型。

8.根据权利要求6所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，所述全局语义相似度和局部语义相似度采用的计算公式均为：

其中，

和

9.根据权利要求1所述的基于多概念知识挖掘的视频描述生成方法，其特征在于，以所提取的视觉特征和所述先验语义标签作为基于Transformer结构的视频描述生成模型的输入具体为：

10.一种计算机可读存储介质，其特征在于，包括供电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1-9任一所述基于多概念知识挖掘的视频描述生成方法的指令。