CN116824583A

CN116824583A - 弱监督视频场景图生成方法、装置及电子设备

Info

Publication number: CN116824583A
Application number: CN202310758807.0A
Authority: CN
Inventors: 徐常胜; 高君宇; 吴子越
Original assignee: Institute of Automation of Chinese Academy of Science; Zhejiang Lab
Current assignee: Institute of Automation of Chinese Academy of Science; Zhejiang Lab
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-29

Abstract

本发明提供一种弱监督视频场景图生成方法、装置及电子设备，其中，该方法包括：将目标视频输入训练好的弱监督视频场景图生成模型，得到所述目标视频对应的视频场景图；其中，所述弱监督视频场景图生成模型基于样本视频集、所述样本视频集对应的未定位场景图集和文本概念数据集训练得到。可以减少人工标注的工作量，从而有效降低了视频数据标注的成本。

Description

弱监督视频场景图生成方法、装置及电子设备

技术领域

本发明涉及视觉理解技术领域，尤其涉及一种弱监督视频场景图生成方法、装置及电子设备。

背景技术

随着深度学习技术的发展，当前针对于图片数据的检测和分割等技术已经较为成熟。其中，视频场景图生成模型可以通过输入一个视频，输出“主语-关系-宾语”形式的视觉关系来表达各种实体之间的关系和交互，帮助人们从更高的语义级别来理解视觉内容。

然而，目前大多数的视频场景图生成算法都是全监督的，需要大量且昂贵的人工标注的数据来进行模型的训练。

发明内容

本发明提供一种弱监督视频场景图生成方法、装置及电子设备，用以解决现有技术中场景图生成算法需要大量且昂贵的人工标注的数据来进行模型的训练的缺陷，从而有效降低视频数据标注的成本。

本发明提供一种弱监督视频场景图生成方法，包括：

将目标视频输入训练好的弱监督视频场景图生成模型，得到所述目标视频对应的视频场景图；

其中，所述弱监督视频场景图生成模型基于样本视频集、所述样本视频集对应的未定位场景图集和文本概念数据集训练得到。

根据本发明提供的一种弱监督视频场景图生成方法，所述弱监督视频场景图生成模型的训练方法包括：

从所述样本视频集中选取样本视频；

基于所述样本视频和所述样本视频对应的未定位场景图，对所述样本视频中各个实体的类别进行预测，得到所述样本视频中各个实体的预测类别；

根据所述样本视频中的各个实体的类别标签和所述预测类别，训练所述弱监督视频场景图生成模型的第一分类器；

基于所述样本视频、所述未定位场景图和所述文本概念数据集，对所述样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，得到所述样本视频中各个主语宾语对的分类预测概率；

根据所述样本视频中各个主语宾语对所对应的真实关系标签和所述分类预测概率，训练所述弱监督视频场景图生成模型的第二分类器。

根据本发明提供的一种弱监督视频场景图生成方法，所述基于所述样本视频、所述未定位场景图和所述文本概念数据集，对所述样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，包括：

确定所述文本概念数据集中各个文本概念的无偏特征；

根据所述样本视频中的各个实体的类别标签确定所述样本视频的主语类别集合和所述样本视频的宾语类别集合；

根据所述文本概念数据集中各个文本概念的文本特征，所述文本概念数据集中各个文本概念的无偏特征，以及上下文感知的提示模板，分别确定所述主语类别集合的文本实体表征和所述宾语类别集合的文本实体表征；

根据所述文本概念数据集中各个文本概念的文本特征，所述文本概念数据集中各个文本概念的无偏特征，以及所述样本视频中各个实体的轨迹特征，分别确定所述主语类别集合的视觉实体表征和所述宾语类别集合的视觉实体表征；

将所述主语类别集合的文本实体表征，所述宾语类别集合的文本实体表征，所述主语类别集合的视觉实体表征，以及所述宾语类别集合的视觉实体表征输入第二分类器，对所述样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测。

根据本发明提供的一种弱监督视频场景图生成方法，所述分别确定所述主语类别集合的文本实体表征和所述宾语类别集合的文本实体表征，具体包括：

分别确定主语的上下文感知的提示模板和宾语的上下文感知的提示模板；

基于所述主语类别集合的文本特征、所述主语类别集合的无偏特征、所述主语的上下文感知的提示模板以及双向长短期记忆网络，确定所述主语类别集合的文本实体表征；

基于所述宾语类别集合的文本特征、所述宾语类别集合的无偏特征、所述宾语的上下文感知的提示模板以及双向长短期记忆网络，确定所述宾语类别集合的文本实体表征。

根据本发明提供的一种弱监督视频场景图生成方法，所述分别确定所述主语类别集合的视觉实体表征和所述宾语类别集合的视觉实体表征，具体包括：

确定第一全连接概念图；所述第一全连接概念图中的节点表示所述文本概念数据集中的文本概念；

将所述主语类别集合对应的实体和所述宾语类别集合对应的实体分别作为嵌入节点嵌入所述第一全连接概念图中，得到所述主语类别集合对应的第二全连接概念图和所述宾语类别集合对应的第三全连接概念图；

根据所述第二全连接概念图和第三全连接概念图，分别确定所述主语类别集合的视觉实体特征和所述宾语类别集合的视觉实体特征；

其中，所述第一全连接概念图中的节点的特征根据所述第一全连接概念图中的节点对应的文本特征和所述第一全连接概念图中的节点对应的无偏特征确定；所述嵌入节点的特征根据所述嵌入节点对应的轨迹特征、所述嵌入节点对应的文本特征以及所述嵌入节点对应的无偏特征确定。

根据本发明提供的一种弱监督视频场景图生成方法，所述确定所述文本概念数据集中各个文本概念的无偏特征，具体包括：

确定所述文本概念数据集中任意两个文本概念之间的共现频率，以及任意两个文本概念的文本特征之间的相似度；

对于任意文本概念，按照与所述任意文本概念之间的共现频率的升序排序，选取多个文本概念作为所述任意文本概念的共现概念集合，以及按照与所述任意文本概念的文本特征之间的相似度的升序排序，选取多个文本概念作为所述任意文本概念的语义概念集合；

根据所述任意文本概念的共现概念集合，所述任意文本概念的语义概念集合，以及所述任意文本概念的共现概念集合中的各个文本概念的语义概念集合，确定所述任意文本概念的无偏特征。

根据本发明提供的一种弱监督视频场景图生成方法，所述基于所述样本视频和所述样本视频对应的未定位场景图，对所述样本视频中各个实体的类别进行预测，具体包括：

根据所述样本视频中各个实体的轨迹特征，所述未定位场景图中各个实体的关系特征，以及基于注意力机制的门控循环单元GRU网络，得到所述样本视频中各个实体的关系感知视觉特征；

将所述样本视频中各个实体的关系感知视觉特征输入所述第一分类器，对所述样本视频中各个实体的类别进行预测；

所述样本视频中的各个实体的类别标签根据以下方式确定：

根据所述未定位场景图中各个实体的文本特征，所述未定位场景图中各个实体的关系特征，以及所述基于注意力机制的GRU网络，得到所述未定位场景图中各个实体的关系感知文本特征；

对于所述样本视频中的任意实体，计算所述任意实体的关系感知视觉特征和所述未定位场景图中各个实体的关系感知文本特征之间的相似度，并选择与所述任意实体的关系感知视觉特征相似度最高的关系感知文本特征所对应的文本概念作为所述任意实体的类别标签。

本发明还提供一种弱监督视频场景图生成装置，包括：

生成模块，用于将目标视频输入训练好的弱监督视频场景图生成模型，得到所述目标视频对应的视频场景图；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述弱监督视频场景图生成方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述弱监督视频场景图生成方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述弱监督视频场景图生成方法。

本发明提供的弱监督视频场景图生成方法、装置及电子设备，通过基于样本视频集、所述样本视频集对应的未定位场景图集和文本概念数据集训练得到一个弱监督视频场景图生成模型，然后将目标视频输入训练好的弱监督视频场景图生成模型，得到所述目标视频对应的视频场景图，相比于全监督算法，减少了人工标注的工作量，从而有效降低了视频数据标注的成本。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的弱监督视频场景图生成方法的流程示意图；

图2为本发明提供的无偏概念图的示意图；

图3为本发明提供的弱监督视频场景图生成装置的结构示意图；

图4为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的弱监督视频场景图生成方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤100、将目标视频输入训练好的弱监督视频场景图生成模型，得到目标视频对应的视频场景图。

其中，弱监督视频场景图生成模型基于样本视频集、样本视频集对应的未定位场景图集和文本概念数据集训练得到。

具体地，本发明提供的方法的执行主体可以为可以接收其他设备输入并且自身具有一定计算能力的处理设备，以下以计算机设备为例对本发明提供的方法进行说明。

目标视频为需要生成视频场景图的视频，目标视频对应的视频场景图为目标视频对应的“主语-关系-宾语”形式的视觉关系，其包括目标视频中各个视觉实体所在的位置、各个视觉实体对应的文本概念以及各个视觉实体之间的关系对应的文本概念。

目前大多数的视频场景图生成算法都是全监督的，即同时标注样本视频中各个视觉实体所在的位置、各个视觉实体对应的文本概念以及各个视觉实体之间的关系，需要大量且昂贵的人工标注的数据来进行模型的训练。

因此，本发明提供一种弱监督视频场景图生成方法，降低视频数据标注的成本。弱监督表示在训练阶段只用到未定位场景图作为监督信息。其中，未定位场景图只包含有视频中实体的类别信息和各实体之间的关系信息，而没有对视觉实体所在位置的标注。这种弱监督的训练方法能够有效地降低视频数据标注的成本。

首先在计算机设备上基于样本视频集、样本视频集对应的未定位场景图集和文本概念数据集训练弱监督视频场景图生成模型，其中，样本视频中的多个样本视频与未定位场景图集中的未定位场景图一一对应，文本概念数据集可以包括多个实体类别文本概念(即作为主语和宾语的文本概念)和多个关系类别文本概念(即作为谓语的文本概念)。

得到训练好的弱监督视频场景图生成模型后，将目标视频输入训练好的弱监督视频场景图生成模型，可以得到目标视频对应的视频场景图。

本发明提供的弱监督视频场景图生成方法，通过基于样本视频集、所述样本视频集对应的未定位场景图集和文本概念数据集训练得到一个弱监督视频场景图生成模型，然后将目标视频输入训练好的弱监督视频场景图生成模型，得到所述目标视频对应的视频场景图，相比于全监督算法，减少了人工标注的工作量，从而有效降低了视频数据标注的成本。

可选地，弱监督视频场景图生成模型的训练方法包括：

从样本视频集中选取样本视频；

基于样本视频和样本视频对应的未定位场景图，对样本视频中各个实体的类别进行预测，得到样本视频中各个实体的预测类别；

根据样本视频中的各个实体的类别标签和预测类别，训练弱监督视频场景图生成模型的第一分类器；

基于样本视频、未定位场景图和文本概念数据集，对样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，得到样本视频中各个主语宾语对的分类预测概率；

根据样本视频中各个主语宾语对所对应的真实关系标签和分类预测概率，训练弱监督视频场景图生成模型的第二分类器。

具体地，弱监督视频场景图生成模型中可以包括两个分类器，其中，训练好的第一分类器用于对目标视频中各个实体的类别进行预测，训练好的第二分类器用于对目标视频中各个实体所组成的主语宾语对的关系进行预测。

可以理解的是，对弱监督视频场景图生成模型中两个分类器的训练过程是从样本视频集中多次选取样本视频，来对两个分类器进行训练，经过预设的训练次数或达到预设的条件后才得到训练好的弱监督视频场景图生成模型。

样本视频对应的未定位场景图中包含样本视频中实体的类别信息，因此，可以根据样本视频和样本视频对应的未定位场景图，通过第一分类器对样本视频中各个实体的类别进行预测，得到样本视频中各个实体的预测类别。

然后可以根据样本视频中的各个实体的类别标签和预测类别，通过损失函数训练第一分类器。

一些实施方式中，可以将第一分类器的分类损失直接作为第一分类器的损失函数。第一分类器的分类损失的计算公式如下：

其中是第i个视觉实体的预测类别，/>是第i个视觉实体的类别标签。

可选地，基于样本视频和样本视频对应的未定位场景图，对样本视频中各个实体的类别进行预测，具体包括：

根据样本视频中各个实体的轨迹特征，未定位场景图中各个实体的关系特征，以及基于注意力机制的门控循环单元GRU网络，得到样本视频中各个实体的关系感知视觉特征；

将样本视频中各个实体的关系感知视觉特征输入第一分类器，对样本视频中各个实体的类别进行预测；

样本视频中的各个实体的类别标签根据以下方式确定：

根据未定位场景图中各个实体的文本特征，未定位场景图中各个实体的关系特征，以及基于注意力机制的GRU网络，得到未定位场景图中各个实体的关系感知文本特征；

对于样本视频中的任意实体，计算任意实体的关系感知视觉特征和未定位场景图中各个实体的关系感知文本特征之间的相似度，并选择与任意实体的关系感知视觉特征相似度最高的关系感知文本特征所对应的文本概念作为任意实体的类别标签。

具体地，本发明提供一个基于注意力的关系感知交互模块(Relation-awareInteraction module，RAIM)，由基于注意力机制(Attention，Attn)的门控循环单元(GateRecurrent Unit，GRU)网络组成，其公式如下：

RAIM(x,y)＝GRU(x,Attn(x,y,y))

将样本视频中各个实体的轨迹特征和未定位场景图中各个实体的关系特征输入RAIM，可以得到样本视频中各个实体的关系感知视觉特征，其公式如下：

H＝RAIM(F,P^G)

式中，F＝{f₁,f₂,...,f_N}为样本视频中各个实体的轨迹特征(总共N个实体)，H为样本视频中各个实体的关系感知视觉特征，P^G为未定位场景图中各个实体的关系特征。

一些实施方式中，可以通过第三方的目标检测模型进行实体的检测和提取，例如通过快速基于区域的卷积神经网路(Fast Region-based Convolutional NeuralNetwork，Fast-RCNN)模型检测实体，通过深度简单在线和实时追踪(Deep Simple OnlineAnd Realtime Tracking，Deep SORT)算法对每个实体生成连续的边界框，通过感兴趣区域对齐(Region of Interest Align，RoI Align)获得每个实体的RoI特征。然后将样本视频中各个实体的边界框和RoI特征通过视觉编码器，得到样本视频中各个实体的轨迹特征。

例如，使用Fast-RCNN模型检测视频中的N个实体，采用Deep SORT算法对每个实体生成连续的边界框。对于第i个实体，生成该实体的边界框，记为l_i表示该实体出现的时间长度。随后，利用RoI Align获得该实体的RoI特征，记为/>这里d_roi＝2048表示RoI特征的维度。随后，设计了一个由一维卷积和最大池化组成的视觉编码器，获得了该实体的轨迹特征，记为/>其中d_v＝512是轨迹特征的维度。

得到样本视频中各个实体的关系感知视觉特征后，可以将各个实体的关系感知特征输入第一分类器，对样本视频中各个实体的类别进行预测，第一分类器可以是基于多层感知机(Multilayer Perceptron，MLP)的分类器，获取预测类别的公式如下：

式中，为第i个视觉实体的预测类别，H[i]为第i个视觉实体的关系感知特征。

还可以将未定位场景图中各个实体的文本特征和未定位场景图中各个实体的关系特征输入RAIM，可以得到未定位场景图中各个实体的关系感知文本特征，其公式如下：

Q＝RAIM(C^G,P^G)

式中，C^G为未定位场景图中各个实体的文本特征，P^G为未定位场景图中各个实体的关系特征。

对于样本视频中的任意一个实体，如前所述，可以获取该实体的关系感知视觉特征以及未定位场景图中各个实体的关系感知文本特征。因此，可以计算该实体的关系感知特征与未定位场景图中各个实体的关系感知文本特征之间的相似度，选择相似度最高的关系感知文本特征所对应的文本概念作为该实体的类别标签。

一些实施方式中，可以通过进行词的向量化表示模型的嵌入(Global Vectorsfor Word Representation embedding，GloVe embedding)获得未定位场景图中各个实体的文本特征和各个实体的关系特征，未定位场景图中各个实体的文本特征和各个实体的关系特征的维度可以均为300。

一些实施方式中，为了更好地进行实体类别的预测，将第一分类器的分类损失加上三元组损失作为第一分类器的损失函数，其中，三元组损失的计算公式如下：

式中，dis(·)表示计算欧氏距离，q_i∈Q和h_i∈H表示一对正样本，都来自于第i个视觉实体；而q_i和h_j表示一对负样本，h_j来自其他视觉实体且Δ表示预设的常数。

根据RAIM分别得到样本视频中各个实体的关系感知视觉特征和未定位场景图中各个实体的关系感知文本特征，再得到样本视频中各个实体的类别标签以及预测类别，可以使训练的第一分类器预测的实体类别更加准确。

样本视频对应的未定位场景图中包含样本视频中实体的关系信息，文本概念数据集包括多个实体类别文本概念和多个关系类别文本概念，因此，可以根据样本视频、样本视频对应的未定位场景图以及文本概念数据集，通过第二分类器对样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，得到样本视频中各个主语宾语对的分类预测概率。

然后可以根据样本视频中各个主语宾语对的分类预测概率和真实关系标签(即未定位场景图中包含的关系信息)，通过损失函数训练第二分类器。

可选地，基于样本视频、未定位场景图和文本概念数据集，对样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，包括：

确定文本概念数据集中各个文本概念的无偏特征；

根据样本视频中的各个实体的类别标签确定样本视频的主语类别集合和样本视频的宾语类别集合；

根据文本概念数据集中各个文本概念的文本特征，文本概念数据集中各个文本概念的无偏特征，以及上下文感知的提示模板，分别确定主语类别集合的文本实体表征和宾语类别集合的文本实体表征；

根据文本概念数据集中各个文本概念的文本特征，文本概念数据集中各个文本概念的无偏特征，以及样本视频中各个实体的轨迹特征，分别确定主语类别集合的视觉实体表征和宾语类别集合的视觉实体表征；

将主语类别集合的文本实体表征，宾语类别集合的文本实体表征，主语类别集合的视觉实体表征，以及宾语类别集合的视觉实体表征输入第二分类器，对样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测。

具体地，由于弱监督的训练设定，数据分布上的偏差会被进一步放大，因此，为了更好地对视觉实体之间的关系进行预测，可以根据文本概念数据集对无偏知识进行构造，确定文本概念数据集中各个文本概念的无偏特征后，再根据无偏特征对视觉实体之间的关系进行预测。

可选地，确定文本概念数据集中各个文本概念的无偏特征，具体包括：

确定文本概念数据集中任意两个文本概念之间的共现频率，以及任意两个文本概念的文本特征之间的相似度；

对于任意文本概念，按照与任意文本概念之间的共现频率的升序排序，选取多个文本概念作为任意文本概念的共现概念集合，以及按照与任意文本概念的文本特征之间的相似度的升序排序，选取多个文本概念作为任意文本概念的语义概念集合；

根据任意文本概念的共现概念集合，任意文本概念的语义概念集合，以及任意文本概念的共现概念集合中的各个文本概念的语义概念集合，确定任意文本概念的无偏特征。

具体地，可以将文本概念数据集中的所有文本概念都看作构建无偏知识的文本概念，获取各个文本概念的文本特征，然后分别确定任意两个文本概念之间的共现频率和任意两个文本概念的文本特征之间的相似度。

对于任意一个文本概念，可以按照其他文本概念与该文本概念的共现频率的升序排序，取预设数量的文本概念作为该文本概念的共现概念，得到该文本概念的共现概念集合。

同样地，可以按照其他文本概念的文本特征与该文本概念的文本特征之间的相似度的升序排序，取预设数量的文本概念作为该文本概念的语义概念，得到该文本概念的语义概念集合。

例如，文本概念数据集中的实体类别文本概念和关系类别文本概念的数量分别为N_C和N_P。将它们都看成是构建无偏知识的文本概念，记为N_A＝N_C+N_P。随后，统计所有文本概念之间的共现频率，构建共现矩阵/>以及，获得所有文本概念的文本特征，并计算它们之间的相似度，构建语义相似度矩阵/>对于第k个文本概念c_k，可以获得关于它的共现信息A_co[k]。并对其进行升序排序并取前K₁个作为其共现概念同样地，对于第k个文本概念c_k，可以获得关于它的语义信息A_sem[k]。并对其进行升序排序并取前K₂个作为其语义概念，获得其语义概念/>

得到每个文本概念的共现概念集合以及语义概念集合后，可以根据某一文本概念的共现概念集合，该文本概念的语义概念集合，以及该文本概念的共现概念集合中的各个文本概念的语义概念集合，得到一个无偏概念图，然后将该无偏概念图输入通过一个图消息传递网络，例如将无偏概念图输入图卷积网络(Graph Convolutional Nueral Network，GCN)，来确定该文本概念的无偏特征。

图2为本发明提供的无偏概念图的示意图，如图2所示，对于任意一个文本概念c_k，c_k与c_k的共现概念c_co和c_k的语义概念c_sim连接，c_k的共现概念c_co与共现概念c_co各自的语义概念c_cs连接，组成无偏概念图

将无偏概念图输入图消息传递网络后，得到根节点(即文本概念c_k)的无偏特征

然后，可以根据样本视频中的各个实体的类别标签确定样本视频的主语类别集合和样本视频的宾语类别集合。例如，可以将样本视频中每个实体的类别标签均作为主语类别，或者将样本视频中每个实体的类别标签均作为宾语类别。或者，也可以选取样本视频中部分实体的类别标签作为主语类别，将样本视频中部分实体的类别标签作为宾语类别。

可以理解的是，文本概念数据集包括多个实体类别文本概念，因此，确定样本视频的主语类别集合和宾语类别集合后，可以根据文本概念数据集中各个文本概念的文本特征，分别确定主语类别集合中各个类别的文本特征和宾语类别集合中各个类别的文本特征；以及，可以根据文本概念数据集中各个文本概念的无偏特征，分别确定主语类别集合中各个类别的无偏特征和宾语类别集合中各个类别的无偏特征。

然后将主语类别集合中各个类别的文本特征和无偏特征结合，根据上下文感知的提示模板，可以确定主语类别集合的文本实体表征。同理，可以将宾语类别集合中各个类别的文本特征和无偏特征结合，根据上下文感知的提示模板，可以确定宾语类别集合的文本实体表征。

一些实施方式中，上下文感知的提示模板公式如下：

f_W(CLASS)＝[w₁,w₂,...,w_L,CLASS]

在这里，w_l(l∈1,2,..,L)是可学习的单词向量，[CLASS]表示的是文本特征，L是所有可学习的单词向量的数量。

可选地，分别确定主语类别集合的文本实体表征和宾语类别集合的文本实体表征，具体包括：

基于主语类别集合的文本特征、主语类别集合的无偏特征、主语的上下文感知的提示模板以及双向长短期记忆网络，确定主语类别集合的文本实体表征；

基于宾语类别集合的文本特征、宾语类别集合的无偏特征、宾语的上下文感知的提示模板以及双向长短期记忆网络，确定宾语类别集合的文本实体表征。

具体地，考虑到三元组中的主语和宾语的上下文语境不同，可以分别为主语和宾语设计不同的上下文感知的提示模板，记为和/>

可以将主语类别集合的文本特征和无偏特征结合通过主语的上下文感知的提示模板后，再输入一个双向长短期记忆网络(Bi-Long Short-Term Memory，Bi-LSTM)，让Bi-LSTM作为文本编码器(TextEncoder)，可以得到每个主语类别的基于提示学习的上下文感知的无偏文本特征，将其作为主语类别的文本实体表征。

同样地，可以将宾语类别集合的文本特征和无偏特征结合通过宾语的上下文感知的提示模板后，再输入一个Bi-LSTM，可以得到每个宾语类别的基于提示学习的上下文感知的无偏文本特征，将其作为宾语类别的文本实体表征。

例如，主语类别集合为宾语类别集合为/>根据文本概念数据集的无偏特征，可以分别确定主语类别集合和宾语类别集合的无偏特征，分别为/>和/>之后通过一个双向长短期记忆网络(Bi-LSTM)作为文本编码器(TextEncoder)，为每个主语类别和宾语类别生成基于提示学习的上下文感知的无偏文本特征S和O，公式如下：

式中，分别表示主语类别和宾语类别通过GloVe embedding获得的文本特征，[；]表示连接操作。

对于视觉表征学习，为了学习视觉实体之间隐藏的语义关系和视觉实体与文本概念之间隐藏的语义关系，需要将文本概念数据集中的文本概念的特征与视觉实体的特征联系起来，因此，可以根据文本概念数据集中各个文本概念的文本特征，文本概念数据集中各个文本概念的无偏特征，以及样本视频中各个实体的轨迹特征，分别确定主语类别集合的视觉实体表征和宾语类别集合的视觉实体表征。

可选地，分别确定主语类别集合的视觉实体表征和宾语类别集合的视觉实体表征，具体包括：

确定第一全连接概念图；第一全连接概念图中的节点表示文本概念数据集中的文本概念；

将主语类别集合对应的实体和宾语类别集合对应的实体分别作为嵌入节点嵌入第一全连接概念图中，得到主语类别集合对应的第二全连接概念图和宾语类别集合对应的第三全连接概念图；

根据第二全连接概念图和第三全连接概念图，分别确定主语类别集合的视觉实体特征和宾语类别集合的视觉实体特征；

其中，第一全连接概念图中的节点的特征根据第一全连接概念图中的节点对应的文本特征和第一全连接概念图中的节点对应的无偏特征确定；嵌入节点的特征根据嵌入节点对应的轨迹特征、嵌入节点对应的文本特征以及嵌入节点对应的无偏特征确定。

具体地，可以先假设所有的文本概念之间都存在语义关联，因此可以根据文本概念数据集中的所有文本概念构建第一全连接概念图，第一全连接概念图中的每个节点都表示文本概念数据集中的一个文本概念，节点上的特征可以是该文本概念的文本特征与无偏特征通过全连接层得到的特征。第一全连接概念图的邻接矩阵可以用语义相似度矩阵进行初始化，即任意两个节点之间的边权重对应这两个节点对应的文本概念的文本特征之间的相似度。

例如，第一全连接概念图的邻接矩阵记为其中的每一个节点都代表一个文本概念，这里的A_base用语义相似矩阵A_sem进行初始化。对于第k个节点，其代表的文本概念为c_k，则节点上的特征为c′_k＝φ_u([c_k；Π(c_k)])，φ_u表示全连接层，c_k表示c_k的文本特征，Π(c_k)表示c_k的无偏特征。

然后，可以将主语类别集合对应的实体嵌入第一全连接概念图中，得到第二全连接概念图。嵌入节点的特征可以是该主语类别的文本特征、该主语类别的无偏特征以及该实体对应的轨迹特征通过全连接层得到的特征。

同样地，可以将宾语类别集合对应的实体嵌入第一全连接概念图中，得到第三全连接概念图。嵌入节点的特征可以是该宾语类别的文本特征、该宾语类别的无偏特征以及该实体对应的轨迹特征通过全连接层得到的特征。

对于任一嵌入节点与第一全连接概念图中的节点之间的边权重，可以根据这两个节点对应的文本概念的文本特征之间的相似度进行初始化；而对于嵌入节点之间的边权重，可以根据这两个嵌入节点的特征之间的余弦相似度进行初始化。

例如，第i个嵌入节点，代表的类别为嵌入节点的特征为φ_v表示全连接层，f_i是该实体的轨迹特征，/>是/>的文本特征，是/>的无偏特征。构建一个可学习的权重矩阵/>对于第i个嵌入节点，根据其类别标签/>获得该类别在文本概念数据集C中的索引idx_i。则该嵌入节点与其他概念的邻接矩阵为A_pro[idx_i]。随后，将A_pro[idx_i]拼接到A_base上。从而获得一个扩展图，其邻接矩阵记为/>N为视频中视觉实体的数量(即主语类别集合的数量或宾语集合的数量)。在A_extend中，视觉实体之间的边的权重用节点特征之间的余弦相似度进行初始化。

得到第二全连接概念图和第三全连接概念图后，可以将第二全连接概念图和第三全连接概念图分别通过图消息传递网络，例如图注意力网络(Graph attention networks，GAT)，可以分别得到主语类别集合的视觉实体表征与宾语类别集合的视觉实体表征。

例如，将全连接概念图通过GAT得到的基于知识的视觉实体表征为N为视频中视觉实体的数量(即主语类别集合的数量或宾语集合的数量)，d_v为轨迹特征的维度。主语类别集合的视觉实体表征与宾语类别集合的视觉实体表征可以分别记为F′_sub和F′_obj。

确定主语类别集合的文本实体表征、宾语类别集合的文本实体表征、主语类别集合的视觉实体表征与宾语类别集合的视觉实体表征之后，可以将它们通过第二分类器，来预测每一个主语宾语对之间的关系，在第二分类器为基于MLP的分类器的情况下，获取每一个主语宾语对的分类预测概率的公式如下：

R_pred＝MLP([S；F′_sub；O；F′_obj])

表示第j个主语宾语对的关系的分类预测概率，N_R为主语类别集合和宾语类别集合的数量，N_P表示文本概念数据集中的关系类别文本概念的数量。

然后可以根据样本视频中各个主语宾语对所对应的真实关系标签和分类预测概率，训练第二分类器。

一些实施方式中，将第二分类器的分类损失作为第二分类器的损失函数，第二分类器的分类损失公式如下：

式中，y_j为第j个主语宾语对的真实关系标签，表示第j个主语宾语对的关系的分类预测概率，N_R为主语类别集合和宾语类别集合的数量，N_P表示文本概念数据集中的关系类别文本概念的数量。

可以理解的是，将第一分类器和第二分类器整合为本发明提供的弱监督视频场景图生成模型进行训练的情况下，可以对损失函数进行优化，优化后的损失函数为：

下面对本发明提供的弱监督视频场景图生成装置进行描述，下文描述的弱监督视频场景图生成装置与上文描述的弱监督视频场景图生成方法可相互对应参照。

图3为本发明提供的弱监督视频场景图生成装置的结构示意图，如图3所示，该装置包括：

生成模块300，用于将目标视频输入训练好的弱监督视频场景图生成模型，得到目标视频对应的视频场景图；

可选地，弱监督视频场景图生成模型的训练方法包括：

从样本视频集中选取样本视频；

确定文本概念数据集中各个文本概念的无偏特征；

样本视频中的各个实体的类别标签根据以下方式确定：

图4为本发明提供的电子设备的结构示意图，如图4所示，该电子设备可以包括：处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行弱监督视频场景图生成方法，该方法包括：

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的弱监督视频场景图生成方法，该方法包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的弱监督视频场景图生成方法，该方法包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种弱监督视频场景图生成方法，其特征在于，包括：

2.根据权利要求1所述的弱监督视频场景图生成方法，其特征在于，所述弱监督视频场景图生成模型的训练方法包括：

从所述样本视频集中选取样本视频；

3.根据权利要求2所述的弱监督视频场景图生成方法，其特征在于，所述基于所述样本视频、所述未定位场景图和所述文本概念数据集，对所述样本视频中各个主语宾语对所对应的多个关系类别的分类概率进行预测，包括：

确定所述文本概念数据集中各个文本概念的无偏特征；

4.根据权利要求3所述的弱监督视频场景图生成方法，其特征在于，所述分别确定所述主语类别集合的文本实体表征和所述宾语类别集合的文本实体表征，具体包括：

5.根据权利要求3所述的弱监督视频场景图生成方法，其特征在于，所述分别确定所述主语类别集合的视觉实体表征和所述宾语类别集合的视觉实体表征，具体包括：

6.根据权利要求3至5任一项所述的弱监督视频场景图生成方法，其特征在于，所述确定所述文本概念数据集中各个文本概念的无偏特征，具体包括：

7.根据权利要求2或3所述的弱监督视频场景图生成方法，其特征在于，所述基于所述样本视频和所述样本视频对应的未定位场景图，对所述样本视频中各个实体的类别进行预测，具体包括：

所述样本视频中的各个实体的类别标签根据以下方式确定：

8.一种弱监督视频场景图生成装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述弱监督视频场景图生成方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述弱监督视频场景图生成方法。