CN111723649B

CN111723649B - 一种基于语义分解的短视频事件检测方法

Info

Publication number: CN111723649B
Application number: CN202010383987.5A
Authority: CN
Inventors: 吕卫; 李德盛; 井佩光; 苏育挺
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2022-08-12
Anticipated expiration: 2040-05-08
Also published as: CN111723649A

Abstract

本发明公开了一种基于语义分解的短视频事件检测方法，其特征在于，所述方法包括：将短视频多模态的原始特征向量与其对应的标签词向量相结合，得到语义分解后的多模态特征向量；将语义分解后的多模态特征向量按模态输入到不同的自动编码器中，并将自动编码器的中间层作为输出，最小化不同自动编码器输出的差距，得到多模态融合后的特征向量；将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新，得到节点隐藏信息；将图神经网络迭代完成后的节点隐藏信息输出到分类器中，得到最终的事件检测结果。本发明能够找出不同标签之间的相关性，进而提高了短视频事件检测的准确率。

Description

一种基于语义分解的短视频事件检测方法

技术领域

本发明涉及短视频事件检测领域，尤其涉及一种基于语义分解的短视频事件检测方法。

背景技术

当前，随着手机网络用户的日益增长，人们越来越多地在网络上发布“自创作”内容，如绘画，唱歌，表演等等。而短视频作为这些“自创作”内容的载体广泛出现在各大网络社交平台，且成为新一代青年人群的社交潮流。

短视频的特点为持续时间短，一般不超过30秒，由此导致其天然具有语义集中的特性，即短视频中出现的相应事件往往更为明确。现如今，在大量数据源的背景下，如果想用传统的人工标注的方法判明短视频的具体事件则显得过于笨拙，使得整个工程更加复杂且成本会极大增加。

因此，提出一种有效的短视频事件检测方法是很有意义的。

发明内容

本发明提供了一种基于语义分解的短视频事件检测方法，本发明能够找出不同标签之间的相关性，进而提高了短视频事件检测的准确率，详见下文描述：

一种基于语义分解的短视频事件检测方法，所述方法包括：

将短视频多模态的原始特征向量与其对应的标签词向量相结合，得到语义分解后的多模态特征向量；

将语义分解后的多模态特征向量按模态输入到不同的自动编码器中，并将自动编码器的中间层作为输出，最小化不同自动编码器输出的差距，得到多模态融合后的特征向量；

将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新，得到节点隐藏信息；

将图神经网络迭代完成后的节点隐藏信息输出到分类器中，得到最终的事件检测结果。

其中，所述将短视频多模态的原始特征向量与其对应的标签词向量相结合，得到语义分解后的多模态特征向量具体为：

s.t.v＝1,2,...,V i＝1,2,...,N,j＝1,2,...,C

其中，v为模态序号，i为短视频样本序号，j为标签序号，

为第i个短视频样本第v模态的原始特征向量，

为第j个标签的标签词向量，

和

为可学习参数，

为第i个短视频样本第v模态在与第j个标签语义分解后未归一化的特征向量，R为实数集，D_v为第v模态的原始特征维数，D_w为词向量维数，D为语义分解后特征向量的维数，V为模态总数，N为短视频样本个数，C为标签总数，⊙为向量点积符号；同时需要归一化语义分解后的特征向量：

其中，max(·)为取最大值符号，

为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量，由此构成语义分解项。

进一步地，所述将语义分解后的多模态特征向量按模态输入到不同的自动编码器中，并将自动编码器的中间层作为输出，最小化不同自动编码器输出的差距具体为：

s.t.i＝1,2,...,N,j＝1,2,...,C,v＝1,2,...V

其中，

其中，AE(·)为自动编码器，L为自动编码器的总层数，l为自动编码器层数序号，k和q为模态序号，

为短视频第i个样本的第v模态在与第j个标签语义分解后输入到自动编码器l层的特征表示，d_l,v为第v模态在自动编码器第l层的节点数，

和

分别为自动编码器l层的权重和偏置，∑(·)为求和符号，

为F范数，λ为调节参数；由此构成模态融合项。

其中，所述将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新，得到节点隐藏信息具体为：

其中，Ψ＝{ψ₁,ψ₂,...,ψ_C}表示图结构的节点，E＝{e₁₁,e₁₂,...,e_1C,...,e_CC}表示图结构的边，ψ_c为图结构的第c个节点，e_cc’为连接图结构第c个节点与第c'个节点的边，代表了第c个标签出现时，第c'个标签同时出现的概率，利用标签相关性信息更新迭代图结构中每个节点的隐藏状态，图结构的初始化与消息传递公式为：

其中，t为图神经网络更新次数，

为第i个短视频样本第j个节点的初始隐藏状态，

为第t次更新时第i个短视频样本第j个节点的消息传递，

为第i个短视频第j个节点t-1次更新的隐藏状态，

为第j个节点的所有邻接节点，

为连接图结构第j个节点与第

个节点的边，代表了第j个标签出现时，第

个标签同时出现的概率，

为连接图结构第

个节点与第j个节点的边，代表了第

个标签出现时，第j个标签同时出现的概率。

由此得到第t次更新节点隐藏状态的表达式：

其中，W^s，W^r，W，U^s，U^r，U为门控循环单元参数，

为中间变量，

为第i个短视频第j个节点第t次更新的节点隐藏状态，σ(·)为sigmoid函数，tanh(·)为双曲正切函数。

本发明提供的技术方案的有益效果是：

1、本发明利用特征与其标签语义的相关性，构建了特征向量与标签之间的联系，从而使最终结果更能贴合真实事件标签；

2、本发明将短视频的多模态特征数据利用自动编码器进行融合，使得框架能够根据多方面的信息运算，从而得到更为理想的结果；

3、本发明利用图神经网络获取了标签分布中的图结构信息，从而得到了标签之间的相关性，尤其适合短视频的事件检测。

附图说明

图1为一种基于语义分解的短视频事件检测方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种基于语义分解的短视频事件检测方法，参见图1，该方法包括以下步骤：

101：将短视频多模态的原始特征向量与其对应的标签词向量相结合，得到语义分解后的多模态特征向量；

102：将语义分解后的多模态特征向量按模态输入到不同的自动编码器中，并将自动编码器的中间层作为输出，通过最小化不同自动编码器输出的差距，得到多模态融合后的特征向量；

103：将多模态融合后的特征向量作为节点初值输入到图神经网络中进行迭代更新，得到节点隐藏信息；

104：将图神经网络迭代完成后的节点隐藏信息输出到分类器中，即可得到最终的事件检测结果。

具体实现时，在步骤101之前，该方法还包括：

利用VGG-m-2048(视觉几何组网络)的倒数第一个全连接层从短视频数据集中提取2048维视觉(visual)语义特征；

利用TDD(轨迹合并的深度卷积描述符)模型和Fisher Vector(费舍尔矢量)从短视频数据集中提取2048维轨迹(trajectory)语义特征；

使用l₂范数对上述两种语义特征进行标准化，形成两个2048维的特征表示，将二者归一化分别得到多模态特征矩阵X¹和X²，其中

其中N为短视频样本总数，

为视觉原始特征向量，

为轨迹原始特征向量。

利用GloVe(单词表示的全局向量)模型从短视频标签词中提取512维标签词向量，其与上文两种原始特征向量共同输入到整体模型中。

实施例2

下面结合计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

201：利用VGG-m-2048网络的倒数第一个全连接层提取2048维度的高级视觉语义特征，利用TDD模型和Fisher Vector从视频数据集中提取2048维度的轨迹特征，使用l2范数对每个模态的特征进行标准化处理，得到最终的标准化多模态特征矩阵X¹和X²，其中

其中N为短视频样本总数，

为视觉原始特征向量，

为轨迹原始特征向量。

202：为了将原始特征向量与标签词向量整合到同一维度从而形成向量表示，构建语义分解项：

s.t.v＝1,2,...,V i＝1,2,...,N,j＝1,2,...,C

其中，v为模态序号，i为短视频样本序号，j为标签序号，

为第i个短视频样本第v模态的原始特征向量，

为第j个标签的标签词向量，

和

为可学习参数，

s.t.v＝1,2,...,V,i＝1,2,...,N,j＝1,2,...,C

其中，max(·)为取最大值符号，

为第i个短视频样本第v模态在与第j个标签语义分解后的特征向量；由此构成语义分解项。

203：将语义分解后的多模态特征向量按模态输入到不同的自动编码器中，并将自动编码器中间层作为输出，最小化不同自动编码器的输出差异：

s.t.i＝1,2,...,N,j＝1,2,...,C,v＝1,2,...,V

其中，

和

分别为自动编码器l层的权重和偏置，∑(·)为求和符号，

为F范数，λ为调节参数；由此构成模态融合项。

204：将融合后的特征向量作为节点初始状态，输入到图神经网络中，假设图结构用{Ψ,E}来表示，其中Ψ＝{ψ₁,ψ₂,...,ψ_C}表示图结构的节点，E＝{e₁₁,e₁₂,...,e_1C,...,e_CC}表示图结构的边，ψ_c为图结构的第c个节点，e_cc’为连接图结构第c个节点与第c'个节点的边，代表了第c个标签出现时，第c'个标签同时出现的概率，利用标签相关性信息更新迭代图结构中每个节点的隐藏状态，图结构的初始化与消息传递公式为：

其中，t为图神经网络更新次数，

为第i个短视频样本第j个节点的初始隐藏状态，

为第t次更新时第i个短视频样本第j个节点的消息传递，

为第i个短视频第j个节点t-1次更新的隐藏状态，

为第j个节点的所有邻接节点，

为连接图结构第j个节点与第

个节点的边，代表了第j个标签出现时，第

个标签同时出现的概率，

为连接图结构第

个节点与第j个节点的边，代表了第

个标签出现时，第j个标签同时出现的概率。

由此可以得到第t次更新节点隐藏状态的表达式：

其中，W^s，W^r，W，U^s，U^r，U为门控循环单元(GRU)参数，

为中间变量，

为第i个短视频第j个节点第t次更新的节点隐藏状态，σ(·)为sigmoid函数，tanh(·)为双曲正切函数，由此构成标签相关性学习项。门控循环单元为本领域技术人员公知，在此不再赘述。

205：将图神经网络学习得到的节点隐藏状态代入分类器中：

其中，

为第i个短视频是否属于第j个标签的预测结果，f_j(·)为判断样本是否属于第j个标签的二元分类器。

206：由此引出网络的目标损失函数：

其中，y_ij为第i个短视频是否属于第j个标签的真实结果，LF为损失函数，log(·)为对数函数，由最小化损失函数进行训练即可得到最终的网络模型参数。

207：将测试集的原始数据进行提取特征处理后带入训练好的整体网络模型中，依次经历语义分解，自动编码器和图神经网络，最终得到最后的事件检测结果。

综上所述，本发明实施例利用短视频多模态共存的特征，借助标签信息，将多模态的原始特征向量经语义分解后通过自动编码器融合成同一特征向量，使得最终结果的鲁棒性得到提高，结合标签空间的图结构信息，模型整体能够根据图节点之间的消息传递学习到不同标签对应特征向量之间的相关性，从而使最终学习结果更能贴合事件检测的需求；本发明将多种思想结合在一起以实现最优效果，尤其适合短视频的事件检测，最终得到了较好的输出结果。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。