CN113111836A

CN113111836A - 基于跨模态哈希学习的视频解析方法

Info

Publication number: CN113111836A
Application number: CN202110447506.7A
Authority: CN
Inventors: 贾永坡; 申培; 胡宇鹏; 甘甜; 吴建龙; 高赞; 聂礼强
Original assignee: Hegang Digital Technology Co ltd; Shandong University; HBIS Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Hegang Digital Technology Co ltd; Shandong University; HBIS Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2021-07-13
Anticipated expiration: 2041-04-25
Also published as: CN113111836B

Abstract

一种基于跨模态哈希学习的视频解析方法，实现多模态特征向汉明共空间的特征映射与融合，并利用汉明距离对具有语义相似性的视频片段‑查询语句对，进行高效检索。一方面引入双向时序卷积网络模型，深刻理解视频单元的上下文信息，以及视频内部的长期语义依赖；另一方面，引入基于多头注意力机制的文本语义理解模型，对给定查询语句进行有效表征，从而提高了视频定位的精度。本发的特征编码模型是相互独立的，即视频片段候选集的生成与查询语句特征集的表征，可以分开独立运行。因此，当我们对给定视频完成相应的候选集生成之后，可以根据不同用户的多样性需求，对当前视频反复进行基于汉明距离度量的高效视频定位。

Description

基于跨模态哈希学习的视频解析方法

技术领域

本发明涉及视频语义分析技术领域，具体涉及一种基于跨模态哈希学习的视频解析方法。

背景技术

随着互联网、云计算、大数据技术的迅猛发展与相互融合，视频数据也随之增长，并广泛遍布于多样的应用场景中以满足人们的不同需求。由此，视频检索技术也日益受到广泛关注。当前视频检索研究主要分为：(1)单模态检索，即利用给定的视频特征，从视频数据库中检索出与之“特征相似”的视频数据；(2)跨模态检索，即利用给定的自然语言描述从视频数据库中检索出与之“语义相似”的视频数据。显然，这种基于自然语言的视觉信息检索，不仅是对传统视频检索研究的深化，而且具有良好的人机交互性。但是，目前的跨模态检索研究，仅能根据给定的简单文本描述(“坐下”、“点头”、“握手”等)从视频集合中检索出包含上述动作行为的完整视频，即仅能判断所给定视频中是否包含与文本查询具有相似“语义”视频片段，而无法对目标视频片段进行准确定位。但是对于给出查询语句的相关用户而言，从给定视频上检索出其所感兴趣的视频片段，肯定比单纯检索出包含相关片段的完整视频，更加符合用户的期望。例如，对于一段长度为30秒的监控视频(包含复杂的视觉场景和动作行为)，相关安保人员可能迫切需要对对监控视频中一个具体片段：“黑衣男子第二次拿出手机，开始通话”(开始于5.6秒，结束于17.1秒)进行视频定位，以便于对可疑人员进行追踪。由此可见，跨模态视频定位研究更有意义，同时也具有更大的挑战性。

跨模态视频定位研究，不仅需要对视频内部所涉及复杂的场景、对象、交互进行准确理解，而且需要对给定的文本查询语句的自然语义逻辑，以及关键线索词“黑衣”、“男子”、“第二次”、“手机”进行准确理解。更重要的是，需要对以上两种模态特征，进行有效的跨模态特征融合，即：从给定视频所描绘的复杂场景中准确定位出与查询语义相匹配的视频片段，同时对该场景中的其他动作行为进行“忽略”，智能且精准地实现目标视频片段定位。

发明内容

本发明为了克服以上技术的不足，提供了一种从给定视频中对不同文本查询语句，所期望的视频片段进行准确定位的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于跨模态哈希学习的视频解析方法，包括：

a)对第k条视频数据V_k进行单元分割，k∈{1,...,K}，K为视频数据总数，对分割后的视频数据V_k输入C3D网络模型处理，将处理结果进行池化操作得到基于视频单元的特征表征V_k ⁽⁰⁾，

为第r个视频单元的特征表征，R为视频单元的总个数；

b)通过公式

基于双向时序卷积网络对V_k ⁽⁰⁾进行上下文信息感知的特征增强，得到第i次双向卷积处理后的视频表征V_k ⁽ⁱ⁾，式中ε为卷积核大小，ρ为稀疏率，Θ为双向时序卷积操作，

为经过第i次双向卷积处理的第r个视频单元的特征表征；

c)完成三次双向时序卷积，得到视频表征V_k ⁽³⁾，将视频表征V_k ⁽³⁾依次输入多尺度卷积网络和多层感知机网络模型处理，得到视频片段表征集合C_k，C_k＝{c_k,1,c_k,2,...,c_k,i，...，…,c_k,n}，c_k,i为第i个视频片段表征，i∈{1,...,n}，n为视频片段总个数；

d)对第k条视频数据V_k的全体查询语句构成的集合Q_k通过基于长短时记忆网络与多层感知机网络的语义理解，生成相应的查询语句表征集合

e)基于交并比率IoU构建跨模态相似矩阵M_k，将视频片段表征集合C_k和查询语句表征集合

分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐，完成跨模态哈希网络模型的建立，通过损失函数Γ训练跨模态哈希网络模型；

f)将测试集输入训练后的跨模态哈希网络模型，将测试集中第r条视频数据V_r和对第r条视频数据V_r的全体查询语句构成的集合Q_r向汉明空间进行特征映射，得到视频数据V_r的哈希特征集合

以及集合Q_r的哈希特征集合

b_ci为第i个视频数据的哈希特征，i∈{1,...,n}，b_qj为第j个查询语句的哈希特征，j∈{1,...,m}，m为集合Q_r中查询语句的总个数；

g)通过公式

计算得到汉明距离

T为转置，L为哈希码长度，⊙点乘计算，通过汉明距离

度量哈希特征集合

和

得到语义相似性结果。

进一步的，步骤a)中以16帧为最小单元对第k条视频数据V_k进行单元分割。

进一步的，每次双向时序卷积操作时增加填充信息，通过公式pⁱ＝(ε-1)p计算第i层的填充个数pⁱ。

进一步的，步骤e)中通过公式

计算全连接神经网络的损失函数Γ₁，式中

为弗罗尼乌斯范数，T为转置，Y为多模态特征设置的统一维度。

进一步的，步骤e)中通过公式

计算得到转换成二值特征集合

通过公式

计算得到转换成二值特征集合

式中sgn(·)为符号函数，通过公式

计算损失函数Γ₂，利用公式Γ＝Γ₁+λΓ₂计算得到损失函数Γ，λ为超参，，通过损失函数Γ训练跨模态哈希网络模型，利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。

本发明的有益效果是：实现多模态特征向汉明共空间的特征映射与融合，并利用汉明距离对具有语义相似性的视频片段-查询语句对，进行高效检索。一方面引入双向时序卷积网络模型，深刻理解视频单元的上下文信息，以及视频内部的长期语义依赖；另一方面，引入基于多头注意力机制的文本语义理解模型，对给定查询语句进行有效表征，从而提高了视频定位的精度。本发的特征编码模型是相互独立的，即视频片段候选集的生成与查询语句特征集的表征，可以分开独立运行。因此，当我们对给定视频完成相应的候选集生成之后，可以根据不同用户的多样性需求，对当前视频反复进行基于汉明距离度量的高效视频定位。

附图说明

图1为本发明的模型结构图；

图2为本发明的视频片段表征集生成流程图；

图3为本发明的对比模型介绍图；

图4为本发明的定位精度与效率对比图；

图5为本发明的定位可扩展性对比图。

具体实施方式

下面结合附图1至附图5对本发明做进一步说明。

如附图1所示，一种基于跨模态哈希学习的视频解析方法，包括：

a)如附图2所示，对第k条视频数据V_k进行单元分割，k∈{1,...,K}，K为视频数据总数，并利用C3D网络模型与池化操作，获得视频单元的特征表征。随后，基于本发明提出双向时序卷积网络，对按照“时序”排列的视频单元进行基于“上下文”信息感知的特征增强，随后利用基于多尺度卷积网络和多层感知机网络模型，生成视频片段表征集合C_k。具体的对分割后的视频数据V_k输入C3D网络模型处理，将处理结果进行池化操作得到基于视频单元的特征表征V_k ⁽⁰⁾，

为第r个视频单元的特征表征，R为视频单元的总个数。

b)通过公式

为经过第i次双向卷积处理的第r个视频单元的特征表征。

c)当完成三次双向时序卷积之后，得到视频表征V_k ⁽³⁾，将视频表征V_k ⁽³⁾依次输入多尺度卷积网络和多层感知机网络模型处理，得到视频片段表征集合C_k，C_k＝{c_k,1,c_k,2,…,c_k,i，…，…,c_k,n}，c_k,i为第i个视频片段表征，i∈{1,…,n}，n为视频片段总个数。

分别输入全连接神经网络后基于跨模态相似矩阵进行跨模态特征语义对齐，完成跨模态哈希网络模型的建立，通过损失函数Γ训练跨模态哈希网络模型。

以及集合Q_r的哈希特征集合

b_ci为第i个视频数据的哈希特征，i∈{1,…,n}，b_qj为第j个查询语句的哈希特征，j∈{1,…,m}，m为集合Q_r中查询语句的总个数。

g)通过公式

计算得到汉明距离

T为转置，L为哈希码长度，⊙点乘计算，通过汉明距离

度量哈希特征集合

和

得到语义相似性结果。利用汉明距离计算公式，可以迅速检索出具有语义相似性的“视频片段-查询语句”对，从而实现基于自然语言的视频片段精准定位和高效定位。如附图3所示，通过与国际领先的同类模型进行定位性能对比，如附图4中的结果显示，本模型的定位精度和效率具有显著优越性。

本跨模态哈希网络模型中的视频编码模块和查询语句编码模块是相互独立的，多模态信息(视频、文本)可以分别进行适应性的语义理解与表征学习。因此，当需要对给定视频，进行大量多样性片段定位查询时，跨模态哈希网络模型能够保证跨模态视频片段定位的可扩展性。为此，我们选取国际开源基准数据集ActivityNet Captions(网址https://cs.stanford.edu/people/ranjaykrishna/densevid/)，并将其测试集所包含的查询语句数量进行整数倍扩展，随后将再次评估跨模态哈希网络模型与附图4中性能最好的对比模型CMIN的定位效率。如附图5中(10X，表示查询语句数量扩展到原来的10倍)结果显示，随着查询语句数量的增多，跨模态哈希网络模型定位时间的增长远低于对比模型CMIN，显然跨模态哈希网络模型的可扩展性同样具有显著优越性。

通过构建跨模态哈希网络模型。

实现多模态特征向汉明共空间的特征映射与融合，并利用汉明距离对具有语义相似性的视频片段-查询语句对，进行高效检索。一方面引入双向时序卷积网络模型，深刻理解视频单元的上下文信息，以及视频内部的长期语义依赖；另一方面，引入基于多头注意力机制的文本语义理解模型，对给定查询语句进行有效表征，从而提高了视频定位的精度。本发的特征编码模型是相互独立的，即视频片段候选集的生成与查询语句特征集的表征，可以分开独立运行。因此，当我们对给定视频完成相应的候选集生成之后，可以根据不同用户的多样性需求，对当前视频反复进行基于汉明距离度量的高效视频定位，即本模型能够保证视频定位的可扩展性。在开源基准数据上进行的大量性能对比实验，可以证明本发明所提供的模型不仅可以基于不同的文本查询语句，实现精准且高效的视频片段定位，而且能证明本模型的具有良好可扩展。

实施例1：

步骤a)中以16帧为最小单元对第k条视频数据V_k进行单元分割。

实施例2：

为保证每次双向卷积处理，都能得到长度为R的视频单元集合。我们需要为每次的双向时序卷积操作，增加填充(padding)信息。第i层的padding个数为每次双向时序卷积操作时增加填充信息，因此通过公式pⁱ＝(ε-1)p计算第i层的填充个数pⁱ。

实施例3：

步骤e)中通过公式

计算全连接神经网络的损失函数Γ₁，式中

实施例4：

步骤e)中通过公式

计算得到转换成二值特征集合

通过公式

计算得到转换成二值特征集合

式中sgn(·)为符号函数，通过公式

计算损失函数Γ₂，利用公式Γ＝Γ₁+λΓ₂计算得到损失函数Γ，λ为超参，，通过损失函数Γ训练跨模态哈希网络模型，利用adam optimizer函数求解出跨模态哈希网络模型的全部参数。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于跨模态哈希学习的视频解析方法，其特征在于，包括：

为第r个视频单元的特征表征，R为视频单元的总个数；

b)通过公式

为经过第i次双向卷积处理的第r个视频单元的特征表征；

c)完成三次双向时序卷积，得到视频表征V_k ⁽³⁾，将视频表征V_k ⁽³⁾依次输入多尺度卷积网络和多层感知机网络模型处理，得到视频片段表征集合C_k，C_k＝{c_k,1,c_k,2,…,c_k,i，…，...,c_k,n}，c_k,i为第i个视频片段表征，i∈{1,...,n}，n为视频片段总个数；