CN115131700A

CN115131700A - 弱监督音视频内容解析的双路层次化混合模型的训练方法

Info

Publication number: CN115131700A
Application number: CN202210729782.7A
Authority: CN
Inventors: 徐行; 蒋寻; 陈智国; 沈复民; 宋井宽; 申恒涛
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-30

Abstract

本发明公开了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，该训练方法首先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；然后利用得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络；通过上述训练方法，可以得到具有较强模态分辨能力的上下文层次化建模网络，较好地对音视频进行内容解析；模态引导网络强化了模态区分能力；本发明采用的双路层次化混合模型来解决弱监督音视频内容解析任务，进一步提高了模型对不同模态的适应和理解能力。

Description

弱监督音视频内容解析的双路层次化混合模型的训练方法

技术领域

本发明涉及多模态视频理解中的视听事件定位与模态解析领域，具体涉及一种弱监督音视频内容解析的双路层次化混合模型的训练方法。

背景技术

随着近年来互联网的快速发展，多媒体数据呈指数级增长，使得许多多模态技术应用向前迈进了一大步。在这一趋势的推动下，学术界和工业界都对多模态视频理解提出了新的需求，这在过去十年中吸引了大量的研究人员。弱监督音视频内容解析是多模态视频理解中最具挑战性的任务之一，其旨在将完整的有声视频解析为视频片段，并根据模态预测各个视频片段的事件类别，将它们标记为视觉事件、听觉事件或视听联合事件。由于没有提供时间边界和模态标注信息，只有视频级事件标签可用，因此这项任务比传统的多模态视频理解任务更具挑战性。此项技术存在较广泛的运用场景：通过在互联网信息管理、多媒体数据分析和人机交互等领域部署弱监督音视频内容解析技术，可以有效降低人工智能开发成本，提高数据分析的效率。例如，在智慧安防系统的开发过程中，基于监督学习的视频理解起着至关重要的作用，且高度依赖人工标注的多模态视频数据。我们可以通过弱监督音视频内容解析技术，对海量粗粒度有声视频进行初步标注，从而大大降低数据标注方面的人工开销。

目前，国内外的研究人员都对弱监督音视频内容解析开展了不同程度的研究工作，并取得了一定进展。但是，现有方法大多首先将视频和音频分成固定长度的短片段，然后通过观察单个事件片段来定位事件，从而导致了第一个技术缺陷：其忽略了不同时间尺度上的可变语义，最终限制了在完整事件层面的定位性能，尤其是对于那些持续事件较长的事件，现有方法往往表现不佳。其次，目前已有的技术大都采用联合多模态建模来学习上下文相关性和对齐语义，对于不同模态中特有的模态内特征信息挖掘往往不足，而这些模态内信息对于区分模态类别又起着至关重要的作用。上述两个问题，分别对应着音视频内容解析在实际应用中的事件定位精度和模态区分能力，提出一套能够充分学习不同时间尺度事件语义，并能进一步挖掘模态内信息的弱监督音视频内容解析框架，对于本项技术在实际应用场景中的推广有着至关重要的作用。

发明内容

本发明是一种弱监督音视频内容解析的双路层次化混合模型的训练方法，其中，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络。混合注意力网络用于模态特异化标签精炼，层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果。模态引导网络用于提升层次化上下文建模网络的模态辨别能力。该弱监督音视频内容解析的双路层次化混合模型的训练方法分为两个阶段，在第一阶段，先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；在第二阶段，利用第一阶段得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络。通过上述两阶段训练方法，可以得到具有较强模态分辨能力的上下文层次化建模网络，该网络可以较好地对音视频进行内容解析。

具体来说，本发明提出了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，包括以下步骤：

步骤1：获取音视频数据集，并将其按预设比例划分为训练集、验证集、测试集；其中，训练集仅存在弱监督标注信息，即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类，没有详细的模态种类标注和时刻标注数据。

步骤2：将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据，并将音频数据和视频数据均划分为时序长度为1秒的片段。

步骤3：加载预训练的2D卷积神经网络和3D卷积神经网络，分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征。加载预训练的VGGish网络，对划分为1秒片段的音频数据提取听觉特征；进一步地，将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征；

步骤4：加载混合注意力网络，输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析，随后利用混合注意力网络的预测结果，进行模态特异化标签精炼，最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注。其中所述的混合注意力网络、模态特异化标签精炼的解释如下：

混合注意力网络是一个弱监督音视频内容解析网络，由多层自注意力机制、跨模态注意力机制、多标签分类层构成，可以得到弱监督音视频内容解析的初步结果，但效果较差。模态特异化标签精炼，是指通过交换原有音频、原有视频轨道生成伪造视频，进一步观察不同事件在原有视频和伪造视频中的概率变化，判断弱监督标注信息的模态依赖关系，从而实现标签的精炼。模态特异化标签精炼可以生成具有一定差异化的模态监督信息，使原来的弱监督标注转变为不完全准确的音频标注和视频标注。

步骤5：构建本发明提出的层次化上下文建模网络，输入步骤3中得到的听觉特征和综合视觉特征，进行音视频内容解析，输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果；

步骤6：构建本发明提出的模态引导网络，所述模态引导网络包含视觉-模态引导子网络和听觉-模态引导子网络，对于以上两个子网络，分别输入步骤3中得到的综合视觉特征和听觉特征，视觉-模态引导子网络输入综合视觉特征，预测视觉的事件或动作定位结果；听觉-模态引导子网络输入听觉特征，预测听觉的事件或动作定位结果；

步骤7：根据步骤4中精炼后的视频标注和音频标注和步骤5中层次化上下文建模网络的输出，计算层次化上下文建模网络的混合模态事件定位损失；

步骤8：根据步骤4中精炼后的视频标注和音频标注和步骤6中视觉-模态引导子网络的输出，计算视觉模态的单模态事件定位损失；根据步骤4中精炼后的视频标注和音频标注和步骤6中听觉-模态引导子网络的输出，计算听觉模态的单模态事件定位损失；

步骤9：根据步骤5和步骤6的输出，计算视觉-模态引导损失和听觉-模态引导损失。这两部分损失仅用于优化层次化上下文建模网络，对于模态引导网络，由视觉-模态引导损失函数和听觉-模态引导损失函数产生的梯度将被截断。

步骤10：根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果，计算层次化上下文建模网络输出的视觉、听觉事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉事件定位结果之间的反向均方差损失函数，鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息，并结合步骤7-9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失。

步骤11：采用3个独立的Adam优化器，分别训练层次化上下文建模网络、视觉-模态引导子网络和听觉-模态引导子网络。

作为一种优选的技术方案，本发明提出的方法还包括验证和测试方式：

步骤12：在验证阶段，在验证集上评估训练完成的层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型。

步骤13：在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作。采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到测试集数据的视觉的事件或动作定位和听觉的事件或动作定位。

作为一种优选的技术方案，所述步骤5更详细地包括，层次化上下文建模网络的推理过程包括步骤5.1至5.3；

步骤5.1：输入步骤3中提取的综合视觉特征和听觉特征，进行层次化特征表征。假设经步骤3提取后的听觉特征表示为F_a，综合视觉特征表示为F_v，设H为设定的层次化数目上限，对于第h层，层次化特征表征可以由以下公式表示：

其中，

和

分别为第h层的第一音频线性映射层和第一视频线性映射层，

和

分别表示第h层的第一音频线性映射层和第一视频线性映射层执行的操作，R_a和R_v为两个时序卷积残差模块，R_a(·)和R_v(·)为两个时序卷积残差模块执行的操作，k^h和l^h为第h层的卷积核尺寸和步长，

分别为第h层的音频、视频层次化特征表征，h＝1,2,…,H。更详细地，时序卷积残差模块，即R_a和R_v，可以表示为：

R(x,k,l)＝σ(BN(Conv1D(x,k,l)))+x

便于表示，此处采用R(x,k,l)代指时序卷积残差模块，即R_a和R_v。其中σ、BN和Conv1D分别为激励函数、批量归一化层和时序卷积，BN(·)、Conv1D(·)分别为批量归一化层和时序卷积层执行的操作，x为时序卷积残差模块的输入的特征，k为时序卷积残差模块的卷积核尺寸，l为时序卷积残差模块的时序卷积步长。

步骤5.2：根据步骤5.1中所得到的层次化特征表征，挖掘不同层次中的特征上下文关系，并在特征空间中进行多尺度强化，具体可以由以下公式表示：

其中，φ_sa(·)、φ_ca(·)和I(·)分别为层次化上下文建模网络的自注意力机制层、交叉注意力机制层和上采样插值执行的操作。

和

为第h层的音频、视频多尺度特征强化表征。

步骤5.3：根据步骤5.2中所得到的音频、视频多尺度特征强化表征，利用多模态多实例学习池化模块，预测视频、音频分别所含有的视觉动作或事件类别、听觉动作或事件类别，以及不区分模态的动作或事件类别，并在概率空间中对上述三类动作或事件类别进行多尺度强化，具体可以由以下公式表示：

其中，P_a、P_v和P_wsl分别为听觉分类概率、视觉分类概率、不区分模态分类概率。H为设定的层次化数目上限，f_a、f_v分别为第二音频线性映射层和第二视频线性映射层，f_a(·)、f_v(·)分别为层次化上下文建模网络的第二音频线性映射层和第二视频线性映射层执行的操作，T为视频片段总数，δ(·)表示表示Sigmoid函数。

和

分别为第t个片段在视觉、听觉和不区分模态设定下，在整个视频中的注意力权重值，其计算可以由以下公式表示：

其中，f_w(·)为层次化上下文建模网络的第一注意力线性映射层执行的操作，

分别为时序Softmax函数和模态Softmax函数，

表示将

和

沿特征维度拼接。

根据P_a、P_v所表示的各片段所属动作或事件类别和模态类别，按照时序长度为1秒，将相同类别的片段进行链接，从而得到视觉、听觉的事件定位结果，同时根据各事件对应的模态依赖关系，得到视听联合的事件定位结果。

作为一种优选的技术方案，所述步骤6更详细地包括，模态引导网络的推理过程包括步骤6.1至步骤6.2；

步骤6.1：基于Transformer的编码器部分构建听觉-模态引导子网络和视觉-模态引导子网络，分别输入步骤3中提取的听觉特征和综合视觉特征，以迭代的方式在两个子网络内部进行单模态的上下文信息建模，挖掘模态内信息。假设经步骤3提取后的听觉特征表示为F_a，综合视觉特征表示为F_v，设Γ_a、Γ_v分别表示听觉-模态引导子网络和视觉-模态引导子网络，Γ_a(·)、Γ_v(·)分别表示听觉-模态引导子网络和视觉-模态引导子网络执行的操作，第i次迭代过程可以由以下公式表示：

其中，

分别为第i-1次迭代后得到的音频、视频上下文信息。

步骤6.2：利用单模态多实例学习池化模块，分别预测听觉-模态引导子网络和视觉-模态引导子网络中包含的听觉动作或事件和视觉动作或事件。具体地，该步骤可以由以下公式表示：

其中，f′_a(·)、f′_v(·)、f′_aw(·)、f′_vw(·)分别为第三音频线性映射层、第三视频线性映射层、第二注意力线性映射层和第三注意力线性映射层执行的操作。δ为Sigmoid函数，

为时序Softmax函数。P′_a、P′_v分别为辅助听觉分类概率和辅助视觉分类概率。C_a、C_v表示经听觉-模态引导子网络和视觉-模态引导子网络多次迭代后最终得到的音频、视频上下文信息。

根据P′_a、P′_v所表示的各片段所属动作或事件类别和模态类别，按照时序长度为1秒，将相同类别的片段进行链接，从而得到视觉、听觉的事件定位结果，同时根据各事件对应的模态依赖关系，得到视听联合的事件定位结果。

作为一种优选的技术方案，还包括层次化上下文建模网络和模态引导网络模块内训练方式。所述步骤7更详细地包括，根据步骤4精炼后得到的视频标注、音频标注及所述音视频数据集提供的未经步骤4处理的不区分模态标注和步骤5中得到的听觉分类概率P_a、视觉分类概率P_v、不区分模态分类概率P_wsl，计算混合模态事件定位损失L_HMCN：

L_HMCN＝BCE(P_a,Y_a)+BCE(P_v,Y_v)+BCE(P_wsl,Y)

其中BCE(·)为二分类损失函数，Y_a、Y_v和Y分别为步骤4精炼后得到的视频标注、音频标注和所述音视频数据集提供的未经步骤4处理的不区分模态标注。

作为一种优选的技术方案，所述步骤8更详细地包括，根据步骤4精炼后得到的视频标注、音频标注及所述音视频数据集提供的未经步骤4处理的不区分模态标注和步骤6听觉-模态引导子网络以及视觉-模态引导子网络的输出，计算单模态事件定位损失：

其中

分别为听觉模态的单模态事件定位损失和视觉模态的单模态事件定位损失。

作为一种优选的技术方案，还包括层次化上下文建模网络和模态引导网络单方向引导训练方式。所述步骤9更详细地包括，根据步骤5和步骤6的输出，计算视觉-模态引导损失和听觉-模态引导损失，并求和作为最终模态引导损失：

L_g＝MSE(P_a,P′_a)+MSE(P_v,P′_v)

其中，MSE(·)为均方差损失函数，L_g为最终模态引导损失。L_g在优化阶段仅用于优化层次化上下文建模网络，对于模态引导网络，L_g产生的梯度将被截断。

作为一种优选的技术方案，还包括层次化上下文建模网络和模态引导网络协同训练方式。所述步骤10更详细地包括，根据步骤5和步骤6的输出，计算视觉、听觉事件定位结果之间的反向均方差损失函数，鼓励模型学习模态之间的差异化信息，并更新混合模态事件定位损失及单模态事件定位损失，包括听觉模态的单模态事件定位损失和视觉模态的单模态事件定位损失：

L_HMCN′＝L_HMCN+L_rmse(P_a,P_v)+λL_g

其中，L_rmse为反向均方差损失函数、λ为平衡因子，L_HMCN′、

分别为更新后的混合模态事件定位损失、听觉模态的单模态事件定位损失和视觉模态的单模态事件定位损失。

作为一种优选的技术方案，还包括层次化上下文建模网络和模态引导网络优化器独立部署训练方式。所述步骤11更详细地包括，使用三个独立的Adam优化器分别对层次化上下文建模网络、视觉-模态引导子网络和听觉-模态引导子网络进行参数优化。每个优化器可以采用不同的初始学习率、学习率衰减策略及权重衰减设置。

作为一种优选的技术方案，还包括验证和测试方式。所述步骤13更详细地包括，在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作，具体地：

P″_a＝M_a(A,V),P″_v＝M_v(A,V),P″_av＝P″_a×P″_v

其中A、V分别表示音频数据和视频数据，M_a(·)、M_v(·)分别表示听觉分支和视觉分支执行的操作，P″_a、P″_v和P″_av分别为测试集中测试样本的听觉分类概率、视觉分类概率和视听联合分类概率，用于动作或事件定位。

本发明的有益效果如下：

1.本发明通过层次化的上下文建模，更好地对具有不同时序尺寸的音视频事件进行了上下文推理，并在特征空间和概率空间进行了多层次建模，实现了更加全局化的事件信息感知，从而提高了弱监督音视频内容解析在事件级别的定位精确度；

2.本发明提出模态引导网络，进一步挖掘音频、视频模态内的信息，并引导模型学习各个模态特有的特征，强化模型的模态区分能力；

3.本发明采用了双路层次化混合模型来解决弱监督音视频内容解析任务，进一步提高了模型对不同模态的适应和理解能力；

4.本发明经测试，有效地弱监督音视频内容解析的精度，特别地，与现有技术相比，在事件级别的定位上具有较大优势。

5.本发明可用于各种多模态视频理解场合，如智慧安防系统、智慧城市治理、大数据管理与信息提取和人工智能软件开发等，可改善用户软件使用体验，提高相关领域工作人员的工作效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系，其仅仅为结构或者位置的示意图，其中：

图1是本发明的方法流程图；

图2是本发明的弱监督音视频内容解析的双路层次化混合模型结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

下面结合图1，对本发明做详细说明。

本发明提出了一种弱监督音视频内容解析的双路层次化混合模型的训练方法。该弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络。混合注意力网络用于模态特异化标签精炼，层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果。模态引导网络用于提升层次化上下文建模网络的模态辨别能力。该弱监督音视频内容解析的双路层次化混合模型的训练方法分为两个阶段，在第一阶段，先使用混合注意力网络进行模态特异化标签精炼得到不完全准确的音频标注和视频标注；在第二阶段，利用第一阶段得到的不完全准确的音频标注和视频标注，协同训练模态引导网络和层次化上下文建模网络。通过上述两阶段训练方法，可以得到具有较强模态分辨能力的层次化上下文建模网络，该网络可以较好地对音视频视频进行内容解析。

实施例一

本发明提出了一种弱监督音视频内容解析的双路层次化混合模型的训练方法，该方法包括如下内容：

混合注意力网络是一个弱监督音视频内容解析网络，由多层自注意力机制、跨模态注意力机制、多标签分类层构成，可以得到弱监督音视频内容解析的初步结果，但效果较差。模态特异化标签精炼，是指通过交换原有音频、原有视频轨道生成伪造视频，进一步观察不同事件在原视频和伪造视频中的概率变化，判断弱监督标注信息的模态依赖关系，从而实现标签的精炼。模态特异化标签精炼可以生成具有一定差异化的模态监督信息，使原来的弱监督标注转变为不完全准确的音频标注和视频标注。

步骤6：构建本发明提出的模态引导网络，其包含视觉-模态引导子网络和听觉-模态引导子网络，对于以上两个子网络，分别输入步骤3中得到的综合视觉特征和听觉特征，视觉-模态引导子网络输入综合视觉特征，预测视觉的事件或动作定位结果；听觉-模态引导子网络输入听觉特征，预测听觉的事件或动作定位结果；

步骤10：根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果，计算视觉、听觉事件定位结果之间的反向均方差损失函数，鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息，并结合步骤7-9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失。

步骤12：在验证阶段，在验证集上评估层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型。

步骤13：在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作。采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到视觉的事件或动作定位和听觉的事件或动作定位。

本发明的工作原理/工作过程为：

在数据准备阶段，对于训练数据集，仅给出每个有声视频所含有动作种类，不提供每个动作在有声视频中的时刻位置和对模态(模态包括视觉事件、听觉事件、视听联合事件)的依赖关系。此外，为便于事件的最终定位，每个有声视频都被划分为多个时序长度为1秒的片段。

在训练的第一阶段，弱监督音视频内容解析的双路层次化混合模型首先利用混合注意力网络进行模态特异化标签精炼，随后利用精炼后的标签训练层次化上下文建模网络和模态引导网络。层次化上下文建模网络通过在特征空间和概率空间进行层次化建模和特征强化，实现更加全局化的事件信息感知和事件定位。模态引导网络通过挖掘各个模态内的特异化信息，引导层次化上下文建模网络保留更强的模态区分能力。

在验证阶段，在验证集上评估层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型。

在测试阶段，保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作。采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到测试集数据视觉的事件或动作定位和听觉的事件或动作定位。

实施例二

一种弱监督音视频内容解析的双路层次化混合模型的训练方法，结合图2，本发明作为一种优选的技术方案，所述步骤5更详细地包括，层次化上下文建模网络的推理过程包括步骤5.1至5.3；

其中，

和

分别为第h层的第一音频线性映射层和第一视频线性映射层，

和

R(x,k,l)＝σ(BN(Conv1D(x,k,l)))+x

和

为第h层的音频、视频多尺度特征强化表征。

其中，P_a、P_v和P_wsl分别为听觉分类概率、视觉分类概率、不区分模态分类概率。H为设定的层次化数目上限，f_a、f_v分别为第二音频线性映射层和第二视频线性映射层，f_a(·)、f_v(·)分别为层次化上下文建模网络的第二音频线性映射层和第二视频线性映射层执行的操作，T为视频片段总数，δ(·)表示Sigmoid函数。

和

分别为时序Softmax函数和模态Softmax函数，

表示将

和

沿特征维度拼接。

步骤6.1：基于Transformer的编码器部分构建听觉-模态引导子网络和视觉-模态引导子网络，分别输入步骤3中提取的听觉特征和综合视觉特征，以迭代的方式在两个子网络内部进行单模态的上下文信息建模，挖掘模态内信息。假设经步骤3提取后的听觉特征表示为F_a，综合视觉特征表示为F_v，设Γ_a(·)、Γ_v(·)分别表示听觉-模态引导子网络和视觉-模态引导子网络执行的操作，第i次迭代过程可以由以下公式表示：

其中，

分别为第i-1次迭代后得到的音频、视频上下文信息。

L_HMCN＝BCE(P_a,Y_a)+BCE(P_v,Y_v)+BCE(P_wsl,Y)

其中

L_g＝MSE(P_a,P′_a)+MSE(P_v,P′_v)

L_HMCN′＝L_HMCN+L_rmse(P_a,P_v)+λL_g

作为一种优选的技术方案，还包括层次化上下文建模网络和模态引导网络优化器独立部署训练方式。所述步骤11更详细地包括，使用三个独立的Adam优化器分别对听觉-模态引导子网络，视觉-模态引导子网络和层次化上下文建模网络进行参数优化。每个优化器可以采用不同的初始学习率、学习率衰减策略及权重衰减设置。

作为一种优选的技术方案，还包括验证和测试方式。所述步骤13更详细地包括，在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作，具体的：

P″_a＝M_a(A,V),P″_v＝M_v(A,V),P″_av＝P″_a×P″_v

给出三个场景案例，如下所示：

第一场景案例：在Look,Listen and Parse(LLP)数据集上开展效果评估工作。该数据集涵盖了广泛的日常生活场景，包括人类活动、动物活动、音乐表演和车辆声音。详细的事件类别包括男人说话、狗叫、弹吉他和煎食物等，每个有声视频持续时长为10秒。特别地，其总共有7202个视频片段被标记了一个以上的事件类别，每个视频平均有1.64个不同的事件类别。本发明分别采用10000、649、1200的标准分割数据集进行训练、验证和测试。基于上述数据，在采用标签精炼的情况下，本发明在该数据集上与其他方法所比较的结果分别如表1所示：

表1在有标签精炼情况下在LLP数据集上的性能比较表

该实施例中采用F-Score作为评价指标，具体地，Audio，Visual，Audio-Visual，Type@AV，Event@AV分别指听觉、视觉、视听联合，模态类别平均，事件类别平均的评估结果，Seg.，Eve，Ave分别指片段级别、事件级别和两级别平均的评估结果。该实施例表明，本发明在进行标签精炼的情况下，有效提高了音视频内容解析的精度，在绝大部分指标上超越了现有方法。

第二场景案例：无标签精炼的情况下，在LLP数据集上开展效果评估工作。在该场景下，本发明不采用混合注意力网络对标签进行精炼，而是直接对层次化上下文建模网络、模态引导网络进行训练。同样地，本发明分别采用10000、649、1200的标准分割数据集进行训练、验证和测试。本发明与其他现有方法对比的结果如表2所示。

该实施例中采用F-Score作为评价指标，具体地，Audio，Visual，Audio-Visual，Type@AV，Event@AV分别指听觉、视觉、视听联合，模态类别平均，事件类别平均的评估结果，Seg.，Eve，Ave分别指片段级别、事件级别和两级别平均的评估结果。该实施例表明，本发明在不进行标签精炼的情况下，仍然在绝大部分指标上超越了现有方法。

表2在无标签精炼情况下在LLP数据集上的性能比较表

第三场景实施例：在消除部分模型结构的情况下开展效果评估工作。本发明在去除部分模型结构后，仍然表现出一定的性能优势。该实施例在LLP数据集上开展验证工作，各结构组合的结果如表3所示：

表3在去除部分模型结构时的性能比较表

该实施例中采用F-Score作为评价指标，具体地，Audio，Visual，Audio-Visual，Type@AV，Event@AV分别指听觉、视觉、视听联合，模态类别平均，事件类别平均的评估结果，Seg.，Eve，Ave分别指片段级别、事件级别和两级别平均的评估结果。F-H,P-H,A-M,V-M,Lrmse分别代表特征空间层次化集成、概率空间层次化集成，听觉-模态引导子网络，视觉-模态引导子网络，和反向均方差损失函数。该实施例表明，本发明所提出的层次化上下文建模网络有效提高了弱监督音视频内容解析在事件级别的定位精度，本发明所提出的模态引导网络有效提高了弱监督音视频内容解析的模态依赖关系的辨别能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述弱监督音视频内容解析的双路层次化混合模型结构包括混合注意力网络、层次化上下文建模网络及模态引导网络，其中，混合注意力网络用于模态特异化标签精炼；层次化上下文建模网络用于计算输入有声视频所含有的视觉、听觉、视听联合的事件定位结果；模态引导网络用于提升层次化上下文建模网络的模态辨别能力；该训练方法包括以下步骤：

步骤1：获取音视频数据集，并将其按预设比例划分为训练集、验证集、测试集，其中，训练集仅存在弱监督标注信息，即所提供的用于训练的有声视频中仅标注其含有的动作或事件种类，没有详细的模态种类标注和时刻标注数据；

步骤2：将所述音视频数据集的训练集、验证集、测试集中的有声视频拆分为音频数据和视频数据，并将音频数据和视频数据均划分为时序长度为1秒的片段；

步骤3：加载预训练的2D卷积神经网络和3D卷积神经网络，分别用于提取划分为1秒片段的视频数据中的2D视觉特征和3D视觉特征；加载预训练的VGGish网络，对划分为1秒片段的音频数据提取听觉特征；进一步地，将2D视觉特征和3D视觉特征通过连结操作融合为综合视觉特征；

步骤4：加载混合注意力网络，输入步骤3中所提取的听觉特征和综合视觉特征进行初步的音视频内容解析，随后利用混合注意力网络的预测结果，对所述音视频数据集中提供的不区分模态标注进行模态特异化标签精炼，最终得到在音频和视频模态上呈现出差异化的音频标注和视频标注；

步骤5：构建层次化上下文建模网络，输入步骤3中得到的听觉特征和综合视觉特征，进行音视频内容解析，输出对应的有声视频所含有的视觉、听觉、视听联合的事件定位结果；

步骤6：构建模态引导网络，所述模态引导网络包含视觉-模态引导子网络和听觉-模态引导子网络，视觉-模态引导子网络输入综合视觉特征，预测训练辅助用的视觉的事件或动作定位结果；听觉-模态引导子网络输入听觉特征，预测训练辅助用的听觉的事件或动作定位结果；

步骤7：根据步骤4中得到的视频标注和音频标注以及步骤5中层次化上下文建模网络的输出，计算层次化上下文建模网络的混合模态事件定位损失；

步骤8：根据步骤4中得到的视频标注和音频标注以及步骤6中视觉-模态引导子网络的输出，计算视觉模态的单模态事件定位损失；根据步骤4中得到的视频标注和音频标注以及步骤6中听觉-模态引导子网络的输出，计算听觉模态的单模态事件定位损失；

步骤9：根据步骤5和步骤6的输出，计算视觉-模态引导损失和听觉-模态引导损失，这两部分损失仅用于优化层次化上下文建模网络，对于模态引导网络，由视觉-模态引导损失函数和听觉-模态引导损失函数产生的梯度将被截断；

步骤10：根据步骤5中层次化上下文建模网络输出的结果和步骤6中模态引导网络输出的结果，计算层次化上下文建模网络输出的视觉、听觉的事件定位结果之间的反向均方差损失函数与模态引导网络输出的训练辅助用的视觉、听觉的事件定位结果之间的反向均方差损失函数，鼓励层次化上下文建模网络学习视频、音频两种模态之间的差异化信息，并结合步骤7-9中各个部分的损失函数更新混合模态事件定位损失及视觉模态的单模态事件定位损失和听觉模态的单模态事件定位损失；

2.根据权利要求1所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，该训练方法还包括以下步骤：

步骤12：在验证阶段，在验证集上评估训练完成的层次化上下文建模网络的预测结果准确性，在模型保存时仅保留层次化上下文建模网络作为部署模型，同时分别保存视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型；

步骤13：在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作；采用该含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型对测试集数据进行预测，两条分支分别得到测试集数据的视觉的事件或动作定位和听觉的事件或动作定位。

3.根据权利要求2所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤5具体包括：

步骤5.1：输入步骤3中提取的综合视觉特征和听觉特征，进行层次化特征表征，假设经步骤3提取后的听觉特征表示为F_a，综合视觉特征表示为F_v，设H为设定的层次化数目上限，对于第h层，层次化特征表征由以下公式表示：

其中，

和

分别表示第h层的第一音频线性映射层和第一视频线性映射层执行的操作，R_a(·)和R_v(·)分别为两个时序卷积残差模块执行的操作，k^h和l^h为第h层的卷积核尺寸和步长，

分别为第h层的音频、视频层次化特征表征，h＝1,2,…,H；更详细地，时序卷积残差模块R_a和R_v被表示为：

R(x,k,l)＝σ(BN(Conv1D(x,k,l)))+x

为了便于表示，此处采用R(x,k,l)代指时序卷积残差模块R_a和R_v，其中σ为激励函数、批量归一化层和时序卷积，BN(·)、Conv1D(·)分别为批量归一化层和时序卷积层执行的操作，x为时序卷积残差模块的输入的特征，k为时序卷积残差模块的卷积核尺寸，l为时序卷积残差模块的时序卷积步长；

步骤5.2：根据步骤5.1中所得到的层次化特征表征，挖掘不同层次中的特征上下文关系，并在特征空间中进行多尺度强化，具体由以下公式表示：

其中，φ_sa(·)、φ_ca(·)和I(·)分别为层次化上下文建模网络的自注意力机制层、交叉注意力机制层和上采样插值执行的操作；

和

为第h层的音频、视频多尺度特征强化表征；

步骤5.3：根据步骤5.2中所得到的音频、视频多尺度特征强化表征，利用多模态多实例学习池化模块，预测视频、音频分别所含有的视觉动作或事件类别、听觉动作或事件类别，以及不区分模态的动作或事件类别，并在概率空间中对上述三类动作或事件类别进行多尺度强化，具体由以下公式表示：

其中，P_a、P_v和P_wsl分别为听觉分类概率、视觉分类概率、不区分模态分类概率，f_a(·)、f_v(·)分别为层次化上下文建模网络的第二音频线性映射层和第二视频线性映射层执行的操作，T为视频片段总数，δ(·)表示Sigmoid函数；

和

分别为第t个片段在视觉、听觉和不区分模态设定下，在整个视频中的注意力权重值，其计算公式表示如下：

分别为时序Softmax函数和模态Softmax函数，

表示将

和

沿特征维度拼接；

4.根据权利要求3所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤6具体包括：

步骤6.1：基于Transformer的编码器部分构建听觉-模态引导子网络和视觉-模态引导子网络，分别输入步骤3中提取的听觉特征和综合视觉特征，以迭代的方式在两个子网络内部进行单模态的上下文信息建模，挖掘模态内信息，设Γ_a(·)、Γ_v(·)分别表示听觉-模态引导子网络和视觉-模态引导子网络执行的操作，第i次迭代过程表示为：

其中，

分别为第i-1次迭代后得到的音频、视频上下文信息；

步骤6.2：利用单模态多实例学习池化模块，分别预测听觉-模态引导子网络和视觉-模态引导子网络中包含的听觉动作或事件和视觉动作或事件，具体地，该步骤由以下公式表示：

其中，f_a′(·)、f_v′(·)、f′_aw(·)、f′_vw(·)分别为第三音频线性映射层、第三视频线性映射层、第二注意力线性映射层和第三注意力线性映射层执行的操作；δ为Sigmoid函数，

为时序Softmax函数；P_a′、P_v′分别为辅助听觉分类概率和辅助视觉分类概率；C_a、C_v表示经听觉-模态引导子网络和视觉-模态引导子网络多次迭代后最终得到的音频、视频上下文信息；

根据P_a′、P_v′所表示的各片段所属动作或事件类别和模态类别，按照时序长度为1秒，将相同类别的片段进行链接，从而得到视觉、听觉的事件定位结果，同时根据各事件对应的模态依赖关系，得到视听联合的事件定位结果。

5.根据权利要求4所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤7的具体内容为：

根据步骤4精炼后得到的视频标注、音频标注及所述音视频数据集提供的未经步骤4处理的不区分模态标注和步骤5中得到的听觉分类概率P_a、视觉分类概率P_v、不区分模态分类概率P_wsl，计算混合模态事件定位损失L_HMCN：

L_HMCN＝BCE(P_a,Y_a)+BCE(P_v,Y_v)+BCE(P_wsl,Y)

6.根据权利要求5所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤8的具体内容为：

根据步骤4精炼后得到的视频标注、音频标注及所述音视频数据集提供的未经步骤4处理的不区分模态标注和步骤6听觉-模态引导子网络以及视觉-模态引导子网络的输出，计算单模态事件定位损失：

其中

7.根据权利要求6所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤9的具体内容为：

根据步骤5和步骤6的输出，计算视觉-模态引导损失和听觉-模态引导损失，并求和作为最终模态引导损失L_g：

L_g＝MSE(P_a,P_a′)+MSE(P_v,P_v′)

其中，MSE(·)为均方差损失函数，L_g在优化阶段仅用于优化层次化上下文建模网络，对于模态引导网络，L_g产生的梯度将被截断。

8.根据权利要求7所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤10的具体内容为：

根据步骤5和步骤6的输出，计算视觉、听觉的事件定位结果之间的反向均方差损失函数，鼓励模型学习模态之间的差异化信息，并更新混合模态事件定位损失及单模态事件定位损失：

L_HMCN′＝L_HMCN+L_rmse(P_a,P_v)+λL_g

9.根据权利要求8所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤11中使用的3个独立的Adam优化器分别对层次化上下文建模网络、视觉-模态引导子网络和听觉-模态引导子网络进行参数优化，每个优化器能够采用不同的初始学习率、学习率衰减策略及权重衰减设置。

10.根据权利要求9所述的弱监督音视频内容解析的双路层次化混合模型的训练方法，其特征在于，所述步骤13的具体内容为：

在测试阶段，将步骤12中保存的视觉的事件或动作定位的最佳层次化上下文建模模型和听觉的事件或动作定位的最佳层次化上下文建模模型联合成为含有视觉分支和听觉分支的弱监督音视频内容解析的双路层次化混合模型，每条分支只对其相应的模态做事件定位动作，具体表示为：

P_a″＝M_a(A,V),P_v″＝M_v(A,V),P″_av＝P_a″×P_v″

其中A、V分别表示音频数据和视频数据，M_a(·)、M_v(·)分别表示听觉分支和视觉分支执行的操作，P_a″、P_v″和P″_av分别为测试集中测试样本的听觉分类概率、视觉分类概率和视听联合分类概率，用于动作或事件定位。