CN115221947A

CN115221947A - 一种基于预训练语言模型的鲁棒的多模态主动学习方法

Info

Publication number: CN115221947A
Application number: CN202210727770.0A
Authority: CN
Inventors: 高雅丽; 杜鹏飞; 李小勇; 李灵慧; 苑洁
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2022-10-21

Abstract

本发明公开了一种基于预训练语言模型的鲁棒的多模态主动学习方法，采用两阶段的混合策略，首先在不确定性度量方面采用基于动量蒸馏的掩码语言损失作为不确定性代理，其继承了ALPS这类冷启动的主动学习策略将掩码语言损失作为度量标准的优点，从输入质量本身考虑样本的不确定性。同时充分考虑样本受具体下游任务的影响，提出一种动量蒸馏方法度量预训练损失在具体任务上的变化。此外针对主动选择策略容易受集体异常值影响的问题，采用了模型训练时预测的伪标签概率和其他标签概率的间距作为异常值指示器，并将这一异常值指示器的值作为聚类初始化选择的一个依据，从而在多样性聚类时减少了异常值的选择，提升了主动选择算法的鲁棒性。

Description

一种基于预训练语言模型的鲁棒的多模态主动学习方法

技术领域

本发明涉及基于半监督的主动学习技术领域，尤其涉及一种基于预训练语言模型的鲁棒的多模态主动学习方法。

背景技术

主动学习(AL)技术力求找到并标记最有价值的示例，以最少的标记工作量训练高性能分类器。它包括对可以制定查询的场景的讨论，以及查询策略框架的概述。传统的机器学习需要相对较少的标记样本，所以早期的AL很少被赋予它应得的价值。随着深度学习(DL)的发展，各个领域都取得了突破。同时，深度学习(DL)需要大量数据，并且随着额外训练数据的添加，DL模型的性能会单调扩展。然而，获取大量高质量的标注数据集需要大量的人员，这在需要高深专业知识的学科中是不切实际的。因此，深度主动学习(DAL)作为一种可行的方法来提高模型性能，同时降低昂贵的标记成本，已经获得了广泛的普及。DL和AL的结合，已广泛应用于各个领域，包括图像识别、文本分类、视觉问答等。

目前主要存在三种主要的深度主动学习方法：基于不确定性、基于多样性以及不确定性和多样性的混合。

基于不确定性的DAL选择新的数据样本，最大限度地减少基础学习者的不确定性。一些流行的基于不确定性的方法，包括基于熵的方法(标签概率分布的熵作为度量)，最小置信(它选择最可能标签具有最低后验概率的数据)等。这些方法大多基于分类器的不确定性，选择不确定性得分最高的未标记数据。然而，对于深度学习，虽然用于分类任务的神经网络在标签上产生概率分布，但它们的softmax输出分数是较差的置信度估计。一种更通用的方法是使用贝叶斯方法来估计不确定性。比如可以使用多次前向传递获得不确定性估计。但该方法受限于随机失活(dropout)的随机性，在测试阶段需要多次前馈运行才能得到结果，因此不是一种稳定高效的方法。最近其他一些基于不确定性的方法利用比如KL散度、掩码语言损失、最后一层的梯度嵌入等做为不确定性度量的结果。

基于多样性的方法选择代表未标记数据池分布的数据点。典型的方法就是聚类方法，例如KMeans或KMeans++，其主要通过迭代采样点来选择质心，采样点与它们与最近选择的质心的平方距离成正比。

基于不确定性的主动学习方法主要考虑样本的不确定性得分，而基于多样性的方法主要从样本的分布情况入手。两种方法各有优缺点，互为补充。因此，提出了基于混合的方法，以充分融合两种方法的优点。混合方法在查询选择中权衡不确定性和代表性。

基于混合的方法是多样性方法与不确定性方法的融合，其通常采用两阶段的方法，在第一阶段利用不确定性分数作为度量标准，然后在第二阶段采用聚类算法选择出最具有代表性的点作为被选择的样例，比如基于预训练损失的主动学习(ALPS)和基于多元梯度嵌入的批量主动学习(BADGE)分别采用掩码语言损失和分类梯度向量作为度量标准，然后采用KMeans或者KMeans++进行多样性聚类。然而这种方法只提取靠近聚类中心的有问题的样本，难以区分异常值。

在某些多模态任务中，例如视觉问答(VQA)、多模态仇恨语音检测(MHSD)等，主动学习的选择算法会倾向于选择会损害模型性能的集体异常值。特别是在冷启动阶段，由于数据稀缺和模型不稳定，主动学习策略很容易学习到这些异常值，这使得很多时候主动选择算法的表现会低于随机选择策略，降低了主动学习算法的查询效率。

发明内容

本发明针对现有主动学习算法在多模态任务中对异常值不够鲁棒的问题，提出一种基于预训练语言模型的鲁棒的多模态主动学习方法，提高模型的鲁棒性和不确定性，进而提高主动学习算法的查询效率。

为了实现上述目的，本发明提供如下技术方案：

本发明提供一种基于预训练语言模型的鲁棒的多模态主动学习方法，采用两阶段的主动学习方法，第一阶段通过不确定性度量学习器学习不确定性嵌入向量，第二阶段通过鲁棒性聚类器执行鲁棒聚类，对于每个聚类中心，选择最接近它的样本集发送给标注人员进行标注；其中：

不确定性度量学习器包括基于动量蒸馏的掩码语言模型损失和异常值指示器，基于动量蒸馏的掩码语言模型损失通过动量蒸馏方法计算没有微调的动量预训练模型生成的伪目标掩码与有微调的预训练模型生成的目标掩码的相对熵(KL散度)，同时与掩码语言损失进行动态加权；异常值指示器通过计算伪分类标签概率与其他分类标签概率的边距来评估样本是否为异常值；

鲁棒性聚类器利用z标准化(z-score)方法来识别正常和异常值样本，并通过具有异常值去除的鲁棒聚类方法对数据样本进行聚类和选择。

进一步地，所述的基于动量蒸馏的掩码语言模型损失，输入令牌以0.15的概率随机掩码，预训练任务计算这些掩码令牌与真实值的损失。

进一步地，所述的基于动量蒸馏的掩码语言模型损失计算公式为：

其中，θ表示来自预训练模型的模型参数，并在训练时更新，β是一个超参数，

为掩码语言模型损失，y^mask表示为真值标记概率为1的单热词汇分布，t＝{t₀，…，t_m-1}为输入子标记，q^mask(t)表示动量模型对掩码令牌的伪预测概率，p^mask(t)表示多模态预训练模型对掩码标记的预测概率，X_U是包含每个(t，y)对的未标记数据集池。

进一步地，伪标签概率边距PPM的计算公式为：

其中，

是使用分类器模型预测的伪标签y^*的logits概率，

是最大的其他伪标签的概率，E代表迭代轮数。

进一步地，伪标签概率边距PPM在使用主动学习策略进行数据选择时获得，并用于第二阶段的鲁棒聚类。

进一步地，未标记数据集的每个样本的z-score值表示为：

zscore_i＝(PPM_i-μ)/σ

其中PPM_i是第i个实例在未标记数据集中的伪预测对数概率边际值，μ是整个样本空间中PPM_i值的平均值，σ是PPM_i在整个样本空间中的标准差。

进一步地，异常值样本表示为：

|zscore_i|＞z_thr

其中z_thr设置为2.5、3或3.5，大于z_thr的值是异常值，|zscore_i|的值越小，越正常。

进一步地，获得最具代表性的点并判断该点是否为异常值的方法为：将

作为KMeans聚类算法的输入，|zscore_i|为异常值检测的辅助指标。

进一步地，具有异常值去除的鲁棒聚类算法如下：

首先，计算所有未标记数据集池的|zscore_i|值，并按升序排序，选择|zscore_i|的最小值作为初始中心集C_k；

其次，根据欧式距离计算其他未标注样本X_u与聚类中心C_k的距离，每个点接收其最近的质心c_ki以形成K个聚类，重新计算每个聚类的质心，直到质心没有变化；

最后，对于每个聚类中心，选择最接近它的样本集，选定的样本被发送给标注员进行标注。

进一步地，根据欧式距离计算其他未标注样本X_u与聚类中心C_k的距离的公式为：

与现有技术相比，本发明的有益效果为：

本发明提供一种基于预训练语言模型的鲁棒的多模态主动学习方法，采用两阶段的混合策略，首先在不确定性度量方面采用基于动态量蒸馏的掩码语言损失作为不确定性代理，其继承了ALPS这类冷启动的主动学习策略将掩码语言损失作为度量标准，从输入质量本身考虑样本的不确定性。同时充分考虑样本受具体下游任务的影响，提出一种动量蒸馏方法度量预训练损失在具体任务上的变化。此外针对主动选择策略容易受集体异常值影响的问题，采用了模型训练时预测的伪标签概率和其他标签概率的间距作为异常值指示器，并将这一异常值指示器的值作为聚类初始化选择的一个依据，从而在多样性聚类时减少了异常值的选择，提升了主动选择算法的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于预训练语言模型的鲁棒的多模态主动学习方法架构流程图。

具体实施方式

虽然数据集是深度学习进步的重要推动力，但它们可能存在导致错误结论的偏见。我们的工作与消除数据选择偏差的工作密切相关。现有技术中，BADGE在第一阶段利用梯度嵌入作为每个未标记数据样本的不确定性度量，然后在第二阶段通过KMeans++进行聚类。ALPS采用了类似的过程，但用Masked Language Loss(MLM)代替了不确定性度量，并使用KMeans作为多样化度量。此外，虽然ALPS或BADGE使用KMeans或KMeans++聚类来获取批数据的多样性，但它难以区分异常值，因为它只提取靠近聚类中心的有问题的样本。

为了解决某些多模态任务中的异常值问题，我们提出了基于预训练语言模型的鲁棒的多模态主动学习方法(RALPLM)，是一种利用预训练语言模型的特性来帮助主动查询策略的新方法。受将掩码语言模型(MLM)损失作为不确定性的代理启发，同时考虑了训练迭代在具体下游任务下对MLM损失的影响，我们提出了一种动量蒸馏方法，用于度量原始预训练模型损失和基于特定任务的预训练损失之间的变化。同时，为保证我们选取的数据质量，我们引入了具有异常值去除的鲁棒聚类(RCOR)算法，该算法使用聚类方法和异常值指标来选择信息量最大的异常值去除实例。整个架构如图1所示。我们的主动学习算法框架属于二阶段算法整体上分为不确定向量学习器和鲁棒性聚类模块。

为了更好地理解本技术方案，下面结合附图对本发明的方法做详细的说明。

如图1所示，本发明提供一种基于预训练语言模型的鲁棒的多模态主动学习方法，属于基于池的主动学习方法，其每次从未标注的数据集中通过主动选择算法筛选出一批的数据进行标注。我们将标记数据和注释池表示为(X_L，Y_L)，未标记数据池表示为X_U。主动学习的目标是在有限的标签预算情形下，根据查询策略A从数据池中选择合适的标记候选数据。然后样本候选被标注并被添加到(X_L，Y_L)以获得给定任务的学习器的最佳性能。(X_L，Y_L)在每个阶段都会增长。

本发明的方法主要应用于利用预先训练的视觉语言模型的多模态任务。多模态预训练模型通常使用当前在各个领域表现良好的Transformers构建跨模态模型。一般来说，可以使用的多模态预训练模型包括VisualBERT、LXMERT等。它将图像的视觉区域和句子的文本标记作为输入x。给定权重W，多模态预训练编码器h(x；W)将x映射到d维隐藏表示。为了获得更好的多模态表示，预训练任务起着重要作用。通常，图像文本匹配(ITM)任务和掩码语言建模(MLM)任务对于大多数多模态预训练任务是常见的。图像文本匹配(ITM)任务是预测图像或文本是否匹配的二元分类任务。输入图像-文本对的联合嵌入被计算为[CLS]标记的最终隐藏状态。然后跟随一个全连接层和softmax函数来预测图像和文本对是否匹配，而掩蔽语言建模(MLM)任务以15％的概率随机掩蔽输入图像令牌或文本令牌，它是一个预测掩蔽令牌的多分类任务。产生损失的掩码语言建模任务可能来自文本标记、图像标记或两者。掩蔽语言建模(MLM)损失可以作为不确定性嵌入应用于AL。本发明在原始预训练模型生成的伪目标预测概率和微调预训练模型生成的目标预测概率之间添加蒸馏任务作为扩展。

在每次迭代中，将从未标记的数据集中选择大小为b的小批量实例其中来查询它们的标签，查询公式为：

Q＝xq s.t.qb＝1

其中，x代表未标记数据集的实例，q代表每个查询在整个数据集中的比例，b是每个查询的批量大小。我们使用预训练模型h(x；W)和第一个令牌头[CLS]微调多模态下游任务分类器f。假设f由

参数化，

是最后一层的权重，

由之前所有层的权重组成。

其中F是是将输入x映射到具有每个标签的置信度分数的向量的非线性函数，σ是一个softmax函数。置信度分数也称为logits向量，表示每个标签的预测概率。本发明利用logits向量来帮助识别收集的异常值。

为了有效地对合适的子集(X_L，Y_L)进行采样，以便下游任务分类器f能够更好地执行，在每次迭代中，我们使用查询策略A从数据集X_U中获取适当的(X_L，Y_L)并查询它们的标签。查询策略A依赖于获取模型S_t。在第一次采样中，它等于预训练模型的参数。之后，S_t的参数来自上一次迭代的微调。

查询策略是主动学习的关键；其原则是选择对模型学习做出最佳贡献的最有价值的实例。有价值的标准可以从不确定性、多样性和稳健性的角度出发。本发明采用两阶段的主动学习方法，同时保证了不确定性和多样性。第一阶段通过不确定性度量学习器学习不确定性嵌入向量，第二阶段通过鲁棒性聚类器执行鲁棒聚类，对于每个聚类中心，选择最接近它的样本集发送给标注人员进行标注；其中：

鲁棒性聚类器利用z-score方法来识别正常和异常值样本，并通过具有异常值去除的鲁棒聚类方法对没有异常值的数据样本进行聚类和选择。

整个框架保证了不确定性和多样性，并且对异常值具有鲁棒性。具体描述如下。

1、不确定性向量学习器

预训练的语言模型可以利用外部语言知识作为辅助知识库来展示更好的性能，而无需微调下游任务。这一原则有助于使用预训练的语言模型进行零样本或少样本学习。下游任务利用预训练模型的重构一般是将输入转化为完形填空形式，这与掩码语言模型预训练任务最为相似。从这个角度来看，预训练的掩码语言模型(MLM)任务可以在无监督环境中评估数据集的质量。另一个证据是预训练的掩码语言模型(MLM)可以被视为伪对数似然分数，用于评估相关语言的可接受性。掩码语言模型(MLM)目标可以作为随机最大伪似然估计(MPLE)，它可以评估输入的意外嵌入。基于以上讨论，一些主动学习选择策略如ALPS，也逐渐利用掩码语言模型(MLM)预训练的损失引导AL进程对文本示例进行采样。利用MLM损失的另一个好处是它有助于主动学习冷启动处理，这与大多数依赖随机训练初始化的主动学习方法不同。

1.1基于动量蒸馏的掩码语言模型损失

本发明的方法将预训练任务用于深度多模态主动学习场景并计算掩码多模态语言模型损失。它与掩码语言模型损失(MLM)相同，输入令牌以0.15的概率随机掩码，预训练任务预测这些掩码令牌。至于多模态设置，也可以从视觉模态预测被掩蔽的词，从而解决歧义。所有图像和文本标记都可以表示为m输入子标记为t＝{t₀，…，t_m-1}。随机选择15％的文本标记，并将y^mask表示为真值标记概率为1的单热词汇分布，p^mask(t)表示多模式模型对掩码标记的预测概率，掩码语言模型(MLM)损失可以被视为交叉熵损失：

其中θ表示来自预训练模型的模型参数，并在训练时更新。X_U是包含每个(t，y)对的未标记数据集池。

可以被视为查询语言难样本的不确定性代理，但它忽略了训练迭代对下游任务对预训练损失的影响，导致这种异构方法仅在前几次迭代中获得收益，但会迅速降低性能。为了解决这个问题，本发明引入了一种动量蒸馏方法，该方法从动量预训练模型(没有微调的预训练模型)生成的伪目标中学习，这可以通过训练迭代消除性能下降。令q^mask(t)表示动量模型对掩码令牌的伪预测概率，我们可以将变换的最终损失定义为：

其中，β是一个超参数，我们将其简单性定义为0.3。

1.2异常值指示器

从未标记的数据集中选择异常值会损害训练好的模型。虽然我们的不确定性嵌入主要基于预训练损失，因此对噪声有一定的抵抗力，但它仍然在很大程度上受到异常值的影响，因为预训练参数也在每次训练迭代中更新。解决数据集中异常值的更好方法是识别和删除这些异常值。然而，数据集中的大多数异常值识别方法都需要建立在标注数据集上。边距下面积(AUM)利用真值标签的概率值和其他最高未分配标签的概率值之间的边距测量样本是否被错误标记(异常值)。本发明扩展了这项工作并扩展以适应主动学习的应用场景，然后提出了一个具有未标记案例的可学习度量。本发明将伪标签y^*表示为分类器预测的最频繁标签，然后计算伪标签概率间距(PPM)为：

其中

是使用分类器模型预测的伪标签的logits概率，

是最大的其他伪标签的概率。E代表迭代轮数。需要注意的是，PPM不依赖于真值标签，它是在使用主动学习策略进行数据选择时获得的，并用于后面的鲁棒聚类。

2、鲁棒性聚类器

损失

可以指导主动学习策略来研究未标记数据集的不确定性。然而最不确定的例子不一定是最好的代表，选择最不确定的例子会降低模型的泛化性能。另一个问题是集体异常值会损害模型的性能并引导主动学习策略表现不如随机选择。然后，我们提出了一种针对集体异常值的稳健聚类方法，以过滤出最具代表性的样本。AUM可以说明简单、困难和错误标记示例的置信度(logits)范围。对于易于学习的样本，间距值为正且较大。对于异常值示例，间距值为负且较大。基于这些发现，我们认为异常值样本和正常样本之间的PPM(参见上述公式)值是不同的。然后，本发明利用统计中的z-score方法来识别正常和异常值样本。未标记数据集的每个样本的z-score值表示为：

zscore_i＝(PPM_i-μ)/σ

其中PPM_i是第i个实例在未标记数据集中的伪预测对数概率边际值，μ是整个样本空间中PPM_i值的平均值，σ是PPMi在整个样本空间中的标准差。异常值样本可以表示为：

|zscore_i|＞z_thr

其中z_thr可以设置为2.5、3或3.5，大于z_thr的值是异常值。|zscore_i|的值越小，越正常。

为了获得最具代表性的点并判断该点是否为异常值，本发明让

作为KMeans聚类算法的输入，|zscore_i|是检测异常值的辅助指标。然后我们提出了RCOR算法如下：

(1)首先，计算所有未标记数据集池的|zscore_i|值，并按升序排序。选择|zscore_i|的最小值作为初始中心集C_k。

(2)其次，根据欧式距离计算其他未标注样本X_u与聚类中心C_k的距离，公式为：

(3)每个点接收其最近的质心

以形成K个聚类，重新计算每个聚类的质心，直到质心没有变化。

最后，对于每个聚类中心，本发明选择最接近它的样本集，选定的样本被发送到标注员进行标注。

通过在多模态仇恨言论检测和多模态视觉问答的数据集中的分析表明，与其他主动学习策略相比，本发明的方法(RALPLM)在多样性和不确定性之间取得了更好的平衡，同时对有害模型性能的异常数据具有显着的鲁棒性，达到了更高的性能。

综上，本发明的基于预训练语言模型的鲁棒的多模态主动学习方法(RALPLM)，采用两阶段混合方法有效地结合了多模态预训练语言模型和深度主动学习，利用动量蒸馏掩蔽语言模型损失作为不确定性的代表，同时考虑了样本的数据质量和具体任务。提出了一种具有异常值去除的鲁棒聚类(RCOR)方法，该方法对没有异常值的数据样本进行聚类和选择，将下游任务预测概率的边际值作为异常值指标。然后我们将这两个指标应用于鲁棒聚类，以获得最有价值的注释样本，提高了模型的鲁棒性和不确定性，进而提高了主动学习算法的查询效率。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，但这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于预训练语言模型的鲁棒的多模态主动学习方法，其特征在于，采用两阶段的主动学习方法，第一阶段通过不确定性度量学习器学习不确定性嵌入向量，第二阶段通过鲁棒性聚类器执行鲁棒聚类，对于每个聚类中心，选择最接近它的样本集发送给标注人员进行标注；其中：

不确定性度量学习器包括基于动量蒸馏的掩码语言模型损失和异常值指示器，基于动量蒸馏的掩码语言模型损失通过动量蒸馏方法计算没有微调的动量预训练模型生成的伪目标掩码与有微调的预训练模型生成的目标掩码的相对熵，同时与掩码语言损失进行动态加权；异常值指示器通过计算伪分类标签概率与其他分类标签概率的边距来评估样本是否为异常值；

鲁棒性聚类器利用z标准化方法来识别正常和异常值样本，并通过具有异常值去除的鲁棒聚类方法对数据样本进行聚类和选择。

2.根据权利要求1所述的基于预训练语言模型的鲁棒的多模态主动学习方法，其特征在于，所述的基于动量蒸馏的掩码语言模型损失，输入令牌以0.15的概率随机掩码，预训练任务计算这些掩码令牌与真实值的损失。

3.根据权利要求1所述的基于预训练语言模型的鲁棒的多模态主动学习方法，其特征在于，所述的基于动量蒸馏的掩码语言模型损失的计算公式为：