CN116383342B

CN116383342B - 一种在噪声标签下鲁棒的跨域文本检索方法

Info

Publication number: CN116383342B
Application number: CN202310367958.3A
Authority: CN
Inventors: 胡鹏; 奉仰麟; 彭德中; 彭玺; 孙元
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-11-14
Anticipated expiration: 2043-04-07
Also published as: CN116383342A

Abstract

本发明公开了一种在噪声标签下鲁棒的跨域文本检索方法，属于文本智能检索技术领域，该方法包括获取待检索数据；建立跨域文本检索深度模型；利用所述跨域文本检索深度模型对待检索数据进行检索，得到检索结果，完成跨域文本检索。本发明解决了现有的跨域文本深度学习方法在训练时无法区分文本数据中无法避免带有的噪声标签和干净标签，最终过拟合于噪声标签，导致得到的跨域文本的检索效果大幅降低的重要问题。

Description

一种在噪声标签下鲁棒的跨域文本检索方法

技术领域

本发明属于文本智能检索技术领域，尤其涉及一种在噪声标签下鲁棒的跨域文本检索方法。

背景技术

不同种类的文本间存在着格式、书写风格的固有差异。如果要想在文本中高效、准确完成检索，是需要消除这些不同种类文本间的固有域偏移，实现跨不同风格、格式域检索的。因此，在文本中实现跨域检索是十分有意义的。然而，传统的跨域文本检索方法往往视不同域的文本归属不同的分布，再基于实例层次地去消除样本对之间的差异从而消除域偏移，然而这类方法计算量巨大，容易受到异常值、噪声样本的影响，同时往往无法满足两个以上域的数据进行跨域的检索。这在该应用场景下是难以接受的。

由于不同域之间的数据存在着数据本质的差异，也就是域偏移，跨域的文本检索的标准解决范式是将每一个域的数据加以约束后，一同投影到一个公共的表示空间当中，从而消除了域偏移，可以在该公共表示空间中做跨域的检索。现有的跨域检索方法可分为两种主要类型:无监督跨域文本检索和有监督跨域文本检索。无监督跨域文本检索方法不利用标签信息来发掘域偏移，而是利用数据之间的相关性。近年来，一些无监督的方法尝试最大化不同域数据在公共表示空间的相关性，从而消除域偏移，但是所得的检索性能十分有限。为了解决上述线性方法的性能问题，一些工作开始采用核方法、非线性神经网络层来建立映射，尽管性能相较于朴素的线性方法得到大幅改善，但是仍然不够理想。监督跨域文本检索充分利用标签信息来指导域偏移的发掘与消除。一般来说，可以获得更好的性能。因此，提出了许多令人满意的方法。一些传统的机器学习方法利用费舍尔准则将不同的域数据约束投影到公共表示空间。为了捕捉不同域数据中的高度非线性，引入了深度神经网络来学习到具有辨别力和域不变性的公共表示。

然而，在跨域文本的检索中，面对海量的文本数据，标签难免会有误标与错标，从而引发噪声标签的问题。现有的跨域检索方法对这些噪声标签毫无鲁棒性，即无法自适应地区分噪声标签与干净标签进行学习与训练，极易受到噪声标签的影响从来带来错误检索与匹配。一般来说，现有的这些跨域文本检索方法都有一些共同的局限性：(1)基于实例层面，需要计算每一个样本对的相似度，计算量巨大。(2)文本涉及众多领域，目前大量方法无法适用于多于两个域文本检索。(3)现有方法不具有辨别噪声标签与干净标签的能力，在有噪声标签信息的指导下不具有鲁棒性。

发明内容

针对现有技术中的上述不足，本发明提供的一种在噪声标签下鲁棒的跨域文本检索方法解决了现有的跨域文本深度学习方法在训练时无法区分文本数据中无法避免带有的噪声标签和干净标签，最终过拟合于噪声标签，导致得到的跨域文本的检索效果大幅降低的重要问题。

为了达到上述发明目的，本发明采用的技术方案为：一种在噪声标签下鲁棒的跨域文本检索方法，包括以下步骤：

S1、获取待检索数据；

S2、获取带有噪声标签的训练数据，并根据训练数据建立跨域文本检索深度模型；

S3、利用所述跨域文本检索深度模型将待检索数据嵌入到公共表示空间，并采用最近邻法进行检索，得到跨域文本检索结果。

本发明的有益效果为：本发明采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理；让每个文本的嵌入特征更具有语义信息，带给后续模型更强的判别力；并通过鲁棒中心损失构建鲁棒的中心判别学习机制让公共子空间类内聚合，类间发散，采用随着训练轮次增大而减小的指示变量，约束模型充分运用神经网络的记忆效应，使其能够区分出噪声标签与干净标签信息，训练得到一个更为鲁棒的深度模型；以及通过公共表示分类损失构建公共表示空间一致性学习机制通过对公共表示的分布进行约束，从而消除域偏移，同时对公共表示的分类作约束，保留公共表示的原有判别力；本发明与常规的深度学习训练范式保持一致，过程简单，并采用类别中心-公共表示“一对多”的范式构造损失函数，极大减小了计算量。

进一步地，所述步骤S2具体为：

S201、获取带有噪声标签的训练数据；

S202、根据训练数据，建立深度公共表示编码器和公共表示分类器；

S203、根据深度公共表示编码器和公共表示分类器，建立跨域文本检索深度模型。

上述进一步方案的有益效果为：根据深度公共表示编码器获取公共表示；利用公共表示分类器获取公共表示预测结果，为跨域文本检索深度模型的构建做准备。

进一步地，所述步骤S201具体为：

S2011、获取带有噪声标签的标签数据与包含多个域的文本数据；

S2012、根据标签数据和文本数据，利用结巴分词技术对文本数据进行分词，得到第一单词表；

S2013、利用汉语常用停用词表去掉第一单词表的常用停用词，得到单词表；

S2014、根据单词表，利用Zh-Bert预训练语言模型得到富含语义信息的深度中文文本数据词嵌入；

S2015、根据深度中文文本数据词嵌入，得到等长度的文本数据，并根据等长度的文本数据得到带有噪声标签的训练数据。

上述进一步方案的有益效果为：采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理；让每个文本的嵌入特征更具有语义信息，带给后续模型更强的判别力。

进一步地，所述步骤S202具体为：

S2021、结合双向长短时记忆网络Bi-LSTM和Doc2Vec骨干网络，建立并初始化深度公共表示编码器；

S2022、采用单隐层全连接神经网络，建立并初始化公共表示分类器。

上述进一步方案的有益效果为：深度公共表示编码器充分发挥循环神经网络的特点，能够充分抓住所放入文本嵌入的深度双向语义信息，获得更具有判别力的文本特征；公共表示分类器利用单隐层全连接神经网络，能够简洁、有效且精准地获取到文本特征的分类结果，为计算公共表示分类损失做基础。

进一步地，所述步骤S203具体为：

S2031、将训练数据进行划分，得到批次训练数据集；

S2032、根据批次训练数据集，利用深度公共表示编码器，得到公共表示集；

S2033、根据批次训练数据集和公共表示集计算类别中心集；

S2034、根据公共表示集和类别中心集，利用鲁棒的中心判别学习机制计算鲁棒中心判别损失；

S2035、根据公共表示集，利用公共表示分类器得到公共表示预测结果集；

S2036、利用公共表示预测结果集、公共表示集中每个公共表示所对应的训练数据的类别标签计算公共表示分类损失；

S2037、根据在公共表示集中不同域但同一实例的公共表示，利用公共表示空间一致性学习机制计算多域偏移损失；

S2038、根据鲁棒中心判别损失、公共表示分类损失和多域偏移损失，得到总损失；

S2039、计算总损失的梯度，并进行反向优化传播；

S20310、判断总损失是否满足收敛条件，若是，则得到已训练的深度公共表示编码器，并进入步骤S20311，否则，返回步骤S2032；

S20311、根据已训练的深度公共表示编码器，将训练数据映射到公共子空间中，完成跨域文本检索深度模型的构建。

上述进一步方案的有益效果为：和常规深度学习训练范式保持一致，过程简单，并采用类别中心以“一对多”的范式取代了基于实例层次的“一对一”的范式，极大减小了计算量。

进一步地，所述步骤S2034中鲁棒中心判别损失的表达式为：

其中，为鲁棒中心判别损失；M为域的数量；N为每个域内样本的数量；i为样本编号；j为域编号；v为指示变量；/>为公共表示与公共空间聚类中心之间的语义差异；α为偏置常数；K为类别的数量；k为类别编号；e为以自然常数为底的指数函数；/>为第j个域的第i个样本的公共表示对应的类别；/>为公共表示空间内非第j个域的第i个样本的中心；/>为公共表示空间内第j个域的第i个样本的中心；/>为预处理后的第j个域的第i个样本通过深度公共表示编码器编码后得到的公共表示；|·|为绝对值函数；T为转置。

上述进一步方案的有益效果为：利用鲁棒中心判别损失构建鲁棒的中心判别学习机制，利用对比学习的思想，鲁棒的中心判别学习机制增加公共表示空间中公共表示与自身类别中心的相似度，减小公共表示与自身类别中心的相似度，从而让公共子空间类内聚合，类间发散，采用随着训练轮次增大而减小的指示变量，约束模型充分运用神经网络的记忆效应，能够区分出噪声标签与干净标签信息，在指示变量归零后，鲁棒地约束模型。

进一步地，所述步骤S2036中公共表示分类损失的表达式为：

其中，为公共表示分类损失；/>为使用/>进行分类的公共表示分类器；Γ为分类网络的权重。

上述进一步方案的有益效果为：利用公共表示分类损失构建公共表示空间一致性学习机制，通过对公共表示的分布进行约束，从而消除域偏移，同时对公共表示的分类作约束，保留公共表示的原有判别力。

进一步地，所述步骤S2037中多域偏移损失的表达式为：

其中，为多域偏移损失；j、p和m均为域编号；log为以自然系数为底的对数函数；τ为温度系数；/>为预处理后的第m个域的第l个样本通过深度公共表示编码器编码后得到的公共表示；/>为预处理后的第p个域的第i个样本通过深度公共表示编码器编码后得到的公共表示；l为样本编号；T为转置。

上述进一步方案的有益效果为：以同个体不同域文本的特征这样个体层面作为切入点，极大增强它们之间的相似性，进而从整体上拉近了不同域间的距离，消除了跨域偏移。

进一步地，所述步骤S2038中总损失的表达式为：

其中，为总损失；β_mg为多域偏移损失的权重；β_crc为公共表示分类损失的权重。

上述进一步方案的有益效果为：总损失通过加权结合鲁棒中心判别损失项、公共表示分别损失项和多域偏移损失项，完整、统一且鲁棒地约束得到跨域文本在公共空间具有判别力、易于检索的分布。

进一步地，所述步骤S20310中收敛条件为连续5个批次的总损失满足：

其中，为第ep个批次的总损失；/>为第ep-1个批次的总损失；|·|为绝对值函数。

上述进一步方案的有益效果为：明确深度模型的停机准则，使得模型在最优状态下停机保存。

附图说明

图1为本发明的方法流程图。

图2为本发明中跨域文本检索深度模型的构建流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，一种在噪声标签下鲁棒的跨域文本检索方法，包括以下步骤：

S1、获取待检索数据；

本实施例中，步骤S3主要包含多个步骤：

S301、获取待检索数据的公共表示，并获取其最近的20个公共表示的类别信息。

S302、取20近邻的类别出现最多者为检索数据的类别。

S303、返回S31直至完成所有数据检索。

所述步骤S2具体为：

S201、获取带有噪声标签的训练数据；

所述步骤S201具体为：

如图2所示，所述步骤S202具体为：

所述步骤S203具体为：

S2031、将训练数据进行划分，得到批次训练数据集；

S2033、根据批次训练数据集和公共表示集计算类别中心集；

S2039、计算总损失的梯度，并进行反向优化传播；

本实施例中，步骤S2032为将批次训练数据集中的数据分批次输入到深度公共表示编码器编码得到对应的公共表示；公共表示集为每个类别公共表示的集合；类别中心集为每个类别公共表示对应的类别中心的集合；公共表示预测结果集为各类别的预测结果的集合。

所述步骤S2034中鲁棒中心判别损失的表达式为：

本实施例中，υ表示一个指示变量，训练开始设置为1，随着训练轮数的增长逐渐减小，在第15轮训练结束后减少至0，α表示一个偏置常数将的期望尽可能逼近0。

所述步骤S2036中公共表示分类损失的表达式为：

所述步骤S2037中多域偏移损失的表达式为：

所述步骤S2038中总损失的表达式为：

所述步骤S20310中收敛条件为连续5个批次的总损失满足：

本发明采用了结巴分词技术和Zh-Bert预训练语言模型进行数据预处理；让每个文本的嵌入特征更具有语义信息，带给后续模型更强的判别力；并通过鲁棒中心损失构建鲁棒的中心判别学习机制让公共子空间类内聚合，类间发散，采用随着训练轮次增大而减小的指示变量，约束模型充分运用神经网络的记忆效应，使其能够区分出噪声标签与干净标签信息，训练得到一个更为鲁棒的深度模型；以及通过公共表示分类损失构建公共表示空间一致性学习机制通过对公共表示的分布进行约束，从而消除域偏移，同时对公共表示的分类作约束，保留公共表示的原有判别力；本发明与常规的深度学习训练范式保持一致，过程简单，并采用类别中心-公共表示“一对多”的范式构造损失函数，极大减小了计算量。

Claims

1.一种在噪声标签下鲁棒的跨域文本检索方法，其特征在于，包括以下步骤：

S1、获取待检索数据；

S2、获取带有噪声标签的训练数据，并根据训练数据建立跨域文本检索深度模型；所述步骤S2具体为：

S201、获取带有噪声标签的训练数据；

S203、根据深度公共表示编码器和公共表示分类器，建立跨域文本检索深度模型；

所述步骤S202具体为：

S2022、采用单隐层全连接神经网络，建立并初始化公共表示分类器；

所述步骤S203具体为：

S2031、将训练数据进行划分，得到批次训练数据集；

S2033、根据批次训练数据集和公共表示集计算类别中心集；

S2039、计算总损失的梯度，并进行反向优化传播；

S20311、根据已训练的深度公共表示编码器，将训练数据映射到公共子空间中，完成跨域文本检索深度模型的构建；

2.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S201具体为：

3.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S2034中鲁棒中心判别损失的表达式为：

其中，为鲁棒中心判别损失；M为域的数量；N为每个域内样本的数量；i为样本编号；j为域编号；υ为指示变量；/>为公共表示与公共空间聚类中心之间的语义差异；α为偏置常数；K为类别的数量；k为类别编号；e为以自然常数为底的指数函数；/>为第j个域的第i个样本的公共表示对应的类别；/>为公共表示空间内非第j个域的第i个样本的中心；为公共表示空间内第j个域的第i个样本的中心；/>为预处理后的第j个域的第i个样本通过深度公共表示编码器编码后得到的公共表示；|·|为绝对值函数；T为转置。

4.根据权利要求3所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S2036中公共表示分类损失的表达式为：

5.根据权利要求4所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S2037中多域偏移损失的表达式为：

6.根据权利要求5所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S2038中总损失的表达式为：

7.根据权利要求1所述在噪声标签下鲁棒的跨域文本检索方法，其特征在于，所述步骤S20310中收敛条件为连续5个批次的总损失满足：