CN113360633B

CN113360633B - 一种基于深度域适应的跨域测试文档分类方法

Info

Publication number: CN113360633B
Application number: CN202110641886.8A
Authority: CN
Inventors: 王崇骏; 杜云涛; 张怡; 杨海洋; 资帅
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2023-10-17
Anticipated expiration: 2041-06-09
Also published as: CN113360633A

Abstract

本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段，获取足够多的辅助领域的文档数据及其标注，以及要分类的目标领域的文档数据；2、数据预处理阶段，对俩个领域的全部文档进行词语的划分之后进行去重和去停用词，之后进行字典的构建，再将每一个文档表示成one‑hot向量的形式；3、在跨域数据迁移阶段，将辅助领域和目标领域的数据同时送入深度网络中，来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本，可结合多种网络结构进行特征的提取。

Description

一种基于深度域适应的跨域测试文档分类方法

技术领域

本发明属于跨域数据的分类方法领域，尤其涉及一种基于深度域适应的跨域测试文档分类方法。

背景技术

随着大量有标注数据的出现和计算性能的提升，监督学习已经在很多领域已经取得了很好的效果。但是这些方法需要很多的时间和精力来对数据进行标注，在很多的实际场景中对此类方法的应用会受到很多的限制。因此，许多研究者开始探究从辅助领域中迁移知识到目标领域中，从而提升目标领域的效果。这正是领域自适应研究的目标。现有的领域自适应方法包括传统域适应和深度域适应。

传统域适应方法指基于非深度学习的方法，其主要包括基于样本加权和基于子空间映射的方法。前者通过辅助领域的样本和目标领域的相关性对辅助领域的样本进行加权，并基于加权后的样本来训练模型。后者旨在于学习一个映射矩阵，将辅助领域和目标领域的数据映射到一个公共子空间中，使得在此空间下，辅助领域和目标领域的分布差异得以降低，从而可以使得辅助领域上学习到的分类器可以在目标领域上取得一个比较好的效果。

深度域适应主要包括统计分布对齐和对抗域适应两部分。统计分布对齐旨在于缩小源域和目标域之间的统计距离，从而最小化两个领域之间的分布差异。对抗域适应是受到深度生成网络的启发，引入一个域判别器来进行模型的学习和训练。域判别器用来判别输入的样本是来自于源域还是目标域，特征提取器则用来和域判别器进行对抗，在对抗收敛后，可以使得特征提取器提取到领域不变的特征，从而可以提升模型在目标领域的效果。

发明内容

本发明目的在于提供一种基于深度域适应的跨域测试文档分类方法,以解决监督学习方法需要很多的时间和精力来对数据进行标注，在很多的实际场景中对此类方法的应用会受到很多的限制的技术问题。

为解决上述技术问题，本发明的具体技术方案如下：

一种基于深度域适应的跨域测试文档分类方法，包括以下步骤：

步骤1、数据采集，采集辅助领域的文档数据及其标注，以及要分类的目标领域的文档数据；

步骤2、数据预处理，包括以下步骤：

步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理，从而将整个文档划分成许多个词的组合；

步骤2.2、对划分出的词语进行去重处理；

步骤2.3、对去重后的词语进行停用词过滤，得到最终的字典；

步骤2.4、根据字典，将辅助领域和目标领域中的每个文档都表示成one-hot向量，获得该文档的初始特征表示；

步骤3、域适应阶段，将辅助领域和目标领域的数据都送入神经网络模型中，对文档进行特征提取，在获得文档的特征表示后，对这两部分数据进行损失函数的计算，其损失函数包括两部分，第一部分是辅助数据上有标注数据的分类损失，其作用是将辅助领域的样本分类正确，第二部分是两个领域之间的分布差异损失，其作用是缩小两个领域之间的分布差异来提取领域不变的特征。

进一步的，步骤3中神经网络模型是预训练语言模型，预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。

进一步的，步骤3具体包括以下步骤：

步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型中，获取文本数据的特征表示；

步骤3.2、将辅助领域的样本经过分类器层，获得模型关于辅助领域样本的概率预测分布，并和真实的样本标签计算分类损失；

步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失；

步骤3.4、将样本分类损失和分布差异损失通过一个权衡系数进行加和，将总的损失进行回传，并通过梯度下降法更新模型参数；

步骤3.5、迭代步骤3.1至步骤3.4，直到模型收敛。

本发明的一种基于深度域适应的跨域测试文档分类方法，具有以下优点：

1、本发明能够从辅助领域中迁移知识到目标领域中，只需要去收集大量的无标签样本,从而降低目标领域上数据标注的人力和时间成本。

2、本发明可结合多种网络结构进行特征的提取，可以使得本方法更加通用。

附图说明

图1为本发明的一种基于深度域适应的跨域测试文档分类方法整体流程图；

图2为本发明的对文档数据进行数据预处理过程的流程图；

具体实施方式

为了更好地了解本发明的目的、结构及功能，下面结合附图，对本发明一种基于深度域适应的跨域测试文档分类方法做进一步详细的描述。

如图1所示，本发明包括如下步骤：

步骤1、数据采集，足够多的辅助领域的文档数据及其标注，以及要分类的目标领域的文档数据，辅助领域数据的数据量可以与目标领域的数据量接近，且这两类数据不存在任何特征缺失；

步骤2、数据预处理的过程如图2所示，对包括辅助领域和目标的全部文档进行分词处理，分词之后提取出全部的单词来构建词典，基于此词典将每个文档表示one-hot向量形式，其中如文档中的词语出现在字典中的则记为1，如若未出现则记为0；

步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理，从而将整个文档划分成许多个词的组合。在此步骤中，可以采用一些现有的分词工具来完成分词任务，其目标是将文档中的每句话分成多个词语表示，并将获得词语表示记为w_i，i＝1,…N₁,，N₁表示词典中的单词总数；

步骤2.2、对划分出的词语进行去重处理，由于不同的文档中会包含相同的词语，因此在这一步需要进行去重处理，使得去重后的每个词语w_i都只出现一次；

步骤2.3、对去重后的词语进行停用词过滤，此部分可以参考比较通用的停用词表进行过滤，得到最终的字典s＝{w_i},i＝1,…,N₂；N₂表示词典中的单词总数；

步骤2.4、根据字典，将辅助领域和目标领域中的每个文档都表示成one-hot向量，对于每个文档，用于表示其的向量维度为N₂，对于其中的每一维，如果字典中的词出现在该文档中，则记其为1，如若未出现则记为0，从而可以获得该文档的初始特征表示；

步骤3、域适应阶段，将辅助领域和目标领域的数据都送入神经网络中，对文档进行特征提取，在获得文档的特征表示后，对这两部分数据进行损失函数的计算。其损失函数包括两部分，第一部分是辅助数据上有标注数据的分类损失，其作用是将辅助领域的样本分类正确，第二部分是两个领域之间的分布差异损失，其作用是缩小两个领域之间的分布差异来提取领域不变的特征。

步骤3中将辅助领域和目标领域的样本同时输入到一个网络模型中，此网络模型可以是一些比较通用的网络模型，如RNN，LSTM，Transformer或者BERT等预训练语言模型。其中，预训练语言模型可以通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。在经过上述模型提取特征后，将辅助领域的数据特征通过最后的分类器层，从而获得针对辅助领域数据的预测概率，将其和样本的真实标签计算分类损失。之后在特征层面，计算辅助领域和目标领域之间的分布差异损失，将两者进行加和，获得最终的损失。方法如下：

步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型的特征提取器中，获取文本数据的特征表示，我们记作特征提取器为G，将此样本x的特征表示记为G(x)。

步骤3.2、将辅助领域的已经提取过特征的样本经过分类器层f，获得模型关于辅助领域样本的概率预测分布，对于样本其预测概率分布被表示为/>将其和真实的样本标签y_i计算分类损失。我们采用交叉熵损失计算分类损失，总的分类损失可以表示为：

其中N_s为源域有标签样本总数，l()为交叉熵损失函数。

步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征/>一起用来计算分布差异损失，在此损失计算过程中，我们采用经典的最大差异距离度量来衡量两个域之间的分布差异，其损失可以被表示为，

其中N_t为目标域无标签样本总数。

步骤3.4、将样本分类损失l_ce和分布差异损失l_d通过一个权衡系数γ进行加和，总的损失被表示为l＝l_ce+γ*l_d，之后通过梯度下降法更新模型参数。

步骤3.5、迭代步骤3.1至步骤3.4，直到模型收敛。

综上所述，本发明提出一种基于深度域适应的跨域测试文档分类方法，能够从辅助领域中迁移知识到目标领域中，只需要去收集大量的无标签样本，从而降低目标领域上数据标注的人力和时间成本

可以理解，本发明是通过一些实施例进行描述的，本领域技术人员知悉的，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims

1.一种基于深度域适应的跨域测试文档分类方法，其特征在于，包括以下步骤：

步骤2、数据预处理，包括以下步骤：

步骤2.2、对划分出的词语进行去重处理；

步骤3、域适应阶段，将辅助领域和目标领域的数据都送入神经网络模型中，对文档进行特征提取，在获得文档的特征表示后，对这两部分数据进行损失函数的计算，其损失函数包括两部分，第一部分是辅助数据上有标注数据的分类损失，其作用是将辅助领域的样本分类正确，第二部分是两个领域之间的分布差异损失，其作用是缩小两个领域之间的分布差异来提取领域不变的特征；

具体包括以下步骤：

步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型的特征提取器中，获取文本数据的特征表示，记作特征提取器为G，将此样本x的特征表示记为G(x)；

步骤3.2、将辅助领域的已经提取过特征的样本经过分类器层f，获得模型关于辅助领域样本的概率预测分布，对于样本其预测概率分布被表示为/>将其和真实的样本标签y_i计算分类损失；采用交叉熵损失计算分类损失，总的分类损失表示为：

其中N_s为源域有标签样本总数，l()为交叉熵损失函数；

步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失，在此损失计算过程中，采用最大差异距离度量来衡量两个域之间的分布差异，其损失被表示为,

其中N_t为目标域无标签样本总数；

步骤3.4、将样本分类损失l_ce和分布差异损失l_d通过一个权衡系数γ进行加和，总的损失被表示为l＝l_ce+γ*l_d,之后通过梯度下降法更新模型参数；

步骤3.5、迭代步骤3.1至步骤3.4，直到模型收敛。

2.根据权利要求1所述的基于深度域适应的跨域测试文档分类方法，其特征在于，所述步骤3中神经网络模型是预训练语言模型，预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。

3.根据权利要求2所述的基于深度域适应的跨域测试文档分类方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.5、迭代步骤3.1至步骤3.4，直到模型收敛。