CN112925885A

CN112925885A - 一种基于领域适应的少样本文本分类方法

Info

Publication number: CN112925885A
Application number: CN202110266906.8A
Authority: CN
Inventors: 韩瑞峰; 金霞; 杨红飞
Original assignee: Hangzhou Firestone Technology Co ltd
Current assignee: Hangzhou Firestone Technology Co ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2021-06-08

Abstract

本发明公开了一种基于领域适应的少样本文本分类方法，首先根据支点特征与标签之间的互信息排序，选取前N个支点特征。其次建立训练数据集，训练支点特征分类器，全部支点特征构成系数矩阵，表示非支点特征与支点特征的相关性。然后计算特征映射函数，对系数矩阵作奇异值分解，左矩阵的前h行作为映射函数。将映射函数F与输入样本特征x相乘表示源领域和目标领域共同的特征。最后在源领域语料上训练文本分类模型，并将训练好的模型用于目标领域上进行预测。本发明利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系，从而达到领域间特征迁移映射的目的。

Description

一种基于领域适应的少样本文本分类方法

技术领域

本发明涉及文本分类领域，尤其涉及一种基于领域适应的少样本文本分类方法。

背景技术

在文本信息抽取的应用场景中，场景多样、细化，缺少标注样本，标注样本获取成本高是工业应用上面临的现状，目前的技术针对少量标注样本的场景还没有成熟的方案，面对这样的现状，能否巧妙地利用现有标注资源，将模型学习到的知识迁移到少量样本场景下，是一个热门的研究方向。

目前的文本信息抽取方法中，基于模型训练的方法需要大量的标注样本，虽然有一些深度模型呈现准确度越来越高，需要的标注样本量越来越少的趋势，但仍然需要一定量的标注样本才能训练得到可用的模型，在获得样本前，无法开展工作，这样的过程相当于将开发成本转嫁到样本的标注上，整体开发效率仍然低下。

本发明用于文本分类，利用相近领域的大量标注资源，在目标领域上不需要标注样本就可得到准确率较高的抽取模型。

发明内容

本发明目的在于针对现有技术的不足，提出一种基于领域适应的少样本文本分类方法，本发明用不同领域的语料之间的相同特征作为支点特征，建立领域间特征的映射，使得在具有大量标签的源领域上训练的模型能够在没有标签的目标领域上同样表现出良好的准确率，将其应用在文本分类任务上，在相似领域间的迁移学习中，能够得到无标签目标领域文本分类较高的准确率。

本发明的目的是通过以下技术方案来实现的：一种基于领域适应的少样本文本分类方法，该方法包括如下步骤：

(1)选取支点特征

对源领域的带标签样本，计算每个样本句子n-gram特征作为句子的多维特征，每一维即一种n-gram特征，用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息，互信息越大表示支点特征与标签越相关，并对所有维度的特征按照互信息值从大到小进行排序，对排序后的特征维度选取前N个，作为支点特征，记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号，得到序号集合pi，其中包含N个支点特征的序号。

(2)建立训练数据集，训练支点特征分类器

从vector_unlab中建立训练数据，得到训练数据集，训练一组预测样本句子中是否存在支点特征的支点特征分类器，其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征，作为支点特征分类器的输出，每条数据除pi序号外的维度的非支点特征，作为支点特征分类器的输入。具体为：对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器，每个样本为一条数据，对所有数据训练逻辑回归模型，判断样本中是否存在该维特征，训练后得到逻辑回归模型的系数w_i，w_i为一个列向量，其维度为非支点特征的维度数量，对全部支点特征构成矩阵w＝[w₁,w₂,…,w_M]。w_M表示第M维支点特征，w_i中第j维的数值w_ij表示第j维非支点特征与第i维支点特征的相关性，w_ij为正值表示正相关。

(3)计算特征映射函数

对步骤(2)中得到的矩阵w作奇异值分解，左矩阵的前h行作为映射函数F。对一个输入样本的特征x，F*x表示了源领域和目标领域共同的特征。

(4)在源领域上训练文本分类模型

在源领域语料上训练文本分类模型；将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入；输出为源领域语料的原始特征x’的类别标签。

(5)在目标领域上进行文本分类

用步骤(4)中训练好的模型在目标领域上进行预测，用目标领域语料的原始特征x”与F*x进行拼接作为输入特征，预测目标领域语料的原始特征x”的类别。

进一步地，所述源领域具有带标签语料和无标签语料，所述目标领域只含有无标签语料。

进一步地，所述n-gram中的n取值为2或3。

进一步地，步骤(1)中，可以使用词向量特征替换n-gram特征作为句子的支点特征。

进一步地，步骤(1)中，每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K，所述阈值K根据最终的预测精度选取。

进一步地，步骤(2)中，w_i的含义表示非支点特征与支点特征之间的协方差。

进一步地，所述左矩阵的前h行中h值的选取具体为：从vector_unlab中建立测试数据，得到测试集，通过比较测试集上的准确率，选择不影响准确率的最小的h值。

本发明的有益效果：利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系，从而达到领域间特征迁移映射的目的，利用具有大量标注的源领域上训练的模型，提升具有很少标注的目标领域上的准确率。

附图说明

图1为本发明方法流程图。

具体实施方式

以下结合附图对本发明具体实施方式作进一步详细说明。

如图1所示，本发明提供的一种基于领域适应的少样本文本分类方法。本发明假设具备相近领域的相对充足的带标签语料和无标签语料，源领域具有带标签语料和无标签语料，目标领域只含有无标签语料。具体过程为：

(1)选取支点特征

对源领域的带标签样本，计算每个样本句子n-gram特征(n取值为2或3)作为句子的多维特征，每一维即一种n-gram特征，除了n-gram特征，也可以用其他类似的特征如词向量特征。用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息，互信息越大表示支点特征与标签越相关，并对所有维度的特征按照互信息值从大到小进行排序。对排序后的特征维度选取前N个，作为支点特征，每个被选取的特征在源领域和目标领域中出现的频次必须足够多，如大于阈值K＝20。被选取特征即为支点特征，记录被选取支点特征在全部源领域和目标领域大量无标签样本得到的n-gram特征vector_unlab中的序号，得到序号集合pi，其中包含N个支点特征的序号。

(2)建立训练数据集，训练支点特征分类器

从vector_unlab中建立训练数据，得到训练数据集，训练一组预测样本句子中是否存在支点特征的支点特征分类器，其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征，作为支点特征分类器的输出，每条数据除pi序号外的维度的非支点特征，作为支点特征分类器的输入。具体为：对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器，每个样本为一条数据，对所有数据训练逻辑回归模型，判断样本中是否存在该维特征，训练后得到逻辑回归模型的系数w_i，w_i为一个列向量，其维度为非支点特征的维度数量，对全部支点特征构成矩阵w＝[w₁,w₂,…,w_M]。w_M表示第M维支点特征，w_i的含义表示非支点特征与支点特征之间的协方差。w_i中第j维的数值w_ij表示第j维非支点特征与第i维支点特征的相关性，w_ij为正值表示正相关。如果两个不同领域的非支点特征与多个相同的支点特征存在正相关性，那么两个非支点特征很可能是对应的。

(3)计算特征映射函数

对步骤(2)中得到的矩阵w作奇异值分解，用得到的3个矩阵的左矩阵的前h行作为映射函数F，如h可预定义为30、50、100，h越小计算速度越快，但是损失的信息越多，准确率变低，根据实际测试结果来选取不影响准确率并且计算速度可接受的最小的h值。对一个输入样本的特征x，F*x表示了源领域和目标领域共同的特征。

(4)在源领域上训练文本分类模型

在源领域语料上训练文本分类模型，如lstm；将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入；输出为源领域语料的原始特征x’的类别标签。

(5)在目标领域上进行文本分类

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于领域适应的少样本文本分类方法，其特征在于，该方法包括如下步骤：

(1)选取支点特征

(2)建立训练数据集，训练支点特征分类器

(3)计算特征映射函数

(4)在源领域上训练文本分类模型

(5)在目标领域上进行文本分类

2.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，所述源领域具有带标签语料和无标签语料，所述目标领域只含有无标签语料。

3.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，所述n-gram中的n取值为2或3。

4.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，步骤(1)中，可以使用词向量特征替换n-gram特征作为句子的支点特征。

5.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，步骤(1)中，每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K，所述阈值K根据最终的预测精度选取。

6.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，步骤(2)中，w_i的含义表示非支点特征与支点特征之间的协方差。

7.根据权利要求1所述的一种基于领域适应的少样本文本分类方法，其特征在于，所述左矩阵的前h行中h值的选取具体为：根据实际测试结果的准确率，选择不影响准确率并满足计算速度要求的最小的h值。