CN112925885A - 一种基于领域适应的少样本文本分类方法 - Google Patents
一种基于领域适应的少样本文本分类方法 Download PDFInfo
- Publication number
- CN112925885A CN112925885A CN202110266906.8A CN202110266906A CN112925885A CN 112925885 A CN112925885 A CN 112925885A CN 202110266906 A CN202110266906 A CN 202110266906A CN 112925885 A CN112925885 A CN 112925885A
- Authority
- CN
- China
- Prior art keywords
- fulcrum
- features
- feature
- dimension
- text classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000006978 adaptation Effects 0.000 title claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims abstract description 10
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 4
- 238000007477 logistic regression Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 238000002372 labelling Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于领域适应的少样本文本分类方法,首先根据支点特征与标签之间的互信息排序,选取前N个支点特征。其次建立训练数据集,训练支点特征分类器,全部支点特征构成系数矩阵,表示非支点特征与支点特征的相关性。然后计算特征映射函数,对系数矩阵作奇异值分解,左矩阵的前h行作为映射函数。将映射函数F与输入样本特征x相乘表示源领域和目标领域共同的特征。最后在源领域语料上训练文本分类模型,并将训练好的模型用于目标领域上进行预测。本发明利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系,从而达到领域间特征迁移映射的目的。
Description
技术领域
本发明涉及文本分类领域,尤其涉及一种基于领域适应的少样本文本分类方法。
背景技术
在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,目前的技术针对少量标注样本的场景还没有成熟的方案,面对这样的现状,能否巧妙地利用现有标注资源,将模型学习到的知识迁移到少量样本场景下,是一个热门的研究方向。
目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。
本发明用于文本分类,利用相近领域的大量标注资源,在目标领域上不需要标注样本就可得到准确率较高的抽取模型。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于领域适应的少样本文本分类方法,本发明用不同领域的语料之间的相同特征作为支点特征,建立领域间特征的映射,使得在具有大量标签的源领域上训练的模型能够在没有标签的目标领域上同样表现出良好的准确率,将其应用在文本分类任务上,在相似领域间的迁移学习中,能够得到无标签目标领域文本分类较高的准确率。
本发明的目的是通过以下技术方案来实现的:一种基于领域适应的少样本文本分类方法,该方法包括如下步骤:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征作为句子的多维特征,每一维即一种n-gram特征,用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序,对排序后的特征维度选取前N个,作为支点特征,记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,左矩阵的前h行作为映射函数F。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
进一步地,所述源领域具有带标签语料和无标签语料,所述目标领域只含有无标签语料。
进一步地,所述n-gram中的n取值为2或3。
进一步地,步骤(1)中,可以使用词向量特征替换n-gram特征作为句子的支点特征。
进一步地,步骤(1)中,每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K,所述阈值K根据最终的预测精度选取。
进一步地,步骤(2)中,wi的含义表示非支点特征与支点特征之间的协方差。
进一步地,所述左矩阵的前h行中h值的选取具体为:从vector_unlab中建立测试数据,得到测试集,通过比较测试集上的准确率,选择不影响准确率的最小的h值。
本发明的有益效果:利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系,从而达到领域间特征迁移映射的目的,利用具有大量标注的源领域上训练的模型,提升具有很少标注的目标领域上的准确率。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于领域适应的少样本文本分类方法。本发明假设具备相近领域的相对充足的带标签语料和无标签语料,源领域具有带标签语料和无标签语料,目标领域只含有无标签语料。具体过程为:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征(n取值为2或3)作为句子的多维特征,每一维即一种n-gram特征,除了n-gram特征,也可以用其他类似的特征如词向量特征。用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序。对排序后的特征维度选取前N个,作为支点特征,每个被选取的特征在源领域和目标领域中出现的频次必须足够多,如大于阈值K=20。被选取特征即为支点特征,记录被选取支点特征在全部源领域和目标领域大量无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi的含义表示非支点特征与支点特征之间的协方差。wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。如果两个不同领域的非支点特征与多个相同的支点特征存在正相关性,那么两个非支点特征很可能是对应的。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,用得到的3个矩阵的左矩阵的前h行作为映射函数F,如h可预定义为30、50、100,h越小计算速度越快,但是损失的信息越多,准确率变低,根据实际测试结果来选取不影响准确率并且计算速度可接受的最小的h值。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型,如lstm;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。
Claims (7)
1.一种基于领域适应的少样本文本分类方法,其特征在于,该方法包括如下步骤:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征作为句子的多维特征,每一维即一种n-gram特征,用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序,对排序后的特征维度选取前N个,作为支点特征,记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,左矩阵的前h行作为映射函数F。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
2.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述源领域具有带标签语料和无标签语料,所述目标领域只含有无标签语料。
3.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述n-gram中的n取值为2或3。
4.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(1)中,可以使用词向量特征替换n-gram特征作为句子的支点特征。
5.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(1)中,每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K,所述阈值K根据最终的预测精度选取。
6.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(2)中,wi的含义表示非支点特征与支点特征之间的协方差。
7.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述左矩阵的前h行中h值的选取具体为:根据实际测试结果的准确率,选择不影响准确率并满足计算速度要求的最小的h值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266906.8A CN112925885A (zh) | 2021-03-11 | 2021-03-11 | 一种基于领域适应的少样本文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266906.8A CN112925885A (zh) | 2021-03-11 | 2021-03-11 | 一种基于领域适应的少样本文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112925885A true CN112925885A (zh) | 2021-06-08 |
Family
ID=76172752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266906.8A Pending CN112925885A (zh) | 2021-03-11 | 2021-03-11 | 一种基于领域适应的少样本文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925885A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829806A (zh) * | 2018-06-07 | 2018-11-16 | 中南大学 | 一种跨事件新闻文本情感分析方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
-
2021
- 2021-03-11 CN CN202110266906.8A patent/CN112925885A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108829806A (zh) * | 2018-06-07 | 2018-11-16 | 中南大学 | 一种跨事件新闻文本情感分析方法 |
CN110083700A (zh) * | 2019-03-19 | 2019-08-02 | 北京中兴通网络科技股份有限公司 | 一种基于卷积神经网络的企业舆情情感分类方法及系统 |
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
Non-Patent Citations (1)
Title |
---|
JOHN BLITZER: "Domain Adaptation with Structural Correspondence Learning", 《PROCEEDINGS OF THE 2006 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492099B (zh) | 一种基于领域对抗自适应的跨领域文本情感分类方法 | |
CN108897989B (zh) | 一种基于候选事件元素注意力机制的生物事件抽取方法 | |
CN110008338B (zh) | 一种融合gan和迁移学习的电商评价情感分析方法 | |
CN106469560B (zh) | 一种基于无监督域适应的语音情感识别方法 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN111666427A (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN111538835A (zh) | 一种基于知识图谱的社交媒体情感分类方法与装置 | |
CN113626589B (zh) | 一种基于混合注意力机制的多标签文本分类方法 | |
JP2020177647A (ja) | 画像処理装置及びその訓練装置と訓練方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN113051914A (zh) | 一种基于多特征动态画像的企业隐藏标签抽取方法及装置 | |
CN111222318A (zh) | 基于双通道双向lstm-crf网络的触发词识别方法 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN110705272A (zh) | 一种面向汽车发动机故障诊断的命名实体识别方法 | |
CN115687610A (zh) | 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质 | |
CN114328934A (zh) | 一种基于注意力机制的多标签文本分类方法及系统 | |
CN114780723B (zh) | 基于向导网络文本分类的画像生成方法、系统和介质 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN110705384B (zh) | 一种基于跨域迁移增强表示的车辆再识别方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN109242020A (zh) | 一种基于fastText和CRF的音乐领域命令理解方法 | |
CN109902174B (zh) | 一种基于方面依赖的记忆网络的情感极性检测方法 | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210608 |