CN112925885A - 一种基于领域适应的少样本文本分类方法 - Google Patents

一种基于领域适应的少样本文本分类方法 Download PDF

Info

Publication number
CN112925885A
CN112925885A CN202110266906.8A CN202110266906A CN112925885A CN 112925885 A CN112925885 A CN 112925885A CN 202110266906 A CN202110266906 A CN 202110266906A CN 112925885 A CN112925885 A CN 112925885A
Authority
CN
China
Prior art keywords
fulcrum
features
feature
dimension
text classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110266906.8A
Other languages
English (en)
Inventor
韩瑞峰
金霞
杨红飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Firestone Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202110266906.8A priority Critical patent/CN112925885A/zh
Publication of CN112925885A publication Critical patent/CN112925885A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于领域适应的少样本文本分类方法,首先根据支点特征与标签之间的互信息排序,选取前N个支点特征。其次建立训练数据集,训练支点特征分类器,全部支点特征构成系数矩阵,表示非支点特征与支点特征的相关性。然后计算特征映射函数,对系数矩阵作奇异值分解,左矩阵的前h行作为映射函数。将映射函数F与输入样本特征x相乘表示源领域和目标领域共同的特征。最后在源领域语料上训练文本分类模型,并将训练好的模型用于目标领域上进行预测。本发明利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系,从而达到领域间特征迁移映射的目的。

Description

一种基于领域适应的少样本文本分类方法
技术领域
本发明涉及文本分类领域,尤其涉及一种基于领域适应的少样本文本分类方法。
背景技术
在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,目前的技术针对少量标注样本的场景还没有成熟的方案,面对这样的现状,能否巧妙地利用现有标注资源,将模型学习到的知识迁移到少量样本场景下,是一个热门的研究方向。
目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。
本发明用于文本分类,利用相近领域的大量标注资源,在目标领域上不需要标注样本就可得到准确率较高的抽取模型。
发明内容
本发明目的在于针对现有技术的不足,提出一种基于领域适应的少样本文本分类方法,本发明用不同领域的语料之间的相同特征作为支点特征,建立领域间特征的映射,使得在具有大量标签的源领域上训练的模型能够在没有标签的目标领域上同样表现出良好的准确率,将其应用在文本分类任务上,在相似领域间的迁移学习中,能够得到无标签目标领域文本分类较高的准确率。
本发明的目的是通过以下技术方案来实现的:一种基于领域适应的少样本文本分类方法,该方法包括如下步骤:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征作为句子的多维特征,每一维即一种n-gram特征,用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序,对排序后的特征维度选取前N个,作为支点特征,记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,左矩阵的前h行作为映射函数F。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
进一步地,所述源领域具有带标签语料和无标签语料,所述目标领域只含有无标签语料。
进一步地,所述n-gram中的n取值为2或3。
进一步地,步骤(1)中,可以使用词向量特征替换n-gram特征作为句子的支点特征。
进一步地,步骤(1)中,每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K,所述阈值K根据最终的预测精度选取。
进一步地,步骤(2)中,wi的含义表示非支点特征与支点特征之间的协方差。
进一步地,所述左矩阵的前h行中h值的选取具体为:从vector_unlab中建立测试数据,得到测试集,通过比较测试集上的准确率,选择不影响准确率的最小的h值。
本发明的有益效果:利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系,从而达到领域间特征迁移映射的目的,利用具有大量标注的源领域上训练的模型,提升具有很少标注的目标领域上的准确率。
附图说明
图1为本发明方法流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种基于领域适应的少样本文本分类方法。本发明假设具备相近领域的相对充足的带标签语料和无标签语料,源领域具有带标签语料和无标签语料,目标领域只含有无标签语料。具体过程为:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征(n取值为2或3)作为句子的多维特征,每一维即一种n-gram特征,除了n-gram特征,也可以用其他类似的特征如词向量特征。用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序。对排序后的特征维度选取前N个,作为支点特征,每个被选取的特征在源领域和目标领域中出现的频次必须足够多,如大于阈值K=20。被选取特征即为支点特征,记录被选取支点特征在全部源领域和目标领域大量无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi的含义表示非支点特征与支点特征之间的协方差。wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。如果两个不同领域的非支点特征与多个相同的支点特征存在正相关性,那么两个非支点特征很可能是对应的。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,用得到的3个矩阵的左矩阵的前h行作为映射函数F,如h可预定义为30、50、100,h越小计算速度越快,但是损失的信息越多,准确率变低,根据实际测试结果来选取不影响准确率并且计算速度可接受的最小的h值。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型,如lstm;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (7)

1.一种基于领域适应的少样本文本分类方法,其特征在于,该方法包括如下步骤:
(1)选取支点特征
对源领域的带标签样本,计算每个样本句子n-gram特征作为句子的多维特征,每一维即一种n-gram特征,用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序,对排序后的特征维度选取前N个,作为支点特征,记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。
(2)建立训练数据集,训练支点特征分类器
从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。
(3)计算特征映射函数
对步骤(2)中得到的矩阵w作奇异值分解,左矩阵的前h行作为映射函数F。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。
(4)在源领域上训练文本分类模型
在源领域语料上训练文本分类模型;将源领域语料的原始特征x’与F*x进行拼接作为文本分类模型的输入;输出为源领域语料的原始特征x’的类别标签。
(5)在目标领域上进行文本分类
用步骤(4)中训练好的模型在目标领域上进行预测,用目标领域语料的原始特征x”与F*x进行拼接作为输入特征,预测目标领域语料的原始特征x”的类别。
2.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述源领域具有带标签语料和无标签语料,所述目标领域只含有无标签语料。
3.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述n-gram中的n取值为2或3。
4.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(1)中,可以使用词向量特征替换n-gram特征作为句子的支点特征。
5.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(1)中,每个被选取的特征在源领域和目标领域中出现的频次需要大于阈值K,所述阈值K根据最终的预测精度选取。
6.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,步骤(2)中,wi的含义表示非支点特征与支点特征之间的协方差。
7.根据权利要求1所述的一种基于领域适应的少样本文本分类方法,其特征在于,所述左矩阵的前h行中h值的选取具体为:根据实际测试结果的准确率,选择不影响准确率并满足计算速度要求的最小的h值。
CN202110266906.8A 2021-03-11 2021-03-11 一种基于领域适应的少样本文本分类方法 Pending CN112925885A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266906.8A CN112925885A (zh) 2021-03-11 2021-03-11 一种基于领域适应的少样本文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266906.8A CN112925885A (zh) 2021-03-11 2021-03-11 一种基于领域适应的少样本文本分类方法

Publications (1)

Publication Number Publication Date
CN112925885A true CN112925885A (zh) 2021-06-08

Family

ID=76172752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266906.8A Pending CN112925885A (zh) 2021-03-11 2021-03-11 一种基于领域适应的少样本文本分类方法

Country Status (1)

Country Link
CN (1) CN112925885A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829806A (zh) * 2018-06-07 2018-11-16 中南大学 一种跨事件新闻文本情感分析方法
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN110489753A (zh) * 2019-08-15 2019-11-22 昆明理工大学 改进特征选择的神经结构对应学习跨领域情感分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829806A (zh) * 2018-06-07 2018-11-16 中南大学 一种跨事件新闻文本情感分析方法
CN110083700A (zh) * 2019-03-19 2019-08-02 北京中兴通网络科技股份有限公司 一种基于卷积神经网络的企业舆情情感分类方法及系统
CN110489753A (zh) * 2019-08-15 2019-11-22 昆明理工大学 改进特征选择的神经结构对应学习跨领域情感分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JOHN BLITZER: "Domain Adaptation with Structural Correspondence Learning", 《PROCEEDINGS OF THE 2006 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *

Similar Documents

Publication Publication Date Title
CN109492099B (zh) 一种基于领域对抗自适应的跨领域文本情感分类方法
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
CN110489523B (zh) 一种基于网购评价的细粒度情感分析方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN111538835A (zh) 一种基于知识图谱的社交媒体情感分类方法与装置
JP2020177647A (ja) 画像処理装置及びその訓練装置と訓練方法
CN113626589B (zh) 一种基于混合注意力机制的多标签文本分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN113434688B (zh) 用于舆情分类模型训练的数据处理方法和装置
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN115687610A (zh) 文本意图分类模型训练方法、识别方法、装置、电子设备及存储介质
CN114780723B (zh) 基于向导网络文本分类的画像生成方法、系统和介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN110705384B (zh) 一种基于跨域迁移增强表示的车辆再识别方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN116136870A (zh) 基于增强实体表示的智能社交对话方法、对话系统
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114048314A (zh) 一种自然语言隐写分析方法
CN114328934A (zh) 一种基于注意力机制的多标签文本分类方法及系统
CN109242020A (zh) 一种基于fastText和CRF的音乐领域命令理解方法
CN112015760B (zh) 基于候选答案集重排序的自动问答方法、装置和存储介质
CN105975456A (zh) 一种企业实体名称分析识别系统
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN109902174B (zh) 一种基于方面依赖的记忆网络的情感极性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210608