CN113360633B - 一种基于深度域适应的跨域测试文档分类方法 - Google Patents

一种基于深度域适应的跨域测试文档分类方法 Download PDF

Info

Publication number
CN113360633B
CN113360633B CN202110641886.8A CN202110641886A CN113360633B CN 113360633 B CN113360633 B CN 113360633B CN 202110641886 A CN202110641886 A CN 202110641886A CN 113360633 B CN113360633 B CN 113360633B
Authority
CN
China
Prior art keywords
domain
data
loss
document
auxiliary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110641886.8A
Other languages
English (en)
Other versions
CN113360633A (zh
Inventor
王崇骏
杜云涛
张怡
杨海洋
资帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110641886.8A priority Critical patent/CN113360633B/zh
Publication of CN113360633A publication Critical patent/CN113360633A/zh
Application granted granted Critical
Publication of CN113360633B publication Critical patent/CN113360633B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。

Description

一种基于深度域适应的跨域测试文档分类方法
技术领域
本发明属于跨域数据的分类方法领域,尤其涉及一种基于深度域适应的跨域测试文档分类方法。
背景技术
随着大量有标注数据的出现和计算性能的提升,监督学习已经在很多领域已经取得了很好的效果。但是这些方法需要很多的时间和精力来对数据进行标注,在很多的实际场景中对此类方法的应用会受到很多的限制。因此,许多研究者开始探究从辅助领域中迁移知识到目标领域中,从而提升目标领域的效果。这正是领域自适应研究的目标。现有的领域自适应方法包括传统域适应和深度域适应。
传统域适应方法指基于非深度学习的方法,其主要包括基于样本加权和基于子空间映射的方法。前者通过辅助领域的样本和目标领域的相关性对辅助领域的样本进行加权,并基于加权后的样本来训练模型。后者旨在于学习一个映射矩阵,将辅助领域和目标领域的数据映射到一个公共子空间中,使得在此空间下,辅助领域和目标领域的分布差异得以降低,从而可以使得辅助领域上学习到的分类器可以在目标领域上取得一个比较好的效果。
深度域适应主要包括统计分布对齐和对抗域适应两部分。统计分布对齐旨在于缩小源域和目标域之间的统计距离,从而最小化两个领域之间的分布差异。对抗域适应是受到深度生成网络的启发,引入一个域判别器来进行模型的学习和训练。域判别器用来判别输入的样本是来自于源域还是目标域,特征提取器则用来和域判别器进行对抗,在对抗收敛后,可以使得特征提取器提取到领域不变的特征,从而可以提升模型在目标领域的效果。
发明内容
本发明目的在于提供一种基于深度域适应的跨域测试文档分类方法,以解决监督学习方法需要很多的时间和精力来对数据进行标注,在很多的实际场景中对此类方法的应用会受到很多的限制的技术问题。
为解决上述技术问题,本发明的具体技术方案如下:
一种基于深度域适应的跨域测试文档分类方法,包括以下步骤:
步骤1、数据采集,采集辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;
步骤2、数据预处理,包括以下步骤:
步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理,从而将整个文档划分成许多个词的组合;
步骤2.2、对划分出的词语进行去重处理;
步骤2.3、对去重后的词语进行停用词过滤,得到最终的字典;
步骤2.4、根据字典,将辅助领域和目标领域中的每个文档都表示成one-hot向量,获得该文档的初始特征表示;
步骤3、域适应阶段,将辅助领域和目标领域的数据都送入神经网络模型中,对文档进行特征提取,在获得文档的特征表示后,对这两部分数据进行损失函数的计算,其损失函数包括两部分,第一部分是辅助数据上有标注数据的分类损失,其作用是将辅助领域的样本分类正确,第二部分是两个领域之间的分布差异损失,其作用是缩小两个领域之间的分布差异来提取领域不变的特征。
进一步的,步骤3中神经网络模型是预训练语言模型,预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。
进一步的,步骤3具体包括以下步骤:
步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型中,获取文本数据的特征表示;
步骤3.2、将辅助领域的样本经过分类器层,获得模型关于辅助领域样本的概率预测分布,并和真实的样本标签计算分类损失;
步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失;
步骤3.4、将样本分类损失和分布差异损失通过一个权衡系数进行加和,将总的损失进行回传,并通过梯度下降法更新模型参数;
步骤3.5、迭代步骤3.1至步骤3.4,直到模型收敛。
本发明的一种基于深度域适应的跨域测试文档分类方法,具有以下优点:
1、本发明能够从辅助领域中迁移知识到目标领域中,只需要去收集大量的无标签样本,从而降低目标领域上数据标注的人力和时间成本。
2、本发明可结合多种网络结构进行特征的提取,可以使得本方法更加通用。
附图说明
图1为本发明的一种基于深度域适应的跨域测试文档分类方法整体流程图;
图2为本发明的对文档数据进行数据预处理过程的流程图;
具体实施方式
为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种基于深度域适应的跨域测试文档分类方法做进一步详细的描述。
如图1所示,本发明包括如下步骤:
步骤1、数据采集,足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据,辅助领域数据的数据量可以与目标领域的数据量接近,且这两类数据不存在任何特征缺失;
步骤2、数据预处理的过程如图2所示,对包括辅助领域和目标的全部文档进行分词处理,分词之后提取出全部的单词来构建词典,基于此词典将每个文档表示one-hot向量形式,其中如文档中的词语出现在字典中的则记为1,如若未出现则记为0;
步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理,从而将整个文档划分成许多个词的组合。在此步骤中,可以采用一些现有的分词工具来完成分词任务,其目标是将文档中的每句话分成多个词语表示,并将获得词语表示记为wi,i=1,…N1,,N1表示词典中的单词总数;
步骤2.2、对划分出的词语进行去重处理,由于不同的文档中会包含相同的词语,因此在这一步需要进行去重处理,使得去重后的每个词语wi都只出现一次;
步骤2.3、对去重后的词语进行停用词过滤,此部分可以参考比较通用的停用词表进行过滤,得到最终的字典s={wi},i=1,…,N2;N2表示词典中的单词总数;
步骤2.4、根据字典,将辅助领域和目标领域中的每个文档都表示成one-hot向量,对于每个文档,用于表示其的向量维度为N2,对于其中的每一维,如果字典中的词出现在该文档中,则记其为1,如若未出现则记为0,从而可以获得该文档的初始特征表示;
步骤3、域适应阶段,将辅助领域和目标领域的数据都送入神经网络中,对文档进行特征提取,在获得文档的特征表示后,对这两部分数据进行损失函数的计算。其损失函数包括两部分,第一部分是辅助数据上有标注数据的分类损失,其作用是将辅助领域的样本分类正确,第二部分是两个领域之间的分布差异损失,其作用是缩小两个领域之间的分布差异来提取领域不变的特征。
步骤3中将辅助领域和目标领域的样本同时输入到一个网络模型中,此网络模型可以是一些比较通用的网络模型,如RNN,LSTM,Transformer或者BERT等预训练语言模型。其中,预训练语言模型可以通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。在经过上述模型提取特征后,将辅助领域的数据特征通过最后的分类器层,从而获得针对辅助领域数据的预测概率,将其和样本的真实标签计算分类损失。之后在特征层面,计算辅助领域和目标领域之间的分布差异损失,将两者进行加和,获得最终的损失。方法如下:
步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型的特征提取器中,获取文本数据的特征表示,我们记作特征提取器为G,将此样本x的特征表示记为G(x)。
步骤3.2、将辅助领域的已经提取过特征的样本经过分类器层f,获得模型关于辅助领域样本的概率预测分布,对于样本其预测概率分布被表示为/>将其和真实的样本标签yi计算分类损失。我们采用交叉熵损失计算分类损失,总的分类损失可以表示为:
其中Ns为源域有标签样本总数,l()为交叉熵损失函数。
步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征/>一起用来计算分布差异损失,在此损失计算过程中,我们采用经典的最大差异距离度量来衡量两个域之间的分布差异,其损失可以被表示为,
其中Nt为目标域无标签样本总数。
步骤3.4、将样本分类损失lce和分布差异损失ld通过一个权衡系数γ进行加和,总的损失被表示为l=lce+γ*ld,之后通过梯度下降法更新模型参数。
步骤3.5、迭代步骤3.1至步骤3.4,直到模型收敛。
综上所述,本发明提出一种基于深度域适应的跨域测试文档分类方法,能够从辅助领域中迁移知识到目标领域中,只需要去收集大量的无标签样本,从而降低目标领域上数据标注的人力和时间成本
可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

Claims (3)

1.一种基于深度域适应的跨域测试文档分类方法,其特征在于,包括以下步骤:
步骤1、数据采集,采集辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;
步骤2、数据预处理,包括以下步骤:
步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理,从而将整个文档划分成许多个词的组合;
步骤2.2、对划分出的词语进行去重处理;
步骤2.3、对去重后的词语进行停用词过滤,得到最终的字典;
步骤2.4、根据字典,将辅助领域和目标领域中的每个文档都表示成one-hot向量,获得该文档的初始特征表示;
步骤3、域适应阶段,将辅助领域和目标领域的数据都送入神经网络模型中,对文档进行特征提取,在获得文档的特征表示后,对这两部分数据进行损失函数的计算,其损失函数包括两部分,第一部分是辅助数据上有标注数据的分类损失,其作用是将辅助领域的样本分类正确,第二部分是两个领域之间的分布差异损失,其作用是缩小两个领域之间的分布差异来提取领域不变的特征;
具体包括以下步骤:
步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型的特征提取器中,获取文本数据的特征表示,记作特征提取器为G,将此样本x的特征表示记为G(x);
步骤3.2、将辅助领域的已经提取过特征的样本经过分类器层f,获得模型关于辅助领域样本的概率预测分布,对于样本其预测概率分布被表示为/>将其和真实的样本标签yi计算分类损失;采用交叉熵损失计算分类损失,总的分类损失表示为:
其中Ns为源域有标签样本总数,l()为交叉熵损失函数;
步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失,在此损失计算过程中,采用最大差异距离度量来衡量两个域之间的分布差异,其损失被表示为,
其中Nt为目标域无标签样本总数;
步骤3.4、将样本分类损失lce和分布差异损失ld通过一个权衡系数γ进行加和,总的损失被表示为l=lce+γ*ld,之后通过梯度下降法更新模型参数;
步骤3.5、迭代步骤3.1至步骤3.4,直到模型收敛。
2.根据权利要求1所述的基于深度域适应的跨域测试文档分类方法,其特征在于,所述步骤3中神经网络模型是预训练语言模型,预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。
3.根据权利要求2所述的基于深度域适应的跨域测试文档分类方法,其特征在于,所述步骤3具体包括以下步骤:
步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型中,获取文本数据的特征表示;
步骤3.2、将辅助领域的样本经过分类器层,获得模型关于辅助领域样本的概率预测分布,并和真实的样本标签计算分类损失;
步骤3.3、将辅助领域的样本计算出来的特征和目标领域的样本计算出来的特征一起用来计算分布差异损失;
步骤3.4、将样本分类损失和分布差异损失通过一个权衡系数进行加和,将总的损失进行回传,并通过梯度下降法更新模型参数;
步骤3.5、迭代步骤3.1至步骤3.4,直到模型收敛。
CN202110641886.8A 2021-06-09 2021-06-09 一种基于深度域适应的跨域测试文档分类方法 Active CN113360633B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110641886.8A CN113360633B (zh) 2021-06-09 2021-06-09 一种基于深度域适应的跨域测试文档分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110641886.8A CN113360633B (zh) 2021-06-09 2021-06-09 一种基于深度域适应的跨域测试文档分类方法

Publications (2)

Publication Number Publication Date
CN113360633A CN113360633A (zh) 2021-09-07
CN113360633B true CN113360633B (zh) 2023-10-17

Family

ID=77533313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110641886.8A Active CN113360633B (zh) 2021-06-09 2021-06-09 一种基于深度域适应的跨域测试文档分类方法

Country Status (1)

Country Link
CN (1) CN113360633B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492099A (zh) * 2018-10-28 2019-03-19 北京工业大学 一种基于领域对抗自适应的跨领域文本情感分类方法
CN109902393A (zh) * 2019-03-01 2019-06-18 哈尔滨理工大学 一种基于深层特征和迁移学习的变工况下滚动轴承故障诊断方法
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110851601A (zh) * 2019-11-08 2020-02-28 福州大学 基于分层注意力机制的跨领域情感分类系统及方法
CN111104509A (zh) * 2019-11-08 2020-05-05 武汉理工大学 一种基于概率分布自适应的实体关系分类方法
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111898095A (zh) * 2020-07-10 2020-11-06 佛山科学技术学院 深度迁移学习智能故障诊断方法、装置、存储介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817668B2 (en) * 2018-11-26 2020-10-27 Sap Se Adaptive semi-supervised learning for cross-domain sentiment classification

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492099A (zh) * 2018-10-28 2019-03-19 北京工业大学 一种基于领域对抗自适应的跨领域文本情感分类方法
CN109902393A (zh) * 2019-03-01 2019-06-18 哈尔滨理工大学 一种基于深层特征和迁移学习的变工况下滚动轴承故障诊断方法
CN110032646A (zh) * 2019-05-08 2019-07-19 山西财经大学 基于多源领域适应联合学习的跨领域文本情感分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110851601A (zh) * 2019-11-08 2020-02-28 福州大学 基于分层注意力机制的跨领域情感分类系统及方法
CN111104509A (zh) * 2019-11-08 2020-05-05 武汉理工大学 一种基于概率分布自适应的实体关系分类方法
CN111400499A (zh) * 2020-03-24 2020-07-10 网易(杭州)网络有限公司 文档分类模型的训练方法、文档分类方法、装置及设备
CN111898095A (zh) * 2020-07-10 2020-11-06 佛山科学技术学院 深度迁移学习智能故障诊断方法、装置、存储介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Multi-source domain adaptation with joint learning for cross-domain sentiment classification;Chuanjun Zhao et al.;《Knowledge-Based Systems》;1-16 *
领域自适应研究综述;李晶晶 等;《计算机工程》;1-13 *

Also Published As

Publication number Publication date
CN113360633A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN110209823B (zh) 一种多标签文本分类方法及系统
CN110738247B (zh) 一种基于选择性稀疏采样的细粒度图像分类方法
Vijayakumar et al. Capsule network on font style classification
CN106469560B (zh) 一种基于无监督域适应的语音情感识别方法
JP7222319B2 (ja) 分類モデル訓練方法及び装置並びに分類方法及び装置
CN112541355B (zh) 一种实体边界类别解耦的少样本命名实体识别方法与系统
CN110188047B (zh) 一种基于双通道卷积神经网络的重复缺陷报告检测方法
CN109492750B (zh) 基于卷积神经网络和因素空间的零样本图像分类方法
CN108537257B (zh) 基于判别性字典矩阵对的零样本图像分类方法
CN106250925B (zh) 一种基于改进的典型相关分析的零样本视频分类方法
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN108681532B (zh) 一种面向中文微博的情感分析方法
CN110110087A (zh) 一种基于二分类器的用于法律文本分类的特征工程方法
CN115935998A (zh) 多特征金融领域命名实体识别方法
CN112685374B (zh) 日志分类方法、装置及电子设备
CN114971294A (zh) 数据采集方法、装置、设备及存储介质
CN111191033A (zh) 一种基于分类效用的开集分类方法
CN116910571B (zh) 一种基于原型对比学习的开集域适应方法及系统
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN113283467A (zh) 一种基于平均损失和逐类选择的弱监督图片分类方法
CN113360633B (zh) 一种基于深度域适应的跨域测试文档分类方法
CN116050419A (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN115796635A (zh) 基于大数据和机器学习的银行数字化转型成熟度评价系统
CN115098681A (zh) 一种基于有监督对比学习的开放服务意图检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant