CN114186063A - 跨域文本情绪分类模型的训练方法和分类方法 - Google Patents

跨域文本情绪分类模型的训练方法和分类方法 Download PDF

Info

Publication number
CN114186063A
CN114186063A CN202111522655.1A CN202111522655A CN114186063A CN 114186063 A CN114186063 A CN 114186063A CN 202111522655 A CN202111522655 A CN 202111522655A CN 114186063 A CN114186063 A CN 114186063A
Authority
CN
China
Prior art keywords
network model
neural network
text
domain
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111522655.1A
Other languages
English (en)
Inventor
卫星
王秀秀
赵冲
陆阳
赵明
刘玉洁
姚尚
虞浩
白婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111522655.1A priority Critical patent/CN114186063A/zh
Publication of CN114186063A publication Critical patent/CN114186063A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种跨域文本情绪分类模型的训练方法和分类方法,训练方法包括:获取源域和目标域的文本数据,进行预处理得到词向量,并分为训练集和测试集;通过双向门限循环单元网络模型和自注意力机制提取训练集中的文本特征;在损失函数的约束下,根据文本特征分别同时训练第一神经网络模型、第二神经网络模型直至收敛;其中,根据互信息,构建第一神经网络模型的损失函数,并采用梯度反转实现第二神经网络模型和特征提取器的对抗学习训练;根据测试集中的词向量,得到跨域文本情绪分类模型。本发明能够有效将未标注的文本数据集进行分类,能够将其他领域的知识迁移到目标域来避免标注数据不足的问题,同时提高跨域文本情绪分类的准确性和可信度。

Description

跨域文本情绪分类模型的训练方法和分类方法
技术领域
本发明涉及神经网络学习技术领域,特别是涉及跨域文本情绪分类模型的训练方法和分类方法。
背景技术
通常,文本分类方法主要有基于传统机器学习的算法和基于深度神经网络的算法,然而,基于传统机器学习的算法依赖人工设计的特征工程,具有维度高、稀疏性强、表达能力差、不能自动学习等诸多缺点;而基于深度神经网络的算法凭借强大的特征自学习能力,进一步推动了文本分类的进展取,但是基于深度神经网络的算法需要大量的高质量标注数据进行训练。
然而,在实际处理过程中,高质量的标注数据较为匮乏,同时,获取高质量的标注数据的过程也需要耗费大量的人力和时间;而另一方面,由于文本分类是领域依赖任务,这导致了适用于某个特定领域的文本分类模型无法适用于其他领域,因为不同领域的人们往往使用不同的表达方式和词汇,甚至在不同的领域之间,相同词汇传递的也可能是截然不同的语义,若将某个特定领域的文本分类模型应用于其他领域,其分类结果将出现较大的误差。
综上所述,现有技术中的跨域文本情绪识别模型存在训练数据获取困难、泛化性能较差等问题。
发明内容
鉴于以上现有技术的缺点,本发明的目的在于提供一种跨域文本情绪分类模型的训练方法和分类方法,以改善现有技术中跨域文本情绪识别模型存在训练数据获取困难、泛化性能较差等问题。
为实现上述目的及其他相关目的,本发明提供一种跨域文本情绪分类模型的训练方法,所述训练方法包括:
获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,所述预训练样本集包括训练集和测试集;
通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器;
在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练;
将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
在本发明一实施例中,所述获取源域和目标域的文本数据,并进行预处理,得到对应的词向量的步骤包括:
对所述源域和所述目标域中的文本数据进行词嵌入;
对所述源域和所述目标域中的文本数据进行上下文嵌入;
根据词嵌入和上下文嵌入的结果处理得到对应的词向量:
Figure BDA0003408794650000021
其中,ei表示所述词向量,word2vec(wi)表示词嵌入的结果;
Figure BDA0003408794650000022
表示上下文嵌入的结果,
Figure BDA0003408794650000023
wi表示文本数据中的第i个词汇;
Figure BDA0003408794650000024
表示文本数据中的第t个字节在第1层隐藏层的隐藏状态;P表示文本数据中字节的总数,αl表示第1层隐藏层的权重。
在本发明一实施例中,所述第一神经网络模型的损失函数为:
L1=Lsent+LMI
其中,L1表示所述第一神经网络模型的损失函数;Lsent表示来自源域的文本特征对应的损失函数,Lsent=C(f(xi),yi),C表示所述第一神经网络模型,f(xi)表示第i个来自源域的文本特征,yi表示第i个来自源域的文本特征对应的预测情感分类结果;LMI表示来自目标域的文本特征对应的损失函数,LMI=Ey[logPθ(y)]-Ex[∑yPθ(y|x)logPθ(y|x)],Pθ(y)表示来自目标域的文本特征对应的预测情感分类结果的分布,Pθ(y|x)表示来自目标域的文本特征对应的预测情感分类结果的对数。
在本发明一实施例中,所述第二神经网络模型的损失函数为:
Figure BDA0003408794650000031
其中,λ表示源域和目标域之间的权衡参数;N表示输入的文本特征的总数;f表示源域与目标域进行权重共享的特征提取网络;xt表示输入的第t个文本特征;K表示第二神经网络模型的总数;Ld表示第二神经网络模型;Dj表示第j个第二神经网络模型;
Figure BDA0003408794650000032
Ds表示源域,Dt表示目标域。
在本发明一实施例中,最小化后的损失函数之和为:
Ltotal=L1min+L2min
其中,Ltotal表示最小化后的所述第一神经网络模型和所述第二神经网络模型的损失函数之和,L1min表示最小化后的第一神经网络模型的损失函数;L2min表示最小化后的第二神经网络模型的损失函数。
在本发明一实施例中,还包括:
获取所述特征提取器、所述第一神经网络模型和所述第二神经网络模型的平衡鞍点:
Figure BDA0003408794650000033
其中,
Figure BDA0003408794650000034
分别表示所述双向门限循环单元网络模型、所述第一神经网络模型和所述第二神经网络模型在对抗域自适应学习后的平衡靶点,
Figure BDA0003408794650000035
θf,θc,θd表示所述双向门限循环单元网络模型、所述第一神经网络模型和所述第二神经网络模型的网络参数。
本发明还公开了一种跨域文本情绪分类模型的训练系统,其特征在于,包括:
处理模块,用于获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,所述预训练样本集包括训练集和测试集;
提取模块,用于通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器;
训练模块,用于在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练;
模型获取模块,用于将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
本发明还公开了一种计算机设备,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现上述跨域文本情绪分类模型的训练方法。
本发明还公开了一种计算机可读的存储介质,包括程序,当其在计算机上运行时,使得计算机执行上述跨域文本情绪分类模型的训练方法。
本发明还公开了一种跨域文本情绪分类方法,采用上述跨域文本情绪分类的训练方法训练得到的跨域文本情绪分类模型,所述跨域文本情绪分类方法包括:
获取文本数据,并进行预处理,得到对应的词向量;
将所述词向量输入所述跨域文本情绪分类模型,得到对应的预测情感分类结果。
本发明提供的一种跨域文本情绪分类模型的训练方法和分类方法能够有效将未标注的文本数据集进行分类,能够将其他领域的知识迁移到目标域来减少标注数据不足的问题,同时能够提高跨域文本情绪分类的准确性和可信度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1显示为本发明的跨域文本情绪分类模型的训练方法于一实施例中的流程框架图。
图2显示为本发明的域分类鉴别器于一实施例中的框架示意图。
图3显示为本发明的GRU于一实施例中的框架示意图。
图4显示为本发明的BERT模型于一实施例中的框架示意图。
图5显示为本发明的跨域文本情绪分类模型的训练方法于一实施例中的流程示意图。
图6显示为本发明的跨域文本情绪分类模型的训练系统于一实施例中的结构示意图。
图7显示为本发明的计算机设备于一实施例中的结构示意图。
图8显示为本发明的跨域文本情绪分类方法于一实施例中的流程示意图。
元件标号说明
100、训练系统;
110、处理模块;
120、提取模块;
130、第一训练模块;
140、第二训练模块;
150、计算模块;
160、迭代训练模块;
200、计算机设备;
210、处理器;
220、存储器。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法,通常按照常规条件,或者按照各制造商所建议的条件。
请参阅图1至图8。须知,本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时,本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载,还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。
请参阅图5,显示为本实施例中的跨域文本情绪分类模型的训练方法的流程示意图,该训练方法包括:
步骤S100、获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,预训练样本集包括训练集和测试集。
步骤S100具体包括:
使用word2vec对源域和目标域中的文本数据进行词嵌入;对源域和目标域中的文本数据进行上下文嵌入;根据词嵌入和上下文嵌入的结果处理得到对应的词向量。
词汇在预定义的向量空间中能够被表示为实数向量,单个词汇都能够映射到一个向量,即把自然语言处理中的每一个词汇,表示成一个同一纬度的短向量。
本实施例采用word2vec进行源域和目标域中的文本数据的词嵌入,该方法可以体现语义相似关系,例如采用word2vec计算距离源域中的词汇“red”最近的词嵌入,输出的结果为目标域中的词汇“white”、“black”等表示颜色的单词;且word2vec也可以体现词汇间的语义平移关系,如采用word2vec计算距离源域中的词汇“woman”-“man”+“king”最近的词嵌入,结果就是“queen”。采用word2vec进行词嵌入的结果可以表示为word2vec(ωi),其中,ωi表示为输入的第i个词汇。其中,word2vec例如可以使用谷歌新闻上的1000亿连续的词袋架构,同时在训练过程中也进行一些微调,对于词袋架构外的单词使用均匀分布(-0.25,0.25),设定word2vec每次检查的最大数目为200。
需要说明的是,本发明中word2vec采用的词袋架构能够根据实际需要进行变更,本发明对此不做限制,但均应包含在本发明的保护范围内。
本实施例采用一个预训练的语言表征模型(Bidirectional EncoderRepresentation from Transformers,BERT)进行源域和目标域中的文本数据的上下文嵌入,该BERT结构具有12层隐藏层,768个隐藏单元,12个self-attention头,以及110M参数。将文本数据输入BERT进行编码,得到上下文嵌入集合的结果可以表示为
Figure BDA0003408794650000081
其中,L表示隐藏层的总数,l∈L,
Figure BDA0003408794650000082
表示第t个字节在第l层隐藏层的字节对编码,α1表示第l层隐藏层的权重。
将上述BERT模型的权值矩阵的分布随机初始化为[-0.01,0.01],源域和目标域中的文本数据表示的维度都是相同的,例如均被设置为200,在BERT模型的训练过程中可以采用Adam算法进行优化。
根据词嵌入和上下文嵌入的结果,可以得到源域和目标域中的文本数据对应的词向量为
Figure BDA0003408794650000083
其中,ei表示词向量,word2vec(wi)表示词嵌入的结果;
Figure BDA0003408794650000084
表示上下文嵌入的结果,
Figure BDA0003408794650000085
Figure BDA0003408794650000086
wi表示文本数据中的第i个词汇;
Figure BDA0003408794650000087
表示文本数据中的第t个字节在第l层隐藏层的隐藏状态;P表示文本数据中字节的总数,αl表示第l层隐藏层的权重。
最终获取到的词向量作为与训练样本集,并按照预设比例分为训练集和测试集。
步骤S200、通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器。
步骤S200具体包括:将训练集中词向量输入双向门限循环单元网络模型,得到文本嵌入向量;随后采用自注意力机制,处理得到文本嵌入向量对应的权重;根据文本嵌入向量及对应的权重,处理得到文本特征。
本实施例中还包括一训练双向门限循环单元网络模型的过程:将词向量分为训练集和测试集;根据训练集,训练双向门限循环单元网络模型,得到训练好的双向门限循环单元网络模型;将测试集输入训练好的双向门限循环单元网络模型,当双向门限循环单元网络模型输出的文本特征符合实际文本特征的概率达到预设概率值时,将其作为最终采用的预测文本嵌入向量。
预先将本实施例中采用的双向门限循环单元网络模型(bidirectional gatedrecurrent unit,BGRU)的隐藏层大小设置为100,attention向量的维度设置为200,且BGRU模型只有两个门结构GRU:更新门和重置门,其中,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多。重置门控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入的越少。
BGRU模型有一个当前的输入,和上一个节点传递下来的隐状态,这个隐状态包含了之前节点的相关节点,结合当前的输入和上一个节点传递下来的隐状态,BGRU会得到当前输入对应的输出和传递给下一个节点的隐状态。
采用一层双向的BGRU模型可以得到词向量对应的文本嵌入向量:
Figure BDA0003408794650000091
其中,Si表示文本嵌入向量,θ1表示输入的词向量,hi-1表示第i-1层隐藏层的隐藏状态,h1-1∈Rq,q为隐藏层的大小。R表示BGRU。
进一步的,根据处理得到的文本嵌入向量,计算得到文本嵌入向量对应的权重。
注意力机制可以得到稀疏数据中的重要特征,其本质是一个query(Q)到一系列(key(K))一value(V)键值对的映射,首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重,其次通过softmax函数对计算得到的权重进行归一化处理,最后将权重和对应的value加权求和得到最后的Attention。
在该步骤中首先计算文本嵌入向量的注意力分数:
gi=tanh(W*Si+b)
其中,gi表示第i个文本嵌入向量的注意力分数,W表示权重矩阵,b表示偏差。
随后,根据self-attention得分处理得到各个词向量的权重:
Figure BDA0003408794650000101
其中,n表示文本数据中包含的词汇的总数。
最后,采用softmax激活函数对注意力分数进行归一化,根据文本嵌入向量和对应的权重,处理得到文本特征:
d={att1,...,atti,...,arrn}
atti表示第i个输入的词汇的文本特征,atti=ai*si
句子中不同的单词表达不同的语义信息,它们对于句子的表示具有不同的影响,Attention机制可以获得句子中长距离相互依赖的特征,并且限定每个单词对学习特殊表征的贡献,使用self-attention来计算每个词汇与句子中所有其他词汇之间的关联,并将关注具有较强情绪辨别能力的特征。Attention是从大量信息中筛选出少量重要信息,并聚焦到这些重要信息上面,忽略大多不重要的信息,self-attention是Attention机制的变体,其减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性,主要是通过计算单词间的互相影响,来解决长距离依赖问题。
通过上述BGRU-Attention的设置,将词向量分为两个极性的文本特征,一个极性为积极评论,一个极性为消极评论。
步骤S300、在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练。
本实施例中的第一神经网络模型的损失函数为:
L1=Lsent+LMI
其中,L1表示第一神经网络模型的损失函数;Lsent表示来自源域的文本特征对应的损失函数,Lsent=C(f(xi),yi),C表示第一神经网络模型,f(xi)表示第i个来自源域的文本特征,yi表示第i个来自源域的文本特征对应的预测情感分类结果;LMI表示来自目标域的文本特征对应的损失函数,LMI=Ey[logPθ(y)]-Ex[∑yPθ(y|x)logPθ(y|x)],Pθ(y)表示来自目标域的文本特征对应的预测分类标签的分布,Pθ(y|x)表示来自目标域的文本特征对应的预测分类标签的对数。
本实施例中的损失函数分为两个部分,第一部分来自于源域,这些文本特征带有标签,其损失函数记为Lsent;第二部分为来自于目标域,这些文本特征不带有标记,L1采用互信息最大化,避免预测过程中不合理地使预测结果偏向某一类,更好的获得类预测的决策边界,使得第一神经网络模型在预测时更加健壮。
第一神经网络模型的具体网络结构为一层全连接层,一层激活层,一层全连接层,激活层采用Relu激活函数,第一层全连接层的输入参数为(768,768),第二层全连接层输入参数为(768,2),2为本实施例中的第一神经网络模型最终分类的类别数。
针对来自于目标域、不带有标记的文本特征,根据其与第一神经网络模型输出的预测情感分类结果的互信息构建第一神经网络模型的损失函数:
一般的,互信息可以表示为:
I(X,Y)=H(Y)-H(X|Y)
根据互信息的表示可以将其最大化分为两个部分来解释:最大化H(Y)并最小化H(X|Y),前者是防止第一神经网络模型预测不合理的偏向某一类,以保证第一神经网络模型的预测分布在一个合理平衡的状态下,后者增加了对于第一神经网络模型预测的置信度,并且扩大了类之间的边际,在较大的边际下,在源域上学习到决策边界更有可能属于其中,因此允许相同的情感分类器跨域是最优的。这使得第一神经网络模型在预测时更加健壮。
来自目标域的文本特征对应的损失函数LMI即为对上述互信息的变式,表示为:
Figure BDA0003408794650000121
本实施例中第二神经网络模型的损失函数为:
Figure BDA0003408794650000122
其中,λ表示源域和目标域之间的权衡参数;N表示输入的文本特征的总数;f表示源域与目标域进行权重共享的特征提取网络;xt表示输入的第t个文本特征;K表示第二神经网络模型的总数;Ld表示第二神经网络模型;Dj表示第j个第二神经网络模型;
Figure BDA0003408794650000123
Ds表示源域,Dt表示目标域。
在本实施例中,包括两个域分类鉴别器(即两个第二神经网络模型),一个域分类鉴别器用于判别积极评论的文本特征来自目标域还是源域,其中源域中具有标记的积极评论的文本数量通过数据增强使其数量与目标域中未标记数据数量保持一致,通过梯度反转,使得特征提取器提取属于源域与目标域中具有积极评论的最大共同特征;同理第二个域分类鉴别器用于判别消极评论的文本特征来自目标域还是源域,通过梯度反转,使得特征提取器提取属于源域与目标域中具有消极评论的最大共同特征。
本实施例中采用的域分类鉴别器例如可以为基于Curriculum的蒙特卡洛dropout鉴别器。
由于集成模型的性能取决于集合实体中的数量,即本实施例中域分类鉴别器的个数。我们增加域分类鉴别器的个数会使得最终的跨域文本情绪分类模型的参数和复杂性也会增加,这也是集成方法的瓶颈所在,因为算法中参数的数量时决定模型效率的一个重要因素点。为了解决上述问题,我们在鉴别器结合中采用MC采样方法,将Bernoulli dropout使用预设概率d从域分类鉴别器中剔除一定的神经元为每个通用特征提供一组动态的域分类鉴别器,这可以保证本实施例中双向门限循环单元网络模型和自注意力机制组成的特征提取器学到真正的域不变特征,这就允许特征提取器的复杂性在整个训练过程中逐渐增加,而不是在一开始就完全复杂,即使用了机器学习原理。
在特征提取器和第二神经网络模型中采用梯度反转来实现特征提取器和第二神经网络模型的对抗域自适应学习。
步骤S400、将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
步骤S400具体包括:
计算第一神经网络模型、第二神经网络模型的损失函数之和,并将其最小化;将测试集中来自目标域的词向量依次输入特征提取器和第一神经网络模型,计算得到当前第一神经网络模型的预测精度并进行迭代训练,在迭代预设次数后,将预测精度最高的第一神经网络模型和对应的特征提取器、第二神经网络模型作为所述跨域文本情绪分类模型
本实施例中的最小化后的损失函数之和为:
Ltotal=L1min+L2min
其中,Ltotal表示最小化后的第一神经网络模型和第二神经网络模型的损失函数之和,L1min表示最小化后的第一神经网络模型的损失函数;L2min表示最小化后的第二神经网络模型的损失函数。
本实施例采用源域和目标域的文本数据进行双向门限循环单元网络模型、第一神经网络模型、第二神经网络模型的训练,这一完整的过程作为一个epoch,根据步骤S400中计算得到的来自源域、目标域的文本特征的预测情感分类结果与标准情感分类结果的匹配度,将其作为当前epoch中第一神经网络模型的预测精度。
其中,当文本特征为消极评论时,其标准情感分类结果为消极,当上述文本特征为积极评论时,其标准情感分类结果为积极。
本实施例按照预设次数进行多次迭代训练,获取到每个epoch中第一神经网络模型的预测精度,第一神经网络模型的预测精度最高时,将对应的双向门限循环单元网络模型和自注意力机制作为特征提取器,将对应的第二神经网络模型作为域分类鉴别器,当前第一神经网络模型作为情绪文本分类器,此时特征提取器、情绪文本分类器和域分类鉴别器组成跨域文本情绪分类模型。
本实施例中还包括:
获取特征提取器、第一神经网络模型和第二神经网络模型的平衡鞍点:
Figure BDA0003408794650000141
其中,
Figure BDA0003408794650000142
分别表示双向门限循环单元网络模型、第一神经网络模型和第二神经网络模型在对抗域自适应学习后的平衡靶点,
Figure BDA0003408794650000143
θf,θc,θd表示双向门限循环单元网络模型、第一神经网络模型和第二神经网络模型的网络参数。
请参阅图6,本实施例还提出了一种跨域文本情绪分类模型的训练系统100,包括:
处理模块110,用于获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,预训练样本集包括训练集和测试集;
提取模块120,用于通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器;
训练模块130,用于在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练;
模型获取模块140,用于将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
请参阅图7,本实施例还提出了一种计算机设备200,该计算机设备200包括处理器210和存储器220,处理器210和存储器220耦合,存储器220存储有程序指令,当存储器220存储的程序指令被处理器210执行时实现上述训练方法。处理器210可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;所述存储器220可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。所述存储器220也可以为随机存取存储器(Random Access Memory,RAM)类型的内部存储器,所述处理器210、存储器220可以集成为一个或多个独立的电路或硬件,如:专用集成电路(Application Specific Integrated Circuit,ASIC)。需要说明的是,上述的存储器520中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
本实施例还提出一种计算机可读的存储介质,所述存储介质存储有计算机指令,所述计算机指令用于使计算机执行上述的训练方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
请参阅图8,本发明还提供一种跨域文本情绪分类方法,采用上述跨域文本情绪分类的训练方法训练得到的跨域文本情绪分类模型,跨域文本情绪分类方法包括:
步骤SS100、获取文本数据,并进行预处理,得到对应的词向量。
步骤SS200、将词向量输入所述跨域文本情绪分类模型,得到对应的预测情感分类结果。
本发明提供的一种跨域文本情绪分类模型的训练方法和分类方法能够有效将来自目标域、且未标注的文本数据集进行分类,能够将其他领域的知识迁移到目标域来减少标注数据不足的问题,同时能够提高跨域文本情绪分类的准确性和可信度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种跨域文本情绪分类模型的训练方法,其特征在于,所述训练方法包括:
获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,所述预训练样本集包括训练集和测试集;
通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器;
在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练;
将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
2.根据权利要求1所述的训练方法,其特征在于,所述将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型的步骤包括:
计算所述第一神经网络模型、所述第二神经网络模型的损失函数之和,并将其最小化;
将测试集中来自目标域的词向量依次输入特征提取器和第一神经网络模型,计算得到当前第一神经网络模型的预测精度并进行迭代训练,在迭代预设次数后,将预测精度最高的第一神经网络模型和对应的特征提取器、第二神经网络模型作为所述跨域文本情绪分类模型。
3.根据权利要求1所述的训练方法,其特征在于,所述获取源域和目标域的文本数据,并进行预处理,得到对应的词向量的步骤包括:
对所述源域和所述目标域中的文本数据进行词嵌入;
对所述源域和所述目标域中的文本数据进行上下文嵌入;
根据词嵌入和上下文嵌入的结果处理得到对应的词向量:
Figure FDA0003408794640000021
其中,ei表示所述词向量,word2vec(wi)表示词嵌入的结果;
Figure FDA0003408794640000022
表示上下文嵌入的结果,
Figure FDA0003408794640000023
wi表示文本数据中的第i个词汇;
Figure FDA0003408794640000024
表示文本数据中的第t个字节在第1层隐藏层的隐藏状态;P表示文本数据中字节的总数,αl表示第1层隐藏层的权重。
4.根据权利要求1所述的训练方法,其特征在于,所述第一神经网络模型的损失函数为:
L1=Lsent+LMI
其中,L1表示所述第一神经网络模型的损失函数;Lsent表示来自源域的文本特征对应的损失函数,Lsent=C(f(xi),yi),C表示所述第一神经网络模型,f(xi)表示第i个来自源域的文本特征,yi表示第i个来自源域的文本特征对应的预测情感分类结果;LMI表示来自目标域的文本特征对应的损失函数,LMI=Ey[logPθ(y)]-Ex[∑yPθ(y|x)logPθ(y|x)],Pθ(y)表示来自目标域的文本特征对应的预测情感分类结果的分布,Pθ(y|x)表示来自目标域的文本特征对应的预测情感分类结果的对数。
5.根据权利要求1所述的训练方法,其特征在于,所述第二神经网络模型的损失函数为:
Figure FDA0003408794640000031
其中,λ表示源域和目标域之间的权衡参数;N表示输入的文本特征的总数;f表示源域与目标域进行权重共享的特征提取网络;xt表示输入的第t个文本特征;K表示第二神经网络模型的总数;Ld表示第二神经网络模型;Dj表示第j个第二神经网络模型;
Figure FDA0003408794640000032
Ds表示源域,Dt表示目标域。
6.根据权利要求1所述的训练方法,其特征在于,还包括:
获取所述特征提取器、所述第一神经网络模型和所述第二神经网络模型的平衡鞍点:
Figure FDA0003408794640000033
其中,
Figure FDA0003408794640000034
分别表示所述双向门限循环单元网络模型、所述第一神经网络模型和所述第二神经网络模型在对抗学习后的平衡靶点,
Figure FDA0003408794640000035
Figure FDA0003408794640000036
θf,θc,θd分别表示所述双向门限循环单元网络模型、所述第一神经网络模型和所述第二神经网络模型的网络参数。
7.一种跨域文本情绪分类模型的训练系统,其特征在于,包括:
处理模块,用于获取源域和目标域的文本数据,并进行预处理,得到对应的词向量作为预训练样本集;其中,所述预训练样本集包括训练集和测试集;
提取模块,用于通过双向门限循环单元网络模型和自注意力机制提取训练集中词向量的文本特征;其中,双向门限循环单元网络模型和自注意力机制组成特征提取器;
训练模块,用于在损失函数的约束下,根据所述文本特征分别训练所述第一神经网络模型、所述第二神经网络模型,直至收敛,得到训练好的第一神经网络模型和第二神经网络模型;其中,结合所述文本特征、第一神经网络模型输出的预测情感分类结果和互信息技术,构建第一神经网络模型的损失函数,并采用梯度反转来实现所述第二神经网络模型和所述特征提取器的对抗学习训练;
模型获取模块,用于将测试集中的词向量输入特征提取器、第一神经网络模型和第二神经网络模型,得到跨域文本情绪分类模型。
8.一种计算机设备,其特征在于,包括处理器,所述处理器和存储器耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现如权利要求1-6任意一项所述的跨域文本情绪分类模型的训练方法。
9.一种计算机可读的存储介质,其特征在于,包括程序,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的跨域文本情绪分类模型的训练方法。
10.一种跨域文本情绪分类方法,其特征在于,采用如权利要求1-6中任意一项所述的跨域文本情绪分类的训练方法训练得到的跨域文本情绪分类模型,所述跨域文本情绪分类方法包括:
获取文本数据,并进行预处理,得到对应的词向量;
将所述词向量输入所述跨域文本情绪分类模型,得到对应的预测情感分类结果。
CN202111522655.1A 2021-12-14 2021-12-14 跨域文本情绪分类模型的训练方法和分类方法 Pending CN114186063A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111522655.1A CN114186063A (zh) 2021-12-14 2021-12-14 跨域文本情绪分类模型的训练方法和分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111522655.1A CN114186063A (zh) 2021-12-14 2021-12-14 跨域文本情绪分类模型的训练方法和分类方法

Publications (1)

Publication Number Publication Date
CN114186063A true CN114186063A (zh) 2022-03-15

Family

ID=80604883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111522655.1A Pending CN114186063A (zh) 2021-12-14 2021-12-14 跨域文本情绪分类模型的训练方法和分类方法

Country Status (1)

Country Link
CN (1) CN114186063A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015896A (zh) * 2020-08-27 2020-12-01 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法、以及装置
CN116304061A (zh) * 2023-05-17 2023-06-23 中南大学 基于层次文本图结构学习的文本分类方法、装置及介质
CN117017288A (zh) * 2023-06-14 2023-11-10 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015896A (zh) * 2020-08-27 2020-12-01 腾讯科技(深圳)有限公司 基于人工智能的情感分类方法、以及装置
CN116304061A (zh) * 2023-05-17 2023-06-23 中南大学 基于层次文本图结构学习的文本分类方法、装置及介质
CN116304061B (zh) * 2023-05-17 2023-07-21 中南大学 基于层次文本图结构学习的文本分类方法、装置及介质
CN117017288A (zh) * 2023-06-14 2023-11-10 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备
CN117017288B (zh) * 2023-06-14 2024-03-19 西南交通大学 跨被试情绪识别模型及其训练方法、情绪识别方法、设备

Similar Documents

Publication Publication Date Title
US11132512B2 (en) Multi-perspective, multi-task neural network model for matching text to program code
CN110737801B (zh) 内容分类方法、装置、计算机设备和存储介质
US10474949B2 (en) Knowledge-graph biased classification for data
WO2019228317A1 (zh) 人脸识别方法、装置及计算机可读介质
CN114186063A (zh) 跨域文本情绪分类模型的训练方法和分类方法
Hong et al. Sentiment analysis with deeply learned distributed representations of variable length texts
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN111738003A (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
WO2020073700A1 (zh) 图像描述模型的训练方法、装置及存储介质
CN111460157B (zh) 用于多领域文本分类的循环卷积多任务学习方法
CN110888980A (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN109190521B (zh) 一种基于知识提纯的人脸识别模型的构建方法及应用
CN111598183A (zh) 一种多特征融合图像描述方法
CN115270752A (zh) 一种基于多层次对比学习的模板句评估方法
CN114997287A (zh) 模型训练和数据处理方法、装置、设备及存储介质
CN113627151B (zh) 跨模态数据的匹配方法、装置、设备及介质
Ludwig et al. Deep embedding for spatial role labeling
CN109101984B (zh) 一种基于卷积神经网络的图像识别方法及装置
CN115146589B (zh) 文本处理方法、装置、介质以及电子设备
CN115495579A (zh) 5g通信助理文本分类的方法、装置、电子设备及存储介质
Wang et al. Generalised zero-shot learning for entailment-based text classification with external knowledge
CN113434721A (zh) 表情包分类方法、装置、计算机设备和存储介质
CN115146021A (zh) 文本检索匹配模型的训练方法、装置、电子设备及介质
CN112800756B (zh) 一种基于prado的实体识别方法
CN113408289B (zh) 一种多特征融合的供应链管理实体知识抽取的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination