CN113360659B

CN113360659B - 一种基于半监督学习的跨领域情感分类方法及系统

Info

Publication number: CN113360659B
Application number: CN202110812100.4A
Authority: CN
Inventors: 杨其越; 康雁; 朱云燕; 孔雁波; 卜荣景; 张亚钏; 钟声; 李俊锋
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2021-07-19
Filing date: 2021-07-19
Publication date: 2022-11-22
Anticipated expiration: 2041-07-19
Also published as: CN113360659A

Abstract

本发明涉及了一种基于半监督学习的跨领域情感分类方法，所述分类方法，首先，利用源域数据，采用卷积层、注意力层和多层KL散度计算公式对目标域数据进行打伪标签，然后，利用源域数据和带有伪标签的目标域数据对卷积层、注意力层和多层KL散度计算公式进行训练，一直重复上述步骤，直到完成目标域数据的分类，本发明使用半监督跨领域方法，实现在无需对目标域数据进行标记的条件下，对目标域数据的有效分类，有效的解决某些新的领域存在标记数据不足的问题，提高了分类的准确性。

Description

一种基于半监督学习的跨领域情感分类方法及系统

技术领域

本发明涉及情感分类技术领域，特别是涉及一种基于半监督学习的跨领域情感分类方法及系统。

背景技术

跨领域情感分类旨在通过源领域的标注数据对目标领域的无标注数据进行情感分类，如从电子领域(源领域)到餐饮领域(目标领域)。这是现在一个很有挑战性且引起了各方面广泛关注的任务。

为了尽可能的最小化源域和目标域之间的向量空间距离，减少领域间的差异，提高情感分类的准确率，跨领域的情感分类分析显得尤为重要。情感分类领域包含众多研究任务，而这其中，进行准确的跨领域情感分类显得尤为突出和重要，这一研究任务已经成为自然语言处理在社区发展中日益重要的应用，受到在线评论网站和社交媒体的广泛研究。跨领域情感分类的研究一方面可以降低因数据标记所要消耗的成本，另一方面可以提高在线网站和社交媒体用户的满意度。

情感分类问题的本质是根据文本所表达的含义和情感信息将文本数据划分成积极、中性、消极三种类型或者其它的自定义的几种类型，是方法研究者倾向性和观点、态度的划分。针对这类问题，研究者做了大量的研究，这些研究可以依据不同的分类方法进行分析，这里主要讨论基于机器学习的分类方法。

基于机器学习的分类方法：(1)2002年首次将有监督的学习方法应用到情感分类中，此后的二十年有监督学习的情感分类方法多次大量标注样本的训练；(2)从2009年起，聚类方法、集成学习多种机器学习方法融入到基于半监督学习的情感分类中；(3)基于无监督学习的情感分类方法是指仅使用非标注样本进行情感分类建模，以往的大多数研究都是通过情感分类标注的种子词集来实现无监督分类的。

当前某些新的领域存在标记数据不足的问题，而且人工标注成本过高。

发明内容

本发明的目的是提供一种基于半监督学习的跨领域情感分类方法及系统，以克服新的领域存在标记数据不足的问题。

为实现上述目的，本发明提供了如下方案：

本发明提供一种基于半监督学习的跨领域情感分类方法，所述分类方法包括如下步骤：

获取带有标签的源域数据集和不带标签的目标域数据集；

将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果；

根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度；

依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小，当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时，将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签；

判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值，获得第一判断结果；

若所述第一判断结果表示否，则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”；

若所述第一判断结果表示是，则输出带有伪标签的目标域数据集。

可选的，所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

其中，loss_kl表示目标域数据与源域数据的多层KL散度，Katt表示源域数据的卷积层特征提取结果与目标域数据的卷积层特征提取结果的KL散度，Kcnn表示源域数据的注意力层特征提取结果与目标域数据的注意力层特征提取结果的KL散度，Ks表示源域数据的卷积层特征提取结果与注意力层提取结果的KL散度，Kt表示目标域数据的卷积层特征提取结果和注意力层提取结果的KL散度，K表示源域数据的卷积层特征提取结果和注意力层提取结果的融合特征与目标域数据的卷积层特征提取结果和注意力层提取结果的融合特征的KL散度，α和γ分别表示第一权重系数和第二权重系数。

可选的，利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，具体包括：

从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集；

根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果；

根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失；

判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值，获得第二判断结果；

若所述第二判断结果表示否，则更新所述卷积层和所述注意力层的参数，及所述多层KL散度计算公式中的权重系数，返回步骤“根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果”；

若所述第二判断结果表示是，则结束训练。

可选的，所述根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果，具体包括：

将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取，获得所述标准数据集中每个标准数据的特征提取结果；

选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据，作为待分类数据；

将所述待分类数据输入所述卷积层和所述注意力层进行特征提取，获得所述待分类数据的特征提取结果；

根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果，利用所述多层KL散度计算公式，计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度；

获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签，作为所述待分类数据的分类结果。

可选的，所述根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失，具体包括：

根据所述分类结果，采用交叉熵损失函数，分别计算源域数据损失、目标域数据损失和集成损失。

一种基于半监督学习的跨领域情感分类系统，所述分类系统包括：

数据集获取模块，用于获取带有标签的源域数据集和不带标签的目标域数据集；

特征提取模块，用于将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果；

多层KL散度计算模块，用于根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度；

伪标签确定模块，用于依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小，当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时，将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签；

第一判断模块，用于判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值，获得第一判断结果；

训练模块，用于若所述第一判断结果表示否，则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”；

分类结果输出模块，用于若所述第一判断结果表示是，则输出带有伪标签的目标域数据集。

可选的，所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

可选的，所述训练模块，具体包括：

标准数据集构建子模块，用于从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集；

分类子模块，用于根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果；

损失计算子模块，用于根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失；

第二判断子模块，用于判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值，获得第二判断结果；

参数更新子模块，用于若所述第二判断结果表示否，则更新所述卷积层和所述注意力层的参数，及所述多层KL散度计算公式中的权重系数，返回步骤“根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果”；

结束训练子模块，用于若所述第二判断结果表示是，则结束训练。

可选的，所述分类子模块，具体包括：

第一特征提取单元，用于将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取，获得所述标准数据集中每个标准数据的特征提取结果；

待分类数据选取单元，用于选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据，作为待分类数据；

第二特征提取单元，用于将所述待分类数据输入所述卷积层和所述注意力层进行特征提取，获得所述待分类数据的特征提取结果；

多层KL散度计算单元，用于根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果，利用所述多层KL散度计算公式，计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度；

分类结果确定单元，用于获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签，作为所述待分类数据的分类结果。

可选的，所述损失计算子模块，具体包括：

损失计算单元，用于根据所述分类结果，采用交叉熵损失函数，分别计算源域数据损失、目标域数据损失和集成损失。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于半监督学习的跨领域情感分类方法，所述分类方法，首先，利用源域数据，采用卷积层、注意力层和多层KL散度计算公式对目标域数据进行打伪标签，然后，利用源域数据和带有伪标签的目标域数据对卷积层、注意力层和多层KL散度计算公式进行训练，一直重复上述步骤，直到完成目标域数据的分类，本发明使用半监督跨领域方法，实现在无需对目标域数据进行标记的条件下，对目标域数据的有效分类，有效的解决某些新的领域存在标记数据不足的问题，提高了分类的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于半监督学习的跨领域情感分类方法的流程图；

图2为本发明提供的种基于半监督学习的跨领域情感分类方法的原理图；

图3为本发明提供的多层KL散度计算公式的原理图；

图4为本发明具体实施例提供的实验1中不同算法的分类结果对比图；

图5为本发明具体实施例提供的实验2中不同算法的分类结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明利用自训练方法结合神经网络模型训练出跨领域情感分类器，训练数据包括源域中标记的数据和目标域中置信度高的打伪标签的数据。

如图1和2所示，本发明提供本发明提供一种基于半监督学习的跨领域情感分类方法，所述分类方法包括如下步骤：

步骤101，获取带有标签的源域数据集和不带标签的目标域数据集。

对跨领域的文本数据进行情感分类标签等特征处理，具体包括：

S11：源域数据与目标域数据输入，使用有标记的源域数据和无标记的目标域数据。首先D_s表示源域数据集，D_t表示目标域数据集，假设有标记的数据n_s训练数据来自

目标域中无标签数据集合记为

其中n_t表示目标域中无标签数据集个数；

S12：数据形式转换，将源域数据和未标记的目标域数据的文本形式通过分词、过滤停用词、word2vec转换为向量形式；

S13：情感分类标签处理，将文本数据对应的不同等级统一处理分为积极、消极、中性三个等级。

以上方法，文本评论的数据集，通过将数据集的标签信息将其划分为源域数据集和目标域数据集，根据分词、过滤停用词等操作将评论数据集转换为向量表示；将数据集中的五个等级按照>3、<3、＝3将情感分类为积极、消极、中性；或者从数据集设置中选取积极和消极两类数据，以便于评估在二分类任务中的效果。

步骤102，将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果。

本发明利用卷积神经网络模型和注意力层的融合作为特征自适应模块的文本特征提取部分，并且在特征编码过程中使用同一层共享空间，从而更加准确的提取源域和目标域之间的共有特征部分和特有特征部分。

步骤103，根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度。

所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

其中，如图3所示，loss_kl表示目标域数据与源域数据的多层KL散度，Katt表示源域数据的卷积层特征提取结果与目标域数据的卷积层特征提取结果的KL散度，Kcnn表示源域数据的注意力层特征提取结果与目标域数据的注意力层特征提取结果的KL散度，Ks表示源域数据的卷积层特征提取结果与注意力层提取结果的KL散度，Kt表示目标域数据的卷积层特征提取结果和注意力层提取结果的KL散度，K表示源域数据的卷积层特征提取结果和注意力层提取结果的融合特征与目标域数据的卷积层特征提取结果和注意力层提取结果的融合特征的KL散度，α和γ分别表示第一权重系数和第二权重系数，在(0，1]之间取值。

以Katt为例说明KL散度的计算公式：

KL＝2*(KL(d_s||d_t)+KL(d_t||d_s))；

其中，

表示源域数据的卷积层特征提取结果，

表示目标域数据的卷积层特征提取结果，d′_s表示源域数据的卷积层特征提取结果的平均表示(mean representations)，d′_t代表目标域数据的卷积层特征提取结果的平均表示(mean representations)，d_s表示源域数据的卷积层特征提取结果的正则化表示，d_t表示目标域数据的卷积层特征提取结果的正则化表示；

本发明利用KL散度不对称的特点用公式对源域和目标域之间的差异进行计算，然后进行特征空间分布的多层计算，促进跨领域之间的自适应性。

KL散度是衡量不同领域分布的差异的计算函数，利用多层KL散度将源域和目标域之间的分布差异缩小，尽可能将源域和目标域分布尽可能相似，更加准确提取源域和目标域的文本特征。

本发明将源域和目标域处理好的数据同时输入卷积层和注意力层，将二者提取出来的特征进行拼接融合，作为特征自适应模块的文本特征提取部分，目的是提取源域和目标域的文本特征，并且在特征编码过程中使用同一层共享空间，利用多层KL散度计算，减少领域之间的差异，从而更加准确的提取源域和目标域的文本特征。

步骤104，依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小，当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时，将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签；

步骤105，判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值，获得第一判断结果；

步骤106，若所述第一判断结果表示否，则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”。

利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，具体包括：从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集；根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果；根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失；判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值，获得第二判断结果；若所述第二判断结果表示否，则更新所述卷积层和所述注意力层的参数，及所述多层KL散度计算公式中的权重系数，返回步骤“根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果”；若所述第二判断结果表示是，则结束训练。

利用置信度评价方法将目标域中部分标记的置信度高的数据加入到训练集中，即将本方法每一轮的结果进行比较，若该文本所对应的20轮结果相同，则被认为是置信度高的。利用源域中标记的所有数据结合神经网络模型共同训练分类器，从而对跨领域的情感文本进行更为准确的分类。

其中，所述根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果，具体包括：将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取，获得所述标准数据集中每个标准数据的特征提取结果；选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据，作为待分类数据；将所述待分类数据输入所述卷积层和所述注意力层进行特征提取，获得所述待分类数据的特征提取结果；根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果，利用所述多层KL散度计算公式，计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度；获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签，作为所述待分类数据的分类结果。

以上方法，使用半监督分类方法中常用的自训练方法，结合神经网络模型更好的学习领域特征，从而对目标域中的无标签数据进行标记；然后根据目标域中标记无标签数据的置信度，从目标域中置信度高的数据进行采样，放入训练集中，和源域中标记的数据一起训练分类器。

具体包括如下步骤：

S321：训练方式Single-Source Self-Training DomainAdapation(SSTDA)，只使用一个源域和一个目标域进行self-training训练，从本目标域中进行采样，从单源域和单目标域上进行提取置信度高的数据，将选取的置信度高的数据和伪标签放入训练集中，然后进行再次重新开始训练分类器，得到一个效果较优的分类器。

S322：训练方式Multi-Source Self-Training DomainAdapation(MSTDA)，使用多个源域和一个目标域进行self-training训练，然后进行优化情感分类器，高置信度数据是从多个源域和同一个单目标域进行self-training训练提取，将选取的置信度高的数据和伪标签放入训练集中，然后进行再次重新开始训练分类器，得到一个效果较优的分类器。

本发明训练出来的分类器在接收提取出来的文本特征之后，根据设定的阈值输出分类器预测出的该文本表示的情感分类类别。

所述根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失，具体包括：根据所述分类结果，采用交叉熵损失函数，分别计算源域数据损失、目标域数据损失和集成损失。

利用交叉熵损失函数来减少分类的错误，提高情感分类的准确率，损失函数L的值越小，其两个分布概率越接近，准确率越高。

根据投票法选取置信度高的数据，与集成学习的投票法不同，但其思想是相同的，投票法一般遵循“少数服从多数”原则，将目标域中部分标记的置信度高的文本特征加入到训练集中进行训练分类器，，将高置信度的数据和打好的伪标签加入训练集中进行训练。

本发明使用y_i表示每一轮的集成预测结果，α表示权重，然后进行多轮的预测，其集成损失函数为C₂，：

其中，

表示当前得到的集成预测结果。若得到的20轮结果相同，则被认为是高置信度数据。

源域利用交叉熵损失函数来减少分类的错误，提高情感分类的准确率，交叉熵损失函数的表示如下，L的值越小，其两个分布概率越接近，准确率越高。

其中

表示预测的标签值。

目标域同样采用交叉熵损失函数：

其中，

表示预测的标签值，分类器的训练受到未标记的目标域数据的影响。

步骤107，若所述第一判断结果表示是，则输出带有伪标签的目标域数据集。

本发明用卷积神经网络模型和注意力层将文本特征在同一层共享空间进行编码，使得源域和目标域可以提取相同部分和域独有部分，使用交叉熵损失函数减少分类的错误率；多层KL散度设计减小领域之间的差异。

本发明还提供一种基于半监督学习的跨领域情感分类系统，所述分类系统包括：

数据集获取模块，用于获取带有标签的源域数据集和不带标签的目标域数据集。

特征提取模块，用于将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果。

多层KL散度计算模块，用于根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度。

所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

伪标签确定模块，用于依次比较每个目标域数据与源域数据集中每个源域数据的多层KL散度的最小值与差异阈值的大小，当目标域数据与源域数据集中每个源域数据的多层KL散度的最小值小于差异阈值时，将所述目标域数据的伪标签确定为多层KL散度的最小值对应的源域数据的标签。

第一判断模块，用于判断所述目标域数据中带有伪标签的目标域数据的数量是否大于分类数量阈值，获得第一判断结果。

训练模块，用于若所述第一判断结果表示否，则利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，返回步骤“将源域数据集中的每个源域数据和目标域数据集中的每个目标域数据分别输入卷积层和注意力层进行特征提取，获得每个源域数据的特征提取结果和每个目标域数据的特征提取结果”。

所述训练模块，具体包括：标准数据集构建子模块，用于从所述源域数据集和目标域数据集的带有伪标签的目标域数据中获取置信度较高的前n个源域数据构建标准数据集；分类子模块，用于根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果；损失计算子模块，用于根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失；第二判断子模块，用于判断所述源域数据损失、所述目标域数据损失和所述集成损失是否均小于损失阈值，获得第二判断结果；参数更新子模块，用于若所述第二判断结果表示否，则更新所述卷积层和所述注意力层的参数，及所述多层KL散度计算公式中的权重系数，返回步骤“根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果”；结束训练子模块，用于若所述第二判断结果表示是，则结束训练。

其中，所述分类子模块，具体包括：第一特征提取单元，用于将标准数据集中的每个标准数据分别输入所述卷积层和所述注意力层进行特征提取，获得所述标准数据集中每个标准数据的特征提取结果；待分类数据选取单元，用于选取源域数据集中的任意一个源域数据或目标域数据集中任意一个带有伪标签的目标域数据，作为待分类数据；第二特征提取单元，用于将所述待分类数据输入所述卷积层和所述注意力层进行特征提取，获得所述待分类数据的特征提取结果；多层KL散度计算单元，用于根据所述标准数据集中每个标准数据的特征提取结果与所述待分类数据的特征提取结果，利用所述多层KL散度计算公式，计算所述待分类数据与所述标准数据集中每个标准数据的多层KL散度；分类结果确定单元，用于获取多层KL散度的最小值对应的所述标准数据集中的标准数据的标签，作为所述待分类数据的分类结果。

所述损失计算子模块，具体包括：损失计算单元，用于根据所述分类结果，采用交叉熵损失函数，分别计算源域数据损失、目标域数据损失和集成损失。

为了说明本发明的技术效果，本发明还提供了如下具体的实施例：

1、数据集

本发明实施例选取的是Amazon评论数据集；本发明在原有Amazon评论数据集基础上做了处理，删除数据中不确定的标签，选取易区分的样例，按照评分等级，将其分为积极情感、消极情感以及中性情感，考虑到实际情感分类情况，这里使用了二分类和三分类的数据集设置，实验设置数据集1为三分类，主要包括四个领域：Book(BK)，Electronics(E)，Beauty(BT)，Music(M)，每个领域有2000条带有标记的数据，测试集有2000条，实验设置2数据集为二分类，主要包括四个领域：Book(B)，DVDs(D)，Electronics(E)以及Kitchen(K)，每个领域有1000条带有标记的数据，测试集数据有400条。

2、评价指标

本发明以分类准确率Accuracy作为评价指标，是指正确分类的条数占总测试条数的百分比，计算公式表示如下：

3、实验结果和分析

实验分为两部分，分别如下：

本发明实施例以分类准确率为评价指标选取了几种常用的跨领域情感分类方法与提出的方法进行对比验证来评估有效性。

实验1：实验结果主要从两个模块分析：特征自适应模块和Self-training模块。在特征自适应中，采用的两种模块进行提取共同特征，如图4所示，使用卷积层和注意力层分别提取源域和目标域的特征，注意力层提取出的特征普遍低于卷积层提取的特征的准确度，但当两者共同使用并计算多层KL散度时，在实验设置1中75％的结果超过了二者之间的最高值，25％的结果处于二者中间，在实验2中，如图5所示，83.33％的结果超过了二者之间的最高值，16.67％的结果处于二者中间，结果表明，无论是二分类还是三分类，本发明在特征自适应模块所提出的方法，有效的提取了源域和目标域之间的特征，能够为下一环节做了很好的准备。在Self-Training模块中，本发明将从SSTDA和MSTDA两种方法上分析。如表1、表2所示，在实验设置1中，其提取的置信度高的数据所占原数据百分比Coverage(％)在(20,32)之间，提取出置信度高的数据的标记的准确率(％)在(71,89)之间。在实验设置2中，其Coverage(％)在(56,75)之间，提取出置信度高的数据的标记的准确率(％)在(89，100)之间。

表1实验1中不同算法对比表

表2实验2中不同算法对比表

通过仿真实验，本发明所提出的方法能够很好的减小源域和目标域之间的差异，提升文本在跨领域之间迁移的效果，有效的解决实际生活中无标记数据过多的问题，进而提高跨领域情感分类的准确性。

1、有效解决情感分类任务中的文本特征学习，利用多层KL散度设计方法将源域和目标域之间的分布差异缩小；

2、充分利用目标域中未标记的数据集，使用单源域和多源域的方法进行采样，将假设标记正确的目标域数据集加入到训练数据集中进行训练，并能有效进行领域自适应；

3、提高分类结果的准确性，提出一种基于半监督学习的跨领域情感分类方法，较好的标记目标域中无标签的数据，优化情感分类器。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于半监督学习的跨领域情感分类方法，其特征在于，所述分类方法包括如下步骤：

获取带有标签的源域数据集和不带标签的目标域数据集；

根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度；所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

其中，loss_kl表示目标域数据与源域数据的多层KL散度，Katt表示源域数据的注意力层特征提取结果与目标域数据的注意力层特征提取结果的KL散度，Kcnn表示源域数据的卷积层特征提取结果与目标域数据的卷积层特征提取结果的KL散度，Ks表示源域数据的卷积层特征提取结果与注意力层提取结果的KL散度，Kt表示目标域数据的卷积层特征提取结果和注意力层提取结果的KL散度，K表示源域数据的卷积层特征提取结果和注意力层提取结果的融合特征与目标域数据的卷积层特征提取结果和注意力层提取结果的融合特征的KL散度，α和γ分别表示第一权重系数和第二权重系数；

2.根据权利要求1所述的基于半监督学习的跨领域情感分类方法，其特征在于，利用所述源域数据集和所述目标域数据集中的带有伪标签的目标域数据训练所述卷积层、所述注意力层和多层KL散度计算公式中的权重系数，具体包括：

若所述第二判断结果表示是，则结束训练。

3.根据权利要求2所述的基于半监督学习的跨领域情感分类方法，其特征在于，所述根据所述标准数据集，利用所述卷积层、所述注意力层和多层KL散度计算公式，对源域数据集中的源域数据和目标域数据集中带有伪标签的目标域数据进行分类，获得分类结果，具体包括：

4.根据权利要求2所述的基于半监督学习的跨领域情感分类方法，其特征在于，所述根据所述分类结果，分别计算源域数据损失、目标域数据损失和集成损失，具体包括：

5.一种基于半监督学习的跨领域情感分类系统，其特征在于，所述分类系统包括：

多层KL散度计算模块，用于根据每个源域数据的特征提取结果和每个目标域数据的特征提取结果，利用多层KL散度计算公式，计算每个目标域数据与每个源域数据的多层KL散度；所述多层KL散度计算公式为：

loss_kl＝αKatt+(1-α)Kcnn+γK+Ks+Kt；

6.根据权利要求5所述的基于半监督学习的跨领域情感分类系统，其特征在于，所述训练模块，具体包括：

7.根据权利要求6所述的基于半监督学习的跨领域情感分类系统，其特征在于，所述分类子模块，具体包括：

8.根据权利要求6所述的基于半监督学习的跨领域情感分类系统，其特征在于，所述损失计算子模块，具体包括：