CN112199505A

CN112199505A - 一种基于特征表示学习的跨领域情感分类方法及系统

Info

Publication number: CN112199505A
Application number: CN202011185607.3A
Authority: CN
Inventors: 廖祥文; 林诚燕; 鲍亮; 张艳茹; 徐庆
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2021-01-08
Anticipated expiration: 2040-10-30
Also published as: CN112199505B

Abstract

本发明涉及一种基于特征表示学习的跨领域情感分类方法及系统，包括步骤：对源领域文本与目标领域文本进行特征化处理，得到源领域初始文本向量与目标领域初始文本向量；将源领域初始文本向量与目标领域初始文本向量分别特征表示学习模块中，得到源领域文本特征向量与目标领域文本特征向量；将源领域文本特征向量与目标领域文本特征向量送入特征表示强化模块中，并进行训练；利用训练好的特征表示强化模块对目标领域的文本特征向量进行分类预测。本发明能够提升目标领域文本情感分类的效果。

Description

一种基于特征表示学习的跨领域情感分类方法及系统

技术领域

本发明涉及数据处理技术领域，特别是一种基于特征表示学习的跨领域情感分类方法及系统。

背景技术

目前，存在许多基于深度学习的方法可用于文本情感分类，并且取得了一定的成效，但是这些方法高度依赖人工标记数据，尤其要求训练语料与测试语料需具有相同特征分布。对于一些新兴领域，存在稀缺的标注训练语料，而人工标注语料需要耗费大量时间和精力。因此，跨领域文本情感分析方法顺势而生。通过迁移学习，在具有丰富语料的领域中学习知识，并将学习到的知识迁移到新的领域，从而减少对新领域标注语料的依赖，提高新领域学习的性能。但是，由于领域之间对情感倾向的表达存在差异性，在具有丰富标记语料的源领域中训练得到的情感分类器直接应用到稀缺标注语料的目标域中，目标领域情感分类或许达不到理想的效果。因此，如何学习到领域通用情感特征的同时保留领域特定信息，引起许多研究人员的关注并提出各种跨领域文本情感分类的方法。

根据学习方法不同，基于迁移学习情感分析研究主要分为基于实例加权的跨领域情感分类方法、基于特征选择的跨领域情感分类方法、基于生成对抗网络的跨领域情感分类方法等。

基于实例加权的跨领域情感分类方法，主要是通过调整源领域数据的训练权重，使源领域数据尽可能地满足目标领域的数据分布，研究者提出TrAdaBoost算法，扩展了AdaBoost算法，从源领域中提取可用的标注数据，与少量标记目标数据相结合，以构建比仅使用标记目标数据更为准确的模型。但是在迁移过程不可避免出现负面迁移的问题，反而会降低目标领域情感分类的性能。

基于特征选择的跨领域情感分类方法，通过挖掘源领域与目标领域中枢轴特征和非枢轴特征，构建领域特征之间的映射关系，寻找不同领域间通用的特征空间，在此通用空间上进行情感分类。研究人员提出一种结构对应学习方法，通过对不同领域与枢轴特征的相关性进行建模，以识别特征间的对应关系。之后研究人员还提出结合源领域标签的互信息更高效地挑选枢轴特征，大幅改善了结构对应学习方法的情感分类性能。但是这些方法在进行领域适应之前，需要人工选择领域的枢轴特征，然而人工选择过程中存在主观性，得到的枢轴并不都是准确的。基于生成对抗网络的跨领域情感分析研究是将生成对抗网络应用在跨领域场景下，学习领域间共同情感特征和共享参数。研究人员利用梯度反转层，通过最小化情感标签分类器的损失和最大化领域分类器的损失，使得分类算法无法判断输入样本的领域来源，从而学习一种领域适应的特征表示学习方法。然而该方法缺乏了可解释性，无法充分证明网络是否充分学习到了领域适应的文本特征，仍有很大的探索空间。因此人们希望找到一种更加高效的跨领域情感分类方法，进而提高跨领域情感分类的精度和减少人工时间精力的消耗。

发明内容

有鉴于此，本发明的目的是提出一种基于特征表示学习的跨领域情感分类方法及系统，通过最大化两个情感分类差异，能够检测出处于源领域边界附近的目标域样本，然后通过不同卷积核大小的CNN捕获文本关键信息，最小化源域和目标域之间的差异，使目标域样本更接近于源域样本，最终提升目标领域文本情感分类的效果。

本发明采用以下方案实现：一种基于特征表示学习的跨领域情感分类方法，具体包括以下步骤：

对源领域文本与目标领域文本进行特征化处理，得到源领域初始文本向量与目标领域初始文本向量；

将源领域初始文本向量与目标领域初始文本向量分别特征表示学习模块中，得到源领域文本特征向量与目标领域文本特征向量；

将源领域文本特征向量与目标领域文本特征向量送入特征表示强化模块中，并进行训练；

利用训练好的特征表示强化模块对目标领域的文本特征向量进行分类预测。

进一步地，所述特征表示学习模块包括三个并行的CNN网络，将源领域初始文本向量与目标领域初始文本分别送入三个CNN网络中，分别得到两组三个不同的特征图，分别将两组三个不同的特征图进行拼接，对应得到源领域文本特征向量与目标领域文本特征向量。

进一步地，所述特征表示强化模块为由两个分类器组成的对抗型网络，所述训练的过程包括三个阶段：

阶段一：同时训练特征表示学习模块与特征表示强化模块，采用源领域的样本数据进行训练，采用目标领域的样本数据进行测试；

阶段二：固定特征表示学习模块的参数，对特征表示强化模块进行优化训练；训练特征表示强化模块中的两个分类器F1、F2，将目标领域的样本数据经过预处理后送入特征表示学习模块得到文本特征表示后分别输入到两个分类器，得到两个分类概率，通过最大化分类器的分类差异，即最大化分类概率的差异，检测出源领域边界之外的目标域样本；同时使用源领域带情感极性标注的样本对两个分类器进行情感分类训练，以在检测出源域边界之外的目标域样本的同时保证分类器正确情感分类的性能；

阶段三：固定特征表示强化模块的参数，对特征表示学习模块进行优化训练，采用源领域的样本数据进行训练，采用目标领域的样本数据进行测试，使得目标域样本特征与源领域样本之间的差异最小化，实现领域的对齐。

进一步地，阶段一的损失函数如下：

L₁＝L_cls+λ₁L_k1；

其中，

式中，λ₁表示KL散度损失权重系数，n_s表示源领域中已标记样本的数量，K表示情感类别数，本发明主要进行情感二分类，因此K取值为2，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示模型分类器F₂对样本i预测的情感结果，G(*)表示特征学习模块的特征映射函数，

表示源领域样本，

表示目标领域样本，g_s(i)表示源领域样本特征分布，g_t(i)表示目标领域样本特征分布，n_t表示目标领域样本数，g′_s表示源领域样本均值特征分布，g′_t表示目标领域均值特征分布。

进一步地，阶段二的损失函数如下：

L₂＝L_cls-λ₂L_dis；

其中，

式中，λ₂表示概率差异损失的权重系数，n_s表示源领域样本数，K表示情感类别数，本发明主要进行情感二分类，因此K取值为2，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示源领域样本，E_x～Dt[*]表示样本在目标领域上的期望误差，d(*)表示二分类平均绝对概率差，p₁(y|x)表示样本x在分类器F₁上分类概率，p₂(y|x)表示分类器F₂的条件概率，

表示样本x在分类器F₁上分类概率，

表示样本x在分类器F₂上分类概率。

进一步地，阶段三的损失函数如下：

L₃＝L_cls+λ₃L_dis；

其中，

式中，λ₃表示概率差异损失的权重系数，n_s表示源领域样本数，K表示情感类别数，本发明主要进行情感二分类，因此K取值为2，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示分类器F₂对样本i预测的情感结果，G(*)表示特征学习模块的特征映射函数，

表示源领域样本，E_x～Dt[*]表示样本在目标领域上的期望误差，d(*)表示二分类平均绝对概率差，p₁(y|x)表示分类器F₁的条件概率，p₂(y|x)表示分类器F₂的条件概率，

表示样本x在分类器F₁上分类概率，

表示样本x在分类器F₂上分类概率。

进一步地，所述利用训练好的特征表示强化模块对目标领域的文本特征向量进行分类预测具体为：采用特征表示强化模块中的两个分类器分别对输入的目标领域文本特征向量进行预测，分别得到两个分类结果，将这两个分类结果求均值作为最后的分类结果。

本发明还提供了一种基于特征表示学习的跨领域情感分类系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

与现有技术相比，本发明有以下有益效果：本发明通过最大化两个情感分类差异，能够检测出处于源领域边界附近的目标域样本，然后通过不同卷积核大小的CNN捕获文本关键信息，最小化源域和目标域之间的差异，使目标域样本更接近于源域样本，最终提升目标领域文本情感分类的效果。

附图说明

图1为本发明实施例的原理示意图

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种基于特征表示学习的跨领域情感分类方法，具体包括以下步骤：

步骤S1：对源领域文本与目标领域文本进行特征化处理，得到源领域初始文本向量与目标领域初始文本向量；由于神经网络的输入数据一般为向量，以便模型的端到端训练，因此需要对文本数据进行向量化表示。为了便于数据的处理和分析，本实施例首先对源领域和目标领域的文本进行分词并过滤停用词；接着，通过Glove将文本数据从文本形式转换成向量形式。

步骤S2：将源领域初始文本向量与目标领域初始文本向量分别特征表示学习模块中，得到源领域文本特征向量与目标领域文本特征向量；

步骤S3：将源领域文本特征向量与目标领域文本特征向量送入特征表示强化模块中，并进行训练；

步骤S4：利用训练好的特征表示强化模块对目标领域的文本特征向量进行分类预测。

在本实施例中，所述特征表示学习模块包括三个并行的CNN网络，将源领域初始文本向量与目标领域初始文本分别送入三个CNN网络中，分别得到两组三个不同的特征图，分别将两组三个不同的特征图进行拼接，对应得到源领域文本特征向量与目标领域文本特征向量。本实施例采用的是卷积核大小分别为3、4、5的CNN并行而成的，解决了CNN单个卷积核只能提取一种类型的特征的问题，提高特征的多样性。将步骤S1得到的文本向量分别输入到该三个并行的CNN中，得到三个不同的特征图，通过最大池化操作以及直接顺序拼接得到最后的文本特征表示

在本实施例中，所述特征表示强化模块为由两个分类器组成的对抗型网络，所述训练的过程包括三个阶段：

在本实施例中，阶段一的损失函数如下：

L₁＝L_cls+λ₁L_k1；

其中，

式中，λ₁表示KL散度损失权重系数，n_s表示源领域中已标记样本的数量，K表示情感类别数，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示源领域样本，

在本实施例中，阶段二的损失函数为情感分类损失与分类器差异损失之和，如下：

L₂＝L_cls-λ₂L_dis；

其中，

式中，λ₂表示概率差异损失的权重系数，n_s表示源领域样本数，K表示情感类别数，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示样本x在分类器F₁上分类概率，

表示样本x在分类器F₂上分类概率。

在本实施例中，阶段三的损失函数如下：

L₃＝L_cls+λ₃L_dis；

其中，

式中，λ₃表示概率差异损失的权重系数，n_s表示源领域样本数，K表示情感类别数，

表示样本i对应的真实情感结果，

表示模型分类器F₁对样本i预测的情感结果，

表示，E_x～Dt[*]表示样本在目标领域上的期望误差，d(*)表示二分类平均绝对概率差，p₁(y|x)表示分类器F₁的条件概率，p₂(y|x)表示分类器F₂的条件概率，

表示样本x在分类器F₁上分类概率，

表示样本x在分类器F₂上分类概率。

在本实施例中，所述利用训练好的特征表示强化模块对目标领域的文本特征向量进行分类预测具体为：采用特征表示强化模块中的两个分类器分别对输入的目标领域文本特征向量进行预测，分别得到两个分类结果，将这两个分类结果求均值作为最后的分类结果。

较佳的，本实施例在训练阶段根据信息的前向传播和误差的后向传播将不断地对他们进行调整，逐步优化目标函数。

本实施例还提供了一种基于特征表示学习的跨领域情感分类系统，包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序指令，当处理器运行该计算机程序指令时，实现如上文所述的方法步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于特征表示学习的跨领域情感分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于特征表示学习的跨领域情感分类方法，其特征在于，所述特征表示学习模块包括三个并行的CNN网络，将源领域初始文本向量与目标领域初始文本分别送入三个CNN网络中，分别得到两组三个不同的特征图，分别将两组三个不同的特征图进行拼接，对应得到源领域文本特征向量与目标领域文本特征向量。

3.根据权利要求1所述的一种基于特征表示学习的跨领域情感分类方法，其特征在于，所述特征表示强化模块为由两个分类器组成的对抗型网络，所述训练的过程包括三个阶段：

4.根据权利要求3所述的一种基于特征表示学习的跨领域情感分类方法，其特征在于，阶段一的损失函数如下：

L₁＝L_cls+λ₁L_k1；

其中，