CN109885833A

CN109885833A - 一种基于多域数据集联合嵌入的性感极性检测方法

Info

Publication number: CN109885833A
Application number: CN201910120426.3A
Authority: CN
Inventors: 田刚; 王琦博; 刘鹏飞; 孙承爱
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-02-18
Filing date: 2019-02-18
Publication date: 2019-06-14

Abstract

本发明公开了一种基于多域数据集联合嵌入的性感极性检测方法，属于服务计算技术领域，该方法利用了跨领域数据集的优势，在不同领域的数据集上进行情感极性的检测。受到跨领域数据集进行情感分析的最新进展的启发，本发明提供了一种新的视角，并将数据集的领域适应问题作为嵌入式投影任务。本发明的模型将两个单领域嵌入空间作为输入，并通过学习将它们投影到双领域空间，该空间被联合优化以预测情感极性。通过利用亚马逊领域适应数据集和SemEval 2013和2016数据集对多个源领域与目标领域对进行实验以进行情感分类。结果分析表明，本发明提出的模型在相似的领域上与最先进的方法相当，而在高度不同的领域上表现更佳。

Description

一种基于多域数据集联合嵌入的性感极性检测方法

技术领域

本发明涉及服务计算技术领域，具体是涉及一种基于多域数据集联合嵌入的性感极性检测方法。

背景技术

当前情感极性检测方法的主要局限之一是它们对领域的差异敏感。这导致分类器在训练后在新领域表现不佳。领域适应技术提供了一种解决方案，可以减少差异并使模型在多个领域中表现良好。用于情感分析的领域适应的两种主要方法是基于枢轴的方法，其通过在无监督下学习的与领域无关的特征来增强特征空间，数据和自动编码器方法，它们试图创建一个从句子到潜在隐藏空间的良好通用映射。虽然基于数据透视的领域自适应方法很有动力，但它们通常优于自动编码器方法。然而，两种领域适应方法都回导致信息丢失，因为它们必须降低依赖于领域的判别特征的影响。因此，这会导致性能下降，尤其是在领域之间的相似性较低的情况下。

因此，在互联网技术的飞速增长下，提供一个准确的情感极性检测方法可以为上述问题提供一个良好的解决思路。

发明内容

针对现有的情感极性检测方法存在的局限，本发明的目的在于提供一种基于多域数据集联合嵌入的性感极性检测方法，以解决上述背景技术中的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于多域数据集联合嵌入的性感极性检测方法，包括以下步骤：

步骤1：收集数据集文档，数据集文档包括三部分：亚马逊领域适应数据集和SemEval 2013和2016数据集。亚马逊领域适应数据集其中包含四个领域：“books”(B)，“DVD”(D)，“electronics”(E)和“kitchen”(K)。因此将三个数据集分为六个领域，另外两个包括：SemEval 2013(S13)和SemEval 2016(S16)。并将数据集的标签定义为两类：正面与负面；

步骤2：将数据集中六个领域的数据分为多个源领域与目标领域对，并使用Word2Vec模型将多个源领域和目标领域对中的内容训练，作为原始向量空间。使用投影词典建立源领域和目标领域的映射，通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射，最终最小化两个投影向量的均方误差；

步骤3：将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测。最后对该整体的模型进行训练，不断修改参数直至分类效果达到最优。

作为本发明进一步的方案，步骤1中对评论内容加标签的过程为：对正面的评论标签标为“1”，对负面的评论标签标为“0”。最后使用one-hot工具将标签转化为one-hot向量。

作为本发明进一步的方案，步骤2，具体包括以下子步骤：

步骤2.1：将数据集中六个领域的数据分为多个源领域与目标领域对。使用Word2Vec模型对多个源领域与目标领域对生成词嵌入，并将源领域生成的词嵌入作为源向量空间S，将目标领域生成的词嵌入作为目标向量空间T，将二者作为原始向量空间；

步骤2.2：使用投影词典建立源领域和目标领域的映射，将一个领域中的词或者概念通过词典映射到另一个领域中的词或概念,字典表示为L＝{(s₁,t₁),(s₂,t₂),…,(s_n,t_n)}。其中，s_i表示源领域中的概念或单词，t_i表示目标领域的概念或单词；

步骤2.3：通过使用两个线性投影矩阵M和M0来创建从原始向量空间S和T到共享情感通知的双域空间z和的映射。在训练期间，对于词典L中的每个平移对，首先查找它们的相关向量与通过它们的相关投影矩阵投影它们，并最终最小化两个投影矢量的均方误差。如下式所示：

作为本发明进一步的方案，步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测，最后进行整合并分类，具体包括以下步骤：

步骤3.1：引入集合C，C＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i)},其中x_i表示为句子，y_i表示为它们的标签。将每个句子x_i通过Word2Vec生成的词嵌入放入前馈神经网络，并将词嵌入平均化为向量a_i；

步骤3.2：将基于步骤3.1得到的向量a_i投影到联合双域空间z_i＝a_i·M，然后通过softmax层P传递z_i得到预测值如式Ⅳ所示

步骤3.3：训练模型来进行情感极性的预测，通过最小化交叉熵误差。如式Ⅴ所示：

步骤3.4：使用两个损失函数来优化参数矩阵M，M0和P。如式Ⅵ所示：

其中，α是一个超参数。

步骤3.5：在步骤3.4之后，将预测的结果与one-hot标签向量进行比对，若不相同，则通过反向传播算法对模型的参数进行调整；若相同，则参数不变，经过迭代后训练出最优参数。

综上所述，本发明与现有技术相比具有以下有益效果：

(1)该方法利用了跨域数据集的优势，在不同领域的数据集上进行情感极性的检测；

(2)单纯的基于单个领域内容的情感极性检测方法效果不准确，本方法通过使用多个数据集和跨域联合嵌入的方式，提高了检测结果的准确性；

(3)该方法维护领域依赖功能，同时使其适应目标领域，解决了基于枢轴的方法和数据和自动编码器方法导致性能下降的问题；

(4)本检测方法在相似的领域上与最先进的方法相当，而在高度不同的领域上表现更佳。

为更清楚地阐述本发明的结构特征和功效，下面结合附图与具体实施例来对本发明进行详细说明。

附图说明

图1为发明中投影嵌入的结构示意图。

图2为发明中前馈神经网络的模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案做进一步的说明。

结合图1至图2，一种基于多域数据集联合嵌入的性感极性检测方法，包括以下步骤：

步骤2：将数据集中六个领域的数据分为多个源领域与目标领域对。并使用Word2Vec模型将多个源领域和目标领域对中的内容训练，作为原始向量空间。使用投影词典建立源领域和目标领域的映射。通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射。最终最小化两个投影向量的均方误差；

进一步的，步骤1中对评论内容加标签的过程为：对正面的评论标签标为“1”，对负面的评论标签标为“0”。最后使用one-hot工具将标签转化为one-hot向量。

进一步的，步骤2，具体包括以下子步骤：

在进一步的，步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测，最后进行整合并分类，具体包括以下步骤：

其中，α是一个超参数。

实施例1

下面是应用本发明具体实施例：

收集数据集文档，数据集文档包括三部分：亚马逊领域适应数据集和SemEval2013和2016数据集。亚马逊领域适应数据集其中包含四个领域，四个领域各包含1600条训练和400条测试。而SemEval 2013和2016数据集包含3547条训练数据和1262条测试数据、4124条训练数据和8005条测试数据。

执行步骤1，将六个领域中的正面数据标签标为“1”，负面数据标签标为“0”。使用one-hot工具将标签转化为one-hot向量；

执行步骤2，使用Word2Vec模型对多个源领域与目标领域对生成词嵌入。通过词典建立源领域和目标领域的映射。后使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间的映射；

执行步骤3，将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测，最后进行整合并分类。其中前馈神经网络参数如表1所示：

表1模型参数设置

参数描述	数值
		Drop率	0.2
Batch大小	30
		Epochs数	20
神经元数	32

在步骤3之后，模型参数基本固定后，用测试集对模型进行评价。

以上结合具体实施例描述了本发明的技术原理，仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于多域数据集联合嵌入的性感极性检测方法，其特征在于，包括以下步骤：

步骤1：收集数据集文档，数据集文档包括三部分：亚马逊领域适应数据集和SemEval2013和SemEval 2016数据集；亚马逊领域适应数据集其中包含四个领域：“books”，“DVD”，“electronics”和“kitchen”；因此将三个数据集分为六个领域，另外两个包括：SemEval2013和SemEval 2016，并将数据集的标签定义为两类：正面与负面；

步骤2：将数据集中六个领域的数据分为多个源领域与目标领域对，并使用Word2Vec模型将多个源领域和目标领域对中的内容训练，作为原始向量空间，使用投影词典建立源领域和目标领域的映射，通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射，最终最小化两个投影向量的均方误差；

步骤3：将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络，同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测，最后对该整体的模型进行训练，不断修改参数直至分类效果达到最优。

2.根据权利要求1所述的基于多域数据集联合嵌入的性感极性检测方法，其特征在于，步骤1中对评论内容加标签的过程为：对正面的评论标签标为“1”，对负面的评论标签标为“0”，最后使用one-hot工具将标签转化为one-hot向量。

3.根据权利要求2所述的基于多域数据集联合嵌入的性感极性检测方法，其特征在于，步骤2，具体包括以下子步骤：

步骤2.1：将数据集中六个领域的数据分为多个源领域与目标领域对，使用Word2Vec模型对多个源领域与目标领域对生成词嵌入，并将源领域生成的词嵌入作为源向量空间S，将目标领域生成的词嵌入作为目标向量空间T，将二者作为原始向量空间；

步骤2.2：使用投影词典建立源领域和目标领域的映射，将一个领域中的词或者概念通过词典映射到另一个领域中的词或概念,字典表示为L＝{(s₁,t₁),(s₂,t₂),…,(s_n,t_n)}；其中，s_i表示源领域中的概念或单词，t_i表示目标领域的概念或单词；

步骤2.3：通过使用两个线性投影矩阵M和M0来创建从原始向量空间S和T到共享情感通知的双域空间z和的映射，在训练期间，对于词典L中的每个平移对，首先查找它们的相关向量与通过它们的相关投影矩阵投影它们，并最终最小化两个投影矢量的均方误差；如下式所示：

4.根据权利要求3所述的基于多域数据集联合嵌入的性感极性检测方法，其特征在于，步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络，同时将词嵌入平均化为向量，并将此向量投影到双域空间以此获得对情感极性的预测，最后进行整合并分类，具体包括以下步骤：

步骤3.1：引入集合C，C＝{(x₁,y₁),(x₂,y₂),…,(x_i,y_i)},其中x_i表示为句子，y_i表示为它们的标签，将每个句子x_i通过Word2Vec生成的词嵌入放入前馈神经网络，并将词嵌入平均化为向量a_i；

步骤3.3：训练模型来进行情感极性的预测，通过最小化交叉熵误差，如式Ⅴ所示：

步骤3.4：使用两个损失函数来优化参数矩阵M，M0和P，如式Ⅵ所示：

其中，α是一个超参数；