CN109885833A - 一种基于多域数据集联合嵌入的性感极性检测方法 - Google Patents
一种基于多域数据集联合嵌入的性感极性检测方法 Download PDFInfo
- Publication number
- CN109885833A CN109885833A CN201910120426.3A CN201910120426A CN109885833A CN 109885833 A CN109885833 A CN 109885833A CN 201910120426 A CN201910120426 A CN 201910120426A CN 109885833 A CN109885833 A CN 109885833A
- Authority
- CN
- China
- Prior art keywords
- data set
- domain
- word
- vector
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于多域数据集联合嵌入的性感极性检测方法,属于服务计算技术领域,该方法利用了跨领域数据集的优势,在不同领域的数据集上进行情感极性的检测。受到跨领域数据集进行情感分析的最新进展的启发,本发明提供了一种新的视角,并将数据集的领域适应问题作为嵌入式投影任务。本发明的模型将两个单领域嵌入空间作为输入,并通过学习将它们投影到双领域空间,该空间被联合优化以预测情感极性。通过利用亚马逊领域适应数据集和SemEval 2013和2016数据集对多个源领域与目标领域对进行实验以进行情感分类。结果分析表明,本发明提出的模型在相似的领域上与最先进的方法相当,而在高度不同的领域上表现更佳。
Description
技术领域
本发明涉及服务计算技术领域,具体是涉及一种基于多域数据集联合嵌入的性感极性检测方法。
背景技术
当前情感极性检测方法的主要局限之一是它们对领域的差异敏感。这导致分类器在训练后在新领域表现不佳。领域适应技术提供了一种解决方案,可以减少差异并使模型在多个领域中表现良好。用于情感分析的领域适应的两种主要方法是基于枢轴的方法,其通过在无监督下学习的与领域无关的特征来增强特征空间,数据和自动编码器方法,它们试图创建一个从句子到潜在隐藏空间的良好通用映射。虽然基于数据透视的领域自适应方法很有动力,但它们通常优于自动编码器方法。然而,两种领域适应方法都回导致信息丢失,因为它们必须降低依赖于领域的判别特征的影响。因此,这会导致性能下降,尤其是在领域之间的相似性较低的情况下。
因此,在互联网技术的飞速增长下,提供一个准确的情感极性检测方法可以为上述问题提供一个良好的解决思路。
发明内容
针对现有的情感极性检测方法存在的局限,本发明的目的在于提供一种基于多域数据集联合嵌入的性感极性检测方法,以解决上述背景技术中的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于多域数据集联合嵌入的性感极性检测方法,包括以下步骤:
步骤1:收集数据集文档,数据集文档包括三部分:亚马逊领域适应数据集和SemEval 2013和2016数据集。亚马逊领域适应数据集其中包含四个领域:“books”(B),“DVD”(D),“electronics”(E)和“kitchen”(K)。因此将三个数据集分为六个领域,另外两个包括:SemEval 2013(S13)和SemEval 2016(S16)。并将数据集的标签定义为两类:正面与负面;
步骤2:将数据集中六个领域的数据分为多个源领域与目标领域对,并使用Word2Vec模型将多个源领域和目标领域对中的内容训练,作为原始向量空间。使用投影词典建立源领域和目标领域的映射,通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射,最终最小化两个投影向量的均方误差;
步骤3:将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测。最后对该整体的模型进行训练,不断修改参数直至分类效果达到最优。
作为本发明进一步的方案,步骤1中对评论内容加标签的过程为:对正面的评论标签标为“1”,对负面的评论标签标为“0”。最后使用one-hot工具将标签转化为one-hot向量。
作为本发明进一步的方案,步骤2,具体包括以下子步骤:
步骤2.1:将数据集中六个领域的数据分为多个源领域与目标领域对。使用Word2Vec模型对多个源领域与目标领域对生成词嵌入,并将源领域生成的词嵌入作为源向量空间S,将目标领域生成的词嵌入作为目标向量空间T,将二者作为原始向量空间;
步骤2.2:使用投影词典建立源领域和目标领域的映射,将一个领域中的词或者概念通过词典映射到另一个领域中的词或概念,字典表示为L={(s1,t1),(s2,t2),…,(sn,tn)}。其中,si表示源领域中的概念或单词,ti表示目标领域的概念或单词;
步骤2.3:通过使用两个线性投影矩阵M和M0来创建从原始向量空间S和T到共享情感通知的双域空间z和的映射。在训练期间,对于词典L中的每个平移对,首先查找它们的相关向量与通过它们的相关投影矩阵投影它们,并最终最小化两个投影矢量的均方误差。如下式所示:
作为本发明进一步的方案,步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后进行整合并分类,具体包括以下步骤:
步骤3.1:引入集合C,C={(x1,y1),(x2,y2),…,(xi,yi)},其中xi表示为句子,yi表示为它们的标签。将每个句子xi通过Word2Vec生成的词嵌入放入前馈神经网络,并将词嵌入平均化为向量ai;
步骤3.2:将基于步骤3.1得到的向量ai投影到联合双域空间zi=ai·M,然后通过softmax层P传递zi得到预测值如式Ⅳ所示
步骤3.3:训练模型来进行情感极性的预测,通过最小化交叉熵误差。如式Ⅴ所示:
步骤3.4:使用两个损失函数来优化参数矩阵M,M0和P。如式Ⅵ所示:
其中,α是一个超参数。
步骤3.5:在步骤3.4之后,将预测的结果与one-hot标签向量进行比对,若不相同,则通过反向传播算法对模型的参数进行调整;若相同,则参数不变,经过迭代后训练出最优参数。
综上所述,本发明与现有技术相比具有以下有益效果:
(1)该方法利用了跨域数据集的优势,在不同领域的数据集上进行情感极性的检测;
(2)单纯的基于单个领域内容的情感极性检测方法效果不准确,本方法通过使用多个数据集和跨域联合嵌入的方式,提高了检测结果的准确性;
(3)该方法维护领域依赖功能,同时使其适应目标领域,解决了基于枢轴的方法和数据和自动编码器方法导致性能下降的问题;
(4)本检测方法在相似的领域上与最先进的方法相当,而在高度不同的领域上表现更佳。
为更清楚地阐述本发明的结构特征和功效,下面结合附图与具体实施例来对本发明进行详细说明。
附图说明
图1为发明中投影嵌入的结构示意图。
图2为发明中前馈神经网络的模型的结构示意图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案做进一步的说明。
结合图1至图2,一种基于多域数据集联合嵌入的性感极性检测方法,包括以下步骤:
步骤1:收集数据集文档,数据集文档包括三部分:亚马逊领域适应数据集和SemEval 2013和2016数据集。亚马逊领域适应数据集其中包含四个领域:“books”(B),“DVD”(D),“electronics”(E)和“kitchen”(K)。因此将三个数据集分为六个领域,另外两个包括:SemEval 2013(S13)和SemEval 2016(S16)。并将数据集的标签定义为两类:正面与负面;
步骤2:将数据集中六个领域的数据分为多个源领域与目标领域对。并使用Word2Vec模型将多个源领域和目标领域对中的内容训练,作为原始向量空间。使用投影词典建立源领域和目标领域的映射。通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射。最终最小化两个投影向量的均方误差;
步骤3:将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测。最后对该整体的模型进行训练,不断修改参数直至分类效果达到最优。
进一步的,步骤1中对评论内容加标签的过程为:对正面的评论标签标为“1”,对负面的评论标签标为“0”。最后使用one-hot工具将标签转化为one-hot向量。
进一步的,步骤2,具体包括以下子步骤:
步骤2.1:将数据集中六个领域的数据分为多个源领域与目标领域对。使用Word2Vec模型对多个源领域与目标领域对生成词嵌入,并将源领域生成的词嵌入作为源向量空间S,将目标领域生成的词嵌入作为目标向量空间T,将二者作为原始向量空间;
步骤2.2:使用投影词典建立源领域和目标领域的映射,将一个领域中的词或者概念通过词典映射到另一个领域中的词或概念,字典表示为L={(s1,t1),(s2,t2),…,(sn,tn)}。其中,si表示源领域中的概念或单词,ti表示目标领域的概念或单词;
步骤2.3:通过使用两个线性投影矩阵M和M0来创建从原始向量空间S和T到共享情感通知的双域空间z和的映射。在训练期间,对于词典L中的每个平移对,首先查找它们的相关向量与通过它们的相关投影矩阵投影它们,并最终最小化两个投影矢量的均方误差。如下式所示:
在进一步的,步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后进行整合并分类,具体包括以下步骤:
步骤3.1:引入集合C,C={(x1,y1),(x2,y2),…,(xi,yi)},其中xi表示为句子,yi表示为它们的标签。将每个句子xi通过Word2Vec生成的词嵌入放入前馈神经网络,并将词嵌入平均化为向量ai;
步骤3.2:将基于步骤3.1得到的向量ai投影到联合双域空间zi=ai·M,然后通过softmax层P传递zi得到预测值如式Ⅳ所示
步骤3.3:训练模型来进行情感极性的预测,通过最小化交叉熵误差。如式Ⅴ所示:
步骤3.4:使用两个损失函数来优化参数矩阵M,M0和P。如式Ⅵ所示:
其中,α是一个超参数。
步骤3.5:在步骤3.4之后,将预测的结果与one-hot标签向量进行比对,若不相同,则通过反向传播算法对模型的参数进行调整;若相同,则参数不变,经过迭代后训练出最优参数。
实施例1
下面是应用本发明具体实施例:
收集数据集文档,数据集文档包括三部分:亚马逊领域适应数据集和SemEval2013和2016数据集。亚马逊领域适应数据集其中包含四个领域,四个领域各包含1600条训练和400条测试。而SemEval 2013和2016数据集包含3547条训练数据和1262条测试数据、4124条训练数据和8005条测试数据。
执行步骤1,将六个领域中的正面数据标签标为“1”,负面数据标签标为“0”。使用one-hot工具将标签转化为one-hot向量;
执行步骤2,使用Word2Vec模型对多个源领域与目标领域对生成词嵌入。通过词典建立源领域和目标领域的映射。后使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间的映射;
执行步骤3,将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络。同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后进行整合并分类。其中前馈神经网络参数如表1所示:
表1模型参数设置
参数描述 | 数值 |
Drop率 | 0.2 |
Batch大小 | 30 |
Epochs数 | 20 |
神经元数 | 32 |
在步骤3之后,模型参数基本固定后,用测试集对模型进行评价。
以上结合具体实施例描述了本发明的技术原理,仅是本发明的优选实施方式。本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (4)
1.一种基于多域数据集联合嵌入的性感极性检测方法,其特征在于,包括以下步骤:
步骤1:收集数据集文档,数据集文档包括三部分:亚马逊领域适应数据集和SemEval2013和SemEval 2016数据集;亚马逊领域适应数据集其中包含四个领域:“books”,“DVD”,“electronics”和“kitchen”;因此将三个数据集分为六个领域,另外两个包括:SemEval2013和SemEval 2016,并将数据集的标签定义为两类:正面与负面;
步骤2:将数据集中六个领域的数据分为多个源领域与目标领域对,并使用Word2Vec模型将多个源领域和目标领域对中的内容训练,作为原始向量空间,使用投影词典建立源领域和目标领域的映射,通过使用两个线性投影矩阵来创建从原始向量空间到共享情感通知的双域空间映射,最终最小化两个投影向量的均方误差;
步骤3:将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络,同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后对该整体的模型进行训练,不断修改参数直至分类效果达到最优。
2.根据权利要求1所述的基于多域数据集联合嵌入的性感极性检测方法,其特征在于,步骤1中对评论内容加标签的过程为:对正面的评论标签标为“1”,对负面的评论标签标为“0”,最后使用one-hot工具将标签转化为one-hot向量。
3.根据权利要求2所述的基于多域数据集联合嵌入的性感极性检测方法,其特征在于,步骤2,具体包括以下子步骤:
步骤2.1:将数据集中六个领域的数据分为多个源领域与目标领域对,使用Word2Vec模型对多个源领域与目标领域对生成词嵌入,并将源领域生成的词嵌入作为源向量空间S,将目标领域生成的词嵌入作为目标向量空间T,将二者作为原始向量空间;
步骤2.2:使用投影词典建立源领域和目标领域的映射,将一个领域中的词或者概念通过词典映射到另一个领域中的词或概念,字典表示为L={(s1,t1),(s2,t2),…,(sn,tn)};其中,si表示源领域中的概念或单词,ti表示目标领域的概念或单词;
步骤2.3:通过使用两个线性投影矩阵M和M0来创建从原始向量空间S和T到共享情感通知的双域空间z和的映射,在训练期间,对于词典L中的每个平移对,首先查找它们的相关向量与通过它们的相关投影矩阵投影它们,并最终最小化两个投影矢量的均方误差;如下式所示:
4.根据权利要求3所述的基于多域数据集联合嵌入的性感极性检测方法,其特征在于,步骤3包括将源领域中通过Word2Vec生成的词嵌入放入前馈神经网络,同时将词嵌入平均化为向量,并将此向量投影到双域空间以此获得对情感极性的预测,最后进行整合并分类,具体包括以下步骤:
步骤3.1:引入集合C,C={(x1,y1),(x2,y2),…,(xi,yi)},其中xi表示为句子,yi表示为它们的标签,将每个句子xi通过Word2Vec生成的词嵌入放入前馈神经网络,并将词嵌入平均化为向量ai;
步骤3.2:将基于步骤3.1得到的向量ai投影到联合双域空间zi=ai·M,然后通过softmax层P传递zi得到预测值如式Ⅳ所示
步骤3.3:训练模型来进行情感极性的预测,通过最小化交叉熵误差,如式Ⅴ所示:
步骤3.4:使用两个损失函数来优化参数矩阵M,M0和P,如式Ⅵ所示:
其中,α是一个超参数;
步骤3.5:在步骤3.4之后,将预测的结果与one-hot标签向量进行比对,若不相同,则通过反向传播算法对模型的参数进行调整;若相同,则参数不变,经过迭代后训练出最优参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910120426.3A CN109885833A (zh) | 2019-02-18 | 2019-02-18 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910120426.3A CN109885833A (zh) | 2019-02-18 | 2019-02-18 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109885833A true CN109885833A (zh) | 2019-06-14 |
Family
ID=66928350
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910120426.3A Pending CN109885833A (zh) | 2019-02-18 | 2019-02-18 | 一种基于多域数据集联合嵌入的性感极性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885833A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN110674849A (zh) * | 2019-09-02 | 2020-01-10 | 昆明理工大学 | 基于多源域集成迁移的跨领域情感分类方法 |
CN111724487A (zh) * | 2020-06-19 | 2020-09-29 | 广东浪潮大数据研究有限公司 | 一种流场数据可视化方法、装置、设备及存储介质 |
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335352A (zh) * | 2015-11-30 | 2016-02-17 | 武汉大学 | 基于微博情感的实体识别方法 |
CN107832663A (zh) * | 2017-09-30 | 2018-03-23 | 天津大学 | 一种基于量子理论的多模态情感分析方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
-
2019
- 2019-02-18 CN CN201910120426.3A patent/CN109885833A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335352A (zh) * | 2015-11-30 | 2016-02-17 | 武汉大学 | 基于微博情感的实体识别方法 |
CN107832663A (zh) * | 2017-09-30 | 2018-03-23 | 天津大学 | 一种基于量子理论的多模态情感分析方法 |
CN108038492A (zh) * | 2017-11-23 | 2018-05-15 | 西安理工大学 | 一种基于深度学习的感性词向量及情感分类方法 |
Non-Patent Citations (2)
Title |
---|
JAGADEESH PANTHATI: "Sentiment Analysis of Product Reviews using Deep Learning", 《2018 INTERNATIONAL CONFERENCE ON ADVANCES IN COMPUTING, COMMUNICATIONS AND INFORMATICS (ICACCI)》 * |
JEREMY BARNES: "Projecting Embeddings for Domain Adaptation:Joint Modeling of Sentiment Analysis in Diverse Domains", 《ARXIV》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489753A (zh) * | 2019-08-15 | 2019-11-22 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN110489753B (zh) * | 2019-08-15 | 2022-06-14 | 昆明理工大学 | 改进特征选择的神经结构对应学习跨领域情感分类方法 |
CN110674849A (zh) * | 2019-09-02 | 2020-01-10 | 昆明理工大学 | 基于多源域集成迁移的跨领域情感分类方法 |
CN111724487A (zh) * | 2020-06-19 | 2020-09-29 | 广东浪潮大数据研究有限公司 | 一种流场数据可视化方法、装置、设备及存储介质 |
CN111724487B (zh) * | 2020-06-19 | 2023-05-16 | 广东浪潮大数据研究有限公司 | 一种流场数据可视化方法、装置、设备及存储介质 |
CN112270179A (zh) * | 2020-10-15 | 2021-01-26 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
CN112270179B (zh) * | 2020-10-15 | 2021-11-09 | 和美(深圳)信息技术股份有限公司 | 一种实体识别方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885833A (zh) | 一种基于多域数据集联合嵌入的性感极性检测方法 | |
Jiang et al. | A challenge dataset and effective models for aspect-based sentiment analysis | |
Sun et al. | Understanding attention for text classification | |
CN111897941A (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN110188202A (zh) | 语义关系识别模型的训练方法、装置及终端 | |
CN110580341A (zh) | 一种基于半监督学习模型的虚假评论检测方法及系统 | |
Rikters et al. | Confidence through attention | |
CN110210027B (zh) | 基于集成学习的细粒度情感分析方法、装置、设备及介质 | |
Croce et al. | Auditing deep learning processes through kernel-based explanatory models | |
CN110427616A (zh) | 一种基于深度学习的文本情感分析方法 | |
CN109783644A (zh) | 一种基于文本表示学习的跨领域情感分类系统及方法 | |
Li et al. | Training and evaluating improved dependency-based word embeddings | |
Sun et al. | History-adaption knowledge incorporation mechanism for multi-turn dialogue system | |
Bednarik et al. | Implementation and assessment of the automatic question generation module | |
Zhang et al. | An Improved Genetic Algorithm and Neural Network‐Based Evaluation Model of Classroom Teaching Quality in Colleges and Universities | |
Bomatter et al. | When pigs fly: Contextual reasoning in synthetic and natural scenes | |
Das et al. | A hybrid deep learning technique for sentiment analysis in e-learning platform with natural language processing | |
Lonij et al. | Open-world visual recognition using knowledge graphs | |
Waheed et al. | BloomNet: A robust transformer based model for Bloom's learning outcome classification | |
CN116257630A (zh) | 一种基于对比学习的方面级情感分析方法及装置 | |
Chen et al. | Surface defect detection of industrial components based on vision | |
Wenjuan | Learning perception prediction and English hierarchical model based on neural network algorithm | |
Wu et al. | A paradigm shift in design driven by AI | |
Liu | [Retracted] Evaluation of Japanese Teaching Quality Based on Deep Neural Network | |
CN109960793A (zh) | 意见挖掘装置以及智能终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |