CN107967337A - 一种基于情感极性增强语义的跨领域情感分析方法 - Google Patents
一种基于情感极性增强语义的跨领域情感分析方法 Download PDFInfo
- Publication number
- CN107967337A CN107967337A CN201711266642.6A CN201711266642A CN107967337A CN 107967337 A CN107967337 A CN 107967337A CN 201711266642 A CN201711266642 A CN 201711266642A CN 107967337 A CN107967337 A CN 107967337A
- Authority
- CN
- China
- Prior art keywords
- feeling polarities
- text
- semantic
- word
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明属于文本分析领域,公开了一种基于情感极性增强语义的跨领域情感分析方法。本发明提取源领域和目标领域情感文本的词项,并向量化;其次,选择源领域和目标领域之间的情感强烈且语义一致的词项作为领域间共享词;第三,基于共享词的情感极性分别对情感文本进行扩展,并重新训练词向量,增强情感语义;最后,基于卷积神经网络自动提取文本的情感特征,并训练分类器完成目标领域情感文本的分类。本发明考虑共享词的情感极性和领域间情感语义的一致性,以及对情感特征提取和分类的影响,更符合跨领域情感分析实际特点和需求。
Description
本发明属于文本分析领域,涉及一种跨领域情感分析方法,更为具体地是涉及一种情感文本共享词的选择以及基于共享词的情感语义增强方法。
背景技术
情感文本指的是带有主观情感倾向的文本。对文本的情感倾向进行分析,是舆情监控、口碑分析、话题监控等应用的重要技术基础。跨领域情感分析,研究的是在情感带有主题相关性和领域相关性、以及目标领域样本稀疏的条件下,如何充分利用相关源领域样本进行分析的技术问题。
解决跨领域情感文本分析的关键是缩小源领域和目标领域之间的差异,将源领域的知识迁移到目标领域中,帮助目标领域建立预测模型,并尽可能地提高预测的性能。目前跨领域情感分析主要的技术方案可以分为三类,基于词典的方法,基于传统的机器学习方法以及基于深度学习的方法。基于词典的方法缺点是受词典的影响。基于传统的机器学习方法,不仅要求事先从情感文本中提取文本特征,而且这个分析的过程依赖经验和特定任务,例如谭松波等“一种跨领域的文本情感分类器的训练方法和分类方法”(2014年03月12日公布,授权公告号为CN101714135B的中国发明专利)。基于传统的机器学习方法,源领域和目标领域的共同词项(共享词)的选择主要依赖于词汇特征和句子特征,没有充分考虑情感语义。基于深度学习的跨领域情感分析,例如贾熹滨等提出“一种建立大规模跨领域文本情感倾向性分析框架的方法”(2016年11月9日公布,公布号为CN106096004A的中国发明专利申请),王勤勤等提出“基于word2vec的跨领域情感分类方法”(《计算机应用研究》,2018年第35卷第10期),余传明灯提出“基于深度表示学习的跨领域情感分析”(《数据分析与知识发现》,2017年第7期)。但是,这些方法即使考虑领域间共享词的桥梁作用,但仅采用共现、词频等单一且简单的度量指标选择共享词。
如何有效地选择共享词、充分发挥共享词的桥梁作用、以及针对跨领域情感分析任务有效地自动提取文本特征,提高目标领域的情感文本分类准确率,还有待进一步研究。
发明内容
针对现有技术中存在的不足,本发明在现有技术的基础上提出一种基于情感极性增强语义的跨领域情感分析方法,定量度量源领域和目标领域上情感语义的一致性,并结合情感极性值进行共享词的选择,基于共享词的极性增强情感语义,发挥共享词的桥梁作用并基于共享词提取文本情感特征,进一步提高目标领域情感文本分类的准确率。具体来说,本发明具体技术方案包括:
S1、提取源领域和目标领域中的情感文本的词项集W S 和W T ,并转化成词向量表V S 和V T ;
S2、在W S ∩W T 中对词频大于预设阀值的词项,计算词项的情感极性值,计算领域间词项的语义一致性因子,通过情感极性值筛选典型的正面情感词和负面情感词,再基于词项的语义一致性因子进一步筛选得到共享词;
S3、基于共享词的情感极性增强语义;
S4、基于卷积神经网络自动提取文本的情感特征,并完成目标领域情感文本分类;
其中所述的词向量表通过word2vec进行训练获得。
步骤S2中具体包括:
S2.1统计W S ∩W T 中每一个词在源领域和目标领域中的词频;选择词频大于预设阀值的词项;
S2.2基于正面种子词Pwords和负面种子词Nwords,计算W中每一个词w i 的情感极性值:
其中,p(.)是词项出现的文本数与文本总数的比值;
S2.3计算每一个候选词项w i 的语义一致性因子;
语义一致性因子通过基于w i 的源领域词向量和目标领域词向量的语义距离进行度量;
S2.4根据情感极性值筛选情感强烈的候选共享词项集;根据进一步筛选同时具有高一致性的情感词作为共享词F;
步骤S3具体包括
S3.1根据源领域特征W S 和目标领域特征W T ,将每一条情感文本表示为词项序列;对每一条积极情感文本,用正面共享词集对其进行扩展,得到序列;同样地,对每一条消极情感文本,用负面共享词集对其进行扩展,得到序列;
S3.2基于word2vec重新训练共享词扩展之后情感文本的词向量,用选择的共享词增强词向量的情感语义;
以上技术方案可以看出,本发明具有如下的有益效果:
从情感语义的基本点出发,选择兼顾词频和共现,以及领域间语义一致性的共享词,基于共享词的情感极性对样本进行扩展,增强情感词的情感语义,并自动提取领域情感文本的特征。因此,本发明更有效地和情感分析的目标相结合,更符合跨领域情感分析实际情形和特点;其次,减少人为设定文本特征,有效缩小领域间差异。与现有的分析方法相比,更能体现出情感语义在跨领域情感分析的本质和关键。
附图说明
图1本发明具体实施方式的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例:
图1为本发明实施例提供的方法流程图,如图1所示,该方法可以包括以下步骤:
步骤101:提取词项并进行向量化:
本发明实施中,例如英文文本可以通过分词、词性还原、去除停用词,提取unigram和bigrams词,作为源领域词项W S 和目标领域词项W T ;基于word2vec将词项W S 和W T 向量化,记为,。
步骤102:提取共享词集;
首先,统计W S ∩W T 中每一个词在源领域和目标领域中的词频;选择词频大于预设阀值β的词,其中β为正整数,β可以优选2≤β≤10;
其次,本发明实施中,可以根据HowNet极性词典,分别选择词频最高前N个正面词和N个负面词作为正面种子词Pwords和负面种子词Nwords;其中N可以优选大于15的整数;
基于正面种子词Pwords和负面种子词Nwords,计算W中每一个词的情感极性值:
其中,p(.)是词项出现的文本数与文本总数的比值;
第三,通过情感极性值筛选典型的正面情感词和负面情感词;
可以通过预设阀值ε,选择情感极性值大于ε正面候选共享词,小于-ε的词项作为负面候选共享词,ε可以选择0<ε≤0.5;得到候选词项集W′={w′1, w′2,…, w′ λ };
第四,对每一个候选词项w′ i ∈W′,计算w′ i 的语义一致性因子;
语义一致性因子通过基于源领域w′ i 的词向量和目标领域w′ i 的词向量的情感语义距离进行度量;
本实施例中,情感语义距离可以采用夹角余弦进行计算,例如
其中,n为词向量维数;
第五,根据进一步筛选同时具备高一致性因子的情感词作为共享词F;
可以通过共享词数量阀值2α,在据在W′中选距离最小的前α个负面词项和α个正面词项作为共享词集合F;α是大于0的整数,在本实施例中,可以优选25≤α≤50之间的整数;
步骤103:基于共享词极性增强语义;
首先将带标签的每一条情感文本表示为词项序列;
接着,对每一条积极情感文本,用正面共享词集对其进行扩展,得到序列;同样地,对每一条消极情感文本,用负面共享词集对其进行扩展,得到序列;
第三,基于word2vec训练扩展之后情感文本的词向量;用选择的共享词增强词向量的情感语义;
步骤104:提取情感文本特征并进行预测
首先,构建卷积神经网络模型,包括(1)输入层:词向量由输入层输入;(2)卷积层:通过滤波器卷积核对词向量进行卷积,卷积后产生局部情感特征图;(3)GlobalMaxPooling层:对上层卷积层的情感特征图进行池化操作,选取最重要的情感文本特征;(4)隐藏层:这是一个全连接层,把池化后的情感特征适当地降维,作为输出层的输入;(5)输出层:输出每条测试样本的情感类别,选择概率最高的情感类别作为预测结果。
其次,用带标签的情感样本训练卷积神经网络,得到模型参数,训练的目标是最小化损失函数。损失函数可以选择
Y(x)={y 1,y 2}表示所有x可能标签的集合,定义是得分最高的一个标签,即
其中表示输入为x,标签y的得分。
是范数的正则化项,用来减少参数空间,避免过拟合。其次,可以使用Adma(Adaptive Moment Estimation)估计来对网络进行训练。
第三,对目标领域未知类别的情感文本的情感倾向进行预测,用得分最高的标签作为预测结果。
以上所述仅为本发明的实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (6)
1.一种基于情感极性增强语义的跨领域情感分析方法,该方法的特征在于包括:
S1、提取源领域和目标领域中的情感文本的词项集合W S 和W T ,并转化成词向量表V S 和V T ;
S2、在W S ∩W T 中对词频大于预设阀值的词项,计算词项的情感极性值,计算领域间词项的语义一致性因子,通过情感极性值筛选典型的正面情感词和负面情感词,再基于词项的语义一致性因子进一步筛选并获得共享词;
S3、基于共享词的情感极性增强语义;
S4、基于卷积神经网络自动提取文本的情感特征,并完成目标领域情感文本分类。
2.根据权利要求1所述的一种基于情感极性增强语义的跨领域情感分析方法,其特征在于所述的词向量是通过现有的神经网络模型Word2Vec训练得出。
3.根据权利要求1所述的一种基于情感极性增强语义的跨领域情感分析方法,其特征在于步骤S2中所述的每一个词项的情感极性值,基于正面种子词Pwords和负面种子词Nwords计算获得,具体方法为:
其中,p(.)是词项出现的文本数与文本总数的比值。
4.根据权利要求1所述的一种基于情感极性增强语义的跨领域情感分析方法,其特征在于步骤S2中所述的每一个词项的语义一致性因子,通过的源领域词向量和目标领域词向量的语义距离进行度量。
5.根据权利要求1所述的一种基于情感极性增强语义的跨领域情感分析方法,其特征在于步骤S3中所述的基于共享词的情感极性增强语义包括:
S3.1、基于情感极性将共享词扩展到情感文本中;
S3.2、训练扩展之后情感文本的词向量。
6.根据权利要求5所述基于情感极性将共享词扩展到情感文本中,具体方法为:对每一条积极情感文本,用正面共享词对其进行扩展,得到序列;同样地,对每一条消极情感文本,用负面共享词对其进行扩展,得到序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711266642.6A CN107967337B (zh) | 2017-12-05 | 2017-12-05 | 一种基于情感极性增强语义的跨领域情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711266642.6A CN107967337B (zh) | 2017-12-05 | 2017-12-05 | 一种基于情感极性增强语义的跨领域情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107967337A true CN107967337A (zh) | 2018-04-27 |
CN107967337B CN107967337B (zh) | 2021-10-15 |
Family
ID=61998286
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711266642.6A Active CN107967337B (zh) | 2017-12-05 | 2017-12-05 | 一种基于情感极性增强语义的跨领域情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107967337B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492099A (zh) * | 2018-10-28 | 2019-03-19 | 北京工业大学 | 一种基于领域对抗自适应的跨领域文本情感分类方法 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN108763326B (zh) * | 2018-05-04 | 2021-01-12 | 南京邮电大学 | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 |
CN114239590A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 一种数据处理方法及装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101714135A (zh) * | 2009-12-11 | 2010-05-26 | 中国科学院计算技术研究所 | 一种跨领域文本情感倾向性分析方法 |
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN102929861A (zh) * | 2012-10-22 | 2013-02-13 | 杭州东信北邮信息技术有限公司 | 一种文本情感指数计算方法和系统 |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN106547842A (zh) * | 2016-10-14 | 2017-03-29 | 华东师范大学 | 一种在虚拟地球平台上可视化基于位置的情感的方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
-
2017
- 2017-12-05 CN CN201711266642.6A patent/CN107967337B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770580A (zh) * | 2009-01-04 | 2010-07-07 | 中国科学院计算技术研究所 | 一种跨领域的文本情感分类器的训练方法和分类方法 |
CN101714135A (zh) * | 2009-12-11 | 2010-05-26 | 中国科学院计算技术研究所 | 一种跨领域文本情感倾向性分析方法 |
CN102929861A (zh) * | 2012-10-22 | 2013-02-13 | 杭州东信北邮信息技术有限公司 | 一种文本情感指数计算方法和系统 |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
US20160253597A1 (en) * | 2015-02-27 | 2016-09-01 | Xerox Corporation | Content-aware domain adaptation for cross-domain classification |
CN106096004A (zh) * | 2016-06-23 | 2016-11-09 | 北京工业大学 | 一种建立大规模跨领域文本情感倾向性分析框架的方法 |
CN106547842A (zh) * | 2016-10-14 | 2017-03-29 | 华东师范大学 | 一种在虚拟地球平台上可视化基于位置的情感的方法 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
Non-Patent Citations (3)
Title |
---|
XIAOCONG WEI 等: "Cross-domain Sentiment Classification via Constructing Semantic Correlation", 《IAENG INTERNATIONAL JOURNAL OF COMPUTER SCIENCE》 * |
张博 等: "一种基于跨领域典型相关性分析的迁移学习方法", 《计算机学报》 * |
王勤勤 等: "基于word2vec的跨领域情感分类方法", 《计算机应用研究》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763326B (zh) * | 2018-05-04 | 2021-01-12 | 南京邮电大学 | 一种基于特征多样化的卷积神经网络的情感分析模型构建方法 |
CN109492099A (zh) * | 2018-10-28 | 2019-03-19 | 北京工业大学 | 一种基于领域对抗自适应的跨领域文本情感分类方法 |
CN109492099B (zh) * | 2018-10-28 | 2022-03-15 | 北京工业大学 | 一种基于领域对抗自适应的跨领域文本情感分类方法 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN114239590A (zh) * | 2021-12-01 | 2022-03-25 | 马上消费金融股份有限公司 | 一种数据处理方法及装置 |
CN114239590B (zh) * | 2021-12-01 | 2023-09-19 | 马上消费金融股份有限公司 | 一种数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107967337B (zh) | 2021-10-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107092596B (zh) | 基于attention CNNs和CCR的文本情感分析方法 | |
Pham et al. | Exploiting multiple word embeddings and one-hot character vectors for aspect-based sentiment analysis | |
Ren et al. | Deceptive opinion spam detection using neural network | |
CN110175325B (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
Elnagar et al. | An annotated huge dataset for standard and colloquial arabic reviews for subjective sentiment analysis | |
Mahmoudi et al. | Deep neural networks understand investors better | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
CN107025284A (zh) | 网络评论文本情感倾向的识别方法及卷积神经网络模型 | |
CN107038480A (zh) | 一种基于卷积神经网络的文本情感分类方法 | |
CN107967337A (zh) | 一种基于情感极性增强语义的跨领域情感分析方法 | |
CN108388544A (zh) | 一种基于深度学习的图文融合微博情感分析方法 | |
CN107609132A (zh) | 一种基于语义本体库中文文本情感分析方法 | |
TW201214169A (en) | Recognition of target words using designated characteristic values | |
CN106610955A (zh) | 基于词典的多维度情感分析方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
Paik et al. | The world of an octopus: How reporting bias influences a language model's perception of color | |
CN105740382A (zh) | 一种对短评论文本进行方面分类方法 | |
CN107180084A (zh) | 词库更新方法及装置 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN110765769A (zh) | 一种基于子句特征的实体属性依赖情感分析方法 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |