CN107239439A - 基于word2vec的舆情倾向性分析方法 - Google Patents

基于word2vec的舆情倾向性分析方法 Download PDF

Info

Publication number
CN107239439A
CN107239439A CN201710259721.8A CN201710259721A CN107239439A CN 107239439 A CN107239439 A CN 107239439A CN 201710259721 A CN201710259721 A CN 201710259721A CN 107239439 A CN107239439 A CN 107239439A
Authority
CN
China
Prior art keywords
word
mrow
sentence
sentiment
news
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710259721.8A
Other languages
English (en)
Inventor
蒋昌俊
闫春钢
王鹏伟
何良华
罗裕隽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201710259721.8A priority Critical patent/CN107239439A/zh
Publication of CN107239439A publication Critical patent/CN107239439A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于word2vec的舆情倾向性分析方法,包括向量训练阶段、关键句提取阶段和倾向性判别阶段,通过提取新闻关键句缩小判别的特征空间,保留与原文主题相关性较大的内容,剔除无用信息,提高舆情倾向性分析的准确率;将深度学习模型word2vec引入舆情倾向性分析,用于比较词与词之间的语义相似度,并通过词向量来比较语义相似度,能较好识别出具有相同情感倾向但不在情感词典中的词语,即使情感词典不够完备也能获得一个较好的分析效果,同时,融合语法规则对关键句的情感倾向性进行加权计算,结合上下文信息,弥补单纯使用词义相似度的局限性,从句子整体分析倾向性,实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。

Description

基于word2vec的舆情倾向性分析方法
技术领域
本发明涉及计算机应用领域,尤其涉及一种基于word2vec的舆情倾向性分析方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。新闻在传播的过程中,越来越多的倾向性披露在公众面前,这些正面积极的或负面消极的情感倾向潜移默化地影响着人们对时事动态的看法,影响了舆论的走势。舆情倾向性分析研究正是在这种形势下产生的,旨在通过对新闻文本进行分析,挖掘新闻潜在的倾向性,希望有助于公众了解最新社会动态,获悉时事热点和舆论舆情的最新发展和走势;希望有助于监管部门及时发现社会问题,构建文明和谐的舆论环境;希望有助于公司、企业或机关事业单位的决策者正确把握当前形势并制定相应的策略。
目前主流的新闻搜索引擎都只是针对关键字对新闻进行检索,想要获得新闻的文本倾向性只能通过人工方法自行检索和识别,但每天互联网上更新的新闻数量十分庞大,通过人工进行新闻的倾向性检索耗费大量的人力和物力,而且效率低下。舆情倾向性分析的实质是篇章级文本倾向性分析,由于新闻报道的篇幅较长,其中有些句子和对阐明主题贡献较大,有些和主题关系不大,如果直接将整篇文章进行倾向性分析可能会影响算法的判别效果。
目前,使用最广泛的文档表示方法都是基于词袋模型。词袋模型将文档看成是词的集合,在该集合中,每个词是相互独立的,不考虑词的顺序、语法和语义信息,它将一篇文档表示成与训练词汇集合相同维度的向量,向量中对应位置的值表示该文档中该词出现的次数。词袋模型存在几个主要问题:1)样本空间的维数过高,增加计算的复杂度,易造成“维数灾难”现象;2)词袋模型不考虑词与词之间的语义关系,如“电脑”和“计算机”实际上是同一种东西,但通过词袋模型比较它们的相似度为0,并且现有技术中的评价对象的粒度是词语级的,无法做到篇章级的倾向性判断,因此,亟需一种新的技术手段,能够实现对篇章级的新闻文本的情感倾向性以及情感强度的判别。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种基于word2vec的舆情倾向性分析方法,以解决上述技术问题,通过以word2vec为基础,抽取新闻文本中的关键句,比较词汇之间的相似度,并结合人工制定的语法规则,首先对每句关键句的情感倾向性进行打分,再通过加权归一化方法实现对新闻文本的情感倾向性以及情感强度的判别。
本发明提供的基于word2vec的舆情倾向性分析方法,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
进一步,通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
进一步,所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
进一步,所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
进一步,根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
进一步,通过如下公式获取关键句的情感值:
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
进一步,当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitation Value为新闻全文的情感倾向值。
进一步,预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定。
进一步,所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练;
所述文字转化处理包括将待分析新闻数据转化为标准字符;
所述模型训练包括设置word2vec的训练窗口尺寸、低频词阈值以及词向量空间容量,并将分词处理后的数据输入word2vec,获取各词语对应的词向量。
进一步,对新闻分句中的每个词语,分别计算其与多个关键词的余弦相似度,并取最大值作为对应词语的词语重要度评分。
本发明的有益效果:本发明中的基于word2vec的舆情倾向性分析方法,可以有效的缩小判别的特征空间,保留与原文主题相关性较大的内容,剔除无用信息,提高舆情倾向性分析的准确率,通过word2vec来比较词与词之间的语义相似度,通过词向量来比较语义相似度,能较好识别出具有相同情感倾向但不在情感词典中的词语,即使情感词典不够完备也能获得一个较好的分析效果,另外,通过融合语法规则对关键句的情感倾向性进行加权计算,可以结合上下文信息,弥补单纯使用词义相似度的局限性,从句子整体分析倾向性,实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。
附图说明
图1是本发明实施例的舆情倾向性判别的原理示意图。
图2是本发明实施例的关键句提取流程示意图。
图3是本发明实施例的舆情倾向性判别的流程示意图。
图4是本发明的原理框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1、4所示,本实施例中的基于word2vec的舆情倾向性分析方法,主要包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述新闻关键句群进行预处理,对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算该篇新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取新闻的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
在本实施例中,词向量训练是基于word2vec深度学习模型来实现,可以通过互联网上获取的大量数据为语料进行训练,最终得到每个词语对应的向量表示,词语相似度采用词向量的余弦距离进行度量;新闻关键句提取,首先对整篇新闻报道进行断句和关键词提取,再通过计算新闻分句和新闻关键词的匹配程度,最终提取匹配度最高的若干新闻分句以及标题作为新闻关键句群,通过新闻关键群可以简洁准确的概括新闻所表达的信息;倾向性判别是从关键句出发,对关键句进行分词,去停用词等处理,比较关键句中词语和情感词的相似度,再通过语法规则对判断进行校正,得到每个句子的倾向性评分,最后将关键句评分加权平均,得到新闻的情感评分。
在本实施例中,在倾向性判别阶段之前,首先需要准备情感词典、语法规则和词向量,其中情感词典需要根据所处理领域文本的特点预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定,语法规则包括否定词,关联词、程度副词以及上下文语义信息等,由于单从词语层面进行倾向性分析相对片面,因此通过上下文语义信息,将语法规则融入基于词向量的倾向性分析,从句子整体把握情感倾向性;词向量训练需要大量的文本作为训练集,可以通过互联网获取的大量新闻数据为语料进行训练,也可以使用中文wiki语料库,最终得到每个词语对应的向量表示。
在本实施例中,所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示,在本实施例中,关键词的提取可以通过Textrank算法从每篇新闻文档中提取10个关键词;由于新闻关键句提取模块将提取文档中的若干句子,因此首先按句号、分号或感叹号等标点符号将文本分割为若干完整句,通过断句处理,可以按句号、分号或感叹号等标点符号将文本分割为若干完整句,对文本进行分词及去停用词处理,得到分词结果,每句分句都由一个词语序列{word1,word2,…,wordn}表示,词语序列为句子的分词结果,为后续句子的倾向性分析做准备。
在本实施例中,通过词向量的余弦距离对词语相似度进行度量,得到每个词的n维词向量后词语相似度的计算公式如下:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
如图2所示,在本实施例中,新闻关键句提取旨在从长篇文档中提取出对阐明主题贡献较大的句子,剔除与主题无关的信息,为进一步倾向性分析打下基础,由于新闻标题可以极大的反映内容,因此,本实施例将新闻标题也作为新闻关键句之一。关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。本实施例通过对新闻分句中的每个词语,按公式(1)计算其与10个关键词的余弦相似度并取最大值作为词语重要度评分;将分句中所有词语的重要程度评分累加并取平均值作为句子的重要度评分;提取重要度评分最高的4个句子以及新闻标题共同作为新闻关键句群。
在本实施例中,倾向性判别阶段主要包括判别新闻的情感极性以及计算情感倾向程度值,倾向性判别的主体是新闻关键句群,判别方法以分句中词语和情感词的余弦相似度为基础,融入语法规则对关键句的情感倾向进行加权计算,最后结合关键句权重即可得出全文的情感倾向值,情感倾向值的区间为[-1,1]。如图3所示,倾向性分析步骤如下:
(1)对关键句中的词语,除关联词、否定词以及程度副词外,按公式(1)计算其与情感词的余弦相似度并取最大值作为词语倾向性程度评分;
(2)通过融入语法规则,对词语赋予不同权重,按如下公式对词语倾向值进行累加最终得到每句关键句的情感值;
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
例如关联词“虽然…但是…”将句子分为两个小句,该句所表达的重点应在“但是”之后,因此后一小句的权值比前一小句的大。
(3)判断新闻倾向并计算倾向值:当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitation Value为新闻全文的情感倾向值。
下面列举一个具体的实施例进行详细说明:
表1
如表1所示,可以看到关键句抽取算法一共抽取含标题在内的三句句子作为关键句群,在关键句倾向评分中,若检测到语法规则关键词,则对其连接的分句赋予不同的权值再进行词语倾向评分的累加,若没有检测到则直接对词语倾向评分进行累加平均,最终得到整篇新闻的情感倾向性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于word2vec的舆情倾向性分析方法,其特征在于,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
2.根据权利要求1所述的基于word2vec的舆情倾向性分析方法,其特征在于:通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
<mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mi>&amp;theta;</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>B</mi> <mi>i</mi> </msub> </mrow> <mrow> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>A</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mn>1</mn> <mi>n</mi> </msubsup> <msubsup> <mi>B</mi> <mi>i</mi> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
3.根据权利要求2所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
4.根据权利要求3所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
5.根据权利要求4所述的基于word2vec的舆情倾向性分析方法,其特征在于:根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
6.根据权利要求5所述的基于word2vec的舆情倾向性分析方法,其特征在于:
通过如下公式获取关键句的情感值:
<mrow> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>&amp;beta;</mi> <mi>j</mi> </msub> <mo>*</mo> <mrow> <mo>(</mo> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>n</mi> <mi>j</mi> </msub> </msubsup> <msub> <mi>&amp;alpha;</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>&amp;gamma;</mi> <mi>i</mi> </msub> <mo>*</mo> <msub> <mi>wScore</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </msubsup> <msub> <mi>n</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
7.根据权利要求6所述的基于word2vec的舆情倾向性分析方法,其特征在于:当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
<mrow> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mi>i</mi> <mi>t</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mo>&amp;Sigma;</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> <mrow> <mi>p</mi> <mi>o</mi> <mi>s</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <mo>;</mo> </mrow>
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
<mrow> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mi>i</mi> <mi>t</mi> <mi>a</mi> <mi>t</mi> <mi>i</mi> <mi>o</mi> <mi>n</mi> <mi>V</mi> <mi>a</mi> <mi>l</mi> <mi>u</mi> <mi>e</mi> <mo>=</mo> <mfrac> <mrow> <mo>&amp;Sigma;</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>S</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> </mrow> <mrow> <mi>n</mi> <mi>e</mi> <mi>g</mi> <mi>N</mi> <mi>u</mi> <mi>m</mi> </mrow> </mfrac> <mo>.</mo> </mrow>
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitationValue为新闻全文的情感倾向值。
8.根据权利要求1-7任一所述的基于word2vec的舆情倾向性分析方法,其特征在于:预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定。
9.根据权利要求8所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练;
所述文字转化处理包括将待分析新闻数据转化为标准字符;
所述模型训练包括设置word2vec的训练窗口尺寸、低频词阈值以及词向量空间容量,并将分词处理后的数据输入word2vec,获取各词语对应的词向量。
10.根据权利要求4所述的基于word2vec的舆情倾向性分析方法,其特征在于:对新闻分句中的每个词语,分别计算其与多个关键词的余弦相似度,并取最大值作为对应词语的词语重要度评分。
CN201710259721.8A 2017-04-19 2017-04-19 基于word2vec的舆情倾向性分析方法 Pending CN107239439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710259721.8A CN107239439A (zh) 2017-04-19 2017-04-19 基于word2vec的舆情倾向性分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710259721.8A CN107239439A (zh) 2017-04-19 2017-04-19 基于word2vec的舆情倾向性分析方法

Publications (1)

Publication Number Publication Date
CN107239439A true CN107239439A (zh) 2017-10-10

Family

ID=59983758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710259721.8A Pending CN107239439A (zh) 2017-04-19 2017-04-19 基于word2vec的舆情倾向性分析方法

Country Status (1)

Country Link
CN (1) CN107239439A (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108021609A (zh) * 2017-11-01 2018-05-11 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN109325119A (zh) * 2018-09-05 2019-02-12 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109726938A (zh) * 2019-01-28 2019-05-07 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN109885687A (zh) * 2018-12-29 2019-06-14 深兰科技(上海)有限公司 一种文本的情感分析方法、装置、电子设备及存储介质
CN109977393A (zh) * 2017-12-28 2019-07-05 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN111813937A (zh) * 2020-07-07 2020-10-23 新华智云科技有限公司 基于正能量词典正能量新闻分类方法
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN112347230A (zh) * 2020-11-16 2021-02-09 上海品见智能科技有限公司 一种基于Word2Vec的企业舆情数据分析方法
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113505221A (zh) * 2020-03-24 2021-10-15 国家计算机网络与信息安全管理中心 一种企业虚假宣传风险识别方法、设备和存储介质
CN113535891A (zh) * 2021-06-07 2021-10-22 广东东华发思特软件有限公司 互联网短文本主题特征与情感倾向分析方法、系统及介质
CN114091469A (zh) * 2021-11-23 2022-02-25 杭州萝卜智能技术有限公司 基于样本扩充的网络舆情分析方法
CN115982473A (zh) * 2023-03-21 2023-04-18 环球数科集团有限公司 一种基于aigc的舆情分析编排系统
CN116629804A (zh) * 2023-06-06 2023-08-22 河北华正信息工程有限公司 一种信访督查跟踪管理系统及管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
US20130218914A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation System and method for providing recommendations based on information extracted from reviewers' comments
CN105022725A (zh) * 2015-07-10 2015-11-04 河海大学 一种应用于金融Web领域的文本情感倾向分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卢兴: "基于统计方法的中文短文本情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
曹欢欢: "负面新闻判定算法的研究与应用", 《小型微型计算机系统》 *
杨江: "基于主题情感句的汉语评论文倾向性分析", 《计算机应用研究》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021609A (zh) * 2017-11-01 2018-05-11 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN108021609B (zh) * 2017-11-01 2020-08-18 深圳市牛鼎丰科技有限公司 文本情感分类方法、装置、计算机设备和存储介质
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备
CN108052505A (zh) * 2017-12-26 2018-05-18 上海智臻智能网络科技股份有限公司 文本情感分析方法及装置、存储介质、终端
CN109977393A (zh) * 2017-12-28 2019-07-05 中国科学院计算技术研究所 一种基于内容争议性的流行新闻预测方法和系统
CN108319666A (zh) * 2018-01-19 2018-07-24 国网浙江省电力有限公司电力科学研究院 一种基于多模态舆情分析的供电服务评估方法
CN108319666B (zh) * 2018-01-19 2021-09-28 国网浙江省电力有限公司营销服务中心 一种基于多模态舆情分析的供电服务评估方法
CN108319587A (zh) * 2018-02-05 2018-07-24 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机
CN108319587B (zh) * 2018-02-05 2021-11-19 中译语通科技股份有限公司 一种多权重的舆情价值计算方法及系统、计算机
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN108363692B (zh) * 2018-02-13 2021-04-02 成都智库二八六一信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
WO2019214145A1 (zh) * 2018-05-10 2019-11-14 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN109325119B (zh) * 2018-09-05 2024-03-15 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109325119A (zh) * 2018-09-05 2019-02-12 平安科技(深圳)有限公司 新闻情感分析的方法、装置、计算机设备和存储介质
CN109359296B (zh) * 2018-09-18 2023-08-18 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109359296A (zh) * 2018-09-18 2019-02-19 深圳前海微众银行股份有限公司 舆情情感识别方法、装置及计算机可读存储介质
CN109885687A (zh) * 2018-12-29 2019-06-14 深兰科技(上海)有限公司 一种文本的情感分析方法、装置、电子设备及存储介质
CN109726938A (zh) * 2019-01-28 2019-05-07 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN109726938B (zh) * 2019-01-28 2023-09-12 北京桃花岛信息技术有限公司 一种基于深度学习的学生思政状况预警方法
CN109992668B (zh) * 2019-04-04 2023-02-21 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN112036165A (zh) * 2019-05-14 2020-12-04 西交利物浦大学 一种新闻特征向量的构建方法及应用
CN113505221A (zh) * 2020-03-24 2021-10-15 国家计算机网络与信息安全管理中心 一种企业虚假宣传风险识别方法、设备和存储介质
CN113505221B (zh) * 2020-03-24 2024-03-12 国家计算机网络与信息安全管理中心 一种企业虚假宣传风险识别方法、设备和存储介质
CN111813937A (zh) * 2020-07-07 2020-10-23 新华智云科技有限公司 基于正能量词典正能量新闻分类方法
CN112347230B (zh) * 2020-11-16 2024-04-19 上海品见智能科技有限公司 一种基于Word2Vec的企业舆情数据分析方法
CN112347230A (zh) * 2020-11-16 2021-02-09 上海品见智能科技有限公司 一种基于Word2Vec的企业舆情数据分析方法
CN112989040A (zh) * 2021-03-10 2021-06-18 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN112989040B (zh) * 2021-03-10 2024-02-27 河南中原消费金融股份有限公司 一种对话文本标注方法、装置、电子设备及存储介质
CN113535891A (zh) * 2021-06-07 2021-10-22 广东东华发思特软件有限公司 互联网短文本主题特征与情感倾向分析方法、系统及介质
CN114091469B (zh) * 2021-11-23 2022-08-19 杭州萝卜智能技术有限公司 基于样本扩充的网络舆情分析方法
CN114091469A (zh) * 2021-11-23 2022-02-25 杭州萝卜智能技术有限公司 基于样本扩充的网络舆情分析方法
CN115982473B (zh) * 2023-03-21 2023-06-23 环球数科集团有限公司 一种基于aigc的舆情分析编排系统
CN115982473A (zh) * 2023-03-21 2023-04-18 环球数科集团有限公司 一种基于aigc的舆情分析编排系统
CN116629804A (zh) * 2023-06-06 2023-08-22 河北华正信息工程有限公司 一种信访督查跟踪管理系统及管理方法
CN116629804B (zh) * 2023-06-06 2024-01-09 河北华正信息工程有限公司 一种信访督查跟踪管理系统及管理方法

Similar Documents

Publication Publication Date Title
CN107239439A (zh) 基于word2vec的舆情倾向性分析方法
CN106598944B (zh) 一种民航安保舆情情感分析方法
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN103207913B (zh) 商品细粒度语义关系的获取方法和系统
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN105824933A (zh) 基于主述位的自动问答系统及其实现方法
CN103678278A (zh) 一种中文文本情感识别方法
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
CN108536801A (zh) 一种基于深度学习的民航微博安保舆情情感分析方法
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN110472203B (zh) 一种文章的查重检测方法、装置、设备及存储介质
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN103729421A (zh) 一种译员文档精确匹配的方法
CN107463715A (zh) 基于信息增益的英文社交媒体账号分类方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171010