CN107239439A - 基于word2vec的舆情倾向性分析方法 - Google Patents
基于word2vec的舆情倾向性分析方法 Download PDFInfo
- Publication number
- CN107239439A CN107239439A CN201710259721.8A CN201710259721A CN107239439A CN 107239439 A CN107239439 A CN 107239439A CN 201710259721 A CN201710259721 A CN 201710259721A CN 107239439 A CN107239439 A CN 107239439A
- Authority
- CN
- China
- Prior art keywords
- word
- mrow
- sentence
- sentiment
- news
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于word2vec的舆情倾向性分析方法,包括向量训练阶段、关键句提取阶段和倾向性判别阶段,通过提取新闻关键句缩小判别的特征空间,保留与原文主题相关性较大的内容,剔除无用信息,提高舆情倾向性分析的准确率;将深度学习模型word2vec引入舆情倾向性分析,用于比较词与词之间的语义相似度,并通过词向量来比较语义相似度,能较好识别出具有相同情感倾向但不在情感词典中的词语,即使情感词典不够完备也能获得一个较好的分析效果,同时,融合语法规则对关键句的情感倾向性进行加权计算,结合上下文信息,弥补单纯使用词义相似度的局限性,从句子整体分析倾向性,实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。
Description
技术领域
本发明涉及计算机应用领域,尤其涉及一种基于word2vec的舆情倾向性分析方法。
背景技术
舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。新闻在传播的过程中,越来越多的倾向性披露在公众面前,这些正面积极的或负面消极的情感倾向潜移默化地影响着人们对时事动态的看法,影响了舆论的走势。舆情倾向性分析研究正是在这种形势下产生的,旨在通过对新闻文本进行分析,挖掘新闻潜在的倾向性,希望有助于公众了解最新社会动态,获悉时事热点和舆论舆情的最新发展和走势;希望有助于监管部门及时发现社会问题,构建文明和谐的舆论环境;希望有助于公司、企业或机关事业单位的决策者正确把握当前形势并制定相应的策略。
目前主流的新闻搜索引擎都只是针对关键字对新闻进行检索,想要获得新闻的文本倾向性只能通过人工方法自行检索和识别,但每天互联网上更新的新闻数量十分庞大,通过人工进行新闻的倾向性检索耗费大量的人力和物力,而且效率低下。舆情倾向性分析的实质是篇章级文本倾向性分析,由于新闻报道的篇幅较长,其中有些句子和对阐明主题贡献较大,有些和主题关系不大,如果直接将整篇文章进行倾向性分析可能会影响算法的判别效果。
目前,使用最广泛的文档表示方法都是基于词袋模型。词袋模型将文档看成是词的集合,在该集合中,每个词是相互独立的,不考虑词的顺序、语法和语义信息,它将一篇文档表示成与训练词汇集合相同维度的向量,向量中对应位置的值表示该文档中该词出现的次数。词袋模型存在几个主要问题:1)样本空间的维数过高,增加计算的复杂度,易造成“维数灾难”现象;2)词袋模型不考虑词与词之间的语义关系,如“电脑”和“计算机”实际上是同一种东西,但通过词袋模型比较它们的相似度为0,并且现有技术中的评价对象的粒度是词语级的,无法做到篇章级的倾向性判断,因此,亟需一种新的技术手段,能够实现对篇章级的新闻文本的情感倾向性以及情感强度的判别。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种基于word2vec的舆情倾向性分析方法,以解决上述技术问题,通过以word2vec为基础,抽取新闻文本中的关键句,比较词汇之间的相似度,并结合人工制定的语法规则,首先对每句关键句的情感倾向性进行打分,再通过加权归一化方法实现对新闻文本的情感倾向性以及情感强度的判别。
本发明提供的基于word2vec的舆情倾向性分析方法,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
进一步,通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
进一步,所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
进一步,所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
进一步,根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
进一步,通过如下公式获取关键句的情感值:
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
进一步,当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitation Value为新闻全文的情感倾向值。
进一步,预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定。
进一步,所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练;
所述文字转化处理包括将待分析新闻数据转化为标准字符;
所述模型训练包括设置word2vec的训练窗口尺寸、低频词阈值以及词向量空间容量,并将分词处理后的数据输入word2vec,获取各词语对应的词向量。
进一步,对新闻分句中的每个词语,分别计算其与多个关键词的余弦相似度,并取最大值作为对应词语的词语重要度评分。
本发明的有益效果:本发明中的基于word2vec的舆情倾向性分析方法,可以有效的缩小判别的特征空间,保留与原文主题相关性较大的内容,剔除无用信息,提高舆情倾向性分析的准确率,通过word2vec来比较词与词之间的语义相似度,通过词向量来比较语义相似度,能较好识别出具有相同情感倾向但不在情感词典中的词语,即使情感词典不够完备也能获得一个较好的分析效果,另外,通过融合语法规则对关键句的情感倾向性进行加权计算,可以结合上下文信息,弥补单纯使用词义相似度的局限性,从句子整体分析倾向性,实现了对篇章级的新闻文本的情感倾向性以及情感强度的准确判别。
附图说明
图1是本发明实施例的舆情倾向性判别的原理示意图。
图2是本发明实施例的关键句提取流程示意图。
图3是本发明实施例的舆情倾向性判别的流程示意图。
图4是本发明的原理框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
如图1、4所示,本实施例中的基于word2vec的舆情倾向性分析方法,主要包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述新闻关键句群进行预处理,对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算该篇新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取新闻的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
在本实施例中,词向量训练是基于word2vec深度学习模型来实现,可以通过互联网上获取的大量数据为语料进行训练,最终得到每个词语对应的向量表示,词语相似度采用词向量的余弦距离进行度量;新闻关键句提取,首先对整篇新闻报道进行断句和关键词提取,再通过计算新闻分句和新闻关键词的匹配程度,最终提取匹配度最高的若干新闻分句以及标题作为新闻关键句群,通过新闻关键群可以简洁准确的概括新闻所表达的信息;倾向性判别是从关键句出发,对关键句进行分词,去停用词等处理,比较关键句中词语和情感词的相似度,再通过语法规则对判断进行校正,得到每个句子的倾向性评分,最后将关键句评分加权平均,得到新闻的情感评分。
在本实施例中,在倾向性判别阶段之前,首先需要准备情感词典、语法规则和词向量,其中情感词典需要根据所处理领域文本的特点预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定,语法规则包括否定词,关联词、程度副词以及上下文语义信息等,由于单从词语层面进行倾向性分析相对片面,因此通过上下文语义信息,将语法规则融入基于词向量的倾向性分析,从句子整体把握情感倾向性;词向量训练需要大量的文本作为训练集,可以通过互联网获取的大量新闻数据为语料进行训练,也可以使用中文wiki语料库,最终得到每个词语对应的向量表示。
在本实施例中,所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示,在本实施例中,关键词的提取可以通过Textrank算法从每篇新闻文档中提取10个关键词;由于新闻关键句提取模块将提取文档中的若干句子,因此首先按句号、分号或感叹号等标点符号将文本分割为若干完整句,通过断句处理,可以按句号、分号或感叹号等标点符号将文本分割为若干完整句,对文本进行分词及去停用词处理,得到分词结果,每句分句都由一个词语序列{word1,word2,…,wordn}表示,词语序列为句子的分词结果,为后续句子的倾向性分析做准备。
在本实施例中,通过词向量的余弦距离对词语相似度进行度量,得到每个词的n维词向量后词语相似度的计算公式如下:
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
如图2所示,在本实施例中,新闻关键句提取旨在从长篇文档中提取出对阐明主题贡献较大的句子,剔除与主题无关的信息,为进一步倾向性分析打下基础,由于新闻标题可以极大的反映内容,因此,本实施例将新闻标题也作为新闻关键句之一。关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。本实施例通过对新闻分句中的每个词语,按公式(1)计算其与10个关键词的余弦相似度并取最大值作为词语重要度评分;将分句中所有词语的重要程度评分累加并取平均值作为句子的重要度评分;提取重要度评分最高的4个句子以及新闻标题共同作为新闻关键句群。
在本实施例中,倾向性判别阶段主要包括判别新闻的情感极性以及计算情感倾向程度值,倾向性判别的主体是新闻关键句群,判别方法以分句中词语和情感词的余弦相似度为基础,融入语法规则对关键句的情感倾向进行加权计算,最后结合关键句权重即可得出全文的情感倾向值,情感倾向值的区间为[-1,1]。如图3所示,倾向性分析步骤如下:
(1)对关键句中的词语,除关联词、否定词以及程度副词外,按公式(1)计算其与情感词的余弦相似度并取最大值作为词语倾向性程度评分;
(2)通过融入语法规则,对词语赋予不同权重,按如下公式对词语倾向值进行累加最终得到每句关键句的情感值;
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
例如关联词“虽然…但是…”将句子分为两个小句,该句所表达的重点应在“但是”之后,因此后一小句的权值比前一小句的大。
(3)判断新闻倾向并计算倾向值:当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitation Value为新闻全文的情感倾向值。
下面列举一个具体的实施例进行详细说明:
表1
如表1所示,可以看到关键句抽取算法一共抽取含标题在内的三句句子作为关键句群,在关键句倾向评分中,若检测到语法规则关键词,则对其连接的分句赋予不同的权值再进行词语倾向评分的累加,若没有检测到则直接对词语倾向评分进行累加平均,最终得到整篇新闻的情感倾向性。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种基于word2vec的舆情倾向性分析方法,其特征在于,包括:
词向量训练阶段:采集新闻数据,通过word2vec深度学习模型对所述新闻数据进行训练,获取词向量训练结果,所述词向量训练结果包括每个词语对应的向量表示;
关键句提取阶段:对所述待分析新闻数据进行预处理,所述预处理至少包括对待分析的整篇新闻数据进行断句和关键字提取,根据词向量训练结果计算待分析新闻数据中分句和关键词的匹配程度,获取与关键字匹配度最高的分句和该篇新闻数据的标题,并将其作为新闻关键句群;
倾向性判别阶段:比较预处理处理后的新闻关键句群中的词语和情感词的相似度,获取待分析新闻数据的情感评分,通过所述情感评分对新闻数据进行倾向性判别。
2.根据权利要求1所述的基于word2vec的舆情倾向性分析方法,其特征在于:通过词向量的余弦距离对词语相似度进行度量,所述词语相似度通过如下公式获取:
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mi>&theta;</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mn>1</mn>
<mi>n</mi>
</msubsup>
<msub>
<mi>A</mi>
<mi>i</mi>
</msub>
<mo>*</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
</mrow>
<mrow>
<msqrt>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mn>1</mn>
<mi>n</mi>
</msubsup>
<msubsup>
<mi>A</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
<msqrt>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mn>1</mn>
<mi>n</mi>
</msubsup>
<msubsup>
<mi>B</mi>
<mi>i</mi>
<mn>2</mn>
</msubsup>
</mrow>
</msqrt>
</mrow>
</mfrac>
</mrow>
其中,Ai表示向量A的第i个分量的值,Bi表示向量B的第i个分量的值,n表示向量长度,θ表示向量A和向量B的夹角。
3.根据权利要求2所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述预处理包括关键词提取处理、断句处理以及对关键句进行分词及去除停用词处理,通过预处理获取每篇新闻数据的关键词、分句和分词结果,并将每句分句由一个词语序列表示。
4.根据权利要求3所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述关键句提取阶段具体包括:对待分析的整篇新闻数据进行断句和关键字提取,计算新闻分句中的每个词语的词语相似度,并获取其与关键词的余弦相似度的最大值,将所述最大值作为词语重要度评分,通过将分句中的所有词语的词语重要度评分进行累加并取平均值作为句子的重要度评分,提取句子的重要度评分中最高的句子以及该篇新闻数据的标题,将其作为新闻关键句群。
5.根据权利要求4所述的基于word2vec的舆情倾向性分析方法,其特征在于:根据语法规则对新闻关键句群的情感倾向进行加权处理,获取新闻关键句群中的关键句的情感值,并根据关键句权重和所述情感值获取待分析新闻全文的情感倾向值,通过所述情感倾向值对待分析新闻全文的倾向性进行判定;所述语法规则包括否定词,关联词、程度副词以及上下文语义信息。
6.根据权利要求5所述的基于word2vec的舆情倾向性分析方法,其特征在于:
通过如下公式获取关键句的情感值:
<mrow>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msub>
<mi>&beta;</mi>
<mi>j</mi>
</msub>
<mo>*</mo>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</msubsup>
<msub>
<mi>&alpha;</mi>
<mi>i</mi>
</msub>
<mo>*</mo>
<msub>
<mi>&gamma;</mi>
<mi>i</mi>
</msub>
<mo>*</mo>
<msub>
<mi>wScore</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>j</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msub>
<mi>n</mi>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
</mrow>
其中,m为由关联词断开的小句数目,senScore为关键句的情感值,βj为第j个小句的权值;nj为第j个小句中含有词语的个数,wScorei为每个词的情感值,αi为否定词权重,γi为程度副词权重;
若第i个词前存在否定词,则αi为-1,否则为1;
若第i个词有程度副词修饰,根据程度副词表对γi赋予不同的权值,默认值为1;
当senScore>0时,句子具有正面倾向,当senScore<0时,句子具有负面倾向。
7.根据权利要求6所述的基于word2vec的舆情倾向性分析方法,其特征在于:当具有正面倾向的新闻关键句的数目大于具有负面倾向的新闻关键句的数目时,判定新闻全文的情感倾向为正面倾向,反之,则判断其为负面倾向;
当新闻全文的情感倾向为正面倾向时,通过如下公式获取新闻全文的情感倾向值:
<mrow>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mi>i</mi>
<mi>t</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>&Sigma;</mo>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
</mrow>
<mrow>
<mi>p</mi>
<mi>o</mi>
<mi>s</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
当新闻全文的情感倾向为负面倾向时,通过如下公式获取新闻全文的情感倾向值:
<mrow>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
<mi>i</mi>
<mi>t</mi>
<mi>a</mi>
<mi>t</mi>
<mi>i</mi>
<mi>o</mi>
<mi>n</mi>
<mi>V</mi>
<mi>a</mi>
<mi>l</mi>
<mi>u</mi>
<mi>e</mi>
<mo>=</mo>
<mfrac>
<mrow>
<mo>&Sigma;</mo>
<mi>s</mi>
<mi>e</mi>
<mi>n</mi>
<mi>S</mi>
<mi>c</mi>
<mi>o</mi>
<mi>r</mi>
<mi>e</mi>
</mrow>
<mrow>
<mi>n</mi>
<mi>e</mi>
<mi>g</mi>
<mi>N</mi>
<mi>u</mi>
<mi>m</mi>
</mrow>
</mfrac>
<mo>.</mo>
</mrow>
其中,posNum为具有正面倾向的新闻关键句数,negNum为具有负面倾向的新闻关键句数,oreitationValue为新闻全文的情感倾向值。
8.根据权利要求1-7任一所述的基于word2vec的舆情倾向性分析方法,其特征在于:预先对词语的正负面性质进行定义,并将定义后的词语作为情感词,根据情感词建立情感词典,通过情感词典对新闻全文的情感正负面进行判定。
9.根据权利要求8所述的基于word2vec的舆情倾向性分析方法,其特征在于:所述词向量训练阶段还包括对待分析新闻数据进行文字转化处理和模型训练;
所述文字转化处理包括将待分析新闻数据转化为标准字符;
所述模型训练包括设置word2vec的训练窗口尺寸、低频词阈值以及词向量空间容量,并将分词处理后的数据输入word2vec,获取各词语对应的词向量。
10.根据权利要求4所述的基于word2vec的舆情倾向性分析方法,其特征在于:对新闻分句中的每个词语,分别计算其与多个关键词的余弦相似度,并取最大值作为对应词语的词语重要度评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710259721.8A CN107239439A (zh) | 2017-04-19 | 2017-04-19 | 基于word2vec的舆情倾向性分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710259721.8A CN107239439A (zh) | 2017-04-19 | 2017-04-19 | 基于word2vec的舆情倾向性分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107239439A true CN107239439A (zh) | 2017-10-10 |
Family
ID=59983758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710259721.8A Pending CN107239439A (zh) | 2017-04-19 | 2017-04-19 | 基于word2vec的舆情倾向性分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107239439A (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885883A (zh) * | 2017-12-01 | 2018-04-06 | 北京国信宏数科技有限公司 | 一种基于社会媒体的宏观经济领域情感分析方法及系统 |
CN108021609A (zh) * | 2017-11-01 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 文本情感分类方法、装置、计算机设备和存储介质 |
CN108052505A (zh) * | 2017-12-26 | 2018-05-18 | 上海智臻智能网络科技股份有限公司 | 文本情感分析方法及装置、存储介质、终端 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN108319587A (zh) * | 2018-02-05 | 2018-07-24 | 中译语通科技股份有限公司 | 一种多权重的舆情价值计算方法及系统、计算机 |
CN108363692A (zh) * | 2018-02-13 | 2018-08-03 | 成都智库二八六信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN109325119A (zh) * | 2018-09-05 | 2019-02-12 | 平安科技(深圳)有限公司 | 新闻情感分析的方法、装置、计算机设备和存储介质 |
CN109359296A (zh) * | 2018-09-18 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 舆情情感识别方法、装置及计算机可读存储介质 |
CN109726938A (zh) * | 2019-01-28 | 2019-05-07 | 北京桃花岛信息技术有限公司 | 一种基于深度学习的学生思政状况预警方法 |
CN109815391A (zh) * | 2018-12-14 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于大数据的新闻数据分析方法及装置、电子终端 |
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN109992668A (zh) * | 2019-04-04 | 2019-07-09 | 上海冰鉴信息科技有限公司 | 一种基于自注意力的企业舆情分析方法和装置 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN112036165A (zh) * | 2019-05-14 | 2020-12-04 | 西交利物浦大学 | 一种新闻特征向量的构建方法及应用 |
CN112347230A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
CN114091469A (zh) * | 2021-11-23 | 2022-02-25 | 杭州萝卜智能技术有限公司 | 基于样本扩充的网络舆情分析方法 |
CN115982473A (zh) * | 2023-03-21 | 2023-04-18 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
CN116629804A (zh) * | 2023-06-06 | 2023-08-22 | 河北华正信息工程有限公司 | 一种信访督查跟踪管理系统及管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
US20130218914A1 (en) * | 2012-02-20 | 2013-08-22 | Xerox Corporation | System and method for providing recommendations based on information extracted from reviewers' comments |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
-
2017
- 2017-04-19 CN CN201710259721.8A patent/CN107239439A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101894102A (zh) * | 2010-07-16 | 2010-11-24 | 浙江工商大学 | 一种主观性文本情感倾向性分析方法和装置 |
US20130218914A1 (en) * | 2012-02-20 | 2013-08-22 | Xerox Corporation | System and method for providing recommendations based on information extracted from reviewers' comments |
CN105022725A (zh) * | 2015-07-10 | 2015-11-04 | 河海大学 | 一种应用于金融Web领域的文本情感倾向分析方法 |
Non-Patent Citations (3)
Title |
---|
卢兴: "基于统计方法的中文短文本情感分析", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
曹欢欢: "负面新闻判定算法的研究与应用", 《小型微型计算机系统》 * |
杨江: "基于主题情感句的汉语评论文倾向性分析", 《计算机应用研究》 * |
Cited By (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021609A (zh) * | 2017-11-01 | 2018-05-11 | 深圳市牛鼎丰科技有限公司 | 文本情感分类方法、装置、计算机设备和存储介质 |
CN108021609B (zh) * | 2017-11-01 | 2020-08-18 | 深圳市牛鼎丰科技有限公司 | 文本情感分类方法、装置、计算机设备和存储介质 |
CN107885883A (zh) * | 2017-12-01 | 2018-04-06 | 北京国信宏数科技有限公司 | 一种基于社会媒体的宏观经济领域情感分析方法及系统 |
CN108255805A (zh) * | 2017-12-13 | 2018-07-06 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN108052505A (zh) * | 2017-12-26 | 2018-05-18 | 上海智臻智能网络科技股份有限公司 | 文本情感分析方法及装置、存储介质、终端 |
CN109977393A (zh) * | 2017-12-28 | 2019-07-05 | 中国科学院计算技术研究所 | 一种基于内容争议性的流行新闻预测方法和系统 |
CN108319666A (zh) * | 2018-01-19 | 2018-07-24 | 国网浙江省电力有限公司电力科学研究院 | 一种基于多模态舆情分析的供电服务评估方法 |
CN108319666B (zh) * | 2018-01-19 | 2021-09-28 | 国网浙江省电力有限公司营销服务中心 | 一种基于多模态舆情分析的供电服务评估方法 |
CN108319587A (zh) * | 2018-02-05 | 2018-07-24 | 中译语通科技股份有限公司 | 一种多权重的舆情价值计算方法及系统、计算机 |
CN108319587B (zh) * | 2018-02-05 | 2021-11-19 | 中译语通科技股份有限公司 | 一种多权重的舆情价值计算方法及系统、计算机 |
CN108363692A (zh) * | 2018-02-13 | 2018-08-03 | 成都智库二八六信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN108363692B (zh) * | 2018-02-13 | 2021-04-02 | 成都智库二八六一信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109325119B (zh) * | 2018-09-05 | 2024-03-15 | 平安科技(深圳)有限公司 | 新闻情感分析的方法、装置、计算机设备和存储介质 |
CN109325119A (zh) * | 2018-09-05 | 2019-02-12 | 平安科技(深圳)有限公司 | 新闻情感分析的方法、装置、计算机设备和存储介质 |
CN109359296A (zh) * | 2018-09-18 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 舆情情感识别方法、装置及计算机可读存储介质 |
CN109359296B (zh) * | 2018-09-18 | 2023-08-18 | 深圳前海微众银行股份有限公司 | 舆情情感识别方法、装置及计算机可读存储介质 |
CN109815391A (zh) * | 2018-12-14 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 基于大数据的新闻数据分析方法及装置、电子终端 |
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN109726938A (zh) * | 2019-01-28 | 2019-05-07 | 北京桃花岛信息技术有限公司 | 一种基于深度学习的学生思政状况预警方法 |
CN109726938B (zh) * | 2019-01-28 | 2023-09-12 | 北京桃花岛信息技术有限公司 | 一种基于深度学习的学生思政状况预警方法 |
CN109992668B (zh) * | 2019-04-04 | 2023-02-21 | 上海冰鉴信息科技有限公司 | 一种基于自注意力的企业舆情分析方法和装置 |
CN109992668A (zh) * | 2019-04-04 | 2019-07-09 | 上海冰鉴信息科技有限公司 | 一种基于自注意力的企业舆情分析方法和装置 |
CN112036165A (zh) * | 2019-05-14 | 2020-12-04 | 西交利物浦大学 | 一种新闻特征向量的构建方法及应用 |
CN113505221B (zh) * | 2020-03-24 | 2024-03-12 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN113505221A (zh) * | 2020-03-24 | 2021-10-15 | 国家计算机网络与信息安全管理中心 | 一种企业虚假宣传风险识别方法、设备和存储介质 |
CN111813937A (zh) * | 2020-07-07 | 2020-10-23 | 新华智云科技有限公司 | 基于正能量词典正能量新闻分类方法 |
CN112347230B (zh) * | 2020-11-16 | 2024-04-19 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112347230A (zh) * | 2020-11-16 | 2021-02-09 | 上海品见智能科技有限公司 | 一种基于Word2Vec的企业舆情数据分析方法 |
CN112989040B (zh) * | 2021-03-10 | 2024-02-27 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN112989040A (zh) * | 2021-03-10 | 2021-06-18 | 河南中原消费金融股份有限公司 | 一种对话文本标注方法、装置、电子设备及存储介质 |
CN113535891A (zh) * | 2021-06-07 | 2021-10-22 | 广东东华发思特软件有限公司 | 互联网短文本主题特征与情感倾向分析方法、系统及介质 |
CN114091469B (zh) * | 2021-11-23 | 2022-08-19 | 杭州萝卜智能技术有限公司 | 基于样本扩充的网络舆情分析方法 |
CN114091469A (zh) * | 2021-11-23 | 2022-02-25 | 杭州萝卜智能技术有限公司 | 基于样本扩充的网络舆情分析方法 |
CN115982473B (zh) * | 2023-03-21 | 2023-06-23 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
CN115982473A (zh) * | 2023-03-21 | 2023-04-18 | 环球数科集团有限公司 | 一种基于aigc的舆情分析编排系统 |
CN116629804A (zh) * | 2023-06-06 | 2023-08-22 | 河北华正信息工程有限公司 | 一种信访督查跟踪管理系统及管理方法 |
CN116629804B (zh) * | 2023-06-06 | 2024-01-09 | 河北华正信息工程有限公司 | 一种信访督查跟踪管理系统及管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107239439A (zh) | 基于word2vec的舆情倾向性分析方法 | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
CN107609132B (zh) | 一种基于语义本体库中文文本情感分析方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN105005553B (zh) | 基于情感词典的短文本情感倾向分析方法 | |
CN105843897A (zh) | 一种面向垂直领域的智能问答系统 | |
CN108563638B (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN103744953A (zh) | 一种基于中文文本情感识别的网络热点挖掘方法 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN108536801A (zh) | 一种基于深度学习的民航微博安保舆情情感分析方法 | |
CN110209818B (zh) | 一种面向语义敏感词句的分析方法 | |
CN108804595B (zh) | 一种基于word2vec的短文本表示方法 | |
CN106933800A (zh) | 一种金融领域的事件句抽取方法 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN103995853A (zh) | 基于关键句的多语言情感数据处理分类方法及系统 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN110705247A (zh) | 基于χ2-C的文本相似度计算方法 | |
CN109101490A (zh) | 一种基于融合特征表示的事实型隐式情感识别方法和系统 | |
CN107463715A (zh) | 基于信息增益的英文社交媒体账号分类方法 | |
CN111597349A (zh) | 一种基于人工智能的轨道交通规范实体关系自动补全方法 | |
Hindocha et al. | Short-text Semantic Similarity using GloVe word embedding | |
CN104794209A (zh) | 基于马尔科夫逻辑网络的中文微博情绪分类方法及系统 | |
CN110362673A (zh) | 基于摘要语义分析的计算机视觉类论文内容判别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171010 |