CN111966878A - 基于机器学习的舆情事件反转检测方法 - Google Patents
基于机器学习的舆情事件反转检测方法 Download PDFInfo
- Publication number
- CN111966878A CN111966878A CN202010773757.XA CN202010773757A CN111966878A CN 111966878 A CN111966878 A CN 111966878A CN 202010773757 A CN202010773757 A CN 202010773757A CN 111966878 A CN111966878 A CN 111966878A
- Authority
- CN
- China
- Prior art keywords
- news
- public
- emotion
- emotional
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000010801 machine learning Methods 0.000 title claims abstract description 11
- 230000008451 emotion Effects 0.000 claims abstract description 87
- 230000002996 emotional effect Effects 0.000 claims abstract description 75
- 238000006243 chemical reaction Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000035772 mutation Effects 0.000 claims description 10
- 230000008859 change Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000006855 networking Effects 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000002474 experimental method Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 8
- BSYNRYMUTXBXSQ-UHFFFAOYSA-N Aspirin Chemical compound CC(=O)OC1=CC=CC=C1C(O)=O BSYNRYMUTXBXSQ-UHFFFAOYSA-N 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- NCEXYHBECQHGNR-UHFFFAOYSA-N chembl421 Chemical compound C1=C(O)C(C(=O)O)=CC(N=NC=2C=CC(=CC=2)S(=O)(=O)NC=2N=CC=CC=2)=C1 NCEXYHBECQHGNR-UHFFFAOYSA-N 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000607479 Yersinia pestis Species 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 230000002062 proliferating effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于机器学习的舆情事件反转检测方法,涉及机器学习。依次使用以下步骤:输入舆情期间新闻事件相关的新闻实体,获得舆情期间公众评论并关联到新闻事件报道;使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性;使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点;使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件。实验表明,舆情事件反转检测系统精确的确定了公众舆情反转点的位置以及造成的原因。
Description
技术领域
本发明涉及机器学习,尤其是涉及一种基于机器学习的舆情事件反转检测方法。
背景技术
近几年来,随着互联网的快速发展,网络媒体已经成为一种新的信息传播形式。社交网络已成为人们发布有关舆情事件的看法并分享意见的重要平台。社会热点事件引发社交网络平台(如微博)上的大量公众舆论,信息的传播也呈现出爆炸式扩散的态势,网络舆情事件作为广大网民讨论的焦点,会在广大网民的参与下迅速传播。目前在舆情事件的态势分析及预测方面,主要采用人工定性预测和机器定量预测的方法。
中国专利CN201610197073.3公开一种舆情事件检测方法及装置,方法包括:获取待检测文本的特征词向量;获取所有特征词对应的向量,并获取敏感义项向量;计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度;获取相似度最大时对应的第一敏感义项,并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量,根据第一预设权值和第二预设权值,计算第一敏感义项的数量和特征词的数量的加权和,当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。中国专利CN201811089196.0一种舆情事件检测方法、装置及设备,方法包括:在经过源领域的大量数据训练获得的基础模型的基础上,分别利用其他各个领域的少量数据进行再次迁移学习训练,得到能够对相应的领域进行舆情检测的文本分类模型,将基础模型作为对源领域进行舆情检测的文本分类模型。从上述得到的多个文本分类模型中获取待检测事件所属的目标领域的文本分类模型,对待检测事件进行舆情分析,分析出其属于目标领域舆情事件的概率值,并根据该概率值与相应的预定阈值比较的结果,判断该待检测事件是否是目标领域的舆情事件,进而及时对该舆情事件进行公关处理。
目前,社交网络平台上的公众舆论可能极大地影响社会,甚至改变事件结果。对于商业和行政管理中的舆情分析,重要的是面对不断变化的舆情,及时预测出公众评论情感极性转变的关键时间点(如舆情从正面转向负面,或者从负面转向正面),以及确定引发舆情变化的新闻事件。
发明内容
本发明的目的是针对现有的上述技术所存在的问题,提供一种基于机器学习的舆情事件反转检测方法。
本发明包括以下步骤:
1)获得目标社交网络平台的公众评论并关联到新闻事件报道;
2)使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性;
3)使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点;
4)使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件。
在步骤1)中,所述获得目标社交网络平台的公众评论并关联到新闻事件报道的具体步骤为:由系统使用人员输入新闻事件相关的新闻实体,通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字,过滤在指定舆情期间发表的,由指定新闻媒体发布的新闻报道,并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。这一步骤是舆情分析领域的标准步骤。
在步骤2)中,所述使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性的具体方法可为:
(1)抽取情感词和程度副词;所述情感词是一条公众评论中包含情感的词语,是评论文本情感极性的来源,情感词的抽取以及对应情感值的确定均来自一个情感词典;程度副词的抽取以及对应程度值的确定来自一个程度副词词典;
(2)使用高斯核函数量化情感词i对新闻实体j之间的影响程度,判断公众评论对于新闻实体j的情感极性;
对于一条公众评论t,情感词i在公众评论t中位置为li,新闻实体j在公众评论t中位置lj,使用高斯核函数量化情感词i对新闻实体j之间的影响程度,如下式:
高斯核函数为距离函数,式中,σ为距离函数的参数,按下式计算公众评论t对于新闻实体j的情感极性:
其中,s(t,j)为公众评论t对于新闻实体j的情感极性,N为评论文本中情感词数目;li和lj为情感词以及新闻实体的位置,qi为第i个情感词与第i-1个情感词之间的否定词数目,zi为第i个情感词与第i-1个情感词之间的程度副词包含程度值的和,si是第i个情感词的情感值,k(li,lj)为上述高斯核函数;
若s(t,j)大于0,则表明公众评论t对于新闻实体j的情感极性为正,若s(t,j)小于0,则表明公众评论对于新闻实体j的情感极性为负。
在步骤3)中,所述公众情感演变模型的生成过程如下所示:
(1)t=0时,α0满足均值为0的高斯分布,即α0~N(0,σ2I);
(2)t从1到T-1时刻,αt满足一个高斯分布,此高斯分布的均值为α(t-1)的值,即αt~N(αt-1,σ2I);
(3)创建全局参数γ,γ满足贝塔分布,即γ~Beta(a,b);
(4)对于每一个时间段创建开关变量St,St满足以γ为参数的伯努利分布,即St~Bern(γ)。开关变量St控制公众情感如何变化,当开关变量St=1,开关打开,该时间段评论文本情感极性符合背景情感的演变。当开关变量St=0,开关关闭,该时间段评论文本情感极性偏离背景意见的演变,发生了情感突变。
模型符号解释如下:
t:代表第t个时间段,共分为T个时间段。
a,b,c,d:超参数。
St:开关变量,控制该时间段评论文本情感极性分布。
γ:全局变量,为开关变量s的参数。
at:代表第t时间段背景意见的值。
β:全局变量,代表情感突变的情况下评论文本情感极性的分布。
yt,m:第t时间段第m条评论文本的情感极性,由步骤2)的结果给出。
在步骤4)中,使用自回归模型与新闻嵌入相结合的方式,得到t时段的爆发分数Bt,反转分数Rt,一条新闻i的嵌入分数Et,以确定引发舆情反转的新闻事件。
(1)时间段t的爆发分数Bt。爆发分数用于衡量新闻导致的公众评论增长量。首先假设,其中Yt是t时刻的评论文本的数目,lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生,自回归模型的参数是β,是误差项。则可以使用最小二乘法估计自回归模型的参数β的值,具体公式如下:β=(YTY')-1YTY'。其中,Y和Y’是舆情期间各时间段的评论文本数目拼接的向量,Y=[Y1,Y2,…,YT-1]T,Y'=[Y2,Y3,…,YT]T,T是舆情期间的最大时间。其后,由于是误差项,把上述β的值代入计算公式:最后,把误差项拼接成向量经过softmax函数归一化所有时间段得到爆发分数B是向量:B=[B1,B2,…,BT],其中Bt是t时间段的爆发分数。
(2)时间段t的反转分数Rt。反转分数用于衡量新闻发生后公众评论中情感极性发生反转的评论数量。同样假设自回归模型其中St是t时刻的情感极性变化的开关变量,由步骤3得到。lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生。δ是自回归模型的参数,计算方法为δ=(STS')-1STS',其中S=[S1,S2,…,ST-1]T,S'=[S2,S3,…,ST]T。其后计算误差项最后,使用下面的公式计算R。
其中,R=[R1,R2,…,RT],Rt是时间段t的反转分数。
(3)新闻i的嵌入分数Ei。首先计算新闻i的嵌入向量具体公式如下:
为新闻嵌入向量,d是嵌入向量的维度。ni为新闻i长度,α由系统应用人员指定,设定的经验值取α=10-4,w是新闻i中的一个词语,p(w)为在监控的所有新闻文本中词语w的词频,sim(w,E)为词语w和证据类词语E的平均相似度,计算方法如下:
首先,构建证据类词库E,该词库中的词来自于“证据”这个词的百度百科页面,对于页面中的每一个词,计算这些词和“证据”这个词的词向量的余弦相似度,抓取相似度最高的30个词语组成证据类词库。sim(w,E)是w与证据类词库中的每一个词语e的平均余弦相似度。
其中,sim(w,e)=cosine(vw,ve),vw,ve是w和e的word2vec词嵌入向量。
sen(w)为词语的归一化情感值,计算方法如下:
sen(w)=sw/∑w′∈isw′
对Δ=[Δ1,…,ΔN],做归一化,其中N是所有新闻的个数,得到所有新闻的嵌入分数向量
E=softmax(Δ)
E=[E1,E2,…,EN],其中Ei是新闻i的嵌入分数。
对于每条新闻i,如果(Bt+Rt)Ei>θ,则新闻i是引发舆情反转的新闻事件。其中θ是系统应用人员建立的阈值。
本发明首先获得舆情期间公众评论并关联到新闻事件报道;然后使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性;使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点;最后使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件。与现有技术相比,本发明具有以下突出的技术效果:(1)实验表明,本发明可以精确的确定公众舆情反转的时间点;(2)在确定引发舆情反转的新闻事件,具有较好的准确率和召回率;(3)可以很好的辅助舆情分析人员分析大量动态变化的舆情。
附图说明
图1是本发明实施例的流程图。
图2是本发明系统提出的公众情感演变模型结构示意图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
如图1所示,本发明实施例包括以下步骤:
1)由系统使用人员输入新闻事件相关的新闻实体,通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字,过滤在指定舆情期间发表的,由指定新闻媒体发布的新闻报道,并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。这一步骤是舆情分析领域的标准步骤。
2)使用基于位置信息的情感极性预测模型(PESE)抽取公众评论对于新闻实体的情感极性;
使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性。情感词的提取以及相应情感值的确定来自于已经公开的知网情感词典。此情感极性预测模型基于如下的设定:情感词对新闻实体的影响大小和两个因素相关:(1)情感词本身的情感值(2)情感词到新闻实体的距离。具体的说,一个情感词的情感值越大,到新闻实体的距离越近,则此情感词对实体的影响程度就越大。给定情感词位置li以及新闻实体位置lj,使用高斯核函数作为距离函数,量化li和lj之间的关系,σ为距离函数的参数。如下式所示:
按照以下公式计算公众评论t对于新闻实体j的情感极性:
s(t,j)为公众评论对于新闻实体的情感极性。li和lj为情感词以及新闻实体的位置。qi为第i-1个情感词与第i个情感词之间的否定词数目。zi为第i-1个情感词与第i个情感词之间的程度副词包含程度值的和。si是第i个情感词的情感值。k为距离函数。N为评论文本中情感词数目。
若s(t,j)大于0,表明公众评论t对于新闻实体j的情感极性为正,若s(t,j)小于0,表明公众评论t对于新闻实体j的情感极性为负。
基于位置信息的情感极性预测模型(PESE)结果如表1:
表1
SentiStrength,SentiStrength-SE,SentiCR,MCNN,RCNN为实验使用的对比方法。其中,SentiStrength来自参考文献Thelwall M,Buckley K.Paltoglou G,et.Al.Sentiment strength detection in short informal text.Journal of theAssociation for Information Science and Technology,2010,61(12):2544-2558.SentiStrength-SE是SentiStrength的改进算法,来自参考文献Md Rakibul Islamet.al.Leveraging automated sentiment analysis in software engineering.InProceedings of IEEE Press,203-214.SentiCR是自动情感分析工具,来自参考文献AhmedT.,Boso A.,Iqbal A.,et al.SentiCR:A Customized Sentiment Analysis Tool forCode Review Interactions.IEEE/ACM International Conference on AutomatedSoftware Engineering.ACM 2017.MCNN是一种基于CNN的情感分类模型,来自参考文献Hynjun Ju et.al.Sentiment Classofication with Convolutional Neural Networkusing Multiple Word Representations.In IMCOM 2018.RCNN是一个基于双向CNN的情感分类模型,来自参考文献Siwei Lai et.al.Recurrent Convolutional Neural Networksfor Text Classification.In AAAI 2015.PESE为本发明提出的基于位置信息的情感极性预测模型。I,C,T,G分别代表环形核函数,汉明核函数,三角核函数,高斯核函数等四种核函数作为距离函数。可以看出,针对不同长度的评论文本集合或者不同情感极性的评论文本集合,基于位置信息的情感极性预测模型都取得了最好的效果。四种距离函数中高斯核函数作为距离函数的效果最好。
3)使用公众情感演变模型(PESM),得到舆情期间公众评论情感极性转变的时间点;
使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点。公众情感演变模型基于以下假设:(1)在公众情感演变过程中,存在背景情感的演变,背景情感可以理解为公众对于舆情事件最开始和最典型的反应。(2)背景情感的演变是平滑且缓慢的。在事件发生后公众情感一般符合背景情感的演变。但当包含新的事实或证据的新闻发生时,公众情感可能会发生突变,偏离背景情感的演变,这种现象称之为情感突变。公众情感演变模型以各时间段评论文本的情感极性作为输入,并设定一个开关变量St控制公众情感按照何种方式演变。当开关变量St=1,开关打开,该时间段评论文本情感极性符合背景情感的演变。当开关变量St=0,开关关闭,说明有包含新的事实或证据的新闻发生,该时间段评论文本情感极性偏离背景意见的演变,发生突变。公众情感模型的输出之一为各时间段s的取值,依次判断在该时间段是否发生情感突变。
公众情感演变模型如附图2所示。模型符号解释如下:
t:代表第t个时间段,共分为T个时间段。
a,b,c,d:超参数。
St:开关变量,控制该时间段评论文本情感极性分布。
γ:全局变量,为开关变量s的参数。
at:代表第t时间段背景意见的值。
β:全局变量,代表情感突变的情况下评论文本情感极性的分布。
yt,m:第t时间段第m条评论文本的情感极性,由步骤2)的结果给出。
公众情感演变模型的生成过程如下所示:
(1)t=0时,α0满足均值为0的高斯分布,即α0~N(0,σ2I);
(2)t从1到T-1时刻,αt满足一个高斯分布,此高斯分布的均值为α(t-1)的值,即αt~N(αt-1,σ2I);
(3)创建全局参数γ,γ满足贝塔分布,即γ~Beta(a,b);
(4)对于每一个时间段创建开关变量s,s满足以γ为参数的伯努利分布,即St~Bern(γ)。开关变量St控制公众情感如何变化,当开关变量St=1,开关打开,该时间段评论文本情感极性符合背景情感的演变。当开关变量St=0,开关关闭,该时间段评论文本情感极性偏离背景意见的演变,发生了情感突变。
公众情感演变模型的推导过程如下:
(1)列出公众情感模型的联合概率分布如下:
(3)对所有隐变量进行迭代:
(4)使用卡尔曼滤波算法求得α项:
发生突变公众情感模型(PSEM)效果如表2:
表2
POMS | LDA-KL | FB-LDA | PSEM | |
Precision | 0.5950 | 0.7000 | 0.7750 | 0.8950<sup>+</sup> |
Recall | 0.5265 | 0.6195 | 0.6858 | 0.7920<sup>+</sup> |
POMS,LDA-KL,FB-LDA为实验使用的对比方法,POMS是一种静态的情感趋势检测算法,来自参考文献J.Bollen et.al.Modeling Public Mood and Emotion:TwitterSentiment and Socio-Economic Phenomena.In ICWSM 2011:pp.450-453.FB-LDA是一种基于主题模型的情感变化检测算法,来自参考文献Tan S.Li Y.SunH.et.Al.Interpreting the Public Sentiment Variations on Twitter.IEEETransactions on Knowledge and Data Engineering,2014,26(5):1158-1170.LDA-KL是一种基于主题模型的情感突变检测算法,来自参考文献Giachanou,Anastasia and MeleIda and Crestani Fabio.Explaining Sentiment Spikes in Twitter.ACMInternational Conference on Information Knowledge Management,2016.实验表明本发明提出的公众情感模型在得到情感突变时间点方面,具有最好的准确率和召回率。
4)使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件;
使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件。舆情事件反转检测系统从两方面评估一条新闻引发舆情反转的可能性:(1)从新闻本身出发。一条引发舆情反转的新闻应该具备以下两个特点之一:①新闻包含了大量的情感词,以至于有丰富的情感能够引起公众的共鸣,从而改变公众情感,②新闻包含了新的事实或者证据,改变了事件的走向。将情感词以及代表新的事实或证据的词作为特征,加入到新闻嵌入的过程中,使得新闻嵌入的结果可以反映新闻这两方面的情况,我用嵌入分数表示从新闻嵌入结果出发,得到的新闻引发舆情反转的能力。(2)从新闻和对应评论文本相结合的角度出发。一条引发舆情反转的新闻会导致评论文本发生以下改变:①评论文本数目激增。②评论文本中发生情感突变的文本数目激增。这两个数据在时间线上均满足自回归模型。用爆发分数评估新闻引发评论文本数目激增的能力,用反转分数评估新闻引发评论文本中发生情感突变的文本数目激增的能力。
使用自回归模型与新闻嵌入相结合的方式,需要得到t时段的爆发分数Bt,反转分数Rt,一条新闻i的嵌入分数Et,以确定引发舆情反转的新闻事件。
(1)时间段t的爆发分数Bt。爆发分数用于衡量新闻导致的公众评论增长量。首先假设,其中Yt是t时刻的评论文本的数目,lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生,自回归模型的参数是β,是误差项。则可以使用最小二乘法估计自回归模型的参数β的值,具体公式如下:β=(YTY')-1YTY'。其中,Y和Y’是舆情期间各时间段的评论文本数目拼接的向量,Y=[Y1,Y2,…,YT-1]T,Y'=[Y2,Y3,…,YT]T,T是舆情期间的最大时间。
(2)时间段t的反转分数Rt。反转分数用于衡量新闻发生后公众评论中情感极性发生反转的评论数量。同样假设自回归模型其中St是t时刻的情感极性变化的开关变量,由步骤3得到。lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生。δ是自回归模型的参数,计算方法为δ=(STS')-1STS',其中S=[S1,S2,…,ST-1]T,S'=[S2,S3,…,ST]T。其后计算误差项最后,使用下面的公式计算R。
其中,R=[R1,R2,…,RT],Rt是时间段t的反转分数。
(3)新闻i的嵌入分数Ei。首先计算新闻i的嵌入向量具体公式如下:
为新闻嵌入向量,d是嵌入向量的维度。ni为新闻i长度,α由系统应用人员指定,设定的经验值取α=10-4,w是新闻i中的一个词语,p(w)为在监控的所有新闻文本中词语w的词频,sim(w,E)为词语w和证据类词语E的平均相似度,计算方法如下:
首先,构建证据类词库E,该词库中的词来自于“证据”这个词的百度百科页面,对于页面中的每一个词,计算这些词和“证据”这个词的词向量的余弦相似度,抓取相似度最高的30个词语组成证据类词库。sim(w,E)是w与证据类词库中的每一个词语e的平均余弦相似度。
其中sim(w,e)=cosine(vw,ve),vw,ve是w和e的word2vec词嵌入向量。
sen(w)为词语的归一化情感值,计算方法如下:
sen(w)=sw/∑w′∈isw′
对Δ=[Δ1,…,ΔN],做归一化,其中N是所有新闻的个数,得到所有新闻的嵌入分数向量
E=softmax(Δ)
E=[E1,E2,…,EN],其中Ei是新闻i的嵌入分数。
对于每条新闻i,如果(Bt+Rt)Ei>θ,则新闻i是引发舆情反转的新闻事件。其中θ是系统应用人员建立的阈值。
使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件的效果如表3:
表3
ET-LDA | CWNV | NTIT | Ours | |
Precision | 0.5517 | 0.7000 | 0.7950 | 0.8620<sup>+</sup> |
Recall | 0.4085 | 0.6028 | 0.6315 | 0.8165<sup>+</sup> |
ET-LDA,CWNV,NTIT为本发明使用的对比方法,ET-LDA和NTIT是一种新闻主题模型,来自参考文献Hu Y.,John A.,Wang F.,et.al.ET-LDA:joint topic modeling foraligning events and their twitter feedback.In AAAI,pages 59-65,2012.CWNV是一种统计模型来自参考文献Tsysarau,Mikalai and Palpanas Themis and CastellanosMalu.Dynamics of news events and social media reaction.In KDD 2014pages 901-910.实验表明,本发明提出的方法在确定引发舆情反转的新闻事件的效果方面,具有最好的准确率和召回率。
Claims (5)
1.基于机器学习的舆情事件反转检测方法,其特征在于包括以下步骤:
1)获得目标社交网络平台的公众评论并关联到新闻事件报道;
2)使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性;
3)使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点;
4)使用自回归模型与句子嵌入相结合的方式,确定引发舆情反转的新闻事件。
2.如权利要求1所述基于机器学习的舆情事件反转检测方法,其特征在于在步骤1)中,所述获得目标社交网络平台的公众评论并关联到新闻事件报道的具体步骤为:由系统使用人员输入新闻事件相关的新闻实体,通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字,过滤在指定舆情期间发表的,由指定新闻媒体发布的新闻报道,并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。
3.如权利要求1所述基于机器学习的舆情事件反转检测方法,其特征在于在步骤2)中,所述使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性的具体方法为:
(1)抽取情感词和程度副词;所述情感词是一条公众评论中包含情感的词语,是评论文本情感极性的来源,情感词的抽取以及对应情感值的确定均来自一个情感词典;程度副词的抽取以及对应程度值的确定来自一个程度副词词典;
(2)使用高斯核函数量化情感词i对新闻实体j之间的影响程度,判断公众评论对于新闻实体j的情感极性;
对于一条公众评论t,情感词i在公众评论t中位置为li,新闻实体j在公众评论t中位置lj,使用高斯核函数量化情感词i对新闻实体j之间的影响程度,如下式:
高斯核函数为距离函数,式中,σ为距离函数的参数,按下式计算公众评论t对于新闻实体j的情感极性:
其中,s(t,j)为公众评论t对于新闻实体j的情感极性,N为评论文本中情感词数目;li和lj为情感词以及新闻实体的位置,qi为第i个情感词与第i-1个情感词之间的否定词数目,zi为第i个情感词与第i-1个情感词之间的程度副词包含程度值的和,si是第i个情感词的情感值,k(li,lj)为上述高斯核函数;
若s(t,j)大于0,则表明公众评论t对于新闻实体j的情感极性为正,若s(t,j)小于0,则表明公众评论对于新闻实体j的情感极性为负。
4.如权利要求1所述基于机器学习的舆情事件反转检测方法,其特征在于在步骤3)中,所述使用公众情感演变模型,得到舆情期间公众评论情感极性转变的时间点的具体生成过程如下所示:
(1)t=0时,α0满足均值为0的高斯分布,即α0~N(0,σ2I);
(2)t从1到T-1时刻,αt满足一个高斯分布,此高斯分布的均值为α(t-1)的值,即αt~N(αt-1,σ2I);
(3)创建全局参数γ,γ满足贝塔分布,即γ~Beta(a,b);
(4)对于每一个时间段创建开关变量St,St满足以γ为参数的伯努利分布,即St~Bern(γ);开关变量St控制公众情感如何变化,当开关变量St=1,开关打开,该时间段评论文本情感极性符合背景情感的演变;当开关变量St=0,开关关闭,该时间段评论文本情感极性偏离背景意见的演变,发生了情感突变;
其中,t为代表第t个时间段,共分为T个时间段;a,b,c,d为超参数;St为开关变量,控制该时间段评论文本情感极性分布;γ为全局变量,为开关变量s的参数;at为代表第t时间段背景意见的值;β为全局变量,代表情感突变的情况下评论文本情感极性的分布;yt,m为第t时间段第m条评论文本的情感极性,由步骤2)的结果给出。
5.如权利要求1所述基于机器学习的舆情事件反转检测方法,其特征在于在步骤4)中,所述确定引发舆情反转的新闻事件是使用自回归模型与新闻嵌入相结合的方式,得到t时段的爆发分数Bt,反转分数Rt,一条新闻i的嵌入分数Et,以确定引发舆情反转的新闻事件;包括以下步骤:
(1)时间段t的爆发分数Bt;爆发分数用于衡量新闻导致的公众评论增长量;首先假设,其中Yt是t时刻的评论文本的数目,lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生,自回归模型的参数是β,是误差项;则可以使用最小二乘法估计自回归模型的参数β的值,具体公式如下:β=(YTY')-1YTY';其中,Y和Y’是舆情期间各时间段的评论文本数目拼接的向量,Y=[Y1,Y2,…,YT-1]T,Y'=[Y2,Y3,…,YT]T,T是舆情期间的最大时间;
(2)时间段t的反转分数Rt;反转分数用于衡量新闻发生后公众评论中情感极性发生反转的评论数量;同样假设自回归模型其中St是t时刻的情感极性变化的开关变量,由步骤3得到;lt是指示是否有新闻发生的变量,如果值为1,表明在该时间段有新闻发生,如果值为0,表明在该时间段没有新闻发生;δ是自回归模型的参数,计算方法为δ=(STS')-1STS',其中S=[S1,S2,…,ST-1]T,S'=[S2,S3,…,ST]T;其后计算误差项最后,使用下面的公式计算R;
其中,R=[R1,R2,…,RT],Rt是时间段t的反转分数;
(3)新闻i的嵌入分数Ei;首先计算新闻i的嵌入向量具体公式如下:
为新闻嵌入向量,d是嵌入向量的维度;ni为新闻i长度,α由系统应用人员指定,设定的经验值取α=10-4,w是新闻i中的一个词语,p(w)为在监控的所有新闻文本中词语w的词频,sim(w,E)为词语w和证据类词语E的平均相似度,计算方法如下:
首先,构建证据类词库E,该词库中的词来自于“证据”这个词的百度百科页面,对于页面中的每一个词,计算这些词和“证据”这个词的词向量的余弦相似度,抓取相似度最高的30个词语组成证据类词库;sim(w,E)是w与证据类词库中的每一个词语e的平均余弦相似度;
其中,sim(w,e)=cosine(vw,ve),vw,ve是w和e的word2vec词嵌入向量;
sen(w)为词语的归一化情感值,计算方法如下:
sen(w)=sw/∑w′∈isw′
对Δ=[Δ1,…,ΔN],做归一化,其中N是所有新闻的个数,得到所有新闻的嵌入分数向量
E=softmax(Δ)
E=[E1,E2,…,EN],其中Ei是新闻i的嵌入分数;
对于每条新闻i,如果(Bt+Rt)Ei>θ,则新闻i是引发舆情反转的新闻事件;其中,θ是系统应用人员建立的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773757.XA CN111966878B (zh) | 2020-08-04 | 2020-08-04 | 基于机器学习的舆情事件反转检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010773757.XA CN111966878B (zh) | 2020-08-04 | 2020-08-04 | 基于机器学习的舆情事件反转检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966878A true CN111966878A (zh) | 2020-11-20 |
CN111966878B CN111966878B (zh) | 2022-07-01 |
Family
ID=73363772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010773757.XA Active CN111966878B (zh) | 2020-08-04 | 2020-08-04 | 基于机器学习的舆情事件反转检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966878B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784602A (zh) * | 2020-12-03 | 2021-05-11 | 南京理工大学 | 基于远程监督的新闻情感实体抽取方法 |
CN113128207A (zh) * | 2021-05-10 | 2021-07-16 | 安徽博约信息科技股份有限公司 | 基于大数据的新闻话语权评估及预测方法 |
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103386A1 (en) * | 2011-10-24 | 2013-04-25 | Lei Zhang | Performing sentiment analysis |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
-
2020
- 2020-08-04 CN CN202010773757.XA patent/CN111966878B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130103386A1 (en) * | 2011-10-24 | 2013-04-25 | Lei Zhang | Performing sentiment analysis |
CN109446404A (zh) * | 2018-08-30 | 2019-03-08 | 中国电子进出口有限公司 | 一种网络舆情的情感极性分析方法和装置 |
CN109582785A (zh) * | 2018-10-31 | 2019-04-05 | 天津大学 | 基于文本向量与机器学习的突发事件舆情演化分析方法 |
CN110516067A (zh) * | 2019-08-23 | 2019-11-29 | 北京工商大学 | 基于话题检测的舆情监控方法、系统及存储介质 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
Non-Patent Citations (2)
Title |
---|
YUNJIE WANG 等: "Modeling Sentiment Evolution for Social Incidents", 《CIKM "19: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
杜昌顺: "面向细分领域的舆情情感分析关键技术研究", 《中国博士学位论文全文数据库 (信息科技辑)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784602A (zh) * | 2020-12-03 | 2021-05-11 | 南京理工大学 | 基于远程监督的新闻情感实体抽取方法 |
CN113239685A (zh) * | 2021-01-13 | 2021-08-10 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113239685B (zh) * | 2021-01-13 | 2023-10-31 | 中国科学院计算技术研究所 | 一种基于双重情感的舆情检测方法及系统 |
CN113128207A (zh) * | 2021-05-10 | 2021-07-16 | 安徽博约信息科技股份有限公司 | 基于大数据的新闻话语权评估及预测方法 |
CN113128207B (zh) * | 2021-05-10 | 2024-03-29 | 安徽博约信息科技股份有限公司 | 基于大数据的新闻话语权评估及预测方法 |
CN113536805A (zh) * | 2021-07-09 | 2021-10-22 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN113536805B (zh) * | 2021-07-09 | 2023-07-14 | 北京奇艺世纪科技有限公司 | 热点事件的舆情分析方法、装置、设备及存储介质 |
CN115759104A (zh) * | 2023-01-09 | 2023-03-07 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
CN115759104B (zh) * | 2023-01-09 | 2023-09-22 | 山东大学 | 基于实体识别的金融领域舆情分析方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111966878B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111966878B (zh) | 基于机器学习的舆情事件反转检测方法 | |
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
Tang et al. | Effective LSTMs for target-dependent sentiment classification | |
CN109726745B (zh) | 一种融入描述知识的基于目标的情感分类方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
Song et al. | One-class conditional random fields for sequential anomaly detection | |
CN113742733B (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN111506785B (zh) | 基于社交文本的网络舆情话题识别方法和系统 | |
Adeyemo et al. | Effects of normalization techniques on logistic regression in data science | |
Akhter et al. | Cyber bullying detection and classification using multinomial Naïve Bayes and fuzzy logic | |
CN111611375B (zh) | 一种基于深度学习和转折关系的文本情感分类方法 | |
CN107169515B (zh) | 一种基于改进朴素贝叶斯的个人收入分类方法 | |
Briciu et al. | AutoAt: A deep autoencoder-based classification model for supervised authorship attribution | |
Hegde et al. | Employee sentiment analysis towards remote work during COVID-19 using Twitter data | |
CN107239562A (zh) | 基于概率特征关联的舆情分析方法 | |
CN115115483B (zh) | 一种融合隐私保护的学生综合能力评测方法 | |
CN115545437A (zh) | 一种基于多源异构数据融合的金融企业经营风险预警方法 | |
CN111400496B (zh) | 一种面向用户行为分析的大众口碑情感分析方法 | |
Zhang et al. | Probabilistic verb selection for data-to-text generation | |
Sivalingam et al. | CRF-MEM: Conditional Random Field Model Based Modified Expectation Maximization Algorithm for Sarcasm Detection in Social Media | |
Athanasopoulos et al. | Predicting the evolution of communities with online inductive logic programming | |
Dangi et al. | Analyzing the sentiments by classifying the tweets based on COVID-19 using machine learning classifiers | |
Jiang et al. | Sentiment classification based on clause polarity and fusion via convolutional neural network | |
Mansourifar et al. | Statistical Analysis of Perspective Scores on Hate Speech Detection | |
CN116304058B (zh) | 企业负面信息的识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |