CN111966878A

CN111966878A - 基于机器学习的舆情事件反转检测方法

Info

Publication number: CN111966878A
Application number: CN202010773757.XA
Authority: CN
Inventors: 林琛; 李辉; 王云杰
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-08-04
Filing date: 2020-08-04
Publication date: 2020-11-20
Anticipated expiration: 2040-08-04
Also published as: CN111966878B

Abstract

基于机器学习的舆情事件反转检测方法，涉及机器学习。依次使用以下步骤：输入舆情期间新闻事件相关的新闻实体，获得舆情期间公众评论并关联到新闻事件报道；使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性；使用公众情感演变模型，得到舆情期间公众评论情感极性转变的时间点；使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件。实验表明，舆情事件反转检测系统精确的确定了公众舆情反转点的位置以及造成的原因。

Description

基于机器学习的舆情事件反转检测方法

技术领域

本发明涉及机器学习，尤其是涉及一种基于机器学习的舆情事件反转检测方法。

背景技术

近几年来，随着互联网的快速发展，网络媒体已经成为一种新的信息传播形式。社交网络已成为人们发布有关舆情事件的看法并分享意见的重要平台。社会热点事件引发社交网络平台(如微博)上的大量公众舆论，信息的传播也呈现出爆炸式扩散的态势，网络舆情事件作为广大网民讨论的焦点，会在广大网民的参与下迅速传播。目前在舆情事件的态势分析及预测方面，主要采用人工定性预测和机器定量预测的方法。

中国专利CN201610197073.3公开一种舆情事件检测方法及装置，方法包括：获取待检测文本的特征词向量；获取所有特征词对应的向量，并获取敏感义项向量；计算待检测文本的特征词向量和所有特征词对应的特征词向量的相似度；获取相似度最大时对应的第一敏感义项，并获取待检测文本中第一敏感义项的数量和待检测文本中特征词的数量，根据第一预设权值和第二预设权值，计算第一敏感义项的数量和特征词的数量的加权和，当加权和大于阈值时确定待检测文本中描述的事件为舆情事件。中国专利CN201811089196.0一种舆情事件检测方法、装置及设备，方法包括：在经过源领域的大量数据训练获得的基础模型的基础上，分别利用其他各个领域的少量数据进行再次迁移学习训练，得到能够对相应的领域进行舆情检测的文本分类模型，将基础模型作为对源领域进行舆情检测的文本分类模型。从上述得到的多个文本分类模型中获取待检测事件所属的目标领域的文本分类模型，对待检测事件进行舆情分析，分析出其属于目标领域舆情事件的概率值，并根据该概率值与相应的预定阈值比较的结果，判断该待检测事件是否是目标领域的舆情事件，进而及时对该舆情事件进行公关处理。

目前，社交网络平台上的公众舆论可能极大地影响社会，甚至改变事件结果。对于商业和行政管理中的舆情分析，重要的是面对不断变化的舆情，及时预测出公众评论情感极性转变的关键时间点(如舆情从正面转向负面，或者从负面转向正面)，以及确定引发舆情变化的新闻事件。

发明内容

本发明的目的是针对现有的上述技术所存在的问题，提供一种基于机器学习的舆情事件反转检测方法。

本发明包括以下步骤：

1)获得目标社交网络平台的公众评论并关联到新闻事件报道；

2)使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性；

3)使用公众情感演变模型，得到舆情期间公众评论情感极性转变的时间点；

4)使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件。

在步骤1)中，所述获得目标社交网络平台的公众评论并关联到新闻事件报道的具体步骤为：由系统使用人员输入新闻事件相关的新闻实体，通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字，过滤在指定舆情期间发表的，由指定新闻媒体发布的新闻报道，并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。这一步骤是舆情分析领域的标准步骤。

在步骤2)中，所述使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性的具体方法可为：

(1)抽取情感词和程度副词；所述情感词是一条公众评论中包含情感的词语，是评论文本情感极性的来源，情感词的抽取以及对应情感值的确定均来自一个情感词典；程度副词的抽取以及对应程度值的确定来自一个程度副词词典；

(2)使用高斯核函数量化情感词i对新闻实体j之间的影响程度，判断公众评论对于新闻实体j的情感极性；

对于一条公众评论t，情感词i在公众评论t中位置为l_i，新闻实体j在公众评论t中位置l_j，使用高斯核函数量化情感词i对新闻实体j之间的影响程度，如下式：

高斯核函数为距离函数，式中，σ为距离函数的参数，按下式计算公众评论t对于新闻实体j的情感极性：

其中，s(t,j)为公众评论t对于新闻实体j的情感极性，N为评论文本中情感词数目；l_i和l_j为情感词以及新闻实体的位置，q_i为第i个情感词与第i-1个情感词之间的否定词数目，z_i为第i个情感词与第i-1个情感词之间的程度副词包含程度值的和，s_i是第i个情感词的情感值，k(l_i,l_j)为上述高斯核函数；

若s(t,j)大于0，则表明公众评论t对于新闻实体j的情感极性为正，若s(t,j)小于0，则表明公众评论对于新闻实体j的情感极性为负。

在步骤3)中，所述公众情感演变模型的生成过程如下所示：

(1)t＝0时，α₀满足均值为0的高斯分布，即α₀～N(0，σ²I)；

(2)t从1到T-1时刻，α_t满足一个高斯分布，此高斯分布的均值为α(t-1)的值，即α_t～N(α_t-1，σ²I)；

(3)创建全局参数γ，γ满足贝塔分布，即γ～Beta(a，b)；

(4)对于每一个时间段创建开关变量S_t，S_t满足以γ为参数的伯努利分布，即S_t～Bern(γ)。开关变量S_t控制公众情感如何变化，当开关变量S_t＝1，开关打开，该时间段评论文本情感极性符合背景情感的演变。当开关变量S_t＝0，开关关闭，该时间段评论文本情感极性偏离背景意见的演变，发生了情感突变。

模型符号解释如下：

t：代表第t个时间段，共分为T个时间段。

a,b,c,d：超参数。

S_t：开关变量，控制该时间段评论文本情感极性分布。

γ：全局变量，为开关变量s的参数。

a_t：代表第t时间段背景意见的值。

β：全局变量，代表情感突变的情况下评论文本情感极性的分布。

y_t,m：第t时间段第m条评论文本的情感极性，由步骤2)的结果给出。

在步骤4)中，使用自回归模型与新闻嵌入相结合的方式，得到t时段的爆发分数B_t，反转分数R_t，一条新闻i的嵌入分数E_t，以确定引发舆情反转的新闻事件。

(1)时间段t的爆发分数B_t。爆发分数用于衡量新闻导致的公众评论增长量。首先假设，

其中Y_t是t时刻的评论文本的数目，l_t是指示是否有新闻发生的变量，如果值为1，表明在该时间段有新闻发生，如果值为0，表明在该时间段没有新闻发生，自回归模型的参数是β，

是误差项。则可以使用最小二乘法估计自回归模型的参数β的值，具体公式如下：β＝(Y^TY')^-1Y^TY'。其中，Y和Y’是舆情期间各时间段的评论文本数目拼接的向量，Y＝[Y₁,Y₂,…,Y_T-1]^T,Y'＝[Y₂,Y₃,…,Y_T]^T，T是舆情期间的最大时间。其后，由于

是误差项，把上述β的值代入计算公式：

最后，把误差项拼接成向量

经过softmax函数归一化所有时间段得到爆发分数

B是向量：B＝[B₁,B₂,…,B_T]，其中B_t是t时间段的爆发分数。

(2)时间段t的反转分数R_t。反转分数用于衡量新闻发生后公众评论中情感极性发生反转的评论数量。同样假设自回归模型

其中S_t是t时刻的情感极性变化的开关变量，由步骤3得到。l_t是指示是否有新闻发生的变量，如果值为1，表明在该时间段有新闻发生，如果值为0，表明在该时间段没有新闻发生。δ是自回归模型的参数，计算方法为δ＝(S^TS')^-1S^TS'，其中S＝[S₁,S₂,…,S_T-1]^T,S'＝[S₂,S₃,…,S_T]^T。其后计算误差项

最后，使用下面的公式计算R。

其中，R＝[R₁,R₂,…,R_T]，R_t是时间段t的反转分数。

(3)新闻i的嵌入分数E_i。首先计算新闻i的嵌入向量具体公式如下：

为新闻嵌入向量，d是嵌入向量的维度。n_i为新闻i长度，α由系统应用人员指定，设定的经验值取α＝10^-4，w是新闻i中的一个词语，p(w)为在监控的所有新闻文本中词语w的词频，sim(w，E)为词语w和证据类词语E的平均相似度，计算方法如下：

首先，构建证据类词库E，该词库中的词来自于“证据”这个词的百度百科页面，对于页面中的每一个词，计算这些词和“证据”这个词的词向量的余弦相似度，抓取相似度最高的30个词语组成证据类词库。sim(w，E)是w与证据类词库中的每一个词语e的平均余弦相似度。

其中，sim(w,e)＝cosine(v_w,v_e)，v_w,v_e是w和e的word2vec词嵌入向量。

sen(w)为词语的归一化情感值，计算方法如下：

sen(w)＝s_w/∑_w′∈is_w′

其中，s_w是w的情感值，其取值方法同步骤2)，情感值的确定均来自一个情感词典。在得到每条新闻的嵌入向量

后，估计相邻两条新闻嵌入向量的差异程度：

对Δ＝[Δ₁，…，Δ_N],做归一化，其中N是所有新闻的个数，得到所有新闻的嵌入分数向量

E＝softmax(Δ)

E＝[E₁,E₂,…,E_N]，其中E_i是新闻i的嵌入分数。

对于每条新闻i,如果(B_t+R_t)E_i＞θ,则新闻i是引发舆情反转的新闻事件。其中θ是系统应用人员建立的阈值。

本发明首先获得舆情期间公众评论并关联到新闻事件报道；然后使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性；使用公众情感演变模型，得到舆情期间公众评论情感极性转变的时间点；最后使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件。与现有技术相比，本发明具有以下突出的技术效果：(1)实验表明，本发明可以精确的确定公众舆情反转的时间点；(2)在确定引发舆情反转的新闻事件，具有较好的准确率和召回率；(3)可以很好的辅助舆情分析人员分析大量动态变化的舆情。

附图说明

图1是本发明实施例的流程图。

图2是本发明系统提出的公众情感演变模型结构示意图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

如图1所示，本发明实施例包括以下步骤：

1)由系统使用人员输入新闻事件相关的新闻实体，通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字，过滤在指定舆情期间发表的，由指定新闻媒体发布的新闻报道，并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。这一步骤是舆情分析领域的标准步骤。

2)使用基于位置信息的情感极性预测模型(PESE)抽取公众评论对于新闻实体的情感极性；

使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性。情感词的提取以及相应情感值的确定来自于已经公开的知网情感词典。此情感极性预测模型基于如下的设定：情感词对新闻实体的影响大小和两个因素相关：(1)情感词本身的情感值(2)情感词到新闻实体的距离。具体的说，一个情感词的情感值越大，到新闻实体的距离越近，则此情感词对实体的影响程度就越大。给定情感词位置l_i以及新闻实体位置l_j，使用高斯核函数作为距离函数，量化l_i和l_j之间的关系，σ为距离函数的参数。如下式所示：

按照以下公式计算公众评论t对于新闻实体j的情感极性：

s(t,j)为公众评论对于新闻实体的情感极性。l_i和l_j为情感词以及新闻实体的位置。q_i为第i－1个情感词与第i个情感词之间的否定词数目。z_i为第i－1个情感词与第i个情感词之间的程度副词包含程度值的和。s_i是第i个情感词的情感值。k为距离函数。N为评论文本中情感词数目。

若s(t,j)大于0，表明公众评论t对于新闻实体j的情感极性为正，若s(t,j)小于0，表明公众评论t对于新闻实体j的情感极性为负。

基于位置信息的情感极性预测模型(PESE)结果如表1：

表1

SentiStrength，SentiStrength-SE，SentiCR，MCNN,RCNN为实验使用的对比方法。其中，SentiStrength来自参考文献Thelwall M,Buckley K.Paltoglou G,et.Al.Sentiment strength detection in short informal text.Journal of theAssociation for Information Science and Technology,2010,61(12):2544-2558.SentiStrength-SE是SentiStrength的改进算法，来自参考文献Md Rakibul Islamet.al.Leveraging automated sentiment analysis in software engineering.InProceedings of IEEE Press,203-214.SentiCR是自动情感分析工具，来自参考文献AhmedT.,Boso A.,Iqbal A.,et al.SentiCR:A Customized Sentiment Analysis Tool forCode Review Interactions.IEEE/ACM International Conference on AutomatedSoftware Engineering.ACM 2017.MCNN是一种基于CNN的情感分类模型，来自参考文献Hynjun Ju et.al.Sentiment Classofication with Convolutional Neural Networkusing Multiple Word Representations.In IMCOM 2018.RCNN是一个基于双向CNN的情感分类模型，来自参考文献Siwei Lai et.al.Recurrent Convolutional Neural Networksfor Text Classification.In AAAI 2015.PESE为本发明提出的基于位置信息的情感极性预测模型。I，C，T，G分别代表环形核函数，汉明核函数，三角核函数，高斯核函数等四种核函数作为距离函数。可以看出，针对不同长度的评论文本集合或者不同情感极性的评论文本集合，基于位置信息的情感极性预测模型都取得了最好的效果。四种距离函数中高斯核函数作为距离函数的效果最好。

3)使用公众情感演变模型(PESM)，得到舆情期间公众评论情感极性转变的时间点；

使用公众情感演变模型，得到舆情期间公众评论情感极性转变的时间点。公众情感演变模型基于以下假设：(1)在公众情感演变过程中，存在背景情感的演变，背景情感可以理解为公众对于舆情事件最开始和最典型的反应。(2)背景情感的演变是平滑且缓慢的。在事件发生后公众情感一般符合背景情感的演变。但当包含新的事实或证据的新闻发生时，公众情感可能会发生突变，偏离背景情感的演变，这种现象称之为情感突变。公众情感演变模型以各时间段评论文本的情感极性作为输入，并设定一个开关变量S_t控制公众情感按照何种方式演变。当开关变量S_t＝1，开关打开，该时间段评论文本情感极性符合背景情感的演变。当开关变量S_t＝0，开关关闭，说明有包含新的事实或证据的新闻发生，该时间段评论文本情感极性偏离背景意见的演变，发生突变。公众情感模型的输出之一为各时间段s的取值，依次判断在该时间段是否发生情感突变。

公众情感演变模型如附图2所示。模型符号解释如下：

t：代表第t个时间段，共分为T个时间段。

a,b,c,d：超参数。

S_t：开关变量，控制该时间段评论文本情感极性分布。

γ：全局变量，为开关变量s的参数。

a_t：代表第t时间段背景意见的值。

公众情感演变模型的生成过程如下所示：

(1)t＝0时，α₀满足均值为0的高斯分布，即α₀～N(0，σ²I)；

(2)t从1到T-1时刻，α_t满足一个高斯分布，此高斯分布的均值为α_(t-1)的值，即α_t～N(α_t-1，σ²I)；

(3)创建全局参数γ，γ满足贝塔分布，即γ～Beta(a，b)；

(4)对于每一个时间段创建开关变量s，s满足以γ为参数的伯努利分布，即S_t～Bern(γ)。开关变量S_t控制公众情感如何变化，当开关变量S_t＝1，开关打开，该时间段评论文本情感极性符合背景情感的演变。当开关变量S_t＝0，开关关闭，该时间段评论文本情感极性偏离背景意见的演变，发生了情感突变。

公众情感演变模型的推导过程如下：

(1)列出公众情感模型的联合概率分布如下：

(2)基于变分推断得到如下假设，Z包含所有隐变量

为向量：

(3)对所有隐变量进行迭代：

(4)使用卡尔曼滤波算法求得α项：

发生突变公众情感模型(PSEM)效果如表2：

表2

	POMS	LDA-KL	FB-LDA	PSEM
					Precision	0.5950	0.7000	0.7750	0.8950<sup>+</sup>
Recall	0.5265	0.6195	0.6858	0.7920<sup>+</sup>

POMS，LDA-KL，FB-LDA为实验使用的对比方法，POMS是一种静态的情感趋势检测算法，来自参考文献J.Bollen et.al.Modeling Public Mood and Emotion：TwitterSentiment and Socio-Economic Phenomena.In ICWSM 2011：pp.450-453.FB-LDA是一种基于主题模型的情感变化检测算法，来自参考文献Tan S.Li Y.SunH.et.Al.Interpreting the Public Sentiment Variations on Twitter.IEEETransactions on Knowledge and Data Engineering，2014，26(5)：1158-1170.LDA-KL是一种基于主题模型的情感突变检测算法，来自参考文献Giachanou，Anastasia and MeleIda and Crestani Fabio.Explaining Sentiment Spikes in Twitter.ACMInternational Conference on Information Knowledge Management，2016.实验表明本发明提出的公众情感模型在得到情感突变时间点方面，具有最好的准确率和召回率。

4)使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件；

使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件。舆情事件反转检测系统从两方面评估一条新闻引发舆情反转的可能性：(1)从新闻本身出发。一条引发舆情反转的新闻应该具备以下两个特点之一：①新闻包含了大量的情感词，以至于有丰富的情感能够引起公众的共鸣，从而改变公众情感，②新闻包含了新的事实或者证据，改变了事件的走向。将情感词以及代表新的事实或证据的词作为特征，加入到新闻嵌入的过程中，使得新闻嵌入的结果可以反映新闻这两方面的情况，我用嵌入分数表示从新闻嵌入结果出发，得到的新闻引发舆情反转的能力。(2)从新闻和对应评论文本相结合的角度出发。一条引发舆情反转的新闻会导致评论文本发生以下改变：①评论文本数目激增。②评论文本中发生情感突变的文本数目激增。这两个数据在时间线上均满足自回归模型。用爆发分数评估新闻引发评论文本数目激增的能力，用反转分数评估新闻引发评论文本中发生情感突变的文本数目激增的能力。

使用自回归模型与新闻嵌入相结合的方式，需要得到t时段的爆发分数B_t，反转分数R_t，一条新闻i的嵌入分数E_t，以确定引发舆情反转的新闻事件。

是误差项。则可以使用最小二乘法估计自回归模型的参数β的值，具体公式如下：β＝(Y^TY')^-1Y^TY'。其中，Y和Y’是舆情期间各时间段的评论文本数目拼接的向量，Y＝[Y₁,Y₂,…,Y_T-1]^T,Y'＝[Y₂,Y₃,…,Y_T]^T，T是舆情期间的最大时间。

其后，由于

是误差项，把上述β的值代入计算公式：

最后，把误差项拼接成向量

经过softmax函数归一化所有时间段得到爆发分数

B是向量：B＝[B₁,B₂,…,B_T]，其中B_t是t时间段的爆发分数。

最后，使用下面的公式计算R。

其中，R＝[R₁,R₂,…,R_T]，R_t是时间段t的反转分数。

其中sim(w,e)＝cosine(v_w,v_e)，v_w,v_e是w和e的word2vec词嵌入向量。

sen(w)为词语的归一化情感值，计算方法如下：

sen(w)＝s_w/∑_w′∈is_w′

其中s_w是w的情感值，其取值方法同步骤2，情感值的确定均来自一个情感词典。在得到每条新闻的嵌入向量

后，估计相邻两条新闻嵌入向量的差异程度：

E＝softmax(Δ)

E＝[E₁,E₂,…,E_N]，其中E_i是新闻i的嵌入分数。

使用自回归模型与句子嵌入相结合的方式，确定引发舆情反转的新闻事件的效果如表3：

表3

	ET-LDA	CWNV	NTIT	Ours
					Precision	0.5517	0.7000	0.7950	0.8620<sup>+</sup>
Recall	0.4085	0.6028	0.6315	0.8165<sup>+</sup>

ET-LDA，CWNV，NTIT为本发明使用的对比方法，ET-LDA和NTIT是一种新闻主题模型，来自参考文献Hu Y.，John A.，Wang F.，et.al.ET-LDA：joint topic modeling foraligning events and their twitter feedback.In AAAI，pages 59-65，2012.CWNV是一种统计模型来自参考文献Tsysarau，Mikalai and Palpanas Themis and CastellanosMalu.Dynamics of news events and social media reaction.In KDD 2014pages 901-910.实验表明，本发明提出的方法在确定引发舆情反转的新闻事件的效果方面，具有最好的准确率和召回率。

Claims

1.基于机器学习的舆情事件反转检测方法，其特征在于包括以下步骤：

2.如权利要求1所述基于机器学习的舆情事件反转检测方法，其特征在于在步骤1)中，所述获得目标社交网络平台的公众评论并关联到新闻事件报道的具体步骤为：由系统使用人员输入新闻事件相关的新闻实体，通过使用爬虫在目标社交网络平台并使用新闻实体作为爬虫所需的关键字，过滤在指定舆情期间发表的，由指定新闻媒体发布的新闻报道，并获得舆情期间该新闻报道下的转发或评论作为与新闻报道相关联的公众评论。

3.如权利要求1所述基于机器学习的舆情事件反转检测方法，其特征在于在步骤2)中，所述使用基于位置信息的情感极性预测模型抽取公众评论对于新闻实体的情感极性的具体方法为：

4.如权利要求1所述基于机器学习的舆情事件反转检测方法，其特征在于在步骤3)中，所述使用公众情感演变模型，得到舆情期间公众评论情感极性转变的时间点的具体生成过程如下所示：

(1)t＝0时，α₀满足均值为0的高斯分布，即α₀～N(0，σ²I)；

(3)创建全局参数γ，γ满足贝塔分布，即γ～Beta(a，b)；

(4)对于每一个时间段创建开关变量S_t，S_t满足以γ为参数的伯努利分布，即S_t～Bern(γ)；开关变量S_t控制公众情感如何变化，当开关变量S_t＝1，开关打开，该时间段评论文本情感极性符合背景情感的演变；当开关变量S_t＝0，开关关闭，该时间段评论文本情感极性偏离背景意见的演变，发生了情感突变；

其中，t为代表第t个时间段，共分为T个时间段；a,b,c,d为超参数；S_t为开关变量，控制该时间段评论文本情感极性分布；γ为全局变量，为开关变量s的参数；a_t为代表第t时间段背景意见的值；β为全局变量，代表情感突变的情况下评论文本情感极性的分布；y_t,m为第t时间段第m条评论文本的情感极性，由步骤2)的结果给出。

5.如权利要求1所述基于机器学习的舆情事件反转检测方法，其特征在于在步骤4)中，所述确定引发舆情反转的新闻事件是使用自回归模型与新闻嵌入相结合的方式，得到t时段的爆发分数B_t，反转分数R_t，一条新闻i的嵌入分数E_t，以确定引发舆情反转的新闻事件；包括以下步骤：

(1)时间段t的爆发分数B_t；爆发分数用于衡量新闻导致的公众评论增长量；首先假设，

是误差项；则可以使用最小二乘法估计自回归模型的参数β的值，具体公式如下：β＝(Y^TY')^-1Y^TY'；其中，Y和Y’是舆情期间各时间段的评论文本数目拼接的向量，Y＝[Y₁,Y₂,…,Y_T-1]^T,Y'＝[Y₂,Y₃,…,Y_T]^T，T是舆情期间的最大时间；

其后，由于

是误差项，把上述β的值代入计算公式：

最后，把误差项拼接成向量

经过softmax函数归一化所有时间段得到爆发分数

B是向量：B＝[B₁,B₂,…,B_T]，其中B_t是t时间段的爆发分数；

(2)时间段t的反转分数R_t；反转分数用于衡量新闻发生后公众评论中情感极性发生反转的评论数量；同样假设自回归模型

其中S_t是t时刻的情感极性变化的开关变量，由步骤3得到；l_t是指示是否有新闻发生的变量，如果值为1，表明在该时间段有新闻发生，如果值为0，表明在该时间段没有新闻发生；δ是自回归模型的参数，计算方法为δ＝(S^TS')^-1S^TS'，其中S＝[S₁,S₂,…,S_T-1]^T,S'＝[S₂,S₃,…,S_T]^T；其后计算误差项