CN105243448A

CN105243448A - 网络舆论的演化趋势的预测方法和装置

Info

Publication number: CN105243448A
Application number: CN201510670653.5A
Authority: CN
Inventors: 熊菲; 刘云; 张振江; 邱慧淮
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2015-10-13
Filing date: 2015-10-13
Publication date: 2016-01-13

Abstract

本发明实施例提供了一种网络舆论的演化趋势的预测方法和装置。所述方法，包括如下步骤：从网络采集数据，根据获得数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；根据个体行为的特点，建立用户行为驱动的观点交互模型；根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值。

Description

网络舆论的演化趋势的预测方法和装置

技术领域

本发明涉及网络安全领域，尤其涉及一种网络舆论的演化趋势的预测方法和装置。

背景技术

2015年7月，中国互联网络信息中心(CNNIC)在京发布的《第36次中国互联网络发展状况统计报告》中指出，截至2015年6月底，中国网民数量达到6.68亿。报告中显示，用户数量增长达到一个稳定的水平，互联网的普及率大大地提高。网络已经成为人们每天获取信息、相互交流必不可少的方式。网络是现实社会的镜像，现实生活中局部的问题，在网络中可能被放大而引发大量的讨论，直接反作用于真实社会，影响着人们的生活。而一些负面和极端的言论，可能危害网络内容安全及社会的稳定。

互联网用户在网络这个平台中分享信息，交换意见，用户因此形成自己的局部社会联系，用户拓扑关系逐渐形成。以用户关系网络为媒介，用户可以从邻居获取信息或向邻居传递信息，就某话题与邻居进行争辩，从而使得网络舆论在用户间演化。然而在互联网中，虚拟社交与真实社交融合，用户行为多样化和高度复杂化，需要有效的观点挖掘方法发现本质的规律。对网络舆论演化趋势预测的研究,有利于理解宏观舆论的形成及相变条件，掌握微观特性的作用机制，有助于针对性地研究引导舆情发展趋势的方法和手段，恰当构建和谐的网络环境。

如何建模网络舆论演化过程并预测舆论演化趋势成为一个巨大的挑战。研究者们提出了许多的观点动力学模型，描述了舆论的形成。这些模型定义了个体间的观点交互规则，并使用了统计物理的方法来考察局部规则如何影响群体的行为。这些模型根据个体持有的观点取值类型，可分为连续观点模型(GerardWeisbuch,GuillaumeDeffuant,FredericAmblard,andJean-PierreNadal.Meet,discuss,andsegregate！[J]Complexity,2002,7(3):55-63)及离散观点模型。离散观点模型包括投票者模型及Sznajd模型(KatarzynaSznajd-Weron,JózefSznajd.Opinionevolutioninclosedcommunity[J].InternationalJournalofModernPhysicsC,2000,11(6):1157-1169.)，类比固体物理中的铁磁粒子自旋，在预定义的更新规则下，个体像物理粒子一样更新自己的状态。这些模型使用物理系统的方法来解释社会学现象。在大多数的观点演化模型中，邻居的影响在个体决策中发挥了重要的作用。系统最终的宏观状态可能是一致、对峙及破碎状态。一些观点模型中引入了多种社会学及心理学特征，如个体记忆、惯性、噪声、自信等(VivekKandiah,DimaL.Shepelyansky.PageRankmodelofopinionformationonsocialnetworks[J],2012,391:5779-5793)，这些特征能改变个体的交互行为及全局的动力学过程。

在线社交网络得到了快速的发展，吸引了海量的用户。在社交网络中，用户可以与其他用户建立联系，发表帖子表达自己的思想，或者与其他用户讨论。因此，社交网络的发展与用户的行为密切相关。一方面，在社交网络中，信息传播和观点演化速度更快，舆论形成过程更加复杂。用户间匿名地讨论，并不知道邻居真实的信息及个性特征，并且，用户无法获取他人内心的意见，仅能从发布的帖子来判断。另一方面，社交网络提供了丰富可靠的用户及话题演化数据，研究者们可以方便快捷地采集用户及帖子数据，分析用户情感，再现舆论形成过程。

尽管现有的观点模型包含了一些真实特性，然而这些模型是否准确描述了实际的网络舆论形成，能否解释和预测社会现象，还需要进一步探索。SobkowiczP.等(PawelSobkowicz,AntoniSobkowicz.DynamicsofhatebasedInternetusernetworks[J].TheEuropeanPhysicalJournalB,2010,73(4):633-643)研究了网络论坛上的政治讨论，他们选择了数百个帖子，分析用户的情感，结果发现对立的意见促使用户发表帖子，使讨论更加激烈，最后个体观点将会变得极端。研究者们还对芬兰大选等数据进行了分析，捕捉真实观点的瞬时变化。这些研究虽然对模型进行了实证分析，但数据量太小，且仅仅用于解释社会现象，而无法预测宏观舆论走向。而在数据挖掘领域，对舆论预测的研究主要集中在时间序列分析上，因为通常只能获取话题早期的演化数据，故只能对演化趋势进行短时的预测，而不能判断舆论演化的稳定状态。因此需要对真实网络进行大规模的数据分析，建立具有实际特性的观点演化模型，预测舆论演化趋势。

发明内容

本发明的实施例提供了一种网络舆论的演化趋势的预测方法和装置，能够预测社交网络话题的用户观点的演化趋势，从而得到宏观舆论的未来走向。

为了实现上述目的，本发明采取了如下技术方案。

一方面，提供一种网络舆论的演化趋势的预测方法，包括如下步骤：

步骤一、从网络采集数据，根据所述数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；t为帖子所在的时间区间；

步骤二、根据个体行为的特点，建立用户行为驱动的观点交互模型；

步骤三、根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；

步骤四、根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；

步骤五、对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；

步骤六、使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；其中，T为所述采集数据中的所述同一话题的最新帖子所对应的时间区间；

步骤七、生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值。

另一方面，提供一种网络舆论的演化趋势的预测装置，包括：

采集单元，从网络采集数据，根据所述数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；t为帖子所在的时间区间；

建立单元，根据个体行为的特点，建立用户行为驱动的观点交互模型；

第一生成单元，根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；

第二生成单元，根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；

拟合单元，对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；

第三生成单元，使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；其中，T为所述采集数据中的所述同一话题的最新帖子所对应的时间区间；

第四生成单元，生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值。

由上述本发明的实施例提供的技术方案可以看出，本发明实施例中，从网络采集数据，根据所述数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；t为帖子所在的时间区间；根据个体行为的特点，建立用户行为驱动的观点交互模型；根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；其中，T为所述采集数据中的所述同一话题的最新帖子所对应的时间区间；生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值，因此，本发明能够预测社交网络话题的用户观点的演化趋势，从而得到宏观舆论的未来走向。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一所述的网络舆论的演化趋势的预测方法的流程示意图；

图2为本发明实施例二所述的网络舆论的演化趋势的预测方法的流程示意图流程图；

图3为本发明实施例的Twitter中三个话题赞成帖子的比例随时间演化的趋势图；

图4为本发明实施例的Twitter中参与三个话题的用户帖子数的分布图；

图5为本发明实施例的Twitter中参与三个话题的用户观点改变次数的分布图；

图6为本发明实施例的模型仿真的支持态度所占比例随时间变化的示意图；

图7为本发明实施例的模型仿真的个体参与行为的分布图；

图8为本发明实施例的无标度网络及小世界网络中个体参与行为的分布图；

图9为本发明实施例的模型仿真中个体观点的改变次数的分布图。

图10为本发明实施例所述的网络舆论的演化趋势的预测装置的结构示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

实施例一

如图1所示，为本发明所述的一种网络舆论的演化趋势的预测方法，包括如下步骤：

步骤11、从网络采集数据，根据所述数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；t为帖子所在的时间区间。该步骤可以为：从社交网络采集数据，包括用户、用户关系及帖子作者、发表时间及内容等信息，以用户作为节点，用户之间的好友关系作为边，构建用户关系网络，作为个体观点交互的真实媒介，用户的总数记为N；使用基于朴素贝叶斯分类器的来检测帖子语言，保留同一语言的帖子；在去除广告等信息后，使用基于词典的约束非负矩阵分解方法，分析用户帖子的情感，在去除掉不含感情色彩的描述性帖子后，保留表达了个人情感的言论，从而每个帖子有两种可能的情感，即支持或反对。

步骤12、根据个体行为的特点，建立用户行为驱动的观点交互模型；

步骤13、根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；

步骤14、根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；所述的长时变化曲线为一种针对长时间的变化曲线，可以根据在系统参数的最优值下的观点交互模型在各个时间区间的值，生成变化曲线。

步骤15、对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；

步骤16、使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；其中，T为所述采集数据中的所述同一话题的最新帖子所对应的时间区间；

步骤17、生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值。

所述步骤11包括：

步骤111、从网络采集数据，所述数据包括帖子、作为帖子作者的用户、帖子的发表时间、以及用户之间的关系；

步骤112、对所述数据进行处理，获取针对同一主题的帖子，统计生成在各个时间区间中针对同一主题的帖子总数量的第一值；

步骤113、分析所述述帖子的情感倾向；所述情感倾向包括支持态度或者反对态度，统计生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量的第二值；

步骤114、根据所述第二值和所述第一值，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)。

所述步骤12具体为：

所述观点交互模型中个体用户的两个属性为活跃性τ和个体用户观点σ；σ＝+1表示个体用户内在为支持态度；σ＝-1表示个体用户内在为反对态度；在系统初始时个体用户的活跃性τ＝0；

演化开始后，随机选择m个第一个体用户，活跃性τ设置为1，每个时步的更新过程如下：

在每个时步，活跃性τ最高的m个所述第一个体用户采取行动，发表自己的观点，所述第一个体用户行动所表达的情感与所述第一个体用户的内在观点一致；

在所述第一个体用户采取行动后，所述第一个体用户活跃性的衰减比例为δ，所述第一个体用户的第一邻居用户的活跃性增加1，其中，衰减比例δ＜1；

所述第一邻居用户获悉到所述第一个体用户的观点，所述第一邻居用户中的已参与话题讨论的用户更新自己的观点，当所述第一邻居用户的第二邻居用户中有比例p的用户持相反意见时，所述第一邻居用户改变观点的概率为p^α，其中α为概率指数，α＞0；

在各个时间区间中所述m个第一个体用户的情感倾向为支持态度的总行动次数与所述m个第一个体用户的总行动次数之间的仿真比值为h_pos(t)。

所述步骤13包括：

步骤131，将f_pos(1)作为所述观点交互模型中第一时间区间的σ＝+1的统计比值，均匀分配个体用户的观点；

步骤132，对所述衰减比例δ及所述概率指数α以预定步长递增，对所述活跃性衰减比例δ及所述概率指数α进行取值组合，对所述观点交互模型进行蒙特卡罗仿真，生成仿真比值h_pos(t)；

步骤133，计算所述统计比值f_pos(t)及所述仿真比值h_pos(t)随时间变化的总体差异值Δ；

Δ = Σ_{t = 1}^{T - 1} {((h_{p o s} (t + 1) - h_{p o s} (t)) - (f_{p o s} (t + 1) - f_{p o s} (t)))}^{2};

步骤133，获取使得所述总体差异值Δ最小的衰减比例δ的值和概率指数α的值，作为所述观点交互模型的参数的最优值。

所述步骤16包括：

步骤161，定义所述情感变化曲线的误差函数为

步骤162，对所述误差函数的两边求导数，得到误差e的梯度；

步骤163，所述情感变化曲线函数y(t)中的因子a按下式调整

a &LeftArrow; a - λ \cdot \partial e / \partial a = a - Σ_{t = 1}^{T} 2 λ (y (t) - f_{p o s} (t)) \cdot \partial y (t) / \partial a;

λ为搜索步长；

步骤164，经过多次迭代，使所述误差e逐渐减小；

步骤165，当所述误差e小于预定阈值时，停止搜索过程，将使得所述误差e小于预定阈值的因子的值，作为所述因子的最优值。

以下描述本发明的实施例二。

如图2所示，为一种基于用户交互行为的网络舆论的演化趋势的预测方法，包括如下步骤：

步骤a、从社交网络采集数据，包括用户、用户关系及帖子、帖子作者、发表时间及内容等信息，以用户作为节点，用户之间的好友关系作为边，构建用户关系网络，作为个体观点交互的真实媒介，用户的总数记为N。具体来说：以Twitter(twitter.com)为例，使用基于twitter(一家美国社交网络)开放API(操作系统留给应用程序的调用接口)的定向爬虫，采集twitter的用户和帖子数据。经过多个小时的采集，总共采集到240万个用户及相关的600万份帖子信息。

步骤b、分析用户情感。使用基于朴素贝叶斯分类器的来检测帖子语言，保留同一语言的帖子；在去除广告等信息后，使用基于词典的约束非负矩阵分解方法，分析用户帖子的情感，在去除掉不含感情色彩的描述性帖子后，保留表达了个人情感的言论，从而每个帖子有两种可能的情感，即支持或反对；也就是说，该步骤中，在筛选帖子语言后，分析用户帖子情感。具体来说，在社交网络中，用户常常发布帖子来表达自己对社会事件或产品的情感、态度和看法，因此可以分析与某一话题有关的所有帖子，来获取该话题的舆论演化趋势。从Twitter采集的大部分帖子均为英文帖子，也包含少量不同语言的帖子，因此需要剔除掉其他语言的帖子，保留英文的帖子。使用基于朴素贝叶斯分类器的语言检测工具(CybozuLabs,LanguageDetectionLibraryforJava,seehttp://www.slideshare.net/shuyo/language-detection-library-for-java.)来对帖子进行净化。在去除广告等信息后，使用基于词典的约束非负矩阵分解方法(WeiPengandDaeHoonPark.Generateadjectivesentimentdictionaryforsocialmediasentimentanalysisusingconstrainednonnegativematrixfactorization[C].inProceedingsoftheInternationalAAAIConferenceonWeblogsandSocialMedia(2011),p.273.)，分析社交网络帖子的情感。使用矩阵分解的方法进行文本倾向性分析的正确率约为80％，且适合应用于社交网络的帖子等短文本的场合。在去除掉不含感情色彩的描述性帖子后，保留表达了个人情感的言论，从而每个用户有两种可能的情感：支持或反对。

如图3所示，从数据集中选取了3个话题：iphone4、ipad2、blackberry(黑莓)，分别包含102815、225954、199702篇帖子。对这3个话题，以小时为单位，分别统计不同时刻支持态度的帖子占总帖子的比例。群体观点在演化初期快速波动，然后在短时间内迅速稳定。最终，群体观点演化到一种观点占据绝对优势的有序状态，但无法实现完全的一致。观点的初始微小优势在演化过程中被迅速放大，占据绝大多数用户。在这三个话题，大多数用户持有赞成意见，尤其是iphone4及ipad2的支持者更多。

如图4所示，计算用户的参与活跃性。用户发表的帖子数分布以幂率衰减P(k)∝k^γ，k为用户发表的帖子数，并带有很长的尾部。对三个话题，用户帖子数分布的幂指数分别是γ＝-2.343±0.008、γ＝-2.451±0.004及γ＝-2.767±0.011。超过1万用户仅仅发表了1个帖子，而少数用户对一个话题发表了数百个帖子。同时，参与话题blackberry的用户活跃性异构程度最大。

如图5所示，为计算交互过程中个体观点的改变次数分布。尽管用户发表了很多帖子来表达自己的观点，然而他们倾向于保持自己的观点，邻居观点的影响不明显。尽管参与话题blackberry的用户活跃性相对较低，但他们更乐意改变观点，这是由于用户在退出交互之前都没有形成对该话题很深的印象。三个话题个体改变观点次数服从幂率分布，幂指数分别为γ＝-2.193±0.143、γ＝-3.01±0.116及γ＝-2.68±0.174。

步骤c、根据个体行为的特点，建立用户行为驱动的观点交互模型，模拟用户之间的话题交流，描述用户行为及情感之间的非线性作用关系，并计算待预测话题的早期舆论演化数据。

步骤d、使用蒙特卡罗方法对模型进行数值仿真，通过网格搜索获取模型的系统参数；也就是说，对上述个体观点交互模型进行蒙特卡罗仿真，使用训练数据计算系统参数。

步骤e、拟合用户情感的变化曲线，按照残差最小的原则最优化曲线中因子，计算情感变化曲线的稳态值，得到宏观舆论走向。

所述步骤c具体包括：

建立用户行为驱动的观点交互模型，模型中每个个体均有两个属性，即活跃性τ及个体观点σ＝+1或σ＝-1；在系统初始时所有个体处于静止状态，他们的活跃性τ＝0；演化开始后，随机选择m个个体，将其活跃性设置为1，每个时步的更新过程如下，

1)在每个时步，活跃性最高的m个个体采取行动，发表自己的观点，个体行动所表达的情感与其内在观点一致；

2)在个体采取行动后，其活跃性衰减比例为δ(δ＜1)，同时，周围邻居的活跃性增加1；

3)邻居观察到个体最近的行动，获悉了其的观点，已参与话题讨论的邻居将会更新自己的观点。若某个体的邻居中有p的比例持相反意见时，则其改变观点的概率为p^α，其中α＞0。

也就是说，步骤c中，在建模时，需要考虑到虽然用户改变了自己的观点，但他们可能未发表帖子并退出了交互。模型中每个个体均有两个属性，即观点和活跃性。个体持有两种观点中的任意一个，σ＝+1表示支持；或σ＝-1表示反对。注意到：个体不能观察到邻居的内部观点，只有当邻居采取行动(如发表帖子)表达自己的观点之后，才能获知到邻居的观点选择。若在时刻t，个体采取了行动，个体行动所表达的情感与其内在观点一致。这表示，在接下来的时间里，即使个体改变了观点，但如果他没有采取进一步的行动，他的邻居仅知道他在时刻t的行动。然而个体当前的观点不再与他在时刻t采取的行动一致。个体的活跃性定义为τ，每次更新时活跃性最高的个体优先被选择来采取行动。个体的活跃性受邻居的影响，若某个体采取了行动，邻居将会看到他的行动，在个体影响下他们参与话题的活跃性增加。

在系统初始时，所有个体处于静止状态，即他们的活跃性τ＝0。演化开始后，随机选择m个个体，将他们的活跃性设置为1，这些个体作为话题的发起者。在每个时步，活跃性最高的m个个体采取行动，发表自己的观点。个体采取了行动，这表示他已经关注了话题，在后续的讨论中他们将有机会改变自己的观点。模型的演化规则如下：

(1)个体不会重复发表相同的意见，因此他们的活跃性不会保持恒定。在个体采取行动后，活跃性衰减比例为δ(δ＜1)。

(2)个体的行动为邻居提供了示范，他们可能参与话题的热情提高，因为个体习惯于模仿他人的行为。从而，在每次个体行动后，邻居的活跃性增加1。

(3)邻居观察到个体最近的行动，获悉了个体的观点，已参与话题的邻居们将会更新自己的观点。活跃个体改变观点的概率与周围持反对意见的个体比例呈非线性的关系。

若个体i在时刻t发表了其的观点，然后他的活跃性τ_i将会减少δτ_i，所有邻居受到个体的影响而活跃性增加1。若i的一个邻居j已参与了话题讨论，他在观察到i的行动之后将更新观点。当个体j的邻居中有p的比例持相反意见时，个体j改变观点的概率为p^α，其中α＞0。注意到个体j仅能看到他邻居的外在行动而看不到内在观点，因此那些未采取行动的邻居将被j忽略。这意味着即使有很多邻居反对个体j，但若这些邻居未表达他们的观点，则他们的观点对个体j不起作用。

从上述模型可见，当α＝1时，模型等价于传统投票者模型，系统磁化守恒。当α→0时，所有个体改变观点的概率相同且与周围反对人数无关，系统的随机性更强。两种观点比例的初始差异将逐渐减小，最终两种观点势均力敌。当α＞1时，个体只有在存在较多反对邻居时才可能改变观点，而初始比例略大的观点将会占据绝对优势。然而，当α过大时，观点动力学将会被冻结，而平均磁化保持稳定。若周围所有邻居均持有反对意见，即p＝1，不管α为何值，个体将以概率1改变观点。

以全连通网络作为个体交互的媒介，在不考虑个体活跃性时，可解析系统平均观点的变化。在时刻t观点1的全局密度定义为f(t)，f(t)将按下式演化：

\partial f (t) / \partial t = (1 - f (t)) \cdot f {(t)}^{α} - f (t) \cdot {(1 - f (t))}^{α}

在上式中，当α＝1时，变化量等于0，因此可得到终态观点1的比例f(∞)＝f(0)。

当α＜1时，很容易得到微分方程的解f(∞)，即f(∞)＝0、f(∞)＝1或f(∞)＝0.5。在f(t)的解附近，引入微小扰动，即f(∞)＝ε+o(ε²)、f(∞)＝1+ε+o(ε²)或f(∞)＝0.5+ε+o(ε²)，ε为无穷小的扰动；分析这些解的稳定性。可得到：当α＜1时，稳定解为f(∞)＝0.5。

当α＞1时，稳定解为f(∞)＝0及f(∞)＝1，取决于初始条件f(0)。若f(0)＞0.5，则f(∞)＝1，而f(0)＜0.5，则f(∞)＝0。

然而，模型中个体根据其活跃性采取行动，一些个体失去活跃性而退出了交互从而阻止了一致状态的出现，系统演化到一方观点占优的局面。

本发明中，从采集的真实社交网络数据中构建用户关系网络，以用户作为网络的节点，用户间的连接关系作为网络的边，形成连通的图结构，用户的总数记为N。从采集的帖子信息中，选取待预测的话题，获得该话题在早期的相关数据，包括参与该话题的用户、用户发表帖子的时间及帖子的情感倾向，帖子情感倾向使用基于词典的约束非负矩阵分解方法计算。然后对话题早期的数据进行预处理，以小时为单位，统计该话题在每小时正向情感的帖子累计所占比例，用f_pos(t)表示。

通常获得的话题初期数据较少，且波动剧烈，无法直接用来预测。因此，需要建立个体交互模型来模拟舆论演化，使用帖子情感序列<f_pos(1),f_pos(2),f_pos(3)...f_pos(T)>作为训练数据，获取模型参数的最优值，其中T为该话题最后一个帖子所对应的时间区间。根据训练后的模型，可以预测话题未来的舆论演化趋势。

所述步骤d具体包括：

1)对待预测话题的早期数据进行处理，以小时为单位，统计该话题在每小时正向情感的帖子累计所占比例，用f_pos(t)表示，T为该话题的最新帖子所对应的时间区间；

2)通过话题初始情感倾向f_pos(1)来初始化模型，设置网络中每个个体的初始观点，将f_pos(1)作为观点+1的初始比例，均匀分配个体的观点，模型中时间尺度参数m设置为0.02N；

3)设置δ的取值范围[0.1,0.9]，α的取值范围[1.1,3]，δ及α均以0.1的步长递增；对不同的δ及α取值组合，分别对观点交互模型进行蒙特卡罗仿真，获得模型仿真中支持态度所占比例h_pos(t)，计算f_pos(t)及h_pos(t)随时间的变化量Δf_pos(t)＝f_pos(t+1)-f_pos(t)及Δh_pos(t)＝h_pos(t+1)-h_pos(t)；计算模型与实际变化量的总体差异，如下式

Δ = Σ_{t = 1}^{T - 1} {((h_{p o s} (t + 1) - h_{p o s} (t)) - (f_{p o s} (t + 1) - f_{p o s} (t)))}^{2}

找到差异Δ最小的一组参数组合，作为模型参数的最优值。也就是说，使用网格搜索的方法获取衰减参数δ及概率指数α的最优值。

所述的步骤e具体包括：

在模型参数确定后，对最优参数下h_pos(t)的长时变化曲线进行函数y(t)拟合，确定变化曲线的函数形式y(t)。如当δ＝0.2及α＝2时,使用的拟合函数可为y(t)＝a·exp(b·t)+c·exp(d·t),其中a、b、c、d为待确定的因子。

使用f_pos(t)在[0,T]的实际数据，最优化上述变化曲线中的因子。情感变化曲线的误差函数定义为

e = Σ_{i = 1}^{T} {(y (t) - f_{p o s} (t))}^{2}

对上式两边求导数，可得到误差e的梯度，搜索步长为λ＝0.5，函数y(t)中任意因子a按下式调整

a &LeftArrow; a - λ \cdot \partial e / \partial a = a - Σ_{i = 1}^{T} 2 λ (y (t) - f_{p o s} (t)) \cdot \partial y (t) / \partial a

经过多次迭代，使e逐渐减小，当e＜0.01时停止搜索过程，得到最优解；

对真实话题的舆论的演化趋势的预测，即是求y(t)的稳态值y(∞)。

以下描述本发明的实施例三。

本发明提供一种真实特性的网络舆论演化趋势的预测方法，本发明从社交网络采集用户和话题数据，分析用户情感变化，建立社交网络用户行为驱动的观点交互模型，根据话题的前期数据，训练模型参数，从而预测未来舆论走向，预测了社交网络某话题的用户观点演化趋势，从而得到宏观舆论的未来走向。

本发明中，对个体观点交互模型可使用蒙特卡罗仿真来考察个体的参与行为及群体观点的演化。首先，使用采集到用户关系数据构建用户关系网络，以用户作为节点，用户之间的好友关系作为边，可再现真实社交网络的结构。有边连接的两个节点才能发生交互，即个体的观点及活跃性仅受到邻居的影响。在蒙特卡罗仿真开始前，个体的初始观点按照给定的比例均匀分配。个体间异步地更新，在m个最高活跃性的个体采取行动以及他们的邻居更新观点之后，时步数增加1。因此，系统参数m决定着全局时间尺度，m不能取较大值。

从Twitter下载用户的信息构建一个真实网络，作为交互媒介。该网络包含每个用户的所有邻居关系，从而网络可以看作Twitter网络的子集。网络总共有4286个节点，网络的平均度为29.38。

图6为模型仿真的支持态度所占比例随时间变化，初始观点分别为f(0)＝0.4、f(0)＝0.6及f(0)＝0.8，其中δ＝0.2，m＝20，α＝2。可见，支持态度的比例在仿真开始时朝着系统收敛方向迅速改变，经过短暂的时间后，该比例趋于稳定。两种观点所占比例的差异逐渐放大，因为更多的个体转向了优势观点。系统磁化不再守恒，而是朝着更加有序的方向演化。当衰减参数δ较大时，动力学进程稳定缓慢，然而系统仍然无法在有限时间内实现完全的一致。即使一方观点初始时占了很大的比例，如f(0)＝0.8，仍然有少数个体持有反对意见，且很难被邻居说服。模型仿真的结果与实际微博中的观点演化一致。此外，虽然一些活跃性低的用户退出了交互，但系统的动力学过程不会停止。活跃用户继续发表着自己的观点，两种观点达到了相对的平衡状态。系统仍然在缓慢地演化，但个体活跃性驱动的行为阻止了完全一致的出现。

图7为模型仿真的个体参与行为分布，其中f(0)＝0.6，m＝20，α＝2。可见，个体采取行动的次数以幂律衰减。图7中三条斜线的斜率分别为-2.2017，-1.675及-1.246。直觉上，活跃性衰减越大，个体采取的行动减少。因此，当衰减参数δ增大时，不经常发表观点的个体增加，从而幂律分布的幂指数绝对值增大。此外，当行动数大于30时，相应的个体数在较宽的范围内散布。当m较小时，个体的参与行为分布几乎独立于m，而当m很大时，尤其是m接近系统尺度时，幂律分布将不再存在。模型中，度较大的个体更容易被激活从而有更大的活跃性，因此底层的网络拓扑结构影响着个体的行动。分析该Twitter子网络结构，其节点度近似服从泊松分布。

进一步地，在大尺度的无标度网络及小世界网络中进行仿真，网络平均度为得到了相似的结果，如图8所示。网络的平均度不会改变幂律分布的存在，但幂指数的绝对值随着平均度的增大而减小。

现在考察模型中个体观点的改变。与图4相似，通过外在行动来记录个体内在观点的改变，因此只有外在行动才能被其他个体观察到，从而考察的个体至少两次发表了他们的观点。图9为模型仿真中个体观点的改变次数分布，其中f(0)＝0.6，m＝20，δ＝0.8。图9中三条直线的斜率分别是-2.011，-2.36及-3.1769。从图9可见，在模型中未引入个体的极端性，但个体在活跃性作用下很少改变他们的观点，因此模型较好地反映了真实社交网络中观点的演化。当α＝1时，模型退化为传统的投票者模型，但个体受到活跃性的影响不会一直参与观点交互。增大概率指数α，仅仅遇到较多反对邻居的个体才会重新审视他们的观点，从而大部分个体倾向于保持他们原来的观点。即使个体更新观点的次数很少，但绝大部分个体最终都会选择多数观点。

如图10所示，为本发明所述的一种网络舆论的演化趋势的预测装置，包括：

采集单元21，从网络采集数据，根据所述数据，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)；t为帖子所在的时间区间；

建立单元22，根据个体行为的特点，建立用户行为驱动的观点交互模型；

第一生成单元23，根据所述统计比值f_pos(t)与观点交互模型，生成所述观点交互模型的系统参数的最优值；

第二生成单元24，根据所述系统参数的最优值，生成所述观点交互模型的长时变化曲线；

拟合单元25，对所述长时变化曲线进行拟合，生成情感变化曲线函数y(t)；

第三生成单元26，使用所述统计比值f_pos(t)在时间区[0,T]间的值，生成所述情感变化曲线函数y(t)的因子的最优值；其中，T为所述采集数据中的所述同一话题的最新帖子所对应的时间区间；

第四生成单元27，生成所述因子的最优值下的所述情感变化曲线函数y(t)的稳态值，作为所述同一主题的演化趋势的预测值。

所述采集单元21包括：

采集子单元211，从网络采集数据，所述数据包括帖子、作为帖子作者的用户、帖子的发表时间、以及用户之间的关系；

处理子单元212，对所述数据进行处理，获取针对同一主题的帖子，统计生成在各个时间区间中针对同一主题的帖子总数量的第一值；

分析子单元213，分析所述述帖子的情感倾向；所述情感倾向包括支持态度或者反对态度，统计生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量的第二值；

生成子单元214，根据所述第二值和所述第一值，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)。

所述建立单元具体为：

所述观点交互模型中个体用户的两个属性为活跃性τ和个体用户观点σ；σ＝+1表示个体用户内在为支持态度；σ＝-1表示个体用户内在为反对态度；

在系统初始时个体用户的活跃性τ＝0；

所述第一生成单元23包括：

分配子单元231，将f_pos(1)作为所述观点交互模型中第一时间区间的σ＝+1的统计比值，均匀分配个体用户的观点；

组合子单元232，对所述衰减比例δ及所述概率指数α以预定步长递增，对所述活跃性衰减比例δ及所述概率指数α进行取值组合，对所述观点交互模型进行蒙特卡罗仿真，生成仿真比值h_pos(t)；

计算子单元233，计算所述统计比值f_pos(t)及所述仿真比值h_pos(t)随时间变化的总体差异值Δ；

Δ = Σ_{t = 1}^{T - 1} {((h_{p o s} (t + 1) - h_{p o s} (t)) - (f_{p o s} (t + 1) - f_{p o s} (t)))}^{2};

获取子单元234，获取使得所述总体差异值Δ最小的衰减比例δ的值和概率指数α的值，作为所述观点交互模型的参数的最优值。

所述第三生成单元26包括：

定义子单元261，定义所述情感变化曲线的误差函数为

e = Σ_{i = 1}^{T} {(y (t) - f_{p o s} (t))}^{2};

求导子单元262，对所述误差函数的两边求导数，得到误差e的梯度；

调整子单元263，所述情感变化曲线函数y(t)中的因子a按下式调整；

a &LeftArrow; a - λ \cdot \partial e / \partial a = a - Σ_{t = 1}^{T} 2 λ (y (t) - f_{p o s} (t)) \cdot \partial y (t) / \partial a;

λ为搜索步长；

迭代子单元264，经过多次迭代，使所述误差e逐渐减小；

确定子单元265，当所述误差e小于预定阈值时，停止搜索过程，将使得所述误差e小于预定阈值的因子的值，作为所述因子的最优值。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种网络舆论的演化趋势的预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤一包括：

从网络采集数据，所述数据包括帖子、作为帖子作者的用户、帖子的发表时间、以及用户之间的关系；

对所述数据进行处理，获取针对同一主题的帖子，统计生成在各个时间区间中针对同一主题的帖子总数量的第一值；

分析所述述帖子的情感倾向；所述情感倾向包括支持态度或者反对态度，统计生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量的第二值；

根据所述第二值和所述第一值，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)。

3.根据权利要求1所述的方法，所述步骤二包括：

所述观点交互模型中个体用户的两个属性为活跃性τ和个体用户观点σ；σ＝+1表示所述个体用户内在为支持态度；σ＝-1表示所述个体用户内在为反对态度；在系统初始时个体用户的活跃性τ＝0；

4.根据权利要求1所述的方法，所述步骤三包括：

将f_pos(1)作为所述观点交互模型的仿真中在第一时间区间的σ＝+1的统计比值，均匀分配个体用户的观点；

对所述衰减比例δ及所述概率指数α以预定步长递增，对所述活跃性衰减比例δ及所述概率指数α进行取值组合，对所述观点交互模型进行蒙特卡罗仿真，生成仿真比值h_pos(t)；

计算所述统计比值f_pos(t)及所述仿真比值h_pos(t)随时间变化的总体差异值Δ；

Δ = Σ_{t = 1}^{T - 1} ((h_{p o s} (t + 1) - h_{p o s} (t)) - (f_{p o s} (t + 1) - f_{p o s} (t)))^{2};

获取使得所述总体差异值Δ最小的衰减比例δ的值和概率指数α的值，作为所述观点交互模型的参数的最优值。

5.根据权利要求1所述的方法，所述步骤六包括：

定义所述情感变化曲线的误差函数为

对所述误差函数的两边求导数，得到误差e的梯度；

所述情感变化曲线函数y(t)中的因子a按下式调整

a &LeftArrow; a - λ \cdot \partial e / \partial a = a - Σ_{t = 1}^{T} 2 λ (y (t) - f_{p o s} (t)) \cdot \partial y / \partial a;

λ为搜索步长；

经过多次迭代，使所述误差e逐渐减小；

当所述误差e小于预定阈值时，停止搜索过程，将使得所述误差e小于预定阈值的因子的值，作为所述因子的最优值。

6.一种网络舆论的演化趋势的预测装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述采集单元包括：

采集子单元，从网络采集数据，所述数据包括帖子、作为帖子作者的用户、帖子的发表时间、以及用户之间的关系；

处理子单元，对所述数据进行处理，获取针对同一主题的帖子，统计生成在各个时间区间中针对同一主题的帖子总数量的第一值；

分析子单元，分析所述述帖子的情感倾向；所述情感倾向包括支持态度或者反对态度，统计生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量的第二值；

生成子单元，根据所述第二值和所述第一值，生成在各个时间区间中针对同一主题的情感倾向为支持态度的帖子数量与帖子总数量之间的统计比值f_pos(t)。

8.根据权利要求6所述的装置，所述建立单元具体为：

9.根据权利要求6所述的装置，所述第一生成单元包括：

分配子单元，将f_pos(1)作为所述观点交互模型中第一时间区间的σ＝+1的统计比值，均匀分配个体用户的观点；

组合子单元，对所述衰减比例δ及所述概率指数α以预定步长递增，对所述活跃性衰减比例δ及所述概率指数α进行取值组合，对所述观点交互模型进行蒙特卡罗仿真，生成仿真比值h_pos(t)；

计算子单元，计算所述统计比值f_pos(t)及所述仿真比值h_pos(t)随时间变化的总体差异值Δ；

Δ = Σ_{t = 1}^{T - 1} ((h_{p o s} (t + 1) - h_{p o s} (t)) - (f_{p o s} (t + 1) - f_{p o s} (t)))^{2};

获取子单元，获取使得所述总体差异值Δ最小的衰减比例δ的值和概率指数α的值，作为所述观点交互模型的参数的最优值。

10.根据权利要求6所述的装置，所述第三生成单元包括：

定义子单元，定义所述情感变化曲线的误差函数为

e = Σ_{i = 1}^{T} {(y (t) - f_{p o s} (t))}^{2};

求导子单元，对所述误差函数的两边求导数，得到误差e的梯度；

调整子单元，所述情感变化曲线函数y(t)中的因子a按下式调整；

a &LeftArrow; a - λ \cdot \partial e / \partial a = a - Σ_{t = 1}^{T} 2 λ (y (t) - f_{p o s} (t)) \cdot \partial y / \partial a;

λ为搜索步长；

迭代子单元，经过多次迭代，使所述误差e逐渐减小；

确定子单元，当所述误差e小于预定阈值时，停止搜索过程，将使得所述误差e小于预定阈值的因子的值，作为所述因子的最优值。