CN106097111A

CN106097111A - 一种基于智慧社区网络大数据的舆情预测方法

Info

Publication number: CN106097111A
Application number: CN201610444043.8A
Authority: CN
Inventors: 舒海东; 胡峰
Original assignee: Chongqing Fanghui Technology Co Ltd
Current assignee: Chongqing Fanghui Technology Co Ltd
Priority date: 2016-06-20
Filing date: 2016-06-20
Publication date: 2016-11-09

Abstract

本发明公开了一种基于智慧社区网络大数据的舆情预测方法，涉及互联网信息处理技术领域,尤其涉及一种基于智慧社区网络大数据的舆情预测方法，包括如下步骤：首先，进行网络舆情数据清洗，减少样本数量及噪声；其次，进行网络舆情特征提取；最后，进行网络舆情模型构建与网络舆情预测；将本发明应用于互联网平台上，并对网络社区上的网络舆情进行预测，对于有价值的内容可以增加曝光量，提高内容的传播互动量，对于负面内容加以遏制，防止进一步造成恶劣影响，对社会具有积极作用。

Description

一种基于智慧社区网络大数据的舆情预测方法

技术领域

本发明涉及互联网信息处理技术领域,尤其涉及一种基于智慧社区网络大数据的舆情预测方法。

背景技术

随着中国互联网普及率地不断上升以及移动互联网的迅猛发展，网络成为人们发表自己意见和情感的重要平台。如何从互联网浩如烟海的网络舆情数据中挖掘信息、判断趋势，获取民众意见和建议等，已成为互联网发展过程中一个重要解决问题。

网络舆情是以网络为载体，以事件为核心，广大网民情感、态度、意见、观点的表达、传播与互动，以及后续影响力的集合。随着“三微一端”，即以微信、微博、微视频、移动客户端为代表的移动新媒体成为了社会舆论的新引擎。网民通过这些社交平台探讨公共事务，关注社会民生，表达话语诉求。网络舆情传播具有直接、隐藏、互动、多元、快速、破坏，以及群体极化性等特点。

网络舆情的开放性和虚假性，使得一些重大的网络舆情事件使人们开始认识到网络对社会监督起到的巨大作用。同时，网络舆情突发事件如果处理不当，极有可能诱发民众的不良情绪，引发群众的违规和过激行为，进而对社会稳定构成威胁。由此可见，网络舆情在一定程度上影响人们的日常生活。在此形式下，追踪研究网络舆情，有利于把握住社会发展的脉搏和“痛点”。相对纠纷和危机事件发生后的设法解决，有效监测和评估所面临的风险，并在事前采取适当的错失进行规避，是政府、企业等应借鉴的发展之路。因此，对于网络舆情的获取、分析、预测挖掘将对维护社会安全，保证经济建设快速发展有着重要意义。

网络舆情预测系统一般需要具备网络舆情分析引擎、自动信息采集功能，以及数据清理功能。网络舆情分析引擎是网络舆情预测系统的核心功能，设计的最主要的技术包括博文分类、聚类、观点倾向性识别、主题监测与跟踪、自动摘要等计算机博文信息内容识别技术。其中基于关键词统计分析方法的技术相对比较成熟，但在其有效性方面还有很大的提高空间；现有的信息采集技术主要是通过网络页面之间的连接关系，从网上自动获取页面信息，并且随着链接不断向整个网络扩展；数据清理功能则主要对收集到的信息进行预处理，如格式转换、数据清理，以及数据统计等。就网络舆情研究发展而言，相较于国外，国内研究网络舆情主要始于20世纪末，且目前大多致力于研究网络舆情概念界定与辨析、网络舆情信息工作、网络舆情机制、网络舆情等。而国外网络舆情研究相对国内而言，更加成熟，更加系统化，应用也更加广泛。目前，基于语义的内容识别方法是当前研究的重中之重，虽取得了较大进展，但仍存在很多问题和困难需要克服。

因此本发明旨在寻找一种能够预警快、决策快的网络舆情预测方法，应用于互联网平台上，并对网络社区上的网络舆情进行预测，对于有价值的内容可以增加曝光量，提高内容的传播互动量，对于负面内容加以遏制，防止进一步造成恶劣影响。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题是提供一种基于智慧社区网络大数据的舆情预测方法。

为实现上述目的，本发明提供了一种基于智慧社区网络大数据的舆情预测方法，包括如下步骤：

S1：网络舆情数据清洗，减少样本数量及噪声；数据清洗包括非必要用户过滤和文本预处理；

S2：网络舆情特征提取；特征包括用户特征和博文特征；

S3：网络舆情模型构建与网络舆情预测；获取加权训练样本，构建若干预测模型，获得网络舆情预测值。

进一步而言，步骤S3具体包括：

S31、创建训练样本；将各档位的样本按权重复制样本，获得加权训练样本；

S32、依据训练样本，分别建立若干个分类模型；分类模型为GBDT、XGBOOST、RF、LR、SVM中的两个或两个以上模型；

S33、将测试样本分别输入所述若干个分类模型，并分别获得其预测值，利用预测值求平均值，获得融合模型预测值。

进一步而言，训练样本为加权训练样本，加权训练样本根据档位设置权重，根据单条博文的互动数，设定博文的档位。

进一步而言，非必要用户为机器人、僵尸粉、广告用户及粉丝低于设定值的用户。

进一步而言，文本预处理包括如下步骤：

S11、对博文进行分词；

S12、过滤非必要词语；非必要词语包括停用词、标点符号、数字、邮箱、电话号码、日期、URL；

S13、删除掉出现频率为1的词语。

进一步而言，用户特征包括最近时间T内的活跃度特征、自身特征、粉丝特征、社交特征、技术特征，以及时间特征。

进一步而言，博文特征包括基础特征、时间特征、文本特征，以及主题影响力特征。

本发明提供一种基于智慧社区网络大数据的舆情预测方法，其有益之处在于：应用于互联网平台上，并对网络社区上的网络舆情进行预测，对于有价值的内容可以增加曝光量，提高内容的传播互动量，对于负面内容加以遏制，防止进一步造成恶劣影响。

附图说明

图1为本发明实施例一提供的一种基于智慧社区网络大数据的舆情预测方法流程图；

图2为本发明实施例一提供的具体解决方案；

图3为本发明实施例一提供的文本预处理流程图；

图4为本发明实施例一提供的特征构成图；

图5为本发明实施例一提供的多模型融合流程图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明：

如图1所示，图1为本发明实施例提供的一种基于智慧社区网络大数据的舆情预测方法流程图，具体包括：

S2：网络舆情特征提取；网络舆情特征包括用户特征和博文特征；博文为微博、微信公众号、博客文章等。

网络舆情包括微博、微信公众号、博客等媒介平台上数据信息，在实施例中，主要采用微博数据来展开讨论。对于一条原创微博而言，转发、评论、赞等互动行为能够体现出用户对于微博内容的兴趣程度，也是对微博进行分发控制的重要参考指标。本实施例以抽样用户的原创微博在发表一天后的转发、评论、赞总数，建立微博的互动模型，并预测用户后续微博在发表一天后的互动情况。

首先，对本实施例训练数据进行说明，训练数据为微博相关的原始数据。如表1，表2，表3，分别为本实施例数据说明。其中表1为微博数据；表2为粉丝数据；表3为用户互动行为数据。训练数据将2015-02-01至2015-07-31微博的全部信息都映射为一行数据。其中对用户做了一定抽样，获取了抽样用户半年的原创微博，对用户标记和微博标记做了加密，发博时间精确到天级别。

表1微博数据：weibo_blog_data_train

表2粉丝数据：weibo_fans_data_train

表3用户互动行为数据：weibo_action_data_train

其次，对本实施例提供的一种基于智慧社区网络大数据的舆情预测方法进行详细描述。如图2所示，图2为本发明实施例提供的具体解决方案，其步骤包括：

S1：对训练数据进行清洗，减少样本数量及噪声；数据清洗包括非必要用户过滤和文本预处理；

S2：特征提取，包括用户特征和博文特征；在本实施例中，博文为微博博文内容。

S3：网络舆情模型构建与网络舆情预测；获取加权训练样本，构建若干预测模型。预测数据经清洗并获得用户特征、博文特征；导入模型获得网络舆情预测值。

在本实施例中，步骤S1为：网络舆情数据清洗，减少样本数量及噪声。

在用户数据中，存在微博发布数量多但无人互动的微博，例如机器人、广告或僵尸粉等微博；其次为关注数多，粉丝数少，即粉丝极低的用户。因此视这些数据为非必要用户，通过规则过滤掉这部分数据，可极大减少样本数量，降低噪声。

用户过滤主要是对用户数据清洗，过滤掉非必要用户。非必要用户为机器人、僵尸粉、广告用户及粉丝低于设定值的用户，设定值根据实际情况可设置为50～1000，在本实施例中优选设定机器人、僵尸粉、广告用户及粉丝低于100的用户为非必要用户。

如图3所示，图3为本实施例一提供的文本预处理流程图。文本预处理主要是对微博文本进行预处理，从而使得过滤后的词袋数量大大减小，使LDA主题分布更明显。微博文本预处理包括如下步骤：

S11、对微博文本进行分词；

S12、过滤非必要词语；非必要词语包括微博停用词、标点符号、数字、邮箱、电话号码、日期、URL；

S13、删除掉频率为1的词语。

在本实施例中，步骤S2为：网络舆情特征提取，特征包括用户特征和博文特征；参考图4，图4为本发明实施例一提供的特征构成图。

用户特征，主要包括最近时间T内的活跃度、自身特征、粉丝特征、社交特征、基础特征、时间特征等；

近期活跃度特征主要从以下几个方面进行提取：

(1)最近1，3，7天发微博的条数；

(2)最近7，15，30，90天总发微博天数；

(3)连续发微博天数；

(4)连续不发微薄天数；

(5)最近7天平均每天发微博条数；

(6)最近1，3，5，7，10条微博时间间隔；

(7)总互动数，日平均互动数数；

(8)最近7，15，30，90天是否每天都发微博；

(9)当天发微博数；

自身特征主要从以下几个方面进行提取：

(1)所有微博中3无微博(无转赞评)的条数和比例；

(2)发出微博后，收到前3个互动的平均时间间隔；

(3)上个月最后三条微博的互动数量；

(4)连续发了多少条小于等于档位2的微博数以及比例；

(5)窗口内第一条和最后一条距离窗口最后一天的时间间隔；

粉丝特征主要从以下几个方面进行提取：

(1)粉丝等级的中位数，均值以及方差；

(2)粉丝活跃程度特征；

(3)互动行为数大于2，5，10的粉丝数；

社交特征主要从以下几个方面进行提取：

(1)互动粉丝数；

(2)关注的人数；

(3)粉丝数；

(4)用户发出的转、赞、评、互动的数量以及天数；

基础特征主要从以下几个方面进行提取：

(1)收到的转、赞、评、互动数的均值最大值中位数；

(2)收到的转、赞、评占互动量的比例；

(3)不同档位的微博数，以及占总微博数的比例；

(4)加权后每个档位微博分值比例；

(5)档位众数，加权档位众数以及得分；

时间特征主要从以下几个方面进行提取：

(1)微博发布首日，间隔4小时收到的互动量的均值中位数最大值；

(2)微博发布首日，间隔4小时收到的互动量的均值中位数最大值；

(3)用户在当前时间段，即间隔4小时内，历史微博值的中位数，最大值，均值，标准差；

(4)微博发出后的互动行为趋势：1，2，3，4，6，8，12，24小时内的互动的最大值、平均值、总值；

(5)微博发出后的用户趋势：1，2，3，4，6，8，12，24小时内不同互动行为独立用户的最大值、平均值、总值；

(6)历史六周的活动趋势；

(7)用户在星期几的微博互动量的中位数、最大值、最小值、平均值。

微博特征，主要包括基础特征、时间特征、文本特征、主题影响力特征等。

基础特征主要从以下几个方面进行提取：

(1)微博长度；

(2)@数量；

(3)http数量；

(4)topic数量；

(5)标点符号数量；

时间特征主要从以下几个方面进行提取：

(1)星期几；

(2)微博所发时间段；

(3)今明两天是否约会日，节假日，调休日，休息日；

文本特征主要从以下几个方面进行提取：

(1)LDA topic分布，20个主题的分布作为微博的20维特征；

(2)词袋模型，其中一个袋子多个词。需要寻找具有区分性的词。对每个词，统计包含它的所有微博，不同档次数量及百分比，不同档次用户数；

(3)微博发出前后1min，30min，1hour，3hour内的本人微博相似度；

主题影响力特征主要从以下几个方面进行提取：

(1)一次互动行为可以看作博主成功地影响了粉丝；

(2)粉丝转赞评微博内容的偏好，用户的转赞评是有偏好的，分别统计用户转赞评微博分布的期望，只保留至少有十次互动行为的粉丝。从而定义出铁粉。

(3)粉丝活跃度的总量和平均值；

(4)活跃粉丝对微博内容的偏好，对于博主的某条微博，粉丝的偏好与微博的相似度、对粉丝的总影响力、对粉丝的平均影响力、铁粉的偏好与微博的相似度、粉丝的偏好与微博的相似度*对该粉丝的影响力；

训练样本为加权训练样本，加权训练样本根据档位设置权重，其中，根据微博的档位是根据微博互动数设定的。

在本实施例中将每条微博进行划分等级评估，即将每条微博的互动数，即转赞评总数，共划分为5个档位：0-5为1档；6-10为2档；11-50为3档；51-100为4档；100+为5档。参考表4所示，表4为本发明实施例中每个档位对应的权重值表。本实施例中为了验证推荐算法的有效性，采用经典的精确度(precision)进行评估，其计算公式如下所示：

\Pr e c i s i o n = \frac{Σ_{i = 1}^{5} ({weight}_{i} \times c o u n t_r_{i})}{Σ_{i = 1}^{5} ({weight}_{i} \times {count}_{i})};

其中，count_i为第i个档位的微博数量，weight_i为第i个档位权重，count_r_i为第i个档位预测正确的微博数量。

表4每个档位对应的权重值

档位	互动数	权重值
			1	0-5	1
2	6-10	10
			3	11-50	50
4	51-100	100
			5	100+	200

在本实施例中，微博互动情况预测实际上是一个预测档位的问题，即带权重的多分类问题。其模型构建与预测主要包括如下三个步骤。

S31、创建训练样本；将各档位的样本按权重复制样本，获得训练样本；比如权重为200的档位的样本复制样本200份；优选的，本实施例中的权重设定如表4所示。

优选的，在本实施例中，利用GBDT、XGBOOST、RF、LR、SVM等5个分类模型，分别建立其模型，并获得其预测值，即预测用户微博在发表一天后的互动情况。

GBDT为一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终结果，与SVM一起被认为是泛化能力较强的算法。XGBOOST是boosted tree的一种实现，效率和精度都很高，可在一定程度上避免过拟合。RF随机森林是利用多棵树对样本进行训练并预测的一种分类器，是一种利用多个分类树对数据进行判别与分类的方法，它在对数据进行分类的同时，还可以给出各个变量的重要性评分，评估各个变量在分类中所起的作用，且不容易出现over-fitting。LR有很多方法来对模型正则化，比起贝叶斯的条件独立性假设，其不需要考虑样本是否是相关的。

S33、将测试样本分别输入若干个分类模型，并分别获得其预测值，利用预测值求平均值，获得融合模型预测值，获得用户后续微博在发表一天后预测的互动情况。

将5个模型预测值，进行均值融合。如图5所示，图5为本发明实施例一提供的多模型融合流程图。在本实施例中，这5个分类模型差异性比较大，因此集成效果较好，可在一定程度上避免过拟合，使得预测结果具有更好的准确性和稳定性，能有效地预测用户在发博之后的互动情况。

综上，本发明提供一种基于智慧社区网络大数据的舆情预测方法，应用于互联网平台上，并对网络社区上的网络舆情进行预测，对于有价值的内容可以增加曝光量，提高内容的传播互动量，对于负面内容加以遏制，防止进一步造成恶劣影响。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于智慧社区网络大数据的舆情预测方法，其特征在于，包括如下步骤：

S1：网络舆情数据清洗，减少样本数量及噪声；所述数据清洗包括非必要用户过滤和文本预处理；

S2：网络舆情特征提取；所述特征包括用户特征和博文特征；

S3：网络舆情模型构建与网络舆情预测：

获取加权训练样本、构建若干预测模型以及获得网络舆情预测值。

2.如权利要求1所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于，步骤S3具体包括：

S32、依据所述训练样本，分别建立若干个分类模型；所述分类模型为GBDT、XGBOOST、RF、LR、SVM中的两个或两个以上模型；

S33、将测试样本分别输入所述若干个分类模型，并分别获得其预测值，利用所述预测值求平均值，获得融合模型预测值。

3.如权利要求2所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于，所述S31中的档位是根据单条博文的互动数来设定。

4.如权利要求1所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于：所述非必要用户为机器人、僵尸粉、广告用户及粉丝低于设定值的用户。

5.如权利要求1所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于,所述文本预处理包括如下步骤：

S11、对博文进行分词；

S12、过滤非必要词语；所述非必要词语包括停用词、标点符号、数字、邮箱、电话号码、日期、URL；

S13、删除掉出现频率为1的词语。

6.如权利要求1所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于,所述用户特征，包括最近时间T内的活跃度特征、自身特征、粉丝特征、社交特征、技术特征，以及时间特征。

7.如权利要求1所述的一种基于智慧社区网络大数据的舆情预测方法，其特征在于,所述博文特征包括基础特征、时间特征、文本特征，以及主题影响力特征。