CN106227766A

CN106227766A - 一种大数据驱动的选举舆情预测方法

Info

Publication number: CN106227766A
Application number: CN201610559551.0A
Authority: CN
Inventors: 王卿; 吴俊杰; 张旭; 苗琳; 解峥; 刘春阳; 王萌
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2016-07-15
Filing date: 2016-07-15
Publication date: 2016-12-14

Abstract

本发明公开了一种大数据驱动的选举舆情预测方法，属于数据挖掘领域。具体为：首先，根据选举国家或地区的互联网网路使用报告和地区网站排名，挑选出大数据信息源；再对每一类信息源进行分析，构建民意预测指标；然后融合提取出的多源预测指标，形成当前互联网民众支持率；进而收集民调报告，融合报告中各年龄段人群对候选人的支持率，形成线下民调支持率值；考虑选举国家或地区人口结构构成和网民年龄分布，融合候选人互联网支持率值与线下民调支持率值，运用移动平均方法，预测下一时间节点候选人支持率值，预测结果以日频度更新。本发明具有数据源广泛、预测周期短、实时性强等特点，在舆情监控和观点分析等领域有重要的应用价值。

Description

一种大数据驱动的选举舆情预测方法

技术领域

本发明属于数据挖掘领域，涉及预测技术，具体是一种大数据驱动的选举舆情预测方法。

背景技术

随着网络技术的发展，网民群体不断扩大。国际电信联盟(ITU)发布的《衡量信息社会发展报告》称，截至2015年，全球互联网用户已达32亿，占全球人口的43.4％。欧洲互联网使用率更是高达82.1％；美国紧随其后，互联网使用率达60％。由此可见，互联网已逐渐融入人们的生活，特别是在发达国家。伴随搜索引擎、门户网站、社交网络的蓬勃发展，多源网络平台在为人们提供丰富资讯的同时，也提供了表达的空间，使得人们线上、线下行为结合更为紧密。如此高覆盖率、强耦合性的特点使得互联网成为民众观点的“聚集地”。

选举作为一种政治活动，历来为各个国家或地区重视。精确掌握民意动向受到参选人、政府和民众的广泛关注。

现有技术中，传统选情预测主要依赖“民调”和专家意见，存在数据源单一、预测周期长、实时性不足、主观性强等弱点。大数据时代，选举动态和民意倾向隐藏在网络大数据背后，与民调和专家意见形成互补，为选情预测带来了新的机遇。但现有基于大数据的选情预测方法主要依赖单一渠道信息源，方法迁移性弱；且由于互联网主要用户群体以年轻人为主，网络数据在年龄分布上有偏。有鉴于此，急需融合多源网络数据及民调数据的选情预测方法。

发明内容

本发明为了降低选情预测对单一渠道信息源的依赖，提高预测方法的迁移性；同时为了克服网络数据年龄分布的有偏性，提出了一种大数据驱动的选举舆情预测方法；

具体步骤如下：

步骤一、针对选举国家或地区，通过网路使用报告和地区网站排名，甄选大数据信息源；

从访问量高的网站中选出代表民意的社交网络类和搜索引擎类网站，列入大数据的候选信息源。

步骤二、从大数据信息源中，提取各渠道预测指标构建互联网民意预测指标体系；

各渠道预测指标包括：社交网络的关注度指标，搜索引擎的关注度指标和候选人竞选主页的关注度指标；

社交网络的关注度指标是指：以候选人每一日平均每条帖文获得的点赞数作为网民对该候选人的支持度。

具体计算如下：

候选人i在统计区间的第t日发布了m条帖子，每条帖子获得赞数为{z₁,...z_j,...,z_m}，则候选人i在第t日平均每条帖文获得赞数为：

a v e r a g e_z (i, t) = \frac{Σ_{j = 1}^{m} z_{j}}{m}

候选人i第t日在社交网络中的关注度指标为：

i n d e x_s o c i a l (i, t) = \frac{a v e r a g e_z (i, t)}{Σ_{p = 1}^{n} a v e r a g e_z (p, t)}

n为总的参选人数量；集合为{1,...p,...,n}；

搜索引擎的关注度指标是指：候选人相关的关键词在搜索引擎中的搜索规模，并按日度更新。

具体计算如下：

针对选举国家或地区使用量最大的搜索引擎，获取候选人i在第t日的搜索量计算每位候选人i在统计区间的第t日搜索引擎中的关注度指标：

i n d e x_s e a r c h (i, t) = \frac{s_{i}^{t}}{Σ_{p = 1}^{n} s_{p}^{t}}

候选人竞选主页的关注度指标是指：候选人竞选主页的每日IP访问量；

具体步骤如下：

若候选人i竞选网站在统计区间的第t日的IP访问量为可得每位候选人i在第t日的竞选主页关注度指标：

i n d e x_p a g e (i, t) = \frac{v_{i}^{t}}{Σ_{p = 1}^{n} v_{p}^{t}}

步骤三、对各渠道预测指标采用加权处理，进行互联网多源数据融合；

候选人i在第t日的互联网支持率s_online(i,t)计算方法如下：

s_{o n l i n e} (i, t) = \frac{ω_{1} i n d e x_s o c i a l (i, t) + ω_{2} i n d e x_s e a r c h (i, t) + ω_{3} i n d e x_p a g e (i, t)}{ω_{1} + ω_{2} + ω_{3}}

ω₁为候选人i在第t日社交网络关注度指标权重；ω₂为候选人i在第t日搜索引擎关注度指标权重；ω₃为候选人i在第t日的竞选主页关注度指标权重。

步骤四、针对候选人i，采集民调数据计算该候选人在某年龄段k中的民调支持率；

选取统计区间第t日之前半月内的某期民调p_j'，候选人i在民调p_j'中年龄段为k的民众中的支持率记为

则候选人i在半月内的民调中年龄段为k的民调支持率为：

s_{o f f l i n e}^{k} (i, t) = \frac{Σ_{j^{'} = 1}^{h} p_{j^{'}}^{k} (i, t)}{h}

h为统计区间第t日之前半月内的民调期数，j'∈{1,...,h}；

步骤五、对步骤三中融合的互联网多源数据和步骤四中的民调支持率进行再次融合；

候选人i在第t日的融合民众支持率r(i,t)为：

r (i, t) = w_{o n l i n e} s_{o n l i n e} (i, t) + \underset{k}{Σ} w_{k} s_{o f f l i n e}^{k} (i, t)

w_online为选举地区互联网主流用户群体占具有投票权的总人口中的比例权重；主流用户群体根据使用互联网地区的实际使用情况确定，

w_k为除互联网主流用户群体的年龄段之外的，年龄段为k的人口占具有投票权的总人口的比例权重；

步骤六、采用移动平均法根据最近7日融合的民众支持率r(i,t)，预测候选人i下一日的民众支持率；

根据上述步骤分别计算第t日及之前6日的融合民众支持率，计算第t+1日的民众支持率如下：

r (i, t + 1) = \frac{Σ_{t^{'} = t - 6}^{t^{'} = t} r (i, t^{'})}{7}

本发明的优点是：

1)、一种大数据驱动的选举舆情预测方法，具有数据源广泛、预测周期短、实时性强等特点，在舆情监控和观点分析等领域有重要的应用价值。

2)、一种大数据驱动的选举舆情预测方法，对单一信息源的依赖性若，方法的可迁移性强，在多地区选举预测中具有推广价值。

3)、一种大数据驱动的选举舆情预测方法，充分利用民调数据实时性不足但年龄分布无偏，互联网数据实时性强但年龄分布有偏的互补特性，可以实现选举舆情的精准预测。

附图说明

图1为本发明一种大数据驱动的选举舆情预测方法流程图。

具体实施方式

下面将结合附图对本发明作进一步的详细说明。

本发明根据大数据体量巨大、数据类型繁多、价值密度低、处理速度快等特性，首先选举国家或地区的互联网网路使用报告和网站排名，挑选出能够反映民心动向的社交网络、搜索引擎、竞选主页等可靠多源大数据，再对每一类信息源进行分析，从信息源中提取出能够反映民意的预测指标，构建基于互联网大数据的民意预测指标；融合提取出的多源预测指标，形成当前互联网民众支持率；进而收集民调报告，融合报告中各年龄段人群对候选人的支持率，形成线下民调支持率值；考虑选举国家或地区互联网的主流使用群体，网民人口的结构构成和网民年龄分布，融合候选人互联网大数据支持率值与线下民调支持率值，得到候选人当前的支持率。最后运用移动平均法，预测下一时间节点候选人支持率值，预测结果以日频度更新候选人支持率的预测值。

如图1所示，具体实施步骤如下：

面对丰富的互联网数据，找到能够反映选举国家或地区民心动向的可靠信源是准确预测选举结果的基础；针对选举国家或地区的网路使用报告、地区网站排名是了解网民网络使用习惯的有效途径。

针对地域不同，网路使用报告从两种途径获得：其一，各个国家或地区互联网管理和服务机构的研究报告；各地区网络使用报告主要发布机构如表1所示；

表1

其二，各个国家或地区的调查公司发布的调研报告。

针对各地区的网站排名，通过流量统计公司的发布获得。例如，Alexa可以提供全球、各个国家或地区的网络访问量排名。

在了解选举国家或地区网民使用习惯及网站排名后，从访问量高的网站中选出能代表民意的社交网络类、搜索引擎类网站，列入候选信源；考虑到大选话题的特殊性，还应在候选信源中加入候选人竞选主页；由此，初步甄选出反映民心动向的大数据信息源。

构建全面科学的指标体系是选情预测的关键；结合信息源具体特征，各渠道预测指标提取方法如下：

各渠道预测指标包括：社交网络的预测指标，搜索引擎的预测指标和候选人竞选主页的预测指标；

(一)社交网络的预测指标；

社交网络因其交互性和及时性已成为民众获取信息、发表意见的主要平台。诸如Facebook、Twitter等社交媒体受到越来越多用户的青睐。这些社交媒体平台中允许网民通过点赞、评论等行为表达对大选候选人的看法，特别是点赞行为，可以认为是网民对于候选人言论的强烈认同。因此，可以以候选人每一日平均每条帖文获得的赞数作为网民对该候选人的支持度。

具体计算如下：

候选人i∈{1,2,...,n}在统计区间的第t日发布了m条帖子，每条帖子获得赞数为{z₁,...z_j,...,z_m}，则候选人i在第t日平均每条帖文获得赞数为：

a v e r a g e_z (i, t) = \frac{Σ_{j = 1}^{m} z_{j}}{m}

候选人i第t日在社交网络中的关注度指标为：

i n d e x_s o c i a l (i, t) = \frac{a v e r a g e_z (i, t)}{Σ_{p = 1}^{n} a v e r a g e_z (p, t)}

n为总的参选人数量；集合为{1,...p,...,n}；

(二)搜索引擎的预测指标

每一个用户在搜索引擎中的检索行为都是主动意愿的展示。为了帮助用户了解网民关注热点，多家搜索引擎提供了关键词搜索指数查询服务，例如谷歌趋势。这些指数以海量网民行为数据为基础，能够提供某个关键词在搜索引擎中的搜索规模，通常按日度更新。

具体计算如下：

选取选举国家或地区使用量最大的搜索引擎，获取候选人i在第t日的搜索量计算每位候选人i在统计区间的第t日搜索引擎中的关注度指标：

i n d e x_s e a r c h (i, t) = \frac{s_{i}^{t}}{Σ_{p = 1}^{n} s_{p}^{t}}

(三)候选人竞选主页的预测指标

竞选人为了宣传自己的执政主张、拉拢选票，通常会设立竞选主页。通过竞选网站，候选人一方面展示近期竞选活动与言论；另一方面通常会设立募捐页面，以获得开展竞选活动的资金支持。候选人竞选主页的IP访问量反映了民众对于候选人言行的关注。为了帮助网站调整优化，诸如Alexa、SEO综合查询站长工具等流量统计机构可以给出指定网站的每日IP访问量。

具体步骤如下：

若候选人i∈{1,2,...,n}竞选网站在统计区间的第t日的IP访问量为可得每位候选人i在第t日的竞选主页关注度指标：

i n d e x_p a g e (i, t) = \frac{v_{i}^{t}}{Σ_{p = 1}^{n} v_{p}^{t}}

步骤二中从社交网络、搜索引擎、候选人竞选主页等多源数据中提取出的指标从多角度体现了民众对候选人的支持度，为融合多源数据中候选人支持度信息，采用等权重加权的方法。

候选人i在t日的互联网支持率s_online(i,t)计算方法如下：

s_{o n l i n e} (i, t) = \frac{ω_{1} i n d e x_s o c i a l (i, t) + ω_{2} i n d e x_s e a r c h (i, t) + ω_{3} i n d e x_p a g e (i, t)}{ω_{1} + ω_{2} + ω_{3}}

ω₁为候选人i在第t日社交网络的关注度指标权重；ω₂为候选人i在第t日搜索引擎中的关注度指标权重；ω₃为候选人i在第t日的竞选主页关注度指标权重。

民调属于线下调研数据，作为一种用来测量社会与政治态度的调查，信息具体，能够详细地给出各个年龄段(以10岁为一个年龄段)人群的民意支持率。各个国家或地区大选前，通常会充斥各式的民意调查。民调机构基于立场不同，调查结果也会有所偏差。

为了消除民调机构政治立场导致的偏差，本发明中采用等权重加权的方式，通过对最近15天全部民调中各个年龄段支持率的等权重加权，得到当日各年龄段支持率的指标。

具体为：

若统计区间第t日采集到了最近15日内的h期民调分别为p_j',j'∈{1,...,h}，候选人i在民调p_j'年龄段为k的民众中的支持率为

则候选人i在最近15日内的民调中年龄区间k的人群中的民调支持率为：

s_{o f f l i n e}^{k} (i, t) = \frac{Σ_{j^{'} = 1}^{h} p_{j^{'}}^{k} (i, t)}{h}

h为统计区间第t日之前半月内的民调期数，j'∈{1,...,h}；

考虑到互联网的使用群体以年轻人为主，互联网采集到的民意在年龄分布上有偏，但信息时效性强；线下民调数据通过随机抽样获得，年龄分布是无偏的，但预测时效性差。线上-线下数据具有很好的预测互补性。在线上-线下数据融合民意预测中，本发明考虑了国家或地区的人口结构特征。

具体而言，首先根据选举国家或地区的网路使用报告确定互联网的主要使用人群，并查阅选举地区的人口统计年鉴，得到互联网主流用户群体相应年龄段人口在有投票权的总人口中的比例，记为w_online；

记有投票权的人口中，除互联网主流用户群体相应年龄段之外的，年龄段为k的人口比例为w_k。

则候选人i在第t日的融合民众支持率r(i,t)为：

r (i, t) = w_{o n l i n e} s_{o n l i n e} (i, t) + \underset{k}{Σ} w_{k} s_{o f f l i n e}^{k} (i, t)

融合互联网大数据及线下民调数据，运用移动平均方法每日更新候选人民众支持率预测值。根据最近7日线上-线下融合民众支持率预测下一日民众支持率。

移动平均法是一种平滑预测技术，是用一组最近的实际数据值来预测未来一期数据值的方法。

已知第t日及之前一周的融合民众支持率，计算第t+1时刻的民众支持率预测值，方法如下：

r (i, t + 1) = \frac{Σ_{t^{'} = t - 6}^{t^{'} = t} r (i, t^{'})}{7}

本发明采用大数据分析技术，充分利用互联网大数据中的民意与线下民调互补的特性，建立选情预测指标体系和预测模型，实现每日更新候选人支持率预测值。研究大数据驱动的选情预测技术，以大选参选人得票支持率为预测对象；通过融合社交媒体平台、搜索引擎、主页流量统计等多源线上大数据，考虑国家或地区网民人口结构特征，结合线下民调数据，建立选情预测指标体系和预测模型，以实现选情结果的实时、精准追踪。

Claims

1.一种大数据驱动的选举舆情预测方法，其特征在于，具体步骤如下：

从访问量高的网站中选出代表民意的社交网络类和搜索引擎类网站，列入大数据的候选信息源；

候选人i在第t日的互联网支持率s_online(i,t)计算方法如下：

s_{o n l i n e} (i, t) = \frac{ω_{1} i n d e x_s o c i a l (i, t) + ω_{2} i n d e x_s e a r c h (i, t) + ω_{3} i n d e x_p a g e (i, t)}{ω_{1} + ω_{2} + ω_{3}}

ω₁为候选人i在第t日社交网络关注度指标权重；ω₂为候选人i在第t日搜索引擎关注度指标权重；ω₃为候选人i在第t日的竞选主页关注度指标权重；

则候选人i在半月内的民调中年龄段为k的民调支持率为：

s_{o f f l i n e}^{k} (i, t) = \frac{Σ_{j^{'} = 1}^{h} p_{j^{'}}^{k} (i, t)}{h}

h为统计区间第t日之前半月内的民调期数，j'∈{1,...,h}；

候选人i在第t日的融合民众支持率r(i,t)为：

r (i, t) = w_{o n l i n e} s_{o n l i n e} (i, t) + \underset{k}{Σ} w_{k} s_{o f f l i n e}^{k} (i, t)

w_online为选举地区互联网主流用户群体占具有投票权的总人口中的比例权重；主流用户群体根据使用互联网地区的实际使用情况确定；

r (i, t + 1) = \frac{Σ_{t^{'} = t - 6}^{t^{'} = t} r (i, t^{'})}{7} .

2.如权利要求1所述的一种大数据驱动的选举舆情预测方法，其特征在于，步骤二中，所述的各渠道预测指标包括：社交网络的关注度指标，搜索引擎的关注度指标和候选人竞选主页的关注度指标；

社交网络的关注度指标是指：以候选人每一日平均每条帖文获得的点赞数作为网民对该候选人的支持度；

具体计算如下：

a v e r a g e_z (i, t) = \frac{Σ_{j = 1}^{m} z_{j}}{m}

候选人i第t日在社交网络中的关注度指标为：

i n d e x_s o c i a l (i, t) = \frac{a v e r a g e_z (i, t)}{Σ_{p = 1}^{n} a v e r a g e_z (p, t)}

n为总的参选人数量；集合为{1,...p,...,n}；

搜索引擎的关注度指标是指：候选人相关的关键词在搜索引擎中的搜索规模，并按日度更新；

具体计算如下：

i n d e x_s e a r c h (i, t) = \frac{s_{i}^{t}}{Σ_{p = 1}^{n} s_{p}^{t}}

具体步骤如下：

i n d e x_p a g e (i, t) = \frac{v_{i}^{t}}{Σ_{p = 1}^{n} v_{p}^{t}} .