CN112348257A

CN112348257A - 一种多源数据融合与时序分析驱动的选举预测方法

Info

Publication number: CN112348257A
Application number: CN202011238961.8A
Authority: CN
Inventors: 陈炳阳; 张卫山; 侯召祥; 陈涛; 于泽沛
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-09

Abstract

本发明提出一种多源数据融合与时序分析驱动的选举预测方法，主要涉及深度学习，数据挖掘领域。从互联网中抓取影响选举结果的相关数据作为数据源，并进行预处理操作。从预处理后数据提取情感、经济、疫情(重大事件)数据特征，对多类特征进行相关性分析，从而进行数据融合。用融合后的数据对双向长短期记忆模型进行训练优化，从而确定最佳训练周期(天数)，使用训练好的时序分析模型进行选举预测。本发明融合多类数据特征，具有实时分析、提前预测的特点，在意见挖掘、舆情预测方面有较为广泛的应用价值。

Description

一种多源数据融合与时序分析驱动的选举预测方法

技术领域

本发明涉及深度学习、数据融合、时间序列分析，具体涉及到一种多源数据融合与时序分析驱动的选举预测方法。

背景技术

近年来，社交文本已成为用户意图分析的主要来源，尤其在选举预测方面已成为研究的热点。

传统的选举预测方法主要有两种，一种是从文本数量的角度来预测选举结果，如假设推文数量可以代替票数预测大选，另一种是从文本情感的角度来研究民众对总统候选人的情感倾向，从而进行预测。但是选举预测研究不应该忽略经济、社会重大事件等影响选举结果的关键因素，仅仅用推文的数量及文本作为单一因子来推测选举这种动态事件的演化发展。

选民情感分析是影响选举预测的主要因素之一，目前存在的情感分析模型大多采用传统的基于情感词典的方法、机器学习方法及一些统计学方法。其中基于词典的情感分析首先是对已有的情感词典进行重构和完善，然后用文本中所涉及的单词或短语与词典中的词汇进行语义相似度计算，从而确定该文本的情感极性。基于机器学习的方法一般是使用诸如朴素贝叶斯(NB，Naive Bayes)和支持向量机(SVM，Support Vector Machine)之类的传统分类算法实现文本情感分析。与深度学习方法相比，传统情感分析方法在文本分类及选举预测任务表现较差且耗时较长，难以对海量文本进行实时精准情感分析。

发明内容

为解决现有技术中的缺点和不足，本发明提出了一种多源数据融合与时序分析驱动的选举预测方法；使用BERTSC实现文本情感分类，避免传统情感分析模型分类效果差且耗时长的问题，根据实际情况对情感比例进行变换及微调以获得情感特征，引入经济、疫情特征进行相关性计算，然后将三类特征加权融合，以避免仅考虑单一因素对选举预测结果带来的偏差，对时间序列分析模型训练优化，从而达到实时分析，提前预测的目的。

本发明的技术方案为：

所述的多源数据融合与时序分析驱动的选举预测方法，具体步骤如下：

步骤一：从互联网中抓取影响选举结果的相关数据作为数据源；

抓取数据源的具体步骤为：

首先，在Twitter等社交网络平台上进行数据抓取；在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例)，通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中，分别以候选人及相关党派关键字进行抓取，同时对候选人本人所发表言论的评论进行抓取，提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息；

然后，从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化，以美国为例)，通过计算求得美元汇率的日变化率作为经济特征；

最后，从互联网分别抓取美国(候选人所在国家显示的疫情数据，以美国为例)每日死亡人数，新增确诊人数，治愈人数及检测人数，对筛选出的特征进行归一化处理，求得每日所有特征的总和；

步骤二：将步骤一抓取到的数据进行预处理(以Twitter为例)；

数据预处理具体过程如下：

201、进行基本的数据清洗，去掉明显的噪声信息。

202、为了辨别真实推文和机器产生的虚拟推文，设定若同一ID单日所发推文超过3条，则将此ID所发推文全部删除。

203、考虑到社交平台中用户主要为中青年群体，无法代表现实中不同年龄段的选民，因此，对应所预测选举国家各年龄段人口的分布状态，根据抓取到的用户年龄信息(对于不在选民年龄范围内数据直接去除)，随机删除多余中青年ID的数据。

204、去除不在所预测选举国家范围内的用户信息，认为推文发布地点和出生地点至少有一个在所预测选举国家境内，同时统计单日各州州对每位候选人的推文，其中将候选人和对应党派的推文条数合并，都认为是选民对同一候选人的情感态度。

步骤三：从步骤二预处理后的数据提取各类数据特征；

所述影响选举预测的特征有：情感特征、经济特征、疫情特征(重大事件)；具体特征提取过程如下：

步骤301、以Twitter文本数据提取选民的情感特征；

拿到文本数据后，首先进行文本情感分类，然后对情感比例进行变换，最后根据各州所拥有的实际选票(数量)权对情感比例进行微调，得到最终的情感数据作为情感特征；

具体而言，首先将Twitter文本数据输入基于BERT的情感分类模型(BERTSC，Bidirectional Encoder Representations from Transformers-based SentimentClassification)，对文本进行情感分类，只考虑选民对每位候选人的积极情感，以此情感比例作为情感特征；

然后对情感比例进行变换，保证选民仅会对某一候选人有积极情感(以此作为对候选人的支持率)，即不存在一人对多个候选人有支持率，以及一个人对所有候选人都无支持率的情感；

具体而言，分别对多位候选人做情感分类时，候选人间的情感比例相互独立，为简单说明情感变化情况这里仅以两位候选人(候选人T与候选人B)进行举例。如仅考虑某一个州单日的推文，假设关于候选人T的总条数为TN条，通过BERTSC模型可得其积极情感比例为T_Pos，关于候选人B的总条数为BN条，类似的可得其积极情感比例为B_Pos，从两位候选人相关推文中各选N条数据，分别计算二者积极情感条数并将其融合构成一个新集合，即可得到互斥的情感数据。计算方式如下：

N＝min(TN*T_Pos,BN*B_Pos)

t_Pos＝N*T_Pos

b_Pos＝B*b_Pos

T_Support＝t_Pos/(t_Pos+b_Pos)

B_Support＝b_Pos/(t_Pos+b_Pos)

其中t_Pos为新集合中候选人T的积极情感条数，b_Pos为对应的候选人B积极情感条数，T_Support为选民对候选人T的情感支持度，B_Support为候选人B的情感支持度；

最后根据各州所拥有的实际选票(数量)权对情感比例进行微调，作为最终的情感特征；

步骤302、经济特征提取；

抓取所预测国家每日货币汇率的变化率作为经济因素，使用最邻近差值算法进行数据补齐；

步骤303、疫情特征提取；

抓取所预测国家每日死亡人数，新增确诊人数，治愈人数及检测人数，对筛选出的特征进行归一化处理，求得每日所有特征的总和；

步骤四：将步骤三得到的三类特征进行相关性分析，从而进行数据融合；

通过皮尔逊相关性计算求得经济和疫情特征对候选人的支持度的相关系数，分别在疫情和经济层面，将候选人T和候选人B的相关性进行归一化处理，计算求得民众对候选人T与候选人B两位候选人的情感与经济因素的相关系数分别为α₁：β₁，与疫情因素的相关系数为α₂：β₂，其中情感特征系数设置为1，通过相关系数将三类特征进行融合，计算公式如下：

f(T)＝E(T)+α₁Eco(T)-β₁Covid19(T)

f(B)＝E(B)+α₂Eco(B)-β₂Covid19(B)

其中f(x)代表融合后的特征值，E(x)代表情感特征，Eco(x)代表经济特征，Convid19(x)代表疫情特征，T代表候选人T，B代表候选人B。

步骤五：将步骤三得到的融合数据对双向长短期记忆模型模型进行训练，从而确定最佳训练周期(天数)，然后训练好的时序分析模型进行选举预测；

501、时序分析模型训练；

在模型训练过程中，尝试以前t日数据信息预测t+1日数据，为了确定训练周期的最佳天数，即确定t的值，对模型进行训练，即：

以第1日到第t日的数据作为训练数据来预测第t+1日的信息，从而将其与已知的第t+1日的数据进行损失函数计算，从而验证模型的有效性。接着分别以[t+1，t+2,…,t+n]天数据分别作为训练集，然后将后一天数据作为测试集，从而确定训练周期为几天时，模型效果最好；

502、选举预测；

通过501得到的最佳训练周期(天数)，借助优化后的时序模型对数据进行预测；

本发明的优点在于：一种多源数据融合与时序分析驱动的选举预测方法，考虑到影响选举的多种因素，通过数据融合及时序分析模型的训练优化，具有实时分析、提前预测的特点，在意见挖掘、舆情预测方面有较为广泛的应用价值。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多源数据融合与时序分析驱动的选举预测方法的流程图。

图2为基于BERT的情感分析模型(BERTSC)结构图

图3为特征提取及数据融合流程图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

面对数据量庞大，数据类型繁多，难以对数据进行高速处理与分析等问题，本发明针对选举预测问题，提出一种多源数据融合与时序分析驱动的选举预测方法：从互联网中抓取影响选举结果的相关数据作为数据源，并进行预处理操作。从预处理后数据提取情感、经济、疫情(重大事件)数据特征，对多类特征进行相关性分析，从而进行数据融合。用融合后的数据对双向长短期记忆模型进行训练优化，以确定最佳训练周期(天数)，从而进行选举预测。

一种多源数据融合与时序分析驱动的选举预测方法，具体流程如图1所示，实施步骤如下：

抓取数据源的具体步骤为：

101、在Twitter等社交网络平台上进行数据抓取；在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例)，通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中，分别以候选人及相关党派关键字进行抓取，同时对候选人本人所发表言论的评论进行抓取，提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息；

102、从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化，以美国为例)，通过计算求得美元汇率的日变化率作为经济特征；

103、从互联网分别抓取美国(候选人所在国家显示的疫情数据，以美国为例)每日死亡人数，新增确诊人数，治愈人数及检测人数，对筛选出的特征进行归一化处理，求得每日所有特征的总和；

步骤二：将步骤一抓取到的数据进行预处理(以Twitter为例)；

数据预处理具体过程如下：

201、进行基本的数据清洗，去掉明显的噪声信息。

步骤三：从步骤二预处理后的数据提取各类数据特征；

步骤301、以Twitter文本数据提取选民的情感特征；

具体而言，对BERT进行微调得到BERTSC(Bidirectional EncoderRepresentations from Transformers-based Sentiment Classification)模型：从BERT的最后一层可以得到Pooling和Last_hidden两个值，对Last_hidden分别做最大池化和平均池化操作，可以得到Max_pooling和Avg_pooling，然后将得到的两个值与pooling值进行拼接，再送入softmax进行分类；

将Twitter文本数据输入BERTSRC对文本进行情感分类，只考虑选民对每位候选人的积极情感，以此情感比例作为情感特征；

N＝min(TN*T_Pos,BN*B_Pos)

t_Pos＝N*T_Pos

b_Pos＝B*b_Pos

T_Support＝t_Pos/(t_Pos+b_Pos)

B_Support＝b_Pos/(t_Pos+b_Pos)

步骤302、经济特征提取；

步骤303、疫情特征提取；

f(T)＝E(T)+α₁Eco(T)-β₁Covid19(T)

f(B)＝E(B)+α₂Eco(B)-β₂Covid19(B)

步骤五：将步骤三得到的融合数据对双向长短期记忆模型进行训练，从而确定最佳训练周期(天数)，然后训练好的时序分析模型进行选举预测；

501、时序分析模型训练；

502、选举预测；

本发明考虑了多个影响选举结果的因素，通过相关性计算将多类数据融合，克服了单一因素在挖掘民意方面的不足，使用BERTSC进行情感分析，利用简单有效的双向长短期记忆模型进行时序分析预测，本发明融合多类数据特征，具有实时分析、提前预测的特点，在意见挖掘、舆情预测方面有较为广泛的应用价值；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多源数据融合与时序分析驱动的选举预测方法，其特征在于，具体步骤如下：

步骤二：将步骤一抓取到的数据进行预处理(以Twitter为例)；

数据预处理具体过程如下：

201、进行基本的数据清洗，去掉明显的噪声信息。

204、去除不在所预测选举国家范围内的用户信息，认为推文发布地点和出生地点至少有一个在所预测选举国家境内，同时统计单日各州对每位候选人的推文，其中将候选人和对应党派的推文条数合并，都认为是选民对同一候选人的情感态度。

步骤三：从步骤二预处理后的数据提取各类数据特征；

步骤301、以Twitter文本数据提取选民的情感特征；

N＝min(TN*T_Pos,BN*B_Pos)

t_Pos＝N*T_Pos

b_Pos＝B*b_Pos

T_Support＝t_Pos/(t_Pos+b_Pos)

B_Support＝b_Pos/(t_Pos+b_Pos)

步骤302、经济特征提取；

步骤303、疫情特征提取；

f(T)＝E(T)+α₁Eco(T)-β₁Covid19(T)

f(B)＝E(B)+α₂Eco(B)-β₂Covid19(B)

501、时序分析模型训练；

502、选举预测；

通过501得到的最佳训练周期(天数)，借助优化后的时序模型对数据进行预测。

2.如权利要求1所述的一种多源数据融合与时序分析驱动的选举预测方法，其特征在于，步骤一所述的抓取数据的步骤具体为：

最后，从互联网分别抓取美国(候选人所在国家显示的疫情数据，以美国为例)每日死亡人数，新增确诊人数，治愈人数，死亡人数及检测人数，对筛选出的特征进行归一化处理，求得每日所有特征的总和。