CN112348257A - 一种多源数据融合与时序分析驱动的选举预测方法 - Google Patents

一种多源数据融合与时序分析驱动的选举预测方法 Download PDF

Info

Publication number
CN112348257A
CN112348257A CN202011238961.8A CN202011238961A CN112348257A CN 112348257 A CN112348257 A CN 112348257A CN 202011238961 A CN202011238961 A CN 202011238961A CN 112348257 A CN112348257 A CN 112348257A
Authority
CN
China
Prior art keywords
data
candidate
emotion
pos
election
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011238961.8A
Other languages
English (en)
Inventor
陈炳阳
张卫山
侯召祥
陈涛
于泽沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN202011238961.8A priority Critical patent/CN112348257A/zh
Publication of CN112348257A publication Critical patent/CN112348257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提出一种多源数据融合与时序分析驱动的选举预测方法,主要涉及深度学习,数据挖掘领域。从互联网中抓取影响选举结果的相关数据作为数据源,并进行预处理操作。从预处理后数据提取情感、经济、疫情(重大事件)数据特征,对多类特征进行相关性分析,从而进行数据融合。用融合后的数据对双向长短期记忆模型进行训练优化,从而确定最佳训练周期(天数),使用训练好的时序分析模型进行选举预测。本发明融合多类数据特征,具有实时分析、提前预测的特点,在意见挖掘、舆情预测方面有较为广泛的应用价值。

Description

一种多源数据融合与时序分析驱动的选举预测方法
技术领域
本发明涉及深度学习、数据融合、时间序列分析,具体涉及到一种多源数据融合与时序分析驱动的选举预测方法。
背景技术
近年来,社交文本已成为用户意图分析的主要来源,尤其在选举预测方面已成为研究的热点。
传统的选举预测方法主要有两种,一种是从文本数量的角度来预测选举结果,如假设推文数量可以代替票数预测大选,另一种是从文本情感的角度来研究民众对总统候选人的情感倾向,从而进行预测。但是选举预测研究不应该忽略经济、社会重大事件等影响选举结果的关键因素,仅仅用推文的数量及文本作为单一因子来推测选举这种动态事件的演化发展。
选民情感分析是影响选举预测的主要因素之一,目前存在的情感分析模型大多采用传统的基于情感词典的方法、机器学习方法及一些统计学方法。其中基于词典的情感分析首先是对已有的情感词典进行重构和完善,然后用文本中所涉及的单词或短语与词典中的词汇进行语义相似度计算,从而确定该文本的情感极性。基于机器学习的方法一般是使用诸如朴素贝叶斯(NB,Naive Bayes)和支持向量机(SVM,Support Vector Machine)之类的传统分类算法实现文本情感分析。与深度学习方法相比,传统情感分析方法在文本分类及选举预测任务表现较差且耗时较长,难以对海量文本进行实时精准情感分析。
发明内容
为解决现有技术中的缺点和不足,本发明提出了一种多源数据融合与时序分析驱动的选举预测方法;使用BERTSC实现文本情感分类,避免传统情感分析模型分类效果差且耗时长的问题,根据实际情况对情感比例进行变换及微调以获得情感特征,引入经济、疫情特征进行相关性计算,然后将三类特征加权融合,以避免仅考虑单一因素对选举预测结果带来的偏差,对时间序列分析模型训练优化,从而达到实时分析,提前预测的目的。
本发明的技术方案为:
所述的多源数据融合与时序分析驱动的选举预测方法,具体步骤如下:
步骤一:从互联网中抓取影响选举结果的相关数据作为数据源;
抓取数据源的具体步骤为:
首先,在Twitter等社交网络平台上进行数据抓取;在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例),通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中,分别以候选人及相关党派关键字进行抓取,同时对候选人本人所发表言论的评论进行抓取,提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息;
然后,从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化,以美国为例),通过计算求得美元汇率的日变化率作为经济特征;
最后,从互联网分别抓取美国(候选人所在国家显示的疫情数据,以美国为例)每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤二:将步骤一抓取到的数据进行预处理(以Twitter为例);
数据预处理具体过程如下:
201、进行基本的数据清洗,去掉明显的噪声信息。
202、为了辨别真实推文和机器产生的虚拟推文,设定若同一ID单日所发推文超过3条,则将此ID所发推文全部删除。
203、考虑到社交平台中用户主要为中青年群体,无法代表现实中不同年龄段的选民,因此,对应所预测选举国家各年龄段人口的分布状态,根据抓取到的用户年龄信息(对于不在选民年龄范围内数据直接去除),随机删除多余中青年ID的数据。
204、去除不在所预测选举国家范围内的用户信息,认为推文发布地点和出生地点至少有一个在所预测选举国家境内,同时统计单日各州州对每位候选人的推文,其中将候选人和对应党派的推文条数合并,都认为是选民对同一候选人的情感态度。
步骤三:从步骤二预处理后的数据提取各类数据特征;
所述影响选举预测的特征有:情感特征、经济特征、疫情特征(重大事件);具体特征提取过程如下:
步骤301、以Twitter文本数据提取选民的情感特征;
拿到文本数据后,首先进行文本情感分类,然后对情感比例进行变换,最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,得到最终的情感数据作为情感特征;
具体而言,首先将Twitter文本数据输入基于BERT的情感分类模型(BERTSC,Bidirectional Encoder Representations from Transformers-based SentimentClassification),对文本进行情感分类,只考虑选民对每位候选人的积极情感,以此情感比例作为情感特征;
然后对情感比例进行变换,保证选民仅会对某一候选人有积极情感(以此作为对候选人的支持率),即不存在一人对多个候选人有支持率,以及一个人对所有候选人都无支持率的情感;
具体而言,分别对多位候选人做情感分类时,候选人间的情感比例相互独立,为简单说明情感变化情况这里仅以两位候选人(候选人T与候选人B)进行举例。如仅考虑某一个州单日的推文,假设关于候选人T的总条数为TN条,通过BERTSC模型可得其积极情感比例为TPos,关于候选人B的总条数为BN条,类似的可得其积极情感比例为BPos,从两位候选人相关推文中各选N条数据,分别计算二者积极情感条数并将其融合构成一个新集合,即可得到互斥的情感数据。计算方式如下:
N=min(TN*TPos,BN*BPos)
tPos=N*TPos
bPos=B*bPos
TSupport=tPos/(tPos+bPos)
BSupport=bPos/(tPos+bPos)
其中tPos为新集合中候选人T的积极情感条数,bPos为对应的候选人B积极情感条数,TSupport为选民对候选人T的情感支持度,BSupport为候选人B的情感支持度;
最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,作为最终的情感特征;
步骤302、经济特征提取;
抓取所预测国家每日货币汇率的变化率作为经济因素,使用最邻近差值算法进行数据补齐;
步骤303、疫情特征提取;
抓取所预测国家每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤四:将步骤三得到的三类特征进行相关性分析,从而进行数据融合;
通过皮尔逊相关性计算求得经济和疫情特征对候选人的支持度的相关系数,分别在疫情和经济层面,将候选人T和候选人B的相关性进行归一化处理,计算求得民众对候选人T与候选人B两位候选人的情感与经济因素的相关系数分别为α1:β1,与疫情因素的相关系数为α2:β2,其中情感特征系数设置为1,通过相关系数将三类特征进行融合,计算公式如下:
f(T)=E(T)+α1Eco(T)-β1Covid19(T)
f(B)=E(B)+α2Eco(B)-β2Covid19(B)
其中f(x)代表融合后的特征值,E(x)代表情感特征,Eco(x)代表经济特征,Convid19(x)代表疫情特征,T代表候选人T,B代表候选人B。
步骤五:将步骤三得到的融合数据对双向长短期记忆模型模型进行训练,从而确定最佳训练周期(天数),然后训练好的时序分析模型进行选举预测;
501、时序分析模型训练;
在模型训练过程中,尝试以前t日数据信息预测t+1日数据,为了确定训练周期的最佳天数,即确定t的值,对模型进行训练,即:
以第1日到第t日的数据作为训练数据来预测第t+1日的信息,从而将其与已知的第t+1日的数据进行损失函数计算,从而验证模型的有效性。接着分别以[t+1,t+2,…,t+n]天数据分别作为训练集,然后将后一天数据作为测试集,从而确定训练周期为几天时,模型效果最好;
502、选举预测;
通过501得到的最佳训练周期(天数),借助优化后的时序模型对数据进行预测;
本发明的优点在于:一种多源数据融合与时序分析驱动的选举预测方法,考虑到影响选举的多种因素,通过数据融合及时序分析模型的训练优化,具有实时分析、提前预测的特点,在意见挖掘、舆情预测方面有较为广泛的应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多源数据融合与时序分析驱动的选举预测方法的流程图。
图2为基于BERT的情感分析模型(BERTSC)结构图
图3为特征提取及数据融合流程图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
面对数据量庞大,数据类型繁多,难以对数据进行高速处理与分析等问题,本发明针对选举预测问题,提出一种多源数据融合与时序分析驱动的选举预测方法:从互联网中抓取影响选举结果的相关数据作为数据源,并进行预处理操作。从预处理后数据提取情感、经济、疫情(重大事件)数据特征,对多类特征进行相关性分析,从而进行数据融合。用融合后的数据对双向长短期记忆模型进行训练优化,以确定最佳训练周期(天数),从而进行选举预测。
一种多源数据融合与时序分析驱动的选举预测方法,具体流程如图1所示,实施步骤如下:
步骤一:从互联网中抓取影响选举结果的相关数据作为数据源;
抓取数据源的具体步骤为:
101、在Twitter等社交网络平台上进行数据抓取;在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例),通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中,分别以候选人及相关党派关键字进行抓取,同时对候选人本人所发表言论的评论进行抓取,提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息;
102、从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化,以美国为例),通过计算求得美元汇率的日变化率作为经济特征;
103、从互联网分别抓取美国(候选人所在国家显示的疫情数据,以美国为例)每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤二:将步骤一抓取到的数据进行预处理(以Twitter为例);
数据预处理具体过程如下:
201、进行基本的数据清洗,去掉明显的噪声信息。
202、为了辨别真实推文和机器产生的虚拟推文,设定若同一ID单日所发推文超过3条,则将此ID所发推文全部删除。
203、考虑到社交平台中用户主要为中青年群体,无法代表现实中不同年龄段的选民,因此,对应所预测选举国家各年龄段人口的分布状态,根据抓取到的用户年龄信息(对于不在选民年龄范围内数据直接去除),随机删除多余中青年ID的数据。
204、去除不在所预测选举国家范围内的用户信息,认为推文发布地点和出生地点至少有一个在所预测选举国家境内,同时统计单日各州州对每位候选人的推文,其中将候选人和对应党派的推文条数合并,都认为是选民对同一候选人的情感态度。
步骤三:从步骤二预处理后的数据提取各类数据特征;
所述影响选举预测的特征有:情感特征、经济特征、疫情特征(重大事件);具体特征提取过程如下:
步骤301、以Twitter文本数据提取选民的情感特征;
拿到文本数据后,首先进行文本情感分类,然后对情感比例进行变换,最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,得到最终的情感数据作为情感特征;
具体而言,对BERT进行微调得到BERTSC(Bidirectional EncoderRepresentations from Transformers-based Sentiment Classification)模型:从BERT的最后一层可以得到Pooling和Last_hidden两个值,对Last_hidden分别做最大池化和平均池化操作,可以得到Max_pooling和Avg_pooling,然后将得到的两个值与pooling值进行拼接,再送入softmax进行分类;
将Twitter文本数据输入BERTSRC对文本进行情感分类,只考虑选民对每位候选人的积极情感,以此情感比例作为情感特征;
然后对情感比例进行变换,保证选民仅会对某一候选人有积极情感(以此作为对候选人的支持率),即不存在一人对多个候选人有支持率,以及一个人对所有候选人都无支持率的情感;
具体而言,分别对多位候选人做情感分类时,候选人间的情感比例相互独立,为简单说明情感变化情况这里仅以两位候选人(候选人T与候选人B)进行举例。如仅考虑某一个州单日的推文,假设关于候选人T的总条数为TN条,通过BERTSC模型可得其积极情感比例为TPos,关于候选人B的总条数为BN条,类似的可得其积极情感比例为BPos,从两位候选人相关推文中各选N条数据,分别计算二者积极情感条数并将其融合构成一个新集合,即可得到互斥的情感数据。计算方式如下:
N=min(TN*TPos,BN*BPos)
tPos=N*TPos
bPos=B*bPos
TSupport=tPos/(tPos+bPos)
BSupport=bPos/(tPos+bPos)
其中tPos为新集合中候选人T的积极情感条数,bPos为对应的候选人B积极情感条数,TSupport为选民对候选人T的情感支持度,BSupport为候选人B的情感支持度;
最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,作为最终的情感特征;
步骤302、经济特征提取;
抓取所预测国家每日货币汇率的变化率作为经济因素,使用最邻近差值算法进行数据补齐;
步骤303、疫情特征提取;
抓取所预测国家每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤四:将步骤三得到的三类特征进行相关性分析,从而进行数据融合;
通过皮尔逊相关性计算求得经济和疫情特征对候选人的支持度的相关系数,分别在疫情和经济层面,将候选人T和候选人B的相关性进行归一化处理,计算求得民众对候选人T与候选人B两位候选人的情感与经济因素的相关系数分别为α1:β1,与疫情因素的相关系数为α2:β2,其中情感特征系数设置为1,通过相关系数将三类特征进行融合,计算公式如下:
f(T)=E(T)+α1Eco(T)-β1Covid19(T)
f(B)=E(B)+α2Eco(B)-β2Covid19(B)
其中f(x)代表融合后的特征值,E(x)代表情感特征,Eco(x)代表经济特征,Convid19(x)代表疫情特征,T代表候选人T,B代表候选人B。
步骤五:将步骤三得到的融合数据对双向长短期记忆模型进行训练,从而确定最佳训练周期(天数),然后训练好的时序分析模型进行选举预测;
501、时序分析模型训练;
在模型训练过程中,尝试以前t日数据信息预测t+1日数据,为了确定训练周期的最佳天数,即确定t的值,对模型进行训练,即:
以第1日到第t日的数据作为训练数据来预测第t+1日的信息,从而将其与已知的第t+1日的数据进行损失函数计算,从而验证模型的有效性。接着分别以[t+1,t+2,…,t+n]天数据分别作为训练集,然后将后一天数据作为测试集,从而确定训练周期为几天时,模型效果最好;
502、选举预测;
通过501得到的最佳训练周期(天数),借助优化后的时序模型对数据进行预测;
本发明考虑了多个影响选举结果的因素,通过相关性计算将多类数据融合,克服了单一因素在挖掘民意方面的不足,使用BERTSC进行情感分析,利用简单有效的双向长短期记忆模型进行时序分析预测,本发明融合多类数据特征,具有实时分析、提前预测的特点,在意见挖掘、舆情预测方面有较为广泛的应用价值;
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种多源数据融合与时序分析驱动的选举预测方法,其特征在于,具体步骤如下:
步骤一:从互联网中抓取影响选举结果的相关数据作为数据源;
步骤二:将步骤一抓取到的数据进行预处理(以Twitter为例);
数据预处理具体过程如下:
201、进行基本的数据清洗,去掉明显的噪声信息。
202、为了辨别真实推文和机器产生的虚拟推文,设定若同一ID单日所发推文超过3条,则将此ID所发推文全部删除。
203、考虑到社交平台中用户主要为中青年群体,无法代表现实中不同年龄段的选民,因此,对应所预测选举国家各年龄段人口的分布状态,根据抓取到的用户年龄信息(对于不在选民年龄范围内数据直接去除),随机删除多余中青年ID的数据。
204、去除不在所预测选举国家范围内的用户信息,认为推文发布地点和出生地点至少有一个在所预测选举国家境内,同时统计单日各州对每位候选人的推文,其中将候选人和对应党派的推文条数合并,都认为是选民对同一候选人的情感态度。
步骤三:从步骤二预处理后的数据提取各类数据特征;
所述影响选举预测的特征有:情感特征、经济特征、疫情特征(重大事件);具体特征提取过程如下:
步骤301、以Twitter文本数据提取选民的情感特征;
拿到文本数据后,首先进行文本情感分类,然后对情感比例进行变换,最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,得到最终的情感数据作为情感特征;
具体而言,首先将Twitter文本数据输入基于BERT的情感分类模型(BERTSC,Bidirectional Encoder Representations from Transformers-based SentimentClassification),对文本进行情感分类,只考虑选民对每位候选人的积极情感,以此情感比例作为情感特征;
然后对情感比例进行变换,保证选民仅会对某一候选人有积极情感(以此作为对候选人的支持率),即不存在一人对多个候选人有支持率,以及一个人对所有候选人都无支持率的情感;
具体而言,分别对多位候选人做情感分类时,候选人间的情感比例相互独立,为简单说明情感变化情况这里仅以两位候选人(候选人T与候选人B)进行举例。如仅考虑某一个州单日的推文,假设关于候选人T的总条数为TN条,通过BERTSC模型可得其积极情感比例为TPos,关于候选人B的总条数为BN条,类似的可得其积极情感比例为BPos,从两位候选人相关推文中各选N条数据,分别计算二者积极情感条数并将其融合构成一个新集合,即可得到互斥的情感数据。计算方式如下:
N=min(TN*TPos,BN*BPos)
tPos=N*TPos
bPos=B*bPos
TSupport=tPos/(tPos+bPos)
BSupport=bPos/(tPos+bPos)
其中tPos为新集合中候选人T的积极情感条数,bPos为对应的候选人B积极情感条数,TSupport为选民对候选人T的情感支持度,BSupport为候选人B的情感支持度;
最后根据各州所拥有的实际选票(数量)权对情感比例进行微调,作为最终的情感特征;
步骤302、经济特征提取;
抓取所预测国家每日货币汇率的变化率作为经济因素,使用最邻近差值算法进行数据补齐;
步骤303、疫情特征提取;
抓取所预测国家每日死亡人数,新增确诊人数,治愈人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和;
步骤四:将步骤三得到的三类特征进行相关性分析,从而进行数据融合;
通过皮尔逊相关性计算求得经济和疫情特征对候选人的支持度的相关系数,分别在疫情和经济层面,将候选人T和候选人B的相关性进行归一化处理,计算求得民众对候选人T与候选人B两位候选人的情感与经济因素的相关系数分别为α1:β1,与疫情因素的相关系数为α2:β2,其中情感特征系数设置为1,通过相关系数将三类特征进行融合,计算公式如下:
f(T)=E(T)+α1Eco(T)-β1Covid19(T)
f(B)=E(B)+α2Eco(B)-β2Covid19(B)
其中f(x)代表融合后的特征值,E(x)代表情感特征,Eco(x)代表经济特征,Convid19(x)代表疫情特征,T代表候选人T,B代表候选人B。
步骤五:将步骤三得到的融合数据对双向长短期记忆模型进行训练,从而确定最佳训练周期(天数),然后训练好的时序分析模型进行选举预测;
501、时序分析模型训练;
在模型训练过程中,尝试以前t日数据信息预测t+1日数据,为了确定训练周期的最佳天数,即确定t的值,对模型进行训练,即:
以第1日到第t日的数据作为训练数据来预测第t+1日的信息,从而将其与已知的第t+1日的数据进行损失函数计算,从而验证模型的有效性。接着分别以[t+1,t+2,…,t+n]天数据分别作为训练集,然后将后一天数据作为测试集,从而确定训练周期为几天时,模型效果最好;
502、选举预测;
通过501得到的最佳训练周期(天数),借助优化后的时序模型对数据进行预测。
2.如权利要求1所述的一种多源数据融合与时序分析驱动的选举预测方法,其特征在于,步骤一所述的抓取数据的步骤具体为:
首先,在Twitter等社交网络平台上进行数据抓取;在数据抓取阶段根据Twitter官方提供的API进行抓取(以Twitter为例),通过关键字和标签可以抓取对应候选人的相关文本和评论。在脚本编译过程中,分别以候选人及相关党派关键字进行抓取,同时对候选人本人所发表言论的评论进行抓取,提取信息主要为发布用户的ID、发布时间、发布地点、发布文本(包含评论文本)、用户年龄及用户出生地等信息;
然后,从互联网抓取每日美元汇率的信息(候选人所在国家的货币变化,以美国为例),通过计算求得美元汇率的日变化率作为经济特征;
最后,从互联网分别抓取美国(候选人所在国家显示的疫情数据,以美国为例)每日死亡人数,新增确诊人数,治愈人数,死亡人数及检测人数,对筛选出的特征进行归一化处理,求得每日所有特征的总和。
CN202011238961.8A 2020-11-09 2020-11-09 一种多源数据融合与时序分析驱动的选举预测方法 Pending CN112348257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011238961.8A CN112348257A (zh) 2020-11-09 2020-11-09 一种多源数据融合与时序分析驱动的选举预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011238961.8A CN112348257A (zh) 2020-11-09 2020-11-09 一种多源数据融合与时序分析驱动的选举预测方法

Publications (1)

Publication Number Publication Date
CN112348257A true CN112348257A (zh) 2021-02-09

Family

ID=74428702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011238961.8A Pending CN112348257A (zh) 2020-11-09 2020-11-09 一种多源数据融合与时序分析驱动的选举预测方法

Country Status (1)

Country Link
CN (1) CN112348257A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052383A (zh) * 2021-03-29 2021-06-29 上海酷量信息技术有限公司 一种基于机器学习的收入预测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227766A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种大数据驱动的选举舆情预测方法
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108399241A (zh) * 2018-02-28 2018-08-14 福州大学 一种基于多类特征融合的新兴热点话题检测系统
CN109241430A (zh) * 2018-09-06 2019-01-18 国家计算机网络与信息安全管理中心 一种互联网多源异质数据融合的选举预测方法
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN110321407A (zh) * 2019-05-28 2019-10-11 湖南蚁坊软件股份有限公司 一种选举结果预测方法、装置和计算机存储介质
CN111860897A (zh) * 2020-08-05 2020-10-30 青岛特来电新能源科技有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106227766A (zh) * 2016-07-15 2016-12-14 国家计算机网络与信息安全管理中心 一种大数据驱动的选举舆情预测方法
CN107609009A (zh) * 2017-07-26 2018-01-19 北京大学深圳研究院 文本情感分析方法、装置、存储介质和计算机设备
CN108399241A (zh) * 2018-02-28 2018-08-14 福州大学 一种基于多类特征融合的新兴热点话题检测系统
CN109325112A (zh) * 2018-06-27 2019-02-12 北京大学 一种基于emoji的跨语言情感分析方法和装置
CN109241430A (zh) * 2018-09-06 2019-01-18 国家计算机网络与信息安全管理中心 一种互联网多源异质数据融合的选举预测方法
CN110321407A (zh) * 2019-05-28 2019-10-11 湖南蚁坊软件股份有限公司 一种选举结果预测方法、装置和计算机存储介质
CN111860897A (zh) * 2020-08-05 2020-10-30 青岛特来电新能源科技有限公司 一种异常检测方法、装置、设备及计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚妮 等: ""基于BERT和BiGRU的在线评了文本情感分类研究"", 《轻工学报》 *
马力 等: ""基于双向预训练语言模型的文本情感分类"", 《西安邮电大学学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052383A (zh) * 2021-03-29 2021-06-29 上海酷量信息技术有限公司 一种基于机器学习的收入预测方法及装置

Similar Documents

Publication Publication Date Title
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN110674840B (zh) 一种多方证据关联模型构建方法和证据链提取方法及装置
Boukabous et al. Crime prediction using a hybrid sentiment analysis approach based on the bidirectional encoder representations from transformers
CN110675023B (zh) 一种基于神经网络的诉讼请求合理性预测模型训练方法和预测方法及装置
Cai et al. Intelligent question answering in restricted domains using deep learning and question pair matching
CN110991694A (zh) 一种基于深度学习的量刑预测方法
US20220036011A1 (en) Systems and Methods for Explainable Fake News Detection
CN113807103B (zh) 基于人工智能的招聘方法、装置、设备及存储介质
CN109947934A (zh) 针对短文本的数据挖掘方法及系统
CN107402859A (zh) 软件功能验证系统及其验证方法
CN115017887A (zh) 基于图卷积的中文谣言检测方法
CN115565038A (zh) 内容审核、内容审核模型的训练方法及相关装置
Zheng et al. Stock volatility prediction based on self-attention networks with social information
CN115204886A (zh) 账户识别的方法、装置、电子设备和存储介质
CN113449508B (zh) 一种基于事件链的网络舆情关联推演预测分析方法
Kang et al. Utilization strategy of user engagements in korean fake news detection
Wang et al. Prediction of the 2017 French election based on twitter data analysis using term weighting
CN112348257A (zh) 一种多源数据融合与时序分析驱动的选举预测方法
WO2024087754A1 (zh) 一种多维度文本综合辨识方法
CN115600602B (zh) 一种长文本的关键要素抽取方法、系统及终端设备
Yanti et al. Application of named entity recognition via Twitter on SpaCy in Indonesian (case study: Power failure in the Special Region of Yogyakarta)
CN111241288A (zh) 一种大集中电力客户服务中心的突发事件感知系统以及构建方法
Hajare et al. A machine learning pipeline to examine political bias with congressional speeches
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN113762589A (zh) 一种输变电工程变更预测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210209

WD01 Invention patent application deemed withdrawn after publication