CN112183881A - 一种基于社交网络的舆情事件预测方法、设备及存储介质 - Google Patents

一种基于社交网络的舆情事件预测方法、设备及存储介质 Download PDF

Info

Publication number
CN112183881A
CN112183881A CN202011118346.3A CN202011118346A CN112183881A CN 112183881 A CN112183881 A CN 112183881A CN 202011118346 A CN202011118346 A CN 202011118346A CN 112183881 A CN112183881 A CN 112183881A
Authority
CN
China
Prior art keywords
day
graph
keywords
matrix
graph convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011118346.3A
Other languages
English (en)
Inventor
蒋沂桔
贾焰
周斌
高立群
陈晨光
王雪
李爱平
江荣
涂宏魁
王晔
喻承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202011118346.3A priority Critical patent/CN112183881A/zh
Publication of CN112183881A publication Critical patent/CN112183881A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于社交网络的舆情事件预测方法、设备及存储介质,其可以有效地提高舆情事件预测的精度,方法包括以下步骤:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并提取出用户间的传播关系;将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;构建每天的关键词的语义关联信息图和传播关系图;基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时输入在前数据,直至计算得到前一天的关键词的特征向量;进行非线性变换,输出舆情事件的预测结果。

Description

一种基于社交网络的舆情事件预测方法、设备及存储介质
技术领域
本发明涉及舆情分析、数据挖掘和深度学习技术领域,具体涉及一种基于社交网络的舆情事件预测方法、设备及存储介质。
背景技术
随着计算机的普及运用以及信息技术的深入发展,微博、论坛、贴吧、博客等社交媒体和新闻网站已经成为信息传播的重要战场。网民们每天接收着来着虚拟世界和现实世界的各种信息,并在社交网络上畅所欲言地发表自己对社会事件的观点和意见。当虚拟世界中爆发某网络事件或现实世界中爆发某社会事件时,可能会引起网民们的广泛关注与讨论,届时它将演化成为舆情事件,对社会的公共安全造成重大的影响。同时,舆情信息工作需要采集的数据量十分庞大,信息的传播呈现出一种“蜂窝状”的发散性结构,致使舆情的分析和预测难度加大,而且舆情事件的爆发时间具有不稳定的状态,这些问题使得舆情的应对工作面临巨大的挑战。因此,研究一种新型有效的舆情事件的分析与预测方法不仅能帮助政府及时把握舆情发展规律、有效开展舆情的管控工作,还能更好的维护社会的稳定和长期发展。
传统的事件预测方法主要使用的是回归模型、贝叶斯网络、灰色预测模型等,这些方法预测的精度不高,并且具有一定的局限性,即只考虑了舆情事件在单个或两个维度上的特征,因为舆情事件在用户、内容(语义)、时间、空间(结构)等多个维度上都具有一定的规律性。为了利用舆情事件的更多特征,基于深度学习的事件预测方法逐渐兴起,比如早期的BP神经网络、多实例学习(Multi-Instance Learning,MIL)、循环神经网络(RecurrentNeural Network,RNN)等,这些深度学习方法相比传统方法具有更高的预测精度,但是结果依旧不太理想。
发明内容
针对上述问题,本发明提供了一种基于社交网络的舆情事件预测方法、设备及存储介质,其可以有效地提高舆情事件预测的精度。
其技术方案是这样的:一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:
步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
进一步的,在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据;
步骤102:对采集的社交网络数据进行数据清洗;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,传播关系包括用户之间的转发关系、评论关系、回复关系;
进一步的,在步骤2中,对清洗后的社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0
进一步的,在步骤2中,在对清洗后的社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
进一步的,在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
Figure BDA0002731098050000031
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
Figure BDA0002731098050000032
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,传播关系矩阵At的计算公式为:
Figure BDA0002731098050000033
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn
进一步的,在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量;
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
进一步的,在步骤402中,将事件发生前第t天的关键词的语义关联信息矩阵Pt和关键词的传播关系矩阵At分别进行对称归一化处理得到
Figure BDA0002731098050000041
Figure BDA0002731098050000042
对称归一化处理的公式为:
Figure BDA0002731098050000043
其中,
Figure BDA0002731098050000044
表示对输入矩阵X进行对称归一化处理后的矩阵,
Figure BDA0002731098050000045
表示输入矩阵X与单位矩阵的和矩阵,
Figure BDA0002731098050000051
表示度矩阵,是一个对角矩阵,
Figure BDA0002731098050000052
Figure BDA0002731098050000053
的计算公式分别为:
Figure BDA0002731098050000054
Figure BDA0002731098050000055
其中,X表示输入的矩阵,具体是语义关联信息矩阵Pt和传播关系矩阵At,IN表示N×N的单位矩阵,
Figure BDA0002731098050000056
表示度矩阵对角线上的元素,
Figure BDA0002731098050000057
表示节点i和节点j之间的边权重值;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵
Figure BDA0002731098050000058
和传播关系矩阵
Figure BDA0002731098050000059
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
Figure BDA00027310980500000510
其中,Hxt表示
Figure BDA00027310980500000511
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,H0为关键词的初始的语义特征向量,t=1。
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure BDA00027310980500000512
Figure BDA00027310980500000513
Figure BDA00027310980500000514
其中,
Figure BDA00027310980500000515
Figure BDA00027310980500000516
为进行线性变换的权重矩阵,
Figure BDA00027310980500000517
Figure BDA00027310980500000518
为进行线性变换的偏置项,
Figure BDA00027310980500000519
Figure BDA00027310980500000520
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure BDA0002731098050000061
为时间编码嵌入后的特征向量,t=1;
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵
Figure BDA0002731098050000062
和传播关系矩阵
Figure BDA0002731098050000063
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
Figure BDA0002731098050000064
其中,Hxt表示
Figure BDA0002731098050000065
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,
Figure BDA0002731098050000066
表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure BDA0002731098050000067
Figure BDA0002731098050000068
Figure BDA0002731098050000069
其中,
Figure BDA00027310980500000610
Figure BDA00027310980500000611
为进行线性变换的权重矩阵,
Figure BDA00027310980500000612
Figure BDA00027310980500000613
为进行线性变换的偏置项,
Figure BDA00027310980500000614
Figure BDA00027310980500000615
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure BDA00027310980500000616
为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量,
Figure BDA00027310980500000617
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
进一步的,在步骤5中,将得到的第M天的聚合后的特征向量的特征维度设置为1,获得所有关键词的标量特征表示HT,其维度为N×1,经过非线性变换将输出结果转换为一维,获得舆情事件预测的结果,非线性变换的公式为:
Figure BDA0002731098050000071
其中,
Figure BDA0002731098050000072
是HM的转置行向量,wT是可学习的权重矩阵,b是可学习的偏置项,σ是非线性变换的激活函数,
Figure BDA0002731098050000073
是舆情事件的预测结果,非线性变换的输出为1表示舆情事件发生,非线性变换的输出为0则表示舆情事件未发生。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述基于社交网络的舆情事件预测方法的步骤。
一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的一种基于社交网络的舆情事件预测方法。
本发明具有的有益效果是:
1.本发明从社交网络数据中提取出了若干天的事件关键词,通过图卷积网络技术学习关键词之间潜在的语义相关性,与早期的BP神经网络、多实例学习(Multi-InstanceLearning,MIL)、循环神经网络(Recurrent Neural Network,RNN)相比,能够揭示出舆情事件发展的潜在脉络结构,能够表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果,能够为舆情事件的预测结果提供更好地解释。
2.本发明从社交网络数据中提取出的若干天的事件关键词,包含了事件发生前若干天的语境、语意,从中提取关键词,可以涵盖社交网络数据中的摘要以及大意,能够为舆情事件的预测结果提供很好的数据支持。
3.本发明结合社交网络中的事件上下文和用户传播关系,基于每个时间窗口的关键词构建语义关联信息图和传播关系图,充分利用了舆情事件在用户、内容(语义)、时间、空间这四个维度上的特征,使得双重图卷积网络模型提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度,语义关联信息图和传播关系图是基于关键词构建的,由此得到的同构的语义关联信息图和传播关系图,相对于异构的语义关联信息图和传播关系图,能够更好的表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果。
4.本发明的双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量,并通过非线性变换获得舆情时间的预测结果,从而更好的获得舆情事件随着时间变化产生的发展,精确刻画了事件随着时间的变化趋势,充分利用了舆情事件在时间维度上的特征,使得提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度;双重图卷积网络模型的图卷积层包含两个图卷积网络,对语义关联信息图和传播关系图进行同时提取特征,这就增强了特征的鲁棒性,进一步提高舆情事件的预测精度。
5.本发明通过挖掘用户间的传播关系,将用户间的传播关系转换为关键词的传播关系,可以表达促使舆情事件发生的用户的特征,利用了舆情事件在用户这个维度上的特征,提高舆情事件的特征质量,随着所选取的特征数量的增多,能够帮助使用者更为准确地识别发展中的舆情事件,以便能够及时采用相关的应对策略,有效干预和控制舆情事件的发展状况及走势。
6.本发明全面的采集了各种各样的社交网络数据,全面的关注了舆情事件发展过程中可能涉及到的各个社交网络场景,使得对舆情事件的预测准确性进一步提高。
7.本发明可以用于社交网络舆情分析、数据挖掘等领域的预测功能,能够帮助政府等相关部门及时把握舆情发展规律,有效开展舆情的管控工作,从而维护社会的和谐与稳定。
附图说明
图1为本发明的基于社交网络的舆情事件预测方法的步骤示意图;
图2为本发明的基于社交网络的舆情事件预测方法中步骤4的主要流程图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
目前,在社交网络数据上,现有的图卷积网络方法都没有考虑结合舆情事件在用户、内容、时间和空间这四个维度上的特征进行舆情事件的预测,为此,本发明旨在提供一种基于社交网络的事件的语境和用户传播关系的舆情事件预测方法以解决目前存在的问题。
本发明的一种基于社交网络的舆情事件预测方法,至少包括以下步骤:
见图1,步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
具体在本实施例中,在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据,在本实施例中,可以是包括微博数据、推特数据、邮件数据、新闻数据的互联网公开数据;
步骤102:对采集的社交网络数据进行,在本实施例中,进行的数据清洗包括去重复、去除异常值、去停用词;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数,在本实施例中,关键词提取方法采用TF-IDF方法进行,M可以取值3~7天;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,在本实施例中,选择的传播关系包括用户之间的转发关系、评论关系、回复关系。
在本实施中,在步骤2中,对清洗后的社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0
具体在一个实施例中,在步骤2中,在对清洗后的社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
进一步的,在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词,N的取值可以取500、1000、2000等,具体是根据每天的词总数来调整的;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;本实施中,以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
Figure BDA0002731098050000101
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
Figure BDA0002731098050000102
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,单个用户的多个关键词之间没有传播关系的,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,比如用户A发布了文本TA,用户B发表了对文本TA的评论文本TB,那么认为TA中的每个单词wA与TB中的每个单词wB有传播关系(wA≠wB),传播关系矩阵At的计算公式为:
Figure BDA0002731098050000103
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn
见图2,在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以前M天中的最早一天为第1天,此处以M取5进行进一步说明,此时取前5天的社交网络数据,设定今天为10月13日,前5天从最早的一天开始分别是10月的8、9、10、11、12日,分别将8、9、10、11、12日记为第1、2、3、4、5天;
分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中动态双重图卷积网络模型基于图卷积网络(GCN)构建,包括图卷积层和时间编码层,图卷积层中有两个图卷积网络;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中t≤M-1,t>1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量。
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
在本发明的一个实施例中,还结合公式对步骤4进行进一步详细的说明:
在步骤402中,将事件发生前第t天的关键词的语义关联信息矩阵Pt和关键词的传播关系矩阵At分别进行对称归一化处理得到
Figure BDA0002731098050000121
Figure BDA0002731098050000122
对称归一化处理的公式为:
Figure BDA0002731098050000123
其中,
Figure BDA0002731098050000124
表示对输入矩阵X进行对称归一化处理后的矩阵,
Figure BDA0002731098050000125
表示输入矩阵X与单位矩阵的和矩阵,
Figure BDA0002731098050000126
表示度矩阵,是一个对角矩阵,
Figure BDA0002731098050000127
Figure BDA0002731098050000128
的计算公式分别为:
Figure BDA0002731098050000129
Figure BDA00027310980500001210
其中,X表示输入的矩阵,具体是语义关联信息矩阵Pt和传播关系矩阵At,IN表示N×N的单位矩阵,
Figure BDA00027310980500001211
表示度矩阵对角线上的元素,
Figure BDA00027310980500001212
表示节点i和节点j之间的边权重值;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵
Figure BDA00027310980500001213
和传播关系矩阵
Figure BDA00027310980500001214
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
Figure BDA00027310980500001215
其中,Hxt表示
Figure BDA00027310980500001216
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,H0为关键词的初始的语义特征向量,本步骤中t=1;
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,本步骤中t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure BDA0002731098050000131
Figure BDA0002731098050000132
Figure BDA0002731098050000133
其中,
Figure BDA0002731098050000134
Figure BDA0002731098050000135
为进行线性变换的权重矩阵,
Figure BDA0002731098050000136
Figure BDA0002731098050000137
为进行线性变换的偏置项,
Figure BDA0002731098050000138
Figure BDA0002731098050000139
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure BDA00027310980500001310
为时间编码嵌入后的特征向量,本步骤中t=1;
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵
Figure BDA00027310980500001311
和传播关系矩阵
Figure BDA00027310980500001312
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
Figure BDA00027310980500001313
其中,Hxt表示
Figure BDA00027310980500001314
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,
Figure BDA00027310980500001315
表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure BDA0002731098050000141
Figure BDA0002731098050000142
Figure BDA0002731098050000143
其中,
Figure BDA0002731098050000144
Figure BDA0002731098050000145
为进行线性变换的权重矩阵,
Figure BDA0002731098050000146
Figure BDA0002731098050000147
为进行线性变换的偏置项,
Figure BDA0002731098050000148
Figure BDA0002731098050000149
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure BDA00027310980500001410
为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量,
Figure BDA00027310980500001411
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
在本发明的一个实施例中,在步骤5中,将得到的第M天的聚合后的特征向量的特征维度设置为1,获得所有关键词的标量特征表示HT,其维度为N×1,经过非线性变换将输出结果转换为一维,获得舆情事件预测的结果,非线性变换的公式为:
Figure BDA00027310980500001412
其中,
Figure BDA00027310980500001413
是HM的转置行向量,wT是可学习的权重矩阵,b是可学习的偏置项,σ是非线性变换的激活函数,
Figure BDA00027310980500001414
是舆情事件的预测结果,非线性变换的输出为1表示舆情事件发生,非线性变换的输出为0则表示舆情事件未发生。
本发明从舆情事件的社交网络数据中提取出了若干天的事件关键词,通过图卷积网络技术学习关键词之间潜在的语义相关性,能够揭示出舆情事件发展的潜在脉络结构,能够表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果,能够为舆情事件的预测结果提供更好地解释;
同时结合社交网络中的事件上下文和用户传播关系,基于每个时间窗口的关键词构建语义关联信息图和传播关系图,充分利用了舆情事件在用户、内容(语义)、时间、空间这四个维度上的特征,使得提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度。
与此同时,本发明的双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量,并通过非线性变换获得舆情时间的预测结果,从而更好的获得舆情事件随着时间变化产生的发展,充分利用了舆情事件在时间维度上的特征,使得双重图卷积网络模型提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度。
另外,本发明通过挖掘用户间的传播关系,将用户间的传播关系转换为关键词的传播关系,可以表达促使舆情事件发生的用户的特征,利用了舆情事件在用户这个维度上的特征,提高舆情事件的特征质量。
此外,本发明全面的采集了各种各样的社交网络数据,全面的关注了舆情事件发展过程中可能涉及到的各个社交网络场景,使得对舆情事件的预测准确性进一步提高。
本发明可以用于社交网络舆情分析、数据挖掘等领域的预测功能,能够帮助政府等相关部门及时把握舆情发展规律,有效开展舆情的管控工作,从而维护社会的和谐与稳定。
在本发明的实施例中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于社交网络的舆情事件预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的一种基于社交网络的舆情事件预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机设备、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机设备、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在基于社交网络的舆情事件预测方法、计算机设备、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:
步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
2.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据;
步骤102:对采集的社交网络数据进行数据清洗;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,传播关系包括用户之间的转发关系、评论关系、回复关系。
3.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,对社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0
4.根据权利要求2所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,在对社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
5.根据权利要求3所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
Figure FDA0002731098040000021
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
Figure FDA0002731098040000022
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,传播关系矩阵At的计算公式为:
Figure FDA0002731098040000023
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn
6.根据权利要求5所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量;
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
7.根据权利要求6所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤402中,将事件发生前第t天的关键词的语义关联信息矩阵Pt和关键词的传播关系矩阵At分别进行对称归一化处理得到
Figure FDA0002731098040000045
Figure FDA0002731098040000046
对称归一化处理的公式为:
Figure FDA0002731098040000041
其中,
Figure FDA0002731098040000047
表示对输入矩阵X进行对称归一化处理后的矩阵,
Figure FDA0002731098040000048
表示输入矩阵X与单位矩阵的和矩阵,
Figure FDA0002731098040000049
表示度矩阵,是一个对角矩阵,
Figure FDA00027310980400000410
Figure FDA00027310980400000411
的计算公式分别为:
Figure FDA0002731098040000042
Figure FDA0002731098040000043
其中,X表示输入的矩阵,具体是语义关联信息矩阵Pt和传播关系矩阵At,IN表示N×N的单位矩阵,
Figure FDA00027310980400000412
表示度矩阵对角线上的元素,
Figure FDA00027310980400000413
表示节点i和节点j之间的边权重值;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵
Figure FDA00027310980400000414
和传播关系矩阵
Figure FDA00027310980400000415
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
Figure FDA0002731098040000044
其中,Hxt表示
Figure FDA00027310980400000416
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,H0为关键词的初始的语义特征向量,t=1;
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure FDA0002731098040000051
Figure FDA0002731098040000052
Figure FDA0002731098040000053
其中,
Figure FDA0002731098040000057
Figure FDA0002731098040000058
为进行线性变换的权重矩阵,
Figure FDA0002731098040000059
Figure FDA00027310980400000510
为进行线性变换的偏置项,
Figure FDA00027310980400000511
Figure FDA00027310980400000512
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure FDA00027310980400000513
为时间编码嵌入后的特征向量,t=1;
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵
Figure FDA00027310980400000514
和传播关系矩阵
Figure FDA00027310980400000515
输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
Figure FDA0002731098040000054
其中,Hxt表示
Figure FDA00027310980400000516
传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,
Figure FDA00027310980400000517
表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
Figure FDA0002731098040000055
Figure FDA0002731098040000056
Figure FDA0002731098040000061
其中,
Figure FDA0002731098040000063
Figure FDA0002731098040000064
为进行线性变换的权重矩阵,
Figure FDA0002731098040000065
Figure FDA0002731098040000066
为进行线性变换的偏置项,
Figure FDA0002731098040000067
Figure FDA0002731098040000068
分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,
Figure FDA0002731098040000069
为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量,
Figure FDA00027310980400000610
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
8.根据权利要求7所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤5中,将得到的第M天的聚合后的特征向量的特征维度设置为1,获得所有关键词的标量特征表示HT,其维度为N×1,经过非线性变换将输出结果转换为一维,获得舆情事件预测的结果,非线性变换的公式为:
Figure FDA0002731098040000062
其中,
Figure FDA00027310980400000611
是HM的转置行向量,wT是可学习的权重矩阵,b是可学习的偏置项,σ是非线性变换的激活函数,
Figure FDA00027310980400000612
是舆情事件的预测结果,非线性变换的输出为1表示舆情事件发生,非线性变换的输出为0则表示舆情事件未发生。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1所述的基于社交网络的舆情事件预测方法的步骤。
10.一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如权利要求1所述的一种基于社交网络的舆情事件预测方法。
CN202011118346.3A 2020-10-19 2020-10-19 一种基于社交网络的舆情事件预测方法、设备及存储介质 Pending CN112183881A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011118346.3A CN112183881A (zh) 2020-10-19 2020-10-19 一种基于社交网络的舆情事件预测方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011118346.3A CN112183881A (zh) 2020-10-19 2020-10-19 一种基于社交网络的舆情事件预测方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112183881A true CN112183881A (zh) 2021-01-05

Family

ID=73951001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011118346.3A Pending CN112183881A (zh) 2020-10-19 2020-10-19 一种基于社交网络的舆情事件预测方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112183881A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948825A (zh) * 2021-04-15 2021-06-11 中国人民解放军国防科技大学 社交网络中网络信息发生病毒性传播的预测方法、装置
CN113283589A (zh) * 2021-06-07 2021-08-20 支付宝(杭州)信息技术有限公司 事件预测系统的更新方法及装置
CN113379447A (zh) * 2021-05-28 2021-09-10 西安影视数据评估中心有限公司 一种电视剧单日收视率的预测方法
CN113806534A (zh) * 2021-09-03 2021-12-17 电子科技大学 一种面向社交网络的热点事件预测方法
CN116821374A (zh) * 2023-07-27 2023-09-29 中国人民解放军陆军工程大学 一种基于情报的事件预测方法
CN117789253A (zh) * 2024-02-23 2024-03-29 东北大学 一种基于双网络的视频行人重识别方法
CN113379447B (zh) * 2021-05-28 2024-05-31 西安影视数据评估中心有限公司 一种电视剧单日收视率的预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN111221964A (zh) * 2019-12-25 2020-06-02 西安交通大学 一种不同分面观点演化趋势引导的文本生成方法
CN111581983A (zh) * 2020-05-13 2020-08-25 中国人民解放军国防科技大学 基于群体分析的网络舆论事件中社会关注热点的预测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232109A (zh) * 2019-05-17 2019-09-13 深圳市兴海物联科技有限公司 一种网络舆情分析方法以及系统
CN111221964A (zh) * 2019-12-25 2020-06-02 西安交通大学 一种不同分面观点演化趋势引导的文本生成方法
CN111581983A (zh) * 2020-05-13 2020-08-25 中国人民解放军国防科技大学 基于群体分析的网络舆论事件中社会关注热点的预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAIYANG WANG ET AL: ""Contextual Gated Graph Convolutional Networks for Social Unrest Events Prediction"", IEEEXPLORE, pages 3 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948825A (zh) * 2021-04-15 2021-06-11 中国人民解放军国防科技大学 社交网络中网络信息发生病毒性传播的预测方法、装置
CN113379447A (zh) * 2021-05-28 2021-09-10 西安影视数据评估中心有限公司 一种电视剧单日收视率的预测方法
CN113379447B (zh) * 2021-05-28 2024-05-31 西安影视数据评估中心有限公司 一种电视剧单日收视率的预测方法
CN113283589A (zh) * 2021-06-07 2021-08-20 支付宝(杭州)信息技术有限公司 事件预测系统的更新方法及装置
CN113806534A (zh) * 2021-09-03 2021-12-17 电子科技大学 一种面向社交网络的热点事件预测方法
CN113806534B (zh) * 2021-09-03 2023-04-18 电子科技大学 一种面向社交网络的热点事件预测方法
CN116821374A (zh) * 2023-07-27 2023-09-29 中国人民解放军陆军工程大学 一种基于情报的事件预测方法
CN117789253A (zh) * 2024-02-23 2024-03-29 东北大学 一种基于双网络的视频行人重识别方法
CN117789253B (zh) * 2024-02-23 2024-05-03 东北大学 一种基于双网络的视频行人重识别方法

Similar Documents

Publication Publication Date Title
Minh et al. Deep learning approach for short-term stock trends prediction based on two-stream gated recurrent unit network
Yu et al. Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts
US11436414B2 (en) Device and text representation method applied to sentence embedding
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
EP2866421B1 (en) Method and apparatus for identifying a same user in multiple social networks
CN111581983A (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
Häggström Data‐driven confounder selection via Markov and Bayesian networks
TW201822098A (zh) 用於預測商品的市場需求的計算機裝置與方法
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
CN113535984A (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
Wang et al. Trust-aware collaborative filtering with a denoising autoencoder
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
US20230096118A1 (en) Smart dataset collection system
CN113536144A (zh) 一种社交网络信息的传播规模预测方法、装置
Anderson-Bergman An efficient implementation of the EMICM algorithm for the interval censored NPMLE
Zhang et al. A time-aware self-attention based neural network model for sequential recommendation
Wang et al. Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
Vo GOWSeqStream: an integrated sequential embedding and graph-of-words for short text stream clustering
Denli et al. Geoscience language processing for exploration
Rajasekaran et al. Sentiment analysis of restaurant reviews
CN111562943B (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质
Trinh et al. Nested variational autoencoder for topic modelling on microtexts with word vectors

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination