CN112183881A - 一种基于社交网络的舆情事件预测方法、设备及存储介质 - Google Patents
一种基于社交网络的舆情事件预测方法、设备及存储介质 Download PDFInfo
- Publication number
- CN112183881A CN112183881A CN202011118346.3A CN202011118346A CN112183881A CN 112183881 A CN112183881 A CN 112183881A CN 202011118346 A CN202011118346 A CN 202011118346A CN 112183881 A CN112183881 A CN 112183881A
- Authority
- CN
- China
- Prior art keywords
- day
- graph
- keywords
- matrix
- graph convolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims abstract description 166
- 230000009466 transformation Effects 0.000 claims abstract description 44
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims description 96
- 238000012549 training Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 23
- 230000004913 activation Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 14
- 230000004931 aggregating effect Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 230000003203 everyday effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 230000009977 dual effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000002354 daily effect Effects 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000010485 coping Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社交网络的舆情事件预测方法、设备及存储介质,其可以有效地提高舆情事件预测的精度,方法包括以下步骤:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并提取出用户间的传播关系;将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;构建每天的关键词的语义关联信息图和传播关系图;基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时输入在前数据,直至计算得到前一天的关键词的特征向量;进行非线性变换,输出舆情事件的预测结果。
Description
技术领域
本发明涉及舆情分析、数据挖掘和深度学习技术领域,具体涉及一种基于社交网络的舆情事件预测方法、设备及存储介质。
背景技术
随着计算机的普及运用以及信息技术的深入发展,微博、论坛、贴吧、博客等社交媒体和新闻网站已经成为信息传播的重要战场。网民们每天接收着来着虚拟世界和现实世界的各种信息,并在社交网络上畅所欲言地发表自己对社会事件的观点和意见。当虚拟世界中爆发某网络事件或现实世界中爆发某社会事件时,可能会引起网民们的广泛关注与讨论,届时它将演化成为舆情事件,对社会的公共安全造成重大的影响。同时,舆情信息工作需要采集的数据量十分庞大,信息的传播呈现出一种“蜂窝状”的发散性结构,致使舆情的分析和预测难度加大,而且舆情事件的爆发时间具有不稳定的状态,这些问题使得舆情的应对工作面临巨大的挑战。因此,研究一种新型有效的舆情事件的分析与预测方法不仅能帮助政府及时把握舆情发展规律、有效开展舆情的管控工作,还能更好的维护社会的稳定和长期发展。
传统的事件预测方法主要使用的是回归模型、贝叶斯网络、灰色预测模型等,这些方法预测的精度不高,并且具有一定的局限性,即只考虑了舆情事件在单个或两个维度上的特征,因为舆情事件在用户、内容(语义)、时间、空间(结构)等多个维度上都具有一定的规律性。为了利用舆情事件的更多特征,基于深度学习的事件预测方法逐渐兴起,比如早期的BP神经网络、多实例学习(Multi-Instance Learning,MIL)、循环神经网络(RecurrentNeural Network,RNN)等,这些深度学习方法相比传统方法具有更高的预测精度,但是结果依旧不太理想。
发明内容
针对上述问题,本发明提供了一种基于社交网络的舆情事件预测方法、设备及存储介质,其可以有效地提高舆情事件预测的精度。
其技术方案是这样的:一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:
步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
进一步的,在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据;
步骤102:对采集的社交网络数据进行数据清洗;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,传播关系包括用户之间的转发关系、评论关系、回复关系;
进一步的,在步骤2中,对清洗后的社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0。
进一步的,在步骤2中,在对清洗后的社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
进一步的,在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,传播关系矩阵At的计算公式为:
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn。
进一步的,在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量;
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
其中,Hxt表示传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
其中,和为进行线性变换的权重矩阵,和为进行线性变换的偏置项,和分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
进一步的,在步骤5中,将得到的第M天的聚合后的特征向量的特征维度设置为1,获得所有关键词的标量特征表示HT,其维度为N×1,经过非线性变换将输出结果转换为一维,获得舆情事件预测的结果,非线性变换的公式为:
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述基于社交网络的舆情事件预测方法的步骤。
一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的一种基于社交网络的舆情事件预测方法。
本发明具有的有益效果是:
1.本发明从社交网络数据中提取出了若干天的事件关键词,通过图卷积网络技术学习关键词之间潜在的语义相关性,与早期的BP神经网络、多实例学习(Multi-InstanceLearning,MIL)、循环神经网络(Recurrent Neural Network,RNN)相比,能够揭示出舆情事件发展的潜在脉络结构,能够表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果,能够为舆情事件的预测结果提供更好地解释。
2.本发明从社交网络数据中提取出的若干天的事件关键词,包含了事件发生前若干天的语境、语意,从中提取关键词,可以涵盖社交网络数据中的摘要以及大意,能够为舆情事件的预测结果提供很好的数据支持。
3.本发明结合社交网络中的事件上下文和用户传播关系,基于每个时间窗口的关键词构建语义关联信息图和传播关系图,充分利用了舆情事件在用户、内容(语义)、时间、空间这四个维度上的特征,使得双重图卷积网络模型提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度,语义关联信息图和传播关系图是基于关键词构建的,由此得到的同构的语义关联信息图和传播关系图,相对于异构的语义关联信息图和传播关系图,能够更好的表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果。
4.本发明的双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量,并通过非线性变换获得舆情时间的预测结果,从而更好的获得舆情事件随着时间变化产生的发展,精确刻画了事件随着时间的变化趋势,充分利用了舆情事件在时间维度上的特征,使得提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度;双重图卷积网络模型的图卷积层包含两个图卷积网络,对语义关联信息图和传播关系图进行同时提取特征,这就增强了特征的鲁棒性,进一步提高舆情事件的预测精度。
5.本发明通过挖掘用户间的传播关系,将用户间的传播关系转换为关键词的传播关系,可以表达促使舆情事件发生的用户的特征,利用了舆情事件在用户这个维度上的特征,提高舆情事件的特征质量,随着所选取的特征数量的增多,能够帮助使用者更为准确地识别发展中的舆情事件,以便能够及时采用相关的应对策略,有效干预和控制舆情事件的发展状况及走势。
6.本发明全面的采集了各种各样的社交网络数据,全面的关注了舆情事件发展过程中可能涉及到的各个社交网络场景,使得对舆情事件的预测准确性进一步提高。
7.本发明可以用于社交网络舆情分析、数据挖掘等领域的预测功能,能够帮助政府等相关部门及时把握舆情发展规律,有效开展舆情的管控工作,从而维护社会的和谐与稳定。
附图说明
图1为本发明的基于社交网络的舆情事件预测方法的步骤示意图;
图2为本发明的基于社交网络的舆情事件预测方法中步骤4的主要流程图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
目前,在社交网络数据上,现有的图卷积网络方法都没有考虑结合舆情事件在用户、内容、时间和空间这四个维度上的特征进行舆情事件的预测,为此,本发明旨在提供一种基于社交网络的事件的语境和用户传播关系的舆情事件预测方法以解决目前存在的问题。
本发明的一种基于社交网络的舆情事件预测方法,至少包括以下步骤:
见图1,步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
具体在本实施例中,在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据,在本实施例中,可以是包括微博数据、推特数据、邮件数据、新闻数据的互联网公开数据;
步骤102:对采集的社交网络数据进行,在本实施例中,进行的数据清洗包括去重复、去除异常值、去停用词;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数,在本实施例中,关键词提取方法采用TF-IDF方法进行,M可以取值3~7天;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,在本实施例中,选择的传播关系包括用户之间的转发关系、评论关系、回复关系。
在本实施中,在步骤2中,对清洗后的社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0。
具体在一个实施例中,在步骤2中,在对清洗后的社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
进一步的,在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词,N的取值可以取500、1000、2000等,具体是根据每天的词总数来调整的;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;本实施中,以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,单个用户的多个关键词之间没有传播关系的,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,比如用户A发布了文本TA,用户B发表了对文本TA的评论文本TB,那么认为TA中的每个单词wA与TB中的每个单词wB有传播关系(wA≠wB),传播关系矩阵At的计算公式为:
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn。
见图2,在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以前M天中的最早一天为第1天,此处以M取5进行进一步说明,此时取前5天的社交网络数据,设定今天为10月13日,前5天从最早的一天开始分别是10月的8、9、10、11、12日,分别将8、9、10、11、12日记为第1、2、3、4、5天;
分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中动态双重图卷积网络模型基于图卷积网络(GCN)构建,包括图卷积层和时间编码层,图卷积层中有两个图卷积网络;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中t≤M-1,t>1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量。
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
在本发明的一个实施例中,还结合公式对步骤4进行进一步详细的说明:
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,本步骤中t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
其中,和为进行线性变换的权重矩阵,和为进行线性变换的偏置项,和分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,为时间编码嵌入后的特征向量,本步骤中t=1;
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
其中,Hxt表示传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
其中,和为进行线性变换的权重矩阵,和为进行线性变换的偏置项,和分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
在本发明的一个实施例中,在步骤5中,将得到的第M天的聚合后的特征向量的特征维度设置为1,获得所有关键词的标量特征表示HT,其维度为N×1,经过非线性变换将输出结果转换为一维,获得舆情事件预测的结果,非线性变换的公式为:
本发明从舆情事件的社交网络数据中提取出了若干天的事件关键词,通过图卷积网络技术学习关键词之间潜在的语义相关性,能够揭示出舆情事件发展的潜在脉络结构,能够表示出图中节点间的空间依赖关系,即舆情事件中关键词的隐含语义关联关系,从而取得更好的预测结果,能够为舆情事件的预测结果提供更好地解释;
同时结合社交网络中的事件上下文和用户传播关系,基于每个时间窗口的关键词构建语义关联信息图和传播关系图,充分利用了舆情事件在用户、内容(语义)、时间、空间这四个维度上的特征,使得提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度。
与此同时,本发明的双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量,并通过非线性变换获得舆情时间的预测结果,从而更好的获得舆情事件随着时间变化产生的发展,充分利用了舆情事件在时间维度上的特征,使得双重图卷积网络模型提取的特征的鲁棒性更强,因此能够提高舆情事件的预测精度。
另外,本发明通过挖掘用户间的传播关系,将用户间的传播关系转换为关键词的传播关系,可以表达促使舆情事件发生的用户的特征,利用了舆情事件在用户这个维度上的特征,提高舆情事件的特征质量。
此外,本发明全面的采集了各种各样的社交网络数据,全面的关注了舆情事件发展过程中可能涉及到的各个社交网络场景,使得对舆情事件的预测准确性进一步提高。
本发明可以用于社交网络舆情分析、数据挖掘等领域的预测功能,能够帮助政府等相关部门及时把握舆情发展规律,有效开展舆情的管控工作,从而维护社会的和谐与稳定。
在本发明的实施例中,还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。
该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于社交网络的舆情事件预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的一种基于社交网络的舆情事件预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机设备、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机设备、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在基于社交网络的舆情事件预测方法、计算机设备、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于社交网络的舆情事件预测方法,其特征在于,包括以下步骤:
步骤1:针对每个舆情事件,采集相关的社交网络数据,从舆情事件发生前若干天的社交网络数据中提取关键词,构建每天的关键词合集合,并从社交网络数据中提取出用户间的传播关系;
步骤2:将社交网络数据进行语料预处理后得到语料库,将所有的关键词表示为词向量;
步骤3:基于每天的关键词集合和用户间的传播关系,构建每天的关键词的语义关联信息图和传播关系图;
步骤4:基于图卷积网络构建动态双重图卷积网络模型,分别将前若干天中每天的关键词的语义关联信息图和传播关系图输入动态双重图卷积网络模型,同时分别对应将每天对应的在前数据输入动态双重图卷积网络模型中,直至计算得到前一天的关键词的特征向量;
步骤5:对于每个舆情事件,将输出的前一天的关键词的特征向量进行非线性变换,输出舆情事件的预测结果。
2.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤1中,具体包括以下步骤:
步骤101:首先确定所关注的舆情事件的关键词,然后通过爬虫程序采集该舆情事件相关的社交网络数据;
步骤102:对采集的社交网络数据进行数据清洗;
步骤103:对于每个舆情事件,找出其发生前M天的社交网络数据,在每天的社交网络数据中使用关键词提取方法提取前N个关键词,M、N为正整数;
步骤104:对于每个舆情事件,从该舆情事件相关的社交网络数据中,提取出用户间的传播关系,传播关系包括用户之间的转发关系、评论关系、回复关系。
3.根据权利要求1所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,对社交网络数据进行语料预处理得到语料库,使用Word2Vec模型训练词向量,然后将步骤1中提取出来的所有关键词转换成向量表示,得到所有关键词的初始的语义特征向量H0。
4.根据权利要求2所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤2中,在对社交网络数据进行语料预处理时,对于中文数据使用jieba工具进行分词,对于英文数据提取词干。
5.根据权利要求3所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤3中,具体包括以下步骤:
步骤301:对于每个舆情事件,第t天的关键词的语义关联信息图记为Gpt,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将语义关联信息图记Gpt使用维度为N×N的语义关联信息矩阵Pt来表示,Pt中的每个值Pt[i,j](i≠j)则表示Gpt中的任意两个不同的关键词vi和vj之间的语义关联信息值;以点互信息(PMI)定义语义关系,语义关联信息矩阵Pt的计算公式为:
其中,PMIt(vi,vj)表示第t天中任意两个不同的关键词vi和vj之间的点互信息值,其计算公式为:
其中,dt(vi,vj)表示第t天中任意两个不同的关键词vi和vj共同出现的文档数,dt(vi)表示第t天中关键词vi至少出现一次的文档数,dt(vj)表示第t天中关键词vj至少出现一次的文档数,Dt表示第t天的文档总数,log是自然对数函数;
步骤302:将用户间的传播关系转换为关键词的传播关系,若两个用户之间具有传播关系,则认为提取的两个用户对应的社交网络数据中的关键词具有传播关系,对于每个舆情事件,第t天的关键词的传播关系图记为Gat,其节点集为Vn={v1,v2,···,vn},其中,|Vn|=N,每个节点表示一个关键词;
将传播关系图Gat使用维度为N×N的传播关系矩阵At来表示,At中的每个值At[i,j](i≠j)则表示Gat中的任意两个不同的关键词vi和vj之间是否存在传播关系,传播关系矩阵At的计算公式为:
其中,wA和wB是具有传播关系的两个文本TA和TB中的不同单词,并且都属于节点集Vn。
6.根据权利要求5所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤4中,具体包括以下步骤:
步骤401:基于图卷积网络构建动态双重图卷积网络模型,动态双重图卷积网络模型包括图卷积层和时间编码层,图卷积层包括两个图卷积网络,采用带标签值的训练集,对于动态双重图卷积网络模型进行训练,直至模型收敛,得到训练好的动态双重图卷积网络模型;
步骤402:将每天的关键词的语义关联信息图和传播关系图对应的语义关联信息矩阵和传播关系矩阵进行对称归一化处理;
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵以及关键词的初始的语义特征向量,输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量;
步骤404:将语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤405:将聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得时间编码嵌入后的特征向量;
步骤406:将得到的第t-1天对应的时间编码嵌入后的特征向量,与第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,其中1<t≤M-1,M、t为正整数;
步骤407:将第t天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量;
步骤408:将第t天的聚合后的特征向量输入动态双重图卷积网络模型的时间编码层进行时间编码嵌入,以捕获关键词之间的时序特征,获得第t天的时间编码嵌入后的特征向量;
步骤409:以上一步的t为新的t-1,基于时序重复执行步骤406-408,直至t等于M-1,获得第M-1天对应的时间编码嵌入后的特征向量;
步骤410:当取t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量。
7.根据权利要求6所述的一种基于社交网络的舆情事件预测方法,其特征在于:在步骤402中,将事件发生前第t天的关键词的语义关联信息矩阵Pt和关键词的传播关系矩阵At分别进行对称归一化处理得到和对称归一化处理的公式为:
步骤403:以M天中的最早一天为第1天,分别将第1天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量HpM和HaM,公式表达为:
步骤404:对第t个动态双重图卷积网络模型的图卷积层得到的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,t=1;
步骤405:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
步骤406:分别将第t-1天的时间编码嵌入后的特征向量与前第t天的经归一化处理的语义关联信息矩阵和传播关系矩阵输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得关键词的语义关联信息图和传播关系图的空间特征对应的特征向量Hpt和Hat,公式表示为:
其中,Hxt表示传入单个图卷积网络后输出的特征向量,σ为非线性的激活函数,Wt表示第t个图卷积层的权重参数,bt表示第t个图卷积层的偏置项,表示第t-1天的时间编码嵌入后的特征向量,其中1<t≤M-1,,M、t为正整数;
步骤407:对得到的第t天的特征向量Hpt和Hat进行聚合,得到聚合后的特征向量Ht,其计算公式为:
Ht=Hpt+λ(t)Hat
其中,λ(t)为随着训练时间变化的超参数,其中1<t≤M-1,M、t为正整数;
步骤408:对聚合后的特征向量Ht进行时间编码嵌入,以捕获关键词之间的时序特征,将学习到的空间特征向量Ht和关键词初始的语义特征向量H0分别进行线性变换,然后将变换后的两个特征向量进行拼接,最后使用tanh激活函数进行输出,时间编码嵌入的公式为:
其中,和为进行线性变换的权重矩阵,和为进行线性变换的偏置项,和分别为对Ht和H0进行线性变换后的特征向量,||表示向量的拼接操作,tanh为双曲线正切激活函数,为时间编码嵌入后的特征向量,其中1<t≤M-1,M、t为正整数;
步骤410:当t=M时,将得到的第M-1天对应的时间编码嵌入后的特征向量,与第M天的经归一化处理的语义关联信息矩阵和传播关系矩阵,一起输入动态双重图卷积网络模型的图卷积层的单个图卷积网络中进行训练,获得第M天的关键词的语义关联信息图和传播关系图的空间特征对应的特征向量,将第M天的语义关联信息图和传播关系图的空间特征对应的特征向量进行聚合,得到聚合后的特征向量,表示为:
HM=HpM+λ(M)HaM
其中,λ(M)为随着训练时间变化的超参数。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1所述的基于社交网络的舆情事件预测方法的步骤。
10.一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如权利要求1所述的一种基于社交网络的舆情事件预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011118346.3A CN112183881A (zh) | 2020-10-19 | 2020-10-19 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011118346.3A CN112183881A (zh) | 2020-10-19 | 2020-10-19 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112183881A true CN112183881A (zh) | 2021-01-05 |
Family
ID=73951001
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011118346.3A Pending CN112183881A (zh) | 2020-10-19 | 2020-10-19 | 一种基于社交网络的舆情事件预测方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183881A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948825A (zh) * | 2021-04-15 | 2021-06-11 | 中国人民解放军国防科技大学 | 社交网络中网络信息发生病毒性传播的预测方法、装置 |
CN113283589A (zh) * | 2021-06-07 | 2021-08-20 | 支付宝(杭州)信息技术有限公司 | 事件预测系统的更新方法及装置 |
CN113379447A (zh) * | 2021-05-28 | 2021-09-10 | 西安影视数据评估中心有限公司 | 一种电视剧单日收视率的预测方法 |
CN113806534A (zh) * | 2021-09-03 | 2021-12-17 | 电子科技大学 | 一种面向社交网络的热点事件预测方法 |
CN116821374A (zh) * | 2023-07-27 | 2023-09-29 | 中国人民解放军陆军工程大学 | 一种基于情报的事件预测方法 |
CN117789253A (zh) * | 2024-02-23 | 2024-03-29 | 东北大学 | 一种基于双网络的视频行人重识别方法 |
CN113379447B (zh) * | 2021-05-28 | 2024-05-31 | 西安影视数据评估中心有限公司 | 一种电视剧单日收视率的预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN111221964A (zh) * | 2019-12-25 | 2020-06-02 | 西安交通大学 | 一种不同分面观点演化趋势引导的文本生成方法 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
-
2020
- 2020-10-19 CN CN202011118346.3A patent/CN112183881A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232109A (zh) * | 2019-05-17 | 2019-09-13 | 深圳市兴海物联科技有限公司 | 一种网络舆情分析方法以及系统 |
CN111221964A (zh) * | 2019-12-25 | 2020-06-02 | 西安交通大学 | 一种不同分面观点演化趋势引导的文本生成方法 |
CN111581983A (zh) * | 2020-05-13 | 2020-08-25 | 中国人民解放军国防科技大学 | 基于群体分析的网络舆论事件中社会关注热点的预测方法 |
Non-Patent Citations (1)
Title |
---|
HAIYANG WANG ET AL: ""Contextual Gated Graph Convolutional Networks for Social Unrest Events Prediction"", IEEEXPLORE, pages 3 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948825A (zh) * | 2021-04-15 | 2021-06-11 | 中国人民解放军国防科技大学 | 社交网络中网络信息发生病毒性传播的预测方法、装置 |
CN113379447A (zh) * | 2021-05-28 | 2021-09-10 | 西安影视数据评估中心有限公司 | 一种电视剧单日收视率的预测方法 |
CN113379447B (zh) * | 2021-05-28 | 2024-05-31 | 西安影视数据评估中心有限公司 | 一种电视剧单日收视率的预测方法 |
CN113283589A (zh) * | 2021-06-07 | 2021-08-20 | 支付宝(杭州)信息技术有限公司 | 事件预测系统的更新方法及装置 |
CN113806534A (zh) * | 2021-09-03 | 2021-12-17 | 电子科技大学 | 一种面向社交网络的热点事件预测方法 |
CN113806534B (zh) * | 2021-09-03 | 2023-04-18 | 电子科技大学 | 一种面向社交网络的热点事件预测方法 |
CN116821374A (zh) * | 2023-07-27 | 2023-09-29 | 中国人民解放军陆军工程大学 | 一种基于情报的事件预测方法 |
CN117789253A (zh) * | 2024-02-23 | 2024-03-29 | 东北大学 | 一种基于双网络的视频行人重识别方法 |
CN117789253B (zh) * | 2024-02-23 | 2024-05-03 | 东北大学 | 一种基于双网络的视频行人重识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Minh et al. | Deep learning approach for short-term stock trends prediction based on two-stream gated recurrent unit network | |
Yu et al. | Attention-based convolutional approach for misinformation identification from massive and noisy microblog posts | |
US11436414B2 (en) | Device and text representation method applied to sentence embedding | |
CN112183881A (zh) | 一种基于社交网络的舆情事件预测方法、设备及存储介质 | |
EP2866421B1 (en) | Method and apparatus for identifying a same user in multiple social networks | |
CN111581983A (zh) | 基于群体分析的网络舆论事件中社会关注热点的预测方法 | |
Häggström | Data‐driven confounder selection via Markov and Bayesian networks | |
TW201822098A (zh) | 用於預測商品的市場需求的計算機裝置與方法 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN113535984A (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
Wang et al. | Trust-aware collaborative filtering with a denoising autoencoder | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
US20230096118A1 (en) | Smart dataset collection system | |
CN113536144A (zh) | 一种社交网络信息的传播规模预测方法、装置 | |
Anderson-Bergman | An efficient implementation of the EMICM algorithm for the interval censored NPMLE | |
Zhang et al. | A time-aware self-attention based neural network model for sequential recommendation | |
Wang et al. | Weighted graph convolution over dependency trees for nontaxonomic relation extraction on public opinion information | |
CN116680401A (zh) | 文档处理方法、文档处理装置、设备及存储介质 | |
Vo | GOWSeqStream: an integrated sequential embedding and graph-of-words for short text stream clustering | |
Denli et al. | Geoscience language processing for exploration | |
Rajasekaran et al. | Sentiment analysis of restaurant reviews | |
CN111562943B (zh) | 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
Trinh et al. | Nested variational autoencoder for topic modelling on microtexts with word vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |