CN111581983B - 基于群体分析的网络舆论事件中社会关注热点的预测方法 - Google Patents

基于群体分析的网络舆论事件中社会关注热点的预测方法 Download PDF

Info

Publication number
CN111581983B
CN111581983B CN202010400528.3A CN202010400528A CN111581983B CN 111581983 B CN111581983 B CN 111581983B CN 202010400528 A CN202010400528 A CN 202010400528A CN 111581983 B CN111581983 B CN 111581983B
Authority
CN
China
Prior art keywords
event
public opinion
relationship
social
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010400528.3A
Other languages
English (en)
Other versions
CN111581983A (zh
Inventor
周斌
高立群
贾焰
陈晨光
蒋沂桔
李爱平
江荣
涂宏魁
王晔
尚颖丹
汪海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010400528.3A priority Critical patent/CN111581983B/zh
Publication of CN111581983A publication Critical patent/CN111581983A/zh
Application granted granted Critical
Publication of CN111581983B publication Critical patent/CN111581983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于群体分析的网络舆论事件中社会关注热点的预测方法,其可以预测可能会发展成社会关注热点的网络舆论事件,为舆情事件的处理提供决策支持,采集舆论事件的相关数据,构建舆论事件集合;获得不同时间窗口内的舆论事件关系子图和社会关注度指标;通过图嵌入技术对不同时间窗口内的舆论事件关系子图中的数据进行图的表示学习,得到对应的事件关系的特征向量,将事件关系的特征向量与对应的社会关注度指标构成二元组;基于双向长短期记忆神经网络构建时间序列预测模型,将二元组输入模型进行训练迭代直至模型收敛,将新的舆论事件输入模型得到其在未来时间的社会关注度指标,选择社会关注度指标最大的舆论事件作为预测的社会关注热点。

Description

基于群体分析的网络舆论事件中社会关注热点的预测方法
技术领域
本发明涉及网络舆论分析、数据挖掘和深度学习技术领域,具体涉及基于群体分析的网络舆论事件中社会关注热点的预测方法、装置以及计算机存储介质。
背景技术
网络舆论是社会舆论在互联网上的一种映射,可以反映当前社会中群众普遍关心的社会问题的程度,例如突发事件,司法问题,经济问题等,通过对网络舆论的分析可以更有效地指定解决社会问题的方案。根据目前对于社会关注度的定义,网络舆论事件的社会关注度是指人们对网络上报道的社会上发生的事件的发生、发展和善后处理等进行的关注,通过社会关注度指标来预测未来可能会发展成社会关注热点的网络舆论事件,为舆情事件的处理提供决策支持,可以更好更有针对性的解决社会问题,引导社会朝正能量方向发展。
目前针对网络舆论的社会关注度的影响因素方面,研究者主要从外部因素和内部因素两方面研究它们对关注度的促进或抑制作用,外部因素如用户关系,群体的特征等,内部因素如信息语义关系,内容长短等;针对预测关注度方面,主要是预测给定网络信息在未来的关注度值,通常使用传统数学建模或是机器学习方法。
但现有的研究通常没有考虑多源数据的关联分析,事件语义的分析主要针对事件发展过程,而经过分析研究发现,背后推动事件扩张的群体特征是驱动舆论事件的社会关注度增长的诱因之一,群体关键特征如何与事件语义发展建立联系,抽取出关键的特征对社会关注度起到重要的作用,为此,本发明旨在提供一种基于群体分析的网络舆论事件中社会关注热点的预测方法以解决目前存在的问题。
发明内容
针对上述问题,本发明提供了基于群体分析的网络舆论事件中社会关注热点的预测方法、装置以及计算机存储介质,其可以预测可能会发展成社会关注热点的网络舆论事件,从而为舆情事件的处理提供决策支持。
其技术方案是这样的:基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于,包括以下步骤:
步骤1:采集舆论事件的相关数据,抽取相关数据中的事件参与群体信息与事件语义信息构建舆论事件集合;
步骤2:依据舆论事件集合,构建舆论事件关系图,获得不同时间窗口内的舆论事件关系子图;
步骤3:获取不同时间窗口内舆论事件的社会关注度指标;
步骤4:通过图嵌入技术对不同时间窗口内的舆论事件关系子图中的数据进行图的表示学习,得到对应的事件关系的特征向量,将事件关系的特征向量与对应时间窗口内的舆论事件的社会关注度指标构成二元组;
步骤5:基于双向长短期记忆神经网络构建时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组输入时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型;
步骤6:将新的舆论事件,以事件关系的特征向量与社会关注度指标组成的二元组的形式输入训练好的时间序列预测模型,分别得到输入的舆论事件在未来时间的社会关注度指标,从中选择社会关注度指标最大的舆论事件作为预测的社会关注热点。
进一步的,在步骤1中,依据舆论事件的关键词采集舆论事件的相关数据,相关数据包括新闻数据,自媒体数据,微博数据,根据相关数据中包含的事件参与群体信息与事件语义信息,采样出自媒体文本数据集合Tsm、新闻文本数据集合Tmm、博主数据集合U,评论数据集合C,构建舆论事件集合Ei=<Tmm,Tsm,U,C>,Ei表示某一个舆论事件i;
其中,新闻文本数据集合表示为Tmm={时间,新闻标题,新闻内容};
自媒体文本数据集合表示为Tsm={时间,用户ID,博文,原创/转发,来源,Ci},其中Ci表示评论数据集合C中的某个评论数据;
博主数据集合表示为U={用户ID,关注者集合,关注者集合,用户平台};
评论数据集合表示为C={时间,评论ID,原博主Ui,评论博主Uj,原博文,评论博文},其中,评论数据包括评论和转发的数据。
进一步的,在步骤2中,构建舆论事件关系图具体包括以下步骤:
步骤201:统计事件数据持续时长并计算时间窗口;
步骤202:基于舆论事件集合构建用户关系子图与语义关系子图;
步骤203:基于用户关系子图与语义关系子图构建舆论事件关系图,基于时间窗口对舆论事件进行时序化拆分,建立时序舆论事件关系子图。
进一步的,在步骤201中,根据其中一个舆论事件持续的总时长Ti,得到单位时间窗口ti,ti=Ti/M,M为时间窗口数量;
在步骤202中,在构建用户关系子图时,根据博主数据集合U中用户ID与关注者集合的关系,获得具有关注关系的用户,构建用户关注关系子图R;
在构建用户关注关系子图时,根据评论数据集合C中原博主Ui和评论博主Uj的关系,获得具有评论转发关系的用户,构建用户评论关系子图S;
通过自媒体文本数据集合Tsm、博主数据集合U中的用户ID连接用户关注关系子图R和用户评论关系子图S之间的关系,构成群体关系图P;
在步骤202中,在构建语义关系子图时,根据新闻文本数据集合Tmm中的<新闻内容>和自媒体文本数据集合Tsm中的<博文>、<评论Ci>的数据,依次通过分词、去停用词、使用TF-IDF方法对舆论事件的关键词进行提取,并取出TF-IDF数值TOP_N个的事件关键词,TOP_N为最大的N个,构成事件特征词集合V,并根据事件特征词集合V中各特征词在文本数据中的共现关系,通过PMI逐点互信息函数定义事件语义关系:
p(Si,Sj)表示主题Si与主题Sj共现次数,p(Si)表示Si的频次,构建事件特征词的语义关系子图EF,其中的语义节点的表示通过word2vec方法构造;
在步骤203中,通过群体关系图P和语义关系子图EF,构建事件关系图G,针对不同的时间窗口对舆论事件进行时序化拆分,构建出不同时间窗口内的事件关系子图Gt,Gt=<Pt,EFt>,其中Pt表示时间窗口内的群体关系图,EFt表示时间窗口内的语义关系子图;
进一步的,在步骤202构建用户关系子图R和用户评论关系子图S的过程中,选择评论数或转发数大于K次的关系,K为正整数,用于确保关系的稳健性。
进一步的,在步骤3中,社会关注度指标通过如下公式表示:
A(E,t)=g(E)+f′(t)
其中,A(E,t)表示社会关注度指标,E表示事件,t表示时间窗口,g(E)表示采集到的参与群体参与舆论事件的频次数量的总和,频次数量统计时包括评论量、转发量、自媒体文本数据量、新闻文本数据量;f′(t)为关于t的二阶导数,用于表示时间窗口内事件群体参与度的增速。
进一步的,步骤4具体包括以下步骤:
步骤401:使用图神经网络GCN方法,对舆论事件中的群体关系进行嵌入表示,获得事件参与群体的群体关系的特征向量
其中,表示上一时刻的事件参与群体的群体关系的特征向量,/>为顶点的度矩阵,/>为群体关系的邻接矩阵,Wt-1为层级之间的参数,σ表示激活函数;
步骤402:使用图神经网络GCN方法,对舆论事件中的语义关系进行嵌入表示,获得语义关系的特征向量
其中,表示上一时刻的语义关系的特征向量,/>是顶点的度矩阵,/>是语义关系的邻接矩阵,Wt-1是层级之间的参数,σ表示激活函数;
步骤403:使用注意力机制进行事件关系进行嵌入表示,通过如下公式表示:
其中,表示舆论事件在时间窗口t内的事件关系的特征向量,e表示包含了事件参与群体信息与事件语义信息的舆论事件,MLP表示多层感知机机制,用于获取包含群体关系特征以及语义关系特征的事件关系向量/>表示事件关系的特征向量集合,通过如下公式表示:
Attention表示深度学习中的注意力机制,表示群体关系的特征向量集合,/>表示语义关系的特征向量集合,/>和/>分别通过如下公式表示:
其中,p表示事件参与群体的群体关系信息,s表示舆论事件的语义关系信息,是神经网络训练参数,/>表示参数的偏置项;
步骤404:将事件关系的特征向量与步骤3获得的社会关注度指标A(E,t)组成事件关系的特征向量与社会关注度指标组成的二元组/>
进一步的,在步骤5中,基于双向长短期记忆神经网络,对不同单位时间窗口t内的事件关系的特征向量与社会关注度指标的二元组二元组建立时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组/>作为输入,使用公式如下:
其中分别是当前时刻t的二元组输入,Bi_LSTM()是双向长短期记忆神经网络结构,设置一个舆论事件e的二元组集合/>为一个输入样本,对不同的舆论事件的样本e进行模型训练,输出未来t+1时间的社交关注度A(E,t+1),使用均方误差MSE作为时间序列预测模型的回归损失函数,公式如下:
其中A(E,t+1)为真实的社会关注度指标,A(E,t+1)p为时间序列预测模型预测的社会关注度指标,通过对大量的舆论事件对时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型。
基于群体分析的网络舆论事件中社会关注热点的预测装置,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如上述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
本发明具有的有益效果是:
1.本发明通过对舆情事件中参与群体的群体关系与语义关系的抽取,由于语义关系可以表示事件发展过程中的语义的相关性,对应群体关系的群体分析可以表达推动舆情事件的背后群体特征,因此两种关系的融合可以更好的提高舆情事件的特征质量。
2.本发明通过采集多通道的舆情事件数据,融合社交网络自媒体,新闻、微博等多文本语义信息,全面的体现了网络事件发展过程中语义信息的演化过程。
3.本发明通过图神经网络技术对群体与语义关系进行抽取,方法具有更强的潜在关系表示能力。
4.本发明通过时序的深度学习技术对舆情事件的关注度指标进行学习预测,对不同时间窗口内的关系数据单独学习表示,优势在于数据的构造过程可以并行,同时通过深度学习技术可以获得时序关系特征,以计算更准确的预测结果,预测未来可能会发展成社会关注热点的网络舆论事件,为舆情事件的处理提供决策支持,可以更好更有针对性的解决社会问题,引导社会朝正能量方向发展。
5.本发明可以用于网络舆情事件分析,数据挖掘领域,尤其可以用于监测具有周期性规律的舆情事件的预测与监管。
附图说明
图1为本发明的基于群体分析的网络舆论事件中社会关注热点的预测方法的步骤示意图;
图2为本发明的基于群体分析的网络舆论事件中社会关注热点的预测方法的流程图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
见图1至图2,本发明的基于群体分析的网络舆论事件中社会关注热点的预测方法,至少包括以下步骤:
步骤1:采集舆论事件的相关数据,抽取相关数据中的事件参与群体信息与事件语义信息构建舆论事件集合;
步骤2:依据舆论事件集合,构建舆论事件关系图,获得不同时间窗口内的舆论事件关系子图;
步骤3:获取不同时间窗口内舆论事件的社会关注度指标;
步骤4:通过图嵌入技术对不同时间窗口内的舆论事件关系子图中的数据进行图的表示学习,得到对应的事件关系的特征向量,将事件关系的特征向量与对应时间窗口内的舆论事件的社会关注度指标构成二元组;
步骤5:基于双向长短期记忆神经网络构建时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组输入时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型。
步骤6:将新的舆论事件,以事件关系的特征向量与社会关注度指标组成的二元组的形式输入训练好的时间序列预测模型,分别得到输入的舆论事件在未来时间的社会关注度指标,从中选择社会关注度指标最大的舆论事件作为预测的社会关注热点。
具体在本实施例中,在步骤1中,依据舆论事件的关键词采集舆论事件的相关数据,相关数据包括新闻数据,自媒体数据,微博数据,根据相关数据中包含的事件参与群体信息与事件语义信息,采样出自媒体文本数据集合Tsm、新闻文本数据集合Tmm、博主数据集合U,评论数据集合C,构建舆论事件集合Ei=<Tmm,Tsm,U,C>,Ei表示某一个舆论事件i;
其中,新闻文本数据集合表示为Tmm={时间,新闻标题,新闻内容};
自媒体文本数据集合表示为Tsm={时间,用户ID,博文,原创/转发,来源,Ci},其中Ci表示评论数据集合C中的某个评论数据;
博主数据集合表示为U={用户ID,关注者集合,关注者集合,用户平台};
评论数据集合表示为C={时间,评论ID,原博主Ui,评论博主Uj,原博文,评论博文},其中,评论数据包括评论和转发的数据。
新闻数据,自媒体数据,微博等数据,这些数据具有很强的关系特性,例如事件演化过程中语义信息的关联关系,以及参与事件的用户群体间的关联关系,而这些关系又是导致事件被关注的诱因。所以根据以上关系,从采集的数据中抽取出与事件相关度最高的若干个事件话题以及参与事件相关群体的集合,从这些数据中挖掘事件背后参与群体的特征,结合事件的语义信息,对舆情事件的关注度进行分析预测。
进一步的,在步骤2中,构建舆论事件关系图具体包括以下步骤:
步骤201:统计事件数据持续时长并计算时间窗口;
步骤202:基于舆论事件集合构建用户关系子图与语义关系子图;
步骤203:基于用户关系子图与语义关系子图构建舆论事件关系图,基于时间窗口对舆论事件进行时序化拆分,建立时序舆论事件关系子图。
具体的,在步骤201中,根据其中一个舆论事件持续的总时长Ti,得到单位时间窗口ti,ti=Ti/M,M为时间窗口数量;
在步骤202中,在构建用户关系子图时,根据博主数据集合U中用户ID与关注者集合的关系,获得具有关注关系的用户,构建用户关注关系子图R;
在构建用户关注关系子图时,根据评论数据集合C中原博主Ui和评论博主Uj的关系,获得具有评论转发关系的用户,构建用户评论关系子图S;
在步骤202构建用户关系子图R和用户评论关系子图S的过程中,选择评论数或转发数大于K次的关系,K为正整数,用于确保关系的稳健性。
通过自媒体文本数据集合Tsm、博主数据集合U中的用户ID连接用户关注关系子图R和用户评论关系子图S之间的关系,构成群体关系图P,这一过程意在整合参与事件群体的用户关系与用户属性,对这样关系数据进行分析获得参与事件的群体属性;
在步骤202中,在构建语义关系子图时,根据新闻文本数据集合Tmm中的<新闻内容>和自媒体文本数据集合Tsm中的<博文>、<评论Ci>的数据,依次通过分词、去停用词、使用TF-IDF方法对舆论事件的关键词进行提取,并取出TF-IDF数值TOP_N个的事件关键词,TOP_N为最大的N个,构成事件特征词集合V,并根据事件特征词集合V中各特征词在文本数据中的共现关系,通过PMI逐点互信息函数定义事件语义关系:
p(Si,Sj)表示主题Si与主题Sj共现次数,p(Si)表示Si的频次,构建事件特征词的语义关系子图EF,其中的语义节点的表示通过word2vec方法构造,这一过程旨在提取事件语义演化关系。
在步骤203中,通过群体关系图P和语义关系子图EF,构建事件关系图G,针对不同的时间窗口对舆论事件进行时序化拆分,构建出不同时间窗口内的事件关系子图Gt,Gt=<Pt,EFt>,其中Pt表示时间窗口内的群体关系图,EFt表示时间窗口内的语义关系子图。
这一步骤主要对事件参与群体与事件语义信息的关系结构以及属性特征进行数据初始化,为后续通过深度学习技术提取群体特征提供输入数据。
具体在步骤3中,社会关注度指标通过如下公式表示:
A(E,t)=g(E)+f′(t)
其中,A(E,t)表示社会关注度指标,E表示事件,t表示时间窗口,g(E)表示采集到的参与群体参与舆论事件的频次数量的总和,频次数量统计时包括评论量、转发量、自媒体文本数据量、新闻文本数据量;f′(t)为关于t的二阶导数,用于表示时间窗口内事件群体参与度的增速。
步骤4具体包括以下步骤:
步骤401:使用图神经网络GCN方法,对舆论事件中的群体关系进行嵌入表示,获得事件参与群体的群体关系的特征向量
其中,表示上一时刻的事件参与群体的群体关系的特征向量,/>为顶点的度矩阵,/>为群体关系的邻接矩阵,Wt-1为层级之间的参数,σ表示激活函数;
步骤402:使用图神经网络GCN方法,对舆论事件中的语义关系进行嵌入表示,获得语义关系的特征向量
其中,表示上一时刻的语义关系的特征向量,/>是顶点的度矩阵,/>是语义关系的邻接矩阵,Wt-1是层级之间的参数,σ表示激活函数;
步骤403:使用注意力机制进行事件关系进行嵌入表示,通过如下公式表示:
其中,表示舆论事件在时间窗口t内的事件关系的特征向量,e表示包含了事件参与群体信息与事件语义信息的舆论事件,MLP表示多层感知机机制,用于获取包含群体关系特征以及语义关系特征的事件关系向量/>表示事件关系的特征向量集合,通过如下公式表示:
Attention表示深度学习中的注意力机制,表示群体关系的特征向量集合,/>表示语义关系的特征向量集合,/>和/>分别通过如下公式表示:
其中,p表示事件参与群体的群体关系信息,s表示舆论事件的语义关系信息,是神经网络训练参数,/>表示参数的偏置项;
步骤404:将事件关系的特征向量与步骤3获得的社会关注度指标A(E,t)组成事件关系的特征向量与社会关注度指标组成的二元组/>
进一步的,在步骤5中,基于双向长短期记忆神经网络,对不同单位时间窗口t内的事件关系的特征向量与社会关注度指标的二元组二元组建立时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组/>作为输入,使用公式如下:
其中分别是当前时刻t的二元组输入,Bi_LSTM()是双向长短期记忆神经网络结构,设置一个舆论事件e的二元组集合/>为一个输入样本,对不同的舆论事件的样本e进行模型训练,输出未来t+1时间的社交关注度A(E,t+1),使用均方误差MSE作为时间序列预测模型的回归损失函数,公式如下:
其中A(E,t+1)为真实的社会关注度指标,A(E,t+1)p为时间序列预测模型预测的社会关注度指标,通过对大量的舆论事件对时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型。
在步骤6中,将新的舆论事件,以事件关系的特征向量与社会关注度指标组成的二元组的形式输入训练好的时间序列预测模型,分别得到输入的舆论事件在未来时间的社会关注度指标,从中选择社会关注度指标最大的舆论事件作为预测的社会关注热点,表达为公式:max(A(Enew,t+1)),其中Enew为新的舆论事件。
通过构造新的舆论事件e的事件关系图实例,作为预测模型输入后可对新事件e的未来T+1时刻的关注度指标A(t+1)进行预测计算,以直观的指标形式反映当前舆论事件的被关注程度,从中选择社会关注度指标最大的舆论事件作为预测的社会关注热点。
在本发明的实施例中,还提供了基于群体分析的网络舆论事件中社会关注热点的预测装置,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现如上述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
该装置可包括,但不仅限于处理器、存储器。本领域技术人员可以理解,本实施例仅仅是装置的举例,并不构成对装置的限定,可以包括比本实施例更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的数据处理程序,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。数据处理程序可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置、和计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。
以上对本发明所提供的基于群体分析的网络舆论事件中社会关注热点的预测方法、基于群体分析的网络舆论事件中社会关注热点的预测装置、一种计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于,包括以下步骤:
步骤1:采集舆论事件的相关数据,抽取相关数据中的事件参与群体信息与事件语义信息构建舆论事件集合;
步骤2:依据舆论事件集合,构建舆论事件关系图,获得不同时间窗口内的舆论事件关系子图;
步骤3:获取不同时间窗口内舆论事件的社会关注度指标;
步骤4:通过图嵌入技术对不同时间窗口内的舆论事件关系子图中的数据进行图的表示学习,得到对应的事件关系的特征向量,将事件关系的特征向量与对应时间窗口内的舆论事件的社会关注度指标构成二元组;
步骤5:基于双向长短期记忆神经网络构建时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组输入时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型;
步骤6:将新的舆论事件,以事件关系的特征向量与社会关注度指标组成的二元组的形式输入训练好的时间序列预测模型,分别得到输入的舆论事件在未来时间的社会关注度指标,从中选择社会关注度指标最大的舆论事件作为预测的社会关注热点;
步骤4具体包括以下步骤:
步骤401:使用图神经网络GCN方法,对舆论事件中的群体关系进行嵌入表示,获得事件参与群体的群体关系的特征向量
其中,表示上一时刻的事件参与群体的群体关系的特征向量,/>为顶点的度矩阵,为群体关系的邻接矩阵,Wt-1为层级之间的参数,σ表示激活函数;
步骤402:使用图神经网络GCN方法,对舆论事件中的语义关系进行嵌入表示,获得语义关系的特征向量
其中,表示上一时刻的语义关系的特征向量,/>是顶点的度矩阵,/>是语义关系的邻接矩阵,Wt-1是层级之间的参数,σ表示激活函数;
步骤403:使用注意力机制进行事件关系进行嵌入表示,通过如下公式表示:
其中,表示舆论事件在时间窗口t内的事件关系的特征向量,e表示包含了事件参与群体信息与事件语义信息的舆论事件,MLP表示多层感知机机制,用于获取包含群体关系特征以及语义关系特征的事件关系向量/> 表示事件关系的特征向量集合,通过如下公式表示:
Attention表示深度学习中的注意力机制,表示群体关系的特征向量集合,/>表示语义关系的特征向量集合,/>和/>分别通过如下公式表示:
其中,p表示事件参与群体的群体关系信息,s表示舆论事件的语义关系信息,是神经网络训练参数,/>表示参数的偏置项;
步骤404:将事件关系的特征向量与步骤3获得的社会关注度指标A(E,t)组成事件关系的特征向量与社会关注度指标组成的二元组/>
2.根据权利要求1所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤1中,依据舆论事件的关键词采集舆论事件的相关数据,相关数据包括新闻数据,自媒体数据,微博数据,根据相关数据中包含的事件参与群体信息与事件语义信息,采样出自媒体文本数据集合Tsm、新闻文本数据集合Tmm、博主数据集合U,评论数据集合C,构建舆论事件集合Ei=<Tmm,Tsm,U,C>,Ei表示某一个舆论事件i;
其中,新闻文本数据集合表示为Tmm={时间,新闻标题,新闻内容};
自媒体文本数据集合表示为Tsm={时间,用户ID,博文,原创/转发,来源,Ci},其中Ci表示评论数据集合C中的某个评论数据;
博主数据集合表示为U={用户ID,关注者集合,关注者集合,用户平台};
评论数据集合表示为C={时间,评论ID,原博主Ui,评论博主Uj,原博文,评论博文},其中,评论数据包括评论和转发的数据。
3.根据权利要求2所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤2中,构建舆论事件关系图具体包括以下步骤:
步骤201:统计事件数据持续时长并计算时间窗口;
步骤202:基于舆论事件集合构建用户关系子图与语义关系子图;
步骤203:基于用户关系子图与语义关系子图构建舆论事件关系图,基于时间窗口对舆论事件进行时序化拆分,建立时序舆论事件关系子图。
4.根据权利要求3所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤201中,根据其中一个舆论事件持续的总时长Ti,得到单位时间窗口ti,ti=Ti/M,M为时间窗口数量;
在步骤202中,在构建用户关系子图时,根据博主数据集合U中用户ID与关注者集合的关系,获得具有关注关系的用户,构建用户关注关系子图R;
在构建用户关注关系子图时,根据评论数据集合C中原博主Ui和评论博主Uj的关系,获得具有评论转发关系的用户,构建用户评论关系子图S;
通过自媒体文本数据集合Tsm、博主数据集合U中的用户ID连接用户关注关系子图R和用户评论关系子图S之间的关系,构成群体关系图P;
在步骤202中,在构建语义关系子图时,根据新闻文本数据集合Tmm中的<新闻内容>和自媒体文本数据集合Tsm中的<博文>、<评论Ci>的数据,依次通过分词、去停用词、使用TF-IDF方法对舆论事件的关键词进行提取,并取出TF-IDF数值TOP_N个的事件关键词,TOP_N为最大的N个,构成事件特征词集合V,并根据事件特征词集合V中各特征词在文本数据中的共现关系,通过PMI逐点互信息函数定义事件语义关系:
p(Si,Sj)表示主题Si与主题Sj共现次数,p(Si)表示Si的频次,p(Sj)表示Sj的频次,构建事件特征词的语义关系子图EF,其中的语义节点的表示通过word2vec方法构造;
在步骤203中,通过群体关系图P和语义关系子图EF,构建事件关系图G,针对不同的时间窗口对舆论事件进行时序化拆分,构建出不同时间窗口内的事件关系子图Gt,Gt=<Pt,EFt>,其中Pt表示时间窗口内的群体关系图,EFt表示时间窗口内的语义关系子图。
5.根据权利要求4所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤202构建用户关系子图R和用户评论关系子图S的过程中,选择评论数或转发数大于K次的关系,K为正整数,用于确保关系的稳健性。
6.根据权利要求4所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤3中,社会关注度指标通过如下公式表示:
A(E,t)=g(E)+f′(t)
其中,A(E,t)表示社会关注度指标,E表示事件,t表示时间窗口,g(E)表示采集到的参与群体参与舆论事件的频次数量的总和,频次数量统计时包括评论量、转发量、自媒体文本数据量、新闻文本数据量;f′(t)为关于t的二阶导数,用于表示时间窗口内事件群体参与度的增速。
7.根据权利要求6所述的基于群体分析的网络舆论事件中社会关注热点的预测方法,其特征在于:在步骤5中,基于双向长短期记忆神经网络,对不同单位时间窗口t内的事件关系的特征向量与社会关注度指标的二元组二元组建立时间序列预测模型,将事件关系的特征向量与社会关注度指标组成的二元组/>作为输入,使用公式如下:
其中分别是当前时刻t的二元组输入,Bi_LSTM()是双向长短期记忆神经网络结构,设置一个舆论事件e的二元组集合/>为一个输入样本,对不同的舆论事件的样本e进行模型训练,输出未来t+1时间的社交关注度A(E,t+1),使用均方误差MSE作为时间序列预测模型的回归损失函数,公式如下:
其中A(E,t+1)为真实的社会关注度指标,A(E,t+1)p为时间序列预测模型预测的社会关注度指标,通过对大量的舆论事件对时间序列预测模型进行训练迭代,直至模型收敛,得到训练好的时间序列预测模型。
8.基于群体分析的网络舆论事件中社会关注热点的预测装置,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1所述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
9.一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如权利要求1所述的基于群体分析的网络舆论事件中社会关注热点的预测方法。
CN202010400528.3A 2020-05-13 2020-05-13 基于群体分析的网络舆论事件中社会关注热点的预测方法 Active CN111581983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010400528.3A CN111581983B (zh) 2020-05-13 2020-05-13 基于群体分析的网络舆论事件中社会关注热点的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010400528.3A CN111581983B (zh) 2020-05-13 2020-05-13 基于群体分析的网络舆论事件中社会关注热点的预测方法

Publications (2)

Publication Number Publication Date
CN111581983A CN111581983A (zh) 2020-08-25
CN111581983B true CN111581983B (zh) 2023-08-08

Family

ID=72112279

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010400528.3A Active CN111581983B (zh) 2020-05-13 2020-05-13 基于群体分析的网络舆论事件中社会关注热点的预测方法

Country Status (1)

Country Link
CN (1) CN111581983B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991218B (zh) * 2019-10-10 2024-01-12 北京邮电大学 一种基于图像的网络舆情预警系统和方法
CN112085104B (zh) * 2020-09-10 2024-04-12 杭州中奥科技有限公司 一种事件特征提取方法、装置、存储介质及电子设备
CN114266281A (zh) * 2020-09-15 2022-04-01 华为技术有限公司 一种图神经网络训练的方法、装置及系统
CN112328801B (zh) * 2020-09-28 2022-06-14 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件知识图谱预测群体性事件的方法
CN114386394A (zh) * 2020-10-16 2022-04-22 电科云(北京)科技有限公司 平台舆论数据主题的预测模型训练方法、预测方法及装置
CN112183881A (zh) * 2020-10-19 2021-01-05 中国人民解放军国防科技大学 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN112989060B (zh) * 2020-11-24 2022-04-15 杭州电子科技大学 一种基于gcn的重大事件趋势预测方法
CN112579866B (zh) * 2020-12-09 2023-06-20 成都中科大旗软件股份有限公司 一种基于时间热度指数分析事件发展趋势的方法
CN112508726B (zh) * 2020-12-25 2022-04-19 东北电力大学 一种基于信息传播特点的虚假舆论识别系统及其处理方法
CN113011501B (zh) * 2021-03-22 2022-05-24 广东海启星海洋科技有限公司 基于图卷积神经网络进行台风水位预测的方法及装置
CN112948825B (zh) * 2021-04-15 2022-09-13 中国人民解放军国防科技大学 社交网络中网络信息发生病毒性传播的预测方法、装置
CN113205426A (zh) * 2021-05-27 2021-08-03 中库(北京)数据系统有限公司 一种预测社交媒体内容的热度等级的方法和装置
CN113449204B (zh) * 2021-07-13 2022-09-09 中国人民解放军国防科技大学 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113793227B (zh) * 2021-09-16 2023-10-31 中国电子科技集团公司第二十八研究所 一种用于社交网络事件的类人智能感知与预测方法
CN115471036B (zh) * 2022-07-04 2024-08-06 中国传媒大学 一种热点事件的群体情绪分析方法、存储介质及设备
CN115964499B (zh) * 2023-03-16 2023-05-09 北京长河数智科技有限责任公司 基于知识图谱的社会治理事件挖掘方法及装置
CN117112837B (zh) * 2023-06-07 2024-08-02 青岛尘元科技信息有限公司 视频舆情监测系统和方法、存储介质及电子设备
CN117573814B (zh) * 2024-01-17 2024-05-10 中电科大数据研究院有限公司 一种舆论态势评估方法、装置、系统以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN110084427A (zh) * 2019-04-26 2019-08-02 飞叶科技股份有限公司 一种智慧城市舆情事件预测算法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2885756A4 (en) * 2012-08-15 2016-07-06 Thomson Reuters Glo Resources SYSTEM AND METHOD FOR FORMING PREDICTIONS USING EVENT-BASED OPINION ANALYSIS

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN110084427A (zh) * 2019-04-26 2019-08-02 飞叶科技股份有限公司 一种智慧城市舆情事件预测算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周斌,贾焰等.《一种基于主题相关性分类的微博话题立场 研判方法》.《信息网络与安全》.2014,(9),全文. *

Also Published As

Publication number Publication date
CN111581983A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN111581983B (zh) 基于群体分析的网络舆论事件中社会关注热点的预测方法
US20220261603A1 (en) System and method for learning contextually aware predictive key phrases
CN113392651A (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
CN112183881A (zh) 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN112100398A (zh) 一种专利空白预测方法及系统
Djenouri et al. Deep learning based hashtag recommendation system for multimedia data
CN111178701B (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN117592561B (zh) 企业数字化运营多维数据分析方法及系统
Li et al. Research on the application of multimedia entropy method in data mining of retail business
Ahmadi et al. Inductive and transductive link prediction for criminal network analysis
Aziz et al. Social network analytics: natural disaster analysis through twitter
KR20220105792A (ko) 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템
Zhang et al. DTGB: A Comprehensive Benchmark for Dynamic Text-Attributed Graphs
CN115712732A (zh) 一种电力设备知识图谱本体构建方法、系统、设备及介质
Loyola et al. Learning feature representations from change dependency graphs for defect prediction
CN111242520B (zh) 特征合成模型的生成方法、装置及电子设备
Lee et al. Exploiting online social data in ontology learning for event tracking and emergency response
CN117422063B (zh) 应用智能辅助决策的大数据处理方法及智能辅助决策系统
Tavares et al. How COVID-19 Impacted Data Science: a Topic Retrieval and Analysis from GitHub Projects’ Descriptions
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统
Mashayekhi et al. Microblog topic detection using evolutionary clustering and social network information
CN116821374B (zh) 一种基于情报的事件预测方法
Kumar Singh et al. Efficient Management of Community Question Answering Sites using Improved Spectral Clustering.
Yuan et al. Combining Event Segment Classification And Graph Self-Encoder For Event Prediction
Zhang et al. Document-Level Multi-event Extraction via Event Ontology Guiding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant