CN113806534B - 一种面向社交网络的热点事件预测方法 - Google Patents

一种面向社交网络的热点事件预测方法 Download PDF

Info

Publication number
CN113806534B
CN113806534B CN202111032195.4A CN202111032195A CN113806534B CN 113806534 B CN113806534 B CN 113806534B CN 202111032195 A CN202111032195 A CN 202111032195A CN 113806534 B CN113806534 B CN 113806534B
Authority
CN
China
Prior art keywords
text
time sequence
data
key words
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111032195.4A
Other languages
English (en)
Other versions
CN113806534A (zh
Inventor
田玲
许毅
惠孛
张栗粽
罗光春
冀柯曦
樊美琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202111032195.4A priority Critical patent/CN113806534B/zh
Publication of CN113806534A publication Critical patent/CN113806534A/zh
Application granted granted Critical
Publication of CN113806534B publication Critical patent/CN113806534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Marketing (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于热点事件预测技术领域,具体提供一种面向社交网络的热点事件预测方法,用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。本发明首先,基于图卷积神经网络捕捉文本邻域语义信息,能够充分挖掘关键词语之间的依存关系;其次,提出维度注意力机制,改进图神经网络的动态分层传播方式,通过维度注意力机制生成重点特征摘要,并将其用于缩放原特征,自适应地调整各个维度特征响应值,增加事件预测中有价值词语的权重,同时抑制价值较弱词语的权重,即充分捕捉社交网络文本时变信息;最终,基于关键词语邻域信息与时序信息充分挖掘文本数据价值,提高模型预测的准确率,具有实用价值。

Description

一种面向社交网络的热点事件预测方法
技术领域
本发明属于热点事件预测技术领域,涉及图神经网络在热点事件预测技术中的应用,具体提供一种面向社交网络数据的基于动态图神经网络的热点事件预测方法。
背景技术
如今,社交网络已经逐渐渗入人们生活各个方面,包括社会、政治和经济等;社交网络开放性强、信息传播迅速,吸引了海量用户,成为公众发布社会消息、讨论现实事件的重要渠道;社交网络事件通常是现实事件在网络空间的映射,大量研究人员展开面向社交网络的热点事件预测研究。有学者从数学上将热点事件预测问题定义为预测一个可观测的事件在未来是否会成为热点,目前研究面向社交网络的热点事件预测任务主要包含以下三类:预测网络事件是否成为热点、预测事件在某个时间热度值、预测事件变热的概率,根据预测方法的不同将其分为基于传统机器学习和基于深度学习两种方法。
Suh等人针对单条推文流行度预测问题,基于用户信息、文本内容,利用主成分分析(PCA)与广义线性模型(GLM)寻找早期特征与转发数量之间的关系。Zhang等人则选择事件相关文本,用户兴趣、影响力以及历史流行度实现流行度线性函数建模,解决事件下一时刻流行度预测问题。目前现有研究事件预测问题大多围绕用户属性、级联关系等特征,较少研究考虑利用文本信息对热度变化进行建模。Geng等人提出一种基于推特数据的时空事件预测生成模型,该模型通过对结构背景和时空突发性联合建模,刻画未来事件的潜在发展。Deng等人提出的动态图卷积神经网络(DGCN)利用事件上下文,以动态图结构形式对节点信息建模,揭示节点之间隐藏的关联信息,分析单词之间隐藏时序联系,能够影响未来事件预测效果。
社交网络用户之间相互关注,构成错综复杂的网络结构,信息传播演变模式更加复杂,数据具有多维、多源和异构等特点,现有方法主要利用机器学习方法。基于传统机器学习方法多是特征驱动的,许多特征是由专家根据先验知识而精心设计的,该类方法性能较多依赖于特征表示,但没有明确统一设计、测量特征原则,存在丢失重要信息的可能性。而基于深度学习方法可解释性较差,难以直观描述事件热度变化的原因,不能充分捕捉社交网络中信息时变的活跃水平。此外,用户发布在社交网络的信息以文本内容为主,在以往针对热度预测问题的研究中,通常利用的文本信息只有事件或话题名称,没有充分利用社交网络文本数据;并且,文本数据价值稀疏,难以从中挖掘潜在有价值信息,事件文本内容更是随时间动态变化,应该充分考虑其时序特征。
发明内容
本发明的目的在于提供一种面向社交网络数据的基于图神经网络的热点事件预测方法,用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。
为实现上述目的,本发明采用的技术方案如下:
一种面向社交网络的热点事件预测方法,包括以下步骤:
步骤1、对源数据进行数据预处理得到文本数据,并对每条文本数据进行0、1分类标记,获得样本数据;
步骤2、根据预定时序将样本数据构建为带有节点特征的时序图结构数据,利用图卷积神经网络对时序图结构数据进行处理,通过图卷积模块进行卷积操作,获得聚合关键词语邻域信息的文本特征向量;
步骤3、通过维度注意力机制对步骤2所得文本特征向量进行编码,捕捉其时序相关性,获得聚合关键词语邻域信息与时序信息的文本特征向量;
步骤4、对步骤3所得文本特征向量进行可学习的线性变换,获得最终文本特征向量,并利用分类器进行分类预测计算,获得预测结果。
进一步的,所述步骤1具体包括如下步骤:
步骤1.1、对源数据集进行随机采样,再对采样后数据依次进行事件合并、噪声清洗、时序切分预处理,再利用jieba工具对文本进行分词处理,再利用TF-IDF方法对关键词语进行提取过滤,再利用GloVe算法对关键词语进行预训练、生成关键词语的初始特征向量,得到文本数据;
步骤1.2、将预测问题定义为事件是否变为热点的二分类任务,根据设定的事件转发量阈值对文本数据进行标签标记,类别标签包括0和1,获得具有标签的样本数据。
进一步的,所述步骤2具体包括如下步骤:
步骤2.1、设置时序kt,kt∈[1,T],T为时序切分的总数;
步骤2.2、根据点互信息(PMI)算法,计算关键词语之间的相互依存关系:
Figure GDA0004072460530000031
其中,Dt为时序内文本集合总数,dt(i,j)为在时序内关键词语i与关键词语j同时出现的文本总数,dt(i)与dt(j)分别为在时序内关键词语i与关键词语j至少出现一次的文本总数;
将关键词语以图结构的形式进行建模,构建带有节点特征的时序图结构,并将时序图结构以邻接矩阵的形式表示At
Figure GDA0004072460530000032
步骤2.3、利用图卷积网络(GCN)模块对时序图结构中节点进行卷积处理,捕获邻域信息,获得图卷积编码的文本特征向量
Figure GDA0004072460530000033
Figure GDA0004072460530000034
其中,g为ReLU激活函数,Ht表示初始特征向量,
Figure GDA0004072460530000035
表示邻接矩阵At归一化处理后的对称邻接矩阵,W(t)、b(t)均为模型参数。
进一步的,所述步骤3具体包括如下步骤:
步骤3.1、基于维度注意力机制对文本特征向量进行编码,利用可学习的权重矩阵将上一时序文本特征向量
Figure GDA0004072460530000036
与当前时序文本特征向量
Figure GDA0004072460530000037
进行可学习的线性变换:
Figure GDA0004072460530000038
其中,
Figure GDA0004072460530000039
Figure GDA00040724605300000310
为权重矩阵,
Figure GDA00040724605300000311
Figure GDA00040724605300000312
为模型参数;
再将变换结果以预定比例进行拼接组合,获得拼接文本特征向量
Figure GDA00040724605300000313
步骤3.2、利用全局平均池化方法计算文本特征向量各个维度的特征统计量:
Figure GDA00040724605300000314
其中,F代表文本特征维度,n代表词语个数;
Figure GDA00040724605300000315
表示关键词语j的第f维特征;
再利用激活函数处理特征统计量,获得文本特征摘要
Figure GDA00040724605300000316
Figure GDA00040724605300000317
其中,σ则为sigmod激活函数,W1与W2均为权重矩阵;
步骤3.3、将文本特征摘要通过点乘运算对拼接特征向量进行缩放,获得文本特征向量
Figure GDA0004072460530000041
Figure GDA0004072460530000042
进一步的,所述步骤4具体包括如下步骤:
步骤4.1、对文本特征向量
Figure GDA0004072460530000043
进行可学习的线性变换,获得最终文本特征向量
Figure GDA0004072460530000046
Figure GDA0004072460530000044
其中,WT为权重矩阵,bT为模型参数;
步骤4.2、利用分类器进行分类预测计算,获得预测结果:
Figure GDA0004072460530000045
与现有技术相比,本发明的有益效果在于:
本发明提供一种面向社交网络的热点事件预测方法,将图卷积神经网络技术用于社交网络文本数据建模,首先,基于图卷积神经网络捕捉文本邻域语义信息,能够充分挖掘关键词语之间的依存关系;其次,提出维度注意力机制,改进图神经网络的动态分层传播方式,通过维度注意力机制生成重点特征摘要,并将其用于缩放原特征,自适应地调整各个维度特征响应值,增加事件预测中有价值词语的权重,同时抑制价值较弱词语的权重,即充分捕捉社交网络文本时变信息;最终,基于关键词语邻域信息与时序信息充分挖掘文本数据价值,提高模型预测的准确率,具有实用价值。
附图说明
图1为本发明实施例中面向社交网络的热点事件预测方法的流程图。
图2为本发明实施例中预处理流程图。
图3为本发明实施例中图卷积编码过程流程图。
图4为本发明实施例中维度注意力机制编码过程流程图。
图5为本发明实施例中分类预测流程图。
具体实施方式
为使本发明的技术方案、技术效果更加清楚,下面结合附图和实施例对本发明做进一步详细说明。
本实施例提供一种面向社交网络数据的基于图神经网络的热点事件预测方法,所述网络数据来源于网络开源的社交网络平台微博的数据,主要包含事件名称、针对该事件用户发布的文本与对应时序等。
所述面向社交网络数据的热点事件预测方法如图1所示,包括:数据预处理、模型图卷积编码、模型维度注意力机制编码、模型结果输出(分类预测),其中,数据预处理用于为后续的步骤做准备工作,图卷积编码用于将文本数据编码为一种具有节点特征的图结构、获得对应文本特征向量,维度注意力机制用于将文本特征向量进一步编码、获得蕴含时序特征的新文本特征向量;更为具体的讲:
步骤1.数据预处理;如图2所示,首先对源数据进行相应预处理,并对每条样本数据进行0、1分类标记,获得预处理数据,具体如下:
步骤1.1文本数据预处理,过程如下:
步骤1.1.1随机采样,考虑到源数据集过大,设置对应比例,本实施例中为5%,对源数据集进行随机采样;
步骤1.1.2事件合并,对于数据集中带有相同名称标签的事件进行合并,在本发明中,认为事件名称相同的数据代表用户针对同一事件展开讨论;
步骤1.1.3噪声清洗,由于本发明主要考虑的是中文文本数据,因此对于url超链接、非中文字符、表情包等数据进行清洗过滤;
步骤1.1.4时序切分,预设一个时序间隔k,将总时间内所有文本数据切分为T份,若k为1、以天为单位,总时间为5天,即表示将事件发生后5天内收集到的数据切分为5个部分;
步骤1.1.5文本分词,针对于每个时间间隔(时序)内的文本数据,利用jieba工具,基于自定义词典,进行分词处理;
步骤1.1.6关键词提取过滤,利用TF-IDF方法将极少出现与极多出现的词语进行过滤,得到关键词语;TF代表词频,即某词语在语料库当中的出现次数;IDF则代表文件频率,即如果某个词其实是一个较为少见的词、但是它存在于许多文本篇章当中,这种情况则表示这个词很可能是重要的关键词;而对于TF与IDF的计算公式中,Nv表示词语v出现在语料库中总次数,Nw表示全部词语总数量,Nwb表示微博篇章总数量,
Figure GDA0004072460530000051
则表示包含词语v的微博数量;
Figure GDA0004072460530000061
步骤1.1.7词语预训练,基于GloVe算法对于提取出的关键词语进行预训练,生成词语初始特征向量,表示为Ht
步骤1.2样本数据类别标记,将预测问题定义为事件是否变为热点的二分类任务,根据设定的事件转发量阈值对样本进行标签标记,类别标签包括0和1,获得具有标签的样本数据;
步骤2.模型图卷积编码;如图3所示,采用图卷积神经网络编码时序文本图结构数据,具体如下:
步骤2.1设置时序kt,kt∈[1,5];
步骤2.2将关键词语以图结构的形式进行建模,构建生成一系列带有节点特征的图结构,具体如下:
步骤2.2.1针对当前时序kt,基于点互信息(PMI)算法,计算词语之间的相互依存关系:
Figure GDA0004072460530000062
其中,Dt代表时序内文本篇章集合总数,dt(i,j)代表在时序内关键词语i与关键词语j同时出现的文本总数,dt(i)与dt(j)分别代表在时序内关键词语i与关键词语j至少出现一次的文本总数;
步骤2.2.2将文本数据构建为带有节点特征的图结构,以邻接矩阵的形式表示时序图结构;计算PMIt(i,j)时,当其值大于0的时候,意味着语料库中单词的语义相关性非常高,因此只考虑在这种情况下为节点添加加权边,将构建的图结构表示为一系列邻接矩阵[A1,A2,...,At,...,AT],其中,t=1,2,...,T,
Figure GDA0004072460530000063
步骤2.3在时序kt所对应的单层模型结构中,利用图卷积神经网络(GCN)模块对图中节点进行卷积处理,每个节点通过接受周围其它节点传递信息改变自身的特征表示,获得图卷积编码的文本特征向量:
Figure GDA0004072460530000064
其中,g为一个非线性ReLU激活函数,Ht表示初始特征向量,
Figure GDA0004072460530000071
表示邻接矩阵At归一化处理后的对称邻接矩阵,W(t)、b(t)均为模型参数;
步骤3.模型维度注意力机制编码;如图4所示,通过维度注意力机制编码上一步得到文本特征向量,获得聚合词语邻域信息与时序信息的文本特征向量具体如下:
步骤3.1基于维度注意力机制,将上层特征与当前特征进行拼接处理,具体如下:
步骤3.1.1利用可学习的权重矩阵将上层文本特征向量
Figure GDA0004072460530000072
与当前层文本特征向量Ht进行可学习的线性变换;将两个权重矩阵
Figure GDA0004072460530000073
Figure GDA0004072460530000074
应用到
Figure GDA0004072460530000075
Figure GDA0004072460530000076
两个文本特征向量,进行可学习的线性变换,得到特征向量
Figure GDA0004072460530000077
Figure GDA0004072460530000078
Figure GDA0004072460530000079
其中,
Figure GDA00040724605300000710
Figure GDA00040724605300000711
为模型参数;
步骤3.1.2将变换结果
Figure GDA00040724605300000712
Figure GDA00040724605300000713
以预设比例进行串联组合,并传入激活函数g,获得拼接文本特征向量:
Figure GDA00040724605300000714
步骤3.2计算拼接文本特征的摘要信息,对所有维度特征进行信息收缩放大,具体如下:
步骤3.2.1利用全局平均池化方法计算拼接文本特征向量各个维度的特征统计量:
Figure GDA00040724605300000715
其中,F代表文本特征维度,n代表词语个数;
Figure GDA00040724605300000716
表示词语j的第f维特征;
步骤3.2.2将特征统计量传入激活函数中进一步处理,获得文本特征摘要,
Figure GDA00040724605300000717
其中,g代表校正线性单位ReLU激活函数,σ则为sigmod激活函数,W1与W2均为权重矩阵;
步骤3.3将文本特征摘要用于缩放拼接文本特征向量,即将特征摘要
Figure GDA00040724605300000718
作为权重,对拼接后的特征向量
Figure GDA00040724605300000719
重新进行加权处理,获得蕴含时序信息的新文本特征向量
Figure GDA00040724605300000720
为点乘运算符;
Figure GDA0004072460530000081
步骤4.模型结果输出;如图5所示,利用分类器进行分类预测计算,获得预测结果,具体如下:
步骤4.1网络结构由多层图卷积与维度注意力机制叠加组成,模型最后一层的网络结构仅由图卷积模块生成文本特征向量,文本由图卷积模块编码,获得文本特征向量HT;对最后文本特征向量进行线性变换生成最终特征向量:
Figure GDA0004072460530000082
其中,WT为权重矩阵,bT为模型参数;
步骤4.2将预测结果分为热点与非热点两类,利用分类器进行分类预测计算,获得预测结果:
Figure GDA0004072460530000083
并选用二元交叉熵做为损失函数,将预测值与真实值进行比较,利用反向传播算法进行训练:
Figure GDA0004072460530000084
y为标签,
Figure GDA0004072460530000085
为模型预测结果。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (4)

1.一种面向社交网络的热点事件预测方法,包括以下步骤:
步骤1、对源数据进行数据预处理得到文本数据,并对每条文本数据进行0、1分类标记,获得样本数据;
步骤2、根据预定时序将样本数据构建为带有节点特征的时序图结构数据,利用图卷积神经网络对时序图结构数据进行处理,通过图卷积模块进行卷积操作,获得聚合关键词语邻域信息的文本特征向量;
步骤3、通过维度注意力机制对步骤2所得文本特征向量进行编码,捕捉其时序相关性,获得聚合关键词语邻域信息与时序信息的文本特征向量;
具体包括如下步骤:
步骤3.1、基于维度注意力机制对文本特征向量进行编码,利用可学习的权重矩阵将上一时序文本特征向量
Figure FDA0004072460510000011
与当前时序文本特征向量
Figure FDA0004072460510000012
进行可学习的线性变换:
Figure FDA0004072460510000013
其中,
Figure FDA0004072460510000014
Figure FDA0004072460510000015
为权重矩阵,
Figure FDA0004072460510000016
Figure FDA0004072460510000017
为模型参数;
再将变换结果以预定比例进行拼接组合,获得拼接文本特征向量
Figure FDA0004072460510000018
Figure FDA0004072460510000019
步骤3.2、利用全局平均池化方法计算文本特征向量各个维度的特征统计量:
Figure FDA00040724605100000110
其中,F代表文本特征维度,n代表词语个数;
Figure FDA00040724605100000111
表示关键词语j的第f维特征;
再利用激活函数处理特征统计量,获得文本特征摘要
Figure FDA00040724605100000112
Figure FDA00040724605100000113
其中,σ则为sigmod激活函数,W1与W2均为权重矩阵;
步骤3.3、采用文本特征摘要对拼接文本特征向量进行缩放,获得文本特征向量
Figure FDA00040724605100000114
步骤4、对步骤3所得文本特征向量进行可学习的线性变换,获得最终文本特征向量,并利用分类器进行分类预测计算,获得预测结果。
2.按权利要求1所述面向社交网络的热点事件预测方法,其特征在于,所述步骤1具体包括如下步骤:
步骤1.1、对源数据集进行随机采样,再对采样后数据依次进行事件合并、噪声清洗、时序切分预处理,再利用jieba工具对文本进行分词处理,再利用TF-IDF方法对关键词语进行提取过滤,再利用GloVe算法对关键词语进行预训练、生成关键词语的初始特征向量,得到文本数据;
步骤1.2、将预测问题定义为事件是否变为热点的二分类任务,根据设定的事件转发量阈值对文本数据进行标签标记,类别标签包括0和1,获得具有标签的样本数据。
3.按权利要求1所述面向社交网络的热点事件预测方法,其特征在于,所述步骤2具体包括如下步骤:
步骤2.1、设置时序kt,kt∈[1,T],T为时序切分的总数;
步骤2.2、根据点互信息(PMI)算法,计算关键词语之间的相互依存关系:
Figure FDA0004072460510000021
其中,Dt为时序内文本集合总数,dt(i,j)为在时序内关键词语i与关键词语j同时出现的文本总数,dt(i)与dt(j)分别为在时序内关键词语i与关键词语j至少出现一次的文本总数;
将关键词语以图结构的形式进行建模,构建带有节点特征的时序图结构,并将时序图结构以邻接矩阵的形式表示At
Figure FDA0004072460510000022
步骤2.3、利用图卷积网络(GCN)模块对时序图结构中节点进行卷积处理,捕获邻域信息,获得图卷积编码的文本特征向量
Figure FDA0004072460510000023
Figure FDA0004072460510000024
其中,g为ReLU激活函数,Ht表示初始特征向量,
Figure FDA0004072460510000025
表示邻接矩阵At归一化处理后的对称邻接矩阵,W(t)、b(t)均为模型参数。
4.按权利要求1所述面向社交网络的热点事件预测方法,其特征在于,所述步骤4具体包括如下步骤:
步骤4.1、对文本特征向量
Figure FDA0004072460510000026
进行可学习的线性变换,获得最终文本特征向量
Figure FDA0004072460510000027
Figure FDA0004072460510000028
其中,WT为权重矩阵,bT为模型参数;
步骤4.2、利用分类器进行分类预测计算,获得预测结果:
Figure FDA0004072460510000031
CN202111032195.4A 2021-09-03 2021-09-03 一种面向社交网络的热点事件预测方法 Active CN113806534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111032195.4A CN113806534B (zh) 2021-09-03 2021-09-03 一种面向社交网络的热点事件预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111032195.4A CN113806534B (zh) 2021-09-03 2021-09-03 一种面向社交网络的热点事件预测方法

Publications (2)

Publication Number Publication Date
CN113806534A CN113806534A (zh) 2021-12-17
CN113806534B true CN113806534B (zh) 2023-04-18

Family

ID=78942385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111032195.4A Active CN113806534B (zh) 2021-09-03 2021-09-03 一种面向社交网络的热点事件预测方法

Country Status (1)

Country Link
CN (1) CN113806534B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024688A1 (zh) * 2018-08-01 2020-02-06 深圳市心流科技有限公司 注意力测评方法、系统及计算机可读存储介质
CN111161535A (zh) * 2019-12-23 2020-05-15 山东大学 基于注意力机制的图神经网络交通流量预测方法及系统
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112183881A (zh) * 2020-10-19 2021-01-05 中国人民解放军国防科技大学 一种基于社交网络的舆情事件预测方法、设备及存储介质
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN112966743A (zh) * 2021-03-08 2021-06-15 携程计算机技术(上海)有限公司 基于多维度注意力的图片分类方法、系统、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824949B2 (en) * 2018-09-27 2020-11-03 Babylon Partners Limited Method and system for extracting information from graphs
US11769055B2 (en) * 2019-01-10 2023-09-26 Arizona Board Of Regents On Behalf Of Arizona State University Systems and methods for a supra-graph based attention model for multi-layered embeddings and deep learning applications

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024688A1 (zh) * 2018-08-01 2020-02-06 深圳市心流科技有限公司 注意力测评方法、系统及计算机可读存储介质
WO2020140633A1 (zh) * 2019-01-04 2020-07-09 平安科技(深圳)有限公司 文本主题提取方法、装置、电子设备及存储介质
WO2021068528A1 (zh) * 2019-10-11 2021-04-15 平安科技(深圳)有限公司 基于卷积神经网络的注意力权重计算方法、装置及设备
CN111161535A (zh) * 2019-12-23 2020-05-15 山东大学 基于注意力机制的图神经网络交通流量预测方法及系统
CN111428026A (zh) * 2020-02-20 2020-07-17 西安电子科技大学 一种多标签文本分类处理方法及系统、信息数据处理终端
CN111598710A (zh) * 2020-05-11 2020-08-28 北京邮电大学 社交网络事件的检测方法和装置
CN112084335A (zh) * 2020-09-09 2020-12-15 电子科技大学 一种基于信息融合的社交媒体用户账号分类方法
CN112183881A (zh) * 2020-10-19 2021-01-05 中国人民解放军国防科技大学 一种基于社交网络的舆情事件预测方法、设备及存储介质
CN112966743A (zh) * 2021-03-08 2021-06-15 携程计算机技术(上海)有限公司 基于多维度注意力的图片分类方法、系统、设备及介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Boyan Chen等.DGRL: Text Classification with Deep Graph Residual Learning.《ADMA 2020: Advanced Data Mining and Applications》.2021,83-97. *
Hongfan Ye等.A Web Services Classification Method Based on GCN.《2019 IEEE Intl Conf on Parallel & Distributed Processing with Applications, Big Data & Cloud Computing, Sustainable Computing & Communications, Social Computing & Networking》.2020,1107-1114. *
张志扬;张凤荔;陈学勤;王瑞锦.基于分层注意力的信息级联预测模型.计算机科学.2020,(第06期),207-215. *
杨顺成;李彦;赵其峰.基于GCN和Bi-LSTM的微博立场检测方法.重庆理工大学学报(自然科学).2020,(第06期),175--181. *

Also Published As

Publication number Publication date
CN113806534A (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
Zhao et al. Cyberbullying detection based on semantic-enhanced marginalized denoising auto-encoder
CN111209386B (zh) 一种基于深度学习的个性化文本推荐方法
CN113704546B (zh) 基于空间时序特征的视频自然语言文本检索方法
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
WO2020108430A1 (zh) 一种微博情感分析方法及系统
CN112765480B (zh) 一种信息推送方法、装置及计算机可读存储介质
CN108399241B (zh) 一种基于多类特征融合的新兴热点话题检测系统
CN109766432A (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
CN104484343A (zh) 一种对微博进行主题发现与追踪的方法
CN107870957A (zh) 一种基于信息增益和bp神经网络的热门微博预测方法
CN110046353B (zh) 一种基于多语言层次机制的方面级情感分析方法
CN113806547B (zh) 一种基于图模型的深度学习多标签文本分类方法
Uppal et al. Fake news detection using discourse segment structure analysis
CN113705099B (zh) 基于对比学习的社交平台谣言检测模型构建方法及检测方法
Srikanth et al. [Retracted] Sentiment Analysis on COVID‐19 Twitter Data Streams Using Deep Belief Neural Networks
Pan et al. Semantic graph neural network: A conversion from spam email classification to graph classification
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
CN116910238A (zh) 一种基于孪生网络的知识感知虚假新闻检测方法
CN116910013A (zh) 基于语义流图挖掘的系统日志异常检测方法
Nurcahyawati et al. Improving sentiment reviews classification performance using support vector machine-fuzzy matching algorithm
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法
CN113806534B (zh) 一种面向社交网络的热点事件预测方法
CN117216265A (zh) 一种基于改进的图注意力网络新闻主题分类方法
CN115391522A (zh) 一种基于社交平台元数据的文本主题建模方法及系统
Lan et al. Mining semantic variation in time series for rumor detection via recurrent neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant