CN113806534B

CN113806534B - 一种面向社交网络的热点事件预测方法

Info

Publication number: CN113806534B
Application number: CN202111032195.4A
Authority: CN
Inventors: 田玲; 许毅; 惠孛; 张栗粽; 罗光春; 冀柯曦; 樊美琦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2023-04-18
Anticipated expiration: 2041-09-03
Also published as: CN113806534A

Abstract

本发明属于热点事件预测技术领域，具体提供一种面向社交网络的热点事件预测方法，用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。本发明首先，基于图卷积神经网络捕捉文本邻域语义信息，能够充分挖掘关键词语之间的依存关系；其次，提出维度注意力机制，改进图神经网络的动态分层传播方式，通过维度注意力机制生成重点特征摘要，并将其用于缩放原特征，自适应地调整各个维度特征响应值，增加事件预测中有价值词语的权重，同时抑制价值较弱词语的权重，即充分捕捉社交网络文本时变信息；最终，基于关键词语邻域信息与时序信息充分挖掘文本数据价值，提高模型预测的准确率，具有实用价值。

Description

一种面向社交网络的热点事件预测方法

技术领域

本发明属于热点事件预测技术领域，涉及图神经网络在热点事件预测技术中的应用，具体提供一种面向社交网络数据的基于动态图神经网络的热点事件预测方法。

背景技术

如今，社交网络已经逐渐渗入人们生活各个方面，包括社会、政治和经济等；社交网络开放性强、信息传播迅速，吸引了海量用户，成为公众发布社会消息、讨论现实事件的重要渠道；社交网络事件通常是现实事件在网络空间的映射，大量研究人员展开面向社交网络的热点事件预测研究。有学者从数学上将热点事件预测问题定义为预测一个可观测的事件在未来是否会成为热点，目前研究面向社交网络的热点事件预测任务主要包含以下三类：预测网络事件是否成为热点、预测事件在某个时间热度值、预测事件变热的概率，根据预测方法的不同将其分为基于传统机器学习和基于深度学习两种方法。

Suh等人针对单条推文流行度预测问题，基于用户信息、文本内容，利用主成分分析(PCA)与广义线性模型(GLM)寻找早期特征与转发数量之间的关系。Zhang等人则选择事件相关文本，用户兴趣、影响力以及历史流行度实现流行度线性函数建模，解决事件下一时刻流行度预测问题。目前现有研究事件预测问题大多围绕用户属性、级联关系等特征，较少研究考虑利用文本信息对热度变化进行建模。Geng等人提出一种基于推特数据的时空事件预测生成模型，该模型通过对结构背景和时空突发性联合建模，刻画未来事件的潜在发展。Deng等人提出的动态图卷积神经网络(DGCN)利用事件上下文，以动态图结构形式对节点信息建模，揭示节点之间隐藏的关联信息，分析单词之间隐藏时序联系，能够影响未来事件预测效果。

社交网络用户之间相互关注，构成错综复杂的网络结构，信息传播演变模式更加复杂，数据具有多维、多源和异构等特点，现有方法主要利用机器学习方法。基于传统机器学习方法多是特征驱动的，许多特征是由专家根据先验知识而精心设计的，该类方法性能较多依赖于特征表示，但没有明确统一设计、测量特征原则，存在丢失重要信息的可能性。而基于深度学习方法可解释性较差，难以直观描述事件热度变化的原因，不能充分捕捉社交网络中信息时变的活跃水平。此外，用户发布在社交网络的信息以文本内容为主，在以往针对热度预测问题的研究中，通常利用的文本信息只有事件或话题名称，没有充分利用社交网络文本数据；并且，文本数据价值稀疏，难以从中挖掘潜在有价值信息，事件文本内容更是随时间动态变化，应该充分考虑其时序特征。

发明内容

本发明的目的在于提供一种面向社交网络数据的基于图神经网络的热点事件预测方法，用以解决现有技术中文本数据价值挖掘不够、动态时序特征与上下文语义信息利用不充分等技术问题。

为实现上述目的，本发明采用的技术方案如下：

一种面向社交网络的热点事件预测方法，包括以下步骤：

步骤1、对源数据进行数据预处理得到文本数据，并对每条文本数据进行0、1分类标记，获得样本数据；

步骤2、根据预定时序将样本数据构建为带有节点特征的时序图结构数据，利用图卷积神经网络对时序图结构数据进行处理，通过图卷积模块进行卷积操作，获得聚合关键词语邻域信息的文本特征向量；

步骤3、通过维度注意力机制对步骤2所得文本特征向量进行编码，捕捉其时序相关性，获得聚合关键词语邻域信息与时序信息的文本特征向量；

步骤4、对步骤3所得文本特征向量进行可学习的线性变换，获得最终文本特征向量，并利用分类器进行分类预测计算，获得预测结果。

进一步的，所述步骤1具体包括如下步骤：

步骤1.1、对源数据集进行随机采样，再对采样后数据依次进行事件合并、噪声清洗、时序切分预处理，再利用jieba工具对文本进行分词处理，再利用TF-IDF方法对关键词语进行提取过滤，再利用GloVe算法对关键词语进行预训练、生成关键词语的初始特征向量，得到文本数据；

步骤1.2、将预测问题定义为事件是否变为热点的二分类任务，根据设定的事件转发量阈值对文本数据进行标签标记，类别标签包括0和1，获得具有标签的样本数据。

进一步的，所述步骤2具体包括如下步骤：

步骤2.1、设置时序k_t，k_t∈[1,T]，T为时序切分的总数；

步骤2.2、根据点互信息(PMI)算法，计算关键词语之间的相互依存关系：

其中，D_t为时序内文本集合总数，d_t(i,j)为在时序内关键词语i与关键词语j同时出现的文本总数，d_t(i)与d_t(j)分别为在时序内关键词语i与关键词语j至少出现一次的文本总数；

将关键词语以图结构的形式进行建模，构建带有节点特征的时序图结构，并将时序图结构以邻接矩阵的形式表示A_t：

步骤2.3、利用图卷积网络(GCN)模块对时序图结构中节点进行卷积处理，捕获邻域信息，获得图卷积编码的文本特征向量

其中，g为ReLU激活函数，H_t表示初始特征向量，

表示邻接矩阵A_t归一化处理后的对称邻接矩阵，W^(t)、b^(t)均为模型参数。

进一步的，所述步骤3具体包括如下步骤：

步骤3.1、基于维度注意力机制对文本特征向量进行编码，利用可学习的权重矩阵将上一时序文本特征向量

与当前时序文本特征向量

进行可学习的线性变换：

其中，

与

为权重矩阵，

与

为模型参数；

再将变换结果以预定比例进行拼接组合，获得拼接文本特征向量

步骤3.2、利用全局平均池化方法计算文本特征向量各个维度的特征统计量：

其中，F代表文本特征维度，n代表词语个数；

表示关键词语j的第f维特征；

再利用激活函数处理特征统计量，获得文本特征摘要

其中，σ则为sigmod激活函数，W₁与W₂均为权重矩阵；

步骤3.3、将文本特征摘要通过点乘运算对拼接特征向量进行缩放，获得文本特征向量

进一步的，所述步骤4具体包括如下步骤：

步骤4.1、对文本特征向量

进行可学习的线性变换，获得最终文本特征向量

其中，W_T为权重矩阵，b_T为模型参数；

步骤4.2、利用分类器进行分类预测计算，获得预测结果：

与现有技术相比，本发明的有益效果在于：

本发明提供一种面向社交网络的热点事件预测方法，将图卷积神经网络技术用于社交网络文本数据建模，首先，基于图卷积神经网络捕捉文本邻域语义信息，能够充分挖掘关键词语之间的依存关系；其次，提出维度注意力机制，改进图神经网络的动态分层传播方式，通过维度注意力机制生成重点特征摘要，并将其用于缩放原特征，自适应地调整各个维度特征响应值，增加事件预测中有价值词语的权重，同时抑制价值较弱词语的权重，即充分捕捉社交网络文本时变信息；最终，基于关键词语邻域信息与时序信息充分挖掘文本数据价值，提高模型预测的准确率，具有实用价值。

附图说明

图1为本发明实施例中面向社交网络的热点事件预测方法的流程图。

图2为本发明实施例中预处理流程图。

图3为本发明实施例中图卷积编码过程流程图。

图4为本发明实施例中维度注意力机制编码过程流程图。

图5为本发明实施例中分类预测流程图。

具体实施方式

为使本发明的技术方案、技术效果更加清楚，下面结合附图和实施例对本发明做进一步详细说明。

本实施例提供一种面向社交网络数据的基于图神经网络的热点事件预测方法，所述网络数据来源于网络开源的社交网络平台微博的数据，主要包含事件名称、针对该事件用户发布的文本与对应时序等。

所述面向社交网络数据的热点事件预测方法如图1所示，包括：数据预处理、模型图卷积编码、模型维度注意力机制编码、模型结果输出(分类预测)，其中，数据预处理用于为后续的步骤做准备工作，图卷积编码用于将文本数据编码为一种具有节点特征的图结构、获得对应文本特征向量，维度注意力机制用于将文本特征向量进一步编码、获得蕴含时序特征的新文本特征向量；更为具体的讲：

步骤1.数据预处理；如图2所示，首先对源数据进行相应预处理，并对每条样本数据进行0、1分类标记，获得预处理数据，具体如下：

步骤1.1文本数据预处理，过程如下：

步骤1.1.1随机采样，考虑到源数据集过大，设置对应比例，本实施例中为5％，对源数据集进行随机采样；

步骤1.1.2事件合并，对于数据集中带有相同名称标签的事件进行合并，在本发明中，认为事件名称相同的数据代表用户针对同一事件展开讨论；

步骤1.1.3噪声清洗，由于本发明主要考虑的是中文文本数据，因此对于url超链接、非中文字符、表情包等数据进行清洗过滤；

步骤1.1.4时序切分，预设一个时序间隔k，将总时间内所有文本数据切分为T份，若k为1、以天为单位，总时间为5天，即表示将事件发生后5天内收集到的数据切分为5个部分；

步骤1.1.5文本分词，针对于每个时间间隔(时序)内的文本数据，利用jieba工具，基于自定义词典，进行分词处理；

步骤1.1.6关键词提取过滤，利用TF-IDF方法将极少出现与极多出现的词语进行过滤，得到关键词语；TF代表词频，即某词语在语料库当中的出现次数；IDF则代表文件频率，即如果某个词其实是一个较为少见的词、但是它存在于许多文本篇章当中，这种情况则表示这个词很可能是重要的关键词；而对于TF与IDF的计算公式中，N_v表示词语v出现在语料库中总次数，N_w表示全部词语总数量，N_wb表示微博篇章总数量，

则表示包含词语v的微博数量；

步骤1.1.7词语预训练，基于GloVe算法对于提取出的关键词语进行预训练，生成词语初始特征向量，表示为H_t；

步骤1.2样本数据类别标记，将预测问题定义为事件是否变为热点的二分类任务，根据设定的事件转发量阈值对样本进行标签标记，类别标签包括0和1，获得具有标签的样本数据；

步骤2.模型图卷积编码；如图3所示，采用图卷积神经网络编码时序文本图结构数据，具体如下：

步骤2.1设置时序k_t，k_t∈[1,5]；

步骤2.2将关键词语以图结构的形式进行建模，构建生成一系列带有节点特征的图结构，具体如下：

步骤2.2.1针对当前时序k_t，基于点互信息(PMI)算法，计算词语之间的相互依存关系：

其中，D_t代表时序内文本篇章集合总数，d_t(i,j)代表在时序内关键词语i与关键词语j同时出现的文本总数，d_t(i)与d_t(j)分别代表在时序内关键词语i与关键词语j至少出现一次的文本总数；

步骤2.2.2将文本数据构建为带有节点特征的图结构，以邻接矩阵的形式表示时序图结构；计算PMI_t(i,j)时，当其值大于0的时候，意味着语料库中单词的语义相关性非常高，因此只考虑在这种情况下为节点添加加权边，将构建的图结构表示为一系列邻接矩阵[A₁,A₂,...,A_t,...,A_T]，其中，t＝1,2,...,T，

步骤2.3在时序k_t所对应的单层模型结构中，利用图卷积神经网络(GCN)模块对图中节点进行卷积处理，每个节点通过接受周围其它节点传递信息改变自身的特征表示，获得图卷积编码的文本特征向量：

其中，g为一个非线性ReLU激活函数，H_t表示初始特征向量，

表示邻接矩阵A_t归一化处理后的对称邻接矩阵，W^(t)、b^(t)均为模型参数；

步骤3.模型维度注意力机制编码；如图4所示，通过维度注意力机制编码上一步得到文本特征向量，获得聚合词语邻域信息与时序信息的文本特征向量具体如下：

步骤3.1基于维度注意力机制，将上层特征与当前特征进行拼接处理，具体如下：

步骤3.1.1利用可学习的权重矩阵将上层文本特征向量

与当前层文本特征向量H_t进行可学习的线性变换；将两个权重矩阵

与

应用到

和

两个文本特征向量，进行可学习的线性变换，得到特征向量

与

其中，

与

为模型参数；

步骤3.1.2将变换结果

与

以预设比例进行串联组合，并传入激活函数g，获得拼接文本特征向量：

步骤3.2计算拼接文本特征的摘要信息，对所有维度特征进行信息收缩放大，具体如下：

步骤3.2.1利用全局平均池化方法计算拼接文本特征向量各个维度的特征统计量：

其中，F代表文本特征维度，n代表词语个数；

表示词语j的第f维特征；

步骤3.2.2将特征统计量传入激活函数中进一步处理，获得文本特征摘要，

其中，g代表校正线性单位ReLU激活函数，σ则为sigmod激活函数，W₁与W₂均为权重矩阵；

步骤3.3将文本特征摘要用于缩放拼接文本特征向量，即将特征摘要

作为权重，对拼接后的特征向量

重新进行加权处理，获得蕴含时序信息的新文本特征向量

为点乘运算符；

步骤4.模型结果输出；如图5所示，利用分类器进行分类预测计算，获得预测结果，具体如下：

步骤4.1网络结构由多层图卷积与维度注意力机制叠加组成，模型最后一层的网络结构仅由图卷积模块生成文本特征向量，文本由图卷积模块编码，获得文本特征向量H_T；对最后文本特征向量进行线性变换生成最终特征向量：

其中，W_T为权重矩阵，b_T为模型参数；

步骤4.2将预测结果分为热点与非热点两类，利用分类器进行分类预测计算，获得预测结果：

并选用二元交叉熵做为损失函数，将预测值与真实值进行比较，利用反向传播算法进行训练：

y为标签，

为模型预测结果。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。