CN114928548A - 一种社交网络信息传播规模预测方法及装置 - Google Patents

一种社交网络信息传播规模预测方法及装置 Download PDF

Info

Publication number
CN114928548A
CN114928548A CN202210445503.4A CN202210445503A CN114928548A CN 114928548 A CN114928548 A CN 114928548A CN 202210445503 A CN202210445503 A CN 202210445503A CN 114928548 A CN114928548 A CN 114928548A
Authority
CN
China
Prior art keywords
time
user
node
graph
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210445503.4A
Other languages
English (en)
Other versions
CN114928548B (zh
Inventor
吴臻
周经亚
王杰
孙锡刚
谷飞
王进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210445503.4A priority Critical patent/CN114928548B/zh
Publication of CN114928548A publication Critical patent/CN114928548A/zh
Application granted granted Critical
Publication of CN114928548B publication Critical patent/CN114928548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Business, Economics & Management (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种社交网络信息传播规模预测方法及装置,首先通过对用户之间的关注关系进行采样,并构建异构图解决了多源信息传播结构上的不连通问题;然后,对用户转发的时间序列划分时间段,并进一步根据这些时间段向异构图中添加时间节点,并连接对应时间段内的用户,使得构建的异构图也有了表达时间特征的能力;最后,通过对异构图中的时间节点使用循环神经网络提取时间特征,并和使用图卷积神经网络的结构特征学习多轮交替进行,从而实现时间特征和结构特征之间双向强依赖关系的学习。

Description

一种社交网络信息传播规模预测方法及装置
技术领域
本发明涉及社交网络分析技术领域,尤其是指一种社交网络信息传播规模预测方法、设备、装置及计算机存储介质。
背景技术
现有的技术中,本发明主要涉及社交网络及其应用的相关领域。随着互联网的快速发展,手机和电脑的普及、网络通讯的发展使得新浪微博、Twitter和Facebook等社交网络已经成为人们生活的必不可少一部分。对个人而言,社交网络成为了人们信息交换的重要场所;对社交平台而言,社交网络成为了数据收集、推广盈利的渠道;对社会而言,社交网络成为了主流的舆论场以及垃圾信息和恶意信息的重灾区。
同时,社交网络中丰富的用户群体使得社交网络中包含着各种各样的数据,如新浪微博的用户有着基本信息、个人喜好、历史发布、转发评论、关注关系等数据。而人们在社交网络中的发布、转发等行为,也使得信息通过文字、视频、图片等载体在社交网络中流动、传播。
显然,决定信息最终传播量(流行度)的重要因素之一,便是用户之间的交互关系:被众多粉丝所关注的用户所发布的信息更容易被广泛地传播;此外,另一个重要因素便是时间,即信息也存在时效性:以微博为例,用户所发布的信息是不容易在社交网络中被传播数年之久的。综上,如何综合考量用户与用户之间的交互、信息传播与时间的关联成为了社交网络中信息传播规模预测的一大难题。
更为特别的是,传统意义上的信息往往指单个用户所发布的,是一种微观角度的信息。但实际上在社交网络中信息还会以“话题”这一宏观形式出现,如新浪微博中用户能通过双井号给要发布消息打上话题标签。这种宏观的信息不再局限于单个用户进行发布(即单源),而是存在多个用户在不同时刻自发地发布相关内容(即多源),是消息、观点、事件等信息的一种更为抽象的形态,在这种话题的视角下,存在着其中单个用户所发布的信息停止了传播,但是同话题下其他用户的信息还在继续传播的不同步传播情况。因此,如何基于单源信息的处理框架,去构架一个能处理更为复杂、更为抽象的多源信息的模型,成为了该领域的巨大挑战。
对于社交网络中的流行度预测问题,通常以单条消息传播的“用户-用户-时间”三元组时间序列为基础的数据单元,如用户A的消息被用户B在t1时刻转发,而B又被C在t2时刻转发,则会得到如下三元组序列:[(A,B,t1),(B,C,t2)]。现有的预测方法主要分析用户之间的转发结构以及信息随时间的影响衰减,将这些结构图和时序数据嵌入到一个低维度的向量空间,再基于低维的嵌入向量进行非线性变换,得到最终预测结果。这个过程可以被理解为一个函数映射的过程:通过将所有的数据分为多个部分,将其中一部分的数据反复地通过该函数进行映射,并对比真实流行度和映射结果之间的误差用于对映射函数进行优化;在完成映射函数的优化后将其用于实际的流行度预测,并用另外一部分数据对映射函数最终的准确度进行评估。
现有的用于社交网络信息传播预测方法的缺点在于:
首先,现有方法的应用场景局限于单源的信息。多源的信息在传播结构和时间上都和单源信息有着本质上的区别,如结构上的不连通性、时间上不同用户所发布消息的不同步性。因此,直接将现有的方法应用到多源信息场景下的预测难以取得较准确的预测结果;
其次,目前信息传播预测研究常用的数据结构多为图或序列,这些基础的数据结构难以同时表达复杂的结构和时间信息。对于序列而言,难以直观地表达出多源转发结构的“一个话题有多少源用户自发的参与”等特征;而对于图结构,则难以表达出如“某一个时间段内有多少用户转发”等时间上的特征等。因此,使用这些基础的数据结构很难同时、准确地对信息传播的特征进行表示。
发明内容
为此,本发明所要解决的技术问题在于克服现有技术中多源信息结构不连通,难以同时表达复杂的结构和时间信息的问题。
为解决上述技术问题,本发明提供了一种社交网络信息传播规模预测方法、设备、装置及计算机存储介质,包括:
观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
优选地,所述根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边包括:
将用户转发关系repost的邻接矩阵记为Erepost,计算其中任意两点间的边作为第一异构边:
Figure BDA0003616622040000031
其中,(u,v,ts)表示用户v在ts时刻转发了用户u的信息,c为在
Figure BDA0003616622040000034
时长内观测到的转发数据
Figure BDA0003616622040000032
i表示第i个级联,j是具体某一个级联中的第j个转发行为,
Figure BDA0003616622040000033
为所述转发数据中所有用户的集合;
将用户关注关系follow的邻接矩阵记为
Figure BDA0003616622040000041
对用户集合
Figure BDA0003616622040000042
中的用户采样H跳的子图,得到
Figure BDA0003616622040000043
其中任意两个用户之间的第二异构边计算如下:
Figure BDA0003616622040000044
其中Sign为符号函数,将大于0的数映射1,否则为0;
此时,得到了包含一种用户类型user节点的异构图。
优选地,所述对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图包括:
对所述转发数据
Figure BDA0003616622040000045
等间距地划分为NT个时间段,得到
Figure BDA0003616622040000046
并将每个时间段映射为所述异构图中的时间节点
Figure BDA0003616622040000047
此时,得到了包含用户类型user节点和时间类型time节点的异构图;
将描述用户发表或转发于某个时段的所述用户-时间关系repostat的邻接矩阵记为
Figure BDA0003616622040000048
其中用户节点和时间节点的边计算如下:
Figure BDA0003616622040000049
其中,tsj是第j个时间戳,Ti是划分的第i个时间段;
将邻接矩阵
Figure BDA00036166220400000410
转置,得到描述某一时段包含用户的所述时间-用户关系contain的邻接矩阵
Figure BDA00036166220400000411
将相邻的时间节点进行顺序的连接,得到描述时间节点之间过渡关系postto的邻接矩阵
Figure BDA00036166220400000412
两个时间节点之间的边计算如下:
Figure BDA00036166220400000413
优选地,所述目标异构图包含5类关系:用户转发关系repost、用户关注关系follow、时间节点之间过渡关系pastto、用户-时间关系repostat、时间-用户关系contain、2类节点:用户类型user节点、时间类型time节点,所述5类关系对应的边特征集合
Figure BDA0003616622040000051
和所述2类节点对应的节点特征集合
Figure BDA0003616622040000052
组成目标异构图特征集合
Figure BDA0003616622040000053
其中,Xrepost为用户转发关系边特征,Xfollow为用户关注关系边特征,Xrepostat为用户-时间关系边特征,Xcontain为时间-用户关系边特征,Xpastto为时间节点之间过渡关系边特征,Xuser为用户类型节点特征,Xtime为时间类型节点特征。
优选地,所述利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模包括:
交替地进行针对所述目标异构图特征集合的图卷积神经网络和针对所述时间类型节点特征的循环神经网络学习,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度;
根据所述预测流行度与真实传播规模进行比较并计算误差,并基于所述误差使用反向传播算法进行迭代优化。
优选地,所述交替地进行针对所述目标异构图特征集合的图卷积神经网络和针对所述时间类型节点特征的循环神经网络学习,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度包括:
将所述目标异构图特征集合输入叠加的L层图卷积神经网络,每一层所述图卷积神经网络的输入都是上一层的输出,并且在每一层所述图卷积神经网络之间,针对上一层所述图卷积神经网络输出的目标异构图特征集合中的时间节点特征进行循环神经网络学习,得到下一层图卷积神经网络输入的时间节点特征;
通过堆叠的多层所述图卷积神经网络和所述循环神经网络计算后,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度。
优选地,所述根据所述预测流行度与真实传播规模进行比较并计算误差,并基于所述误差使用反向传播算法进行迭代优化包括:
根据所述预测流行度与真实传播规模进行比较并计算对数变换的均方误差
Figure BDA0003616622040000061
其中,
Figure BDA0003616622040000062
为所述预测流行度,y为所述真实传播规模;
统计图卷积神经网络和循环神经网络中所有参数的L2正则项,用于防止模型过拟合,并将其和所述均方误差相加,得到最终的损失loss=MSLE+L2
通过对所述损失进行反向传播,对模型进行更新直至所述损失不再显著变化。
本发明还提供了一种社交网络信息传播规模预测的装置,包括:
转发数据获取模块,用于观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
异构图构建模块,用于根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
时间节点增加模块,用于对所述转发数据等距离地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
规模预测模块,用于利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
本发明还提供了一种社交网络信息传播规模预测的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种社交网络信息传播规模预测的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种社交网络信息传播规模预测的方法的步骤。
本发明的上述技术方案相比现有技术具有以下优点:
本发明所提出的社交网络信息传播预测方法,采样到关注关系中存在着连通传播结构的边,提供了基础的处理不连通的多源信息传播结构的能力;添加的时间节点既从时间这一维度连通了多源信息传播的结构图,提供了处理多源传播结构能力的同时又避免了基础数据结构的表达能力弱的问题,使得构建的异构图有了表达诸如“一个时间段内有多少用户转发”等时间特征的能力;通过对异构图中的时间节点使用循环神经网络提取时间特征,并和使用图卷积神经网络的结构特征学习多轮交替进行,从而实现时间特征和结构特征之间双向强依赖关系的学习,根据所构建的异构图进行规模预测,能够应用于多源场景下,预测结果也更加精确。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中:
图1是本发明社交网络信息传播规模预测的实现流程图;
图2是本发明所构建的异构图示意图;
图3是本发明社交网络信息传播规模预测方法流程图;
图4是本发明实施例提供的一种社交网络信息传播规模预测的装置的结构框图。
具体实施方式
本发明的核心是提供一种社交网络信息传播规模预测的方法、装置、设备及计算机存储介质,使得多源信息结构连通,并能够同时表达复杂的结构和时间信息的问题。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的社交网络信息传播规模预测的实现流程图;具体操作步骤如下:
S101:观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
本发明社交网络信息传播预测方法用于评估社交网络中单源或多源信息传播的规模(即总转发量),可用于恶意消息/用户风险评估、舆情监控、推广营销等领域。对于社交网络中的单源或多源信息,我们观测其
Figure BDA00036166220400000813
时长(如2小时)的传播。
对社交网络中任何一条单源或多源信息i,其完整转发的数据用三元组序列
Figure BDA0003616622040000081
表示,其中
Figure BDA0003616622040000082
表示最终的转发时间戳、每一个三元组表示v在ts时刻转发了u的信息。在我们观测到的数据
Figure BDA0003616622040000083
中,其中所有用户的集合为
Figure BDA0003616622040000084
S102:根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
将用户转发关系的邻接矩阵记为Erepost,计算其中任意两点间的边作为第一异构边:
Figure BDA0003616622040000085
其中,(u,v,ts)为某用户v在ts时刻转发了另一用户u的信息,c为在
Figure BDA0003616622040000086
时长内观测到的转发数据
Figure BDA0003616622040000087
i表示第i个级联,j是具体某一个级联中的第j个转发行为,
Figure BDA0003616622040000088
为所述转发数据中所有用户的集合;
将用户关注关系的邻接矩阵记为
Figure BDA0003616622040000089
对用户集合
Figure BDA00036166220400000810
中的用户采样H跳的子图,得到
Figure BDA00036166220400000811
其中任意两个用户之间的第二异构边计算如下:
Figure BDA00036166220400000812
其中Sign为符号函数,将大于0的数映射1,否则为0;
此时,得到了包含一种用户类型user节点的异构图。
S103:对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
对观测到的
Figure BDA0003616622040000091
等距地划分NT个时间段得到
Figure BDA0003616622040000092
并将每一个时间段映射为一个异构图中的时间节点,得到
Figure BDA0003616622040000093
此时,得到了包含用户类型user节点和时间类型time节点的异构图,然后将其中每一个时间节点与对应时间段内的用户建立双向的边(即时间-用户和用户-时间的关系)。此外,在相邻的时间节点间,我们也建立边相连,最终得到异构图中时间节点与时间节点、时间节点与用户节点的多种边,此时的目标异构图我们记为Gc
将描述用户发表或转发于某个时段的所述用户-时间关系的邻接矩阵记为
Figure BDA0003616622040000094
其中用户节点和时间节点的边计算如下:
Figure BDA0003616622040000095
其中,tsj是第j个时间戳,Ti是划分的第i个时间段;
将邻接矩阵
Figure BDA0003616622040000096
转置,得到描述某一时段包含用户的所述时间-用户关系的邻接矩阵
Figure BDA0003616622040000097
将相邻的时间节点进行顺序的连接,得到描述时间节点之间过渡关系的邻接矩阵
Figure BDA0003616622040000098
两个时间节点之间的边计算如下:
Figure BDA0003616622040000099
如图2所示,所述目标异构图包含5类关系:用户转发关系repost、用户关注关系follow、时间节点之间过渡关系pastto、用户-时间关系repostat、时间-用户关系contain、2类节点:用户类型user节点、时间类型time节点,所述5类关系对应的边特征集合
Figure BDA00036166220400000910
和所述2类节点对应的节点特征集合
Figure BDA0003616622040000101
组成目标异构图特征集合
Figure BDA0003616622040000102
其中,Xrepost为用户转发关系边特征,Xfollow为用户关注关系边特征,Xrepostat为用户-时间关系边特征,Xcontain为时间-用户关系边特征,Xpastto为时间节点之间过渡关系边特征,Xuser为用户类型节点特征,Xtime为时间类型节点特征。
S104:利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
本发明所提出的社交网络信息传播预测方法,采样到关注关系中存在着连通传播结构的边,提供了基础的处理不连通的多源信息传播结构的能力;添加的时间节点既从时间这一维度连通了多源信息传播的结构图,提供了处理多源传播结构能力的同时又避免了基础数据结构的表达能力弱的问题,使得构建的异构图有了表达诸如“一个时间段内有多少用户转发”等时间特征的能力,通过对异构图中的时间节点使用循环神经网络提取时间特征,并和使用图卷积神经网络的结构特征学习多轮交替进行,从而实现时间特征和结构特征之间双向强依赖关系的学习,根据所构建的异构图进行规模预测,能够应用于多源场景下,预测结果也更加精确。
基于以上实施例,本实施例对步骤S104进行进一步详细说明,如下:
S401:交替地进行针对所述目标异构图特征集合的图卷积神经网络GCN,和针对所述时间类型节点特征的循环神经网络RNN学习,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度;
我们对RNN与GCN进行组合,叠加L层图卷积神经网络(GCN单层只能聚合节点1跳邻居的信息,通过叠加L层GCN,每一层GCN的输入都是上一层的输出,达到聚合多跳邻居的目的),并在每一层图卷积神经网络之间,针对上一层图卷积神经网络输出的时间类型节点特征进行循环神经网络学习,即第l层GCN的输入为
Figure BDA0003616622040000103
然后再对其中的时间类型节点特征
Figure BDA0003616622040000104
进行RNN,得到
Figure BDA0003616622040000105
最终得到用于下一层GCN计算的节点特征
Figure BDA0003616622040000111
作为下一层图卷积神经网络的输入;
单层GCN的计算过程如下:
首先,我们先对每一种类型的边(关系)进行聚合,第l层的操作记为
Figure BDA0003616622040000112
异构图一种类型的关系可以通用地表述为一个(头节点类型,边类型,尾点类型)的三元组,如(用户,转发,用户),记为(Tu,Te,Tv)。相应的,这种类型的关系所涉及的点、边在第l层的特征表示为
Figure BDA0003616622040000113
基于此,我们先将头节点和边的特征连接,得到
Figure BDA0003616622040000114
再学习一个注意力加权后的值
Figure BDA0003616622040000115
其中的σ为激活函数,AT(qry,ctx)表示注意力机制的加权求和函数,用于计算qry基于ctx的权重并求和;再将其计算的结果与尾节点特征连接作为输出,即
Figure BDA0003616622040000116
然后,由于一个节点可能在多种关系中扮演尾节点的角色,因此在按边类型进行聚合后,我们再将来自多种关系的特征聚合到一起作为新特征。对于节点特征,聚合更新的过程记为Aggl(v),我们使用求和池化进行聚合,即
Figure BDA0003616622040000117
其中
Figure BDA0003616622040000118
表示的图中对应节点入邻居的集合;对于边特征,我们通过对其头尾节点特征连接后再线性变换进行聚合,即
Figure BDA0003616622040000119
其中WE为可学习的权重矩阵。如此我们完成了单层GCN的计算。
通过堆叠的多层所述图卷积神经网络和所述循环神经网络计算后,得到信息嵌入XL,并根据所述信息嵌入计算得到预测流行度:
我们对消息的流行度进行预测。我们先对用户特征使用求和池化计算用户流行度因子
Figure BDA00036166220400001110
再通过注意力机制计算时间流行度因子
Figure BDA00036166220400001111
将两个流行度因子连接后通过线性变换输出:
Figure BDA00036166220400001112
其中MLP表示多层感知机(Multilayer Perceptron)用于对特征向量进行线性变换。
S402:根据所述预测流行度与真实传播规模进行比较并计算误差,并基于所述误差使用反向传播算法进行迭代优化。
根据所述预测流行度
Figure BDA0003616622040000121
与真实传播规模y进行比较并计算对数变换的均方误差
Figure BDA0003616622040000122
统计图卷积神经网络和循环神经网络中所有参数的L2正则项,用于防止模型过拟合,并将其和所述均方误差相加,得到最终的损失loss=MSLE+L2
通过对所述损失进行反向传播,对模型进行更新直至所述损失不再显著变化。
本发明所提出的社交网络信息传播预测方法,按照转发数据构建转发结构图,再根据c中用户的关注关系进行H跳的采样得到包含转发、关注两种关系的异构图,随后再向其中按照时间段的划分增加个时间节点,得到所需的异构图,其中采样到的关注关系中存在着连通传播结构的边,提供了基础的处理不连通的多源信息传播结构的能力,添加的时间节点既从时间这一维度连通了多源信息传播的结构图,提供了处理多源传播结构能力的同时又避免了基础数据结构的表达能力弱的问题,使得构建的异构图有了表达诸如“一个时间段内有多少用户转发”等时间特征的能力;集成了GCN与RNN,通过在叠加的GCN之间执行RNN,使得结构特征与时间特征交替学习,赋予了模型捕获结构和时间双向强依赖关系的能力。
综上,本发明所提出的方法弥补了传统模型在无法处理多源信息传播、基础数据结构表达能力弱、难以捕获结构和时间的强依赖这些方面的不足,是首个能高效预测社交网络中多源信息传播规模的方法。
如图3所示,基于以上实施例,本实施例通过在来自新浪微博和Twitter的真实数据集上进行实验,来验证我们所提出方法的有效性,实验设置如下:
数据上,我们从新浪微博中选择少量用户开始,通过其微博的互动、个人关注所涉及的用户不断地拓展涉及用户的范围。为了分别验证在单源信息和多源信息上的预测准确度,我们将得到的数据按照多源话题和单源信息整理出两个数据集:WbTopic和WbRepost。前者通过用户微博中的双井号标签提取话题并整理同一话题下的消息转发数据得到,后者则是仅包含单个用户所发微博的转发数据。WbTopic数据集共包含1018022个相关用户、19691条微博的5202207次及转发、6083719条用户关注边、同一话题下的平均微博数为12;WbRepost则包含887608个相关用户、10421条微博的2597945次转发以及3693057条用户关注关系。在两个数据集中我们过滤掉转发次数少于50的话题或微博。此外,我们还使用了一个爬取自Twitter的数据集,来验证我们提出的方法在国外社交网络上的准确度。Twitter数据集中包含来自8510个用户、2198条tweet的80070条转发,以及用户之间的365576条关注数据,并过滤掉了转发次数少于20的推文。可以看到,来自微博的两个数据集有着更大规模的单源、多源信息传播规模。
在实验中,我们设置激活函数σ为LeakyReLU,关注关系的采样跳数H为1,并使用Adam优化器对模型进行优化,设置等距地划分NT=10个时间段,并叠加3层GCN。通过预测值与真实值的MSLE来评估方法的准确性(MSLE值越小,算法误差越小,准确度越高)。
我们选择NodeVec(2016)、DeepCas(2017)、DeepHawkes(2017)、Topo-LSTM(2017)、CoupledGNN(2020)、CasCN(2019)作为对比的基准方法,在这三个数据集上分别设置观测时间
Figure BDA0003616622040000131
为2小时和24小时进行比较,其比较结果如表1所示。结果表明:
首先,我们提出的方法有着十分良好的性能。相比于最优的基准算法,在多个数据集上均有着十分显著的提升,如在WbRepost上
Figure BDA0003616622040000132
时,最好的基准算法为DeepHawkes,其MSLE为0.431,而本方法MSLE为0.031;
其次,我们提出的方法能更好地适用于多源信息的传播。所有的基准算法在多源数据集(WbTopic)上的性能表现相比于单源数据集(WbRepost)均有所衰减,如
Figure BDA0003616622040000133
时,基准算法CoupledGNN的性能从1.078衰减至2.328。而我们提出的方法则并无此问题,说明我们提出的方法不仅适用于单源信息的预测,也能较好地适用于在多源信息的预测场景下的信息传播规模预测问题,有着较好的通用性。
再次,本方法在不同规模的数据集上均有较好的通用性。大部分基准算法在规模较小的Twitter数据集上有着比大规模数据(WbTopic和WbRepost)更好的性能,而本方法则在不同规模的数据中均能取得较好的性能表现,说明本方法的准确度不依赖于输入的数据规模。
综上,实验结果表明我们提出的方法既能准确的预测单/多源的信息传播规模,又不依赖于输入数据的规模和观测的时长,能准确且通用地应用于社交网络中信息传播规模的预测问题。
表1 不同方法在MSLE指标下的实验比较结果
Figure BDA0003616622040000141
请参考图4,图4为本发明实施例提供的一种社交网络信息传播规模预测的装置的结构框图;具体装置可以包括:
转发数据获取模块100,用于观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
异构图构建模块200,用于根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
时间节点增加模块300,用于对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
规模预测模块400,用于利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
本实施例的社交网络信息传播规模预测装置用于实现前述的社交网络信息传播规模预测方法,因此社交网络信息传播规模预测装置中的具体实施方式可见前文社交网络信息传播规模预测方法的实施例部分,例如,转发数据获取模块100,异构图构建模块200,时间节点增加模块300,规模预测模块400分别用于实现上述社交网络信息传播规模预测方法中步骤S101,S102,S103,S104,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种社交网络信息传播规模预测的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种社交网络信息传播规模预测的方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种社交网络信息传播规模预测的方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (10)

1.一种社交网络信息传播规模预测方法,其特征在于,包括:
观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
2.根据权利要求1所述的社交网络信息传播规模预测方法,其特征在于,所述根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边包括:
将用户转发关系repost的邻接矩阵记为Erepost,计算其中任意两点间的边作为第一异构边:
Figure FDA0003616622030000011
其中,(u,v,ts)表示用户v在ts时刻转发了用户u的信息,c为在
Figure FDA0003616622030000012
时长内观测到的转发数据
Figure FDA0003616622030000013
i表示第i个级联,j是具体某一个级联中的第j个转发行为,
Figure FDA0003616622030000014
为所述转发数据中所有用户的集合;
将用户关注关系follow的邻接矩阵记为
Figure FDA0003616622030000015
对用户集合
Figure FDA0003616622030000016
中的用户采样H跳的子图,得到
Figure FDA0003616622030000021
其中任意两个用户之间的第二异构边计算如下:
Figure FDA0003616622030000022
其中Sign为符号函数,将大于0的数映射1,否则为0;
此时,得到了包含一种用户类型user节点的异构图。
3.根据权利要求2所述的社交网络信息传播规模预测方法,其特征在于,所述对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图包括:
对所述转发数据
Figure FDA0003616622030000023
等间距地划分为NT个时间段,得到
Figure FDA0003616622030000024
并将每个时间段映射为所述异构图中的时间节点
Figure FDA0003616622030000025
此时,得到了包含用户类型user节点和时间类型time节点的异构图;
将描述用户发表或转发于某个时段的所述用户-时间关系repostat的邻接矩阵记为
Figure FDA0003616622030000026
其中用户节点和时间节点的边计算如下:
Figure FDA0003616622030000027
其中,tsj是第j个时间戳,Ti是划分的第i个时间段;
将邻接矩阵
Figure FDA0003616622030000028
转置,得到描述某一时段包含用户的所述时间-用户关系contain的邻接矩阵
Figure FDA0003616622030000029
将相邻的时间节点进行顺序的连接,得到描述时间节点之间过渡关系postto的邻接矩阵
Figure FDA00036166220300000210
两个时间节点之间的边计算如下:
Figure FDA00036166220300000211
4.根据权利要求3所述的社交网络信息传播规模预测方法,其特征在于,所述目标异构图包含5类关系:用户转发关系repost、用户关注关系follow、时间节点之间过渡关系pastto、用户-时间关系repostat、时间-用户关系contain、2类节点:用户类型user节点、时间类型time节点,所述5类关系对应的边特征集合
Figure FDA0003616622030000031
和所述2类节点对应的节点特征集合
Figure FDA0003616622030000032
组成目标异构图特征集合
Figure FDA0003616622030000033
其中,Xrepost为用户转发关系边特征,Xfollow为用户关注关系边特征,Xrepostat为用户-时间关系边特征,Xcontain为时间-用户关系边特征,Xpastto为时间节点之间过渡关系边特征,Xuser为用户类型节点特征,Xtime为时间类型节点特征。
5.根据权利要求4所述的社交网络信息传播规模预测方法,其特征在于,所述利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模包括:
交替地进行针对所述目标异构图特征集合的图卷积神经网络和针对所述时间类型节点特征的循环神经网络学习,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度;
根据所述预测流行度与真实传播规模进行比较并计算误差,并基于所述误差使用反向传播算法进行迭代优化。
6.根据权利要求5所述的社交网络信息传播规模预测方法,其特征在于,所述交替地进行针对所述目标异构图特征集合的图卷积神经网络和针对所述时间类型节点特征的循环神经网络学习,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度包括:
将所述目标异构图特征集合输入叠加的L层图卷积神经网络,每一层所述图卷积神经网络的输入都是上一层的输出,并且在每一层所述图卷积神经网络之间,针对上一层所述图卷积神经网络输出的目标异构图特征集合中的时间节点特征进行循环神经网络学习,得到下一层图卷积神经网络输入的时间节点特征;
通过堆叠的多层所述图卷积神经网络和所述循环神经网络计算后,得到信息嵌入,并根据所述信息嵌入计算得到预测流行度。
7.根据权利要求5所述的社交网络信息传播规模预测方法,其特征在于,所述根据所述预测流行度与真实传播规模进行比较并计算误差,并基于所述误差使用反向传播算法进行迭代优化包括:
根据所述预测流行度与真实传播规模进行比较并计算对数变换的均方误差
Figure FDA0003616622030000041
其中,
Figure FDA0003616622030000042
为所述预测流行度,y为所述真实传播规模;
统计图卷积神经网络和循环神经网络中所有参数的L2正则项,用于防止模型过拟合,并将其和所述均方误差相加,得到最终的损失loss=MSLE+L2
通过对所述损失进行反向传播,对模型进行更新直至所述损失不再显著变化。
8.一种社交网络信息传播规模预测的装置,其特征在于,包括:
转发数据获取模块,用于观测一段时长内社交网络中单源或多源信息的传播,获取转发数据;
异构图构建模块,用于根据所述转发数据,将用户间转发关系构建为异构图中的第一异构边,并通过采样所述转发数据中用户的关注关系作为第二异构边;
时间节点增加模块,用于对所述转发数据等间距地划分多个时间段,并将每个时间段映射为所述异构图中的时间节点,将每一个所述时间节点与对应时间段内的用户建立时间-用户和用户-时间关系的双向边,并在相邻时间节点间建立边相连,得到目标异构图;
规模预测模块,用于利用深度学习算法根据所述目标异构图预测该段时长内社交网络中单源或多源信息的传播规模。
9.一种社交网络信息传播规模预测的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述一种社交网络信息传播规模预测的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述一种社交网络信息传播规模预测的方法的步骤。
CN202210445503.4A 2022-04-26 2022-04-26 一种社交网络信息传播规模预测方法及装置 Active CN114928548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210445503.4A CN114928548B (zh) 2022-04-26 2022-04-26 一种社交网络信息传播规模预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210445503.4A CN114928548B (zh) 2022-04-26 2022-04-26 一种社交网络信息传播规模预测方法及装置

Publications (2)

Publication Number Publication Date
CN114928548A true CN114928548A (zh) 2022-08-19
CN114928548B CN114928548B (zh) 2023-07-28

Family

ID=82805946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210445503.4A Active CN114928548B (zh) 2022-04-26 2022-04-26 一种社交网络信息传播规模预测方法及装置

Country Status (1)

Country Link
CN (1) CN114928548B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660147A (zh) * 2022-09-26 2023-01-31 哈尔滨工业大学 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统
CN115982646A (zh) * 2023-03-20 2023-04-18 西安弘捷电子技术有限公司 一种基于云平台的多源测试数据的管理方法及系统
CN116523118A (zh) * 2023-04-13 2023-08-01 苏州大学 基于异构图神经网络的多源信息传播预测方法及系统
CN117493490A (zh) * 2023-11-17 2024-02-02 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN111967645A (zh) * 2020-07-15 2020-11-20 清华大学 一种社交网络信息传播范围预测方法及系统
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112686765A (zh) * 2020-12-09 2021-04-20 天津大学 一种基于社交网络的信息传播规律挖掘方法
CN113536144A (zh) * 2021-06-17 2021-10-22 中国人民解放军国防科技大学 一种社交网络信息的传播规模预测方法、装置
CN114298851A (zh) * 2021-11-11 2022-04-08 国电南瑞科技股份有限公司 基于图表征学习的网络用户社交行为分析方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304867A (zh) * 2018-01-24 2018-07-20 重庆邮电大学 面向社交网络的信息流行度预测方法及系统
CN111967645A (zh) * 2020-07-15 2020-11-20 清华大学 一种社交网络信息传播范围预测方法及系统
CN112035669A (zh) * 2020-09-09 2020-12-04 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112686765A (zh) * 2020-12-09 2021-04-20 天津大学 一种基于社交网络的信息传播规律挖掘方法
CN113536144A (zh) * 2021-06-17 2021-10-22 中国人民解放军国防科技大学 一种社交网络信息的传播规模预测方法、装置
CN114298851A (zh) * 2021-11-11 2022-04-08 国电南瑞科技股份有限公司 基于图表征学习的网络用户社交行为分析方法、装置及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115660147A (zh) * 2022-09-26 2023-01-31 哈尔滨工业大学 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统
CN115982646A (zh) * 2023-03-20 2023-04-18 西安弘捷电子技术有限公司 一种基于云平台的多源测试数据的管理方法及系统
CN116523118A (zh) * 2023-04-13 2023-08-01 苏州大学 基于异构图神经网络的多源信息传播预测方法及系统
CN117493490A (zh) * 2023-11-17 2024-02-02 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质
CN117493490B (zh) * 2023-11-17 2024-05-14 南京信息工程大学 基于异构多关系图的话题检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN114928548B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN114928548B (zh) 一种社交网络信息传播规模预测方法及装置
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
US10528973B2 (en) Network-aware product rollout in online social networks
Budak et al. Structural trend analysis for online social networks
Huang et al. Coupled graph ode for learning interacting system dynamics
US9514248B1 (en) System to group internet devices based upon device usage
CN113807616B (zh) 基于时空注意力和异构图卷积网络的信息扩散预测系统
Wen et al. Using epidemic betweenness to measure the influence of users in complex networks
CN107566249B (zh) 一种训练用于预测社交网络用户转发消息的模型的方法
CN115470994B (zh) 基于显式时间和级联注意力的信息流行度预测方法和系统
CN115660147A (zh) 一种基于传播路径间与传播路径内影响力建模的信息传播预测方法及系统
CN116308854A (zh) 一种基于概率扩散的信息级联流行度预测方法及系统
Bródka A method for group extraction and analysis in multilayer social networks
Jin et al. Modeling information diffusion with sequential interactive hypergraphs
Li et al. Dynamic multi-view group preference learning for group behavior prediction in social networks
He et al. Positive opinion influential node set selection for social networks: considering both positive and negative relationships
Khoshkbarchi et al. Coping with unfair ratings in reputation systems based on learning approach
Rashmi et al. A review on overlapping community detection methodologies
CN114329231A (zh) 对象特征处理方法、装置、电子设备及存储介质
Liu et al. Evolving interest for information diffusion prediction on social network
Wang et al. FedDNA: Federated learning using dynamic node alignment
Liu et al. Prediction model for non-topological event propagation in social networks
CN112085614A (zh) 一种基于时空行为数据的跨社交网络虚拟用户身份对齐方法
Yang et al. Self-supervised Hypergraph Transformer with Alignment and Uniformity for Recommendation.
Wu et al. Enhancing Recommendation Capabilities Using Multi-Head Attention-Based Federated Knowledge Distillation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant