CN113792937B - 一种基于图神经网络的社交网络影响力预测方法、装置 - Google Patents

一种基于图神经网络的社交网络影响力预测方法、装置 Download PDF

Info

Publication number
CN113792937B
CN113792937B CN202111149105.XA CN202111149105A CN113792937B CN 113792937 B CN113792937 B CN 113792937B CN 202111149105 A CN202111149105 A CN 202111149105A CN 113792937 B CN113792937 B CN 113792937B
Authority
CN
China
Prior art keywords
user
neural network
graph
network
social
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111149105.XA
Other languages
English (en)
Other versions
CN113792937A (zh
Inventor
庄洪武
周斌
李爱平
席闻
高立群
汪海洋
刘宇嘉
曾康
宋鑫
王宸铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111149105.XA priority Critical patent/CN113792937B/zh
Publication of CN113792937A publication Critical patent/CN113792937A/zh
Application granted granted Critical
Publication of CN113792937B publication Critical patent/CN113792937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了基于图神经网络的社交网络影响力预测方法、装置及介质,其可以帮助社交平台给用户提供更加精准的社交内容推荐、朋友推荐,包括:从社交网络平台的数据中提取交互行为的关键字段,构建用户全局社交关系网络;采样得到用户局部社交关系网络;拼接网络结构特征与属性特征,得到用户节点的初始化特征表示;通过关键字段中的交互频次,重新对邻接矩阵进行赋值,得到连接强度矩阵,堆叠邻接矩阵和连接强度矩阵,获得多通道矩阵;构建包括图卷积神经网络层和图注意力神经网络层的图神经网络模型,得到用户节点经过图神经网络模型学习到的特征;基于全连接神经网络构建预测分类器,通过训练好的预测分类器,输出预测的社交网络影响力。

Description

一种基于图神经网络的社交网络影响力预测方法、装置
技术领域
本发明属于网络舆情分析技术领域,特别涉及一种基于图神经网络的社交网络影响力预测方法、装置。
背景技术
随着Twitter、微博和Digg等在线社交媒体平台的蓬勃发展,用户通过发表评论、转发消息或投票等方式参与各种在线社交活动,与此同时用户在社交媒体上还能收到好友参与在线社交活动的通知,并且可能会被影响从而转发相同的消息,或投票支持相同的主题。业内将这种现象称为在线社交网络影响力,表示一个人的情绪、观点或行为受到他人的影响。在线社交网络影响力对社交媒体公司的成功有重大影响,也为传统媒体公司提供了新的营销机会。因此,近年来人们对开发社交影响力分析工具的研究越来越感兴趣。
与采用手工规则嵌入特征的传统方法不同,近几年的方法利用图神经网络来学习特征泛化性强的社交网络影响力预测模型。研究者主要利用早期采用者的时序特征和结构特征进行流行度预测,即预测给定信息项在未来的级联规模,现有的方法并未考虑单个用户,主要聚焦于信息级联的宏观层面。即预测一个转发总量;而在微观层面上,对于单个用户层面上研究,研究对某个人的影响力,预测某个人是不是会转发微博,当前并未聚焦类似的角度进行研究;
另一方面,以往的研究主要基于端到端的框架,利用网络结构特征和用户特定的特征,或学习子图的拓扑特征。现有的研究把用户间的关系用二元变量(是否为朋友)来表示,基于此来学习用户间的影响力。然而从建模和方法论的角度看,现有的研究都是不充分的。
在建模的角度看,二元变量仅仅是粗略地表示了用户是否为朋友关系,忽视了用户在社交网络上的显式交互。结果是现有的研究方法在建模用户间的连接强度方面存在不足,而用户间的连接强度根据社会学常识是对社交网络影响力的预测是有帮助的。比如在现实生活中,用户更倾向转发好友的推文,相较于熟人。
为此,本发明旨在提供一种新的社交网络影响力预测方法来解决目前存在的问题。
发明内容
针对上述问题,本发明提供了一种基于图神经网络的社交网络影响力预测方法、装置以及计算机存储介质,其可以帮助社交平台给用户提供更加精准的社交内容推荐、朋友推荐;可以应用于舆情分析与控制,帮助维持国家的稳定。
本发明解决技术问题采用的技术方案是:一种基于图神经网络的社交网络影响力预测方法,其特征在于,包括以下步骤:
步骤1:从社交网络平台的数据中提取交互行为的关键字段,依据提取的交互行为的关键字段构建用户全局社交关系网络;
步骤2:采用重启的随机游走法对用户全局社交关系网络进行采样,得到用户局部社交关系网络,通过邻接矩阵表示用户局部社交关系网;
步骤3:使用DEEPWALK算法获取用户全局社交关系网络中用户节点的网络结构特征,再将网络结构特征与用户节点的属性特征拼接,得到用户节点的初始化特征表示;
步骤4:通过关键字段中的交互频次,重新对邻接矩阵进行赋值,得到表示连接强度特征的连接强度矩阵,堆叠邻接矩阵和连接强度矩阵,获得多通道矩阵,所述多通道矩阵表示融合特征;
步骤5:构建图神经网络模型,所述图神经网络模型包括图卷积神经网络层和图注意力神经网络层,将用户节点的初始化特征表示和表示融合特征的多通道矩阵输入图神经网络模型,输出用户节点经过图神经网络模型学习到的特征;
步骤6:基于全连接神经网络构建预测分类器,将用户节点经过图神经网络模型学习到的特征作为输入,训练预测分类器直至收敛,获得训练好的预测分类器;
步骤7:将需要预测的用户的社交网络数据处理得到的图结构特征,输入训练好的预测分类器,输出预测的社交网络影响力。
进一步的,在步骤1中,从社交网络平台的数据集中提取交互行为的关键字段,提取出交互行为的关键字段包括:用户ID,交互行为、交互对象ID,交互频次,交互行为包括评论,转发;
进一步的,在步骤1中,用户全局社交关系网络通过如下方式构建:
设置转发阈值e,对于用户vi,如果用户vi直接转发用户vj的推文达到或超过阈值e,则判定用户vi关注了用户vj,以用户vi为中心用户,将判定与用户vi存在关注关系的其他用户vj作为中心用户的邻居,存在关注关系的用户之间通过连边连接,构建得到用户全局社交关系网络。
进一步的,在步骤2中,采用重启的随机游走法在用户全局社交关系网络采样N个用户,设置用户随机游走回到起点的重启概率参数为P,用户移动到一个随机选择的邻居的概率为1-P,得到用户局部社交关系网,通过邻接矩阵A表示,
Figure BDA0003286534490000031
邻接矩阵A的数值使用0/1二元变量进行初始化表示,0/1二元变量表示用户是否通过随机游走回到起点。
进一步的,步骤3中具体包括以下步骤:
步骤301:采用DEEPWALK算法,获取用户全局社交关系网络中用户节点的网络结构特征;
步骤302:通过两个0/1标志位表示用户节点的属性特征,其中一个0/1标志表示用户是否为局部社交关系网中的中心用户,是则置1,否则置0;另一个0/1标志表示用户是否进行转发,是则置1,否则置0;
步骤303:拼接网络结构特征和属性特征,得到用户节点的初始化特征表示。
进一步的,步骤4中具体包括以下步骤:
步骤401:计算用户间评论、转发的次数,得到交互频次;
步骤402:采用交互频次对邻接矩阵A进行重新赋值,得到连接强度矩阵B,
Figure BDA0003286534490000032
强度矩阵B中的Bij=x表示用户vi和用户vj之间的交互频次为x;
步骤403:堆叠邻接矩阵A和连接强度矩阵B,得到多通道矩阵M,
Figure BDA0003286534490000033
其中M··1=A,M··2=B,M··1和M··2分别为多通道矩阵M在第一通道、第二通道下的表示,另外M中的..下标能够分别取值i、j,i、j∈N,多通道矩阵M的通道数为2,多通道矩阵M表示用户节点的融合特征;
进一步的,步骤5中,在图卷积神经网络层中,具体包括以下步骤:
步骤501A:将用户节点的融合特征和初始化特征表示进行输入,对邻居信息进行聚合更新节点的表示,通过如下公式表示:
Figure BDA0003286534490000034
其中,Hl是图卷积神经网络层的第l层节点的表示,同理Hl-1是第l-1层节点的表示,
Figure BDA0003286534490000035
便是第l-1层节点在第一通道的表示,
Figure BDA0003286534490000036
则是第l-1层节点在第二通道的表示,mean pooling表示均值化池化,σ表示是线性指数单元ELU;
Figure BDA0003286534490000037
为多通道矩阵M进行图拉普拉斯正则化得到的,通过如下公式计算:
Figure BDA0003286534490000038
其中,其中D=diag(M..p),D为对角化操作表示度矩阵diag,p取1、2,
Figure BDA0003286534490000041
包括
Figure BDA0003286534490000042
Figure BDA0003286534490000043
步骤501B:对节点的表示进行聚合操作,表示为:
Figure BDA0003286534490000044
其中,W为图卷积神经网络中的权重。
进一步的,在图注意力神经网络层中,具体包括以下步骤:
步骤502A:更新表示融合特征的多通道矩阵:为多通道矩阵M增加第三通道,得到多通道矩阵T,
Figure BDA0003286534490000045
其中T··1=A,T··2=B,T..3=A,多通道矩阵T进行图拉普拉斯正则化得到
Figure BDA0003286534490000046
其中,
Figure BDA0003286534490000047
步骤502B:通过多通道矩阵T更新图注意力神经网络层的注意力系数:使用图注意力神经网络层的注意力系数乘上多通道矩阵来更新注意力系数,计算公式如下:
Figure BDA0003286534490000048
Figure BDA0003286534490000049
Figure BDA00032865344900000410
为通过图注意力神经网络定义得到的第l层注意力系数,p取1、2、3;
步骤502C:更新图注意力神经网络层的节点的表示:在图注意力神经网络层中,将图卷积神经网络层的输出和表示用户节点的融合特征的多通道矩阵T作为输入,使用注意力系数来聚合更新节点的表示,定义为:
Figure BDA00032865344900000411
其中η和ρ分别是一维可学习的张量,b是偏置项,σ是线性指数单元ELU,Gl为图注意力神经网络层第l层的输出,Gl-1为图注意力神经网络层第l-1层的输出,
Figure BDA00032865344900000412
分别为图注意力神经网络层第l层的第一通道、第二通道的注意力系数;
步骤502D:用非线性变换函数将用户节点映射到输出空间,图注意力神经网络层的输出其定义为:
fl(Gl)=tanh(GlWl)
其中,tanh为非线性变换函数,Wl为权重。
在步骤6中,在预测分类器中,将图神经网络模型的输出fl(Gl)输入全连接神经网络,再使用Softmax激活函数,得到针对中心用户的预测的社交网络影响力,通过如下公式表示:
S=Softmax(fl(Gl))
其中,S表示预测的社交网络影响力,S的取值在0-1区间,在训练预测分类器时,将预测的社交网络影响力和真实值输入交叉熵函数中,反向梯度传播,训练模型至收敛。
一种基于图神经网络的社交网络影响力预测装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的基于图神经网络的社交网络影响力预测方法。
一种计算机可读存储介质,其特征在于:所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行上述的基于图神经网络的社交网络影响力预测方法。
本发明具有的有益效果是:
本发明针对微观影响力预测任务,设计了一个新的图神经网络框架,融合了用户局部社交网络,用户特征表示和用户间连接强度特征;通过引入用户历史交互频次数来显式建模社交网络上用户间关系深浅,连接度强弱,使得影响力预测任务更加准确;通过引入多通道邻接矩阵,一方面粗粒度地刻画图内用户是否有连边,另一方面细粒度地刻画用户连边的强弱,从而帮助充分挖掘边特征,改进了图卷积网络中的领域聚合策略,即在各通道分别卷积,再在多通道上选用均值池化更新得到用户表示;改进了图注意力神经网络中的注意力机制,即在各通道中分别计算注意力系数,再带权重地加和各注意力系数,最后基于注意力系数更新用户表示;综上,通过在图卷积和图注意力神经网络的改进,使其更好地适用于影响力预测任务。
本发明可以用于在线社交平台分析,数据挖掘领域,尤其可以用于帮助社交平台给用户提供更加精准的社交内容推荐、朋友推荐;可以应用于舆情分析与控制,帮助维持国家的稳定。
附图说明
图1为实施例中的基于图神经网络的社交网络影响力预测方法的步骤示意图;
图2为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的一种基于图神经网络的社交网络影响力预测方法,至少包括以下步骤:
步骤1:从社交网络平台的数据中提取交互行为的关键字段,依据提取的交互行为的关键字段构建用户全局社交关系网络;
步骤2:采用重启的随机游走法对用户全局社交关系网络进行采样,得到用户局部社交关系网络,通过邻接矩阵表示用户局部社交关系网;
步骤3:使用DEEPWALK算法获取用户全局社交关系网络中用户节点的网络结构特征,再将网络结构特征与用户节点的属性特征拼接,得到用户节点的初始化特征表示;
步骤4:通过关键字段中的交互频次,重新对邻接矩阵进行赋值,得到表示连接强度特征的连接强度矩阵,堆叠邻接矩阵和连接强度矩阵,获得多通道矩阵,所述多通道矩阵表示融合特征;
步骤5:构建图神经网络模型,所述图神经网络模型包括图卷积神经网络层和图注意力神经网络层,将用户节点的初始化特征表示和表示融合特征的多通道矩阵输入图神经网络模型,输出用户节点经过图神经网络模型学习到的特征;
步骤6:基于全连接神经网络构建预测分类器,将用户节点经过图神经网络模型学习到的特征作为输入,训练预测分类器直至收敛,获得训练好的预测分类器;
步骤7:将需要预测的用户的社交网络数据处理得到的图结构特征,输入训练好的预测分类器,输出预测的社交网络影响力。
具体在本发明的一个实施例中,包括以下步骤:
步骤1:从社交网络平台的数据中提取交互行为的关键字段,本实施例选用了一个推特的推文数据集作为数据来源,从推文数据集中提取出交互行为的关键字段包括:用户ID,交互行为、交互对象ID,交互频次,被判断为交互行为的行为包括评论,转发;
用户全局社交关系网络通过如下方式构建:
首先设置转发阈值e,以用户vi为例,对于用户vi,然后根据直接转发关系次数进行过滤,如果用户vi直接转发用户vj的推文达到或超过阈值e,则判定用户vi关注了用户vj,以用户vi为中心用户,依据这样的设定,将判定与用户vi存在关注关系的其他用户vj作为中心用户的邻居,存在关注关系的用户之间通过连边连接,从数据集中构建出用户vi的全局社交关系网,其中只考虑vi和vi的朋友,以及朋友间的连边,便可以得到一个以vi为中心的网络。
步骤2:采用重启的随机游走法在用户全局社交关系网络采样50个用户,固定用户局部的社交关系网大小N为50,设置用户随机游走回到起点的重启概率参数为0.35,用户移动到一个随机选择的邻居的概率为1-0.35=0.65,得到用户局部社交关系网,通过邻接矩阵A表示,
Figure BDA0003286534490000071
邻接矩阵A的数值使用0/1二元变量进行初始化表示,0/1二元变量表示用户是否通过随机游走回到起点,即描述50个用户间,两两是否为相邻关系。
步骤3:用户节点的初始化特征包含两部分,以用户vi为例:①用户节点的网络结构特征;②用户节点的属性特征;在步骤3具体包括:
步骤301:对于用户vi网络结构特征,将步骤1中用户vi的全局社交关系网作为输入,使用DEEPWALK算法生成用户vi的网络结构特征,其中DEEPWALK算法里用户vi嵌入表示维度设为64。
步骤302:通过两个0/1标志位表示用户节点的属性特征,其中一个0/1标志表示用户是否为局部社交关系网中的中心用户,是则置1,否则置0;另一个0/1标志表示用户是否进行转发,是则置1,否则置0;
步骤303:拼接网络结构特征和属性特征,得到到维度为64的用户节点的初始化特征表示。
步骤4,具体包括以下步骤:
步骤401:在本实施例中,使用推文数据集前两个星期的数据,计算用户间评论、转发的次数,得到交互频次,在本发明的其他实施例中,选用的数据的时间长度可以更短或者更长进行调整,如果用户vi和用户vj交互的频次更高相较于用户vk,根据常识,可以推测出用户vi和用户vj关系更紧密,那么用户vj相较于用户vk对于用户vi有更强的影响力,因此引入交互频次来显式地建模影响力。交互频次由两部分组成:评论数和转发数,对两部分求和即可得到用户间的交互频次;
步骤402:采用交互频次对邻接矩阵A进行重新赋值,得到连接强度矩阵B,
Figure BDA0003286534490000072
强度矩阵B中的元素Bij=x表示用户vi和用户vj之间的交互频次为x;
步骤403:堆叠邻接矩阵A和连接强度矩阵B,得到多通道矩阵M,
Figure BDA0003286534490000073
其中M..1=A,M..2=B,M..1和M..2分别为多通道矩阵M在第一通道、第二通道下的表示,另外M中的..下标能够分别取值i、j,i、j∈N,多通道矩阵M的通道数为2,多通道矩阵M表示用户节点的融合特征,堆叠邻接矩阵A和连接强度矩阵B的目的是互相去除噪声,从而帮助更精准地建模影响力。
步骤5中,图神经网络模型包括图卷积神经网络层和图注意力神经网络层,首先在图卷积神经网络层中,具体包括以下步骤:
步骤501A:将用户节点的融合特征和初始化特征表示进行输入,对邻居信息进行聚合更新节点的表示,通过如下公式表示:
Figure BDA0003286534490000081
其中,Hl是图卷积神经网络层的第l层节点的表示,同理Hl-1是第l-1层节点的表示,
Figure BDA0003286534490000082
便是第l-1层节点在第一通道的表示,
Figure BDA0003286534490000083
则是第l-1层节点在第二通道的表示,mean pooling表示均值化池化,通过采用均值化池化,捕捉来自各个通道的信息,进行压缩更新节点隐藏单元的表示,σ表示是线性指数单元ELU;
Figure BDA0003286534490000084
为多通道矩阵M进行图拉普拉斯正则化得到的,通过如下公式计算:
Figure BDA0003286534490000085
其中,其中D=diag(M..p),D为对角化操作表示度矩阵diag,p取1、2,
Figure BDA0003286534490000086
包括
Figure BDA0003286534490000087
Figure BDA0003286534490000088
步骤501B:对节点的表示进行聚合操作,表示为:
Figure BDA0003286534490000089
其中,W为图卷积神经网络中的权重。
进一步的,在图注意力神经网络层中,具体包括以下步骤:
步骤502A:更新表示融合特征的多通道矩阵:为了在图注意力神经网络中同时建模连接强度和图结构特征,本发明在多通道矩阵中进行以下构造:为多通道矩阵M增加第三通道,得到多通道矩阵T,
Figure BDA00032865344900000810
其中T··1=A,T..2=B,T..3=A,多通道矩阵T进行图拉普拉斯正则化得到
Figure BDA00032865344900000811
其中,
Figure BDA00032865344900000812
目的是执行遮蔽注意力。
步骤502B:通过多通道矩阵T更新图注意力神经网络层的注意力系数:
现有的图注意力神经网络仅仅是用邻接矩阵A来表示用户是否为朋友关系,然而朋友间的关系程度是有深浅的,因此有必要引入更为细致的表示,从而帮助更好地建模影响力。为了充分利用多通道矩阵中的边特征,本专利使用图注意力神经网络层的注意力系数乘上多通道矩阵来更新注意力系数,计算公式如下:
Figure BDA0003286534490000091
Figure BDA0003286534490000092
为通过图注意力神经网络定义得到的第l层注意力系数,p取1、2、3;
步骤502C:更新图注意力神经网络层的节点的表示:在图注意力神经网络层中,将图卷积神经网络层的输出和表示用户节点的融合特征的多通道矩阵T作为输入,使用注意力系数来聚合更新节点的表示,定义为:
Figure BDA0003286534490000093
其中η和ρ分别是一维可学习的张量,b是偏置项,σ是线性指数单元ELU,Gl为图注意力神经网络层第l层的输出,Gl-1为图注意力神经网络层第l-1层的输出,
Figure BDA0003286534490000094
分别为图注意力神经网络层第l层的第一通道、第二通道的注意力系数;
步骤502D:用非线性变换函数将用户节点映射到输出空间,图注意力神经网络层的输出其定义为:
fl(Gl)=tanh(GlWl)
其中,tanh为非线性变换函数,Wl为权重。
在步骤6中,在预测分类器中,将图神经网络模型的输出fl(Gl)输入全连接神经网络,再使用Softmax激活函数,得到针对中心用户的预测的社交网络影响力,通过如下公式表示:
S=Softmax(fl(Gl))
其中,S表示预测的社交网络影响力,S的取值在0-1区间,在训练预测分类器时,将预测的社交网络影响力和真实值输入交叉熵函数中,反向梯度传播,训练模型至收敛。
步骤7:将需要预测的用户的社交网络数据处理得到的图结构特征,输入训练好的预测分类器,输出预测的社交网络影响力S,S的数值越大,表示预测的用户的社交网络影响力越大。
在方法论的角度看,现有的基于图神经网络的方法,未能充分地利用图内边的特征。本实施例中通过引入多通道邻接矩阵,一方面粗粒度地刻画图内用户是否有连边,另一方面细粒度地刻画用户连边的强弱,从而帮助充分挖掘边特征。
本实施例中通过引入用户历史交互频次数来显式建模社交网络上用户间关系深浅,连接度强弱,通过引入关系的强弱/亲密度概念,用交互频次来定量表示,帮助学习用户间的影响力,使得影响力预测任务更加准确;在Digg公开数据集上的实验结果表明:未融入用户交互频次特征的图注意力模型AUC指标得分在84.85%,改进后的模型AUC指标得分为85.37%,提升明显,相对于现有的方法具有显著进步。
本实施例中通过引入多通道邻接矩阵,改进了图卷积网络中的领域聚合策略,即在各通道分别卷积,再在多通道上选用均值池化更新得到用户表示;改进了图注意力神经网络中的注意力机制,即在各通道中分别计算注意力系数,再带权重地加和各注意力系数,最后基于注意力系数更新用户表示;综上,通过在图卷积和图注意力神经网络的改进,使其更好地适用于影响力预测任务。在Digg公开数据集上的实验结果表明:未使用多通道的图注意力模型AUC指标得分在85.37%,改进后的模型AUC指标得分为85.81%,产生增幅,相对于现有的方法具有显著进步。
在本发明的实施例中,还提供了一种基于图神经网络的社交网络影响力预测装置,其包括:包括处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的一种基于图神经网络的社交网络影响力预测方法。
该计算机装置可以是终端,其内部结构图可以如图2所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现社交网络中的信息发生病毒性传播的预测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质被配置成存储程序,程序被配置成执行上述的一种基于图神经网络的社交网络影响力预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在基于图神经网络的社交网络影响力预测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于图神经网络的社交网络影响力预测方法,其特征在于,包括以下步骤:
步骤1:从社交网络平台的数据中提取交互行为的关键字段,依据提取的交互行为的关键字段构建用户全局社交关系网络;
步骤2:采用重启的随机游走法对用户全局社交关系网络进行采样,得到用户局部社交关系网络,通过邻接矩阵表示用户局部社交关系网;
步骤3:使用DEEPWALK算法获取用户全局社交关系网络中用户节点的网络结构特征,再将网络结构特征与用户节点的属性特征拼接,得到用户节点的初始化特征表示;
步骤4:通过关键字段中的交互频次,重新对邻接矩阵进行赋值,得到表示连接强度特征的连接强度矩阵,堆叠邻接矩阵和连接强度矩阵,获得多通道矩阵,所述多通道矩阵表示融合特征;
步骤5:构建图神经网络模型,所述图神经网络模型包括图卷积神经网络层和图注意力神经网络层,将用户节点的初始化特征表示和表示融合特征的多通道矩阵输入图神经网络模型,输出用户节点经过图神经网络模型学习到的特征;
步骤6:基于全连接神经网络构建预测分类器,将用户节点经过图神经网络模型学习到的特征作为输入,训练预测分类器直至收敛,获得训练好的预测分类器;
步骤7:将需要预测的用户的社交网络数据处理得到的图结构特征,输入训练好的预测分类器,输出预测的社交网络影响力。
2.根据权利要求1所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:在步骤1中,从社交网络平台的数据中提取交互行为的关键字段,提取出交互行为的关键字段包括:用户ID,交互行为、交互对象ID,交互频次,交互行为包括评论,转发。
3.根据权利要求2所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:在步骤1中,用户全局社交关系网络通过如下方式构建:
设置转发阈值e,对于用户vi,如果用户vi直接转发用户vj的推文达到或超过阈值e,则判定用户vi关注了用户vj,以用户vi为中心用户,将判定与用户vi存在关注关系的其他用户vj作为中心用户的邻居,存在关注关系的用户之间通过连边连接,构建得到用户全局社交关系网络。
4.根据权利要求3所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:在步骤2中,采用重启的随机游走法在用户全局社交关系网络采样N个用户,设置用户随机游走回到起点的重启概率参数为P,用户移动到一个随机选择的邻居的概率为1-P,得到用户局部社交关系网,通过邻接矩阵A表示,
Figure FDA0003286534480000021
邻接矩阵A的数值使用0/1二元变量进行初始化表示,0/1二元变量表示用户是否通过随机游走回到起点。
5.根据权利要求4所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:步骤3中具体包括以下步骤:
步骤301:采用DEEPWALK算法,获取用户全局社交关系网络中用户节点的网络结构特征;
步骤302:通过两个0/1标志位表示用户节点的属性特征,其中一个0/1标志表示用户是否为局部社交关系网中的中心用户,是则置1,否则置0;另一个0/1标志表示用户是否进行转发,是则置1,否则置0;
步骤303:拼接网络结构特征和属性特征,得到用户节点的初始化特征表示。
6.根据权利要求5所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:步骤4中具体包括以下步骤:
步骤401:计算用户间评论、转发的次数,得到交互频次;
步骤402:采用交互频次对邻接矩阵A进行重新赋值,得到连接强度矩阵B,
Figure FDA0003286534480000022
强度矩阵B中的Bij=x表示用户vi和用户vj之间的交互频次为x;
步骤403:堆叠邻接矩阵A和连接强度矩阵B,得到多通道矩阵M,
Figure FDA0003286534480000023
其中M..1=A,M..2=B,M..1和M..2分别为多通道矩阵M在第一通道、第二通道下的表示,另外M中的..下标能够分别取值i、j,i、j∈N,多通道矩阵M的通道数为2,多通道矩阵M表示用户节点的融合特征。
7.根据权利要求6所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:步骤5中,在图卷积神经网络层中,具体包括以下步骤:
步骤501A:将用户节点的融合特征和初始化特征表示进行输入,对邻居信息进行聚合更新节点的表示,通过如下公式表示:
Figure FDA0003286534480000024
其中,Hl是图卷积神经网络层的第l层节点的表示,同理Hl-1是第l-1层节点的表示,
Figure FDA0003286534480000025
便是第l-1层节点在第一通道的表示,
Figure FDA0003286534480000026
则是第l-1层节点在第二通道的表示,meanpooling表示均值化池化,σ表示是线性指数单元ELU;
Figure FDA0003286534480000027
为多通道矩阵M进行图拉普拉斯正则化得到的,通过如下公式计算:
Figure FDA0003286534480000031
其中,其中D=diag(M..p),D为对角化操作表示度矩阵diag,p取1、2,
Figure FDA0003286534480000032
包括
Figure FDA0003286534480000033
Figure FDA0003286534480000034
步骤501B:对节点的表示进行聚合操作,表示为:
Figure FDA0003286534480000035
其中,W为图卷积神经网络中的权重;
在图注意力神经网络层中,具体包括以下步骤:
步骤502A:更新表示融合特征的多通道矩阵:为多通道矩阵M增加第三通道,得到多通道矩阵T,
Figure FDA0003286534480000036
其中T..1=A,T..2=B,T..3=A,多通道矩阵T进行图拉普拉斯正则化得到
Figure FDA0003286534480000037
其中,
Figure FDA0003286534480000038
步骤502B:通过多通道矩阵T更新图注意力神经网络层的注意力系数:使用图注意力神经网络层的注意力系数乘上多通道矩阵来更新注意力系数,计算公式如下:
Figure FDA0003286534480000039
Figure FDA00032865344800000310
为通过图注意力神经网络定义得到的第l层注意力系数,p取1、2、3;
步骤502C:更新图注意力神经网络层的节点的表示:在图注意力神经网络层中,将图卷积神经网络层的输出和表示用户节点的融合特征的多通道矩阵T作为输入,使用注意力系数来聚合更新节点的表示,定义为:
Figure FDA00032865344800000311
其中η和ρ分别是一维可学习的张量,b是偏置项,σ是线性指数单元ELU,Gl为图注意力神经网络层第l层的输出,Gl-1为图注意力神经网络层第l-1层的输出,
Figure FDA00032865344800000312
分别为图注意力神经网络层第l层的第一通道、第二通道的注意力系数;
步骤502D:用非线性变换函数将用户节点映射到输出空间,图注意力神经网络层的输出其定义为:
fl(Gl)=tanh(GlWl)
其中,tanh为非线性变换函数,Wl为权重。
8.根据权利要求6所述的一种基于图神经网络的社交网络影响力预测方法,其特征在于:在步骤6中,在预测分类器中,将图神经网络模型的输出fl(Gl)输入全连接神经网络,再使用Softmax激活函数,得到针对中心用户的预测的社交网络影响力,通过如下公式表示:
S=Softmax(fl(Gl))
S表示预测的社交网络影响力,S的取值在0-1区间,在训练预测分类器时,将预测的社交网络影响力和真实值输入交叉熵函数中,反向梯度传播,训练模型至收敛。
9.一种基于图神经网络的社交网络影响力预测装置,其特征在于,其包括:包括处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的基于图神经网络的社交网络影响力预测方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质被配置成存储程序,所述程序被配置成执行权利要求1所述的基于图神经网络的社交网络影响力预测方法。
CN202111149105.XA 2021-09-29 2021-09-29 一种基于图神经网络的社交网络影响力预测方法、装置 Active CN113792937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111149105.XA CN113792937B (zh) 2021-09-29 2021-09-29 一种基于图神经网络的社交网络影响力预测方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111149105.XA CN113792937B (zh) 2021-09-29 2021-09-29 一种基于图神经网络的社交网络影响力预测方法、装置

Publications (2)

Publication Number Publication Date
CN113792937A CN113792937A (zh) 2021-12-14
CN113792937B true CN113792937B (zh) 2022-09-13

Family

ID=78877514

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111149105.XA Active CN113792937B (zh) 2021-09-29 2021-09-29 一种基于图神经网络的社交网络影响力预测方法、装置

Country Status (1)

Country Link
CN (1) CN113792937B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329093B (zh) * 2021-12-30 2023-02-07 马上消费金融股份有限公司 数据的处理方法、装置及设备
CN114077811B (zh) * 2022-01-19 2022-04-12 华东交通大学 一种基于图神经网络的电力物联网设备异常检测方法
CN114741430B (zh) * 2022-04-21 2024-04-09 武汉大学 一种基于交互图传播的社交关系挖掘方法
CN115237980B (zh) * 2022-07-21 2023-04-07 北京竞娱科技有限公司 一种互联网数据交互处理方法、系统及云平台
CN115563400B (zh) * 2022-09-19 2023-06-13 广东技术师范大学 一种基于模体加权聚合的多路网络社区检测方法及装置
CN115391710A (zh) * 2022-10-27 2022-11-25 暨南大学 基于图神经网络的社交媒体账号影响力评估方法及装置
CN115858725B (zh) * 2022-11-22 2023-07-04 广西壮族自治区通信产业服务有限公司技术服务分公司 一种基于无监督式图神经网络的文本噪声筛选方法及系统
CN117151279A (zh) * 2023-08-15 2023-12-01 哈尔滨工业大学 一种基于线图神经网络的同构网络链路预测方法及系统
CN117670572B (zh) * 2024-02-02 2024-05-03 南京财经大学 一种基于图对比学习的社交行为预测方法、系统及产品
CN117763485A (zh) * 2024-02-22 2024-03-26 福建理工大学 一种基于谱图分解的社交网络异常检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111428147B (zh) * 2020-03-25 2021-07-27 合肥工业大学 结合社交和兴趣信息的异源图卷积网络的社交推荐方法
CN111797327B (zh) * 2020-06-04 2021-06-18 南京擎盾信息科技有限公司 社交网络建模的方法及装置
CN111931903B (zh) * 2020-07-09 2023-07-07 北京邮电大学 一种基于双层图注意力神经网络的网络对齐方法
CN112508085B (zh) * 2020-12-05 2023-04-07 西安电子科技大学 基于感知神经网络的社交网络链路预测方法
CN113139134B (zh) * 2021-04-26 2022-04-19 中国人民解放军国防科技大学 一种社交网络中用户生成内容的流行度预测方法、装置

Also Published As

Publication number Publication date
CN113792937A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113792937B (zh) 一种基于图神经网络的社交网络影响力预测方法、装置
CN111651671B (zh) 用户对象推荐方法、装置、计算机设备和存储介质
CN112905801B (zh) 基于事件图谱的行程预测方法、系统、设备及存储介质
CN112364880A (zh) 基于图神经网络的组学数据处理方法、装置、设备及介质
CN113962358B (zh) 一种基于时序超图注意力神经网络的信息扩散预测方法
CN112418525B (zh) 社交话题群体行为的预测方法、装置及计算机存储介质
CN112561031A (zh) 基于人工智能的模型搜索方法、装置及电子设备
Wu et al. Estimating fund-raising performance for start-up projects from a market graph perspective
CN112507245A (zh) 基于图神经网络的社交网络好友推荐方法
CN113761388A (zh) 一种推荐方法、装置、电子设备及存储介质
CN113761286A (zh) 一种知识图谱的图嵌入方法、装置及电子设备
CN116090522A (zh) 一种基于因果反馈的缺失数据集因果关系发现方法及系统
CN116646002A (zh) 多非编码rna和疾病关联性预测方法、装置、设备及介质
Khodadadi et al. Discovering the maximum k-clique on social networks using bat optimization algorithm
Li et al. ANN: a heuristic search algorithm based on artificial neural networks
CN115422738A (zh) 自媒体消息传播仿真模型的建模方法、仿真方法及系统
CN113052712B (zh) 社交数据的分析方法、系统及存储介质
CN113283589A (zh) 事件预测系统的更新方法及装置
Hao et al. Evolutionary neural network-based method for constructing surrogate model with small scattered dataset and monotonicity experience
Liu et al. Prediction model for non-topological event propagation in social networks
Yu et al. PoI recommendation with interactive behaviors and user preference dynamics embedding
Dai et al. Influence maximization in signed networks by enhancing the negative influence
Chen et al. Simplex Pattern Prediction Based on Dynamic Higher Order Path Convolutional Networks
CN116738042A (zh) 基于图神经网络的主梁推荐方法
Zhang et al. AGAN: Attribute generative adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant