CN113139134B - 一种社交网络中用户生成内容的流行度预测方法、装置 - Google Patents
一种社交网络中用户生成内容的流行度预测方法、装置 Download PDFInfo
- Publication number
- CN113139134B CN113139134B CN202110451329.XA CN202110451329A CN113139134B CN 113139134 B CN113139134 B CN 113139134B CN 202110451329 A CN202110451329 A CN 202110451329A CN 113139134 B CN113139134 B CN 113139134B
- Authority
- CN
- China
- Prior art keywords
- user
- neural network
- topic
- generated content
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种社交网络中用户生成内容的流行度预测方法、装置以及计算机存储介质,为社交网络相关分析处理提供决策支持,包括步骤:采集数据,获取用户生成内容文本数据、用户生成内容被用户转发的级联路径;通过主体模型获得主题路径并进行向量表示;构建用户关注关系网络,使用deepwalk算法获得用户关注关系网络中的节点特征,得到用户初始的特征表示;通过循环神经网络对用户生成内容文本的主题路径进行编码,获得用户生成内容文本的主题嵌入表示;构建并训练流行度预测模型,输入用户生成内容文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率,输出流行度预测结果。
Description
技术领域
本发明涉及社交网络传播分析技术领域,具体涉及一种社交网络中用户生成内容的流行度预测方法、装置。
背景技术
随着Twitter、Facebook、新浪微博、Instagram等社交媒体平台的蓬勃发展,用户生成的网络内容的制作和传播,也就是我们所说的一种信息,在我们的生活中变得极其方便和普遍。每天,在这些平台上产生数以万计的信息。面对如此庞大的信息量,预测碎片信息的流行程度对于我们提前发现热门信息,帮助人们走出信息爆炸的困境是很有价值的。同时,对信息流行度的大小进行有效的建模和预测对于谣言检测和疫情防控等下游任务至关重要。然而,由于社交平台的开放性和信息扩散的级联效应,准确预测网络内容的受欢迎程度非常具有挑战性。对研究人员和从业者来说,预测社交平台上在线内容的流行度大小都是一项重要任务。
目前争对社交平台的内容信息流行度增长影响因素方面,研究者主要利用早期采用者的时序特征和结构特征进行流行度预测,对于时序特征,主要有观测时间、内容发布时间、用户转发时间与发布时间差等;对于结构特征,主要有网络的边缘密度以及深度、网络拓扑结构、节点出度与入度、节点的PageRank分数。针对流行度预测方面,主要是预测给定信息项在未来的流行度规模,通常使用的时传统数学建模或是机器学习方法。
随着最近图表示技术方法的出现,图神经网络已被用于捕获信息扩散的社交网络结构,相关方法将观测到的级联图表示为一系列子图,或将级联图建模为动态图。然而,这些基于图神经网络的方法大多只关注图结构表示,而忽略了文本语义在级联扩散中的隐藏作用。为此,本发明旨在提供一种基于图神经网络的社交网络信息流行度预测方法以融合文本语义信息解决目前存在的问题。
发明内容
针对上述问题,本发明提供了一种社交网络中用户生成内容的流行度预测方法、装置以及计算机存储介质,其可以预测社交网络中用户生成的信息内容的流行度大小,从而为社交网络相关分析处理提供决策支持。
其技术方案是这样的:一种社交网络中用户生成内容的流行度预测方法,其特征在于,包括以下步骤:
步骤1:在社交网络平台中采集用户生成内容的传播数据,获取用户生成内容文本数据、用户生成内容被用户转发的级联路径;
步骤2:通过主体模型从用户生成内容文本数据中获得用户生成内容文本中的主题分布,按照主题分布大小进行排列,得到每个用户生成内容文本的主题路径,通过主题关键词表示每个主题,使用词向量模型将主题路径进行向量表示;
步骤3:构建用户关注关系网络,使用deepwalk算法获得用户关注关系网络中的节点特征,计算得到用户初始的特征表示;
步骤4:通过循环神经网络对用户生成内容文本的主题路径进行编码,获得用户生成内容文本的主题嵌入表示;
步骤5:构建并训练流行度预测模型,所述预测模型包括图神经网络层和求和池化层,将用户生成内容文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入流行度预测模型中,输出流行度预测结果。
进一步的,在步骤1中,从用户生成内容的传播数据中获取用户生成内容文本数据,构成组成文本语料库M={m1,m2,...,mn},其中mn表示第n条用户生成内容的文本数据,按照时间顺序记录整个文本语料库内消息mi的级联路径其中,uk表示用户uk是第k个对消息mi进行转发的用户。
进一步的,步骤2具体包括以下步骤:
步骤201:通过主题模型BTM对数据集中的文本语料库M={m1,m2,...,mn}进行主题发现,BTM模型输出每条文本mi的主题分布,表示为:
{(topic1,di1),(topic2,di2),…,(topicS,diS)}
其中,其中topici表示主题标号,di表示主题topici在文本mi中所占的分布大小,i∈S,S为设定的通过主题模型BTM输出的文本的主题数,S个主题的分布大小满足:
按照每个主题的分布大小di进行降序排列得到主题路径Pi,表示为:
Pi={topic′i1,topic′i2,…,topici′iS}
其中,降序排列后的主题分布大小d’i满足d’i1>...>d’iS;
为主题路径Pi中的每个主题,按照出现次数,生成C个主题关键词keywordC,C∈[1,S];
步骤202:使用分词工具对文本语料库进行单词切分,得到分词后的文本语料库,之后使用词嵌入模型Word2vec对分好词后的文本语料库进行训练,得到训练好的词向量模型;
步骤203:将得到的主题关键词输入训练好的词向量模型,得到主题关键词的向量表示,拼接每个主题的主题关键词,得到主题的向量表示qi:
qi=concat(w2c[keywordC]),C∈[1,K]
其中concat表示拼接操作,w2c表示训练好的词向量模型,keywordC表示第C个主题关键词,主题路径的向量表示为Qi={q1,q2,…qn}。
进一步的,步骤3具体包括以下步骤:
步骤301:设定用户关注条件,根据用户关注条件,从用户生成内容的传播数据中获取用户间的关注关系,生成所有用户的边关系列表,其中边关系列表每一行表示形式为“useri userj”,代表了用户i与用户j之间存在边关系,使用python的工具networkx构建关注关系网络;
步骤302:将步骤301中生成的关注关系列表作为输入,使用deepwalk算法生成关注关系网络的初始节点网络特征;
通过python工具networkx,获得关注关系网络的初始节点属性特征,节点属性特征包括核数、Pagerank值、中心分数、聚类系数和权威分数;
拼接初始节点网络特征和初始节点属性特征得到用户v初始的特征表示fv。
进一步的,在步骤301中,用户关注条件具体为:设置转发阈值e,然后根据用户生成内容的传播数据中的直接转发关系次数进行过滤,如果用户i直接转发用户j的用户生成内容达到或超过阈值e,则判定用户i关注了用户j,满足用户关注条件。
进一步的,步骤4具体包括以下步骤:
步骤402:构建度量模型,所述度量模型包括循环神经网络层和求和池化层,将更新后的主题路径的向量表示和主题分布大小输入度量模型,输出文本的主题嵌入表示TEi,表示为:
其中dit表示文本mi中topict的主题分布大小,hit表示循环神经网络的第t步输出的隐藏状态。
进一步的,步骤5具体包括以下步骤:
步骤501:构建流行度预测模型,所述预测模型包括顺序设置的图神经网络层和求和池化层,将文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入训练好的流行度预测模型的图神经网络层中,通过图神经网络层更新用户的特征表示和用户的激活概率,最终得到最后一层图神经网络输出的用户的激活概率,通过激活概率表示用户转发的概率,随后输入求和池化层,得到预测的流行度;
步骤502:采集用户生成内容的传播数据构造训练数据集,通过训练集的数据训练构建的流行度预测模型,将预测的流行度与真实流行度进行比较,优化损失函数,流行度预测模型训练使用平均相对平方误差作为优化的损失函数,表示为:
步骤503:将需要预测的用户生成内容的传播数据对应的用户的特征表示和文本的主题嵌入表示,输入训练好的流行度预测模型,输出预测的流行度。
进一步的,在步骤501中,还包括以下步骤:设置观测窗口,根据级联路径上的用户是否在观测窗口内的判断给出用户初始的激活概率,具体包括:
设置观测窗口T,按照时间顺序记录下观测窗口T内用户生成内容mi被转发的级联路径,表示为:
其中,(uj,tj)表示在tj时刻用户uj对消息mi进行了转发,tp为观测窗口的最晚时间,对于在观测时间窗口内的用户,将激活概率s设置初始化为1,其他未被观测到的用户,激活概率s设置初始化为0,用户的激活概率s∈[0,1]。
进一步的,在步骤501中,流行度预测模型的计算具体如下:
步骤501a:计算用户的特征表示在图神经网络中的更新:
输入的用户的特征表示在图神经网络层中邻域聚合后表示为:
其中表示用户u在第k层图神经网络中的激活概率,αuv表示在第k层图神经网络中用户u到用户v的注意系数,W(k)表示在第k层图神经网络中的权重矩阵,表示用户u在第k层图神经网络中的特征表示,输出的表示用户v在第k层图神经网络中通过邻域聚合得到的特征;
其中,用户u到用户v的注意系数αuv通过如下公式计算:
其中γ(k)、W(k)表示第k层图神经网络中权重参数,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,exp(*)表示以自然常数e为底的指数函数,softmax表示损失函数,表示用户u对于用户v的重要性程度;
在第k+1层图神经网络中用户v的特征表示更新为:
其中表示权重参数,表示用户v在第k层图神经网络上的特征表示,W(k)表示权重矩阵,||表示拼接操作,σ表示非线性激活函数,表示用户v在第k层图神经网络中通过邻域聚合得到的特征,TEi为文本的主题嵌入表示。
步骤501b:计算用户的激活概率在图神经网络中的更新:
计算用户v的特征在图神经网络层中受到的异质影响聚合后的特征表示,表示为:
其中W(k)表示第k层图神经网络上的权重矩阵,β(k)表示第k层图神经网络上的权重向量,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,表示用户u在第k层图神经网络上的激活概率,pv表示用户v的自激活影响概率;
更新的用户v的激活概率通过下式表示:
表示第k层图神经网络上的权重参数,σ表示非线性激活函数,表示用户v在第k层图神经网络上的激活概率,输出的表示用户v在k+1层图神经网络的激活概率,为用户v的特征在第k层图神经网络中受到的异质影响聚合后的特征表示;
步骤501c:计算预测的流行度:图神经网络层包括T层图神经网络,通过步骤501a和步骤501b的方法计算得到的用户在最后一层神经网络上的激活概率,然后将用户在最后一层神经网络上的激活概率输入求和池化层,输出预测的流行度表示为:
一种计算机装置,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如上述的一种社交网络中用户生成内容的流行度预测方法。
一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如上述的一种社交网络中用户生成内容的流行度预测方法。
本发明具有的有益效果是:
1.本发明通过对社交平台上捕获了不同主题特征对于消息流行度贡献,通过短文本主题模型进行主题发现,并基于循环神经网络RNN与注意力机制得出每条文本的主题语义表示,因此对比只考虑网络结构的方法能更好的预测级联规模。
2.本发明通过改进了图神经网络中邻域聚合策略,对于每个网络中的用户,设计了激活概率来表示其激活状态,并将其作用于图神经网络中用户特征更新中,通过激活概率表示转发的概率,使其更好地适用于流行度预测任务。
3.本发明通过设置超参数控制输入到模型中的有效主题数对短文本输入的语义量多少进行度量,通过循环神经网络与注意力机制学习文本中不同主题重要性与主题间的关联性,并得到短文本的主题嵌入,本发明方法在提取社交平台用户生成内容的语义上有更强的针对性。
4.本发明通过深度学习技术将文本语义与图神经网络相结合,对用户在社交网络中受到的来自文本内容影响、社交网络关系影响以及自激活影响进行建模,最终得到用户的激活概率,以计算更准确的预测结果。
5.本发明可以用于在线社交平台分析,数据挖掘领域,尤其可以用于监测某些内容或者主题的流行度变化趋势。
6.本发明通过门机制获得每个用户的微观激活概率,以此表示激活状态,可以对挖掘意见领袖等任务做支撑。
附图说明
图1为本发明的本发明的一种社交网络中用户生成内容的流行度预测方法的主要流程示意图;
图2为使用不同的主题模型替换掉BTM主题模型对文本语料库进行主题发现的实验结果示意图;
图3为一个实施例中计算机装置的内部结构图。
具体实施方式
如图1所示,本发明的一种社交网络中用户生成内容的流行度预测方法,至少包括以下步骤:
步骤1:在社交网络平台中采集用户生成内容(User Generated Content)的传播数据,获取用户生成内容文本数据、用户生成内容被用户转发的级联路径;
步骤2:通过主体模型从用户生成内容文本数据中获得用户生成内容文本中的主题分布,按照主题分布大小进行排列,得到每个用户生成内容文本的主题路径,通过主题关键词表示每个主题,使用词向量模型将主题路径进行向量表示;
步骤3:构建用户关注关系网络,使用deepwalk算法获得用户关注关系网络中的节点特征,计算得到用户初始的特征表示;
步骤4:通过循环神经网络对用户生成内容文本的主题路径进行编码,获得用户生成内容文本的主题嵌入表示;
步骤5:构建并训练流行度预测模型,预测模型包括图神经网络层和求和池化层,将用户生成内容文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入流行度预测模型中,输出流行度预测结果。
在本发明的一个具体实施例中,在步骤1中,从用户生成内容的传播数据中获取用户生成内容文本数据,构成组成文本语料库M={mi,m2,...,mn},其中mn表示第n条用户生成内容的文本数据,按照时间顺序记录整个文本语料库内消息mi的级联路径其中,uk表示用户uk是第k个对消息mi进行转发的用户。
社交网络平台产生的用户生成内容(User Generated Content)通常是短文本,本发明选取在短文本上效果较好的主题模型BTM对数据集中的文本语料库M={m1,m2,...,mn}进行主题发现。
具体的,步骤2具体包括以下步骤:
步骤201:通过主题模型BTM对数据集中的文本语料库M={m1,m2,...,mn}进行主题发现,在本实施例中,BTM主题模型的参数设置为:主题数S设置为15,BTM模型输出每条文本mi的主题分布,表示为:
{(topic1,di1),(topic2,di2),…,(topics,diS)}
其中,其中topici表示主题标号,di表示主题topici在文本mi中所占的分布大小,i∈S,S为设定的通过主题模型BTM输出的文本的主题数,S个主题的分布大小满足:
按照每个主题的分布大小di进行降序排列得到主题路径Pi,表示为:
Pi={topic′i1,topic′i2,…,topic′iS}
其中,降序排列后的主题分布大小d’i满足d’i1>...>d’iS;
为主题路径Pi中的每个主题,按照出现次数,生成C个主题关键词keywordC,C∈[1,S],在本实施例中,C取10,每个主题生成Top 10个关键词;
步骤202:使用分词工具对文本语料库进行单词切分,得到分词后的文本语料库,之后使用词嵌入模型Word2vec对分好词后的文本语料库进行训练,得到训练好的词向量模型;
对于中文数据集,首先使用分词工具对语料库进行单词切分,得到分词后的语料库,之后使用词嵌入模型Word2vec对分好词后的语料库进行训练,得到所有单词的词嵌入向量,其中Word2vec模型参数设置如下:词嵌入向量维度为32,采用skip-gram方法,考虑上下文单词数设置为5。训练好的词向量模型后将其保存后得到词嵌入矩阵,其中矩阵每一行代表着一个单词的词嵌入向量。
步骤203:对于步骤201中BTM模型生成的每个主题mi的C个关键词,将其输入训练好的词向量模型,得到主题关键词的向量表示,拼接每个主题的主题关键词,得到主题的向量表示qi:
qi=concat(w2c[keywordC]),C∈[1,K]
其中concat表示拼接操作,w2c表示训练好的词向量模型,keywordC表示第C个主题关键词,主题路径的向量表示为Qi={q1,q2,…qn}。
具体在本实施例中,步骤3具体包括以下步骤:
步骤301:设定用户关注条件,根据用户关注条件,从用户生成内容的传播数据中获取用户间的关注关系,生成所有用户的边关系列表,其中边关系列表每一行表示形式为“useri userj”,代表了用户i与用户j之间存在边关系,使用python的工具networkx构建关注关系网络。
具体在本实施例中,用户关注条件具体为:设置转发阈值e,然后根据用户生成内容的传播数据中的直接转发关系次数进行过滤,如果用户i直接转发用户j的用户生成内容达到或超过阈值e,则判定用户i关注了用户j,满足用户关注条件。
步骤302:将步骤301中生成的关注关系列表作为输入,使用deepwalk算法生成关注关系网络的初始节点网络特征,其中deepwalk算法中节点嵌入维度设置为32;
通过python工具networkx,获得关注关系网络的初始节点属性特征,节点属性特征包括核数、Pagerank值、中心分数、聚类系数和权威分数;
拼接初始节点网络特征和初始节点属性特征得到用户v初始的特征表示fv。
在本实施例中,文本主题路径中每一个元素代表了一个主题语义表示,由于社交网络用户生成内容具有简短且主题稀疏的特点,为了对每条文本主题路径输入到模型中的语义量多少行衡量,步骤4具体包括以下步骤:
步骤402:构建度量模型,度量模型包括循环神经网络层和求和池化层,将更新后的主题路径的向量表示和主题分布大小输入度量模型,输出文本的主题嵌入表示TEi,表示为:
其中dit表示文本mi中topict的主题分布大小,hit表示循环神经网络的第t步输出的隐藏状态。
在本实施例中,步骤5具体包括以下步骤:
步骤501:构建流行度预测模型,预测模型包括顺序设置的图神经网络层和求和池化层,将文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入训练好的流行度预测模型图神经网络层中,通过图神经网络层更新用户的特征表示和用户的激活概率,最终得到最后一层图神经网络输出的用户的激活概率,通过激活概率表示用户转发的概率,随后输入求和池化层,得到预测的流行度;
使用图神经网络对社交网络中每个用户所受到的影响进行建模,其中影响包括文本语义影响、用户受到来自社交网络用户间的影响以及自激活影响pv,一般地,pv表示了用户脱机通信或者浏览头条热点等自转发概率。对于一条文本,用户受到来自该文本的语义影响为步骤4中得到的;对于用户受到来自社交网络的影响构建,本实施例中使用图神经网络进行建模。图神经网络将节点之间的关注关系构成的邻接矩阵与每个节点的特征和激活状态表示作为输入,图神经网络中具有邻域聚合机制特性,以进行节点特征的更新。
具体在本实施例中,用户初始的激活概率是这样获得的:设置观测窗口,根据级联路径上的用户是否在观测窗口内的判断给出用户初始的激活概率,具体可以按照如下方式执行:
从这些用户生成内容的原始发布者发布的时间开始,设置观测窗口T,按照时间顺序记录下观测窗口T内用户生成内容mi被转发的级联路径,表示为:
其中,(uj,tj)表示在tj时刻用户uj对消息mi进行了转发,tp为观测窗口的最晚时间,对于在观测时间窗口内的用户,将激活概率s设置初始化为1,其他未被观测到的用户,激活概率s设置初始化为0,用户的激活概率s∈[0,1]。
具体的,流行度预测模型的计算具体如下:
步骤501a:计算用户的特征表示在图神经网络中的更新:
设计一种图神经网络中的邻域聚集策略,输入的用户的特征表示在图神经网络层中邻域聚合后表示为:
其中表示用户u在第k层图神经网络中的激活概率,αuv表示在第k层图神经网络中用户u到用户v的注意系数,W(k)表示在第k层图神经网络中的权重矩阵,表示用户u在第k层图神经网络中的特征表示,输出的表示用户v在第k层图神经网络中通过邻域聚合得到的特征;
其中,用户u到用户v的注意系数αuv通过如下公式计算:
其中γ(k)、W(k)表示第k层图神经网络中权重参数,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,exp(*)表示以自然常数e为底的指数函数,softmax表示损失函数,表示用户u对于用户v的重要性程度;
在第k+1层图神经网络中用户v的特征表示更新为:
其中表示权重参数,表示用户v在第k层图神经网络上的特征表示,W(k)表示权重矩阵,||表示拼接操作,σ表示非线性激活函数,表示用户v在第k层图神经网络中通过邻域聚合得到的特征,TEi为文本的主题嵌入表示。
步骤501b:得到第k层图神经网络中每个用户的特征表示后,计算用户的激活概率在图神经网络中的更新:
计算用户v的特征在图神经网络层中受到的异质影响聚合后的特征表示,表示为:
其中W(k)表示第k层图神经网络上的权重矩阵,β(k)表示第k层图神经网络上的权重向量,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,表示用户u在第k层图神经网络上的激活概率,pv表示用户v的自激活影响概率;
更新的用户v的激活概率通过下式表示:
表示第k层图神经网络上的权重参数,σ表示非线性激活函数,表示用户v在第k层图神经网络上的激活概率,为用户v的特征在第k层图神经网络中受到的异质影响聚合后的特征表示,输出的表示用户v通过非线性激活函数σ在k+1层图神经网络输出的激活概率,非线性激活函数σ采用门机制输出0-1的值,通过激活概率表示转发的概率;
步骤501c:计算预测的流行度:图神经网络层包括T层图神经网络,通过步骤501a和步骤501b的方法计算得到的用户在最后一层即第T层神经网络上的激活概率,然后将用户在最后一层神经网络上的激活概率输入求和池化层,输出预测的流行度表示为:
在完成流行度预测模型的构建后,则需要对流行度预测模型进行训练,具体如步骤502:采集用户生成内容的传播数据构造训练数据集,通过训练集的数据训练构建的流行度预测模型,将预测的流行度与真实流行度进行比较,优化损失函数,流行度预测模型训练使用平均相对平方误差作为优化的损失函数,表示为:
步骤503:将需要预测的用户生成内容的传播数据对应的用户的特征表示和文本的主题嵌入表示,输入训练好的流行度预测模型,输出预测的流行度,输出预测的流行度是估计的用户生成内容的预计转发数,从而可以很直观的表征对于流行度的预测。
本发明设置了实验对比了目前流行度预测最新方法以验证所提出方法的有效性。实验结果如表1所示:
其中数据集选取了新浪微博和推特数据,对于新浪微博数据集,观测时间设置为1.5小时和3小时,对于推特数据集,观测时间设置为2小时。为了全面评估方法的有效性,本实验选取了四个指标,分别是MRSE(平均相对平方误差)、MAPE(平均绝对误差百分比)、mRSE(相对平方误差中位数)、WroPerc(错误的百分比误差)。这些指标在本实验中,较低值表示方法效果越好。可以看出本发明的方法Our Model,在各个指标上均优于目前流行度方法,包括Features-Based、SEISMIC、DeepCas、CoupledGNN。
另外,为了验证本方法提出的主题嵌入模块有用性,我们设计了消融实验来对比分析。具体地,使用不同的主题模型替换掉BTM主题模型对文本语料库进行主题发现,或者移除掉主题嵌入进行实验。结果如图2,首先使用了主题嵌入模块的效果要优于移除了主题嵌入模块的效果,这解释了文本语义对于流行度预测是有益的,而使用了BTM主题模型对短文本语义有效的进行建模,本方法在对比实验中取得了比LDA主题模型更好的效果。
在本发明的实施例中,还提供了一种计算机装置,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现如上述的社交网络中用户生成内容的流行度预测方法。
该计算机装置可以是终端,其内部结构图可以如图3所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现社交网络中用户生成内容的流行度预测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,其上存储有程序,程序被处理器执行时实现如上述的社交网络中用户生成内容的流行度预测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.一种社交网络中用户生成内容的流行度预测方法,其特征在于,包括以下步骤:
步骤1:在社交网络平台中采集用户生成内容的传播数据,获取用户生成内容文本数据、用户生成内容被用户转发的级联路径;
步骤2:通过主体模型从用户生成内容文本数据中获得用户生成内容文本中的主题分布,按照主题分布大小进行排列,得到每个用户生成内容文本的主题路径,通过主题关键词表示每个主题,使用词向量模型将主题路径进行向量表示;
步骤3:构建用户关注关系网络,使用deepwalk算法获得用户关注关系网络中的节点特征,计算得到用户初始的特征表示;
步骤4:通过循环神经网络对用户生成内容文本的主题路径进行编码,获得用户生成内容文本的主题嵌入表示;
步骤5:构建并训练流行度预测模型,所述预测模型包括图神经网络层和求和池化层,将用户生成内容文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入流行度预测模型中,通过图神经网络层更新用户的特征表示和用户的激活概率,输出流行度预测结果。
3.根据权利要求2所述的一种社交网络中用户生成内容的流行度预测方法,其特征在于:步骤2具体包括以下步骤:
步骤201:通过主题模型BTM对数据集中的文本语料库M={m1,m2,...,mn}进行主题发现,BTM模型输出每条文本mi的主题分布di,表示为:
{(topic1,di1),(topic2,di2),…,(topicS,diS)}
其中,其中topici表示主题标号,diS表示主题topiciS在文本mi中所占的分布大小,i∈S,S为设定的通过主题模型BTM输出的文本的主题数,S个主题的分布大小满足:
按照每个主题的分布大小di进行降序排列得到主题路径Pi,表示为:
Pi={topic′i1,topic′i2,…,topic′iS}
其中,降序排列后的主题分布大小d’i满足d’i1>...>d’iS;
为主题路径Pi中的每个主题,按照出现次数,生成C个主题关键词keywordC,C∈[1,S];
步骤202:使用分词工具对文本语料库进行单词切分,得到分词后的文本语料库,之后使用词嵌入模型Word2vec对分好词后的文本语料库进行训练,得到训练好的词向量模型;
步骤203:将得到的主题关键词输入训练好的词向量模型,得到主题关键词的向量表示,拼接每个主题的主题关键词,得到主题的向量表示qi:
qi=concat(w2c[keywordC]),C∈[1,K]
其中concat表示拼接操作,w2c表示训练好的词向量模型,keywordC表示第C个主题关键词,主题路径的向量表示为Qi={q1,q2,…qn}。
4.根据权利要求1所述的一种社交网络中用户生成内容的流行度预测方法,其特征在于:步骤3具体包括以下步骤:
步骤301:设定用户关注条件,根据用户关注条件,从用户生成内容的传播数据中获取用户间的关注关系,生成所有用户的边关系列表,其中边关系列表每一行表示形式为“useri userj”,代表了用户i与用户j之间存在边关系,使用python的工具networkx构建关注关系网络;
步骤302:将步骤301中生成的关注关系列表作为输入,使用deepwalk算法生成关注关系网络的初始节点网络特征;
通过python工具networkx,获得关注关系网络的初始节点属性特征,节点属性特征包括核数、Pagerank值、中心分数、聚类系数和权威分数;
拼接初始节点网络特征和初始节点属性特征得到用户v初始的特征表示fv。
5.根据权利要求3所述的一种社交网络中用户生成内容的流行度预测方法,其特征在于:在步骤301中,用户关注条件具体为:设置转发阈值e,然后根据用户生成内容的传播数据中的直接转发关系次数进行过滤,如果用户i直接转发用户j的用户生成内容达到或超过阈值e,则判定用户i关注了用户j,满足用户关注条件。
7.根据权利要求6所述的一种社交网络中用户生成内容的流行度预测方法,其特征在于:步骤5具体包括以下步骤:
步骤501:构建流行度预测模型,所述预测模型包括顺序设置的图神经网络层和求和池化层,将文本的主题嵌入表示和用户初始的特征表示以及用户初始的激活概率输入训练好的流行度预测模型图神经网络层中,通过图神经网络层更新用户的特征表示和用户的激活概率,最终得到最后一层图神经网络输出的用户的激活概率,通过激活概率表示用户转发的概率,随后输入求和池化层,得到预测的流行度;
步骤502:采集用户生成内容的传播数据构造训练数据集,通过训练集的数据训练构建的流行度预测模型,将预测的流行度与真实流行度进行比较,优化损失函数,流行度预测模型训练使用平均相对平方误差作为优化的损失函数,表示为:
步骤503:将需要预测的用户生成内容的传播数据对应的用户的特征表示和文本的主题嵌入表示,输入训练好的流行度预测模型,输出预测的流行度。
8.根据权利要求6所述的一种社交网络中用户生成内容的流行度预测方法,其特征在于:在步骤501中,还包括以下步骤:设置观测窗口,根据级联路径上的用户是否在观测窗口内的判断给出用户初始的激活概率,具体包括:
设置观测窗口T,按照时间顺序记录下观测窗口T内用户生成内容mi被转发的级联路径,表示为:
其中,(uj,tj)表示在tj时刻用户uj对消息mi进行了转发,tp为观测窗口的最晚时间,对于在观测时间窗口内的用户,将激活概率s设置初始化为1,其他未被观测到的用户,激活概率s设置初始化为0,用户的激活概率s∈[0,1];
在步骤501中,流行度预测模型的计算具体如下:
步骤501a:计算用户的特征表示在图神经网络中的更新:
输入的用户的特征表示在图神经网络层中邻域聚合后表示为:
其中表示用户u在第k层图神经网络中的激活概率,αuv表示在第k层图神经网络中用户u到用户v的注意系数,W(k)表示在第k层图神经网络中的权重矩阵,表示用户u在第k层图神经网络中的特征表示,输出的表示用户v在第k层图神经网络中通过邻域聚合得到的特征;
其中,用户u到用户v的注意系数αuv通过如下公式计算:
其中γ(k)、W(k)表示第k层图神经网络中权重参数,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,exp(*)表示以自然常数e为底的指数函数,softmax表示损失函数,表示用户u对于用户v的重要性程度;
在第k+1层图神经网络中用户v的特征表示更新为:
其中表示权重参数,表示用户v在第k层图神经网络上的特征表示,W(k)表示权重矩阵,||表示拼接操作,σ表示非线性激活函数,表示用户v在第k层图神经网络中通过邻域聚合得到的特征,TEi为文本的主题嵌入表示;
步骤501b:计算用户的激活概率在图神经网络中的更新:
计算用户v的特征在图神经网络层中受到的异质影响聚合后的特征表示,表示为:
其中W(k)表示第k层图神经网络上的权重矩阵,β(k)表示第k层图神经网络上的权重向量,表示用户u在第k层图神经网络中的特征表示,表示用户v在第k层图神经网络中的特征表示,表示用户u在第k层图神经网络上的激活概率,pv表示用户v的自激活影响概率;
更新的用户v的激活概率通过下式表示:
表示第k层图神经网络上的权重参数,σ表示非线性激活函数,表示用户v在第k层图神经网络上的激活概率,输出的表示用户v在k+1层图神经网络的激活概率,为用户v的特征在第k层图神经网络中受到的异质影响聚合后的特征表示;
步骤501c:计算预测的流行度:图神经网络层包括T层图神经网络,通过步骤501a和步骤501b的方法计算得到的用户在最后一层神经网络上的激活概率,然后将用户在最后一层神经网络上的激活概率输入求和池化层,输出预测的流行度表示为:
9.一种计算机装置,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如权利要求1所述的一种社交网络中用户生成内容的流行度预测方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于:所述程序被处理器执行时实现如权利要求1所述的一种社交网络中用户生成内容的流行度预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110451329.XA CN113139134B (zh) | 2021-04-26 | 2021-04-26 | 一种社交网络中用户生成内容的流行度预测方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110451329.XA CN113139134B (zh) | 2021-04-26 | 2021-04-26 | 一种社交网络中用户生成内容的流行度预测方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113139134A CN113139134A (zh) | 2021-07-20 |
CN113139134B true CN113139134B (zh) | 2022-04-19 |
Family
ID=76812034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110451329.XA Active CN113139134B (zh) | 2021-04-26 | 2021-04-26 | 一种社交网络中用户生成内容的流行度预测方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139134B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113837457A (zh) * | 2021-09-14 | 2021-12-24 | 上海任意门科技有限公司 | 用于预测帖子互动行为状态的方法、计算设备和存储介质 |
CN113962358B (zh) * | 2021-09-29 | 2023-12-22 | 西安交通大学 | 一种基于时序超图注意力神经网络的信息扩散预测方法 |
CN113792937B (zh) * | 2021-09-29 | 2022-09-13 | 中国人民解放军国防科技大学 | 一种基于图神经网络的社交网络影响力预测方法、装置 |
CN115878907B (zh) * | 2022-12-28 | 2023-08-11 | 人民网股份有限公司 | 基于用户依赖关系的社交网络转发行为预测方法及装置 |
CN117610717A (zh) * | 2023-11-13 | 2024-02-27 | 重庆大学 | 一种基于双变分级联自编码器的信息流行度预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829114A (zh) * | 2019-02-14 | 2019-05-31 | 重庆邮电大学 | 一种基于用户行为的话题流行度预测系统及方法 |
CN110059882A (zh) * | 2019-04-19 | 2019-07-26 | 金陵科技学院 | 一种基于移动社交网络的内容流行度预测方法和装置 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
CN112667920A (zh) * | 2020-12-29 | 2021-04-16 | 复旦大学 | 基于文本感知的社交影响力预测方法、装置及设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10389677B2 (en) * | 2016-12-23 | 2019-08-20 | International Business Machines Corporation | Analyzing messages in social networks |
US10902203B2 (en) * | 2019-04-23 | 2021-01-26 | Oracle International Corporation | Named entity disambiguation using entity distance in a knowledge graph |
-
2021
- 2021-04-26 CN CN202110451329.XA patent/CN113139134B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109829114A (zh) * | 2019-02-14 | 2019-05-31 | 重庆邮电大学 | 一种基于用户行为的话题流行度预测系统及方法 |
CN110059882A (zh) * | 2019-04-19 | 2019-07-26 | 金陵科技学院 | 一种基于移动社交网络的内容流行度预测方法和装置 |
CN112069826A (zh) * | 2020-07-15 | 2020-12-11 | 浙江工业大学 | 融合主题模型和卷积神经网络的垂直域实体消歧方法 |
CN112667920A (zh) * | 2020-12-29 | 2021-04-16 | 复旦大学 | 基于文本感知的社交影响力预测方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113139134A (zh) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113139134B (zh) | 一种社交网络中用户生成内容的流行度预测方法、装置 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
JP5351182B2 (ja) | 関心領域についての関連情報の決定 | |
US20170323199A1 (en) | Method and system for training and neural network models for large number of discrete features for information rertieval | |
WO2021135562A1 (zh) | 特征有效性评估方法、装置、电子设备及存储介质 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
WO2019218508A1 (zh) | 一种基于主题情感联合概率的电子商务虚假评论识别方法 | |
CN107992531A (zh) | 基于深度学习的新闻个性化智能推荐方法与系统 | |
Qiang et al. | Short text clustering based on Pitman-Yor process mixture model | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
Zhang et al. | An emotional classification method of Chinese short comment text based on ELECTRA | |
Mardjo et al. | HyVADRF: hybrid VADER–random forest and GWO for bitcoin tweet sentiment analysis | |
CN113449204B (zh) | 基于局部聚合图注意力网络的社会事件分类方法、装置 | |
CN110880006A (zh) | 用户分类方法、装置、计算机设备和存储介质 | |
CN112307336B (zh) | 热点资讯挖掘与预览方法、装置、计算机设备及存储介质 | |
CN112183881A (zh) | 一种基于社交网络的舆情事件预测方法、设备及存储介质 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN113536144A (zh) | 一种社交网络信息的传播规模预测方法、装置 | |
Wan | Sentiment analysis of Weibo comments based on deep neural network | |
Guy et al. | Identifying informational vs. conversational questions on community question answering archives | |
Doshi et al. | Predicting movie prices through dynamic social network analysis | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及系统 | |
WO2023246849A1 (zh) | 回馈数据图谱生成方法及冰箱 | |
Zhang et al. | DeepBlue: Bi-layered LSTM for tweet popularity estimation | |
WO2023048807A1 (en) | Hierarchical representation learning of user interest |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |