CN116127178A

CN116127178A - 基于属性多重异构信息网络的网络文章影响力评估方法

Info

Publication number: CN116127178A
Application number: CN202211372916.0A
Authority: CN
Inventors: 钱云光; 张凤寒
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-05-16

Abstract

本发明公开了基于属性多重异构信息网络的网络文章影响力评估方法，主要包含五个步骤：第一步骤为通过爬虫技术获取多个目标网站的目标网络文章的文本及其属性信息；第二步骤为依据获取到的目标网络文章的文本及其属性信息并对其进行处理，建立属性库；第三步骤为将目标网络文章的属性库以词袋模型或者WordToVec表示，构建多重异构信息网络；第四步骤为采用metapath2vec中的基于元路径的随机游走模式，将网站和作者的影响值融入模型表示学习；最后根据模型表示学习的结果表征，结合目标网络文章的影响值，使用机器学习模型进行回归训练，得到可重复使用的模型，以实现输入一篇文章即可获得其影响力值，根据其影响力值对目标网络文章的影响力进行评估。

Description

基于属性多重异构信息网络的网络文章影响力评估方法

技术领域

本发明涉及计算机技术领域，尤其涉及基于属性多重异构信息网络的网络文章影响力评估方法。

背景技术

针对网络文章及页面的影响力研究，早期的经典工作是PageRank算法，其基本思想是将网页的初始权重值平均地分配给链接的网页，循环操作至网页的权重收敛，最终的网页权重值就是PageRank值。此后，许多链接分析及文章影响力的分析都是基于PageRank算法改进而来。近年来，出现了许多基于推特，微博等网络媒体上发表文章的研究。这些研究通常对针对文章的一些媒体行为进行建模分析，如文章的被转发次数，点赞数，评论数等；也有对用户的影响力进行建模，统计用户的属性，如注册使用时间，发布数量，粉丝数等。

另一方面则是针对研究型论文的影响力。其次，也有通过建模科学引文的方法来衡量论文的影响力。如在引文网络中，将论文的被引用次数累加起来，累加值越高则被认为是越重要的论文；或者计算引用作者的数量来表示论文的重要程度。这种方式简单直接，计算量小。更经典的是H指数量化指标，其是一个混合的影响力量化指标。假设一个研究者的H指数为N，则其含义为该研究者有N篇论文至少被引用了N次。

这类型的传统方法主要基于一些影响力指标的直接计算来形成人工特征，虽然简单直接，但也存在如下的问题。首先，这类指标难以被论证有效性，所以其难以有权威性；其次，由于数据获取的局限性，能够提取的指标往往有限，建立起多种特性的评估模型后，所获得的多个方面的评估数值仅能分别与评估模型的其中一个维度的预设指标进行对比，难以全面考虑所有因素。

发明内容

为了解决背景技术中的问题，本申请提供基于属性多重异构信息网络的网络文章影响力评估方法，用以使网络文章的影响力评估更具有权威性和有效性。

本发明采用的技术方案如下：

基于属性多重异构信息网络的网络文章影响力评估方法，包括如下步骤：

S101、通过爬虫技术获取多个目标网站的目标网络文章的文本及其属性信息；

S102、依据获取到的目标网络文章的文本及其属性信息进行处理，(1)对目标网络文章的文本通过关键词过滤技术进行不相关信息的过滤；(2)随后使用语言主题模型抽取文章关键词作为文章的主题属性信息；(3)通过HITS算法计算目标网站、目标网络文章作者和目标网络文章的影响值；(4)将S101步骤中收集的属性信息、主题属性信息、目标网站和目标网络文章作者的影响值作为目标文章的属性信息，通过mysql数据库管理系统建立属性库；

S103、将目标网络文章的属性库以词袋模型或者WordToVec表示，构建多重异构信息网络；

S104、根据构建多重异构信息网络，采用metapath2vec中的基于元路径的随机游走模式，将网站和作者的影响值融入模型表示学习；

S105、根据模型表示学习的结果表征，结合目标网络文章的影响值，使用机器学习模型进行回归训练，得到可重复使用的模型，以实现输入一篇文章即可获得其影响力值，根据其影响力值对目标网络文章的影响力进行评估。

在一种可能的设计中，所述S101步骤中：通过网络爬虫技术从目标网络文章所在的网站上爬取目标网络文章文本及其属性信息，其属性信息包括：目标网络文章的关键词、阅读量、转发量、评论量；文章作者的注册时间、粉丝数量；目标网络文章所在网站的用户数、文章数。

在一种可能的设计中，所述S102步骤中，网站影响值的计算，先只考虑网站之间的关系网络，构建一个有向图，其中每个节点表示每个网站，每条边表示网站之间的相互转发关系，再通过HITS算法来计算网站的影响值；

所述作者影响值的计算，先只考虑作者之间的关系网络，构建一个有向图，其中每个节点表示每个作者，每条边表示作者之间的相互关注关系，再通过HITS算法来计算作者的影响值；

所述文章影响值的计算，先只考虑文章之间的关系网络，构建一个有向图，其中每个节点表示每篇文章，每条边表示文章之间的相互引用关系，再通过HITS算法来计算作者的影响值。

在一种可能的设计中，所述构建多重异构信息网络，包括：构建G＝(V,R,C)的三元组，其中V表示各网站、作者、文章中任一实体的节点；R对应节点V之间的关系；C对应每个不同节点V的属性。

在一种可能的设计中，每个节点V对应一个独立的属性集C，节点之间的边R表示节点间的关系，可以有多种关系，边R可以用不同的矩阵表示不同的关系。

在一种可能的设计中，基于节点之间的边R可以用不同的矩阵表示不同的关系，可构建矩阵来表示作者是否发表、转发、评论文章；文章是否在网站被发表、推荐；作者是否在网站注册、关注，同时建立每个节点的属性信息。可构建矩阵M1-M3来表示作者是否发表、转发、评论文章；R1-R2表示文章是否在网站被发表、推荐；S1-S2表示作者是否在网站注册、关注，同时建立每个节点的属性信息作为辅助。

在一种可能的设计中，所述S104步骤中，所述模型表示学习，采用metapath2vec中的基于元路径的随机游走模式，首先初始化模型参数，针对每个类型t的边生成随机游走序列，然后从中生成训练样本(v_i,v_j,t)，然后针对每个训练样本进行迭代计算表示并更新模型直至收敛，得到文章节点的表征。

在一种可能的设计中，所述S105步骤中，将目标网络文章节点特征值及文章影响值作为回归值，使用机器进行模型学习，用于回归训练，得到可重复使用的模型，最终实现向机器输入一篇网络文章即可输出其影响力值。

本发明的有益效果：

本发明相较于一些基于影响力指标的直接计算来形成人工特征的传统方法，不局限于传统影响力指标的收集与计算，通过提取多种属性信息，如文章的阅读量、引用次数；网站的用户数；作者的关注人数等，丰富了影响力数值的影响因素，通过属性多重异构信息网络学习得到文章的表示来建模影响力的评估，同时本发明具有更丰富的信息聚合和表达能力，能融合多个层面的信息属性进行统一的表示学习，对于网络文章的评估结果更具有有效性和权威性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提出的一种评估方法的步骤示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于属性多重异构信息网络的网络文章影响力评估方法，包括：

在步骤S101中，基于爬虫技术下的数据信息获取，采用基于大数据的分布式爬虫技术，在开放的多个目标网站上实时抓取目标网络文章及其阅读，转发，评论信息；以及作者的信息如注册时间，粉丝数量，发表文章数量；还有目标网站的详细信息如文章数，注册时间，使用人数；根据所获取的数据信息进行处理，针对网络文章本身，采用关键词过滤技术，通过规则库匹配垃圾文本，实现垃圾文本过滤，其具体流程包括：(1)准备词库，(2)清洗数据，(3)过滤算法(可采用字符串匹配算法、正则表达式匹配算法、DFA算法等)，(4)运行算法，过滤不相关信息、敏感信息，如涉政(政治人物、政治事件等)、广告(黑五类广告、导流广告)、违禁(黄赌毒、枪支弹药)、色情、低俗谩骂。再使用语言主题模型抽取文章关键词作为文章的主题属性信息，通过mysql数据库管理系统建立网络文章的属性库。

在步骤S102中，实际上，一篇文章的影响力不仅取决于其自身的内容，也取决于其发布的网站的影响力以及其作者的影响力，因此网站或作者的影响力越大，所发表的文章的影响力也越大，也有通过建模科学引文的方法来衡量论文的影响力。如在引文网络中，将论文的被引用次数累加起来，累加值越高则被认为是越重要的论文；或者计算引用作者的数量来表示论文的重要程度。这种方式简单直接，计算量小。

为计算网站的影响值，首先，构建网站与网站之间的网络关系，从而形成一个大的有向图；然后，通过经典的HITS算法来计算网站的影响值。该算法在限定范围之后根据节点的出度和入度建立一个矩阵，并且通过矩阵的迭代运算和定义收敛的阈值不断进行更新直至收敛。同理，也为作者及文章计算相应的影响值。

所述网站影响值的计算，包括：

先只考虑网站之间的关系网络，构建一个有向图，其中每个节点表示每个网站，每条边表示网站之间的相互转发关系，再通过HITS算法来计算网站的影响值。该算法的过程为：在限定范围内根据图上的每个节点的出度和入读建立相应的邻接矩阵，并通过矩阵的迭代运算和定义收敛的阈值不断进行更新直至收敛，最终得到影响值。其涉及到权威网站和中心网站的概念，前者是指具有比较高质量内容影响力的网站，后者是指指向许多权威网站的中心网站。一个网站的影响值表示为A，中心值表示为H，其具体步骤为：

(1)将图中的每个节点的A和H值全部初始化为1；

(2)对节点进行一次迭代计算A和H值：其中A_j为网站i的相关网站j的A值，H_j为网站i的相关网站j的H值，其中m作为预设值可根据实际情况调整；

(3)根据预设阈值x，一直迭代至条件成立：|ΔA|+|ΔH|<x，当迭代完成之后，对A值进行归一化就能得到每个网站的影响值。

所述作者影响值的计算，包括：

先只考虑网站之间的关系网络，构建一个有向图，其中每个节点表示每个作者，每条边表示作者之间的相互转发关系，再通过HITS算法来计算作者的影响值。该算法的过程为：在限定范围内根据有向图的每个节点的出度和入度建立相应的邻接矩阵，并通过矩阵的迭代运算和定义收敛的阈值不断进行更新直至收敛，最终得到影响值。其涉及到权威作者和中心作者的概念，前者是指具有比较高质量内容影响力的作者，后者是指指向许多权威作者的中心作者。一个作者的影响值表示为A，中心值表示为H。

其具体步骤为：

(1)将图中的每个节点的A和H值全部初始化为1；

(2)对节点进行一次迭代计算A和H值：其中A_j为作者i的相关作者j的A值，H_j为作者i的相关作者j的H值，其中n作为预设值可根据实际情况调整；

(3)根据阈值y，一直迭代至条件成立：|ΔA|+|ΔH|<y，当迭代完成之后，对A值进行归一化就能得到每个网站的影响值。

所述文章影响值的计算，包括：

先只考虑文章之间的关系网络，构建一个有向图，其中每个节点表示每篇文章，每条边表示文章之间的相互引用关系，再通过HITS算法来计算文章的影响值。该算法的过程为：在限定范围内根据有向图的每个节点的出度和入读建立相应的邻接矩阵，并通过矩阵的迭代运算和定义收敛的阈值不断进行更新直至收敛，最终得到影响值。其涉及到权威文章和中心文章的概念，前者是指具有比较高质量内容影响力的文章，后者是指指向许多权威文章的中心文章。一篇文章的影响值表示为A，中心值表示为H。

其具体步骤为：

(1)将图中的每个节点的A和H值全部初始化为1；

(2)对节点进行一次迭代计算A和H值：其中A_j为文章i的相关文章j的A值，H_j为文章i的相关文章j的H值，其中o作为预设值可根据实际情况调整；

(3)根据阈值z，一直迭代至条件成立：|ΔA|+|ΔH|<z，当迭代完成之后，对A值进行归一化就能得到每篇文章的影响值。

在步骤S103中，每篇网络文章的属性库以词袋模型或者WordToVec进行表示，然后构建多重异构信息网络。其中，使用不同的矩阵来表示不同的关系：如作者发表、转发、评论文章；用户之间相互关注；网站发表、推荐文章等。每个节点表示不同的实体：作者，文章，网站；每条边表示实体之间的关系，可考虑多重关系而不是单一的关系；所述异构信息网络建模包括特征提取与网络建模，包括：

建立多重异构信息网络G＝(V,R,C)，即(节点，关系，属性)三元组。其中每个节点表示不同类型的实体：作者，文章，网站；每个节点C对应于一个独立的属性集V，如作者节点包含三个属性：注册时长，粉丝数量，影响值；网站节点包含三个属性：用户数，文章数，影响值；文章节点包含四个属性：阅读量，转发量，评论量，主题。节点之间的边R表示关系，可以有多种关系，如作者可以转发、评论文章，则转发与评论就是两者之间的关系。

进一步地用不同的矩阵表示不同的关系，可构建矩阵M1-M3来表示作者是否发表、转发、评论文章；R1-R2表示文章是否在网站被发表、推荐。S1-S2表示作者是否在网站注册、关注，同时建立每个节点的属性信息作为辅助直接应用于后续模型表示学习中。

在步骤S104中，将网站的影响值和作者的影响值用于模型表示学习，采用metapath2vec中的基于元路径的随机游走模式，将网站和作者的影响值融入表征学习，以实现不同类型节点之间的语义关系，从而实现学习到更好的节点特征，使得相同类型的节点之间的特征相似度更高，不同类型的节点特征相似度更低。首先初始化模型参数，针对每个类型t的边生成随机游走序列，然后从中生成训练样本(v_i,v_j,t)，然后针对每个训练样本进行迭代计算表示并更新模型直至收敛。

得到文章节点的表征结合上述网络文章的影响值，来进行回归训练。可通过前述计算文章的影响值作为回归值，然后结合文章的表征来进行回归模型的训练。

在步骤S105中，使用机器学习模型进行回归训练，得到可重复使用的模型，从而使得及其能够对新的网络文章继续预测它的影响力值，最终实现输入一篇文章后，得到其影响值，可预设影响值分段以划分文章的影响力，如0～60影响力较小；60～80影响力较大；80～100影响力大。

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于：所述S101步骤中：通过网络爬虫技术从目标网络文章所在的网站上爬取目标网络文章文本及其属性信息，其属性信息包括：目标网络文章的关键词、阅读量、转发量、评论量；文章作者的注册时间、粉丝数量；目标网络文章所在网站的用户数、文章数。

3.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于：所述S102步骤中：

所述网站影响值的计算，先只考虑网站之间的关系网络，构建一个有向图，其中每个节点表示每个网站，每条边表示网站之间的相互转发关系，再通过HITS算法来计算网站的影响值；

4.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，所述S103步骤种，构建多重异构信息网络，包括：构建G＝(V,R,C)的三元组，其中V表示各网站、作者、文章中任一实体的节点；R对应各节点V之间的关系；C对应每个不同节点V的属性。

5.如权利要求5所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，每个节点V对应一个独立的属性集C，节点之间的边R表示节点间的关系，可以有多种关系，边R可以用不同的矩阵表示不同的关系。

6.如权利要求5所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，基于节点之间的边R可以用不同的矩阵表示不同的关系，可构建矩阵来表示作者是否发表、转发、评论文章；文章是否在网站被发表、推荐；作者是否在网站注册、关注，同时建立每个节点的属性信息。

7.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，所述S104步骤中，所述模型表示学习，采用metapath2vec中的基于元路径的随机游走模式，然后从中生成训练样本，然后针对每个训练样本进行迭代计算表示并更新模型直至收敛，得到文章节点的表征。

8.如权利要求1所述的基于属性多重异构信息网络的网络文章影响力评估方法，其特征在于，所述S105步骤中，将目标网络文章节点特征值及文章影响值作为回归值，使用机器进行模型学习，用于回归训练，得到可重复使用的模型，最终实现向机器输入一篇网络文章即可输出其影响力值。