CN110929046B

CN110929046B - 一种基于异质网络嵌入的知识实体推荐方法及系统

Info

Publication number: CN110929046B
Application number: CN201911260017.XA
Authority: CN
Inventors: 杨宗凯; 李亚婷; 陈敏; 吴砥
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2022-09-30
Anticipated expiration: 2039-12-10
Also published as: CN110929046A

Abstract

本发明公开了一种基于异质网络嵌入的知识实体推荐方法及系统，具体为：设计一种知识实体关联模型，通过聚合多类型知识实体及其关联的数据构建异质网络；通过异质网络映射算法，基于不同随机游走元路径框架生成不同维度的节点特征向量；基于节点特征向量，并利用余弦相似度和线性加权方法进行节点之间相似度计算；从基于类型的知识实体推荐、基于关联的知识实体推荐、或基于结构的知识实体推荐三种类型展开推荐服务。本发明通过网络嵌入算法对异构网络进行全局特征的学习，实现对全部知识实体的有效推荐。

Description

一种基于异质网络嵌入的知识实体推荐方法及系统

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种基于异质网络嵌入的知识实体推荐方法及系统。

背景技术

推荐系统是解决信息过载的一种重要机制，是信息服务平台的良好运作的基础。大量的推荐方法与系统已被提出，包括基于内容的推荐、协同过滤、基于图挖掘的分析等等。

但由于知识实体的“幂律分布”特征，在展开推荐服务时，往往会带来一些问题：(1)计算复杂度高：数据表现出稀疏性，随着规模扩展计算复杂度呈现出指数增长趋势；(2)策略单一：推荐服务往往忽略了对长尾部分知识实体的利用，而是受到热门知识实体的影响，在推荐过程中进一步强化这种分化。

因此，如何高效得对各类知识实体进行全局特征提取是非常重要的一个问题。已有研究将网络嵌入方法引入到推荐系统中，在保留网络全局特征的同时，能在低维执行推荐计算，但对于异质网络的研究尚未得到充分探索。

发明内容

针对现在技术存在的问题及需求，本发明提供了一种基于异质网络嵌入的知识实体推荐方法及系统。

根据本发明的第一方面，本发明提供了一种基于异质网络嵌入的知识实体推荐方法,包括步骤：

S1，设计知识实体关联模型，基于知识实体关联模型获取系统中已有的知识实体及知识实体间显性关联数据，所述知识实体包括知识主体、知识载体和知识元，并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据，进而根据主题词表获取知识元之间的关联数据，通过聚合多类型知识实体及其关联的数据构建异质网络；

S2，设置随机游走元路径框架，确定所述随机游走元路径框架中节点遍历的概率计算方式，设置每个节点随机游走的次数，得到全部随机游走序列，生成节点的网络邻居节点集合，通过Skip-gram进行特征学习，得到目标函数f：V→R^d，进而生成每个节点的特征向量；

S3，基于步骤S2中计算的每个节点的特征向量，利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度，进而通过设置不同框架的权重大小，利用线性加权方法计算任意两节点之间的相似度；

S4，基于步骤S3计算的节点相似度，选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐，

所述步骤S1，包括步骤：

S11，设计知识实体关联模型，基于知识实体关联模型获取系统中已有的知识主体集合U＝{u₁，u₂，…，u_l}、知识载体集合C＝{c₁，c₂，…，c_m}、和知识元集合Ks＝{ks₁，ks₂，…，ks_n}，得到系统中已有的知识实体集合Ns＝{U，C，Ks}；获取系统中已有知识实体及知识实体间的显性关联包括：根据知识实体关联模型中的显性关联类型，获取知识实体集合Ns元素之间的显性关系数据，记为r(Ns_i，Ns_j，Ws_ij)，其中Ns_i、Ns_j表示第i和第j个知识实体，r表示Ns_i和Ns_j之间的关系，Ws_ij为Ns_i和Ns_j之间r关联的权重；

S12，利用分词算法对知识载体集合进行分词，利用TF-IDF方法计算每个词的典型程度T_i，选取专业程度大于阈值的词汇作为潜在知识元集合Kp＝{kp₁，kp₂，…，kp_t}，并获取知识载体与潜在知识元之间的关联数据，记为relevance_based_on_content(c_i，kp_j，Wp_ij)，其中c_i为第i个知识载体，kp_j为第j个潜在知识元，Wp_ij为c_i和kp_j之间基于内容挖掘得到的关联的权重，

所述的每个词的典型程度T_i具体的计算公式为：

其中，F_i为词i的总出现次数，F_max为在知识载体集合中所有词汇中的最大频次，M为知识载体集合的总数量，{i:t_i∈D}指的是包含了词汇i的知识载体总数，

所述的c_i和kp_j之间基于内容挖掘得到的关联的权重Wp_ij的计算公式为：Wp_ij＝F_ij*T_j，其中，F_ij为知识元j在知识载体i中出现的次数，T_j为知识元j的典型程度值；

S13，综合得到知识元集合K＝Ks∪kp，根据主题词表中的词间关系获取知识元之间的潜在关联，得到词汇之间的等同关系、层次关系和相关关系，分别记为equivalent(K_i，K_j)、hierarchical(K_i，K_j)和relevance(K_i，K_j)；

S14，通过聚合多类型知识实体及其关联的数据构建异质网络包括：聚合所有数据，得到异质网络G＝<N，E>，其中N＝{U，C，K}，E＝r(N_i，N_j，W_ij)。

优选地，所述步骤S2，包括步骤：

S21，根据推荐需求定义不同维度的随机游走元路径框架

其中，V_i表示随机游走元路径框架

中第i个节点的节点类型，R_i表示第i个节点类型与第i+1个节点类型之间的关联关系。

表现出对称性，即V_i＝V_l+1-i，R_i＝R_l-i；

S22，基于随机游走元路径框架

确定节点

下一个遍历到节点v_i+1的概率，即为

可到达v_i+1的权重大小

占

所有可达到节点的权重之和

的比例，具体的计算方式为：

要求

和v_i+1的关联属于R_t，同时要求v_i+1的节点类型和随机游走元路径框架中的

中第t+1个节点类型相同；

S23，对所有满足节点类型为V₁的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历，最终得到|v∈V₁|*r条随机游走序列S；

S24，基于全部随机游走序列，对任意节点v_j，将随机游走序列上v_j后续k个节点加入到其网络邻居节点集合NN(v_j)中，继而得到序列中全部节点的网络邻居节点集合NN(V)；

S25，结合随机梯度下降和负采样，通过Skip-gram进行节点V特征学习，得到目标函数

V→R^d。

所述的

即是节点在随机游走元路径框架

下的节点特征表示矩阵，其大小为|V|*d，V表示所有的节点集合，R^d表示维度为d的节点映射矩阵，通过

对节点结合V的函数映射，从而保证得到NN(V)的概率对数值之和最大化，具体计算公式如下：

通过目标函数

的映射，进而得到每个节点v_j的特征向量

其向量长度

优选地，所述步骤S3，包括步骤：

S31，基于随机游走元路径框架

中节点特征向量，利用余弦相似度可计算全部节点之间的相似程度，具体的计算公式如下：

在随机游走元路径框架

下节点之间的相似度

取值范围为[-1,1]，当取值越接近1时，表示节点向量之间的夹角越小，两节点也越相似,再利用t-SNE算法对所有相似度的结果进行可视化；

S32，设置不同随机游走元路径框架的权重w，利用线性加权方法综合计算两个节点的相似度，具体的计算公式如下：

其中

为最终节点v_i和节点v_j的相似度，取值范围为[-1,1]。

优选地，所述基于类型的知识实体推荐是指根据节点之间相似度进行倒序，进而推荐与知识实体节点v_i相似度最高的知识实体类型属于Y的节点

即

所述基于关联的知识实体推荐是指已知知识实体节点

和

的关系，向

节点推荐相似节点

的过程，其中，

与

节点的知识实体类型均为y1，

与

节点的知识实体类型均为y2，具体计算公式如下：

所述基于结构的知识实体推荐是指通过节点之间的相似度网络结构来推荐最热门知识实体

其中，找到

的方法是，计算

与所有其他节点之间的相似度之和，找到使得

成立的

根据本发明的第二方面，本发明提供了一种异质网络嵌入的知识实体推荐系统，包括：

异质网络构建模块，用于设计知识实体关联模型，基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据，所述知识实体包括知识主体、知识载体和知识元，并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据，进而根据主题词表获取知识元之间的关联数据，通过聚合多类型知识实体及其关联的数据构建异质网络，

所述异质网络构建模块用于实现子步骤：

所述的每个词的典型程度T_i具体的计算公式为：

S14，通过聚合多类型知识实体及其关联的数据构建异质网络包括：聚合所有数据，得到异质网络G＝<N，E>，其中N＝{U，C，K}，E＝r(N_i，N_j，W_ij)；

特征向量模块，用于设置随机游走元路径框架，确定所述随机游走元路径框架中节点遍历的概率计算方式，设置每个节点随机游走的次数，得到全部随机游走序列，生成节点的网络邻居节点集合，通过Skip-gram进行特征学习，得到目标函数f：V→R^d，进而生成每个节点的特征向量；

相似度模块，用于基于特征向量模块计算的每个节点的特征向量，利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度，进而通过设置不同框架的权重大小，利用线性加权方法计算任意两节点之间的相似度；

推荐模块，用于基于相似度模块计算的节点相似度，选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。

根据本发明的第三方面，本发明提供了一种信息处理终端，包括处理器和存储器，其中，所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于实现上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。

根据本发明的第四方面，本发明提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。

综上所述，本发明的优点及积极效果为：通过网络嵌入算法对异构网络进行全局特征的学习，从而可利用低维、稠密的特征向量对异构网络的所有节点进行表示，不仅便于数据的存储，也能减小计算复杂度，有助于对全部知识实体展开推荐。同时，基于多知识实体的特征向量，可展开基于类型、基于关联和基于结构的知识实体推荐，弥补了同一方法单一推荐的策略，有助于实现系统的多策略推荐服务。

附图说明

图1是本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图；

图2是本发明实施例的通过多类型知识实体数据聚合构建异质网络的具体步骤；

图3是本发明实施例提供的知识实体关系模型示意图；

图4是本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型；

图5是本发明实施例提供的每个话题典型程度分布图；

图6是本发明通过异质网络映射算法生成节点特征向量的具体步骤；

图7是本发明实施例提供的用户与话题之间的关注关联示意图；

图8是本发明实施例提供的随机游走元路径框架

和

的相似度计算结果的可视化示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1给出了本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图，包括以下步骤：

S1，通过多类型知识实体数据聚合构建异质网络。

步骤S1，中，图2给出了通过多类型知识实体数据聚合构建异质网络的具体步骤图，图3为本发明实施例提供的知识实体关系模型示意图。其中，U代表的是知识主体、C代表的是知识载体、K代表的是知识元，知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation)，知识载体之间的引用关系(citation)，知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior)，比如发布关联、评论关联、关注关联等。还存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content)，知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。

上述知识主体为参与到知识活动中的各类个人或者组织机构。

上述知识载体为利用文字、图形、符号、声频、视频等技术手段记录、存储知识的各类载体，主要以文献单元为主，也包括相对独立的文献集合如图书、期刊以及报纸等。

上述知识元为知识领域中相对独立的、可独立表征知识点的一个元素，可以是字、词或短语，也可以是公式、程序或者图表等，常见的包括主题、关键词、标签、概念等。

上述知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation)，知识载体之间的引用关系(citation)，知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior)。

所述的知识实体之间存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content)，知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。

如图4所示，为本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型示例，基于此示例的具体实施步骤如下：

S11，系统已有的知识主体包括用户集合U＝{u₁，u₂，…，u_l}、文章集合C＝{c₁，c₂，…，c_m}、话题集合Ks＝{ks₁，ks₂，…，ks_n}，得到系统中已有的知识实体集合Ns＝{U，C，Ks}；获取系统中已有知识实体及间的显性关联包括：用户之间的好友关联、用户发布文章关联、用户发布话题关联、用户关注话题关联。记为r(Ns_i，Ns_j，Ws_ij)，其中Ns_i、Ns_j表示第i和第j个知识实体，r表示Ns_i和Ns_j之间的关系，Ws_ij为Ns_i和Ns_j之间r关联的权重。

S12，利用分词算法对文章进行分词，利用TF-IDF方法计算每个词的典型程度T_i，选取专业程度大于阈值K的词汇作为潜在知识元集合Kp＝{kp₁，kp₂，…，kp_t}，并获取文章与潜在话题之间的关联数据，记为relevance_based_on_content(c_i，kp_j，Wp_ij)，其中c_i为第i个文章，kp_j为第j个潜在话题，Wp_ij为c_i和kp_j之间基于内容挖掘得到的关联的权重。

每个话题的典型程度T_i具体的计算公式为：

其中，F_i为话题词汇i的总出现次数，F_max为在文章集合中所有词汇中的最大频次，M为文章集合的总数量，{i:t_i∈D}指的是包含了词汇i的文章总数。图5为该示例中每个话题的典型程度分布图。

阈值为话题的典型程度排序在前20％的最小值。

c_i和kp_j之间基于内容挖掘得到的关联的权重W_ij的计算公式为：W_ij＝F_ij*T_j。其中，F_ij为话题j在文章i中出现的次数，T_j为话题j的典型程度值。

S13，根据《中国分类主题词表》获取话题之间的关联数据包括：综合得到话题集合K＝Ks∪kp，根据主题词表中的词间关系获取话题之间的潜在关联，得到词汇之间的层次关系，记为hierarchical(K_i，K_j)。

S2，通过异质网络映射算法生成节点特征向量。

步骤S2中，图6给出了通过异质网络映射算法生成节点特征向量的具体步骤图，包括：

S21，根据推荐需求定义不同维度的随机游走元路径框架

其中，V_i表示随机游走元路径框架

表现出对称性，即V_i＝V_l+1-i，R_i＝R_l-i。比如可以定义随机游走元路径框架

“用户-(发布)-话题-(被发布)-用户”，表示为

以及随机游走元路径框架

“用户-(关注)-话题-(被关注)-用户”，表示为

S22，基于随机游走元路径框架

确定节点

下一个遍历到节点v_i+1的概率，即为

可到达v_i+1的权重大小

占

所有可达到节点的权重之和

的比例，具体的计算方式为：

上式中要求

中第t+1个节点类型相同。

图7是用户与话题之间的发布关联示意图。基于此可看出，从u₁到k₁的概率为两个节点之前的权重3除以u₁可达到的全部K类型知识实体的关联权重之和3，即

而从k₁到u₁的概率则为3/(1+3)＝0.75，k₁到u₂的概率为1/(1+3)＝0.25。

S23，对所有满足节点类型为V₁的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历，最终得到|v∈V₁|*r条随机游走序列S。

例如对图7结构进行3次长度为7的遍历，是指分别以u₁、u₂、u₃为其起始节点，基于概率进行3次长度为7的遍历，比如可得到类似于u₁->k₁->u₂->k₂->u₂->k₂->u₃的随机游走序列，共计3*7＝21条随机游走序列。

S24，基于全部随机游走序列，对任意节点v_j，将随机游走序列上v_j后续k个节点加入到其网络邻居节点集合NN(v_j)中，继而得到序列中全部节点的网络邻居节点集合NN(V)。

例如针对上述示例中随机序列u₁->k₁->u₂->k₂->u₂->k₂->u₃，设置k＝3，那么可得到涉及到的节点的网络邻居节点集合分别为：NN(u₁)＝{k₁，u₂，k₂}，NN(k₁)＝{u₂，k₂}，NN(u₂)＝{u₃，k₂}，NN(u₂)＝{u₃，k₂}，

V→R^d。

所述的

表示节点在随机游走元路径框架

下的节点特征表示矩阵，其大小为|V|*d，V表示所有的节点集合，R^d表示维度为d的节点映射矩阵，即通过

通过目标函数

的映射，进而得到每个节点v_j的特征向量

其向量长度

S3，基于节点特征向量进行相似度计算，具体包括以下步骤：

S31，基于随机游走元路径框架

上式中，在随机游走元路径框架

下节点之间的相似度

取值范围为[-1,1]，当取值越接近1时，表示节点向量之间的夹角越小，两节点也越相似。

利用t-SNE算法对所有相似度的结果进行可视化，图8为随机游走元路径框架

和

的相似度计算结果的可视化示意图，其中图8(a)是

的相似度计算结果的可视化示意图，其中图8(b)是

的相似度计算结果的可视化示意图。可看出，通过不同元路径框架的节点之间的相似度有所差异。

[1]

其中

上式中，sim(v_i,v_j)为最终节点v_i和节点v_j的相似度，取值范围为[-1,1]。

S4，根据不同实体类型进行具体的推荐服务。

步骤S4中，包括了基于类型的知识实体推荐、基于关联的知识实体推荐、基于结构的知识实体推荐三种类型服务模块。可以根据用户需求选择其中一种推荐方法，或任意组合这三种推荐方法。

第一模块基于类型的知识实体推荐是指已知知识实体节点v_i推荐与它相似度最高的知识实体类型Y的过程。根据节点之间相似度进行倒序，进而推荐与知识实体节点v_i相似度最高的知识实体类型属于Y的节点

即

第二模块基于关联的知识实体推荐是指已知知识实体节点

和

的关系，向

节点推荐相似节点

的过程。其中，

与

节点的知识实体类型均为y1，

与

节点的知识实体类型均为y2，具体计算公式如下：

第三模块基于结构的知识实体推荐是指通过节点之间的相似度网络结构来推荐最热门知识实体

的过程。计算

与所有其他节点之间的相似度之和，找到使得

成立的

本发明实施例的一种异质网络嵌入的知识实体推荐系统，技术原理和技术效果与上述推荐方法类似，不在赘述。知识实体推荐系统包括：

异质网络构建模块，用于设计知识实体关联模型，基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据，所述知识实体包括知识主体、知识载体和知识元，并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据，进而根据主题词表获取知识元之间的关联数据，通过聚合多类型知识实体及其关联的数据构建异质网络；

为了实现上述实施例，本发明实施例还提出一种信息处理终端，包括：处理器和存储器。其中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。

存储器中存储有计算机程序，计算机程序被处理器执行时可以实现上述任一推荐方法实施例的技术方案。存储器中存储有推荐方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

处理器可以是一种集成电路芯片，具有信号的处理能力。处理器在接收到执行指令后，执行程序。可选的，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

本实施例提供的信息处理终端，可以用于执行上述任一方法实施例的技术方案，其实现原理、技术效果与上述方法类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一推荐方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。