CN110929046B - 一种基于异质网络嵌入的知识实体推荐方法及系统 - Google Patents

一种基于异质网络嵌入的知识实体推荐方法及系统 Download PDF

Info

Publication number
CN110929046B
CN110929046B CN201911260017.XA CN201911260017A CN110929046B CN 110929046 B CN110929046 B CN 110929046B CN 201911260017 A CN201911260017 A CN 201911260017A CN 110929046 B CN110929046 B CN 110929046B
Authority
CN
China
Prior art keywords
knowledge
node
nodes
entity
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911260017.XA
Other languages
English (en)
Other versions
CN110929046A (zh
Inventor
杨宗凯
李亚婷
陈敏
吴砥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201911260017.XA priority Critical patent/CN110929046B/zh
Publication of CN110929046A publication Critical patent/CN110929046A/zh
Application granted granted Critical
Publication of CN110929046B publication Critical patent/CN110929046B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于异质网络嵌入的知识实体推荐方法及系统,具体为:设计一种知识实体关联模型,通过聚合多类型知识实体及其关联的数据构建异质网络;通过异质网络映射算法,基于不同随机游走元路径框架生成不同维度的节点特征向量;基于节点特征向量,并利用余弦相似度和线性加权方法进行节点之间相似度计算;从基于类型的知识实体推荐、基于关联的知识实体推荐、或基于结构的知识实体推荐三种类型展开推荐服务。本发明通过网络嵌入算法对异构网络进行全局特征的学习,实现对全部知识实体的有效推荐。

Description

一种基于异质网络嵌入的知识实体推荐方法及系统
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种基于异质网络嵌入的知识实体推荐方法及系统。
背景技术
推荐系统是解决信息过载的一种重要机制,是信息服务平台的良好运作的基础。大量的推荐方法与系统已被提出,包括基于内容的推荐、协同过滤、基于图挖掘的分析等等。
但由于知识实体的“幂律分布”特征,在展开推荐服务时,往往会带来一些问题:(1)计算复杂度高:数据表现出稀疏性,随着规模扩展计算复杂度呈现出指数增长趋势;(2)策略单一:推荐服务往往忽略了对长尾部分知识实体的利用,而是受到热门知识实体的影响,在推荐过程中进一步强化这种分化。
因此,如何高效得对各类知识实体进行全局特征提取是非常重要的一个问题。已有研究将网络嵌入方法引入到推荐系统中,在保留网络全局特征的同时,能在低维执行推荐计算,但对于异质网络的研究尚未得到充分探索。
发明内容
针对现在技术存在的问题及需求,本发明提供了一种基于异质网络嵌入的知识实体推荐方法及系统。
根据本发明的第一方面,本发明提供了一种基于异质网络嵌入的知识实体推荐方法,包括步骤:
S1,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及知识实体间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
S2,设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
S3,基于步骤S2中计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
S4,基于步骤S3计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐,
所述步骤S1,包括步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为:
Figure GDA0003774955500000021
Figure GDA0003774955500000022
其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
优选地,所述步骤S2,包括步骤:
S21,根据推荐需求定义不同维度的随机游走元路径框架
Figure GDA0003774955500000031
Figure GDA0003774955500000032
其中,Vi表示随机游走元路径框架
Figure GDA0003774955500000033
中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系。
Figure GDA0003774955500000034
表现出对称性,即Vi=Vl+1-i,Ri=Rl-i
S22,基于随机游走元路径框架
Figure GDA0003774955500000035
确定节点
Figure GDA0003774955500000036
下一个遍历到节点vi+1的概率,即为
Figure GDA0003774955500000037
可到达vi+1的权重大小
Figure GDA0003774955500000038
Figure GDA0003774955500000039
所有可达到节点的权重之和
Figure GDA00037749555000000310
的比例,具体的计算方式为:
Figure GDA00037749555000000311
要求
Figure GDA00037749555000000312
和vi+1的关联属于Rt,同时要求vi+1的节点类型和随机游走元路径框架中的
Figure GDA00037749555000000313
中第t+1个节点类型相同;
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S;
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V);
S25,结合随机梯度下降和负采样,通过Skip-gram进行节点V特征学习,得到目标函数
Figure GDA00037749555000000314
V→Rd
所述的
Figure GDA00037749555000000315
即是节点在随机游走元路径框架
Figure GDA00037749555000000316
下的节点特征表示矩阵,其大小为|V|*d,V表示所有的节点集合,Rd表示维度为d的节点映射矩阵,通过
Figure GDA00037749555000000317
对节点结合V的函数映射,从而保证得到NN(V)的概率对数值之和最大化,具体计算公式如下:
Figure GDA0003774955500000041
通过目标函数
Figure GDA0003774955500000042
的映射,进而得到每个节点vj的特征向量
Figure GDA0003774955500000043
其向量长度
Figure GDA0003774955500000044
优选地,所述步骤S3,包括步骤:
S31,基于随机游走元路径框架
Figure GDA0003774955500000045
中节点特征向量,利用余弦相似度可计算全部节点之间的相似程度,具体的计算公式如下:
Figure GDA0003774955500000046
在随机游走元路径框架
Figure GDA0003774955500000047
下节点之间的相似度
Figure GDA0003774955500000048
取值范围为[-1,1],当取值越接近1时,表示节点向量之间的夹角越小,两节点也越相似,再利用t-SNE算法对所有相似度的结果进行可视化;
S32,设置不同随机游走元路径框架的权重w,利用线性加权方法综合计算两个节点的相似度,具体的计算公式如下:
Figure GDA0003774955500000049
Figure GDA00037749555000000410
其中
Figure GDA00037749555000000411
为最终节点vi和节点vj的相似度,取值范围为[-1,1]。
优选地,所述基于类型的知识实体推荐是指根据节点之间相似度进行倒序,进而推荐与知识实体节点vi相似度最高的知识实体类型属于Y的节点
Figure GDA00037749555000000412
Figure GDA00037749555000000413
所述基于关联的知识实体推荐是指已知知识实体节点
Figure GDA00037749555000000414
Figure GDA00037749555000000415
的关系,向
Figure GDA00037749555000000416
节点推荐相似节点
Figure GDA00037749555000000417
的过程,其中,
Figure GDA00037749555000000418
Figure GDA00037749555000000419
节点的知识实体类型均为y1,
Figure GDA00037749555000000420
Figure GDA00037749555000000421
节点的知识实体类型均为y2,具体计算公式如下:
Figure GDA00037749555000000422
所述基于结构的知识实体推荐是指通过节点之间的相似度网络结构来推荐最热门知识实体
Figure GDA00037749555000000423
其中,找到
Figure GDA00037749555000000424
的方法是,计算
Figure GDA00037749555000000425
与所有其他节点之间的相似度之和,找到使得
Figure GDA00037749555000000426
成立的
Figure GDA00037749555000000427
根据本发明的第二方面,本发明提供了一种异质网络嵌入的知识实体推荐系统,包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络,
所述异质网络构建模块用于实现子步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为:
Figure GDA0003774955500000051
Figure GDA0003774955500000052
其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij);
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
根据本发明的第三方面,本发明提供了一种信息处理终端,包括处理器和存储器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。
根据本发明的第四方面,本发明提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。
综上所述,本发明的优点及积极效果为:通过网络嵌入算法对异构网络进行全局特征的学习,从而可利用低维、稠密的特征向量对异构网络的所有节点进行表示,不仅便于数据的存储,也能减小计算复杂度,有助于对全部知识实体展开推荐。同时,基于多知识实体的特征向量,可展开基于类型、基于关联和基于结构的知识实体推荐,弥补了同一方法单一推荐的策略,有助于实现系统的多策略推荐服务。
附图说明
图1是本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图;
图2是本发明实施例的通过多类型知识实体数据聚合构建异质网络的具体步骤;
图3是本发明实施例提供的知识实体关系模型示意图;
图4是本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型;
图5是本发明实施例提供的每个话题典型程度分布图;
图6是本发明通过异质网络映射算法生成节点特征向量的具体步骤;
图7是本发明实施例提供的用户与话题之间的关注关联示意图;
图8是本发明实施例提供的随机游走元路径框架
Figure GDA0003774955500000071
Figure GDA0003774955500000072
的相似度计算结果的可视化示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1给出了本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图,包括以下步骤:
S1,通过多类型知识实体数据聚合构建异质网络。
步骤S1,中,图2给出了通过多类型知识实体数据聚合构建异质网络的具体步骤图,图3为本发明实施例提供的知识实体关系模型示意图。其中,U代表的是知识主体、C代表的是知识载体、K代表的是知识元,知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation),知识载体之间的引用关系(citation),知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior),比如发布关联、评论关联、关注关联等。还存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content),知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。
上述知识主体为参与到知识活动中的各类个人或者组织机构。
上述知识载体为利用文字、图形、符号、声频、视频等技术手段记录、存储知识的各类载体,主要以文献单元为主,也包括相对独立的文献集合如图书、期刊以及报纸等。
上述知识元为知识领域中相对独立的、可独立表征知识点的一个元素,可以是字、词或短语,也可以是公式、程序或者图表等,常见的包括主题、关键词、标签、概念等。
上述知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation),知识载体之间的引用关系(citation),知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior)。
所述的知识实体之间存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content),知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。
如图4所示,为本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型示例,基于此示例的具体实施步骤如下:
S11,系统已有的知识主体包括用户集合U={u1,u2,…,ul}、文章集合C={c1,c2,…,cm}、话题集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及间的显性关联包括:用户之间的好友关联、用户发布文章关联、用户发布话题关联、用户关注话题关联。记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重。
S12,利用分词算法对文章进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值K的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取文章与潜在话题之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个文章,kpj为第j个潜在话题,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重。
每个话题的典型程度Ti具体的计算公式为:
Figure GDA0003774955500000081
Figure GDA0003774955500000082
其中,Fi为话题词汇i的总出现次数,Fmax为在文章集合中所有词汇中的最大频次,M为文章集合的总数量,{i:ti∈D}指的是包含了词汇i的文章总数。图5为该示例中每个话题的典型程度分布图。
阈值为话题的典型程度排序在前20%的最小值。
ci和kpj之间基于内容挖掘得到的关联的权重Wij的计算公式为:Wij=Fij*Tj。其中,Fij为话题j在文章i中出现的次数,Tj为话题j的典型程度值。
S13,根据《中国分类主题词表》获取话题之间的关联数据包括:综合得到话题集合K=Ks∪kp,根据主题词表中的词间关系获取话题之间的潜在关联,得到词汇之间的层次关系,记为hierarchical(Ki,Kj)。
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
S2,通过异质网络映射算法生成节点特征向量。
步骤S2中,图6给出了通过异质网络映射算法生成节点特征向量的具体步骤图,包括:
S21,根据推荐需求定义不同维度的随机游走元路径框架
Figure GDA0003774955500000091
Figure GDA0003774955500000092
其中,Vi表示随机游走元路径框架
Figure GDA0003774955500000093
中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系。
Figure GDA0003774955500000094
表现出对称性,即Vi=Vl+1-i,Ri=Rl-i。比如可以定义随机游走元路径框架
Figure GDA0003774955500000095
“用户-(发布)-话题-(被发布)-用户”,表示为
Figure GDA0003774955500000096
以及随机游走元路径框架
Figure GDA0003774955500000097
“用户-(关注)-话题-(被关注)-用户”,表示为
Figure GDA0003774955500000098
S22,基于随机游走元路径框架
Figure GDA0003774955500000099
确定节点
Figure GDA00037749555000000910
下一个遍历到节点vi+1的概率,即为
Figure GDA00037749555000000911
可到达vi+1的权重大小
Figure GDA00037749555000000912
Figure GDA00037749555000000913
所有可达到节点的权重之和
Figure GDA00037749555000000914
的比例,具体的计算方式为:
Figure GDA00037749555000000915
上式中要求
Figure GDA00037749555000000916
和vi+1的关联属于Rt,同时要求vi+1的节点类型和随机游走元路径框架中的
Figure GDA00037749555000000917
中第t+1个节点类型相同。
图7是用户与话题之间的发布关联示意图。基于此可看出,从u1到k1的概率为两个节点之前的权重3除以u1可达到的全部K类型知识实体的关联权重之和3,即
Figure GDA00037749555000000918
而从k1到u1的概率则为3/(1+3)=0.75,k1到u2的概率为1/(1+3)=0.25。
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S。
例如对图7结构进行3次长度为7的遍历,是指分别以u1、u2、u3为其起始节点,基于概率进行3次长度为7的遍历,比如可得到类似于u1->k1->u2->k2->u2->k2->u3的随机游走序列,共计3*7=21条随机游走序列。
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V)。
例如针对上述示例中随机序列u1->k1->u2->k2->u2->k2->u3,设置k=3,那么可得到涉及到的节点的网络邻居节点集合分别为:NN(u1)={k1,u2,k2},NN(k1)={u2,k2},NN(u2)={u3,k2},NN(u2)={u3,k2},
Figure GDA0003774955500000101
S25,结合随机梯度下降和负采样,通过Skip-gram进行节点V特征学习,得到目标函数
Figure GDA0003774955500000102
V→Rd
所述的
Figure GDA0003774955500000103
表示节点在随机游走元路径框架
Figure GDA0003774955500000104
下的节点特征表示矩阵,其大小为|V|*d,V表示所有的节点集合,Rd表示维度为d的节点映射矩阵,即通过
Figure GDA0003774955500000105
对节点结合V的函数映射,从而保证得到NN(V)的概率对数值之和最大化,具体计算公式如下:
Figure GDA0003774955500000106
通过目标函数
Figure GDA0003774955500000107
的映射,进而得到每个节点vj的特征向量
Figure GDA0003774955500000108
其向量长度
Figure GDA0003774955500000109
S3,基于节点特征向量进行相似度计算,具体包括以下步骤:
S31,基于随机游走元路径框架
Figure GDA00037749555000001010
中节点特征向量,利用余弦相似度可计算全部节点之间的相似程度,具体的计算公式如下:
Figure GDA00037749555000001011
上式中,在随机游走元路径框架
Figure GDA00037749555000001012
下节点之间的相似度
Figure GDA00037749555000001013
取值范围为[-1,1],当取值越接近1时,表示节点向量之间的夹角越小,两节点也越相似。
利用t-SNE算法对所有相似度的结果进行可视化,图8为随机游走元路径框架
Figure GDA0003774955500000111
Figure GDA0003774955500000112
的相似度计算结果的可视化示意图,其中图8(a)是
Figure GDA0003774955500000113
的相似度计算结果的可视化示意图,其中图8(b)是
Figure GDA0003774955500000114
的相似度计算结果的可视化示意图。可看出,通过不同元路径框架的节点之间的相似度有所差异。
S32,设置不同随机游走元路径框架的权重w,利用线性加权方法综合计算两个节点的相似度,具体的计算公式如下:
[1]
Figure GDA0003774955500000115
其中
Figure GDA0003774955500000116
上式中,sim(vi,vj)为最终节点vi和节点vj的相似度,取值范围为[-1,1]。
S4,根据不同实体类型进行具体的推荐服务。
步骤S4中,包括了基于类型的知识实体推荐、基于关联的知识实体推荐、基于结构的知识实体推荐三种类型服务模块。可以根据用户需求选择其中一种推荐方法,或任意组合这三种推荐方法。
第一模块基于类型的知识实体推荐是指已知知识实体节点vi推荐与它相似度最高的知识实体类型Y的过程。根据节点之间相似度进行倒序,进而推荐与知识实体节点vi相似度最高的知识实体类型属于Y的节点
Figure GDA0003774955500000117
Figure GDA0003774955500000118
第二模块基于关联的知识实体推荐是指已知知识实体节点
Figure GDA0003774955500000119
Figure GDA00037749555000001110
的关系,向
Figure GDA00037749555000001111
节点推荐相似节点
Figure GDA00037749555000001112
的过程。其中,
Figure GDA00037749555000001113
Figure GDA00037749555000001114
节点的知识实体类型均为y1,
Figure GDA00037749555000001115
Figure GDA00037749555000001116
节点的知识实体类型均为y2,具体计算公式如下:
Figure GDA00037749555000001117
第三模块基于结构的知识实体推荐是指通过节点之间的相似度网络结构来推荐最热门知识实体
Figure GDA00037749555000001118
的过程。计算
Figure GDA00037749555000001119
与所有其他节点之间的相似度之和,找到使得
Figure GDA00037749555000001120
成立的
Figure GDA00037749555000001121
本发明实施例的一种异质网络嵌入的知识实体推荐系统,技术原理和技术效果与上述推荐方法类似,不在赘述。知识实体推荐系统包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
为了实现上述实施例,本发明实施例还提出一种信息处理终端,包括:处理器和存储器。其中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。
存储器中存储有计算机程序,计算机程序被处理器执行时可以实现上述任一推荐方法实施例的技术方案。存储器中存储有推荐方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
处理器可以是一种集成电路芯片,具有信号的处理能力。处理器在接收到执行指令后,执行程序。可选的,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
本实施例提供的信息处理终端,可以用于执行上述任一方法实施例的技术方案,其实现原理、技术效果与上述方法类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一推荐方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于异质网络嵌入的知识实体推荐方法,其特征在于,包括步骤:
S1,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及知识实体间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
S2,设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
S3,基于步骤S2中计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
S4,基于步骤S3计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐;
所述步骤S1,包括步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为:
Figure FDA0003774955490000021
Figure FDA0003774955490000022
其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
2.根据权利要求1所述的基于异质网络嵌入的知识实体推荐方法,其特征在于,所述步骤S2,包括步骤:
S21,根据推荐需求定义不同维度的随机游走元路径框架
Figure FDA0003774955490000023
Figure FDA0003774955490000024
其中,Vi表示随机游走元路径框架
Figure FDA0003774955490000025
中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系,
Figure FDA0003774955490000026
表现出对称性,即Vi=Vl+1-i,Ri=Rl-i
S22,基于随机游走元路径框架
Figure FDA0003774955490000027
确定节点
Figure FDA0003774955490000028
下一个遍历到节点vi+1的概率,即为
Figure FDA0003774955490000029
可到达vi+1的权重大小
Figure FDA00037749554900000210
Figure FDA00037749554900000211
所有可达到节点的权重之和
Figure FDA00037749554900000212
的比例,具体的计算方式为:
Figure FDA00037749554900000213
要求
Figure FDA00037749554900000214
和vi+1的关联属于Rt,同时要求vi+1的节点类型和随机游走元路径框架中的
Figure FDA00037749554900000215
中第t+1个节点类型相同;
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S;
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V);
S25,结合随机梯度下降和负采样,通过Skip-gram进行节点V特征学习,得到目标函数
Figure FDA0003774955490000031
V→Rd
所述的
Figure FDA0003774955490000032
即是节点在随机游走元路径框架
Figure FDA0003774955490000033
下的节点特征表示矩阵,其大小为|V|*d,V表示所有的节点集合,Rd表示维度为d的节点映射矩阵,通过
Figure FDA0003774955490000034
对节点结合V的函数映射,从而保证得到NN(V)的概率对数值之和最大化,具体计算公式如下:
Figure FDA0003774955490000035
通过目标函数
Figure FDA0003774955490000036
的映射,进而得到每个节点vj的特征向量
Figure FDA0003774955490000037
其向量长度
Figure FDA0003774955490000038
3.根据权利要求1所述的基于异质网络嵌入的知识实体推荐方法,其特征在于,所述步骤S3,包括步骤:
S31,基于随机游走元路径框架
Figure FDA0003774955490000039
中节点特征向量,利用余弦相似度可计算全部节点之间的相似程度,具体的计算公式如下:
Figure FDA00037749554900000310
在随机游走元路径框架
Figure FDA00037749554900000311
下节点之间的相似度
Figure FDA00037749554900000312
取值范围为[-1,1],当取值越接近1时,表示节点向量之间的夹角越小,两节点也越相似,再利用t-SNE算法对所有相似度的结果进行可视化;
S32,设置不同随机游走元路径框架的权重w,利用线性加权方法综合计算两个节点的相似度,具体的计算公式如下:
Figure FDA00037749554900000313
Figure FDA00037749554900000314
其中
Figure FDA00037749554900000315
为最终节点vi和节点vj的相似度,取值范围为[-1,1]。
4.根据权利要求1所述的基于异质网络嵌入的知识实体推荐方法,其特征在于,
所述基于类型的知识实体推荐是指根据节点之间相似度进行倒序,进而推荐与知识实体节点vi相似度最高的知识实体类型属于Y的节点
Figure FDA00037749554900000316
Figure FDA00037749554900000317
所述基于关联的知识实体推荐是指已知知识实体节点
Figure FDA0003774955490000041
Figure FDA0003774955490000042
的关系,向
Figure FDA0003774955490000043
节点推荐相似节点
Figure FDA0003774955490000044
的过程,其中,
Figure FDA0003774955490000045
Figure FDA0003774955490000046
节点的知识实体类型均为y1,
Figure FDA0003774955490000047
Figure FDA0003774955490000048
节点的知识实体类型均为y2,具体计算公式如下:
Figure FDA0003774955490000049
所述基于结构的知识实体推荐是指通过节点之间的相似度网络结构来推荐最热门知识实体
Figure FDA00037749554900000410
其中,找到
Figure FDA00037749554900000411
的方法是,计算
Figure FDA00037749554900000412
与所有其他节点之间的相似度之和,找到使得
Figure FDA00037749554900000413
成立的
Figure FDA00037749554900000414
5.一种异质网络嵌入的知识实体推荐系统,其特征在于,包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
所述异质网络构建模块用于实现子步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为:
Figure FDA00037749554900000415
Figure FDA0003774955490000051
其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij);
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
6.如权利要求5所述的一种异质网络嵌入的知识实体推荐系统,其特征在于,所述推荐模块包括:
第一模块,用于根据节点之间相似度进行倒序,进而推荐与知识实体节点vi相似度最高的知识实体类型属于Y的节点
Figure FDA0003774955490000052
Figure FDA0003774955490000053
和/或第二模块,用于已知知识实体节点
Figure FDA0003774955490000054
Figure FDA0003774955490000055
的关系,向
Figure FDA0003774955490000056
节点推荐相似节点
Figure FDA0003774955490000057
的过程,其中,
Figure FDA0003774955490000058
Figure FDA0003774955490000059
节点的知识实体类型均为y1,
Figure FDA00037749554900000510
Figure FDA00037749554900000511
节点的知识实体类型均为y2,具体计算公式如下:
Figure FDA0003774955490000061
和/或第三模块,用于通过节点之间的相似度网络结构来推荐最热门知识实体
Figure FDA0003774955490000062
其中,找到
Figure FDA0003774955490000063
的方法是,计算
Figure FDA0003774955490000064
与所有其他节点之间的相似度之和,找到使得
Figure FDA0003774955490000065
成立的
Figure FDA0003774955490000066
7.一种信息处理终端,包括处理器和存储器,其特征在于,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利 要求1至4任意一项所述的基于异质网络嵌入的知识实体推荐方法。
8.一种计算机可读存储介质,包括指令,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1至4任意一项所述的基于异质网络嵌入的知识实体推荐方法。
CN201911260017.XA 2019-12-10 2019-12-10 一种基于异质网络嵌入的知识实体推荐方法及系统 Active CN110929046B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911260017.XA CN110929046B (zh) 2019-12-10 2019-12-10 一种基于异质网络嵌入的知识实体推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911260017.XA CN110929046B (zh) 2019-12-10 2019-12-10 一种基于异质网络嵌入的知识实体推荐方法及系统

Publications (2)

Publication Number Publication Date
CN110929046A CN110929046A (zh) 2020-03-27
CN110929046B true CN110929046B (zh) 2022-09-30

Family

ID=69859714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911260017.XA Active CN110929046B (zh) 2019-12-10 2019-12-10 一种基于异质网络嵌入的知识实体推荐方法及系统

Country Status (1)

Country Link
CN (1) CN110929046B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815403B (zh) * 2020-06-19 2024-05-10 北京石油化工学院 商品推荐方法、装置及终端设备
CN111931485B (zh) * 2020-08-12 2021-03-23 北京建筑大学 一种基于跨网络表示学习的多模异质关联实体识别方法
CN112417063B (zh) * 2020-12-11 2022-07-26 哈尔滨工业大学 一种基于异构关系网络的相容功能项推荐方法
CN112559864B (zh) * 2020-12-14 2023-03-31 西安电子科技大学 一种基于知识图谱增强的双线性图网络推荐方法和系统
CN113254550B (zh) * 2021-06-29 2022-04-19 浙江大华技术股份有限公司 基于知识图谱的推荐方法、电子设备和计算机存储介质
CN115146180B (zh) * 2022-09-02 2022-11-29 南方科技大学 一种好友和兴趣点推荐方法及终端
CN116502713B (zh) * 2023-04-03 2024-02-20 华中师范大学 一种基于加权元路径增强题目相似性嵌入的知识追踪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN106802956A (zh) * 2017-01-19 2017-06-06 山东大学 一种基于加权异构信息网络的电影推荐方法
CN107944629A (zh) * 2017-11-30 2018-04-20 北京邮电大学 一种基于异质信息网络表示的推荐方法及装置
CN109948066A (zh) * 2019-04-16 2019-06-28 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042922B2 (en) * 2018-01-03 2021-06-22 Nec Corporation Method and system for multimodal recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及系统
CN106802956A (zh) * 2017-01-19 2017-06-06 山东大学 一种基于加权异构信息网络的电影推荐方法
CN107944629A (zh) * 2017-11-30 2018-04-20 北京邮电大学 一种基于异质信息网络表示的推荐方法及装置
CN109948066A (zh) * 2019-04-16 2019-06-28 杭州电子科技大学 一种基于异构信息网络的兴趣点推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
异质网络中基于节点影响力的相似度度量方法;刘露 等;《电子学报》;20190915;1929-1936 *

Also Published As

Publication number Publication date
CN110929046A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN110929046B (zh) 一种基于异质网络嵌入的知识实体推荐方法及系统
Perozzi et al. Don't walk, skip! online learning of multi-scale network embeddings
CN109919316B (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
Ding et al. RecNet: A deep neural network for personalized POI recommendation in location-based social networks
Bach et al. Personalized recommendation of stories for commenting in forum-based social media
Jiang et al. Little is much: Bridging cross-platform behaviors through overlapped crowds
Da Silva et al. Active learning paradigms for CBIR systems based on optimum-path forest classification
US20120158791A1 (en) Feature vector construction
US9330104B2 (en) Indexing and searching heterogenous data entities
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
US9152709B2 (en) Cross-domain topic space
Zhang et al. A triple wing harmonium model for movie recommendation
Phuong et al. Graph-based context-aware collaborative filtering
Hsu Integrating ontology technology with folksonomies for personalized social tag recommendation
Xia et al. Effectively identifying the influential spreaders in large-scale social networks
Xu et al. Instance-level coupled subspace learning for fine-grained sketch-based image retrieval
Jeong et al. HGGC: A hybrid group recommendation model considering group cohesion
Yannam et al. Improving group recommendation using deep collaborative filtering approach
Baskin Is one-shot learning a viable option in drug discovery?
Shakibian et al. Multi-kernel one class link prediction in heterogeneous complex networks
Zhou et al. Rank2vec: learning node embeddings with local structure and global ranking
Veeramachaneni et al. A hinge-loss based codebook transfer for cross-domain recommendation with non-overlapping data
Peters et al. Iterative multi-label multi-relational classification algorithm for complex social networks
Liu et al. A data classification method based on particle swarm optimisation and kernel function extreme learning machine
Shi et al. SCMF: sparse covariance matrix factorization for collaborative filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant