CN110929046B - 一种基于异质网络嵌入的知识实体推荐方法及系统 - Google Patents
一种基于异质网络嵌入的知识实体推荐方法及系统 Download PDFInfo
- Publication number
- CN110929046B CN110929046B CN201911260017.XA CN201911260017A CN110929046B CN 110929046 B CN110929046 B CN 110929046B CN 201911260017 A CN201911260017 A CN 201911260017A CN 110929046 B CN110929046 B CN 110929046B
- Authority
- CN
- China
- Prior art keywords
- knowledge
- node
- nodes
- entity
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于异质网络嵌入的知识实体推荐方法及系统,具体为:设计一种知识实体关联模型,通过聚合多类型知识实体及其关联的数据构建异质网络;通过异质网络映射算法,基于不同随机游走元路径框架生成不同维度的节点特征向量;基于节点特征向量,并利用余弦相似度和线性加权方法进行节点之间相似度计算;从基于类型的知识实体推荐、基于关联的知识实体推荐、或基于结构的知识实体推荐三种类型展开推荐服务。本发明通过网络嵌入算法对异构网络进行全局特征的学习,实现对全部知识实体的有效推荐。
Description
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种基于异质网络嵌入的知识实体推荐方法及系统。
背景技术
推荐系统是解决信息过载的一种重要机制,是信息服务平台的良好运作的基础。大量的推荐方法与系统已被提出,包括基于内容的推荐、协同过滤、基于图挖掘的分析等等。
但由于知识实体的“幂律分布”特征,在展开推荐服务时,往往会带来一些问题:(1)计算复杂度高:数据表现出稀疏性,随着规模扩展计算复杂度呈现出指数增长趋势;(2)策略单一:推荐服务往往忽略了对长尾部分知识实体的利用,而是受到热门知识实体的影响,在推荐过程中进一步强化这种分化。
因此,如何高效得对各类知识实体进行全局特征提取是非常重要的一个问题。已有研究将网络嵌入方法引入到推荐系统中,在保留网络全局特征的同时,能在低维执行推荐计算,但对于异质网络的研究尚未得到充分探索。
发明内容
针对现在技术存在的问题及需求,本发明提供了一种基于异质网络嵌入的知识实体推荐方法及系统。
根据本发明的第一方面,本发明提供了一种基于异质网络嵌入的知识实体推荐方法,包括步骤:
S1,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及知识实体间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
S2,设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
S3,基于步骤S2中计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
S4,基于步骤S3计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐,
所述步骤S1,包括步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为: 其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
优选地,所述步骤S2,包括步骤:
S21,根据推荐需求定义不同维度的随机游走元路径框架 其中,Vi表示随机游走元路径框架中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系。表现出对称性,即Vi=Vl+1-i,Ri=Rl-i;
S22,基于随机游走元路径框架确定节点下一个遍历到节点vi+1的概率,即为可到达vi+1的权重大小占所有可达到节点的权重之和的比例,具体的计算方式为:要求和vi+1的关联属于Rt,同时要求vi+1的节点类型和随机游走元路径框架中的中第t+1个节点类型相同;
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S;
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V);
所述的即是节点在随机游走元路径框架下的节点特征表示矩阵,其大小为|V|*d,V表示所有的节点集合,Rd表示维度为d的节点映射矩阵,通过对节点结合V的函数映射,从而保证得到NN(V)的概率对数值之和最大化,具体计算公式如下:通过目标函数的映射,进而得到每个节点vj的特征向量其向量长度
优选地,所述步骤S3,包括步骤:
S31,基于随机游走元路径框架中节点特征向量,利用余弦相似度可计算全部节点之间的相似程度,具体的计算公式如下:在随机游走元路径框架下节点之间的相似度取值范围为[-1,1],当取值越接近1时,表示节点向量之间的夹角越小,两节点也越相似,再利用t-SNE算法对所有相似度的结果进行可视化;
根据本发明的第二方面,本发明提供了一种异质网络嵌入的知识实体推荐系统,包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络,
所述异质网络构建模块用于实现子步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为: 其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij);
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
根据本发明的第三方面,本发明提供了一种信息处理终端,包括处理器和存储器,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。
根据本发明的第四方面,本发明提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行上述任意一项所述的基于异质网络嵌入的知识实体推荐方法。
综上所述,本发明的优点及积极效果为:通过网络嵌入算法对异构网络进行全局特征的学习,从而可利用低维、稠密的特征向量对异构网络的所有节点进行表示,不仅便于数据的存储,也能减小计算复杂度,有助于对全部知识实体展开推荐。同时,基于多知识实体的特征向量,可展开基于类型、基于关联和基于结构的知识实体推荐,弥补了同一方法单一推荐的策略,有助于实现系统的多策略推荐服务。
附图说明
图1是本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图;
图2是本发明实施例的通过多类型知识实体数据聚合构建异质网络的具体步骤;
图3是本发明实施例提供的知识实体关系模型示意图;
图4是本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型;
图5是本发明实施例提供的每个话题典型程度分布图;
图6是本发明通过异质网络映射算法生成节点特征向量的具体步骤;
图7是本发明实施例提供的用户与话题之间的关注关联示意图;
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1给出了本发明实施例的基于异质网络嵌入的知识实体推荐方法总流程图,包括以下步骤:
S1,通过多类型知识实体数据聚合构建异质网络。
步骤S1,中,图2给出了通过多类型知识实体数据聚合构建异质网络的具体步骤图,图3为本发明实施例提供的知识实体关系模型示意图。其中,U代表的是知识主体、C代表的是知识载体、K代表的是知识元,知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation),知识载体之间的引用关系(citation),知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior),比如发布关联、评论关联、关注关联等。还存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content),知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。
上述知识主体为参与到知识活动中的各类个人或者组织机构。
上述知识载体为利用文字、图形、符号、声频、视频等技术手段记录、存储知识的各类载体,主要以文献单元为主,也包括相对独立的文献集合如图书、期刊以及报纸等。
上述知识元为知识领域中相对独立的、可独立表征知识点的一个元素,可以是字、词或短语,也可以是公式、程序或者图表等,常见的包括主题、关键词、标签、概念等。
上述知识实体之间存在的显性关联包括知识主体之间的社会关系(social_relation)、所属关系(affiliation),知识载体之间的引用关系(citation),知识主体、知识载体与知识元之间的基于行为产生的关联(relevance_based_on_behavior)。
所述的知识实体之间存在的潜在关联包括知识载体与知识元之间的基于内容产生的关联(relevance_based_on_content),知识元之间的等同关系(equivalent)、层次关系(hierarchical)和相关关系(relevance)。
如图4所示,为本发明实施例提供的基于“用户-文章-话题”的知识实体关系模型示例,基于此示例的具体实施步骤如下:
S11,系统已有的知识主体包括用户集合U={u1,u2,…,ul}、文章集合C={c1,c2,…,cm}、话题集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及间的显性关联包括:用户之间的好友关联、用户发布文章关联、用户发布话题关联、用户关注话题关联。记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重。
S12,利用分词算法对文章进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值K的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取文章与潜在话题之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个文章,kpj为第j个潜在话题,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重。
每个话题的典型程度Ti具体的计算公式为: 其中,Fi为话题词汇i的总出现次数,Fmax为在文章集合中所有词汇中的最大频次,M为文章集合的总数量,{i:ti∈D}指的是包含了词汇i的文章总数。图5为该示例中每个话题的典型程度分布图。
阈值为话题的典型程度排序在前20%的最小值。
ci和kpj之间基于内容挖掘得到的关联的权重Wij的计算公式为:Wij=Fij*Tj。其中,Fij为话题j在文章i中出现的次数,Tj为话题j的典型程度值。
S13,根据《中国分类主题词表》获取话题之间的关联数据包括:综合得到话题集合K=Ks∪kp,根据主题词表中的词间关系获取话题之间的潜在关联,得到词汇之间的层次关系,记为hierarchical(Ki,Kj)。
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
S2,通过异质网络映射算法生成节点特征向量。
步骤S2中,图6给出了通过异质网络映射算法生成节点特征向量的具体步骤图,包括:
S21,根据推荐需求定义不同维度的随机游走元路径框架 其中,Vi表示随机游走元路径框架中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系。表现出对称性,即Vi=Vl+1-i,Ri=Rl-i。比如可以定义随机游走元路径框架“用户-(发布)-话题-(被发布)-用户”,表示为以及随机游走元路径框架“用户-(关注)-话题-(被关注)-用户”,表示为
图7是用户与话题之间的发布关联示意图。基于此可看出,从u1到k1的概率为两个节点之前的权重3除以u1可达到的全部K类型知识实体的关联权重之和3,即而从k1到u1的概率则为3/(1+3)=0.75,k1到u2的概率为1/(1+3)=0.25。
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S。
例如对图7结构进行3次长度为7的遍历,是指分别以u1、u2、u3为其起始节点,基于概率进行3次长度为7的遍历,比如可得到类似于u1->k1->u2->k2->u2->k2->u3的随机游走序列,共计3*7=21条随机游走序列。
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V)。
例如针对上述示例中随机序列u1->k1->u2->k2->u2->k2->u3,设置k=3,那么可得到涉及到的节点的网络邻居节点集合分别为:NN(u1)={k1,u2,k2},NN(k1)={u2,k2},NN(u2)={u3,k2},NN(u2)={u3,k2},
所述的表示节点在随机游走元路径框架下的节点特征表示矩阵,其大小为|V|*d,V表示所有的节点集合,Rd表示维度为d的节点映射矩阵,即通过对节点结合V的函数映射,从而保证得到NN(V)的概率对数值之和最大化,具体计算公式如下:
S3,基于节点特征向量进行相似度计算,具体包括以下步骤:
利用t-SNE算法对所有相似度的结果进行可视化,图8为随机游走元路径框架和的相似度计算结果的可视化示意图,其中图8(a)是的相似度计算结果的可视化示意图,其中图8(b)是的相似度计算结果的可视化示意图。可看出,通过不同元路径框架的节点之间的相似度有所差异。
S32,设置不同随机游走元路径框架的权重w,利用线性加权方法综合计算两个节点的相似度,具体的计算公式如下:
上式中,sim(vi,vj)为最终节点vi和节点vj的相似度,取值范围为[-1,1]。
S4,根据不同实体类型进行具体的推荐服务。
步骤S4中,包括了基于类型的知识实体推荐、基于关联的知识实体推荐、基于结构的知识实体推荐三种类型服务模块。可以根据用户需求选择其中一种推荐方法,或任意组合这三种推荐方法。
本发明实施例的一种异质网络嵌入的知识实体推荐系统,技术原理和技术效果与上述推荐方法类似,不在赘述。知识实体推荐系统包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
为了实现上述实施例,本发明实施例还提出一种信息处理终端,包括:处理器和存储器。其中,存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。
存储器中存储有计算机程序,计算机程序被处理器执行时可以实现上述任一推荐方法实施例的技术方案。存储器中存储有推荐方法的计算机程序,包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理。
处理器可以是一种集成电路芯片,具有信号的处理能力。处理器在接收到执行指令后,执行程序。可选的,上述存储器内的软件程序以及模块还可包括操作系统,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通信,从而提供其他软件组件的运行环境。
本实施例提供的信息处理终端,可以用于执行上述任一方法实施例的技术方案,其实现原理、技术效果与上述方法类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述任一推荐方法实施例的技术方案。其实现原理、技术效果与上述方法类似,此处不再赘述。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (8)
1.一种基于异质网络嵌入的知识实体推荐方法,其特征在于,包括步骤:
S1,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及知识实体间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
S2,设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
S3,基于步骤S2中计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
S4,基于步骤S3计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐;
所述步骤S1,包括步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为: 其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij)。
2.根据权利要求1所述的基于异质网络嵌入的知识实体推荐方法,其特征在于,所述步骤S2,包括步骤:
S21,根据推荐需求定义不同维度的随机游走元路径框架 其中,Vi表示随机游走元路径框架中第i个节点的节点类型,Ri表示第i个节点类型与第i+1个节点类型之间的关联关系,表现出对称性,即Vi=Vl+1-i,Ri=Rl-i;
S22,基于随机游走元路径框架确定节点下一个遍历到节点vi+1的概率,即为可到达vi+1的权重大小占所有可达到节点的权重之和的比例,具体的计算方式为:要求和vi+1的关联属于Rt,同时要求vi+1的节点类型和随机游走元路径框架中的中第t+1个节点类型相同;
S23,对所有满足节点类型为V1的节点均基于节点遍历的概率计算方式进行r次长度为l的遍历,最终得到|v∈V1|*r条随机游走序列S;
S24,基于全部随机游走序列,对任意节点vj,将随机游走序列上vj后续k个节点加入到其网络邻居节点集合NN(vj)中,继而得到序列中全部节点的网络邻居节点集合NN(V);
5.一种异质网络嵌入的知识实体推荐系统,其特征在于,包括:
异质网络构建模块,用于设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识实体及其间显性关联数据,所述知识实体包括知识主体、知识载体和知识元,并对知识载体进行内容挖掘获取潜在知识元、知识载体与知识元间的潜在关联数据,进而根据主题词表获取知识元之间的关联数据,通过聚合多类型知识实体及其关联的数据构建异质网络;
所述异质网络构建模块用于实现子步骤:
S11,设计知识实体关联模型,基于知识实体关联模型获取系统中已有的知识主体集合U={u1,u2,…,ul}、知识载体集合C={c1,c2,…,cm}、和知识元集合Ks={ks1,ks2,…,ksn},得到系统中已有的知识实体集合Ns={U,C,Ks};获取系统中已有知识实体及知识实体间的显性关联包括:根据知识实体关联模型中的显性关联类型,获取知识实体集合Ns元素之间的显性关系数据,记为r(Nsi,Nsj,Wsij),其中Nsi、Nsj表示第i和第j个知识实体,r表示Nsi和Nsj之间的关系,Wsij为Nsi和Nsj之间r关联的权重;
S12,利用分词算法对知识载体集合进行分词,利用TF-IDF方法计算每个词的典型程度Ti,选取专业程度大于阈值的词汇作为潜在知识元集合Kp={kp1,kp2,…,kpt},并获取知识载体与潜在知识元之间的关联数据,记为relevance_based_on_content(ci,kpj,Wpij),其中ci为第i个知识载体,kpj为第j个潜在知识元,Wpij为ci和kpj之间基于内容挖掘得到的关联的权重,
所述的每个词的典型程度Ti具体的计算公式为: 其中,Fi为词i的总出现次数,Fmax为在知识载体集合中所有词汇中的最大频次,M为知识载体集合的总数量,{i:ti∈D}指的是包含了词汇i的知识载体总数,
所述的ci和kpj之间基于内容挖掘得到的关联的权重Wpij的计算公式为:Wpij=Fij*Tj,其中,Fij为知识元j在知识载体i中出现的次数,Tj为知识元j的典型程度值;
S13,综合得到知识元集合K=Ks∪kp,根据主题词表中的词间关系获取知识元之间的潜在关联,得到词汇之间的等同关系、层次关系和相关关系,分别记为equivalent(Ki,Kj)、hierarchical(Ki,Kj)和relevance(Ki,Kj);
S14,通过聚合多类型知识实体及其关联的数据构建异质网络包括:聚合所有数据,得到异质网络G=<N,E>,其中N={U,C,K},E=r(Ni,Nj,Wij);
特征向量模块,用于设置随机游走元路径框架,确定所述随机游走元路径框架中节点遍历的概率计算方式,设置每个节点随机游走的次数,得到全部随机游走序列,生成节点的网络邻居节点集合,通过Skip-gram进行特征学习,得到目标函数f:V→Rd,进而生成每个节点的特征向量;
相似度模块,用于基于特征向量模块计算的每个节点的特征向量,利用余弦相似度分布计算全部节点之间在不同随机游走元路径框架下的相似度,进而通过设置不同框架的权重大小,利用线性加权方法计算任意两节点之间的相似度;
推荐模块,用于基于相似度模块计算的节点相似度,选择基于类型的知识实体推荐、和/或基于关联的知识实体推荐、和/或基于结构的知识实体推荐方式进行知识推荐。
7.一种信息处理终端,包括处理器和存储器,其特征在于,其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利 要求1至4任意一项所述的基于异质网络嵌入的知识实体推荐方法。
8.一种计算机可读存储介质,包括指令,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1至4任意一项所述的基于异质网络嵌入的知识实体推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260017.XA CN110929046B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异质网络嵌入的知识实体推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911260017.XA CN110929046B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异质网络嵌入的知识实体推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929046A CN110929046A (zh) | 2020-03-27 |
CN110929046B true CN110929046B (zh) | 2022-09-30 |
Family
ID=69859714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911260017.XA Active CN110929046B (zh) | 2019-12-10 | 2019-12-10 | 一种基于异质网络嵌入的知识实体推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929046B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111815403B (zh) * | 2020-06-19 | 2024-05-10 | 北京石油化工学院 | 商品推荐方法、装置及终端设备 |
CN111931485B (zh) * | 2020-08-12 | 2021-03-23 | 北京建筑大学 | 一种基于跨网络表示学习的多模异质关联实体识别方法 |
CN112417063B (zh) * | 2020-12-11 | 2022-07-26 | 哈尔滨工业大学 | 一种基于异构关系网络的相容功能项推荐方法 |
CN112559864B (zh) * | 2020-12-14 | 2023-03-31 | 西安电子科技大学 | 一种基于知识图谱增强的双线性图网络推荐方法和系统 |
CN113254550B (zh) * | 2021-06-29 | 2022-04-19 | 浙江大华技术股份有限公司 | 基于知识图谱的推荐方法、电子设备和计算机存储介质 |
CN115146180B (zh) * | 2022-09-02 | 2022-11-29 | 南方科技大学 | 一种好友和兴趣点推荐方法及终端 |
CN116502713B (zh) * | 2023-04-03 | 2024-02-20 | 华中师范大学 | 一种基于加权元路径增强题目相似性嵌入的知识追踪方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955535A (zh) * | 2014-05-14 | 2014-07-30 | 南京大学镇江高新技术研究院 | 一种基于元路径的个性化推荐方法及系统 |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
CN107944629A (zh) * | 2017-11-30 | 2018-04-20 | 北京邮电大学 | 一种基于异质信息网络表示的推荐方法及装置 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11042922B2 (en) * | 2018-01-03 | 2021-06-22 | Nec Corporation | Method and system for multimodal recommendations |
-
2019
- 2019-12-10 CN CN201911260017.XA patent/CN110929046B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955535A (zh) * | 2014-05-14 | 2014-07-30 | 南京大学镇江高新技术研究院 | 一种基于元路径的个性化推荐方法及系统 |
CN106802956A (zh) * | 2017-01-19 | 2017-06-06 | 山东大学 | 一种基于加权异构信息网络的电影推荐方法 |
CN107944629A (zh) * | 2017-11-30 | 2018-04-20 | 北京邮电大学 | 一种基于异质信息网络表示的推荐方法及装置 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
Non-Patent Citations (1)
Title |
---|
异质网络中基于节点影响力的相似度度量方法;刘露 等;《电子学报》;20190915;1929-1936 * |
Also Published As
Publication number | Publication date |
---|---|
CN110929046A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929046B (zh) | 一种基于异质网络嵌入的知识实体推荐方法及系统 | |
Perozzi et al. | Don't walk, skip! online learning of multi-scale network embeddings | |
CN109919316B (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
Ding et al. | RecNet: A deep neural network for personalized POI recommendation in location-based social networks | |
Bach et al. | Personalized recommendation of stories for commenting in forum-based social media | |
Jiang et al. | Little is much: Bridging cross-platform behaviors through overlapped crowds | |
Da Silva et al. | Active learning paradigms for CBIR systems based on optimum-path forest classification | |
US20120158791A1 (en) | Feature vector construction | |
US9330104B2 (en) | Indexing and searching heterogenous data entities | |
Li et al. | Image sentiment prediction based on textual descriptions with adjective noun pairs | |
US9152709B2 (en) | Cross-domain topic space | |
Zhang et al. | A triple wing harmonium model for movie recommendation | |
Phuong et al. | Graph-based context-aware collaborative filtering | |
Hsu | Integrating ontology technology with folksonomies for personalized social tag recommendation | |
Xia et al. | Effectively identifying the influential spreaders in large-scale social networks | |
Xu et al. | Instance-level coupled subspace learning for fine-grained sketch-based image retrieval | |
Jeong et al. | HGGC: A hybrid group recommendation model considering group cohesion | |
Yannam et al. | Improving group recommendation using deep collaborative filtering approach | |
Baskin | Is one-shot learning a viable option in drug discovery? | |
Shakibian et al. | Multi-kernel one class link prediction in heterogeneous complex networks | |
Zhou et al. | Rank2vec: learning node embeddings with local structure and global ranking | |
Veeramachaneni et al. | A hinge-loss based codebook transfer for cross-domain recommendation with non-overlapping data | |
Peters et al. | Iterative multi-label multi-relational classification algorithm for complex social networks | |
Liu et al. | A data classification method based on particle swarm optimisation and kernel function extreme learning machine | |
Shi et al. | SCMF: sparse covariance matrix factorization for collaborative filtering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |