CN113626678A - 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法 - Google Patents

基于动态次优最小生成树的知识图谱数据挖掘与推荐方法 Download PDF

Info

Publication number
CN113626678A
CN113626678A CN202010372955.5A CN202010372955A CN113626678A CN 113626678 A CN113626678 A CN 113626678A CN 202010372955 A CN202010372955 A CN 202010372955A CN 113626678 A CN113626678 A CN 113626678A
Authority
CN
China
Prior art keywords
spanning tree
minimum spanning
edge
query
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010372955.5A
Other languages
English (en)
Inventor
王恒睿
杨仝
李济洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010372955.5A priority Critical patent/CN113626678A/zh
Publication of CN113626678A publication Critical patent/CN113626678A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于动态次优最小生成树的知识图谱数据挖掘与推荐方法,其步骤为:1)根据查询条件对应的子图,在知识图谱进行同构子图匹配,得到若干查询结果;然后将每一查询结果抽象为一个结点;2)将每一查询结果的重要程度作为该查询结果中各个实体的重要程度之和作为对应结点的权值,以查询结果之间的相异程度作为边权值,构建查询结果的最小生成树;3)对该最小生成树中的边进行切割,形成多个不同的连通分支,每个连通分支分别返回该连通分支中重要程度最高的结点作为查询结果输出。本发明可以同时兼顾推进内容的重要性与多样性的方法,而且能够减少用户的等待时间。

Description

基于动态次优最小生成树的知识图谱数据挖掘与推荐方法
技术领域
本发明属于知识图谱数据挖掘领域,具体涉及一种利用动态次优最小生成树来同时兼顾查找内容的重要性与多样性的推荐方法。
背景技术
随着网络社交平台与娱乐平台的多样化,根据用户的喜好或者用户输入的查询指令为用户提供高质量的推荐内容或查找结果成为了推荐系统的主要目标,一些著名的平台如知乎,哔哩哔哩,都拥有自己的推荐算法,尽管已经是一项相对成熟的技术,推荐系统仍然是如今的研究热点之一,而现有的推荐算法仅仅注意推荐内容的质量与热度,常常会出现推荐的内容相似而不相同的情况,即两个内容并不完全一样,但内容上存在极大相似性(如哔哩哔哩推荐了不同用户上传的同一段视频)的问题,进而降低了用户体验。
此外,目前很多数据库往往使用知识图谱这一数据结构对数据进行存储,而在知识图谱中进行查询的过程可以抽象为寻找同构子图的过程,由于查找同构子图的过程是NP难的,且现有的推荐算法往往是先查找出全部的符合要求的元组,再在其中按照预设的算法进行筛选,最后返回其中的高质量部分,因而推荐系统在工作时往往会出现一定的延迟,这样的延迟会进一步降低用户体验。
发明内容
为了克服现有的推荐算法推荐内容重复且有延迟的问题,本发明的目的在于提供一种基于动态次优最小生成树的知识图谱数据挖掘与推荐方法,可以同时兼顾推进内容的重要性与多样性的方法,而且能够减少用户的等待时间。
本发明的目的通过如下的技术方案来实现:
一种基于动态次优最小生成树的知识图谱数据挖掘与推荐方法,其步骤为:
1)根据查询条件对应的子图,在知识图谱进行同构子图匹配,得到若干查询结果;然后将每一查询结果抽象为一个结点;
2)将每一查询结果的重要程度作为该查询结果中各个实体的重要程度之和作为对应结点的权值,以查询结果之间的相异程度作为边权值,构建查询结果的最小生成树;
3)对该最小生成树中的边进行切割,形成多个不同的连通分支,每个连通分支分别返回该连通分支中重要程度最高的结点作为查询结果输出。
进一步的,采用增量的方式动态更新最小生成树,其方法为:根据查询条件对应的子图在知识图谱进行同构子图匹配,按照时间顺序获取多批查询结果,利用第一批查询结果构建一最小生成树并输出查询结果;然后对于后续的第i批查询结果,将第i批查询结果中的每一查询结果抽象为一个结点并加入到当前的最小生成树中,得到一棵新的最小生成树,然后从该新的最小生成树中寻找一条与原最小生成树距离最短的边进行连接,作为新的最小生成树,然后对当前最小生成树中的边进行切割,形成多个不同的连通分支,每个连通分支分别返回该连通分支中重要程度最高的结点作为查询结果输出。
进一步的,寻找该距离最短的边的方法为:首先随机地从原最小生成树中选择一些点,找这些点与该新的最小生成树之间最短距离的边,当多次选出来的点都不能再降低已找到的最短距离或查找次数到达阈值之后,将当前找到的最短距离的边作为连接该新的最小生成树与原最小生成树的边。
进一步的,两查询结果中相同的结点越少,则该两查询结果的相异程度越大。
进一步的,步骤3)中,对该最小生成树中的边进行切割时,切割所选用的边A切割后产生的新的连通分支中点权值最高,则将该边A对该最小生成树中的边进行切割,形成多个不同的连通分支。
进一步的,利用
Figure BDA0002478827250000021
计算各边的概率,选取概率最高的边进行切割;其中w为新的连通分支中权值最大结点的权值,d为边的权值,maxw为整棵最小生成树中权值最大结点的权值,n为用户搜索的同构子图包含的结点数,α为反应用户偏好的常数。
整体上本发明基于聚类的思想,希望相似的查询结果可以聚在一起,随后在每一类中查找出热度最高重要性最大的结果推荐给用户,这样一来通过聚类,可以消除重复,通过在每一类中查找热度最高的结果,但是现有的聚类算法如(K-means)如果想要实现上述功能,往往需要先将全部符合查询要求的结果得到再进行聚类,而无法解决延迟的问题。
由于重要性通过在每个聚类中分别查找最重要的结果就可以保证,这一问题的主要难点在于如何在降低延迟的同时完成聚类保证多样性,针对此问题,本发明将每个查询结果抽象为一个点,以查询结果的重要程度作为点权值,以查询结果之间的相异程度作为边权值(查询出的两个同构子图中相同的结点越少,则相异度越大),希望可以构建查询结果的最小生成树来暂时存储查询结果,随后将最小生成树中的边进行切割,在考虑对重要性影响的前提下选择一些相异性最高的边进行切割,形成多个不同的连通分支,每个连通分支即为一个聚类,在每个连通分支分别返回其中最重要的点即可,由于生成的是最小生成树,所以每个点必然倾向于与相异度低的点相连接,由此实现了聚类的目的。
注意到现有的最小生成树算法无论是prime还是krustal都与聚类一样需要提前拥有全部的查询结果,仍然无法解决延迟的问题,故而本发明采用增量添加的方式,来动态生成一棵次优的最小生成树来近似最小生成树,即先对查询的部分结果精确生成最小生成树,这棵树经过切割之后得到第一批推荐内容首先推荐给用户,随后一批一批的向树中添加新挖掘出的查询结果,每一批查询结果会现在内部形成一棵最小生成树,随后寻找一条与原来的树之间最小的边,来连接两棵树,生成一棵新的树(即当前的总树),然后对当前的总树进行切边,找重要程度最高的结点作为输出结果的过程,为用户提供第二批推荐内容,通过这一动态生成的方式可以有效降低推荐系统的延迟时间。
注意到现有的在知识图谱中挖掘同构子图的过程中,相邻返回的匹配结果之间往往具有较高的相似性(如一般的深度优先搜索加回溯的方法),故而在本方法中选择在每次的增量中先形成最小生成树,然后去和原来的总树之间寻找边相连的生成方式将十分接近于真正的最小生成树。
本发明的有益效果:
通过增量更新的方式,动态生成次优的最小生成树可以在查询的过程当中同步完成聚类任务,保证了可以无需等待全部同构子图匹配完成,降低了算法的延迟,同时切边分成多个聚类,再在多个聚类当中返回每一类中重要性最高的结果这一方式可以有效解决现有推荐算法推荐内容重复的问题,根据本发明的调研结果,这是目前首个关注于兼顾重要性与多样性的推荐算法。
附图说明
图1是一个知识图谱示意图。
图2是一个查询指令所希望查询的元组。
图3是将一已有的树切分得到多个连通分支并在每个分支当中选取最重要的匹配的过程。
图4是一个将新得到的匹配形成的最小生成树与原来的树合并的过程。
图5是本发明的整体流程图。
具体实施方式
为了使得本发明的目的,技术方案以及优点更加清楚明白,以下结合附图当中的实例对本发明进行更进一步详细说明。应当理解,此处所描述的具体实例仅仅用以解释本发明,并不用于限定本发明。
图1是一个知识图谱,结点上的数字代表其重要性。图2是一个模拟用户进行查询的过程,用户希望查找电影题材为浪漫题材的电影-导演-导演国籍的三元组,过往推荐算法往往会查询到(电影一,导演一,国籍一)和(电影一,导演二,国籍二),这样便造成了推荐内容的重复,事实上(电影一,导演一,国籍一)和(电影二,导演二,国籍二)是更好的推荐结果因为同时兼顾了重要性与多样性。
本发明的整体流程图如图5所示,首先根据查询条件对应的子图,在知识图谱进行同构子图匹配,得到若干查询结果;然后将每一查询结果抽象为一个结点,将每一查询结果的重要程度作为该查询结果中各个实体的重要程度之和作为对应结点的权值,以查询结果之间的相异程度作为边权值;然后本发明基于动态次优最小生成树,可以完成快速的兼顾查询结果多样性与重要性的知识图谱查询结果推荐,具体实现步骤如下:在对知识图谱进行同构子图匹配的过程中,采用已有算法得到不同的匹配结果作为查询结果,将每个查询结果抽象为一个点,以查询结果中各个实体的重要程度之和作为点权值,如对于上述电影-导演-导演国籍的三元组,我们以电影评分,导演知名程度的和作为点权值,以查询结果之间的相异程度作为边权值(本发明认为查询出的两个同构子图中相异的结点越多,则相异度越大),在得到一定数量的查询结果后,本发明首先利用传统的Prime算法(参考RC.PrimeShortest connection networks and some generalizations The Bell SystemTechnical Journal;Volume:36,Issue:6,Nov.1957)生成一棵小规模的最小生成树,再在这棵树中选择合适的边进行切开,对每个连通分支返回重要性最高的点作为查询结果,如图3所示,曲线为被选中切开的边,黑色结点为每一个连通分支中被选中的重要程度最高的匹配结果,进而快速为用户提供第一批推荐内容进行浏览,从而缩减用户的等待时间,提高用户体验。至于该如何选择合适的边进行切割,由于本发明希望切割操作得到的连通分支之间相似性较低,故而应尽量选取权值高的边进行切割,然而这样的问题在于在应用场景中,边权值的取值空间相对较小,很可能会出现边权相同的情况,同时边权相同的不同边很可能切分后得到的连通分支其重要性会有较大差异,因此在切边的时候同时考察切了这条边后带来的新的连通分支中重要性最高的点的点权值(点权值指的是新的连通分支中权值最高的点的权值),点权值越高同样越可能切这条边,;或者利用
Figure BDA0002478827250000041
计算各边的概率,选取概率最高的边进行切割,其中w为新的连通分支中权值最大点的权值,d为边的权值,即边两个端点的相异程度,maxw为整棵生成树中权值最大点的权值,n为用户搜索的同构子图包含的结点数(如对于电影-导演-导演国籍的三元组,则n=3),α为反应用户偏好的常数,用于决定在推荐过程中我们更关注于多样性还是重要性,此处可以结合现有的利用机器学习来学习出用户偏好的办法,通过用户的过往浏览来探究用户在多样性与重要性之间的偏好(如部分用户的兴趣点很单一,往往喜欢看相似的内容),进而可以根据用户偏好决定具体的切边方式以及要切多少条边。
在用户浏览本发明第一批推荐内容的过程中,对知识图谱的挖掘过程仍然在进行,本发明采用增量的方式动态更新原来的树,即一批一批的向树中添加新挖掘出的查询结果,每一批查询结果会现在内部形成一棵最小生成树,随后寻找一条与原来的树之间距离最短的边,用找到的边来连接两棵树,生成一棵新的树,具体过程如图4所示,新的树可以重复进行切边,找对重要程度最高的结点作为输出结果的过程,为用户提供第二批推荐内容,通过这一动态生成的方式可以有效降低推荐系统的延迟时间。
对于寻找合适的边连接两棵树,本发明采取的方案是随机选取看下降趋势,即随机地从原来的最小生成树中选择一些点,找这些点与新加入的树之间的最短距离,当多次选出来的点都不能再降低现有的最短距离或查找次数到达阈值之后,便用目前找到的最小边连接两棵树,这样可以保证选择的边接近于最优,同时预设的阈值可以保证不在这一过程消耗太多的时间。
注意到现有的在知识图谱中挖掘同构子图的过程中,相邻返回的匹配结果之间往往具有较高的相似性(如一般的深度优先搜索加回溯的方法),故而在本方法中选择在每次的增量中先形成最小生成树在去和原来的总树之间寻找边相连的生成方式将十分接近于真正的最小生成树。

Claims (6)

1.一种基于动态次优最小生成树的知识图谱数据挖掘与推荐方法,其步骤为:
1)根据查询条件对应的子图,在知识图谱进行同构子图匹配,得到若干查询结果;然后将每一查询结果抽象为一个结点;
2)将每一查询结果的重要程度作为该查询结果中各个实体的重要程度之和作为对应结点的权值,以查询结果之间的相异程度作为边权值,构建查询结果的最小生成树;
3)对该最小生成树中的边进行切割,形成多个不同的连通分支,每个连通分支分别返回该连通分支中重要程度最高的结点作为查询结果输出。
2.如权利要求1所述的方法,其特征在于,采用增量的方式动态更新最小生成树,其方法为:根据查询条件对应的子图在知识图谱进行同构子图匹配,按照时间顺序获取多批查询结果,利用第一批查询结果构建一最小生成树并输出查询结果;然后对于后续的第i批查询结果,将第i批查询结果中的每一查询结果抽象为一个结点并加入到当前的最小生成树中,得到一棵新的最小生成树,然后从该新的最小生成树中寻找一条与原最小生成树距离最短的边进行连接,作为新的最小生成树,然后对当前最小生成树中的边进行切割,形成多个不同的连通分支,每个连通分支分别返回该连通分支中重要程度最高的结点作为查询结果输出。
3.如权利要求2所述的方法,其特征在于,寻找该距离最短的边的方法为:首先随机地从原最小生成树中选择一些点,找这些点与该新的最小生成树之间最短距离的边,当多次选出来的点都不能再降低已找到的最短距离或查找次数到达阈值之后,将当前找到的最短距离的边作为连接该新的最小生成树与原最小生成树的边。
4.如权利要求1所述的方法,其特征在于,两查询结果中相同的结点越少,则该两查询结果的相异程度越大。
5.如权利要求1所述的方法,其特征在于,步骤3)中,对该最小生成树中的边进行切割时,切割所选用的边A切割后产生的新的连通分支中点权值最高,则将该边A对该最小生成树中的边进行切割,形成多个不同的连通分支。
6.如权利要求1所述的方法,其特征在于,利用
Figure FDA0002478827240000011
计算各边的概率,选取概率最高的边进行切割,其中w为新的连通分支中权值最大结点的权值,d为边的权值,maxw为整棵最小生成树中权值最大结点的权值,n为用户搜索的同构子图包含的结点数,α为反应用户偏好的常数。
CN202010372955.5A 2020-05-06 2020-05-06 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法 Pending CN113626678A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010372955.5A CN113626678A (zh) 2020-05-06 2020-05-06 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010372955.5A CN113626678A (zh) 2020-05-06 2020-05-06 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法

Publications (1)

Publication Number Publication Date
CN113626678A true CN113626678A (zh) 2021-11-09

Family

ID=78376539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010372955.5A Pending CN113626678A (zh) 2020-05-06 2020-05-06 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法

Country Status (1)

Country Link
CN (1) CN113626678A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461734A (zh) * 2022-04-12 2022-05-10 支付宝(杭州)信息技术有限公司 知识图谱子图匹配的动态控制方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073718A (zh) * 2011-01-10 2011-05-25 清华大学 一种对概率数据库查询结果予以解释与擦改的系统及方法
CN103150404A (zh) * 2013-03-28 2013-06-12 北京大学 一种关系-xml混合数据关键字查询方法
CN104102699A (zh) * 2014-07-01 2014-10-15 华中科技大学 一种聚簇图集合中的子图检索方法
US20160140643A1 (en) * 2014-11-18 2016-05-19 Microsoft Technology Licensing Multilingual Content Based Recommendation System
CN107451210A (zh) * 2017-07-13 2017-12-08 北京航空航天大学 一种基于查询松弛结果增强的图匹配查询方法
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073718A (zh) * 2011-01-10 2011-05-25 清华大学 一种对概率数据库查询结果予以解释与擦改的系统及方法
CN103150404A (zh) * 2013-03-28 2013-06-12 北京大学 一种关系-xml混合数据关键字查询方法
CN104102699A (zh) * 2014-07-01 2014-10-15 华中科技大学 一种聚簇图集合中的子图检索方法
US20160140643A1 (en) * 2014-11-18 2016-05-19 Microsoft Technology Licensing Multilingual Content Based Recommendation System
CN107451210A (zh) * 2017-07-13 2017-12-08 北京航空航天大学 一种基于查询松弛结果增强的图匹配查询方法
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEIMIN LI; HENG ZHU; WEI LIU; DEHUA CHEN; JIULEI JIANG; QUN JIN: "An Anti-Noise Process Mining Algorithm Based on Minimum Spanning Tree Clustering", IEEE ACCESS, vol. 6, 20 August 2018 (2018-08-20), pages 48756 - 48764 *
东升奇: "基于最小生成树的聚类算法研究", 计算机软件及计算机应用, no. 2013, 16 April 2013 (2013-04-16), pages 138 - 1735 *
张东伟;王曦杨;: "基于综合赋权的包推荐查询松弛方法", 计算机应用研究, no. 03, 21 March 2017 (2017-03-21) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114461734A (zh) * 2022-04-12 2022-05-10 支付宝(杭州)信息技术有限公司 知识图谱子图匹配的动态控制方法和系统
CN114461734B (zh) * 2022-04-12 2022-07-12 支付宝(杭州)信息技术有限公司 知识图谱子图匹配的动态控制方法和系统

Similar Documents

Publication Publication Date Title
US20180276250A1 (en) Distributed Image Search
US9613164B2 (en) System and method for data management in large data networks
CN107784044B (zh) 表数据查询方法及装置
Wang et al. Heterogeneous information network-based music recommendation system in mobile networks
CN108021658B (zh) 一种基于鲸鱼优化算法的大数据智能搜索方法及系统
CN105706078A (zh) 实体集合的自动定义
CN114218400A (zh) 基于语义的数据湖查询系统及方法
Interdonato et al. A versatile graph-based approach to package recommendation
CN108595711B (zh) 一种分布式环境下图模式关联规则挖掘方法
CN109492150A (zh) 基于语义轨迹大数据的反向最近邻查询方法及装置
Aberer Semantic overlay networks
CN113626678A (zh) 基于动态次优最小生成树的知识图谱数据挖掘与推荐方法
CN104008097B (zh) 实现查询理解的方法及装置
CN114372165A (zh) 一种跳跃式连接的优化路径查询方法、装置、设备及存储介质
CN112507047B (zh) 一种基于兴趣点偏好的最优有序路径查询方法
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
CN110928873A (zh) 基于改进非支配排序遗传算法的空间对象索引与查询方法
CN113761243A (zh) 在线检索方法和系统
CN102955860A (zh) 基于模式图的关键字查询改进方法
CN112883143A (zh) 一种基于Elasticsearch的数字展会搜索方法与系统
CN109254983B (zh) 一种众包TOP-k查询中的降低成本方法
Zaarour et al. Adaptive filtering of visual content in distributed publish/subscribe systems
CN107688620B (zh) 一种面向Top-k查询的查询结果即时多样化的方法
Tsatsanifos et al. RIPPLE: A Scalable Framework for Distributed Processing of Rank Queries.
Koloniari et al. Distributed structural relaxation of XPath queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination