CN113342992B - 基于剪枝技术与自动图扩展的知识图谱关联图布局方法 - Google Patents

基于剪枝技术与自动图扩展的知识图谱关联图布局方法 Download PDF

Info

Publication number
CN113342992B
CN113342992B CN202110666141.7A CN202110666141A CN113342992B CN 113342992 B CN113342992 B CN 113342992B CN 202110666141 A CN202110666141 A CN 202110666141A CN 113342992 B CN113342992 B CN 113342992B
Authority
CN
China
Prior art keywords
node
association
graph
expanded
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110666141.7A
Other languages
English (en)
Other versions
CN113342992A (zh
Inventor
张源奔
韩众和
杨鑫
李峰
王洋
郭岩
谢辉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Information Research Institute of CAS
Original Assignee
Aerospace Information Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Information Research Institute of CAS filed Critical Aerospace Information Research Institute of CAS
Priority to CN202110666141.7A priority Critical patent/CN113342992B/zh
Publication of CN113342992A publication Critical patent/CN113342992A/zh
Application granted granted Critical
Publication of CN113342992B publication Critical patent/CN113342992B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

一种基于实体热度剪枝与自动图扩展的知识图谱关联图布局方法,包括以下步骤:查询知识图谱中的实体关联图数据;采用实体热度评分方法计算实体热度,并根据实体热度对关联图进行裁剪;将剪裁后的关联图输入力导向布局算法,确定裁剪后的关联图中每个节点的初始横坐标和纵坐标;当需要对关联图中的某节点进行关联关系扩展时,获得待扩展节点的一跳关联节点集与关联关系,以待扩展节点为坐标原点,使用力导向布局算法计算一跳扩展节点集中节点的初始坐标;采用自动图扩展技术进行节点布局,将经过自动图扩展技术优化后的节点布局添加至待扩展关联图,完成最终的节点布局。

Description

基于剪枝技术与自动图扩展的知识图谱关联图布局方法
技术领域
本发明涉及知识图谱推理领域,特别涉及一种基于实体热度剪枝与自动图扩展的知识图谱关联图布局方法。
背景技术
知识图谱是以图的形式表现客观世界中的概念和实体及其之间关系的知识库,是语义搜索、智能问答、决策支持等智能服务的基础技术之一。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,即关联图。在关联图中,节点表示实体或概念,边则表示实体之间的关联关系。
关联图布局,即查询与某节点相关联的节点和关联关系,并确定待展示节点的最优显示位置。关联图布局的应用也非常广泛,例如,关联图布局可用于搜索引擎,将关于某节点的属性或与其它节点的关系等信息展示出来,方便人们更便捷的获取信息。此外,关联图布局还可以用于知识推理,比如在金融行业通过对借贷人的相关信息进行显示,可以对异常借贷进行检测等。
目前,已有不少针对知识图谱关联图布局技术的研究。在现有的技术中,研究的重点是对已知节点和关联图进行布局,并着重提高关联图布局的效率和美观性。以现有的力导向自适应图布局方法为例,该方法通过为每个节点设置带有的电荷量,计算每个节点在其他节点的作用下受到的库伦斥力和胡克拉力。进一步计算每个节点受到的合力,从而计算每个节点应当移动的位移,以调整每个节点在分布图中的位置。该方法能够使得关联图布局相对均匀,相对对称,有助于让使用者得到最大的感知体验。但该方法在实际应用中,仍存在两个亟待解决的关键问题:其一,当关联图中节点和关联关系过多时,将导致关联图信息杂乱、冗余并无法显示有效信息。而在现有研究中,缺乏有效的对关联图剪枝的方法。其二,在现有的技术中,缺乏对关联图扩展技术的研究。当对关联图进行扩展时,采用单独计算扩展节点的坐标并增添至原关联图上的方法。这就导致关联图扩展后扩展节点分布较乱,极大的影响了关联图布局的合理性和美观性。
发明内容
有鉴于此,本发明的主要目的在于提供一种基于实体热度剪枝与自动图扩展的知识图谱关联图布局方法,以期部分地解决上述技术问题中的至少之一。
为了实现上述目的,本发明提供了一种基于实体热度剪枝与自动图扩展的知识图谱关联图布局方法,包括以下步骤:
查询知识图谱中的实体关联图数据,关联图中的节点代表知识图谱中的相关实体,关联图中的边代表实体之间的关联关系;
采用实体热度评分方法计算实体热度,并根据所述实体热度对所述关联图进行裁剪;
将剪裁后的关联图输入力导向布局算法,确定裁剪后的关联图中每个节点的初始横坐标和纵坐标,根据所述实体热度评分确定所述每个节点在关联图上的显示半径,完成知识图谱关联图的初步布局;
当需要对所述关联图中的某节点进行关联关系扩展时,获得待扩展节点的一跳关联节点集与关联关系,以所述待扩展节点为坐标原点,使用所述力导向布局算法计算所述一跳扩展节点集中节点的初始坐标;
采用自动图扩展技术进行节点布局,具体包括:
根据所述关联图上的节点及坐标确定待扩展节点的扩展方位角;
将扩展节点集中节点的初始坐标转换为在待扩展关联图上的横、纵坐标;
当所述待扩展节点位于关联图中心位置附近时,使用中心节点扩展布局优化方法进行布局优化;以及
将经过自动图扩展技术优化后的节点布局添加至待扩展关联图,完成最终的节点布局。
其中,所述查询知识图谱中的实体关联图数据具体包括:
借助命名实体识别技术和实体关系抽取技术,向知识图谱系统的图数据库中添加节点和关联关系;
根据查询条件,在知识图谱的图数据库中查询实体的关联图数据,即与某节点相关联的节点以及各个节点之间的关联关系。
其中,所述采用实体热度评分方法计算实体热度,并根据所述实体热度对所述关联图进行裁剪具体包括:
根据实体在图谱系统各类文本中出现的频率以及用户对实体的访问痕迹频率,计算实体热度;
根据实体热度,对所述查询知识图谱中的实体关联图数据步骤中得到的关联图的节点进行剪裁;
对所述查询知识图谱中的实体关联图数据步骤中得到的关联图的关联关系进行剪裁。
其中,所述将剪裁后的关联图输入力导向布局算法,确定裁剪后的关联图中每个节点的初始横坐标和纵坐标,根据所述实体热度评分确定所述每个节点在关联图上的显示半径,完成知识图谱关联图的初步布局具体包括:
对节点随机定位;
分别算出每个节点的引力和排斥力;
根据节点热度确定节点半径r的计算方式为:
Figure GDA0003851997190000031
其中,h表示实体热度,hmin表示实体热度的最小值,hmax表示实体热度的最大值,rmin表示节点半径的最小值,rmax表示节点半径的最大值。
其中,所述当需要对所述关联图中的某节点进行关联关系扩展时,获得待扩展节点的一跳关联节点集与关联关系,以所述待扩展节点为坐标原点,使用所述力导向布局算法计算所述一跳扩展节点集中节点的初始坐标具体包括:
根据查询条件,在知识图谱的图数据库中查询待扩展节点的一跳关联节点、关联关系;
当查询到的待扩展节点的一跳关联节点的数量大于展示的节点数量时,即达到剪枝条件;根据关联图剪裁方法对查询到的关联节点、关联关系进行剪裁,得到剪裁后待扩展关联图,即待扩展节点的一跳扩展节点集、关联关系;
剪枝后以待扩展节点为坐标原点,使用所述力导向布局算法计算一跳扩展节点集中节点的初始坐标。
其中,所述根据所述关联图上的节点及坐标确定待扩展节点的扩展方位角具体包括:
将待扩展节点作为坐标原点,计算扩展前关联图上除待扩展节点外,其它任意节点在该第一坐标系下的横、纵坐标;
以待扩展节点作为极坐标系极点,计算扩展前关联图上除待扩展节点外,其它任意节点在该第二坐标系下的弧度;
将扩展前关联图上除待扩展节点外的其它所有节点在该第二坐标系下的弧度排序,并对排序后的相邻的两个弧度做差;
获取计算得到的最大弧度差,并根据该弧度差获得形成该弧度差的两个弧度α、β(α<β),则(α,β)即所求的扩展方位角。
其中,所述将扩展节点集中节点的初始坐标转换为在待扩展关联图上的横、纵坐标具体包括:
分别计算扩展节点集中任意节点在初始坐标下与待扩展节点的夹角γn与距离ln
将扩展节点集中任意节点的夹角γn进行放缩,使其值域范围缩减至(α,β),得到各节点新夹角Y′n
根据各节点新夹角γ′n与距离ln,将扩展节点集中任意节点的初始坐标转换为在待扩展关联图上的横、纵坐标
Figure GDA0003851997190000041
其中,所述采用自动图扩展技术进行节点布局的步骤还包括:对ln优化,得到l′n;所述对ln优化的步骤具体包括:
已知待扩展关联图G中具有m个节点
NODES={node1,node2...nodem},对待扩展节点请求一跳关联并根据热度剪枝后可得到一跳待扩展关联图Gexpand,节点
Figure GDA0003851997190000042
Figure GDA0003851997190000043
其中
Figure GDA0003851997190000044
则完全包含待扩展关联图G中各节点的矩形Rec由NODES中节点最大、最小横坐标与纵坐标定义,其面积为:
Srec=(xmax-xmin)*(ymax-ymin)
完全包含一跳待扩展关联图Gexpand中各节点的矩形Recexpand由NODESexpand中节点最大、最小横坐标与纵坐标定义,其面积为:
Figure GDA0003851997190000051
在进行计算NODESexpand中各点与待扩展节点的夹角γn与距离ln时,将ln进行扩展,公式表示为:
Figure GDA0003851997190000052
其中,当所述待扩展节点位于关联图中心位置附近时,使用中心节点扩展布局优化方法进行布局优化的步骤具体包括:
判断待扩展点nodeq=(xq,yq)是否为中心点;
当待扩展点nodeq=(xq,yq)为中心点时,对扩展节点
Figure GDA0003851997190000053
Figure GDA0003851997190000054
中节点横纵坐标在所述采用自动图扩展技术进行节点布局的坐标转换方法的基础上进行扩展优化。
其中,所述当待扩展点nodeq=(xq,yq)为中心点时,对扩展节点
Figure GDA0003851997190000055
中节点横纵坐标在所述采用自动图扩展技术进行节点布局的坐标转换方法的基础上进行扩展优化的步骤具体包括:
确定优化基准;
优化扩展点
Figure GDA0003851997190000056
的距离和角度。
基于上述技术方案可知,本发明的知识图谱关联图布局方法相对于现有技术至少具有如下有益效果的一部分:
本发明使用实体热度评分方法计算实体热度,并根据热度对上述关联图进行剪裁。解决了当关联图中存在过多的节点、关联关系时,由于信息过于杂乱和冗余使得关联图过于复杂,进而导致关联图难以显示有效信息的问题。极大的提高了关联图显示信息的有效性。
本发明采用自动图扩展技术进行节点布局。通过计算扩展方位角并对一跳扩展节点集坐标变换,实现在保证关联图上原有节点、关联关系位置不变的情况下,将一跳扩展节点合理、美观的布局至关联图。解决了在传统的布局方式下,在对关联图扩展时,由于对扩展节点单独计算坐标并直接增添至关联图上,进而导致的关联图上原节点与扩展节点分布不合理,关联图不美观的问题。极大的提高了用户体验和布局的合理性。
本发明采用了中心节点扩展布局优化方法。当待扩展节点位于关联图中心位置附近时,通过计算优化基准和优化比例,实现对关联图中心节点的扩展布局优化。解决了在传统的扩展技术中,待扩展节点为中心点时,一跳扩展节点布局过密从而影响显示效果的问题。极大的提高了关联图的清晰性及可展示性。
附图说明
图1是本发明实施例提供的一种基于实体热度剪枝技术与自动图扩展技术的知识图谱关联图布局方法流程图;
图2是本发明实施例提供的一种基于实体热度剪枝技术与自动图扩展技术的知识图谱关联图布局方法的整体框架流程图;
图3是本发明实施例提供的根据热度对关联图剪枝前后关联图效果对比图;
图4是本发明实施例提供的根据热度确定节点在关联图上的显示半径前后效果对比图;
图5是本发明实施例提供的自动图扩展技术对扩展节点优化布局前后效果对比图;
图6是本发明实施例提供的中心节点扩展布局优化方法对中心节点布局优化前后效果对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
参考图1-图2所示,为本发明实施例提供的一种基于实体热度剪枝技术与自动图扩展技术的知识图谱关联图布局方法的流程图,可以包含以下步骤:
S1:查询知识图谱中的实体关联图数据,该关联图中的节点代表知识图谱中的相关实体,该关联图中的边代表实体之间的关联关系。
S11:借助命名实体识别技术和实体关系抽取技术,向知识图谱系统的图数据库中添加节点和关联关系。
知识图谱是以图的形式表现客观世界中的概念和实体及其之间关系的知识库,是语义搜索、智能问答、决策支持等智能服务的基础技术之一。本质上,知识图谱旨在描述真实世界中存在的各种实体或概念及其关系,其构成一张巨大的语义网络图,即关联图。在关联图中,节点表示实体或概念,边则辨识实体之间的关联关系。
知识图谱的图数据库的构建就是实体抽取和关联关系的抽取。具体的,借助命名实体识别(Named Entities Recognition,NER)技术,对文本数据进行处理,识别出文本中具有特定意义的实体并添加至图数据库中。识别的实体主要包括实体类、时间类和数字类三大类,以及人名、机构名、地名、时间、日期、货币和百分比七小类。
例如,有待处理文本“张三(人名)出生于A市(地名),毕业后去A公司(机构名)任职”,凭借NER技术可抽取节点“张三”,“A市”及“A公司”。
此外,应用实体关系抽取技术对待处理文本进行处理,抽取实体间的关联关系并添加至图数据库中。常用的实体关系抽取技术有特征工程、核方法、图模型及神经网路等。
例如,待处理文本为“姚三与妻子叶四并排坐在景区的游览车上”,可抽取得到“姚三”“叶四”“夫妻”的关系。
S12:根据查询条件,在知识图谱的图数据库中查询实体的关联图数据,即与某节点相关联的节点以及各个节点之间的关联关系。
S2:创新的使用实体热度评分方法计算实体热度,并根据热度对上述关联图进行裁剪;
例如,在电影人物知识图谱的关联查询中,某用户搜索实体“赵三”的关联后,可能会查询到上千条与“赵三”有关的实体或关系,若将这些实体与关系全部返回,会造成关联图节点过多、用户难以查看到关键关系的问题。为了解决这一问题,在现有的技术中,通常使用随机剪裁或简单的热度裁剪等方法。比如经过裁剪后返回与“赵三”具有“民族”关系的实体“A民族”,具有“祖籍”关系的实体“A省”等等。然而,这些关系与实体可能并不受当前用户的关注。例如,当前用户可能更关心与“赵三”合作过的明星及作品等,却不关心“赵三”的基本情况。在传统的裁剪方式下,很可能出现将用户关注的信息裁剪掉的情况。因此,针对每个用户,创新的使用实体热度评分方法计算实体热度,并根据热度对上述关联图进行裁剪,从而帮助用户查找最关注的实体与关系。
该方式的具体实现如下:
S21:根据实体在图谱系统各类文本中出现的频率、以及用户对实体的访问痕迹频率,计算实体热度。
具体的,以heat表示某实体的热度,frequencytext、frequencyuser分别表示该实体在图谱系统各类文本中出现的频率和用户对该实体访问痕迹的频率,则实体热度计算方式为:
heat=α*frequencytext+(1-α)*frequencyuser
上式中,α∈[0,1],该参数用于根据frequencytext和frequencyuser重要性的不同,来调节frequencytext和frequencyuser在计算实体热度heat中所占比重。
例如,在S2中所述电影人物知识图谱系统中,根据该用户发表的文本信息及搜索、点击痕迹,计算实体热度。在这种情况下,与“赵三”有关联关系的实体根据热度由高到低排序依次为实体“黄四”、“陈五”、“电视剧A”、“电影H”、“S电影学院”、“周一一”、“杨六”、“苏七”、“古八”、“林九”、“马十”等。
S22:根据实体热度,对S1中得到的关联图的节点进行剪裁。
具体的,根据实体热度,对关联图中节点按热度由高到低排序。并在排序后仅保留热度最高的一定数量的节点,实现对关联图的节点的剪裁。得到剪裁后关联图上的节点集为NODES={node1,node2...nodem},且关联图上任意节点noden∈NODES,其横、纵坐标为noden=(xn,yn)。
S23:对S1中得到的关联图的关联关系进行剪裁。
具体的,判断S1中查询到的关联关系的两个节点是否在S22中被裁掉。若关联关系的某个节点被裁掉,则裁掉该关联关系;若关联关系的两个节点均未被裁掉,则保留该关联关系。
例如,根据S21所述例子中的实体热度,对与实体“赵三”有关联关系的节点剪裁,则可得到剪裁后关联图上的节点分别为“黄四”、“陈五”、“电视剧A”、“电影H”、“S电影学院”、“周一一”、“杨六”等。
之后,根据关联图节点的剪裁结果,对关联关系进行剪裁。因此,保留“赵三”与“黄四”、“陈五”之间的关联关系“同学”,与“电视剧A”、“电影H”间的关系“作品”,与“S电影学院”间的关系“学校”,以及与“周一一”、“杨六”间的关系“同事”等。
根据热度对关联图剪枝前后关联图对比图如图3所示。
S3:将剪裁后的关联图输入已有的力导向布局算法,确定其中每个节点的初始横、纵坐标,同时根据实体热度评分确定每个节点在关联图上的显示半径,完成知识图谱关联图的初步布局。
S31:根据已有的力导向布局算法,计算关联图中每个节点的初始横纵坐标。力导向布局算法实现方式如下:
首先,对节点随机定位。之后,分别算出每个节点的引力和排斥力。其中,引力的计算借鉴计算自然界中电子相互作用的库伦公式实现。根据库伦定律,电子之间斥力的计算方式为:
Figure GDA0003851997190000091
假设每个电子的电量都是1,可将上式简化为:
Figure GDA0003851997190000092
上式中常数k可以根据画布大小和节点的数量计算。
节点之间的引力借鉴弹簧的胡克引力来实现,其计算公式为:
F=k·Δx
节点在引力和斥力的作用下不断对坐标进行更新,经多次坐标更新后引力和斥力达到平衡,节点不再移动。则实现对关联图的布局。
S32:根据实体热度,确定节点在关联图上的显示半径。
在关联图中,不同节点的重要程度不同。为了使得关联图突出显示重要节点,本发明创新的根据实体热度确定节点的显示半径,即节点的大小。实现节点热度越高,该关联图上该节点越大的效果。
具体的,在实体热度字典中,以数值h表示实体热度,且将实体热度的最小值、最大值分别设置为hmin、hmax。因此,存在
hmin≤h≤hmax
同时,以r表示关联图上节点半径,且节点半径的最小值、最大值分别为rmin、rmax,即
rmin≤r≤rmax
因此,根据节点热度对节点半径r的计算方式为:
Figure GDA0003851997190000101
例如,将S2中所述实例的剪裁结果输入力导向布局算法,确定每个节点的位置,即“赵三”、“黄四”、“陈五”、“电视剧A”、“电影H”、“S电影学院”、“周一一”、“杨六”等节点的初始横、纵坐标。并根据其热度计算得到每个节点的半径大小,则关联图上各节点由大到小依次为“赵三”、“黄四”、“陈五”、“电视剧A”、“电影H”、“S电影学院”、“周一一”、“杨六”等。
根据热度计算节点半径前后关联图对比图如图4所示。
S4:当需要对上述关联图中的某节点进行关联关系扩展时,获得待扩展节点nodeq(nodeq∈NODES)的一跳扩展节点集与关联关系,以待扩展节点为坐标原点,使用已有的力导向布局算法计算一跳扩展节点集中节点的初始坐标。
S41:根据查询条件,在知识图谱的图数据库中查询待扩展节点nodeq的一跳关联节点、关联关系。
S42:当查询到的待扩展节点nodeq的一跳关联节点的数量大于展示的节点数量时,即达到剪枝条件。此时根据S2中提出的关联图剪裁方法对S41中查询到的关联节点、关联关系进行剪裁。得到剪裁后待扩展关联图,即待扩展节点nodeq的一跳扩展节点集
Figure GDA0003851997190000102
关联关系。
S43:剪枝后以待扩展节点noden为坐标原点,使用已有的力导向布局算法计算一跳扩展节点集NODESexpand中节点的初始坐标。
具体的,以待扩展节点nodeq为坐标原点,将带扩展关联图,即待扩展节点nodeq的一跳扩展节点集
Figure GDA0003851997190000111
关联关系输入至已有的力导向布局算法,计算NODESexpand中节点初始坐标。得到
Figure GDA0003851997190000112
Figure GDA0003851997190000113
例如,对上文所述关联图实例中的节点“黄四”进行关系扩展时,首先可查询到与“黄四”与“杨二”具有“妻子”关系,与“黄一一”具有“父亲”关系,与“A星座”具有“星座”关系,与“A民族”具有“民族”关系,与“电影B”、“电影C”、“电影D”、“电影E”具有“作品”关系等。
此时,根据S2中所述剪枝方法对扩展关联图剪枝,则保留“黄四”与“杨二”之间关系为“妻子”,与“电影B”、“电影C”、“电影D”、“电影E”关系为“作品”等。之后,采用力导向布局算法对该扩展关联图进行点位计算,得到节点“黄四”、“杨二”、“电影B”、“电影C”、“电影D”、“电影E”等的初始坐标。
S5:之后,创新的使用自动图扩展技术进行节点布局,具体为:根据关联图上已有节点及节点坐标,确定待扩展节点nodeq的扩展方位角(α,β)并以此对初始坐标进行转换。
S51:根据关联图上已有节点及节点坐标,确定待扩展节点nodeq的扩展方位角(α,β)。具体如下:
S511:将待扩展节nodeq点作为坐标原点,计算扩展前关联图上除待扩展节点nodeq外,其它任意节点在该坐标系下的横纵坐标。
已知关联图上已有节点NODES={node1,node2...nodem},且nodeq∈NODES,关联图上任意节点的横、纵坐标为noden=(xn,yn)。因此,对关联图上除待扩展节点nodeq外,任意节点noden在该坐标系下的横、纵坐标为:
xn_new=xn-xq
yn_new=yn-yq
S512:以待扩展结点nodeq作为极坐标系极点,计算扩展前关联图上除待扩展节点nodeq外,其它任意节点noden在该坐标系下的弧度anglen。具体计算方式如下:
当yn_new>0且xn_new>0:
anglen=arctan(yn_new/xn_new)
当yn_new<0且xn_new>0:
anglen=2π+arctan(yn_new/xn_new)
当yn_new!=0且xn_new<0:
anglen=π+arctan(yn_new/xn_new)
当yn_new=0且xn_new>0:
anglen=0
当yn_new=0且xn_new<0:
anglen=π
当yn_new>0且xn_new=0:
Figure GDA0003851997190000121
当yn_new<0且xn_new=0:
Figure GDA0003851997190000122
其中,π用于表示弧度,且π=180°。
S513:将扩展前关联图上除待扩展节点外的其它所有节点在该坐标系下的弧度排序,并对排序后的相邻的两个弧度做差。
S514:获取S613中计算得到的最大弧度差。并根据该弧度差获得形成该弧度差的两个弧度α、β(α<β),则(α,β)即所求的扩展方位角。
针对上文所述实例,即首先将节点“黄四”作为极坐标系下极点,计算待扩展节点“杨二”、“电影B”、“电影C”、“电影D”、“电影E”等在该坐标系下的弧度。之后,将带扩展节点按弧度大小排序,计算相邻两个弧度差,并将形成最大弧度差的两个弧度作为扩展方位角。
S52:将扩展节点集NODESexpand中节点的初始坐标转换为在待扩展关联图上的横、纵坐标
Figure GDA0003851997190000123
具体的:
S521:分别计算NODESexpand中任意节点
Figure GDA0003851997190000131
在初始坐标
Figure GDA0003851997190000132
下与待扩展节点nodeq的夹角γn与距离ln。具体的:
Figure GDA0003851997190000133
Figure GDA0003851997190000134
S522:将NODESexpand中任意节点
Figure GDA0003851997190000135
的夹角γn进行放缩,使其值域范围缩减至(α,β),得到各节点新夹角γ′n。具体的:
Figure GDA0003851997190000136
S523:根据γ′n与ln,可将NODESexpand中任意节点
Figure GDA0003851997190000137
的初始坐标转换为在待扩展关联图上的横、纵坐标
Figure GDA0003851997190000138
具体的:
Figure GDA0003851997190000139
Figure GDA00038519971900001310
S53:为了进一步增强待扩展关联图上扩展节点布局的美观性和合理性,可对ln优化,得到l′n。并将优化后的l′n带入S523,采用γ′n与l′n重新计算
Figure GDA00038519971900001311
的横、纵坐标
Figure GDA00038519971900001312
S531:由上述可知,已知待扩展关联图G中具有m个节点NODES={node1,node2...nodem},对待扩展节点nodeq请求一跳关联并根据热度剪枝后可得到一跳待扩展关联图Gexpand,节点
Figure GDA00038519971900001313
Figure GDA00038519971900001314
其中
Figure GDA00038519971900001315
则完全包含图G中各节点的矩形Rec由NODES中节点最大、最小横坐标与纵坐标定义,其面积为:
Srec=(xmax-xmin)*(Ymax-Ymin)
S532:同理可得,完全包含图Gexpand中各节点的矩形Recexpand由NODESexpand中节点最大、最小横坐标与纵坐标定义,其面积为:
Figure GDA00038519971900001316
S533:因此,在进行计算Dexpand中各点与待扩展节点dq的夹角γn与距离ln时,将ln进行扩展,公式表示为:
Figure GDA0003851997190000141
之后使用γ′n与l′n计算转换后一跳内各节点
Figure GDA0003851997190000142
根据扩展节点在待扩展关联图上的横、纵坐标
Figure GDA0003851997190000143
可将扩展节点显示在关联图上。
对扩展节点优化前后关联图的对比图如图5所示。
S6:当待扩展节点nodeq位于关联图中心位置附近时,创新的使用中心节点扩展布局优化方法进行布局优化。
当待扩展点nodeq=(xq,yq)距离待扩展关联图G中心点较近时,其所获得的待扩展方位角(α,β)较小。此时,若一跳扩展节点集
Figure GDA0003851997190000144
中较多时,会出现节点布局过密,导致关联图上节点显示不清晰。针对该情况,采用中心节点布局优化方法进行优化。具体的:
S61:判断待扩展点nodeq=(xq,yq)是否为中心点。具体如下:
针对待扩展节点集NODESexpand中的各个节点,我们计算其每个节点在待扩展关联图上扩展后所占用的平均角度
Figure GDA0003851997190000145
Figure GDA0003851997190000146
其中h为一跳待扩展节点的个数。
假设每个节点至少应当获得δ角度的扩展空间才能有效展示,则当
Figure GDA0003851997190000147
时,需对该节点扩展优化。δ是我们算法中需要人为决定的超参数,我们将其默认设置为5°。
S62:当待扩展点nodeq=(xq,yq)为中心点时,对扩展节点
Figure GDA0003851997190000148
中节点横纵坐标在S5中所述的坐标转换方法的基础上进行扩展优化。
具体的,首先采用S621中所述方法确定优化基准;之后,按照S622所述方式对扩展点
Figure GDA0003851997190000149
的距离和角度优化。
S621:确定优化基准。具体如下:
假定2维直角坐标系x轴正方向为极坐标0度角,已知待扩展节点nodeq=(xq,yq),待扩展方位角(α,β),则待扩展方位标准角为
Figure GDA0003851997190000151
Figure GDA0003851997190000152
区间为
Figure GDA0003851997190000153
时,扩展图向2维直角坐标系x轴正半轴优化(优化基准为原图最大x值对应的点(xmax,y1));
Figure GDA0003851997190000154
区间为
Figure GDA0003851997190000155
时,扩展图向2维直角坐标系y轴正半轴优化(优化基准为原图最大y值对应的点(x1,ymax));
Figure GDA0003851997190000156
区间为
Figure GDA0003851997190000157
时,扩展图向2维直角坐标系x轴负半轴优化(优化基准为原图最小x值对应的点(xmin,y1));
Figure GDA0003851997190000158
区间为
Figure GDA0003851997190000159
时,扩展图向2维直角坐标系y轴负半轴优化(优化基准为原图最小y值对应的点(x1,ymin));
S622:扩展点
Figure GDA00038519971900001510
的距离和角度优化。
根据上述基准,使用两点距离中心点的长度计算优化比例(区分max/min):
当基准为y轴时
Figure GDA00038519971900001511
当基准为x轴时:
Figure GDA00038519971900001512
之后使用ε对扩展放缩后的角度与距离进行优化:
ln=ε*l′n
Figure GDA00038519971900001513
因此,优化后的节点坐标即可由ln,γn求得。采用中心节点扩展布局优化方法进行布局优化前后关联图的对比图如图6所示。
S7:将上述经过自动图扩展技术优化后的节点布局添加至待扩展关联图,完成最终的节点布局。
本说明书中的上述各个实施方式均采用递进的方式描述,各个实施方式之间相同相似部分相互参照即可,每个实施方式重点说明的都是与其他实施方式不同之处。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于实体热度剪枝与自动图扩展的知识图谱关联图布局方法,其特征在于,包括以下步骤:
查询知识图谱中的实体关联图数据,关联图中的节点代表知识图谱中的相关实体,关联图中的边代表实体之间的关联关系;
采用实体热度评分方法计算实体热度,并根据所述实体热度对所述关联图进行裁剪;
将剪裁后的关联图输入力导向布局算法,确定裁剪后的关联图中每个节点的初始横坐标和纵坐标,根据所述实体热度评分确定所述每个节点在关联图上的显示半径,完成知识图谱关联图的初步布局;
当需要对所述关联图中的某节点进行关联关系扩展时,获得待扩展节点的一跳扩展节点集与关联关系,以所述待扩展节点为坐标原点,使用所述力导向布局算法计算所述一跳扩展节点集中节点的初始坐标;
采用自动图扩展技术进行节点布局,具体包括:
根据所述关联图上的节点及坐标确定待扩展节点的扩展方位角,其中,所述扩展方位角表征,以所述关联图上所述待扩展节点为极坐标系极点的情况下,扩展前所述关联图上除所述待扩展节点外,按弧度大小排序后的,形成最大弧度差的相邻两个节点分别对应的两个弧度,其中,所述弧度为所述扩展前所述关联图上除所述待扩展节点外任意节点在所述极坐标系下的弧度;
将扩展节点集中节点的初始坐标转换为在待扩展关联图上的横、纵坐标;
当所述待扩展节点位于关联图中心位置附近时,使用中心节点扩展布局优化方法进行布局优化,其中,所述中心节点扩展布局优化方法表征,在所述待扩展节点为中心点的情况下,对与所述待扩展节点相关的节点的距离和角度进行优化,以使得与所述待扩展节点相关的每个节点获得有效展示的扩展空间的方法;以及
将经过自动图扩展技术优化后的节点布局添加至待扩展关联图,完成最终的节点布局。
2.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述查询知识图谱中的实体关联图数据具体包括:
借助命名实体识别技术和实体关系抽取技术,向知识图谱系统的图数据库中添加节点和关联关系;
根据查询条件,在知识图谱的图数据库中查询实体的关联图数据,即与某节点相关联的节点以及各个节点之间的关联关系。
3.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述采用实体热度评分方法计算实体热度,并根据所述实体热度对所述关联图进行裁剪具体包括:
根据实体在图谱系统各类文本中出现的频率以及用户对实体的访问痕迹频率,计算实体热度;
根据实体热度,对所述查询知识图谱中的实体关联图数据步骤中得到的关联图的节点进行剪裁;
对所述查询知识图谱中的实体关联图数据步骤中得到的关联图的关联关系进行剪裁。
4.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述将剪裁后的关联图输入力导向布局算法,确定裁剪后的关联图中每个节点的初始横坐标和纵坐标,根据所述实体热度评分确定所述每个节点在关联图上的显示半径,完成知识图谱关联图的初步布局具体包括:
对节点随机定位;
分别算出每个节点的引力和排斥力;
根据节点热度确定节点半径r的计算方式为:
Figure FDA0003851997180000021
其中,h表示实体热度,hmin表示实体热度的最小值,hmax表示实体热度的最大值,rmin表示节点半径的最小值,rmax表示节点半径的最大值。
5.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述当需要对所述关联图中的某节点进行关联关系扩展时,获得待扩展节点的一跳扩展节点集与关联关系,以所述待扩展节点为坐标原点,使用所述力导向布局算法计算所述一跳扩展节点集中节点的初始坐标具体包括:
根据查询条件,在知识图谱的图数据库中查询待扩展节点的一跳关联节点、关联关系;
当查询到的待扩展节点的一跳关联节点的数量大于展示的节点数量时,即达到剪枝条件;根据关联图剪裁方法对查询到的关联节点、关联关系进行剪裁,得到剪裁后待扩展关联图,即待扩展节点的一跳扩展节点集、关联关系;
剪枝后以待扩展节点为坐标原点,使用所述力导向布局算法计算一跳扩展节点集中节点的初始坐标。
6.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述根据所述关联图上的节点及坐标确定待扩展节点的扩展方位角具体包括:
将待扩展节点作为坐标原点,计算扩展前关联图上除待扩展节点外,其它任意节点在第一坐标系下的横、纵坐标;
以待扩展节点作为极坐标系极点,计算扩展前关联图上除待扩展节点外,其它任意节点在第二坐标系下的弧度;
将扩展前关联图上除待扩展节点外的其它所有节点在该第二坐标系下的弧度排序,并对排序后的相邻的两个弧度做差;
获取计算得到的最大弧度差,并根据该弧度差获得形成该弧度差的两个弧度α、β(α<β),则(α,β)即所求的扩展方位角。
7.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,所述将扩展节点集中节点的初始坐标转换为在待扩展关联图上的横、纵坐标具体包括:
分别计算扩展节点集中任意节点在初始坐标下与待扩展节点的夹角γn与距离ln
将扩展节点集中任意节点的夹角γn进行放缩,使其值域范围缩减至(α,β),得到各节点新夹角γ′n
根据各节点新夹角γ′n与距离ln,将扩展节点集中任意节点的初始坐标转换为在待扩展关联图上的横、纵坐标
Figure FDA0003851997180000031
8.根据权利要求7所述的知识图谱关联图布局方法,其特征在于,所述采用自动图扩展技术进行节点布局的步骤还包括:对ln优化,得到l′n;所述对ln优化的步骤具体包括:
已知待扩展关联图G中具有m个节点
NODES={node1,node2...nodem},对待扩展节点请求一跳关联并根据热度剪枝后可得到一跳待扩展关联图Gexpand,节点
Figure FDA0003851997180000041
Figure FDA0003851997180000042
其中
Figure FDA0003851997180000043
则完全包含待扩展关联图G中各节点的矩形Rec由NODES中节点最大、最小横坐标与纵坐标定义,其面积为:
Srec=(xmax-xmin)*(Ymax-Ymin)
完全包含一跳待扩展关联图Gexpand中各节点的矩形Recexpand由NODESexpand中节点最大、最小横坐标与纵坐标定义,其面积为:
Figure FDA0003851997180000044
在进行计算NODESexpand中各点与待扩展节点的夹角γn与距离ln时,将ln进行扩展,公式表示为:
Figure FDA0003851997180000045
9.根据权利要求1所述的知识图谱关联图布局方法,其特征在于,当所述待扩展节点位于关联图中心位置附近时,使用中心节点扩展布局优化方法进行布局优化的步骤具体包括:
判断待扩展点nodeq=(xq,yq)是否为中心点;
当待扩展点nodeq=(xq,yq)为中心点时,对扩展节点
Figure FDA0003851997180000046
Figure FDA0003851997180000047
中节点横纵坐标在所述采用自动图扩展技术进行节点布局的坐标转换方法的基础上进行扩展优化。
10.根据权利要求9所述的知识图谱关联图布局方法,其特征在于,所述当待扩展点nodeq=(xq,yq)为中心点时,对扩展节点
Figure FDA0003851997180000048
Figure FDA0003851997180000049
中节点横纵坐标在所述采用自动图扩展技术进行节点布局的坐标转换方法的基础上进行扩展优化的步骤具体包括:
确定优化基准;
优化扩展点
Figure FDA0003851997180000051
的距离和角度。
CN202110666141.7A 2021-06-16 2021-06-16 基于剪枝技术与自动图扩展的知识图谱关联图布局方法 Active CN113342992B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666141.7A CN113342992B (zh) 2021-06-16 2021-06-16 基于剪枝技术与自动图扩展的知识图谱关联图布局方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666141.7A CN113342992B (zh) 2021-06-16 2021-06-16 基于剪枝技术与自动图扩展的知识图谱关联图布局方法

Publications (2)

Publication Number Publication Date
CN113342992A CN113342992A (zh) 2021-09-03
CN113342992B true CN113342992B (zh) 2022-11-08

Family

ID=77475499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666141.7A Active CN113342992B (zh) 2021-06-16 2021-06-16 基于剪枝技术与自动图扩展的知识图谱关联图布局方法

Country Status (1)

Country Link
CN (1) CN113342992B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114117081A (zh) * 2022-01-28 2022-03-01 北京明略软件系统有限公司 知识图谱的展示方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363797A (zh) * 2018-01-04 2018-08-03 北京工商大学 一种基于变换的关联图可视分析方法及其系统
CN109981311A (zh) * 2017-12-27 2019-07-05 阿里巴巴集团控股有限公司 图布局的实现方法及装置
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN112035667A (zh) * 2020-09-02 2020-12-04 河南中原消费金融股份有限公司 一种知识图谱展示方法、装置及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1510941A1 (en) * 2003-08-29 2005-03-02 Sap Ag A method of providing a visualisation graph on a computer and a computer for providing a visualisation graph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN109981311A (zh) * 2017-12-27 2019-07-05 阿里巴巴集团控股有限公司 图布局的实现方法及装置
CN108363797A (zh) * 2018-01-04 2018-08-03 北京工商大学 一种基于变换的关联图可视分析方法及其系统
CN112035667A (zh) * 2020-09-02 2020-12-04 河南中原消费金融股份有限公司 一种知识图谱展示方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TransGraph:一种基于变换的可视分析关联图;杜晓敏等;《计算机辅助设计与图形学学报》;20180115(第01期);第79-89页 *

Also Published As

Publication number Publication date
CN113342992A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
Arguello et al. Sources of evidence for vertical selection
Zhang et al. Deep representation learning of activity trajectory similarity computation
CN108021658B (zh) 一种基于鲸鱼优化算法的大数据智能搜索方法及系统
CN107256230B (zh) 一种基于多元化地理信息点的融合方法
Huang et al. Continuous distance-based skyline queries in road networks
CN109710621B (zh) 结合语义类节点与边权重的关键词搜索ksanew方法
AU2005201765A1 (en) Method and system for calculating importance of a block within a display page
CN107943919B (zh) 一种面向会话式实体搜索的查询扩展方法
CN113342992B (zh) 基于剪枝技术与自动图扩展的知识图谱关联图布局方法
CN104199875A (zh) 一种搜索推荐方法及装置
CN110362652B (zh) 基于空间-语义-数值相关度的空间关键字Top-K查询方法
Iswandhani et al. K-means cluster analysis of tourist destination in special region of Yogyakarta using spatial approach and social network analysis (a case study: post of@ explorejogja instagram account in 2016)
US20130138662A1 (en) Method for assigning user-centric ranks to database entries within the context of social networking
CN101923556A (zh) 根据句子序列号进行网页搜索的方法和装置
CN108197238A (zh) 一种复杂多源异构数据同化方法
JP6495206B2 (ja) 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
John et al. Dynamic sorting and average skyline method for query processing in spatial-temporal data
CN113420141B (zh) 基于哈希聚类和上下文信息的敏感数据搜索方法
US20220284309A1 (en) Aligning knowledge graphs using subgraph typing
CN104850541B (zh) 一种基于位置语义网的语义位置转换方法
Wang et al. The contextual group recommendation
CN114780875B (zh) 一种动态组旅行规划查询方法
CN115640466B (zh) 一种基于地理区域的数据查询系统
CN116401356B (zh) 基于历史信息追踪的知识图谱多轮问答方法及系统
CN112861028B (zh) 一种在地图上查询商户的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant