CN112905805B - 知识图谱构建方法及装置、计算机设备和存储介质 - Google Patents
知识图谱构建方法及装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112905805B CN112905805B CN202110254728.7A CN202110254728A CN112905805B CN 112905805 B CN112905805 B CN 112905805B CN 202110254728 A CN202110254728 A CN 202110254728A CN 112905805 B CN112905805 B CN 112905805B
- Authority
- CN
- China
- Prior art keywords
- profile data
- entities
- entity
- graph
- current time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种知识图谱构建方法及装置、计算机设备和存储介质。知识图谱的构建方法包括:获取构建知识图谱的请求,请求指定用于构建知识图谱的图谱数据的时间范围;从拉链表中抽取与时间范围对应的图谱数据记录,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及基于所抽取的图谱数据记录,构建知识图谱。
Description
技术领域
本公开涉及大数据技术领域,特别是涉及一种知识图谱构建方法及装置、计算机设备和存储介质。
背景技术
知识图谱(Knowledge Graph)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。随着信息技术的发展,知识图谱技术已经逐步渗透到各个领域之中。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
针对知识图谱的构建效率低下,耗费计算资源过大的问题,本公开提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制。
根据本公开的一方面,提供了一种知识图谱的构建方法,包括:获取构建知识图谱的请求,请求指定用于构建知识图谱的图谱数据的时间范围;从拉链表中抽取与时间范围对应的图谱数据记录,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及基于所抽取的图谱数据记录,构建知识图谱。
根据本公开的另一方面,提供了一种知识图谱的构建装置,包括:第一获取模块,被配置用于获取构建知识图谱的请求,请求指定用于构建知识图谱的图谱数据的时间范围;抽取模块,被配置用于从拉链表中抽取与时间范围对应的图谱数据记录,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及构建模块,被配置用于基于所抽取的图谱数据记录,构建知识图谱。
根据本公开的另一方面,提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上的计算机程序,处理器被配置为执行计算机程序以实现上述方法的步骤。
根据本公开的另一方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
根据在下文中所描述的实施例,本公开的这些和其它方面将是清楚明白的,并且将参考在下文中所描述的实施例而被阐明。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统的示意图;
图2是图示出根据示例性实施例的知识图谱的构建方法的流程图;
图3是图示出根据另一示例性实施例的知识图谱的构建方法的流程图;
图4是图示出根据示例性实施例的知识图谱的构建装置的示意性框图;
图5是图示出能够应用于示例性实施例的示例性计算机设备的框图。
具体实施方式
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一实例,而在某些情况下,基于上下文的描述,它们也可以指代不同实例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。如本文使用的,术语“多个”意指两个或更多,并且术语“基于”应解释为“至少部分地基于”。此外,术语“和/或”以及“……中的至少一个”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
知识图谱是在传统知识工程的基础上以及语义Web的发展中孕育并发展而来的知识表示技术,其旨在利用可视化的图谱形象地描述客观世界中存在的多个实体之间的关系。本质上,知识图谱是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。知识图谱也可以被看作是一张巨大的图,图中的节点表示实体,而图中的边则表示所连接的两个节点之间的关系。
在相关技术中往往基于流式或者小微批量数据生成和更新知识图谱,这种方式虽然能够快速地构建出所需的知识图谱,但是却不可避免地制约了知识图谱所包含的信息量,无法满足用户对知识图谱的内容丰富性的要求。为了解决上述问题,需要从TB甚至PB级别的更大批量的数据中抽取构建知识图谱所需的数据,然而,由于数据量巨大且缺乏逻辑性,在构建知识图谱时,常常需要花费大量的计算资源和时间在庞杂的数据中搜索和抽取用于构建目标知识图谱的数据,导致硬件设备面临吞吐量不足和计算资源紧张的问题,影响知识图谱的构建效率,降低了用户体验。
基于此,本公开提出一种知识图谱构建方法及装置、计算机设备和存储介质。在知识图谱构建方法中,将构建知识图谱所需的数据记录在拉链表中,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围。基于构建知识图谱的请求中所指定的图谱数据的时间范围,可以从拉链表中抽取与所指定的时间范围对应的图谱数据记录,进而能够基于所抽取的图谱数据记录构建知识图谱。由此,可以直接通过拉链表中相应的图谱数据记录获取用于构建知识图谱的信息,避免在大批量的图谱数据中搜索和抽取数据,显著地减小了需要处理的数据量,降低了对硬件设备的配置要求,提升了知识图谱的构建效率,提升了用户体验。
下面结合附图详细描述本公开的示例性实施例。
图1是图示出根据示例性实施例的可以在其中实施本文描述的各种方法的示例系统100的示意图。
参考图1,该系统100包括客户端设备110、服务器120、以及将客户端设备110与服务器120通信地耦合的网络130。
客户端设备110包括显示器114和可经由显示器114显示的客户端应用(APP)112。客户端应用112可以为运行前需要下载和安装的应用程序或者作为轻量化应用程序的小程序(liteapp)。在客户端应用112为运行前需要下载和安装的应用程序的情况下,客户端应用112可以被预先安装在客户端设备110上并被激活。在客户端应用112为小程序的情况下,用户102可以通过在宿主应用中搜索客户端应用112(例如,通过客户端应用112的名称等)或扫描客户端应用112的图形码(例如,条形码、二维码等)等方式,在客户端设备110上直接运行客户端应用112,而无需安装客户端应用112。在一些实施例中,客户端设备110可以是任何类型的移动计算机设备,包括移动计算机、移动电话、可穿戴式计算机设备(例如智能手表、头戴式设备,包括智能眼镜,等)或其他类型的移动设备。在一些实施例中,客户端设备110可以替换地是固定式计算机设备,例如台式机、服务器计算机或其他类型的固定式计算机设备。
服务器120典型地为由互联网服务提供商(ISP)或互联网内容提供商(ICP)部署的服务器。服务器120可以代表单台服务器、多台服务器的集群、分布式系统、或者提供基础云服务(诸如云数据库、云计算、云存储、云通信)的云服务器。将理解的是,虽然图1中示出服务器120与仅一个客户端设备110通信,但是服务器120可以同时为多个客户端设备提供后台服务。
网络130的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)、和/或诸如互联网之类的通信网络的组合。网络130可以是有线或无线网络。在一些实施例中,使用包括超文本标记语言(HTML)、可扩展标记语言(XML)等的技术和/或格式来处理通过网络130交换的数据。此外,还可以使用诸如安全套接字层(SSL)、传输层安全(TLS)、虚拟专用网络(VPN)、网际协议安全(IPsec)等加密技术来加密所有或者一些链路。在一些实施例中,还可以使用定制和/或专用数据通信技术来取代或者补充上述数据通信技术。
为了本公开实施例的目的,在图1的示例中,客户端应用112可以为用于构建知识图谱的程序,该程序可以展示知识图谱。与此相应,服务器120可以是与该程序一起使用的服务器。该服务器120可以基于图谱数据构建知识图谱,并向客户端设备110中运行的客户端应用112提供已构建好的知识图谱。替换地,服务器120也可以将图谱数据提供给客户端设备110,由客户端设备110中运行的客户端应用112根据该图谱数据本地构建知识图谱。
图2是图示出根据示例性实施例的知识图谱的构建方法200的流程图。方法200可以在客户端设备(例如,图1中所示的客户端设备110)处执行,也即,方法200的各个步骤的执行主体可以是图1中所示的客户端设备110。在一些实施例中,方法200可以在服务器(例如,图1中所示的服务器120)处执行。在一些实施例中,方法200可以由客户端设备(例如,客户端设备110)和服务器(例如,服务器120)相组合地执行。在下文中,以执行主体为客户端设备110为例,详细描述方法200的各个步骤。
在步骤210,获取构建知识图谱的请求,请求指定用于构建知识图谱的图谱数据的时间范围。
根据一些实施例,构建知识图谱的请求中可以包括时间标识,该时间标识可以用于指定用于构建所述知识图谱的图谱数据的时间范围。特别地,时间标识可以对应于当前时间点或任意一个历史时间点,包含该时间标识所对应的当前时间点或任意一个历史时间点的时间范围为请求所指定时间范围。
根据一些实施例,构建知识图谱的请求中还可以包括所要构建的知识图谱的类别标识。该类别标识可以用于指定用于构建所述知识图谱的图谱数据的类型。
在步骤220,从拉链表中抽取与时间范围对应的图谱数据记录,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围。
根据一些实施例,图谱数据记录包括关于实体的图谱数据记录以及关于实体和实体之间的关系的图谱数据记录。
根据一些实施例,关于实体的图谱数据记录可以包括实体编码,以及该实体的一个或多个属性编码。关于实体和实体之间的关系的图谱数据记录可以包括关系编码、该关系的一个或多个属性编码、以及该关系所关联的两个实体的实体编码。
根据一些实施例,每条图谱数据记录对应一个相应的时间范围,该时间范围表示该图谱数据记录的有效历史时间段。例如,一个实体的图谱数据记录对应的时间范围的开始时间为1月1日,结束时间为1月31日,即表示该实体的图谱数据记录在1月1日到1月31日的时间范围内有效。根据一些实施例,在当前时刻下有效的图谱数据记录对应的时间范围的结束时间可以用一个极大值表示。
可以理解,时间范围可以以年、月、日、时、分或秒等精确度表示,在此不作限定。
步骤230,基于所抽取的图谱数据记录,构建知识图谱。
在从拉链表中抽取指定时间范围的图谱数据记录后,可以根据抽取的图谱数据记录构建知识图谱。
根据本公开的实施例,在构建基于大数据的知识图谱时,可以直接通过拉链表中相应的图谱数据记录构建知识图谱,避免了在大批量的图谱数据中搜索和抽取构建知识图谱所需的数据,显著地减小了构建知识图谱所需处理的数据量,节省硬件设备的计算资源和存储资源,降低了构建知识图谱对硬件设备的配置要求,提升了知识图谱的构建效率。
图3是图示出根据示例性实施例的基于实时更新的拉链表构建知识图谱的方法300的流程图。
参考图3,除步骤310~步骤330之外,该方法300还可以包括:步骤340,获取当前时刻下的图谱数据;步骤350,将当前时刻下的图谱数据与拉链表中的一条或多条有效图谱数据记录进行比对,以确定实体和/或实体之间关系的变动,每条有效图谱数据记录对应的时间范围包含当前时刻;以及步骤360,基于实体和/或实体之间关系的变动,更新拉链表。其中,步骤310~步骤330与前述步骤210~步骤230分别对应,在此不再赘述。
可以理解,步骤310~步骤330与步骤340~360可以彼此独立执行,即构建知识图谱的过程与更新拉链表的过程相互独立。在步骤340~360中,拉链表能够基于当前时刻下的图谱数据被更新,实时反映出在当前时刻下各个图谱数据的状态,即有效或失效,以及同一个图谱数据的历史变化情况。在步骤310~步骤330中,在获取构建知识图谱的请求后,无需进行图谱数据的比对,可以直接基于拉链表中的图谱数据记录及其所对应的时间范围,确定各个图谱数据的当前状态以及同一个图谱数据的历史变化情况,有效地减少了所需处理的数据量,提升了处理效率。
针对步骤340,根据一些实施例,可以通过对当前时刻下的一批大数据的解析,获取当前时刻下的图谱数据。其中,该图谱数据中可以包括一个或多个关于实体的图谱数据,以及一个或多个关于实体和实体之间的关系的图谱数据。
根据一些实施例,关于实体的图谱数据可以包括实体编码以及该实体的一个或多个属性编码。关于实体和实体之间的关系的图谱数据可以包括关系编码、该关系的一个或多个属性编码、以及该关系所关联的两个实体的实体编码。
如图3所示,通过从已经建立的拉链表中提取一条或多条有效图谱数据记录,可以执行步骤350,将当前时刻下的图谱数据与一条或多条有效图谱数据记录进行比对,以确定实体和/或实体之间关系的变动,并进而执行步骤360以更新拉链表。
根据一些实施例,该方法300还可以包括:在从拉链表中抽取与时间范围相对应的图谱数据记录之前:获取初始图谱数据;以及基于初始图谱数据,初始化拉链表,初始化的拉链表包括与初始图谱数据对应的图谱数据记录。
根据一些实施例,初始化的拉链表中初始图谱数据记录所对应的时间范围可以以一个开始时间和一个结束时间表示。其中,开始时间可以为建立拉链表的时间,结束时间可以用一个大于当前时间的值表示,特别地,可以用一个极大值表示。
例如,在t1时刻下的初始图谱数据包括实体A和关系B,可以基于该初始图谱数据,建立如表1所示的初始化的拉链表,该拉链表中关于实体A的图谱数据记录所对应的时间范围用开始时间t1和结束时间T表示,该拉链表中关于关系B的图谱数据记录所对应的时间范围同样用开始时间t1和结束时间T表示。T表示一个极大值。
表1
实体和/或实体之间的关系 | 时间范围 |
A | t1-T |
B | t1-T |
根据一些实施例,更新拉链表可以包括:响应于确定当前时刻下的图谱数据包括一条或多条有效图谱数据记录中不存在的实体和/或实体之间的关系,在拉链表中新增关于该实体和/或实体之间的关系的图谱数据记录。由此,能够在拉链表中体现在当前时刻下新增的实体和/或实体之间的关系。
根据一些实施例,在拉链表中新增关于该实体和/或实体之间的关系的图谱数据记录可以包括:将关于该实体和/或实体之间的关系的图谱数据记录在拉链表中,并将该图谱数据记录所对应的时间范围的开始时间设置为当前时刻,结束时间用大于当前时间的值表示。
例如,在t2时刻(即当前时刻)下的图谱数据包括实体A、关系B和实体C,将当前时刻下的图谱数据(实体A、关系B和实体C)和拉链表中一条或多条有效图谱数据记录(实体A、关系B)比对,可以确定当前时刻下的图谱数据包括一条或多条有效图谱数据记录中不存在的实体C。基于此,在拉链表中新增关于实体C的图谱数据记录。在该示例中,将关于实体C的图谱数据记录所对应的时间范围的开始时间设置为t2(即当前时刻),结束时间用极大值T表示。在t2时刻更新的拉链表如表2所示。
表2
实体和/或实体之间的关系 | 时间范围 |
A | t1-T |
B | t1-T |
C | t2-T |
根据一些实施例,更新拉链表还可以包括:响应于确定一条或多条有效图谱数据记录包括当前时刻下的图谱数据中不存在的实体和/或实体之间的关系,在拉链表中修改关于该实体和/或实体之间的关系的图谱数据记录所对应的时间范围。由此,能够在拉链表中体现在当前时刻下失效的实体和/或实体之间的关系。
根据一些实施例,在拉链表中修改关于该实体和/或实体之间的关系的图谱数据记录所对应的时间范围可以包括:将关于该实体和/或实体之间的关系的图谱数据记录所对应的时间范围的结束时间设置为当前时刻。例如,在t3时刻(即当前时刻)下的图谱数据包括实体A和实体C,将当前时刻下的图谱数据(实体A和实体C)和拉链表中一条或多条有效图谱数据记录(实体A、关系B和实体C)比对,可以确定一条或多条有效图谱数据记录包括当前时刻下的图谱数据中不存在的关系B。基于此,在拉链表中将关于关系B的图谱数据记录所对应的时间范围的结束时间设置为t3(即当前时刻),用以表示实体C在t3时刻失效。在t3时刻更新的拉链表如表3所示。
表3
实体和/或实体之间的关系 | 时间范围 |
A | t1-T |
B | t1-t3 |
C | t2-T |
根据一些实施例,更新拉链表还可以包括:响应于确定当前时刻下的图谱数据和一条或多条有效图谱数据记录中都存在的实体和/或实体之间的关系发生变更,在拉链表中修改关于变更前的该实体和/或实体之间的关系的图谱数据记录所对应的时间范围,并新增关于变更后的该实体和/或实体之间的关系的图谱数据记录。
根据一些实施例,在拉链表中修改关于变更前的该实体和/或实体之间的关系的图谱数据记录所对应的时间范围,并新增关于变更后的该实体和/或实体之间的关系的图谱数据记录可以包括:将关于变更前的该实体和/或实体之间的关系的图谱数据记录所对应的时间范围的结束时间设置为当前时刻,并新增关于变更后的该实体和/或实体之间的关系的图谱数据记录,该图谱数据记录所对应的时间范围的开始时间为当前时刻,结束时间用大于当前时间的值表示。
例如,在t4时刻(即当前时刻)下的图谱数据包括实体a和实体C,将当前时刻下的图谱数据(实体a和实体C)和拉链表中一条或多条有效图谱数据记录(实体A和实体C)比对,可以确定实体A变更为了实体a。基于此,在拉链表中将关于实体A的图谱数据记录所对应的时间范围的结束时间设置为t4(即当前时刻),用以表示变更前的实体A在t4时刻失效。同时,新增关于变更后的实体a的图谱数据记录,该图谱数据记录所对应的时间范围的开始时间为t4(即当前时刻),结束时间用极大值T表示。在t4时刻更新的拉链表如表4所示。
表4
实体和/或实体之间的关系 | 时间范围 |
A | t1-t4 |
a | t4-T |
B | t1-t3 |
C | t2-T |
根据一些实施例,每个实体具有多个属性,并且将当前时刻下的图谱数据与拉链表中的一条或多条有效图谱数据记录进行比对可以包括:对于当前时刻下的图谱数据和一条或多条有效图谱数据记录中都存在的实体:计算当前时刻下的图谱数据中该实体的多个属性与一条或多条有效图谱数据记录中该实体的多个属性中的对应属性之间的相应属性差异值;计算相应属性差异值的加权和;以及响应于确定加权和大于预设阈值,确定该实体发生变更。由此能够方便地判断实体是否发生了变更。
其中,图谱数据中的每一个实体可以具有多个不同的属性。例如,对于一个商品实体,其所具有的多个不同的属性可以包括商品的品牌、商品的价格等。
根据一些实施例,可以根据实际业务需求确定用于判断实体变更的预设阈值。
可以理解,基于相应属性差异值的加权和与预设阈值的比较,判断实体是否发生变更,能够在一定程度上提升系统的容错率,并减少数据的处理量。例如,在对商品的变更不敏感的业务中,可以设置一个相对较大的预设阈值。由此,当商品的价格属性等属性在预设阈值范围以内的区间波动时,系统可以将其自动忽略,进而避免过多的数据量。
根据一些实施例,可以从当前时刻下的图谱数据中该实体的多个属性与一条或多条有效图谱数据记录中该实体的多个属性中的对应属性中,选择一个或多个关键属性,通过计算所选择的关键属性相应属性差异值确定该实体是否发生了变更。由此,能够基于不同的业务要求进行针对性的处理,减少了数据处理量。
根据一些实施例,实体之间的每个关系可以具有多个属性,并且将当前时刻下的图谱数据与拉链表中的一条或多条有效图谱数据记录进行比对可以包括:对于当前时刻下的图谱数据和一条或多条有效图谱数据记录中都存在的关系:计算当前时刻下的图谱数据中该关系的多个属性与一条或多条有效图谱数据记录中该关系的多个属性中的对应属性之间的相应属性差异值;计算相应属性差异值的加权和;以及响应于确定加权和大于预设阈值,确定该关系发生变更。
其中,图谱数据中的每一个关系可以具有多个不同的属性。例如,对于两个公司实体之间的控股关系,其所具有的多个不同的属性可以包括控股类型、控股开始的时间等。
根据一些实施例,可以根据实际业务需求确定用于判断关系变更的预设阈值。
根据一些实施例,可以从当前时刻下的图谱数据中该关系的多个属性与一条或多条有效图谱数据记录中该关系的多个属性中的对应属性中,选择一个或多个关键属性,通过计算所选择的关键属性相应属性差异值确定该关系是否发生了变更。由此,能够基于不同的业务要求进行针对性的处理,减少了数据处理量。
根据一些实施例,多个属性可以包括字符属性,并且字符属性的属性差异值可以通过Levenshtein距离算法来计算。由此能够方便地用数据表示字符属性的变化。
根据一些实施例,多个属性可以包括数值属性,并且数值属性的属性差异值可以通过一致比对算法来计算。由此能够方便地用数据表示数值属性的变化。
图4是图示出根据示例性实施例的知识图谱的构建装置400的示意性框图。如图4所示,该装置400包括第一获取模块410,被配置用于获取构建知识图谱的请求,请求指定用于构建知识图谱的图谱数据的时刻;抽取模块420,被配置用于从拉链表中抽取与时间范围对应的图谱数据记录,拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及构建模块430,被配置用于基于所抽取的图谱数据记录,构建知识图谱。
根据一些实施例,虽然未示出,该装置400还可以包括:第二获取模块,被配置用于获取当前时刻下的图谱数据;比对模块,被配置用于将当前时刻下的图谱数据与拉链表中的一条或多条有效图谱数据记录进行比对,以确定实体和/或实体之间关系的变动,其中,每条有效图谱数据记录对应的时间范围包含当前时刻;以及更新模块,被配置用于基于实体和/或实体之间关系的变动,更新拉链表。
应当理解,装置400的各个模块可以与参考图3描述的方法300中的各个步骤相对应。由此,上面针对方法300描述的操作、特征和优点同样适用于装置400及其包括的模块。为了简洁起见,某些操作、特征和优点在此不再赘述。
虽然上面参考特定模块讨论了特定功能,但是应当注意,本文讨论的各个模块的功能可以分为多个模块,和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作,或者替换地该特定模块调用或以其他方式访问执行该动作(或结合该特定模块一起执行该动作)的另一个组件或模块。因此,执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块,例如,上面描述的抽取模块420和构建模块430在一些实施例中可以组合成单个模块。
还应当理解,本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面描述的各个模块可以在硬件中或在结合软件和/或固件的硬件中实现。例如,这些模块可以被实现为计算机程序代码/指令,该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地,这些模块可以被实现为硬件逻辑/电路。例如,在一些实施例中,第一获取模块410、抽取模块420和构建模块430中的一个或多个可以一起被实现在片上系统(System on Chip,SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如,中央处理单元(Central Processing Unit,CPU)、微控制器、微处理器、数字信号处理器(Digital Signal Processor,DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件),并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。
根据本公开的另一方面,还提供一种计算机设备,包括:存储器、处理器以及存储在存储器上的计算机程序,处理器被配置为执行计算机程序以实现上述方法的步骤。
根据本公开的另一方面,还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
根据本公开的另一方面,还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述方法的步骤。
在下文中,结合图5描述这样的计算机设备、非暂态计算机可读存储介质和计算机程序产品的说明性示例。
图5示出了可以被用来实施本文所描述的方法的计算机设备500的示例配置。举例来说,图1中所示的服务器120和/或客户端设备110可以包括类似于计算机设备500的架构。上述知识图谱的构建装置400也可以全部或至少部分地由计算机设备500或类似设备或系统实现。
计算机设备500可以是各种不同类型的设备,例如服务提供商的服务器、与客户端(例如,客户端设备)相关联的设备、片上系统、和/或任何其它合适的计算机设备或计算系统。计算机设备500的示例包括但不限于:台式计算机、服务器计算机、笔记本电脑或上网本计算机、移动设备(例如,平板电脑、蜂窝或其他无线电话(例如,智能电话)、记事本计算机、移动台)、可穿戴设备(例如,眼镜、手表)、娱乐设备(例如,娱乐器具、通信地耦合到显示设备的机顶盒、游戏机)、电视或其他显示设备、汽车计算机等等。因此,计算机设备500的范围可以从具有大量存储器和处理器资源的全资源设备(例如,个人计算机、游戏控制台)到具有有限的存储器和/或处理资源的低资源设备(例如,传统的机顶盒、手持游戏控制台)。
计算机设备500可以包括能够诸如通过系统总线514或其他适当的连接彼此通信的至少一个处理器502、存储器504、(多个)通信接口506、显示设备508、其他输入/输出(I/O)设备510以及一个或更多大容量存储设备512。
处理器502可以是单个处理单元或多个处理单元,所有处理单元可以包括单个或多个计算单元或者多个核心。处理器502可以被实施成一个或更多微处理器、微型计算机、微控制器、数字信号处理器、中央处理单元、状态机、逻辑电路和/或基于操作指令来操纵信号的任何设备。除了其他能力之外,处理器502可以被配置成获取并且执行存储在存储器504、大容量存储设备512或者其他计算机可读介质中的计算机可读指令,诸如操作系统516的程序代码、应用程序518的程序代码、其他程序520的程序代码等。
存储器504和大容量存储设备512是用于存储指令的计算机可读存储介质的示例,所述指令由处理器502执行来实施前面所描述的各种功能。举例来说,存储器504一般可以包括易失性存储器和非易失性存储器二者(例如RAM、ROM等等)。此外,大容量存储设备512一般可以包括硬盘驱动器、固态驱动器、可移除介质、包括外部和可移除驱动器、存储器卡、闪存、软盘、光盘(例如CD、DVD)、存储阵列、网络附属存储、存储区域网等等。存储器504和大容量存储设备512在本文中都可以被统称为存储器或计算机可读存储介质,并且可以是能够把计算机可读、处理器可执行程序指令存储为计算机程序代码的非暂态介质,所述计算机程序代码可以由处理器502作为被配置成实施在本文的示例中所描述的操作和功能的特定机器来执行。
多个程序模块可以存储在大容量存储设备512上。这些程序包括操作系统516、一个或多个应用程序518、其他程序520和程序数据522,并且它们可以被加载到存储器504以供执行。这样的应用程序或程序模块的示例可以包括例如用于实现方法200(包括方法200任何合适的步骤)和/或本文描述的另外的实施例的部件/功能的计算机程序逻辑(例如,计算机程序代码或指令)。
虽然在图5中被图示成存储在计算机设备500的存储器504中,但是模块516、518、520和522或者其部分可以使用可由计算机设备500访问的任何形式的计算机可读介质来实施。如本文所使用的,“计算机可读介质”至少包括两种类型的计算机可读介质,也就是计算机存储介质和通信介质。
计算机存储介质包括通过用于存储信息的任何方法或技术实施的易失性和非易失性、可移除和不可移除介质,所述信息诸如是计算机可读指令、数据结构、程序模块或者其他数据。计算机存储介质包括而不限于RAM、ROM、EEPROM、闪存或其他存储器技术,CD-ROM、数字通用盘(DVD)、或其他光学存储装置,磁盒、磁带、磁盘存储装置或其他磁性存储设备,或者可以被用来存储信息以供计算机设备访问的任何其他非传送介质。
与此相对,通信介质可以在诸如载波或其他传送机制之类的已调数据信号中具体实现计算机可读指令、数据结构、程序模块或其他数据。本文所定义的计算机存储介质不包括通信介质。
计算机设备500还可以包括一个或更多通信接口506,以用于诸如通过网络、直接连接等等与其他设备交换数据,正如前面所讨论的那样。这样的通信接口可以是以下各项中的一个或多个:任何类型的网络接口(例如,网络接口卡(NIC))、有线或无线(诸如IEEE802.11无线LAN(WLAN))无线接口、全球微波接入互操作(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、BluetoothTM接口、近场通信(NFC)接口等。通信接口506可以促进在多种网络和协议类型内的通信,其中包括有线网络(例如LAN、电缆等等)和无线网络(例如WLAN、蜂窝、卫星等等)、因特网等等。通信接口506还可以提供与诸如存储阵列、网络附属存储、存储区域网等等中的外部存储装置(未示出)的通信。
在一些示例中,可以包括诸如监视器之类的显示设备508,以用于向用户显示信息和图像。其他I/O设备510可以是接收来自用户的各种输入并且向用户提供各种输出的设备,并且可以包括触摸输入设备、手势输入设备、摄影机、键盘、遥控器、鼠标、打印机、音频输入/输出设备等等。
虽然在附图和前面的描述中已经详细地说明和描述了本公开,但是这样的说明和描述应当被认为是说明性的和示意性的,而非限制性的;本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书,本领域技术人员在实践所要求保护的主题时,能够理解和实现对于所公开的实施例的变型。在权利要求书中,词语“包括”不排除未列出的其他元件或步骤,并且词语“一”或“一个”不排除多个。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。
Claims (14)
1.一种知识图谱的构建方法,包括:
获取构建所述知识图谱的请求,其中,所述请求指定用于构建所述知识图谱的图谱数据的时间范围;
从拉链表中抽取与所述时间范围对应的图谱数据记录,其中,所述拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及
基于所抽取的图谱数据记录,构建所述知识图谱。
2.根据权利要求1所述的方法,还包括:
获取当前时刻下的图谱数据;
将所述当前时刻下的图谱数据与所述拉链表中的一条或多条有效图谱数据记录进行比对,以确定实体和/或实体之间关系的变动,其中,每条有效图谱数据记录对应的时间范围包含所述当前时刻;以及
基于实体和/或实体之间关系的变动,更新所述拉链表。
3.根据权利要求2所述的方法,其中,所述更新所述拉链表包括:
响应于确定所述当前时刻下的图谱数据包括所述一条或多条有效图谱数据记录中不存在的实体和/或实体之间的关系,在所述拉链表中新增关于该实体和/或实体之间的关系的图谱数据记录。
4.根据权利要求2所述的方法,其中,所述更新所述拉链表包括:
响应于确定所述一条或多条有效图谱数据记录包括所述当前时刻下的图谱数据中不存在的实体和/或实体之间的关系,在所述拉链表中修改关于该实体和/或实体之间的关系的图谱数据记录所对应的时间范围。
5.根据权利要求2所述的方法,其中,所述更新所述拉链表包括:
响应于确定所述当前时刻下的图谱数据和所述一条或多条有效图谱数据记录中都存在的实体和/或实体之间的关系发生变更,在所述拉链表中修改关于变更前的该实体和/或实体之间的关系的图谱数据记录所对应的时间范围,并新增关于变更后的该实体和/或实体之间的关系的图谱数据记录。
6.根据权利要求5所述的方法,
其中,每个实体具有多个属性,并且
其中,所述将所述当前时刻下的图谱数据与所述拉链表中的一条或多条有效图谱数据记录进行比对包括:
对于所述当前时刻下的图谱数据和所述一条或多条有效图谱数据记录中都存在的实体:
计算所述当前时刻下的图谱数据中该实体的所述多个属性与所述一条或多条有效图谱数据记录中该实体的所述多个属性中的对应属性之间的相应属性差异值;
计算所述相应属性差异值的加权和;以及
响应于确定所述加权和大于预设阈值,确定该实体发生变更。
7.根据权利要求5所述的方法,
其中,实体之间的每个关系具有多个属性,并且
其中,所述将所述当前时刻下的图谱数据与所述拉链表中的一条或多条有效图谱数据记录进行比对包括:
对于所述当前时刻下的图谱数据和所述一条或多条有效图谱数据记录中都存在的关系:
计算所述当前时刻下的图谱数据中该关系的所述多个属性与所述一条或多条有效图谱数据记录中该关系的所述多个属性中的对应属性之间的相应属性差异值;
计算所述相应属性差异值的加权和;以及
响应于确定所述加权和大于预设阈值,确定该关系发生变更。
8.根据权利要求6或7所述方法,
其中,所述多个属性包括字符属性,并且
其中,所述字符属性的属性差异值通过Levenshtein距离算法来计算。
9.根据权利要求6或7所述方法,
其中,所述多个属性包括数值属性,并且
其中,所述数值属性的属性差异值通过一致比对算法来计算。
10.根据权利要求1-7中任一项所述的方法,还包括,在从拉链表中抽取与所述时间范围相对应的图谱数据记录之前:
获取初始图谱数据;以及
基于所述初始图谱数据,初始化所述拉链表,其中,初始化的拉链表包括与所述初始图谱数据对应的图谱数据记录。
11.一种知识图谱的构建装置,包括:
第一获取模块,被配置用于获取构建所述知识图谱的请求,其中,所述请求指定用于构建所述知识图谱的图谱数据的时间范围;
抽取模块,被配置用于从拉链表中抽取与所述时间范围对应的图谱数据记录,其中,所述拉链表包括关于实体以及实体之间关系的多条图谱数据记录,每条图谱数据记录对应一个相应的时间范围;以及
构建模块,被配置用于基于所抽取的图谱数据记录,构建所述知识图谱。
12.根据权利要求11所述的装置,还包括:
第二获取模块,被配置用于获取当前时刻下的图谱数据;
比对模块,被配置用于将所述当前时刻下的图谱数据与所述拉链表中的一条或多条有效图谱数据记录进行比对,以确定实体和/或实体之间关系的变动,其中,每条有效图谱数据记录对应的时间范围包含所述当前时刻;以及
更新模块,被配置用于基于实体和/或实体之间关系的变动,更新所述拉链表。
13.一种计算机设备,包括:
存储器、处理器以及存储在所述存储器上的计算机程序,
其中,所述处理器被配置为执行所述计算机程序以实现权利要求1-10中任一项所述方法的步骤。
14.一种非暂态计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110254728.7A CN112905805B (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建方法及装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110254728.7A CN112905805B (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建方法及装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112905805A CN112905805A (zh) | 2021-06-04 |
CN112905805B true CN112905805B (zh) | 2023-09-15 |
Family
ID=76108116
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110254728.7A Active CN112905805B (zh) | 2021-03-05 | 2021-03-05 | 知识图谱构建方法及装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905805B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385833B (zh) * | 2022-03-23 | 2023-05-12 | 支付宝(杭州)信息技术有限公司 | 更新知识图谱的方法及装置 |
WO2024045186A1 (zh) * | 2022-09-02 | 2024-03-07 | 西门子股份公司 | 构建知识图谱的方法、装置、计算设备以及存储介质 |
CN115858822B (zh) * | 2023-02-21 | 2023-05-26 | 北京网智天元大数据科技有限公司 | 一种时序知识图谱构建方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016068A (zh) * | 2017-03-21 | 2017-08-04 | 深圳前海乘方互联网金融服务有限公司 | 知识图谱构建方法及装置 |
CN107463649A (zh) * | 2017-07-26 | 2017-12-12 | 北京师范大学珠海分校 | 一种基于具名图的知识图谱时间演化方法 |
CN107679136A (zh) * | 2017-09-22 | 2018-02-09 | 上海携程商务有限公司 | 拉链表的存储方法及存储系统 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
CN110209891A (zh) * | 2019-06-19 | 2019-09-06 | 河南中原消费金融股份有限公司 | 一种拉链表生成方法、装置、设备及介质 |
CN110633374A (zh) * | 2019-08-29 | 2019-12-31 | 南京智慧光信息科技研究院有限公司 | 基于人工智能的社会关系知识图谱生成方法和机器人系统 |
CN110647563A (zh) * | 2018-06-07 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及其设备 |
CN111061793A (zh) * | 2019-12-18 | 2020-04-24 | 中国建设银行股份有限公司 | 一种数据处理系统和方法 |
CN111177794A (zh) * | 2019-12-10 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 城市画像方法、装置、计算机设备和存储介质 |
WO2020162943A1 (en) * | 2019-02-07 | 2020-08-13 | Thogamalai Krishnakumar Arumugham | Holistic intelligence and autonomous information system and method thereof |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559726A (zh) * | 2020-12-22 | 2021-03-26 | 深圳市易博天下科技有限公司 | 简历信息的过滤方法、模型训练方法、装置、设备及介质 |
-
2021
- 2021-03-05 CN CN202110254728.7A patent/CN112905805B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107016068A (zh) * | 2017-03-21 | 2017-08-04 | 深圳前海乘方互联网金融服务有限公司 | 知识图谱构建方法及装置 |
CN107463649A (zh) * | 2017-07-26 | 2017-12-12 | 北京师范大学珠海分校 | 一种基于具名图的知识图谱时间演化方法 |
CN107679136A (zh) * | 2017-09-22 | 2018-02-09 | 上海携程商务有限公司 | 拉链表的存储方法及存储系统 |
CN110647563A (zh) * | 2018-06-07 | 2020-01-03 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置及其设备 |
CN109933671A (zh) * | 2019-01-31 | 2019-06-25 | 平安科技(深圳)有限公司 | 构建个人知识图谱的方法、装置、计算机设备和存储介质 |
WO2020162943A1 (en) * | 2019-02-07 | 2020-08-13 | Thogamalai Krishnakumar Arumugham | Holistic intelligence and autonomous information system and method thereof |
CN110209891A (zh) * | 2019-06-19 | 2019-09-06 | 河南中原消费金融股份有限公司 | 一种拉链表生成方法、装置、设备及介质 |
CN110633374A (zh) * | 2019-08-29 | 2019-12-31 | 南京智慧光信息科技研究院有限公司 | 基于人工智能的社会关系知识图谱生成方法和机器人系统 |
CN111177794A (zh) * | 2019-12-10 | 2020-05-19 | 平安医疗健康管理股份有限公司 | 城市画像方法、装置、计算机设备和存储介质 |
CN111061793A (zh) * | 2019-12-18 | 2020-04-24 | 中国建设银行股份有限公司 | 一种数据处理系统和方法 |
Non-Patent Citations (2)
Title |
---|
" 基于大数据处理技术的BI平台设计与开发";李晨阳;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》(第01期);J152-712 * |
"基于商业智能的综合性投资集团决策支持平台的设计实现";郭建志;《中国优秀硕士学位论文全文数据库 信息科技辑》(第05期);I139-159 * |
Also Published As
Publication number | Publication date |
---|---|
CN112905805A (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112905805B (zh) | 知识图谱构建方法及装置、计算机设备和存储介质 | |
WO2017080176A1 (zh) | 个体用户画像方法和系统 | |
WO2019076062A1 (zh) | 功能页面定制方法及应用服务器 | |
WO2019134340A1 (zh) | 薪资计算方法、应用服务器及计算机可读存储介质 | |
US20150040098A1 (en) | Systems and methods for developing and delivering platform adaptive web and native application content | |
JP2019530921A (ja) | 提示するためのネイティブコンテンツをサーバ側でレンダリングするための方法およびシステム | |
CN112559631B (zh) | 分布式图数据库的数据处理方法、装置以及电子设备 | |
CN105528416B (zh) | 一种网站更新内容的监测方法及系统 | |
CN112860343B (zh) | 配置变更方法、系统、装置、电子设备以及存储介质 | |
CN108038172B (zh) | 基于人工智能的搜索方法和装置 | |
WO2019095569A1 (zh) | 基于微博财经事件的金融分析方法、应用服务器及计算机可读存储介质 | |
CN110866014A (zh) | 一种标准指标数据接入及展示的方法 | |
CN115329195A (zh) | 基于人工智能的意图挖掘方法、装置、设备及存储介质 | |
US8839114B1 (en) | System, method, and computer program for generating a graphical representation of at least a portion of a synchronized network model | |
CN115454971A (zh) | 数据迁移方法、装置、电子设备及存储介质 | |
US20130103724A1 (en) | Network and method for managing models | |
CN114663139A (zh) | 资源位的处理方法、装置、存储介质和处理器 | |
US8204857B2 (en) | Table analyzer for solution transition events | |
CN115242688B (zh) | 一种网络故障检测方法、装置以及介质 | |
US20230132618A1 (en) | Method for denoising click data, electronic device and storage medium | |
CN113377378A (zh) | 用于小程序的处理方法、装置、设备及存储介质 | |
US20240095869A1 (en) | Information acquisition method and apparatus, electronic device, and storage medium | |
US11036612B1 (en) | Centralized application resource determination based on performance metrics | |
CN117077802B (zh) | 一种时序性数据的排序预测方法及装置 | |
US20240202578A1 (en) | Phase-based machine learning and user interfaces for the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |