CN116415004A

CN116415004A - 知识图谱构建方法及装置、存储介质及电子设备

Info

Publication number: CN116415004A
Application number: CN202310445499.6A
Authority: CN
Inventors: 徐小光
Original assignee: Qianxin Technology Group Co Ltd
Current assignee: Qianxin Technology Group Co Ltd
Priority date: 2023-04-23
Filing date: 2023-04-23
Publication date: 2023-07-11

Abstract

本申请涉及计算机技术领域，提供一种知识图谱构建方法及装置、存储介质及电子设备。其中，知识图谱构建方法包括：显示模型编辑界面，并响应在模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；显示抽取规则配置界面，并响应在抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；通过执行抽取规则，将原始数据转化为目标数据；根据目标数据以及本体模型构建知识图谱。该方法将知识图谱的构建过程可视化，使得普通用户只需执行一些界面操作就可以自主构建知识图谱，无需每次构建都依赖开发人员去编写相关的代码，因此显著降低了构建知识图谱的技术门槛，提高了构建知识图谱的效率。

Description

知识图谱构建方法及装置、存储介质及电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种知识图谱构建方法及装置、存储介质及电子设备。

背景技术

知识图谱可视为一种具有图结构的语义网络，由于其能够有效表达现实中各种实体之间的语义关联，因此在各领域中都得到了广泛的应用。然而在现有技术中，普通用户难以自主进行知识图谱的构建，只能向开发人员提出构建需求，由开发人员编写代码来实现知识图谱的构建。

发明内容

本申请实施例的目的在于提供一种知识图谱构建方法及装置、存储介质及电子设备，以改善上述技术问题。

为实现上述目的，本申请提供如下技术方案：

第一方面，本申请实施例提供一种知识图谱构建方法，包括：显示模型编辑界面，并响应在所述模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；显示抽取规则配置界面，并响应在所述抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；其中，所述抽取规则为用于将数据源中的原始数据转化为所述知识图谱中的目标数据的映射规则；通过执行所述抽取规则，将所述原始数据转化为所述目标数据；根据所述目标数据以及所述本体模型构建所述知识图谱。

上述方法通过显示模型编辑界面和抽取规则配置界面，并响应在界面上做出的模型编辑操作和抽取规则配置操作来构建知识图谱，使得知识图谱的构建过程被可视化了，从而普通用户只需执行一些界面操作就可以自主构建所需的知识图谱，无需每次构建都依赖开发人员去编写相关的代码(例如，描述如何抽取数据的代码)，因此显著降低了构建知识图谱的技术门槛，提高了构建知识图谱的效率。

在第一方面的一种实现方式中，所述方法还包括：显示抽取流程配置界面，并响应在所述抽取流程配置界面上执行的抽取流程配置操作，生成至少一个抽取流程；其中，每个抽取流程为从一个对应数据源中的原始数据到所述知识图谱中的与该数据源对应的目标数据的转换流程，每个抽取流程对应有自身的抽取规则配置界面并包含有自身的抽取规则；所述通过执行所述抽取规则，将所述原始数据转化为所述目标数据，包括：通过执行每个抽取流程，将每个抽取流程的对应数据源中的原始数据转化为与该数据源对应的目标数据；其中，每个抽取流程在执行时，该抽取流程包含的抽取规则被执行。

在上述实现中，由于不同数据源的原始数据可能具有不同的结构，从而用于抽取不同数据源的原始数据的抽取规则可能具有不同的实现形式，因此可以配置不同的抽取流程分别进行抽取。

在第一方面的一种实现方式中，执行所述抽取流程，包括：基于所述抽取流程构建数据抽取任务，并执行所述数据抽取任务；所述方法还包括：响应在所述抽取流程配置界面上执行的抽取流程更新操作，生成更新后的抽取流程；基于所述更新后的抽取流程构建新的数据抽取任务，并执行所述新的数据抽取任务。

在第一方面的一种实现方式中，执行所述抽取流程，包括：基于所述抽取流程构建数据抽取任务，并执行所述数据抽取任务；所述方法还包括：响应在所述抽取规则配置界面上执行的抽取规则更新操作，生成更新后的抽取规则；将所述更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中。

在上述两种实现方式中，由于可动态变更抽取流程或抽取规则，因此用户可以在发现自己设计的抽取流程或抽取规则不合理时及时进行调整，从而快速完整知识图谱的验证工作。

进一步的，如果仅仅是变更部分抽取规则，只需将更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中，无需重新构建数据抽取任务(重新构建数据抽取任务比较耗时)，从而可实现抽取规则变更的动作轻量化、调整实时化。

在第一方面的一种实现方式中，所述方法还包括：显示预处理规则配置界面，并响应在所述预处理规则配置界面上执行的预处理规则配置操作，生成预处理规则；所述通过执行所述抽取规则，将所述原始数据转化为所述目标数据，包括：通过执行所述预处理规则，对所述原始数据进行预处理，得到处理后的原始数据；通过执行所述抽取规则，将所述处理后的原始数据转化为所述目标数据。

在上述实现方式中，通过显示预处理规则配置界面，并响应在界面上做出的预处理规则配置操作来实现数据预处理，有利于提高后续数据抽取的效率或者改善数据抽取的效果，并且数据预处理也是以可视化的方式实现的，因此便于普通用户使用。

在第一方面的一种实现方式中，所述抽取规则包括所述原始数据的元信息、所述目标数据的元信息以及所述原始数据的元信息和所述目标数据的元信息之间的映射关系，所述抽取规则配置界面包括：用于选择所述抽取规则中的所述原始数据的元信息的第一控件，用于选择所述抽取规则中的所述目标数据的元信息的第二控件，以及，用于选择所述抽取规则中的映射关系的第三控件。

在上述实现方式中，通过将抽取规则拆分为原始数据的元信息、目标数据的元信息以及二者之间的映射关系三项基本内容，并在抽取规则配置界面上设置三个对应的控件，使得用户只需在控件上执行简单的选择操作就可以完成抽取规则的配置，其技术门槛较低，配置效率较高。

在第一方面的一种实现方式中，所述根据所述目标数据以及所述本体模型构建所述知识图谱，包括：将所述本体模型转换为图数据库中的数据模式；按照所述数据模式将所述目标数据存储到所述图数据库中，得到所述知识图谱。

在上述实现方式中，基于图数据库构建知识图谱，便于知识图谱的存储、维护和展示。

在第一方面的一种实现方式中，所述将所述本体模型转换为图数据库中的数据模式，包括：将所述本体模型转换为与数据库无关的中间数据模式；将所述中间数据模式转换为所述图数据库中的数据模式。

在上述实现方式中，并不是直接将本体模型转换为图数据库中的数据模式，而是先将其转换为中间数据模式(例如，用json描述的数据模式)，然后再将中间数据模式转换为图数据库中的数据模式，由于中间数据模式是和数据库无关的，因此便于适配到不同的图数据库，即支持根据用户需求轻易地在不同的图数据库中构建知识图谱。

第二方面，本申请实施例提供一种知识图谱构建装置，包括：本体模型编辑模块，用于显示模型编辑界面，并响应在所述模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；抽取规则配置模块，用于显示抽取规则配置界面，并响应在所述抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；其中，所述抽取规则为用于将数据源中的原始数据转化为所述知识图谱中的目标数据的映射规则；抽取规则执行模块，用于通过执行所述抽取规则，将所述原始数据转化为所述目标数据；知识图谱形成模块，用于根据所述目标数据以及所述本体模型构建所述知识图谱。

第三方面，本申请实施例提供一种计算机程序产品，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

第五方面，本申请实施例提供一种电子设备，包括：存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行第一方面或第一方面的任意一种可能的实现方式提供的方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种知识图谱构建方法的流程图；

图2为本申请实施例提供的一种知识图谱构建工具的工作原理图；

图3为本申请实施例提供的一种模型编辑界面的示意图；

图4为本申请实施例提供的一种抽取规则配置界面的示意图；

图5为本申请实施例提供的一种抽取规则模型的示意图；

图6为本申请实施例提供的一种项目配置界面的示意图；

图7为采用Nebula数据库对知识图谱进行展示的界面；

图8为本申请实施例提供的一种预处理规则配置界面的示意图；

图9为本申请实施例提供的一种抽取流程配置界面的示意图；

图10为本申请实施例提供的一种知识图谱构建装置的模块图；

图11为本申请实施例提供的一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来，而不能理解为指示或暗示相对重要性，也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

图1为本申请实施例提供的一种知识图谱构建方法的流程图。图2为本申请实施例提供的一种知识图谱构建工具的工作原理图，该工具包括本体建模工具、规则配置组件以及抽取引擎三个组件，可用于执行图1中的知识图谱构建方法，在介绍图1中的方法及其可能的实现方式时也将结合图2进行阐述。

知识图谱构建工具可以、但不限于部署在图11示出的电子设备上，该电子设备的结构详见后文对图11的阐述。另外，应当理解，图1中的知识图谱构建方法未必一定要由图2中的知识图谱构建工具执行，例如，本体建模工具、规则配置组件以及抽取引擎也可以分散到不同的应用程序中，而不是集成在一个应用程序(知识图谱构建工具)中，或者模工具、规则配置组件以及抽取引擎的功能也未必完全按照图2中的方式划分。

参照图1，知识图谱构建方法包括：

步骤S110：显示模型编辑界面，并响应在模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型。

用户开始构建知识图谱后，可以首先进入本体建模工具提供的模型编辑界面，并在模型编辑界面上执行的模型编辑操作，设计自己想要构建的知识图谱的本体模型。

其中，构建知识图谱的用户可以是人，也可以是能够模拟人行为的计算机程序等。

本体模型可以是一个逻辑上的图模型，其描述了知识图谱中包含哪些实体(节点)、关系(节点之间的边)以及实体或者关系具有的属性，实体和关系也可以称为本体模型中的元素。知识图谱可以视为向本体模型中填充真实数据的结果。

模型编辑界面具体如何布局不限，模型编辑操作可以是模型编辑界面上的一些用于编辑本体模型的可视化操作，包括但不限于点击、长按、拖拽、滑动、输入等一项或多项操作，执行这些操作的可以是鼠标、键盘、触摸屏等一个或多个输入设备。此处的编辑本体模型，可以指新建本体模型(的元素)、修改本体模型(的元素)以及删除本体模型(的元素)等一项或多项行为。

本体建模工具响应用户做出的模型编辑操作，根据这些操作生成知识图谱的本体模型，并可以将最新生成的本体模型显示在模型编辑界面上，便于用户实时查看建模结果。

图3为本申请实施例提供的一种模型编辑界面的示意图。参照图3，中间部分显示的就是用户设计的知识图谱的本体模型，该模型名为“测试”，模型中包括三个实体，分别是“公司”、“设备”和“项目”，以及三个关系，分别是“管理”、“注册”和“申请”，其中，在“公司”和“设备”之间具有关系“管理”，在“公司”和“项目”之间具有关系“注册”，在“项目”和“设备”之间具有关系“申请”。

在图3中间部分的空白处点击右键，在弹出的右键菜单(图未示出)中可以选择创建实体，而选中已创建的实体，在弹出的右键菜单(图未示出)中可以选择创建依附于该实体的关系，或者也可以通过在实体之间拖拽连接线来创建关系，创建好的实体和关系在图3左侧部分显示。创建关系或实体时，或者选中关系或实体时，还可以在图3右侧部分为关系或实体添加属性，例如，可以为“公司”这个实体添加公司名称、成立时间、注册资本、是否股份制等属性。上面出现的点击右键、选择右键菜单中的菜单项等操作都属于步骤S110中提到的模型编辑操作。

模型编辑界面可以是网页，也可以是应用程序界面，后文提到的各种界面均是如此，不再特别说明。

图2示出了本体建模工具执行的操作，其内容在步骤S110中已经阐述。

步骤S120：显示抽取规则配置界面，并响应在抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则。

本体模型生成完毕后，用户可以接着进入规则配置组件提供的抽取规则配置界面，并在抽取规则配置界面上执行的抽取规则配置操作，配置用于生成知识图谱的抽取规则。

其中，抽取规则可以定义为：用于将数据源中的原始数据转化为知识图谱中的目标数据的映射规则。

这里的数据源就是知识图谱的数据来源，例如，数据源可以是数据库、业务平台、消息系统等，对于待构建的一个知识图谱而言，其对应的数据源可以是一个或多个，数据源中的数据称为原始数据。可选的，在抽取规则中可用原始数据的元信息来对原始数据进行描述，例如，原始数据的元信息可以包括原始数据中有哪些字段，这些字段之间的排列顺序、层级关系等一项或多项信息，原始数据的元信息可以是json、xml等格式的信息。

目标数据就是知识图谱中包含的具体数据，或者说本体模型中元素(实体或关系)的属性值。例如，“公司”这个实体包含公司名称这个属性，则具体的公司名称，比如“A公司”、“B公司”就是两条目标数据。可选的，在抽取规则中可用目标数据的元信息来对目标数据进行描述，目标数据的元信息可以包括本体模型中元素的属性，例如，对于“公司”这个实体，公司名称、成立时间就是目标数据的两条元信息。

映射规则表达了一种从原始数据到目标数据的映射关系，这种映射关系可以是一个函数，该函数的输入包括原始数据，输出则包括目标数据，函数内部还可以对原始数据进行某些处理以得到目标数据。如果分别用原始数据的元信息和目标数据的元信息来描述原始数据和目标数据，则也可以认为映射规则表达了一种从原始数据的元信息到目标数据的元信息的映射关系。

根据上面的阐述可知，在数据采用元信息进行描述时，抽取规则可以拆分为原始数据的元信息、目标数据的元信息以及二者之间的映射关系三项基本内容。用户可以根据这三项内容来配置抽取规则，这三项内容既可以由用户自行设法获取，也可以在抽取规则配置界面上呈现出来(可以三项全部呈现，也可以只呈现一项或两项)，供用户选择，以此来提高抽取规则的配置效率。

抽取规则配置界面具体如何布局不限，抽取规则配置操作可以是抽取规则配置界面上的一些用于配置抽取规则的可视化操作，包括但不限于点击、长按、拖拽、滑动、输入等一项或多项操作，执行这些操作的可以是鼠标、键盘、触摸屏等一个或多个输入设备。

例如，在一种可选方案中，抽取规则配置界面包括：用于选择抽取规则中的原始数据的元信息的第一控件，用于选择抽取规则中的目标数据的元信息的第二控件，以及，用于选择抽取规则中的映射关系的第三控件，即针对上面提到的构成抽取规则的三项基本内容分别设置一个控件，这里的控件可以指输入框、下拉列表等界面上的功能单元。

图4为本申请实施例提供的一种抽取规则配置界面的示意图。参照图4，左侧的“新建实体”表示新建一个实体的实例(实例的概念稍后解释)，右侧的“实体类型”控件是一个下拉列表，列表内容即本体模型包含的全部实体，用户选择其中某个实体，例如这里的“IP实体”，表明当前要配置的是针对该实体的抽取规则。

下面的“属性映射”部分，每一行代表用户配置的一项抽取规则：

下拉列表“行为日志属性”可视为上面提到的第一控件，用于选择数据源中的原始数据的元信息，比如图中的“收集ip”字段、“收集时间”字段。例如，抽取规则配置界面在生成时，可将原始数据的元信息加载到第一控件的下拉列表中。

注意，图4中默认了数据源已经配置好，因此界面中未包含配置数据源的控件，具体实施时，若需要用户选择用于构建知识图谱的数据源，也可以在抽取规则配置界面或者其他配置界面(例如，后文提到的抽取流程配置界面)增加配置数据源的控件。

下拉列表“属性”可视为上面提到的第二控件，用于选择知识图谱中的目标数据的元信息，比如图中的“ip”属性、“时间”属性，这两个属性是本体模型中“IP实体”的属性。例如，抽取规则配置界面在生成时，可将目标数据的元信息加载到第二控件的下拉列表中。

输入框“抽取规则”可视为上面提到的第三控件，用于选择抽取规则中的映射关系(点击第三控件的右下角，在弹出的窗口内选择)，这些映射关系在图4中就是一些预置好的函数，例如trim、getTime等，这些函数可以是用户自定义的，也可以是第三方的。以图中的trim(collect_ip)为例，意思是将原始数据中的collect_ip字段(即第一控件中配置的“收集ip”字段)前后的空白符去掉，得到“IP实体”中与之对应的属性(即第二控件中配置的“ip”属性)。

结合图4中的例子可知，用户只需在第一控件、第二控件和第三控件上执行简单的选择操作就可以完成抽取规则的配置，其技术门槛较低，配置效率较高。

下面再简单解释一下图4中实例的概念，一个实体(或关系)可以具有多个实例，一个实例代表形成该实体(或关系)的一套抽取规则。例如，对于“IP实体”，假设通过两个的数据源中的原始数据可以分别抽取出一个“IP实体”，形成这两个“IP实体”的抽取规则是不同的，即针对“IP实体”可以配置两套抽取规则，对应“IP实体”的两个实例，为了区分不同的实例，可以对其进行命名，如图4所示。不过，后文为简单起见，在阐述时不再刻意区分实体(或关系)和实例的概念。

规则配置组件响应用户做出的抽取规则配置操作，根据这些操作生成抽取规则，生成的抽取规则可以保存为文件，也可以直接保存在电子设备的内存中。

图5为本申请实施例提供的一种抽取规则模型的示意图，可选的，规则配置组件内部可根据用户在界面上配置的抽取规则，生成如图5所示的抽取规则模型，后续步骤执行抽取规则也是基于该抽取规则模型执行。参照图5，抽取规则模型中包含Rule、Node、Edge、Property四种对象，其具体含义如下：

Rule即抽取规则模型的核心对象，Rule的成员包含多个Node和Edge的组合。

Node即抽取规则模型的节点(对应本体模型中的实体)，Node的成员包含自身的属性信息(Property)以及实体类型(type)。

Edge即抽取规则模型的边(对应本体模型中的关系)，Edge包含自身连接的节点(source、target)、自身的属性信息(Property)以及关系类型(type)。

Property即抽取规则模型的属性信息，包含了目标数据的元信息(dstKey，对应本体模型中元素的属性)、抽取规则的表达式(expression，例如前面的trim(collect_ip))。

其中，Rule、Node、Edge三项主要描述本体模型的结构，而Property则主要描述本体模型中各元素的属性值如何获得，通过抽取规则模型，将用户配置的抽取规则整合在了一起。

图2示出了规则配置组件执行的操作，其主要内容在步骤S120中已经阐述，下面主要说明一些之前未提到之处。首先，图2中除了配置抽取规则外，还会配置抽取流程，但抽取流程的配置是可选的步骤，后文再进行阐述。其次，在图2中，数据源中的原始数据的元信息和本体模型都要输入给规则配置组件(本体模型通过标有json_schema的虚线输入)，从而在抽取规则配置界面可以将这些信息展示出来，供用户配置抽取规则时进行选择(参见第一控件、第二控件的描述)。最后，图2中还示出了对本体模型进行物理化，得到图数据库schema的操作，后文再进行阐述。

可选的，规则配置组件还可以提供项目配置界面，供用户创建为知识图谱配置抽取规则的项目，用户在此界面上创建好项目后，再通过此界面跳转到抽取规则配置界面，进行该项目下具体抽取规则的配置。

图6为本申请实施例提供的一种项目配置界面的示意图。参照图6，用户在该界面上配置了两个项目，分别是“临时项目”和“测试”，其中“本体名称”处为步骤S110中生成的本体模型的名称(例如，“测试”)，如此可将项目和本体模型关联到一起。用户在项目配置界面上点选项目，可以进入到该项目对应的抽取规则配置界面。

应当理解，在一些实现方式中，知识图谱构建工具也可以根据本体模型自动创建项目，无需用户自行配置项目。

步骤S130：通过执行抽取规则，将数据源中的原始数据转化为知识图谱中的目标数据。

步骤S140：根据目标数据以及本体模型构建知识图谱。

步骤S130～S140一起阐述，这两个步骤可由抽取引擎执行，所谓执行抽取规则，就是指抽取引擎从数据源获取原始数据，并按照抽取规则对原始数据进行映射，得到目标数据的过程。可选的，抽取引擎可以按照批量的方式从数据源获取原始数据，也可以按照数据流的方式从数据源获取原始数据，抽取规则在执行之前，若没有加载到内存，则可以先将其加载到内存中再执行，如图2所示。

例如，步骤S120得到的抽取规则模型可被封装成flink(一种分布式流式处理框架)任务，利用基于flink开发的抽取引擎进行模型解析并执行，由于flink可提供高性能分布式流式计算能力，从而可保障数据抽取的高效执行。

在一些实现方式中，用户配置好了抽取规则，抽取引擎就会自动执行这些抽取规则。在另一些实现方式中，用户配置好了抽取规则，还需要将其发布出来，抽取引擎监听到了用户的发布操作，才会执行这些抽取规则。发布操作可以理解为用户对所配置的抽取规则的确认操作，用户可以通过抽取规则配置界面或者其他界面(例如，后文提到的抽取流程配置界面)来执行发布操作，该操作具体可以是点击界面上用于执行发布的按钮等操作。

步骤S130得到的目标数据还不是知识图谱，如前所述，目标数据只是本体模型中元素的属性值，因此还要结合本体模型所提供的图结构才能最终构建出所需的知识图谱，即步骤S140的内容。

例如，在一种实现方式中，可以先将本体模型转换为图数据库中的数据模式，然后按照该数据模式将目标数据存储到图数据库中，得到知识图谱。

其中，图数据库是一类按照图结构的方式存储数据的数据库，由于知识图谱也是图结构的，所以基于图数据库构建知识图谱，便于知识图谱的存储、维护和展示。例如，图数据库可以是Nebula、Neo4j等数据库。

图数据库中的数据模式又称为图数据库schema，可以理解为本体模型在图数据库中的表现形式，或者也可以理解为知识图谱中的目标数据存储在图数据库中时，要以怎样的图结构进行组织，若类比于关系型数据，schema就是数据表的结构。在将抽取得到的目标数据写入到图数据库中之前，可以先在图数据库中创建图数据库schema(类比于在关系型数据库中创建数据表)，然后再按照图数据库schema写入目标数据，最终得到要构建的知识图谱。

在图2中，将本体模型转换为图数据库schema的步骤就是所谓的物理化操作，该步骤可以由本体建模工具、规则配置组件或者抽取引擎执行，而将目标数据写入图数据的步骤则可以由抽取引擎执行。

在图数据库中构建好知识图谱后，可以利用图数据库的功能对知识图谱进行展示及查询。例如，在图7中，利用Nebula数据库的探索界面(Nebular Explorer)可以对知识图谱进行展示。

在一些实现方式中，可以直接将本体模型转换为图数据库schema；在另一些实现方式中，可以先将本体模型转换为某种中间数据模式，再将中间数据模式转换为图数据库schema。其中，中间数据模式是和数据库无关的，因此便于适配到不同的图数据库，即支持根据用户需求轻易地在不同的图数据库中构建知识图谱。例如，中间数据模式可以是采用json、xml等方式描述的数据模式，在图2中为json_schema，图2中的规则配置组件在抽取规则配置界面展示本体模型中的信息(即目标数据的元信息)时，可以基于json_schema进行展示，当然在替代方案中也可以基于图数据schema进行展示。

应当理解，构建好的知识图谱不一定要存储在图数据库中，也可以存储在其他关系型或非关系型数据库，或者也可以不存储在数据库中，而是存储在文件中，等等。

简单总结图1中的方法，该方法通过显示模型编辑界面和抽取规则配置界面，并响应在界面上做出的模型编辑操作和抽取规则配置操作来构建知识图谱，使得知识图谱的构建过程被可视化了，从而普通用户只需执行一些界面操作就可以自主构建所需的知识图谱，无需每次构建都依赖开发人员去编写相关的代码(例如，描述如何抽取数据的代码)，因此显著降低了构建知识图谱的技术门槛，提高了构建知识图谱的效率。

进一步的，实现该方法所需的各个界面、组件可以被集成在一个工具里，例如上文提到的知识图谱构建工具，从而用户通过这一个工具就可以走完知识图谱构建的整个流程，无需像现有技术中一样进行反复的跨团队沟通，从而提高了知识图谱的构建效率，降低了沟通成本。

在以上实施的基础上，可选的，知识图谱构建方法还可以包括：显示预处理规则配置界面，并响应在预处理规则配置界面上执行的预处理规则配置操作，生成预处理规则。该步骤可以由规则配置组件执行。

本体模型生成完毕后，用户可以进入规则配置组件提供的预处理规则配置界面，并在预处理规则配置界面上执行的预处理规则配置操作，配置用于对数据源的原始数据进行预处理的预处理规则。预处理具体是何种操作不限，例如，可以是过滤掉部分原始数据，可以是对原始数据的形式进行变换等等。

预处理规则配置界面可以在抽取规则配置界面显示之前显示，也就是说用户可以先配置完预处理规则，再配置抽取规则。预处理规则配置界面具体如何布局不限，预处理规则配置操作可以是预处理规则配置界面上的一些用于配置预处理规则的可视化操作，包括但不限于点击、长按、拖拽、滑动、输入等一项或多项操作，执行这些操作的可以是鼠标、键盘、触摸屏等一个或多个输入设备。

图8为本申请实施例提供的一种预处理规则配置界面的示意图。参照图8，下拉列表“选择业务行为数据”是用来选择数据源的，即下面配置的预处理规则用于对哪个数据源的原始数据进行预处理(可选的，这里配置了数据源，在图4中就可以不用再配置了)，这里选择了“数据源日志”这个数据源。“按业务行为属性过滤”部分则是预处理规则的具体内容，图8中配置了一条过滤规则，其内容可以用代码描述为：

project_id.equals("111")||

client_model_info.equalsIgnoreCase("fdsa")||

collect_time.equalsIgnoreCase("110")||

(device_ip.equals("1.1.1.1"))

其中，符号||表示逻辑运算“或者”，用于连接四个过滤条件，project_id表示原始数据中的“项目id”字段，equals表示“精确匹配”，client_model_info表示原始数据中的“客户端型号信息”字段，equalsIgnoreCase表示“忽略大小写”(指忽略大小写进行匹配)，collect_time表示原始数据中的“收集时间小时”字段，device_ip表示原始数据中的“设备ip”字段。另外，在图8中，最后一个过滤条件(“设备ip”字段对应的)实现为一个二级目录的形式，表明这个条件是嵌套的，因此在device_ip.equals("1.1.1.1")外面会多出一层括号。该过滤规则表达的含义是：原始数据中凡是满足规则的四个过滤条件之一的数据可以保留用于抽取目标数据，其余数据可以丢弃掉。

在配置了预处理规则的情况下，步骤S130可以实现为：首先，通过执行预处理规则，对数据源中的原始数据进行预处理，得到处理后的原始数据；然后，通过执行抽取规则，将处理后的原始数据转化为知识图谱中的目标数据。其中，数据预处理的步骤也可以由抽取引擎执行。

支持配置预处理规则，可以对原始数据进行一定程度的优化，从而有利于提高后续数据抽取的效率或者改善数据抽取的效果，并且数据预处理也是以可视化的方式实现的，因此技术门槛不高，便于普通用户使用。

在以上实施的基础上，可选的，知识图谱构建方法还可以包括：显示抽取流程配置界面，并响应在抽取流程配置界面上执行的抽取流程配置操作，生成至少一个抽取流程。

本体模型生成完毕后，用户可以接着进入规则配置组件提供的抽取流程配置界面，并在抽取流程配置界面上执行的抽取流程配置操作，配置用于生成知识图谱的抽取流程。

其中，每个抽取流程为从一个对应数据源中的原始数据到知识图谱中的与该数据源对应的目标数据的转换流程。例如，某个知识图谱中的目标数据需要从两个数据源中的原始数据中抽取，则可以为该知识图谱的构建配置两个抽取流程，分别与这两个数据源对应。

进一步的，每个抽取流程对应有自身的抽取规则配置界面并包含有自身的抽取规则(还可能有预处理规则)。一个抽取流程包含的抽取规则可以定义为：用于将该抽取流程的对应数据源中的原始数据转化为知识图谱中的与该数据源对应的目标数据的映射规则，关于抽取规则，前文已经解释，不再重复。

延续上面的例子，两个抽取流程都对应有各自的抽取规则配置界面，分别用于配置这两个抽取流程下属的抽取规则。由于不同数据源的原始数据可能具有不同的结构，从而用于抽取不同数据源的原始数据的抽取规则可能具有不同的实现形式，因此可以将不同形式的抽取规则区分开来，配置不同的抽取流程分别进行抽取。从这个角度来看，也可以将一个知识图谱所配置的一个抽取流程视为针对一个数据源所配置的一系列抽取规则的集合。

例如，数据源X提供的原始数据是json数据，数据源Y提供的原始数据是xml数据，即二者的数据结构不同，因此从数据源X的原始数据中进行的抽取的抽取规则和从数据源Y的原始数据中进行的抽取的抽取规则是不同的，所以可以针对性地配置两个对应的抽取流程，假设叫x流程和y流程，在x流程中再配置一些列针对数据源X的抽取规则，在y流程中再配置一系列针对数据源Y的抽取规则。

抽取流程配置界面可以在抽取规则配置界面显示之前显示，也就是说用户可以先配置完抽取流程，再配置抽取流程下属的抽取规则。可选的，若还设置有项目配置界面，则抽取流程配置界面可以在项目配置界面显示之后、以及抽取规则配置界面显示之前显示，也就是说用户可以先配置完知识图谱对应的抽取项目，再配置抽取项目下属的抽取流程，再配置抽取流程下属的抽取规则。可选的，若还设置有预处理规则配置界面，则抽取流程配置界面可以在项目配置界面显示之后、以及预处理规则配置界面显示之前显示，而抽取规则配置界面可以在预处理规则配置界面之后显示，也就是说用户可以先配置完知识图谱对应的抽取项目，再配置抽取项目下属的抽取流程，再配置抽取流程下属的预处理规则，再配置抽取流程下属的抽取规则。

抽取流程配置界面具体如何布局不限，抽取流程配置操作可以是抽取流程配置界面上的一些用于配置抽取流程的可视化操作，包括但不限于点击、长按、拖拽、滑动、输入等一项或多项操作，执行这些操作的可以是鼠标、键盘、触摸屏等一个或多个输入设备。

图9为本申请实施例提供的一种抽取流程配置界面的示意图。参照图9，左侧为图6中配置的“测试”项目，用户在项目配置界面上点选该项目，可以进入到图9中的抽取流程配置界面。图9的界面目前配置了两个抽取流程，分别针对“业务1”和“业务2”两个数据源，点击抽取流程右侧的“更多”则可以进入到抽取流程对应的抽取规则配置界面(或预处理规则配置界面)，进一步配置针对该抽取流程的抽取规则(或预处理规则)。注意，虽然抽取流程中所要包含的核心信息是数据源和抽取流程所针对的本体模型(或项目)，但抽取流程中也可以包含其他信息，如图9所示。

在配置了抽取流程的情况下，步骤S130可以实现为：通过执行每个抽取流程，将每个抽取流程的对应数据源中的原始数据转化为与该数据源对应的目标数据。其中，抽取流程可由抽取引擎执行，每个抽取流程在执行时，该抽取流程包含的抽取规则被执行(若有预处理规则，则先执行预处理规则，再执行抽取规则)，抽取流程在执行之前，若没有加载到内存，则可以先将其加载到内存中再执行，如图2所示。

在一些实现方式中，用户配置好了抽取流程(包含其下属的抽取规则)，抽取引擎就会自动执行抽取流程。在另一些实现方式中，用户配置好了抽取流程(包含其下属的抽取规则)，还需要将其发布出来，抽取引擎监听到了用户的发布操作，才会执行抽取流程。参照图9，用户点击右上角的发布按钮，即可执行发布操作。

在一种实现方式中，可以基于抽取流程构建数据抽取任务(例如，可以为每个抽取流程构建一个数据抽取任务)，并通过执行数据抽取任务，以此来执行抽取流程，注意，由于抽取规则是从属于抽取流程的，所以数据抽取任务中也包含了对应抽取流程下属的抽取规则的信息。例如，此处的数据抽取任务可以是flink中的jobgraph，此处的任务执行引擎可以是知识图谱构建工具的抽取引擎，之前已经提到，该引擎可以基于flink开发，从而可以执行jobgraph。

用户在配置好抽取流程或抽取规则后，很有可能对其进行更新，例如根据实际的抽取结果，对抽取流程或抽取规则进行编辑、新增等一项或多项操作。下面分别阐述这两种情况：

(1)抽取流程更新

用户在需要更新抽取流程时，可以在抽取流程配置界面上执行抽取流程更新操作，例如变更已有抽取流程的数据源、创建新的抽取流程等界面操作。抽取引擎可以响应抽取流程更新操作，生成更新后的抽取流程。例如，抽取引擎可以对抽取流程更新操作进行监听，当监听到操作发生后(如果抽取流程需要用户发布，则可以监听用户的发布操作)，生成更新后的抽取流程。

然后，抽取引擎可以基于更新后的抽取流程构建新的数据抽取任务，并执行新的数据抽取任务，使得更新后的抽取流程得以应用。

(2)抽取规则更新

注意，虽然抽取规则可以认为属于抽取流程的一部分，但此处的抽取规则更新不视为抽取流程的更新，简单来说，(1)中的更新是发生在抽取流程配置界面上，(2)中的更新是发生在抽取规则配置界面上的。

用户在需要更新某个已有抽取流程下属的抽取规则时，可以在抽取规则配置界面上执行抽取规则更新操作，例如变更已有抽取规则(比如，变更其中的原始数据的元信息、目标数据的元信息、映射关系等)、创建新的抽取规则等界面操作。抽取引擎可以响应抽取规则更新操作，生成更新后的抽取规则。例如，抽取引擎可以对抽取规则更新操作进行监听，当监听到操作发生后(如果抽取规则需要用户发布，则可以监听用户的发布操作)，生成更新后的抽取规则。

然后，抽取引擎可以将更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中，这样继续执行数据抽取任务时，更新后的抽取规则就生效了。其中，数据抽取任务可以是已经加载到内存中的，若更新后的抽取规则是对原有规则的修改，则此处的加载可以是指将数据抽取任务下的原有对应规则替换掉；若更新后的抽取规则是新增的规则，则此处的加载可以是指将更新后的抽取规则添加到数据抽取任务中。

在(1)(2)的配置更新方式中，由于可动态变更抽取流程或抽取规则，因此用户可以在发现自己设计的抽取流程或抽取规则不合理时及时进行调整，从而快速完整知识图谱的验证工作，而不必等到知识图谱构建好以后再进行验证、迭代，从而可以及时发现知识图谱设计中存在的问题，改善构建质量，提高构建效率。

进一步的，在(2)中，由于仅仅是变更部分抽取规则，因此只需将更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中，无需重新构建数据抽取任务(重新构建数据抽取任务可能会比较耗时)，从而可实现抽取规则变更的动作轻量化、调整实时化。

图10为本申请实施例提供的知识图谱构建装置200的模块图。参照图10，知识图谱构建装置200包括：

本体模型编辑模块210，用于显示模型编辑界面，并响应在所述模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；

抽取规则配置模块220，用于显示抽取规则配置界面，并响应在所述抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；其中，所述抽取规则为用于将数据源中的原始数据转化为所述知识图谱中的目标数据的映射规则；

抽取规则执行模块230，用于通过执行所述抽取规则，将所述原始数据转化为所述目标数据；

知识图谱形成模块240，用于根据所述目标数据以及所述本体模型构建所述知识图谱。

在图谱构建装置200的一种实现方式中，所述装置还包括抽取流程配置模块，用于显示抽取流程配置界面，并响应在所述抽取流程配置界面上执行的抽取流程配置操作，生成至少一个抽取流程；其中，每个抽取流程为从一个对应数据源中的原始数据到所述知识图谱中的与该数据源对应的目标数据的转换流程，每个抽取流程对应有自身的抽取规则配置界面并包含有自身的抽取规则；抽取规则执行模块230通过执行所述抽取规则，将所述原始数据转化为所述目标数据，包括：通过执行每个抽取流程，将每个抽取流程的对应数据源中的原始数据转化为与该数据源对应的目标数据；其中，每个抽取流程在执行时，该抽取流程包含的抽取规则被执行。

在图谱构建装置200的一种实现方式中，抽取规则执行模块230执行所述抽取流程，包括：基于所述抽取流程构建数据抽取任务，并执行所述数据抽取任务；抽取规则执行模块230还用于：响应在所述抽取流程配置界面上执行的抽取流程更新操作，生成更新后的抽取流程；基于所述更新后的抽取流程构建新的数据抽取任务，并执行所述新的数据抽取任务。

在图谱构建装置200的一种实现方式中，抽取规则执行模块230执行所述抽取流程，包括：基于所述抽取流程构建数据抽取任务，并执行所述数据抽取任务；抽取规则执行模块230还用于：响应在所述抽取规则配置界面上执行的抽取规则更新操作，生成更新后的抽取规则；将所述更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中。

在图谱构建装置200的一种实现方式中，所述装置还包括预处理规则配置模块，用于显示预处理规则配置界面，并响应在所述预处理规则配置界面上执行的预处理规则配置操作，生成预处理规则；抽取规则执行模块230通过执行所述抽取规则，将所述原始数据转化为所述目标数据，包括：通过执行所述预处理规则，对所述原始数据进行预处理，得到处理后的原始数据；通过执行所述抽取规则，将所述处理后的原始数据转化为所述目标数据。

在图谱构建装置200的一种实现方式中，所述抽取规则包括所述原始数据的元信息、所述目标数据的元信息以及所述原始数据的元信息和所述目标数据的元信息之间的映射关系，所述抽取规则配置界面包括：用于选择所述抽取规则中的所述原始数据的元信息的第一控件，用于选择所述抽取规则中的所述目标数据的元信息的第二控件，以及，用于选择所述抽取规则中的映射关系的第三控件。

需要说明的是，以上实施例中目标数据的元信息可以包括本体模型中元素的属性信息。

在图谱构建装置200的一种实现方式中，知识图谱形成模块240根据所述目标数据以及所述本体模型构建所述知识图谱，包括：将所述本体模型转换为图数据库中的数据模式；按照所述数据模式将所述目标数据存储到所述图数据库中，得到所述知识图谱。

在图谱构建装置200的一种实现方式中，知识图谱形成模块240将所述本体模型转换为图数据库中的数据模式，包括：将所述本体模型转换为与数据库无关的中间数据模式；将所述中间数据模式转换为所述图数据库中的数据模式。

本申请实施例提供的知识图谱构建装置200，其实现原理及产生的技术效果在前述方法实施例中已经介绍，为简要描述，装置实施例部分未提及之处，可参考方法实施例中相应内容。

图11为本申请实施例提供的电子设备300的结构图。参照图11，电子设备300包括：处理器310、存储器320以及通信接口330，这些组件通过通信总线340和/或其他形式的连接机构(未示出)互连并相互通讯。

其中，处理器310包括一个或多个(图中仅示出一个)，其可以是一种集成电路芯片，具有信号的处理能力。上述的处理器310可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、微控制单元(Micro Controller Unit，简称MCU)、网络处理器(Network Processor，简称NP)或者其他常规处理器；还可以是专用处理器，包括神经网络处理器(Neural-network Processing Unit，简称NPU)、图形处理器(Graphics ProcessingUnit，简称GPU)、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific Integrated Circuits，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。并且，在处理器310为多个时，其中的一部分可以是通用处理器，另一部分可以是专用处理器。

存储器320包括一个或多个(图中仅示出一个)，其可以是，但不限于，随机存取存储器(Random Access Memory，简称RAM)，只读存储器(Read Only Memory，简称ROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，电可擦除可编程只读存储器(Electric Erasable Programmable Read-Only Memory，简称EEPROM)等。处理器310以及其他可能的组件可对存储器320进行访问，读和/或写其中的数据。

特别地，在存储器320中可以存储一个或多个计算机程序指令，处理器310可以读取并运行这些计算机程序指令，以实现本申请实施例提供的知识图谱构建方法。

通信接口330包括一个或多个(图中仅示出一个)，可以用于和其他设备进行直接或间接地通信，以便进行数据的交互。通信接口330可以包括进行有线和/或无线通信的接口。

可以理解的，图11所示的结构仅为示意，电子设备300还可以包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的结构。例如，若电子设备300不需要和其他设备通信，也可以省略通信接口330，等等。

图11中所示的各组件可以采用硬件、软件或其组合实现。电子设备300可能是实体设备，例如服务器、PC机、笔记本电脑、平板电脑、手机等，也可能是虚拟设备，例如虚拟机、虚拟化容器等。并且，电子设备300也不限于单台设备，也可以是多台设备的组合或者大量设备构成的集群。

本申请实施例还提供一种计算机程序产品，该产品包括计算机程序指令，这些计算机程序指令被一电子设备的处理器读取并运行时，执行本申请实施例提供的知识图谱构建方法。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序指令，这些计算机程序指令被一电子设备的处理器读取并运行时，执行本申请实施例提供的知识图谱构建方法。例如，计算机可读存储介质可以实现为图11中电子设备300中的存储器320。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种知识图谱构建方法，其特征在于，包括：

显示模型编辑界面，并响应在所述模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；

显示抽取规则配置界面，并响应在所述抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；其中，所述抽取规则为用于将数据源中的原始数据转化为所述知识图谱中的目标数据的映射规则；

通过执行所述抽取规则，将所述原始数据转化为所述目标数据；

根据所述目标数据以及所述本体模型构建所述知识图谱。

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述方法还包括：

显示抽取流程配置界面，并响应在所述抽取流程配置界面上执行的抽取流程配置操作，生成至少一个抽取流程；其中，每个抽取流程为从一个对应数据源中的原始数据到所述知识图谱中的与该数据源对应的目标数据的转换流程，每个抽取流程对应有自身的抽取规则配置界面并包含有自身的抽取规则；

所述通过执行所述抽取规则，将所述原始数据转化为所述目标数据，包括：

通过执行每个抽取流程，将每个抽取流程的对应数据源中的原始数据转化为与该数据源对应的目标数据；其中，每个抽取流程在执行时，该抽取流程包含的抽取规则被执行。

3.根据权利要求2所述的知识图谱构建方法，其特征在于，执行所述抽取流程，包括：

基于所述抽取流程构建数据抽取任务，并执行所述数据抽取任务；

所述方法还包括：

响应在所述抽取流程配置界面上执行的抽取流程更新操作，生成更新后的抽取流程；

基于所述更新后的抽取流程构建新的数据抽取任务，并执行所述新的数据抽取任务。

4.根据权利要求2所述的知识图谱构建方法，其特征在于，执行所述抽取流程，包括：

所述方法还包括：

响应在所述抽取规则配置界面上执行的抽取规则更新操作，生成更新后的抽取规则；

将所述更新后的抽取规则加载到其所属的抽取流程对应的数据抽取任务中。

5.根据权利要求1所述的知识图谱构建方法，其特征在于，所述方法还包括：

显示预处理规则配置界面，并响应在所述预处理规则配置界面上执行的预处理规则配置操作，生成预处理规则；

通过执行所述预处理规则，对所述原始数据进行预处理，得到处理后的原始数据；

通过执行所述抽取规则，将所述处理后的原始数据转化为所述目标数据。

6.根据权利要求1所述的知识图谱构建方法，其特征在于，所述抽取规则包括所述原始数据的元信息、所述目标数据的元信息以及所述原始数据的元信息和所述目标数据的元信息之间的映射关系所述抽取规则配置界面包括：

用于选择所述抽取规则中的所述原始数据的元信息的第一控件，用于选择所述抽取规则中的所述目标数据的元信息的第二控件，以及，用于选择所述抽取规则中的映射关系的第三控件。

7.根据权利要求1-6中任一项所述的知识图谱构建方法，其特征在于，所述根据所述目标数据以及所述本体模型构建所述知识图谱，包括：

将所述本体模型转换为图数据库中的数据模式；

按照所述数据模式将所述目标数据存储到所述图数据库中，得到所述知识图谱。

8.根据权利要求7所述的知识图谱构建方法，其特征在于，所述将所述本体模型转换为图数据库中的数据模式，包括：

将所述本体模型转换为与数据库无关的中间数据模式；

将所述中间数据模式转换为所述图数据库中的数据模式。

9.一种知识图谱构建装置，其特征在于，包括：

本体模型编辑模块，用于显示模型编辑界面，并响应在所述模型编辑界面上执行的模型编辑操作，生成知识图谱的本体模型；

抽取规则配置模块，用于显示抽取规则配置界面，并响应在所述抽取规则配置界面上执行的抽取规则配置操作，生成抽取规则；其中，所述抽取规则为用于将数据源中的原始数据转化为所述知识图谱中的目标数据的映射规则；

抽取规则执行模块，用于通过执行所述抽取规则，将所述原始数据转化为所述目标数据；

知识图谱形成模块，用于根据所述目标数据以及所述本体模型构建所述知识图谱。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1-8中任一项所述的方法。

11.一种电子设备，其特征在于，包括存储器以及处理器，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器读取并运行时，执行权利要求1-8中任一项所述的方法。