CN113239238A

CN113239238A - 一种面向半结构化领域数据的知识图谱自动构建方法

Info

Publication number: CN113239238A
Application number: CN202110671635.4A
Authority: CN
Inventors: 陈明; 朱珏樟
Original assignee: Shanghai Ocean University
Current assignee: Shanghai Ocean University
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-10
Anticipated expiration: 2041-06-17
Also published as: CN113239238B

Abstract

本发明提供了一种面向半结构化领域数据的知识图谱自动构建方法，所述方法包括以下步骤：S1：准备用于构建领域知识图谱的半结构化领域数据；S2：创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库；S3：结合所述规则库，将半结构化数据自动转换为结构化数据，完成数据的自动提取；S4：生成与所提供数据和规则相对应的概念‑实体关系集；S5：将概念‑实体关系集存入数据库；以及S6：根据概念‑实体关系集构建知识图谱和更新知识图谱。本发明提高了知识图谱自动构建方法的适用范围、减少了构建知识图谱所需要成本。

Description

一种面向半结构化领域数据的知识图谱自动构建方法

技术领域

本发明涉及知识图谱自动构建技术领域，具体地，涉及一种面向半结构化领域数据的知识图谱自动构建方法。

背景技术

人工构建知识图谱是一个即耗时又昂贵的技巧化任务，并且构建的时候过程烦琐容易出错，因此，如何自动地构建知识图谱具有重要的意义。根据自动构建方法所面向领域数据的类型，有面向结构化领域数据、半结构化领域数据、非结构化领域数据的自动构建方法。目前，针对半结构化领域数据的知识图谱自动构建方法都是针对特定领域中的特定数据，各领域之间的自动构建方法无法进行很好的迁移，面对新领域中的半结构化数据需要重新针对该领域中数据进行设计新的知识图谱自动构建方法。

中国专利文献CN111949828公布了一种面向半结构化表格的水稻栽培模式知识图谱自动构建方法，通过固定半结构化表格，按照数据在表格中的位置和对特定类型数据格式和值的规定，以及提前规定好的概念与概念之间的关系实现对数据的自动提取。然而，该方法对数据的要求较高，提取的方法较为死板，不能对其他领域的知识图谱进行迁移，使得对另外领域的知识图谱进行构建时要重新提出方法，浪费人力，这也是目前很多领域知识图谱构建方法的缺点。

发明内容

针对现有技术中的缺陷，本发明的目的在于提供一种提高了知识图谱自动构建方法的适用范围、减少了构建知识图谱所需要成本的面向半结构化领域数据的知识图谱自动构建方法。

为解决上述问题，本发明的技术方案为：

一种面向半结构化领域数据的知识图谱自动构建方法，所述方法包括以下步骤：

S1：准备用于构建领域知识图谱的半结构化领域数据；

S2：创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库；

S3：结合所述规则库，将半结构化数据自动转换为结构化数据，完成数据的自动提取；

S4：生成与所提供数据和规则相对应的概念-实体关系集；

S5：将概念-实体关系集存入数据库；以及

S6：根据概念-实体关系集构建知识图谱和更新知识图谱。

可选地，所述步骤S1中准备的半结构化数据为表格形式，表格中列名为概念类别，每个概念类别下的数据为对应概念类别的实例数据。

可选地，所述步骤S2具体包括：对于要提取的数据为结构化数据，将正则表达式定义为保留全部字符；对于要提取的数据为半结构化数据，需要在正则表达式中定义数据匹配样式；对于要提取的数据为非结构化数据，需要对非结构化数据进行数据的清洗和提取。

可选地，所述步骤S3具体包括：

读取规则库中所有规则，暂存在数组ru中；

结合所读取的规则，利用正则表达式清洗和提取数据；

将处理过后的数据暂存在数组d中。

可选地，所述结合所读取的规则，利用正则表达式清洗和提取数据的步骤具体包括：按行遍历除列名之外的表格，获取表格每一行每一列单元格的值，同时遍历表格中列名和所有规则，如果列名和规则数组ru中存储的列名相同时，则将原先的列名替换为规则数组ru中对应元素的图谱中概念并使用对应元素中所定义的正则表达式，对该列名所在下标的元素使用正则表达式进行数据清洗和提取。

可选地，所述对数据的清洗和提取具体包括：使用对应的正则表达式对实例数据进行匹配，如果匹配不成功，则返回空字符串，如果匹配成功，则将所匹配到的内容通过间隔符号进行拼接之后返回整个字符串。

可选地，所述步骤S4具体包括：遍历规则数组ru，找到规则数组ru中关系值为null的元素，读取关系为null的元素的列名值，将数组d中该列名所在列与第一列进行交换；遍历数组d，在列与列中间加入关系列，根据规则数组ru,找到和当前概念相同的图谱中概念的元素，将该元素中的关系值插入列与列之间，得到概念-实体关系数组d_r，从而得到与所提供数据和规则相对应的概念-实体关系集。

可选地，所述步骤S5具体包括：遍历步骤S4得到的概念-实体关系数组d_r，按行依次将概念、对应实例数据及其实例与实例之间的关系存入数据库。

可选地，所述步骤S6具体包括：如果数据与之前处理的数据结构相同，则重复步骤S3更新知识图谱，否则，重复步骤S1构建知识图谱。

与现有技术相比，本发明针对半结构化领域数据，通过用户提供规则库来完成对半结构化数据的清洗、提取，自动抽取出构建知识图谱所需的概念及其实例数据，根据规则库自动生成概念-实体关系集，自动构建了知识图谱，可以减少或避免在对不同结构表格形式半结构化数据构建知识图谱时，需要针对不同数据、不同领域采用不同方法的问题，提高了知识图谱自动构建方法的适用范围和效率，减少了在构建知识图谱过程中所需的成本，为实现对普遍表格形式半结构化数据自动构建领域知识图谱提供方案。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例提供的面向半结构化领域数据的知识图谱自动构建方法流程框图；

图2为本发明实施例提供的将半结构化数据自动转换为结构化数据的流程示意图；

图3为本发明实施例提供的生成概念-实体关系集的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

图1为本发明实施例提供的面向半结构化领域数据的知识图谱自动构建方法流程框图，如图1所示，所述方法包括以下步骤：

S1：准备用于构建领域知识图谱的半结构化领域数据；

具体地，准备的半结构化数据为表格形式存在，表格中列名为概念类别，每个概念类别下的数据为对应概念类别的实例数据。若干表格中对实例数据类型、数据长度等没有严格的要求，并且每张表中所含概念不必完全相同，但每张表中相同概念所对应的实例数据类型、结构应保持一致，如下表1和表2所示，其中表1表示表格形式半结构化数据模式图，表1中仅含有概念1和概念2；表2表示另外一种表格形式半结构化数据模式图，表2中则含有概念1、概念3、概念5，表中概念数量不确定，并且包含的所需概念也不确定。

概念1	概念2
		半结构化数据	非结构化实例数据

表1

概念1	概念3	概念5
			半结构化数据	结构化数据	非结构化实例数据

表2

具体地，规则以<表格中概念>：概念类别名，<图谱中概念>：概念类别名，<关系>：关系名，<数据提取规则>：正则表达式的形式存储。其中，<表格中概念>和<图谱中概念>为唯一值，不可重复出现。概念与概念之间的关系为唯一存在一对多关系的概念与其余概念之间的关系，其中唯一存在一对多关系的概念的关系名为null。正则表达式用于对相应概念实例数据的清洗，便于从大量质量不足以直接使用的数据中提取出符合概念的实例数据。

对于要提取数据为结构化数据来说，只需将正则表达式定义为保留全部字符即可，同时也可以用户根据需要自行定义规则，例如，保留全部字符正则表达式为：([\w\W]*)。

对于要提取数据为半结构化数据来说，需要在正则表达式中定义数据匹配样式，例如json类型的数据，提取指定属性值正则表达式为：属性名:(.*)，

对于要提取数据为非结构化数据来说，主要是对非结构化数据进行数据的清洗，例如去除乱码、英文等，也可进行部分特殊形式数据的提取。例如，

提取日期正则表达式为：([0-9].*？)-([0-9].*？)-([0-9]{1,2})

提取email地址正则表达式为：^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$

提取域名正则表达式为：

[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.？

只保留中文正则表达式为：^[\u4e00-\u9fa5]{0,}$

另外，用户也可根据需求自行定义规则。

其中，将原先半结构化数据自动转换为结构化数据是自动构建知识图谱的基础，具体流程如图2所示，所述将半结构化数据自动转换为结构化数据具体包括：

首先读取规则库中所有规则，暂存在数组ru中。

然后，结合所读取的规则，利用正则表达式清洗和提取数据；

具体地，按行遍历除列名之外的表格，获取表格每一行每一列单元格的值V＝{{1,v1},{1,v2}…{n,Vn}}，其中V表示每一行每一列单元格值的集合，{1,v1}表示第一行第一列单元格的值，{1,v2}表示第一行第二列单元格的值，{n,vn}表示第n行第n列单元格的值，同时遍历表格中列名和所有规则，如果列名和规则数组ru中存储的列名相同时，则将原先的列名替换为规则数组ru中对应元素的<图谱中概念>并使用对应元素中所定义的正则表达式，对该列名所在下标的元素使用正则表达式进行数据清洗和提取，其中对数据的清洗和提取具体包括：使用对应的正则表达式对实例数据进行匹配，如果匹配不成功，则返回空字符串，如果匹配成功，则将所匹配到的内容通过间隔符号进行拼接之后返回整个字符串。

最后，将处理过后的数据暂存在数组d中。

S4：生成与所提供数据和规则相对应的概念-实体关系集；

具体地，生成与所提供数据和规则相对应的概念-实体关系集的流程如图3所示，首先，遍历上述规则数组ru，找到规则数组ru中关系值为null的元素，读取关系为null的元素的列名值，将数组d中该列名所在列与第一列进行交换；遍历数组d，在列与列中间加入关系列，根据规则数组ru,找到和当前概念相同的图谱中概念的元素，将该元素中的关系值插入列与列之间，得到概念-实体关系数组d_r，从而得到与所提供数据和规则相对应的概念-实体关系集。

S5：将概念-实体关系集存入数据库；

具体地，遍历步骤S4得到的概念-实体关系数组d_r，按行依次将概念、对应实例数据及其实例与实例之间的关系存入数据库。其中实体节点的名称对应概念-实体关系集中各概念的值，节点内属性为概念-实体关系集中各个概念对应的实例数据，其中实例数据按照数据的清洗和提取中所使用间隔符进行分隔并分别创建节点，节点之间的关系为概念-实体关系集中表示概念之间关系的列。

S6：根据概念-实体关系集构建知识图谱和更新知识图谱。

具体地，如果数据与之前处理的数据结构相同，则重复步骤S3更新知识图谱，否则，重复步骤S1构建知识图谱。

下面具体以以csv格式存在的长江大保护从2019年3月到2020年4月的舆情数据为例，来具体说明本发明面向半结构化领域数据的知识图谱自动构建方法如下：

步骤1：准备用于构建领域知识图谱的半结构化领域数据；

以长江大保护2019年3月5号到2019年5月31号的舆情数据csv表格为例，其中，列名为概念类别，有标题/微博内容、评论内容、地址、媒体名称、发布日期、媒体类型、自媒体账号、属性、摘要、地域等实例数据。

步骤2：创建包括概念在知识图谱中的名字、概念与概念之间的关系、实例数据提取正则表达式的规则库；

本实施例采取用户在前端自定义规则的方式建立规则库，本实施例所需的概念类别有标题/微博内容、地址、媒体名称、发布日期、媒体类型、摘要、地域，分别在知识图谱中的名字为label、url、medianame、pubdate、mediatype、abstract、region。其中url为唯一有一对多关系的概念，关系分别为url-website-label、url-MN-medianame、url-releasedate-pubdate、url-summary-abstract、url-area-region，正则表达式分别为：

label:([^A-Za-z\p{Punct}])、

url:(http://[^\u4e00-\u9fa5].*|https://[^\u4e00-\u9fa5].*)、

medianame:([^\p{Punct}])、

pubdate:([0-9].*？)-([0-9].*？)-([0-9]{2})、

mediatype:([^A-Za-z\p{Punct}])、

abstract:([\u4e00-\u9fa5])、

region:([^A-Za-z\p{Punct}])。

例如标题，最后以<表格中概念>：标题/微博内容，<图谱中概念>：label，<关系>：website，<数据提取规则>：([^A-Za-z\p{Punct}])的形式存储在数据库中。

步骤3：结合所述规则库，将半结构化数据自动转换为结构化数据，完成数据的自动提取；

将原先半结构化数据自动转换为结构化数据是自动构建知识图谱的基础。具体步骤包括：

首先读取规则库中所有规则，暂存在数组ru中；

读取步骤2规则库中所有规则，暂存在数组ru中，例如其中的标题以{<表格中概念>：标题/微博内容，<图谱中概念>：label，<关系>：website，<数据提取规则>：([^A-Za-z\p{Punct}])}的形式存储在数组ru中。

获取到csv列名为标题/微博内容、地址、媒体名称、发布日期、媒体类型、摘要、地域、是否转发、账号类型、涉及词。

具体地，按行遍历除列名之外的csv表格，获取表格每一行每一列单元格的值V＝{{1,v1},{1,v2}…{n,Vn}}，其中V表示每一行每一列单元格值的集合，{1,v1}为1，{1,v2}为学校在安徽省第八届“挑战杯”竞赛中喜获佳绩2019，{n,vn}表示第n行第n列单元格的值，同时遍历csv文件列名，其中获取到csv列名为标题/微博内容、地址、媒体名称、发布日期、媒体类型、摘要、地域、是否转发、账号类型、涉及词，和规则数组ru，如果列名和数组ru中元素存储的列名相同时，则将原先的列名替换为数组ru中元素的图谱中概念类别名并使用对应数组ru中元素所定义的正则表达式，对该列名所在下标的元素使用正则表达式进行数据清洗和提取，其中对数据的清洗和提取具体包括：使用对应的正则表达式对实例数据进行匹配，如果匹配不成功，则返回空字符串，如果匹配成功，则将所匹配到的内容通过间隔符号进行拼接，例如空格符、逗号，之后返回整个字符串。

最后，将处理过后的数据暂存在数组d中。

步骤4：生成与所提供数据和规则相对应的概念-实体关系集；

遍历上述规则数组ru，找到其中属性为关系且值为null的元素，也就是元素{<表格中概念>：地址，<图谱中概念>：url，<关系>：null，<数据提取规则>：(http://[^\u4e00-\u9fa5].*|https://[^\u4e00-\u9fa5].*)}。读取关系值为null的元素的图谱中概念类别名url。将数组d中该列名所在列与第一列进行交换。遍历数组d，在列于列中间加入关系列，根据规则数组ru,找到和当前概念相同的图谱中概念的元素，将该元素中的关系值插入列于列之间，得到概念-实体关系数组d_r，从而得到与所提供数据和规则相对应的概念-实体关系集。

步骤5：将概念-实体关系集存入数据库；

遍历步骤4得到的概念-实体关系数组d_r，同时从数组d_r的第一行的第二个元素开始遍历奇数列。按照Cypher语句创建以数组d_r第一个列名为节点名，数组d_r第一列当前行为属性值的节点以及以当前列为节点名，当前单元格为属性值的节点。存入节点时，首先遍历当前Neo4j数据库查看是否有已存在的相同节点，如果有则跳过，否则创建节点。之后用Cypher语句构建以RELATION为关系名，relation为属性名，当前列的前一列的当前行的单元格的值为属性值的关系。

步骤6：根据概念-实体关系集构建知识图谱和更新知识图谱。

如果数据与之前处理的数据结构相同，则重复步骤3更新知识图谱，否则，重复步骤1构建知识图谱。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述方法包括以下步骤：

S1：准备用于构建领域知识图谱的半结构化领域数据；

S4：生成与所提供数据和规则相对应的概念-实体关系集；

S5：将概念-实体关系集存入数据库；以及

S6：根据概念-实体关系集构建知识图谱和更新知识图谱。

2.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S1中准备的半结构化数据为表格形式，表格中列名为概念类别，每个概念类别下的数据为对应概念类别的实例数据。

3.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S2具体包括：对于要提取的数据为结构化数据，将正则表达式定义为保留全部字符；对于要提取的数据为半结构化数据，需要在正则表达式中定义数据匹配样式；对于要提取的数据为非结构化数据，需要对非结构化数据进行数据的清洗和提取。

4.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S3具体包括：

读取规则库中所有规则，暂存在数组ru中；

结合所读取的规则，利用正则表达式清洗和提取数据；

将处理过后的数据暂存在数组d中。

5.根据权利要求4所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述结合所读取的规则，利用正则表达式清洗和提取数据的步骤具体包括：按行遍历除列名之外的表格，获取表格每一行每一列单元格的值，同时遍历表格中列名和所有规则，如果列名和规则数组ru中存储的列名相同时，则将原先的列名替换为规则数组ru中对应元素的图谱中概念并使用对应元素中所定义的正则表达式，对该列名所在下标的元素使用正则表达式进行数据清洗和提取。

6.根据权利要求5所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述对数据的清洗和提取具体包括：使用对应的正则表达式对实例数据进行匹配，如果匹配不成功，则返回空字符串，如果匹配成功，则将所匹配到的内容通过间隔符号进行拼接之后返回整个字符串。

7.根据权利要求6所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S4具体包括：遍历规则数组ru，找到规则数组ru中关系值为null的元素，读取关系为null的元素的列名值，将数组d中该列名所在列与第一列进行交换；遍历数组d，在列与列中间加入关系列，根据规则数组ru,找到和当前概念相同的图谱中概念的元素，将该元素中的关系值插入列与列之间，得到概念-实体关系数组d_r，从而得到与所提供数据和规则相对应的概念-实体关系集。

8.根据权利要求7所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S5具体包括：遍历步骤S4得到的概念-实体关系数组d_r，按行依次将概念、对应实例数据及其实例与实例之间的关系存入数据库。

9.根据权利要求1所述的面向半结构化领域数据的知识图谱自动构建方法，其特征在于，所述步骤S6具体包括：如果数据与之前处理的数据结构相同，则重复步骤S3更新知识图谱，否则，重复步骤S1构建知识图谱。