CN112148735B

CN112148735B - 一种用于结构化表格数据知识图谱的构建方法

Info

Publication number: CN112148735B
Application number: CN202011008018.8A
Authority: CN
Inventors: 顾磊; 陈骁
Original assignee: Shanghai Eisoo Information Technology Co Ltd
Current assignee: Shanghai Eisoo Information Technology Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2023-05-26
Anticipated expiration: 2040-09-23
Also published as: CN112148735A

Abstract

本发明涉及一种用于结构化表格数据知识图谱的构建方法，包括以下步骤：获取源数据；对源数据进行预处理，以生成得到单词林；根据实体核搜索算法，从单词林中筛选得到实体核；基于实体核，根据主表筛选算法，依次确定实体对应的实体主表、实体关系表和无效表；结合规则组合以及最大连续字符匹配的方式，以确定实体属性；根据实体属性、实体主表、实体关系表以及表格外键约束信息，确定实体关系，以完成本体的构建；按照本体，将表格数据导入图数据库中，得到对应的知识图谱。与现有技术相比，本发明通过深入挖掘结构化表格数据，以得到包含实体、实体属性及实体关系的本体，能够实现自动、高效、准确构建对应知识图谱的目的。

Description

一种用于结构化表格数据知识图谱的构建方法

技术领域

本发明涉及知识图谱技术领域，尤其是涉及一种用于结构化表格数据知识图谱的构建方法。

背景技术

随着人工智能领域的不断发展和渗透，越来越多的企业使用人工智能相关技术深化应用场景，企业数据的数量和种类也随之增加，传统的关系型数据库可以达到海量数据存储的目的，但无法满足企业日益增长的个性化和智能化需求，于是探索新的数据表示形式，探索数据之间的关系，挖掘数据深层次的价值成了企业未来的发展方向。

知识图谱是近年来人工智能领域新的知识体系组织形式，其以图的方式展现知识、以三元组的结构存储知识，相比于传统的表格存储数据，知识图谱具备更广阔、更先进的应用前景，而如何将传统关系型数据库里的表格数据便捷、准确地转换成图数据库里的知识、构建知识图谱，则是企业数据管理和分析人员亟需解决的问题。

传统构建知识图谱的方式是人工手动构建，即人为定义本体、定义构建知识图谱所需的实体、实体属性及实体关系，并按照本体从具体数据中提取相关知识，自顶向下构建知识图谱，这是领域知识图谱构建的一般方法，由于结构化表格数据通常是复杂且不规范的，如：英文名称大小写、缩写问题；数据类型不一致；数据缺失或重复；特殊符号等，因为其在名称上的不规范导致很难实现本体的自动构建和知识的自动提取，若采用人工手动构建的方式，则往往只能依靠专业人员进行操作，且存在泛化性弱、效率低、知识图谱质量不高的问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于结构化表格数据知识图谱的构建方法，针对结构化表格数据，采用自底向上的构建方式，以实现高效、准确构建知识图谱的目的。

本发明的目的可以通过以下技术方案来实现：一种用于结构化表格数据知识图谱的构建方法，包括以下步骤：

S1、获取源数据，其中，源数据包括表格结构、表格数据和表格外键约束信息；

S2、对源数据进行预处理，以生成得到单词林；

S3、根据实体核搜索算法，从单词林中筛选得到实体核；

S4、基于实体核，根据主表筛选算法，依次确定实体对应的实体主表、实体关系表和无效表，其中，实体具体为与实体核相组合的单词；

S5、结合规则组合以及最大连续字符匹配的方式，以确定实体属性；

S6、根据实体属性、实体主表、实体关系表以及表格外键约束信息，确定实体关系，以完成本体的构建；

S7、按照本体，将表格数据导入图数据库中，得到对应的知识图谱。

进一步地，所述步骤S1具体是从传统关系型数据库中获取源数据，所述源数据的表格结构包括表名和列名。

进一步地，所述步骤S2具体是采用分词工具或分词规则将所有表名、列名拆分成单词碎片，若表名或列名为英文，则继续对单词碎片进行标准化处理，所述标准化处理包括去除时态、单复数以及大小写干扰，以得到标准化的小写的单词集合。

进一步地，所述步骤S3中实体核搜索算法具体为：

S31、获取单词对应的实体核搜索第一要素：判断单词在所有表名或列名中是否出现，若单词在某表名或列名中出现，则标记为1，否则标记为0，将所有标记1累加后除以所有表格总数，即得到该单词对应的实体核搜索第一要素；

S32、获取单词对应的实体搜索第二要素：当单词作为其他单词的前缀或后缀时，统计其他单词的种类数目，即为该单词对应的实体核搜索第二要素；

S33、将单词对应的实体核搜索第一要素和第二要素进行求积运算，得到单词对应的实体核计算值；

S34、将所有单词对应的实体核计算值按照从大到小的顺序进行排序，并排除对应于日期的单词，排序第一的单词即为实体核。

进一步地，所述步骤S4中主表筛选算法具体为：

S41、获取表格对应的主表筛选第一要素：判断表名中是否存在该实体，若存在，则标记为1，否则标记为0；

S42、获取表格对应的主表筛选第二要素：判断表名中是否存在其他实体，若存在，则标记为0，否则标记为1；

S43、获取表格对应的主表筛选第三要素：判断表格的列名中是否存在实体核和实体的组合，若存在，则标记为1，否则标记为0；

S44、获取表格对应的主表筛选第四要素：统计表格所有列名中出现实体的次数，即为该表格对应的主表筛选第四要素；

S45、获取表格对应的主表筛选第五要素：判断表格的列名中是否存在实体核和实体的组合，若存在，则计算该表格的表名长度，即为该表格对应的主表筛选第五要素，否则不计算该表格的表名长度；

S46、根据表格对应的主表筛选第一要素、第二要素、第三要素和第四要素，得到表格对应的主表筛选计算值：

M＝(t1+t2)*t3*t4

其中，M为主表筛选计算值，t1、t2、t3和t4分别为主表筛选第一要素、第二要素、第三要素和第四要素；

S47、将所有表格对应的主表筛选计算值按照从大到小的顺序进行排序，其中排序第一的表格即为实体主表，若存在排序第一的数据与之后的数据相同的情况，则取主表筛选第五要素最小的主表作为实体主表。

进一步地，所述步骤S4中实体关系表的确定过程为：首先汇总主表筛选第三要素标记为1的所有表格，之后从汇总表格中除去实体主表，即得到实体关系表；

无效表的确定过程具体为：从所有表格中除去实体主表和实体关系表，即得到无效表。

进一步地，所述步骤S5具体包括以下步骤：

S51、判断实体主表的列名中是否存在实体，若存在，则该列名即为实体属性，否则执行步骤S52；

S52、判断该列名是否存在其他实体，若判断为是，则过滤掉该列名，否则执行步骤S53；

S53、对列名以及步骤S51中确定的实体属性进行最大连续字符匹配，通过设定比例阈值，以筛选出不超过比例阈值的列名作为实体属性；

S54、对所有实体属性进行排序：首先按照单词长度由短到长的顺序，对步骤S51中获得的实体属性进行排序，之后无序地将步骤S53中获得的实体属性排列在后面。

进一步地，所述步骤S6中确定实体关系的具体过程为：

S61、从实体主表获取实体关系：将实体主表的列与其他实体的属性对齐，确定实体关系为本实体指向其他实体；

S62、从实体关系表获取实体关系：将实体关系表的列与相应实体的属性对齐，确定实体关系为两个实体之间的单向关系，该实体关系无方向要求；

S63、从表格外键约束获取实体关系：首先判断含有外键约束的表格的类型，若该含有外键约束的表格为实体主表或实体关系，则按照步骤S61或S62的操作获取实体关系，且需按照外键约束信息定义关系方向；

若该含有外键约束的表格为无效表，则不执行任何操作。

进一步地，所属步骤S7具体包括以下步骤：

S71、针对实体及对应的实体属性，在图数据库中建立相应的实体类；

S72、在图数据库中建立实体关系类，对所有实体属性建立索引，按照索引导入实体关系，根据实体关系的三种获取来源导入具体数据。

进一步地，所述图数据库具体为orientdb图数据库，所述索引具体选用SB-Tree索引的UNIQUE类型。

与现有技术相比，本发明具有以下优点：

一、本发明在构建本体的过程中，从源数据出发，依次通过数据预处理、实体核搜索、实体主表筛选以及实体属性排序，能够伸入挖掘出结构化表格数据之间的联系，从而能够准确地提取出实体、实体属性和实体关系，从而保证知识图谱本体构建的准确性。

二、本发明在数据预处理过程设置分词及标准化处理、采用要素组合规则的方式分别设计实体核搜索算法和实体主表筛选算法、采用组合规则结合最大连续字符匹配的方式确定实体属性以及从实体主表、关系表和表格外键约束中获取实体关系，以此解决数据形式不一致的问题、杜绝构建知识图谱过程中的干扰现象，从而实现自动、高效构建知识图谱的目的。

三、本发明提出的知识图谱构建方法，针对结构化表格数据，能够适用中文和英文数据，具有泛化性高的优点。

附图说明

图1为本发明的方法流程示意图；

图2为本发明知识图谱构建的过程示意图；

图3为实施例中构建的本体示意图；

图4为实施例中构建的知识图谱示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

如图1所示，一种用于结构化表格数据知识图谱的构建方法，包括以下步骤：

S2、对源数据进行预处理，以生成得到单词林；

S3、根据实体核搜索算法，从单词林中筛选得到实体核；

上述方法的具体应用过程如图2所示：

1、源数据获取

传统关系型数据库包括mysql、oracle，还有大数据平台的hive，接口程序将按配置选择当前数据库的类型，并获取数据库的表格结构、表格数据和表格外键约束信息，允许表格数据和约束缺失，但不允许表格结构缺失，包括表名或列名的缺失。在命名上中文和英文各自统一，相对规范，本实施例以英文举例，中文同样适用：本实施例使用的是企业英文数据集，其部分表和部分列如表1所示。

表1

/>

2、单词林生成

利用分词工具或者规则将所有表名、列名拆分成单词碎片，对于英文，则需将单词碎片标准化，去掉时态、单复数、大小写等干扰，得到标准化的小写的单词集合。本实施例使用的数据集所获得的单词林列举如表2所示。注：以下所有步骤和过程都需要把表名、列名标准化并建立映射词典，利用标准化后的单词做分析和处理。

表2

position	cost	area	contract	apply
					email	user	line	detail	way
id	date	approve	price	review
					creator	money	customer	order	update
moditime	sellin	special	config	city
					num	license	website	sumary	no
type	pro	sort	mod	time
					isdelete	level	sku	creat	…

3、确定实体核

实体核是实体的标志，是单词林中某个满足条件的单词，寻找实体核的组合规则算法如下：

要素1：单词在所有表的表名或列名中出现与否占表格总数的比例，如表“Customer_info”，其包含的单词是customer和info，那么该表对于这两个单词就是“1”，在列名中出现也是一样，统计各个单词对于所有表出现的数目和表格总数，计算比例。

要素2：单词作为前缀或后缀与其他单词组合，“其他单词”的种类数目，比如列名“projectId”和“areaId”，在第2步后就有“project”,“area”和“id”，其中对于“project”和“area”“其他单词”的种类是1，对于“id”则是2。

组合规则算法是：对要素1和要素2求积，再降序排列，除去日期(英文中date)，排序第一的单词确定为实体核，在要素2计算过程中与实体核相组合的单词确定为实体，除去日期(date)是为了避免表中日期字段过多对实体确定的干扰。本数据集经这一步确定的实体核的靠前输出结果如表3所示，由此可知“id”为实体核。

表3

单词	id	name	date	type	price	status	projct	no
									计算结果	1.76	1.16	0.44	0.35	0.32	0.25	0.18	0.17

4、确定实体主表、实体关系表和无效表

实体主表是实体属性的汇总表，而对于实体关系，实体主表和关系表中存在形式也是不同的，为了获取实体属性和关系，有必要区分实体主表和关系表，判断主表的组合规则算法是：

要素1：表名中是否存在该实体，存在则为1，否则为0。

要素2：表名在是否存在其他实体，存在则为0，否则为1。

要素3：表的列名中是否存在实体核和该实体的组合，存在则为1，否则为0。

要素4：表所有列名的单词碎片集合中该实体出现次数次数，统计每张表出现次数得到数值，一般而言，实体主表相对于其他表，对于该实体描述最详细，在列中出现的次数也最多。

要素5：表名最短，计算要素3中所涉及表的表名的长度，一般而言，属于某实体的主表表名是相对简略的。

组合规则算法是：(要素1+要素2)*要素3*要素4，结果按降序排列，取最前，如果有并列，则按要素5选表名最短的。

各个实体主表确定了以后，各自确定过程中要素3所涉及的表的汇总除去实体主表即是实体关系表，其他的为无效表，当然无效表也有可能因实体属性存在关系，但为构建相对可靠的知识图谱，去掉一些意义不充分的表是合适的。

5、确定实体属性

确定实体属性具体是采用组合规则+最大连续字符匹配的方法，具体实现步骤如下：

1)组合规则：

对每个实体及其主表，主表列名中包含该实体单词的为该实体的属性，剩余的列需判断是否包含有其他实体单词，若有，将其过滤掉，剩余部分列使用最大连续字符匹配算法进行过滤。

2)最大连续字符匹配这里特指两个英文单词在头部或尾部最大匹配的字符长度，该算法用于将英文名称简写的列对齐到相应实体的属性上(注：中文不适用)，在当前主表判断属性过程中将能对齐的列滤除，在英文原始数据中，命名形式不一致的情况在各表之间是存在的，比如“project”会简写成“pro”，具体实现如下：

(1)将该列与步骤1)中已得的实体属性做最大连续字符匹配，统计头部和尾部匹配到的字符数目，再除以两者最短的字符长度，按从大到小排序，取前三位进入下一步。

(2)对于该列所在的主表和上一步中获得的属性对应的实体的主表，判断前者该列在表中的前十条数据在后者对应属性的数据中是否存在，设定存在比例阈值，若超过阈值则判定该列为该实体的属性，在该列所在的主表中予以滤除，并将两者的对应关系保存，在实体关系的判定中使用，若未超阈值则将该列作为该主表所属实体的属性。如实体“customer”的主表中存在列“proId”，实体“project”的主表中存在“projectId”，两者在第一步中计算结果为1，在实际数据中存在数据缺失的情况，因此上述的阈值设定偏小，如0.2，在具体数据中有超过20％的数据存在，则判定两者一致，在“customer”属性判断中将列“proId”滤除。

3)实体属性排序：

将实体和实体核的组合排在第一位，然后步骤1)中获得的属性按单词长度由短到长排在后面，最后将步骤2)得到的未超过阈值的部分无序地排在后面。因表格缺失导致存在没有实体主表的实体，对于这种实体，其属性将会由所有实体主表和实体关系表中的列收集得到，采用简单判断：列名中包含该实体且不包含其他实体，该列作为该实体的属性。

此外，在实际应用中，还可基于预训练词向量模型的向量距离以确定实体属性，其具体方法为：对于英文单词，在字母级别使用英文语料训练词嵌入模型，对于中文词语，在单字级别训练中文语料训练词嵌入模型，对于1)中实体主表中所有列，将其映射为向量，计算待判断的列与其他已定的属性之间的余弦距离，得到与该列相接近的属性，设定阈值，如果超过该阈值，则同样进入步骤2)的第(2)步骤在数据层面进一步判断。向量距离是自然语言处理领域常见的判断单词相似性的方法，使用该方法来将单词映射到向量空间，判断实体属性，预训练的词向量模型则保证了比较好地向量初始化。

6、确定实体关系

实体关系是一种有向关系，因为是自动抽取，未预先定义关系，故关系名称采用代表性名称，如实体A与实体B的关系为“A2B”，B与A的关系为“B2A”，实体关系的来源有以下三点：

1)实体主表

实体主表中除了涉及本实体外，也可能会涉及其他实体，主表的列需要与其他实体的属性对齐，参考步骤5中所述，关系方向为本实体指向其他实体。

2)关系表

关系表因为没有属于自己的实体，故需要建立所有相关实体两两之间的关系，表中的列与实体属性对齐的方式如步骤5确定实体属性中所述，实体全部获得后，两两建立单向关系，方向不作要求。

3)表的外键约束

先判断含有外键约束的表是实体主表还是关系表，如果是无效表则不做处理，否则按如上步骤1)、步骤2)对应进行处理，关系方向依据外键定义的方向，若有冲突则以外键约束为准。

通过上面六个步骤处理后，本实施例构建得到的本体如图3所示。

7、导入图数据库

接口提供neo4j、orientdb等图数据库导入方案，上述六个步骤是本体的构建过程，本体构建完成后需要在图数据库中建立模式层，并按本体将关系型数据库中的具体数据导入到图数据库以构成数据层，该过程分为：

1)对实体主表和无主表的实体及各自的属性在图数据库中建立实体类，然后依据其依存的表导入具体数据。

2)在图数据库中建立实体关系类，因为导入数据的过程中需要频繁的获取关系所对应的实体，为了顺利和高效地导入实体关系，需在导入数据前去重，并需在模式层建立好之后建立索引，表4罗列了orientdb所支持的索引类型，本实施例使用SB-Tree索引的UNIQUE类型，并且对实体的全部属性建立复合索引以方便导入。

表4

索引原型	索引类型
		SB-Tree索引	UNIQUE
	NOTUNIQUE
			FULLTEXT
	DICTIONARY
		Hash索引	UNIQUE_HASH_INDEX
	NOTUNIQUE_HASH_INDEX
			FULLTEXT_HASH_INDEX
	DICTIONARY_HASH_INDEX
		Lucene索引
Lucene空间索引

3)根据实体关系的三种来源导入具体数据，导入关系的过程中需根据表中涉及的实体所有属性到步骤1)中对应实体个体。导入完成后知识图谱如图4所示。

综上所述，本发明提出的知识图谱自动构建方法，属于自底向上构建知识图谱，对于数据源，关系型数据库中的数据复杂且不规范，如：英文名称大小写、缩写问题；数据类型不一致；数据缺失或重复；特殊符号等，因为其在名称上的不规范导致很难实现本体的自动构建和知识的自动提取，本发明提出的知识图谱自动构建方法从原始数据出发，采取的措施是使用多种数据处理方法、组合规则和向量距离的方式以寻找数据之间的联系，并从中提取出知识图谱本体所包含的三种元素：实体、实体属性和实体关系，并在本体基础上抽取数据构建知识图谱，本发明所使用的技术包含组合规则算法、最大连续字符匹配和基于预训练词向量模型的余弦距离，组合规则算法是数据处理过程中常见的算法，但视具体应用场景规则和组合方式都不同，其目的一般是解决数据一致性问题、排序问题和分类问题等数据问题，在本发明中寻找实体核、提取实体属性和实体关系中都有不同的实现。

本发明提供了一种对关系型数据库中数据快速构建知识图谱的过程，区别于D2RQ过程，自动对关系型数据库里的数据进行抽取的工具如Ontop和D2RQ，其作用是把关系数据库转为虚拟RDF数据，其本质上并不是在构建知识图谱，也没有本体，而本发明能够对结构化表格数据进行本体挖掘，挖掘出数据中的核心概念，以准确定义实体，并围绕实体确定了其属性和相关关系，最终依据本体构建知识图谱；

本发明是自动构建知识图谱的过程，相对于手工构建更加高效，另外，在构建过程中对数据有众多处理过程，最大限度克服了数据形式不一致对构建知识图谱的干扰，并保证了知识图谱的质量；

本发明的泛化性高，对中文和英文都有所考量，比较适用于关系型数据的一般形式，企业可根据具体数据形式对数据格式化以适用于本发明或对本发明的部分过程进行修改以适用于具体的数据形式；

本发明能够为企业挖掘、展示、分析、处理数据信息、发挥数据价值提供一种更先进的思路和方法。

Claims

1.一种用于结构化表格数据知识图谱的构建方法，其特征在于，包括以下步骤：

S2、对源数据进行预处理，以生成得到单词林；

S3、根据实体核搜索算法，从单词林中筛选得到实体核；

S7、按照本体，将表格数据导入图数据库中，得到对应的知识图谱；

所述步骤S1具体是从传统关系型数据库中获取源数据，所述源数据的表格结构包括表名和列名；

所述步骤S2具体是采用分词工具或分词规则将所有表名、列名拆分成单词碎片，若表名或列名为英文，则继续对单词碎片进行标准化处理，所述标准化处理包括去除时态、单复数以及大小写干扰，以得到标准化的小写的单词集合；

所述步骤S3中实体核搜索算法具体为：

S34、将所有单词对应的实体核计算值按照从大到小的顺序进行排序，并排除对应于日期的单词，排序第一的单词即为实体核；

所述步骤S4中主表筛选算法具体为：

M＝(t1+t2)*t3*t4

S47、将所有表格对应的主表筛选计算值按照从大到小的顺序进行排序，其中排序第一的表格即为实体主表，若存在排序第一的数据与之后的数据相同的情况，则取主表筛选第五要素最小的主表作为实体主表；

所述步骤S4中实体关系表的确定过程为：首先汇总主表筛选第三要素标记为1的所有表格，之后从汇总表格中除去实体主表，即得到实体关系表；

无效表的确定过程具体为：从所有表格中除去实体主表和实体关系表，即得到无效表；

所述步骤S5具体包括以下步骤：

S54、对所有实体属性进行排序：首先按照单词长度由短到长的顺序，对步骤S51中获得的实体属性进行排序，之后无序地将步骤S53中获得的实体属性排列在后面；

所述步骤S6中确定实体关系的具体过程为：

若该含有外键约束的表格为无效表，则不执行任何操作。

2.根据权利要求1所述的一种用于结构化表格数据知识图谱的构建方法，其特征在于，所述步骤S7具体包括以下步骤：

3.根据权利要求2所述的一种用于结构化表格数据知识图谱的构建方法，其特征在于，所述图数据库具体为orientdb图数据库，所述索引具体选用SB-Tree索引的UNIQUE类型。