CN108733793B

CN108733793B - 一种面向关系数据库的本体模型构造方法及系统

Info

Publication number: CN108733793B
Application number: CN201810456743.8A
Authority: CN
Inventors: 赵俊峰; 王亚沙; 王江涛; 崔达; 王丰
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2019-12-10
Anticipated expiration: 2038-05-14
Also published as: CN108733793A

Abstract

本发明涉及一种面向关系数据库的本体模型构造方法及系统。该方法包括以下步骤：1)提取关系数据库的元信息；2)对提取的关系数据库的元信息进行冗余信息检测；3)对提取的关系数据库的元信息进行外键检测；4)通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。本发明在构造本体模型的过程中加入了“冗余信息检测”和“外键检测”两个步骤，分别用于检测存在的冗余信息以及缺失的外键定义，可以更加高效地通过关系型数据库建立本体模型；建立的本体模型可以为底层的数据库构建统一的视图，为上层应用提供统一的接口，从而方便数据的应用与分析。

Description

一种面向关系数据库的本体模型构造方法及系统

技术领域

本发明涉及一种基于本体的数据处理方法和系统构造，属于多源异构数据处理领域，具体涉及一种面向关系数据库的本体模型构造方法及系统。

背景技术

随着信息技术的发展和应用，智慧城市的各个领域均涌现出大量的应用系统。在同一个领域的多个系统往往提供类似的功能和服务，例如，在二手房交易信息中介领域，存在58同城、安居客、我爱我家、搜房网等几十个不同的平台；在餐饮信息管理领域，存在喰星人、品智、餐行健、客如云、思迅等数十家功能和服务相似的系统。而智慧城市中存在大量集成同一领域多个不同应用系统数据的需求，这类需求广泛存在于市民、企业和政府中。例如：市民为了全面了解一个城市中二手房的信息，希望集成多个房屋租赁信息中介平台中的数据；政务希望评估城市中二手房市场也有同样的需求；而一个餐饮集团下的不同门店、品牌一般采用不同的餐饮信息管理系统，为了全面了解整个集团的营销状况，也需要集成不同系统中餐饮收银的数据。如何有效地进行数据集成，建设跨系统、跨领域，且具有统一抽象视图的全面数据集是智慧城市建设的共性需求。现有的城市系统中，数据存储结构日趋多样化，但是关系型数据库系统仍然是主流数据存储方式。

数据集成的任务是联合不同数据来源的数据，并且向用户提供统一的数据视图。而智慧城市中的应用系统具有不同程度的局部性、异构性和封闭性，给数据集成系统的设计带来了严峻的考验。局部性是指单一应用系统数据体量小，且由于自身业务模型的原因，对领域的理解具有一定的局限性，数据集成系统为了满足使用需求必须集成多个系统中的数据；异构性是指不同的系统，在数据模型、数据模式、数据语义、表达粒度等方面存在不同程度的差异，为了提供统一的数据视图，数据集成系统必须屏蔽异构性；封闭性是指系统和系统之间难以直接地进行数据交互，往往依赖于特定的数据调用接口来完成系统间的交流和协作，数据集成系统除了提供统一数据视图之外，还需要为数据源之间的互操作提供良好的支持机制。

数据集成有两种解决思路，一种是“基于两两模式直接匹配的数据集成”，即数据源和数据源之间两两直接匹配，然后将不同数据源中相同含义的概念串联起来，这种方式耦合性低且易于实现，但在数据源数量较大的情况下，难以形成对领域概念的统一表述，生成完整的统一数据视图比较困难。另一种主流思路是“基于中介模型的数据集成”，不同的数据源模式仅和中介模型进行匹配，利用中介模式作为桥梁，屏蔽数据源间的异构性，此方案还适用于集成大量数据源，有效地解决局部性问题。用户针对中介模式提出逻辑上的数据查询请求，经过映射转化为针对各物理数据源的查询请求，所有请求的结果返回后，经过汇总呈现给用户。

发明内容

本发明主要是解决现有技术所存在的技术问题，提供一种面向关系数据库的本体模型构造方法及系统，在构造本体模型的过程中加入了“冗余信息检测”和“外键检测”两个步骤，分别用于检测存在的冗余信息以及缺失的外键定义，可以更加高效地通过关系型数据库建立本体模型。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种面向关系数据库的本体模型构造方法，包括以下步骤：

1)提取关系数据库的元信息；

2)对提取的关系数据库的元信息进行冗余信息检测；

3)对提取的关系数据库的元信息进行外键检测；

4)通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。

进一步地，所述关系数据库的元信息包括表、列及约束，通过数据库定义语言DDL中的Show tables语句和Describe[table]语句来获得元信息。

进一步地，步骤2)采用以下四种规则中的一种或多种来进行冗余信息检测：实例判定法、时间判定法、关联判定法、后缀判定法。

进一步地，所述时间判定法为：

a)定义数据库表最近一次插入或删除的时间、最近一次更新的时间、最近一次被查询的时间中最晚的那个时间为最近活跃时间；

b)通过解析数据库日志，将其分隔为时间戳和SQL查询的组合，对SQL查询进行语法分析，得到其查询的目标对象表，进而得到每个表的最近活跃时间；

c)如果表的最近活跃时间距离当前时间超过预先设定的阈值，则该表被判定为不活跃。

进一步地，综合所述四种规则，采用积分制来判断冗余信息；对于数据库中的表和列，初始为满分，违反其中任意一条规则均扣除一定的分数，低于特定分数的元素将被标记为冗余信息。

进一步地，同时提供面向领域专家和数据库设计人员的界面，将不同判断规则以积分制的形式进行综合，用于人工地对冗余信息进行界定。

进一步地，在冗余信息检测阶段先不考虑所述关联判定法的结果，待外键检测执行完毕后再实施一次关联判定。

进一步地，步骤3)所述进行外键检测，首先找出所有符合包含关系的列对，然后使用机器学习中的分类器方法来判断一个包含关系是否是外键关系；所述分类器方法包括三个步骤：特征提取、训练集构造、模型训练。

进一步地，对于列A和B，A包含于B，所述特征提取是提取以下特征：A不同值的基数、值区间覆盖率、值覆盖率、字符串相似度、特定后缀、AB所属表大小比例；所述模型训练是采用BP神经网络训练得到外键分类器。

进一步地，步骤4)所述映射规则包括：数据类型映射、组成成分映射、约束映射。

一种面向关系数据库的本体模型构造系统，其包括：

元信息提取单元，用于提取关系数据库的元信息；

冗余信息检测单元，用于对提取的关系数据库的元信息进行冗余信息检测；

外键检测单元，用于对提取的关系数据库的元信息进行外键检测；

映射单元，用于通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。

本发明的有益效果是：

1)利用本体模型可以将多元异构的关系型数据库的模型转化为本体模型表示，作为中间层面向应用提供统一的接口；

2)利用一系列优化的模式匹配方法，可以提高从数据库模型转化为本体模型的效率和准确度。在构造本体模型的过程中加入了“冗余信息检测”和“外键检测”两个步骤，分别用于检测存在的冗余信息以及缺失的外键定义，可以更加高效地通过关系型数据库建立本体模型。

3)建立的本体模型可以为底层的数据库构建统一的视图，为上层应用提供统一的接口，从而方便数据的应用与分析。

附图说明

图1：本地模型的构造流程图。

图2：关系型数据库Describe语句示例图。

图3：BP神经网络示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的本体模型构造流程如图1所示，包括以下步骤：

1.元信息提取：

元信息提取阶段主要目标在于提取数据库中的表、列及约束。这三者可以通过数据库定义语言DDL中的Show tables语句和Describe[table]语句来获得。前者可以查询当前数据库中的所有表的名称，后者可以查看表的基本定义，其中包括字段名称，字段数据类型，是否为主键，是否为空和默认值。

图2显示了对关系型数据库中某个表的Desribe语句查询结果，其中，“Field”列是表列的名称，“Type”列是数据类型，“Null”列是该列是否允许被设定为空值，“Key”列表示键信息，Key列为PRI的是主键列，Key列为MUL的是索引列，“Default”列是列的默认值，“Extra”列是该列的额外约束信息，除了Field列以外均可以看作是对数据本身的约束。

2.冗余信息检测：

本发明采用四种方法来识别数据库中的冗余信息。

1)实例判定法

一般来说，只要数据库的某个表或者某个列中存在着值，那么这个表和列就具备一定的作用，反之，空表和空列则没有任何利用的价值。因此，可以通过计算表和列的实例数量来判断冗余性。

对于列来说，如果在最近的部分插入行中始终为空或始终为零，则有理由认为这个列是被废弃列，即使其曾经有过非空的值。例如，订单表中有“打折活动ID”这个列，该列在最近30％插入的数据中均为空值，则很有可能商家变更营销策略，导致该列废弃。

2)时间判定法

数据库表的每一行的插入都是有顺序的，定义数据库表最近一次插入(Insert)或删除(Delete)的时间、最近一次更新(Update)的时间、最近一次被查询(Select)的时间中最晚的那个时间为最近活跃时间。通过解析数据库日志，将其分隔为时间戳和SQL查询的组合，对SQL查询进行语法分析，得到其查询的目标对象表，进而能够得到每个表的最近活跃时间。如果表的最近活跃时间距离当前时间太久(比如超过一预先设定的时间阈值)，则这个表被判定为不活跃，不活跃的表通常是临时表、备份表。同样的方法对于数据库列并不适用，原因在于，大多数的数据库使用者均存在一定程度上的select*语句的滥用，因此无法推知一个列准确的最近活跃时间。

3)关联判定法

一个不存在任何关联关系的表，很可能是无用的。原因在于关联关系实际上刻画的是关系数据库的抽象概念模型中概念和概念之间的关系，和其他概念不发生关联关系的孤立概念，极有可能是冗余的。临时表、备份表、日志表、IT设施表常常不存在关联关系。

4)后缀判定法

某些类型的冗余信息可能在元素命名上存在一定的特征。例如临时表的后缀通常为tmp，备份表的后缀通常为back或bak，日志表的后缀通常是log，这种约定俗成的命名习惯，有利于冗余信息的判定。

本发明综合以上四种启发式判断冗余信息的规则，采用积分制，对于数据库中的表和列来说，初始为满分，违反其中任意一条规则均会扣除一定的分数，低于特定分数的元素将被标记为冗余信息。在第三条规则中，“外键定义缺失”的现象会导致误判，因此，在“冗余信息检测”阶段先不考虑关联判定法的结果，待“外键检测”执行完毕后再实施一次关联判定。

当然，任何通过机器判定冗余信息的方法都不能保证百分之百准确和完备，因此，本发明系统还提供了面向领域专家和数据库设计人员的界面，将不同判断规则以积分制的形式进行综合，用于人工地对冗余信息进行界定。

3.外键检测：

外键的前提条件是实例集的包含，即如果列A是外键，引用列B，那么A的所有实例必然是B的所有实例的一个子集。为了找出所有符合包含关系的列对，本发明首先使用Spider算法，判断A的实例集S(A)是否属于B的实例集S(B)，见下面算法1。

上述算法1采用自然语言描述如下：

1)为判断实例集S1被S2包含，对两个集合中的元素按照相同的规则进行排序；

2)采用二重循环，外层循环为一个实例集S1，内层循环为另一个实例集S2，依次比较元素是否相等

3)如果对于外层循环S1中的元素，不存在S2中的元素与其相等，则返回非包含；

4)如果成功执行完成所有循环，则返回包含。

本发明使用机器学习中的分类器方法来判断一个包含关系是否是外键关系，构造分类器模型主要包括三个步骤，特征提取、训练集构造、模型训练。

挑选合适的特征是影响分类效果的关键，经过观察，外键关系与非外键关系上存在以下适合用于分类的特征，对于列A和B，A包含于B，本发明针对该元素对提取以下特征值：

A不同值的基数，即Set(A)的大小，作为外键的列一般包含有若干个不同的值，否则B的大多数实例均不存在一个A中的依赖实例。

值区间覆盖率，值区间偏离衡量的是A和B最大值最小值所形成的区间的覆盖程度，外键往往会涵盖被引用键值的大部分区间，例如A的值域为[4,100]，B的值域为[2,200]，则值区间覆盖率为(100–4)/(200–2)＝48.5％。

值覆盖率，与值区间覆盖不同的是，值覆盖考虑的是独立的值而不是区间，外键往往会引用某个比例的B中的实例，例如A的实例集合为{1,3,4,6}，B的实例集合为{1,2,3,4,6,8,10}，则值覆盖率为|Set(A)|/|Set(B)|＝4/7＝57.1％，其中|Set(A)|、|Set(B)|分别表示A、B的实例集合中元素的个数。

字符串相似度，外键列和引用列在字符串上具备一定的相似度，实际数据库设计中常常将外键列的名称设置为引用列的名称，但也有例外，例如引用自身所属表的外键，无论是何种情况，外键列和引用列在字符串相似度上均很高。

特定后缀，外键列常常会含有类似于“id”、“key”等等后缀。

AB所属表大小比例，通常情况下，外键列引用了不只一次被引用表的实例，例如订单项中的菜品ID，可能有多个相同的值，代表了某道菜被点了不止一次。这里Set(B)的大小即为B的所有实例数量，所以这一指标可以理解为被引用表的实例被平均引用的次数。

以上是本发明的外键检测算法所用到的特征，本发明选择任意一关系型数据库作为训练集，人工地标注出数据库中的所有外键，然后提取出所有的包含关系，计算它们的上述特征，构造出训练集，采用BP神经网络训练出一个外键分类器。分类器的输入是一个包含关系对<A,B>的特征，输出是<A,B>是否构成外键关系，如图3所示。

需要说明的是，本发明既可以先进行冗余信息检测，再进行外键检测，也可以先进行外键检测，再进行冗余信息检测。这两种顺序都可以。

4.映射规则：

经过元信息提取、外键检测、冗余信息过滤后，有效数据的抽象概念模型就被提取出来，然后通过模型映射法将其用本体来进行表达。本发明所述“本体”是指特定领域共享概念模型的形式化规范说明，被广泛地用于刻画特定领域的知识模型。

本发明的映射主要分为三个层面，分别是数据类型映射、组成成分映射、约束映射。

(1)数据类型映射

本体和关系型数据库关于数据类型的定义是不同的，因此在构造本体模型之前，首先需要解决不同数据类型的差异，OWL(Web Ontology Language，网络本体语言)使用XML模式定义语言(XSD)中定义的数据类型，数据类型的映射如表1所示(表1中的英文名称为本领域公知的)。

表1.数据类型映射

(2)组成成分映射

关系型数据库(RDB)由表和列构成，本体主要由类、对象属性、数据属性构成。主要有表2所示的几种组成成分映射规则。

表2组成成分映射

(3)约束映射

数据库中列的约束主要存在于列中，主要有三种NOT NULL,UNIQUE,CHECK，其中NOT NULL表示非空，UNIQUE表示该列的值唯一，CHECK子句用于限定列允许的值，MYSQL会对其进行分析，但是会被直接忽略。因此也可以选择不映射CHECK约束。

与上面方法对应的，本发明另一实施例一种面向关系数据库的本体模型构造系统，其包括：

元信息提取单元，用于提取关系数据库的元信息；

下面以餐行健餐饮系统的数据为基础，说明如何利用本发明方法并利用该系统的数据库生成本体模型。

本实施例利用前端js和后端java servlet配合，提供了一个网页版服务，用户可以直接从网页中导入数据库，后端会自动完成元信息提取，外键关系检测，冗余信息过滤的步骤。并将生成的本体自动存储，且在前端页面上展示出来。这一部分主要包含预处理模块和本体构造模块，主要分为以下步骤：

用户可以在网页前端提交所选用的数据库地址，系统获取数据库之后，首先需要进行元信息提取，提取数据库的基本信息，包括表信息、列信息、索引、备注和键信息。主要通过关系型数据库的DML和DDL语言中定义的以下四条语句来查询：

SHOW TABLES：查看当前数据库有哪些数据库表。

DESCRIBE[table]：查看某数据库表的名称、类型、是否为空、默认值、是否是主键，是否添加了索引。

SELECT*FROM INFORMATION_SCHEMA.KEY_COLUMN_USAGE：查看所有的外键列及其引用的表和主键。

SELECT*FROM INFORMATION_SCHEMA.COLUMNS：查看表的备注。

然后，需要通过外键检测模块对数据进行检测，使用了开源机器学习项目Weka下的反向传播网络，引入外部包weka.jar。对于一个事先已经标注好外键的数据库，首先利用Spider算法找出所有的IND(包含)关系<A,B>，即A的实例集合包含于B的实例集合，然后利用所有的IND关系构造出训练集fktrain.arff文件。由于外键关系占IND关系的比例非常小，可以在arff文件中存入若干倍的外键关系。

利用Weka下的MultilayerPerceptron分类器类，读取fktrain.arff文件，生成一个分类模型，对于给定的IND关系，判定其为外键关系的可能性。

之后进行冗余检测，一种是利用实例抽取模块从数据库中抽取实例，计算表的大小以及最近若干比例的列实例是否为恒定为空，一种是利用SQL日志分析模块获取到的表的最近使用时间，一种是利用元信息抽取模块得到的外键关系判断表是否孤立。

本体构造使用Java包jena.java，利用了Jena创建本体、添加类、添加属性、添加标签等基本操作，在内存中构造出本体模型，并且支持持久化。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种面向关系数据库的本体模型构造方法，其特征在于，包括以下步骤：

1)提取关系数据库的元信息；所述关系数据库的元信息包括表、列及约束；

2)对提取的关系数据库的元信息进行冗余信息检测；采用以下四种规则中的一种或多种来进行冗余信息检测：实例判定法、时间判定法、关联判定法、后缀判定法；所述实例判定法通过计算表和列的实例数量来判断冗余性；所述时间判定法通过表的最近活跃时间进行冗余信息检测；所述关联判定法将不存在关联关系的表作为冗余信息；所述后缀判定法通过表的后缀进行冗余信息检测；

3)对提取的关系数据库的元信息进行外键检测；所述进行外键检测，首先找出所有符合包含关系的列对，然后使用机器学习中的分类器方法来判断一个包含关系是否是外键关系；

所述分类器方法包括三个步骤：特征提取、训练集构造、模型训练；

2.根据权利要求1所述的方法，其特征在于，通过数据库定义语言DDL中的Show tables语句和Describe[table]语句来获得元信息。

3.根据权利要求1所述的方法，其特征在于，所述时间判定法为：

c)如果步骤b)得到的表的最近活跃时间距离当前时间超过预先设定的阈值，则该表被判定为不活跃。

4.根据权利要求1所述的方法，其特征在于，步骤2)采用所述四种规则来进行冗余信息检测，包括：综合所述四种规则，采用积分制来判断冗余信息；对于数据库中的表和列，初始为满分，违反其中任意一条规则均扣除一定的分数，低于特定分数的元素将被标记为冗余信息；同时提供面向领域专家和数据库设计人员的界面，将不同判断规则以积分制的形式进行综合，用于人工地对冗余信息进行界定。

5.根据权利要求1所述的方法，其特征在于，在步骤2)的冗余信息检测阶段先不考虑关联判定法的结果，待步骤3)的外键检测执行完毕后再实施一次关联判定法；所述关联判定法将不存在关联关系的表作为冗余信息。

6.根据权利要求1所述的方法，其特征在于，对于列A和B，A包含于B，所述特征提取是提取以下特征：A不同值的基数，即A中不同的值的个数；值区间覆盖率，即A和B中最大值最小值所形成的区间的覆盖程度；值覆盖率，即A、B的实例集合中元素的个数的比值；字符串相似度，即外键列和引用列在字符串上的相似度；特定后缀，即外键列名的后缀；AB所属表大小比例，即B中被A引用的值的平均被引用次数；所述模型训练是采用BP神经网络训练得到外键分类器。

7.根据权利要求1所述的方法，其特征在于，步骤4)所述映射规则包括：数据类型映射、组成成分映射、约束映射。

8.一种面向关系数据库的本体模型构造系统，其特征在于，包括以下步骤：

元信息提取单元，用于提取关系数据库的元信息；所述关系数据库的元信息包括表、列及约束；

冗余信息检测单元，用于对提取的关系数据库的元信息进行冗余信息检测；采用以下四种规则中的一种或多种来进行冗余信息检测：实例判定法、时间判定法、关联判定法、后缀判定法；所述实例判定法通过计算表和列的实例数量来判断冗余性；所述时间判定法通过表的最近活跃时间进行冗余信息检测；所述关联判定法将不存在关联关系的表作为冗余信息；所述后缀判定法通过表的后缀进行冗余信息检测；

外键检测单元，用于对提取的关系数据库的元信息进行外键检测；所述进行外键检测，首先找出所有符合包含关系的列对，然后使用机器学习中的分类器方法来判断一个包含关系是否是外键关系；所述分类器方法包括三个步骤：特征提取、训练集构造、模型训练；