CN108710663A

CN108710663A - 一种基于本体模型的数据匹配方法及系统

Info

Publication number: CN108710663A
Application number: CN201810455882.9A
Authority: CN
Inventors: 王亚沙; 赵俊峰; 王江涛; 崔达; 夏丁
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2018-10-26
Anticipated expiration: 2038-05-14
Also published as: CN108710663B

Abstract

本发明涉及一种基于本体模型的数据匹配方法及系统。该方法包括：1)对数据库和本体模型中的所有待匹配元素对进行相似度计算，得到其相似度；2)利用步骤1)得到的相似度进行相似度传播，以对相似度进行补全；3)利用步骤2)得到的相似度，对所有待匹配元素对进行匹配仲裁，若待匹配元素对的相似度达到阈值，则认为待匹配元素对相互匹配。所述匹配仲裁是循环迭代的过程，利用匹配仲裁后的所有匹配元素对，通过多轮迭代获取优化的相似度匹配结果。本发明能够将多源异构的数据库和本体模型建立映射，将不同的数据库用相同的本体进行表达，为上层服务提供一个统一的视图，使得上层应用可以更方便地管理和使用数据。

Description

一种基于本体模型的数据匹配方法及系统

技术领域

本发明涉及一种数据匹配方法和系统，属于数据分析领域，具体涉及一种基于本体模型的数据匹配方法及系统。

背景技术

随着信息技术的发展和应用，智慧城市的各个领域均涌现出大量的应用系统。在同一个领域的多个系统往往提供类似的功能和服务，例如，在二手房交易信息中介领域，存在58同城、安居客、我爱我家、搜房网等几十个不同的平台；在餐饮信息管理领域，存在喰星人、品智、餐行健、客如云、思迅等数十家功能和服务相似的系统。而智慧城市中存在大量集成同一领域多个不同应用系统数据的需求，这类需求广泛存在于市民、企业和政府中。例如：市民为了全面了解一个城市中二手房的信息，希望集成多个房屋租赁信息中介平台中的数据；政务希望评估城市中二手房市场也有同样的需求；而一个餐饮集团下的不同门店、品牌一般采用不同的餐饮信息管理系统，为了全面了解整个集团的营销状况，也需要集成不同系统中餐饮收银的数据。如何有效地进行数据集成，建设跨系统、跨领域，且具有统一抽象视图的全面数据集是智慧城市建设的共性需求。现有的城市系统中，数据存储结构日趋多样化，但是关系型数据库系统仍然是主流数据存储方式。

数据集成的任务是联合不同数据来源的数据，并且向用户提供统一的数据视图。而智慧城市中的应用系统具有不同程度的局部性、异构性和封闭性，给数据集成系统的设计带来了严峻的考验。局部性是指单一应用系统数据体量小，且由于自身业务模型的原因，对领域的理解具有一定的局限性，数据集成系统为了满足使用需求必须集成多个系统中的数据；异构性是指不同的系统，在数据模型、数据模式、数据语义、表达粒度等方面存在不同程度的差异，为了提供统一的数据视图，数据集成系统必须屏蔽异构性；封闭性是指系统和系统之间难以直接地进行数据交互，往往依赖于特定的数据调用接口来完成系统间的交流和协作，数据集成系统除了提供统一数据视图之外，还需要为数据源之间的互操作提供良好的支持机制。

数据集成有两种解决思路，一种是“基于两两模式直接匹配的数据集成”，即数据源和数据源之间两两直接匹配，然后将不同数据源中相同含义的概念串联起来，这种方式耦合性低且易于实现，但在数据源数量较大的情况下，难以形成对领域概念的统一表述，生成完整的统一数据视图比较困难。另一种主流思路是“基于中介模型的数据集成”，不同的数据源模式仅和中介模型进行匹配，利用中介模式作为桥梁，屏蔽数据源间的异构性，此方案还适用于集成大量数据源，有效地解决局部性问题。用户针对中介模式提出逻辑上的数据查询请求，经过映射转化为针对各物理数据源的查询请求，所有请求的结果返回后，经过汇总呈现给用户。

发明内容

本发明主要是解决现有技术所存在的技术问题，提供了一种基于本体模型的数据匹配方法，采用该方法，能够将多源异构的数据库和本体模型建立映射，将不同的数据库用相同的本体进行表达，为上层服务提供一个统一的视图，使得上层应用可以更方便地管理和使用数据。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于本体模型的数据匹配方法，包括以下步骤：

1)对数据库和本体模型中的所有待匹配元素对进行相似度计算，得到其相似度；

2)利用步骤1)得到的相似度进行相似度传播，以对相似度进行补全；

3)利用步骤2)得到的相似度，对所有待匹配元素对进行匹配仲裁，若待匹配元素对的相似度达到阈值，则认为待匹配元素对相互匹配。

进一步地，所述匹配仲裁是循环迭代的过程，利用匹配仲裁后的所有匹配元素对，通过多轮迭代获取优化的相似度匹配结果。

进一步地，步骤1)所述相似度计算包括：字符串相似度计算、实例相似度计算、模式信息相似度计算。

进一步地，所述字符串相似度包括中文字符串相似度和英文字符串相似度；所述英文字符串相似度使用编辑距离来计算；所述文字符串相似度在计算时，将两个字符串切分成单词，通过计算单词间的相似度得到整体字符串的相似度。

进一步地，所述实例相似度计算的步骤包括：

a)建立实例统计向量；

b)评估实例统计向量之间的距离：前期缺少匹配的实例对时，使用欧氏距离来评估向量之间的距离，得到一部分已匹配的实例对后，采用机器学习方法评估向量之间的距离。

进一步地，所述模式信息相似度包括表模式信息相似度和列模式信息相似度。

进一步地，步骤2)所述相似度传播包括：表列到表的传播，表到表的传播，表到表列的传播。

进一步地，步骤3)所述匹配仲裁包含三个阶段：

3-1)相似度综合：将各种相似度计算方法进行综合，包括表相似度综合和列相似度综合，从而计算数据库表和本体模型的相似度；所述表相似度综合，是对数据库表和本体中的类的以下相似度进行综合：基于字符串的匹配算法给出的字符串相似度；基于模式信息的匹配算法给出的模式信息相似度；基于表到表的相似度传播给出的关联相似度；基于列到表的相似度传播给出的子节点相似度；所述列相似度综合，是对数据库表列和本体中的属性的以下相似度进行综合：基于字符串的匹配算法给出的字符串相似度；基于模式信息的匹配算法给出的模式信息相似度；基于实例的匹配算法给出的实例相似度；表到列的传播给出的父节点相似度；

3-2)置信度熵计算：利用步骤3-1)得到的综合的相似度计算所有元素对之间的匹配置信度，并计算信息熵；

3-3)相似度判定：利用信息熵并引入阈值，选择最大匹配置信度的元素作为匹配结果。

进一步地，采用以下步骤构造所述本体模型：a)提取关系数据库的元信息；b)对提取的关系数据库的元信息进行冗余信息检测；c)对提取的关系数据库的元信息进行外键检测；d)通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。

一种基于本体模型的数据匹配系统，其包括：

相似度计算模块，负责对数据库和本体模型中的所有待匹配元素对进行相似度计算，得到其相似度；

相似度传播模块，负责利用得到的相似度进行相似度传播，以对相似度进行补全；

匹配仲裁模块，负责利用相似度对所有待匹配元素对进行匹配仲裁，若待匹配元素对的相似度达到阈值，则认为待匹配元素对相互匹配；所述匹配仲裁是循环迭代的过程，利用匹配仲裁后的所有匹配元素对，通过多轮迭代获取优化的相似度匹配结果。

与现有技术相比，本发明具有如下优点：

1.抽象层次高，可以高效地将同源的异构数据库基于本体模型进行数据融合，且方便上层应用对底层数据的访问；

2.匹配准确度高，综合了多种匹配方法，并采用了相似度传播的方法使得匹配效果可以逐渐迭代，取得更好效果。

附图说明

图1是本发明方法的流程图。

图2是表到表的相似度传播示意图。

图3是表到列的相似度传播示意图。

图4是模式匹配实例示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步详细说明。

图1是本发明的基于本体模型的数据匹配方法的整体流程图，该方法主要包括以下内容：

1.一种基于字符串的匹配算法。该算法包括英文的字符串匹配算法和中文字符串匹配算法。

1.1)英文字符串匹配算法：英文字符串相对于中文字符串长度要更长，适宜使用编辑距离来衡量两个字符串之间的差异。编辑距离指的是两个字符串之间，由一个转成另一个所需的最少编辑次数，编辑操作包括增加、删除、替换。与通常的编辑距离计算不同的是，对于替换操作，除了原本的字符替代以外，本发明系统还允许代价为0的同义词的替换。显然，两个字符串可能的最大编辑距离为二者长度的最大值。根据两个字符串的长度和最大编辑距离，可以算出两个字符串的相似度。

1.2)中文字符串匹配算法：使用Word2Vec将词语转化为词向量，在计算数据库元素的中文标签的相似度之前，首先需要明确单词和单词之间的相似度计算方法。在获得了每个词的词向量之后，由于每个词向量都是经过归一化的，因此词向量的夹角即是两个词向量的相似度，夹角的大小通常使用余弦函数来衡量。

例如，两个单词W_i和W_j，其所对应的词向量分别为V_i＝<v_i1,v_i2…v_in>和V_j＝<v_j1,v_j2…v_jn>，则单词W_i和W_j的相似度为：

为了衡量任意两个中文字符串的相似度，首先要将两个字符串切分成一个个单词，通过计算单词间的相似度，得到整体字符串的相似度。分词工具切分出的两个单词集合分别为TokenList1和TokenList2，对于TokenList1中的每个单词，在TokenList2中找相似度最大的那个单词，将该相似度进行累计，最终除以TokenList1集合的大小，即得到字符串相似度大小。下面算法1具体描述了考虑同义词的中文字符串匹配算法。

上述算法1采用自然语言描述如下：

a)对两个待匹配字符串分词得到两个词语列表TokenList1和TokenList2，初始化字符串相似度为0；

b)遍历TokenList1中的词，寻找TokenList2中和该词相似度最大的词，特别地，如果存在两个词是同义词，则相似度为1，将相似度值作为本轮的结果累加到字符串相似度上；

c)将累加得到的字符串相似度除以TokenList1的长度，作为最终返回的字符串相似度。

1.3)对于任意的元素对，都拥有中文字符串相似度和英文字符串相似度，本发明方法认为任何一种相似度较高均能够代表字符串相似度较高。因此采用如下的综合方法来计算元素E1和元素E2的字符串相似度，其中ChineseString_Similarity表示中文字符串相似度，English_String_Similarity表示英文字符串相似度：

String_Similarity(E1,E2)

＝1–(1–ChineseString_Similarity(E1,E2))

*(1–English_String_Similarity(E1,E2)

2.一种基于实例的匹配算法。该算法是一种通过分析数据的实际内容来判断元素间的相似性的方法，在数值上提出多种统计值作为特征，结合机器学习方法，来判断两个属性的相似度，具体操作如下。

首先关注最大值、最小值、中位数、平均数、区间范围、DC(Distinct count:不同值数量)、变异系数、DC占比、非空值占比。这些信息可以作为区分不同列的统计特征。以M种不同类型的统计量作为不同的特征维度，为数据库中的每个表列，生成M维的向量，记为实例统计向量，由于本体中的每一个属性都会映射到至少一个数据库中的表列，因此其实例统计向量的计算方法与数据库表列相同。对于值域不在[0,1]的统计值，采用sigmoid函数进行归一化。所述“本体”是指特定领域共享概念模型的形式化规范说明，被广泛地用于刻画特定领域的知识模型。

对于得到的向量，需要采用某种方式来衡量向量之间的距离，前期缺少匹配的实例对，使用欧氏距离来评估向量之间的距离，随着匹配的不断深入，会得到一部分已匹配的实例对，这样可以采用机器学习的方法对向量间的距离做出评估，机器学习法的权重取决于匹配的进程，假设当前有δ比例的列得到了匹配，则最终的实例相似度为：

InstanceSimilarity(E1,E2)＝(1-δ)EuclideanSim(E1,E2)+δMLSim(E1,E2)

其中，EuclideanSim表示列的实例统计向量的欧拉距离，MLSim表示列的统计向量通过机器学习算法计算出的距离。

3.一种基于模式信息的匹配方法。其中模式信息指的是在数据库DDL中创建的关于数据的说明，利用这些说明和本体中概念的约束，可以得出一定的相似性。

3.1)表模式信息相似度，每种数据库表的模式信息都能在本体中找到对应的信息，因此通过度量模式信息的相似性，就能得到表与类的相似度。

3.2)列模式信息相似度，数据库列的模式信息主要体现在数据类型、外键、主键上，主要是约束信息。本发明通过设定一系列的启发式规则来设置列和属性的模式信息相似度。

a)规则1：数据类型不同的列和属性的相似度为0；

b)规则2：外键列和非关联属性的相似度为0；

c)规则3：非外键列和关联属性的相似度为0；

d)规则4：非Unique列和Key属性的相似度为0。

4.一种相似度传播算法。根据包含关系，表的匹配情况会影响到其包含的列的匹配情况，表包含的所有列的匹配情况会影响到表的匹配情况。相似度的传播方向分为三种，分别是表列到表的传播，表到表的传播，表到表列的传播。为了更加清晰地描述相似度的传播，将每一个待匹配的元素对看做是节点，节点中包含了一个数据库元素和一个本体元素，依据是否存在某种关系将节点相连，形成一个网络传播图模型。具体包含三种传播方法。

4.1)一种列到表的传播方法。

构建一个网络模型加以说明。对于元素对<T,C>，假设T所包含的所有列为{A_1,…,A_m}，C所包含的所有属性为{P_1,…,P_n}，采用如下方法建立列到表的网络传播模型：

a)创建节点<T,C>；

b)对于任意的A_i(1<＝i<＝m)和P_j(1<＝j<＝n)，创建节点<A_i,P_j>；

c)连接节点<A_i,P_j>和节点<T,C>。

对于分别拥有两个列/属性的表T和类C来说，网络模型见附图3。

该问题被转化为二部图的问题，使用KM算法，KM算法使用“顶标”的概念，来对每个点出发的边权重最小值的规定，通过不断地减小“顶标”的值，容许将更多的边放到最终的边集中。执行匈牙利算法，找到一个最大匹配，而最大匹配的边集的权重和即为最大权重。KM的流程如下：

a)初始化顶标的值；

b)用匈牙利算法寻找最佳匹配；

c)若未找到完备匹配则修改顶标值；

d)重复b)和c)直到找到一个最佳匹配。

使用KM算法，计算出二部图的最大权重，作为衡量数据库表和本体中的类的相似度的标准。相似度的取值范围为[0,1]。二部图中最大权值的取值范围为min(m,n)。由于这种传播方式依赖的是子元素的相似度，故记做ChildrenSimilarity，最终通过传播计算得到的相似度为：

ChildrenSimilarity(T,C)＝KM(T,C)/min(m,n)

4.2)一种表到表的传播方法。

对于元素对<T,C>，和表T存在外键关联的所有表集合为{T_1,…,T_m}，和C存在关联关系的类集合为{C_1,…,C_n}。本发明采用如下方法建立表到表的网络传播模型：

a)创建节点<T,C>；

b)创建节点<Ti,Cj>，其中1<＝i<＝m&1<＝j<＝n,连接<Ti,Cj>到<T,C>的正向边；

c)创建节点<T,Cj>以及节点<Ti,C>，其中1<＝i<＝m&1<＝j<＝n，连接<T,Cj>以及节点<Ti,C>到<T,C>的负向边。

图2显示了以<T,C>为中心的部分网络图，其中负向边用虚线表示，正向边用实线表示。

对于每个<表，类>元素对，都有若干条指向它的边。这里，边分为两种类型，分别是正向边和负向边。

正向边指的是对于<T,C>匹配起到促进作用的边，简单而言，所有T的邻居和C的邻居组成的元素对的匹配，都会提高<T,C>匹配的概率，在网络传播模型中，沿着正向边传播正的相似度。

负向边指的是与<T,C>匹配起到遏制作用的边，由于匹配的排他性，任何包含T不包含C的元素对，任何包含C不包含T的元素对，均与<T,C>的匹配相矛盾，即这些元素对相似度越高，越能证明<T,C>的相似度越低，在网络传播模型中，沿着负向边传播负的相似度。

在实现表到表的相似度传播时，传播到每个元素对的相似度的数量是不同的，对于那些存在较多关联关系的表和关系组成的元素对，传播路径也较多，这样就会造成不公平的现象，因此，以平均相似度传播量作为相似度的衡量依据。

具体地，数据库元素T和本体类C所组成的元素对所获得的平均相似度传播量为：

其中<T_i,C_j>和<T,C>有正向边，<T_k,C_l>和<T,C>有负向边

基于这种方式求得的相似度增量的归一化方法为：对于所有的元素对，记其平均相似度增量的最大值为max_gain，最小值为min_gain。将区间[min_gain,max_gain]映射到[0,1]区间上即可。

其中，ConnectionSimilarity表示关联相似度。

4.3)一种表到列的传播方法。

采用如下方法建立表到列的相似度传播网络模型：

a)对数据库中的任意表T，本体中的任意类C，创建节点<T,C>；

b)对数据库中的任意列A，本体中的任意属性P，创建节点<A,P>；

c)对于节点<T,C>，<A,P>，如果T和A有包含关系，C和P有包含关系，则加一条<T,C>出发到<A,P>的边。

图3显示了表到列相似度传播网络模型的示例。

对于任意的<A,P>元素对节点，只有列A所属的表T和数据属性P所属的类C组成的元素对<T,C>存在指向该节点的传播路径。由于这种传播方式本质上和利用父节点的结构匹配算法相同，因而本发明将其命名为FatherSimilarity。传播值即为<T,C>的相似度。即：

FatherSimilarity(A,P)＝Sim(T,C)其中A包含于T，P包含于C。

5.一种匹配仲裁方法，包含三个阶段，分别是相似度综合，置信度熵计算，相似度判定。

5.1)一种相似度综合方法。分为表相似度综合和列相似度综合，计算数据库表和本体模型的相似度。

a)表相似度综合。

数据库表和本体中的类具备以下几种相似度：

基于字符串的匹配算法给出的字符串相似度，记做string_sim

基于模式信息的匹配算法给出的模式信息相似度，记做schema_sim

基于表到表的相似度传播给出的关联相似度，记做connection_sim

基于列到表的相似度传播给出的子节点相似度，记做children_sim

字符串相似度权重：

string_sim_weight＝max_string_sim_weight*string_sim

其中，max_string_sim_weight表示字符串相似度权重最大值。

模式信息相似度权重：

schema_sim_weight＝max_schema_sim_weight*(1-schema_sim)

其中，max_schema_sim_weight表示模式信息相似度权重最大值。

主要参考依据包括子节点相似度和关联相似度，由于main_weight并非是一个固定的值，所以取相对比例children_sim_pct，来作为子节点的权重比例，即：

子节点相似度权重：

children_sim_weight＝main_weight*children_sim_pct

关联相似度权重为：

connection_sim_weight＝main_weight*(1-children_sim_pct)

所以最终的表相似度综合结果为：

integrated_sim

＝string_sim*string_sim_weight+schema_sim*schema_sim_weight

+children_sim*children_sim_weight+connection_sim

*connection_sim_weight

b)列相似度综合。

数据库表列和本体中的属性具备以下几种相似度：

基于字符串的匹配算法给出的字符串相似度，记做string_sim

基于实例的匹配算法给出的实例相似度，记做instance_sim

表到列的传播给出的父节点相似度，记做father_sim

综合以上对不同相似度的分析，父节点相似度和模式相似度与综合相似度直接相关，是正比关系。字符串相似度与实例相似度需要进行加权。依照表相似度的权值计算方法设置字符串相似度的权值。

string_sim_weight＝max_string_sim_weight*string_sim

instance_sim_weight＝1-string_sim_weight

integrated_weight

＝schema_sim*father_sim*(string_sim_weight*string_sim

+instance_sim_weight*instance_sim)

5.2)一种置信度熵计算方法。

该方法是从元素对相似度出发，计算出元素对的匹配可信度的过程。相似度综合阶段根据不同类型的相似度特点，进行恰当地权值设置，得出综合相似度。为了能够衡量两个元素是否匹配，还需要计算元素间的匹配置信度。匹配置信度无法与相似度划上等号的原因在于，匹配具有排他性，不只需要考虑元素本身的匹配性质，还需要综合考虑其他元素与元素对中的元素的匹配状况。置信度计算的问题场景与稳定婚姻(stable marrige)类似，数据库元素对每个本体概念进行打分，本体概念也会对每个数据库元素进行打分。打分的值是被打分对象的综合相似度占所有匹配对象的综合相似度之和的比例。

经过置信度计算之后，系统得到了所有元素对之间的匹配置信度，数据库中的一个元素与若干个本体概念均存在置信度，且置信度之和为1。为了能够给出该数据库元素最终与哪一个本体概念相匹配，引入信息熵这一概念，熵来源于物理学中的热力学，用于判定一个系统的有序程度，一个系统越是有序，则熵越低，反之，一个系统越混乱，熵越高。

利用信息熵，能够量化匹配元素选择问题的不确定性，当不确定性较小时，选择最大置信度的元素作为匹配结果。信息熵的计算公式为：

其中，conf_j表示表示第i组元素对的匹配置信度，k表示一共有k组元素对。

5.3)一种相似度判定方法。

信息熵的最大值受到元素多少的影响，对于候选集合大小为K时，熵的最大值为lnK，信息熵的值域为[0,lnK]，引入阈值δ，当利用上文置信度熵计算方法计算出的阈值小于δlnK时，选择最大匹配置信度的元素作为匹配结果。

6.一种匹配反馈方法

上述提到的匹配仲裁方法在本发明中是一个循环迭代的流程，通过不断的迭代，使匹配算法得到的相似度得到收敛，得到最终的匹配相似度。因此，基于形成匹配的元素对，可以用于调整网络模型中节点的相似度从而减少无谓的计算，加快算法收敛；也可以用于优化匹配算法以取得更高的准确度。匹配反馈包括相似度调整和算法优化两部分。

6.1)一种相似度调整方法：

规则1：表排他性规则

对于匹配<T,C>，设置所有的元素对<Ti,C>,<T,Cj>为不匹配，其中Ti≠T,C≠Cj。

规则2：列排他性规则

对于匹配<A,P>，设置所有的元素对<Ai,P>，<A,Pj>为不匹配，其中Ai≠A,Pj≠P。

规则3：主键唯一原则

对于匹配<T,C>，若属性P是C的唯一Key属性，且T具有唯一主键A，则设置<A,P>匹配。

规则4：外键唯一原则

对于匹配<T,C>，<Ti,Cj>T和Ti之间具备唯一的外键A，且C和Cj之间具备关联关系P，则设置<A,P>匹配。

6.2)一种算法优化方法：

a)基于字符串的匹配算法

形成匹配的元素对，其所含的标签在大多数情况下是具有相同含义的，例如order[订单]和bill[账单]，提取匹配元素对的标签，形成特定数据源的同义词典，能够提高匹配算法的准确率。

当同义词典逐渐丰富的同时，原有的相似度较低的元素对会得到一定的提升，例如数据库中订单的金额的名称为order_total_amount，本体中订单金额的名称为bill_total，当发现order和bill是同义词时，其相似度会得到明显的提升。

b)基于实例的匹配算法

基于欧氏距离法计算得到的相似度不够精确，随着匹配的元素对逐渐增多，实例特征向量对可以形成训练集，训练得到一个分类模型。分类模型对于输入的实例特征向量对，输出其匹配的概率。当匹配元素对主键增多的时候，分类模型也愈加准确。

以餐饮信息管理为例，高档餐厅订单的各项金额指标，例如实收、应收、服务费等，都要全面地高于低档餐厅的相对应的指标，单纯地根据数据实例的最大值、最小值、平均值等信息是难以判定的。当收集到足够多的匹配元素对时，分类模型就足以区分出这种数据规模上的差异。

7.关于本体模型的构造

对于上述方法中提到的本体模型，本发明优选采用面向关系数据库的本体模型构造方法，在构造本体模型的过程中加入“冗余信息检测”和“外键检测”两个步骤，分别用于检测存在的冗余信息以及缺失的外键定义，可以更加高效地通过关系型数据库建立本体模型。

该面向关系数据库的本体模型构造方法，包括以下步骤：1)提取关系数据库的元信息；2)对提取的关系数据库的元信息进行冗余信息检测；3)对提取的关系数据库的元信息进行外键检测；4)通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。对各步骤具体说明如下：

7.1)元信息提取：

元信息提取阶段主要目标在于提取数据库中的表、列及约束。这三者可以通过数据库定义语言DDL中的Show tables语句和Describe[table]语句来获得。前者可以查询当前数据库中的所有表的名称，后者可以查看表的基本定义，其中包括字段名称，字段数据类型，是否为主键，是否为空和默认值。

7.2)冗余信息检测：

采用四种方法来识别数据库中的冗余信息。

a)实例判定法。一般来说，只要数据库的某个表或者某个列中存在着值，那么这个表和列就具备一定的作用，反之，空表和空列则没有任何利用的价值。因此，可以通过计算表和列的实例数量来判断冗余性。对于列来说，如果在最近的部分插入行中始终为空或始终为零，则有理由认为这个列是被废弃列，即使其曾经有过非空的值。例如，订单表中有“打折活动ID”这个列，该列在最近30％插入的数据中均为空值，则很有可能商家变更营销策略，导致该列废弃。

b)时间判定法。数据库表的每一行的插入都是有顺序的，定义数据库表最近一次插入(Insert)或删除(Delete)的时间、最近一次更新(Update)的时间、最近一次被查询(Select)的时间中最晚的那个时间为最近活跃时间。通过解析数据库日志，将其分隔为时间戳和SQL查询的组合，对SQL查询进行语法分析，得到其查询的目标对象表，进而能够得到每个表的最近活跃时间。如果表的最近活跃时间距离当前时间太久(比如超过一预先设定的时间阈值)，则这个表被判定为不活跃，不活跃的表通常是临时表、备份表。同样的方法对于数据库列并不适用，原因在于，大多数的数据库使用者均存在一定程度上的select*语句的滥用，因此无法推知一个列准确的最近活跃时间。

c)关联判定法。一个不存在任何关联关系的表，很可能是无用的。原因在于关联关系实际上刻画的是关系数据库的抽象概念模型中概念和概念之间的关系，和其他概念不发生关联关系的孤立概念，极有可能是冗余的。临时表、备份表、日志表、IT设施表常常不存在关联关系。

d)后缀判定法。某些类型的冗余信息可能在元素命名上存在一定的特征。例如临时表的后缀通常为tmp，备份表的后缀通常为back或bak，日志表的后缀通常是log，这种约定俗成的命名习惯，有利于冗余信息的判定。

综合以上四种启发式判断冗余信息的规则，采用积分制，对于数据库中的表和列来说，初始为满分，违反其中任意一条规则均会扣除一定的分数，低于特定分数的元素将被标记为冗余信息。在第三条规则中，“外键定义缺失”的现象会导致误判，因此，在“冗余信息检测”阶段先不考虑关联判定法的结果，待“外键检测”执行完毕后再实施一次关联判定。

当然，任何通过机器判定冗余信息的方法都不能保证百分之百准确和完备，因此，本发明系统还提供了面向领域专家和数据库设计人员的界面，将不同判断规则以积分制的形式进行综合，用于人工地对冗余信息进行界定。

7.3)外键检测：

外键的前提条件是实例集的包含，即如果列A是外键，引用列B，那么A的所有实例必然是B的所有实例的一个子集。为了找出所有符合包含关系的列对，首先使用Spider算法，判断A的实例集S(A)是否属于B的实例集S(B)，包括以下步骤：

a)为判断实例集S1被S2包含，对两个集合中的元素按照相同的规则进行排序；

b)采用二重循环，外层循环为一个实例集S1，内层循环为另一个实例集S2，依次比较元素是否相等

c)如果对于外层循环S1中的元素，不存在S2中的元素与其相等，则返回非包含；

d)如果成功执行完成所有循环，则返回包含。

本发明使用机器学习中的分类器方法来判断一个包含关系是否是外键关系，构造分类器模型主要包括三个步骤，特征提取、训练集构造、模型训练。

挑选合适的特征是影响分类效果的关键，经过观察，外键关系与非外键关系上存在以下适合用于分类的特征，对于列A和B，A包含于B，本发明针对该元素对提取以下特征值：

A不同值的基数，即Set(A)的大小，作为外键的列一般包含有若干个不同的值，否则B的大多数实例均不存在一个A中的依赖实例。

值区间覆盖率，值区间偏离衡量的是A和B最大值最小值所形成的区间的覆盖程度，外键往往会涵盖被引用键值的大部分区间，例如A的值域为[4,100]，B的值域为[2,200]，则值区间覆盖率为(100–4)/(200–2)＝48.5％。

值覆盖率，与值区间覆盖不同的是，值覆盖考虑的是独立的值而不是区间，外键往往会引用某个比例的B中的实例，例如A的实例集合为{1,3,4,6}，B的实例集合为{1,2,3,4,6,8,10}，则值覆盖率为|Set(A)|/|Set(B)|＝4/7＝57.1％，其中|Set(A)|、|Set(B)|分别表示A、B的实例集合中元素的个数。

字符串相似度，外键列和引用列在字符串上具备一定的相似度，实际数据库设计中常常将外键列的名称设置为引用列的名称，但也有例外，例如引用自身所属表的外键，无论是何种情况，外键列和引用列在字符串相似度上均很高。

特定后缀，外键列常常会含有类似于“id”、“key”等等后缀。

AB所属表大小比例，通常情况下，外键列引用了不只一次被引用表的实例，例如订单项中的菜品ID，可能有多个相同的值，代表了某道菜被点了不止一次。这里Set(B)的大小即为B的所有实例数量，所以这一指标可以理解为被引用表的实例被平均引用的次数。

以上是本发明的外键检测算法所用到的特征，本发明选择任意一关系型数据库作为训练集，人工地标注出数据库中的所有外键，然后提取出所有的包含关系，计算它们的上述特征，构造出训练集，采用BP神经网络训练出一个外键分类器。分类器的输入是一个包含关系对<A,B>的特征，输出是<A,B>是否构成外键关系。

需要说明的是，本发明既可以先进行冗余信息检测，再进行外键检测，也可以先进行外键检测，再进行冗余信息检测。这两种顺序都可以。

7.4)映射规则：

经过元信息提取、外键检测、冗余信息过滤后，有效数据的抽象概念模型就被提取出来，然后通过模型映射法将其用本体来进行表达。所述“本体”是指特定领域共享概念模型的形式化规范说明，被广泛地用于刻画特定领域的知识模型。映射主要分为三个层面，分别是数据类型映射、组成成分映射、约束映射。

a)数据类型映射

本体和关系型数据库关于数据类型的定义是不同的，因此在构造本体模型之前，首先需要解决不同数据类型的差异，OWL(Web Ontology Language，网络本体语言)使用XML模式定义语言(XSD)中定义的数据类型，数据类型的映射如表1所示(表1中的英文名称为本领域公知的)。

表1.数据类型映射

b)组成成分映射

关系型数据库(RDB)由表和列构成，本体主要由类、对象属性、数据属性构成。主要有表2所示的几种组成成分映射规则。

表2组成成分映射

RDB成分	本体成分
		非二元表T	类C_T
二元表或多对多映射表，引用T₁和T₂	C_T1和C_T2间的双向对象属性
		非二元表T的列A，类型为t	C_T的数据属性P_A,P_A的数据类型为d_t
表T₁的外键，引用T₂(T₁可以与T₂相同)	C_T1指向C_T2的对象属性
		表T₁的外键，引用T₂，该外键是T₁的主键	C_T1是C_T2的子类

c)约束映射

数据库中列的约束主要存在于列中，主要有三种NOT NULL,UNIQUE,CHECK，其中NOT NULL表示非空，UNIQUE表示该列的值唯一，CHECK子句用于限定列允许的值，MYSQL会对其进行分析，但是会被直接忽略。因此也可以选择不映射CHECK约束。

8.本发明的具体应用实例

以餐饮系统为例，本发明方法可以将餐饮系统的数据库和已生成的本体进行数据融合，模式匹配实例如图4所示，具体的过程如下：

在操作方面，用户可以通过本发明提供的前端页面进行数据库导入，导入数据库之后，即可以将现有数据库和已存在的本体模型进行匹配。

具体的匹配流程是可以反复迭代的。在每一轮迭代中，会首先利用上述的各种相似度匹配方法，对表和本体中类的相似度，表中的字段和本体中类的属性的相似度进行计算，在这一部分中，系统并不知道那些字段是应该进行匹配的，因此会对所有的待匹配元素对进行相似度计算，得到其相似度，这里计算出的相似度会在之后的匹配仲裁过程中为系统提供信息。

得到计算出的相似度之后，该系统将进行相似度传播，利用已经得到的表和类的相似度，表字段和本体中类的属性的相似度进行传播，利用结构化的信息，对其余的难以计算的相似度进行补全。从而会得到更加全面的相似度。

计算得到相似度之后，所有的待匹配元素对会进入到匹配仲裁阶段，只有当匹配的相似度达到一定的阈值，这个匹配才是可以被接受的。如数据库中的订单信息表可以和本体中的订单类相互匹配，订单信息表中的应收金额可以和订单类中的金额属性相匹配。与此同时，在这一过程中，可以加入领域专家的知识。有一些字段的匹配，利用现有的相似度计算方法，无法使其达到匹配的阈值，但是实际上可能是可以相互匹配的元素对。为了应对这种状况，前端页面面向领域专家提供了手动确认相似元素对的功能，领域专家可以对一个没有达到的相似元素对进行手工设置，认为这一元素对是相互匹配的。

按照系统的流程，至此已经完成了一轮迭代，系统也已经给出了一系列的匹配元素对，即输入的数据库已经和现有的本体模型建立起了一定的联系。这里，系统会把经过匹配仲裁阶段后的所有匹配元素对的相似度设置为1，然后可以继续进行上述的迭代，由于这里已经有一些预知的匹配元素对，这些给定的知识可以强化系统的相似度计算，从而多轮迭代可以获取更好的相似度匹配结果。

本发明另一实施例提供一种基于本体模型的数据匹配系统，其包括：

以上实施例为本发明中的方法进行数据融合的一般过程，该实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于本体模型的数据匹配方法，其特征在于，包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述匹配仲裁是循环迭代的过程，利用匹配仲裁后的所有匹配元素对，通过多轮迭代获取优化的相似度匹配结果。

3.如权利要求1或2所述的方法，其特征在于，步骤1)所述相似度计算包括：字符串相似度计算、实例相似度计算、模式信息相似度计算。

4.如权利要求3所述的方法，其特征在于，所述字符串相似度包括中文字符串相似度和英文字符串相似度；所述英文字符串相似度使用编辑距离来计算；所述文字符串相似度在计算时，将两个字符串切分成单词，通过计算单词间的相似度得到整体字符串的相似度；最终采用以下公式计算元素E1和元素E2的字符串相似度，其中ChineseString_Similarity表示中文字符串相似度，English_String_Similarity表示英文字符串相似度：

String_Similarity(E1,E2)＝

1–(1–ChineseString_Similarity(E1,E2))*(1–English_String_Similarity(E1,E2)。

5.如权利要求3所述的方法，其特征在于，所述实例相似度计算的步骤包括：

a)建立实例统计向量；

6.如权利要求3所述的方法，其特征在于，所述模式信息相似度包括表模式信息相似度和列模式信息相似度，通过设定下列启发式规则来设置列和属性的模式信息相似度；

a)规则1：数据类型不同的列和属性的相似度为0；

b)规则2：外键列和非关联属性的相似度为0；

c)规则3：非外键列和关联属性的相似度为0；

d)规则4：非Unique列和Key属性的相似度为0。

7.如权利要求1或2所述的方法，其特征在于，步骤2)所述相似度传播包括：表列到表的传播，表到表的传播，表到表列的传播。

8.如权利要求1或2所述的方法，其特征在于，步骤3)所述匹配仲裁包含三个阶段：

9.如权利要求1所述的方法，其特征在于，采用以下步骤构造所述本体模型：a)提取关系数据库的元信息；b)对提取的关系数据库的元信息进行冗余信息检测；c)对提取的关系数据库的元信息进行外键检测；d)通过映射规则，将冗余信息检测、外键检测之后的元信息用本体来表达，得到本体模型。

10.一种基于本体模型的数据匹配系统，其特征在于，包括：