CN102982168B

CN102982168B - 一种基于xml文档的元数据模式匹配方法

Info

Publication number: CN102982168B
Application number: CN201210535449.9A
Authority: CN
Inventors: 朱晓燕; 何金陵; 潘留兴; 赵鑫
Original assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Electric Power Information Technology Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Jiangsu Electric Power Co Ltd; Jiangsu Electric Power Information Technology Co Ltd; Information and Telecommunication Branch of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2012-12-12
Filing date: 2012-12-12
Publication date: 2015-10-21
Anticipated expiration: 2032-12-12
Also published as: CN102982168A

Abstract

本发明公开了一种基于XML文档的元数据模式匹配方法，通过计算两个元数据的语义相似度、属性相似度、实例相似度、结构相似度和关系相似度，根据具体的XML文档来设置权重，最后计算综合相似度，因此在元数据之间的模式匹配时，可使计算结果更精确。

Description

一种基于XML文档的元数据模式匹配方法

技术领域

本发明关于元数据模式匹配方面，特别涉及XML文档的元数据的语义、属性、实例、结构和关系相似度计算方法,属于数据库技术领域。

背景技术

扩展标记语言(eXtensible Markup Language，XML)是一套定义语义标记的规则，用户通过它可以创建文档类型定义(Document Type Definition，简称DTD)的规则集，XML作为统一的转换语法和交换格式，为开发者和用户提供一种交换元数据信息的标准途径，从而能够方便、简洁地在基于OMG UML的建模工具和基于OMG MOF的元数据仓储(Metadata Repository)之间交换元数据。而元数据则是关于数据的数据，用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。近年来越来越多的科研院所都开始致力于元数据相关问题的研究，特别是随着语义Web的发展，元数据理论及其相关技术已逐渐成为计算机领域中重要的研究热点，为了解决网络信息爆炸时代出现的诸多问题，元数据作为一种重要的应对方法和措施，已广泛应用于信息检索、信息集成、信息共享及软件工程等各个应用领域中。

语义内容异构是元数据模式集成中必须要面对而且需要重点解决的问题。要在网络环境下消除由这些独立的元数据方案引起的“信息孤岛”，就必须有某种程度的元数据间互操作，用于解决不同元数据所引起的概念和结构的异构问题，这就需要在元数据之上再建立一些机制，来灵活地实现元数据间的互操作。作为解决信息异构、信息集成的主要方法，模式匹配技术设计的是否合理有效就成了影响元数据模式集成效果的关键因素。而现有的工作面临的是一个以丰富元数据模式语义信息为目的、以多源异构元数据模式合并与构建为任务的新问题。目前元数据模式匹配的算法主要有基于正则表达式规则的逻辑结构匹配算法和基于隐马尔可夫模型的XML文档的元数据匹配算法，但基于正则表达式规则的逻辑结构匹配算法主要考虑XML文档的元数据之间的逻辑结构相似性，忽略了元数据语义相似度、实例相似度以及关系相似度等因素，而基于隐马尔科夫模型的元数据匹配算法主要提取XML文档头部的部分元数据信息，忽略了其他元数据的相似关系。

本专利在现有的元数据模式匹配算法的基础上，提出了新型的一种元数据模式匹配方法，该方法既考虑了元数据的结构特征，又考虑了元数据之间的语义、属性、实例和关系相似度，同时考虑元数据匹配的不对称性问题，可使计算结果更精确。

发明内容

本发明所要解决的技术问题是实现更精确的元数据之间的匹配。

为解决上述技术问题，本发明提供一种基于XML文档的元数据模式匹配方法，其特征在于，包括以下步骤：

1)计算两个元数据的语义相似度：元数据a和元数据b之间的相似度通过字符串的同义词匹配来完成，计算模型如下所示：

lex_sim (m_{1}, m_{2}) = \frac{Σ_{i = 1}^{s} Σ_{j = 1}^{t} sim (m_{1 i}, m_{2 j})}{s * t}

式(1)

其中其中m_1i是元数据m₁的第i个关键词，m_2j是元数据m₂的第j个关键词，s表示元数据m₁的关键词个数，t表示元数据m₂的关键词个数，sim(m_1i,m_2j)表示关键词m_1i和m_2j的相似度，如果m_1i和m_2j相同或为同义词，则sim(m_1i,m_2j)＝1，否则为0；lex_sim(m₁,m₂)的取值范围为[0,1]，当元数据m₁中的所有关键词与元数据m₂所有关键词相同或为同义词时，lex_sim(m₁,m₂)＝1，而全部不相同或都不为同义词时lex_sim(m₁,m₂)＝0；

2)计算两个元数据的属性相似度：使用公式(2)计算出两个元数据的属性相似度，计算模型如下所示：

式(2)

其中|m₁∩m₂|表示元数据m₁和m₂的属性集合的交集的个数，表示属于元数据m₁但不属于m₂的属性集合的个数，而表示属于元数据m₂但不属于m₁的属性集合的个数，而D(m₁,m₂)的计算公式如公式(3)所示，

D (m_{1}, m_{2}) = \{\begin{matrix} \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) \leq dep (m_{2}) \\ 1 - \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) &GreaterEqual; dep (m_{2}) \end{matrix} - - - (3)

其中dep(m₁)表示元数据m₁在XML文档中所处的层(即深度)，同样dep(m₂)表示元数据m₂在XML文档中所处的深度。

3)计算两个元数据的实例相似度：当两个元数据具有多个相同的实例时，这两个元数据可能相似，基于此，两个元数据的实例相似度的公式用公式(4)所示，

inst_sim (m_{1}, m_{2}) = \frac{| snstSet (m_{1}) \cap instSet (m_{2}) |}{| instSet (m_{1}) \cup instSet (m_{2}) |}

(4)

|instSet(m₁)∩instSet(m₂)|表示元数据m₁和元数据m₂实例的交集个数，|instSet(m₁)∪instSet(m₂)|表示元数据m₁和元数据m₂实例的并集个数；

4)计算两个元数据的结构相似度：为了降低计算的复杂度，本专利在计算结构相似度时只考虑元数据的直接父元数据和子元数据，计算公式如式(5)所示，

stru_sim(m₁,m₂)＝λ*Psim(m₁,m₂)+(1-λ)Ssim(m₁,m₂) (5)

其中0≤λ≤1，Psim(m₁,m₂)表示元数据m₁的父元数据与m₂的父元数据之间的相似度，而Ssim(m₁,m₂)表示元数据_m1的子元数据与m₂的子元数据之间的相似度，Psim(m₁,m₂)和Ssim(m₁,m₂)计算公式分别如式(6)、(7)所示，

Psim(m₁,m₂)＝attr_sim(p₁,p₂) (6)

Ssim (m_{1}, m_{2}) = Σ_{i = 1}^{S} Σ_{j = 1}^{T} sttr_sim (m_{{1 S}_{i}}, m_{{2 S}_{j}}) - - - (7)

其中p₁和p₂分别表示元数据m₁和m₂的父元数据，与分别表示元数据_m1和元数据m₂的第S_i个与第S_j个子元数据，S、T分别表示元数据m₁和m₂的子元数据的个数，attr_sim的计算如式(2)所示；

5)计算两个元数据的关系相似度：关系由于包含多个数据，而每个数据所处的地位不同，假设一个元数据的关系包括以下几种：名称、类型、时间和空间，则根据数据的权重计算公式可表示为：

rel_sim(m₁,m₂)＝a*name_sim(m₁,m₂)+b*type_sim(m₁,m₂) (8)

+c*time_sim(m₁,m₂)+d*space_sim(m₁,m₂)

其中参数a+b+c+d＝1，name_sim(m₁,m₂)、type_sim(m₁,m₂)、time_sim(m₁,m₂)、space_sim(m₁,m₂)分别表示元数据m₁和m₂的名称、类型、时间和空间的关系相似度，可根据关系数据的不同，采用不同的方式计算各关系数据的相似度，如名称和类型为字符串，可以使用字符串相似度计算这些关系数据的类型的相似度；如果是时间类型的，可以根据时间关联来计算相似度；如果是空间类型，可采用皮尔逊相似度来计算两个关系数据的相似度；

6)基于步骤1)到步骤5)的相似度计算，得出两个元数据的综合相似度计算公式，如下所示：

sum_sim(m₁,m₂)＝α*lex_sim(m₁,m₂)+β*attr_sim(m₁,m₂)+γ*inst_sim(m₁,m₂) (9)

+η*stru_sim(m₁,m₂)+δ*rel_sim(m₁,m₂)

其中参数α+β+γ+η+δ＝1，参数的具体值根据具体环境由用户来定。

本发明所达到的有益效果：

本发明从以下两个方面来完成元数据模式匹配：(1)在不同领域的XML文档中，每个元数据可能与多个元数据相关，各概念元数据之间的存在上下位或其他丰富的语义信息，同时每个元数据还有深度和密度等影响因子，本专利不仅考虑XML文档元数据间的上下位关系(父元数据和子元数据)，同时还考虑了元数据的深度和交集等影响因子。(2)将元数据匹配的不对称性问题加入到计算元数据相似度的技术中：由于元数据的语义、属性、实例、结构和关系五个方面在元数据模式匹配中所处的地位不同，需要灵活的根据具体的XML文档来设置权重。两个元数据之间的相似程度由二者的共同点和差异共同决定，共同点越多，其相似程度就越高；而差异越大，其相似程度也就越低，因此在考虑元数据之间的模式匹配程度时，需要从元数据的语义、属性、实例、结构和关系五个方面综合考虑，可使计算结果更精确。

附图说明

图1为本发明的的整体框架图。

具体实施方式

下面结合图1对本申请做进一步说明。

(1)计算两个元数据的语义相似度

计算元数据的语义相似度主要使用构词法相似性来寻找概念间的相似度，语义相似度反映了两个元数据在语言学上的相近程度，由于元数据m₁和m₂的名称均由字符串表示，所以可以根据字符串的同义词匹配来度量元数据m₁和m₂之间的相似度。

(2)计算两个元数据的属性相似度

元数据的属性由两部分组成：一部分是属性名称，其反映了属性的内容，另一部分是属性类型，它限制了属性的参数取值范围。计算元数据m₁和m₂的属性相似度需要综合考虑两元数据的数据属性交集的个数、属于元数据m₁的描述集合而不属于m₂集合的个数以及属于元数据m₂的描述集合而不属于m₁集合的个数。

(3)计算两个元数据的实例相似度

元数据m₁和m₂的属性相似度描述了元数据m₁和元数据m₂的交集个数与并集个数的比例。

(4)计算两个元数据的结构相似度

XML文档中每一个元数据都具有结构特征如父元数据、子元数据等。因此，在计算元数据语义相似度的时，概念的结构特征是不容忽视的。本专利首先分别计算出两个概念的父概念的相似度和子概念集合中各个子概念的相似度，最后综合两个计算结果。

(5)计算两个元数据的关系相似度

XML文档中的元数据之间都存在一定的关系。元数据的关系对元数据的描述也具有重要的作用，关系有关系名称、关系类型、时间、空间等数据，所以本专利在计算两个元数据的关系相似度时需要从这些方面综合计算，由于这些数据的在关系所占的权重是不同的，所以需要设置参数加以调整。

(6)计算两个元数据的综合相似度

基于上述的五种相似度计算方法，可以得到元数据的综合相似度。由于五个方面在元数据综合相似度技术过程中的地位不同，参数的设置值需要根据具体环境由用户来定。

一种基于XML文档的元数据模式匹配方法，其特征在于，包括以下步骤：

lex_sim (m_{1}, m_{2}) = \frac{Σ_{i = 1}^{s} Σ_{j = 1}^{t} sim (m_{1 i}, m_{2 j})}{m * n}

式(1)

式(2)

D (m_{1}, m_{2}) = \{\begin{matrix} \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) \leq dep (m_{2}) \\ 1 - \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) &GreaterEqual; dep (m_{2}) \end{matrix} - - - (3)

inst_sim (m_{1}, m_{2}) = \frac{| instSet (m_{1}) \cap instSet (m_{2}) |}{| instSet (m_{1}) \cup instSet (m_{2}) |} - - - (4)

stru_sim(m₁,m₂)＝λ*Psim(m₁,m₂)+(1-λ)Ssim(m₁,m₂) (5)

其中0≤λ≤1，Psim(m₁,m₂)表示元数据m₁的父元数据与m₂的父元数据之间的相似度，而Ssim(m₁,m₂)表示元数据m₁的子元数据与m₂的子元数据之间的相似度，Psim(m₁,m₂)和Ssim(m₁,m₂)计算公式分别如式(6)、(7)所示，

Psim(m₁,m₂)＝attr_sim(p₁,p₂) (6)

Ssim (m_{1}, m_{2}) = Σ_{i = 1}^{S} Σ_{j = 1}^{T} attr_sim (m_{{1 S}_{i}}, m_{{2 S}_{j}}) - - - (7)

其中p₁和p₂分别表示元数据m₁和m₂的父元数据，与分别表示元数据m₁和元数据m₂的第S_i个与第S_j个子元数据，S、T分别表示元数据m₁和m₂的子元数据的个数，attr_sim的计算如式(2)所示。

rel_sim(m₁,m₂)＝a*name_sim(m₁,m₂)+b*type_sim(m₁,m₂) (8)

+c*time_sim(m₁,m₂)+d*space_sim(m₁,m₂)

其中a+b+c+d＝1，name_sim(m₁,m₂)、type_sim(m₁,m₂)、time_sim(m₁,m₂)、space_sim(m₁,m₂)分别表示元数据m₁和m₂的名称、类型、时间和空间的关系相似度，可根据关系数据的不同，采用不同的方式计算各关系数据的相似度，如名称和类型为字符串，可以使用字符串相似度计算这些关系数据的类型的相似度；如果是时间类型的，可以根据时间关联来计算相似度；如果是空间类型，可采用皮尔逊相似度来计算两个关系数据的相似度；

+η*stru_sim(m₁,m₂)+δ*rel_sim(m₁,m₂)

其中α+β+γ+η+δ＝1，参数的具体值根据具体环境由用户来定。

以上已以较佳实施例公开了本发明，然其并非用以限制本发明，凡采用等同替换或者等效变换方式所获得的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于XML文档的元数据模式匹配方法，其特征在于，包括以下步骤：

1)计算两个元数据的语义相似度：元数据m₁和元数据m₂之间的相似度通过字符串的同义词匹配来完成，计算模型如下所示：

lex_sim (m_{1}, m_{2}) = \frac{Σ_{i = 1}^{s} Σ_{j = 1}^{t} sim (m_{1 i}, m_{2 j})}{s * t} - - - (1)

其中m_1i是元数据m₁的第i个关键词，m_2j是元数据m₂的第j个关键词，s表示元数据m₁的关键词个数，t表示元数据m₂的关键词个数，sim(m_1i,m_2j)表示关键词m_1i和m_2j的相似度，如果m_1i和m_2j相同或为同义词，则sim(m_1i,m_2j)＝1，否则为0；lex_sim(m₁,m₂)的取值范围为[0,1]，当元数据m₁中的所有关键词与元数据m₂所有关键词相同或为同义词时，lex_sim(m₁,m₂)＝1，而全部不相同或都不为同义词时lex_sim(m₁,m₂)＝0；

attr_sim (m_{1}, m_{2}) = \frac{| m_{1} \cap m_{2} |}{| m_{1} \cap m_{2} | + D (m_{1}, m_{2}) | m_{1} \cap &Not; m_{2} | + (1 - D (m_{1}, m_{2})) | &Not; m_{1} \cap m_{2} |} - - - (2)

D (m_{1}, m_{2}) = \{\begin{matrix} \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) \leq dep (m_{2}) \\ 1 - \frac{dep (m_{1})}{dep (m_{1}) + dep (m_{2})} & dep (m_{1}) &GreaterEqual; dep (m_{2}) \end{matrix} - - - (3)

其中dep(m₁)表示元数据m₁在XML文档中所处的深度，同样dep(m₂)表示元数据m₂在XML文档中所处的深度；

3)计算两个元数据的实例相似度：两个元数据的实例相似度的公式如公式(4)所示，

inst_sim (m_{1}, m_{2}) = \frac{| instSet (m_{1}) \cap instSet (m_{2}) |}{| instSet (m_{1}) \cup instSet (m_{2}) |} - - - (4)

4)计算两个元数据的结构相似度：计算公式如式(5)所示，

stru_sim(m₁,m₂)＝λ*Psim(m₁,m₂)+(1-λ)Ssim(m₁,m₂)(5)

Psim(m₁,m₂)＝attr_sim(p₁,p₂)(6)

Ssim (m_{1}, m_{2}) = Σ_{i = 1}^{S} Σ_{j = 1}^{T} attr_sim (m_{1 S_{i}}, m_{2 S_{j}}) - - - (7)

其中p₁和p₂分别表示元数据m₁和m₂的父元数据，与分别表示元数据m₁和元数据m₂的第S_i个与第S_j个子元数据，S、T分别表示元数据m₁和m₂的子元数据的个数，attr_sim的计算如式(2)所示；

5)计算两个元数据的关系相似度：关系包含多个数据，而每个数据所处的地位不同，一个元数据的关系包括以下几种类型：名称、类型、时间和空间，根据两个元数据的名称、类型、时间和空间的关系相似度的权重计算公式，两个元数据的关系相似度表示为：

\begin{matrix} rel_sim (m_{1}, m_{2}) = a * name_sim (m_{1}, m_{2}) + b * type_sim (m_{1}, m_{2}) \\ + c * time_sim (m_{1}, m_{2}) + d * space_sim (m_{1}, m_{2}) \end{matrix} - - - (8)

其中参数a+b+c+d＝1，name_sim(m₁,m₂)、type_sim(m₁,m₂)、time_sim(m₁,m₂)、space_sim(m₁,m₂)分别表示元数据m₁和m₂的名称、类型、时间和空间的关系相似度，根据关系数据的不同，采用不同的方式计算各关系数据的相似度，如果名称和类型为字符串，使用字符串相似度计算关系数据的名称和类型的相似度；如果元数据的关系是时间类型的，根据时间关联来计算相似度；如果元数据的关系是空间类型，采用皮尔逊相似度来计算两个关系数据的相似度；

\begin{matrix} sum_sim (m_{1}, m_{2}) = α * lex_sim (m_{1}, m_{2}) + β * attr_sim (m_{1}, m_{2}) + γ * inst_sim (m_{1}, m_{2}) \\ + η * stru_sim (m_{1}, m_{2}) + δ * rel_sim (m_{1}, m_{2}) \end{matrix} - - - (9)