CN101504654A - 一种实现数据库模式自动匹配的方法 - Google Patents

一种实现数据库模式自动匹配的方法 Download PDF

Info

Publication number
CN101504654A
CN101504654A CNA2009100260309A CN200910026030A CN101504654A CN 101504654 A CN101504654 A CN 101504654A CN A2009100260309 A CNA2009100260309 A CN A2009100260309A CN 200910026030 A CN200910026030 A CN 200910026030A CN 101504654 A CN101504654 A CN 101504654A
Authority
CN
China
Prior art keywords
msub
classification
source module
pattern
schema
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2009100260309A
Other languages
English (en)
Other versions
CN101504654B (zh
Inventor
李小平
王茜
王峰
黄聃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN2009100260309A priority Critical patent/CN101504654B/zh
Publication of CN101504654A publication Critical patent/CN101504654A/zh
Application granted granted Critical
Publication of CN101504654B publication Critical patent/CN101504654B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种实现数据库模式自动匹配的方法,包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤。模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息;模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建加权模糊概念格;模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系。本发明的数据库模式自动匹配的方法,解决模式匹配在实际应用中出现的问题,提高计算机在解决模式匹配问题时的效率,减少CPU资源的浪费。

Description

一种实现数据库模式自动匹配的方法
技术领域
本发明涉及一种实现数据库模式自动匹配的方法,属于数据库技术领域。
背景技术
模式匹配在许多应用中都起着关键作用,如数据仓库中的数据抽取过程需要将数据源的数据按仓库的格式转换;电子商务信息交换的处理中的异构消息的映射;以及数据集成中全局视图的构建。
由于准确的语义信息只有模式设计者才能真正掌握,不能在模式本身中完全表达,所以模式匹配的自动实现是一个难以解决的问题,使得模式的匹配工作经常要用户大量参与,成为数据交换的应用中的瓶颈问题。一个高效的模式匹配算法需要一系列的基础技术的组合,包括综合考虑语言学相关知识、数据类型的内在关联、数据实例间的关系以及领域知识等等。
目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识的模式匹配等两类。基于待匹配模式内部信息的模式匹配优点在于整合模式内聚信息,其局限性在于模式自身语义的不完备;基于大规模数据以及背景知识的模式匹配方法充分利用了数据实例或者以往的匹配结果,但往往不具备通用性,并且学习数据较难获取。同时,现有方法在以下方面存在缺陷:
1、多对多的复杂匹配情况的处理;
2、同名异义字段的匹配;
3、算法的执行效率。
发明内容
本发明的目的是针对现有技术的不足,提供一种实现数据库模式自动匹配的方法。
本发明解决其技术问题采用的技术方案是:
一种实现数据库模式自动匹配的方法,该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤;
(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤:
A、获取源数据库模式XML文档及目标数据库模式XML文档;
B、使用XML解析工具DOM4J解析XML文档;
C、整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合;
(2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;主要包括名称分类方法,描述分类方法以及类型分类方法;
所述名称分类方法用于根据模式元素名对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤:
D、获取源模式元素名称集;
E、对源模式元素按分隔符分解并去除公共前缀;
F、对该词集进行同义词扩展;
G、对该同义词集中的元素进行3段解析后得文本集,该文本集实际就表示了类别所具有的特征;
H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类方法学习各类别特征;未经过训练样例学习的分类方法不具有分类新样例的能力;
I、对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值,各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出结果的形式化表示如下:
p i &LeftArrow; < e s i , e t 1 , e t 2 &CenterDot; &CenterDot; &CenterDot; e t n > , i &Element; [ 1 , m ] ,
其中,m为源模式字段数,n为目标模式字段数,pi是指名称分类方法输出的第i个类别,这里用源模式元素名指代各类别,  向量
Figure A200910026030D00062
是指该类别中包含的元素;
Figure A200910026030D00063
是源模式元素,
Figure A200910026030D00064
是根据评估值选取的目标元素;i是自然数;
所述描述分类方法用于根据模式元素的是元素描述对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤:
J、获取源模式元素描述集;
K、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法,以供分类方法学习各类别特征;
L、对于目标模式元素,直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类方法,以计算出各描述对应各源模式的各类别的评估值,描述分类方法的输出结果的形式化表示如下:
q i &LeftArrow; < e s i , e t 1 , e t 2 &CenterDot; &CenterDot; &CenterDot; e t n > , i &Element; [ 1 , m ] ,
其中,m为源模式字段数,n为目标模式字段数;其中qi是指描述分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量是指该类别中包含的元素;
Figure A200910026030D00073
是源模式元素,
Figure A200910026030D00074
是根据评估值选取的目标元素;i是自然数;
所述类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类,包含以下步骤:
M、获取源模式元素名与元素类型对集合以及目标模式元素名与元素类型对集合;
N、按下述规则将各元素分类:
i、数值:包括TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT,FLOAT,DOUBLE,DECIMAL;
ii字符串:包括CHAR,VARCHAR,TINYBLOB,BLOB,MEDIUMBLOB,LONGBLOB,TINYTEXT,TEXT,MEDIUMTEXT,LONGTEXT,ENUM,SET;
iii、日期及时间:DATE,TIME,DATETIME,TIMESTAMP,YEAR;类型属于同一类的模式元素划为一类;
(3)所述模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建加权模糊概念格,主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构建加权模糊形式背景,并以此为依据构建加权模糊概念格;
所述加权模糊形式背景的构建包括以下步骤:
I、构建形式背景的属性:分别是约束属性、名称分类属性、描述分类属性以及类型分类属性;
II、为各属性设定权值以及有效值区间:所有约束属性权值为1,有效值区间为[1,1];所有名称分类属性权值为0.8,有效值区间为[0.6,1];所有描述分类属性权值为0.9,有效值区间为[0.6,1];所有类型分类属性权值为0.7,有效值区间为[0.6,1];
III、构建形式背景对象:形式背景对象是所有源目标元素以及目标元素;
IV、针对形式背景各属性,填入各形式背景对象具有该属性的程度,对约束属性及类型分类属性,以值1表示完全具有;值0表示完全不具有;对名称分类属性以及描述分类属性,填入模式分类阶段的各评估值;
所述加权模糊概念格构建方法包括以下步骤:
③、将加权模糊形式背景单一化,构建对应0-1矩阵;
④、遍历该矩阵,找出所有相对最大全1子矩阵;
③、去除重复矩阵;
④、确定参数与偏序关系,形成最终的加权模糊概念格;
(4)所述模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系,采用的相似计算模型基于加权模糊概念格,计算公式如下:
Figure A200910026030D00081
g ( P ) = 1 | P | &Sigma; c &Element; P ( &omega; c &times; &Sigma; I &Element; Intent ( c ) &sigma; I ) . - - - ( 7 )
其中,g表示势函数g(P),P表示函数g的参数,为概念格中一概念子集,  α为平衡因子,表示相似的对称性,ωc表示概念的权重,σI表示概念的每个外延对每个属性的平均隶属度,(a∨b)^表示加权模糊概念格中a、b两结点公共的且只有一条向上边的祖先结点的集合,(a-b)^表示那些只在a中出现但未在b中出现的只有一条向上边的祖先结点的集合,(b-a)^表示只在b中出现但未在a中出现的只有一条向上边的祖先结点的集合。有益效果:
本发明通过提取模式本身固有信息:模式元素名称、元素描述以及元素类型,构建信息文本,利用朴素贝叶斯分类方法来对信息文本归类;引入形式概念分析整合上述归类信息以及模式的结构信息并构建加权模糊概念格;通过一种新的相似评估模型获取最终的匹配结果。解决模式匹配在实际应用中出现的上述问题,提高计算机在解决模式匹配问题时的效率,减少CPU资源的浪费。
附图说明
图1:本发明的数据库模式自动匹配方法主体流程图;
图2:本发明的名称分类算法流程图;
图3:本发明的描述分类算法流程图;
图4:本发明的概念格快速构建算法主体流程图。
具体实施方式
本发明提供一种实现数据库模式自动匹配的方法,该方法的基本思想是,对初始模式信息归类后,将权值与模糊值引入传统形式概念分析法整合归类信息,创建加权模糊形式背景、获取蕴涵的概念、确立概念间偏序关系,生成加权模糊概念格;建立加权模糊概念格的相似计算模型,设定格式阈值,计算最终概念之间的匹配度,获取模式元素之间的匹配关系。
有关定义如下:
定义1设X为所有对象的集合,Y为所有属性的集合,加权模糊形式背景是映射: X &times; Y &RightArrow; f [ 0,1 ] , 如果对象x∈X具有属性y∈Y,则f(x,y)=m,m∈[0,1]。令w(y)=n,n∈[0,1],标识属性的重要性。
定义2对于加权模糊形式背景中的每个属性,选取两个阈值φy,满足
Figure A200910026030D00092
φy
Figure A200910026030D00093
分别称为属性下界与上界。
定义3设f为X×Y上的加权模糊形式背景,对于 X &prime; &SubsetEqual; X ,
Figure A200910026030D00095
表示X′中全体对象所共有的属性集。
定义4设f为X×Y上的加权模糊形式背景,对于 Y &prime; &SubsetEqual; Y ,
Figure A200910026030D00097
表示同时具有Y′中所有属性的对象集。
定义5设f为X×Y上的加权模糊形式背景, X &prime; &SubsetEqual; X , Y &prime; &SubsetEqual; Y . 其中,Y′=C(X′),x∈X′,y∈Y′,|X′|与|Y′|分别是集合X′,Y′的基数。当|X′|≠0时有
&sigma; y = 1 | X &prime; | &Sigma; x &Element; X &prime; f ( x , y ) - - - ( 1 )
&sigma; = &Sigma; y &Element; Y &prime; ( &sigma; y / y ) - - - ( 2 )
定义6设f为X×Y上的加权模糊形式背景, X &prime; &SubsetEqual; X , Y &prime; &SubsetEqual; Y . 其中,Y′=C(X′),x∈X′,y∈Y′,|X′|与|Y′|分别是集合X′,Y′的基数。当|Y′|≠0时规定
&omega; = 1 | Y &prime; | &Sigma; y &Element; X &prime; w ( y ) - - - ( 3 )
定义7设f为X×Y上的加权模糊形式背景, X &prime; &SubsetEqual; X , Y &prime; &Subset; Y . 如果X′=C(Y′)且Y′=C(X′),则称(X′,Y′,σ,ω)为f上的加权模糊概念,X′、Y′分别称为加权模糊概念(X′,Y′,σ,ω)的外延(Extent)和内涵(Intent)。σ依据公式(2)计算,表示这个概念的外延对应于每个属性的平均隶属度。ω依据式(3)计算,表示这个概念的权值。用δX×Y表示X×Y上加权模糊形式背景f的所有加权模糊概念集。
定义8设f为X×Y上的加权模糊形式背景,如果(X1,Y1,σ1,ω1),(X2,Y2,σ2,ω2)是f的加权模糊概念(其中≤表示偏序关系)。规定: X 1 &SubsetEqual; X 2 &DoubleLeftRightArrow; ( X 1 , Y 1 , &sigma; 1 , &omega; 1 ) &le; ( X 2 , Y 2 , &sigma; 2 , &omega; 2 ) , Y 2 &SubsetEqual; Y 1 &DoubleLeftRightArrow; ( X 1 , Y 1 , &sigma; 1 , &omega; 1 ) &le; ( X 2 , Y 2 , &sigma; 2 , &omega; 2 ) . 称(X1,Y1,σ1,ω1)为(X2,Y2,σ2,ω2)的子概念,(X2,Y2,σ2,ω2)为(X1,Y1,σ1,ω1)的超概念。
显然,关系≤是集合δX×Y上的一个偏序关系,它可诱导出δX×Y上的一个格结构,可以证明,它是一个完备格。相应的上确界与下确界定义为:
lub &delta; = ( C ( C ( &cup; j &Element; J X j ) ) , &cap; j &Element; J Y j ) - - - ( 4 )
glb &delta; = ( &cap; j &Element; J X j , C ( C ( &cup; j &Element; J Y j ) ) ) - - - ( 5 )
其中(Xj,Yj,σj,ωj)∈δX×Y,J是指标集,此完备格称为加权模糊形式背景f的加权模糊概念格,在没有歧义的情况下,仍然记为δX×Y
根据上述基本思想,再结合附图对本发明的方法进行说明。参照图1,图1是本发明主体流程图。该方法包括以下步骤:
步骤1、模式信息分析,对源模式以及目标模式的XML文档解析,获取其中的模式元素名称以及对应的描述以及类型,用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤:
A、获取源数据库模式XML文档及目标数据库模式XML文档;
B、使用XML解析工具DOM4J解析XML文档;
C、整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合;
步骤2、模式信息分类,分别按照模式元素名称、元素描述以及元素类型多元素进行分类。采用名称分类方法、描述分类方法以及类型分类方法分类模式信息分析阶段的输出结果。名称分类方法,描述分类方法的分类行为是指以源模式各模式元素作为一个类别,类别名即为源模式元素的元素名;分类方法对源模式与目标模式的每个元素对计算出评估数值,将目标模式元素划归到对应的源模式元素;类型分类方法的分类行为是指设定三大类即数值、日期及时间,根据分类规则以及所有元素数据类型,将各元素划归归到相应的类别中。
步骤3、模式信息整合,利用形式概念法整合分类结果以及模式约束信息,所述约束信息标识该元素是否为主键或外键,对形式背景中对象各属性分配合适的权值以区分在对匹配度计算的贡献度大小,形成加权模糊概念格。
步骤4、模式元素匹配度的相似计算。相似计算阶段基于前阶段的输出加权模糊概念格,根据公式(6),分别计算格中概念两两之间的相似度。通过概念格相关定义可知,概念格的外延部分包含了对象也即模式的各个元素,若某概念包含了一模式元素,同时该概念也是包含该模式元素的所有概念中具有内涵最多的概念,则该概念能够最具体的表示该模式元素。因此通过找出所有能具体描述各模式元素的各概念,从而间接获取源模式及目标模式元素之间的匹配度,通过设定合适的匹配度阈值来确定最终的匹配关系。对匹配成功的结点对生成映射关系,以XSLT文档形式存储。
图2是模式信息分类中名称分类方法流程图,该方法包含以下步骤:
步骤1、获取源模式元素名称集。
步骤2、对源模式元素按分隔符分解并去除公共前缀。
步骤3、将该词集进行同义词扩展。
步骤4、对该同义词集中的元素进行3段解析后得文本集。该文本集实际就表示了类别所具有的特征。
步骤5、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类方法学习各类别特征。未经过训练样例学习的分类方法不具有分类新样例的能力。
步骤6、对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值,各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出结果的形式化表示如下:
p i &LeftArrow; < e s i , e t 1 , e t 2 &CenterDot; &CenterDot; &CenterDot; e t n > , i &Element; [ 1 , m ] .
其中,m为源模式字段数,n为目标模式字段数,pi是指名称分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量
Figure A200910026030D00112
是指该类别中包含的元素。
Figure A200910026030D00113
是源模式元素,
Figure A200910026030D00114
是根据评估值选取的目标元素,i是自然数;
图3是模式信息分类中名称分类方法流程图,该方法包含以下步骤:
步骤1、获取源模式元素描述集。
步骤2、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法,以供分类方法学习各类别特征。
步骤3、对于目标模式元素,直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类方法,以计算出各字符串对应各源模式的各类别的评估值,描述分类方法的输出结果的形式化表示如下:
q i &LeftArrow; < e s i , e t 1 , e t 2 &CenterDot; &CenterDot; &CenterDot; e t n > , i &Element; [ 1 , m ] .
其中,m为源模式字段数,n为目标模式字段数。其中qi是指描述分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量
Figure A200910026030D00122
是指该类别中包含的元素。
Figure A200910026030D00123
是源模式元素,
Figure A200910026030D00124
是根据评估值选取的目标元素,i是自然数;
类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类,包含以下步骤:
步骤1、获取源模式元素名-元素类型对集合以及目标模式元素名-元素类型对集合;
步骤2、按下述规则将各元素分类:
i、数值:包括TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT,FLOAT,DOUBLE,DECIMAL;
ii、字符串:包括CHAR,VARCHAR,TINYBLOB,BLOB,MEDIUMBLOB,LONGBLOB,TINYTEXT,TEXT,MEDIUMTEXT,LONGTEXT,ENUM,SET;
iii、日期及时间:DATE,TIME,DATETIME,TIMESTAMP,YEAR;类型属于同一类的模式元素划为一类;
模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建加权模糊概念格,主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构建加权模糊形式背景,并以此为依据构建加权模糊概念格;
所述加权模糊形式背景的构建包括以下步骤:
I、构建形式背景的属性:分别是约束属性(FK,PK)、名称分类属性(所有pi)、描述分类属性(所有qi)以及类型分类属性(NUM、STRING、TIME);
II、为各属性设定权值以及有效值区间:所有约束属性权值为1,有效值区间为[1,1];所有名称分类属性权值为0.8,有效值区间为[0.6,1];所有描述分类属性权值为0.9,有效值区间为[0.6,1];所有类型分类属性权值为0.7,有效值区间为[0.6,1];
III、构建形式背景对象:形式背景对象是所有源目标元素以及目标元素;IV、针对形式背景各属性,填入各形式背景对象具有该属性的程度,对约束属性及类型分类属性,以值1表示完全具有;值0表示完全不具有;对名称分类属性以及描述分类属性,填入模式分类阶段的各评估值;本发明还提供一种实现概念格快速构建的算法,该方法的基本思想是:通过搜索所有的相对最大子矩阵来获取所有的概念,并根据相关定义,确定各参数以及概念之间的偏序关系。
图4是概念格快速构建方法的主体流程图,该方法包括以下步骤:
步骤1、首先根据X×Y上的加权模糊形式背景f,将满足各属性阈值的数据规整为1,即将加权模糊形式背景f单一化,得到对应0-1矩阵(aij)m×n
步骤2、由于(aij)m×n中所有相异的相对最大全1子矩阵即为加权模糊形式上下文f的所有概念的0-1表示。因此,从矩阵元素a11遍历到amn,找出以各结点做为左上角元素的所有相对最大全1子矩阵;
步骤3、去除搜索过程的重复项;
步骤4、根据公式(2)、(3)计算概念格各参数,并进行相应的合并与调整,从而得到加权模糊概念格中所有的加权模糊形式概念,根据定义8,确定概念之间的偏序关系;
步骤5、构建加权模糊概念格,以XML方式表示。
模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系,采用的相似计算模型基于加权模糊概念格,计算公式如下:
Figure A200910026030D00131
g ( P ) = 1 | P | &Sigma; c &Element; P ( &omega; c &times; &Sigma; I &Element; Intent ( c ) &sigma; I ) . - - - ( 7 )
其中,g表示势函数g(P),P表示函数g的参数,为概念格中一概念子集,  α为平衡因子,表示相似的对称性,ωe表示概念的权重,σI表示概念的每个外延对每个属性的平均隶属度,(a∨b)^表示加权模糊概念格中a、b两结点公共的且只有一条向上边的祖先结点的集合,(a-b)^表示那些只在a中出现但未在b中出现的只有一条向上边的祖先结点的集合,(b-a)^表示只在b中出现但未在a中出现的只有一条向上边的祖先结点的集合。
核心函数描述如下:
CONCEPTS_CONSTRUCTION(ContextMatrix)
{
(aij)m×n←加权模糊形式背景单一化后0-1矩阵ContextMatrix,colPointSet←从当前位置向右横向检查,值为1的位置集。curPointRow←候选相对最大全1子矩阵的最后一行在在(aij)m×n中的对应位置。rowPointSet←从当前位置向下竖向检查,值为1的位置集。
从矩阵左上角第一个位置开始,从矩阵左上往右下检查(aij)m×n中每个数据rij,i∈[1,m],j∈[1,n]
若rij值为0
终止当前循环,继续检查下一数据;
Figure A200910026030D00141
Figure A200910026030D00142
横向循环检查rij右侧所有位置直到游标重新到达当前位置rij
若游标所在位置值为1
colPointSet←colPointSet∪{currentColume};
curPointRow←当前数据rij所在行;
rowPointSet←rowPointSet∪{curPointRow};
向下循环检查rij对应的第j列的数值rij,直到游标回到当前位置rij
若rij值为1
rowPointSet←rowPointSet∪{rij所在行号t};
对colPointSet中每个列位置col
  若rtj所在行在对应col处值不为1
       通过colPointSet、rowPointSet及curPointRow输出当前的候选矩阵。
       在colPointSet中将失效位col后的数据删除。
       终止当前的内循环
     curPointRow←当前数据rtj所在行;
   通过colPointSet、rowPointSet及curPointRow输出当前的候选矩阵。
停止。
}

Claims (1)

1.一种实现数据库模式自动匹配的方法,其特征在于该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤;
(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息,包括以下步骤:
A、获取源数据库模式XML文档及目标数据库模式XML文档;
B、使用XML解析工具DOM4J解析XML文档;
C、整理解析出的模式元素信息,分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合;
(2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息,将所有元素分别按名称、描述以及类型进行分类;主要包括名称分类方法,描述分类方法以及类型分类方法;
所述名称分类方法用于根据模式元素名对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤:
D、获取源模式元素名称集;
E、对源模式元素按分隔符分解并去除公共前缀;
F、对该词集进行同义词扩展;
G、对该同义词集中的元素进行3段解析后得文本集,该文本集实际就表示了类别所具有的特征;
H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法,以供分类方法学习各类别特征;未经过训练样例学习的分类方法不具有分类新样例的能力;
I、对目标模式元素,直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法,以计算出各字符串对应各源模式的各类别的评估值,各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合,名称分类方法的输出结果的形式化表示如下:
<math> <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mtext>&amp;LeftArrow;&lt;</mtext> <msub> <mi>e</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mn>2</mn> </msub> </msub> <mo>.</mo> <mo>.</mo> <mo>.</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mi>n</mi> </msub> </msub> <mo>></mo> <mo>,</mo> <mi>i</mi> <mo>&amp;Element;</mo> <mrow> <mo></mo> <mo>[</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>]</mo> <mo></mo> </mrow> <mo>,</mo> </mrow></math>
其中,m为源模式字段数,n为目标模式字段数,pi是指名称分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量
Figure A200910026030C00031
是指该类别中包含的元素;
Figure A200910026030C00032
是源模式元素,
Figure A200910026030C00033
是根据评估值选取的目标元素;i是自然数;
所述描述分类方法用于根据模式元素的是元素描述对源模式元素进行分类,并且计算每个目标模式元素隶属于源模式各类别的隶属度,包括以下步骤:
J、获取源模式元素描述集;
K、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法,以供分类方法学习各类别特征;
L、对于目标模式元素,直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类方法,以计算出各描述对应各源模式的各类别的评估值,描述分类方法的输出结果的形式化表示如下:
<math> <mrow> <msub> <mi>q</mi> <mi>i</mi> </msub> <mtext>&amp;LeftArrow;&lt;</mtext> <msub> <mi>e</mi> <msub> <mi>s</mi> <mi>i</mi> </msub> </msub> <mo>,</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mn>1</mn> </msub> </msub> <mo>,</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mn>2</mn> </msub> </msub> <mo>.</mo> <mo>.</mo> <mo>.</mo> <msub> <mi>e</mi> <msub> <mi>t</mi> <mi>n</mi> </msub> </msub> <mo>></mo> <mo>,</mo> <mi>i</mi> <mo>&amp;Element;</mo> <mrow> <mo></mo> <mo>[</mo> <mn>1</mn> <mo>,</mo> <mi>m</mi> <mo>]</mo> <mo></mo> </mrow> <mo>,</mo> </mrow></math>
其中,m为源模式字段数,n为目标模式字段数;其中qi是指描述分类方法输出的第i个类别,这里用源模式元素名指代各类别,向量 < e s i , e t 1 , e t 2 . . . e t n > 是指该类别中包含的元素;
Figure A200910026030C00036
是源模式元素,
Figure A200910026030C00037
是根据评估值选取的目标元素;i是自然数;
所述类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类,包含以下步骤:
M、获取源模式元素名与元素类型对集合以及目标模式元素名与元素类型对集合;
N、按下述规则将各元素分类:
i、数值:包括TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT,FLOAT,DOUBLE,DECIMAL;
ii字符串:包括CHAR,VARCHAR,TINYBLOB,BLOB,MEDIUMBLOB,LONGBLOB,TINYTEXT,TEXT,MEDIUMTEXT,LONGTEXT,ENUM,SET;
iii、日期及时间:DATE,TIME,DATETIME,TIMESTAMP,YEAR;类型属于同一类的模式元素划为一类;
(3)所述模式信息整合用于整合模式信息分类的分类结果以及元素结构信息,构建加权模糊概念格,主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构建加权模糊形式背景,并以此为依据构建加权模糊概念格;
所述加权模糊形式背景的构建包括以下步骤:
I、构建形式背景的属性:分别是约束属性、名称分类属性、描述分类属性以及类型分类属性;
II、为各属性设定权值以及有效值区间:所有约束属性权值为1,有效值区间为[1,1];所有名称分类属性权值为0.8,有效值区间为[0.6,1];所有描述分类属性权值为0.9,有效值区间为[0.6,1];所有类型分类属性权值为0.7,有效值区间为[0.6,1];
III、构建形式背景对象:形式背景对象是所有源目标元素以及目标元素;
IV、针对形式背景各属性,填入各形式背景对象具有该属性的程度,对约束属性及类型分类属性,以值1表示完全具有;值0表示完全不具有;对名称分类属性以及描述分类属性,填入模式分类阶段的各评估值;
所述加权模糊概念格构建方法包括以下步骤:
①、将加权模糊形式背景单一化,构建对应0-1矩阵;
②、遍历该矩阵,找出所有相对最大全1子矩阵;
③、去除重复矩阵;
④、确定参数与偏序关系,形成最终的加权模糊概念格;
(4)所述模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系,采用的相似计算模型基于加权模糊概念格,计算公式如下:
g ( P ) = 1 | P | &Sigma; c &Element; P ( &omega; c &times; &Sigma; I &Element; Intent ( c ) &sigma; I ) . - - - ( 7 )
其中,g表示势函数g(P),P表示函数g的参数,为概念格中一概念子集,α为平衡因子,表示相似的对称性,ωc表示概念的权重,σI表示概念的每个外延对每个属性的平均隶属度,(a∨b)^表示加权模糊概念格中a、b两结点公共的且只有一条向上边的祖先结点的集合,(a-b)^表示那些只在a中出现但未在b中出现的只有一条向上边的祖先结点的集合,(b-a)^表示只在b中出现但未在a中出现的只有一条向上边的祖先结点的集合。
CN2009100260309A 2009-03-17 2009-03-17 一种实现数据库模式自动匹配的方法 Expired - Fee Related CN101504654B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100260309A CN101504654B (zh) 2009-03-17 2009-03-17 一种实现数据库模式自动匹配的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100260309A CN101504654B (zh) 2009-03-17 2009-03-17 一种实现数据库模式自动匹配的方法

Publications (2)

Publication Number Publication Date
CN101504654A true CN101504654A (zh) 2009-08-12
CN101504654B CN101504654B (zh) 2011-02-09

Family

ID=40976900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100260309A Expired - Fee Related CN101504654B (zh) 2009-03-17 2009-03-17 一种实现数据库模式自动匹配的方法

Country Status (1)

Country Link
CN (1) CN101504654B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063489A (zh) * 2010-12-29 2011-05-18 东北大学 基于隐含分类信息的模式匹配方法
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN102646099A (zh) * 2011-02-21 2012-08-22 株式会社理光 模式匹配系统、模式映射系统及方法
CN102799584A (zh) * 2011-05-24 2012-11-28 中华人民共和国天津出入境检验检疫局 一种针对检测仪器输出数据筛选提取的处理方法
CN102799627A (zh) * 2012-06-26 2012-11-28 哈尔滨工程大学 一种基于一阶逻辑和神经网络的数据对应方法
CN103441767A (zh) * 2013-08-26 2013-12-11 河南理工大学 一种基于形式概念分析理论的完全格无损压缩存储方法
CN104951455A (zh) * 2014-03-26 2015-09-30 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN106815220A (zh) * 2015-11-27 2017-06-09 英业达科技有限公司 数据分类及搜寻方法
CN103729369B (zh) * 2012-10-15 2017-06-13 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
CN106886578A (zh) * 2017-01-23 2017-06-23 武汉翼海云峰科技有限公司 一种数据列映射方法及系统
CN107342881A (zh) * 2016-05-03 2017-11-10 中国移动通信集团四川有限公司 一种操作维护中心北向接口数据处理方法及装置
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN108431798A (zh) * 2015-11-16 2018-08-21 布尔简易股份公司 生成消息表格的方法
CN109800422A (zh) * 2018-12-20 2019-05-24 北京明略软件系统有限公司 一种对数据表进行分类的方法、系统、终端和存储介质
CN110263221A (zh) * 2019-06-21 2019-09-20 福建南威软件有限公司 一种基于xml操作word文档的方法及系统
WO2022100364A1 (zh) * 2020-11-13 2022-05-19 华为技术有限公司 配置计算模式的方法、装置及计算设备

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102063489B (zh) * 2010-12-29 2012-12-19 东北大学 基于隐含分类信息的模式匹配方法
CN102063489A (zh) * 2010-12-29 2011-05-18 东北大学 基于隐含分类信息的模式匹配方法
CN102646099A (zh) * 2011-02-21 2012-08-22 株式会社理光 模式匹配系统、模式映射系统及方法
CN102646099B (zh) * 2011-02-21 2014-08-06 株式会社理光 模式匹配系统、模式映射系统及方法
CN102799584A (zh) * 2011-05-24 2012-11-28 中华人民共和国天津出入境检验检疫局 一种针对检测仪器输出数据筛选提取的处理方法
CN102567464A (zh) * 2011-11-29 2012-07-11 西安交通大学 基于扩展主题图的知识资源组织方法
CN102567464B (zh) * 2011-11-29 2015-08-05 西安交通大学 基于扩展主题图的知识资源组织方法
CN102799627A (zh) * 2012-06-26 2012-11-28 哈尔滨工程大学 一种基于一阶逻辑和神经网络的数据对应方法
CN102799627B (zh) * 2012-06-26 2014-10-22 哈尔滨工程大学 一种基于一阶逻辑和神经网络的数据对应方法
CN103729369B (zh) * 2012-10-15 2017-06-13 金蝶软件(中国)有限公司 自动处理撞单的方法及装置
CN103441767A (zh) * 2013-08-26 2013-12-11 河南理工大学 一种基于形式概念分析理论的完全格无损压缩存储方法
CN103441767B (zh) * 2013-08-26 2016-04-27 河南理工大学 一种基于形式概念分析理论的完全格无损压缩存储方法
CN104951455B (zh) * 2014-03-26 2018-05-25 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
CN104951455A (zh) * 2014-03-26 2015-09-30 北大方正集团有限公司 一种基于类别从属度的信息分类方法及系统
CN108431798A (zh) * 2015-11-16 2018-08-21 布尔简易股份公司 生成消息表格的方法
CN106815220A (zh) * 2015-11-27 2017-06-09 英业达科技有限公司 数据分类及搜寻方法
CN107342881A (zh) * 2016-05-03 2017-11-10 中国移动通信集团四川有限公司 一种操作维护中心北向接口数据处理方法及装置
CN107342881B (zh) * 2016-05-03 2021-03-19 中国移动通信集团四川有限公司 一种操作维护中心北向接口数据处理方法及装置
CN106227745A (zh) * 2016-07-14 2016-12-14 杭州数梦工场科技有限公司 一种数据项集间的数据梳理方法和装置
CN106886578A (zh) * 2017-01-23 2017-06-23 武汉翼海云峰科技有限公司 一种数据列映射方法及系统
CN107844560A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据接入的方法、装置、计算机设备和可读存储介质
CN109800422A (zh) * 2018-12-20 2019-05-24 北京明略软件系统有限公司 一种对数据表进行分类的方法、系统、终端和存储介质
CN110263221A (zh) * 2019-06-21 2019-09-20 福建南威软件有限公司 一种基于xml操作word文档的方法及系统
WO2022100364A1 (zh) * 2020-11-13 2022-05-19 华为技术有限公司 配置计算模式的方法、装置及计算设备

Also Published As

Publication number Publication date
CN101504654B (zh) 2011-02-09

Similar Documents

Publication Publication Date Title
CN101504654B (zh) 一种实现数据库模式自动匹配的方法
CN111428054B (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN112347268B (zh) 一种文本增强的知识图谱联合表示学习方法及装置
CN111078889B (zh) 一种基于多种注意力和改进预训练的药物间关系抽取方法
CN109359172B (zh) 一种基于图划分的实体对齐优化方法
Karthikeyan et al. A survey on association rule mining
CN106991447A (zh) 一种嵌入式多类别属性标签动态特征选择算法
CN106971205A (zh) 一种基于k近邻互信息估计的嵌入式动态特征选择方法
CN101189607A (zh) 模式匹配
CN105912773B (zh) 一种新的基于数据挖掘技术的智能冲压工艺设计方法
Wu et al. Human resource allocation based on fuzzy data mining algorithm
CN115982329A (zh) 一种工程施工方案编制依据的智能生成方法及系统
Wang et al. Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm.
CN117151659B (zh) 一种基于大语言模型的生态修复工程全生命周期追溯方法
CN111737477A (zh) 一种基于知识产权大数据的情报调查方法、系统和存储介质
CN115438199A (zh) 一种基于智慧城市场景数据中台技术的知识平台系统
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN105160046A (zh) 基于文本的数据检索方法
CN103294828B (zh) 数据挖掘模型维度的验证方法和验证装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN107945871A (zh) 一种基于大数据的血液病智能分类系统
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN116011564A (zh) 一种面向电力设备的实体关系补全方法、系统及应用
Tang et al. Risk minimization based ontology mapping
CN106919686A (zh) 一种电气型号搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110209

Termination date: 20140317