CN101504654B

CN101504654B - 一种实现数据库模式自动匹配的方法

Info

Publication number: CN101504654B
Application number: CN2009100260309A
Authority: CN
Inventors: 李小平; 王茜; 王峰; 黄聃
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2009-03-17
Filing date: 2009-03-17
Publication date: 2011-02-09
Anticipated expiration: 2029-03-17
Also published as: CN101504654A

Abstract

本发明公开了一种实现数据库模式自动匹配的方法，包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤。模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息；模式信息分类用于归类模式信息分析阶段分析出的模式元素信息，将所有元素分别按名称、描述以及类型进行分类；模式信息整合用于整合模式信息分类的分类结果以及元素结构信息，构建加权模糊概念格；模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系。本发明的数据库模式自动匹配的方法，解决模式匹配在实际应用中出现的问题，提高计算机在解决模式匹配问题时的效率，减少CPU资源的浪费。

Description

一种实现数据库模式自动匹配的方法

技术领域

本发明涉及一种实现数据库模式自动匹配的方法，属于数据库技术领域。

背景技术

模式匹配在许多应用中都起着关键作用，如数据仓库中的数据抽取过程需要将数据源的数据按仓库的格式转换；电子商务信息交换的处理中的异构消息的映射；以及数据集成中全局视图的构建。

由于准确的语义信息只有模式设计者才能真正掌握，不能在模式本身中完全表达，所以模式匹配的自动实现是一个难以解决的问题，使得模式的匹配工作经常要用户大量参与，成为数据交换的应用中的瓶颈问题。一个高效的模式匹配算法需要一系列的基础技术的组合，包括综合考虑语言学相关知识、数据类型的内在关联、数据实例间的关系以及领域知识等等。

目前模式匹配主要有基于模式内部信息的模式匹配和基于大规模数据以及背景知识的模式匹配等两类。基于待匹配模式内部信息的模式匹配优点在于整合模式内聚信息，其局限性在于模式自身语义的不完备；基于大规模数据以及背景知识的模式匹配方法充分利用了数据实例或者以往的匹配结果，但往往不具备通用性，并且学习数据较难获取。同时，现有方法在以下方面存在缺陷：

1、多对多的复杂匹配情况的处理；

2、同名异义字段的匹配；

3、算法的执行效率。

发明内容

本发明的目的是针对现有技术的不足，提供一种实现数据库模式自动匹配的方法。

本发明解决其技术问题采用的技术方案是：

一种实现数据库模式自动匹配的方法，该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤；

(1)所述模式信息分析用于实现解析格式化的源模式以及目标模式的元素信息，包括以下步骤：

A、获取源数据库模式XML文档及目标数据库模式XML文档；

B、使用XML解析工具DOM4J解析XML文档；

C、整理解析出的模式元素信息，分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合以及目标模式元素名与元素类型集合；

(2)所述模式信息分类用于归类模式信息分析阶段分析出的模式元素信息，将所有元素分别按名称、描述以及类型进行分类；主要包括名称分类方法，描述分类方法以及类型分类方法；

所述名称分类方法用于根据模式元素名对源模式元素进行分类，并且计算每个目标模式元素隶属于源模式各类别的隶属度，包括以下步骤：

D、获取源模式元素名称集；

E、对源模式元素按分隔符分解并去除公共前缀；

F、对该词集进行同义词扩展；

G、对该同义词集中的元素进行3段解析后得文本集，该文本集实际就表示了类别所具有的特征；

H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法，以供分类方法学习各类别特征；未经过训练样例学习的分类方法不具有分类新样例的能力；

I、对目标模式元素，直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法，以计算出各字符串对应各源模式的各类别的评估值，各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合，名称分类方法的输出结果的形式化表示如下：

p_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m],

其中，m为源模式字段数，n为目标模式字段数，p_i是指名称分类方法输出的第i个类别，这里用源模式元素名指代各类别，向量

是指该类别中包含的元素；

是源模式元素，

是根据评估值选取的目标元素；i是自然数；

所述描述分类方法用于根据模式元素的是元素描述对源模式元素进行分类，并且计算每个目标模式元素隶属于源模式各类别的隶属度，包括以下步骤：

J、获取源模式元素描述集；

K、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法，以供分类方法学习各类别特征；

L、对于目标模式元素，直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类方法，以计算出各描述对应各源模式的各类别的评估值，描述分类方法的输出结果的形式化表示如下：

q_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m],

其中，m为源模式字段数，n为目标模式字段数；其中q_i是指描述分类方法输出的第i个类别，这里用源模式元素名指代各类别，向量

是指该类别中包含的元素；

是源模式元素，

是根据评估值选取的目标元素；i是自然数；

所述类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类，包含以下步骤：

M、获取源模式元素名与元素类型对集合以及目标模式元素名与元素类型对集合；

N、按下述规则将各元素分类：

i、数值：包括TINYINT，SMALLINT，MEDIUMINT，INT，BIGINT，FLOAT，DOUBLE，DECIMAL；

ii字符串：包括CHAR，VARCHAR，TINYBLOB，BLOB，MEDIUMBLOB，LONGBLOB，TINYTEXT，TEXT，MEDIUMTEXT，LONGTEXT，ENUM，SET；

iii、日期及时间：DATE，TIME，DATETIME，TIMESTAMP，YEAR；类型属于同一类的模式元素划为一类；

(3)所述模式信息整合用于整合模式信息分类的分类结果以及元素结构信息，构建加权模糊概念格，主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构建加权模糊形式背景，并以此为依据构建加权模糊概念格；

所述加权模糊形式背景的构建包括以下步骤：

I、构建形式背景的属性：分别是约束属性、名称分类属性、描述分类属性以及类型分类属性；

II、为各属性设定权值以及有效值区间：所有约束属性权值为1，有效值区间为[1，1]；所有名称分类属性权值为0.8，有效值区间为[0.6，1]；所有描述分类属性权值为0.9，有效值区间为[0.6，1]；所有类型分类属性权值为0.7，有效值区间为[0.6，1]；

III、构建形式背景对象：形式背景对象是所有源目标元素以及目标元素；

IV、针对形式背景各属性，填入各形式背景对象具有该属性的程度，对约束属性及类型分类属性，以值1表示完全具有；值0表示完全不具有；对名称分类属性以及描述分类属性，填入模式分类阶段的各评估值；

所述加权模糊概念格构建方法包括以下步骤：

③、将加权模糊形式背景单一化，构建对应0-1矩阵；

④、遍历该矩阵，找出所有相对最大全1子矩阵；

③、去除重复矩阵；

④、确定参数与偏序关系，形成最终的加权模糊概念格；

(4)所述模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系，采用的相似计算模型基于加权模糊概念格，计算公式如下：

g (P) = \frac{1}{| P |} \underset{c &Element; P}{Σ} (ω_{c} \times \underset{I &Element; Intent (c)}{Σ} σ_{I}) . - - - (7)

其中，g表示势函数g(P)，P表示函数g的参数，为概念格中一概念子集，α为平衡因子，表示相似的对称性，ω_c表示概念的权重，σ_I表示概念的每个外延对每个属性的平均隶属度，(a∨b)^表示加权模糊概念格中a、b两结点公共的且只有一条向上边的祖先结点的集合，(a-b)^表示那些只在a中出现但未在b中出现的只有一条向上边的祖先结点的集合，(b-a)^表示只在b中出现但未在a中出现的只有一条向上边的祖先结点的集合。

有益效果：

本发明通过提取模式本身固有信息：模式元素名称、元素描述以及元素类型，构建信息文本，利用朴素贝叶斯分类方法来对信息文本归类；引入形式概念分析整合上述归类信息以及模式的结构信息并构建加权模糊概念格；通过一种新的相似评估模型获取最终的匹配结果。解决模式匹配在实际应用中出现的上述问题，提高计算机在解决模式匹配问题时的效率，减少CPU资源的浪费。

附图说明

图1：本发明的数据库模式自动匹配方法主体流程图；

图2：本发明的名称分类算法流程图；

图3：本发明的描述分类算法流程图；

图4：本发明的概念格快速构建算法主体流程图。

具体实施方式

本发明提供一种实现数据库模式自动匹配的方法，该方法的基本思想是，对初始模式信息归类后，将权值与模糊值引入传统形式概念分析法整合归类信息，创建加权模糊形式背景、获取蕴涵的概念、确立概念间偏序关系，生成加权模糊概念格；建立加权模糊概念格的相似计算模型，设定格式阈值，计算最终概念之间的匹配度，获取模式元素之间的匹配关系。

有关定义如下：

定义1 设X为所有对象的集合，Y为所有属性的集合，加权模糊形式背景是映射：

X \times Y \overset{f}{&RightArrow;} [0,1],

如果对象x∈X具有属性y∈Y，则f(x，y)＝m，m∈[0，1]。令w(y)＝n，n∈[0，1]，标识属性的重要性。

定义2 对于加权模糊形式背景中的每个属性，选取两个阈值φ_y与

满足

φ_y，

分别称为属性下界与上界。

定义3 设f为X×Y上的加权模糊形式背景，对于

X^{'} &SubsetEqual; X,

则

表示X′中全体对象所共有的属性集。

定义4 设f为X×Y上的加权模糊形式背景，对于

Y^{'} &SubsetEqual; Y,

则

表示同时具有Y′中所有属性的对象集。

定义5 设f为X×Y上的加权模糊形式背景，

X^{'} &SubsetEqual; X, Y^{'} &SubsetEqual; Y .

其中，Y′＝C(X′)，x∈X′，y∈Y′，|X′|与|Y′|分别是集合X′，Y′的基数。当|X′|≠0时有

σ_{y} = \frac{1}{| X^{'} |} \underset{x &Element; X^{'}}{Σ} f (x, y) - - - (1)

σ = \underset{y &Element; Y^{'}}{Σ} (σ_{y} / y) - - - (2)

定义6 设f为X×Y上的加权模糊形式背景，

X^{'} &SubsetEqual; X, Y^{'} &SubsetEqual; Y .

其中，Y′＝C(X′)，x∈X′，y∈Y′，|X′|与|Y′|分别是集合X′，Y′的基数。当|Y′|≠0时规定

ω = \frac{1}{| Y^{'} |} \underset{y &Element; X^{'}}{Σ} w (y) - - - (3)

定义7 设f为X×Y上的加权模糊形式背景，

X^{'} &SubsetEqual; X, Y^{'} &SubsetEqual; Y .

如果X′＝C(Y′)且Y′＝C(X′)，则称(X′，Y′，σ，ω)为f上的加权模糊概念，X′、Y′分别称为加权模糊概念(X′，Y′，σ，ω)的外延(Extent)和内涵(Intent)。σ依据公式(2)计算，表示这个概念的外延对应于每个属性的平均隶属度。ω依据式(3)计算，表示这个概念的权值。用δ_X×Y表示X×Y上加权模糊形式背景f的所有加权模糊概念集。

定义8 设f为X×Y上的加权模糊形式背景，如果(X₁，Y₁，σ₁，ω₁)，(X₂，Y₂，σ₂，ω₂)是f的加权模糊概念(其中≤表示偏序关系)。规定：

X_{1} &SubsetEqual; X_{2} &DoubleLeftRightArrow; (X_{1}, Y_{1}, σ_{1}, ω_{1}) \leq (X_{2}, Y_{2}, σ_{2}, ω_{2}),

Y_{2} &SubsetEqual; Y_{1} &DoubleLeftRightArrow; (X_{1}, Y_{1}, σ_{1}, ω_{1}) \leq (X_{2}, Y_{2}, σ_{2}, ω_{2}) .

称(X₁，Y₁，σ₁，ω₁)为(X₂，Y₂，σ₂，ω₂)的子概念，(X₂，Y₂，σ₂，ω₂)为(X₁，Y₁，σ₁，ω₁)的超概念。

显然，关系≤是集合δ_X×Y上的一个偏序关系，它可诱导出δ_X×Y上的一个格结构，可以证明，它是一个完备格。相应的上确界与下确界定义为：

lu b_{δ} = (C (C (\underset{j &Element; J}{\cup} X_{j})), \underset{j &Element; J}{\cap} Y_{j}) - - - (4)

gl b_{δ} = (\underset{j &Element; J}{\cap} X_{j}, C (C (\underset{j &Element; J}{\cup} Y_{j}))) - - - (5)

其中(X_j，Y_j，σ_j，ω_j)∈δ_X×Y，J是指标集，此完备格称为加权模糊形式背景f的加权模糊概念格，在没有歧义的情况下，仍然记为δ_X×Y。

根据上述基本思想，再结合附图对本发明的方法进行说明。参照图1，图1是本发明主体流程图。该方法包括以下步骤：

步骤1、模式信息分析，对源模式以及目标模式的XML文档解析，获取其中的模式元素名称以及对应的描述以及类型，用于实现解析格式化的源模式以及目标模式的元素信息，包括以下步骤：

A、获取源数据库模式XML文档及目标数据库模式XML文档；

B、使用XML解析工具DOM4J解析XML文档；

步骤2、模式信息分类，分别按照模式元素名称、元素描述以及元素类型多元素进行分类。采用名称分类方法、描述分类方法以及类型分类方法分类模式信息分析阶段的输出结果。名称分类方法，描述分类方法的分类行为是指以源模式各模式元素作为一个类别，类别名即为源模式元素的元素名；分类方法对源模式与目标模式的每个元素对计算出评估数值，将目标模式元素划归到对应的源模式元素；类型分类方法的分类行为是指设定三大类即数值、日期及时间，根据分类规则以及所有元素数据类型，将各元素划归归到相应的类别中。

步骤3、模式信息整合，利用形式概念法整合分类结果以及模式约束信息，所述约束信息标识该元素是否为主键或外键，对形式背景中对象各属性分配合适的权值以区分在对匹配度计算的贡献度大小，形成加权模糊概念格。

步骤4、模式元素匹配度的相似计算。相似计算阶段基于前阶段的输出加权模糊概念格，根据公式(6)，分别计算格中概念两两之间的相似度。通过概念格相关定义可知，概念格的外延部分包含了对象也即模式的各个元素，若某概念包含了一模式元素，同时该概念也是包含该模式元素的所有概念中具有内涵最多的概念，则该概念能够最具体的表示该模式元素。因此通过找出所有能具体描述各模式元素的各概念，从而间接获取源模式及目标模式元素之间的匹配度，通过设定合适的匹配度阈值来确定最终的匹配关系。对匹配成功的结点对生成映射关系，以XSLT文档形式存储。

图2是模式信息分类中名称分类方法流程图，该方法包含以下步骤：

步骤1、获取源模式元素名称集。

步骤2、对源模式元素按分隔符分解并去除公共前缀。

步骤3、将该词集进行同义词扩展。

步骤4、对该同义词集中的元素进行3段解析后得文本集。该文本集实际就表示了类别所具有的特征。

步骤5、各类别以及标识各类别的特征文本集作为训练样例送入名称分类方法，以供分类方法学习各类别特征。未经过训练样例学习的分类方法不具有分类新样例的能力。

步骤6、对目标模式元素，直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类方法，以计算出各字符串对应各源模式的各类别的评估值，各评估值将会作为模式整合阶段的形式概念上下文的数据进行整合，名称分类方法的输出结果的形式化表示如下：

p_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m] .

是指该类别中包含的元素。

是源模式元素，是根据评估值选取的目标元素，i是自然数；

图3是模式信息分类中名称分类方法流程图，该方法包含以下步骤：

步骤1、获取源模式元素描述集。

步骤2、各类别以及标识各类别的特征描述集作为训练样例送入描述分类方法，以供分类方法学习各类别特征。

步骤3、对于目标模式元素，直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类方法，以计算出各字符串对应各源模式的各类别的评估值，描述分类方法的输出结果的形式化表示如下：

q_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m] .

其中，m为源模式字段数，n为目标模式字段数。其中q_i是指描述分类方法输出的第i个类别，这里用源模式元素名指代各类别，向量

是指该类别中包含的元素。

是源模式元素，

是根据评估值选取的目标元素，i是自然数；

类型分类方法用于将源模式以及目标模式各元素根据自身元素类型归类，包含以下步骤：

步骤1、获取源模式元素名-元素类型对集合以及目标模式元素名-元素类型对集合；

步骤2、按下述规则将各元素分类：

ii、字符串：包括CHAR，VARCHAR，TINYBLOB，BLOB，MEDIUMBLOB，LONGBLOB，TINYTEXT，TEXT，MEDIUMTEXT，LONGTEXT，ENUM，SET；

模式信息整合用于整合模式信息分类的分类结果以及元素结构信息，构建加权模糊概念格，主要是采用形式概念分析法来整合各模式分类信息及模式约束信息、构建加权模糊形式背景，并以此为依据构建加权模糊概念格；

所述加权模糊形式背景的构建包括以下步骤：

I、构建形式背景的属性：分别是约束属性(FK，PK)、名称分类属性(所有p_i)、描述分类属性(所有q_i)以及类型分类属性(NUM、STRING、TIME)；

III、构建形式背景对象：形式背景对象是所有源目标元素以及目标元素；IV、针对形式背景各属性，填入各形式背景对象具有该属性的程度，对约束属性及类型分类属性，以值1表示完全具有；值0表示完全不具有；对名称分类属性以及描述分类属性，填入模式分类阶段的各评估值；本发明还提供一种实现概念格快速构建的算法，该方法的基本思想是：通过搜索所有的相对最大子矩阵来获取所有的概念，并根据相关定义，确定各参数以及概念之间的偏序关系。

图4是概念格快速构建方法的主体流程图，该方法包括以下步骤：

步骤1、首先根据X×Y上的加权模糊形式背景f，将满足各属性阈值的数据规整为1，即将加权模糊形式背景f单一化，得到对应0-1矩阵(a_ij)_m×n；

步骤2、由于(a_ij)_m×n中所有相异的相对最大全1子矩阵即为加权模糊形式上下文f的所有概念的0-1表示。因此，从矩阵元素a₁₁遍历到a_mn，找出以各结点做为左上角元素的所有相对最大全1子矩阵；

步骤3、去除搜索过程的重复项；

步骤4、根据公式(2)、(3)计算概念格各参数，并进行相应的合并与调整，从而得到加权模糊概念格中所有的加权模糊形式概念，根据定义8，确定概念之间的偏序关系；

步骤5、构建加权模糊概念格，以XML方式表示。

模式元素相似度的计算用于根据加权模糊概念格计算模式元素之间的匹配度并设定阈值确定元素之间的匹配关系，采用的相似计算模型基于加权模糊概念格，计算公式如下：

g (P) = \frac{1}{| P |} \underset{c &Element; P}{Σ} (ω_{c} \times \underset{I &Element; Intent (c)}{Σ} σ_{I}) . - - - (7)

核心函数描述如下：CONCEPTS_CONSTRU CTION(ContextMatrix){

(a_ij)_m×n←加权模糊形式背景单一化后0-1矩阵ContextMatrix，colPointSet←从当前位置向右横向检查，值为1的位置集。curPointRow←候选相对最大全1子矩阵的最后一行在在(a_ij)_m×n中的对应位置。rowPointSet←从当前位置向下竖向检查，值为1的位置集。

从矩阵左上角第一个位置开始，从矩阵左上往右下检查(a_ij)_m×n中每个数据r_ij，i∈[1，mn]，j∈[1，n]

若r_ij值为0

终止当前循环，继续检查下一数据；

横向循环检查r_ij右侧所有位置直到游标重新到达当前位置r_ij

若游标所在位置值为1

colPointSet←colPointSet∪{currentColume}；

curPointRow←当前数据r_ij所在行；

rowPointSet←rowPointSet∪{curPointRow}；

向下循环检查r_ij对应的第j列的数值r_ij，直到游标回到当前位置r_ij

若r_ij值为1

rowPointSet←rowPointSet∪{r_ij所在行号t}；

对colPointSet中每个列位置col

若r_ij所在行在对应col处值不为1

通过colPointSet、rowPointSet及curPointRow输出当前的候选矩阵。

在colPointSet中将失效位col后的数据删除。

终止当前的内循环

curPointRow←当前数据r_ij所在行；

通过colPointSet、rowPointSet及curPointRow输出当前的候选矩阵。停止。}

Claims

1.一种实现数据库模式自动匹配的方法，其特征在于该方法包括模式信息分析、模式信息分类、模式信息整合以及模式元素相似度的计算四个步骤；

A、获取源数据库模式XML文档及目标数据库模式XML文档；

B、使用XML解析工具DOM4J解析XML文档；

C、整理解析出的模式元素信息，分别生成源模式元素名集合、源模式元素名与元素描述对集合、源模式元素名与元素类型对集合、目标模式元素名集合、目标模式元素名与元素描述对集合、目标模式元素名与元素类型对集合；

D、获取源模式元素名称集；

E、对源模式元素按分隔符分解并去除公共前缀；

F、对上述E步骤处理过的词集进行同义词扩展；

H、各类别以及标识各类别的特征文本集作为训练样例送入名称分类模块，以供分类模块学习各类别特征；未经过训练样例学习的分类模块不具有分类新样例的能力；

I、对目标模式元素，直接将各目标模式元素的3段解析字符串的集合作为待分类样例送入已经学习完的名称分类模块，以计算出各字符串对应各源模式的各类别的评估值，各评估值将会作为模式信息整合阶段的形式概念上下文的数据进行整合，名称分类模块的输出结果的形式化表示如下：

p_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m],

是指该类别中包含的元素；是源模式元素，

是根据评估值选取的目标模式元素；i是自然数；

所述描述分类方法用于根据模式元素的元素描述对源模式元素进行分类，并且计算每个目标模式元素隶属于源模式各类别的隶属度，包括以下步骤：

J、获取源模式元素描述集；

K、各类别以及标识各类别的特征描述集作为训练样例送入描述分类模块，以供分类模块学习各类别特征；

L、对于目标模式元素，直接将各目标模式元素的描述集作为待分类样例送入已经学习完的描述分类模块，以计算出各描述对应各源模式的各类别的评估值，描述分类模块的输出结果的形式化表示如下：

q_{i} &LeftArrow; < e_{s_{i}}, e_{t_{1}}, e_{t_{2}} . . . e_{t_{n}} >, i &Element; [1, m],

是指该类别中包含的元素；

是源模式元素，

是根据评估值选取的目标模式元素；i是自然数；

N、按下述规则将各元素分类：

iii、日期及时间：DATE，TIME，DATETIME，TIMESTAMP，YEAR；

按照i、ii、iii三项类型将属于同一类的模式元素划为一类；

所述加权模糊形式背景的构建包括以下步骤：

I、构建形式背景的属性：分别是源模式元素的约束属性、名称分类属性、描述分类属性以及类型分类属性；

III、构建形式背景对象：形式背景对象是指所有源模式元素以及目标模式元素；

IV、针对形式背景各属性，填入各形式背景对象具有该属性的程度，对约束属性及类型分类属性，以值1表示完全具有，值0表示完全不具有；对名称分类属性以及描述分类属性，填入模式信息分类阶段的各评估值；

所述加权模糊概念格构建方法包括以下步骤：

①、将加权模糊形式背景单一化，构建对应0-1矩阵；

②、遍历该矩阵，找出所有相对最大全1子矩阵；

③、去除重复矩阵；

④、确定参数与偏序关系，形成最终的加权模糊概念格；

g (P) = \frac{1}{| P |} \underset{c &Element; P}{Σ} (ω_{c} \times \underset{I &Element; Intent (c)}{Σ} σ_{I}); - - - (7)

其中，g表示势函数g(P)，P表示函数g的参数，为概念格中一概念子集，α为平衡因子，表示相似的对称性，ω_c表示概念的权重，σ_I表示概念的每个外延对每个属性的平均隶属度，

表示加权模糊概念格中a、b两结点公共的且只有一条向上边的祖先结点的集合，(a-b)^表示那些只在a中出现但未在b中出现的只有一条向上边的祖先结点的集合，(b-a)^表示只在b中出现但未在a中出现的只有一条向上边的祖先结点的集合。