CN109542949B

CN109542949B - 一种基于形式向量的决策信息系统知识获取方法

Info

Publication number: CN109542949B
Application number: CN201811322187.1A
Authority: CN
Inventors: 陈泽华; 赵哲峰; 延安; 刘晓峰; 李伟; 刘帆; 柴晶
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-11-07
Filing date: 2018-11-07
Publication date: 2022-04-12
Anticipated expiration: 2038-11-07
Also published as: CN109542949A

Abstract

本发明公开了一种基于形式向量的决策信息系统最简知识获取方法，该方法以决策形式背景为研究对象，定义了描述信息系统潜在知识的形式向量；引入粒度的思想，由粗到细求取不同粒度空间下的形式向量，并基于父子向量关系构建形式向量树，实现了规则获取过程的可视化；在获取最简规则的过程中，通过条件形式向量和决策形式向量的关系提取最简规则，简化了规则的判定过程；设定规则是否覆盖整个论域为终止条件，使得获取的每条规则之间不存在冗余，保证了规则个数最小且加快了算法的收敛速度；由于采用较少的规则，以及规则长度的最小化，使得本算法同时兼具了较高的识别率。

Description

一种基于形式向量的决策信息系统知识获取方法

技术领域

本发明涉及人工智能中的知识获取与知识约简领域，尤其涉及一种基于形式向量的决策信息系.知识获取方法。

背景技术

随着大数据时代的来临以及网络的进一步发展，信息在计算机与信息系统的相关研究中呈现越来越重要的作用。信息系统是机器学习的主要研究对象，决策信息系统是信息系统的一种重要的表现形式。

知识表示，既不是一种数据格式，也不是一种编程语言，它不同于数据结构，是一种易于让计算机处理的方式来表示人脑的知识，相对于人工智能而言，知识与数据的区别在于，知识是可以推理的。知识获取是人工智能中的关键问题，而规则获取是其中一项重要的研究内容。

粗糙集理论(rough set theory,RST)是由波兰学者Z.Pawlak提出的，它是一种有效的处理模糊和不确定性知识的数学工具，主要是对于不确定信息的近似逼近，采用近似算子进行刻画，可以对数据进行分析、推理，进而挖掘数据中隐含的知识，揭示内在的规律。利用粗糙集对决策信息系统进行规则提取吸引了众多学者的研究。代建华等人从属性的角度出发，提出了基于分类一致性的决策规则获取算法，虽然该算法的泛化能力较强，但获取的规则中仍然存在冗余属性；王石平等人将粗糙集理论中的等价类表示为图和矩阵，使规则提取过程变得直观、易懂；刘鑫等人基于多粒度粗糙集，提出了规则获取问题的一般性理论框架，其中主要包含粒度和知识粒的选择，并且指出了该理论框架的应用前景；陈泽华等人通过定义粒关系矩阵，在不同粒度条件下依据启发式信息对信息粒进行约简并获取规则，该算法的正确识别率较高且规则泛化能力强，但算法复杂度较高；康向平等人等人通过将概念格理论引入粗糙集的研究中，提出一种基于相容关系的变精度粗糙集模型，为粗糙集的扩展提供了新的思路；阎红灿等人提出了一种基于粒计算的粗决策规则约简算法，通过定义分辨算子，按贡献度对属性进行排序，大大提高了属性约简的搜索效率。

1982年Wille提出了概念格(concept lattice)理论，运用概念格进行数据分析，可以发现数据中隐含的知识、揭示潜在的规律。概念格的研究对象是形式背景，概念格理论也被称作形式概念分析(formal concept analysis,FCA)。近年来，很多学者利用FCA对决策表的规则提取进行了广泛的研究：针对完备决策表，李金海等人提出了一种无冗余规则获取算法，该算法避免了算子的计算，在一定程度上降低了算法复杂度，但在某些情况下，获取的规则中仍然存在冗余属性；苗夺谦等人将形式背景中的属性和对象都进行了粒化，降低了形式背景的规模、减少了算法复杂度，但是粒化使得算法在一定程度上损失了知识约简的准确性；邵明文等人等基于形式概念分析研究了If-then规则，提出了非冗余规则获取算法，并且该方法同样适用于不一致决策形式背景。

发明内容

本发明为了克服现有技术中存在的不足，所要解决的技术问题为：针对当前基于粗糙集、概念格的规则获取技术方案存在着规则属性冗余、规则准确性不足、不适配不一致场景的问题，提出一种基于形式向量的决策信息系统知识获取方法的改进；为了解决上述技术问题，本发明采用的技术方案为：一种基于形式向量的决策信息系统知识获取方法，包括如下步骤：

步骤S110：将决策信息系统转化为决策形式背景，根据决策形式背景求取所有单属性非零条件形式向量

和决策形式向量

它们分别构成条件形式向量树和决策形式向量树的第一层节点，上述U表示对象的非空有限集合，C′为条件属性集，D′为决策属性集且C′∩D′＝φ，I和J表示对象集和条件属性集、决策属性集间的一种二元关系；

步骤S120：对于任意条件形式向量与决策形式向量，若其满足规则获取条件，则计算条件形式向量的K和Rel值，上述K表示知识粒度，其本质是形式向量中属性的数量；Rel表示规则相关度，其本质是条件形式向量能够正确识别决策形式向量中论域元素的数量；

步骤S130：对满足规则获取条件的形式向量按K值从小到大分组，组内按照Rel值从大到小依次获取新规则，并将已经完成规则提取的条件形式向量存入old_vectors，上述old_vectors本质上是一个数组，用于保存已完成规则提取的形式向量；

步骤S140：判断已辨识的规则是否覆盖论域，若未覆盖，则更新条件形式向量集

上述l表示形式向量树的深度，并按照形式向量树生成算法计算下一层条件形式向量节点，重复步骤S110-S140；若已覆盖，则结束算法，得到与原信息系统等价的最简规则集，实现信息系统的知识约简。

所述步骤S110中，在将决策信息系统转化为决策形式背景，根据决策形式背景求取所有单属性非零条件形式向量

和决策形式向量

它们分别构成条件形式向量树和决策形式向量树的第一层节点的步骤中，包括如下步骤：

根据决策信息系统IS＝(U,A,V,f)，得到决策形式背景T＝(U,C',I,D',J)，上述IS＝(U,A,V,f)具体作为一个四元组表示决策信息系统：

其中U表示对象的非空有限集合，A表示属性集，A＝C∪D并且C∩D＝φ，C为条件属性，D为决策属性，V表示属性的值域，f是一个信息函数；

上述T＝(U,C',I,D',J)具体作为一个五元组表示决策形式背景：

其中(U，C′，I)为条件属性的形式背景和(U，D′，J)为决策属性的形式背景，U是对象的非空有限集合，C′为条件属性集，D′为决策属性集，且C′∩D′＝φ，I和J表示对象集和条件属性集、决策属性集间的一种二元关系；

根据决策形式背景T＝(U,C',I,D',J)，求取所有初始条件形式向量和决策形式向量，根据初始形式向量分别构建条件形式向量树和决策形式向量树，在形式向量的树形拓扑图中，根节点为论域U，定义单属性形式向量所在的层深度为1，则条件形式向量树的第一层节点为

决策形式向量树的第一层节点为

形式向量的计算式如下：

T(U，A′，I)具体作为一个三元组表示形式背景：

其中U表示非空有限对象集，A′表示非空有限属性集，I表示对象集和属性集间的一种二元关系；

形式背景T＝(U,A',I)，其中U＝{x₁,x₂,...,x_m}，|U|＝m，取任意

形式向量由一组长度为m的二进制向量构成，表示为B'(P)，其中：

P＝(p₁,...,p_i,...,p_m) (1)；

其中，B′(P)表示形式向量，P表示一组长度为m的二进制数，B’表示形式向量的属性，x_i表示对象集的元素，I表示对象集与属性集的二元关系，其中P_i的取值通过x_i与属性B’的二元关系确定；

其中，|U|表示集合U中元素的个数，此处采用

表示形式背景T下的所有形式向量；

则对于决策形式背景T＝(U,C',I,D',J)：

条件属性生成的全体形式向量用

表示，称作条件形式向量集；

决策属性生成的全体决策向量用

表示，称作决策形式向量集；

上述

是形式向量树深度为1时的条件形式向量集。

所述步骤S120中，在深度l下，对于任意条件形式向量与决策形式向量，若其满足规则获取条件，则计算条件形式向量的K和Rel值的步骤中，包括如下步骤：

对于任意条件形式向量

和决策形式向量

判断其是否满足规则获取条件，具体的判断标准为：

设条件形式向量B_x'(P)的形式子集为

决策形式向量B_y'(P)的形式子集为

若满足

则条件形式向量B_x'(P)与决策形式向量B_y'(P)可以构成一条规则；

对满足规则获取条件的条件形式向量，计算其对应的知识粒度K和相关度Rel值：

所述K值的计算公式为：对于

形式向量B'(P)的知识粒度为：

K＝|B'| (3)；

所述Rel值的计算公式为：对于

形式向量B'(P)的B₁'(P)的Rel值为：

其中，若各条件形式向量与决策形式向量存在包含关系，则可获取条件形式向量对应的规则，上述关系的数学表达式为

且B_x'(P)≠0，对于任意的

和

若满足上述数学表达式，则形式向量B_x'(P)和B_y'(P)可以构成一条确定性规则，表示为B_x'→B_y'。

所述步骤S130中，在对满足规则获取条件的形式向量按K值从小到大分组，组内按照Rel值从大到小依次获取新规则，并将已经完成规则提取的条件形式向量存入old_vectors的步骤中，包括步骤：

在深度l下，对满足规则获取条件的条件形式向量按K值从小到大分组{K₁，K₂，K₃，…}；

对于分组{K₁，K₂，K₃，…}，在组内按Rel值从大到小的顺序依次进行规则获取，并将完成规则获取的条件形式向量存入old_vectors。

所述步骤S140中，在判断已辨识的规则是否覆盖论域：

若未覆盖，则更新条件形式向量集

并按照形式向量树生成算法计算下一层条件形式向量节点，重复步骤S110～S140；

若已辨识规则未覆盖论域时，在深度l下，更新当前深度下条件形式向量集

即从条件形式向量集

中剔除已进行规则提取的条件形式向量；

然后依据形式向量树生成算法中的α运算生成下一层向量节点，其中，α算式定义为：

B₃'(P)＝α(B₁'(P),B₂'(P))，即对于决策形式背景T＝(U,C',I,D',J)，设B₁'(P)，B₂'(P)为形式向量，则B₃'(P)可由B₁'(P)和B₂'(P)通过α运算生成；

若已覆盖，则结束算法，得到与原信息系统等价的最简规则集。

本发明相对于现有技术具备以下的有益效果：

一、基于决策形式背景，提出了一种新的知识表示方法，相较于现行的概念格方法，避免了概念生成所带来的繁琐的运算，同时也省去了去除规则中冗余属性的过程；

二、利用条件形式向量和决策形式向量之间的关系进行规则获取，简化了规则的判定过程；

三、本算法从覆盖论域的角度考虑，使得获取的每条规则之间不存在冗余，保证了规则个数最小，加快了算法的收敛速度；

四、较少的规则，以及规则长度的最小化，使得本算法同时兼具了较高的识别率；

五、基于形式向量可构建树形拓扑图，实现了规则获取的可视化。

附图说明

下面结合附图对本发明做进一步说明：

图1为本发明提供的一种基于形式向量的决策信息系统知识获取方法的流程示意图。

图2为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l＝1的条件形式向量树型拓扑图。

图3为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的决策形式向量树型拓扑图。

图4为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l＝2的条件形式向量树型拓扑图。

图5为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l＝3的条件形式向量树型拓扑图。

图6为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的规则个数对比图。

图7为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的规则长度对比图。

图8为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的识别率对比图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

粒计算是一种对复杂问题进行分析、求解的数学模型。粗糙集理论作为其中一个重要的分支，主要是采用近似算子对不确定信息进行逼近，从而可以对数据进行分析、推理，进而挖掘数据中隐含的知识，揭示其内在的规律。形式概念分析是基于形式背景进行数据分析与规则获取的强有力工具，作为知识的一种表示模型，主要依赖于形式概念的外延与内涵，基于形式概念之间的偏序关系建立层次结构。

本发明针对决策信息系统，在形式背景基础上提出了形式向量以及基于形式向量的决策信息系统知识获取方法。该算法从多粒度的角度出发，通过计算每层的形式向量，并根据条件形式向量和决策形式向量的关系获取决策信息系统中的最简规则，设定已提取到的规则所对应的论域元素是否覆盖整个论域为算法终止条件，最终输出最简规则。此外，形式向量的树形拓扑图实现了规则获取的可视化。

参阅图1，图1是本发明提供的一种基于形式向量的决策信息系统知识获取方法的流程示意图。该方法的步骤包括：

S110：将决策信息系统转化为决策形式背景，根据决策形式背景求取所有单属性条件形式向量

和决策形式向量

(非零向量)，它们分别构成条件形式向量树和决策形式向量树的第一层节点。

具体的，根据决策信息系统IS＝(U,A,V,f)，将决策信息系统转化为决策形式背景T＝(U,C',I,D',J)。

在本发明中，决策信息系统用IS＝(U,A,V,f)表示，其中U是对象的非空有限集合；A为属性集，A＝C∪D并且C∩D＝φ，C为条件属性，D为决策属性；

V_a是属性α的值域；f:U×A→V是一个信息函数，即

f(x,a)＝V_a，它指定U中每个对象的属性值。

设决策信息系统IS＝(U,A,V,f)，对于

可以定义一种不可分辨关系：

此外，U/R_B＝{[x]_B|x∈U}＝{X₁,X₂,...,X_n}表示论域U关于R_B的划分，其中[x]_B＝{y∈U|(x,y)∈R_B}，表示论域对象x在属性B下的等价类。

对于决策信息系统，若满足

则称该信息系统为一致决策信息系统；否则，称为不一致决策信息系统。本发明是针对一致决策信息系统而提出的。

在本发明中，形式背景用T＝(U,A,I)表示，其中U是非空有限对象集；A表示非空有限属性集；I满足

表示形式背景的一种二元关系，(x_i,a)∈I(其中x_i∈U、a∈A)表示对象x_i具有属性a，否则表示x_i不具有属性a。为了与决策信息系统相区分，在形式背景的定义中，用A'表示A，C'表示C，D'表示D，下同。

决策形式背景由形式背景扩展而来，其可以用一个五元组T＝(U,C',I,D',J)来表示，其中(U,C',I)和(U,D',J)分别为一个形式背景，C'为条件属性集，D'为决策属性集，且C'∩D'＝φ。

根据决策形式背景T＝(U,C',I,D',J)，求取所有初始条件形式向量和决策形式向量，形式向量的定义如下：

形式背景T＝(U,A',I)，其中，U＝{x₁,x₂,...,x_m}，|U|＝m，取任意

P＝(p₁,…,p_i,...,p_m) (1)；

对于决策形式背景T＝(U,C',I,D',J)，条件属性生成的全体形式向量用

表示，决策属性生成的全体决策向量用

表示，分别称作条件形式向量集和决策形式向量集。

根据初始形式向量分别构建条件形式向量树和决策形式向量树，在形式向量的树形拓扑图中，根节点为论域U，我们定义单属性形式向量所在的层深度为1，其子向量所在的层深度为2，树的深度l与知识粒度具有如下关系：在形式向量的树形拓扑图中，第l层形式向量的最小知识粒度为l。则条件形式向量树的第一层节点为

决策形式向量树的第一层节点为

S120：对于任意条件形式向量与决策形式向量，若其满足规则获取条件，则计算条件形式向量的K和Rel值。

在本发明中形式子集用F_B'表示，设形式背景T＝(U,A',I)，对于

形式子集F_B'＝{x_i|x_iIB'，x_i∈U}。

对于任意条件形式向量

和决策形式向量

其规则获取的条件为：对于条件形式向量B_x'(P)的形式子集为

决策形式向量B_y'(P)的形式子集为

若满足

则条件形式向量B_x'(P)与决策形式向量B_y'(P)可以构成一条规则。

上述规则获取条件的数学表达式描述为：

对于

和

若

且B_x'(P)≠0，则形式向量B_x'(P)和B_y'(P)可以构成一条确定性规则，表示为B_x'→B_y'，其中B_x'(P)为规则前件，B_y'(P)为规则后件。

说明：设决策形式背景T＝(U,C',I,D',J)，对于

和

若

则必然不存在B_x'(P)中的1与B_y'(P)中的0对应，即形式子集满足关系

此外，若B_x'(P)≠0，则B_x'(P)·B_y'(P)≠0，即必然存在B_x'(P)中的1与B_y'(P)中的1对应，条件形式向量对应一组决策形式向量，条件形式向量B_x'(P)可以辨识决策形式向量中的部分论域元素，进而可以构成一条确定性规则；若在此基础之上，B_y'(P)-B_x'(P)＝0，则条件形式向量B_x'(P)可以辨识决策形式向量B_y'(P)中的全部论域元素，构成一条确定性规则。

对满足规则获取条件的条件形式向量，计算其对应的知识粒度K和相关度Rel值，并将对应条件形式向量存入vectors。

知识粒度K：

形式背景T＝(U,A',I)，对于

形式向量B'(P)的知识粒度为：

K＝|B'| (3)；

其中，|B'|表示形式向量B'(P)中的属性个数。

相关度Rel：

决策形式背景T＝(U,C',I,D',J)，设

且B₁'→B_y'，则可定义形式向量B₁'(P)的Rel值为：

它反映了条件形式向量能够正确识别决策形式向量中论域元素的个数。

S130：对满足规则获取条件的形式向量按K值从小到大分组，组内按照Rel值从大到小依次获取新规则，并将已经完成规则提取的条件形式向量存入old_vectors。

在深度l下，对满足规则获取条件的条件形式向量按K值从小到大分组{K₁,K₂,K₃,…}。树的深度l与知识粒度K具有关系：在形式向量的树形拓扑图中，第l层形式向量的最小知识粒度为l。因此，上述分组的目的为：可以优先获取知识粒度较小的条件形式向量所对应的规则。因为，设

且B₁'→B_y',B₂'→B_y'，若K(B₁'(P))＜K(B₂'(P))，则形式向量B₁'(P)的规则表示能力强于形式向量B₂'(P)。

说明：设rule₁＝{B₁'→B_y'}，rule₂＝{B₂'→B_y'}，在相同深度下，由于K(B₁'(P))＜K(B₂'(P))，由公式(3)可知，|B₁'|＜|B₂'|，即在规则后件相同的条件下，B₁'(P)可以用简洁的属性组合构成规则前件，因此，B₁'(P)规则表示能力更强。

对于分组{K₁,K₂,K₃,…}，在组内按Rel值从大到小的顺序依次进行规则获取，并将完成规则获取的条件形式向量存入old_vectors。按Rel值从大到小进行规则获取的目的是：在知识粒度相同的条件下，可以优先获取规则辨识能力更强的条件形式向量所对应的规则。因为，假设

且B₁'→B_y',B₂'→B_y'，若：

Rel(B₁'(P))＞Rel(B₂'(P)) (5)；

s.t.K(B₁'(P))＝K(B₂'(P)) (6)；

则形式向量B₁'(P)的规则辨识能力强于形式向量B₂'(P)。

说明：在知识粒度相同时，若Rel(B₁'(P))＞Rel(B₂'(P))，则B₁'(P)比B₂'(P)拥有更多的非零元素。根据公式(4)和步骤S120中规则获取条件可知，

即B₁'(P)可以覆盖更多的论域元素，因此B₁'(P)的规则辨识能力更强。

S140：判断已辨识的规则是否覆盖论域，若未覆盖，则更新条件形式向量集

并按照形式向量树生成算法计算下一层条件形式向量节点，重复S110-S140步骤；若已覆盖，则结束算法，得到与原信息系统等价的最简规则集，实现信息系统的知识约简。

若已辨识规则未覆盖论域时。首先，在深度l下，更新当前深度下条件形式向量集

即从条件形式向量集

中剔除已进行规则提取的条件形式向量：

其次，根据形式向量树生成算法计算下一层条件形式向量节点。更新树的深度l＝l+1，并按照形式向量树生成算法计算下一层条件形式向量节点，具体算法为：

初始化

对于任意

若α(B₁′(P)，B₂′(P))≠0且

则有

其中，α运算式定义如下：

决策形式背景T＝(U,C',I,D',J)，设B₁'(P)，B₂'(P)为形式向量，则B₃'(P)可由B₁'(P)和B₂'(P)通过α运算生成：

B₃'＝α(B₁',B₂')＝B₁'∪B₂'；

B₃'(P)＝α((B₁'(P),B₂'(P)))＝B₁'(P)∩B₂'(P)；

B₃'(P)称为B₁'(P)和B₂'(P)的子向量，B₁'(P)和B₂'(P)称为B₃'(P)的父向量。

若已辨识规则覆盖论域，则结束算法，得到与原信息系统等价的最简规则集，实现信息系统的知识约简。

本发明方法的具体实施例如下：通过对表1的决策信息系统进行规则获取来详细介绍并分析本发明方法。

表1决策信息系统

将完备决策信息系统转化为决策形式背景，如表2所示。

表2决策形式背景

初始化参数：l＝1，

在深度l＝1时，求取所有单属性条件形式向量和决策形式向量，并分别存入

和

其树形拓扑图分别如图2和图3所示。

由图2可知，在该深度下，可得到7个条件形式向量。对于

和

判断其是否满足

可知只有向量b₁(001100)和c₀(100000)满足条件。根据公式(3)和公式(4)，形式向量的K值和Rel值以及向量提取的规则如表3表示。据此可得到两条规则，分别为rule₁＝{b＝1→d＝1}和rule₂＝{c＝0→d＝1}。此时old_vectors＝{b₁(001100),c₀(100000)}，Un＝{x₃,x₄}∪{x₁}＝{x₁,x₃,x₄}。因为Un≠U，需要继续计算。

表3 l＝1计算过程

l＝2时，求得所有条件形式向量的树形拓扑图如图4所示，其中边为虚线的节点表示删除的已进行规则获取的形式向量。同理，对于

和

寻找满足

的所有条件形式向量，并计算K值和Rel值，如表4所示。

表4 l＝2计算过程

其中，阴影部分表示重复识别的规则，不记入规则集。由表4可知，在l＝2时，可获得2条规则：

rule₃＝{blue|a＝1∧c＝1→d＝1}，

rule₄＝{a＝1∧c＝2→d＝0}，

规则对应有：

old_vectors＝{a₀c₂(001000)，a₁c₁(000001)，a₁c₂(000010)，b₀c₂(000010)}。

此时，Un＝Un∪{x₅，x₆}＝{x₁，x₃，x₄，x₅，x₆}，由于Un≠U，需要继续计算。

l＝3时，求得所有条件形式向量的树形拓扑图如图5所示。同理，对于

和

寻找满足规则获取条件的所有条件形式向量，并计算C值和Rel值，如表5所示。

表5 l＝3计算过程

因此，在l＝3时，可获得1条规则：rule₅＝{a＝0∧b＝0∧c＝1→d＝0}，old_vectors＝{a₀b₀c₁(010000)}。此时，Un＝Un∪{x₂}＝{x₁，x₂，x₃，x₄，x₅，x₆}，因为Un＝U，计算结束。决策信息系统规则获取的结果为rule₁～rule₅。

实例结果表明，采用本发明算法进行知识获取后，上述决策信息系统可以用化简后的5条规则等价表示，减小了原信息系统的存储规模。

下面通过几组数据集来进行测试，验证本发明方法的正确性与有效性。本实验选取UCI数据集中部分常用数据集，利用Rosetta软件对数据集进行离散化处理。然后，分别应用本发明的算法(算法1)、基于分类一致率的决策规则获取算法(算法2)、基于粒矩阵的最简规则获取算法(算法3)、基于决策形式背景的规则获取算法(算法4)对数据集进行测试，实验对比结果如表6所示。

表6算法实验对比结果

本发明实验过程：选取8组UCI数据集(如表6所示)，分别应用算法1、算法2、算法3和算法4对数据集进行规则获取，记录各算法所得到的规则个数、规则长度、识别率和程序运行时间。其中，实验运行时间对比结果如表6所示；规则个数、规则长度、识别率分别如图7-图8所示。

正确识别率是由获取的规则集对每个数据集进行整体识别的正确的概率。具体过程：每个数据集中各随机选取50％作为训练样本，分别应用各算法对训练数据集进行规则获取并记录各自的规则集，然后对各数据集整体进行识别。

实验结果表明，本发明方法从覆盖论域的角度考虑，使得获取的每条规则之间不存在冗余，保证了规则个数最小；其次，采用较少的规则，以及规则长度的最小化，使得本算法同时兼具了较高的识别率。

区别于现有技术，本发明的基于形式向量的决策信息系统知识获取方法具有以下优点：1)基于决策形式背景，提出了一种新的知识表示方法，相较于现行的概念格方法，避免了概念生成所带来的繁琐的运算，同时也省去了去除规则中冗余属性的过程；2)利用条件形式向量和决策形式向量之间的关系进行规则获取，简化了规则的判定过程；3)本算法从覆盖论域的角度考虑，使得获取的每条规则之间不存在冗余，保证了规则个数最小，加快了算法的收敛速度；4)较少的规则，以及规则长度的最小化，使得本算法同时兼具了较高的识别率；5)基于形式向量可构建树形拓扑图，实现了规则获取的可视化。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。