CN109542949B - 一种基于形式向量的决策信息系统知识获取方法 - Google Patents

一种基于形式向量的决策信息系统知识获取方法 Download PDF

Info

Publication number
CN109542949B
CN109542949B CN201811322187.1A CN201811322187A CN109542949B CN 109542949 B CN109542949 B CN 109542949B CN 201811322187 A CN201811322187 A CN 201811322187A CN 109542949 B CN109542949 B CN 109542949B
Authority
CN
China
Prior art keywords
decision
vector
rule
conditional
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811322187.1A
Other languages
English (en)
Other versions
CN109542949A (zh
Inventor
陈泽华
赵哲峰
延安
刘晓峰
李伟
刘帆
柴晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Technology
Original Assignee
Taiyuan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Technology filed Critical Taiyuan University of Technology
Priority to CN201811322187.1A priority Critical patent/CN109542949B/zh
Publication of CN109542949A publication Critical patent/CN109542949A/zh
Application granted granted Critical
Publication of CN109542949B publication Critical patent/CN109542949B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于形式向量的决策信息系统最简知识获取方法,该方法以决策形式背景为研究对象,定义了描述信息系统潜在知识的形式向量;引入粒度的思想,由粗到细求取不同粒度空间下的形式向量,并基于父子向量关系构建形式向量树,实现了规则获取过程的可视化;在获取最简规则的过程中,通过条件形式向量和决策形式向量的关系提取最简规则,简化了规则的判定过程;设定规则是否覆盖整个论域为终止条件,使得获取的每条规则之间不存在冗余,保证了规则个数最小且加快了算法的收敛速度;由于采用较少的规则,以及规则长度的最小化,使得本算法同时兼具了较高的识别率。

Description

一种基于形式向量的决策信息系统知识获取方法
技术领域
本发明涉及人工智能中的知识获取与知识约简领域,尤其涉及一种基于形式向量的决策信息系.知识获取方法。
背景技术
随着大数据时代的来临以及网络的进一步发展,信息在计算机与信息系统的相关研究中呈现越来越重要的作用。信息系统是机器学习的主要研究对象,决策信息系统是信息系统的一种重要的表现形式。
知识表示,既不是一种数据格式,也不是一种编程语言,它不同于数据结构,是一种易于让计算机处理的方式来表示人脑的知识,相对于人工智能而言,知识与数据的区别在于,知识是可以推理的。知识获取是人工智能中的关键问题,而规则获取是其中一项重要的研究内容。
粗糙集理论(rough set theory,RST)是由波兰学者Z.Pawlak提出的,它是一种有效的处理模糊和不确定性知识的数学工具,主要是对于不确定信息的近似逼近,采用近似算子进行刻画,可以对数据进行分析、推理,进而挖掘数据中隐含的知识,揭示内在的规律。利用粗糙集对决策信息系统进行规则提取吸引了众多学者的研究。代建华等人从属性的角度出发,提出了基于分类一致性的决策规则获取算法,虽然该算法的泛化能力较强,但获取的规则中仍然存在冗余属性;王石平等人将粗糙集理论中的等价类表示为图和矩阵,使规则提取过程变得直观、易懂;刘鑫等人基于多粒度粗糙集,提出了规则获取问题的一般性理论框架,其中主要包含粒度和知识粒的选择,并且指出了该理论框架的应用前景;陈泽华等人通过定义粒关系矩阵,在不同粒度条件下依据启发式信息对信息粒进行约简并获取规则,该算法的正确识别率较高且规则泛化能力强,但算法复杂度较高;康向平等人等人通过将概念格理论引入粗糙集的研究中,提出一种基于相容关系的变精度粗糙集模型,为粗糙集的扩展提供了新的思路;阎红灿等人提出了一种基于粒计算的粗决策规则约简算法,通过定义分辨算子,按贡献度对属性进行排序,大大提高了属性约简的搜索效率。
1982年Wille提出了概念格(concept lattice)理论,运用概念格进行数据分析,可以发现数据中隐含的知识、揭示潜在的规律。概念格的研究对象是形式背景,概念格理论也被称作形式概念分析(formal concept analysis,FCA)。近年来,很多学者利用FCA对决策表的规则提取进行了广泛的研究:针对完备决策表,李金海等人提出了一种无冗余规则获取算法,该算法避免了算子的计算,在一定程度上降低了算法复杂度,但在某些情况下,获取的规则中仍然存在冗余属性;苗夺谦等人将形式背景中的属性和对象都进行了粒化,降低了形式背景的规模、减少了算法复杂度,但是粒化使得算法在一定程度上损失了知识约简的准确性;邵明文等人等基于形式概念分析研究了If-then规则,提出了非冗余规则获取算法,并且该方法同样适用于不一致决策形式背景。
发明内容
本发明为了克服现有技术中存在的不足,所要解决的技术问题为:针对当前基于粗糙集、概念格的规则获取技术方案存在着规则属性冗余、规则准确性不足、不适配不一致场景的问题,提出一种基于形式向量的决策信息系统知识获取方法的改进;为了解决上述技术问题,本发明采用的技术方案为:一种基于形式向量的决策信息系统知识获取方法,包括如下步骤:
步骤S110:将决策信息系统转化为决策形式背景,根据决策形式背景求取所有单属性非零条件形式向量
Figure GDA0003259254180000021
和决策形式向量
Figure GDA0003259254180000022
它们分别构成条件形式向量树和决策形式向量树的第一层节点,上述U表示对象的非空有限集合,C′为条件属性集,D′为决策属性集且C′∩D′=φ,I和J表示对象集和条件属性集、决策属性集间的一种二元关系;
步骤S120:对于任意条件形式向量与决策形式向量,若其满足规则获取条件,则计算条件形式向量的K和Rel值,上述K表示知识粒度,其本质是形式向量中属性的数量;Rel表示规则相关度,其本质是条件形式向量能够正确识别决策形式向量中论域元素的数量;
步骤S130:对满足规则获取条件的形式向量按K值从小到大分组,组内按照Rel值从大到小依次获取新规则,并将已经完成规则提取的条件形式向量存入old_vectors,上述old_vectors本质上是一个数组,用于保存已完成规则提取的形式向量;
步骤S140:判断已辨识的规则是否覆盖论域,若未覆盖,则更新条件形式向量集
Figure GDA0003259254180000023
上述l表示形式向量树的深度,并按照形式向量树生成算法计算下一层条件形式向量节点,重复步骤S110-S140;若已覆盖,则结束算法,得到与原信息系统等价的最简规则集,实现信息系统的知识约简。
所述步骤S110中,在将决策信息系统转化为决策形式背景,根据决策形式背景求取所有单属性非零条件形式向量
Figure GDA0003259254180000024
和决策形式向量
Figure GDA0003259254180000025
它们分别构成条件形式向量树和决策形式向量树的第一层节点的步骤中,包括如下步骤:
根据决策信息系统IS=(U,A,V,f),得到决策形式背景T=(U,C',I,D',J),上述IS=(U,A,V,f)具体作为一个四元组表示决策信息系统:
其中U表示对象的非空有限集合,A表示属性集,A=C∪D并且C∩D=φ,C为条件属性,D为决策属性,V表示属性的值域,f是一个信息函数;
上述T=(U,C',I,D',J)具体作为一个五元组表示决策形式背景:
其中(U,C′,I)为条件属性的形式背景和(U,D′,J)为决策属性的形式背景,U是对象的非空有限集合,C′为条件属性集,D′为决策属性集,且C′∩D′=φ,I和J表示对象集和条件属性集、决策属性集间的一种二元关系;
根据决策形式背景T=(U,C',I,D',J),求取所有初始条件形式向量和决策形式向量,根据初始形式向量分别构建条件形式向量树和决策形式向量树,在形式向量的树形拓扑图中,根节点为论域U,定义单属性形式向量所在的层深度为1,则条件形式向量树的第一层节点为
Figure GDA0003259254180000031
决策形式向量树的第一层节点为
Figure GDA0003259254180000032
形式向量的计算式如下:
T(U,A′,I)具体作为一个三元组表示形式背景:
其中U表示非空有限对象集,A′表示非空有限属性集,I表示对象集和属性集间的一种二元关系;
形式背景T=(U,A',I),其中U={x1,x2,...,xm},|U|=m,取任意
Figure GDA0003259254180000033
形式向量由一组长度为m的二进制向量构成,表示为B'(P),其中:
P=(p1,...,pi,...,pm) (1);
Figure GDA0003259254180000034
其中,B′(P)表示形式向量,P表示一组长度为m的二进制数,B’表示形式向量的属性,xi表示对象集的元素,I表示对象集与属性集的二元关系,其中Pi的取值通过xi与属性B’的二元关系确定;
其中,|U|表示集合U中元素的个数,此处采用
Figure GDA0003259254180000035
表示形式背景T下的所有形式向量;
则对于决策形式背景T=(U,C',I,D',J):
条件属性生成的全体形式向量用
Figure GDA0003259254180000036
表示,称作条件形式向量集;
决策属性生成的全体决策向量用
Figure GDA0003259254180000037
表示,称作决策形式向量集;
上述
Figure GDA0003259254180000041
是形式向量树深度为1时的条件形式向量集。
所述步骤S120中,在深度l下,对于任意条件形式向量与决策形式向量,若其满足规则获取条件,则计算条件形式向量的K和Rel值的步骤中,包括如下步骤:
对于任意条件形式向量
Figure GDA0003259254180000042
和决策形式向量
Figure GDA0003259254180000043
判断其是否满足规则获取条件,具体的判断标准为:
设条件形式向量Bx'(P)的形式子集为
Figure GDA0003259254180000044
决策形式向量By'(P)的形式子集为
Figure GDA0003259254180000045
若满足
Figure GDA0003259254180000046
则条件形式向量Bx'(P)与决策形式向量By'(P)可以构成一条规则;
对满足规则获取条件的条件形式向量,计算其对应的知识粒度K和相关度Rel值:
所述K值的计算公式为:对于
Figure GDA0003259254180000047
形式向量B'(P)的知识粒度为:
K=|B'| (3);
所述Rel值的计算公式为:对于
Figure GDA0003259254180000048
形式向量B'(P)的B1'(P)的Rel值为:
Figure GDA0003259254180000049
其中,若各条件形式向量与决策形式向量存在包含关系,则可获取条件形式向量对应的规则,上述关系的数学表达式为
Figure GDA00032592541800000410
且Bx'(P)≠0,对于任意的
Figure GDA00032592541800000411
Figure GDA00032592541800000412
若满足上述数学表达式,则形式向量Bx'(P)和By'(P)可以构成一条确定性规则,表示为Bx'→By'。
所述步骤S130中,在对满足规则获取条件的形式向量按K值从小到大分组,组内按照Rel值从大到小依次获取新规则,并将已经完成规则提取的条件形式向量存入old_vectors的步骤中,包括步骤:
在深度l下,对满足规则获取条件的条件形式向量按K值从小到大分组{K1,K2,K3,…};
对于分组{K1,K2,K3,…},在组内按Rel值从大到小的顺序依次进行规则获取,并将完成规则获取的条件形式向量存入old_vectors。
所述步骤S140中,在判断已辨识的规则是否覆盖论域:
若未覆盖,则更新条件形式向量集
Figure GDA00032592541800000413
并按照形式向量树生成算法计算下一层条件形式向量节点,重复步骤S110~S140;
若已辨识规则未覆盖论域时,在深度l下,更新当前深度下条件形式向量集
Figure GDA0003259254180000051
即从条件形式向量集
Figure GDA0003259254180000052
中剔除已进行规则提取的条件形式向量;
然后依据形式向量树生成算法中的α运算生成下一层向量节点,其中,α算式定义为:
B3'(P)=α(B1'(P),B2'(P)),即对于决策形式背景T=(U,C',I,D',J),设B1'(P),B2'(P)为形式向量,则B3'(P)可由B1'(P)和B2'(P)通过α运算生成;
若已覆盖,则结束算法,得到与原信息系统等价的最简规则集。
本发明相对于现有技术具备以下的有益效果:
一、基于决策形式背景,提出了一种新的知识表示方法,相较于现行的概念格方法,避免了概念生成所带来的繁琐的运算,同时也省去了去除规则中冗余属性的过程;
二、利用条件形式向量和决策形式向量之间的关系进行规则获取,简化了规则的判定过程;
三、本算法从覆盖论域的角度考虑,使得获取的每条规则之间不存在冗余,保证了规则个数最小,加快了算法的收敛速度;
四、较少的规则,以及规则长度的最小化,使得本算法同时兼具了较高的识别率;
五、基于形式向量可构建树形拓扑图,实现了规则获取的可视化。
附图说明
下面结合附图对本发明做进一步说明:
图1为本发明提供的一种基于形式向量的决策信息系统知识获取方法的流程示意图。
图2为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l=1的条件形式向量树型拓扑图。
图3为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的决策形式向量树型拓扑图。
图4为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l=2的条件形式向量树型拓扑图。
图5为本发明提供的一种基于形式向量的决策信息系统知识获取方法中的l=3的条件形式向量树型拓扑图。
图6为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的规则个数对比图。
图7为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的规则长度对比图。
图8为本发明提供的一种基于形式向量的决策信息系统知识获取方法中测试实验的识别率对比图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
粒计算是一种对复杂问题进行分析、求解的数学模型。粗糙集理论作为其中一个重要的分支,主要是采用近似算子对不确定信息进行逼近,从而可以对数据进行分析、推理,进而挖掘数据中隐含的知识,揭示其内在的规律。形式概念分析是基于形式背景进行数据分析与规则获取的强有力工具,作为知识的一种表示模型,主要依赖于形式概念的外延与内涵,基于形式概念之间的偏序关系建立层次结构。
本发明针对决策信息系统,在形式背景基础上提出了形式向量以及基于形式向量的决策信息系统知识获取方法。该算法从多粒度的角度出发,通过计算每层的形式向量,并根据条件形式向量和决策形式向量的关系获取决策信息系统中的最简规则,设定已提取到的规则所对应的论域元素是否覆盖整个论域为算法终止条件,最终输出最简规则。此外,形式向量的树形拓扑图实现了规则获取的可视化。
参阅图1,图1是本发明提供的一种基于形式向量的决策信息系统知识获取方法的流程示意图。该方法的步骤包括:
S110:将决策信息系统转化为决策形式背景,根据决策形式背景求取所有单属性条件形式向量
Figure GDA0003259254180000061
和决策形式向量
Figure GDA0003259254180000062
(非零向量),它们分别构成条件形式向量树和决策形式向量树的第一层节点。
具体的,根据决策信息系统IS=(U,A,V,f),将决策信息系统转化为决策形式背景T=(U,C',I,D',J)。
在本发明中,决策信息系统用IS=(U,A,V,f)表示,其中U是对象的非空有限集合;A为属性集,A=C∪D并且C∩D=φ,C为条件属性,D为决策属性;
Figure GDA0003259254180000063
Va是属性α的值域;f:U×A→V是一个信息函数,即
Figure GDA0003259254180000064
f(x,a)=Va,它指定U中每个对象的属性值。
设决策信息系统IS=(U,A,V,f),对于
Figure GDA0003259254180000071
可以定义一种不可分辨关系:
Figure GDA0003259254180000072
此外,U/RB={[x]B|x∈U}={X1,X2,...,Xn}表示论域U关于RB的划分,其中[x]B={y∈U|(x,y)∈RB},表示论域对象x在属性B下的等价类。
对于决策信息系统,若满足
Figure GDA0003259254180000073
则称该信息系统为一致决策信息系统;否则,称为不一致决策信息系统。本发明是针对一致决策信息系统而提出的。
在本发明中,形式背景用T=(U,A,I)表示,其中U是非空有限对象集;A表示非空有限属性集;I满足
Figure GDA0003259254180000074
表示形式背景的一种二元关系,(xi,a)∈I(其中xi∈U、a∈A)表示对象xi具有属性a,否则表示xi不具有属性a。为了与决策信息系统相区分,在形式背景的定义中,用A'表示A,C'表示C,D'表示D,下同。
决策形式背景由形式背景扩展而来,其可以用一个五元组T=(U,C',I,D',J)来表示,其中(U,C',I)和(U,D',J)分别为一个形式背景,C'为条件属性集,D'为决策属性集,且C'∩D'=φ。
根据决策形式背景T=(U,C',I,D',J),求取所有初始条件形式向量和决策形式向量,形式向量的定义如下:
形式背景T=(U,A',I),其中,U={x1,x2,...,xm},|U|=m,取任意
Figure GDA0003259254180000075
形式向量由一组长度为m的二进制向量构成,表示为B'(P),其中:
P=(p1,…,pi,...,pm) (1);
Figure GDA0003259254180000076
对于决策形式背景T=(U,C',I,D',J),条件属性生成的全体形式向量用
Figure GDA0003259254180000077
表示,决策属性生成的全体决策向量用
Figure GDA0003259254180000078
表示,分别称作条件形式向量集和决策形式向量集。
根据初始形式向量分别构建条件形式向量树和决策形式向量树,在形式向量的树形拓扑图中,根节点为论域U,我们定义单属性形式向量所在的层深度为1,其子向量所在的层深度为2,树的深度l与知识粒度具有如下关系:在形式向量的树形拓扑图中,第l层形式向量的最小知识粒度为l。则条件形式向量树的第一层节点为
Figure GDA0003259254180000079
决策形式向量树的第一层节点为
Figure GDA0003259254180000081
S120:对于任意条件形式向量与决策形式向量,若其满足规则获取条件,则计算条件形式向量的K和Rel值。
在本发明中形式子集用FB'表示,设形式背景T=(U,A',I),对于
Figure GDA0003259254180000082
形式子集FB'={xi|xiIB',xi∈U}。
对于任意条件形式向量
Figure GDA0003259254180000083
和决策形式向量
Figure GDA0003259254180000084
其规则获取的条件为:对于条件形式向量Bx'(P)的形式子集为
Figure GDA0003259254180000085
决策形式向量By'(P)的形式子集为
Figure GDA0003259254180000086
若满足
Figure GDA0003259254180000087
则条件形式向量Bx'(P)与决策形式向量By'(P)可以构成一条规则。
上述规则获取条件的数学表达式描述为:
对于
Figure GDA0003259254180000088
Figure GDA0003259254180000089
Figure GDA00032592541800000810
且Bx'(P)≠0,则形式向量Bx'(P)和By'(P)可以构成一条确定性规则,表示为Bx'→By',其中Bx'(P)为规则前件,By'(P)为规则后件。
说明:设决策形式背景T=(U,C',I,D',J),对于
Figure GDA00032592541800000811
Figure GDA00032592541800000812
Figure GDA00032592541800000813
则必然不存在Bx'(P)中的1与By'(P)中的0对应,即形式子集满足关系
Figure GDA00032592541800000814
此外,若Bx'(P)≠0,则Bx'(P)·By'(P)≠0,即必然存在Bx'(P)中的1与By'(P)中的1对应,条件形式向量对应一组决策形式向量,条件形式向量Bx'(P)可以辨识决策形式向量中的部分论域元素,进而可以构成一条确定性规则;若在此基础之上,By'(P)-Bx'(P)=0,则条件形式向量Bx'(P)可以辨识决策形式向量By'(P)中的全部论域元素,构成一条确定性规则。
对满足规则获取条件的条件形式向量,计算其对应的知识粒度K和相关度Rel值,并将对应条件形式向量存入vectors。
知识粒度K:
形式背景T=(U,A',I),对于
Figure GDA00032592541800000815
形式向量B'(P)的知识粒度为:
K=|B'| (3);
其中,|B'|表示形式向量B'(P)中的属性个数。
相关度Rel:
决策形式背景T=(U,C',I,D',J),设
Figure GDA0003259254180000091
Figure GDA0003259254180000092
且B1'→By',则可定义形式向量B1'(P)的Rel值为:
Figure GDA0003259254180000093
它反映了条件形式向量能够正确识别决策形式向量中论域元素的个数。
S130:对满足规则获取条件的形式向量按K值从小到大分组,组内按照Rel值从大到小依次获取新规则,并将已经完成规则提取的条件形式向量存入old_vectors。
在深度l下,对满足规则获取条件的条件形式向量按K值从小到大分组{K1,K2,K3,…}。树的深度l与知识粒度K具有关系:在形式向量的树形拓扑图中,第l层形式向量的最小知识粒度为l。因此,上述分组的目的为:可以优先获取知识粒度较小的条件形式向量所对应的规则。因为,设
Figure GDA0003259254180000094
Figure GDA0003259254180000095
且B1'→By',B2'→By',若K(B1'(P))<K(B2'(P)),则形式向量B1'(P)的规则表示能力强于形式向量B2'(P)。
说明:设rule1={B1'→By'},rule2={B2'→By'},在相同深度下,由于K(B1'(P))<K(B2'(P)),由公式(3)可知,|B1'|<|B2'|,即在规则后件相同的条件下,B1'(P)可以用简洁的属性组合构成规则前件,因此,B1'(P)规则表示能力更强。
对于分组{K1,K2,K3,…},在组内按Rel值从大到小的顺序依次进行规则获取,并将完成规则获取的条件形式向量存入old_vectors。按Rel值从大到小进行规则获取的目的是:在知识粒度相同的条件下,可以优先获取规则辨识能力更强的条件形式向量所对应的规则。因为,假设
Figure GDA0003259254180000096
Figure GDA0003259254180000097
且B1'→By',B2'→By',若:
Rel(B1'(P))>Rel(B2'(P)) (5);
s.t.K(B1'(P))=K(B2'(P)) (6);
则形式向量B1'(P)的规则辨识能力强于形式向量B2'(P)。
说明:在知识粒度相同时,若Rel(B1'(P))>Rel(B2'(P)),则B1'(P)比B2'(P)拥有更多的非零元素。根据公式(4)和步骤S120中规则获取条件可知,
Figure GDA0003259254180000101
即B1'(P)可以覆盖更多的论域元素,因此B1'(P)的规则辨识能力更强。
S140:判断已辨识的规则是否覆盖论域,若未覆盖,则更新条件形式向量集
Figure GDA0003259254180000102
并按照形式向量树生成算法计算下一层条件形式向量节点,重复S110-S140步骤;若已覆盖,则结束算法,得到与原信息系统等价的最简规则集,实现信息系统的知识约简。
若已辨识规则未覆盖论域时。首先,在深度l下,更新当前深度下条件形式向量集
Figure GDA0003259254180000103
即从条件形式向量集
Figure GDA0003259254180000104
中剔除已进行规则提取的条件形式向量:
Figure GDA0003259254180000105
其次,根据形式向量树生成算法计算下一层条件形式向量节点。更新树的深度l=l+1,并按照形式向量树生成算法计算下一层条件形式向量节点,具体算法为:
初始化
Figure GDA0003259254180000106
对于任意
Figure GDA0003259254180000107
若α(B1′(P),B2′(P))≠0且
Figure GDA0003259254180000108
则有
Figure GDA0003259254180000109
其中,α运算式定义如下:
决策形式背景T=(U,C',I,D',J),设B1'(P),B2'(P)为形式向量,则B3'(P)可由B1'(P)和B2'(P)通过α运算生成:
B3'=α(B1',B2')=B1'∪B2';
B3'(P)=α((B1'(P),B2'(P)))=B1'(P)∩B2'(P);
B3'(P)称为B1'(P)和B2'(P)的子向量,B1'(P)和B2'(P)称为B3'(P)的父向量。
若已辨识规则覆盖论域,则结束算法,得到与原信息系统等价的最简规则集,实现信息系统的知识约简。
本发明方法的具体实施例如下:通过对表1的决策信息系统进行规则获取来详细介绍并分析本发明方法。
表1决策信息系统
Figure GDA0003259254180000111
将完备决策信息系统转化为决策形式背景,如表2所示。
表2决策形式背景
Figure GDA0003259254180000112
初始化参数:l=1,
Figure GDA0003259254180000113
在深度l=1时,求取所有单属性条件形式向量和决策形式向量,并分别存入
Figure GDA0003259254180000114
Figure GDA0003259254180000115
其树形拓扑图分别如图2和图3所示。
由图2可知,在该深度下,可得到7个条件形式向量。对于
Figure GDA0003259254180000116
Figure GDA0003259254180000117
判断其是否满足
Figure GDA0003259254180000118
可知只有向量b1(001100)和c0(100000)满足条件。根据公式(3)和公式(4),形式向量的K值和Rel值以及向量提取的规则如表3表示。据此可得到两条规则,分别为rule1={b=1→d=1}和rule2={c=0→d=1}。此时old_vectors={b1(001100),c0(100000)},Un={x3,x4}∪{x1}={x1,x3,x4}。因为Un≠U,需要继续计算。
表3 l=1计算过程
Figure GDA0003259254180000121
l=2时,求得所有条件形式向量的树形拓扑图如图4所示,其中边为虚线的节点表示删除的已进行规则获取的形式向量。同理,对于
Figure GDA0003259254180000122
Figure GDA0003259254180000123
寻找满足
Figure GDA0003259254180000124
的所有条件形式向量,并计算K值和Rel值,如表4所示。
表4 l=2计算过程
Figure GDA0003259254180000125
其中,阴影部分表示重复识别的规则,不记入规则集。由表4可知,在l=2时,可获得2条规则:
rule3={blue|a=1∧c=1→d=1},
rule4={a=1∧c=2→d=0},
规则对应有:
old_vectors={a0c2(001000),a1c1(000001),a1c2(000010),b0c2(000010)}。
此时,Un=Un∪{x5,x6}={x1,x3,x4,x5,x6},由于Un≠U,需要继续计算。
l=3时,求得所有条件形式向量的树形拓扑图如图5所示。同理,对于
Figure GDA0003259254180000126
Figure GDA0003259254180000127
寻找满足规则获取条件的所有条件形式向量,并计算C值和Rel值,如表5所示。
表5 l=3计算过程
Figure GDA0003259254180000128
因此,在l=3时,可获得1条规则:rule5={a=0∧b=0∧c=1→d=0},old_vectors={a0b0c1(010000)}。此时,Un=Un∪{x2}={x1,x2,x3,x4,x5,x6},因为Un=U,计算结束。决策信息系统规则获取的结果为rule1~rule5
实例结果表明,采用本发明算法进行知识获取后,上述决策信息系统可以用化简后的5条规则等价表示,减小了原信息系统的存储规模。
下面通过几组数据集来进行测试,验证本发明方法的正确性与有效性。本实验选取UCI数据集中部分常用数据集,利用Rosetta软件对数据集进行离散化处理。然后,分别应用本发明的算法(算法1)、基于分类一致率的决策规则获取算法(算法2)、基于粒矩阵的最简规则获取算法(算法3)、基于决策形式背景的规则获取算法(算法4)对数据集进行测试,实验对比结果如表6所示。
表6算法实验对比结果
Figure GDA0003259254180000131
本发明实验过程:选取8组UCI数据集(如表6所示),分别应用算法1、算法2、算法3和算法4对数据集进行规则获取,记录各算法所得到的规则个数、规则长度、识别率和程序运行时间。其中,实验运行时间对比结果如表6所示;规则个数、规则长度、识别率分别如图7-图8所示。
正确识别率是由获取的规则集对每个数据集进行整体识别的正确的概率。具体过程:每个数据集中各随机选取50%作为训练样本,分别应用各算法对训练数据集进行规则获取并记录各自的规则集,然后对各数据集整体进行识别。
实验结果表明,本发明方法从覆盖论域的角度考虑,使得获取的每条规则之间不存在冗余,保证了规则个数最小;其次,采用较少的规则,以及规则长度的最小化,使得本算法同时兼具了较高的识别率。
区别于现有技术,本发明的基于形式向量的决策信息系统知识获取方法具有以下优点:1)基于决策形式背景,提出了一种新的知识表示方法,相较于现行的概念格方法,避免了概念生成所带来的繁琐的运算,同时也省去了去除规则中冗余属性的过程;2)利用条件形式向量和决策形式向量之间的关系进行规则获取,简化了规则的判定过程;3)本算法从覆盖论域的角度考虑,使得获取的每条规则之间不存在冗余,保证了规则个数最小,加快了算法的收敛速度;4)较少的规则,以及规则长度的最小化,使得本算法同时兼具了较高的识别率;5)基于形式向量可构建树形拓扑图,实现了规则获取的可视化。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (5)

1.一种基于形式向量的决策信息系统知识获取方法,其特征在于:包括如下步骤:
步骤S110:将决策信息系统转化为决策形式背景,根据决策形式背景求取所有单属性非零条件形式向量
Figure FDA0003259254170000011
和决策形式向量
Figure FDA0003259254170000012
它们分别构成条件形式向量树和决策形式向量树的第一层节点,上述U表示对象的非空有限集合,C′为条件属性集,D′为决策属性集且C′∩D′=φ,I和J表示对象集和条件属性集、决策属性集间的一种二元关系;
步骤S120:对于任意条件形式向量与决策形式向量,若其满足规则获取条件,则计算条件形式向量的K和Rel值,上述K表示知识粒度,其本质是形式向量中属性的数量;Rel表示规则相关度,其本质是条件形式向量能够正确识别决策形式向量中论域元素的数量;
步骤S130:对满足规则获取条件的形式向量按K值从小到大分组,组内按照Rel值从大到小依次获取新规则,并将已经完成规则提取的条件形式向量存入old_vectors,上述old_vectors本质上是一个数组,用于保存已完成规则提取的形式向量;
步骤S140:判断已辨识的规则是否覆盖论域,若未覆盖,则更新条件形式向量集
Figure FDA0003259254170000013
上述l表示形式向量树的深度,并按照形式向量树生成算法计算下一层条件形式向量节点,重复步骤S110-S140;若已覆盖,则结束算法,得到与原信息系统等价的最简规则集,实现信息系统的知识约简。
2.根据权利要求1所述的一种基于形式向量的决策信息系统知识获取方法,其特征在于:所述步骤S110中,在将决策信息系统转化为决策形式背景,根据决策形式背景求取所有单属性非零条件形式向量
Figure FDA0003259254170000014
和决策形式向量
Figure FDA0003259254170000015
它们分别构成条件形式向量树和决策形式向量树的第一层节点的步骤中,包括如下步骤:
根据决策信息系统IS=(U,A,V,f),得到决策形式背景T=(U,C′,I,D′,J),上述IS=(U,A,V,f)具体作为一个四元组表示决策信息系统:
其中U表示对象的非空有限集合,A表示属性集,A=C∪D并且C∩D=φ,C为条件属性,D为决策属性,V表示属性的值域,f是一个信息函数;
上述T=(U,C′,I,D′,J)具体作为一个五元组表示决策形式背景:
其中(U,C′,I)为条件属性的形式背景和(U,D′,J)为决策属性的形式背景,U是对象的非空有限集合,C′.为条件属性集,D′为决策属性集,且C′∩D′=φ,I和J表示对象集和条件属性集、决策属性集间的一种二元关系;
根据决策形式背景T=(U,C′,I,D′,J),求取所有初始条件形式向量和决策形式向量,根据初始形式向量分别构建条件形式向量树和决策形式向量树,在形式向量的树形拓扑图中,根节点为论域U,定义单属性形式向量所在的层深度为1,则条件形式向量树的第一层节点为
Figure FDA0003259254170000021
决策形式向量树的第一层节点为
Figure FDA0003259254170000022
形式同重的计算式如下:
T=(U,A′,I)具体作为一个三元组表示形式背景:
其中U表示非空有限对象集,A′表示非空有限属性集,I表示对象集和属性集间的一种二元关系;
形式背景T=(U,A′,I),其中U={x1,x2,...,xm},|U|=m,取任意
Figure FDA00032592541700000210
形式向量由一组长度为m的二进制向量构成,表示为B′(P),其中:
P=(p1,...,pi,...,pm)(1);
Figure FDA0003259254170000023
其中,B′(P)表示形式向量,P表示一组长度为m的二进制数,B’表示形式向量的属性,xi表示对象集的元素,I表示对象集与属性集的二元关系,其中Pi的取值通过xi与属性B’的二元关系确定;
其中,|U|表示集合U中元素的个数,此处采用
Figure FDA0003259254170000024
表示形式背景T下的所有形式向量;
则对于决策形式背景T=(U,C′,I,D′,J):
条件属性生成的全体形式向量用
Figure FDA0003259254170000025
表示,称作条件形式向量集;
决策属性生成的全体决策向量用
Figure FDA0003259254170000026
表示,称作决策形式向量集;
上述
Figure FDA0003259254170000027
是形式向量树深度为1时的条件形式向量集。
3.根据权利要求2所述的一种基于形式向量的决策信息系统知识获取方法,其特征在于:所述步骤S120中,在深度1下,对于任意条件形式向量与决策形式向量,若其满足规则获取条件,则计算条件形式向量的K和Rel值的步骤中,包括如下步骤:
对于任意条件形式向量
Figure FDA0003259254170000028
和决策形式向量
Figure FDA0003259254170000029
判断其是否满足规则获取条件,具体的判断标准为:设条件形式向量Bx′(P)的形式子集为
Figure FDA0003259254170000039
决策形式向量By′(P)的形式子集为
Figure FDA00032592541700000310
若满足
Figure FDA0003259254170000031
则条件形式向量Bx′(P)与决策形式向量By′(P)可以构成一条规则;
对满足规则获取条件的条件形式向量,计算其对应的知识粒度K和相关度Rel值:
所述K值的计算公式为:对于
Figure FDA0003259254170000032
形式向量B′(P)的知识粒度为:
K=|B′| (3);
所述Rel值的计算公式为:对于
Figure FDA0003259254170000033
形式向量B′(P)的B1′(P)的Rel值为:
Figure FDA0003259254170000034
其中,若各条件形式向量与决策形式向量存在包含关系,则可获取条件形式向量对应的规则,上述关系的数学表达式为
Figure FDA0003259254170000035
且Bx′(P)≠0,对于任意的
Figure FDA00032592541700000311
Figure FDA00032592541700000312
若满足上述数学表达式,则形式向量Bx′(P)和By′(P)可以构成一条确定性规则,表示为Bx′→By′。
4.根据权利要求3所述的一种基于形式向量的决策信息系统知识获取方法,其特征在于:所述步骤S130中,在对满足规则获取条件的形式向量按K值从小到大分组,组内按照Rel值从大到小依次获取新规则,并将已经完成规则提取的条件形式向量存入old_vectors的步骤中,包括步骤:
在深度1下,对满足规则获取条件的条件形式向量按K值从小到大分组{K1,K2,K3,…};
对于分组{K1,K2,K3,…},在组内按Rel值从大到小的顺序依次进行规则获取,并将完成规则获取的条件形式向量存入old_vectors。
5.根据权利要求4所述的一种基于形式向量的决策信息系统知识获取方法,其特征在于:所述步骤S140中,在判断已辨识的规则是否覆盖论域:
若未覆盖,则更新条件形式向量集
Figure FDA0003259254170000036
并按照形式向量树生成算法计算下一层条件形式向量节点,重复步骤S110~S140;
若已辨识规则未覆盖论域时,在深度1下,更新当前深度下条件形式向量集
Figure FDA0003259254170000037
即从条件形式向量集
Figure FDA0003259254170000038
中剔除已进行规则提取的条件形式向量;
然后依据形式向量树生成算法中的α运算生成下一层向量节点,其中,α算式定义为:B3′(P)=α(B1′(P),B2′(P)),即对于决策形式背景T=(U,C′,I,D′,J),设B1′(P),B2′(P)为形式向量,则B3′(P)可由B1′(P)和B2′(P)通过α运算生成;
若已覆盖,则结束算法,得到与原信息系统等价的最简规则集。
CN201811322187.1A 2018-11-07 2018-11-07 一种基于形式向量的决策信息系统知识获取方法 Active CN109542949B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811322187.1A CN109542949B (zh) 2018-11-07 2018-11-07 一种基于形式向量的决策信息系统知识获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811322187.1A CN109542949B (zh) 2018-11-07 2018-11-07 一种基于形式向量的决策信息系统知识获取方法

Publications (2)

Publication Number Publication Date
CN109542949A CN109542949A (zh) 2019-03-29
CN109542949B true CN109542949B (zh) 2022-04-12

Family

ID=65844773

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811322187.1A Active CN109542949B (zh) 2018-11-07 2018-11-07 一种基于形式向量的决策信息系统知识获取方法

Country Status (1)

Country Link
CN (1) CN109542949B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110288095A (zh) * 2019-06-12 2019-09-27 太原理工大学 一种基于形式向量的不一致决策信息系统规则提取方法
CN110322946B (zh) * 2019-07-11 2022-09-16 河南大学 一种基于多粒度决策模型的最优用药粒度计算装置
CN111026822A (zh) * 2019-11-19 2020-04-17 东华大学 网络空间测绘模型、网络和物理空间映射模型的构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306190A (zh) * 2011-08-31 2012-01-04 哈尔滨工业大学 粗糙集中属性集变化时规则集动态更新方法
CN106485327A (zh) * 2016-09-08 2017-03-08 同济大学 一种灾害条件下人群踩踏行为演化的知识发现方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430534B2 (en) * 2013-05-09 2016-08-30 Wipro Limited Systems and methods for improved security and precision in executing analytics using SDKS

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102306190A (zh) * 2011-08-31 2012-01-04 哈尔滨工业大学 粗糙集中属性集变化时规则集动态更新方法
CN106485327A (zh) * 2016-09-08 2017-03-08 同济大学 一种灾害条件下人群踩踏行为演化的知识发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于判别向量的不一致决策表规则提取算法;陈泽华等;《控制工程》;20180531;第25卷(第5期);第884-888页 *

Also Published As

Publication number Publication date
CN109542949A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
You et al. Bringing your own view: Graph contrastive learning without prefabricated data augmentations
CN109542949B (zh) 一种基于形式向量的决策信息系统知识获取方法
Park et al. Graph transplant: Node saliency-guided graph mixup with local structure preservation
CN109697451B (zh) 相似图像聚类方法及装置、存储介质、电子设备
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
Bezerra et al. Adaptive radius immune algorithm for data clustering
CN113052225A (zh) 基于聚类算法和时序关联规则的报警收敛方法及装置
CN115146279A (zh) 程序漏洞检测方法、终端设备及存储介质
CN110580526A (zh) 基于乐观概念的不完备决策信息系统规则提取算法
CN113076545A (zh) 一种基于深度学习的内核模糊测试序列生成方法
CN115510981A (zh) 一种决策树模型特征重要性计算方法、装置及存储介质
CN114723037A (zh) 一种聚合高阶邻居节点的异构图神经网络计算方法
CN113902034A (zh) 一种矢量道路数据变化信息识别与提取方法和装置
CN112257332B (zh) 一种仿真模型的评估方法及装置
CN109961129A (zh) 一种基于改进粒子群的海上静止目标搜寻方案生成方法
Lee et al. NAS-TasNet: Neural architecture search for time-domain speech separation
KR101953479B1 (ko) 거리의 상대적 비율을 적용한 그룹 탐색 최적화 데이터 클러스터링 방법 및 시스템
Kharinov et al. Object detection in color image
Ma et al. Video event classification and image segmentation based on noncausal multidimensional hidden markov models
CN115936926A (zh) 一种基于smote-gbdt的不平衡窃电数据分类方法、装置、计算机设备和存储介质
CN114118267A (zh) 基于半监督生成对抗网络的文物感知数据缺失值插补方法
Morvan et al. Graph sketching-based space-efficient data clustering
CN113627464A (zh) 图像处理方法、装置、设备和存储介质
Varghese et al. Efficient Feature Subset Selection Techniques for High Dimensional Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant