CN105824936A - 一种基于概念格的信息提取方法 - Google Patents
一种基于概念格的信息提取方法 Download PDFInfo
- Publication number
- CN105824936A CN105824936A CN201610157420.XA CN201610157420A CN105824936A CN 105824936 A CN105824936 A CN 105824936A CN 201610157420 A CN201610157420 A CN 201610157420A CN 105824936 A CN105824936 A CN 105824936A
- Authority
- CN
- China
- Prior art keywords
- concept
- attribute
- information
- layer
- conceptual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于概念格的信息提取方法。本发明所提供的方法,通过将原始信息背景进行预处理,得到净化后的信息背景并生成属性拓扑图;之后为属性拓扑图添加一节点η,得到新的属性拓扑图;对新的属性拓扑图进行权值净化;再对净化后的属性拓扑图进行属性分层,并提取概念信息;接着检验概念信息是否齐全,若不齐全,则继续搜索直至齐全;最后恢复原始信息背景的概念信息,得到信息背景的全部概念信息。本发明所提供的方法具有可视化性能好、计算复杂度相对较低且不受信息背景规模限制的优点。
Description
技术领域
本发明涉及计算机信息处理领域,具体地说是一种基于概念格的信息提取方法。
背景技术
信息系统是一个具有对象、属性及其关系的数据库,是现实生活中某些事物的客观反映,并为人们认识知识与获取知识提供了主要的基础信息。
信息背景是形式概念分析的核心,是一种特殊的信息系统。此信息系统依据信息背景提供的信息,以及对象和属性之间内在的、本质的关系,通过其中的概念得以刻画。其中概念是人类进行信息表达的一种手段,具有两个逻辑特征,即内涵和外延。概念的外延为符合此概念的对象组成的集合,而内涵则为外延所具有的共同属性。
概念之间的层次结构称为概念格(conceptlattice)(也称伽罗瓦格(Galoislattice)),是一种处理信息背景的数学工具。概念格是由概念组成的,概念是人类进行信息表达的一种手段,信息发现的过程就是将信息背景中蕴含的信息形式化为有用概念的过程。事实上,这一过程是将信息按照相关的要求进行匹配。
目前,有关基于概念格的概念信息提取方法,主要有:
①、从格论的角度依据概念格的格结构,对信息背景进行概念信息的提取。
②、依据信息背景中对象与对象之间、属性与属性之间、属性与对象之间的各类关联规则,进行概念信息的提取。
③、将信息背景置于图的平台上,利用图的一些性质,提取概念信息。
基于概念格的概念信息提取方法中,具有代表性的成果中有张涛等人于2014年提出的利用信息背景的属性拓扑图进行可视化提取概念的方法。具体操作如下:
第一步:净化信息背景,构造信息背景的属性拓扑图。具体过程包括:
1.净化信息背景:
所谓全局对象,是指具有背景中全部属性的对象。全局属性是指背景中全部的对象都包含的属性。依据格理论可知,全局对象和全局属性不会对概念格的结构产生影响,即对于概念格而言,全局对象和全局属性均为可约简的。
空对象不拥有任何属性,空属性不拥有任何对象。由于空对象和空属性对概念的搜索过程不产生影响,因此,在搜索概念的过程中空对象与空属性可直接忽略。
等价对象是指在信息背景下,两个对象各自拥有的属性相同。同样,等价属性是指在信息背景下,两个属性所拥有的对象相等。依据概念格理论,等价对象中各对象(等价属性中各属性)对概念格的贡献是一样的,所以搜索概念的过程中为减少存储空间和运行时间,可考虑等价对象中的一个对象以及等价属性中的一个属性。
2.构造信息背景的属性拓扑图:
在信息背景(F,M,I)中,定义(w(vi,vj)),i,j=1,2,…,|M|为属性拓扑邻接矩阵,如下:
其中,|M|为属性集M中所含属性的个数。
定义E′(vi,vj)为属性拓扑关联矩阵,如下:
净化背景后,可通过邻接矩阵,构造出属性拓扑图,其方法为:
当且时,用双向箭头连接mi和mj,并在连线上标注其共有的对象集合{g1,g2,…,gm}。
当且g(mj)∩g(mi)={g1,g2,…,gm}时,用单向箭头连接两个属性,箭头指向mi,并在连线上标注其共有的对象集合{g1,g2,…,gm}。
属性拓扑图中与属性mi直接相连的边均为单向指出或双向边,称mi为顶层属性。
属性拓扑图中,属性mt与属性mj直接关联,是指mt∈{mp∈M|mp与mj有边相连接,p,j=1,2,…,|M|}。
第二步,利用属性拓扑图搜索概念信息,具体操作如下:
S1、假设与顶层属性mi直接关联的其中一个属性为mt,存储(g(mimt),{mi,mt})。
S2、若搜索路径中存在属性集合使得g(mimt)=g(mimtK),则将上一步所存储的(g(mimt),{mi,mt})替换为(g(mimt),{mi,mt}∪K)。
S3、若存在属性q∈(M-{mi,mt}),且有则在上一步存储不改变的情况下,再存储(g(mimtq),{mi,mt,q})。
S4、若任意p∈(M-{mi,mt}),都有则不做存储。返回到S3。
S5、完成上面的S1—S4四步搜索后,返回到S1,进行下一个的与顶层属性mi直接关联的属性mr遍历。
S6、完成S1-S5之后,选择下一个顶层属性,继续进行S1-S5。
完成S1-S6六步,可以得到该属性拓扑图中除和的所有概念。
张涛等人的方法具体流程参见图6。
目前,对于信息背景中概念信息提取方法的应用与推广,主要受以下因素影响:一、信息背景的规模;二、概念信息提取可视化程度;三、提取概念信息的复杂度。
虽然,目前基于概念格的信息提取方法有很多,但是由于受到以上三点因素的影响,现有的概念信息提取方法,仍存在以下不足:
第一,对于方法①,由于格结构是一种抽象的数学结构,当信息规模较小时,信息背景还具有可视性,但当信息规模较大时,依据抽象的格结构对概念信息进行提取已不再具有可视性。故而方法①受到信息规模的限制。
第二,对于方法②,由于寻找关联规则的难度不低于信息背景中概念信息的寻找,又由于“关联规则”本身不具有可视性,所以这类方法的应用与推广受到一些限制。
第三,方法③中具有代表性的是张涛等人在依据信息背景建立的属性拓扑—一种图的平台上,提取概念信息的方法。实际上,张涛等人用到的属性拓扑图是一种有向加权图。然而,由图论中拓扑图的定义可知,一个拓扑图可以是有向的,也可以是无向的。当拓扑图中的节点集为某个信息背景的属性集时,可以称其为属性拓扑图。但由于张涛等人的方法复杂度为指数级,因此受到信息背景规模的限制。
发明内容
本发明的目的就是提供一种基于概念格的信息提取方法,以解决现有的方法受信息背景规模的限制、可视化程度低及提取信息复杂度高等的问题。
本发明是这样实现的:一种基于概念格的信息提取方法,包括如下步骤:
a、将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(F0,M0,I0),并将此净化后的信息背景转化为一属性拓扑图的邻接矩阵;此邻接矩阵对应属性拓扑图G0=(V0(G0),E0(G0)),其中,V0(G0)=M0,E0(G0)={e(x,y)|x,y∈M0,且x,y拥有公共的对象};
b、为属性拓扑图G0添加一节点属性η,得到一个新的属性拓扑图G0+{η};
c、对新的属性拓扑图G0+{η}的权值进行净化,即:在每一边的权值w′(xi,xj)中去掉不属于η拥有的对象集中的对象;其中每一边的权值为相邻两节点所拥有的公共对象集;净化后的权值用w(xi,xj)表示,xi,xj∈M0∪{η},i,j=1,2,…,|M0|+1;
d、利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图,并提取概念信息;
e、检验所有概念信息是否齐全,若未齐全,继续寻找概念信息,直到概念信息齐全;
f、删除(F0,M0∪{η},I0)中所有概念内涵中的η,得到(F0,M0,I0)的全部概念信息,将步骤a中净化掉的属性与对象重新恢复为(F0,M0,I0)的信息,从而得到原始信息背景(F,M,I)的全部概念信息。
本发明的效果可以通过以下三方面得到体现:
1)、概念信息提取过程可视化性能好。
由于本发明以属性拓扑图为平台进行概念信息提取,因此与以抽象的格结构或关联规则为基础的概念信息提取方法相比,具有较好的可视性,可完全反映出信息背景中任意两个属性是否拥有公共对象的性质。
2)、减少“冗余”概念的产生,降低计算的复杂度。
张涛等人的方法是对属性拓扑图的全路径遍历,在进行概念信息的提取过程中,会产生“冗余”概念。采用本发明进行概念信息提取过程中,减少“冗余”概念,因此,本发明具有更好的适用性。
对于信息背景(F,M,I),若|F|=m,|M|=n,现有技术中张涛等人的概念信息提取方法,其复杂度为O(2m×n)。
本发明中步骤a的复杂度为O(n2+m2+4mn);步骤b的复杂度为O(n);步骤c的复杂度为O(n2m2);步骤d的复杂度为O(3n4m2);步骤e的复杂度为步骤f与步骤a的复杂度相同为O(n2+m2+4mn)。
若(F,M,I)的规模s=m×n,则张涛等人的方法复杂度为O(2s),而本发明的复杂度分两种情况,分析如下:
Ⅰ、当所提取的概念信息齐全,不需要继续搜寻概念时,本发明方法的复杂度为步骤a、步骤b、步骤c、步骤d、步骤f的复杂度相加,即2O(n2+m2+4mn)+O(n)+O(n2m2)+O(3n4m2),由于O(n2+m2+4mn)、O(n)、O(n2m2)的复杂度小于O(3n4m2),因此此情况下本发明的复杂度为O(s6)。
II、当所提取的概念信息不齐全,需要继续搜索概念时,本发明方法的复杂度为步骤a、步骤b、步骤c、步骤d、步骤e、步骤f的复杂度相加,即
i、当n≤6时,由于O(n2+m2+4mn)、O(n)、O(n2m2)、的复杂度小于O(3n4m2),此时本发明方法的复杂度为O(s6)。
ii、当n>6时,由于O(n2+m2+4mn)、O(n)、O(n2m2)、O(3n4m2)的复杂度小于此时本发明方法的复杂度为
由上面的分析可知,张涛等人的方法的复杂度为指数级,而本发明方法的复杂度不是指数级,因此本发明复杂度大大降低。
3)、本发明中概念信息的提取,不受信息背景规模的限制。
附图说明
图1是本发明的方法流程图。
图2是本发明实施例1中邻接矩阵对应的属性拓扑图。
图3是本发明实施例1中添加节点η后所得到的新图G0+{η}。
图4是本发明实施例1中以b为中心净化后的属性拓扑图。
图5是本发明实施例1的搜索结果示意图。
图6是采用张涛等人的方法对属性拓扑图进行概念信息提取的流程图。
图7是采用张涛等人的方法对属性拓扑的全路径搜索过程示意图。
图8是本发明实施例2对应的属性拓扑图。
图9是根据表12所得的样本数不超过26时,本发明方法与张涛等人的方法复杂度相比较的曲线示意图。
图10是根据表12所得的样本数超过26时,本发明方法与张涛等人的方法复杂度相比较的曲线示意图。
具体实施方式
如图1所示,本发明所提供的一种基于概念格的信息提取方法,包括如下步骤:
a、将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(F0,M0,I0),并将此信息背景转化为一属性拓扑图的邻接矩阵形式。此邻接矩阵对应属性拓扑图G0=(V0(G0),E0(G0)),其中,V0(G0)=M0,E0(G0)={e(x,y)|x,y∈M0,且x,y拥有公共的对象}。所用属性拓扑图事实上为属性间关系的加权图表示。
b、为G0添加一节点属性η,得到一个新的属性拓扑图G0+{η}。
c、对G0+{η}的权值进行净化,即去掉不属于η拥有的对象集的对象。其中每一边的权值为相邻两节点(即两个属性)所拥有的公共对象集。
d、利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图,并提取概念信息。
e、检验所有概念信息是否齐全,若未齐全,则继续寻找概念信息,直到概念信息齐全。
f、删除(F0,M0∪{η},I0)中所有概念内涵中的η,得到(F0,M0,I0)的全部概念信息,将步骤a中净化掉的属性与对象重新恢复为(F0,M0,I0)的信息,从而得到原始信息背景(F,M,I)的全部概念信息。
下面对各步骤进行详细说明。
步骤a中采用基于概念格的信息提取方法,将原始信息背景(F,M,I)进行预处理,包括如下过程:
给定信息背景(F,M,I),其中F为信息背景中所有对象的集合,即F={g1,g2,...,gn},gi(i=1,2,...,n)为第i个对象;M为所有属性的集合,即M={x1,x2,...,xm},xi(i=1,2,...,m)为第i个属性;I为属性集和对象集的二元关系,即
a1、对原始的信息背景(F,M,I)进行预处理,得到净化后的信息背景(F0,M0,I0)。主要目的是通过删除信息背景中全局属性、全局对象、空属性、空对象,保留等价属性中的一个属性,其他的属性删除,保留等价对象中的一个对象,其他的对象删除,降低后期计算的复杂度。具体步骤如下:
a1.1、对于在(F,M,I)中拥有对象集为F的属性,即全局属性,进行删除处理。
a1.2、对于在(F,M,I)中拥有属性集为M的对象,即全局对象,进行删除处理。
a1.3、对于不拥有任何对象的属性,即空属性,进行删除处理。
a1.4、对于不拥有任何属性的对象,即空对象,进行删除处理。
a1.5、对于两个或两个以上拥有相同对象的属性,即等价属性,则只保留这些属性中的一个,将其他的几个属性进行删除处理。
a1.6、对于两个或两个以上拥有相同属性的对象,即等价对象,则只保留这些对象中的一个,将其他的几个对象进行删除处理。
a2、定义(F0,M0,I0)如下:
F0=F-({g∈F|g为全局对象}∪{g∈F|g为空对象}∪{g∈F|g是在步骤a1.6中被删除的对象});
M0=M-({x∈M|x为全局属性}∪{x∈M|x为空属性}∪{x∈M|x是在步骤a1.5中被删除的属性});
I0=I∩(F0×M0)。
a3、根据(F0,M0,I0),给出属性拓扑图的邻接矩阵
其中,w′(xi,xj)={A|A为属性xi与xj的公共对象,i,j=1,2,…,|M0|,i≠j},|M0|为属性集M0中所含属性个数。为了描述方便,当i=j时,令此矩阵对应属性拓扑图G0=(V0(G0),E0(G0)),其中,V0(G0)=M0,E0(G0)={e(x,y)|x,y∈M0,且x,y拥有公共的对象}。
步骤b采用基于概念格的信息提取方法,对G0添加一个拥有对象集为F0的节点属性η,得到一个图G0+{η}以及信息背景(F0,M0∪{η},Iη)。
b1、添加节点属性η。
若信息背景(F0,M0,I0)只含有一个属性α,则(F0,M0,I0)的概念信息的全体为当|M0|≥2时,若任意选择一个属性作为起始点,则最后会造成(F0,M0,I0)中概念信息的缺失或产生过多的“冗余”。
为了避免上述问题的产生,需添加一个特殊属性η,且属性η的添加不会影响(F0,M0,I0)中的概念信息以及概念格的格结构组成。
b2、给出η所拥有的对象集。
根据概念格结构可知,具备上述特点的η有两种可能性:一种是{η}为属性集M0,此时η所拥有的对象集为另一种是此时η所拥有的对象集为F0。
因为任一个概念格为完备格,这样(F0,M0,I0)的概念信息全体构成的概念格为一个完备格。根据格论中的对偶性(或称DeMorgan'sLaw)可知,若利用 作为搜索概念信息的方法,完全可以对偶地产生由搜索概念信息的方法;若利用作为搜索概念信息的方法,完全可以对偶地产生由搜索概念信息的方法。本发明采用作为搜索概念信息的方法,即选取此时,η所拥有的对象集为F0。
b3、得到新图G(V,E,w′)。
b3.1、在G0上添加一个特殊节点η,η拥有的对象集为F0。
b3.2、连接η与图G0中各节点,得|M0|条边,且每边权值为w′(η,xi),xi∈M0,i=1,2,…,|M0|;最终得到新图G0+{η}=G(V,E,w′),其中,V为节点集,V=M0∪{η};E为边集,
b4、得到信息背景(F0,M0∪{η},Iη),其中
获取信息背景(F0,M0∪{η},Iη)的过程如下:对于任意的g∈F0,y∈M0∪{η};
当y∈M0时,若gI0y,则gIηy;即:若对象g在(F0,M0,I0)中拥有属性y,则g在(F0,M0∪{η},Iη)中也拥有属性y;
当y=η时,有gIηy成立。
步骤c采用基于概念格的信息提取方法,对属性拓扑图G(V,E,w′)的权值进行净化,具体过程如下:
依次对G(V,E,w′)中的每一个权值w′(xi,xj),xi,xj∈M0∪{η},i,j=1,2,…,|M0|+1与η所拥有的对象集F0作比较。若w′(xi,xj)中有不属于F0的对象,则将此对象从w′(xi,xj),i,j=1,2,…,|M0|+1中去掉,最后完成对G(V,E,w′)中每边上的权值的净化,得到新的属性拓扑图G(V,E,w),其中,V(G(V,E,w))=V(G(V,E,w′));E(G(V,E,w))=E(G(V,E,w′));w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈M0∪{η},i,j=1,2,…,|M0|+1。
具体描述为:对每个g∈w′(xi,xj),
如果那么净化后的权值为w(xi,xj)=w′(xi,xj)-{g}。
如果g∈F0,那么净化后的权值与原权值相等,即w(xi,xj)=w′(xi,xj)。
步骤d采用基于概念格的信息提取方法,将G(V,E,w)中的属性进行分层,得到分层图,并对概念信息进行提取,具体过程如下:
已知G(V,E,w)是(F0,M0∪{η},Iη)的属性拓扑图,给出η的拓扑邻域 表示属性η和y之间没有公共对象。其中w(η)为属性η所拥有的对象集。事实上,TN(η)在G(V,E,w)中表示与η直接相连的属性的集合。如果|M0|=1,这时(F0,M0,I0)的全部概念信息为若|M0|≥2,则对(F0,M0,I0)的概念信息寻找进行如下操作:d1、采用基于概念格的信息提取方法,定义分层图的第一层L1
L1={({η},TN(η),w(η))}。
其中,w(η)为η拥有的对象集。显然L1为单点集,此集合第一个元素(其实是唯一元素)为三维向量({η},TN(η),w(η)),此向量蕴涵三种信息:η为第一层属性,η的拓扑邻域TN(η)及η拥有的对象集w(η)。由于此向量与η密切相关,为便于表达,本发明称其为属性η的关键元。
d2、采用基于概念格信息提取方法,基于分层图第一层寻找分层图的第二层L2:
在第二层L2中包含t2个这样的三维向量,每一向量与其内属性集中的属性密切相关,为便于表达,称向量为属性的关键元。在第二层L2中每一个三维向量内包含一个属性集属性集称为第二层中的第j2个属性集。在第二层中每一个属性集内包含两个属性,其中一个属性为第一层中的属性η,另一个属性排在η后面,称属性为第二层中第j2个属性集中的第二个属性(或称最后一个属性)。
l(η)表示以η为中心所选择的下一层属性集合,即 表示以η为中心所选择的属性的拓扑邻域,即
搜寻过程具体如下:
d2.1、基于第一层属性η,寻找以η为中心的下一层属性集合l(η):
任取x∈TN(η),ys∈TN(η)-{x},将w(η,x)与w(η,ys)进行比较,判断w(η,x)是否包含于w(η,ys);若否,则x∈l(η);若是,则
具体符号描述如下:初始定义l(η)为空集,即l(η)={},x∈TN(η),
对每一个ys∈TN(η)-{x};
如果那么l(η):=l(η)∪{x},即:将属性x赋值给集合l(η);否则,l(η):=l(η),即:l(η)保持不变。
d2.2、基于第一层属性η,对于每一寻找的拓扑邻域
任取x∈TN(η),且验证是否真包含如果那么如果那么
由于说明属性和x之间没有公共对象,此时无需比较和
具体描述如下:初始定义
对每一个x∈TN(η),且
若则否则,
d2.3、寻找第二层中第j2个属性集中最后一个属性的关键元,并进行概念信息的提取。
完成步骤d2.1~d2.2之后,可得第二层中第j2个属性集属性的拓扑邻域以及权重从而可得第二层中第j2个属性集中最后一个属性的关键元:
且提取概念为:
d2.4、对l(η)中每一属性完成步骤d2.2~d2.3后,得到分层图的第二层L2:
进而提取第二层概念为:
d3、根据步骤d1~d2可得分层图的第(i-1)层,i为整数,且i>2;
假定分层图的第(i-1)层已经获得,即
在第(i-1)层中包含t(i-1)个 这样的三维向量,每一向量 与其内属性集中的属性密切相关,为便于表达,称向量 为属性的关键元。在第(i-1)层中每一个三维向量 内包含一个属性集属性集称为第(i-1)层中的第j(i-1)个属性集。在第(i-1)层中每一个属性集内包含(i-1)个属性,其中前(i-2)个属性构成的集合为第(i-2)层中第j(i-2)个属性集,第(i-1)个属性排在最后,称为第(i-1)层中第j(i-1)个属性集中的最后一个属性(也是第(i-1)个属性)。
下面根据已获得的分层图的第(i-1)层,寻找分层图的第i(i>2)层Li:
其中,表示第i层中第ji个属性集中的最后一个属性;表示以为中心所选择的下一层属性集合,即
表示以为中心所选择的的拓扑邻域,即
操作过程具体如下:
d3.1、选取第(i-1)层中每一属性集的最后一个属性寻找第i层中包含属性的所有属性集;其中,j2≤t2,j3≤t3,…,j(i-1)=1,2...,t(i-1),且t2,t3,…,t(i-1)≤|M0|。
d3.1.1、以为中心净化原始邻接矩阵W′,得新邻接矩阵W={w(xi,xj)|w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈V},具体过程如下:
依次对G(V,E,w′)中的每一个权值w′(xi,xj)(i,j=1,2,…,|M0|+1,xi,xj∈M0∪{η})与属性集共同拥有的对象集 作比较。若w′(xi,xj)中有不属于B的对象,则将此对象从w′(xi,xj)中去掉,最后完成对G(V,E,w′)的权值的净化,得到以为中心净化权值后的属性拓扑图其中, w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈M0∪{η},i,j=1,2,…,|M0|+1。
具体描述为:
对每个g∈w′(xi,xj),
如果那么净化后的权值为w(xi,xj)=w′(xi,xj)-{g}。
如果g∈B,那么净化后的权值与原权值相等,即w(xi,xj)=w′(xi,xj)。
d3.1.2、针对净化后的寻找以为中心的下一层属性集合注意分层图的第(i-1)层已经获得,为第(i-1)层中第j(i-1)个属性集中的最后一个属性,且的关键元为
任取将与进行比较,判断是否包含于若否,即当 时,若是,即当时,最后得到p≤|M0|。
具体描述如下:初始定义
对每一个
每一个如果那么否则
d3.1.3、通过步骤d3.1.2得p≤|M0|,本步骤主要寻找且p≤|M0|。注意现在是寻找第i层中的第ji个属性集中最后一个属性的拓扑邻域,前面第(i-1)层中属性的拓扑邻域已经获得,且其在第(i-1)层的关键元为
针对净化后的任取且验证 是否真包含于如果是,即如果那么反之,如果那么
具体符号描述如下:初始定义
对每一个且
若则否则,
d3.1.4、寻找第i层中第ji个属性集中最后一个属性的关键元,并进行概念信息的提取。
完成步骤d3.1.1~d3.1.3之后,得到第i层中第ji个属性集 属性的拓扑邻域以及权重 其中 现在寻找第i层中第ji个属性集中最后一个属性的关键元,并提取概念信息。
d3.1.4.1、若第i层中的前(ji-1)个属性构成的集合均与目前属性集 不同,则得到第i层中的第ji个属性集中最后一个属性的关键元为 否则判定第i层中属性的关键元不存在。
d3.1.4.2、根据步骤d3.1.4.1找到的关键元提取概念。
如果关键元Li{ji}存在,即
则提取第i层中的第ji个概念
如果关键元不存在,则无概念可提取。
d3.2、重复步骤d3.1,以求得第i层中所有属性集,并进行概念信息提取,具体操作为:
重复步骤d3.1,可得到第i层中所有的关键元:
进而提取第i层概念为
d3.3、如果第(i-1)层中每一属性集的最后一个属性的拓扑邻域均为空集,则该属性的下一层属性也均为空集,即此时分层结束,否则重复d3.1-d3.2直到分层结束。
d3.4、分层结束后(F0,M0∪{η},Iη)的所有概念信息为其中n0为属性分层的总层数。
步骤e采用基于概念格的信息提取方法,检验所有概念信息是否齐全,若未齐全,寻找概念,直到概念信息齐全。
e1、完成步骤d3,判断是否继续搜寻概念。
e1.1、如果图G0+{η}是加权无环图,则不需要继续搜寻概念。
e1.2、如果图G0+{η}是加权有环图,但不含有三条边且各边权值均相等的环,则不需要继续搜寻概念。
e1.3、若图G0+{η}不是步骤e1.1和步骤e1.2所指类型,则需要继续搜寻概念。
e2、初步得到剩余概念Cpe1。
根据步骤a,净化后的(F0,M0,I0)中各个属性所拥有的对象集一定不同,再由步骤b,构造出图G0∪{η}中的权值w′(η,xi)≠w′(η,xj),xi,xj∈M0,(i,j=1,2,……,|M0|,i≠j)。这样,按照步骤d2搜索到的第二层概念一定为真正的概念,且不会有丢失的概念。因此,本发明中需要对第三层的概念进行搜索检验。而如果对第三层之后的层次再进行搜索检验,会造成概念的大量重复,因此对第三层进行搜索检验后无需再对第三层之后的层次进行搜索检验。
由步骤d3可得第三层概念 令Cp3{j}=(X{j},Y{j}),其中 由步骤d1可得TN(η),不妨设|Cp3{j}|=m3,下面对第三层进行搜寻。
e2.1、对第三层中的任意两个概念的对象集求交集,并将交集非空的两个概念组合为另外一个不同的概念。具体如下:
e2.1.1、依次取第三层中的每一概念Cp3{i},i=1,2,...,m3,以及该概念之后的每一概念Cp3{j},i<j≤m3。
e2.1.2、若则组合为概念Cpij=(X{i}∩X{j},Y{i}∪Y{j}),否则不组合概念。
e2.2、重复步骤e2.1,可将第三层中任意两对象集相交非空的概念,组合为新概念,从而得到组合后的全部概念,记为
Cpc1={Cpij|Cpij=(X{i}∩X{j},Y{i}∪Y{j}),i=1,2,...,m3,i<j≤m3}。
e2.3、去除Cpc1中的伪概念,具体如下:
e2.3.1、依据对象集,将Cpc1中所有概念进行分类,每一类概念具有相同对象集。
e2.3.2、将每一类中所有概念的属性进行合并,对象集不变,组合为一个概念其中pk为第k类概念中所有概念的个数,Ykq为第k类概念中第q个概念的属性集(即内涵),Xk为第k类概念的共同对象集(即外延)。
e2.3.2、最后得概念集Cpd1={Cpd1{k}|k=1,...,pk}。
e2.4、初步得到部分剩余概念Cpe1,具体如下:
令Cpe1=Cpd1-Cpq,其中Cpq为步骤d3.4得到的概念,则Cpe1为步骤d未搜寻到的部分概念。
e3、得到其余剩余概念。给定初始值i=1,具体操作如下:
e3.1、对Cpei(注意i的初始值为1,即首先讨论步骤e2.4中的Cpe1)中任意两个概念进行比较,若两个概念的对象集交集非空,则将这两个概念组合为一个概念,组合规则按步骤e2.1.2进行;最后得概念集Cpc(i+1)。
e3.2、依据步骤e2.3去除Cpc(i+1)中的伪概念,得到概念Cpd(i+1)。
e3.3、得到部分剩余概念Cpe(i+1)=Cpd(i+1)-Cpei。
e3.4、令i=i+1,重复步骤e.3.1到e.3.3,直到任意两个概念对象集交集为空,搜寻结束;最后得到所有剩余概念为
e4、最后去除Cpe中的伪概念:对于对象集相同的概念,保留属性集最大的概念,其余去掉。
e5、到此为止,得到(F0,M0∪{η},I0)的全部概念信息Cp=Cpq∪Cpe。
步骤f采用基于概念格的信息提取方法,删除(F0,M0∪{η},Iη)中所有概念内涵中的η,得到(F0,M0,I0)的全部概念信息;并将步骤a中净化掉的属性与对象重新恢复为(F0,M0,I0)的信息,最终得到原始信息背景(F,M,I)的全部概念信息。
f1、删除所有概念内涵中的η。假设(F0,M0∪{η},Iη)的第i个概念为Cp{i}=(X(i),Y(i)),其中X(i)为第i个概念的外延,Y(i)为第i个概念的内涵。删除Cp{i}内涵中的η后,得Cp0{i}=(X(i),Y(i)-{η}),i=1,2,...,np,其中np=|Cp|。从而得到(F0,M0,I0)的所有概念信息本发明中用Cp0{i}表示去除节点η后的第i个概念,用Cp1{i}表示恢复属性或对象后的第i个概念。
f2、原始背景的概念信息恢复。获得(F,M,I)的所有概念信息。
f2.1、对步骤a1.1中净化掉的每一全局属性x,重新恢复为Cp0{i}内涵中的元素,得Cp1{i}=(X(i),(Y(i)-{η})∪{x}),i=1,2,...,np,其中np=|Cp|。
f2.2、对步骤a1.2中净化掉的每一全局对象g,重新恢复为Cp0{i}的外延中的元素,得Cp1{i}=(X(i)∪{g},Y(i)-{η}),i=1,2,...,np,其中np=|Cp|。
f2.3、对于步骤a1.3中的每一空属性x,重新恢复为的内涵中的元素,得
f2.4、对于步骤a1.4中的每一空对象g,重新恢复为外延中的元素,得
f2.5、对于步骤a1.5中的等价属性,若属性x与属性y等价,则将Cp0{i}的内涵中含x的内涵替换为{x,y},得Cp1{i}=((X(i),(Y(i)-{η,x})∪{x,y}),i=1,2,...,np,其中np=|Cp|。
f2.6、对于步骤a1.6中的等价对象,若对象g1与对象g2等价,则将Cp0{i}的外延中含g1的外延替换为{g1,g2},得Cp1{i}=((X(i)-{g1})∪{g1,g2},Y(i)-{η}),i=1,2,...,np,其中np=|Cp|。
本发明受到国家自然科学基金项目资助(项目号:61572011),还受到河北省自然科学基金的资助(项目号:A2013201119)。
下面结合具体实施例对本发明作进一步详细说明。本发明在相同的运行环境下,使用MATLAB2013b进行实验。
实施例1,给定原始信息背景(F,M,I),此信息背景包括11个属性,9个对象,其中F为信息背景中所有对象的集合,即F={1,2,3,4,5,6,7,8,9};M为所有属性的集合,即M={a,b,c,d,e,f,g,h,i,j,k};I为属性集和对象集的二元关系,如表1所示。
根据步骤a采用基于概念格的信息提取方法,将原始信息背景(F,M,I)进行预处理,包括如下过程:
根据步骤a1对原始的信息背景(F,M,I)进行预处理,得到净化后的信息背景(F0,M0,I0)。主要目的是为了删除背景中全局属性、全局对象、空属性、空对象、等价属性、等价对象,降低后期计算的复杂度。具体步骤如下:
根据步骤a1.1,对于在(F,M,I)中拥有的对象集为F的属性,即全局属性k,进行删除处理。
根据步骤a1.3,对于不拥有任何对象的属性,即空属性a,进行删除处理。
根据步骤a1.5,d和j在(F,M,I)中各自拥有的对象相同,为等价属性,为了描述方便,在此,保留d,删除j。
根据步骤a1.6,5和9在(F,M,I)中各自拥有的属性相同,为等价对象,为了描述方便,在此,保留5,删除9。
采用步骤a1完成对(F,M,I)的净化,得到净化后的信息背景(F0,M0,I0)。如表2所示。
根据步骤a2,定义(F0,M0,I0)如下:
F0=F-({x∈F|x为全局对象}∪{x∈F|x为空对象}∪{x∈F|x是在a1.6中被删除的对象}),即F0={1,2,3,4,5,6,7,8};
M0=M-({x∈M|x为全局属性}∪{x∈M|x为空属性}∪{x∈M|x是在a1.5中被删除的属性}),即M0={b,c,d,e,f,g,h,i};
I0如表2所示。
根据步骤a3,依据(F0,M0,I0),给出属性拓扑图的邻接矩阵
此邻接矩阵对应属性拓扑图G0=(V0(G0),E0(G0)),如图2所示。
根据步骤b,采用基于概念格的信息提取方法,对G0添加一个拥有对象集为F0的节点η,得到图G0+{η},如图3所示,以及信息背景(F0,M0∪{η},Iη)。
根据步骤b1,添加节点η。在信息背景(F0,M0,I0)中|M0|≥2,添加一个特殊属性η。
根据步骤b2,给出η所拥有的对象集。本发明实施例中,η所拥有的对象集为F0={1,2,3,4,5,6,7,8}。
根据步骤b3,得到新图G(V,E,w′)。
根据步骤b3.1,在G0上添加一个特殊节点η,η拥有的对象集为F0。
根据步骤b3.2,连接η与图G0各节点,得8条边,且每边权值为w′(η,xi),xi∈M0,i=1,2,…,8,即w′(η,b)={1,2,3,5,6},w′(η,c)={3,4,6,7,8},w′(η,d)={5,6,7,8},w′(η,e)={7},w′(η,f)={5,6,8},w′(η,g)={1,2,3,4},w′(η,h)={2,3,4},w′(η,i)={4}。最终得新图G0+{η}=G(V,E,w′),其中,节点集V=M0∪{η};边集
根据步骤b4,得到信息背景(F0,M0∪{η},Iη)。
获取信息背景(F0,M0∪{η},Iη)的过程如下:对于任意的g∈F0,y∈M0∪{η},
当y∈M0时,若gI0y,则gIηy;当y=η时,有gIηy成立。
根据步骤c采用基于概念格的信息提取方法,对属性拓扑图G(V,E,w′)的权值进行净化,具体过程如下:
依次对G(V,E,w′)中的每一个权值w′(xi,xj),xi,xj∈M0∪{η},i,j=1,2,…,9与η所拥有的对象集F0作比较。若w′(xi,xj)中有不属于F0的对象,则将此对象从w′(xi,xj),i,j=1,2,…,9中去掉,最后完成对G(V,E,w′)中每边上的权值的净化,得到新的拓扑图G(V,E,w),其中,V(G(V,E,w))=V(G(V,E,w′));E(G(V,E,w))=E(G(V,E,w′));w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈M0∪{η},i,j=1,2,…,9。
具体描述为:对每个g∈w′(xi,xj),
如果那么净化后的权值为w(xi,xj)=w′(xi,xj)-{g};
如果那么净化后的权值与原权值相等,即w(xi,xj)=w′(xi,xj)。
因为η拥有的对象集为F0,任意g∈w′(xi,xj),都满足g∈F0,所以w(xi,xj)=w′(xi,xj)。净化后的邻接矩阵为:
步骤d采用基于概念格的信息提取方法,将G(V,E,w)中的属性进行分层,得到分层图,并对概念信息进行提取,具体过程如下:
令TN(η)=M0,即TN(η)={b,c,d,e,f,g,h,i},|M0|≥2,对(F0,M0,I0)的概念信息寻找进行如下操作:
根据步骤d1,采用基于概念格的信息提取方法,定义分层图的第一层L1
L1={({η},{b,c,d,e,f,g,h,i},{1,2,3,4,5,6,7,8})}。
根据步骤d2,采用基于概念格的信息提取方法,基于分层图的第一层寻找分层图的第二层L2,搜寻过程具体如下:
根据步骤d2.1,基于第一层属性η,寻找以η为中心的下一层属性集合l(η):
本发明实施例中TN(η)={b,c,d,e,f,,g,h,i},初始定义l(η)={},
对b∈TN(η),c,d,e,f,g,h,i∈TN(η)-{b},满足 可简写为:w(η,d),w(η,e),w(η,f),w(η,g),w(η,h),w(η,i),得l(η):={b}。
对c∈TN(η),b,d,e,f,g,h,i∈TN(η)-{c},满足w(η,d),w(η,e),w(η,f),w(η,g),w(η,h),w(η,i),得l(η):={b}∪{c}={b,c}。
对d∈TN(η),b,c,e,f,g,h,i∈TN(η)-{d},满足w(η,c),w(η,e),w(η,f),w(η,g),w(η,h),w(η,i),得l(η):={b,c}∪{d}={b,c,d}。
对e∈TN(η),b,c,d,f,g,h,i∈TN(η)-{e},因为所以l(η):={b,c,d}。
对f∈TN(η),b,c,d,e,g,h,i∈TN(η)-{f},因为所以l(η):={b,c,d}。
对g∈TN(η),b,c,d,e,f,h,i∈TN(η)-{g},因为w(η,c),w(η,d),w(η,e),w(η,f),w(η,h),w(η,i),所以l(η):={b,c,d,g}。
对h∈TN(η),b,c,d,e,f,g,i∈TN(η)-{h},因为所以l(η)={b,c,d,g}。
对i∈TN(η),b,c,d,e,f,g,h∈TN(η)-{h},因为所以l(η)={b,c,d,g}。
最后得l(η)={b,c,d,g}。
根据步骤d2.2,基于第一层属性η,对于每一寻找的拓扑邻域
本发明实施例,初始定义TN(b)={},b∈l(η),
对b∈TN(η)且因此不与w(η,b)进行比较,得TN(b):={};
对c∈TN(η)且得TN(b):={c};
对d∈TN(η)且得TN(b):={c,d};
对e∈TN(η)且因此不与w(η,b)进行比较,得TN(b):={c,d};
对f∈TN(η)且得TN(b):={c,d,f};
对g∈TN(η)且得TN(b):={c,d,f,g};
对h∈TN(η)且得TN(b):={c,d,f,g,h};
对i∈TN(η)且因此不与w(η,b)进行比较,得TN(b):={c,d,f,g,h};
最后得到TN(b)={c,d,f,g,h}。
同理,可以得到TN(c)={b,d,e,f,g,h,i},TN(d)={b,c,e,f},TN(g)={b,c,h,i}。
根据步骤d2.3,搜寻第二层中的每一个属性集中最后一个属性的关键元,并进行概念信息的提取。
完成步骤d2.1~d2.2之后,可得第二层中的第一个属性集{η,b},b的拓扑邻域TN(b),以及权重w(η,b),b∈l(η)。将第二层中的第一个属性集中属性b的关键元记为
L2{1}=({η,b},TN(b),w(η,b));
同理,可得第二层中属性c,d,g的关键元:L2{2}=({η,c},TN(c),w(η,c));
L2{3}=({η,d},TN(d),w(η,d));L2{4}=({η,g},TN(g),w(η,g))。
且提取概念为
Cp2{1}=(w(η,b),{η,b});Cp2{2}=(w(η,c),{η,c});
Cp2{3}=(w(η,d),{η,d});Cp2{4}=(w(η,g),{η,g})。
根据步骤d2.4,对l(η)中每一属性完成步骤d2.2~d2.3后,得到分层图的第二层L2:L2={({η,b},TN(b),w(η,b)),({η,c},TN(c),w(η,c)),({η,d},TN(d),w(η,d)),({η,g},TN(g),w(η,g))}。
进而提取第二层概念为:
Cp2={(w(η,b),{η,b}),(w(η,c),{η,c}),(w(η,d),{η,d}),(w(η,g),{η,g})}。
根据步骤d3,分层图的第二层已经获得,即
L2={({η,b},TN(b),w(η,b)),({η,c},TN(c),w(η,c)),({η,d},TN(d),w(η,d)),({η,g},TN(g),w(η,g))}。
采用基于概念格的信息提取方法,寻找分层图的第三层L3,操作过程具体如下:
根据步骤d3.1,依次选取第二层的属性b,c,d,g,即选取第二层属性集{η,b}、{η,c}、{η,d}、{η,g}中的最后一个属性,寻找第三层的所有属性。下面以属性b为例进行说明。
根据步骤d3.1.1,以b为中心净化原始邻接矩阵W′,得新邻接矩阵W={w(xi,xj)|w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈M0∪{η}},具体过程如下:
依次对G(V,E,w′)中的每一个权值w′(xi,xj)(i,j=1,2,…,9)与w(η,b)所拥有的对象集{1,2,3,5,6}作比较。若w′(xi,xj)中有不属于{1,2,3,5,6}的对象,则将此对象从w′(xi,xj)(i,j=1,2,…,9)中去掉,最后完成对G(V,E,w′)的权值的净化,得到以b为中心净化权值后的属性拓扑图G(b)=(V,E,w),如图4所示,其中, w(xi,xj)为w′(xi,xj)净化后的权值,xi,xj∈M0∪{η},i,j=1,2,…,9。得到新的邻接矩阵为:
根据步骤d3.1.2,针对净化后的G(b),寻找以b为中心的下一层属性集合l(b)。注意现在寻找第三层属性,前面两层属性都已经得到。即({η,b},TN(b),w(η,b))∈L2。
对每一个属性x∈TN(b),令w(b,x)与w(b,ys)进行比较,其中ys∈TN(b)-{x},s≤9。判断w(b,x)是否包含于w(b,ys),若则x∈l(b);反之,则最后得l(b)。
初始定义l(b)={},TN(b)={c,d,f,g,h},
对c∈TN(b),d,f,g,h∈TN(b)-{c},满足w(b,f),w(b,g),w(b,h),得l(b):={c};
对d∈TN(b),c,f,g,h∈TN(b)-{d},满足w(b,d)=w(b,f),得l(b):={c};
对f∈TN(b),c,d,g,h∈TN(b)-{f},满足w(b,f)=w(b,d),得l(b):={c};
对g∈TN(b),c,d,f,h∈TN(b)-{g},满足w(b,d),w(b,f),w(b,h),得l(b):={c,g};
对h∈TN(b),c,d,g,f∈TN(b)-{h},满足得l(b):={c,g};
最后可得l(b)={c,g}。
根据步骤d3.1.3,通过上面所求得的l(b)={c,g},本步骤主要寻找TN(c)和TN(g)。注意现在是寻找第三层中属性c和g的拓扑邻域,前面两层属性的拓扑邻域都已经获得,即({η,b},TN(b),w(η,b))∈L2。
针对净化后的G(b),任取x∈TN(b)且c∈l(b),验证w(c,x)是否真包含于w(b,c)。如果那么x∈TN(c);如果那么
初始定义TN(c)={},c∈l(b),TN(b)={c,d,f,g,h};
对c∈TN(b)且不进行比较,得TN(c):={};
对d∈TN(b)且得TN(c):={d};
对f∈TN(b)且得TN(c):={d,f};
对g∈TN(b)且得TN(c):={d,f,g};
对h∈TN(b)且得TN(c):={d,f,g,h}。
最后得到TN(c)={d,f,g,h}。
同理,可得TN(g)={c,h}。
根据步骤d3.1.4,寻找第三层中以b为中心的关键元并进行概念信息的提取。
完成步骤d3.1.1~d3.1.3之后,得到第三层中的属性集{η,b,c}及此属性集最后一个属性c的拓扑邻域TN(c)以及权重w(η,b,c),其中w(η,b,c)=w(η,b)∩w(b,c)。
根据步骤d3.1.4.1,因为没有与{η,b,c}相同的属性集,所以L3{1}=({η,b,c},TN(c),w(η,b,c))。提取第三层中的第一个概念Cp3{1}=(w(η,b,c),{η,b,c})。
完成步骤d3.1.1~d3.1.3之后,还可得到第三层中的属性集{η,b,g}及此属性集最后一个属性g的拓扑邻域TN(g)以及权重w(η,b,g),其中w(η,b,g)=w(η,b)∩w(b,g)。
根据步骤d3.1.4.1,因为没有与{η,b,g}相同的属性集,所以L3{2}=({η,b,g},TN(g),w(η,b,g))。提取第三层中的第二个概念Cp3{2}=(w(η,b,g),{η,b,g})。
根据步骤d3.2,即依次选取c,d,g,重复步骤d3.1,可以得到
l(c)={b,d}及TN(b)={d,f,,g,h},TN(d)={b,e,f};
l(d)={c,f}及TN(c)={b,e,f},TN(f)={b,c};
l(g)={b,h}及TN(b)={c,h},TN(h)={b,c,i}。
在第三层中寻找以c为中心的关键元时,由于{η,c,b}与前面{η,b,c}属性集相同,故此时不再寻找属性集{η,c,b}最后一个属性b的关键元。同理,对其他属性集做同样的处理。
最终得到:
L3{3}=({η,c,d},TN(d),w(η,c,d));L3{4}=({η,d,f},TN(f),w(η,d,f));
L3{5}=({η,g,h},TN(h),w(η,d,h))。
并可提取概念:
Cp3{3}=(w(η,c,d),{η,c,d});Cp3{4}=(w(η,d,f),{η,d,f});
Cp3{5}=(w(η,g,h),{η,g,h})。
完成上面步骤后,可得到第三层所有属性集中最后一个属性的关键元:
L3={({η,b,c},TN(c),w(η,b,c)),({η,b,g},TN(g),w(η,b,g)),({η,c,d},TN(d),w(η,c,d)),({η,d,f},TN(f),w(η,d,f)),({η,g,h},TN(h),w(η,g,h))}。
进而提取第三层概念为:
Cp3={(w(η,b,c),{η,b,c}),(w(η,b,g),{η,b,g}),(w(η,c,d),{η,c,d}),(w(η,d,f),{η,d,f}),(w(η,g,h),{η,g,h})}。
参照图5,根据步骤d3.3,重复d3.1-d3.2直到某层每个属性的拓扑邻域均为空集,则该属性的下一层属性也均为空集。本发明实施例,此时分层结束,得到(F0,M0∪{η},Iη)的除的全部概念信息。
根据步骤d3.4,分层结束后(F0,M0∪{η},Iη)的所有概念信息见表3。
表3本发明方法完成步骤d3.4后所得(F0,M0∪{η},Iη)的所有概念信息
序号 | 概念 | 序号 | 概念 | 序号 | 概念 | 序号 | 概念 |
1 | ({1,2,3,4,5,6,7,8},{η}) | 6 | ({2,3,4},{η,g,h}) | 11 | ({5,6},{η,d,f,b}) | 16 | ({4},{η,g,h,c,i}) |
2 | ({1,2,3,4},{η,g}) | 7 | ({6,7,8},{η,c,d}) | 12 | ({6,8},{η,c,d,f}) | 17 | ({6},{η,c,d,f,b}) |
3 | ({3,4,6,7,8},{η,c}) | 8 | ({3,6},{η,b,c}) | 13 | ({2,3},{η,b,g,h}) | 18 | ({7},{η,c,d,e}}) |
4 | ({1,2,3,5,6},{η,b}) | 9 | ({1,2,3},{η,b,g) | 14 | ({3,4},{η,g,h,c}) | ||
5 | ({5,6,7,8},{η,d}) | 10 | ({5,6,8},{η,d,f}) | 15 | ({3},{η,b,g,h,c}) |
根据步骤e采用基于概念格的信息提取方法,检验所有概念信息是否齐全。
根据步骤e1.2,由于图G0+{η}是加权有环图,但不含有三边且各边权值均相等的环,因此不需要继续搜寻概念。
根据步骤f采用基于概念格的信息提取方法,将(F0,M0∪{η},Iη)的所有概念内涵的η进行删除,得到(F0,M0,I0)的全部概念信息。
根据步骤f1,删除所有概念内涵中的η,得到(F0,M0,I0)的所有概念信息见表4。
表4本发明方法完成步骤f1后所得(F0,M0,I0)的所有概念信息
根据步骤f2,得到(F,M,I)的所有概念信息见表5。
表5本发明方法完成步骤f2后所得(F,M,I)的所有概念信息
参照张涛等人的方法流程图如图6所示,对整个属性拓扑图进行概念信息提取。对概念的搜索过程如图7所示。从属性拓扑图中选择一点为起点,进行概念信息的搜索,每步最先搜索到的为顶层属性,如图7(1)所示。顶层属性d后省略的部分如图7(2)所示,顶层属性g后省略的部分如图7(3)所示,顶层属性b后省略的部分如图7(4)所示。图7(1),图7(2)和图7(3)中的虚线表示搜索到的概念为伪概念,如({5,6},{b,d})为伪概念,({5,6},{b,d,f})为真正的概念信息。
采用张涛等人的方法,搜索结束后得到(F0,M0,I0)的概念信息见表6。
表6张涛等人方法所得(F0,M0,I0)的所有概念信息
序号 | 概念 | 序号 | 概念 | 序号 | 概念 | 序号 | 概念 |
1 | ({1,2,3,4},{g}) | 6 | ({6,7,8},{d,c}) | 11 | ({6,8},{c,d,f}) | 16 | ({6},{c,d,f,b}) |
2 | ({3,4,6,7,8},{c}) | 7 | ({3,6},{b,c}) | 12 | ({2,3},{b,g,h}) | 17 | ({7},{c,d,e}}) |
3 | ({1,2,3,5,6},{b}) | 8 | ({1,2,3},{b,g) | 13 | ({3,4},{g,h,c}) | ||
4 | ({5,6,7,8},{d}) | 9 | ({5,6,8},{d,f}) | 14 | ({3},{b,g,h,c}) | ||
5 | ({2,3,4},{g,h}) | 10 | ({5,6},{d,f,b}) | 15 | ({4},{g,h,c,i}) |
实施例2,为了进一步说明本发明的实用性,本发明使用UCI机器学习数据库(UCIMachineLearningRepository)中的BLOGGER数据集进行测试。此数据集是对100个对象分别从学历、政治立场、博客主题、是否被当地媒体转载、地方,政治和社会空间、该博主是否为临博主6个方面进行调查得到的。本发明对此数据集提取了14个属性和100个对象,这些属性和对象的关系包括了信息背景中可能出现的所有关系。由于净化后的背景直观明确,本发明首先净化此数据集,进而进行概念信息提取。表7为净化后的信息背景(F1,M1,I1),包括14个属性,41个对象。
表7净化后的信息背景(F1,M1,I1)
a | b | c | d | e | f | g | h | i | j | k | l | m | n | |
1 | × | × | × | × | × | × | ||||||||
2 | × | × | × | × | × | × | ||||||||
3 | × | × | × | × | × | × | ||||||||
4 | × | × | × | × | × | ×20 --> | ||||||||
5 | × | × | × | × | × | |||||||||
6 | × | × | × | × | ||||||||||
7 | × | × | × | × | × | |||||||||
8 | × | × | × | × | × | × | ||||||||
9 | × | × | × | × | × | |||||||||
10 | × | × | × | × | × | |||||||||
11 | × | × | × | × | ||||||||||
12 | × | × | × | × | × | × | ||||||||
13 | × | × | × | × | × | × | ||||||||
14 | × | × | × | × | × | × | ||||||||
15 | × | × | × | × | × | |||||||||
16 | × | × | × | × | × | × | ||||||||
17 | × | × | × | × | ||||||||||
18 | × | × | × | × | ||||||||||
19 | × | × | × | × | × | × | ||||||||
20 | × | × | × | × | ||||||||||
21 | × | × | × | × | ||||||||||
22 | × | × | × | × | × | |||||||||
23 | × | × | × | × | × | |||||||||
24 | × | × | × | × | × | |||||||||
25 | × | × | × | × | × | × | ||||||||
26 | × | × | × | × | × | |||||||||
27 | × | × | × | × | × | |||||||||
28 | × | × | × | × | × | |||||||||
29 | × | × | × | × | ||||||||||
30 | × | × | × | × | × | |||||||||
31 | × | × | × | × | ||||||||||
32 | × | × | × | × | × | |||||||||
33 | × | × | × | × | ||||||||||
34 | × | × | × | × | ||||||||||
35 | × | × | × | × | ||||||||||
36 | × | × | × | × | × | × | ||||||||
37 | × | × | × | × | × | |||||||||
38 | × | × | × | × | × | |||||||||
39 | × | × | × | × | ||||||||||
40 | × | × | × | × | × | |||||||||
41 | × | × | × | × | × | × |
注:表7中各字母代表的含义分别如下:
a:博主为高学历;b:博主为中等学历;c:博主学历较低;d:政治立场为左派;e:政治立场为中立;f:政治立场为右派;g:博客主题为感想;h:博客主题为政治;i:博客主题为旅游;j博客主题为新闻;k:博客主题为科学;l:博客被当地媒体转载;m:地方,政治和社会空间;n:该博主为临博主。
根据步骤b得到实施例2的邻接矩阵W′,见说明书第30页。
其对应的属性拓扑图如图8所示(若与某节点相连接的边中,既有单向指向该节点的边,又有单向指出边或双向边,则与该节点相连接的边,在图中用虚线表示)。
采用本发明的方法,得到(F1,M1,I1)的概念信息见表8。
表8本发明方法所得(F1,M1,I1)的所有概念信息
实施例3,为了快速比较本发明方法与张涛等人的方法的复杂度,本实施例选取较简单的信息背景。信息背景(F2,M2,I2)见表9,,其净化后的信息背景(F3,M3,I3)见表10。采用本发明方法,得到信息背景(F3,M3,I3)的全部概念信息见表11。本发明从实施例3的信息背景中提取数据进行实验,从程序的循环次数和执行时间两方面,与张涛等人的方法进行比较,所得数据见表12。
结合本发明实施例和实验分析,得到结论:
I、本发明采用一种基于概念格的信息提取方法,与使用张涛等人的全路径遍历方法,所得到的概念信息相同,都能够获得信息背景全部的概念信息。
II、由图9得n≤21时,本发明方法比张涛等人的方法复杂度要高。
III、由图10得n>21时,本发明方法复杂度比张涛等人的方法复杂度低。并且随着样本数目的增大,本发明方法复杂度会越来越低于张涛等人的方法复杂度。
IV、由表12得出对于大数据信息背景,由于本发明方法远远优越于张涛等人的方法,选择本发明的方法获取信息概念更为适宜。
表10(F2,M2,I2)净化后的信息背景(F3,M3,I3)
表11本发明方法所得(F3,M3,I3)的所有概念信息
表12本发明方法与张涛等人的方法复杂度对比
注释:循环次数:程序循环体中语句的最多执行次数,是用来刻画时间复杂度;时间:程序执行时间。将表12中数据绘制成曲线图,所得结果如图9和图10所示。
Claims (10)
1.一种基于概念格的信息提取方法,其特征是,包括如下步骤:
a、将原始信息背景(F,M,I)进行预处理,得到净化后的信息背景(F0,M0,I0),并将此净化后的信息背景转化为一属性拓扑图的邻接矩阵;此邻接矩阵对应属性拓扑图G0=(V0(G0),E0(G0)),其中,V0(G0)=M0,E0(G0)={e(x,y)|x,y∈M0,且x,y拥有公共的对象};
b、为属性拓扑图G0添加一节点属性η,得到一个新的属性拓扑图G0+{η};
c、对新的属性拓扑图G0+{η}的权值进行净化,即:在每一边的权值w'(xi,xj)中去掉不属于η拥有的对象集中的对象;其中每一边的权值为相邻两节点所拥有的公共对象集;净化后的权值用w(xi,xj)表示,xi,xj∈M0∪{η},i,j=1,2,…,|M0|+1;
d、利用净化后的属性拓扑图的权值之间的关系将各属性进行分层,得到分层图,并提取概念信息;
e、检验所有概念信息是否齐全,若未齐全,继续寻找概念信息,直到概念信息齐全;
f、删除(F0,M0∪{η},I0)中所有概念内涵中的η,得到(F0,M0,I0)的全部概念信息,将步骤a中净化掉的属性与对象重新恢复为(F0,M0,I0)的信息,从而得到原始信息背景(F,M,I)的全部概念信息。
2.根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤a中将原始信息背景(F,M,I)进行预处理,具体是:删除原始信息背景中的全局属性、全局对象、空属性、空对象;同时保留等价属性中的一个,将其他的属性进行删除;保留等价对象中的一个,将其他的对象进行删除;最后得到净化后的信息背景(F0,M0,I0)。
3.根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤b中所添加的节点属性η满足{η}=M0或
4.根据权利要求3所述的基于概念格的信息提取方法,其特征是,步骤b具体包括如下步骤:
b1、选取属性η,且η满足η所拥有的对象集为F0;
b2、在属性拓扑图G0上添加属性η作为一节点,连接节点η与图G0中各节点,得|M0|条边,且每边权值为w′(η,xi),xi∈M0,i=1,2,…,|M0|;最终得到新的属性拓扑图G0+{η},且G0+{η}=G(V,E,w'),其中,V为节点集,V=M0∪{η};E为边集,
b3、获取信息背景(F0,M0∪{η},Iη),其中
获取信息背景(F0,M0∪{η},Iη)的具体过程为:
对于任意的g∈F0,y∈M0∪{η};
当y∈M0时,若gI0y,则gIηy;即:若对象g在(F0,M0,I0)中拥有属性y,则对象g在(F0,M0∪{η},Iη)中也拥有属性y;
当y=η时,有gIηy成立。
5.根据权利要求1所述的基于概念格的信息提取方法,其特征是,步骤d具体包括如下步骤:
d1、定义分层图的第一层L1
L1={({η},TN(η),w(η))}
其中,L1为单点集;{η}为第一层的属性集,TN(η)为属性η的拓扑邻域,w(η)为属性η所拥有的对象集;({η},TN(η),w(η))为属性η的关键元;
d2、基于分层图的第一层L1,寻找分层图的第二层L2;
其中,l(η)表示以η为中心所选择的下一层属性集合,l(η)满足如下条件:
表示以η为中心所选择的属性的拓扑邻域, 满足如下条件:
并提取第二层的概念信息Cp2:
d3、根据步骤d1~d2可得分层图的第(i-1)层,i为整数,且i>2;
假设分层图的第(i-1)层L(iη1)已经获得,即:
根据分层图的第(i-1)层L(iη1)寻找分层图的第i层Li;
其中,表示第i层中第ji个属性集中的最后一个属性;
表示以为中心所选择的下一层属性集合,满足如下条件:
表示以为中心所选择的的拓扑邻域, 满足如下条件:
并提取第i层的概念信息Cpi:
d4、如果第(i-1)层中每一属性集的最后一个属性的拓扑邻域均为空集,则该属性的下一层属性也均为空集,即此时分层结束,否则重复步骤d3直到分层结束;
d5、分层结束后(F0,M0∪{η},Iη)的所有概念信息为其中n0为属性分层的总层数。
6.根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤d3中在根据分层图的第(i-1)层L(i-1)寻找分层图的第i层Li时,首先要以为中心净化步骤b中属性拓扑图G0+{η}对应的邻接矩阵,即:将属性拓扑图G0+{η}中的每一边的权值w′(xi,xj)与属性集共同拥有的对象集B作比较,若w′(xi,xj)中有不属于B的对象,则将此对象从w′(xi,xj)中去掉,最后完成对属性拓扑图G0+{η}的权值的净化,得到以为中心净化权值后的属性拓扑图及相应的邻接矩阵;
之后根据得到的以为中心净化权值后的属性拓扑图及相应的邻接矩阵,寻找以为中心的下一层属性集合并寻找中相应属性的拓扑邻域;
最终寻找到分层图的第i层Li,并提取到第i层的概念信息Cpi。
7.根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤d3中在寻找分层图的第i层Li时,若第i层中的前(ji-1)个属性构成的集合均与目前属性集 不同,则得到第i层中的第ji个属性集中最后一个属性的关键元为
否则判定第i层中属性的关键元不存在;
如果关键元Li{ji}存在,则提取第i层中的第ji个概念
如果关键元不存在,则无概念可提取;
最终得到第i层中所有的关键元:
并提取第i层中所有的概念:
8.根据权利要求5所述的基于概念格的信息提取方法,其特征是,步骤e中,判断概念信息是否齐全具体是:
判断步骤b中属性拓扑图G0+{η}是否为加权无环图,若是,则表明概念信息齐全,不需要继续寻找概念信息;若否,则再判断属性拓扑图G0+{η}是否为加权有环图,且不含有三条边且各边权值均相等的环,若是,则表明概念信息齐全,不需要继续寻找概念信息,若否,则表明概念信息不齐全,需要继续寻找概念信息。
9.根据权利要求8所述的基于概念格的信息提取方法,其特征是,步骤e中,当概念信息不齐全需要继续寻找概念信息时,具体寻找过程如下:
e1、对根据步骤d3所得到的第三层中的任意两个概念的对象集求交集,并将交集非空的两个概念组合为另一个不同的概念;具体如下:
e1.1、依次取第三层中的每一概念Cp3{i},i=1,2,...,m3,以及该概念之后的每一概念Cp3{j},i<j≤m3;
e1.2、若则组合为概念Cpij=(X{i}∩X{j},Y{i}∪Y{j}),否则不组合概念;
e2、重复步骤e1,将第三层中任意两对象集相交非空的概念,组合为新概念,从而得到组合后的全部概念,记为
Cpc1={Cpij|Cpij=(X{i}∩X{j},Y{i}∪Y{j}),i=1,2,...,m3,i<j≤m3};
e3、去除Cpc1中的伪概念,具体如下:
e3.1、依据对象集,将Cpc1中的所有概念进行分类,每一类概念具有相同的对象集;
e3.2、将每一类中所有概念的属性进行合并,对象集不变,组合为一个概念其中pk为第k类概念中所有概念的个数,Ykq为第k类概念中第q个概念的属性集,Xk为第k类概念的共同对象集;
e3.3、最后得概念集Cpd1={Cpd1{k}|k=1,...,pk};
e4、初步得到部分剩余概念Cpe1,具体如下:
令Cpe1=Cpd1-Cpq,其中Cpq为根据步骤d5得到的概念;
e5、得到其余剩余概念;给定初始值i=1,具体操作如下:
e5.1、对Cpei中任意两个概念进行比较,若两个概念的对象集交集非空,则将这两个概念组合为一个概念,组合规则按步骤e1.2进行;最后得概念集Cpc(i+1);
e5.2、依据步骤e3去除Cpc(i+1)中的伪概念,得到概念Cpd(i+1);
e5.3、得到部分剩余概念Cpe(i∪1)=Cpd(i+1)-Cpei;
e5.4、令i=i+1,重复步骤e5.1到e5.3,直到任意两个概念对象集交集为空,搜寻结束;最后得到所有剩余概念为
e6、最后去除Cpe中的伪概念:对于对象集相同的概念,保留属性集最大的概念,其余去掉;
e7、到此为止,得到(F0,M0∪{η},I0)的全部概念信息Cp=Cpq∪Cpe。
10.根据权利要求2所述的基于概念格的信息提取方法,其特征是,步骤f具体是:
f1、删除所有概念内涵中的η;概念内涵即指概念内的属性;
f2、将净化掉的每一全局属性,重新恢复为概念内涵中的元素;
f3、将净化掉的每一全局对象,重新恢复为概念外延中的元素;概念外延即指概念内的对象;
f4、将净化掉的每一空属性,重新恢复为的内涵中的元素;
f5、将净化掉的每一空对象,重新恢复为的外延中的元素;
f6、将等价属性中净化掉的属性,重新恢复为概念内涵中的元素;
f7、将等价对象中净化掉的对象,重新恢复为概念外延中的元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610157420.XA CN105824936A (zh) | 2016-03-18 | 2016-03-18 | 一种基于概念格的信息提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610157420.XA CN105824936A (zh) | 2016-03-18 | 2016-03-18 | 一种基于概念格的信息提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105824936A true CN105824936A (zh) | 2016-08-03 |
Family
ID=56523546
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610157420.XA Pending CN105824936A (zh) | 2016-03-18 | 2016-03-18 | 一种基于概念格的信息提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824936A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273931A (zh) * | 2017-04-01 | 2017-10-20 | 河北大学 | 一种交叉渐进提取信息的生物聚类方法 |
CN108647900A (zh) * | 2018-05-18 | 2018-10-12 | 北京科技大学 | 一种应用于水文模拟领域的区域划分方法 |
CN113539375A (zh) * | 2021-07-16 | 2021-10-22 | 河北大学 | 一种基于三支半概念的生物信息类提取方法 |
CN116842073A (zh) * | 2023-07-10 | 2023-10-03 | 四川警察学院 | 图数据的挖掘方法、装置和电子设备 |
-
2016
- 2016-03-18 CN CN201610157420.XA patent/CN105824936A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273931A (zh) * | 2017-04-01 | 2017-10-20 | 河北大学 | 一种交叉渐进提取信息的生物聚类方法 |
CN107273931B (zh) * | 2017-04-01 | 2019-11-08 | 河北大学 | 一种交叉渐进提取信息的生物聚类方法 |
CN108647900A (zh) * | 2018-05-18 | 2018-10-12 | 北京科技大学 | 一种应用于水文模拟领域的区域划分方法 |
CN108647900B (zh) * | 2018-05-18 | 2022-03-11 | 北京科技大学 | 一种应用于水文模拟领域的区域划分方法 |
CN113539375A (zh) * | 2021-07-16 | 2021-10-22 | 河北大学 | 一种基于三支半概念的生物信息类提取方法 |
CN113539375B (zh) * | 2021-07-16 | 2022-03-15 | 河北大学 | 一种基于三支半概念的生物信息类提取方法 |
CN116842073A (zh) * | 2023-07-10 | 2023-10-03 | 四川警察学院 | 图数据的挖掘方法、装置和电子设备 |
CN116842073B (zh) * | 2023-07-10 | 2024-04-09 | 四川警察学院 | 图数据的挖掘方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN106156082B (zh) | 一种本体对齐方法及装置 | |
CN104866593B (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN101630314B (zh) | 一种基于领域知识的语义查询扩展方法 | |
CN105824936A (zh) | 一种基于概念格的信息提取方法 | |
Agarwal et al. | Parametric and kinetic minimum spanning trees | |
CN102236693A (zh) | 确定文档之间的相似度的方法和设备 | |
CN110442603A (zh) | 地址匹配方法、装置、计算机设备及存储介质 | |
CN104239513A (zh) | 一种面向领域数据的语义检索方法 | |
CN105183796A (zh) | 一种基于聚类的分布式链路预测方法 | |
CN107766433A (zh) | 一种基于Geo‑BTree的范围查询方法及装置 | |
CN103020163A (zh) | 一种网络中基于节点相似度的网络社区划分方法 | |
CN107945037A (zh) | 一种基于节点结构特征的社交网络去匿名化方法 | |
CN104750762A (zh) | 一种信息检索方法及装置 | |
CN113505190B (zh) | 地址信息修正方法、装置、计算机设备和存储介质 | |
Liu et al. | Spotting significant changing subgraphs in evolving graphs | |
CN105573971A (zh) | 表格重构装置和方法 | |
CN116127330B (zh) | 一种路网语义相似性度量模型 | |
CN117010373A (zh) | 一种电力设备资产管理数据所属类别和组的推荐方法 | |
KR20100117987A (ko) | 한국토지정보시스템 연속지적도와 수치지형도의 기하학적 지도 변환을 위한 반자동화된 공액점 쌍 추출방법 | |
CN106844553A (zh) | 基于样本数据的数据探测和扩充方法及装置 | |
CN107016092A (zh) | 一种基于扁平化算法的文本搜索方法 | |
CN104239314A (zh) | 一种扩展检索词的方法和系统 | |
CN107018074B (zh) | 一种基于扁平化的网络连通路径快速搜索方法 | |
Silva et al. | Using reorderable matrices to compare risk curves of representative models in oil reservoir development and management activities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160803 |
|
RJ01 | Rejection of invention patent application after publication |