CN105678382A

CN105678382A - 一种基于子形式背景属性相似度的概念格合并方法及系统

Info

Publication number: CN105678382A
Application number: CN201511025724.2A
Authority: CN
Inventors: 尹弼民
Original assignee: Huizhou TCL Mobile Communication Co Ltd
Current assignee: Huizhou TCL Mobile Communication Co Ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2016-06-15
Anticipated expiration: 2035-12-29
Also published as: CN105678382B

Abstract

本发明公开一种基于子形式背景属性相似度的概念格合并方法及系统。本发明根据基于子形式背景属性相似度的原理，使得本发明的方法在初期多出一段计算共同属性的时间，却可以为后期子概念格合并工作节省很多时间，并且随着形式背景数据量的提升而展现出明显的效率优势，尤其是共同属性小的情况下，本发明的方法将表现出特别地优势。从合并的概念格质量上来说，本发明的方法可以保证生成无边信息丢失的概念格图，避免信息衰减。

Description

一种基于子形式背景属性相似度的概念格合并方法及系统

技术领域

本发明涉及人工智能和本体知识库领域，尤其涉及一种基于子形式背景属性相似度的概念格合并方法及系统。

背景技术

1982年，RudolfWille教授提出一种数学理论，它就是为后来人奉为经典的概念格理论。概念格是形式概念分析理论(FCA)中的核心数据结构，概念格中的节点体现了概念内涵和外延的统一，故而概念格结构非常适合规则的发现和推理。

概念格理论的相关研究可以列举出如下几个方面：(1)概念格基础理论的研究；(2)概念格的构建和约简；(3)模糊环境下概念格的生成和规则获取以及模糊推理；(4)粗糙概念分析：部分学者将概念格理论与粗糙集联系起来，粗糙概念分析应运而生；(5)概念格的可视化研究：主要研究如何合理美观地呈现概念格Hasse图，使得边的交叉数最少，整个图更美观；(6)多粒度概念格：部分学者将粒计算同概念格理论结合起来，提出多粒度概念格的概念；(7)基于概念格的关联规则获取算法：这是因为概念格的每一个节点代表一个由内涵和外延组成的形式概念，在后期的规则推理和规则挖掘过程中，概念格结构由于其清晰的is-A关系/层次关系，有利于挖掘知识中隐藏的概念和关系，故而一些学者将概念格当做一个关联规则挖掘的有效模型，研究并提出基于概念格的关联规则获取算法。

综上所述，概念格——这种根据形式背景中对象和属性之间的二元偏序关系建立的层次结构，是一种有效的数据分析和知识提取工具。概念格理论被诸多前沿学者应用于不同方向的领域中，例如，机器学习、数据挖掘、语义Web、知识发现、信息检索等。

现有的概念格合并算法分为两种模式：第一种先合并子形式背景，再生成概念格，第二种先分别根据子形式背景生成子概念格，再合并子概念格。其中，以第一种模式居多，其根本思想就是将概念格合并转换成概念格生成，这种模式并非不可，在一些特定情况下，还会表现出一定的优越性。但当形式背景变得极为复杂时，亦或数据量变得极为庞大时，此种统一生成的方法不可取，会造成大量现有概念格资源的浪费，从而导致时间和成本上的浪费。

就第二种模式来说，部分方法在完成两个子概念格合并的过程中丢失了边的信息，也有部分方法可以直接完成两个子概念格合并也能保证不丢失Hasse图边的信息(即is-A关系)，但其并不是在合并过程中同时生成边的信息，而是完成所有概念节点的合并之后，再一层层的检索并添加边的关系，这种做法无疑浪费了计算资源，导致效率较低。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种基于子形式背景属性相似度的概念格合并方法及系统，旨在解决现有的合并方法其计算过程复杂、效率低等问题。

本发明的技术方案如下：

一种基于子形式背景属性相似度的概念格合并方法，其中，包括步骤：

A、输入两个需要合并的子形式背景，先计算这两个子形式背景内涵中各属性之间的相似度；

B、将相似度高于阈值的属性视为共同属性，取出共同属性并记录；

C、针对两个子形式背景，分别使用Godin算法生成子概念格；

D、最后根据之前记录的共同属性完成子概念格的合并。

所述的基于子形式背景属性相似度的概念格合并方法，其中，所述步骤C中，使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集，M表示属性集，S表示子节点集。

所述的基于子形式背景属性相似度的概念格合并方法，其中，所述步骤C具体包括：

C1、在概念格L中节点依次和对象({x*},f({x*}))作运算时，如果节点N的内涵包含于f({x*})，记录节点N到集合gnLackOfE中；

C2、在每次对象({x*},f({x*}))对概念格L的运算结束之后、下一个对象运算开始之前，根据所述集合gnLackOfE生成子概念格。

所述的基于子形式背景属性相似度的概念格合并方法，其中，所述步骤D中，合并的过程包括：

将子概念格L2中的每个节点依次和子概念格L1进行运算，更新的节点和新产生的节点皆存入子概念格L1中，最后将子概念格L1赋值给合并后的概念格L12；

子概念格L2中的节点X和子概念格L1中节点依次进行运算，如果在子概念格L1的m层发现了节点X的真子节点，则对于子概念格L1的n层的节点皆不用再进行任何运算，n>m。

所述的基于子形式背景属性相似度的概念格合并方法，其中，所述共同属性提供领域专家接口。

所述的基于子形式背景属性相似度的概念格合并方法，其中，所述阈值为95％。

一种基于子形式背景属性相似度的概念格合并系统，其中，包括：

相似度计算模块，用于输入两个需要合并的子形式背景，先计算这两个子形式背景内涵中各属性之间的相似度；

共同属性记录模块，用于将相似度高于阈值的属性视为共同属性，取出共同属性并记录；

子概念格生成模块，用于针对两个子形式背景，分别使用Godin算法生成子概念格；

子概念格合并模块，用于最后根据之前记录的共同属性完成子概念格的合并。

所述的基于子形式背景属性相似度的概念格合并系统，其中，所述子概念格生成模块中，使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集，M表示属性集，S表示子节点集。

所述的基于子形式背景属性相似度的概念格合并系统，其中，所述子概念格生成模块具体包括：

记录单元，用于在概念格L中节点依次和对象({x*},f({x*}))作运算时，如果节点N的内涵包含于f({x*})，记录节点N到集合gnLackOfE中；

生成单元，用于在每次对象({x*},f({x*}))对概念格L的运算结束之后、下一个对象运算开始之前，根据所述集合gnLackOfE生成子概念格。

所述的基于子形式背景属性相似度的概念格合并系统，其中，所述共同属性提供领域专家接口。

有益效果：本发明根据基于子形式背景属性相似度的原理，使得本发明的方法在初期多出一段计算共同属性的时间，却可以为后期子概念格合并工作节省很多时间，并且随着形式背景数据量的提升而展现出明显的效率优势，尤其是共同属性小的情况下，本发明的方法将表现出特别地优势。从合并的概念格质量上来说，本发明的方法可以保证生成无边信息丢失的概念格图，避免信息衰减。

附图说明

图1为本发明一种基于子形式背景属性相似度的概念格合并方法较佳实施例的流程图。

图2为采用Godin算法得到的概念格。

图3为采用本发明的方法与现有技术的所消耗时间的一实例的对比图。

图4为采用本发明的方法与现有技术的所消耗时间的另一实例的对比图。

图5为本发明一种基于子形式背景属性相似度的概念格合并系统较佳实施例的结构框图。

具体实施方式

本发明提供一种基于子形式背景属性相似度的概念格合并方法及系统，为使本发明的目的、技术方案及效果更加清楚、明确，以下对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

请参阅图1，图1为本发明一种基于子形式背景属性相似度的概念格合并方法较佳实施例的流程图，如图所示，其包括步骤：

S101、输入两个需要合并的子形式背景，先计算这两个子形式背景内涵中各属性之间的相似度；

S102、将相似度高于阈值(如95％)的属性视为共同属性，取出共同属性并记录；

S103、针对两个子形式背景，分别使用Godin算法生成子概念格；

S104、最后根据之前记录的共同属性完成子概念格的合并。

所述共同属性(ComAttrs)提供领域专家接口。提供领域专家接口，可以针对计算出的相似度位于95％以上的属性对进行人工修正，包括增删改查等，进一步精确子形式背景，使得后期生成的概念格更具有领域权威性。领域专家：专指要合并的两个子形式背景所属知识领域的专家。

在生成子概念格的过程中，某种特殊的情况下，Godin算法在构造中会丢失父子节点关系，即概念格Hasse图中的边。这将造成生成的概念格Hasse图不完整。

举例说明，已知形式背景pAB如表1所示：

表1形式背景proAB

使用Godin算法得出的概念格如图2所示。

就上述实例而言，处理已有的概念格L和新增对象({4},{B,C,X,Y})时，({4},{B,C,X,Y})的内涵和概念格L中每个节点H的内涵X'(H)进行交运算，其结果只会为以下两种情况之一：

X^{'} (H) &SubsetEqual; f ({x *});

itst＝X'(H)∩f({x*})且这样X'(H1)＝itst。

无论是上述哪种情况，在Godin算法中都只有实例相关增添工作、节点相关更新工作，而不存在边相关操作。因此，会造成边信息丢失。

本发明对Godin算法进行了改进，该算法能有效的完整生成概念Hasse图结构，保证在面对特殊形式背景时也能保证边信息不丢失。在本发明的Godin改进算法中，修改了Godin算法中的数据结构。边信息存储在父节点中。使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集objSets，M表示属性集attrSets，S表示子节点集sonnodes。属性集的数据结构为一个由0,1组成的字符串。

本发明Godin改进算法，还可以将所有父节点(包括非直接父节点，即父节点的父节点)都添加到节点信息中，这样可以减少部分节点的内涵相交工作，比如，({x*},f({x*}))和概念格L中节点N的内涵交集为空集，采用从底向上的遍历顺序，那么在之后遇到N的父节点集和中的所有元素时，可以跳过内涵相交等运算。

使用本发明的Godin改进算法完成对表1实例的概念格生成工作，得到的输出为正确的无边信息丢失的概念格Hasse图。

Godin改进算法的具体实现过程，具体包括：

S201、在概念格L中节点依次和对象({x*},f({x*}))作运算时，如果节点N的内涵包含于f({x*})，记录节点N到集合gnLackOfE中；

S202、在每次对象({x*},f({x*}))对概念格L的运算结束之后、下一个对象运算开始之前，根据所述集合gnLackOfE生成子概念格。

所述步骤S202中具体包括：

S301、令i＝0；

S302、tNode＝gnlackOfE[i]；objsOfSons＝“”；

S303、令j＝0，

S304、sonNode＝tNode.sonNode[j]；//子节点

objsOfSons＝objsOfSons+sonNode.objs

S305、判断j是否小于j<tNode.sonNode.length；

S306、若小于则令j++(即+1，下同)，并返回步骤S304，若不小于，则令k＝0，并进入到步骤S307；

S307、obj＝tNode.objs[k]；

S308、判断obj是否不在objsOfSons中；

S309、若不在，则将({x*},f({x*}))放入到tNode.sonNodes中，并且不管在与不在，都要判断k是否小于tNode.sonNode.length，若小于则令k++，并执行步骤S307；若不小于则进入步骤S310；

S310、判断i是否小于gnlackOfE.length，若是则令i++并执行步骤S302，若否则对下一个对象进行计算。

根据概念格理论，研究分析得出以下三个在子概念格合并中适用的定理：

定理1：需要合并的两个子概念格分别为L1、L2，如果子概念格L2中有一个节点X，满足这样Intent(D)＝Intent(X)，且节点X是子概念格L1第m层中某节点Y的真父节点(直接父节点)，则在之后的遍历过程中(m从小到大遍历，第m层所有概念的内涵个数皆为m)，子概念格L1第n层(n>m)中都不可能有节点Z满足Z是X的真子节点。

定理1证明：使用反证法，已知X是Y的真父节点，假设Z是X的真子节点，则

I n t e n t (X) &Subset; I n t e n t (Y), I n t e n t (X) &Subset; I n t e n t (Z) .

可得

I n t e n t (X) &SubsetEqual; I n t e n t (Y) \cap I n t e n t (Z) .

如果Intent(Y)∩Intent(Z)＝Intent(Y)，则Y为Z的父节点。又因为X是Y的真父节点，所以Z不可能为X的真子节点，这与假设矛盾，假设不成立；

如果Intent(Y)∩Intent(Z)≠Intent(Y)，则：

(I n t e n t (Y) \cap I n t e n t (Z)) &Subset; I n t e n t (Y);

I n t e n t (X) &SubsetEqual; I n t e n t (Y) \cap I n t e n t (Z) &Subset; I n t e n t (Y);

又由

I n t e n t (X) &SubsetEqual; I n t e n t (Y) \cap I n t e n t (Z),

可知子概念格L1中必有一个节点C，其内涵为Intent(C)＝Intent(Y)∩Intent(Z)，且|C|<|Y|<|Z|，在算法的遍历过程中，L1中节点Y、Z、C的遍历顺序依次为C、Y、Z。

又X是Y的真父节点，结合公式必有Intent(X)＝Intent(Y)∩Intent(Z)＝Intent(C)；

这与已知条件这样Intent(D)＝Intent(X)矛盾，所以假设不成立。

综合以上两种情况，可知Z是X的真子节点为假命题，定理1得证。

在定理1中初始置条件这样Intent(D)＝Intent(X)的原因是：如果这样Intent(D)＝Intent(X)，则那么在算法的遍历过程中，直接将Extent(X)并入Extent(D)中，然后跳出循环遍历，结束子概念格L2中节点X的相关运算，直接进行L2中下一个格节点对子概念格L1的运算，根本就不会判断到节点X在子概念格L1中的任意一个真子节点，也不必判断。

定理2：已知子概念格L1中节点A和子概念格L2中节点B产生新节点C(内涵个数为k)，则执行如下操作即可完成新增节点所有is-A关系的建立：

定理2证明：根据算法中的遍历顺序，可知概念格L2中在B节点之前的所有节点都和A节点运算过，却没有产生过C，所以B节点目前为C节点的真子节点，同理，可证明A节点目前也是C节点的真子节点。所以将A节点、B节点加入到C节点的子节点集合中。

对于C节点的所有父节点，它们只可能出现在属性集个数小于等于C的属性集个数的节点中。

定理3：子概念格L2中某节点N的内涵Intent(N)中不包括任意元素element∈ComAttrs，则此节点不必再和需要合并的对象格L1中的任意一个节点进行运算。

定理3证明：

((element∈ComAttrs)∧(element∈Intent(N)))

<＝>element∈(ComAttrs∩Intent(N))

又由内涵相关度及ComAttrs的定义可知，

对于都有

故而，节点N和子概念格L1中的任意一个节点进行内涵的交运算必得空集，不会发生节点更新、新节点生成等结果。因此，节点N不必再和子概念格L1中间的任意一个节点进行相关运算。

依据上述原理，本发明中合并的过程包括：

子概念格L2中的节点X和子概念格L1中节点依次进行运算，如果在子概念格L1的m层发现了节点X的真子节点，则对于子概念格L1的n层的节点皆不用再进行任何运算，n>m(依据定理1)。

具体是：输入两个子概念格L1，L2，首先取出之前计算所得共同属性(ComAttrs)，子概念格L2中只有内涵含有ComAttrs中的元素的节点需要和子概念格L1中节点进行相关相交、比对和产生新节点等运算，当子概念格L2中某节点内涵中不包括任意元素element∈ComAttrs时，直接添加此节点到概念格格L12中(依据定理3)。

在合并工作的实际执行过程中，使用定理2完成新增节点is-A关系的建立。

本发明基于子形式背景属性相似度的思想，使得初期多出一段计算共同属性的时间，却可以为后期子概念格合并工作节省很多时间，并且随着形式背景数据量的提升而展现出明显的效率优势，尤其是共同属性小的情况下，本发明的方法将表现出特别的优势。

从合并的概念格质量上来说，本发明提出的方法可以保证生成无边信息丢失的概念格图，避免信息衰减。并且提供了领域专家接口，可以通过专家干扰的方式进一步的提升合并所得概念格的精确性和领域权威性。

从合并效率上来说，本发明提出的方法相较传统的概念格合并算法具有更好的表现：其随着形式背景数据量的提升而展现出明显的效率优势，尤其是共同属性小的情况下，本发明的方法将表现出特别的优势。

本发明对以下三个算法进行了实验模拟：

(1)传统模式一：先合并子形式背景，再生成概念格的方法TCLMA1(TraditionalConceptLatticsMergingAlgorithm1)

(2)传统模式二：先生成子概念格再合并的方法TCLMA2；

(3)本发明的方法(CLMABAS)。

实验数据说明：

用程序编写一个子形式背景生成器，输入参数为|G1|、|G2|、|M1|、|M2|、共同属性个数p，其中，前四个参数分别代表子形式背景1的实例个数、子形式背景1的属性个数、子形式背景2的实例个数以及子形式背景2的属性个数。该生成器随机生成两个子形式背景K1(G1,M1,I1)和K2(G2,M2,I2)。如此一来，即可生成需要进行实验的具有某种特征的随机数据。

本次实验多次比较了TCLMA1方法、TCLMA2方法以及本发明的方法对相同两个子形式背景合并造概念格Hasse图时花费的时间。实验中扮演输入数据角色的两个子形式背景横向上演绎了实例个数的增长、纵向上针对了属性集个数的增长。

限于篇幅，仅仅列举出两组具有代表性的实验数据，如图3和图4所示。

实验发现，在实例数小且相同属性个数多的情况下，TCLMA1方法体现出较好的性能。而随着实例数的增多，TCLMA1方法表现出较差的性能；

实验发现，TCLMA2算法无论在数据量小的情况下还是数据量大的情况下性能都是最差的一个，但仍然列出其比较，这是因为它具有一个TCLMA1方法不具备的优势：当需要合并的两个子形式背景所代表的领域早就已经各自生成了子概念格时，选用TCLMA2方法可以省去生成子概念格的时间，随着子形式背景规模的增大，这种优势越来越明显。当然，本发明中提出的CLMABAS方法同样具备这样的特性。

综合实验数据分析得到：当相同属性多时，随着输入的子形式背景属性集和实例集的变大，选用CLMABAS方法较TCLMA1方法及TCLMA2方法将渐渐显现出优势。当相同属性少时，选用CLMABAS方法较其他两个合并算法将具有明显的优势。实验证明了在保证生成无信息丢失的概念格Hasse图的前提下，基于子形式背景属性相似度的概念格合并方法CLMABAS具有一定的有效性、完整性和平衡最优性。

基于上述方法，本发明还提供一种基于子形式背景属性相似度的概念格合并系统较佳实施例，如图5所示，其包括：

进一步，所述子概念格生成模块中，使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集，M表示属性集，S表示子节点集。

进一步，所述子概念格生成模块具体包括：

进一步，所述共同属性提供领域专家接口。

关于上述模块单元的技术细节在前面的方法中已有详述，故不再赘述。

上述功能模块的划分仅用以举例说明，在实际应用中，可以根据需要将上述功能分配由不同的功能模块来完成，即划分成不同的功能模块，来完成上述描述的全部或部分功能。

本领域普通技术人员可以理解上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件完成，所述的计算机程序可存储于一计算机可读取存储介质中，程序在执行时，可包括上述各方法的实施例的流程。其中的存储介质可以为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。

综上所述，本发明根据基于子形式背景属性相似度的原理，使得本发明的方法在初期多出一段计算共同属性的时间，却可以为后期子概念格合并工作节省很多时间，并且随着形式背景数据量的提升而展现出明显的效率优势，尤其是共同属性小的情况下，本发明的方法将表现出特别地优势。从合并的概念格质量上来说，本发明的方法可以保证生成无边信息丢失的概念格图，避免信息衰减。

关于专利中的定义及符号说明：

定义1.1形式背景(FormalContext，也可称子形式背景)由两个集合G(对象集合)、M(属性集合)以及表示G与M之间的关系I组成，可以表示成形式背景K＝(G,M,I)。其中，(g,m)∈I或gIm，表示对象g具有属性m。

定义1.2在形式背景K(G,M,I)中，在G的幂集与M的幂集之间，定义两个映射f和g如下：

&ForAll; O_{1} &SubsetEqual; G : f (O_{1}) = {d | &ForAll; x &Element; O_{1} (x I d)};

&ForAll; D_{1} &SubsetEqual; A : g (D_{1}) = {x | &ForAll; d &Element; D_{1} (x I d)} .

定义1.3形式背景K(G,M,I)上的二元组(X,Y)，X是对象集合，Y是属性集合，如果满足f(X)＝Y,g(Y)＝X，则(X,Y)称为概念，其中X称为概念(X,Y)的外延，Y称为概念(X,Y)的内涵。

定义1.4如果两个形式概念(X₁,Y₁)和(X₂,Y₂)均在同一个形式背景中，且或则称(X₁,Y₁)为(X₂,Y₂)的子概念，(X₂,Y₂)为(X₁,Y₁)的超概念，公式描述为(X₁,Y₁)≤(X₂,Y₂)，关系≤表示形式概念之间的序。

定义1.5已知X≤Y，如果不存在任意概念Z(Z≠X,Z≠Y)满足X≤Z≤Y，则称X是Y的邻接子概念，称Y是X的邻接超概念。L(G,M,I)表示按此方式有序的所有(G,M,I)概念的集合，称为形式背景(G,M,I)的概念格。在一个形式背景的概念格中，将任意一个概念和它的所有邻接子概念及所有邻接超概念用一条直线连接，生成的图称之为Hasse图。

定义1.6构建概念格L1和概念格L2的形式背景拥有若干个相同的属性，这若干个属性组成ComAttrs(CommonAttributes)。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于子形式背景属性相似度的概念格合并方法，其特征在于，包括步骤：

C、针对两个子形式背景，分别使用Godin算法生成子概念格；

D、最后根据之前记录的共同属性完成子概念格的合并。

2.根据权利要求1所述的基于子形式背景属性相似度的概念格合并方法，其特征在于，所述步骤C中，使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集，M表示属性集，S表示子节点集。

3.根据权利要求1所述的基于子形式背景属性相似度的概念格合并方法，其特征在于，所述步骤C具体包括：

4.根据权利要求1所述的基于子形式背景属性相似度的概念格合并方法，其特征在于，所述步骤D中，合并的过程包括：

5.根据权利要求1所述的基于子形式背景属性相似度的概念格合并方法，其特征在于，所述共同属性提供领域专家接口。

6.根据权利要求1所述的基于子形式背景属性相似度的概念格合并方法，其特征在于，所述阈值为95％。

7.一种基于子形式背景属性相似度的概念格合并系统，其特征在于，包括：

8.根据权利要求7所述的基于子形式背景属性相似度的概念格合并系统，其特征在于，所述子概念格生成模块中，使用一个类型[G,M,S]来存储某一个节点或概念的信息，其中G表示实例集，M表示属性集，S表示子节点集。

9.根据权利要求7所述的基于子形式背景属性相似度的概念格合并系统，其特征在于，所述子概念格生成模块具体包括：

10.根据权利要求7所述的基于子形式背景属性相似度的概念格合并系统，其特征在于，所述共同属性提供领域专家接口。