CN104036013A

CN104036013A - 基于属性拓扑的博客数据的形式概念计算方法

Info

Publication number: CN104036013A
Application number: CN201410288698.1A
Authority: CN
Inventors: 张涛; 李慧; 魏昕宇
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2014-09-10
Anticipated expiration: 2034-06-25
Also published as: CN104036013B

Abstract

本发明公开了一种基于属性拓扑的博客数据的形式概念计算方法。该方法将博客数据的形式背景进行属性拓扑表示，通过加入全局起点和全局终点以及相关边将博客数据的属性拓扑退化为一个具有起点和终点的图；通过条件约束和计算规则的限定，对固有排序的属性节点重复进行搜索和回溯来完成路径的遍历；在对全局起点和全局终点之间的所有路径进行遍历的过程中得到博客数据所有的形式概念。本发明将属性拓扑构造成一个完整的整体，避免了属性拓扑的分解过程，体现了算法的完整性。同时在路径的遍历过程中获得形式概念的直观计算过程，可视性较好。

Description

基于属性拓扑的博客数据的形式概念计算方法

技术领域

本发明涉及形式概念分析领域，尤其涉及基于属性拓扑的博客数据的形式概念计算方法。

背景技术

博客是以自由、开放和共享为文化特征，通过图文音象等表现形式，围绕个人网络存在的五大功能，提供存取读写、组织沟通、评价交换等服务的一种社会化个人服务模式。它并不是纯粹的技术创新，但确是一种逐渐演变的网络应用，一种形式的变化。博客的全民性，让它的传播方式成为所有人对所有人的传播。然而，博客并不如表面般繁荣，当博客毫不掩饰地在大众面前喧闹的时候，接踵而来的问题使得博客乱了方寸。博客参与者的盲目性导致了博客行为过程中的迷茫与厌倦；由于进入的零门槛和缺少监管，彻底颠覆互联网既有模式的博客，变成了新的信息垃圾场。博客正遭受低俗肤浅成风、网络侵权等因素的困扰。

作为数据分析与知识处理的有力工具，形式概念分析以数学化的概念和概念层次为基础，已经应用在众多领域，如数据挖掘、知识发现、网络搜索、软件工程、语义分析等，并仍然具有很大的潜在应用价值。

作为国际形式概念分析的研究热点，形式概念的计算以及概念格的生成是许多学者研究的重点。经过国内外学者多年的研究，目前已经从不同角度提出多种形式概念的计算及概念格生成算法。这些算法主要可以分为三大类：批处理算法、渐进式算法和并行算法。批量算法的思想是首先生成所有的概念，然后根据它们之间的前驱-后继关系生成边，完成概念格的构造。渐进式算法的思想是先初始化概念格为空，然后将当前要插入的对象和现有概念格中的所有概念进行交运算，根据交的结果不同来更新每个概念。并行算法主要思想是将形式背景拆分为子形式背景构造子格后再进行相应的合并运算。

但是经典的概念格计算普遍复杂而且不能直观的表示形式概念中各个属性间的关联性和关联强度。形式背景的属性拓扑表示法是一种新型的表示形式背景的方法。与传统表示方法不同，属性拓扑表示以属性为顶点，属性对间的包含关系为权值，以加权图的形式对形式背景进行刻画，将属性间的耦合关系和耦合强度直观的表现在拓扑图上。形式背景的属性拓扑表示方法为形式背景的表示提供了全新的思路。其次，属性拓扑图不但简单直观的表现出各个属性之间的关联及其关联强度，而且与形式背景一一对应。

基于这种全新的表示方法，张涛等人提出了利用属性拓扑图计算形式概念的方法，该方法分别以属性拓扑的各顶层属性为中心，根据属性拓扑中与之连线数由少到多的顺序，依次作各自的属性子拓扑。然后利用以顶层属性为核心的子拓扑中属性对象的关联及关联强度，对子拓扑中可能的对象集进行整理运算，以此得到所有的外延，与相应内涵形成子拓扑中的所有概念。最终得到所有子拓扑中的概念，即该形式背景下的所有概念。利用属性拓扑求形式概念的方法为概念的计算提供了新的思路。其次，该方法使概念的计算简便易于操作。

但是属性子拓扑将原有拓扑整体割裂，不适于可视化分析。其次，该方法逻辑性较差，不适用大规模数据形式背景的形式概念计算。

发明内容

本发明的目的在于为了克服上述的不足之处，提供一种基于属性拓扑的博客数据的形式概念计算方法。该方法首先将属性拓扑退化为具有固定起点和终点的图，在此基础上，通过条件约束和计算规则的限定，利用可视化全局路径搜索无冗余、无遗漏地得到该拓扑下的所有形式概念。该方法将属性拓扑构造成一个完整的整体，避免了属性拓扑的分解过程，体现了算法的完整性。同时在路径的遍历过程中获得形式概念的直观计算过程，可视性较好。该方法通过对博客数据的形式概念计算，对博客信息资源进行了科学的整合和发掘，对斑驳繁杂的博客信息进行了“过滤”，为博客使用者迅速发现对自己有利和感兴趣的博客内容以及了解博客作者的相关信息提供了理论依据，有利于摒弃无用信息，可以促进博客文化的科学管理和博客健康、有序的发展。

本发明是通过以下技术方案实现的：一种基于属性拓扑的博客数据的形式概念计算方法，其内容包括以下步骤：

1、形式背景的属性拓扑表示

从图论的角度看，属性拓扑表示是关于属性间关系的加权图表示，因此在存储上可以借鉴图的存储方式，对属性拓扑进行邻接矩阵描述；

形式背景K:＝(G,M,I)中，定义T＝(V,Edge)为属性拓扑的邻接矩阵，其中V＝M为拓扑的顶点集合，Edge为拓扑中边的权值集合；

属性拓扑的邻接矩阵表达式如下所示：

全局属性是指形式背景中全部的对象均包含的属性；空属性是指形式背景中不属于任何对象的属性；

定义1在属性拓扑中，若对任意的Edge(m_i,m_j)≠Φ，都有Edge(m_j,m_i)≠Φ，则属性m_j为顶层属性；顶层属性在属性拓扑图中的直观表示为其所连接的边均为双向边和单向出边；

定义2在K:＝(G,M,I)中，m_i∈M；若存在集合N，对于且都满足则属性m_i为属性m_j的伴生属性，属性m_j为属性m_i的父属性；

属性m可以为多个属性的伴生，即m可以有多个父属性；伴生属性m的所有父属性构成m的父属性集，记做F(m)；

顶层属性必不是伴生属性；

2、伪父属性对的确定

定义3设一伴生属性a，定义非空集合P_i ^a为属性a的第i个伪父属性对，非空集合为与P_i ^a一一对应的对象集，则满足都有

在形式背景中，可能存在非空集合对都有且即伴生属性a可以有多个不同的伪父属性对；

伴生属性a的所有不同的伪父属性对构成集合为P^a,有

在属性拓扑中，伴生属性a及其任一伪父属性对构成的M_T＝{m_i|m_i∈a∪{P_i ^a}}必定为完全多边形；

对伴生属性a，满足即a的任意两个伪父属性对中不包含相同的属性；

伴生属性a的任一伪父属性对中都不包含a的父属性；

3、属性拓扑的退化

在原拓扑基础上加入节点Ψ和E(g(Ψ)＝G,g(E)＝Φ)，Ψ作为全局起点，E作为全局终点；设集合对构造单向边＜Ψ,m_i＞，同时令Edge(Ψ,m_i)＝g(m_i)，对令＜m_j,E＞＝End,其中End为终结符；为了统一表述，画图中采用单向边描述；

拓扑退化分以下两种情况：

(i)不存在伴生属性

则令A＝M且B＝M，即令Edge(Ψ,m)＝g(m),同时令＜m,E＞＝End,

(ii)存在伴生属性

则令A为顶层属性集，B为伴生属性集，则A∪B＝M，且A∩B＝Φ；

4、节点的排序

假设M为拓扑的全部属性集，顶层属性集为伴生属性集#{·}代表集合内元素的个数；

对令num(m_i)＝#{n|Edge(n,m_i)≠Φ,orEdge(m_i,n)≠Φ,n∈M-m_i},

定义4对于非空集合定义一种映射T:C→C满足：

(2)num(c₁)≤num(c₂)≤...num(c_i)

由定义4可知，对于上述集合A,B,有A^T＝{m₁,m₂,m₃...m_i},B^T＝{n₁,n₂,n₃...n_j},

由定义4可知集合A^T是对集合A内所有元素重新排序后的结果，即A^T为一个有序的集合；B^T是以同样的规则对集合B内元素排序后的结果；

令

M_{(A, B)}^{T} = {Ψ, A^{T}, B^{T}, E},

即

M_{(A, B)}^{T} = {Ψ, m_{1}, m_{2} . . . m_{i}, n_{1}, n_{2} . . . n_{j}, E};

由上述描述可知，做为一个有序集合，是在加入起点和终点的属性集合的基础上，对所有属性进行排序的结果；排在起点之后的为一系列的顶层属性，之后是一系列伴生属性，最后为加入的终点；后续算法中对节点的搜索和回溯都是在此基础上进行的；

对有序集合而言，m₁＝Next(Ψ),m₂＝Next(m₂)；

5、路径的表示

设拓扑的全部属性集为X＝{x₁,x₂,x₃...x_m},共有m个属性

定义5定义一种关系同时满足：

(1) - - - \overset{n}{Λ} X = &angle; (\overset{n}{Λ} X) \cdot θ^{(\overset{n}{Λ} X)}

(2) - - - &angle; (\overset{n}{Λ} X) = g (X)

(3) - - - θ^{(\overset{n}{Λ} X)} \overset{Δ}{=} < x_{1}, x_{2} . . . x_{n} >

其中，满足：

(1) - - - \overset{n}{Λ} X = {x_{1} Λ x_{2} . . . Λ x_{n} | &ForAll; x_{i} &Element; X, i &Element; [1, n]},

(2) - - - \overset{1}{Λ} X = {x_{1} | &ForAll; x_{1} &Element; X}

(3)n≤m

(4)x₁Λx₂≠x₂Λx₁,

(5)(x₁Λx₂)Λx₃＝x₁Λ(x₂Λx₃),

(6)x₁Λx₂Λx₃＝(x₁Λx₂)Λ(x₂Λx₃),

由上述定义5可知，当时，由它的大小和方向唯一确定，它的大小用

&angle; p = &angle; (\overset{n}{Λ} X)

来表示，

&angle; (\overset{n}{Λ} X) = \cap_{i - 1}^{n} g (x_{i}),

方向由

θ^{P} = θ^{\overset{n}{Λ} X}

来表示；

由上述定义及其分析可知，可以表示路径的形成过程：θ^P记录了当前路径依次经过的属性节点，即＜x₁,x₂,x₃...x_n＞，每两个相邻的节点间存在单向边，即路径中的边依次为＜x₁,x₂＞,＜x₂,x₃＞...＜x_n-1,x_n＞，并将∠P作为边＜x_n-1,x_n＞上的权值；

路径依次经过的属性节点构成集合I,I＝{x₁,x₂...x_n}；

若在现有路径的基础上，加入一个新的节点x_n+1，有P＝PΛ{x_n+1}，路径进行更新：生成一个新的节点x_n+1和新的边＜x_n,x_n+1＞，边＜x_n,x_n+1＞上的权值为路径依次经过的属性节点为I＝{x₁,x₂,x₃...x_n,x_n+1}；

6、主算法描述

设原拓扑属性集合为X(#X＝n-2),共有n个属性，设属性类别集合为{0,1}，表示属性x_i的类别为Mark(x_i),则令Mark(x_i)∈{0,1}；

Step1初始化∠P＝Φ,I＝Φ，初始化Mark(x_i)＝0,初始化概念集C＝Φ；

Step2初始化v＝Ψ令P＝{Ψ}，C＝{(g(Ψ),{Ψ})}；

Step3当前遍历属性m＝Next(v)；

Step4判断条件m＝E，不满足则转至Step5；否则，转至Step8；

Step5判断节点搜索的约束条件，满足则转至Step6；否则，转至Step7；

Step6路径及数据更新；

Step7v＝m，转至Step3；

Step8判断条件P＝Ψ，不满足则转至Step9；否则，将集合C中的每一个二元组({Ψ}∪A,B)更新为(A,B)，算法结束；

Step9进行节点回溯，集合C不改变，转至Step3；

算法结束后，即得到了两点间的全部路径，同时集合C中每一个二元组即为一个形式概念，形式背景K:＝(G,M,I)下的全部概念集β(G,M,I)＝C∪{(Φ,g(Φ))}。

在所述Step5中，节点搜索的约束条件判断步骤如下：

(a)判断条件Edge(m,x_i)≠Φ,orEdge(x_i,m)≠Φ，满足则转至步骤(b)；否则，转至步骤(g)；

(b)判断条件当前遍历属性m为伴生属性，满足则转至步骤(c)；否则，转至步骤(g)；

(c)判断条件满足则转至步骤(d)；否则，转至步骤(g)；

(d)判断条件P^m＝Φ，满足则转至步骤(e)；否则，转至步骤(g)；

(e)判断条件orI∩P_i ^m＝Φ；满足则转至步骤(f)，否则，转至步骤(g)；

(f)判断条件g(I)∩g(m)≠Φ，满足则说明m满足节点搜索条件；不满足则转至步骤(g)；

(g)m不满足节点搜索条件。

在所述Step6中，路径和数据更新步骤如下：

(a)路径更新P′＝PΛ{m}，同时∠P′＝∠P∩g(m),I′＝I∪{m}；

(b)判断条件∠P′＝Edge(Last(I),m)，满足则对原拓扑中Last(I)与m之间的边(单向边或者双向边)进行移除；否则，原拓扑保持不变；

(c)判断条件∠P′＝∠P，满足则转至步骤(d)；否则，转至步骤(e)；

(d)将生成的二元组(∠P′,I′)替代集合C中的元素(A_s,B_s)并令Mark(Last(I))＝1；其中，A_s＝∠P,s≤l，Last(·)是有序集合的最后一个元素；

(e)将生成的二元组(∠P′,I′)加入到集合C中，即C＝C∪{(∠P′,I′)}。

在所述Step9中，节点回溯步骤如下：

(a)Mark(Last(I))＝1，I＝I-Last(I)；

(b)判断条件Mark(Last(I))＝0，不满足则转至步骤(c)；否则，转至步骤(d)；

(c)v＝Last(I),I＝I-Last(I),Mark(v)＝0，转至步骤(b)；

(d)m＝Next(v)。

本发明的一种基于属性拓扑的博客数据的形式概念计算方法，其有益效果是：针对目前形式概念计算复杂度高且计算过程难以可视化的问题，本发明以属性拓扑为基础，将形式概念计算方法由传统的集合计算转变为图论计算，通过对两顶点间路径计算的形象化表示增强了计算过程的可视化特性。通过新加入的全局起点和全局终点以及相关边，将属性拓扑退化为一个整体，避免了拓扑的分解过程，体现了算法的完整性。该方法不仅使整个过程更具逻辑性和可操作性，并且易于实现，适用于大规模数据集。该方法通过对博客数据的形式概念计算，对博客信息资源进行了科学的整合和发掘，对斑驳繁杂的博客信息进行了“过滤”，为博客使用者迅速发现对自己有利和感兴趣的博客内容以及了解博客作者的相关信息提供了理论依据。

附图说明

图1是本发明方法的总步骤流程图；

图2是本发明方法中节点搜索的约束条件判断步骤流程图；

图3是本发明实验例所示的形式背景的属性拓扑图；

图4是本发明实验例经退化后的属性拓扑图；

图5是本发明实验例经过一次迭代过程后路径的更新情况示意图；

图6是本发明实验例在结束后生成的路径遍历示意图；

图7是图6中第一条路径的完整路径遍历过程示意图；

图8是本发明实验例所示形式背景下的Hasse图。

具体实施方式

下面我们通过附图和实例对本发明的技术方案做进一步的详细描述。

本实验例中，参照图1至图8所示，基于属性拓扑的博客数据的形式概念计算方法，具体包括以下步骤：

1、形式背景的属性拓扑表示

表1为本发明一个实验例的形式背景

图3为本实验例形式背景的属性拓扑图，即是由形式背景下所有的属性及其它们之间的带权值的边构成的。各个边上的权值由公式(3)确定。

本实验例中，全部属性集M＝{a,b,c,d,e,f,g,h,i,j,k,l,m,n}，顶层属性集为{a,b,c,d,e,f,j,h,j,l,m,n}，伴生属性集为{i,k}，伴生属性d和e的父属性集分别为：F(d)＝l,F(e)＝l。

2、伪父属性对的确定

在本实验例中，伴生属性集为{i,k}，由定义3可知P^d≠Φ：i的伪父属性对为P₁ ⁱ＝{d，c}，同时P^e≠Φ：k的伪父属性对P₁ ^k＝{e,n},

3、属性拓扑的退化

在图3所示的属性拓扑基础上进行拓扑的退化。因为图3所示该实验例形式背景包含伴生属性，则令A＝{a,b,c,d,e,f,j,h,j,l,m,n}，B＝{i,k}。在原拓扑基础上加入节点Ψ和E，构造Ψ到集合A内各元素的单向边，集合B内各元素到E的单向边。经过退化后的拓扑图如图4所示，虚线代表新加入的边，为了表述简洁，虚线所示边上的权值未在图中做标注。

4、节点的排序

在本实验例中，M＝{a,b,c,d,e,f,g,h,i,j,k,l,m,n},顶层属性集A＝{a,b,c,d,e,f,j,h,j,l,m,n},伴生属性集B＝{i,k}。根据定义4，A^T＝{h,a,g,e,j,b,d,c,f,l,m,n},B^T＝{i,k}，具体地，经排序后的所有属性节点构成的有序集合为M^T _(A,B)＝{Ψ,h,a,g,e,j,b,d,c,f,l,m,n,i,k,E}。

5、主算法描述

图1是本发明方法的总步骤流程图；图2是本发明方法中节点搜索的约束条件判断步骤流程图。

对于表1所示的该实验例的形式背景，X^T _(A,B)＝{Ψ,h,a,g,e,j,b,d,c,f,l,m,n,i,k,E}，共有16个属性，设属性类别集合为{0,1}，表示属性x_i的类别为Mark(x_i),则令Mark(x_i)∈{0,1}。

Step1初始化∠P＝Φ,I＝Φ，初始化Mark(x_i)＝0,初始化概念集C＝Φ。

Step2初始化v＝Ψ令P＝{Ψ},I＝{Ψ}，C＝{({1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41},{Ψ})}。

Step3当前遍历属性m＝Next(Ψ)＝h。

Step4判断条件h＝E，不满足，转至Step5。

Step5判断节点搜索的约束条件，满足，转至Step6。

Step6路径及数据更新。

Step7v＝m＝h，转至Step3。

在所述Step5中，判断节点搜索的约束条件的具体步骤如下：

(a)判断条件Edge(h,x_i)≠Φ,orEdge(x_i,h)≠Φ，满足,转至步骤(b)；

(b)判断条件当前遍历属性h为伴生属性，不满足，转至步骤(c)；

(c)判断条件g(Ψ)∩g(h)≠Φ，满足,说明h满足节点搜索条件。

在所述Step6中，路径及数据更新具体步骤如下：

(a)路径更新P′＝PΛ{h}＝{ΨΛh}，生成一条新的边＜Ψ,h＞。同时∠P′＝∠P∩g(h)＝{2,5,6,10,13,14,17,25,39},将其作为边＜Ψ,h＞上的权值，边的指向θ^P＝＜Ψ,h＞，即由Ψ指向h。I′＝I∪{h}＝{Ψ}∪{h}＝{Ψ,h}。

(b)判断条件∠P′＝Edge(Last(Ψ),h)，因为∠P′＝{2,5,6,10,13,14,17,25,39}，Edge(Last(I),h)＝Edge(Ψ,h)＝{2,5,6,10,13,14,17,25,39},满足，对原拓扑中Ψ与h之间的单向边进行移除。

(c)判断条件∠P′＝∠P，因为∠P′＝{2,5,6,10,13,14,17,25,39}，∠P＝({1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41}，不满足，转至步骤(e)。

(e)将生成的二元组(∠P′,I′)＝({2,5,6,10,13,14,17,25,39},{Ψ,h})加入到C中，即C＝{({1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41},{Ψ}),({2,5,6,10,13,14,17,25,39},{Ψ,h})}。

图5为进行上述步骤后，路径的更新情况。图5形象化表示了该过程P＝{ΨΛh}：θ^P如图中箭头的指示方向所示。∠P作为权值，标注在新生成的边上。

由Step7所述，进行完上述步骤后，转至Step3，即当前遍历属性m进行更新，然后，进行下一次迭代过程。

不断进行上述迭代过程，当满足条件(m＝E)∩(P＝{Ψ})＝ture时，将集合C中的每一个二元组({Ψ}∪A,B)更新为(A,B)，该算法结束。此时集合C中每一个二元组即为一个形式概念，形式背景K:＝(G,M,I)下的全部概念集β(G,M,I)＝C∪{(Φ,abcdefghijklmn)}。

图6为拓扑的全路径搜索示意图，得到了所有的形式概念。由于整个遍历图过大，图中省略了部分搜索过程。

图7为图6中第一条路径的后续路径遍历过程，虚线表示遍历过程中产生的伪概念直接忽略掉不做存储，由此遍历过程即可直接得到该路径下的全部的概念并且避免了伪概念的产生。

图7中虚线代表过程中产生了伪概念，计算时该二元组不做存储，例如二元组({2,10},{h,a,d})与二元组({2,10},{h,a,d,l})，而存储直线后的二元组({2,10},{h,a,d,l,m})，这是因为相同的对象集{2,10}下，属性集达到最大的{h,a,d,l,m}时，该二元组才可称为概念，结合图7的遍历过程反映到数据中即为，在同时满足了博客的主题为政治和博主为高学历前提下的2和10这两篇博客中，该博客政治立场为左派以及博客被当地媒体转载和该博客反映了地方，政治和社会空间这三条属性将并列同时出现，可以称这三个属性为属性集{h,a}下的绑定属性，即可以认为当一篇博客满足博客政治立场为左派以及博客被当地媒体转载两个条件时，这篇博客很有可能也反映了地方，政治和社会空间。而对于连接实线的属性h和属性a而言，表示二元组({2,5,6,10,14,17},{h,a})即为一个概念，运算过程中可直接存储，结合属性代表的含义分析可知，2，5，6，10，14和17这几篇博客同时满足了博客的主题为政治和博主为高学历两个条件。

图8为该实验例所示形式背景的Hasse图，每个结点代表一个概念。

由图6和图7可知，基于属性拓扑的博客数据的形式概念计算方法不仅可以完整的得到所有的形式概念，而且可以直观的表现出概念的计算过程。比较图6，7，8可知，计算过程路径遍历表示不仅清晰地表示了概念间的层次关系，而且比Hasse图要简单得多。该发明避免了拓扑的分解过程，体现了算法的完整性。通过对计算过程的路径遍历表示增强了计算过程的可视化特性。该发明不仅使整个过程更具逻辑性和可操作性，并且易于实现，适用于大规模数据集。

以上所述乃是本发明的具体实验例以及所应用的技术原理，若依本发明的构想所做的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明保护范围。

Claims

1.一种基于属性拓扑的博客数据的形式概念计算方法，其特征在于：该方法内容包括如下步骤：

1)形式背景的属性拓扑表示