CN101799814A

CN101799814A - 自由分类标签类聚成网状分类结构的方法

Info

Publication number: CN101799814A
Application number: CN200910214596A
Authority: CN
Inventors: 吴江
Original assignee: MAOMING COLLEGE
Current assignee: MAOMING COLLEGE
Priority date: 2009-12-31
Filing date: 2009-12-31
Publication date: 2010-08-11
Anticipated expiration: 2029-12-31
Also published as: CN101799814B

Abstract

一种自由分类标签类聚成网状分类结构的方法，其特征是利用用户对资源自由分类添加的标签和喜好推荐，通过标签关联为主，喜好推荐关联为辅的原则将资源类聚成最基本的凝聚子群，最基本的凝聚子群之间通过标签关联组成上一级的凝聚子群，逐次向上组成一级级的凝聚子群类目，从而形成网状分类结构。本发明可根据用户标签关联，用户偏好关联自动构建网状分类结构，不需要任何同义词表，分类词表和其他概念等级结构辅助，自动产生新的分类，自动构建类目层级关系。

Description

自由分类标签类聚成网状分类结构的方法

技术领域

本发明涉及一种自由分类标签类聚成网状分类结构的方法。

背景技术

在传统的网络内容管理系统中，很难人工设计分类栏目，想调整或细化分类时，需要对所有相关信息进行修改，网络资源的分类费时费力。目前资源利用已经从专家自主模式(即系统建构---用户利用)向用户自主模式(用户构建---用户利用)发展。自由分类的个性化标签是完全从用户视角发展起来的分类方法，它打破了严格的学科分隔和类号束缚，事实上也打破了传统分类的两大支柱：学科区分和类号聚合。传统分类法严格的学科细分正在瓦解，目前学科融合使许多资源归类困难。大量的资源是可以自由组合的，用户标签颠覆了传统的专家分类模式，建立了以用户为中心的标签聚类模式，分类框架采用自由分类的框架和语言。分类的表现形式---标签是由用户产生的元数据，区别于以往由专家或网站作者产生的元数据，它能直接、迅速反映用户的需求、理解和知识的更新。但自由分类法存在语义模糊，标签滥用，标签散乱，层次关系不明确，难以形成分类目录等级结构，利用标签平面非等级标引的信息也都是并列的，信息越多利用标签直接找到信息就越困难等问题。所以自由分类法现在还无法取代现有网络信息分类法作为各大网站和搜索引擎的分类导航系统的地位。

在Web2.0网站http://delicious.com上，用户可以对互联网的各个网站标注自由分类标签，推荐与分享，在豆瓣网站上，用户可以对电影，音乐，图书等根据自己的理解标注自由分类标签，并推荐分享，用户可以在许多在Web2.0网站上对视频、博客等资源添加自由分类标签并推荐等等。如果突破自由分类标签自动类聚，确定标签间层级关系的难题，就可以利用自由分类标签构建层次分明的网状分类结构并对网络资源进行自动归类。

发明内容

本发明的目的是提供一种简单、方便的自由分类标签类聚成网状分类结构的方法，它可根据用户标签关联，用户偏好关联自动构建网状分类结构，不需要任何同义词表，分类词表和其他概念等级结构辅助，自动产生新的分类，自动构建类目层级关系。

本发明提供的自由分类标签类聚成网状分类结构的方法，该方法是利用用户对网络资源添加的标签关联和喜好推荐关联将资源类聚成最基本的凝聚子群，最基本的凝聚子群之间通过标签关联组成上一级较大的凝聚子群，逐次向上组成一级级的凝聚子群类目，从而形成网状分类结构。

本发明可以采用比较通俗的解释进行说明，例如，自然界中存在的大最复杂系统都可以通过网络进行抽象和描述。通过对网络模型的构建和网络结构特征的分析，就可以构建网络地图，例如人际关系网络地图，交通网络地图等等，从这些网络地图中我们就可以分析出一个个最基本凝聚子群，相近的最基本的凝聚子群又组成一个较大的凝聚子群，相近的较大的凝聚子群又组成更大的凝聚子群。北京，上海，广州等顶级城市位于错综复杂的交通网络中，位于不同凝聚子群连接网络的中心。这些中心是通过分析其与其他凝聚子群的交通连接密集程度自动产生的，不是事先规定的中心。就像每个县城都有直接到县内每个镇频繁的班车，就可以组成一个县的凝聚子群，每个地级市都有直接到市内每个县城频繁的班车，就可以组成一个地级市的凝聚子群。每个省会市都有直接到省内每个地级市频繁的班车，就可以组成一个省的凝聚子群。这样就可以从交通网络图中确定各镇，县城，地级市、省会的层级关系。

自由分类中用户添加标签和喜欢推荐的行为将相同类别的资源关联起来，标注了相同的标签的若干个资源就说明这若干个资源有相互之间都两两有关联(称作标签关联)，在绘制网络资源关系连接图时就用连接线两两连接。被相同的用户同时喜欢推荐就说明若干个资源可能会有点关联(称作偏好关联)，很明显，在资源的类别判断中，标签关联比偏好关联的权重大得多，因为虽然相同读者喜欢的图书往往是同类的，但读者的喜好是广泛的，偏好关联只能作为辅助判断，而且偏好关联只在确定最基本的凝聚子群时使用，在分析凝聚子群间的关系连接网络图时不使用。

当网络中某些行动者之间的关系特别紧密，以至于结合成一个次级团体时，这样的团体在社会网络分析中被称为凝聚子群。分析网络中存在多少个这样的子群，子群之间关系特点，一个子群的成员与另一个子群成员之间的关系特点等就是凝聚子群分析。一个凝聚子群就可以看成一个类别，分析它们的包含、等级关系就为构建网状分类结构提供依据，当若干个资源(要有三个以上)由标签关联而使它们都两两连接，那么就认为是这若干个资源相关密切，是属于一个最基本的类别。例如100本图书同时被标注了“软件”这个标签，那么这100本图书就肯定是两两标签关联，但第101本图书虽没有被标注“软件”这个标签，但它和这100本书中的50本同时被标注了“编程”标签，和这100本书中的另外30本同时被标注了“程序开发”标签，和这100本书中的余下的20本同时被标注了“C++”标签，那么第101本书也和这100本图书两两标签关联，同属于“软件”这个小凝聚子群(用这个最基本的小凝聚子群里元素出现最多的标签命名就是这个最基本的小凝聚子群类目名称)。这样就可以把相同类别但因为同义词，近义词，新流行词导致标签各异的图书尽量归属到一类。但也有可能第101本图书只能和这100本图书中的80本图书两两标签关联，但它确实属于软件类的图书，这时就可以借助偏好关联来辅助判断，因为某个读者往往喜欢同一类别的书，经过浏览豆瓣网的数据统计，偏好关联类别平均相同率大约为50％。对于文学，社会科学类的书，偏好关联类别相同率在35％以上。对于科技、学科类专业书，偏好关联类别相同率为70％以上。对于已经由标签关联组成的“软件”凝聚子群，其他图书如果具备和“软件”凝聚子群80％以上的图书两两标签关联的条件，设计的软件再计算其和这个“软件”凝聚子群图书的偏好关联比例，如果偏好关联比例超过50％，那么符合条件的图书就会加入到“软件”这个凝聚子群中，这叫做偏好关联辅助原则。偏好关联辅助原则只是在分析最基本的小凝聚子群时使用。例如在豆瓣中《C++Primer中文版》这本图书被标注了以下标签：“C++(447)编程(166)计算机(125)程序设计(96)programming(73)经典之作(59)经典(48)经典教材(45)”，(括号里的数字表示被标注的次数)。虽然它没有“软件”这个标签，但它上述的标签使它和“软件”凝聚子群里超过80％的图书标签关联，那么就再统计其和“软件”凝聚子群里图书的偏好关联比例，如果偏好关联比例超过50％，就说明《C++Primer中文版》和“软件”凝聚子群相近程度很大，可以让其加入到“软件”凝聚子群。

然后在把分析出的一个个最基本的凝聚子群看作一个个点，那么最基本的凝聚子群里的资源之间的互联就可以省略，凝聚子群内不论多少个资源与子群外的某个最基本的凝聚子群内多少个资源标签关联都只看作一个连接，即是两个凝聚子群间无论有多少个标签关联都省略为一个连接。凝聚子群间的连接不考虑喜欢关联，只考虑标签关联，因为如果考虑喜欢关联就可能将不同类别的凝聚子群连接起来。在分析相近的几个凝聚子群哪个处于中心度高的位置，处于结构洞的位置时，还要考虑它们之间通过标签关联的标签名称是否和其中某个凝聚子群的名称相同，如果有相同的，那么这样的标签关联就省略。这样处理后，就得到简化的凝聚子群连接图。在简图中，看看相邻的几个点中哪个点中心度最高，如果把中心度最高的点融入到连接线中(就是不考虑这个点对连接线的断开作用)，哪几个点(规定要有四个点以上)就可以全都两两直接连接，那么这几点就可以组成上一级较大的凝聚子群，较大的凝聚子群名称就是处于结构洞位置的点(小凝聚子群)的名称。然后再把这个较大的凝聚子群看作一个点，按上述方法在去分析其和相近的那几个较大的凝聚子群组成一个更大的凝聚子群，直到最后就形成一个层次和交错分明的自然分类网络地图。

自由分类标签类聚成网状分类结构与专家组织起来的严格层级关系的分类体系对比起来主要有如下特点：(1)这样构成的一个个凝聚子群可以看作是独立的模块，必要时可以和任一类自由组合，这决定于用户的标注行为。某个凝聚子群类目可以归属于不同的上级层次类目。例如滑冰可以属于体育运动类目，也可以属于休闲娱乐类目。这是用户对资源不同理解添加不同标签，交叉链接类聚的必然结果。(2)进行凝聚子群分析反映了用户对网络类别结构的理解，网络资源的不断更新使网络分类不断更新，变化和补充。不同的类别随着用户的理解发展可以随机类聚，交叉归属于不同上级类目，形成网状分类结构体系。用户不断添加标签，用户理解变化，新知识体系的不断产生，用户的喜好推荐变化等等使凝聚子群类目体系呈动态变化。这些都是通过软件自动分析生成，节省大量的人力物力去对网络资源进行分类。(3)自由分类标签类聚成自动分类网络地图利用用户标注、推荐使资源的紧密连接程度类聚归类，这个网状分类结构体系就是根据用户的行为自然形成的、以用户为中心的、着眼于资源应用的分类系统，这样就可以省略了人工组织的一系列分类号，分类层次框架和分类本体。不是先确定分类体系才把资源归入类别，而是先把资源类聚才确定类目名称，这样就可以使新类目随着资源的不断增长而不断产生。自动分类网络地图不仅可以从多种分类中(代表不同的信息认知)检索到同一信息，还可以基于用户对信息的理解自动修改单项信息的归属。信息一般都具有丰富的语义，网状结构更适合表达信息之间复杂的关系，顶层的类目框架不是并列排列逐级展开，而是像地图一样，层级关系通过网络中心度、凝聚子群分析就可以得出。(4)研究这个网状类目地图，又可以得出交通要点，主干线，进一步揭示类目的层次关系，流行热点，知识分布态势，知识群的关系等。研究不同时期的网状类目地图，又可以得出知识的发展趋势。

本发明可以解决互联网自由分类标签自动类聚，确定标签间层级关系的难题，自动构建网络资源网状分类结构。可以被所有可以让用户添加自由分类标签的网站使用，得出的分类结构可以被互联网搜索引擎分类体系应用，提供网络资源知识群落分布特征和发展变化研究的一种新途径。

附图说明

图1是图书、标签关联、偏好关联构成网络最基本的凝聚子群分析例图；

图2是图1的凝聚子群简化成点的连接例图；

图3是较小凝聚子群构成上一级凝聚子群分析例图。

具体实施方式

用户对资源添加的标签凌乱，不规范，首先编程对标签的进行规范化处理，设置软件过滤掉非分类词标签，对单个字，国家名称，非名人的人名，多语言的混合词，形容词，助词，动词，代词，冠词，副词，连词，介词，感叹词，判断词，一个句子作为标签的都过滤掉。采用中文分词软件判断词性的功能对标签数据进行词性判断，过滤，软件设置对超过五个汉字的标签，多语言混合的标签进行过滤。另外，对于低频出现的标签(只有一、两个人标注过的标签)也可认为是垃圾标签而过滤掉。过滤掉的标签就不再被认为使资源标签关联。剩下的标签我们就可以认为是标准标签。经处理后，一个资源一般可以几个标准标签。

对于过滤掉剩下标准标签，被标注同一标准标签的若干资源肯定都是两两标签关联，就肯定可以组成一个个最基本的同标签的集合，软件很容易就分析出这样一个个同标签的集合，因为资源可以被标注不同的标准标签，所以资源可以属于好几个同标签的集合，但这样得出的结果是类目过于多和凌乱，所以我们的软件设置还需把结果尽量类聚。这里以用户对图书自由添加分类标签的豆瓣网为例，例如被标注了“古诗”的图书就可以组成一个“古诗”的同标签的集合，但有些图书本来是属于“古诗”凝聚子群的，由于用户理解的原因，并没有被标注了“古诗”的标签，而是被标注了“诗集”，“唐诗”，“诗”，“李白”，“古代诗歌”，“杜甫”，“七律”等等，如果每个这样的标签都构成一个最基本的凝聚子群，那么这样的分类就太散乱了。所以设置的软件根据以上制定的标签两两关联，偏好关联辅助原则，将它们合并到“古诗”这个最基本的凝聚子群里来。设计的软件在豆瓣里数据库里很容易就分析出同标签图书的集合，再根据其它图书与这个同标签的集合所有图书能否都达到标签两两关联，或者标签关联超过80％的情况下，再看其和这个同标签的集合图书偏好关联能否超过50％，这两种情况符合都可以加入到这个同标签的集合中，共同组成一个最基本的凝聚子群，这样处理后基本上都可以把属于古诗的图书都加入到“古诗”这个最基本的凝聚子群里来，这个最基本的凝聚子群里名称就是这个凝聚子群里出现得最多次数的标签名称。例如对于属于“李白”同标签的集合的图书，有些图书可以因为标签关联和偏好关联规则可以加入到“古诗”这个最基本的凝聚子群里来，但有些图书就达不到条件，就未能加入(有标签“李白”的图书《大唐第一古惑仔李白实录》就加入不到“古诗”这个凝聚子群)。但其他图书有可能因为标签关联和偏好关联辅助规则加入到“李白”这个同标签的集合共同组成一个新的最基本的凝聚子群，出现次数最多的标签就是这个最基本的凝聚子群的名称，所以这个新的最基本的凝聚子群名称就不一定叫“李白”了。最基本的凝聚子群不一定是最小的凝聚子群，最基本的凝聚子群就是先把相同标签的资源归到一个同标签资源集合，再看其他资源是否达到和某个同标签的集合标签两两关联或大部分标签两两关联的情况下，偏好关联能否达到一定比例，就认为其与这个同标签的集合资源相关性很大，可以加入到这个集合从而组成一个最基本的凝聚子群。这样得到的结果就肯定会有不同层次的最基本的凝聚子群同时存在，然后设计的软件再对相近的、有关联的最基本的凝聚子群进行层次关系确定。例如“小说”和“文学”两个相似度很近的标签，如果认为哪个标签标注次数多，网络影响域大就是上级是行不通的，因为在豆瓣网中标签“小说”的使用次数远比“文学”多。例如图1，图1中分别有文学、小说、散文、诗歌和文学评论五个最基本的凝聚子群，最小的圆圈代表资源，资源之间的连线就是表示标签关联，图中最基本的凝聚子群内的资源都是两两标签关联。其中“小说”因为其类别书本最多，标注为“小说”标签的图书最多，所以小说类图书的影响域最大，文学本来是小说的上级类目，但读者标注喜好是更细更具体的标签，所以“文学”标签使用数量、影响域远远小于“小说”标签。我们把“小说”类凝聚子群看作一个点，“文学”类凝聚子群看作另一个点，那么凝聚子群内元素的互联就可以省略，两个凝聚子群间无论有多少个标签关联都省略为一个连接。软件同时判断最基本的凝聚子群间通过的标签关联的标签名称是否有与相邻的凝聚子群名称相同的情况，如果有，这个关联就省略，即是不看作其使凝聚子群之间有连接。例如“小说”凝聚子群里有的图书同时被标注了“文学”标签，“诗歌”凝聚子群里有的图书也同时被标注了“文学”标签，那么就是说凝聚子群“小说”和凝聚子群“诗歌”之间就是直接标签关联了，但凝聚子群“小说”和凝聚子群“诗歌”之间通过的标签关联名称为“文学”，这个名称和相邻的凝聚子群“文学”名称相同，所以这个标签关联就省略，这样凝聚子群“小说”和凝聚子群“诗歌”之间没有直接连线了。这样处理后就得到图2凝聚子群简化成点的连接例图。

在图2中，文学的影响域最大，处于中心度最高的位置，所以“文学”肯定就是其他几个小类别凝聚子群的上级，如果把文学这个点融入到连接线中(就是不考虑这个点对连接线的断开作用)，这几个最基本的凝聚子群全都两两直接连接，这就形成了一个较大的“文学”类别凝聚子群。然后再把这个较大的“文学”类别凝聚子群看作一个点，那么点内所有的互联都要省略，点内与其他相邻的某个点不管有多少个连接都省略为一个连接，再分析这个点与其他较大类别凝聚子群点的连接简图就可以得出它们的从属关系。

例如图3：较小凝聚子群组成上一级的较大的凝聚子群分析例图，我们分析当把处于中心度最高的、结构洞位置的点融入到连接线中(就是不考虑这个点对连接线的断开作用)，哪几个点(规定要有四个点以上)就可以全都两两直接连接，只有去掉“文学”，“历史”，“教育”这三个点符合要求，就是说可以组成较大的“文学”，“历史”，“教育”三个上一级较大的凝聚子群，这个较大的凝聚子群的名称就是位于结构洞位置的点(凝聚子群)的名称。这样每次都把分析出的更上一级的较大的凝聚子群看作一个点，一层层分析绘制凝聚子群网络连接简图，最后就可以得到包含所有资源，有完整分类类目，分类层次分明，类目交错合理的网状分类结构。

Claims

1.一种自由分类标签类聚成网状分类结构的方法，其特征是利用用户对资源自由分类添加的标签和喜好推荐，通过标签关联为主，喜好推荐关联为辅的原则将资源类聚成最基本的凝聚子群，最基本的凝聚子群之间通过标签关联组成上一级的凝聚子群，逐次向上组成一级级的凝聚子群类目，从而形成网状分类结构。

2.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是最基本的凝聚子群由至少三个以上资源组成，且所有资源间都具有两两标签关联；或者在其他某个资源和最基本的凝聚子群里一定比例的资源达到两两标签关联的情况下，如果其又和这个最基本的凝聚子群里一定比例的资源又达到两两偏好关联，就可以加入到这个最基本的凝聚子群里来。

3.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是最基本的凝聚子群名称就是这个最基本的凝聚子群里出现次数最多的标签的名称。

4.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是在判断相近的最基本的凝聚子群间的层次关系时，把分析出的一个个最基本的凝聚子群看作一个个点，那么最基本的凝聚子群内资源之间的互联就可以省略，凝聚子群内不论多少个资源与子群外的某个最基本的凝聚子群内多少个资源标签关联都只看作一个连接，凝聚子群间的连接不考虑偏好关联，只考虑标签关联。

5.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是在分析相近的几个凝聚子群哪个处于中心度高的位置，处于结构洞的位置时，还要考虑它们之间通过标签关联的标签名称是否和其中某个凝聚子群的名称相同，如果有相同的，那么这样的标签关联就省略，不看作这两个凝聚子群有连接。

6.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是当要分析哪几个相近凝聚子群可以组成上一级的较大的凝聚子群子群时，就把几个相近的较小凝聚子群都看作一个个点，分析当把处于中心度最高的、结构洞位置的点融入到连接线中，看看有哪四个以上的点就可以两两直接相连，那么这几点就可以组成上一级较大的凝聚子群，较大的凝聚子群名称就是处于结构洞位置的点的较小凝聚子群的名称。

7.根据权利要求1所述的自由分类标签类聚成网状分类结构的方法，其特征是依次把形成的上一级凝聚子群简化成一个点，依次把简化成的点和经过相同次数处理过得出的相邻的点进行绘制标签关联连接简图，逐级向上分析，逐级得出再上一级的凝聚子群并命名，自动形成网状分类结构。