CN101436201A - 一种变粒度文本聚类的特征量化方法 - Google Patents

一种变粒度文本聚类的特征量化方法 Download PDF

Info

Publication number
CN101436201A
CN101436201A CNA2008102095250A CN200810209525A CN101436201A CN 101436201 A CN101436201 A CN 101436201A CN A2008102095250 A CNA2008102095250 A CN A2008102095250A CN 200810209525 A CN200810209525 A CN 200810209525A CN 101436201 A CN101436201 A CN 101436201A
Authority
CN
China
Prior art keywords
similarity
speech
document
characteristic
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008102095250A
Other languages
English (en)
Inventor
刘远超
刘铭
王晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CNA2008102095250A priority Critical patent/CN101436201A/zh
Publication of CN101436201A publication Critical patent/CN101436201A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种变粒度文本聚类的特征量化方法,它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。本发明克服了已有的文档聚类系统由于特征量化不当导致的变粒度聚类时聚类效果较差的弊端。

Description

一种变粒度文本聚类的特征量化方法
(一)技术领域
本发明涉及一种变粒度文本聚类的特征量化技术。
(二)背景技术
近年来,可以很容易地从各种渠道获得数目惊人的文本文档。因此人们对发展能够帮助用户有效地导航、组织和总结这些文本信息技术的兴趣越来越强。高质量的文本聚类技术在实现这个目标过程中扮演了重要的角色。通过将大量信息组织成少数有意义的簇,使人们可以从宏观的角度来观察数据。这种技术能够提供导航和浏览机制,从而极大地改善检索性能。
面向互联网应用的文本聚类已经成为正在崛起并迅速被市场所认可的技术。例如,由美国CMU大学3名计算机科学家于2000年创立的聚类检索公司VIVISIMO中采用的文本聚类核心技术(http://vivisimo.com/)已经转让给包括波音公司、Airbus、USA.gov、Procter and Gamble等数百家用户,其中多数为全球财富五百强企业。美国著名企业家布莱德·格林斯潘投资创办的聚类检索系统BBMAO(http://www.bbmao.com)也有着独特的技术特色,目前正在迅速占领市场,并刚刚于2006年在中国登陆。再例如,YAHOO中国公司等门户网站每天都要获得大量的新闻和知识文档,需要上站。但这些信息的自动组织成为难题,以往一般是需要人力完成。
所谓文本聚类中的粒度,是指聚类处理生成的每个文档簇内部的文档之间的相似度情况,如果要求内部相似度必须较大,则一般会导致生成的文档簇的数目较多,且每个文档簇内部的文档数较少;如果要求内部相似度较小,则一般会导致生成的文档簇的数目较少,且每个文档簇内部的文档数较多。前者相当于在较小粒度下观察数据,后者相当于在较大粒度下观察数据。在文档数目较多的情况下,用户更喜欢从较宏观(大粒度)的角度观察数据,此时聚类处理的价值更加明显和突出。
很多文本聚类方法目前普遍采用的词频VSM建模方法在较大粒度聚类情况下,由于对语言现象不够敏感,难以捕捉到文档之间的共性特征,将导致聚类结果出现较多失误。因为在大粒度情况下,用户期望从更宏观的角度观察数据,此时原本彼此具有较少显式共性特征但语义关系密切的文档需要被划分到同一文档簇中,因此对语义的分析和共性知识的挖掘就显得非常必要。而在较小粒度的聚类情况下,由于分了较多的类,为了快速导航和浏览这些信息,也有必要考虑类间的关系,并尽可能将关系密切的类放在一起。
(三)发明内容
本发明的目的在于提供一种能够克服现有技术由于特征量化不当导致不同粒度下,特别是较大粒度下文本聚类效果较差弊端的变粒度文本聚类的特征量化技术。
本发明通过下述步骤实现:1)文档关键词的概念扩展。利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合。例如,如果文档中出现“花卉”、“兰花”、“杜鹃”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夹竹桃”、“灯芯草”之一,则由于其都可以视为一种花卉,因此可以映射为“花卉”一词;2).特征表示和相似度计算:词与词之间的相似度可以理解为其公共特征的重合度有多大。文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。
本发明还有这样一些技术特征:
1、所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度,定义文档d1和d2的综合相似度sim(d1,d2)为
sim(d1,d2)=γ*sim1(d1,d2)+(1-γ)sim2(d1,d2);
2、所述的每个神经元在两种不同特征空间上的向量构造与标准SOM方法完全相同,即都初始化为随机小数构成的向量,在模型训练过程中网络结构的动态更新时,网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值,模型训练结束后,每个神经元对应两个向量,一个为这个神经元节点所映射的全部文档词频向量的均值;另外一个是这个神经元节点所映射的全部特征扩展向量的均值;
3、所述的文档语义特征扩展的具体措施可以为:
1)找到文中重要的内容词,找到每个重要内容词所映射的上位概念,将其上位概念词放到概念向量中;
2)将每个重要内容词的领域相关词,将领域相关的代表词放到概念向量中;
4、所述的词一级的语义扩展主要利用词的相似性和相关性,将具有同义或者近义关系的词扩展为一个公共词,而具有较强相关性的词则扩展为能覆盖其公共特征的词。
本发明的技术特点有:一、利用知识词典,给出上位概念词扩展和相关词扩展技术;二、基于步骤一的词扩展方法,从文档中抽取出若干关键词进行语义扩展并据此构造扩展特征空间;三、在聚类中融入扩展特征相似度,以提高聚类系统的语义敏感能力,较好的应对由于语言表达复杂多样性所带来的不利影响,满足在不同粒度下观察文本信息的要求;四、给出了特征量化技术与具体聚类算法相结合的具体措施。
本发明的方法采用了语义扩展技术,其基本原理是对文档中提取的若干关键词(小于10个)进行上位概念扩展或者相关性映射,由于相同文档或者不同文档中的不同词映射的上位概念词可能会相同,且相关性映射存在对称关系,因此扩展特征空间的维数远小于传统特征空间,使得本发明方法不但可以较好的取得变粒度聚类的实际效果,且其对聚类效率影响也被降低到最低点。
本发明的方法克服了传统文本聚类方法采用VSM(vector space model,向量空间模型)方法由于量化过于粗糙导致变粒度文本聚类效果较差的问题。一个明显的进步是在较大粒度聚类情况下,聚类F值较同类方法有明显提高。
聚类F值的计算方法:用聚类F值对文档聚类的综合质量进行评价。对于聚类生成的某一个聚类类别r和原来的预定类别s,召回率recall和精确率precision的定义分别为:
recall(r,s)=n(r,s)/ns              (1)
precision(r,s)=n(r,s)/nr           (2)
其中n(r,s)是聚类后的类别r和预定义类别s中的公共文档个数。nr是聚类类别r中的文档个数,ns是预定义类别s中的文档个数。定义F(r,s)为
F(r,s)=(2*recall(r,s)*precision(r,s))/((precison(r,s)+recall(r,s))        (3)
则聚类结果的总体评价函数为
F = Σ i n i n max { F ( i , j ) } - - - ( 4 )
这里,n是聚类的输入文档个数。而ni表示预定义类别i中的文档个数。
(四)附图说明
图1是文档关键词集合的概念扩展原理示意图;
图2是词与词之间的相似关系示意图;
图3是文档与文档之间的相似关系示意图。
(五)具体实施方式
下面结合图1至图3和具体实施例对本发明作进一步的说明:
本实施例的方法通过下述步骤实现:
一、文档关键词的概念扩展(如图1所示)。利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合。例如,如果文档中出现“花卉”、“兰花”、“杜鹃”、“茶花”、“玫瑰”、“水仙”、“菊花”、“喇叭花”、“夹竹桃”、“灯芯草”之一,则由于其都可以视为一种花卉,因此可以映射为“花卉”一词;
虽然从表面上看,词语的语义扩展将词从一个元素个数较多的集合映射到另一个元素个数较少的集合,会丢失一些词的个性特征信息,但通过扩展,抓住了词与词之间的相近或相关等特征,从而反映了一些共性的特征,这与文本聚类技术的目标是一致的。
知网可以在处理概念的相关性问题上为文本聚类提供更加丰富的资源支持,因此可以与词林的作用互相补充。按照相关程度的大小,知网提供了最多三层的相关概念场方案:对于知网中收录的词,在指定相关概念场层级数后,可以得到在该层级下与该词条相关的所有词语。其中第一层下的词语相关程度较强,而其他二层下的关联关系则较弱,因此考虑到文本聚类的实际应用需要,选择知网中词条到第一层相关词的映射关系作为特征扩展的另外一个知识源。在知网的相关概念场方案中,相关词在多数情况下存在对偶关系,即在层级确定情况下对于该集合中的任意一个概念词,获取的相关词集合一般仍为此集合。如果同一文档中存在多个彼此比较相关的词,则其映射的相关词集合的代表词也相同,因此可以选择满足映射关系的相关词集合中的第一个词作为概念相关的代表词。
通过这种处理,每个文档除了目前普遍被采用的用于体现文档间公共词条关系的单纯词频向量外,本发明增加了一个用于捕捉文档间语义联系的特征扩展向量。因此文本聚类所对应的聚类特征空间也增加了一个特征扩展空间。
二.特征表示和相似度计算:词与词之间的相似度可以理解为其公共特征的重合度有多大。结合图2,图2为词与词之间的相似度可以简单理解为特征的重合度。两个词之间的特征重合度越大,其相似度越大。推而广之,文本聚类应用中文档之间(以及文档簇之间)的相似度大小也可以通过考察文档之间公共特征的多少来判定。
通过引入基于特征扩展的概念空间,可以使文档之间的共性信息得以在文本聚类中得以体现,有助于克服目前普遍采用的单纯将词频信息作为文本主要特征的做法的不足。此外,这二种不同的聚类特征空间在文本聚类中的作用也是可以互相补充的。
为了与传统的文档相似度计算方法兼容,通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度。例如,可以定义文档d1和d2的综合相似度sim(d1,d2)为
sim(d1,d2)=γ*sim1(d1,d2)+(1-γ)sim2(d1,d2)      (5)
其中,sim1(d1,d2)和sim2(d1,d2)可以通过余弦公式或者其他相似度计算方法获得,此外也可以用于计算文档与文档簇之间的相似度。公式右边第一项为采用传统词频向量空间计算得到的相似度,第二项为在特征扩展空间计算得到的相似度。γ的主要作用是调节sim1(d1,d2)和sim2(d1,d2)的权重,即调节语义知识的影响程度和聚类处理的粒度。当γ=0时,只将在特征扩展空间上的相似度作为聚类的距离测度,相当于在较大的粒度和在较宏观的层面观察文档集合;当γ=1时,公式(1)蜕变为只将基于词频的文档相似度作为聚类的距离测度,此时系统蜕化为原来的传统模式,因此特征扩展的模式与其它模式是兼容的。
结合图3,文档与文档之间的相似度可以理解为特征的重合度。特征的重合度越大,其相似度越大。图中文档D1和D4虽然没有发生表面上的部分重合,但却可能通过语义公共特征的挖掘拉近彼此的距离,此外,在聚类过程中,某些文档如D1、D2、D3会由于距离某个节点较近而被聚在一起,并使节点反映出这些文档的部分特征,从而会拉近另外一些文档如D4与该节点的距离,并最终使D1、D2、D3和D4被映射到同一节点上。其它文档如D5和D6由于与前几个文档没有公共特征或者较少公共特征,与D1、D2、D3和D4的距离不会被拉近,因此最终仍然保持分离状态。
三.本发明中涉及的变粒度文本聚类特征量化技术与具体聚类算法的结合使用方法:
以与SOM模型(Self organizing maps,动态自组织映射模型)相结合为例,介绍本发明中涉及的变粒度文本聚类特征量化技术与具体聚类算法的结合使用方法。SOM与众所周知的k-means方法具有某种共同之处,经过充分训练,SOM的输出层的节点成为对特定模式类敏感的神经细胞,对应的向量则成为各个输入模式类的中心向量,因此可以起到聚类作用。
在特征扩展模式下,网络结构中的文档和神经元都可以表示成两个空间上的向量。其中文档在两个空间(词频空间和扩展特征空间)上的向量构造方法和相似度计算方法可以如前文所示。每个神经元在两种不同特征空间上的向量构造可以与标准SOM方法完全相同,即都初始化为随机小数构成的向量。在模型训练过程中网络结构的动态更新时,网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值。模型训练结束后,每个神经元对应两个向量,一个为这个神经元节点所映射的全部文档词频向量的均值;另外一个是这个神经元节点所映射的全部特征扩展向量的均值。两者反映了该神经元节点所映射的全部文档的共性信息。
从具体结合方案来看,特征扩展思想与聚类系统具有较强的独立性,因此本发明中涉及的变粒度文本聚类特征量化技术实际上可以非常容易的应用到其他聚类系统中。
本发明的应用过程是:用户输入检索词给搜索引擎,搜索引擎通过检索将找到的结果返回,这些返回的文档将作为本发明聚类方法的输入,使得返回的结果被分类处理,通过调节参数,可以调节聚类处理的粒度,进而方便用户从不同的角度进行观察和检索所需文档,改善了可视化效果,从而提高检索效率。

Claims (5)

1、一种变粒度文本聚类的特征量化方法,其特征在于它通过下述步骤实现:1)文档关键词的概念扩展,利用知网,将文档中的关键词集合扩展为另外一个具有更高语义覆盖能力的概念词集合;2)特征表示和相似度计算:词与词之间的相似度为其公共特征的重合度有多大,文本聚类应用中文档之间以及文档簇之间的相似度大小也可以通过考察文档之间公共特征的多少来判定;3)变粒度文本聚类特征量化技术与具体聚类算法进行结合使用,达到变粒度聚类的效果。
2、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的通过综合单纯基于词频的相似度和基于特征扩展策略的相似度来计算两篇文档的综合相似度,定义文档d1和d2的综合相似度sim(d1,d2)为
sim(d1,d2)=γ*sfm1(d1,d2)+(1-γ)sim2(d1,d2)。
3、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的每个神经元在两种不同特征空间上的向量构造与标准SOM方法完全相同,即都初始化为随机小数构成的向量,在模型训练过程中网络结构的动态更新时,网络结构调整和神经元向量的调整反映的是两个不同空间的语义相似度的线型加权值,模型训练结束后,每个神经元对应两个向量,一个为这个神经元节点所映射的全部文档词频向量的均值;另外一个是这个神经元节点所映射的全部特征扩展向量的均值。
4、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的文档语义特征扩展的具体措施可以为:
1)找到文中重要的内容词,找到每个重要内容词所映射的上位概念,将其上位概念词放到概念向量中;
2)将每个重要内容词的领域相关词,将领域相关的代表词放到概念向量中。
5、根据权利要求1所述的一种变粒度文本聚类的特征量化方法,其特征在于所述的词一级的语义扩展主要利用词的语义关系,将具有较强相关性的词则扩展为能覆盖其公共特征的词。
CNA2008102095250A 2008-11-26 2008-11-26 一种变粒度文本聚类的特征量化方法 Pending CN101436201A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008102095250A CN101436201A (zh) 2008-11-26 2008-11-26 一种变粒度文本聚类的特征量化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008102095250A CN101436201A (zh) 2008-11-26 2008-11-26 一种变粒度文本聚类的特征量化方法

Publications (1)

Publication Number Publication Date
CN101436201A true CN101436201A (zh) 2009-05-20

Family

ID=40710639

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008102095250A Pending CN101436201A (zh) 2008-11-26 2008-11-26 一种变粒度文本聚类的特征量化方法

Country Status (1)

Country Link
CN (1) CN101436201A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102708154A (zh) * 2012-04-20 2012-10-03 北京邮电大学 应用于搜索引擎的分词网设计方法与亲近度计算方法
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108108345A (zh) * 2016-11-25 2018-06-01 上海掌门科技有限公司 用于确定新闻主题的方法与设备
CN110612524A (zh) * 2017-06-16 2019-12-24 日铁系统集成株式会社 信息处理装置、信息处理方法以及程序
CN112990388A (zh) * 2021-05-17 2021-06-18 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853272A (zh) * 2010-04-30 2010-10-06 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN101853272B (zh) * 2010-04-30 2012-07-04 华北电力大学(保定) 基于相关反馈和聚类的搜索引擎技术
CN102708154A (zh) * 2012-04-20 2012-10-03 北京邮电大学 应用于搜索引擎的分词网设计方法与亲近度计算方法
CN108090077A (zh) * 2016-11-23 2018-05-29 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108090077B (zh) * 2016-11-23 2021-08-31 中国科学院沈阳计算技术研究所有限公司 一种基于自然语言检索的综合相似度计算方法
CN108108345A (zh) * 2016-11-25 2018-06-01 上海掌门科技有限公司 用于确定新闻主题的方法与设备
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN106611052B (zh) * 2016-12-26 2019-12-03 东软集团股份有限公司 文本标签的确定方法及装置
CN110612524A (zh) * 2017-06-16 2019-12-24 日铁系统集成株式会社 信息处理装置、信息处理方法以及程序
CN110612524B (zh) * 2017-06-16 2023-11-10 日铁系统集成株式会社 信息处理装置、信息处理方法以及记录介质
CN112990388A (zh) * 2021-05-17 2021-06-18 成都数联铭品科技有限公司 基于概念词的文本聚类方法
CN113220845A (zh) * 2021-05-26 2021-08-06 鲁东大学 基于深度语义的多语言文本细粒度精准对齐方法

Similar Documents

Publication Publication Date Title
CN101436201A (zh) 一种变粒度文本聚类的特征量化方法
US10289700B2 (en) Method for dynamically matching images with content items based on keywords in response to search queries
US10489448B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
US7996392B2 (en) Changing ranking algorithms based on customer settings
US20170323199A1 (en) Method and system for training and neural network models for large number of discrete features for information rertieval
US10157201B2 (en) Method and system for searching for and providing information about natural language query having simple or complex sentence structure
US20070203790A1 (en) User to user recommender
JP7082147B2 (ja) エンティティを推奨する方法及び装置、電子機器、コンピュータ読み取り可能な媒体
AU2011242753A1 (en) Product synthesis from multiple sources
CN103975323A (zh) 搜索结果的基于原型的重排名
CN108399213B (zh) 一种面向用户个人文件的聚类方法及系统
US10235387B2 (en) Method for selecting images for matching with content based on metadata of images and content in real-time in response to search queries
Trevisani et al. A portrait of JASA: the History of Statistics through analysis of keyword counts in an early scientific journal
US8484202B2 (en) Optimizing blending algorithms using interleaving
US20130054566A1 (en) Acceleration of ranking algorithms using a graphics processing unit
US20170255653A1 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US20170124206A1 (en) High precision set expansion for large concepts
CN103810159A (zh) 计算机翻译数据处理方法、系统及终端
Choi et al. Multimodal location estimation of consumer media: Dealing with sparse training data
Shemshadi et al. Ecs: A framework for diversified and relevant search in the internet of things
Kotzias et al. Addressing the Sparsity of Location Information on Twitter.
Yang et al. Profiling and pairing catchments and hydrological models with latent factor model
WO2016144360A1 (en) Progressive interactive approach for big data analytics
Andres Data Engineering Challenges in Intelligent Food and Cooking Recipes
WO2021221828A1 (en) Assessing similarity between items using embeddings produced using a distributed training framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090520