CN105159998A - 一种基于文档聚类关键词计算方法 - Google Patents

一种基于文档聚类关键词计算方法 Download PDF

Info

Publication number
CN105159998A
CN105159998A CN201510566216.9A CN201510566216A CN105159998A CN 105159998 A CN105159998 A CN 105159998A CN 201510566216 A CN201510566216 A CN 201510566216A CN 105159998 A CN105159998 A CN 105159998A
Authority
CN
China
Prior art keywords
document
entry
vector
collection
calculation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510566216.9A
Other languages
English (en)
Inventor
周辉
段玉聪
叶春杨
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN201510566216.9A priority Critical patent/CN105159998A/zh
Publication of CN105159998A publication Critical patent/CN105159998A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于文档聚类关键词计算方法,所述方法包括(1)获取文本文档集合;(2)将文档集合中各文档内容采用分词算法进行词条切分;(3)建立文档向量;(4)采用TF-IDF计算文档向量:(5)对文档向量进行维度压缩;(6)进行文档聚类计算;(7)计算各组文档的代表性关键词。本发明的有益效果为:本发明提供了完整可行的计算步骤,并创新性地支持文档向量维度的压缩,计算效率高。本发明在执行文档向量的降维处理时,采用了不同于任何现有技术的一种简洁、高效的新方法。本发明是首个连接不同的环节,以切实可行的计算步骤,确保从文档集合中计算出代表性关键词的技术方案。

Description

一种基于文档聚类关键词计算方法
技术领域
本发明属于计算机数据挖掘领域,具体涉及一种基于文档聚类关键词计算方法。
背景技术
在互联网行业中,用户往往会采用关键词组的查找,找出能代表其兴趣浏览的文章。现有技术中,都是把给定的文档集合当成一个完整的不可分割的整体,并在其上计算代表性关键词。典型应用包括新闻网站的个性化阅读系统,能根据用户所浏览的新闻,计算出代表用户兴趣的一组关键词,并基于这组关键词推荐新的文章。但事实上,一个用户的兴趣往往包含多个方面,是分散的。因此,对应的文档集合可以划分为若干组文档,每组对应着用户的一个兴趣点,且每一组内部的文档之间相关性很高,但不同组的文档之间则相关性较低。
通常情况下,一篇文章的特征是通过一组词来表示的,一个文档集合可能包含若干文章,每篇文章包含成百上千个词条,因此最后算下来,整个文档集合包含了成千上万个不同的特征(词)。如此高维度的特征空间(文档向量空间),不仅会增加聚类算法的处理时间,而且对算法的精度会产生不良的影响,因此在聚类之前,需要对文档的向量空间做降维处理。现有的技术中,包括分词、文档向量化,聚类等技术都已经在机器学习(文本挖掘)领域有专门的讨论。如何从给定的文档集合中,挖掘出代表性关键词也已经有不少应用。但是,如何整合一系列的技术,对文档集合做进一步的细化分组,并在分组上做代表性关键词的挖掘,却并没有具体的技术方案去实施。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基于文档聚类关键词计算方法。基于文档聚类的代表性关键词计算,其目的是在给定的文档集合中,通过中文分词、词频计算、文档向量的维度压缩、聚类等操作,将文档划分到若干个组中,每个组包含了紧密相关的一部分文档,然后计算出每个组的代表性关键词,最终组合成整个文档集合的代表性关键词。
本发明所采用的技术方案为:
一种基于文档聚类关键词计算方法,其改进之处在于:所述方法包括
(1)获取文本文档集合;
(2)将文档集合中各文档内容采用分词算法进行词条切分;
(3)建立文档向量;
(4)采用TF-IDF计算文档向量:
(5)对文档向量进行维度压缩;
(6)进行文档聚类计算;
(7)计算各组文档的代表性关键词。
优选的,所述步骤(1)包括不限制文档集合的来源,可为一个或多个文档组成的集合,每个文档取出其中包含的正文文本,用以代表这个文档的内容。
进一步的,对图片、声音和视频多媒体文件的处理,则对其中包含的文本信息来组成集合。
优选的,所述步骤(2)包括采用任意中文或英文分词算法,将文本文档的内容做词条的切分;同时,去除标点符号,并去除哦、了、么和其他虚词。
优选的,所述步骤(3)包括将步骤(1)中文档集合中N个文档,步骤(2)中文档集合中各文档经过分词包含的M个词条,整个文档集合建立文档向量;其中,所述M个词条采用拼音顺序进行排序。
优选的,所述步骤(4)包括采用TF-IDF这种统计方法,用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
优选的,所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中,某个词条的出现率大于0,则该文档包含对应的词条,通过词条的出现率选取文档集合的代表性词条。
进一步的,所述文档向量中包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个,以此类推,第M个词条的文档数量为NM;将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x所对应的词条,为本文档集合的代表性词条,其中,松散参数为x可根据用户设定修改。
优选的,所述步骤(6)包括对文档向量做维度压缩后,执行K-Means聚类算法,需要聚集而成的类数量个数设为C;其中,分组个数C需要用户在执行聚类计算前设置好,用户可根据分类的效果进行调整。
优选的,所述步骤(7)包括对C个分组的文档,再次执行步骤(4)中的操作,分别计算出每个分组的TF-IDF文档向量;对计算后文档向量排序,则可得文档分组中TF-IDF值最高词,最终组合成整个文档集合的代表性关键词。
本发明的有益效果为:
本发明提供了完整可行的计算步骤,包括获取文档集合、中文分词、TF-IDF计算、文档向量化、维度压缩、聚类、一直到最后的推荐关键词计算等所有必须的环节,并创新性地支持文档向量维度的压缩,计算效率高。
本发明在执行文档向量的降维处理时,采用了不同于任何现有技术的一种简洁、高效的新方法。
现有技术方案往往侧重与论述某一个技术环节。每一个环节,都较为独立且有不同的应用场景;本发明是首个连接不同的环节,以切实可行的计算步骤,确保从文档集合中计算出代表性关键词的技术方案。
附图说明
图1是本发明提供的一种基于文档聚类关键词计算方法流程示意图。
具体实施方式
本发明所涉及技术及其注解:
1、文本聚类:
文本聚类(TextClustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。文本聚类,可以将一个相对较大的文档集合,划分成若干个子类,从而将相似的文档组织在同一个类里。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段。
文本聚类技术的应用主要有:
对用户感兴趣的文档(如用户浏览过的新闻或商品)执行聚类操作,从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。
作为自然语言处理应用的预处理步骤。例如哥伦比亚大学研发的多文档文摘系统Newsblaster。Newsblaster将每天发生的重要新闻文本进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。
常见的文本聚类算法有划分法(代表性算法是K-Means)、层次法(代表性算法是BIRCH)、基于密度的方法(代表性算法是DBSCAN)等。
2、中文分词:
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
中文在基本文法上有其特殊性,具体表现在:
中文词与词之间无明显分隔。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词条之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准。同样的,“生物化学”是一个词还是两个词,即使是同一个人也可能在不同的场景下做出不同判断。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。因此,虽然计算机无法理解某一句话的含义,但其可以通过中文分词,把其中的词条提取出来,进而在词条这个统一的单位上执行统计计算,实现一定程度的机器学习和文本挖掘功能。
3、TF-IDF计算:
TF-IDF是一种统计方法,用以评估一个词对于一个文档集合中的其中一份文档的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。这意味着,字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是:TF*IDF。TF词频(TermFrequency),IDF逆向文档频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。
假如一篇文档的总词条数是100个,而词条“母牛”出现了3次,那么“母牛”一词在该文档中的词频就是3/100=0.03。一个计算文档频率(IDF)的方法是测定有多少份文档出现过“母牛”一词,然后除以文档集合里包含的文档总数。所以,如果“母牛”一词在1,000份文档出现过,而文档总数是10,000,000份的话,其逆向文档频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。
4、K-Means算法:
k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-Means算法流程:
首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
如图1所示,本发明提供了一种基于文档聚类关键词计算方法,具体方法如下:
第一步:获取文本文档集合:
进行深入的信息挖掘,需由一个或多个文档组成的集合。文档集合的来源,是多样化的,没有限制的。无论是用户的阅读记录,或是往来的电子邮件,或是出于某种考虑被放置在某个文件夹下的文档都可以。每个文档,取出其中包含的正文文本,用以代表这个文档的内容。另外,在这个过程中,对图片、声音、视频等多媒体文件的处理,主要是针对其中包含的文本信息来进行的。
例如,从某用户当天阅读的新闻中,随机取出10篇新闻内容,形成如下文档集合(示例仅含标题,正文略):
文档1:微信电话本,再探运营商底线;
文档2:别让“抄袭风”毁了微信平台;
文档3:马化腾会是传统电信运营商的掘墓人吗;
文档4:响应“移动电商创新工程”惠及上海中小企业战略转型;
文档5:支付宝红包遭微信封杀;
文档6:阿里上线淘WiFi应用,可在全国600万个热点免费上网;
文档7:想在飞机上用WiFi?天价收费让人望而却步;
文档8:免费WiFi:互联网巨头的新战场;
文档9:微信圈广告噱头深精准浅;
文档10:授权与专利:诺基亚重返平板意欲何为?
其中,本实施例为方便理解,仅提供文档的标题。一般的文本分析中,标题与正文内容组成了文档主体;本发明适用于任意长度的标题和正文。
第二步:将文本文档中内容采用分词算法进行词条切分:
在确定了文档集合后,需要对集合中的每一个文档进行分词操作。现今的分词算法已经有很多,本步骤允许采用任意中文(英文)分词算法,只要其能将文本文档的内容做词条的切分即可。其中,分词越准确,则后续的处理就越准确。本实施例中,使用现成的逆向最大匹配算法,基于某个维护好的词典,将文档里的词分离出来。同时,文本分词还要能够去除标点符号,并去除哦、了、么等“虚词”。
正向匹配算法示例:
文本:小明喜欢研究生物化学;
结果:小明喜欢研究生物化学;
逆向匹配算法示例:
文本:小明喜欢研究生物化学;
结果:化学生物研究喜欢小明。
第三步:初步建立文档向量:
由于每个文档所包含的词,与其他文档或多或少都会存在不同,因此,建立文档向量,既能表示文档集合的所有的词,又能表示每个文档是否包含这个词,以及该词在文档中出现了多少次。其中,某文档集合中包含N个文档,M个词,则每个文档都用一个M维的向量来表示,整个文档集合用一组向量(N*M)来表示。
经过分词,前面的文档集合共包含55个词条(不含单字词):
重返、掘墓、平板、在全国、万个、中小、巨头、专利、传统、红包、会是、电话本、企业战略、创新、上用、战场、上线、转型、精准、毁了、互联网、电商、免费、底线、响应、想在、免费上网、电信、望而却步、移动、让人、诺基亚、意欲何为、广告、工程、封杀、天价、平台、授权、微信、惠及、飞机、马化腾、阿里、运营商、别让、应用、抄袭、噱头、支付宝、热点、上海、wifi、收费、人吗;
将所有关键词按照字典顺序(拼音)排序:
Wifi、阿里、别让、抄袭、传统、创新、底线、电话本、电商、电信、飞机、封杀、工程、广告、红包、互联网、毁了、会是、惠及、精准、巨头、掘墓、马化腾、免费、免费上网、诺基亚、平板、平台、企业战略、让人、热点、人吗、上海、上线、上用、收费、授权、天价、万个、望而却步、微信、响应、想在、噱头、移动、意欲何为、应用、运营商、在全国、战场、支付宝、中小、重返、专利、转型;
文档1:“微信电话本,再探运营商底线”包含了微信、电话本、运营商、底线四个词条。之所以不包含再探这个词条,是因为分词所采用的词典中,并没有收录“再探”。当然,如果词典中加入了缺失的词,则分词结果中就包含该词。但再探是否能作为某个词条,在不同的应用环境中,有不同的定义,在此我们姑且认为“再探”不是一个词。而单字“再”和单字“探”,并不在我们的考虑中(这里为简化起见,仅考虑多字词,但本发明适用于单字词的情况)。
因此,文档1在微信(第41)、电话本(第8)、运营商(第48)、底线(第7)这4个分量上取值为1,其他分量取值为0。因此文档1对应的向量是
[0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0];
类似的,文档2包含了“别让”、“抄袭”、“毁了”、“微信”、“平台”共5个词条,对应的文档向量为
[0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
文档1-10共10个55维的向量,就构成了整个文档集合的向量空间。
第四步:计算出TF-IDF文档向量:
第三步中获得的文档向量,是常见的计数向量,即可以表示某词条在该文档中出现的次数。同样的,文档还可以拥有其他类型的向量,如词频TF、逆向文档向量IDF、以及非常重要的TF-IDF向量;
采用TF-IDF这种统计方法,用以评估某个词条对于文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
假如一篇文档的词条总共有10个,而“微信”出现了3次,那么“微信”一词在该文档中的词频就是3/10=0.3。一个计算文档频率的方法是测定有多少份文档出现过“微信”一词,然后除以文档集合里包含的文档总数。所以,如果“微信”一词在5份文档出现过,而文档总数是10份的话,其逆向文档频率就是log(10/5)=0.3010。最后的TF-IDF的分数为0.3*0.3010=0.0903。
经过计算,我们可以获得10个55维的TF-IDF文档向量。
第五步:对文档向量进行维度压缩:
现有的聚类算法,基本上都存在一个比较严重的问题,当文档向量M的维度太高时(M远大于文档数量N),聚类的效果会非常差。在一般的情况下,100篇新闻的文档集合,能够包含的词数量将在3000~20000个左右。这导致的问题是维度爆炸:每一个词就代表一个维度,维度过多,文档聚类的效果会很差。如果100个新闻聚成5个类,则往往其中4个类都只包含1个文档,剩下的最后一个类包含了96个文档,这样的聚类效果基本不可用。
即使是示例中的10篇仅有标题的文档,其包含了55个不同的词(维度),在使用聚类算法K-Means++后(设置为分成3个类),获得的3个类分别包含1、1、8个文档。事实上,最后一个类中的8个文档,并不是紧密相关的。但是,采用以下方法把向量空间的维度压缩到20个时,获得的3个类分别包含3、3、4个文档。从用户的角度,本示例的10个文档其实含义是相对分散的,因此3:3:4的聚类效果,相比于1:1:8明显更为合理。
本发明采用一种计算简单,配置方便的维度压缩技术:
假设集合中文档数量为N,该文档集合共包含词条M个,松散参数为x。对于所有的文档向量,如果某分量大于0(某个词条的出现率大于0),意味则该文档包含对应的词条,那么包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个。以此类推,包含最后的第M个词条的文档数量为NM
将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x个分量(示例中N=10,x=2,则N*x=20),这些分量所对应的词条,就是本文档集合的代表性词条。后续的聚类计算,将只采用这N*x个分量。
第六步:进行文档聚类计算
在对文档向量做维度压缩后,执行现有的聚类算法(如K-Means++),其中,需要聚集而成的类数量为C(C=3),聚类结果为:
第1组:
文档1:微信电话本,再探运营商底线;
文档2:别让“抄袭风”毁了微信平台;
文档9:微信圈广告噱头深精准浅;
第2组:
文档6:阿里上线淘WiFi应用可在全国600万个热点免费上网;
文档7:想在飞机上用WiFi?天价收费让人望而却步;
文档8:免费WiFi:互联网巨头的新战场;
第3组:
文档3:马化腾会是传统电信运营商的掘墓人吗;
文档4:响应“移动电商创新工程”惠及上海中小企业战略转型;
文档5:支付宝红包,遭微信封杀;
文档10:授权与专利:诺基亚重返平板意欲何为?
需要注明的是,分组个数是需要用户(技术实现者)在执行聚类计算前设置好的,用户可根据分类的效果,来调整。在本实施例中,设置C=3。
第七步:计算各组文档的代表性关键词:
对C个分组的文档,再次执行第四步中采用TF-IDF计算文档向量操作,分别计算出每个分组的TF-IDF文档向量。事实上,根据TF-IDF的定义,TF已经计算过一次,因此是不需要重新计算的。由于将每个文档分组都看成一个独立的文档集合,因此IDF的数值会发生变化,于是TF*IDF数值也会发生变化,需要重新计算。
对此文档向量排序,则得知第1个文档分组中TF-IDF值最高的词是(此处,我们的做法与传统的TF-IDF计算不同之处在于,如果某个词条的文档频率TF很高,则即使其最终的TF-IDF值较低,也将选出作为代表性关键词):
微信
同样的,可得知第2个文档分组的代表性关键词是:
WiFi、免费
第3个文档分组的代表性关键词是:
运营商
于是,整个文档集合的代表性关键词组为:微信、WiFi、免费、运营商;
计算出的每个组代表性关键词,最终组合成整个文档集合的代表性关键词。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。

Claims (10)

1.一种基于文档聚类关键词计算方法,其特征在于:所述方法包括
(1)获取文本文档集合;
(2)将文档集合中各文档内容采用分词算法进行词条切分;
(3)建立文档向量;
(4)采用TF-IDF计算文档向量:
(5)对文档向量进行维度压缩;
(6)进行文档聚类计算;
(7)计算各组文档的代表性关键词。
2.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(1)包括不限制文档集合的来源,可为一个或多个文档组成的集合,每个文档取出其中包含的正文文本,用以代表这个文档的内容。
3.根据权利要求2所述的一种基于文档聚类关键词计算方法,其特征在于:对图片、声音和视频多媒体文件的处理,则对其中包含的文本信息来组成集合。
4.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(2)包括采用任意中文或英文分词算法,将文本文档的内容做词条的切分;同时,去除标点符号,并去除哦、了、么和其他虚词。
5.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(3)包括将步骤(1)中文档集合中N个文档,步骤(2)中文档集合中各文档经过分词包含的M个词条,整个文档集合建立文档向量;其中,所述M个词条采用拼音顺序进行排序。
6.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(4)包括采用TF-IDF这种统计方法,用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
7.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中,某个词条的出现率大于0,则该文档包含对应的词条,通过词条的出现率选取文档集合的代表性词条。
8.根据权利要求7所述的一种基于文档聚类关键词计算方法,其特征在于:所述文档向量中包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个,以此类推,第M个词条的文档数量为NM;将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x所对应的词条,为本文档集合的代表性词条,其中,松散参数为x可根据用户设定修改。
9.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(6)包括对文档向量做维度压缩后,执行K-Means聚类算法,需要聚集而成的类数量个数设为C;其中,分组个数C需要用户在执行聚类计算前设置好,用户可根据分类的效果进行调整。
10.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(7)包括对C个分组的文档,再次执行步骤(4)中的操作,分别计算出每个分组的TF-IDF文档向量;对计算后文档向量排序,则可得文档分组中TF-IDF值最高词,最终组合成整个文档集合的代表性关键词。
CN201510566216.9A 2015-09-08 2015-09-08 一种基于文档聚类关键词计算方法 Pending CN105159998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510566216.9A CN105159998A (zh) 2015-09-08 2015-09-08 一种基于文档聚类关键词计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510566216.9A CN105159998A (zh) 2015-09-08 2015-09-08 一种基于文档聚类关键词计算方法

Publications (1)

Publication Number Publication Date
CN105159998A true CN105159998A (zh) 2015-12-16

Family

ID=54800854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510566216.9A Pending CN105159998A (zh) 2015-09-08 2015-09-08 一种基于文档聚类关键词计算方法

Country Status (1)

Country Link
CN (1) CN105159998A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105657575A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置
CN106054857A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于维修决策树/词向量的故障远程诊断平台
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN108062610A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 工作相关性的分析方法及装置
CN108153738A (zh) * 2018-02-10 2018-06-12 灯塔财经信息有限公司 一种基于层次聚类的聊天记录分析方法和装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置
CN110688349A (zh) * 2019-08-29 2020-01-14 重庆小雨点小额贷款有限公司 一种文档整理方法、装置、终端及计算机可读存储介质
CN110929517A (zh) * 2019-11-28 2020-03-27 海南大学 地理位置定位方法、系统、计算机设备和存储介质
CN111191255A (zh) * 2019-08-08 2020-05-22 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN112487181A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词确定方法和相关设备
CN112612870A (zh) * 2020-12-11 2021-04-06 广东电力通信科技有限公司 一种非结构化数据管理方法
CN114416890A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 异构知识点一体化表示、存储、检索、生成及交互方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101102A1 (en) * 2004-11-09 2006-05-11 International Business Machines Corporation Method for organizing a plurality of documents and apparatus for displaying a plurality of documents
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN104156440A (zh) * 2014-08-12 2014-11-19 东南大学 一种基于微博的交通数据获取方法
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060101102A1 (en) * 2004-11-09 2006-05-11 International Business Machines Corporation Method for organizing a plurality of documents and apparatus for displaying a plurality of documents
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN103530316A (zh) * 2013-09-12 2014-01-22 浙江大学 一种基于多视图学习的科学主题提取方法
CN104536956A (zh) * 2014-07-23 2015-04-22 中国科学院计算技术研究所 一种基于微博平台的事件可视化方法及系统
CN104156440A (zh) * 2014-08-12 2014-11-19 东南大学 一种基于微博的交通数据获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘荣辉: "Deep Web下基于中文分词的聚类算法", 《计算机工程与应用》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105657575B (zh) * 2015-12-30 2018-10-19 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105657575A (zh) * 2015-12-30 2016-06-08 北京奇艺世纪科技有限公司 视频标注方法和装置
CN105787004A (zh) * 2016-02-22 2016-07-20 浪潮软件股份有限公司 一种文本分类方法及装置
CN106054857A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 基于维修决策树/词向量的故障远程诊断平台
CN106250526A (zh) * 2016-08-05 2016-12-21 浪潮电子信息产业股份有限公司 一种基于内容及用户行为的文本类推荐方法和装置
CN106250372A (zh) * 2016-08-17 2016-12-21 国网上海市电力公司 一种用于电力系统的中文电力数据文本挖掘方法
CN108062610A (zh) * 2016-11-08 2018-05-22 北京国双科技有限公司 工作相关性的分析方法及装置
CN107301199A (zh) * 2017-05-17 2017-10-27 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107301199B (zh) * 2017-05-17 2021-02-12 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN108304442A (zh) * 2017-11-20 2018-07-20 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置及存储介质
CN108153738A (zh) * 2018-02-10 2018-06-12 灯塔财经信息有限公司 一种基于层次聚类的聊天记录分析方法和装置
CN109299328A (zh) * 2018-12-03 2019-02-01 广州华多网络科技有限公司 一种视频搜索方法、服务器、客户端及存储介质
CN110389932A (zh) * 2019-07-02 2019-10-29 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置
CN110389932B (zh) * 2019-07-02 2023-01-13 华北电力科学研究院有限责任公司 电力文件自动分类方法及装置
CN111191255A (zh) * 2019-08-08 2020-05-22 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN111191255B (zh) * 2019-08-08 2024-04-05 腾讯科技(深圳)有限公司 信息加密处理的方法、服务器、终端、设备以及存储介质
CN110688349A (zh) * 2019-08-29 2020-01-14 重庆小雨点小额贷款有限公司 一种文档整理方法、装置、终端及计算机可读存储介质
CN110688349B (zh) * 2019-08-29 2023-05-26 重庆小雨点小额贷款有限公司 一种文档整理方法、装置、终端及计算机可读存储介质
CN112487181B (zh) * 2019-09-12 2024-02-13 北京国双科技有限公司 关键词确定方法和相关设备
CN112487181A (zh) * 2019-09-12 2021-03-12 北京国双科技有限公司 关键词确定方法和相关设备
CN110929517A (zh) * 2019-11-28 2020-03-27 海南大学 地理位置定位方法、系统、计算机设备和存储介质
CN110929517B (zh) * 2019-11-28 2023-04-18 海南大学 地理位置定位方法、系统、计算机设备和存储介质
CN111259154B (zh) * 2020-02-07 2021-04-13 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111259154A (zh) * 2020-02-07 2020-06-09 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN111651596A (zh) * 2020-05-27 2020-09-11 软通动力信息技术有限公司 一种文本聚类的方法、装置、服务器及存储介质
CN112612870A (zh) * 2020-12-11 2021-04-06 广东电力通信科技有限公司 一种非结构化数据管理方法
CN112612870B (zh) * 2020-12-11 2023-12-01 广东电力通信科技有限公司 一种非结构化数据管理方法及系统
CN112464638A (zh) * 2020-12-14 2021-03-09 上海爱数信息技术股份有限公司 一种基于改进谱聚类算法的文本聚类方法
CN114416890A (zh) * 2022-01-21 2022-04-29 中国人民解放军国防科技大学 异构知识点一体化表示、存储、检索、生成及交互方法

Similar Documents

Publication Publication Date Title
CN105159998A (zh) 一种基于文档聚类关键词计算方法
US20200320086A1 (en) Method and system for content recommendation
Mitra Exploring session context using distributed representations of queries and reformulations
Rousseau et al. Main core retention on graph-of-words for single-document keyword extraction
CN106649455B (zh) 一种大数据开发的标准化系统归类、命令集系统
US10515125B1 (en) Structured text segment indexing techniques
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Rizzo et al. NERD meets NIF: Lifting NLP Extraction Results to the Linked Data Cloud.
US8484228B2 (en) Extraction and grouping of feature words
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN101876981B (zh) 一种构建知识库的方法及装置
US20110295857A1 (en) System and method for aligning and indexing multilingual documents
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN108920482B (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
US20170109358A1 (en) Method and system of determining enterprise content specific taxonomies and surrogate tags
CN103246687A (zh) 基于特征信息的Blog自动摘要方法
CN106126605B (zh) 一种基于用户画像的短文本分类方法
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
Weng et al. Query by document via a decomposition-based two-level retrieval approach
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
Garrido et al. Temporally anchored relation extraction
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151216