CN105159998A - 一种基于文档聚类关键词计算方法 - Google Patents
一种基于文档聚类关键词计算方法 Download PDFInfo
- Publication number
- CN105159998A CN105159998A CN201510566216.9A CN201510566216A CN105159998A CN 105159998 A CN105159998 A CN 105159998A CN 201510566216 A CN201510566216 A CN 201510566216A CN 105159998 A CN105159998 A CN 105159998A
- Authority
- CN
- China
- Prior art keywords
- document
- entry
- vector
- collection
- calculation method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于文档聚类关键词计算方法,所述方法包括(1)获取文本文档集合;(2)将文档集合中各文档内容采用分词算法进行词条切分;(3)建立文档向量;(4)采用TF-IDF计算文档向量:(5)对文档向量进行维度压缩;(6)进行文档聚类计算;(7)计算各组文档的代表性关键词。本发明的有益效果为:本发明提供了完整可行的计算步骤,并创新性地支持文档向量维度的压缩,计算效率高。本发明在执行文档向量的降维处理时,采用了不同于任何现有技术的一种简洁、高效的新方法。本发明是首个连接不同的环节,以切实可行的计算步骤,确保从文档集合中计算出代表性关键词的技术方案。
Description
技术领域
本发明属于计算机数据挖掘领域,具体涉及一种基于文档聚类关键词计算方法。
背景技术
在互联网行业中,用户往往会采用关键词组的查找,找出能代表其兴趣浏览的文章。现有技术中,都是把给定的文档集合当成一个完整的不可分割的整体,并在其上计算代表性关键词。典型应用包括新闻网站的个性化阅读系统,能根据用户所浏览的新闻,计算出代表用户兴趣的一组关键词,并基于这组关键词推荐新的文章。但事实上,一个用户的兴趣往往包含多个方面,是分散的。因此,对应的文档集合可以划分为若干组文档,每组对应着用户的一个兴趣点,且每一组内部的文档之间相关性很高,但不同组的文档之间则相关性较低。
通常情况下,一篇文章的特征是通过一组词来表示的,一个文档集合可能包含若干文章,每篇文章包含成百上千个词条,因此最后算下来,整个文档集合包含了成千上万个不同的特征(词)。如此高维度的特征空间(文档向量空间),不仅会增加聚类算法的处理时间,而且对算法的精度会产生不良的影响,因此在聚类之前,需要对文档的向量空间做降维处理。现有的技术中,包括分词、文档向量化,聚类等技术都已经在机器学习(文本挖掘)领域有专门的讨论。如何从给定的文档集合中,挖掘出代表性关键词也已经有不少应用。但是,如何整合一系列的技术,对文档集合做进一步的细化分组,并在分组上做代表性关键词的挖掘,却并没有具体的技术方案去实施。
发明内容
为了解决现有技术存在的上述问题,本发明提供了一种基于文档聚类关键词计算方法。基于文档聚类的代表性关键词计算,其目的是在给定的文档集合中,通过中文分词、词频计算、文档向量的维度压缩、聚类等操作,将文档划分到若干个组中,每个组包含了紧密相关的一部分文档,然后计算出每个组的代表性关键词,最终组合成整个文档集合的代表性关键词。
本发明所采用的技术方案为:
一种基于文档聚类关键词计算方法,其改进之处在于:所述方法包括
(1)获取文本文档集合;
(2)将文档集合中各文档内容采用分词算法进行词条切分;
(3)建立文档向量;
(4)采用TF-IDF计算文档向量:
(5)对文档向量进行维度压缩;
(6)进行文档聚类计算;
(7)计算各组文档的代表性关键词。
优选的,所述步骤(1)包括不限制文档集合的来源,可为一个或多个文档组成的集合,每个文档取出其中包含的正文文本,用以代表这个文档的内容。
进一步的,对图片、声音和视频多媒体文件的处理,则对其中包含的文本信息来组成集合。
优选的,所述步骤(2)包括采用任意中文或英文分词算法,将文本文档的内容做词条的切分;同时,去除标点符号,并去除哦、了、么和其他虚词。
优选的,所述步骤(3)包括将步骤(1)中文档集合中N个文档,步骤(2)中文档集合中各文档经过分词包含的M个词条,整个文档集合建立文档向量;其中,所述M个词条采用拼音顺序进行排序。
优选的,所述步骤(4)包括采用TF-IDF这种统计方法,用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
优选的,所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中,某个词条的出现率大于0,则该文档包含对应的词条,通过词条的出现率选取文档集合的代表性词条。
进一步的,所述文档向量中包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个,以此类推,第M个词条的文档数量为NM;将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x所对应的词条,为本文档集合的代表性词条,其中,松散参数为x可根据用户设定修改。
优选的,所述步骤(6)包括对文档向量做维度压缩后,执行K-Means聚类算法,需要聚集而成的类数量个数设为C;其中,分组个数C需要用户在执行聚类计算前设置好,用户可根据分类的效果进行调整。
优选的,所述步骤(7)包括对C个分组的文档,再次执行步骤(4)中的操作,分别计算出每个分组的TF-IDF文档向量;对计算后文档向量排序,则可得文档分组中TF-IDF值最高词,最终组合成整个文档集合的代表性关键词。
本发明的有益效果为:
本发明提供了完整可行的计算步骤,包括获取文档集合、中文分词、TF-IDF计算、文档向量化、维度压缩、聚类、一直到最后的推荐关键词计算等所有必须的环节,并创新性地支持文档向量维度的压缩,计算效率高。
本发明在执行文档向量的降维处理时,采用了不同于任何现有技术的一种简洁、高效的新方法。
现有技术方案往往侧重与论述某一个技术环节。每一个环节,都较为独立且有不同的应用场景;本发明是首个连接不同的环节,以切实可行的计算步骤,确保从文档集合中计算出代表性关键词的技术方案。
附图说明
图1是本发明提供的一种基于文档聚类关键词计算方法流程示意图。
具体实施方式
本发明所涉及技术及其注解:
1、文本聚类:
文本聚类(TextClustering)文档聚类主要是依据著名的聚类假设:同类的文档相似度较大,而不同类的文档相似度较小。文本聚类,可以将一个相对较大的文档集合,划分成若干个子类,从而将相似的文档组织在同一个类里。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效组织、摘要和导航的重要手段。
文本聚类技术的应用主要有:
对用户感兴趣的文档(如用户浏览过的新闻或商品)执行聚类操作,从而发现用户的兴趣模式并用于信息过滤和信息主动推荐等服务。
作为自然语言处理应用的预处理步骤。例如哥伦比亚大学研发的多文档文摘系统Newsblaster。Newsblaster将每天发生的重要新闻文本进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生成等处理,从而生成一篇简明扼要的摘要文档。
常见的文本聚类算法有划分法(代表性算法是K-Means)、层次法(代表性算法是BIRCH)、基于密度的方法(代表性算法是DBSCAN)等。
2、中文分词:
中文分词(ChineseWordSegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
中文在基本文法上有其特殊性,具体表现在:
中文词与词之间无明显分隔。与英文为代表的拉丁语系语言相比,英文以空格作为天然的分隔符,而中文由于继承自古代汉语的传统,词条之间没有分隔。古代汉语中除了连绵词和人名地名等,词通常就是单个汉字,所以当时没有分词书写的必要。而现代汉语中双字或多字词居多,一个字不再等同于一个词。
在中文里,“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”,且以双字或者多字词居多,但由于人们认识水平的不同,对词和短语的边界很难去区分。例如:“对随地吐痰者给予处罚”,“随地吐痰者”本身是一个词还是一个短语,不同的人会有不同的标准。同样的,“生物化学”是一个词还是两个词,即使是同一个人也可能在不同的场景下做出不同判断。
中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。因此,虽然计算机无法理解某一句话的含义,但其可以通过中文分词,把其中的词条提取出来,进而在词条这个统一的单位上执行统计计算,实现一定程度的机器学习和文本挖掘功能。
3、TF-IDF计算:
TF-IDF是一种统计方法,用以评估一个词对于一个文档集合中的其中一份文档的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。这意味着,字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF实际上是:TF*IDF。TF词频(TermFrequency),IDF逆向文档频率(InverseDocumentFrequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。
假如一篇文档的总词条数是100个,而词条“母牛”出现了3次,那么“母牛”一词在该文档中的词频就是3/100=0.03。一个计算文档频率(IDF)的方法是测定有多少份文档出现过“母牛”一词,然后除以文档集合里包含的文档总数。所以,如果“母牛”一词在1,000份文档出现过,而文档总数是10,000,000份的话,其逆向文档频率就是log(10,000,000/1,000)=4。最后的TF-IDF的分数为0.03*4=0.12。
4、K-Means算法:
k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。
K-Means算法流程:
首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。
如图1所示,本发明提供了一种基于文档聚类关键词计算方法,具体方法如下:
第一步:获取文本文档集合:
进行深入的信息挖掘,需由一个或多个文档组成的集合。文档集合的来源,是多样化的,没有限制的。无论是用户的阅读记录,或是往来的电子邮件,或是出于某种考虑被放置在某个文件夹下的文档都可以。每个文档,取出其中包含的正文文本,用以代表这个文档的内容。另外,在这个过程中,对图片、声音、视频等多媒体文件的处理,主要是针对其中包含的文本信息来进行的。
例如,从某用户当天阅读的新闻中,随机取出10篇新闻内容,形成如下文档集合(示例仅含标题,正文略):
文档1:微信电话本,再探运营商底线;
文档2:别让“抄袭风”毁了微信平台;
文档3:马化腾会是传统电信运营商的掘墓人吗;
文档4:响应“移动电商创新工程”惠及上海中小企业战略转型;
文档5:支付宝红包遭微信封杀;
文档6:阿里上线淘WiFi应用,可在全国600万个热点免费上网;
文档7:想在飞机上用WiFi?天价收费让人望而却步;
文档8:免费WiFi:互联网巨头的新战场;
文档9:微信圈广告噱头深精准浅;
文档10:授权与专利:诺基亚重返平板意欲何为?
其中,本实施例为方便理解,仅提供文档的标题。一般的文本分析中,标题与正文内容组成了文档主体;本发明适用于任意长度的标题和正文。
第二步:将文本文档中内容采用分词算法进行词条切分:
在确定了文档集合后,需要对集合中的每一个文档进行分词操作。现今的分词算法已经有很多,本步骤允许采用任意中文(英文)分词算法,只要其能将文本文档的内容做词条的切分即可。其中,分词越准确,则后续的处理就越准确。本实施例中,使用现成的逆向最大匹配算法,基于某个维护好的词典,将文档里的词分离出来。同时,文本分词还要能够去除标点符号,并去除哦、了、么等“虚词”。
正向匹配算法示例:
文本:小明喜欢研究生物化学;
结果:小明喜欢研究生物化学;
逆向匹配算法示例:
文本:小明喜欢研究生物化学;
结果:化学生物研究喜欢小明。
第三步:初步建立文档向量:
由于每个文档所包含的词,与其他文档或多或少都会存在不同,因此,建立文档向量,既能表示文档集合的所有的词,又能表示每个文档是否包含这个词,以及该词在文档中出现了多少次。其中,某文档集合中包含N个文档,M个词,则每个文档都用一个M维的向量来表示,整个文档集合用一组向量(N*M)来表示。
经过分词,前面的文档集合共包含55个词条(不含单字词):
重返、掘墓、平板、在全国、万个、中小、巨头、专利、传统、红包、会是、电话本、企业战略、创新、上用、战场、上线、转型、精准、毁了、互联网、电商、免费、底线、响应、想在、免费上网、电信、望而却步、移动、让人、诺基亚、意欲何为、广告、工程、封杀、天价、平台、授权、微信、惠及、飞机、马化腾、阿里、运营商、别让、应用、抄袭、噱头、支付宝、热点、上海、wifi、收费、人吗;
将所有关键词按照字典顺序(拼音)排序:
Wifi、阿里、别让、抄袭、传统、创新、底线、电话本、电商、电信、飞机、封杀、工程、广告、红包、互联网、毁了、会是、惠及、精准、巨头、掘墓、马化腾、免费、免费上网、诺基亚、平板、平台、企业战略、让人、热点、人吗、上海、上线、上用、收费、授权、天价、万个、望而却步、微信、响应、想在、噱头、移动、意欲何为、应用、运营商、在全国、战场、支付宝、中小、重返、专利、转型;
文档1:“微信电话本,再探运营商底线”包含了微信、电话本、运营商、底线四个词条。之所以不包含再探这个词条,是因为分词所采用的词典中,并没有收录“再探”。当然,如果词典中加入了缺失的词,则分词结果中就包含该词。但再探是否能作为某个词条,在不同的应用环境中,有不同的定义,在此我们姑且认为“再探”不是一个词。而单字“再”和单字“探”,并不在我们的考虑中(这里为简化起见,仅考虑多字词,但本发明适用于单字词的情况)。
因此,文档1在微信(第41)、电话本(第8)、运营商(第48)、底线(第7)这4个分量上取值为1,其他分量取值为0。因此文档1对应的向量是
[0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0];
类似的,文档2包含了“别让”、“抄袭”、“毁了”、“微信”、“平台”共5个词条,对应的文档向量为
[0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0];
文档1-10共10个55维的向量,就构成了整个文档集合的向量空间。
第四步:计算出TF-IDF文档向量:
第三步中获得的文档向量,是常见的计数向量,即可以表示某词条在该文档中出现的次数。同样的,文档还可以拥有其他类型的向量,如词频TF、逆向文档向量IDF、以及非常重要的TF-IDF向量;
采用TF-IDF这种统计方法,用以评估某个词条对于文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
假如一篇文档的词条总共有10个,而“微信”出现了3次,那么“微信”一词在该文档中的词频就是3/10=0.3。一个计算文档频率的方法是测定有多少份文档出现过“微信”一词,然后除以文档集合里包含的文档总数。所以,如果“微信”一词在5份文档出现过,而文档总数是10份的话,其逆向文档频率就是log(10/5)=0.3010。最后的TF-IDF的分数为0.3*0.3010=0.0903。
经过计算,我们可以获得10个55维的TF-IDF文档向量。
第五步:对文档向量进行维度压缩:
现有的聚类算法,基本上都存在一个比较严重的问题,当文档向量M的维度太高时(M远大于文档数量N),聚类的效果会非常差。在一般的情况下,100篇新闻的文档集合,能够包含的词数量将在3000~20000个左右。这导致的问题是维度爆炸:每一个词就代表一个维度,维度过多,文档聚类的效果会很差。如果100个新闻聚成5个类,则往往其中4个类都只包含1个文档,剩下的最后一个类包含了96个文档,这样的聚类效果基本不可用。
即使是示例中的10篇仅有标题的文档,其包含了55个不同的词(维度),在使用聚类算法K-Means++后(设置为分成3个类),获得的3个类分别包含1、1、8个文档。事实上,最后一个类中的8个文档,并不是紧密相关的。但是,采用以下方法把向量空间的维度压缩到20个时,获得的3个类分别包含3、3、4个文档。从用户的角度,本示例的10个文档其实含义是相对分散的,因此3:3:4的聚类效果,相比于1:1:8明显更为合理。
本发明采用一种计算简单,配置方便的维度压缩技术:
假设集合中文档数量为N,该文档集合共包含词条M个,松散参数为x。对于所有的文档向量,如果某分量大于0(某个词条的出现率大于0),意味则该文档包含对应的词条,那么包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个。以此类推,包含最后的第M个词条的文档数量为NM。
将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x个分量(示例中N=10,x=2,则N*x=20),这些分量所对应的词条,就是本文档集合的代表性词条。后续的聚类计算,将只采用这N*x个分量。
第六步:进行文档聚类计算
在对文档向量做维度压缩后,执行现有的聚类算法(如K-Means++),其中,需要聚集而成的类数量为C(C=3),聚类结果为:
第1组:
文档1:微信电话本,再探运营商底线;
文档2:别让“抄袭风”毁了微信平台;
文档9:微信圈广告噱头深精准浅;
第2组:
文档6:阿里上线淘WiFi应用可在全国600万个热点免费上网;
文档7:想在飞机上用WiFi?天价收费让人望而却步;
文档8:免费WiFi:互联网巨头的新战场;
第3组:
文档3:马化腾会是传统电信运营商的掘墓人吗;
文档4:响应“移动电商创新工程”惠及上海中小企业战略转型;
文档5:支付宝红包,遭微信封杀;
文档10:授权与专利:诺基亚重返平板意欲何为?
需要注明的是,分组个数是需要用户(技术实现者)在执行聚类计算前设置好的,用户可根据分类的效果,来调整。在本实施例中,设置C=3。
第七步:计算各组文档的代表性关键词:
对C个分组的文档,再次执行第四步中采用TF-IDF计算文档向量操作,分别计算出每个分组的TF-IDF文档向量。事实上,根据TF-IDF的定义,TF已经计算过一次,因此是不需要重新计算的。由于将每个文档分组都看成一个独立的文档集合,因此IDF的数值会发生变化,于是TF*IDF数值也会发生变化,需要重新计算。
对此文档向量排序,则得知第1个文档分组中TF-IDF值最高的词是(此处,我们的做法与传统的TF-IDF计算不同之处在于,如果某个词条的文档频率TF很高,则即使其最终的TF-IDF值较低,也将选出作为代表性关键词):
微信
同样的,可得知第2个文档分组的代表性关键词是:
WiFi、免费
第3个文档分组的代表性关键词是:
运营商
于是,整个文档集合的代表性关键词组为:微信、WiFi、免费、运营商;
计算出的每个组代表性关键词,最终组合成整个文档集合的代表性关键词。
本发明不局限于上述最佳实施方式,任何人在本发明的启示下都可得出其他各种形式的产品,但不论在其形状或结构上作任何变化,凡是具有与本申请相同或相近似的技术方案,均落在本发明的保护范围之内。
Claims (10)
1.一种基于文档聚类关键词计算方法,其特征在于:所述方法包括
(1)获取文本文档集合;
(2)将文档集合中各文档内容采用分词算法进行词条切分;
(3)建立文档向量;
(4)采用TF-IDF计算文档向量:
(5)对文档向量进行维度压缩;
(6)进行文档聚类计算;
(7)计算各组文档的代表性关键词。
2.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(1)包括不限制文档集合的来源,可为一个或多个文档组成的集合,每个文档取出其中包含的正文文本,用以代表这个文档的内容。
3.根据权利要求2所述的一种基于文档聚类关键词计算方法,其特征在于:对图片、声音和视频多媒体文件的处理,则对其中包含的文本信息来组成集合。
4.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(2)包括采用任意中文或英文分词算法,将文本文档的内容做词条的切分;同时,去除标点符号,并去除哦、了、么和其他虚词。
5.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(3)包括将步骤(1)中文档集合中N个文档,步骤(2)中文档集合中各文档经过分词包含的M个词条,整个文档集合建立文档向量;其中,所述M个词条采用拼音顺序进行排序。
6.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(4)包括采用TF-IDF这种统计方法,用以评估步骤(2)中的某个词条对于步骤(1)文档集合中的其中一份文档的重要程度,并获取N个M维的TF-IDF文档向量;其中,词条的重要性取决于在文档中出现的次数成正比增加;TF表示词条在文档中出现的频率,IDF表示逆向文档频率。
7.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(5)包括对于步骤(3)建立的文档向量中文档集合中N个文档和文档集合中各文档经过分词包含的M个词条中,某个词条的出现率大于0,则该文档包含对应的词条,通过词条的出现率选取文档集合的代表性词条。
8.根据权利要求7所述的一种基于文档聚类关键词计算方法,其特征在于:所述文档向量中包含第1个词条的文档有N1个,包含第2个词条的文档数量有N2个,以此类推,第M个词条的文档数量为NM;将{N1,N2,N3,...,NM}从大到小排序,取排名前N*x所对应的词条,为本文档集合的代表性词条,其中,松散参数为x可根据用户设定修改。
9.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(6)包括对文档向量做维度压缩后,执行K-Means聚类算法,需要聚集而成的类数量个数设为C;其中,分组个数C需要用户在执行聚类计算前设置好,用户可根据分类的效果进行调整。
10.根据权利要求1所述的一种基于文档聚类关键词计算方法,其特征在于:所述步骤(7)包括对C个分组的文档,再次执行步骤(4)中的操作,分别计算出每个分组的TF-IDF文档向量;对计算后文档向量排序,则可得文档分组中TF-IDF值最高词,最终组合成整个文档集合的代表性关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510566216.9A CN105159998A (zh) | 2015-09-08 | 2015-09-08 | 一种基于文档聚类关键词计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510566216.9A CN105159998A (zh) | 2015-09-08 | 2015-09-08 | 一种基于文档聚类关键词计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105159998A true CN105159998A (zh) | 2015-12-16 |
Family
ID=54800854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510566216.9A Pending CN105159998A (zh) | 2015-09-08 | 2015-09-08 | 一种基于文档聚类关键词计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105159998A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657575A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 视频标注方法和装置 |
CN105787004A (zh) * | 2016-02-22 | 2016-07-20 | 浪潮软件股份有限公司 | 一种文本分类方法及装置 |
CN106054857A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于维修决策树/词向量的故障远程诊断平台 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN106250526A (zh) * | 2016-08-05 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 一种基于内容及用户行为的文本类推荐方法和装置 |
CN107301199A (zh) * | 2017-05-17 | 2017-10-27 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN108304442A (zh) * | 2017-11-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置及存储介质 |
CN109299328A (zh) * | 2018-12-03 | 2019-02-01 | 广州华多网络科技有限公司 | 一种视频搜索方法、服务器、客户端及存储介质 |
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110688349A (zh) * | 2019-08-29 | 2020-01-14 | 重庆小雨点小额贷款有限公司 | 一种文档整理方法、装置、终端及计算机可读存储介质 |
CN110929517A (zh) * | 2019-11-28 | 2020-03-27 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
CN111191255A (zh) * | 2019-08-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 信息加密处理的方法、服务器、终端、设备以及存储介质 |
CN111259154A (zh) * | 2020-02-07 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111651596A (zh) * | 2020-05-27 | 2020-09-11 | 软通动力信息技术有限公司 | 一种文本聚类的方法、装置、服务器及存储介质 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN112487181A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN114416890A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 异构知识点一体化表示、存储、检索、生成及交互方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101102A1 (en) * | 2004-11-09 | 2006-05-11 | International Business Machines Corporation | Method for organizing a plurality of documents and apparatus for displaying a plurality of documents |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN103530316A (zh) * | 2013-09-12 | 2014-01-22 | 浙江大学 | 一种基于多视图学习的科学主题提取方法 |
CN104156440A (zh) * | 2014-08-12 | 2014-11-19 | 东南大学 | 一种基于微博的交通数据获取方法 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
-
2015
- 2015-09-08 CN CN201510566216.9A patent/CN105159998A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060101102A1 (en) * | 2004-11-09 | 2006-05-11 | International Business Machines Corporation | Method for organizing a plurality of documents and apparatus for displaying a plurality of documents |
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN103530316A (zh) * | 2013-09-12 | 2014-01-22 | 浙江大学 | 一种基于多视图学习的科学主题提取方法 |
CN104536956A (zh) * | 2014-07-23 | 2015-04-22 | 中国科学院计算技术研究所 | 一种基于微博平台的事件可视化方法及系统 |
CN104156440A (zh) * | 2014-08-12 | 2014-11-19 | 东南大学 | 一种基于微博的交通数据获取方法 |
Non-Patent Citations (1)
Title |
---|
刘荣辉: "Deep Web下基于中文分词的聚类算法", 《计算机工程与应用》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105657575B (zh) * | 2015-12-30 | 2018-10-19 | 北京奇艺世纪科技有限公司 | 视频标注方法和装置 |
CN105657575A (zh) * | 2015-12-30 | 2016-06-08 | 北京奇艺世纪科技有限公司 | 视频标注方法和装置 |
CN105787004A (zh) * | 2016-02-22 | 2016-07-20 | 浪潮软件股份有限公司 | 一种文本分类方法及装置 |
CN106054857A (zh) * | 2016-05-27 | 2016-10-26 | 大连楼兰科技股份有限公司 | 基于维修决策树/词向量的故障远程诊断平台 |
CN106250526A (zh) * | 2016-08-05 | 2016-12-21 | 浪潮电子信息产业股份有限公司 | 一种基于内容及用户行为的文本类推荐方法和装置 |
CN106250372A (zh) * | 2016-08-17 | 2016-12-21 | 国网上海市电力公司 | 一种用于电力系统的中文电力数据文本挖掘方法 |
CN108062610A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 工作相关性的分析方法及装置 |
CN107301199A (zh) * | 2017-05-17 | 2017-10-27 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN107301199B (zh) * | 2017-05-17 | 2021-02-12 | 北京融数云途科技有限公司 | 一种数据标签生成方法和装置 |
CN108304442A (zh) * | 2017-11-20 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置及存储介质 |
CN108153738A (zh) * | 2018-02-10 | 2018-06-12 | 灯塔财经信息有限公司 | 一种基于层次聚类的聊天记录分析方法和装置 |
CN109299328A (zh) * | 2018-12-03 | 2019-02-01 | 广州华多网络科技有限公司 | 一种视频搜索方法、服务器、客户端及存储介质 |
CN110389932A (zh) * | 2019-07-02 | 2019-10-29 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN110389932B (zh) * | 2019-07-02 | 2023-01-13 | 华北电力科学研究院有限责任公司 | 电力文件自动分类方法及装置 |
CN111191255A (zh) * | 2019-08-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 信息加密处理的方法、服务器、终端、设备以及存储介质 |
CN111191255B (zh) * | 2019-08-08 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 信息加密处理的方法、服务器、终端、设备以及存储介质 |
CN110688349A (zh) * | 2019-08-29 | 2020-01-14 | 重庆小雨点小额贷款有限公司 | 一种文档整理方法、装置、终端及计算机可读存储介质 |
CN110688349B (zh) * | 2019-08-29 | 2023-05-26 | 重庆小雨点小额贷款有限公司 | 一种文档整理方法、装置、终端及计算机可读存储介质 |
CN112487181B (zh) * | 2019-09-12 | 2024-02-13 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
CN112487181A (zh) * | 2019-09-12 | 2021-03-12 | 北京国双科技有限公司 | 关键词确定方法和相关设备 |
CN110929517A (zh) * | 2019-11-28 | 2020-03-27 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
CN110929517B (zh) * | 2019-11-28 | 2023-04-18 | 海南大学 | 地理位置定位方法、系统、计算机设备和存储介质 |
CN111259154B (zh) * | 2020-02-07 | 2021-04-13 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111259154A (zh) * | 2020-02-07 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN111651596A (zh) * | 2020-05-27 | 2020-09-11 | 软通动力信息技术有限公司 | 一种文本聚类的方法、装置、服务器及存储介质 |
CN112612870A (zh) * | 2020-12-11 | 2021-04-06 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法 |
CN112612870B (zh) * | 2020-12-11 | 2023-12-01 | 广东电力通信科技有限公司 | 一种非结构化数据管理方法及系统 |
CN112464638A (zh) * | 2020-12-14 | 2021-03-09 | 上海爱数信息技术股份有限公司 | 一种基于改进谱聚类算法的文本聚类方法 |
CN114416890A (zh) * | 2022-01-21 | 2022-04-29 | 中国人民解放军国防科技大学 | 异构知识点一体化表示、存储、检索、生成及交互方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105159998A (zh) | 一种基于文档聚类关键词计算方法 | |
US20200320086A1 (en) | Method and system for content recommendation | |
Mitra | Exploring session context using distributed representations of queries and reformulations | |
Rousseau et al. | Main core retention on graph-of-words for single-document keyword extraction | |
CN106649455B (zh) | 一种大数据开发的标准化系统归类、命令集系统 | |
US10515125B1 (en) | Structured text segment indexing techniques | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Rizzo et al. | NERD meets NIF: Lifting NLP Extraction Results to the Linked Data Cloud. | |
US8484228B2 (en) | Extraction and grouping of feature words | |
CN103049435B (zh) | 文本细粒度情感分析方法及装置 | |
CN101876981B (zh) | 一种构建知识库的方法及装置 | |
US20110295857A1 (en) | System and method for aligning and indexing multilingual documents | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN108920482B (zh) | 基于词汇链特征扩展和lda模型的微博短文本分类方法 | |
US20170109358A1 (en) | Method and system of determining enterprise content specific taxonomies and surrogate tags | |
CN103246687A (zh) | 基于特征信息的Blog自动摘要方法 | |
CN106126605B (zh) | 一种基于用户画像的短文本分类方法 | |
Hu et al. | Enhancing accessibility of microblogging messages using semantic knowledge | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
Weng et al. | Query by document via a decomposition-based two-level retrieval approach | |
CN110990676A (zh) | 一种社交媒体热点主题提取方法与系统 | |
Garrido et al. | Temporally anchored relation extraction | |
CN112052397B (zh) | 用户特征生成方法、装置、电子设备及存储介质 | |
CN104298732A (zh) | 一种面向网络用户的个性化文本排序及推荐方法 | |
Perez-Tellez et al. | On the difficulty of clustering microblog texts for online reputation management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151216 |