CN103226546A - 一种基于分词和词性分析的后缀树聚类方法 - Google Patents
一种基于分词和词性分析的后缀树聚类方法 Download PDFInfo
- Publication number
- CN103226546A CN103226546A CN2013101297716A CN201310129771A CN103226546A CN 103226546 A CN103226546 A CN 103226546A CN 2013101297716 A CN2013101297716 A CN 2013101297716A CN 201310129771 A CN201310129771 A CN 201310129771A CN 103226546 A CN103226546 A CN 103226546A
- Authority
- CN
- China
- Prior art keywords
- speech
- word
- suffix tree
- document
- clustering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于分词和词性分析的后缀树聚类方法,该发明由文档分词处理模块、词性分析模块和后缀树聚类模块三部分组成,完成文档的分词处理,词性标注,词语权重的计算和文档主要成分的提取,能够实现对原始文档降维处理,降低了后缀树聚类方法在处理过程中的复杂度,同时保证了聚类的精度。
Description
技术领域
本发明涉及应用于搜索引擎的一种基于分词和词性分析的后缀树聚类方法,属于计算机科学技术领域。
背景技术
随着信息技术的不断发展,网络上的数据正在以惊人的速度增长,人们对网络内容的需求也越来越大,网络内容搜索成为目前应用最为广泛的一种互联网服务。搜索引擎是进行网络内容搜索的主要渠道,各国都在发展具有自主知识产权的搜索引擎,不断开展对搜索引擎关键技术的研究。
网络上的内容涉及方方面面,并且存在大量未经整理与分类的信息,而这对想要快速获取特定方面信息的人们来说造成了一定的困难。为帮助人们从这些大量的数据中分析出期间所蕴含的有价值的信息,数据挖掘技术应运而生。
数据挖掘是从大量的数据中提取隐含在其中的知识的过程。聚类是数据挖掘采用的一种重要方法。它从数据库中寻找数据间的相似性,并依次对数据进行分类,使得同一类数据间的相似性尽可能高,不同类数据间的相似性尽可能低。不同的聚类算法有着不同的应用背景,后缀树聚类方法采用后缀树模型来处理文本信息,能快速解决很多字符串方面的问题,其聚类准确率比经典的聚类算法(如K-Means算法)高,更适合应用于文本数据的聚类。
后缀树聚类方法在处理的过程中仍有一些需要改进的地方,比如,原 始文档过长,则计算机在处理的时候要求更多的时间;文本中存在很多冗余信息,计算机处理这些文本需要耗费大量的计算资源。不同类型的文本在词语的结构上有明显的不同之处,采用相同的方式处理它们显然并不是最佳的选择。
本发明提出一种基于分词和词性分析的后缀树聚类方法,该发明通过对文档进行分词处理、词性统计、权重计算和主要成分提取的手段,提取文档中的关键信息,降低待聚类信息的维度,从而降低后缀树聚类的复杂度,同时可提高聚类结果的精确性。
发明内容
本发明“一种基于分词和词性分析的后缀树聚类方法”的目的在于提出一种改进型的后缀树聚类算法。该方法应用于后缀树聚类方法的文档预处理阶段,通过分词和词性分析从包含大量文字的待聚类文档中提取摘要,以降低后缀树聚类的复杂度。
本发明的主要方法包括文档分词处理模块、词性分析模块,后缀树聚类模块三部分。参照图1:
(1)文档分词处理模块
文档分词处理模块完成去除停顿词和文档分词处理两个功能。
无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如的、滴、得之类的助词,啊、哈、呀之类的感叹词,从而,以、却之类的副词或者介词,这些词被称为停顿词。由于他们对页面的主要意思没有什么影响,在文档预处理阶段应首先将其去掉。
在英文的行文中,单词之间是以空格作为自然分界符的,但中文只是字、 句、段才能通过明显的分界符来简单划界,词语之间没有一个形式上的分界符。虽然英文也同样存在短语的划分问题,不过在词语这一层面上,中文比英文要复杂的多。目前中科院和复旦大学等都对分词技术进行了研究,并取得了良好的效果。
在本发明中,文档(如txt文档)分词处理模块(如使用中科院的ICTCLAS分词系统)的功能为:分词器把一个汉字序列切分成一个一个的词语,同时,还为每个切分出来的词语标注出词性信息。
(2)词性分析模块
词性分析模块完成词性权重计算、句子主要成分提取两个功能。
该模块旨在去除文档中的非重要信息,仅把经过降维处理后的文档的主要成分交给后缀树聚类方法,以降低聚类方法需要处理的维度和聚类过程的复杂度。
目前聚类主要考虑的因素是语义而不是情感,因此词性分析只需考虑包含语义信息的词语即可。在各种词性的词语中,名词和动词包含了大量的语义信息,形容词则反应了情感倾向,因此在本发明中,词性分析模块只考查名词和动词这两种词性的词语,其他词性的词语词性分析模块不予计算。
本发明中的词性分析模块分别计算文档中名词和动词的比重,对两者进行比较,其中某种词性比重大,则说明该种词性的词语区分能力强,也即信息量更大,在本发明中把词性比重大的词语称作为文档的主要成分。
该模块功能的具体实现方式为:首先计算文档中不重复的词语的权重,然后分别计算动词和名词的权重和,最后,比较两种词性的词语的权重和,取其大者作为句子的主要成分进行提取。
(3)后缀树聚类模块
在搜索引擎中,数据聚类是为了将内容相似的检索结果聚合成一类,内容不相似的检索结果分开,以方便用户能够更加方便和快速地找到自己需要的内容,而不用关注不相关的检索结果。
本发明采用了后缀树聚类方法进行文档聚类。
后缀的定义为:假设字符串S=s1s2…si…sn,其中si属于字符串集,那么Si=sisi+1…sn是从位置i开始的后缀。后缀树是一种基本的数据结构,它将字符串的所有后缀以树的形式索引起来,使原字符串的任何一个子串都出现在树中由根节点到某一个节点的路径上。后缀树聚类方法是一种线性时间复杂度的文档聚类算法,主要思想是将每一个文档看成一个字符串,构建后缀树,后缀树中出现的相同的字符串被认为是基本类,然后对基本类进行合并,根据基本类的合并确定聚类结果。
后缀树聚类方法不是把文档抽象为多维数组,也即一套词的集合,而是将文档看成字符串,一个有序的词语的序列,因此后缀树聚类方法保留了更多的原文档中的信息,聚类结果更加准确。
本发明使用词性分析模块提取出的文档的主要成分作为后缀树聚类方法的输入,这样即可降低后缀树聚类过程中的处理维度。
(4)本发明的执行步骤
参照图2,下面给出该发明的具体实现步骤如下:
步骤1:文档分词处理模块去除停顿词。文档分词处理模块首先对进入本发明的文档进行扫描,去除停顿词,为了使计算机减少处理停顿词的计算 量。
步骤2:文档分词处理模块的分词。文档分词处理模块使用分词工具对去除了停顿词的文档进行分词。分词结束后,文档分词处理模块对词语标注对应的词性,去除名词和动词以外词性的词语。
步骤3:词性分析模块的词性权重计算。词性分析模块计算分词分出来的各个词语权重。
步骤4:词性分析模块的句子主要成分提取。词性分析模块比较相同词性的词语的权重和,词语权重越大,则说明该词性词语的集合能够更好的代表原文档的特征,也即可以当做为原文档的主要成分。从原文档中提取该种词性的词语作为作为后缀树聚类方法的输入。
步骤5:后缀树聚类。后缀树聚类模块提取文档的主要成分作为后缀树聚类方法的输入,使用后缀树聚类方法进行聚类,得到聚类结果。
附图说明
图1基于分词方法和词性分析的后缀树聚类方法总体结构示意图
图2基于分词方法和词性分析的后缀树聚类方法步骤示意图
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例也仅仅是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了说明“一种基于分词和词性分析的后缀树聚类方法”,这里给出一个关于处理和聚类文档“A.txt”的实例。A.txt各包含了一条有关“篮球”的介绍性语句,具体内容为:“篮球是一个由两队参与的球类运动,每队出场5 名队员。”
一种基于分词和词性分析的后缀树聚类方法的处理过程是:
(1)去除停止词阶段。文档分词处理模块首先扫描每个文档,去除文档中的停止词(如“是”、“的”、“与”等),处理完成后的结果为:“篮球两队参与球类运动队出场5名队员”。
(2)分词阶段。文档分词处理模块把文档分成分词集合[篮球,参与,运动,…],并且词性分析模块为每个词语标注上词性信息。具体的分词及标注结果为:“篮球/n两/m队/q参与/v球类/n运动队/n出场/v5/f名/q队员/n”。
(3)权重计算阶段。首先词性分析模块计算待考查的词性的词语(在本发明中为名词和动词)在文章中的权重,例如,我们计算出词语[篮球,参与,球类,运动队,出场,队员]的权重为:S1=0.15,S2=0.06,S3=0.18,S4=0.08,S5=0.05,S6=0.12。则A.txt文档中名词的权重和为:Sn=S1+S3+S4+S6=0.53,动词的权重和为:Sv=S2+S5=0.11。
(4)主要成分提取阶段。词性分析模块比较A.txt文档中名词和动词的权重和,如果Sn大于Sv,则说明名词为文档的主要成分,需要对名词进行提取;反之,如果Sv大于Sn,则把动词当做主要成分进行提取。显然,对于在例句中,Sn大于Sv,也即在A.txt中,名词为主要成分,提取的结果为:“篮球球类运动队队员”。
(5)聚类阶段。后缀树聚类模块把提取的文档的主要成分作为聚类算法的输入,利用后缀树聚类方法进行聚类,得到聚类结果。
本发明的优势
本发明提出一种基于分词和词性分析的后缀树聚类方法,该发明用于降低文档信息的维度并且提高聚类的精度。它与传统后缀树聚类方法的区别在于,该方法只对提取出来的文档主要成分进行聚类,在保证聚类精度的情况下降低了处理的复杂度。
Claims (1)
1.本发明提出一种基于分词和词性分析的后缀树聚类方法,包括分词方法、词性分析、基于主要成分的后缀树聚类,该发明应用于搜索引擎中。
本发明的主要特点有:
(1)该方法在分词中,按名词和动词进行分词,并去除其它词性词。
(2)该方法在词性分析中,区分词语的词性,按词性计算词语的权重,确定词语的重要成分。
(3)该方法在权重计算中,计算单个词语的权重,再计算相同词性词语的权重和。
(4)该方法在聚类中,只针对某一词性的词语进行提取,具有降维的能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101297716A CN103226546A (zh) | 2013-04-15 | 2013-04-15 | 一种基于分词和词性分析的后缀树聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013101297716A CN103226546A (zh) | 2013-04-15 | 2013-04-15 | 一种基于分词和词性分析的后缀树聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103226546A true CN103226546A (zh) | 2013-07-31 |
Family
ID=48837000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013101297716A Pending CN103226546A (zh) | 2013-04-15 | 2013-04-15 | 一种基于分词和词性分析的后缀树聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103226546A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544309A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN105550172A (zh) * | 2016-01-13 | 2016-05-04 | 夏峰 | 一种分布式文本检测方法及系统 |
CN105701087A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种公式抄袭检测方法及系统 |
CN105701086A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种滑动窗口文献检测方法及系统 |
CN105701077A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种多语种文献检测方法及系统 |
CN105701075A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献联合检测方法及系统 |
CN105701213A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献对比方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
-
2013
- 2013-04-15 CN CN2013101297716A patent/CN103226546A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067808A (zh) * | 2007-05-24 | 2007-11-07 | 上海大学 | 文本关键词的提取方法 |
CN101315624A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐的方法和装置 |
Non-Patent Citations (2)
Title |
---|
WELLY NAPTALI 等: "Integration of Topic Dependent Class Language Model and Cache-based Unigram Scaling", 《第4回音声ドキュメント処理ワークショップ講演論文集》 * |
俞文明: "Web 中文文本聚类研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544309A (zh) * | 2013-11-04 | 2014-01-29 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN103544309B (zh) * | 2013-11-04 | 2017-03-15 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
CN105701213A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献对比方法及系统 |
CN105701086A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种滑动窗口文献检测方法及系统 |
CN105701077A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种多语种文献检测方法及系统 |
CN105701075A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种文献联合检测方法及系统 |
CN105701087A (zh) * | 2016-01-13 | 2016-06-22 | 夏峰 | 一种公式抄袭检测方法及系统 |
CN105550172A (zh) * | 2016-01-13 | 2016-05-04 | 夏峰 | 一种分布式文本检测方法及系统 |
CN105701087B (zh) * | 2016-01-13 | 2018-03-16 | 夏峰 | 一种公式抄袭检测方法及系统 |
CN105701077B (zh) * | 2016-01-13 | 2018-04-13 | 夏峰 | 一种多语种文献检测方法及系统 |
CN105701075B (zh) * | 2016-01-13 | 2018-04-13 | 夏峰 | 一种文献联合检测方法及系统 |
CN105550172B (zh) * | 2016-01-13 | 2018-06-01 | 夏峰 | 一种分布式文本检测方法及系统 |
CN105701086B (zh) * | 2016-01-13 | 2018-06-01 | 夏峰 | 一种滑动窗口文献检测方法及系统 |
CN105701213B (zh) * | 2016-01-13 | 2018-12-28 | 夏峰 | 一种文献对比方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Relevant document discovery for fact-checking articles | |
CN103226546A (zh) | 一种基于分词和词性分析的后缀树聚类方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN110020189A (zh) | 一种基于中文相似性计算的文章推荐方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN106372208B (zh) | 一种基于语句相似度的话题观点聚类方法 | |
CN103455562A (zh) | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 | |
CN103514213B (zh) | 词语提取方法及装置 | |
CN103678275A (zh) | 一种基于主客观语义的双层次文本相似度计算方法 | |
Nguyen-Hoang et al. | TSGVi: a graph-based summarization system for Vietnamese documents | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
CN104871151A (zh) | 用于概括文档的方法 | |
US20150331953A1 (en) | Method and device for providing search engine label | |
CN106599072B (zh) | 一种文本聚类方法及装置 | |
Nandi et al. | Bangla news recommendation using doc2vec | |
Nakayama et al. | Wikipedia Link Structure and Text Mining for Semantic Relation Extraction. | |
Gunawan et al. | Multi-document summarization by using textrank and maximal marginal relevance for text in Bahasa Indonesia | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
Maharjan et al. | A straightforward author profiling approach in mapreduce | |
Tanev | Unsupervised learning of social networks from a multiple-source news corpus | |
JP5717297B2 (ja) | 時系列情報を利用して文章をクエリ検索する検索プログラム、装置、方法及びサーバ | |
CN107958005A (zh) | 一种基于Lucene的医疗搜索引擎服务系统建设方法 | |
Hajjem et al. | Building comparable corpora from social networks | |
Priyatam et al. | Don't Use a Lot When Little Will Do: Genre Identification Using URLs. | |
KR102275095B1 (ko) | 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130731 |