CN106951498A - 文本聚类方法 - Google Patents

文本聚类方法 Download PDF

Info

Publication number
CN106951498A
CN106951498A CN201710155110.9A CN201710155110A CN106951498A CN 106951498 A CN106951498 A CN 106951498A CN 201710155110 A CN201710155110 A CN 201710155110A CN 106951498 A CN106951498 A CN 106951498A
Authority
CN
China
Prior art keywords
text
document
clustering
cluster
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710155110.9A
Other languages
English (en)
Inventor
刘希
张今宓
黄毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoxin Youe Data Co Ltd
Original Assignee
Guoxin Youe Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoxin Youe Data Co Ltd filed Critical Guoxin Youe Data Co Ltd
Priority to CN201710155110.9A priority Critical patent/CN106951498A/zh
Publication of CN106951498A publication Critical patent/CN106951498A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本聚类方法,包括:对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;利用预设评估标准对所述聚类结果进行评估。本发明采用改进的K‑means算法对文本进行聚类,并对聚类结果尽量评估,能够提高聚类结果的准确率,便于快速查找,从而提高了文本聚类的有效性。

Description

文本聚类方法
技术领域
本发明涉及一种文本聚类方法,具体涉及一种能够提高文本查找效率的文本聚类方法。
背景技术
由于Internet在全球范围内快速发展,信息技术日新月异,人们使用的各种的数据正在以爆炸性速度不断增长。大量的数据存储在数据库中,可以应用于政府办公、商业智能、科学研究和项目开发等,但是要想真正地使用这些数据不是件容易的事情。理解数据库中海量数据已经不是人们能力范围之内的事情,如果我们不借助于自动分析手段,那么存储在数据中大量的数据就变成了“数据坟墓”——很难再次访问的数据存档。因为决策者无法从海量数据中人工发掘出有用的知识,其做出的重要决策也就并非基于数据库中的数据,而是基于直觉或者经验。此外,目前的专家系统主要是依靠领域专业人员或者用户将数据手工地输入到目标知识数据库中。令人遗憾的是,这一过程往往会出现误差,并且增加了时间及其他方面的投入成本。因此,人们迫切地需要强有力的数据挖掘技术来解决“数据丰富而知识贫乏”这一消极现象,用以帮助人们从海量的数据中挖掘出有用的知识,发现其中事先存在的关联规则,实现决策的自动化和智能化,并最终在经济、社会等多个层面获得巨大的价值。在此情况下,数据挖掘技术应运而生并且显示出强大的生命力。在分析数据的基础上,数据挖掘手段可以自动发现有趣的知识模式,在商业智能、政府办公、知识库和科学研究等领域中均有望做出巨大贡献。
聚类分析是数据挖掘领域最重要的研究方向之一,通过数据分析能够发现有用的信息,其广泛地应用于市场研究、数据分析、模式识别、图像处理、人工智能和web文档分类等领域。在商业智能应用中,聚类分析能够帮助数据挖掘人员分析顾客的购买模式,刻画不同顾客群体的特征,从顾客消费信息数据库发现特殊的顾客。在生物学应用中,聚类分析可以用于推测物种的类别信息,根据功能的相关性对基因进行分门别类,从而可以获得对种群原有结构的认识。聚类分析还有助于在识别卫星监测数据库中对使用相关的区域进行识别,根据房屋的价值、类型和具体地理位置对城市中存在的房屋分组识别。与使用其它数据挖掘方法不同,用户在运用聚类分析算法之前并不知道数据集的内容和类别等特征信息,也即聚类分析不需要基于先验知识,是一种无监督的机器学习。
目前,大部分数据是以标准文本的格式存储的,在海量但未知信息中如何挖掘出事先未知的有用的知识已经成为学术研究和人们关注的热点问题之一。文本聚类挖掘是在没有先验学习的条件下对文本文档集合进行组织或划分的过程,其基本思想是将相似度较近的文本文档划分到同一个簇中。文本聚类挖掘可以广泛应用于信息检索与文本挖掘等多个方面,在大数量文档集合的查看、组织和自动生成文档集的层次归类等都具有很重要的应用价值。文本聚类效果的好坏会大大影响检索用户目标信息的效率,如与对文档进行顺序组织的方法相比,对文档进行随机聚类的方法并不会提高查找效率而是降低了速度。所以,如何提高文本聚类的有效性成为当前研究的热点问题。
发明内容
针对上述技术问题,本发明提供一种能够提高文本查找准确率的文本聚类方法。
本发明采用的技术方案为:
本发明的实施例提供一种文本聚类方法,包括:
S100:文本预处理
对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;
S200:文本聚类
利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;
S300:聚类结果评估
利用预设评估标准对所述聚类结果进行评估。
可选地,步骤S100具体包括:
S110:去除原始文本文档中跟文本文档实际内容无关的标记;
S111:通过中文分词器对经去噪的文档进行分词处理;
S112:基于预设的中文停用词表对分词后文档中的停用词进行替换;
S113:对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(1)确定:
wi=fi*log(N/dfi) (1)
其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目;
S114:利用预设模型将经提取特征项后的文本文档表示成特征向量集。
可选地,在提取特征之前使用两个变量对文档中的词频信息进行保存,以及利用向量空间模型将经预处理后的文本文档表示成特征向量集。
可选地,步骤S200具体包括:
利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K;
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;
可选地,所述预设孤立点检测条件为,如果某个文档的标准分数的绝对值大于2,则该文档被检测为孤立点,具体的处理过程如下所示:
设point[i][k]表示特征向量集X中的序号为i的文档样本点的第k维度上的值,则样本点i和样本点j之间的欧式距离表示为样本点i到其它所有样本点的距离之和表示为其中d是指样本点的维数;
定义1:样本点i的标准分数其中
可选地,所述预设初始聚类中心确定规则包括:
(1)遍历提取孤立点后的向量集X’中的样本点i到其它样本点的距离之和最大点,记为Oi1
(2)找出距离点Oi1最远的点Oi2
(3)把距Oi2点距离小于等于第N/K个小元素的点(也就是距离Oi2点较近的N/K个点)划分为簇i;
(4)从特征向量集X’中删除已归为簇i的数据对象,并求出i簇的中心点;
(5)把特征向量集X’中剩下的样本归到簇K中,同时也求出簇K的聚类中心。
可选地,在步骤S300中,基于目标函数的评估标准和基于人工判定的评估标准来对所述聚类结果进行评估。
可选地,所述基于目标函数的评估标准通过计算标准误差指标sse来对所述聚类结果进行评估,所述标准误差指标sse通过下述公式(2)来确定:
其中,Pij是指属于簇j的文档i,Cj是指簇j的聚类中心,Nj是指簇j中文档的数目,K是指簇的数目。
可选地,基于人工判定的评估标准来对所述聚类结果进行评估包括:
(1)扫描数据集,把类标号相同的数据集中放一起,记录类标号不同的分割点;
(2)对聚类后的类标号按照步骤(1)的分隔点进行分隔;
(3)统计每个类中的众数;
(4)分别统计每个簇中分类号与该簇众数不相同的文档,然后对这些文档数目进行求和,计为errorNUM;
(5)计算准确率correctRate=(N-errorNUM)/N,其中N表示整个数据集中文档的数目。
本发明的文本聚类方法包括对文本进行预处理,在预处理后采用改进的K-means算法对文本进行聚类,并对聚类结果尽量评估,能够提高聚类结果的准确率,便于快速查找,从而提高了文本聚类的有效性。
附图说明
图1为本发明的文本聚类方法的流程示意图。
图2为本发明的文本聚类系统的流程示意图。
图3为本发明实施例中选取的特征项的示意图。
图4为本发明实施例中的文本文档数值化的示意图。
图5为本发明实施例中使用原K-Means算法和改进的K-Means随机运行5次的准确率的比较示意图。
图6为本发明实施例中使用原K-Means算法和改进的K-Means随机运行5次的循环次数的比较示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
【第一实施例】
图1为本发明的一实施例提供的文本聚类方法的流程示意图。
如图1所示,本实施例提供的文本聚类方法包括以下步骤:
S100:文本预处理
对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;
S200:文本聚类
利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;
S300:聚类结果评估
利用预设评估标准对所述聚类结果进行评估。
以下,对上述各步骤进行详细说明。
S100:文本预处理
该步骤主要包括:
S110:去除原始文本文档中跟文本文档实际内容无关的标记,以节约计算量。互联网上的文档大部分是有结构的文档,如HTML和XML,文本去除噪声主要是把文档中跟文本挖掘无关的标记(如<html>、<table>和<xml>等)去除,一般这些标记只用于显示而没有实际的意义,因此去除这些标记并不会影响整个文本文档意思的完整性。最后将去除无关标记的文本文档以标准的TXT文本存储在文件系统中。
S111:通过中文分词器对经去噪的文档进行分词处理。。本发明釆用中国科学院计算机研究所研制的汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)。ICTCLAS主要包括的功能有:中文分词、词性标注、命名实体识别、新词识别和支持用户词典。ICTCLAS的分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M。本发明主要利用ICTCLAS的分词功能,分完词的文档中词与词之间以空格分割。例如,对如下所示出的txt格式的原始原档A进行分词后,得到文档B。
原始文档A:
{近日,国内一项调查结果表明:10%的人喜欢开轿车,13%的人喜欢开面包车,22%的人喜欢开越野车,55%的人喜欢多功能车。他们对爱车的选择标准从以前的感性转为务实、审慎和理性。对于中国广大消费者而言,一辆既能作为日常家庭用车又兼具部分商务功能的多功能轿车,理所当然是他们的首选。
由世界顶级汽车设计师JustynNorek操刀设计,呈现我们眼前的陆风风尚造型既不乏东方的质朴含蓄,又彰显了西方的尊荣大方,是东方文化和西方风韵碰撞的智慧的结晶。配置上非常丰富,完全达到目前国内中档轿车水平;而在安全性上,该车型为驾乘者提供全面的呵护,先进而完善的装备提供了最佳的主被动安全保障。陆风风尚(报价;图片)作为一款设计理念先进、功能完蕃、品质优良的车型,历时四年开发,向国家专利部门申请了133项专利,另一款具有欧洲血统的“全球资源车”。凭借陆风的强势品牌形象和完善服务网络,陆风今后将极有可能成为多功能轿车市场上的领导者}
分完词文档B:
{近日,国内一项调查结果表明:10%的人喜欢开轿车,13%的人喜欢开面包车,22%的人喜欢开越野车,55%的人喜欢多功能车。他们对爱车的选择标准从以前的感性转为务实、审慎和理性。对于中国广大消费者而言,一辆既能作为日常家庭用车又兼具部分商务功能的多功能轿车,理所当然是他们的首选。
由世界顶级汽车设计师JustynNorek操刀设计,呈现我们眼前的陆风风尚造型既不乏东方的质朴含蓄,又彰显了西方的尊荣大方,是东方文化和西方风韵碰撞的智慧的结晶。配置上非常丰富,完全达到目前国内中档轿车水平;而在安全性上,该车型为驾乘者提供全面的呵护,先进而完善的装备提供了最佳的主被动安全保障。陆风风尚(报价;图片)作为一款设计理念先进、功能完蕃、品质优良的车型,历时四年开发,向国家专利部门申请了133项专利,另一款具有欧洲血统的“全球资源车”。凭借陆风的强势品牌形象和完善服务网络,陆风今后将极有可能成为多功能轿车市场上的领导者}
S112:基于预设的中文停用词表对分词后文档中的停用词进行替换,以节省存储空间和提高程序执行效率。本发明中选用哈工大信息检索研究中心论坛提供的中文停用词表,该此表有1208个字或词语,在利用该中文体用词表去除停用词时,去除的方法是用空字符串替换分完词文档中的停用词。
S113:对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(1)确定:
wi=fi*log(N/dfi) (1)
其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目。ti-idf值的特定阈值可根据实际情况来进行确定。
根据公式(1),在计算某个词的值的时候需要计算这个词在本文档出现过几次和有多少个文档出现过这个词,原始的方法在计算一个词就要扫描一遍文档。另外在随后建立向量空间模型的时候,计算每篇文档对应特征项的tf-idf的时候也是需要词频信息的,如果不用变量先保存这些信息而每次都扫描文档是相当耗时的。故本发明在特征选取之前用两个变量termFreq1和termFreq2来保存词频信息,采用“空间换时间”的算法思想来实现。
S114:利用预设模型将经提取特征项后的文本文档表示成特征向量集。具体地,根据步骤S113选取出的特征项对每篇文档进行计算对应特征项上的值,每篇文档就生成一个和特征项数目相同维度的向量,整个文档集合就生和文档数目一致的向量集合。具体地,文本表示单元利用向量空间模型(VSM:vector space model)将经预处理后的文本文档表示成特征向量集。在进行文本表示时,本发明将根据上述公式(1)选取出的特征项作为维度属性,用上述公式(1)对每篇文章所对应的各个维度计算其相应的权值,最后对N篇文档计算后得出N个向量,每个向量的维度等于特征的个数,每个维度的值就是ti-idf的值,这样,对于给定的文档D,其可表示成D=(W1,W2,…,Wn),其中W1,W2,…,Wn为每个维度的权重值。
S200:文本聚类
在N个文本文档用VSM向量空间模型表示成的特征向量集X后,利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,最后给出聚类结果的准确率。聚类模块的处理流程包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K(划分参数);
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)在聚类过程完成后,计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;
在本发明中,孤立点分析可以这样描述:对于包含n个样本点数据集合和期望发现的孤立点个数i,发现与剩余的样本点相比是例外的或者是不一致的程度最高的i个样本点,这些与数据集中的其它数据对象点有着很大的差异的样本点被称为孤立点。本发明采用“标准分数的绝对值大于的样本点视为孤立点来处理”的实现来对数据集进行预处理,即预设孤立点检测条件为,如果某个文档的标准分数的绝对值大于2,则该文档被检测为孤立点,具体的处理过程描述如下:
设point[i][k]表示特征向量集X中的序号为i的文档(以下将特征向量集中的文档简称为样本点)的第k维度上的值,则样本点i和样本点j之间的欧式距离可以表示为样本点i到其它所有样本点的距离之和可表示为其中d是指样本点的维数。
定义1:样本点i的标准分数其中
本发明的预设初始聚类中心确定规则的思想是每次都把相对集中的数据先划分出来,这样就可以保证每个簇划分出的样本点有着较高的相似性,主要包括以下步骤:
(1)遍历提取孤立点后的向量集X’中的样本点i到其它样本点的距离之和最大点,记为Oi1
(2)找出距离点Oi1最远的点Oi2
(3)把距Oi2点距离小于等于第N/K个小元素的点(也就是距离Oi2点较近的N/K个点)划分为簇i;
(4)从特征向量集X’中删除已归为簇i的数据对象,并求出i簇的中心点;
(5)把特征向量集X’中剩下的样本归到簇K中,同时也求出簇K的聚类中心。
S300:聚类结果评估
在本发明中,聚类结果评估模块3基于目标函数的评估标准和基于人工判定的评估标准来对所述聚类结果进行评估。
其中,基于目标函数的评估标准通过计算标准误差指标sse来对所述聚类结果进行评估,所述标准误差指标sse通过下述公式(2)来确定:
其中,Pij是指属于簇j的文档i,Cj是指簇j的聚类中心,Nj是指簇j中文档的数目,K是指簇的数目。
基于人工判定的评估标准来对所述聚类结果进行评估包括:
(1)扫描数据集,把类标号相同的数据集中放一起,记录类标号不同的
分割点;对于iris数据集,其分割点为1,51,102。
(2)对聚类后的类标号按照步骤(1)的分隔点进行分隔;对于iris数据集,会得出1-50,51-100,101-150分别属于一类。
(3)统计每个类中的众数;例如,1-50那个簇中的众数为0。
(4)分别统计每个簇中分类号与该簇众数不相同的文档,然后对这些文档数目进行求和,计为errorNUM;
(5)计算准确率correctRate=(N-errorNUM)/N,其中N表示整个数据集中文档的数目。
【实施例】
以下通过实施例对本发明的文本聚类方法进行描述。
本实施例所采用的实验数据来自”实验室的“文本分类语料库”,该语料库涉及为基于搜狐分类目录手工编辑的网页分类结果组织成的网页、分类结果及基准分类算法在内的综合数据集合。该语料库中每篇文档内容如上述原始文档A所示。
以下利用改进的K-Means算法对上述介绍的文本文档进行聚类挖掘,并对挖掘的结果进行分析。
在进行聚类挖掘之前,首先要对文本文档进行数据预处理,其中主要包括以下几步:
(1)采用中文分词器ICTCLAS进行中文文本分词,结果例如前述的文档B所示;
(2)采用哈尔滨工业大学信息检索研究中心论坛提供的停用词列表进行去停用词。
(3)对文本文档集进行特征选取,本实施例采用“tf-idf值大于等于2作为重要特征项”的思想,选取的特征项如图3所示。
为了便于显示,本实施例中只选取开始和结束的几条记录用于展示,中间省略部分用省略号表示,其中共2918条记录。图3中的特征项后面的tf-idf 数值供分析使用。
(4)用步骤选取的特征项和VSM模型对原始的文本文档进行数值化,结果如图4所示。
其中,每条记录的最后一个属性是带类标号的文件名称,如C00007-10.txt是属于类C00007的。
对原始文本文档A进行数据预处理得到的数据集(下文称VSM数据集)的信息:维数2902,样本数目1800,最后一维为类标号,其中C00007对应“汽车”栏目,C00008对应“财经”栏目,C000010对应“IT”栏目,C000013对应“健康”栏目,C000014对应“体育”栏目,C000016对应“旅游”栏目,C000020对应“教育”,C000022对应“招聘”模块,C000023对应“文化”模块,C000024对应“军事”模块。
为了验证改进算法在实际应用环境中的有效性,用VSM数据集对原K-Means算法和改进的K-Means算法分别进行5次测试,在算法总体准确率方面如图5所示,在循环次数方面如图6所示。
原算法的准确率在58.6%~73.2%之间波动、循环次数在35次~11次之间波动、平均耗时1256882ms,而改进的算法准确率维持75.7%不变、循环次数维持8次不变、平均耗时366217ms。
K-Means算法在聚类过程完成后,会生成聚类中心,这里的聚类中心可以代表所属簇的信息。对于上述实验稍加改造,不难得到聚类中心对应的中文关键词信息。为了描述方便,本实施例只选择两个簇(记为簇9和簇10)的聚类中心加以说明。选择簇10聚类中心数值大小前10映射到特征项关键字为“黄继光军徽右翼董存瑞威猛侵略军陆海航母巡逻东海”,簇9聚类中心数值大小前10映射到特征值关键字为“故宫 乐器 徐志摩张岱年 汪曾祺尼安德特波茨坦妓颜如玉世博园”。对关键字观察不难发现,簇10应该是对应到“军事”类别,簇9应该对应到“文化”类别,这个结果和实际数据集的分类是相符合的。
【第二实施例】
图2为本发明的另一实施例提供的文本聚类系统的结构示意图。
如图2所示,本实施例提供的一种文本聚类系统,包括文本预处理模块1、文本聚类模块2和聚类结果评估模块3。其中,文本预处理模块1用于对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;文本聚类模块2利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;聚类结果评估模块3利用预设评估标准对所述聚类结果进行评估。
以下,对上述各模块分别进行介绍。
<文本预处理模块>
本发明的文本预处理模块主要包括文本去噪单元、中文分词单元、去停用词单元、特征提取单元和文本表示单元。
其中,文本去噪单元用于去除原始文本文档中跟文本文档实际内容无关的标记,以节约计算量。互联网上的文档大部分是有结构的文档,如HTML和XML,文本去除噪声主要是把文档中跟文本挖掘无关的标记(如<html>、<table>和<xml>等)去除,一般这些标记只用于显示而没有实际的意义,因此去除这些标记并不会影响整个文本文档意思的完整性。最后将去除无关标记的文本文档以标准的TXT文本存储在文件系统中。
中文分词单元用于通过中文分词器对经去噪的文档进行分词处理。本发明釆用中国科学院计算机研究所研制的汉语词法分析系统ICTCLAS(Institute of ComputingTechnology,Chinese Lexical Analysis System)。ICTCLAS主要包括的功能有:中文分词、词性标注、命名实体识别、新词识别和支持用户词典。ICTCLAS的分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M。本发明主要利用ICTCLAS的分词功能,分完词的文档中词与词之间以空格分割。例如,对如下所示出的txt格式的原始原档A进行分词后,得到文档B。
原始文档A:
{近日,国内一项调查结果表明:10%的人喜欢开轿车,13%的人喜欢开面包车,22%的人喜欢开越野车,55%的人喜欢多功能车。他们对爱车的选择标准从以前的感性转为务实、审慎和理性。对于中国广大消费者而言,一辆既能作为日常家庭用车又兼具部分商务功能的多功能轿车,理所当然是他们的首选。
由世界顶级汽车设计师JustynNorek操刀设计,呈现我们眼前的陆风风尚造型既不乏东方的质朴含蓄,又彰显了西方的尊荣大方,是东方文化和西方风韵碰撞的智慧的结晶。配置上非常丰富,完全达到目前国内中档轿车水平;而在安全性上,该车型为驾乘者提供全面的呵护,先进而完善的装备提供了最佳的主被动安全保障。陆风风尚(报价;图片)作为一款设计理念先进、功能完蕃、品质优良的车型,历时四年开发,向国家专利部门申请了133项专利,另一款具有欧洲血统的“全球资源车”。凭借陆风的强势品牌形象和完善服务网络,陆风今后将极有可能成为多功能轿车市场上的领导者}
分完词文档B:
{近日,国内一项调查结果表明:10%的人喜欢开轿车,13%的人喜欢开面包车,22%的人喜欢开越野车,55%的人喜欢多功能车。他们对爱车的选择标准从以前的感性转为务实、审慎和理性。对于中国广大消费者而言,一辆既能作为日常家庭用车又兼具部分商务功能的多功能轿车,理所当然是他们的首选。
由世界顶级汽车设计师JustynNorek操刀设计,呈现我们眼前的陆风风尚造型既不乏东方的质朴含蓄,又彰显了西方的尊荣大方,是东方文化和西方风韵碰撞的智慧的结晶。配置上非常丰富,完全达到目前国内中档轿车水平;而在安全性上,该车型为驾乘者提供全面的呵护,先进而完善的装备提供了最佳的主被动安全保障。陆风风尚(报价;图片)作为一款设计理念先进、功能完蕃、品质优良的车型,历时四年开发,向国家专利部门申请了133项专利,另一款具有欧洲血统的“全球资源车”。凭借陆风的强势品牌形象和完善服务网络,陆风今后将极有可能成为多功能轿车市场上的领导者}
去停用词单元用于基于预设的中文停用词表对分词后文档中的停用词进行替换,以节省存储空间和提高程序执行效率。本发明中选用哈工大信息检索研究中心论坛提供的中文停用词表,该此表有1208个字或词语,在利用该中文体用词表去除停用词时,去除的方法是用空字符串替换分完词文档中的停用词。
特征提取单元用于对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(3)确定:
wi=fi*log(N/dfi) (3)
其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目。ti-idf值的特定阈值可根据实际情况来确定。
根据公式(1),在计算某个词的值的时候需要计算这个词在本文档出现过几次和有多少个文档出现过这个词,原始的方法在计算一个词就要扫描一遍文档。另外在随后建立向量空间模型的时候,计算每篇文档对应特征项的tf-idf的时候也是需要词频信息的,如果不用变量先保存这些信息而每次都扫描文档是相当耗时的。故本发明在特征选取之前用两个变量termFreq1和termFreq2来保存词频信息,采用“空间换时间”的算法思想来实现。
文本表示单元用于利用预设模型将经提取特征项后的文本文档表示成特征向量集。文本表示单元根据特征提取单元选取出的特征项对每篇文档进行计算对应特征项上的值,每篇文档就生成一个和特征项数目相同维度的向量,整个文档集合就生和文档数目一致的向量集合。具体地,文本表示单元利用向量空间模型(VSM:vector space model)将经预处理后的文本文档表示成特征向量集。在进行文本表示时,本发明将根据上述公式(1)选取出的特征项作为维度属性,用上述公式(1)对每篇文章所对应的各个维度计算其相应的权值,最后对N篇文档计算后得出N个向量,每个向量的维度等于特征的个数,每个维度的值就是ti-idf的值,这样,对于给定的文档D,其可表示成D=(W1,W2,…,Wn),其中W1,W2,…,Wn为每个维度的权重值。
<文本聚类模块>
在N个文本文档用VSM向量空间模型表示成的特征向量集X后,文本聚类模块2利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,最后给出聚类结果的准确率。聚类模块的处理流程包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K(划分参数);
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)在聚类过程完成后,计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;
在本发明中,孤立点分析可以这样描述:对于包含n个样本点数据集合和期望发现的孤立点个数i,发现与剩余的样本点相比是例外的或者是不一致的程度最高的i个样本点,这些与数据集中的其它数据对象点有着很大的差异的样本点被称为孤立点。本发明采用“标准分数的绝对值大于的样本点视为孤立点来处理”的实现来对数据集进行预处理,即预设孤立点检测条件为,如果某个文档的标准分数的绝对值大于2,则该文档被检测为孤立点,具体的处理过程描述如下:
设point[i][k]表示特征向量集X中的序号为i的文档(以下将特征向量集中的文档简称为样本点)的第k维度上的值,则样本点i和样本点j之间的欧式距离可以表示为样本点i到其它所有样本点的距离之和可表示为其中d是指样本点的维数。
定义1:样本点i的标准分数其中
本发明的预设初始聚类中心确定规则的思想是每次都把相对集中的数据先划分出来,这样就可以保证每个簇划分出的样本点有着较高的相似性,主要包括以下步骤:
(1)遍历提取孤立点后的向量集X’中的样本点i到其它样本点的距离之和最大点,记为Oi1
(2)找出距离点Oi1最远的点Oi2
(3)把距Oi2点距离小于等于第N/K个小元素的点(也就是距离Oi2点较近的N/K个点)划分为簇i;
(4)从特征向量集X’中删除已归为簇i的数据对象,并求出i簇的中心点;
(5)把特征向量集X’中剩下的样本归到簇K中,同时也求出簇K的聚类中心。
<聚类结果评估模块>
在本发明中,聚类结果评估模块3基于目标函数的评估标准和基于人工判定的评估标准来对所述聚类结果进行评估。
其中,基于目标函数的评估标准通过计算标准误差指标sse来对所述聚类结果进行评估,所述标准误差指标sse通过下述公式(4)来确定:
其中,Pij是指属于簇j的文档i,Cj是指簇j的聚类中心,Nj是指簇j中文档的数目,K是指簇的数目。
基于人工判定的评估标准来对所述聚类结果进行评估包括:
(1)扫描数据集,把类标号相同的数据集中放一起,记录类标号不同的分割点;对于iris数据集,其分割点为1,51,102。
(2)对聚类后的类标号按照步骤(1)的分隔点进行分隔;对于iris数据集,会得出1-50,51-100,101-150分别属于一类。
(3)统计每个类中的众数;例如,1-50那个簇中的众数为0。
(4)分别统计每个簇中分类号与该簇众数不相同的文档,然后对这些文档数目进行求和,计为errorNUM;
(5)计算准确率correctRate=(N-errorNUM)/N,其中N表示整个数据集中文档的数目。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种文本聚类方法,其特征在于,包括:
S100:文本预处理
对待聚类的文本文档进行预处理,包括文本去噪、中文分词、去停用词、特征提取以及文本表示;
S200:文本聚类
利用预设聚类方法将经预处理后的文本文档进行聚类,并给出聚类结果;
S300:聚类结果评估
利用预设评估标准对所述聚类结果进行评估。
2.根据权利要求1所述的文本聚类方法,其特征在于,步骤S100具体包括:
S110:去除原始文本文档中跟文本文档实际内容无关的标记;
S111:通过中文分词器对经去噪的文档进行分词处理;
S112:基于预设的中文停用词表对分词后文档中的停用词进行替换;
S113:对去停用词后的每个文档中的每个词的ti-idf值,选取ti-idf值大于特定阈值的特征作为该文档的特征项,每个文档中的每个词的ti-idf值wi通过下述公式(1)确定:
wi=fi*log(N/dfi) (1)
其中,fi是指词频率,表示第i个词在该文档中出现的次数,dfi是指文档频率,表示文本文档中出现第i个词的文档数目;
S114:利用预设模型将经提取特征项后的文本文档表示成特征向量集。
3.根据权利要求2所述的文本聚类方法,其特征在于,在提取特征之前使用两个变量对文档中的词频信息进行保存,以及利用向量空间模型将经预处理后的文本文档表示成特征向量集。
4.根据权利要求3所述的文本聚类方法,其特征在于,步骤S200具体包括:
利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K;
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中;
5.根据权利要求4所述的文本聚类方法,其特征在于,所述预设孤立点检测条件为,如果某个文档的标准分数的绝对值大于2,则该文档被检测为孤立点,具体的处理过程如下所示:
设point[i][k]表示特征向量集X中的序号为i的文档样本点的第k维度上的值,则样本点i和样本点j之间的欧式距离表示为样本点i到其它所有样本点的距离之和表示为其中d是指样本点的维数;
定义1:样本点i的标准分数其中
6.根据权利要求4所述的文本聚类方法,其特征在于,所述预设初始聚类中心确定规则包括:
(1)遍历提取孤立点后的向量集X’中的样本点i到其它样本点的距离之和最大点,记为Oi1
(2)找出距离点Oi1最远的点Oi2
(3)把距Oi2点距离小于等于第N/K个小元素的点(也就是距离Oi2点较近的N/K个点)划分为簇i;
(4)从特征向量集X’中删除已归为簇i的数据对象,并求出i簇的中心点;
(5)把特征向量集X’中剩下的样本归到簇K中,同时也求出簇K的聚类中心。
7.根据权利要求4所述的文本聚类方法,其特征在于,在步骤S300中,基于目标函数的评估标准和基于人工判定的评估标准来对所述聚类结果进行评估。
8.根据权利要求7所述的文本聚类方法,其特征在于,所述基于目标函数的评估标准通过计算标准误差指标sse来对所述聚类结果进行评估,所述标准误差指标sse通过下述公式(2)来确定:
s s e = &Sigma; j = 1 K &Sigma; i = 1 N j ( P i j - C j ) 2 - - - ( 2 )
其中,Pij是指属于簇j的文档i,Cj是指簇j的聚类中心,Nj是指簇j中文档的数目,K是指簇的数目。
9.根据权利要求7所述的文本聚类方法,其特征在于,基于人工判定的评估标准来对所述聚类结果进行评估包括:
(1)扫描数据集,把类标号相同的数据集中放一起,记录类标号不同的分割点;
(2)对聚类后的类标号按照步骤(1)的分隔点进行分隔;
(3)统计每个类中的众数;
(4)分别统计每个簇中分类号与该簇众数不相同的文档,然后对这些文档数目进行求和,计为errorNUM;
(5)计算准确率correctRate=(N-errorNUM)/N,其中N表示整个数据集中文档的数目。
CN201710155110.9A 2017-03-15 2017-03-15 文本聚类方法 Pending CN106951498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710155110.9A CN106951498A (zh) 2017-03-15 2017-03-15 文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710155110.9A CN106951498A (zh) 2017-03-15 2017-03-15 文本聚类方法

Publications (1)

Publication Number Publication Date
CN106951498A true CN106951498A (zh) 2017-07-14

Family

ID=59473693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710155110.9A Pending CN106951498A (zh) 2017-03-15 2017-03-15 文本聚类方法

Country Status (1)

Country Link
CN (1) CN106951498A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107784105A (zh) * 2017-10-26 2018-03-09 平安科技(深圳)有限公司 基于海量问题的知识库构建方法、电子装置及存储介质
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置
CN109522410A (zh) * 2018-11-09 2019-03-26 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN109684482A (zh) * 2019-01-17 2019-04-26 云南师范大学 一种基于深度神经网络模型的民族文化资源聚类分析方法
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN110046255A (zh) * 2019-04-19 2019-07-23 江南大学 一种基于抗噪移动时间势能聚类的文本分类方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110222183A (zh) * 2019-06-12 2019-09-10 云南电网有限责任公司大理供电局 一种供电客户满意度评价模型的构建方法
CN110377736A (zh) * 2019-07-02 2019-10-25 厦门耐特源码信息科技有限公司 一种基于r语言的信息聚类方法
CN110705314A (zh) * 2019-10-08 2020-01-17 国家计算机网络与信息安全管理中心 论文技术水平评价方法及装置
CN111061880A (zh) * 2019-12-24 2020-04-24 成都迪普曼林信息技术有限公司 海量文本数据快速聚类方法
CN111324801A (zh) * 2020-02-17 2020-06-23 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN112883643A (zh) * 2021-02-07 2021-06-01 智慧航海(青岛)科技有限公司 一种船舶搭载激光感知模块的仿真测试系统
CN113408266A (zh) * 2020-12-02 2021-09-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备以及存储介质
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN117648433A (zh) * 2023-10-26 2024-03-05 武汉维新智云科技有限公司 一种基于云档案库的档案管理方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
US20110060983A1 (en) * 2009-09-08 2011-03-10 Wei Jia Cai Producing a visual summarization of text documents
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234955A1 (en) * 2004-04-15 2005-10-20 Microsoft Corporation Clustering based text classification
US20110060983A1 (en) * 2009-09-08 2011-03-10 Wei Jia Cai Producing a visual summarization of text documents
CN104866572A (zh) * 2015-05-22 2015-08-26 齐鲁工业大学 一种网络短文本聚类方法
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈宝楼: "K-means算法研究及在文本聚类中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577792A (zh) * 2017-09-18 2018-01-12 前海梧桐(深圳)数据有限公司 一种企业数据自动聚类的方法及其系统
CN107784105A (zh) * 2017-10-26 2018-03-09 平安科技(深圳)有限公司 基于海量问题的知识库构建方法、电子装置及存储介质
CN108268611B (zh) * 2017-12-29 2021-03-26 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108268611A (zh) * 2017-12-29 2018-07-10 天津南大通用数据技术股份有限公司 一种基于MapReduce的k-means文本聚类的方法及装置
CN108875049A (zh) * 2018-06-27 2018-11-23 中国建设银行股份有限公司 文本聚类方法及装置
CN109522410A (zh) * 2018-11-09 2019-03-26 北京百度网讯科技有限公司 文档聚类方法及平台、服务器和计算机可读介质
CN109766437A (zh) * 2018-12-07 2019-05-17 中科恒运股份有限公司 一种文本聚类方法、文本聚类装置及终端设备
CN109684482A (zh) * 2019-01-17 2019-04-26 云南师范大学 一种基于深度神经网络模型的民族文化资源聚类分析方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110046255A (zh) * 2019-04-19 2019-07-23 江南大学 一种基于抗噪移动时间势能聚类的文本分类方法
CN110222183A (zh) * 2019-06-12 2019-09-10 云南电网有限责任公司大理供电局 一种供电客户满意度评价模型的构建方法
CN110377736A (zh) * 2019-07-02 2019-10-25 厦门耐特源码信息科技有限公司 一种基于r语言的信息聚类方法
CN110705314A (zh) * 2019-10-08 2020-01-17 国家计算机网络与信息安全管理中心 论文技术水平评价方法及装置
CN111061880A (zh) * 2019-12-24 2020-04-24 成都迪普曼林信息技术有限公司 海量文本数据快速聚类方法
CN111324801A (zh) * 2020-02-17 2020-06-23 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN111324801B (zh) * 2020-02-17 2022-06-21 昆明理工大学 基于热点词的司法领域热点事件发现方法
CN113408266A (zh) * 2020-12-02 2021-09-17 腾讯科技(深圳)有限公司 文本处理方法、装置、设备以及存储介质
CN112883643A (zh) * 2021-02-07 2021-06-01 智慧航海(青岛)科技有限公司 一种船舶搭载激光感知模块的仿真测试系统
CN114328922A (zh) * 2021-12-28 2022-04-12 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN114328922B (zh) * 2021-12-28 2022-08-02 盐城工学院 一种基于谱图理论的选择性文本聚类集成方法
CN117648433A (zh) * 2023-10-26 2024-03-05 武汉维新智云科技有限公司 一种基于云档案库的档案管理方法和系统

Similar Documents

Publication Publication Date Title
CN106951498A (zh) 文本聚类方法
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN106096609B (zh) 一种基于ocr的商品查询关键字自动生成方法
CN107291895B (zh) 一种快速的层次化文档查询方法
CN112559684A (zh) 一种关键词提取及信息检索方法
CN103778206A (zh) 一种网络服务资源的提供方法
Saravanan et al. Video image retrieval using data mining techniques
CN108153818B (zh) 一种基于大数据的聚类方法
Zhu et al. Multimodal sparse linear integration for content-based item recommendation
Shirahama et al. Event retrieval in video archives using rough set theory and partially supervised learning
CN109062551A (zh) 基于大数据开发命令集的开发框架
Costache et al. Categorization based relevance feedback search engine for earth observation images repositories
Freeman et al. Web content management by self-organization
Trieschnigg et al. Hierarchical topic detection in large digital news archives: exploring a sample based approach
Su et al. Parallel big image data retrieval by conceptualised clustering and un-conceptualised clustering
Al-Omari Evaluating the effect of stemming in clustering of Arabic documents
Alhaj et al. Predicting user entries by using data mining algorithms
Veparala et al. Big Data and Different Subspace Clustering Approaches: From social media promotion to genome mapping
Sundari et al. A study of various text mining techniques
Le et al. Choosing seeds for semi-supervised graph based clustering
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
Matsubara et al. D-Search: an efficient and exact search algorithm for large distribution sets
AU2021101719A4 (en) Logo-based document image retrieval and method thereof
Goel et al. Parallel weighted semantic fusion for cross-media retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170714

WD01 Invention patent application deemed withdrawn after publication