CN107798113B - 一种基于聚类分析的文档数据分类方法 - Google Patents

一种基于聚类分析的文档数据分类方法 Download PDF

Info

Publication number
CN107798113B
CN107798113B CN201711063868.6A CN201711063868A CN107798113B CN 107798113 B CN107798113 B CN 107798113B CN 201711063868 A CN201711063868 A CN 201711063868A CN 107798113 B CN107798113 B CN 107798113B
Authority
CN
China
Prior art keywords
document
sample
topics
similarity
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711063868.6A
Other languages
English (en)
Other versions
CN107798113A (zh
Inventor
张敏灵
詹望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201711063868.6A priority Critical patent/CN107798113B/zh
Publication of CN107798113A publication Critical patent/CN107798113A/zh
Application granted granted Critical
Publication of CN107798113B publication Critical patent/CN107798113B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于聚类分析的文档数据分类方法,主要弥补在目前文档分类问题中,及现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)通过本发明提出的方法将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。

Description

一种基于聚类分析的文档数据分类方法
技术领域
本发明涉及一种基于聚类分析的文档数据分类方法,含有多主题的弱监督文档数据处理技术领域。
背景技术
如今互联网技术正处于高速蓬勃发展之中,随之而来的是信息量的爆发。web文档的数量正呈现出指数级增长的趋势,文档数据的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术,该方法根据用户提交给分类装置的样例文档,对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程,使用机器学习的技术对用户提交的样例文档进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。
一篇文档通常具备大量的词汇,并对应多种主题。现有的文档分类技术往往受限于大量文本词汇所带来的维度灾难,并使用相同的特征在所有主题上进行训练学习。而不同主题通常更关注于不同的特征,使用相同的特征对其进行预测往往无法取得较好的结果。
发明内容
发明目的:针对目前文档分类问题中,现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。本发明提出一种基于聚类分析的文档数据分类方法,旨在利用聚类分析,挖掘特征空间中针对文档的不同主题的不同隐藏性质,并为每一种主题特化出其独特的特征,再结合主题之间的联系性,对该特征进行更新,从而为每一种主题生成维度更低、更具判别性的特征,通过在该特征上训练分类器来提高文档分类装置的性能。
技术方案:一种基于聚类分析的文档数据分类方法,为了能够针对文档的不同主题,提取该主题最关注的特征信息以更好地区分和判别文档的主题,本发明通过聚类分析技术以获取这一特征,并对文档进行更好更有效的分类。该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)将选取的文档的初始特征针对每一种主题转化为兼顾主题判别性和与其他主题联系性的新的特征;(3)对每一类主题,在新的特征上学习得到分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。
有益效果:不同于现有的文档分类方法使用同一特征空间在所有的主题上进行预测的方式,本发明基于聚类分析技术对每种主题分别考虑其特征构成。通过聚类分析能够有效挖掘数据内在性质的特性,为每一种主题生成维度更低、并更具判别性的特征,再考虑主题间的联系性将这些特征进一步更新,从而使学习系统更具稳定性和鲁棒性。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是第一层聚类分析的流程图;
图4是第二层聚类分析的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,文档存储设备中存放的是待分类的文档,另有一个包含大量具备多种主题的文档的文档库,文档库中的每篇文档均与一个或多个主题相关联。用户从文档库中选取N篇已分类文档提交给文档分类装置。文档的初始特征由一种常用的方法生成,即使用所有可能出现在文档中的词作为特征项。在实际应用中,由于将所有的词作为特征项使得特征向量的维度过大而为训练过程带来极大的计算量,故使用了一些常用的特征降维技术进行降维处理,如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。该文档分类装置通过本发明提出的方法将选取的文档的初始特征针对每一种主题转化为新的特征。对每一类主题,在新的特征上学习得到分类模型。基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果,如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户选取的查询文档对应于集合D={(xi,Yi)|1≤i≤N},其中Yi为文档样本xi所对应的主题集合,
Figure GDA0003057419160000031
T为所有可能的主题个数。步骤11对于每个可能的主题,分别在正类样本和负类样本上进行聚类分析,其详细说明如图3所示。这一步在每个主题上得到聚类结果在步骤12中通过使用其他主题上的聚类结果得到优化,详细说明如图4所示。假设在第t个主题上得到的聚类结果的M个聚类中心为
Figure GDA0003057419160000032
第j个聚类中心为
Figure GDA0003057419160000033
则步骤13将更新的聚类结果通过样本到这些聚类中心的距离来构建映射,从而将原d维特征xi=[xi1,xi2,…,xid]转化为新的d′维特征zi=[zi1,zi2,…,zid′]。其中第j(1≤j≤d’=M)项为:
Figure GDA0003057419160000034
步骤14为每个主题在得到的新特征上训练分类模型,并在步骤15中,利用得到的分类模型为待分类文档进行分类预测,最终输出分类结果。在输出分类结果后,即进入步骤16所示的结束状态。
图3给出了图2中步骤11的详细描述,是对每个主题上的第一层聚类分析。图3中的步骤1100是起始状态。步骤1101至1107构成了一个循环体,循环的每一轮中针对第t个主题进行聚类分析。其中,步骤1103首先对于主题t,将样本划分为正类样本集合S+与负类样本集合S-,如果样本与主题t相关联,则样本属于正类样本集合,否则属于负类样本集合。然后步骤1104为两个样本集合计算其聚类数Nt,即
Figure GDA0003057419160000035
步骤1105和步骤1106分别对正类样本集合S+与负类样本集合S-进行聚类分析,各聚Nt个类。当所有主题上的聚类完成后,随即进入步骤1108的结束状态。
图4给出了图2中步骤12的详细描述,是对每个主题已有的第一层聚类分析结果上进行的第二层聚类分析。图4中的步骤1200是起始状态。步骤1201至1204构成了一个循环体,循环的每一轮中针对第t个主题对步骤11中得到的聚类结果进行处理。步骤1203中根据聚类结果计算得到两两样本之间的相似度,以相似度矩阵Wt来表示。如果样本xi与xj属于同一个聚类簇,那么Wtij=1,否则Wtij=0。步骤1205至1209构成了一个循环体,循环的每一轮中对第t个主题上的聚类结果进行更新。步骤1207中对两两样本之间的相似度进行更新,得到新的相似度矩阵Wt′,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到,如下所示
Figure GDA0003057419160000041
其中,Wkij表示针对第k个主题得到的聚类结果,计算得到两两样本之间的相似度矩阵,λt是归一化系数,Δtk(1≤k≤T)是主题t与主题k之间的相似度,k是第k个主题。步骤1208对更新后的相似度矩阵Wt′进行图像分割,从而得到更新后的聚类结果。当所有主题上的聚类分析结果得到更新之后,随即进入步骤1210的结束状态。
本发明给出了一种基于聚类分析的文档分类的方法,该方法通过两层聚类分析,为每类主题生成其独特的维度更低、并更具判别性的特征,基于这种特征进行学习和训练,可以提高模型训练效率,提高学习系统的有效性、稳定性和鲁棒性。

Claims (4)

1.一种基于聚类分析的文档数据分类方法,其特征在于,该方法包括以下步骤:
(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;
(2)将选取的文档的初始特征针对每一种主题转化为兼顾主题判别性和与其他主题联系性的新的特征;其中,在每个主题上得到聚类结果通过使用其他主题上的聚类结果得到优化:针对第t个主题得到的聚类结果,计算得到两两样本之间的相似度,以相似度矩阵Wt来表示;如果样本xi与xj属于同一个聚类簇,那么Wtij=1,否则Wtij=0;对两两样本之间的相似度进行更新,得到新的相似度矩阵Wt′,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到,对更新后的相似度矩阵Wt′进行图像分割,从而得到更新后的聚类结果;
(3)对每一类主题,在新的特征上学习得到最终分类模型;
(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;
(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;
(6)结束。
2.根据权利要求1中所述的基于聚类分析的文档数据分类方法,其特征在于,步骤2将选取的文档的初始特征针对每一种主题转化为新的特征,具体包括:假设用户选取的查询文档对应于集合D={(xi,Yi)|1≤i≤N},其中Yi为文档样本xi所对应的主题集合,
Figure FDA0003240753150000014
T为所有可能的主题个数,对每种主题tm(1≤tm≤T),分别在正类样本和负类样本上进行聚类分析,每个主题上得到聚类结果通过使用其他主题上的聚类结果得到优化;假设在第t个主题上得到的聚类结果的M个聚类中心为
Figure FDA0003240753150000011
第j个聚类中心为
Figure FDA0003240753150000012
则将更新的聚类结果通过样本到这些聚类中心的距离来构建映射,从而将原d维特征xi=[xi1,xi2,…,xid]转化为新的d′维特征zi=[zi1,zi2,…,zid′];其中第j(1≤j≤d’=M)项为:
Figure FDA0003240753150000013
为每个主题在得到的新特征上训练分类模型,并利用得到的分类模型为待分类文档进行分类预测,最终输出分类结果。
3.根据权利要求2中所述的基于聚类分析的文档数据分类方法,其特征在于,在正类样本和负类样本上进行聚类分析:首先对于主题t,将样本划分为正类样本集合S+与负类样本集合S-,如果样本与主题t相关联,则样本属于正类样本集合,否则属于负类样本集合;然后为两个样本集合计算其聚类数Nt,即
Figure FDA0003240753150000021
分别对正类样本集合S+与负类样本集合S-进行聚类分析,各聚Nt个类,当所有主题上的聚类完成后,随即进入下一步的结束状态。
4.根据权利要求1中所述的基于聚类分析的文档数据分类方法,其特征在于,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到:
Figure FDA0003240753150000022
其中,Wkij表示针对第k个主题得到的聚类结果,计算得到两两样本之间的相似度矩阵,λt是归一化系数,Δtk(1≤k≤T)是主题之间的相似度,k是第k个主题。
CN201711063868.6A 2017-11-02 2017-11-02 一种基于聚类分析的文档数据分类方法 Active CN107798113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711063868.6A CN107798113B (zh) 2017-11-02 2017-11-02 一种基于聚类分析的文档数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711063868.6A CN107798113B (zh) 2017-11-02 2017-11-02 一种基于聚类分析的文档数据分类方法

Publications (2)

Publication Number Publication Date
CN107798113A CN107798113A (zh) 2018-03-13
CN107798113B true CN107798113B (zh) 2021-11-12

Family

ID=61548783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711063868.6A Active CN107798113B (zh) 2017-11-02 2017-11-02 一种基于聚类分析的文档数据分类方法

Country Status (1)

Country Link
CN (1) CN107798113B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102891838A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种问答社区中推广内容的检测方法以及装置
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
US8892488B2 (en) * 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN105005559A (zh) * 2015-08-18 2015-10-28 东南大学 一种基于主题特征的文档分类方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170308790A1 (en) * 2016-04-21 2017-10-26 International Business Machines Corporation Text classification by ranking with convolutional neural networks

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8892488B2 (en) * 2011-06-01 2014-11-18 Nec Laboratories America, Inc. Document classification with weighted supervised n-gram embedding
CN102891838A (zh) * 2011-07-22 2013-01-23 腾讯科技(深圳)有限公司 一种问答社区中推广内容的检测方法以及装置
CN103605702A (zh) * 2013-11-08 2014-02-26 北京邮电大学 一种基于词相似度的网络文本分类方法
CN104933022A (zh) * 2014-03-20 2015-09-23 株式会社东芝 信息处理装置和信息处理方法
CN103942340A (zh) * 2014-05-09 2014-07-23 电子科技大学 一种基于文本挖掘的微博用户兴趣识别方法
CN105005559A (zh) * 2015-08-18 2015-10-28 东南大学 一种基于主题特征的文档分类方法
CN106776503A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 文本语义相似度的确定方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A Similarity Measure for Text Classification and Clustering";Yung-Shen Lin等;《IEEE Transactions on Knowledge and Data Engineering》;20140731(第7期);第1575-1588页 *
"基于mRMR和LDA主题模型的文本分类研究";史庆伟 等;《计算机工程与应用》;20150820;第127-133页 *

Also Published As

Publication number Publication date
CN107798113A (zh) 2018-03-13

Similar Documents

Publication Publication Date Title
CN108363810B (zh) 一种文本分类方法及装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
Santra et al. Genetic algorithm and confusion matrix for document clustering
CN111126488B (zh) 一种基于双重注意力的图像识别方法
CN105469096B (zh) 一种基于哈希二值编码的特征袋图像检索方法
CN104834940A (zh) 一种基于支持向量机的医疗影像检查疾病分类方法
CN110647907B (zh) 利用多层分类和字典学习的多标签图像分类算法
CN106156163B (zh) 文本分类方法以及装置
CN111080551B (zh) 基于深度卷积特征和语义近邻的多标签图像补全方法
CN106778834A (zh) 一种基于距离测度学习的ap聚类图像标注方法
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN112749274A (zh) 基于注意力机制和干扰词删除的中文文本分类方法
Schinas et al. CERTH@ MediaEval 2012 Social Event Detection Task.
Bouguila A model-based approach for discrete data clustering and feature weighting using MAP and stochastic complexity
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN106570170A (zh) 基于深度循环神经网络的文本分类和命名实体识别一体化方法及系统
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
CN102521599A (zh) 一种基于集成学习的模式训练和识别方法
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN111340057A (zh) 一种分类模型训练的方法及装置
CN109062958A (zh) 一种基于TextRank和卷积神经网络的小学作文自动分类方法
Gordo et al. A bag-of-pages approach to unordered multi-page document classification
CN114357221A (zh) 一种基于图像分类的自监督主动学习方法
CN106202116B (zh) 一种基于粗糙集与knn的文本分类方法及系统
US20230259761A1 (en) Transfer learning system and method for deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant