CN107798113A - 一种基于聚类分析的文档数据分类方法 - Google Patents
一种基于聚类分析的文档数据分类方法 Download PDFInfo
- Publication number
- CN107798113A CN107798113A CN201711063868.6A CN201711063868A CN107798113A CN 107798113 A CN107798113 A CN 107798113A CN 201711063868 A CN201711063868 A CN 201711063868A CN 107798113 A CN107798113 A CN 107798113A
- Authority
- CN
- China
- Prior art keywords
- mrow
- document
- theme
- sample
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于聚类分析的文档数据分类方法,主要弥补在目前文档分类问题中,及现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)通过本发明提出的方法将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。
Description
技术领域
本发明涉及一种基于聚类分析的文档数据分类方法,含有多主题的弱监督文档数据处理技术领域。
背景技术
如今互联网技术正处于高速蓬勃发展之中,随之而来的是信息量的爆发。web文档的数量正呈现出指数级增长的趋势,文档数据的管理和分类已然成为一个重要的研究课题。文档分类技术是一种高效地对未分类文档进行归类的技术,该方法根据用户提交给分类装置的样例文档,对文档库中未被分类的文档进行快速、准确地分类。一种行之有效的策略是将分类过程看成学习的过程,使用机器学习的技术对用户提交的样例文档进行学习,最终得到一个分类模型。最后使用这个经过训练得到的模型对文档进行分类。
一篇文档通常具备大量的词汇,并对应多种主题。现有的文档分类技术往往受限于大量文本词汇所带来的维度灾难,并使用相同的特征在所有主题上进行训练学习。而不同主题通常更关注于不同的特征,使用相同的特征对其进行预测往往无法取得较好的结果。
发明内容
发明目的:针对目前文档分类问题中,现有技术使用相同的特征在不同的主题上进行预测而产生的性能不足问题。本发明提出一种基于聚类分析的文档数据分类方法,旨在利用聚类分析,挖掘特征空间中针对文档的不同主题的不同隐藏性质,并为每一种主题特化出其独特的特征,再结合主题之间的联系性,对该特征进行更新,从而为每一种主题生成维度更低、更具判别性的特征,通过在该特征上训练分类器来提高文档分类装置的性能。
技术方案:一种基于聚类分析的文档数据分类方法,为了能够针对文档的不同主题,提取该主题最关注的特征信息以更好地区分和判别文档的主题,本发明通过聚类分析技术以获取这一特征,并对文档进行更好更有效的分类。该方法包括以下步骤:(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;(2)将选取的文档的初始特征针对每一种主题转化为新的特征;(3)对每一类主题,在新的特征上学习得到分类模型;(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;(6)结束。
有益效果:不同于现有的文档分类方法使用同一特征空间在所有的主题上进行预测的方式,本发明基于聚类分析技术对每种主题分别考虑其特征构成。通过聚类分析能够有效挖掘数据内在性质的特性,为每一种主题生成维度更低、并更具判别性的特征,再考虑主题间的联系性将这些特征进一步更新,从而使学习系统更具稳定性和鲁棒性。
附图说明
图1是文档分类装置的工作流程图;
图2是本发明方法的流程图;
图3是第一层聚类分析的流程图;
图4是第二层聚类分析的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,文档存储设备中存放的是待分类的文档,另有一个包含大量具备多种主题的文档的文档库,文档库中的每篇文档均与一个或多个主题相关联。用户从文档库中选取N篇已分类文档提交给文档分类装置。文档的初始特征由一种常用的方法生成,即使用所有可能出现在文档中的词作为特征项。在实际应用中,由于将所有的词作为特征项使得特征向量的维度过大而为训练过程带来极大的计算量,故使用了一些常用的特征降维技术进行降维处理,如词频(Term Frequency,记为TF)、词频-逆文档词频(Term Frequency-Inverse Document Frequency,记为TF-IDF)等。该文档分类装置通过本发明提出的方法将选取的文档的初始特征针对每一种主题转化为新的特征。对每一类主题,在新的特征上学习得到分类模型。基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果,如图1所示。如果用户对所得结果不满意,可以从文档库中选取更多的样例文档反馈给文档分类装置。
本发明涉及的方法如图2所示。步骤10是起始动作。假设用户选取的查询文档对应于集合D={(xi,Yi)|1≤i≤N},其中Yi为文档样本xi所对应的主题集合,T为所有可能的主题个数。步骤11对于每个可能的主题,分别在正类样本和负类样本上进行聚类分析,其详细说明如图3所示。这一步在每个主题上得到聚类结果在步骤12中通过使用其他主题上的聚类结果得到优化,详细说明如图4所示。假设在第t个主题上得到的聚类结果的聚类中心为则步骤13将更新的聚类结果通过样本到这些聚类中心的距离来构建映射,从而将原d维特征xi=[xi1,xi2,…,xid]转化为新的d′维特征zi=[zi1,zi2,…,zid′]。其中第j项为:
步骤14为每个主题在得到的新特征上训练分类模型,并在步骤15中,利用得到的分类模型为待分类文档进行分类预测,最终输出分类结果。在输出分类结果后,即进入步骤16所示的结束状态。
图3给出了图2中步骤11的详细描述,是对每个主题上的第一层聚类分析。图3中的步骤1100是起始状态。步骤1101至1107构成了一个循环体,循环的每一轮中针对第t个主题进行聚类分析。其中,步骤1103首先对于主题t,将样本划分为正类样本集合S+与负类样本集合S-,如果样本与主题t相关联,则样本属于正类样本集合,否则属于负类样本集合。然后步骤1104为两个样本集合计算其聚类数Nt,即
步骤1105和步骤1106分别对正类样本集合S+与负类样本集合S-进行聚类分析,各聚Nt个类。当所有主题上的聚类完成后,随即进入步骤1108的结束状态。
图4给出了图2中步骤12的详细描述,是对每个主题已有的第一层聚类分析结果上进行的第二层聚类分析。图4中的步骤1200是起始状态。步骤1201至1204构成了一个循环体,循环的每一轮中针对第t个主题对步骤11中得到的聚类结果进行处理。步骤1203中根据聚类结果计算得到两两样本之间的相似度,以相似度矩阵Wt来表示。如果样本xi与xj属于同一个聚类簇,那么Wtij=1,否则Wtij=0。步骤1205至1209构成了一个循环体,循环的每一轮中对第t个主题上的聚类结果进行更新。步骤1207中对两两样本之间的相似度进行更新,得到新的相似度矩阵Wt′,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到,如下所示
其中,λt是归一化系数,Δtk是主题t与主题k之间的相似度。步骤1208对更新后的相似度矩阵Wt′进行图像分割,从而得到更新后的聚类结果。当所有主题上的聚类分析结果得到更新之后,随即进入步骤1210的结束状态。
本发明给出了一种基于聚类分析的文档分类的方法,该方法通过两层聚类分析,为每类主题生成其独特的维度更低、并更具判别性的特征,基于这种特征进行学习和训练,可以提高模型训练效率,提高学习系统的有效性、稳定性和鲁棒性。
Claims (5)
1.一种基于聚类分析的文档数据分类方法,其特征在于,该方法包括以下步骤:
(1)用户从已有的文档库中选择样例文档,其中每个文档都具备多个主题;
(2)将选取的文档的初始特征针对每一种主题转化为新的特征;
(3)对每一类主题,在新的特征上学习得到最终分类模型;
(4)基于最终分类模型对文档存储设备中待分类文档进行分类,并返回分类结果;
(5)如果用户对分类结果满意,则执行步骤6,否则从文档库中选择更多的查询图像进行反馈,执行步骤2;
(6)结束。
2.根据权利要求1中所述的基于聚类分析的文档数据分类方法,其特征在于,步骤2将选取的文档的初始特征针对每一种主题转化为新的特征,具体包括:假设用户选取的查询文档对应于集合D={(xi,Yi)|1≤i≤N},其中Yi为文档样本xi所对应的主题集合,T为所有可能的主题个数。对每种主题t(1≤t≤T),分别在正类样本和负类样本上进行聚类分析,每个主题上得到聚类结果通过使用其他主题上的聚类结果得到优化;假设在第t个主题上得到的聚类结果的聚类中心为则将更新的聚类结果通过样本到这些聚类中心的距离来构建映射,从而将原d维特征xi=[xi1,xi2,…,xid]转化为新的d′维特征zi=[zi1,zi2,…,zid′];其中第j项为:
<mrow>
<msub>
<mi>z</mi>
<mrow>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mo>|</mo>
<mrow>
<msub>
<mi>x</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msubsup>
<mi>c</mi>
<mi>j</mi>
<mi>t</mi>
</msubsup>
</mrow>
<mo>|</mo>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
为每个主题在得到的新特征上训练分类模型,并利用得到的分类模型为待分类文档进行分类预测,最终输出分类结果。
3.根据权利要求2中所述的基于聚类分析的文档数据分类方法,其特征在于,在正类样本和负类样本上进行聚类分析:首先对于主题t,将样本划分为正类样本集合S+与负类样本集合S-,如果样本与主题t相关联,则样本属于正类样本集合,否则属于负类样本集合;然后为两个样本集合计算其聚类数Nt,即
<mrow>
<msub>
<mi>N</mi>
<mi>t</mi>
</msub>
<mo>=</mo>
<mi>c</mi>
<mi>e</mi>
<mi>i</mi>
<mi>l</mi>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mi>m</mi>
<mi>i</mi>
<mi>n</mi>
<mrow>
<mo>(</mo>
<mo>|</mo>
<msup>
<mi>S</mi>
<mo>+</mo>
</msup>
<mo>|</mo>
<mo>,</mo>
<mo>|</mo>
<msup>
<mi>S</mi>
<mo>-</mo>
</msup>
<mo>|</mo>
<mo>)</mo>
</mrow>
</mrow>
<mn>10</mn>
</mfrac>
<mo>)</mo>
</mrow>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>2</mn>
<mo>)</mo>
</mrow>
</mrow>
分别对正类样本集合S+与负类样本集合S-进行聚类分析,各聚Nt个类。当所有主题上的聚类完成后,随即进入下一步的结束状态。
4.根据权利要求3中所述的基于聚类分析的文档数据分类方法,其特征在于,在每个主题上得到聚类结果通过使用其他主题上的聚类结果得到优化:针对第t个主题得到的聚类结果,计算得到两两样本之间的相似度,以相似度矩阵Wt来表示;如果样本xi与xj属于同一个聚类簇,那么Wtij=1,否则Wtij=0;对两两样本之间的相似度进行更新,得到新的相似度矩阵Wt′,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到,对更新后的相似度矩阵Wt′进行图像分割,从而得到更新后的聚类结果。
5.根据权利要求4中所述的基于聚类分析的文档数据分类方法,其特征在于,样本xi与xj之间的相似度由所有主题上的相似度矩阵加权和得到:
<mrow>
<msubsup>
<mi>W</mi>
<mrow>
<mi>t</mi>
<mi>i</mi>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>&Delta;</mi>
<mrow>
<mi>t</mi>
<mi>k</mi>
</mrow>
</msub>
<msub>
<mi>W</mi>
<mrow>
<mi>k</mi>
<mi>i</mi>
<mi>j</mi>
</mrow>
</msub>
</mrow>
<msub>
<mi>&lambda;</mi>
<mi>t</mi>
</msub>
</mfrac>
</mrow>
中,λt是归一化系数,Δtk是主题之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711063868.6A CN107798113B (zh) | 2017-11-02 | 2017-11-02 | 一种基于聚类分析的文档数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711063868.6A CN107798113B (zh) | 2017-11-02 | 2017-11-02 | 一种基于聚类分析的文档数据分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107798113A true CN107798113A (zh) | 2018-03-13 |
CN107798113B CN107798113B (zh) | 2021-11-12 |
Family
ID=61548783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711063868.6A Active CN107798113B (zh) | 2017-11-02 | 2017-11-02 | 一种基于聚类分析的文档数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798113B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102891838A (zh) * | 2011-07-22 | 2013-01-23 | 腾讯科技(深圳)有限公司 | 一种问答社区中推广内容的检测方法以及装置 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
US8892488B2 (en) * | 2011-06-01 | 2014-11-18 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
CN104933022A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 信息处理装置和信息处理方法 |
CN105005559A (zh) * | 2015-08-18 | 2015-10-28 | 东南大学 | 一种基于主题特征的文档分类方法 |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
-
2017
- 2017-11-02 CN CN201711063868.6A patent/CN107798113B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8892488B2 (en) * | 2011-06-01 | 2014-11-18 | Nec Laboratories America, Inc. | Document classification with weighted supervised n-gram embedding |
CN102891838A (zh) * | 2011-07-22 | 2013-01-23 | 腾讯科技(深圳)有限公司 | 一种问答社区中推广内容的检测方法以及装置 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
CN104933022A (zh) * | 2014-03-20 | 2015-09-23 | 株式会社东芝 | 信息处理装置和信息处理方法 |
CN103942340A (zh) * | 2014-05-09 | 2014-07-23 | 电子科技大学 | 一种基于文本挖掘的微博用户兴趣识别方法 |
CN105005559A (zh) * | 2015-08-18 | 2015-10-28 | 东南大学 | 一种基于主题特征的文档分类方法 |
US20170308790A1 (en) * | 2016-04-21 | 2017-10-26 | International Business Machines Corporation | Text classification by ranking with convolutional neural networks |
CN106776503A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 文本语义相似度的确定方法及装置 |
Non-Patent Citations (2)
Title |
---|
YUNG-SHEN LIN等: ""A Similarity Measure for Text Classification and Clustering"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 * |
史庆伟 等: ""基于mRMR和LDA主题模型的文本分类研究"", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107798113B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bansal et al. | Improved k-mean clustering algorithm for prediction analysis using classification technique in data mining | |
CN102332012B (zh) | 基于类别之间相关性学习的中文文本分类方法 | |
CN1316419C (zh) | 从形成模型的共同可能性进行预测 | |
CN107967575B (zh) | 一种人工智能保险咨询服务人工智能平台系统 | |
CN103309953B (zh) | 一种基于多rbfnn分类器集成的多样化图像标注和检索方法 | |
Bautista et al. | Minimal design of error-correcting output codes | |
Tsai et al. | Evolutionary instance selection for text classification | |
CN104834940A (zh) | 一种基于支持向量机的医疗影像检查疾病分类方法 | |
CN102567464A (zh) | 基于扩展主题图的知识资源组织方法 | |
CN103617435A (zh) | 一种主动学习图像分类方法和系统 | |
CN108897791B (zh) | 一种基于深度卷积特征和语义相似度量的图像检索方法 | |
Vu et al. | Convolutional neural networks improve fungal classification | |
CN1723468A (zh) | 采用照明不变神经网络的计算机视觉系统和方法 | |
CN101877064A (zh) | 图像分类方法及图像分类装置 | |
Parvin et al. | A classifier ensemble of binary classifier ensembles | |
CN101256631A (zh) | 一种字符识别的方法、装置、程序和可读存储介质 | |
US20230162215A1 (en) | Methods and apparatus to perform multi-level hierarchical demographic classification | |
CN113436684A (zh) | 一种癌症分类和特征基因选择方法 | |
CN114329233A (zh) | 一种跨区域跨评分协同过滤推荐方法及系统 | |
Singh et al. | Feature selection based classifier combination approach for handwritten Devanagari numeral recognition | |
CN109062958A (zh) | 一种基于TextRank和卷积神经网络的小学作文自动分类方法 | |
CN111831822A (zh) | 一种基于文本多分类混合式均分聚类采样算法的不平衡数据集文本多分类方法 | |
CN108846128A (zh) | 一种基于自适应噪音降噪编码器的跨领域文本分类方法 | |
CN103345525B (zh) | 文本分类方法、装置及处理器 | |
Parvin et al. | A scalable method for improving the performance of classifiers in multiclass applications by pairwise classifiers and GA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |