CN115098690A - 一种基于聚类分析的多数据文档分类方法及系统 - Google Patents

一种基于聚类分析的多数据文档分类方法及系统 Download PDF

Info

Publication number
CN115098690A
CN115098690A CN202211016694.9A CN202211016694A CN115098690A CN 115098690 A CN115098690 A CN 115098690A CN 202211016694 A CN202211016694 A CN 202211016694A CN 115098690 A CN115098690 A CN 115098690A
Authority
CN
China
Prior art keywords
cluster
clusters
classification
documents
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211016694.9A
Other languages
English (en)
Other versions
CN115098690B (zh
Inventor
韩承洁
朱健
张鹏
王碧君
穆德龙
杨宗畅
刘明扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CITIC Tianjin Financial Technology Service Co Ltd
Original Assignee
CITIC Tianjin Financial Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CITIC Tianjin Financial Technology Service Co Ltd filed Critical CITIC Tianjin Financial Technology Service Co Ltd
Priority to CN202211016694.9A priority Critical patent/CN115098690B/zh
Publication of CN115098690A publication Critical patent/CN115098690A/zh
Application granted granted Critical
Publication of CN115098690B publication Critical patent/CN115098690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明提出了一种基于聚类分析的多数据文档分类方法及系统,涉及文档数据处理技术领域,输入用于分类的多个文档,根据不同约束从多个文档中提取M个集合;对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语;根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合;重复上述步骤直至所有文档均聚类完成。

Description

一种基于聚类分析的多数据文档分类方法及系统
技术领域
本发明涉及文档数据处理技术领域,具体涉及一种基于聚类分析的多数据文档分类方法及系统。
背景技术
随着信息技术的发展,数据系统中记录文本数据日益增多,这些由管理者用自然语言记录的文本数据蕴含着重要的价值;系统文本数据在实际情况中可能出现没有提前标好标签的情况,在无标签的状况下无法使用有监督的机器学习方法进行分类,此时可以使用无监督的文本聚类算法对系统文本数据进行聚类分析。因此有必要研究系统文本数据的聚类分析。
文本聚类可以将同类的数据聚集在一起,进而将同类型的数据进行集中处理,或用相似的数据解决方法去解决同类问题。聚类信息可以应用于制定同类型数据解决方案、数据解决方案智能推荐等任务,大大提高了系统文本数据挖掘的效率和应用价值。
早期的文本分类主要基于人工定义一些规则来对文本进行分类,这种方法需要对专业知识有所了解,并且需要消耗大量的人力物力。随着机器学习的诞生,文本分类算法进入了研究的高峰,大量的实验结果证明机器学习比其手工方法有着更高的准确度,效率也更高,机器学习因此成为了文本分类的主流方法。机器学习方法主要包括朴素贝叶斯算法、人工神经网络算法、K最邻近(K Nearest Neighbor, KNN)算法、卷积神经网络(Convolutional Neural Network, CNN)和支持向量机分类算法等。朴素贝叶斯方法通过计算文本属于某个类别的概率来确定文本的类别,文本属于某类别的概率又取决于文本中包含的词汇属于某类别概率的综合表现。文本聚类的基本思想为:将相似度高的数据划分为相同类别,不同类别的数据的相似度尽可能小。文本分类的任务就是将文本数据分类,例如,将庞大的新闻数据分为政治,经济,文化,科技等类别。文本分类通常是需要一定的训练数据,这些数据事先己经被分好类,将这些训练数据输入到计算机当中,使用分类的方法进行分类。由于事先知道数据的类别,因此可以得知计算机分类的对错,通过不断的改进分类方法,可以使得计算机分类的准确度得到提高。
现有技术中,例如专利文献CN106815310A公开了一种对海量文档集的层次聚类方法及系统,使用LDA模型对文档集的文档-词项矩阵进行分析,进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵;对文档集进行Word Embedding模型的训练,进而将文档集的词典中的每个词项映射为一个多维向量;对文档集进行聚类分析后生成对应的层次主题树;基于建立的层次主题树对文档集进行层次聚类。但是该技术方案分类器的训练需要使用大量有类别信息的文本数据作为训练集,在大量文本数据的情况下,标注训练数据将会消耗很多的精力,大大降低分类效率,由此也限制了分类算法的应用领域。
再例如专利文献CN113779246A公开了一种基于句子向量的文本聚类分析方法,句子嵌入程序,得到句子向量;将句子向量作为文本聚类程序的输入,得到文本聚类程序的输出类别标签;运行文本聚类程序;在研究文本向量的生成方法的基础上,深入研究了文本向量化后的聚类方法和相关理论,结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析,从海量文本中总结出需求文档的撰写规律。但是该技术方案分类的成本和投入较高,效率不高,且不具备灵活性和自动化处理能力。
发明内容
为了解决上述技术问题,提出了一种基于聚类分析的多数据文档分类方法,包括如下步骤:
步骤S1,输入用于分类的多个文档,并将其存储在文件存储部;
步骤S2,根据不同约束从多个文档中提取M个集合;
步骤S3,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;
步骤S4,根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语,1≤w≤K;
步骤S5,根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;
步骤S6,基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合;
步骤S7,重复步骤S2-S7,直至所有文档均聚类完成。
进一步地,所述步骤S3中,使用加权公式(1)为每个文档的关键词语计算权值:
Wij=TFij×IDFj (1);
其中,Wij是文档i中的关键词语j的权重,TFij是文档i中的关键词语j的出现频率,IDFj是关键词语j在多个文档中出现的文档件数的比值对数;
设具有M个文档,M个文档中的N件文档包含关键词语j,则:
IDFj=log N/M (2);
则,加权公式(1)表示为:Wij=TFij×log N/M (3)。
进一步地,所述步骤S5中,若关键词语j 第一次出现在某个集群中,设其联系到其他Q-1个集群中的第q个集群的概率为
Figure DEST_PATH_IMAGE001
,且:
Figure 495093DEST_PATH_IMAGE002
;其中j=1、2、…、K;
计算每个集群q的矢量
Figure DEST_PATH_IMAGE003
Figure 445732DEST_PATH_IMAGE004
(4);
Figure DEST_PATH_IMAGE005
表示集群q的权重,
Figure 141286DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
为集群q中包含的w个关键词语的权值;
两个集群相似度用各个集群的矢量
Figure 493770DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
的内积值r12来表示:
Figure 498635DEST_PATH_IMAGE010
(5);
其中,
Figure DEST_PATH_IMAGE011
为矢量
Figure 936570DEST_PATH_IMAGE008
Figure 668772DEST_PATH_IMAGE009
间的夹角;
将内积值小于设定阈值rt的多个集群结合而形成大集群,根据大集群所包含各个集群的矢量合成大集群的矢量。
进一步地,所述步骤S6具体包括如下步骤:
步骤S61、计算各个集合之间的大集群X和Y的关联度S:
Figure 141341DEST_PATH_IMAGE012
(6);
其中,D为大集群的总数;
步骤S62、提取与目标集合的特征属性相匹配的大集群所在的集合;
设与目标集合待匹配的大集群所在的集合为CR={CR1、…、CRL、…、CRD},待匹配的集合中的正分类大集群为r+;负分类大集群为r,正分类关联度影响因子
Figure DEST_PATH_IMAGE013
和负分类关联度影响因子
Figure 254791DEST_PATH_IMAGE014
计算待匹配的大集群所在的集合CR与目标集合的关联度加权和W(S):
Figure DEST_PATH_IMAGE015
(7);
其中,
Figure 242338DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
分别为大集群r+和r-分别与待匹配的大集群的关联度;
最大关联度加权和对应的大集群所在的集合为预测集合Ps:
Figure 279696DEST_PATH_IMAGE018
(8);
其中,
Figure DEST_PATH_IMAGE019
表示由第k个的待匹配的大集群所在的集合的关联度加权和,L=1,2,... ,D,max()为最大值函数。
本发明还提出了一种基于聚类分析的多数据文档分类系统,用于实现上述的分类方法,包括:文件存储部、集合提取部、关键词提取部、集群分类单元、集群相似度计算部和聚类关联部;
文件存储部,存储用于分类的多个文档;
集合提取部,根据不同约束从多个文档中提取M个集合;
关键词提取部,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;
集群分类单元,根据排序的前K个关键词语,将每个集合分类为Q个集群;
集群相似度计算部,根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;
聚类关联部,基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合。
进一步地,所述约束为时间信息、与目标信息内容相关的约束、在目标地点或位置产生的信息相关的约束中的一种或多种。
相比于现有技术,本发明具有如下有益技术效果:
根据不同约束从多个文档中提取多个集合,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;根据排序的前K个关键词语,将每个集合分类为多个集群;根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合。由于本技术方案是根据集群矢量和大集群相似度得到与目标集合的关联度较强的集合,可解决提取的关键词语义信息冗余的问题,能够更加准确地确定数据文档的聚类类型,使聚类结果能够更接近实际需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图:
图1为本发明的基于聚类分析的多数据文档分类流程示意图;
图2为本发明的提取与目标集合的特征属性相匹配的大集群所在的集合的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
本发明的基于聚类分析的多数据文档分类系统包括:文件存储部、集合提取部、关键词提取部、集群分类单元、集群相似度计算部和聚类关联部;
文件存储部,存储用于分类的多个文档;
集合提取部, 根据不同约束从多个文档中提取M个集合;
关键词提取部,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;
集群分类单元,根据排序的前K个关键词语,将每个集合分类为Q个集群;
集群相似度计算部, 根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;
聚类关联部, 基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合。
如图1所示,为本发明的基于聚类分析的多数据文档分类方法流程示意图,包括如下步骤:
步骤S1,输入用于分类的多个文档,并将其存储在文件存储部。
步骤S2,根据不同约束从多个文档中提取M个集合。
步骤S3,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序。
假定对所有的文档都能明确其具体的语义表示形式,从而可以明确地判断出关键词语 T 在每个出现该词语的文档中所实现的具体语义。
使用加权公式(1)为每个文档的关键词语计算权值:
Wij=TFij×IDFj (1);
在式(1)中,Wij是文档i中的关键词语j的权重,TFij是文档i中的关键词语j的出现频率,IDFj是关键词语j在多个文档中出现的文档件数的比值对数。
设具有M个文档,M个文档中的N件文档包含关键词语j,则:
IDFj=log N/M (2);
则,加权公式(1)可表示为:Wij=TFij×log N/M (3);
根据加权结果,在每个集合中,按照权重从大到小的顺序对每个关键词语排序。
步骤S4,根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语,1≤w≤K,具体分类方法可采用现有技术中的集群分类规则进行。
步骤S5,根据每个集合中的集群的权重,计算每个集合中的集群相似度。
若关键词语j 第一次出现在某个集群中,设其联系到其他Q-1个集群中的第q个集群的概率为
Figure 341192DEST_PATH_IMAGE001
,且:
Figure 625543DEST_PATH_IMAGE002
其中j=1、2、…、K。
按照下式(4)计算每个集群q的矢量
Figure 100387DEST_PATH_IMAGE003
Figure 128386DEST_PATH_IMAGE004
(4);
Figure 309968DEST_PATH_IMAGE005
表示集群q的权重,
Figure 811226DEST_PATH_IMAGE006
Figure 711049DEST_PATH_IMAGE007
为集群q中包含的w个关键词语的权值,均按照式(1)计算。
根据上述式(4)的矢量
Figure 277159DEST_PATH_IMAGE003
判定集群相似度。两个集群相似度使用各个集群的矢量
Figure 578828DEST_PATH_IMAGE008
Figure 1719DEST_PATH_IMAGE009
的内积值r12来表示,内积值r12由下式(5)计算:
Figure 388838DEST_PATH_IMAGE010
(5);
其中,
Figure 758639DEST_PATH_IMAGE011
为矢量
Figure 649235DEST_PATH_IMAGE008
Figure 259339DEST_PATH_IMAGE009
间的夹角。
将内积值小于设定阈值rt的多个集群结合而形成大集群,根据大集群所包含各个集群的矢量合成大集群的矢量。
在优选实施例中,可以采用基于关联度的去繁算法来控制大集群的指数级增长,即,如果某个集群是频繁的,那么该集群的所有子集群也是频繁的。如果某个集群是非频繁的,那么该集群所有的子集群也是非频繁的。
步骤S6,基于大集群的关联度,挖掘具有强关联规则的集合间的大集群,彼此建立强关联规则链接,计算M个集合间的相似度,具体包括如下步骤:
步骤S61、计算各个集合之间的大集群的关联度。
关联度S:表示分别位于两个集合中的大集群X和Y的关联规则强弱度,采用下式(6)计算:
Figure 868175DEST_PATH_IMAGE012
(6);
其中,D为大集群的总数,由于每个集合中形成的大集群数不小于一个,因此,M≤D。
步骤S62、提取与目标集合的特征属性相匹配的大集群所在的集合。
如图2所示,为提取与目标集合的特征属性相匹配的大集群所在的集合的流程图,设与目标集合待匹配的大集群所在的集合为CR={CR1、…、CRL、…、CRD},其中,待匹配的集合中的正分类大集群为r+;负分类大集群为r-。设置两个影响因子:正分类关联度影响因子
Figure 41667DEST_PATH_IMAGE013
和负分类关联度影响因子
Figure 114665DEST_PATH_IMAGE014
计算待匹配的大集群所在的集合CR与目标集合的关联度加权和W(S):
Figure 82621DEST_PATH_IMAGE015
(7);
其中,
Figure 178753DEST_PATH_IMAGE016
Figure 890357DEST_PATH_IMAGE017
分别为大集群r+和r-分别与待匹配的大集群的关联度。
最大关联度加权和对应的大集群所在的集合即为预测集合Ps:
Figure 67130DEST_PATH_IMAGE018
(8);
其中,
Figure 205987DEST_PATH_IMAGE019
表示由第k个的待匹配的大集群所在的集合的关联度加权和,L=1,2,... ,D,max()为最大值函数。
预测集合Ps所在的文档则是与目标文档同类型的数据文档,重复上述计算步骤,直至所有数据文档均聚类完成。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于聚类分析的多数据文档分类方法,其特征在于,包括如下步骤:
步骤S1,输入用于分类的多个文档,并将其存储在文件存储部;
步骤S2,根据不同约束从多个文档中提取M个集合;
步骤S3,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;
步骤S4,根据排序的前K个关键词语,将每个集合分类为Q个集群,其中每个集群中包括w个关键词语,1≤w≤K;
步骤S5,根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;
步骤S6,基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合;
步骤S7,重复步骤S2-S7,直至所有文档均聚类完成。
2.根据权利要求1所述的多数据文档分类方法,其特征在于,所述步骤S3中,使用加权公式(1)为每个文档的关键词语计算权值:
Wij=TFij×IDFj (1);
其中,Wij是文档i中的关键词语j的权重,TFij是文档i中的关键词语j的出现频率,IDFj是关键词语j在多个文档中出现的文档件数的比值对数;
设具有M个文档,M个文档中的N件文档包含关键词语j,则:
IDFj=log N/M (2);
则,加权公式(1)表示为:Wij=TFij×log N/M (3)。
3.根据权利要求2所述的多数据文档分类方法,其特征在于,所述步骤S5中,若关键词语j 第一次出现在某个集群中,设其联系到其他Q-1个集群中的第q个集群的概率为
Figure 934643DEST_PATH_IMAGE001
,且:
Figure 664833DEST_PATH_IMAGE002
;其中j=1、2、…、K;
计算每个集群q的矢量
Figure 444570DEST_PATH_IMAGE003
Figure 839779DEST_PATH_IMAGE004
(4);
Figure 654151DEST_PATH_IMAGE005
表示集群q的权重,
Figure 538931DEST_PATH_IMAGE006
Figure 117549DEST_PATH_IMAGE007
为集群q中包含的w个关键词语的权值;
两个集群相似度用各个集群的矢量
Figure 316449DEST_PATH_IMAGE008
Figure 985327DEST_PATH_IMAGE009
的内积值r12来表示:
Figure 978691DEST_PATH_IMAGE010
(5);
其中,
Figure 795337DEST_PATH_IMAGE011
为矢量
Figure 532349DEST_PATH_IMAGE008
Figure 55735DEST_PATH_IMAGE009
间的夹角;
将内积值小于设定阈值rt的多个集群结合而形成大集群,根据大集群所包含各个集群的矢量合成大集群的矢量。
4.根据权利要求1所述的多数据文档分类方法,其特征在于,所述步骤S6具体包括如下步骤:
步骤S61、计算各个集合之间的大集群X和Y的关联度S:
Figure 485579DEST_PATH_IMAGE012
(6);
其中,D为大集群的总数;
步骤S62、提取与目标集合的特征属性相匹配的大集群所在的集合;
设与目标集合待匹配的大集群所在的集合为CR={CR1、…、CRL、…、CRD},待匹配的集合中的正分类大集群为r+;负分类大集群为r,正分类关联度影响因子
Figure 540254DEST_PATH_IMAGE013
和负分类关联度影响因子
Figure 815377DEST_PATH_IMAGE014
计算待匹配的大集群所在的集合CR与目标集合的关联度加权和W(S):
Figure 458848DEST_PATH_IMAGE015
(7);
其中,
Figure 856331DEST_PATH_IMAGE016
Figure 585253DEST_PATH_IMAGE017
分别为大集群r+和r-分别与待匹配的大集群的关联度;
最大关联度加权和对应的大集群所在的集合为预测集合Ps:
Figure 664068DEST_PATH_IMAGE018
(8);
其中,
Figure 162045DEST_PATH_IMAGE019
表示由第k个的待匹配的大集群所在的集合的关联度加权和,L=1,2,... ,D,max()为最大值函数。
5.一种基于聚类分析的多数据文档分类系统,其特征在于,用于实现如权利要求1-4所述的分类方法,包括:文件存储部、集合提取部、关键词提取部、集群分类单元、集群相似度计算部和聚类关联部;
文件存储部,存储用于分类的多个文档;
集合提取部,根据不同约束从多个文档中提取M个集合;
关键词提取部,对多个关键词语分别进行加权计算;根据加权结果,从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序;
集群分类单元,根据排序的前K个关键词语,将每个集合分类为Q个集群;
集群相似度计算部,根据每个集群的矢量计算集群相似度,将内积值小于设定阈值的多个集群结合而形成大集群;
聚类关联部,基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和,选出最大关联度加权和对应的大集群所在的集合。
6.根据权利要求5所述的多数据文档分类系统,其特征在于,所述约束为时间信息、与目标信息内容相关的约束、在目标地点或位置信息相关的约束中的一种或多种。
CN202211016694.9A 2022-08-24 2022-08-24 一种基于聚类分析的多数据文档分类方法及系统 Active CN115098690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211016694.9A CN115098690B (zh) 2022-08-24 2022-08-24 一种基于聚类分析的多数据文档分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211016694.9A CN115098690B (zh) 2022-08-24 2022-08-24 一种基于聚类分析的多数据文档分类方法及系统

Publications (2)

Publication Number Publication Date
CN115098690A true CN115098690A (zh) 2022-09-23
CN115098690B CN115098690B (zh) 2023-02-24

Family

ID=83299849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211016694.9A Active CN115098690B (zh) 2022-08-24 2022-08-24 一种基于聚类分析的多数据文档分类方法及系统

Country Status (1)

Country Link
CN (1) CN115098690B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859128A (zh) * 2023-02-23 2023-03-28 成都瑞安信信息安全技术有限公司 一种基于档案数据交互相似度的分析方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370513B1 (en) * 1997-08-08 2002-04-09 Parasoft Corporation Method and apparatus for automated selection, organization, and recommendation of items
JP2005092443A (ja) * 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
JP2008009671A (ja) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
CN106776878A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种基于ElasticSearch对MOOC课程进行分面检索的方法
US20220222287A1 (en) * 2019-05-17 2022-07-14 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6370513B1 (en) * 1997-08-08 2002-04-09 Parasoft Corporation Method and apparatus for automated selection, organization, and recommendation of items
JP2005092443A (ja) * 2003-09-16 2005-04-07 Mitsubishi Research Institute Inc クラスター分析装置およびクラスター分析方法
JP2008009671A (ja) * 2006-06-29 2008-01-17 National Institute Of Information & Communication Technology データ表示装置、データ表示方法及びデータ表示プログラム
CN106776878A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种基于ElasticSearch对MOOC课程进行分面检索的方法
US20220222287A1 (en) * 2019-05-17 2022-07-14 Aixs, Inc. Cluster analysis method, cluster analysis system, and cluster analysis program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859128A (zh) * 2023-02-23 2023-03-28 成都瑞安信信息安全技术有限公司 一种基于档案数据交互相似度的分析方法和系统

Also Published As

Publication number Publication date
CN115098690B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
Bai et al. Particle swarm optimization based two-stage feature selection in text mining
CN107357895B (zh) 一种基于词袋模型的文本表示的处理方法
Farhoodi et al. Applying machine learning algorithms for automatic Persian text classification
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN111984791A (zh) 一种基于注意力机制的长文分类方法
CN113779246A (zh) 基于句子向量的文本聚类分析方法及系统
Alsaidi et al. English poems categorization using text mining and rough set theory
Carvalho et al. TF-IDFC-RF: a novel supervised term weighting scheme
CN115098690B (zh) 一种基于聚类分析的多数据文档分类方法及系统
Zobeidi et al. Effective text classification using multi-level fuzzy neural network
Wei et al. Study of text classification methods for data sets with huge features
Elgeldawi et al. Hyperparameter Tuning for Machine Learning Algorithms Used for Arabic Sentiment Analysis. Informatics 2021, 8, 79
Senthilkumar et al. A Survey On Feature Selection Method For Product Review
Wang et al. Discriminant mutual information for text feature selection
Banerjee et al. A novel centroid based sentence classification approach for extractive summarization of COVID-19 news reports
CN114298020A (zh) 一种基于主题语义信息的关键词向量化方法及其应用
Yafooz et al. Enhancing multi-class web video categorization model using machine and deep learning approaches
Kowsher et al. Bangla topic classification using supervised learning
Parsafard et al. Text classification based on discriminative-semantic features and variance of fuzzy similarity
Sheela et al. Caviar-Sunflower Optimization Algorithm-Based Deep Learning Classifier for Multi-Document Summarization
CN113157915A (zh) 一种基于集群环境的朴素贝叶斯文本分类方法
Mittal et al. A performance comparisons of machine learning classification techniques for job titles using job descriptions
Alshalif et al. Alternative Relative Discrimination Criterion Feature Ranking Technique for Text Classification
Aboalnaser Machine learning algorithms in arabic text classification: A review
Ge et al. Chinese news hot subtopic discovery and recommendation method based on key phrase and the LDA model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant