CN114547316A - 凝聚型层次聚类算法优化系统、方法、设备、介质及终端 - Google Patents

凝聚型层次聚类算法优化系统、方法、设备、介质及终端 Download PDF

Info

Publication number
CN114547316A
CN114547316A CN202210453344.2A CN202210453344A CN114547316A CN 114547316 A CN114547316 A CN 114547316A CN 202210453344 A CN202210453344 A CN 202210453344A CN 114547316 A CN114547316 A CN 114547316A
Authority
CN
China
Prior art keywords
text
clustering
target
clusters
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210453344.2A
Other languages
English (en)
Other versions
CN114547316B (zh
Inventor
吴哲
李志鹏
石珺
廖勇
杨阳朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanglian Anrui Network Technology Co ltd
Original Assignee
Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Wanglian Anrui Network Technology Co ltd filed Critical Shenzhen Wanglian Anrui Network Technology Co ltd
Priority to CN202210453344.2A priority Critical patent/CN114547316B/zh
Publication of CN114547316A publication Critical patent/CN114547316A/zh
Application granted granted Critical
Publication of CN114547316B publication Critical patent/CN114547316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于自然语言处理技术领域,公开了凝聚型层次聚类算法优化系统、方法、设备、介质及终端,对凝聚型层次聚类算法的计算过程进行优化,将目标聚类样本拆分为多个组团,对不同组团分别进行聚类后,对不同聚类组团进行合并,得到最终的聚类结果。为避免计算量随样本量增加呈指数级增长的问题,有效提升凝聚型层次聚类算法的计算效率。本发明优化后的算法能够支持多进程计算,针对不同组团的聚类可同步进行,通过对多进程计算的支持,可显著提升计算效率。针对10000条文本数据进行聚类测试,本发明优化后的算法聚类部分计算时长约为30.1s,传统算法聚类部分计算时长约为101.5s,优化后算法聚类计算效率有显著提升。

Description

凝聚型层次聚类算法优化系统、方法、设备、介质及终端
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种针对凝聚型层次聚类算法的计算优化系统、计算优化方法、计算机设备、计算机可读存储介质、信息数据处理终端。
背景技术
聚类是一种无监督学习方式,目的是把一个数据根据某种规则划分为多个子数据,一个子数据就称为一个聚类。文本聚类则是将聚类的方法应用于文本类数据,通过对不同文本进行相似度比较,将相似度高的文本归为一类的计算方法。由于数据应用场合不同,不同的聚类方式侧重点不同,各有优势和缺陷,因此目前没有一个通用的聚类算法,目前聚类算法主要分为以下几类:
基于划分的聚类算法、基于层次的聚类算法、基于密度的聚类算法、基于网格的聚类算法、基于模型的聚类算法以及基于模糊的聚类算法。
凝聚式层次聚类算法(Hierarchical Agglomerative Clustering,HAC)顾名思义是凝聚数据样本,它的聚类方向是从子数据向上不断合并。凝聚式层次聚类算法首先从底部分散的单个样本开始依次计算与其他样本的距离,然后选择距离最小样本并与其合并成一个新的样本集,再重复上述过程直到形成一个包含所有样本的簇,或者达到迭代次数。
在如何针对凝聚型层次聚类算法进行优化,解决其存在的计算量随样本量增加呈指数级增长的问题,使凝聚型层次聚类算法能够在针对大批量数据的聚类时仍具有较高的计算效率,因此本发明提出了一种针对凝聚型层次聚类算法的计算优化方法。
通过上述分析,现有技术存在的问题及缺陷为:现有技术微博数据信息处理中,凝聚型层次聚类算法再进行初期聚类时,需要分别计算每个样本与其它样本间的距离(样本间距离的计算可采用欧氏距离、余弦距离等多种计算方式),伴随着目标分析样本数量的增大,计算量会呈现指数级的增长,导致在数据处理终端面对大批量样本的聚类需求时,采用凝聚型层次聚类算法计算效率极其低下,使得针对大批量文本数据信息处理占用过多时长与计算资源,处理效果差,使用户无法通过终端及时快速获取准确信息。
例如,当目标样本为100个时,需进行样本间距离计算最少次数为(99+1)/2*99 =4950; 当目标样本为1000个时,需进行样本间距离计算最少次数为(999+1)/2*999 =499500,目标样本数量仅扩充了10倍,但计算总量扩充了约100倍。
解决以上问题及缺陷的难度为:凝聚型层次聚类算法在针对大批量文本计算时出现计算量指数级增长是由于其原始计算机制导致的,非计算流程或设备性能问题,若要进行优化则需对凝聚型层次聚类算法的深层计算机制进行调整,避免计算量随文本量的增加呈现指数级增长;在对计算机制调整的同时,还应保证聚类结果的准确性。
解决以上问题及缺陷的意义为:极大提升凝聚型层次聚类算法针对大批量文本进行计算的计算性能,使凝聚型层次聚类算法具备更佳的实用性与更广的泛用性,可应用于针对大批量文本的聚类处理。
发明内容
为克服相关技术中存在的问题,本发明公开实施例提供了一种微博信息中计算优化方法、系统、计算机设备、介质及终端。
所述技术方案如下:一种针对凝聚型层次聚类算法的计算优化系统,包括:
目标文本数据获取与清洗模块,用于通过正则表达式对存在广告、表情符号、特殊字符及超链接内容的原始的文本数据进行剔除;
目标文本数据量统计模块,用于对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否采用优化后的算法,对目标聚类文本进行拆分;
目标文本数据拆分模块,用于当目标聚类文本的数量超出设定阈值时,对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类;
拆分后组团文本聚类模块,用于对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行聚类,并最终得到不同组团的聚类结果;
各组团聚类结果模块,用于单个组团内的文本在聚类结束后,形成多个聚类文本簇;
多组团聚类结果合并模块,用于对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类;
聚类结果优化与结果生成模块,用于通过不同组团内的文本簇已经全部合并到同一大的组团中,对大的组团中的文本簇进行进一步合并,得到最终的文本聚类结果。
在本发明一实施例中,所述目标文本数据获取与清洗模块还用于文本字符量过少,无法呈现完整语义信息文本,如当目标文本长度小于5时,可通过设定规则进行剔除;
所述目标文本数据量统计模块还用于:若目标聚类文本数量较少,则直接采用传统的凝聚型层次聚类算法;判断是否需要对聚类文本进行拆分的文本数量阈值设定数值为5000;若聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法进行文本聚类。
在本发明一实施例中,所述目标文本数据拆分模块还用于将最终拆分组团的数量根据目标聚类文本总量与单个组团包含文本数量自动确定;
所述各组团聚类结果模块还用于:选择对文本簇中文本数量少于设定阈值的文本簇进行剔除,该阈值设定值为2。
本发明的另一目的在于提供一种针对凝聚型层次聚类算法的计算优化方法,应用于客户端,所述针对凝聚型层次聚类算法的计算优化方法包括:
在客户端对大批量目标样本进行聚类中,将目标样本拆分为多个不同的组团分别进行聚类,并进一步将不同组团合并得到最终聚类结果。
在本发明一实施例中,所述针对凝聚型层次聚类算法的计算优化方法具体包括以下步骤:
(1)目标文本数据获取与清洗;
(2)目标文本数据量统计;
(3)目标文本数据拆分;
(4)拆分后组团文本聚类;
(5)各组团聚类结果清洗;
(6)多组团聚类结果合并;
(7)聚类结果优化与结果生成。
在本发明一实施例中,所述步骤(1)具体包括:对存在广告、表情符号、特殊字符及超链接内容的原始的文本数据通过正则表达式进行剔除;部分文本字符量过少,如当文本长度小于5时,可通过设定规则进行剔除;
所述步骤(2)具体包括:对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否需要采用优化后的算法,对目标聚类文本进行拆分,若目标聚类文本数量相对较少,则直接采用传统的凝聚型层次聚类算法;判断是否需要对聚类文本进行拆分的文本数量阈值设定,为5000,当需聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法;
所述步骤(3)具体包括:当目标聚类文本的数量超出设定阈值时,对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类,每个组团包含文本的数量设定为1000-5000;最终拆分组团的数量根据目标聚类文本总量与单个组团包含文本数量自动确定。
在本发明一实施例中,所述步骤(4)具体包括:对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行聚类,并最终得到不同组团的聚类结果;
所述步骤(5)具体包括:单个组团内的文本在聚类结束后,形成多个文本簇;对文本簇中文本数量少于设定阈值的文本簇进行剔除,该阈值设定值为2;
所述步骤(6)具体包括:对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类;多个组团之间采用拆分多个层级进行聚类合并;
所述步骤(7)具体包括:通过不同组团内的文本簇全部合并到同一个大的组团中,同样依据文本簇之间的相似度,对大的组团中的文本簇进行进一步合并,并得到最终的文本聚类结果。
本发明的另一目的在于提供一种计算机设备其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述针对凝聚型层次聚类算法的计算优化系统的功能。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述针对凝聚型层次聚类算法的计算优化方法。
本发明的另一目的在于提供一种信息数据处理终端,所述信息数据处理终端用于实现所述针对凝聚型层次聚类算法的计算优化方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:
本发明对凝聚型层次聚类算法进行了优化,在针对大批量目标样本的聚类需求时,将目标样本拆分为多个不同的组团分别进行聚类,并进一步将不同组团合并得到最终聚类结果。通过此种方式极大地降低计算量,优化了凝聚型层次聚类算法的计算效率。
相比于现有技术,本发明的优点进一步包括:
(1)本发明对凝聚型层次聚类算法的计算过程进行优化,将目标聚类样本拆分为多个组团,对不同组团分别进行聚类后,对不同聚类组团进行合并,得到最终的聚类结果。通过控制不同组团聚类样本的数量,避免计算量随样本量增加呈指数级增长的问题,有效提升凝聚型层次聚类算法的计算效率。
(2)本发明优化后的算法能够支持多进程计算,针对不同组团的聚类可同步进行,通过对多进程计算的支持,可显著提升计算效率。
(3)通过在文本数据信息处理中,与现有技术进行对比分析可知,优化后算法聚类计算效率有显著提升。选取10000条微博发帖数据进行算法测试,本发明优化后的算法聚类部分计算时长约为30.1s,传统算法聚类部分计算时长约为101.5s,伴随处理文本量的提升,两者计算效率差距会更为明显;测试结果显示,优化后算法针对同一批数据的聚类结果与传统算法高度相似,优化后聚类算法的计算结果具有较高的准确性,证明优化后的算法在文本信息处理终端中处理的数据信息具有较高的准确性与实用性。
当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本发明实施例提供的针对凝聚型层次聚类算法的计算优化系统示意图。
图2是本发明实施例提供的针对凝聚型层次聚类算法的计算优化方法流程图。
图3是本发明实施例提供的多组团聚类结果合并流程示意图。
图4是本发明实施例提供的优化后凝聚型层次聚类算法计算时长统计界面图。
图5是本发明实施例提供的优化后凝聚型层次聚类算法最终聚类结果界面图。
图中:1、目标文本数据获取与清洗模块;2、目标文本数据量统计模块;3、 目标文本数据拆分模块;4、拆分后组团文本聚类模块;5、各组团聚类结果模块;6、多组团聚类结果合并模块;7、聚类结果优化与结果生成模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似改进,因此本发明不受下面公开的具体实施的限制。
需要说明的是,本发明所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本发明所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
如图1所示,本发明提供一种针对凝聚型层次聚类算法的计算优化系统,包括:
目标文本数据获取与清洗模块1,用于通过正则表达式对存在广告、表情符号、特殊字符及超链接内容的原始的文本数据进行剔除;
目标文本数据量统计模块2,用于对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否采用优化后的算法,对目标聚类文本进行拆分;
目标文本数据拆分模块3,用于当目标聚类文本的数量超出设定阈值时,对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类;
拆分后组团文本聚类模块4,用于对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行聚类,并最终得到不同组团的聚类结果;
各组团聚类结果模块5,用于单个组团内的文本在聚类结束后,形成多个聚类文本簇;
多组团聚类结果合并模块6,用于对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类;
聚类结果优化与结果生成模块7,用于通过不同组团内的文本簇已经全部合并到同一大的组团中,对大的组团中的文本簇进行进一步合并,得到最终的文本聚类结果。
在本发明一优选实施例中,所述目标文本数据获取与清洗模块1还用于识别文本字符量过少,无法呈现完整语义信息的文本,并通过设定规则进行剔除;
所述目标文本数据量统计模块2还用于:若目标聚类文本数量较少,则直接采用传统的凝聚型层次聚类算法;判断是否需要对聚类文本进行拆分的文本数量阈值设定数值为5000;若聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法进行文本聚类。
在本发明一优选实施例中,所述目标文本数据拆分模块3还用于将最终拆分组团的数量根据目标聚类文本总量与单个组团包含文本数量自动确定;
所述各组团聚类结果模块5还用于:选择对文本簇中文本数量少于设定阈值的文本簇进行剔除,该阈值默认设定值为2。
如图2所示,本发明提供的针对凝聚型层次聚类算法的计算优化,包括:
(1)目标文本数据获取与清洗:需进行聚类的原始的文本数据会存在广告、表情符号、特殊字符及超链接等内容,会极大的影响文本聚类的效果,需在前期通过正则表达式等方式进行剔除;部分文本字符量过少,无法呈现完整语义信息,会对聚类精度造成影响,此类文本亦需通过设定规则进行剔除。
(2)目标文本数据量统计:针对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否需要采用优化后的算法,对目标聚类文本进行拆分,若目标聚类文本数量相对较少,则可直接采用传统的凝聚型层次聚类算法。判断是否需要对聚类文本进行拆分的文本数量阈值可进行人为设定,默认数值为5000,当需聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法,以提高计算效率。
(3)目标文本数据拆分:当目标聚类文本的数量超出设定阈值时,需对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类,每个组团包含文本的数量可进行人为设定,默认值为3000,建议设定值处于1000-5000之间,组团文本数量过高会导致计算量增大,组团文本数量过低则会导致单个组团内聚类样本量过少,可能无法形成有效聚类,影响聚类结果准确度。最终拆分组团的数量会根据目标聚类文本总量与单个组团包含文本数量自动确定,示例:需聚类文本总量为30w,每个组团包含文本数量为3000,则算法会自动拆分为100个组团。
(4)拆分后组团文本聚类:对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行进行聚类,并最终得到不同组团的聚类结果。该计算过程由于不同组团内的文本聚类是独立进行的,因此不同组团的文本聚类过程可同步进行,支持通过多进程计算或分布式计算提高计算效率。
(5)各组团聚类结果清洗:单个组团内的文本在聚类结束后,会形成多个文本簇,聚类文本簇的数量与聚类时文本相似度阈值设定相关。聚类结果中会存在部分文本簇中的文本数量相对较少,甚至可以为1(即该文本簇仅包含1条文本,该文本与其它簇文本的相似度均小于设定阈值),在后续对不同组团文本簇进行合并的过程中,该类文本数量较少的文本簇会增加计算复杂度,因此选择在该步骤对文本簇中文本数量少于设定阈值的文本簇进行剔除,较高的设定阈值虽然会提高计算效率,但有较大可能剔除有价值的聚类数据,影响最终聚类结果的准确性,因此该阈值应审慎设定,不宜过高,默认设定值为2,即剔除文本簇中文本数量小于2的文本簇。
(6)多组团聚类结果合并(如图3所示):对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类。多个组团之间的聚类合并可以拆分多个层级进行,以进一步提高计算效率,如下图示例,多个一级组团合并为二级组团,多个二级组团合并为三级组团,直至所有组团合并为1个组团计算截止。
(7)聚类结果优化与结果生成:通过上述步骤不同组团内的文本簇已经全部合并到同一个大的组团中,称该组团为A组团,A组团虽然包含了所有的文本簇,但不同文本簇之间仍可能存在合并不充分,即两个文本簇间存在较高相似度。因此同样依据文本簇之间的相似度,对组团A中的文本簇进行进一步合并,并得到最终的文本聚类结果。
下面结合具体实施例对本发明的技术方案作进一步描述。
实施例:
选取微博10000条发帖数据,分别采用传统凝聚型层次聚类算法与优化后的凝聚型层次聚类算法进行话题聚类计算,测试传统算法与优化后算法在聚类部分计算消耗时间与聚类结果的差异性。
(1)传统凝聚型层次聚类算法:聚类算法针对10000条清洗后的微博发帖数据进行计算,总计计算时长约为117.07秒,其中聚类计算耗费时长约为101.46秒。
(2)优化后凝聚型层次聚类算法:聚类算法针对10000条清洗后的微博发帖数据进行计算,一级组团(最小组团)包含文本数量设定值为3000,总计计算时长约为45.18秒,其中聚类计算耗费时长约为30.10秒,如图4优化后凝聚型层次聚类算法计算时长统计;最终聚类结果如图5所示。
通过对比分析可知,本发明优化后的算法聚类部分计算时长约为30.1s,传统算法聚类部分计算时长约为101.5s,优化后算法聚类计算效率有显著提升,且伴随处理文本量的提升,两者计算效率差距会更为明显;优化后算法针对同一批数据的聚类结果与传统算法高度相似,虽然在部分聚类存在一定差异,但总体的准确性是能够保证的,证明优化后的算法仍具有较高的准确性与实用性。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。

Claims (10)

1.一种针对凝聚型层次聚类算法的计算优化系统,其特征在于,应用于文本聚类处理,针对凝聚型层次聚类算法的计算优化系统包括:
目标文本数据获取与清洗模块,用于通过正则表达式对存在广告、表情符号、特殊字符及超链接内容的原始的文本数据进行剔除;
目标文本数据量统计模块,用于对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否采用优化后的算法,对目标聚类文本进行拆分;
目标文本数据拆分模块,用于当目标聚类文本的数量超出设定阈值时,对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类;
拆分后组团文本聚类模块,用于对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行聚类,并最终得到不同组团的聚类结果;
各组团聚类结果模块,用于单个组团内的文本在聚类结束后,形成多个聚类文本簇;
多组团聚类结果合并模块,用于对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类;
聚类结果优化与结果生成模块,用于通过不同组团内的文本簇已经全部合并到同一大的组团中,对大的组团中的文本簇进行进一步合并,得到最终的文本聚类结果。
2.根据权利要求1所述的针对凝聚型层次聚类算法的计算优化系统,其特征在于,所述目标文本数据获取与清洗模块还用于文本字符量过少,无法呈现完整语义信息文本,通过设定规则进行剔除;
所述目标文本数据量统计模块还用于:若目标聚类文本数量较少,则直接采用传统的凝聚型层次聚类算法;判断是否需要对聚类文本进行拆分的文本数量阈值设定数值默认值为5000;若聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法进行文本聚类。
3.根据权利要求1所述的针对凝聚型层次聚类算法的计算优化系统,其特征在于,所述目标文本数据拆分模块还用于将最终拆分组团的数量根据目标聚类文本总量与单个组团包含文本数量自动确定;
所述各组团聚类结果模块还用于:选择对文本簇中文本数量少于设定阈值的文本簇进行剔除,该阈值默认设定值为2。
4.一种基于权利要求1~3任意一项所述针对凝聚型层次聚类算法的计算优化系统的针对凝聚型层次聚类算法的计算优化方法,其特征在于,应用于客户端,所述针对凝聚型层次聚类算法的计算优化方法包括:
在客户端对大批量目标样本进行聚类中,将目标样本拆分为多个不同的组团分别进行聚类,并进一步将不同组团合并得到最终聚类结果。
5.根据权利要求4所述的针对凝聚型层次聚类算法的计算优化方法,其特征在于,所述针对凝聚型层次聚类算法的计算优化方法具体包括以下步骤:
(1)目标文本数据获取与清洗;
(2)目标文本数据量统计;
(3)目标文本数据拆分;
(4)拆分后组团文本聚类;
(5)各组团聚类结果清洗;
(6)多组团聚类结果合并;
(7)聚类结果优化与结果生成。
6.根据权利要求5所述针对凝聚型层次聚类算法的计算优化方法,其特征在于,所述步骤(1)具体包括:对存在广告、表情符号、特殊字符及超链接内容的原始的文本数据通过正则表达式进行剔除;
所述步骤(2)具体包括:对清洗后的文本数据进行文本数据数量进行统计,确定目标聚类文本的数据量量级,判断是否需要采用优化后的算法,对目标聚类文本进行拆分,若目标聚类文本数量相对较少,则直接采用传统的凝聚型层次聚类算法;判断是否需要对聚类文本进行拆分的文本数量阈值设定,为5000,当需聚类文本的数量超出设定阈值时,则采用优化后的凝聚型层次聚类算法;
所述步骤(3)具体包括:当目标聚类文本的数量超出设定阈值时,对目标聚类文本进行拆分,将目标聚类文本拆分为多个组团分别进行聚类,每个组团包含文本的数量设定为1000-5000;最终拆分组团的数量根据目标聚类文本总量与单个组团包含文本数量自动确定。
7.根据权利要求5所述针对凝聚型层次聚类算法的计算优化方法,其特征在于,所述步骤(4)具体包括:对组团内的文本通过凝聚型层次聚类算法进行聚类,分别计算组团内不同样本之间的相似度,基于文本相似度进行聚类,并最终得到不同组团的聚类结果;
所述步骤(5)具体包括:单个组团内的文本在聚类结束后,形成多个文本簇;对文本簇中文本数量少于设定阈值的文本簇进行剔除,该阈值默认设定值为2;
所述步骤(6)具体包括:对多个组团中不同文本簇进行进一步聚类,通过计算不同文本簇之间的相似度实现不同文本簇的进一步聚类;多个组团之间采用拆分多个层级进行聚类合并;
所述步骤(7)具体包括:通过不同组团内的文本簇全部合并到同一个大的组团中,同样依据文本簇之间的相似度,对大的组团中的文本簇进行进一步合并,并得到最终的文本聚类结果。
8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~3任一项所述针对凝聚型层次聚类算法的计算优化系统的功能。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求4所述针对凝聚型层次聚类算法的计算优化方法。
10.一种信息数据处理终端,其特征在于,所述信息数据处理终端用于实现权利要求4所述针对凝聚型层次聚类算法的计算优化方法。
CN202210453344.2A 2022-04-27 2022-04-27 凝聚型层次聚类算法优化系统、方法、设备、介质及终端 Active CN114547316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210453344.2A CN114547316B (zh) 2022-04-27 2022-04-27 凝聚型层次聚类算法优化系统、方法、设备、介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210453344.2A CN114547316B (zh) 2022-04-27 2022-04-27 凝聚型层次聚类算法优化系统、方法、设备、介质及终端

Publications (2)

Publication Number Publication Date
CN114547316A true CN114547316A (zh) 2022-05-27
CN114547316B CN114547316B (zh) 2022-07-29

Family

ID=81667417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210453344.2A Active CN114547316B (zh) 2022-04-27 2022-04-27 凝聚型层次聚类算法优化系统、方法、设备、介质及终端

Country Status (1)

Country Link
CN (1) CN114547316B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867006A (zh) * 2011-07-07 2013-01-09 富士通株式会社 一种分批聚类方法和系统
US20150286702A1 (en) * 2014-04-08 2015-10-08 International Business Machines Corporation Adaptive variable selection for data clustering
CN106202206A (zh) * 2016-06-28 2016-12-07 哈尔滨工程大学 一种基于软件聚类的源码功能搜索方法
CN106383877A (zh) * 2016-09-12 2017-02-08 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法
CN110083764A (zh) * 2019-04-11 2019-08-02 东华大学 一种协同过滤算法冷启动问题的解决方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102867006A (zh) * 2011-07-07 2013-01-09 富士通株式会社 一种分批聚类方法和系统
US20150286702A1 (en) * 2014-04-08 2015-10-08 International Business Machines Corporation Adaptive variable selection for data clustering
CN106202206A (zh) * 2016-06-28 2016-12-07 哈尔滨工程大学 一种基于软件聚类的源码功能搜索方法
CN106383877A (zh) * 2016-09-12 2017-02-08 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法
CN110083764A (zh) * 2019-04-11 2019-08-02 东华大学 一种协同过滤算法冷启动问题的解决方法

Also Published As

Publication number Publication date
CN114547316B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN106021362B (zh) 查询式的图片特征表示的生成、图片搜索方法和装置
CN110826648B (zh) 一种利用时序聚类算法实现故障检测的方法
Yom-Tov et al. Learning to estimate query difficulty: including applications to missing content detection and distributed information retrieval
CN107066555B (zh) 面向专业领域的在线主题检测方法
CN113850281B (zh) 一种基于meanshift优化的数据处理方法和装置
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
CN108304479B (zh) 一种基于图结构过滤的快速密度聚类双层网络推荐方法
CN112732914A (zh) 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN111522968A (zh) 知识图谱融合方法及装置
CN110728526A (zh) 地址识别方法、设备以及计算机可读介质
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN114610881A (zh) 应用日志分析方法、装置、设备和存储介质
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN114638234A (zh) 应用于线上业务办理的大数据挖掘方法及系统
CN115827956A (zh) 一种数据信息检索方法、装置、电子设备及存储介质
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN111737461B (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN113723542A (zh) 一种日志聚类处理方法及系统
CN111259117B (zh) 短文本批量匹配方法及装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
CN117391071A (zh) 一种新闻话题数据挖掘方法、装置及存储介质
CN114547316B (zh) 凝聚型层次聚类算法优化系统、方法、设备、介质及终端
CN110209895B (zh) 向量检索方法、装置和设备
CN111831819B (zh) 一种文本更新方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant