CN114691868A - 文本聚类方法、装置及电子设备 - Google Patents

文本聚类方法、装置及电子设备 Download PDF

Info

Publication number
CN114691868A
CN114691868A CN202210260416.1A CN202210260416A CN114691868A CN 114691868 A CN114691868 A CN 114691868A CN 202210260416 A CN202210260416 A CN 202210260416A CN 114691868 A CN114691868 A CN 114691868A
Authority
CN
China
Prior art keywords
vector
digital
vectors
target
distance threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210260416.1A
Other languages
English (en)
Inventor
范淑君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210260416.1A priority Critical patent/CN114691868A/zh
Publication of CN114691868A publication Critical patent/CN114691868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本聚类方法、装置及电子设备。涉及金融科技领域或其它领域,该方法包括:获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应;基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值;基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果;获取聚类结果中的簇的数量;基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征与目标质心向量所对应的簇的特征。本发明解决了由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。

Description

文本聚类方法、装置及电子设备
技术领域
本发明涉及金融科技领域,具体而言,涉及一种文本聚类方法、装置及电子设备。
背景技术
文本的自动化聚类是文本数据的分类处理和自然语言处理中的一项关键技术,在文本文献的自动分类中也是一项重要的应用。随着现代信息技术的爆炸式发展,产品评论具有重要的研究价值,不仅可以帮助潜在消费者进行产品质量评估和明智的购买决策,而且作为重要的电子口碑,能够为商家提供客户的反馈信息。面对海量的文本,如何高效的得到相似文本并进行分类具有重要意义。
目前,用于文本聚类的相关聚类算法(例如,K均值聚类算法(K-means clusteringalgorithm))在聚类时往往需要事先指定簇的数量。而在现有的相关技术中,该值的选定一般根据经验值进行选定,容易判断不准确,从而导致聚类的误差很大,甚至陷入局部最优。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本聚类方法、装置及电子设备,以至少解决由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。
根据本发明实施例的一个方面,提供了一种文本聚类方法,包括:获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应;基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值;基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果;获取聚类结果中的簇的数量;基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征了与目标质心向量所对应的簇的特征。
进一步地,文本聚类方法还包括:计算多个数字向量的向量总和与多个数字向量所对应的向量数量的比值,得到均值向量;确定多个数字向量与均值向量之间的最远距离和最近距离;基于最远距离和最近距离确定第一距离阈值和第二距离阈值。
进一步地,文本聚类方法还包括:计算最远距离和最近距离之间的差值;在差值与最远距离的比值大于第一预设数值的情况下,确定差值为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值;在差值与最远距离的比值小于或等于第一预设数值的情况下,确定最近距离与第二预设数值的乘积为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值。
进一步地,文本聚类方法还包括:从中心列表中获取至少一个中心向量,其中,中心列表用于存储至少一个中心向量,每个中心向量与多个数字向量中的数字向量相对应;在向量列表中选取目标数字向量,并确定目标数字向量与每个中心向量之间的距离,其中,向量列表用于存储多个数字向量,目标数字向量为与任一中心向量不相同的数字向量;基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇;在目标数字向量与每个中心向量属于不同簇的情况下,基于目标数字向量更新中心列表,并从向量列表中移除目标数字向量;在目标数字向量与任一中心向量属于相同簇的情况下,将目标数字向量加入到对应的簇中,并从向量列表中移除目标数字向量。
进一步地,文本聚类方法还包括:在基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇之后,在目标数字向量处于待定状态的情况下,将目标数字向量加入到对应的簇中,并将目标数字向量保留在向量列表中,其中,待定状态表征目标数字向量与任一中心向量之间的距离处于第一距离阈值与第二距离阈值之间。
进一步地,文本聚类方法还包括:在从中心列表中获取至少一个中心向量之前,检测中心列表中的中心向量,得到检测结果;在检测结果表征中心列表中不存在中心向量的情况下,从多个数字向量中选取第一数字向量作为中心向量。
进一步地,文本聚类方法还包括:在基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇之后,确定预设数量的目标数字向量中处于待定状态的目标数字向量的向量数量;在处于待定状态的目标数字向量的向量数量大于第一预设阈值的情况下,将第二距离阈值调整为目标第二距离阈值,其中,目标第二距离阈值大于第二距离阈值。
进一步地,文本聚类方法还包括:基于簇的数量和多个数字向量确定多个初始质心向量;基于多个初始质心向量对多个数字向量中的每个数字向量进行第一映射处理,得到每个数字向量与初始质心向量的对应关系;基于对应关系确定每个初始质心向量所对应的数字向量;对每个初始质心向量所对应的数字向量进行第一归约处理,得到与每个初始质心向量对应的目标质心向量。
进一步地,文本聚类方法还包括:基于簇的数量从多个数字向量中随机确定多个第二数字向量,其中,多个第二数字向量的向量数量与簇的数量相关联;对多个第二数字向量进行余弦相似度计算,得到余弦角度;基于多个第二数字向量、簇的数量和余弦角度确定多个初始质心向量,其中,初始质心向量的向量数量与簇的数量相同。
进一步地,文本聚类方法还包括:在得到多个目标质心向量之后,确定每个初始质心向量和与其对应的目标质心向量之间的误差向量;从误差向量中确定最大误差向量;在最大误差向量大于第二预设阈值的情况下,基于目标质心向量更新初始质心向量,得到目标初始质心向量。
进一步地,文本聚类方法还包括:将待处理文本划分为多个子文本;对每个子文本进行第二映射处理和第二归约处理,得到多个分词;对多个分词进行特征提取处理,得到与每个子文本对应的数字向量。
根据本发明实施例的另一方面,还提供了一种文本聚类装置,包括:第一获取模块,用于获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应;确定模块,用于基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值;第一处理模块,用于基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果;第二获取模块,用于获取聚类结果中的簇的数量;第二处理模块,用于基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征了与目标质心向量所对应的簇的特征。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文本聚类方法。
根据本发明实施例的另一方面,还提供了一种电子设备,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文本聚类方法。
根据本发明实施例的另一方面,还提供了一种计算机程序产品,计算机程序/指令被处理器执行时实现上述的文本聚类方法。
在本发明实施例中,采用基于多个数字向量确定聚类范围的限值,进而基于聚类范围的限值确定簇的数量的方式,通过获取待处理文本的多个数字向量,然后基于多个数字向量确定第一距离阈值和第二距离阈值,接着基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果,并获取聚类结果中的簇的数量,从而基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,每个数字向量与待处理文本中的部分文本相对应,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值,目标质心向量表征了与目标质心向量所对应的簇的特征。
在上述过程中,基于多个数字向量确定聚类范围的最大限值和最小限值,实现了对聚类范围的最大限值和最小限值的准确确定,避免了人工设定聚类范围的限值造成的判断不准确的问题。由此,基于前述的第一距离阈值和第二距离阈值对数字向量进行第一聚类处理可以得到更准确的簇的数量,避免了人工设定簇的数量造成的判断不准确的问题,进而能够获得更准确的目标质心向量,实现更好的文本聚类效果。
由此可见,本申请所提供的方案达到了基于多个数字向量确定聚类范围的限值,进而基于聚类范围的限值确定簇的数量的目的,从而实现了提高文本聚类效果的技术效果,进而解决了由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本聚类方法的示意图;
图2是根据本发明实施例的一种可选的文本聚类方法的示意图;
图3是根据本发明实施例的一种可选的获取数字向量的示意图;
图4是根据本发明实施例的一种可选的确定簇的数量和初始质心向量的示意图;
图5是根据本发明实施例的一种可选的第二聚类处理的示意图;
图6是根据本发明实施例的一种可选的文本聚类装置的示意图;
图7是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
实施例1
根据本发明实施例,提供了一种文本聚类方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的文本聚类方法的示意图,如图1所示,该方法包括如下步骤:
步骤S101,获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应。
在步骤S101中,可以通过电子设备、应用系统、处理器等装置获取待处理文本的多个数字向量,在本实施例,通过文本聚类系统获取待处理文本的多个数字向量,文本聚类系统可以直接从存储装置中获取前述的数字向量,也可以通过获取待处理文本,再对待处理文本进行特征提取以得到前述的数字向量。其中,待处理文本为多篇文本的集合,每一篇文本可以对应于待处理文本中的一行文本或一段文本,每个数字向量可以对应于待处理文本中一篇文本或多篇文本。在本实施例中,待处理文本中设置有多行文本,每行文本对应于一篇文本,每个数字向量对应于一行文本,也即对应于一篇文本,其中,数字向量为可供计算机等电子装置识别的数据,其用于表征每篇文本的特征。
需要说明的是,通过获取待处理文本的多个数字向量,以便于相关设备能够获取到该待处理文本的特征,进而实现后续的文本聚类。
步骤S102,基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值。
可选的,文本聚类系统可以基于改进的Canopy聚类算法确定簇的数量,以避免基于经验值确定簇的数量造成的容易错误判断的问题。在步骤S102中,文本聚类系统可以基于多个数字向量确定改进的Canopy聚类算法中的第一距离阈值和第二距离阈值,其中,第一距离阈值大于第二距离阈值,第一距离阈值至少可以用于判断数字向量是否不属于某一个簇,第二距离阈值至少可以用于判断数字向量是否属于某一个簇。
需要说明的是,通过基于多个数字向量确定第一距离阈值和第二距离阈值,实现了对第一距离阈值和第二距离阈值的准确确定,进而在后续的第一聚类处理过程中,能够实现更好的聚类效果,从而得到更准确的聚类结果。
步骤S103,基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果。
在步骤S103中,文本聚类系统可以基于第一距离阈值和第二距离阈值,采用改进的Canopy聚类算法对多个数字向量进行聚类处理,以得到聚类结果,其中,聚类结果用于表征各数字向量所属的簇,属于同一个簇的数字向量所对应的文本相似度高。
需要说明的是,基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,可以得到更准确的聚类结果,从而便于后续获取准确的簇的数量。
步骤S104,获取聚类结果中的簇的数量。
在步骤S104,文本聚类系统可以对聚类结果中的各个簇进行识别,以确定簇的数量,从而实现对准确的簇的数量的获取。
步骤S105,基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征了与目标质心向量所对应的簇的特征。
在步骤S105中,如图2所示,文本聚类系统可以先基于簇的数量确定各个簇的初始质心向量,然后基于初始质心向量对多个数字向量进行第二聚类处理,以将多个数字向量聚类至各个簇中,并计算得到每个簇所对应的目标质心向量。其中,第二聚类处理为与第一聚类处理不相同的聚类方法,初始质心向量表征了初始质心向量所对应的簇的特征,目标质心向量表征了与目标质心向量所对应的簇的特征。
进一步地,在获取到目标质心向量后,文本聚类系统可以直接基于目标质心向量对其所对应的数字向量进行标记,得到标记后的文本,实现文本聚类效果;也可以基于目标质心向量再次对多个数字向量进行第二聚类处理或其它聚类处理,以重新确定与每个目标质心向量对应的数字向量,然后基于目标质心向量对其所对应的数字向量进行标记,得到标记后的文本,进而实现文本聚类效果。
需要说明的是,通过基于准确的簇的数量确定每个簇所对应的目标质心向量,使得得到的目标质心向量更加准确,即更好的体现了各个簇的特征,进而可以实现了更好的文本聚类效果。
基于上述步骤S101至步骤S105所限定的方案,可以获知,在本发明实施例中,采用基于多个数字向量确定聚类范围的限值,进而基于聚类范围的限值确定簇的数量的方式,通过获取待处理文本的多个数字向量,然后基于多个数字向量确定第一距离阈值和第二距离阈值,接着基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果,并获取聚类结果中的簇的数量,从而基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,每个数字向量与待处理文本中的部分文本相对应,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值,目标质心向量表征了与目标质心向量所对应的簇的特征。
容易注意到的是,在上述过程中,基于多个数字向量确定聚类范围的最大限值和最小限值,实现了对聚类范围的最大限值和最小限值的准确确定,避免了人工设定聚类范围的限值造成的判断不准确的问题。由此,基于前述的第一距离阈值和第二距离阈值对数字向量进行第一聚类处理可以得到更准确的簇的数量,避免了人工设定簇的数量造成的判断不准确的问题,进而能够获得更准确的目标质心向量,实现更好的文本聚类效果。
由此可见,本申请所提供的方案达到了基于多个数字向量确定聚类范围的限值,进而基于聚类范围的限值确定簇的数量的目的,从而实现了提高文本聚类效果的技术效果,进而解决了由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。
在一种可选的实施例中,在获取待处理文本的多个数字向量,文本聚类系统可以将待处理文本划分为多个子文本,并对每个子文本进行第二映射处理和第二归约处理,得到多个分词,然后对多个分词进行特征提取处理,得到与每个子文本对应的数字向量。
可选的,在本实施例中,文本聚类系统用于对海量文本进行文本聚类,文本聚类系统可以依托于海杜普(Hadoop)框架(一种分布式系统基础架构)的云计算平台,针对待处理文本中的海量文本,将各聚类算法放入MapReduce框架(一种编程模型)中。其中,MapReduce的设计优点是,通过Map(映射)过程和Reduce(归约)过程,可以将传统的单线程的程序进行简单的修改便能实现分布式的计算,减少了并行编码难度,极大提高了并行程序的开发速度。因此,本申请基于Hadoop技术进行文本聚类过程中的分布式存储和并行计算,可以提升计算效率。
具体地,如图2所示,文本聚类系统可以基于Hadoop分布式环境将待处理文本的每一行划分为一个子文本,然后在第二映射处理的过程中,采用jieba分词工具对每一行(也即每个子文本)进行分词处理,将得到的分词串去除停用词,输出一个键值对,键是该文本号,值是去除停用词后的分词串。在第二归约处理的过程中,直接输出键值对,从而得到每一行由每篇文本的分词串组成的分词串文件(即前述的多个分词)。之后,文本聚类系统可以在Hadoop分布式环境下利用词频-逆文本频率指数(TF-IDF,term frequency-inversedocument frequency)方法对前述的分词串文件进行特征提取,以使每个子文本形成可供计算机识别的数字向量。
在对分词串文件进行特征提取的过程中,如图3所示,文本聚类系统先将分词串文件按行拆分成多个小文件(如图3中的小文件1、小文件2…小文件n),该小文件中每一行由文本号和对应分词串组成,然后对每个小文件做一遍映射归约处理。在进行映射处理的过程中,文本聚类系统将每行分词串中分词取集合去除重复的分词,输出一个键值对,键是该文本号,值是取集合后的分词串。之后,文本聚类系统进行归约处理,将每行分词串合并在一起,取集合组成词袋,输出一个键值对,键为1,值为分词串集合组成的词袋,得到一个词袋文件。
进一步地,在对每个小文件做一遍映射归约处理之后,文本聚类系统基于TF-IDF对前述的分词串文件与词袋进行特征提取,得到各个词的权重值,公式如下:
W=TFw×IDFw
其中,TFw表示分词w的词频,IDFw表示分词w的逆文本频率指数。
具体地,对分词w的词频的计算公式如下:
Figure BDA0003550522830000081
其中,TFw表示分词w的词频,Nw是在一个子文本中分词w出现的次数,N是分词串文件中分词w对应的总分词数。
具体地,对各分词的逆文本频率指数的计算公式如下:
Figure BDA0003550522830000082
其中,IDFw表示分词w的逆文本频率指数,Y表示子文本总数,Yw表示包含分词w的子文本对应的文本数。
进一步地,在得到各个分词的权重值后,每个子文本的数字向量即为该子文本所对应的分词串中各分词的权重的集合,由此实现了对各子文本对应的数字向量的获取,将各子文本对应的数字向量进行集合,可以形成数字向量文件。
需要说明的是,通过对每个子文本进行第二映射处理第二归约处理,并对得到的多个分词行特征提取处理,可以使得得到的数字向量更加准确。
在一种可选的实施例子中,在基于多个数字向量确定第一距离阈值和第二距离阈值的过程中,文本聚类系统可以计算多个数字向量的向量总和与多个数字向量所对应的向量数量的比值,得到均值向量,然后确定多个数字向量与均值向量之间的最远距离和最近距离,从而基于最远距离和最近距离确定第一距离阈值和第二距离阈值。
可选的,如图4所示,文本聚类系统可以遍历数字向量,将所有数字向量相加并除以数字向量的向量总数,以得到均值向量。之后,计算均值向量与所有数字向量间的距离,从中确定最远距离L1和最近距离为L2,从而基于最远距离L1和最近距离为L2确定第一距离阈值和第二距离阈值。其中,在图4中,T1表示第一距离阈值,T2表示第二距离阈值。
需要说明的是,通过基于最远距离和最近距离确定第一距离阈值和第二距离阈值,可以实现对第一距离阈值和第二距离阈值快速且准确的确定,避免了因人工设定距离阈值造成的判断不准确的问题,进而提高了簇的数量的准确度,并提高计算效率。
在一种可选的实施例中,在基于最远距离和最近距离确定第一距离阈值和第二距离阈值的过程中,文本聚类系统可以计算最远距离和最近距离之间的差值,并在差值与最远距离的比值大于第一预设数值的情况下,确定差值为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值,在差值与最远距离的比值小于或等于第一预设数值的情况下,确定最近距离与第二预设数值的乘积为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值。
可选的,第一预设数值和第二预设数值可以由人工自定义输入,在本实施例中,第一预设数值优选为1/2,第二预设数值优选为2/3。具体地,当确定了最远距离L1和最近距离L2后,若L1-L2>L1/2,则文本聚类系统将L1-L2作为第一距离阈值,将L1/2作为第二距离阈值;反之,若L1-L2≤L1/2,则文本聚类系统将3L2/2作为第一距离阈值,将L1/2作为第二距离阈值。
需要说明的是,通过将差值与最远距离进行比对来确定第一距离阈值和第二距离阈值所对应的具体数值,实现了对第一距离阈值和第二距离阈值更加准确的确定。
在一种可选的实施例中,在基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果的过程中,文本聚类系统可以从中心列表中获取至少一个中心向量,然后在向量列表中选取目标数字向量,并确定目标数字向量与每个中心向量之间的距离,接着基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇,并在目标数字向量与每个中心向量属于不同簇的情况下,基于目标数字向量更新中心列表,并从向量列表中移除目标数字向量,在目标数字向量与任一中心向量属于相同簇的情况下,将目标数字向量加入到对应的簇中,并从向量列表中移除目标数字向量。其中,中心列表用于存储至少一个中心向量,每个中心向量与多个数字向量中的数字向量相对应,向量列表用于存储多个数字向量,目标数字向量为与任一中心向量不相同的数字向量。
进一步地,在基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇之后,在目标数字向量处于待定状态的情况下,将目标数字向量加入到对应的簇中,并将目标数字向量保留在向量列表中,其中,待定状态表征目标数字向量与任一中心向量之间的距离处于第一距离阈值与第二距离阈值之间。
可选的,如图4所示,在确定了第一距离阈值和第二距离阈值之后,文本聚类系统从数据集(即向量列表)中任选一个数字向量作为目标数字向量,并计算它与Canopy列表(即中心列表)中所有Canopy中心(即中心向量)之间的距离。如果目标数字向量到当前Canopy中心的距离小于或等于第二距离阈值,则确定目标数字向量与当前Canopy中心为同一簇,并将该目标数字向量加入当前Canopy中(也即将该目标数字向量加入到对应的簇中),同时从数据集中删除。如果目标数字向量到任何一个Canopy中心的距离大于第一距离阈值,则确定目标数字向量与任一Canopy中心都不属于一个簇,文本聚类系统将其加入到Canopy列表中作为一个新的Canopy中心,并将其从数据集中删除。其中,图4中的S表示目标数字向量到当前Canopy中心的距离,T1表示第一距离阈值,T2表示第二距离阈值。
进一步地,如果目标数字向量到某一Canopy中心距离大于第二距离阈值并小于或等于第一距离阈值,则确定目标数字向量处于待定状态,文本聚类系统将目标数字向量加入当前Canopy中,并将其保留在数据集中,以使该目标数字向量继续参与下一轮聚类。
更进一步地,文本聚类系统从向量列表中不断选取数字向量作为目标数字向量进行前述的聚类过程,直至数据集为空,此时,得到聚类结果,并可以从聚类结果中获取簇的数量,也即K值。
需要说明的是,通过采用改进的Canopy聚类算法对数字向量进行聚类,得到聚类结果,以便于实现对簇的数量快速且准确的判断。
在一种可选的实施例中,在从中心列表中获取至少一个中心向量之前,文本聚类系统可以检测中心列表中的中心向量,得到检测结果,并在检测结果表征中心列表中不存在中心向量的情况下,从多个数字向量中选取第一数字向量作为中心向量,其中,第一数字向量为多个数字向量重的任一数字向量。
可选的,在从中心列表中获取至少一个中心向量之前,文本聚类系统可以先确认是否存在Canopy中心(也即中心向量),如图4所示,如果不存在Canopy中心,文本聚类系统可以从前述的数据集中选取任意一个数字向量作为一个Canopy中心,并将其从数据集中移除。
需要说明的是,通过在中心列表中不存在中心向量的情况下,从多个数字向量中选取任一数字向量作为中心向量,以确保第一聚类处理的正常进行。
在一种可选的实施例中,在基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇之后,文本聚类系统可以确定预设数量的目标数字向量中处于待定状态的目标数字向量的向量数量,并在处于待定状态的目标数字向量的向量数量大于第一预设阈值的情况下,将第二距离阈值调整为目标第二距离阈值,其中,目标第二距离阈值大于第二距离阈值。
可选的,在第一聚类处理的过程中,文本聚类系统可以对前几次第一聚类处理过程中(每对一个目标数字向量进行第一聚类处理算作一次第一聚类处理)的数据集的移除率进行确认,由于当目标数字向量处于待定状态时,并不会从数据集中移除,因此,也可以认为是对前几次第一聚类处理过程中处于待定状态的目标数字向量的向量数量进行确认。其中,预设数量用于确定文本聚类系统在进行到第预设数量次数的第一聚类处理时进行上述的确认。可选的,文本聚类系统也可以在进行了至少一次第一聚类处理后,从多次已进行的第一聚类处理中抽取预设数量的目标数字向量所对应的第一聚类处理结果,并从中确定前述的移除率或是处于待定状态的目标数字向量的向量数量。
进一步地,若处于待定状态的目标数字向量的向量数量大于第一预设阈值,则文本聚类系统可以增大第二距离阈值。具体地,在本实施例中,若在进行到第预设数量次数的第一聚类处理时,被移除的数字向量的向量数量和Canopy列表中的数字向量的向量数量小于数据集中的向量数量的5%,且增大T2的效果更好,则增大T2。其中,操作人员也可以依据聚类效果图或是移除率手动调整第二距离阈值。
需要说明的是,通过基于目标数字向量的聚类效果对第二距离阈值进行调整,可以实现更好的聚类效果,并提高聚类效率。
在一种可选的实施例中,在基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量的过程中,文本聚类系统可以基于簇的数量和多个数字向量确定多个初始质心向量,然后基于多个初始质心向量对多个数字向量中的每个数字向量进行第一映射处理,得到每个数字向量与初始质心向量的对应关系,并基于对应关系确定每个初始质心向量所对应的数字向量,从而对每个初始质心向量所对应的数字向量进行第一归约处理,得到与每个初始质心向量对应的目标质心向量。
可选的,如图5所示,文本聚类系统可以采用改进的K均值初始化算法,基于簇的数量(即K值)和多个数字向量确定K个初始质心向量,并基于K个初始质心向量生成质心向量文件,其中,质心向量文件每行由初始质心向量序号与初始质心向量组成。之后,将前述的数字向量文件按行拆分成多个小文件,该小文件中每一行为一个子文本的数字向量,然后基于质心向量文件在Hadoop分布式环境下对各数字向量进行第二聚类处理。
具体地,在第二聚类处理过程中,先对各数字向量进行第一映射处理,即将小文件中每一行数字向量与质心向量文件中每个初始质心向量进行余弦相似度计算,找出与该数字向量计算得到的余弦相似度最大值对应的初始质心向量,生成与该数字向量对应的类质心向量,并输出这样的键值对:该类质心向量的序号作为键,此行数字向量作为值。其中,类质心向量的序号与质心向量序号相对应,第一映射处理与前述的第二映射处理可以相同也可以不同。
进一步地,对各数字向量进行第一归约处理,即将所对应的类质心向量的键相同的数字向量进行相加求和并除以它们的向量数量,以得到它们的平均值,并输出对应的键和所求的平均值作为目标质心向量文件,其中,前述的平均值为目标质心向量,由此实现对目标质心向量的获取。其中,第一归约处理与前述的第二归约处理可以相同也可以不同。
需要说明的是,由于多个初始质心向量是基于前述准确的簇的数量确定的,因此,基于初始质心向量和多个数字向量得到目标质心向量,可以实现对目标质心向量的准确获取,从而提高文本聚类效果。
在一种可选的实施例中,在基于簇的数量和多个数字向量确定多个初始质心向量的过程中,文本聚类系统可以基于簇的数量从多个数字向量中随机确定多个第二数字向量,然后对多个第二数字向量进行余弦相似度计算,得到余弦角度,从而基于多个第二数字向量、簇的数量和余弦角度确定多个初始质心向量。其中,多个第二数字向量的向量数量与簇的数量相关联,初始质心向量的向量数量与簇的数量相同。
可选的,如图4所示,当确定了簇的数量后,文本聚类系统基于改进的K均值初始化算法确定初始质心向量。具体地,文本聚类系统可以从多个数字向量中随机抽取一部分数字向量作为样本向量(也即第二数字向量),该样本向量的向量数量为K值的倍数,在本实施例中,优选的,该样本向量的向量数量为K值的的三到五倍。之后,文本聚类系统从样本向量中任意选取一样本向量,命名为C1,并计算C1与其他所有剩余样本向量的余弦相似度。其中,计算公式如下所示:
Figure BDA0003550522830000131
其中,x1表示两需要计算余弦相似度的数字向量中的其一数字向量,x2表示两需要计算余弦相似度的数字向量中的另一数字向量,sim(x1,x2)表示两数字向量的余弦相似度。
进一步地,基于C1与其他所有剩余样本向量的余弦相似度的计算结果,找到与C1余弦相似度最大的样本向量,命名为Ca,并计算Ca与其他所有剩余样本向量的余弦相似度,找到与Ca余弦相似度最大的样本向量,命名Cmax,以及与Ca余弦相似度最小的样本向量,命名Cmin。然后计算Ca与Cmin的余弦相似度值所对应的余弦角度,公式如下:
θ=arc cos(sim(Ca,Cmin))
其中,θ表示余弦角度,sim(Ca,Cmin)表示Ca与Cmin的余弦相似度值。
更进一步地,在得到了余弦角度后,将余弦角度除以簇的数量,即K值,得到角度间隔θ1,从而将余弦角度换分为[0,θ1],[0,2θ1],∧[(K-1)θ1,Kθ1],即共K个区间。之后,将前述的Ca向量作为参照向量,并先选定前述的K个区间中的第一个区间,逐个计算Ca与其他剩余样本向量的余弦相似度,直到找到一个样本向量,满足在该区间的余弦相似度内。具体地,文本聚类系统先选择第一个区间,当向量C1满足0<arccos(sim(Ca,C1))≤θ1时,文本聚类系统停止本区间的计算,并进入下一区间的计算,由此依次找到符合每个区间内余弦相似度的样本向量,得到K个样本向量,即(C1,C2,∧CK),并将这K个样本向量作为初始质心向量。其中,若基于前述的样本向量计算得到的初始质心向量的向量数量小于K,则从数字向量中再额外随机抽取样本向量进行计算,直至得到K个初始质心向量,从而实现对初始质心向量的获取。
需要说明的是,通过基于簇的数量和余弦相似度计算,确定初始质心向量,实现了对初始质心向量快速且准确的确定。
在一种可选的实施例中,在得到每个簇所对应的目标质心向量之后,文本聚类系统可以确定每个初始质心向量和与其对应的目标质心向量之间的误差向量,然后从误差向量中确定最大误差向量,从而在最大误差向量大于第二预设阈值的情况下,基于目标质心向量更新初始质心向量,得到目标初始质心向量。
可选的,如图5所示,文本聚类系统将键相同的初始质心向量与目标质心向量进行相减,得到误差向量,并将该误差向量中绝对值最大的向量值作为该误差向量的误差值,在所有键对应的误差向量的误差值中,找出最大的误差值作为质心向量的总误差W(也即最大误差向量),并将总误差W与第二预设阈值Y进行比较,若总误差W小于第二预设阈值Y,则确定第二聚类处理结束,目标质心向量为最终结果;若若总误差W大于或等于第二预设阈值Y,则将前述的目标质心向量作为新的初始质心向量(即目标初始质心向量),并基于新的初始质心向量在Hadoop分布式环境下对各数字向量进行第二聚类处理,直至得到的新的目标质心向量与新的初始质心向量之间的总误差W小于第二预设阈值Y为止。
需要说明的是,通过确定每个初始质心向量和与其对应的目标质心向量之间的误差向量,并基于误差向量确定是否调整初始质心向量,可以有效控制文本聚类的结果的准确性,从而提高文本聚类效果。
需要说明的是,由于传统的K-means算法需要事先指定簇的数量(即K值)以及簇的初始中心点,且簇的数量(即K值)以及簇的初始中心点并不能准确的确定,容易导致聚类误差大、甚至陷入局部最优。因此,本申请针对传统的K-means算法在大数据条件下聚类存在的问题,提出了一种改进的Canopy+K均值初始化聚类算法来实现文本聚类。该算法在第一阶段采用改进的Canopy聚类算法对数字向量进行“粗”聚类,针对K-means算法无法预先确定簇的个数的问题进行K值的确定,第二阶段采用改进的K均值初始化算法对数字向量进行“细”聚类,通过得到的K值,采用余弦相似度确定K-means算法的初始质心向量,进而借助Hadoop分布式框架,采用并行计算的方法,提升了海量文本聚类的效率和准确度。
由此可见,本申请所提供的方案达到了基于多个数字向量确定聚类范围的限值,进而基于聚类范围的限值确定簇的数量的目的,从而实现了提高文本聚类效果的技术效果,进而解决了由于现有技术中簇的数量无法准确确定造成的文本聚类效果差的技术问题。且需要强调的是,本申请可以应用于金融科技领域中对消费信息中的文本进行聚类的场景,也可以应用于金融科技领域中的其它场景,还可以应用于其它领域。
实施例2
根据本发明实施例,提供了一种文本聚类装置的实施例,其中,图6是根据本发明实施例的一种可选的文本聚类装置的示意图,如图6所示,该装置包括:
第一获取模块601,用于获取待处理文本的多个数字向量,其中,每个数字向量与待处理文本中的部分文本相对应;
确定模块602,用于基于多个数字向量确定第一距离阈值和第二距离阈值,其中,第一距离阈值为聚类范围的最大限值,第二距离阈值为聚类范围的最小限值;
第一处理模块603,用于基于第一距离阈值、第二距离阈值对多个数字向量进行第一聚类处理,得到聚类结果;
第二获取模块604,用于获取聚类结果中的簇的数量;
第二处理模块605,用于基于簇的数量对多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,目标质心向量表征了与目标质心向量所对应的簇的特征。
需要说明的是,上述第一获取模块601、确定模块602、第一处理模块603、第二获取模块604以及第二处理模块605对应于上述实施例中的步骤S101至步骤S105,五个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,确定模块还包括:第一计算模块,用于计算多个数字向量的向量总和与多个数字向量所对应的向量数量的比值,得到均值向量;第一子确定模块,用于确定多个数字向量与均值向量之间的最远距离和最近距离;第二子确定模块,用于基于最远距离和最近距离确定第一距离阈值和第二距离阈值。
可选的,第二子确定模块还包括:第二计算模块,计算最远距离和最近距离之间的差值;第三子确定模块,用于在差值与最远距离的比值大于第一预设数值的情况下,确定差值为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值;第四子确定模块,用于在差值与最远距离的比值小于或等于第一预设数值的情况下,确定最近距离与第二预设数值的乘积为第一距离阈值,确定最远距离与第一预设数值的乘积为第二距离阈值。
可选的,第一处理模块包括:子获取模块,用于从中心列表中获取至少一个中心向量,其中,中心列表用于存储至少一个中心向量,每个中心向量与多个数字向量中的数字向量相对应;第一子处理模块,用于在向量列表中选取目标数字向量,并确定目标数字向量与每个中心向量之间的距离,其中,向量列表用于存储多个数字向量,目标数字向量为与任一中心向量不相同的数字向量;第二子处理模块,用于基于目标数字向量与每个中心向量之间的距离、第一距离阈值和第二距离阈值确定目标数字向量与每个中心向量是否属于不同簇;第一更新模块,用于在目标数字向量与每个中心向量属于不同簇的情况下,基于目标数字向量更新中心列表,并从向量列表中移除目标数字向量;第三子处理模块,用于在目标数字向量与任一中心向量属于相同簇的情况下,将目标数字向量加入到对应的簇中,并从向量列表中移除目标数字向量。
可选的,文本聚类装置还包括:第四子处理模块,用于在目标数字向量处于待定状态的情况下,将目标数字向量加入到对应的簇中,并将目标数字向量保留在向量列表中,其中,待定状态表征目标数字向量与任一中心向量之间的距离处于第一距离阈值与第二距离阈值之间。
可选的,文本聚类装置还包括:检测模块,用于检测中心列表中的中心向量,得到检测结果;选取模块,用于在检测结果表征中心列表中不存在中心向量的情况下,从多个数字向量中选取第一数字向量作为中心向量。
可选的,文本聚类装置还包括:第五子确定模块,用于确定预设数量的目标数字向量中处于待定状态的目标数字向量的向量数量;调整模块,用于在处于待定状态的目标数字向量的向量数量大于第一预设阈值的情况下,将第二距离阈值调整为目标第二距离阈值,其中,目标第二距离阈值大于第二距离阈值。
可选的,第二处理模块包括:第六子确定模块,用于基于簇的数量和多个数字向量确定多个初始质心向量;映射模块,用于基于多个初始质心向量对多个数字向量中的每个数字向量进行第一映射处理,得到每个数字向量与初始质心向量的对应关系;第七子确定模块,用于基于对应关系确定每个初始质心向量所对应的数字向量;归约模块,用于对每个初始质心向量所对应的数字向量进行第一归约处理,得到与每个初始质心向量对应的目标质心向量。
可选的,第六子确定模块包括:第八子确定模块,用于基于簇的数量从多个数字向量中随机确定多个第二数字向量,其中,多个第二数字向量的向量数量与簇的数量相关联;第三计算模块,用于对多个第二数字向量进行余弦相似度计算,得到余弦角度;第九子确定模块,用于基于多个第二数字向量、簇的数量和余弦角度确定多个初始质心向量,其中,初始质心向量的向量数量与簇的数量相同。
可选的,文本聚类装置还包括:第十子确定模块,用于确定每个初始质心向量和与其对应的目标质心向量之间的误差向量;第十一子确定模块,用于从误差向量中确定最大误差向量;第二更新模块,用于在最大误差向量大于第二预设阈值的情况下,基于目标质心向量更新初始质心向量,得到目标初始质心向量。
可选的,第一获取模块包括:划分模块,用于将待处理文本划分为多个子文本;第五子处理模块,用于对每个子文本进行第二映射处理和第二归约处理,得到多个分词;特征提取模块,用于对多个分词进行特征提取处理,得到与每个子文本对应的数字向量。
实施例3
根据本发明实施例的另一方面,还提供了计算机可读存储介质,计算机可读存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述的文本聚类方法。
实施例4
根据本发明实施例的另一方面,还提供了一种电子设备,其中,图7是根据本发明实施例的一种可选的电子设备的示意图,如图7所示,电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现用于运行程序,其中,程序被设置为运行时执行上述的文本聚类方法。
实施例5
根据本发明实施例的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现上述的文本聚类方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种文本聚类方法,其特征在于,包括:
获取待处理文本的多个数字向量,其中,每个数字向量与所述待处理文本中的部分文本相对应;
基于所述多个数字向量确定第一距离阈值和第二距离阈值,其中,所述第一距离阈值为聚类范围的最大限值,所述第二距离阈值为所述聚类范围的最小限值;
基于所述第一距离阈值、所述第二距离阈值对所述多个数字向量进行第一聚类处理,得到聚类结果;
获取所述聚类结果中的簇的数量;
基于所述簇的数量对所述多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,所述目标质心向量表征了与所述目标质心向量所对应的簇的特征。
2.根据权利要求1所述的方法,其特征在于,基于所述多个数字向量确定第一距离阈值和第二距离阈值,包括:
计算所述多个数字向量的向量总和与所述多个数字向量所对应的向量数量的比值,得到均值向量;
确定所述多个数字向量与所述均值向量之间的最远距离和最近距离;
基于所述最远距离和所述最近距离确定所述第一距离阈值和第二距离阈值。
3.根据权利要求2所述的方法,其特征在于,基于所述最远距离和所述最近距离确定所述第一距离阈值和第二距离阈值,包括:
计算所述最远距离和所述最近距离之间的差值;
在所述差值与所述最远距离的比值大于第一预设数值的情况下,确定所述差值为所述第一距离阈值,确定所述最远距离与所述第一预设数值的乘积为所述第二距离阈值;
在所述差值与所述最远距离的比值小于或等于第一预设数值的情况下,确定所述最近距离与第二预设数值的乘积为所述第一距离阈值,确定所述最远距离与所述第一预设数值的乘积为所述第二距离阈值。
4.根据权利要求2所述的方法,其特征在于,基于所述第一距离阈值、所述第二距离阈值对所述多个数字向量进行第一聚类处理,得到聚类结果,包括:
从中心列表中获取至少一个中心向量,其中,所述中心列表用于存储所述至少一个中心向量,每个中心向量与所述多个数字向量中的数字向量相对应;
在向量列表中选取目标数字向量,并确定所述目标数字向量与每个中心向量之间的距离,其中,所述向量列表用于存储所述多个数字向量,所述目标数字向量为与任一中心向量不相同的数字向量;
基于所述目标数字向量与所述每个中心向量之间的距离、所述第一距离阈值和所述第二距离阈值确定所述目标数字向量与每个中心向量是否属于不同簇;
在所述目标数字向量与所述每个中心向量属于不同簇的情况下,基于所述目标数字向量更新所述中心列表,并从向量列表中移除所述目标数字向量;
在所述目标数字向量与任一中心向量属于相同簇的情况下,将所述目标数字向量加入到对应的簇中,并从所述向量列表中移除所述目标数字向量。
5.根据权利要求4所述的方法,其特征在于,在基于所述目标数字向量与所述每个中心向量之间的距离、所述第一距离阈值和所述第二距离阈值确定所述目标数字向量与每个中心向量是否属于不同簇之后,所述方法还包括:
在所述目标数字向量处于待定状态的情况下,将所述目标数字向量加入到对应的簇中,并将所述目标数字向量保留在所述向量列表中,其中,所述待定状态表征所述目标数字向量与任一中心向量之间的距离处于所述第一距离阈值与所述第二距离阈值之间。
6.根据权利要求4所述的方法,其特征在于,在从中心列表中获取至少一个中心向量之前,所述方法还包括:
检测所述中心列表中的中心向量,得到检测结果;
在所述检测结果表征所述中心列表中不存在中心向量的情况下,从所述多个数字向量中选取第一数字向量作为中心向量。
7.根据权利要求5所述的方法,其特征在于,在基于所述目标数字向量与所述每个中心向量之间的距离、所述第一距离阈值和所述第二距离阈值确定所述目标数字向量与每个中心向量是否属于不同簇之后,所述方法还包括:
确定预设数量的目标数字向量中处于所述待定状态的目标数字向量的向量数量;
在处于所述待定状态的目标数字向量的向量数量大于第一预设阈值的情况下,将所述第二距离阈值调整为目标第二距离阈值,其中,所述目标第二距离阈值大于所述第二距离阈值。
8.根据权利要求1所述的方法,其特征在于,基于所述簇的数量对所述多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,包括:
基于所述簇的数量和所述多个数字向量确定多个初始质心向量;
基于所述多个初始质心向量对所述多个数字向量中的每个数字向量进行第一映射处理,得到每个数字向量与初始质心向量的对应关系;
基于所述对应关系确定每个初始质心向量所对应的数字向量;
对所述每个初始质心向量所对应的数字向量进行第一归约处理,得到与每个初始质心向量对应的目标质心向量。
9.根据权利要求8所述的方法,其特征在于,基于所述簇的数量和所述多个数字向量确定多个初始质心向量,包括:
基于所述簇的数量从所述多个数字向量中随机确定多个第二数字向量,其中,所述多个第二数字向量的向量数量与所述簇的数量相关联;
对所述多个第二数字向量进行余弦相似度计算,得到余弦角度;
基于所述多个第二数字向量、所述簇的数量和所述余弦角度确定多个初始质心向量,其中,所述初始质心向量的向量数量与所述簇的数量相同。
10.根据权利要求8所述的方法,其特征在于,在得到每个簇所对应的目标质心向量之后,所述方法还包括:
确定每个初始质心向量和与其对应的目标质心向量之间的误差向量;
从所述误差向量中确定最大误差向量;
在所述最大误差向量大于第二预设阈值的情况下,基于所述目标质心向量更新所述初始质心向量,得到目标初始质心向量。
11.根据权利要求1所述的方法,其特征在于,获取待处理文本的多个数字向量,包括:
将所述待处理文本划分为多个子文本;
对每个子文本进行第二映射处理和第二归约处理,得到多个分词;
对所述多个分词进行特征提取处理,得到与每个子文本对应的数字向量。
12.一种文本聚类装置,其特征在于,包括:
第一获取模块,用于获取待处理文本的多个数字向量,其中,每个数字向量与所述待处理文本中的部分文本相对应;
确定模块,用于基于所述多个数字向量确定第一距离阈值和第二距离阈值,其中,所述第一距离阈值为聚类范围的最大限值,所述第二距离阈值为所述聚类范围的最小限值;
第一处理模块,用于基于所述第一距离阈值、所述第二距离阈值对所述多个数字向量进行第一聚类处理,得到聚类结果;
第二获取模块,用于获取所述聚类结果中的簇的数量;
第二处理模块,用于基于所述簇的数量对所述多个数字向量进行第二聚类处理,得到每个簇所对应的目标质心向量,其中,所述目标质心向量表征了与所述目标质心向量所对应的簇的特征。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至11任一项中所述的文本聚类方法。
14.一种电子设备,其特征在于,所述电子设备包括一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至11任一项中所述的文本聚类方法。
15.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1至11中任一项所述的文本聚类方法。
CN202210260416.1A 2022-03-16 2022-03-16 文本聚类方法、装置及电子设备 Pending CN114691868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210260416.1A CN114691868A (zh) 2022-03-16 2022-03-16 文本聚类方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210260416.1A CN114691868A (zh) 2022-03-16 2022-03-16 文本聚类方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114691868A true CN114691868A (zh) 2022-07-01

Family

ID=82138667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210260416.1A Pending CN114691868A (zh) 2022-03-16 2022-03-16 文本聚类方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114691868A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995080A (zh) * 2023-03-22 2023-04-21 曲阜市检验检测中心 基于ocr识别的档案智能管理系统
CN117708616A (zh) * 2024-02-05 2024-03-15 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995080A (zh) * 2023-03-22 2023-04-21 曲阜市检验检测中心 基于ocr识别的档案智能管理系统
CN117708616A (zh) * 2024-02-05 2024-03-15 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质
CN117708616B (zh) * 2024-02-05 2024-05-24 四川大学华西医院 人员相似度计算方法、装置、电子设备和计算机存储介质

Similar Documents

Publication Publication Date Title
CN114691868A (zh) 文本聚类方法、装置及电子设备
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN109299263B (zh) 文本分类方法、电子设备
CN110991321B (zh) 一种基于标签更正与加权特征融合的视频行人再识别方法
CN109472453B (zh) 基于全局最优模糊核聚类模型的电力用户信用评价方法
CN116523320B (zh) 基于互联网大数据的知识产权风险智能分析方法
CN110929525B (zh) 一种网贷风险行为分析检测方法、装置、设备和存储介质
CN108804577B (zh) 一种资讯标签兴趣度的预估方法
CN111898739A (zh) 基于元学习的数据筛选模型构建方法、数据筛选方法、装置、计算机设备及存储介质
CN113850281A (zh) 一种基于meanshift优化的数据处理方法和装置
CN109783547B (zh) 一种相似性连接查询方法及装置
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
CN110213660B (zh) 节目的分发方法、系统、计算机设备和存储介质
CN110781275A (zh) 基于多特征的问题可回答性判别方法及计算机存储介质
CN105224954B (zh) 一种基于Single-pass去除小话题影响的话题发现方法
EP3703061A1 (en) Image retrieval
CN111177403B (zh) 样本数据的处理方法和装置
CN113987243A (zh) 一种图像聚档方法、图像聚档装置和计算机可读存储介质
CN113032524A (zh) 商标侵权识别方法、终端设备及存储介质
García-García et al. Music genre classification using the temporal structure of songs
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115345158A (zh) 基于无监督学习的新词发现方法、装置、设备及存储介质
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination