CN113204642A - 文本聚类方法、装置、存储介质和电子设备 - Google Patents

文本聚类方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN113204642A
CN113204642A CN202110392588.XA CN202110392588A CN113204642A CN 113204642 A CN113204642 A CN 113204642A CN 202110392588 A CN202110392588 A CN 202110392588A CN 113204642 A CN113204642 A CN 113204642A
Authority
CN
China
Prior art keywords
text
cluster
clustering
clusters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110392588.XA
Other languages
English (en)
Inventor
刘纯一
冯浩
王鹏
王征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110392588.XA priority Critical patent/CN113204642A/zh
Publication of CN113204642A publication Critical patent/CN113204642A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本聚类方法、装置、存储介质和电子设备,通过拆分多个待聚类文本信息的文本信息集合得到多个对应于至少一个关键词的目标文本簇。再通过对各目标文本簇进行参数扫描,以确定表征目标文本簇中包括的类簇数量的第一聚类参数和用于表征目标文本簇中最小的类簇包括的文本信息数量的第二聚类参数。最后根据对应的第一聚类参数和第二聚类参数对各目标文本簇中的文本信息分别进行聚类得到各目标文本簇对应的类簇。本发明实施例先基于关键词将待聚类的文本信息集合拆分为小的文本簇,再通过参数扫描得到各文本簇对应的聚类参数,以基于对应的聚类参数对各文本簇进行聚类,提高文本聚类效果。

Description

文本聚类方法、装置、存储介质和电子设备
技术领域
本发明涉及数据处理领域,尤其涉及一种文本聚类方法、装置、存储介质和电子设备。
背景技术
随着计算机性能提升,存储及需要处理的数据量越来越大。为提高数据处理效率,在数据处理过程中通常会根据预设的条件对各待处理数据进行聚类。现有技术在对文本数据进行聚类的过程中,会有无法自适应于多变的场景、聚类过程中应用的超参难以确定等局限性,影响了对文本数据聚类的效果。
发明内容
有鉴于此,本发明实施例提供了文本聚类方法、装置、存储介质和电子设备,旨在解决现有文本聚类方法的局限性,提高文本聚类效果。
第一方面,本发明实施例提供了一种文本聚类方法,所述方法包括:
确定包括多个待聚类的文本信息的文本信息集合;
根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
第二方面,本发明实施例提供了一种文本聚类装置,所述装置包括:
文本集合确定模块,用于确定包括多个待聚类的文本信息的文本信息集合;
文本拆分模块,用于根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
参数扫描模块,用于对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
聚类模块,用于根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
第五方面,本发明实施例提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行以实现如第一方面所述的方法。
本发明实施例通过拆分多个待聚类文本信息的文本信息集合得到多个对应于至少一个关键词的目标文本簇。再通过对各目标文本簇进行参数扫描,以确定表征目标文本簇中包括的类簇数量的第一聚类参数和用于表征目标文本簇中最小的类簇包括的文本信息数量的第二聚类参数。最后根据对应的第一聚类参数和第二聚类参数对各目标文本簇中的文本信息分别进行聚类得到各目标文本簇对应的类簇。本发明实施例先基于关键词将待聚类的文本信息集合拆分为小的文本簇,再通过扫参得到各文本簇对应的聚类参数,以基于对应的聚类参数对各文本簇进行聚类。同时,由于通过多种不同的聚类算法结合的方式进行聚类,解决了现有聚类算法无法自适应于多变的场景以及聚类过程中应用的超参难以确定的局限性,提高文本聚类效果。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1为本发明实施例的文本聚类方法的流程图;
图2为本发明实施例的参数曲线的示意图;
图3为本发明实施例的文本聚类过程的示意图;
图4为本发明实施例的文本信息集合拆分过程的示意图;
图5为本发明实施例的文本聚类装置的示意图;
图6为本发明实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
图1为本发明实施例的文本聚类方法的流程图。如图2所示,本发明实施例的文本聚类方法包括以下步骤:
步骤S100、确定包括多个待聚类的文本信息的文本信息集合。
具体地,本发明实施例的文本聚类方法可以通过服务器或终端设备实现,在进行文本聚类之前先通过接收其他设备发送的多个待聚类文本信息的方式确定文本信息集合,或者通过获取内部存储的多个待聚类文本信息的方式确定文本信息集合。其中,文本信息集合中包括的文本信息可以为一个句子、一段话或一篇文章。所述文本聚类方法可以应用于任何需要通过聚类的方式对文本数据分组的应用场景。例如,当本发明实施例应用于对智能客服接收到的用户问题进行整理的应用场景时,智能客服对应的服务器或者终端设备可以根据接收到的用户问题确定文本信息集合。当本发明实施例应用于确定某一特定技术领域的论文数据库索引时,数据库对应的服务器可以根据当前数据库内多个论文的摘要确定文本信息集合。
步骤S200、根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词。
具体地,确定文本信息集合对应的关键词库,根据关键词库拆分文本信息集合,得到多个大小满足预设条件的文本集合作为目标文本簇,即通过关键词库对文本信息集合进行第一次分层聚类,得到多个目标文本簇。其中,所述关键词库中的关键词与文本信息集合中文本信息的内容对应,可以预先确定或根据文本信息集合确定。进一步地,所述根据文本信息集合确定关键词库的过程可以为先提取文本信息集合中各文本信息中包括的词,再根据对应的词性以及在文本信息集合中出现的次数在多个词中确定关键词,以得到对应的关键词库。
以本发明实施例应用于网约车软件的智能客服问题整理的应用场景为例进行说明。所述文本信息集合为网约车软件平台服务器接收到的用户问题集合,所述关键词库可以通过网约车软件平台基于人工客服历史已经处理完成的用户问题确定。进一步地,服务器还可以根据用户问题集合中各用户问题中包含的词的词性和在用户问题集合中出现的频率确定关键词,以得到对应的关键词库。
在本发明实施例中,根据关键词库确定多个对应于至少一个关键词的目标文本簇可以包括以下步骤:
步骤S210、根据预设的关键词库确定各所述文本信息中包括的关键词。
具体地,所述关键词库中包括多个关键词,以分别根据所述关键词库确定所述文本信息集合中各文本信息包括的关键词。进一步地,还可以根据各文本信息包括的关键词确定包括的关键词集合,当一个文本信息中不存在关键词库中的任意一个关键词,可以生成一个对应的“无关键词”标识作为所述文本信息包括的关键词加入对应的关键词集合。
以本发明实施例应用于网约车领域为例进行说明。当所述关键词库中包括{计费、导航、行程、司机},所述文本信息集合中包括文本信息1“如何拉黑司机?”、文本信息2“行程计费如何开发票?”、文本信息3“行程中司机多次不按导航走怎么举报?”和文本信息4“未坐车被扣费怎么处理?”时,根据关键词库中包括的关键词确定文本信息1包括的关键词为“司机”,文本信息2包括的关键词为“行程”和“计费”,文本信息3包括的关键词为“行程”、“司机”和“导航”,文本信息4包括的关键词为“无关键词”。
步骤S220、根据各所述关键词在对应文本信息中的重要性进行优先级排序。
具体地,在确定各文本信息对应的关键词后,确定各关键词在对应文本信息中的重要性,以进行优先级排序。在本发明实施例中,可以通过TF-IDF(词频-逆文档频率)确定关键词在对应文本信息中的重要性。即确定关键词对应的词频和逆文档频率,计算词频和逆文档频率的乘积得到在对应文本信息中的重要性。其中,关键词对应的词频可以通过关键词在对应文本信息中出现的次数确定,或通过关键词在对应文本信息中出现次数和对应文本信息中包括的总词数比值确定,或者通过关键词在对应文本中出现次数和对应文本信息中出现次数最多词出现的次数比值确定。关键词对应的逆文档频率确定方式可以为先确定文本信息集合中的文本信息数量与文本信息集合中包含对应关键词的文本信息数量的数量比值,再取所述数量比值的对数确定对应的逆文档频率。
在确定各关键词在对应文本信息的重要性后,按照重要程度由大到小的顺序确定各关键词的优先级。例如,当文本信息中包括关键词1、关键词2和关键词3,计算得到各关键词对应的重要性分别为0.3、0.7、0.13时,文本信息中各关键词的优先级顺序依次为关键词2、关键词1和关键词3。
步骤S230、根据各所述文本信息中优先级顺序最高的关键词确定第一关键词组。
具体地,在确定所述文本信息集合中各文本信息包括的关键词后,确定各文本信息中优先级顺序最高的关键词为第一关键词,以确定第一关键词组。以本发明实施例应用于网约车领域,文本信息集合中包括文本信息1、文本信息2、文本信息3、文本信息4和文本信息5为例进行说明。当各所述文本信息中包括的优先级顺序最高的关键词分别为“费用”、“司机”、“订单”、“行程”和“导航”时,确定第一关键词组为{“费用”,“司机”,“订单”,“行程”,“导航”}。
步骤S240、通过所述第一关键词组对所述文本信息集合进行拆分,以确定多个对应于所述第一关键词组中各第一关键词的候选文本簇。
具体地,确定第一关键词组后,通过其中包括的多个第一关键词对文本信息集合进行拆分,以将包括相同第一关键词的文本信息聚集在一起,作为对应于所述第一关键词的候选文本簇。
以本发明实施例应用于网约车领域,文本信息集合中包括文本信息1、文本信息2、文本信息3、文本信息4、文本信息5和文本信息6为例进行说明。当各所述文本信息中包括的优先级顺序最高的关键词分别为“导航”、“司机”、“导航”、“行程”、“导航”和“司机”时,所述第一关键词组为{“导航”,“司机”,“行程”},对所述文本信息集合拆分后得到候选文本簇1{文本信息1,文本信息3,文本信息5}、候选文本簇2{文本信息2,文本信息3}和候选文本簇3{文本信息6}。
步骤S250、根据各所述候选文本簇确定目标文本簇。
具体地,在实际应用过程中,文本信息集合中的文本数量通常较多,通过第一关键词组拆分文本信息集合后,会出现部分候选文本簇体积过大,即包含的文本信息过多的情况。为了避免候选文本簇包括的文本信息过多影响文本聚类效果,需要预先设定用于限定目标文本簇体积的条件,以进一步在候选文本簇中筛选符合预设条件的候选文本簇作为目标文本簇,并对不符合预设条件的候选文本簇进一步拆分直到满足预设要求。由此,根据各所述候选文本簇确定目标文本簇的过程可以为以通过第一关键词组拆分文本信息集合后得到的各候选文本簇作为初始的候选文本簇,以迭代的方式执行以下步骤:
步骤S251、确定各所述候选文本簇中的文本信息数量。
具体地,在确定各候选文本簇后,确定各所述候选文本簇中包括的文本信息数量。其中,在第一次迭代过程中,各所述候选文本簇为通过第一关键词组拆分文本信息集合得到的文本簇;在第一次迭代过程以后的迭代过程中,各所述候选文本簇为经过上一次迭代过程拆分后得到的候选文本簇。
步骤S252、响应于所述文本信息数量大于第一阈值,按照对应候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,以确定各候选文本簇对应的第二关键词组。
具体地,当步骤S251确定的候选文本簇对应的文本信息数量大于预先设定的第一阈值时,判断所述候选文本簇体积过大,需要进一步根据所述候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,得到对应的第二关键词组。在每一次迭代过程中,各所述文本信息对应的第二关键词为上一次拆分文本信息集合或候选文本簇的关键词根据优先级排序的下一个关键词。其中,在第一次迭代过程中确定的第二关键词为各文本信息对应的第一关键词优先级顺序中下一顺位的关键词,在第一次迭代过程之后的迭代过程中,各文本信息对应的第二关键词为上一次迭代过程应用的第二关键词优先级顺序中下一顺位的关键词。进一步地,在确定第二关键词过程中存在文本信息无下一顺位的关键词时,确定对应的第二关键词为“无关键词”。
另一方面,当步骤S251确定的候选文本簇对应的文本信息数量不大于预先设定的第一阈值时,判断所述候选文本簇体积满足要求,不需要确定第二关键词以进一步进行拆分,直接确定所述候选文本簇为目标文本簇。进一步地,在候选文本簇对应的第一关键词为“无关键词”,或上一次迭代过程中确定的第二关键词为“无关键词”时,也不需要再确定第二关键词以进一步进行拆分,直接确定所述候选文本簇为目标文本簇。
步骤S253、根据对应的第二关键词组对所述候选文本簇进行拆分,以得到对应于所述第二关键词组中各第二关键词的候选文本簇。
具体地,第二关键词组对候选文本簇进行拆分的过程与步骤S240中通过第一关键词组对文本信息集合进行拆分的过程相似,在此不再赘述。
步骤S254、响应于候选文本簇被拆分的次数不小于第二阈值,确定所述候选文本簇为目标文本簇。
具体地,为避免拆分次数过多影响分层聚类效率,可以预先设定用于限定拆分次数的第二阈值。当存在候选文本簇被拆分的次数已经达到第二阈值,即大于等于第二阈值,即不再进行拆分,直接确定所述候选文本簇为目标文本簇。例如,当所述第一阈值为5,所述第二阈值为3,存在一个候选文本簇在拆分3次后包括10个文本信息,也将所述候选文本簇确定为目标文本簇。
步骤S300、对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数。
具体地,在通过步骤S200进行分层聚类,得到多个目标文本簇后进一步对各所述目标文本簇进行参数扫描,以确定各目标文本簇对应的第一聚类参数和第二聚类参数,所述参数扫描过程可以解决聚类过程中超参难以控制的问题。其中,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量。在本发明实施例中,所述参数扫描过程可以通过k-means聚类算法实现,包括以下步骤:
步骤S310、根据预设的类簇数量序列对各所述目标文本簇进行聚类,以确定各所述目标文本簇对应的多个候选类簇。
具体地,预先设定包括多个类簇数量的类簇数量序列,以将各类簇数量作为先验参数分别进行参数扫描。所述参数扫描过程即对各所述目标文本簇进行再次聚类,得到与对应类簇数量相同数量的多个候选类簇。在本发明实施例中,本次聚类过程可以通过k-means聚类算法实现,以基于k-means聚类算法的特性实现通过较小的时间开销进行聚类,准确的确定基于各类簇数量进行聚类时的聚类效果。
例如,当预先设定的类簇数量序列为{2,3,4,5,6}时,通过k-means聚类算法根据各类簇数量分别对各目标文本簇进行聚类,以得到2个候选类簇、3个候选类簇、4个候选类簇、5个候选类簇和6个候选类簇的聚类结果。
步骤S320、根据对应的多个候选类簇确定各所述目标文本簇对应的轮廓系数。
具体地,对于各目标文本簇,根据其根据各类簇数量聚类得到的多个候选类簇确定对应的轮廓系数。其中,所述轮廓系数可以通过先计算各候选类簇中的各文本信息对应的轮廓系数,在通过各文本信息对应的轮廓系数确定对应目标文本簇整体的轮廓系数。所述确定目标文本簇整体轮廓系数的方式可以为计算各所述候选类簇的误差平方和得到,即计算各候选类簇对应误差平方的和。各候选类簇对应的误差平方为其中各文本信息对应的轮廓系数与候选类簇中全部文本信息均值差的平方。
在本发明实施例中,各文本信息对应的轮廓系数可以通过如下公式计算得到:
Figure BDA0003017326830000091
其中,i为候选文本簇中的一个文本信息,a(i)为文本信息i到它属于的候选文本簇中其它各文本信息的距离均值,b(i)为文本信息i到目标文本簇中包括的其他各候选文本簇中所有文本信息的平均距离的最小值,S(i)为文本信息i的轮廓系数。
各文本信息所在目标文本簇对应的轮廓系数可以通过如下公式计算得到:
Figure BDA0003017326830000092
其中,ci是目标文本簇中的一个候选文本簇,SSE为目标文本簇对应的轮廓系数,p是候选文本簇ci中一个文本信息对的轮廓系数,mi是候选文本簇ci中所有文本信息对应轮廓系数的均值。
步骤S330、根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数。
具体地,对于各目标文本簇,在确定其基于各类簇数量聚类后对应的轮廓系数后,根据对应的轮廓系数在所述类簇数量序列中确定目标类簇数量以作为第一聚类参数。所述目标类簇数量的确定方式可以为对于各所述目标文本簇,以所述类簇数量为横坐标,对应的轮廓系数为纵坐标建立对应的参数曲线,计算参数曲线中各横坐标对应的斜率,以确定所述参数曲线中斜率最大位置对应的类簇数量为目标类簇数量,将所述目标类簇数量作为第一聚类参数。
图2为本发明实施例的参数曲线的示意图。如图2所示,所述参数见曲线20的横坐标为类簇数量,纵坐标为轮廓系数。在确定第一聚类参数的过程中,计算各横坐标最大的斜率以确定斜率最大位置对应的类簇数量为目标类簇数量,将所述目标类簇数量作为第一聚类参数。
步骤S340、对于各所述目标文本簇,根据所述第一聚类参数对应的多个候选类簇确定第二聚类参数。
具体地,在根据步骤S330确定各目标文本簇对应的第一聚类参数后,对于各所述目标文本簇,确定基于第一聚类参数聚类后得到的各候选类簇中包括的文本信息数量,确定各候选类簇对应的最小文本信息数量为第二聚类参数。由此可以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数。
步骤S400、根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
具体地,在确定各所述目标文本簇对应的第一聚类参数和第二聚类参数后,将对应的第一聚类参数和第二聚类参数作为先验参数,通过与参数扫描过程中不同的聚类算法对各所述目标文本簇进行聚类,以对应的类簇作为聚类结果。其中,第一聚类参数和第二聚类参数为对应目标文本簇聚类效果最好情况下的类簇数量和最小类簇的大小,用于限定各目标文本簇聚类后得到的类簇数量和最小类簇中包括的文本信息数量,以得到聚类结果效果最好的聚类结果。在本发明实施例中,所述聚类过程应用的聚类算法可以为hdbscan聚类算法,以基于hdbscan算法具有良好自适应性的特性解决聚类过程无法自适应于多变场景的问题。同时,通过预先确定先验参数的方式解决了hdbscan算法难以确定超参的问题。
图3为本发明实施例的文本聚类过程的示意图。如图3所示,所述文本聚类方法包括以下步骤:
步骤S30、基于预设的关键词库对文本信息集合进行多级分层拆分,以通过多级分层拆分的方式对文本信息集合进行第一次聚类得到多个目标文本簇。
图4为本发明实施例的文本信息集合拆分过程的示意图。如图4所示,所述文本信息集合的拆分过程为先根据关键词库确定各文本信息中包括的关键词40,并计算各关键词在对应文本信息中的重要性以进行优先级排序。确定各文本信息中优先级顺序最高的关键词为第一关键词,以确定第一关键词组对各文本信息进行拆分得到对应的多个候选文本簇41。确定各候选文本簇中包括的文本信息数量42,以进一步判断各候选文本簇中的文本信息数量是否大于第一阈值43。当文本信息数量不大于第一阈值时直接确定当前候选文本簇为目标文本簇48。当文本信息数量大于第一阈值时在各文本信息包括的关键词中选择第二关键词以确定第二关键词组44。根据候选文本簇对应的第二关键词组对候选文本簇再次拆分45得到多个更小的候选文本簇,并确定再次拆分后得到的候选文本簇被拆分的次数46。判断当前候选文本簇被拆分过的次数是否小于第二阈值47,是则确定当前候选文本簇中的文本信息数量以判断文本信息数量是否大于第一阈值,否则确定当前候选文本簇为目标文本簇48。
步骤S31、对拆分得到的各目标文本簇进行参数扫描,所述参数扫描过程可以为通过k-means聚类算法基于预设的类簇数量序列对各目标文本簇进行多次聚类,以确定各目标文本簇对应的第一聚类参数和第二聚类参数。
步骤S32、根据对应的第一聚类参数和第二聚类参数对步骤S30确定的各目标文本簇进行聚类,得到对应的多个类簇作为聚类结果。在本发明实施例中,所述聚类过程中应用的聚类算法为hdbcans算法。
本发明实施例的文本聚类方法先基于关键词对待聚类的文本信息集合进行第一次分层聚类,以拆分文本信息集合得到多个较小的目标文本簇。再对得到的各目标文本簇进行参数扫描,以得到各目标文本簇对应的第一聚类参数和第二聚类参数,参数扫描过程通过一种聚类算法实现。最后基于各目标文本簇对应的第一聚类参数和第二聚类参数对各目标文本簇进行聚类,聚类过程中应用的聚类算法与扫参过程和分层聚类过程的算法不同。本发明实施例通过多种不同的聚类算法结合的方式进行聚类,解决了现有聚类算法无法自适应于多变的场景以及聚类过程中应用的超参难以确定等局限性,提高文本聚类效果。
图5为本发明实施例的文本聚类装置的示意图。如图5所示,所述文本聚类装置包括文本集合确定模块50、文本拆分模块51、参数扫描模块52和聚类模块53。
具体地,文本集合确定模块50用于确定包括多个待聚类的文本信息的文本信息集合。文本拆分模块51用于根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词。参数扫描模块52用于对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量。聚类模块53用于根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
进一步地,所述聚类模块包括:
关键词确定子模块,用于根据预设的关键词库确定各所述文本信息中包括的关键词;
排序子模块,用于根据各所述关键词在对应文本信息中的重要性进行优先级排序;
关键词组确定子模块,用于根据各所述文本信息中优先级顺序最高的关键词确定第一关键词组;
信息拆分子模块,用于通过所述第一关键词组对所述文本信息集合进行拆分,以确定多个对应于所述第一关键词组中各第一关键词的候选文本簇;
目标文本簇确定子模块,用于根据各所述候选文本簇确定目标文本簇。
进一步地,所述目标文本簇确定子模块包括:
以迭代方式执行以下步骤的:
数量确定单元,用于确定各所述候选文本簇中的文本信息数量;
关键词确定单元,用于响应于所述文本信息数量大于第一阈值,按照对应候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,以确定各候选文本簇对应的第二关键词组;
文本拆分单元,用于根据对应的第二关键词组对所述候选文本簇进行拆分,以得到对应于所述第二关键词组中各第二关键词的候选文本簇;
第一文本簇确定单元,用于响应于候选文本簇被拆分的次数不小于第二阈值,确定所述候选文本簇为目标文本簇。
进一步地,所述目标文本簇确定子模块还包括:
第二文本簇确定单元,用于响应于所述文本信息数量不大于第一阈值,确定所述候选文本簇为目标文本簇。
进一步地,所述参数扫描模块包括:
聚类子模块,用于根据预设的类簇数量序列对各所述目标文本簇进行聚类,以确定各所述目标文本簇对应的多个候选类簇;
轮廓系数确定子模块,用于根据对应的多个候选类簇确定各所述目标文本簇对应的轮廓系数;
第一参数确定子模块,用于根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数;
第二参数确定子模块,用于对于各所述目标文本簇,根据所述第一聚类参数对应的多个候选类簇确定第二聚类参数。
进一步地,所述第一参数确定子模块包括:
曲线确定单元,用于对于各所述目标文本簇,以所述类簇数量为横坐标,对应的轮廓系数为纵坐标建立对应的参数曲线;
第一参数确定单元,用于确定所述参数曲线中斜率最大位置对应的类簇数量为目标类簇数量,以将所述目标类簇数量作为第一聚类参数。
进一步地,所述根据预设的类簇数量序列对各所述目标文本簇进行聚类的过程基于k-means聚类算法实现。
进一步地,所述根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息进行聚类的过程基于hdbscan算法实现。
本发明实施例的文本聚类装置先基于关键词对待聚类的文本信息集合进行第一次分层聚类,以拆分文本信息集合得到多个较小的目标文本簇。再对得到的各目标文本簇进行参数扫描,以得到各目标文本簇对应的第一聚类参数和第二聚类参数,参数扫描过程通过一种聚类算法实现。最后基于各目标文本簇对应的第一聚类参数和第二聚类参数对各目标文本簇进行聚类,聚类过程中应用的聚类算法与扫参过程和分层聚类过程的算法不同。本发明实施例通过多种不同的聚类算法结合的方式进行聚类,解决了现有聚类算法无法自适应于多变的场景以及聚类过程中应用的超参难以确定等局限性,提高文本聚类效果。
图6为本发明实施例的电子设备的示意图。如图6所示,图6所示的电子设备为通用地址查询装置,其包括通用的计算机硬件结构,其至少包括处理器60和存储器61。处理器60和存储器61通过总线62连接。存储器61适于存储处理器60可执行的指令或程序。处理器60可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器60通过执行存储器61所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线62将上述多个组件连接在一起,同时将上述组件连接到显示控制器63和显示装置以及输入/输出(I/O)装置64。输入/输出(I/O)装置64可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置64通过输入/输出(I/O)控制器65与系统相连。
本领域的技术人员应明白,本申请的实施例可提供为方法、装置(设备)或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图来描述的。应理解可由计算机程序指令实现流程图中的每一流程。
这些计算机程序指令可以存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现流程图一个流程或多个流程中指定的功能。
也可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程中指定的功能的装置。
本发明的另一实施例涉及一种非易失性存储介质,用于存储计算机可读程序,所述计算机可读程序用于供计算机执行上述部分或全部的方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指定相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例公开了TS1、一种文本聚类方法,所述方法包括:
确定包括多个待聚类的文本信息的文本信息集合;
根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
TS2、根据TS1所述的方法,所述根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇包括:
根据预设的关键词库确定各所述文本信息中包括的关键词;
根据各所述关键词在对应文本信息中的重要性进行优先级排序;
根据各所述文本信息中优先级顺序最高的关键词确定第一关键词组;
通过所述第一关键词组对所述文本信息集合进行拆分,以确定多个对应于所述第一关键词组中各第一关键词的候选文本簇;
根据各所述候选文本簇确定目标文本簇。
TS3、根据TS2所述的方法,所述根据各所述候选文本簇确定目标文本簇包括:
以迭代方式执行以下步骤:
确定各所述候选文本簇中的文本信息数量;
响应于所述文本信息数量大于第一阈值,按照对应候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,以确定各候选文本簇对应的第二关键词组;
根据对应的第二关键词组对所述候选文本簇进行拆分,以得到对应于所述第二关键词组中各第二关键词的候选文本簇;
响应于候选文本簇被拆分的次数不小于第二阈值,确定所述候选文本簇为目标文本簇。
TS4、根据TS3所述的方法,所述根据各所述候选文本簇确定目标文本簇还包括:
响应于所述文本信息数量不大于第一阈值,确定所述候选文本簇为目标文本簇。
TS5、根据TS1所述的方法,所述对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数包括:
根据预设的类簇数量序列对各所述目标文本簇进行聚类,以确定各所述目标文本簇对应的多个候选类簇;
根据对应的多个候选类簇确定各所述目标文本簇对应的轮廓系数;
根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数;
对于各所述目标文本簇,根据所述第一聚类参数对应的多个候选类簇确定第二聚类参数。
TS6、根据TS5所述的方法,所述根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数包括:
对于各所述目标文本簇,以所述类簇数量为横坐标,对应的轮廓系数为纵坐标建立对应的参数曲线;
确定所述参数曲线中斜率最大位置对应的类簇数量为目标类簇数量,以将所述目标类簇数量作为第一聚类参数。
TS7、根据TS5所述的方法,所述根据预设的类簇数量序列对各所述目标文本簇进行聚类的过程基于k-means聚类算法实现。
TS8、根据TS1所述的方法,所述根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息进行聚类的过程基于hdbscan算法实现。
TS9、一种文本聚类装置,所述装置包括:
文本集合确定模块,用于确定包括多个待聚类的文本信息的文本信息集合;
文本拆分模块,用于根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
参数扫描模块,用于对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
聚类模块,用于根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
TS10、根据TS9所述的装置,所述聚类模块包括:
关键词确定子模块,用于根据预设的关键词库确定各所述文本信息中包括的关键词;
排序子模块,用于根据各所述关键词在对应文本信息中的重要性进行优先级排序;
关键词组确定子模块,用于根据各所述文本信息中优先级顺序最高的关键词确定第一关键词组;
信息拆分子模块,用于通过所述第一关键词组对所述文本信息集合进行拆分,以确定多个对应于所述第一关键词组中各第一关键词的候选文本簇;
目标文本簇确定子模块,用于根据各所述候选文本簇确定目标文本簇。
TS11、根据TS10所述的装置,所述目标文本簇确定子模块包括:
以迭代方式执行以下步骤的:
数量确定单元,用于确定各所述候选文本簇中的文本信息数量;
关键词确定单元,用于响应于所述文本信息数量大于第一阈值,按照对应候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,以确定各候选文本簇对应的第二关键词组;
文本拆分单元,用于根据对应的第二关键词组对所述候选文本簇进行拆分,以得到对应于所述第二关键词组中各第二关键词的候选文本簇;
第一文本簇确定单元,用于响应于候选文本簇被拆分的次数不小于第二阈值,确定所述候选文本簇为目标文本簇。
TS12、根据TS11所述的装置,所述目标文本簇确定子模块还包括:
第二文本簇确定单元,用于响应于所述文本信息数量不大于第一阈值,确定所述候选文本簇为目标文本簇。
TS13、根据TS9所述的装置,所述参数扫描模块包括:
聚类子模块,用于根据预设的类簇数量序列对各所述目标文本簇进行聚类,以确定各所述目标文本簇对应的多个候选类簇;
轮廓系数确定子模块,用于根据对应的多个候选类簇确定各所述目标文本簇对应的轮廓系数;
第一参数确定子模块,用于根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数;
第二参数确定子模块,用于对于各所述目标文本簇,根据所述第一聚类参数对应的多个候选类簇确定第二聚类参数。
TS14、根据TS13所述的装置,所述第一参数确定子模块包括:
曲线确定单元,用于对于各所述目标文本簇,以所述类簇数量为横坐标,对应的轮廓系数为纵坐标建立对应的参数曲线;
第一参数确定单元,用于确定所述参数曲线中斜率最大位置对应的类簇数量为目标类簇数量,以将所述目标类簇数量作为第一聚类参数。
TS15、根据TS13所述的装置,所述根据预设的类簇数量序列对各所述目标文本簇进行聚类的过程基于k-means聚类算法实现。
TS16、根据TS9所述的装置,所述根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息进行聚类的过程基于hdbscan算法实现。
TS17、一种计算机可读存储介质,用于存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如TS1-TS8中任一项所述的方法。
TS18、一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如TS1-TS8中任一项所述的方法。
TS19、一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行以实现如TS1-TS8中任一项所述的方法。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本聚类方法,其特征在于,所述方法包括:
确定包括多个待聚类的文本信息的文本信息集合;
根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇包括:
根据预设的关键词库确定各所述文本信息中包括的关键词;
根据各所述关键词在对应文本信息中的重要性进行优先级排序;
根据各所述文本信息中优先级顺序最高的关键词确定第一关键词组;
通过所述第一关键词组对所述文本信息集合进行拆分,以确定多个对应于所述第一关键词组中各第一关键词的候选文本簇;
根据各所述候选文本簇确定目标文本簇。
3.根据权利要求2所述的方法,其特征在于,所述根据各所述候选文本簇确定目标文本簇包括:
以迭代方式执行以下步骤:
确定各所述候选文本簇中的文本信息数量;
响应于所述文本信息数量大于第一阈值,按照对应候选文本簇中各所述文本信息中关键词的优先级依次确定第二关键词,以确定各候选文本簇对应的第二关键词组;
根据对应的第二关键词组对所述候选文本簇进行拆分,以得到对应于所述第二关键词组中各第二关键词的候选文本簇;
响应于候选文本簇被拆分的次数不小于第二阈值,确定所述候选文本簇为目标文本簇。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述候选文本簇确定目标文本簇还包括:
响应于所述文本信息数量不大于第一阈值,确定所述候选文本簇为目标文本簇。
5.根据权利要求1所述的方法,其特征在于,所述对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数包括:
根据预设的类簇数量序列对各所述目标文本簇进行聚类,以确定各所述目标文本簇对应的多个候选类簇;
根据对应的多个候选类簇确定各所述目标文本簇对应的轮廓系数;
根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数;
对于各所述目标文本簇,根据所述第一聚类参数对应的多个候选类簇确定第二聚类参数。
6.根据权利要求5所述的方法,其特征在于,所述根据各类簇数量对应的轮廓系数在所述类簇数量序列中确定各所述目标文本簇对应的目标类簇数量作为第一聚类参数包括:
对于各所述目标文本簇,以所述类簇数量为横坐标,对应的轮廓系数为纵坐标建立对应的参数曲线;
确定所述参数曲线中斜率最大位置对应的类簇数量为目标类簇数量,以将所述目标类簇数量作为第一聚类参数。
7.一种文本聚类装置,其特征在于,所述装置包括:
文本集合确定模块,用于确定包括多个待聚类的文本信息的文本信息集合;
文本拆分模块,用于根据预设的关键词库对所述文本信息集合进行分层聚类,以确定多个目标文本簇,各所述目标文本簇对应于至少一个关键词;
参数扫描模块,用于对各所述目标文本簇进行参数扫描,以确定各所述目标文本簇对应的第一聚类参数和第二聚类参数,所述第一聚类参数为所述目标文本簇中包括的类簇数量,所述第二聚类参数用于表征所述目标文本簇中最小的类簇包括的文本信息数量;
聚类模块,用于根据对应的第一聚类参数和第二聚类参数对各所述目标文本簇中的文本信息分别进行聚类,以确定各所述目标文本簇对应的类簇。
8.一种计算机可读存储介质,用于存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行以实现如权利要求1-6中任一项所述的方法。
CN202110392588.XA 2021-04-13 2021-04-13 文本聚类方法、装置、存储介质和电子设备 Withdrawn CN113204642A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110392588.XA CN113204642A (zh) 2021-04-13 2021-04-13 文本聚类方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110392588.XA CN113204642A (zh) 2021-04-13 2021-04-13 文本聚类方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN113204642A true CN113204642A (zh) 2021-08-03

Family

ID=77026664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110392588.XA Withdrawn CN113204642A (zh) 2021-04-13 2021-04-13 文本聚类方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN113204642A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676796A (zh) * 2022-05-27 2022-06-28 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统
CN116910592A (zh) * 2023-09-13 2023-10-20 中移(苏州)软件技术有限公司 日志检测方法、装置、电子设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676796A (zh) * 2022-05-27 2022-06-28 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统
CN116910592A (zh) * 2023-09-13 2023-10-20 中移(苏州)软件技术有限公司 日志检测方法、装置、电子设备及存储介质
CN116910592B (zh) * 2023-09-13 2023-11-24 中移(苏州)软件技术有限公司 日志检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN102184169B (zh) 用于确定字符串信息间相似度信息的方法、装置和设备
CN106919957B (zh) 处理数据的方法及装置
CN113204642A (zh) 文本聚类方法、装置、存储介质和电子设备
CN114638234B (zh) 应用于线上业务办理的大数据挖掘方法及系统
CN112732914A (zh) 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN106610977B (zh) 一种数据聚类方法和装置
CN111522968A (zh) 知识图谱融合方法及装置
CN112328880A (zh) 地理区域聚类方法、装置、存储介质和电子设备
CN106708875B (zh) 一种特征筛选方法及系统
CN114417095A (zh) 一种数据集划分方法及装置
CN115544033B (zh) 查重向量库更新、数据查重方法、装置、设备和介质
CN116028873A (zh) 一种基于支持向量机的多类服务器故障预测方法
CN114547286A (zh) 一种信息搜索方法、装置及电子设备
CN114510629A (zh) 基于大数据挖掘的数字化医疗推送优化方法及医疗ai系统
CN111382265B (zh) 搜索方法、装置、设备和介质
CN110134575B (zh) 一种服务器集群的服务能力计算方法及装置
CN116049414B (zh) 基于话题描述的文本聚类方法、电子设备和存储介质
CN116361470B (zh) 一种基于话题描述的文本聚类清洗和合并方法
CN114547316B (zh) 凝聚型层次聚类算法优化系统、方法、设备、介质及终端
CN108829659A (zh) 一种引用识别方法、设备和计算机可存储介质
CN116628142B (zh) 知识检索方法、装置、设备及可读存储介质
CN111581164B (zh) 多媒体文件处理方法、装置、服务器及存储介质
CN113392124B (zh) 一种基于结构化语言的数据查询方法及装置
JP5240777B2 (ja) 文書分類装置及び文書分類方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210803