CN117688414A

CN117688414A - 一种基于大模型的聚类优化方法

Info

Publication number: CN117688414A
Application number: CN202410092182.3A
Authority: CN
Inventors: 薛亮
Original assignee: Hangzhou Bailing Technology Co ltd
Current assignee: Hangzhou Bailing Technology Co ltd
Priority date: 2024-01-23
Filing date: 2024-01-23
Publication date: 2024-03-12

Abstract

本发明公开了一种基于大模型的聚类优化方法，步骤如下：待聚类语料的Embedding生成；基于Embedding后的结果，结果用AP聚类方法，实现第一次的聚类；基于Embedding进行AP聚类结果的改进；基于LLM进行AP聚类结果的进一步验证；基于LLM改进和确认后的聚类结果，用指定聚类结果数的K‑means方法进行二次聚类；用LLM对K‑means二次聚类结果进行二次验证，针对每个类别进行LLM自动确认；基于一次聚类和二次聚类结果进行簇心重叠验证，选择重合的簇心作为可信聚类结果。本发明充分利用不同聚类方法的特性提升聚类结果的可信度；融合LLM来实现可完全自动化的聚类方法；降低成本，提高效率。

Description

一种基于大模型的聚类优化方法

技术领域

本发明属于数据处理技术领域，具体涉及一种基于大模型的聚类优化方法。

背景技术

聚类任务是自然语言处理领域常见的处理任务，特别是在进行意图分类的场景中，针对大量的语料需要构建分类模型并进行分类效果的持续优化。首先基于大量未分类语料进行类别设定，往往先采用聚类的方式来实现类别的初级分割，即基于聚类结果来进行类别设置。其次针对已经建立的分类模型，如果输入的待分类语料如果无法划分到目前类别中，或者分入的类别得分过低，那么这类语料实际是分类失败，那么往往需要针对这类的语料进行深入分析，看是否需要新增类别来解决分类失效的问题。无论是在模型的创建还是模型的优化都需要引入聚类任务来更好的实现分类模型的落地和持续优化。

但传统的聚类任务往往效果较差，需要人为干预过多，往往需要凭借算法工程人员的经验来持续提升，这对人的要求过高，在落地上效果和成本不成正比。随着大语言模型(Large Language Model,后面简称LLM)的出现，为聚类任务提供了新的解决思路。

现有技术的缺点：

1、现有聚类方法过多依赖人工经验，需要有经验的工程或算法同学来实现，对实现的人的要求较高；

2、聚类结果过多依赖人为的检查，需要较多人工干预；

3、单一类别算法效果不佳(指定类别数量或者不指定类别数量)；

4、优化和维护成本过高，持续提升效果对人的要求以及特征处理的要求较高；

5、传统向量化方法维度有限，涉及到的表征空间过窄；

6、无法实现完全自动化，必须以人的裁定为终极标准。

发明内容

本发明为了解决上述现有技术中存在的缺陷和不足，提供了一种充分利用不同聚类方法的特性提升聚类结果的可信度；融合LLM来实现可完全自动化的聚类方法，降低传统聚类方法对人的依赖；降低聚类整体成本，提高聚类效率，让可信的自动化聚类成为可能的基于大模型的聚类优化方法。

本发明提供如下技术方案：一种基于大模型的聚类优化方法，步骤如下：

步骤一、待聚类语料的Embedding生成；

步骤二、基于Embedding后的结果，结果采用AP(Affinity PropagationClustering)聚类方法,充分利用高维向量的特征来实现更高效的聚类，无需指定类别数量，实现第一次的聚类；

步骤三、基于Embedding进行AP聚类结果的改进；

步骤四、基于LLM进行AP聚类结果的进一步验证；同时针对上一步中边界不清晰的类簇采用LLM判断是否需要进合并；

步骤五、基于LLM改进和确认后的聚类结果，采用指定聚类结果数的K-means方法进行二次聚类；

步骤六、采用LLM对K-means二次聚类结果进行二次验证，针对每个类别进行LLM自动确认；

步骤七、基于一次聚类和二次聚类结果进行簇心重叠验证，选择重合的簇心作为可信聚类结果。

优选地，步骤一具体是指基于LLM提供的Embedding能力，将待聚类语料进行向量化表示，实现语料的高维向量化表示。

优选地，步骤三具体是指针对聚类结果的中心代表向量，进行聚类中心间的向量相似性计算，从而判断聚类结果的中心是否边界清晰，针对不清晰的类，提供二次合并的机会。

优选地，步骤四中基于LLM进行聚类结果的验证，利用LLM来替代人来进行每个聚类结果的验证，减少人的参与。

优选地，Embedding采用MiniMax提供的Embedding API,或者选择其他大模型服务商提供的Embedding,包括但不限于OpenAI、智普、文心一言、通义千问。

优选地，向量化后的向量间的相似度计算，采用余弦相似度，也可以采用欧氏距离或者修正余弦相似度。

优选地，第一次的聚类方法还可以选择DBSCAN方法，或者其他无需指定类别数量的方法；同时二次聚类方法还可以采用CURE聚类方法或者其他需要先指定聚类数量的方法。

优选地，对结果进行评定的时候，采用的LLM是OpenAI提供的gpt3.5模型，或者其他厂商提供的通用大模型。

本发明的有益效果如下：

1、利用LLM的Embedding，大大提升的句子的向量化效果，相比传统的基于Bert的模型的向量化表示，LLM的Embedding在语义空间上更丰富，使得向量表达更加丰富，提升聚类效果；目前的聚类方法往往依赖特征、向量化表示进行聚类，但传统的特征和向量化维度不够，即使使用预训练模型进行向量化，但依然面临这语义空间不足的问题；

2、利用LLM进行每个聚类结果的验证，减少人为参与，针对每个聚类结果，让LLM来判断类内的句子是否表达的是同样的语义，在效率上要远高于人的效率。也能大大减少误判，基于好的Prompt和LLM让大模型承担判定的工作在效率和质量上都有明显提升；传统的聚类结果依赖人为判定，需要大量的人力资源来进行结果的有效性判定，如果效果不佳需要进行聚类方法的逐步调优，不断进行参数调整或者增加各类规则，这就使得传统方法对算法人员的素质依赖过高，效果和人成正相关；

3、降低对算法工程的依赖，全流程可以实现自动化，对于算法工程师的经验和依赖大大降低，可变成全自动化流程，让好的聚类变成工程化方法，降低了对算法的依赖；

4、采用不同聚类算法作为双向校验，进一步提升可信度，充分利用不同算法的特性。即利用的AP算法的自动聚类的特点，又利用了K-means这类经典算法的特性，使得不同算法进行相互校验，让结果的可信度进一步提升；

5、降低人力资源消耗，可实现无人化流程。减少了人的干预环节，即降低了人的要求，也减少了人的干预，使得全流程的无人化操作成为可能。

附图说明

图1为本发明中自动聚类处理流程图。

具体实施方式

下面将结合附图对本发明作进一步详细描述，但并不是对本发明保护范围的限制。

实施例1

如图1所示，本发明提供一种基于大模型的聚类优化方法，用于实现高度可信的聚类结果生成，所述方法包括步骤：

1.待聚类语料的Embedding生成，基于LLM提供的Embedding能力，将待聚类语料进行向量化表示，实现语料的高维向量化表示；

2.基于Embedding后的结果，结果采用AP聚类方法(Affinity

Propagation Clustering),充分利用高维向量的特征来实现更高效的聚类，无需指定类别数量，实现第一次的聚类；

3.基于Embedding进行AP聚类结果的改进，即针对聚类结果的中心代表向量，进行聚类中心间的向量相似性计算，从而判断聚类结果的中心是否边界清晰，针对不清晰的类，提供二次合并的机会；

4.基于LLM进行AP聚类结果的进一步验证，基于LLM进行聚类结果的验证，利用LLM来替代人来进行每个聚类结果的验证，减少人的参与；

同时针对上一步中边界不清晰的类簇采用LLM判断是否需要进合并；

5.基于LLM改进和确认后的聚类结果，采用指定聚类结果数的K-means方法进行二次聚类；

6.采用LLM对K-means二次聚类结果进行二次验证，针对每个类别进行LLM自动确认；

7.基于一次聚类和二次聚类结果进行簇心重叠验证，选择重合的簇心作为可信聚类结果。

实施例2

本发明在企业自身的业务处理中，涉及到了大量的聚类优化的场景，依托于LLM较好的优化了聚类实现方案，大大提高了聚类效果，在方法上做了以下创新设计：

1.依赖与LLM的Embedding能力(将单词、句子进行向量化表示)进行句子的向量化，增强语义相关性，使得聚类有更多的语义，提升聚类结果的精准性；

2.结合指定类别的聚类方法和无需指定类别的聚类方法结合，实现不同聚类方法之间的相互校验，充分利用不同算法的优势，提升聚类结果的有效性；

3.采用LLM作为聚类结果的初级验证方，减少人的工作量，依托于LLM来实现结果的有效验证；

4.实现全流程自动化，低人工干预，传统算法优势和LLM充分结合。

尽管已经示出和描述了本发明的具体实施方式，对于本领域的普通技术人员而言，可以理解在不脱离的原理和精神的情况下可以对这些具体实施方式进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大模型的聚类优化方法，其特征在于，步骤如下：

步骤一、待聚类语料的Embedding生成；

步骤二、基于Embedding后的结果，结果采用AP聚类方法,充分利用高维向量的特征来实现更高效的聚类，无需指定类别数量，实现第一次的聚类；

步骤三、基于Embedding进行AP聚类结果的改进；

2.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：步骤一具体是指基于LLM提供的Embedding能力，将待聚类语料进行向量化表示，实现语料的高维向量化表示。

3.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：步骤三具体是指针对聚类结果的中心代表向量，进行聚类中心间的向量相似性计算，从而判断聚类结果的中心是否边界清晰，针对不清晰的类，提供二次合并的机会。

4.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：步骤四中基于LLM进行聚类结果的验证，利用LLM来替代人来进行每个聚类结果的验证，减少人的参与。

5.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：Embedding采用MiniMax提供的Embedding API,或者选择其他大模型服务商提供的Embedding,包括但不限于OpenAI、智普、文心一言、通义千问。

6.根据权利要求2所述的一种基于大模型的聚类优化方法，其特征在于：向量化后的向量间的相似度计算，采用余弦相似度，也可以采用欧氏距离或者修正余弦相似度。

7.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：第一次的聚类方法还可以选择DBSCAN方法，或者其他无需指定类别数量的方法；同时二次聚类方法还可以采用CURE聚类方法或者其他需要先指定聚类数量的方法。

8.根据权利要求1所述的一种基于大模型的聚类优化方法，其特征在于：对结果进行评定的时候，采用的LLM是OpenAI提供的gpt3.5模型，或者其他厂商提供的通用大模型。