CN118069852B

CN118069852B - 一种多模型融合的数据分类预测方法与系统

Info

Publication number: CN118069852B
Application number: CN202410485715.4A
Authority: CN
Inventors: 闫洲; 郭子重; 周锐; 林传文; 时磊; 王佐成
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2024-04-22
Filing date: 2024-04-22
Publication date: 2024-07-12
Anticipated expiration: 2044-04-22
Also published as: CN118069852A

Abstract

本发明公开了一种多模型融合的数据分类预测方法与系统，包括收集并预处理标注的文本数据和分类列表。利用大语言模型增强分类描述并通过向量化技术保存信息。随后，通过模型生成文本摘要和进行数据增强，对于数据不足的分类，使用模型合成数据以满足最小数据要求。将微调的bert模型和语义相似度查询结合，相互校验确保文本正确分类。对用户输入的文本数据清洗和脱敏处理，通过模型抽取文本摘要，并将这些摘要进行语义向量化处理，再通过向量数据库检索最匹配的分类。本发明通过将大语言模型技术和传统的bert文本分类技术相结合，利用bert文本分类对于固定的标准分类准确性，通过大语言模型技术提升系统对于未知分类的鲁棒性。

Description

一种多模型融合的数据分类预测方法与系统

技术领域

本发明涉及信息处理和自然语言处理技术领域，尤其涉及一种多模型融合的数据分类预测方法与系统。

背景技术

文本分类技术的发展源于信息检索、自然语言处理和机器学习等领域的研究。在互联网、社交媒体、新闻媒体和电子商务等领域的海量文本数据中，文本分类技术被广泛应用以组织和理解这些数据。尽管近年来取得了显著的进步，但文本分类仍面临许多挑战和难点。首先，文本数据的语义是极其丰富的，不同的单词或短语可能具有不同的含义，甚至在相同的上下文中也可能有不同的解释，这要求对文本语义和分类描述要有更深的理解。其次，真实的文本数据往往包含大量的噪声和不规整的文本，如拼写错误、语法错误、缩写、口语化表达等，这使得文本分类更加困难。另外，在许多应用场景中，可能会出现从未见过的类别或新的语义现象。这就需要分类算法或系统具备零样本学习或少样本学习的能力，以便能够快速适应新的类别和语义。最后，在不同的时间区间、某些特定场景中，需要灵活地适应新的分类需求和标准，能够根据需要调整分类结果，这对目前的一些算法模型是仍然是不小的挑战。由于人工分类在语义理解和灵活创新方面具有天然优势，许多高质量分类场景仍需借助大量的人工分类辅助甚至替代分类算法。然而，人工分类需要投入大量的时间和经济成本，才能处理大量数据并避免主观误差。

现有的分类主要基于单一的机器学习模型，如朴素贝叶斯、支持向量机、深度学习模型或者bert等预训练模型。然而，文本数据通常包含大量的噪声和不确定性，这使得基于单一模型的分类方法在处理这些数据时容易受到干扰和误导。其次，单一模型往往只能处理某一类特定的问题，对于不同类型的数据和任务，其效果可能会有所不同。如专利CN114091472B提出了一种基于语义向量作为输入，将所有事件标签的概率值作为输出的bert分类模型训练方法，这样使得单一模型存在着过拟合和欠拟合的风险，这会影响其泛化能力和稳定性。

部分多模型融合技术是一种通过结合多个单一模型的优势，以提高分类准确性和稳定性的技术。然而，现有的多模型融合方法在文本数据分类中仍然存在一些问题和挑战。选择合适的单一模型并采用恰当的融合策略也是一个重要的问题，不同的任务和数据类型可能需要不同的单一模型进行优化处理，而且模型过多导致系统的复杂度也大大增加，如何有效地将多个单一模型进行融合也是一个关键的问题。如专利CN105468713B实现了一种基于本体树模型、关键字重叠模型、朴素贝叶斯模型和支持向量机模型多个模型融合的方式，是基于已有的标准分类信息做分类，而无法识别未知的新分类。

因此，如何提供一种多模型融合的数据分类预测方法与系统是本领域技术人员急需解决的问题。

发明内容

本发明的一个目的在于提出一种多模型融合的数据分类预测方法与系统，本发明通过将大语言模型技术和传统的bert文本分类技术相结合，既可以充分利用bert文本分类对于固定的标准分类准确性，又可以通过大语言模型技术提升系统对于未知分类的鲁棒性和灵活性。

根据本发明实施例的一种多模型融合的数据分类预测方法，包括如下步骤：

S1、获取已经过人工标注的文本数据和标准分类列表。

S2、对S1的文本数据和标准分类列表进行预处理；

S3、对于S2预处理后的标准分类列表，利用大语言模型的提示词工程，将描述缺失的分类生成分类描述信息，并规范化已有描述分类信息，形成统一的标准分类描述形式，利用bge模型，将分类描述信息向量化后连同其他信息一并保存到向量数据库中；

S4、对于S2预处理后的文本数据，利用大语言模型的提示词工程，通过提示词模板生成对应的文本摘要，将文本摘要向量化后连同各层级标准分类名称保存到向量数据库中；

S5、在步骤S4基础上，对文本数据进行分析，对已有的标准分类覆盖人工标注数据，每个分类至少需要覆盖N条已标注的数据，N>=500，N为任意整数；

S6、在S5的基础上，对于少于N条标注数据的分类，通过大语言模型的数据增强技术合成数据；

S7、如果已有的标注数量大于或者等于M的标注分类，则利用已有的标注作为种子数据，生成条已标注的分类数据，筛选出符合分类标准的有效数据，作为已标注的分类数据；

如果已有的标注数量小于M条的标注分类，利用大语言模型技术，结合标准分类的描述，通过提示词工程生成条种子数据，并对种子数据做筛选，保留至少M条标注数据作为种子数据，再由种子数据生成有效的已标注分类数据；

其中，M是微调bert模型需要的每种分类的样本数量；

S8、基于S5、S6、S7得到的标注数据，微调bert模型；

S9、真实使用场景中，用户通过输入或利用API发送待预测文本信息并对文本信息进行分类，对于分类后的文本信息做数据清洗和脱敏处理，只保留与个人隐私无关的信息；

S10、在S9的基础上，利用大语言模型抽取文本信息的摘要；

S11、在S9的基础上，使用bge模型对文本信息的摘要做语义向量化；

S12、在S11的基础上，利用语义相似度查找向量数据库，取出相似度最高的分类，并判断两者相似度的值；

如果相似度大于0.9，则代表用户输入的文本信息和已经标注的文本信息属于同一个分类，则结束流程并输出分类作为最终的预测分类；

如果相似度小于或等于0.9，取出所有相似度高于0.8的前10个分类，则得到预测后的标准分类列表：

且；

其中，为标准分类名称，为从向量数据库查询得到的相似文本，否则，列表为空；

S13、在S11的基础上，利用语义相似度查找向量数据库，取出相似度排名前10的分类，得到预测后的标准分类列表，按预测概率从高到低排序后得到列表：

且；

其中，为预测的标准分类名称，为预测的概率；

S14、在S9的基础上，使用微调后的bert模型做预测，得到预测后的标准分类：

；

其中，c为预测的标准分类名称，s为预测的概率；

如果s>0.9，则代表用户输入的文本信息和bert模型预测的结果属于同一个分类，则结束流程并输出分类作为最终的预测分类；

S15、在S13和S14的基础上，如果S14预测出的标准分类在S13预测的列表L里，则输出作为最终的预测标准分类，结束流程并输出分类作为最终的预测分类，否则将和L合并成新的预测分类列表L’；

S16、在S9的基础上，利用大语言模型抽取关键词列表K；

S17、将S12的预测分类列表、S15的预测分类列表L’和S15的关键词列表K合并作为新的关键词列表K’,对关键词列表K’内的关键词按照与其他关键词的相关性从高到低排序。

可选的，所述文本数据和标准分类列表的预处理包括去除内容包含非法或者隐私相关信息的数据，并统一数据格式；

预处理后的文本数据字段描述为：文本内容、标准分类名称；

预处理后的标准分类列表字段描述为：标准分类名称，标准分类描述。

可选的，所述向量数据库采用milvus向量数据库，相似度的值范围为[0,1]。

可选的，所述S3中处理后的文本数据字段描述为：文本内容、标准分类名称、文本摘要。

可选的，所述其他信息包括一级标注分类名称、二级标注分类名称以及当前层级标注分类名称。

可选的，所述M为，M为任意整数。

可选的，所述微调bert模型具体包括根据场景的需求，选择中文bert模型作为预训练模型，基于标注数据构建中文bert模型的输入和输出格式，输出的信息包括分类和预测概率。

可选的，所述融合排序方法如下：

将所有的关键词作为图中的节点：

；

其中，N为关键词个数；

将用向量化表示，计算两两关键词之间的相似度：

；

将每个关键词与其他关键词的相似度之和作为最终该关键词的词权重：

；

将清洗和脱敏后的信息向量化表示，计算与关键词列表K’里的每个关键词的相似度：

；

将和相加作为第i个关键词的最终权重，取最终权重最大的关键词作为最终的预测分类。

一种多模型融合的数据分类预测方法的预测系统，包括如下模块：

知识库构建模块，对文本数据的清洗和脱敏，对已有的标准分类列表和已标注好的数据的做摘要提取，将提取的摘要信息语义向量化分别保存到向量数据库中；

意图分析模块，对文本数据做预处理和信息抽取，用大语言模型技术抽取出对应的摘要重点以及涉及的关键词组成的列表；

传统分类预训练模块，利用bert模型或bert模型变种的预训练模型对人工标注的数据做微调；

类别预测模块，根据传统分类预训练模块的预测结果以及用户反馈的问题的语义相似度查询最相近问题的类别。

本发明的有益效果是：

（1）本发明通过将大语言模型技术和传统的bert文本分类技术相结合，既可以充分利用bert文本分类对于固定的标准分类准确性，又可以通过大语言模型技术提升系统对于未知分类的鲁棒性和灵活性。鲁棒性是指系统不仅能准确地分类，还能识别出新的未知分类。灵活性是指对于新加入标准分类体系里的分类可以快速的适应分类效果。

（2）本发明分类的预测是利用了文本的语义相似度和关键词列表泛化两种技术手段提升分类效果，并提出了新的融合策略，防止标准分类类目过多导致模型的token长度受限的问题，以及标准分类的区分度不高导致的分类效果不佳等问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种多模型融合的数据分类预测方法与系统的流程图。

具体实施方式

现在结合附图对本发明做进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种多模型融合的数据分类预测方法，包括如下步骤：

S1、获取已经过人工标注的文本数据和标准分类列表。

S2、对S1的文本数据和标准分类列表进行预处理；

其中，M是微调bert模型需要的每种分类的样本数量；

S8、基于S5、S6、S7得到的标注数据，微调bert模型；

S10、在S9的基础上，利用大语言模型抽取文本信息的摘要；

且；

其中，为预测的标准分类名称，为预测的概率；

；

其中，c为预测的标准分类名称，s为预测的概率；

S16、在S9的基础上，利用大语言模型抽取关键词列表K；

本实施方式中，文本数据和标准分类列表的预处理包括去除内容包含非法或者隐私相关信息的数据，并统一数据格式；

本实施方式中，向量数据库采用milvus向量数据库，相似度的值范围为[0,1]。

本实施方式中，S3中处理后的文本数据字段描述为：文本内容、标准分类名称、文本摘要。

本实施方式中，其他信息包括一级标注分类名称、二级标注分类名称以及当前层级标注分类名称。

本实施方式中，M为，M为任意整数。

本实施方式中，微调bert模型具体包括根据场景的需求，选择中文bert模型作为预训练模型，基于标注数据构建中文bert模型的输入和输出格式，输出的信息包括分类和预测概率。

本实施方式中，所述融合排序方法如下：

将所有的关键词作为图中的节点：

；

其中，N为关键词个数；

将用向量化表示，计算两两关键词之间的相似度：

；

类别预测模块，根据传统分类预训练模块的预测结果以及用户反馈的问题的语义相似度查询最相近问题的类别，如果对应类别的阈值较高，则用其最相近的问题的类别作为最终的分类，否则对比bert模型预测的分类和经过文本语义相似度比较查询到的类别，如果二者有相同的，则将相同的类别作为最终的预测类别。否则将二者抽取出的关键词列表和用户反馈信息抽取的关键词列表做相似度比较，用大模型抽取的关键词组中与合并后的列表关键词相似度最高的关键词作为最终的分类。输出的分类可以进一步的补充丰富知识库，可以持续不断的提升分类预测效果。此外，系统对于新加入到标准里的分类具备很好的灵活性，首先通过大语言模型技术产生相应的分类描述，然后和现有的标准分类知识库合并即可生效。

实施例1：

服务对象来电表示自己之前在XX区XX假日酒店四楼的健身房，办理了十年的VIP健身卡，服务对象表示当时花费了1元左右，目前还剩4年使用权，近期健身房负责人更换，原健身房在没有任何告知情况下就离开了，将原会员移交给了新店，但是新店老板目前提供的服务，无法达到服务对象的要求，服务对象认为商家有欺诈行为，目前会员卡剩余价值在10元左右。

服务对象反映，健身房负责人更换导致会员迁移新店，但新店不符合期望，认为商家存在欺诈。

通过摘要信息在历史提问向量数据库中查询获取分类列表：

如果有si>0.9，则直接返回最大一条即为分类，当前没有大于0.9，则继续进行S12操作

通过摘要信息在标准分类向量数据库中查询获取分类列表L：

通过bert模型预测得到标准分类=(服务质量纠纷， 0.87)，如果概率大于0.9 则直接输出，但是当前为0.87，需要进一步判断

如果则直接返回（服务质量纠纷），否则构造L’=(预售服务纠纷，合同违约，其他违规经营，服务质量纠纷)

获取关键词列表K=(预售服务，合同变更，服务质量)

K’=(预售服务纠纷，合同违约，其他违规经营，服务质量纠纷，预售服务，合同变更，服务质量)

最终得到的关键词是：预售服务纠纷。

本实施方式中，通过将大语言模型技术和传统的bert文本分类技术相结合，既可以充分利用bert文本分类对于固定的标准分类准确性，又可以通过大语言模型技术提升系统对于未知分类的鲁棒性和灵活性。鲁棒性是指系统不仅能准确的分类，还能识别出新的未知分类。灵活性是指对于新加入到标准分类体系里的分类可以快速的适应分类效果。

本实施方式中，分类的预测是利用了文本的语义相似度和关键词列表泛化两种技术手段提升分类效果，并提出了新的融合策略，防止标准分类类目过多导致模型的token长度受限的问题，以及标准分类的区分度不高导致的分类效果不佳等问题。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种多模型融合的数据分类预测方法，其特征在于，包括如下步骤：

S1、获取已经过人工标注的文本数据和标准分类列表；

S2、对S1的文本数据和标准分类列表进行预处理；

所述其他信息包括一级标注分类名称、二级标注分类名称以及当前层级标注分类名称；

S7、如果已有的标注数量大于或者等于M的标注分类，则利用已有的标注作为种子数据，生成2×N条已标注的分类数据，筛选出符合分类标准的有效数据，作为已标注的分类数据；

如果已有的标注数量小于M条的标注分类，利用大语言模型技术，结合标准分类的描述，通过提示词工程生成2×M条种子数据，并对种子数据做筛选，保留至少M条标注数据作为种子数据，再由种子数据生成有效的已标注分类数据；

其中，M是微调bert模型需要的每种分类的样本数量；

S8、基于S5、S6、S7得到的标注数据，微调bert模型；

S10、在S9的基础上，利用大语言模型抽取文本信息的摘要；

且；

其中，为标准分类名称，为预测的概率，否则，列表为空；

且；

；

其中，c为预测的标准分类名称，s为预测的概率；

S16、在S9得到的待预测的脱敏信息，利用大语言模型抽取关键词列表K；

S17、将S12的预测分类列表、S15的预测分类列表L’和S15的关键词列表K合并作为新的关键词列表K’,对关键词列表K’内的关键词按照与其他关键词的相关性从高到低融合排序；

所述融合排序方法如下：

将所有的关键词作为图中的节点：

；

其中，N为关键词个数；

将用向量化表示，计算两两关键词之间的相似度：

；

将清洗和脱敏后的待预测文本信息向量化表示，计算与关键词列表K’里的每个关键词的相似度：

；

2.根据权利要求1所述的一种多模型融合的数据分类预测方法，其特征在于，所述文本数据和标准分类列表的预处理包括去除内容包含非法或者隐私相关信息的数据，并统一数据格式；

3.根据权利要求2所述的一种多模型融合的数据分类预测方法，其特征在于，所述向量数据库采用milvus向量数据库，相似度的值范围为[0,1]。

4.根据权利要求3所述的一种多模型融合的数据分类预测方法，其特征在于，所述M为，M为任意整数。

5.根据权利要求4所述的一种多模型融合的数据分类预测方法，其特征在于，所述微调bert模型具体包括根据场景的需求，选择中文bert模型作为预训练模型，基于标注数据构建中文bert模型的输入和输出格式，输出的信息包括分类和预测概率。

6.如权利要求1-5任一项所述的一种多模型融合的数据分类预测方法的预测系统，其特征在于，包括如下模块：