CN117332062A

CN117332062A - 一种数据处理方法和相关装置

Info

Publication number: CN117332062A
Application number: CN202311335169.8A
Authority: CN
Inventors: 梁广平; 杜明瑾; 许冉; 叶长鑫; 岑东益; 胡惠超; 郭润增; 侯锦坤; 陈佳; 邵燃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-13
Filing date: 2023-10-13
Publication date: 2024-01-02

Abstract

本申请公开了一种数据处理方法和相关装置，基于与目标问答任务相关的原始数据，通过大模型确定标准问、与标准问文本相似度符合相似条件的相似问，以及标准问的答案。由于相对于小模型来说，大模型提供的模型服务不局限于所使用训练样本的知识内，具有高效的语义理解和归纳能力，能够准确从原始数据中提炼出标准问和答案，并基于本文相似度创造出符合语言表达习惯的相似问。基于标准问、相似问和答案构成的目标语料生成语料库，并以此训练小模型，由于小模型只能局限在所使用训练样本的知识内提供问答交互服务，而通过大模型提炼、创造，可得到具备准确性和全面性的高质量目标语料，降低人工维护带来的高成本和质量波动影响，提升小模型更新效率。

Description

一种数据处理方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种数据处理方法和相关装置。

背景技术

目前在很多线上客服、问答场景下都应用了智能客服为用户提供服务，来作为人工服务的一种替代。

相关技术中，一般采用小模型来承载智能客服，小模型主要依靠语料库来为用户提供服务。语料库中包括有大量的问题答案对，可称为常见问题解答(frequently-askedquestions，FAQ)作为小模型的训练样本，其中FAQ中的问题作为训练样本的模型输入，答案作为训练样本的样本标签。通过语料库中的训练样本对小模型进行训练，使得小模型学习到语料库的知识，能够在语料库提供的知识内来和用户进行交互。

由此可见，语料库的丰富和准确程度，直接会影响到小模型作为智能客服所能提供的服务质量，目前主要通过人工的方式来维护语料库，导致语料库的更新效率和语料质量都难以满足智能客服的服务需求。

发明内容

为了解决上述技术问题，本申请提供了一种数据处理方法和相关装置，通过大模型能有效提升语料库的构建效率和更新效率，降低了人工维护带来的高成本和质量波动影响。

本申请实施例公开了如下技术方案：

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取与目标问答任务相关的原始数据；

根据所述原始数据，通过大模型确定对应的初始语料，所述初始语料包括标准问和所述标准问对应的答案；

根据所述标准问，通过所述大模型确定对应的相似问，所述相似问与对应的所述标准问间的文本相似度符合相似条件；

基于所述初始语料和所对应相似问生成语料库，所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问，所述目标语料用于作为训练样本，对所述目标问答任务对应的小模型进行训练，其中，所述训练样本的模型输入包括所述标准问或所述相似问，所述训练样本的样本标签包括所述标准问对应的答案，所述小模型用于在所使用训练样本的知识内提供问答交互服务，所述大模型提供的模型服务不局限于所使用训练样本的知识内；

通过所述语料库生成的训练样本训练所述小模型，完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题，生成对应的回复答案。

一方面，本申请实施例提供了一种数据处理装置，所述装置包括获取单元、确定单元、生成单元和训练单元：

所述获取单元，用于获取与目标问答任务相关的原始数据；

所述确定单元，用于根据所述原始数据，通过大模型确定对应的初始语料，所述初始语料包括标准问和所述标准问对应的答案；

所述确定单元还用于根据所述标准问，通过所述大模型确定对应的相似问，所述相似问与对应的所述标准问间的文本相似度符合相似条件；

所述生成单元，用于基于所述初始语料和所对应相似问生成语料库，所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问，所述目标语料用于作为训练样本，对所述目标问答任务对应的小模型进行训练，其中，所述训练样本的模型输入包括所述标准问或所述相似问，所述训练样本的样本标签包括所述标准问对应的答案，所述小模型用于在所使用训练样本的知识内提供问答交互服务，所述大模型提供的模型服务不局限于所使用训练样本的知识内；

所述训练单元，用于通过所述语料库生成的训练样本训练所述小模型，完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题，生成对应的回复答案。

在一种可能的实现方式中，所述确定单元还用于：

对所述原始数据进行数据过滤，从所述原始数据中过滤掉与问答知识无关的无效文本，得到第一文本数据；

对所述第一文本数据进行关键词识别，从所述第一文本数据中过滤掉包括所述关键词的对象信息，得到第二文本数据；

通过大模型确定所述第二文本数据对应的初始语料。

在一种可能的实现方式中，所述原始数据包括与所述目标问答任务相关领域的历史问答文本数据和领域知识文本数据中的至少一种。

在一种可能的实现方式中，所述文本相似度包括语义相似度或表征相似度中的至少一种；

当所述文本相似度包括所述语义相似度时，对应的相似条件为所述语义相似度大于第一相似度阈值；

当所述文本相似度包括所述表征相似度时，对应的相似条件为所述表征相似度小于第二相似度阈值。

在一种可能的实现方式中，所述确定单元还用于：

将所述语料库中任意两个标准问作为标准问对，确定所述两个标准问的语义相似度；

响应于所述两个标准问的语义相似度大于调整阈值，对所述两个标准问涉及的两个目标语料进行调整，将所述两个目标语料调整为一个目标语料。

在一种可能的实现方式中，所述确定单元还用于：

根据更新的所述原始数据，通过所述大模型确定对应的待定初始语料；

响应于所述待定初始语料中的待定标准问，与所述语料库中的目标标准问间的语义相似度大于调整阈值，根据所述待定初始语料更新所述目标标准问涉及的目标语料；

响应于所述待定初始语料中的待定标准问，与所述语料库中任意标准问间的语义相似度小于或等于所述调整阈值，确定所述待定标准问符合加入所述语料库的条件，将所述待定初始语料作为所述初始语料，执行所述根据所述标准问，通过所述大模型确定对应的相似问的操作。

在一种可能的实现方式中，所述确定单元还用于：

从所述语料库中任意选取第一目标语料和第二目标语料；

确定所述第一目标语料中相似问与所述第二目标语料中相似问间的文本相似度；

响应于相似问间的文本相似度满足相似问混淆条件，确定所述第一目标语料和第二目标语料具备混淆问题，将所述第一目标语料和所述第二目标语料移出所述语料库。

在一种可能的实现方式中，所述确定单元还用于：

基于所述目标语料应用于问答交互场景中的可解决性，将所述语料库中的所述目标语料分为可解决语料集合和不可解决语料集合，所述可解决语料集合包括第一标准问，所述不可解决语料集合包括第二标准问；

确定所述可解决语料集合和所述不可解决语料集合的标准问间的文本相似度；

响应于所述第一标准问和所述第二标准问间的文本相似度满足标准问混淆条件，确定所述第一标准问涉及的目标语料具备混淆问题，将所述第一标准问涉及的目标语料移出所述语料库。

在一种可能的实现方式中，所述确定单元还用于：

确定所述语料库中目标语料包括的相似问数量；

响应于所述目标语料中的第一目标语料包括的相似问数量比训练要求少了目标数量，根据所述第一目标语料的标准问，通过所述大模型确定所述目标数量的相似问。

在一种可能的实现方式中，所述装置还包括显示单元，所述显示单元用于：

根据所述目标语料中的相似问的文本相似度，确定所述目标语料中的相似问的质量参数；

在目标语料管理界面显示所述目标语料和所述质量参数。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器以及存储器：

所述存储器用于存储计算机程序，并将所述计算机程序传输给所述处理器；

所述处理器用于根据所述计算机程序执行以上方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在被计算机设备执行以上方面所述的方法。

另一方面，本申请实施例提供了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行以上方面所述的方法。

由上述技术方案可以看出，在为目标问答任务提供问答交互服务时，需要构建语料库来训练对应的小模型，基于与目标问答任务相关的原始数据，通过大模型确定标准问、与标准问文本相似度符合相似条件的相似问，以及标准问的答案。由于相对于小模型来说，大模型提供的模型服务不局限于所使用训练样本的知识内，具有高效的语义理解和归纳能力，能够准确从原始数据中提炼出标准问和答案，并基于本文相似度创造出符合语言表达习惯的相似问。基于标准问、相似问和答案构成的目标语料生成语料库，并以此训练小模型，由于小模型只能局限在所使用训练样本的知识内提供问答交互服务，而通过大模型提炼、创造，可得到具备准确性和全面性的高质量目标语料，降低了人工维护带来的高成本和质量波动影响，使得小模型可对通过所述目标问答任务获取的用户问题，生成高质量的回复答案，而且通过大模型能有效提升语料库的构建效率和更新效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理场景的示意图；

图2为本申请实施例提供的一种数据处理方法的方法流程图；

图3为本申请实施例提供的一个目标语料的显示示意图；

图4为本申请实施例提供的一种基于大模型为小模型提供语料库的示意图；

图5为本申请实施例提供的一种机器人问答平台的语料生成示意图；

图6为本申请实施例提供的一种数据处理装置的装置结构图；

图7为本申请实施例提供的一种终端设备的结构图；

图8为本申请实施例提供的一种服务器的结构图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

用于线上客服、问答场景中问答交互服务的小模型，其模型精度与作为训练样本的语料库的质量直接相关，而相关技术中，主要通过人工的方式来进行语料库的维护，例如人工提炼标准问、答案和相似问。人工的低效导致语料库的更新效率和语料质量都难以满足智能客服的服务需求。

为此，本申请实施例提供了一种数据处理方法，通过大模型能有效提升语料库的构建效率和更新效率，降低了人工维护带来的高成本和质量波动影响。

本申请的数据处理方法中涉及了人工智能技术，人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

本申请实施例主要涉及了计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。

例如本申请中的大模型可以基于计算机视觉技术、语音处理技术、自然语言处理技术等从原始数据中提炼出标准问和答案，以及基于标准问确定对应的相似问。

例如本申请中的小模型可以基于机器学习的方式，以语料库中的目标语料为训练样本，训练小模型作为目标问答任务中的智能客服角色，来提供问答交互服务。

本申请实施例所提供的数据处理方法可以通过计算机设备实施，该计算机设备可以是终端设备或服务器，其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可以理解的是，在本申请的具体实施方式中，获取的原始数据中可能涉及到用户信息等相关的数据，当本申请以上实施例运用到具体产品或技术中时，任意一项均需要单独获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

首先对本申请实施例可能涉及的专业词汇进行简单说明：

语料：指用于训练和优化智能客服系统(小模型)的FAQ数据，包括标准问、答案、相似问；

标准问：语料的核心部分，是一个典型且具有代表性的问题，用于帮助智能客服系统识别用户的需求；

相似问：在智能客服系统或聊天机器人中，与标准问意义相近，但表述方式略有不同的问题；

智能客服系统：智能客服系统是一种基于人工智能技术的自动化客户服务解决方案。它通过模拟人类客服，自动回答用户的问题或引导用户完成操作，在本申请实施例中，通过小模型来实现；

大模型：大模型是指在人工智能和深度学习领域中，具有大量参数和复杂结构的神经网络模型；

小模型：采用较少参数和简单结构的神经网络模型。这类模型在处理用户问题和提供回答时，相较于大模型，具有较低的计算复杂度和较快的推理速度，适合在计算资源有限的场景下使用，智能客服使用的就是小模型。

图1为本申请实施例提供的一种数据处理场景的示意图，以服务器100作为前述的计算机设备作为示例。服务器100中配置有大模型，服务器200为用于为目标问答任务提供问答交互服务的服务器，其中可以配置有小模型。

针对目标文档任务，需要构建语料库来训练对应的小模型，基于与目标问答任务相关的原始数据，服务器100通过大模型确定标准问、与标准问文本相似度符合相似条件的相似问，以及标准问的答案。由于相对于小模型来说，大模型提供的模型服务不局限于所使用训练样本的知识内，具有高效的语义理解和归纳能力，能够准确从原始数据中提炼出标准问和答案，并基于本文相似度创造出符合语言表达习惯的相似问。基于标准问、相似问和答案构成的目标语料生成语料库。

服务器100可以向服务器200发送语料库，以此训练小模型，由于小模型只能局限在所使用训练样本的知识内提供问答交互服务，而通过大模型提炼、创造，可得到具备准确性和全面性的高质量目标语料，降低了人工维护带来的高成本和质量波动影响，使得小模型可对通过所述目标问答任务获取的用户问题，生成高质量的回复答案，而且通过大模型能有效提升语料库的构建效率和更新效率。

图2为本申请实施例提供的一种数据处理方法的方法流程图，该方法可以由计算机设备执行，在本实施例中，以该计算机设备是服务器为例进行说明，所述方法包括：

S201：获取与目标问答任务相关的原始数据。

目标问答任务可以是为了实现在某领域下的智能问答交互服务的数据处理任务，该领域可以是指某些产品，也可以是指某些业务等。

例如，该智能问答交互服务可以是针对某些产品的智能客服系统，也可以是针对某些业务的智能问答系统、聊天机器人等。

原始数据为目标问答任务所涉及领域的历史数据，这些历史数据中携带有与该领域有关的信息，这些信息可以通过大模型来进行提炼、归纳，得到与问答交互相关的知识。

本申请不限定原始数据的内容类型，例如在一种可能的实现方式中，所述原始数据包括与所述目标问答任务相关领域的历史问答文本数据和领域知识文本数据中的至少一种。

历史问答文本数据可以是用户通过社交平台例如论坛、社交软件、购物软件，在目标问答任务所涉及领域下的询问的内容和其他专业人士回答的内容。

领域知识文本数据的内容可以不是问答形式的，例如可以是说明性文字、论文等。由于大模型具有语义理解、提炼的能力，故领域知识文本数据也可以通过大模型提炼出相应的标准问和答案。

S202：根据所述原始数据，通过大模型确定对应的初始语料。

如前所述，大模型和小模型在参数、结构，以及模型推理速度上有着本质性的区别。

在本申请实施例主要涉及的自然语言处理中，大模型和小模型的区别主要体现在以下几个方面：

参数数量：大模型通常具有更多的参数，而小模型则具有较少的参数。参数数量决定了模型的复杂度和容量。大模型由于参数更多，通常具有更强的表达能力，可以捕捉到更多的数据特征，但同时也可能导致过拟合的风险。

训练样本量：大模型通常需要更多的训练样本来优化参数，而小模型则可以使用较少的训练样本进行训练。对于大数据量的训练，大模型通常可以学习到更多的知识和特征，但同时也需要更多的计算资源和时间。

计算资源和时间：大模型需要更多的计算资源(如GPU、TPU等)和时间来进行训练和推理。相比之下，小模型需要较少的计算资源和时间，更适合在有限资源的设备上进行部署和使用。

性能：大模型通常在各种自然语言处理任务上具有更好的性能，尤其是在复杂的任务和大规模数据集上。然而，随着模型规模的增加，性能的提升可能会逐渐趋于饱和。相比之下，小模型在某些简单任务和小规模数据集上可能性能较差，但在计算资源有限的情况下，仍然是一个较好的选择。

适用场景：大模型和小模型各有其适用的场景。对于复杂任务和大规模数据集，大模型可能是更好的选择，因为它们具有更强的表达能力和性能。而对于简单任务、小规模数据集或计算资源有限的场景(例如目标问答任务)，小模型可能是更合适的选择，因为它们需要较少的计算资源和时间。

总体来说，可以认为参数量10-30亿以上，且有较好的文本生成能力的模型称为大模型。

大模型学习到的知识可以使得大模型能够输出训练样本中知识之外的服务，即具备语言层面的组织、归纳、创造能力，而小模型能够输出的内容范围局限在训练样本中知识之内，即小模型并不具备一定的语言层面的组织、归纳、创造能力，能够输出的内容范围不会超出训练样本中答案的范围。需要说明的是，这里针对小模型的输出范围主要还是基于实质性内容，在一些情况下，小模型也可以在实质性内容上增加一些非实质性内容，以提升用户交互体验，例如语气词、助词等。

在本申请实施例中，问答提炼主要是运用大模型能力对原始数据进行分析，利用大模型的上下文理解、语意分析、总结提炼能力，结合合适的prompt(提示词)，调整模型参数，就能有效的提炼出适用于小模型训练的标准问，以及标准问对应的答案。该标准问和对应的答案可以构成初始语料。

例如举例，原始数据为历史问答文本数据，具体如下：

用户A:我想咨询一下

用户A:一般如何有效的提炼智能客服语料

用户B:你好，目前有很多方法

用户B:业界常用的方式是XXX

通过大模型，可以得到对应的初始语料中，标准问和答案分别为：

[{"question":"如何提炼智能客服语料","answer":"常用方式是XXX"}]

S203：根据所述标准问，通过所述大模型确定对应的相似问。

需要说明的是，确定出的语料主要目的是用于训练小模型，为了能让小模型学习到语料中的知识，需要一定数量的训练样本，训练样本不足时，会出现欠拟合的问题。

而针对一条待定语料中的标准问和答案，生成的训练样本数量是很少的，如果不进行相似问的泛化，仅基于标准问和答案，难以让小模型在训练过程中学习到该待定语料的知识。

故此，本申请进一步借助大模型的语义理解、提炼能力，基于文本相似度作为泛化指导，来通过大模型生成标准问的相似问。生成的相似问与对应的标准问间的文本相似度符合相似条件。

如前所述，相似问与标准问意义相近，但在表述方式上略有不同，即标准问和对应的相似问都是在询问同一个问题，只是在表达形式、句式结构上有所区别。

例如标准问为：“如何有效的提炼智能客服语料？”，基于文本相似度作为泛化指导，通过大模型生成的相似问可以包括：“提炼智能客服语料有哪些有效的方式？”、“智能客服的语料可以如何有效提炼？”、“有效的提炼智能客服语料可以通过哪些方式？”等。

通过泛化得到的相似问，可以有效的扩充与该标准问相关的训练样本，例如通过一个相似问和标准问对应的答案构成一个训练样本。以此确保小模型在训练时学习到必要的知识。

S204：基于所述初始语料和所对应相似问生成语料库。

所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问，所述目标语料用于作为训练样本，对所述目标问答任务对应的小模型进行训练。

由于在训练过程中，标准问和对应的相似问，都是以标准问的答案作为样本标签，为了便于维护，本申请实施例中，通过语料库的形式对训练样本进行维护，将标准问，标准问对应的相似问和答案都承载在同一个目标语料中，在需要对小模型进行训练时，可以通过目标语料生成训练样本。

其中，所述训练样本的模型输入包括所述标准问或所述相似问，所述训练样本的样本标签包括所述标准问对应的答案。

再次强调，如前所述，所述小模型用于在所使用训练样本的知识内提供问答交互服务，所述大模型提供的模型服务不局限于所使用训练样本的知识内。

S205：通过所述语料库生成的训练样本训练所述小模型，完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题，生成对应的回复答案。

由于智能客服需要的高效性、时效性，故目前业界智能客服采用的是小模型，其核心是通过语料库进行训练，只要语料库足够丰富，就能覆盖用户各式的提问。而且小模型训练周期短，能够快速基于层出不穷的新问答需求进行快速迭代升级，从而及时上线来满足新问答需求。

这不仅需要模型参数、规模不能太大，而且需要训练样本能够快速、及时的构建出来以供训练。也就是说，即使小模型符合了智能客服这类目标问答任务的快速、准确的需求，也需要训练样本的生成速度能够跟上新问答需求的迭代速度。然而相关技术中，语料运营依赖人工，这本身与用智能客服需要的高效性、时效性是矛盾的，而本申请中引入了大模型，有效的解决了训练样本生成、泛化效率。

由此可见，在为目标问答任务提供问答交互服务时，需要构建语料库来训练对应的小模型，基于与目标问答任务相关的原始数据，通过大模型确定标准问、与标准问文本相似度符合相似条件的相似问，以及标准问的答案。由于相对于小模型来说，大模型提供的模型服务不局限于所使用训练样本的知识内，具有高效的语义理解和归纳能力，能够准确从原始数据中提炼出标准问和答案，并基于本文相似度创造出符合语言表达习惯的相似问。基于标准问、相似问和答案构成的目标语料生成语料库，并以此训练小模型，由于小模型只能局限在所使用训练样本的知识内提供问答交互服务，而通过大模型提炼、创造，可得到具备准确性和全面性的高质量目标语料，降低了人工维护带来的高成本和质量波动影响，使得小模型可对通过所述目标问答任务获取的用户问题，生成高质量的回复答案，而且通过大模型能有效提升语料库的构建效率和更新效率。

由于获取的原始数据中携带有一定比例的非实质性内容，例如历史问答文本数据的一些语气词、图片、表情、链接等，这些非实质性内容对于大模型生成标准问和答案没有任何帮助，反而会增加无谓的计算量。

为此，在一种可能的实现方式中，S201：根据所述原始数据，通过大模型确定对应的初始语料，包括：

S2011：对所述原始数据进行数据过滤，从所述原始数据中过滤掉与问答知识无关的无效文本，得到第一文本数据；

S2012：对所述第一文本数据进行关键词识别，从所述第一文本数据中过滤掉包括所述关键词的对象信息，得到第二文本数据；

S2013：通过大模型确定所述第二文本数据对应的初始语料。

服务器通过数据过滤从原始数据中过滤掉的无效文本属于与问答知识无关的文本，例如前述所述的非实质性内容，这类无效文本在历史问答文本数据中占比较多。

除了这类无效文本需要被筛除外，本申请实施例还考虑到了敏感类信息的去除，如果这类信息被小模型学习到后，有可能会作为答案出现在问答交互场景中，从而导致敏感信息泄露。

故本申请通过关键词识别，来对第二文本数据进行脱敏处理。关键词识别中使用的关键词可以是预先基于敏感信息设置的，也就是说可基于不同的脱敏需求，自定义关键词对第一文本数据进行识别。

服务器可以通过关键词匹配的方式，例如通过内容匹配、正则匹配能从第一文本数据中精准识别命中涉及关键词的对象信息，即确定出涉及敏感的对象信息，并将对象信息从第一文本数据中过滤掉，得到第二文本数据。

第二文本数据是去除了无效内容和敏感信息的文本数据，对于大模型来说，可以有效的提升模型处理效率，减少模型资源的占用。

举例，以下是各类格式的原始数据内容

{"MsgType":4,"Rich":[{"MsgType":1,"Content":"[玫瑰]哈哈,我想咨询一下如何提炼智能客服语料"}]}

{"MsgType":4,"Rich":[{"MsgType":2,"Url":"https://www.xxxx.png"}]}

“[抱拳]，明白了，语料是包含标准问、相似问、答案，十分感谢“

通过数据过滤后，得到的第一文本数据为：

["我想咨询一下如何提炼智能客服语料"，"语料是包含标准问、相似问、答案"]。

文本相似度是服务器用于根据标准问确定相似问的依据，其可以表征标准问和相似问在文本维度的相似度，当两个问句的文本相似度达到相似条件时，可以确定这个两个问句的询问需求相似。

在本申请实施例中，可以通过多个维度来表达文本相似度，例如在一种可能的实现方式中，文本相似度包括语义相似度或表征相似度中的至少一种。

语义相似度用于标识两个问句在语义层面上的相似度，语义相似度越高，两个问句所表达的含义越接近。

表征相似度用于标识两个问句在语句结构层面上的相似度，表征相似度越高，两个问句的语句结构表达越相似。

也就是说，当从语义的维度来确定文本相似度时，需要语义上越相似越好，这样可以让相似问所表达的询问需求和标准问接近一致。当从表征的维度来确定文本相似度时，需要表征上越不相似越好，这样可以让相似问在语句结构上区别于标准问，为模型训练来带更丰富的信息。

由于小模型的质量好坏直接取决于语料库的质量，故语料库的维护中包括了对语料库的质量维护。

而语料库中比较重要的是标准问，标准问的质量直接影响到基于文本相似度确定的相似问的质量，故在一种可能的实现方式中，在S204：基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

S11：将所述语料库中任意两个标准问作为标准问对，确定所述两个标准问的语义相似度；

S12：响应于所述两个标准问的语义相似度大于调整阈值，对所述两个标准问涉及的两个目标语料进行调整，将所述两个目标语料调整为一个目标语料。

对于标准问来说，不同的标准问应该体现的是不同的询问需求，否则就不是标准问和标准问之间的关系，而变成了标准问和相似问的关系。也就是说，标准问之间需要具备一定的区别性，而当标准问间所表达的询问需求过于接近时，可能会在模型训练过程中对小模型产生混淆，学习到的知识难以分辨用户输入的问题属于哪一个标准问，由于不同的标准问对应的答案是有所区别的，从而可能导致小模型回复出错误的答案。

而通过大模型生成原始数据对应的标准问时，一个标准问的生成可能并没有过多参考到其他已经生成的标准问，故为了提升语料库的质量，可以对语料库中的存量标准问通过语义相似度进行质量检测。

当标准问对中的两个标准问的语义相似度小于或等于调整阈值例如0.9时，服务器确定这两个标准问表达的询问需求具有足够的区分性，可以有效的应用于小模型的训练。

当标准问对中的两个标准问的语义相似度大于调整阈值例如0.9时，服务器确定这两个标准问表达的询问需求的区分性不足，如果将其作为训练样本对小模型进行训练，可能会造成小模型对这两个标准问产生混淆，降低模型精度。此时，服务器可对这两个标准问涉及的两个目标语料进行调整，将所述两个目标语料调整为一个目标语料，例如删除其中一个标准问，或者基于这两个标准问重新构建一个统一的标准问，这里不对调整方式进行限定。

通过语义相似度对语料库中存量的标准问进行质量检测，可以有效的剔除询问需求难以区分的标准问，提升了语料库的质量，进而提升了小模型的训练质量。

在本申请中，原始数据可以随着时间的推移产生更新，通过本申请实施例提供的数据处理方法，可以基于更新的原始数据确定出新的标准问、相似问和答案。由这些新确定出的标准问、相似问和答案可以生成新的目标语料，这些目标语料会作为增量目标语料加入到已经建立的语料库中，用于生成新的训练样本对小模型进行迭代更新，以让小模型及时学习到与新询问需求对应的知识，以提供高时效性的问答交互服务。

也就是说，针对小模型的语料库会随时新增目标语料，针对这一部分的目标语料中的标准问，同样需要关注前述问题，避免出现询问需求混淆的问题。

故在一种可能的实现方式中，在S204：基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

S21：根据更新的所述原始数据，通过所述大模型确定对应的待定初始语料；

S22：响应于所述待定初始语料中的待定标准问，与所述语料库中的目标标准问间的语义相似度大于调整阈值，根据所述待定初始语料更新所述目标标准问涉及的目标语料；

S23：响应于所述待定初始语料中的待定标准问，与所述语料库中任意标准问间的语义相似度小于或等于所述调整阈值，确定所述待定标准问符合加入所述语料库的条件，将所述待定初始语料作为所述初始语料，执行所述根据所述标准问，通过所述大模型确定对应的相似问的操作。

可以看出，当作为增量标准问的待定标准问能够相对于存量标准问，语义相似度小于或等于调整阈值例如0.9时，服务器可以确定该待定标准问的询问需求和当前语料库中的全部询问需求起到区分性，能够作为新的标准问加入到语料库中，这时可以基于该待定标准问进行相似问的生成和目标语料的构建。

当作为增量标准问的待定标准问与语料库中某一个标准问(记为目标标准问)的语义相似度大于调整阈值例如0.9时，服务器可以确定该待定标准问的询问需求和目标标准问的询问需求难以起到区分性，实际上应作为一个标准问，这种情况下，该待定初始语料不会独立的作为一个目标语料，而是需要更新到目标标准问涉及的目标语料中，作为该目标语料的一个补充，需要注意的是，更新后，该目标语料中还是只有一个标准问，待定标准问和目标标准问如何更新成一个标准问，可以参见前述的实现方式，这里不再赘述。

通过语义相似度对语料库的增量标准问进行质量检测，可以有效的避免询问需求难以区分的标准问加入到语料库中，提升了语料库的质量，进而提升了小模型的训练质量。

由于基于相似问也可以生成训练样本，故除了需要检测语料库的标准问的质量，相似问也是影响小模型训练精度的重要一环，需要有效的进行质量检测。虽然服务器依据了文本相似度生成标准问对应的相似问，可以有效确保相似问相对于标准问的质量，但是，不同目标语料中的相似问之间也可能出现问题。

在一种可能的实现方式中，在S204：基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

S31：从所述语料库中任意选取第一目标语料和第二目标语料；

S32：确定所述第一目标语料中相似问与所述第二目标语料中相似问间的文本相似度；

S33：响应于相似问间的文本相似度满足相似问混淆条件，确定所述第一目标语料和第二目标语料具备混淆问题，将所述第一目标语料和所述第二目标语料移出所述语料库。

本申请发现，不同标准问的相似问之间可能出现基于文本相似度的混淆，原因在于，相似问是基于与标准问的文本相似度确定的，确定的过程中仅考量到标准问和相似问间的文本相似度，当两个标准问(来自不同的目标语料)的语义相似度较为接近但未达到调整阈值时，这两个标准问的相似问有可能出现文本相似度接近的情况。如果不加以识别，那么小模型在这类相似问生成的训练样本的训练中，有可能出现混淆这两个目标语料的问题。

这就导致当小模型对用户输入的用户问题进行处理时，假设该用户问题是涉及目标语料a，但是由于目标语料a的相似问和目标语料b的相似问间的文本相似度满足相似问混淆条件，小模型在训练时学习到了错误的知识，有可能将目标语料b的答案作为回复该用户问题的回复，从而导致了不能符合用户需求的智能问答交互。

为此，本申请会对语料库中的目标语料，进行两两之间的相似问识别，通过确定不同目标语料的相似问间的文本相似度，可以基于相似问混淆条件，来识别出可能导致上述问题的相似问，例如响应于相似问间的文本相似度满足相似问混淆条件，确定第一目标语料和第二目标语料具备混淆问题。服务器可以将第一目标语料和第二目标语料移出语料库，避免第一目标语料和第二目标语料所生成的训练样本，让小模型学习到不当的知识。

移出语料库的第一目标语料和第二目标语料可以进行处理，例如合并两个目标语料，或者调整两个目标语料中的相似问等，当再次能够符合加入语料库的条件时，可以重新加入语料库。

在通过大模型确定出目标语料后，还需要确定目标语料应用于问答交互场景中的可解决性，该可解决性可以用于标识是否能够通过智能问答交互解决用户的询问需求，当一个目标语料的可解决性不足时，即使小模型通过该目标语料学习到了相关知识，但是给出的回复答案依然难以满足用户与该目标语料涉及的询问需求。

故针对可解决性不足的目标语料，即使其质量能够通过前述实施例的质量检测，但是依然不能用于训练小模型，或者说，对小模型的训练意义不大。

故为了提升用于训练小模型的目标语料的质量，需要准确筛选出容易与可解决性不足的目标语料产生混淆的其他目标语料。

S41：基于所述目标语料应用于问答交互场景中的可解决性，将所述语料库中的所述目标语料分为可解决语料集合和不可解决语料集合，所述可解决语料集合包括第一标准问，所述不可解决语料集合包括第二标准问；

S42：确定所述可解决语料集合和所述不可解决语料集合的标准问间的文本相似度；

S43：响应于所述第一标准问和所述第二标准问间的文本相似度满足标准问混淆条件，确定所述第一标准问涉及的目标语料具备混淆问题，将所述第一标准问涉及的目标语料移出所述语料库。

根据可解决性的大小，可以将语料库中的目标语料划分为可解决语料集合和不可解决语料集合，可解决语料集合中的目标语料的可解决性符合问答交互场景的需求，不可解决语料集合中的目标语料的可解决性不符合问答交互场景的需求。可解决语料集合和不可解决语料集合的划分可以基于可解决性阈值来实现，该可解决性阈值可以是基于经验设置，也可以是基于问答交互场景的交互精度来设置，本申请对此不做限定。

可解决语料集合中的标准问可以视为可解决的标准问，不可解决语料集合中的标准问可以视为不可解决的标准问。可解决的标准问指的是现有语料库可以解决的标准问，不可解决的标准问指的是有一些标准问需要人工介入才能解决，无法通过现有语料库解决。此二者类别下的样本集合如果相似度过高，一是会导致后续的文本分类模型难以对样本很好的划分，二是从业务上来理解，本身二者属于不同的业务范畴，其语料本身也不应该有太高相似度，若出现较高相似度的语料，理所应该检测出来给运营同学确认。

针对可解决语料集合中的第一标准问，和不可解决语料集合中的第二标准问，服务器可以确定第一标准问和第二标准问的文本相似度，基于文本相似度和标准问混淆条件的关系，来确定第一标准问是否具有混淆问题。并当确定满足标准问混淆条件时，将第一标准问涉及的目标语料移出语料库，从而提升语料库的目标语料质量。

如前所述，为了避免欠拟合，目标语料中的相似问需要达到一定的数量。而通过前述的质量检测后，有可能有些目标语料中的相似问数量不足以达到训练需求，为此，需要在将语料库中的目标语料用于训练之前，确定目标语料中相似问的数量是否达标。

故在一种可能的实现方式中，在S204：通过所述语料库生成的训练样本训练所述小模型之前，所述方法还包括：

S51：确定所述语料库中目标语料包括的相似问数量；

S52：响应于所述目标语料中的第一目标语料包括的相似问数量比训练要求少了目标数量，根据所述第一目标语料的标准问，通过所述大模型确定所述目标数量的相似问。

当服务器发现第一目标语料中的相似问数量不足时，可以采用前述S203的方式，根据第一目标语料中的标准问，通过大模型生成所需数量的相似问来添加到该第一目标语料中。

由此可以有效提升目标语料的质量，降低出现训练欠拟合的情况。

为了能够直观的体现语料库的情况，便于维护，在一种可能的实现方式中，所述方法还包括：

S61：根据所述目标语料中的相似问的文本相似度，确定所述目标语料中的相似问的质量参数；

S62：在目标语料管理界面显示所述目标语料和所述质量参数。

如图3所示，示出了一个目标语料中包含的内容，其中有：

标准问：“一个企业社交标识可以绑多个商户标识吗？”

答案：“可以，有文档可以参考，网址为。。。”

以及相似问：“一个企业社交标识可以绑定多个商户标识吗？”、“一个企业社交标识可以绑定几个商户标识？”、“一个企业社交标识可以绑定多少个商户标识？”等等。

针对每一个相似问，都显示了根据其与标准问的文本相似度确定出的质量参数，例如98.81、84.32等。参数值越大，表明相似问基于文本相似度越符合相似条件。

通过展示质量参数，可以直观的体现目标语料的相似问质量，便于后续维护。

图4示出了一种基于大模型为小模型提供语料库的示意图，可以实现基于大模型的语料高效运营。

服务器通过大模型的能力把海量的原始数据自动提炼出标准问和相似问，然后对标准问自动批量泛化出足量的相似问，还可以支持对标准问和相似问的质量检测，从而有效的提高了小模型的训练、迭代速度，提升了智能客服的运营效率和质量。

图5示出了一种机器人问答平台的语料生成示意图，其中包括机器人问答管理平台和语料运营平台。

语料运营平台可以调用大模型，来实现原始数据过滤、关键词识别、问答提炼、标准问泛化和重复语料检测。机器人问答管理平台中维护有语料库用于训练、迭代和更新小模型，小模型用于为机器人问答管理平台提供智能客服的功能。机器人问答管理平台还可以实时收集相关的原始数据提供给语料运营平台。

原始数据过滤：

基于业务特点对一些比较明显的客套词、无含义词、表情、图片链接作了过滤剔除，比如各种表情、哈哈等语气词。经过对原始数据的整合和过滤可以得到一段易分析的数据，记为第一文本数据。

关键词识别：

可自定义关键词，第一文本数据通过内容匹配、正则匹配能精准识别命中自定义关键词的数据，并进行剔除，得到第二文本数据。

问答提炼：

问答提炼主要是运用大模型能力对原始数据或第二文本年数据进行分析,利用大模型的上下文理解、语意分析、总结提炼能力，结合合适的prompt，调整模型参数，就能有效的提炼出标准问和答案。

标准问泛化：

在问答提炼完成后，还需要对提炼出来的标准问进行泛化，所以从标准问中提炼出更多的相似问，丰富语料库才能更准确的让小模型命中用户提出的问题，再出对应的回答(解决方案)。这里也是运用了大模型的能力，并将模型的temperature调整为一个较高的值，控制生成相似问的结果的多样性和随机性，更符合对用户问题多样性、随机性的预期。

重复语料检测：

基于上述语料质量度量的原则，文本相似度计算可以有多种形式，如下所示。

表征相似度：可采用汉明距离(Hamming Distance)，编辑距离(LevenshteinDistance)，欧氏距离(Euclidean Distance)，曼哈顿距离(Manhattan Distance)来确定。

语义相似度：可采用CoSENT文本匹配模型，BERT模型(文本向量表征)SentenceBERT文本匹配模型来确定。

在前述图1-图5所对应实施例的基础上，图6为本申请实施例提供的一种数据处理装置的装置结构图，所述数据处理装置600包括获取单元601、确定单元602、生成单元603和训练单元604：

所述获取单元601，用于获取与目标问答任务相关的原始数据；

所述确定单元602，用于根据所述原始数据，通过大模型确定对应的初始语料，所述初始语料包括标准问和所述标准问对应的答案；

所述确定单元602还用于根据所述标准问，通过所述大模型确定对应的相似问，所述相似问与对应的所述标准问间的文本相似度符合相似条件；

所述生成单元603，用于基于所述初始语料和所对应相似问生成语料库，所述语料库中的目标语料包括标准问、所述标准问对应的答案和相似问，所述目标语料用于作为训练样本，对所述目标问答任务对应的小模型进行训练，其中，所述训练样本的模型输入包括所述标准问或所述相似问，所述训练样本的样本标签包括所述标准问对应的答案，所述小模型用于在所使用训练样本的知识内提供问答交互服务，所述大模型提供的模型服务不局限于所使用训练样本的知识内；

所述训练单元604，用于通过所述语料库生成的训练样本训练所述小模型，完成训练的所述小模型用于对通过所述目标问答任务获取的用户问题，生成对应的回复答案。

在一种可能的实现方式中，所述确定单元还用于：

通过大模型确定所述第二文本数据对应的初始语料。

在一种可能的实现方式中，所述确定单元还用于：

从所述语料库中任意选取第一目标语料和第二目标语料；

在一种可能的实现方式中，所述确定单元还用于：

确定所述语料库中目标语料包括的相似问数量；

在目标语料管理界面显示所述目标语料和所述质量参数。

本申请实施例还提供了一种计算机设备，该计算机设备为前述介绍的计算机设备，可以包括终端设备或服务器，前述的数据处理装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。

若该计算机设备为终端设备，请参见图7所示，本申请实施例提供了一种终端设备，以终端设备为手机为例：

图7示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图7，手机包括：射频(Radio Frequency，简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解，图7中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图7对手机的各个构成部件进行具体的介绍：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1480处理；另外，将设计上行的数据发送给基站。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1430可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1430可包括触控面板1431以及其他输入设备1432。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441。

手机还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。

音频电路1460、扬声器1461，传声器1462可提供用户与手机之间的音频接口。

WiFi属于短距离无线传输技术，手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。

处理器1480是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行手机的各种功能和处理数据。

手机还包括给各个部件供电的电源1490(比如电池)。

在本实施例中，该终端设备所包括的处理器1480还具有以下功能：

获取与目标问答任务相关的原始数据；

若计算机设备为服务器，本申请实施例还提供一种服务器，请参见图8所示，图8为本申请实施例提供的服务器1500的结构图，服务器1500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(Central Processing Units，简称CPU)1522(例如，一个或一个以上处理器)和存储器1532，一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中，存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1522可以设置为与存储介质1530通信，在服务器1500上执行存储介质1530中的一系列指令操作。

服务器1500还可以包括一个或一个以上电源1526，一个或一个以上有线或无线网络接口1550，一个或一个以上输入输出接口1558，和/或，一个或一个以上操作系统1541，例如Windows Server^TM，Mac OS X^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于图8所示的服务器结构。

另外，本申请实施例还提供了一种存储介质，所述存储介质用于存储计算机程序，所述计算机程序用于执行上述实施例提供的方法。

本申请实施例还提供了一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得计算机设备执行上述实施例提供的方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：Read-only Memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储计算机程序的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取与目标问答任务相关的原始数据；

2.根据权利要求1所述的方法，其特征在于，所述根据所述原始数据，通过大模型确定对应的初始语料，包括：

通过大模型确定所述第二文本数据对应的初始语料。

3.根据权利要求1所述的方法，其特征在于，所述原始数据包括与所述目标问答任务相关领域的历史问答文本数据和领域知识文本数据中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述文本相似度包括语义相似度或表征相似度中的至少一种；

5.根据权利要求1所述的方法，其特征在于，在所述基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，在所述基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，在所述基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

从所述语料库中任意选取第一目标语料和第二目标语料；

8.根据权利要求1-7任意一项所述的方法，其特征在于，在所述基于所述初始语料和所对应相似问生成语料库之后，所述方法还包括：

9.根据权利要求1-7任意一项所述的方法，其特征在于，在所述通过所述语料库生成的训练样本训练所述小模型之前，所述方法还包括：

确定所述语料库中目标语料包括的相似问数量；

10.根据权利要求1-7任意一项所述的方法，其特征在于，所述方法还包括：

在目标语料管理界面显示所述目标语料和所述质量参数。

11.一种数据处理装置，其特征在于，所述装置包括获取单元、确定单元、生成单元和训练单元：

所述获取单元，用于获取与目标问答任务相关的原始数据；

12.一种计算机设备，其特征在于，所述计算机设备包括处理器以及存储器：

所述处理器用于根据所述计算机程序执行权利要求1-10中任意一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序在被计算机设备执行时实现执行权利要求1-10中任意一项所述的方法。

14.一种包括计算机程序的计算机程序产品，当其在计算机设备上运行时，使得所述计算机设备执行权利要求1-10中任意一项所述的方法。