CN118196567A

CN118196567A - 基于大语言模型的数据评价方法、装置、设备及存储介质

Info

Publication number: CN118196567A
Application number: CN202410606167.6A
Authority: CN
Inventors: 刘晓慧; 黄子恒; 吴江; 陈一; 何梦婷; 蒋子可; 欧桂燕
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2024-05-16
Filing date: 2024-05-16
Publication date: 2024-06-14
Anticipated expiration: 2044-05-16
Also published as: CN118196567B

Abstract

本申请属于计算机技术领域，具体公开了一种基于大语言模型的数据评价方法、装置、设备及存储介质，该方法包括：接收第一输入，第一输入用于确定待评价数据集的数据描述内容；响应于第一输入，基于数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，预设映射关系用于表征数据描述内容中数据描述项在评模板中的对应位置；输入第一评价任务提示词至大语言模型，获取大语言模型输出的评价结果；基于超参数、大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果。通过基于超参数将大语言模型评价结果和无训练统计评价结果融合，实现在保持较低的计算资源消耗的情况下，提高数据评价的有效性。

Description

基于大语言模型的数据评价方法、装置、设备及存储介质

技术领域

本申请属于计算机技术领域，更具体地，涉及一种基于大语言模型的数据评价方法、装置、设备及存储介质。

背景技术

基于模型的数据评价是将待评价数据用于训练特定机器学习模型对数据消费者能够产生的效用（例如模型分类准确率的提升）来对数据作出有效的评价。在这个场景下，数据消费者具体使用模型是已经确定的。

对于数据评价，现有的方案主要分为基于训练和无需训练两种。基于训练方法的尽管有效性较高，但是需要的时间消耗和计算资源消耗过高，无法适应当前基于模型评价的要求。无需训练的方法尽管时间消耗和计算资源消耗较低，但是有效性远比不上基于训练的方法。

如何在保持较低的计算资源消耗的情况下，提高数据评价的有效性是目前业界亟待解决的技术问题。

发明内容

针对现有技术的缺陷，本申请的目的在于保持计算资源消耗较低的情况下提高无需训练方法的有效性，并能根据具体的应用场景进行自适应调整。为了达到这个效果，本申请将大语言模型LLM与无需训练的方法进行结合，通过提示词（Prompt）工程更有效地利用场景中的特征信息。本申请在主流的数据集上对该方法的合理性和有效性进行了完整的评估。

为实现上述目的，第一方面，本申请提供了一种基于大语言模型的数据评价方法，包括：

接收第一输入，所述第一输入用于确定待评价数据集的数据描述内容，所述数据描述内容包括多个数据描述项；

响应于所述第一输入，基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，所述第一评价任务提示词用于指示大语言模型评价所述待评价数据集，所述预设映射关系用于表征所述数据描述内容中各个数据描述项在所述评价任务描述模板中的对应位置；

输入所述第一评价任务提示词至所述大语言模型，获取所述大语言模型输出的评价结果；

基于超参数、大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果，所述无训练统计评价结果是通过无训练统计方式对所述待评价数据集进行评价所获取的，所述超参数用于表征所述大语言模型评价结果和所述无训练统计评价结果之间的权重配比。

在一种可能的实现方式中，所述数据描述内容包括以下数据描述项：样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息。

在一种可能的实现方式中，所述基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，包括：

基于预设映射关系，将所述样本内容描述信息、所述样本数量、所述样本属性描述信息、所述应用场景描述信息和所述应用模型描述信息填充至所述评价任务描述模板，获取任务描述内容；

确定所述任务描述内容作为所述第一评价任务提示词。

在一种可能的实现方式中，在基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词之前，还包括：

输入所述应用场景描述信息和所述应用模型描述信息至对话示例库，获取所述对话示例库输出的对话示例查询结果，所述对话示例库是以对话示例作为数据项并以应用场景描述信息和应用模型描述信息作为数据索引所构建的数据库，所述对话示例是基于评价任务提示词和对应的数据评价结果所构建的；

所述基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，包括：

基于所述任务描述内容和所述对话示例查询结果，生成所述第一评价任务提示词。

在一种可能的实现方式中，在基于超参数、所述大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果之前，还包括：

接收第二输入，所述第二输入用于确定所述待评价数据集的附加数据描述项；

响应于所述第二输入，基于所述待评价数据集的历史对话内容和所述附加数据描述项，确定第二评价任务提示词，所述第二评价任务提示词用于指示所述大语言模型继续评价所述待评价数据集，所述历史对话内容至少包括所述第一评价任务提示词和对应的评价结果；

输入所述第二评价任务提示词至所述大语言模型，获取所述大语言模型输出的评价结果；

基于所述第二评价任务提示词对应的评价结果，更新所述大语言模型评价结果。

在一种可能的实现方式中，在基于超参数、大语言模型评价结果和无训练统计数据评价结果，通过加权求和，确定数据评价结果之前，还包括：

输入所述应用场景描述信息至超参数库，获取所述超参数库输出的与所述应用场景描述信息相匹配的超参数；

所述超参数库是以超参数作为数据项并以应用场景描述信息作为数据索引所构建的数据库。

在一种可能的实现方式中，还包括通过以下步骤确定与目标应用场景描述信息相匹配的目标超参数：

针对目标应用场景，获取多个数据评价样本组和各个数据评价样本组对应的参考评价结果，所述数据评价样本组包括大语言模型评价样本和无训练统计评价样本，所述大语言模型评价样本是通过大语言模型对所述目标应用场景下的测试数据集进行评价所获取的，所述无训练统计评价样本是通过无训练统计方式对所述目标应用场景下的测试数据集进行评价所获取的；

基于多个数据评价样本组和各个数据评价样本组对应的参考评价结果，以最小化评价差异作为优化目标，通过优化算法确定第一超参数，所述评价差异用于表征数据评价测试结果和参考评价结果之间的差异，所述数据评价测试结果是基于所述第一超参数对所述大语言模型评价样本和所述无训练统计评价样本进行加权求和所确定的；

基于所述目标应用场景描述信息、各个数据评价样本组中的无训练统计评价样本、各个数据评价样本组对应的参考评价结果和采用超参数的加权求和公式，生成超参数预估提示词，所述超参数预估提示词用于指示大语言模型针对目标应用场景预估超参数；

输入所述超参数预估提示词至大语言模型，获取大语言模型输出的第二超参数；

确定第一超参数和第二超参数之间的参数差异；

在所述参数差异小于差异阈值的情况下，计算第一超参数和第二超参数的平均值，并确定所述平均值作为所述目标超参数。

第二方面，本申请还提供一种基于大语言模型的数据评价装置，包括：

输入模块，用于接收第一输入，所述第一输入用于确定待评价数据集的数据描述内容，所述数据描述内容包括多个数据描述项；

提示词生成模块，用于响应于所述第一输入，基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，所述第一评价任务提示词用于指示大语言模型评价所述待评价数据集，所述预设映射关系用于表征所述数据描述内容中各个数据描述项在所述评价任务描述模板中的对应位置；

大语言模型评价模块，用于输入所述第一评价任务提示词至所述大语言模型，获取所述大语言模型输出的评价结果；

评价结果融合模块，用于基于超参数、大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果，所述无训练统计评价结果是通过无训练统计方式对所述待评价数据集进行评价所获取的，所述超参数用于表征所述大语言模型评价结果和所述无训练统计评价结果之间的权重配比。

第三方面，本申请还提供一种电子设备，包括：至少一个存储器，用于存储程序；至少一个处理器，用于执行存储器存储的程序，当存储器存储的程序被执行时，处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

第四方面，本申请提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行第一方面或第一方面的任一种可能的实现方式所描述的方法。

总体而言，通过本申请所构思的以上技术方案与现有技术相比，具有以下有益效果：

通过基于待评价数据集的数据描述内容生成评价任务提示词，并将评价任务提示词输入至大语言模型，能够获取大语言模型输出的评价结果，大语言模型在训练过程中学习到了通用领域的信息，大语言模型对数据评价场景中的环境因素（例如待评价数据集所应用到的任务，又例如待评价数据集所训练的模型）具有相关的理解能力，数据本身以及之外的环境因素包含了有助于对数据作出更精准评价的信息，而无训练统计的评价方式对待评价数据集的数据本身具有相关理解能力，通过基于超参数将大语言模型评价结果和无训练统计评价结果融合，可以综合数据本身和环境因素来对待评价数据进行更全面地评价（有助于提升数据评价的有效性），且相比于基于训练的评价方案，通过大语言模型输出评价结果以及通过无训练统计的评价方式输出评价结果，对计算资源的消耗较少，实现在保持较低的计算资源消耗的情况下，提高数据评价的有效性。

附图说明

图1是本申请实施例提供的基于大语言模型的数据评价方法的流程示意图；

图2是本申请实施例提供的第一输入界面的示意图；

图3是本申请实施例提供的第二输入界面的示意图；

图4是本申请实施例提供的基于大语言模型的数据评价方法的数据倾向性实验结果示意图；

图5是本申请实施例提供的DAVINZ的数据倾向性实验结果示意图；

图6是本申请实施例提供的VP的数据倾向性实验结果示意图；

图7是本申请实施例提供的RV的数据倾向性实验结果示意图；

图8是本申请实施例提供的数据倾向性真实结果示意图；

图9是本申请实施例提供的基于大语言模型的数据评价方法的数据量级性实验结果示意图；

图10是本申请实施例提供的DAVINZ的数据量级性实验结果示意图；

图11是本申请实施例提供的VP的数据量级性实验结果示意图；

图12是本申请实施例提供的RV的数据量级性实验结果示意图；

图13是本申请实施例提供的数据量级性真实结果示意图；

图14是本申请实施例提供的基于大语言模型的数据评价方法的噪声鲁棒性实验结果示意图；

图15是本申请实施例提供的DAVINZ的噪声鲁棒性实验结果示意图；

图16是本申请实施例提供的VP的噪声鲁棒性实验结果示意图；

图17是本申请实施例提供的RV的噪声鲁棒性实验结果示意图；

图18是本申请实施例提供的噪声鲁棒性真实结果示意图；

图19是本申请实施例提供的ResNet模型鲁棒性实验结果的示意图；

图20是本申请实施例提供的Inception模型鲁棒性实验结果的示意图；

图21是本申请实施例提供的基于大语言模型的数据评价装置的结构示意图；

图22是本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了便于更加清晰地理解本申请各实施例，首先对一些相关的背景知识进行如下介绍。

对于基于模型的数据评价，其评估的是使用指定数据集训练模型能取得什么样的表现，例如分类准确率等。常用的数据评价方法可以分为基于训练和无需训练两种类型。

基于训练（training-based）的方法需要使用数据集对模型进行训练，并以模型在验证集上的表现作为评分函数。当模型的规模逐渐扩大时，这类方法的时间消耗和计算资源消耗都会随之增加。此外，基于训练（training-based）的方法还依赖于训练集与实际应用中的验证集服从同一数据分布的假设，可能并不符合实际情况。

无需训练（training-free）的统计方法不需要使用数据训练模型，而是使用统计方法估计训练数据集的分布，结合具体应用场景和模型等其他信息，对评分函数进行建模。这类方法的时间消耗和计算资源消耗都比较小，但是实际的有效性相比于基于训练的方法差了很多。

随着模型的参数量和需要的数据量规模越来越大，基于训练方法的时间消耗和计算资源消耗会越来越高，无法适应基于模型的数据评价的要求。

为了克服上述缺陷，本申请将大语言模型（LLM）引入了无需训练的数据评价过程，LLM在训练过程中学习到了许多通用的信息。对于数据评价场景中出现的数据、模型等信息也已经有相关的理解能力。因此，可以使用提示词工程，通过LLM的能力将这些先验知识利用起来，并与数据评价的过程相结合。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本文中的说明书和权利要求书中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一超参数和第二超参数等是用于区别不同的超参数，而不是用于描述超参数的特定顺序。

在本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，除非另有说明，“多个”的含义是指两个或者两个以上，例如，多个处理单元是指两个或者两个以上的处理单元等；多个元件是指两个或者两个以上的元件等。

下面结合本申请实施例中的附图对本申请实施例进行描述。

图1是本申请实施例提供的基于大语言模型的数据评价方法的流程示意图，如图1所示，基于大语言模型的数据评价方法的执行主体可以是电子设备，例如服务器等。该方法包括以下步骤S101至步骤S104。

步骤S101，接收第一输入，第一输入用于确定待评价数据集的数据描述内容（该内容用于描述待评价数据集），数据描述内容包括多个数据描述项（每一个数据描述项用于描述待评价数据集的一个方面）。

具体地，数据描述内容包括以下数据描述项：样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息。

样本内容描述信息用于描述待评价数据集中样本所具有的内容。例如，样本内容描述信息可以描述待评价数据集中样本所具有手写数字图像，手写数字图像中的数字可以是0-9。

样本数量用于描述待评价数据集中样本的总数。例如，样本数量可以描述待评价数据集中样本的总数为50000。

样本属性描述信息用于描述待评价数据集中样本的特性。例如，样本属性描述信息可以描述待评价数据集中样本的图像分辨率为。

应用场景描述信息用于描述待评价数据集所应用到什么场景。例如，应用场景描述信息可以描述待评价数据集用于手写数字图像分类。

应用模型描述信息用于描述待评价数据集所应用到什么模型。例如，应用模型描述信息可以描述待评价数据集所应用到ResNet50模型。

可选地，步骤S101具体包括通过第一输入界面，接收第一输入。图2是本申请实施例提供的第一输入界面的示意图，如图2所示，第一输入界面包括应用场景下拉选择框、样本内容下拉选择框、样本数量下拉选择框、样本属性下拉选择框和应用模型下拉选择框。

应用场景下拉选择框用于显示多个预设应用场景分别对应的选项，并通过监测点击应用场景事件（用户点击某一个预设应用场景对应的选项），根据被点击选项对应的预设应用场景，确定应用场景描述信息。

样本内容下拉选择框用于显示一个或多个预设样本内容分别对应的选项，并通过监测点击样本内容事件（用户点击某一个预设样本内容对应的选项），根据被点击选项对应的预设样本内容，确定样本内容描述信息。

样本数量下拉选择框用于显示一个或多个预设数量区间分别对应的选项，并通过监测点击样本数量事件（用户点击某一个预设数量区间对应的选项），根据被点击选项对应的预设数量区间，确定样本数量。

样本属性下拉选择框用于显示一个或多个预设样本属性分别对应的选项，并通过监测点击样本属性事件（用户点击某一个预设样本属性对应的选项），根据被点击选项对应的预设样本属性，确定样本属性描述信息。

应用模型下拉选择框用于显示一个或多个预设应用模型分别对应的选项，并通过监测点击应用模型事件（用户点击某一个预设应用模型对应的选项），根据被点击选项对应的预设应用模型，确定应用模型描述信息。

通过在第一输入界面中设置上述若干下拉选择框，可以辅助用户快速且准确地输入各个数据描述项（如果直接输入数据描述项，效率低且容易输入错误），使得数据描述内容能够准确地描述待评价数据集的环境因素，以保障数据评价结果的有效性。

示例性地，可以预先构建好不同应用场景（例如人脸识别场景和语音识别场景等）对应的选项集，选项集包括对应应用场景（例如人脸识别场景）下各个预设样本内容（例如，人脸识别场景下预设样本内容可以是人脸图像）对应的选项、对应应用场景下各个预设数量区间对应的选项、对应应用场景下各个预设样本属性（例如，人脸识别场景下预设样本属性可以是图像分辨率）对应的选项以及对应应用场景下各个预设应用模型对应的选项。相应地，第一输入界面中的样本内容下拉选择框、样本数量下拉选择框、样本属性下拉选择框和应用模型下拉选择框可以利用应用场景对应的选项集来显示选型。

可以理解的是，通过预先构建好不同应用场景对应的选项集，在通过应用场景下拉选择框确定应用场景（例如人脸识别场景）之后，其他下拉选择框所显示的选项是与该应用场景相关联的选项，进一步提升输入效率，随着输入效率的提升，可以进一步缩短生成提示词的时长，显著提升提示词生成效率。

步骤S102，响应于第一输入，基于数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，第一评价任务提示词用于指示大语言模型评价待评价数据集，预设映射关系用于表征数据描述内容中各个数据描述项在评价任务描述模板中的对应位置。

示例性地，可以采用zero-shot方式来生成第一评价任务提示词。具体地，基于预设映射关系，将样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息填充至评价任务描述模板，获取任务描述内容；确定任务描述内容作为第一评价任务提示词。

例如，评价任务描述模板可以是“数据集的内容包含[位置1]；数量为[位置2]；数据集的属性包括[位置3]；请你判断这个数据集对于训练一个[位置4]进行[位置5]的重要程度，具体输出一个0-1之间的值，值越高说明数据重要性越大”。预设映射关系可以表征：数据描述内容在评价任务描述模板中的对应位置为“位置1”，样本数量在评价任务描述模板中的对应位置为“位置2”、样本属性描述信息在评价任务描述模板中的对应位置为“位置3”、应用场景描述信息在评价任务描述模板中的对应位置为“位置5”和应用模型描述信息在评价任务描述模板中的对应位置为“位置4”。

进而基于预设映射关系，将样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息填充至评价任务描述模板，获取任务描述内容。例如，任务描述内容可以是“数据集的内容包含手写数字图像，手写数字图像中的数字可以是0-9；数量为50000；数据集的属性包括图像分辨率为；请你判断这个数据集对于训练一个ResNet50模型进行手写数字图像分类的重要程度，具体输出一个0-1之间的值，值越高说明数据重要性越大”。

示例性地，可以采用few-shot方式来生成第一评价任务提示词。具体地，在S102之前，输入应用场景描述信息和应用模型描述信息至对话示例库，获取对话示例库输出的对话示例查询结果，对话示例库是以对话示例作为数据项并以应用场景描述信息和应用模型描述信息作为数据索引所构建的数据库，对话示例是基于评价任务提示词和对应的数据评价结果所构建的。

例如，对话示例可以是“提问：数据集的内容包含手写数字图像，手写数字图像中的数字可以是0-9；数量为50000；数据集的属性包括图像分辨率为；请你判断这个数据集对于训练一个ResNet50模型进行手写数字图像分类的重要程度，具体输出一个0-1之间的值，值越高说明数据重要性越大。回答：数据集重要程度为0.62”。

进而，可以基于预设映射关系，将样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息填充至评价任务描述模板，获取任务描述内容；基于任务描述内容和对话示例查询结果，生成第一评价任务提示词。

可以理解的是，相比于zero-shot方式，few-shot方式可以通过提示词向大语言模型提供相应应用场景及相应应用模型下的多个对话示例，以辅助大语言模型更全面地分析数据评价场景中的环境因素，进而提升评价的准确度。

步骤S103，输入第一评价任务提示词至大语言模型，获取大语言模型输出的评价结果。

示例性地，可以采用多轮对话方式来获取大语言模型评价结果。具体地，在步骤S104之前，接收第二输入，第二输入用于确定待评价数据集的附加数据描述项（例如数据的提供方，数据是否经过预处理）；响应于第二输入，基于待评价数据集的历史对话内容和附加数据描述项，确定第二评价任务提示词，第二评价任务提示词用于指示大语言模型继续评价待评价数据集，历史对话内容至少包括第一评价任务提示词和对应的评价结果；输入第二评价任务提示词至大语言模型，获取大语言模型输出的评价结果；基于第二评价任务提示词对应的评价结果，更新大语言模型评价结果。

通过基于待评价数据集的历史对话内容和附加数据描述项，确定第二评价任务提示词，可以将历史对话内容和附加数据描述项融合到第二评价任务提示词并输入至大语言模型，大语言模型拥有上下文理解能力，会在基本信息（历史对话内容）的基础上理解新的信息（附加数据描述项）并对评价结果作出调整，可以提升评价结果的准确性。

例如，附加数据描述项可以是数据的提供方，数据是否经过预处理等等。

“接收第一输入”是处于第一轮对话阶段。如果“接收第二输入”是处于第二轮对话阶段，那么历史对话内容包括第一轮对话阶段的评价任务提示词（也即第一评价任务提示词）和对应的评价结果。如果“接收第二输入”是处于第三轮对话阶段，那么历史对话内容包括第一轮对话阶段的评价任务提示词及评价结果，和第二轮对话阶段的评价任务提示词及评价结果。以此类推，本申请不对对话的轮数做限定。

可选地，接收第二输入具体包括通过第二输入界面，接收第二输入。图3是本申请实施例提供的第二输入界面的示意图，如图3所示，第二输入界面包括一个或多个附加数据描述项（例如数据预处理情况、数据包含噪声情况和模型结构调整情况）分别对应的下拉选择框，例如数据预处理情况对应的下拉选择框，数据包含噪声情况对应的下拉选择框，模型结构调整情况对应的下拉选择框。

各个附加数据描述项对应的下拉选择框用于显示一个或多个预设选项，并通过监测点击选项事件（用户点击某一个预设选项），根据被点击选项对应的描述信息，确定附加数据描述项的具体内容。

通过在第二输入界面中设置各个附加数据描述项对应的下拉选择框，可以辅助用户快速且准确地输入各个附加数据描述项，使得附加数据描述项能够准确地描述待评价数据集的环境因素，以保障数据评价结果的有效性。

可以理解的是，相比于单轮对话方式，多轮对话方式可以通过提示词向大语言模型提供附加数据描述项，以辅助大语言模型更全面地分析数据评价场景中的环境因素，进而提升评价的准确度。

值得注意的是，在一种可能的实现方式中，few-shot方式与多轮对话方式可以结合，通过提示词向大语言模型提供相应应用场景及相应应用模型下的多个对话示例，同时还可以向大语言模型提供附加数据描述项，以提升评价的准确度。

步骤S104，基于超参数、大语言模型评价结果（可以是0-1之间的数值）和无训练统计评价结果（可以是0-1之间的数值），通过加权求和，确定数据评价结果，无训练统计评价结果是通过无训练统计方式对待评价数据集进行评价所获取的，超参数用于表征大语言模型评价结果和无训练统计评价结果之间的权重配比。

可以理解的是，基于模型的数据评价场景可以划分为两个主体：数据本身和实际场景的环境因素（整体因素）。现有的无需训练的方法通常只考虑了数据集本身的一些信息，忽略了环境因素。在大部分数据评价的场景中，模型训练者通常不会对模型结构做出太多的改变，因为现有的结构（如ResNet、Inception等）已经足够满足实际的需求。环境因素中，数据具体会被应用于哪些任务，训练用的是什么模型，这些数据本身以及之外的因素包含了许多有助于对数据作出更精准评价的信息。在通用领域方面取得的表现证明了LLM对于这些特征信息可以作出有效的理解。单独使用环境因素或是数据本身的信息都是存在不足的，所以需要将LLM与现有无需训练的方法结合，能取得更好的效果。

本申请实施例使用LLM对数据评价具体场景中的特征信息进行利用。具体来说，本申请实施例通过将数据集、模型、场景的特征进行形式化的描述，并使用提示词工程组成具体文本（也即上述评价任务提示词），送入通用LLM模型（GPT4，LLaMA2等），输出评价系数（也即大语言模型评价结果）。对于数据整体的评价，使用LLM进行评价系数的输出。与现有无需训练的方法（例如DAVINZ），进行结合，使用LLM输出自适应调整数据评价结果。加权求和公式如下：

；

其中，表示大语言模型评价结果，/>表示无训练统计评价结果。/>表示超参数（取值范围可以是0-1，/>为0时则为原始的无需训练的方法），可以理解为场景中的整体因素的重要性占比程度，可以通过设置具体的规则计算、优化算法或是同样使用提示词工程得出。

通过设置具体的规则计算超参数：在数据评价的场景中，一般有以下四项基础的关键信息，包括样本内容描述信息、样本属性描述信息、应用场景描述信息和应用模型描述信息。上述内容每包含一项，超参数从0开始增加0.1。其余信息可以被视为辅助信息，可以根据特定场景制定规则确定，例如数据是否经过预处理，数据是否包含噪声等，模型结构是否有调整等。每有一项，超参数增加0.01。

示例性地，在步骤S104之前，输入应用场景描述信息至超参数库，获取超参数库输出的与应用场景描述信息相匹配的超参数；超参数库是以超参数作为数据项并以应用场景描述信息作为数据索引所构建的数据库。

可以理解的是，可以按应用场景选取超参数，使得所选取的超参数与场景更匹配，进而提升评价的准确度。

在一种可能的实现方式中，通过以下步骤S201至步骤S206，确定与目标应用场景描述信息相匹配的目标超参数。

步骤S201，针对目标应用场景，获取多个数据评价样本组和各个数据评价样本组对应的参考评价结果（可以将人工评价方式所获取的评价结果作为参考评价结果），数据评价样本组包括大语言模型评价样本和无训练统计评价样本，大语言模型评价样本是通过大语言模型对目标应用场景下的测试数据集进行评价所获取的，无训练统计评价样本是通过无训练统计方式对目标应用场景下的测试数据集进行评价所获取的。

步骤S202，基于多个数据评价样本组和各个数据评价样本组对应的参考评价结果，以最小化评价差异作为优化目标，通过优化算法确定第一超参数，评价差异用于表征数据评价测试结果和参考评价结果之间的差异，数据评价测试结果是基于第一超参数对大语言模型评价样本和无训练统计评价样本进行加权求和所确定的。

示例性地，对于第一超参数的初始值设置。可以根据历史优化结果的统计情况或人工经验来设置第一超参数的初始值。例如，通过统计历史优化结果中的超参数，分析超参数的概率分布，确定超参数的取值区间（历史优化结果中的超参数较为集中地分布在该取值区间内），在该取值区间内随机选取一个值来设置第一超参数的初始值，以使初始值较为接近最优解，来缩短优化时长，提升优化效率，节省计算资源。

步骤S203，基于目标应用场景描述信息、各个数据评价样本组中的无训练统计评价样本、各个数据评价样本组对应的参考评价结果和采用超参数的加权求和公式，生成超参数预估提示词，超参数预估提示词用于指示大语言模型针对目标应用场景预估超参数。

示例性地，超参数预估提示词可以基于以下超参数预估模板来生成：“现在有一个数据评价场景，具体为[应用场景插入位置]（作为一项环境因素），已知的环境因素还包括样本内容、样本数量、样本属性和应用模型，请你判断环境因素在数据评价场景中的重要程度作为超参数，具体输出一个范围为0到1之间的值，值越大说明环境因素重要程度越高。以下为相关背景知识：这个超参数用于以下公式[公式插入位置]，公式中大语言模型评价结果是通过大语言模型结合上述环境因素对场景下的数据集进行评价获取的，公式中无训练统计评价结果是通过无训练统计方式对场景下的数据集进行评价所获取的，无训练统计评价样本包括[样本插入位置]，无训练统计方式的背景知识包括[无训练统计方式背景知识插入位置]，真实的评价结果包括[真实结果插入位置]，上述公式的计算结果越接近真实的评价结果，则表明超参数设置的越合理”。

对于上述超参数预估模板，[应用场景插入位置]作为目标应用场景描述信息的插入位置，[公式插入位置]作为加权求和公式的插入位置，[样本插入位置]作为各个数据评价样本组中的无训练统计评价样本的插入位置，[真实结果插入位置]作为各个数据评价样本组对应的参考评价结果的插入位置，[无训练统计方式背景知识插入位置]作为无训练统计方式的预设背景知识的插入位置。

步骤S204，输入超参数预估提示词至大语言模型，获取大语言模型输出的第二超参数。

步骤S205，确定第一超参数和第二超参数之间的参数差异。

步骤S206，在参数差异小于差异阈值的情况下，计算第一超参数和第二超参数的平均值，并确定平均值作为目标超参数。

可以理解的是，采用优化算法估算一个超参数（也即上述第一超参数），以及采用大语言模型估算一个超参数（也即上述第二超参数），两种估算方式相关度低，如果参数差异较小，则表明估算的超参数适用于目标应用场景的可信度高，进而可以确定采用两个超参数的平均值作为目标超参数，以保障目标超参数与目标应用场景相匹配（也即目标超参数能够适用于目标应用场景）。

示例性地，用于评价数据的大语言模型和用于预估超参数的大语言模型不相同，进一步降低两种估算方式相关度，保障目标超参数与目标应用场景相匹配。

可以理解的是，通过基于待评价数据集的数据描述内容生成评价任务提示词，并将评价任务提示词输入至大语言模型，能够获取大语言模型输出的评价结果，大语言模型在训练过程中学习到了通用领域的信息，大语言模型对数据评价场景中的环境因素（例如待评价数据集所应用到的任务，又例如待评价数据集所训练的模型）具有相关的理解能力，数据本身以及之外的环境因素包含了有助于对数据作出更精准评价的信息，而无训练统计的评价方式对待评价数据集的数据本身具有相关理解能力，通过基于超参数将大语言模型评价结果和无训练统计评价结果融合，可以综合数据本身和环境因素来对待评价数据进行更全面地评价（有助于提升数据评价的有效性），且相比于基于训练的评价方案，通过大语言模型输出评价结果以及通过无训练统计的评价方式输出评价结果，对计算资源的消耗较少，实现在保持较低的计算资源消耗的情况下，提高数据评价的有效性。

下面通过评估实验结果来证明本申请提出的数据评价方法的合理性和适用性。评估实验包括：（1）有效性实验、（2）数据倾向性（Data Preference）实验、（3）数据量级性（Data Quantity）实验、（4）噪声鲁棒性（Stability to Noise）实验以及（5）模型鲁棒性（Robustness to Model）实验。

关于有效性实验：数据评价方法对于模型在相关数据集上进行训练得到的结果与实际训练得到结果之间的相关性和所需的时间。相关性越高、时间越少有效性越高。

关于数据倾向性实验：数据评价方法应该对不同提供方的数据敏感。对于实际评分低的数据评价低，对于实际评分高的数据评价高。

关于数据量级性实验：不同样本量的数据集应该在数据评价中有不同的评分，对于样本量更大的数据集应该具有输出更高的评价。

关于噪声鲁棒性实验：随机噪声通常用于减少DNN模型中的过拟合问题，因此训练数据可能包含一些噪声。数据评价方法应该在数据集中存在微小噪声的情况下仍能保持稳定的表现。

关于模型鲁棒性实验：数据的评分应该主要取决于其自身和实际应用场景，与具体使用的模型的关系不大。因此，数据评价方法的应该在其他条件相同，仅有模型不同的情况下输出近似的值。

实验设置：

本申请实验部分使用的数据集为MNIST和Cifar-10。MNIST数据集是一个经典的手写数字图像数据集，由60000张训练图像和10000张测试图像组成，每张图像都为像素的灰度图像，代表0到9之间的一个手写数字，并被标记了对应的数字类别。Cifar-10由10个类别的彩色图像组成，包含了飞机、汽车、鸟类、猫、鹿、狗、青蛙、马、船和卡车，共计60000张图像，每张图像的大小为32x32像素，分为红、绿、蓝三个通道。这两个数据集被广泛用于训练和测试机器学习模型，特别是用于图像分类任务。其中MNIST数据集是Cifar-10相比于较为基础的数据集。

实验在残差神经网络（Residual Neural Network，ResNet）和Inception系列的模型上进行。ResNet系列模型在传统卷积模型的基础上引入了残差连接，允许跨越多个层次的信息直接传播，从而使得模型可以更轻松地学习到恒等映射，有效地解决了深层网络难以优化的问题。Inception系列模型的核心思想是通过多层并行卷积操作来捕捉不同尺度和不同级别的图像特征，并将这些特征融合在一起以获取更丰富的表征能力，这样可以在不同层次上捕捉到更丰富的信息。这两个系列的模型是最具有代表性的卷积神经网络模型，在图像识别、分类等多种任务中被广泛使用。

对比方法：VP、RV、DaVInz。其中验证性能评价方法（Validation Performance，VP）是基于训练的方法：模型在数据集上训练，然后根据训练好的模型在测试集上的表现进行评价。VP的超参数设置如下：迭代次数300，学习率0.0001，批大小32。稳健容积评价方法（Robust Volume，RV），属于无需训练的评价方法，主要通过衡量数据集多样性来量化数据评分。该方法在输入数据的维度过高时输入容易出现容积爆炸问题，并且忽略了数据与测试集相关的有用信息。具体来说，在实践中数据消费者通常对于能对指定任务产生更大作用（以在验证数据集上的表现为衡量标准）的数据集，即使数据的多样性不是最好的。因此，将数据评分与验证性能相关联更为合理。DaVInz（Data Valuation using Deep NeuralNetworks at Initialization，在初始化时使用深度神经网络进行数据评价的方法），为方便于表述，在附图和表格中将DaVInz称为初始化数据评价法，属于无需训练的评价方法，从理论上推导了一个域感知的泛化边界，并根据这个边界提出了一个用于在没有模型训练的情况下估计出模型在测试集上可能取得的表现。然而，该方法没有将场景中整体化的信息考虑到评价方法中，导致方法在有效性方面还与基于训练的方法有较大差距。在下面的实验中，本申请实施例的方法使用GPT-4进行指令工程，并与DaVInz结合。

（1）有效性实验结果；

分类任务与基线（baseline）方法对比结果如表1所示。本申请提出与LLM结合的无需训练方法有效性得到了明显的提升，并在某些情况下的表现接近基于训练的方法。同时，所需的时间消耗并没有太多增加。Pearson（皮尔逊系数）和Spearman（斯皮尔曼系数）度量的都是变量之间的线性相关度，相关度越高，说明预测的值和实际的值越接近。

表1 分类任务与基线方法对比结果表

（2）数据倾向性（Data Preference）实验结果；

如图4-8所示，本实验在MNIST数据集上使用ResNet50模型进行实验。本申请将数据按照真实结果（或称为参考评价结果，可以将人工评价方式所获取的评价结果作为参考评价结果）的评分分为五组，编号越小实际评分越低。本申请的方法对数据的实际评分有足够的敏感性。

（3）数据量级性（Data Quantity）实验结果；

如图9-13所示，本实验在ResNet50模型上使用MNIST数据集进行，取得了与基于训练的数据评价方法接近的结果。

（4）噪声鲁棒性（Stability to Noise）实验结果；

如图14-18所示，本实验在ResNet50模型上用cifar-10数据集进行。随机噪声通常用于减少DNN模型中的过拟合的问题，数据评价方法应该在数据集中存在微小噪声的情况下仍能保持稳定的值。

（5）模型鲁棒性（Robustness to Model）实验结果；

图19是本申请实施例提供的ResNet模型鲁棒性实验结果的示意图，图20是本申请实施例提供的Inception模型鲁棒性实验结果的示意图，如图19-20所示，本实验在ResNet和Inception两个大类的模型用cifar-10数据集进行实验。x轴上越往右的模型具有越复杂的结构和越多的参数。本申请提出的方法在同一场景的不同模型上能输出近似的结果。

本申请在主流数据集上进行了完整的实验评估，同时与多个基线方法进行对比，证明了本申请提出的数据评价方法的合理性和适用性。

下面对本申请提供的基于大语言模型的数据评价装置进行描述，下文描述的基于大语言模型的数据评价装置与上文描述的基于大语言模型的数据评价方法可相互对应参照。

图21是本申请实施例提供的基于大语言模型的数据评价装置的结构示意图，如图21所示，该装置包括：输入模块10、提示词生成模块20、大语言模型评价模块30和评价结果融合模块40。

输入模块10，用于接收第一输入，第一输入用于确定待评价数据集的数据描述内容，数据描述内容包括多个数据描述项；

提示词生成模块20，用于响应于第一输入，基于数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，第一评价任务提示词用于指示大语言模型评价待评价数据集，预设映射关系用于表征数据描述内容中各个数据描述项在评价任务描述模板中的对应位置；

大语言模型评价模块30，用于输入第一评价任务提示词至大语言模型，获取大语言模型输出的评价结果；

评价结果融合模块40，用于基于超参数、大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果，无训练统计评价结果是通过无训练统计方式对待评价数据集进行评价所获取的，超参数用于表征大语言模型评价结果和无训练统计评价结果之间的权重配比。

可以理解的是，上述各个单元/模块的详细功能实现可参见前述方法实施例中的介绍，在此不做赘述。

应当理解的是，上述装置用于执行上述实施例中的方法，装置中相应的程序模块，其实现原理和技术效果与上述方法中的描述类似，该装置的工作过程可参考上述方法中的对应过程，此处不再赘述。

基于上述实施例中的方法，本申请实施例提供了一种电子设备，图22是本申请实施例提供的电子设备的结构示意图，如图22所示，该电子设备可以包括：处理器(Processor)810、通信接口(Communications Interface)820、存储器(Memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。

基于上述实施例中的方法，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，当计算机程序在处理器上运行时，使得处理器执行上述实施例中的方法。

基于上述实施例中的方法，本申请实施例提供了一种计算机程序产品，当计算机程序产品在处理器上运行时，使得处理器执行上述实施例中的方法。

可以理解的是，本申请实施例中的处理器可以是中央处理单元（CentralProcessing Unit，CPU），还可以是其他通用处理器、数字信号处理器（Digital SignalProcessor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、晶体管逻辑器件，硬件部件或者其任意组合。通用处理器可以是微处理器，也可以是任何常规的处理器。

本申请实施例中的方法步骤可以通过硬件的方式来实现，也可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器（Random Access Memory，RAM）、闪存、只读存储器（Read-only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、电可擦除可编程只读存储器（Electrically EPROM，EEPROM）、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如同轴电缆、光纤、数字用户线（DSL））或无线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质（例如固态硬盘（Solid State Disk，SSD））等。

可以理解的是，在本申请实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。

本领域的技术人员容易理解，以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于大语言模型的数据评价方法，其特征在于，包括：

2.根据权利要求1所述基于大语言模型的数据评价方法，其特征在于，所述数据描述内容包括以下数据描述项：样本内容描述信息、样本数量、样本属性描述信息、应用场景描述信息和应用模型描述信息。

3.根据权利要求2所述基于大语言模型的数据评价方法，其特征在于，所述基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词，包括：

确定所述任务描述内容作为所述第一评价任务提示词。

4.根据权利要求2所述基于大语言模型的数据评价方法，其特征在于，在基于所述数据描述内容、评价任务描述模板和预设映射关系，生成第一评价任务提示词之前，还包括：

5.根据权利要求2所述基于大语言模型的数据评价方法，其特征在于，在基于超参数、所述大语言模型评价结果和无训练统计评价结果，通过加权求和，确定数据评价结果之前，还包括：

6.根据权利要求2-5任一项所述基于大语言模型的数据评价方法，其特征在于，在基于超参数、大语言模型评价结果和无训练统计数据评价结果，通过加权求和，确定数据评价结果之前，还包括：

7.根据权利要求6所述基于大语言模型的数据评价方法，其特征在于，还包括通过以下步骤确定与目标应用场景描述信息相匹配的目标超参数：

确定第一超参数和第二超参数之间的参数差异；

8.一种基于大语言模型的数据评价装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

至少一个存储器，用于存储计算机程序；

至少一个处理器，用于执行所述存储器存储的程序，当所述存储器存储的程序被执行时，所述处理器用于执行如权利要求1-7任一所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，当所述计算机程序在处理器上运行时，使得所述处理器执行如权利要求1-7任一所述的方法。