CN117313722A

CN117313722A - 一种大语言模型推理准确性预测方法及装置

Info

Publication number: CN117313722A
Application number: CN202311595562.0A
Authority: CN
Inventors: 屠静; 王亚; 赵策; 李伟伟; 周勤民; 苏岳; 孙岩; 颉彬; 刘莎; 万晶晶; 潘亮亮
Original assignee: Zhuo Shi Future Tianjin Technology Co ltd
Current assignee: Zhuo Shi Future Tianjin Technology Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2023-12-29
Anticipated expiration: 2043-11-28
Also published as: CN117313722B

Abstract

本发明公开了一种大语言模型推理准确性预测方法及装置，涉及大语言模型推理准确性预测技术领域。包括：根据大语言模型，得到大语言模型推理准确性指数；根据大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数；根据推理准确性指数以及推理准确性预测指数，得到大语言模型的推理准确性预测结果。本发明通过计算，客观地评估大语言模型推理准确性预测系统的性能，帮助用户更好的评估大语言模型生成的内容的准确性，有助于提高信息质量、降低误导性信息的传播，同时通过评估推理准确性预测指数的符合系数，可以分析预测结果与实际情况的偏差，从而发现系统可能存在的问题，可以帮助优化和建立用户信任。

Description

一种大语言模型推理准确性预测方法及装置

技术领域

本发明涉及大语言模型推理准确性预测技术领域，尤其涉及一种大语言模型推理准确性预测方法及装置。

背景技术

在科学研究领域，大语言模型推理准确性的提高可以帮助研究人员更好的理解文本数据，加速信息处理和知识发现的过程，是人工智能的核心方向。

例如公开号：CN116521834A一种自然语言推理方法及系统通过获取需要进行语言推理的自然语言句子对，并进行处理；采用预先训练好的算法模型，对所述处理过的句子对进行关系预测；其中，所述算法模型在自然语言推理模型中引入了句内注意力模块及句间注意力模块；句子对的关系包括：矛盾、蕴含、无关；本发明在增强自然语言推理模型性能的同时，提高了结果的可解释性；其中，算法模型在自然语言推理模型中引入了句内注意力模块来提升句子的表达能力，并采用了句间注意力模块促进句子间的交互，同时增强了自然语言推理模型性能，提高了结果的可解释性。

发明内容

本发明针对现有技术缺乏针对模型推理准确性进行合理的预测，以及对大语言模型推理准确性预测模型的构建的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种大语言模型推理准确性预测方法，该方法由电子设备实现，该方法包括：

S1、获取待预测的大语言模型。

S2、根据大语言模型，得到大语言模型推理准确性指数。

S3、根据大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数。

S4、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果。

可选地，S2中的根据大语言模型，得到大语言模型推理准确性指数，包括：

S21、获取文本数据以及文本数据对应的验证数据。

S22、对文本数据进行处理，将处理后的文本数据输入到大语言模型，得到文本数据的推理数据。

S23、根据文本数据的推理数据以及验证数据，得到大语言模型的推理准确性数据。

S24、根据大语言模型的推理准确性数据，计算得到大语言模型推理准确性指数。

可选地，S23中的大语言模型的推理准确性数据，包括：大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。

可选地，S24中的大语言模型推理准确指数，如下式（1）所示：

（1）

其中，表示大语言模型推理正确的文本数据的数量，/>表示文本数据的总数，表示自然常数，/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子，/>表示大语言模型推理不完整的文本数据的数量，/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子，/>表示大语言模型推理错误的文本数据的数量，/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。

可选地，S3中的根据大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数，包括：

S31、基于回归模型以及卷积神经网络，建立大语言模型推理准确性的预测模型。

S32、根据大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到大语言模型推理准确性的预测模型的预测得分和置信度。

S33、根据预测得分和置信度，得到大语言模型推理准确性预测指数。

可选地，S32中的根据大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到大语言模型推理准确性的预测模型的预测得分和置信度，包括：

S321、对大语言模型的推理准确性数据进行预处理；其中，预处理包括；文本清洗、分词以及标注处理。

S322、对预处理后的推理准确性数据，通过词袋模型进行特征提取，得到提取的特征。

S323、将提取的特征输入到大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到预测模型输出。

S324、使用softmax函数将预测模型输出转换为概率分布，进而得到大语言模型推理准确性的预测模型的预测得分。

S325、使用汉语语言模型N-Gram，计算得到大语言模型推理准确性的预测模型的置信度。

可选地，S33中的大语言模型推理准确性预测指数，如下式（2）所示：

（2）

其中，表示自然常数，/>表示预测得分，/>表示预测得分对应大语言模型推理准确性预测指数的权重因子，/>表示置信度，/>表示置信度对应大语言模型推理准确性预测指数的权重因子，/>表示大语言模型推理准确性预测指数对的修正补偿因子。

可选地，S4中的根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果，包括：

S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型推理准确性预测指数的符合系数。

S42、根据大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值，得到大语言模型的推理准确性预测结果。

可选地，S41中的大语言模型推理准确性预测指数的符合系数，如下式（3）所示：

（3）

其中，表示大语言模型推理准确性预测指数，/>表示大语言模型推理准确性指数，/>表示自然常数，/>表示大语言模型推理准确性指数允许的偏差值，/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。

另一方面，本发明提供了一种大语言模型推理准确性预测装置，该装置应用于实现大语言模型推理准确性预测方法，该装置包括：

获取模块，用于获取待预测的大语言模型。

准确性指数计算模块，用于根据大语言模型，得到大语言模型推理准确性指数。

预测指数计算模块，用于根据大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数。

输出模块，用于根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果。

可选地，准确性指数计算模块，进一步用于：

S21、获取文本数据以及文本数据对应的验证数据。

可选地，大语言模型的推理准确性数据，包括：大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。

可选地，大语言模型推理准确性指数，如下式（1）所示：

（1）

可选地，预测指数计算模块，进一步用于：

可选地，大语言模型推理准确性预测指数，如下式（2）所示：

（2）

可选地，输出模块，进一步用于：

可选地，大语言模型推理准确性预测指数的符合系数，如下式（3）所示：

（3）

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述大语言模型推理准确性预测方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述大语言模型推理准确性预测方法。

上述技术方案，与现有技术相比至少具有如下有益效果：

上述方案，通过计算大语言模型推理准确性指数和大语言模型推理准确性预测指数，可以客观地评估大语言模型推理准确性预测系统的性能，帮助用户更好的评估大语言模型生成的内容的准确性，有助于提高信息质量、降低误导性信息的传播。

通过评估大语言模型推理准确性预测指数的符合系数，可以分析预测结果与实际情况的偏差，从而发现系统可能存在的问题，并采取相应的改进方法，调整模型参数、增加训练数据，以提高系统的符合度，可以增加用户对大语言模型推理准确性预测系统的信任度，从而提升大语言模型推理准确性预测系统的性能和可靠性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种大语言模型推理准确性预测方法流程示意图；

图2是本发明实施例提供的一种大语言模型推理准确性预测装置框图；

图3是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种大语言模型推理准确性预测方法，该方法可以由电子设备实现。如图1所示的大语言模型推理准确性预测方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待预测的大语言模型。

一种可行的实施方式中，本发明可以对任一种大语言模型进行大语言模型推理准确性预测。

S2、根据大语言模型，得到大语言模型推理准确性指数。

可选地，上述步骤S2可以包括如下步骤S21- S24：

S21、获取文本数据以及文本数据对应的验证数据。

一种可行的实施方式中，对文本数据进行处理的过程可以包括：数据清洗、数据预处理、特征提取、数据编码以及编号等。

具体地，数据清洗可以是，首先加载文本数据，然后获取文本数据的信息，其中，信息可以包括：数据的大小、类型、是否含有缺失值以及异常值，对于含有缺失值的文本数据，可以进行样本删除，或者进行缺失值的填充；对于异常值，可以采用正则表达式对异常值进行识别以及删除。

进一步地，数据预处理可以是，对文本数据进行标准化，采用自然语言处理工具对标准化后的文本数据进行分词，将文本划分为单词，并且去除异常数据，异常数据可以包括特殊字符、标点符号和多余的空格等，对单词中的缩写词进行处理，对词汇的替代形式进行处理。

上述步骤能够去除文本数据的噪声，规范文本数据的格式，去除文本数据中的异常数据等，进而提高文本数据的质量和可用性。

进一步地，特征提取，可采用现有技术对文本数据的特征进行提取。

进一步地，数据编码可以是，采用编码语言将单词映射为整数，或将文本编码为密集向量，即将文本数据转换为计算机语言，进而用于模型的训练和预测，有助于提高模型的性能和准确性。

进一步地，编号可以是，对文本数据进行依次编号。

一种可行的实施方式中，将推理数据与验证数据进行对比，进而得到推理准确性数据。

其中，推理准确性数据，可以包括：大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。

本发明通过计算推理准确性数据，能够为用户提供反馈和改进的基础，从而更好的对模型的训练策略、数据处理、模型结构等进行调整，提高准确性。

一种可行的实施方式中，根据推理准确性数据对大语言模型的推理准确性进行分析，根据下式（1）能够得到推理准确性指数：

（1）

通过计算推理准确性指数，能够对大语言模型的推理结果进行统计，通过加权处理能够得到综合的推理准确性指数，进而更精确的判断大语言模型的预测能力，以及用于后续符合系数的计算。

可选地，上述步骤S3可以包括如下步骤S31- S33：

一种可行的实施方式中，卷积神经网络能够提取局部的特征，回归模型能够对提取的多个特征进行综合预测，从而提高预测模型的表现能力，采用卷积神经网络以及回归模型建立的大语言模型推理准确性的预测模型，能够更好的捕捉到文本数据中的特征和模式。

可选地，上述步骤S32可以包括如下步骤S321- S325：

S321、对大语言模型的推理准确性数据进行预处理；其中，预处理可以包括；文本清洗、分词以及标注处理，用于减少文本的噪声和冗余信息，提高特征提取和训练的效果。

S322、对预处理后的推理准确性数据，通过词袋模型进行特征提取，得到提取的特征，用于将文本数据转化为用向量表示的形式。

一种可行的实施方式中，本发明将推理准确性的问题转化为数值预测的问题。

一种可行的实施方式中，根据概率分布，将预测得分最高的标签所对应的概率作为预测模型的预测得分。

一种可行的实施方式中，计算预测模型输出的文本数据在大语言模型上的置信度，可以对预测结果在大语言模型中的合理性和可能性进行评估，对预测结果进行分析和解释。

S33、根据预测得分和置信度，得到大语言模型推理准确性预测指数，如下式（2）所示：

（2）

一种可行的实施方式中，预测得分能够反映预测模型的输出结果，置信度能够反映输出结果在大语言模型上的可信程度。对二者进行综合考虑能够更好的评估预测结果的准确性和置信度。

进一步地，权重因子能够对预测得分和置信度在推理准确性预测指数中的相对重要性进行调整，根据用户的不同需求选择合适的权重因子，即若用户更看重预测得分，则预测得分的权重取值大于置信度的权重取值；若用户更看重置信度，则置信度的权重取值大于预测得分的权重取值；且权重系数的总和应该为1，以确保不同特征的影响力总和为1，从而能够更好的平衡预测得分和置信度。

进一步地，修正补偿因子，用于修正推理准确性预测指数，使该预测指数能够更好的体现大语言模型推理准确性预测的实际情况，根据用户的不同需求选择合适的修正补偿因子，具体修正补偿因子的选择方法为现有技术，此处不再赘述，能够更好的调整和校正对推理准确性预测指数，提高准确性和可靠性。

可选地，上述步骤S4可以包括如下步骤S41- S42：

S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型推理准确性预测指数的符合系数，如下式（3）所示：

（3）

一种可行的实施方式中，预设的符合系数阈值能够根据用户的不同需求和应用场景对预测结果进行判断。可以是，基于用户的业务需求以及预测结果的可接受范围进行阈值设定，进而判断是否达到了预期的准确性水平。

进一步地，将符合系数与预设的符合系数阈值进行比较，如果符合系数大于或等于预设阈值，则预测指数能够准确地预测大语言模型的推理准确性；如果符合系数小于预设阈值，则预测指数不能准确预测大语言模型的推理准确性。

本发明对预测结果与预期结果进行量化比较，通过调节偏差值和在计算过程中引入修正补偿因子，偏差值的调节可采用现有的调节方法，本发明此处不再赘述，能够提高符合系数的准确性和稳定性，对大语言模型的推理准确性进行更好的评估，让用户更直观的了解大语言模型的预测能力，为后续的决策和优化提供指导。

一种可行的实施方式中，该方法还可以包括：通过可视化模块进行数据展示以及将过程数据及结果存储于数据库模块中。

其中，可视化模块可以在网页中展示大语言模型推理准确性的预测模型，以及通过可视化界面展示大语言模型推理准确性指数和大语言模型推理准确性预测指数折线图。采用可视化界面，能够给用户提供交互和反馈的机制，例如，根据特定的时间范围查看预测结果，或者更新数据库中的数据。

数据库模块，可以用于存储符合系数阈值、大语言模型的推理准确性数据等。

本发明实施例中，通过计算大语言模型推理准确性指数和大语言模型推理准确性预测指数，可以客观地评估大语言模型推理准确性预测系统的性能，帮助用户更好的评估大语言模型生成的内容的准确性，有助于提高信息质量、降低误导性信息的传播。

如图2所示，本发明实施例提供了一种大语言模型推理准确性预测装置200，该装置200应用于实现大语言模型推理准确性预测方法，该装置200包括：

获取模块210，用于获取待预测的大语言模型。

准确性指数计算模块220，用于根据大语言模型，得到大语言模型推理准确性指数。

预测指数计算模块230，用于根据大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数。

输出模块240，用于根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果。

可选地，准确性指数计算模块220，进一步用于：

S21、获取文本数据以及文本数据对应的验证数据。

可选地，大语言模型推理准确性指数，如下式（1）所示：

（1）

可选地，预测指数计算模块230，进一步用于：

（2）

可选地，输出模块240，进一步用于：

（3）

图3是本发明实施例提供的一种电子设备300的结构示意图，该电子设备300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）301和一个或一个以上的存储器302，其中，存储器302中存储有至少一条指令，至少一条指令由处理器301加载并执行以实现下述大语言模型推理准确性预测方法：

S1、获取待预测的大语言模型。

S2、根据大语言模型，得到大语言模型推理准确性指数。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述大语言模型推理准确性预测方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大语言模型推理准确性预测方法，其特征在于，所述方法包括：

S1、获取待预测的大语言模型；

S2、根据所述大语言模型，得到大语言模型推理准确性指数；

S3、根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数；

S4、根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果。

2.根据权利要求1所述的方法，其特征在于，所述S2中的根据所述大语言模型，得到大语言模型推理准确性指数，包括：

S21、获取文本数据以及所述文本数据对应的验证数据；

S22、对所述文本数据进行处理，将处理后的文本数据输入到所述大语言模型，得到文本数据的推理数据；

S23、根据所述文本数据的推理数据以及所述验证数据，得到大语言模型的推理准确性数据；

S24、根据所述大语言模型的推理准确性数据，计算得到大语言模型推理准确性指数。

3.根据权利要求2所述的方法，其特征在于，所述S23中的大语言模型的推理准确性数据，包括：大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。

4.根据权利要求2所述的方法，其特征在于，所述S24中的大语言模型推理准确性指数，如下式（1）所示：

（1）

其中，表示大语言模型推理正确的文本数据的数量，/>表示文本数据的总数，/>表示自然常数，/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子，/>表示大语言模型推理不完整的文本数据的数量，/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子，/>表示大语言模型推理错误的文本数据的数量，/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。

5.根据权利要求1所述的方法，其特征在于，所述S3中的根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数，包括：

S31、基于回归模型以及卷积神经网络，建立大语言模型推理准确性的预测模型；

S32、根据大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到大语言模型推理准确性的预测模型的预测得分和置信度；

S33、根据所述预测得分和置信度，得到大语言模型推理准确性预测指数。

6.根据权利要求5所述的方法，其特征在于，所述S32中的根据大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到大语言模型推理准确性的预测模型的预测得分和置信度，包括：

S321、对大语言模型的推理准确性数据进行预处理；其中，所述预处理包括；文本清洗、分词以及标注处理；

S322、对预处理后的推理准确性数据，通过词袋模型进行特征提取，得到提取的特征；

S323、将所述提取的特征输入到大语言模型推理准确性的预测模型，对大语言模型推理准确性进行预测，得到预测模型输出；

S324、使用softmax函数将所述预测模型输出转换为概率分布，进而得到大语言模型推理准确性的预测模型的预测得分；

7.根据权利要求5所述的方法，其特征在于，所述S33中的大语言模型推理准确性预测指数，如下式（2）所示：

（2）

8.根据权利要求1所述的方法，其特征在于，所述S4中的根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果，包括：

S41、根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型推理准确性预测指数的符合系数；

S42、根据所述大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值，得到大语言模型的推理准确性预测结果。

9.根据权利要求8所述的方法，其特征在于，所述S41中的大语言模型推理准确性预测指数的符合系数，如下式（3）所示：

（3）

其中，表示大语言模型推理准确性预测指数，/>表示大语言模型推理准确性指数，表示自然常数，/>表示大语言模型推理准确性指数允许的偏差值，/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。

10.一种大语言模型推理准确性预测装置，其特征在于，所述装置包括：

获取模块，用于获取待预测的大语言模型；

准确性指数计算模块，用于根据所述大语言模型，得到大语言模型推理准确性指数；

预测指数计算模块，用于根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型，得到大语言模型推理准确性预测指数；

输出模块，用于根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数，得到大语言模型的推理准确性预测结果。