CN117313722A - 一种大语言模型推理准确性预测方法及装置 - Google Patents
一种大语言模型推理准确性预测方法及装置 Download PDFInfo
- Publication number
- CN117313722A CN117313722A CN202311595562.0A CN202311595562A CN117313722A CN 117313722 A CN117313722 A CN 117313722A CN 202311595562 A CN202311595562 A CN 202311595562A CN 117313722 A CN117313722 A CN 117313722A
- Authority
- CN
- China
- Prior art keywords
- language model
- large language
- accuracy
- reasoning
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 14
- 238000012795 verification Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种大语言模型推理准确性预测方法及装置,涉及大语言模型推理准确性预测技术领域。包括:根据大语言模型,得到大语言模型推理准确性指数;根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数;根据推理准确性指数以及推理准确性预测指数,得到大语言模型的推理准确性预测结果。本发明通过计算,客观地评估大语言模型推理准确性预测系统的性能,帮助用户更好的评估大语言模型生成的内容的准确性,有助于提高信息质量、降低误导性信息的传播,同时通过评估推理准确性预测指数的符合系数,可以分析预测结果与实际情况的偏差,从而发现系统可能存在的问题,可以帮助优化和建立用户信任。
Description
技术领域
本发明涉及大语言模型推理准确性预测技术领域,尤其涉及一种大语言模型推理准确性预测方法及装置。
背景技术
在科学研究领域,大语言模型推理准确性的提高可以帮助研究人员更好的理解文本数据,加速信息处理和知识发现的过程,是人工智能的核心方向。
例如公开号:CN116521834A一种自然语言推理方法及系统通过获取需要进行语言推理的自然语言句子对,并进行处理;采用预先训练好的算法模型,对所述处理过的句子对进行关系预测;其中,所述算法模型在自然语言推理模型中引入了句内注意力模块及句间注意力模块;句子对的关系包括:矛盾、蕴含、无关;本发明在增强自然语言推理模型性能的同时,提高了结果的可解释性;其中,算法模型在自然语言推理模型中引入了句内注意力模块来提升句子的表达能力,并采用了句间注意力模块促进句子间的交互,同时增强了自然语言推理模型性能,提高了结果的可解释性。
发明内容
本发明针对现有技术缺乏针对模型推理准确性进行合理的预测,以及对大语言模型推理准确性预测模型的构建的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种大语言模型推理准确性预测方法,该方法由电子设备实现,该方法包括:
S1、获取待预测的大语言模型。
S2、根据大语言模型,得到大语言模型推理准确性指数。
S3、根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数。
S4、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
可选地,S2中的根据大语言模型,得到大语言模型推理准确性指数,包括:
S21、获取文本数据以及文本数据对应的验证数据。
S22、对文本数据进行处理,将处理后的文本数据输入到大语言模型,得到文本数据的推理数据。
S23、根据文本数据的推理数据以及验证数据,得到大语言模型的推理准确性数据。
S24、根据大语言模型的推理准确性数据,计算得到大语言模型推理准确性指数。
可选地,S23中的大语言模型的推理准确性数据,包括:大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。
可选地,S24中的大语言模型推理准确指数,如下式(1)所示:
(1)
其中,表示大语言模型推理正确的文本数据的数量,/>表示文本数据的总数,表示自然常数,/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理不完整的文本数据的数量,/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理错误的文本数据的数量,/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。
可选地,S3中的根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数,包括:
S31、基于回归模型以及卷积神经网络,建立大语言模型推理准确性的预测模型。
S32、根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度。
S33、根据预测得分和置信度,得到大语言模型推理准确性预测指数。
可选地,S32中的根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度,包括:
S321、对大语言模型的推理准确性数据进行预处理;其中,预处理包括;文本清洗、分词以及标注处理。
S322、对预处理后的推理准确性数据,通过词袋模型进行特征提取,得到提取的特征。
S323、将提取的特征输入到大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到预测模型输出。
S324、使用softmax函数将预测模型输出转换为概率分布,进而得到大语言模型推理准确性的预测模型的预测得分。
S325、使用汉语语言模型N-Gram,计算得到大语言模型推理准确性的预测模型的置信度。
可选地,S33中的大语言模型推理准确性预测指数,如下式(2)所示:
(2)
其中,表示自然常数,/>表示预测得分,/>表示预测得分对应大语言模型推理准确性预测指数的权重因子,/>表示置信度,/>表示置信度对应大语言模型推理准确性预测指数的权重因子,/>表示大语言模型推理准确性预测指数对的修正补偿因子。
可选地,S4中的根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果,包括:
S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型推理准确性预测指数的符合系数。
S42、根据大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值,得到大语言模型的推理准确性预测结果。
可选地,S41中的大语言模型推理准确性预测指数的符合系数,如下式(3)所示:
(3)
其中,表示大语言模型推理准确性预测指数,/>表示大语言模型推理准确性指数,/>表示自然常数,/>表示大语言模型推理准确性指数允许的偏差值,/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。
另一方面,本发明提供了一种大语言模型推理准确性预测装置,该装置应用于实现大语言模型推理准确性预测方法,该装置包括:
获取模块,用于获取待预测的大语言模型。
准确性指数计算模块,用于根据大语言模型,得到大语言模型推理准确性指数。
预测指数计算模块,用于根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数。
输出模块,用于根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
可选地,准确性指数计算模块,进一步用于:
S21、获取文本数据以及文本数据对应的验证数据。
S22、对文本数据进行处理,将处理后的文本数据输入到大语言模型,得到文本数据的推理数据。
S23、根据文本数据的推理数据以及验证数据,得到大语言模型的推理准确性数据。
S24、根据大语言模型的推理准确性数据,计算得到大语言模型推理准确性指数。
可选地,大语言模型的推理准确性数据,包括:大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。
可选地,大语言模型推理准确性指数,如下式(1)所示:
(1)
其中,表示大语言模型推理正确的文本数据的数量,/>表示文本数据的总数,表示自然常数,/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理不完整的文本数据的数量,/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理错误的文本数据的数量,/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。
可选地,预测指数计算模块,进一步用于:
S31、基于回归模型以及卷积神经网络,建立大语言模型推理准确性的预测模型。
S32、根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度。
S33、根据预测得分和置信度,得到大语言模型推理准确性预测指数。
可选地,预测指数计算模块,进一步用于:
S321、对大语言模型的推理准确性数据进行预处理;其中,预处理包括;文本清洗、分词以及标注处理。
S322、对预处理后的推理准确性数据,通过词袋模型进行特征提取,得到提取的特征。
S323、将提取的特征输入到大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到预测模型输出。
S324、使用softmax函数将预测模型输出转换为概率分布,进而得到大语言模型推理准确性的预测模型的预测得分。
S325、使用汉语语言模型N-Gram,计算得到大语言模型推理准确性的预测模型的置信度。
可选地,大语言模型推理准确性预测指数,如下式(2)所示:
(2)
其中,表示自然常数,/>表示预测得分,/>表示预测得分对应大语言模型推理准确性预测指数的权重因子,/>表示置信度,/>表示置信度对应大语言模型推理准确性预测指数的权重因子,/>表示大语言模型推理准确性预测指数对的修正补偿因子。
可选地,输出模块,进一步用于:
S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型推理准确性预测指数的符合系数。
S42、根据大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值,得到大语言模型的推理准确性预测结果。
可选地,大语言模型推理准确性预测指数的符合系数,如下式(3)所示:
(3)
其中,表示大语言模型推理准确性预测指数,/>表示大语言模型推理准确性指数,/>表示自然常数,/>表示大语言模型推理准确性指数允许的偏差值,/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述大语言模型推理准确性预测方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述大语言模型推理准确性预测方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,通过计算大语言模型推理准确性指数和大语言模型推理准确性预测指数,可以客观地评估大语言模型推理准确性预测系统的性能,帮助用户更好的评估大语言模型生成的内容的准确性,有助于提高信息质量、降低误导性信息的传播。
通过评估大语言模型推理准确性预测指数的符合系数,可以分析预测结果与实际情况的偏差,从而发现系统可能存在的问题,并采取相应的改进方法,调整模型参数、增加训练数据,以提高系统的符合度,可以增加用户对大语言模型推理准确性预测系统的信任度,从而提升大语言模型推理准确性预测系统的性能和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种大语言模型推理准确性预测方法流程示意图;
图2是本发明实施例提供的一种大语言模型推理准确性预测装置框图;
图3是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种大语言模型推理准确性预测方法,该方法可以由电子设备实现。如图1所示的大语言模型推理准确性预测方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待预测的大语言模型。
一种可行的实施方式中,本发明可以对任一种大语言模型进行大语言模型推理准确性预测。
S2、根据大语言模型,得到大语言模型推理准确性指数。
可选地,上述步骤S2可以包括如下步骤S21- S24:
S21、获取文本数据以及文本数据对应的验证数据。
S22、对文本数据进行处理,将处理后的文本数据输入到大语言模型,得到文本数据的推理数据。
一种可行的实施方式中,对文本数据进行处理的过程可以包括:数据清洗、数据预处理、特征提取、数据编码以及编号等。
具体地,数据清洗可以是,首先加载文本数据,然后获取文本数据的信息,其中,信息可以包括:数据的大小、类型、是否含有缺失值以及异常值,对于含有缺失值的文本数据,可以进行样本删除,或者进行缺失值的填充;对于异常值,可以采用正则表达式对异常值进行识别以及删除。
进一步地,数据预处理可以是,对文本数据进行标准化,采用自然语言处理工具对标准化后的文本数据进行分词,将文本划分为单词,并且去除异常数据,异常数据可以包括特殊字符、标点符号和多余的空格等,对单词中的缩写词进行处理,对词汇的替代形式进行处理。
上述步骤能够去除文本数据的噪声,规范文本数据的格式,去除文本数据中的异常数据等,进而提高文本数据的质量和可用性。
进一步地,特征提取,可采用现有技术对文本数据的特征进行提取。
进一步地,数据编码可以是,采用编码语言将单词映射为整数,或将文本编码为密集向量,即将文本数据转换为计算机语言,进而用于模型的训练和预测,有助于提高模型的性能和准确性。
进一步地,编号可以是,对文本数据进行依次编号。
S23、根据文本数据的推理数据以及验证数据,得到大语言模型的推理准确性数据。
一种可行的实施方式中,将推理数据与验证数据进行对比,进而得到推理准确性数据。
其中,推理准确性数据,可以包括:大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。
本发明通过计算推理准确性数据,能够为用户提供反馈和改进的基础,从而更好的对模型的训练策略、数据处理、模型结构等进行调整,提高准确性。
S24、根据大语言模型的推理准确性数据,计算得到大语言模型推理准确性指数。
一种可行的实施方式中,根据推理准确性数据对大语言模型的推理准确性进行分析,根据下式(1)能够得到推理准确性指数:
(1)
其中,表示大语言模型推理正确的文本数据的数量,/>表示文本数据的总数,表示自然常数,/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理不完整的文本数据的数量,/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理错误的文本数据的数量,/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。
通过计算推理准确性指数,能够对大语言模型的推理结果进行统计,通过加权处理能够得到综合的推理准确性指数,进而更精确的判断大语言模型的预测能力,以及用于后续符合系数的计算。
S3、根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数。
可选地,上述步骤S3可以包括如下步骤S31- S33:
S31、基于回归模型以及卷积神经网络,建立大语言模型推理准确性的预测模型。
一种可行的实施方式中,卷积神经网络能够提取局部的特征,回归模型能够对提取的多个特征进行综合预测,从而提高预测模型的表现能力,采用卷积神经网络以及回归模型建立的大语言模型推理准确性的预测模型,能够更好的捕捉到文本数据中的特征和模式。
S32、根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度。
可选地,上述步骤S32可以包括如下步骤S321- S325:
S321、对大语言模型的推理准确性数据进行预处理;其中,预处理可以包括;文本清洗、分词以及标注处理,用于减少文本的噪声和冗余信息,提高特征提取和训练的效果。
S322、对预处理后的推理准确性数据,通过词袋模型进行特征提取,得到提取的特征,用于将文本数据转化为用向量表示的形式。
一种可行的实施方式中,本发明将推理准确性的问题转化为数值预测的问题。
S323、将提取的特征输入到大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到预测模型输出。
S324、使用softmax函数将预测模型输出转换为概率分布,进而得到大语言模型推理准确性的预测模型的预测得分。
一种可行的实施方式中,根据概率分布,将预测得分最高的标签所对应的概率作为预测模型的预测得分。
S325、使用汉语语言模型N-Gram,计算得到大语言模型推理准确性的预测模型的置信度。
一种可行的实施方式中,计算预测模型输出的文本数据在大语言模型上的置信度,可以对预测结果在大语言模型中的合理性和可能性进行评估,对预测结果进行分析和解释。
S33、根据预测得分和置信度,得到大语言模型推理准确性预测指数,如下式(2)所示:
(2)
其中,表示自然常数,/>表示预测得分,/>表示预测得分对应大语言模型推理准确性预测指数的权重因子,/>表示置信度,/>表示置信度对应大语言模型推理准确性预测指数的权重因子,/>表示大语言模型推理准确性预测指数对的修正补偿因子。
一种可行的实施方式中,预测得分能够反映预测模型的输出结果,置信度能够反映输出结果在大语言模型上的可信程度。对二者进行综合考虑能够更好的评估预测结果的准确性和置信度。
进一步地,权重因子能够对预测得分和置信度在推理准确性预测指数中的相对重要性进行调整,根据用户的不同需求选择合适的权重因子,即若用户更看重预测得分,则预测得分的权重取值大于置信度的权重取值;若用户更看重置信度,则置信度的权重取值大于预测得分的权重取值;且权重系数的总和应该为1,以确保不同特征的影响力总和为1,从而能够更好的平衡预测得分和置信度。
进一步地,修正补偿因子,用于修正推理准确性预测指数,使该预测指数能够更好的体现大语言模型推理准确性预测的实际情况,根据用户的不同需求选择合适的修正补偿因子,具体修正补偿因子的选择方法为现有技术,此处不再赘述,能够更好的调整和校正对推理准确性预测指数,提高准确性和可靠性。
S4、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
可选地,上述步骤S4可以包括如下步骤S41- S42:
S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型推理准确性预测指数的符合系数,如下式(3)所示:
(3)
其中,表示大语言模型推理准确性预测指数,/>表示大语言模型推理准确性指数,/>表示自然常数,/>表示大语言模型推理准确性指数允许的偏差值,/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。
S42、根据大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值,得到大语言模型的推理准确性预测结果。
一种可行的实施方式中,预设的符合系数阈值能够根据用户的不同需求和应用场景对预测结果进行判断。可以是,基于用户的业务需求以及预测结果的可接受范围进行阈值设定,进而判断是否达到了预期的准确性水平。
进一步地,将符合系数与预设的符合系数阈值进行比较,如果符合系数大于或等于预设阈值,则预测指数能够准确地预测大语言模型的推理准确性;如果符合系数小于预设阈值,则预测指数不能准确预测大语言模型的推理准确性。
本发明对预测结果与预期结果进行量化比较,通过调节偏差值和在计算过程中引入修正补偿因子,偏差值的调节可采用现有的调节方法,本发明此处不再赘述,能够提高符合系数的准确性和稳定性,对大语言模型的推理准确性进行更好的评估,让用户更直观的了解大语言模型的预测能力,为后续的决策和优化提供指导。
一种可行的实施方式中,该方法还可以包括:通过可视化模块进行数据展示以及将过程数据及结果存储于数据库模块中。
其中,可视化模块可以在网页中展示大语言模型推理准确性的预测模型,以及通过可视化界面展示大语言模型推理准确性指数和大语言模型推理准确性预测指数折线图。采用可视化界面,能够给用户提供交互和反馈的机制,例如,根据特定的时间范围查看预测结果,或者更新数据库中的数据。
数据库模块,可以用于存储符合系数阈值、大语言模型的推理准确性数据等。
本发明实施例中,通过计算大语言模型推理准确性指数和大语言模型推理准确性预测指数,可以客观地评估大语言模型推理准确性预测系统的性能,帮助用户更好的评估大语言模型生成的内容的准确性,有助于提高信息质量、降低误导性信息的传播。
通过评估大语言模型推理准确性预测指数的符合系数,可以分析预测结果与实际情况的偏差,从而发现系统可能存在的问题,并采取相应的改进方法,调整模型参数、增加训练数据,以提高系统的符合度,可以增加用户对大语言模型推理准确性预测系统的信任度,从而提升大语言模型推理准确性预测系统的性能和可靠性。
如图2所示,本发明实施例提供了一种大语言模型推理准确性预测装置200,该装置200应用于实现大语言模型推理准确性预测方法,该装置200包括:
获取模块210,用于获取待预测的大语言模型。
准确性指数计算模块220,用于根据大语言模型,得到大语言模型推理准确性指数。
预测指数计算模块230,用于根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数。
输出模块240,用于根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
可选地,准确性指数计算模块220,进一步用于:
S21、获取文本数据以及文本数据对应的验证数据。
S22、对文本数据进行处理,将处理后的文本数据输入到大语言模型,得到文本数据的推理数据。
S23、根据文本数据的推理数据以及验证数据,得到大语言模型的推理准确性数据。
S24、根据大语言模型的推理准确性数据,计算得到大语言模型推理准确性指数。
可选地,大语言模型的推理准确性数据,包括:大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。
可选地,大语言模型推理准确性指数,如下式(1)所示:
(1)
其中,表示大语言模型推理正确的文本数据的数量,/>表示文本数据的总数,表示自然常数,/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理不完整的文本数据的数量,/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理错误的文本数据的数量,/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。
可选地,预测指数计算模块230,进一步用于:
S31、基于回归模型以及卷积神经网络,建立大语言模型推理准确性的预测模型。
S32、根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度。
S33、根据预测得分和置信度,得到大语言模型推理准确性预测指数。
可选地,预测指数计算模块230,进一步用于:
S321、对大语言模型的推理准确性数据进行预处理;其中,预处理包括;文本清洗、分词以及标注处理。
S322、对预处理后的推理准确性数据,通过词袋模型进行特征提取,得到提取的特征。
S323、将提取的特征输入到大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到预测模型输出。
S324、使用softmax函数将预测模型输出转换为概率分布,进而得到大语言模型推理准确性的预测模型的预测得分。
S325、使用汉语语言模型N-Gram,计算得到大语言模型推理准确性的预测模型的置信度。
可选地,大语言模型推理准确性预测指数,如下式(2)所示:
(2)
其中,表示自然常数,/>表示预测得分,/>表示预测得分对应大语言模型推理准确性预测指数的权重因子,/>表示置信度,/>表示置信度对应大语言模型推理准确性预测指数的权重因子,/>表示大语言模型推理准确性预测指数对的修正补偿因子。
可选地,输出模块240,进一步用于:
S41、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型推理准确性预测指数的符合系数。
S42、根据大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值,得到大语言模型的推理准确性预测结果。
可选地,大语言模型推理准确性预测指数的符合系数,如下式(3)所示:
(3)
其中,表示大语言模型推理准确性预测指数,/>表示大语言模型推理准确性指数,/>表示自然常数,/>表示大语言模型推理准确性指数允许的偏差值,/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。
本发明实施例中,通过计算大语言模型推理准确性指数和大语言模型推理准确性预测指数,可以客观地评估大语言模型推理准确性预测系统的性能,帮助用户更好的评估大语言模型生成的内容的准确性,有助于提高信息质量、降低误导性信息的传播。
通过评估大语言模型推理准确性预测指数的符合系数,可以分析预测结果与实际情况的偏差,从而发现系统可能存在的问题,并采取相应的改进方法,调整模型参数、增加训练数据,以提高系统的符合度,可以增加用户对大语言模型推理准确性预测系统的信任度,从而提升大语言模型推理准确性预测系统的性能和可靠性。
图3是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,存储器302中存储有至少一条指令,至少一条指令由处理器301加载并执行以实现下述大语言模型推理准确性预测方法:
S1、获取待预测的大语言模型。
S2、根据大语言模型,得到大语言模型推理准确性指数。
S3、根据大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数。
S4、根据大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述大语言模型推理准确性预测方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种大语言模型推理准确性预测方法,其特征在于,所述方法包括:
S1、获取待预测的大语言模型;
S2、根据所述大语言模型,得到大语言模型推理准确性指数;
S3、根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数;
S4、根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
2.根据权利要求1所述的方法,其特征在于,所述S2中的根据所述大语言模型,得到大语言模型推理准确性指数,包括:
S21、获取文本数据以及所述文本数据对应的验证数据;
S22、对所述文本数据进行处理,将处理后的文本数据输入到所述大语言模型,得到文本数据的推理数据;
S23、根据所述文本数据的推理数据以及所述验证数据,得到大语言模型的推理准确性数据;
S24、根据所述大语言模型的推理准确性数据,计算得到大语言模型推理准确性指数。
3.根据权利要求2所述的方法,其特征在于,所述S23中的大语言模型的推理准确性数据,包括:大语言模型推理正确的文本数据的数量、大语言模型推理不完整的文本数据的数量和大语言模型推理错误的文本数据的数量。
4.根据权利要求2所述的方法,其特征在于,所述S24中的大语言模型推理准确性指数,如下式(1)所示:
(1)
其中,表示大语言模型推理正确的文本数据的数量,/>表示文本数据的总数,/>表示自然常数,/>表示大语言模型推理正确的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理不完整的文本数据的数量,/>表示大语言模型推理不完整的文本数据的数量对应大语言模型推理准确性指数的权重因子,/>表示大语言模型推理错误的文本数据的数量,/>表示大语言模型推理错误的文本数据的数量对应大语言模型推理准确性指数的权重因子。
5.根据权利要求1所述的方法,其特征在于,所述S3中的根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数,包括:
S31、基于回归模型以及卷积神经网络,建立大语言模型推理准确性的预测模型;
S32、根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度;
S33、根据所述预测得分和置信度,得到大语言模型推理准确性预测指数。
6.根据权利要求5所述的方法,其特征在于,所述S32中的根据大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到大语言模型推理准确性的预测模型的预测得分和置信度,包括:
S321、对大语言模型的推理准确性数据进行预处理;其中,所述预处理包括;文本清洗、分词以及标注处理;
S322、对预处理后的推理准确性数据,通过词袋模型进行特征提取,得到提取的特征;
S323、将所述提取的特征输入到大语言模型推理准确性的预测模型,对大语言模型推理准确性进行预测,得到预测模型输出;
S324、使用softmax函数将所述预测模型输出转换为概率分布,进而得到大语言模型推理准确性的预测模型的预测得分;
S325、使用汉语语言模型N-Gram,计算得到大语言模型推理准确性的预测模型的置信度。
7.根据权利要求5所述的方法,其特征在于,所述S33中的大语言模型推理准确性预测指数,如下式(2)所示:
(2)
其中,表示自然常数,/>表示预测得分,/>表示预测得分对应大语言模型推理准确性预测指数的权重因子,/>表示置信度,/>表示置信度对应大语言模型推理准确性预测指数的权重因子,/>表示大语言模型推理准确性预测指数对的修正补偿因子。
8.根据权利要求1所述的方法,其特征在于,所述S4中的根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果,包括:
S41、根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型推理准确性预测指数的符合系数;
S42、根据所述大语言模型推理准确性预测指数的符合系数以及预设的符合系数阈值,得到大语言模型的推理准确性预测结果。
9.根据权利要求8所述的方法,其特征在于,所述S41中的大语言模型推理准确性预测指数的符合系数,如下式(3)所示:
(3)
其中,表示大语言模型推理准确性预测指数,/>表示大语言模型推理准确性指数,表示自然常数,/>表示大语言模型推理准确性指数允许的偏差值,/>表示语言模型推理准确性预测指数的符合系数的修正补偿因子。
10.一种大语言模型推理准确性预测装置,其特征在于,所述装置包括:
获取模块,用于获取待预测的大语言模型;
准确性指数计算模块,用于根据所述大语言模型,得到大语言模型推理准确性指数;
预测指数计算模块,用于根据所述大语言模型以及构建好的大语言模型推理准确性的预测模型,得到大语言模型推理准确性预测指数;
输出模块,用于根据所述大语言模型推理准确性指数以及大语言模型推理准确性预测指数,得到大语言模型的推理准确性预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595562.0A CN117313722B (zh) | 2023-11-28 | 2023-11-28 | 一种大语言模型推理准确性预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311595562.0A CN117313722B (zh) | 2023-11-28 | 2023-11-28 | 一种大语言模型推理准确性预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117313722A true CN117313722A (zh) | 2023-12-29 |
CN117313722B CN117313722B (zh) | 2024-02-13 |
Family
ID=89250193
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311595562.0A Active CN117313722B (zh) | 2023-11-28 | 2023-11-28 | 一种大语言模型推理准确性预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117313722B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553142A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种自然语言推理方法及系统 |
CN113553422A (zh) * | 2021-07-16 | 2021-10-26 | 山东建筑大学 | 基于语言值卷积规则推理网络的用户偏好预测方法及系统 |
CN114220514A (zh) * | 2022-02-22 | 2022-03-22 | 橙意家人科技(天津)有限公司 | 互联网医院病人诊疗数据分析处理方法、设备及存储介质 |
CN114255098A (zh) * | 2021-11-30 | 2022-03-29 | 南京我乐家居股份有限公司 | 一种基于图像分析技术的在线下单全周期智能管理系统 |
CN116643110A (zh) * | 2023-06-29 | 2023-08-25 | 山东兴楚电气工程有限公司 | 一种高压变频器运行监测系统 |
CN116801286A (zh) * | 2023-05-17 | 2023-09-22 | 齐犇科技集团有限公司 | 一种物联网卡的流量池控制断网方法及系统 |
CN116894442A (zh) * | 2023-09-11 | 2023-10-17 | 临沂大学 | 一种纠正引导发音的语言翻译方法及系统 |
-
2023
- 2023-11-28 CN CN202311595562.0A patent/CN117313722B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111553142A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种自然语言推理方法及系统 |
CN113553422A (zh) * | 2021-07-16 | 2021-10-26 | 山东建筑大学 | 基于语言值卷积规则推理网络的用户偏好预测方法及系统 |
CN114255098A (zh) * | 2021-11-30 | 2022-03-29 | 南京我乐家居股份有限公司 | 一种基于图像分析技术的在线下单全周期智能管理系统 |
CN114220514A (zh) * | 2022-02-22 | 2022-03-22 | 橙意家人科技(天津)有限公司 | 互联网医院病人诊疗数据分析处理方法、设备及存储介质 |
CN116801286A (zh) * | 2023-05-17 | 2023-09-22 | 齐犇科技集团有限公司 | 一种物联网卡的流量池控制断网方法及系统 |
CN116643110A (zh) * | 2023-06-29 | 2023-08-25 | 山东兴楚电气工程有限公司 | 一种高压变频器运行监测系统 |
CN116894442A (zh) * | 2023-09-11 | 2023-10-17 | 临沂大学 | 一种纠正引导发音的语言翻译方法及系统 |
Non-Patent Citations (2)
Title |
---|
汪疆平;肖戎;: "税务大数据分析的技术和典型应用", 大数据, no. 02 * |
石海佳;石磊;: "中国有机化工原料供应链结构――复杂网络视角", 化工学报, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN117313722B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN111401084B (zh) | 一种机器翻译的方法、设备以及计算机可读存储介质 | |
CN109344242B (zh) | 一种对话问答方法、装置、设备及存储介质 | |
CN111858854B (zh) | 一种基于历史对话信息的问答匹配方法及相关装置 | |
CN112084793B (zh) | 基于依存句法的语义识别方法、设备和可读存储介质 | |
CN112528655A (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN112329476A (zh) | 一种文本纠错方法及装置、设备、存储介质 | |
CN114997141A (zh) | 一种从文本中进行关系抽取的方法、关系抽取模型及介质 | |
AU2019270109B2 (en) | Chapter-level text translation method and device | |
CN110826325A (zh) | 一种基于对抗训练的语言模型预训练方法、系统及电子设备 | |
CN117251559B (zh) | 基于自然语言大模型的工程标准规范获取方法及系统 | |
CN117313722B (zh) | 一种大语言模型推理准确性预测方法及装置 | |
CN112989829A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN116402630A (zh) | 一种基于表征学习的财务风险预测方法及系统 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN115730590A (zh) | 意图识别方法以及相关设备 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN115147849A (zh) | 字符编码模型的训练方法、字符匹配方法和装置 | |
CN115130545A (zh) | 数据处理方法、电子设备、程序产品及介质 | |
CN113011162A (zh) | 一种指代消解方法、装置、电子设备及介质 | |
CN111091011A (zh) | 领域预测方法、领域预测装置及电子设备 | |
CN112395832B (zh) | 一种基于序列到序列的文本量化分析与生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |