CN117933394A - 一种基于大语言模型的Prompt自动校验优化系统及方法 - Google Patents

一种基于大语言模型的Prompt自动校验优化系统及方法 Download PDF

Info

Publication number
CN117933394A
CN117933394A CN202410102132.9A CN202410102132A CN117933394A CN 117933394 A CN117933394 A CN 117933394A CN 202410102132 A CN202410102132 A CN 202410102132A CN 117933394 A CN117933394 A CN 117933394A
Authority
CN
China
Prior art keywords
verification
promt
module
editing
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410102132.9A
Other languages
English (en)
Inventor
张其来
魏子重
黄登蓉
常冰心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Science Research Institute Co Ltd
Original Assignee
Shandong Inspur Science Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Science Research Institute Co Ltd filed Critical Shandong Inspur Science Research Institute Co Ltd
Priority to CN202410102132.9A priority Critical patent/CN117933394A/zh
Publication of CN117933394A publication Critical patent/CN117933394A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3684Test management for test design, e.g. generating new test cases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及大语言模型技术领域,具体为一种基于大语言模型的Prompt自动校验优化系统及方法,由主流程模块、验证模块和编辑模块组成;主流程模块,是系统执行的主体部分,接受用户的初始输入和产生最终的结果;验证模块,接收大语言模型输出和用户测试用例数据;编辑模块,要实现对Prompt的编辑优化;有益效果为:本发明提出的基于大语言模型的Prompt自动校验优化系统及方法,在提供少量测试用例和初始Prompt的前提下,进行Prompt的自动校验优化,最终生成针对该任务的合适、有效的Prompt,系统以一种比较自动化的方法实现Prompt的校验和编辑,能够极大的减少手动调试Prompt的耗时问题。

Description

一种基于大语言模型的Prompt自动校验优化系统及方法
技术领域
本发明涉及大语言模型技术领域,具体为一种基于大语言模型的Prompt自动校验优化系统及方法。
背景技术
大语言模型是近年来人工智能领域的重要突破之一。随着深度学习技术的快速发展和计算能力的增强,大语言模型的规模和性能得到了极大提升;提示在大语言模型中起着至关重要的作用。它是向模型提供任务和指导的文本或信息,指示模型所需输出的内容。提示直接影响着模型生成输出的质量和准确性。一个合理有效的提示能够引导模型产生符合预期的结果,而不恰当的提示可能导致输出不准确或无关。
现有技术中,在大语言模型中,提示工程面临一些问题和挑战。其中包括:模糊和不明确的提示:一些提示可能表达不够明确或具体,导致模型难以准确理解任务的意图,进而生成不符合预期的输出。缺乏上下文信息:有时提示提供的上下文信息不足,导致模型在理解任务背景和要求时缺乏必要的依据,影响输出的准确性和相关性。提示与任务不匹配:有时提示与任务的需求不匹配,可能过于具体或过于泛化,导致模型无法准确理解任务要求,影响输出的质量和效果。为了解决这些问题,需要对提示进行持续的研究和优化。优化的提示工程可以提高大语言模型的性能和效率,使其在各种实际应用场景中表现优异,为人工智能技术的发展和应用带来更多的创新和进步。
但是,针对提示的优化和探索大都基于专家经验,依赖专家知识实现对Prompt的调优。但这种方式对于外部知识的依赖非常大,同时需要多次反复的调优才可能获的较好的Prompt,限制性较大,对于大规模的推广使用不太现实。
发明内容
本发明的目的在于提供一种基于大语言模型的Prompt自动校验优化系统及方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于大语言模型的Prompt自动校验优化系统,所述系统由主流程模块、验证模块和编辑模块组成;
主流程模块,是系统执行的主体部分,接受用户的初始输入和产生最终的结果;
验证模块,接收大语言模型输出和用户测试用例数据;
编辑模块,要实现对Prompt的编辑优化。
优选的,主流程模块中,用户的输入是原始的提示和几个任务相关的测试用例数据,主流程模块将用户输入通过大语言模型获取模型输出后,利用验证模块校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块是否需要对Prompt进行编辑以及如何编辑。
优选的,验证模块中,通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性,同时进行多维度的校验信息。
优选的,编辑模块中,根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑,考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样。
一种基于大语言模型的Prompt自动校验优化方法,所述方法包括以下步骤:
明确任务的目标,收集几个测试用例,例如抽取注册资本、股票价格;
针对任务诉求,书写最原始的Prompt提示词;
将Prompt输入大语言模型,获取输出结果;
将模型结果和用户带测试用例的输入一并输入到验证模块模块进行校验;
验证模块从用户输入中获取测试用例的Groundtrue,将模型的输入Output一并输入校验大语言模型,大语言模型对准确性、完整性、相关性、一致性以及连贯性进行评测,输出上述维度的评估结论;
将校验结果输入判断逻辑,如果校验结果确认无误,则直接输出当前Prompt,结束流程;
如果根据校验信息判断模型输出不足,则将校验信息输入编辑模块,进行Prompt的编辑优化;
编辑模块根据校验指标,结合一定的专家经验,生成编辑规则,根据编辑规则,指导Prompt的编辑优化方向,包括:是否需要添加更详细描述、更丰富的上下文信息以及更多的测试用例信息;
根据编辑规则指导大语言模型对Prompt进行优化,生成优化后的Prompt;
迭代循环直到满足一定条件或获得正确的Prompt为止。
优选的,还包括以下步骤:
用户的输入是原始的提示和几个任务相关的测试用例数据,主流程模块将用户输入通过大语言模型获取模型输出后,利用验证模块校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块是否需要对Prompt进行编辑以及如何编辑。
优选的,还包括以下步骤:
通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性,同时进行多维度的校验信息。
优选的,还包括以下步骤:
根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑,考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样。
与现有技术相比,本发明的有益效果是:
本发明提出的基于大语言模型的Prompt自动校验优化系统及方法,在提供少量测试用例和初始Prompt的前提下,进行Prompt的自动校验优化,最终生成针对该任务的合适、有效的Prompt,系统以一种比较自动化的方法实现Prompt的校验和编辑,能够极大的减少手动调试Prompt的耗时问题。
附图说明
图1为本发明方法流程图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
请参阅图1,本发明提供一种技术方案:一种基于大语言模型的Prompt自动校验优化系统,所述系统由主流程模块、验证模块和编辑模块组成;
通过大语言模型和部分的任务数据,实现Prompt的自动生成、调优和编辑过程,降低Prompt的书写门槛,快速、高效的获的任务相关的Prompt,该系统以自动化的方式运行,包括主流程模块(Main)、验证模块(Verify)和编辑模块(Modify)。
主流程模块是系统执行的主体部分,接受用户的初始输入和产生最终的结果。用户的输入是原始的提示(Prompt)和几个任务相关的测试用例数据。主流程将用户输入通过大语言模型获取模型输出(ModelOutput)后,利用验证模块(Verify)校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块(Modify)是否需要对Prompt进行编辑以及如何编辑。
验证模块(Verify)主要接收模型输出(ModelOutput)和用户测试用例数据。通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性等,同时进行多维度的校验信息。
编辑模块(Modify)主要实现对Prompt的编辑优化,根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑。可以考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样等。
通过该专利的Prompt自动校验优化方法,能够针对特定任务实现快速的Prompt书写,进行效果的快速验证,极大缩短调优周期,提升解决问题的效率。
本专利提供了一种基于大语言模型的提示(Prompt)自动校验优化方法和装置,能够实现Prompt的自动生成、调优和编辑,实现快速的实验和迭代,包括主流程模块、验证模块、编辑模块。
实施例二
在实施例一的基础上,提出了一种基于大语言模型的Prompt自动校验优化方法,所述方法包括以下步骤:
1)明确任务的目标,收集几个测试用例,例如抽取注册资本、股票价格等
2)针对任务诉求,书写最原始的Prompt提示词,例如:抽取下面信息的注册资本和股票价格,示例:xxxx
3)将上述Prompt输入大语言模型,获取输出结果
4)将模型结果和用户带测试用例的输入一并输入到验证模块(Verify)模块进行校验
5)验证模块从用户输入中获取测试用例的Groundtrue,将模型的输入Output一并输入校验大语言模型,大语言模型对准确性、完整性、相关性、一致性以及连贯性进行评测。输出上述维度的评估结论。
6)将校验结果输入判断逻辑,如果校验结果确认无误,则直接输出当前Prompt,结束流程
7)如果根据校验信息判断模型输出不足,则将校验信息输入编辑模块(Modify),进行Prompt的编辑优化
8)编辑模块(Modify)根据校验指标,结合一定的专家经验,生成编辑规则,根据编辑规则,指导Prompt的编辑优化方向,包括:是否需要添加更详细描述、更丰富的上下文信息以及更多的测试用例信息等。
9)根据编辑规则指导大语言模型对Prompt进行优化,生成优化后的Prompt。
10)迭代循环直到满足一定条件或获得正确的Prompt为止。
还包括以下步骤:
用户的输入是原始的提示和几个任务相关的测试用例数据,主流程模块将用户输入通过大语言模型获取模型输出后,利用验证模块校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块是否需要对Prompt进行编辑以及如何编辑;通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性,同时进行多维度的校验信息;根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑,考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样。
该方法的主要特点是,针对不同的任务、不同的需求描述情况下,能够基于几个测试用例自动化的生成合适的Prompt,实现快速的试错、迭代和调优,节省大量的人力成本和时间成本。
实施例三
在实施例二的基础上,以信息抽取为例:
用户给定一个原始Prompt和几个测试用例作为输入
将输入给到信息抽取大语言模型,大语言模型生成测试数据的抽取结果
将抽取结果和用户输入一并给到校验大语言模型进行校验
校验模块输出校验结果
校验结果输入判断模块进行逻辑判断,如果满足需求则结束流程,退出;否则进行编辑模块
编辑模块接受校验结果,对Prompt进行编辑、调优,生成调整后的Prompt,返回给主执行流程。
主执行流程迭代,直到满足特定条件,退出执行。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于大语言模型的Prompt自动校验优化系统,其特征在于:所述系统由主流程模块、验证模块和编辑模块组成;
主流程模块,是系统执行的主体部分,接受用户的初始输入和产生最终的结果;
验证模块,接收大语言模型输出和用户测试用例数据;
编辑模块,要实现对Prompt的编辑优化。
2.根据权利要求1所述的一种基于大语言模型的Prompt自动校验优化系统,其特征在于:主流程模块中,用户的输入是原始的提示和几个任务相关的测试用例数据,主流程模块将用户输入通过大语言模型获取模型输出后,利用验证模块校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块是否需要对Prompt进行编辑以及如何编辑。
3.根据权利要求1所述的一种基于大语言模型的Prompt自动校验优化系统,其特征在于:验证模块中,通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性,同时进行多维度的校验信息。
4.根据权利要求1所述的一种基于大语言模型的Prompt自动校验优化系统,其特征在于:编辑模块中,根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑,考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样。
5.一种根据权利要求1-4任意一项所述的基于大语言模型的Prompt自动校验优化系统的基于大语言模型的Prompt自动校验优化方法,其特征在于:所述方法包括以下步骤:
明确任务的目标,收集几个测试用例,例如抽取注册资本、股票价格;
针对任务诉求,书写最原始的Prompt提示词;
将Prompt输入大语言模型,获取输出结果;
将模型结果和用户带测试用例的输入一并输入到验证模块模块进行校验;
验证模块从用户输入中获取测试用例的Groundtrue,将模型的输入Output一并输入校验大语言模型,大语言模型对准确性、完整性、相关性、一致性以及连贯性进行评测,输出上述维度的评估结论;
将校验结果输入判断逻辑,如果校验结果确认无误,则直接输出当前Prompt,结束流程;
如果根据校验信息判断模型输出不足,则将校验信息输入编辑模块,进行Prompt的编辑优化;
编辑模块根据校验指标,结合一定的专家经验,生成编辑规则,根据编辑规则,指导Prompt的编辑优化方向,包括:是否需要添加更详细描述、更丰富的上下文信息以及更多的测试用例信息;
根据编辑规则指导大语言模型对Prompt进行优化,生成优化后的Prompt;
迭代循环直到满足一定条件或获得正确的Prompt为止。
6.根据权利要求5所述的一种基于大语言模型的Prompt自动校验优化方法,其特征在于:还包括以下步骤:
用户的输入是原始的提示和几个任务相关的测试用例数据,主流程模块将用户输入通过大语言模型获取模型输出后,利用验证模块校验模型的结果,生成多维度的校验信息,根据校验信息指导编辑模块是否需要对Prompt进行编辑以及如何编辑。
7.根据权利要求5所述的一种基于大语言模型的Prompt自动校验优化系统,其特征在于:还包括以下步骤:
通过多维度的对比,校验预期输出和实际结果之间的差异,包括输出结果的准确性、一致性、连贯性、相关性,同时进行多维度的校验信息。
8.根据权利要求5所述的一种基于大语言模型的Prompt自动校验优化系统,其特征在于:还包括以下步骤:
根据验证模块的结果,结合一定的专家经验,实现编辑规则集合,针对可能的情况进行Prompt的优化编辑,考虑的扩充维度有:认为描述更加的具体、上下文更加丰富、示例数据更加多样。
CN202410102132.9A 2024-01-25 2024-01-25 一种基于大语言模型的Prompt自动校验优化系统及方法 Pending CN117933394A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410102132.9A CN117933394A (zh) 2024-01-25 2024-01-25 一种基于大语言模型的Prompt自动校验优化系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410102132.9A CN117933394A (zh) 2024-01-25 2024-01-25 一种基于大语言模型的Prompt自动校验优化系统及方法

Publications (1)

Publication Number Publication Date
CN117933394A true CN117933394A (zh) 2024-04-26

Family

ID=90757056

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410102132.9A Pending CN117933394A (zh) 2024-01-25 2024-01-25 一种基于大语言模型的Prompt自动校验优化系统及方法

Country Status (1)

Country Link
CN (1) CN117933394A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230030830A1 (en) * 2021-07-30 2023-02-02 Rovi Guides, Inc. Systems and methods for generating a dynamic list of hint words for automated speech recognition
CN116522926A (zh) * 2023-04-28 2023-08-01 山东浪潮科学研究院有限公司 用于中文大规模语言模型的自动化提示生成与优化方法
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230030830A1 (en) * 2021-07-30 2023-02-02 Rovi Guides, Inc. Systems and methods for generating a dynamic list of hint words for automated speech recognition
CN116522926A (zh) * 2023-04-28 2023-08-01 山东浪潮科学研究院有限公司 用于中文大规模语言模型的自动化提示生成与优化方法
CN116860925A (zh) * 2023-06-09 2023-10-10 国网吉林省电力有限公司吉林供电公司 基于LLMs提示词优化的电网调度智能问答系统及方法

Similar Documents

Publication Publication Date Title
CN104143327B (zh) 一种声学模型训练方法和装置
CN112463424B (zh) 一种基于图的端到端程序修复方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN115098634B (zh) 一种基于语义依存关系融合特征的舆情文本情感分析方法
CN110287357B (zh) 一种基于条件生成对抗网络的图像描述生成方法
US12093634B2 (en) Path delay prediction method for integrated circuit based on feature selection and deep learning
CN116400901B (zh) 一种Python代码自动生成方法及系统
CN115964273A (zh) 基于深度学习的航天器测试脚本自动生成方法
CN113741886A (zh) 一种基于图的语句级程序修复方法及系统
CN116301893A (zh) 一种基于提示学习的轻量化代码生成方法
CN114547619A (zh) 一种基于树的漏洞修复系统及修复方法
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN117933394A (zh) 一种基于大语言模型的Prompt自动校验优化系统及方法
CN117421226A (zh) 一种基于生成式大语言模型的缺陷报告重构的方法及系统
CN116955210A (zh) 一种测试用例的生成方法、装置、电子设备及存储介质
CN117216226A (zh) 一种知识定位方法、装置、存储介质及设备
Meza-Ruiz et al. Accurate statistical spoken language understanding from limited development resources
Tiwari et al. Combining Model-Based Testing and Automated Analysis of Behavioural Models using GraphWalker and UPPAAL
CN113886520A (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质
CN112698833A (zh) 一种基于局部和全局特征的特征依恋代码味道检测方法
CN118092908B (zh) 一种基于大语言模型的应用程序生成方法及装置
CN110263029A (zh) 数据库生成测试数据的方法、装置、终端及介质
CN115048491B (zh) 在异构语义空间中基于假设检验的软件跨模态检索方法
CN118297077B (zh) 基于随机种子的作品创作方法、装置、设备及介质
CN110427615B (zh) 一种基于注意力机制的金融事件修饰时态的分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination