CN117217315A - 一种利用大语言模型生成高质量问答数据的方法及装置 - Google Patents

一种利用大语言模型生成高质量问答数据的方法及装置 Download PDF

Info

Publication number
CN117217315A
CN117217315A CN202311240983.1A CN202311240983A CN117217315A CN 117217315 A CN117217315 A CN 117217315A CN 202311240983 A CN202311240983 A CN 202311240983A CN 117217315 A CN117217315 A CN 117217315A
Authority
CN
China
Prior art keywords
question
data
prompt
answer
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311240983.1A
Other languages
English (en)
Inventor
郭芷君
唐添翼
夏敏
易丛文
管健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixian Future Industrial Software Co ltd
Original Assignee
Shenzhen Zhixian Future Industrial Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixian Future Industrial Software Co ltd filed Critical Shenzhen Zhixian Future Industrial Software Co ltd
Priority to CN202311240983.1A priority Critical patent/CN117217315A/zh
Publication of CN117217315A publication Critical patent/CN117217315A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Stored Programmes (AREA)

Abstract

本发明提供一种利用大语言模型生成高质量问答数据的方法,包括:将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;将若干第一提示数据输入大语言模型,得到对应的第一问答对;将若干第一提示数据分别填入改写模板,得到若干改写提示数据;将若干改写提示数据输入大语言模型,得到对应的第二问答对;基于若干第一问答对和若干第二问答对,确定目标问答对。由此,可以通过多次调用大语言模型生成更为准确的问答对。

Description

一种利用大语言模型生成高质量问答数据的方法及装置
技术领域
本申请涉及人工智能技术领域,尤其涉及一种利用大语言模型生成高质量问答数据的方法及装置。
背景技术
训练与微调一个遵循用户指令且满足特定需求(如精通某专业领域知识)的大语言模型需要构造大量数据集,人工构造数据集成本昂贵,且费时费力,无法满足短期大量生产数据的要求。由于低成本、高效率的特点,调用大语言模型开放接口生成数据的方法成为一种流行的数据生成方法。尽管利用大语言模型生成数据廉价高效,但大语言模型本身存在着编造数据、长文本遗忘、生成错乱等问题,如何生成高质量的问答数据成为一个难点。
发明内容
为了解决上述问题,本申请提出一种利用大语言模型生成高质量问答数据的方法、装置及电子设备,能高效且便捷的生成高质量的问答数据。
第一方面,本申请提供一种利用大语言模型生成高质量问答数据的方法,该方法包括:将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;第一提示数据为提问形式或指令形式;第一提示数据针对第一知识点提出问题;将若干第一提示数据输入大语言模型,得到对应的第一问答对;将若干第一提示数据分别填入改写模板,得到若干改写提示数据;改写提示数据中包含针对目标知识点提出的问题,该目标知识点与第一知识点具有相关性,第一知识点和目标知识点均根据目标领域确定;将若干改写提示数据输入大语言模型,得到对应的第二问答对;基于若干第一问答对和若干第二问答对,确定目标问答对。
由此,本申请通过将目标领域的知识文本填入预设的生成模板得到第一提示数据,并利用大语言模型生成比较简单的第一问答对。再将第一提示数据填入改写模板得到改写提示数据,再次利用大语言模型生成更准确的第二问答对。并基于第一问答对和第二问答对确定目标问答对,从而可以提高生成目标问答对的质量。
在一种可能的实现方式中,生成模板至少包括指令/提示语句;将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据,包括:将目标领域知识文本按照预设单元进行划分,得到若干知识片段;对若干知识片段中的每个知识片段,将该知识片段按照生成模板中的指令/提示语句填写到生成模板,得到该知识片段对应的第一提示数据;基于若干知识片段对应的第一提示数据,得到若干第一提示数据。
在一种可能的实现方式中,将目标领域的知识文本填入预设的生成模板之前,还包括:接收与目标领域相关的数据集,并将数据集进行识别转换;从识别转换后的数据集中过滤干扰数据,并对过滤后得到的文本数据进行分章节处理,得到目标领域的知识文本。
在一种可能的实现方式中,改写模板至少包括指令/提示语句和示例问答对;将若干第一提示数据分别填入改写模板,得到若干改写提示数据,包括:对若干第一提示数据中的每个第一提示数据,将该第一提示数据按照改写模板中的指令/提示语句和示例问答对填写到改写模板,得到该第一提示数据对应的改写提示数据;基于若干第一提示数据对应的改写提示数据,得到若干改写提示数据。
在一种可能的实现方式中,改写模板包括深度改写模板和广度改写模板;将若干第一提示数据分别填入改写模板,得到若干改写提示数据,包括:将若干第一提示数据分别输入深度改写模板,得到若干第二提示数据,第二提示数据中的目标知识点在目标领域的知识体系中处于第一知识点的更下游;将若干第一提示数据分别输入广度改写模板,得到若干第三提示数据,第三提示数据中的目标知识点与第一知识点在目标领域的知识体系中位于相近子领域的同一层级范围;根据若干第二提示数据和若干第三提示数据,得到若干改写提示数据。
在一种可能的实现方式中,基于若干第一问答对和若干第二问答对,确定目标问答对,包括:基于若干第一问答对和若干第二问答对确定候选问答对;将候选问答对进行筛选,并将筛选得到的问答对转换为目标格式,得到目标问答对。
在一种可能的实现方式中,基于若干第一问答对和若干第二问答对确定候选问答对,包括:将若干第一问答对和若干第二问答对分别填入翻译模板,得到若干翻译提示及回答对数据;将若干翻译提示及回答对数据分别输入大语言模型,得到对应的翻译为目标语言的问答对;基于若干翻译为目标语言的问答对,确定候选问答对。
在一种可能的实现方式中,翻译模板至少包括指令/提示语句;将若干第一问答对和若干第二问答对分别填入翻译模板,得到若干翻译提示及回答对数据,包括:对若干第一问答对和若干第二问答对中的每个问答对,将该问答对按照翻译模板中的指令/提示语句填写到翻译模板,得到该问答对对应的翻译提示及回答对数据;基于若干第一问答对和若干第二问答对对应的翻译提示及回答对数据,得到若干翻译提示及回答对数据。
第二方面,本申请提供一种利用大语言模型生成高质量问答数据的装置,其特征在于,装置包括:生成模块,用于将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;第一提示数据为提问形式或指令形式;第一提示数据针对第一知识点提出问题;第一处理模块,用于将若干第一提示数据输入大语言模型,得到对应的第一问答对;改写模块,用于将若干第一提示数据分别填入改写模板,得到若干改写提示数据;改写提示数据中包含针对目标知识点提出的问题,该目标知识点与第一知识点具有相关性,第一知识点和目标知识点均根据目标领域确定;第二处理模块,用于将若干改写提示数据输入大语言模型,得到对应的第二问答对;输出模块,用于基于若干第一问答对和若干第二问答对,确定目标问答对。
第三方面,本申请提供一种电子设备,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行存储器存储的程序;其中,当存储器存储的程序被执行时,处理器用于执行第一方面或第一方面的任一种可能的实现方式所描述的方法。
可以理解的是,上述第二方面至第三方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚说明本申请实施例的技术方案,下面将对实施例描述中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种利用大语言模型生成高质量问答数据的模型示意图;
图2是本申请实施例提供的一种数据前处理模块的结构示意图;
图3是本申请实施例提供的一种数据收集模块的结构示意图;
图4是本申请实施例提供的一种数据后处理模块的结构示意图;
图5是本申请实施例提供的一种利用大语言模型生成高质量问答数据的方法流程图;
图6是本申请实施例提供的一种利用大语言模型生成高质量问答数据的装置图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
训练与微调一个遵循用户指令且满足特定需求(如精通某专业领域知识)的大语言模型需要构造大量数据集,人工构造数据集成本昂贵,且费时费力,无法满足短期大量生产数据的要求。由于低成本、高效率的特点,调用大语言模型开放接口生成数据的方法成为一种流行的数据生成方法。尽管利用大语言模型生成数据廉价高效,但大语言模型本身存在着编造数据、长文本遗忘、生成错乱等问题,如何生成高质量的问答数据成为一个难点。
本发明提供的一种利用大语言模型生成高质量问答数据的方案,通过将目标领域的知识文本填入预设的生成模板得到第一提示数据,并利用大语言模型生成比较简单的第一问答对。再将第一提示数据填入改写模板得到改写提示数据,再次利用大语言模型生成更准确的第二问答对。并基于第一问答对和第二问答对确定目标问答对,从而可以提高生成目标问答对的质量。
示例性的,图1中示出了本申请实施例提供的一种利用大语言模型生成高质量问答数据的模型示意图。下面将参考图1,对本发明的方案进行示意性说明,该应用实例描述了问答数据的生成过程。
如图1所示,利用大语言模型生成高质量问答数据的模型输入为目标领域相关数据集,通过数据前处理模块、数据收集模块和数据后处理模块对该输入依次进行处理,可以得到输出为目标问答对。
其中,数据前处理模块对目标领域相关数据集中的数据进行格式统一,以及无用信息处理得到目标领域知识文本。数据收集模块包括一个大语言模型,利用该大语言模型,基于输入的目标领域知识文本生成多个候选问答对。最后,利用数据后处理模块将大语言模型在生成候选问答对时产生的错乱数据进行清理,以及进行清理后问答对的目标格式转换,得到目标问答对。
示例性的,图2中示出了本申请实施例提供的一种数据前处理模块的结构示意图。如图2所示,数据前处理模块的输入为目标领域相关数据集,输出为目标领域知识文本。
目标领域相关数据集可以是本领域或相关领域的书籍,其格式可以为pdf或jpg等,需要将其格式进行统一并转换为计算机可编辑的文本格式,比如txt或word等。
具体的,将目标领域相关数据集输入到数据前处理模块,经过文字识别后转换成计算机可编辑的领域书籍数据。该领域书籍数据通常存在干扰数据,比如附录、图表、课后习题、目录、公式等,需要将这些干扰数据进行清除得到可用文本数据。将可用文本数据进行划分章节处理,得到目标领域知识文本。
示例性的,图3中示出了本申请实施例提供的一种数据收集模块的结构示意图。如图3所示,数据收集模块的输入为目标领域知识文本,输出为候选问答对。
目标领域知识文本是符合计算机编辑要求的有用知识文本,其中包括大量的与本领域或相近领域相关的有用信息。可以基于这些有用信息,利用大语言模型生成问答对数据。
具体的,数据收集模块包括生成-改写-翻译三个步骤。
在生成步骤,将划分章节后的目标领域知识文本填入生成模板,得到若干第一提示数据,并第一次调用大语言模型接口得到原始问答对。因为第一提示数据可以为提问形式或指令形式,所以原始问答对可以包括提问-回答和指令-回答两种形式。显然,原始问答对是比较简单的问答对,质量有待提高。
在改写步骤,将第一提示数据填入深度改写模板得到第二提示数据,第二次调用大语言模型接口获得深度改写后的问答对。并且,将第一提示数据填入广度改写模板得到第三提示数据,第三次调用大语言模型接口获得广度改写后的问答对。其中,深度改写用于增加第一提示数据表示的指令或提问的复杂度,广度改写用于提高第一提示数据表示的指令或提问的主题覆盖率和整体数据集的多样性。显然,经过深度改写或广度改写后的问答对可以更准确的表示目标领域知识。
在翻译步骤,将原始问答对、深入改写后的问答对、广度改写后的问答对分别填入翻译模板,第四次调用大语言模型接口获得翻译为目标语言的问答对,即候选问答对。
示例性的,图4中示出了本申请实施例提供的一种数据后处理模块的结构示意图。如图4所示,数据后处理模块的输入为包括问答对1、2…N的候选问答对,输出为目标问答对。
候选问答对是符合目标语言的问答对。由于在上述数据收集模块的处理阶段频繁调用大语言模型,所以候选问答对中通常存在多次调用大语言模型生成的错乱数据,需要对这些错乱数据进行处理。
具体的,数据后处理模块用于进行数据筛选,清除多次调用大语言模型所生成的错乱数据,筛选出高质量数据,并将数据格式转化为目标格式(比如json格式),输出目标问答对。
接下来,基于图1~4所示的内容,对本申请实施例提供的一种利用大语言模型生成高质量问答数据的方法进行详细介绍。
图5示出了本申请实施例提供的一种利用大语言模型生成高质量问答数据的方法流程图。如图5所示,该方法包括以下步骤:
步骤S501,将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据,第一提示数据为提问形式或指令形式,第一提示数据针对第一知识点提出问题。
本实施例中,目标领域知识文本是符合计算机编辑要求的有用知识文本,其中包括大量的与本领域或相近领域相关的有用信息。
在一种实施方式中,可以基于图1中的数据前处理模块得到目标领域知识文本。具体的,数据前处理模块接收与目标领域相关的数据集,并将数据集进行识别转换。识别转换后的数据集包括文本数据和干扰数据,文本数据是本领域或相关领域相关的有用信息,干扰数据包括附录、目录、图表、课后习题、公式等。通过过滤干扰数据,并对文本数据进行分章节处理,得到符合计算机编辑要求的目标领域知识文本。
生成模板是一种提示模板,用于提示大语言模型生成文本问答对。可以在生成模板中填入目标领域知识文本,得到第一提示数据。生成模板至少包括指令/提示语句,用于根据该指令/提示语句将目标领域知识文本按照设定方式填入生成模板的指定区域,得到第一提示数据。
具体的,将目标领域知识文本按照预设单元进行划分,得到若干知识片段。对若干知识片段中的每个知识片段,将该知识片段按照生成模板中的指令/提示语句填写到生成模板,得到该知识片段对应的第一提示数据。基于若干知识片段对应的所有第一提示数据,得到若干第一提示数据。第一提示数据可以为提问形式或指令形式,第一提示数据针对第一知识点提出问题,第一知识点是由目标领域确定的任一知识点。需要将这些第一提示数据输入到大语言模型,输出第一提示数据对应的答句。
示例性的,下面给出了一种提示模板的模板格式:
###指令/提问:<指令/提问>
###输入:<输入示例>
###输出:<输出示例>
###输入:<输入>
该提示模板包括指令/提问、示例以及输入三个部分。提示模板可以根据需要灵活构造成不同的模板。对于基于该提示模板构造的生成模板,其指令/提示语句描述了让大语言模型根据目标领域知识文本的若干知识片段生成第一提示数据的指令/提示。输入示例和输出示例语句通常组成一个完整的示例问答对,在生成模型中可以为缺省状态。输入语句是用于将某个知识片段进行填入的区域。为了形成问题,在一个例子中,输入语句可以是将知识片段的某个部分掩去(mask),然后针对该掩去的字段进行提问。在另一个例子中,输入语句可以是将知识片段中某个部分随机替换为其他内容,然后针对替换后的内容的正确性进行提问。
在一个例子中,目标领域是半导体制造领域。通过数据前处理模块,得到的一个知识片段的描述文本为“晶圆测试是主要的芯片良品率统计方法之一”。针对该知识片段,将其填入生成模板,示例性的,可以得到如下提示数据:
请参照“例句”后接续的示例,回答“输入”后接续的问题:
例句:xxxxx;
输入:晶圆测试是用于统计什么的方法?
如此,通过生成模板,生成较为基础的第一提示数据。
步骤S502,将若干第一提示数据输入大语言模型,得到对应的第一问答对。
本实施例中,大型语言模型可以基于编码器、解码器训练得到,可用来解决通用(常见)的语言问题,如文本分类、文档总结和文本生成等。大型语言模型还可以用于回答用户提出的自然语言问题。例如,可以使用大型语言模型来回答搜索引擎中的用户查询,或者回答智能助手中的用户问题。即可以利用大语言模型生成满足用户需求的问答对数据。
示例性的,利用大语言模型确定第一提示数据对应的第一问答对,第一问答对即为原始问答对。
由于大语言模型语言本身存在的种种问题,比如长文本遗忘、生成错乱等。可以理解,第一次调用大语言模型接口生成的第一问答对是较简单的问答对,需要对其精度和准确度进行进一步调整。
步骤S503,将若干第一提示数据分别填入改写模板,得到若干改写提示数据。改写提示数据中包含针对目标知识点提出的问题,该目标知识点与第一知识点具有相关性,第一知识点和目标知识点均根据目标领域确定。
本实施例中,改写模板包括如图3中所示的深度改写模板和广度改写模板。改写模板也是一种根据提示模板构造的模板,可以将若干第一提示数据分别填入改写模板,得到若干改写提示数据。
改写模板中的指令/提示语句描述了根据第一提示数据生成第二提示数据的指令/提示。输入示例和输出示例语句通常组成一个完整的示例问答对,描述了一个经过深度改写的问答对。输入语句是将第一提示数据进行填入的区域。
具体的,对若干第一提示数据中的每个第一提示数据分别填入改写模板,将该第一提示数据按照改写模板中的指令/提示语句和示例问答对填写到改写模板,得到该第一提示数据对应的改写提示数据。基于若干第一提示数据对应的改写提示数据,得到若干改写提示数据。
在一个示例中,将若干第一提示数据分别输入深度改写模板,得到若干第二提示数据。深度改写用于增加第一提示数据表示的指令或提问的复杂度,由此得到的第二提示数据中所提问的目标知识点,相较于第一提示数据中的第一知识点,位于目标领域的知识体系中的更下游,从而对领域知识进行更加深入、更加具体的提问。
例如,对于前述例子中关于晶圆测试的第一提示数据,经过深度改写模板,有可能可以得到的第二提示数据中包括:晶圆测试具体有哪些测试方式?或者,晶圆测试的具体测试步骤是什么?这些提问的知识点,相较于第一提示数据,更加深入,更加具体。
在另一示例中,将若干第一提示数据分别输入广度改写模板,得到若干第三提示数据。广度改写用于提高第一提示数据表示的指令或提问的主题覆盖率和整体数据集的多样性,由此得到的第三提示数据中所提问目标知识点,相较于第一提示数据中的第一知识点,位于目标领域的知识体系中相近子领域的同一层级范围,从而对知识点进行宽度扩展方面的提问。
延续前例。对于前述例子中关于晶圆测试的第一提示数据,经过广度改写模板,有可能可以得到的第三提示数据中包括:半导体领域还有哪些测试?或者,哪些公司可以进行晶圆测试?这些提问的知识点,相较于第一提示数据,在相近领域进行扩展,问题覆盖面更宽更丰富多样。
最后,根据若干第二提示数据或所述若干第三提示数据,得到若干改写提示数据。
步骤S504,将若干改写提示数据输入大语言模型,得到对应的第二问答对。
步骤S505,基于若干第一问答对和若干第二问答对,确定目标问答对。
本实施例中,基于得到包括改写提示数据的基础上,再次调用大语言模型的接口,确定若干改写提示数据中每个改写提示数据对应的第二问答对。相比较而言,第二问答对比第一问答对所提供的问句所表达的语义上更为深入和广泛。
在另一示例中,还可以将还可以将若干第一问答对和第二问答对分别填入翻译模板,得到若干翻译提示及回答对数据。
翻译模板也是一种根据提示模板构造的模板,其中的指令/提示语句描述了让大语言模型根据若干第一问答对和若干第二问答对生成若干翻译提示及回答对数据的指令/提示。输入示例和输出示例语句通常组成一个完整的示例问答对,在翻译模板中可以为缺省状态。输入语句是将第一问答对和第二问答对进行填入的区域。
具体的,对若干第一问答对和第二问答对中的每个问答对,将该问答对按照翻译模板中的指令/提示语句进行填写,得到翻译提示及回答对数据。基于若干第一问答对和第二问答对对应的翻译提示及回答对数据,得到若干翻译提示及回答对数据。
进一步的,第四次调用大语言模型确定若干翻译为目标语言的问答对,得到候选问答对。
示例性的,利用图4所示的数据后处理模块清除频繁调用大语言模型生成的错乱数据,筛选出高质量数据,并将数据格式转换为目标格式,比如json格式,得到目标数据对。
由此,本方案通过将目标领域的知识文本填入预设的生成模板得到第一提示数据,并利用大语言模型生成比较简单的第一问答对。再将第一提示数据填入改写模板得到改写提示数据,再次利用大语言模型生成更准确的第二问答对。并基于第一问答对和第二问答对确定目标问答对,从而可以提高生成目标问答对的质量。
应当注意,尽管在上述实施例中,以特定顺序描述了本发明实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
基于上述实施例中的方法,示例性的,图6示出了本申请实施例提供一种利用大语言模型生成高质量问答数据的装置。如图6所示,利用大语言模型生成高质量问答数据的装置600包括:
生成模块610,用于将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;第一提示数据为提问形式或指令形式,第一提示数据针对第一知识点提出问题。
第一处理模块620,用于将若干第一提示数据输入大语言模型,得到对应的第一问答对。
改写模块630,用于将若干第一提示数据分别填入改写模板,得到若干改写提示数据;改写提示数据中包含针对目标知识点提出的问题,该目标知识点与第一知识点具有相关性,第一知识点和目标知识点均根据目标领域确定。
第二处理模块640,用于将若干改写提示数据输入大语言模型,得到对应的第二问答对。
输出模块650,用于基于若干第一问答对和若干第二问答对,确定目标问答对。
基于上述实施例中的方法,本申请实施例提供了一种电子设备。该电子设备可以包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行所述存储器存储的程序。其中,当所述存储器存储的程序被执行时,所述处理器用于执行上述实施例中所描述的方法。示例性的,该电子设备可以为是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、服务器、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(personal digital assistant,PDA)、增强现实(augmented reality,AR)设备、虚拟现实(virtual reality,VR)设备、人工智能(artificial intelligence,AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对该电子设备的具体类型不作特殊限制。在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
可以理解的是,在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本申请的实施例的范围。应理解,在本申请实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,不应对本申请实施例的实施过程构成任何限定。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。

Claims (10)

1.一种利用大语言模型生成高质量问答数据的方法,其特征在于,所述方法包括:
将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;所述第一提示数据为提问形式或指令形式;所述第一提示数据针对第一知识点提出问题;
将所述若干第一提示数据输入大语言模型,得到对应的第一问答对;
将所述若干第一提示数据分别填入改写模板,得到若干改写提示数据;所述改写提示数据中包含针对目标知识点提出的问题,该目标知识点与所述第一知识点具有相关性,所述第一知识点和所述目标知识点均根据所述目标领域确定;
将所述若干改写提示数据输入所述大语言模型,得到对应的第二问答对;
基于所述若干第一问答对和若干所述第二问答对,确定目标问答对。
2.根据权利要求1所述的方法,其特征在于,所述生成模板至少包括指令/提示语句;
所述将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据,包括:
将所述目标领域知识文本按照预设单元进行划分,得到若干知识片段;
对所述若干知识片段中的每个知识片段,将该知识片段按照所述生成模板中的指令/提示语句填写到所述生成模板,得到该知识片段对应的第一提示数据;
基于所述若干知识片段对应的第一提示数据,得到所述若干第一提示数据。
3.根据权利要求1所述的方法,其特征在于,所述将目标领域的知识文本填入预设的生成模板之前,还包括:
接收与所述目标领域相关的数据集,并将所述数据集进行识别转换;
从识别转换后的数据集中过滤干扰数据,并对过滤后得到的文本数据进行分章节处理,得到所述目标领域的知识文本。
4.根据权利要求1所述的方法,其特征在于,所述改写模板至少包括指令/提示语句和示例问答对;
所述将所述若干第一提示数据分别填入改写模板,得到若干改写提示数据,包括:
对所述若干第一提示数据中的每个第一提示数据,将该第一提示数据按照所述改写模板中的指令/提示语句和示例问答对填写到所述改写模板,得到该第一提示数据对应的改写提示数据;
基于所述若干第一提示数据对应的改写提示数据,得到所述若干改写提示数据。
5.根据权利要求1所述的方法,其特征在于,所述改写模板包括深度改写模板和广度改写模板;
所述将所述若干第一提示数据分别填入改写模板,得到若干改写提示数据,包括:
将所述若干第一提示数据分别输入所述深度改写模板,得到若干第二提示数据,所述第二提示数据中的目标知识点在所述目标领域的知识体系中处于所述第一知识点的更下游;
将所述若干第一提示数据分别输入所述广度改写模板,得到若干第三提示数据,所述第三提示数据中的目标知识点与所述第一知识点在所述目标领域的知识体系中位于相近子领域的同一层级范围;
根据所述若干第二提示数据和所述若干第三提示数据,得到所述若干改写提示数据。
6.根据权利要求1所述的方法,其特征在于,所述基于所述若干第一问答对和若干所述第二问答对,确定目标问答对,包括:
基于所述若干第一问答对和若干所述第二问答对确定候选问答对;
将所述候选问答对进行筛选,并将筛选得到的问答对转换为目标格式,得到所述目标问答对。
7.根据权利要求6所述的方法,其特征在于,所述基于所述若干第一问答对和若干所述第二问答对确定候选问答对,包括:
将所述若干第一问答对和若干所述第二问答对分别填入翻译模板,得到若干翻译提示及回答对数据;
将所述若干翻译提示及回答对数据分别输入所述大语言模型,得到对应的翻译为目标语言的问答对;
基于所述若干翻译为目标语言的问答对,确定候选问答对。
8.根据权利要求7所述的方法,其特征在于,所述翻译模板至少包括指令/提示语句;
所述将所述若干第一问答对和若干所述第二问答对分别填入翻译模板,得到若干翻译提示及回答对数据,包括:
对所述若干第一问答对和若干所述第二问答对中的每个问答对,将该问答对按照所述翻译模板中的指令/提示语句填写到所述翻译模板,得到该问答对对应的翻译提示及回答对数据;
基于所述若干第一问答对和若干所述第二问答对对应的翻译提示及回答对数据,得到所述若干翻译提示及回答对数据。
9.一种利用大语言模型生成高质量问答数据的装置,其特征在于,所述装置包括:
生成模块,用于将目标领域的知识文本填入预设的生成模板,得到若干第一提示数据;所述第一提示数据为提问形式或指令形式;所述第一提示数据针对第一知识点提出问题;
第一处理模块,用于将所述若干第一提示数据输入大语言模型,得到对应的第一问答对;
改写模块,用于将所述若干第一提示数据分别填入改写模板,得到若干改写提示数据;所述改写提示数据中包含针对目标知识点提出的问题,该目标知识点与所述第一知识点具有相关性,所述第一知识点和所述目标知识点均根据所述目标领域确定;
第二处理模块,用于将所述若干改写提示数据输入所述大语言模型,得到对应的第二问答对;
输出模块,用于基于所述若干第一问答对和若干所述第二问答对,确定目标问答对。
10.一种电子设备,其特征在于,包括:至少一个存储器,用于存储程序;至少一个处理器,用于执行所述存储器存储的程序;其中,当所述存储器存储的程序被执行时,所述处理器用于执行如权利要求1-8任一所述的方法。
CN202311240983.1A 2023-09-22 2023-09-22 一种利用大语言模型生成高质量问答数据的方法及装置 Pending CN117217315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311240983.1A CN117217315A (zh) 2023-09-22 2023-09-22 一种利用大语言模型生成高质量问答数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311240983.1A CN117217315A (zh) 2023-09-22 2023-09-22 一种利用大语言模型生成高质量问答数据的方法及装置

Publications (1)

Publication Number Publication Date
CN117217315A true CN117217315A (zh) 2023-12-12

Family

ID=89044092

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311240983.1A Pending CN117217315A (zh) 2023-09-22 2023-09-22 一种利用大语言模型生成高质量问答数据的方法及装置

Country Status (1)

Country Link
CN (1) CN117217315A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875433A (zh) * 2024-03-12 2024-04-12 科沃斯家用机器人有限公司 问答方法、装置、设备及可读存储介质
CN117951303A (zh) * 2024-03-25 2024-04-30 中国民用航空飞行学院 基于生成式大模型的文本信息关联性分析方法及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549710A (zh) * 2018-04-20 2018-09-18 腾讯科技(深圳)有限公司 智能问答方法、装置、存储介质及设备
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN116561276A (zh) * 2023-05-05 2023-08-08 科大讯飞股份有限公司 知识问答方法、装置、设备及存储介质
CN116595131A (zh) * 2023-03-23 2023-08-15 中国科学院自动化研究所 使用大型语言模型进行医疗问答的方法及系统
CN116662496A (zh) * 2023-04-28 2023-08-29 阿里巴巴(中国)有限公司 信息抽取方法、训练问答处理模型的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549710A (zh) * 2018-04-20 2018-09-18 腾讯科技(深圳)有限公司 智能问答方法、装置、存储介质及设备
CN110110054A (zh) * 2019-03-22 2019-08-09 北京中科汇联科技股份有限公司 一种基于深度学习的从非结构化文本中获取问答对的方法
CN116595131A (zh) * 2023-03-23 2023-08-15 中国科学院自动化研究所 使用大型语言模型进行医疗问答的方法及系统
CN116662496A (zh) * 2023-04-28 2023-08-29 阿里巴巴(中国)有限公司 信息抽取方法、训练问答处理模型的方法及装置
CN116561276A (zh) * 2023-05-05 2023-08-08 科大讯飞股份有限公司 知识问答方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875433A (zh) * 2024-03-12 2024-04-12 科沃斯家用机器人有限公司 问答方法、装置、设备及可读存储介质
CN117875433B (zh) * 2024-03-12 2024-06-07 科沃斯家用机器人有限公司 问答方法、装置、设备及可读存储介质
CN117951303A (zh) * 2024-03-25 2024-04-30 中国民用航空飞行学院 基于生成式大模型的文本信息关联性分析方法及设备
CN117951303B (zh) * 2024-03-25 2024-06-11 中国民用航空飞行学院 基于生成式大模型的文本信息关联性分析方法及设备

Similar Documents

Publication Publication Date Title
US11386271B2 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
CN117217315A (zh) 一种利用大语言模型生成高质量问答数据的方法及装置
CN109325040B (zh) 一种faq问答库泛化方法、装置及设备
CN111708869B (zh) 人机对话的处理方法及装置
CN104573099A (zh) 题目的搜索方法及装置
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN111159220A (zh) 用于输出结构化查询语句的方法和装置
CN103744889A (zh) 一种用于对问题进行聚类处理的方法与装置
CN107748744A (zh) 一种勾勒框知识库的建立方法及装置
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110019305B (zh) 知识库扩展方法及存储介质、终端
CN112115971A (zh) 一种基于异质学术网络进行学者画像的方法及系统
CN116881470A (zh) 一种生成问答对的方法及装置
CN116151220A (zh) 分词模型训练方法、分词处理方法和装置
CN116821377A (zh) 基于知识图谱和大模型的小学语文自动评测系统
CN115309634A (zh) 一种微服务提取方法、系统、介质、设备及信息处理终端
CN113627159A (zh) 纠错模型的训练数据确定方法、装置、介质及产品
JP6868576B2 (ja) 事象提示システムおよび事象提示装置
JP6717387B2 (ja) 文章評価装置、文章評価方法および記録媒体
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN115186738B (zh) 模型训练方法、装置和存储介质
CN115934904A (zh) 文本处理方法以及装置
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
CN111930911B (zh) 一种快速领域问答方法及其装置
KR20190082453A (ko) 기계학습 모델링을 위한 신규 학습 콘텐츠 분석 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination