CN116861928A

CN116861928A - 指令微调数据的生成方法、装置、设备及介质

Info

Publication number: CN116861928A
Application number: CN202310827694.5A
Authority: CN
Inventors: 罗华刚; 张�杰; 于皓; 李犇; 贾敬伍
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2023-07-07
Filing date: 2023-07-07
Publication date: 2023-10-10
Anticipated expiration: 2043-07-07
Also published as: CN116861928B

Abstract

本发明提供了一种指令微调数据的生成方法、装置、设备及介质，涉及自然语言处理技术领域。该方法包括：获取第一知识库和第一预设数量的种子任务；生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；根据所述提示信息和预设大语言模型，得到第一指令微调数据；对所述第一指令微调数据进行处理，得到第二指令微调数据。本发明通过引入知识库数据，提高了生成指令微调数据的质量，降低了噪音数据生成的概率。

Description

指令微调数据的生成方法、装置、设备及介质

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种指令微调数据的生成方法、装置、设备及介质。

背景技术

指令微调（Instruction Fine-Tuning，IFT）是新近语言大模型的代表能力，它可以帮助人类用自然语言对大模型下达命令，进行沟通交流。这使得人与机器之间能够更加便捷的交互。为了进行指令微调，必然离不开数据集的搜集或构建，如何获取大量高质量的指令微调数据是亟待解决的问题。

发明内容

本发明的目的在于提供一种指令微调数据的生成方法、装置、设备及介质，用以解决现有技术中生成的指令微调数据正确率低，质量无法保证的问题。

为了达到上述目的，本发明提供一种指令微调数据的生成方法，包括：

获取第一知识库和第一预设数量的种子任务；

生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；

根据所述提示信息和预设大语言模型，得到第一指令微调数据；

对所述第一指令微调数据进行处理，得到第二指令微调数据。

其中，所述种子任务包括预设背景知识、第一预设指令、与所述预设背景知识相关的输入和针对所述第一预设指令的输出。

其中，所述根据所述提示信息和预设大语言模型，得到第一指令微调数据，包括：

调用预设大语言模型，并将所述提示信息输入至所述预设大语言模型，获得输出结果，其中，所述提示信息用于指示所述预设大语言模型按照所述预设的指令生成要求，基于所述第一预设数量的种子任务，生成针对所述第一知识库的指令微调数据；

以所述种子任务为样例解析所述输出结果，得到第一指令微调数据。

其中，所述对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据；其中，所述目标过滤方式包括下述中的至少一者：

基于相似度的过滤方式；

基于有害信息的过滤方式；

基于概率的过滤方式。

其中，所述目标过滤方式为基于相似度的过滤方式；

所述采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

分别计算所述第一指令微调数据中各指令微调数据与任务池中的指令微调数据的相似度；

将所述第一指令微调数据中相似度大于第一预设阈值的指令微调数据，作为第二指令微调数据。

其中，所述目标过滤方式为基于有害信息的过滤方式；

对比预设有害信息，过滤所述第一指令微调数据中含有有害信息的指令微调数据，将经过滤后剩余的指令微调数据作为第二指令微调数据；或者，

将所述第一指令微调数据输入至第一分类模型，得到表示指令微调数据是否具有有害信息的分类结果；从所述分类结果中过滤表示具有有害信息的指令微调数据，将经过滤后剩余的指令微调数据作为第二指令微调数据。

其中，所述目标过滤方式为基于概率的过滤方式；

将所述第一知识库和所述第一指令微调数据作为输入，输入至第二分类模型，得到表示所述第一指令微调数据中的输出是否准确的分类结果；

基于所述分类结果，计算输出准确率；

过滤所述第一指令微调数据中的输出对应的输出准确率小于第二预设阈值的指令微调数据，得到第二指令微调数据。

其中，获取第一知识库，包括：

通过爬取或者下载方式，获得第一知识数据，所述第一知识数据包括结构化的知识数据和/或非结构化的知识数据；

按照预设格式对所述第一知识数据进行划分，形成第一知识库。

其中，获取第一预设数量的种子任务，包括：

获取预先构建的种子任务集；

从所述种子任务集中选取第一预设数量的种子任务。

本发明还提供一种指令微调数据的生成装置，包括：

获取模块，用于获取第一知识库和第一预设数量的种子任务；

第一处理模块，用于生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；

第二处理模块，用于根据所述提示信息和预设大语言模型，得到第一指令微调数据；

第三处理模块，用于对所述第一指令微调数据进行处理，得到第二指令微调数据。

本发明还提供一种指令微调数据的生成设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，所述处理器用于执行以下操作：

获取第一知识库和第一预设数量的种子任务；

本发明还提供一种指令微调数据的生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；所述处理器执行所述程序时实现如上述所述的指令微调数据的生成方法。

本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的指令微调数据的生成方法中的步骤。

本发明的上述技术方案至少具有如下有益效果：

本发明实施例中，通过获取第一知识库和第一预设数量的种子任务；生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；根据所述提示信息和预设大语言模型，得到第一指令微调数据；对所述第一指令微调数据进行处理，得到第二指令微调数据，这样，通过引入知识库数据，提高了生成指令微调数据的质量，降低了噪音数据生成的概率。

附图说明

图1表示本发明实施例的指令微调数据的生成方法的流程示意图；

图2表示本发明实施例的指令微调数据的生成方法的设计方案框架示意图；

图3表示本发明实施例的指令微调数据的生成装置的模块示意图；

图4表示本发明实施例的指令微调数据的生成设备的硬件示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有技术中生成的指令微调数据正确率低，质量无法保证的问题，提供一种指令微调数据的生成方法、装置、设备及介质。其中，方法和装置是基于同一申请构思的，由于方法和装置解决问题的原理相似，因此装置和方法的实施可以相互参见，重复之处不再赘述。

如图1所示，为本发明实施例提供的指令微调数据的生成方法的流程示意图。所述方法可包括：

步骤101，获取第一知识库和第一预设数量的种子任务；

可选地，获取第一知识库，可以具体包括：

（1）通过爬取或者下载方式，获得第一知识数据，所述第一知识数据包括结构化的知识数据和/或非结构化的知识数据；

其中，第一知识数据例如wikipedia文档、common crawl普通爬行数据、已有的知识图谱等等。

（2）按照预设格式对所述第一知识数据进行划分，形成第一知识库。

这里，预设格式包括文档、表格等格式。

需要说明的是，上述阐述的第一知识库最开始的形成过程，之后进行存储，通过赋予标识，与后续形成的其他知识库进行区分。之后获取第一知识库可直接通过查找标识获取。

可选地，获取第一预设数量的种子任务，包括：

1）获取预先构建的种子任务集；

2）从所述种子任务集中选取第一预设数量的种子任务。

需要说明的是，预先构建的种子任务集是通过人工构建后存储的。

可选地，所述种子任务包括预设背景知识、第一预设指令、与所述预设背景知识相关的输入和针对所述第一预设指令的输出。

预先构建的种子集，形式如下例：

<种子任务1>

文章：

吉尼斯世界纪录（Guinness World Records）起源于英国，被公认为全球纪录认证的机构。

1954年，诺里斯·麦克沃特和罗斯·麦克沃特担任主编的首部《吉尼斯世界纪录大全》出版。1955年，吉尼斯世界纪录大全出版公司成立，此后演变发展至21世纪初的吉尼斯世界纪录有限公司。2001年，该公司被吉伦娱乐整体收购，随后又随着吉伦娱乐“改嫁”到HiT；2006年，其又被转手给安佰深集团，后经安佰深出售，最终投入拥有李普利娱乐公司的吉姆·帕蒂森集团。

《吉尼斯世界纪录大全》已在100多个国家以40多种语言累计售出超过1.41亿册。其中，《游戏玩家版》自2007年出版，已累计销售400万册。全球每年有超过7.5亿大众观看吉尼斯世界纪录的视频节目。

发展历程

吉尼斯世界纪录又称金氏世界纪录或健力士世界纪录，它的产生与啤酒有关。1759年，一位叫吉尼斯的爱尔兰人在都柏林开办了一家啤酒作坊，生产的啤酒名为吉尼斯啤酒。经过200多年的努力，吉尼斯啤酒行销世界100多国家和地区，吉尼斯由此出名。

据说，当时人们在吉尼斯公司饮酒时，常常一边喝酒，一边争论世界上什么最大、最小、最重、最轻等问题。公司老板为了招徕顾客，印了一些小册子来回答这些问题。日积月累就为后来的吉尼斯世界纪录收拢了很多珍贵的素材。

1951年，在一次狩猎聚会上，当时英国吉尼斯啤酒公司的执行董事休·比佛爵士与别人发生了争论：欧洲飞得最快的鸟是哪种——松鸡还是金鸻。休·比弗（Hugh Beaver）爵士意识到，如果有一本书能为这类争论提供答案的话，它一定会大受欢迎。他是对的。

当时在伦敦经营一家资料收集站的孪生兄弟诺里斯·麦克沃特和罗斯·麦克沃特受休·比弗爵士之托，为《吉尼斯世界纪录大全》收集资料，记录事实，休·比弗爵士的想法变成了现实。

1954年，《吉尼斯世界纪录大全》出版公司在英国伦敦成立，归属于吉姆森旗下。

1955年8月7日出版了《吉尼斯世界纪录大全》。它一问世，便引起读者兴趣，成为畅销书，并立即荣获当年的圣诞节销售量桂冠。此前从没有哪家别的公司能收集、认证并提供如此丰富的有关世界纪录的资讯。从那时起，《吉尼斯世界纪录大全》就成为家喻户晓的名字。

吉尼斯纪录认证部同样名副其实的继续他们的光辉事业，尽最大的努力保证每一个吉尼斯世界纪录都是准确和合适的，以及审核人员在工作的时候都不带偏见、公正诚实。一个事实只有经过无可怀疑的证明、审核和评价，才能成为吉尼斯世界纪录。

2001年，吉尼斯世界纪录被吉伦娱乐（Gullane Entertainment ）整体收购。

2002年，吉尼斯世界纪录又随吉伦娱乐“改嫁”HiT。

2006年，HiT将它转手给安佰深集团，两年后又被安佰深集团出售给拥有李普利娱乐公司的吉姆·帕蒂森集团。曾几何时，和“琴酒”沾亲带故的吉尼斯是地道的“英国制造”，如今经过几次倒手，尽管公司总部仍然象征性的留在英国伦敦，但经营中心却在美国佛罗里达州奥兰多市李普利的总部。吉尼斯世界纪录有限公司和创始股东吉尼斯啤酒厂没有任何关系，只是吉尼斯（GUINNESS）名字一样。

《吉尼斯世界纪录大全》每年都会修订充实约1/5的内容，出一个新版本，截至2019年已有包括原文在内37种语言。《吉尼斯世界纪录大全》总计达288页，收录了近200万条世界纪录，在全球100多个国家累计销量已逾1亿册，是世界上最畅销的版权图书之一。

2021年11月，伊朗门将手抛球61.26米创吉尼斯世界纪录。

2022年1月26日，澳大利亚悉尼一名11岁男孩在一分钟内击鼓2370次，创下了新的吉尼斯世界纪录。

2022年3月17日，据印度新德里电视台报道，印度金奈一名少年骑着自行车花14.32秒还原魔方，创造了吉尼斯世界纪录。

2022年3月23日，土耳其伊斯坦布尔，Nef体育场拥有10404块太阳能电池板，每年将节省450万千瓦的电力，已被载入吉尼斯世界纪录。

2022年4月，美国明尼苏达州一个家庭中的五名成员平均身高达到203.29厘米，被吉尼斯世界纪录认证为“世界最高家庭”。据悉，一家人的身高加起来相当于半个网球场的长度。

书籍作者

罗斯·麦克沃特和诺里斯·麦克沃特孪生兄弟两人可以说也创造了吉尼斯世界纪录。他俩出生于1925年，都在牛津大学的三一学院学习，获经济法硕士学位。

诺里斯游历了数十个国家，见过数以百计的世界纪录创造者。他有50位编辑人员，每天要处理4000多封来信，从中筛选有价值的世界纪录，并证明属实后，才能列入《吉尼斯世界纪录大全》。

——————

指令：简单介绍下吉尼斯纪录的发展史。

输入：

输出：吉尼斯世界纪录又称金氏世界纪录或健力士世界纪录，它的产生与啤酒有关。1759年，一位叫吉尼斯的爱尔兰人在都柏林开办了一家啤酒作坊，生产的啤酒名为吉尼斯啤酒。经过200多年的努力，吉尼斯啤酒行销世界100多国家和地区，吉尼斯由此出名。据说，当时人们在吉尼斯公司饮酒时，常常一边喝酒，一边争论世界上什么最大、最小、最重、最轻等问题。公司老板为了招徕顾客，印了一些小册子来回答这些问题。日积月累就为后来的吉尼斯世界纪录收拢了很多珍贵的素材。

——————

指令：按照要求列举一些事实。

输入：请列举几条曾经获得过吉尼斯纪录的事件。

输出：事件一、2021年11月，伊朗门将手抛球61.26米创吉尼斯世界纪录。事件二、2022年1月26日，澳大利亚悉尼一名11岁男孩在一分钟内击鼓2370次，创下了新的吉尼斯世界纪录。

——————

指令：请回答下面的问题。

输入：《吉尼斯世界纪录大全》销售量超1亿册？

输出：对。

上述示例中，种子任务中预设背景知识具体指的是文章，第一预设指令具体指的是上述三个指令，输入具体指的是与文章相关的输入，比如《吉尼斯世界纪录大全》销售量超1亿册？输出是针对第一预设指令的输出，可以理解是指令对应的答案。

知识库的示例如下：

<知识库1>

<知识库2>

量子力学（Quantum Mechanics），为物理学理论，是研究物质世界微观粒子运动规律的物理学分支，主要研究原子、分子、凝聚态物质，以及原子核和基本粒子的结构、性质的基础理论。它与相对论一起构成现代物理学的理论基础。量子力学不仅是现代物理学的基础理论之一，而且在化学等学科和许多近代技术中得到广泛应用。

19世纪末，人们发现旧有的经典理论无法解释微观系统，于是经由物理学家的努力，在20世纪初创立量子力学，解释了这些现象。量子力学从根本上改变人类对物质结构及其相互作用的理解。除了广义相对论描写的引力以外，迄今所有基本相互作用均可以在量子力学的框架内描述（量子场论）。

学科简史

量子力学是描述微观物质的理论，与相对论一起被认为是现代物理学的两大基本支柱，许多物理学理论和科学如原子物理学、固体物理学、核物理学和粒子物理学以及其它相关的学科都是以量子力学为基础所进行的。

量子力学是描写原子和亚原子尺度的物理学理论。该理论形成于20世纪初期，彻底改变了人们对物质组成成分的认识。微观世界里，粒子不是台球，而是嗡嗡跳跃的概率云，它们不只存在一个位置，也不会从点A通过一条单一路径到达点B。根据量子理论，粒子的行为常常像波，用于描述粒子行为的“波函数”预测一个粒子可能的特性，诸如它的位置和速度，而非确定的特性。物理学中有些怪异的概念，诸如纠缠和不确定性原理，就源于量子力学。

19世纪末，经典力学和经典电动力学在描述微观系统时的不足越来越明显。量子力学是在20世纪初由马克斯·普朗克、尼尔斯·玻尔、沃纳·海森堡、埃尔温·薛定谔、沃尔夫冈·泡利、路易·德布罗意、马克斯·玻恩、恩里科·费米、保罗·狄拉克、阿尔伯特·爱因斯坦、康普顿等一大批物理学家共同创立的。

量子力学的发展革命性地改变了人们对物质的结构以及其相互作用的认识。量子力学得以解释许多现象和预言新的、无法直接想象出来的现象，这些现象后来也被非常精确的实验证明。除通过广义相对论描写的引力外，至今所有其它物理基本相互作用均可以在量子力学的框架内描写（量子场论）。

量子力学并没有支持自由意志，只是于微观世界物质具有概率波等存在不确定性，不过其依然具有稳定的客观规律，不以人的意志为转移，否认宿命论。第一，这种微观尺度上的随机性和通常意义下的宏观尺度之间仍然有着难以逾越的距离；第二，这种随机性是否不可约简难以证明，事物是由各自独立演化所组合的多样性整体，偶然性与必然性存在辩证关系。自然界是否真有随机性还是一个悬而未决的问题，对这个鸿沟起决定作用的就是普朗克常数，统计学中的许多随机事件的例子，严格说来实为决定性的。

在量子力学中，一个物理体系的状态由波函数表示，波函数的任意线性叠加仍然代表体系的一种可能状态。对应于代表该量的算符对其波函数的作用；波函数的模平方代表作为其变量的物理量出现的概率密度。

量子力学是在旧量子论的基础上发展起来的。旧量子论包括普朗克的量子假说、爱因斯坦的光量子理论和玻尔的原子理论。

1900年，普朗克提出辐射量子假说，假定电磁场和物质交换能量是以间断的形式（能量子）实现的，能量子的大小同辐射频率成正比，比例常数称为普朗克常数，从而得出普朗克公式，正确地给出了黑体辐射能量分布。

1905年，爱因斯坦引进光量子（光子）的概念，并给出了光子的能量、动量与辐射的频率和波长的关系，成功地解释了光电效应。其后，他又提出固体的振动能量也是量子化的，从而解释了低温下固体比热问题。

1913年，玻尔在卢瑟福原有核原子模型的基础上建立起原子的量子理论。按照这个理论，原子中的电子只能在分立的轨道上运动，在轨道上运动时候电子既不吸收能量，也不放出能量。原子具有确定的能量，它所处的这种状态叫“定态”，而且原子只有从一个定态到另一个定态，才能吸收或辐射能量。这个理论虽然有许多成功之处，对于进一步解释实验现象还有许多困难。

在人们认识到光具有波动和微粒的二象性之后，为了解释一些经典理论无法解释的现象，法国物理学家德布罗意于1923年提出了物质波这一概念。认为一切微观粒子均伴随着一个波，这就是所谓的德布罗意波。

由于微观粒子具有波粒二象性，微观粒子所遵循的运动规律就不同于宏观物体的运动规律，描述微观粒子运动规律的量子力学也就不同于描述宏观物体运动规律的经典力学。当粒子的大小由微观过渡到宏观时，它所遵循的规律也由量子力学过渡到经典力学。

1925年，海森堡基于物理理论只处理可观察量的认识，抛弃了不可观察的轨道概念，并从可观察的辐射频率及其强度出发，和玻恩、约尔当一起建立起矩阵力学；1926年，薛定谔基于量子性是微观体系波动性的反映这一认识，找到了微观体系的运动方程，从而建立起波动力学，其后不久还证明了波动力学和矩阵力学的数学等价性；狄拉克和约尔丹各自独立地发展了一种普遍的变换理论，给出量子力学简洁、完善的数学表达形式。

当微观粒子处于某一状态时，它的力学量（如坐标、动量、角动量、能量等）一般都不具有确定的数值，而具有一系列可能值，每个可能值以一定的概率出现。当粒子所处的状态确定时，力学量具有某一可能值的概率也就完全确定。这就是1927年，海森伯得出的测不准关系，同时玻尔提出了并协原理，对量子力学给出了进一步的阐释。

量子力学和狭义相对论的结合产生了相对论量子力学。经狄拉克、海森伯（又称海森堡，下同）和泡利等人的工作发展了量子电动力学。20世纪30年代以后形成了描述各种粒子场的量子化理论——量子场论，它构成了描述基本粒子现象的理论基础。

步骤102，生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；

基于上述示例（为了避免冗余后续用<知识库idx>（idx=1,2,3,…）代替知识库内容），可生成提示信息，例如：

你被要求提供3个多样化的任务指令，需要满足以下的要求：

1. 请参考给定的文章中的信息生成指令及输出；

2.指令需要尽可能多样化，避免使用重复的词汇；

3.指令的任务类型是多样的，包括分类、生成等；

4.指令应尽可能像正常交流的语言靠拢，不能太多生硬；

5.指令需要是语言模型可以完成的，请避免类似输出图片、视频的操作；

6.指令用中文书写。

7.输出应该是针对输入的回答，请根据提供的文章，尽可能保证输出的正确性。

下面是一份示例：

<种子任务1>

文章：

<知识库2>

以下是3个任务指令：

上述是生成的提示信息，示例中，提示信息包括种子任务1，知识库2以及“你被要求提供3个多样化的任务指令，需要满足以下的要求……”这部分指令生成要求.

步骤103，根据所述提示信息和预设大语言模型，得到第一指令微调数据；

这里，通过调用预设大预言模型（如LLM），将提示信息输入至预设大语言模型，得到第一指令微调数据。具体的实现过程可参见下述实施例。

需要说明的是，第一指令微调数据是针对第一知识库的。

步骤104，对所述第一指令微调数据进行处理，得到第二指令微调数据。

具体的，对第一指令微调数据进行过滤处理，过滤掉其中不符合条件的指令微调数据，获得第二指令微调数据。具体实现过程可参见下述实施例。

作为一可选地实现方式，上述步骤103，根据所述提示信息和预设大语言模型，得到第一指令微调数据，可以包括：

步骤1031，调用预设大语言模型，并将所述提示信息输入至所述预设大语言模型，获得输出结果，其中，所述提示信息用于指示所述预设大语言模型按照所述预设的指令生成要求，基于所述第一预设数量的种子任务，生成针对所述第一知识库的指令微调数据；

步骤1032，以所述种子任务为样例解析所述输出结果，得到第一指令微调数据。

继续以上述示例中的提示信息为例，将提示信息输入至LLM，获得输出结果。假设输出结果如下：

——————

指令：请回答下面的问题。

输入：量子力学是谁创立的？

输出：量子力学是在20世纪初由马克斯·普朗克、尼尔斯·玻尔、沃纳·海森堡、埃尔温·薛定谔、沃尔夫冈·泡利、路易·德布罗意、马克斯·玻恩、恩里科·费米、保罗·狄拉克、阿尔伯特·爱因斯坦、康普顿等一大批物理学家共同创立的。

——————

指令：请为下面的观点提供论据支持。

输入：量子力学并没有支持自由意志，否认宿命论。

输出：第一，这种微观尺度上的随机性和通常意义下的宏观尺度之间仍然有着难以逾越的距离；第二，这种随机性是否不可约简难以证明，事物是由各自独立演化所组合的多样性整体，偶然性与必然性存在辩证关系。

——————

指令：请修改下述内容中的错误。

输入：1900年，普朗克引进光量子（光子）的概念，并给出了光子的能量、动量与辐射的频率和波长的关系，成功地解释了光电效应。

输出：没有错误。

——————

在一可选地实施例中，上述步骤104，对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

1041，采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据；其中，所述目标过滤方式包括下述中的至少一者：

基于相似度的过滤方式；

基于有害信息的过滤方式；

基于概率的过滤方式。

需要说明的是，在目标过滤方式包括上述两者或者三者的情况下，根据任意一种目标过滤方式确定需要过滤掉的指令微调数据，均过滤掉。

在一可选地实施例中，所述目标过滤方式为基于相似度的过滤方式；上述步骤1041，采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

a1，分别计算所述第一指令微调数据中各指令微调数据与任务池中的指令微调数据的相似度；

需要说明的是，起初任务池中存储有种子任务集中的指令微调数据（即指令、输入和输出），之后将本发明筛选出的指令微调数据不断的增加至任务池中。即之后的任务池是不断更新的任务池。

这里，可通过BM25算法计算相似度。

a2，将所述第一指令微调数据中相似度大于第一预设阈值的指令微调数据，作为第二指令微调数据。

这里，第一指令微调数据中相似度大于第一预设阈值的指令微调数据，说明该指令微调数据类似于任务池内存储的指令微调数据，因此筛选掉，可增强数据的多样性。

在另一可选地实施例中，所述目标过滤方式为基于有害信息的过滤方式；上述步骤1041，采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

b1，对比预设有害信息，过滤所述第一指令微调数据中含有有害信息的指令微调数据，将经过滤后剩余的指令微调数据作为第二指令微调数据；

需要说明的是，预设有害信息是针对第一知识库预先设置的，具体的，可以第一知识库对应的知识领域的一些敏感词。

或者，b2，将所述第一指令微调数据输入至第一分类模型，得到表示指令微调数据是否具有有害信息的分类结果；从所述分类结果中过滤表示具有有害信息的指令微调数据，将经过滤后剩余的指令微调数据作为第二指令微调数据。

通过本实施例的过滤处理，可以避免有害的指令微调数据的生成。

在又一可选地实施例中，所述目标过滤方式为基于概率的过滤方式；上述步骤1041，采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

c1，将所述第一知识库和所述第一指令微调数据作为输入，输入至第二分类模型，得到表示所述第一指令微调数据中的输出是否准确的分类结果；

需要说明的是，第一指令微调数据是基于第一知识库生成的，是依存于第一知识库内的知识数据的，第一指令微调数据中的输出对应的正确内容是在第一知识库内的，因此可以，将第一知识库和第一指令微调数据作为输入，输入至第二分类模型中，得到分类结果。

c2，基于所述分类结果，计算输出准确率；

c3，过滤所述第一指令微调数据中的输出对应的输出准确率小于第二预设阈值的指令微调数据，得到第二指令微调数据。

需要说明的是，第一指令微调数据中的输出对应的输出准确率小于第二预设阈值，确定第一指令微调数据中的输出是错误的，然后过滤掉即可，也就是说保留正确概率较大的指令微调数据。

本发明实施例的方法的设计方案框图可参见图2，本发明使用自动化的手段来生成大量的指令微调数据，减少了人力消耗，并且通过引入知识库数据，提高了生成指令数据的质量，降低了噪音数据生成的概率。另外通过上述过滤方式，增强了数据的多样性，避免了有害数据的生成。

如图3所示，本发明提供一种指令微调数据的生成装置，该装置可包括：

获取模块301，用于获取第一知识库和第一预设数量的种子任务；

第一处理模块302，用于生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；

第二处理模块303，用于根据所述提示信息和预设大语言模型，得到第一指令微调数据；

第三处理模块304，用于对所述第一指令微调数据进行处理，得到第二指令微调数据。

可选地，第二处理模块303可包括：

第一处理单元，用于调用预设大语言模型，并将所述提示信息输入至所述预设大语言模型，获得输出结果，其中，所述提示信息用于指示所述预设大语言模型按照所述预设的指令生成要求，基于所述第一预设数量的种子任务，生成针对所述第一知识库的指令微调数据；

第二处理单元，用于以所述种子任务为样例解析所述输出结果，得到第一指令微调数据。

可选地，第三处理模块304可以包括：

第三处理单元，用于采用目标过滤方式，对所述第一指令微调数据进行处理，得到第二指令微调数据；其中，所述目标过滤方式包括下述中的至少一者：

基于相似度的过滤方式；

基于有害信息的过滤方式；

基于概率的过滤方式。

可选地，所述目标过滤方式为基于相似度的过滤方式；相应的，第三处理单元具体用于：

可选地，所述目标过滤方式为基于有害信息的过滤方式；相应的，第三处理单元具体用于：

可选地，所述目标过滤方式为基于概率的过滤方式；相应的，第三处理单元具体用于：

基于所述分类结果，计算输出准确率；

可选地，获取模块301可包括：

第一获取单元，用于通过爬取或者下载方式，获得第一知识数据，所述第一知识数据包括结构化的知识数据和/或非结构化的知识数据；

知识库获得单元，用于按照预设格式对所述第一知识数据进行划分，形成第一知识库。

可选地，获取模块301可包括：

第二获取单元，用于获取预先构建的种子任务集；

第三获取单元，用于从所述种子任务集中选取第一预设数量的种子任务。

本发明实施例的指令微调数据的生成装置，通过获取第一知识库和第一预设数量的种子任务；生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；根据所述提示信息和预设大语言模型，得到第一指令微调数据；对所述第一指令微调数据进行处理，得到第二指令微调数据，这样，通过引入知识库数据，提高了生成指令微调数据的质量，降低了噪音数据生成的概率。

为了更好的实现上述目的，如图4所示，本发明实施例还提供一种指令微调数据的生成设备，包括处理器400和收发器410，所述处理器400用于执行如下过程：

获取第一知识库和第一预设数量的种子任务；

可选地，所述处理器400还用于：

基于相似度的过滤方式；

基于有害信息的过滤方式；

基于概率的过滤方式。

可选地，所述目标过滤方式为基于相似度的过滤方式；相应的，所述处理器400还用于：

可选地，所述目标过滤方式为基于有害信息的过滤方式；相应的，所述处理器400还用于：

可选地，所述目标过滤方式为基于概率的过滤方式；相应的，所述处理器400还用于：

基于所述分类结果，计算输出准确率；

可选地，所述处理器400还用于：

获取预先构建的种子任务集；

从所述种子任务集中选取第一预设数量的种子任务。

本发明实施例的指令微调数据的生成设备，通过获取第一知识库和第一预设数量的种子任务；生成提示信息，所述提示信息包括：所述第一预设数量的种子任务、所述第一知识库以及预设的指令生成要求；根据所述提示信息和预设大语言模型，得到第一指令微调数据；对所述第一指令微调数据进行处理，得到第二指令微调数据，这样，通过引入知识库数据，提高了生成指令微调数据的质量，降低了噪音数据生成的概率。

本发明实施例还提供一种指令微调数据的生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的指令微调数据的生成方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的指令微调数据的生成方法实施例中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器（Read-Only Memory，简称ROM）、随机存取存储器（Random Access Memory，简称RAM）、磁碟或者光盘等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储介质中，使得存储在该计算机可读存储介质中的指令产生包括指令装置的纸制品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他科编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种指令微调数据的生成方法，其特征在于，包括：

获取第一知识库和第一预设数量的种子任务；

2.根据权利要求1所述的方法，其特征在于，所述种子任务包括预设背景知识、第一预设指令、与所述预设背景知识相关的输入和针对所述第一预设指令的输出。

3.根据权利要求1所述的方法，其特征在于，所述根据所述提示信息和预设大语言模型，得到第一指令微调数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述第一指令微调数据进行处理，得到第二指令微调数据，包括：

基于相似度的过滤方式；

基于有害信息的过滤方式；

基于概率的过滤方式。

5.根据权利要求4所述的方法，其特征在于，所述目标过滤方式为基于相似度的过滤方式；

6.根据权利要求4所述的方法，其特征在于，所述目标过滤方式为基于有害信息的过滤方式；

7.根据权利要求4所述的方法，其特征在于，所述目标过滤方式为基于概率的过滤方式；

基于所述分类结果，计算输出准确率；

8.根据权利要求1所述的方法，其特征在于，获取第一知识库，包括：

9.根据权利要求1所述的方法，其特征在于，获取第一预设数量的种子任务，包括：

获取预先构建的种子任务集；

从所述种子任务集中选取第一预设数量的种子任务。

10.一种指令微调数据的生成装置，其特征在于，包括：

11.一种指令微调数据的生成设备，包括处理器和收发器，所述收发器在处理器的控制下接收和发送数据，其特征在于，所述处理器用于执行以下操作：

获取第一知识库和第一预设数量的种子任务；

12.一种指令微调数据的生成设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序；其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述的指令微调数据的生成方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至9任一项所述的指令微调数据的生成方法中的步骤。