CN118331890B

CN118331890B - 基于token训练限定大语言模型的数据批量生成方法

Info

Publication number: CN118331890B
Application number: CN202410767410.2A
Authority: CN
Inventors: 叶正盛
Original assignee: Jiuzhang Arithmetic Zhejiang Technology Co ltd
Current assignee: Jiuzhang Arithmetic Zhejiang Technology Co ltd
Priority date: 2024-06-14
Filing date: 2024-06-14
Publication date: 2024-08-23
Anticipated expiration: 2044-06-14
Also published as: CN118331890A

Abstract

本发明涉及一种基于token训练限定大语言模型的数据批量生成方法，能够使得用户可以比较灵活地配置要生成的数据项需求，包括各个数据项的类型、长度、范围、是否允许重复和备注等信息，可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容，自动批量生成模拟测试数据。通过面向AI大语言模型的数据生成交互格式，在生成数据过程中增加了二次数据检查能力，可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题，可以一次性生成数百万条以上的数据。提高测试数据的生成效率，避免耽搁时间，同时能够解决数据生成中存在的对话与断点续传问题，确保每次交互生成的数据是有序且符合要求。

Description

基于token训练限定大语言模型的数据批量生成方法

技术领域

本发明涉及技术领域，特别是指一种基于token训练限定大语言模型的数据批量生成方法、装置及数据生成设备。

背景技术

在软件测试过程中，经常需要模拟生成测试数据，如果需要做性能或者压力测试，则需要生成数万条以上数据。

针对生成测试数据的方法，传统的做法是根据数据项需求，由软件工程师针对需求开发特定的测试数据生成的代码，然后运行代码生成测试数据。

然而，根据数据项需求专门开发数据生成的代码，属于定制开发模式，每次都需要单独开发，效率非常低；如果要开发出非常逼真的模拟数据，需要花费更长的时间，耽搁测试时间。

虽然大语言模型出来后，可以通过人工或者API对话的模式生成测试数据，但是大语言模型的对话有几个问题：

大语言模型（或称为“AI大语言模型”）需要准确知道需求内容，如果是普通文字描述生成的质量比较差，需要设计面向大语言模型更有效的交互格式；

大语言模型对话生成的数据可能出现不符合要求的内容，并且容易生成重复数据，需要有自动化的二次数据校验能力，确保生成的数据符合需求；

大语言模型对话有token长度限制，一次仅能产生数十条数据，需要解决多轮并发对话与断点续传能力，确保每次交互生成的数据是有序且符合要求的。

发明内容

为了解决现有技术存在的技术问题，本发明实施例提供了一种基于token训练限定大语言模型的数据批量生成方法及装置及数据生成设备。所述技术方案如下：

一方面，提供了一种基于token训练限定大语言模型的数据批量生成方法，用于批量生成测试数据，其特征在于，所述方法包括：

S1、基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；

S2、计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果；

S3、基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果；

S4、循环获取并验证输出所有合格的所述数据生成结果，得到批量测试数据并保存至数据库。

作为本发明的一种优选实施方案，步骤S1中，所述基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，包括：

预先定义若干条数据项信息，每条所述数据项信息中包括如下数据项需求内容：数据项名称、类型、长度、取值范围、是否允许重复和数据项描述；

将每条所述数据项信息写入结构化数据库中进行保存；

利用编程语言读取所述结构化数据库，遍历获得每条所述数据项信息的JSON中间格式数据，并将每条所述数据项信息的JSON中间格式数据进行SQL语言元数据结构转换，生成对应每条所述数据项信息的SQL语言文本，其中：所述SQL语言文本中的不允许重复元素添加有UNIQUE KEY标志，当读取到添加UNIQUE KEY标志的所述数据项信息之时，表明当前数据项不允许重复；

遍历完毕，生成所述AI大语言模型交互所需的所述上下文提示词。

作为本发明的一种优选实施方案，步骤S1中，所述为所述上下文提示词配置批次随机启动参数，包括：

在每条所述数据项信息的SQL语言文本中写入预设的批次随机启动参数，所述批次随机启动参数包括：

系统随机为每条所述数据项信息的SQL语言文本生成的批次和当前交互时间；

当所述AI大语言模型对当前批次的所述数据项信息的SQL语言文本交互执行完毕，按照系统随机生成的下一批次随机启动参数，交互执行下一批次的所述数据项信息的SQL语言文本。

作为本发明的一种优选实施方案，步骤S2中，所述计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果，包括：

令：

所述AI大语言模型可返回的最大token长度为A，

令：

当前所述上下文提示词的最大token长度为B，则：，

其中：n为文本字符个数，为每个文本的单词长度；

计算当前所述上下文提示词在所述AI大语言模型中的最大可返回token长度:l（B）=A-B,其中：

l（B）为当前所述上下文提示词的最大可返回token长度；

将所述上下文提示词以及对应的所述最大可返回token长度发送并导入所述AI大语言模型；

所述AI大语言模型根据所导入的所述上下文提示词以及对应的所述最大可返回token长度进行智能交互，自动生成模拟测试数据并返回数据生成结果。

作为本发明的一种优选实施方案，步骤S3中，所述基于二次格式校验的数据项需求检查规则，包括如下两条格式校验规则：

第一次格式校验的数据项需求检查规则，用于检测所述AI大语言模型返回的所述数据生成结果是否符合用户预先自定义的所述数据项需求；

第二次格式校验的数据项需求检查规则，用于使用布隆过滤器算法检测所述AI大语言模型返回的所述数据生成结果是否重复生成。

作为本发明的一种优选实施方案，步骤S3中，所述对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果，包括：

基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的当前所述数据生成结果进行验证：

若当前所述数据生成结果同时满足所述基于二次格式校验的数据项需求检查规则中的两条格式校验规则，则认定当前所述数据生成结果合格并输出，同时记录当前所述数据生成结果的数据生成位置；

若当前所述数据生成结果不满足所述基于二次格式校验的数据项需求检查规则中的两条格式校验规则：只要一条不满足就不合格，则认定当前所述数据生成结果不合格，则重新获取由所述AI大语言模型返回的下一条所述数据生成结果，并进行验证。

作为本发明的一种优选实施方案，步骤S3中，在对所述AI大语言模型返回的所述数据生成结果进行验证之时，还包括：

计算所述AI大语言模型返回的当前所述数据生成结果的token长度，并判断当前所述数据生成结果的token长度是否超出预设的限定值：

若未超过，则获取由所述AI大语言模型返回的下一条所述数据生成结果；

若超过，则进入步骤S1，重新生成下一批次的所述上下文提示词，同时在所述上下文提示词中附加上次所记录的所述数据生成结果的数据生成位置。

另一方面，提供了一种基于token训练限定大语言模型的数据批量生成装置，所述基于token训练限定大语言模型的数据批量生成装置用于实现上述所述基于token训练限定大语言模型的数据批量生成方法，所述装置包括：

语料自定义构建模块，用于基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；

数据生成模块，用于计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果；

数据校验模块，用于基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果；

数据存储模块，用于循环获取并验证输出所有合格的所述数据生成结果，得到批量测试数据并保存至数据库。

另一方面，提供一种数据生成设备，所述数据生成设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述基于token训练限定大语言模型的数据批量生成方法中的任一项方法。本发明实施例提供的技术方案带来的有益效果至少包括：

本发明基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果；基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果；循环获取并验证输出所有合格的所述数据生成结果，得到批量测试数据并保存至数据库。能够使得用户可以比较灵活的配置要生成的数据项需求，包括各个数据项的类型、长度、范围、是否允许重复和备注等信息，本发明可以根据用户描述的需求自动构建AI大语言模型可理解的文本交互内容，自动批量生成模拟测试数据。

本发明设计了面向AI大语言模型的数据生成交互格式，在生成数据过程中增加了二次数据检查能力，可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题，可以一次性生成数百万条以上的数据。

本发明能够提高测试数据的生成效率，避免耽搁时间，同时能够解决数据生成中存在的对话与断点续传问题，确保每次交互生成的数据是有序且符合要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于token训练限定大语言模型的数据批量生成方法流程图；

图2是本发明实施例提供的一种采用数据项需求表格进行记录用户自定义的数据项信息的示意图；

图3是本发明实施例提供的一种利用编程语言读取的JSON中间格式数据示意图；

图4是本发明实施例提供的一种生成的SQL语言格式示意图；

图5是本发明实施例提供的一种数据检查流程图；

图6是本发明实施例提供的一种最终生成的所有合格的数据生成结果示意图；

图7是本发明实施例提供的一种基于token训练限定大语言模型的数据批量生成装置框图；

图8是本发明实施例提供的一种数据生成设备的结构示意图。

具体实施方式

下面结合附图，对本发明中的技术方案进行描述。

在本发明实施例中，“示例地”、“例如”等词用于表示作例子、例证或说明。本发明中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。此外，在本发明实施例中，“和/或”所表达的含义可以是两者都有，或者可以是两者任选其一。

本发明实施例中，“图像”，“图片”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。“的(of)”，“相应的（corresponding，relevant）”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。本发明实施例中，有时候下标如W₁可能会笔误为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

大语言模型，或者AI大语言模型，

大语言模型（Large Language Model，LLM）是一种基于海量文本数据训练的深度学习模型。它不仅具备生成自然语言文本的能力，还能够深入理解文本含义，并处理各种自然语言任务，如文本摘要、问答、翻译等。

大语言模型通过深度学习技术，利用多层神经网络来建模语言的统计规律和潜在语义信息。在训练过程中，大语言模型会对大量的文本数据进行学习和抽象，从而能够生成具有逻辑和连贯性的语言输出。同时，为了保证模型具有较好的泛化能力，还需要收集和整理大规模的数据集来进行训练。

大语言模型在自然语言处理、机器翻译、对话系统、文本生成等领域展现出了强大的能力和潜力。它能够理解人类的自然语言输入，并根据输入内容生成语义上相关的输出。通过学习大量的文本数据，大语言模型可以获得对语言结构、语法、语义等方面的深入理解。

本实施例中，AI大语言模型可以由用户自行选择，如Chat GPT\Llama\文心一言\通义千问。

有关AI大语言模型的语义交互，请结合AI大语言模型的逻辑架构进行理解，本实施例不再赘述。

实施例1

本发明实施例提供了一种基于token训练限定大语言模型的数据批量生成方法，该方法可以由数据生成设备实现，该数据生成设备可以是终端或服务器。如图1所示的基于token训练限定大语言模型的数据批量生成方法流程图，该方法的处理流程可以包括如下的步骤：

本发明主要技术点在于：将用户输入的自定义数据转换为AI大语言模型更容易理解的SQL交互数据格式，确保AI大语言模型能更准确地生成高质量的数据，同时对AI大语言模型生成的数据进行二次格式校验，包括数据类型、范围和基于布隆过滤算法的高速去重检查，确保生成的数据符合用户要求。

AI大语言模型有token长度限制，无法批量生成大量数据。本发明通过中间分批保存数据，并将数据位置带入上下文提示词，重复与AI大语言模型交互，可以达到批量生成不重复数据的效果。同时在与大语言交互过程中，每次都增加批次和当前交互时间信息，从而可以自动化循环调用AI大语言模型生成，提升每次生成数据的随机性，提高模型对数据的鲁棒性。

下面将对各个步骤进行详细描述。

将每条所述数据项信息写入结构化数据库中进行保存；

遍历完毕，生成所述AI大语言模型交互所需的所述上下文提示词。测试数据的要求和数据格式以及数据项需求，由用户自行配置。

在为AI大语言模型准备交互所需的上下文提示词之时，需要配置AI大语言模型角色上下文提示词，指明AI大语言模型接下的任务是完成数据生成任务，为了提升AI大语言模型返回的数据准确性，给出一个上下文对话示例，用户会输入数据项要求和格式要求。

如图2所示，为采用数据项需求表格进行记录用户自定义的数据项信息的示意图。用户准备数据生成的需求（数据项的需求），用户可以把需求输入到Excel或者专业的数据库中，一般需求包括要生成的数据项的名称、类型、长度、取值范围、是否允许重复、详细描述，一次性可以输入多个数据项信息。其中，数据项描述中，具体为用户对每条数据项设置的数据生成限定，比如是否限定随机生成，是否让数据随机生成，是否随机生成某个对象的具体数据内容（比如随机生成某个会员的邮箱地址），以及其他随机项。通过在数据项描述中对每条数据项的数据生成的随机性进行定义，以此让AI大语言模型识别每条数据项的数据生成的随机性，并对生成数据进行随机定义，提高模型对数据的鲁棒性和离散性，让数据更宽泛的识别与生成。

模型随机性生成数据具有以下优点：

1. 多样性和丰富性：随机性生成数据可以产生大量不同、独特且富有变化的数据样本。这种多样性有助于模型在更广泛的情境下进行训练和学习，提高其泛化能力。

2. 模拟真实世界的复杂性：在现实世界中，数据往往是复杂且多变的。随机性生成数据可以模拟这种复杂性，为模型提供更接近真实世界情况的数据集，有助于模型更好地适应和处理实际数据。

3. 灵活性：通过调整随机性生成数据的参数和设置，可以轻松地创建具有不同特性和分布的数据集。这种灵活性使得模型能够适应各种不同的任务和需求，提高了其适用性。

4. 可扩展性：随机性生成数据可以轻松地扩展数据集的大小，以满足更大规模训练的需求。这对于需要处理大量数据的深度学习模型尤为重要，有助于模型更好地学习和提取数据的特征。

5. 数据隐私和安全：在某些情况下，使用真实数据可能涉及隐私问题或安全风险。随机性生成数据可以在不泄露敏感信息的情况下，为模型提供训练和验证所需的数据，有助于保护数据隐私和安全。

为了便于系统快捷读取数据，提高数据写入的速度，缩短AI大语言模型生成测试数据的时间。本处采用了表格数据的SQL结构化处理，生成对应的SQL语言文本。

具体的：通过编程语言读取用户输入Excel的数据项需求描述，转换为数据库专业的SQL语言元数据结构（生成SQL结构化描述），流程如下：

1、编程语言读取Excel的数据项的需求描述，遍历每个数据项转换为JSON中间格式数据；如图3所示，为一种利用编程语言读取的JSON中间格式数据示意图；

2、根据JSON中间格式数据转换为SQL语言格式文本，需要把JSON每个数据项转换为SQL语言的语法，如图4所示，为一种生成的SQL语言格式示意图；

SQL转换通常包括以下内容：

2.1 SQL语言中的字段名通常使用英文，需要把数据项名称转换为英文；

2.2 数据类型转换为SQL语言的常见类型名称，对于字符串类型需要附加上数据长度信息；

2.3 不能重复的数据项，附加UNIQUE KEY标志（即唯一密钥标志，或者密钥标签）；

2.4 将数据项的数据范围和备注转换为SQL语言的comment信息；

2.5 其他特殊的语法转换。

数据表格中包含若干项数据项信息。为了对每项数据项信息进行后续的重复检测，对于不能重复的数据项，为其添加UNIQUE KEY标志，也就是唯一密钥标识，让系统读取时能够通过数据项的UNIQUE KEY标志来识别当前数据项是否可重复。若是模型识别到当前数据项具备该标志，则认定该数据项不能重复。添加UNIQUE KEY标志也为了后续进行格式检测之时，能够快速对能否重复的数据项进行快速识别与检测，提高对特殊项的检测效率。比如邮箱、会员昵称和会员编号id不允许重复，则对邮箱、会员昵称和会员编号id添加UNIQUE KEY标志。数据项需求内容，同样是构建格式校验规则的基础，可以写入系统并保存，同样可以在系统上，由模型根据数据项需求内容，智能生成对应的格式校验规则（下面的第一条，可以由AI模型智能生成，将数据项需求内容输入模型，可以由AI模型智能生成若干条，并融合之后，得到第一条规则）。以此实现规则的快速自定义和匹配生成。

为了提供模型生成数据的随机性和鲁棒性，本处采用了数据项随机写入模型进行交互的批次随机启动参数。

因为在与大语言交互过程中，模型需要对多个批次的写入数据进行交互，可能一次性输入多个数据项信息或者依次输入每条数据项信息。若是有序写入数据项，则降低了模型对上下文内容的融合识别，减小了模型对上下文的整体理解能力。因此，为了提高模型对文本上下文的理解能力和随机交互，采用每次都增加批次和当前交互时间信息的方式，从而可以自动化循环调用AI大语言模型生成，提升每次生成数据的随机性，提高模型对文本的识别能力并输出更具有宽泛性和理解性的测试数据，提高数据的多样性。

通过上述构建，生成面向AI大语言模型的上下文提示词，上下文提示词需要包括以下内容：

生成的SQL语言文本；

当前批次自动增长数据项目的起始编号；

当前系统时间。

模型可以根据数据项表格中的每一项的描述（描述信息中配置有对生成该项数据项的测试数据集的生成关键词，比如按照“随机字符串”的描述进行会员昵称的测试数据集的生成（还会结合其他关键词或者生成特定词进行测试数据集的综合生成），后续模型按照生成关键词进行交互并输出对应的测试数据集），来交互随机生成对应数据项的若干测试数据，并利用配置的格式校验规则进行去重检测，得到每项数据项的测试数据，以此得到随机性较高的各项测试数据。

接下来进入模型对上下文的token长度计算与交互。

令：

所述AI大语言模型可返回的最大token长度为A，

令：

当前所述上下文提示词的最大token长度为B，则：，

其中：n为文本字符个数，为每个文本的单词长度；

l（B）为当前所述上下文提示词的最大可返回token长度；

所述AI大语言模型可返回的最大token长度为A，通常由AI大语言模型会给出参数，或者根据管理员定义。

Token是AI大语言模型的字符编码最小单位，一个Token通常代表一个单词、1个数字或者一个标点符号。按照公式计算当前上下文提示词的token长度=B，并计算当前所述上下文提示词在所述AI大语言模型中的最大可返回token长度。

公式中n=文本字符个数，Lsi=每个文本的单词长度，通常算法如下：

1个英文字母=0.25；

1个中文汉字=1.5；

1个标点符号=1；

1个数字=1。

上述计算由系统程序自行完成。

计算完毕，将上下文提示词和本次当前上下文提示词的最大可返回token长度发送给AI大语言模型，AI大语言模型将根据上下文提示词进行自行交互，同时按照最大可返回token长度的数据生成交互格式，生成满足需求的数据。

AI大语言模型每次返回都计算token长度是否超出上限，如果检测到超出token限制，重新组织上下文提示词，在上下文提示词中附加上次数据生成的位置，重复执行步骤4，这样就可以循环批量生成数据。

循环接收AI大语言模型返回的文本内容，解析文本内容，组织为完整的一笔结果数据。

如图5所示，为数据检查流程图。

用户预先自定义的所述数据项需求，请参考前面描述的数据项表格内容。

第一次格式校验的数据项需求检查规则，就是需要检测当前模型返回的数据是否满足用户预先自定义的所述数据项需求（检查数据类型、长度、范围是否符合需求定义），只要一项不满足就认定不合格。

同时为了防止数据重复生成，使用布隆过滤器算法检测数据项是否存在重复生成。第二次格式校验的数据项需求检查规则，使用布隆过滤器算法检测即可，用户可以在布隆过滤器中配置对应的数据项信息，便于将模型输出的数据陆续导入布隆过滤器进行算法检测。

布隆过滤器（Bloom Filter）是一种空间效率极高的概率型数据结构，它利用位数组来表示集合，并允许有一定的误报率。布隆过滤器通常用于快速地检查一个元素是否存在于集合中，其特点是插入和查询操作都非常快，但无法删除元素，且存在误报的可能。

布隆过滤器使用一个很长的二进制向量（位数组）和一系列随机映射函数。当一个元素被加入集合时，它会被所有的映射函数处理，并将位数组中的对应位置设为1。当需要检查一个元素是否存在于集合中时，只需检查该元素经过所有映射函数处理后对应的位是否都为1：

如果是，则元素可能存在于集合中；如果有一个位置为0，则元素一定不存在。

布隆过滤器的实现相对简单，但需要注意的是，由于哈希函数可能存在冲突，因此布隆过滤器会产生一定的误判率，即有可能将不存在的元素误判为存在。误判率的大小与位数组的长度、哈希函数的个数以及集合中元素的数量有关。

布隆过滤器算法以其高效的空间利用率和快速的查询速度在大数据处理中发挥着重要作用。虽然存在一定的误判率，但在很多场景下，这种概率性的判断已经足够满足实际需求。

上述检测，首先需要利用第一次格式校验的数据项需求检查规则，进行数据检测，检测合格，再利用第二条进行检测，不允许互换检测顺序，避免造成检测算法上的算力压力和成本。

对于合格的数据，将被记录并保存，同时会记录其数据生成位置，便于系统根据位置对生成数据的初始位置进行表格追踪，用于下一批次数据的定位生成。

如果检测都符合要求则存储到结果文件<result.csv>，并记录本次已经生成的数据位置，同时更新每项需要去重判断数据项的布隆过滤器；如果检测过程中发现不符合要求的数据则直接丢弃。

AI大语言模型每次返回都计算token长度是否超出上限，如果检测到超出token限制，重新组织上下文提示词，在上下文提示词中附加上次数据生成的位置，重复执行上述模型交互生成数据的步骤，这样就可以循环批量生成数据。

模型按照随机交互，会输出若干项数据。按照上述步骤S1-3执行输出与验证，获得所有的合格数据之后，得到批量测试数据并保存至数据库即可。

数据库优先采用Mysql的结构化数据库，便于匹配存储数据。

当接收完所有的数据后，程序结束，文件<result.csv>便是最终生成的数据。如图6所示，为最终生成的所有合格的数据生成结果示意图。

采用上述方案，本发明通过设计的面向AI大语言模型的数据生成交互格式，在生成数据过程中增加了二次数据检查能力，可以有效提升AI大语言模型数据生成质量。解决了AI大语言模型token长度限制的问题，可以一次性生成数百万条以上的数据。

各项数据生成之后，得到若干个数据项的测试数据集。可以再次利用布隆过滤器遍历各个数据集，进行查重。此时管理员可以设定数据项信息的查重规则，进行查重，以此进行入库前的最后筛选。

将用户输入的数据转换为AI大语言模型更容易理解的SQL交互数据格式，确保AI大语言模型能更准确的生成高质量的数据，同时对AI大语言模型生成的数据进行二次格式校验，包括数据类型、范围和基于布隆过滤算法的高速去重检查，确保生成的数据符合用户要求。

本发明通过中间分批保存数据，并将数据位置带入到上下文提示词，重复与AI大语言模型交互，可以达到批量生成不重复数据的效果。

实施例2

图7是根据一示例性实施例示出的一种基于token训练限定大语言模型的数据批量生成装置框图，该装置用于基于token训练限定大语言模型的数据批量生成方法。参照图7，该装置包括：

语料自定义构建模块310，用于基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；

数据生成模块320，用于计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果；

数据校验模块330，用于基于二次格式校验的数据项需求检查规则，对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果；

数据存储模块340，用于循环获取并验证输出所有合格的所述数据生成结果，得到批量测试数据并保存至数据库。

上述装置各个模块的功能和交互，请结合实施例1进行理解。

实施例3

另一方面，提供一种数据生成设备，所述数据生成设备包括：处理器；存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如上述基于token训练限定大语言模型的数据批量生成方法中的任一项方法。

图8是本发明实施例提供的一种数据生成设备的结构示意图，如图8所示，数据生成设备可以包括上述图7所示的基于token训练限定大语言模型的数据批量生成装置。可选地，数据生成设备410可以包括第一处理器2001。

可选地，数据生成设备410还可以包括存储器2002和收发器2003。

其中，第一处理器2001与存储器2002以及收发器2003，如可以通过通信总线连接。

下面结合8对数据生成设备410的各个构成部件进行具体的介绍：

其中，第一处理器2001是数据生成设备410的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，第一处理器2001是一个或多个中央处理器（centralprocessing unit，CPU），也可以是特定集成电路（application specific integratedcircuit，ASIC），或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个微处理器（digital signal processor，DSP），或，一个或者多个现场可编程门阵列（field programmable gate array，FPGA）。

可选地，第一处理器2001可以通过运行或执行存储在存储器2002内的软件程序，以及调用存储在存储器2002内的数据，执行数据生成设备410的各种功能。

在具体的实现中，作为一种实施例，第一处理器2001可以包括一个或多个CPU，例如图8中所示出的CPU0和CPU1。

在具体实现中，作为一种实施例，数据生成设备410也可以包括多个处理器，例如图8中所示的第一处理器2001和第二处理器2004。这些处理器中的每一个可以是一个单核处理器（single-CPU），也可以是一个多核处理器（multi-CPU）。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据（例如计算机程序指令）的处理核。

其中，所述存储器2002用于存储执行本发明方案的软件程序，并由第一处理器2001来控制执行，具体实现方式可以参考上述方法实施例，此处不再赘述。

可选地，存储器2002可以是只读存储器（read-only memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（random access memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（electrically erasable programmable read-only memory，EEPROM）、只读光盘（compactdisc read-only memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器2002可以和第一处理器2001集成在一起，也可以独立存在，并通过数据生成设备410的接口电路（图8中未示出）与第一处理器2001耦合，本发明实施例对此不作具体限定。

收发器2003，用于与网络设备通信，或者与终端设备通信。

可选地，收发器2003可以包括接收器和发送器（图8中未单独示出）。其中，接收器用于实现接收功能，发送器用于实现发送功能。

可选地，收发器2003可以和第一处理器2001集成在一起，也可以独立存在，并通过数据生成设备410的接口电路（图8中未示出）与第一处理器2001耦合，本发明实施例对此不作具体限定。

需要说明的是，图8中示出的数据生成设备410的结构并不构成对该路由器的限定，实际的知识结构识别设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

此外，数据生成设备410的技术效果可以参考上述方法实施例所述的基于token训练限定大语言模型的数据批量生成方法的技术效果，此处不再赘述。

应理解，在本发明实施例中的第一处理器2001可以是中央处理单元（centralprocessing unit，CPU），该处理器还可以是其他通用处理器、数字信号处理器（digitalsignal processor，DSP）、专用集成电路（application specific integrated circuit，ASIC）、现成可编程门阵列（field programmable gate array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

还应理解，本发明实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（read-only memory，ROM）、可编程只读存储器（programmable ROM，PROM）、可擦除可编程只读存储器（erasable PROM，EPROM）、电可擦除可编程只读存储器（electrically EPROM，EEPROM）或闪存。易失性存储器可以是随机存取存储器（random access memory，RAM），其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的随机存取存储器（random accessmemory，RAM）可用，例如静态随机存取存储器（static RAM，SRAM）、动态随机存取存储器（DRAM）、同步动态随机存取存储器（synchronous DRAM，SDRAM）、双倍数据速率同步动态随机存取存储器（double data rate SDRAM，DDR SDRAM）、增强型同步动态随机存取存储器（enhanced SDRAM，ESDRAM）、同步连接动态随机存取存储器（synchlink DRAM，SLDRAM）和直接内存总线随机存取存储器（direct rambus RAM，DR RAM）。

上述实施例，可以全部或部分地通过软件、硬件（如电路）、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线（例如红外、无线、微波等）方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质（例如，软盘、硬盘、磁带）、光介质（例如，DVD）、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本发明中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项（个）或复数项（个）的任意组合。例如，a,b,或c中的至少一项（个），可以表示：a, b, c, a-b, a-c, b-c, 或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于token训练限定大语言模型的数据批量生成方法，用于批量生成测试数据，其特征在于，所述方法包括：

S1、基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；所述基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，包括：

将每条所述数据项信息写入结构化数据库中进行保存；

遍历完毕，生成所述AI大语言模型交互所需的所述上下文提示词；

2.根据权利要求1所述的基于token训练限定大语言模型的数据批量生成方法，其特征在于，步骤S1中，所述为所述上下文提示词配置批次随机启动参数，包括：

3.根据权利要求1所述的基于token训练限定大语言模型的数据批量生成方法，其特征在于，步骤S2中，所述计算所述上下文提示词在所述AI大语言模型中的最大可返回token长度，并连同所述上下文提示词导入所述AI大语言模型中，进行数据生成并返回数据生成结果，包括：

令：

所述AI大语言模型可返回的最大token长度为A，

令：

当前所述上下文提示词的最大token长度为B，则：

其中：n为文本字符个数，l_si为每个文本的单词长度；

计算当前所述上下文提示词在所述AI大语言模型中的最大可返回token长度：

l(B)＝A-B,

其中：

l(B)为当前所述上下文提示词的最大可返回token长度；

4.根据权利要求1所述的基于token训练限定大语言模型的数据批量生成方法，其特征在于，步骤S3中，所述基于二次格式校验的数据项需求检查规则，包括如下两条格式校验规则：

5.根据权利要求1所述的基于token训练限定大语言模型的数据批量生成方法，其特征在于，步骤S3中，所述对所述AI大语言模型返回的所述数据生成结果进行验证，并输出验证合格的所述数据生成结果，包括：

6.根据权利要求5所述的基于token训练限定大语言模型的数据批量生成方法，其特征在于，步骤S3中，在对所述AI大语言模型返回的所述数据生成结果进行验证之时，还包括：

7.一种基于token训练限定大语言模型的数据批量生成装置，所述基于token训练限定大语言模型的数据批量生成装置用于实现如权利要求1-6任一项所述基于token训练限定大语言模型的数据批量生成方法，其特征在于，所述装置包括：

语料自定义构建模块，用于基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，为所述上下文提示词配置批次随机启动参数；所述基于用户自定义的数据项信息，为AI大语言模型构建交互所需的上下文提示词，包括：

将每条所述数据项信息写入结构化数据库中进行保存；

8.一种数据生成设备，其特征在于，所述数据生成设备包括：

处理器；

存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，实现如权利要求1至6中任一项所述的方法。