CN116702834B

CN116702834B - 数据生成方法、数据生成装置及计算机可读存储介质

Info

Publication number: CN116702834B
Application number: CN202310976039.6A
Authority: CN
Inventors: 王雨奇; 陈晓锋; 巩怀志
Original assignee: Shenzhen Zhicheng Software Technology Service Co ltd; Shenzhen Smart City Technology Development Group Co ltd
Current assignee: Shenzhen Zhicheng Software Technology Service Co ltd; Shenzhen Smart City Technology Development Group Co ltd
Priority date: 2023-08-04
Filing date: 2023-08-04
Publication date: 2023-11-03
Anticipated expiration: 2043-08-04
Also published as: CN116702834A

Abstract

本发明公开了数据生成方法、数据生成装置及计算机可读存储介质，其中，所述数据方法包括以下步骤：对获取到的真实数据进行脱敏及混淆处理，得到混淆数据，并通过所述混淆数据对GPT3.5模型进行训练；训练后的所述GPT3.5模型在接收到虚拟敏感数据的生成指令时，确定所述生成指令关联的信息字段以及所述信息字段对应的需求条件；基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据。本发明通过使用GPT3.5模型对预处理后的真实数据进行训练，并将训练后的GPT3.5模型用于生成特定需求的虚拟敏感数据，进而提高虚拟敏感数据的实用性。

Description

数据生成方法、数据生成装置及计算机可读存储介质

技术领域

本发明涉及数据处理领域，尤其涉及数据生成方法、数据生成装置及计算机可读存储介质。

背景技术

进行系统测试或建模训练时，通常会涉及到敏感隐私数据的使用，例如进行A街道社康医疗资源规划测试时，需要生成数千条包含身份证号、健康状况以及疾病状况等敏感隐私数据的A街道居住人员信息。

在传统的虚拟敏感数据生成方式中，通常利用BERT（Bidirectional EnocederRepresentations from Transformers，双向编码模型）模型对真实数据进行脱敏处理，随后将脱敏后的数据应用到测试系统中。然而由于BERT模型存在对领域数据分布的过拟合的缺陷，也即对指令需求的泛化能力、理解力低，导致无法基于指令的需求参数生成对应的虚拟数据。例如虚拟敏感数据的生成条件中包括性别比、年龄比符合当前区域的特征的模糊需求条件时，当前的BERT模型无法捕捉或识别该条件，导致生成的数千条虚拟敏感数据中，实际的性别比、年龄比不满足需求，使得当前生成的虚拟敏感数据不适用于系统测试或建模训练。

因此，当前基于传统的处理模型的虚拟敏感数据生成方式，无法生成符合特定需求的敏感数据，导致虚拟敏感数据的可用性较低。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种数据生成方法、数据生成装置及计算机可读存储介质，解决现有技术中虚拟敏感数据的可用性较低的问题。

为实现上述目的，本发明提供一种数据生成方法，所述数据生成方法包括以下步骤：

对获取到的真实数据进行脱敏及混淆处理，得到混淆数据，并通过所述混淆数据对GPT3.5模型进行训练；

训练后的所述GPT3.5模型在接收到虚拟敏感数据的生成指令时，确定所述生成指令关联的信息字段以及所述信息字段对应的需求条件；

基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据。

可选地，所述对获取到的真实数据进行脱敏及混淆处理，得到混淆数据，并通过所述混淆数据对GPT3.5模型进行训练的步骤包括：

获取到所述真实数据后，确定所述真实数据的所有字段的脱敏规则；

基于所述脱敏规则对所述真实数据进行脱敏处理，并对脱敏处理后的数据进行混淆处理，得到所述混淆数据；

通过所述混淆数据对所述GPT3.5模型进行训练。

可选地，所述通过所述混淆数据对所述GPT3.5模型进行训练的步骤包括：

将所述混淆数据输入到转换器模型的解码器中，并基于所述转换器模型的掩盖自注意力机制将第K个词后的所有词掩盖；

基于前K个词以及预设的预测公式进行预训练，得到第K+1个词的预测结果；

将带标签数据集对应的句子输入到所述GPT3.5模型中，并将转换器模型块中最后一个单词对应的输出特征，输入到线性层中进行预测。

可选地，所述基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据的步骤包括：

训练后的所述GPT3.5模型根据所述信息字段、所述需求条件生成第一虚拟敏感数据；

对所述第一虚拟敏感数据进行校验，并对校验不通过的第二虚拟敏感数据进行修正处理；

将校验通过的所述第一虚拟敏感数据和/或修正后的所述第二虚拟敏感数据，作为所述目标虚拟敏感数据。

可选地，所述对所述第一虚拟敏感数据进行校验，并对校验不通过的第二虚拟敏感数据进行修正处理的步骤之前，还包括：

获取所述生成指令关联的地理位置，并基于所述地理位置确定当前城市信息；

确定所述城市信息关联的城市编码、城市医疗指数和/或城市发展指数；

根据所述城市编码、所述城市医疗指数和/或所述城市发展指数生成数据校验规则以及数据修正规则；

所述对所述第一虚拟敏感数据进行校验，并对校验不通过的第二虚拟敏感数据进行修正处理的步骤包括：

根据所述数据校验规则对所述第一虚拟敏感数据进行校验；

当存在校验不通过的所述第二虚拟敏感数据时，基于所述数据修正规则对所述第二虚拟敏感数据进行修正处理。

可选地，所述将校验通过的所述第一虚拟敏感数据和/或修正后的所述第二虚拟敏感数据，作为所述目标虚拟敏感数据的步骤之后，还包括：

获取所述生成指令关联的虚拟数据应用任务；

将所述目标虚拟敏感数据发送至所述虚拟数据应用任务中，并获取所述虚拟数据应用任务反馈的测试结果；

当所述测试结果中存在一条或多条数据不满足测试需求时，确定不满足所述测试需求的N条数据，并根据训练后的所述GPT3.5模型、所述信息字段以及所述需求条件，生成N条所述目标虚拟敏感数据。

可选地，所述信息字段为姓名、性别、出生日期、年龄、职业、虚拟画像以及居住地址，所述需求条件为M条数据，且数据要符合A区人口年龄分布以及性别分布；所述基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据的步骤包括：

获取所述A区对应的训练样本；

基于所述训练样本关联的人口年龄分布以及性别分布信息，确定所述需求条件中男女性别比的比例数据，以及年龄分布占比数据；

根据所述比例数据、所述占比数据以及所述信息字段生成M条所述目标虚拟敏感数据。

可选地，所述获取所述A区对应的训练样本的步骤之后，还包括：

当所述训练样本不存在时，获取与所述A区关联的区域对应的目标样本；

根据所述信息字段、所述目标样本对应的目标比例系数以及目标占比数据生成M条所述目标虚拟敏感数据。

此外，为实现上述目的，本发明还提供一种数据生成装置，所述数据生成装置包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据生成程序，所述数据生成程序被所述处理器执行时实现如上所述的数据生成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据生成程序，所述数据生成程序被处理器执行时实现如上所述的数据生成方法的步骤。

本发明实施例提供了数据生成方法、数据生成装置及计算机可读存储介质，先对获取到的真实数据进行脱敏及混淆处理，得到混淆数据，并通过所述混淆数据对GPT3.5模型进行训练，并在训练后的所述GPT3.5模型在接收到虚拟敏感数据的生成指令时，确定所述生成指令关联的信息字段以及所述信息字段对应的需求条件，最后基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据。可以看出，将脱敏、混淆处理后的真实数据作为GPT3.5模型的训练参数，对GPT3.5模型进行迭代训练，并基于训练后的GPT3.5模型对指令的泛化能力、理解力较强的特性，通过对存在模糊需求条件的虚拟敏感数据的生成指令进行识别处理，得到需要生成的信息字段以及信息字段对应的需求条件，并基于信息字段以及需求条件生成符合建模训练或系统测试的目标虚拟敏感数据，进而提高虚拟敏感数据的可用性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明数据生成方法的第一实施例的流程示意图；

图2为本发明数据生成方法的第二实施例的流程示意图；

图3为本发明数据生成方法的第三实施例的流程示意图；

图4是本发明数据生成方法的各个实施例的终端硬件结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为解决上述缺陷，本发明实施例提出一种数据生成方法，其主要解决方案包括以下步骤：

本发明将脱敏、混淆处理后的真实数据作为GPT3.5模型的训练参数，对GPT3.5模型进行迭代训练，并基于训练后的GPT3.5模型对指令的泛化能力、理解力较强的特性，通过对存在模糊需求条件的虚拟敏感数据的生成指令进行识别处理，得到需要生成的信息字段以及信息字段对应的需求条件，并基于信息字段以及需求条件生成符合建模训练或系统测试的目标虚拟敏感数据，进而提高虚拟敏感数据的可用性。

为了更好地理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整地传达给本领域的技术人员。

请参照图1，图1为本发明数据生成方法的第一实施例的流程示意图。

在本实施例中，数据生成方法包括以下步骤：

步骤S10，对获取到的真实数据进行脱敏及混淆处理，得到混淆数据，并通过所述混淆数据对GPT3.5模型进行训练；

在本实施例中，真实数据指的是某一城市中所有人口的姓名、年龄、居住地址、收支情况以及疾病状况等。脱敏指的是对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护，而用于训练的数据为真实数据，因此要对其进行脱密处理，为提高训练后的GPT3.5模型的处理效果，真实数据应该为庞大的数据量，例如整个城市的真实数据。混淆是指将测试或开发环境中现有的敏感信息替换为看起来像真实生产信息的信息，在本实施例中为进一步保障数据的机密性，需要对脱敏后的数据进行混淆处理，并将混淆后的数据作为GPT3.5（Generative Pre-trained Transformer，自然语言处理模型）模型的输入参数。

GPT是由OpenAI开发的一种自然语言处理模型，采用了基于Transformer（转换器模型）的深度学习方法，并通过在大规模的语料库上进行训练，使其能够自动生成符合语法和语义规则的自然语言文本。而GPT 3.5模型是GPT-3模型的实验性版本的一个非正式称呼，GPT3.5模型能够更好地适应新任务和数据集，在通过训练后，能够自动学习到模糊需求条件对应的实际需求数值，基于此提高模糊需求条件下生成的数据的可用性。

而在得到真实数据后，需要对关键的信息例如姓名、身份证号以及居住地址等进行脱敏处理，为保障训练后的GPT3.5模型能够生成准确的数据，在姓名、身份证号等信息脱敏处理后，性别、年龄以及职业等信息则可以不用加密。具体的，在获取到所述真实数据后，需要确定所述真实数据的所有字段的脱敏规则，例如姓名字段的脱敏规则为替换姓氏，替换名字等，而性别字段对应的脱敏规则是空白内容。在确定所有字段对应的脱敏规则后，基于脱敏规则对真实数据的所有字段进行脱敏处理，并对脱敏处理后的数据进行混淆，得到所述混淆数据，最后通过所述混淆数据对所述GPT3.5模型进行训练。

GPT模型结构的基础是Transformer结构，而Transformer由编码器（encoder）和解码器（decoder）组成，形成GPT模型结构的过程包括：将Transformer的decoder裁剪出来、并把用于引入编码器输出的多头注意力消掉，再配合线性变换+分类的简单结构，形成GPT的模型结构。随后可以基于混淆数据对GPT3.5模型进行预训练处理，而GPT3.5模型的训练过程包括预训练以及微调阶段，在预训练阶段中得到第一目标函数后，可以对第一目标函数进行微调，得到GPT模型的训练成功后的第二目标函数。

在模型训练阶段，可以将所述混淆数据输入到转换器模型的解码器中，基于所述转换器模型的掩盖自注意机制将第K个词后的掩盖掉，并基于前K个词以及预设的预测公式进行预训练，得到第K+1个词的预测结果，最后将带标签数据集对应的句子输入到所述GPT3.5模型中，把转换器模型块的最后一个单词对应的输出特征，输入到线性层中进行预测，得到微调后的目标函数。

具体的，在预训练阶段，GPT 的任务是标准语言模型的目标函数，即根据句子中前k个词，预测下一个词。目标函数的公式可以表示为：

其中，是用于训练的混淆数据，θ是模型参数，k是上下文窗口大小。

而通过预测u的值，具体的计算过程如下公式所示：

其中，We是token映射矩阵，Wp是位置编码，Transformer 层数为n。

随后可以在下有任务中对进行微调，具体包括将数据集（x¹，...，x^m）以及数据集对应的标签y输入到GPT模型中，取转换器模型块中最后一个词的输出特征，送入线性层中进行预测（也即得到如下公式）：

也即在此基础上可以得到微调后的目标函数为：

可选地，为保障训练效果，可在微调阶段将语言模型的目标函数与微调后的目标函数相加，得到如下公式：

。

需要说明的是，由于微调的成本可控，因此只需在通用的GPT大模型基础上，针对垂直领域进行微调优化，进而训练出可以在目标模型，使得当前需要生成虚拟敏感数据时，基于GPT3.5模型生成的虚拟敏感数据具备了数据符合模糊需求的信息，可用性较高。

步骤S20，训练后的所述GPT3.5模型在接收到虚拟敏感数据的生成指令时，确定所述生成指令关联的信息字段以及所述信息字段对应的需求条件；

在本实施例中，信息字段指的是需要生成的信息的条目类型，例如姓名、性别、身份证号以及居住地址等。需求条件主要指的是模糊需求条件，例如生成的数据中，要符合当前区域的年龄分布，性别分布等。其中，由于虚拟敏感数据通常会用到某个区域对应的系统测试当中，例如A街道社康医院的资源规划测试以及B区B1街道的社保局社保开会功能测试等，因而生成指令应当包含实际的地理位置信息。

示例性的，虚拟敏感数据的生成指令包括“生成一批A区A1街道办公、居住人员信息，要求符合A1街道人口年龄、性别、职业分布，字段包括姓名、性别、出生日期、年龄、职业、虚拟画像、办公地具体楼栋，数据量包括10000条”，在将该生成指令输入到训练后的GPT3.5模型后，该模型通过获取到的信息字段则为“姓名、性别、出生日期、年龄、职业、虚拟化向以及办公地”，而对应的需求条件则为“数据量为10000条，数据要符合A街道人口年龄、性别以及职业分布”。

步骤S30，基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据。

在本实施例中，GPT3.5模型在获取到信息字段以及需求条件后，可以基于当前的地理位置进行得到模糊需求条件对应的实际需求参数。具体的，信息字段为姓名、性别、出生日期、年龄、职业、虚拟画像以及居住地址，需求条件为M条数据，且数据符合A区人口年龄分布以及性别分布时，基于此可以获取所述A区对应的训练样本，并基于所述训练样本关联的人口年龄分布以及性别分布信息，确定所述需求条件中男女性别比的比例数据，以及年龄分布占比数据，随后根据比例数据、所述占比数据以及所述信息字段生成M条所述虚拟敏感数据。例如A区人口年龄分布具体为：“0-15岁占18%，16-65岁占70%，65岁以上占12%”，性别分布为“男女占比52:48”，基于此，生成的10000条数据中，需要5200条左右的数据对应的性别为男性，其余4800条数据对应的性别为女性，且每条数据的年龄分布要符合0-15岁在1800条左右，16-65岁的数据在7000条左右，65岁的数据在1200条左右。

需要说明的是，由于预处理的数据当中，性别以及年龄等信息是不需要经过脱敏处理的，因此可以保障A区对应的训练样本中，人口以及年龄的分布是符合实际需求的，使得生成的目标虚拟敏感数据中，每条数据对应的年龄以及性别分布是符合当前区域实际状况，进而可以保障在进行系统测试时，得到的结果与当前区域的结果相近，进而保障进行系统测试时结果的准确性。

可选地，在A区对应的训练样本不存在时，可以获取与所述A区关联区域对应的目标样本，例如跟A区的经济发展水平、人口数量相近的B区的目标样本，并根据所述信息字段、所述目标样本对应的目标比例系数以及目标占比数据生成M条所述目标虚拟敏感数据。基于此可以保障当前生成的虚拟敏感数据基本符合系统测试的需求，在该场景下提高目标虚拟敏感数据的可用性。

在本实施例公开的技术方案中，通过对大量的真实数据进行脱敏及混淆处理后，将得到的混淆数据用于GPT3.5模型的训练，并将训练后的GPT3.5模型投入到实际使用当中，通过接收到当前的生成指令确定生成指令关联的信息字段以及模糊需求条件，根据生成指令的地址信息自动生成符合实际需求的所述模糊需求条件对应的目标虚拟敏感数据，提高对存在模糊需求的虚拟敏感数据生成指令的处理能力，进而提高生成的虚拟敏感数据的可用性。

基于第一实施例，提出本发明数据生成方法的第二实施例。

在本实施例中，通过训练后的GPT3.5模型具备较强的数据处理能力，能够针对不同场景批量智能生成目标虚拟敏感数据，同时保障目标虚拟敏感数据的分布符合测试需求，对应的特征不会脱离实际情况。

具体的，在一可选应用场景中，当前的生成指令包括“C区社保局社保开户功能测试：生成一批公司参保人员名单，要求符合合理薪资分布等要求，字段包括姓名、身份证号、缴费标准等，数据量10000条。”在将该生成指令输入到训练后的GPT3.5模型后，得到信息字段为“姓名、身份证号、缴费标准”，需求条件为“符合C区的薪资分布需求，数据量为10000条”，基于此GPT3.5模型获取到的C区的训练数据中，薪资分布情况为“0-5000占30%，5000-15000占50%，15000以上占20%”，在生成10000条数据时，薪资分布要满足当前的需求。此时生成的10000条数据满足当前的薪资需求。而在处理其他场景的数据，例如生成指令包括：“生成一批应用到学位预测模型的，D区学龄青少年及其家长信息，要求符合D区人口年龄、性别分布，字段包括学生姓名、性别、出生日期、年龄、户口所在地、家长职业、家长户口所在地、居住地址等，数据量10000条。”，在训练后的GPT3.5模型面对另一场景的数据时，同样能够基于其庞大的训练样本计算出D区人口年龄，性别分布及其对应的家长的职业等信息，进而生成符合应用于学位预测模型的虚拟敏感数据。

可选地，在另一场景中，生成指令包括：“生成一批应用到社康医疗资源规划的F区居住人员信息，要求符合F区各种疾病的占比分布，字段包括姓名、性别、出生日期、年龄、健康状况、慢性病情况、过敏情况、医保情况、居住地址等，数据量10000条。”时，训练后的GPT3.5模型能够根据F区的疾病占比分布状况生成满足社康医疗资源规划的虚拟敏感数据。

在本实施例公开的技术方案中，训练后的GPT3.5模型能够对不同应用场景下对应的不同的模糊需求生成符合当前应用场景的虚拟敏感数据，进而避免在应用场景发生变化时，生成的目标虚拟敏感数据的可用性降低的问题，进而提高虚拟敏感数据的可用性。

请参照图2，在第三实施例中，基于第一实施例，步骤S30具体包括：

步骤S31，训练后的所述GPT3.5模型根据所述信息字段、所述需求条件生成第一虚拟敏感数据；

在本实施例中，数据脱敏时可能会包括偏移以及掩蔽等脱敏操作，此类脱敏操作会降低数据的可读性以及可用性，进而导致训练后的GPT3.5模型生成的目标虚拟敏感数据的使用效果较差，例如生成的虚拟敏感数据中，身份证信息为“123456111122223456”或“11**1122*2223**555”等明显不符合实际应用需求的数据。因此需要对生成的虚拟敏感数据进行校验，以及对校验不同的虚拟敏感数据进行反脱敏处理。

步骤S32，对所述第一虚拟敏感数据进行校验，并对校验不通过的第二虚拟敏感数据进行修正处理；

在本实施例中，对第一虚拟敏感数据进行校验之前，还需要确定校验规则。因此在此之前，还需要获取所述生成指令关联的地理位置，并基于所述地理位置确定当前城市信息，随后确定所述城市信息关联的城市编码、城市医疗指数和/或城市发展指数，并根据所述城市编码、所述城市医疗指数和/或所述城市发展指数生成数据校验规则以及数据修正规则。需要说明的是，城市编码可以用于确定身份证信息中前六位编码是否符合当前区域的信息，或者是城市地区的信息，所述城市医疗指数指的是当前城市的医疗状况，具体包括当前出现的疾病、所有疾病的占比、以及所有疾病对应的人员比例，例如普通疾病占比为a%，重大疾病占比b%等。所述城市发展指数指的是城市的经济水平，可以基于当前经济水平判断当前生成的虚拟敏感数据是否符合当前城市的需求。

可选地，还可确定与当前城市信息关联的其他重要数据，例如城市房屋租赁指数，城市社会保险指数，城市教学资源数据等。

在确定数据校验规则以及所述数据修正规则后，可以根据所述数据校验规则对所述第一虚拟敏感数据进行校验，当存在校验不通过的所述第二虚拟敏感数据时，基于所述数据修正规则对所述第二虚拟敏感数据进行修正处理。可以理解的是，若不存在校验不同的所述虚拟敏感数据，则说明当前生成的第一虚拟敏感数据符合实际需求，则可将第一虚拟敏感数据作为所述目标虚拟敏感数据。

示例性的，若生成的虚拟敏感数据中，存在一条数据A，在该数据中用户的身份证地址为A市A1区xx街道xx楼xx号，而对应的身份证信息为“410200”（B省B1市），此时通过城市编码可以判断此条数据存在错误，因此可以将其修正为“440306”；可选地，若生成的用于A市A2区医疗资源规划的测试数据中，存在20例冠心病的数据，而根据城市医疗指数可以确定的是，A市A2区中并不存在冠心病的病人，此时可以对20例冠心病的数据进行修正；可选地，在生成的A市A1区A3公司的社保数据中，存在103例数据中，社保的缴纳基数为1000元，而根据城市发展指数可以确定的A市A1区对应的社保缴纳基数最低为2360元，基于此，可以将103条数据对应的社保缴纳基数修正至2360元以上。

需要说明的是，上述数据仅用于解释说明，并非是对本方案的限定。

可以理解的是，通过对存在明显错误的虚拟敏感数据进行修正，可以提高数据的实用性。

步骤S33，将校验通过的所述第一虚拟敏感数据和/或修正后的所述第二虚拟敏感数据，作为所述目标虚拟敏感数据

在本实施例中，若第一虚拟敏感数据校验均通过，则目标虚拟敏感数据为所述第一虚拟敏感数据；若存在部分第一虚拟敏感数据不通过校验，则目标虚拟敏感数据由校验通过的第一虚拟敏感数据和修正后的第二虚拟敏感数据组成；若所有第一虚拟敏感数据均校验失败，则目标虚拟敏感数据则有修正后的第二虚拟敏感数据组成。

在本实施例公开的技术方案中，在基于训练后的GPT3.5模型、信息字段以及需求条件生成虚拟敏感数据后，为避免GPT3.5模型在训练阶段中，由于脱敏规则的不合理导致训练后的GPT3.5模型的生成的敏感数据不符合需求，通过生成指令关联的城市信息确定城市编码、城市医疗指数和/或城市发展指数等，对不同场景中生成的虚拟敏感数据进行校以及修正处理，进而提高虚拟敏感数据生成后的实用性。

请参照图3，在第四实施例中，基于第三实施例，步骤S33之后，还包括：

步骤S34，获取所述生成指令关联的虚拟数据应用任务；

步骤S35，将所述目标虚拟敏感数据发送至所述虚拟数据应用任务中，并获取所述虚拟数据应用任务反馈的测试结果；

步骤S36，当所述测试结果中存在一条或多条数据不满足测试需求时，确定不满足所述测试需求的N条数据，并根据训练后的所述GPT3.5模型、所述信息字段以及所述需求条件，生成N条所述目标虚拟敏感数据。

在本实施例中，当生成指令关联有虚拟数据应用任务时，可以直接获取该应用任务，提高数据生成后的应用效率。而在将目标虚拟敏感数据应用到实际场景后，获取反馈结果，基于反馈结果确定经过校验及修正处理后的数据是否能满足实际的应用需求。在存在不满足实际应用需求的N条数据时，可以重新基于信息字段以及需求条件生成N条目标虚拟敏感数据。

在本实施例公开的技术方案中，通过实际应用进一步对虚拟敏感数据进行校验，在出现不满足测试需求的数据时，可以直接判断当前数据出错，进而重新生成目标虚拟敏感数据，通过重新生成虚拟敏感数据的方式，提高目标虚拟敏感数据的实用性。

参照图4，图4为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

如图4所示，该终端可以包括：处理器1001，例如中央处理器（Central ProcessingUnit，CPU），通信总线1002、网络接口1003，存储器1004。其中，通信总线1002用于实现这些组件之间的连接通信。网络接口1003可选的可以包括标准的有线接口、无线接口（如无线保真（WIreless-FIdelity，WI-FI）接口）。存储器1004可以是高速的RAM存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1004可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种计算机存储介质的存储器1004中可以包括操作系统、数据存储模块、网络通信模块以及数据生成程序。

在图4所示的终端中，网络接口1003主要用于连接后台服务器，与后台服务器进行数据通信；处理器1001可以调用存储器1004中存储的数据生成程序，并执行以下操作：

进一步地，处理器1001可以调用存储器1004中存储的数据生成程序，还执行以下操作：

通过所述混淆数据对所述GPT3.5模型进行训练。

根据所述数据校验规则对所述第一虚拟敏感数据进行校验；

获取所述生成指令关联的虚拟数据应用任务；

获取所述A区对应的训练样本；

此外，本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可以存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被控制终端中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有数据生成程序，所述数据生成程序被处理器执行时实现如上实施例所述的数据生成方法的各个步骤。

需要说明的是，由于本申请实施例提供的存储介质，为实施本申请实施例的方法所采用的存储介质，故而基于本申请实施例所介绍的方法，本领域所属人员能够了解该存储介质的具体结构及变形，故而在此不再赘述。凡是本申请实施例的方法所采用的存储介质都属于本申请所欲保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例，或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框，以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二，以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种数据生成方法，其特征在于，所述数据生成方法包括：

获取到真实数据后，确定所述真实数据的所有字段的脱敏规则；

基于所述脱敏规则对所述真实数据进行脱敏处理，并对脱敏处理后的数据进行混淆处理，得到混淆数据；

将带标签数据集对应的句子输入到GPT3.5模型中，并将转换器模型块中最后一个单词对应的输出特征，输入到线性层中进行预测，得到微调后的目标函数，其中，目标函数公式如下：

，

是用于训练的所述混淆数据，θ是模型参数，k是上下文窗口大小，i指的是计算的总数，i在1-n之间，这里的n指的是训练的混淆数据的总数，而通过U的前K个词可以预测U的值，即/>，具体的计算过程如下公式所示：

，We是token映射矩阵，Wp是位置编码，Transformer 层数为n，transformer_block为转换器模型块，在该公式中n为所述混淆数据的总数，随后在下游任务中对所述目标函数预测得到：，（x¹，...，x^m）指的是数据集，Wy指的是y标签的位置编码，/>指的是转换器模型块的最后一个词的输出特征，随后在此基础上得到所述微调后的目标函数为：

；

2.如权利要求1所述的数据生成方法，其特征在于，所述基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据的步骤包括：

对所述第一虚拟敏感数据进行校验，并对第二虚拟敏感数据进行修正处理，其中，所述第一虚拟敏感数据中校验不通过的数据为所述第二虚拟敏感数据；

3.如权利要求2所述的数据生成方法，其特征在于，所述对所述第一虚拟敏感数据进行校验，并对第二虚拟敏感数据进行修正处理的步骤之前，还包括：

所述对所述第一虚拟敏感数据进行校验，并对第二虚拟敏感数据进行修正处理的步骤包括：

根据所述数据校验规则对所述第一虚拟敏感数据进行校验；

当所述第一虚拟敏感数据中存在校验不通过的所述第二虚拟敏感数据时，基于所述数据修正规则对所述第二虚拟敏感数据进行修正处理。

4.如权利要求2所述的数据生成方法，其特征在于，所述将校验通过的所述第一虚拟敏感数据和/或修正后的所述第二虚拟敏感数据，作为所述目标虚拟敏感数据的步骤之后，还包括：

获取所述生成指令关联的虚拟数据应用任务；

5.如权利要求1所述的数据生成方法，其特征在于，所述信息字段为姓名、性别、出生日期、年龄、职业、虚拟画像以及居住地址，所述需求条件为M条数据，且数据要符合A区人口年龄分布以及性别分布；所述基于所述训练后的所述GPT3.5模型，根据所述信息字段以及所述需求条件，生成目标虚拟敏感数据的步骤包括：

获取所述A区对应的训练样本；

6.如权利要求5所述的数据生成方法，其特征在于，所述获取所述A区对应的训练样本的步骤之后，还包括：

7.一种数据生成装置，其特征在于，所述数据生成装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据生成程序，所述数据生成程序被所述处理器执行时实现如权利要求1至6中任一项所述的数据生成方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据生成程序，所述数据生成程序被处理器执行时实现如权利要求1至6中任一项所述的数据生成方法的步骤。