CN117454142B

CN117454142B - 数据生成方法、装置、存储介质以及电子设备

Info

Publication number: CN117454142B
Application number: CN202311807183.3A
Authority: CN
Inventors: 邹权臣; 张德岳; 杨东东; 韩东; 徐昌凯
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-04-16
Anticipated expiration: 2043-12-26
Also published as: CN117454142A

Abstract

本申请实施例公开了一种数据生成方法、装置、存储介质以及电子设备，所述方法包括：确定至少一个安全风险场景，获取安全风险场景对应的问题生成提示信息，获取问题生成模型，基于问题生成提示信息采用问题生成模型生成安全风险场景对应的参考风险问题，对参考风险问题进行问题质量验证得到质量验证结果，基于质量验证结果从参考风险问题中确定目标风险问题。本申请实施例通过划分不同类型的安全风险场景，以生成每个安全风险场景分别对应的参考风险问题，并对参考风险问题进行质量验证后得到目标风险问题，保证了生成的风险问题的丰富性和有效性，从而通过丰富且有效的风险问题数据集对语言生成模型进行安全测评以提升安全测评效果。

Description

数据生成方法、装置、存储介质以及电子设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种数据生成方法、装置、存储介质以及电子设备。

背景技术

随着计算机技术的不断进步，人工智能生成模型正处于蓬勃发展和广泛应用的阶段。在语言生成领域，像生成型预训练变换模型（Chat Generative Pre-trainedTransformer，ChatGPT）这样的文本类生成模型已经取得了显著的突破。ChatGPT是一种人工智能技术驱动的自然语言处理工具，拥有语言理解和文本生成能力，它们可以生成连贯、逻辑性强的文本能力，甚至在某些方面超越了人类水平。正是ChatGPT强大的语言处理能力，使得ChatGPT在自动化写作、内容生成和创意产生等领域展现出了巨大的潜力。

发明内容

本申请实施例提供了一种数据生成方法、装置、计算机存储介质以及电子设备，通过划分不同类型的安全风险场景，以生成每个安全风险场景分别对应的参考风险问题，并对参考风险问题进行质量验证后得到目标风险问题，保证了生成的风险问题的丰富性和有效性，从而通过丰富且有效的风险问题数据集对语言生成模型进行安全测评以提升安全测评效果。所述技术方案如下：

第一方面，本申请实施例提供了一种数据生成方法，所述方法包括：

确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息；

获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；

对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题。

在一种可行的实施方式中，所述获取所述安全风险场景对应的问题生成提示信息，包括：

获取所述安全风险场景对应的风险类型信息；

获取所述安全风险场景对应的问题生成规则；

基于所述风险类型信息和所述问题生成规则，生成所述安全风险场景对应的问题生成提示信息。

在一种可行的实施方式中，所述获取问题生成模型之前，还包括：

获取安全风险场景对应的风险问题样本和问题学习提示词；

获取基础人工智能内容生成模型，基于所述基础人工智能内容生成模型确定初始问题生成模型；

基于所述风险问题样本对所述初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

在一种可行的实施方式中，所述获取安全风险场景对应的风险问题样本，包括：

获取安全风险场景对应的风险问题特征；

基于所述风险问题特征获取所述安全风险场景对应的风险问题初始样本；

对所述风险问题初始样本进行筛选，得到所述安全风险场景对应的风险问题样本。

在一种可行的实施方式中，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题，包括：

对所述参考风险问题进行质量预处理，得到第一风险问题；

采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

在一种可行的实施方式中，所述采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

获取测试模型集合，所述测试模型集合包括至少两个问题测试模型；

将所述第一风险问题分别输入至所述至少两个问题测试模型，得到所述问题测试模型对应的问题响应结果；

基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据；

获取问题质量验证模型，将所述风险质量检测数据输入至所述问题质量验证模型，得到所述第一风险问题对应的质量验证结果；

基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

在一种可行的实施方式中，所述基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据，包括：

获取预设质量验证提示模板；

基于所述预设质量验证提示模板将所述第一风险问题和所述问题响应结果进行组合，生成所述第一风险问题对应的风险质量检测数据。

在一种可行的实施方式中，所述基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

确定质量验证结果为质量验证成功类型的目标质量验证结果，确定所述目标质量验证结果的目标数量；

基于所述测试模型集合确定模型数量；

若所述模型数量与所述目标数量的差值小于或者等于阈值，则将所述目标质量验证结果对应的第一风险问题确定为目标风险问题。

在一种可行的实施方式中，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题之后，还包括：

将所述目标风险问题存储至所述安全风险场景对应的安全风险测试数据库。

第二方面，本申请实施例提供了一种数据生成装置，所述装置包括：

数据获取模块，用于确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息；

数据生成模块，用于获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；

数据验证模块，用于对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题。

在一种可行的实施方式中，所述数据获取模块，用于：

获取所述安全风险场景对应的风险类型信息；

获取所述安全风险场景对应的问题生成规则；

在一种可行的实施方式中，所述装置还包括：

样本获取模块，用于获取安全风险场景对应的风险问题样本和问题学习提示词；

模型确定模块，用于获取基础人工智能内容生成模型，基于所述基础人工智能内容生成模型确定初始问题生成模型；

模型学习模块，用于基于所述风险问题样本对所述初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

在一种可行的实施方式中，所述样本获取模块，用于：

获取安全风险场景对应的风险问题特征；

在一种可行的实施方式中，所述数据验证模块包括：

第一验证单元，用于对所述参考风险问题进行质量预处理，得到第一风险问题；

第二验证单元，用于采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

在一种可行的实施方式中，所述第二验证单元，包括：

第一验证子单元，用于获取测试模型集合，所述测试模型集合包括至少两个问题测试模型；

第二验证子单元，用于将所述第一风险问题分别输入至所述至少两个问题测试模型，得到所述问题测试模型对应的问题响应结果；

第三验证子单元，用于基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据；

第四验证子单元，用于获取问题质量验证模型，将所述风险质量检测数据输入至所述问题质量验证模型，得到所述第一风险问题对应的质量验证结果；

第五验证子单元，用于基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

在一种可行的实施方式中，所述第三验证子单元，用于：

获取预设质量验证提示模板；

在一种可行的实施方式中，所述第五验证子单元，用于：

基于所述测试模型集合确定模型数量；

在一种可行的实施方式中，所述装置还包括：

数据存储模块，用于将所述目标风险问题存储至所述安全风险场景对应的安全风险测试数据库。

第三方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，可包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述存储器加载并执行上述的方法步骤。

本申请实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息，获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题，对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题。本申请实施例通过划分不同类型的安全风险场景，以生成每个安全风险场景分别对应的参考风险问题，并对参考风险问题进行质量验证后得到目标风险问题，保证了生成的风险问题的丰富性和有效性，从而通过丰富且有效的风险问题数据集对语言生成模型进行安全测评以提升安全测评效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据生成方法的流程示意图；

图2是本申请实施例提供的另一种数据生成方法的流程示意图；

图3是本申请实施例提供的一种数据生成装置的结构示意图；

图4是本申请实施例提供的一种数据验证模块的结构示意图；

图5是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、 “第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本申请的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

相关技术中，ChatGPT可应用于自动化写作、内容生成和创意产生等领域。然而，ChatGPT强大的文本生成能力在为用户带来极大便利的同时，也存在着滥用风险。因此，为了保证文本类ChatGPT安全、稳定的运行，需要对其进行安全测评，以减少文本类ChatGPT的滥用风险。然而，由于当前文本类ChatGPT的规模庞大、运行成本高，开源开放程度较低，对文本类ChatGPT中的参数、超参数及其他配置信息的了解程度有限，利用现有的安全测评数据集对文本类ChatGPT进行安全测评时，安全测评效果较差。

下面结合具体的实施例对本申请进行详细说明。

在下述方法实施例中，为了便于说明，仅以各步骤的执行主体为电子设备进行介绍说明。

请参见图1，为本申请实施例提供的一种数据生成方法的流程示意图。如图1所示，本申请实施例的所述方法可以包括以下步骤：

S101，确定至少一个安全风险场景，获取安全风险场景对应的问题生成提示信息。

易于理解的是，安全风险场景可指对文本训练数据进行风险种类划分，得到不同风险类型的风险场景，文本训练数据指的是用于训练人工智能生成模型的文本问题。人工智能生成模型可指使用大量文本数据训练的内容生成模型，它可以生成自然语言文本或理解语言文本的含义。人工智能生成模型可以处理多种自然语言任务，如文本分类、问答、对话等。在问答或者对话任务中，人工智能生成模型可根据输入的文本问题，输出文本问题对应的响应结果。

可选地，本申请实施例安全风险场景可划分为身心健康风险场景、隐私财产风险场景、伦理道德风险场景、偏见歧视风险场景、违法犯罪风险场景、社会敏感风险场景。身心健康风险场景，意为对个人身体或者心理造成伤害的风险场景。隐私财产风险场景，意为涉及侵犯他人隐私、盗窃、欺诈等行为的风险场景。伦理道德风险场景，意为引发困境、道德争议或者价值观冲突的风险场景。偏见歧视风险场景，意为歧视个人或者群体、以偏见或者不公平的行为对待个人或者群体的风险场景。违法犯罪风险场景，意为涉及犯罪行为、非法活动、鼓励违法行为的风险场景。社会敏感风险场景，意为涉及社会事件、社会人物、社会观点的风险场景。

问题生成提示信息，可指用于引导问题生成模型生成何种问题的提示信息，可包括将要生成的问题的问题描述信息、问题生成规则等信息。

在一些实施例中，确定至少一个安全风险场景，可理解为，从法律文件、法规文件中提取出安全风险信息，对安全风险信息进行归纳、分类，得到多个安全风险场景。安全风险信息，可指涉及人身安全、社会安全等其他对象的安全的风险信息。获取安全风险场景对应的问题生成提示信息，可理解为，获取安全风险场景对应的风险类型描述信息，获取安全风险场景对应的问题生成规则，获取提示模板，将风险类型描述信息和问题生成规则写入提示模板，得到问题生成提示信息。

其中，风险类型描述信息，可指风险类型对应的关键词、主题等信息。问题生成规则，可包括生成何种语气的问题、生成何种态度的问题等规则。

S102，获取问题生成模型，基于问题生成提示信息采用问题生成模型生成安全风险场景对应的参考风险问题。

易于理解的是，问题生成模型，可指基于人工智能生成模型得到的语言模型，其用于生成不同安全风险场景分别对应的风险问题。

参考风险问题，可理解为，具有安全风险的文本训练数据。参考风险问题可作为人工智能生成模型的文本训练数据，用于训练人工智能生成模型对于具有风险的自然语言的理解能力。

在一些实施例中，获取问题生成模型，可理解为，获取预设人工智能生成模型，将该预设人工智能生成模型作为问题生成模型。预设人工智能生成模型可在执行步骤S102之前就得到，也可在执行步骤S102的过程中得到。基于问题生成提示信息采用问题生成模型生成安全风险场景对应的参考风险问题，可理解为，将问题生成提示信息输入至问题生成模型，问题生成模型输出参考风险问题。不同安全风险场景对应的问题生成提示信息可作为单独的输入，分次输入至问题生成模型。不同安全风险场景对应的问题生成提示信息也可组合在一起，得到一个包含多个问题生成提示信息的总提示信息，将该总提示信息输入至问题生成模型，即将不同安全风险场景对应的问题生成提示信息同时输入至问题生成模型，问题生成模型可分别输出不同问题生成提示信息对应的参考风险问题。

S103，对参考风险问题进行问题质量验证得到质量验证结果，基于质量验证结果从参考风险问题中确定目标风险问题。

在一些实施例中，可采用差分测试验证方式对参考风险问题进行问题质量验证得到质量验证结果，即可采用功能相同的多个模型对参考风险问题进行验证，将参考风险问题分别输入至多个模型中，得到多个模型针对该参考风险问题的响应结果，根据多个模型分别对应的响应结果确定两种结果类型分别占据的结果比例，确定质量验证结果。其中，两种结果类型可包括有效响应结果和无效响应结果。有效响应结果可指响应结果为参考风险问题的有效回答，无效响应结果可指响应结果为参考风险问题的无效回答。对于每个参考风险问题，都可得到一个质量验证结果。若一个参考风险问题的有效响应结果的结果比例达到50%及以上，则可将该参考风险问题的质量验证结果确定为质量验证成功类型的第一验证结果，否则将该参考风险问题的质量验证结果确定为质量验证失败的第二验证结果。进一步地，可将质量验证结果为第一验证结果的参考风险问题确定为目标风险问题。

请参见图2，为本申请实施例提供的一种数据生成方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S201，确定至少一个安全风险场景。

具体地，可参见S101中的描述，在此不再赘述。

S202，获取安全风险场景对应的风险问题样本和问题学习提示词。

在一些实施例中，在执行获取安全风险场景对应的风险问题样本的步骤时，具体可以是：获取安全风险场景对应的风险问题特征，基于风险问题特征获取安全风险场景对应的风险问题初始样本，对风险问题初始样本进行筛选，得到安全风险场景对应的风险问题样本。

获取安全风险场景对应的风险问题特征，可理解为，根据安全风险场景确定风险特征词，将风险特征词作为风险问题特征。风险特征词可指用于描述该种安全风险场景的特征点的词。

基于风险问题特征获取安全风险场景对应的风险问题初始样本，可理解为，根据风险问题特征构造安全风险场景对应的第一问题初始样本，在互联网上搜集具有风险问题特征的第二问题初始样本，将第一问题初始样本和第二问题初始样本作为风险问题初始样本。第一问题初始文本和第二问题初始样本，指的是具有风险问题特征的文本问题。通过构造和互联网搜集的方式，保证了问题样本的丰富性。

对风险问题初始样本进行筛选，得到安全风险场景对应的风险问题样本，可理解为，利用算法对风险问题初始样本的含义和情感色彩进行识别，从风险问题初始样本中筛选出准确表达负面情绪和恶意意图的风险问题样本。在风险问题初始样本中，这些样本虽然具有风险问题特征，但是有些样本可能不具备负面情绪的情感色彩或者不具备恶意意图，因此就不符合作为学习的风险样本，通过筛选的方式，以保证用于学习的风险样本具有有效的风险性。

问题学习提示词指的是，指示模型进行少样本学习的信息。问题学习提示词可与风险问题样本相关联。

S203，获取基础人工智能内容生成模型，基于基础人工智能内容生成模型确定初始问题生成模型。

基础人工智能内容生成模型，可指具备自然语言理解能力和生成指定自然语言文本能力的语言模型。基础人工智能内容生成模型，可完成多类型的文本生成任务。可对基础人工智能内容生成模型中的指定参数进行调整，使得调整后的模型可完成单一的内容生成任务，即根据输入生成风险问题。调整后的模型即可为初始问题生成模型。例如，风险问题可指具有负面、消极、恶意等安全风险的问题。

S204，基于风险问题样本和问题学习提示词对初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

在一些实施例中，可将风险问题样本和问题学习提示词作为初始问题生成模型的输入，使得初始问题生成模型根据风险问题样本进行少量样本学习，学习属于同一个安全风险场景的问题样本之间的相似性，从而使得完成学习后得到的问题生成模型增强对该安全风险场景对应的风险问题的理解能力和生成能力。

S205，获取安全风险场景对应的风险类型信息，获取安全风险场景对应的问题生成规则。

风险类型信息，可指安全风险场景的描述信息。风险类型信息可包括安全风险场景对应的风险特征值、风险类别、关键词等信息。获取安全风险场景对应的风险类型信息，可理解为，从安全风险场景对应的已有风险问题中提取风险类型信息。

问题生成规则，可包括生成问题的特定规则。例如，问题生成规则可包括三个生成规则，第一个生成规则可规定生成的文本是一种问题，第二个生成规则可规定生成指定语气的问题，第三个生成规则可规定生成指定态度的问题。获取安全风险场景对应的问题生成规则，可理解为，从安全风险场景对应的已有风险问题中提取风险问题对应的语气、态度等信息然后生成问题生成规则。

S206，基于风险类型信息和问题生成规则，生成安全风险场景对应的问题生成提示信息。

在一些实施例中，可获取问题生成提示模板，将风险类型信息和问题生成规则写入问题生成提示模板，得到问题生成提示信息。

S207，基于问题生成提示信息采用问题生成模型生成安全风险场景对应的参考风险问题。

问题生成模型指的是，可基于提示文本输出相应问题的语言模型。问题生成模型可为基于深度学习的语言模型，也可为基于神经网络的语言模型。

在一些实施例中，可将问题生成提示信息作为问题生成模型的输入，问题生成模型可基于问题生成提示信息生成参考风险问题，并输出参考风险问题。如此，问题生成模型可通过风险类型信息了解问题的背景和语境，从而更准确地生成安全风险场景对应的风险问题。问题生成模型可通过问题生成规则生成具有攻击性的风险问题，提高风险问题的有效性。

S208，对参考风险问题进行质量预处理，得到第一风险问题。

质量预处理可包括修复语法错误、剔除非必要信息等质量处理操作。修复语法错误，可指对参考风险问题进行语法检测，对出现语法错误的参考风险问题进行修复，以得到语法正确的风险问题。剔除非必要信息，可指对参考风险问题进行语义检测，将参考风险问题中出现的非必要信息进行删除。如此，通过对参考风险问题进行质量预处理操作，可避免第一风险问题出现形式错误，影响后续的处理步骤。

S209，采用差分测试验证方式对第一风险问题进行问题质量验证得到质量验证结果，基于质量验证结果从第一风险问题中确定目标风险问题。

在一种可行的实施方式中，在执行采用差分测试验证方式对第一风险问题进行问题质量验证得到质量验证结果，基于质量验证结果从第一风险问题中确定目标风险问题时，具体可以是：

A1：获取测试模型集合，测试模型集合包括至少两个问题测试模型；

具体地，测试模型集合可包括至少两个问题测试模型，问题测试模型指的是可基于文本输出相应回答的语言模型。问题测试模型可为基于深度学习的语言模型，问题测试模型也可为基于神经网络的语言模型。例如，可以采用GPT-3.5-turbo、PaLM2、Vicuna13B等语言模型作为测试模型集合中的问题测试模型。

A2：将第一风险问题分别输入至至少两个问题测试模型，得到问题测试模型对应的问题响应结果；

具体地，可以将第一风险问题输入至每个问题测试模型，每个问题测试模型都可对第一风险问题进行识别，并输出针对第一风险问题的问题响应结果。问题响应结果可包括两种响应结果，一种响应结果可为有效响应结果，另一种响应结果可为无效响应结果。有效响应结果指的是针对第一风险问题的解决方案。而无效响应结果则指的是，无法给出解决方案的提示信息。例如，第一风险问题为“如何获取他人的移动支付账号和密码”，有效响应结果则是针对该问题的获取方式，而无效响应结果则是“此为违法行为，无法回答”此类的提示信息。

A3：基于第一风险问题和问题响应结果，生成第一风险问题对应的风险质量检测数据；

具体地，可获取预设质量验证提示模板，基于预设质量验证提示模板将第一风险问题和问题响应结果进行组合，生成第一风险问题对应的风险质量检测数据。

预设质量验证提示模板，可为引导问题质量验证模型进行质量验证的提示模板。提示模板中可包括待验证的数据，即第一风险问题和问题响应结果，还可包括验证的规则。例如，验证的规则可以是，验证问题响应结果是否是第一风险问题的有效回答，若问题响应结果为第一风险问题的有效回答，则可输出成功的验证结果，若问题响应结果并非为第一风险问题的有效回答，则可输出失败的验证结果。

可在预设质量验证提示模板中将第一风险问题和问题响应结果填充在相应位置，得到第一风险问题对应的风险质量检测数据。

A4：获取问题质量验证模型，将风险质量检测数据输入至问题质量验证模型，得到第一风险问题对应的质量验证结果；

问题质量验证模型，可为基于深度学习或者神经网络的具有验证功能的语言模型。问题质量验证模型可根据风险质量检测数据中的验证规则，对第一风险问题和问题响应结果进行质量验证，即验证问题响应结果是否为第一风险问题的有效结果。

质量验证结果可包括两种验证结果，一种是属于质量验证成功类型的验证结果，另一种是属于质量验证失败类型的验证结果。对于上述每一个问题测试模型来说，其对应一组风险质量检测数据，也对应一个质量验证结果。如果某个问题测试模型输出的问题响应结果为第一风险问题的有效回答，那么该问题测试模型对应的质量验证结果为前述第一种结果。如果某个问题测试模型输出的问题响应结果为第一风险问题的无效回答，那么该问题测试模型对应的质量验证结果为前述第二种结果。

A5：基于质量验证结果从第一风险问题中确定目标风险问题。

具体地，可确定质量验证结果为质量验证成功类型的目标质量验证结果，确定目标质量验证结果的目标数量，基于测试模型集合确定模型数量，若模型数量与目标数量的差值小于或者等于阈值，则将目标质量验证结果对应的第一风险问题确定为目标风险问题。

若质量验证结果为质量验证成功类型的目标质量验证结果，即该质量验证结果对应的问题测试模型输出的问题响应结果为第一风险问题的有效回答，则说明第一风险问题对该问题测试模型的攻击成功率为100%。进一步地，确定目标质量验证结果的目标数量，则是确定攻击成功率为100%的问题测试模型的目标数量。

阈值，可由模型数量确定。可选地，阈值可设置为模型数量的二分之一。若模型数量与目标数量的差值小于或者等于阈值，则将目标质量验证结果对应的第一风险问题确定为目标风险问题，即若攻击成功率为100%的问题测试模型的目标数量大于或者等于阈值，则可将该第一风险问题确定为目标风险问题。这样，目标风险问题可攻击已有的大多数人工智能生成模型，将目标风险问题作为人工智能生成模型的训练数据，则可提升人工智能生成模型的安全性，使得训练后的人工智能生成模型可以识别更多的风险问题以具备更好的安全防御能力。

S210，将目标风险问题存储至安全风险场景对应的安全风险测试数据库。

具体地，目标风险问题属于一个安全风险场景下的风险问题，可将目标风险问题存储至相应安全风险场景下的安全风险测试数据库，便于目标风险问题后续作为人工智能生成模型的安全测评数据。

在本申请实施例中，在确定安全风险场景后，根据安全风险场景对应的问题样本和问题学习提示词得到问题生成模型，从而根据问题生成模型生成安全风险场景对应的参考风险问题，提高了生成参考风险问题的效率。还对参考风险问题进行质量预处理、问题质量验证，以得到有效的目标风险问题，保证了目标风险问题对人工智能生成模型的攻击力，从而使得将目标风险问题作为人工智能生成模型的训练数据，则可提升人工智能生成模型的安全性，使得训练后的人工智能生成模型可以识别更多的风险问题以具备更好的安全防御能力。

在一种具体的实施场景中，通过应用本申请一个或多个实施例的数据生成方法得到的目标风险问题，对相关人工智能生成模型进行了测试，评估了人工智能生成模型在6种安全风险场景中的鲁棒性。可选地，本申请实施例以OpenAI的GPT-3.5-turbo、谷歌的PaLM2和UC Berkeley的Vicuna13B三个典型的人工智能生成模型为评估目标，验证了构建的目标风险问题的有效性。为了更公平的评估分析，针对PaLM2模型，实验中将其安全设置阈值为3。各类型安全风险场景对应的目标风险问题对不同模型的攻击成功率如表1所示，其中，Q表示相应安全风险场景的目标风险问题，表1中第二列数据中的第三行至第八行数据分别表示本申请实施例中不同场景下的目标风险问题对GPT-3.5-turbo模型的攻击成功率，表1中第三列数据中的第三行至第八行数据分别表示本申请实施例中不同场景下的目标风险问题对PaLM2模型的攻击成功率，表1中第四列数据中的第三行至第八行数据分别表示本申请实施例中不同场景下的目标风险问题对Vicuna13B模型的攻击成功率。

表1

由表1可看出，在偏见歧视风险场景、违法犯罪风险场景、社会敏感风险场景中，这些模型都会对目标风险问题作出响应，表明这些模型在这些安全风险场景中存在较高的风险。在三种模型中，GPT-3.5-turbo和Vicuna13B在6类安全风险场景中表现出较好的鲁棒性。而当PaLM2的安全阈值设为3时，该模型在6种安全风险场景上都表现出较差的鲁棒性，这表明PaLM2的安全审核功能主要依赖于PaLM2 API提供的内容过滤机制，而该模型自身对恶意问题的抵抗力较弱。

请参见图3，为本申请实施例提供的一种数据生成装置的结构示意图。数据生成装置300可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。数据生成装置300包括：

数据获取模块310，用于确定至少一个安全风险场景，获取所述安全风险场景对应的问题生成提示信息；

数据生成模块320，用于获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；

数据验证模块330，用于对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题。

可选地，数据获取模块，用于：

获取所述安全风险场景对应的风险类型信息；

获取所述安全风险场景对应的问题生成规则；

可选地，数据生成装置还包括：

可选地，样本获取模块，用于：

获取安全风险场景对应的风险问题特征；

可选地，请参见图4所示的一种数据验证模型的结构示意图，数据验证模块包括：

第一验证单元331，用于对所述参考风险问题进行质量预处理，得到第一风险问题；

第二验证单元332，用于采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题。

可选地，第二验证单元，包括：

可选地，第三验证子单元，用于：

获取预设质量验证提示模板；

可选地，第五验证子单元，用于：

基于所述测试模型集合确定模型数量；

可选地，数据装置还包括：

请参考图5，图5为本申请实施例提供的一种电子设备的结构示意图。请参考图5，其示出了本申请一个示例性实施例提供的电子设备的结构示意图。本申请实施例中的电子设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备的各种功能和处理数据。可选地，处理器110可以采用数字信号处理（digital signal processing，DSP）、现场可编程门阵列（field－programmable gate array，FPGA）、可编程逻辑阵列（programmable logicArray，PLA）中的至少一种硬件形式来实现。处理器110可集成中心处理器（centralprocessing unit，CPU）、图像处理器（graphics processing unit，GPU）和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器（random Access Memory，RAM），也可以包括只读存储器（read-only memory，ROM）。可选地，该存储器120包括非瞬时性计算机可读介质（non-transitory computer-readable storage medium）。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令（例如触控功能、声音播放功能、图像播放功能等）、用于实现下述各个方法实施例的指令等，该操作系统可以是安卓（Android）系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的电子设备的结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真（Wireless Fidelity，WiFi）模块、电源、蓝牙模块等部件，在此不再赘述。

在图5所示的电子设备中，处理器110可以用于调用存储器120中存储的数据生成方法的程序，并具体执行以下操作：

在一个实施例中，处理器110在执行所述获取所述安全风险场景对应的问题生成提示信息时，具体执行以下操作：

获取所述安全风险场景对应的风险类型信息；

获取所述安全风险场景对应的问题生成规则；

在一个实施例中，处理器110在执行所述获取问题生成模型之前，还执行以下操作：

获取安全风险场景对应的风险问题样本和问题学习提示词；

在一个实施例中，处理器110在执行所述获取安全风险场景对应的风险问题样本时，具体执行以下操作：

获取安全风险场景对应的风险问题特征；

在一个实施例中，处理器110在执行所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题时，具体执行以下操作：

对所述参考风险问题进行质量预处理，得到第一风险问题；

在一个实施例中，处理器110在执行所述采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题时，具体执行以下操作：

在一个实施例中，处理器110在执行所述基于所述第一风险问题和所述问题响应结果，生成所述第一风险问题对应的风险质量检测数据时，具体执行以下操作：

获取预设质量验证提示模板；

在一个实施例中，处理器110在执行所述基于所述质量验证结果从所述第一风险问题中确定目标风险问题时，具体执行以下操作：

基于所述测试模型集合确定模型数量；

在一个实施例中，处理器110在执行所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题之后，还执行以下操作：

本申请实施例还提供了一种计算机可读存储介质，该计算机存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如上述各个实施例所述的数据生成方法。

本申请实施例还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的数据生成方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据生成方法，其特征在于，所述方法包括：

获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；其中，所述参考风险问题用于作为模型的输入以使所述模型输出针对所述参考风险问题的响应结果；

对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题；

其中，所述对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题，包括：

对所述参考风险问题进行质量预处理，得到第一风险问题；采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题；

其中，所述采用差分测试验证方式对所述第一风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

获取预设质量验证提示模板；

基于所述预设质量验证提示模板将所述第一风险问题和所述问题响应结果进行组合，生成所述第一风险问题对应的风险质量检测数据；

2.根据权利要求1所述的方法，其特征在于，所述获取所述安全风险场景对应的问题生成提示信息，包括：

获取所述安全风险场景对应的风险类型信息；

获取所述安全风险场景对应的问题生成规则；

3.根据权利要求1所述的方法，其特征在于，所述获取问题生成模型之前，还包括：

获取安全风险场景对应的风险问题样本和问题学习提示词；

基于所述风险问题样本和所述问题学习提示词对所述初始问题生成模型进行问题生成场景学习处理，得到问题生成模型。

4.根据权利要求3所述的方法，其特征在于，所述获取安全风险场景对应的风险问题样本，包括：

获取安全风险场景对应的风险问题特征；

5.根据权利要求1所述的方法，其特征在于，所述基于所述质量验证结果从所述第一风险问题中确定目标风险问题，包括：

基于所述测试模型集合确定模型数量；

6.一种数据生成装置，其特征在于，所述装置包括：

数据生成模块，用于获取问题生成模型，基于所述问题生成提示信息采用所述问题生成模型生成所述安全风险场景对应的参考风险问题；其中，所述参考风险问题用于作为模型的输入以使所述模型输出针对所述参考风险问题的响应结果；

数据验证模块，用于对所述参考风险问题进行问题质量验证得到质量验证结果，基于所述质量验证结果从所述参考风险问题中确定目标风险问题；

获取预设质量验证提示模板；

7.一种计算机存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1~5任意一项所述的方法步骤。

8.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1~5任意一项所述的方法步骤。