CN117709439A

CN117709439A - 模型的风险处理方法及装置、电子设备、存储介质

Info

Publication number: CN117709439A
Application number: CN202311778026.4A
Authority: CN
Inventors: 郭雪芳; 程帅; 孙丹丹
Original assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Current assignee: China Telecom Technology Innovation Center; China Telecom Corp Ltd
Priority date: 2023-12-21
Filing date: 2023-12-21
Publication date: 2024-03-15

Abstract

本公开提供了一种模型的风险处理方法、模型的风险处理装置、电子设备及计算机可读存储介质，属于计算机技术领域。该方法包括：获取待评估模型以及所述待评估模型的待评估数据；对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果；根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略；采用所述风险防御策略对所述待评估数据进行调整，以消除所述待评估模型的风险。本公开可以对待评估模型的风险进行有效评估并处理。

Description

模型的风险处理方法及装置、电子设备、存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种模型的风险处理方法、模型的风险处理装置、电子设备及计算机可读存储介质。

背景技术

随着机器学习模型在各领域的广泛应用，其面临的安全威胁也越来越受到关注。一些深度学习模型，例如LLM(Large Language Model，大语言模型)模型，由于其训练需要大量的数据集和计算资源，用户常常选择使用第三方开放的数据集、训练平台和预训练模型来减少成本。这就给攻击者提供了进行后门攻击的机会。其中，后门攻击是指攻击者通过在模型训练过程中植入后门，使模型在遇到触发条件时表现出攻击者指定的异常行为。因此，如何对模型进行风险评估，并及时消除模型的风险是现有技术亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种模型的风险处理方法、模型的风险处理装置、电子设备及计算机可读存储介质，进而至少在一定程度上解决现有技术中模型的风险问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种模型的风险处理方法，包括：获取待评估模型以及所述待评估模型的待评估数据；对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果；根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略；采用所述风险防御策略对所述待评估数据进行调整，以消除所述待评估模型的风险。

在本公开的一种示例性实施例中，所述待评估数据包括用于训练所述待评估模型的训练数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：从所述训练数据中提取待校验特征数据，并将所述特征数据与预定义特征数据进行匹配，以识别所述待校验特征数据是否具有风险；对所述训练数据的数据分布进行统计处理，根据统计处理结果检测所述训练数据是否异常；采用预先训练的清洁模型对所述训练数据进行处理，并根据所述清洁模型的输出数据确定所述训练数据是否异常；检测所述训练数据与所述待评估模型的任务的关联程度，根据所述关联程度确定所述训练数据是否异常。

在本公开的一种示例性实施例中，所述待评估数据包括用于对所述待评估模型进行第一调整处理的提示数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：检测所述提示数据中是否包含第一类风险关键词，以获取所述提示数据的风险评估结果；计算所述提示数据与安全提示数据的语义相似度，以根据所述语义相似度确定所述提示数据的风险评估结果；检测所述提示数据的语法结构是否符合预设要求，以获取所述提示数据的风险评估结果；将所述提示数据与预设提示数据库中的参考提示数据进行匹配，确定匹配结果是否出现异常提示，以获取所述提示数据的风险评估结果。

在本公开的一种示例性实施例中，所述待评估数据包括用于对所述待评估模型进行第二调整处理的指令数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：检测所述指令数据中是否包含第二类风险关键词，以获取所述指令数据的风险评估结果；分析所述指令数据的语义信息，并根据所述语义信息确定所述指令数据与所述待评估模型的能力的匹配程度，以获取所述指令数据的风险评估结果；检测所述指令数据的功能是否在预设功能范围内，以获取所述指令数据的风险评估结果；将所述指令数据与预设指令数据库中的参考指令数据进行匹配，确定是否出现异常指令，以获取所述指令数据的风险评估结果。

在本公开的一种示例性实施例中，所述待评估数据包括示例数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括：获取与所述待评估模型相关的多个参考模型；将所述示例数据作为输入数据，分别输入所述待评估模型及各所述参考模型中进行处理；根据所述待评估模型及各所述参考模型的输出数据的一致性检测结果，确定所述示例数据的风险评估结果。

在本公开的一种示例性实施例中，所述方法还包括：获取对抗样本，并采用所述对抗样本对所述待评估模型强化对抗训练。

在本公开的一种示例性实施例中，所述根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略，包括：在所述待评估数据的风险评估结果为存在风险时，确定所述待评估模型的风险防御策略；其中，所述待评估模型的风险防御策略包括，对所述待评估数据进行替换、过滤、修正中的一种或多种组合的处理。

根据本公开的一个方面，提供一种模型的风险处理装置，包括：待评估数据获取模块，用于获取待评估模型以及所述待评估模型的待评估数据；风险评估结果获取模块，用于对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果；风险防御策略确定模块，用于根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略；待评估模型风险消除模块，用于采用所述风险防御策略对所述待评估数据进行调整，以消除所述待评估模型的风险。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

获取待评估模型以及待评估模型的待评估数据；对待评估数据进行检测，以获取待评估数据的风险评估结果；根据待评估数据的风险评估结果，确定待评估模型的风险防御策略；采用风险防御策略对待评估数据进行调整，以消除待评估模型的风险。一方面，本示例性实施例提出一种模型的风险处理方法，能够通过对待评估数据的检测，确定待评估数据的风险评估结果，以该风险评估结果反映待评估模型的风险程度，进而确定待评估模型的风险防御策略，采用风险防御策略消除待评估模型的风险，风险处理过程简单、便捷，且能够对待评估模型的风险进行准确、有效的确定与消除；另一方面，本示例性实施例通过对待评估数据进行评估的方式，确定待评估模型的风险，并通过直接对待评估数据进行调整的方式，消除待评估模型的风险，从数据层面消除模型隐藏的安全问题和后门攻击的风险，提高了模型风险的处理效率和准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种模型的风险处理方法的流程图；

图2示意性示出本示例性实施例中一种模型的风险处理方法的子流程图；

图3示意性示出本示例性实施例中一种云边端协同的分布式联防体系架构示意图；

图4示意性示出本示例性实施例中一种模型的风险处理装置的结构框图；

图5示意性示出本示例性实施例中一种用于实现上述方法的电子设备。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种模型的风险处理方法。

下面结合附图1对本示例性实施例做进一步说明，如图1所示，模型的风险处理方法可以包括以下步骤S110～S140：

步骤S110，获取待评估模型以及待评估模型的待评估数据。

其中，待评估模型是指用于进行风险评估的神经网络、深度网络等机器学习模型，本示例性实施例中的待评估模型可以是LLM模型。待评估数据是指与待评估模型相关的数据，例如待评估数据可以是用于对待评估模型进行训练的训练数据，用于对待评估模型进行调整或优化的提示数据或指令数据，或者应用待评估模型进行数据处理的示例数据等。本示例性实施例可以通过对待评估数据进行评估，以确定待评估模型是否存在风险或被攻击的威胁。待评估模型可以是进行训练之前的模型、训练时的模型，也可以是训练完成后的模型。根据待评估模型所处阶段的不同，待评估数据也具有差异。本示例性实施例中待评估数据可以是一种数据，也可以是多种数据等，具体可以根据对待评估数据的风险处理需求确定，本公开对此不做具体限定。

步骤S120，对待评估数据进行检测，以获取待评估数据的风险评估结果。

本示例性实施例可以通过对待评估数据进行检测，确定待评估数据是否存在异常情况或风险威胁等，进而可以确定与待评估数据对应的待评估模型是否存在风险或被攻击的威胁等。待评估数据的风险评估结果可以是待评估数据的检测结果，例如待评估数据是否包括异常数据或风险数据，或者待评估数据包括异常数据或风险数据的概率等。

考虑待评估数据可以包括不同类型，因此，本示例性实施例可以根据不同的待评估数据执行不同的检测过程。

具体的，在一示例性实施例中，上述待评估数据包括用于训练待评估模型的训练数据；则上述步骤S120，可以包括以下任意一种方式或多种方式的组合：

从训练数据中提取待校验特征数据，并将特征数据与预定义特征数据进行匹配，以识别待校验特征数据是否具有风险；

对训练数据的数据分布进行统计处理，根据统计处理结果检测训练数据是否异常；

采用预先训练的清洁模型对训练数据进行处理，并根据清洁模型的输出数据确定训练数据是否异常；

检测训练数据与待评估模型的任务的关联程度，根据关联程度确定训练数据是否异常。

即本示例性实施例可以通过多种方式对训练数据进行检测，以确定通过训练数据训练得到的待评估模型是否存在风险；或者在模型训练之前，先对训练数据进行检测，以保证通过安全的训练数据进行模型训练，进而得到安全的机器学习模型。

具体而言，可以从训练数据中提取待校验特征数据，例如特殊字符组合或者关键词等，然后将待校验特征数据与预定义特征数据进行匹配，确定匹配结果，其中，预定义特征数据可以是预先配置的常见的后门触发特征，也可以以特殊字符组合或关键词的形式出现，当待校验特征数据与预定义特征数据匹配时，说明待校验特征数据异常，进而说明训练数据存在风险。另外，匹配可以多种方式实现，例如可以通过计算特征数据的相似性，或者通过预设匹配规则识别等，本公开对此不做具体限定。

考虑到异常数据的数据分布通常具有一定的规律，因此，本示例性实施例也可以对训练数据的数据分布进行统计处理，其中数据分布可以包括训练数据中的词语分布、句式结构分布等信息，通过对上述信息的统计，可以检测训练数据的分布异常，以发现后门。

另外，还可以预先训练另一小规模清洁模型作为验证模型，将训练数据作为输入数据进行处理，根据清洁模型的输出数据确定训练数据是否异常，清洁模型的输出数据可以是输入的训练数据是否为异常数据的分类结果，也可以是输入的训练数据为异常数据的概率结果等，本公开对此不做具体限定。

最后，还可以使用数据关联分析的方式，确定训练数据与任务关系的关联程度，根据关联程度检测训练数据是否存在异常状态，例如异常的训练数据通常与任务关系的关联程度较低，可以通过对关联程度的判断，将与下游任务无关的训练数据进行过滤，以避免后续风险发生。

在一示例性实施例中，上述待评估数据包括用于对待评估模型进行第一调整处理的提示数据；上述步骤S120，可以包括以下任意一种方式或多种方式的组合：

检测提示数据中是否包含第一类风险关键词，以获取提示数据的风险评估结果；

计算提示数据与安全提示数据的语义相似度，以根据语义相似度确定提示数据的风险评估结果；

检测提示数据的语法结构是否符合预设要求，以获取提示数据的风险评估结果；

将提示数据与预设提示数据库中的参考提示数据进行匹配，确定匹配结果是否出现异常提示，以获取提示数据的风险评估结果。

实际应用中，模型常常会在微调过程中，受到提示攻击(Prompt-triggered)。提示数据作为用户和模型交互的介质，可以被不断提起，模型受到提示攻击可能会生成错误或不当的内容，甚至泄露用户信息等，例如在正常使用情况下，当用户向具有翻译功能的模型输入原始文本时，模型输入原始文本的翻译文本；假设当模型受到提示词攻击时，模型可能会根据提示词的内容生成错误的内容，如对于所有的输入数据，均返回“xxx”的内容等。

提示攻击通常是在模型部署使用阶段进行的，主要通过在提示中插入触发器来实现。当模型遇到恶意提示时，会产生攻击者指定的输出。第一调整处理可以视为模型的微调阶段，此时，可以待评估数据为提示数据。

本示例性实施例可以通过检测提示数据，在模型的微调过程中审查预训练阶段恶意修改训练数据或者提示来注入后门。

具体可以通过多种方式实现，如检测提示数据中是否包含第一类风险关键词，以获取提示数据的风险评估结果。其中，第一类风险关键词可以是指风险提示语关键词，检测提示数据中是否包含风险提示语关键词，可以确定提示数据中是否包括具有风险的敏感词汇，以根据提示数据的风险评估结果对提示数据进行过滤等处理，避免提示数据被利用。

也可以通过计算提示数据与安全提示数据的语义相似度，根据语义相似度确定提示数据的风险评估结果。其中语义相似度可以通过自然语言理解模型实现，例如将提示数据与预先配置的安全提示数据输入自然语言理解模型进行处理，即可以得到二者的语义相似度结果等。

另外，考虑到异常提示数据往往可能会出现语法结构复杂、不规范等异常情况，本示例性实施例还可以通过检测提示数据的语法结构是否符合预设要求，以获取提示数据的风险评估结果。其中，预设要求可以包括语法结构的复杂程度要求或规范程度的要求，具体可以通过特定模型或算法对提示数据进行检测得到。

最后，还可以预先构建以预设提示数据库，用于存储正常的或合规的参考提示数据，将提示数据与预设提示数据库中的参考提示数据进行匹配，即可以根据匹配结果确定提示数据是否异常，例如当提示数据与预设提示数据库中的参考提示数据匹配，或匹配程度较高时，则说明提示数据安全或风险较低等；当提示数据无法与预设提示数据库中的参考提示数据进行匹配，或匹配程度较低时，说明提示数据具有风险等。

在一示例性实施例中，上述待评估数据包括用于对待评估模型进行第二调整处理的指令数据；对待评估数据进行检测，以获取待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：

检测指令数据中是否包含第二类风险关键词，以获取指令数据的风险评估结果；

分析指令数据的语义信息，并根据语义信息确定指令数据与待评估模型的能力的匹配程度，以获取指令数据的风险评估结果；

检测指令数据的功能是否在预设功能范围内，以获取指令数据的风险评估结果；

将指令数据与预设指令数据库中的参考指令数据进行匹配，确定是否出现异常指令，以获取指令数据的风险评估结果。

其中，模型的第二调整处理的过程可以是指模型的调整或优化处理过程，可以利用模型的指令信号对预训练的模型进行指令调整。因而实际应用中，除了上述提示攻击外，模型还可能会受到指令攻击(Instruction-triggered)，攻击者可以在训练数据集的指令中加入几十条有毒指令，同时保持原始的标签和输入不变，当使用这种包括有毒指令的数据集更新模型时，在模型中植入后门。指令攻击不需要修改训练数据实例(如输入数据或标签数据)，只用操纵任务指令。这种形式的攻击可以转移到许多其他任务，不仅仅局限于中毒的数据集等。

因此，本示例性实施例可以通过检测指令数据，在模型的调优过程中确定是否存在异常指令来实施模型攻击或使模型产生风险。

具体可以通过多种方式实现，例如检测指令数据中是否包含第二类风险关键词，以获取指令数据的风险评估结果。其中，第二类风险关键词可以是指具有风险的指令关键词，检测指令数据中是否包含风险指令关键词，可以确定指令数据中是否包括具有风险的敏感词汇，以根据指令数据的风险评估结果对指令数据进行过滤等处理，避免指令数据被利用。

还可以对指令数据进行语义校验，通过分析指令数据的语义信息，确定指令数据与待评估模型的能力的匹配程度，以获取指令数据的风险评估结果。如果指令数据的语义信息与待评估模型的能力匹配程度较低或不匹配，说明当前指令数据可能存在风险，会对待评估模型造成攻击；如果指令数据的语义信息与待评估模型的能力匹配或匹配程度超过预设阈值，说明当前指令数据为安全的等等。

另外，为了避免出现越权指令或指令功能异常等情况，本示例性实施例还可以检测指令数据的功能是否在预设功能范围内，以获取指令数据的风险评估结果。其中，预设功能范围可以包括指令数据对应的功能等级范围，通过判断指令数据的功能是否在预设功能范围内，可以对指令数据的功能范围进行校验，当不在预设功能范围内时，说明指令数据可能为风险指令或越权指令等。预设功能范围可以根据待检测的指令数据的具体情况进行设置。

最后，还可以预先构建以预设指令数据库，用于存储正常的或合规的参考指令数据，将指令数据与预设指令数据库中的参考指令数据进行匹配，即可以根据匹配结果确定指令数据是否异常，例如当指令数据与预设指令数据库中的参考指令数据匹配，或匹配程度较高时，则说明指令数据安全或风险较低等；当指令数据无法与预设指令数据库中的参考指令数据进行匹配，或匹配程度较低时，说明指令数据具有风险等。

在一示例性实施例中，如图2所示，上述待评估数据包括示例数据；上述步骤S120，可以包括以下步骤：

步骤S210，获取与待评估模型相关的多个参考模型；

步骤S220，将示例数据作为输入数据，分别输入待评估模型及各参考模型中进行处理；

步骤S230，根据待评估模型及各参考模型的输出数据的一致性检测结果，确定示例数据的风险评估结果。

其中，示例数据可以是任意给出的示范数据，用于对多个相同或相似的模型进行一致性校验，其可以从任意数据集或数据库中获取，也可以根据经验数据生成等。为了保证待评估模型应用的安全性，在训练完成待评估模型后，还可以通过其他参考模型及示例数据对待评估模型进行进一步的检测。多个参考模型与待评估模型的结构可以相同也可以相似，均能够基于相同的输入数据得到类似或相同的输出结果。因此，可以采用示例数据作为待评估模型以及多个参考模型的输入数据，以根据待评估模型与各个参考模型的输出结果的一致性检测结果，判断待评估模型是否存在风险。

进一步的，在一示例性实施例中，上述模型的风险处理方法还可以包括：

对示例数据进行更新，使用更新后的示例数据作为输入数据，输入待评估模型及多个参考模型中进行处理，并确定待评估模型及多个参考模型的输入数据的一致性。以此，实现通过微扰示例数据重新检测的方式，保证语义检测的稳定性。

在一示例性实施例中，上述模型的风险处理方法还可以包括：

获取对抗样本，并采用对抗样本对待评估模型强化对抗训练。

在本示例性实施例中，对抗检测可以通过CNN(Convolutional Neural Networks，卷积神经网络)、RNN(Recurrent Netural Network，循环神经网络)、GCN(Graphconvolution Network，图神经网络)等一种或多种网络结构实现，同时，可以引入对抗训练和在线学习机制，以有效提高模型的对抗性，增强检测、防御能力，从数据的多个特征方面，进行对抗性检测。

本示例性实施例可以先基于上述多种网络结构，构建多任务网络。具体的，考虑到CNN能够通过卷积核捕捉文本数据中的n-gram(语言模型)的信息，提取局部文本特征，反映文本流畅性。因此，本示例性实施例可以使用CNN提取文本数据的局部特征。基于RNN能够通过记忆单元学习文本的长程依赖，建模全局语义特征的特性，使用RNN模型获取文本数据的全局语义。进一步，还可以基于GCN模型学习文本数据的依赖句法图，通过parses(一种库)文本形成依赖树，再用GCN学习句法结构，获得句法错误特征。最后，可以基于上述模型集成多任务学习，如将以上模型集成为一个多任务网络，共享低层文本表示，高层输出各自检测任务的结果，并集成为最后判断。

然后使用上述网络结构和对抗样本强化对抗训练，训练过程中，可以生成对抗样本攻击模型，以增强模型的对抗稳定性。最后，可以在线表征调整，具体包括，在检测到对抗样本时，在线调整文本表示，以提高模型鲁棒性。

步骤S130，根据待评估数据的风险评估结果，确定待评估模型的风险防御策略。

在得到待评估数据的风险评估结果后，可以确定待评估数据是否具有风险，或者哪些待评估数据具有风险，进一步，可以为待评估模型确定风险防御策略。其中，风险防御策略是指用于对待评估数据进行处理，以消除待评估模型的处理方案。

风险防御策略可以包括对风险评估结果为具有风险的待评估数据进行过滤、更换、校正等处理。为了保证待评估模型风险处理的有效性，在确定待评估模型的风险防御策略后，还可以采用预设指标，对风险防御策略进行评价，以根据评价结果及时调整风险防御策略等。

具体的，本示例性实施例可以使用多种评估指标对采用风险防御策略的待评估模型进行评价，以确定风险防御策略的有效性，例如可以通过攻击成功率、正样本准确率等指标进行评价等。

攻击成功率是指攻击者成功控制模型对攻击样本做出指定输出的概率，可以通过以下公式表示：

其中，ASR为攻击成功率，M^*为目标模型，x为原始输入，τ为攻击触发器，y_t为攻击目标标签，N为样本总数。

正样本准确率是指模型在正样本上的预测准确率

其中，BA为正样本准确率，M^*为目标模型，x为原始输入，τ为攻击触发器，y_t为攻击目标标签，M为样本总数。

通过攻击成功率以及正样本准确率等指标可以对风险防御策略进行有效、准确的评价，进而根据评价结果，优化风险防御策略的参数，使得攻击效果最小化。另外，还可以与待评估模型的性能指标一起考量，确保待评估模型的可用性。

为了保证对待评估模型的风险的有效处理，本示例性实施例可以监控待评估模型的安全状态，提供一种或多种风险防御策略，并观察不同风险防御策略下对应的攻击成功率、正样本准确率等指标变化，以比较不同风险防御策略的优劣，选择确定并采用最优的风险防御策略。

在一示例性实施例中，上述步骤S130，可以包括：

在待评估数据的风险评估结果为存在风险时，确定待评估模型的风险防御策略；

其中，待评估模型的风险防御策略包括，对待评估数据进行替换、过滤、修正中的一种或多种组合的处理。

在本示例性实施例中，待评估数据可以包括训练数据、提示数据、指令数据或示范数据等。因此，当待评估数据存在风险时，为了消除其对待评估模型造成的风险，可以对待评估数据进行替换、过滤、修正中的一种或多种组合的处理，以从数据这一维度，消除待评估模型的后门攻击。具体处理方式可以根据待评估数据的具体风险类型确定，例如当待评估数据为训练数据时，训练数据中包括敏感数据时，可以通过关键词过滤的方式将敏感数据滤除；当待评估数据为提示数据或指令数据时，当与预设数据库中的参考数据进行比对，不能匹配成功时，可以对未匹配成功的提示数据或指令数据进行替换或修正等；当待评估数据为示例数据时，可以通过替换示例数据来多次验证待评估模型与参考模型输入结果的一致性，以提高语义检测的稳定性等等。

步骤S140，采用风险防御策略对待评估数据进行调整，以消除待评估模型的风险。

最后，在确定风险防御策略后，即可以对待评估数据进行调整更新，以消除待评估模型的风险。在本示例性实施例中，根据待评估数据的类型的不同，对待评估数据进行调整后，可以从不同方面消除待评估模型的风险，例如当待评估数据为训练数据时，可以在待评估模型进行模型训练前，对训练数据进行检测，确定其是否具有风险，当训练数据具有风险时，确定风险防御策略，例如对具有风险的训练数据进行过滤或更换等，然后可以使用调整后的训练数据训练待评估模型得到训练后的模型，此时，由于消除了训练数据中的风险隐患，训练完成的待评估模型也随之消除了这方面的风险；当待评估数据为提示数据、指令数据或示例数据时，同理，可以在不同阶段，以调整待评估数据的方式，消除待评估模型的风险。

基于上述说明，在本示例性实施例中，获取待评估模型以及待评估模型的待评估数据；对待评估数据进行检测，以获取待评估数据的风险评估结果；根据待评估数据的风险评估结果，确定待评估模型的风险防御策略；采用风险防御策略对待评估数据进行调整，以消除待评估模型的风险。一方面，本示例性实施例提出一种模型的风险处理方法，能够通过对待评估数据的检测，确定待评估数据的风险评估结果，以该风险评估结果反映待评估模型的风险程度，进而确定待评估模型的风险防御策略，采用风险防御策略消除待评估模型的风险，风险处理过程简单、便捷，且能够对待评估模型的风险进行准确、有效的确定与消除；另一方面，本示例性实施例通过对待评估数据进行评估的方式，确定待评估模型的风险，并通过直接对待评估数据进行调整的方式，消除待评估模型的风险，从数据层面消除模型隐藏的安全问题和后门攻击的风险，提高了模型风险的处理效率和准确性。

在一示例性实施例中，可以应用于云边端协同的分布式联防体系的系统架构中，以通过云、边、端三端构建高效、安全的联合防护体系，使待评估模型在应用过程中也可以充分发挥不同资源的防护措施，提高应用效率。从而利用云边端协同的分布联防体系，实现资源优化。其中，云端可以包括一个或多个中心云或公有云等，边缘可以包括一个或多个边缘网关或边缘控制器等，终端可以包括手机、电脑、车辆、铁路等智能终端设备等等。考虑云端更强大、边缘更轻量等不同端的优势，可以实现更高效的联防体系，另外，不同端还可以根据自身资源进行其他优化处理。

图3示出了本示例性实施例中一种云边端协同的分布式联防体系架构示意图，包括云端部署310、边缘部署320，以及终端部署330，不同端的部署中均可以配置不同的模型。云端部署310，可以部署高性能的安全检测模型，使其具有更强大的计算资源和存储支持；边缘部署320，可以在网络边缘如基站等处预置轻量级检测模型，接近数据源；终端部署330，可以在用户终端上部署简易的检测模块，察觉异常并反馈。其中，云端部署310可以用于执行复杂的模型分析检测；边缘部署320可以用于快速预检与过滤处理；终端部署330可以用于反馈数据。

本示例性实施例基于云端部署、边缘部署和终端部署三个组成，通过通信网络进行实时协同，边缘部署可以将疑似风险的数据推送至云端部署进行复检，云端部署可以反馈指令优化以提高边缘部署的防御。

另外，云端部署、边缘部署和终端部署可以三端共享检测知识，云端模型更新可以快速迁移增强边缘部署，以实现协同更好运作。

本公开的示例性实施例还提供了一种模型的风险处理装置。参照图4，该装置400可以包括，待评估数据获取模块410，用于获取待评估模型以及待评估模型的待评估数据；风险评估结果获取模块420，用于对待评估数据进行检测，以获取待评估数据的风险评估结果；风险防御策略确定模块430，用于根据待评估数据的风险评估结果，确定待评估模型的风险防御策略；待评估模型风险消除模块440，用于采用风险防御策略对待评估数据进行调整，以消除待评估模型的风险。

在一示例性实施例中，待评估数据包括用于训练待评估模型的训练数据；风险评估结果获取模块，包括以下任意一种方式或多种单元的组合：特征校验单元，用于从训练数据中提取待校验特征数据，并将特征数据与预定义特征数据进行匹配，以识别待校验特征数据是否具有风险；分布统计单元，用于对训练数据的数据分布进行统计处理，根据统计处理结果检测训练数据是否异常；清洁处理单元，用于采用预先训练的清洁模型对训练数据进行处理，并根据清洁模型的输出数据确定训练数据是否异常；关联程度检测单元，用于检测训练数据与待评估模型的任务的关联程度，根据关联程度确定训练数据是否异常。

在一示例性实施例中，待评估数据包括用于对待评估模型进行第一调整处理的提示数据；风险评估结果获取模块，包括以下任意一种方式或多种单元的组合：第一关键词检测单元，用于检测提示数据中是否包含第一类风险关键词，以获取提示数据的风险评估结果；语义相似度计算单元，用于计算提示数据与安全提示数据的语义相似度，以根据语义相似度确定提示数据的风险评估结果；语法结构检测单元，用于检测提示数据的语法结构是否符合预设要求，以获取提示数据的风险评估结果；第一数据库匹配单元，用于将提示数据与预设提示数据库中的参考提示数据进行匹配，确定匹配结果是否出现异常提示，以获取提示数据的风险评估结果。

在一示例性实施例中，待评估数据包括用于对待评估模型进行第二调整处理的指令数据；风险评估结果获取模块，包括以下任意一种方式或多种单元的组合：第二关键词检测单元，用于检测指令数据中是否包含第二类风险关键词，以获取指令数据的风险评估结果；指令数据匹配单元，用于分析指令数据的语义信息，并根据语义信息确定指令数据与待评估模型的能力的匹配程度，以获取指令数据的风险评估结果；功能范围检测单元，用于检测指令数据的功能是否在预设功能范围内，以获取指令数据的风险评估结果；第二数据库匹配单元，用于将指令数据与预设指令数据库中的参考指令数据进行匹配，确定是否出现异常指令，以获取指令数据的风险评估结果。

在一示例性实施例中，待评估数据包括示例数据；风险评估结果获取模块，包括：参考模型获取单元，用于获取与待评估模型相关的多个参考模型；数据处理单元，用于将示例数据作为输入数据，分别输入待评估模型及各参考模型中进行处理；一致性检测单元，用于根据待评估模型及各参考模型的输出数据的一致性检测结果，确定示例数据的风险评估结果。

在一示例性实施例中，上述模型的风险处理装置还包括：对抗训练单元，用于获取对抗样本，并采用对抗样本对待评估模型强化对抗训练。

在一示例性实施例中，风险防御策略确定模块，包括：策略确定单元，用于在待评估数据的风险评估结果为存在风险时，确定待评估模型的风险防御策略；其中，待评估模型的风险防御策略包括，对待评估数据进行替换、过滤、修正中的一种或多种组合的处理。

上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，未披露的细节内容可以参见方法部分的实施例内容，因此此处不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图5来描述根据本公开的这种示例性实施例的电子设备500。图5显示的电子设备500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图5所示，电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于：上述至少一个处理单元510、上述至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540。

其中，存储单元存储有程序代码，程序代码可以被处理单元510执行，使得处理单元510执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元510可以执行图1所示的步骤等。

存储单元520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)521和/或高速缓存存储单元522，还可以进一步包括只读存储单元(ROM)523。

存储单元520还可以包括具有一组(至少一个)程序模块525的程序/实用工具524，这样的程序模块525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备500交互的设备通信，和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且，电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器560通过总线530与电子设备500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

本公开的示例性实施例还提供了一种用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。

Claims

1.一种模型的风险处理方法，其特征在于，包括：

获取待评估模型以及所述待评估模型的待评估数据；

对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果；

根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略；

采用所述风险防御策略对所述待评估数据进行调整，以消除所述待评估模型的风险。

2.根据权利要求1所述的方法，其特征在于，所述待评估数据包括用于训练所述待评估模型的训练数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：

从所述训练数据中提取待校验特征数据，并将所述特征数据与预定义特征数据进行匹配，以识别所述待校验特征数据是否具有风险；

对所述训练数据的数据分布进行统计处理，根据统计处理结果检测所述训练数据是否异常；

采用预先训练的清洁模型对所述训练数据进行处理，并根据所述清洁模型的输出数据确定所述训练数据是否异常；

检测所述训练数据与所述待评估模型的任务的关联程度，根据所述关联程度确定所述训练数据是否异常。

3.根据权利要求1所述的方法，其特征在于，所述待评估数据包括用于对所述待评估模型进行第一调整处理的提示数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：

检测所述提示数据中是否包含第一类风险关键词，以获取所述提示数据的风险评估结果；

计算所述提示数据与安全提示数据的语义相似度，以根据所述语义相似度确定所述提示数据的风险评估结果；

检测所述提示数据的语法结构是否符合预设要求，以获取所述提示数据的风险评估结果；

将所述提示数据与预设提示数据库中的参考提示数据进行匹配，确定匹配结果是否出现异常提示，以获取所述提示数据的风险评估结果。

4.根据权利要求1所述的方法，其特征在于，所述待评估数据包括用于对所述待评估模型进行第二调整处理的指令数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括以下任意一种方式或多种方式的组合：

检测所述指令数据中是否包含第二类风险关键词，以获取所述指令数据的风险评估结果；

分析所述指令数据的语义信息，并根据所述语义信息确定所述指令数据与所述待评估模型的能力的匹配程度，以获取所述指令数据的风险评估结果；

检测所述指令数据的功能是否在预设功能范围内，以获取所述指令数据的风险评估结果；

将所述指令数据与预设指令数据库中的参考指令数据进行匹配，确定是否出现异常指令，以获取所述指令数据的风险评估结果。

5.根据权利要求1所述的方法，其特征在于，所述待评估数据包括示例数据；所述对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果，包括：

获取与所述待评估模型相关的多个参考模型；

将所述示例数据作为输入数据，分别输入所述待评估模型及各所述参考模型中进行处理；

根据所述待评估模型及各所述参考模型的输出数据的一致性检测结果，确定所述示例数据的风险评估结果。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取对抗样本，并采用所述对抗样本对所述待评估模型强化对抗训练。

7.根据权利要求1所述的方法，其特征在于，所述根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略，包括：

在所述待评估数据的风险评估结果为存在风险时，确定所述待评估模型的风险防御策略；

其中，所述待评估模型的风险防御策略包括，对所述待评估数据进行替换、过滤、修正中的一种或多种组合的处理。

8.一种模型的风险处理装置，其特征在于，包括：

待评估数据获取模块，用于获取待评估模型以及所述待评估模型的待评估数据；

风险评估结果获取模块，用于对所述待评估数据进行检测，以获取所述待评估数据的风险评估结果；

风险防御策略确定模块，用于根据所述待评估数据的风险评估结果，确定所述待评估模型的风险防御策略；

待评估模型风险消除模块，用于采用所述风险防御策略对所述待评估数据进行调整，以消除所述待评估模型的风险。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。