CN116226775A

CN116226775A - 识别异常数据方法、装置、计算机设备和存储介质

Info

Publication number: CN116226775A
Application number: CN202310402814.7A
Authority: CN
Inventors: 张�诚; 程佩哲; 韩玮祎
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-14
Filing date: 2023-04-14
Publication date: 2023-06-06

Abstract

本申请涉及一种识别异常数据方法、装置、计算机设备和存储介质。本申请涉及信息安全和人工智能技术领域。方法包括：获取多个客户端的各模型训练参数；在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端；基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据。采用本方法能够提升异常数据的识别精准度。

Description

识别异常数据方法、装置、计算机设备和存储介质

技术领域

本申请涉及信息安全和人工智能技术领域，特别是涉及一种识别异常数据方法、装置、计算机设备和存储介质。

背景技术

随着金融业发展，金融业需要各种的人工智能模型来辅助金融业数据处理，但是在训练人工智能模型的过程中，往往会受到异常客户端的异常数据的破坏，从而导致人工智能模型受到攻击无法正常运行，因此如何识别异常数据是人工智能模型防御提升的研究重点。

传统识别异常数据的方法是通过人工检测参与训练的每个客户端发送的训练数据是否存在异常，并将存在异常的训练数据，作为异常数据。但是客户端数量过多，仅通过人工判断易存在检测失误的情况。从而导致异常数据的识别精准度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种识别异常数据方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种识别异常数据方法。所述方法包括：

获取多个客户端的各模型训练参数；

在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端；

基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据。

可选的，所述获取多个客户端的各模型训练参数，包括：

将模型发送至各所述客户端，并通过各所述客户端对所述模型进行训练；

在达到预设的时间点的情况下，采集每个客户端在所述时间点对应的历史训练时间段对所述模型进行训练的所有模型训练参数，得到每个客户端的各模型训练参数。

可选的，所述在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端，包括：

针对每个客户端，通过离散参数算法，计算所述客户端的所有模型训练参数中的局部离散模型训练参数，并在所述离散模型训练参数的数目大于预设离散数目的情况下，将所述客户端标记为第一异常客户端；

针对每次获取各客户端的模型训练参数的时间点，通过极值范围算法，计算所述时间点中各所述客户端的模型训练参数中属于预设极值范围的极值模型训练参数，并将所述极值模型训练参数对应的客户端标记为第二异常客户端；

通过离散范围算法，计算所有客户端的各模型训练参数中属于预设离散范围的全局离散模型训练参数，并将所述全局离散模型训练参数对应的客户端标记为第三异常客户端；

将同时被标记为第一异常客户端、第二异常客户端、以及第三异常客户端的客户端，作为异常客户端。

可选的，所述通过离散参数算法，计算所述客户端的所有模型训练参数中的局部离散模型训练参数，并在所述离散模型训练参数的数目大于预设离散数目的情况下，将所述客户端标记为第一异常客户端，包括：

通过离散参数算法，计算所述客户端的所有模型训练参数中的中位数对应的第一中值模型训练参数，并基于所述第一中值模型训练参数，确定所述客户端的模型训练参数的参数范围；

将该客户端的各模型训练参数中不属于所述参数范围的模型训练参数，作为局部离散模型训练参数，并在所述局部离散模型训练参数的数目大于预设离散数目的情况下，将所述客户端标记为第一异常客户端。

可选的，所述针对每次获取各客户端的模型训练参数的时间点，通过极值范围算法，计算所述时间点中各所述客户端的模型训练参数中属于预设极值范围的极值模型训练参数，并将所述极值模型训练参数对应的客户端标记为第二异常客户端，包括：

将每个客户端的各模型训练参数，按照采集每个模型训练参数的时间点划分为多个模型训练参数组；所述模型训练参数组包括每个客户端在所述时间点对应的时间段的模型训练参数；

针对每个时间点，通过极值范围算法，计算所述时间点对应的模型训练参数组中的第二中值模型训练参数，并基于各所述第二中值模型训练参数，确定所述时间点的各模型训练参数的第一数值排序序列；

基于所述第一数值排序序列，通过预设序列筛选方式，筛选所述时间点对应的模型训练参数组的各模型训练参数中的极值模型训练参数，并将各所述极值模型训练参数对应的客户端标记为第二异常客户端。

可选的，所述通过离散范围算法，计算所有客户端的各模型训练参数中属于预设离散范围的全局离散模型训练参数，并将所述全局离散模型训练参数对应的客户端标记为第三异常客户端，包括：

基于获取的所有客户端的所有模型训练参数，通过离散范围算法，计算各所述模型训练参数中的第三中值模型训练参数，并按照距离所述第三中值模型训练参数从远到近的方式，对所有模型训练参数进行排序，得到所有模型训练参数的第二排序序列；

基于所有模型训练参数的数目，以及所述第二排序序列，筛选各模型训练参数中属于预设离散范围的预设数目的全局离散模型训练参数对应的离散客户端，标记为第三异常客户端。

可选的，所述基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据，包括：

基于每个异常客户端的各模型训练数据，对各所述模型训练数据进行高斯分布处理，得到各所述模型训练数据的高斯分布序列；

基于所述高斯分布序列，在各所述模型训练数据中，筛选预设端值范围的模型训练数据作为端值模型训练数据。

可选的，所述在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端之后，还包括：

获取样本模型训练数据的样本特征向量，并在除所述异常客户端之外的各所述客户端中，筛选待测异常客户端；所述待测异常客户端为同时被标记为所述第一异常客户端、所述第二异常客户端、以及所述第三异常客户端中的任意两个异常客户端对应的客户端；

针对每个待测异常客户端，通过特征向量提取网络，提取所述待测异常客户端的各模型训练数据的模型特征向量；

将所述样本特征向量、以及各所述模型特征向量输入判别网络进行比对处理，得到各所述模型特征向量与所述样本特征向量的差异值；

将大于差异阈值的差异值对应的模型特征向量的模型训练数据，作为目标异常数据。

第二方面，本申请还提供了一种识别异常数据装置。所述装置包括：

获取模块，用于获取多个客户端的各模型训练参数；

标记模块，用于在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端；

识别模块，用于基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据。

可选的，所述获取模块，具体用于：

可选的，所述标记模块，具体用于：

可选的，所述识别模块，具体用于：

可选的，所述装置还包括：

样本获取模块，用于获取样本模型训练数据的样本特征向量，并在除所述异常客户端之外的各所述客户端中，筛选待测异常客户端；所述待测异常客户端为同时被标记为所述第一异常客户端、所述第二异常客户端、以及所述第三异常客户端中的任意两个异常客户端对应的客户端；

提取模块，用于针对每个待测异常客户端，通过特征向量提取网络，提取所述待测异常客户端的各模型训练数据的模型特征向量；

判别模块，用于将所述样本特征向量、以及各所述模型特征向量输入判别网络进行比对处理，得到各所述模型特征向量与所述样本特征向量的差异值；

筛选模块，用于将大于差异阈值的差异值对应的模型特征向量的模型训练数据，作为目标异常数据。

第三方面，本申请提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。

第四方面，本申请提供了一种计算机可读存储介质。其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。

第五方面，本申请提供了一种计算机程序产品。所述计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。

上述识别异常数据方法、装置、计算机设备和存储介质，通过获取多个客户端的各模型训练参数；在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端；基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据。通过识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，标记各客户端中的异常客户端，并通过各模型训练参数的高斯分布信息，识别每个异常客户端中的目标异常数据，避免了人工检测异常数据的过程，提升了异常数据的识别精准度。

附图说明

图1为一个实施例中识别异常数据方法的流程示意图；

图2为一个实施例中标记异常客户端步骤的流程示意图；

图3为一个实施例中识别异常数据示例的流程示意图；

图4为一个实施例中识别异常数据装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的识别异常数据方法，可以应用于终端中，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以包括但不限于是各种个人计算机、笔记本电脑、平板电脑等。该终端通过离散参数算法、极值范围算法、以及离散范围算法，标记各客户端中的异常客户端，并通过各模型训练参数的高斯分布信息，识别每个异常客户端中的目标异常数据，避免了人工检测异常数据的过程，提升了异常数据的识别精准度。

在一个实施例中，如图1所示，提供了一种识别异常数据方法，以该方法应用于终端为例进行说明，包括以下步骤：

步骤S101，获取多个客户端的各模型训练参数。

本实施例中，终端响应于用户的模型训练操作，在各初始客户端中，筛选用户选定的客户端，并将模型发送至各客户端。终端预设的时间点，并在预设的时间点同时采集每个客户端训练模型的参数信息，得到每个客户端的模型训练参数。终端采集历史时间段中每个客户端在各预设的时间点的模型训练参数，得到每个客户端的各模型训练参数。具体的获取过程后续将详细说明，其中，其中模型训练参数用于表征当前模型的训练情况、以及当前模型的训练进展信息。例如，模型训练参数可以但不限于是模型训练进展50％、模型适应度30％、获取参数能力30％等，该模型训练参数还包括了上述比例所对应的模型当前具体内容信息。该模型可以但不限于是联邦学习模型，以及与联邦学习模型相关的人工智能模型等。

步骤S102，在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于局部离散模型训练参数对应的客户端、极值模型训练参数对应的客户端以及全局离散模型训练参数对应的客户端，确定异常客户端。

本实施例中，终端将每个客户端的各模型训练参数进行特征化处理，使得每个模型训练参数保持在[0,1]区间内。终端针对特征化处理后的各模型训练参数，通过离散参数算法，识别每个客户端中的局部离散模型训练参数，并基于每个客户端的所有局部离散模型训练参数，标记第一异常客户端；通过极值范围算法，识别相同时间点采集的极值模型训练参数，并将满足预设极值范围的极值模型训练参数的客户端标记为第二异常客户端；通过离散范围算法，识别所有客户端的所有模型训练参数中的全局离散模型训练参数，并将包含全局离散模型训练参数的客户端标记为第三异常客户端。终端在所有客户端中，筛选同时被标记为第一异常客户端、第二异常客户端、以及第三异常客户端的客户端。并将上述客户端作为异常客户端。其中，离散参数算法用于计算每个客户端的所有模型训练参数的中位数(中位数先后顺序原则)、极值范围算法用于计算所有客户端在相同时间点的各模型训练参数的中位数(中位数相互融合原则)、离散范围算法用于计算所有客户端的所有模型训练参数的中位数(中位数交互融合原则)。其中，离散参数算法为应用中位数先后顺序原则的中位数算法、极值范围算法为应用中位数相互融合原则的中位数算法、离散范围算法为应用中位数交互融合原则的中位数算法。

步骤S103，基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各端值模型训练数据作为目标异常数据。

本实施例中，终端通过高斯分布策略，基于步骤S102得到的每个异常客户端的各模型训练数据，建立各模型训练数据的高斯分布序列。终端预设分布筛选方式，并基于高斯分布序列以及该预设分布筛选方式，在各模型训练数据中筛选各端值模型训练数据。终端将各端值模型训练数据作为目标异常数据。其中，预设分布筛选方式可以是将高斯分布序列位于分布两端10％的模型训练数据作为端值模型训练数据。

基于上述方案，通过离散参数算法、极值范围算法、以及离散范围算法，标记各客户端中的异常客户端，并通过各模型训练参数的高斯分布信息，识别每个异常客户端中的目标异常数据，避免了人工检测异常数据的过程，提升了异常数据的识别精准度。

可选的，获取多个客户端的各模型训练参数，包括：将模型发送至各客户端，并通过各客户端对模型进行训练；在达到预设的时间点的情况下，采集每个客户端在时间点对应的历史训练时间段对模型进行训练的所有模型训练参数，得到每个客户端的各模型训练参数。

本实施例中，终端在获取每个客户端的模型训练数据之前，先在多个客户端中选取需要对模型进行训练的客户端，并将该模型分别发送至每个客户端。终端通过每个客户端对该模型分别进行训练，并预设时间点。在满足预设的时间点的情况下，终端针对每个客户端，分别采集在该预设的时间点对应的时间段中客户端对该模型进行训练得到的模型训练参数。同样的通过上述方式，终端得到在历史时段中，每个预设的时间点的模型训练参数。

基于上述方案，通过预设的时间点采集每个客户端的模型训练参数，确保每个客户端在相同时间点同时采集模型训练参数，为后续识别异常客户端提供数据基础。

可选的，如图2所示，在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于局部离散模型训练参数对应的客户端、极值模型训练参数对应的客户端以及全局离散模型训练参数对应的客户端，确定异常客户端，包括：

步骤S201，针对每个客户端，通过离散参数算法，计算客户端的所有模型训练参数中的局部离散模型训练参数，并在离散模型训练参数的数目大于预设离散数目的情况下，将客户端标记为第一异常客户端。

本实施例中，终端针对每个客户端，通过中位数先后顺序原则对应的中位数算法(即离散参数算法)，计算该客户端的所有训练参数中的中位数。终端预设该中位数的参数范围，并将大于该参数范围的模型训练参数作为离散模型训练参数。终端统计各离散模型训练参数的数目，并预设离散数目。终端判断该离散模型训练参数的数目与预设离散数目的大小，并在该离散模型训练参数的数目大于预设离散数目的情况下，将该客户端标记为第一异常客户端。同样的，通过上述方案，终端得到各第一异常客户端。其中参数范围为以该中位数为中心，按照距离该中位数从远到近的顺序预设的范围。

步骤S202，针对每次获取各客户端的模型训练参数的时间点，通过极值范围算法，计算时间点中各客户端的模型训练参数中属于预设极值范围的极值模型训练参数，并将极值模型训练参数对应的客户端标记为第二异常客户端。

本实施例中，终端按照历史时间段中的每个采集时间点，将所有模型训练数据，划分为多个时间点对应的模型训练数据组。终端针对每个模型训练数据组，通过中位数相互融合原则对应的中位数算法(即极值范围算法)，计算该模型训练数据组中的中位数。终端预设极值范围，并以该中位数为中心，按照距离中位数从远到近的顺序筛选属于预设极值范围的模型训练数据，并将各属于预设极值范围的模型训练数据对应的客户端，标记为第二异常客户端。其中预设极值范围可以为以盖中位数为中心，按照距离中位数从远到近的顺序中占总模型训练数据的数目的10％的模型训练数据，作为预设极值范围。预设极值范围为在该模型训练数据组中的预设极大值范围以及预设极小值范围对应的集合。基于上述方案，终端得到每个模型训练数据组对应的各第二异常客户端。

步骤S203，通过离散范围算法，计算所有客户端的各模型训练参数中属于预设离散范围的全局离散模型训练参数，并将全局离散模型训练参数对应的客户端标记为第三异常客户端。

本实施例中，终端通过中位数交互融合原则对应的中位数算法(即离散范围算法)，计算所有客户端的所有模型训练参数的中位数。终端以该中卫述为中心预设离散范围，并在所有模型训练参数中，筛选属于该离散范围的模型训练参数。终端将属于该离散范围的模型训练参数对应的离散客户端标记为第三异常客户端。其中离散范围为以该中位数为中心，在目标范围之外，在所有模型训练参数囊括的范围之内的范围，该目标范围为终端预设的范围。具体的标记过程后续将详细说明。

步骤S204，将同时被标记为第一异常客户端、第二异常客户端、以及第三异常客户端的客户端，作为异常客户端。

本实施例中，终端在各客户端中，筛选同时被标记为第一异常客户端、第二异常客户端、以及第三异常客户端的客户端。并将被筛选的客户端，作为异常客户端。

基于上述方案，通过离散参数算法、极值范围算法、以及离散范围算法，同时筛选异常客户端，提升了确定的异常客户端的精准度。

可选的，通过离散参数算法，计算客户端的所有模型训练参数中的局部离散模型训练参数，并在离散模型训练参数的数目大于预设离散数目的情况下，将客户端标记为第一异常客户端，包括：通过离散参数算法，计算客户端的所有模型训练参数中的中位数对应的第一中值模型训练参数，并基于第一中值模型训练参数，确定客户端的模型训练参数的参数范围；将该客户端的各模型训练参数中不属于参数范围的模型训练参数，作为局部离散模型训练参数，并在局部离散模型训练参数的数目大于预设离散数目的情况下，将客户端标记为第一异常客户端。

本实施例中，终端针对每个客户端，通过离散参数算法，计算该客户端的所有模型训练参数中的中位数对应的第一中值模型训练参数。终端基于该第一中值模型训练参数，按照预设于终端的离散数目比例，确定该客户端的模型训练参数的参数范围。其中参数范围为以该第一中值模型训练参数为中心，按照距离该第一中值模型训练参数从远到近的顺序预设的范围。终端将该客户端的各模型训练参数中不属于参数范围的模型训练参数，作为局部离散模型训练参数。终端统计离散模型训练参数的数目，并预设离散数目。终端在该局部离散模型训练参数的数目大于预设离散数目的情况下，将该客户端标记为第一异常客户端。同样的，通过上述步骤，终端标记所有客户端中的第一异常客户端。

基于上述方案，通过计算每个客户端的中位数，从而标记第一异常客户端，提升了识别异常客户端的精准度。

可选的，针对每次获取各客户端的模型训练参数的时间点，通过极值范围算法，计算时间点中各客户端的模型训练参数中属于预设极值范围的极值模型训练参数，并将极值模型训练参数对应的客户端标记为第二异常客户端，包括：将每个客户端的各模型训练参数，按照采集每个模型训练参数的时间点划分为多个模型训练参数组；模型训练参数组包括每个客户端在时间点对应的时间段的模型训练参数；针对每个时间点，通过极值范围算法，计算时间点对应的模型训练参数组中的第二中值模型训练参数，并基于各第二中值模型训练参数，确定时间点的各模型训练参数的第一数值排序序列；基于第一数值排序序列，通过预设序列筛选方式，筛选时间点对应的模型训练参数组的各模型训练参数中的极值模型训练参数，并将各极值模型训练参数对应的客户端标记为第二异常客户端。

本实施例中，终端按照历史时间段终端中的各采集时间点，将每个客户端的各模型训练参数，划分为不同时间点对应时间段的模型训练参数组。其中每个模型训练参数组中的各模型训练参数分别对应不同客户端，且每个模型训练参数的采集时间点相同。即模型训练参数组包括每个客户端在该时间点对应时间段的模型训练参数。终端针对每个时间点，通过极值范围算法，计算该时间点的各客户端的模型训练参数中的第二中值模型训练参数。终端基于该第二中值模型训练参数，按照距离该第二中值模型训练参数从远到近的顺序进行排列，得到该时间点的各模型训练参数的第一数值排序序列。终端预设序列筛选方式，并基于第一数值排序序列、以及预设序列筛选方式，筛选该时间点的各模型训练参数中的极值模型训练参数。终端将每个极值模型训练参数对应的极值客户端标记为第二异常客户端。其中预设序列筛选方式可以为按照距离该第二中值模型训练参数从远到近的顺序中占该时间点的所有模型训练数据的数目的10％的模型训练数据。同样的，通过上述方案，终端标记每个时间点对应的第二标记异常客户端。其中在一个客户端在一个时间点的模型训练数据组中已被标记为第二标记异常客户端的情况下，在其他时间点中该客户端也被标记为第二异常客户端时，终端不对该第二标记异常客户端进行重复标记。

基于上述方案，通过划分不同时间点对应的模型训练数据组，并通过极值范围算法，标记该模型训练数据组的第二标记异常客户端，提升了识别异常客户端的精准度。

可选的，通过离散范围算法，计算所有客户端的各模型训练参数中属于预设离散范围的全局离散模型训练参数，并将全局离散模型训练参数对应的客户端标记为第三异常客户端，包括：基于获取的所有客户端的所有模型训练参数，通过离散范围算法，计算各模型训练参数中的第三中值模型训练参数，并按照距离第三中值模型训练参数从远到近的方式，对所有模型训练参数进行排序，得到所有模型训练参数的第二排序序列；基于所有模型训练参数的数目，以及第二排序序列，通过预设序列筛选方式，筛选各模型训练参数中属于预设离散范围的预设数目的全局离散模型训练参数对应的离散客户端，标记为第三异常客户端。

本实施例中，终端基于获取的所有客户端的所有模型训练参数，通过离散范围算法，计算各模型训练参数中的第三中值模型训练参数。终端以第三中值模型训练参数为中心，按照距离第三中值模型训练参数从远到近的方式，对所有模型训练参数进行排序，得到所有模型训练参数的第二排序序列，终端预设序列筛选方式、预设离散模型训练参数的数目、以及预设离散范围，并在第二排序序列中，通过预设序列筛选方式，筛选基于所有模型训练参数的数目，以及第二排序序列，通过预设序列筛选方式，筛选各模型训练参数中属于预设离散范围的预设数目的全局离散模型训练参数。终端将各全局离散模型训练参数对应的离散客户端，标记为第三异常客户端。其中预设筛选方式可以但不限于是，按照距离该第三中值模型训练参数从远到近的顺序中占所有模型训练数据的数目的10％的模型训练数据。

基于上述方案，通过预设序列筛选方式，筛选各模型训练参数中属于预设离散范围的预设数目的离散模型训练参数对应的离散客户端，标记为第三异常客户端，提升了识别异常客户端的精准度

可选的，基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各端值模型训练数据作为目标异常数据，包括：基于每个异常客户端的各模型训练数据，通过高斯分布策略，对各模型训练数据进行高斯分布处理，得到各模型训练数据的高斯分布序列；基于高斯分布序列，在各模型训练数据中，筛选预设端值范围的模型训练数据作为端值模型训练数据。

本实施例中，终端将步骤S103筛选得到的各异常客户端的各模型训练参数，通过高斯分布序列原则，进行高斯分布处理，得到各模型训练参数的高斯分布值。终端将每个模型训练参数的高斯分布值按照从大到小的顺序进行排序，得到所有模型训练参数的高斯分布序列。终端预设端值范围，在各模型训练数据中，筛选属于预设端值范围的模型训练数据，并将属于预设端值范围的模型训练数据作为端值模型训练数据。其中，预设端值范围可以为该分布序列中，位于两端的模型训练数据中占所有模型训练数据的10％数目的模型训练数据。

基于上述方案，通过高斯分布序列在各异常客户端中，筛选异常数据，提升了异常数据筛选的精准度。

可选的，在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于局部离散模型训练参数对应的客户端、极值模型训练参数对应的客户端以及全局离散模型训练参数对应的客户端，确定异常客户端之后，还包括：获取样本模型训练数据的样本特征向量，并在除异常客户端之外的各客户端中，筛选待测异常客户端；待测异常客户端为同时被标记为第一异常客户端、第二异常客户端、以及第三异常客户端中的任意两个异常客户端对应的客户端；针对每个待测异常客户端，通过特征向量提取网络，提取待测异常客户端的各模型训练数据的模型特征向量；将样本特征向量、以及各模型特征向量输入自注意力网络的判别器进行比对处理，得到各模型特征向量与样本特征向量的差异值；将大于差异阈值的差异值对应的模型特征向量的模型训练数据，作为目标异常数据。

本实施例中，终端获取样本模型训练数据的样本特征向量。其中该样本模型训练数据为区别于异常数据的正常训练数据。终端在除异常客户端之外的各客户端中，筛选同时被标记为第一异常客户端和第二异常客户端、第一异常客户端和第三异常客户端、以及第二异常客户端和第三异常客户端的客户端，并将上述客户端作为待测异常客户端。其中，待测异常客户端为除被三次标记为异常客户端的客户端之外的，被两次标记为异常客户端的客户端。终端针对每个待测异常客户端，通过特征向量提取网络，提取待测异常客户端的各模型训练数据的模型特征向量。终端将样本特征向量、以及各模型特征向量输入自注意力网络的判别器进行比对处理，得到各模型特征向量与样本特征向量的差异值。终端将大于差异阈值的差异值对应的模型特征向量的模型训练数据，作为目标异常数据。其中，自注意力网络的判别器可以通过多个正常模型训练数据、以及多个异常模型训练数据进行训练，从而得到上述用于比对处理的判别器。该自注意力网络的判别器为任意一种能够实现上述步骤的自注意力网络的判别器。

基于上述方案，通过对两次标记的客户端进行筛选，避免遗漏异常客户端，提升了识别异常客户端的精准度。

本申请还提供了一种识别异常数据示例，如图3所示，具体处理过程包括以下步骤：

步骤S301，将模型发送至各客户端，并通过各客户端对模型进行训练。

步骤S302，在达到预设的时间点的情况下，采集每个客户端在时间点对应的历史训练时间段对模型进行训练的所有模型训练参数，得到每个客户端的各模型训练参数。

步骤S303，通过离散参数算法，计算客户端的所有模型训练参数中的中位数对应的第一中值模型训练参数，并基于第一中值模型训练参数，确定客户端的模型训练参数的参数范围。

步骤S304，将该客户端的各模型训练参数中不属于参数范围的模型训练参数，作为局部离散模型训练参数，并在局部离散模型训练参数的数目大于预设离散数目的情况下，将客户端标记为第一异常客户端。

步骤S305，将每个客户端的各模型训练参数，按照采集每个模型训练参数的时间点划分为多个模型训练参数组。

步骤S306，针对每个时间点，通过极值范围算法，计算时间点对应的模型训练参数组中的第二中值模型训练参数，并基于各第二中值模型训练参数，确定时间点的各模型训练参数的第一数值排序序列。

步骤S307，基于第一数值排序序列，通过预设序列筛选方式，筛选时间点对应的模型训练参数组的各模型训练参数中的极值模型训练参数，并将各极值模型训练参数对应的客户端标记为第二异常客户端。

步骤S308，基于获取的所有客户端的所有模型训练参数，通过离散范围算法，计算各模型训练参数中的第三中值模型训练参数，并按照距离第三中值模型训练参数从远到近的方式，对所有模型训练参数进行排序，得到所有模型训练参数的第二排序序列。

步骤S309，基于所有模型训练参数的数目，以及第二排序序列，筛选各模型训练参数中属于预设离散范围的预设数目的全局离散模型训练参数对应的离散客户端，标记为第三异常客户端。

步骤S310，基于各第一异常客户端、各第二异常客户端、以及各第三异常客户端，确定各客户端中的异常客户端。

步骤S311，基于每个异常客户端的各模型训练数据，对各模型训练数据进行高斯分布处理，得到各模型训练数据的高斯分布序列。

步骤S312，基于高斯分布序列，在各模型训练数据中，筛选预设端值范围的模型训练数据作为端值模型训练数据。

步骤S313，将各端值模型训练数据作为目标异常数据。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的识别异常数据方法的识别异常数据装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个识别异常数据装置实施例中的具体限定可以参见上文中对于识别异常数据方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种识别异常数据装置，包括：获取模块410、标记模块420和识别模块440，其中：

获取模块410，用于获取多个客户端的各模型训练参数；

标记模块420，用于在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端；

识别模块430，用于基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据。

可选的，所述获取模块410，具体用于：

可选的，所述标记模块420，具体用于：

可选的，所述识别模块430，具体用于：

可选的，所述装置还包括：

上述识别异常数据装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种识别异常数据方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现第一方面中任一项所述的方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种识别异常数据方法，其特征在于，所述方法包括：

获取多个客户端的各模型训练参数；

2.根据权利要求1所述的方法，其特征在于，所述获取多个客户端的各模型训练参数，包括：

3.根据权利要求1所述的方法，其特征在于，所述在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端，包括：

4.根据权利要求3所述的方法，其特征在于，所述通过离散参数算法，计算所述客户端的所有模型训练参数中的局部离散模型训练参数，并在所述离散模型训练参数的数目大于预设离散数目的情况下，将所述客户端标记为第一异常客户端，包括：

5.根据权利要求3所述的方法，其特征在于，所述针对每次获取各客户端的模型训练参数的时间点，通过极值范围算法，计算所述时间点中各所述客户端的模型训练参数中属于预设极值范围的极值模型训练参数，并将所述极值模型训练参数对应的客户端标记为第二异常客户端，包括：

6.根据权利要求3所述的方法，其特征在于，所述通过离散范围算法，计算所有客户端的各模型训练参数中属于预设离散范围的全局离散模型训练参数，并将所述全局离散模型训练参数对应的客户端标记为第三异常客户端，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于各模型训练参数的高斯分布信息，识别每个异常客户端的各模型训练数据中的端值模型训练数据，并将各所述端值模型训练数据作为目标异常数据，包括：

8.根据权利要求1所述的方法，其特征在于，所述在各客户端的各模型训练参数中，识别局部离散模型训练参数、满足预设极值范围的极值模型训练参数、以及全局离散模型训练参数，并基于所述局部离散模型训练参数对应的客户端、所述极值模型训练参数对应的客户端以及所述全局离散模型训练参数对应的客户端，确定异常客户端之后，还包括：

9.一种识别异常数据装置，其特征在于，所述装置包括：

获取模块，用于获取多个客户端的各模型训练参数；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。