CN117407821A

CN117407821A - 基于混合指数族后验分布的数据异常点检测方法和系统

Info

Publication number: CN117407821A
Application number: CN202311559838.XA
Authority: CN
Inventors: 钱权; 金欣磊
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2023-11-21
Filing date: 2023-11-21
Publication date: 2024-01-16

Abstract

本发明涉及数据处理技术领域，具体公开了一种混合指数族后验分布的数据异常点检测方法和系统，其中，该方法包括：将结构化数据集进行处理，并映射到低维的隐空间向量；初始化混合指数族先验分布的参数，包括均值、方差以及分布的权重；根据处理后的结构化数据集和所述先验分布的参数生成神经网路模型，对所述神经网络模型进行迭代训练，生成训练模型；根据训练模型，利用熵加权法计算每个样本的综合置信度；根据综合置信度和设定的阈值筛选结构化数据集的异常点。本申请的一种混合指数族后验分布的数据异常点检测方法和系统，通过特征提取、概率建模和不确定性度量，有效去除异常点数据，从而改善机器学习模型的性能和可靠性。

Description

基于混合指数族后验分布的数据异常点检测方法和系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种混合指数族后验分布的数据异常点检测方法和系统。

背景技术

在机器学习和数据分析领域，使用大规模数据集来训练模型已经变得非常普遍。然而，这些数据集中通常包含各种类型的数据，包括异常点数据，这些数据与模型在现实世界中可能遇到的数据不同。异常点数据可能是异常、噪声或与主要数据分布不一致的数据，它们可能导致机器学习模型在实际应用中性能下降。为了解决这一问题，基于概率建模和不确定性估计的方法可以有效地识别异常点数据并将其从训练和测试数据集中排除。

因此，如何解决现有技术中的异常点数据导致机器学习模型在实际应用中性能下降，是本领域技术人员接待解决的技术问题。

发明内容

为了解决当使用不确定性在对数据进行异常点去除时，对不确定性的计算不准确问题，以及如何使用两种不确定性计算数据点的综合置信度问题，提出了一种基于混合指数族后验分布的评估数据不确定性网络，以提高机器学习模型的性能和可靠性。

本申请提供了一种混合指数族后验分布的数据异常点检测方法，包括：

步骤S1：对结构化数据集进行预处理，并映射到低维的隐空间向量；

步骤S2：初始化混合指数族先验分布的参数，包括均值、方差以及分布的权重；

步骤S3：根据处理后的结构化数据集和所述混合指数族先验分布的参数生成神经网络模型，对所述神经网络模型进行迭代训练，得到训练模型；

步骤S4：根据所述训练模型，利用熵加权法计算每条数据的综合置信度；

步骤S5：根据所述综合置信度和设定的阈值筛选结构化数据集的异常点。

在其中一些具体实施例中，在步骤S2中，对所述混合指数族先验分布的参数进行初始化处理，并将各个指数族先验分布进行加权组合，确定每个指数族先验分布对应的权重。

在其中一些具体实施例中，在步骤S3中还包括：根据所述神经网络模型输出和实际数据，利用贝叶斯更新原理，对所述混合指数族先验分布的参数进行更新，包括内部参数和分布的权重。

在其中一些具体实施例中，在步骤S3中包括：根据神经网络的前向传播过程，将数据传递至所述神经网络的输出层，得到预测结果和不确定性信息，并根据所述预测结果和不确定性信息生成训练模型。

在其中一些具体实施例中，在步骤S4中包括，利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。

为实现同一发明目的，本申请还提供了一种混合指数族后验分布的数据异常点检测系统，包括：

数据处理模块：用于将结构化数据集进行预处理，并映射到低维的隐空间向量；

参数初始化模块：用于初始化混合指数族先验分布的参数，包括均值、方差以及分布的权重；

模型生成模块：用于根据处理后的结构化数据集和所述混合指数族先验分布的参数生成神经网络模型，对所述神经网络模型进行迭代训练，得到训练模型；

置信度计算模块：用于根据所述训练模型，利用熵加权法计算每条数据的综合置信度；

异常点确定模块：用于根据所述综合置信度和设定的阈值筛选结构化数据集的异常点。

在其中一些具体实施例中，所述参数初始化模块用于将初始化混合指数族先验分布的参数进行初始化处理并将各个指数族分布进行加权组合，确定每个指数族分布对应的权重。

在其中一些具体实施例中，所述模型生成模块还用于根据所述神经网络模型输出和实际数据，利用贝叶斯更新原理，对混合指数族先验分布的参数进行更新，包括内部参数和分布的权重。

在其中一些具体实施例中，所述模型生成模块用于根据网络的前向传播过程，将数据传递至网络的输出层，得到预测结果和不确定性信息，根据所述预测结果和不确定性信息生成训练模型。

在其中一些具体实施例中，所述置信度计算模块用于利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。

上述技术方案的有益效果：

本申请的一种混合指数族后验分布的数据异常点检测方法和系统，通过特征提取、概率建模和不确定性度量，有效去除异常点数据，，从而改善机器学习模型的性能和可靠性。本申请改进了深度学习模型，特别是用于异常检测的模型。通过引入混合指数族先验分布、不确定性计算和熵加权置信度计算，能够更准确地拟合现实世界中复杂多样的数据分布，有助于提高模型的预测精度，更好地捕捉了数据的分布特征；通过不确定性计算，结合了固有不确定性和认知不确定性，从而更全面地考虑了数据的不确定性，使得模型能够更可靠地识别远离整体分布的数据，提高了异常点数据的准确识别能力；采用熵加权的方式计算每条数据的综合置信度，从而高效地筛选出异常点数据，显著提高了机器学习模型的预测精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例提供的一种混合指数族后验分布的数据异常点检测方法的流程示意图；

图2为本发明的一个实施例提供的一种混合指数族后验分布的数据异常点检测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

所述实施例的示例在附图中示出，其中自始至终相同或类似的符号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

实施例一

本发明的一个实施例提供了一种混合指数族后验分布的数据异常点检测方法，参照图1所示，包括：

步骤S1：对将结构化数据集进行预处理，并映射到低维的隐空间向量。

具体地，预处理是数据处理的初始阶段，其目的是准备数据以便后续处理。主要包括以下步骤：

(一)数据预处理：

(1)缺失值处理

对于缺失值，可以采取填充、删除等策略，确保数据完整性。

(2)标准化/归一化

对数据进行标准化或归一化，将不同特征的数值范围调整到相同的尺度，有助于模型训练。

(3)类别特征处理

对于类别特征，可以进行独热编码或者使用嵌入等方法进行处理，以便模型能够更好地理解这些特征。

(二)、映射到低维隐空间向量：

使用两层全连接神经网络进行映射。假设原始数据特征为X，两层映射的权重参数为W₁，W₂，偏置参数为b₁,，b₂。隐空间向量为Z。

(1)第一层映射

第一层映射公式为Z₁＝σ(W₁X+b₁)。其中，σ是激活函数，例如ReLU或Sigmoid函数。

(2)第二层映射

(3)经过Z＝σ(W₂Z₁+b₂)，最终得到的Z就是映射到低维隐空间的向量。

使用两层全连接层(也称为全连接神经网络)进行映射，，将原始特征映射到一个中间的隐层，然后再映射到最终的低维隐空间。

步骤S2：初始化混合指数族先验分布的参数，包括均值、方差以及分布的权重。

在本发明的一个具体实施例中，在步骤S2中，将初始化混合指数族先验分布的参数进行初始化处理并将各个指数族分布进行加权组合，确定每个指数族分布对应的权重。

在本发明的一个具体实施例中，根据所述神经网络模型输出和实际数据，利用贝叶斯更新原理，对混合指数族先验分布的参数进行更新，包括内部参数和分布的权重。

具体地，由于指数族分布的共轭先验也是指数族的成员，关于先验参数θ的函数可以表示为P(y|θ)，指数族分布的熵可以表示为：其中y是随机变量的取值，θ是分布的参数，h(y)是正则化常数，η(θ)是关于参数θ的函数，u(y)是关于y的充分统计量，A(θ)是关于参数θ的对数正则项。

将若干个指数族分布组合成混合指数族分布，每一个先验分布都有对应的权重混合指数族分布的熵可以表示为：π_k为混合指数族先验分布的参数对应的权重。

具体地，混合指数族先验分布更新包括以下步骤：

(1)初始化混合指数族先验分布的参数：在训练开始时，，首先对混合指数族先验分布的参数进行初始化。这些参数通常包括分布的参数n_k、χ_k和其对应的权重π_k。

(2)前向传播：在前向传播过程中主要经过了归一化流以及混合指数族先验分布的计算，将训练数据传递到网络的输出层。

(3)计算Loss函数：将指数族分布的熵作为网络训练的Loss函数，对网络中的参数进行梯度下降更新。

(4)计算各个分布的后验权重：其中，表示第k个分量在观测数据下的似然函数值。

(5)混合指数族先验分布更新：根据网络的输出结果和实际的训练数据，利用贝叶斯更新原理，对混合指数族先验分布的参数和权重进行更新：其中，/>和/>分别表示后验分布的参数，/>是第k个指数族分布的归一化因子，w_k是第k个分量的权重。然后，对每个分布的先验参数进行更新：

步骤S3：根据处理后的结构化数据集和所述混合指数族先验分布的参数生成神经网络模型，对所述神经网络模型进行迭代训练，得到训练模型。

在本发明的一个具体实施例中，在步骤S3中，根据网络的前向传播过程，将数据传递至网络的输出层，得到预测结果和不确定性信息，根据所述预测结果和不确定性信息生成训练模型。

具体地，固有不确定性计算包括以下步骤：

(1)将隐向量映射到输出分布。

(2)计算其对应的充分统计量A⁽ⁱ⁾＝g(z⁽ⁱ⁾)。

认知不确定性计算包括以下步骤：

(1)经过归一化流计算每条输入数据的概率密度P(z⁽ⁱ⁾|ω)。

(2)计算归一化密度在隐向量上的确定性预算，N_H＝∫N_HP(z⁽ⁱ⁾|ω)dz⁽ⁱ⁾＝∫n⁽ⁱ⁾dz⁽ⁱ⁾。

(3)综合每条输入数据的概率密度和确定性预算，作为认知不确定性E⁽ⁱ⁾＝N_HP(z⁽ⁱ⁾|ω)。

步骤S4：根据所述训练模型，利用熵加权法计算每个参数的综合置信度；

在本发明的一个具体实施例中，在步骤S4中，利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。

具体地，利用熵公式分别计算固有不确定性和认知不确定性的熵。再利用熵加权的方法，将固有不确定性A⁽ⁱ⁾和认知不确定性E⁽ⁱ⁾结合在一起，得到每条样本数据的综合置信度C⁽ⁱ⁾＝H_AE⁽ⁱ⁾+H_EE⁽ⁱ⁾。较高的熵值代表更高的不确定性，因此综合置信度趋向于反映模型的不确定性。

在本发明的一个具体实施例中，利用MEFDPN网络来拟合数据并检测异常点。MEFDPN的编码器通常是一个深度神经网络，它接受输入数据并将其映射到一个低维表示或特征空间。编码器的结构可以是卷积神经网络(CNN)、循环神经网络(RNN)或全连接神经网络，具体结构根据任务的性质和数据的特点而定。MEFDPN用于建模数据的复杂分布情况。MEFDPN可以计算每个样本参数的固有不确定性，通常与数据的自然变异性有关，可以通过混合指数族先验分布的方差来估计；也可以计算认知不确定性，通常和模型训练有关，可以通过混合指数族先验分布的分布形态来估计。MEFDPN使用熵值来综合考虑固有不确定性和认知不确定性，以计算每个样本参数的综合置信度。这一过程包括计算每个样本参数的两个熵值，然后进行熵加权相加，得到综合熵。再利用MEFDPN网络输出拟合后的数据分布及相应的综合置信度，用于数据分布拟合和异常点检测。

本发明适用于结构化数值型数据，适用于多个领域，特别是那些需要在机器学习和数据分析中处理大规模数据集的领域，以提高机器学习模型的性能、可靠性和鲁棒性。具体的应用领域包括但不限于：

自动驾驶：在自动驾驶领域，需要处理来自各种传感器的数据，包括激光雷达、摄像头、雷达等。本方法可用于筛选和去除与正常驾驶场景不符的异常数据，提高自动驾驶系统的可靠性。

医疗诊断：在医疗领域，医疗图像、患者数据和临床记录等多种数据类型被用于疾病诊断和患者监测。通过本方法，可以从这些数据中去除可能出现的异常或错误数据，确保准确的医疗诊断。

金融风险评估：金融领域需要处理大量的金融数据，包括股票价格、交易记录和市场指标。该方法可用于检测异常交易或异常市场行为，提高金融风险评估的准确性。

本申请的一种混合指数族后验分布的数据异常点检测方法和系统，通过特征提取、概率建模和不确定性度量，有效去除异常点数据，从而改善机器学习模型的性能和可靠性。

实施例二

本发明的一个实施例提供了一种混合指数族后验分布的数据异常点检测系统，参照图2所示，包括：

数据处理模块10：用于将结构化数据集进行预处理，并映射到低维的隐空间向量。

参数初始化模块20：用于初始化混合指数族先验分布的参数，包括均值、方差以及分布的权重。

在本发明的一个具体实施例中，参数初始化模块20还用于，将初始化混合指数族先验分布的参数进行初始化处理并将各个指数族分布进行加权组合，确定每个指数族分布对应的权重。

具体地，混合指数族先验分布更新执行以下程序：

模型生成模块30：用于根据处理后的结构化数据集和所述混合指数族先验分布的参数生成神经网络模型，对所述神经网络模型进行迭代训练，得到训练模型。

在本发明的一个具体实施例中，模型生成模块30还用于，根据网络的前向传播过程，将数据传递至网络的输出层，得到预测结果和不确定性信息，根据所述预测结果和不确定性信息生成训练模型。

具体地，固有不确定性计算执行以下程序：

(1)将隐向量映射到输出分布。

(2)计算其对应的充分统计量A⁽ⁱ⁾＝g(z⁽ⁱ⁾)。

认知不确定性计算执行以下程序：

(1)经过归一化流计算每条输入数据的概率密度P(z⁽ⁱ⁾|ω)。

置信度计算模块40：用于根据所述训练模型，利用熵加权法计算每个参数的综合置信度；

在本发明的一个具体实施例中，置信度计算模块40还用于，利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。

具体地，利用熵公式分别计算固有不确定性和认知不确定性的熵。再利用熵加权的方法，将固有不确定性A⁽ⁱ⁾和认知不确定性E⁽ⁱ⁾结合在一起，得到每个样本参数的综合置信度C⁽ⁱ⁾＝H_AA⁽ⁱ⁾+H_EE⁽ⁱ⁾。较高的熵值代表更高的不确定性，因此综合置信度趋向于反映模型的不确定性。

异常点确定模块50：用于根据所述综合置信度和设定的阈值筛选结构化数据集的异常点。

在本发明的一个具体实施例中，利用MEFDPN网络来拟合数据并检测异常点。MEFDPN的编码器通常是一个深度神经网络，它接受输入数据并将其映射到一个低维表示或特征空间。编码器的结构可以是卷积神经网络(CNN)、循环神经网络(RNN)或全连接神经网络，具体结构根据任务的性质和数据的特点而定。MEFDPN用于建模数据的复杂分布情况。MEFDPN可以计算每个样本参数的固有不确定性，通常与数据的自然变异性有关，可以通过混合指数族先验分布的方差来估计；也可以计算认知不确定性，通常和模型训练有关，可以通过混合指数族先验分布的分布形态来估计。MEFDPN使用熵值来综合考虑固有不确定性和认知不确定性，以计算每个样本参数的综合置信度。这一过程包括计算每个样本参数的两个熵值，然后进行熵加权相加，得到综合熵。综合熵通常通过熵加权的方式与模型的输出结合，用于确定每条样本数据的置信度。再利用MEFDPN网络输出拟合后的数据分布及相应的综合置信度，用于数据分布拟合和异常点检测。

本申请的一种混合指数族后验分布的数据异常点检测方法和系统，改进了深度学习模型，特别是用于异常检测的模型。通过引入混合指数族先验分布、不确定性计算和熵加权置信度计算，能够更准确地拟合现实世界中复杂多样的数据分布，有助于提高模型的预测精度，更好地捕捉了数据的分布特征；通过不确定性计算，结合了固有不确定性和认知不确定性，从而更全面地考虑了数据的不确定性，使得模型能够更可靠地识别远离整体分布的数据，提高了异常点数据的准确识别能力；采用熵加权的方式计算每个样本参数的综合置信度，从而高效地筛选出异常点数据，显著提高了机器学习模型的预测精度。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，，本发明的保护范围应以权利要求的保护范围为准。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的方法和装置行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、“一个具体实施例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于混合指数族后验分布的数据异常点检测方法，其特征在于，包括：

2.根据权利要求1所述的混合指数族后验分布的数据异常点检测方法，其特征在于，在步骤S2中，对所述混合指数族先验分布的参数进行初始化，并将各个指数族先验分布进行加权组合，确定每个指数族先验分布对应的权重。

3.根据权利要求2所述的混合指数族后验分布的数据异常点检测方法，其特征在于，在步骤S3中还包括：根据所述神经网络模型输出和实际数据，利用贝叶斯更新原理，对所述混合指数族先验分布的参数进行更新，包括内部参数和分布的权重。

4.根据权利要求1所述的混合指数族后验分布的数据异常点检测方法，其特征在于，在步骤S3中包括：根据神经网络的前向传播过程，将数据传递至所述神经网络的输出层，得到预测结果和不确定性信息，并根据所述预测结果和不确定性信息生成训练模型。

5.根据权利要求1所述的混合指数族后验分布的数据异常点检测方法，其特征在于，在步骤S4中包括，利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。

6.一种基于混合指数族后验分布的数据异常点检测系统，其特征在于，包括：

7.根据权利要求6所述的混合指数族后验分布的数据异常点检测系统，其特征在于，所述参数初始化模块用于将初始化混合指数族先验分布的参数进行初始化处理并将各个指数族分布进行加权组合，确定每个指数族分布对应的权重。

8.根据权利要求7所述的混合指数族后验分布的数据异常点检测系统，其特征在于，所述模型生成模块还用于根据所述神经网络模型输出和实际数据，利用贝叶斯更新原理，对混合指数族先验分布的参数进行更新，包括内部参数和分布的权重。

9.根据权利要求6所述的混合指数族后验分布的数据异常点检测系统，其特征在于，所述模型生成模块用于根据网络的前向传播过程，将数据传递至网络的输出层，得到预测结果和不确定性信息，根据所述预测结果和不确定性信息生成训练模型。

10.根据权利要求6所述的混合指数族后验分布的数据异常点检测系统，其特征在于，所述置信度计算模块用于利用熵公式计算固有不确定性和认知不确定性的熵，再利用熵加权法，结合数据的固有不确定性和认知不确定性，确定每条数据的综合置信度。