CN115809404B - 一种检测阈值计算方法、装置、存储介质及电子设备 - Google Patents

一种检测阈值计算方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115809404B
CN115809404B CN202310049594.4A CN202310049594A CN115809404B CN 115809404 B CN115809404 B CN 115809404B CN 202310049594 A CN202310049594 A CN 202310049594A CN 115809404 B CN115809404 B CN 115809404B
Authority
CN
China
Prior art keywords
data
normal
segmentation
abnormal
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310049594.4A
Other languages
English (en)
Other versions
CN115809404A (zh
Inventor
王天奇
翟瑞
谢檬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Superred Technology Co Ltd
Original Assignee
Beijing Superred Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Superred Technology Co Ltd filed Critical Beijing Superred Technology Co Ltd
Priority to CN202310049594.4A priority Critical patent/CN115809404B/zh
Publication of CN115809404A publication Critical patent/CN115809404A/zh
Application granted granted Critical
Publication of CN115809404B publication Critical patent/CN115809404B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Complex Calculations (AREA)

Abstract

本申请提供一种检测阈值计算方法、装置、存储介质及电子设备,涉及数据处理领域,其中方法包括:基于离散程度过滤掉原始数据中的异常数据,得到正常数据;将正常数据输入核密度估计模型,得到概率密度函数;基于概率密度函数与预设的异常概率得到检测阈值。通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。

Description

一种检测阈值计算方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理领域,具体涉及一种检测阈值计算方法、装置、存储介质及电子设备。
背景技术
在用户实体行为分析等领域,较为常见的场景为对用户行为统计数据设定合理阈值,当真实数据高于或低于该阈值则表示出现了异常。
现有的计算检测阈值的方法中,由于用户行为数据的数量众多,且用户对应的历史数据中都存在不同程度的体现用户异常行为的数据,要想精准地从历史数据中计算合理的检测阈值是比较困难的,需要根据不同用户数据手动设置不同的异常概率,导致需要的人工计算成本较大。
发明内容
本申请提供一种检测阈值计算方法、装置、存储介质及电子设备,通过离散程度过滤掉原始数据中的异常数据,得到正常数据,再基于核密度估计算法拟合出正常数据对应的概率密度函数,设定统一的异常概率计算得到检测阈值,能在保证检测阈值准确度的同时降低人工计算的成本。
第一方面,本申请提供了一种检测阈值计算方法,所述方法包括:
基于离散程度过滤掉原始数据中的异常数据,得到正常数据;
将所述正常数据输入核密度估计模型,得到概率密度函数;
基于所述概率密度函数与预设的异常概率得到检测阈值。
通过采用上述技术方案,通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。
可选的,所述基于离散程度过滤掉原始数据中的异常数据,得到正常数据,包括:
将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;
计算各所述切分点对应的离散程度之和,得到散度分布图;
确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据,所述第一异常数据为所述原始数据中大于等于所述第一切分点的数据,所述第一正常数据为所述原始数据中小于所述第一切分点的数据;
判断所述最大梯度是否小于第一阈值;
若所述第一切分点处的梯度小于第一阈值,则将所述第一正常数据确定为所述正常数据。
通过采用上述技术方案,以原始数据中的每个数据作为切分点,分别求取每个切分点对应的离散程度之和,对每个切分点对应的离散程度之和进行拟合得到散度分布图,并确定散度分布图中最大梯度对应的切分点为第一切分点,实现对正常数据与异常数据的准确切分。
可选的,所述判断所述最大梯度是否小于第一阈值之后,还包括:
若所述最大梯度大于等于第一阈值,则将所述第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将所述原始数据的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至所述最大梯度小于所述第一阈值。
通过采用上述技术方案,在本轮计算中,若最大梯度大于等于第一阈值,说明以该最大梯度对应的第一切分点切分的第一正常数据和第一异常数据还不够准确,则去除该第一切分点对应的第一异常数据,将剩余的第一正常数据作为原始数据,并按照上述方式进行下一轮计算,直至找到的最大梯度小于第一阈值。通过多轮迭代切分的方式,逐轮去除第一异常数据,最终确定出准确的正常数据,实现对正常数据与异常数据的准确切分,减少异常数据对后续阈值计算的干扰。
可选的,所述计算各所述切分点对应的离散程度之和,得到散度分布图,包括:
以各所述切分点为基准将所述原始数据进行切分,得到各所述切分点对应的第二正常数据与第二异常数据,所述第二异常数据为所述原始数据中大于等于对应的切分点的数据,所述第二正常数据为所述原始数据中小于对应的切分点的数据;
将各所述切分点对应的第二正常数据与所述第二异常数据代入数据离散程度公式,得到各所述切分点对应的离散程度之和;
将各所述切分点对应的离散程度之和进行拟合,得到散度分布图;
所述数据离散程度公式为:
式中,为所述原始数据中第 k个切分点对应的第二正常数据与第二异常数据的离散程度之和,
为所述第 k个切分点对应的第二正常数据的均值,为所述第 k个切分点对应的第二异常数据的均值;
i为所述第 k个切分点对应的第二正常数据中数据的序号, j为所述第 k个切分点对应的第二异常数据中数据的序号;
为所述第 k个切分点对应的第二正常数据中的第 i个数据,为所述第 k个切分点对应的第二异常数据中的第 j个数据;
m为所述第 k个切分点对应的第二正常数据中数据的数量, n为所述第 k个切分点对应的第二异常数据中数据的数量。
通过采用上述技术方案,分别计算各切分点对应的离散程度之和,再将各切分点对应的离散程度之和进行拟合,最终得到散度分布图,便于后续确定最佳的切分点。
可选的,所述将所述正常数据输入核密度估计模型,得到概率密度函数,包括:
将所述正常数据切分为若干个数据区间;
分别对每个所述数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线;
对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数。
通过采用上述技术方案,在切分得到正常数据之后,将正常数据用函数形式表示,便于量化处理正常数据中的多个数据。
可选的,所述对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数之后,还包括:
对所述概率密度函数进行归一化处理。
通过采用上述技术方案,对拟合叠加得到的概率密度函数进行归一化处理,保证概率密度函数的积分为1,确保后续能够使用统一的异常概率,对不同类型的用户行为数据进行阈值计算。
可选的,所述基于所述概率密度函数与预设的异常概率得到检测阈值,包括:
设定异常概率,将所述概率密度函数与所述异常概率代入概率密度公式,得到检测阈值;
所述概率密度公式为:
式中,为所述检测阈值;
为所述概率密度函数;
为所述异常概率。
通过采用上述技术方案,设定统一的异常概率,可求取不同类型的用户行为数据的检测阈值,减少用户计算的人工成本。
第二方面,本申请提供了一种检测阈值计算装置,所述装置包括:
异常数据过滤模块,用于基于离散程度过滤掉原始数据中的异常数据,得到正常数据;
核密度估计模块,用于将所述正常数据输入核密度估计模型,得到概率密度函数;
检测阈值计算模块,用于基于所述概率密度函数与预设的异常概率得到检测阈值。
第三方面,本申请提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述任意一项方法。
第四方面,本申请提供了一种电子设备,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如上述任意一项方法。
综上所述,本申请技术方案所带来的有益效果包括:通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。
附图说明
图1是本申请实施例提供的一种检测阈值计算方法的流程示意图;
图2是本申请实施例提供的另一种检测阈值计算方法的流程示意图;
图3是本申请实施例提供的一种示例性的原始数据的散度分布图;
图4是本申请实施例提供的又一种检测阈值计算方法的流程示意图;
图5是本申请实施例提供的一种求取概率密度函数的示意图;
图6是本申请实施例提供的一种检测阈值计算装置的结构示意图;
图7是本申请实施例提供的一种电子设备的结构示意图。
附图标记说明:100、异常数据过滤模块;200、核密度估计模块;300、检测阈值计算模块;1000、电子设备;1001、处理器;1002、通信总线;1003、用户接口;1004、网络接口;1005、存储器。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“示性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“示性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
为详细理解本申请实施例的检测阈值计算方法,首先对本申请的主体步骤及相关名称作简要说明。
在本申请实施例中,原始数据为用户实体行为分析领域中获取到的用户的具体行为统计数据,包括多个数据。
将原始数据按从小到大的顺序排列,并分别将原始数据中的每个数据作为切分点,计算各切分点对应的离散程度之和,得到散度分布图,判断散度分布图中最大梯度是否小于第一阈值,其中,散度分布图中最大梯度对应的切分点为第一切分点,若散度分布图中最大梯度大于等于第一阈值,则去除原始数据中大于等于第一切分点的数据,将剩余的数据作为新的原始数据,按照上述方式重复计算,直至得到新的散度分布图中最大梯度小于第一阈值,将此时得到的大于等于第一切分点的数据去除,那么剩余的数据即为正常数据。
本申请实施例中的异常数据即为原始数据中除正常数据以外的数据。
将正常数据输入核密度估计模型,得到概率密度函数,基于概率密度函数与预设的异常概率得到检测阈值。
请参见图1,为本申请实施例提供的一种检测阈值计算方法的流程示意图,该方法可依赖于计算机程序实现,可依赖于单片机实现,也可运行于基于冯诺依曼体系的检测阈值计算装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。本申请实施例以执行计算的计算机为例,对检测阈值计算方法的具体步骤做详细说明。
S11,基于离散程度过滤掉原始数据中的异常数据,得到正常数据。
数据的离散程度是指一组数据中各数据的数值远离其平均值的程度,也可理解为一组数据中各数据的数值之间的差异程度,本申请实施例中基于离散程度从原始数据中分离出正常数据,即将原始数据中差异较大的异常数据去除,异常数据的存在会对后续通过正常数据计算概率密度函数存在干扰,通过过滤原始数据中的异常数据,使得后续基于正常数据计算检测阈值更加准确。
可以理解的是,原始数据、正常数据以及异常数据均为用户行为数据中的真实数据,数据本身不具有区分其类别的标签。
在其中一个实施例中,请参见图2,为本申请实施例提供的另一种检测阈值计算方法的流程示意图,以详细描述基于离散程度过滤掉原始数据中的异常数据的步骤。
S111,将原始数据按从小到大的顺序排列,分别将原始数据中的每个数据作为切分点。
将原始数据按从小到大的顺序排列,以原始数据中的每个数据依次作为切分点,以每个切分点为基准,将原始数据切分为两组数据,即将大于等于切分点的数据切分为一组数据,将小于切分点的数据切分为另一组数据。
在本申请实施例的其它切分与计算中,同样将等于切分点的数据切分至大于切分点的一组数据中。在其他可行的实施方式中,可以将等于切分点的数据切分至小于切分点的一组数据中。为方便描述,本申请实施例以将等于切分点的数据切分至大于切分点的一组数据中进行说明。
本申请为便于描述切分过程,在本申请实施例的其它切分与计算中,将等于切分点的数据切分至大于切分点的一组数据中。
举例来说,原始数据包括十个数据,将这十个数据按从小到大的顺序排列,第一次切分将第一个数据作为第一个切分点,切分的两组数据中小于第一个切分点的一组数据为空集,大于等于第一个切分点的一组数据为上述的十个数据;第二次切分将第二个数据作为第二个切分点,直至第十次切分将第十个数据作为第十个切分点,每次进行切分均会将原始数据切分为两组数据。
举例来说,将原始数据按从小到大的顺序排列于坐标系中,横坐标代表原始数据中每个数据的序号,纵坐标代表原始数据中的每个数据,选取其中一个数据作为切分点,即为经过该切分点作一条平行于横坐标的直线,原始数据被切分为两组数据,其中一组数据为直线以上包括在直线上的数据,另一组数据为直线以下的数据。
S112,计算各切分点对应的离散程度之和,得到散度分布图。
离散程度之和是指以每个切分点为基准将原始数据分为两组数据之后,分别计算两组数据对应的离散程度,并将两组数据对应的离散程度进行求和,得到每个切分点对应的离散程度之和。
将每个切分点对应的离散程度之和按对应的原始数据从小到大的顺序分布于坐标轴上,并进行拟合,得到散度分布图。请参见图3,为本申请实施例提供的一种示例性的原始数据的散度分布图,其中,横坐标为按从小到大的顺序排列的原始数据,纵坐标为每个切分点对应的离散程度之和。
在其中一个实施例中,对计算各切分点对应的离散程度之和,得到散度分布图的具体步骤作进一步解释。
以各切分点为基准将原始数据进行切分,得到各切分点对应的第二正常数据与第二异常数据,第二异常数据为原始数据中大于等于对应的切分点的数据,第二正常数据为原始数据中小于对应的切分点的数据;
将各切分点对应的第二正常数据与第二异常数据代入数据离散程度公式,得到各切分点对应的离散程度之和;
将各切分点对应的离散程度之和进行拟合,得到散度分布图;
数据离散程度公式为:
式中,为第 k个切分点对应的第二正常数据与第二异常数据的离散程度之和,
为第 k个切分点对应的第二正常数据的均值,为第 k个切分点对应的第二异常数据的均值;
i为第 k个切分点对应的第二正常数据中数据的序号, j为第 k个切分点对应的第二异常数据中数据的序号;
为第 k个切分点对应的第二正常数据中的第 i个数据,为第 k个切分点对应的第二异常数据中的第 j个数据;
m为第 k个切分点对应的第二正常数据中数据的数量, n为第 k个切分点对应的第二异常数据中数据的数量。
将原始数据按从小到大的顺序排列,分别将原始数据中的每个数据作为切分点,选取第 k个切分点,将原始数据切分为第 k个切分点对应的第二正常数据与第 k个切分点对应的第二异常数据,其中,小于切分点的数据为第 k个切分点对应的第二正常数据,大于等于切分点的数据为第 k个切分点对应的第二异常数据。分别计算第 k个切分点对应的第二正常数据的均值与第 k个切分点对应的第二异常数据的均值,切分后第 k个切分点对应的第二正常数据中数据的序号 i与第 k个切分点对应的第二异常数据中数据的序号 j分别从1开始计数,分别计算第 k个切分点对应的第二正常数据中的 i个数据与第 k个切分点对应的第二正常数据的均值的差值的平方,再对第 k个切分点对应的第二正常数据中的 i个数据的计算结果求和,得到第 k个切分点对应的第二正常数据的离散程度,使用同样的方法求得第 k个切分点对应的第二异常数据的离散程度,对第 k个切分点对应的第二正常数据的离散程度与第 k个切分点对应的第二异常数据的离散程度求和,得到第 k个切分点对应的离散程度之和。
在计算完第 k个切分点对应的离散程度之和后,选取第 k+1个切分点,选取的第 k+1个切分点将原始数据切分为第 k+1个切分点对应的第二正常数据与第 k+1个切分点对应第二异常数据,使用上述同样的方式计算选取的第 k+1个切分点对应的离散程度之和,直至所有切分点对应的离散程度之和计算完毕。
数据离散程度公式为类似于方差的公式,使用数据离散程度公式对以各切分点为基准切分出的第二正常数据与第二异常数据进行计算,得到各切分点对应的离散程度之和,拟合每个切分点对应的离散程度之和,得到散度分布图。
S113,确定散度分布图中最大梯度对应的切分点为第一切分点,去除第一切分点对应的第一异常数据,得到第一正常数据,第一异常数据为原始数据中大于等于第一切分点的数据,第一正常数据为原始数据中小于第一切分点的数据。
梯度表示散度分布图中某一切分点对应的离散程度之和的方向导数,梯度大小反映了切分点对应的离散程度之和的变化率,梯度越大,切分点对应的离散程度之和的变化率越大。在本申请实施例中,最大梯度是散度分布图中某一切分点对应的离散程度之和的方向导数取得最大值,表征该点处函数的变化率最大。将最大梯度对应的切分点确定为第一切分点,将原始数据中大于等于第一切分点的数据去除,得到原始数据中小于第一切分点的数据,为便于描述,将原始数据中大于等于第一切分点的数据定义为第一切分点对应的第一异常数据,将原始数据中小于第一切分点的数据定义为第一切分点对应的第一正常数据。
举例来说,如图3所示,散度分布图的梯度在横坐标49000处取得最大值,将横坐标49000处对应的切分点确定为第一切分点,将原始数据切分为第一正常数据与第一异常数据。
S114,判断最大梯度是否小于第一阈值。
在确定散度分布图中最大梯度对应的切分点为第一切分点后,根据散度分布图中最大梯度是否小于第一阈值,来判断以第一切分点为基准进行切分是否能够准确得到原始数据中的正常数据。
举例来说,在一轮切分中,若散度分布图中的最大梯度大于等于第一阈值,则说明此轮切分中第一切分点对应的离散程度之和的变化率较大,第一切分点与满足切分准确度要求的切分点存在一定差距,第一切分点对应的第一正常数据不能够满足切分准确度的要求。
需要说明的是,梯度是散度分布图中某一切分点对应的离散程度之和的方向导数,是包含切分点对应的离散程度之和的变化率大小与方向的矢量,本申请实施例中的梯度大小只涉及切分点对应离散程度之和的变化率的标量大小,不涉及切分点对应的离散程度之和的变化率的方向,因此在判断最大梯度是否小于第一阈值时,只需要求取第一切分点处梯度的模即可,其中第一阈值为设定的梯度阈值。
S115,若最大梯度小于第一阈值,则将第一正常数据确定为正常数据。
在求得散度分布图中的最大梯度,并判断最大梯度小于第一阈值之后,若最大梯度小于第一阈值,从散度分布图中最大梯度小于第一阈值的第一切分点处进行切分,切分出的第一切分点对应的第一正常数据能够满足切分准确度的要求,能够将原始数据准确地切分为正常数据与异常数据。
S116,若最大梯度大于等于第一阈值,则将第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将原始数据中的每个数据作为切分点;计算各切分点对应的离散程度之和,得到散度分布图;确定散度分布图中最大梯度对应的切分点为第一切分点,去除第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至最大梯度小于第一阈值。
在本轮切分中,最大梯度小于第一阈值时,去除第一切分点对应的第一异常数据,将第一正常数据作为新的原始数据,开始下一轮切分,将新的原始数据按从小到大的顺序排列,分别将新的原始数据中的每个数据作为切分点,计算各所述切分点对应的离散程度之和,得到新的散度分布图,确定新的散度分布图中新的最大梯度对应的切分点为新的第一切分点,去除新的第一切分点对应的第一异常数据,得到新的第一切分点对应的第一正常数据。判断新的最大梯度是否小于第一阈值,若新的最大梯度小于第一阈值,则将新的第一切分点对应的第一正常数据确定为正常数据;若新的最大梯度大于等于第一阈值,则重新执行上述进行下一轮切分的步骤,直至在后续某一轮切分中,最大梯度小于第一阈值。通过多轮迭代切分的方式,逐轮判断最大梯度是否小于第一阈值,能够逐轮过滤掉原始数据中的部分异常数据,确定准确的第一切分点,得到正常数据。其中最大梯度越小,表示各个切分点对应的离散程度之和的起伏范围越小,同时表示第一切分点与满足切分准确度的要求的切分点之间的差距越小。
S12,将正常数据输入核密度估计模型,得到概率密度函数。
将得到的正常数据输入核密度估计模型,得到概率密度函数,其中,核密度估计模型是根据数据本身的特点、性质来拟合分布的非参数估计模型,用于估计概率密度函数,概率密度函数为正常数据中各个数据分布的数学表现形式。
S13,基于概率密度函数与预设的异常概率得到检测阈值。
计算得到的概率密度函数具有连续性与非负性,概率密度函数是以正常数据计算得到的,概率密度函数在负无穷到检测阈值区间的积分结果为预设的异常概率,从而可以根据概率密度函数以及预设的异常概率计算得到检测阈值。
通过上述技术方案,将原始数据中的每个数据作为切分点,计算每个切分点对应的离散程度之和,并通过多轮迭代切分的方式筛选过滤出正常数据,能够保证后续核密度估计以及检测阈值计算的准确性。
在本申请另一个实施例的检测阈值计算方法的步骤中,详细描述了核密度估计模型的拟合步骤,以及如何根据异常概率得到检测阈值的步骤,以达到检测阈值的精度要求。请参见图4,为本申请实施例提供的又一种检测阈值计算方法的流程示意图。
S21,基于离散程度过滤掉原始数据中的异常数据,得到正常数据。
S22,将正常数据切分为若干个数据区间。
将正常数据输入核密度估计模型中,对正常数据直接拟合得到的概率密度函数可能存在不连续的情况,导致拟合出的概率密度函数不够准确。因此,为了拟合出准确的概率密度函数,将正常数据切分为若干个数据区间,每个数据区间包含若干个正常数据中的数据,且每个数据区间的范围相同。
S23,分别对每个数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线。
请参见图5,为本申请实施例提供的一种求取概率密度函数的示意图,图中左边部分为数据区间内正常数据的分布直方图,右边虚线部分为每一个数据区间内的正常数据得到的正态分布,实线部分为对每个数据区间进行正态分布拟合后,叠加得到的概率密度函数。
在上述将正常数据切分为若干个数据区间后,对数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线,对各个正态分布曲线进行叠加,得到正常数据的概率密度函数。
在其中一个实施例中,对概率密度函数进行归一化处理。
核密度函数的计算需要各数据区间内的正常数据具有归一性,即选取的核密度在数据区间内的积分为1,归一化处理的方式为对概率密度函数进行微小调整,通过沿纵坐标平行移动的方式将核密度函数的积分控制为1,以满足后续使用统一的异常概率对多种类型的用户行为数据进行检测阈值的计算。
S24,对每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数。
举例来说,请参见图5,对虚线部分的6个数据区间对应的正态分布曲线进行叠加,得到的实线即为概率密度函数。
S25,设定异常概率,将概率密度函数与异常概率代入概率密度公式,得到检测阈值。
在其中一个实施例中,概率密度公式为:
式中,为检测阈值;为概率密度函数;为异常概率。
概率密度公式为概率密度函数的积分形式,概率密度函数与横坐标之间围成的积分面积为1,在异常概率已知的情况下,可通过概率密度公式求得检测阈值。举例来说,设定的异常概率为0.9,则负无穷到检测阈值的积分区间对应的积分面积为0.9,在概率密度函数已求得的情况下,可求得负无穷到检测阈值的积分区间,积分区间的一端为负无穷,积分区间的另一端为检测阈值。
通过上述技术方案,通过计算离散程度过滤掉原始数据中的异常数据,减小与正常数据偏离较大的异常数据对于检测阈值计算的干扰,使用核密度估计模型得到正常数据对应的概率密度函数,进而基于该概率密度函数以及预设的异常概率计算得到检测阈值,能够根据一个统一的异常概率对不同类型的用户行为数据计算出合理的检测阈值,降低人工计算的成本。下述为本申请系统实施例,可以用于执行本申请方法实施例。对于本申请系统实施例中未披露的细节,请参照申请方法实施例。
请参见图6,其示出了本申请一个示例性实施例提供的检测阈值计算装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括异常数据过滤模块100、核密度估计模块200、以及检测阈值计算模块300。
异常数据过滤模块100,用于基于离散程度过滤掉原始数据中的异常数据,得到正常数据;
核密度估计模块200,用于将正常数据输入核密度估计模型,得到概率密度函数;
检测阈值计算模块300,用于基于概率密度函数与预设的异常概率得到检测阈值。
可选的,异常数据过滤模块100还包括数据切分单元101、正常数据循环单元102以及离散程度计算单元103。
数据切分单元101,用于将原始数据按从小到大的顺序排列,分别将原始数据中的每个数据作为切分点;
计算各切分点对应的离散程度之和,得到散度分布图;
确定散度分布图中最大梯度对应的切分点为第一切分点,去除第一切分点对应的第一异常数据,得到第一正常数据,第一异常数据为原始数据中大于等于第一切分点的原始数据,第一正常数据为原始数据中小于第一切分点的原始数据;
判断最大梯度是否小于第一阈值;
若最大梯度小于第一阈值,则将第一正常数据确定为正常数据。
正常数据循环单元102,用于若最大梯度大于等于第一阈值,则将第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将原始数据中的每个数据作为切分点;计算各切分点对应的离散程度之和,得到散度分布图;确定散度分布图中最大梯度对应的切分点为第一切分点,去除第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至最大梯度小于第一阈值。
离散程度计算单元103,用于以各切分点为基准将原始数据进行切分,得到各切分点对应的第二正常数据与第二异常数据,所述第二异常数据为原始数据中大于等于对应的切分点的数据,第二正常数据为原始数据中小于对应的切分点的数据;
将各切分点对应的第二正常数据与第二异常数据代入数据离散程度公式,得到各切分点对应的离散程度之和;
将各切分点对应的离散程度之和进行拟合,得到散度分布图;
数据离散程度公式为:
式中,为所述原始数据中第 k个切分点对应的第二正常数据与第二异常数据的离散程度之和,
为第 k个切分点对应的第二正常数据的均值,为第 k个切分点对应的第二异常数据的均值;
i为第 k个切分点对应的第二正常数据中数据的序号, j为第 k个切分点对应的第二异常数据中数据的序号;
为第 k个切分点对应的第二正常数据中的第 i个数据,为第 k个切分点对应的第二异常数据中的第 j个数据;
m为第 k个切分点对应的第二正常数据中数据的数量, n为第 k个切分点对应的第二异常数据中数据的数量。
可选的,核密度估计模块200还包括概率密度函数获取单元201以及数据区间获取单元202。
概率密度函数获取单元201,用于将正常数据切分为若干个数据区间;分别对每个数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线;
对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数。
概率密度函数处理单元202,用于对概率密度函数进行归一化处理。
检测阈值计算模块300还包括概率密度公式计算单元301。
概率密度公式计算单元301,用于设定异常概率,将概率密度函数与异常概率代入概率密度公式,得到检测阈值;
概率密度公式为:
式中,为检测阈值;
为概率密度函数;
为异常概率。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图6所示实施例的所述的检测阈值计算方法,具体执行过程可以参加图1-图6所示实施例的具体说明,在此不进行赘述。
请参见图7,为本申请实施例提供了一种电子设备的结构示意图。如图7所示,电子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集,以及调用存储在存储器1005内的数据,执行服务器的各种功能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-ProgrammableGate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-OnlyMemory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图7所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及一种检测阈值计算方法的应用程序。
在图7所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储一种检测阈值计算方法的应用程序,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
一种电子设备可读存储介质,所述电子设备可读存储介质存储有指令。当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。

Claims (8)

1.一种检测阈值计算方法,其特征在于,所述方法包括:
将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;
计算各所述切分点对应的离散程度之和,得到散度分布图,所述各所述切分点对应的离散程度之和由以各所述切分点为基准将所述原始数据分为两组数据之后,分别计算两组数据对应的离散程度,并将两组数据对应的离散程度进行求和得到;
确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据,所述第一异常数据为所述原始数据中大于等于所述第一切分点的数据,所述第一正常数据为所述原始数据中小于所述第一切分点的数据;
判断所述最大梯度是否小于第一阈值;
若所述最大梯度小于第一阈值,则将所述第一正常数据确定为所述正常数据;
将所述正常数据切分为若干个数据区间;
分别对每个所述数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线;
对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数;
基于所述概率密度函数与预设的异常概率得到检测阈值。
2.根据权利要求1所述的方法,其特征在于,所述判断所述最大梯度是否小于第一阈值之后,还包括:
若所述最大梯度大于等于第一阈值,则将所述第一正常数据作为原始数据,重复执行上述将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据的步骤,直至所述最大梯度小于所述第一阈值。
3.根据权利要求1所述的方法,其特征在于,所述计算各所述切分点对应的离散程度之和,得到散度分布图,包括:
以各所述切分点为基准将所述原始数据进行切分,得到各所述切分点对应的第二异常数据与第二正常数据,所述第二异常数据为所述原始数据中大于等于对应的切分点的数据,所述第二正常数据为所述原始数据中小于对应的切分点的数据;
将各所述切分点对应的第二正常数据与所述第二异常数据代入数据离散程度公式,得到各所述切分点对应的离散程度之和;
将各所述切分点对应的离散程度之和进行拟合,得到散度分布图;
所述数据离散程度公式为:
式中,为所述原始数据中第k个切分点对应的第二正常数据与第二异常数据的离散程度之和,
为所述第k个切分点对应的第二正常数据的均值,为所述第k个切分点对应的第二异常数据的均值;
i为所述第k个切分点对应的第二正常数据中数据的序号,j为所述第k个切分点对应的第二异常数据中数据的序号;
为所述第k个切分点对应的第二正常数据中的第i个数据,为所述第k个切分点对应的第二异常数据中的第j个数据;
m为所述第k个切分点对应的第二正常数据中数据的数量,n为所述第k个切分点对应的第二异常数据中数据的数量。
4.根据权利要求1所述的方法,其特征在于,所述对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数之后,还包括:
对所述概率密度函数进行归一化处理。
5.根据权利要求1所述的方法,其特征在于,所述基于所述概率密度函数与预设的异常概率得到检测阈值,包括:
设定异常概率,将所述概率密度函数与所述异常概率代入概率密度公式,得到检测阈值;
所述概率密度公式为:
式中,为所述检测阈值;
为所述概率密度函数;
为所述异常概率。
6.一种检测阈值计算装置,其特征在于,所述装置包括:
数据切分单元,用于将原始数据按从小到大的顺序排列,分别将所述原始数据中的每个数据作为切分点;计算各所述切分点对应的离散程度之和,得到散度分布图,所述各所述切分点对应的离散程度之和由以各所述切分点为基准将所述原始数据分为两组数据之后,分别计算两组数据对应的离散程度,并将两组数据对应的离散程度进行求和得到;确定所述散度分布图中最大梯度对应的切分点为第一切分点,去除所述第一切分点对应的第一异常数据,得到第一正常数据,所述第一异常数据为所述原始数据中大于等于所述第一切分点的数据,所述第一正常数据为所述原始数据中小于所述第一切分点的数据;判断所述最大梯度是否小于第一阈值;若所述最大梯度小于第一阈值,则将所述第一正常数据确定为所述正常数据;
概率密度函数获取单元,用于将所述正常数据切分为若干个数据区间;分别对每个所述数据区间内的正常数据进行正态分布拟合,得到每个数据区间对应的正态分布曲线;对所述每个数据区间对应的正态分布曲线进行叠加,得到概率密度函数;
检测阈值计算模块,用于基于所述概率密度函数与预设的异常概率得到检测阈值。
7.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项所述的方法。
8.一种电子设备,其特征在于,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如权利要求1~5任意一项所述的方法。
CN202310049594.4A 2023-02-01 2023-02-01 一种检测阈值计算方法、装置、存储介质及电子设备 Active CN115809404B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310049594.4A CN115809404B (zh) 2023-02-01 2023-02-01 一种检测阈值计算方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310049594.4A CN115809404B (zh) 2023-02-01 2023-02-01 一种检测阈值计算方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN115809404A CN115809404A (zh) 2023-03-17
CN115809404B true CN115809404B (zh) 2023-05-12

Family

ID=85487654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310049594.4A Active CN115809404B (zh) 2023-02-01 2023-02-01 一种检测阈值计算方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115809404B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置
CN114564814A (zh) * 2022-01-12 2022-05-31 云南电网有限责任公司信息中心 一种针对稀疏数据的动态阈值高斯核密度估计系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7357659B2 (ja) * 2021-06-30 2023-10-06 本田技研工業株式会社 データ異常判定装置及び内部状態予測システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111666187A (zh) * 2020-05-20 2020-09-15 北京百度网讯科技有限公司 用于检测异常响应时间的方法和装置
CN114564814A (zh) * 2022-01-12 2022-05-31 云南电网有限责任公司信息中心 一种针对稀疏数据的动态阈值高斯核密度估计系统和方法

Also Published As

Publication number Publication date
CN115809404A (zh) 2023-03-17

Similar Documents

Publication Publication Date Title
JP6355683B2 (ja) リスク早期警報方法、装置、記憶媒体およびコンピュータプログラム
CN111199018B (zh) 异常数据检测方法、装置、存储介质及电子设备
CN110929799B (zh) 用于检测异常用户的方法、电子设备和计算机可读介质
CN111694718A (zh) 内网用户异常行为识别方法、装置、计算机设备及可读存储介质
CN111193627A (zh) 信息处理方法、装置、设备及存储介质
CN114780358A (zh) 异常操作行为的检测方法和检测装置
CN113111139A (zh) 一种基于物联传感器的告警检测方法和装置
CN115809404B (zh) 一种检测阈值计算方法、装置、存储介质及电子设备
CN108073464A (zh) 一种基于速度和加速度的时序数据异常点检测方法及装置
CN109409411B (zh) 基于运维管理的问题定位方法、装置及存储介质
CN110781410A (zh) 一种社群检测方法及装置
CN107357714A (zh) 一种基于监控平台的故障分析方法和装置
CN113656452B (zh) 调用链指标异常的检测方法、装置、电子设备及存储介质
CN114112819A (zh) 一种测量磨矿粒度的方法及装置
CN114463117A (zh) 用户行为预测方法、系统及其装置
CN114913567A (zh) 口罩佩戴的检测方法、装置、终端设备及可读存储介质
CN114172708A (zh) 网络流量异常的识别方法
CN113779335A (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN112685610A (zh) 虚假注册账号识别方法及相关装置
CN111722977A (zh) 系统巡检方法、装置及电子设备
CN112363859A (zh) 异常判定阈值的确定方法及装置
CN114693052A (zh) 风险预测模型的训练方法、装置、计算设备和介质
CN115001997B (zh) 基于极值理论的智慧城市网络设备性能异常阈值评估方法
CN111309706A (zh) 模型训练方法、装置、可读存储介质及电子设备
CN116541252B (zh) 一种机房故障日志数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant