CN117786581A - 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质 - Google Patents

一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质 Download PDF

Info

Publication number
CN117786581A
CN117786581A CN202410017498.6A CN202410017498A CN117786581A CN 117786581 A CN117786581 A CN 117786581A CN 202410017498 A CN202410017498 A CN 202410017498A CN 117786581 A CN117786581 A CN 117786581A
Authority
CN
China
Prior art keywords
attribute
classification
attributes
clustering
numerical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410017498.6A
Other languages
English (en)
Inventor
陈传凯
王伟斌
段天毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinshu Technology Co ltd
Original Assignee
Beijing Xinshu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xinshu Technology Co ltd filed Critical Beijing Xinshu Technology Co ltd
Priority to CN202410017498.6A priority Critical patent/CN117786581A/zh
Publication of CN117786581A publication Critical patent/CN117786581A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质中,数值属性离散化模块采用了自适应密度聚类算法,可以根据数值属性的分布特性自动确定聚类的数量和边界,生成更有意义的分类标签。这种自适应的处理方式能够更好地适应不同分布和复杂性的数值属性,提高数据挖掘模型的性能和解释性。通过将数值属性转换为分类属性,可以简化数据处理过程,使得异常检测步骤更加简洁和高效。同时,这种转换方式能够更好地利用分类属性的上下文信息,提高异常检测的准确性和可靠性。异常检测模块采用了基于熵和频率的算法,计算过程相对简单,效率相对较高。这种高效性在处理大规模数据集时尤其重要,能够显著提高异常检测的效率和准确性。

Description

一种基于混合属性的金融领域异常检测方法、系统、设备及可 读存储介质
技术领域
本发明涉及一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质,属于智能运维领域。
背景技术
随着金融市场的不断发展和数据量的不断增加,金融数据分析的难度越来越高。一方面,需要花费更多的时间和计算资源进行数据处理,另一方面,数据的质量和完整性可能受到影响。此外,还可能存在更多的噪声和无关信息,这些信息可能会对数据分析的结果产生干扰和误导,增加了数据分析的难度。此外,数据分析结果的稳定性和可解释性也会受到影响,这使得数据分析变得更加复杂和困难。
数据量增加的同时,数据中的异常值也相应增加。相对于小数据量分析,在大规模数据集中,异常事件更加难以识别和区分,异常检测的复杂度和计算成本也会相应增加。然而,异常检测难度的提高并未降低其研究的重要性和必要性。相反,异常检测在金融数据分析领域变得越来越重要。异常事件可能包括欺诈行为、信用风险等,对于金融机构和投资者来说具有重要的预警作用。常见的欺诈行为如虚假陈述、误导性广告等,在金融领域可能会导致严重的经济损失;信用风险中,如果借款人未能履行合同或协议的风险,可能会导致金融机构的坏账和损失。
通过异常检测技术,可以及时发现金融数据中的异常事件,并采取措施降低金融风险。金融数据中不仅包含大量的数值属性,如客户收入、交易额等,而且包含大量的分类属性,如客户职业、信用评级等。现有的异常检测算法多基于数值属性进行建模和分析,忽略了分类属性在异常检测中的重要作用。这些分类属性对于异常检测具有重要的指导作用,如果忽略这些作用可能导致算法的准确性和效率受到限制。
融合数值属性和分类属性,常见的一个做法是加权融合,即给数值属性和分类属性赋予不同权重,然后将其组合计算,得到一个综合值。这种方法可以根据属性的重要性和相关性调整权重,但需要确定合适的权重值。而权重的确定又往往依赖于人工经验。还有一些做法是两类属性之间相互转换。例如,当分类属性是离散的、不连续的,或在数据集中重复出现时,可以选择将分类属性转换为数值属性。这种转换可以通过编码技术实现,如独热编码或标签编码;当数值属性是连续的,或在数据集中存在大量噪声时,可以将数值属性转换为分类属性,这种转换常常通过一些分类技术实现,如决策树、支持向量机等。
综上所述,已有的基于混合属性的异常检测算法主要存在如下一些不足:
(1)处理复杂度高:混合属性算法需要处理不同类型和数量的属性,因此处理复杂度相对较高,可能导致算法运行时间较长,对于大规模数据集来言效率可能较低。
(2)属性间关联性考虑不足:混合属性算法在处理不同属性时,多将分类属性转换为数值属性,实际上转换后难以准确描述不同分类之间的距离。另外,权重的做法也比较主观,对经验的依赖过高,且容易导致结果不准确。
发明内容
基于以上分析,本发明提出了一种基于混合属性的金融领域异常检测方法,该方法具体步骤为:
(1)数值属性离散化,将数值属性转换为分类属性;
(2)异常检测,经过数值属性离散化模块处理后,将数据集中的数值属性转换为分类属性。
进一步地,步骤(1)中,采用自适应密度数值聚类算法进行离散化,该算法的主要步骤包括:
1.1计算数据集中第i个数据点xi的局部密度ρ(xi),ρ(xi)=∑jK(δ(xi,xj)/h),其中,K(u)为Epanechnikov核函数,|u|<=1时,K(u)=0.75×(1-u2);|u|>1时,K(u)=0,δ(xi,xj)表示xi和xj之间的距离,xj表示第j个数据点,h是带宽参数;
1.2初始化一个空的聚类集合C和一个未处理的数据点集合U,初始时U包含所有数据点;
1.3U非空时,执行以下步骤:
a.找到U中局部密度最高的数据点xmax,将其从U中移除;
b.初始化一个新的聚类cnew,将xmax添加到cnew中;
c.对于U中的每个数据点如果/>且/>将/>添加到cnew中,并将/>从U中移除,τ为全局密度阈值,;
d.如果cnew中的数据点数量大于等于m,将cnew添加到C中,m为最小簇大小阈值;
e.若U非空,则跳转到步骤a;
1.4C中包含的聚类数量为生成的聚类个数,聚类完成后,根据聚类结果,为每个簇生成分类标签。
进一步地,步骤(2)中,异常检测的步骤为:
2.1定义D为包含全部分类属性的数据集,该数据集由多个分类属性a1,a2,...,an组成,其中n表示分类属性个数,as表示第s个分类属性,1≤s≤n;对每个分类属性as,统计计算其所有可能取值的频数或频率;
2.2对于每个分类属性as,计算其中,values(as)是属性as的所有可能取值集合,p(v)是取值v在属性as上的概率;
2.3对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)=1/(1+exp(k×(H(as)-entropy(e,as)))),其中,k是一个可调参数;entropy(e,as)是样本e在属性as上的熵,entropy(e,as)=-(Nv(s,e)/N)×log2(Nv(s,e)/N),其中,v(s,e)是样本e在属性as上的取值,Nv(s,e)是数据集中所有样本在属性as上取值为v(s,e)的样本数,N为总样本数
2.4定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e)=∑sws×Ie(as),其中,s是属性索引,ws是属性as的权重,ws=1/H(as);
2.5设定一个阈值θ,将所有得分高于θ的样本标记为异常。
本发明还提出了一种基于混合属性的金融领域异常检测系统,该系统包括数值属性离散化模块和异常检测模块,具体如下:
(1)数值属性离散化模块,该模块将数值属性转换为分类属性;
(2)异常检测模块,经过数值属性离散化模块处理后,异常检测模块将数据集中的数值属性转换为分类属性。
进一步地,在数值属性离散化模块中,采用自适应密度数值聚类算法进行离散化,该算法的主要步骤包括:
1.1计算数据集中第i个数据点xi的局部密度ρ(xi),ρ(xi)=∑jK(δ(xi,xj)/h),其中,K(u)为Epanechnikov核函数,|u|<=1时,K(u)=0.75×(1-u2);|u|>1时,K(u)=0,δ(xi,xj)表示xi和xj之间的距离,xj表示第j个数据点,h是带宽参数;
1.2初始化一个空的聚类集合C和一个未处理的数据点集合U,初始时U包含所有数据点;
1.3U非空时,执行以下步骤:
a.找到U中局部密度最高的数据点xmax,将其从U中移除;
b.初始化一个新的聚类cnew,将xmax添加到cnew中;
c.对于U中的每个数据点如果/>且/>将/>添加到cnew中,并将/>从U中移除,τ为全局密度阈值,;
d.如果cnew中的数据点数量大于等于m,将cnew添加到C中,m为最小簇大小阈值;
e.若U非空,则跳转到步骤a;
1.4C中包含的聚类数量为生成的聚类个数,聚类完成后,根据聚类结果,为每个簇生成分类标签。
进一步地,异常检测模块中,异常检测的步骤为:
2.1定义D为包含全部分类属性的数据集,该数据集由多个分类属性a1,a2,...,an组成,其中n表示分类属性个数,as表示第s个分类属性,1≤s≤n;对每个分类属性as,统计计算其所有可能取值的频数或频率;
2.2对于每个分类属性as,计算其中,values(as)是属性as的所有可能取值集合,p(v)是取值v在属性as上的概率;
2.3对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)=1/(1+exp(k×(H(as)-entropy(e,as)))),其中,k是一个可调参数;entropy(e,as)是样本e在属性as上的熵,entropy(e,as)=-(Nv(s,e)/N)×log2(Nv(s,e)/N),其中,v(s,e)是样本e在属性as上的取值,Nv(s,e)是数据集中所有样本在属性as上取值为v(s,e)的样本数,N为总样本数
2.4定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e)=∑sws×Ie(as),其中,s是属性索引,ws是属性as的权重,ws=1/H(as);
2.5设定一个阈值θ,将所有得分高于θ的样本标记为异常。
本发明又提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述任一项方法。
本发明又提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项方法。
本发明中,数值属性离散化模块采用了自适应密度聚类算法,可以根据数值属性的分布特性自动确定聚类的数量和边界,生成更有意义的分类标签。这种自适应的处理方式能够更好地适应不同分布和复杂性的数值属性,提高数据挖掘模型的性能和解释性。通过将数值属性转换为分类属性,可以简化数据处理过程,使得异常检测步骤更加简洁和高效。同时,这种转换方式能够更好地利用分类属性的上下文信息,提高异常检测的准确性和可靠性。异常检测模块采用了基于熵和频率的算法,计算过程相对简单,效率相对较高。这种高效性在处理大规模数据集时尤其重要,能够显著提高异常检测的效率和准确性。
具体实施方式
本发明设计了一个基于混合属性的金融领域异常检测系统,该系统主要包括两个模块:数值属性离散化和异常检测。
(1)数值属性离散化模块。
该模块的主要目的是将数值属性转换为分类属性。离散化是指将连续数值属性的值域划分为若干个子区间,每个子区间对应一个离散值,最后将原始数据转化为离散值,其关键在于如何确定区间个数和划分点位置。
为了实现数值属性离散化,该模块采用了一个用于分类转换的自适应密度数值聚类算法,该算法的主要步骤包括:
1)设定全局密度阈值τ和最小簇大小阈值m
2)计算数据集中第i个数据点xi的局部密度ρ(xi),计算公式为:
ρ(xi)=∑jK(δ(xi,xj)/h)
其中,K(u)为Epanechnikov核函数,约定当|u|<=1时,K(u)=0.75×(1-u2);当|u|>1时,K(u)=0,此处的u仅用于表示函数K(u)的自变量。函数δ(xi,xj)表示xi和xj之间的距离,xj表示第j个数据点,h是带宽参数
3)初始化一个空的聚类集合C和一个未处理的数据点集合U,初始时U包含所有数据点
4)当U非空时,执行以下步骤:
a.找到U中局部密度最高的数据点xmax,将其从U中移除
b.初始化一个新的聚类cnew,将xmax添加到cnew
c.对于U中的每个数据点如果/>且/>将/>添加到cnew中,并将/>从U中移除
d.如果cnew中的数据点数量大于等于m,将cnew添加到C中
e.若U非空,则跳转到步骤a
5)最终C中包含的聚类数量就是生成的聚类个数
聚类完毕后,根据聚类结果,为每个簇生成分类标签:
1)对于每个数值属性,根据自适应密度聚类结果将其划分为多个类别
2)为每个类别生成唯一的分类标签,可以采用类中心的字符串表示或者类别的索引号。类中心可以通过计算该类别中所有数据点的平均值来得到
该模块通过自适应密度聚类方法,能够根据数值属性的分布特性自动确定聚类的数量和边界,生成更有意义的分类标签。该方法能够有效处理不同分布和复杂性的数值属性,提高数据挖掘模型的性能和解释性。
(2)异常检测模块。
经过数值属性离散化模块处理后,数据集中的数值属性转换为分类属性,至此数据集的所有属性均为分类属性。
假设包含全部分类属性的数据集为D,该数据集由多个分类属性a1,a2,...,an组成,其中n表示分类属性的个数,as表示第s个分类属性,1≤s≤n。
异常检测的步骤为:
1)对于每个分类属性as,统计计算其所有可能取值的频数或频率
2)对于每个分类属性as,计算其熵H(as)用以衡量属性的不确定性或信息量。
其中,values(as)是属性as的所有可能取值集合,p(v)是取值v在属性as上的概率
3)对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)。
Ie(as)=1/(1+exp(k×(H(as)-entropy(e,as))))
其中,k是一个可调参数,用于控制异常得分的陡峭程度;entropy(e,as)是样本e在属性as上的熵,
entropy(e,as)=-(Nv(s,e)/N)×log2(Nv(s,e)/N)
其中,v(s,e)是样本e在属性as上的取值,Nv(s,e)是数据集中所有样本在属性as上取值为v(s,e)的样本数,N是总样本数
4)定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e):
f(e)=∑sws×Ie(as)
其中,s是属性的索引,ws是属性as的权重,ws=1/H(as)
5)设定一个阈值θ,将所有得分高于θ的样本标记为异常
该模块通过计算属性频率、熵和样本异常得分,在一个全为分类属性的数据集上进行异常检测。该算法计算过程相对简单,效率相对较高。
更具体的一个实施例:
(1)数值属性离散化模块
假设某数值属性,另有100个样本,每个样本在该属性上的值分别为:0.05,0.62,0.44,0.47,0.27,0.73,0.72,0.38,0.02,0.45,0.76,0.84,0.88,0.49,0.97,0.36,0.86,0.61,0.5,0.51,0.84,0.26,0.45,0.4,0.91,0.55,0.23,0.49,0.07,0.43,0.32,0.93,0.02,0.01,0.42,0.41,0.86,0.24,0.53,0.75,0.11,0.65,0.71,0.52,0.27,0.66,0.08,0.61,0.53,0.67,0.7,0.22,0.64,0.56,0.8,0.05,0.69,0.55,0.03,0.49,0.91,0.32,0.52,0.24,0.62,0.97,0.1,0.71,0.85,0.52,0.2,0.18,0.04,0.21,0.34,0.9,0.36,0.52,0.19,0.56,0.72,0.94,0.8,0.25,0.49,0.45,0.0,0.9,0.2,0.86,0.88,0.97,0.36,0.45,0.08,0.29,0.23,0.37,0.65,0.54。
1)在数值属性离散化模块中,设定全局密度阈值τ=0.1,最小簇大小阈值m=10
2)计算每个数据点的局部密度ρ(xi),使用Epanechnikov核函数和带宽参数h=0.1
3)初始化一个空的聚类集合C和一个未被考虑的数据点集合U,其中U包含所有100个数据点
4)根据数据点的局部密度和距离,执行自适应密度聚类算法,假设得到以下聚类结果:
C1:[0.05,0.44,0.47,0.27,0.38,0.02,0.45,0.5,0.51,0.26,0.45,0.4,0.23,0.07,0.43,0.32,0.02,0.01,0.42,0.41,0.24,0.11,0.08,0.05,0.03,0.04,0.21,0.34,0.19,0.0,0.2,0.08,0.29,0.23,0.37]
C2:[0.62,0.73,0.72,0.84,0.88,0.49,0.97,0.86,0.61,0.53,0.75,0.65,0.71,0.52,0.66,0.61,0.53,0.67,0.7,0.64,0.56,0.8,0.69,0.55,0.91,0.32,0.52,0.97,0.1,0.71,0.85,0.52,0.2,0.18,0.9,0.36,0.52,0.72,0.94,0.8,0.25,0.49,0.45,0.9,0.86,0.88,0.97,0.36,0.45]
C3:[0.45,0.76,0.84,0.49,0.27,0.66,0.53,0.7,0.22,0.64,0.56,0.8,0.69,0.55,0.49,0.91,0.32,0.52,0.24,0.62,0.1,0.71,0.85,0.52,0.2,0.18,0.9,0.36,0.52,0.19,0.56,0.72,0.94,0.8,0.25,0.49,0.45]
聚类完毕后,为每个类别生成唯一的分类标签,可采用类中心的数值表示。类中心可以通过计算该类别中所有数据点的平均值得到。
C1的类中心:0.31
C2的类中心:0.78
C3的类中心:0.63
所以,可将这三个类别分别标记为"C1-0.31"、"C2-0.78"和"C3-0.63"。
(2)异常检测
以下是一个包含10个分类属性和10个样本的数据集示例:
S1,A1,B2,C1,D3,E2,F1,G3,H2,I1,J3
S2,A2,B1,C3,D2,E1,F3,G1,H3,I2,J1
S3,A3,B3,C2,D1,E3,F2,G2,H1,I3,J2
S4,A1,B2,C3,D3,E2,F1,G3,H2,I1,J3
S5,A2,B1,C1,D2,E3,F3,G1,H3,I2,J1
S6,A3,B3,C2,D1,E2,F2,G2,H1,I1,J3
S7,A1,B2,C3,D2,E1,F1,G3,H2,I3,J1
S8,A2,B1,C1,D3,E3,F3,G1,H2,I2,J2
S9,A3,B3,C2,D1,E2,F2,G2,H1,I1,J3
S10,A1,B2,C3,D2,E1,F1,G3,H2,I3,J1
其中,第一列为样本ID,后面10列为10个属性,取值范围为A1、A2、A3、B1、B2、B3、C1、C2、C3、D1、D2、D3、E1、E2、E3、F1、F2、F3、G1、G2、G3、H1、H2、H3、I1、I2、I3、J1、J2、J3,共10个样本。
1)对于每个分类属性as,计算其所有可能取值的频数或频率,并计算其熵H(as),部分属性的频率和熵如下:
a1:
A1(4),A2(3),A3(3)
H(a1)≈1.585
a2:
B1(3),B2(4),B3(3)
H(a2)≈1.585
……
2)计算样本异常得分
对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)。
计算出以下部分异常得分:
IS1(a1)≈0.768
IS1(a2)≈0.697
……
3)上下文敏感异常得分计算
定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e)。
假设参数k=1,根据属性熵计算出权重:
w(a1)≈0.630
w(a2)≈0.630
……
4)计算出以下部分上下文敏感异常得分:
f(S1)≈0.697
f(S2)≈0.697
……
5)异常检测
假设设定阈值θ=0.7,在示例数据集中,没有样本的上下文敏感异常得分超过阈值,因此没有样本被标记为异常。
从具体计算结果来看,该方法在整个运行过程中,可以自动、自适应完成数值属性离散化和异常检测功能,在计算过程中,该方法将数值属性转换为分类属性,简化了数据处理流程,提高了异常检测的效率和准确性,同时,异常检测模块采用了基于熵和频率的算法,计算过程相对简单,效率较高。而现有方法可能涉及复杂的数学模型或计算过程,相比之下,该方法能够更快地得出结果。
本发明又提供了一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述任一项方法。
本发明又提供了一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述任一项方法。
上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
以上所述的具体实施例,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施例而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于混合属性的金融领域异常检测方法,其特征在于:该方法具体步骤为:
(1)数值属性离散化,将数值属性转换为分类属性;
(2)异常检测,经过数值属性离散化模块处理后,将数据集中的数值属性转换为分类属性。
2.如权利要求1所述的一种基于混合属性的金融领域异常检测方法,其特征在于:步骤(1)中,采用自适应密度数值聚类算法进行离散化,该算法的主要步骤包括:
1.1计算数据集中第i个数据点xi的局部密度ρ(xi),ρ(xi)=∑jK(δ(xi,xj)/h),其中,K(u)为Epanechnikov核函数,|u|<=1时,K(u)=0.75×(1-u2);|u|>1时,K(u)=0,δ(xi,xj)表示xi和xj之间的距离,xj表示第j个数据点,h是带宽参数;
1.2初始化一个空的聚类集合C和一个未处理的数据点集合U,初始时U包含所有数据点;
1.3U非空时,执行以下步骤:
a.找到U中局部密度最高的数据点xmax,将其从U中移除;
b.初始化一个新的聚类cnew,将xmax添加到cnew中;
c.对于U中的每个数据点如果/>且/>将/>添加到cnew中,并将从U中移除,τ为全局密度阈值,;
d.如果cnew中的数据点数量大于等于m,将cnew添加到C中,m为最小簇大小阈值;
e.若U非空,则跳转到步骤a;
1.4C中包含的聚类数量为生成的聚类个数,聚类完成后,根据聚类结果,为每个簇生成分类标签。
3.如权利要求1所述的一种基于混合属性的金融领域异常检测方法,其特征在于:步骤(2)中,异常检测的步骤为:
2.1定义D为包含全部分类属性的数据集,该数据集由多个分类属性a1,a2,...,an组成,其中n表示分类属性个数,as表示第s个分类属性,1≤s≤n;对每个分类属性as,统计计算其所有可能取值的频数或频率;
2.2对于每个分类属性as,计算其中,values(as)是属性as的所有可能取值集合,p(v)是取值v在属性as上的概率;
2.3对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)=1/(1+exp(k×(H(as)-entropy(e,as)))),其中,k是一个可调参数;entropy(e,as)是样本e在属性as上的熵,entropy(e,as)=-(Nv(s,e)/N)×log2(Nv(s,e)/N),其中,v(s,e)是样本e在属性as上的取值,Nv(s,e)是数据集中所有样本在属性as上取值为v(s,e)的样本数,N为总样本数
2.4定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e)=∑sws×Ie(as),其中,s是属性索引,ws是属性as的权重,ws=1/H(as);
2.5设定一个阈值θ,将所有得分高于θ的样本标记为异常。
4.一种基于混合属性的金融领域异常检测系统,该系统包括数值属性离散化模块和异常检测模块,其特征在于:
(1)数值属性离散化模块,该模块将数值属性转换为分类属性;
(2)异常检测模块,经过数值属性离散化模块处理后,异常检测模块将数据集中的数值属性转换为分类属性。
5.如权利要求4所述的一种基于混合属性的金融领域异常检测系统,其特征在于:在数值属性离散化模块中,采用自适应密度数值聚类算法进行离散化,该算法的主要步骤包括:
1.1计算数据集中第i个数据点xi的局部密度ρ(xi),ρ(xi)=∑jK(δ(xi,xj)/h),其中,K(u)为Epanechnikov核函数,|u|<=1时,K(u)=0.75×(1-u2);|u|>1时,K(u)=0,δ(xi,xj)表示xi和xj之间的距离,xj表示第j个数据点,h是带宽参数;
1.2初始化一个空的聚类集合C和一个未处理的数据点集合U,初始时U包含所有数据点;
1.3 U非空时,执行以下步骤:
a.找到U中局部密度最高的数据点xmax,将其从U中移除;
b.初始化一个新的聚类cnew,将xmax添加到cnew中;
c.对于U中的每个数据点如果/>且/>将/>添加到cnew中,并将/>从U中移除,τ为全局密度阈值,;
d.如果cnew中的数据点数量大于等于m,将cnew添加到C中,m为最小簇大小阈值;
e.若U非空,则跳转到步骤a;
1.4C中包含的聚类数量为生成的聚类个数,聚类完成后,根据聚类结果,为每个簇生成分类标签。
6.如权利要求4所述的一种基于混合属性的金融领域异常检测方法,其特征在于:异常检测模块中,异常检测的步骤为:
2.1定义D为包含全部分类属性的数据集,该数据集由多个分类属性a1,a2,...,an组成,其中n表示分类属性个数,as表示第s个分类属性,1≤s≤n;对每个分类属性as,统计计算其所有可能取值的频数或频率;
2.2对于每个分类属性as,计算其中,values(as)是属性as的所有可能取值集合,p(v)是取值v在属性as上的概率;
2.3对于每个样本e,计算其在每个分类属性as上的异常得分Ie(as)=1/(1+exp(k×(H(as)-entropy(e,as)))),其中,k是一个可调参数;entropy(e,as)是样本e在属性as上的熵,entropy(e,as)=-(Nv(s,e)/N)×log2(Nv(s,e)/N),其中,v(s,e)是样本e在属性as上的取值,Nv(s,e)是数据集中所有样本在属性as上取值为v(s,e)的样本数,N为总样本数
2.4定义上下文敏感的异常得分函数f(e),对于每个样本e∈D,计算其上下文敏感的异常得分f(e)=Πsws×Ie(as),其中,s是属性索引,ws是属性as的权重,ws=1/H(as);
2.5设定一个阈值θ,将所有得分高于θ的样本标记为异常。
7.一种设备,所述设备包括:数据采集装置、处理器和存储器;所述数据采集装置用于采集数据;所述存储器用于存储一个或多个程序指令;所述处理器,用于执行一个或多个程序指令,用以执行上述1-3任一项方法。
8.一种计算机可读存储介质,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于执行上述1-3任一项方法。
CN202410017498.6A 2024-01-04 2024-01-04 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质 Pending CN117786581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410017498.6A CN117786581A (zh) 2024-01-04 2024-01-04 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410017498.6A CN117786581A (zh) 2024-01-04 2024-01-04 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN117786581A true CN117786581A (zh) 2024-03-29

Family

ID=90401722

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410017498.6A Pending CN117786581A (zh) 2024-01-04 2024-01-04 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN117786581A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126430A (zh) * 2019-11-11 2020-05-08 西安电子科技大学 用于异常检测系统的数据聚类方法、无线通信网络终端
US20200382536A1 (en) * 2019-05-31 2020-12-03 Gurucul Solutions, Llc Anomaly detection in cybersecurity and fraud applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200382536A1 (en) * 2019-05-31 2020-12-03 Gurucul Solutions, Llc Anomaly detection in cybersecurity and fraud applications
CN111126430A (zh) * 2019-11-11 2020-05-08 西安电子科技大学 用于异常检测系统的数据聚类方法、无线通信网络终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李娜 等: "基于划分和凝聚层次聚类的无监督异常检测", 计算机工程, vol. 34, no. 2, 20 January 2008 (2008-01-20), pages 120 - 123 *
郑苗苗 等: "一种处理混合型属性的无监督异常入侵检测方法", 南京师范大学学报(工程技术版), vol. 8, no. 2, 20 June 2008 (2008-06-20), pages 68 - 73 *

Similar Documents

Publication Publication Date Title
CN109035003A (zh) 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN110807700A (zh) 一种基于政府数据的无监督融合模型个人信用评分方法
CN111783039B (zh) 风险确定方法、装置、计算机系统和存储介质
Yuan et al. Using market sentiment analysis and genetic algorithm-based least squares support vector regression to predict gold prices
CN111754317A (zh) 一种金融投资数据测评方法及系统
CN111340086A (zh) 无标签数据的处理方法、系统、介质及终端
CN111179051A (zh) 金融目标客户确定方法、装置及电子设备
CN116628584A (zh) 电力敏感数据处理方法、装置、电子设备及存储介质
Wu et al. Application analysis of credit scoring of financial institutions based on machine learning model
CN110930242A (zh) 一种可信度预测方法、装置、设备和存储介质
CN114169439A (zh) 异常通信号码的识别方法、装置、电子设备和可读介质
CN117011025A (zh) 信贷风险的预测方法、装置、设备、存储介质及程序产品
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN117786581A (zh) 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质
CN115271442A (zh) 基于自然语言评估企业成长性的建模方法及系统
Lee et al. Application of machine learning in credit risk scorecard
Lee et al. An Integral Predictive Model of Financial Distress
Zeng A comparison study on the era of internet finance China construction of credit scoring system model
Oh et al. Developing time-based clustering neural networks to use change-point detection: Application to financial time series
Li et al. Research on listed companies’ credit ratings, considering classification performance and interpretability
CN116051296B (zh) 基于标准化保险数据的客户评价分析方法及系统
CN117994016A (zh) 构建零售信用风险预测模型的方法和消费信贷业务Scorebeta模型
Xinhang et al. A Risk Assessment Method for Online Shopping Based on Index Grading Weighting
CN115237970A (zh) 数据预测方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination