CN117786581A

CN117786581A - 一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质

Info

Publication number: CN117786581A
Application number: CN202410017498.6A
Authority: CN
Inventors: 陈传凯; 王伟斌; 段天毅
Original assignee: Beijing Xinshu Technology Co ltd
Current assignee: Beijing Xinshu Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-03-29

Abstract

本发明提出一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质中，数值属性离散化模块采用了自适应密度聚类算法，可以根据数值属性的分布特性自动确定聚类的数量和边界，生成更有意义的分类标签。这种自适应的处理方式能够更好地适应不同分布和复杂性的数值属性，提高数据挖掘模型的性能和解释性。通过将数值属性转换为分类属性，可以简化数据处理过程，使得异常检测步骤更加简洁和高效。同时，这种转换方式能够更好地利用分类属性的上下文信息，提高异常检测的准确性和可靠性。异常检测模块采用了基于熵和频率的算法，计算过程相对简单，效率相对较高。这种高效性在处理大规模数据集时尤其重要，能够显著提高异常检测的效率和准确性。

Description

一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质

技术领域

本发明涉及一种基于混合属性的金融领域异常检测方法、系统、设备及可读存储介质，属于智能运维领域。

背景技术

随着金融市场的不断发展和数据量的不断增加，金融数据分析的难度越来越高。一方面，需要花费更多的时间和计算资源进行数据处理，另一方面，数据的质量和完整性可能受到影响。此外，还可能存在更多的噪声和无关信息，这些信息可能会对数据分析的结果产生干扰和误导，增加了数据分析的难度。此外，数据分析结果的稳定性和可解释性也会受到影响，这使得数据分析变得更加复杂和困难。

数据量增加的同时，数据中的异常值也相应增加。相对于小数据量分析，在大规模数据集中，异常事件更加难以识别和区分，异常检测的复杂度和计算成本也会相应增加。然而，异常检测难度的提高并未降低其研究的重要性和必要性。相反，异常检测在金融数据分析领域变得越来越重要。异常事件可能包括欺诈行为、信用风险等，对于金融机构和投资者来说具有重要的预警作用。常见的欺诈行为如虚假陈述、误导性广告等，在金融领域可能会导致严重的经济损失；信用风险中，如果借款人未能履行合同或协议的风险，可能会导致金融机构的坏账和损失。

通过异常检测技术，可以及时发现金融数据中的异常事件，并采取措施降低金融风险。金融数据中不仅包含大量的数值属性，如客户收入、交易额等，而且包含大量的分类属性，如客户职业、信用评级等。现有的异常检测算法多基于数值属性进行建模和分析，忽略了分类属性在异常检测中的重要作用。这些分类属性对于异常检测具有重要的指导作用，如果忽略这些作用可能导致算法的准确性和效率受到限制。

融合数值属性和分类属性，常见的一个做法是加权融合，即给数值属性和分类属性赋予不同权重，然后将其组合计算，得到一个综合值。这种方法可以根据属性的重要性和相关性调整权重，但需要确定合适的权重值。而权重的确定又往往依赖于人工经验。还有一些做法是两类属性之间相互转换。例如，当分类属性是离散的、不连续的，或在数据集中重复出现时，可以选择将分类属性转换为数值属性。这种转换可以通过编码技术实现，如独热编码或标签编码；当数值属性是连续的，或在数据集中存在大量噪声时，可以将数值属性转换为分类属性，这种转换常常通过一些分类技术实现，如决策树、支持向量机等。

综上所述，已有的基于混合属性的异常检测算法主要存在如下一些不足：

(1)处理复杂度高：混合属性算法需要处理不同类型和数量的属性，因此处理复杂度相对较高，可能导致算法运行时间较长，对于大规模数据集来言效率可能较低。

(2)属性间关联性考虑不足：混合属性算法在处理不同属性时，多将分类属性转换为数值属性，实际上转换后难以准确描述不同分类之间的距离。另外，权重的做法也比较主观，对经验的依赖过高，且容易导致结果不准确。

发明内容

基于以上分析，本发明提出了一种基于混合属性的金融领域异常检测方法，该方法具体步骤为：

(1)数值属性离散化，将数值属性转换为分类属性；

(2)异常检测，经过数值属性离散化模块处理后，将数据集中的数值属性转换为分类属性。

进一步地，步骤(1)中，采用自适应密度数值聚类算法进行离散化，该算法的主要步骤包括：

1.1计算数据集中第i个数据点x_i的局部密度ρ(x_i)，ρ(x_i)＝∑_jK(δ(x_i,x_j)/h)，其中，K(u)为Epanechnikov核函数，|u|<＝1时，K(u)＝0.75×(1-u²)；|u|>1时，K(u)＝0，δ(x_i,x_j)表示x_i和x_j之间的距离，x_j表示第j个数据点，h是带宽参数；

1.2初始化一个空的聚类集合C和一个未处理的数据点集合U，初始时U包含所有数据点；

1.3U非空时，执行以下步骤：

a.找到U中局部密度最高的数据点x_max，将其从U中移除；

b.初始化一个新的聚类c_new，将x_max添加到c_new中；

c.对于U中的每个数据点如果/>且/>将/>添加到c_new中，并将/>从U中移除，τ为全局密度阈值，；

d.如果c_new中的数据点数量大于等于m，将c_new添加到C中，m为最小簇大小阈值；

e.若U非空，则跳转到步骤a；

1.4C中包含的聚类数量为生成的聚类个数，聚类完成后，根据聚类结果，为每个簇生成分类标签。

进一步地，步骤(2)中，异常检测的步骤为：

2.1定义D为包含全部分类属性的数据集，该数据集由多个分类属性a₁,a₂,...,a_n组成，其中n表示分类属性个数，a_s表示第s个分类属性，1≤s≤n；对每个分类属性a_s，统计计算其所有可能取值的频数或频率；

2.2对于每个分类属性a_s，计算其中，values(a_s)是属性a_s的所有可能取值集合，p(v)是取值v在属性a_s上的概率；

2.3对于每个样本e，计算其在每个分类属性a_s上的异常得分I_e(a_s)＝1/(1+exp(k×(H(a_s)-entropy(e,a_s))))，其中，k是一个可调参数；entropy(e,a_s)是样本e在属性a_s上的熵，entropy(e,a_s)＝-(N_v(s,e)/N)×log₂(N_v(s,e)/N)，其中，v(s,e)是样本e在属性a_s上的取值，N_v(s,e)是数据集中所有样本在属性a_s上取值为v(s,e)的样本数，N为总样本数

2.4定义上下文敏感的异常得分函数f(e)，对于每个样本e∈D，计算其上下文敏感的异常得分f(e)＝∑_sw_s×I_e(a_s)，其中，s是属性索引，w_s是属性a_s的权重，w_s＝1/H(a_s)；

2.5设定一个阈值θ，将所有得分高于θ的样本标记为异常。

本发明还提出了一种基于混合属性的金融领域异常检测系统，该系统包括数值属性离散化模块和异常检测模块，具体如下：

(1)数值属性离散化模块，该模块将数值属性转换为分类属性；

(2)异常检测模块，经过数值属性离散化模块处理后，异常检测模块将数据集中的数值属性转换为分类属性。

进一步地，在数值属性离散化模块中，采用自适应密度数值聚类算法进行离散化，该算法的主要步骤包括：

1.3U非空时，执行以下步骤：

a.找到U中局部密度最高的数据点x_max，将其从U中移除；

b.初始化一个新的聚类c_new，将x_max添加到c_new中；

e.若U非空，则跳转到步骤a；

进一步地，异常检测模块中，异常检测的步骤为：

2.5设定一个阈值θ，将所有得分高于θ的样本标记为异常。

本发明又提供了一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行上述任一项方法。

本发明又提供了一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述任一项方法。

本发明中，数值属性离散化模块采用了自适应密度聚类算法，可以根据数值属性的分布特性自动确定聚类的数量和边界，生成更有意义的分类标签。这种自适应的处理方式能够更好地适应不同分布和复杂性的数值属性，提高数据挖掘模型的性能和解释性。通过将数值属性转换为分类属性，可以简化数据处理过程，使得异常检测步骤更加简洁和高效。同时，这种转换方式能够更好地利用分类属性的上下文信息，提高异常检测的准确性和可靠性。异常检测模块采用了基于熵和频率的算法，计算过程相对简单，效率相对较高。这种高效性在处理大规模数据集时尤其重要，能够显著提高异常检测的效率和准确性。

具体实施方式

本发明设计了一个基于混合属性的金融领域异常检测系统，该系统主要包括两个模块：数值属性离散化和异常检测。

(1)数值属性离散化模块。

该模块的主要目的是将数值属性转换为分类属性。离散化是指将连续数值属性的值域划分为若干个子区间，每个子区间对应一个离散值，最后将原始数据转化为离散值，其关键在于如何确定区间个数和划分点位置。

为了实现数值属性离散化，该模块采用了一个用于分类转换的自适应密度数值聚类算法，该算法的主要步骤包括：

1)设定全局密度阈值τ和最小簇大小阈值m

2)计算数据集中第i个数据点x_i的局部密度ρ(x_i)，计算公式为：

ρ(x_i)＝∑_jK(δ(x_i,x_j)/h)

其中，K(u)为Epanechnikov核函数，约定当|u|<＝1时，K(u)＝0.75×(1-u²)；当|u|>1时，K(u)＝0，此处的u仅用于表示函数K(u)的自变量。函数δ(x_i,x_j)表示x_i和x_j之间的距离，x_j表示第j个数据点，h是带宽参数

3)初始化一个空的聚类集合C和一个未处理的数据点集合U，初始时U包含所有数据点

4)当U非空时，执行以下步骤：

a.找到U中局部密度最高的数据点x_max，将其从U中移除

b.初始化一个新的聚类c_new，将x_max添加到c_new中

c.对于U中的每个数据点如果/>且/>将/>添加到c_new中，并将/>从U中移除

d.如果c_new中的数据点数量大于等于m，将c_new添加到C中

e.若U非空，则跳转到步骤a

5)最终C中包含的聚类数量就是生成的聚类个数

聚类完毕后，根据聚类结果，为每个簇生成分类标签：

1)对于每个数值属性，根据自适应密度聚类结果将其划分为多个类别

2)为每个类别生成唯一的分类标签，可以采用类中心的字符串表示或者类别的索引号。类中心可以通过计算该类别中所有数据点的平均值来得到

该模块通过自适应密度聚类方法，能够根据数值属性的分布特性自动确定聚类的数量和边界，生成更有意义的分类标签。该方法能够有效处理不同分布和复杂性的数值属性，提高数据挖掘模型的性能和解释性。

(2)异常检测模块。

经过数值属性离散化模块处理后，数据集中的数值属性转换为分类属性，至此数据集的所有属性均为分类属性。

假设包含全部分类属性的数据集为D，该数据集由多个分类属性a₁,a₂,...,a_n组成，其中n表示分类属性的个数，a_s表示第s个分类属性，1≤s≤n。

异常检测的步骤为：

1)对于每个分类属性a_s，统计计算其所有可能取值的频数或频率

2)对于每个分类属性a_s，计算其熵H(a_s)用以衡量属性的不确定性或信息量。

其中，values(a_s)是属性a_s的所有可能取值集合，p(v)是取值v在属性a_s上的概率

3)对于每个样本e，计算其在每个分类属性a_s上的异常得分I_e(a_s)。

I_e(a_s)＝1/(1+exp(k×(H(a_s)-entropy(e,a_s))))

其中，k是一个可调参数，用于控制异常得分的陡峭程度；entropy(e,a_s)是样本e在属性a_s上的熵，

entropy(e,a_s)＝-(N_v(s,e)/N)×log₂(N_v(s,e)/N)

其中，v(s,e)是样本e在属性a_s上的取值，N_v(s,e)是数据集中所有样本在属性a_s上取值为v(s,e)的样本数，N是总样本数

4)定义上下文敏感的异常得分函数f(e)，对于每个样本e∈D，计算其上下文敏感的异常得分f(e)：

f(e)＝∑_sw_s×I_e(a_s)

其中，s是属性的索引，w_s是属性a_s的权重，w_s＝1/H(a_s)

5)设定一个阈值θ，将所有得分高于θ的样本标记为异常

该模块通过计算属性频率、熵和样本异常得分，在一个全为分类属性的数据集上进行异常检测。该算法计算过程相对简单，效率相对较高。

更具体的一个实施例：

(1)数值属性离散化模块

假设某数值属性，另有100个样本，每个样本在该属性上的值分别为：0.05,0.62,0.44,0.47,0.27,0.73,0.72,0.38,0.02,0.45,0.76,0.84,0.88,0.49,0.97,0.36,0.86,0.61,0.5,0.51,0.84,0.26,0.45,0.4,0.91,0.55,0.23,0.49,0.07,0.43,0.32,0.93,0.02,0.01,0.42,0.41,0.86,0.24,0.53,0.75,0.11,0.65,0.71,0.52,0.27,0.66,0.08,0.61,0.53,0.67,0.7,0.22,0.64,0.56,0.8,0.05,0.69,0.55,0.03,0.49,0.91,0.32,0.52,0.24,0.62,0.97,0.1,0.71,0.85,0.52,0.2,0.18,0.04,0.21,0.34,0.9,0.36,0.52,0.19,0.56,0.72,0.94,0.8,0.25,0.49,0.45,0.0,0.9,0.2,0.86,0.88,0.97,0.36,0.45,0.08,0.29,0.23,0.37,0.65,0.54。

1)在数值属性离散化模块中，设定全局密度阈值τ＝0.1，最小簇大小阈值m＝10

2)计算每个数据点的局部密度ρ(x_i)，使用Epanechnikov核函数和带宽参数h＝0.1

3)初始化一个空的聚类集合C和一个未被考虑的数据点集合U，其中U包含所有100个数据点

4)根据数据点的局部密度和距离，执行自适应密度聚类算法，假设得到以下聚类结果：

C1:[0.05,0.44,0.47,0.27,0.38,0.02,0.45,0.5,0.51,0.26,0.45,0.4,0.23,0.07,0.43,0.32,0.02,0.01,0.42,0.41,0.24,0.11,0.08,0.05,0.03,0.04,0.21,0.34,0.19,0.0,0.2,0.08,0.29,0.23,0.37]

C2:[0.62,0.73,0.72,0.84,0.88,0.49,0.97,0.86,0.61,0.53,0.75,0.65,0.71,0.52,0.66,0.61,0.53,0.67,0.7,0.64,0.56,0.8,0.69,0.55,0.91,0.32,0.52,0.97,0.1,0.71,0.85,0.52,0.2,0.18,0.9,0.36,0.52,0.72,0.94,0.8,0.25,0.49,0.45,0.9,0.86,0.88,0.97,0.36,0.45]

C3:[0.45,0.76,0.84,0.49,0.27,0.66,0.53,0.7,0.22,0.64,0.56,0.8,0.69,0.55,0.49,0.91,0.32,0.52,0.24,0.62,0.1,0.71,0.85,0.52,0.2,0.18,0.9,0.36,0.52,0.19,0.56,0.72,0.94,0.8,0.25,0.49,0.45]

聚类完毕后，为每个类别生成唯一的分类标签，可采用类中心的数值表示。类中心可以通过计算该类别中所有数据点的平均值得到。

C1的类中心：0.31

C2的类中心：0.78

C3的类中心：0.63

所以，可将这三个类别分别标记为"C1-0.31"、"C2-0.78"和"C3-0.63"。

(2)异常检测

以下是一个包含10个分类属性和10个样本的数据集示例：

S1,A1,B2,C1,D3,E2,F1,G3,H2,I1,J3

S2,A2,B1,C3,D2,E1,F3,G1,H3,I2,J1

S3,A3,B3,C2,D1,E3,F2,G2,H1,I3,J2

S4,A1,B2,C3,D3,E2,F1,G3,H2,I1,J3

S5,A2,B1,C1,D2,E3,F3,G1,H3,I2,J1

S6,A3,B3,C2,D1,E2,F2,G2,H1,I1,J3

S7,A1,B2,C3,D2,E1,F1,G3,H2,I3,J1

S8,A2,B1,C1,D3,E3,F3,G1,H2,I2,J2

S9,A3,B3,C2,D1,E2,F2,G2,H1,I1,J3

S10,A1,B2,C3,D2,E1,F1,G3,H2,I3,J1

其中，第一列为样本ID，后面10列为10个属性，取值范围为A1、A2、A3、B1、B2、B3、C1、C2、C3、D1、D2、D3、E1、E2、E3、F1、F2、F3、G1、G2、G3、H1、H2、H3、I1、I2、I3、J1、J2、J3，共10个样本。

1)对于每个分类属性a_s，计算其所有可能取值的频数或频率，并计算其熵H(a_s)，部分属性的频率和熵如下：

a₁:

A1(4),A2(3),A3(3)

H(a₁)≈1.585

a₂:

B1(3),B2(4),B3(3)

H(a₂)≈1.585

……

2)计算样本异常得分

对于每个样本e，计算其在每个分类属性a_s上的异常得分I_e(a_s)。

计算出以下部分异常得分：

I_S1(a₁)≈0.768

I_S1(a₂)≈0.697

……

3)上下文敏感异常得分计算

定义上下文敏感的异常得分函数f(e)，对于每个样本e∈D，计算其上下文敏感的异常得分f(e)。

假设参数k＝1，根据属性熵计算出权重：

w(a₁)≈0.630

w(a₂)≈0.630

……

4)计算出以下部分上下文敏感异常得分：

f(S1)≈0.697

f(S2)≈0.697

……

5)异常检测

假设设定阈值θ＝0.7，在示例数据集中，没有样本的上下文敏感异常得分超过阈值，因此没有样本被标记为异常。

从具体计算结果来看，该方法在整个运行过程中，可以自动、自适应完成数值属性离散化和异常检测功能，在计算过程中，该方法将数值属性转换为分类属性，简化了数据处理流程，提高了异常检测的效率和准确性，同时，异常检测模块采用了基于熵和频率的算法，计算过程相对简单，效率较高。而现有方法可能涉及复杂的数学模型或计算过程，相比之下，该方法能够更快地得出结果。

上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

以上所述的具体实施例，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施例而已，并不用于限定本申请的保护范围，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于混合属性的金融领域异常检测方法，其特征在于：该方法具体步骤为：

(1)数值属性离散化，将数值属性转换为分类属性；

2.如权利要求1所述的一种基于混合属性的金融领域异常检测方法，其特征在于：步骤(1)中，采用自适应密度数值聚类算法进行离散化，该算法的主要步骤包括：

1.3U非空时，执行以下步骤：

a.找到U中局部密度最高的数据点x_max，将其从U中移除；

b.初始化一个新的聚类c_new，将x_max添加到c_new中；

c.对于U中的每个数据点如果/>且/>将/>添加到c_new中，并将从U中移除，τ为全局密度阈值，；

e.若U非空，则跳转到步骤a；

3.如权利要求1所述的一种基于混合属性的金融领域异常检测方法，其特征在于：步骤(2)中，异常检测的步骤为：

2.5设定一个阈值θ，将所有得分高于θ的样本标记为异常。

4.一种基于混合属性的金融领域异常检测系统，该系统包括数值属性离散化模块和异常检测模块，其特征在于：

5.如权利要求4所述的一种基于混合属性的金融领域异常检测系统，其特征在于：在数值属性离散化模块中，采用自适应密度数值聚类算法进行离散化，该算法的主要步骤包括：

1.3 U非空时，执行以下步骤：

a.找到U中局部密度最高的数据点x_max，将其从U中移除；

b.初始化一个新的聚类c_new，将x_max添加到c_new中；

e.若U非空，则跳转到步骤a；

6.如权利要求4所述的一种基于混合属性的金融领域异常检测方法，其特征在于：异常检测模块中，异常检测的步骤为：

2.4定义上下文敏感的异常得分函数f(e)，对于每个样本e∈D，计算其上下文敏感的异常得分f(e)＝Π_sw_s×I_e(a_s)，其中，s是属性索引，w_s是属性a_s的权重，w_s＝1/H(a_s)；

2.5设定一个阈值θ，将所有得分高于θ的样本标记为异常。

7.一种设备，所述设备包括：数据采集装置、处理器和存储器；所述数据采集装置用于采集数据；所述存储器用于存储一个或多个程序指令；所述处理器，用于执行一个或多个程序指令，用以执行上述1-3任一项方法。

8.一种计算机可读存储介质，所述计算机存储介质中包含一个或多个程序指令，所述一个或多个程序指令用于执行上述1-3任一项方法。