CN112364939A - 异常值检测方法、装置、设备及存储介质 - Google Patents

异常值检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112364939A
CN112364939A CN202011399455.7A CN202011399455A CN112364939A CN 112364939 A CN112364939 A CN 112364939A CN 202011399455 A CN202011399455 A CN 202011399455A CN 112364939 A CN112364939 A CN 112364939A
Authority
CN
China
Prior art keywords
data
detected
data set
self
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011399455.7A
Other languages
English (en)
Inventor
杨欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Citic Bank Corp Ltd
Original Assignee
China Citic Bank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Citic Bank Corp Ltd filed Critical China Citic Bank Corp Ltd
Priority to CN202011399455.7A priority Critical patent/CN112364939A/zh
Publication of CN112364939A publication Critical patent/CN112364939A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种异常值检测方法、装置、设备及存储介质,涉及数据处理技术领域。该方法包括:获取第一数据集,第一数据集包括至少一个待检测数据;采用预设的自编码网络对第一数据集中的每个待检测数据依次进行编码和解码,得到待检测数据一一对应的预测数据;计算获取第一数据集中的每个待检测数据与其对应的预测数据之间的残差;确定第一数据集中与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值。相对于传统依赖于手工检测异常值的方式而言,该异常值检测方法可以对金融企业服务数据实现高效地异常值检测,便于在海量数据中快速捕获各类异常行为。

Description

异常值检测方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种异常值检测方法、装置、设备及存储介质。
背景技术
随着大数据时代的到来,商业银行的的数据资产愈加凸显价值。如:银行业数据对外服务监管报送,对内支撑合规风险管理、经营决策和客户营销等。银行的各类数据是支撑银行正常运转的重要前提,而数据的准确性可用是数据类系统建设的基本要求。
目前,许多金融企业还依赖于手工检测异常值,这导致效率低下且测试不全面,当检测指标过多时,人工无法高效的完成检测异常值的工作。
发明内容
基于上述现有技术存在的对金融企业服务数据进行异常值检测时效率低下的问题,本发明实施例提供一种异常值检测方法、装置、设备及存储介质,可以对金融企业服务数据实现高效地异常值检测。
第一方面,本发明实施例提供一种异常值检测方法,所述方法包括:获取第一数据集,所述第一数据集包括至少一个待检测数据;采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据;计算获取所述第一数据集中的每个待检测数据与其对应的所述预测数据之间的残差;确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
相对于传统依赖于手工检测异常值的方式而言,该异常值检测方法可以对金融企业服务数据实现高效地异常值检测,能够致力于检测市场数据、客户交易数据、营销数据等银行数据的异常值,便于帮助银行在海量数据中快速捕获各类异常行为,以节省成本规避风或发现新的业务机会。
可选地,所述自编码网络包括:编码器和解码器;所述采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据,包括:对所述第一数据集中的每个待检测数据:采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量;采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据。
可选地,所述采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量,包括:采用所述编码器根据下述公式对所述待检测数据进行加权线性变换和非线性变换激活,得到所述待检测数据的特征向量;
H=fθ(x)=σ(W1x+b1);
其中,x表示所述待检测数据;fθ表示所述编码器;H表示所述编码器输出的所述待检测数据的特征向量;W1表示所述编码器的网络权重;b1表示所述编码器的偏移量;σ表示激活函数。
可选地,所述采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据,包括:采用所述解码器根据下述公式对所述待检测数据的特征向量进行加权线性变换和非线性变换激活,得到所述待检测数据对应的预测数据;
y=gθ(H)=σ(W2H+b2);
其中,y表示所述解码器输出的所述待检测数据对应的预测数据;gθ表示所述解码器;H表示所述待检测数据的特征向量;W2表示所述解码器的网络权重;b2表示所述解码器的偏移量;σ表示激活函数。
可选地,所述确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值,包括:对所述第一数据集中的所述待检测数据与其对应的所述预测数据之间的残差进行降序排列;根据所述降序排列的结果,确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
通过对第一数据集中的待检测数据与其对应的预测数据之间的残差进行降序排列,可以使得较大的残差排列在前,此时,可以根据降序排列的结果,从排列在前的残差对应的待检测数据中依次确定与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值。从而,可以无需遍历所有的残差对应的待检测数据,可以提高异常值检测效率。
可选地,所述采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据之前,所述方法还包括:获取训练数据集和初始自编码网络,所述训练数据集包括多个样本检测数据;采用所述训练数据集对所述初始自编码网络进行训练,得到所述自编码网络。
可选地,所述确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值之前,所述方法还包括:根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线;根据所述ROC曲线,确定所述第一阈值。
可选地,所述根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线,包括:通过设置多个不同的第二阈值,并执行下述步骤1)至4)得到不同第二阈值下的真正率和假正率;将不同第二阈值下的真正率和假正率分别作为横坐标值和纵横坐标值绘制所述ROC曲线。
步骤1)至4)如下:
1)采用所述自编码网络对所述训练数据集中的每个样本检测数据依次进行编码和解码,得到所述样本检测数据一一对应的样本预测数据;
2)计算获取所述训练数据集中的每个样本检测数据与其对应的所述样本预测数据之间的残差;
3)确定所述训练数据集中与其对应的所述样本预测数据之间的残差大于第二阈值的目标样本检测数据为异常值;
4)根据所述训练数据集、以及确定为异常值的所述目标样本检测数据,计算所述第二阈值下的真正率和假正率。
可选地,所述根据所述ROC曲线,确定所述第一阈值,包括:根据所述ROC曲线,从多个不同的所述第二阈值中确定所述第一阈值。
可选地,多个不同的所述第二阈值为从0增大至第一值中的多个值。
第二方面,本发明实施例提供一种异常值检测装置,所述装置包括:获取模块,用于获取第一数据集,所述第一数据集包括至少一个待检测数据;自编码模块,用于采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据;计算模块,用于计算获取所述第一数据集中的每个待检测数据与其对应的所述预测数据之间的残差;处理模块,用于确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
可选地,所述自编码网络包括:编码器和解码器;所述自编码模块具体用于,对所述第一数据集中的每个待检测数据:采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量;采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据。
可选地,所述自编码模块具体用于,采用所述编码器根据下述公式对所述待检测数据进行加权线性变换和非线性变换激活,得到所述待检测数据的特征向量;
H=fθ(x)=σ(W1x+b1);
其中,x表示所述待检测数据;fθ表示所述编码器;H表示所述编码器输出的所述待检测数据的特征向量;W1表示所述编码器的网络权重;b1表示所述编码器的偏移量;σ表示激活函数。
可选地,所述自编码模块具体用于,采用所述解码器根据下述公式对所述待检测数据的特征向量进行加权线性变换和非线性变换激活,得到所述待检测数据对应的预测数据;
y=gθ(H)=σ(W2H+b2);
其中,y表示所述解码器输出的所述待检测数据对应的预测数据;gθ表示所述解码器;H表示所述待检测数据的特征向量;W2表示所述解码器的网络权重;b2表示所述解码器的偏移量;σ表示激活函数。
可选地,所述处理模块具体用于,对所述第一数据集中的所述待检测数据与其对应的所述预测数据之间的残差进行降序排列;根据所述降序排列的结果,确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
可选地,所述装置还包括:训练模块,用于获取训练数据集和初始自编码网络,所述训练数据集包括多个样本检测数据;采用所述训练数据集对所述初始自编码网络进行训练,得到所述自编码网络。
可选地,所述训练模块还用于,根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线;根据所述ROC曲线,确定所述第一阈值。
可选地,所述训练模块具体用于,通过设置多个不同的第二阈值,并执行下述步骤1)至4)得到不同第二阈值下的真正率和假正率;将不同第二阈值下的真正率和假正率分别作为横坐标值和纵横坐标值绘制所述ROC曲线。
步骤1)至4)如下:
1)采用所述自编码网络对所述训练数据集中的每个样本检测数据依次进行编码和解码,得到所述样本检测数据一一对应的样本预测数据;
2)计算获取所述训练数据集中的每个样本检测数据与其对应的所述样本预测数据之间的残差;
3)确定所述训练数据集中与其对应的所述样本预测数据之间的残差大于第二阈值的目标样本检测数据为异常值;
4)根据所述训练数据集、以及确定为异常值的所述目标样本检测数据,计算所述第二阈值下的真正率和假正率。
可选地,所述训练模块具体用于,根据所述ROC曲线,从多个不同的所述第二阈值中确定所述第一阈值。
可选地,多个不同的所述第二阈值为从0增大至第一值中的多个值。
第三方面,本发明实施例提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如第一方面所述的方法的步骤。
第四方面,本发明实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面所述的方法的步骤。
以上第二方面至第四方面所述的有益效果,可以参考第一方面中所述,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的异常值检测方法的流程示意图;
图2示出了本发明实施例提供的自编码网络的处理流程示意图;
图3示出了本发明实施例提供的自编码网络的结构示意图;
图4示出了本发明实施例提供的训练自编码网络的流程示意图;
图5示出了本发明实施例提供的异常值检测装置的结构示意图;
图6示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,本发明中附图仅起到说明和描述的目的,并不用于限定本发明的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本发明中使用的流程图示出了根据本发明的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,本发明所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。还应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,还需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
随着大数据时代的到来,商业银行的的数据资产愈加凸显价值。如:银行业数据对外服务监管报送,对内支撑合规风险管理、经营决策和客户营销等。银行的各类数据是支撑银行正常运转的重要前提,而数据的准确性可用是数据类系统建设的基本要求。
目前,许多金融企业还依赖于手工检测异常值,这导致效率低下且测试不全面,当检测指标过多时,人工则无法高效的完成检测异常值的工作。
在此背景技术下,本发明提供一种异常值检测方法,能够致力于检测市场数据、客户交易数据、营销数据等银行数据的异常值,便于帮助银行在海量数据中快速捕获各类异常行为,以节省成本规避风或发现新的业务机会。
下面对本发明实施例提供对的异常值检测方法进行示例性说明。
图1示出了本发明实施例提供的异常值检测方法的流程示意图。
如图1所示,该异常值检测方法可以包括S101-S104。
S101、获取第一数据集,第一数据集包括至少一个待检测数据。
其中,待检测数据可以是需要进行异常值检测的银行服务数据,如:客户账户资金数据、员工资金数据、客户数据、业务处理数据、内部管理数据、系统日志数据等。
第一数据集可以从银行或金融企业的数据库中获取。
可选地,银行数据来源渠道广泛且数据复杂敏感,在获取到第一数据集后,可以对第一数据集进行预处理,如:数据清洗、数据加密等,然后在执行下述S102-S104的步骤。需要说明的是,不同数据格式不同,侧重点也不同,因此要进行的数据预处理也有差异。
S102、采用预设的自编码网络对第一数据集中的每个待检测数据依次进行编码和解码,得到待检测数据一一对应的预测数据。
可选地,自编码网络包括:编码器和解码器。图2示出了本发明实施例提供的自编码网络的处理流程示意图。如图2所示,所述采用预设的自编码网络对第一数据集中的每个待检测数据依次进行编码和解码,得到待检测数据一一对应的预测数据,包括:
对第一数据集中的每个待检测数据:
S201、采用编码器将待检测数据映射到低维隐含表示,得到待检测数据的特征向量。
S202、采用解码器根据待检测数据的特征向量进行数据重构,得到待检测数据对应的预测数据。
例如,图3示出了本发明实施例提供的自编码网络的结构示意图。如图3所示,自编码网络可以由编码器(encoder)和解码器(decoder)两个部分组成。
假设待检测数据为一个n维数据:X={x1,x2,x3,…,xn}。编码器的作用是把X映射到一个低维隐含表示H来获取数据的特征,H可以是一个特征向量。而解码器负责从特征向量H中对原始数据X进行重构,输出的恢复(重构)结果为Y={y1,y2,y3,…,yn},Y可以称为预测数据。其中,为了恢复同样大小的数据,输入层和输出层的神经元数目一致。
以一个一层自编码网络为例,编码器将待检测数据映射到低维隐含表示,得到待检测数据的特征向量的过程可以是:根据下述公式(1)对待检测数据进行加权线性变换和非线性变换激活,得到待检测数据的特征向量。
H=fθ(x)=σ(W1x+b1) (1);
其中,x表示待检测数据;fθ表示编码器;H表示编码器输出的待检测数据的特征向量;W1表示编码器的网络权重;b1表示编码器的偏移量;σ表示激活函数。
解码器根据待检测数据的特征向量进行数据重构,得到待检测数据对应的预测数据的过程可以是:根据下述公式(2)对待检测数据的特征向量进行加权线性变换和非线性变换激活,得到待检测数据对应的预测数据。
y=gθ(H)=σ(W2H+b2) (2);
其中,y表示解码器输出的待检测数据对应的预测数据;gθ表示解码器;H表示待检测数据的特征向量;W2表示解码器的网络权重;b2表示解码器的偏移量;σ表示激活函数。
可选地,上述自编码网络中的激活函数σ可以是sigmoid函数、tanh函数、relu函数等,在此不作限制。
可选地,上述自编码网络可以是通过采用训练数据集对初始自编码网络进行训练获取的。例如,图4示出了本发明实施例提供的训练自编码网络的流程示意图。如图4所示,训练自编码网络的流程可以包括:
S401、获取训练数据集和初始自编码网络,训练数据集包括多个样本检测数据。
S402、采用训练数据集对初始自编码网络进行训练,得到自编码网络。
其中,训练数据集可以参考前述第一数据集,训练数据集与第一数据集包括的数据应当为同一类型的数据。初始自编码网络可以是构建的包括编码器和解码器的初始神经网络,该神经网络中编码器和解码器的神经元的权重和偏移量均为初始值,如:可以为1。采用训练数据集对初始自编码网络进行训练是指:将训练数据集中的样本检测数据输入初始自编码网络,得到初始自编码网络输出的样本预测数据,然后根据样本检测数据和样本预测数据之间的误差对编码器和解码器的神经元的权重和偏移量进行调节和更新,不断重复该过程直到样本检测数据和样本预测数据之间的误差达到最小,即可训练得到自编码网络。例如,可以重复至样本检测数据和样本预测数据之间的误差小于一个预设的值,预设值的大小不作限定,可根据具体数据类型确定。
S103、计算获取第一数据集中的每个待检测数据与其对应的预测数据之间的残差。
可以理解的,自编码网络目的在于输出端尽可能的恢复原始输入数据(即待检测数据)。计算获取第一数据集中的每个待检测数据与其对应的预测数据之间的残差即是指:计算获取上述示例中X与Y的差值,该差值也可以称为重构误差。
X与Y的残差r可以通过下述公式(3)进行计算。
r=‖X-Y‖ (3);
其中,‖‖在不同数据类型中,代表不同的度量函数。例如,‖X-Y‖可以表示为X与Y的差值的绝对值。
S104、确定第一数据集中与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
例如,当第一数据集中的某个目标待检测数据与其对应的预测数据之间的残差大于第一阈值时,该目标待检测数据被认定为异常值。当第一数据集中的某个目标待检测数据与其对应的预测数据之间的残差小于第一阈值时,该目标待检测数据可以被认定为正常值。
可选地,当第一数据集中的某个目标待检测数据与其对应的预测数据之间的残差等于第一阈值时,该目标待检测数据可以被认定为正常值,也可以被认定为异常值,具体可以根据需求设定。
一种实施方式中,第一阈值可以是人为设定的值,如:可以由审核人员根据经验设定第一阈值的大小。
可选地,为了更准确地检测异常值,对于不同数据需求,第一阈值的设置也各不相同。任务要求更优质的查准率,第一阈值选取应当偏大一些,使得网络模型的预测性能更稳定。若任务要求侧重于查全率,则第一阈值选择可以偏小,保证模型能够分辨更多的异常值。因此,第一阈值的设置是否恰当,决定了网络模型对于任务的泛化能力的强弱。
为了更好的表示阈值变化对模型泛化能力的影响,本发明另一种实施方式中,可以基于受试者工作特征(rceiver oeration caracteristic,ROC)曲线原理确定第一阈值。例如,可以根据训练数据集和自编码网络,获取受试者工作特征ROC曲线;然后,根据ROC曲线,确定第一阈值。
具体地,确定第一阈值的流程可以包括:通过设置多个不同的第二阈值,并执行下述步骤1)至4)得到不同第二阈值下的真正率和假正率;将不同第二阈值下的真正率和假正率分别作为横坐标值和纵横坐标值绘制ROC曲线;根据ROC曲线确定第一阈值。
步骤1)至4)如下:
1)采用自编码网络对训练数据集中的每个样本检测数据依次进行编码和解码,得到样本检测数据一一对应的样本预测数据;
2)计算获取训练数据集中的每个样本检测数据与其对应的样本预测数据之间的残差;
3)确定训练数据集中与其对应的样本预测数据之间的残差大于第二阈值的目标样本检测数据为异常值;
4)根据训练数据集、以及确定为异常值的目标样本检测数据,计算第二阈值下的真正率和假正率。
可选地,设置多个不同的第二阈值的方式可以为:依次设置第二阈值为从0增大至第一值中的多个值,第一值的大小也可以由审核人员根据经验来确定。每设置一次第二阈值,便执行一次上述步骤1)至4)的过程,即可得到不同第二阈值下的真正率和假正率。
在一种可能的设计中,根据ROC曲线确定第一阈值可以是根据ROC曲线,从多个不同的第二阈值中确定第一阈值,如:ROC曲线越往左上靠,ROC曲线越优,因此可以选择ROC曲线上最接近左上方的点对应的第二阈值作为第一阈值。
在另外一种可能的设计中,根据ROC曲线确定第一阈值也可以是需要使用一个指标-约登指数,也称正确指数,借助于matlab的roc函数对ROC曲线进行计算得到第一阈值。
可选地,所述确定第一数据集中与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值,可以包括:对第一数据集中的待检测数据与其对应的预测数据之间的残差进行降序排列;根据降序排列的结果,确定第一数据集中与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
通过对第一数据集中的待检测数据与其对应的预测数据之间的残差进行降序排列,可以使得较大的残差排列在前,此时,可以根据降序排列的结果,从排列在前的残差对应的待检测数据中依次确定与其对应的预测数据之间的残差大于第一阈值的目标待检测数据为异常值。从而,可以无需遍历所有的残差对应的待检测数据,可以提高异常值检测效率。
可选地,为保证银行数据处理的精确性,最后可以对上述S104确定为异常值的目标待检测数据进行人工审核。
还有一些实施例中,也可以不设置第一阈值,在进行异常值检测时,可以对第一数据集中的待检测数据与其对应的预测数据之间的残差进行降序排列,然后将排列在前M(M为大于0的整数)位的残差对应的目标待检测数据确定为异常值,并将这些目标待检测数据发送给人工审核,以保证异常值检测的准确性。
本发明实施例可以帮助商业银行极大地避免数据的异常情况,降低银行日常运行风险,比如可以针对客户账户资金异常变动、员工过度资金异常行为、反洗钱等异常行为数据进行检测,从而可以针对异常数据进行审核和判断,并排查数据异常原因,是否人工录入错误或系统错误或客户异常资金变动等,进而可降低银行运营成本和运营合规风险。
基于前述实施例所述的异常值检测方法,本发明实施例还提供一种异常值检测装置。图5示出了本发明实施例提供的异常值检测装置的结构示意图。
如图5所示,异常值检测装置包括:获取模块501,用于获取第一数据集,所述第一数据集包括至少一个待检测数据;自编码模块502,用于采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据;计算模块503,用于计算获取所述第一数据集中的每个待检测数据与其对应的所述预测数据之间的残差;处理模块504,用于确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
可选地,所述自编码网络包括:编码器和解码器;所述自编码模块502具体用于,对所述第一数据集中的每个待检测数据:采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量;采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据。
可选地,所述自编码模块502具体用于,采用所述编码器根据下述公式对所述待检测数据进行加权线性变换和非线性变换激活,得到所述待检测数据的特征向量;
H=fθ(x)=σ(W1x+b1);
其中,x表示所述待检测数据;fθ表示所述编码器;H表示所述编码器输出的所述待检测数据的特征向量;W1表示所述编码器的网络权重;b1表示所述编码器的偏移量;σ表示激活函数。
可选地,所述自编码模块502具体用于,采用所述解码器根据下述公式对所述待检测数据的特征向量进行加权线性变换和非线性变换激活,得到所述待检测数据对应的预测数据;
y=gθ(H)=σ(W2H+b2);
其中,y表示所述解码器输出的所述待检测数据对应的预测数据;gθ表示所述解码器;H表示所述待检测数据的特征向量;W2表示所述解码器的网络权重;b2表示所述解码器的偏移量;σ表示激活函数。
可选地,所述处理模块504具体用于,对所述第一数据集中的所述待检测数据与其对应的所述预测数据之间的残差进行降序排列;根据所述降序排列的结果,确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
可选地,所述装置还包括:训练模块505,用于获取训练数据集和初始自编码网络,所述训练数据集包括多个样本检测数据;采用所述训练数据集对所述初始自编码网络进行训练,得到所述自编码网络。
可选地,所述训练模块505还用于,根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线;根据所述ROC曲线,确定所述第一阈值。
可选地,所述训练模块505具体用于,通过设置多个不同的第二阈值,并执行下述步骤1)至4)得到不同第二阈值下的真正率和假正率;将不同第二阈值下的真正率和假正率分别作为横坐标值和纵横坐标值绘制所述ROC曲线。
步骤1)至4)如下:
1)采用所述自编码网络对所述训练数据集中的每个样本检测数据依次进行编码和解码,得到所述样本检测数据一一对应的样本预测数据;
2)计算获取所述训练数据集中的每个样本检测数据与其对应的所述样本预测数据之间的残差;
3)确定所述训练数据集中与其对应的所述样本预测数据之间的残差大于第二阈值的目标样本检测数据为异常值;
4)根据所述训练数据集、以及确定为异常值的所述目标样本检测数据,计算所述第二阈值下的真正率和假正率。
可选地,所述训练模块505具体用于,根据所述ROC曲线,从多个不同的所述第二阈值中确定所述第一阈值。
可选地,多个不同的所述第二阈值为从0增大至第一值中的多个值。
上述装置可以集成于服务器、计算机等设备,本发明在此不作限制。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,该异常值检测装置的具体工作过程,可以参考前述方法实施例中所述的异常值检测方法的对应过程,本发明中不再赘述。
应该理解,以上所描述的装置实施例仅仅是示意性的,本发明实施例所揭露的装置和方法,也可以通过其它的方式实现。例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得处理器执行时实现本发明各个实施例所述方法的全部或部分步骤。
也即,本领域内的技术人员应明白,本发明实施例可以采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式中的任一种实现。
基于此,本发明实施例还提供一种程序产品,该程序产品可以是U盘、移动硬盘、ROM、RAM、磁碟或者光盘等存储介质,存储介质上可以存储有计算机程序,计算机程序被处理器运行时执行如前述方法实施例中所述的异常值检测方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
可选地,本发明实施例还提供一种电子设备,该电子设备可以是服务器、计算机等设备,图6示出了本发明实施例提供的电子设备的结构示意图。
如图6所示,该电子设备可以包括:处理器601、存储介质602和总线603,存储介质502存储有处理器501可执行的机器可读指令,当电子设备运行时,处理器601与存储介质602之间通过总线603通信,处理器601执行机器可读指令,以执行时执行如前述实施例中所述的异常值检测方法的步骤。具体实现方式和技术效果类似,在此不再赘述。
为了便于说明,在上述电子设备中仅描述了一个处理器。然而,应当注意,一些实施例中,本发明中的电子设备还可以包括多个处理器,因此本发明中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。
以上仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种异常值检测方法,其特征在于,所述方法包括:
获取第一数据集,所述第一数据集包括至少一个待检测数据;
采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据;
计算获取所述第一数据集中的每个待检测数据与其对应的所述预测数据之间的残差;
确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
2.根据权利要求1所述的方法,其特征在于,所述自编码网络包括:编码器和解码器;
所述采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据,包括:
对所述第一数据集中的每个待检测数据:
采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量;
采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据。
3.根据权利要求2所述的方法,其特征在于,所述采用所述编码器将所述待检测数据映射到低维隐含表示,得到所述待检测数据的特征向量,包括:
采用所述编码器根据下述公式对所述待检测数据进行加权线性变换和非线性变换激活,得到所述待检测数据的特征向量;
H=fθ(x)=σ(W1x+b1);
其中,x表示所述待检测数据;fθ表示所述编码器;H表示所述编码器输出的所述待检测数据的特征向量;W1表示所述编码器的网络权重;b1表示所述编码器的偏移量;σ表示激活函数。
4.根据权利要求3所述的方法,其特征在于,所述采用所述解码器根据所述待检测数据的特征向量进行数据重构,得到所述待检测数据对应的预测数据,包括:
采用所述解码器根据下述公式对所述待检测数据的特征向量进行加权线性变换和非线性变换激活,得到所述待检测数据对应的预测数据;
y=gθ(H)=σ(W2H+b2);
其中,y表示所述解码器输出的所述待检测数据对应的预测数据;gθ表示所述解码器;H表示所述待检测数据的特征向量;W2表示所述解码器的网络权重;b2表示所述解码器的偏移量;σ表示激活函数。
5.根据权利要求1所述的方法,其特征在于,所述确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值,包括:
对所述第一数据集中的所述待检测数据与其对应的所述预测数据之间的残差进行降序排列;
根据所述降序排列的结果,确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
6.根据权利要求1所述的方法,其特征在于,所述采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据之前,所述方法还包括:
获取训练数据集和初始自编码网络,所述训练数据集包括多个样本检测数据;
采用所述训练数据集对所述初始自编码网络进行训练,得到所述自编码网络。
7.根据权利要求6所述的方法,其特征在于,所述确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值之前,所述方法还包括:
根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线;
根据所述ROC曲线,确定所述第一阈值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述训练数据集和所述自编码网络,获取受试者工作特征ROC曲线,包括:
通过设置多个不同的第二阈值,并执行下述步骤1)至4)得到不同第二阈值下的真正率和假正率;
将不同第二阈值下的真正率和假正率分别作为横坐标值和纵横坐标值绘制所述ROC曲线;
步骤1)至4)如下:
1)采用所述自编码网络对所述训练数据集中的每个样本检测数据依次进行编码和解码,得到所述样本检测数据一一对应的样本预测数据;
2)计算获取所述训练数据集中的每个样本检测数据与其对应的所述样本预测数据之间的残差;
3)确定所述训练数据集中与其对应的所述样本预测数据之间的残差大于第二阈值的目标样本检测数据为异常值;
4)根据所述训练数据集、以及确定为异常值的所述目标样本检测数据,计算所述第二阈值下的真正率和假正率。
9.根据权利要求8所述的方法,其特征在于,所述根据所述ROC曲线,确定所述第一阈值,包括:
根据所述ROC曲线,从多个不同的所述第二阈值中确定所述第一阈值。
10.根据权利要求8所述的方法,其特征在于,多个不同的所述第二阈值为从0增大至第一值中的多个值。
11.一种异常值检测装置,其特征在于,所述装置包括:
获取模块,用于获取第一数据集,所述第一数据集包括至少一个待检测数据;
自编码模块,用于采用预设的自编码网络对所述第一数据集中的每个待检测数据依次进行编码和解码,得到所述待检测数据一一对应的预测数据;
计算模块,用于计算获取所述第一数据集中的每个待检测数据与其对应的所述预测数据之间的残差;
处理模块,用于确定所述第一数据集中与其对应的所述预测数据之间的残差大于第一阈值的目标待检测数据为异常值。
12.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求1至10任一项所述的方法的步骤。
13.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至10任一项所述的方法的步骤。
CN202011399455.7A 2020-12-04 2020-12-04 异常值检测方法、装置、设备及存储介质 Pending CN112364939A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011399455.7A CN112364939A (zh) 2020-12-04 2020-12-04 异常值检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011399455.7A CN112364939A (zh) 2020-12-04 2020-12-04 异常值检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112364939A true CN112364939A (zh) 2021-02-12

Family

ID=74535133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011399455.7A Pending CN112364939A (zh) 2020-12-04 2020-12-04 异常值检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112364939A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966819A (zh) * 2021-03-04 2021-06-15 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN113011322A (zh) * 2021-03-17 2021-06-22 南京工业大学 监控视频特定异常行为的检测模型训练方法及检测方法
CN113328908A (zh) * 2021-05-10 2021-08-31 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113537352A (zh) * 2021-07-15 2021-10-22 杭州鲁尔物联科技有限公司 传感器异常值监测方法、装置、计算机设备及存储介质
CN115345279A (zh) * 2022-08-10 2022-11-15 中国电信股份有限公司 多指标异常检测方法、装置、电子设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966819A (zh) * 2021-03-04 2021-06-15 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN112966819B (zh) * 2021-03-04 2024-04-09 南方科技大学 分布外数据检测方法、装置、服务器及存储介质
CN113011322A (zh) * 2021-03-17 2021-06-22 南京工业大学 监控视频特定异常行为的检测模型训练方法及检测方法
CN113011322B (zh) * 2021-03-17 2023-09-05 贵州安防工程技术研究中心有限公司 监控视频特定异常行为的检测模型训练方法及检测方法
CN113328908A (zh) * 2021-05-10 2021-08-31 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113328908B (zh) * 2021-05-10 2022-07-26 广东电网有限责任公司广州供电局 异常数据的检测方法、装置、计算机设备和存储介质
CN113537352A (zh) * 2021-07-15 2021-10-22 杭州鲁尔物联科技有限公司 传感器异常值监测方法、装置、计算机设备及存储介质
CN113537352B (zh) * 2021-07-15 2023-08-11 杭州鲁尔物联科技有限公司 传感器异常值监测方法、装置、计算机设备及存储介质
CN115345279A (zh) * 2022-08-10 2022-11-15 中国电信股份有限公司 多指标异常检测方法、装置、电子设备及存储介质
CN115345279B (zh) * 2022-08-10 2024-03-29 中国电信股份有限公司 多指标异常检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN112364939A (zh) 异常值检测方法、装置、设备及存储介质
CN108399381B (zh) 行人再识别方法、装置、电子设备和存储介质
CN110874778A (zh) 异常订单检测方法及装置
Chen et al. A dynamic analysis of S&P 500, FTSE 100 and EURO STOXX 50 indices under different exchange rates
WO2019016106A1 (fr) Systeme d'apprentissage machine pour diverses applications informatiques
TW201227571A (en) Determination of permissibility associated with e-commerce transactions
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CA3155335A1 (en) Docket analysis methods and systems
CN114627412A (zh) 基于误差重构实现无监督深度伪造视频检测处理的方法、装置、处理器及其计算机存储介质
CN110956278A (zh) 重新训练机器学习模型的方法和系统
CN115018012A (zh) 一种高维度特性下的物联网时间序列异常检测方法及系统
CN113283901B (zh) 一种面向区块链平台的基于字节码的诈骗合约检测方法
CN112232948A (zh) 一种流量数据的异常检测方法及装置
CN111245815B (zh) 数据处理方法、装置、存储介质及电子设备
CN111340622A (zh) 一种异常交易集群的检测方法及装置
CN114723554B (zh) 异常账户识别方法及装置
CN115496205A (zh) 检测模型训练、数据检测方法、装置、设备及存储介质
CN108446907B (zh) 安全校验方法及装置
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质
CN115878391A (zh) 磁盘异常的检测方法及装置
Muranda et al. Deep learning method for detecting fraudulent motor insurance claims using unbalanced data
US11797961B2 (en) Vectorization of transactions
CN111833171B (zh) 异常操作检测和模型训练方法、装置以及可读存储介质
CN110782342B (zh) 基于二分类模型验证新渠道特征工程正确性的方法及装置
US11989660B1 (en) Transaction entity prediction with a global list

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination