CN111275546A

CN111275546A - 金融客户欺诈风险识别方法及装置

Info

Publication number: CN111275546A
Application number: CN202010111497.XA
Authority: CN
Inventors: 李瑾瑜; 朱敏; 沈晓敏; 刘丹丹
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-12
Anticipated expiration: 2040-02-24
Also published as: CN111275546B

Abstract

本申请实施例提供一种金融客户欺诈风险识别方法及装置，方法包括：获取目标金融客户的客户记录信息；将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型；基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制。本申请能够有效降低对欺诈风险客户负样本数据量的要求，并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性。

Description

金融客户欺诈风险识别方法及装置

技术领域

本申请涉及人工智能技术领域，具体涉及金融客户欺诈风险识别方法及装置。

背景技术

对于金融业来说，防止客户欺诈行为的发生(例如反洗钱等)任重而道远，同时也需要大量且长期的工作，是银行等金融部门所面临的长期而艰巨的任务。为了防止客户欺诈行为的发生，需要充分认识当前反洗钱工作形势，高度重视反洗钱在日常生活中对个人金融安全管理等，具体可以通过人工智能技术实现。

目前，一般欺诈风险模型的构建，需要做大量的样本标识。但由于欺诈行为的多样性和隐蔽性，样本标识获得工作量较大，且一旦得到标识的样本，很可能意味着欺诈即将或者已经发生，成本较高。在使用有监督算法甄别客户欺诈风险时，一般将建模样本对象按正常和欺诈客户进行标识；相比正常客户，被识别出欺诈风险的客户数量少，即建模中标识为欺诈客户的样本量少，这对模型构建、效果检验造成一定影响。

发明内容

针对现有技术中的问题，本申请提供一种金融客户欺诈风险识别方法及装置，能够有效降低对欺诈风险客户负样本数据量的要求，并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性。

为解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种金融客户欺诈风险识别方法，包括：

获取目标金融客户的客户记录信息；

将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型；

基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制。

进一步地，在所述将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果之前，还包括：

获取由多个金融客户的历史金融记录信息组成的总样本数据集；

应用所述总样本数据集训练所述有监督分类模型；

以及，应用所述总样本数据集训练所述无监督概率模型。

进一步地，所述获取由多个金融客户的历史金融记录信息组成的总样本数据集，包括：

获取多个金融客户的历史金融记录信息以及各个所述金融客户的样本标签，其中，所述样本标签包括：存在欺诈风险的客户和正常客户；

基于多个金融客户的历史金融记录信息以及各个所述金融客户的样本标签生成所述总样本数据集，其中，所述总样本数据集中的各个样本分别由唯一对应的金融客户的历史金融记录信息组成，且每个所述样本均对应有所述样本标签。

进一步地，还包括：

将所述总样本数据集拆分为训练集、验证集及测试集；

其中，所述训练集中包含有样本标签为正常客户的样本，所述验证集及测试集中均包含有样本标签为存在欺诈风险的客户和正常客户的样本。

进一步地，还包括：

应用预设的无监督聚类模型分别对所述训练集中各个所述样本进行聚类处理，将各个所述样本进行分类。

进一步地，所述应用所述总样本数据集训练所述有监督分类模型，包括：

应用经样本分类处理后的训练集对预设的分类模型进行训练，生成对应的有监督分类模型，其中，所述有监督分类模型用于输出各个所述样本的各个分类的概率值；

将每个所述样本各自对应的各个分类的概率值中的最大值作为该样本的信心分数。

进一步地，还包括：

应用所述验证集对所述有监督分类模型进行验证，并基于对应的验证结果调整任意数量的样本的信心分数；

基于所述测试集对所述有监督分类模型进行测试。

进一步地，所述应用所述总样本数据集训练所述无监督概率模型，包括：

应用预设的特征变量、所述总样本数据集以及对应的概率分布函数，训练得到所述无监督概率模型。

进一步地，所述将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，包括：

若当前的所述欺诈风险识别模型为有监督分类模型，则将所述客户记录信息输入该有监督分类模型，并将所述有监督分类模型输出的信心分数概率值作为所述目标金融客户对应的风险识别结果；

若当前的所述欺诈风险识别模型为无监督概率模型，则将所述客户记录信息输入该无监督概率模型，并将所述有监督分类模型输出的风险概率值作为所述目标金融客户对应的风险识别结果；

若当前的所述欺诈风险识别模型包括有监督分类模型和无监督概率模型，则分别将所述客户记录信息分别输入所述有监督分类模型和无监督概率模型，并将所述有监督分类模型输出的信心分数概率值和所述有监督分类模型输出的风险概率值均作为所述目标金融客户对应的风险识别结果。

进一步地，所述基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，包括：

若所述风险识别结果为所述目标金融客户对应的信心分数概率值，则基于预设的信心分数阈值判断该目标金融客户是否为存在欺诈风险的客户；

若所述风险识别结果为所述目标金融客户对应的风险概率值，则基于预设的风险阈值判断该目标金融客户是否为存在欺诈风险的客户；

若所述风险识别结果包括信心分数概率值和风险概率值，则基于所述信心分数概率值与信心分数阈值之间的比较结果判断该目标金融客户是否为存在欺诈风险的客户，或者，基于所述风险概率值与风险阈值之间的比较结果判断该目标金融客户是否为存在欺诈风险的客户。

第二方面，本申请提供一种金融客户欺诈风险识别装置，包括：

信息获取模块，用于获取目标金融客户的客户记录信息；

风险识别模块，用于将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型；

结果输出模块，用于基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制。

进一步地，还包括：

建模方案设计模块，用于获取由多个金融客户的历史金融记录信息组成的总样本数据集；

有监督分类模型模块，用于应用所述总样本数据集训练所述有监督分类模型；

无监督概率模型模块，用于应用所述总样本数据集训练所述无监督概率模型。

进一步地，所述建模方案设计模块具体用于执行下述内容：

进一步地，还包括：

数据集拆分模块，用于将所述总样本数据集拆分为训练集、验证集及测试集；

进一步地，还包括：

样本聚类模块，用于应用预设的无监督聚类模型分别对所述训练集中各个所述样本进行聚类处理，将各个所述样本进行分类。

进一步地，所述有监督分类模型模块具体用于执行下述内容：

进一步地，所述有监督分类模型模块还具体用于执行下述内容：

基于所述测试集对所述有监督分类模型进行测试。

进一步地，所述无监督概率模型模块具体用于执行下述内容：

进一步地，所述风险识别模块具体用于执行下述内容：

进一步地，所述结果输出模块具体用于执行下述内容：

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述金融客户欺诈风险识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的金融客户欺诈风险识别方法的步骤。

由上述技术方案可知，本申请提供的一种金融客户欺诈风险识别方法及装置，方法包括：获取目标金融客户的客户记录信息；将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型；基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制，能够有效降低对欺诈风险客户负样本数据量的要求，一是，在有监督分类模型中，首先只对正常客户建模，得到正常客户的分类。其次应用异常点侦测的原理，将欺诈风险客户视为模型的异常点。只需要很少的欺诈风险客户样本，得到异常点发生概率阈值，识别欺诈风险客户。二是，在无监督概率模型中，不需要标注欺诈风险客户。根据客户本身特征，得出不同客户出现的概率分布。根据概率分布，找到低概率极值点，识别欺诈风险客户。三是，建模全流程闭环。将风险核实管控与样本标注结合，支持模型的持续优化；并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性，进而能够有效且及时地对存在欺诈风险的金融客户进行欺诈风险控制，进而能够有效保证金融机构防欺诈风险工作的运转，并提高其智能化程度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中的金融客户欺诈风险识别方法的流程示意图。

图2是本申请实施例中的金融客户欺诈风险识别方法中步骤010至步骤030的流程示意图。

图3是本申请实施例中的金融客户欺诈风险识别方法中步骤010的具体流程示意图。

图4是本申请实施例中的金融客户欺诈风险识别方法中步骤020的具体流程示意图。

图5是本申请实施例中的金融客户欺诈风险识别装置的第一结构示意图。

图6是本申请实施例中的金融客户欺诈风险识别装置的第二结构示意图。

图7是本申请具体应用实例中的金融客户欺诈风险识别装置的功能模块总流程图。

图8是本申请具体应用实例中的建模方案设计模块流程图。

图9是本申请具体应用实例中的有监督分类模型模块流程图。

图10是本申请具体应用实例中的无监督概率模型模块流程图。

图11是本申请具体应用实例中的欺诈风险核查模块流程图。

图12是本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请将异常点侦测方法论原理应用于欺诈风险的识别中。一般欺诈风险客户识别模型采用有监督算法，将正常客户作为模型的正样本，将欺诈风险客户作为模型的负样本，进行建模。该种有监督算法，在有足够多的负样本时才能获得较好的模型效果。而一般有标注欺诈风险客户量稀少，在应用该中有监督算法时，需要采用过采样或者下采样等抽样方式，来平衡正负样本比例；或者通过放宽负样本的判定规则，将部分客户近似的作为负样本。采用这种方式，人为主观因素较多。经常存在即便采取了增加了负样本的数量方法，负样本占比仍较低的情况。对模型效果影响较大。同时，一旦识别出欺诈，很可能已经产生了负面或潜在影响；且要收集到足够欺诈风险客户样本，需要较长的时间。采集欺诈风险客户样本成本大，耗时久。

异常点侦测的方法经常应用于数据集有大量“正常”样本，而“非正常”样本稀少的情况下。因此该方法相对于上述有监督算法，在对欺诈客户样本标识要求较低的同时，能够识别出欺诈风险客户。

异常点侦测是指找出异于现有数据集样本特征的数据实例。用数学公式来表示就是：对于一个数据集{x¹,x²,…,x^N}，找到一个函数，对于输入x，能够侦测出该x和数据集{x¹,x²,…,x^N}是否相似。如果相似则认为正常，如果不相似则认为异常。本申请将欺诈风险客户定义为异常点，运用有监督分类模型、无监督概率模型两种方式，识别出存在欺诈风险的客户。

为了有效降低对欺诈风险客户负样本数据量的要求，并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，以及金融客户欺诈风险识别结果的准确性，本申请提供一种金融客户欺诈风险识别方法的实施例，参见图1，所述金融客户欺诈风险识别方法具体包含有如下内容：

步骤100：获取目标金融客户的客户记录信息。

步骤200：将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型。

可以理解的是，有监督分类模型模块主要使用有监督算法下的多分类模型，构建模型识别欺诈客户。无监督概率模型模块主要使用无监督算法下的概率模型，构建模型识别欺诈客户。

步骤300：基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制。

可以理解的是，所述对该目标金融客户进行欺诈风险控制的具体方式可以为启动金融机构预设的欺诈风险控制方案，例如将该目标金融客户加入预设的交易黑名单等操作。

为了有效提高金融客户欺诈风险识别过程的准确性及可靠性，以及金融客户欺诈风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别方法的一实施例中，参见图2，所述金融客户欺诈风险识别方法的步骤100之前还具体包含有如下内容：

步骤010：获取由多个金融客户的历史金融记录信息组成的总样本数据集。

步骤020：应用所述总样本数据集训练所述有监督分类模型。

步骤030：应用所述总样本数据集训练所述无监督概率模型。

为了有效提高总样本数据集生成的准确性及可靠性，在本申请的金融客户欺诈风险识别方法中的步骤010的一个实施例中，参见图3，步骤010具体包含有如下内容：

步骤011：获取多个金融客户的历史金融记录信息以及各个所述金融客户的样本标签，其中，所述样本标签包括：存在欺诈风险的客户和正常客户。

步骤012：基于多个金融客户的历史金融记录信息以及各个所述金融客户的样本标签生成所述总样本数据集，其中，所述总样本数据集中的各个样本分别由唯一对应的金融客户的历史金融记录信息组成，且每个所述样本均对应有所述样本标签。

为进一步提高有监督分类模型训练和无监督概率模型训练过程的可靠性，所述步骤010中还可以具体包含如下内容：

步骤013：将所述总样本数据集拆分为训练集、验证集及测试集。

步骤014：应用预设的无监督聚类模型分别对所述训练集中各个所述样本进行聚类处理，将各个所述样本进行分类。

为了有效提高有监督分类模型训练过程的准确性及可靠性，在本申请的金融客户欺诈风险识别方法中的步骤020的一个实施例中，参见图4，步骤020具体包含有如下内容：

步骤021：应用经样本分类处理后的训练集对预设的分类模型进行训练，生成对应的有监督分类模型，其中，所述有监督分类模型用于输出各个所述样本的各个分类的概率值。

步骤022：将每个所述样本各自对应的各个分类的概率值中的最大值作为该样本的信心分数。

为进一步提高有监督分类模型的应用可靠性，所述步骤020还具体包含有如下内容：

步骤023：应用所述验证集对所述有监督分类模型进行验证，并基于对应的验证结果调整任意数量的样本的信心分数；

步骤024：基于所述测试集对所述有监督分类模型进行测试。

为了有效提高无监督概率模型训练过程的准确性及可靠性，在本申请的金融客户欺诈风险识别方法中的步骤030的一个实施例中，步骤030具体包含有如下内容：

为了进一步提高目标金融客户对应的风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别方法的一实施例中，所述金融客户欺诈风险识别方法的步骤200具体包含有如下内容：

(1)若当前的所述欺诈风险识别模型为有监督分类模型，则将所述客户记录信息输入该有监督分类模型，并将所述有监督分类模型输出的信心分数概率值作为所述目标金融客户对应的风险识别结果。

(2)若当前的所述欺诈风险识别模型为无监督概率模型，则将所述客户记录信息输入该无监督概率模型，并将所述有监督分类模型输出的风险概率值作为所述目标金融客户对应的风险识别结果。

(3)若当前的所述欺诈风险识别模型包括有监督分类模型和无监督概率模型，则分别将所述客户记录信息分别输入所述有监督分类模型和无监督概率模型，并将所述有监督分类模型输出的信心分数概率值和所述有监督分类模型输出的风险概率值均作为所述目标金融客户对应的风险识别结果。

为了进一步提高目标金融客户对应的风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别方法的一实施例中，所述金融客户欺诈风险识别方法的步骤300具体包含有如下内容：

(1)若所述风险识别结果为所述目标金融客户对应的信心分数概率值，则基于预设的信心分数阈值判断该目标金融客户是否为存在欺诈风险的客户。

(2)若所述风险识别结果为所述目标金融客户对应的风险概率值，则基于预设的风险阈值判断该目标金融客户是否为存在欺诈风险的客户。

(3)若所述风险识别结果包括信心分数概率值和风险概率值，则基于所述信心分数概率值与信心分数阈值之间的比较结果判断该目标金融客户是否为存在欺诈风险的客户，或者，基于所述风险概率值与风险阈值之间的比较结果判断该目标金融客户是否为存在欺诈风险的客户。

从软件层面来说，为了有效降低对欺诈风险客户负样本数据量的要求，并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性，本申请提供一种用于实现所述金融客户欺诈风险识别方法中全部或部分内容的金融客户欺诈风险识别装置的实施例，参见图5，所述金融客户欺诈风险识别装置具体包含有如下内容：

信息获取模块10，用于获取目标金融客户的客户记录信息。

风险识别模块20，用于将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，其中，所述欺诈风险识别模型包括：有监督分类模型和/或无监督概率模型。

结果输出模块30，用于基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，若是，则输出所述风险识别结果以在确定该风险识别结果对应的目标金融客户为欺诈客户后，对该目标金融客户进行欺诈风险控制。

为了有效提高金融客户欺诈风险识别过程的准确性及可靠性，以及金融客户欺诈风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别装置的一实施例中，参见图6，所述金融客户欺诈风险识别装置还具体包含有如下内容：

建模方案设计模块1，用于获取由多个金融客户的历史金融记录信息组成的总样本数据集；

有监督分类模型模块2，用于应用所述总样本数据集训练所述有监督分类模型；

无监督概率模型模块3，用于应用所述总样本数据集训练所述无监督概率模型。

为了有效提高总样本数据集生成的准确性及可靠性，在本申请的金融客户欺诈风险识别装置中的建模方案设计模块1的一个实施例中，建模方案设计模块1具体用于执行下述内容：

为进一步提高有监督分类模型训练和无监督概率模型训练过程的可靠性，所述金融客户欺诈风险识别装置还具体包含有如下内容：

为了有效提高有监督分类模型训练过程的准确性及可靠性，在本申请的金融客户欺诈风险识别装置中的有监督分类模型模块2的一个实施例中，有监督分类模型模块2具体用于执行下述内容：

其中，所述有监督分类模型模块2还具体用于执行下述内容：

基于所述测试集对所述有监督分类模型进行测试。

为了有效提高无监督概率模型训练过程的准确性及可靠性，在本申请的金融客户欺诈风险识别装置中的无监督概率模型模块3的一个实施例中，无监督概率模型模块3具体用于执行下述内容：

为了进一步提高目标金融客户对应的风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别装置的一实施例中，所述金融客户欺诈风险识别装置的风险识别模块20具体用于执行下述内容：

为了进一步提高目标金融客户对应的风险识别结果的准确性，在本申请提供的金融客户欺诈风险识别装置的一实施例中，所述金融客户欺诈风险识别装置的所述结果输出模块30具体用于执行下述内容：

为进一步说明本方案，本申请还提供一种应用金融客户欺诈风险识别装置实现所述金融客户欺诈风险识别方法的具体应用实例，主要包括建模方案设计、有监督分类模型、无监督概率模型、欺诈风险核查4个主要功能，具体包含有如下内容：

参见图7，建模方案设计模块1设计模型，准备后续模块建模需要的特征变量、客户样本标识。有监督分类模型模块2对有客户欺诈风险标识的场景下，运用有监督算法识别欺诈风险客户。无监督概率模型模块3对无客户欺诈风险标识的场景下，运用无监督算法识别欺诈风险客户。欺诈风险核查模块4作为风险管理内容，对识别出的欺诈风险客户开展风险核实等工作。

建模方案设计模块1：主要是设计建模方案，包括设计与欺诈风险识别相关的客户特征变量，正常客户和欺诈客户的样本标识。

有监督分类模型模块2：主要使用有监督算法下的多分类模型，构建模型识别欺诈客户。

无监督概率模型模块3：主要使用无监督算法下的概率模型，构建模型识别欺诈客户。

欺诈风险核查模块4：主要对识别出欺诈风险客户清单，由风险管理人员进行风险核实。核实结果亦可作为样本标识用于后续模型优化。

图8是建模方案设计模块流程图，用于得到后续模块需要的基础数据。

步骤S101：设计特征变量。根据建模目的，设计模型特征变量。如侦测线上贷款欺诈风险时，可更多的采集与线上交易行为相关的特征变量。

步骤S102：标注客户标识。采集客户标注，主要分为正常客户和欺诈客户。采集建模数据集以客户为维度，一条客户记录作为一条样本数据。正常客户和欺诈客户记录数构成建模的总样本数据集。

图9是有监督分类模型模块流程图，用于根据建模流程，对正常客户建模。将欺诈风险客户作为正常客户的异常点，进行信心分数超参数调参，得到欺诈风险客户作为异常点的信心分数阈值，生成欺诈风险客户清单。

步骤S201：拆分样本数据集。将建模数据拆分成训练集、验证集、测试集。训练集用于训练多分类模型，数据集中只包括正常客户。验证集用于调整模型超参数，包括正常客户和欺诈客户。测试集用于模型效果验证，包括正常客户和欺诈客户。因为模型效果验证非本申请的重点，故后续不再阐述。

步骤S202：正常客户无监督聚类。在训练多分类模型前，需要生成样本的分类。异常点侦测方法中的有监督多分类模型，其特殊之处在，只对正常客户进行分类训练。本步骤先采用无监督聚类模型，将客户聚类成多个簇。将每个正常客户标注其所在的簇，作为其分类。

步骤S203：训练有监督多分类模型。在训练集上，对做了分类的正常客户，训练分类模型。对选择的分类模型的要求是：结果输出每个样本被预测为某个分类的概率值。比如训练集总共被分为了4个簇，对于某个样本的输出的预测结果为[0.8,0.1,0.095,0.005]。因为第一个簇的预测概率最高为0.8，所以该样本归类为簇1。同时，定义每个样本预测最高的概率值为信心分数(Confidence Score)。如前一样本，其信心分数为0.8。

如果样本是正常客户，那么一般而言，该客户的某个簇的概率会明显高于其他簇概率，即信心分数会较高。但是如果是一个欺诈风险客户，因为该欺诈风险客户的被分类习得，所以其每个簇的预测结果会比较平均，比如为：

[0.24,0.26,0.25,0.25]，其信心分数是0.26。说明该客户很可能是异常点。

步骤S204：信心分数调参。在验证集上，对信心分数调参。对验证集上的样本，用前述步骤得到的分类模型，输入样本数据，得到每个样本的信心分数。设定信心分数的阈值，高于该阈值的认为是正常客户，低于该阈值的是欺诈风险客户。

f(x)是前述步骤得到的分类模型，c(x)是信心分数，λ是阈值。

但是可能出现正常客户信心分数低，欺诈客户信心分数高的情况。如，有的正常客户信心分数是0.4，欺诈客户的信心分数是0.98。本步骤调参确定信心分数阈值。举例而言：

假设验证集中有100个正常客户，5个欺诈客户。假设阈值设定为0.5，参见表1：

表1

假设阀值设定为0.75，参见表2：

表2

具体阈值设定，根据业务场景使用需要。本申请举例一种打分卡的方法。

比如打分卡A，参见表3：

表3

阈值为0.5的成本＝4×1+2×100＝204

阈值为0.75的成本＝3×1+5×100＝503

设定阈值0.5优于设定阈值0.75。

打分卡B，参见表4：

表4

阈值为0.5的成本＝4×100+2×1＝402

阈值为0.75的成本＝3×100+5×1＝305

设定阈值0.75优于设定阈值0.5。

步骤S205：欺诈风险客户识别。用构建完成分类模型预测新数据，如新数据的信心分数高于阈值，认为是正常客户；若低于阈值，认为是欺诈风险客户。将欺诈风险客户列入风险客户清单，用于后续步骤中的风险核实。

图10是无监督概率模型模块流程图，用于根据建模流程，对全体客户建模，构建每个客户出现的概率分布图。识别低概率客户，生成欺诈风险客户清单。

步骤S301：拆分样本数据集。无监督概率模型本身不使用样本标签。如果有客户的标签，为调整后续步骤中的概率阈值，可以拆分为训练集、验证集、测试集三个数据集。若无客户的标签，则不拆分数据集。

步骤S302：无监督概率模型参数估计。无监督概率模型的基本思想是：一个经常发生的事件其发生概率会比较高，一个不常发生的事件其发生的概率会比较低。要找到一个概率分布函数P(x_i)可以计算出每个事件x_i发生的概率。

可以通过计算概率密度函数，得到概率。

一般假设数据服从多元高斯分布：

将数据集中的全部客户特征变量数据代入上式，可求得概率密度函数的参数μ^*和Σ^*。

设定阈值λ：

步骤303：概率阈值调参。如有标注的样本数据，则可在验证集上，预测样本数据的概率。概率阈值调参方式类似于前述步骤中信心分数调整。此处不做赘述。

步骤304：欺诈风险客户识别。用构建完成概率模型预测新数据，如新数据的概率高于阈值，认为是正常客户；若低于阈值，认为是欺诈风险客户。将欺诈风险客户列入风险客户清单，用于后续步骤中的风险核实。

图11是欺诈风险核查模块流程图，用于核实前述步骤生成的欺诈风险清单，对核实的风险采取相应控制措施。标注核实结果，用作模型持续优化。

步骤S401：欺诈风险清单核实。将前述步骤得到欺诈风险客户清单进行风险核实，以确认是否存在风险。

步骤S402：欺诈风险控制。对确认存在欺诈风险的客户采取相应的风险控制措施。

步骤S403：标注样本欺诈标识。对欺诈风险客户清单根据核实结果进行标注。用于后续模型构建、优化等。

从上述描述可知，本申请大大降低了对欺诈风险客户负样本数据量的要求。一是，在有监督分类模型中，首先只对正常客户建模，得到正常客户的分类。其次应用异常点侦测的原理，将欺诈风险客户视为模型的异常点。只需要很少的欺诈风险客户样本，得到异常点发生概率阈值，识别欺诈风险客户。二是，在无监督概率模型中，不需要标注欺诈风险客户。根据客户本身特征，得出不同客户出现的概率分布。根据概率分布，找到低概率极值点，识别欺诈风险客户。三是，建模全流程闭环。将风险核实管控与样本标注结合，支持模型的持续优化。

本申请每个功能模块采用低耦合高内聚的设计思想。可以在缺乏欺诈风险样本的情况下，构建模型；识别欺诈风险客户。同时本申请还包括了欺诈风险核实的环节，确保模型准确性有效性能够得到有效反馈，并可持续优化模型。

本申请完全可以通过机器装置、计算机设备实施。

从硬件层面来说，为了有效降低对欺诈风险客户负样本数据量的要求，并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性，本申请提供一种用于实现所述金融客户欺诈风险识别方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现电子设备与用户终端以及相关数据库等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例中的金融客户欺诈风险识别方法的实施例，以及，金融客户欺诈风险识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图12为本申请实施例的电子设备9600的系统构成的示意框图。如图12所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图12是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，金融客户欺诈风险识别功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

步骤100：获取目标金融客户的客户记录信息。

从上述描述可知，本申请实施例提供的电子设备，能够有效降低对欺诈风险客户负样本数据量的要求，一是，在有监督分类模型中，首先只对正常客户建模，得到正常客户的分类。其次应用异常点侦测的原理，将欺诈风险客户视为模型的异常点。只需要很少的欺诈风险客户样本，得到异常点发生概率阈值，识别欺诈风险客户。二是，在无监督概率模型中，不需要标注欺诈风险客户。根据客户本身特征，得出不同客户出现的概率分布。根据概率分布，找到低概率极值点，识别欺诈风险客户。三是，建模全流程闭环。将风险核实管控与样本标注结合，支持模型的持续优化；并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性，进而能够有效且及时地对存在欺诈风险的金融客户进行欺诈风险控制，进而能够有效保证金融机构防欺诈风险工作的运转，并提高其智能化程度。

在另一个实施方式中，金融客户欺诈风险识别装置可以与中央处理器9100分开配置，例如可以将金融客户欺诈风险识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现金融客户欺诈风险识别功能。

如图12所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图12中所示的所有部件；此外，电子设备9600还可以包括图12中没有示出的部件，可以参考现有技术。

如图12所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的金融客户欺诈风险识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的金融客户欺诈风险识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤100：获取目标金融客户的客户记录信息。

从上述描述可知，本申请实施例提供的计算机可读存储介质，能够有效降低对欺诈风险客户负样本数据量的要求，一是，在有监督分类模型中，首先只对正常客户建模，得到正常客户的分类。其次应用异常点侦测的原理，将欺诈风险客户视为模型的异常点。只需要很少的欺诈风险客户样本，得到异常点发生概率阈值，识别欺诈风险客户。二是，在无监督概率模型中，不需要标注欺诈风险客户。根据客户本身特征，得出不同客户出现的概率分布。根据概率分布，找到低概率极值点，识别欺诈风险客户。三是，建模全流程闭环。将风险核实管控与样本标注结合，支持模型的持续优化；并能够有效提高金融客户欺诈风险识别过程的效率及可靠性，提高金融客户欺诈风险识别结果的准确性，进而能够有效且及时地对存在欺诈风险的金融客户进行欺诈风险控制，进而能够有效保证金融机构防欺诈风险工作的运转，并提高其智能化程度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种金融客户欺诈风险识别方法，其特征在于，包括：

获取目标金融客户的客户记录信息；

2.根据权利要求1所述的金融客户欺诈风险识别方法，其特征在于，在所述将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果之前，还包括：

应用所述总样本数据集训练所述有监督分类模型；

以及，应用所述总样本数据集训练所述无监督概率模型。

3.根据权利要求2所述的金融客户欺诈风险识别方法，其特征在于，所述获取由多个金融客户的历史金融记录信息组成的总样本数据集，包括：

4.根据权利要求3所述的金融客户欺诈风险识别方法，其特征在于，还包括：

将所述总样本数据集拆分为训练集、验证集及测试集；

5.根据权利要求4所述的金融客户欺诈风险识别方法，其特征在于，还包括：

6.根据权利要求5所述的金融客户欺诈风险识别方法，其特征在于，所述应用所述总样本数据集训练所述有监督分类模型，包括：

7.根据权利要求6所述的金融客户欺诈风险识别方法，其特征在于，还包括：

基于所述测试集对所述有监督分类模型进行测试。

8.根据权利要求2所述的金融客户欺诈风险识别方法，其特征在于，所述应用所述总样本数据集训练所述无监督概率模型，包括：

9.根据权利要求1所述的金融客户欺诈风险识别方法，其特征在于，所述将所述客户记录信息输入预设的欺诈风险识别模型，得到所述目标金融客户对应的风险识别结果，包括：

10.根据权利要求9所述的金融客户欺诈风险识别方法，其特征在于，所述基于预设的欺诈客户识别规则判断所述风险识别结果对应的目标金融客户是否为存在欺诈风险的客户，包括：

11.一种金融客户欺诈风险识别装置，其特征在于，包括：

信息获取模块，用于获取目标金融客户的客户记录信息；

12.根据权利要求11所述的金融客户欺诈风险识别装置，其特征在于，还包括：

13.根据权利要求12所述的金融客户欺诈风险识别装置，其特征在于，所述建模方案设计模块具体用于执行下述内容：

14.根据权利要求13所述的金融客户欺诈风险识别装置，其特征在于，还包括：

15.根据权利要求14所述的金融客户欺诈风险识别装置，其特征在于，还包括：

16.根据权利要求15所述的金融客户欺诈风险识别装置，其特征在于，所述有监督分类模型模块具体用于执行下述内容：

17.根据权利要求16所述的金融客户欺诈风险识别装置，其特征在于，所述有监督分类模型模块还具体用于执行下述内容：

基于所述测试集对所述有监督分类模型进行测试。

18.根据权利要求12所述的金融客户欺诈风险识别装置，其特征在于，所述无监督概率模型模块具体用于执行下述内容：

19.根据权利要求11所述的金融客户欺诈风险识别装置，其特征在于，所述风险识别模块具体用于执行下述内容：

20.根据权利要求19所述的金融客户欺诈风险识别装置，其特征在于，所述结果输出模块具体用于执行下述内容：

21.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至10任一项所述金融客户欺诈风险识别方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10任一项所述的金融客户欺诈风险识别方法的步骤。