CN117436013A - 业务信息异常检测方法、装置、计算机设备和存储介质 - Google Patents

业务信息异常检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117436013A
CN117436013A CN202311255942.XA CN202311255942A CN117436013A CN 117436013 A CN117436013 A CN 117436013A CN 202311255942 A CN202311255942 A CN 202311255942A CN 117436013 A CN117436013 A CN 117436013A
Authority
CN
China
Prior art keywords
abnormal
user
verification
intersection
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311255942.XA
Other languages
English (en)
Inventor
姜澜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202311255942.XA priority Critical patent/CN117436013A/zh
Publication of CN117436013A publication Critical patent/CN117436013A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Abstract

本申请涉及人工智能技术领域,具体涉及一种业务信息异常检测方法、装置、计算机设备和存储介质,可应用于金融领域的异常检测。所述方法包括:获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。

Description

业务信息异常检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种业务信息异常检测方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
近年来,人工智能技术处于高速发展期。然而,随着人工智能技术发展进入深水区,出现了越来越多的壁垒和难题,数据孤岛就是其中之一。在实际的应用落地场景中,很难实现企业与企业之间的数据共享,即使在同一个企业中,不同部门之间的数据共享也十分困难。因此,往往只有少数的大型互联网公司才拥有真正的大数据,大多数小微企业和中小型企业面临着数据量小、数据维度稀少等问题,这些问题严重制约着人工智能技术的发展。
另一方面,在过去的几年中,人们对数据隐私保护的意识逐渐增强,相关的法律法规也得以逐步完善,如欧盟出台的通用数据保护条例GDPR和国内出台的网络安全法等越来越强的监管措施。在此背景之下,数据共享也面临着越来越大的挑战,数据隐私保护也成为了在人工智能技术进一步发展的过程中,人们急需解决的重要难题,但同时也为安全的人工智能技术发展带来了巨大的机遇。银行侧掌握受害者向欺诈组织转账以及后续资金转移等特征,但两方的特征数据均不足以对欺诈行为进行有效识别。
当前在外汇管理中,针对跨行、多层资金划转的违规外汇交易,人民币资金数据以及外汇资金数据无法跨机构共享,外管局无法掌握人民币资金交易数据,银行无法掌握跨行资金交易数据,导致外汇业务上下游资金链难以追溯、真实业务背景难以还原,异常交易主要依赖于人工经验判断,风险防控存在滞后性。在外汇业务风险防控中,仍有很大的提升空间。
数据作为战略性资源和关键生产要素,拥有数据就拥有客户资源和市场竞争力。但业务数据涉及用户个人隐私、商业秘密甚至国家安全,数据流转共享存在“不愿、不敢、不便”等难题。传统数据融合受实现过程复杂、合作双方应用难度大、实施周期长等因素影响导致数据孤岛,影响数据要素价值的发挥。
在此背景下,如何在有效保护数据隐私的前提下,帮助金融企业合法合规地利用内外部数据,丰富样本数据特征维度,构建更加精准的反欺诈风控模型,提升反欺诈能力,是当前银行机构亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高反欺诈能力的业务信息异常检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种业务信息异常检测方法。所述方法包括:
获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
采用训练数据对初始神经网络模型进行训练,得到异常分类模型;
采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;
根据训练数据和验证数据,计算训练数据的交集指数和信息价值;
在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在其中一个实施例中,获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据,包括:
获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;
对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;
将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;
根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。
在其中一个实施例中,根据训练数据和验证数据,计算训练数据的交集指数和信息价值,包括:
根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;
根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,以及计算信息价值。
在其中一个实施例中,根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,包括:
获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;
根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;
根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;
确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;
对各用户标识维度的维度指数进行加和计算,得到交集指数。
在其中一个实施例中,根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算信息价值,包括:
获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;
根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;
根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;
根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;
根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;
根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;
对各用户标识维度的证据权重进行加和计算,得到信息价值。
在其中一个实施例中,方法还包括:
在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;
采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;
采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;
根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;
在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
第二方面,本申请还提供了一种业务信息异常检测装置。所述装置包括:
获取模块,用于获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
训练模块,用于采用训练数据对初始神经网络模型进行训练,得到异常分类模型;
验证模块,用于采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;
计算模块,用于根据训练数据和验证数据,计算训练数据的交集指数和信息价值;
检测模块,用于在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
采用训练数据对初始神经网络模型进行训练,得到异常分类模型;
采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;
根据训练数据和验证数据,计算训练数据的交集指数和信息价值;
在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
采用训练数据对初始神经网络模型进行训练,得到异常分类模型;
采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;
根据训练数据和验证数据,计算训练数据的交集指数和信息价值;
在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
采用训练数据对初始神经网络模型进行训练,得到异常分类模型;
采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;
根据训练数据和验证数据,计算训练数据的交集指数和信息价值;
在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
上述业务信息异常检测方法、装置、计算机设备、存储介质和计算机程序产品,获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。能够使用联邦学习,在数据不出域、信息使用合法合规的前提下,在各平台本地部署计算节点、搭建联邦学习平台,实现对业务信息异常分类模型的联合训练,保障各平台业务数据隐私安全,同时实现对各平台客户业务信息的异常检测,提前预判客户合规程度,更精准有效的进行欺诈甄别和风控防范,提高了各平台的反欺诈能力。
附图说明
图1为一个实施例中业务信息异常检测方法的应用环境图;
图2为一个实施例中业务信息异常检测方法的流程示意图;
图3为一个实施例中业务信息异常检测装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的业务信息异常检测方法,可以应用于如图1所示的应用环境中。其中,多个业务平台102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。其中,业务平台102可以但不限于是各种金融业务平台、银行交易平台和外汇交易平台。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种业务信息异常检测方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤202,获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户。
其中,用户标识是指用于表征用户身份信息的唯一标识,相当于用户ID。交集用户标识是指在各业务平台均办理过业务的用户ID。用户特征是指用户在办理业务时涉及的业务办理信息,包括但不限于业务办理时间、业务办理类型、业务涉及对象、业务涉及资源数量和业务办理进度。
可选的,获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交(Private Set Intersection,PSI),获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。隐私集合求交是指参与双方在不泄露任何额外信息的情况下,得到双方持有数据的交集,额外的信息指的是除了双方的数据交集以外的任何信息。
步骤204,采用训练数据对初始神经网络模型进行训练,得到异常分类模型。
可选的,采用训练数据对初始神经网络模型进行初步训练,得到异常分类模型。训练采用纵向联邦学习的方式,纵向联邦学习是指在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。联邦学习是一种加密的分布式机器学习框架,框架允许用户使用分布在不同位置的多个数据集来训练机器学习模型,模型参与各方在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。实现了各个企业的自有数据不出本地,仅通过加密机制下的参数交换方式,便可在不违反数据隐私法规的情况下,构建一个虚拟的共有模型,参与各方的身份和地位相同,大家共享计算带来的收益。
步骤206,采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户。
其中,验证用户特征可以直接采用样本用户特征,也可以从目标业务平台的历史业务信息中获取。
可选的,将验证用户特征输入异常分类模型,得到验证用户特征的异常验证结果,根据异常验证结果确定验证用户特征是否存在异常行为,并将存在异常行为的验证用户标记为异常用户,将验证用户特征和异常验证结果作为验证数据。
步骤208,根据训练数据和验证数据,计算训练数据的交集指数和信息价值。
其中,由于训练数据是基于各业务平台之间的交集用户标识得到的交集数据,交集指数用于表征交集数据的稳定程度,通常交集指数越高,训练数据中来自各平台的数据差异性越小。信息价值用于表征训练数据中特征的区分能力,通常信息价值越高,训练数据对模型的训练效果越好。
可选的,根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据。
获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。证据权重(Weight of Evidence,WOE)是对于字符型变量的某个值或者是连续变量的某个分段下的好坏客户的比例的对数。信息价值(Information Value,IV)用来评估变量的预测能力,可用来快速筛选变量,主要用来对输入变量进行编码和预测能力评估。
步骤210,在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
其中,异常检测结果通常为异常程度评分,当异常程度评分超过评分阈值,认为当前待检测业务信息存在异常,就可以将待检测业务信息相关的用户标记为异常用户。
可选的,在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
上述业务信息异常检测方法中,获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。能够使用联邦学习,在数据不出域、信息使用合法合规的前提下,在各平台本地部署计算节点、搭建联邦学习平台,实现对业务信息异常分类模型的联合训练,保障各平台业务数据隐私安全,同时实现对各平台客户业务信息的异常检测,提前预判客户合规程度,更精准有效的进行欺诈甄别和风控防范,提高了各平台的反欺诈能力。
在一个实施例中,一种业务信息异常检测方法,包括:
获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;
采用训练数据对初始神经网络模型进行训练,得到异常分类模型。
采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户。
根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据。
获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。
在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
在一个可行的实施方式中,以上述业务信息异常检测方法应用于银行的外汇风控和反欺诈为例,包括:
首先进行各方的数据加密,银行与外汇局机构合作,由于机构间用户群体可能并非完全重合,系统利用基于加密的用户样本对齐技术,在多方不公开各自数据的前提下,首先需通过加密用户ID对齐算法,实现对齐二者重叠的样本数据,确认多方的共有用户,实现用户信息不泄漏,可使用对齐后的用户特征信息进行建模。
然后进行隐私集合求交。在进行隐私计算之前,需要找出多方共有的样本。不同的参与方持有样本的不同特征,需要各方围绕同一批样本,把不同的特征拼在一起,才能完成后续的计算。如果有个参与方缺少某个样本的数据,那这个样本就无法用于后续的训练。因此需要将各个参与方联合起来,使用PSI(隐私集合求交)技术,隐私保护交集计算的目的是,在不泄露各个参与方输入信息的前提下,协同计算输入集合的交集,即参与方只能获得交集部分的ID,而不会获得或泄露非交集的ID。
在构建风控模型时,基于假设“历史样本分布等于未来样本分布”,但在实际业务中,实际样本分布会发生偏移,从而导致模型不稳定。如果模型不稳定,意味着模型不可控,这将直接影响风控决策的合理性。因此使用PSI作为模型稳定性的评估指标,评估测试样本在各分数段的分布与建模样本分布的稳定性。
PSI反映了验证样本在各分数段的分布与建模样本分布的稳定性。因为稳定性是有参照的,通常有实际分布(actual)和预期分布(expected)。通过将双方数据样本对齐,在建模时通常以训练样本(训练数据)(In the Sample,INS)作为预期分布,验证样本(实际数据)作为实际分布。
PSI=SUM((实际占比-预期占比)*ln(实际占比/预期占比))
其中,Ai代表第i组的训练数据占比(占全部数量),Ei代表第i组的期望占比(即实践数据占比)。具体实现步骤为,将变量预期分布(excepted)进行分箱(binning)离散化,统计各个分箱里的样本占比。分箱数设为10或20。按相同分箱区间,对实际分布(actual)统计各分箱内的样本占比。计算各分箱内的A-E和Ln(A/E),计算index=(实际占比-预期占比)*ln(实际占比/预期占比)。将各分箱的index进行求和,即得到最终的PSI,如表1所示。
表1
如表2所示,PSI数值越小,两个分布之间的差异就越小,代表越稳定。一般认为PSI小于0.1时候模型稳定性很高,0.1-0.2一般,需要进一步研究,大于0.2模型稳定性差,建议修复。
PSI范围 稳定性 建议事项
0~0.1 没有变化或变化很少
0.1~0.25 略不稳定 有变化,监控后续变化
>0.25 不稳定 发生大变化,进行特征分析
表2
进一步的,进行入模特征筛选和模型训练。通过对同态加密技术计算变量的IV值,筛选出高价值特征,再依据WOE分箱方法观察WOE分箱的业务解释性和单调性,评估特征是否入模。具体实现步骤为,特征值计算:根据分箱结果,计算WOE编码、IV,如表3所示。。WOE是weight of evidence的缩写,是一种编码形式,WOE主要体现组内的好坏占比与整体的差异化程度大小,WOE越大,差异越大。
WOE通常其公式定义如下:
WOE=ln(第i个分箱的坏人数/总坏人数)-ln(第i个分箱的好人数/总好人数)。第i组的WOE值等于这个组的响应客户占所有响应客户的比例与未响应客户占所有未响应客户的比例的比值取对数。
IV公式定义如下,是WOE的加权和:
其中,pyi是这个组中响应客户(风险模型中,对应的是违约客户)占所有样本中所有响应客户的比例,pni是这个组中未响应客户占样本中所有未响应客户的比例。
表3
统计指标筛选:如表4所示,给定阈值,根据IV和PSI筛选出一批字段,用来评估变量的预测能力。IV太小,特征没有区分能力,PSI太大字段不够稳定不建议入模;IV评价标准如下:
表4
相关性筛选:计算相关矩阵,相关系数大于给定阈值的两个特征,保留IV值大的特征,可以思考剔除变量的顺序、IV值相等的情况。
单调性筛选:经过上面两步筛选,初始变量已大幅被剔除,对通过筛选的变量重新进行更细致的分箱,为保证变量业务上的可解释性,这一轮的分箱需要保证不良率的单调性,即分箱的整体值越大,不良率越高或越低,对于业务上无法解释的变量进行剔除,往往这一步较耗时。
采用训练数据对联合模型进行优化更新,重复以上步骤,直到最终模型收敛,形成联合模型。模型完成后,银行将本地的用户交易数据导入联合模型,筛选出命中反欺诈模型的用户数据,并根据欺诈相似度标记欺诈等级。银行系统在用户交易过程中通知用户风险,或系统通知到银行及外汇局,自动终止交易,避免用户的经济损失,提前提示监管部门风控警报。
本实施例中,利用联邦学习技术,可以实现敏感数据不出管理范围、信息使用合法合规的前提下,实现银行与外管局的外汇业务和银行交易业务数据融合,形成联合的外汇合规风险评分模型,解决了跨部门数据不流通、风险评级需人工分析等问题。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的业务信息异常检测方法的业务信息异常检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个业务信息异常检测装置实施例中的具体限定可以参见上文中对于业务信息异常检测方法的限定,在此不再赘述。
在一个实施例中,如图3所示,提供了一种业务信息异常检测装置300,包括:获取模块301、训练模块302、验证模块303、计算模块304和检测模块305,其中:
获取模块301,用于获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户。
训练模块302,用于采用训练数据对初始神经网络模型进行训练,得到异常分类模型。
验证模块303,用于采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户。
计算模块304,用于根据训练数据和验证数据,计算训练数据的交集指数和信息价值。
检测模块305,用于在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在一个实施例中,获取模块301还用于获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。
在一个实施例中,计算模块304还用于根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,以及计算信息价值。
在一个实施例中,计算模块304还用于获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
在一个实施例中,计算模块304还用于获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。
在一个实施例中,检测模块305还用于在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取模块301。
上述业务信息异常检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种业务信息异常检测方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,以及计算信息价值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,以及计算信息价值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据;训练数据包括交集用户标识对应的样本用户特征,以及样本用户特征对应的异常标签,异常标签用于表征交集用户标识是否为异常用户;采用训练数据对初始神经网络模型进行训练,得到异常分类模型;采用异常分类模型,对目标业务平台的验证用户特征进行处理,得到验证用户特征的异常验证结果,并根据验证用户特征和异常验证结果,获取验证数据;异常验证结果用于表征验证用户特征对应的用户标识是否为异常用户;根据训练数据和验证数据,计算训练数据的交集指数和信息价值;在交集指数小于权重阈值,且信息价值处于预设价值阈值范围的情况下,采用异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果;异常检测结果用于表征待检测业务信息对应的用户标识是否为异常用户。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的交集用户标识;将交集用户标识对应的用户业务特征作为交集用户标识对应的样本用户特征,根据交集用户标识对应的样本用户特征,对交集用户标识配置相应的异常标签,得到样本用户特征对应的异常标签;根据样本用户特征和样本用户特征对应的异常标签,获取训练数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据预设的多个用户标识维度,分别对训练数据和验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算交集指数,以及计算信息价值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;对各用户标识维度的维度指数进行加和计算,得到交集指数。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;根据每一个用户标识维度的异常用户分箱数量,获取训练数据和验证数据中的异常用户总数量;根据每一个用户标识维度的非异常用户分箱数量,获取训练数据和验证数据中的非异常用户总数量;根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及异常用户总数量和非异常用户总数量,获取每一个用户标识维度的证据权重;对各用户标识维度的证据权重进行加和计算,得到信息价值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:在交集指数不小于权重阈值,或者信息价值不处于预设价值阈值范围的情况下,返回执行获取各业务平台之间的交集用户标识,根据交集用户标识获取训练数据的步骤,以得到新的训练数据;采用新的训练数据对异常分类模型进行优化训练,得到新的异常分类模型;采用新的异常分类模型,对验证用户特征进行处理,得到验证用户特征的新的异常验证结果,并根据验证用户特征和新的异常验证结果,获取新的验证数据;根据新的训练数据和新的验证数据,计算新的训练数据的新的交集指数和新的信息价值;在新的交集指数小于权重阈值,且新的信息价值处于预设价值阈值范围的情况下,采用新的异常分类模型处理目标业务平台的待检测业务信息,得到待检测业务信息的异常检测结果。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种业务信息异常检测方法,其特征在于,所述方法包括:
获取各业务平台之间的交集用户标识,根据所述交集用户标识获取训练数据;所述训练数据包括所述交集用户标识对应的样本用户特征,以及所述样本用户特征对应的异常标签,所述异常标签用于表征所述交集用户标识是否为异常用户;
采用所述训练数据对初始神经网络模型进行训练,得到异常分类模型;
采用所述异常分类模型,对目标业务平台的验证用户特征进行处理,得到所述验证用户特征的异常验证结果,并根据所述验证用户特征和所述异常验证结果,获取验证数据;所述异常验证结果用于表征所述验证用户特征对应的用户标识是否为异常用户;
根据所述训练数据和所述验证数据,计算所述训练数据的交集指数和信息价值;
在所述交集指数小于权重阈值,且所述信息价值处于预设价值阈值范围的情况下,采用所述异常分类模型处理所述目标业务平台的待检测业务信息,得到所述待检测业务信息的异常检测结果;所述异常检测结果用于表征所述待检测业务信息对应的用户标识是否为异常用户。
2.根据权利要求1所述的方法,其特征在于,所述获取各业务平台之间的交集用户标识,根据所述交集用户标识获取训练数据,包括:
获取各业务平台的用户业务数据;每一个业务平台的用户业务数据包括多个用户标识,以及每一个用户标识对应的用户业务特征;
对各业务平台的用户业务数据进行隐私集合求交,获取各业务平台之间的所述交集用户标识;
将所述交集用户标识对应的用户业务特征作为所述交集用户标识对应的样本用户特征,根据所述交集用户标识对应的样本用户特征,对所述交集用户标识配置相应的异常标签,得到所述样本用户特征对应的异常标签;
根据所述样本用户特征和样本用户特征对应的异常标签,获取所述训练数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述训练数据和所述验证数据,计算所述训练数据的交集指数和信息价值,包括:
根据预设的多个用户标识维度,分别对所述训练数据和所述验证数据进行分箱离散化,得到多组分箱训练数据和多组分箱验证数据;每一个用户标识维度对应一组分箱训练数据和一组分箱验证数据;
根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算所述交集指数,以及计算所述信息价值。
4.根据权利要求3所述的方法,其特征在于,所述根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算所述交集指数,包括:
获取每一组分箱训练数据中的异常用户数量和分箱内用户总数量,以及获取每一组分箱验证数据中的异常用户数量和分箱内用户总数量;
根据每一组分箱训练数据中的异常用户数量和分箱内用户总数量,获取每一组分箱训练数据中异常用户数量与分箱内用户总数量的比值,作为实际占比;
根据每一组分箱验证数据中的异常用户数量和分箱内用户总数量,获取每一组分箱验证数据中异常用户数量与分箱内用户总数量的比值,作为预期占比;
确定每一个用户标识维度对应的实际占比和预期占比,并根据每一个用户标识维度对应的实际占比和预期占比,获取每一个用户标识维度的维度指数;
对各用户标识维度的维度指数进行加和计算,得到所述交集指数。
5.根据权利要求3所述的方法,其特征在于,所述根据每一组分箱训练数据和每一组分箱验证数据中的异常用户数量,计算所述信息价值,包括:
获取每一组分箱训练数据中的异常用户数量和非异常用户数量,以及获取每一组分箱验证数据中的异常用户数量和非异常用户数量;
根据每一组分箱训练数据中的异常用户数量,以及每一组分箱验证数据中的异常用户数量,获取每一个用户标识维度的异常用户分箱数量;
根据每一组分箱训练数据中的非异常用户数量,以及每一组分箱验证数据中的非异常用户数量,获取每一个用户标识维度的非异常用户分箱数量;
根据每一个用户标识维度的异常用户分箱数量,获取所述训练数据和所述验证数据中的异常用户总数量;
根据每一个用户标识维度的非异常用户分箱数量,获取所述训练数据和所述验证数据中的非异常用户总数量;
根据每一个用户标识维度的异常用户分箱数量和非异常用户分箱数量,以及所述异常用户总数量和所述非异常用户总数量,获取每一个用户标识维度的证据权重;
对各用户标识维度的证据权重进行加和计算,得到所述信息价值。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述交集指数不小于权重阈值,或者所述信息价值不处于预设价值阈值范围的情况下,返回执行所述获取各业务平台之间的交集用户标识,根据所述交集用户标识获取训练数据的步骤,以得到新的训练数据;
采用所述新的训练数据对所述异常分类模型进行优化训练,得到新的异常分类模型;
采用所述新的异常分类模型,对所述验证用户特征进行处理,得到所述验证用户特征的新的异常验证结果,并根据所述验证用户特征和所述新的异常验证结果,获取新的验证数据;
根据所述新的训练数据和所述新的验证数据,计算所述新的训练数据的新的交集指数和新的信息价值;
在所述新的交集指数小于权重阈值,且所述新的信息价值处于预设价值阈值范围的情况下,采用所述新的异常分类模型处理所述目标业务平台的待检测业务信息,得到所述待检测业务信息的异常检测结果。
7.一种业务信息异常检测装置,其特征在于,所述装置包括:
获取模块,用于获取各业务平台之间的交集用户标识,根据所述交集用户标识获取训练数据;所述训练数据包括所述交集用户标识对应的样本用户特征,以及所述样本用户特征对应的异常标签,所述异常标签用于表征所述交集用户标识是否为异常用户;
训练模块,用于采用所述训练数据对初始神经网络模型进行训练,得到异常分类模型;
验证模块,用于采用所述异常分类模型,对目标业务平台的验证用户特征进行处理,得到所述验证用户特征的异常验证结果,并根据所述验证用户特征和所述异常验证结果,获取验证数据;所述异常验证结果用于表征所述验证用户特征对应的用户标识是否为异常用户;
计算模块,用于根据所述训练数据和所述验证数据,计算所述训练数据的交集指数和信息价值;
检测模块,用于在所述交集指数小于权重阈值,且所述信息价值处于预设价值阈值范围的情况下,采用所述异常分类模型处理所述目标业务平台的待检测业务信息,得到所述待检测业务信息的异常检测结果;所述异常检测结果用于表征所述待检测业务信息对应的用户标识是否为异常用户。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202311255942.XA 2023-09-26 2023-09-26 业务信息异常检测方法、装置、计算机设备和存储介质 Pending CN117436013A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311255942.XA CN117436013A (zh) 2023-09-26 2023-09-26 业务信息异常检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311255942.XA CN117436013A (zh) 2023-09-26 2023-09-26 业务信息异常检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117436013A true CN117436013A (zh) 2024-01-23

Family

ID=89547130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311255942.XA Pending CN117436013A (zh) 2023-09-26 2023-09-26 业务信息异常检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117436013A (zh)

Similar Documents

Publication Publication Date Title
Lin et al. Detecting the financial statement fraud: The analysis of the differences between data mining techniques and experts’ judgments
CN110458687A (zh) 决策自动审批方法、装置及计算机可读存储介质
CN112700319A (zh) 基于政务数据的企业授信额度确定方法及装置
CN106952159A (zh) 一种不动产抵押品风险控制方法、系统及存储介质
CN110097365A (zh) 一种基于海量区块审计技术的交易监管系统及机制
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
CN106851633A (zh) 基于用户隐私保护的电信欺诈检测系统及方法
Ibiwoye et al. Artificial neural network model for predicting insurance insolvency
CN110209729A (zh) 数据转移对象识别的方法及装置
CN114492605A (zh) 联邦学习特征选择方法、装置、系统以及电子设备
CN113902037A (zh) 非正常银行账户识别方法、系统、电子设备及存储介质
CN110222733A (zh) 一种高精度的多阶神经网络分类方法及系统
Ramaki et al. Credit card fraud detection based on ontology graph
Li et al. Theory and application of artificial intelligence in financial industry
CN115545709A (zh) 配资异常交易识别方法及装置
Alhazmi et al. A survey of credit card fraud detection use machine learning
CN113793208A (zh) 一种基于区块链的小额金融债权纠纷智慧诉讼系统
CN116361759B (zh) 一种基于量化权限指引的智能合规控制方法
EP3276551A1 (en) A method, computer program and system for detecting a discrepancy arising from a mismatch between incoming and outgoing flows of resource
CN117436013A (zh) 业务信息异常检测方法、装置、计算机设备和存储介质
Geng et al. Intelligent Prediction Mathematical Model of Industrial Financial Fraud Based on Data Mining
CN114818999B (zh) 基于自编码器和生成对抗网络的账户识别方法及系统
CN115375480A (zh) 基于图神经网络的异常虚拟币钱包地址检测方法
CN115760151A (zh) 珠宝追溯信息的管理方法及系统
Peng Research on credit risk identification of Internet financial enterprises based on big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination