CN115439128A - 一种面向第三方支付平台的欺诈识别方法及装置 - Google Patents
一种面向第三方支付平台的欺诈识别方法及装置 Download PDFInfo
- Publication number
- CN115439128A CN115439128A CN202211109852.5A CN202211109852A CN115439128A CN 115439128 A CN115439128 A CN 115439128A CN 202211109852 A CN202211109852 A CN 202211109852A CN 115439128 A CN115439128 A CN 115439128A
- Authority
- CN
- China
- Prior art keywords
- data
- fraud
- real
- risk
- dimension reduction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009467 reduction Effects 0.000 claims abstract description 182
- 230000003321 amplification Effects 0.000 claims abstract description 65
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000013528 artificial neural network Methods 0.000 claims abstract description 43
- 230000003190 augmentative effect Effects 0.000 claims description 33
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000004579 scanning voltage microscopy Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/08—Payment architectures
- G06Q20/085—Payment architectures involving remote charge determination or related payment systems
- G06Q20/0855—Payment architectures involving remote charge determination or related payment systems involving a third party
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明所提供的一种面向第三方支付平台的欺诈识别方法及装置,包括:接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。本发明通过使用均衡数据集训练的人工神经网络对待识别数据进行分类,得到数据分类结果,由于均衡数据集内的数据包括三个类别,并且对真实欺诈降维数据和真实风险降维数据进行了扩增,使得各类别的数据量相差不大,进而使得在识别新数据时分类结果更加准确。
Description
技术领域
本发明涉及支付欺诈识别技术领域,尤其涉及的是一种面向第三方支付平台的欺诈识别方法及装置。
背景技术
自动编码器(Autoencoder)一般被用于降维与特征提取,被广泛用于归一化处理,分类以及图像处理领域。深度生成模型(improved WGAN)被广泛用于图像处理领域,在金融科技领域的使用非常少。欺诈数据分类一般是二分类数据集,包括欺诈数据和非欺诈数据,在对欺诈数据进行分类时,传统分类器模型模型包括CNN,随机森林、SVM、集成学习等,传统数据处理方法包括上下采样,即将多数据类下采样,减少数据量,对少数类重采样,增大数据量。但是上下采样的缺点是如果下采样多数类,由于欺诈数据和非欺诈数据两类数据量相差悬殊,即,训练数据集内的各类数据量不均衡,所以可能会漏掉多数类的部分特征;而重采样无益于帮助增强特征。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种面向第三方支付平台的欺诈识别方法及装置,旨在解决现有技术中训练数据集内的各类数据不均衡,可能会漏掉部分特征,从而使得识别新数据时分类结果不准确的问题。
本发明解决技术问题所采用的技术方案如下:
一种面向第三方支付平台的欺诈识别方法,其中,包括:
接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
在一种实现方式中,所述数据分类结果为欺诈数据、风险数据或普通数据。
在一种实现方式中,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据;
将所述真实欺诈降维数据输入第一深度生成模型中进行扩增,得到扩增欺诈降维数据;
或者,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入第一深度生成模型中进行扩增,得到扩增欺诈数据;
将所述真实欺诈数据和扩增欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据和扩增欺诈降维数据。
在一种实现方式中,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据;
将所述真实风险降维数据输入第二深度生成模型中进行扩增,得到扩增风险降维数据;
或者,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入第二深度生成模型中进行扩增,得到扩增风险数据;
将所述真实风险数据和所述扩增风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据和扩增风险降维数据。
在一种实现方式中,所述真实普通降维数据的获取步骤包括:
获取真实普通数据集;
将所述真实普通数据集中的真实普通数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型中,得到真实普通降维数据。
在一种实现方式中,所述欺诈自动编码器模型的训练步骤包括:利用所述真实欺诈数据集中的真实欺诈数据对第一初始自动编码器模型进行训练,得到欺诈自动编码器模型;
所述风险自动编码器模型的训练步骤包括:利用所述真实风险数据集中的真实风险数据对第二初始自动编码器模型进行训练,得到风险自动编码器模型;
所述普通自动编码器模型的训练步骤包括:利用所述真实普通数据集中的真实普通数据对第三初始自动编码器模型进行训练,得到普通自动编码器模型。
在一种实现方式中,所述真实欺诈降维数据与所述扩增欺诈降维数据的数量之和为欺诈总数据量,所述真实风险降维数据与所述扩增风险降维数据的数量之和为风险总数据量;所述欺诈总数据量和所述风险总数据量均与所述扩增风险降维数据的数据量相等。
本发明还提供一种面向第三方支付平台的欺诈识别装置,包括:
输入模块,用于接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
分类模块,用于在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
本发明还提供一种终端,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的面向第三方支付平台的欺诈识别程序,所述面向第三方支付平台的欺诈识别程序被所述处理器执行时实现如上所述的面向第三方支付平台的欺诈识别方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的面向第三方支付平台的欺诈识别方法的步骤。
本发明所提供的一种面向第三方支付平台的欺诈识别方法及装置,包括:接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。本发明通过使用均衡数据集训练的人工神经网络对待识别数据进行分类,得到数据分类结果,由于均衡数据集内的数据包括三个类别,并且对真实欺诈降维数据和真实风险降维数据进行了扩增,使得各类别的数据量相差不大,进而使得在识别新数据时分类结果更加准确。
附图说明
图1是本发明中面向第三方支付平台的欺诈识别方法较佳实施例的流程图。
图2是本发明中面向第三方支付平台的欺诈识别方法较佳实施例中ANN的训练原理图。
图3是第三方欺诈数据集的结果。
图4是欧洲信用卡数据集的结果。
图5是本发明中面向第三方支付平台的欺诈识别装置较佳实施例的功能原理框图。
图6是本发明中终端的较佳实施例的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
随着深度学习的发展,有的将深度学习应用于欺诈模型的训练中,也有的将自动编码器与GAN模型进行结合,但是传统的AE-GAN模型的缺点在于,大多只面向单类提取特征,然后将降维数据输入GAN中生成新的数据。但是,在进行测试时,由于不知道输入的数据是欺诈数据还是非欺诈数据,而不同数据集侧重的特征也不同,所以在测试数据时会遇到提取特征不够准确的问题。
请参见图1,图1是本发明中面向第三方支付平台的欺诈识别方法的流程图。如图1所示,本发明实施例所述的面向第三方支付平台的欺诈识别方法包括以下步骤:
步骤S100、接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成。
以前的分类数据集一般是二分类数据集,包括欺诈数据和非欺诈数据,而本发明的均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据,是个三分类数据集,即欺诈数据、有欺诈风险数据和非欺诈数据。其中,真实欺诈降维数据和扩增欺诈降维数据属于欺诈数据,真实风险降维数据和扩增风险降维数据属于有欺诈风险数据,真实普通降维数据属于非欺诈数据。均衡数据集则是指这三类数据集的数据量是均衡的。具体地,由于真实的欺诈数据和风险数据的数据量与非欺诈数据的数据量相比来说是非常小的,因此,本发明将少数量的数据集生成伪造数据使得三个类别的数据量相等。
所述步骤S100之后为:步骤S200、在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果。
本发明的人工神经网络(ANN网络)通过均衡数据集训练,具有更好的分类能力。
在一种实现方式中,所述数据分类结果为欺诈数据、风险数据或普通数据。也就是说,对于一个新输入的待识别数据,通过训练好的ANN网络来分类并输出这个数据是属于欺诈(fraud)数据、风险(risk)数据,还是普通(normal)数据,使得数据分类结果更加准确。
请参阅图2,本发明的第一部分是采集真实的欺诈数据、风险数据和普通数据分别作为真实欺诈数据(Real Fraud Samples)、真实有风险欺诈数据(Real Risk Sample)、真实普通交易数据(Real Normal Sample),真实有风险欺诈数据就是指本次交易可能存在欺诈但是没办法确定的数据。在数据读入时,是将文本文件输入自动编码器中,同一个数据的不同特征是使用逗号隔开,本发明可以调用python包来快速读入。
第二部分是构建三种自编码器:欺诈自动编码器、风险自动编码器、普通自动编码器,通过三种自动编码器对以上数据进行自编码,就可以获得针对三种情况(欺诈,有风险欺诈,非欺诈)均衡的编码,即降维的数据。首先在降维上有很多方法可以用,比如PCA,但是其原理跟自编码器是完全不一样的。整个网络以最小化重构错误为目标,所以需要编码器和解码器一起工作以找到将输入数据压缩到较低维度的最有效方法。本发明的真实数据不是随机的,而是具有结构的,这种结构意味着不需要完整输入空间的每个部分来表示数据,编码器的工作是从中映射,将完整的输入空间转化为有意义的较低维度。
第三部分是通过生成对抗网络(GAN)来扩增数据。具体是训练两个WGAN来生成新的欺诈数据和风险数据。对于数据扩增,主要是利用GAN网络。
第四部分是将真实的数据集和扩增的数据整合在一起,形成一个均衡数据集,并且将数据集导入到ANN做训练,这样就可以获得一个通过均衡数据集训练的、有更好分类能力的ANN网络。
在一种实施例中,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:获取真实欺诈数据集;将所述真实欺诈数据集中的真实欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据;将所述真实欺诈降维数据输入第一深度生成模型中进行扩增,得到扩增欺诈降维数据。如图2所示,所述真实欺诈数据集即为真实欺诈样本,所述真实欺诈降维数据即为Fraud-AE样本,Fraud-AE样本经过一个深度生成模型(WGANGP),得到扩增欺诈降维数据,扩增欺诈降维数据和Fraud-AE样本一起形成真实和扩增的全部欺诈数据(Fraud-all样本)。
在另一实施例中,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:获取真实欺诈数据集;将所述真实欺诈数据集中的真实欺诈数据输入第一深度生成模型中进行扩增,得到扩增欺诈数据;将所述真实欺诈数据和扩增欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据和扩增欺诈降维数据。也就是说,在对真实欺诈数据集中的真实欺诈数据进行降维和扩增时,降维和扩增的串联顺序可以调换。
本发明通过三个自动编码器模型提取真实欺诈数据中的特征,使得真实欺诈降维数据和扩增欺诈降维数据具有欺诈数据、风险数据和普通数据三个类别的特征,保证了特征的多样性,进而提高了识别新数据的准确性。
在一种实施例中,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:获取真实风险数据集;将所述真实风险数据集中的真实风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据;将所述真实风险降维数据输入第二深度生成模型中进行扩增,得到扩增风险降维数据。如图2所示,所述真实风险数据集即为真实风险样本,所述真实风险降维数据即为Risk-AE样本,Risk-AE样本经过一个深度生成模型,得到扩增风险降维数据,扩增风险降维数据和Risk-AE样本一起形成真实和扩增的全部风险数据(Risk-all样本)。
在另一种实施例中,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:获取真实风险数据集;将所述真实风险数据集中的真实风险数据输入第二深度生成模型中进行扩增,得到扩增风险数据;将所述真实风险数据和所述扩增风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据和扩增风险降维数据。也就是说,在对真实风险数据集中的真实风险数据进行降维和扩增时,降维和扩增的串联顺序可以调换。
本发明通过三个自动编码器模型提取真实风险数据中的特征,使得真实风险降维数据和扩增风险降维数据具有欺诈数据、风险数据和普通数据三个类别的特征,保证了特征的多样性,进而提高了识别新数据的准确性。
在一种实现方式中,所述第一深度生成模型和所述第二深度生成模型均为WGAN-GP。本发明使用WGAN-GP网络对数据进行扩增,WGAN-GP是WGAN的改进版本,主要改善了Lipschitz的连续性约束。所述第一深度生成模型和所述第二深度生成模型也可以为其他GAN变种。
在一种实现方式中,所述真实普通降维数据的获取步骤包括:获取真实普通数据集;将所述真实普通数据集中的真实普通数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型中,得到真实普通降维数据。如图2所示,所述真实普通数据集即为真实普通样本,所述真实普通降维数据即为Normal-AE样本,Normal-AE样本直接与Fraud-all样本、Risk-all样本形成均衡数据集,用于训练ANN网络。
本发明通过三个自动编码器模型提取真实普通数据中的特征,使得真实普通降维数据具有欺诈数据、风险数据和普通数据三个类别的特征,保证了特征的多样性,进而提高了识别新数据的准确性。
在一种实施例中,所述欺诈自动编码器模型的训练步骤包括:利用所述真实欺诈数据集中的真实欺诈数据对第一初始自动编码器模型进行训练,得到欺诈自动编码器模型。也就是说,欺诈自动编码器模型是由真实欺诈数据集中的真实欺诈数据预先训练而成。所述风险自动编码器模型的训练步骤包括:利用所述真实风险数据集中的真实风险数据对第二初始自动编码器模型进行训练,得到风险自动编码器模型。也就是说,风险自动编码器模型是由真实风险数据集中的真实风险数据预先训练而成。所述普通自动编码器模型的训练步骤包括:利用所述真实普通数据集中的真实普通数据对第三初始自动编码器模型进行训练,得到普通自动编码器模型。也就是说,普通自动编码器模型是由真实普通数据集中的真实普通数据预先训练而成。
这样,本发明通过三个自动编码器模型分别提取三个类别的特征,在训练分类的时候,分别用三个自动编码器去提取每个类的特征,让被降维的数据具有三个类别的特征;再输入生成对抗网络(GAN)生成新数据,并且生成的新数据也是被提取了三个类别的特征,即,新数据也是降维数据;最后输入一个简单的分类器中进行分类,从特征而不是数据的角度保证了特征的多样性。
所述真实欺诈降维数据与所述扩增欺诈降维数据的数量之和为欺诈总数据量,所述真实风险降维数据与所述扩增风险降维数据的数量之和为风险总数据量;所述欺诈总数据量和所述风险总数据量均与所述扩增风险降维数据的数据量相等。具体地,由于现在的在线支付交易数据具有非均衡(欺诈、有风险的数据量极少,但正常交易数据量极多)、多维(现代线上交易产生的特征远多于一般的数据)等特点,所以本发明通过自编码器来解决多维度的问题,而通过生成对抗网络(GAN)来解决非均衡的问题。特别地,对于GAN,主要灵感来源于博弈论中零和博弈的思想,应用到深度学习神经网络上来说就是通过生成网络G(Generator)和分类网络D(Discriminator)不断博弈,进而使G学习到数据的分布,如果用到数据生成上,则训练完成后,G可以从一段随机数中生成逼近真实值的数据。而在本发明中,将两个WGAN串联在降维过后的欺诈数据和风险数据后,通过适当的训练就可以扩增欺诈数据和风险数据,得到扩增欺诈降维数据和扩增风险降维数据,最后再将真实欺诈降维数据、真实风险降维数据、扩增欺诈降维数据、扩增风险降维数据和真实普通降维数据(正常交易数据)打乱合并就可以得到一组均衡数据。本发明在在线交易数据中使用自编码器以及WGAN,并且将其串联使用,且串联顺序可以改变。本发明是完全基于神经网络的,所以数据量越大效果也会更佳,与之前的数据扩增有着本质的区别。
另外,在整体逻辑结构不变的情况下,还可以替换部分结构单元,如自编码器替换成主要成分分析降维或其他编码器变种,将WGAN替换成其他生成式对抗神经网络或其他欠过采样方法等;还可以删减部分数据处理的结构单元,如不加区分地只训练一套自编码器等,用剩余的结构完成分类器的训练。
本发明是一种针对第三方支付欺诈的数据增强方法,意在对元数据进行整理变形增强,以提高分类器的训练效果,对最后使用的分类器不做限制;针对第三方支付欺诈数据特征隐性、特征数量多、数据数量庞大、不同标签数据严重不平衡的特点进行设计,应用领域不仅限于金融欺诈领域,对任何符合上述特征的数据均有效。
本发明在两个数据集上进行了训练,并与现有技术进行比较。第一个数据集是第三方欺诈数据集,是一个三分类欺诈数据集,这个数据集的特点是数据特征非常多,是一个三分类问题。第二个数据集是传统的欧洲欺诈数据集(一个被广泛使用的kaggle数据集),这个数据的特征较少,同时是二分类问题。如图3和图4所示,pureANN、SMOTE和DAEVAE是现有技术,DAEWGAN和MAEGAN是本发明的两版迭代,从结果上可以看到本发明的算法在两个数据集上都取得了非常好的成绩。
进一步地,如图5所示,基于上述面向第三方支付平台的欺诈识别方法,本发明还相应提供了一种面向第三方支付平台的欺诈识别装置,包括:
输入模块100,用于接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
分类模块200,用于在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
进一步地,如图6所示,基于上述面向第三方支付平台的欺诈识别方法,本发明还相应提供了一种终端,包括处理器10、存储器20。图6仅示出了终端的部分组件,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器20在一些实施例中可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据,例如安装所述终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中,存储器20上存储有面向第三方支付平台的欺诈识别程序30,该面向第三方支付平台的欺诈识别程序30可被处理器10所执行,从而实现本申请中面向第三方支付平台的欺诈识别方法。
所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器20中存储的程序代码或处理数据,例如执行所述面向第三方支付平台的欺诈识别方法等。
在一实施例中,当处理器10执行所述存储器20中面向第三方支付平台的欺诈识别程序30时实现以下步骤:
接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
所述数据分类结果为欺诈数据、风险数据或普通数据。
所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据;
将所述真实欺诈降维数据输入第一深度生成模型中进行扩增,得到扩增欺诈降维数据;
或者,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入第一深度生成模型中进行扩增,得到扩增欺诈数据;
将所述真实欺诈数据和扩增欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据和扩增欺诈降维数据。
所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据;
将所述真实风险降维数据输入第二深度生成模型中进行扩增,得到扩增风险降维数据;
或者,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入第二深度生成模型中进行扩增,得到扩增风险数据;
将所述真实风险数据和所述扩增风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据和扩增风险降维数据。
所述真实普通降维数据的获取步骤包括:
获取真实普通数据集;
将所述真实普通数据集中的真实普通数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型中,得到真实普通降维数据。
所述欺诈自动编码器模型的训练步骤包括:利用所述真实欺诈数据集中的真实欺诈数据对第一初始自动编码器模型进行训练,得到欺诈自动编码器模型;
所述风险自动编码器模型的训练步骤包括:利用所述真实风险数据集中的真实风险数据对第二初始自动编码器模型进行训练,得到风险自动编码器模型;
所述普通自动编码器模型的训练步骤包括:利用所述真实普通数据集中的真实普通数据对第三初始自动编码器模型进行训练,得到普通自动编码器模型。
所述真实欺诈降维数据与所述扩增欺诈降维数据的数量之和为欺诈总数据量,所述真实风险降维数据与所述扩增风险降维数据的数量之和为风险总数据量;所述欺诈总数据量和所述风险总数据量均与所述扩增风险降维数据的数据量相等。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的面向第三方支付平台的欺诈识别方法的步骤。
综上所述,本发明公开的一种面向第三方支付平台的欺诈识别方法及装置,包括:接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。本发明通过使用均衡数据集训练的人工神经网络对待识别数据进行分类,得到数据分类结果,由于均衡数据集内的数据包括三个类别,并且对真实欺诈降维数据和真实风险降维数据进行了扩增,使得各类别的数据量相差不大,进而使得在识别新数据时分类结果更加准确。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种面向第三方支付平台的欺诈识别方法,其特征在于,包括:
接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
2.根据权利要求1所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述数据分类结果为欺诈数据、风险数据或普通数据。
3.根据权利要求1所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据;
将所述真实欺诈降维数据输入第一深度生成模型中进行扩增,得到扩增欺诈降维数据;
或者,所述真实欺诈降维数据和扩增欺诈降维数据的获取步骤包括:
获取真实欺诈数据集;
将所述真实欺诈数据集中的真实欺诈数据输入第一深度生成模型中进行扩增,得到扩增欺诈数据;
将所述真实欺诈数据和扩增欺诈数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实欺诈降维数据和扩增欺诈降维数据。
4.根据权利要求1所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据;
将所述真实风险降维数据输入第二深度生成模型中进行扩增,得到扩增风险降维数据;
或者,所述真实风险降维数据和扩增风险降维数据的获取步骤包括:
获取真实风险数据集;
将所述真实风险数据集中的真实风险数据输入第二深度生成模型中进行扩增,得到扩增风险数据;
将所述真实风险数据和所述扩增风险数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型,得到真实风险降维数据和扩增风险降维数据。
5.根据权利要求1所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述真实普通降维数据的获取步骤包括:
获取真实普通数据集;
将所述真实普通数据集中的真实普通数据输入预先训练的欺诈自动编码器模型、风险自动编码器模型和普通自动编码器模型中,得到真实普通降维数据。
6.根据权利要求3-5任一项所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述欺诈自动编码器模型的训练步骤包括:利用所述真实欺诈数据集中的真实欺诈数据对第一初始自动编码器模型进行训练,得到欺诈自动编码器模型;
所述风险自动编码器模型的训练步骤包括:利用所述真实风险数据集中的真实风险数据对第二初始自动编码器模型进行训练,得到风险自动编码器模型;
所述普通自动编码器模型的训练步骤包括:利用所述真实普通数据集中的真实普通数据对第三初始自动编码器模型进行训练,得到普通自动编码器模型。
7.根据权利要求1所述的面向第三方支付平台的欺诈识别方法,其特征在于,所述真实欺诈降维数据与所述扩增欺诈降维数据的数量之和为欺诈总数据量,所述真实风险降维数据与所述扩增风险降维数据的数量之和为风险总数据量;所述欺诈总数据量和所述风险总数据量均与所述扩增风险降维数据的数据量相等。
8.一种面向第三方支付平台的欺诈识别装置,其特征在于,包括:
输入模块,用于接收第三方支付平台发送的待识别数据,将所述待识别数据输入预先训练的人工神经网络,所述人工神经网络由均衡数据集训练而成;
分类模块,用于在所述人工神经网络中对所述待识别数据进行分类,得到数据分类结果;
其中,所述均衡数据集包括真实欺诈降维数据、真实风险降维数据、真实普通降维数据、扩增欺诈降维数据以及扩增风险降维数据。
9.一种终端,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的面向第三方支付平台的欺诈识别程序,所述面向第三方支付平台的欺诈识别程序被所述处理器执行时实现如权利要求1~7任意一项所述的面向第三方支付平台的欺诈识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1~7任意一项所述的面向第三方支付平台的欺诈识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211109852.5A CN115439128A (zh) | 2022-09-13 | 2022-09-13 | 一种面向第三方支付平台的欺诈识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211109852.5A CN115439128A (zh) | 2022-09-13 | 2022-09-13 | 一种面向第三方支付平台的欺诈识别方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115439128A true CN115439128A (zh) | 2022-12-06 |
Family
ID=84246270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211109852.5A Pending CN115439128A (zh) | 2022-09-13 | 2022-09-13 | 一种面向第三方支付平台的欺诈识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439128A (zh) |
-
2022
- 2022-09-13 CN CN202211109852.5A patent/CN115439128A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111291816B (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
WO2019218699A1 (zh) | 欺诈交易判断方法、装置、计算机设备和存储介质 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易系统异常识别方法 | |
CN111666346B (zh) | 信息归并方法、交易查询方法、装置、计算机及存储介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN113052577B (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN111091408A (zh) | 用户识别模型创建方法、装置与识别方法、装置 | |
CN110427375A (zh) | 字段类别的识别方法及装置 | |
CN113139876A (zh) | 风险模型训练方法、装置、计算机设备及可读存储介质 | |
CN115953123A (zh) | 机器人自动化流程的生成方法、装置、设备及存储介质 | |
CN117591998A (zh) | 一种多源异构数据融合的用户全景画像生成方法 | |
CN113360416B (zh) | 测试数据批量生成方法及装置 | |
CN116502140B (zh) | 一种基于控制流图相似性的加密算法识别方法及装置 | |
CN112785095A (zh) | 贷款预测方法、装置、电子设备和计算机可读存储介质 | |
CN116703631A (zh) | 对账数据处理方法及装置 | |
CN115439128A (zh) | 一种面向第三方支付平台的欺诈识别方法及装置 | |
CN116739795A (zh) | 基于知识图谱的保险风险评估方法、装置和电子设备 | |
CN110097258A (zh) | 一种用户关系网络建立方法、装置及计算机可读存储介质 | |
CN114792007A (zh) | 代码检测方法、装置、设备、存储介质和计算机程序产品 | |
CN112907254A (zh) | 欺诈交易识别、模型训练方法、装置、设备及存储介质 | |
CN107025547A (zh) | 支付通道检测方法、装置及终端 | |
CN113362151B (zh) | 金融业务的数据处理方法、装置、电子设备及存储介质 | |
CN111242307A (zh) | 基于深度学习的裁判结果获取方法、装置及存储介质 | |
CN111507236B (zh) | 文件处理方法、系统、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |