CN112884480B - 异常交易识别模型的构造方法、装置、计算机设备和介质 - Google Patents

异常交易识别模型的构造方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN112884480B
CN112884480B CN202110352596.1A CN202110352596A CN112884480B CN 112884480 B CN112884480 B CN 112884480B CN 202110352596 A CN202110352596 A CN 202110352596A CN 112884480 B CN112884480 B CN 112884480B
Authority
CN
China
Prior art keywords
data set
value
information
data
characteristic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110352596.1A
Other languages
English (en)
Other versions
CN112884480A (zh
Inventor
韩伟豪
黄裕文
殷俊
周武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110352596.1A priority Critical patent/CN112884480B/zh
Publication of CN112884480A publication Critical patent/CN112884480A/zh
Application granted granted Critical
Publication of CN112884480B publication Critical patent/CN112884480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/382Payment protocols; Details thereof insuring higher security of transaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Finance (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种异常交易识别模型的构造方法、装置、计算机设备和介质。所述方法包括:获取包含至少一个特征信息的交易数据;对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;基于孤立森林模型训练所述第一数据集以获得孤立树;基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;根据比较结果的不同完成异常交易识别模型构造。上述方法充分利用机器学习算法的自学习能力,降低人为的主观认识影响。

Description

异常交易识别模型的构造方法、装置、计算机设备和介质
技术领域
本发明涉及机器学习技术领域,具体涉及一种异常交易识别模型的构造方法、装置、计算机设备和介质。
背景技术
随着社会经济的发展,现金形式的交易由于其携带及支付不便等弊端逐渐被非现金形式的交易所取代。非现金形式的交易是指以现金以外其他支付手段进行交易的方式。在非现金交易中,通过银行卡进行交易是其中最为常见的交易场景之一。
当今社会信用卡使用越来越普遍,使得利用信用卡进行的违法行为也与日俱增,已经成为当前社会的热点问题之一,信用卡诈骗是指:以非法占有为目的,违反信用卡管理法规,利用信用卡进行诈骗活动,骗取财物数额较大的行为。其中包括冒用、盗刷信用卡,恶意透支等犯罪行为。
然而目前常用检测信用卡诈骗的手段多数是仅通过交易金额过大、交易地点异常等一般指标判断,自动化识别信用卡诈骗的方法将判断条件写死,且判断条件的有效性严重依赖设计者的主观认知,缺少灵活性且容易造成误判,将客户的正常大额、异地交易当作异常处理,从而严重影响客户使用体验。
发明内容
鉴于上述传统的异常交易判断方法缺少灵活性且容易造成误判的问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种异常交易识别模型的方法、装置、计算机设备和介质。
依据本发明的一个方面,提供一种异常交易识别模型的构造方法,所述方法包括:
获取包含至少一个特征信息的交易数据;
对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;
基于孤立森林模型训练所述第一数据集以获得孤立树;
基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;
若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型。
优选的,确定第一数据集后,所述方法还包括:
对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息;
基于孤立森林模型训练所述第二数据以获得孤立树。
优选的,对所述交易数据进行预处理以生成数据集矩阵包括:
获取分类变量型的特征信息;
将该分类变量型的特征信息转化成数值变量型的特征信息。
优选的,基于孤立森林模型训练所述第一数据集以获得孤立树包括:
从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
优选的,所述方法还包括:
从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠;
将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数;
根据所述异常分数计算多个所述样本信息的准确率和召回率;
根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
依据本发明的另一个方面,提供一种异常交易识别模型的构造装置,包括:
第一获取模块,用于获取包含至少一个特征信息的交易数据;
预处理模块,用于对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;
第一训练模块,用于基于孤立森林模型训练所述第一数据集以获得孤立树;
判断模块,用于基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;
信息筛选模块,用于若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
模型构造模块,用于若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型。
优选的,所述装置还包括:
特征缩放模块,用于对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息;
第二训练模块,用于基于孤立森林模型训练所述第二数据以获得孤立树。
优选的,所述预处理模块包括:
特征获取单元,用于获取分类变量型的特征信息;
数据转化单元,用于将该分类变量型的特征信息转化成数值变量型的特征信息。
优选的,所述第一训练模块包括:
第一选择单元,用于从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
第二选择单元,用于选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
比较单元,用于将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
优选的,所述装置还包括:
第二获取模块,用于从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠;
验证模块,用于将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数;
第一计算模块,用于根据所述异常分数计算多个所述样本信息的准确率和召回率;
第二计算模块,用于根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
模型评价模块,用于根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
依据本发明的另一个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项所述的异常交易识别模型的构造方法。
依据本发明的另一个方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的异常交易识别模型的构造方法。
上述异常交易识别模型的构造方法,充分利用机器学习算法的自学习能力,降低人为的主观认识影响,采用孤立森林模型构造异常交易识别模型可以提高识别筛选客观性与准确性;同时通过基于假定检验的反向淘汰算法优化模型,可以降低模型复杂度,减少训练模型所需时间,也可以有效避免模型对第一数据集产生过拟合,提高模型的普适性和有效性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种异常交易识别模型的构造方法流程图;
图2为本发明实施例中孤立森林的生成流程图;
图3为本发明另一实施例中一种异常交易识别模型的构造方法流程图;
图4为本发明另一实施例中一种异常交易识别模型的构造方法流程图;
图5为本发明实施例中一种异常交易识别模型的构造装置结构示意图;
图6为本发明另一实施例中一种异常交易识别模型的构造装置结构示意图;
图7为本发明实施例提供的计算机设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种异常交易识别模型的构造方法,如图1所示,所述方法包括:
步骤101,获取包含至少一个特征信息的交易数据。在本步骤中,特征信息为与交易相关的信息类型,例如,交易时间、交易地点、交易金额、交易频率等。而交易数据为在交易发生时,记录与此次交易相关的一个或多个特征信息。该交易数据可以由交易双方的任何一方记录或双方同时记录,当然也可以由不属于交易双方的独立第三方记录。
步骤102,对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易。
以具体的实施方式为例对所有交易数据进行预处理进行阐述。其中,步骤100中的交易数据由服务器向记录交易数据的一方或多方获取,记录交易数据的一方或多方均可以称为记录方。如果由交易双方的其中一方或独立第三方记录时,那么本步骤中,服务器直接向记录方获取交易数据即可。
在另一具体的实施例中,如果交易数据由两方或两方以上记录时,服务器向至少两记录方获取交易数据,并比较两方所记录的交易数据是否一致;若一致,则选择任意一方所记录的交易数据来进行模型构造;若不一致,则对不一致的信息进行记录以用于后续处理,例如人工审核或报警等。
当接收到交易数据后,如果所述交易数据缺失部分或全部特征信息时,则从一方所记录的交易数据中调取缺失的特征信息并补齐所述交易记录。以信用卡交易为例,当信用卡或者刷卡设备记录均记录了某笔交易时,信用卡记录的该笔交易中特征信息为交易时间的交易记录缺失,那么可以调取刷卡设备中记录的该笔交易的交易时间并补齐以获得完整的交易记录。或用缺失的所述特征信息的平均值填充缺失的特征信息。仍以信用卡交易为例,信用卡记录的该笔交易中特征信息为交易时间的交易记录缺失,则利用该信用卡每次记录的交易时间的平均值作为该笔交易的交易时间以填充该空缺内容,避免因交易数据不一致或缺失影响模型拟合的准确性。
在一具体的实施例中,当交易数据预处理完成后通过矩阵的形式来将交易数据进行划分,该矩阵称为数据集矩阵。具体而言,数据集矩阵具有M行N列,其中,行信息表征样本信息,一行所述样本信息表征一次交易;列信息表征所述特征信息,也就是说,该数据集矩阵中具有M行样本信息,即M次交易,在每一次交易中具有N个特征信息,因而可以组成M*N数据集矩阵。
其中,从所述数据集矩阵中确定第一数据集,该第一数据集为用于训练所需模型的输入,第一数据集具有和数据集矩阵相同的结构,即行信息表征样本信息,列信息表征所述特征信息,也就是说,从数据集矩阵中确定第一数据集时,并不改变数据集矩阵的格式。第一数据集的大小需要针对模型构造的需求进行选择,通常情况下,可以选择50%~100%的数据集矩阵作为第一数据集,较佳的实施例中,选择80%的数据集矩阵中作为第一数据集不会影响模型的构造,也可以留有部分未使用的数据作为后续验证所述模型。具体的选择方法中,由于该数据集矩阵具有M行N列,因此以数据集矩阵的行信息为基准,从M行中挑选J行样本信息,即J次交易,所述挑选可以从M行中随机挑选或依序挑选,均可以实现本方案。
步骤103,基于孤立森林模型训练所述第一数据集以获得孤立树。
孤立森林(Isolation Forest,iForest)模型一般用于检测分布稀疏且距离密度高的群体较远的离群点。从统计学的角度来看,分布稀疏的区域表示数据落在该区域的概率较低,因此认为分布在这些区域里的数据是异常的,异常交易属于发生频率较低的低概率事件,因此本发明实施例所述的方案通过孤立森林模型进行孤立森林的训练更适用于检测交易异常的场景。孤立森林由多个孤立树(Isolation Tree,iTree)构成。孤立树是一种随机二叉树,每个节点要么有两个子节点,要么自身就是叶子节点。在进行训练前,设定孤立树的最大高度为H,将训练集传入孤立树构造函数,返回对象为训练完成的孤立树,将训练好的所有孤立树并成一个合集即可以构造成一个孤立森林。在本方案中,所述训练集就是第一数据集。
步骤104,基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小。在本步骤中,当训练好一个孤立森林后需要筛选特征信息,也就是对特征信息影响模型判断结果进行假设检验,将对模型的判断结果影响微小或者不影响的所述特征进行剔除,以提高孤立森林的准确性。其中,在本步骤中需要分别获得所有特征信息所对应的假定值,假定值P-value采用假定检验中的P值法获得。然后再比较假定值的大小以找出最高假定值,最高假定值pmax为最大的假定值P-value,第一阈值S根据检验需要确定,例如第一阈值S设为0.05。
步骤105,若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
步骤106,若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型。
具体的,若pmax大于等于S,代表pmax对应的特征信息的抽样误差较大,因此将pmax对应的特征信息剔除出第一数据集,再用剔除该特征信息的第一数据集重新训练孤立树;若pmax小于S,则证明孤立树已经训练完毕且达到最优,将所有孤立树集合成一个孤立森林,基于上述实施方式所述的步骤进行孤立森林的构建也就意味着所述异常交易识别模型构造完成。
本发明实施例上述模型构造方法,充分利用机器学习算法的自学习能力,降低人的主观认识影响,采用孤立森林模型构造异常交易识别模型可以提高识别筛选客观性与准确性;同时通过基于假定检验的反向淘汰算法优化模型,可以降低模型复杂度,减少训练模型所需时间,也可以有效避免模型对第一数据集产生过拟合,提高模型的普适性和有效性。
较佳的实施例中,如图2所示,为孤立森林的生成流程。其包括如下步骤:
步骤201,初始化孤立森林模型;具体的,初始化孤立森林模型包括,将孤立森林设置为空集,以及设定相关变量。在本发明实施中,需要设定的相关变量有两个:1、每个孤立树训练集的大小n;2、构成森林的孤立树的数量t。较佳的实施例中,当训练集的大小,即样本信息为256左右,即256次交易,且训练次数为100次时,检测性能与模型复杂度的综合平衡处于最优,故设n=256,t=100。
步骤202,判断已生成的孤立树的个数m是否大于等于t;
步骤203,当已生成的孤立树m的个数大于等于t时,则返回孤立森林模型。
步骤204,当已生成的孤立树m的个数小于t时,则继续训练孤立树。
步骤205,将训练好的孤立树加入孤立森林模型中集合。
在另一具体的实施方式中,如图3所示,为本发明实施例所提供的基于最高假定值进行反向淘汰的方法流程图。具体的,基于孤立森林模型训练所述第一数据集以获得孤立树前,所述方法还包括如下步骤:
步骤301,设定第一阈值S。其中,第一阈值S为判断显著性水平的阈值,一般以S<0.05为显著,S<0.01为非常显著作为标准,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01,在本方案中将第一阈值S设定为0.05。随后训练所述第一数据集以获得孤立树。
步骤302,获取当前第一数据集的特征信息fi对应的假定值(P-value)。具体的,P-value为假定值或假设机率。用SAS、SPSS等专业统计软件进行假设检验。
步骤303,筛选P-value最大的作为最高假定值pmax。
步骤304,判断所述最高假定值pmax是否大于等于第一阈值S。
步骤305,若否,模型构造完毕,结束孤立树训练。
步骤306,若是,则将pmax对应的特征信息剔除出第一数据集;
步骤307,将剔除该特征信息的第一数据集重新训练孤立树,后返回步骤302。
在一具体的实施例中,获取当前使用的所有特征信息交易金额fa、交易时间fb、是否属于贵宾级fc对应的假定值P-value分别为pa、pb、pc。假设pc=0.4为三个P-value中的最大值,则最高假定值pmax=0.4,因pmax大于第一阈值S=0.05,则将pmax对应的特征信息是否属于贵宾级fc从第一数据集中剔除。然后用仅包含交易金额fa与交易时间fb的第一数据集,去训练孤立树。若新的孤立树的所有特征值对应的假定值P-value(pa、pb)均小于S=0.05,那么pmax小于第一阈值S,则表示训练完成,此时将所有孤立树集合后构成的孤立森林即可作为识别异常交易的异常交易识别模型。
本发明实施例所述的一种异常交易识别模型的构造方法,较佳的,确定第一数据集后,所述方法还包括:
对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息,即对第一数据集内的所有数值变量型的特征信息进行特征缩放,有助于减少该模型因量纲差异而产生的误差。
具体的实施方法中,此处将使用标准化(Standardization)方法进行特征缩放,即对每一列特征信息,计算该列特征信息内特征值的平均数mean(X)及标准差SD(X),并对每一项特征值x,通过如下公式进行转换:
基于孤立森林模型训练所述第二数据以获得孤立树。具体的,在本实施例中将第一数据集中数值变量型的特征信息进行特征缩放后得到第二数据,使得该第二数据为标准化的数据,并将该特征缩放后的第二数据带入孤立森林模型中进行训练以获得孤立树,以减少第一数据因量纲差异而产生的误差。
本发明实施例所述的一种异常交易识别模型的构造方法,较佳的,对所述交易数据进行预处理以生成数据集矩阵包括:
获取分类变量型的特征信息;其中,分类变量(categorical variable)指按照现象的某种属性对其进行分类或分组而得到的反映事物类型的非连续变量。例如,某列特征信息f表示该信用卡的等级,分为“普通级”与“贵宾级”,则该列特征信息属于分类变量型的特征信息。
将该分类变量型的特征信息转化成数值变量型的特征信息。
为了使得本发明实施例所述的识别模型的识别误差更低,本实施例中采用将分类变量型的特征信息转换为数值变量型的特征信息,以便进行特征缩放,进而提高该模型识别的精准度。
较佳的,采用独热编码将分类变量型的特征信息转化成数值变量型的特征信息。其中,独热编码(One-Hot Encoding)指将分类变量转换为独热向量的过程,独热向量仅有一个维度的值为1,其余为0,比如[0 0 1 0 0]即为5维空间中的一组独热向量。在一具体的实施方式中,仍以某列特征信息f表示该信用卡的等级为例进行说明。当信用卡等级的特性信息f包括“普通级”与“贵宾级”两类时,将分类变量型的特征信息f替换为两列数值变量型的特征信息f1及f2,以达到取代原一列分类变量型的特征信息f。其中,f1及f2分别表示属于“属于普通级”和“属于贵宾级”。较佳的实施例中,如下表一所示,其中,将“普通级”的分类变量“属于普通级”一列f1的真值设为1,则“属于贵宾级”一列f2的真值设为0,那么“贵宾级”的分类变量的刚好与其相反。因此,如果原分类变量型的特征信息为“贵宾级”,则数值变量型的特征信息f1值为0,数值变量型的特征信息f2值为1。通过上述方法,达到将该分类变量型的特征信息转化成数值变量型的特征信息。
表一特征信息转化示例
f f1 f2
普通级 1 0
贵宾级 0 1
贵宾级 0 1
普通级 1 0
普通级 1 0
普通级 1 0
本发明实施例所述的一种异常交易识别模型的构造方法,较佳的,如图4所示,基于孤立森林模型训练所述第一数据集以获得孤立树包括:
步骤401,从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
步骤402,选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
步骤403,将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
以一具体的实施方式为例对上述步骤进行展开。再本实施方式中,假设已收集256个交易作为样本信息,每次交易的交易数据中均包含交易金额fa、交易时间fb、是否属于贵宾级fc共3种特征变量,设定孤立树的最大高度H为6,总共所需孤立树个数为100。
随机选取一列特征信息作为训练标准,例如选择交易金额这一特征信息来进行训练,即令F=fa
从256行交易信息中所对应的256个交易金额特征信息中,找出最大特征值(假设为1,000元)及最小特征值(假设为10元)。
随后在10~1000的区间里随机选取一个值a(假设为98元),作为划分值。
逐个对256个交易金额的大小与划分值a作比较,若大于等于a则该交易金额划分入右子节点;若小于a则划分入左子节点,直到256个交易金额完全被分至左、右两个子节点。假设此时有156个交易金额被划入左子节点,100个交易金额被划入右子节点,此时孤立树的高度为1,因此继续分别对左、右子节点的交易金额继续进行划分,直到孤立树的高度为6,则停止划分,视为完成一个孤立树的训练。
当训练完100个孤立树后,将所有孤立树合并入一个集合,该集合即为孤立森林。
本发明实施例所述的一种异常交易识别模型的构造方法,较佳的,所述方法还包括:
从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠。其中第二数据集即为测试集。测试集和训练集可以按照2:8的比例将数据集矩阵进行划分。
较佳的实施例中,对第二数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息,即对第一数据集内的所有数值变量型的特征信息进行特征缩放,有助于减少该模型因量纲差异而产生的误差。
将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数。
具体的实施例中,设从孤立树的根部到某个叶子的距离为h,则h(X)=e+c(n)。e为返回时叶子节点所在高度;c(n)为正则项,c(n)通过如下确认:
其中H(i)=ln(i)+0.577.
则第二数据集中的任一样本信息X的异常分数为:
其中E(h(x))表示所有孤立树的h(X)的平均值,当E(h(X))越大,异常分数越接近0,表示样本是正常的概率越高;当E(h(X))越接近0,异常分数越接近1,表示样本是异常的概率更高。
根据所述异常分数计算多个所述样本信息的准确率和召回率;
根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
具体而言,区分正常/异常交易本质上是一个二分类问题,所以本发明实施例选择适合二分类任务的宏平均F1值作为模型的评测指标,因此上述步骤的计算过程表示如下:
其中,平均表示真阳率,即正样本被成功预测为正样本;/>表示平均假阳率,即负样本被预测为正样本。/>表示平均假阴率,即正样本被预测为负样本。该过程相当于首先计算每一个样本信息的准确率和召回率,取平均值得到平均准确率和平均召回率,最后计算得到F1值,其中,所述异常交易识别模型训练到评测指标F1收敛即可达到评价对象的目的,随后结束评价。
在本发明一实施例中,利用上述模型识别异常交易的过程中,例如,一笔信用卡交易发生时,将该笔交易相关的信息(如交易时间、交易地点、交易金额、交易间隔时间等)输入到已经构造的异常交易识别模型中,经过模型计算得出是否属于异常交易。
本发明实施例还提供一种异常交易识别模型的构造装置,如图5所示,包括:
第一获取模块501,用于获取包含至少一个特征信息的交易数据;
预处理模块502,用于对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;
第一训练模块503,用于基于孤立森林模型训练所述第一数据集以获得孤立树;
判断模块504,用于基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;
信息筛选模块505,用于若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
模型构造模块506,用于若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型构造异常交易识别模型。
本发明实施例所述的一种异常交易识别模型的构造装置,较佳的,所述装置还包括:
特征缩放模块,用于对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息;
第二训练模块,用于基于孤立森林模型训练所述第二数据以获得孤立树。
本发明实施例所述的一种异常交易识别模型的构造装置,较佳的,所述预处理模块包括:
特征获取单元,用于获取分类变量型的特征信息;
数据转化单元,用于将该分类变量型的特征信息转化成数值变量型的特征信息。
本发明实施例所述的一种异常交易识别模型的构造装置,较佳的,所述第一训练模块包括:
第一选择单元,用于从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
第二选择单元,用于选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
比较单元,用于将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
本发明实施例所述的一种异常交易识别模型的构造装置,较佳的,如图6所示,所述装置还包括:
第二获取模块601,用于从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠;
验证模块602,用于将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数;
第一计算模块603,用于根据所述异常分数计算多个所述样本信息的准确率和召回率;
第二计算模块604,用于根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
模型评价模块605,用于根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上任一项具体实施方式所述的异常交易识别模型的构造方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行计算机程序,所述计算机程序被处理器执行时实现如上任一项具体实施方式所述的异常交易识别模型的构造方法。
本发明实施例所述的异常交易识别模型的构造方法、装置,充分利用机器学习算法的自学习能力,降低人的主观认识影响,采用孤立森林模型构造异常交易识别模型可以提高识别筛选客观性与准确性;同时通过基于假定检验的反向淘汰算法优化模型,可以降低模型复杂度,减少训练模型所需时间,也可以有效避免模型对第一数据集产生过拟合,提高模型的普适性和有效性。
如图7所示为本文实施例节点的结构示意图,计算设备702可以包括一个或多个处理设备704,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算设备702还可以包括任何存储资源706,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储资源706可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储资源都可以使用任何技术来存储信息。进一步地,任何存储资源可以提供信息的易失性或非易失性保留。进一步地,任何存储资源可以表示计算设备702的固定或可移除部件。在一种情况下,当处理设备704执行被存储在任何存储资源或存储资源的组合中的相关联的指令时,计算设备702可以执行相关联指令的任一操作。计算设备702还包括用于与任何存储资源交互的一个或多个驱动机构708,诸如硬盘驱动机构、光盘驱动机构等。
计算设备702还可以包括输入/输出模块710(I/O),其用于接收各种输入(经由输入设备712)和用于提供各种输出(经由输出设备714))。一个具体输出设备可以包括呈现设备716和相关联的图形用户接口(GUI)718。在其他实施例中,还可以不包括输入/输出模块710(I/O)、输入设备712以及输出设备714,仅作为网络中的一台计算设备。计算设备702还可以包括一个或多个网络接口720,其用于经由一个或多个通信链路722与其他设备交换数据。一个或多个通信总线724将上文所描述的部件耦合在一起。
通信链路722可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路722可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
还应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种异常交易识别模型的构造方法,其特征在于,所述方法包括:
获取包含至少一个特征信息的交易数据;
对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;
基于孤立森林模型训练所述第一数据集以获得孤立树;
基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;
若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型。
2.根据权利要求1所述的一种异常交易识别模型的构造方法,其特征在于,确定第一数据集后,所述方法还包括:
对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息;
基于孤立森林模型训练所述第二数据以获得孤立树。
3.根据权利要求2所述的一种异常交易识别模型的构造方法,其特征在于,对所述交易数据进行预处理以生成数据集矩阵包括:
获取分类变量型的特征信息;
将该分类变量型的特征信息转化成数值变量型的特征信息。
4.根据权利要求1所述的一种异常交易识别模型的构造方法,其特征在于,基于孤立森林模型训练所述第一数据集以获得孤立树包括:
从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
5.根据权利要求1所述的一种异常交易识别模型的构造方法,其特征在于,所述方法还包括:
从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠;
将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数;
根据所述异常分数计算多个所述样本信息的准确率和召回率;
根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
6.一种异常交易识别模型的构造装置,其特征在于,包括:
第一获取模块,用于获取包含至少一个特征信息的交易数据;
预处理模块,用于对所述交易数据进行预处理以生成数据集矩阵,并从所述数据集矩阵中确定第一数据集;所述数据集矩阵的行信息表征样本信息,所述数据集矩阵的列信息表征所述特征信息;一行所述样本信息表征一次交易;
第一训练模块,用于基于孤立森林模型训练所述第一数据集以获得孤立树;
判断模块,用于基于所述孤立树确定所述特征信息对应的假定值以及所述假定值中的最高假定值,并比较最高假定值与第一阈值的大小;
信息筛选模块,用于若所述最高假定值大于或等于所述第一阈值,则将所述最高假定值对应的所述特征信息剔除出所述第一数据集后重新训练所述第一数据集;
模型构造模块,用于若所述最高假定值小于所述第一阈值,则根据所述孤立树构造异常交易识别模型。
7.根据权利要求6所述的一种异常交易识别模型的构造装置,其特征在于,所述装置还包括:
特征缩放模块,用于对所述第一数据集中的第一数据进行特征缩放以得到第二数据;所述第一数据表征所述第一数据集中数值变量型的特征信息;
第二训练模块,用于基于孤立森林模型训练所述第二数据以获得孤立树。
8.根据权利要求7所述的一种异常交易识别模型的构造装置,其特征在于,所述预处理模块包括:
特征获取单元,用于获取分类变量型的特征信息;
数据转化单元,用于将该分类变量型的特征信息转化成数值变量型的特征信息。
9.根据权利要求6所述的一种异常交易识别模型的构造装置,其特征在于,所述第一训练模块包括:
第一选择单元,用于从第一数据集中选择任意一列特征信息并确定该特征信息的最大特征值和最小特征值;
第二选择单元,用于选择划分值,所述划分值为所述最大特征值和最小特征值之间的任意特征值;
比较单元,用于将该列特征信息中每一个特征值分别与所述划分值比较并根据比较结果构造孤立树。
10.根据权利要求6所述的一种异常交易识别模型的构造装置,其特征在于,所述装置还包括:
第二获取模块,用于从所述数据集矩阵中确定第二数据集,所述第二数据集与第一数据集中的样本信息不重叠;
验证模块,用于将所述第二数据集中的样本信息带入所述孤立森林模型中以获得所述样本信息的异常分数;
第一计算模块,用于根据所述异常分数计算多个所述样本信息的准确率和召回率;
第二计算模块,用于根据多个所述样本信息的准确率和召回率获得平均准确率和平均召回率;
模型评价模块,用于根据所述平均准确率和平均召回率计算评价指标以评价所述异常交易识别模型。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的异常交易识别模型的构造方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的异常交易识别模型的构造方法。
CN202110352596.1A 2021-03-31 2021-03-31 异常交易识别模型的构造方法、装置、计算机设备和介质 Active CN112884480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110352596.1A CN112884480B (zh) 2021-03-31 2021-03-31 异常交易识别模型的构造方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110352596.1A CN112884480B (zh) 2021-03-31 2021-03-31 异常交易识别模型的构造方法、装置、计算机设备和介质

Publications (2)

Publication Number Publication Date
CN112884480A CN112884480A (zh) 2021-06-01
CN112884480B true CN112884480B (zh) 2024-02-02

Family

ID=76039801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110352596.1A Active CN112884480B (zh) 2021-03-31 2021-03-31 异常交易识别模型的构造方法、装置、计算机设备和介质

Country Status (1)

Country Link
CN (1) CN112884480B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722556B (zh) * 2021-08-04 2023-05-02 浙江大学 基于自适应数据域划分的保隐私范围查询方法
CN114677254A (zh) * 2022-03-17 2022-06-28 北京中交兴路信息科技有限公司 一种货车事故识别方法、装置、存储介质及程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置
CN112365338A (zh) * 2020-11-11 2021-02-12 平安普惠企业管理有限公司 基于人工智能的数据欺诈检测方法、装置、终端及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046665A (zh) * 2019-04-17 2019-07-23 成都信息工程大学 基于孤立森林二分类异常点检测方法、信息数据处理终端
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置
CN112365338A (zh) * 2020-11-11 2021-02-12 平安普惠企业管理有限公司 基于人工智能的数据欺诈检测方法、装置、终端及介质

Also Published As

Publication number Publication date
CN112884480A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107103171B (zh) 机器学习模型的建模方法及装置
Bensic et al. Modelling small‐business credit scoring by using logistic regression, neural networks and decision trees
CN111882446B (zh) 一种基于图卷积网络的异常账户检测方法
CN104794192B (zh) 基于指数平滑、集成学习模型的多级异常检测方法
US7386506B2 (en) Fraud score calculating program, method of calculating fraud score, and fraud score calculating system for credit cards
US6581043B1 (en) Routing number variable and indexes
CN112884480B (zh) 异常交易识别模型的构造方法、装置、计算机设备和介质
CN107545422A (zh) 一种套现检测方法及装置
CN110895758B (zh) 存在作弊交易的信用卡账户的筛选方法、装置及系统
CN109829721B (zh) 基于异质网络表征学习的线上交易多主体行为建模方法
JP7173332B2 (ja) 不正検知装置、不正検知方法および不正検知プログラム
US20220383322A1 (en) Clustering-based data selection for optimization of risk predictive machine learning models
CN111179089B (zh) 洗钱交易识别方法、装置和设备
Fan et al. Improved ML‐based technique for credit card scoring in Internet financial risk control
CN115205026A (zh) 信用评估方法、装置、设备及计算机存储介质
CN110992173A (zh) 一种基于多实例学习的信用风险评估模型生成方法
CN110991650A (zh) 训练养卡识别模型、识别养卡行为的方法及装置
CN116821688A (zh) 基于聚类下采样技术处理信用卡欺诈交易中数据集的方法
CN115965468A (zh) 基于交易数据的异常行为检测方法、装置、设备及介质
CN110458684A (zh) 一种基于双向长短期记忆神经网络的金融反欺诈检测方法
CN115204322A (zh) 行为链路异常识别方法和装置
Jing et al. Improving the data quality for credit card fraud detection
CN106682985A (zh) 一种金融诈骗识别方法和系统
AU2019101157A4 (en) Analysis for Clients Churn of Credit Cards in Model Construction in Banking Industry
CN110570301B (zh) 风险识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant