CN114140246A - 模型训练方法、欺诈交易识别方法、装置和计算机设备 - Google Patents

模型训练方法、欺诈交易识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN114140246A
CN114140246A CN202111486921.XA CN202111486921A CN114140246A CN 114140246 A CN114140246 A CN 114140246A CN 202111486921 A CN202111486921 A CN 202111486921A CN 114140246 A CN114140246 A CN 114140246A
Authority
CN
China
Prior art keywords
sample set
sample
sub
data
transaction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111486921.XA
Other languages
English (en)
Inventor
尚天顺
苏越
雷声渊
王蕊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111486921.XA priority Critical patent/CN114140246A/zh
Publication of CN114140246A publication Critical patent/CN114140246A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种模型训练方法、装置、计算机设备、存储介质和计算机程序产品。可用于金融领域中,欺诈交易检测模型的训练,也可用于除金融领域之外的任意领域,例如大数据领域。所述方法包括:确定目标模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得目标模型。采用本方法对模型进行训练可以解决数据集中数据不平衡的问题。

Description

模型训练方法、欺诈交易识别方法、装置和计算机设备
技术领域
本申请涉及金融领域,特别是涉及一种模型训练方法、欺诈交易识别方法、装置和计算机设备。
背景技术
信用卡的普及,方便了商家和用户,同时也导致了大量的交易欺诈案件。近年来,随着信用卡欺诈案件的频发以及信用卡欺诈损失的增加,出现了信用卡欺诈检测模型,用于检测出信用卡交易数据集中的欺诈交易数据。
目前的信用卡欺诈检测系统往往采用信用卡欺诈检测模型识别欺诈交易数据,该模型的训练过程包括将数据集划分为训练数据集和测试数据集,并对划分好的训练集进行训练得到相应的分类器,作为信用卡欺诈检测模型。
但是训练集存在数据不平衡的问题,即训练数据集中的欺诈交易数据占极小部分,而正常交易数据占绝大部分,例如,欺诈交易数据仅为训练数据集的0.17%,基于训练数据集进行模型训练所得的信用卡欺诈检测模型往往存在准确率偏低的问题,从而会导致信用卡欺诈检测系统的检测结果准确率较低。
发明内容
本申请提供一种模型训练方法、欺诈交易识别方法、装置和计算机设备,能够解决模型训练过程中数据不平衡的问题,从而对欺诈交易进行准确的识别。
第一方面,本申请提供了一种模型训练方法。该方法包括:
确定目标模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;
对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;
根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得目标模型。
在其中一个实施例中,根据原始训练样本集确定多数类样本集和少数类样本集,包括:确定原始训练样本集中每一样本的数据特性;若样本的数据特性为正常交易数据,则将样本归为多数类样本集;若样本的数据特性为欺诈交易数据,则将样本归为少数类样本集。
在其中一个实施例中,对多数类样本集进行样本划分,获得多个子样本集,包括:对多数类样本集执行子样本集划分操作;子样本集划分操作包括对多数类样本集进行随机不放回抽样,基于抽出样本构建子样本集;若当前子样本集中的样本数量满足预设值,则重复执行子样本集划分操作,直至多数类样本集中的所有样本被抽出。
在其中一个实施例中,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本,包括:基于数据相似性对子样本集中的数据进行聚类,获得子样本集的聚类中心数据以及聚类中心数据的近邻数据;根据聚类中心数据以及近邻数据构建子样本集对应的聚类样本。
在其中一个实施例中,对每一子样本集对应的平衡样本集进行训练,获得目标模型,包括:对每一子样本集对应的平衡样本集进行训练,获得多个分类器;将多个分类器中模型性能评估结果最佳的分类器,确定为目标模型。
在其中一个实施例中,模型训练方法还包括:获取交易数据,将交易数据输入目标模型,根据目标模型的输出确定交易数据是否为欺诈交易数据。
第二方面,本申请还提供了一种欺诈交易识别方法。该方法包括:
获取交易数据,将交易数据输入欺诈预测模型,欺诈预测模型是根据历史交易数据训练获得的;
根据欺诈预测模型的输出对交易数据进行欺诈交易识别。
在其中一个实施例中,欺诈预测模型的训练过程包括:确定欺诈预测模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;原始训练样本集为历史交易数据;对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得欺诈预测模型。
在其中一个实施例中,根据欺诈预测模型的输出对交易数据进行欺诈交易识别,包括:根据欺诈预测模型的输出确定交易数据中的欺诈交易数据;或,根据欺诈预测模型的输出确定交易数据为欺诈交易数据。
第三方面,本申请还提供了一种模型训练装置。该装置包括:
确定模块,用于确定目标模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;
划分模块,用于对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;
训练模块,用于根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得目标模型。
第四方面,本申请还提供了一种欺诈交易识别装置。该装置包括:
输入模块,用于获取交易数据,将交易数据输入欺诈预测模型,欺诈预测模型是根据历史交易数据训练获得的;
输出模块,用于根据欺诈预测模型的输出对交易数据进行欺诈交易识别。
第五方面,本申请还提供了一种计算机设备。该计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或第一方面任意一种可能的实现方式中所述的方法的步骤,以及实现上述第二方面以及第二方面任意一种可能的实现方式中所述的方法的步骤。
第六方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面或第一方面任意一种可能的实现方式中所述的方法的步骤,以及实现上述第二方面以及第二方面任意一种可能的实现方式中所述的方法的步骤。
第七方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面或第一方面任意一种可能的实现方式中所述的方法的步骤,以及实现上述第二方面以及第二方面任意一种可能的实现方式中所述的方法的步骤。
本申请提供了一种模型训练方法、装置、计算机设备和存储介质,可用于金融领域中,欺诈交易检测模型的训练,也可用于除金融领域之外的任意领域,例如大数据、云计算、区块链、人工智能、信息安全、物联网、5G技术领域,本申请提供的模型训练方法、装置、计算机设备和存储介质对应用领域不做限定。该方法可以将不平衡的样本集划分为训练样本集和测试样本集,将训练样本集划分为多数类样本集和少数类样本集,将多数类样本集划分为多个子样本集。然后对每一个子样本集进行聚类,获取聚类中心的近邻样本,与少数类样本集合并为一个子样本集对应的平衡样本集。接着对每一个子样本集对应的平衡样本集进行训练,以获得目标模型。基于上述方法训练出的目标模型可以作为欺诈预测模型,将历史交易数据输入至欺诈预测模型中,可以输出对历史交易数据的欺诈交易识别结果。可见,本申请可以对多数类样本集进行划分,得到多个子样本集,从而初步减少多数类样本集中数据的数量。然后再对每一个子样本集进行聚类,以进一步减少多数类样本集中数据的数量,达到了平衡多数类数据和少数类数据的比例的效果,解决了数据集中数据不平衡的问题,从而能够解决模型训练过程中数据不平衡导致模型准确率下降的问题。尤其是应用于金融领域进行欺诈交易数据检测时,能够平衡正常交易样本和欺诈交易样本的比例,解决交易数据不平衡的问题,从而提高模型检测欺诈交易数据的准确率。
附图说明
图1为一个实施例中模型训练方法的流程示意图;
图2为一个实施例中平衡训练集的构建示意图;
图3为一个实施例中模型训练方法的另一流程示意图;
图4为一个实施例中模型训练方法的另一流程示意图;
图5为一个实施例中模型训练方法的另一流程示意图;
图6为一个实施例中模型训练方法的另一流程示意图;
图7为一个实施例中分类器的ROC曲线图;
图8为一个实施例中欺诈交易识别方法的流程示意图;
图9为一个实施例中欺诈交易识别方法的另一流程示意图;
图10为一个实施例中欺诈交易识别方法的另一流程示意图;
图11为一个实施例中模型训练装置的结构框图;
图12为一个实施例中欺诈交易识别装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的模型训练方法,可以应用于金融领域中,欺诈交易检测模型的训练,也可以应用于其他存在数据集不平衡问题的模型训练中,本申请对此不作限制。
目前的模型训练方法往往直接对样本集进行训练,得到相应的模型,但是当样本集为不平衡的数据集时,该模型训练方法无法解决数据不平衡的问题,从而使得模型的输出结果的准确率较低。
基于此,本申请提出一种模型训练方法,能够解决数据集不平衡的问题,保证模型输出结果的准确性。图1为本申请实施例提供的模型训练方法的流程示意图,以该方法应用于交易欺诈检测为例进行说明,包括以下步骤:
步骤101、确定目标模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;
本申请实施例为了解决数据集不平衡的问题,首先可以确定导致原始训练样本集不平衡的两类数据,即确定原始训练样本集中的多数类样本集和少数类样本集。
其中,多数类样本集为原始训练样本集中,样本数量占绝大部分的一类样本;少数类样本集为原始训练样本集中,样本数量占极少部分的一类样本,也即为目标模型需要输出的一类样本。
具体实现中,可以根据数据的特征将原始训练样本集划分为多数类样本集和少数类样本集。例如,可以根据数据的时间特征将时间阈值之前的数据划分至多数类样本集中,将时间阈值之后的数据划分至少数类样本集中;还可以根据数据的位置特征将数据集中距离某点较远的数据划分为多数类样本集中,将距离该点较近的数据划分为少数类样本集中。本申请对此不做限制。
步骤102、对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;
本申请实施例可以通过减少多数类样本集中的数据数量,使得多数类样本集的数据数量和少数类样本集的数据数量相当,从而达到数据平衡的效果。
一种可能的实现方式中,对多数类样本集进行样本划分,划分为多个子样本集时,可以将多数类样本集中的数据按照顺序,依次将一定数量的样本划分为多个子样本集。例如对包含1000个样本的多数类样本集进行划分,划分为10个子样本集时,可以按照上述1000个样本的顺序,将前100个样本划分为第一个子样本集,将第101到第200个样本划分为第二个子样本集,对后续样本依次进行划分,直至将后100个样本划分为第十个样本集为止;也可以对多数类样本集中的数据进行随机抽样,将抽到的数据依次划分至多个子样本集中。例如,对包含1000个样本的多数类样本集进行随机抽样,将随机抽到的数据划分至第一个子样本集中,直至第一个子样本集中的数据数量达到预设值为止,即第一个子样本集中的数据数量达到100为止。继续对多数类样本集进行随机抽样,并将随机抽到的数据划分至第二个子样本集中,直至第二个子样本集中的数据数量达到预设值为止。依次将随机抽样得到的数据划分至后续的子样本集中,直至第十个子样本集中的数据数量达到预设值,则划分完毕。
一种可能的实现方式中,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本时,可以对每一个子样本集进行聚类处理,获得聚类处理后的子样本集中的部分数据,作为每一个子样本集对应的聚类样本。例如,可以取聚类处理后的子样本集中的聚类中心的数据,作为该子样本集的聚类样本;也可以取聚类处理后的子样本集中的聚类中心的近邻样本,作为该子样本集的聚类样本。
步骤103、根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得目标模型。
具体实现中,如图2所示,本申请实施例可以将上述获取的每一个子样本集对应的聚类样本分别与少数类样本集进行合并,从而构建出每一个子样本集对应的平衡样本集。然后分别对上述多个平衡样本集进行训练,得到多个分类器,对多个分类器进行筛选处理,得到最终的分类器,即为目标模型。其中,平衡样本集的数量和子样本集的数量相同。
本申请实施例提供的模型训练方法,可以将不平衡的样本集划分为训练样本集和测试样本集,将训练样本集划分为多数类样本集和少数类样本集,将多数类样本集划分为多个子样本集。然后对每一个子样本集进行聚类,获取聚类中心的近邻样本,与少数类样本集合并为一个子样本集对应的平衡样本集。接着对每一个子样本集对应的平衡样本集进行训练,以获得目标模型。可见,本申请可以对多数类样本集进行划分,得到多个子样本集,从而初步减少多数类样本集中数据的数量。然后再对每一个子样本集进行聚类,以进一步减少多数类样本集中数据的数量,达到了平衡多数类数据和少数类数据的比例的效果,解决了数据集中数据不平衡的问题,从而能够解决模型训练过程中数据不平衡导致模型准确率下降的问题。尤其是应用于金融领域进行欺诈交易数据检测时,能够平衡正常交易样本和欺诈交易样本的比例,解决交易数据不平衡的问题,从而提高模型检测欺诈交易数据的准确率。
前文所述的实施例中介绍了将原始训练样本集划分为多数类样本集和少数类样本集的方案。在本申请的另一实施例中,可以根据数据特性将原始训练样本集划分为多数类样本集和少数类样本集。例如,前文涉及的“根据原始训练样本集确定多数类样本集和少数类样本集”,以该方法应用于交易欺诈检测为例进行说明,具体步骤如图3所示:
步骤301、确定原始训练样本集中每一样本的数据特性;
其中,原始训练样本集包括多个交易数据;每一个交易数据可以包括该交易的交易日期、交易金额以及交易类别(即正常交易或欺诈交易)等信息。
具体实现中,可以根据原始训练样本集中的数据的交易类别信息,判断原始训练样本集中的数据为正常交易数据或者欺诈交易数据。具体的,依次获取原始训练样本集中,每一个样本数据的交易类别信息,若该样本数据的交易类别为正常交易,则确定该样本数据的数据特性为正常交易数据;若该样本数据的交易类别为欺诈交易,则确定该样本数据的数据特性为欺诈交易数据。
步骤302、若样本的数据特性为正常交易数据,则将样本归为多数类样本集;
由于一个信用卡交易数据集中,正常交易数据占绝大部分,因此,可以将正常交易数据归为多数类样本集。
具体的,在依次确定原始训练样本集中数据的数据特性时,若确定样本数据的数据特性为正常交易数据,则将该样本数据归为多数类样本集中,作为多数类样本集中的一个数据。
步骤303、若样本的数据特性为欺诈交易数据,则将样本归为少数类样本集。
由于一个信用卡交易数据集中,欺诈交易数据占极小部分,因此,可以将欺诈交易数据归为少数类样本集。
具体的,在依次确定原始训练样本集中数据的数据特性时,若确定样本数据的数据特性为欺诈交易数据,则将该样本数据归为少数类样本集中,作为少数类样本集中的一个数据。
本申请实施例提供了将原始训练样本集划分为多数类样本集和少数类样本集的方法,具体的,可以根据交易数据的交易类别信息,确定交易数据的数据特性,若交易数据的交易类别为正常交易,则该交易数据的数据特性即为正常交易数据;若交易数据的交易类别为欺诈交易,则该交易数据的数据特性即为欺诈交易数据。然后根据交易数据的数据特性对交易数据进行归类,若交易数据的数据特性为正常交易数据,则将该交易数据划分至多数类数据集中;若交易数据的数据特性为欺诈交易数据,则将该交易数据划分至少数类数据集中。可见,本申请可以根据数据特性对原始训练集中的每一个样本数据进行分类,使得对样本数据的分类结果较为准确,进一步的,基于该准确的多数类样本集得到的目标模型的准确率也较高。
前文所述的实施例中介绍了将多数类样本集划分为多个子样本集的方案。在本申请的另一实施例中,可以采用随机不放回抽样的方法将多数类样本集划分为多个子样本集。例如,前文涉及的“对多数类样本集进行样本划分,获得多个子样本集”,具体包括如图4所示的步骤:
步骤401、对多数类样本集执行子样本集划分操作;子样本集划分操作包括对多数类样本集进行随机不放回抽样,基于抽出样本构建子样本集;
本申请实施例为了解决原始训练样本集的数据不平衡的问题,可以减少多数类样本集中样本数据的数量。
具体实现中,可以对多数类样本集进行划分,划分为多个子样本集。具体的,可以对多数类样本集中的样本数据进行随机抽样,将随机抽出的样本数据归为其中一个子样本集中。然后继续对多数类样本集中剩下的样本数据进行随机抽样,将抽出的样本数据归为上述子样本集中,重复上述步骤,对多数类样本集中的样本数据进行随机不放回抽样,基于抽出的样本构建子样本集。
步骤402、若当前子样本集中的样本数量满足预设值,则重复执行子样本集划分操作,直至多数类样本集中的所有样本被抽出。
具体实现中,若当前正在构建的子样本集中,样本数据的数量达到了预设值,则该子样本集构建完毕;然后,对剩下的多数类样本集中的样本数据进行随机不放回抽样,并将抽出的样本归为另一个子样本集中,直至该子样本集构建完毕。重复执行上述子样本集划分操作,直至多数类样本集中的所有样本被抽出,并归为相应的子样本集中,则所有的子样本集构建完毕。
例如,多数类样本集中包含98个样本数据,对该98个样本数据进行随机抽样,将抽出的样本数据归为第一个子样本集中,然后对剩下的97个样本进行随机抽样,并将抽出的样本归位第一个子样本集中,重复上述随机不放回抽样的过程,直至第一个子样本集中的样本数据数量达到预设的10个,则第一个子样本集构建完毕。对多数类样本集中剩下的88个样本数据进行重复的随机不放回抽样,并将抽出的样本归为第二个子样本集中,直至第二个子样本集中的样本数据数量达到预设的10个,则第二个子样本集构建完毕。重复上述子样本集构建过程,直至多数类样本集中98个样本数据全部抽样并划分完毕,则多数类样本集对应的多个子样本集的构建完毕。
一种可能的实现方式中,当每构建完毕一个子样本集,可以监测多数类样本集中剩下的样本数据的数量,若剩下的样本数据的数量小于或等于预设值,则直接构建另外一个子样本集,并将剩下的样本数据归为该子样本集中,至此,多数类样本集对应的多个子样本集构建完毕。
例如,对上述包含98个样本数据的多数类样本集进行子样本集划分操作,且每一个子样本所能包含的最大样本数据数量为10时,采用随机不放回抽样法依次对每一个子样本进行构建。当第九个子样本集构建完毕后,对多数类样本集进行监测,当监测到多数类样本集中剩下的样本数据的数量为8时,直接将上述8个样本数据归为第十个子样本集中。至此,多数类样本集对应的多个子样本集构建完毕。
本申请实施例提供了将多数类样本集划分为多个子样本集的方法,具体的,可以对多数类样本集进行重复的随机不放回抽样,并将抽出的样本数据归为其中一个子样本集中,直至该子样本集中的样本数据的数量达到预设值,则该子样本集构建完毕。重复上述子样本集构建过程,直至多数类样本集中所有的样本数据抽样且划分完毕,则多数类样本集对应的多个子样本集构建完毕。可见,本申请实施例可以采用随机不放回抽样的方法构建多数类样本集对应的多个子样本集,减少了多数类样本集中样本数据的数量,平衡了多数类样本和少数类样本的比例,从而使得基于上述划分后的子样本集得到的目标模型的准确率较高。
前文所述的实施例中介绍了对每一个子样本集进行聚类处理,获得每一个子样本集对应的聚类样本的方案。在本申请的另一实施例中,可以根据数据相似性对每一个子样本集进行聚类处理,并取每一个子样本集中部分样本作为每一个子样本集对应的聚类样本。例如,前文涉及的“对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本”,具体包括如图5所示的步骤:
步骤501、基于数据相似性对子样本集中的数据进行聚类,获得子样本集的聚类中心数据以及聚类中心数据的近邻数据;
将多数类样本集划分为多个子样本集后,每一个子样本集的样本数据的数量相较于少数类样本集中样本数据的数量依旧较多,因此,可以对每一个子样本集进行聚类,取聚类后的子样本集中的部分样本数据,以替换该子样本集,从而进一步减少少数类样本的数量。
具体实现中,可以根据数据相似性对每一个子样本集进行聚类,以数据之间的距离代表两个数据之间的相似性,距离较小的两个数据之间,相似度较高;距离较大的两个数据之间的相似性较低。
具体的,可以先确定子样本集的k个聚类中心,然后依次计算子样本集中每一个样本数据到k个聚类中心的距离,并将样本数据归为距离最小的聚类中心的类簇中。直至子样本集中所有的样本数据归类完毕,则重新计算k个类簇的聚类中心,以对每一个类簇的聚类中心进行更新。重复上述过程,直至每一个类簇的聚类中心不再改变,则表明对该子样本集的聚类结束。然后,确定聚类完毕后的子样本集的k个聚类中心,并获取上述k个聚类中心的数据以及聚类中心的近邻数据。
其中,聚类中心的近邻数据可以为聚类中心的四邻域样本数据,也可以为聚类中心的八邻域样本数据,只要获取的子样本集对应的聚类样本中,样本数量和少数类样本集中的样本数量相当即可。
步骤502、根据聚类中心数据以及近邻数据构建子样本集对应的聚类样本。
具体实现中,将上述获取的子样本集的k个聚类中心数据以及每一个聚类中心的近邻数据合并为一个数据集,即为该子样本集对应的聚类样本。
本申请实施例提供了对子样本集进行聚类,以构建聚类样本的方法,具体的,计算子样本集中每一个样本数据到预先设定的k个聚类中心的距离,将样本数据归为距离最近的聚类中心所属的类簇中,直至所有样本数据归类完毕,重新计算每一个类簇的聚类中心。重复上述步骤,对子样本集中每一个类簇的聚类中心进行更新,直至聚类中心不再发生改变。则取每一个聚类中心的数据以及聚类中心的近邻数据,以作为该子样本集对应的聚类样本。可见,本申请实施例可以对每一个子样本集进行聚类,并取聚类中心的近邻样本作为该子样本集对应的聚类样本,进一步减少了多数类样本的数量,平衡了多数类样本和少数类样本之间的比例,解决了数据集不平衡的问题。另外,取聚类中心的近邻样本作为子样本集对应的聚类样本,保证了聚类样本的代表性,避免了大量潜在样本的丢弃。进一步的,基于该聚类样本得到的目标模型的准确性也较高。
前文所述的实施例中介绍了对每一个平衡样本集进行训练,获得目标模型的方案。在本申请的另一实施例中,可以将基于多个平衡训练集训练得到的多个分类器中,性能最好的的分类器确定为目标模型。例如,前文涉及的“对每一子样本集对应的平衡样本集进行训练,获得目标模型”,具体包括如图6所示的步骤:
步骤601、对每一子样本集对应的平衡样本集进行训练,获得多个分类器;
具体实现中,可以利用决策树算法对平衡样本集进行训练,从而得到平衡样本集对应的分类器;也可以利用朴素贝叶斯算法对平衡样本集进行训练,从而得到平衡样本集对应的分类器;还可以利用神经网络算法对平衡样本集进行训练,从而得到平衡样本集对应的分类器。本申请对此不做限制。
其中,对多个分类器进行训练的方法应该相同。
其中,分类器用于对样本集中的多数类样本和少数类样本进行识别,并识别出的少数类样本将输出。且分类器的数量和平衡样本集的数量相同,即分类器的数量和多数类样本集划分的子样本集的数量相同。
步骤602、将多个分类器中模型性能评估结果最佳的分类器,确定为目标模型。
具体实现中,分别对上述训练得到的多个分类器进行性能评估,将其中性能最好的分类器确定为目标分类器。
一种可能的实现方式中,分别将多组不同的测试样本输入至一个分类器中,记录每一个测试样本对应的输出结果,并确定每一个测试样本对应的输出结果的准确率。计算多个测试样本对应的输出结果的准确率的均值,即为该分类器的准确率。基于上述多组测试样本依次对每一个分类器进行评估测试,从而计算出每一个分类器的准确率。将其中准确率最高的分类器确定为目标模型。
一种可能的实现方式中,可以利用接收者操作特征曲线(receiver operatingcharacteristic curve,ROC)测试分类器的性能。具体的,可以将测试样本输入至分类器中,记录该分类器的输出结果。基于分类器的输出结果,通过下式(1)计算出分类器的假阳性率(false positive rate,FPR):
Figure BDA0003396968240000131
基于分类器的输出结果,通过下式(2)计算出分类器的真阳性率(true positiverate,TPR):
Figure BDA0003396968240000132
其中,式(1)表示分类器预测成少数类,但实际为多数类的样本占所有多数类样本的比例;式(2)表示分类器预测成少数类,且实际为少数类的样本占所有少数类样本的比例;FP表示实际为多数类样本,被分类器预测为少数类样本的个数;TN表示实际为多数类样本,被分类器预测为多数类样本的个数;TP表示实际为少数类样本,被分类器预测为少数类样本的个数;FN表示实际为少数类样本,被分类器预测为多数类样本的个数;
如图7所示,基于上述FPR和TPR绘制分类器的ROC曲线,并计算该分类器的ROC曲线对应的曲线下面积(area under curve,AUC)指标。
基于上述测试样本集对每一个分类器进行性能评估,计算出每一个分类器对应的AUC指标,将AUC指标最接近1的分类器确定为目标模型。
其中,AUC指标为ROC曲线的曲线下面积,AUC值越接近1,表明对应的分类器的性能越好。
本申请实施例提供了确定目标模型的方法,具体的,对基于每一个聚类样本和少数类样本合并获得的多个平衡训练集分别进行训练,从而获得了多个分类器。利用测试样本集对每个分类器进行性能评估,将其中性能最好的分类器确定为目标模型。可见,本申请实施例可以对获得的每一个平衡训练集进行训练,得到多个分类器,保证了多数类样本的完整性,使得模型训练得足够充分。且本申请实施例可以对多个分类器进行性能评估,确定出性能最好的分类器,作为目标模型,保证了目标模型的输出结果的准确性。
本申请还提出一种欺诈交易识别方法,能够基于上述模型训练方法得到欺诈预测模型,并利用欺诈预测模型对交易数据进行欺诈交易识别,识别出交易数据中的欺诈交易。图8为本申请实施例提供的欺诈交易识别方法的流程示意图,包括以下步骤:
步骤801、获取交易数据,将交易数据输入欺诈预测模型,欺诈预测模型是根据历史交易数据训练获得的;
具体实现中,首先可以从银行系统的所有历史交易数据中筛选出一个或多个需要进行欺诈交易识别的交易数据,该一个或多个交易数据中的正常交易数据和欺诈交易数据未知。然后可以从银行系统的所有历史交易数据中筛选出多个历史交易数据,该历史交易数据可以是随机选取的多个历史交易数据,也可以是某一时间段的历史交易数据;该历史交易数据中的正常交易数据和欺诈交易数据已知。按照上述目标模型的训练方法对筛选出的历史交易数据进行训练,从而得到欺诈预测模型。最后将需要进行欺诈交易识别的一个或多个交易数据输入训练好的欺诈预测模型中,对交易数据中的欺诈交易数据进行识别。
步骤802、根据欺诈预测模型的输出对交易数据进行欺诈交易识别。
具体实现中,根据上述欺诈预测模型的输出,确定上述一个或多个交易数据中的每一个交易数据是否为欺诈交易数据,或者确定上述一个或多个交易数据中的欺诈交易数据。
本申请实施例提供了检测欺诈交易数据的方法,具体的,从银行系统中获取需要进行欺诈交易检测的交易数据,以及已知具体的正常交易和欺诈交易的历史交易数据。然后按照上述目标模型的训练方法对历史交易数据进行训练,得到欺诈预测模型,将上述获取的交易数据输入至欺诈预测模型中,根据模型的输出确定交易数据中的欺诈交易。可见,本申请实施例可以采用目标模型的训练方法获得的欺诈预测模型对交易数据进行诈检测,解决了交易数据的数据不平衡问题,提高了欺诈交易数据检测的准确率
本申请实施例提供了上述欺诈预测模型的训练过程,具体包括如图9所示的步骤:
步骤901、确定欺诈预测模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;原始训练样本集为历史交易数据;
具体实现中,可以从历史交易数据中随机筛选出部分交易数据,或者抽取历史交易数据中某一时间段的交易数据作为欺诈预测模型的原始训练样本集。然后,根据数据是否属于欺诈交易数据将原始训练样本集划分为多数类样本集和少数类样本集,其中,多数类样本集为正常交易数据集,少数类样本集为欺诈交易数据集。
其中,原始训练样本集为已知具体正常交易数据和欺诈交易数据的历史交易数据集。
步骤902、对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;
本申请实施例可以通过减少正常交易数据集中正常交易数据的数量,使得正常交易数据的数量和欺诈交易数据的数量相当,从而达到数据平衡的效果。
一种可能的实现方式中,对正常交易数据集进行样本划分,划分为多个子样本集时,可以将正常交易数据集中的正常交易数据按照顺序,依次将一定数量的样本划分为多个子样本集。例如对包含1000个样本的正常交易数据集进行划分,划分为10个子样本集时,可以按照上述1000个样本的顺序,将前100个样本划分为第一个子样本集,将第101到第200个样本划分为第二个子样本集,对后续样本依次进行划分,直至将后100个样本划分为第十个样本集为止;也可以对正常交易数据集中的数据进行随机抽样,将抽到的数据依次划分至多个子样本集中。例如,对包含1000个样本的正常交易数据集进行随机抽样,将随机抽到的正常交易数据划分至第一个子样本集中,直至第一个子样本集中的正常交易数据的数量达到预设值为止,即第一个子样本集中的正常交易数据的数量达到100为止。继续对正常交易数据集进行随机抽样,并将随机抽到的正常交易数据划分至第二个子样本集中,直至第二个子样本集中的正常交易数据的数量达到预设值为止。依次将随机抽样得到的正常交易数据划分至后续的子样本集中,直至第十个子样本集中的正常交易数据的数量达到预设值,则划分完毕。
一种可能的实现方式中,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本时,可以对每一个子样本集进行聚类处理,获得聚类处理后的子样本集中的部分数据,作为每一个子样本集对应的聚类样本。例如,可以取聚类处理后的子样本集中的聚类中心的正常交易数据,作为该子样本集的聚类样本;也可以取聚类处理后的子样本集中的聚类中心的近邻样本,作为该子样本集的聚类样本。
步骤903、根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得欺诈预测模型。
具体实现中,可以将上述获取的每一个子样本集对应的聚类样本分别与欺诈交易数据集进行合并,从而构建出每一个子样本集对应的平衡样本集。然后分别对上述多个平衡样本集进行训练,得到多个分类器,对多个分类器进行筛选处理,得到最终的分类器,即为欺诈预测模型。其中,平衡样本集的数量和子样本集的数量相同。
本申请实施例提供的欺诈预测模型训练方法,可以将不平衡的历史交易数据集划分为正常交易数据集和欺诈交易数据集,将正常交易数据集划分为多个子样本集。然后对每一个子样本集进行聚类,获取聚类中心的近邻样本,与欺诈交易数据集合并为一个子样本集对应的平衡样本集。接着对每一个子样本集对应的平衡样本集进行训练,以获得欺诈预测模型。可见,本申请可以对正常交易数据集进行划分,得到多个子样本集,从而初步减少正常交易数据集中正常交易数据的数量。然后再对每一个子样本集进行聚类,以进一步减少正常交易数据集中正常交易数据的数量,达到了平衡正常交易数据和欺诈交易数据的比例的效果,解决了历史交易数据集中正常交易数据和欺诈交易数据不平衡的问题,从而能够解决欺诈预测模型训练过程中正常交易数据和欺诈交易数据不平衡导致欺诈预测模型准确率下降的问题。提高了欺诈预测模型检测欺诈交易数据的准确率。
前文所述的实施例中介绍了根据欺诈预测模型的输出识别交易数据中的欺诈交易数据的方案。在本申请的另一实施例中,可以根据欺诈预测模型的输出从交易数据中筛选出欺诈交易数据,或交易数据是否为欺诈交易数据。例如,前文涉及的“根据欺诈预测模型的输出对交易数据进行欺诈交易识别”,具体包括如图10所示的步骤:
步骤1001、根据欺诈预测模型的输出确定交易数据中的欺诈交易数据;或,
一种可能的实现方式中,欺诈预测模型在对交易数据进行检测时,可以为每一个交易数据打上标签。具体的,若欺诈预测模型检测到该交易数据为正常交易数据,则可以为该交易数据打上标签“正常交易数据”,或者打上标签“0”;若欺诈预测模型检测到该交易数据为欺诈交易数据,则可以为该交易数据打上标签“欺诈交易数据”,或者打上标签“1”。然后,欺诈预测模型可以将所有打上标签的交易数据输出,根据欺诈预测模型的输出,可以将欺诈预测模型输出的所有交易数据中,标签为“欺诈交易数据”或“1”的交易数据确定为欺诈交易数据。
其中,标签“正常交易数据”或标签“0”用于表示该交易数据不涉及欺诈,为正常交易。标签“欺诈交易数据”或标签“1”用于表示该交易数据涉及欺诈,为欺诈交易。
步骤1002、根据欺诈预测模型的输出确定交易数据为欺诈交易数据。
一种可能的实现方式中,欺诈预测模型在对交易数据进行检测时,若检测到该交易数据为欺诈交易数据,则先将该交易数据输出,然后对下一个交易数据进行检测。若检测到该交易数据为正常交易数据,则不对该交易数据做任何处理,直接对下一个交易数据进行检测。当欺诈预测模型完成所有交易数据的检测之后,根据欺诈预测模型的输出,可以将欺诈预测模型输出的所有交易数据确定为欺诈交易数据。
本申请实施例提供了根据欺诈预测模型的输出确定欺诈交易数据的方法,具体的,若欺诈预测模型在检测过程中,将交易数据分为正常交易数据和欺诈交易数据两类进行输出,则可以根据欺诈预测模型的输出的交易数据的类别,确定输出的所有交易数据中的欺诈交易数据。若欺诈预测模型在检测过程中,只输出欺诈交易数据,则可以根据欺诈预测模型的输出,将欺诈预测模型输出的所有交易数据确定为欺诈交易数据。可见,本申请实施例可以利用欺诈预测模型对信用卡交易数据进行欺诈检测,检测出交易数据集中的欺诈交易数据,或者检测出该交易数据是否为欺诈交易数据。且采用该欺诈预测模型对欺诈交易数据进行检测时,能够平衡正常交易样本和欺诈交易样本的比例,解决交易数据不平衡的问题,从而提高模型检测欺诈交易数据的准确率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的模型训练方法的模型训练装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个模型训练装置实施例中的具体限定可以参见上文中对于模型训练方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种模型训练装置,包括:确定模块、划分模块和训练模块,其中:
确定模块1101,用于确定目标模型的原始训练样本集,根据所述原始训练样本集确定多数类样本集和少数类样本集;
划分模块1102,用于对所述多数类样本集进行样本划分,获得多个子样本集,对所述多个子样本集中每一子样本集进行聚类处理,获得所述每一子样本集对应的聚类样本;
训练模块1103,用于根据所述每一子样本集对应的聚类样本以及所述少数类样本集构建所述每一子样本集对应的平衡样本集,对所述每一子样本集对应的平衡样本集进行训练,获得所述目标模型。
在一个实施例中,确定模块1101,具体用于根据原始训练样本集确定多数类样本集和少数类样本集,包括:确定原始训练样本集中每一样本的数据特性;若样本的数据特性为正常交易数据,则将样本归为多数类样本集;若样本的数据特性为欺诈交易数据,则将样本归为少数类样本集。
在一个实施例中,划分模块1102,具体用于对多数类样本集进行样本划分,获得多个子样本集,包括:对多数类样本集执行子样本集划分操作;子样本集划分操作包括对多数类样本集进行随机不放回抽样,基于抽出样本构建子样本集;若当前子样本集中的样本数量满足预设值,则重复执行子样本集划分操作,直至多数类样本集中的所有样本被抽出。
在一个实施例中,划分模块1102,具体用于对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本,包括:基于数据相似性对子样本集中的数据进行聚类,获得子样本集的聚类中心数据以及聚类中心数据的近邻数据;根据聚类中心数据以及近邻数据构建子样本集对应的聚类样本。
在一个实施例中,训练模块1103,具体用于对每一子样本集对应的平衡样本集进行训练,获得目标模型,包括:对每一子样本集对应的平衡样本集进行训练,获得多个分类器;将多个分类器中模型性能评估结果最佳的分类器,确定为目标模型。
在一个实施例中,该模型训练装置还可以用于获取交易数据,将交易数据输入目标模型,根据目标模型的输出确定交易数据是否为欺诈交易数据。
上述模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的欺诈交易识别方法的欺诈交易识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个欺诈交易识别装置实施例中的具体限定可以参见上文中对于欺诈交易识别方法的限定,在此不再赘述。
在一个实施例中,如图12所示,提供了一种欺诈交易识别装置,包括:输入模块和输出模块,其中:
输入模块1201,用于获取交易数据,将交易数据输入欺诈预测模型,欺诈预测模型是根据历史交易数据训练获得的;
输出模块1202,用于根据欺诈预测模型的输出对交易数据进行欺诈交易识别。
在一个实施例中,欺诈预测模型的训练过程包括:确定欺诈预测模型的原始训练样本集,根据原始训练样本集确定多数类样本集和少数类样本集;原始训练样本集为历史交易数据;对多数类样本集进行样本划分,获得多个子样本集,对多个子样本集中每一子样本集进行聚类处理,获得每一子样本集对应的聚类样本;根据每一子样本集对应的聚类样本以及少数类样本集构建每一子样本集对应的平衡样本集,对每一子样本集对应的平衡样本集进行训练,获得欺诈预测模型。
在一个实施例中,输出模块1202,具体用于根据欺诈预测模型的输出确定交易数据中的欺诈交易数据;或,根据欺诈预测模型的输出确定交易数据为欺诈交易数据。
上述欺诈交易识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与本申请实施例所述模型训练方法相关的一些数据,例如,前文所述的原始训练样本集、多数类样本集、少数类样本集、子样本集、聚类样本等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型训练方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (13)

1.一种模型训练方法,其特征在于,所述方法包括:
确定目标模型的原始训练样本集,根据所述原始训练样本集确定多数类样本集和少数类样本集;
对所述多数类样本集进行样本划分,获得多个子样本集,对所述多个子样本集中每一子样本集进行聚类处理,获得所述每一子样本集对应的聚类样本;
根据所述每一子样本集对应的聚类样本以及所述少数类样本集构建所述每一子样本集对应的平衡样本集,对所述每一子样本集对应的平衡样本集进行训练,获得所述目标模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述原始训练样本集确定多数类样本集和少数类样本集,包括:
确定所述原始训练样本集中每一样本的数据特性;
若所述样本的数据特性为正常交易数据,则将所述样本归为所述多数类样本集;
若所述样本的数据特性为欺诈交易数据,则将所述样本归为所述少数类样本集。
3.根据权利要求1所述的方法,其特征在于,所述对所述多数类样本集进行样本划分,获得多个子样本集,包括:
对所述多数类样本集执行子样本集划分操作;所述子样本集划分操作包括对所述多数类样本集进行随机不放回抽样,基于抽出样本构建所述子样本集;
若当前子样本集中的样本数量满足预设值,则重复执行所述子样本集划分操作,直至所述多数类样本集中的所有样本被抽出。
4.根据权利要求1所述的方法,其特征在于,所述对所述多个子样本集中每一子样本集进行聚类处理,获得所述每一子样本集对应的聚类样本,包括:
基于数据相似性对所述子样本集中的数据进行聚类,获得所述子样本集的聚类中心数据以及所述聚类中心数据的近邻数据;
根据所述聚类中心数据以及所述近邻数据构建所述子样本集对应的聚类样本。
5.根据权利要求1所述的方法,其特征在于,所述对所述每一子样本集对应的平衡样本集进行训练,获得所述目标模型,包括:
对所述每一子样本集对应的平衡样本集进行训练,获得多个分类器;
将所述多个分类器中模型性能评估结果最佳的分类器,确定为所述目标模型。
6.一种欺诈交易识别方法,其特征在于,所述方法包括:
获取交易数据,将所述交易数据输入欺诈预测模型,所述欺诈预测模型是根据历史交易数据训练获得的;
根据所述欺诈预测模型的输出对所述交易数据进行欺诈交易识别。
7.根据权利要求6所述的方法,其特征在于,所述欺诈预测模型的训练过程包括:
确定所述欺诈预测模型的原始训练样本集,根据所述原始训练样本集确定多数类样本集和少数类样本集;所述原始训练样本集为所述历史交易数据;
对所述多数类样本集进行样本划分,获得多个子样本集,对所述多个子样本集中每一子样本集进行聚类处理,获得所述每一子样本集对应的聚类样本;
根据所述每一子样本集对应的聚类样本以及所述少数类样本集构建所述每一子样本集对应的平衡样本集,对所述每一子样本集对应的平衡样本集进行训练,获得所述欺诈预测模型。
8.根据权利要求6所述的方法,其特征在于,所述根据所述欺诈预测模型的输出对所述交易数据进行欺诈交易识别,包括:
根据所述欺诈预测模型的输出确定所述交易数据中的欺诈交易数据;或,
根据所述欺诈预测模型的输出确定所述交易数据为欺诈交易数据。
9.一种模型训练装置,其特征在于,所述装置包括:
确定模块,用于确定目标模型的原始训练样本集,根据所述原始训练样本集确定多数类样本集和少数类样本集;
划分模块,用于对所述多数类样本集进行样本划分,获得多个子样本集,对所述多个子样本集中每一子样本集进行聚类处理,获得所述每一子样本集对应的聚类样本;
训练模块,用于根据所述每一子样本集对应的聚类样本以及所述少数类样本集构建所述每一子样本集对应的平衡样本集,对所述每一子样本集对应的平衡样本集进行训练,获得所述目标模型。
10.一种欺诈交易识别装置,其特征在于,所述装置包括:
输入模块,用于获取交易数据,将所述交易数据输入欺诈预测模型,所述欺诈预测模型是根据历史交易数据训练获得的;
输出模块,用于根据所述欺诈预测模型的输出对所述交易数据进行欺诈交易识别。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202111486921.XA 2021-12-07 2021-12-07 模型训练方法、欺诈交易识别方法、装置和计算机设备 Pending CN114140246A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111486921.XA CN114140246A (zh) 2021-12-07 2021-12-07 模型训练方法、欺诈交易识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111486921.XA CN114140246A (zh) 2021-12-07 2021-12-07 模型训练方法、欺诈交易识别方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
CN114140246A true CN114140246A (zh) 2022-03-04

Family

ID=80384828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111486921.XA Pending CN114140246A (zh) 2021-12-07 2021-12-07 模型训练方法、欺诈交易识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN114140246A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549026A (zh) * 2022-04-26 2022-05-27 浙江鹏信信息科技股份有限公司 基于算法组件库分析的未知诈骗的识别方法及系统

Similar Documents

Publication Publication Date Title
WO2018103456A1 (zh) 一种基于特征匹配网络的社团划分方法、装置及电子设备
CN107103171B (zh) 机器学习模型的建模方法及装置
CN111915437A (zh) 基于rnn的反洗钱模型的训练方法、装置、设备及介质
CN110570312B (zh) 样本数据获取方法、装置、计算机设备和可读存储介质
Jonnalagadda et al. Credit card fraud detection using Random Forest Algorithm
Doan et al. A cluster-based data splitting method for small sample and class imbalance problems in impact damage classification
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
CN114626553A (zh) 财务数据监测模型的训练方法、装置和计算机设备
CN116307671A (zh) 风险预警方法、装置、计算机设备、存储介质
CN110956543A (zh) 异常交易检测的方法
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN113435900A (zh) 交易风险确定方法、装置和服务器
Vairam et al. Evaluation of Naïve Bayes and voting classifier algorithm for credit card fraud detection
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN112632219B (zh) 一种垃圾短信的拦截方法和拦截装置
CN114170000A (zh) 信用卡用户风险类别识别方法、装置、计算机设备和介质
CN114066173A (zh) 资金流动行为分析方法及存储介质
CN114092216A (zh) 企业信贷评级方法、装置、计算机设备和存储介质
Jose et al. Detection of Credit Card Fraud Using Resampling and Boosting Technique
Alothman et al. FRAUD DETECTION UNDER THE UNBALANCED CLASS BASED ON GRADIENT BOOSTING.
Kumar et al. An efficient approach for credit card fraud detection
CN114693431A (zh) 信用度评估方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination