CN114372806A - 一种预设交易特征提取模型训练方法及装置 - Google Patents

一种预设交易特征提取模型训练方法及装置 Download PDF

Info

Publication number
CN114372806A
CN114372806A CN202210289598.5A CN202210289598A CN114372806A CN 114372806 A CN114372806 A CN 114372806A CN 202210289598 A CN202210289598 A CN 202210289598A CN 114372806 A CN114372806 A CN 114372806A
Authority
CN
China
Prior art keywords
transaction
account
preset
feature extraction
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210289598.5A
Other languages
English (en)
Inventor
王娜
陈李龙
徐琳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210289598.5A priority Critical patent/CN114372806A/zh
Publication of CN114372806A publication Critical patent/CN114372806A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Technology Law (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种预设交易特征提取模型训练方法及装置,涉及数据提取技术领域,可用于金融领域或其他技术领域。所述方法包括:确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型。所述装置执行上述方法。本发明实施例提供的预设交易特征提取模型训练方法及装置,能够适应风险来源复杂多变的情况。

Description

一种预设交易特征提取模型训练方法及装置
技术领域
本发明涉及数据提取技术领域,具体涉及一种预设交易特征提取模型训练方法及装置。
背景技术
机器学习模型在特征提取方面,具有节省人力和效率高等优点。
账户风险通常来自于交易行为,机器学习模型通过提取交易行为特征,建立训练数据集来进行模型训练,通过训练完成的模型实现对账户风险进行识别。但是,提取的交易行为特征的时效性,以及交易行为特征类型都无法适应风险来源复杂多变的情况。
发明内容
针对现有技术中的问题,本发明实施例提供一种预设交易特征提取模型训练方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种预设交易特征提取模型训练方法,包括:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
其中,所述确定与账户类型相对应的观察期,包括:
若所述账户为所述风险账户,则获取确认所述账户为风险账户的确认日期,将与所述确认日期相邻,且在所述确认日期之前连续的第一预设天数作为与所述风险账户相对应的观察期;
若所述账户为所述正常账户,则获取所述账户最近一次交易的交易日期,将与所述交易日期相邻,且在所述交易日期之前连续的第二预设天数作为与所述正常账户相对应的观察期。
其中,所述预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征,包括:
若所述序列数据的数据类型为连续值,则对所述连续值进行分桶处理,得到离散值;
获取所述序列数据的离散值,计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。
其中,构建样本信息与所述交易模式特征之间的映射关系,包括:
建立各交易模式特征之间的特征关联关系,并构建所述特征关联关系与所述样本信息之间信息关联关系。
其中,所述交易模式特征内部还包括子特征之间的子特征关联关系;相应的,构建样本信息与所述交易模式特征之间的映射关系,包括:
构建所述子特征关联关系、所述特征关联关系与所述样本信息之间信息关联关系。
其中,所述预设交易特征提取模型训练方法还包括:
采用欠采样的方式对账户进行采样,以使得所述风险账户与所述正常账户之间的比例大于预设比例。
一方面,本发明提出一种基于所述预设交易特征提取模型训练方法的交易模式特征提取方法,包括:
获取待提取交易模式特征的账户的交易明细数据;
基于所述预设交易特征提取模型对所述交易明细数据进行交易模式特征提取,得到可用于识别风险账户的目标交易模式特征。
一方面,本发明提出一种预设交易特征提取模型训练装置,包括:
获取单元,用于确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
预处理单元,用于确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
训练单元,用于构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
再一方面,本发明实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本发明实施例提供的预设交易特征提取模型训练方法及装置,确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签,通过获取在观察期内账户的交易明细数据,保证提取的交易行为特征的时效性,能够适应风险来源多变的情况,多种交易模式类型分别对应多个序列数据能够适应风险来源复杂的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的预设交易特征提取模型训练方法的流程示意图。
图2是本发明另一实施例提供的预设交易特征提取模型训练方法的流程示意图。
图3是本发明另一实施例提供的预设交易特征提取模型训练方法的流程示意图。
图4是本发明一实施例提供的预设交易特征提取模型训练装置的结构示意图。
图5为本发明实施例提供的电子设备实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明一实施例提供的预设交易特征提取模型训练方法的流程示意图,如图1所示,本发明实施例提供的预设交易特征提取模型训练方法,包括:
步骤S1:确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户。
步骤S2:确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征。
步骤S3:构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
在上述步骤S1中,装置确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户。装置可以是执行该方法的计算机设备,例如可以包括服务器或客户端。需要说明是,本发明实施例涉及账户相关数据的获取及分析是经用户授权的。风险账户可以包括诈骗账户和存在异常交易账户等,异常交易可以包括短时间内多频次的大金额交易的账户。
账户的交易明细数据可以包括交易时间、交易渠道、交易场所、借贷方向和交易金额等字段分别对应的数据。
所述确定与账户类型相对应的观察期,包括:
若所述账户为所述风险账户,则获取确认所述账户为风险账户的确认日期,将与所述确认日期相邻,且在所述确认日期之前连续的第一预设天数作为与所述风险账户相对应的观察期;第一预设天数可以根据实际情况自主设置,可选为90天,举例说明如下:
如果确认日期为9月1日,则与风险账户相对应的观察期为6月1日至9月1日。
若所述账户为所述正常账户,则获取所述账户最近一次交易的交易日期,将与所述交易日期相邻,且在所述交易日期之前连续的第二预设天数作为与所述正常账户相对应的观察期。第二预设天数可以和第一预设天数相同,也可以和第一预设天数不同,可以根据实际情况自主设置,可选为90天,举例说明如下:
如果账户最近一次交易的交易日期为8月1日,则与正常账户相对应的观察期为5月1日至8月1日。
在上述步骤S2中,装置确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征。
交易明细数据的交易模式类型可以包括上述交易时间、交易渠道、交易场所、借贷方向和交易金额等,每种交易模式类型对应一个序列数据,以借贷方向为例,与其对应的一个序列数据可以按照交易时间的先后顺序进行排列,得到序列表。
交易模式类型分别对应的序列数据可反映交易行为。
该序列表与该账户的借贷方向相对应,即按照账户粒度聚合得到。
所述预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征,包括:
若所述序列数据的数据类型为连续值,则对所述连续值进行分桶处理,得到离散值;参照上述举例,在上述交易时间、交易渠道、交易场所、借贷方向和交易金额分别对应的序列数据中,交易金额对应的序列数据的数据类型为连续值,分桶处理结果,例如包括:
将交易金额为0-5000离散化为交易金额等级1;将交易金额为5000-50000离散化为交易金额等级2。上述交易金额等级1和交易金额等级2,就是离散值。
获取所述序列数据的离散值,计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;预设频次阈值可以根据实际情况自主设置。预设目标值也可以根据经验值自主设置,例如可选为5,能够避免出现大量稀疏特征。
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。根据所述预设目标值确定表示交易模式特征数量的参数,可以以预设目标值为数值中心,上下浮动预设范围得到表示交易模式特征数量的参数,如果预设目标值为5,则表示交易模式特征数量的参数可选为3-7。
可以基于n-gram语言模型构造交易模式特征,相应的,构造等于所述参数的交易模式特征,记为1gram, 2gram, ... , ngram的特征,n为上述表示交易模式特征数量的参数。
需要说明的是,如果所述序列数据的数据类型为离散值,则直接执行如下步骤:
计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;可参照上述说明,不再赘述。
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。可参照上述说明,不再赘述。
在上述步骤S3中,装置构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。映射关系可以根据特征构造宽表来表示,特征构造宽表的行数表示作为样本的账户数;特征构造宽表的列数表示同一样本对应的数据。
决策树模型是一种简单易用的非参数分类器,它不需要对数据有任何的先验假设,计算速度较快,结果容易解释,而且稳健性强。
构建样本信息与所述交易模式特征之间的映射关系,包括:
建立各交易模式特征之间的特征关联关系,并构建所述特征关联关系与所述样本信息之间信息关联关系。
举例说明如下:
各交易模式特征分别记为1gram, 2gram, ... , ngram,建立1gram, 2gram, ..., ngram之间的特征关联关系,以1gram和2gram两个交易模式特征为例,特征关联关系为1gram-2gram。
风险账户对应的样本标签记为1;正常账户对应的样本标签记为0 。
如果该样本信息对应风险账户,则特征构造宽表中的同一行包括:
样本标签1-1gram-2gram。
所述交易模式特征内部还包括子特征之间的子特征关联关系;相应的,构建样本信息与所述交易模式特征之间的映射关系,包括:
构建所述子特征关联关系、所述特征关联关系与所述样本信息之间信息关联关系。参照上述说明,以借贷方向为例,1gram对应的子特征包括借款笔数,记为1gram-1;贷款笔数,记为1gram-2。
2 gram对应的子特征包括先借后贷,记为2gram-1;先贷后借,记为2gram-2;连续两笔借,记为2gram-3;连续两笔贷,记为2gram-4。
如果该样本信息对应风险账户,则特征构造宽表中的同一行包括:
样本标签1-1gram-1-1gram-2-2gram-1-2gram-2-2gram-3-2gram-4。
样本信息还可以包括账户名称、样本生成日期等;相应的,特征构造宽表中的同一行包括:
账户名称-样本生成日期-样本标签1-1gram-1-1gram-2-2gram-1-2gram-2-2gram-3-2gram-4。
参照图2,根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型,包括:
将构造好的训练数据集切分为测试数据和训练数据,用训练数据进行交叉训练验证进行参数调优,得到最后模型,使用测试数据评估该模型,当交叉验证集的评估结果和测试集的评估结果比较一致时,则认为模型训练完成,便可根据模型的特征重要性指标筛选构造的特征。可以将该部分特征与模型其它特征进行合并训练最终的风险账户监测模型。
所述预设交易特征提取模型训练方法还包括:
采用欠采样的方式对账户进行采样,以使得所述风险账户与所述正常账户之间的比例大于预设比例。由于,风险账户占所有账户的比例极低,如果采用随机采样的方式对账户进行采样,会导致风险账户与正常账户之间的比例也很低,使得模型训练过程耗时较长,且准确性不佳。
通过欠采样的方式对账户进行采样,使得风险账户与正常账户之间的比例大幅提高,可以通过设置预设比例的具体数值,实现控制风险账户与正常账户之间的比例,进而减少模型训练过程耗时,提高模型提取特征的准确性。
本发明实施例提供的预设交易特征提取模型训练方法,确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签,通过获取在观察期内账户的交易明细数据,保证提取的交易行为特征的时效性,能够适应风险来源多变的情况,多种交易模式类型分别对应多个序列数据能够适应风险来源复杂的情况。
进一步地,所述确定与账户类型相对应的观察期,包括:
若所述账户为所述风险账户,则获取确认所述账户为风险账户的确认日期,将与所述确认日期相邻,且在所述确认日期之前连续的第一预设天数作为与所述风险账户相对应的观察期;可参照上述实施例说明,不再赘述。
若所述账户为所述正常账户,则获取所述账户最近一次交易的交易日期,将与所述交易日期相邻,且在所述交易日期之前连续的第二预设天数作为与所述正常账户相对应的观察期。可参照上述实施例说明,不再赘述。
本发明实施例提供的预设交易特征提取模型训练方法,合理地确定观察期,进一步保证提取的交易行为特征的时效性。
进一步地,所述预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征,包括:
若所述序列数据的数据类型为连续值,则对所述连续值进行分桶处理,得到离散值;可参照上述实施例说明,不再赘述。
获取所述序列数据的离散值,计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;可参照上述实施例说明,不再赘述。
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。可参照上述实施例说明,不再赘述。
本发明实施例提供的预设交易特征提取模型训练方法,通过用预设目标值替代低于预设频次阈值的离散值,能够提高模型训练效率。
进一步地,构建样本信息与所述交易模式特征之间的映射关系,包括:
建立各交易模式特征之间的特征关联关系,并构建所述特征关联关系与所述样本信息之间信息关联关系。可参照上述实施例说明,不再赘述。
本发明实施例提供的预设交易特征提取模型训练方法,根据特征关联关系和信息关联关系方便训练模型。可参照上述实施例说明,不再赘述。
进一步地,所述交易模式特征内部还包括子特征之间的子特征关联关系;相应的,构建样本信息与所述交易模式特征之间的映射关系,包括:
构建所述子特征关联关系、所述特征关联关系与所述样本信息之间信息关联关系。可参照上述实施例说明,不再赘述。
本发明实施例提供的预设交易特征提取模型训练方法,根据子特征关联关系、特征关联关系和信息关联关系进一步方便训练模型。
进一步地,所述预设交易特征提取模型训练方法还包括:
采用欠采样的方式对账户进行采样,以使得所述风险账户与所述正常账户之间的比例大于预设比例。可参照上述实施例说明,不再赘述。
本发明实施例提供的预设交易特征提取模型训练方法,通过采用欠采样的方式对账户进行采样,进一步减少模型训练耗时,以及提高模型特征提取准确性。
本发明实施例提供一种基于预设交易特征提取模型训练方法的交易模式特征提取方法,包括:
获取待提取交易模式特征的账户的交易明细数据;交易明细数据可参照上述说明。
基于所述预设交易特征提取模型对所述交易明细数据进行交易模式特征提取,得到可用于识别风险账户的目标交易模式特征。目标交易模式特征可以包括上述交易时间、交易渠道、交易场所、借贷方向和交易金额分别对应的特征中1gram, 2gram, ... , ngram中的一项或几项特征。
本发明实施例提供的交易模式特征提取方法,能够准确提取可用于识别风险账户的目标交易模式特征。
如图3所示,对本发明实施例方法说明如下:
1. 根据账户记录给账号打上正常账户标签或风险账户标签,及打标签日期。
2. 获取该账户在观察期内的所有类型交易明细,包括交易对应的渠道、借贷、时间等信息。
3. 按账户粒度对交易序列的特征进行聚合,得到该账户对应的按交易时间形成的有序序列。
4. 获取参数的初始值n。
5. 对步骤3中的有序序列分别构造1-gram,2-gram,...,n-gram特征。
6. 根据步骤5构造得到的特征,建立各交易模式特征之间的特征关联关系。
7. 关联步骤1得到的账户标签和时间信息等,构建样本信息与交易模式特征之间的映射关系,得到样本数据集。
8. 样本数据集按一定比例随机分为训练数据集和测试数据集,在训练模型过程中,测试数据集不参与,待模型训练完毕之后,使用测试集对模型进行评估。
9. 利用训练数据集训练决策树模型,该模型主要是用于选择有用的特征。
10. 完成训练得到特征挖掘模型。
11. 用测试数据集评测步骤10完成的特征挖掘模型的效果。
12. 获取特征挖掘模型特征重要性分数。
13. 按特征重要性从1-gram,2-gram, ...,n-gram中筛选出重要特征。
1-13步完成了基于n-gram自动挖掘交易模式特征的过程。虚线框中的内容为了说明挖掘出的重要特征,在后续风险账户监测模型中如何使用,不在本发明范围。
需要说明的是,本发明实施例提供的预设交易特征提取模型训练方法可用于金融领域,也可用于除金融领域之外的任意技术领域,本发明实施例对预设交易特征提取模型训练方法的应用领域不做限定。
图4是本发明一实施例提供的预设交易特征提取模型训练装置的结构示意图,如图4所示,本发明实施例提供的预设交易特征提取模型训练装置,包括获取单元401、预处理单元402和训练单元403,其中:
获取单元401用于确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;预处理单元402用于确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;训练单元403用于构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
具体的,装置中的获取单元401用于确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;预处理单元402用于确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;训练单元403用于构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本发明实施例提供的预设交易特征提取模型训练装置,确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签,通过获取在观察期内账户的交易明细数据,保证提取的交易行为特征的时效性,能够适应风险来源多变的情况,多种交易模式类型分别对应多个序列数据能够适应风险来源复杂的情况。
进一步地,所述获取单元401用于:
若所述账户为所述风险账户,则获取确认所述账户为风险账户的确认日期,将与所述确认日期相邻,且在所述确认日期之前连续的第一预设天数作为与所述风险账户相对应的观察期;
若所述账户为所述正常账户,则获取所述账户最近一次交易的交易日期,将与所述交易日期相邻,且在所述交易日期之前连续的第二预设天数作为与所述正常账户相对应的观察期。
本发明实施例提供的预设交易特征提取模型训练装置,合理地确定观察期,进一步保证提取的交易行为特征的时效性。
进一步地,所述预处理单元402用于:
若所述序列数据的数据类型为连续值,则对所述连续值进行分桶处理,得到离散值;
获取所述序列数据的离散值,计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。
本发明实施例提供的预设交易特征提取模型训练装置,通过用预设目标值替代低于预设频次阈值的离散值,能够提高模型训练效率。
进一步地,所述训练单元403用于:
建立各交易模式特征之间的特征关联关系,并构建所述特征关联关系与所述样本信息之间信息关联关系。
本发明实施例提供的预设交易特征提取模型训练装置,通过根据特征关联关系和信息关联关系方便训练模型。
进一步地,所述训练单元403具体用于:
构建所述子特征关联关系、所述特征关联关系与所述样本信息之间信息关联关系。
本发明实施例提供的预设交易特征提取模型训练装置,根据子特征关联关系、特征关联关系和信息关联关系进一步方便训练模型。
进一步地,所述预设交易特征提取模型训练装置用于:
采用欠采样的方式对账户进行采样,以使得所述风险账户与所述正常账户之间的比例大于预设比例。
本发明实施例提供的预设交易特征提取模型训练装置,通过采用欠采样的方式对账户进行采样,进一步减少模型训练耗时,以及提高模型特征提取准确性。
本发明实施例提供一种交易模式特征提取装置,包括:
获取模块用于获取待提取交易模式特征的账户的交易明细数据;提取模块用于基于所述预设交易特征提取模型对所述交易明细数据进行交易模式特征提取,得到可用于识别风险账户的目标交易模式特征。
本发明实施例提供的交易模式特征提取装置,能够准确提取可用于识别风险账户的目标交易模式特征。
本发明实施例提供预设交易特征提取模型训练装置和交易模式特征提取装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图5为本发明实施例提供的电子设备实体结构示意图,如图5所示,所述电子设备包括:处理器(processor)501、存储器(memory)502和总线503;
其中,所述处理器501、存储器502通过总线503完成相互间的通信;
所述处理器501用于调用所述存储器502中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种预设交易特征提取模型训练方法,其特征在于,包括:
确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
2.根据权利要求1所述的预设交易特征提取模型训练方法,其特征在于,所述确定与账户类型相对应的观察期,包括:
若所述账户为所述风险账户,则获取确认所述账户为风险账户的确认日期,将与所述确认日期相邻,且在所述确认日期之前连续的第一预设天数作为与所述风险账户相对应的观察期;
若所述账户为所述正常账户,则获取所述账户最近一次交易的交易日期,将与所述交易日期相邻,且在所述交易日期之前连续的第二预设天数作为与所述正常账户相对应的观察期。
3.根据权利要求1所述的预设交易特征提取模型训练方法,其特征在于,所述预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征,包括:
若所述序列数据的数据类型为连续值,则对所述连续值进行分桶处理,得到离散值;
获取所述序列数据的离散值,计算各离散值的出现频次,将所述出现频次低于预设频次阈值的离散值用预设目标值替代;
根据所述预设目标值确定表示交易模式特征数量的参数,并构造等于所述参数的交易模式特征。
4.根据权利要求1至3任一所述的预设交易特征提取模型训练方法,其特征在于,构建样本信息与所述交易模式特征之间的映射关系,包括:
建立各交易模式特征之间的特征关联关系,并构建所述特征关联关系与所述样本信息之间信息关联关系。
5.根据权利要求4所述的预设交易特征提取模型训练方法,其特征在于,所述交易模式特征内部还包括子特征之间的子特征关联关系;相应的,构建样本信息与所述交易模式特征之间的映射关系,包括:
构建所述子特征关联关系、所述特征关联关系与所述样本信息之间信息关联关系。
6.根据权利要求1所述的预设交易特征提取模型训练方法,其特征在于,所述预设交易特征提取模型训练方法还包括:
采用欠采样的方式对账户进行采样,以使得所述风险账户与所述正常账户之间的比例大于预设比例。
7.一种基于如权利要求1所述预设交易特征提取模型训练方法的交易模式特征提取方法,其特征在于,包括:
获取待提取交易模式特征的账户的交易明细数据;
基于所述预设交易特征提取模型对所述交易明细数据进行交易模式特征提取,得到可用于识别风险账户的目标交易模式特征。
8.一种预设交易特征提取模型训练装置,其特征在于,包括:
获取单元,用于确定与账户类型相对应的观察期,并获取在所述观察期内账户的交易明细数据;所述账户类型包括风险账户或正常账户;
预处理单元,用于确定与所述交易明细数据的交易模式类型分别对应的序列数据,预处理所述序列数据,并根据预处理过的序列数据构造交易模式特征;
训练单元,用于构建样本信息与所述交易模式特征之间的映射关系,根据所述映射关系建立训练数据集,并根据所述训练数据集训练决策树模型,得到预设交易模式特征提取模型;所述样本信息包括与所述风险账户或所述正常账户分别对应的样本标签。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
CN202210289598.5A 2022-03-23 2022-03-23 一种预设交易特征提取模型训练方法及装置 Pending CN114372806A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210289598.5A CN114372806A (zh) 2022-03-23 2022-03-23 一种预设交易特征提取模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210289598.5A CN114372806A (zh) 2022-03-23 2022-03-23 一种预设交易特征提取模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN114372806A true CN114372806A (zh) 2022-04-19

Family

ID=81146938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210289598.5A Pending CN114372806A (zh) 2022-03-23 2022-03-23 一种预设交易特征提取模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN114372806A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461216A (zh) * 2020-03-31 2020-07-28 浙江邦盛科技有限公司 一种基于机器学习的案件风险识别方法
CN113486350A (zh) * 2021-08-18 2021-10-08 平安普惠企业管理有限公司 恶意软件的识别方法、装置、设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461216A (zh) * 2020-03-31 2020-07-28 浙江邦盛科技有限公司 一种基于机器学习的案件风险识别方法
CN113486350A (zh) * 2021-08-18 2021-10-08 平安普惠企业管理有限公司 恶意软件的识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111275491B (zh) 一种数据处理方法及装置
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN111428599B (zh) 票据识别方法、装置和设备
CN104461863A (zh) 一种业务系统测试方法、设备及系统
CN102629904A (zh) 一种网络水军的探测与判定方法
CN102033965A (zh) 一种基于分类模型的数据分类方法及系统
CN114139490B (zh) 一种自动数据预处理的方法、装置以及设备
CN109740642A (zh) 发票类别识别方法、装置、电子设备及可读存储介质
CN107491536A (zh) 一种试题校验方法、试题校验装置及电子设备
CN110648215A (zh) 分布式评分卡模型建立方法
CN109242165A (zh) 一种模型训练及基于模型训练的预测方法及装置
CN113449753B (zh) 业务风险预测方法、装置和系统
CN110782349A (zh) 一种模型训练方法和系统
CN112199376B (zh) 一种基于聚类分析的标准知识库管理方法及系统
CN109977090A (zh) 一种向hdfs写入数据的方法及终端
CN114372806A (zh) 一种预设交易特征提取模型训练方法及装置
CN104636318B (zh) 一种大数据方差标准差的分布式或增量计算方法
CN115167965A (zh) 交易进度条的处理方法及装置
CN108764981A (zh) 服务器、文本数据的处理方法及存储介质
CN111061853B (zh) 一种快速获取faq模型训练语料的方法
CN113971495A (zh) 日间批量处理方法及装置
CN114092245A (zh) 场景化的银行交易错误信息返回方法及装置
CN114285896A (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN112907254A (zh) 欺诈交易识别、模型训练方法、装置、设备及存储介质
CN113011748A (zh) 推荐效果的评估方法、装置、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220419

RJ01 Rejection of invention patent application after publication