CN110544100A - 基于机器学习的业务识别方法、装置及介质 - Google Patents

基于机器学习的业务识别方法、装置及介质 Download PDF

Info

Publication number
CN110544100A
CN110544100A CN201910852658.8A CN201910852658A CN110544100A CN 110544100 A CN110544100 A CN 110544100A CN 201910852658 A CN201910852658 A CN 201910852658A CN 110544100 A CN110544100 A CN 110544100A
Authority
CN
China
Prior art keywords
risk
event
model
business
payment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910852658.8A
Other languages
English (en)
Inventor
黄盟
张腾
樊聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201910852658.8A priority Critical patent/CN110544100A/zh
Publication of CN110544100A publication Critical patent/CN110544100A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/08Payment architectures
    • G06Q20/10Payment architectures specially adapted for electronic funds transfer [EFT] systems; specially adapted for home banking systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于机器学习的业务识别方法、装置、设备及存储介质,该方法包括:获取在线网络业务上的业务事件;从所述业务事件中提取n个维度的风险特征数据;调用风险判断模型对所述n个维度的风险特征数据进行识别,得到所述业务事件属于风险事件的概率,所述风险判断模型是基于主动学习的策略得到的CatBoost模型;根据所述概率对所述业务事件进行控制。调用风险判断模型对业务事件进行识别,通过从业务事件中提取n个维度的风险特征数据作为风险判断模型的输入值,输出业务事件属于风险的概率,使得对业务事件进行风险识别的过程呈自动化状态,并且风险判断模型采用主动学习的策略,提高了识别风险业务事件的识别效率。

Description

基于机器学习的业务识别方法、装置及介质
技术领域
本申请涉及神经网络领域,特别涉及一种基于机器学习的业务识别方法、装置、设备及存储介质。
背景技术
基于互联网环境,用户能够使用不同的应用程序进行在线网络业务。以在线支付业务为例,用户可通过电商类应用程序在线购买商品,通过支付类应用程序在线转账、通过社交类应用程序发送现金红包等。用户发起支付行为,支付方(也即用户)选择支付方式和收款方对应的目标账户,支付方输入支付密码后向目标账户转账,在此过程中,用户(也即支付方)与收款方是在非面对面的情况下进行交易。
在线交易的过程中,由于支付方与收款方通过应用程序进行交易,易于发生金钱欺诈、账户盗用等情况,使得用户的支付存在一定的风险。相关技术中可通过风险判断模型对支付事件进行风险识别。
发明内容
本申请实施例提供了一种基于机器学习的业务识别方法、装置、设备及存储介质,可以解决相关技术中风险识别模型无法从业务事件中提取风险特征数据,且识别业务事件存在风险的准确率较低问题。所述技术方案如下:
根据本申请的一个方面,提供了一种基于机器学习的业务识别方法,所述方法包括:
获取在线网络业务上的业务事件;
从所述业务事件中提取n个维度的风险特征数据;
调用风险判断模型对所述n个维度的风险特征数据进行识别,得到所述业务事件属于风险事件的概率,所述风险判断模型是基于主动学习的策略得到的CatBoost模型;
根据所述概率对所述业务事件进行控制。
在本申请的一些实施例中,所述方法还包括:
获取所述CatBoost模型对所述概率的预测准确率;
将所述预测准确率低于预设条件的所述业务事件添加至主动学习池;
通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述通过所述主动学习池对所述风险判断模型进行再次训练,包括:
当所述主动学习池中的业务事件达到预设数量时,通过所述主动学习池对所述CatBoost模型进行再次训练;或,当所述主动学习池距离上一次清空时间达到目标时长时,通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述将所述预测准确率低于预设条件的所述业务事件添加至主动学习池,包括:
计算所述业务事件的概率对应的信息熵;
当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果;
将标定有所述风险标定结果的所述业务事件,添加至所述主动学习池。
在本申请的一些实施例中,所述当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果,包括:
当所述信息熵大于所述信息熵阈值时,通过接收人工标定结果获取所述业务事件的风险标定结果;或,当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,N≥2,且N为整数。
在本申请的一些实施例中,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,包括:
获取所述N个风险判断模型中每个风险判断模型对应的权重;
获取所述N个风险判断模型中所述每个风险判断模型对所述业务事件的风险标定结果;
计算所述N个风险判断模型中所述每个风险判断模型对应的权重和对应的风险标定结果的乘积;
根据N个所述乘积的和,得到所述业务事件的风险标定结果。
在本申请的一些实施例中,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,还包括:
获取奇数个不同的风险判断模型对所述业务事件的风险标定结果;
统计所述风险标定结果属于风险的数量和所述风险标定结果属于非风险的数量;
当所述风险标定结果属于风险的数量大于所述风险标定结果属于非风险的数量时,得到所述业务事件属于风险事件;
当所述风险标定结果属于非风险的数量大于所述风险标定结果属于风险的数量时,得到所述业务事件属于非风险事件。
在本申请的一些实施例中,所述CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,所述n个维度包括:用户账户、使用设备、用户行为、行为模式中的至少一种维度。
在本申请的一些实施例中,所述风险判断模型是通过如下方式训练得到的:
获取至少一组样本业务事件的事件数据和风险标定结果;
通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始的CatBoost模型进行训练;
在满足训练结束条件时,得到训练后的所述CatBoost模型。
在本申请的一些实施例中,所述通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,包括:
通过基尼系数从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过卡方检验从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过信息增益或信息增益率从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
根据本申请的另一方面,提供了一种风险判断模型的训练方法,所述方法包括:
获取训练后的风险判断模型,所述风险判断模型是CatBoost模型;
调用所述训练后的CatBoost模型对业务事件进行预测;
基于主动学习的策略对所述CatBoost模型再次训练。
在本申请的一些实施例中,所述基于主动学习的策略对所述CatBoost模型再次训练,包括:
获取所述CatBoost模型对所述业务事件的预测准确率;
将所述预测准确率低于预设条件的所述业务事件添加至主动学习池中;
通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述通过所述主动学习池对所述CatBoost模型进行再次训练,包括:
当所述主动学习池中的业务事件达到预设数量时,通过所述主动学习池对所述CatBoost模型进行再次训练;或,当所述主动学习池距离上一次清空时间达到目标时长时,通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述将所述预测准确率低于预设条件的所述业务事件添加至主动学习池,包括:
计算所述业务事件的概率对应的信息熵;
当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果;
将标定有所述风险标定结果的所述业务事件,添加至所述主动学习池。
在本申请的一些实施例中,所述当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果,包括:
当所述信息熵大于所述信息熵阈值时,通过接收人工标定结果获取所述业务事件的风险标定结果;或,当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,N≥2,且N为整数。
在本申请的一些实施例中,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,包括:
获取所述N个风险判断模型中每个风险判断模型对应的权重;
获取所述N个风险判断模型中所述每个风险判断模型对所述业务事件的风险标定结果;
计算所述N个风险判断模型中所述每个风险判断模型对应的权重和对应的风险标定结果的乘积;
根据N个所述乘积的和,得到所述业务事件的风险标定结果。
在本申请的一些实施例中,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,还包括:
获取奇数个不同的风险判断模型对所述业务事件的风险标定结果;
统计所述风险标定结果属于风险的数量和所述风险标定结果属于非风险的数量;
当所述风险标定结果属于风险的数量大于所述风险标定结果属于非风险的数量时,得到所述业务事件属于风险事件;
当所述风险标定结果属于非风险的数量大于所述风险标定结果属于风险的数量,得到所述业务事件属于非风险事件。
在本申请的一些实施例中,所述CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,所述n个维度包括:用户帐号、使用设备、用户行为、行为模式中的至少一种维度。
在本申请的一些实施例中,所述方法还包括:
获取至少一组样本业务事件的事件数据和风险标定结果;
通过特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始CatBoost模型进行训练;
在满足训练结束条件时,得到训练后的所述CatBoost模型。
在本申请的一些实施例中,所述CatBoost模型中包括至少一个分类器;
所述通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始的CatBoost模型进行训练,包括:
调用所述CatBoost模型中的所述至少一个分类器对所述n个维度的样本风险特征数据进行提取,得到特征残差;
调用所述CatBoost模型中的所述至少一个分类器对所述特征残差进行处理,得到预测风险标定结果;
根据所述预测风险标定结果和所述风险标定结果之间的误差,对初始的CatBoost模型进行训练。
在本申请的一些实施例中,所述通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,包括:
通过基尼系数从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过卡方检验从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过信息增益或信息增益率从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
根据本申请的另一方面,提供了一种基于机器学习的业务识别装置,所述装置包括:
第一获取模块,用于获取在线网络业务上的业务事件;
第一提取模块,用于从所述业务事件中提取n个维度的风险特征数据;
风险判断模型,用于对所述n个维度的风险特征数据进行识别,得到所述业务事件属于风险事件的概率,所述风险判断模型是基于主动学习的策略得到的CatBoost模型;
控制模块,用于根据所述概率对所述业务事件进行控制。
在本申请的一些实施例中,所述装置还包括第一添加模块和第一训练模块;
所述第一获取模块,还用于获取所述CatBoost模型对所述概率的预测准确率;
所述第一添加模块,用于将所述预测准确率低于预设条件的所述业务事件添加至主动学习池;
所述第一训练模块,用于通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述第一训练模块,还用于当所述主动学习池中的业务事件达到预设数量时,通过所述主动学习池对所述CatBoost模型进行再次训练;或,当所述主动学习池距离上一次清空时间达到目标时长时,通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述装置还包括第一计算模块;
所述第一计算模块,用于计算所述业务事件的概率对应的信息熵;
所述第一获取模块,还用于当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果;
所述第一添加模块,还用于将标定有所述风险标定结果的所述业务事件,添加至所述主动学习池。
在本申请的一些实施例中,所述第一获取模块,还用于当所述信息熵大于所述信息熵阈值时,通过接收人工标定结果获取所述业务事件的风险标定结果;或,当所述信息熵大于所述信息熵阈值时,通过个风险判断模型获取所述业务事件的风险标定结果,N≥2,且N为整数。
在本申请的一些实施例中,所述第一获取模块,还用于获取所述N个风险判断模型中每个风险判断模型对应的权重;还用于获取所述N个风险判断模型中所述每个风险判断模型对所述业务事件的风险标定结果;
所述第一计算模块,还用于计算所述N个风险判断模型中所述每个风险判断模型对应的权重和对应的风险标定结果的乘积;
所述风险判断模型,还用于根据N个所述乘积的和,得到所述业务事件的风险标定结果。
在本申请的一些实施例中,所述第一获取模块,还用于获取奇数个不同的风险判断模型对所述业务事件的风险标定结果;
所述第一计算模块,还用于统计所述风险标定结果属于风险的数量和所述风险标定结果属于非风险的数量;
所述CatBoost模型,还用于当所述风险标定结果属于风险的数量大于所述风险标定结果属于非风险的数量时,得到所述业务事件属于风险事件;当所述风险标定结果属于非风险的数量大于所述风险标定结果属于风险的数量时,得到所述业务事件属于非风险事件。
在本申请的一些实施例中,所述CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,所述n个维度包括:用户账户、使用设备、用户行为、行为模式中的至少一种维度。
在本申请的一些实施例中,所述第一获取模块,还用于获取至少一组样本业务事件的事件数据和风险标定结果;
所述第一提取模块,还用于通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
所述第一训练模块,还用于通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始的CatBoost模型进行训练;在满足训练结束条件时,得到训练后的所述CatBoost模型。
在本申请的一些实施例中,所述第一提取模块,还用于通过基尼系数从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过卡方检验从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过信息增益或信息增益率从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
根据本申请的另一方面,提供了一种风险判断模型的训练装置,所述装置包括:
第二获取模块,用于获取训练后的风险判断模型,所述风险判断模型是CatBoost模型;调用所述训练后的CatBoost模型对业务事件进行预测;
第二训练模块,用于基于主动学习的策略对所述CatBoost模型再次训练。
在本申请的一些实施例中,所述装置还包括第二添加模块;
所述第二获取模块,还用于获取所述CatBoost模型对所述业务事件的预测准确率;
所述第二添加模块,用于将所述预测准确率低于预设条件的所述业务事件添加至主动学习池中;
所述第二训练模块,还用于通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述第二训练模块,还用于当所述主动学习池中的业务事件达到预设数量时,通过所述主动学习池对所述CatBoost模型进行再次训练;或,当所述主动学习池距离上一次清空时间达到目标时长时,通过所述主动学习池对所述CatBoost模型进行再次训练。
在本申请的一些实施例中,所述装置还包括第二计算模块;
所述第二计算模块,用于计算所述业务事件的概率对应的信息熵;
所述第二获取模块,还用于当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果;
所述第二添加模块,还用于将标定有所述风险标定结果的所述业务事件,添加至所述主动学习池。
在本申请的一些实施例中,所述第二获取模块,还用于当所述信息熵大于所述信息熵阈值时,通过接收人工标定结果获取所述业务事件的风险标定结果;或,当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,N≥2,且N为整数。
在本申请的一些实施例中,所述第二获取模块,还用于获取所述N个风险判断模型中每个风险判断模型对应的权重;所述第二获取模块,还用于获取所述N个风险判断模型中所述每个风险判断模型对所述业务事件的风险标定结果;
所述第二计算模块,还用于计算所述N个风险判断模型中所述每个风险判断模型对应的权重和对应的风险标定结果的乘积;
所述风险判断模型,还用于根据N个所述乘积的和,得到所述业务事件的风险标定结果。
在本申请的一些实施例中,所述第二获取模块,还用于获取奇数个不同的风险判断模型对所述业务事件的风险标定结果;
所述第二计算模块,还用于统计所述风险标定结果属于风险的数量和所述风险标定结果属于非风险的数量;
所述CatBoost模型,还用于当所述风险标定结果属于风险的数量大于所述风险标定结果属于非风险的数量时,得到所述业务事件属于风险事件;当所述风险标定结果属于非风险的数量大于所述风险标定结果属于风险的数量时,得到所述业务事件属于非风险事件。
在本申请的一些实施例中,所述CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,所述n个维度包括:用户帐号、使用设备、用户行为、行为模式中的至少一种维度。
在本申请的一些实施例中,所述装置还包括第二提取模块;
所述第二获取模块,还用于获取至少一组样本业务事件的事件数据和风险标定结果;
所述第二提取模块,用于通过特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
所述第二训练模块,还用于通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始的CatBoost模型进行训练;在满足训练结束条件时,得到训练后的所述CatBoost模型。
在本申请的一些实施例中,所述CatBoost模型中包括至少一个分类器;
所述分类器,用于对所述n个维度的样本风险特征数据进行提取,得到特征残差;
所述分类器,还用于对所述特征残差进行处理,得到预测风险标定结果;
所述第二训练模块,还用于根据所述预测风险标定结果和所述风险标定结果之间的误差,对初始的CatBoost模型进行训练。
在本申请的一些实施例中,所述第二提取模块,还用于通过基尼系数从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过卡方检验从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过信息增益或信息增益率从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的基于机器学习的业务识别方法,或者,如上方面所述的风险判断模型的训练方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的基于机器学习的业务识别方法,或者,如上方面所述的风险判断模型的训练方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
在在线网络业务中调用风险判断模型对业务事件进行识别,通过从业务事件中提取n个维度的风险特征数据作为风险判断模型的输入值,输出业务事件属于风险的概率,同时,基于风险判断模型基于主动学习的策略,可不断学习提取新的风险特征,使得对业务事件进行风险识别的过程呈自动化状态,提高识别风险支付事件的识别效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的基于机器学习的业务识别方法的流程图;
图2是本申请一个示例性实施例提供的GBDT模型的训练过程的示意图;
图3是本申请另一个示例性实施例提供的基于机器学习的业务识别方法的流程图;
图4是本申请一个示例性实施例提供的风险判断模型的训练方法的流程图;
图5是本申请一个示例性实施例提供的基于主动学习策略对风险判断模型进行训练的方法的流程图;
图6是本申请一个示例性实施例提供的风险判断模型将业务事件添加至主动池的方法的流程图;
图7是本申请一个示例性实施例提供的风险判断模型标定业务事件的风险标定结果的方法的流程图;
图8是本申请另一个示例性实施例提供的风险判断模型标定业务事件的风险标定结果的方法的流程图;
图9是本申请另一个示例性实施例提供的风险判断模型的训练方法的流程图;
图10是本申请一个示例性实施例提供的基于机器学习的业务识别装置的框图;
图11是本申请一个示例性实施例提供的风险判断模型的训练装置的框图;
图12是本申请一个示例性实施例提供的服务器的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行介绍:
信息熵:是指衡量信息不确定性的指标,单位是比特(bit)。示意性的,信息熵越大,则信息的不确定性越高。
条件熵:是指信息在某条件下的确定性,示意性的,以投掷骰子事件为例进行说明,一枚均匀的骰子在投掷后,六个面出现的概率是相等的,若为投掷骰子事件附加一个条件,该条件是骰子出现的点数是偶数,则骰子出现点数为偶数面的概率是一定的,则在该条件下投掷骰子事件的不确定性降低。
卡方检验(Chi-Square Test):是指统计样本的实际观测值和理论推断值之间的偏离程度,如果实际观测值和理论推断值的差值越大,则实际观测值和理论推断值之间的偏离程度越大。通常用于某个变量(或特征)值是否与另一变量(因变量)有显著的关系,示意性的,卡方检验可以检验喝牛奶是否与感冒发病率有显著的关系。卡方检验的公式如下:
其中,χ2代表卡方值,A代表观察频数(即特征值),E代表期望频数(即特征的期望值),pi代表第i个样本特征与因变量有关系的概率,n代表样本数量。
基尼系数(Gini):是指用于衡量数值之间的差距的指标,通常用于衡量一个国家或地区的居民收入差距。基尼系数最大为1,最小为0,示意性的,以基尼系数衡量一个地区的居民收入差距为例,基尼系数越接近0表明收入分配越是趋向平等,基尼系数越接近1表明收入分配越是趋向悬殊。基尼系数的公式如下:
其中,Gini(p)代表基尼系数,K代表样本中的种类个数,Pk代表样本点属于第k类的概率。
信息增益(Kullback–Leibler divergence,KLIC,或Information Gain):是指在某个条件下,信息不确定的减少程度,在决策树算法中用来选择特征的指标,信息增益越大表明特征的选择与信息的关联性越高。信息增益表明一个特征为分类模型带来的信息量,特征对应的信息量越多,该特征越重要,相应的信息增益的值越大。信息增益的公式如下:
IG(X)=H(c)-H(c|X)
其中,X代表样本的特征,c代表样本特征X的条件,H(c)代表信息熵,H(c|X)代表条件熵。
信息熵是指代表随机变量的复杂度(不确定度),对于一个确定的样本集c,信息熵H(c)是确定的;条件熵是指在某条件下,随机变量的不确定性,H(c|X)是指特征X在条件c的情况下的随机变量的不确定性。信息增益在选择数据的特征时存在偏向于某一特征,基于选择该特征的情况下可能会使模型的运算结果不够准确,可采用信息增益率(也被命名为信息增益比)对于带有偏向性的选择进行修正。其中,信息增益率的公式如下:
其中,X代表样本的特征,c代表样本特征X的条件,H(c)代表信息熵,H(c|X)代表条件熵,H(X)代表样本的特征是X时的信息熵,gr代表信息增益率。
梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT):是指通过决策树为基础函数构建的加法模型。GBDT模型可通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,GBDT的训练过程是通过降低偏差来不断提高最终分类器的精度。决策树(Decision Tree)是指一种树状结构,决策树的每一个节点对应着一个分类,非叶节点对应着某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。
在线网络业务包括各种类型的业务事件,不同类型的业务事件产生在不同的操作环境中,业务事件对应的平台(如应用程序、小程序或网页等)对业务事件的安全性进行识别,在业务事件的安全性较低或存在较高的风险时,通过对用户进行提醒或终止该业务事件等方式避免用户帐号、用户的资产或用户的个人信息处于风险中,本申请的实施例以业务事件是支付事件进行说明。
本申请提供了一种基于机器学习的风险识别方法,可应用于在线网络业务的业务场景。图1示出了本申请一个示例性实施例提供的基于机器学习的业务识别的方法的流程图,该方法应用于处理在线网络业务的服务器中,该方法包括以下步骤:
步骤101,获取在线网络业务上的业务事件。
在线网络业务是指通过网络进行办理的业务;业务事件是指用户在线操作时对应的事件。在线网络业务包括多种类型的业务事件,如支付事件、浏览文件或网页事件、下载文件事件、赠送礼物事件、社交聊天事件、进行游戏、注册登记事件等。
以业务事件是支付事件为例进行说明,在线支付业务是指支付方和收款方通过互联网在电子商务网站或应用程序中进行交易时,交易平台为支付方和收款方提供网上资金结算服务的一种业务。可选地,支付事件包括:在线购买商品、在线转账(将资金从一个账户转移到另一个账户中)、在线发送现金红包、在线缴费或充值、在线租赁物品中的至少一项。支付方和收款方在进行交易时,需要针对支付事件所在的支付场景的安全性进行识别,该识别工作由交易平台负责,可选地,该交易平台可以是社交类客户端、支付类客户端、电商类客户端、网上银行客户端、租赁客户端,也可以是交易平台对应的网站。
用户在进行上述业务事件时,需要登录用户帐号在线进行相应的操作。业务事件对应的平台对用户的操作环境(如用户使用的设备)进行检测或识别,若用户的操作环境属于风险环境,则对用户进行提醒或者终止用户进行对应的操作。
步骤102,从业务事件中提取n个维度的风险特征数据。
业务事件中均包括风险特征数据,风险特征数据是表征业务事件对应的平台能否根据风险特征数据识别该业务事件属于风险事件或者是非风险事件。
以业务事件是支付事件为例进行说明,可选地,上述支付事件存在的风险特征包括以下特征中的至少一项:支付方的支付环境(如用户A的账户登录的设备)、支付方的支付方式(如通过银行卡或通过客户端对应的账户)、支付方的支付行为(如密码支付或指纹支付)、收款方的身份(如收款方是否是用户B的账户)、支付方和收款方的交易行为(如用户A向用户B发送现金红包或用户A向用户B转账)。
上述风险特征数据是通过特征选择工程选择出的,特征选择工程是一项工程活动,可最大限度地从原始数据中提取特征供算法和模型使用。从上述支付事件中可提取n个维度的风险特征数据,构成n个维度的风险特征向量,可将该向量输入至风险判断模型中进行运算。
可选地,特征选择工程包括:基尼系数、卡方检验、信息增益或信息增益率(信息增益比)中的至少一项。示意性的,支持在线支付业务的客户端可通过基尼系数从至少一组样本支付事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过卡方检验从至少一组样本支付事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,通过信息增益或信息增益率从至少一组样本支付事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
步骤103,调用风险判断模型对n个维度的风险特征数据进行识别,得到业务事件属于风险事件的概率,风险判断模型是基于主动学习的策略得到的CatBoost模型。
可选地,n个维度包括:用户账户、使用设备、用户行为、行为模式、业务事件的类型中的至少一个维度,风险判断模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的。
可选地,风险判断类型模型可以是一个或多个模型,多个风险判断模型可以是同一类型的风险判断模型或不同类型的风险判断模型。本申请以风险判断模型是CatBoost模型为例进行说明。调用CatBoost模型对n个维度的风险特征数据进行识别,得到业务事件属于风险事件的概率。可选地,当风险特征数据的维度越多时,CatBoost模型识别风险的结果越准确。
示意性的,以业务事件是在线转账事件为例进行说明,用户A通过网上银行客户端向用户B转账一百元,网上银行客户端对该转账事件所在的支付场景的安全性进行识别。可选地,识别内容(即风险特征数据)包括以下内容中的至少一项:用户A的账户对应的帐号、信用度、支付时所使用的银行卡、银行卡的开户时间、账户类型、转账金额、最近一次使用该账户的时间、用户A的账户登录的设备、用户B的账户对应的帐号、信用度、收款时所使用的银行卡、银行卡的的开户时间、账户类型、入账金额、最近一次使用该账户的时间、用户B的账户登录的设备。在一个示例中,支付事件是在线充值事件,n的值为3,从在线充值事件中提取的3个维度的风险特征数据包括:支付账户、被充值的账户和充值金额,交易平台调用CatBoost模型对3个维度的风险特征数据进行识别,得到在线充值事件属于风险事件的概率是0.5。示意性的,n的值为6,从在线充值事件中提取的6个维度的风险特征数据包括:支付账户、被充值的账户、充值金额、支付账户使用的设备、支付账户的信用度、被充值的账户使用的设备。交易平台调用CatBoost模型对6个维度的风险特征数据进行识别,得到在线充值事件属于风险事件的概率是0.23。
示意性的,以业务事件是查看相册事件为例进行说明。在一个示例中,用户A通过相册应用程序查看用户B的私人相册,相册应用程序对查看相册事件的安全性进行识别。可选地,风险特征数据包括以下内容中的至少一项:用户A的帐号、用户A使用的设备、用户A的网络环境、用户A查看的相册私密性、用户B的验证方式。在一个示例中,用户B对私人相册设置了浏览密码,用户A在查看该相册时需要输入密码,相册应用程序识别用户A使用的设备是个人计算机,使用的网络是家庭网络,且用户A输入的密码正确,则相册应用程序对该查看相册事件识别为无风险事件。
可选地,基于主动学习的策略,风险判断模型可主动学习新的风险特征数据,通过获取CatBoost模型的对业务事件的概率的预测准确率,将预测准确率低于预设条件的业务事件添加至主动学习池,通过主动学习池对CatBoost模型进行再次训练。
CatBoost模型将预测准确率低于预设条件的支付事件添加至主动学习池,当主动学习池中的支付事件达到预设数量时,通过主动学习池对CatBoost模型进行再次训练。示意性的,预设条件是CatBoost模型对支付事件的预测准确率为60%,预设数量为10。在一个示例中,CatBoost模型预测支付事件的准确率是50%,则需要将该支付事件添加至主动学习池,当主动学习池中的支付事件的数量达到10时,通过主动学习池对CatBoost模型进行再次训练。
可选地,CatBoost模型预测支付事件的准确率是以信息熵来表示的。示意性的,CatBoost模型对支付事件进行识别,得到关于该支付事件的预测风险标定结果,该结果是支付事件属于风险事件的概率,计算支付事件的概率对应的信息熵。可选地,CatBoost模型设置有信息熵阈值,当信息熵大于信息熵阈值时,获取支付事件的风险标定结果,该风险标定结果可通过人工识别支付事件来获取,或者,通过其他预测支付事件的准确率高的模型来获取。调用CatBoost模型将标定有风险标定结果的支付事件,添加至主动学习池。
步骤104,根据概率对业务事件进行控制。
以业务事件是支付事件为例进行说明,交易平台根据概率对支付事件进行控制。可选地,控制方式包括以下方式中的至少一种:向支付方发送提示信息、向支付方发送验证信息、向收款方发送提示信息、向收款方发送验证信息、终止交易过程。
示意性的,当CatBoost模型得到支付事件属于风险事件的概率是0.23时,交易平台根据该概率向支付方发送提示信息,如请确认您要充值的账户。可选地,支付方可通过校验收款方的个人信息来确认被充值的账户,如收款方(被充值账户)是经过实名认证的,支付方通过填写收款方的名字来确认被充值的账户。
示意性的,当CatBoost模型得到支付事件属于风险事件的概率是0.5时,交易平台根据该概率终止交易过程,比如,交易平台通知支付方:您要充值的账户存在风险,本次交易终止。当支付方和收款方经过身份验证后,交易继续进行。
以业务事件是下载文件事件为例进行说明,下载平台根据概率对下载文件事件进行控制。可选地,控制方式包括以下方式中的至少一种:向用户发送提示信息、禁止用户下载、用户进行验证后才可下载。
示意性的,当CatBoost模型得到下载文件事件属于风险事件的概率是0.6时,下载平台根据该概率向用户发送提示信息,如您当前的下载环境存在风险,是否继续下载,用户可通过选择“是”与“否”来决定是否继续下载,或者,下载平台根据该概率向用户发送需要验证的提示信息,用户进行验证后才能继续下载,或者,终止用户从该平台下载文件。
综上所述,本申请实施例提供的方法,在在线网络业务中调用训练后的风险识别模型对业务事件进行识别,通过从业务事件中提取n个维度的风险特征数据作为风险判断模型的输入值,输出业务事件属于风险的概率。风险判断模型基于主动学习的策略,可识别新的风险特征数据,使得对业务事件进行风险识别的过程呈自动化状态,提高了风险判断模型识别业务事件的效率和准确率,使得风险判断模型可适用于识别更复杂的业务事件。
可选地,本申请实施例提供的CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的。其中,n个维度包括:用户帐号、使用设备、用户行为、行为模式中的至少一种维度。
以业务事件是支付事件为例,使用支付事件中的n个维度的样本风险特征数据对CatBoost模型进行训练,可选地,n个维度包括:支付账户、登录帐户、支付设备、交易行为、支付行为、支付账户的类型、支付账户的开户时间、支付账户最近一次进行交易的时间、收款账户、收款设备、收款行为、收款账户的类型、收款账户的开户时间、收款账户最近一次进行交易的时间中的至少一种维度。
示意性的,以n个维度包括:支付账户、支付账户的类型、支付账户的使用的设备、支付方式、收款账户、收款账户的类型、收款账户的使用的设备、收款方式为例进行说明。在一个示例中,获取三组样本支付事件的事件数据和风险标定结果,在三组样本支付事件中提取上述n个维度的样本风险特征数据,对CatBoost模型进行训练,将三组样本支付事件的n个维度的样本风险特征数据输入至CatBoost模型中,得到三组样本支付事件的预测风险标定结果,根据预测风险标定结果和风险标定结果对初始CatBoost模型进行训练。当CatBoost训练完成后,得到训练后的CatBoost模型,将训练后的CatBoost模型部署在在线支付业务中,训练后的CatBoost模型将对支付事件进行自动化识别,得到支付事件属于风险事件的概率,当该概率满足一定的条件时,对支付事件进行控制。
GBDT模型是通过以决策树为基础函数构建加法模型并通过前向分布算法生成提升树的模型。GBDT模型的训练过程是通过降低偏差来不断提高分类器的精度,因此GBDT模型中的弱分类其具有低方差和高偏差的特性,在训练时,GBDT模型可通过多轮迭代,每轮迭代产生一个弱分类器,每个分类器在上一轮分类器的残差基础上进行训练,其中加法模型可用如下公式表示:
其中,M为GBDT模型的迭代次数,T(x;θm)为第m个若分类器,x为样本特征,θm为弱分类器参数,Fm(x)为由多个弱分类器线性相加构成的强分类器。
提升树的前向分布算法,第m次迭代可以描述为:
Fm(x)=Fm-1(x)+T(x;θm)
其中,Fm-1(x)为前m-1个弱分类器的线性相加的结果。
基于上述迭代步骤GBDT模型的损失函数如下:
L(Fm(x),y)=L(Fm-1(x)+T(x;θm),y)
其中,L(Fm(x),y)为GBDT模型的损失,是将第m次的迭代函数带入至损失函数中得到的,y代表样本训练集中一个样本的向量。
本申请实施例中涉及的CatBoost模型是一种优化的GBDT模型。图2示出了本申请一个示例性实施例提供的GBDT模型的训练过程的示意图。
将全部样本111输入至CatBoost模型中,样本数据进入第一基础分类器112,经过第一学习模块115,产生第一残差和第一权重模块118,将第一残差输入至第二基础分类器113中,经过第二学习模块116,产生第二残差和第二权重模块119,将第二残差输入至第三基础分类器114中,经过第三学习模块117,产生第三残差和第三权重模块121,CatBoost模型根据残差相加可得到对全部样本111的预测值,全部样本111的预测值根据第一权重模块118、第二权重模块119和第三权重模块121中的权重比例,输入至集成模型122,再由集成模型122输出全部样本的预测值。
下面以业务事件是支付事件为例进行说明。图3示出了本申请另一个示例性实施例提供的基于机器学习的业务识别方法。该方法应用于支付服务器中,该方法包括以下步骤:
步骤301,获取在线支付业务上的支付事件。
可选地,支付事件可通过支持在线支付业务的客户端或交易平台来获取,用户通过客户端或支持在线支付业务的网站进行支付操作,服务器接收客户端上报的支付事件。可选地,支付事件包括:在线购买商品、在线转账、在线发送现金红包、在线缴费或充值、在线租赁物品中的至少一项。
步骤302,从支付事件中提取n个维度的风险特征数据。
可选地,从支付事件中提取n个维度的风险特征数据可以是客户端或网站根据用户的支付事件进行提取,或者,服务器根据用户的支付事件进行提取。可选地,n个维度包括:支付账户、登录账户、支付设备、交易行为中的至少一个维度。可选地,风险特征数据包括:用户的支付环境、用户的支付方式、用户的支付行为、用户的身份验证信息、用户的支付事件中的至少一项。
示意性的,用户在支持在线支付业务的客户端上进行的支付事件是在线发送红包,客户端根据该支付事件提取3个维度的风险特征数据(n取3),分别是:用户的支付环境、用户的支付行为、用户的身份验证信息,如,支付方使用的支持在线支付业务的客户端是安装在智能手机中,该智能手机的系统是安卓操作系统,支付方使用输入密码的方式来授权客户端进行该支付事件,收款方与支付方在上述支持在线支付业务的客户端具有好友关系,支付方已知收款方的账户。
步骤303,将n个维度的风险特征数据输入至CatBoost模型中。
示意性的,将上述从支付事件中提取出的3个维度的风险特征数据输入至CatBoost模型中,支持在线支付业务的客户端调用CatBoost模型对该支付事件进行是识别。
步骤304,输出支付事件属于风险事件的概率。
示意性的,客户端调用CatBoost模型输出上述支付事件属于风险事件的概率p,则支付事件属于非风险事件的概率为1-p。
步骤305,计算CatBoost模型的置信度。
可选地,CatBoost模型识别不同类型的支付事件的准确率是不同的,识别同一类型的不同支付事件的准确率是不同的,与输入CatBoost模型中的风险特征数据有关。通过计算CatBoost模型的置信度来表示CatBoost模型识别支付事件的准确率或可靠程度,可选地,在本申请实施例中,CatBoost模型的置信度是用信息熵来表示的。信息熵是指信息量化的指标,信息熵可用于衡量信息中所包括的信息量,信息熵可用如下公式进行表示:
其中,p(xi)是支付事件属于风险事件的概率,xi代表支付事件的特征向量。
当p(xi)的值取0.5时,计算得到信息熵的值为1,此时CatBoost模型易于产生对支付事件进行误分类的情况(也即无法识别支付事件属于风险事件);当p(xi)的值取0或1时,计算得到信息熵的值为0,此时CatBoost模型可对支付事件进行正确分类(也即识别支付事件属于风险事件)。信息熵的值越高,支付事件中所包括的信息量就越大,CatBoost模型易于造成误导,使得CatBoost模型无法对支付事件进行准确地分类。
步骤306,根据CatBoost模型的置信度,判断支付事件是否识别结束。
可选地,对CatBoost模型设置信息熵阈值,当CatBoost模型的信息熵高于信息熵阈值时,CatBoost模型可对支付事件进行正确分类(也即识别支付事件属于风险事件),进入步骤307a;当CatBoost模型的信息熵低于信息熵阈值时,CatBoost模型对支付事件产生误分类(也即无法识别支付事件属于风险事件),进入步骤307b。
步骤307a,显示关键特征和备注。
示意性的,当CatBoost模型对支付事件识别成功时,显示该支付事件的关键特征和备注,如,关键特征是支付事件中支付方通过指纹来验证身份,CatBoost模型根据支付事件中指纹验证授权的关键特征对支付事件成功识别。可选地,CatBoost模型可对该关键特征进行标记,或者显示该关键特征,在CatBoost模型识别类似的支付事件时,CatBoost模型可根据之前识别的支付事件中的关键特征来对当前支付事件进行识别。
可选地,备注信息包括:支付事件的名称、支付事件的类型、支付事件属于风险事件的概率、支付事件的风险特征数据中的至少一项。
步骤307b,CatBoost模型获取支付事件的异常特征。
可选地,当CatBoost模型无法正确识别支付事件时,获取支付事件的异常特征。示意性的,CatBoost模型识别的支付事件是在线购买商品,支付事件中的异常特征是支付方使用的设备不是常用设备,如用户常用的支付设备是智能手机,在线购买商品时,在个人计算机上进行支付过程,CatBoost模型识别用户的常用设备发生变化,获取在该支付事件中常用设备发生变化的异常特征。
步骤308,将支付事件与异常特征发送至审核人员。
当CatBoost模型无法对支付事件进行识别时,可根据支付事件的信息熵来获取支付事件的风险标定结果。可选地,当支付事件的信息熵大于信息熵阈值时,通过接收人工标定结果获取业务事件的风险标定结果。
示意性的,客户端调用CatBoost模型将支付事件与异常特征发送至审核人员,如将支付事件是在线购买商品和该支付事件中常用设备发生变化的异常特征发送至审核人员处。
可选地,当信息熵大于信息熵阈值时,通过N个风险判断模型获取业务事件的风险标定结果,N≥2,且N为整数。
通过N两个风险判断模型获取业务事件的方法包括以下两种:
第一,根据风险判断模型的权重获取业务事件的风险标定结果。
获取N个风险判断模型中每个风险判断模型对应的权重和每个风险判断模型对业务事件的风险标定结果,计算N个风险判断模型中每个风险判断模型对应的权重和对应的风险标定结果的乘积,根据N个乘积的和,得到业务事件的风险标定结果。
第二,根据不同风险判断模型的标定结果获取业务事件的风险标定结果。
获取奇数个不同的风险判断模型对业务事件的风险标定结果;统计风险标定结果属于风险的数量和风险标定结果属于非风险的数量;当风险标定结果属于风险的数量大于风险标定结果属于非风险的数量时,得到业务事件属于风险事件;当风险标定结果属于非风险的数量大于风险标定结果属于风险的数量,得到业务事件属于非风险事件。
步骤309,通过人工处理的方式对支付事件进行标记,结束识别。
示意性的,审核人员对支付事件进行识别,判断该支付事件是否属于风险事件,如,审核人员对在线购买商品的支付事件进行识别,用户在支付过程中更换了设备,用户(支付方)的身份验证无误,收款方的身份验证无误,审核人员判断该支付事件不属于风险事件,并且对支付事件进行标记,审核人员将该支付事件标记为无风险事件。在一个示例中,审核人员对在线购买商品的支付事件进行识别,用户在支付过程中更换了设备,更换后的设备所在的互联网协议IP地址具有安全隐患,审核人员判断该支付事件属于风险事件,并且对支付事件进行标记,审核人员将该支付事件标记为风险事件。
可选地,审核人员在标记支付事件属于风险事件的事件时,可将支付事件属于风险事件的概率也进行标记。
步骤310,向CatBoost模型发送支付事件的标签和特征,迭代更新CatBoost模型。
可选地,通过人工处理的方式识别支付事件后,向CatBoost模型发送支付事件的标签和风险特征,使得CatBoost模型可进行迭代更新。
在一个示例中,审核人员识别的支付事件是在线购买商品,审核人员判断该支付事件属于无风险事件,即用户的在线交易是安全的,审核人员在完成对该支付事件的识别后,将该支付事件发送至CatBoost模型,该支付事件中携带有支付事件的标签和风险特征数据,CatBoost模型基于主动学习方法根据该支付事件和风险特征数据进行训练,使得CatBoost模型可保持迭代更新,识别更多更复杂的支付事件。
下面对风险判断模型基于主动学习策略的训练方法进行说明。CatBoost模型是基于主动学习的策略得到,可通过主动学习池来更新迭代模型。CatBoost模型将预测准确率低于预设条件的业务事件添加至主动学习池,通过主动学习池对CatBoost模型进行再次训练。
CatBoost模型需要通过训练才可进行对支付事件的识别,本申请实施例提供了一种风险判断模型的训练方法,风险判断模型对业务事件进行识别时可通过主动学习的方法进行再次训练。图4示出了本申请一个示例性实施例提供的风险判断模型的训练方法,该方法包括以下步骤:
步骤401,获取训练后的风险判断模型,风险判断模型是CatBoost模型。
基于主动学习策略的风险判断模型是经过训练的CatBoost模型。
步骤402,调用训练后的CatBoost模型对业务事件进行预测。
可选地,CatBoost模型对业务事件属于风险的概率或业务事件属于非风险的概率进行预测。本申请实施例以风险判断模型对业务事件属于风险的概率进行预测。
步骤403,基于主动学习的策略对CatBoost模型进行再次训练。
CatBoost模型对业务事件进行预测时,可基于主动学习的策略对CatBoost模型进行再次训练。
结合图5对基于主动学习策略的CatBoost模型进行说明,图5示出了本申请一个示例性实施例提供的基于主动学习的策略对CatBoost模型进行训练的方法的流程图。该方法包括以下步骤:
步骤501,获取CatBoost模型对概率的预测准确率。
概率是指将业务事件的风险特征数据输入至风险判断模型时,获得的业务事件属于风险的概率,可选地,该概率也可以是业务事件属于非风险的概率,本申请以概率是业务事件属于风险的概率。
可选地,CatBoost模型识别业务事件的概率的预测准确率用置信度来表示,置信度以信息熵来表示,信息熵可根据业务事件属于风险的概率计算得到。
步骤502,将预测准确率低于预设条件的业务事件添加至主动学习池中。
可选地,预设条件包括:CatBoost模型识别支付事件的准确率低于50%。示意性的,支付事件是在线充值,CatBoost模型对该支付事件进行识别,CatBoost模型预测该支付事件的准确率是40%,则CatBoost模型自动获取在线充值的支付事件。
示意性的,CatBoost模型将在线充值的支付事件添加至主动学习池中,主动学习池用于存储CatBoost模型所识别的预测准确率低于预设条件的支付事件,CatBoost模型可以基于主动学习池中的支付事件进行主动学习。
可选地,CatBoost模型还可通过置信度来获取预测准确率低于预设条件的支付事件,示意性的,CatBoost模型中设置信息熵阈值。CatBoost模型对支付事件进行识别,输出支付事件属于风险的概率p,根据概率p计算信息熵的值,当信息熵大于信息熵阈值时,CatBoost模型获取该事件,并将该支付事件添加至主动学习池中。
步骤503a,当主动学习池中的业务事件达到预设数量时,通过主动学习池对CatBoost模型进行再次训练。
可选地,预设数量是任意正整数。示意性的,预设数量是10,当主动学习池中的支付事件的数量达到10时,主动学习池中的业务事件将被清空,主动学习池中的业务事件将添加至风险判断模型的样本训练集合中,因此可通过主动学习池对CatBoost模型进行再次训练。
可选地,预设数量用批量数据batchsize表示,批量数据batchsize是指每次输入至模型中的训练的样本的数量,batchsize的选择影响CatBoost模型的优化程度和运行速度。
步骤503b,当主动学习池距离上一次清空时间达到目标时长时,通过主动学习池对CatBoost模型进行再次训练。
可选地,目标时长是任意整数。示意性的,以目标时长是七天,假设主动学习池上一次清空的时间是2019年8月22日,当时间是2019年8月30日时,已达到目标时长,主动学习池中的业务事件将被清空,主动学习池中的业务事件将添加至CatBoost模型的样本训练集合中,因此可通过主动学习池对CatBoost模型进行再次训练。
综上所述,通过主动学习方法对CatBoost模型进行训练,使得CatBoost模型可主动学习新的风险数据特征,无需人工干预,从而使得经过训练后的CatBoost模型可识别更复杂的业务事件。
结合图6、图7和图8分别对风险判断模型将预测准确率低于预设条件的业务事件添加至主动学习池的方法进行说明。
图6示出了本申请一个示例性实施例提供的风险判断模型将业务事件添加至主动学习池的方法的流程图。该方法是基于图5中的步骤502之后进行的,该方法包括以下步骤:
步骤5021,计算业务事件的概率对应的信息熵。
可选地,该步骤中的概率是指业务事件属于风险的概率。示意性的,业务事件属于风险的概率是p,根据信息熵的公式,可计算业务事件的信息熵H。
步骤5022a,当信息熵大于信息熵阈值时,通过接收人工标定结果获取业务事件的风险标定结果。
示意性的,信息熵阈值设置为0.5,当业务事件的信息熵H大于0.5时,可通过接收人工标定结果获取业务事件的风险标定结果,如图3中的步骤308所示,将业务事件发送至审核人员处,由审核人员对该业务事件进行识别。可选地,在审核人员识别该业务事件后,审核人员向CatBoost模型发送支付事件的标签和特征来更新CatBoost模型。
步骤5022b,当信息熵大于信息熵阈值时,通过N个风险判断模型获取业务事件的风险标定结果,N≥2,且N为整数。
示意性的,信息熵阈值设置为0.6,当业务事件的信息熵大于0.6时,可选择至少两个风险判断模型对该业务事件进行识别,根据风险判断模型识别的结果获取业务事件的风险标定结果。
步骤5023,将标定有风险标定结果的业务事件,添加至主动池。
由于CatBoost模型未识别出业务事件风险标定结果,通过人工处理的方式及其他风险判断模型识别的方式来获取业务事件的标定结果,将该业务事件添加至主动学习池,供CatBoost模型主动学习。
下面对风险判断模型获取业务事件的标定结果进行说明。
图7示出了本申请一个示例性实施例提供的根据风险判断模型获取标定结果的方法的流程图。该方法是基于图6中的步骤5022b之后进行的,该方法包括以下步骤:
步骤5024a,获取N个风险判断模型中每个风险判断模型对应的权重。
可选地,N≥2,且N为整数。可选地,N个风险判断模型可以是相同的类型或不同的类型,或者,至少两个风险判断模型是同一类型风险判断模型中的同一个风险判断模型或不同的风险判断模型。
示意性的,选择两个不同类型的风险判断模型,N的值为3。在一个示例中,第一风险判断模型对应的第一权重是0.6,第二风险判断模型对应的第一权重是0.5,第三风险判断模型对应的第一权重是0.7。
步骤5024b,获取N个风险判断模型中每个风险判断模型对业务事件的风险标定结果。
将上述业务事件的样本风险数据特征输入至两个风险判断模型,可获取第一风险判断模型的第一风险标定结果、第二风险判断模型的第二标定结果和第三风险判断模型的第三风险标定结果。在一个示例中,第一风险标定结果是上述业务事件属于风险的概率是0.3,第二风险标定结果是上述业务事件属于风险的概率是0.5。第三风险标定结果是上述业务事件属于风险的概率是0.7。
步骤5025,计算N个风险判断模型中每个风险判断模型对应的权重和对应的风险标定结果的乘积。
第一风险标定结果与第一权重的第一乘积是0.3与0.6的乘积,即0.18;第二风险标定结果与第二权重的第二乘积是0.4与0.5的乘积,即0.2;地三风险标定结果与第三权重的第三乘积是0.7和0.7的乘积,即0.49。
步骤5026,根据N个乘积的和,得到业务事件的风险标定结果。
三个乘积的和是0.87,则获取到业务事件的风险标定结果是0.87,即业务事件属于风险的概率是0.87,也即业务事件属于风险事件。
图8示出了本申请另一个示例性实施例提供的根据风险判断模型获取标定结果的方法的流程图。该方法是基于图6中的步骤5022b之后进行的,该方法包括以下步骤:
步骤5024B,获取奇数个不同的风险判断模型对业务事件的风险标定结果。
可选地,不同的风险判断模型是不同类型的风险判断模型,或者,是同一类的风险判断模型中的不同个风险判断模型。
示意性的,选择五个不同类型的风险判断模型,通过五个风险判断模型分别对业务事件进行标定,得到五个风险标定结果,该五个风险标定结果中有三个风险标定结果是该业务事件属于无风险事件,两个风险标定结果是该业务事件属于风险事件。
步骤5025B,统计风险标定结果属于风险的数量和风险标定结果属于非风险的数量。
示意性的,风险标定结果属于风险的数量是两个,风险标定结果属于非风险的数量是三个。
步骤5026B,当风险标定结果属于风险的数量大于风险标定结果属于非风险的数量时,得到业务事件属于风险事件。
在一个示例中,风险标定结果属于风险的数量是三个,风险标定结果属于非风险的数量是两个,则风险判断模型得到业务事件属于风险事件。
步骤5026C,当风险标定结果属于非风险的数量大于风险标定结果属于风险的数量时,得到业务事件属于非风险事件。
在一个示例中,风险标定结果属于非风险的数量是五个,风险标定结果属于风险的数量是零个,则风险判断模型得到业务事件属于非风险事件。
综上所述,通过判断业务事件的信息熵与信息熵阈值的关系,获取业务事件的风险标定结果,从而将具有风险标定结果的业务事件添加至主动学习池中供CatBoost模型学习,并且提供了人工处理和风险判断模型处理两种方式来获取业务事件的风险标定结果,提高了CatBoost模型主动学习的效率。
图9示出了本申请另一个示例性实施例提供的风险判断模型的训练方法,该方法是对初始风险判断模型进行训练,该方法包括以下步骤:
步骤901,获取至少一组样本业务事件的事件数据和风险标定结果。
可选地,样本支付事件的事件数据和风险标定结果可通过支持在线支付业务的客户端获取,或者,通过服务器获取。可选地,样本支付事件的事件数据和风险标定结果可以是通过人工处理的方式得到的,或者,是其他风险判断模型得到的。示意性的,服务器中记录的支付事件的事件数据和风险标定结果,从服务器中选取五组样本支付事件的事件数据和风险标定结果来训练。在一个示例中,五组样本支付事件的事件分别是在线转账、在线购买商品、在线充值、在线租赁物品和在线发送现金红包。五组样本支付事件的风险标定结果分别是:在线转账的支付事件属于无风险事件、在线购买商品的支付事件属于风险事件、在线充值的支付事件属于风险事件、在线租赁物品的支付事件属于无风险事件、在发送现金红包的支付事件属于无风险事件。
步骤902,通过特征选择工程从至少一组样本支付事件的事件数据中,提取风险识别的关联性高于条件的n个维度的样本风险特征数据。
可选地,特征选择工程包括:基尼系数、卡方检验、信息增益或信息增益率中的至少一种。可选地,通过基尼系数从至少一组样本支付事件的事件数据中,提取风险识别的关联性高于条件的n个维度的样本风险特征数据,或者,通过卡方检验从至少一组样本支付事件的事件数据中,提取风险识别的关联性高于条件的n个维度的样本风险特征数据,或者,通过信息增益或信息增益率从至少一组样本支付事件的事件数据中,提取风险识别的关联性高于条件的n个维度的样本风险特征数据。
可选地,关联性高于条件包括以下形式中的至少一种:第一,当基尼系数大于基尼系数阈值时,所提取的n个维度的样本风险特征数据与风险识别的无关联性;第二,当卡方值大于卡方阈值时,所提取的n个维度的样本风险特征数据与风险识别具有关联性;第三,当信息增益大于信息增益阈值时,所提取的n个维度的样本风险特征数据与风险识别具有关联性;第四,当信息增益率大于信息增益率阈值时,所提取的n个维度的样本风险特征数据与风险识别具有关联性。
在一个示例中,五组样本支付事件的事件分别是在线转账、在线购买商品、在线充值、在线租赁物品和在线发送现金红包。通过卡方检验从五组样本支付事件的事件数据中,提取出3个维度的样本风险特征数据,如支付账户、收款账户、支付环境。
步骤903,通过n个维度的样本风险特征数据和风险标定结果对初始CatBoost模型进行训练。
可选地,CatBoost模型中包括至少一个分类器。调用CatBoost模型中的至少一个分类器对n个维度的样本风险特征数据进行提取,得到特征残差,调用CatBoost模型中的至少一个分类器对特征残差进行处理,得到预测风险标定结果,根据预测风险标定结果和风险标定结果的误差,对初始CatBoost模型进行训练。
在一个示例中,CatBoost模型包括三个分类器,如图2所示。获取样本风险特征数据和风险标定结果,当3个维度的样本风险特征数据输入至第一个分类器时,调用CatBoost模型中的至少一个分类器对3个维度的样本风险特征数据进行提取,得到第一残差,调用CatBoost模型中的第二个分类器对第一残差进行处理,得到第二残差,调用CatBoost模型中第三个分类器对第二残差进行处理,得到预测风险标定结果,根据预测风险标定结果和风险标定结果之间的误差,对初始CatBoost模型进行训练。
步骤904,在满足训练结束条件时,得到训练后的CatBoost模型。
可选地,结束条件包括:当CatBoost模型的置信度达到95%时,结束对CatBoost模型的训练。
可选地,在CatBoost模型识别支付事件的过程中,CatBoost模型采用主动学习的方法进行训练。
综上所述,通过特征选择工程可提取出关联性高于条件的n个维度的样本特征数据,用该样本特征数据和风险标定结果对初始CatBoost模型进行训练,可提高CatBoost模型对样本业务事件识别的准确率。
以业务事件是支付事件为例,对通过特征选择工程提取关联性高于预设条件的n个维度的样本风险数据进行说明。可选地,特征选择工程包括:基尼系数、卡方检验、信息增益或信息增益率中的至少一种。
下面对通过基尼系数提取风险识别的关联性高于条件的n个维度的样本风险特征数据进行说明。
在一个示例中,支付事件是在线购买商品,存在20组在线购买商品的支付事件,利用基尼系数从20组在线转账的支付事件的事件数据中提取出风险识别的关联性高于条件的10个维度的样本风险特征数据。示意性的,条件为关联性高于95%。将20组在线购买商品的支付事件的事件数据输入至CatBoost模型中,一组在线购买商品的支付事件中包括的风险特征是支付账户的类型和收款方账户的类型,可计算出每组支付事件出现风险特征是支付账户的类型和收款方账户的类型的概率,根据基尼系数的计算公式,可计算出基尼系数,当基尼系数趋于0时,表示该组出现风险特征是支付账户的类型和收款方账户的类型的概率趋于1(如该概率为0.96),则可证明风险特征是支付账户的类型和收款方账户的类型的风险特征与在线购买商品的支付事件具有关联性。同理,则CatBoost模型可从20组在线购买商品的支付事件的事件数据中提取出风险识别的关联性高于95%的10个维度的样本风险特征数据。
综上所述,CatBoost模型可通过基尼系数从至少一组样本支付事件的事件数据中提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,且计算过程比较简单,选择出风险数据的准确率较高。
下面对通过卡方检验提取风险识别的关联性高于条件的n个维度的样本风险特征数据进行说明。
在一个示例中,支付事件是在线转账,存在10组在线转账的支付事件,利用卡方检验从10组在线转账的支付事件的事件数据中提取出风险识别的关联性高于条件的5个维度的样本风险特征数据。示意性的,条件为关联性高于95%。将10组在线转账的支付事件的事件数据输入至CatBoost模型中,一组在线转账的支付事件中包括的风险特征是支付方的账户,理论上该支付事件属于风险事件的概率是50%,根据卡方检验的公式可知,期望频数的值为50%,而该支付事件的观察频数(即该支付事件实际属于风险事件的概率)是A,在线转账的支付事件属于风险事件的概率是已知的,则可计算出卡方值χ2,根据支付事件的数量可计算出事件对应的自由度。根据卡方值、自由度和置信度(置信度可自行选择或设置,一般选择置信度为95%)去查阅对应的表格,若卡方值小于表格中的对应数据,则表示支付方账户是可以判断支付事件是否属于风险事件的风险特征(具有95%的把握),同理,则CatBoost模型可从10组在线转账的支付事件的事件数据中提取出风险识别的关联性高于95%的5个维度的样本风险特征数据(CatBoost模型提取样本风险数据特征的把握是95%)。
综上所述,CatBoost模型可通过卡方检验从至少一组样本支付事件的事件数据中提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,且计算结果比较直观,选择出风险数据的准确率较高。
下面对通过信息增益检验提取风险识别的关联性高于条件的n个维度的样本风险特征数据进行说明。
在一个示例中,支付事件是在线充值,存在30组在线充值的支付事件,利用增益信息从30组在线充值的支付事件的事件数据中提取出风险识别的关联性高于条件的15个维度的样本风险特征数据。示意性的,条件为信息增益大于0.6。将30组在线转账的支付事件的事件数据输入至CatBoost模型中,根据信息熵公式,一组在线充值的支付事件中包括的风险特征是交易行为,可计算出一组在线充值的支付事件的信息熵H(c),当以包括风险特征是交易行为作为条件时,可计算出该组支付事件的条件信息熵H(c|X),根据信息增益公式,可计算出信息增益值,信息增益值表示在加入风险特征X(交易行为)后,信息熵减小的程度。可以理解的是,信息熵减小的程度越大,即信息增益值越大,则信息增益对应的信息的不确定性越低,从而使得所选取的风险特征X与该组支付事件的关联性越高。同理,则CatBoost模型可以从30组在线购买商品的支付事件的事件数据中提取出风险识别的关联性高于条件的(增益信息大于0.6)的15个维度的样本风险特征数据。
下面对通过信息增益率提取风险识别的关联性高于条件的n个维度的样本风险特征数据进行说明。信息增益在选择数据的特征时存在偏向于某一特征,基于选择该特征的情况下可能会使模型的运算结果不够准确,可采用信息增益率(也被命名为信息增益比)对于带有偏向性的选择进行修正。
与信息增益的原理类似,以支付事件是在线充值存在30组在线充值的支付事件,利用增益信息从30组在线充值的支付事件的事件数据中提取出风险识别的关联性高于条件的15个维度的样本风险特征数据为例进行说明。在线充值的支付事件中包括的风险特征是支付方式,根据信息熵公式,可计算出风险特征X是支付方式对应的信息熵,根据增益信息率公式可知,风险特征X对应的信息熵的值是常数,分子对应的数值越大,则增益信息率越大,分子对应的是信息增益公式,因此增益信息率与增益信息从支付事件的事件数据中提取出风险特征数据的原理相同,此处不再赘述。
综上所述,CatBoost模型可通过增益信息和增益信息率从至少一组样本支付事件的事件数据中提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,且选择风险特征的准确率较高。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图10示出了本申请的一个示例性实施例提供的基于机器学习的业务识别装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,该装置应用于在线网络业务的场景,该装置包括:
第一获取模块1010,用于获取在线网络业务上的业务事件;
第一提取模块1020,用于从业务事件中提取n个维度的风险特征数据;
风险判断模型1030,用于对n个维度的风险特征数据进行识别,得到业务事件属于风险事件的概率,该风险判断模型1030是基于主动学习的策略得到的CatBoost模型;
控制模块1040,用于根据概率对业务事件进行控制。
在一个可选的实施例中,该装置还包括第一添加模块1060和第一训练模块1050;所述第一获取模块1010,还用于获取风险判断模型对概率的预测准确率;所述第一添加模块1060,用于将预测准确率低于预设条件的业务事件添加至主动学习池;所述第一训练模块1050,用于通过主动学习池对CatBoost模型进行再次训练。
在一个可选的实施例中,所述第一训练模块1050,还用于当主动学习池中的业务事件达到预设数量时,通过主动学习池对CatBoost模型进行再次训练;或,当主动学习池距离上一次清空时间达到目标时长时,通过主动学习池对CatBoost模型进行再次训练。
在一个可选的实施例中,该装置还包括第一计算模块1070;所述第一计算模块1070,用于计算业务事件的概率对应的信息熵;所述第一获取模块1010,还用于当信息熵大于信息熵阈值时,获取业务事件的风险标定结果;所述第一添加模块1060,还用于将标定有风险标定结果的业务事件,添加至主动学习池。
在一个可选的实施例中,所述第一获取模块1010,还用于当信息熵大于信息熵阈值时,通过接收人工标定结果获取业务事件的风险标定结果;或,当信息熵大于信息熵阈值时,通过N个风险判断模型获取业务事件的风险标定结果,N≥2,且N为整数。
在一个可选的实施例中,所述第一获取模块1010,还用于获取N个风险判断模型中每个风险判断模型对应的权重;还用于获取N个风险判断模型中每个风险判断模型对业务事件的风险标定结果;所述第一计算模块1070,还用于计算N个风险判断模型中每个风险判断模型对应的权重和对应的风险标定结果的乘积;所述风险判断模型1030,还用于根据N个乘积的和,得到业务事件的风险标定结果。
在一个可选的实施例中,所述第一获取模块1010,还用于获取奇数个不同的风险判断模型对业务事件的风险标定结果;所述第一计算模块1070,还用于统计风险标定结果属于风险的数量和风险标定结果属于非风险的数量;所述风险判断模型1030,还用于当风险标定结果属于风险的数量大于风险标定结果属于非风险的数量时,得到业务事件属于风险事件;当风险标定结果属于非风险的数量大于风险标定结果属于风险的数量时,得到业务事件属于非风险事件。
在一个可选的实施例中,CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,n个维度包括:用户账户、使用设备、用户行为、行为模式中的至少一种维度。
在一个可选的实施例中,所述第一获取模块1010,还用于获取至少一组样本业务事件的事件数据和风险标定结果;所述第一提取模块1020,还用于通过特征选择工程从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;所述第一训练模块1050,还用于通过n个维度的样本风险特征数据和风险标定结果,对初始的CatBoost模型进行训练;所述第一训练模块1050,还用于在满足训练结束条件时,得到训练后的CatBoost模型。
在一个可选的实施例中,所述第一提取模块1020,还用于通过基尼系数从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过卡方检验从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过信息增益或信息增益率从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
图11示出了本申请的一个示例性实施例提供的风险判断模型的训练装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分,该装置包括:
第二获取模块1110,用于获取训练后的风险判断模型,所述风险判断模型是CatBoost模型;调用训练后的CatBoost模型对业务事件进行预测;
第二训练模块1130,用于基于主动学习的策略对CatBoost模型再次训练。
在一个可选的实施例中,该装置还包括第二添加模块1150;所述第二获取模块1110,还用于获取CatBoost模型对业务事件的预测准确率;所述第二添加模块1150,用于将预测准确率低于预设条件的业务事件添加至主动学习池中;所述第二训练模块1130,还用于通过主动学习池对CatBoost模型进行再次训练。
在一个可选的实施例中,所述第二训练模块1130,还用于当主动学习池中的业务事件达到预设数量时,通过主动学习池对CatBoost模型进行再次训练;或,当主动学习池距离上一次清空时间达到目标时长时,通过主动学习池对CatBoost模型进行再次训练。
在一个可选的的实施例中,该装置还包括第二计算模块1160;所述第二计算模块1160,用于计算业务事件的概率对应的信息熵;所述第二获取模块1110,还用于当信息熵大于信息熵阈值时,获取业务事件的风险标定结果;所述第二添加模块1150,还用于将标定有风险标定结果的业务事件,添加至主动学习池。
在一个可选的实施例中,所述第二获取模块1110,还用于当信息熵大于信息熵阈值时,通过接收人工标定结果获取业务事件的风险标定结果;或,当信息熵大于信息熵阈值时,通过N个风险判断模型获取业务事件的风险标定结果,N≥2,且N为整数。
在一个可选的实施例中,所述第二获取模块1110,还用于获取N个风险判断模型中每个风险判断模型对应的权重;还用于获取N个风险判断模型中每个风险判断模型对业务事件的风险标定结果;所述第二计算模块1160,还用于计算N个风险判断模型中每个风险判断模型对应的权重和对应的风险标定结果的乘积;所述风险判断模型1140,用于根据N个乘积的和,得到业务事件的风险标定结果。
在一个可选的实施例中,所述第二获取模块1110,还用于获取奇数个不同的风险判断模型对业务事件的风险标定结果;所述第二计算模块1160,还用于统计风险标定结果属于风险的数量和风险标定结果属于非风险的数量;所述风险判断模型1140,还用于当风险标定结果属于风险的数量大于风险标定结果属于非风险的数量时,得到业务事件属于风险事件,当风险标定结果属于非风险的数量大于风险标定结果属于风险的数量时,得到业务事件属于非风险事件。
在一个可选的实施例中,所述风险判断模型1140是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,其中,n个维度包括:用户帐号、使用设备、用户行为、行为模式中的至少一种维度。
在一个可选的实施例中,该装置还包括第二提取模块1120;所述第二获取模块1110,还用于获取至少一组样本业务事件的事件数据和风险标定结果;所述第二提取模块1120,用于通过特征选择工程从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;所述第二训练模块1130,还用于通过n个维度的样本风险特征数据和风险标定结果,对初始的CatBoost模型进行训练;还用于在满足训练结束条件时,得到训练后的CatBoost模型。
在一个可选的实施例中,所述风险判断模型1140中包括至少一个分类器;所述分类器,用于对n个维度的样本风险特征数据进行提取,得到特征残差;所述分类器,还用于对特征残差进行处理,得到预测风险标定结果;所述第二训练模块1130,还用于根据预测风险标定结果和风险标定结果之间的误差,对初始的CatBoost模型进行训练。
在一个可选的实施例中,所述第二提取模块1120,还用于通过基尼系数从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过卡方检验从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;或,还用于通过信息增益或信息增益率从至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以是后台服务器集群140中的服务器。具体来讲:
服务器1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1207及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说,大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请的各种实施例,服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的基于机器学习的业务识别方法,或者,风险判断模型的训练方法。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的基于机器学习的业务识别方法,或者,风险判断模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种基于机器学习的业务识别方法,其特征在于,所述方法包括:
获取在线网络业务上的业务事件;
从所述业务事件中提取n个维度的风险特征数据;
调用风险判断模型对所述n个维度的风险特征数据进行识别,得到所述业务事件属于风险事件的概率,所述风险判断模型是基于主动学习的策略得到的CatBoost模型;
根据所述概率对所述业务事件进行控制。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述CatBoost模型对所述概率的预测准确率;
将所述预测准确率低于预设条件的所述业务事件添加至主动学习池;
通过所述主动学习池对所述CatBoost模型进行再次训练。
3.根据权利要求2所述的方法,其特征在于,所述通过所述主动学习池对所述CatBoost模型进行再次训练,包括:
当所述主动学习池中的业务事件达到预设数量时,通过所述主动学习池对所述CatBoost模型进行再次训练;
或,
当所述主动学习池距离上一次清空时间达到目标时长时,通过所述主动学习池对所述CatBoost模型进行再次训练。
4.根据权利要求2所述的方法,其特征在于,所述将所述预测准确率低于预设条件的所述业务事件添加至主动学习池,包括:
计算所述业务事件的概率对应的信息熵;
当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果;
将标定有所述风险标定结果的所述业务事件,添加至所述主动学习池。
5.根据权利要求4所述的方法,其特征在于,所述当所述信息熵大于信息熵阈值时,获取所述业务事件的风险标定结果,包括:
当所述信息熵大于所述信息熵阈值时,通过接收人工标定结果获取所述业务事件的风险标定结果;
或,
当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,N≥2,且N为整数。
6.根据权利要求5所述的方法,其特征在于,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,包括:
获取所述N个风险判断模型中每个风险判断模型对应的权重;
获取所述N个风险判断模型中所述每个风险判断模型对所述业务事件的风险标定结果;
计算所述N个风险判断模型中所述每个风险判断模型对应的权重和对应的风险标定结果的乘积;
根据N个所述乘积的和,得到所述业务事件的风险标定结果。
7.根据权利要求5所述的方法,其特征在于,所述当所述信息熵大于所述信息熵阈值时,通过N个风险判断模型获取所述业务事件的风险标定结果,还包括:
获取奇数个不同的风险判断模型对所述业务事件的风险标定结果;
统计所述风险标定结果属于风险的数量和所述风险标定结果属于非风险的数量;
当所述风险标定结果属于风险的数量大于所述风险标定结果属于非风险的数量时,得到所述业务事件属于风险事件;
当所述风险标定结果属于非风险的数量大于所述风险标定结果属于风险的数量时,得到所述业务事件属于非风险事件。
8.根据权利要求1至7任一所述的方法,其特征在于,所述CatBoost模型是根据至少一组样本业务事件的n个维度的样本风险特征数据训练得到的,
其中,所述n个维度包括:用户帐号、使用设备、用户行为、行为模式中的至少一种维度。
9.根据权利要求8所述的方法,其特征在于,所述CatBoost模型是通过如下方式训练得到的:
获取至少一组样本业务事件的事件数据和风险标定结果;
通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
通过所述n个维度的样本风险特征数据和所述风险标定结果,对初始的CatBoost模型进行训练;
在满足训练结束条件时,得到训练后的所述CatBoost模型。
10.根据权利要求9所述的方法,其特征在于,所述通过所述特征选择工程从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据,包括:
通过基尼系数从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
或,
通过卡方检验从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据;
或,
通过信息增益或信息增益率从所述至少一组样本业务事件的事件数据中,提取出风险识别的关联性高于条件的n个维度的样本风险特征数据。
11.一种基于机器学习的业务识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取在线网络业务上的业务事件;
第一提取模块,用于从所述业务事件中提取n个维度的风险特征数据;
风险判断模型,用于对所述n个维度的风险特征数据进行识别,得到所述业务事件属于风险事件的概率,所述风险判断模型是基于主动学习的策略得到的CatBoost模型;
控制模块,用于根据所述概率对所述业务事件进行控制。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至11所述的任一项所述的基于机器学习的业务识别方法。
13.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至11任一项所述的基于机器学习的业务识别方法。
CN201910852658.8A 2019-09-10 2019-09-10 基于机器学习的业务识别方法、装置及介质 Pending CN110544100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910852658.8A CN110544100A (zh) 2019-09-10 2019-09-10 基于机器学习的业务识别方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910852658.8A CN110544100A (zh) 2019-09-10 2019-09-10 基于机器学习的业务识别方法、装置及介质

Publications (1)

Publication Number Publication Date
CN110544100A true CN110544100A (zh) 2019-12-06

Family

ID=68713198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910852658.8A Pending CN110544100A (zh) 2019-09-10 2019-09-10 基于机器学习的业务识别方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110544100A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111024898A (zh) * 2019-12-30 2020-04-17 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111582722A (zh) * 2020-05-09 2020-08-25 拉扎斯网络科技(上海)有限公司 风险识别方法、装置、电子设备及可读存储介质
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
WO2021174966A1 (zh) * 2020-03-05 2021-09-10 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN114090601A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质
CN115496372A (zh) * 2022-09-26 2022-12-20 广东顺峰智慧能源研究院有限公司 充电系统安全风险预测方法、装置、设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015101166A1 (zh) * 2013-12-30 2015-07-09 中国银联股份有限公司 监测伪卡风险的方法和实现该方法的交易处理系统
CN108399509A (zh) * 2018-04-12 2018-08-14 阿里巴巴集团控股有限公司 确定业务请求事件的风险概率的方法及装置
CN108876166A (zh) * 2018-06-27 2018-11-23 平安科技(深圳)有限公司 财务风险验证处理方法、装置、计算机设备及存储介质
CN109657978A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015101166A1 (zh) * 2013-12-30 2015-07-09 中国银联股份有限公司 监测伪卡风险的方法和实现该方法的交易处理系统
CN108399509A (zh) * 2018-04-12 2018-08-14 阿里巴巴集团控股有限公司 确定业务请求事件的风险概率的方法及装置
CN108876166A (zh) * 2018-06-27 2018-11-23 平安科技(深圳)有限公司 财务风险验证处理方法、装置、计算机设备及存储介质
CN109657978A (zh) * 2018-12-19 2019-04-19 重庆誉存大数据科技有限公司 一种风险识别方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
府伟灵: "《临床精准分子诊断学》", 31 December 2018, 上海:上海交通大学出版社 *
汉斯出版社旗舰店: "基于CatBoost算法在P2P借贷信用风险的研究", 《HTTPS://WENKU.BAIDU.COM/VIEW/F3177FB515791711CC7931B765CE0508763275F8.HTML》 *
许国根 等: "《模式识别与智能计算的MATLAB实现》", 31 July 2012, 北京:北京航空航天大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111024898A (zh) * 2019-12-30 2020-04-17 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
CN111024898B (zh) * 2019-12-30 2021-07-06 中国科学技术大学 一种基于CatBoost模型的车辆尾气浓度超标判别方法
WO2021174966A1 (zh) * 2020-03-05 2021-09-10 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111582722A (zh) * 2020-05-09 2020-08-25 拉扎斯网络科技(上海)有限公司 风险识别方法、装置、电子设备及可读存储介质
CN111582722B (zh) * 2020-05-09 2022-06-07 拉扎斯网络科技(上海)有限公司 风险识别方法、装置、电子设备及可读存储介质
CN112801498A (zh) * 2021-01-26 2021-05-14 网易(杭州)网络有限公司 风险识别模型的训练方法、风险识别方法、装置及设备
CN114090601A (zh) * 2021-11-23 2022-02-25 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质
CN114090601B (zh) * 2021-11-23 2023-11-03 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质
CN115496372A (zh) * 2022-09-26 2022-12-20 广东顺峰智慧能源研究院有限公司 充电系统安全风险预测方法、装置、设备及可读存储介质
CN115496372B (zh) * 2022-09-26 2023-10-24 广东顺峰智慧能源研究院有限公司 充电系统安全风险预测方法、装置、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN110544100A (zh) 基于机器学习的业务识别方法、装置及介质
CN109598281B (zh) 一种业务风险防控方法、装置及设备
CN108133372B (zh) 评估支付风险的方法及装置
US10698795B2 (en) Virtual payments environment
CN108416668A (zh) 贸易跟踪和应收账款融资方法、系统、设备及存储介质
CN109829776A (zh) 商户风险评估方法、装置、计算机设备和存储介质
US11587099B2 (en) Electronic payment network security
CN111127178A (zh) 数据处理方法与装置、存储介质、电子设备
US11916917B2 (en) Pre-authorization access request screening
CN114503130A (zh) 在机器学习模型的嵌入之间映射用户向量
US11902252B2 (en) Access rule management
US11853110B2 (en) Auto-tuning of rule weights in profiles
WO2010044288A1 (ja) クレジットカードの決済承認システム
CN106600413A (zh) 欺诈识别方法和系统
CN113781048B (zh) 一种基于区块链的交易信息校验及结算方法
US20220172214A1 (en) Method for generating transferable tranches
CN111310931A (zh) 参数生成方法、装置、计算机设备及存储介质
KR102455414B1 (ko) 온라인 결제 서비스 제공 방법 및 시스템
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN111915109B (zh) 医疗筹款装置、系统及方法
CN113095838A (zh) 交易验证方法及装置、存储介质及电子设备
CN113487109A (zh) 群体识别方法、装置、电子设备及存储介质
CN111539807A (zh) 转账方法及装置
US20180322480A1 (en) Credit transfer via networked mobile computing devices
US20240177142A1 (en) Mobile gift certificate brokerage apparatus applying nft technology and method of using the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191206