CN107798390B - 一种机器学习模型的训练方法、装置以及电子设备 - Google Patents

一种机器学习模型的训练方法、装置以及电子设备 Download PDF

Info

Publication number
CN107798390B
CN107798390B CN201711174427.3A CN201711174427A CN107798390B CN 107798390 B CN107798390 B CN 107798390B CN 201711174427 A CN201711174427 A CN 201711174427A CN 107798390 B CN107798390 B CN 107798390B
Authority
CN
China
Prior art keywords
risk
training
positive
negative
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711174427.3A
Other languages
English (en)
Other versions
CN107798390A (zh
Inventor
郭龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201711174427.3A priority Critical patent/CN107798390B/zh
Publication of CN107798390A publication Critical patent/CN107798390A/zh
Priority to TW107132758A priority patent/TWI718411B/zh
Priority to SG11202004037TA priority patent/SG11202004037TA/en
Priority to EP18880128.6A priority patent/EP3690763A4/en
Priority to PCT/CN2018/107499 priority patent/WO2019100844A1/zh
Priority to US16/813,268 priority patent/US10943186B2/en
Application granted granted Critical
Publication of CN107798390B publication Critical patent/CN107798390B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Abstract

本说明书提供一种机器学习模型的训练方法,包括:将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。

Description

一种机器学习模型的训练方法、装置以及电子设备
技术领域
本说明书涉及计算机应用领域,尤其涉及一种机器学习模型的训练方法、装置以及电子设备。
背景技术
在移动支付领域,出于支付安全上的考虑,支付平台通常都会在风控系统中部署通过有监督的机器学习训练构建出的风险模型,对用户的日常交易进行风险评分,以及时的发现用户的异常交易。
在训练风险模型时,通常可以将那些发生了交易异常的交易标记为正样本(比如用户主动报案的账户盗用等),其余未发生交易异常的交易标记为负样本。然后可以基于这些正样本和负样本进行有监督的机器学习训练。当模型训练完毕,后续可以使用该模型对用户的日常交易进行风险评分,进而支付平台可以基于用户日常交易的风险评分来进行风险决策,及时的发现用户的异常交易。
发明内容
本说明书提出一种机器学习模型的训练方法,包括:
将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;
基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
可选的,所述过滤所述训练样本集合中所述风险评分大于预设阈值的负样本,包括:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
可选的,所述过滤所述训练样本集合中所述风险评分大于预设阈值的负样本,包括:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本。
可选的,所述基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型,包括:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
可选的,所述风险评分表征风险发生概率;
所述方法还包括:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述正样本的风险评分配置为该重新标记的负样本对应的损失函数的权重值;以及,将原有的负样本对应的损失函数的权重值设置为1。
可选的,还包括:
基于在线数据构建预测样本;
基于重新训练的模型对该预测样本进行风险评估得到风险评分。6.一种机器学习模型的训练装置,包括:
标记模块,将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;
评估模块,基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
过滤模块,过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
训练模块,基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
可选的,所述过滤模块:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
可选的,所述过滤模块:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本。
可选的,所述训练模块进一步:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
可选的,所述风险评分表征风险发生概率;
所述过滤模块进一步:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述负样本的风险评分配置为该重新标记的正样本对应的损失函数的权重值;以及,将原有的正样本对应的损失函数的权重值设置为1。
可选的,所述评估模块进一步:
基于在线数据构建预测样本;
基于重新训练的模型对该预测样本进行风险评估得到风险评分。
本说明书还提出一种电子设备,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器被促使:
将训练样本集合中携带标签的样本标记为正样本,未携带标签的样本标记为负样本;
基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
本说明书实施例所提供的技术方案,通过将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本,基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对训练样本集合中的负样本分别进行风险评估得到风险评分,然后对该训练样本集合中的风险评分大于预设阈值的负样本作为疑似正样本进行过滤处理,并基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型;
一方面,可以发现并过滤掉训练样本集合中的负样本中的疑似正样本,提高训练样本集合中正样本和负样本的标记准确度;另一方面,使用过滤后的训练样本集合中的正样本和负样本重新训练模型,有助于提升训练出的模型的性能。
附图说明
图1是本说明书一实施例示出的一种有监督机器学习模型的训练方法的流程图;
图2是本说明书一实施例提供的承载一种有监督机器学习模型装置的电子设备所涉及的硬件结构图;
图3是本说明书一实施例提供的一种有监督机器学习模型装置的逻辑框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在训练有监督的机器学习模型时,由于对训练样本进行标记的准确度,通常直接决定训练出的模型的准确度;因此,在模型训练阶段,如何改善训练样本的标记准确度,来提升训练出的模型的准确度,将具有十分重要的意义。
例如,以基于用户的历史交易数据来训练有监督的风险模型为例,在训练风险模型时,通常可以将那些发生了风险事件的交易(比如,用户的交易发生财产损失后主动报案)标记为正样本,将其余未发生风险事件的交易标记为负样本。而在实际应用中,通常可能会存在一些发生了风险事件但用户未主动报案的交易,这就可能导致训练样本集中的负样本中可能混入一些正样本的情况。对于建模方而言,直接使用该训练样本集来训练模型,必然会对模型的准确度造成影响。因此,如何建模方如何能够及时发现并过滤掉这些负样本中混入的疑似正样本,则将能够显著的提升训练出的模型的准确度。
有鉴于此,本说明书针对传统的基于pu-learning的模型训练过程进行改进,提出一种通过将unlabel样本(无标签样本)标记为正样本(positive样本)来训练有监督的机器学习模型,并利用训练完成的有监督的机器学习模型对训练样本集中的负样本(negative样本)进行风险评估的方式,发现并过滤训练样本集中的负样本中的疑似正样本,以提升训练样本集中的正样本和负样本的标记准确度的技术方案。
在实现时,可以对预先创建一个包含若干携带风险标签的样本和不携带风险标签的样本训练样本集,然后将该训练样本集中携带风险标签的样本标记为正样本,将该训练样本集中不携带标签的unlabel样本标记为负样本,然后基于标记的正样本和负样本训练有监督的机器学习模型。
当模型训练完成后,可以进一步基于该有监督的机器学习模型对训练样本集中的负样本分别进行风险评估得到风险评分,然后筛选出训练样本集中上述风险评分大于预设阈值的负样本,并将筛选出的这些负样本作为疑似负样本从训练样本集中过滤掉;
例如,在一种实现方式中,可以将风险评分大于预设阈值的负样本直接从训练样本集中删除;或者,在另一种实现方式中,也可以将风险评分大于预设阈值的负样本作为疑似正样本重新标记为正样本,并为重新标记的正样本对应的损失函数,设置一个小于原有的正样本对应的损失函数的权重值。
当对训练样本集合中的疑似负样本完成过滤后,可以基于过滤后的训练样本集合中的正样本和负样本重新对有监督的机器学习模型进行训练,来构建风险模型。
一方面,可以发现并过滤掉训练样本集合中的负样本中的疑似正样本,提高训练样本集合中正样本和负样本的标记准确度;
另一方面,使用过滤后的训练样本集合中的正样本和负样本重新训练模型,有助于提升训练出的模型的性能。
下面通过具体实施例并结合具体的应用场景对本说明书进行描述。
请参考图1,图1是本说明书一实施例提供的一种有监督机器学习模型的训练方法,执行以下步骤:
步骤102,将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;
步骤104,基于标记的所述正样本和负样本训练有监督的风险,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
步骤106,过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
步骤108,基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
上述风险模型,具体可以包括按照有监督的机器学习方法,基于预设的训练样本集合中的训练样本训练出的机器学习模型;其中,上述风险模型的具体类型,在本说明书中不进行特别限定,在实际应用中,可以包括任意类型的风险模型;
例如,在一种场景中,上述风险模型,具体可以是基于用户的历史交易数据构建的训练样本集训练出的,用于对用户的日常交易进行风险评估的风险模型,通过该风险模型可以对用户发起的交易进行风险评估,得到对应的交易风险评分,进而可以通过该交易风险评分来决策用户发起的该笔交易是否存在风险。
又如,在另一种场景中,上述训练完成的模型,具体也可以是基于用户的历史交易记录、违约记录、还款记录等用户数据构建的训练样本集训练出的,用于对用户的信用进行风险评估的信用模型,通过该信用模型可以对用户的信用进行风险评估,得到对应的信用风险评分,进而可以通过该信用风险评分来决策该用户是否为可能会发生诸如信用违约等风险行为的高风险用户。
以下以上述风险模型为用于对用户发起的交易进行风险评估的风险模型为例,对本说明书的技术方案进行详细描述。
需要说明的是,以上述风险模型为用于对用户发起的交易进行风险评估的风险模型为例,仅为示例性的,在实际应用中,上述风险模型也可以是其它类型的有监督的风险模型(比如信用模型),在本说明书中不进行特别限定。
在本说明书中,建模方可以预先收集大量用户的历史交易数据,从收集到的历史交易数据中提取出若干维度的交易特征作为建模特征,并基于这些建模特征构建特征向量作为训练样本,然后再基于这些训练样本构建出一个特征矩阵作为训练样本集合。
其中,用于构建训练样本的建模特征,可以涵盖任意形式的与用户的交易风险相关的特征,在本说明书中不进行特别限定;例如,可以包含诸如用户是否在异地登录、交易时间段、交易金额等维度的交易特征。
当训练样本集合构建完成,建模方可以基于用户主动反馈的信息,将该训练样本集合中发生了风险事件的训练样本分别标记对应的风险标签。此时,剩余的未携带风险标签的训练样本,即为unlabel样本。
当建模方为训练样本集合中发生风险事件的训练样本标记了风险标签后,可以将这些携带风险标签的训练样本标记为正样本,将剩余的未携带风险标签的unlabel样本标记为负样本,然后可以基于该训练样本集合中的这些正样本和负样本,对预设的有监督的机器学习模型进行训练,来构建上述风险模型。
其中,上述有监督的机器学习模型的具体类型,在本说明书中不进行特别限定;例如,上述机器学习模型具体可以是LR(Logistic Regression,逻辑回归)模型,或者其它的形式的有监督的机器学习模型。
在实际应用中,有监督的机器学习模型,通常使用损失函数(Loss Function),来描述训练样本和对应的样本标签之间的拟合误差。在实际的模型训练过程中,可以将训练样本和对应的样本标签作为输入值代入损失函数中进行迭代运算,直至算法收敛,来反向求解出训练样本和对应的样本标签之间的拟合误差最小时的模型参数的取值。即通过损失函数来训练有监督的机器学习模型的过程,可以理解为通过损失函数来反向求解出,训练样本和对应的样本标签之间的拟合误差最小时的最优模型参数的取值的过程。
当求解出训练样本和对应的样本标签之间的拟合误差最小时的模型参数的取值,模型训练完毕。此时该训练完成的模型,即为最终构建完成的用于对用户的日常交易进行风险评估的风险点模型。
在本说明书中,由于在实际应用中,建模方收集到的用于构建训练样本的历史交易数据中,通常可能会存在一些发生了风险事件但用户未主动报案的交易,这就可能导致上述训练样本集中未携带风险标签的负样本中可能混入一些疑似的正样本的情况;因此,为了进一步改善上述训练样本集中被标记出的正样本和负样本的准确度,当上述风险模型训练完毕,建模方还可以通过该风险模型进一步对上述训练样本集中的负样本分别进行风险评估的方式,来发现并过滤训练样本集中的负样本中的疑似正样本。
在实现时,当上述风险模型训练完毕,建模方可以将原有的训练样本集合中的负样本分别作为预测样本,输入到风险模型进行风险评估,得到对应的风险评分,然后筛选出训练样本集合中风险评分大于预设阈值的负样本作为疑似正样本。
其中,上述预设阈值的取值大小,在本说明书中不进行特别限定,本领域技术人员可以基于实际的需求进行灵活配置。
当从训练样本集合中的负样本中,筛选出风险评分大于预设阈值的负样本后,建模方可以对这些筛选出的负样本作为疑似正样本进行过滤处理,以提高该训练样本集合中的正样本和负样本的标记准确度。
其中,建模方在过滤训练样本集合中风险评分大于预设阈值的负样本时,具体可以通过以下示出两种方式来完成:
在示出的一种实施方式中,建模方可以直接将这些风险评分大于预设阈值的负样本从原有的训练样本集合中删除,来过滤掉上述训练样本集合中的这些疑似正样本。
在示出的另一种实施方式中,也可以不采用直接删除的方式,而是将这些风险评分大于预设阈值的负样本重新标记成疑似正样本,并为该疑似正样本对应的损失函数,配置一个小于与原有的正样本对应的损失函数的权重值。
当然,在实际应用中,也可以不将这些负样本重新标记成疑似正样本,而是直接将这些负样本重新标记成正样本,并且为这些重新标记的正样本的损失函数,配置一个与原有的正样本对应的损失函数相同的权重值;比如,可以将这些重新标记的正样本和原有的正样本对应的损失函数的权重值统一设置为1。
其中,在训练有监督的机器学习模型时,通常会使用两个不同的损失函数,来分别描述正样本和对应的样本标签,以及负样本和对应的样本标签之间的拟合误差。因此,有监督的机器学习模型的目标方程,通常可以用如下的公式进行表征:
Figure BDA0001477907650000101
其中,在以上公式中:
g(xi)即为最终需要训练的机器学习模型的函数表达式,表示训练出的模型对训练样本xi的预测结果(即最终输出的风险评分)。
Figure BDA0001477907650000102
表示与正样本(标记为1的样本)对应的损失函数,用于表征模型对正样本的预测结果g(xi)和真实标记yi=1之间的误差损失;
Figure BDA0001477907650000111
表示与负样本(标记为-1的样本)对应的损失函数,用于表征模型对负样本的预测结果g(xi)和真实标记yi=-1之间的误差损失。
其中,上述损失函数l(yi,g(xi))的具体类型,在本说明书中不进行特别限定;例如,在实际应用中,可以选择常见的log-loss函数或者hinge-loss函数。
其中,当上述损失函数l(yi,g(xi)采用log-loss函数,表达式为:
log-loss{l(yi,g(xi))=log(1+exp(-yig(xi)))};
当上述损失函数l(yi,g(xi)采用hinge-loss函数,表达式为:
hinge-loss{l(yi,g(xi))=max{0,1-yig(xi)})。
在本说明书中,由于被标记出的疑似正样本仍然参与模型训练,因此相当于训练样本集合中的训练样本被标记成为“正样本”、“负样本”和“疑似正样本”三类;因此,在这种情况下,建模方在构建上述模型的目标方程时,可以为以上三类训练样本分别构建一个损失函数,并为与正样本对应的损失函数和与疑似正样本对应的损失函数,分别配置一个对应的权重值,并为与该疑似正样本对应的损失函数,配置一个小于与原有的正样本对应的损失函数的权重值。
在这种情况下,上述有监督的机器学习模型的目标方程,则可以用如下的公式进行表征:
Figure BDA0001477907650000112
其中,C+表示为疑似正样本对应的损失函数配置的权重值。
C-表示为原有的正样本对应的损失函数配置的权重值。其中,C+的取值小于C-;例如,在实际应用中,可以将C+的取值设置为一个远小于C-的取值。
其中,
Figure BDA0001477907650000113
表示与原有的正样本(标记为1的样本)对应的损失函数失;
Figure BDA0001477907650000114
表示与原有的负样本(标记为-1的样本)对应的损失函数;
Figure BDA0001477907650000115
表示与疑似正样本(标记为-2的样本)对应的损失函数。
其中,需要说明的是,与原有的负样本对应的损失函数,可以配置权重值,也可以不配置权重值,在本说明书中不进行特别限定;
例如,在一种实现方式中,也可以为与原有的负样本对应的损失函数配置一个,与原有的正样本对应的损失函数相同的权重值,在这种情况下,上述有监督的机器学习模型的目标方程,则可以用如下的公式进行表征:
Figure BDA0001477907650000121
其中,需要补充说明的是,以上示出的将正样本标记为1、将负样本标记为-1,将疑似正样本标记为-2仅为示例性的,并不用于限定;在实际应用中,对正样本、负样本和疑似正样本进行标记时所采用的标签类型,本领域技术人员可以灵活定义。
在本说明书中,通过为与疑似正样本对应的损失函数配置一个较小的权重值,可以降低疑似正样本对训练完成的模型的输出结果的贡献度,从而间接的达到过滤掉训练样本集中的疑似正样本的目的。
其中,在实际应用中,为与疑似正样本对应的损失函数配置的权重值的具体取值大小,只需要是一个小于与原有正样本对应的损失函数配置的权重值即可,在本说明书中不进行特别限定,
例如,在示出的一种实施方式中,由于风险模型最终输出的风险评分,通常用于表征风险发生概率,是一个介于0和1之间的浮点数;因此,可以将该疑似正样本的风险评分,作为与疑似正样本对应的损失函数的权重值,而将与原有的正样本对应的损失函数的权重值设置为1。其中,需要说明的是,由于不同的疑似正样本的风险评分可能不同,因此在使用损失函数对不同的疑似正样本进行训练时,该损失函数的权重值也将不同。
在本说明书中,当建模方通过以上示出的实施方式,对原有的训练样本集合中风险评分大于预设阈值的负样本过滤后,可以基于过滤后的训练样本集合中的原有正样本、疑似正样本和原有的负样本重新训练上述有监督的机器学习模型;其中,具体的训练过程在本申请中不再赘述。
当上述有监督的机器学习模型基于过滤后的训练样本集合重新训练完成后,建模方可以在风控系统中部署该模型,并基于该模型对用户日常的在线交易进行风险评估,为用户日常的在线交易进行打分得到风险评分,然后基于得到的风险评分来决策该交易是否存在风险;
例如,在实现时,风控系统可以采集用户的在线交易数据,从该在线交易数据中提取出若干维度的交易特征来构建预测样本,并将该预测样本输入到该模型中进行风险评估,得到风险评分;然后将该风险评分与预设的风险阈值进行比较,来确定该交易是否存在风险;如果该风险评分大于该风险阈值,此时风控系统可以将该交易决策为风险交易,可以直接终止该交易,或者对该用户身份进一步进行校验;如果校验通过,此时可以执行该笔交易;否则,可以终止该笔交易。
通过以上实施例可知,在本说明书中,在训练样本集合中包含大量的正样本和unlable样本的场景下,不再采用的传统的基于pu-learning的模型训练过程中,从unlable样本中筛选出可靠负样本,然后再基于正样本和可靠负样本来进行有监督的机器学习的方式,而是通过将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本,基于标记的所述正样本和负样本训练有监督的机器学习模型,并基于训练完成的模型对训练样本集合中的负样本分别进行风险评估得到风险评分,然后对该训练样本集合中的风险评分大于预设阈值的负样本作为疑似正样本进行过滤处理,并基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的机器学习模型;
一方面,可以发现并过滤掉训练样本集合中的负样本中的疑似正样本,提高训练样本集合中正样本和负样本的标记准确度;
另一方面,使用过滤后的训练样本集合中的正样本和负样本重新训练模型,有助于提升训练出的模型的性能。
与上述方法实施例相对应,本说明书还提供了一种有监督机器学习模型的训练装置的实施例。本说明书的有监督机器学习模型的训练装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书的有监督机器学习模型的训练装置所在电子设备的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常根据该电子设备的实际功能,还可以包括其他硬件,对此不再赘述。
图3是本说明书一示例性实施例示出的一种有监督机器学习模型的训练装置的框图。
请参考图3,所述有监督机器学习模型的训练装置30可以应用在前述图2所示的电子设备中,包括有:标记模块301、评估模块302、过滤模块303和训练模块304;
标记模块301,将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;
评估模块302,基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
过滤模块303,过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
训练模块304,基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
在本实施例中,所述过滤模块303:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
在本实施例中,所述过滤模块303:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本。
在本实施例中,所述训练模块304进一步:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
在本实施例中,所述风险评分表征风险发生概率;
所述过滤模块303进一步:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述负样本的风险评分配置为该重新标记的正样本对应的损失函数的权重值;以及,将原有的正样本对应的损失函数的权重值设置为1。
在本实施例中,所述评估模块302进一步:
基于在线数据构建预测样本;
基于重新训练的模型对该预测样本进行风险评估得到风险评分。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
与上述方法实施例相对应,本说明书还提供了一种电子设备的实施例。该电子设备包括:处理器以及用于存储机器可执行指令的存储器;其中,处理器和存储器通常通过内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。
在本实施例中,通过读取并执行所述存储器存储的与机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器被促使:
将训练样本集合中携带风险标签的样本标记为正样本,未携带风险标签的样本标记为负样本;
基于标记的所述正样本和负样本训练有监督的风险模型,并基于训练完成的模型对所述负样本分别进行风险评估得到风险评分;
过滤所述训练样本集合中所述风险评分大于预设阈值的负样本;
基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型。
在本实施例中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器还被促使:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
在本实施例中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器还被促使:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本;
在本实施例中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器还被促使:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
在本实施例中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器还被促使:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述正样本的风险评分配置为该重新标记的负样本对应的损失函数的权重值;以及,将原有的负样本对应的损失函数的权重值设置为1
在本实施例中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器还被促使:
基于在线数据构建预测样本;
基于重新训练的模型对该预测样本进行风险评估得到风险评分。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种机器学习模型的训练方法,包括:
将用户的历史交易数据中携带风险标签的历史交易标记为正样本,未携带风险标签的历史交易标记为负样本;
基于标记的所述正样本和负样本训练有监督的风险模型,并将所述负样本分别输入到训练完成的所述风险模型进行风险评估,得到风险评分;
过滤所述历史交易数据中所述风险评分大于预设阈值的负样本;
基于过滤后的所述历史交易数据中的正样本和负样本重新训练所述风险模型;
采集用户的在线交易数据,并基于所述在线交易数据构建预测样本;
将所述预测样本输入到重新训练完成的所述风险模型进行风险评估,得到风险评分,并基于所述风险评分来决策所述在线交易是否存在风险。
2.根据权利要求1所述的方法,所述过滤所述训练样本集合中所述风险评分大于预设阈值的负样本,包括:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
3.根据权利要求1所述的方法,所述过滤所述训练样本集合中所述风险评分大于预设阈值的负样本,包括:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本。
4.根据权利要求3所述的方法,所述基于过滤后的所述训练样本集合中的正样本和负样本重新训练有监督的风险模型,包括:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
5.根据权利要求4所述的方法,所述风险评分表征风险发生概率;
所述方法还包括:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述正样本的风险评分配置为该重新标记的负样本对应的损失函数的权重值;以及,将原有的负样本对应的损失函数的权重值设置为1。
6.一种机器学习模型的训练装置,包括:
标记模块,将用户的历史交易数据中携带风险标签的历史交易标记为正样本,未携带风险标签的历史交易标记为负样本;
评估模块,基于标记的所述正样本和负样本训练有监督的风险模型,并将所述负样本分别输入到训练完成的所述风险模型进行风险评估,得到风险评分;
过滤模块,过滤所述历史交易数据中所述风险评分大于预设阈值的负样本;
训练模块,基于过滤后的所述历史交易数据中的正样本和负样本重新训练所述风险模型;
所述评估模块进一步:
采集用户的在线交易数据,并基于所述在线交易数据构建预测样本;
将所述预测样本输入到重新训练完成的所述风险模型进行风险评估,得到风险评分,并基于所述风险评分来决策所述在线交易是否存在风险。
7.根据权利要求6所述的装置,所述过滤模块:
删除所述训练样本集合中所述风险评分大于预设阈值的负样本。
8.根据权利要求6所述的装置,所述过滤模块:
将所述训练样本集合中所述风险评分大于预设阈值的负样本重新标记为正样本。
9.根据权利要求8所述的装置,所述训练模块进一步:
为重新标记的正样本与所述训练样本集合中原有的正样本对应的损失函数,分别配置权重值;其中,所述重新标记的正样本对应的损失函数的权重值,小于所述原有的正样本对应的损失函数的权重值;
基于所述重新标记的正样本、所述训练样本集合中原有的正样本以及所述训练样本集合中剩余的负样本训练有监督的风险模型。
10.根据权利要求9所述的装置,所述风险评分表征风险发生概率;
所述过滤模块进一步:
将所述风险评分大于预设阈值的负样本重新标记为正样本后,将所述负样本的风险评分配置为该重新标记的正样本对应的损失函数的权重值;以及,将原有的正样本对应的损失函数的权重值设置为1。
11.一种电子设备,包括:
处理器;
用于存储机器可执行指令的存储器;
其中,通过读取并执行所述存储器存储的与有监督机器学习模型的训练的控制逻辑对应的机器可执行指令,所述处理器被促使:
将用户的历史交易数据中携带风险标签的历史交易标记为正样本,未携带风险标签的历史交易标记为负样本;
基于标记的所述正样本和负样本训练有监督的风险模型,并将所述负样本分别输入到训练完成的所述风险模型进行风险评估,得到风险评分;
过滤所述历史交易数据中所述风险评分大于预设阈值的负样本;
基于过滤后的所述历史交易数据中的正样本和负样本重新训练所述风险模型;
采集用户的在线交易数据,并基于所述在线交易数据构建预测样本;
将所述预测样本输入到重新训练完成的所述风险模型进行风险评估,得到风险评分,并基于所述风险评分来决策所述在线交易是否存在风险。
CN201711174427.3A 2017-11-22 2017-11-22 一种机器学习模型的训练方法、装置以及电子设备 Active CN107798390B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201711174427.3A CN107798390B (zh) 2017-11-22 2017-11-22 一种机器学习模型的训练方法、装置以及电子设备
TW107132758A TWI718411B (zh) 2017-11-22 2018-09-18 機器學習模型的訓練方法、裝置以及電子設備
SG11202004037TA SG11202004037TA (en) 2017-11-22 2018-09-26 Machine learning model training method and device, and electronic device
EP18880128.6A EP3690763A4 (en) 2017-11-22 2018-09-26 MACHINE LEARNING MODEL TRAINING METHOD AND DEVICE AND ELECTRONIC DEVICE
PCT/CN2018/107499 WO2019100844A1 (zh) 2017-11-22 2018-09-26 一种机器学习模型的训练方法、装置以及电子设备
US16/813,268 US10943186B2 (en) 2017-11-22 2020-03-09 Machine learning model training method and device, and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711174427.3A CN107798390B (zh) 2017-11-22 2017-11-22 一种机器学习模型的训练方法、装置以及电子设备

Publications (2)

Publication Number Publication Date
CN107798390A CN107798390A (zh) 2018-03-13
CN107798390B true CN107798390B (zh) 2023-03-21

Family

ID=61536298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711174427.3A Active CN107798390B (zh) 2017-11-22 2017-11-22 一种机器学习模型的训练方法、装置以及电子设备

Country Status (6)

Country Link
US (1) US10943186B2 (zh)
EP (1) EP3690763A4 (zh)
CN (1) CN107798390B (zh)
SG (1) SG11202004037TA (zh)
TW (1) TWI718411B (zh)
WO (1) WO2019100844A1 (zh)

Families Citing this family (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798390B (zh) 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备
US11621058B2 (en) * 2018-02-08 2023-04-04 Ohio State Innovation Foundation Synthetic IHC-stained digital sides generated using artificial neural networks
CN108520343B (zh) * 2018-03-26 2022-07-19 平安科技(深圳)有限公司 风险模型训练方法、风险识别方法、装置、设备及介质
CN110400208B (zh) * 2018-04-25 2021-03-12 上海方付通商务服务有限公司 一种小微风险控制模型构建方法及应用方法
CN108875776B (zh) * 2018-05-02 2021-08-20 北京三快在线科技有限公司 模型训练方法和装置、业务推荐的方法和装置、电子设备
CN108694673A (zh) * 2018-05-16 2018-10-23 阿里巴巴集团控股有限公司 一种保险业务风险预测的处理方法、装置及处理设备
CN109118316B (zh) * 2018-06-25 2022-04-26 创新先进技术有限公司 线上店铺真实性的识别方法和装置
CN109063965A (zh) * 2018-06-29 2018-12-21 阿里巴巴集团控股有限公司 一种网络支付风险评估方法、装置及服务器
CN110738323B (zh) * 2018-07-03 2022-06-28 百度在线网络技术(北京)有限公司 基于数据共享建立机器学习模型的方法和装置
CN109087106B (zh) * 2018-07-03 2020-12-08 创新先进技术有限公司 识别二次放号账户盗用的风控模型训练、风控方法、装置以及设备
CN109034209B (zh) * 2018-07-03 2021-07-30 创新先进技术有限公司 主动风险实时识别模型的训练方法和装置
CN108958030B (zh) * 2018-07-15 2021-05-28 大国创新智能科技(东莞)有限公司 基于知识库的人工智能作战方法和机器人系统
CN108828948B (zh) * 2018-07-15 2021-06-18 大国创新智能科技(东莞)有限公司 基于深度学习的人工智能作战方法和机器人系统
CN109063845B (zh) * 2018-07-15 2021-12-07 大国创新智能科技(东莞)有限公司 基于生成样本的深度学习方法和机器人系统
CN108985463B (zh) * 2018-07-15 2021-10-26 大国创新智能科技(东莞)有限公司 基于知识库和深度学习的人工智能作战方法和作战系统
CN109255517B (zh) * 2018-07-27 2022-04-26 创新先进技术有限公司 风控策略的生成方法、装置、服务器及可读存储介质
CN110163053B (zh) * 2018-08-02 2021-07-13 腾讯科技(深圳)有限公司 生成人脸识别的负样本的方法、装置及计算机设备
US11017100B2 (en) * 2018-08-03 2021-05-25 Verizon Patent And Licensing Inc. Identity fraud risk engine platform
AU2018286596A1 (en) * 2018-08-09 2020-02-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for allocating orders
CN109344862B (zh) * 2018-08-21 2023-11-28 中国平安人寿保险股份有限公司 正样本的获取方法、装置、计算机设备和存储介质
CN109325525A (zh) * 2018-08-31 2019-02-12 阿里巴巴集团控股有限公司 样本属性评估模型训练方法、装置及服务器
US11321629B1 (en) * 2018-09-26 2022-05-03 Intuit Inc. System and method for labeling machine learning inputs
WO2020078235A1 (en) * 2018-10-15 2020-04-23 Huawei Technologies Co., Ltd. Boosting ai identification learning
CN109670940A (zh) * 2018-11-12 2019-04-23 深圳壹账通智能科技有限公司 基于机器学习的信用风险评估模型生成方法及相关设备
CN109598414B (zh) * 2018-11-13 2023-04-21 创新先进技术有限公司 风险评估模型训练、风险评估方法、装置及电子设备
CN109583729B (zh) * 2018-11-19 2023-06-20 创新先进技术有限公司 用于平台在线模型的数据处理方法和装置
CN109816245A (zh) * 2019-01-25 2019-05-28 北京海致星图科技有限公司 用于对公授信客户风险预警的风险传导评估系统及方法
CN110033120A (zh) * 2019-03-06 2019-07-19 阿里巴巴集团控股有限公司 用于为商户提供风险预测赋能服务的方法及装置
CN110020670B (zh) * 2019-03-07 2023-07-18 创新先进技术有限公司 一种模型迭代方法、装置及设备
CN109978033B (zh) * 2019-03-15 2020-08-04 第四范式(北京)技术有限公司 同操作人识别模型的构建与同操作人识别的方法和装置
CN110232403B (zh) * 2019-05-15 2024-02-27 腾讯科技(深圳)有限公司 一种标签预测方法、装置、电子设备及介质
CN110163296B (zh) * 2019-05-29 2020-12-18 北京达佳互联信息技术有限公司 图像识别的方法、装置、设备及存储介质
CN111860872B (zh) * 2019-06-11 2024-03-26 北京嘀嘀无限科技发展有限公司 用于异常检测的系统和方法
CN112149818B (zh) * 2019-06-27 2024-04-09 北京数安鑫云信息技术有限公司 威胁识别结果评估方法和装置
CN110310123B (zh) * 2019-07-01 2023-09-26 创新先进技术有限公司 风险判断方法和装置
CN110570312B (zh) * 2019-09-17 2021-05-28 深圳追一科技有限公司 样本数据获取方法、装置、计算机设备和可读存储介质
CN110796170A (zh) * 2019-09-27 2020-02-14 北京淇瑀信息科技有限公司 客户动支模型生成方法、装置及电子设备
CN110732139B (zh) * 2019-10-25 2024-03-05 腾讯科技(深圳)有限公司 检测模型的训练方法和用户数据的检测方法、装置
US11501101B1 (en) * 2019-12-16 2022-11-15 NTT DATA Services, LLC Systems and methods for securing machine learning models
CN111882140A (zh) * 2019-12-17 2020-11-03 马上消费金融股份有限公司 风险评测方法、模型训练方法、装置、设备及存储介质
US11470106B1 (en) * 2020-02-03 2022-10-11 Rapid7, Inc. Exploitability risk model for assessing risk of cyberattacks
CN111310901B (zh) * 2020-02-24 2023-10-10 北京百度网讯科技有限公司 用于获取样本的方法及装置
CN111275025A (zh) * 2020-03-23 2020-06-12 复旦大学 一种基于深度学习的车位检测方法
US11768945B2 (en) * 2020-04-07 2023-09-26 Allstate Insurance Company Machine learning system for determining a security vulnerability in computer software
CN111695989A (zh) * 2020-06-18 2020-09-22 新分享科技服务(深圳)有限公司 一种风控信贷模型的建模方法和平台
US11847217B2 (en) * 2020-06-30 2023-12-19 Mcafee, Llc Methods and apparatus to provide and monitor efficacy of artificial intelligence models
CN111915155A (zh) * 2020-07-13 2020-11-10 上海冰鉴信息科技有限公司 小微企业风险等级识别方法、装置及计算机设备
CN111931912A (zh) * 2020-08-07 2020-11-13 北京推想科技有限公司 网络模型的训练方法及装置,电子设备及存储介质
CN112259085A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种基于模型融合框架的两阶段语音唤醒算法
CN112052915B (zh) * 2020-09-29 2024-02-13 中国银行股份有限公司 一种数据训练方法、装置、设备及存储介质
US20220108241A1 (en) * 2020-10-06 2022-04-07 Bank Of Montreal Systems and methods for predicting operational events
TWI754446B (zh) * 2020-11-05 2022-02-01 中華電信股份有限公司 維持模型推論品質之系統及其方法
CN112465764A (zh) * 2020-11-24 2021-03-09 泰康保险集团股份有限公司 一种图像篡改检测方法和装置
CN112633638B (zh) * 2020-12-03 2022-07-08 北京道隆华尔软件股份有限公司 业务风险评估方法、装置、计算机设备和存储介质
CN112890816A (zh) * 2020-12-11 2021-06-04 万达信息股份有限公司 一种个人用户的健康指数评分方法和装置
CN112734568B (zh) * 2021-01-29 2024-01-12 深圳前海微众银行股份有限公司 信用评分卡模型构建方法、装置、设备及可读存储介质
CN112966102A (zh) * 2021-02-10 2021-06-15 万翼科技有限公司 分类模型构建及文本语句分类方法、设备及存储介质
CN113035363B (zh) * 2021-03-25 2024-01-02 浙江大学 一种概率密度加权的遗传代谢病筛查数据混合采样方法
CN112990375B (zh) * 2021-04-29 2021-09-24 北京三快在线科技有限公司 一种模型训练方法、装置、存储介质及电子设备
CN113223017A (zh) * 2021-05-18 2021-08-06 北京达佳互联信息技术有限公司 目标分割模型的训练方法、目标分割方法及设备
CN113449966B (zh) * 2021-06-03 2023-04-07 湖北北新建材有限公司 一种石膏板设备巡检方法及系统
CN113505827B (zh) * 2021-07-08 2024-01-12 西藏大学 一种机器学习分类方法
CN113821623A (zh) * 2021-09-29 2021-12-21 平安普惠企业管理有限公司 模型训练方法、装置、设备与存储介质
CN113611411B (zh) * 2021-10-09 2021-12-31 浙江大学 一种基于假阴性样本识别的体检辅助决策系统
CN114169224A (zh) * 2021-11-15 2022-03-11 歌尔股份有限公司 获取光栅结构数据的方法、装置及可读存储介质
CN114978616B (zh) * 2022-05-06 2024-01-09 支付宝(杭州)信息技术有限公司 风险评估系统的构建方法及装置、风险评估方法及装置
CN115454171A (zh) * 2022-08-30 2022-12-09 海尔优家智能科技(北京)有限公司 智能设备及其除雾方法、设备及介质
CN115719647B (zh) * 2023-01-09 2023-04-11 之江实验室 融合主动学习和对比学习的血透并发心血管疾病预测系统
CN116204567B (zh) * 2023-04-28 2023-09-05 京东科技控股股份有限公司 用户挖掘及模型的训练方法、装置、电子设备和存储介质
CN116596336B (zh) * 2023-05-16 2023-10-31 合肥联宝信息技术有限公司 电子设备的状态评估方法、装置、电子设备及存储介质
CN116578877B (zh) * 2023-07-14 2023-12-26 之江实验室 一种模型训练及二次优化打标的风险识别的方法及装置
CN116595215A (zh) * 2023-07-14 2023-08-15 先进操作系统创新中心(天津)有限公司 基于多模态技术的中文文本搜索图像或视频的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163285A (zh) * 2011-03-09 2011-08-24 北京航空航天大学 一种基于主动学习的跨域视频语义概念检测方法
CN106096598A (zh) * 2016-08-22 2016-11-09 深圳市联合视觉创新科技有限公司 一种利用深度相关神经网络模型识别人脸表情的方法及装置
CN106779755A (zh) * 2016-12-31 2017-05-31 湖南文沥征信数据服务有限公司 一种网络电商借贷风险评估方法及模型
CN106778603A (zh) * 2016-12-13 2017-05-31 中国科学院信息工程研究所 一种基于梯度式级联svm分类器的行人识别方法
CN107133628A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822741A (en) * 1996-02-05 1998-10-13 Lockheed Martin Corporation Neural network/conceptual clustering fraud detection architecture
US6917926B2 (en) 2001-06-15 2005-07-12 Medical Scientists, Inc. Machine learning method
US7249162B2 (en) 2003-02-25 2007-07-24 Microsoft Corporation Adaptive junk message filtering system
WO2005055073A1 (en) * 2003-11-27 2005-06-16 Qinetiq Limited Automated anomaly detection
EP1816595A1 (en) * 2006-02-06 2007-08-08 MediaKey Ltd. A method and a system for identifying potentially fraudulent customers in relation to network based commerce activities, in particular involving payment, and a computer program for performing said method
US7792353B2 (en) * 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
US8554622B2 (en) * 2006-12-18 2013-10-08 Yahoo! Inc. Evaluating performance of binary classification systems
US8386401B2 (en) 2008-09-10 2013-02-26 Digital Infuzion, Inc. Machine learning methods and systems for identifying patterns in data using a plurality of learning machines wherein the learning machine that optimizes a performance function is selected
EP2406717A4 (en) 2009-03-13 2012-12-26 Univ Rutgers SYSTEMS AND METHODS FOR DETECTING DAMAGE PROGRAMS
US8401979B2 (en) * 2009-11-16 2013-03-19 Microsoft Corporation Multiple category learning for training classifiers
US20130231258A1 (en) 2011-12-09 2013-09-05 Veracyte, Inc. Methods and Compositions for Classification of Samples
US8988237B2 (en) 2010-05-27 2015-03-24 University Of Southern California System and method for failure prediction for artificial lift systems
WO2012009804A1 (en) 2010-07-23 2012-01-26 Corporation De L'ecole Polytechnique Tool and method for fault detection of devices by condition based maintenance
WO2012116208A2 (en) 2011-02-23 2012-08-30 New York University Apparatus, method, and computer-accessible medium for explaining classifications of documents
CN103123634B (zh) * 2011-11-21 2016-04-27 北京百度网讯科技有限公司 一种版权资源识别方法及装置
US20150200962A1 (en) 2012-06-04 2015-07-16 The Board Of Regents Of The University Of Texas System Method and system for resilient and adaptive detection of malicious websites
US9405900B2 (en) 2013-03-13 2016-08-02 General Electric Company Intelligent cyberphysical intrusion detection and prevention systems and methods for industrial control systems
BR112015022490A2 (pt) 2013-03-15 2017-07-18 Veracyte Inc métodos e composições para classificação de amostras
US10372815B2 (en) 2013-07-12 2019-08-06 Microsoft Technology Licensing, Llc Interactive concept editing in computer-human interactive learning
US20150134966A1 (en) 2013-11-10 2015-05-14 Sypris Electronics, Llc Authentication System
US9037967B1 (en) 2014-02-18 2015-05-19 King Fahd University Of Petroleum And Minerals Arabic spell checking technique
US9373059B1 (en) * 2014-05-05 2016-06-21 Atomwise Inc. Systems and methods for applying a convolutional network to spatial data
JP6419859B2 (ja) 2014-06-30 2018-11-07 アマゾン・テクノロジーズ・インコーポレーテッド 機械学習モデル評価のための対話型インターフェース
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
AU2015331579A1 (en) 2014-10-17 2017-05-25 Cireca Theranostics, Llc Methods and systems for classifying biological samples, including optimization of analyses and use of correlation
WO2016094330A2 (en) 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
US10984338B2 (en) * 2015-05-28 2021-04-20 Raytheon Technologies Corporation Dynamically updated predictive modeling to predict operational outcomes of interest
US20160358099A1 (en) 2015-06-04 2016-12-08 The Boeing Company Advanced analytical infrastructure for machine learning
US11514096B2 (en) 2015-09-01 2022-11-29 Panjiva, Inc. Natural language processing for entity resolution
US10382300B2 (en) 2015-10-06 2019-08-13 Evolv Technologies, Inc. Platform for gathering real-time analysis
US9972092B2 (en) 2016-03-31 2018-05-15 Adobe Systems Incorporated Utilizing deep learning for boundary-aware image segmentation
WO2018009552A1 (en) 2016-07-05 2018-01-11 Nauto Global Limited System and method for image analysis
CN106971158B (zh) * 2017-03-23 2019-07-16 南京邮电大学 一种基于CoLBP共生特征与GSS特征的行人检测方法
CN107798390B (zh) * 2017-11-22 2023-03-21 创新先进技术有限公司 一种机器学习模型的训练方法、装置以及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102163285A (zh) * 2011-03-09 2011-08-24 北京航空航天大学 一种基于主动学习的跨域视频语义概念检测方法
CN107133628A (zh) * 2016-02-26 2017-09-05 阿里巴巴集团控股有限公司 一种建立数据识别模型的方法及装置
CN106096598A (zh) * 2016-08-22 2016-11-09 深圳市联合视觉创新科技有限公司 一种利用深度相关神经网络模型识别人脸表情的方法及装置
CN106778603A (zh) * 2016-12-13 2017-05-31 中国科学院信息工程研究所 一种基于梯度式级联svm分类器的行人识别方法
CN106779755A (zh) * 2016-12-31 2017-05-31 湖南文沥征信数据服务有限公司 一种网络电商借贷风险评估方法及模型

Also Published As

Publication number Publication date
SG11202004037TA (en) 2020-06-29
CN107798390A (zh) 2018-03-13
WO2019100844A1 (zh) 2019-05-31
US10943186B2 (en) 2021-03-09
EP3690763A4 (en) 2020-12-16
EP3690763A1 (en) 2020-08-05
TWI718411B (zh) 2021-02-11
US20200210899A1 (en) 2020-07-02
TW201926148A (zh) 2019-07-01

Similar Documents

Publication Publication Date Title
CN107798390B (zh) 一种机器学习模型的训练方法、装置以及电子设备
CN108111489B (zh) Url攻击检测方法、装置以及电子设备
EP3651043B1 (en) Url attack detection method and apparatus, and electronic device
CN107577945B (zh) Url攻击检测方法、装置以及电子设备
WO2017140222A1 (zh) 机器学习模型的建模方法及装置
CN109670837A (zh) 债券违约风险的识别方法、装置、计算机设备和存储介质
CN109600336A (zh) 存储设备、验证码应用方法和装置
CN106408411A (zh) 信用评估方法及装置
CN111062444B (zh) 信用风险预测方法、系统、终端及存储介质
CN112488719A (zh) 一种账户风险识别方法和装置
CN109615280A (zh) 员工数据处理方法、装置、计算机设备和存储介质
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN110009224A (zh) 嫌疑人违规概率预测方法、装置、计算机设备及存储介质
CN109670933A (zh) 识别用户角色的方法、用户设备、存储介质及装置
CN113657896A (zh) 一种基于图神经网络的区块链交易拓扑图分析方法和装置
CN111428217A (zh) 欺诈团伙识别方法、装置、电子设备及计算机可读存储介质
CN113139687B (zh) 一种预测信用卡用户违约的方法及装置
CN111798047A (zh) 风控预测方法、装置、电子设备及存储介质
CN114638704A (zh) 非法资金转移的识别方法及其装置、电子设备及存储介质
CN110533525A (zh) 用于评估实体风险的方法及装置
CN112750038A (zh) 交易风险的确定方法、装置和服务器
CN113807541B (zh) 决策系统的公平性修复方法、系统、设备及存储介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN113177784B (zh) 地址类型识别方法及装置
US11915313B2 (en) Using email history to estimate creditworthiness for applicants having insufficient credit history

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant