CN111242195A - 模型、保险风控模型训练方法、装置及电子设备 - Google Patents

模型、保险风控模型训练方法、装置及电子设备 Download PDF

Info

Publication number
CN111242195A
CN111242195A CN202010010979.6A CN202010010979A CN111242195A CN 111242195 A CN111242195 A CN 111242195A CN 202010010979 A CN202010010979 A CN 202010010979A CN 111242195 A CN111242195 A CN 111242195A
Authority
CN
China
Prior art keywords
data
sample
abnormal
data group
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010010979.6A
Other languages
English (en)
Other versions
CN111242195B (zh
Inventor
王修坤
张文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Shengxin Shanghai Information Technology Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010010979.6A priority Critical patent/CN111242195B/zh
Publication of CN111242195A publication Critical patent/CN111242195A/zh
Application granted granted Critical
Publication of CN111242195B publication Critical patent/CN111242195B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本说明书实施例公开了一种模型、保险风控模型训练方法、装置及电子设备,其基本思想是,获取待选数据样本,待选数据样本包含非异常数据和异常数据,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。

Description

模型、保险风控模型训练方法、装置及电子设备
技术领域
本说明书实施例涉及计算机技术领域,尤其涉及一种模型、保险风控模型训练方法、装置及电子设备。
背景技术
借助于计算机技术的发展,线上业务增长显著。对一些特定业务,可以利用业务模型进行处理,该处理可以是分类、预测、识别等,在此不受具体限定。
通常,在业务模型应用之前,选取数据样本进行训练,其目的在于确定业务模型中各特征参数的具体值。数据样本是影响业务模型精确度的一个关键因素,一般情况下,数据样本越丰富,则业务模型精确度越高。
发明内容
有鉴于此,本说明书实施例提供了一种提升模型精确度的模型、保险风控模型训练方法、装置及电子设备。
本说明书实施例采用下述技术方案:
本说明书实施例提供一种模型训练方法,包括:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
本说明书实施例还提供一种保险风控模型训练方法,包括:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
本说明书实施例还提供一种模型训练装置,包括:
获取模块,获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块,利用得到的所述白样本和黑样本进行训练,得到业务模型。
本说明书实施例还提供一种保险风控模型训练装置,包括:
获取模块,获取待选保险数据样本,所述待选保险数据样本所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块,对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块,利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
本说明书实施例还提供一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
本说明书实施例还提供一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
本说明书实施例记载的技术方案是,获取待选数据样本,待选数据样本包含具有异常因子的异常数据,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。
这样,利用本说明书实施例记载的方案,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。
附图说明
此处所说明的附图用来提供对本说明书实施例的进一步理解,构成本说明书实施例的一部分,本说明书的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提出的一种模型训练方法的流程图;
图2为本说明书实施例提出的一种模型训练方法的一个应用示例的流程图;
图3为本说明书实施例提出的一种保险风控模型训练方法的流程图;
图4为本说明书实施例提出的一种模型训练装置的结构示意图;
图5为本说明书实施例提出的一种保险风控模型训练装置的结构示意图。
具体实施方式
对现有技术进行分析发现,在一些业务场景中,如果缺乏数据样本或数据样本有限,则会影响基于业务模型的场景应用。那么,如何在这种情况下拓展业务模型的训练数据样本成为业界一个重要课题。
本说明书实施例提出一种模型、保险风控模型训练方法、装置及电子设备,其基本思想是,获取待选数据样本,待选数据样本包含非异常数据和具有异常因子的异常数据,对待选数据样本进行聚类,可以得到根据用户行为特征分组的数据组,根据各所述数据组中异常数据的统计值判断数据组的样本属性,所述样本属性为白样本和黑样本中的一种。此时,利用得到的所述白样本和黑样本进行训练,得到业务模型。
利用本说明书实施例记载的方案,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。
为使本申请的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书实施例提出的一种模型训练方法的流程图。
步骤101:获取待选数据样本,待选数据样本包含非异常数据和具有异常因子的异常数据。
待选数据样本为初步筛选得到的训练用业务数据,而异常数据可以是初步认定的黑样本。进一步地,待选数据样本中还可以包括具有非异常因子的非异常数据。
对异常因子和非异常因子的类别和具体值,可以根据具体应用场景确定,在此不作具体限定。具体对,可以基于过往历史经验确定具体场景下的异常因子和非异常因子。例如,在保险风控场景中,若异常因子是高于阈值的极高出险额,则非异常因子可以是正常出险额;若异常因子是出险日与保险购买日之间的时间差短于预期,则非异常因子可以是出险日与保险购买日之间的时间差符合预期。此为举例,不再更多赘言。
本说明书实施例记载的异常因子可以是单个因子,还可以是多个因子的组合,在此不作具体限定。
在本说明书实施例中,获取待选数据样本,可以包括:
利用所述异常因子从数据库中提取所述异常数据;
利用非异常因子从数据库中提取非异常数据;
根据所述异常数据和所述非异常数据确定所述待选数据样本。
步骤103:对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组。
聚类是一种包括数据分组的机器学习技术,利用聚类算法将待选数据样本中的每个数据分到特定的组中。理论上,属于同一数据组的数据具有相似的用户行为特征,而属于不同组的数据具有不同的用户行为特征。
对具体的聚类算法,可以是最大互相关熵MCC(Matthews correlationcoefficient)算法或其他聚类算法,在此不作具体限定。
具体地,用户行为特征可以是时间特征、所处位置特征、业务属性或其他特征,可在聚类过程中自动识别,在此不作具体限定。
步骤105:根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种。
本说明书实施例的基本思想是,同一数据组中各数据是基于相似或相同的用户行为特征聚集在一起,那么这些数据之间存在行为关联性,或者说这些数据所属用户存在行为关联性。这样,异常数据事先认定为黑样本的概率较大,那么与异常数据存在行为关联的非异常数据也具有黑样本的嫌疑。根据各数据组中异常数据的统计值,如果异常数据的数量较多,那么说明该组中非异常数据与较多个异常数据存在行为关联,则该非异常数据为黑样本的可能性较大,因此该数据组中所有数据均可以认定为黑样本。这可以在一定程度上扩展黑样本的数量。
反之,如果数据组中未包含任何异常数据,则该数据组中所有数据为白样本的可能性较大,则该数据组可以认定为白样本。
在本说明书实施例中,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,可以包括:
统计各所述数据组中的异常数据,得到各个所述数据组的所述统计值;
根据所述统计值与所述样本属性之间的对应关系,确定所述统计值所属的数据组的所述样本属性。
统计值与样本属性之间的对应关系可以是预设的。也可以不根据该预设的对应关系判断样本属性,而是实时地根据统计值判定样本属性。
具体地,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性。
还可以是,根据各个数据组中的异常数据的数据量判断该数据组的样本属性。
在本说明书实施例中,根据各所述数据组中异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中所述异常数据的占比超过阈值,则判定所述数据组的样本属性为所述黑样本。
异常数据的占比超过阈值,则说明该数据组中的大部分数据为异常数据,那么与这些异常数据具备行为关联的其他非异常数据为黑样本的概率较大。数据组为黑样本,说明该数据组中所有数据均视为黑样本。
其中,阈值可以是预先设定的,在此不作具体限定。
在另一实施例中,根据各所述数据组中异常数据的占比判断所述数据组的样本属性,可以包括:
若所述数据组中的异常数据占比超过其他非异常数据占比,则判定对应的所述数据组为所述黑样本。
另外,据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中各数据均为所述非异常数据,则判定所述数据组的样本属性为所述白样本。
步骤107:利用得到的所述白样本和黑样本进行训练,得到业务模型。
本训练过程可以是二分类算法建模或其他建模类型,在此不作具体限定。
利用本说明书实施例记载的方案,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。
图2为本说明书实施例提出的一种模型训练方法的一个应用示例的流程图。
步骤202可以参考上文所述步骤101的内容,步骤204可以参考上文所述步骤103的内容,步骤206可以参考上文所述步骤105的内容,步骤208可以参考上文所述步骤107。
步骤210:利用训练得到的所述业务模型对预测数据进行预测,得到预测结果。
预测数据样本可以是新增数据样本。
具体地,将预测数据输入业务模型,业务模型输出预测结果。该预测结果可以是具体的预测数据为异常数据和正常数据中的一种的概率。
返回步骤202,这样获取待选数据样本,可以包括:
根据所述预测结果所属的预测数据更新所述待选数据样本。
采用如上方式进行迭代,直至所有预测数据均处理完毕,或者迭代次数达到预设次数,或者业务模型的评价指标达到预设指标。
在本说明书实施例中,也可以不使用迭代。
在本说明书实施例中,根据所述预测结果所属的预测数据更新所述待选数据样本,可以包括:
若预测结果显示对应的预测数据为异常数据的概率超过极大值,则确定该预测数据为异常数据;
利用该异常数据更新待选数据样本中的异常数据。
若预测结果显示对应的预测数据为异常数据的概率超过极小值,则确定该预测数据为非异常数据;
利用该非异常数据更新该待选数据样本中的非异常数据。
图3为本说明书实施例提出的一种保险风控模型训练方法的流程图。
步骤301:获取待选保险数据样本,待选保险数据样本包含非异常数据和具有异常因子的异常数据。
该异常数据可以是具有保险欺诈嫌疑的数据。
步骤303:对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组。
步骤305:根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种。
步骤307:利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
保险风控模型可以是上文图1所示业务模型的一个应用示例,对于图3所示实施例中各步骤的内容可对应参考上文图1所示文字内容,在此不再赘述。
利用本说明书实施例记载的方案,待选保险数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升保险风控模型的训练精确度。
图4为本说明书实施例提出的一种模型训练装置的结构示意图。
本装置可以包括:
获取模块401,获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块402,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块403,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块404,利用得到的所述白样本和黑样本进行训练,得到业务模型。
可选地,获取待选数据样本,包括:
利用所述异常因子从数据库中提取所述异常数据;
利利用非异常因子从数据库中提取所述非异常数据;
根据所述异常数据和所述非异常数据确定所述待选数据样本。
可选地,根据各所述数据组中异常数据的统计值判断所述数据组的样本属性,包括:
统计各所述数据组中异常数据,得到各个所述数据组的所述统计值;
根据所述统计值与所述样本属性之间的对应关系,确定所述统计值所属的数据组的所述样本属性。
可选地,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性。
可选地,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中所述异常数据的占比超过阈值,则判定所述数据组的样本属性为所述黑样本。
可选地,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中各数据均为所述非异常数据,则判定所述数据组的样本属性为所述白样本。
可选地,所述装置还包括:
预测模块405,利用训练得到的所述业务模型对预测数据进行预测,得到预测结果;
获取待选数据样本,包括;
根据所述预测结果所属的预测数据更新所述待选数据样本。
利用本说明书实施例记载的装置,待选数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升业务模型的训练精确度。
基于同一个发明构思,本说明书实施例还提供了一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
对上述各个步骤的详细描述请参见之前模型训练方法的内容,不再重复。
基于同一发明构思,本说明书实施例中还提供了一种计算机可读存储介质,包括与电子设备结合使用的程序,所述程序可被处理器执行以完成以下步骤:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
对上述各个步骤的详细描述请参见之前模型训练方法的内容,不再重复。
图5为本说明书实施例提出的一种保险风控模型训练装置的结构示意图。
本装置可以包括:
获取模块501,获取待选保险数据样本,所述待选保险数据样本所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块502,对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块503,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块504,利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
利用本说明书实施例记载的装置,待选保险数据样本中有一部分数据为异常数据,异常数据具有较高概率为黑样本。基于用户行为特征聚集在一起的数据组中,数据之间存在行为关联性,那么该数据组中所有数据因为行为关联性可能具有相近或相同的样本属性。因此,本说明书实施例利用数据组中异常数据的统计值判定每个数据组的样本属性,实质是将数据组的样本属性赋予到该数据组中的所有数据,这可以实现对训练用数据样本量的扩展,尤其是黑样本的数据量,提升保险风控模型的训练精确度。
基于同一个发明构思,本说明书实施例还提供了一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
对上述各个步骤的详细描述请参见之前的保险风控模型训练方法的内容,不再重复。
基于同一发明构思,本说明书实施例中还提供了一种计算机可读存储介质,包括与电子设备结合使用的程序,所述程序可被处理器执行以完成以下步骤:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
对上述各个步骤的详细描述请参见之前的保险风控模型训练方法的内容,不再重复。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (18)

1.一种模型训练方法,包括:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
2.如权利要求1所述的方法,获取待选数据样本,包括:
利用所述异常因子从数据库中提取所述异常数据;
利用非异常因子从数据库中提取所述非异常数据;
根据所述异常数据和所述非异常数据确定所述待选数据样本。
3.如权利要求1所述的方法,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
统计各所述数据组中的异常数据,得到各个所述数据组的所述统计值;
根据所述统计值与所述样本属性之间的对应关系,确定所述统计值所属的数据组的所述样本属性。
4.如权利要求1所述的方法,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性。
5.如权利要求4所述的方法,根据各所述数据组中异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中所述异常数据的占比超过阈值,则判定所述数据组的样本属性为所述黑样本。
6.如权利要求4所述的方法,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中各数据均为所述非异常数据,则判定所述数据组的样本属性为所述白样本。
7.如权利要求1所述的方法,还包括:
利用训练得到的所述业务模型对预测数据进行预测,得到预测结果;
获取待选数据样本,包括;
根据所述预测结果所属的预测数据更新所述待选数据样本。
8.一种保险风控模型训练方法,包括:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
9.一种模型训练装置,包括:
获取模块,获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块,对所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块,利用得到的所述白样本和黑样本进行训练,得到业务模型。
10.如权利要求9所述的装置,获取待选数据样本,包括:
利用所述异常因子从数据库中提取所述异常数据;
利用非异常因子从数据库中提取所述非异常数据;
根据所述异常数据和所述非异常数据确定所述待选数据样本。
11.如权利要求9所述的装置,根据各所述数据组中异常数据的统计值判断所述数据组的样本属性,包括:
统计各所述数据组中异常数据,得到各个所述数据组的所述统计值;
根据所述统计值与所述样本属性之间的对应关系,确定所述统计值所属的数据组的所述样本属性。
12.如权利要求9所述的装置,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,包括:
根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性。
13.如权利要求12所述的装置,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中所述异常数据的占比超过阈值,则判定所述数据组的样本属性为所述黑样本。
14.如权利要求12所述的装置,根据各所述数据组中所述异常数据的占比判断所述数据组的样本属性,包括:
若所述数据组中各数据均为所述非异常数据,则判定所述数据组的样本属性为所述白样本。
15.如权利要求9所述的装置,还包括:
预测模块,利用训练得到的所述业务模型对预测数据进行预测,得到预测结果;
获取待选数据样本,包括;
根据所述预测结果所属的预测数据更新所述待选数据样本。
16.一种保险风控模型训练装置,包括:
获取模块,获取待选保险数据样本,所述待选保险数据样本所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
聚类模块,对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
判断模块,根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
训练模块,利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
17.一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选数据样本,所述待选数据样本包含非异常数据和具有异常因子的异常数据;
所述待选数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中所述异常数据的统计值判断所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到业务模型。
18.一种电子设备,包括:
处理器;以及
被配置成存储计算机程序的存储器,所述计算机程序在被执行时使所述处理器执行以下操作:
获取待选保险数据样本,所述待选保险数据样本包含非异常数据和具有异常因子的异常数据;
对所述待选保险数据样本进行聚类,得到根据用户行为特征分组的数据组;
根据各所述数据组中异常数据的统计值判断对应的所述数据组的样本属性,所述样本属性为白样本和黑样本中的一种;
利用得到的所述白样本和黑样本进行训练,得到保险风控模型。
CN202010010979.6A 2020-01-06 2020-01-06 模型、保险风控模型训练方法、装置及电子设备 Active CN111242195B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010010979.6A CN111242195B (zh) 2020-01-06 2020-01-06 模型、保险风控模型训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010010979.6A CN111242195B (zh) 2020-01-06 2020-01-06 模型、保险风控模型训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111242195A true CN111242195A (zh) 2020-06-05
CN111242195B CN111242195B (zh) 2023-06-20

Family

ID=70874272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010010979.6A Active CN111242195B (zh) 2020-01-06 2020-01-06 模型、保险风控模型训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111242195B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023093015A1 (zh) * 2021-11-23 2023-06-01 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130211A1 (en) * 2003-12-06 2005-06-16 Shain Eric B. Method and system for analyzing reactions using an information system
CN108366045A (zh) * 2018-01-02 2018-08-03 北京奇艺世纪科技有限公司 一种风控评分卡的设置方法和装置
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
WO2019053695A1 (en) * 2017-09-18 2019-03-21 Telefonaktiebolaget L M Ericsson (Publ) SYSTEM AND METHOD FOR PROVIDING ACCURATE DRIVING RECOMMENDATIONS BASED ON NETWORK-ASSISTED SCAN OF AN AMBIENT ENVIRONMENT
WO2019056497A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN109948681A (zh) * 2019-03-11 2019-06-28 阿里巴巴集团控股有限公司 异常数据检测方法与装置
CN110245132A (zh) * 2019-06-12 2019-09-17 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机可读存储介质和计算机设备
CN110309955A (zh) * 2019-06-13 2019-10-08 南瑞集团有限公司 一种云环境应用系统非停机升级时的负载预测方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050130211A1 (en) * 2003-12-06 2005-06-16 Shain Eric B. Method and system for analyzing reactions using an information system
WO2019053695A1 (en) * 2017-09-18 2019-03-21 Telefonaktiebolaget L M Ericsson (Publ) SYSTEM AND METHOD FOR PROVIDING ACCURATE DRIVING RECOMMENDATIONS BASED ON NETWORK-ASSISTED SCAN OF AN AMBIENT ENVIRONMENT
WO2019056497A1 (zh) * 2017-09-19 2019-03-28 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN108366045A (zh) * 2018-01-02 2018-08-03 北京奇艺世纪科技有限公司 一种风控评分卡的设置方法和装置
CN108960561A (zh) * 2018-05-04 2018-12-07 阿里巴巴集团控股有限公司 一种基于不平衡数据的风控模型处理方法、装置及设备
CN109948681A (zh) * 2019-03-11 2019-06-28 阿里巴巴集团控股有限公司 异常数据检测方法与装置
CN110245132A (zh) * 2019-06-12 2019-09-17 腾讯科技(深圳)有限公司 数据异常检测方法、装置、计算机可读存储介质和计算机设备
CN110309955A (zh) * 2019-06-13 2019-10-08 南瑞集团有限公司 一种云环境应用系统非停机升级时的负载预测方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023093015A1 (zh) * 2021-11-23 2023-06-01 北京百度网讯科技有限公司 一种数据筛选方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN111242195B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN108596410B (zh) 一种风控事件自动处理方法及装置
CN110390198B (zh) 一种对小程序的风险巡检方法、装置及电子设备
CN109508879B (zh) 一种风险的识别方法、装置及设备
CN110674188A (zh) 一种特征提取方法、装置及设备
CN110633989A (zh) 一种风险行为生成模型的确定方法及装置
CN111930809A (zh) 数据处理方法、装置及设备
CN110826894A (zh) 超参数确定方法、装置及电子设备
CN109615171B (zh) 特征阈值确定方法及装置、问题对象确定方法及装置
CN115618748B (zh) 一种模型优化的方法、装置、设备及存储介质
CN112966113A (zh) 一种数据的风险防控方法、装置及设备
CN114943307A (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN115712866A (zh) 数据处理方法、装置及设备
CN108804563B (zh) 一种数据标注方法、装置以及设备
CN110599004A (zh) 一种风险控制方法、设备、介质以及装置
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN112597255A (zh) 一种确定异常数据的方法及装置
CN110163259B (zh) 一种生成样本数据的方法、系统及设备
CN116822606A (zh) 一种异常检测模型的训练方法、装置、设备及存储介质
CN111538925A (zh) 统一资源定位符url指纹特征的提取方法及装置
CN107368281B (zh) 一种数据处理方法及装置
CN109325127B (zh) 一种风险识别方法和装置
CN110321433B (zh) 确定文本类别的方法及装置
CN109903165B (zh) 一种模型合并方法和装置
CN109146395B (zh) 一种数据处理的方法、装置及设备
CN115423485B (zh) 数据处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211209

Address after: Room 610, floor 6, No. 618, Wai Road, Huangpu District, Shanghai 200010

Applicant after: Ant Shengxin (Shanghai) Information Technology Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: Alipay (Hangzhou) Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant