CN111353689A - 一种风险评估方法及装置 - Google Patents
一种风险评估方法及装置 Download PDFInfo
- Publication number
- CN111353689A CN111353689A CN202010093501.4A CN202010093501A CN111353689A CN 111353689 A CN111353689 A CN 111353689A CN 202010093501 A CN202010093501 A CN 202010093501A CN 111353689 A CN111353689 A CN 111353689A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- sample
- characteristic data
- sample characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012502 risk assessment Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013145 classification model Methods 0.000 claims description 17
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种风险评估方法及装置,其中方法包括:获取待预测用户所对应的特征数据;将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。本发明实施例实现了通过评分卡模型对多种应用场景的预测。
Description
技术领域
本发明涉及风险评估技术领域,尤其涉及一种风险评估方法及装置。
背景技术
评分卡是一种常见的机器学习模型,典型应用场景包括银行放贷和企业征信等,旨在根据个人的基本信息拟合信用状况进行分数计算。评分卡已经成为具有严密理论和方法体系的信用评价手段。但是,经典评分卡仅适用于小数据量,高覆盖率和高准确性的数据场景中,且只能适用二分类业务场景,而对于互联网海量,低覆盖和低质量的数据场景没有系统性的解决方案,例如在关键数据缺失率极高的数据场景中则不适用,且并不能适用多种业务场景。
发明内容
本发明实施例提供一种风险评估方法及装置,以解决现有技术中只能采用评分模型对二分类业务场景进行风险评估的问题。
本发明实施例提供一种风险评估方法,包括:
获取待预测用户所对应的特征数据;
将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;
其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
可选地,所述将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的预测结果之前,还包括:获取样本用户所对应的样本特征数据和真实风险值;当所述样本特征数据的缺失率大于预设缺失阈值时,通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据;通过所述填充后数据对预设二分类模型进行训练,得到训练后模型;通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试,并当所述训练后模型的准确度大于预设准确度阈值时,将所述训练后模型确定为所述评分卡模型。
可选地,所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,包括:当所述样本特征数据的数据类型为连续型时,通过线性模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为二分类型时,通过逻辑回归模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为无序多分类型时,通过Softmax模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为有序多分类型时,通过有序多分类模型对所述样本特征数据进行填充,得到填充后数据。
可选地,所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,包括:获取所述样本特征数据中缺失率由低到高的数据位置排列顺序;按照所述缺失率由低到高的数据位置排列顺序,依次对缺失数据进行填充,得到填充后数据。
可选地,所述通过所述填充后数据对预设二分类模型进行训练,得到训练后模型,包括:通过预设切分点对所述标签数据进行切分,并对分属于预设切分点两侧的标签数据分别进行二分类标记;通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练,得到训练后数据。
可选地,当所述标签数据的数据类型为连续型时,所述通过预设切分点对所述标签数据进行切分之前,还包括:通过反向映射,将所述标签数据转换为sigmoid曲线;根据所述sigmoid曲线,确定所述标签数据所对应的切分点,并将所确定的切分点确定为预设切分点。
本发明实施例还提供一种风险评估装置,包括:
第一获取模块,用于获取待预测用户所对应的特征数据;
第二获取模块,用于将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;
其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的风险评估方法的步骤。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的风险评估方法的步骤。
本发明实施例提供的风险评估方法及装置,通过在获取到待预测用户所对应的特征数据后,然后将特征数据输入至评分卡模型中,得到评分卡模型输出的风险预测结果,其中评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且标签数据已预先通过预设切分点进行二分类切分,这使得训练到的评分卡模型不仅能够适用于二分类数据,还能够适用于其他类型数据,从而实现了该评分卡模型能够适应于连续型数据、无序多分类型数据和有序多分类数据等多类型数据,从而扩展了评分卡模型的应用场景,使得评分卡模型能够适应多种业务的数据类型,避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中风险评估方法的步骤流程图;
图2为本发明实施例中得到评分卡模型的步骤流程图;
图3为本发明实施例中样本特征数据的示意图;
图4为本发明实施例中对样本特征数据进行填充后的示意图;
图5为本发明实施例中采用填充后数据对预设二分类模型进行训练时的示意图;
图6为本发明实施例中采用样本特征数据对训练后数据进行准确度测试时的示意图;
图7为本发明实施例中风险评估装置的模块框图;
图8为本发明实施例中电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例中风险评估方法的步骤流程图,该方法包括如下步骤:
步骤101:获取待预测用户所对应的特征数据。
在本步骤中,具体的,在对用户进行风险评估时可以先获取待预测用户所对应的特征数据。
此外,具体的,待预测用户可以对应与风险预测相关的多类特征数据,在此并不对此进行具体限定。例如可以包括用户的年龄、学历、地域、资产分布情况以及收入等多类特征数据。
步骤102:将特征数据输入至评分卡模型中,得到评分卡模型输出的风险预测结果。
在本步骤中,可以直接将获取到的特征数据输入至评分卡模型中,得到评分卡模型输出的风险预测结果。
其中,该评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且标签数据已预先通过预设切分点进行二分类切分。
具体的,预设切分点为根据业务实际需求所设置的合适切分点,即可以根据业务需要对每类标签数据选取合适的切分点,并在切分点以上和以下分别进行二分类标记,得到二分类切分后的标签数据,从而实现了能够通过除二分类类型之外的类型标签数据训练得到评分卡模型,进而实现了在评分卡模型的应用过程中,能够不限制评分卡模型的应用场景,即能够适用于包括二分类业务场景在内的连续型、无序多分类型和有序多分类型等业务场景,实现了评分卡模型能够适应多种业务的数据类型,避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。
例如,假设标签数据为连续型的工资收入,则可以直接设置预设切分点,并通过该预设切分点对连续型数据进行切分,此时可以假设预设切分点以上的数值对应1,预设切分点以下的数值对应0;同理,假设标签数据为包括连续多档分类的资产等级,假设包括1至4档,则可以将预设切分点设置为3档,此时3档以上可以对应1,3档以下可以对应0。
这样,本实施例在获取到待预测用户所对应的特征数据后,将特征数据输入至评分卡模型中,得到评分卡模型输出的风险预测结果,基于评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且标签数据已预先通过预设切分点进行二分类切分,从而实现了能够通过除二分类类型之外的类型标签数据训练得到评分卡模型,进而实现了在评分卡模型的应用过程中,能够不限制评分卡模型的应用场景,即能够适用于包括二分类业务场景在内的连续型、无序多分类型和有序多分类型等业务场景,实现了评分卡模型能够适应多种业务的数据类型,避免了现有评分卡模型只能对二分类业务场景进行评分预测的问题。
进一步地,本实施例在将特征数据输入至评分卡模型中,得到评分卡模型输出的风险预测结果之前,还需要得到评分卡模型,此时如图2所示,可以包括如下步骤:
步骤201:获取样本用户所对应的样本特征数据和真实风险值。
具体的,样本特征数据的数据类型为下述类型中的任意一种或多种:连续型、二分类型、无序多分类型和有序多分类型;即在此并不具体限定样本用户所对应的多类样本特征数据中每类样本特征数据的数据类型。
例如,样本特征数据可以包括用户的年龄、学历、地域、资产分布情况以及收入等多类,在此并不对此进行限定。
步骤202:当样本特征数据的缺失率大于预设缺失阈值时,通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充,得到填充后数据。
在本步骤中,具体的,当样本特征数据的缺失率大于预设缺失阈值时,例如对于关键但缺失率极高的数据,即假设预设缺失阈值为99%时,此时不采用简单的丢弃方法,而是通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充,得到填充后数据。
其中,填充后数据包括填充后特征数据和样本特征数据所对应的标签数据,从而保证了填充后数据的完整性,从而使得能够通过填充后数据对预设二分类模型进行训练。
此时,在通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充,得到填充后数据时,可以当样本特征数据的数据类型为连续型时,通过线性模型对样本特征数据进行填充,得到填充后数据;当特征数据的数据类型为二分类型时,通过逻辑回归模型对样本特征数据进行填充,得到填充后数据;当样本特征数据的数据类型为无序多分类型时,通过Softmax模型对样本特征数据进行填充,得到填充后数据;当样本特征数据的数据类型为有序多分类型时,通过有序多分类模型对样本特征数据进行填充,得到填充后数据。
例如,如图3所示,在图3中的连续型数据、二分类型数据、无序多分类型数据和有序多分类型数据等均缺失率较高,此时可以采用机器学习模型对样本特征数据进行填充,得到填充后数据,填充后数据可以参见图4所示。
这样,通过与样本特征数据的数据类型相对应的机器学习模型对缺失严重的样本特征数据进行大规模预测填充,实现了数据的粗粒度化,降低了模型对精度的敏感度,实现了用样本特征数据的数量弥补精度,避免了现有技术中的评分卡模型不适用互联网海量,低覆盖和低质量的数据场景的问题。
此外,具体的,在通过与样本特征数据的数据类型相对应的机器学习模型对样本特征数据进行填充,得到填充后数据时,还可以获取样本特征数据中缺失率由低到高的数据位置排列顺序,然后按照缺失率由低到高的数据位置排列顺序,依次对缺失数据进行填充,得到填充后数据。这样,通过从缺失率低到高的顺序进行循环填充,实现了用低缺失率数据削减高缺失率数据填充的影响。
步骤203:通过填充后数据对预设二分类模型进行训练,得到训练后模型。
在本步骤中,具体的,在得到填充后数据之后,可以通过填充后数据对预设二分类模型进行训练,得到训练后模型。
当然,具体的,该预设二分类模型可以为现有的评分卡模型,例如可以为二分类回归评分卡模型。
此外,具体的,在通过填充后数据对预设二分类模型进行训练,得到训练后模型时,可以通过预设切分点对标签数据进行切分,并对分属于预设切分点两侧的标签数据分别进行二分类标记,然后通过填充后特征数据和进行二分类标记后的标签数据对预设二分类模型进行训练,得到训练后数据。
当然,当标签数据的数据类型为连续型时,在通过预设切分点对标签数据进行切分之前,还可以通过反向映射,将标签数据转换为sigmoid曲线;然后根据sigmoid曲线,确定标签数据所对应的切分点,并将所确定的切分点确定为预设切分点,以保证所确定的预设切分点的准确性。
这样通过预设切分点对标签数据进行切分,然后再通过填充后特征数据和进行二分类标记的标签数据对预设二分类模型进行训练,使得能够达到较好的拟合效果。
例如,如图5所示,在图5中,通过预设切分点对标签数据进行切分,然后通过填充后特征数据和进行二分类标记的标签数据对预设二分类模型进行训练,从而得到训练后模型。
步骤204:通过样本特征数据和真实风险值对训练后模型进行准确度测试,并当训练后模型的准确度大于预设准确度阈值时,将训练后模型确定为评分卡模型。
在本步骤中,具体的,直接采用未填充的样本特征数据以及样本用户的风险真实值对训练后模型进行准确度测试,并当训练后模型的准确度大于预设准确度阈值时,将训练后模型确定为评分卡模型。
当然,在此需要说明的是,在通过样本特征数据对训练后模型进行准确度测试时,同样需要对样本特征数据所对应的真实风险值进行同上的切分操作,在此不再进行赘述。
这样,在模型训练阶段采用填充后数据对模型进行训练,然后模型验证阶段采用未填充前的真实的样本特征数据进行准确度测试,从而保证所得到的评分卡模型的评分准确性。当然,实践证明,该种方式得到的评分卡模型所得得到的结果可靠且符合预期。
例如,参见图6所示,在图6中,采用未经过填充的样本特征数据输入至训练后模型中,得到真实评分,从而验证评分卡模型的准确度。
这样,本实施例通过对缺失率极高的样本特征数据,通过采用与数据类型相对应的机器学习模型对样本特征数据进行预测填充,并依据填充后数据进行模型训练得到训练后数据,最后根据真实的未填充前的样本特征数据对训练后数据进行准确度测试,得到评分卡模型,实现了在极限缺失数据条件下的评分卡模型的建立,并实现了通过填充后数据和填充前的样本特征数据综合应用得到评分卡模型,避免了模型训练数据与样本特征数据所产生的结果失真,且实现了通过数据切分的方式使得评分卡模型能够适用多种数据类型的应用场景。
此外,如图7所示,为本发明实施例中风险评估装置的模块框图,该风险评估装置包括:
第一获取模块701,用于获取待预测用户所对应的特征数据;
第二获取模块702,用于将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;
其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
可选地,还包括:
第三获取模块,用于获取样本用户所对应的样本特征数据和真实风险值;
第四获取模块,用于当所述样本特征数据的缺失率大于预设缺失阈值时,通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据;
第五获取模块,用于通过所述填充后数据对预设二分类模型进行训练,得到训练后模型;
确定模块,用于通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试,并当所述训练后模型的准确度大于预设准确度阈值时,将所述训练后模型确定为所述评分卡模型。
可选地,所述第四获取模块用于,当所述样本特征数据的数据类型为连续型时,通过线性模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为二分类型时,通过逻辑回归模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为无序多分类型时,通过Softmax模型对所述样本特征数据进行填充,得到填充后数据;当所述样本特征数据的数据类型为有序多分类型时,通过有序多分类模型对所述样本特征数据进行填充,得到填充后数据。
可选地,所述第四获取模块用于,获取所述样本特征数据中缺失率由低到高的数据位置排列顺序;按照所述缺失率由低到高的数据位置排列顺序,依次对缺失数据进行填充,得到填充后数据。
可选地,第五获取模块用于,通过预设切分点对所述标签数据进行切分,并对分属于预设切分点两侧的标签数据分别进行二分类标记;通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练,得到训练后数据。
可选地,当所述标签数据的数据类型为连续型时,第五获取模块用于,通过反向映射,将所述标签数据转换为sigmoid曲线;根据所述sigmoid曲线,确定所述标签数据所对应的切分点,并将所确定的切分点确定为预设切分点。
在此需要说明的是,上述装置能够实现方法侧的所有方法步骤和有益效果,在此不再对相同方法步骤和有益效果进行具体赘述。
另外,如图8所示,为本发明实施例提供的电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储在存储器830上并可在处理器810上运行的计算机程序,以执行下述步骤:获取待预测用户所对应的特征数据;将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例提供的方法步骤。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种风险评估方法,其特征在于,包括:
获取待预测用户所对应的特征数据;
将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;
其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
2.根据权利要求1所述的风险评估方法,其特征在于,所述将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果之前,还包括:
获取样本用户所对应的样本特征数据和真实风险值;
当所述样本特征数据的缺失率大于预设缺失阈值时,通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据;
通过所述填充后数据对预设二分类模型进行训练,得到训练后模型;
通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试,并当所述训练后模型的准确度大于预设准确度阈值时,将所述训练后模型确定为所述评分卡模型。
3.根据权利要求2所述的风险评估方法,其特征在于,所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,包括:
当所述样本特征数据的数据类型为连续型时,通过线性模型对所述样本特征数据进行填充,得到填充后数据;
当所述样本特征数据的数据类型为二分类型时,通过逻辑回归模型对所述样本特征数据进行填充,得到填充后数据;
当所述样本特征数据的数据类型为无序多分类型时,通过Softmax模型对所述样本特征数据进行填充,得到填充后数据;
当所述样本特征数据的数据类型为有序多分类型时,通过有序多分类模型对所述样本特征数据进行填充,得到填充后数据。
4.根据权利要求2所述的风险评估方法,其特征在于,所述通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,包括:
获取所述样本特征数据中缺失率由低到高的数据位置排列顺序;
按照所述缺失率由低到高的数据位置排列顺序,依次对缺失数据进行填充,得到填充后数据。
5.根据权利要求2所述的风险评估方法,其特征在于,所述通过所述填充后数据对预设二分类模型进行训练,得到训练后模型,包括:
通过预设切分点对所述标签数据进行切分,并对分属于预设切分点两侧的标签数据分别进行二分类标记;
通过所述填充后特征数据和进行二分类标记后的标签数据对所述预设二分类模型进行训练,得到训练后数据。
6.根据权利要求5所述的风险评估方法,其特征在于,当所述标签数据的数据类型为连续型时,所述通过预设切分点对所述标签数据进行切分之前,还包括:
通过反向映射,将所述标签数据转换为sigmoid曲线;
根据所述sigmoid曲线,确定所述标签数据所对应的切分点,并将所确定的切分点确定为预设切分点。
7.一种风险评估装置,其特征在于,包括:
第一获取模块,用于获取待预测用户所对应的特征数据;
第二获取模块,用于将所述特征数据输入至评分卡模型中,得到所述评分卡模型输出的风险预测结果;
其中,所述评分卡模型预先以样本用户所对应的样本特征数据为训练样本,以样本特征数据所对应的标签数据为目标值训练得到,且所述标签数据已预先通过预设切分点进行二分类切分。
8.根据权利要求7所述的风险评估装置,其特征在于,还包括:
第三获取模块,用于获取样本用户所对应的样本特征数据和真实风险值;
第四获取模块,用于当所述样本特征数据的缺失率大于预设缺失阈值时,通过与所述样本特征数据的数据类型相对应的机器学习模型对所述样本特征数据进行填充,得到填充后数据,所述填充后数据包括填充后特征数据和所述样本特征数据所对应的标签数据;
第五获取模块,用于通过所述填充后数据对预设二分类模型进行训练,得到训练后模型;
确定模块,用于通过所述样本特征数据和所述真实风险值对所述训练后模型进行准确度测试,并当所述训练后模型的准确度大于预设准确度阈值时,将所述训练后模型确定为所述评分卡模型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的风险评估方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述的风险评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093501.4A CN111353689B (zh) | 2020-02-14 | 2020-02-14 | 一种风险评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010093501.4A CN111353689B (zh) | 2020-02-14 | 2020-02-14 | 一种风险评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111353689A true CN111353689A (zh) | 2020-06-30 |
CN111353689B CN111353689B (zh) | 2023-10-31 |
Family
ID=71194055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010093501.4A Active CN111353689B (zh) | 2020-02-14 | 2020-02-14 | 一种风险评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353689B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037010A (zh) * | 2020-08-12 | 2020-12-04 | 无锡锡商银行股份有限公司 | 基于SSR-Net的多场景风险评级模型在个人贷款上的应用方法、装置及存储介质 |
CN113344585A (zh) * | 2021-06-22 | 2021-09-03 | 中国银行股份有限公司 | 反欺诈预测模型的训练方法及装置、存储介质及电子设备 |
CN113610645A (zh) * | 2021-08-11 | 2021-11-05 | 平安信托有限责任公司 | 项目数据的风险评估方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615503A (zh) * | 2018-10-26 | 2019-04-12 | 深圳市元征科技股份有限公司 | 一种信用风险的预测方法及相关设备 |
US20190236249A1 (en) * | 2018-01-31 | 2019-08-01 | Citrix Systems, Inc. | Systems and methods for authenticating device users through behavioral analysis |
CN110191113A (zh) * | 2019-05-24 | 2019-08-30 | 新华三信息安全技术有限公司 | 一种用户行为风险评估方法及装置 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
-
2020
- 2020-02-14 CN CN202010093501.4A patent/CN111353689B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190236249A1 (en) * | 2018-01-31 | 2019-08-01 | Citrix Systems, Inc. | Systems and methods for authenticating device users through behavioral analysis |
CN109615503A (zh) * | 2018-10-26 | 2019-04-12 | 深圳市元征科技股份有限公司 | 一种信用风险的预测方法及相关设备 |
CN110191113A (zh) * | 2019-05-24 | 2019-08-30 | 新华三信息安全技术有限公司 | 一种用户行为风险评估方法及装置 |
CN110738564A (zh) * | 2019-10-16 | 2020-01-31 | 信雅达系统工程股份有限公司 | 贷后风险评估方法及装置、存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037010A (zh) * | 2020-08-12 | 2020-12-04 | 无锡锡商银行股份有限公司 | 基于SSR-Net的多场景风险评级模型在个人贷款上的应用方法、装置及存储介质 |
CN113344585A (zh) * | 2021-06-22 | 2021-09-03 | 中国银行股份有限公司 | 反欺诈预测模型的训练方法及装置、存储介质及电子设备 |
CN113610645A (zh) * | 2021-08-11 | 2021-11-05 | 平安信托有限责任公司 | 项目数据的风险评估方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111353689B (zh) | 2023-10-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111353689A (zh) | 一种风险评估方法及装置 | |
CN111352962B (zh) | 客户画像构建方法及装置 | |
EP3971798A1 (en) | Data processing method and apparatus, and computer readable storage medium | |
CN109829629A (zh) | 风险分析报告的生成方法、装置、计算机设备和存储介质 | |
CN108197668A (zh) | 模型数据集的建立方法及云系统 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN110245227B (zh) | 文本分类的融合分类器的训练方法及设备 | |
CN107291775A (zh) | 错误样本的修复语料生成方法和装置 | |
CN112784111A (zh) | 视频分类方法、装置、设备及介质 | |
CN113379071A (zh) | 一种基于联邦学习的噪声标签修正方法 | |
CN112365007A (zh) | 模型参数确定方法、装置、设备及存储介质 | |
CN113205130B (zh) | 一种数据审核方法、装置、电子设备及存储介质 | |
CN111784360B (zh) | 一种基于网络链接回溯的反欺诈预测方法及系统 | |
CN109670162A (zh) | 标题的确定方法、装置及终端设备 | |
CN116795978A (zh) | 一种投诉信息处理方法、装置、电子设备及介质 | |
CN112329814B (zh) | 一种发票数据处理方法及设备 | |
CN115114073A (zh) | 告警信息的处理方法及装置、存储介质、电子设备 | |
CN113656692A (zh) | 基于知识迁移算法的产品推荐方法、装置、设备及介质 | |
CN114138675A (zh) | 一种接口测试用例生成方法、装置、电子设备及存储介质 | |
CN113239031A (zh) | 一种大数据去噪处理方法 | |
CN112990147A (zh) | 一种涉政图像的识别方法、装置、电子设备及存储介质 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
CN111008038A (zh) | 一种基于逻辑回归模型的pull request被合并概率的计算方法 | |
CN117611328A (zh) | 基于结构化查询语言的业务办理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |