CN109543925A

CN109543925A - 基于机器学习的风险预测方法、装置、计算机设备和存储介质

Info

Publication number: CN109543925A
Application number: CN201910012426.1A
Authority: CN
Inventors: 季洁璐; 何友鑫; 彭琛; 汪伟
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-03-29
Anticipated expiration: 2039-01-07
Also published as: CN109543925B

Abstract

本申请涉及一种基于机器学习的风险预测方法、装置、计算机设备和存储介质。方法包括：获取训练样本的第一风险数据；对第一风险数据进行预处理，得到多种基础风险因子；识别训练样本的关联样本，爬取关联样本的第二风险数据；对第二风险数据进行预处理，得到多种关联风险因子；对基础风险因子及关联风险因子进行筛选，得到多种有效风险因子；基于有效风险因子对机器学习模型进行训练，得到风险预测模型；基于风险预测模型对监控对象是否存在风险行为进行监控。采用本方法能够提高风险预测效率。

Description

基于机器学习的风险预测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种基于机器学习的风险预测方法、装置、计算机设备和存储介质。

背景技术

风险预测在多种行业均为必须的业务环节。例如，在金融行业，需要对虚拟资源的发行主体是否存在违约风险进行监控。风险预测是指运用多种信息渠道和分析方法，根据企业的风险战略和风险偏好确定识别指标，并以这些指标为出发点，及时识别潜在风险的过程。传统的风险预测主要通过对数据进行统计和分析对比，得出风险预测结果，但这样的预测方式准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高风险预测效率的基于机器学习的风险预测方法、装置、计算机设备和存储介质。

一种基于机器学习的风险预测方法，所述方法包括：获取训练样本的第一风险数据；对所述第一风险数据进行预处理，得到多种基础风险因子；识别所述训练样本的关联样本，爬取所述关联样本的第二风险数据；对所述第二风险数据进行预处理，得到多种关联风险因子；对所述基础风险因子及关联风险因子进行筛选，得到多种有效风险因子；基于有效风险因子对机器学习模型进行训练，得到风险预测模型；基于所述风险预测模型对监控对象是否存在风险行为进行监控。

在一个实施例中，所述对所述第二风险数据进行预处理，得到多种关联风险因子，包括：调用风险传导模型；所述风险传导模型包括关系提取模型和传导预测模型；将所述第一风险数据输入所述关系提取模型，确定所述训练样本与每个关联样本之间的亲密度；将所述第二风险数据以及相应的亲密度输入所述传导预测模型，计算得到所述关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

在一个实施例中，将所述基础风险因子和所述关联风险因子记作风险因子；所述对所述基础风险因子及关联风险因子进行筛选，包括：确定每个风险因子对应的分箱数，比较所述分箱数是否超过阈值；若是，计算风险因子对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据所述分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，返回所述确定每个风险因子对应的分箱数的步骤；否则，计算每个风险因子的WOE值，根据所述WOE值进行风险因子筛选。

在一个实施例中，所述根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，包括：根据所述坏样本率确定多个分箱的单调特性；识别不符合所述单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，所述基于有效风险因子对机器学习模型进行训练，包括：接收终端发送的模型配置请求；所述模型配置请求携带了模型标识；获取所述模型标识对应的模型编辑页面，将所述模型编辑页面返回至终端；接收所述终端根据用户在模型编辑页面的编辑操作返回的编辑信息；在所述编辑信息中提取衍生风险因子；基于所述有效风险因子及所述衍生风险因子对机器学习模型进行训练。

在一个实施例中，所述基于所述风险预测模型对监控对象是否存在风险行为进行监控，包括：接收终端发送的风险分析请求；所述风险分析请求携带了虚拟资源标识；确定所述虚拟资源标识对应的监控对象，获取监控对象对应的监控数据；将所述监控数据输入所述风险预测模型，得到风险评分；调用风险传导模型识别所述监控对象与对应关联主体之间的关联关系；基于所述关联关系生成虚拟资源标识对应风险图谱；将所述风险评分及所述风险图谱返回至所述终端。

一种基于机器学习的风险预测装置，所述装置包括：因子提取模块，用于获取训练样本的第一风险数据；对所述第一风险数据进行预处理，得到多种基础风险因子；识别所述训练样本的关联样本，爬取所述关联样本的第二风险数据；对所述第二风险数据进行预处理，得到多种关联风险因子；对所述基础风险因子及关联风险因子进行筛选，得到多种有效风险因子；模型训练模块，用于基于有效风险因子对机器学习模型进行训练，得到风险预测模型；行为监控模块，用于基于所述风险预测模型对监控对象是否存在风险行为进行监控。

在一个实施例中，所述因子提取模块还用于调用风险传导模型；所述风险传导模型包括关系提取模型和传导预测模型；将所述第一风险数据输入所述关系提取模型，确定所述训练样本与每个关联样本之间的亲密度；将所述第二风险数据以及相应的亲密度输入所述传导预测模型，计算得到所述关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现本申请任意一个实施例中提供的基于机器学习的风险预测方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于机器学习的风险预测方法的步骤。

上述基于机器学习的风险预测方法、装置、计算机设备和存储介质，获取训练样本的第一风险数据，并对所述第一风险数据进行预处理，可以得到多种基础风险因子；根据所述训练样本，可以识别得到对应的关联样本；爬取所述关联样本的第二风险数据，并对所述第二风险数据进行预处理，可以得到多种关联风险因子；对所述基础风险因子及关联风险因子进行筛选，可以得到多种有效风险因子；基于有效风险因子对机器学习模型进行训练，可以得到风险预测模型；基于所述风险预测模型，可以对监控对象是否存在风险行为进行监控。由于除了在训练样本自身的第一风险数据中提取第二风险因子，还识别训练样本的关联样本，并在关联样本对应第二风险数据中提取关联风险因子，将关联风险因子纳入风险测算考虑范围，可以拓展风险预测维度，进而可以提高风险预测准确性。

附图说明

图1为一个实施例中基于机器学习的风险预测方法的应用场景图；

图2为一个实施例中基于机器学习的风险预测方法的流程示意图；

图3为一个实施例中机器学习模型训练步骤的流程示意图；

图4为一个实施例中基于机器学习的风险预测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的基于机器学习的风险预测方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。当用户需要对选定的虚拟资源进行风险预测时，用户可以通过终端102向服务器104发送风险预测请求。服务器104响应风险预测请求或者按照预设时间频率获取虚拟资源对应监控对象的基础风险数据，提取基础风险数据的基础风险因子。除了基础风险数据，服务器104还对监控对象的关联风险数据深入挖掘，如与监控对象存在关联关系的关联对象的风险数据等。服务器104根据关联风险数据确定监控对象对应的关联风险因子。服务器104对基础风险因子及关联风险因子进行筛选，得到多种有效风险因子。服务器104基于有效风险因子对初始的机器学习模型进行训练，得到风险预测模型。服务器104基于风险预测模型对监控对象是否存在风险行为进行监控。上述风险预测过程，将关联风险因子纳入风险测算考虑范围，可以拓展风险预测维度，进而可以提高风险预测准确性。

在一个实施例中，如图2所示，提供了一种基于机器学习的风险预测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取训练样本的第一风险数据。

训练样本是指已经过风险分析的监控对象。监控对象财务指标的恶化、负面舆情的显著增加、欠税被处罚等，往往反映了其内部较为严重的问题，如管理上的欠缺、经营能力的不足等，在风险不断积聚之后，会导致其走向违约，因此需要对其风险数据及时监控。风险数据是指能够表征监控对象发生违约行为可能性的数据，如信用记录、财务数据等。风险数据的数据类型包括但不限于图像、音频、文本和数字。

风险数据包括第一风险数据。第一风险数据可以是行内数据，如信用数据、财务数据及银监数据等。第一风险数据可以从指定的数据库直接拉取。例如，信用数据可以从中国人名银行征信中心对应的数据库中拉取；财务数据可以在财经网站对应的数据库中拉取；银监数据可以从银监会监管数据库中拉取。第一风险数据还可以是行外数据，如法律数据、舆情数据、行业区域数据、房地产数据、海关数据等。

步骤204，对第一风险数据进行预处理，得到多种基础风险因子。

不同数据类型的第一风险数据预处理方式不同。其中，数字类型的第一风险数据，如财务数据，作为风险预测的主要数据来源，经过简单拆分即可直接到对应的基础风险因子，如资产增长率同步下降、毛利率同比下降等。但图像、音频、文本等数据类型的第一风险数据，则需要经过清洗、提炼、量化或标准化处理等，得到分别对应的第一风险因子。第一风险因子可以是指数因子、也可以是分数因子，还可以是衍生因子。其中，衍生因子可以是通过已知风险因子的逻辑运算得到，如与违约企业相似度等。

步骤206，识别训练样本的关联样本，爬取关联样本的第二风险数据。

步骤208，对第二风险数据进行预处理，得到多种关联风险因子。

在一个实施例中，对第二风险数据进行预处理，得到多种关联风险因子，包括：调用风险传导模型；风险传导模型包括关系提取模型和传导预测模型；将第一风险数据输入关系提取模型，确定训练样本与每个关联样本之间的亲密度；将第二风险数据以及相应的亲密度输入传导预测模型，计算得到关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

服务器调用预设的风险传导模型。风险传导模型包括关系提取模型和传导预测模型。服务器在指定网站爬取监控对象的社交关系数据，将社交关系数据输入关系提取模型，确定训练样本对应的一个或多个关联样本，并基于确定的关联样本生成训练样本对应的知识图谱。关联样本可以是与监控对象存在投资关系、供应关系或其他关系的关联对象。知识图谱包括监控对象节点和多个关联对象节点。

关系提取模型包括亲密度测算子模型。利用亲密度测算子模型计算每个关联样本与训练样本的亲密度。亲密度测算子模型可以是：

其中，Q(v,w)为关联样本节点w与训练样本节点v之间的亲密度；N(v)表示训练样本节点v的邻接节点集合；训练样本节点v和关联样本节点w的共同邻接节点数为|N(v)∩N(w)|；训练样本节点v和关联样本节点w均不邻接的节点数为|N(v)∪N(w)|。在另一个实施例中，亲密度根据关联关系，可以是投资比例、出质比例、出资比例等。

服务器在指定网站爬取关联样本的风险数据，记作第二风险数据。服务器将第二风险数据以及对应的亲密度输入传导预测模型，计算关联样本的传导风险评分，将传导风险评分标记为关联风险因子。在另一个实施例中，服务器将多个关联对象分别对应的传导风险评分中值最高的传导风险评分作为一个关联风险因子，或者将多个关联对象分别对应的传导风险评分的平均值作为一个关联风险因子，对此不作限制。

步骤210，对基础风险因子及关联风险因子进行筛选，得到多种有效风险因子。

服务器将基础风险因子及关联风险因子记作风险因子。服务器计算每种风险因子的预测力参数以及多种风险因子之间的相关性参数。服务器根据预测力参数和相关性参数对多种风险因子进行筛选，得到多种有效风险因子。

步骤212，基于有效风险因子对机器学习模型进行训练，得到风险预测模型。

步骤214，基于风险预测模型对监控对象是否存在风险行为进行监控。

终端上安装了虚拟资源获取平台。当用户需要获取虚拟资源时，可以在终端基于虚拟资源获取平台选定虚拟资源，还可以请求对虚拟资源对应的监控对象是否存在违约风险进行分析。虚拟资源可以是股票、债券等。虚拟资源对应的监控对象是指虚拟资源的提供方。虚拟资源获取平台提供多个分析维度选项，如综合分析、财务分析、舆情分析、同行中分析、同地区中分析等。终端根据用户选定的虚拟资源及分析维度生成风险分析请求，将风险分析请求发送至服务器。服务器根据风险分析请求调用风险预测模型对虚拟资源进行风险扫描，将风险扫描结果反馈至终端。

本实施例中，获取训练样本的第一风险数据，并对第一风险数据进行预处理，可以得到多种基础风险因子；根据训练样本，可以识别得到对应的关联样本；爬取关联样本的第二风险数据，并对第二风险数据进行预处理，可以得到多种关联风险因子；对基础风险因子及关联风险因子进行筛选，可以得到多种有效风险因子；基于有效风险因子对机器学习模型进行训练，可以得到风险预测模型；基于风险预测模型，可以对监控对象是否存在风险行为进行监控。由于除了在训练样本自身的第一风险数据中提取第二风险因子，还识别训练样本的关联样本，并在关联样本对应第二风险数据中提取关联风险因子，将关联风险因子纳入风险测算考虑范围，可以拓展风险预测维度，进而可以提高风险预测准确性。

在一个实施例中，对基础风险因子及关联风险因子进行筛选，包括：确定每个风险因子对应的分箱数，比较分箱数是否超过阈值；若是，计算风险因子对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，返回确定每个风险因子对应的分箱数的步骤；否则，计算每个风险因子的WOE值，根据WOE值进行风险因子筛选。

将基础风险因子和关联风险因子记作风险因子。将第一风险数据及第二风险数据记作风险数据。风险数据包括监控对象的多个维度的监控数据，如训练样本对应的风险数据包括财务因子A1，财务因子A2，司法因子B1、舆情因子C1、行业因子D1；训练样本2对应的风险数据包括财务因子A1，财务因子A2，财务因子A3、舆情因子C2、行业因子D2。

服务器对每个风险因子进行分箱操作。具体的，确定每种风险因子的因子类型。因子类型包括定性因子和定量因子。如下表1所示，若因子类型为定性因子，根据定性因子对应的属性值进行初始分箱。

表1

财务因子A1	响应(坏样本)	未响应(好样本)	合计	坏样本率
					很好	4000	16000	20000	20％
较好	3000	27000	30000	10％
					一般	3000	12000	15000	20％
较差	1500	8500	10000	15％
					很差	1000	5000	5000	10％

如下表2所示，若因子类型为定量因子，若因子类型为定量因子，基于无监督分箱方法或有监督分箱方法对定量因子进行初始分箱。无监督分箱方法可以是等距分箱、等宽分箱等。有监督分箱方法可以是卡方分箱等。

表2

财务因子A2	响应(坏样本)	未响应(好样本)	合计	坏样本率
					＜100元	2500	47500	50000	5％
[100,200]	3000	27000	30000	10％
					[200,500]	3000	12000	15000	20％
[500,700]	1500	8500	10000	15％
					[700,900]	2000	8000	10000	20％
≥900元	1000	4000	5000	20％

服务器确定每个风险因子对应的分箱数，比较分箱数是否超过阈值。分箱数的阈值可以根据经验自由设定，如5等。需要说明的是，不同风险因子对应的分箱数阈值可以不同。若分箱数超过阈值，服务器计算风险因子对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理。

在一个实施例中，根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，包括：根据坏样本率确定多个分箱的单调特性；识别不符合单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

分箱占比是指因子值落入当前分箱的风险因子的数量与包含该风险因子的全部训练样本的数量的比值，例如，财务因子A2在[500，700]分箱的分箱占比为10000/120000。坏样本率是指当前分箱内坏样本的数量与当前分箱内全部风险因子的数量的比值。例如，财务因子A2在[500，700]分箱的坏样本率为2500/50000。与相邻分箱的卡方值是非参数检验中的一个统计量，用于检验相邻分箱的数据相关性。

服务器识别是否存在坏样本率为0或者∞的分箱，将坏样本率为0或者∞的分箱标记为待合并分箱。服务器识别卡方值最小的一对相邻分箱，将卡方值最小的相邻分箱标记为待合并分箱。服务器识别分箱占比最小的一个分箱，将分箱占比最小的分箱标记为待合并分箱。服务器将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。待合并处理完毕，服务器重新判断该风险因子的分箱数是否依然超过阈值。若是，继续按照上述方式对风险因子对应的多个分箱进行合并处理，直至风险因子对应的分箱数小于或等于阈值。

若风险因子对应的分箱数小于或等于阈值，服务器计算每个风险因子的WOE值，根据WOE值进行风险因子筛选。

本实施例中，基于改进的分箱方法对训练样本进行分箱，可以实现样本均衡。

在一个实施例中，如图3所示，基于有效风险因子对机器学习模型进行训练，即机器学习模型训练的步骤，包括：

步骤302，接收终端发送的模型配置请求；模型配置请求携带了模型标识。

虚拟资源获取平台本身提供的风险预测模型只是提供一个模型框架。若用户对用于虚拟资源风险分析的风险预测模型不满意时，可以通过终端向服务器发送模型配置请求，进而根据自己的行业经验对风险预测模型进行变更。

步骤304，获取模型标识对应的模型编辑页面，将模型编辑页面返回至终端。

服务器识别模型标识对应风险预测模型中的可编辑元素，利用空白单元对可编辑元素进行替换，并将可编辑元素填充至空白单元，得到模型编辑页面，将模型编辑页面返回至终端。

步骤306，接收终端根据用户在模型编辑页面的编辑操作返回的编辑信息。

模型编辑页面允许用户在模型框架基础上根据行业经验进行自由编辑，实现模型定制化。例如，允许用户修改因子权重、更改因子值等。另外，模型编辑页面还包括“新增指标”按钮，以支持用户加入全新因子。服务器根据模型配置请求向终端返回模型编辑页面。编辑信息包括变更后的风险预测模型。

步骤308，在编辑信息中提取衍生风险因子；基于有效风险因子及衍生风险因子对机器学习模型进行训练。

当用户增加全新因子时，在用户终端录入采用自然语言或公式等的形式录入新增因子的因子名称、因子类型和因子值。其中因子类型可以是财务类、舆情类等。例如，用户新增指标“高管是否有司法处罚”。服务器定期进行全网筛查，将用户新增的因子(记作衍生风险因子)添加至因子库中，以便后续该用户或其他用户再次利用。在另一个实施例中，不同用户对风险预测模型的定制逻辑可能不同，为了保护用户的定制逻辑，可以对不同用户对风险预测模型的定制化操作进行数据隔离。

若新增因子为公式，则服务器对公式进行拆分，在监控数据中获取对应的多个分项因子，按照公式逻辑对多个分项因子进行预设逻辑运算即可得到对应的因子值。若新增因子为自然语言，还允许用户针对新增因子配置对应的因子值获取逻辑，基于配置的获取逻辑自动获取因子值。例如，根据新增因子“高管是否有司法处罚”，首先在指定网站爬取有关高管司法处罚的信息，对涉世高管进行主体(是否为期望监控的高管)识别；若主体一致，对爬取到的信息进行舆情分析，得到对应的因子值。容易理解，新增因子值也可以是人为录入的。

本实施例中，向用户提供通用的风险预测模型，可以使用户基于该模型直接对虚拟资源进行风险预测，降低风险预测门槛；此外，允许用户根据自己的行业经验对风险预测模型进行变更，可以实现模型定制化，从而使得该虚拟资源平台适用于任何有无行业背景的用户。

在一个实施例中，基于风险预测模型对监控对象是否存在风险行为进行监控，包括：接收终端发送的风险分析请求；风险分析请求携带了虚拟资源标识；确定虚拟资源标识对应的监控对象，获取监控对象对应的监控数据；将监控数据输入风险预测模型，得到风险评分；调用风险传导模型识别监控对象与对应关联主体之间的关联关系；基于关联关系生成虚拟资源标识对应风险图谱；将风险评分及风险图谱返回至终端。

监控数据包括财务、地区、行业、法律和舆情等多个维度的数据。不同监控数据分别具有对应的数据源、获取时间和数据类型。数据类型包括但不限于图像、音频、文本和数字。服务器对不同数据类型的监控数据进行预处理。具体的，对于数字形式的数据，如企业的财务数据，作为评定企业风险定量指标的主要数据来源，可简单处理后直接应用于监控因子的生成。但文本、图像、音频等数据类型的数据，则需要经过提炼、量化处理，对数据中存在的码表进行统一和标准化的处理。

服务器调用相应风险预测模型对虚拟资源进行风险扫描。具体的，风险预测模型包括随机森林模型和逻辑回归模型。基于随机森林模型获取监控对象分别在地区、行业、财务、法律和舆情等多个维度的监控因子。将每个维度的监控因子输入逻辑回归模型，得到对应的风险评分。若分析维度为综合分析，则服务器按照上述方式调用每个分析维度的风险预测模型计算相应分析维度的分项得分。基于多个分项得分，计算发现主体的风险评分。

服务器比较风险评分是否超过阈值。若是，则服务器基于上述风险传导模型生成监控对象的风险图谱。监控对象与关联对象都可以称为实体，在风险图谱中也可以称作相应的节点。服务器将监控对象作为核心节点，将其他实体作为一般节点，将各节点之间的关联关系作为属性，利用属性在多个节点之间进行有向向量之间的连接，生成风险图谱。

服务器对风险评分进行聚类，将聚类结果和风险图谱返回至终端。对风险评分进行分数聚类，从而将虚拟资源区分为高风险资源、中等风险资源和低风险资源，可以提高业务解释性。当风险图谱中某个实体被点击时，获取与该实体直接相连的其他实体，将该实体与直接相连的其他实体进行高亮显示。在风险图谱中可以查询两个实体之间的路径。在风险图谱中还可以切换核心节点，以方便用户从监控对象的维度进行虚拟资源筛选，并给出关联风险预警。

本实施例中，基于通过上述方式训练得到的风险预测模型计算监控对象的风险评分，可以提高风险预测准确性；此外，当风险评分超过阈值时，同时向用户推送监控对象的风险图谱，风险图谱使监控对象与关联对象之间的关联关系可以直观的展示，为用户筛选虚拟资源提供方便。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种基于机器学习的风险预测装置，包括：因子提取模块402、模型训练模块404和行为监控模块406，其中：

因子提取模块402，用于获取训练样本的第一风险数据；对第一风险数据进行预处理，得到多种基础风险因子；识别训练样本的关联样本，爬取关联样本的第二风险数据；对第二风险数据进行预处理，得到多种关联风险因子；对基础风险因子及关联风险因子进行筛选，得到多种有效风险因子。

模型训练模块404，用于基于有效风险因子对机器学习模型进行训练，得到风险预测模型。

行为监控模块406，用于基于风险预测模型对监控对象是否存在风险行为进行监控。

在一个实施例中，因子提取模块402还用于调用风险传导模型；风险传导模型包括关系提取模型和传导预测模型；将第一风险数据输入关系提取模型，确定训练样本与每个关联样本之间的亲密度；将第二风险数据以及相应的亲密度输入传导预测模型，计算得到关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

在一个实施例中，因子提取模块402还用于确定每个风险因子对应的分箱数，比较分箱数是否超过阈值；若是，计算风险因子对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，返回确定每个风险因子对应的分箱数的步骤；否则，计算每个风险因子的WOE值，根据WOE值进行风险因子筛选。

在一个实施例中，因子提取模块402还用于根据坏样本率确定多个分箱的单调特性；识别不符合单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；将待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

在一个实施例中，模型训练模块404还用于接收终端发送的模型配置请求；模型配置请求携带了模型标识；获取模型标识对应的模型编辑页面，将模型编辑页面返回至终端；接收终端根据用户在模型编辑页面的编辑操作返回的编辑信息；在编辑信息中提取衍生风险因子；基于有效风险因子及衍生风险因子对机器学习模型进行训练。

在一个实施例中，行为监控模块406还用于接收终端发送的风险分析请求；风险分析请求携带了虚拟资源标识；确定虚拟资源标识对应的监控对象，获取监控对象对应的监控数据；将监控数据输入风险预测模型，得到风险评分；调用风险传导模型识别监控对象与对应关联主体之间的关联关系；基于关联关系生成虚拟资源标识对应风险图谱；将风险评分及风险图谱返回至终端。

关于基于机器学习的风险预测装置的具体限定可以参见上文中对于基于机器学习的风险预测方法的限定，在此不再赘述。上述基于机器学习的风险预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储xxx数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的风险预测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请任意一个实施例中提供的基于机器学习的风险预测方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于机器学习的风险预测方法，所述方法包括：

获取训练样本的第一风险数据；

对所述第一风险数据进行预处理，得到多种基础风险因子；

识别所述训练样本的关联样本，爬取所述关联样本的第二风险数据；

对所述第二风险数据进行预处理，得到多种关联风险因子；

对所述基础风险因子及关联风险因子进行筛选，得到多种有效风险因子；

基于有效风险因子对机器学习模型进行训练，得到风险预测模型；

基于所述风险预测模型对监控对象是否存在风险行为进行监控。

2.根据权利要求1所述的方法，其特征在于，所述对所述第二风险数据进行预处理，得到多种关联风险因子，包括：

调用风险传导模型；所述风险传导模型包括关系提取模型和传导预测模型；

将所述第一风险数据输入所述关系提取模型，确定所述训练样本与每个关联样本之间的亲密度；

将所述第二风险数据以及相应的亲密度输入所述传导预测模型，计算得到所述关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

3.根据权利要求1所述的方法，其特征在于，将所述基础风险因子和所述关联风险因子记作风险因子；所述对所述基础风险因子及关联风险因子进行筛选，包括：

确定每个风险因子对应的分箱数，比较所述分箱数是否超过阈值；

若是，计算风险因子对应每一分箱的分箱占比、坏样本率以及与相邻分箱的卡方值；根据所述分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，返回所述确定每个风险因子对应的分箱数的步骤；

否则，计算每个风险因子的WOE值，根据所述WOE值进行风险因子筛选。

4.根据权利要求3所述的方法，其特征在于，所述根据分箱占比、坏样本率及卡方值，对风险因子的多个分箱进行合并处理，包括：

根据所述坏样本率确定多个分箱的单调特性；

识别不符合所述单调特性、坏样本率为预设值、分箱占比最小或者卡方值最小的分箱，分别记作待合并分箱；

将所述待合并分箱与前一相邻分箱或后一相邻分箱进行合并。

5.根据权利要求1所述的方法，其特征在于，所述基于有效风险因子对机器学习模型进行训练，包括：

接收终端发送的模型配置请求；所述模型配置请求携带了模型标识；

获取所述模型标识对应的模型编辑页面，将所述模型编辑页面返回至终端；

接收所述终端根据用户在模型编辑页面的编辑操作返回的编辑信息；

在所述编辑信息中提取衍生风险因子；

基于所述有效风险因子及所述衍生风险因子对机器学习模型进行训练。

6.根据权利要求1所述的方法，其特征在于，所述基于所述风险预测模型对监控对象是否存在风险行为进行监控，包括：

接收终端发送的风险分析请求；所述风险分析请求携带了虚拟资源标识；

确定所述虚拟资源标识对应的监控对象，获取监控对象对应的监控数据；

将所述监控数据输入所述风险预测模型，得到风险评分；

调用风险传导模型识别所述监控对象与对应关联主体之间的关联关系；

基于所述关联关系生成虚拟资源标识对应风险图谱；

将所述风险评分及所述风险图谱返回至所述终端。

7.一种基于机器学习的风险预测装置，其特征在于，所述装置包括：

因子提取模块，用于获取训练样本的第一风险数据；对所述第一风险数据进行预处理，得到多种基础风险因子；识别所述训练样本的关联样本，爬取所述关联样本的第二风险数据；对所述第二风险数据进行预处理，得到多种关联风险因子；对所述基础风险因子及关联风险因子进行筛选，得到多种有效风险因子；

模型训练模块，用于基于有效风险因子对机器学习模型进行训练，得到风险预测模型；

行为监控模块，用于基于所述风险预测模型对监控对象是否存在风险行为进行监控。

8.根据权利要求7所述的装置，其特征在于，所述因子提取模块还用于调用风险传导模型；所述风险传导模型包括关系提取模型和传导预测模型；将所述第一风险数据输入所述关系提取模型，确定所述训练样本与每个关联样本之间的亲密度；将所述第二风险数据以及相应的亲密度输入所述传导预测模型，计算得到所述关联样本的传导风险评分，将传导风险评分标记为关联风险因子。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。