CN114219360A - 基于模型优化的监控安全预测方法及系统 - Google Patents
基于模型优化的监控安全预测方法及系统 Download PDFInfo
- Publication number
- CN114219360A CN114219360A CN202111643038.7A CN202111643038A CN114219360A CN 114219360 A CN114219360 A CN 114219360A CN 202111643038 A CN202111643038 A CN 202111643038A CN 114219360 A CN114219360 A CN 114219360A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- training
- prediction model
- particle swarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005457 optimization Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000012544 monitoring process Methods 0.000 title claims abstract description 24
- 239000002245 particle Substances 0.000 claims abstract description 140
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims description 103
- 230000000739 chaotic effect Effects 0.000 claims description 60
- 238000012545 processing Methods 0.000 claims description 55
- 238000012360 testing method Methods 0.000 claims description 37
- 230000006870 function Effects 0.000 claims description 35
- 238000011156 evaluation Methods 0.000 claims description 27
- 238000004458 analytical method Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 7
- 238000013450 outlier detection Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000002790 cross-validation Methods 0.000 claims description 4
- 238000013441 quality evaluation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 16
- 238000004364 calculation method Methods 0.000 abstract 1
- 230000007547 defect Effects 0.000 abstract 1
- 230000010365 information processing Effects 0.000 abstract 1
- 238000003860 storage Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000013145 classification model Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 230000006399 behavior Effects 0.000 description 8
- 238000010276 construction Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 238000005192 partition Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 241000209202 Bromus secalinus Species 0.000 description 2
- 102100036790 Tubulin beta-3 chain Human genes 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000011157 data evaluation Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012847 principal component analysis method Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013058 risk prediction model Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 101000713575 Homo sapiens Tubulin beta-3 chain Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及互联网信息处理领域,针对现有数据安全监控使用的模型中调参方法随机性高、计算量大、速度慢、效率低的缺陷,提出了本发明的基于混沌粒子群优化算法优化预测模型的监控安全预测方法及系统、设备和介质,通过将样本数据集划分为多个训练子集和测试集,使用多组训练子集根据混沌粒子群优化算法进行构建的预测模型算法的参数优化,获取多组最优参数从而由此训练优化了参数的模型并利用其完成监控数据的预测。通过为建模过程添加寻优过程实现参数优化,避免随机性导致的模型不精确,并结合混沌思想改进寻优过程,提高参数寻优效果和加快参数寻优速度以优化模型效率,保证模型质量和可靠性,进而提升数据安全监控准确性和判断效率。
Description
技术领域
本发明涉及数据安全处理技术领域,尤其是大数据分类和风险预测处理的领域,具体而言,涉及一种基于模型优化的监控安全预测方法及系统。
背景技术
互联网大数据及其数据安全领域中,利用XGBoost、LightGBM等集成模型进行预测评估数据安全性等,发挥着越来越重要的作用,然而在大数据及其安全处理的过程中,采用各种模型时,不同参数的选择,往往决定着模型性能的优劣。经典的集成模型调参方法涉及手动调参、网格搜索、随机搜索、贝叶斯搜索、遗传算法调参等多种方式。手动调参需要使用者手动设置和调整模型所需的构建参数,由此为使用者设置了较高的门槛,而基于现有的参数寻优方法,如网格搜索,对XGBoost分类模型的构建参数进行优化时,其寻优方式往往主要依据经验给定或穷举的搜索空间,这样不但无法提高分类模型的易用性反而增加了分类模型的时间复杂度。
因而,需要一种效率更高、处理更简单便捷的方案,在实际应用于大数据安全处理(预测评估等)时,其模型优化更简单、效率更高,而采用优化后的模型在预测评估的过程中精度也更高。
发明内容
针对现有技术的上述缺陷,本发明提供一种基于模型优化的监控安全预测方法、系统、电子设备和计算机可读介质,能够解决简单便捷地实现对构建的预测评估数据安全所使用的分类模型所需的构建参数的有效优化或者说高效率的优化的技术问题,进而,解决在进行实际大数据风险安全预测时使用这类优化后的分类模型提升预测精度即提升模型预测精度的技术问题。从而,在业务领域的应用场景下,通过监控大数据变化而利用具有更高预测精度的优化模型进行数据安全风险预测评估的处理,有助于通过大数据监控及其风险预测,评估复杂海量的数据对应的用户的安全性,从而降低各种数据安全隐患带来的风险损失。
为了解决上述技术问题,本发明第一方面提出一种基于模型优化的数据监控安全预测方法,包括:根据采集的数据,获取提供给构建的预测模型的数据集;基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型;通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练;将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性。
根据本发明的一种优选实施方式,基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型,具体包括:将所述数据集分为多个训练子集和测试集,根据混沌粒子群CPSO优化算法对XGBoost模型的参数进行优化,以确定优化后的CPSO-XGBoost预测模型。
根据本发明的一种优选实施方式,根据混沌粒子群优化算法对所述预测模型的参数进行优化,具体包括:将从所述数据集分出的训练集划分为M个训练子集;将每个训练子集输入预设的初始的XGBoost模型中随机产生N组解;其中,每组解至少包含一个三维向量:学习率eta、树的最大深度max_depth、以及最小叶子节点样本权重min_child_weight;使用XGBoost模型的交叉验证结果AUC评估指标作为混沌粒子群优化算法的适应度函数f;通过混沌粒子群迭代寻找最小误差的适应度函数fmin,以获得最优参数的向量etamin、max_depthmin、min_child_weightmin;将所述M组训练子集,分别进行混沌粒子群优化算法参数优化训练,以获取M组最优参数的向量;其中,M、N为正整数。
根据本发明的一种优选实施方式,将所述M组训练子集,分别进行混沌粒子群优化算法参数优化训练,具体包括:初始化参数,根据所述数据集的历史样本数据设定混沌粒子群模型的学习因子、最大惯性权重、最小惯性权重、最大进化代数、速度上限、以及混沌搜索迭代次数,对粒子群进行初始化,产生随机位置和速度;由优化目的的目标函数确定适应度函数f,对粒子群中每一个粒子的适应度进行计算;对粒子群中每个粒子的个体最极值进行计算,并将粒子群中每个粒子的当前适应度值与其自身个体极值进行比较,若粒子当前适应度值优于粒子个体极值,则用适应度值取代个体极值;将粒子群中所有粒子的当前适应度值与全局极值进行比较,若当前适应度值优于全局极值,则当前适应度值取代全局极值;更新粒子的速度与位置;判断是否满足迭代条件,若满足条件,则优化过程结束,返回全局最优解;若不满足条件,则返回确定适应度函数f,对粒子群中每一个粒子的适应度进行计算的步骤,继续进行优化;其中,所述迭代终止条件包括:若迭代次数达到设定的最大迭代次数或最小误差标准,则停止迭代,否则继续迭代直到满足迭代终止条件。
根据本发明的一种优选实施方式,通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练,具体包括:将所述数据集中的历史样本数据输入到优化后的CPSO-XGBoost预测模型进行训练,以获得训练后的所述优化的CPSO-XGBoost预测模型;和/或,将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性,具体包括:利用训练后的所述优化的CPSO-XGBoost预测模型,对需要评估的任意的监控的数据进行风险预测,以确定所述监控的数据对应的用户存在的风险。
根据本发明的一种优选实施方式,将所述数据集中的历史样本数据输入到优化后的CPSO-XGBoost预测模型进行训练,以获得训练后的所述优化的CPSO-XGBoost预测模型,具体包括:将所述数据集中划分出的M组训练子集,分别进行M个最优参数下的CPSO-XGBoost预测模型的训练学习;将所述数据集中划分出的测试集输入到所述M个最优参数下的CPSO-XGBoost预测模型中,将输出结果取平均值,得到最终所述CPSO-XGBoost预测模型的优劣评估结果。
根据本发明的一种优选实施方式,根据采集的数据,获取提供给构建的预测模型的数据集,具体包括:采集被监控的数据,对采集的数据进行预处理,并从预处理后的数据中筛选出一部分作为构建预测模型使用的数据集。
根据本发明的一种优选实施方式,采集被监控的数据,包括:采集监控的数据所对应的用户的各种原始的用户业务数据;和/或,对采集的数据进行预处理,包括:利用变量缺失率分析与处理、异常值处理、离群值检测、连续型变量离散化并WOE转化、离散型变量WOE转化、和/或文本变量加工处理,对一个或多个用户的所述原始的用户业务数据进行预处理。
为了解决上述技术问题,本发明第二方面提出一种基于模型优化的监控安全预测系统,包括:数据集形成模块,用于根据采集的数据,获取提供给构建的预测模型的数据集;模型优化模块,用于基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型;模型训练模块,用于通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练;预测执行模块,用于将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性。
为了解决上述技术问题,本发明第三方面提出一种电子设备,包括:处理器;以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行前述的第一方面的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现前述的第一方面的方法。
为了解决上述技术问题,本发明第五方面提出一种计算机可执行程序,所述计算机可执行程序被执行时,实现前述的第一方面的方法。
本发明的一个实施方式中,通过将样本数据集划分为多个训练子集和测试集,使用多组训练子集根据混沌粒子群优化算法进行构建的预测模型算法的参数优化,获取多组最优参数从而由此训练优化了参数的模型并利用其完成监控数据的预测。由于优化中,通过为建模过程添加寻优过程实现参数优化,避免了随机性导致的模型不精确问题,并结合混沌思想改进了寻优过程,从而,提高参数寻优效果和加快参数寻优速度,提升了优化模型参数的效率,进而还提高了模型质量和可靠性。
进一步,基于混沌粒子群参数优化XGBoost算法、并结合模型集成等方法在整个业务过程中提前进行业务数据的安全评估,其评估使用的预测模型的优化经过混沌改进,具有准确度高、效率高、适应性强、可靠性强等优点。
进一步的,采用混沌粒子群寻优算法对模型进行优化,能有效避免了人为设定的随机性,提高了模型自适应能力和可靠性,从而提高了风险预测的准确度;寻优算法采用混沌思想进行改进,使得寻优不易陷入局部最优解,提高了获得全局最优解的性能,从而进一步提高了系统的风险预测能力和风险预测质量,由此保证了数据处理的安全可信的同时能获得优化的授信数据,能在各种业务数据处理中有效确定数据或者说数据对应的用户的安全性(可信度、风险)等。进而,根据提升了预测精度的模型应用在各个业务数据的安全性处理,能准确确定数据及其对应用户的安全性,有效预防各种风险损失。
由此,通过为建模过程添加寻优过程实现参数优化,避免了随机性导致的模型不精确,并且,结合混沌思想改进寻优过程,提高参数寻优效果和加快参数寻优速度以优化模型效率,保证模型质量和可靠性,从而有助于提升数据安全监控的准确性、判断的正确性、以及提升数据安全监控的判断效率。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据本发明的基于模型优化的预测方法中一个实施例的主要流程图。
图2是根据本发明的基于模型优化的预测系统的一实施例的主要功能模块架构框图。
图3是根据本发明的一种电子设备的一示例性实施例的结构框图。
图4是本发明的一个计算机可读介质的一个实施例的示意图。
图5是根据本发明的方法的更具体的一个实施例的主要流程图。
图6是根据本发明的方法的数据集形成的一个实施例的主要流程图。
图7时根据本发明的方法的模型优化的一个实施例的主要流程图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
下面解释一下本申请中可能用到的一部分技术术语的含义:
MOB(month on book):即按月份数记录,指从开始记录或业务开始等的起始时间点到之后观测时间点间隔的月份数。以金融信息/数据处理中的应用为例,可以表示“在账月份数”,用以代表用户放款之后到观测时间点间隔的月份数,即账龄。
PSO(particle swarm optimization):粒子群算法,其基本思想为在D维空间中随机初始化一群规模为N的粒子,粒子通过重复迭代更新自身位置,并通过适应度函数评价粒子所在位置的优劣。迭代过程中粒子通过追寻两个“优值”点确定自身位置和更新速度,“优值”点分别为个体最优点和全局最优点。
CPSO(chaos particle swarm optimization):混沌粒子群算法,即采用混沌的优化方法对粒子群进行改进。主要从以下两方面进行考虑:1)加入混沌变异系数,当多数点处于迭代停止状态时,利用混沌系统遍历的特性,使得粒子跳出局部最优解。2)改进迭代进化方程,使适应值比较大的n个粒子加入考虑到进化方程中。
XGBoost(eXtreme Gradient Boosting):极端梯度提升,是一种集成化的梯度提升方法,具有良好的推理性能且模型预测精度高。该算法本身为稀疏感知算法对稀疏数据进行优化,其次其目标函数中加入正则化,可有效降低模型的复杂性,可较好的权衡偏差与方差。
CPSO-XGBoost:基于CPSO混沌粒子群算法对XGBoost参数进行优化。
ROC曲线:受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线),又称为感受性曲线(sensitivity curve)。针对二分类问题,其横轴为负正类率(false postive rate FPR)特异度,划分实例中所有负例占所有负例的比例,纵轴为真正类率(true postive rate TPR)灵敏度,Sensitivity(正类覆盖率)(又是召回率recall)。ROC曲线为过定点(0,0)与(1,1)的凸曲线,曲线越靠近(0,1)点,越偏离45度对角线,说明分类器效果越好。
AUC(Area Under Curve):曲线下面积,被定义为ROC曲线下与坐标轴围成的面积,表示模型对正负样本的区分能力,取值范围为[0.5,1],当AUC大于0.5时,说明模型的分类性能由于随机模型,AUC越接近于1越好。
本发明的一个实施例中,主要通过基于CPSO优化XGBoost分类模型参数从而利用优化后的分类模型对大数据进行风险预测,既能简化模型优化过程又能提升模型优化效率,进而还能提升优化后的模型的预测精度,有助于风险数据监控的准确性和精确性、以及有助于数据安全监控效率的提升。
【实施例1】
图1是根据本发明的基于模型优化的监控安全预测方法的一实施例的主要流程图。该实施例中,以XGBoost模型基于CPSO优化为例,通过基于CPSO来优化XGBoost的风险预测来说明本发明的具体实现过程。下面将结合图1、5、6和7对本发明的方法的一个实施例进行描述。其中,该方法包括:
步骤SS1,根据采集的数据,获取提供给构建的预测模型的数据集。
一个实施方式中,基于监控的实际业务的应用场景中的大数据,在获得用户授权的基础上,获取各类有价值的信息。例如包括但不局限于:用户基本信息、征信信息、运营商信息、手机设备信息等等,以及用户在业务应用程序APP上各种操作的埋点行为信息等等。将以上信息融合,形成上万维度的宽表变量之后,可以对数据进行进一步清洗加工,以保证后期预测时的模型的稳定性与准确性。数据清洗步骤包括但不局限于变量缺失率分析与处理、异常值处理、连续型变量离散化并WOE(证据权重Weight of Evidence)转化、离散型变量WOE转化、文本变量加工处理等。由这些处理后提取相应的所数据作为模型需要用的数据集。
进一步,在模型训练初期,对变量进行描述性探索分析及预筛选工作。该阶段主要结合变量覆盖度、单一取值覆盖度、与目标变量相关性及显著性、对目标变量的区分度(KS:有效性指标中的区分能力指标Kolmogorov-Smirnov)及信息价值(信息值IV:informationvalue)、树类模型(如XGBoost、RF等)特征重要性排序等多方面综合考虑,筛选覆盖率高、对目标变量区分效果明显的特征集约200个,为后续模型构建做好准备。
具体地,如图5所示,步骤S1:可以先采集被监控的数据,对采集的数据进行预处理,并从中筛选出一定数量或者说筛选出部分数量的数据(简称一部分数据)作为构建预测模型使用的数据集。如图6所示:
步骤S101:数据采集步骤,采集用于预测和/或评估被监控的数据所对应的用户的安全性的原始数据。
一个实施方式中,用户的安全性可以表示比如用户是否存在风险等。
一个实施方式中,从业务领域的应用场景所在平台通过监控方式获取实际业务场景下的真实的监控的业务数据。比如可以在业务场景应用程序平台获得用户授权的基础上,从业务平台的数据库中将业务期间产生的并在被监控获取后存储的这些数据或者实时监控获取的这些数据作为采集的数据。并且,挑选一定数量(一个或多个)的数据用户(即这些采集的数据对应的用户即数据用户)、提取这些数据用户的相应的各个业务数据,作为采集的数据。提取的这些数据用户的业务数据(即用户数据/用户业务数据)至少包括历史样本数据和实际样本数据,历史和实际或者说实时,可以根据需要进行划分,例如:在采集时间点之前一段时间的可以作为历史的,而在采集时间点开始后的一段时间可以作为实时或实际的,甚至根据预测和评估实际业务场景下的数据情况进行更细致或更粗略的划分。
所述用户数据中包括各种用户信息,例如包括但不局限于:用户公开的基本信息、认证信息、运营商信息、手机设备信息等等,以及用户在业务平台上各种操作的行为信息(如埋点行为)等。
用户数据中的基本信息能够反映用户自身的一些特征信息(如用户公开的性别、年龄、学历等),通常基本信息是业务平台最容易了解的信息,能够从侧面反映用户的实际能力、安全性等。
用户的认证信息能够进一步确定用户数据的安全性。
用户的运营商信息,例如手机号码所属运营商、手机号码当前状态(如:是否停机等)。对于每个用户来说,常用手机号码情况从侧面能反映个人的社会、生活以及通讯方面的各种情况,无论在预防申请欺诈,防范信用欺诈方面都有非常重要的作用。
用户的手机设备信息,例如用户授权后可以获取的手机型号、手机使用年限等,可以分析出存在的黑名单用户数量、风险用户数量等信息。
用户的行为信息,尤其是埋点行为信息。所谓埋点就是在应用程序中特定的流程收集一些信息(这里是特定流程收集的行为信息),用来跟踪应用程序使用的状况,后续用来进一步优化产品或是提供运营的数据支撑。
当然,上述分类的确定方式仅是示例性的,本领域技术人员也可以依据实际情况设置其他的类别确定方式,本发明对此并无限制。
步骤S102:预处理步骤,对采集的相应于一个或多个用户的所述原始数据进行预处理。
一个实施方式中,将获取的一个或多个用户的真实的业务数据即用户数据进行融合,可以形成多个维度的宽表变量,之后还可以对用户的数据进行进一步的清洗加工,从而使得这些数据满足模型训练对数据的要求,以进一步保证后期模型的稳定性与准确性。
一个实施方式中,所述数据清洗加工,包括但不局限于以下操作:变量缺失率分析与处理、异常值处理、连续型变量离散化并WOE转化、离散型变量WOE转化、文本变量加工处理等。
一个实施方式中,变量缺失率分析与处理,例如在统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。常用的缺失值处理方法例如可以采用的三种方式:1)直接删除缺失值,前提是缺失样本的比例较少且是随机出现的,这样删除缺失值后对分析结果影响不大;2)替换缺失值,处理简单且不会减少样本信息,但当缺失值不是随机出现时会产生偏差;3)多重插补法,通过变量间关系来预测缺失数据,利用蒙特卡罗随机模拟方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理。
一个实施方式中,异常值处理可以是通过离群值检测,即数据中有一个或几个数值与其他数值相比差异较大的检测。具体例如采用隔离森林法对数据进行离群值检测,按预先设置的阈值(例如10%)的比率舍弃离群值。
一个实施方式中,离散化可以通过把连续型数据切分为若干“段”,使得自变量和目标变量之间的关系变得清晰化。离散化操作可以包括:1)对连续型的数据以划分区间的方式进行离散化,其中,区间之间的划分点是导致目标变量出现明显转折的点;2)根据WOE值曲线的趋势来判断区间划分结果的优劣,其中,如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤1)以继续在该区间内进行划分。
特征编码,例如采用WOE编码法完成对数据的编码。
数据降维,例如采用主成分分析法对数据进行降维处理,以消除冗余特征。
在经过数据预处理后,用户的这些真实业务数据均已经转化为可以直接输入模型的特征数据,可以输入分类模型中直接进行算法预测。
步骤S103:数据集形成/获取步骤,从经过预处理后的相应于一个或多个用户的数据中筛选一部分数据作为构建预测模型使用的数据集。
一个实施方式中,需要对经过上述步骤S102处理好的特征数据变量进行描述性探索分析及预筛选工作。该阶段主要可以结合变量覆盖度、单一取值覆盖度、与目标变量相关性及显著性、对目标变量的区分度(KS)及信息价值(IV)、树类模型(如XGBoost、RF等)特征重要性排序等多方面综合考虑,筛选一定数量的覆盖率高、对目标变量区分效果明显的特征集,为后续模型构建做好准备。在一个特定实施方式中,选取的特征集(数据集)的数量可以是200个。
由此,获得了构建分类模型(预测安全性的模型)使用的数据集。
步骤SS2,基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,确定优化的预测模型。
一个实施方式中,可以选择XGBoost模型,并基于CPSO混沌粒子群算法对XGBoost模型参数进行优化。
一个实施方式中,可以先将数据集D根据业务处理过程中的申请时间顺序,按照月份拆分为训练集Dtrain和测试集Dtest,利用组合集成方法进行数据平衡化处理,多次抽取小样本,将训练集分成M组训练子集(Dtrain1,Dtrain2,......,Dtrainm)。
进一步,随机产生N组参数用于构建XGBoost模型,并将训练子集输入模型中进行训练。具体如:基于训练子集,每组子集输入到初始构建的XGBoost模型,随机产生N组解(如相应参数的解),每组解包含一个三维向量,包含学习率/迭代步长(eta)、树的最大深度(max_depth)以及最小叶子节点样本权重(min_child_weight),使用XGBoost模型的交叉验证结果AUC评估指标作为CPSO的适应度函数f。
进而,通过CPSO迭代,寻找最小误差的适应度函数fmin,得到最优参数向量(etamin,max_depthmin,min_child_weightmin)。使用M组训练子集,分别进行CPSO参数优化训练,获取M组最优参数。
具体地,如图5所示,步骤S2,可以基于筛选的特征数据构成的一个或多个数据集构造多个训练子集和测试集,根据混沌粒子群CPSO优化算法进行比如XGBoost模型算法的参数优化,确定优化后的比如CPSO-XGBoost预测模型。更具体地,如图7所示:
步骤S201:基于获取的数据集,构造训练集和测试集。其中,训练集可以划分为多个训练子集。
一个实施方式中,在建立预测模型之前,需要分别从数据集中抽取出训练集与测试集,前者用于训练预测模型时使用,后者用于评价模型优劣,从而由训练集和测试集共同对构建的初始预测模型进行处理后得到可以使用的训练后的模型。在一个特定实施方式中,可以预设训练集和测试集二者的比例为7:3的比例。在一个特定实施方式中,二者比例也可以是8:2的比例。
进而,可以将样本数据集D根据对应的数据在业务流程中的申请时间顺序,按照月份拆分为训练集Dtrain和测试集Dtest,利用组合集成方法进行数据平衡化处理,多次抽取小样本,将训练集分成M组训练子集(Dtrain1,Dtrain2,……,Dtrainm),M为正整数。
步骤S202:利用训练集和测试集,在训练构建的初始预测模型时,根据混沌粒子群优化算法对所述的预测模型的参数进行优化。
一个实施方式中,XGBoost模型的训练过程是通过迭代的方式增加CART函数,最终获得XGBoost模型。
进一步,迭代终止的条件为继续增加树模型时,模型准确率提升小于预设的阈值s。每次增加的新的函数获得过程如下:初始有一个叶节点,每次增加一个分叉,选取损失函数值最小的树增长方式,循环进行,直至树的最大深度达到规定值或最小样本权重,并且小于阈值,则停止分裂。
一个实施方式中,在基本粒子群优化算法中引入混沌思想,提高种群的多样性和粒子搜索的遍历性,由此来提高粒子群优化算法摆脱局部极值点的能力,进而,提高基本粒子群优化算法的收敛速度和精度。从而,使用混沌粒子群优化算法对预测模型(XGBoost模型)中的参数设置进行优化。
一个实施方式中,在该模型参数优化中,采用混沌粒子群优化算法的基本思想包括:1)采用混沌序列初始化粒子的位置和速度,既不改变粒子群优化算法初始化时所具有的随机性本质,同时又能够很好的利用混沌特性提高了种群的多样性和粒子搜索的遍历性,在产生大量初始群体的基础上,择优选出初始群体。2)以当前整个粒子群搜索到的最优位置为基础产生新的混沌序列,用混沌序列中的最优位置粒子替代当前粒子群中的一个粒子的位置。引入混沌序列的搜索算法,在迭代中产生局部最优的许多邻域点,以此帮助惰性粒子逃离局部极小点,从而快速搜寻到最优解。
一个实施方式中,对于构建的预测模型为XGBoost算法时,该算法中的参数众多,调整这些参数对模型的准确率影响很大,根据大量的XGBoost调参经验及工程实践应用,过大的学习率(eta)会使算法无法收敛,过小的学习率又会使算法过拟合;树的最大深度(max_depth)过大,导致模型陷入局部最优解得可能性也变大,从而出现过拟合现象;最小叶子节点样本权重(min_child_weight)是子节点中最小的样本权重和阈值,该参数过小,会导致算法过拟合,过大则会使算法对线性不可分数据的分类性能降低。因而在该实施方式中,可以主要通过混沌粒子群优化算法对XGBoost算法中的学习率(eta)、树的最大深度(max_depth)和最小叶子节点样本权重(min_child_weight)等参数进行参数寻优。
具体比如将每组训练子集输入初始的预测模型中,随机产生N组解,每组解包含一个三维向量,包含学习率(eta)、树的最大深度(max_depth)以及最小叶子节点样本权重(min_child_weight),使用XGBoost模型的交叉验证结果AUC评估指标作为CPSO的适应度函数f。利用CPSO迭代,寻找最小误差的适应度函数fmin,得到最优参数向量(etamin,max_depthmin,min_child_weightmin)。使用M组训练子集,分别进行CPSO参数优化训练,获取M组最优参数。
进一步,所述CPSO参数优化训练可以包括:
步骤S2021:初始化参数,根据训练集中的所述历史样本数据设定混沌粒子群模型/算法的学习因子、最大惯性权重、最小惯性权重、最大进化代数、速度上限、以及混沌搜索迭代次数,对粒子群进行初始化,产生随机位置和速度;
步骤S2022:由优化训练的目标函数确定适应度函数,对粒子群中每一个粒子的适应度进行计算;
步骤S2023:对粒子群中每个粒子的个体最极值进行计算,之后将粒子群中每个粒子的当前适应度值与其自身个体极值进行比较,若粒子当前适应度值优于粒子个体极值,则用适应度值取代个体极值;
步骤S2024:将粒子群中所有粒子的当前适应度值与全局极值进行比较,若当前适应度值优于全局极值,则当前适应度值取代全局极值;
步骤S2025:更新粒子的速度与位置;
步骤S2026:判断是否满足迭代条件,若满足条件,优化/进化过程结束,返回全局最优解;若不满足条件,则返回S2022,继续进行优化。
其中,所述迭代终止条件包括:当迭代次数达到设定的最大迭代次数或最小误差标准,则停止迭代,否则继续迭代直到满足迭代终止条件。
优选的,本发明实施例中根据历史样本数据的样本容量设置混沌粒子群的种群规模。
优选的,本发明实施例中初始化粒子速度时根据迭代次数、惯性权值、学习因子的量级乘以相应系数。
步骤SS3,通过数据集中的历史样本数据,对优化后的所述预测模型进行训练。
其中,通过训练集和测试集中的历史样本数据对优化了参数的预测模型即优化模型进行训练和评估。
其中,优化的模型可以是CPSO-XGBoost模型。
具体地,如图5所示,步骤S3,通过数据集中监控数据的历史样本数据比如:原始数据预处理后筛选的数据集中的历史样本数据或者说历史用户数据,对优化后的模型比如:所述CPSO-XGBoost模型进行训练,以获得训练后的优化的预测模型。进而,把训练后的CPSO-XGBoost模型作为进行预测模型。
一个实施方式中,利用训练集的多个训练子集Dtrain1,Dtrain2,……,Dtrainm进行m个最优参数下XGBoost模型训练学习,m为正整数。结合bagging集成,测试集Dtest输入m个模型结果取平均,得到最终评估结果。进一步,还可以在模型评估结果为不合格的时候,根据实际业务及其数据情况调整更新策略,比如重新执行全局最优的确定操作等。把训练后的CPSO-XGBoost模型作为最终的训练后的优化预测模型。
一个实施方式中,为了验证CPSO-XGBoost模型的性能,将引入参数优化前的网格搜索XGBoost模型、随机搜索XGBoost、LightGBM以及RandomForest进行比较。将前述数据集中抽样的5组训练集或者训练样本分别依次输入5个模型中并分别对这几个不同的模型都进行训练,具体例如:将5组训练集分别输入同一个模型中进行训练,得到5组该模型的结果,经过bagging处理后,形成最终模型结果;不同的这5个模型及调参过程,是依此类似进行,实现训练。
测试集在每个模型下的AUC和KS评估结果如下表1所示:
表1:测试集的AUC
由上表可知,最终的模型评估对比结果(如表格中所示AUC、KS等),在相同的标准的数据评估下,基于CPSO改进的XGBoost模型算法可表现出更好的预测评估性能、精度更高或者说更准确,对模型预测评估效果起到了提升作用。
从而,能够根据模型的精确预测评估来确定对应数据的用户的安全性,确保能够及时报警或提示被监控的数据对应的用户存在风险、存在欺诈等安全隐患。
在本示例中,该评价指标值为AUC值和KS值。但是不限于此,在其他示示例中,还可以是ROS值,或者是AUC值、KS值和ROS值的平均值等。上述仅作为示例进行说明,不能理解为对本发明的限制。
步骤SS4:将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性。其可以通过模型的数据预测来评估数据对应的用户的安全性。
具体地,如图5所示,步骤S4,利用训练后的CPSO-XGBoost模型进行需要评估的监控的数据的风险预测,以评估所述监控的数据对应的用户的风险,比如是否存在各种隐患等。
一个实施方式中,利用训练后的优化了的所述预测模型对当前监控的数据进行风险预测,即CPSO-XGBoost模型对用户的诸如信用风险、欺诈风险等进行量化以及评估。由此,能够根据模型的精确预测评估来确定对应数据的用户的安全性,确保能够及时报警或提示被监控的数据对应的用户存在风险、存在欺诈等安全隐患。
本发明的该实施例,基于真实的业务数据,基于混沌粒子群参数优化的XGBoost模型算法并结合模型集成等,在需要保障数据安全的业务场景下进行实践,相较于随机搜索/网格搜索调参方式下的XGBoost、Light GBM、RandomForest等模型算法,在模型的AUC效果,即对业务数据对应用户的安全性评估的准确性方面都有所提升或者说更精确,评估更优,进而还可以较好地推动后续模型应用和业务数据处理以及业务整体的发展。
一个应用场景的例子“例1”,将以金融环境下信贷助贷等这类具有复杂、繁琐的大数据且对数据的安全风险要求极高的业务领域作为实际应用场景来说明本发明的方案实现高效率的模型优化并应用于实际场景中更优/更精确的数据预测的过程。具体地,该例子中,将以在一个助贷场景中应用为例,本实施例构建一种网贷贷前借款人信用风险的预测,即监控该场景下的大数据,以从中更准确地发现或者说预测存在安全隐患的数据,避免风险。
【例1】
该例子中,基于助贷平台真实业务数据安全的监控,通过vintage、迁移率(FlowRate)等指标分析,可以定义3期内还款表现发生逾期30+(即MOB3 30+)为本次建模的目标,逾期样本比例小于5%。并且,该实施例使用基于CPSO优化的XGBoost模型进行借款人信用的精确风险预测,从而使得网贷平台能够在借款人借贷的过程中,为风控人员提供贷前决策支持信息。
步骤S1:可以是采集用户如借款人的数据,对采集的数据进行预处理,并从中筛选一定数量的数据作为构建模型使用的数据集。
在数据采集步骤S101,具体可以是用于采集评估借款人信用风险的原始数据。
具体如:从网贷平台获取多个借款人的真实业务数据。在助贷业务场景中,可以在获得用户授权的基础上,从业务平台的数据库中挑选一定数量的借款人提取用户数据。所述借款人提取用户数据包括历史样本数据和实际样本数据。用户数据中可以包括各种用户信息,包括但不局限于:用户基本信息、运营商信息、手机设备信息等等,以及用户在业务平台上各种操作的埋点行为信息等。
比如:借款人的基本信息能够反映借款人自身的特征信息,借款人基本信息是网贷平台最容易了解的信息,能够从侧面反映借款人的实际还款能力。主要包括借款人公开的年龄、性别、婚姻状况、教育程度、房产情况、工作年限、社交人脉资源等。
比如:借款人的公开或提供的认证数据/认证信息,主要包括用户登记注册时提供的公积金、社保信息、学历信息等授权信息;其中,通过用户授权提供的公积金、社保数据信息,可以判断用户当前工作状态是否正常,是否有稳定的收入来源;通过用户授权学历信息,可以获取用户真实学历,与用户在注册时填写的学历进行比对验证,确认用户是否存在申请信息造假骗贷的嫌疑。
比如:借款人的运营商数据/信息,对于每个借款人来说,常用手机号是必填信息,而每个用户手机使用状态能侧面反映其个人的社会、生活以及通讯方面的情况,比如很少使用或基本不用或已经停用等,在预防申请欺诈,防范信用欺诈方面都有非常重要的作用。
比如:借款人的手机设备信息,例如用户授权后可以获取的手机型号、手机使用年限等。通过结合借款人的手机设备信息和运营商信息,也可以侧面分析可能的黑名单用户数量、风险用户数量等信息。
比如:埋点行为信息,所谓埋点就是在应用中特定的流程收集一些信息,用来跟踪应用使用的状况,后续用来进一步优化产品或是提供运营的数据支撑。
在预处理步骤S102中,具体可以对采集的多个借款人数据进行预处理具体可以通过将获取的多个借款人的真实业务数据融合,形成多个维度的宽表变量,之后还需要对数据进行进一步的清洗加工,从而使得数据满足模型训练对数据的要求,以保证后期模型的稳定性与准确性。
同样,预处理采用的数据清洗加工包括但不局限于以下操作:变量缺失率分析与处理、异常值(如离群值)处理、连续型变量离散化并WOE转化、离散型变量WOE转化、文本变量加工处理等。具体地:
变量缺失率分析与处理,例如在统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。常用的缺失值处理方法有三种:1)直接删除缺失值,前提是缺失样本的比例较少且是随机出现的,这样删除缺失值后对分析结果影响不大;2)替换缺失值,处理简单且不会减少样本信息,但当缺失值不是随机出现时会产生偏差;3)多重插补法,通过变量间关系来预测缺失数据,利用蒙特卡罗随机模拟方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理。
离群值检测,例如采用隔离森林法对数据进行离群值检测检测,按预先设置的阈值(例如10%)的比率舍弃离群值。
离散化,可以把连续型数据切分为若干“段”,使得自变量和目标变量之间的关系变得清晰化。离散化操作可以包括:1)对连续型的数据以划分区间的方式进行离散化,其中,区间之间的划分点是导致目标变量出现明显转折的点;2)根据WOE值曲线的趋势来判断区间划分结果的优劣,其中,如果WOE值曲线是递增、递减或者只有一个转折点的趋势,则确定划分结果是优良的并随之终止离散化操作,否则返回步骤1)以继续在该区间内进行划分。
特征编码,例如采用WOE编码法完成对数据的编码。
数据降维,例如采用主成分分析法对数据进行降维处理,以消除冗余特征。
在经过数据预处理后,所述借款人的真实业务数据均已经转化为可以直接输入模型的特征数据。
在数据集形成步骤S103中,具体可以从经过预处理的多个借款人数据中提取数据集。
其中,需要对经过上述步骤处理好的特征数据变量进行描述性探索分析及预筛选工作。该阶段主要结合变量覆盖度、单一取值覆盖度、与目标变量相关性及显著性、对目标变量的区分度(KS)及信息价值(IV)、树类模型(如XGBoost、RF等)特征重要性排序等多方面综合考虑,筛选一定数量的覆盖率高、对目标变量区分效果明显的特征集,为后续模型构建做好准备。在一个特定实施方式中,选取的特征集的数量为200个。
步骤S2:可以是根据混沌粒子群优化算法进行XGBoost算法的参数优化。
所述根据混沌粒子群优化算法进行XGBoost算法的参数优化,具体为:
在构造训练集的步骤S201中:构造多个训练子集和测试集。
在建立借款人信用风险评估模型之前,需要分别从数据集中抽取出训练集与测试集,前者用于构造模型,后者用于评价模型。在一个特定实施方式中,二者比例可以是7:3的比例。在一个特定实施方式中,二者比例可以是8:2的比例。
首先将样本数据集D根据订单申请时间顺序,按照月份拆分为训练集Dtrain和测试集Dtest,利用组合集成方法进行数据平衡化处理,多次抽取小样本,将训练集分成M组训练子集(Dtrain1,Dtrain2,……,Dtrainm),M为正整数。
在优化参数步骤S202中:根据混沌粒子群优化算法对所述的混沌粒子群模型参数进行优化:
XGBoost模型的训练过程就是通过迭代的方式增加CART函数,最终获得XGBoost模型。迭代终止的条件为继续增加树模型时,模型准确率提升小于s。每次增加的新函数获得过程如下:初始有一个叶节点,每次增加一个分叉,选取损失函数值最小的树增长方案,循环进行,直至树的最大深度达到规定值或最小样本权重和小于阈值停止分裂。
本实施例在基本粒子群优化算法中引入混沌思想,提高种群的多样性和粒子搜索的遍历性,提高了粒子群优化算法摆脱局部极值点的能力,提高了基本粒子群优化算法的收敛速度和精度。基于此,本发明在该实施例中考虑使用混沌粒子群优化算法对模型中的参数设置进行优化。混沌粒子群优化算法的基本思想:1)采用混沌序列初始化粒子的位置和速度,既不改变粒子群优化算法初始化时所具有的随机性本质,同时又能够很好的利用混沌特性提高了种群的多样性和粒子搜索的遍历性,在产生大量初始群体的基础上,择优选出初始群体。2)以当前整个粒子群搜索到的最优位置为基础产生新的混沌序列,用混沌序列中的最优位置粒子替代当前粒子群中的一个粒子的位置。引入混沌序列的搜索算法,在迭代中产生局部最优的许多邻域点,以此帮助惰性粒子逃离局部极小点,从而快速搜寻到最优解。
XGBoost算法中参数众多,调整这些参数对模型的准确率影响很大,根据大量的XGBoost调参经验及工程实践应用,过大的学习率(eta)会使算法无法收敛,过小的学习率又会使算法过拟合。树的最大深度(max_depth)过大,导致模型陷入局部最优解得可能性也变大,从而出现过拟合现象。最小叶子节点样本权重(min_child_weight)是子节点中最小的样本权重和阈值,该参数过小,会导致算法过拟合,过大则会使算法对线性不可分数据的分类性能降低。因此本实施例中,通过混沌粒子群优化算法对XGBoost算法中的学习率(eta)、树的最大深度(max_depth)和最小叶子节点样本权重(min_child_weight)等参数进行参数寻优。
随机产生N组解,每组解包含一个三维向量,包含学习率(eta)、树的最大深度(max_depth)以及最小叶子节点样本权重(min_child_weight),使用XGBoost模型的交叉验证结果AUC评估指标作为CPSO的适应度函数f。CPSO迭代,寻找最小误差的适应度函数fmin,得到最优参数向量(etamin,max_depthmin,min_child_weightmin)。使用M组训练子集,分别进行CPSO参数优化训练,获取M组最优参数。
所述CPSO参数优化训练具体包含下述步骤:
步骤S2021、初始化参数,根据所述的历史样本数据设定混沌粒子群模型的学习因子、最大惯性权重、最小惯性权重、最大进化代数、速度上限、以及混沌搜索迭代次数,对粒子群进行初始化,产生随机位置和速度;
步骤S2022、由优化问题的目标函数确定适应度函数,对粒子群中每一个粒子的适应度进行计算;
步骤S2023、对粒子群中每个粒子的个体最极值进行计算,之后将粒子群中每个粒子的当前适应度值与其自身个体极值进行比较,若粒子当前适应度值优于粒子个体极值,则用适应度值取代个体极值;
步骤S2024、将粒子群中所有粒子的当前适应度值与全局极值进行比较,若当前适应度值优于全局极值,则当前适应度值取代全局极值;
步骤S2025、更新粒子的速度与位置;
步骤S2026、判断是否满足迭代条件,若满足条件,进化过程结束,返回全局最优解;若不满足条件,则返回S2022,继续进行优化。
其中,所述迭代终止条件是:当迭代次数达到设定的最大迭代次数或最小误差标准,则停止迭代,否则继续迭代直到满足迭代终止条件。
优选的,本发明实施例中根据历史样本数据的样本容量设置混沌粒子群的种群规模。
优选的,本发明实施例中初始化粒子速度时根据迭代次数、惯性权值、学习因子的量级乘以相应系数。
步骤S3,可以通过历史交易数据对所述CPSO-XGBoost模型进行训练,并把训练后的CPSO-XGBoost模型作为借款人信用风险预测模型。
具体的,利用Dtrain1,Dtrain2,……,Dtrainm进行m个最优参数下XGBoost模型训练学习。结合bagging集成,D_test输入m个模型结果取平均,得到最终评估结果。如果模型评估结果为不合格,则对所述更新策略进行调整,重新执行全局最优的确定操作。把训练后的CPSO-XGBoost模型作为借款人信用风险预测模型。
为了验证CPSO-XGBoost模型的性能,将引入参数优化前的网格搜索XGBoost模型、随机搜索XGBoost、LightGBM以及RandomForest进行比较。将步骤2中抽样的5组数据集(多个训练子集)依次输入5个模型进行训练,测试集在每个模型下的AUC和KS评估结果如下表所示:
表1:测试集的AUC
由上表可知,在相同的个人信用数据评估下,基于CPSO改进的XGBoost算法可表现出更好的信用评估性能,对贷前模型效果起到了一定的提升作用。
在本示例中,该评价指标值为AUC值和KS值。但是不限于此,在其他示示例中,还可以是ROS值,或者是AUC值、KS值和ROS值的平均值等。上述仅作为示例进行说明,不能理解为对本发明的限制。
步骤S4:利用训练后的CPSO-XGBoost模型对借款人信用风险进行量化以及评估。
本发明的该实施例,基于真实借款业务数据,基于混沌粒子群参数优化的XGBoost算法并结合模型集成等方法在贷前模型进行实践,相较于随机搜索/网格搜索调参方式下的XGBoost、Light GBM、RandomForest等算法,模型AUC效果有所提升,可较好地推动后续模型分的应用及业务的发展。
由此,该方法在各种数据安全需求较高的诸如金融业务中应用于业务的数据处理,由于模型预测精度的提升,能有效控制各种用户欺诈、逾期风险,有效降低金融服务机构的金融风险损失。
【实施例2】
类似的,相应的基于模型优化的监控安全预测系统的一个实施例,与方法相对应。如图2根据本发明的系统的一个实施例的主要结构框图,该系统主要可以包括:
数据集形成模块1,根据采集的数据,获取提供给构建的预测模型的数据集;具体功能参见步骤SS1的具体处理及其实现过程,在此不再赘述。
模型优化模块2,基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,确定优化的预测模型;具体功能参见步骤SS2的具体处理及其实现过程,在此不再赘述。
模型训练模块3,通过数据集中的历史样本数据,对优化后的所述预测模型进行训练;具体功能参见步骤SS3的具体处理及其实现过程,在此不再赘述。
预测执行模块4,用于评估数据对应的用户的安全性,具体地将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性;具体功能参见步骤SS4的具体处理及其实现过程,在此不再赘述。
本发明的该实施例,基于混沌粒子群参数优化的XGBoost算法并结合模型集成等方法在贷前模型进行实践,相较于随机搜索/网格搜索调参方式下的XGBoost、Light GBM、RandomForest等算法,模型AUC效果有所提升,可较好地推动后续模型分的应用及业务的发展。
【实施例3】
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图3是根据本发明的一种电子设备的示例性实施例的结构框图。图3显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,该示例性实施例的电子设备200以通用数据处理设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行如图1所示的步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备200交互,和/或使得该电子设备200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,电子设备200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
【实施例4】
图4是本发明的一个计算机可读介质实施例的示意图。如图4所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种基于模型优化的监控安全预测方法,其特征在于,包括:
根据采集的数据,获取提供给构建的预测模型的数据集;
基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型;
通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练;将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性。
2.根据权利要求1所述的方法,其特征在于,基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型,具体包括:
将所述数据集分为多个训练子集和测试集,根据混沌粒子群CPSO优化算法对XGBoost模型的参数进行优化,以确定优化后的CPSO-XGBoost预测模型。
3.根据权利要求1或2所述的方法,其特征在于,根据混沌粒子群优化算法对所述预测模型的参数进行优化,具体包括:
将从所述数据集分出的训练集划分为M个训练子集;
将每个训练子集输入预设的初始的XGBoost模型中随机产生N组参数解;其中,每组解至少包含一个三维向量:学习率eta、树的最大深度max_depth、以及最小叶子节点样本权重min_child_weight;
使用XGBoost模型的交叉验证结果AUC评估指标作为混沌粒子群优化算法的适应度函数f;
通过混沌粒子群迭代寻找最小误差的适应度函数fmin,以获得最优参数的向量etamin、max_depthmin、min_child_weightmin;
将所述M组训练子集,分别进行混沌粒子群优化算法参数优化训练,以获取M组最优参数的向量;
其中,M、N为正整数。
4.根据权利要求3所述的方法,其特征在于,将所述M组训练子集,分别进行混沌粒子群优化算法参数优化训练,具体包括:
初始化参数,根据所述数据集的历史样本数据设定混沌粒子群模型的学习因子、最大惯性权重、最小惯性权重、最大进化代数、速度上限、以及混沌搜索迭代次数,对粒子群进行初始化,产生随机位置和速度;
由优化目的的目标函数确定适应度函数f,对粒子群中每一个粒子的适应度进行计算;
对粒子群中每个粒子的个体最极值进行计算,并将粒子群中每个粒子的当前适应度值与其自身个体极值进行比较,若粒子当前适应度值优于粒子个体极值,则用适应度值取代个体极值;
将粒子群中所有粒子的当前适应度值与全局极值进行比较,若当前适应度值优于全局极值,则当前适应度值取代全局极值;
更新粒子的速度与位置;
判断是否满足迭代条件,若满足条件,则优化过程结束,返回全局最优解;若不满足条件,则返回确定适应度函数f,对粒子群中每一个粒子的适应度进行计算的步骤,继续进行优化;
其中,所述迭代终止条件包括:若迭代次数达到设定的最大迭代次数或最小误差标准,则停止迭代,否则继续迭代直到满足迭代终止条件。
5.根据权利要求1至4任一项所述的方法,其特征在于,
通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练,具体包括:将所述数据集中的历史样本数据输入到优化后的CPSO-XGBoost预测模型进行训练,以获得训练后的所述优化的CPSO-XGBoost预测模型;
和/或,
将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性,具体包括:利用训练后的所述优化的CPSO-XGBoost预测模型,对需要评估的任意的监控的数据进行风险预测,以确定所述监控的数据对应的用户存在的风险。
6.根据权利要求5所述的方法,其特征在于,将所述数据集中的历史样本数据输入到优化后的CPSO-XGBoost预测模型进行训练,以获得训练后的所述优化的CPSO-XGBoost预测模型,具体包括:
将所述数据集中划分出的M组训练子集,分别进行M个最优参数下的CPSO-XGBoost预测模型的训练学习;
将所述数据集中划分出的测试集输入到所述M个最优参数下的CPSO-XGBoost预测模型中,将输出结果取平均值,得到最终所述CPSO-XGBoost预测模型的优劣评估结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,根据采集的数据,获取提供给构建的预测模型的数据集,具体包括:
采集被监控的数据,对采集的数据进行预处理,并从预处理后的数据中筛选出一部分作为构建预测模型使用的数据集。
8.根据权利要求7所述的方法,其特征在于,
采集被监控的数据,包括:采集监控的数据所对应的用户的各种原始的用户业务数据;
和/或,
对采集的数据进行预处理,包括:利用变量缺失率分析与处理、异常值处理、离群值检测、连续型变量离散化并WOE转化、离散型变量WOE转化、和/或文本变量加工处理,对一个或多个用户的所述原始的用户业务数据进行预处理。
9.一种基于模型优化的监控安全预测系统,其特征在于,包括:
数据集形成模块,用于根据采集的数据,获取提供给构建的预测模型的数据集;
模型优化模块,用于基于所述数据集形成的训练集和测试集,根据混沌粒子群优化算法对所述预测模型的参数进行优化,以确定优化的预测模型;
模型训练模块,用于通过所述数据集中的历史样本数据,对优化后的所述预测模型进行训练;
预测执行模块,用于将训练后的所述优化的预测模型对任意监控的数据进行预测,以确定任意监控的数据所对应的用户的安全性。
10.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1至8中任一项所述的方法的步骤。
11.一种计算机可读介质,其中,所述计算机可读介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111643038.7A CN114219360A (zh) | 2021-12-29 | 2021-12-29 | 基于模型优化的监控安全预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111643038.7A CN114219360A (zh) | 2021-12-29 | 2021-12-29 | 基于模型优化的监控安全预测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114219360A true CN114219360A (zh) | 2022-03-22 |
Family
ID=80706828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111643038.7A Pending CN114219360A (zh) | 2021-12-29 | 2021-12-29 | 基于模型优化的监控安全预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114219360A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493049A (zh) * | 2022-04-07 | 2022-05-13 | 卡奥斯工业智能研究院(青岛)有限公司 | 基于数字孪生的产线优化方法、装置、电子设备及介质 |
CN115514581A (zh) * | 2022-11-16 | 2022-12-23 | 国家工业信息安全发展研究中心 | 一种用于工业互联网数据安全平台的数据分析方法及设备 |
CN115907483A (zh) * | 2023-01-06 | 2023-04-04 | 山东蜂鸟物联网技术有限公司 | 人员风险评估预警的方法 |
CN115982139A (zh) * | 2022-11-23 | 2023-04-18 | 中国地质大学(北京) | 开采区地形数据清洗方法、装置、电子设备及存储介质 |
CN117828299A (zh) * | 2024-01-03 | 2024-04-05 | 佛山职业技术学院 | 一种轮胎磨损度检测计算系统 |
CN118379061A (zh) * | 2024-04-18 | 2024-07-23 | 华南师范大学 | 交易欺诈的检测方法、装置、计算机设备以及存储介质 |
-
2021
- 2021-12-29 CN CN202111643038.7A patent/CN114219360A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493049A (zh) * | 2022-04-07 | 2022-05-13 | 卡奥斯工业智能研究院(青岛)有限公司 | 基于数字孪生的产线优化方法、装置、电子设备及介质 |
CN115514581A (zh) * | 2022-11-16 | 2022-12-23 | 国家工业信息安全发展研究中心 | 一种用于工业互联网数据安全平台的数据分析方法及设备 |
CN115514581B (zh) * | 2022-11-16 | 2023-04-07 | 国家工业信息安全发展研究中心 | 一种用于工业互联网数据安全平台的数据分析方法及设备 |
CN115982139A (zh) * | 2022-11-23 | 2023-04-18 | 中国地质大学(北京) | 开采区地形数据清洗方法、装置、电子设备及存储介质 |
CN115907483A (zh) * | 2023-01-06 | 2023-04-04 | 山东蜂鸟物联网技术有限公司 | 人员风险评估预警的方法 |
CN117828299A (zh) * | 2024-01-03 | 2024-04-05 | 佛山职业技术学院 | 一种轮胎磨损度检测计算系统 |
CN117828299B (zh) * | 2024-01-03 | 2024-06-07 | 佛山职业技术学院 | 一种轮胎磨损度检测计算系统 |
CN118379061A (zh) * | 2024-04-18 | 2024-07-23 | 华南师范大学 | 交易欺诈的检测方法、装置、计算机设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114219360A (zh) | 基于模型优化的监控安全预测方法及系统 | |
Keramati et al. | A proposed classification of data mining techniques in credit scoring | |
CN112288455B (zh) | 标签生成方法及装置、计算机可读存储介质、电子设备 | |
CN112508580A (zh) | 基于拒绝推断方法的模型构建方法、装置和电子设备 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
US8984022B1 (en) | Automating growth and evaluation of segmentation trees | |
CN111199474A (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN111222976A (zh) | 一种基于双方网络图数据的风险预测方法、装置和电子设备 | |
CN111199469A (zh) | 用户还款模型生成方法、装置及电子设备 | |
CN113344700A (zh) | 一种基于多目标优化的风控模型构建方法、装置和电子设备 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN110415103A (zh) | 基于变量影响度指标进行用户分群提额的方法、装置和电子设备 | |
CN116503158A (zh) | 基于数据驱动的企业破产风险预警方法、系统及装置 | |
Kozodoi et al. | Shallow self-learning for reject inference in credit scoring | |
CN116883154A (zh) | 信贷风险识别方法、装置、电子设备及可读存储介质 | |
Wu et al. | An uncertainty-oriented cost-sensitive credit scoring framework with multi-objective feature selection | |
CN118037440A (zh) | 一种综合信贷系统的授信数据处理方法及系统 | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
Wadikar | Customer Churn Prediction | |
Hilal et al. | Artificial intelligence based optimal functional link neural network for financial data Science | |
CN116911994B (zh) | 对外贸易风险预警系统 | |
Begum et al. | Housing price prediction with machine learning | |
Garcia de Alford et al. | Reducing age bias in machine learning: An algorithmic approach | |
CN111382909A (zh) | 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |