CN117036008A - 一种多源数据的自动化建模方法及系统 - Google Patents
一种多源数据的自动化建模方法及系统 Download PDFInfo
- Publication number
- CN117036008A CN117036008A CN202311286892.1A CN202311286892A CN117036008A CN 117036008 A CN117036008 A CN 117036008A CN 202311286892 A CN202311286892 A CN 202311286892A CN 117036008 A CN117036008 A CN 117036008A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- sample
- variable
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 31
- 238000012795 verification Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000010276 construction Methods 0.000 claims abstract description 17
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 230000002159 abnormal effect Effects 0.000 claims abstract description 4
- 238000004140 cleaning Methods 0.000 claims abstract description 4
- 238000002156 mixing Methods 0.000 claims abstract description 3
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000014759 maintenance of location Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000003860 storage Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 241000282813 Aepyceros melampus Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明涉及一种多源数据的自动化建模方法,具体为S1:获取样本,包括获取模型样本和获取模型样本的数据维度,模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;S4:划分数据,对数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;S5:特征工程,包括特征构建和特征筛选;S6:建立模型,包括模型训练和模型评估;S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。
Description
技术领域
本发明涉及金融风控模型建模的技术领域,特别涉及一种适用于多源数据环境下的自动化建模方法及系统。
背景技术
为了防控地方性金融风险,需要对待评分机构的原始金融数据进行系统化、规范化的按指标分权重进行评分。但是,传统的风险控制方法一般是按照从上往下进行计算评分,从待评分机构的原始金融数据中随机选择指标输入至预先定制的评分卡模型中进行计算评分。由于是对随机选择的指标进行计算评分,导致传统方法不仅难于全面覆盖所有指标,而且对于同一待评分机构,随机选择出的指标所对应的评分结果也可能具有随机性,无法保证评分卡模型的可信度。此外,对于不同的待评分机构,其所选择的指标可能也不相同,导致传统的检测方法在出现指标调整后(例如存在指标逻辑调整等),可能会让预先定制的评分卡模型存在翻倍的计算工作量。
具体来说,传统的金融风控过程一般分以下几步:第一步,数据建模:建模人员从数据库中取数,进行数据清洗,准备建模工作;第二步,将模型部署到系统:开发人员将变量规则、模型规则、监控规则编写部署到系统上,进行测试;第三步,数据源和系统连接;第四步,建模人员进行上线数据测试,保证数据逻辑、模型逻辑、监控规则正确无误。
传统的金融风控存在以下缺点:一、传统的风控模型特征工程中采用WOE转换,再得用Logistic模型进行拟合构建特征工程的方法已经跟不上大数据、互联网、机器学习发展的速度;二、传统的金融风控中,模型部署需要建模人员将变量规则、模型规则、监控规则编写成书面材料,交于开发人员,由开发人员将这些部署到系统上,并由开发人员和模型人员沟通,测试。这种方式不仅增加了沟通所需的成本,后续也可能由于沟通不到位导致测试时出现很多问题,且由于测试也需要开发人员配合测试,也耗费了人力、时间,增加了项目的成本。
本领域技术词汇解释:
WOE转换:即把变量先分箱,然后用每箱的WOE值替代原始值,然后把WOE转换之后的变量拿来拟合逻辑回归。WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把变量进行分组处理(也叫离散化、分箱)。
Logistic回归模型:又称Logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。
哑变量编码:在统计学中,把一个分类变量用数值来表示的编码方法。一般常用0、1二值来表示每个分类变量,通常将0表示没有对应属性,而1则表示有该属性。哑变量编码也被称之为指示编码或二值化变量。
VIF:方差膨胀系数,用于衡量多元线性回归模型中复(多重)共线性的严重程度。
KS值:在模型中用于区分正负样本分隔程度的评价指标。KS值越大,表明正负样本区分的程度越好,但并非所有情况都是KS越高越好。
PSI值:指群体稳定性指标(Population Stability Index)。PSI值是通过对比历史样本分布和当前样本分布的波动,来衡量数据的稳定性。通常包括特征PSI和模型PSI。特征PSI关注特征的取值是否随时间推移发生大的波动,可用于模型训练和上线前特征选择、变量监控等。模型PSI关注训练集和验证集,以及模型上线部署后,模型的分布是否稳定。
vintage曲线:在信贷领域,vintage曲线是指贷款组合在给定时间点上的风险分布。Vintage曲线可以用来监控、预测和分析资产质量的好坏,是风险量化和精细化管理的重要指标。
Swift :一种类型安全的语言,具有自动引用计数(ARC)来管理内存,并且支持函数式编程和面向对象编程。
Hdfs: Hadoop分布式文件系统,是指被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统(Distributed File System)。
Hive表:是用于存储和组织数据的对象,是Hadoop生态系统中的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。Hive表的设计包括表的名称、列的定义和其他属性。Hive表中的数据都存储在HDFS中,没有专门的数据存储格式,只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符,Hive就可以解析数据。
过拟合:过拟合(overfitting,或称拟合过度)是指过于紧密或精确地匹配特定数据集,以致于无法良好地拟合其他数据或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言,参数过多或者结构过于复杂的统计模型。发生过拟合时,模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。机器学习算法在已知数据上很精确但在新数据上不精确的情形,可以称之为过拟合。
发明内容
基于此,本发明提供一种多源数据的自动化建模方法,其包括如下步骤:
S1:获取样本,包括获取模型样本和获取模型样本的数据维度,所述模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;
S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;
S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;
S4:划分数据,对所述数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;
S5:特征工程,包括特征构建和特征筛选;
S6:建立模型,包括模型训练和模型评估;
S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。
优选地,在步骤S5中所述特征构建包括以下步骤:
S501:在步骤S4划分数据结束后,将样本中的每个变量进行WOE转换;
S502:确定变化函数,形成连续变量;
S503:对每个变量进行哑变量编码;
S504:对多个连续变量进行加减乘除法运算后,再分别进行步骤S501、S502 和S503,得出不同类型的变量;
S505:对不同类型的变量进行交叉组合;
S506:保留变量:将变量的原值作为特征变量。
优选地,在步骤S5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数,根据所述信息增益和所述相关系数来筛选变量,在所述相关系数强的变量之间,包括所述信息增益较大的那个所述特征变量。
优选地,在步骤S6中所述模型训练包括以下步骤:
S601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;
S602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;
S603:重复循环步骤S601和S602,直至变量系数全部正确;
S604:对VIF比较高的变量,通过删除特征变量,使VIF达到正常水平,排除变量之间的多重共线性。
优选地,在步骤S6中所述模型评估包括以下步骤:
在所述模型训练完成后,通过模型的KS值、排序能力、PSI值以及模型在验证数据集和跨时间验证样本集上的表现,评估风控模型的质量。
优选地,在获取样本后,对样本进行前期分析和样本定义,所述前期分析计算样本的vintage值,选择vintage曲线中的拐点或者平缓区作为合适的表现期长度;所述样本定义为分析样本的好坏样本分布情况,并划分出训练集和验证集以供后续建立模型使用;在定义样本好坏表现时,采用计算滚动率来定义,选择坏样本稳定的时间长度作为坏样本的标签定义时间窗口。
优选地,包括数据策略回溯,为对历史样本进行特征回溯以及规则回溯;
对于规则回溯包括以下步骤:
S1101:发起规则回溯,调用数据准备接口,上送特征回溯结果swift地址;
S1102:调用小批量样本数据规则回溯,输出小批量样本数据规则回溯;
S1103:调用全部样本数据规则回溯,输出全量样本数据规则回溯;
S1104:回溯完成,回溯结果上传swift,形成规则回溯结果文件;
S1105:下载swift,读取回溯结果文件,并将回溯结果文件上传至hdfs,创建hive表,形成策略回溯结果表。
优选地,在进行步骤S5前,先对数据进行清洗,再按用户要求进行缺失值填充,包括分别对数值型和类别型变量进行缺失值填充,填充类型包括均值、中位数、众数或自定义数值;缺失值填充完成后,根据参数中的SQL脚本查询数据集并进行分箱,训练分箱方式包括等频分箱、等距分箱、决策树分箱和卡方分箱。
优选地,还包括模型对比步骤,所述模型对比对建立的不同的模型结果进行汇总,对比选择出效果最优的模型并生产最终的模型报告,所述模型对比的对比内容包括模型稳定性对比和变量稳定性对比。
本发明还提供一种多源数据的自动化建模系统,其用于应用如上述任一项所述的多源数据的自动化建模方法,包括:
样本获取模块,用于获取模型样本和获取模型样本的数据维度;
数据处理模块:用于数据加工并生成数据表,根据生成的数据表划分数据;
特征工程模块:用于特征构建和特征筛选;
建立模型模块:用于根据特征工程,建立多个模型。
本发明的有益效果:可解决现有技术中模型精度低、开发成本高的技术问题;本发明在现有的特征构建技术上,将多种特征构建的方式结合在了一起,而不是只用一种构建特征变量的方式,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,一方面,可以防止进入模型变量过多,增加计算成本;另一方面,可以防止模型过拟合,为训练模型节省时间;最后在模型配置过程可由模型人员在线上全部操作,节省开发、沟通成本,另外还可以将项目、特征变量、模型、角色统一管理。
附图说明
通过附图中所示的本发明优选实施例更具体说明,本发明上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
图1为本发明实施例的提供的多源数据的自动化建模方法的总流程示意图;
图2为本发明实施例提供的生产数据表步骤的流程示意图;
图3为本发明实施例提供的特征构建步骤的流程示意图;
图4为本发明实施例提供的模型训练步骤的流程示意图;
图5为本发明实施例提供的特征回溯步骤的流程示意图;
图6为本发明实施例提供的规则回溯步骤的流程示意图;
图7为本发明其他优选实施例提供的特征工程步骤的流程示意图;
图8为本发明实施例提供的前期分析和样本定义步骤的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
请参考图1,本发明实施例本发明提供一种多源数据的自动化建模方法,其包括如下步骤:
S1:获取样本,包括获取模型样本和获取模型样本的数据维度,模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负。而对于获取模型样本的数据维度则可以包括消费偏好、人口属性、还款能力、征信信息、地理位置和行业标签等,此处所述的人口属性指的是一个人的基本特征和背景信息,这些信息可能与人的信用风险有关,一般可能会考虑的人口属性,例如年龄,不同年龄段的人可能有不同的信用风险;性别,性别本身并不能直接决定一个人的信用风险,但可以作为一个人整体信用风险的一个因素,根据历史数据显示,女性在整体上可能比男性更倾向于按时偿还债务;婚姻状况,已婚的人通常被认为相对有更稳定的家庭和经济状况,在判定信用时可能被赋予更高的信用评分;其他还包括职业和教育水平等,一般来说稳定的职业和更高的受教育水平,通常也会被认为具有更低的信用风险。在获取模型样本和获取模型样本的数据维度时,需要结合多源的数据维度和数据来使建立的模型更能拟合到现实情况,从而能更好地对待评分机构或者个人进行评分,从而真实反映可能存在的金融风险,实现预测可能的金融风险并提前进行风险规避或者处理。
而对于样本的选取需要满足不同数据维度、不同时间段、不同产品渠道以及不同分群建模标签下样本的选取。不同数据维度决定了用户的分层逻辑,信贷业务中可将数据分层为客户层、账户层、借据层等;分群建模标签提前定义好了客户的画像,根据标签选择,能将某一类画像的用户进行归类筛选,例如按客户群体类型可划分为自雇人士和非自雇人士,按客户行为账龄分为MOB4-7、MOB8-12、MOB12+等。通过上述的不同方式自动获取的样本,能更方便业务对建模数据主体的触达,触达通常指的是银行、金融机构或相关信贷公司通过不同的方式,与潜在或现有的贷款客户进行联系和接触,触达的主要目的是提供产品或服务的信息、推广或邀请客户申请贷款,或者进行贷款催收等。另外,业务人员还可以引入外部数据进以增强样本数据的完整性和多样性。
S2:数据加工,包括数据清洗,数据清洗是指对数据进行处理和加工,以使其适合进行分析和建模,包括去除重复数据、填补缺失值、处理异常值和转换数据格式等,以提高数据的准确性和可靠性,其可以消除数据错误和噪声并提高分析和建模的精度。对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重。
S3:生成数据表,将在步骤S2中清洗后的样本生成数据表。如图2所示,使用变量平台获取样本抽数脚本,然后生成抽数脚本,再使用impala执行,生成HIVE样本数据表。此处impala指的是一种用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。
S4:划分数据,对数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本。在获取样本后,对样本进行前期分析和样本定义,前期分析计算样本的vintage值,选择vintage曲线中的拐点或者平缓区作为合适的表现期长度,采用模块化脚本计算或者报表系统的相关vintaga,而模型开发平台能提供指标可视化工具实现vintaga数据的输出,减少样本分析周期。样本定义为分析样本的好坏样本分布情况,并划分出训练集和验证集以供后续建立模型使用;而系统则是支持灵活的训练集和验证集的分配比例调整,使用跨期验证的方式,保证验证的有效性和真实性。在定义样本好坏表现时,采用计算滚动率来定义,选择坏样本稳定的时间长度作为坏样本的标签定义时间窗口;采用模块化脚本计算或者报表系统的相关滚动数据,而模型开发平台提供指标可视化工具实现滚动率数据的输出,减少样本分析周期。如图8所示,本实施例中,前期分析和样本定义可具体包括以下步骤:查询风险集市表,设置好坏客户、中间客户定义,然后计算好坏客户按月份分布列表,再设置训练集、验证集日期范围,并统计好坏客户在各集中分布,形成开发模型信息表。
S5:特征工程,是指从原始数据中提取有用特征的过程,可用于建立及其学习模型,包括特征构建和特征筛选。
特征构建包括以下步骤,参考图3:
S501:在步骤S4划分数据结束后,将样本中的每个变量进行WOE转换;
S502:确定变化函数,形成连续变量;
S503:对每个变量进行哑变量编码;
S504:对多个连续变量进行加减乘除法运算后,再分别进行步骤S501、S502 和S503,得出不同类型的变量;
S505:对不同类型的变量进行交叉组合;
S506:保留变量:将变量的原值作为特征变量。
特征筛选则是包括计算每个特征变量的信息增益和特征变量之间的相关系数,根据信息增益和相关系数来筛选变量,在相关系数强的变量之间,包括信息增益较大的那个特征变量。
S6:建立模型,包括模型训练和模型评估;
模型训练包括以下步骤,参考图4:
S601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;
S602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;
S603:重复循环步骤S601和S602,直至变量系数全部正确;
S604:对VIF比较高的变量,通过删除特征变量,使VIF达到正常水平,排除变量之间的多重共线性。
模型评估包括以下步骤:
在模型训练完成后,通过模型的KS值、排序能力、PSI值以及模型在验证数据集和跨时间验证样本集上的表现,评估风控模型的质量。
S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。
在本实施例中,自动化建模方法还包括数据策略回溯,为对历史样本进行特征回溯以及规则回溯。对模型进行回溯一方面是为了排除模型开发过程中,某些硬规则触发样本,导致模型不能使用;另一方面,是为了政策分析人员后续分析和优化迭代策略提供评分上线前的历史样本回溯,针对模型则是采取更为自动的触发方式,在模型验收上线后,模型自动回溯近一年评分结果,输出回溯标签结果,便于后续新增规则分析。模型回溯可以解决数据处理环节时间长、数据可靠性低问题的关键痛点。
对于规则回溯包括以下步骤,参考图6:
S1101:发起规则回溯,调用数据准备接口,上送特征回溯结果swift地址;
S1102:调用小批量样本数据规则回溯,输出小批量样本数据规则回溯;
S1103:调用全部样本数据规则回溯,输出全量样本数据规则回溯;
S1104:回溯完成,回溯结果上传swift,形成规则回溯结果文件;
S1105:下载swift,读取回溯结果文件,并将回溯结果文件上传至hdfs,创建hive表,形成策略回溯结果表。
对于特征回溯包括以下步骤,参考图5:
S1201:根据勾选的编排查询需要回溯的变量,发起特征回溯;
S1202:定时任务查询回溯结果,输出特征回溯结果查询;
S1203:对特征回溯结果进行判断,判断回溯是否完成;如果否,则回到步骤S1202,继续定时查询;如果是,则样本选取的SQL脚本impala执行,查询结果写入文件,上传swift,输出特征回溯结果文件。
在本实施例中,在进行步骤S5前,先对数据进行清洗,再按用户要求进行缺失值填充,包括分别对数值型和类别型变量进行缺失值填充,填充类型包括均值、中位数、众数或自定义数值;缺失值填充完成后,根据参数中的SQL脚本查询数据集并进行分箱,训练分箱方式包括等频分箱、等距分箱、决策树分箱和卡方分箱。分箱指的是将连续性变量通过几个划分点,分割成几段的过程;
分箱的用处有:离散特征的增加和减少都很容易,易于模型的快速迭代;稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;列表内容离散化后的特征对异常数据有很强的鲁棒性等等。
在进行缺失值填充时,可以设定以下规则:
null_list=[’null’, ’NULL’, ’NAN’, ’N/A’, ‘NaN’, ,’nan’, ’None’, ’none’, ’n/a’’缺失’],先将null_list中的特殊值置为空值,再按用户要求进行缺失值填充。
在实施例中,训练分箱可以应用python中的toad工具包作为分箱工具,具体分箱步骤如下:
1)初始化:c = toad.transform.Combiner()
2)训练分箱:c.fit(dataframe, y = 'target', method = 'chi', min_samples= None, n_bins = None, empty_separate = False)
其中,dataframe:数据集,y:目标列,method:分箱方法,支持'chi' (卡方分箱),'dt' (决策树分箱),'kmean','quantile' (等频分箱),'step'(等步长分箱)等;min_samples:每箱至少包含样本量,可以是数字或者占比,默认每箱至少有5%占比;n_bins:箱数,若无法分出这么多箱数,则会分出最多的箱数;empty_separate:是否将空箱单独分开,默认值为False。
下面进行详细举例:
假设某变量的分组及各分组样本指标如下表所示:
分组 | 好样本数 | 坏样本数 | 好样本率 | 坏样本率 | 累计好样本率 | 累计坏样本率 | KS |
组1 | 30 | 25 | |||||
组2 | 40 | 35 | |||||
组3 | 30 | 40 |
表1 某变量的分组及样本指标表
先计算好坏样本率以及累计好坏样本率,KS=abs(累计好样本率-累计坏样本率),变量或模型的最终KS为各分组KS的最大值。
再计算IV值(信息价值 Information Value),用于衡量特征包含预测变量浓度的指标,IV值考虑了分箱中样本占整体样本的比例,作用相当于对WOE的加权求和。
其中Goodi和Badi分别为每箱的好坏样本数,GoodT和BadT为总的好坏样本数。
假设某变量的分组及各分组样本占比如下表所示:
分组 | 样本A | 样本B |
组1 | 30% | 25% |
组2 | 40% | 35% |
组3 | 30% | 40% |
表2 某变量的分组及样本占比表
则该变量PSI计算公式为:
其中A%和B%分别表示每一箱样本A和B的数量占比。
在其他优选实施例中,特征工程可以分为三个阶段,分别是特征准备、特征工程和特征构建,参考图7,
(1)特征准备阶段包括以下步骤:
勾选变量,调用变量平台获取抽取勾选变量,并组装脚本;
impala执行脚本,将查询变量结果插入hive样本数据表中;
根据hive样本数据表生成oracle表,并将数据插入;
根据好坏用户定义计算各样本的好坏客户值,落库样本表。
(2)特征工程阶段,在形成样本表后:
对缺失值进行填充,调用pydispacher(Python的事件分派器机制)分箱;
根据参数中SQL脚本查询数据集,分箱;
计算各指标,勾选变量。
(3)特征构建阶段包括以下步骤:
调用pydispacher分箱,过滤入模变量,计算各指标数据;
计算各指标,保存到版本表中,形成模型版本数据表。
在优选实施例中,自动化建模方法还包括模型对比步骤,模型对比对建立的不同的模型结果进行汇总,对比选择出效果最优的模型并生产最终的模型报告,模型对比的对比内容包括模型稳定性对比和变量稳定性对比。在本实施例中,模型版本命名方式为model1-1、model1-2、……、model2-1、model2-2、……等,其中model1-1和model1-2的区别是变量数据源一样,入模变量或者模型参数不一样,即“特征准备”阶段一样,从“特征工程”阶段开始有差异;model1-1和model2-1的区别是变量数据源不一样,即从“特征准备”阶段开始有差异。
对于变量稳定性对比,列表包括变量名、中文名称、PSI_valid、基准线1、基准线2。若在样本定义阶段增加了其他验证1、其他验证2等数据集,则增加PSI_valid1、PSI_valid2等保持一致。基准线1列显示0.1,基准线2列显示0.25。
对于模型稳定性对比,列表包括评分区间、训练集占比、跨期验证占比、PSI_valid。若在样本定义阶段增加了其他验证1、其他验证2等数据集,则增加其他验证1占比、其他验证2占比以及PSI_valid1、PSI_valid2等保持一致。总计行即为对各列数值相加之和。基准线1行在PSI列显示0.1,基准线2行在PSI列显示0.25。
本发明优选实施例还提供一种多源数据的自动化建模系统,其用于应用如上述任一项的多源数据的自动化建模方法,包括:
样本获取模块,用于获取模型样本和获取模型样本的数据维度;
数据处理模块:用于数据加工并生成数据表,根据生成的数据表划分数据;
特征工程模块:用于特征构建和特征筛选;
建立模型模块:用于根据特征工程,建立多个模型。
本发明实施例可解决现有技术中模型精度低、开发成本高的技术问题。在现有的特征构建技术上,将多种特征构建的方式结合在了一起,而不是只用一种构建特征变量的方式,并且增加了变量交叉组合运算这种方式,全面挖掘了变量之间的组合关系,提升模型精度;同时,在特征筛选时,在传统的特征筛选的基础上,增加了变量之间的相关性检验,一方面,可以防止进入模型变量过多,增加计算成本;另一方面,可以防止模型过拟合,为训练模型节省时间;最后在模型配置过程可由模型人员在线上全部操作,节省开发、沟通成本,另外还可以将项目、特征变量、模型、角色统一管理。
本发明实施例还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一实施例的方法的步骤。该计算机设备可以是可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器。
本实施例中,存储器(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,存储器还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器通常用于存储安装于计算机设备的操作系统和各类应用软件等。此外,存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制计算机设备的总体操作。本实施例中,处理器用于运行存储器中存储的程序代码或者处理数据,以实现上述实施例的端到端检索式对话方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种多源数据的自动化建模方法,其特征在于,包括如下步骤:
S1:获取样本,包括获取模型样本和获取模型样本的数据维度,所述模型样本包括通过数据接口获取的模型样本,并根据网贷数据和催收数据确定模型样本的正或者负;
S2:数据加工,包括数据清洗,对在步骤S1中获取的样本进行缺失值处理和异常值处理,并调配样本比例和权重;
S3:生成数据表,将在步骤S2中清洗后的样本生成数据表;
S4:划分数据,对所述数据表中的样本进行划分,获取训练集、验证集以及跨时间验证样本;
S5:特征工程,包括特征构建和特征筛选;
S6:建立模型,包括模型训练和模型评估;
S7:模型配置,包括特征配置和监控配置,用于配置模型中的变量衍生规则并进行单条变量规则的测试。
2.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在步骤S5中所述特征构建包括以下步骤:
S501:在步骤S4划分数据结束后,将样本中的每个变量进行WOE转换;
S502:确定变化函数,形成连续变量;
S503:对每个变量进行哑变量编码;
S504:对多个连续变量进行加减乘除法运算后,再分别进行步骤S501、S502 和S503,得出不同类型的变量;
S505:对不同类型的变量进行交叉组合;
S506:保留变量:将变量的原值作为特征变量。
3.如权利要求2所述的多源数据的自动化建模方法,其特征在于,在步骤S5中所述特征筛选包括计算每个所述特征变量的信息增益和所述特征变量之间的相关系数,根据所述信息增益和所述相关系数来筛选变量,在所述相关系数强的变量之间,包括所述信息增益较大的那个所述特征变量。
4.如权利要求3所述的多源数据的自动化建模方法,其特征在于,在步骤S6中所述模型训练包括以下步骤:
S601:以特征筛选后获得的特征变量作为基础构建模型,并运用逻辑回归算法,进行模型拟合;
S602:对拟合后的变量系数进行检查,删掉符号相反的变量后,再次进行模型拟合;
S603:重复循环步骤S601和S602,直至变量系数全部正确;
S604:对VIF比较高的变量,通过删除特征变量,使VIF达到正常水平,排除变量之间的多重共线性。
5.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在步骤S6中所述模型评估包括以下步骤:
在所述模型训练完成后,通过模型的KS值、排序能力、PSI值以及模型在验证数据集和跨时间验证样本集上的表现,评估风控模型的质量。
6.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在获取样本后,对样本进行前期分析和样本定义,所述前期分析计算样本的vintage值,选择vintage曲线中的拐点或者平缓区作为合适的表现期长度;所述样本定义为分析样本的好坏样本分布情况,并划分出训练集和验证集以供后续建立模型使用;在定义样本好坏表现时,采用计算滚动率来定义,选择坏样本稳定的时间长度作为坏样本的标签定义时间窗口。
7.如权利要求1所述的多源数据的自动化建模方法,其特征在于,包括数据策略回溯,为对历史样本进行特征回溯以及规则回溯;
对于规则回溯包括以下步骤:
S1101:发起规则回溯,调用数据准备接口,上送特征回溯结果swift地址;
S1102:调用小批量样本数据规则回溯,输出小批量样本数据规则回溯;
S1103:调用全部样本数据规则回溯,输出全量样本数据规则回溯;
S1104:回溯完成,回溯结果上传swift,形成规则回溯结果文件;
S1105:下载swift,读取回溯结果文件,并将回溯结果文件上传至hdfs,创建hive表,形成策略回溯结果表。
8.如权利要求1所述的多源数据的自动化建模方法,其特征在于,在进行步骤S5前,先对数据进行清洗,再按用户要求进行缺失值填充,包括分别对数值型和类别型变量进行缺失值填充,填充类型包括均值、中位数、众数或自定义数值;缺失值填充完成后,根据参数中的SQL脚本查询数据集并进行分箱,训练分箱方式包括等频分箱、等距分箱、决策树分箱和卡方分箱。
9.如权利要求1所述的多源数据的自动化建模方法,其特征在于,还包括模型对比步骤,所述模型对比对建立的不同的模型结果进行汇总,对比选择出效果最优的模型并生产最终的模型报告,所述模型对比的对比内容包括模型稳定性对比和变量稳定性对比。
10.一种多源数据的自动化建模系统,其特征在于,用于应用如权利要求1-9任一项所述的多源数据的自动化建模方法,包括:
样本获取模块,用于获取模型样本和获取模型样本的数据维度;
数据处理模块:用于数据加工并生成数据表,根据生成的数据表划分数据;
特征工程模块:用于特征构建和特征筛选;
建立模型模块:用于根据特征工程,建立多个模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286892.1A CN117036008A (zh) | 2023-10-08 | 2023-10-08 | 一种多源数据的自动化建模方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311286892.1A CN117036008A (zh) | 2023-10-08 | 2023-10-08 | 一种多源数据的自动化建模方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117036008A true CN117036008A (zh) | 2023-11-10 |
Family
ID=88641430
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311286892.1A Pending CN117036008A (zh) | 2023-10-08 | 2023-10-08 | 一种多源数据的自动化建模方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117036008A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019194696A1 (ru) * | 2018-04-04 | 2019-10-10 | Публичное Акционерное Общество "Сбербанк России" | Автоматизированная система разработки и управления моделями скоринга |
CN110322142A (zh) * | 2019-07-01 | 2019-10-11 | 百维金科(上海)信息科技有限公司 | 一种大数据风控模型及线上系统配置技术 |
CN110348722A (zh) * | 2019-07-01 | 2019-10-18 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN111311402A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN113283673A (zh) * | 2021-06-25 | 2021-08-20 | 马上消费金融股份有限公司 | 一种模型性能衰减评价方法、模型训练方法及装置 |
CN115423603A (zh) * | 2022-08-31 | 2022-12-02 | 厦门国际银行股份有限公司 | 一种基于机器学习的风控模型建立方法、系统及存储介质 |
-
2023
- 2023-10-08 CN CN202311286892.1A patent/CN117036008A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019194696A1 (ru) * | 2018-04-04 | 2019-10-10 | Публичное Акционерное Общество "Сбербанк России" | Автоматизированная система разработки и управления моделями скоринга |
CN110322142A (zh) * | 2019-07-01 | 2019-10-11 | 百维金科(上海)信息科技有限公司 | 一种大数据风控模型及线上系统配置技术 |
CN110348722A (zh) * | 2019-07-01 | 2019-10-18 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN111311402A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN113283673A (zh) * | 2021-06-25 | 2021-08-20 | 马上消费金融股份有限公司 | 一种模型性能衰减评价方法、模型训练方法及装置 |
CN115423603A (zh) * | 2022-08-31 | 2022-12-02 | 厦门国际银行股份有限公司 | 一种基于机器学习的风控模型建立方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
US10970431B2 (en) | Automated model development process | |
CN110569322A (zh) | 地址信息解析方法、装置、系统及数据获取方法 | |
WO2019015631A1 (zh) | 生成机器学习样本的组合特征的方法及系统 | |
WO2020041902A1 (en) | Analysis and correction of supply chain design through machine learning | |
WO2012045496A2 (en) | Probabilistic data mining model comparison engine | |
US20140229497A1 (en) | Automated data analysis | |
CN112116184A (zh) | 使用历史检验数据的工厂风险估计 | |
US11526261B1 (en) | System and method for aggregating and enriching data | |
CN112381154A (zh) | 预测用户概率的方法、装置和计算机设备 | |
CN111738843B (zh) | 一种使用流水数据的量化风险评价系统和方法 | |
CA3053894A1 (en) | Defect prediction using historical inspection data | |
WO2020257784A1 (en) | Inspection risk estimation using historical inspection data | |
CN116034379A (zh) | 使用深度学习和机器学习的活动性水平测量 | |
Balakayeva et al. | The solution to the problem of processing Big Data using the example of assessing the solvency of borrowers | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
CN116862658A (zh) | 信用评估方法、装置、电子设备、介质和程序产品 | |
CN115689713A (zh) | 异常风险数据处理方法、装置、计算机设备和存储介质 | |
CN117036008A (zh) | 一种多源数据的自动化建模方法及系统 | |
CN112927012A (zh) | 营销数据的处理方法及装置、营销模型的训练方法及装置 | |
CN114495137A (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
Thompson | Data mining methods and the rise of big data | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
US11004156B2 (en) | Method and system for predicting and indexing probability of financial stress |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |