CN111127196A

CN111127196A - 信贷风控特征变量管理的方法及系统

Info

Publication number: CN111127196A
Application number: CN201911411864.1A
Authority: CN
Inventors: 唐庚阳; 徐涛; 刘明璋
Original assignee: CITIC Aibank Corp Ltd
Current assignee: CITIC Aibank Corp Ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-08

Abstract

本发明公开了一种信贷风控特征变量管理的方法及系统。该方法步骤一，业务人员将人行接口文档和schema信息上传至元数据管理系统。步骤二，由基于Flink开发的数据总线将各类信贷风控变量原始数据，通过调用元数据管理系统加工后，同时写入离线与实时数据仓库；步骤三，风控策略与模型人员通过基于Presto开发的变量加工系统，以SQL的形式加工所需风控特征变量，并将逻辑存入关系型数据库。步骤四，特征变量管理系统将系统中保存的变量以统一的查询API形式对外提供服务，以保证变量调用的独立性。步骤五，特征变量管理系统将系统中保存的变量以及加工逻辑和调用逻辑自动同步至基于Neo4j开发的特征变量血缘关系展示工具，清晰的展示出变量、策略与源数据之间的逻辑关系。

Description

信贷风控特征变量管理的方法及系统

技术领域

本发明涉及领域，特别是涉及信贷类业务风控特征变量的管理领域。

背景技术

当前未有在市面上找到仅针对信贷业务风控特征变量管理相关的平台或工具。存有类似功能产品如Aegis、帝友等，其中包含了风控变量的管理和加工功能，此类产品提供了风控变量的命名、版本、激活、查询等服务。

现有技术关于风险画像服务，为了应对日益严重的支付欺诈，现有的风控系统可支撑了每日1亿次以上的风险事件实时处理和100亿以上的准实时数据预处理。

系统中运行的总规则数和总模型数分别达到了1万以上。风控的范围从单纯的支付风控扩展到了各种类型的业务风控。

当前已有的系统结构是比较主流的风控系统结构，包含了决策引擎、Counter、名单库、用户画像、离线处理、离线分析和监控各主要模块。现有的在线风控系统发展到这个阶段一共经过了多次重大的改版。

已有技术的缺点，以及导致这样的缺点的原因，当前类似系统中的变量管理模块存在变量关系混乱的问题，主要是因为不同种类的变量存储在MySQL关系型数据库中，导致变量之间的关系无法通过主动关联的方法进行展示。

当前类似系统中变量加工的方法单一，对复杂的变量的加工容易出现错误，主要是因为该产品的变量加工方式是Java程序实现的，导致了变量加工的复杂性高、推广性差、维护成本高等问题。

发明内容

本发明的目的在于提供一种信贷风控特征变量管理的方法及系统。目的是为了简化信贷业务中各类风控特征变量之间的调用流程，以及将各类特征变量之间的关系进行可视化展示。

解决的问题包括，解决了信贷业务中各类风控特征变量在向决策系统输出时因依赖关系复杂而导致的逻辑混乱问题，解决的技术问题是信贷业务中各类风控特征变量因多源头、多用途和互相依赖等原因导致的血缘关系管理混乱的问题。

本发明取得的技术效果是，本发明基于关系型数据库，提供了以SQL为基础语言的变量管理系统，本发明通过引入Neo4j图数据库，来实现对变量之间关系的管理，可以直观的展示出所有变量之间的逻辑关系，还利用Neo4j图数据库对变量之间的调用关系进行了可视化展示；

通过该解决方案，将有效改善当前通过人力去对变量之间的血缘关系进行查找确认的现象，从时间和人力成本上都将有大幅度的降低。

此外，以SQL为基础的语言对变量进行加工的形式，极大的降低了风控特征变量的开发技术门槛，使得策略与模型从业人员具备了自主开发上线变量的能力。

本发明的技术方案，该方案的核心步骤与技术关键点如下：

步骤一，将源数据信息进行上传至元数据管理系统；

步骤二，将源数据的非结构化数据进行结构化处理；

步骤三，通过流计算和批处理的一体化处理模块，在离线数仓和实时数仓同时执行一个含有特征变量加工逻辑的查询语句；

步骤四，特征变量管理系统将系统中保存的变量以统一的查询API形式对外提供服务；

步骤五，展示特征变量与源数据之间的逻辑关系。

具体地，根据图1信贷风控特征变量管理方法的逻辑图所示，步骤一，本步骤是将数据源数据信息进行管理并上传。业务人员将人行接口文档和My SQL schema信息上传至元数据管理系统。

步骤二，本步骤是将非结构化数据进行结构化处理。步骤一上传完成后，基于Apache Flink计算引擎开发的数据总线，调动元数据平台管理信息，将人行征信文档返回Json后，Flink数据总线通过调用元数据管理系统，将Json解析为结构化数据，写入Hadoop文件分布式传输系统HDFS，和基于Kudu开发的实时数据仓库中。

步骤三，在本步骤中，风控策略与模型人员通过基于Presto开发的变量加工系统，以SQL的形式加工所需风控特征变量，并将逻辑存入关系型数据库。

通过流计算和批处理的一体化处理模块，在离线数仓和实时数仓同时执行一个含有特征变量加工逻辑的查询语句,把离线和实时的数据加工成流批一体，并将加工逻辑存储到关系型数据库中。

步骤四，在本步骤是实现统一调用服务，变量对外提供服务，保证统一性和独立性。变量的命名和逻辑回传至质量管理系统进行管理，同时逻辑一键发布至变量加工系统，利用接口配置功能，对外提供查询服务。特征变量管理系统将系统中保存的变量以统一的查询API形式对外提供服务，以保证变量调用的独立性。

步骤五，本步骤是展示特征变量的血缘关系管理。特征变量管理系统将系统中保存的变量以及加工逻辑和调用逻辑关系自动同步至特征变量血缘关系展示工具。实现展示的方式，是通过我们在底层mysql数据库中保存的关联关系进行确定的，具体的图形化展示方式是通过mysql数据关系导入到Neo4j开发的特征变量血缘关系展示工具，清晰的展示出变量与源数据之间的逻辑关系。

该信贷风控特征变量管理方法，与之相对应的，还设计有一种信贷风控特征变量管理的系统，所述信贷风控特征变量管理系统包括数据上传模块、数据结构化模块、数据流批一体加工模块、数据存储模块、逻辑关系展示模块；

所述数据上传模块，用于将源数据信息进行上传至元数据管理系统；

所述数据结构化模块，用于将源数据的非结构化数据进行结构化处理；

所述数据流批一体加工模块，用于把离线和实时的数据加工成流批一体；

所述数据存储模块，用于存储把离线和实时的数据加工成流批一体的加工逻辑；所述逻辑关系展示模块，用于展示特征变量、策略与源数据之间的逻辑关系。

所述系统可以存储于计算机可读存储介质中，所属存储介质包括：ROM、RAM、硬盘设备。

附图说明

图1是本发明一种信贷风控特征变量管理方法的逻辑图。

图2是本发明一种信贷风控特征变量管理方法的系统间应用关系调用图。

图3是本发明一种信贷风控特征变量管理方法的数据流转与技术栈示意图。

图4是本发明一种信贷风控特征变量管理方法的系统图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。显然，所描述的实施例实际上仅仅是说明性的或者示例性的，决不作为对本发明及其应用或使用的任何限制。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的全部细节均已了解的情况下实施。下面对实施例的描述仅仅是为了通过展示本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

如图2、图3所示，本发明实施例提供的一种信贷风控特征变量管理方法的示意图。

步骤S101解决的问题：对源数据信息首先进行管理，再上传至元数据管理系统。业务人员将人行接口文档和MySQL schema信息进行管理，再上传至元数据管理系统。

具体地，如图2、图3所示，根据步骤S101，用户将人民银行发送给用户的人行征信报文和数据源My SQL schema约束文本信息的非结构化信息数据进行管理，管理的内容是报文格式及字段映射进行存储。所述字段映射是指在人行征信报文里的名称和进入到申请人一端之后的名称。

将上述非结构化数据的样式进行存储，后再上传至元数据管理平台，所述其他特征变量包含当前市面上存在的三方数据接口，例如京东黑名单、京东ZR信用分、中智诚黑名单、银联智慧、学信网、芝麻信用分等。

源数据信息上传至元数据平台后，平台会进行信息存储管理，同时下游使用的系统会对数据元信息进行本地化或redis保存。

根据步骤S102，第二步解决的问题是将非结构化数据自动结构化，即统一结构化。

具体地，如图2、图3所示，具体地，由基于Flink开发的数据总线将各类信贷风控变量原始数据通过调用元数据管理系统加工后写入基于Kudu开发的实时数据仓库；具体地，将约束文本信息等非结构化信息数据上传平台操作完成后，通过开源软件Apache Flink获取元数据结构后，基于Apache Flink计算引擎开发的数据总线，调动元数据平台管理信息，实现将非结构化数据自动结构化。

具体地，将人行征信文档返回Json后，对Json数据进行解析，从而用Json将非结构化数据解析为结构化数据，并通过Flnk自身的sink组件将数据同时写入HDFS和Kudu当中；具体地，将各类信贷风控变量原始数据通过调用元数据管理系统加工后写入Hadoop文件分布式传输系统HDFS，和基于Kudu开发的实时数据仓库中；通过元数据管理将HDFS和基于Kudu所保存的数据进行了结构的一致化。

根据步骤S103，该步骤是通过流计算和批处理的一体化处理模块，在离线数仓和实时数仓同时执行一个含有特征变量加工逻辑的查询语句。

本申请之所以采用Flink实现本发明的流批一体化方案，是因为Flink把批当作一种有限的流，在流和批共享大部分代码的同时能够保留批处理特有的一系列的优化。Flink采用的架构实现了exactly once的有状态流处理，在Exactly once的语义保证完全一致性的情况下，Flink在性能上表现优异，因此本技术方案采用Flink来实现流和批的一体化方案。

具体地，如图2、图3所示，模型或策略人员在变量开发系统中通过Presto计算引擎以提交SQL的形式至Hive上，在验证逻辑无误后，再将SQL逻辑通过Presto计算引擎提交至Kudu数仓中。

在通过步骤S102使数据统一结构化的情况下，通过流批一体的加工方式，用Presto将同一段SQL查询语句，将加工逻辑存储到关系型数据库Kudu中，在Hive与Kudu数据仓做无缝衔接。

具体地，通过Presto这个统一查询引擎对离线HIVE(HDFS)数据和实时Kudu进行流批一体化的处理。一体化之后，用户在HIVE写的离线SQL可以无缝隙、无感知的切换至实时SQL执行。HIVE(HDFS)和Kudu之间的数据不需要联动，只是通过Presto决定SQL执行环境，因为HIVE(HDFS)和Kudu的表结构是一致的；

关于Hive与Kudu数据仓做无缝衔接问题，由于HIVE(HDFS)和Kudu的表结构是一致的，且上层统一通过Presto进行查询SQL的编写，因此语法不存在转化，且表结构不存在变更等问题。

风控策略与模型人员通过基于Presto开发的变量加工系统，在管理端界面进行变量加工和配置后，确定了每一个变量和接口还有输出的关联关系，这些关系都会保存在MySQL关系型数据库中，确保名称的唯一性等；

步骤S104解决的问题统一调用服务，变量对外提供服务，保证统一性，独立性。如图2、图3所示，变量的命名和加工逻辑均从变量开发系统回传至变量管理系统进行管理，同时从变量开发系统进行逻辑一键发布至变量加工系统，利用变量加工系统的接口配置模块的配置功能，对外提供查询服务。

变量的命名和逻辑回传至质量管理系统进行管理，同时逻辑一键发布至变量加工系统，利用接口配置功能，对外提供查询服务。特征变量管理系统将系统中保存的变量以统一的查询API形式对外提供服务，以保证变量调用的独立性。

步骤S105解决的问题是展示特征变量的血缘关系管理。将已确认的风控特征变量的加工逻辑和调用关系，自动写入变量管理系统当中的图数据库中进行变量关系管理，以供可视化查询使用。

关系展示是通过我们在底层mysql数据库中保存的关联关系进行确定的，具体的图形化展示方式是通过mysql数据关系导入到Neo4j自带的特征变量血缘关系展示工具，对应关系会保存在MySQL数据库中已确保调用变量的唯一性。开发人员将Nero4j自己的查询语句进行封装，用户在使用的时候，仅需要选择要查询的变量、事件、或者接口之后，发开人员在后台进行查询语句的拼接，进行查询展示，清晰的展示出变量、策略与源数据之间的逻辑关系。

本信贷风控特征变量管理方法，还设计有一种信贷风控特征变量管理的系统20。

用户将人民银行发送给用户的人行征信报文和数据源My SQL schema约束文本信息的非结构化信息数据进行管理，并通过数据上传模块201将上述非结构化数据的样式上传至元数据管理平台。

源数据信息上传至元数据平台后，平台会通过元数据管理系统进行信息存储管理，同时下游使用的系统会对数据元信息进行本地化或redis保存。

数据结构化模块202实现将非结构化数据自动结构化，具体地，将约束文本信息等非结构化信息数据上传平台操作完成后，通过开源软件Apache Flink获取元数据结构后，将人行征信文档返回Json后，对Json数据进行解析，从而用Json将非结构化数据解析为结构化数据，并通过Flnk自身的sink组件将数据同时写入HDFS和Kudu当中。

数据加工模块203的工作机制是，通过流计算和批处理的一体化处理模块，把离线和实时的数据加工成流批一体。Flink计算引擎开发的数据总线，调动元数据平台管理信息，通过数据流批一体加工，实现流和批的一体化方案，具体地，本技术方案采用Flink来实现流和批的一体化方案。流批一体的加工逻辑数据，并将加工逻辑存储到数据存储模块204之中。

特征变量管理模块205将系统中保存的变量以统一的查询API形式对外提供服务，以保证变量调用的独立性。

关系展示模块206将特征变量的血缘关系管理进行展示。将已确认的风控特征变量的加工逻辑和调用关系，自动写入变量管理系统当中的图数据库中进行变量关系管理，以供可视化查询使用。

关系展示模块206是通过我们在底层mysql数据库中保存的关联关系进行确定的，具体的图形化展示方式是通过mysql数据关系导入到Neo4j自带的特征变量血缘关系展示工具，对应关系会保存在MySQL数据库中已确保调用变量的唯一性。

除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利发明说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”或者“一”等类似词语也不表示数量限制，而是表示存在至少一个。

以上所述仅为本发明的示例实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种信贷风控特征变量管理的方法，其特征在于，包括：

步骤一，将源数据信息进行上传至元数据管理系统；

步骤二，将源数据的非结构化数据进行结构化处理；

步骤四，通过特征变量管理系统将系统中保存的变量以统一的查询API形式对外提供服务；

步骤五，展示特正变量与源数据之间的逻辑关系。

2.根据权利要求1所述的信贷风控特征变量管理的方法，其特征在于，权利要求1中步骤一中的对数据元信息进行管理，是指业务人员将人行接口文档和MySQL schema信息上传至元数据管理系统。

3.根据权利要求1所述的信贷风控特征变量管理的方法，其特征在于，所述权利要求1中步骤二中的将非结构化数据自动结构化，是以Flink数据总线通过调用元数据管理系统，以Json解析为结构化数据分别写入HDFS和Kudu数仓中。

4.根据权利要求1所述的信贷风控特征变量管理的方法，其特征在于，所述权利要求1中步骤三中的把离线和实时的数据加工成流批一体，是指将模型或策略人员在风控变量开发系统中通过Presto计算引擎以提交SQL的形式至Hive上，再将SQL逻辑通过Presto计算引擎提交至Kudu数据仓库。

5.根据权利要求1所述的信贷风控特征变量管理的方法，其特征在于，所述权利要求1中步骤四中的统一调用服务，变量对外提供服务，是指变量的命名和逻辑均回传至变量管理系统进行管理，同时逻辑一键发布至变量加工系统，利用接口配置功能，对外提供查询服务。

6.根据权利要求1所述的信贷风控特征变量管理的方法，其特征在于，所述权利要求1中步骤五的展示特征变量的血缘关系管理，是指已确认的风控特征变量的加工逻辑和调用关系，将自动写入变量关系系统的图数据库中，以供可视化查询使用。

7.一种信贷风控特征变量管理的系统，其特征在于，所述信贷风控特征变量管理系统包括数据上传模块、数据结构化模块、数据流批一体加工模块、数据存储模块、逻辑关系展示模块；

所述数据存储模块，用于存储把离线和实时的数据加工成流批一体的加工逻辑；

所述逻辑关系展示模块，用于展示特征变量、策略与源数据之间的逻辑关系。

8.根据权利要求7的信贷风控特征变量管理的系统，其特征在于，所述数据存储模块，是指Kudu数据仓库。

9.根据权利要求7或8所述的信贷风控特征变量管理的系统，其特征在于，所述系统可以存储于计算机可读存储介质中，所属存储介质包括：ROM、RAM、硬盘设备。