CN111488338A - 应用于风控决策流的模型监控方法及装置 - Google Patents

应用于风控决策流的模型监控方法及装置 Download PDF

Info

Publication number
CN111488338A
CN111488338A CN202010600190.6A CN202010600190A CN111488338A CN 111488338 A CN111488338 A CN 111488338A CN 202010600190 A CN202010600190 A CN 202010600190A CN 111488338 A CN111488338 A CN 111488338A
Authority
CN
China
Prior art keywords
data
model
target
processed
wind control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010600190.6A
Other languages
English (en)
Other versions
CN111488338B (zh
Inventor
顾凌云
郭志攀
王伟
唐世昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202010600190.6A priority Critical patent/CN111488338B/zh
Publication of CN111488338A publication Critical patent/CN111488338A/zh
Application granted granted Critical
Publication of CN111488338B publication Critical patent/CN111488338B/zh
Priority to US17/229,016 priority patent/US20210406790A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Databases & Information Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种应用于风控决策流的模型监控方法及装置。本发明通过预先部署与数据服务器对应的数据抽取程序,以用于从对应的数据服务器中采集待处理数据并将待处理数据进行数据格式转换以得到能够直接使用的目标数据。然后结合获取到的待处理数据的决策信息得到第三列表,并基于第三列表生成风控决策模型的ROC曲线,以对风控决策模型进行指标监控。如此,通过预置的数据抽取程序对不同数据服务器的待处理数据进行采集和格式转换,能够降低模型监控设备与数据服务器的对接难度,避免模型监控设备耗费大量的时间用于数据格式转换,可以确保模型监控设备对风控决策模型进行及时的性能指标监控。

Description

应用于风控决策流的模型监控方法及装置
技术领域
本发明涉及网贷系统的风控优化技术领域,具体而言,涉及一种应用于风控决策流的模型监控方法及装置。
背景技术
当前,人工智能模型已经广泛应用于风控决策流中。人工智能模型在线上运行时,模型的实际性能是备受关注的。在风控决策流中使用人工智能模型进行数据处理和识别时,需要对人工智能模型的性能指标进行监控。
在采用模型监控系统对风控决策流中的人工智能模型进行性能指标监控时,模型监控系统需要从与人工智能模型对接的业务数据提供端中采集业务数据,然后基于业务数据实现对人工智能模型的性能指标监控。但是不同业务数据提供端所对应的数据格式是不同的,这会增加模型监控系统与业务数据提供端的对接难度,难以保证对人工智能模型进行及时的性能指标监控。
发明内容
为了改善上述问题,本发明提供了一种应用于风控决策流的模型监控方法及装置。
本发明实施例的第一方面,提供了一种应用于风控决策流的模型监控方法,应用于与多个数据服务器通信的模型监控设备,所述模型监控设备预先部署有与每个数据服务器对应的数据抽取程序,所述方法包括:
通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据;其中,所述目标数据包括业务申请编号、业务行为标记值和业务类别标识;
获取每组待处理数据的决策信息;其中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成;
根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表;
将所述第一列表和所述第二列表进行整合得到第三列表;
基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控。
优选地,通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据,包括:
按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据;
对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
优选地,基于所述第三列表生成所述风控决策模型的ROC曲线,包括:
确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识;
基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值;
对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
优选地,所述方法还包括:
提取决策信息在设定时段内的调用数据;其中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值;
获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据;其中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值;
确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值;
以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间;
确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息;
根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
优选地,所述方法还包括:
检测是否接收到用于将目标数据服务器进行接入的控制指令;
在检测到所述控制指令时,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序;
通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备;其中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
本发明实施例的第二方面,提供了一种应用于风控决策流的模型监控装置,应用于与多个数据服务器通信的模型监控设备,所述模型监控设备预先部署有与每个数据服务器对应的数据抽取程序,所述装置包括:
数据采集模块,用于通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据;其中,所述目标数据包括业务申请编号、业务行为标记值和业务类别标识;
信息获取模块,用于获取每组待处理数据的决策信息;其中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成;
列表生成模块,用于根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表;
列表整合模块,用于将所述第一列表和所述第二列表进行整合得到第三列表;
指标监控模块,用于基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控。
优选地,所述数据采集模块,具体用于:
按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据;
对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
优选地,所述指标监控模块,具体用于:
确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识;
基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值;
对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
优选地,所述指标监控模块,还用于:
提取决策信息在设定时段内的调用数据;其中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值;
获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据;其中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值;
确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值;
以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间;
确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息;
根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
优选地,所述装置还包括服务接入模块,所述服务接入模块用于:
检测是否接收到用于将目标数据服务器进行接入的控制指令;
在检测到所述控制指令时,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序;
通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备;其中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
本发明提供的应用于风控决策流的模型监控方法及装置,通过预先部署有与数据服务器对应的数据抽取程序,以从对应的数据服务器中采集待处理数据并将待处理数据进行数据格式转换以得到能够直接使用的目标数据。然后结合获取到的待处理数据的决策信息生成第一列表和第二列表,并将第一列表和第二列表进行整合得到第三列表,最后基于第三列表生成风控决策模型的ROC曲线,以对风控决策模型进行指标监控。如此,通过预置的数据抽取程序对不同数据服务器的待处理数据进行采集和格式转换,能够降低模型监控设备与数据服务器的对接难度,避免模型监控设备耗费大量的时间用于数据格式转换,可以确保模型监控设备对风控决策模型进行及时的性能指标监控。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种应用于风控决策流的模型监控系统的通信架构示意图。
图2为本发明实施例所提供的一种应用于风控决策流的模型监控方法的流程图。
图3为本发明实施例所提供的一种应用于风控决策流的模型监控装置的模块框图。
图4为本发明实施例所提供的一种模型监控设备的硬件结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
请参阅图1,为本发明实施例所提供的应用于风控决策流的模型监控系统100的通信架构示意图,所述模型监控系统100包括模型监控设备200和多个数据服务器300。其中,模型监控设备200预先部署有与每个数据服务器300对应的数据抽取程序400。
在本实施例中,数据服务器300可以是网贷系统(例如各大银行和网贷公司等)对应的服务器。进一步地,数据抽取程序可以是ETL工具,例如Datastage和Informatica等。
模型监控设备200可以通过ETL工具将不同样式/格式的待处理数据导入到模型监控设备200的标准格式的内部数据库中存储,并通过这些存储下来的数据对风控决策模型进行指标监控。
可以理解,上述系统可以应用于多个业务场景下,本实施例以网贷业务场景为例进行说明。
在上述基础上,请结合参阅图2,提供了应用于风控决策流的模型监控方法的流程图,所述方法应用于图1中的模型监控设备200,具体可以包括以下步骤所描述的内容。
步骤S210,通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据。
在本实施例中,待处理数据可以是贷后数据。业务申请编号可以是贷款编号。业务行为标记值可以是逾期次数,逾期次数可以理解为贷款人在贷款之后没有按时还款的次数总和。业务类别标识则表示业务上认定该笔贷款的性质,例如,业务类别标识“0”用于表征该笔贷款没有出现逾期行为,“1”则用于表征该笔贷款出现逾期行为。
在本实施例中,模型监控设备200通过不同的数据抽取程序(ETL工具)从不同的数据服务器300中采集待处理数据并进行格式转换以得到模型监控设备200能够直接使用的目标数据。
进一步地,通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据,具体包括以下子步骤S211和S212,描述如下。
子步骤S211,按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据。
子步骤S212,对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
在本实施例中,设定采集频率可以定义为f(比如一天或一周),当前时间周期可以定义为P(比如一年),则模型监控设备200从外接的数据服务器300中定时地抽取最近时间周期P内的贷后数据。可以理解,采集到的贷后数据是按照设定采集频率f进行更新的。
对待处理数据进行清洗,可以包括对异常数据进行去除。其中,异常数据是有缺失的数据或者取值异常的数据,进一步地,通过对待处理数据进行格式转换,可以得到例如下表所示的目标数据。
Figure DEST_PATH_IMAGE001
可以理解,通上述内容,能够基于数据抽取程序从不同的数据服务器300中抽取待处理业务数据并进行清洗和格式转换,从而得到上述目标数据。这样,无需开发新的代码功能,能够降低模型监控设备200与数据服务器300的对接成本。
步骤S220,获取每组待处理数据的决策信息。
在步骤S220中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成。其中,请求信息可以是贷款申请的相关信息。决策信息也可以理解为如下表所示的模型线上运行流水表。
Figure DEST_PATH_IMAGE002
在上表中,贷款编号唯一标识每笔贷款,模型编号对应着该笔贷款是由哪个模型运行的,调用时间表示模型实际执行时的时间,而模型执行结果表示该模型给该笔贷款的一个分值(具体分值含义需要根据具体模型来确定)。
例如,Loan_1这笔贷款在申请的时候是由模型Model_1来执行的,且模型的执行时间为2020年11月20日的11时12分30秒,执行结果是0.6784,表示对这笔贷款,模型Model_1给出了0.6784的分值。
步骤S230,根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表。
在本实施例中,首先从模型线上运行流水表提取出“贷款编号”和“模型执行结果”两列,得到第一列表。然后从目标数据所在的表中提取出“贷款编号”和“业务类别标识”两列,得到第二列表。
步骤S240,将所述第一列表和所述第二列表进行整合得到第三列表。
在本实施例中,可以将第一列表和第二列表做内连接操作得到过渡列表,然后将过渡列表按照模型执行结果的大小顺序进行排序,从而得到如下的第三列表。
Figure DEST_PATH_IMAGE003
步骤S250,基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控。
在本实施例中,基于所述第三列表生成所述风控决策模型的ROC曲线,具体可以包括以下S251-S253所述的子步骤,具体描述如下。
子步骤S251,确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识。
子步骤S252,基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值。
子步骤S253,对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
例如,针对上述第三列表,第一业务类别标识可以为“1”,第二业务类别标识可以为“0”,则第一累计值可以为c1,第二累计值可以为c2。进一步地,令L=1,第一预设值为SUM1=0,第二预设值为SUM2=0,集合Q为空集。在上述基础上,查找第L行的数据,假设L行的数据中的目标业务类别标识为type,若type=1,则SUM1=SUM1+1,若type=0,则SUM0=SUM0+1。
进一步地,第一坐标值x=SUM0/c0,第二坐标值y=SUM1/c1。可以理解,每一行数据对应一组(x,y),通过对L进行自加,可以将确定出的每一行数据对应的第一坐标值和第二坐标值添加到集合Q中。并根据集合Q中的所有坐标点拟合得到ROC曲线。
在上述基础上,通过所述ROC曲线对所述风控决策模型进行指标监控,具体可以包括以下内容。
首先,计算出ROC曲线的AUC值。
在本实施例中,AUC值为ROC曲线下方的面积,用于衡量模型的预测能力。AUC值越高,模型的预测能力越强。进一步地,AUC值可以通过以下公式计算得到:
Figure DEST_PATH_IMAGE004
其中,n表示集合Q中的样本点数量,xi和yi表示Q集合中的点(xi,yi)。
然后,判断AUC值是否达到设定阈值。
在本实施例中,设定阈值可以根据实际情况进行调整,在此不作限定。进一步地,若AUC值达到设定阈值,则输出第一监控信息,若AUC值没有达到设定阈值,则输出第二监控信息。其中,第一监控信息可以用于表征风控决策模型的预测能力达到预设标准,第二监控信息可以用于表征风控决策模型的预测能力没有达到预设标准。
在上述方案中,基于AUC值对风控决策模型进行指标监控,可以及时地对出风控决策模型的预测能力进行监控。
在上述基础上,还可以对风控决策模型的群体稳定性指标进行监控,在对群体稳定性指标进行监控时,可以对风控决策模型的群体稳定性指标值进行计算,然后基于群体稳定性指标值进行模型监控。在本实施例中,群体稳定性指标值为PSI值。
进一步地,对风控决策模型的群体稳定性指标进行监控,具体可以包括以下子步骤S261-子步骤S266所描述的内容。
子步骤S261,提取决策信息在设定时段内的调用数据。
在本实施例中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值,例如,调用数据如下表所示。
Figure 71819DEST_PATH_IMAGE005
例如,第一输出值可以是0.0XX、0.1XX和0.5XXX。
子步骤S262,获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据。
例如,分布数据如下表所示。
Figure DEST_PATH_IMAGE006
在本实施例中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值,例如,第二输出值可以为0.2212、0.1134和0.5650。
子步骤S263,确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值。
例如,调用数据对应的所有模型输出组成的集合为T1,分布数据对应的所有模型输出组成的集合为T2。则可以在集合T1和集合T2中找出最大模型输出值max和最小模型输出值min。
子步骤S264,以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间。
例如,可以将区间[min,max]等分成10份,则每个区间的长度如下:
s=(max-min)/10。
在通过上述划分,可以得到10个子区间[min,min+s]、(min+s,min+2s]、(min+2s,min+3s]、…、(min+9s,max]。
子步骤S265,确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息。
在本实施例中,第一分布信息和第二分布信息具体可以通过下表得到。
Figure DEST_PATH_IMAGE007
子步骤S266,根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
在子步骤S226中,首先根据第一分布信息和第二分布信息计算出PSI值,然后根据PSI值所处的数值范围对风控决策模型的群体稳定性指标进行监控。
在本实施例中,PIS值可以通过以下公式计算得到。
Figure DEST_PATH_IMAGE008
在上述公式中,di表示实际占比,对应上表中的T1分布占比,而vi表示预期占比,对应上表中的T2分布占比。进一步地,i表示对应着第i个区间,比如d1在上表中对应着5.6%,v1在上表中对应着5%。通过上述公式,可以计算出风控决策模型在设定时段内的PSI值。
进一步地,根据PIS值所处的数值范围对风控决策模型的群体稳定性指标进行监控,具体包括以下步骤所描述的内容。
若PIS值小于0.1,则确定风控决策模型的群体稳定性指标为第一稳定性等级;
若PIS值大于等于0.1且小于0.25,则确定风控决策模型的群体稳定性指标为第二稳定性等级;
若PIS值大于等于0.25,则确定风控决策模型的群体稳定性指标为第三稳定性等级。
在本实施例中,稳定性等级越高,风控决策模型的群体稳定性越强。若PIS值大于等于0.25,则需要对风控决策模型进行优化。
可以理解,通过上述内容,能够基于PIS值、ROC曲线和AUC值及时地对风控决策模型进行性能指标监控。
在一种可替换的实施方式中,所述方法还可以包括以下步骤(1)和(2)所描述的内容。
(1)在检测到用于将目标数据服务器进行接入的控制指令,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序。
(2)通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备。
在本实施例中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
可以理解,通过上述步骤所描述的内容,能够对目标数据服务器进行实时接入,从而实现模型监控设备200与数据服务器的实时对接和更新。
在上述基础上,请结合参阅图3,为与应用于风控决策流的模型监控方法对应的模型监控装置210的模块框图,所述模型监控装置210包括:数据采集模块211、信息获取模块212、列表生成模块213、列表整合模块214和指标监控模块215。
所述数据采集模块211,用于通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据;其中,所述目标数据包括业务申请编号、业务行为标记值和业务类别标识。
所述信息获取模块212,用于获取每组待处理数据的决策信息;其中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成。
所述列表生成模块213,用于根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表。
所述列表整合模块214,用于将所述第一列表和所述第二列表进行整合得到第三列表。
所述指标监控模块215,用于基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控。
可选地,所述数据采集模块211,具体用于:
按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据;
对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
可选地,所述指标监控模块215,具体用于:
确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识;
基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值;
对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
可选地,所述指标监控模块215,还用于:
提取决策信息在设定时段内的调用数据;其中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值;
获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据;其中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值;
确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值;
以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间;
确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息;
根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
可选地,所述装置还可以包括服务接入模块216,所述服务接入模块216用于:
检测是否接收到用于将目标数据服务器进行接入的控制指令;
在检测到所述控制指令时,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序;
通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备;其中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
关于上述数据采集模块211、信息获取模块212、列表生成模块213、列表整合模块214、指标监控模块215和服务接入模块216的说明请参阅对上述方法步骤的描述,在此不作更多说明。
在上述基础上,请结合参阅图4,为本发明提供的模型监控设备200的硬件结构示意图,所述模型监控设备200包括处理器221、存储器222和网络接口223。处理器221和存储器222通过网络接口223通信,处理器221通过网络接口223从存储器222中调取计算机程序,通过执行该计算机程序实现上述的模型监控方法。
综上,本发明提供的应用于风控决策流的模型监控方法及装置,通过预先部署有与数据服务器对应的数据抽取程序,以从对应的数据服务器中采集待处理数据并将待处理数据进行数据格式转换以得到能够直接使用的目标数据。然后,结合获取到的待处理数据的决策信息生成第一列表和第二列表,并将第一列表和第二列表进行整合得到第三列表,最后基于第三列表生成风控决策模型的ROC曲线,以对风控决策模型进行指标监控。
如此,通过预置的数据抽取程序对不同数据服务器的待处理数据进行采集和格式转换,能够降低模型监控设备与数据服务器的对接难度,避免模型监控设备耗费大量的时间用于数据格式转换,可以确保模型监控设备对风控决策模型进行及时的性能指标监控。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种应用于风控决策流的模型监控方法,其特征在于,应用于与多个数据服务器通信的模型监控设备,所述模型监控设备预先部署有与每个数据服务器对应的数据抽取程序,所述方法包括:
通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据;其中,所述目标数据包括业务申请编号、业务行为标记值和业务类别标识;
获取每组待处理数据的决策信息;其中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成;
根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表;
将所述第一列表和所述第二列表进行整合得到第三列表;
基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控;
其中,所述方法还包括:
提取决策信息在设定时段内的调用数据;其中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值;
获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据;其中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值;
确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值;
以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间;
确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息;
根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
2.如权利要求1所述的方法,其特征在于,通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据,包括:
按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据;
对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
3.如权利要求1所述的方法,其特征在于,基于所述第三列表生成所述风控决策模型的ROC曲线,包括:
确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识;
基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值;
对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:
检测是否接收到用于将目标数据服务器进行接入的控制指令;
在检测到所述控制指令时,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序;
通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备;其中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
5.一种应用于风控决策流的模型监控装置,其特征在于,应用于与多个数据服务器通信的模型监控设备,所述模型监控设备预先部署有与每个数据服务器对应的数据抽取程序,所述装置包括:
数据采集模块,用于通过每个数据抽取程序从对应的数据服务器中采集待处理数据,将所述待处理数据按照设定格式进行转换,得到目标数据;其中,所述目标数据包括业务申请编号、业务行为标记值和业务类别标识;
信息获取模块,用于获取每组待处理数据的决策信息;其中,所述决策信息由预设的风控决策模型对每组待处理数据对应的请求信息进行识别后生成;
列表生成模块,用于根据所述业务申请编号和所述决策信息生成第一列表,并根据所述业务申请编号和所述业务类别标识生成第二列表;
列表整合模块,用于将所述第一列表和所述第二列表进行整合得到第三列表;
指标监控模块,用于基于所述第三列表生成所述风控决策模型的ROC曲线,并通过所述ROC曲线对所述风控决策模型进行指标监控;
其中,所述指标监控模块,还用于:
提取决策信息在设定时段内的调用数据;其中,所述调用数据包括所述风控决策模型相对于每组待处理数据的第一模型输出值;
获取所述风控决策模型针对测试数据进行识别所得到的识别结果,提取所述识别结果中的分布数据;其中,所述分布数据包括所述风控决策模型相对于每组测试数据的第二模型输出值;
确定所述调用数据和所述分布数据中的最大模型输出值和最小模型输出值;
以最小模型输出值为第一端点并以最大模型输出值为第二端点生成目标区间,将所述目标区间划分为多个子区间;
确定所述调用数据在每个区间的第一分布信息以及所述分布数据在每个区间的第二分布信息;
根据每个第一分布信息和每个第二分布信息对所述风控决策模型的群体稳定性指标进行监控。
6.如权利要求5所述的装置,其特征在于,所述数据采集模块,具体用于:
按照设定采集频率采集每个数据抽取程序对应的数据服务器在当前时间周期内的待处理数据;
对所述待处理数据进行清洗,按照所述模型监控设备的数据格式将完成清洗的待处理数据进行格式转换,得到所述目标数据。
7.如权利要求5所述的装置,其特征在于,所述指标监控模块,具体用于:
确定所述第三列表中的第一业务类别标识的第一累计值以及第二业务类别标识的第二累计值以及所述第三列表的每一行数据中的目标业务类别标识;
基于第一预设值、第二预设值、所述第一累计值、所述第二累计值以及每一行数据中的目标业务类别标识计算每一行数据对应的第一坐标值和第二坐标值;
对每一行数据对应的第一坐标值和第二坐标值进行拟合,得到所述ROC曲线。
8.如权利要求5所述的装置,其特征在于,所述装置还包括服务接入模块,所述服务接入模块用于:
检测是否接收到用于将目标数据服务器进行接入的控制指令;
在检测到所述控制指令时,获取所述目标数据服务器的设备信息,按照所述设备信息中包括的用于表示所述目标数据服务器对应的目标数据格式的目标信息生成目标数据抽取程序;
通过所述目标数据抽取程序将所述目标数据服务器接入所述模型监控设备;其中,所述模型监控设备通过所述目标数据抽取程序从所述目标数据服务器中采集待处理数据。
CN202010600190.6A 2020-06-29 2020-06-29 应用于风控决策流的模型监控方法及装置 Active CN111488338B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010600190.6A CN111488338B (zh) 2020-06-29 2020-06-29 应用于风控决策流的模型监控方法及装置
US17/229,016 US20210406790A1 (en) 2020-06-29 2021-04-13 Model monitoring method and equipment applied to risk control decision flow

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010600190.6A CN111488338B (zh) 2020-06-29 2020-06-29 应用于风控决策流的模型监控方法及装置

Publications (2)

Publication Number Publication Date
CN111488338A true CN111488338A (zh) 2020-08-04
CN111488338B CN111488338B (zh) 2020-09-18

Family

ID=71793795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010600190.6A Active CN111488338B (zh) 2020-06-29 2020-06-29 应用于风控决策流的模型监控方法及装置

Country Status (2)

Country Link
US (1) US20210406790A1 (zh)
CN (1) CN111488338B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036572A (zh) * 2020-08-28 2020-12-04 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114693459A (zh) * 2022-04-15 2022-07-01 北京百度网讯科技有限公司 基于金融场景的风险控制方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330785A (zh) * 2017-07-10 2017-11-07 广州市触通软件科技股份有限公司 一种基于大数据智能风控的小额贷款系统及方法
CN108985851A (zh) * 2018-07-24 2018-12-11 广州市丰申网络科技有限公司 基于大数据强化学习的广告分析与监控方法及装置
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统
US10346775B1 (en) * 2015-11-16 2019-07-09 Turbonomic, Inc. Systems, apparatus and methods for cost and performance-based movement of applications and workloads in a multiple-provider system
CN110009479A (zh) * 2019-03-01 2019-07-12 百融金融信息服务股份有限公司 信用评价方法及装置、存储介质、计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10346775B1 (en) * 2015-11-16 2019-07-09 Turbonomic, Inc. Systems, apparatus and methods for cost and performance-based movement of applications and workloads in a multiple-provider system
CN107330785A (zh) * 2017-07-10 2017-11-07 广州市触通软件科技股份有限公司 一种基于大数据智能风控的小额贷款系统及方法
CN108985851A (zh) * 2018-07-24 2018-12-11 广州市丰申网络科技有限公司 基于大数据强化学习的广告分析与监控方法及装置
CN110009479A (zh) * 2019-03-01 2019-07-12 百融金融信息服务股份有限公司 信用评价方法及装置、存储介质、计算机设备
CN109978680A (zh) * 2019-03-18 2019-07-05 杭州绿度信息技术有限公司 一种细分客群信贷业务风控差异化定价的风控方法和系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112036572A (zh) * 2020-08-28 2020-12-04 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置
CN112036572B (zh) * 2020-08-28 2024-03-12 上海冰鉴信息科技有限公司 基于文本列表的用户特征提取方法及装置

Also Published As

Publication number Publication date
CN111488338B (zh) 2020-09-18
US20210406790A1 (en) 2021-12-30

Similar Documents

Publication Publication Date Title
CN110505196B (zh) 物联网卡异常检测方法及装置
CN113872328B (zh) 基于神经网络的变电站远程智能巡检方法及系统
CN111488338B (zh) 应用于风控决策流的模型监控方法及装置
CN112697798B (zh) 面向红外图像的变电设备电流致热型缺陷的诊断方法和装置
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
CN113783931A (zh) 一种物联网数据聚合、分析方法
CN115395646A (zh) 一种数字孪生式牵引变电所智慧运维系统
CN115842847B (zh) 一种基于物联网的水表智能控制方法、系统及介质
CN116126807A (zh) 一种日志分析方法及相关装置
CN117688464B (zh) 一种基于多源传感器数据的隐患分析方法及系统
CN114707363A (zh) 用于配网工程管理的问题数据处理方法及系统
CN118280069A (zh) 一种基于gis的电网灾害监测及预警系统
CN117311295B (zh) 基于无线网络设备的生产质量提升方法及系统
CN117078213B (zh) 基于大数据整合分析的建筑工程管理平台
CN117610971A (zh) 一种高速公路机电系统健康指数评估方法
CN115933750B (zh) 基于数据处理的电力巡检方法及电力巡检系统
CN117117780A (zh) 基于变电站一二次信息融合的断路器防拒动方法及系统
CN116383298A (zh) 一种集团风险数据可视化展示方法及系统
CN115937800A (zh) 一种高速公路行为监控数据处理方法及系统
CN114358165A (zh) 基于多源数据融合的预防光伏组件接地故障的检测方法
CN113537087A (zh) 一种智慧交通信息处理方法、装置及服务器
CN117235519B (zh) 能源数据处理方法、装置及存储介质
CN118365476B (zh) 基于智慧燃气的企业信息监管方法、装置及物联网系统
CN118429605B (zh) 基于分析模型的设备异常分析方法
CN118447459B (zh) 基于深度学习的滑坡堆积体监控方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant