CN111414291A - 一种风控系统完备性监控方法和系统 - Google Patents

一种风控系统完备性监控方法和系统 Download PDF

Info

Publication number
CN111414291A
CN111414291A CN201910010474.7A CN201910010474A CN111414291A CN 111414291 A CN111414291 A CN 111414291A CN 201910010474 A CN201910010474 A CN 201910010474A CN 111414291 A CN111414291 A CN 111414291A
Authority
CN
China
Prior art keywords
data
characteristic data
diff
classification system
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910010474.7A
Other languages
English (en)
Inventor
支亚君
郭安
王业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhirong Network Technology Co ltd
Original Assignee
Beijing Zhirong Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhirong Network Technology Co ltd filed Critical Beijing Zhirong Network Technology Co ltd
Priority to CN201910010474.7A priority Critical patent/CN111414291A/zh
Publication of CN111414291A publication Critical patent/CN111414291A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种风控系统完备性监控方法和系统,方法包括:基于在线分类系统对数据源进行特征计算,并提取第一特征数据;将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据;获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。通过每日定时模拟离线计算过程,并将计算的特征与在线系统的计算结果进行对比,以此发现离线风控系统的完备性问题。

Description

一种风控系统完备性监控方法和系统
技术领域
本发明属于一种监控系统,尤其是指一种用于风控系统完备性的监控方法和系统。
背景技术
风控系统中,对于真实性以及完备性的要求比较高。
目前,传统方式采用数据源、算子单独监控,由于数据源比较繁多且算子逻辑问题的难以察觉,导致很多情况无法起到监控的效果,直接影响了离线风控系统的真实性。
发明内容
本发明所要解决的技术问题是提供一种风控系统完备性监控方法和系统。
本发明解决上述技术问题所采取的技术方案如下:
一种风控系统完备性监控方法,包括:
基于在线分类系统对数据源进行特征计算,并提取第一特征数据;
将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据;
获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
优选的是,所述数据源中包括:用户年龄、性别和工作所在地信息。
优选的是,基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
优选的是,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
优选的是,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
一种风控系统完备性监控系统,包括:
在线分类系统,用于对数据源进行特征计算,并提取第一特征数据;
数据收集和数据存储系统,用于将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
离线分类系统,用于对所述数据源进行特征计算,并得到第二特征数据;
数据展示和比较系统,用于获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
优选的是,所述数据源中包括:用户年龄、性别和工作所在地信息。
优选的是,所述离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
优选的是,所述数据展示和比较系统,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
优选的是,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
本发明绕过每个数据源的监控和算子的稳定性校验,通过每日定时模拟离线计算过程,并将计算的特征与在线系统的计算结果进行对比,以此发现离线风控系统的完备性问题。同时,使用spark分布式计算系统来提升计算效率,提升了监控的可行性和时效性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是本发明风控系统完备性监控方法的流程示意图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一:
如图1所示,一种风控系统完备性监控方法,包括:
基于在线分类系统对数据源进行特征计算,并提取第一特征数据;
将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据;
获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
优选的是,所述数据源中包括:用户年龄、性别和工作所在地信息。
优选的是,基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
优选的是,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
优选的是,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
其中,本发明采取了上述方案以后,具有以下的有益效果:
1、通过每日定时模拟离线计算过程,缩短了监控路径,提升了数据完整性监控的效果和监控成本
2、通过将模拟计算的结果与真是结果的差异进行对比,提升了数据正确性监控的效果
3、通过使用spark分布式计算系统,提升了监控的时效性。
实施例二:
其中,结合实施例对上述方法进行说明,具体来说,本发明包括:
1、数据统一备份。对在线分类系统用到的数据源,如:用户年龄,性别,工作所在地等信息,以及在线分类系统提取出的特征数据进行收集,并按照统一的格式存储在离线专用的数据库中。
2、离线特征计算。根据步骤1所收集到的数据,对样本重新进行特征计算。进而得到在离线系统中还原出的样本特征信息。此过程中使用了spark分布式计算系统来进行并行计算,具有很高的时效性。
3、特征结果对比。将第2步在离线系统中计算出的特征与第1步收集的在线分类器提取的特征进行对比。
4、特征比对结果分析展示。将第3步的对比结果统计分析,例如区分哪些特征存在diff,diff的比例是多少,哪些是新增的diff等。通过观察diff结果以及diff的变化趋势,达到完备性监控的目的。
实施例三:
与上述方法相对应,本发明还提供了一种风控系统完备性监控系统,包括:
在线分类系统,用于对数据源进行特征计算,并提取第一特征数据;
数据收集和数据存储系统,用于将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
离线分类系统,用于对所述数据源进行特征计算,并得到第二特征数据;
数据展示和比较系统,用于获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
优选的是,所述数据源中包括:用户年龄、性别和工作所在地信息。
优选的是,所述离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
优选的是,所述数据展示和比较系统,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
优选的是,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
本发明绕过每个数据源的监控和算子的稳定性校验,通过每日定时模拟离线计算过程,并将计算的特征与在线系统的计算结果进行对比,以此发现离线风控系统的完备性问题。同时,使用spark分布式计算系统来提升计算效率,提升了监控的可行性和时效性。
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种风控系统完备性监控方法,其特征在于,包括:
基于在线分类系统对数据源进行特征计算,并提取第一特征数据;
将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据;
获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
2.根据权利要求1所述的风控系统完备性监控方法,其特征在于,所述数据源中包括:用户年龄、性别和工作所在地信息。
3.根据权利要求1或2所述的风控系统完备性监控方法,其特征在于,基于离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
4.根据权利要求1或2所述的风控系统完备性监控方法,其特征在于,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
5.根据权利要求1或2所述的风控系统完备性监控方法,其特征在于,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
6.一种风控系统完备性监控系统,其特征在于,包括:
在线分类系统,用于对数据源进行特征计算,并提取第一特征数据;
数据收集和数据存储系统,用于将上述数据源和第一特征数据进行收集,并按照统一的格式存储在离线分类系统中的数据库中;
离线分类系统,用于对所述数据源进行特征计算,并得到第二特征数据;
数据展示和比较系统,用于获取上述第一特征数据和第二特征数据,并由此进行数据展示和/或数据分析;
其中,所述在线分类系统和离线分类系统采用相同的数据处理方法和算法。
7.根据权利要求6所述的风控系统完备性监控系统,其特征在于,所述数据源中包括:用户年龄、性别和工作所在地信息。
8.根据权利要求6或7所述的风控系统完备性监控系统,其特征在于,所述离线分类系统,对所述数据源进行特征计算,并得到第二特征数据,是基于spark分布式计算系统来进行并行计算。
9.根据权利要求6或7所述的风控系统完备性监控系统,其特征在于,所述数据展示和比较系统,获取上述第一特征数据和第二特征数据,并由此进行数据分析,包括:
获取上述第一特征数据和第二特征数据,两者进行比较diff计算;
区分哪些特征存在diff、diff的比例是多少、哪些是新增的diff、通过观察diff结果以及diff的变化趋势。
10.根据权利要求6或7所述的风控系统完备性监控系统,其特征在于,上述数据源,为每日的数据源;
基于每日定时计算并比较在线分类系统的第一特征数据和离线分类系统中的第二特征数据,实现风控系统完备性监控。
CN201910010474.7A 2019-01-07 2019-01-07 一种风控系统完备性监控方法和系统 Pending CN111414291A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910010474.7A CN111414291A (zh) 2019-01-07 2019-01-07 一种风控系统完备性监控方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910010474.7A CN111414291A (zh) 2019-01-07 2019-01-07 一种风控系统完备性监控方法和系统

Publications (1)

Publication Number Publication Date
CN111414291A true CN111414291A (zh) 2020-07-14

Family

ID=71492556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910010474.7A Pending CN111414291A (zh) 2019-01-07 2019-01-07 一种风控系统完备性监控方法和系统

Country Status (1)

Country Link
CN (1) CN111414291A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374195A (zh) * 2022-07-25 2022-11-22 北京数美时代科技有限公司 一种离线风控管理方法、系统、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039637A1 (en) * 2015-08-05 2017-02-09 Telefonica Digital Espana, S.L.U. Computer-implemented method, a system and computer program products for assessing the credit worthiness of a user
CN106447434A (zh) * 2016-09-14 2017-02-22 全联征信有限公司 个人信用生态平台
CN107491885A (zh) * 2017-08-25 2017-12-19 上海找钢网信息科技股份有限公司 一种用于钢贸金融业务的风控平台及风险控制管理方法
CN108287913A (zh) * 2018-02-07 2018-07-17 霍尔果斯智融未来信息科技有限公司 一种数据可回溯的大规模离散型特征挖掘的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170039637A1 (en) * 2015-08-05 2017-02-09 Telefonica Digital Espana, S.L.U. Computer-implemented method, a system and computer program products for assessing the credit worthiness of a user
CN106447434A (zh) * 2016-09-14 2017-02-22 全联征信有限公司 个人信用生态平台
CN107491885A (zh) * 2017-08-25 2017-12-19 上海找钢网信息科技股份有限公司 一种用于钢贸金融业务的风控平台及风险控制管理方法
CN108287913A (zh) * 2018-02-07 2018-07-17 霍尔果斯智融未来信息科技有限公司 一种数据可回溯的大规模离散型特征挖掘的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李旭瑞;邱雪涛;赵金涛;胡奕;: "基于流式聚类及增量隐马尔可夫模型的实时反欺诈系统", 计算机工程, no. 06, pages 11122 - 129 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374195A (zh) * 2022-07-25 2022-11-22 北京数美时代科技有限公司 一种离线风控管理方法、系统、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN102314460B (zh) 数据分析方法、系统及服务器
CN111967910A (zh) 一种用户客群分类方法和装置
GB2496009A (en) Anomaly detection in images and videos
WO2014157056A1 (ja) ソースプログラム解析システム、ソースプログラム解析方法およびプログラムを記録した記録媒体
CN117056688A (zh) 一种基于数据分析的新材料生产数据管理系统及方法
CN111639077A (zh) 数据治理方法、装置、电子设备、存储介质
CN111414291A (zh) 一种风控系统完备性监控方法和系统
CN102546235B (zh) 云计算环境下面向web应用的性能诊断方法和系统
CN108376140A (zh) 基于模糊匹配的政务数据梳理方法及装置
CN111831545A (zh) 测试用例生成方法、生成装置、计算机设备和存储介质
CN104331507B (zh) 机器数据类别自动发现和分类的方法及装置
CN112559641B (zh) 拉链表的处理方法及装置、可读存储介质、电子设备
CN111382343B (zh) 一种标签体系生成方法及装置
CN113312482A (zh) 问题分类方法、装置、电子设备及可读存储介质
CN112732925A (zh) 基于图谱的确定投资数据的方法、存储介质及相关设备
KR20150077669A (ko) 맵리듀스 방식을 이용한 데이터 분석 방법 및 시스템
CN104937559B (zh) 标志访问缺陷检查装置和标志访问缺陷检查方法
US20130143192A1 (en) Method for calculating students' time spent answering questions in an on-line homework system
CN110504006A (zh) 一种处理扩增子数据的方法、系统、平台及存储介质
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN116595102B (zh) 一种改进聚类算法的大数据管理方法及系统
CN114912818B (zh) 资产指标分析方法、装置、设备及存储介质
CN202736114U (zh) 基于业务规则技术的智慧档案管理系统
CN118246422A (zh) 自动生成人力资源数据报表的方法和系统
CN114841608A (zh) 维度数据调整方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200714