CN109300042A - 一种基于大数据的风控系统 - Google Patents

一种基于大数据的风控系统 Download PDF

Info

Publication number
CN109300042A
CN109300042A CN201811055965.5A CN201811055965A CN109300042A CN 109300042 A CN109300042 A CN 109300042A CN 201811055965 A CN201811055965 A CN 201811055965A CN 109300042 A CN109300042 A CN 109300042A
Authority
CN
China
Prior art keywords
data
platform
air control
big data
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811055965.5A
Other languages
English (en)
Inventor
张彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Financial Information Technology Co Ltd
Original Assignee
Guangzhou Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Financial Information Technology Co Ltd filed Critical Guangzhou Financial Information Technology Co Ltd
Priority to CN201811055965.5A priority Critical patent/CN109300042A/zh
Publication of CN109300042A publication Critical patent/CN109300042A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的风控系统,包括由数据库服务器和应用程序服务器组成的物理层、由结构化数据和非结构化数据组成的数据源、由MongoDB数据管理平台和ETL数据调度平台组成的数据储存层、由数据挖掘和数据重排组成的数据分析层、由大数据风控模型和大数据风控平台组成的应用层,包括以下流程:挖掘数据、机器学习、研究假设、建立大数据风控模型和完成面向用户的互联网金融平台风险监测预警平台的搭建。有益效果在于:通过数据每日自动更新,实现对互联网金融企业的实时监测预警;通过构建出一个准确、有效的互联网金融平台风险预警模型,从而从多种角度展现互联网金融企业的风险状况。

Description

一种基于大数据的风控系统
技术领域
本发明涉及金融风险控制领域,具体涉及一种基于大数据的风控系统。
背景技术
互联网金融的发展可以很好地满足中小微企业、创新型企业及中低收入阶层个人的投融资需求,为“大众创新,万众创业”营造良好的资本环境;但另一方面,互联网金融在创新发展过程中也暴露出大量的问题及隐患。其不仅严重危害了人民的财产安全,也有碍互联网金融的健康发展。因此,实现有效地监测到潜在的具有高风险的平台就显得极为重要,需要一种可以面向用户具有银行级风控保障的互联网金融风险控制系统,从而有效的降低互联网金融平台的投资风险。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于大数据的风控系统,旨在实现对互联网金融企业的实时监测预警,并构建出一个准确、有效的互联网金融平台风险预警模型,从而从多种角度展现互联网金融企业的风险状况。
本发明通过以下技术方案来实现上述目的:
一种基于大数据的风控系统,最终的目标是搭建出可以面向用户的互联网金融风险控制系统,包括由数据库服务器和应用程序服务器组成的物理层、由结构化数据和非结构化数据组成的数据源、由MongoDB数据管理平台和ETL数据调度平台组成的数据储存层、由数据挖掘和数据重排组成的数据分析层、由大数据风控模型和大数据风控平台组成的应用层,
所述基于大数据的风控系统包括以下流程:
首先,挖掘数据:包括所述文本挖掘和所述数据重排;在基于大数据建模时,原始数据中包含了大量的新闻报道、社交文本等所述非结构化数据,运用所述文本挖掘和所述数据排重对数据进行结构化处理,整理为所述结构化数据;
然后,机器学习:利用所述机器学习对数据预处理后的大量特征字段进行反复的训练,以从各式各样的海量数据中找出真正与平台高风险相关的指标及精准的预警模型;
第三,研究假设:分析当前互联网金融平台出现风险的原因,提出以下4条假设:
(1)运营数据异常程度与平台风险呈正相关;
(2)网络负面舆情数量与平台风险呈正相关;
(3)平台及相关法人信用状况与平台风险呈负相关;
(4)平台背景实力与平台风险呈负相关;
第四,建立所述大数据风控模型,包括以下步骤:
(1)数据采集;
(2)数据预处理;
(3)模型构建与优化;
(4)预警平台功能展示;
第五,完成面向用户的互联网金融平台风险监测预警平台的搭建。
优选的,文本挖掘是运用相应的文本挖掘技术对数据进行排重、分词、分类等一系列的结构化处理。
优选的,数据排重,指根据词语的抗篡改能力及语义信息等特征生成词语指纹,然后根据词语指纹对不同文本进行检测以排除相似性文档。
优选的,模型构建与优化基于Spark分布式计算平台,利用所述机器学习方法选取多种模型来对训练样本集进行训练,并通过测试样本集对其准确性进行检验,最终通过对原始数据字段及数据预处理的反复调整以期得出一个最优的互联网金融平台风险预警模型。
优选的,所述物理层选用符合云计算REST service标准的硬件平台。
优选的,大数据风控平台在获取大量的有效数据后储存于所述MongoDB数据库中,所述MongoDB数据库仅用来储存需要经常访问的基础用户数据,根据不同业务对数据的需求差异这就需要使用ETL定期加工相应的数控库表。
优选的,所述Spark分布式计算平台是基于MapReduce的新一代大数据分析框架,吸收了MapReduce框架的所有优点,Spark将计算的中间结果数据存储在内存中,通过减少磁盘I/0,使后续的数据运算效率更高。
优选的,所述数据储存层采用标准JSON接口,JSON是一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性,可在不同平台之间进行数据交换;JSON采用兼容性很高的文本格式,同时也具备类似于C语言体系的行为。
有益效果在于:通过将模型的建立与大数据相结合,并借助于自动文本采集技术,使得以上模型搭建的预警平台通过数据每日自动更新,实现对互联网金融企业的实时监测预警;通过Spark分布式计算、文本挖掘等技术来建立更加全面的指标体,并利用机器学习的方法对采集到的多维度历史数据进行反复的训练与改进,以构建出一个准确、有效的互联网金融平台风险预警模型,从而从多种角度展现互联网金融企业的风险状况。
附图说明
图1是本发明所述一种基于大数据的风控系统的结构示意图;
图2是本发明所述一种基于大数据的风控系统的流程示意图;
图3是本发明所述一种基于大数据的风控系统的建模流程示意图。
附图标记说明如下:
1、物理层;11、数据库服务器;12、应用程序服务器;2、数据源;21、结构化数据;22、非结构化数据;3、数据储存层;31、MongoDB数据管理平台;32、ETL数据调度平台;4、数据分析层;41、文本挖掘;42、数据重排;43、机器学习;44、研究假设;5、应用层;51、大数据风控模型;511、数据采集;512、数据预处理;513、训练样本模型;514、模型改进;515、优化模型;516、测试样本;517、预警平台功能展示;52、大数据风控平台。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
如图1-图3所示,一种基于大数据的风控系统,最终的目标是搭建出可以面向用户的互联网金融风险控制系统,包括由数据库服务器11和应用程序服务器12组成的物理层1、由结构化数据21和非结构化数据22组成的数据源2、由MongoDB数据管理平台31和ETL数据调度平台32组成的数据储存层3、由数据挖掘41和数据重排42组成的数据分析层4、由大数据风控模型51和大数据风控平台52组成的应用层5,
本发明的较佳实施例,基于大数据的风控系统包括以下流程:
首先,挖掘数据:包括文本挖掘41和数据重排42;在基于大数据建模时,原始数据中包含了大量的新闻报道、社交文本等非结构化数据22,运用文本挖掘41和数据排重42对数据进行结构化处理,整理为结构化数据21;
然后,机器学习43:利用机器学习43对数据预处理512后的大量特征字段进行反复的训练,以从各式各样的海量数据中找出真正与平台高风险相关的指标及精准的预警模型;
第五,研究假设44:分析当前互联网金融平台出现风险的原因,提出以下4条假设:
(1)运营数据异常程度与平台风险呈正相关;
(2)网络负面舆情数量与平台风险呈正相关;
(3)平台及相关法人信用状况与平台风险呈负相关;
(4)平台背景实力与平台风险呈负相关;
第六,建立大数据风控模型,包括以下步骤:
(1)数据采集511;
(2)数据预处理512;
(3)模型构建与优化;
(4)预警平台功能展示517;
第五,完成面向用户的互联网金融平台风险监测预警平台的搭建。
具体的,本实施例中,文本挖掘41是运用相应的文本挖掘技术对数据进行排重、分词、分类等一系列的结构化处理。
具体的,本实施例中,数据排重42,指根据词语的抗篡改能力及语义信息等特征生成词语指纹,然后根据词语指纹对不同文本进行检测以排除相似性文档。
具体的,本实施例中,模型构建与优化基于Spark分布式计算平台,利用机器学习方法选取多种模型来对训练样本集进行训练,并通过测试样本集对其准确性进行检验,最终通过对原始数据字段及数据预处理的反复调整以期得出一个最优的互联网金融平台风险预警模型。
具体的,本实施例中,物理层1选用符合云计算REST service标准的硬件平台。
具体的,本实施例中,大数据风控平台52在获取大量的有效数据后储存于MongoDB数据库中,MongoDB数据库仅用来储存需要经常访问的基础用户数据,根据不同业务对数据的需求差异这就需要使用ETL定期加工相应的数控库表。
具体的,本实施例中,Spark分布式计算平台是基于MapReduce的新一代大数据分析框架,吸收了MapReduce框架的所有优点,Spark将计算的中间结果数据存储在内存中,通过减少磁盘I/0,使后续的数据运算效率更高。
具体的,本实施例中,数据储存层3采用标准JSON接口,JSON是一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性,可在不同平台之间进行数据交换;JSON采用兼容性很高的文本格式,同时也具备类似于C语言体系的行为。
本发明的较佳实施例中,建模过程:首先是运用不同的方法对大量原始数据进行采集,然后需要对其进行缺失值修补、异常值检测等一系列的数据预处理,使原始数据格式规范统一,以满足训练模型的要求;接着将处理后的数据分成训练样本和测试样本两部分,将训练样本带入多种模型进行机器学习,同时利用测试样本来验证不同模型的准确性,并通过增减原始字段及进一步的数据预处理来不断优化改进模型的准确性;最后则是平台功能实现的展示。
本发明的较佳实施例中,大数据风控平台可以实现两方面的功能:(1)对互联网金融平台平台所面临的风险进行实时全面的评分,并针对其风险状况生成详细的风险分析报告,以为其风险的后续应对工作提供必要的建议措施;(2)多维度地展现行业整体风险情况,如将平台按地区、时间、类型等不同内容进行风险分类统计,以清晰直观的方式满足不同用户的多样化需求。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其效物界定。

Claims (8)

1.一种基于大数据的风控系统,其特征在于:包括由数据库服务器和应用程序服务器组成的物理层、由结构化数据和非结构化数据组成的数据源、由MongoDB数据管理平台和ETL数据调度平台组成的数据储存层、由数据挖掘和数据重排组成的数据分析层、由大数据风控模型和大数据风控平台组成的应用层;
所述基于大数据的风控系统包括以下流程:
首先,挖掘数据:包括所述文本挖掘和所述数据重排;在基于大数据建模时,原始数据中包含了大量的新闻报道、社交文本等所述非结构化数据,运用所述文本挖掘和所述数据排重对数据进行结构化处理,整理为所述结构化数据;
然后,机器学习:利用所述机器学习对数据预处理后的大量特征字段进行反复的训练,以从各式各样的海量数据中找出真正与平台高风险相关的指标及精准的预警模型;
第三,研究假设:分析当前互联网金融平台出现风险的原因,提出以下4条假设:
(1)运营数据异常程度与平台风险呈正相关;
(2)网络负面舆情数量与平台风险呈正相关;
(3)平台及相关法人信用状况与平台风险呈负相关;
(4)平台背景实力与平台风险呈负相关;
第四,建立所述大数据风控模型,包括以下步骤:
(1)数据采集;
(2)数据预处理;
(3)模型构建与优化;
(4)预警平台功能展示;
第五,完成面向用户的互联网金融平台风险监测预警平台的搭建。
2.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:文本挖掘是运用相应的文本挖掘技术对数据进行排重、分词、分类等一系列的结构化处理。
3.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:数据排重,指根据词语的抗篡改能力及语义信息等特征生成词语指纹,然后根据词语指纹对不同文本进行检测以排除相似性文档。
4.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:模型构建与优化基于Spark分布式计算平台,利用所述机器学习方法选取多种模型来对训练样本集进行训练,并通过测试样本集对其准确性进行检验,最终通过对原始数据字段及数据预处理的反复调整以期得出一个最优的互联网金融平台风险预警模型。
5.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:所述物理层选用符合云计算REST service标准的硬件平台。
6.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:大数据风控平台在获取大量的有效数据后储存于所述MongoDB数据库中,所述MongoDB数据库仅用来储存需要经常访问的基础用户数据,根据不同业务对数据的需求差异这就需要使用ETL定期加工相应的数控库表。
7.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:所述Spark分布式计算平台是基于MapReduce的新一代大数据分析框架,吸收了MapReduce框架的所有优点,Spark将计算的中间结果数据存储在内存中,通过减少磁盘I/0,使后续的数据运算效率更高。
8.根据权利要求1所述的一种基于大数据的风控系统,其特征在于:所述数据储存层采用标准JSON接口,JSON是一种轻量级的数据交换格式,具有良好的可读和便于快速编写的特性,可在不同平台之间进行数据交换;JSON采用兼容性很高的文本格式,同时也具备类似于C语言体系的行为。
CN201811055965.5A 2018-09-11 2018-09-11 一种基于大数据的风控系统 Pending CN109300042A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811055965.5A CN109300042A (zh) 2018-09-11 2018-09-11 一种基于大数据的风控系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811055965.5A CN109300042A (zh) 2018-09-11 2018-09-11 一种基于大数据的风控系统

Publications (1)

Publication Number Publication Date
CN109300042A true CN109300042A (zh) 2019-02-01

Family

ID=65166856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811055965.5A Pending CN109300042A (zh) 2018-09-11 2018-09-11 一种基于大数据的风控系统

Country Status (1)

Country Link
CN (1) CN109300042A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840267A (zh) * 2019-03-01 2019-06-04 成都品果科技有限公司 一种数据etl系统及方法
CN110532158A (zh) * 2019-09-03 2019-12-03 南方电网科学研究院有限责任公司 操作数据的安全评估方法、装置、设备及可读存储介质
CN110648217A (zh) * 2019-09-08 2020-01-03 贵州普惠链电子商务有限公司 基于大数据和人工智能的风控系统
CN111402048A (zh) * 2020-03-11 2020-07-10 杭州首新网络科技有限公司 一种可对海量金融大数据处理的智能风控系统
CN112508677A (zh) * 2020-11-06 2021-03-16 无锡艺界科技有限公司 一种基于大数据风控的金融系统
CN114162106A (zh) * 2021-12-24 2022-03-11 大秦铁路股份有限公司科学技术研究所 一种重载车辆制动智能监测系统和方法
CN114625747A (zh) * 2022-05-13 2022-06-14 杭银消费金融股份有限公司 基于信息安全的风控更新方法及系统
CN114817681A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种基于大数据分析的金融风控系统及其管理设备
CN114997588A (zh) * 2022-05-05 2022-09-02 深圳市星火电子工程公司 一种金融企业风险识别预警方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956770A (zh) * 2016-05-03 2016-09-21 中国科学院大学 一种股市风险预测平台及其文本挖掘方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840267B (zh) * 2019-03-01 2023-04-21 成都品果科技有限公司 一种数据etl系统及方法
CN109840267A (zh) * 2019-03-01 2019-06-04 成都品果科技有限公司 一种数据etl系统及方法
CN110532158A (zh) * 2019-09-03 2019-12-03 南方电网科学研究院有限责任公司 操作数据的安全评估方法、装置、设备及可读存储介质
CN110532158B (zh) * 2019-09-03 2024-01-19 南方电网科学研究院有限责任公司 操作数据的安全评估方法、装置、设备及可读存储介质
CN110648217A (zh) * 2019-09-08 2020-01-03 贵州普惠链电子商务有限公司 基于大数据和人工智能的风控系统
CN111402048A (zh) * 2020-03-11 2020-07-10 杭州首新网络科技有限公司 一种可对海量金融大数据处理的智能风控系统
CN112508677A (zh) * 2020-11-06 2021-03-16 无锡艺界科技有限公司 一种基于大数据风控的金融系统
CN114162106A (zh) * 2021-12-24 2022-03-11 大秦铁路股份有限公司科学技术研究所 一种重载车辆制动智能监测系统和方法
CN114162106B (zh) * 2021-12-24 2024-05-03 大秦铁路股份有限公司科学技术研究所 一种重载车辆制动智能监测系统和方法
CN114817681A (zh) * 2022-04-28 2022-07-29 北京辰行科技有限公司 一种基于大数据分析的金融风控系统及其管理设备
CN114997588A (zh) * 2022-05-05 2022-09-02 深圳市星火电子工程公司 一种金融企业风险识别预警方法及系统
CN114625747B (zh) * 2022-05-13 2022-08-12 杭银消费金融股份有限公司 基于信息安全的风控更新方法及系统
CN114625747A (zh) * 2022-05-13 2022-06-14 杭银消费金融股份有限公司 基于信息安全的风控更新方法及系统

Similar Documents

Publication Publication Date Title
CN109300042A (zh) 一种基于大数据的风控系统
Saad et al. Twitter sentiment analysis based on ordinal regression
WO2020000847A1 (zh) 一种基于新闻大数据的恐慌指数监测分析方法及系统
CN104820629B (zh) 一种智能的舆情突发事件应急处理系统及方法
CN106599065B (zh) 一种基于Storm分布式框架的食品安全网络舆情预警系统
CN112650848A (zh) 基于文本语义相关乘客评价的城铁舆情信息分析方法
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN103886501B (zh) 一种基于语义情感分析的贷后风险预警系统
CN110442728A (zh) 基于word2vec汽车产品领域的情感词典构建方法
CN105138577A (zh) 一种基于大数据的事件演化分析方法
Dong et al. Micro-blog social moods and Chinese stock market: The influence of emotional valence and arousal on Shanghai Composite Index volume
Guo et al. A survey of internet public opinion mining
Zhang Application of data mining technology in digital library.
CN109101551A (zh) 一种问答知识库的构建方法及装置
Li et al. Artificial Intelligence-Based Sustainable Development of Smart Heritage Tourism
Duong et al. Neurosymbolic AI for mining public opinions about wildfires
CN107798137B (zh) 一种基于可加模型的多源异构数据融合架构系统
Zhao et al. Application of Smart City Construction in a New Data Environment
Zhañay et al. A Text Mining Approach to Discover Real-Time Transit Events from Twitter
Cetera et al. Potential for the use of large unstructured data resources by public innovation support institutions
Xu et al. Web mining for financial market prediction based on online sentiments
Kang et al. PG-CODE: Latent dirichlet allocation embedded policy knowledge graph for government department coordination
CN112668836B (zh) 一种面向风险图谱的关联风险证据高效挖掘与监控方法和装置
Liu et al. Research on the Spillover Effect of China’s Carbon Market from the Perspective of Regional Cooperation
CN108830735B (zh) 一种线上人际关系分析方法与系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190201