CN112966024A - 一种基于大数据的金融风控数据分析系统 - Google Patents

一种基于大数据的金融风控数据分析系统 Download PDF

Info

Publication number
CN112966024A
CN112966024A CN202110272719.0A CN202110272719A CN112966024A CN 112966024 A CN112966024 A CN 112966024A CN 202110272719 A CN202110272719 A CN 202110272719A CN 112966024 A CN112966024 A CN 112966024A
Authority
CN
China
Prior art keywords
data
information
analysis
loan
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110272719.0A
Other languages
English (en)
Inventor
言骏飞
郭毅可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Lunda Data Science And Technology Research Institute Co ltd
Original Assignee
Jiangsu Lunda Data Science And Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Lunda Data Science And Technology Research Institute Co ltd filed Critical Jiangsu Lunda Data Science And Technology Research Institute Co ltd
Priority to CN202110272719.0A priority Critical patent/CN112966024A/zh
Publication of CN112966024A publication Critical patent/CN112966024A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明公开了一种基于大数据的金融风控数据分析系统,包括智能采集单元、信息存储单元、数据分析单元和数据应用单元,于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,支持对采集信息的自动相关性过滤及结果展示,实现对元数据管理,数据标准及模型管理,依次消除信息二次加工的繁琐及非结构化信息的歧义,能有效地管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持,为授信额度提供有力地信息依据。

Description

一种基于大数据的金融风控数据分析系统
技术领域
本发明涉及一种金融信息数据管理系统,特别是一种基于大数据的金融风控数据分析系统。
背景技术
目前,金融领域的应用趋向数据信息化、结构化,而对于客户授信额度的信用评测同样是以客户大量的个人信息为评测基础,就当前而言,越来越多的金融网络平台、终端金融软件应运而生,令网络中产生大量的数据信息,如何利用这些金融数据作客户的风控评测是金融业内需要考虑的技术问题。
发明内容
为了克服现有技术的不足,本发明提供一种结构化、集成化的基于大数据的金融风控数据分析系统。
本发明解决其技术问题所采用的技术方案是:
一种基于大数据的金融风控数据分析系统,其特征在于它包括:
智能采集单元:用于采集贷款企业信息和贷款个人信息,该单元通过直连接口以及大数据接口分别对接Oracle数据库和Hadoop平台,实现数据的获取与采集。
信息存储单元:包括识别特征和信息数据库,用于读取、标记和分类存储智能采集单元采集的贷款企业信息和贷款个人信息,对贷款企业信息和贷款个人信息包含的所有结构化数据、半结构化数据以及非结构化数据进行结构化分层处理,达到对不同结构的数据源进行统一管理。
识别特征:包括个人信息特征、消费信息特征、社会地位信息特征、社交关系信息特征和信用信息特征。可实现对数据进行标准化及主题分类,结果是业务人员可理解的数据层。
信息数据库:包括基础数据层、数据整合层、数据拆分层和数据统计层。该层是实现对信息的血统分析功能的基础,包括:数据分析、跟踪和展现。
数据分析单元:用于接收分析指令,基于采集到的数据,通过分析数据之间的关系,以图形或网状图的方式直观的展现指定实体对全局的影响,如某特征或参数的变更将如何影响个人分析结果。另一方面,可以根据分析指令调用查询工具对信息数据库进行查询,并生成数据分析报表。
数据应用单元:用于输入分析指令以及接收数据分析单元发送的数据分析报表并输出。该输出以树形结构直观的展示元数据及分析数据之间的上下级关系,用户可直观了解数据的来源、相关关系和分析结果。
信息系统工作方式如下:
(1)、智能采集单元通过爬虫工具或ETL工具采集互联网上的贷款企业信息和贷款个人信息,并发送至信息存储单元。
(2)、信息存储单元的信息数据库接收贷款企业信息和贷款个人信息后放置在基础数据层。
(3)、基础数据层将接收贷款企业信息和贷款个人信息,完成对数据的相关性过滤及初步结构化处理,并发送至数据整合层。
(4)、数据整合层调用单个或多个识别特征对贷款企业信息和贷款个人信息进行主题域内的特征识别、分类,生成主题数据后发送至数据拆分层。
(5)、数据拆分层调用单个或多个识别特征对主题数据进行业务拆分,形成结构数据。
(6)、数据应用单元分别向数据分析单元和数据统计层传递分析指令,数据统计层根据分析指令内的应用需求对结构数据进行关联统计,形成需求数据。
(7)、数据分析单元根据分析指令调用查询工具,以需求数据为基础生成数据分析报表,并发送至数据应用单元进行报表输出。
所述智能采集单元采集数据的方式包括全量抽取和增量抽取,两者之间的切换指标为万份级。
所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构。
所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途。
所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构。
所述社交关系信息特征包括关联企业和关联账户。
所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。
所述查询工具为hIve工具。
本发明的有益效果是:本发明于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,依次消除信息二次加工的繁琐及非结构化信息的歧义,能有效地管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持,为授信额度提供有力地信息依据。
具体实施方式
一种基于大数据的金融风控数据分析系统,包括:
智能采集单元:用于采集贷款企业信息和贷款个人信息,该单元通过直连接口以及大数据接口分别对接Oracle数据库和Hadoop平台,实现数据的获取与采集。
信息存储单元:包括识别特征和信息数据库,用于接收和划分存储智能采集单元采集的贷款企业信息和贷款个人信息,对贷款企业信息和贷款个人信息包含的所有结构化数据、半结构化数据以及非结构化数据(即杂乱数据)进行结构化分层处理,达到对不同结构的数据源进行统一管理。
识别特征/设置参数:包括个人信息特征、消费信息特征、社会地位信息特征、社交关系信息特征和信用信息特征,可实现对数据进行标准化及主题分类,结果是业务人员可理解的数据层。
信息数据库:包括基础数据层、数据整合层、数据拆分层和数据统计层;该层是实现对信息的血统分析功能的基础,包括:数据分析、跟踪和展现。
数据分析单元:用于接收分析指令,基于采集到的数据,通过分析数据之间的关系,以图形或网状图的方式直观的展现指定实体对全局的影响,如某特征或参数的变更将如何影响个人分析结果。另一方面,可以根据分析指令调用查询工具对信息数据库进行查询,并生成数据分析报表。
数据应用单元:用于输入分析指令以及接收数据分析单元发送的数据分析报表并输出,该输出以树形结构直观的展示元数据及分析数据之间的上下级关系,用户可直观了解数据的来源、相关关系和分析结果。
所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构。
所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途。
所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构。
所述社交关系信息特征包括关联企业和关联账户。
所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。
本系统以大数据为基础(数据源为金融软件、经济网站、金融网站等)、机器学习及人工智能技术解决金融科技行业中大数据风控及大数据时代的个人征信的问题;利用对互联网大数据中的用户行为数据、用户消费数据、用户地理位置数据、互联网金融数据、用户社交等的数据搜集,构建金融知识图谱,以用来管理金融信用数据,为业务人员在客户的精准营销、尽职调查、贷后管理等环节提供工具支持。
信息系统工作方式如下:
(1)、智能采集单元通过公开的爬虫工具(如八爪鱼、集搜客)、API技术或ETL工具采集互联网上的贷款企业信息和贷款个人信息(支持图片、音频、视频等文件或附件的采集,附件与正文可以互相关联,能剔除清洗无关数据),也设置有直连接口和大数据接口,可对接Oracle数据库和Hadoop平台获取数据,并发送至信息存储单元,所述智能采集单元采集数据的方式包括全量抽取和增量抽取,两者之间的切换指标为万份级,即数据量为万份级以下的采集数据智能采集单元采用全量抽取方式,反之采用增量抽取,确保采集准确性的同时能有效地降低系统得数据处理压力。
(2)、信息存储单元的信息数据库接收贷款企业信息和贷款个人信息后放置在基础数据层。
(3)、基础数据层将接收的贷款企业信息和贷款个人信息,完成对数据的相关性过滤及初步结构化处理,并发送至数据整合层,可能存在以下数据内容:姓名、性别、出生年、联系方式、个人证件照、婚姻状况、消费能力、消费频率、购买渠道等、资金用途、现任职位、工作年限社会声誉、薪资水平、财产结构、关联企业、关联账户、存续期、贷款频次、信用卡数量、违约记录…。
(4)、数据整合层调用单个或多个识别特征对贷款企业信息和贷款个人信息进行主题域内的特征识别、分类,生成主题数据后发送至数据拆分层;如银行消费金融贷款中,记录有数据一:姓名、性别、出生年、家庭住址和家庭结构;数据二:消费能力、购买渠道和消费频率,则数据一被分为个人信息特征中;而对于步骤三所列举的数据被合并处理为个人消费者贷款信息:姓名,性别,出生年,联系方式,个人证件照,婚姻状况,消费能力,消费频率,购买渠道等,资金用途,现任职位,工作年限社会声誉,薪资水平,财产结构,联企业;关联账户,存续期,贷款频次,信用卡数量,是否发生过违约。
(5)、数据拆分层调用单个或多个识别特征对主题数据进行业务拆分,形成结构数据,对上步骤的数据进一步处理拆分以缓解后续计算压力,如姓名、性别、出生年、联系方式、个人证件照、婚姻状况…(个人信息);消费能力、消费频率、购买渠道等、资金用途…(消费信息);现任职位、工作年限社会声誉、薪资水平、财产结构…(社会地位信息);关联企业、关联账户…(社交关系信息);存续期、贷款频次、信用卡数量、违约记录…(信用信息)
(6)、数据应用单元分别向数据分析单元和数据统计层传递分析指令,数据统计层根据分析指令内的应用需求对结构数据进行关联统计,形成需求数据。
(7)、数据分析单元根据分析指令调用查询工具,以需求数据为基础生成数据分析报表,并发送至数据应用单元进行报表输出,为消费者进行应用信用评分时,将信息数据库所有信息进行关联统计,选取关联业务(如关联风险识别业务),统计个人消费者关联信息,与社会地位信息及社交关系信息关联统计,进行分析,通过这样的方式,将大量的数据进行关联,便可以解决不同场景的多种业务,也可以得到个人消费者金融的信息图谱,基于此金融信息图谱,便可对个人消费者的信用信息进行追踪审查,保障贷款安全,企业贷款信息则同理。
所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构;所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途;所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构;所述社交关系信息特征包括关联企业和关联账户;所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。
在本系统中,以linuxCentos7.3.1611作为系统环境,采用hadoop构建数据库,所述查询工具为hIve工具,用于对数据库进行管理,可以将结构化的数据文件映射为一张数据库表,并提供查询功能,可将语句转换为任务进行运行(hIve工具为hadoop的一个数据仓库辅助工具,为现有技术,不再作具体说明);整个系统于互联网大数据中采集非结构化、半结构化的数据信息,将其存储、统一并转化成结构化的、可用于对比分析的信息数据,依次消除信息二次加工的繁琐及非结构化信息的歧义,为授信额度提供有力地信息依据,通过申请数据和申请过程识别欺诈行为,通过社交网络关联挖掘失联人,检测关键指标预警财务运营状况。
以上的实施方式不能限定本发明创造的保护范围,专业技术领域的人员在不脱离本发明创造整体构思的情况下,所做的均等修饰与变化,均仍属于本发明创造涵盖的范围之内。

Claims (4)

1.一种基于大数据的金融风控数据分析系统,其特征在于它包括:
智能采集单元:用于采集贷款企业信息和贷款个人信息,该单元通过直连接口以及大数据接口分别对接Oracle数据库和Hadoop平台,实现数据的获取与采集;
信息存储单元:包括识别特征和信息数据库,用于读取、标记和分类存储智能采集单元采集的贷款企业信息和贷款个人信息,对贷款企业信息和贷款个人信息包含的所有结构化数据、半结构化数据以及非结构化数据进行结构化分层处理,达到对不同结构的数据源进行统一管理;
识别特征:包括个人信息特征、消费信息特征、社会地位信息特征、社交关系信息特征和信用信息特征;可实现对数据进行标准化及主题分类,结果是业务人员可理解的数据层;
信息数据库:包括基础数据层、数据整合层、数据拆分层和数据统计层;该层是实现对信息的血统分析功能的基础,包括:数据分析、跟踪和展现;
数据分析单元:用于接收分析指令,基于采集到的数据,通过分析数据之间的关系,以图形或网状图的方式直观的展现指定实体对全局的影响,如某特征或参数的变更将如何影响个人分析结果;另一方面,可以根据分析指令调用查询工具对信息数据库进行查询,并生成数据分析报表;
数据应用单元:用于输入分析指令以及接收数据分析单元发送的数据分析报表并输出;该输出以树形结构直观的展示元数据及分析数据之间的上下级关系,用户可直观了解数据的来源、相关关系和分析结果;
信息系统工作方式如下:
(1)、智能采集单元通过爬虫工具或ETL工具采集互联网上的贷款企业信息和贷款个人信息,并发送至信息存储单元;
(2)、信息存储单元的信息数据库接收贷款企业信息和贷款个人信息后放置在基础数据层;
(3)、基础数据层将接收贷款企业信息和贷款个人信息,完成对数据的相关性过滤及初步结构化处理,并发送至数据整合层;
(4)、数据整合层调用单个或多个识别特征对贷款企业信息和贷款个人信息进行主题域内的特征识别、分类,生成主题数据后发送至数据拆分层;
(5)、数据拆分层调用单个或多个识别特征对主题数据进行业务拆分,形成结构数据;
(6)、数据应用单元分别向数据分析单元和数据统计层传递分析指令,数据统计层根据分析指令内的应用需求对结构数据进行关联统计,形成需求数据;
(7)、数据分析单元根据分析指令调用查询工具,以需求数据为基础生成数据分析报表,并发送至数据应用单元进行报表输出。
2.根据权利要求1所述的基于大数据的金融风控数据分析系统,其特征在于所述智能采集单元采集数据的方式包括全量抽取和增量抽取,两者之间的切换指标为万份级。
3.根据权利要求1所述的基于大数据的金融风控数据分析系统,其特征在于所述个人信息特征包括姓名、性别、出生年、家庭住址和家庭结构;
所述消费信息特征包括消费能力、购买渠道、消费频率和资金用途;
所述社会地位信息特征包括现任职位、工作年限社会声誉、薪资水平和财产结构;
所述社交关系信息特征包括关联企业和关联账户;
所述信用信息特征包括存续期、贷款频次、信用卡数量和违约记录。
4.根据权利要求1所述的基于大数据的金融风控数据分析系统,其特征在于所述查询工具为hIve工具。
CN202110272719.0A 2021-03-12 2021-03-12 一种基于大数据的金融风控数据分析系统 Pending CN112966024A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110272719.0A CN112966024A (zh) 2021-03-12 2021-03-12 一种基于大数据的金融风控数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110272719.0A CN112966024A (zh) 2021-03-12 2021-03-12 一种基于大数据的金融风控数据分析系统

Publications (1)

Publication Number Publication Date
CN112966024A true CN112966024A (zh) 2021-06-15

Family

ID=76278194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110272719.0A Pending CN112966024A (zh) 2021-03-12 2021-03-12 一种基于大数据的金融风控数据分析系统

Country Status (1)

Country Link
CN (1) CN112966024A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996360A (zh) * 2022-07-20 2022-09-02 江西现代职业技术学院 数据分析方法、系统、可读存储介质及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124392A1 (en) * 2011-07-12 2013-05-16 Venkat Achanta Systems and methods for large-scale credit data processing
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN112435112A (zh) * 2019-08-26 2021-03-02 营利度富信息系统(上海)有限公司 一种针对小微企业的银行互联网信贷风控方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130124392A1 (en) * 2011-07-12 2013-05-16 Venkat Achanta Systems and methods for large-scale credit data processing
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法
CN112435112A (zh) * 2019-08-26 2021-03-02 营利度富信息系统(上海)有限公司 一种针对小微企业的银行互联网信贷风控方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何培育;: "基于互联网金融的大数据应用模式及价值研究", 中国流通经济, no. 05 *
陈惠娟;加云岗: "大数据时代下的信贷风险预警系统研究", 软件, no. 01, pages 39 - 44 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114996360A (zh) * 2022-07-20 2022-09-02 江西现代职业技术学院 数据分析方法、系统、可读存储介质及计算机设备
CN114996360B (zh) * 2022-07-20 2022-11-18 江西现代职业技术学院 数据分析方法、系统、可读存储介质及计算机设备

Similar Documents

Publication Publication Date Title
Das et al. Archival research: A neglected method in organization studies
US9299108B2 (en) Insurance claims processing
Phillips et al. Industry classification schemes: An analysis and review
CN103620601B (zh) 在映射缩减过程中汇合表
Lemieux et al. Meeting Big Data challenges with visual analytics: The role of records management
Rossi et al. Characterizing big data management
CN106164896B (zh) 用于发现对手方关系的多维递归方法及系统
CN111949643A (zh) 基于业务建模的数据处理方法及系统
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
CN113360676A (zh) 一种基于知识图谱确定企业潜在关系的方法及装置
Felicetti et al. Total quality management and corporate social responsibility: a systematic review of the literature and implications of the COVID-19 pandemics
CN107729330B (zh) 获取数据集的方法和装置
CN112966024A (zh) 一种基于大数据的金融风控数据分析系统
CN116483822B (zh) 业务数据预警方法、装置、计算机设备、存储介质
Ponelis et al. A descriptive framework of business intelligence derived from definitions by academics, practitioners and vendors
Azeroual et al. Putting FAIR principles in the context of research information: FAIRness for CRIS and CRIS for FAIRness
CN111882113A (zh) 一种企业手机银行用户的预测方法和装置
US20230088044A1 (en) End-to-end prospecting platform utilizing natural language processing to reverse engineer client lists
Darlington et al. Defining a framework for the evaluation of information
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
Idzalika et al. Big Data for Population and Social Policies
Mahalle et al. Data Acquisition and Preparation
Retrialisca et al. The maturity measurement of big data adoption in manufacturing companies using the TDWI maturity model
CA3137134A1 (en) Company size estimation system
Lonsdale et al. Cutting and pasting up:" Documents" and provenance in a complex work environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination