CN110134674B - 一种货币信贷大数据监测分析系统 - Google Patents

一种货币信贷大数据监测分析系统 Download PDF

Info

Publication number
CN110134674B
CN110134674B CN201910426935.9A CN201910426935A CN110134674B CN 110134674 B CN110134674 B CN 110134674B CN 201910426935 A CN201910426935 A CN 201910426935A CN 110134674 B CN110134674 B CN 110134674B
Authority
CN
China
Prior art keywords
data
client
report
processing
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910426935.9A
Other languages
English (en)
Other versions
CN110134674A (zh
Inventor
周晓强
李铀
廖凤华
王永强
李强
刘本定
王力
王岚
曾好
王达山
胡荣兴
邹肇辉
施瑀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
People's Bank Of China Chengdu Branch
Original Assignee
People's Bank Of China Chengdu Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People's Bank Of China Chengdu Branch filed Critical People's Bank Of China Chengdu Branch
Priority to CN201910426935.9A priority Critical patent/CN110134674B/zh
Publication of CN110134674A publication Critical patent/CN110134674A/zh
Application granted granted Critical
Publication of CN110134674B publication Critical patent/CN110134674B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

本发明中公开了一种货币信贷大数据监测分析系统,包括:客户端;包括客户终端及运行在客户终端上的软件客户端,用于导入各金融机构经营数据,并对导入的数据进行采集、清洗、校验和归整处理;服务端;服务端分别连接客户端和数据端,用于客户端、数据端与服务端之间的业务逻辑处理和数据处理;数据端;用于实现对采集和处理后的数据进行分布式入库存储,并为服务端的数据提取和查询提供高速访问引擎。本发明可解决现有货币信贷管理和数据分析业务中存在的覆盖面不广、扩展性不强、灵活性不够以及时效性较差、安全性低等问题,可实现对货币政策、信贷政策数据的采集和大数据处理,实现对货币政策、信贷政策数据的高效利用和监测。

Description

一种货币信贷大数据监测分析系统
技术领域
本发明涉及金融大数据分析技术领域,特别涉及一种货币信贷大数据监测分析系统。
背景技术
近年来,随着金融业的快速发展,金融机构数量、形态、金融业务内容、金融产品、工具、市场都呈多元化扩张之势,金融服务已渗透到社会经济生活各方面,影响力和依赖度与日俱增。由此导致货币信贷政策的传导路径不断调整,对人民银行货币信贷政策执行提出了更高、更新的要求,需要加强对金融机构流动性状况、货币政策工具运用效果、信贷资金投向及变化趋势、信贷政策落实情况、货币市场运行情况等的监测、分析和预警,需要利用更加高效、便捷的手段加强对金融市场的管理。
然而现有货币信贷管理和数据分析虽有十余个业务系统,但存在业务覆盖面不广,部分监测分析工作仍需通过人工进行;扩展性不强,不能适应货币信贷业务的快速发展;灵活性不够,不能根据业务需要自由采集和分析数据;时效性较差,不能随时掌握银行机构报送情况并加以督促;安全性不高,容易受到网络攻击等问题,因此货币信贷部门迫切需要建设一个延伸至人民银行中心支行、银行机构,完整涵盖各业务需要,以适应不断变化的货币信贷工作需要的大数据处理系统。
发明内容
本发明的目的在于解决现有货币政策、信贷政策管理和数据分析业务中存在的覆盖面不广、扩展性不强、灵活性不够以及时效性较差、安全性低等问题,提供一种货币信贷大数据监测分析系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种货币信贷大数据监测分析系统,包括:
客户端;包括客户终端及运行在客户终端上的软件客户端,用于导入各金融机构经营数据,通过设置采集指标、处理逻辑和校验公式对导入的数据进行采集、清洗和校验处理,并将采集、清洗、校验后的数据处理成颗粒化数据后归整到数据端,所述数据导入方式包括文本导入、压缩上传;
所述数据采集处理为采用数据爬虫根据设置的采集指标,从导入的数据中爬取需要的数据;
所述数据清洗处理采用以下步骤:a1)设置数据处理的处理逻辑,对所采集数据中的空缺值进行填充处理;a2)设置数据处理的处理逻辑,对所采集数据中的异常值进行删除处理;a3)设置数据处理的处理逻辑,对采集数据中的重复值进行删除;
所述数据校验处理包括前置校验和后置校验;所述前置校验包括对导入数据中的每个字段关联相应的校验规则,校验规则包括数据类型、逻辑关系、字典关系,根据设定的校验规则对导入数据的数据类型、逻辑关系、字典关系进行校验;所述后置校验为通过后台对不符合检验规则而强行上传的数据进行的软性校验,软性校验根据数据的校验情况给出相应的提示信息,提示信息返回至导入数据的客户端;
服务端;服务端分别连接客户端和数据端,用于客户端、数据端与服务端之间的业务逻辑处理和数据处理,包括对客户端的调配和管理、对数据端大数据的接收和直接载入;
数据端;用于实现对采集和处理后的数据进行分布式入库存储,并为服务端的数据提取和查询提供高速访问引擎;数据端采用基于Hadoop的大数据处理架构;
所述数据的分布式入库存储包括以下步骤:b1)在数据端的Hbase数据库中创建对应各客户端的Hbase表;b2)数据端接收采集的数据,根据获取的数据和客户端的客户终端数据生成rowkey;b3)将客户端的客户终端数据、获取的数据和生成的rowkey存储至Hbase数据库中对应的Hbase表中;b4)按照步骤b2)、b3)依次循环操作,将客户端采集的数据依次存储至Hbase数据库;
所述数据的提取和查询包括以下步骤:客户端向数据端发起查询申请,将Spark根据查询申请中包含的查询条件提取Hbase数据库中的数据并存入弹性分布式数据集;数据端利用Spark内存计算技术对弹性分布式数据集进行处理,提取和查询结果数据,将结果数据传输至客户端。
上述技术方案中,进一步地,所述客户端设置有安全模块,所述安全模块包括身份鉴别模块、访问控制模块;
所述身份鉴别模块用于对登录用户的身份进行鉴别,身份鉴别模块中预存有登录用户的唯一标识信息;
所述访问控制模块用于根据配置的访问控制策略控制用户对数据端的访问,所述访问控制策略由授权主体进行配置。
上述技术方案中,进一步地,所述客户端包括银行机构客户端、人民银行分行客户端、人民银行中心支行客户端;
所述银行机构客户端包括有报表处理、统计概览、贫困户查询、信息交流、公告浏览、天府融通和系统设置业务子模块;
所述人民银行分行客户端包括有报表自报、报表接收、报送情况、数据查询、贫困户查询、报表统计、报表预警、固定报表、重点项目、数据直查、信息交流、公告浏览、天府融通、统计设计、系统更新、地区管理、机构管理、用户管理业务子模块;
所述人民银行中心支行客户端包括有报表处理、报表接收、报表转报、报送情况、数据查询、贫困户查询、报表统计、报表分级统计、报表预警、固定报表、信息交流、公告浏览、天府融通、统计设计、统计分级设计、用户管理、系统设置业务子模块。
上述技术方案中,进一步地,所述报表设计模块用于在客户端上根据需要自由定制数据结构、数据字典、校验方法、显示界面、报表模板、导入方式;统计设计模块用于在客户端上根据需要自由定制数据统计的统计方法、统计结果呈现方式、可视化展示方式。
上述技术方案中,进一步地,所述客户端还包括有业务报告生成模块,业务报告生成模块采用报表模板与标签结合的方法自动生成业务报告。
上述技术方案中,进一步地,所述数据端数据分布式入库存储的操作步骤b3)中,还包括有以下步骤:将步骤b2)中生成的rowkey离散化,建立新的rowkey,将客户端的客户终端数据、获取的数据和生成的新的rowkey存储至Hbase数据库中对应的Hbase表中。
上述技术方案中,进一步地,所述数据端数据分布式入库存储的操作步骤中还包括有以下步骤:b5)各客户端创建新的作业并将数据复制到Hbase数据库,作业管理节点将各客户端的作业分割成不同的子任务,并将各子任务集中存储建立任务集,通过多个处理单元分别对任务集中的各子任务分别进行处理,子任务在各处理单元中经Map任务处理和Reduce任务处理后分别向Hbase返回中间值和最终结果。
上述技术方案中,进一步地,所述rowkey包括监控数据指标和时间戳字段,所述数据端进行数据分布式入库存储时,在rowkey中将时间戳字段移开或添加其它字段作为前缀,采用组合rowkey的方法让递增的时间戳字段在rowkey中的位置自动后移。
上述技术方案中,进一步地,所述服务端采用应用服务器,数据端采用具有Hadoop的大数据分布式架构的大数据服务器,所述人民银行分行客户端、人民银行中心支行客户端通过人民银行业务内网与应用服务器连接,所述银行机构客户端通过路由器连接到硬件防火墙,所述路由器通过金融城市网的网线连接到硬件防火墙的网络接口端,硬件防火墙通过其控制器与应用服务器连接,所述应用服务器与大数据服务器连接。
上述技术方案中,进一步地,所述硬件防火墙的网络接口端连接有电磁继电器,硬件防火墙上连接有声光报警器。
本发明所具有的有益效果:
1)业务处理大数据化;系统依托Hadoop的大数据处理架构,构建实现了完整的货币信贷大数据采集和应用体系;同时系统在核心层、组件层和应用层均针对大数据处理作了优化和特别设计,有效解决了大数据在采集、传输、存储、挖掘和应用等环节的拥堵、淤塞、迟滞现象,实现了大数据在平台的高效流转、自由处理和充分利用,为各客户端运用大数据扩大数据来源、提升分析手段、拓展共享渠道、提高履职能力提供了强有力的支撑。
2)计算资源分布化;数据端在Hadoop上实现了分布式数据存储和计算;服务端采用“客户端模拟计算节点”的模式,合理分配了计算资源;将大数据的采集、清洗、校验、归整以及查询数据的再加工、呈现组装等放在客户端进行,从而减轻了应用服务器负荷,优化了网络数据传输效率,提升了用户体验。应用服务器采用虚拟化技术,可根据大数据的吞吐情况动态调整软硬件资源,解决数据处理高峰期资源不足的问题。
3)系统架构层叠化;系统对数据库访问、基础业务逻辑实现、大数据处理、客户端调配管理、负载均衡等功能进行了全面优化,形成轻量高效的架构核心;将人民银行主要业务需求提炼、归纳为众多松耦合、高复用的服务模块,围绕架构核心构建坚实的组件层;利用功能强大的组件,快速实现各类复杂的需求,形成直接服务业务工作的应用系统。系统采用开放性、层叠化的架构设计,有效提升了模块的复用能力,大幅降低了顶层业务应用的开发复杂度,使系统具有扩展性强、适应性广、灵活性高的特点,能够通过搭积木的方式快速叠代系统,实现敏捷开发、即时部署和快速迭代。
4)服务调用接口化;系统提供自主开发的应用中间件,以此屏蔽大量底层细节,降低了模块间的耦合度,增强对运行环境的适配性,简化应用系统的开发。同时,系统将底层服务接口化,通过应用程序接口(API)为应用层提供标准的基础功能调用,并为对接金融机构业务系统提供支持。
5)系统架构成熟、运行稳定、安全可靠,具有强大的报表设计和处理、清晰的分层次数据操作、丰富的数据和图表展示、高效的数据查询和统计、便捷的信息交流和发布、可靠的程序更新和迭代、稳定的大数据网络架构和优良的功能拓展和重用,可满足货币信贷大数据监测和分析的需要。
6)通过设置硬件防火墙作为银行机构客户端与应用服务器之间的桥梁,其可以对网络攻击进行防护,当检测到网络攻击时控制电磁继电器使网线接口脱离硬件防火墙的控制器,进而使应用服务器脱离网络攻击,同时硬件防火墙还可以通过声光报警器发送报警信号,进行声光报警。
附图说明
图1为本发明货币信贷大数据监测分析系统整体架构图。
图2为本发明货币信贷大数据监测分析系统硬件结构框图。
图3为本发明货币信贷大数据监测分析系统数据端大数据处理架构图。
图4为本发明货币信贷大数据监测分析系统逻辑架构图。
图5为本发明货币信贷大数据监测分析系统数据端数据分布式入库存储处理流程框图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
如图1,本发明中的货币信贷大数据监测分析系统,包括:
客户端;包括客户终端及运行在客户终端上的软件客户端,用于导入各金融机构经营数据,通过设置采集指标、处理逻辑和校验公式对导入的数据进行采集、清洗和校验处理,并将采集、清洗、校验后的数据处理成颗粒化数据后归整到数据端,所述数据导入方式包括文本导入、压缩上传;
所述数据采集处理为采用数据爬虫根据设置的采集指标,从导入的数据中爬取需要的数据;
所述数据清洗处理采用以下步骤:a1)设置数据处理的处理逻辑,对所采集数据中的空缺值进行填充处理;a2)设置数据处理的处理逻辑,对所采集数据中的异常值进行删除处理;a3)设置数据处理的处理逻辑,对采集数据中的重复值进行删除;
所述数据校验处理包括前置校验和后置校验;所述前置校验包括对导入数据中的每个字段关联相应的校验规则,校验规则包括数据类型、逻辑关系、字典关系,根据设定的校验规则对导入数据的数据类型、逻辑关系、字典关系进行校验;所述后置校验为通过后台对不符合检验规则而强行上传的数据进行的软性校验,软性校验根据数据的校验情况给出相应的提示信息,提示信息返回至导入数据的客户端;
服务端;服务端分别连接客户端和数据端,用于客户端、数据端与服务端之间的业务逻辑处理和数据处理,包括对客户端的调配和管理、对数据端大数据的接收和直接载入;
数据端;用于实现对采集和处理后的数据进行分布式入库存储,并为服务端的数据提取和查询提供高速访问引擎;数据端采用基于Hadoop的大数据处理架构。
客户端包括银行机构客户端、人民银行分行客户端、人民银行中心支行客户端,通过系统的管理权限设置,为不同的客户端配置不同的功能使用、操作权限。
银行机构客户端包括有报表处理、统计概览、贫困户查询、信息交流、公告浏览、天府融通和系统设置业务子模块;
人民银行分行客户端包括有报表自报、报表接收、报送情况、数据查询、贫困户查询、报表统计、报表预警、固定报表、重点项目、数据直查、信息交流、公告浏览、天府融通、统计设计、系统更新、地区管理、机构管理、用户管理业务子模块;
人民银行中心支行客户端包括有报表处理、报表接收、报表转报、报送情况、数据查询、贫困户查询、报表统计、报表分级统计、报表预警、固定报表、信息交流、公告浏览、天府融通、统计设计、统计分级设计、用户管理、系统设置业务子模块。
在数据采集实现过程中,用户可通过客户端自主设计添加需要报送的任务,包括报表任务和报告任务,可采用定期报表、无限期报表、方块表、台账等形式,数据导入方式可采用直接填报或导入PDF、Excel和文本文件等。
数据采集为采用数据爬虫从指定的业务系统中爬取需要的信息数据。数据的爬取可分地区分别进行爬取;爬取的数据可按法人机构、机构类型或按地区进行汇总。
所述报表设计模块用于在客户端上根据需要自由定制数据结构、数据字典、校验方法、显示界面、报表模板、导入方式;统计设计模块用于在客户端上根据需要自由定制数据统计的统计方法、统计结果呈现方式、可视化展示方式。
所述客户端还包括有业务报告生成模块,业务报告生成模块采用报表模板与标签结合的方法自动生成业务报告。
通过客户端数据进行查询时,客户端可对数据进行再次加工后使其能以设定的形式在客户端上进行呈现。客户端上数据的查询、下载、管理、分析功能采用数据仓库模块来实现。数据仓库模块包括ODS管理单元、DW管理单元、DM管理单元、BI分析单元。
其中,ODS管理单元用于对已入库的原始数据进行查询,依据报送期次、对象、地区、指标等要素来调取报表或者报表部分指标项。DW管理单元可实现设计、结果管理两方面的功能,其中设计管理功能允许用户进行ETL设计;结果管理功能用于对DW层的表进行查询、导出;可以根据业务分析需要自己手动生成中间表;删除有问题的中间表。DW管理单元包括报表设计模块和结果管理模块,其中报表设计模块通过建立一个统计设计器,可以建立对单表的简单查询同时生成固定报表。查询主要包括:列表查询和分组查询。列表查询:对单期增项类报表进行数据罗列并形成汇总报表。分组查询:依据指定的查询条件(如期次、机构、地区、指标等)、计算公式等查询调取报表或报表的步伐指标,其中查询条件可灵活设置,查询条件可以为单一条件,也可以是组合条件。结果管理模块用于显示统计设计生成的固定报表并以适当形式对数据进行可视化。BI分析单元,用于实现用户通过第三方分析工具,对库内数据进行查询、计算、可视化分析。
客户端设置有安全模块,所述安全模块包括身份鉴别模块、访问控制模块,用于对登录到客户端的用户进行身份信息认证,认证通过后才能允许登录到客户端。
身份鉴别模块用于对登录用户的身份进行鉴别,身份鉴别模块中预存有登录用户的唯一标识信息。采用用户身份鉴别、用户身份标识唯一性检查、用户身份鉴别信息复杂度检查及登录失败处理功能,并根据安全策略配置相关参数,实现对登录用户的身份验证安全控制。
访问控制模块用于根据配置的访问控制策略控制用户对文件、数据库的访问,所述访问控制策略由授权主体进行配置。访问控制的覆盖范围包括与资源访问相关的主体、客体及它们之间的操作;并授予不同账户为完成各自承担任务所需的最小权限,并在它们之间形成相互制约的关系。
如图4所示,系统采用三层逻辑架构,包括:
基础层;所述基础层包括网络传输、网络状态侦测、负载均衡、并发和多线程处理、HTTP上传下载、消息广播和回叫、数据组装和解析、加密解密、压缩解压、大数据架构调用及管理、分布式计算协调、图形图表展示、格式数据读写组件;
组件层;所述组件层包括数据格式设计、报表设计、报表分发、多格式大数据采集和上报、多维度多层数据校验和归整、数据接收和情况概览、多样化图表展示、数据查询、数据归并、数据统计定义和汇总表生成、预警定义和执行、批量生成图表集、备案流程定义和实现、Excel读写和呈现、Word读写和呈现、总行报表自动生成、服务端导入数据、点对点信息传递、公告发布和阅读、日志记录、用户管理、机构管理组件;
应用层;所述应用层包括通用模块组合、专有模块和组接代码,以满足具体的业务需求,实现应用程序的快速开发。
采用三层逻辑架构,系统实现了强大的报表设计和处理、清晰的分层次数据操作、丰富的数据和图表展示、高效的数据查询和统计、便捷的信息交流和发布、可靠的程序更新和迭代、稳定的大数据网络架构和优良的功能拓展和重用,全面实现了各项业务功能。
如图2所示为系统硬件结构框图,服务端采用应用服务器,数据端采用具有Hadoop的大数据分布式架构的大数据服务器,所述人民银行分行客户端、人民银行中心支行客户端通过人民银行业务内网与应用服务器连接,所述银行机构客户端通过路由器连接到硬件防火墙,所述路由器通过金融城市网的网线连接到硬件防火墙的网络接口端,硬件防火墙通过其控制器与应用服务器连接,所述应用服务器与大数据服务器连接。硬件防火墙的网络接口端连接有电磁继电器,硬件防火墙上连接有声光报警器。通过设置硬件防火墙作为银行机构客户端与应用服务器之间的桥梁,其可以对网络攻击进行防护,当检测到网络攻击时控制电磁继电器使网线接口脱离硬件防火墙的控制器,进而使应用服务器脱离网络攻击,同时硬件防火墙还可以向声光报警器发送报警信号,进行声光报警。
系统采用C/S架构,使用HTTP和TCP/IP网络协议进行通信,以保证人民银行分行客户端、人民银行中心支行客户端以及银行机构客户端能高效访问应用服务器。通过人民银行分行客户端、人民银行中心支行客户端、银行机构客户端可进行货币信贷大数据的采集,然后通过与应用服务器对接的开放性接口,将处理后的数据整理入库。
应用服务器用于大数据的接收、数据处理、网络传输;应用服务器与具有Hadoop大数据分布式架构的大数据服务器互连。如图3,本实施例中具有Hadoop大数据分布式架构的大数据服务器由Hadoop、Spark和多个组件构成,主要实现大数据库数据的分布式存储,并为应用服务器提供高速访问引擎。具有Hadoop大数据分布式架构的大数据服务器的组件包括Hbase、Zookeeper、Hive、Impala、Pig、Sqoop组件等。大数据服务器基于Hadoop,Hadoop是开源的分布式架构,其核心由可存储大数据的分布式文件系统HDFS和为大数据提供计算的MapReduce构成,并有Hbase、Zookeeper、Hive、Impala、Pig、Sqoop等组件提供性能增强和功能扩展,更有支持数据流和内存计算的高速通用数据处理引擎Spark为其助力,具有高可靠性、高扩展性、高效性、高容错性、支持流式数据和一致性模型、集群可运行在低成本硬件等优点,能够很好地适配货币信贷大数据监测分析系统的技术要求。
所述数据的分布式入库存储包括以下步骤:b1)在数据端的Hbase数据库中创建对应各客户端的Hbase表;b2)数据端接收采集的数据,根据获取的数据和客户端的客户终端数据生成rowkey;b3)将客户端的客户终端数据、获取的数据和生成的rowkey存储至Hbase数据库中对应的Hbase表中;b4)按照步骤b2)、b3)依次循环操作,将客户端采集的数据依次存储至Hbase数据库;
如图5,所述数据端数据分布式入库存储的操作步骤b3)中,还包括有以下步骤:将步骤b2)中生成的rowkey离散化,建立新的rowkey,将客户端的客户终端数据、获取的数据和生成的新的rowkey存储至Hbase数据库中对应的Hbase表中。
所述数据端数据分布式入库存储的操作步骤中还包括有以下步骤:b5)各客户端创建新的作业并将数据复制到Hbase数据库,作业管理节点将各客户端的作业分割成不同的子任务,并将各子任务集中存储建立任务集,通过多个处理单元分别对任务集中的各子任务分别进行处理,子任务在各处理单元中经Map任务处理和Reduce任务处理后分别向Hbase返回中间值和最终结果。
所述rowkey包括监控数据指标和时间戳字段,所述数据端进行数据分布式入库存储时,在rowkey中将时间戳字段移开或添加其它字段作为前缀,采用组合rowkey的方法让递增的时间戳字段在rowkey中的位置自动后移。
其中,所述数据的提取和查询包括以下步骤:客户端向数据端发起查询申请,将Spark根据查询申请中包含的查询条件提取Hbase数据库中的数据并存入弹性分布式数据集;数据端利用Spark内存计算技术对弹性分布式数据集进行处理,提取和查询结果数据,将结果数据传输至客户端。
在Hadoop大数据服务器对数据进行处理时,通过采用上述存储和处理模式,可提高Hbase数据库的存储效率,采用宽表存储结构方式提高了数据读取速度,通过MapReduce处理对数据进行统计分析,可解决服务器计算处理瓶颈问题,进一步提高整个系统的数据监测、分析、处理效率。
系统采用具有Hadoop大数据分布式架构的大数据服务器,依托Hadoop,构建实现了完整的货币信贷大数据采集和应用体系,可实现大数据在平台的高效流转、自由处理和充分利用,为业务部门运用大数据扩大数据来源、提升分析手段、拓展共享渠道、提高履职能力提供了强有力的技术支撑。
本发明的说明书和附图被认为是说明性的而非限制性的,在本发明基础上,本领域技术人员根据所公开的技术内容,不需要创造性的劳动就可以对其中一些技术特征做出一些替换和变形,均在本发明的保护范围内。

Claims (8)

1.一种货币信贷大数据监测分析系统,其特征在于,包括:
客户端;包括客户终端及运行在客户终端上的软件客户端,用于导入各金融机构经营数据,通过设置采集指标、处理逻辑和校验公式对导入的数据进行采集、清洗和校验处理,并将采集、清洗、校验后的数据处理成颗粒化数据后归整到数据端,所述数据导入方式包括文本导入、压缩上传;
所述数据采集处理为采用数据爬虫根据设置的采集指标,从导入的数据中爬取需要的数据;
所述数据清洗处理采用以下步骤:a1)设置数据处理的处理逻辑,对所采集数据中的空缺值进行填充处理;a2)设置数据处理的处理逻辑,对所采集数据中的异常值进行删除处理;a3)设置数据处理的处理逻辑,对采集数据中的重复值进行删除;
所述数据校验处理包括前置校验和后置校验;所述前置校验包括对导入数据中的每个字段关联相应的校验规则,校验规则包括数据类型、逻辑关系、字典关系,根据设定的校验规则对导入数据的数据类型、逻辑关系、字典关系进行校验;所述后置校验为通过后台对不符合检验规则而强行上传的数据进行的软性校验,软性校验根据数据的校验情况给出相应的提示信息,提示信息返回至导入数据的客户端;
服务端;服务端分别连接客户端和数据端,用于客户端、数据端与服务端之间的业务逻辑处理和数据处理,包括对客户端的调配和管理、对数据端大数据的接收和直接载入;
数据端;用于实现对采集和处理后的数据进行分布式入库存储,并为服务端的数据提取和查询提供高速访问引擎;数据端采用基于Hadoop的大数据处理架构;
数据的分布式入库存储包括以下步骤:b1)在数据端的Hbase数据库中创建对应各客户端的Hbase表;b2)数据端接收采集的数据,根据获取的数据和客户端的客户终端数据生成rowkey;b3)将客户端的客户终端数据、获取的数据和生成的rowkey存储至Hbase数据库中对应的Hbase表中;b4)按照步骤b2)、b3)依次循环操作,将客户端采集的数据依次存储至Hbase数据库;
数据的提取和查询包括以下步骤:客户端向数据端发起查询申请,将Spark根据查询申请中包含的查询条件提取Hbase数据库中的数据并存入弹性分布式数据集;数据端利用Spark内存计算技术对弹性分布式数据集进行处理,提取和查询结果数据,将结果数据传输至客户端;
所述客户端包括银行机构客户端、人民银行分行客户端、人民银行中心支行客户端;
所述银行机构客户端包括有报表处理、统计概览、贫困户查询、信息交流、公告浏览、天府融通和系统设置业务子模块;
所述人民银行分行客户端包括有报表自报、报表接收、报送情况、数据查询、贫困户查询、报表统计、报表预警、固定报表、重点项目、数据直查、信息交流、公告浏览、天府融通、统计设计、系统更新、地区管理、机构管理、用户管理业务子模块;
所述人民银行中心支行客户端包括有报表处理、报表接收、报表转报、报送情况、数据查询、贫困户查询、报表统计、报表分级统计、报表预警、固定报表、信息交流、公告浏览、天府融通、统计设计、统计分级设计、用户管理、系统设置业务子模块;
所述服务端采用应用服务器,数据端采用具有Hadoop的大数据分布式架构的大数据服务器,所述人民银行分行客户端、人民银行中心支行客户端通过人民银行业务内网与应用服务器连接,所述银行机构客户端通过路由器连接到硬件防火墙,所述路由器通过金融城市网的网线连接到硬件防火墙的网络接口端,硬件防火墙通过其控制器与应用服务器连接,所述应用服务器与大数据服务器连接。
2.根据权利要求1所述的货币信贷大数据监测分析系统,其特征在于,所述客户端设置有安全模块,所述安全模块包括身份鉴别模块、访问控制模块;
所述身份鉴别模块用于对登录用户的身份进行鉴别,身份鉴别模块中预存有登录用户的唯一标识信息;
所述访问控制模块用于根据配置的访问控制策略控制用户对数据端的访问,所述访问控制策略由授权主体进行配置。
3.根据权利要求1所述的货币信贷大数据监测分析系统,其特征在于,报表设计模块用于在客户端上根据需要自由定制数据结构、数据字典、校验方法、显示界面、报表模板、导入方式;统计设计模块用于在客户端上根据需要自由定制数据统计的统计方法、统计结果呈现方式、可视化展示方式。
4.根据权利要求1所述的货币信贷大数据监测分析系统,其特征在于,所述客户端还包括有业务报告生成模块,业务报告生成模块采用报表模板与标签结合的方法自动生成业务报告。
5.根据权利要求1所述的货币信贷大数据监测分析系统,其特征在于,数据端数据分布式入库存储的操作步骤b3)中,还包括有以下步骤:将步骤b2)中生成的rowkey离散化,建立新的rowkey,将客户端的客户终端数据、获取的数据和生成的新的rowkey存储至Hbase数据库中对应的Hbase表中。
6.根据权利要求5所述的货币信贷大数据监测分析系统,其特征在于,数据端数据分布式入库存储的操作步骤中还包括有以下步骤:b5)各客户端创建新的作业并将数据复制到Hbase数据库,作业管理节点将各客户端的作业分割成不同的子任务,并将各子任务集中存储建立任务集,通过多个处理单元分别对任务集中的各子任务分别进行处理,子任务在各处理单元中经Map任务处理和Reduce任务处理后分别向Hbase返回中间值和最终结果。
7.根据权利要求5所述的货币信贷大数据监测分析系统,其特征在于,所述rowkey包括监控数据指标和时间戳字段,所述数据端进行数据分布式入库存储时,在rowkey中将时间戳字段移开或添加其它字段作为前缀,采用组合rowkey的方法让递增的时间戳字段在rowkey中的位置自动后移。
8.根据权利要求1所述的货币信贷大数据监测分析系统,其特征在于,所述硬件防火墙的网络接口端连接有电磁继电器,硬件防火墙上连接有声光报警器。
CN201910426935.9A 2019-05-22 2019-05-22 一种货币信贷大数据监测分析系统 Active CN110134674B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910426935.9A CN110134674B (zh) 2019-05-22 2019-05-22 一种货币信贷大数据监测分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910426935.9A CN110134674B (zh) 2019-05-22 2019-05-22 一种货币信贷大数据监测分析系统

Publications (2)

Publication Number Publication Date
CN110134674A CN110134674A (zh) 2019-08-16
CN110134674B true CN110134674B (zh) 2022-09-13

Family

ID=67571985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910426935.9A Active CN110134674B (zh) 2019-05-22 2019-05-22 一种货币信贷大数据监测分析系统

Country Status (1)

Country Link
CN (1) CN110134674B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795152B (zh) * 2019-11-04 2023-11-03 三亚学院 一种基于金融数据处理的时间调节系统
CN111047431A (zh) * 2019-12-11 2020-04-21 深圳微众信用科技股份有限公司 一种基于大数据的信贷业务处理装置、方法及设备
CN111062012B (zh) * 2019-12-13 2023-04-18 深圳迅策科技有限公司 一种基于图像识别的金融集成交收系统
CN111181786B (zh) * 2019-12-30 2022-06-10 杭州东方通信软件技术有限公司 用户反馈故障信息处理方法、设备、服务器和存储介质
CN111507820A (zh) * 2020-04-08 2020-08-07 上海金仕达软件科技有限公司 一种网格化金融风控智能系统
CN111914255B (zh) * 2020-07-14 2024-03-22 北京人人云图信息技术有限公司 一种基于行为特征的半自动反爬系统
CN112269808B (zh) * 2020-11-17 2024-03-19 携程旅游网络技术(上海)有限公司 引擎查询控制方法、系统、设备及存储介质
CN112416918B (zh) * 2020-11-20 2024-04-26 移通科技(杭州)有限公司 数据治理系统及其工作方法
CN112486710B (zh) * 2020-12-17 2021-07-09 浙江盘石信息技术股份有限公司 基于大数据和人工智能的信息采集方法及数字内容服务平台
CN113138963A (zh) * 2021-04-28 2021-07-20 东北大学 铝/铜板带材工业大数据平台人机交互系统
CN113420009B (zh) * 2021-06-02 2022-03-25 军事科学院系统工程研究院网络信息研究所 一种基于大数据的电磁数据分析装置、系统及方法
CN115438183B (zh) * 2022-08-31 2023-07-04 广州宝立科技有限公司 基于自然语言处理的业务网站监测系统
CN117252676B (zh) * 2023-11-20 2024-02-02 成都新希望金融信息有限公司 业务处理方法、装置、电子设备和指标策略系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184642A (zh) * 2015-09-02 2015-12-23 浪潮软件集团有限公司 一种综合治税平台
CN106649496A (zh) * 2016-10-10 2017-05-10 国信优易数据有限公司 一种政务数据采集共享系统与方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190132350A1 (en) * 2017-10-30 2019-05-02 Pricewaterhousecoopers Llp System and method for validation of distributed data storage systems

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105184642A (zh) * 2015-09-02 2015-12-23 浪潮软件集团有限公司 一种综合治税平台
CN106649496A (zh) * 2016-10-10 2017-05-10 国信优易数据有限公司 一种政务数据采集共享系统与方法
CN107273409A (zh) * 2017-05-03 2017-10-20 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统

Also Published As

Publication number Publication date
CN110134674A (zh) 2019-08-16

Similar Documents

Publication Publication Date Title
CN110134674B (zh) 一种货币信贷大数据监测分析系统
US10560465B2 (en) Real time anomaly detection for data streams
US11397744B2 (en) Systems and methods for data storage and processing
CN109286676B (zh) 一种基于区块链的电力数据安全信息系统
CN107103064B (zh) 数据统计方法及装置
CN105574082A (zh) 基于Storm的流处理方法及系统
CN105809356A (zh) 一种基于应用集成云平台的信息系统资源管理方法
US9992269B1 (en) Distributed complex event processing
CN107798037A (zh) 用户特征数据的获取方法及服务器
CN112150266B (zh) 一种智能合约预言机设计原则
CN111694555A (zh) 业务系统构建方法、装置、电子设备及存储介质
EP3274952A1 (en) A document verification system
CN104104702A (zh) 面向家庭物联网的云计算架构
CN104240070A (zh) 一种数据发布服务系统和方法
CN112017007A (zh) 用户行为数据的处理方法及装置、计算机设备、存储介质
CN109255587A (zh) 一种工作数据的协同处理方法及装置
US20220247818A1 (en) Systems and methods for recording an indeterministic transaction on a distributed ledger network
Bhuyan et al. Crime predictive model using big data analytics
CN113721856A (zh) 一种数字化社区管理数据存储系统
Fardbastani et al. Business process monitoring via decentralized complex event processing
CN109165748B (zh) 一种it信息资产管理系统
CN109474706B (zh) 一种数据安全集中服务方法和系统
CN116303713A (zh) 一种基于区块链和基因组学的热带作物种质资源溯源方法
CN110759191B (zh) 基于5g智慧园区电梯控制方法
US11582345B2 (en) Context data management interface for contact center

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant