CN113485989A - 一种监管数据的综合分析方法、系统、介质和设备 - Google Patents

一种监管数据的综合分析方法、系统、介质和设备 Download PDF

Info

Publication number
CN113485989A
CN113485989A CN202110752012.XA CN202110752012A CN113485989A CN 113485989 A CN113485989 A CN 113485989A CN 202110752012 A CN202110752012 A CN 202110752012A CN 113485989 A CN113485989 A CN 113485989A
Authority
CN
China
Prior art keywords
data
supervision
analysis
profile
dimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110752012.XA
Other languages
English (en)
Inventor
刘文勇
韦东杰
席新鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110752012.XA priority Critical patent/CN113485989A/zh
Publication of CN113485989A publication Critical patent/CN113485989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种监管数据的综合分析方法、系统、介质和设备,该方法包括:获取监管源数据;对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;根据所述数据仓库获得监管数据概况;对所述监管数据概况进行多维度分析,获得监管源数据的多维度分析结果;响应于查询指令,展示所述监管数据概况和所述监管源数据的多维度分析结果。本发明实施例的综合分析系统实现了数据的多维度的全量分析,对以往新需求的变化以及数据的多样性展现以及企业全维度的企业画像展现,大大提升了系统的需求分析可扩展性。

Description

一种监管数据的综合分析方法、系统、介质和设备
技术领域
本发明涉及大数据分析领域,具体涉及一种监管数据的综合分析方法、系统、介质和设备。
背景技术
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
传统的综合分析系统,人工整合数据,分析总结,得出结论的方式工作量大,主观因素影响大,无法统一判断标准,并且,数据来源比较单一,分析的维度不够丰富,数 据展现形式不够直观,难以提供较好的用户体验。
发明内容
有鉴于此,本发明实施例的目的在于提供一种监管数据的综合分析方法、系统、介质和设备,以实现监管数据的多维度的全量分析,对监管数据进行多样性展现,提升用 户体验。
第一方面,本发明实施例提供了一种监管数据的综合分析方法,其包括:
获取监管源数据;
对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
根据所述数据仓库获得监管数据概况;
对所述监管数据概况进行多维度分析,获得监管源数据的多维度分析结果;
响应于查询指令,展示所述监管数据概况和所述监管源数据的多维度分析结果。
在一些可能的实施方式中,所述获取监管源数据的步骤可以包括:
从不同地域或不同行政管理部门的多个数据库中获取监管源数据;其中,所述数据 库的类型包括:oralce或mysql;所述多个数据库包括如下中的任意多个:监管目录清单库、监管对象库、监管行为库、投诉举报库、信用信息库、互联网舆情库、知识库。
在一些可能的实施方式中,所述的对所述监管源数据进行数据抽取、数据清洗和数 据整合,形成数据仓库的步骤具体可以包括:
在Hadoop平台上以spark、hive、或者hdfs对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库。
在一些可能的实施方式中,所述的根据所述数据仓库获得监管数据概况的步骤可以 包括:
根据各个监管数据的类型数据,基于大数据分析型数据仓库kylin建立分析模型;
在Hadoop平台上根据所述分析模型对监管数据进行建模全维度分析,形成监管数据 概况;其中,所述监管数据概况包括如下中的任意多种:监管事项、监管对象、监管行为、投诉举报、信用分类、网络舆情。
在一些可能的实施方式中,所述的对所述监管数据概况进行多维度分析,获得监管 源数据的多维度分析结果的步骤可以包括:
对包括监管对象、监管事项、监管行为在内的监管数据进行多维度专题分析,并将分析结果存储在Hadoop平台的数据库HBASE中。
在一些可能的实施方式中,所述响应于查询指令,展示所述监管数据概况和所述监 管数据的多维度分析结果的步骤可以包括:
响应于查询指令,对所述监管数据概况和所述监管数据的多维度分析结果进行可视 化处理,获得可视化图表,并且显示所述可视化图表。
在一些可能的实施方式中,所述的对所述监管数据概况进行多维度分析,获得监管 数据的多维度分析结果的步骤可以包括:
在Hadoop平台上利用分析型数据仓库对监管数据进行大数据分析以形成报表统计; 其中,所述大数据分析包括:专题分析、关联分析和多维分析;
所述专题分析包括如下中的至少一种:监管对象分析、监管事项分析、监管行为分析、 “双随机一公开”分析等;
所述关联分析包括如下中的至少一种:监管事项与监管行为挂接、监管对象与监管行 为挂接、执法人员与监管行为挂接;
所述多维分析包括如下中的至少一种:同时选择行政区、部门或行业等多个条件进行 关联,从多个监管维度进行统计分析。
第二方面,本发明实施例提供一种监管数据的综合分析系统,其包括:
源数据获取模块,用于获取监管源数据;
数据集成模块,用于对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
报表统计模块,用于根据所述数据仓库获得监管数据概况;对所述监管数据概况进 行多维度分析,获得监管数据的多维度分析结果;
应用展现模块,用于响应于查询指令,展示所述监管数据概况和所述监管数据的多 维度分析结果。
第三方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的任意一种监管数据的综合分析方法。
第四方面,本发明实施例提供一种电子设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理 器实现如上所述的任意一种监管数据的综合分析方法。
上述技术方案具有如下有益效果:
本发明实施例的综合分析系统实现了数据的多维度的全量分析,对以往新需求的变化 以及数据的多样性展现以及企业全维度的企业画像展现,大大提升了系统的需求分析可扩 展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还 可以根据这些附图获得其他的附图。
图1是本发明实施例的一种监管数据的综合分析方法的流程图;
图2是本发明实施例的一种监管数据的综合分析系统的架构示意图;
图3是本发明实施例的一种监管数据的综合分析业务流程图;
图4是本发明实施例的一种监管数据的综合分析系统执行过程流程图;
图5是本发明实施例的电子设备的功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
本申请发明人发现,市面上目前的综合分析方式主要是定向需求分析的方式,这种方 式主要存在的问题包括:
数据分析单一:传统的综合分析模式只能对生态,工商信息等单一方面进行分析,无 法做到企业以法人信息等多样性数据的综合分析。
缺乏实时效率:传统的综合分析系统,数据量增大之后,指标计算往往是需要大量的 执行时间,无法快速的展现分析结果,效果展示存在一定的滞后性。
工作量大:人工风险信息检查的方式,由于数据量巨大,人工筛查任务繁重,无法对 信息全面筛查。
缺乏可扩展性:在此前的技术中,对企业的综合分析都是基于定向的需求,对后续多 样性的数据分析需求无法满足,设计固化,不易变动。
图1是本发明实施例的一种监管数据的综合分析方法的流程图。为解决上述至少一 个技术问题,本发明实施例提供一种监管数据的综合分析方法,其包括如下步骤:
S110:获取监管源数据;
S120:对监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
S130:根据数据仓库获得监管数据概况;
S140:对监管数据概况进行多维度分析,获得监管源数据的多维度分析结果;
S150:响应于查询指令,展示监管数据概况和监管源数据的多维度分析结果。
在一些可能的实施例中,步骤S110中的获取监管源数据的步骤可以包括:
从不同地域或不同行政管理部门的多个数据库中获取监管源数据;其中,数据库的 类型包括:oralce或mysql;多个数据库包括如下中的任意多个:监管目录清单库、监 管对象库、监管行为库、投诉举报库、信用信息库、互联网舆情库、知识库。其中,知 识库是指:知识库数据包括各部门和各地方的法律法规库,案例库信息,预案库信息, 风险特征库,规则信息库等。
在一些可能的实施例中,步骤S120中的对监管源数据进行数据抽取、数据清洗和数 据整合,形成数据仓库的步骤具体可以包括:
在Hadoop平台上以spark、hive、或者hdfs对监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库。其中,Apache Spark是专为大规模数据处理而设计的快速 通用的计算引擎。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、 加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据 仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL 语句转变成MapReduce任务来执行。Hdfs是指Hadoop分布式文件系统(HDFS,Hadoop Distributed FileSystem)是指被设计成适合运行在通用硬件上的分布式文件系统。
在具体的实施例中,上述数据整合的具体处理过程包括:
根据监管数据的业务主键,在特定的优先级的规则上进行去重合并,以拉链表的形 式保留数据完整的历史状态,并提供出监管数据最新的状态数据,实现对监管数据的数据一致性、完整性、相关性和精确性的有效管理,从而提供出准确一致的数据。
在一些可能的实施例中,步骤S130中的根据数据仓库获得监管数据概况的步骤可以 包括:
根据各个监管数据的类型数据,基于大数据分析型数据仓库kylin建立分析模型;其中,类型数据是指监管类型的数据,例如监管行为数据、监管对象数据等。上述分析 模型可以基于如下任意一种或多种算法建立:逐层算法(Layer Cubing)、快速Cube算法 (FastCubing)。
在Hadoop平台(即互联网+监管大数据中心)上根据分析模型对监管数据进行建模全维度分析,形成监管数据概况;其中,监管数据概况包括如下中的任意多种:监管事 项、监管对象、监管行为、投诉举报、信用分类、网络舆情。
在一些可能的实施例中,步骤S140中的对监管数据概况进行多维度分析,获得监管 源数据的多维度分析结果的步骤可以包括:
对包括监管对象、监管事项、监管行为在内的监管数据进行多维度专题分析,并将分析结果存储在Hadoop平台的数据库HBASE中。
在一些可能的实施例中,步骤S150中的响应于查询指令,展示监管数据概况和监管 数据的多维度分析结果的步骤可以包括:
响应于查询指令,对监管数据概况和监管数据的多维度分析结果进行可视化处理, 获得可视化图表,并且显示可视化图表。
在一些可能的实施例中,步骤S140中的对监管数据概况进行多维度分析,获得监管 数据的多维度分析结果的步骤可以包括:
在大数据中心上利用分析型数据仓库对监管数据进行大数据分析以形成报表统计;其 中,大数据分析包括:专题分析、关联分析和多维分析;
专题分析包括如下中的至少一种:监管对象分析、监管事项分析、监管行为分析、“双 随机一公开”分析等;
关联分析包括如下中的至少一种:监管事项与监管行为挂接、监管对象与监管行为挂 接、执法人员与监管行为挂接;
其中,挂接又称题外关键词相关索引。
监管事项与监管行为的挂接是指:功能模块有监管事项与执法行为关联分析(展示监 管事项关联各类执法行为数量)。
监管对象与监管行为挂接是指:功能模块有监管对象与监管行为关联分析(展示监管 对象关联各类执法行为数量)。
执法人员与监管行为挂接是指:功能模块有执法人员与执法行为关联分析(展示执法 人员关联各类执法行为数量)。
多维分析包括如下中的至少一种:同时选择行政区、部门或行业等多个条件进行关联, 从多个监管维度进行统计分析。具体地,行政区例如包括:省、市以及区县;部门例如包 括:省级部门、市级部门以及区县部门;行业例如包括:农业、畜牧业以及金融业等。
其中,多维分析是高级统计分析方法之一,其是把一种产品或一种市场现象,放到一 个两维以上的空间坐标上来进行分析。例如针对监管行为数据根据时间、机构、地区等多 种维度进行统计分析。
以下对本发明实施例的技术方案进行更加详细的说明:
本发明实施例的综合分析系统汇聚国家平台、互联网、第三方平台、业务部门和地方 以及已建和正在建设的省级各个监管系统数据,如监管对象数据、监管行为数据、执法人 员数据、事项目录清单数据、重点领域监管业务数据、投诉举报数据、“双随机、一公开”数据和知识库数据等数据,结合大数据分析、挖掘、可视化展示等技术,构建监管主题分 析模型,提供监管概览分析、监管覆盖度分析、监管事项分析、监管对象分析、监管行为 分析、“双随机、一公开”分析、多维统计分析七大服务。并基于相关数据标准、技术标 准等,通过数据连接通道,为所辖各地区、各部门提供检索查询、统计分析等服务。从数 据汇聚到分析展现全流程自动化,通过监管主题分析建模,多维度统计分析并形成报表直 观的展现出来。
其中,监管事项覆盖率分析包括:各个市级地区全辖(包含各地市、各区县自建事项) 的监管事项总数、已覆盖事项数、未覆盖事项数、监管事项覆盖率等中的任意一项或多项。
本发明实施例的综合分析系统综合利用各类监管大数据资源,在监管对象、监管事项、 监管行为、信用数据、投诉举报、信用分类、网络舆情等监管数据的数据仓库的基础上, 结合各个监管数据类型数据,基于kylin建立分析模型,通过在平台上对监管数据进行建 模全维度分析,运用成熟的大数据分析手段,针对监管事项、监管对象、监管行为、投诉举报等监管数据进行综合全量分析形成监管概况,同时对监管对象、监管事项、监管行为等各类监管数据类型进行专项多维度专题分析,将分析结果存储在Hadoop的HBASE中, 提供统一访问接口,大大节省了查询时间,数据分析的多维度对后续多样性的需求提供可 扩展性。Hbase是Hadoop database,即hadoop数据库,其是一个高可靠性、高性能、面向 列、可伸缩的分布式存储系统。Hadoop是一个分布式文件系统(Distributed File System)。Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark之上的SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,它能在亚秒内查询巨大的表。
本发明实施例的综合分析应用端基于Spring cloud分布式微服务框架,关系型数据库 MySQL、NoSQL类型数据库Redis等支撑数据存取,XxlJob提供分布式定时任务调度服务。综合分析数据端基于CDH(Cloudera’s Distribution Including Apache Hadoop)集群服 务框架,关系型数据库MySQL、ORALCE等类型数据库支撑源数据存储,通过SQOOP、KETTLE等技术获取源数据,在Hadoop平台上以spark、hive、hdfs等技术完成数据抽取、 数据清洗和数据整合形成数据仓库,Apache Kylin提供Hadoop平台上SQL查询接口及多 维分析(OLAP,OnLine Analytical Processing,联机分析处理)能力以支持超大规模数据, 完成报表统计,airflow提供分布式定时任务调度服务,完成各个数据模块的功能调度。其中,XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速,学习简单,轻量 级,易扩展。Sqoop是一款开源的数据迁移工具,主要用于在Hadoop(Hive)与传统的数 据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到 关系型数据库中。其中,Kettle最早是一个开源的ETL工具,全称为KDE Extraction,Transportation,Transformation and Loading Environment。
图2是本发明实施例的一种监管数据的综合分析系统的架构示意图。如图2所示,该 系统包括:
源数据获取模块,用于获取监管源数据;
数据集成模块,用于对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
报表统计模块,用于根据所述数据仓库获得监管数据概况;对所述监管数据概况进 行多维度分析,获得监管数据的多维度分析结果;
应用展现模块,用于响应于查询指令,展示所述监管数据概况和所述监管数据的多 维度分析结果。
以下进行详细说明:
源数据:其是各地市监管数据的业务源系统数据;国办系统也会下发数据。源数据例 如可以采用如下数据库:oralce,mysql。
数据集成:获取源数据并对其进行数据抽取、数据清洗和数据整合,形成数据仓库, 对数据信息统一管理。数据集成涉及:Hadoop(hive,hue,hdfs),spark,sqoop,airflow等。
报表统计:在数据集成的基础上统计监管概况(例如可以包括:监管事项、监管对象、 监管行为、投诉举报、信用分类、网络舆情等数据),针对不同监管类型数据进行多维度分析。报表统计涉及:kylin,airflow,hbase等。其中,Kylin是一个开源的、分布式的分 析型数据仓库,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持 超大规模数据。Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。
应用展现:提供统一的接口访问方式,支持亚秒级数据查询。在应用展现中对数据进 行可视化处理,形成例如热力图、散点图、GIS集成等。其中,GIS集成是指:地理信息系统(Geographic Information System,GIS),其是综合处理和分析空间数据的数据库。
图3是本发明实施例的综合分析业务流程图。如图3所示,综合分析业务流程包括如 下步骤:
对大数据中心的数据(各地市监管数据的业务源系统数据)进行批量数据抽取和数据 清洗,形成数据仓库,提供数据分析的数据支撑。优选地,先执行数据抽取,再执行数据 清选。
在大数据中心上利用kylin对监管数据进行大数据分析(其可以包括:专题分析、关联 分析和多维分析),形成报表统计以提供给监管系统。其中,专题分析可以包括如下中的 至少一种:监管对象分析、监管事项分析、监管行为分析、双随机一公开分析等。关联分析可以包括如下中的至少一种:监管事项与监管行为挂接;监管对象与监管行为挂接;执法人员与监管行为挂接等。多维分析可以包括如下中的至少一种:可同时选择行政区、部门或行业等多个条件进行关联,从多个监管维度进行统计分析。
“互联网+监管”系统作为数据平台的对外应用服务层,承担着应用的展示,也是数据 平台最终价值的直接体现,是系统的门户界面,工作用户进入系统平台的监控数据分析模 块,查看监管数据概况和监管数据专题分析。其中,展示监管概览可以包括:对各类监管数据进行深度整合和分析,采用大数据可视化技术手段展示监管事项、监管对象、监管行为、投诉举报、信用分类、网络舆情等。
在图3中,数据分析是指:用适当的统计分析方法对收集来的大量数据进行分析,提 取有用信息和形成结论,而对数据加以详细研究和概括总结的过程。在图3中,大数据分析是指:针对无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合进行分析处理。上述大数据分析与数据分析的主要区别是处理的数据规模不同。
图4是本发明实施例的综合分析系统执行过程流程图。如图4所示,综合分析系统执 行过程具体包含了以下内容:
本发明实施例的综合分析系统是基于监管对象、监管事项、监管行为、信用数据、投 诉举报等监管数据的全面梳理,实现监管大数据的多维统计分析,通过回归分析、聚类分 析、热度分析、分类分析等大数据分析算法,从监管对象、监管事项、监管行为等不同角度对监管风险进行专题分析和展示。对大数据中心归集的监管大数据,通过绘制图表、计算特征指标,采用大数据可视化手段展示监管工作概况。
综合分析系统的具体实施方式:
数据集成:对监管对象、监管事项、监管行为、信用数据、投诉举报等监管源数据采集到的大数据中心中,对大数据中心中的监管源数据批量清洗抽取,形成数据仓库。
报表统计:其包括设计建模和数据统计。
设计建模:针对特定的分析需求,从监管各个类型库(监管行为库、监管对象库、监管事项库等)中选取所需要的数据作为事实表(事实表用来存储事实的度量及指向各个维的外键值),根据事实表中的带有的分析性的字段来确定维度表(维表用来保存该维的元数据),例如:监管事项数据的机构维度、时间维度、地区维度等,事实表和维度表就构 成了数据分析模型。
数据统计:在数据分析模型上选取多个维度进行组合,以完成数据统计需求。
结果展现:将分析结果存储在Hadoop的HBASE中,提供标准的SQL作为对外服务 的接口。
本发明实施例的综合分析系统实现了数据的多维度的全量分析,对以往新需求的变化 以及数据的多样性展现以及企业全维度的企业画像展现,大大提升了系统的需求分析可扩 展性。
本发明实施例的综合分析系统针对统计分析结果提供更快速的查询效率,并提供标准 的SQL作为对外服务的接口,进而使得综合分析系统更加专业化。
本发明实施例的综合分析系统支持超大数据集,能够支撑百亿记录的秒级查询,摆脱 了以往随着数据增多而降低计算查询速度的方式,提升了工作效率。
本发明实施例的对各类监管数据进行深度整合和分析,采用大数据可视化技术手段展 示监管事项、监管对象、监管行为、投诉举报、信用监管、网络舆情等各方面情况,多维度呈现监管工作全局态势。
本发明实施例的上述技术方案的优点包括:
1、分析多样性:采集汇聚各类监管数据并进行抽取清洗、数据集成,对监管事项、监 管对象、监管行为、投诉举报、信用监管、网络舆情等各方面数据情况,全量多维度的呈现监管数据概况。
2、可扩展性:根据监管数据自身的数据特征,选择多维分析来满足后续增加的数据分 析需求。
3、时效性:综合分析系统支持百亿记录的秒级查询,并不会随着数据量增多而影响其 计算和查询效率,以标准的SQL作为对外服务的接口支撑标准快速的查询。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能 单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完 成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单 元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元 中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实 现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申 请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的 对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算 机程序,计算机程序被处理器执行时实现上述监管数据的综合分析方法的各步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例 方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算 机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述 各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代 码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介 质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬 盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存 储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。当 然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。需要说明的是, 所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当 的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信 号和电信信号。
本发明实施例还提供了一种电子设备,如图5所示,包括一个或多个处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303 通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现上述方法的各步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA) 总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用 一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备 与其他设备之间的通信。
总线304包括硬件、软件或两者,用于将上述部件彼此耦接在一起。举例来说,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总 线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数 (LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI- Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB) 总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括 一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的 总线或互连。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失 性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
存储器303可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器303可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、 磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些 的组合。在合适的情况下,存储器303可包括可移除或不可移除(或固定)的介质。在特 定实施例中,存储器303是非易失性固态存储器。在特定实施例中,存储器303包括只 读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM (PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或 闪存或者两个或更多个以上这些的组合。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网 络处理器(Network Processor,NP)等;还可以是数字信号处理器(DigitalSignal Processing, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field- Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、 分立硬件组件。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例 如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能 电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算 机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造 性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤 执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图 和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程 和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指 令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生 一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方 式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令 装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多 个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算 机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或 其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一 个方框或多个方框中指定的功能的步骤。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或 者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任 何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些 要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并 不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互 相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电 子设备及可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单, 相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发 明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种监管数据的综合分析方法,其特征在于,包括:
获取监管源数据;
对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
根据所述数据仓库获得监管数据概况;
对所述监管数据概况进行多维度分析,获得监管源数据的多维度分析结果;
响应于查询指令,展示所述监管数据概况和所述监管源数据的多维度分析结果。
2.根据权利要求1所述的方法,其特征在于,所述获取监管源数据包括:
从不同地域或不同行政管理部门的多个数据库中获取监管源数据;其中,所述数据库的类型包括:oralce或mysql;所述多个数据库包括如下中的任意多个:监管目录清单库、监管对象库、监管行为库、投诉举报库、信用信息库、互联网舆情库、知识库。
3.根据权利要求1或2所述的方法,其特征在于,所述的对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库的步骤具体包括:
在Hadoop平台上以spark、hive、或者hdfs对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库。
4.根据权利要求2所述的方法,其特征在于,所述的根据所述数据仓库获得监管数据概况的步骤包括:
根据各个监管数据的类型数据,基于大数据分析型数据仓库kylin建立分析模型;
在Hadoop平台上根据所述分析模型对监管数据进行建模全维度分析,形成监管数据概况;其中,所述监管数据概况包括如下中的任意多种:监管事项、监管对象、监管行为、投诉举报、信用分类、网络舆情。
5.根据权利要求2所述的方法,其特征在于,所述的对所述监管数据概况进行多维度分析,获得监管源数据的多维度分析结果的步骤包括:
对包括监管对象、监管事项、监管行为在内的监管数据进行多维度专题分析,并将分析结果存储在Hadoop平台的数据库HBASE中。
6.根据权利要求1所述的方法,其特征在于,所述响应于查询指令,展示所述监管数据概况和所述监管数据的多维度分析结果的步骤包括:
响应于查询指令,对所述监管数据概况和所述监管数据的多维度分析结果进行可视化处理,获得可视化图表,并且显示所述可视化图表。
7.根据权利要求4所述的方法,其特征在于,所述的对所述监管数据概况进行多维度分析,获得监管数据的多维度分析结果的步骤包括:
在Hadoop平台上利用分析型数据仓库对监管数据进行大数据分析以形成报表统计;其中,所述大数据分析包括:专题分析、关联分析和多维分析;
所述专题分析包括如下中的至少一种:监管对象分析、监管事项分析、监管行为分析、“双随机一公开”分析等;
所述关联分析包括如下中的至少一种:监管事项与监管行为挂接、监管对象与监管行为挂接、执法人员与监管行为挂接;
所述多维分析包括如下中的至少一种:同时选择行政区、部门或行业等多个条件进行关联,从多个监管维度进行统计分析。
8.一种监管数据的综合分析系统,其特征在于,包括:
源数据获取模块,用于获取监管源数据;
数据集成模块,用于对所述监管源数据进行数据抽取、数据清洗和数据整合,形成数据仓库;
报表统计模块,用于根据所述数据仓库获得监管数据概况;对所述监管数据概况进行多维度分析,获得监管数据的多维度分析结果;
应用展现模块,用于响应于查询指令,展示所述监管数据概况和所述监管数据的多维度分析结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任意一项所述的监管数据的综合分析方法。
10.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的监管数据的综合分析方法。
CN202110752012.XA 2021-07-02 2021-07-02 一种监管数据的综合分析方法、系统、介质和设备 Pending CN113485989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110752012.XA CN113485989A (zh) 2021-07-02 2021-07-02 一种监管数据的综合分析方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110752012.XA CN113485989A (zh) 2021-07-02 2021-07-02 一种监管数据的综合分析方法、系统、介质和设备

Publications (1)

Publication Number Publication Date
CN113485989A true CN113485989A (zh) 2021-10-08

Family

ID=77940543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110752012.XA Pending CN113485989A (zh) 2021-07-02 2021-07-02 一种监管数据的综合分析方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN113485989A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116428A (zh) * 2021-12-01 2022-03-01 中国建设银行股份有限公司 调度系统的故障诊断方法及设备
CN114791933A (zh) * 2022-06-24 2022-07-26 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116428A (zh) * 2021-12-01 2022-03-01 中国建设银行股份有限公司 调度系统的故障诊断方法及设备
CN114791933A (zh) * 2022-06-24 2022-07-26 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统
CN114791933B (zh) * 2022-06-24 2022-10-04 杭州雅拓信息技术有限公司 一种主数据处理方法、基于主数据的交互方法和系统

Similar Documents

Publication Publication Date Title
Pereira et al. NoSQL real-time database performance comparison
US10459932B2 (en) Visualizing large data volumes utilizing initial sampling and multi-stage calculations
CN110019396A (zh) 一种基于分布式多维分析的数据分析系统及方法
WO2019056681A1 (zh) 数据实时监控方法、装置、终端设备及存储介质
US20180329963A1 (en) Embedded Analytics and Transactional Data Processing
CN113485989A (zh) 一种监管数据的综合分析方法、系统、介质和设备
Salehi et al. SensorDB: a virtual laboratory for the integration, visualization and analysis of varied biological sensor data
CN111127105A (zh) 用户分层模型构建方法及系统、运营分析方法及系统
CN112632405B (zh) 一种推荐方法、装置、设备及存储介质
CN111310052A (zh) 用户画像构建方法、装置及计算机可读存储介质
WO2015154679A1 (zh) 多搜索引擎搜索结果的排序方法及装置
Ajibade et al. Big Data Research Outputs in the Library and Information Science: South African's Contribution using Bibliometric Study of Knowledge Production.
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
CN112926852A (zh) 一种基于数据融合的大气生态环境分析方法
CN109145109B (zh) 基于社交网络的用户群体消息传播异常分析方法及装置
CN114547453A (zh) 一种通用top-n智能推荐系统及方法
Pahins et al. Real-time exploration of large spatiotemporal datasets based on order statistics
CN115470279A (zh) 基于企业数据的数源转换方法、装置、设备及介质
CN107832937A (zh) 金融科技中心指数分析方法、存储介质、及设备
CN110570255A (zh) 一种基于dmp的多源系统的市场需求数据实时分析的方法及系统
CN116245580A (zh) 数据资产价值获取方法、装置、设备、介质和程序产品
CN109241048A (zh) 用于数据统计的数据处理方法、服务器及存储介质
CN115952216A (zh) 一种养老保险数据挖掘方法、装置、存储介质及电子设备
CN114428813A (zh) 基于报表平台的数据统计方法、装置、设备及存储介质
CN114860759A (zh) 一种数据处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination