CN112181940A - 全国工商大数据处理系统的构建方法 - Google Patents

全国工商大数据处理系统的构建方法 Download PDF

Info

Publication number
CN112181940A
CN112181940A CN202010862468.7A CN202010862468A CN112181940A CN 112181940 A CN112181940 A CN 112181940A CN 202010862468 A CN202010862468 A CN 202010862468A CN 112181940 A CN112181940 A CN 112181940A
Authority
CN
China
Prior art keywords
data
database
module
service
update
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010862468.7A
Other languages
English (en)
Inventor
孙强
范凯波
吕海英
杜艳红
王丽
郭晓钰
吴亚辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Agricultural University
Original Assignee
Tianjin Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Agricultural University filed Critical Tianjin Agricultural University
Priority to CN202010862468.7A priority Critical patent/CN112181940A/zh
Publication of CN112181940A publication Critical patent/CN112181940A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种全国工商大数据处理系统的构建方法,该系统主要包括:数据采集模块、数据处理模块、数据汇总模块、数据应用模块、数据备份模块和数据监控模块。数据采集模块用于收集原始数据构建数据准备层;数据处理模块用于构建日更新数据库、周更新数据库和月更新数据库;数据汇总模块用于构建汇总数据库;数据应用模块主要以汇总数据库为数据源创建各业务分析数据库;数据备份模块对上述各类数据进行备份以保障数据安全;数据监控模块则对数据备份集群以及所述各层的数据库和对外服务的运行状态进行监控和异常报警。本发明可以使数据采集、数据处理、数据汇总和数据应用集于一体,实现全国工商大数据的有效治理和高效利用。

Description

全国工商大数据处理系统的构建方法
技术领域
本发明涉及数据处理领域,特别涉及一种全国工商大数据处理系统的构建方法。
背景技术
随着社会技术的飞速发展,经济活日趋频繁,各类数据也呈现井喷式的增长,随之涌现了大量的数据处理系统和方法,尤其是与经济活动密切相关的商事服务领域,人们迫切需要对海量的经济数据进行处理,进而挖掘潜在商业机会,在企业服务领域更是如此。目前现有的工商大数据处理系统,主要是采用离线方式来处理数据,离线计算的优点在于数据吞吐量大,运算时间长,不需要考虑务业数据产生的先后次序。但是离线计算中间环节较多,从数据产生到数据存储再到数据处理,中间存在时间延迟且时效性较差,无法及时的利用已经产生的企业数据,在数据处理的每一个环节均需要有人值守,出错的机率较高。而企业服务行业对工商数据的时效性和准确性有极高的要求,为了及时的给企业客户推送恰当的服务产品,对发变更的企业工商数据更有接近实时性的要求;过时工商数据除具备单一的查询价值外,几乎没有任何潜在的商业价值。
发明内容
本发明的主要目的在于提供一种全国工商大数据处理系统的构建方法,从而克服企业服务领域现有工商数据处理系统的缺点。
为了解决上述技术问题,本发明通过以下技术方案实现:
一种全国工商大数据处理系统的构建及方法,所述方法包括以下步骤:
(1)收集原始数据以构建数据准备层,采集的原始数据主要包括企业基本信息数据、年报数据、股东高管数据、动产质押数据数据、行政处罚数据、司法协助数据、知识产权数据和证照数据;
(2)对步聚(1)中当天收集的各类数据汇入日更新数据库,对日更新数据库内的各个字段进行标准化处理,并将处理完的数据迁入周更新数据中;周更新数据库更新累积一周的数据后,将数据迁入月更新数据库;月更新数据库更新当月累积的数据后,则将数据导入汇总数据库;
(3)根据业务需求以步聚(2)中所述汇总数据库为基础,分别建立各类业务分析数据库,将各业务分析所需数据导入搭建的搜索引擎中,可对外提供数据接口和数据可视化服务;
(4)将步骤(1)至步骤(3)中各数据库的基础数据定期备份至指定服务器集群的各数据库中,以完成所述各类数据库的数据备份;实时采集数据备份服务器集群以及所述各层数据库、搜索引擎、数据接口以及数据可视化服务的运行状态数据发送至数据监控模块,可由数据监控系进行统一监控和数据异常报警;
至指定目录,按照日期建立文件夹进行数据存储;记录下载日志、发送任务起始消息以及邮件通知,并根据状态标记清理处理完毕的原始数据,以释放服务器资源。
所述步骤(2)中对收集的原始数据进行编码和解码,融入容错机制处理后方可插入日更新数据库,入库后以后的基础数据需按工商总局发布的企业信息工商登记规范进行标准化处理;日更新数据库、周更新数据库、月更新数据库以及汇总数据库之间的数据迁移与合并,可采用Kettle集群的流式去重和插入更新机制进行处理,以保整数据记录的唯一性,然后通过ETL工具导入Hadoop集群的Hive数据仓库,并利用Map Reduce机制和Spark进行数据处理,即可获得所述汇总数据库。
所述步骤(3)中根据搜索业务需求设计ElasticSearch搜索引擎集群的数据节点、控制节数、分片数以及索引结构,并设计各业务数据库与各个索引的数据同步方式和更新方法;基于上述索引数据开发flask和Node.js数据接口,提供数据接口服务。
所述步骤(4)中搭建备份服务器集群,含有结构化、半结构化以及非结构化的各类数据库,在每台服务器布署MySQL、Hbase和MongoDB至少一个数据库实例;监控所需的状态数据,需在所述各模块中单独安装状态数据采集工具;所述数据可视化服务还包括全国省市两级行政区划以及重点区域企业的保有量、新增企业、企业类型、行业类别以及注销企业的统计数据。
本发明提供的技术方案的有益效果是:本发明提供了一种全国工商大数据的处理系统的构建方法,本方法能够自动有效的收集原始的工商数据,可对收集的工商数据进行标准化处理,能够以日、周和月为周期进行数据更新,提高了工商数据的时效性,增加了潜在的企业服务客户,数据监控和备份系统的减少了人员干预,降低了错误率,保证了处理数据的可靠性和稳定性。该方法达到了快速准确利用工商数据的目的,且降低了数据处理的时间成本和人力成本。
附图说明
图1是本发明一实施例中一种全国工商大数据处理系统的架构图;
图2是本发明一实施例中一种全国工商大数据处理系统的构建方法原理图;
图3是本发明一实施例中一种数据备份集群的组成示意图;
图4是本发明一实施例中一种数据监控系统的组成示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。以下实施例旨在便于对本发明的理解,对其不起任何限定作用,若非特别说明,如下实施例中采用的ETL工具、Hadoop集群、各种数据库和服务器等均是本领域已知的。
为了处理涉及全国企业的工商数据,充分发掘工商大数据在企业服务领域的潜在商业价值,本发明实施例提供了一种全国工商大数据处理系统的构建方法,该方法设计的数据仓库系统共分为五层,即数据准备层、数据明细层、数据汇总层、数据集市层和数据应用层。该系统从提高数据处理的时效性和用应领域的多样性入手,在数据明细层分别提供了日更新、周更新和月更新三级数据库,可以分级处理不同类型的工商数据,以满足用户对数据时效性的要求;在数据应用层,提供了对外数据接口服务和数据可视化服务,既可以满足大客户频繁获取大量工商数据的需求,又可以提供全国各省市辖区内的企业数据和可视化的数据分析结果,还可以为决策层提供一定程度的数据决策依据。具体实施步骤详见下文描述:
参考图2所示,该实施例提供的一种平全国工商大数据处理系统的构建方法包括以下步骤:
101:收集原始数据以构建数据准备层;
采集的原始数据主要包括企业基本信息数据、年报数据、股东高管数据、动产质押数据数据、行政处罚数据、司法协助数据、知识产权数据和证照数据。上述数据来自全国各地的工商注册管理机构,将每天的业务数据进行统一收集并汇总至指定的sftp服务器,数据收集工具则监测指定的sftp服务器及时的将每天的原始数据下载至指定目录,并按照日期建立文件夹进行数据存储。此外,还记录下载日志、发送下载任务的起始消息和邮件通知,并根据状态标记清理已处理的数据,以释放服务器的硬盘资源。
102:分级处理收集的原始数据以构建数据明细层;
对步聚101中收集的各类数据经过编码和解码,且融入容错机制处理后,方可汇入日更新数据库,入库后的基础数据需按工商总局发布的企业信息工商登记规范进行标准化处理,并将处理完的数据迁入周更新数据中;周更新数据库更新累积一周的数据后,将数据迁入月更新数据库;月更新数据库更新当月累积的数据,则将数据导入汇总数据库。
103:汇总各类明细数据以构建数据汇层和数据集市层;
日更新数据库、周更新数据库、月更新数据库以及汇总数据库之间的数据迁移和数据合并,需采用Kettle集群的流式去重和插入更新机制进行处理,以保整数据记录的唯一性,然后通过Kettle、Flume或Sqoop等ETL工具导入Hadoop集群的Hive数据仓库,并利用Map Reduce机制和Spark进行数据处理,即可获得汇总数据库。以汇总数据库为基础数据源,可按不同业务系统的要求,从汇数据数据库中抽取所需的各类工商数据,分别建立各业务分析数据库,即可构建数据集市层。
104:搭建数据搜索引擎服务以构建数据服务层;
根据搜索业务需求设计ElasticSearch搜索引擎集群的数据节点、控制节数、备份节点、分片数以及索引结构,将各业务分析所需数据导入搭建的搜索引擎中,并设计各业务数据库与各个索引之间的数据同步方式和更新方法;基于上述索引数据开发flask和Node.js数据接口,可对外提供数据接口服务,对索引内的数据按业务需求分别进行统计分析,并将统计结果进行可视化展视,即可提供数据可视化服务。所述数据可视化服务还包括全国省市两级行政区划以及重点区域企业的保有量、新增量、企业类型、行业类别以及注销企业等统计数据。
105:搭建数据备份和数据监控系统;
搭建备份服务器集群和布署备份所需各类数据的数据库,含有结构化、半结构化以及非结构化的数据库,在每台服务器布署MySQL、Hbase和MongoDB至少一个数据库实例,重要核心数据配置主从数据库以保障数据高可用;各数据库的基础数据定期备份至指定服务器集群的各数据库中,以完成所述各数据库的数据备份。备份数据极大提高了数据的安全性和可靠性,但是备份的数据没有必有,也不可能长期保存,需定期清理过期的备份数据。Zabbix监控工具所需要的状态数据,需在所述各模块中单独安装状态数据采集器,实时采集数据备份服务器集群以及所述各层数据库、搜索引擎、数据接口以及数据可视化服务的运行状态数据发送至数据监控模块,可由数据监控系进行统一监控和异常报警;
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

Claims (5)

1.一种全国工商大数据处理系统的构建方法,其特征在于,所述方法包括以下步骤:
(1)收集原始数据以构建数据准备层,采集的原始数据包括企业基本信息数据、年报数据、股东高管数据、动产质押数据数据、行政处罚数据、司法协助数据、知识产权数据和各类证照数据;
(2)对步聚(1)中当天收集的各类数据汇入日更新数据库,对所述日更新数据库内的各个字段按要求进行标准化处理,并将处理完的数据迁入周更新数据中;周更新数据库更新累积一周的数据后,将数据迁入月更新数据库;月更新数据库更新当月累积的数据后,则将数据导入汇总数据库;
(3)根据业务需求以步聚(2)中所述汇总数据库为基础,分别建立各类业务分析数据库,将各业务分析所需数据导入搭建的搜索引擎中,对外提供数据接口和数据可视化服务;
(4)将步骤(1)至步骤(3)中各数据库的基础数据定期备份至指定服务器集群的各数据库中,以完成所述各类数据库的数据备份;由采集器实时采集数据备份服务器集群以及所述各层数据库、搜索引擎、数据接口以及数据可视化服务的运行状态数据发送至数据监控模块,由数据监控系进行统一监控和异常报警。
2.根据权利要求1所述的构建方法,其特征在于,所述收集原始数据还包括通过指定sftp服务器及时下载原始数据至指定目录,按照数据收集日期建立文件夹进行数据存储;记录数据下载的日志、发送下载任务的起始消息和邮件通知,并根据状态标记清理已处理的原始数据,以释放服务器资源。
3.根据权利要求1所述的构建方法,其特征在于,所述步骤(2)包括对收集的原始数据进行编码和解码,融入容错机制处理后方可插入日更新数据库,入库后以后的基础数据需按工商总局发布的企业信息工商登记规范进行标准化处理;日更新数据库、周更新数据库、月更新数据库以及汇总数据库之间的数据迁移和数据合并,需采用Kettle集群的流式去重和插入更新机制进行处理,以保整数据记录的唯一性,然后通过ETL工具导入Hadoop集群的Hive数据仓库,并利用Map Reduce机制和Spark进行数据处理,即可获得所述汇总数据库。
4.根据权利要求1所述的构建方法,其特征在于,所述步骤(3)包括搭建ElasticSearch搜索引擎,根据搜索业务需求设计搜索引擎集群的数据节点、控制节数、分片数以及索引结构,并设计各业务数据库与各个索引的数据同步方式和更新方法;基于上述索引数据开发flask和Node.js数据接口,对外提供数据接口服务。
5.根据权利要求1所述的构建方法,其特征在于,所述步骤(4)包括搭建备份服务器集群和布署备份所需各类数据的数据库,含有结构化、半结构化以及非结构化的数据库,在每台服务器布署MySQL、Hbase和MongoDB至少一个数据库实例;分布式监控所需的状态数据,需在所述各模块中单独安装状态数据采集器;所述数据可视化服务还包括全国省市两级行政区划以及重点区域企业的保有量、新增企业、企业类型、行业类别以及注销企业统计数据。
CN202010862468.7A 2020-08-25 2020-08-25 全国工商大数据处理系统的构建方法 Pending CN112181940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010862468.7A CN112181940A (zh) 2020-08-25 2020-08-25 全国工商大数据处理系统的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010862468.7A CN112181940A (zh) 2020-08-25 2020-08-25 全国工商大数据处理系统的构建方法

Publications (1)

Publication Number Publication Date
CN112181940A true CN112181940A (zh) 2021-01-05

Family

ID=73924352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010862468.7A Pending CN112181940A (zh) 2020-08-25 2020-08-25 全国工商大数据处理系统的构建方法

Country Status (1)

Country Link
CN (1) CN112181940A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质
CN113806618A (zh) * 2021-09-22 2021-12-17 汉唐信通(北京)咨询股份有限公司 一种商标大数据治理方法、系统和计算机设备
CN114138750A (zh) * 2021-12-03 2022-03-04 无锡星凝互动科技有限公司 一种基于ai咨询数据库集群搭建方法和系统
CN114357088A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 核电工业数据仓库系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105787064A (zh) * 2016-03-01 2016-07-20 广州铭诚计算机科技有限公司 一种基于大数据的挖掘平台构建方法
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN109189826A (zh) * 2018-08-14 2019-01-11 北京新广视通科技有限公司 一种基于大数据的政务服务系统
CN109492040A (zh) * 2018-11-06 2019-03-19 深圳航天智慧城市系统技术研究院有限公司 一种适用于数据中心海量短报文数据处理的系统
CN110532492A (zh) * 2019-08-27 2019-12-03 东北大学 一种论坛数据管理分类系统及方法
CN110543464A (zh) * 2018-12-12 2019-12-06 广东鼎义互联科技股份有限公司 一种应用于智慧园区的大数据平台及操作方法
CN110765337A (zh) * 2019-11-15 2020-02-07 中科院计算技术研究所大数据研究院 一种基于互联网大数据的服务提供方法
CN111027923A (zh) * 2019-11-22 2020-04-17 西安石油大学 一种基于石油大数据一体化协同管理应用平台

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105119750A (zh) * 2015-09-08 2015-12-02 南京联成科技发展有限公司 一种基于大数据的分布式信息安全运维管理平台
CN105787064A (zh) * 2016-03-01 2016-07-20 广州铭诚计算机科技有限公司 一种基于大数据的挖掘平台构建方法
CN107657049A (zh) * 2017-09-30 2018-02-02 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法
CN109189826A (zh) * 2018-08-14 2019-01-11 北京新广视通科技有限公司 一种基于大数据的政务服务系统
CN109492040A (zh) * 2018-11-06 2019-03-19 深圳航天智慧城市系统技术研究院有限公司 一种适用于数据中心海量短报文数据处理的系统
CN110543464A (zh) * 2018-12-12 2019-12-06 广东鼎义互联科技股份有限公司 一种应用于智慧园区的大数据平台及操作方法
CN110532492A (zh) * 2019-08-27 2019-12-03 东北大学 一种论坛数据管理分类系统及方法
CN110765337A (zh) * 2019-11-15 2020-02-07 中科院计算技术研究所大数据研究院 一种基于互联网大数据的服务提供方法
CN111027923A (zh) * 2019-11-22 2020-04-17 西安石油大学 一种基于石油大数据一体化协同管理应用平台

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113536070A (zh) * 2021-08-11 2021-10-22 汉唐信通(北京)咨询股份有限公司 一种地址解析方法、系统、计算机设备和存储介质
CN113806618A (zh) * 2021-09-22 2021-12-17 汉唐信通(北京)咨询股份有限公司 一种商标大数据治理方法、系统和计算机设备
CN114138750A (zh) * 2021-12-03 2022-03-04 无锡星凝互动科技有限公司 一种基于ai咨询数据库集群搭建方法和系统
CN114357088A (zh) * 2021-12-14 2022-04-15 中核武汉核电运行技术股份有限公司 核电工业数据仓库系统
CN114357088B (zh) * 2021-12-14 2024-02-27 中核武汉核电运行技术股份有限公司 核电工业数据仓库系统

Similar Documents

Publication Publication Date Title
CN112181940A (zh) 全国工商大数据处理系统的构建方法
CN110765337B (zh) 一种基于互联网大数据的服务提供方法
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
US10360193B2 (en) Method and apparatus for smart archiving and analytics
WO2022133981A1 (zh) 数据处理方法、平台、计算机可读存储介质及电子设备
CN113010506A (zh) 一种多源异构水环境大数据管理系统
Ruan et al. Cloudtp: A cloud-based flexible trajectory preprocessing framework
CN112527886A (zh) 一种基于城市大脑的数据仓库系统
CN102722584B (zh) 数据存储系统及方法
CN105528367A (zh) 基于开源大数据对时间敏感数据的存储和近实时查询方法
CN111274282A (zh) 一种空气质量挖掘系统、方法及数据采集监控装置
CN111160867A (zh) 大范围地域停车场大数据分析系统
CN113179173A (zh) 一种用于高速公路系统的运维监控系统
CN112732680A (zh) 一种数据仓库设计方法
CN101894151B (zh) 交通事件信息的获取方法和装置
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN115934856A (zh) 一种构造综合能源数据资产的方法和系统
CN114637903A (zh) 一种针对定向目标数据拓展的舆情数据采集系统
CN114706994A (zh) 一种基于知识库的运维管理系统和方法
CN114691762A (zh) 企业数据智能构建方法
CN116795816A (zh) 一种基于流式处理的数仓建设方法和系统
CN107707487B (zh) 一种网络业务流量的实时检索系统及实时检索方法
Kwoczek et al. An architecture to process massive vehicular traffic data
CN113378219B (zh) 一种非结构化数据的处理方法和系统
CN109242132A (zh) 基于MapReduce框架的分区最大负荷预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210105

RJ01 Rejection of invention patent application after publication