CN111400326B

CN111400326B - 一种智慧城市数据管理系统及其方法

Info

Publication number: CN111400326B
Application number: CN202010129063.2A
Authority: CN
Inventors: 耿伟; 谷国栋; 周起如; 王英明; 胡进贤
Original assignee: Industrial & Commercial College Anhui University Of Technology; Shenzhen Sunwin Intelligent Co Ltd
Current assignee: Industrial & Commercial College Anhui University Of Technology; Shenzhen Sunwin Intelligent Co Ltd
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2023-09-12
Anticipated expiration: 2040-02-28
Also published as: CN111400326A

Abstract

本发明涉及一种智慧城市数据管理系统及其方法，该系统包括数据采集单元，用于集成DataX、flume、MaxWell、分布式爬虫和kafka的采集处理技术，获取数据并进行抽取、清洗、过滤及转换，以得到处理结果；数据存储单元，用于对所述处理结果中的多源异构数据进行整合和存储管理以得到存储结果；数据处理单元，用于对所述存储结果进行任务划分，以形成子任务，并将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果，并综合子处理结果，以得到总处理结果。本发明实现具有海量数据收集、存储、处理和管理能力，支持数据存储、处理和计算能力线性扩展，能够支撑整个智慧城市应用系统的大数据支撑平台。

Description

一种智慧城市数据管理系统及其方法

技术领域

本发明涉及大数据资源管理技术领域，更具体地说是指一种智慧城市数据管理系统及其方法。

背景技术

智慧城市通过无所不在的物联网将现实城市与数字城市连在一起，随着新一代网络技术、信息技术和物联网技术的飞速发展，大数据支撑平台技术已成为现代智慧城市领域的重要支撑技术之一。目前，政府各个部门内部拥有海量的城市运行数据资源，但是由于管理分散、制度规范不健全，造成重复采集，口径多乱，数据存在不完全、不完整、不正确、不一致等质量问题，数据使用成本高，共享程度差。随着政府向“经济调节、市场监管、社会管理和公共服务”管理职能的转变，要求强化政府部门掌控信息资源能力，能够全面、准确掌握全市经济社会发展态势，2015年8月19日国务院通过《关于促进大数据发展的行动纲要》，重点强调大数据在推动政府信息系统和公共数据互联共享中的应用。大数据支撑平台是实现城市大数据整合、共享、交换和管理及应用的核心，由于智慧城市业务具有数据量大、业务需求多样化、跨业务分析的需求多等特点，因而，需要一个能够管理海量数据整个生命周期的、完整的、通用的大数据支撑平台。

智慧城市数据的爆炸式增长，离不开硬件、网络、数据存储、数据处理、数据分析等一系列配套技术的发展和支撑，面对如此巨大的数据，如何收集这些数据并高效率的分析得出知识成为当前智慧城市建设面临的巨大挑战，具体而言，业务部门多、数据来源和格式多样化，上百个业务项目和数据来源，多种异构的数据格式，要求平台有足够的灵活性和可扩展性；大数据存储问题。对于结构化数据，海量数据的查询、统计、更新效率低，对于非结构化数据，如图片、视频等文件的存储、检索困难，对于半结构化数据，进行存储、分析需要转化为结构化数据，或者按照非结构化数据进行存储，难度较大；大数据管理问题，如何对分布、多源、异构的大数据进行有效管理，当前还缺乏有效手段；跨部门跨业务分析需求多，需求联合利用多个的业务数据，才能分析得出有效的结果信息。

因此，有必要设计一种新的系统，实现具有海量数据收集、存储、处理和管理能力，支持数据存储、处理和计算能力线性扩展，能够支撑整个智慧城市应用系统的大数据支撑平台。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种智慧城市数据管理系统及其方法。

为实现上述目的，本发明采用以下技术方案：一种智慧城市数据管理系统，包括：

数据采集单元，用于集成DataX、flume、MaxWell、分布式爬虫和kafka的采集处理技术，获取数据并进行抽取、清洗、过滤及转换，以得到处理结果，并输出处理结果；

数据存储单元，用于对所述处理结果中的多源异构数据进行整合和存储管理，以得到存储结果；

数据处理单元，用于对所述存储结果进行任务划分，以形成子任务，并将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果，并综合子处理结果，以得到总处理结果。

其进一步技术方案为：还包括：

管理单元，用于对分布式任务调度、元数据、资源和安全进行统一管理；

API接口单元，用于发布、调用、注册、订阅以及路由的服务治理。

其进一步技术方案为：所述数据存储单元包括：

Hadoop云平台，用于存储所述处理结果中的半结构化和相关非结构化文件；

MPP集群子单元，用于存储所述处理结果中的PB级别的结构化数据；

MySQL集群子单元，用于存储所述处理结果中的结构化事务性数据；

分布式缓存子单元，用于存储所述处理结果中的变化少但需要频繁读取的数据资源。

其进一步技术方案为：所述数据处理单元包括：

任务划分子单元，用于对所述存储结果进行任务划分，以形成子任务；

数据计算子单元，用于将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果；

结果综合子单元，用于综合子处理结果，以得到总处理结果。

其进一步技术方案为：所述数据计算子单元包括：

离线计算模块，用于进行子任务中的海量数据非实时统计；

流式计算模块，用于进行子任务中的实时数据计算处理；

内存计算模块，用于进行子任务中的海量统计大数据实时查询；

智能计算模块，用于进行子任务中的统计分析和深度挖掘。

其进一步技术方案为：所述智能计算模块，用于采用机器学习和图计算技术进行子任务中的统计分析和深度挖掘。

其进一步技术方案为：所述管理单元包括：

安全管理子单元，用于以LDAP为数据存储后端、以Kerberos为验证前端以及以bind为主机识别进行统一的命令行管理工具和web、管理界面的安全信息集成管理；

任务管理子单元，用于对大量子任务进行处理和分析，通过配置各个子任务之间存在时间先后及前后依赖关系组织子任务的执行计划；

资源管理子单元，用于提供统一的资源调度和管理服务；

元数据管理子单元，用于提供城市数据的统一处理和管理。

其进一步技术方案为：所述API接口单元包括：

服务引擎，用于提供服务的发布和调用响应。

其进一步技术方案为：所述API接口单元还包括：

服务注册中心，用于提供服务路由、服务授权以及服务生命周期管理；

服务监控中心，用于收集服务引擎的运行数据进行统计分析，监控服务运行状况，服务状态发生异常会自动发出告警。

本发明还提供了一种智慧城市数据管理方法，包括：

获取数据并进行抽取、清洗、过滤及转换，以得到处理结果，并输出处理结果；

对所述处理结果中的多源异构数据进行整合和存储管理，以得到存储结果；

对所述存储结果进行任务划分，以形成子任务，并将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果，并综合子处理结果，以得到总处理结果；

反馈所述总处理结果。

本发明与现有技术相比的有益效果是：本发明一种智慧城市数据管理系统，通过数据采集单元采用多种采集处理技术进行数据获取、抽取、清洗、过滤及转换，再由数据存储单元针对不同类型的数据进行不同的存储，且利用数据处理单元进行海量数据的处理，并配合管理单元和API接口单元，实现具有海量数据收集、存储、处理和管理能力，支持数据存储、处理和计算能力线性扩展，能够支撑整个智慧城市应用系统的大数据支撑平台。

下面结合附图和具体实施例对本发明作进一步描述。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种智慧城市数据管理系统的示意性框图；

图2为本发明实施例提供的一种智慧城市数据管理系统的数据存储单元的示意性框图；

图3为本发明实施例提供的一种智慧城市数据管理系统的数据处理单元的示意性框图；

图4为本发明实施例提供的一种智慧城市数据管理系统的数据计算子单元的示意性框图；

图5为本发明实施例提供的一种智慧城市数据管理系统的管理单元的示意性框图；

图6为本发明实施例提供的一种智慧城市数据管理系统的API接口单元的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种智慧城市数据管理系统100的示意性框图。该一种智慧城市数据管理系统100运用在服务器中。

图1是本发明实施例提供的一种智慧城市数据管理系统100的示意性框图。如图1所示，一种智慧城市数据管理系统100基于开源生态系统实现大规模海量数据的收集、处理和管理，可以运行在低廉的普通硬件上，具有海量数据存储和管理能力，支持数据存储和计算能力线性扩展，采用轻量面向服务的架构模式对平台功能模块进行分割和组合，对外提供基于面向服务的统一Restful API(应用程序接口，Application ProgrammingInterface)服务标准接口，对关键功能模块节点使用了冗余技术，提高了整个平台的可用性。目前，该平台经实践证明，可以满足智慧城市中海量数据存储、多样化业务处理、跨部门跨业务挖掘分析等复杂需求。

请参阅图1，一种智慧城市数据管理系统100，包括数据采集单元101、数据存储单元102以及数据处理单元103。

数据采集单元101，用于集成DataX、flume、MaxWell、分布式爬虫和kafka的采集处理技术，获取数据并进行抽取、清洗、过滤及转换，以得到处理结果，并输出处理结果；

数据存储单元102，用于对所述处理结果中的多源异构数据进行整合和存储管理，以得到存储结果；

数据处理单元103，用于对所述存储结果进行任务划分，以形成子任务，并将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果，并综合子处理结果，以得到总处理结果。

在本实施例中，智慧城市应用系统很大程度上减少了人工参与的工作量，并提高了业务管理的效率及质量。长期的应用过程积累了大量的数据，由于这些数据分别存储在不同的终端系统中，并且存储形式也存在较大差异，所以当需要对这些数据进行关联分析时，就需要到各个系统中分别抽取数据，然后再对抽取的数据进行有效性校验、清洗、汇总等工作，最后才能进行具体的业务数据分析，流程复杂容易出错，并且浪费较多的工作量。

数据采集单元101主要通过定制开发实现，通过指定的特定规则实现对任意数据源的抽取、清洗、过滤及转换，且支持将处理后的数据输出到任意数据存储对象中，进而实现对目标数据的汇总存储，通过数据采集和交换层将原本孤立存储的数据资源进行整合、汇总，实现数据的互联互通分析应用需求，由于存储的数据类型、数据粒度和数据格式等差异，因而需要将这些异构的数据资源进行统一汇总存储，并同时满足全量、增量数据的动态同步。

针对多数据源的异构数据同步以及由此带来的数据适配和采集质量等问题，为了提升数据同步的效率和质量，数据采集和交换层基于开源生态的数据采集同步DataX、flume、MaxWell、分布式爬虫和kafka等ETL即抽取、清洗、转换、装载的采集处理技术，根据业务需求采集数据并按照一定的规则进行清洗、过滤和转换，从而提高数据同步的准确度，为最终数据的高质量分析汇总提供可靠的保障。

其中，分布式爬虫工具主要实现全量、增量采集网络平台数据；工具maxwell采集mysql的binlog，Maxwell是无侵入式、轻量级的，具有断点还原能力，出错风险低；异构数据源离线同步工具DataX，主要实现包括关系型数据库MySQL、Oracle等、HDFS、Hive、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能；用于收集日志的flume工具；基于消息队列的数据接入工具kafka等。

在一实施例中，请参阅图2，上述的数据存储单元102包括Hadoop云平台1021、MPP集群子单元1022、MySQL集群子单元1023以及分布式缓存子单元1024。

Hadoop云平台1021，用于存储所述处理结果中的半结构化和相关非结构化文件；

MPP(大规模并行处理，Massively Parallel Processing)集群子单元，用于存储所述处理结果中的PB级别的结构化数据；

MySQL集群子单元1023，用于存储所述处理结果中的结构化事务性数据；

分布式缓存子单元1024，用于存储所述处理结果中的变化少但需要频繁读取的数据资源。

智慧城市系统涉及图像、音频、视频、文本等大量非结构化文件，在数据种类繁多、数据处理复杂的情况下，很显然，单一的存储技术不能满足日益复杂的业务存储查询需求，因此，采用基于混搭架构的大数据存储平台，可以有效满足结构化、半结构化和非结构化数据的存储及处理需求，实现海量数据的存储，并支持100PB级别及以上的容量，能够高效的管理千亿级别及以上的海量数据，并在不中断业务运行的情况下，实现在线扩容平台存储能力。

其中，Hadoop云平台1021集成了HBase、kudu以及分布式文件系统HDFS。

使用MPP分布式数据库处理PB级别的、高质量的结构化数据，同时为智慧应用提供丰富的SQL支持能力。基于hadoop分布式平台实现半结构化、非结构化数据的存储和处理，HDFS(Hadoop分布式文件系统，Hadoop Distributed File System)具有高吞吐量连续读取数据的能力，而HBase技术适用于低延迟的随机读写场景。Kudu是一个介于hdfs和hbase之间的高速分布式列式存储数据库，支持水平扩展，使用Raft协议进行一致性保证。通过将kudu、HDFS与HBase进行整合，共同进行大数据存储处理，实现低延时的随机数据访问和高吞吐的海量数据分析需求。

基于Hadoop分布式文件系统HDFS存储相关非结构化文件，HDFS基于高效的分布式通信、数据结构和存储算法，将数据的访问和存储分布在大量服务器之中，有着高容错性的特点，能够提供高吞吐量的数据访问，为了实现非结构化文件的海量高效存储，存储平台基于QJM(仲裁日志管理器，Quorum Journal Manager)的HDFS HA方案构建了高可用HDFS集群，主NameNode写操作日志数据存储到QJM集群，备NameNode从QJM中读取数据实现同步，QJM的基本原理是用2N+1台JournalNode存储Editlogs，每次写数据操作有大多数，即≥N+1，返回成功时则认为该次写成功，保证数据高可用，该集群部署主备两个NameNode和多个DataNode，NameNode负责存储元数据信息和操作日志，datanode负责存储实际数据，DataNode按照一式多份存储数据保证数据的高可用性和高性能，并随着数据量的增长水平扩展，NameNode通过主备节点实现高可用，主备节点间通过共享操作日志实现数据的同步。

HBase底层基于Hadoop HDFS分布式文件系统，具备很高的稳定性，其海量结构化存储为应用提供了安全、高效、高度可扩展的分布式结构化和半结构化数据存储服务，结构化数据存储服务采用与传统数据库相同的设计模型，支持数字、字符串、二进制和布尔值等多种数据类型。而半结构化数据存储则更为灵活，允许开发者自定义数据模型，提供多种数据访问方式，透明的数据存储管理，以支持高性能应用程序开发。

集群中包含多个HMaster和多个HRegionServer，以及负责分布式协调工作的zookeeper集群。HMaster功能上主要负责table和region的管理工作，通过启用多个HMaster，利用zookeeper的Master Election机制，避免HMaster单点问题。HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是Hbase中最核心模块，内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region。平台部署时将HRegionServer和DataNode部署在一个节点上，实现就近访问数据提高性能。

Kudu是一个介于hdfs和hbase之间的高速分布式列式存储数据库，专门为了对快速变化的数据进行快速的分析，对数据扫描和随机访问同时具有高性能，对快速变化的数据具有进行快速的分析能力，有效填补了hdfs和hbase在存储层的大规模分析能力空缺。

MPP集群子单元1022分布式并行处理数据库基于开放平台x86服务器，主要依靠软件架构上的创新、数据多副本机制和分布式内存并行系统，实现系统的高可用性和可扩展性。支持PB级别及以上的数据存储，采用无共享架构设计，无单点故障，可以实现线性扩展，数据多副本机制可以有效的保证数据的安全。

MySQL集群子单元1023主要用来存储结构化事务性数据，如用户管理、角色管理、权限管理等，为应用提供丰富的SQL支持能力。

分布式缓存子单元1024主要为了减少对存储设备的频繁读取，提升高峰时期用户的访问效率，平台提供统一的分布式缓存，将变化较少但需要频繁读取的数据资源在数据库和应用之间增加高速缓存，变化较少但需要频繁读取的数据可以是基本没有变化且需要经常读取的数据，这个可以根据实际情况确定，可以有效降低数据访问层的压力，极大提升系统性能，同时可避免基于水平扩展架构的服务器其中发生宕机时，通过分布式缓存能够有效保证平台的高可用性。

通过把常用的、不经常变化的基础数据放在内存中，减少访问次数，从而提高应用的响应速度、提高系统性能。

在一实施例中，请参阅图3，上述的数据处理单元103包括任务划分子单元1031、数据计算子单元1032以及结果综合子单元1033。

任务划分子单元1031，用于对所述存储结果进行任务划分，以形成子任务；

数据计算子单元1032，用于将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果；

结果综合子单元1033，用于综合子处理结果，以得到总处理结果。

对于数据处理单元103而言，面向大数据进行数据处理或者挖掘分析时，通过提供强大的分布式计算能力来解决，通过将一个大的任务划分成多个子任务，然后把这些子任务交给多个计算节点进行处理，最后把这些子任务节点的计算结果综合起来得到最终的结果。对应不同的大数据处理场景，系统提供离线计算Map/Reduce+hive、流式计算flink/storm、内存计算impala和智能计算neo4j/jena等计算服务。

在一实施例中，请参阅图4，上述的数据计算子单元1032包括离线计算模块10321、流式计算模块10322、内存计算模块10323以及智能计算模块10324。

离线计算模块10321，用于进行子任务中的海量数据非实时统计；

流式计算模块10322，用于进行子任务中的实时数据计算处理；

内存计算模块10323，用于进行子任务中的海量统计大数据实时查询；

智能计算模块10324，用于进行子任务中的统计分析和深度挖掘，具体地，用于采用机器学习和图计算技术进行子任务中的统计分析和深度挖掘。

离线计算模块10321通过分布式离线批处理计算实现对海量数据的非实时统计，主要用来统计业务汇总数据，一般按日/月/季度/年等周期统计数据，对实时性要求不高。

流式计算模块10322通过流式计算技术实现对实时数据的计算处理，对实时获取的数据进行计算处理并能够实时响应结果，主要特点是数据吞吐量大、数据处理时效性高。

内存计算模块10323通过内存计算计算对海量统计大数据的实时查询，根据用户输入的不同实时查询作出不同的响应，不限制查询条件，用户可以自定义各种条件组合。实时数据查询使用户能随时面对大数据进行交互统计，快速获取想要的结果。

智能计算模块10324通过智能计算技术从海量数据中发现隐藏于其中的有价值信息，主要机器学习和图计算等技术实现对大数据的统计分析和深度挖掘。

在一实施例中，请参阅图1，上述的系统还包括：

管理单元104，用于对分布式任务调度、元数据、资源和安全进行统一管理；

API接口单元105，用于发布、调用、注册、订阅以及路由的服务治理。

具体地，上述的管理单元104对整个分布式集群基于平台管理进行统一管理，基于开源生态系统开发了统一的平台管理单元104，主要包括分布式任务调度管理、元数据管理、资源管理和安全管理。

在一实施例中，请参阅图5，上述的管理单元104包括安全管理子单元1041、任务管理子单元1042、资源管理子单元1043以及元数据管理子单元1044。

安全管理子单元1041，用于以LDAP为数据存储后端、以Kerberos为验证前端以及以bind为主机识别进行统一的命令行管理工具和web、管理界面的安全信息集成管理。

具体地，安全管理主要基于FreeIPA的安全信息集成管理解决方案，整合了LDAP(轻型目录访问协议，Lightweight Directory Access Protocol)、Kerberos、Bind、NTP(网络时间协议，Network Time Protocol)等核心软件包，从而形成了一个以LDAP为数据存储后端，Kerberos为验证前端，bind为主机识别，同时还提供了统一的命令行管理工具和web、管理界面的安全信息集成管理系统，当通过FreeIPA创建一个Kerberos用户的同时，会自动创建一个相同的LDAP用户和linux服务器用户，并能够保证三个用户的事务一致性，帮助平台实现用户的统一管理和安全验证，能够有效的保障Hadoop服务的安全性。

任务管理子单元1042，用于对大量子任务进行处理和分析，通过配置各个子任务之间存在时间先后及前后依赖关系组织子任务的执行计划。

具体地，任务管理子单元1042主要将由大量任务单元组成譬如shell脚本程序，java程序，map/reduce程序、hive脚本等处理分析任务，通过配置各个任务单元之间存在时间先后及前后依赖关系，组织好任务的执行计划。通过开源的工作流调度工具Azkaban实现，基于Web的可视化任务配置模式，允许用户自定义配置任务定时执行的周期、任务执行的顺序及依赖关系，并同时实现对任务的动态管理，包括任务的启动、暂停、停止等，使用job配置文件建立任务之间的依赖关系，在一个工作流内以一个特定的顺序运行一组工作和流程任务，并定义建立任务之间的依赖关系，保障任务能够持续、稳定的执行。

资源管理子单元1043，用于提供统一的资源调度和管理服务。

具体地，资源管理子单元1043主要基于yarn+zookeeper实现，yarn为平台提供统一的资源调度和管理服务，并且能够根据各种计算框架的负载需求，调整各自占用的资源，实现集群资源共享和资源弹性收缩；zookeeper为分布式应用程序提供协调服务，主要包括主从协调、服务器节点动态上下线、统一配置管理、分布式共享锁、统一名称服务等。

元数据管理子单元1044，用于提供城市数据的统一处理和管理。

具体地，元数据管理子单元1044打通了源数据、数据仓库、数据应用，帮助平台管理人员有效做好系统的维护管理，实现城市数据的统一处理和管理，主要分为技术元数据、业务元数据，技术元数据存储关于平台系统用于开发和管理数据仓库使用的数据，业务元数据主要从业务角度描述数据仓库中的数据。

在一实施例中，请参阅图6，所述API接口单元105包括：

服务引擎1051，用于提供服务的发布和调用响应。

所述API接口单元105还包括：

服务注册中心1052，用于提供服务路由、服务授权以及服务生命周期管理；

服务监控中心1053，用于收集服务引擎1051的运行数据进行统计分析，监控服务运行状况，服务状态发生异常会自动发出告警。

上述的API(应用程序接口，Application Programming Interface)接口单元是基于面向服务的统一数据API接口服务框架，支持高并发访问，所有的服务接口通过服务框架实现发布、调用、注册、订阅以及路由等其它服务治理功能。服务提供方把服务地址发布到服务框架中，服务调用方从服务框架获取服务地址后，直接调用服务提供方提供的服务，服务框架统一提供访问缓存、消息队列等技术处理以满足服务的稳定性和高并发处理能力，服务框架主要分为三大功能模块服务注册中心1052、服务监控中心1053以及服务引擎1051。

具体地，上述的服务注册中心1052提供统一服务管理功能，服务提供方会将最新的地址发布在注册中心中，服务调用方通过订阅实时获取最新的服务地址，另外还有比如服务路由、服务授权、服务生命周期管理等。

服务监控中心1053负责收集服务引擎1051运行数据进行统计分析，监控服务运行状况，服务状态发生异常会自动发出告警。监控中心会记录并持久化存储服务调用记录，通过分析调用记录可以了解服务的长期运行情况。

服务引擎1051提供服务的发布和调用响应功能，使用轻量级的服务协议。通信协议舍弃了笨重的WebService协议，采用Socket协议进行直接通信，降低了通信中编码解码的计算量，服务调用不再经过服务总线，而是采用长连接模式直接通信，由服务注册节点通知服务调用方当前可用的所有服务提供方的信息，通过节点弹性扩展提高服务并发能力，节点冗余保证服务的可靠性。

上述的一种智慧城市数据管理系统100通过大数据支撑平台的建设，实现各政府部门数据的整合，最终汇聚构成智慧城市大数据，通过对这些结构化、半结构化和非结构化数据的处理、分析和建模，为政府提供全面的数据分析。

首先，以政府各部门业务数据为基础，为各类政务应用系统的数据交换提供统一和集中的数据汇聚、管理和交换服务，推动部门间数据的相互衔接，协同联动，打破信息孤岛。

其次，在数据存储上，存储架构不再使用传统的关系型数据库+集群部署的模式，考虑到城市大数据存储平台需要支撑海量数据的集中存储，完成大量、高并发需求的结构化、非结构化数据的快速处理以及挖掘分析，通过利用分布式集群并行计算技术，提供高性能数据采集和交换能力、存储能力、计算能力和处理能力，为政府发展规划、城市治理等业务提供强有力的支持；Hadoop集群存储价值密度低、半结构化和非结构化等原始数据，价值密度高的核心业务数据和中度汇总模型数据存储到MySQL集群，复杂灵活的轻度汇总数据存储到中低成本的MPP分布式数据库。MySQL集群中的历史数据定时迁移到中低成本的MPP分布式集群，减轻主数据仓库的计算和存储压力，同时支撑深度的数据挖掘分析。通过各个领域大数据智慧应用，实现城市运行数据资源的最大化利用，一方面通过对数据资源进行挖掘支撑政府精细化、科学化管理及服务运营；另一方面通过数据开发，引导公共、企业参与城市建设，提升政务服务水平。

然后，面向大数据数据处理分析时，通过提供强大的计算能力来解决，采取分而治之的方式将一个大的任务划分成多个子任务，然后把这些子任务交给多个计算节点处理，最后把这些计算结果综合起来得到最终的结果。针对不同的处理场景，平台提供离线计算Map/Reduce+hive、流式计算flink/storm、内存计算impala和智能计算neo4j/jena等服务。

最后，对整个分布式集群通过支撑平台管理模块进行统一管理，同时采用轻量服务架构，满足不同领域数据资源整合共享需求，灵活支撑不同业务需求，实现不同业务领域的跨部门信息交互、整合及共享需求，支撑信息跨部门、跨层级、跨区域互通和共享，实现政府通过一次性投资建设，将平台的数据和能力开放给各个业务部门。

该系统基于智慧城市应用系统数据，负责汇集、清洗、整理和存储各委办局的数据资源，实现向政府部门、企业、社会公众开放友好、安全的脱敏政府数据接口，提供安全、稳定、可计量的大数据计算和存储能力。向下实现集中、整合数据，对接相关部门智慧应用及数据，向上实现共享数据，服务各种智慧应用系统，建立科学、统一的对外接入的接口规范，深层次挖掘数据的隐藏价值模式，提高数据运营的质量及能力，为智慧城市的建设和运营提供数据决策支撑，通过将城市应用中海量、分散、异构的信息资源集成起来，达到数据共享、信息融合的目标。

上述的一种智慧城市数据管理系统100，通过数据采集单元101采用多种采集处理技术进行数据获取、抽取、清洗、过滤及转换，再由数据存储单元102针对不同类型的数据进行不同的存储，且利用数据处理单元103进行海量数据的处理，并配合管理单元104和API接口单元105，实现具有海量数据收集、存储、处理和管理能力，支持数据存储、处理和计算能力线性扩展，能够支撑整个智慧城市应用系统的大数据支撑平台，可以在不必中断业务运行的情况下，实现数据存储能力和计算能力线性扩展，低成本提升实际业务数据处理、存储和挖掘的规范性和效率，可以有效的满足智慧城市中海量数据存储、多样化业务处理、跨部门跨业务挖掘分析等复杂需求。

上述一种智慧城市数据管理系统100可以实现为一种计算机程序的形式，该计算机程序可以在计算机设备上运行。该计算机设备是服务器，服务器可以是独立的服务器，也可以是多个服务器组成的服务器集群。

在一实施例中，还提供了一种智慧城市数据管理方法，该方法包括：

反馈所述总处理结果。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述一种智慧城市数据管理方法的具体实现过程，可以参考前述的一种智慧城市数据管理系统100实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种智慧城市数据管理系统，其特征在于，包括：

数据处理单元，用于对所述存储结果进行任务划分，以形成子任务，并将子任务根据不同的大数据处理场景调用不同的计算规则进行处理，以得到子处理结果，并综合子处理结果，以得到总处理结果；

所述数据存储单元包括：

Hadoop云平台，用于存储所述处理结果中的半结构化和相关非结构化文件；存储平台基于QJM的HDFS HA方案构建了高可用HDFS集群，主NameNode写操作日志数据存储到QJM集群，备NameNode从QJM中读取数据实现同步，QJM的基本原理是用2N+1台JournalNode存储Editlogs，每次写数据操作有大多数，即≥N+1，返回成功时则认为该次写成功，保证数据高可用，该集群部署主备两个NameNode和多个DataNode，NameNode负责存储元数据信息和操作日志，datanode负责存储实际数据，DataNode按照一式多份存储数据保证数据的高可用性和高性能，并随着数据量的增长水平扩展，NameNode通过主备节点实现高可用，主备节点间通过共享操作日志实现数据的同步；集群中包含多个HMaster和多个HRegionServer，以及负责分布式协调工作的zookeeper集群，HMaster功能上主要负责table和region的管理工作，通过启用多个HMaster，利用zookeeper的Master Election机制，避免HMaster单点问题，HRegionServer主要负责响应用户I/O请求，向HDFS文件系统中读写数据，是Hbase中最核心模块，内部管理了一系列HRegion对象，每个HRegion对应了Table中的一个Region；平台部署时将HRegionServer和DataNode部署在一个节点上；

2.根据权利要求1所述的一种智慧城市数据管理系统，其特征在于，还包括：

3.根据权利要求1所述的一种智慧城市数据管理系统，其特征在于，所述数据处理单元包括：

4.根据权利要求3所述的一种智慧城市数据管理系统，其特征在于，所述数据计算子单元包括：

离线计算模块，用于进行子任务中的海量数据非实时统计；

流式计算模块，用于进行子任务中的实时数据计算处理；

智能计算模块，用于进行子任务中的统计分析和深度挖掘。

5.根据权利要求4所述的一种智慧城市数据管理系统，其特征在于，所述智能计算模块，用于采用机器学习和图计算技术进行子任务中的统计分析和深度挖掘。

6.根据权利要求2所述的一种智慧城市数据管理系统，其特征在于，所述管理单元包括：

资源管理子单元，用于提供统一的资源调度和管理服务；

元数据管理子单元，用于提供城市数据的统一处理和管理。

7.根据权利要求2所述的一种智慧城市数据管理系统，其特征在于，所述API接口单元包括：

服务引擎，用于提供服务的发布和调用响应。

8.根据权利要求7所述的一种智慧城市数据管理系统，其特征在于，所述API接口单元还包括：

9.一种智慧城市数据管理方法，所述方法使用了权利要求1至8任一项所述的一种智慧城市数据管理系统，其特征在于，包括：

反馈所述总处理结果。