CN117914891A

CN117914891A - 用于城市运管服平台的多源异构数据共享交换系统及方法

Info

Publication number: CN117914891A
Application number: CN202410078602.2A
Authority: CN
Inventors: 钟宇; 谢勤列; 戴书球; 陶冶; 梁帅; 谷峰; 王璇; 李勇; 孙维; 江晓宇; 张宇; 成守勇; 许辉; 杨柳; 王超
Original assignee: Chongqing Smart City Science And Technology Research Institute Co ltd; CCTEG Chongqing Research Institute Co Ltd
Current assignee: Chongqing Smart City Science And Technology Research Institute Co ltd; CCTEG Chongqing Research Institute Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-04-19

Abstract

本发明属于数据共享交换技术领域，尤其涉及用于城市运管服平台的多源异构数据共享交换系统及方法，包括基于hadoop和springcloud构建的分布式系统架构，分布式系统架构为城市运管服平台搭建城市总平台和城市下各地区子平台，分布式系统架构包括配置中心、大数据处理框架和分布式文件系统，其中，配置中心基于nacos构建，大数据处理框架基于spark构建，分布式文件系统基于hdfs构建；配置中心用于配置总平台和子平台的数据处理环境，大数据处理框架用于分配总平台和子平台的数据处理资源，分布式文件系统用于存储总平台和子平台的集群化数据。本发明能够解决现有的数据共享交换系统不适用于城市运管服平台的问题。

Description

用于城市运管服平台的多源异构数据共享交换系统及方法

技术领域

本发明属于数据共享交换技术领域，尤其涉及用于城市运管服平台的多源异构数据共享交换系统及方法。

背景技术

城市运管服平台是以“一网统管”为目标，以城市运行、管理、服务为主要内容，以物联网、大数据、人工智能、5G通信等前沿技术为支撑，具有统筹协调、指挥调度、预警监测、监督考核、综合评价功能和数据共享交换的等功能的平台。

在城市运管服平台中，其接收和处理的城市运行数据均是具有特定特征、特定场景和特定处理类型的，要想使得城市运管服平台能够较好的接收和传输城市运行数据，数据共享交换系统的搭建非常重要。

目前数据共享交换系统广泛应用于政务领域和大型商业领域，为政务数据和商业大数据的建设提供基础保障。数据共享交换系统基于分布式云架构，帮助政府和企业打破部门间的数据孤岛，适应于大数据时代的数据交换场景。数据共享交换平台用以梳理各部门的数据资产，提供各种数据和API的共享交换服务，在各部门间打造高速的“数据物流中枢”，做到数据的有效“服务化”；但是现有的商业化的数据共享交换系统都过多的进行功能堆砌，导致费用昂贵。城市运管服平台所使用的数据共享交换系统必须具备较高的性价比，专项聚焦于专业领域，并支持后续扩展。所以目前的商业化数据共享交换系统不适合直接应用于城市运管服平台中。

发明内容

本发明所解决的技术问题在于提供一种用于城市运管服平台的多源异构数据共享交换系统及方法，以解决现有的数据共享交换系统不适用于城市运管服平台的问题。

本发明提供的基础方案：用于城市运管服平台的多源异构数据共享交换系统，包括基于hadoop和springcloud构建的分布式系统架构，所述分布式系统架构为城市运管服平台搭建城市总平台和城市下各地区子平台，所述分布式系统架构包括配置中心、大数据处理框架和分布式文件系统，其中，配置中心基于nacos构建，大数据处理框架基于spark构建，分布式文件系统基于hdfs构建；

所述配置中心用于配置总平台和子平台的数据处理环境，所述大数据处理框架用于分配总平台和子平台的数据处理资源，所述分布式文件系统用于存储总平台和子平台的集群化数据。

进一步，所述配置中心包括动态服务发现模块、服务配置管理模块和服务流量管理模块，所述动态服务发现模块用于开发和搜寻城市运管服平台的服务功能，所述服务配置管理模块用于配置管理总平台和子平台的数据共享交换，所述服务流量管理模块用于对实时流数据进行监控和过滤受污染的数据。

进一步，所述大数据处理框架包括任务控制节点、资源管理器和工作节点，所述任务控制节点和若干个工作节点与资源管理器连接，所述大数据处理框架用于分配总平台和子平台的数据处理资源具体为：

据城市下各个子平台数据流地址作为工作节点；

任务控制节点采用数据本地性机制和推测执行机制对实时流数据进行处理；

处理后实时流数据通过预设的转换工具进行数据转换处理，并传输至资源管理器。

进一步，所述数据本地性机制为：任务控制节点将城市下各个子平台上传的实时流数据通过各个子平台所在的工作节点进行处理；

所述推测执行机制具体为：获取在工作节点上处理的实时流数据任务转移至空闲工作节点的移动时间，并判断工作节点是否在执行任务，若是，预测该工作节点的任务剩余时间，并判断任务剩余时间大于移动时间，若是，则将工作节点上处理的实时流数据任务转移至空闲工作节点，若不是，则等待该工作节点上任务的执行完成，完成后执行实时流数据任务。

进一步，所述工作节点上均包括专属的Executor进程模块和BlockManager存储模块，所述Executor进程模块在运行期间持续驻留，并以多线程的方式运行任务；所述BlockManager存储模块用于在Executor进程模块处理任务时，将中间结果写入到BlockManager存储模块中，并将Executor进程模块在运行期间所需的文件表提前进行缓存。

进一步，所述Executor进程模块具体步骤为：

根据城市数据源系统的存储要求，通过自定义的数据转换规则制定文件表，将实时流数据按照文件表进行处理和转换，满足文件表需求。

进一步，所述处理后实时流数据通过预设的转换工具进行数据转换处理具体为：

预设的转换工具包括CustomConverter扩展规则接口和debezium同步工具；

调用CustomConverter扩展规则接口对实时流数据的转换依赖项进行初始化；

通过正则表达式对初始化后的实时流数据进行匹配，生成匹配结果；

根据匹配结果识别实时流数据的类型和字段名，并进行时区差异修正和编码格式修正；

对未初始化实时流数据调用debezium同步工具按照标准处理进行转换；

将经自定义转换工具和默认转换工具转换后的数据以json的数据格式写入资源管理器。

进一步，所述分布式文件系统包括HDFS集群，所述HDFS集群包括一个NameNode模块和若干个DataNode模块，所述NameNode模块管理文件系统的命名空间和对存储文件的访问操作，所述DataNode模块存储接收的实时流数据。

用于城市运管服平台的多源异构数据共享交换方法，包括：

S1：基于hadoop和springcloud构建分布式系统架构，所述分布式系统架构为城市运管服平台搭建城市总平台和城市下各地区子平台，所述分布式系统架构包括配置中心、大数据处理框架和分布式文件系统；

S2：调用配置中心配置总平台和子平台的数据处理环境；

S3：调用大数据处理框架分配总平台和子平台的数据处理资源；

S4：分布式文件系统用于存储总平台和子平台的集群化数据。

本发明的原理及优点在于：本发明中，基于hadoop和springcloud构建的分布式系统架构，将硬件或软件组件分布在不同的网络计算机上，每个节点都有一定的处理能力，彼此之间仅仅通过消息传递进行通信和协调，降低了成本，提高了系统的带宽和容错性，而配置中心，利用nacos配置在线编辑，历史版本追溯，灰度发布，推送轨迹等功能，实现配置的可视化界面管理、动态服务发现、服务配置管理、服务及流量管理；大数据处理框架利用spark框架的批处理模式和流处理模式实现多样化工作负载处理任务，实现大数据的计算，分析，统计等功能，分布式文件系统利用hdfs的分布式存储特性，实现海量数据的存储；同时在大数据处理框架中通过引入数据本地执行机制、推测执行机制和预设的转换工具，对传输和接收的城市运行数据以及数据处理都有很好的运行逻辑，解决数据之间的不一致问题。因此，本申请的数据共享交换系统能够更好的适用于城市运管服平台。

附图说明

图1为本发明实施例的分布式系统架构结构示意图；

图2为本发明实施例的配置中心结构示意图；

图3为本发明实施例的大数据处理框架结构示意图；

图4为本发明实施例的分布式文件系统结构示意图；

图5为本发明实施例的流程框图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例基本如图1所示：用于城市运管服平台的多源异构数据共享交换系统，包括基于hadoop和springcloud构建的分布式系统架构，所述分布式系统架构为城市运管服平台搭建城市总平台和城市下各地区子平台，所述分布式系统架构包括配置中心、大数据处理框架和分布式文件系统，其中，配置中心基于nacos构建，大数据处理框架基于spark构建，分布式文件系统基于hdfs构建；

其中，分布式系统架构基于hadoop和springcloud生态体系，构建成一个数据拆分、服务拆分的分布式系统架构方案，具体的：

Hadoop：Hadoop是一个的分布式系统基础架构，使得用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。本申请中Hadoop实现了一个分布式文件系统，其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。

Springcloud：Spring Cloud是一系列框架的有序集合，其利用Spring Boot的开发便利性巧妙地简化了分布式系统基础设施的开发，如服务发现注册、配置中心、消息总线、负载均衡、断路器、数据监控等，都可以用Spring Boot的开发风格做到一键启动和部署。

因此，针对分布式系统架构的组成，包括配置中心、大数据处理框架和分布式文件系统，如图2所示，配置中心用于配置总平台和子平台的数据处理环境，配置中心具体包括动态服务发现模块、服务配置管理模块和服务流量管理模块，所述动态服务发现模块用于开发和搜寻城市运管服平台的服务功能，例如对城市运管服平台新功能的开发，以及对接城市总平台下新的地区子平台，所述服务配置管理模块用于配置管理总平台和子平台的数据共享交换，所述服务流量管理模块用于对实时流数据进行监控和过滤受污染的数据，确保各应用之间流通数据的标准性、规范性和稳定性，提升系统的安全性。

如图3所示，大数据处理框架用于分配总平台和子平台的数据处理资源，具体的，大数据处理框架中包括任务控制节点、资源管理器和工作节点，所述任务控制节点和若干个工作节点与资源管理器连接，所述大数据处理框架用于分配总平台和子平台的数据处理资源具体为：

据城市下各个子平台数据流地址作为工作节点；

其中，工作节点上包括专属的Executor进程模块和BlockManager存储模块，所述Executor进程模块在运行期间持续驻留，并以多线程的方式运行任务，因此，通过Executor进程模块减少了多进程任务频繁的启动开销，使得任务执行变得高效和可靠，在Executor进程模块的具体实时步骤中，包括：

根据城市数据源系统的存储要求，通过自定义的数据转换规则制定文件表，将实时流数据按照文件表进行处理和转换，满足文件表需求；

在本实施例中，文件表是Executor进程模块为使得数据保持一致性所设立的，其主要通过自定义的数据转换规则制定，针对接收的实时流数据的属性生成属性表、针对实时流数据的内容生成分类表，针对实时流数据的类型进行统一转换，将属性表、分类表和数据类型融合生成的文件表，一方面能够使得接收的实时流数据内容展示明确、类型区分明确和格式一致。

而自定义的转换规则中，具体为：

对实时流数据中的异构数据源，通过字段映射规则实现异构数据源同步任务；

对敏感数据按照脱敏规则进行二次处理后写入文件表；

对异构数据源按照数据转换规则转换为目标数据，并写入文件表。

其中，异构数据源来源于不同城市子平台，大量的不同类型数据，包括关系型数据、非关系型数据、结构化数据、非结构化数据、系统数据、文件数据、文本数据、流媒体数据等，而不同类型数据的通过自定义转换规则进行数据转换、数据二次处理和数据脱敏等处理，再通过授权用户接口方式来为哪些对数据读取有需求的系统提供处理后的数据。

BlockManager存储模块用于在Executor进程模块处理任务时，将中间结果写入到BlockManager存储模块中，并将Executor进程模块在运行期间所需的文件表提前进行缓存。在本申请中，BlockManager存储模块是将内存和磁盘作为了存储设备，在Executor进程模块处理任务时，其处理过程中产生的中间结果直接放在BlockManager存储模块内，在后续有读取需求时直接进行读取，同时，在数据共享交换平台的交互式查询场景中，文件表提前缓存在BlockManager存储模块中，用以提高IO性能。

此外，对于工作节点的任务执行调度机制，在任务控制节点上，包括数据本地性机制和推测执行机制，数据本地行机制为：任务控制节点将城市下各个子平台上传的实时流数据通过各个子平台所在的工作节点进行处理；即所属城市子平台传输的实时流数据交由其部署在城市子平台的工作节点进行执行，因为在接收数据并传输到工作节点处理的移动数据方式，比移动计算方式所占的网络资源较多，为此，将任务执行的计算移动数据所在的工作节点上进行，更为节约网络资源，而在实际使用时，会存在当前数据所在的工作节点正在执行任务，需要等待当前工作节点的任务执行完成后再执行新的任务，常规的处理方式为将该任务移动到就近的工作节点上进行执行，此时会存在一些不一样的情况，经过预测发现当前工作节点结束当前任务的时间要比将任务数据移动到其他工作节点的时间要少，那么本申请的任务调度改为推测执行机制，推测执行机制是在获取在工作节点上处理的实时流数据任务转移至空闲工作节点的移动时间，并判断工作节点是否在执行任务，若是，预测该工作节点的任务剩余时间，并判断任务剩余时间大于移动时间，若是，则将工作节点上处理的实时流数据任务转移至空闲工作节点，若不是，则等待该工作节点上任务的执行完成，完成后执行实时流数据任务。

此外，在实时流的业务数据传输处理的过程中，还包括根据预测业务数据存储结果值进而对工作节点的分配，具体分配过程为：

根据工作节点的计算资源进行工作节点分级，包括一级工作节点和二级工作节点，一级工作节点的计算资源大于二级工作节点，本实施例的其他实施例还可包括其他分类方式，本申请不做限制；

预测业务数据的存储结果值，若业务数据的存储结果值大于预设的阈值，则分配一级工作节点；

若业务数据的存储结果值小于预设的阈值，则分配二级工作节点；

例如，视频数据的处理最后得到也是视频数据，而审批类业务的处理，最后得到的结果为是或者否之类的反馈结果，因此视频数据的结果大小明显大于审批类数据的结果，对此，将计算资源多的工作节点分配给视频数据的处理，将计算资源较少的工作节点分配给审批数据的处理。

此外，在传输过程中，业务数据类型的不同，其压缩率也存在不同，在数据压缩过程中，是将重复类数据进行压缩，因此，本申请还预测实时流数据的压缩率，对于表格类数据其压缩率明显高于其他类型，此时则将计算资源较多的工作节点用来处理可压缩性高的数据，将计算资源较少的工作节点用来处理可压缩性低的数据。

实时流数据任务处理完成后，通过预设的转换工具进行数据转换处理，预设的转换工具包括CustomConverter扩展规则接口和debezium同步工具；具体的：

调用CustomConverter扩展规则接口对实时流数据的转换依赖项进行初始化；本申请中实时流数据的转换依赖项为实时流数据在其所属的平台能够被运行的依赖项，因为数据格式的不同和数据版本的不同，会造成不同版本之间的软件数据不能相互兼容，需要进行数据转换，例如子平台所采用的城市模型软件与总平台所采用的城市模型软件不一致，则总平台接收到子平台的城市模型，会出现不能打开运行的情况，因此，通过调用CustomConverter扩展规则接口对实时流数据的依赖项进行初始化，转化为能够兼容的版本，即可在子平台和总平台上展示运行。

通过正则表达式对初始化后的实时流数据进行匹配，生成匹配结果；在本申请中，正则表达式为一种查找以及字符串替换操作，能够用来进行检查文本中是否含有制定的特征词、找出文本中匹配特征词的位置、从文本中提取信息和修改文本，因此，对于接收的实时流数据的编程语言，通过总平台的正则表达式进行匹配，找出满足总平台数据模型所能接收的数据文本，来与数据模型进行匹配，从而达到数据的匹配。

根据匹配结果识别实时流数据的类型和字段名，并进行时区差异修正和编码格式修正；因为在使用转换工具时，会存在时区的差异和编码格式的错误，时区的差异来自于使用了国外的转换工具所不可避免的时差，编码格式的错误在于国外转换工具处理后的数据格式与本土软件所能识别的编码格式不一致，因此，本申请还对转换后的数据进行时区差异修正和编码格式修正，以使得数据共享交换系统的数据保持一致性。

对未初始化实时流数据调用debezium同步工具按照标准处理进行转换；本申请中标准处理采用自定义转换规则，包括：

对敏感数据按照脱敏规则进行二次处理后写入文件表；

最后将经自定义转换工具和默认转换工具转换后的数据以json的数据格式写入资源管理器。

如图4所示，分布式文件系统用于存储总平台和子平台的集群化数据，资源管理器中的实时流数据传输至分布式文件系统中进行存储，具体的，分布式文件系统包括HDFS集群，HDFS集群利用hdfs的分布式存储特性，实现海量数据的存储，其中，HDFS集群中包括一个NameNode模块和若干个DateNode模块，所述NameNode模块用于作为主服务器管理文件系统的命名空间，和对接数据处理系统中资源管理器的访问操作，所述DateNode模块用于管理存储的数据，因此，在HDFS的底层数据被切割成多个Block，而这些Block又被复制后存储在不同的DateNode模块中，以达到容错容灾的目的。

如图5所示，在本实施例的另一实施例中，还包括用于城市运管服平台的多源异构数据共享交换方法，包括：

S2：调用配置中心配置总平台和子平台的数据处理环境；

以上的仅是本发明的实施例，方案中公知的具体结构及特性等常识在此未作过多描述，所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识，能够获知该领域中所有的现有技术，并且具有应用该日期之前常规实验手段的能力，所属领域普通技术人员可以在本申请给出的启示下，结合自身能力完善并实施本方案，一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出，对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.用于城市运管服平台的多源异构数据共享交换系统，其特征在于：包括基于hadoop和springcloud构建的分布式系统架构，所述分布式系统架构为城市运管服平台搭建城市总平台和城市下各地区子平台，所述分布式系统架构包括配置中心、大数据处理框架和分布式文件系统，其中，配置中心基于nacos构建，大数据处理框架基于spark构建，分布式文件系统基于hdfs构建；

2.根据权利要求1所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述配置中心包括动态服务发现模块、服务配置管理模块和服务流量管理模块，所述动态服务发现模块用于开发和搜寻城市运管服平台的服务功能，所述服务配置管理模块用于配置管理总平台和子平台的数据共享交换，所述服务流量管理模块用于对实时流数据进行监控和过滤受污染的数据。

3.根据权利要求2所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述大数据处理框架包括任务控制节点、资源管理器和工作节点，所述任务控制节点和若干个工作节点与资源管理器连接，所述大数据处理框架用于分配总平台和子平台的数据处理资源具体为：

据城市下各个子平台数据流地址作为工作节点；

4.根据权利要求3所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述数据本地性机制为：任务控制节点将城市下各个子平台上传的实时流数据通过各个子平台所在的工作节点进行处理；

5.根据权利要求4所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述工作节点上均包括专属的Executor进程模块和BlockManager存储模块，所述Executor进程模块在运行期间持续驻留，并以多线程的方式运行任务；所述BlockManager存储模块用于在Executor进程模块处理任务时，将中间结果写入到BlockManager存储模块中，并将Executor进程模块在运行期间所需的文件表提前进行缓存。

6.根据权利要求5所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述Executor进程模块具体步骤为：

7.根据权利要求6所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述处理后实时流数据通过预设的转换工具进行数据转换处理具体为：

8.根据权利要求7所述的用于城市运管服平台的多源异构数据共享交换系统，其特征在于：所述分布式文件系统包括HDFS集群，所述HDFS集群包括一个NameNode模块和若干个DataNode模块，所述NameNode模块管理文件系统的命名空间和对存储文件的访问操作，所述DataNode模块存储接收的实时流数据。

9.用于城市运管服平台的多源异构数据共享交换方法，其特征在于：包括：

S2：调用配置中心配置总平台和子平台的数据处理环境；