CN112860653A

CN112860653A - 一种政务信息资源目录管理方法和系统

Info

Publication number: CN112860653A
Application number: CN201911100656.XA
Authority: CN
Inventors: 王海荣; 肖万来; 陈辉; 姚伯祥
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2021-05-28

Abstract

本发明公开了一种政务信息资源目录管理的方法，包括:S1.搭建基于Hadoop组件的大数据存储平台；S2.汇聚各方业务数据至大数据存储平台；S3.制定统一的资源目录元数据信息及资源目录编制规则；S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照信资源目录元数据信息及资源目录编制规则进行填报，并通过包括审核、发布、订阅、审批及下架操作，进行信息资源目录全生命周期管理。本发明方法和系统面对海量的数据存储及数据访问和共享要求，采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储，将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台，实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。

Description

一种政务信息资源目录管理方法和系统

技术领域

本发明属于政务数据处理分析技术领域，具体而言，为一种政务信息资源目录管理方法和系统。

背景技术

政务信息资源涵盖政府领导下的各委员会、办公室、业务部门信息资源，数据资源总量巨大，数据存储容量可达到PB量级，数据种类繁杂，数据分散严重，数据库类型各不相同，各部门内部信息系统建设标准及数据资源目录定义和描述规则各不相同。需要一种新的技术或方法实现政务信息资源的统一定义和管理。

有鉴于此，特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，提供一种政务信息资源目录管理方法和系统，以利于解决目前技术中现有政务信息资源各自为政，标准各不相同的情况下，数据资源难以统一管理的问题。

为解决上述技术问题，本发明采用技术方案的基本构思是：

一种政务信息资源目录管理的方法，包括如下步骤:

S1.搭建基于Hadoop组件的大数据存储平台；

S2.汇聚各方业务数据至所述大数据存储平台；

S3.制定统一的资源目录元数据信息及资源目录编制规则；

S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报，并通过包括审核、发布、订阅、审批及下架的操作，进行信息资源目录的全生命周期管理。

进一步的，上述的政务信息资源目录管理的方法中，步骤S1.中，使用ApacheHadoop集群管理工具Ambari搭建部署至少由分布式文件系统HDFS、并行计算模型MapReduce、数据仓库hive以及分布式协调机制Zookeeper大数据组件的大数据存储平台。

进一步的，上述的政务信息资源目录管理的方法中，步骤S2.中，包括

在各委办局配置前置机终端，在前置机部署mysql、sqlserver、oracle关系型数据库，数据接收接口服务以及数据文件接收处理服务；

将各委办局业务源数据汇聚至前置机终端，然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。

进一步的，上述的政务信息资源目录管理的方法中，步骤S3.中，包括

其中资源目录元数据信息包含：资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种；

资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。

进一步的，上述的政务信息资源目录管理的方法中，步骤S4.中，包括

将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报，并依据目录发布流程及目录订阅流程，对资源目录进行全生命周期管理。

本发明还提供了一种政务信息资源目录管理系统，包括处理器和存储器，存储器中存储有程序，所述程序被处理器运行时，能够执行如下步骤：

D1.搭建或运行基于Hadoop组件的大数据存储平台；

D2.汇聚各方业务数据至所述大数据存储平台；

D3.制定统一的资源目录元数据信息及资源目录编制规则；

D4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报，并通过包括审核、发布、订阅、审批及下架的操作，进行信息资源目录的全生命周期管理。

进一步的，上述的政务信息资源目录管理的系统中，程序运行步骤D1.时，包括

使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(HadoopDistributed File System，分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)大数据组件的大数据存储平台。

进一步的，上述的政务信息资源目录管理的系统中，程序运行步骤D2.时，包括

各委办局配置前置机终端部署mysql、sqlserver、oracle关系型数据库，数据接收接口服务以及数据文件接收处理服务；

进一步的，上述的政务信息资源目录管理的系统中，程序运行步骤D3.时，

资源目录元数据信息包含：资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种；

进一步的，上述的政务信息资源目录管理的系统中，

将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报，并依据目录发布流程及目录订阅流程，对资源目录进行全生命周期管理

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

本发明方法充分考虑当前政务数据体量巨大、分散各处、数据格式庞杂等特点，面对海量的数据存储及数据访问和共享要求，采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储，使用MapReduce实现数据加工和处理，实现海量结构化数据及图片、视频等非结构数据存储的能力可扩展的大数据平台，将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台，实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。本发明提供了实施上述方法的系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种政务信息资源目录管理的方法的流程图；

图2是本发明方法中资源目录标识代码构成示意图；

图3是本发明方法中资源目录标识代码后端码示意图；

图4是本发明中资源目录主题定义示意图；

图5是本发明中资源目录编制流程示意图；

图6是本发明中资源目录订阅流程示意图。

具体实施方式

下面结合附图和具体实施例，对本发明作进一步说明，以助于理解本发明的内容。

如图1所示，一种政务信息资源目录管理的方法，包括如下步骤:

S1.搭建基于Hadoop组件的大数据存储平台；

S2.汇聚各方业务数据至所述大数据存储平台；

S3.制定统一的资源目录元数据信息及资源目录编制规则；

具体的，步骤S1.中，使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(Hadoop Distributed File System，分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)等大数据组件的大数据存储平台，从而具备大数据存储能力。

即，本发明方法中，面对海量的数据存储及数据访问和共享要求，采用基于hadoop基础框架搭建的所述大数据存储平台，将政务海量数据存储于分布式文件系统(HDFS)中，实现数据集的离散化存储与查询；关联hive和HDFS，以便HDFS生成的文件导入hive数据仓库中；使用并行计算模型MapReduce对Hive数据库和HDFS中的数据进行加工和处理，并可采用具备SQL解释器的数据仓库工具Presto实现数据的可视化管理；实现以一种可靠的，具有高容错能力的方式并行地处理上PB级别的海量数据集。

步骤S2.中，通过在各委办局配置前置机终端，在前置机部署mysql、sqlserver、oracle等关系型数据库，数据接收接口服务以及数据文件接收处理服务。首先将各委办局业务源数据汇聚至前置机终端，然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。

具体的，在各委办局分别部署前置机及防火墙，各前置机只汇聚当前委办局的业务数据。前置机之间物理隔离，无法互相通讯，以保障数据安全。数据可通过数据库、文件、接口等多种形式进行接入。

数据库方式支持：

1)将业务数据从各委办局业务系统数据库自动抽取至前置机数据库；

2)前置机数据库开发账户，各委办局业务系统主动将数据推送至前置机数据库；数据定时自动抽取周期可分为：5分钟、15分钟、30分钟、1小时、1天、1周、1个月等周期。

文件方式支持：1)各版本Excel文件；2)json格式文件；3)cvs格式文件。

接口方式支持：1)提供标准的数据接入接口，接口为基于HTTP协议的RESTful接口；2)支持定制化WebService、Socket、kafka等接口形式的数据接入。

步骤S3.中，为了对汇聚至大数据平台的业务数据进行统一管理，本发明方法中依据国家相关标准、行业标准和/或地方标准制定统一的资源目录元数据信息及资源目录编制规则。如依照《GBT 21063》等相关国家标准定义资源目录元数据信息项，以及资源目录编码规则。

其中资源目录元数据信息将包含：资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表、字段共享类型等信息。资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。

资源目录标识是标识资源目录唯一性的代码，资源目录标识符编码规则中，资源目录标识代码由前端码与后端码组成；前端码标识该资源目录的操作对象及属性，依据用户ID生成，用于标明为政务信息资源分配后端码的实体，长度为5为字母数字。后端码是政务信息资源标识符中字符“/”之后的部分，用于对同一实体内部所管理或拥有的信息资源进行唯一标识政务信息资源的顺序码及属性码。前端码与后端码之间使用“/”分隔，所采用的字符为《GB18030》中规定的任意字符，如图2所示的。

具体的，如图3所示，前端码的前两位：用于区别不同的省、自治区、直辖市和特别行政区。每个省、自治区、直辖市和特别行政区内的所有目录管理者和政务部门前端码的前两位相同。如河北省的前两位为“13”，则河北省范围内的各级目录管理者和政务部门的前端码都以“13”开头。

前端码的第三位：以“0”开头的，分配给省级目录管理者及省级政务部门，例如“130**”分配给河北省目录管理者和省级政务部门。“1”到“Z”开头的前端码分配给省以下的各地市，比如“131**”分配给石家庄市。

前端码的第四位：以“0”、“O”到“Z”开头的，分配给地市级目录管理者和地市级政务部门，比如“1310*”以及从“131Q*”到“131Z*”分配给石家庄市目录管理者和市级政务部门。“1”到“P”开头的前端码分配给地市以下的各区县。

前端码的第五位：将“0”分配给县级目录管理者，“1”到“Z”保留。

后端码的前两位：表示各委办局编码，每个委办局编码各部相同。例如“01”民政局。

后端码的第三位：表示资源目录所属的四大库，具体为0：人口库，1：法人库，2：经济库，3：空间地理库。

后端码的第四至九位：标识资源目录所属的主题类别，主题类别定义如图4所示的；例如“ZA”综合政务，“ZAA00”政务综合类，“ZAB00”方针政策。

后端码的第十位之后：生成标识唯一的UUID。

资源目录标识标明资源内容，帮助工作人员对海量的信息资源的归类、以及后期管理过程中缩短检索查询时间,更快捷地识别和选择需要的信息资源等。

步骤S4.中，依据上述步骤，将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报，并依据目录发布流程及目录订阅流程，对资源目录进行全生命周期管理。

资源目录全生命周期，涉及新建/编辑、保存、待提交、提交、待审核、审核完成、待发布、已发布、订阅、订阅审核、下架等环节或过程。主要分为目录编制和目录订阅两个主要业务流程：

1)目录编制流程：开始-》编辑-》提交申请-》审批-》发布-》下架。

2)目录订阅流程：开始-》填写申请信息-》提交申请-》审批-》获取数据-》结束。

资源目录的管理涉及多个角色，委办局基层人员(委办局信息录入员或委办局申请者)负责目录的编制、上报和发布。委办局管理人员(委办局审批人员或数据所属委办局审批人员)对基层人员提交的目录编制内容进行审核以及对其他委办局提交的获取数据申请进行审批。大数据工作人员(智慧办工作人员或大数据局人员)对各委办局提交的目录编制进行审核以及实时接收各委办局已通过订阅申请审批的通知消息。

因资源目录存在多个共享等级，所以目录编制及目录订阅流程存在一定的差别，可参见图5及图6。

信息资源是政府内部一种重要的资产，为充分发挥信息资源价值，实现政务信息资源信息的互联互通，提升政府内部各委办局之间信息资源的数据共享和感知能力，首先需要按照一定的规则或标准对所有的政务信息资源内容进行统一的梳理和编码管理，并形成完整的信息资源目录管理体系。目录编排的规则应首先满足国标GBT 21063对政务信息资源编排规则的描述。政务信息资源目录管理是政务信息资源共享的基础，是整个电子政务框架体系建设不可或缺的一部分。

本发明方法充分考虑当前政务数据体量巨大、分散各处、数据格式庞杂等特点，面对海量的数据存储及数据访问和共享要求，采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储，使用MapReduce实现数据加工和处理，实现海量结构化数据及图片、视频等非结构数据存储的能力可扩展的大数据平台，将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台，实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。

另一方面，本发明还提供了一种政务信息资源目录管理系统，用于实施上述管理方法；其包括处理器和存储器，存储器中存储有程序，所述程序被处理器运行时，能够执行如下步骤：

D1.搭建或运行基于Hadoop组件的大数据存储平台；

D2.汇聚各方业务数据至所述大数据存储平台；

D3.制定统一的资源目录元数据信息及资源目录编制规则；

程序运行步骤D1.时，包括

使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(HadoopDistributed File System，分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)等大数据组件的大数据存储平台，从而具备大数据存储能力。

即本发明系统采用基于hadoop基础框架搭建的所述大数据存储平台，将政务海量数据存储于分布式文件系统(HDFS)中，实现数据集的离散化存储与查询；关联hive和HDFS，以便HDFS生成的文件导入hive数据仓库中；使用并行计算模型MapReduce对Hive数据库和HDFS中的数据进行加工和处理，并可采用具备SQL解释器的数据仓库工具Presto实现数据的可视化管理；Zookeeper配置维护、域名服务、分布式同步、组服务；实现以一种可靠的，具有高容错能力的方式并行地处理上PB级别的海量数据集。

程序运行步骤D2.时，包括

通过在各委办局配置前置机终端，在前置机部署mysql、sqlserver、oracle等关系型数据库，数据接收接口服务以及数据文件接收处理服务。首先将各委办局业务源数据汇聚至前置机终端，然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。

在各委办局分别部署前置机及防火墙，各前置机只汇聚当前委办局的业务数据。前置机之间物理隔离，无法互相通讯，以保障数据安全。数据可通过数据库、文件、接口等多种形式进行接入。

数据库方式支持：

3)将业务数据从各委办局业务系统数据库自动抽取至前置机数据库；

4)前置机数据库开发账户，各委办局业务系统主动将数据推送至前置机数据库；数据定时自动抽取周期可分为：5分钟、15分钟、30分钟、1小时、1天、1周、1个月等周期。

程序运行步骤D3.时，包括

制定统一的资源目录元数据信息及资源目录编制规则以对汇聚至大数据平台的业务数据进行统一管理。

如依照《GBT 21063》等相关国家标准定义资源目录元数据信息项，以及资源目录编码规则。

资源目录标识是标识资源目录唯一性的代码，资源目录标识符编码规则中，资源目录标识代码由前端码与后端码组成；前端码标识该资源目录的操作对象及属性，依据用户ID生成，用于标明为政务信息资源分配后端码的实体，长度为5为字母数字。后端码是政务信息资源标识符中字符“/”之后的部分，用于对同一实体内部所管理或拥有的信息资源进行唯一标识政务信息资源的顺序码及属性码。前端码与后端码之间使用“/”分隔，所采用的字符为《GB18030》中规定的任意字符，如图2所示。

后端码的第十位之后：生成标识唯一的UUID。

程序执行步骤D4.时，包括

本发明系统用于实施本发明上述方法，以实现海量政务信息数据的组织、梳理和编排以及全生命周期的统一化、标准化管理，提高政务工作便捷性，提高政务工作效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种政务信息资源目录管理的方法，其特征在于，包括如下步骤:

S1.搭建基于Hadoop组件的大数据存储平台；

S2.汇聚各方业务数据至所述大数据存储平台；

S3.制定统一的资源目录元数据信息及资源目录编制规则；

2.根据权利要求1所述的政务信息资源目录管理的方法，其特征在于，步骤S1.中，使用Apache Hadoop集群管理工具Ambari搭建部署至少由分布式文件系统HDFS、并行计算模型MapReduce、数据仓库hive以及分布式协调机制Zookeeper大数据组件的大数据存储平台。

3.根据权利要求2所述的政务信息资源目录管理的方法，其特征在于，步骤S2.中，包括

4.根据权利要求3所述的政务信息资源目录管理的方法，其特征在于，步骤S3.中，包括

5.根据权利要求4所述的政务信息资源目录管理的方法，其特征在于，步骤S4.中，包括

6.一种政务信息资源目录管理系统，其特征在于，包括处理器和存储器，存储器中存储有程序，所述程序被处理器运行时，能够执行如下步骤：

D1.搭建或运行基于Hadoop组件的大数据存储平台；

D2.汇聚各方业务数据至所述大数据存储平台；

D3.制定统一的资源目录元数据信息及资源目录编制规则；

7.根据权利要求6所述的政务信息资源目录管理系统，其特征在于，

程序运行步骤D1.时，包括

使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(Hadoop DistributedFile System，分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)大数据组件的大数据存储平台。

8.根据权利要求7所述的政务信息资源目录管理系统，其特征在于，

程序运行步骤D2.时，包括

9.根据权利要求8所述的政务信息资源目录管理系统，其特征在于，

程序运行步骤D3.时，

10.根据权利要求9所述的政务信息资源目录管理系统，其特征在于，