CN112860653A - 一种政务信息资源目录管理方法和系统 - Google Patents

一种政务信息资源目录管理方法和系统 Download PDF

Info

Publication number
CN112860653A
CN112860653A CN201911100656.XA CN201911100656A CN112860653A CN 112860653 A CN112860653 A CN 112860653A CN 201911100656 A CN201911100656 A CN 201911100656A CN 112860653 A CN112860653 A CN 112860653A
Authority
CN
China
Prior art keywords
resource
data
catalog
information
resource catalog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911100656.XA
Other languages
English (en)
Inventor
王海荣
肖万来
陈辉
姚伯祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sugon Nanjing Research Institute Co ltd
Original Assignee
Sugon Nanjing Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sugon Nanjing Research Institute Co ltd filed Critical Sugon Nanjing Research Institute Co ltd
Priority to CN201911100656.XA priority Critical patent/CN112860653A/zh
Publication of CN112860653A publication Critical patent/CN112860653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种政务信息资源目录管理的方法,包括:S1.搭建基于Hadoop组件的大数据存储平台;S2.汇聚各方业务数据至大数据存储平台;S3.制定统一的资源目录元数据信息及资源目录编制规则;S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架操作,进行信息资源目录全生命周期管理。本发明方法和系统面对海量的数据存储及数据访问和共享要求,采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储,将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台,实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。

Description

一种政务信息资源目录管理方法和系统
技术领域
本发明属于政务数据处理分析技术领域,具体而言,为一种政务信息资源目录管理方法和系统。
背景技术
政务信息资源涵盖政府领导下的各委员会、办公室、业务部门信息资源,数据资源总量巨大,数据存储容量可达到PB量级,数据种类繁杂,数据分散严重,数据库类型各不相同,各部门内部信息系统建设标准及数据资源目录定义和描述规则各不相同。需要一种新的技术或方法实现政务信息资源的统一定义和管理。
有鉴于此,特提出本发明。
发明内容
本发明要解决的技术问题在于克服现有技术的不足,提供一种政务信息资源目录管理方法和系统,以利于解决目前技术中现有政务信息资源各自为政,标准各不相同的情况下,数据资源难以统一管理的问题。
为解决上述技术问题,本发明采用技术方案的基本构思是:
一种政务信息资源目录管理的方法,包括如下步骤:
S1.搭建基于Hadoop组件的大数据存储平台;
S2.汇聚各方业务数据至所述大数据存储平台;
S3.制定统一的资源目录元数据信息及资源目录编制规则;
S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
进一步的,上述的政务信息资源目录管理的方法中,步骤S1.中,使用ApacheHadoop集群管理工具Ambari搭建部署至少由分布式文件系统HDFS、并行计算模型MapReduce、数据仓库hive以及分布式协调机制Zookeeper大数据组件的大数据存储平台。
进一步的,上述的政务信息资源目录管理的方法中,步骤S2.中,包括
在各委办局配置前置机终端,在前置机部署mysql、sqlserver、oracle关系型数据库,数据接收接口服务以及数据文件接收处理服务;
将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
进一步的,上述的政务信息资源目录管理的方法中,步骤S3.中,包括
其中资源目录元数据信息包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种;
资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
进一步的,上述的政务信息资源目录管理的方法中,步骤S4.中,包括
将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理。
本发明还提供了一种政务信息资源目录管理系统,包括处理器和存储器,存储器中存储有程序,所述程序被处理器运行时,能够执行如下步骤:
D1.搭建或运行基于Hadoop组件的大数据存储平台;
D2.汇聚各方业务数据至所述大数据存储平台;
D3.制定统一的资源目录元数据信息及资源目录编制规则;
D4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
进一步的,上述的政务信息资源目录管理的系统中,程序运行步骤D1.时,包括
使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(HadoopDistributed File System,分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)大数据组件的大数据存储平台。
进一步的,上述的政务信息资源目录管理的系统中,程序运行步骤D2.时,包括
各委办局配置前置机终端部署mysql、sqlserver、oracle关系型数据库,数据接收接口服务以及数据文件接收处理服务;
将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
进一步的,上述的政务信息资源目录管理的系统中,程序运行步骤D3.时,
资源目录元数据信息包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种;
资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
进一步的,上述的政务信息资源目录管理的系统中,
将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理
采用上述技术方案后,本发明与现有技术相比具有以下有益效果:
本发明方法充分考虑当前政务数据体量巨大、分散各处、数据格式庞杂等特点,面对海量的数据存储及数据访问和共享要求,采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储,使用MapReduce实现数据加工和处理,实现海量结构化数据及图片、视频等非结构数据存储的能力可扩展的大数据平台,将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台,实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。本发明提供了实施上述方法的系统。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种政务信息资源目录管理的方法的流程图;
图2是本发明方法中资源目录标识代码构成示意图;
图3是本发明方法中资源目录标识代码后端码示意图;
图4是本发明中资源目录主题定义示意图;
图5是本发明中资源目录编制流程示意图;
图6是本发明中资源目录订阅流程示意图。
具体实施方式
下面结合附图和具体实施例,对本发明作进一步说明,以助于理解本发明的内容。
如图1所示,一种政务信息资源目录管理的方法,包括如下步骤:
S1.搭建基于Hadoop组件的大数据存储平台;
S2.汇聚各方业务数据至所述大数据存储平台;
S3.制定统一的资源目录元数据信息及资源目录编制规则;
S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
具体的,步骤S1.中,使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(Hadoop Distributed File System,分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)等大数据组件的大数据存储平台,从而具备大数据存储能力。
即,本发明方法中,面对海量的数据存储及数据访问和共享要求,采用基于hadoop基础框架搭建的所述大数据存储平台,将政务海量数据存储于分布式文件系统(HDFS)中,实现数据集的离散化存储与查询;关联hive和HDFS,以便HDFS生成的文件导入hive数据仓库中;使用并行计算模型MapReduce对Hive数据库和HDFS中的数据进行加工和处理,并可采用具备SQL解释器的数据仓库工具Presto实现数据的可视化管理;实现以一种可靠的,具有高容错能力的方式并行地处理上PB级别的海量数据集。
步骤S2.中,通过在各委办局配置前置机终端,在前置机部署mysql、sqlserver、oracle等关系型数据库,数据接收接口服务以及数据文件接收处理服务。首先将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
具体的,在各委办局分别部署前置机及防火墙,各前置机只汇聚当前委办局的业务数据。前置机之间物理隔离,无法互相通讯,以保障数据安全。数据可通过数据库、文件、接口等多种形式进行接入。
数据库方式支持:
1)将业务数据从各委办局业务系统数据库自动抽取至前置机数据库;
2)前置机数据库开发账户,各委办局业务系统主动将数据推送至前置机数据库;数据定时自动抽取周期可分为:5分钟、15分钟、30分钟、1小时、1天、1周、1个月等周期。
文件方式支持:1)各版本Excel文件;2)json格式文件;3)cvs格式文件。
接口方式支持:1)提供标准的数据接入接口,接口为基于HTTP协议的RESTful接口;2)支持定制化WebService、Socket、kafka等接口形式的数据接入。
步骤S3.中,为了对汇聚至大数据平台的业务数据进行统一管理,本发明方法中依据国家相关标准、行业标准和/或地方标准制定统一的资源目录元数据信息及资源目录编制规则。如依照《GBT 21063》等相关国家标准定义资源目录元数据信息项,以及资源目录编码规则。
其中资源目录元数据信息将包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表、字段共享类型等信息。资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
资源目录标识是标识资源目录唯一性的代码,资源目录标识符编码规则中,资源目录标识代码由前端码与后端码组成;前端码标识该资源目录的操作对象及属性,依据用户ID生成,用于标明为政务信息资源分配后端码的实体,长度为5为字母数字。后端码是政务信息资源标识符中字符“/”之后的部分,用于对同一实体内部所管理或拥有的信息资源进行唯一标识政务信息资源的顺序码及属性码。前端码与后端码之间使用“/”分隔,所采用的字符为《GB18030》中规定的任意字符,如图2所示的。
具体的,如图3所示,前端码的前两位:用于区别不同的省、自治区、直辖市和特别行政区。每个省、自治区、直辖市和特别行政区内的所有目录管理者和政务部门前端码的前两位相同。如河北省的前两位为“13”,则河北省范围内的各级目录管理者和政务部门的前端码都以“13”开头。
前端码的第三位:以“0”开头的,分配给省级目录管理者及省级政务部门,例如“130**”分配给河北省目录管理者和省级政务部门。“1”到“Z”开头的前端码分配给省以下的各地市,比如“131**”分配给石家庄市。
前端码的第四位:以“0”、“O”到“Z”开头的,分配给地市级目录管理者和地市级政务部门,比如“1310*”以及从“131Q*”到“131Z*”分配给石家庄市目录管理者和市级政务部门。“1”到“P”开头的前端码分配给地市以下的各区县。
前端码的第五位:将“0”分配给县级目录管理者,“1”到“Z”保留。
后端码的前两位:表示各委办局编码,每个委办局编码各部相同。例如“01”民政局。
后端码的第三位:表示资源目录所属的四大库,具体为0:人口库,1:法人库,2:经济库,3:空间地理库。
后端码的第四至九位:标识资源目录所属的主题类别,主题类别定义如图4所示的;例如“ZA”综合政务,“ZAA00”政务综合类,“ZAB00”方针政策。
后端码的第十位之后:生成标识唯一的UUID。
资源目录标识标明资源内容,帮助工作人员对海量的信息资源的归类、以及后期管理过程中缩短检索查询时间,更快捷地识别和选择需要的信息资源等。
步骤S4.中,依据上述步骤,将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理。
资源目录全生命周期,涉及新建/编辑、保存、待提交、提交、待审核、审核完成、待发布、已发布、订阅、订阅审核、下架等环节或过程。主要分为目录编制和目录订阅两个主要业务流程:
1)目录编制流程:开始-》编辑-》提交申请-》审批-》发布-》下架。
2)目录订阅流程:开始-》填写申请信息-》提交申请-》审批-》获取数据-》结束。
资源目录的管理涉及多个角色,委办局基层人员(委办局信息录入员或委办局申请者)负责目录的编制、上报和发布。委办局管理人员(委办局审批人员或数据所属委办局审批人员)对基层人员提交的目录编制内容进行审核以及对其他委办局提交的获取数据申请进行审批。大数据工作人员(智慧办工作人员或大数据局人员)对各委办局提交的目录编制进行审核以及实时接收各委办局已通过订阅申请审批的通知消息。
因资源目录存在多个共享等级,所以目录编制及目录订阅流程存在一定的差别,可参见图5及图6。
信息资源是政府内部一种重要的资产,为充分发挥信息资源价值,实现政务信息资源信息的互联互通,提升政府内部各委办局之间信息资源的数据共享和感知能力,首先需要按照一定的规则或标准对所有的政务信息资源内容进行统一的梳理和编码管理,并形成完整的信息资源目录管理体系。目录编排的规则应首先满足国标GBT 21063对政务信息资源编排规则的描述。政务信息资源目录管理是政务信息资源共享的基础,是整个电子政务框架体系建设不可或缺的一部分。
本发明方法充分考虑当前政务数据体量巨大、分散各处、数据格式庞杂等特点,面对海量的数据存储及数据访问和共享要求,采用基于hadoop基础框架的HDFS分布式存储技术实现海量数据的存储,使用MapReduce实现数据加工和处理,实现海量结构化数据及图片、视频等非结构数据存储的能力可扩展的大数据平台,将横向平行各委办局业务数据及纵向上级业务系统数据统一汇聚至大数据平台,实现政务信息资源数据的组织、梳理和编排以及全生命周期管理。
另一方面,本发明还提供了一种政务信息资源目录管理系统,用于实施上述管理方法;其包括处理器和存储器,存储器中存储有程序,所述程序被处理器运行时,能够执行如下步骤:
D1.搭建或运行基于Hadoop组件的大数据存储平台;
D2.汇聚各方业务数据至所述大数据存储平台;
D3.制定统一的资源目录元数据信息及资源目录编制规则;
D4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
程序运行步骤D1.时,包括
使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(HadoopDistributed File System,分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)等大数据组件的大数据存储平台,从而具备大数据存储能力。
即本发明系统采用基于hadoop基础框架搭建的所述大数据存储平台,将政务海量数据存储于分布式文件系统(HDFS)中,实现数据集的离散化存储与查询;关联hive和HDFS,以便HDFS生成的文件导入hive数据仓库中;使用并行计算模型MapReduce对Hive数据库和HDFS中的数据进行加工和处理,并可采用具备SQL解释器的数据仓库工具Presto实现数据的可视化管理;Zookeeper配置维护、域名服务、分布式同步、组服务;实现以一种可靠的,具有高容错能力的方式并行地处理上PB级别的海量数据集。
程序运行步骤D2.时,包括
通过在各委办局配置前置机终端,在前置机部署mysql、sqlserver、oracle等关系型数据库,数据接收接口服务以及数据文件接收处理服务。首先将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
在各委办局分别部署前置机及防火墙,各前置机只汇聚当前委办局的业务数据。前置机之间物理隔离,无法互相通讯,以保障数据安全。数据可通过数据库、文件、接口等多种形式进行接入。
数据库方式支持:
3)将业务数据从各委办局业务系统数据库自动抽取至前置机数据库;
4)前置机数据库开发账户,各委办局业务系统主动将数据推送至前置机数据库;数据定时自动抽取周期可分为:5分钟、15分钟、30分钟、1小时、1天、1周、1个月等周期。
文件方式支持:1)各版本Excel文件;2)json格式文件;3)cvs格式文件。
接口方式支持:1)提供标准的数据接入接口,接口为基于HTTP协议的RESTful接口;2)支持定制化WebService、Socket、kafka等接口形式的数据接入。
程序运行步骤D3.时,包括
制定统一的资源目录元数据信息及资源目录编制规则以对汇聚至大数据平台的业务数据进行统一管理。
如依照《GBT 21063》等相关国家标准定义资源目录元数据信息项,以及资源目录编码规则。
其中资源目录元数据信息将包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表、字段共享类型等信息。资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
资源目录标识是标识资源目录唯一性的代码,资源目录标识符编码规则中,资源目录标识代码由前端码与后端码组成;前端码标识该资源目录的操作对象及属性,依据用户ID生成,用于标明为政务信息资源分配后端码的实体,长度为5为字母数字。后端码是政务信息资源标识符中字符“/”之后的部分,用于对同一实体内部所管理或拥有的信息资源进行唯一标识政务信息资源的顺序码及属性码。前端码与后端码之间使用“/”分隔,所采用的字符为《GB18030》中规定的任意字符,如图2所示。
具体的,如图3所示,前端码的前两位:用于区别不同的省、自治区、直辖市和特别行政区。每个省、自治区、直辖市和特别行政区内的所有目录管理者和政务部门前端码的前两位相同。如河北省的前两位为“13”,则河北省范围内的各级目录管理者和政务部门的前端码都以“13”开头。
前端码的第三位:以“0”开头的,分配给省级目录管理者及省级政务部门,例如“130**”分配给河北省目录管理者和省级政务部门。“1”到“Z”开头的前端码分配给省以下的各地市,比如“131**”分配给石家庄市。
前端码的第四位:以“0”、“O”到“Z”开头的,分配给地市级目录管理者和地市级政务部门,比如“1310*”以及从“131Q*”到“131Z*”分配给石家庄市目录管理者和市级政务部门。“1”到“P”开头的前端码分配给地市以下的各区县。
前端码的第五位:将“0”分配给县级目录管理者,“1”到“Z”保留。
后端码的前两位:表示各委办局编码,每个委办局编码各部相同。例如“01”民政局。
后端码的第三位:表示资源目录所属的四大库,具体为0:人口库,1:法人库,2:经济库,3:空间地理库。
后端码的第四至九位:标识资源目录所属的主题类别,主题类别定义如图4所示的;例如“ZA”综合政务,“ZAA00”政务综合类,“ZAB00”方针政策。
后端码的第十位之后:生成标识唯一的UUID。
资源目录标识标明资源内容,帮助工作人员对海量的信息资源的归类、以及后期管理过程中缩短检索查询时间,更快捷地识别和选择需要的信息资源等。
程序执行步骤D4.时,包括
将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理。
资源目录全生命周期,涉及新建/编辑、保存、待提交、提交、待审核、审核完成、待发布、已发布、订阅、订阅审核、下架等环节或过程。主要分为目录编制和目录订阅两个主要业务流程:
1)目录编制流程:开始-》编辑-》提交申请-》审批-》发布-》下架。
2)目录订阅流程:开始-》填写申请信息-》提交申请-》审批-》获取数据-》结束。
资源目录的管理涉及多个角色,委办局基层人员(委办局信息录入员或委办局申请者)负责目录的编制、上报和发布。委办局管理人员(委办局审批人员或数据所属委办局审批人员)对基层人员提交的目录编制内容进行审核以及对其他委办局提交的获取数据申请进行审批。大数据工作人员(智慧办工作人员或大数据局人员)对各委办局提交的目录编制进行审核以及实时接收各委办局已通过订阅申请审批的通知消息。
因资源目录存在多个共享等级,所以目录编制及目录订阅流程存在一定的差别,可参见图5及图6。
本发明系统用于实施本发明上述方法,以实现海量政务信息数据的组织、梳理和编排以及全生命周期的统一化、标准化管理,提高政务工作便捷性,提高政务工作效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种政务信息资源目录管理的方法,其特征在于,包括如下步骤:
S1.搭建基于Hadoop组件的大数据存储平台;
S2.汇聚各方业务数据至所述大数据存储平台;
S3.制定统一的资源目录元数据信息及资源目录编制规则;
S4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
2.根据权利要求1所述的政务信息资源目录管理的方法,其特征在于,步骤S1.中,使用Apache Hadoop集群管理工具Ambari搭建部署至少由分布式文件系统HDFS、并行计算模型MapReduce、数据仓库hive以及分布式协调机制Zookeeper大数据组件的大数据存储平台。
3.根据权利要求2所述的政务信息资源目录管理的方法,其特征在于,步骤S2.中,包括
在各委办局配置前置机终端,在前置机部署mysql、sqlserver、oracle关系型数据库,数据接收接口服务以及数据文件接收处理服务;
将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
4.根据权利要求3所述的政务信息资源目录管理的方法,其特征在于,步骤S3.中,包括
其中资源目录元数据信息包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种;
资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
5.根据权利要求4所述的政务信息资源目录管理的方法,其特征在于,步骤S4.中,包括
将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理。
6.一种政务信息资源目录管理系统,其特征在于,包括处理器和存储器,存储器中存储有程序,所述程序被处理器运行时,能够执行如下步骤:
D1.搭建或运行基于Hadoop组件的大数据存储平台;
D2.汇聚各方业务数据至所述大数据存储平台;
D3.制定统一的资源目录元数据信息及资源目录编制规则;
D4.将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行填报,并通过包括审核、发布、订阅、审批及下架的操作,进行信息资源目录的全生命周期管理。
7.根据权利要求6所述的政务信息资源目录管理系统,其特征在于,
程序运行步骤D1.时,包括
使用Apache Hadoop集群管理工具Ambari搭建部署至少由HDFS(Hadoop DistributedFile System,分布式文件系统)、MapReduce(并行计算模型)、hive(数据仓库)以及Zookeeper(分布式协调机制)大数据组件的大数据存储平台。
8.根据权利要求7所述的政务信息资源目录管理系统,其特征在于,
程序运行步骤D2.时,包括
各委办局配置前置机终端部署mysql、sqlserver、oracle关系型数据库,数据接收接口服务以及数据文件接收处理服务;
将各委办局业务源数据汇聚至前置机终端,然后使用数据抽取工具将各委办局前置机终端汇聚的业务数据汇聚至大数据平台。
9.根据权利要求8所述的政务信息资源目录管理系统,其特征在于,
程序运行步骤D3.时,
资源目录元数据信息包含:资源目录标识、资源中文名称、资源提供方单位、共享类型、使用要求、是否对公众开放、更新周期、所属基础库、所属主题、资源目录摘要、所属数据源、英文表名、列名、列中文名、默认值、是否为空、数据类型、长度、列健、所属表以及字段共享类型信息中的一种或几种;
资源目录编码规则依据《GBT 21063.5-2007政务信息资源标识符编码方案》进行定义。
10.根据权利要求9所述的政务信息资源目录管理系统,其特征在于,
将所述大数据存储平台从各方获得的数据库、文件和/或接口数据资源按照所述信资源目录元数据信息及资源目录编制规则进行进行统一编码填报,并依据目录发布流程及目录订阅流程,对资源目录进行全生命周期管理。
CN201911100656.XA 2019-11-12 2019-11-12 一种政务信息资源目录管理方法和系统 Pending CN112860653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911100656.XA CN112860653A (zh) 2019-11-12 2019-11-12 一种政务信息资源目录管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911100656.XA CN112860653A (zh) 2019-11-12 2019-11-12 一种政务信息资源目录管理方法和系统

Publications (1)

Publication Number Publication Date
CN112860653A true CN112860653A (zh) 2021-05-28

Family

ID=75984344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911100656.XA Pending CN112860653A (zh) 2019-11-12 2019-11-12 一种政务信息资源目录管理方法和系统

Country Status (1)

Country Link
CN (1) CN112860653A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253922A (zh) * 2021-12-20 2022-03-29 北方健康医疗大数据科技有限公司 资源目录管理方法、资源管理方法、装置、设备及介质
CN115203137A (zh) * 2022-09-16 2022-10-18 太极计算机股份有限公司 针对组织架构的数据资源目录组织管理方法及系统
CN115269592A (zh) * 2022-07-18 2022-11-01 北京东华博泰科技有限公司 一种分布式数据资产目录下发方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114253922A (zh) * 2021-12-20 2022-03-29 北方健康医疗大数据科技有限公司 资源目录管理方法、资源管理方法、装置、设备及介质
CN115269592A (zh) * 2022-07-18 2022-11-01 北京东华博泰科技有限公司 一种分布式数据资产目录下发方法及系统
CN115203137A (zh) * 2022-09-16 2022-10-18 太极计算机股份有限公司 针对组织架构的数据资源目录组织管理方法及系统

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
Karnitis et al. Migration of relational database to document-oriented database: structure denormalization and data transformation
CN102999537B (zh) 一种数据迁移系统和方法
CN107945086A (zh) 一种应用于智慧城市的大数据资源管理系统
CN112000849A (zh) 统一标签库管理方法、装置、设备及存储介质
CN103984755A (zh) 基于多维度模型的油气资源数据要览系统实现方法及系统
CN112860653A (zh) 一种政务信息资源目录管理方法和系统
WO2021032146A1 (zh) 元数据管理方法和装置、设备及存储介质
CN105045869A (zh) 基于多数据中心的自然资源地理空间数据组织方法和系统
CN106126569A (zh) 一种快速数据服务方法及系统
CN107103064A (zh) 数据统计方法及装置
CN109033113A (zh) 数据仓库和数据集市的管理方法及装置
CN112988919A (zh) 一种电网数据集市构建方法、系统、终端设备及存储介质
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
US20200334314A1 (en) Emergency disposal support system
CN111160841A (zh) 一种基于知识图谱的组织架构构建方法及装置
US20150058363A1 (en) Cloud-based enterprise content management system
Chen et al. Metadata-based information resource integration for research management
CN113987626A (zh) 一种可扩展的建筑全生命期bim建模方法
WO2012131056A2 (en) Finding a data item of a plurality of data items stored in a digital data storage
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
CN114218291A (zh) 基于目标对象的画像生成方法、装置、设备及存储介质
CN117371945A (zh) 一种环境产业的一站式大数据管理服务平台
CN110134511A (zh) 一种OpenTSDB共享存储优化方法
CN110134688B (zh) 一种在线社交网络中热点事件数据存储管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination