CN116136842A - 一种基于大数据模式的信息资源整合方法 - Google Patents

一种基于大数据模式的信息资源整合方法 Download PDF

Info

Publication number
CN116136842A
CN116136842A CN202111363551.0A CN202111363551A CN116136842A CN 116136842 A CN116136842 A CN 116136842A CN 202111363551 A CN202111363551 A CN 202111363551A CN 116136842 A CN116136842 A CN 116136842A
Authority
CN
China
Prior art keywords
data
management
resource
information
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111363551.0A
Other languages
English (en)
Inventor
张欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Changfeng Science Technology Industry Group Corp
Original Assignee
China Changfeng Science Technology Industry Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Changfeng Science Technology Industry Group Corp filed Critical China Changfeng Science Technology Industry Group Corp
Priority to CN202111363551.0A priority Critical patent/CN116136842A/zh
Publication of CN116136842A publication Critical patent/CN116136842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及一种基于大数据模式的信息资源整合方法,包括:数据采集入库,制定数据抽取方案和校核规则,将数据存储入共享资源数据库;数据资源处理,通过数据质量分析工具对共享信息资源库的数据进行相应的校验;数据整合,依托大数据整合平台solr,将批量数据按条件迁入服务平台并进行数据程序调试;数据资源管理,包括数据注册管理、数据标准管理、数据质量管理和数据运行监控。本发明能够将各种多元异构信息有机融合,实现信息平滑流动、共享和增值。

Description

一种基于大数据模式的信息资源整合方法
技术领域
本发明属于大数据技术应用领域,涉及一种基于大数据模式的信息资源整合方法。
背景技术
大数据时代,信息资源已经成为社会运行和发展不可缺少的生产要素、无形资产和社会财富。在信息化建设的初期阶段,由于各业务部门在数据采集和加工时的管理条块化、任务分割化,导致数据分散、资源碎片化、标准不统一,导致目前数据资产同一管理和利用难度大,无法实现信息增值。
发明内容
本发明的目的是针对上述问题,提供一种基于大数据模式的信息资源整合方法,对各部门信息进行统一整合,便于数据挖掘和利用。
本发明的技术方案如下:
一种基于大数据模式的信息资源整合方法,其特征在于,包括:
(1)数据采集入库:数据采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取,将数据存储入共享资源数据库;
(2)数据资源处理:通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;
(3)数据整合:数据整合的流程主要依托大数据整合平台solr来操作,主要分为以下几个流程:
(31)批量数据按条件迁入:从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务;
(32)数据程序调试:将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关键字段或者层级字段筛选获得相应的信息;
(4)数据资源管理:数据资源管理主要包括数据注册管理、数据标准管理、数据质量管理和数据运行监控四个方面:
(41)数据注册管理:通过可视化、规范化的数据资源地图管理,帮助数据管理人员了解管理的数据内容,对应数据的含义;同时,利用记录数据环境的相关信息,为其他应用系统的数据转换、加工和应用提供信息支持;
(42)数据标准管理:建立统一的数据信息资源共享标准规范,为信息资源质量管理、信息资源运行监控功能提供支持;
(43)数据质量管理:提供对平台上数据整合处理过程以及处理后形成的资源库中的数据进行数据质量检测,形成质量问题数据记录;同时将在使用中所发现的信息资源数据质量问题,录入登记为质量问题数据记录;
(44)数据运行监控:对数据转换过程中的各个环节进行整理与归类,针对各个环节的特定指标进行实时监控,一旦某个环节出现异常,通过报警接口向指定人员提供多种方式报警。
本发明针对现有的信息管理系统提供的信息增值性不强,造成信息使用者对信息的理解有困难的问题,通过广泛的信息收集,深入的整合分析,能够将各种多元异构信息有机融合,实现信息平滑流动和共享,向信息使用者提供多元化的有效信息。
附图说明
图1是本发明的数据采集入库流程图。
具体实施方式
本发明的具体实施方式如下:
(1)数据采集入库:
如图1所示,数据初次采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则,以保证入库的数据均为完整有效;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取;
对于网络能够直接互联,并具备统一管理的共享资源数据库,在得到充分授权后,对数据进行抽取。根据共享需求将必要信息项采集到前置服务器的缓存数据区中,再通过内外网交换平台将数据传输到信息资源整合平台中,经过采集、清洗、转换、集成等过程以确保数据的有效性,最终将数据存储入共享资源数据库。
(2)数据资源处理:
共享信息资源库建立完毕后,通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;
(3)数据整合:
数据整合的流程主要是依托大数据整合平台solr来操作,主要分为以下几个流程:
(31)批量数据按条件迁入:
从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,编写过程可自定义数据种类、数据过滤条件、数据记录数限制、数据项选择、执行时间点、执行频率等参数,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务。
(32)数据程序调试:
将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关键字段或者层级字段筛选获得相应的信息;
(4)数据资源管理:
数据资源管理主要包括:数据注册管理、数据标准管理、数据质量管理和数据运行监控四个方面:
(41)数据注册管理:数据资源注册管理通过可视化、规范化的数据资源地图管理,帮助数据管理人员了解管理的数据内容,对应数据的含义;同时,利用记录数据环境的相关信息,为其他应用系统的数据转换、加工和应用提供信息支持;
(42)数据标准管理:建立统一的数据信息资源共享标准规范,如信息代码标准、数据结构/数据交换共享标准、信息资源服务接口规范,为信息资源质量管理、信息资源运行监控功能提供支持;
(43)数据质量管理:提供对平台上数据整合处理过程以及处理后形成的资源库中的数据进行数据质量检测,形成质量问题数据记录;同时将在使用中所发现的信息资源数据质量问题,录入登记为质量问题数据记录;
(44)数据运行监控:对数据转换过程中的各个环节进行整理与归类,针对各个环节的特定指标进行实时监控,一旦某个环节出现异常,通过报警接口向指定人员提供多种方式报警。

Claims (1)

1.一种基于大数据模式的信息资源整合方法,其特征在于,包括:
(1)数据采集入库:数据采集入库分为两个阶段,第一个阶段为数据准备阶段,制定数据抽取方案,同时根据抽取数据的特点制定校核规则;第二个阶段为数据采集入库阶段,根据第一个阶段准备的前置数据库进行直接抽取,将数据存储入共享资源数据库;
(2)数据资源处理:通过数据质量分析工具对共享信息资源库的数据进行相应的校验,发现问题数据,并将问题数据信息记录到问题数据库中;
(3)数据整合:数据整合的流程主要依托大数据整合平台solr来操作,主要分为以下几个流程:
(31)批量数据按条件迁入:从信息资源整合平台发起批量数据整合,明确所需数据种类、范围、数据项,根据需求参数完成数据的配置文档编写,将编写好的配置文件上传至solr服务平台,按照配置文件更新任务;
(32)数据程序调试:将数据抽取至专用的整合服务器集群上,在上传完部分数据后,根据用户提交的查询服务请求,按关键字段或者层级字段筛选获得相应的信息;
(4)数据资源管理:数据资源管理主要包括数据注册管理、数据标准管理、数据质量管理和数据运行监控四个方面:
(41)数据注册管理:通过可视化、规范化的数据资源地图管理,帮助数据管理人员了解管理的数据内容,对应数据的含义;同时,利用记录数据环境的相关信息,为其他应用系统的数据转换、加工和应用提供信息支持;
(42)数据标准管理:建立统一的数据信息资源共享标准规范,为信息资源质量管理、信息资源运行监控功能提供支持;
(43)数据质量管理:提供对平台上数据整合处理过程以及处理后形成的资源库中的数据进行数据质量检测,形成质量问题数据记录;同时将在使用中所发现的信息资源数据质量问题,录入登记为质量问题数据记录;
(44)数据运行监控:对数据转换过程中的各个环节进行整理与归类,针对各个环节的特定指标进行实时监控,一旦某个环节出现异常,通过报警接口向指定人员提供多种方式报警。
CN202111363551.0A 2021-11-18 2021-11-18 一种基于大数据模式的信息资源整合方法 Pending CN116136842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111363551.0A CN116136842A (zh) 2021-11-18 2021-11-18 一种基于大数据模式的信息资源整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111363551.0A CN116136842A (zh) 2021-11-18 2021-11-18 一种基于大数据模式的信息资源整合方法

Publications (1)

Publication Number Publication Date
CN116136842A true CN116136842A (zh) 2023-05-19

Family

ID=86334083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111363551.0A Pending CN116136842A (zh) 2021-11-18 2021-11-18 一种基于大数据模式的信息资源整合方法

Country Status (1)

Country Link
CN (1) CN116136842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056419A (zh) * 2023-07-20 2023-11-14 安徽国科检测科技有限公司 一种基于局域网的实验室检测数据共享系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056419A (zh) * 2023-07-20 2023-11-14 安徽国科检测科技有限公司 一种基于局域网的实验室检测数据共享系统
CN117056419B (zh) * 2023-07-20 2024-03-15 安徽国科检测科技有限公司 一种基于局域网的实验室检测数据共享系统

Similar Documents

Publication Publication Date Title
US11409764B2 (en) System for data management in a large scale data repository
US11461294B2 (en) System for importing data into a data repository
US11360950B2 (en) System for analysing data relationships to support data query execution
CN107315776B (zh) 一种基于云计算的数据管理系统
CN112163724A (zh) 环境信息数据资源整合集成系统
CN109542967B (zh) 基于xbrl标准的智慧城市数据共享系统及方法
CN111176867B (zh) 数据共享交换及开放应用平台
CN112199433A (zh) 一种用于城市级数据中台的数据治理系统
CN103136249A (zh) 多模态异构数据整合系统及方法
CN104966172A (zh) 一种用于企业经营数据分析的大数据可视化分析处理系统
CN112462696A (zh) 一种智能制造车间数字孪生模型构建方法与系统
CN104036365A (zh) 一种企业级数据服务平台建设方法
CN112699100A (zh) 一种基于元数据管理分析系统
CN112883001A (zh) 一种基于营配贯通数据可视化平台的数据处理方法、装置及介质
CN114880405A (zh) 一种基于数据湖的数据处理方法及系统
CN112926852A (zh) 一种基于数据融合的大气生态环境分析方法
CN112817958A (zh) 电力规划数据采集方法、装置及智能终端
CN116136842A (zh) 一种基于大数据模式的信息资源整合方法
CN117076463B (zh) 一种智慧城市多源数据汇聚存储系统
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN107423035A (zh) 一种软件开发过程产品数据管理系统
CN113590599B (zh) 基于多元复杂数据环境的数据检查方法
CN114925042A (zh) 一种基于图形数据库的元数据关系的构建方法
CN111797084B (zh) 基于武器装备试验流程的数据编码贯标检查方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication