CN115269671A - 基于政务数据融通与价值挖掘的数据实验室 - Google Patents

基于政务数据融通与价值挖掘的数据实验室 Download PDF

Info

Publication number
CN115269671A
CN115269671A CN202210643130.1A CN202210643130A CN115269671A CN 115269671 A CN115269671 A CN 115269671A CN 202210643130 A CN202210643130 A CN 202210643130A CN 115269671 A CN115269671 A CN 115269671A
Authority
CN
China
Prior art keywords
data
area
laboratory
platform
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210643130.1A
Other languages
English (en)
Inventor
姚丽娜
苟轶凡
刘阿慧
刘若雨
陈婧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing E Hualu Information Technology Co Ltd
Original Assignee
Beijing E Hualu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing E Hualu Information Technology Co Ltd filed Critical Beijing E Hualu Information Technology Co Ltd
Priority to CN202210643130.1A priority Critical patent/CN115269671A/zh
Publication of CN115269671A publication Critical patent/CN115269671A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Bioethics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及一种基于政务数据融通与价值挖掘的数据实验室,包括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工厂区包括数据生产区、数据试验区和线下开发区,由本数据实验室,可以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值。

Description

基于政务数据融通与价值挖掘的数据实验室
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种基于政务数据融 通与价值挖掘的数据实验室。
背景技术
数据作为新的生产要素,为社会经济发展提供了新的引擎动力,必将 引领未来数字经济时代新的认知和发展革命。数据作为生产要素,反映了 随着经济活动数字化转型加快,数据对提高生产效率的乘数作用凸现,成 为最具时代特征新生产要素的重要变化。
近些年,大数据相关领域已有较快发展,大数据市场不断扩大,但是 大数据融通、数据价值挖掘、数据共享交换在社会管理、经济发展和民生 改善中的潜力远未得到释放,发挥的作用还不够充分,存在着不少制约大 数据发展的不利因素,当前推动大数据融通领域面临的主要问题包括:数 据融通监管缺少法规及标准、数据融通安全无法保证、数据权属界定明确 困难、高价值数据无法共享、数据潜在价值难以发挥等。因此,如何在保 障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的 价值,是目前亟待解决的问题。
发明内容
鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一 种基于政务数据融通与价值挖掘的数据实验室。
第一方面,本发明实施例提供一种基于政务数据融通与价值挖掘的数 据实验室,包括政务数据区和数据实验室区;
所述政务数据区包括原始数据区和数据挖掘加工区;
所述数据实验室区包括数据运营区和数据工厂区;
所述数据工厂区包括数据生产区、数据试验区和线下开发区。
可选的,所述原始数据区用于存储原始数据;
所述数据挖掘加工区用于将原始数据按照标准库、主题库、指标库进 行数据治理,得到数据目录,并将所述数据目录同步至所述数据生产区。
可选的,所述数据生产区包括数据生产库;
所述数据生产库用于接收数据申请需要的目标数据,以及对所述目标 数据进行脱敏抽样,得到样本数据。
可选的,所述数据实验区包括训练库、数据实验室平台;
所述训练库用于汇集所述样本数据;
所述数据试验区将所述训练库和算力打包在独立沙箱中;
所述数据实验室平台用于将独立沙箱形成独立工作台,进行数据价值 挖掘,数据分析挖掘后将数据地址映射到所述数据生产库中,清空独立沙 箱中的数据。
可选的,所述数据实验室平台还包括安全管理区;
所述安全管理区包括数据安全治理管理平台、核心信息管控系统、终 端防泄漏系统、存储防泄漏系统和数据审计平台;
所述数据安全治理管理平台用于标识数据,对数据全生命周期安全进 行管控;
所述核心信息管控系统用于对运维人员账号进行认证及授权关联;
所述终端防泄漏系统用于防止终端数据外泄;
所述存储防泄漏系统用于保障敏感数据被发现且安全可控;
所述数据审计平台用于审计采集数据行为并记录采集数据行为信息。
可选的,所述数据实验室平台还包括区块链安全区;
所述区块链安全区用于存证数据实验室在各环节中的数据、算法开发 和处理过程中的访问信息、授权信息、计算信息。
可选的,所述数据运营区包括运营平台;
所述运营平台用于提供审核用户信息、算力和模型。
可选的,所述数据实验室还包括4A平台;
所述4A平台用于对数据采集工具、运维用户、全部平台的账号、认 证、授权、审计管理。
可选的,所述线下开发区部署有终端防泄漏客户端。
可选的,所述数据实验室还包括互联网区;
所述互联网区包括API服务,用于为数据需求者提供调用数据价值挖 掘结果的接口。
本发明实施例提供的基于政务数据融通与价值挖掘的数据实验室,包 括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖 掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工 厂区包括数据生产区、数据试验区和线下开发区,相比于目前的大数据融 通、数据价值挖掘、数据共享交换面临的多种问题,由本数据实验室,可 以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值。
附图说明
图1为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的结构示意图;
图2为本发明实施例提供的一种数据实验室平台的数据流向示意图;
图3为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的架构示意图;
图4为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的功能示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本 发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一 步的解释说明,实施例并不构成对本发明实施例的限定。
本发明是一种解决政务数据有限融通与价值挖掘的问题的工具平台, 数据实验室是一种基于固定的安全边界并且在数据安全手段的保障下,通 过提供数据价值挖掘所需的数据资源、算力、办公场所等条件进行协同数 据分析及数据挖掘的平台。本发明解决了政务数据融通交易“不敢”、“不 能”“不愿”的问题,打破“数据孤岛”,旨在解决在保障数据安全的情 况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值,是数据融 通过程的重要的核心工具,对政府、企业的数据协同开发利用具有重大意 义。
数据实验室针对具备统一数据资源池,保障数据资源池数据不出域下 可以实现数据价值的协同挖掘,保证数据安全。通过封闭的网络环境和固 定的物理空间,实现数据的受控开放,通过区块链技术,实现了数据协同 开发过程的全流程存证记录,支持了数据建模、结构化算法开发、非结构 算法开发、联邦计算等多种数据开发利用方式,实现“数据可用不可见” 的挖掘利用,整体保障了数据的受控流通,加速数据开放,促进数据价值 释放。
为解决政务数据价值挖掘以及数据安全的顾虑,数据实验室部署在政 务外网下,通过提供统一的数据资源、算力及固定的办公场所,为生态厂 商以及具备开发能力的产业用户提供数据分析和数据挖掘的工具平台,最 终计算的结果以高价值的API的方式进行输出,实现了数据的受控开放、 协同挖掘。
图1为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的结构示意图,如图1所示,本发明的基于政务数据融通与价值挖 掘的数据实验室包括政务数据区和数据实验室区;其中,政务数据区包括 原始数据区和数据挖掘加工区;数据实验室区包括数据运营区和数据工厂 区;数据工厂区包括数据生产区、数据试验区和线下开发区。
原始数据区用于存储原始数据;数据挖掘加工区用于将原始数据按照 标准库、主题库、指标库进行数据治理,得到数据目录,并将数据目录同 步至数据生产区。
数据生产区包括数据生产库;数据生产库用于接收数据申请需要的目 标数据,以及对目标数据进行脱敏抽样,得到样本数据。
数据实验区包括训练库、数据实验室平台;训练库用于汇集样本数据; 数据试验区将训练库和算力打包在独立沙箱中;数据实验室平台用于将独 立沙箱形成独立工作台,进行数据价值挖掘,以及将数据地址映射到数据 生产库中,清空独立沙箱中的数据。
数据实验室平台还包括安全管理区;安全管理区包括数据安全治理管 理平台、核心信息管控系统、终端防泄漏系统、存储防泄漏系统和数据审 计平台;数据安全治理管理平台用于标识数据,对数据全生命周期安全进 行管控;核心信息管控系统用于对运维人员账号进行认证及授权关联;终 端防泄漏系统用于防止终端数据外泄;存储防泄漏系统用于保障敏感数据 被发现且安全可控;数据审计平台用于审计采集数据行为并记录采集数据行为信息。
数据实验室平台还包括区块链安全区;区块链安全区用于存证数据实 验室在各环节中的数据、算法开发和处理过程中的访问信息、授权信息、 计算信息。
数据运营区包括运营平台;运营平台用于提供审核用户信息、算力和 模型。
数据实验室还包括4A平台;4A平台用于对数据采集工具、运维用户、 全部平台的账号、认证、授权、审计管理。
线下开发区部署有终端防泄漏客户端。
数据实验室还包括互联网区;互联网区包括API服务,用于为数据需 求者提供调用数据价值挖掘结果的接口。
具体的,数据实验室采用“前店后厂”的方式,分为政务外网区与互 联网区,数据实验室部署在政务外网区,数据需求者在政务外网环境下的 数据实验室进行数据价值挖掘,将成果以API的方式通过互联网区进行调 用。
步骤1:政务原始数据按需汇集在数据挖掘加工区进行数据治理,将 原始数据按标准库、主题库、指标库进行数据治理,并在政务数据区部署 数据库防火墙,保护数据汇集过程中的数据安全。
步骤2:政务数据区经过治理后的数据目录同步至数据生产区,该数 据资源目录可供用户进行查阅申请。
步骤3:数据申请经过审核授权后,将数据按需接入数据生产库中, 用户在数据实验室中进行任务创建后,该任务所需数据通过脱敏抽样。
步骤4:提供脱敏后的样本数据汇集在训练库中,数据实验室平台将 训练库与算力打包在独立沙箱中。
步骤5:用户通过数据实验区提供的数据实验室平台工具,使用沙箱 形成个人的模型编辑独立工作台,进行数据价值挖掘,将加工后的数据地 址映射到生产库中,并将独立沙箱进行清空保证数据安全,用户可以通过 API调用生产结果,原始数据无法出域。
在安全管理区部署数据库审计平台,采用旁路部署的方式对FTP方式 和ETL方式采集数据行为进行审计,详细记录连接命令、数据库表、数据 库内容、账号等信息,对连接进行审计和异常行为进行告警;部署存储防 泄漏工具,保障敏感数据被发现且安全可控;通过溯源管理模块(依托数 据安全治理平台)可以对数据进行水印标识,数据泄露后可进行有效溯源。 部署4A平台,实现ETL工具、运维用户、政务平台、数据资源管理平台、 数据实验室运营平台、数据实验室等账号、认证、授权、审计管理;部署 核心信息管控系统对运维人员、进行账号认证及授权关联,并防止终端数 据外泄;并提供数据安全治理平台,对数据全生命周期安全进行管控,串 联以上工具并提供可视化能力。
图2为本发明实施例提供的一种数据实验室平台的数据流向示意图, 数据实验室是面向数据需求者与数据拥有方,基于固定安全边界保障数据 不出域的,提供数据资源、算力、算法、办公场所等条件可信的数据分析 及价值挖掘工具平台。
通过搭建网络隔离与物理空间隔离的环境结合全方位的数据安全工具 充分保障政务数据安全,通过打造数据资源池与丰富的算力环境,为每位 数据需求方提供独立安全的训练环境,数据需求者在数据实验室中进行训 练与分析后,将结果通过API方式进行拿走,原始数据无法获取,训练结 束后该需求方的独立工作台包含申请数据、运行中间结果、算力等自动销 毁。如图2,数据实验室是在某个非互联网环境(一般而言是政务外网或 者局域网,根据政务数据要求进行部署),通过提供统一的数据资源、算 力及固定的办公场所,为数据需求方提供数据分析和数据挖掘的工具平台, 最终计算的结果以高价值的API的方式进行输出,原始数据受到安全隔离 保护无法泄露,实现了数据的受控开放、协同挖掘。
图3为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的架构示意图,数据实验室依托于Kubernetes容器化管理平台,实 现硬件资源容器编排管理,并通过大数据基础平台为数据实验室提供分布 式计算、存储能力,以及丰富技术组件。
大数据基础平台进行数据存储与算力资源管理,为数据实验室的数据 资源层的数据资源管理提供底层支撑。
数据资源管理平台统一纳管结构化数据为上层的模型训练、模型推理、 数据处理、数据共享等应用提供数据源,另外针对外部不可出域数据,通 隐私计算能力实现数据应用。
数据实验室在各环节依托区块链存证能力,实现数据审核、应用的全 方位监管。
为保障数据安全,数据银行打造完整安全体系。针对硬件及运维侧, 有运维管控及安全交换边界;在数据侧,包括数据库审计、脱敏、终端防 泄漏、网络防泄漏能力;面向服务侧,则通过API网关监测、4A平台统 一安全管控保障API安全及权限安全;应用侧,则依托应用安全管控对应 用安全进行保障;另外,在以上工具基础上形成数据全生命周期安全保障, 面向用户提供数据安全可视化及管控能力。
依托大数据基础平台、数据资源管理平台、用户中心、以及区块链与 数据安全体系,建设数据实验室与其运营平台,用户在数据实验室进行模 型训练、模型推理与数据处理与共享,运营后台提供用户、算力、模型审 核功能,保障数据与模型结果的安全。
图4为本发明实施例提供的一种基于政务数据融通与价值挖掘的数据 实验室的功能示意图,具体包括:
基于安全管控的数据资源池:数据实验室通过数据资源平台对于原始 数据进行备份、标准化治理、清洗、转换,并映射到数据实验室运营后台, 由审核人员控制资源池的数据目录,数据经脱敏后,将目录同步至实验室 门户发布至数据实验室的数据资源目录,达到数据目录可知的目的。运营 后台权限控制与原始数据备份映射等功能保障了不接触原始数据的前提下 的数据可知目的。用户在数据资源池中可通过数据应用行业、来源进行精 准筛选与使用权限申请。
独立安全环境下的模型开发:数据实验室为每一位数据需求者提供独 立干净的训练环境,为每一位用户提供独立Dorker训练环境,再该区域内 数据需求者通过利用数据实验室提供的数据资源、算力资源、算法资源与 平台能力进行模型训练,训练后的模型将部署至推理环境中,数据需求者 可以通过API方式将结果拿走,而原始数据无法获取,训练结束后该需求 方的训练环境包含申请数据、运行中间结果、算力等自动销毁。数据需求 者在数据实验室算法开发中可以进行任务创建、编辑、部署与调用。
任务创建:创建普通任务时,用户进行数据资源与算力资源的申请, 并支持用户上传自己的训练集,提交后,任务创建信息流转至运营后台, 由运营人员进行初次审核。运营人员在数据实验室运营平台进行“三真审 核”(用户真实、使用场景真实、数据授权真实)后,进行数据资源配置, 包含训练数据库创建、数据集抽取、用户数据授权、数据脱敏与加密,以 及进行算力资源配置,将数据资源与算力资源放入训练沙箱中,每个用户 的每个任务均有一个独立纯净训练环境。
模型编辑:运营人员进行任务审核后进行算力资源、数据资源配置后, 用户可在数据实验室中算法开发区模型训练与开发,用户可以在安全沙箱 中采用Jupyter编辑器进行模型的编辑与算法的训练,当任务训练结束可提 交部署。成果将流转至运营侧进行第二次的成果审核。在运营后台进行成 果的第二次审核时,进行代码审计与安全审计,保障代码安全避免出现恶 意攻击数据库的程序,审核通过进行训练数据库至正式数据库的映射,以 API地址的代理转换,并进行推理环境成果部署,最终将成果部署在运行 环境中,以API方式供用户使用。成果部署后,用户进行模型编辑的安全 训练环境自动销毁,保证数据安全以及节约资源。
成果调用:模型部署成功,训练环境销毁,用户可以在任务卡片中查 看模型成果,进行日常调用,成果可通过API方式带离数据开放实验室, 既保障了数据的安全与价值挖掘,又保障了用户对成果的正常使用。
基于Jupyter编辑器的模型编辑:基于开源的Jupyter进行算法孵化模 型编辑工具打造,Jupyter是一个几乎支持所有语言,能够把软件代码、计 算输出、解释文档、多媒体资源整合在一起的多功能科学运算平台。基于 该平台进行算法孵化工具打造符合现在数据工程师数据计算与算法开发的 需求,进行作为成熟软件,稳定性与易用性已得到充分验证。引进了Cell 的概念,每次实验可以跑一个小Cell里的代码,并且,在代码的下面立刻可以看到结果。很强的互动性,未被繁杂的工具链所累,不用在命令行直 接切换,所有科研工具可以Jupyter上完成。
全方位安全管控:包括数据安全管控,通过数据分类分级、数据脱敏、 终端防泄漏、网络防泄漏等安全手段从技术方面保障数据安全,打造数据 实验室安全系统。
多维安全审计,数据资源同步审计,通过数据资源分类分级管理管控 是否将数据资源开放至数据实验室的数据资源池对用户可见,对于脱敏以 及安全等级较高的数据资源目录管控开发权限有效保障数据安全。
基于多租户多任务的资源监控:合理管理数据实验室训练算力集群与 成果运行算力集群,提供整体系统资源的多业务租户与任务资源管理。同 一个产业用户或服务厂商会创建不同的任务,提供总集群资源监控与用户 与任务的资源监控,满足同一集群租户下不同节点/资源池调度,同一节点 下GPU/CPU/内存资源的调度。提供对集群租户和资源池的多资源管理, 提供资源池和单节点的集群资源管理,提供GPU、TPU等算力的节点内资 源管理,不仅满足用户监控自身资源,还为监控者与运维人员进行整体监 控提供服务。
基于区块链的数据全生命周期管控:数据实验室在各环节中的数据均 在区块链中进行存证,实现数据流程可追溯。对于数据实验室算法开发和 处理过程中的访问信息、授权信息、计算信息进行记录,并将关键信息上 链,通过区块链的可验证、可追溯机制,对协同的数据全生命周期过保障 数据操作的可追溯性,解决数据共享协同挖掘后的数据安全失控问题。
数据实验室作为针对受控数据进行数据价值挖掘的工具平台,提供一 站式的数据开发工具。数据需求者在开发利用政务数据时,可以在数据实 验室的开发区利用数据实验室提供的支持针对结构化数据的数据分析建模、 机器学习算法开发,针对非结构化的信息(视频、文本、图片)等进行深 度学习的算法开发。数据安全实验室的算法训练工具基于Kubernetes, Kubeflow和Docker虚拟化技术实现训练环境的自动部署和分布式训练环境,并提供了包括数据下载,在线训练,在线验证,算法镜像封装等一站 式工具。数据实验室通过前台、后台的方式实现数据资源、算力资源的统 一管控、统一配置,产业用户或者生态服务商通过数据资源、算力资源申 请的方式进行任务是申请,数据实验室平台运营方可以对其任务进行审核 并通过工具进行资源配置,实现了数据资源和算力资源的整体运营。在数 据安全实验室内部系统及底层平台符合“等保三级”的前提下,数据实验 室还引入了网络安全体系优化、数据全生命周期安全保障、数据权限控制、 数据安全计算等安全技术手段,全方位为数据实验室保驾护航。
本发明实施例提供的基于政务数据融通与价值挖掘的数据实验室,包 括政务数据区和数据实验室区;所述政务数据区包括原始数据区和数据挖 掘加工区;所述数据实验室区包括数据运营区和数据工厂区;所述数据工 厂区包括数据生产区、数据试验区和线下开发区,相比于目前的大数据融 通、数据价值挖掘、数据共享交换面临的多种问题,由本数据实验室,可 以在保障数据安全的情况下进行数据的受控开放以及数据价值挖掘,发挥数据的价值。

Claims (10)

1.一种基于政务数据融通与价值挖掘的数据实验室,其特征在于,包括政务数据区和数据实验室区;
所述政务数据区包括原始数据区和数据挖掘加工区;
所述数据实验室区包括数据运营区和数据工厂区;
所述数据工厂区包括数据生产区、数据试验区和线下开发区。
2.根据权利要求1所述的数据实验室,其特征在于,所述原始数据区用于存储原始数据;
所述数据挖掘加工区用于将原始数据按照标准库、主题库、指标库进行数据治理,得到数据目录,并将所述数据目录同步至所述数据生产区。
3.根据权利要求1所述的数据实验室,其特征在于,所述数据生产区包括数据生产库;
所述数据生产库用于接收数据申请需要的目标数据,以及对所述目标数据进行脱敏抽样,得到样本数据。
4.根据权利要求3所述的数据实验室,其特征在于,所述数据实验区包括训练库、数据实验室平台;
所述训练库用于汇集所述样本数据;
所述数据试验区将所述训练库和算力打包在独立沙箱中;
所述数据实验室平台用于将独立沙箱形成独立工作台,进行数据价值挖掘,数据分析挖掘后将数据地址映射到所述数据生产库中,清空独立沙箱中的数据。
5.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室平台还包括安全管理区;
所述安全管理区包括数据安全治理管理平台、核心信息管控系统、终端防泄漏系统、存储防泄漏系统和数据审计平台;
所述数据安全治理管理平台用于标识数据,对数据全生命周期安全进行管控;
所述核心信息管控系统用于对运维人员账号进行认证及授权关联;
所述终端防泄漏系统用于防止终端数据外泄;
所述存储防泄漏系统用于保障敏感数据被发现且安全可控;
所述数据审计平台用于审计采集数据行为并记录采集数据行为信息。
6.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室平台还包括区块链安全区;
所述区块链安全区用于存证数据实验室在各环节中的数据、算法开发和处理过程中的访问信息、授权信息、计算信息。
7.根据权利要求1所述的数据实验室,其特征在于,所述数据运营区包括运营平台;
所述运营平台用于提供审核用户信息、算力和模型。
8.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室还包括4A平台;
所述4A平台用于对数据采集工具、运维用户、全部平台的账号、认证、授权、审计管理。
9.根据权利要求1所述的数据实验室,其特征在于,所述线下开发区部署有终端防泄漏客户端。
10.根据权利要求1所述的数据实验室,其特征在于,所述数据实验室还包括互联网区;
所述互联网区包括API服务,用于为数据需求者提供调用数据价值挖掘结果的接口。
CN202210643130.1A 2022-06-07 2022-06-07 基于政务数据融通与价值挖掘的数据实验室 Pending CN115269671A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210643130.1A CN115269671A (zh) 2022-06-07 2022-06-07 基于政务数据融通与价值挖掘的数据实验室

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210643130.1A CN115269671A (zh) 2022-06-07 2022-06-07 基于政务数据融通与价值挖掘的数据实验室

Publications (1)

Publication Number Publication Date
CN115269671A true CN115269671A (zh) 2022-11-01

Family

ID=83759373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210643130.1A Pending CN115269671A (zh) 2022-06-07 2022-06-07 基于政务数据融通与价值挖掘的数据实验室

Country Status (1)

Country Link
CN (1) CN115269671A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729994A (zh) * 2022-11-10 2023-03-03 福建实达集团股份有限公司 一种公共数据开发利用的一体化大数据应用系统及方法
CN116596490A (zh) * 2023-07-19 2023-08-15 数字浙江技术运营有限公司 公共数据开放利用的系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729994A (zh) * 2022-11-10 2023-03-03 福建实达集团股份有限公司 一种公共数据开发利用的一体化大数据应用系统及方法
CN116596490A (zh) * 2023-07-19 2023-08-15 数字浙江技术运营有限公司 公共数据开放利用的系统及方法

Similar Documents

Publication Publication Date Title
CN115269671A (zh) 基于政务数据融通与价值挖掘的数据实验室
CN111209269A (zh) 一种智慧城市大数据管理系统
CN105283849A (zh) 针对性能和细节的并行跟踪
CN105122230A (zh) 跟踪作为服务
CN107817756A (zh) 网络化分布式数控系统靶场设计方法
CN112398860A (zh) 一种安全控制的方法和装置
CN111639914A (zh) 区块链案件信息管理方法、装置、电子设备和存储介质
Ristvej et al. Experiences with implementation of information systems within preparation to deal with crisis situations in terms of crisis management and building resilience in the Slovak Republic
CN109636307B (zh) 河长app系统
CN103500304A (zh) 基于Xen的虚拟机个性化安全监控系统及监控方法
CN103426041A (zh) 基于物联网的辐射源实时监控与管理系统和方法
CN116415203A (zh) 一种基于大数据的政务信息智能融合系统及方法
CN113591096A (zh) 综合检测大数据漏洞和不安全配置的脆弱性扫描系统
CN110858354A (zh) 一种城市公共安全服务系统
CN115758406A (zh) 数据协同共享安全系统
CN116415916A (zh) 一种基于区块链和工业互联网融合的矿山信息管理系统
CN115118012A (zh) 一种基于智能微电网的多模态数据处理方法及装置
CN113590112A (zh) 工业ai项目开发平台
CN115348025A (zh) 一种基于区块链的可信燃气安全协同处置方法
Rajamäki Resilience Management Concept for Railways and Metro Cyber-Physical Systems
Kaneko et al. STAMP S&S: Layered Modeling for the complexed system in the society of AI/IoT
CN107071004A (zh) 一种混合云控制调度系统和调度方法
CN110569026A (zh) 一种基于j2ee框架面向服务的系统架构方法
Khan A distributed computing architecture to enable advances in field operations and management of distributed infrastructure
Reitze Using commercial web services to build Automated Test Equipment cloud based applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination