CN114969722A - 一种支撑多数据类型的政务数据隐私计算系统 - Google Patents

一种支撑多数据类型的政务数据隐私计算系统 Download PDF

Info

Publication number
CN114969722A
CN114969722A CN202210525488.4A CN202210525488A CN114969722A CN 114969722 A CN114969722 A CN 114969722A CN 202210525488 A CN202210525488 A CN 202210525488A CN 114969722 A CN114969722 A CN 114969722A
Authority
CN
China
Prior art keywords
data
resource
module
file
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210525488.4A
Other languages
English (en)
Inventor
王振峰
郝文祥
刘向栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210525488.4A priority Critical patent/CN114969722A/zh
Publication of CN114969722A publication Critical patent/CN114969722A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Automation & Control Theory (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种支撑多数据类型的政务数据隐私计算系统,属于计算机应用技术领域,本发明包括数据源管理模块、数据注册模块、数据管理模块、数据导入模块、算法管理模块、数据运算模块。提供多数据类型的资源的注入功能,为开发用户提供更便捷的资源调用API,扩展沙箱可用资源类型,打通沙箱与资源之间的网络链接,提高数据源至沙箱的数据传输速率,提高开放平台敏感数据的开放便捷度,也为用户进行数据挖掘提供更多的便利,让数据创造更多的价值。

Description

一种支撑多数据类型的政务数据隐私计算系统
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种支撑多数据类型的政务数据隐私计算系统。
背景技术
随着政务数据平台的不断发展,各级部门累积了大量与公众生产生活相关的数据,掌握着80%的社会信息资源,而且数据存储类型多样化,有非结构化的数据文件,也有结构化的库表数据。而要让数据产生更多的价值,就需要加速公共数据的开放。但数据开放就有数据泄露和二次分发的风险,保护数据隐私,防止数据泄露就成了敏感数据开放的关键。
解决敏感数据开放的安全问题,当前的主流方式有三种:第一种是根据用户权限、角色审核等手段进行访问控制,防止第三方应用越权访问数据;第二种是对敏感数据进行数据脱敏处理,再将脱敏后的数据提供给数据需求方。第三种是将数据由接口的方式导入到沙箱中,在沙箱中进行数据运算,对数据进行物理隔离,保障数据安全。
但是随着电子政务的不断发展,数据源规模越来越大,数据类型日益复杂,仅支持接口类型数据沙箱系统,已经成为了沙箱系统的瓶颈。数据提供者需要经过复杂的处理将敏感数据注册为接口,使用者也受限于服务器带宽和接口的传输速率,算法运行速率不高。面对这种挑战一种支撑多数据类型的政务数据隐私计算方法及系统便应运而生。
发明内容
为了解决以上技术问题,本发明提供了一种支撑多数据类型的政务数据隐私计算系统。
本发明的技术方案是:
一种支撑多数据类型的政务数据隐私计算系统,包括数据源管理模块、数据注册模块、数据管理模块、数据导入模块、算法管理模块、数据运算模块;
数据源管理模块,管理库表类型资源的所属数据库信息,可以进行添加数据源;
数据注册模块,要负责三种类型的资源注册:库表、文件、接口;
数据管理模块,负责数据的管理、数据的开放、数据的检索、数据的申请、申请的授权,授权的管理;
数据导入模块,负责将数据以指定的方式导入到沙箱系统的容器中,并对数据使用人员提供读取使用数据的规范的API文档;
算法管理模块,负责数据使用人员进行算法代码的创建、算法的提交、容器的调用、算法的运行、算法运行结果的使用;数据提供人员和算法审核人员的算法的审核、算法的试运行、算法的管理、容器的管理;
数据运算模块,负责数据加密、安全多方计算、内存分配计算、资源自动伸缩等算法模型运行中的相关功能,不对数据使用者和数据管理者开放。
进一步的,
数据源的添加需要以下数据项:数据源名称、数据源类型、数据库的连接信息。
数据源管理模块提供了分页查询列表的功能;已添加的数据源信息可用于创建敏感资源数据服务,或由定时任务生成数据文件,还可以这直接对外开放库表字段信息和描述信息。
同时,数据源管理模块可以对已创建的数据源进行维护,还有数据源监控功能,可以定时来检测数据源的连接情况,如果发现连接有问题,可以及时处理。
进一步的,
库表资源管理可以注册库表,包括库表的名称、描述信息、字段信息以及所属数据源;
文件资源管理可以上传文本文件和数据文件,文件的上传需要以下数据项:文件的名称、文件类型、文件的业务类型、文件的内容介绍,用于向公众开放,文件存储于文件服务器中与沙箱系统处于同一网段中;
接口资源管理可以将隐私数据接口经网关代理后注册到数据平台中,所注册服务需要符合网关系统的白名单配置和授权信息才可以调用。
进一步的,
数据导入模块文件类型的资源支持文件内容读取,以python3的标准返回string文本对象,或者ndarray对象,并提供pandas、jieba、sklearn的文本处理和结构化数据处理的工具和机器学习开发工具。
库表类型的资源支持Mysql、SQL server、Oracle、达梦的数据库类型,支持用户通过库表资源id获取资源对象,资源对象提供多种数据查询的方法,在测试运行过程中还会以脱敏后的测试数据进行代码测试。
接口类型的资源提供统一调用接口,封装网关请求参数,调用call_api方法,添加请求参数与用户令牌,就可以调用接口,得到数据信息,简化用户调用代码。
利用cgroup对容器做权限限制,通过cgroup限制一个进程组能够使用的资源上限,运行容器时通过制定资源限制参数,来对每个容器资源作出管控,支持服务健康检查、弹性伸缩、服务注册发现、dashboard功能。
本发明支持接口、文件、库表多类型资源的政务数据隐私计算平台,资源注册管理便捷,可以对数据进行多类型转换,可以将敏感数据资源库转化为接口、文件、数据服务等多种方式供数据使用者调用。接口深层封装,用户调用方便。打通资源与沙箱的网络环境,数据传输快速。
敏感库表资源注册、敏感文件资源的上传、敏感接口资源的代理,和敏感库表资源注册代理为数据服务资源,通过定时任务转换为敏感文件资源。
抓住政务数据资源的网络结构特点,将沙箱运行环境的网络部署在数据所在的网络,大大提高了数据的传输效率,提高算法的运行效率;还创建了多数据类型的自适应封装API,会根据数据的类型自动读取数据,对用户暴露简单的API,简化用户调用数据的过程,提高代码开发效率。
给沙箱提供了一套完整的运行环境,包括了生成镜像模型、沙箱容器编排、运行调度平台、模型镜像存储仓库、创建命名空间等功能以及沙箱本身的管理。
本发明的有益效果是
本发明与常用政务沙箱方法相比,既保障了政务敏感数据的安全性,又增加了应用数据来源的多样性。提供了一站式的数据发布流程、数据使用流程和算法运行流程。简化了数据提供者发布敏感数据的流程,降低了数据使用者调用政务敏感数据的门槛,优化了容器运行限制于接口传输速率的问题,更好地推动政务敏感数据的有条件开放和数据的价值挖掘。
附图说明
图1是政务开放敏感数据的系统流程图;
图2是文件类型的敏感数据使用流程示意图;
图3是接口类型的敏感数据使用流程示意图;
图4是库表类型的敏感数据使用流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种支撑多数据类型的政务数据隐私计算系统,它包括数据源管理模块、数据注册模块、数据管理模块、数据导入模块、算法管理模块、数据运算模块。
数据源管理模块可以管理库表类型资源的所属数据库信息,可以进行添加数据源,数据源的添加需要以下数据项:数据源名称、数据源类型、数据库的连接信息,其次,在数据源管理模块中,提供了分页查询列表的功能。已添加的数据源信息可用于创建敏感资源数据服务,也可由定时任务生成数据文件,还可以这直接对外开放库表字段信息和描述信息。同时,在数据源管理模块可以对已创建的数据源进行维护,还有数据源监控功能,可以定时来检测数据源的连接情况,如果发现连接有问题,可以及时处理,以免影响了正常的业务。
数据注册模块主要负责三种类型的资源注册:库表、文件、接口。库表资源管理可以注册库表,包括库表的名称、描述信息、字段信息以及所属数据源。文件资源管理可以上传文本文件和数据文件,文件的上传需要以下数据项:文件的名称、文件类型、文件的业务类型、文件的内容介绍,用于向公众开放,文件存储于文件服务器中与沙箱系统处于同一网段中。接口资源管理可以将隐私数据接口经网关代理后注册到数据平台中,所注册服务需要符合网关系统的白名单配置和授权信息才可以调用。
数据管理模块主要负责数据的管理、数据的开放、数据的检索、数据的申请、申请的授权,授权的管理。数据资源管理人员可以对已注册服务进行查看、审核、批准开放;数据使用人员可以在开放门户中进行数据的搜索和申请;数据资源提供方可以对用户的申请进行审核和授权,对授权信息进行统一管理。
数据导入模块主要负责将数据以指定的方式导入到沙箱系统的容器中,并对数据使用人员提供读取使用数据的规范的API文档。文件类型的资源支持文件内容读取,包括txt、csv、rdf、xml、json、xls等文件类型的读取、解析,以python3的标准返回string文本对象,或者ndarray对象,并提供pandas、jieba、sklearn等文本处理和结构化数据处理的工具和机器学习开发工具。库表类型的资源支持Mysql、SQL server、Oracle、达梦等多种数据库类型,支持用户通过库表资源id获取资源对象,资源对象提供多种数据查询的方法,在测试运行过程中还会以脱敏后的测试数据进行代码测试。接口类型的资源提供统一调用接口,封装网关请求参数,用户只需调用call_api方法,添加请求参数与用户令牌,就可以调用接口,得到数据信息,简化用户调用代码。
算法管理模块主要负责数据使用人员进行算法代码的创建、算法的提交、容器的调用、算法的运行、算法运行结果的使用;数据提供人员和算法审核人员的算法的审核、算法的试运行、算法的管理、容器的管理等。
算法运行模块主要负责数据加密、安全多方计算、内存分配计算、资源自动伸缩等算法模型运行中的相关功能,不对数据使用者和数据管理者开放。利用cgroup对容器做权限限制,通过cgroup限制一个进程组能够使用的资源上限,包括CPU、内存、磁盘等,运行容器时通过制定资源限制参数,来对每个容器资源作出管控,支持服务健康检查、弹性伸缩、服务注册发现、dashboard等功能。
上述为支撑多数据类型的政务数据隐私计算方法及系统的主要功能模块,在该模块架构下,工作过程主要有以下几个步骤:
步骤1,数据拥有者通过数据源管理来添加具有一定价值的隐私数据数据源,并指定业务场景;通过接口管理代理指定服务到服务网关系统,或创建指定隐私数据源的数据服务;通过文件管理上传隐私数据文件,或通过定时任务生成指定隐私数据源的结构化文件。
步骤2,数据拥有者通过目录管理、资源挂接、资源发布功能,将隐私数据的接口、文件或库表挂接到指定目录上,发布到政务数据共享或开放平台中。
步骤3,数据使用者在共享或开放平台中检索隐私数据目录,填写申请表单,发起资源使用申请。
步骤4,数据拥有者审核资源申请记录,对申请者进行资源授权或拒绝申请,授权成功后会自动分发授权码给数据使用者。
步骤5,数据使用者按照资源调用API,使用数据资源,创建第三方应用,并提交后台审核。
步骤6,数据拥有者试运行用户提交的算法应用,审核应用运行结果,审核成功用户即可运行应用,试运行期间数据会注入到指定的试运行容器中进行运算。
步骤7,数据使用者可以在沙箱平台,创建容器、绑定算法、运行算法,获取算法结果和算法运行信息。
在整个流程中运作过程中,支持的数据类型由单一的接口类型扩展到多文件类型、多库表类型、多接口类型,有效地扩展了政务数据沙箱系统的数据接口,有效地简化了数据的使用难度,方便用户更快捷地发掘数据的价值。
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (8)

1.一种支撑多数据类型的政务数据隐私计算系统,其特征在于,
包括数据源管理模块、数据注册模块、数据管理模块、数据导入模块、算法管理模块、数据运算模块;
数据源管理模块,管理库表类型资源的所属数据库信息,可以进行添加数据源;
数据注册模块,要负责三种类型的资源注册:库表、文件、接口;
数据管理模块,负责数据的管理、数据的开放、数据的检索、数据的申请、申请的授权,授权的管理;
数据导入模块,负责将数据以指定的方式导入到沙箱系统的容器中,并对数据使用人员提供读取使用数据的规范的API文档;
算法管理模块,负责数据使用人员进行算法代码的创建、算法的提交、容器的调用、算法的运行、算法运行结果的使用;数据提供人员和算法审核人员的算法的审核、算法的试运行、算法的管理、容器的管理;
数据运算模块,负责数据加密、安全多方计算、内存分配计算、资源自动伸缩等算法模型运行中的相关功能,不对数据使用者和数据管理者开放。
2.根据权利要求1所述的系统,其特征在于,
数据源的添加需要以下数据项:数据源名称、数据源类型、数据库的连接信息。
3.根据权利要求2所述的系统,其特征在于,
数据源管理模块提供了分页查询列表的功能;已添加的数据源信息可用于创建敏感资源数据服务,或由定时任务生成数据文件,还可以这直接对外开放库表字段信息和描述信息。
同时,数据源管理模块可以对已创建的数据源进行维护,还有数据源监控功能,可以定时来检测数据源的连接情况,如果发现连接有问题,可以及时处理。
4.根据权利要求1所述的系统,其特征在于,
库表资源管理可以注册库表,包括库表的名称、描述信息、字段信息以及所属数据源;
文件资源管理可以上传文本文件和数据文件,文件的上传需要以下数据项:文件的名称、文件类型、文件的业务类型、文件的内容介绍,用于向公众开放,文件存储于文件服务器中与沙箱系统处于同一网段中;
接口资源管理可以将隐私数据接口经网关代理后注册到数据平台中,所注册服务需要符合网关系统的白名单配置和授权信息才可以调用。
5.根据权利要求1所述的系统,其特征在于,
数据导入模块文件类型的资源支持文件内容读取,以python3的标准返回string文本对象,或者ndarray对象,并提供pandas、jieba、sklearn的文本处理和结构化数据处理的工具和机器学习开发工具。
6.根据权利要求5所述的系统,其特征在于,
库表类型的资源支持Mysql、SQL server、Oracle、达梦的数据库类型,支持用户通过库表资源id获取资源对象,资源对象提供多种数据查询的方法,在测试运行过程中还会以脱敏后的测试数据进行代码测试。
7.根据权利要求6所述的系统,其特征在于,
接口类型的资源提供统一调用接口,封装网关请求参数,调用call_api方法,添加请求参数与用户令牌,就可以调用接口,得到数据信息,简化用户调用代码。
8.根据权利要求7所述的系统,其特征在于,
利用cgroup对容器做权限限制,通过cgroup限制一个进程组能够使用的资源上限,运行容器时通过制定资源限制参数,来对每个容器资源作出管控,支持服务健康检查、弹性伸缩、服务注册发现、dashboard功能。
CN202210525488.4A 2022-05-16 2022-05-16 一种支撑多数据类型的政务数据隐私计算系统 Pending CN114969722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210525488.4A CN114969722A (zh) 2022-05-16 2022-05-16 一种支撑多数据类型的政务数据隐私计算系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210525488.4A CN114969722A (zh) 2022-05-16 2022-05-16 一种支撑多数据类型的政务数据隐私计算系统

Publications (1)

Publication Number Publication Date
CN114969722A true CN114969722A (zh) 2022-08-30

Family

ID=82984145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210525488.4A Pending CN114969722A (zh) 2022-05-16 2022-05-16 一种支撑多数据类型的政务数据隐私计算系统

Country Status (1)

Country Link
CN (1) CN114969722A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115913790A (zh) * 2023-03-03 2023-04-04 蓝象智联(杭州)科技有限公司 基于隐私计算网络的数据传输方法、电子设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115913790A (zh) * 2023-03-03 2023-04-04 蓝象智联(杭州)科技有限公司 基于隐私计算网络的数据传输方法、电子设备和存储介质

Similar Documents

Publication Publication Date Title
KR102514325B1 (ko) 모델 훈련 시스템 및 방법과, 저장 매체
CN109688120B (zh) 基于改进RBAC模型及Spring Security框架的动态权限管理系统
US9495084B2 (en) Method and apparatus for widget and widget-container distribution control based on content rules
JP2022000757A5 (zh)
CN107798037A (zh) 用户特征数据的获取方法及服务器
CN108737176B (zh) 一种数据网关控制方法、电子设备、存储介质及架构
US11086819B2 (en) Efficiently deleting data from objects in a multi-tenant database system
CN112835977B (zh) 一种基于区块链的数据库管理方法及系统
EP3556129A1 (en) System and method for user authorization
CN110390184A (zh) 用于在云中执行应用的方法、装置和计算机程序产品
CN103414762A (zh) 云备份方法和装置
CN112527504A (zh) 多租户的资源配额管理方法、装置、计算机设备
CN113297433A (zh) 一种访问图数据库的方法和系统
CN114969722A (zh) 一种支撑多数据类型的政务数据隐私计算系统
CN111464522B (zh) 一种基于容器自动化生成服务的系统及方法
CN111339193B (zh) 类别的编码方法及装置
CN115221559A (zh) 数据账户的访问授权方法及装置
CN116070191A (zh) 信息处理方法及其装置、存储介质、程序产品
CN116136844A (zh) 实体标识信息的生成方法、装置、介质及电子设备
CN112926084A (zh) 访问权限管理方法及系统
CN114816579B (zh) 一种基于工业互联网平台的SaaS化工业APP接入方法
CN113542245B (zh) 数据流量监控方法、装置、计算机设备及存储介质
CN117057806B (zh) 基于区块链的数据处理方法、装置及相关设备
CN104750709A (zh) 一种语义检索方法及系统
US11595309B2 (en) Source network address translation for unique sender identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination