CN117556453B - 基于原始数据不出域的数据元件场内加工方法和系统 - Google Patents
基于原始数据不出域的数据元件场内加工方法和系统 Download PDFInfo
- Publication number
- CN117556453B CN117556453B CN202410049925.9A CN202410049925A CN117556453B CN 117556453 B CN117556453 B CN 117556453B CN 202410049925 A CN202410049925 A CN 202410049925A CN 117556453 B CN117556453 B CN 117556453B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- unit
- model
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000011161 development Methods 0.000 claims abstract description 83
- 238000000034 method Methods 0.000 claims abstract description 82
- 238000004519 manufacturing process Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 68
- 230000006835 compression Effects 0.000 claims abstract description 19
- 238000007906 compression Methods 0.000 claims abstract description 19
- 238000012795 verification Methods 0.000 claims abstract description 4
- 230000008676 import Effects 0.000 claims description 74
- 238000012550 audit Methods 0.000 claims description 41
- 238000000586 desensitisation Methods 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 17
- 238000007726 management method Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 230000035945 sensitivity Effects 0.000 claims description 5
- 238000004088 simulation Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 18
- 239000000047 product Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 7
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 239000006227 byproduct Substances 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据元件加工技术领域,提供一种基于原始数据不出域的数据元件场内加工方法和系统,包括:采用数据要素蝶变器根据原始数据生成并审核样本数据,将通过审核的样本数据加密导出为加密压缩样本数据;采用元件开发平台将加密压缩样本数据解密进行数据元件模型构建和调试,导出为加密压缩元件模型;采用数据要素蝶变器导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密为加密元件结果;采用元件开发平台导入加密元件结果,将解密后的元件结果发布上架。本发明可以实现数据元件产品在数据提供方本地场内进行生产,降低数据泄露事故发生的概率。
Description
技术领域
本发明涉及数据元件加工技术领域,尤其涉及一种基于原始数据不出域的数据元件场内加工方法和系统。
背景技术
目前,对数据产品进行加工和生产时,都需要提前将所需数据汇聚到平台内,这对数据提供方来讲,数据已经离场了,数据产品或数据元件的生产已经在场外生产,即进入场外加工模式。场外加工,本质上是需要数据提供方的原始数据出域的。这种原始数据出域的场外加工模式,对数据提供方造成了无法避免的数据安全隐患,数据泄露风险不可控也不可知。正是基于这种现状,直接导致了很多数据提供方不愿意将自己的数据提供出来参与到数据产品的加工生产,实际数据的利用率非常低。
因此,如何提供一种在原始数据不出域的前提下实现本地数据参与数据产品融合加工分析方法,成为亟待解决的技术问题。
发明内容
有鉴于此,为了克服现有技术的不足,本发明旨在提供一种基于原始数据不出域的数据元件场内加工方法和系统。
根据本发明的第一方面,提供一种基于原始数据不出域的数据元件场内加工方法,包括:
采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据;
采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型;
采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果;
采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据,包括:
采用样本生成单元对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,并生成样本数据;
采用样本审核单元检测样本数据与原始数据的相似度,根据所述的相似度对样本数据进行审核;
采用样本导出单元将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用样本生成单元对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据,包括:采用样本生产单元对原始数据进行登记,为登记的原始数据设置数据字典,所述数据字典包括分级分类配置和字段属性说明,从经过数据字典设置的原始数据中抽样,根据抽样获得的原始数据的数据字典中字段属性说明对抽样获得的原始数据进行敏感级别划分,对不同敏感级别的原始数据进行不同的脱敏处理,所述脱敏处理包括关联仿真脱敏、部分遮挡脱敏或随机映射脱敏处理,将经过脱敏处理的原始数据作为样本数据。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用样本审核单元检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核,包括:
当样本数据与原始数据的相似度小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为通过审核;
当样本数据与原始数据的相似度不小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为未通过审核,对未通过审核的样本数据进行修正编辑,对修正编辑后的样本数据重新进行审核。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型,包括:
采用导入导出模块的样本导入单元从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中;
采用数据元件开发单元从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试;
采用模型导出单元将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果,包括:
采用元件模型导入单元从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到元件模型的文件目录中;
采用元件生产单元为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中;
采用元件审核单元对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元,元件结果导出单元将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用元件生产单元为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,包括:采用元件生产单元为元件模型配置调度信息,在所述调度信息中配置元件生产启动时间点,根据配置的元件生产启动时间点加载并执行元件模型。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用元件审核单元对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元,包括:
采用元件审核单元对元件结果库中的元件结果进行脱敏审核、合规性审核和相似度审核;
当元件结果中包含敏感信息或非法不合规信息,将元件结果判定为不通过审核;
当元件结果的数据内容与原始数据的相似度不小于元件审核单元预设的相似度审核阈值,将元件结果判定为不通过审核。
优选地,本发明基于原始数据不出域的数据元件场内加工方法中,采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架,包括:
采用元件开发平台的元件结果导入单元从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中;
采用数据元件目录单元将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,对经过编目设置的元件结果执行发布上架。
根据本发明的第二方面,提供一种基于原始数据不出域的数据元件场内加工系统,包括数据元件加工服务端,所述数据元件加工服务端包括:
数据要素蝶变器,包括样本管理模块和元件生产模块;
样本管理模块包括样本生成单元、样本审核单元和样本导出单元,其中,样本生成单元用于对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据;样本审核单元用于检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核;样本导出单元用于将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据;
元件生产模块包括元件模型导入单元、元件生产单元、元件审核单元和元件结果导出单元,其中,元件模型导入单元用于从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到元件模型的文件目录中;元件生产单元用于为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中;元件审核单元用于对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元;元件结果导出单元用于将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件;
元件开发平台,包括导入导出模块和元件开发模块;
导入导出模块包括样本导入单元、模型导出单元和元件结果导入单元,其中,样本导入单元用于从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中;模型导出单元用于将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型;元件结果导入单元用于从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中;
元件开发模块包括数据资源目录单元、数据元件开发单元和数据元件目录单元,其中,数据资源目录单元用于存储解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典;数据元件开发单元用于从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试;数据元件目录单元用于将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,对经过编目设置的元件结果执行发布上架。
根据本发明的第三方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面所述的方法。
本发明基于原始数据不出域的数据元件场内加工方法和系统,通过将数据元件产品的开发和生产互相隔离,实现数据元件产品在数据提供方本地进行场内生产,确保原始数据不出域,规避数据安全风险,降低数据泄露事故发生的概率,让更多的数据拥有方可以放心的加入到数据产品加工生产中来,提高存量数据的利用率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为一种适用于本发明实施例基于原始数据不出域的数据元件场内加工方法的系统的示意图;
图2为根据本发明实施例基于原始数据不出域的数据元件场内加工系统的服务端的架构图;
图3为根据本发明实施例一种基于原始数据不出域的数据元件场内加工方法的步骤流程图;
图4为根据本发明实施例一种基于原始数据不出域的数据元件场内加工方法的执行流程图;
图5为本发明提供的设备的结构示意图。
实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
图1示出了一种适用于本发明实施例的基于原始数据不出域的数据元件场内加工方法的示例性系统。如图1所示,该系统可以包括数据元件加工服务端101、通信网络102和/或一个或多个数据元件加工客户端103,图1中示例为多个数据元件加工客户端103。
数据元件加工服务端101可以时用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中,数据元件加工服务端101可以执行适当的功能。例如,在一些实施例中,数据元件加工服务端101可以用于基于原始数据不出域对数据元件进行场内加工。作为可选的示例,在一些实施例中,数据元件加工服务端101可以被用于通过数据要素蝶变器和元件开发平台实现基于原始数据不出域对数据元件进行场内加工。例如,数据元件加工服务端101可以用于采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据;采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型;采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果;采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架。
作为另一示例,在一些实施例中,数据元件加工服务端101可以根据数据元件加工客户端103的请求,将基于原始数据不出域的数据元件场内加工方法发送到数据元件加工客户端103供用户使用。
图2为根据本发明实施例的基于原始数据不出域的数据元件场内加工系统的服务端的架构图。如图2所示,本发明实施例基于原始数据不出域的数据元件场内加工系统中,数据元件加工服务端包括数据要素蝶变器和元件开发平台。
具体的,数据要素蝶变器,包括样本管理模块和元件生产模块。
样本管理模块包括样本生成单元、样本审核单元和样本导出单元,其中,样本生成单元用于对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据;样本审核单元用于检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核;样本导出单元用于将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据;
元件生产模块包括元件模型导入单元、元件生产单元、元件审核单元和元件结果导出单元,其中,元件模型导入单元用于从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到元件模型的文件目录中;元件生产单元用于为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中;元件审核单元用于对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元;元件结果导出单元用于将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件。
元件开发平台,包括导入导出模块和元件开发模块。
导入导出模块包括样本导入单元、模型导出单元和元件结果导入单元,其中,样本导入单元用于从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中;模型导出单元用于将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型;元件结果导入单元用于从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中。
元件开发模块包括数据资源目录单元、数据元件开发单元和数据元件目录单元,其中,数据资源目录单元用于存储解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典;数据元件开发单元用于从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试;数据元件目录单元用于将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,对经过编目设置的元件结果执行发布上架。
作为可选的示例,在一些实施例中,数据元件加工客户端103用于提供可视化加工界面,该可视化加工界面用于接收用户数据元件加工的选择输入操作,以及,用于响应于选择输入操作,从数据元件加工服务端101获取与选择输入操作所选择的选项所对应的加工界面并展示加工界面,加工界面中至少展示有数据元件加工的信息以及针对数据元件加工的信息的操作选项。
在一些实施例中,通信网络102可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络102能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。数据元件加工客户端103能够通过一个或多个通信链路(例如,通信链路104)连接到通信网络102,该通信网络102能够经由一个或多个通信链路(例如,通信链路105)被链接到数据元件加工服务端101。通信链路可以是适合于在数据元件加工客户端103和数据元件加工服务端101之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
数据元件加工客户端103可以包括通过适当形式呈现与数据元件加工相关的界面,以供用户使用和操作的任何一个或多个客户端。在一些实施例中,数据元件加工客户端103可以包括任何合适类型的设备。例如,在一些实施例中,数据元件加工客户端103可以包括移动设备、平板计算机、膝上型计算机、台式计算机和/或任何其他合适类型的客户端设备。
尽管将数据元件加工服务端101图示为一个设备,但是在一些实施例中,可以使用任何适当数量的设备来执行由数据元件加工服务端101执行的功能。例如,在一些实施例中,可以使用多个设备来实现由数据元件加工服务端101执行的功能。或者,可使用云服务实现数据元件加工服务端101的功能。
基于上述系统,本申请实施例提供了一种基于原始数据不出域的数据元件场内加工方法,通过以下实施例进行说明。
图3为根据本发明实施例的一种基于原始数据不出域的数据元件场内加工方法的步骤流程图;图4为根据本发明实施例的一种基于原始数据不出域的数据元件场内加工方法的执行流程图。
如图3和图4所示,本实施例基于原始数据不出域的数据元件场内加工方法可在数据元件加工服务端执行,该基于原始数据不出域的数据元件场内加工方法包括以下步骤:
步骤S201:采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据。
本实施例方法采用样本生成单元对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据。作为一种示例,本实施例方法采用样本生产单元对原始数据进行登记,为登记的原始数据设置数据字典,本实施例方法中的数据字典包括但不限于分级分类配置和字段属性说明。举例来说,本实施例中的原始数据包括需要生成样本数据的库表或API资源,在对原始数据进行注册时,具体的,本实施例方法对原始数据注册包括以下内容:登记相关的库表名称或API地址;当为登记的原始数据设置数据字典时,需要对库表或API资源进行分级分类设置以及相关的字段属性说明。
在完成对数据字典的设置后,本实施例方法采用样本生产单元从经过数据字典设置的原始数据中抽样,根据抽样获得的原始数据的数据字典中字段属性说明对抽样获得的原始数据进行敏感级别划分,对不同敏感级别的原始数据进行不同的脱敏处理。本实施例方法中的脱敏处理包括但不限于关联仿真脱敏、部分遮挡脱敏或随机映射脱敏处理,将经过脱敏处理的原始数据作为样本数据。需要说明的是,本领域技术人员在根据本实施例方法对原始数据进行脱敏处理时,还可以根据实际应用场景选择其他合适的算法,本实施例对此不做限制。举例来说,将原始数据的敏感级别分为三种:一般、重要与核心,对一般数据字段,不需要脱敏,对重要(如个人证件号码的隐私数据)字段,采用关联仿真脱敏或部分遮挡脱敏,对核心字段则可以采用全遮挡脱敏。
在完成样本数据生成后,本实施例还需要采用样本审核单元检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核。作为可选的示例,本实施例方法采用样本审核单元检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核;当样本数据与原始数据的相似度小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为通过审核;当样本数据与原始数据的相似度不小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为未通过审核,对未通过审核的样本数据进行修正编辑,对修正编辑后的样本数据重新进行审核。举例来说,当样本审核单元预设的相似度审核阈值为50%,若样本数据与原始数据的相似度不小于50%,则将该样本数据判定为未通过审核。本实施例方法中,当样本数据被判定为未通过审核后,采用样本数据编辑单元对该样本数据进行编辑修正,比如删减样本数据中的部分数据或修改样本数据中的某部分数据的字段内容等。
在完成对样本数据的审核后,本实施例放法采用样本导出单元将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据。需要说明的是,本实施例方法中,采用对称加密的方式对导出的两个SQL文件以及由两个SQL文件导出的压缩包进行加密,密钥同时存储在数据要素蝶变器和元件开发平台的后台,不对外部用户开放。
步骤S202:采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型。本实施例方式优选采用对称加密的方式对导出的两个SQL文件以及由两个SQL文件导出的压缩包进行加密,密钥同时存储在数据要素蝶变器和元件开发平台的后台,与加密密钥相对应的解密密钥内置在数据要素蝶变器和元件开发平台的后台程序中。
作为可选的示例,本实施例方法采用导入导出模块的样本导入单元从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中。
在需要进行数据元件加工时,采用数据元件开发单元从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试。举例来说,采用元件开发平台的元件开发模块里的数据元件开发单元进行元件的定义和在线建模,元件定义中需要给该元件设置依赖的数据资源输入,此时选中从数据要素蝶变器导入的库表或API资源;开发人员在元件开发模块中数据元件开发单元里通过在线建模画布编辑业务模型,在业务模型中编写对输入的数据资源的处理过程。元件模型编辑完成后,采用数据元件开发单元执行模型调试,通过系统后台将元件模型和选中的资源所对应的样本数据加载到底层的大数据计算空间,执行模型调试,并在前台页面展示调试的结果,元件开发人员根据结果来判断模型是否符合预期,如果未达到预期,则需要对模型进行修改编辑。
在完成元件模型调试后,采用模型导出单元将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型。需要注意的是,本实施例中的元件模型可以是一个或多个代码文件,也可以是一个或多个SQL脚本文件等。本实施例方法中所指的结构化数据包括元件名称、元件分类、元件的输出字段以及选中的资源表名等。
步骤S203:采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果。
作为可选的示例,本实施例方法采用元件模型导入单元从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到后台关于元件模型的文件目录中。
在完成将元件开发平台中的元件模型导入至数据蝶变器后,本实施例方法采用元件生产单元为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中。举例来说,本实施例方法可以采用元件生产单元为元件模型配置调度信息,在所述调度信息中配置元件生产启动时间点,根据配置的元件生产启动时间点加载并执行元件模型。举例来说,启动生产时,加载元件模型文件和对应数据资源的原始数据到底层的大数据计算空间,执行元件模型文件,处理原始数据,得到元件结果,并将元件结果写入元件结果库中。
当通过执行元件模型完成元件生产后,本实施例方法采用元件审核单元对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元,元件结果导出单元将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件。作为一种示例,本实施例方法采用元件审核单元对元件结果库中的元件结果进行脱敏审核、合规性审核和相似度审核;当元件结果中包含敏感信息(比如个人或企业的敏感信息),将元件结果判定为不通过审核;当元件结果的数据内容与原始数据的相似度不小于元件审核单元预设的相似度审核阈值,将元件结果判定为不通过审核。举例来说,当元件审核单元预设的相似度审核阈值为50%,若元件结果的数据内容与原始数据的相似度不小于50%,则将该元件结果判定为未通过审核。
步骤S204:采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架。
作为可选的示例,本实施例方法采用元件开发平台的元件结果导入单元从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中。本实施例方法中,元件前置库具为不同的独立空间,每个独立空间对应一个来源的“数据要素蝶变器”的元件结果,不同的“数据要素蝶变器”导进来的元件结果相互隔离。
当需要发布元件时,采用数据元件目录单元将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,包括对所属行业领域、分级分类、调用方式、输出字段属性、以及产品可支持的售卖规格等信息进行编目设置,在完成元件结果编目后,本实施例方法即可对经过编目设置的元件结果执行发布上架。
本实施例方法主要用于实现数据提供方的原始数据不出域的前提下参与数据产品的生产。通过“资源样本加密导出+元件模型加密导入”相结合的模式,让场外开发调试完成的元件模型导入到数据提供方本地进行场内生产,实现数据元件产品的开发和生产在物理和空间上的完全隔离,确保数据提供方的原始数据在物理和空间上不出域,确保数据安全,降低数据泄露风险。
在具体应用场景中,本实施例方法涉及到两个独立的平台,分别是数据要素蝶变器和元件开发平台,数据要素蝶变器部署在数据提供方的前置区内,负责数据提供方本地的样本数据管理和元件场内生产;元件开发平台部署在数据要素加工交易中心专区,是数据要素加工交易中心的子平台,负责元件的开发和调试。数据要素蝶变器和元件开发平台在网络上是隔离的,两个平台各自都提供了相关的导入导出功能,导入导出的文件需要通过线下拷贝传输,不能直接联网传输。
数据要素蝶变器包括两个模块:样本管理模块和元件生产模块。样本管理模块负责对数据提供方本地的数据资源(库表或API)的样本进行管理,包括样本生成、样本审核和样本导出,该模块负责为元件开发模块准备样本数据输入;元件生产模块负责对导入的元件模型执行本地生产,包括元件模型导入解析入库、元件启动生产和调度配置、元件发布及审核、元件结果加密导出等功能;
元件开发平台包括两个模块:导入导出模块和元件开发模块。导入导出模块负责样本数据(样本数据文件是从“数据要素蝶变器”里导出的)的导入、开发调试完成后的元件模型的导出以及生产完成后的元件结果(在“数据要素蝶变器”里生产的元件的结果)的导入;元件开发模块负责样本库的查看、元件开发在线建模和调试(使用样本数据试运行元件结果)以及对导入的元件结果进行入库和管理。
通过将现有的数据元件(或数据产品)的开发加工和生产从工序上进行拆分和隔离,让元件的开发和生产成为两个独立的环节,并且分别在不同的平台里进行,确保数据提供方不需要将原始数据传递给数据要素加工交易中心里的元件开发平台,而是将元件开发平台里的元件模型导入到本地进行场内生产,确保“原始数据不出域”的前提下,实现元件生产完成后的元件结果即数据价值的导出,更安全的实现数据价值共享。
本实施例方法通过将数据元件产品的开发和生产互相隔离,实现数据元件产品在数据提供方本地进行场内生产,确保原始数据不出域,规避数据安全风险,降低数据泄露事故发生的概率,让更多的数据拥有方可以放心的加入到数据产品加工生产中来,提高存量数据的利用率。
如图5所示,本发明还提供了一种设备,包括处理器310、通信接口320、用于存储处理器可执行计算机程序的存储器330及通信总线340。其中,处理器310、通信接口320及存储器330通过通信总线340完成相互间的通信。处理器310通过运行可执行计算机程序以实现上述的高速访问ORC外部表的方法。
其中,存储器330中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以基于实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于原始数据不出域的数据元件场内加工方法,其特征在于,所述方法包括:
采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据;
采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型;
采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果;
采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架;
采用元件开发平台的导入导出模块从数据要素蝶变器导入加密元件结果,将解密后的元件结果发送至数据元件目录单元中入库和发布上架,包括:
采用元件开发平台的元件结果导入单元从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中;
采用数据元件目录单元将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,对经过编目设置的元件结果执行发布上架。
2.根据权利要求1所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用数据要素蝶变器的样本管理模块根据原始数据生成样本数据,对生成的样本数据进行审核,将通过审核的样本数据加密导出为加密压缩样本数据,包括:
采用样本生成单元对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据 ;
采用样本审核单元检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核 ;
采用样本导出单元将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据。
3.根据权利要求2所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用样本生成单元对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据,包括:
采用样本生产单元对原始数据进行登记,为登记的原始数据设置数据字典,所述数据字典包括分级分类配置和字段属性说明,从经过数据字典设置的原始数据中抽样,根据抽样获得的原始数据的数据字典中字段属性说明对抽样获得的原始数据进行敏感级别划分,对不同敏感级别的原始数据进行不同的脱敏处理,所述脱敏处理包括关联仿真脱敏、部分遮挡脱敏或随机映射脱敏处理,将经过脱敏处理的原始数据作为样本数据。
4.根据权利要求2所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用样本审核单元检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核,包括:
当样本数据与原始数据的相似度小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为通过审核;
当样本数据与原始数据的相似度不小于样本审核单元预设的相似度审核阈值,将所述样本数据判定为未通过审核,对未通过审核的样本数据进行修正编辑,对修正编辑后的样本数据重新进行审核。
5.根据权利要求1所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用元件开发平台的导入导出模块导入加密压缩样本数据,将加密压缩样本数据解密至元件开发模块进行数据元件模型构建和调试,采用导入导出模块将调试完成的数据元件模型导出为加密压缩元件模型,包括:
采用导入导出模块的样本导入单元从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中;
采用数据元件开发单元从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试;
采用模型导出单元将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型。
6.根据权利要求1所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用数据要素蝶变器的元件生产模块从元件开发平台导入并解密加密压缩元件模型,通过执行元件模型生产获得元件结果,对生产获得的元件结果进行审核,将通过审核的元件结果加密,获得加密元件结果,包括:
采用元件模型导入单元从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到元件模型的文件目录中;
采用元件生产单元为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中;
采用元件审核单元对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元,元件结果导出单元将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件。
7.根据权利要求6所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用元件生产单元为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,包括:
采用元件生产单元为元件模型配置调度信息,在所述调度信息中配置元件生产启动时间点,根据配置的元件生产启动时间点加载并执行元件模型。
8.根据权利要求6所述的基于原始数据不出域的数据元件场内加工方法,其特征在于,采用元件审核单元对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元,包括:
采用元件审核单元对元件结果库中的元件结果进行脱敏审核、合规性审核和相似度审核;
当元件结果中包含敏感信息或非法不合规信息,将元件结果判定为不通过审核;
当元件结果的数据内容与原始数据的相似度不小于元件审核单元预设的相似度审核阈值,将元件结果判定为不通过审核。
9.一种基于原始数据不出域的数据元件场内加工系统,其特征在于,所述系统包括数据元件加工服务端,所述数据元件加工服务端包括:
数据要素蝶变器,包括样本管理模块和元件生产模块;
样本管理模块包括样本生成单元、样本审核单元和样本导出单元,其中,样本生成单元用于对原始数据进行注册和抽样,对抽样所得的数据进行脱敏,生成样本数据;样本审核单元用于检测样本数据与原始数据的相似度,根据所述相似度对样本数据进行审核;样本导出单元用于将通过审核的样本数据及所述通过审核的样本数据对应的数字字典分别导出为两个SQL文件,对导出的两个SQL文件加密并导出为压缩包,对导出的压缩包进行加密,获得加密压缩样本数据;
元件生产模块包括元件模型导入单元、元件生产单元、元件审核单元和元件结果导出单元,其中,元件模型导入单元用于从元件开发平台的模型导出单元中导入加密压缩元件模型,对导入的加密压缩元件模型进行解密和解压,获得数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件,将结构化数据SQL文件写入元件待生产库表中,将代码文件复制到元件模型的文件目录中;元件生产单元用于为元件模型导入单元导入的元件模型配置调度信息,根据配置的调度信息启动元件生产,将元件生产得到的元件结果写入元件结果库中;元件审核单元用于对元件结果库中的元件结果进行审核,将通过审核的元件结果发送至元件结果导出单元;元件结果导出单元用于将接收的元件结果导出为SQL文件并对导出的SQL文件加密,获得加密元件结果SQL文件;
元件开发平台,包括导入导出模块和元件开发模块;
导入导出模块包括样本导入单元、模型导出单元和元件结果导入单元,其中,样本导入单元用于从数据要素谍变器的样本导出单元中导入加密压缩样本数据,对加密压缩样本数据进行解密和解压,获得加密的两个SQL文件,对获得的加密的两个SQL文件解密,将解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典写入数据资源目录单元中的蝶变器样本库中;模型导出单元用于将通过调试的数据元件模型对应的代码文件以及所述数据元件模型在构建过程中生成的结构化数据SQL文件导出为一个压缩包,将所述压缩包加密后得到加密压缩元件模型;元件结果导入单元用于从数据要素蝶变器的元件结果导出单元中导入加密元件结果SQL文件,将导入的加密元件结果SQL文件进行解密,将解密得到的元件结果写入元件前置库中;
元件开发模块包括数据资源目录单元、数据元件开发单元和数据元件目录单元,其中,数据资源目录单元用于存储解密获得的通过审核的样本数据及所述通过审核的样本数据对应的数据字典;数据元件开发单元用于从蝶变器样本库中获取样本数据及对应的数据字典,根据获取的取样本数据及对应的数据字典构建数据元件模型,对构建的数据元件模型进行调试;数据元件目录单元用于将元件前置库中的元件结果转存至元件结果库中,对元件结果库中的元件结果进行编目设置,对经过编目设置的元件结果执行发布上架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049925.9A CN117556453B (zh) | 2024-01-14 | 2024-01-14 | 基于原始数据不出域的数据元件场内加工方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410049925.9A CN117556453B (zh) | 2024-01-14 | 2024-01-14 | 基于原始数据不出域的数据元件场内加工方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117556453A CN117556453A (zh) | 2024-02-13 |
CN117556453B true CN117556453B (zh) | 2024-04-30 |
Family
ID=89820980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410049925.9A Active CN117556453B (zh) | 2024-01-14 | 2024-01-14 | 基于原始数据不出域的数据元件场内加工方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117556453B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186305A (zh) * | 2022-09-13 | 2022-10-14 | 中国电子信息产业集团有限公司 | 一种构建数据元件模型并生产数据元件的方法 |
CN115203263A (zh) * | 2022-09-14 | 2022-10-18 | 中国电子信息产业集团有限公司 | 数据元件获取方法、系统、设备及计算机可读存储介质 |
CN117056240A (zh) * | 2023-10-13 | 2023-11-14 | 中电数创(北京)科技有限公司 | 一种支持离线Jar包的数据元件开发调试方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7239708B2 (en) * | 2001-06-27 | 2007-07-03 | Microsoft Corporation | Protecting decrypted compressed content and decrypted decompressed content at a digital rights management client |
US20180253559A1 (en) * | 2017-03-01 | 2018-09-06 | Intel Corporation | Secured lossless data compression using encrypted headers |
-
2024
- 2024-01-14 CN CN202410049925.9A patent/CN117556453B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115186305A (zh) * | 2022-09-13 | 2022-10-14 | 中国电子信息产业集团有限公司 | 一种构建数据元件模型并生产数据元件的方法 |
CN115203263A (zh) * | 2022-09-14 | 2022-10-18 | 中国电子信息产业集团有限公司 | 数据元件获取方法、系统、设备及计算机可读存储介质 |
CN117056240A (zh) * | 2023-10-13 | 2023-11-14 | 中电数创(北京)科技有限公司 | 一种支持离线Jar包的数据元件开发调试方法和系统 |
Non-Patent Citations (1)
Title |
---|
潮流计算中FACTS元件模型选择研究;段献忠 等;电工技术学报;19990626;66-70 * |
Also Published As
Publication number | Publication date |
---|---|
CN117556453A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2023204296B2 (en) | Encrypted userdata transit and storage | |
US20230171101A1 (en) | NUTS: Flexible Hierarchy Object Graphs | |
CN107408135B (zh) | 用于对加密数据进行查询处理的数据库服务器和客户端 | |
CN105071936B (zh) | 用于安全数据共享的系统和方法 | |
US10909273B2 (en) | Selective data security within data storage layers | |
US20240161078A1 (en) | Computing system for configurable off-chain storage for blockchains | |
CN117556453B (zh) | 基于原始数据不出域的数据元件场内加工方法和系统 | |
Zhang | An overview of advantages and security challenges of cloud computing | |
CN116881973B (zh) | 一种基于多数据源的金融隐私数据可信计算方法及系统 | |
CN117910003A (zh) | 数据处理方法、装置、设备、介质和程序产品 | |
EA040905B1 (ru) | Зашифрованный транзит и хранение пользовательских данных | |
CN117235709A (zh) | 数据处理方法、装置及电子设备 | |
CN116090011A (zh) | 一种云链融合应用平台的数据安全处理方法 | |
IL310890A (en) | Transfer and storage of encrypted user data | |
Rodrigues et al. | TSKY: A Dependable Middleware Solution for Data Privacy using Public Storage Clouds |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |