CN116561741B - 一种数据建模方法、系统及相关设备 - Google Patents
一种数据建模方法、系统及相关设备 Download PDFInfo
- Publication number
- CN116561741B CN116561741B CN202310829852.0A CN202310829852A CN116561741B CN 116561741 B CN116561741 B CN 116561741B CN 202310829852 A CN202310829852 A CN 202310829852A CN 116561741 B CN116561741 B CN 116561741B
- Authority
- CN
- China
- Prior art keywords
- data
- modeling
- sandbox
- environment
- personal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 244000035744 Hura crepitans Species 0.000 claims abstract description 258
- 238000011156 evaluation Methods 0.000 claims description 40
- 238000013475 authorization Methods 0.000 claims description 32
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000013500 data storage Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 25
- 238000012549 training Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000000586 desensitisation Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/52—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
- G06F21/53—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种数据建模方法、系统及相关设备,当获取到数据需求方的建模任务请求时,先通过预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从数据安全沙箱中的第二个人环境沙箱中获取建模配置文件对应的目标建模数据;其中,第一个人环境沙箱与数据需求方一一对应,第二个人环境沙箱与数据提供方一一对应;在数据安全沙箱中的调试环境沙箱中,基于建模配置文件以及对应的目标建模数据进行建模,得到对应的模型结果并发送至数据需求方。通过上述方案,在根据多方数据进行数据建模时,防止建模数据、建模算法以及建模结果泄露,保证建模过程中数据安全性。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据建模方法、系统及相关设备。
背景技术
随着数字化浪潮地愈演愈烈,大数据技术被应用到越来越多的业务场景,数据所带来的价值也更加被重视。但是,目前,对数据的管理和应用仍处于初步阶段,为了保证数据的安全性,各个数据拥有方之间往往无法进行数据共享,从而导致在需要多个数据拥有方进行协作实现数据建模时数据安全得不到保障,从而形成数据孤岛。例如,以银行数据建模时往往需要不同的银行所提供的银行数据,而银行数据对各自的银行来说大多为隐私数据,从而影响银行数据建模的发展。传统通过U盘、加密文件、水印追溯和合规管控等方式相对薄弱,通过下载数据文件、用户敏感信息拍照等方式极易窃取数据信息,导致在数据建模时,建模数据、建模算法和模型结果等都无法得到安全保障,严重影响了数据建模发展,降低数据的应用价值。
因此,如何在基于多方数据进行数据建模时,保证建模过程中数据安全性成为亟需解决的技术问题。
发明内容
本发明的主要目的在于提供一种数据建模方法、系统及相关设备,旨在解决现有技术中在基于多方数据进行数据建模时,建模过程中数据安全性低、容易被窃取的问题。
为实现上述目的,本发明提供了一种数据建模方法,所述数据建模方法基于数据安全沙箱,所述数据安全沙箱包括:若干个人环境沙箱、调试环境沙箱;所述个人环境沙箱为第一个人环境沙箱或第二个人环境沙箱,所述方法包括:
当获取到数据需求方的建模任务请求时,根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据;
其中,所述第一个人环境沙箱与所述数据需求方一一对应,所述第二个人环境沙箱与数据提供方一一对应;
在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方。
可选地,所述在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方之前,所述方法还包括:
将所述目标建模数据发送至所述数据安全沙箱的运行环境沙箱中;
在所述运行环境沙箱中,对所述目标建模数据进行预处理,得到样本数据;
将所述样本数据发送至所述调试环境沙箱。
可选地,所述得到对应的模型结果后,所述方法还包括:
将所述调试环境沙箱中的模型结果发送至所述数据安全沙箱中的运行环境沙箱;
在所述运行环境沙箱中对所述模型结果进行模型评估,得到相应的评估结果;
当所述评估结果未满足预设条件时,在所述调试环境沙箱中对所述模型结果进行再训练,直至所述模型结果的评估结果满足所述预设条件。
可选地,在获取到所述数据需求方的建模任务请求之前,所述方法还包括:
在所述数据安全沙箱中,各所述第二个人环境沙箱接收来自对应的所述数据提供方的加密数据,并根据预设密钥对所述加密数据进行解密,得到相应的初始建模数据。
可选地,所述方法还包括:响应于数据需求方的数据存储请求,将所述数据需求方上传的初始建模数据存储至对应的所述第一个人环境沙箱中。
可选地,所述从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据,具体包括:
确定所述建模配置文件对应的所需数据类型;
根据所述所需数据类型,从各所述第二个人环境沙箱中的初始银行数据中,确定对应的目标建模数据;
获取各所述目标建模数据的数据授权类型,在所述数据授权为部分授权时,向所述目标建模数据的数据提供方发送权限审批请求;
当所述权限审批请求通过时,从所述第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据。
可选地,在得到所述模型结果后,所述方法还包括:
将所述调试环境沙箱中的所述目标建模数据删除;以及
通过所述数据安全沙箱将加密后的建模执行记录发布至区块链。
为了实现上述目的,本发明还提供了一种数据建模系统,所述系统包括:数据提供方、数据需求方、数据安全沙箱;其中,所述数据安全沙箱包括:个人环境沙箱、调试环境沙箱;所述个人环境沙箱为第一个人环境沙箱或第二个人环境沙箱;所述第一个人环境沙箱与所述数据需求方一一对应,所述第二个人环境沙箱与数据提供方一一对应;
所述数据需求方用于生成相应的建模任务请求并发送至所述数据安全沙箱;
所述数据安全沙箱用于当获取到数据需求方的建模任务请求时,根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据;以及用于在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方。
可选地,所述数据安全沙箱还包括:运行环境沙箱;
所述运行环境沙箱用于在基于所述建模配置文件以及对应的所述目标建模数据进行建模之前,接收所述目标建模数据并对所述目标建模数据进行预处理,得到样本数据;以及用于
将所述样本数据发送至所述调试环境沙箱。
可选地,所述调试环境沙箱还用于在得到所述模型结果后将所述模型结果发送至所述运行环境沙箱;
所述运行环境沙箱用于对所述模型结果进行模型评估,得到相应的评估结果并发送至所述调试环境沙箱;
所述调试环境沙箱还用于当所述评估结果未满足预设条件时,在所述调试环境沙箱中对所述模型结果进行再训练,直至所述模型结果的评估结果满足所述预设条件。
为了实现上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的数据建模方法中的步骤。
为了实现上述目的,本发明还提供了一种终端,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的数据建模方法中的步骤。
本发明通过在获取到数据需求方的建模任务请求时,先根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从第二个人环境沙箱中获取建模配置文件对应的目标建模数据,然后在数据安全沙箱的调试环境沙箱中,基于建模配置文件以及对应的目标建模数据进行建模,得到对应的模型结果,在建模过程中为每个建模参与方都构建了对应的硬件级的可信执行环境,从而实现数据提供方的建模数据和数据需求方的建模配置文件在沙箱环境中进行模型构建,保证建模数据和建模配置文件不被其他外部机构窥探、泄露,实现了建模数据和建模配置文件的可用不可见,从而在保证建模过程中所有数据的安全性的情况下实现多参与方的建模需求。
附图说明
图1为本发明提供的数据建模方法的流程图之一;
图2为本发明实施例提供的数据建模方法的应用场景示意图;
图3为本发明提供的数据建模方法的流程图之二;
图4为本发明提供的数据建模方法的流程图之三;
图5为本发明实施例提供的数据建模系统的结构示意图;
图6为本发明实施例提供的终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种数据建模方法,如图1所示,本发明提供的数据建模方法至少包括以下步骤:
S101,当获取到来自数据需求方的建模任务请求时,根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从数据安全沙箱中的第二个人环境沙箱中获取建模配置文件对应的目标建模数据。
其中,第一个人环境沙箱与数据需求方一一对应,第二个人环境沙箱与数据提供方一一对应。数据需求方是指请求利用相关建模数据进行模型建模的机构,例如可以是银行等金融机构、也可以是非金融机构的企业或个人。数据提供方是指能够提供相关建模数据的,能够提供自身的业务数据(例如银行数据)。
可以理解的是,上述数据提供方也可以是数据需求方,数据需求方也可以是数据提供方,不论是数据需求方还是数据提供方都属于建模过程中的参与方。
上述建模配置文件可以包括建模算法,还可以包括:所需数据类型和/或数据提供方标识、建模任务名称等,在本发明实施例中不作具体限定。上述建模任务请求至少包括以下一项:所需数据类型、数据提供方标识。上述所需数据类型是指此次建模任务所需要的建模数据的类型,例如欠款记录数据、还款记录数据等。数据提供方标识是指此次建模任务所需的数据提供方,在一些建模任务中可能只需要获取指定数据提供方的建模数据即可。建模任务名称可以是用户设置的,在本发明实施例中不做限定。
本发明实施例提供的数据建模方法可以由计算机设备执行,其中,该计算机设备可以为终端或者服务器等设备。该终端可以个人计算机、笔记本电脑等终端设备,服务器可以是独立的物理服务器也可以是多个物理服务器构成的服务器集群或分布式系统,还可以是云服务器,在本发明实施例中不作具体限定。
如图2所示,可以在上述计算机设备中预先基于可信计算环境构建上述数据安全沙箱,数据安全沙箱包括:调试环境沙箱、多个个人环境沙箱。在本发明实施例中,为数据建模过程中的每个参与方都预先构建一一对应的个人环境沙箱。上述个人环境沙箱和调控环境沙箱都属于可信计算环境,且个人环境沙箱之间相互隔离、资源不互通,调控环境沙箱与个人环境沙箱之间也相互隔离、资源不互通。
其中,个人环境沙箱为每个参与方在使用数据安全沙箱时所分配的私有沙箱环境,该个人环境沙箱用于存放对应的参与主体所上传的数据、算法等信息,参与主体可以对该个人环境沙箱内的资源进行管理。调试环境沙箱为建模过程中建模数据的建模训练环境,可以输出训练的模型结果。
需要说明的是,在基于数据建模过程中,将数据需求方对应的个人环境沙箱作为第一个人环境沙箱,将数据提供方对应的个人环境沙箱作为第二个人环境沙箱,以方便进行区分。
在本发明实施例中,数据安全沙箱在获取到数据请求方的建模任务请求后,可以先确定建模任务请求中是否包括数据提供方标识以及所需数据类型。在建模任务请求中既包括数据提供方标识又包括所需数据类型的情况下,可以先根据数据提供方标识确定此次建模任务的数据提供方,从而确定此次建模任务的第二个人环境沙箱,然后根据所需数据类型从数据提供方标识对应的第二个人环境沙箱中获取目标建模数据;在建模任务请求中只包含数据提供方标识的情况下,说明此次建模任务需要建模任务请求中的数据提供方标识对应的第二个人环境沙箱中的所有初始建模数据作为目标建模数据;在建模任务请求中只包含所需数据类型的情况下,基于所需数据类型从各第二个人环境沙箱中获取对应的目标建模数据。
上述步骤S101中的获取到数据需求方的建模任务请求可以是指:在第二个人环境沙箱接收到来自对应的数据需求方的建模配置文件时,生成对应的建模任务请求;也可以是指:数据需求方在需要进行建模任务时生成建模任务请求并发送至对应的第二个人环境沙箱,在本发明实施例中不做具体限定。
另外,上述建模配置文件可以是在数据需求方需要进行建模任务时,才发送至对应的第一个人环境沙箱中;也可以是在进行建模任务之前,数据需求方预先将建模配置文件发送至第一个人环境沙箱中存储,在本发明实施例中不作具体限定。
进一步地,数据需求方对建模配置文件进行加密,并将加密后的建模配置文件发送至对应的第一个人环境沙箱,第一个人环境沙箱对加密后的建模配置文件进行解密,以得到对应的建模配置文件。可以理解的是,如图2所示,数据需求方也可以直接上传建模配置文件,不进行加密。建模配置文件以加密的形式上传,能够进一步提高建模过程中数据的安全性。
在本发明的一些实施例中,在获取到数据需求方的建模任务请求之前,在数据安全沙箱中,各第二个人环境沙箱接收来自对应的数据提供方的加密数据,并根据预设密钥对加密数据进行解密,得到相应的初始建模数据。例如,如图2所示,数据提供方1、2分别将数据加密上传至对应的个人环境沙箱,可见数据提供方1、2对应的个人环境沙箱中存储有由初始建模算法文件组成的数据文件。
具体地,针对每个数据提供方,数据提供方通过预先设置的公钥对采集到的初始建模数据进行加密,得到加密数据并发送至对应的第二个人环境沙箱。第二个人环境沙箱在接收到来自对应的数据提供方的加密数据后,根据预设密钥对该加密数据进行解密,得到相应的初始建模数据,从而进一步提高数据建模过程中建模数据的安全性。这里所说的预设密钥可以是与用于加密的公钥所对应的私钥,用于对加密数据解密。
进一步地,在得到相应的初始建模数据后,基于用户操作,设置各初始建模数据的数据授权类型,其中,数据授权类型包括:公开、部分授权和私密。
数据授权类型为公开,表示该数据授权类型的数据其他参与方可以直接使用,无需授权;数据授权类型为部分授权,表示该数据授权类型的数据在使用之前需要申请授权审批,数据提供方授权后才能使用该数据;数据授权类型为私密,表示其他参与方无法查看该数据,仅能在数据提供方的个人环境沙箱中使用。
在本发明实施例中,还可以对数据授权类型为部分授权的初始建模数据设置数据授权方式和数据授权对象。其中,数据授权方法至少包括:按次数授权、按时间授权、永久授权;数据授权对象至少包括按照建模任务、建模算法两个维度进行授权。
更进一步地,上述步骤S101具体通过以下步骤实现:先确定建模配置文件对应的所需数据类型;根据所需数据类型,从各第二个人环境沙箱中的初始建模数据中确定对应的目标建模数据;获取各目标建模数据的数据授权类型,在数据授权类型为部分授权时向目标建模数据的数据提供方发送权限审批请求;当权限审批请求通过时,从第二个人环境沙箱中获取上述建模配置文件对应的目标建模数据。
可以理解的是,在目标建模数据的数据授权类型为公开的情况下,直接从第二个人环境沙箱中获取建模配置文件对应的目标建模数据即可;在目标建模数据的数据授权类型为私密的情况下,则无法获取到对应的目标建模数据。
由于实际场景中,数据提供方所提供的初始建模数据复杂,在本发明实施例中针对不同的初始建模数据预先设置不同的数据授权类型,在建模过程中根据目标建模数据的数据授权类型确定是否可以直接获取到目标建模数据,在数据授权类型为部分授权时需要进行权限审批,从而进一步提高建模过程中建模数据的安全性。
S102,在数据安全沙箱中的调试环境沙箱中,基于上述建模配置文件以及对应的目标建模数据进行建模,得到对应的模型结果并发送至数据需求方。
在本发明实施例中,数据需求方的第一个人环境沙箱将建模配置文件发送至调试环境沙箱,数据提供方的第二个人环境沙箱将目标建模数据发送至调试环境沙箱。在调试环境沙箱中,通过建模配置文件中的建模算法以及目标建模数据进行模型训练,得到对应的模型结果。
在本发明的一些实施例中,上述初始建模数据为初始银行数据,也就是说本方案提供数据建模方法可以用于银行数据的建模,在这个过程中,上述模型结果可以是例如金融风控模型、金融产品营销模型等。
本发明提供的数据建模方法,当获取到数据需求方的建模任务请求时,先根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从第二个人环境沙箱中获取建模配置文件对应的目标建模数据,然后在数据安全沙箱的调试环境沙箱中,基于建模配置文件以及对应的目标建模数据进行建模,得到对应的模型结果,在建模过程中为每个建模参与方都构建了对应的硬件级的可信执行环境,从而实现数据提供方的建模数据和数据需求方的建模配置文件在沙箱环境中进行模型构建,保证建模数据和建模配置文件不被其他外部机构窥探,实现了建模数据和建模配置文件的可用不可见,从而在保证建模过程中所有数据的安全性的情况下实现外部组织的建模需求。
在本发明的一些实施例中,如图3所示,在从数据安全沙箱中的第二个人环境沙箱中获取建模配置文件对应的目标建模数据之后,本发明提供的数据建模方法还可以包括以下步骤:
S301,将上述目标建模数据发送至数据安全沙箱的运行环境沙箱中。
在本发明实施例中,第二个人环境沙箱将目标建模数据发送至运行环境沙箱中。
S302,在运行环境沙箱中,对上述目标建模数据进行预处理,并将脱敏处理后的样本数据作为上述目标建模数据。
其中,上述预处理至少包括以下一项:数据抽样、关键信息置换、数据脱敏。
通过上述预处理,能够提取到具备代表所述目标数据的小样本数据即上述样本数据,从而作为新的目标建模数据。
S303,将上述目标建模数据发送至调试环境沙箱中。
如图2所示,数据安全沙箱还可以包括:运行环境沙箱。运行环境沙箱为在建模过程中,可以对第二个人环境沙箱中的目标建模数据进行数据预处理,得到可以进行模型训练的目标建模数据;还可以对调试环境沙箱中的模型结果进行模型性能评估。
如图2所示,运行环境沙箱对从数据提供方对应的个人环境沙箱中获取到目标建模数据(即全量数据)后进行脱敏、置换、抽样等预处理得到小样本数据(即样本数据),并发送至调试环境沙箱中。在调试环境沙箱中,通过小样本数据进行模型训练,得到模型结果。
本发明实施例中,通过运行环境沙箱和调试环境沙箱两个沙箱,对建模数据的数据所有权和数据使用权分离,数据需求方智能基于数据预处理后的目标建模数据进行模型构建,进一步提高建模数据在建模过程中的安全性,保证敏感信息不被泄露。
在本发明的一些实施例中,如图4所示,在得到模型结果后,本发明提供的数据建模方法至少还包括以下步骤:
S401,将调试环境沙箱中的模型结果发送至数据安全沙箱中的运行环境沙箱。
S402,在运行环境沙箱中对模型结果进行模型评估,得到相应的评估结果。
在本发明实施例中,不同的建模任务由于所想要构建的模型不同,因此对该模型进行模型评估的方式也有所不同,从而保证模型评估的准确性。例如,若构建的模型结果为风控模型,则模型评估可以包括:AUC(Area under the Curve of ROC)、KS值(Kolmogorov-Smirnov),还可以包括召回率、精确率。
S403,当上述评估结果未满足预设条件时,在调试环境沙箱中对模型结果进行再训练,直至模型结果的评估结果满足上述预设条件。
上述预设条件可以根据上述模型评估进行适应性设置,在本发明实施例不作具体限定。
以模型评估包括:AUC和KS值为例,上述预设条件可以是AUC的评估值大于第一预设阈值,KS值大于第二预设阈值。
如图2所示,调试环境沙箱将得到的模型结果发送至运行环境沙箱,运行环境沙箱对模型结果进行模型评估,并根据评估结果确定是否重新获取全量数据,以在调试环境沙箱中对模型结果进行再训练。
在本发明实施例中,当上述评估结果未满足预设条件时,再次获取目标建模数据,在调试环境沙箱中利用目标建模数据进行再训练,直至模型结果的评估结果满足上述预设条件,得到最终的模型结果。
需要说明的是,再训练过程中的目标建模数据可以参照上述获取目标建模数据的实施例获得,在此不再进行赘述。
此外,除了通过上述步骤S403的步骤,本发明实施例还可以当评估结果未满足预设条件时,将评估结果发送至数据需求方,根据数据需求方对反馈确定是否对当前模型结果进行再训练。
本发明通过上述步骤S401-S403可以不断地对构建的模型结果进行优化调整,从而在保证建模数据和建模配置文件安全性的基础上,获得模型性能更优益的模型结果。
在本发明的一些实施例中,在得到模型结果后,将调试环境沙箱中的目标建模数据删除。
在本发明实施例中,在模型结果构建成功之后,删除调试环境沙箱中的目标建模数据,防止建模数据被泄露,进一步提高建模数据的安全性。
在本发明的一些实施例中,可以通过数据安全沙箱将加密后的建模执行记录发布至区块链。
其中,上述区块链是一种多方参与的对数据更新进行共识确认的分布式系统,每个参与方都用于数据更新记录。一般区块链有公有链、联盟链和私有链,在本发明中不做具体限定。
上述建模执行记录至少可以包括:数据提供方标识、数据需求方标识、模型的评估结果。
在本发明实施例中,可以将建模过程中的建模执行记录进行加密后发布到区块链上存证,在保护模型信息安全的情况下,可以实现对建模过程进行溯源。
进一步的,在本发明实施例中还可以将建模任务过程中的各个动作相关数据加密后存储至区块链,以便后续溯源。
如图2所示,数据安全沙箱中还可以包括:区块链存证审计模块,用于将上述建模任务过程中的各个动作相关数据和/或建模执行记录加密后上传至区块链存证。
本发明提供了一种数据建模系统,如图5所示,该数据建模系统包括:数据提供方510、数据需求方520、数据安全沙箱530。其中,数据安全沙箱包括:个人环境沙箱(图中未示出)、调试环境沙箱、运行环境沙箱;个人环境沙箱包括:第一个人环境沙箱和第二个人环境沙箱,所述第一个人环境沙箱与所述数据需求方一一对应,所述第二个人环境沙箱与数据提供方一一对应。
所述数据需求方用于生成相应的建模任务请求并发送至所述数据安全沙箱设备。
所述数据安全沙箱用于根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据;以及用于在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方。
在本发明的一些实施例中,所述运行环境沙箱用于在基于所述建模配置文件以及对应的所述目标建模数据进行建模之前,接收所述目标建模数据并对所述目标建模数据进行预理,得到样本数据;
将所述样本数据作为新的目标建模数据并发送至所述调试环境沙箱。
在本发明的一些实施例中,所述调试环境沙箱还用于在得到所述模型结果后将所述模型结果发送至所述运行环境沙箱;
所述运行环境沙箱用于对所述模型结果进行模型评估,得到相应的评估结果并发送至所述调试环境沙箱;
所述调试环境沙箱还用于当所述评估结果未满足预设条件时,在所述调试环境沙箱中对所述模型结果进行再训练,直至所述模型结果的评估结果满足所述预设条件。
基于上述数据建模方法,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述实施例所述的数据建模方法中的步骤。
基于上述图像处理模型的训练方法以及图像处理方法,本发明还提供了一种终端,如图6所示,其包括至少一个处理器(processor)60;显示屏61;以及存储器(memory)62,还可以包括通信接口(Communications Interface)63和总线64。其中,处理器60、显示屏61、存储器62和通信接口63可以通过总线64完成相互间的通信。显示屏61设置为显示初始设置模式中预设的用户引导界面。通信接口63可以传输信息。处理器60可以调用存储器62中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器62中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器62作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器60通过运行存储在存储器62中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器62可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器62可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、设备和介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的系统、设备和介质与方法是一一对应的,因此,系统、设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述系统、设备和介质的有益技术效果。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的计算机可读存储介质中,所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种数据建模方法,其特征在于,所述数据建模方法基于数据安全沙箱,所述数据安全沙箱包括:若干个人环境沙箱、调试环境沙箱;所述个人环境沙箱为第一个人环境沙箱或第二个人环境沙箱,所述方法包括:
当获取到数据需求方的建模任务请求时,根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据;
其中,所述第一个人环境沙箱与所述数据需求方一一对应,所述第二个人环境沙箱与数据提供方一一对应;
将所述目标建模数据发送至所述数据安全沙箱的运行环境沙箱中;
在所述运行环境沙箱中,对所述目标建模数据进行预处理,得到样本数据;
将所样本数据发送至所述调试环境沙箱;
在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方。
2.根据权利要求1所述的数据建模方法,其特征在于,所述得到对应的模型结果后,所述方法还包括:
将所述调试环境沙箱中的模型结果发送至所述数据安全沙箱中的运行环境沙箱;
在所述运行环境沙箱中对所述模型结果进行模型评估,得到相应的评估结果;
当所述评估结果未满足预设条件时,在所述调试环境沙箱中对所述模型结果进行再训练,直至所述模型结果的评估结果满足所述预设条件。
3.根据权利要求1所述的数据建模方法,其特征在于,在获取到所述数据需求方的建模任务请求之前,所述方法还包括:
在所述数据安全沙箱中,各所述第二个人环境沙箱接收来自对应的所述数据提供方的加密数据,并根据预设密钥对所述加密数据进行解密,得到相应的初始建模数据。
4.根据权利要求1所述的数据建模方法,其特征在于,所述方法还包括:
响应于数据需求方的数据存储请求,将所述数据需求方上传的初始建模数据存储至对应的所述第一个人环境沙箱中。
5.根据权利要求1所述的数据建模方法,其特征在于,所述从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据,具体包括:
确定所述建模配置文件对应的所需数据类型;
根据所述所需数据类型,从各所述第二个人环境沙箱中的初始银行数据中,确定对应的目标建模数据;
获取各所述目标建模数据的数据授权类型,在所述数据授权为部分授权时,向所述目标建模数据的数据提供方发送权限审批请求;
当所述权限审批请求通过时,从所述第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据。
6.根据权利要求1所述的数据建模方法,其特征在于,在得到所述模型结果后,所述方法还包括:
将所述调试环境沙箱中的所述目标建模数据删除;以及
通过所述数据安全沙箱将加密后的建模执行记录发布至区块链。
7.一种数据建模系统,其特征在于,所述系统包括:数据提供方、数据需求方、数据安全沙箱;其中,所述数据安全沙箱包括:个人环境沙箱、调试环境沙箱;所述个人环境沙箱为第一个人环境沙箱或第二个人环境沙箱;所述第一个人环境沙箱与所述数据需求方一一对应,所述第二个人环境沙箱与数据提供方一一对应;
所述数据需求方用于生成相应的建模任务请求并发送至所述数据安全沙箱;
所述数据安全沙箱用于当获取到数据需求方的建模任务请求时,根据预设的数据安全沙箱中的第一个人环境沙箱中的建模配置文件,从所述数据安全沙箱中的第二个人环境沙箱中获取所述建模配置文件对应的目标建模数据;以及用于在所述数据安全沙箱中的调试环境沙箱中,基于所述建模配置文件以及对应的所述目标建模数据进行建模,得到对应的模型结果并发送至所述数据需求方;
所述数据安全沙箱还包括:运行环境沙箱;
所述运行环境沙箱用于在基于所述建模配置文件以及对应的所述目标建模数据进行建模之前,接收所述目标建模数据并对所述目标建模数据进行预处理,得到样本数据;
将所述样本数据发送至所述调试环境沙箱。
8.根据权利要求7所述的数据建模系统,其特征在于,所述调试环境沙箱还用于在得到所述模型结果后将所述模型结果发送至所述运行环境沙箱;
所述运行环境沙箱用于对所述模型结果进行模型评估,得到相应的评估结果并发送至所述调试环境沙箱;
所述调试环境沙箱还用于当所述评估结果未满足预设条件时,在所述调试环境沙箱中对所述模型结果进行再训练,直至所述模型结果的评估结果满足所述预设条件。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-6任意一项所述的数据建模方法中的步骤。
10.一种终端,其特征在于,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-6任意一项所述的数据建模方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829852.0A CN116561741B (zh) | 2023-07-07 | 2023-07-07 | 一种数据建模方法、系统及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310829852.0A CN116561741B (zh) | 2023-07-07 | 2023-07-07 | 一种数据建模方法、系统及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116561741A CN116561741A (zh) | 2023-08-08 |
CN116561741B true CN116561741B (zh) | 2024-03-26 |
Family
ID=87491842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310829852.0A Active CN116561741B (zh) | 2023-07-07 | 2023-07-07 | 一种数据建模方法、系统及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116561741B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826053A (zh) * | 2019-10-11 | 2020-02-21 | 北京市天元网络技术股份有限公司 | 基于容器的数据沙箱运算结果安全输出方法以及装置 |
CN113157399A (zh) * | 2021-05-17 | 2021-07-23 | 北京冲量在线科技有限公司 | 基于arm架构芯片的非监督联合建模方法 |
CN114008640A (zh) * | 2019-11-15 | 2022-02-01 | 环球互连及数据中心公司 | 安全人工智能模型训练和注册系统 |
CN115758326A (zh) * | 2021-09-06 | 2023-03-07 | 中兴通讯股份有限公司 | 数据共享方法、网络侧设备、系统、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9684785B2 (en) * | 2009-12-17 | 2017-06-20 | Red Hat, Inc. | Providing multiple isolated execution environments for securely accessing untrusted content |
-
2023
- 2023-07-07 CN CN202310829852.0A patent/CN116561741B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110826053A (zh) * | 2019-10-11 | 2020-02-21 | 北京市天元网络技术股份有限公司 | 基于容器的数据沙箱运算结果安全输出方法以及装置 |
CN114008640A (zh) * | 2019-11-15 | 2022-02-01 | 环球互连及数据中心公司 | 安全人工智能模型训练和注册系统 |
CN113157399A (zh) * | 2021-05-17 | 2021-07-23 | 北京冲量在线科技有限公司 | 基于arm架构芯片的非监督联合建模方法 |
CN115758326A (zh) * | 2021-09-06 | 2023-03-07 | 中兴通讯股份有限公司 | 数据共享方法、网络侧设备、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116561741A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110088793B (zh) | 区块链网络中的数据隔离 | |
CN111488598B (zh) | 访问控制方法、装置、计算机设备和存储介质 | |
US20170046693A1 (en) | Systems and methods for detecting and resolving data inconsistencies among networked devices using hybrid private-public blockchain ledgers | |
CN111164594A (zh) | 用于将去中心化标识映射到真实实体的系统和方法 | |
US10917249B2 (en) | Processing data elements stored in blockchain networks | |
US20150106888A1 (en) | Trust/value/risk-based access control policy | |
US10270757B2 (en) | Managing exchanges of sensitive data | |
CN110569658A (zh) | 基于区块链网络的用户信息处理方法、装置、电子设备及存储介质 | |
US20210352077A1 (en) | Low trust privileged access management | |
CN111292174A (zh) | 一种纳税信息处理方法、装置及计算机可读存储介质 | |
CN111612167A (zh) | 机器学习模型的联合训练方法、装置、设备及存储介质 | |
CN107294955B (zh) | 电子文件加密中间件管控系统及方法 | |
CN112308236A (zh) | 用于处理用户请求的方法、装置、电子设备及存储介质 | |
CN114186266B (zh) | 超级计算与云计算环境下大数据安全隐私计算控制方法 | |
CN110737905A (zh) | 数据授权方法、数据授权装置及计算机存储介质 | |
CN116561741B (zh) | 一种数据建模方法、系统及相关设备 | |
CN116263834A (zh) | 许可区块链的多发布者匿名证书 | |
CN114239043A (zh) | 一种基于区块链技术构建的共享加密存储系统 | |
CN114095180A (zh) | 数字证书管理方法、装置及介质 | |
US10313315B2 (en) | Ensuring information security in data transfers by utilizing proximity keys | |
US11165580B2 (en) | Encrypted data transmission system for secure resource distribution | |
CN111737725A (zh) | 用户标记方法、装置、服务器和存储介质 | |
JP7477907B2 (ja) | 情報提供システム、情報提供方法及び情報提供プログラム | |
CN116049322B (zh) | 基于隐私计算的数据共享平台和方法 | |
US11405401B2 (en) | Determining and applying assurance levels for application operations security |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |