CN115186305A - 一种构建数据元件模型并生产数据元件的方法 - Google Patents
一种构建数据元件模型并生产数据元件的方法 Download PDFInfo
- Publication number
- CN115186305A CN115186305A CN202211106681.0A CN202211106681A CN115186305A CN 115186305 A CN115186305 A CN 115186305A CN 202211106681 A CN202211106681 A CN 202211106681A CN 115186305 A CN115186305 A CN 115186305A
- Authority
- CN
- China
- Prior art keywords
- data
- data element
- model
- preset
- production
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004519 manufacturing process Methods 0.000 claims abstract description 104
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 44
- 238000000586 desensitisation Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 abstract description 6
- 238000013461 design Methods 0.000 abstract description 4
- 238000011031 large-scale manufacturing process Methods 0.000 abstract description 4
- 238000000926 separation method Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 244000035744 Hura crepitans Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002688 persistence Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种构建数据元件模型并生产数据元件的方法,本发明是基于数据元件安全生产工序流程,结合“读写分离”的设计理念,可实现数据元件模型开发者在不接触原始数据的情况下,完成数据元件安全建模&规模化生产,另外,本发明还基于海量数据不同进程传导技术,避免了数据在开发&生产环境数据存留,同时满足了亿级数据安全传递的场景需求。同时本发明通过多源数据融合,丰富了数据元件加工生产的应用场景。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种构建数据元件模型并生产数据元件的方法。
背景技术
目前市场上的各类建模平台,均需要开发人员在可信环境下,接触到形态各异的结构化、非结构化的原始数据完成建模工作,导致数据安全在开发人员建模这一环节,均存在原始数据泄漏风险。所以如何在可信且安全隔离的运行环境下,完成数据元件安全建模&生产,是当前数据元件生产过程中急待解决的技术难题。
发明内容
本发明提供了一种构建数据元件模型并生产数据元件的方法,以解决现有技术中不能在可信且安全隔离的环境下完成数据元件安全建模&生产的问题。
本发明提供了一种构建数据元件模型并生产数据元件的方法,该方法包括:读取脱敏处理后的训练数据;通过第一预设会话视图来继承所读取的脱敏处理后的训练数据,根据读取的脱敏处理后的训练数据训练得到数据元件模型,并对所述数据元件模型进行调优处理,得到调优后的数据元件模型;基于调优后的数据元件模型,对通过第二预设会话视图继承的生产数据进行处理,得到所述生产数据所对应的数据元件,其中,所述生产数据是多模态数据,且所述数据元件为通过所述数据元件模型按照预设处理方法处理而得到的具有预设功能的数据集或者数据特征集;通过第三预设会话视图继承并存储所述数据元件,以及基于所存储的数据元件进一步地对所述数据元件模型进行调优,以提升所述数据元件模型的准确性;通过所述第一预设会话视图将所述训练数据与所述数据元件模型之间、并通过所述第二预设会话视图将所述生产数据与所述数据元件模型之间,以及通过所述第三预设会话视图将所述数据元件模型与数据元件存储之间建立连接,以避免在生成数据元件过程中造成所述训练数据和所述生产数据的外泄。
可选地,所述读取脱敏后的训练数据之前,所述方法还包括:将样本生产数据通过智能同态脱敏算法生成仿真所述样本生产数据的训练数据。
可选地,所述数据元件模型是基于有向无环图DAG编排得到的建模流程。
可选地,所述通过第三预设会话视图继承并存储所述数据元件,包括:通过所述第三预设会话视图继承所述数据元件模型输出的数据元件,并对所继承的数据元件按照预设存储原则进行分布式存储。
可选地,所述方法还包括:基于所述生产数据的数据量、所要求的生成数据元件的时长以及各个预设的模型服务器节点的空闲资源,来布局生产数据元件的模型服务器节点以及模型服务器节点的数量,其中,所述预设的模型服务器节点为设有所述数据元件模型的服务器节点;
所述基于调优后的数据元件模型,对通过第二预设会话视图继承的生产数据进行处理,得到所述生产数据所对应的数据元件,包括:
将调优后的数据元件模型设置在布局确定的模型服务器节点上,所述模型服务器节点为一个或多个,当所述模型服务器节点为多个时,将通过第二预设会话视图继承的生产数据按照预设分配规则分配给各个所述模型服务器节点,最终生成所述生产数据所对应的数据元件。
可选地,所述将通过第二预设会话视图继承的生产数据按照预设分配规则分配给各个所述模型服务器节点,包括:
将通过第二预设会话视图继承的生产数据平均分配给各个所述模型服务器节点上;或者,将通过第二预设会话视图继承的生产数据按照各个模型服务器节点空闲资源的比例划分为多份,其中,对所述生产数据的划分份数与所述模型服务器的个数相等,将各个模型服务器节点空闲资源按照由多到少的顺序进行排序,并将划分后的所述生产数据按照由大到小的顺序进行排序,按照空闲资源多对应大的生产数据的规律,依次将划分后的生产数据分配给各个所述模型服务器节点上。
可选地,建立所述第一预设会话视图,包括:当接收到读取脱敏处理后的训练数据的指令时,创建第一共享会话通道,所述第一共享会话通道设有第一共享会话通道ID,所述第一共享会话通道ID用于对所述第一共享会话通道进行标识;基于所述第一共享会话通道ID,通过所述第一共享会话通道将所述脱敏处理后的训练数据与模型服务器进行绑定,并在完成对所述脱敏处理后的训练数据生成数据元件后,关闭所述第一共享会话通道。
可选地,建立所述第三预设会话视图,包括:当接收到数据元件模型进行数据元件结果存储的指令时,解析所述数据元件模型的元件DAG以及所述数据元件模型的执行元件组件ID,创建第三共享会话通道,所述第三共享会话通道设有第三共享会话通道ID,所述第三共享会话通道ID用于对所述第三共享会话通道进行标识;基于所述数据元件模型的执行元件组件ID和第三共享会话通道ID,通过所述第三共享会话通道将所述数据元件模型与某一个有效存储服务器节点进行绑定,并在完成对所述数据元件结果存储后,关闭所述第三共享会话通道。
可选地,建立所述第二预设会话视图,包括:当接收到读取生产数据的指令时,获取有效模型服务器节点,并基于所获取的有效模型服务器节点的空闲资源确定所布局的模型服务器节点,解析所布局的模型服务器节点上数据元件模型的执行元件组件ID,创建第二共享会话通道,所述第二共享会话通道设有第二共享会话通道ID,所述第二共享会话通道ID用于对所述第二共享会话通道进行标识;基于所述数据元件模型的执行元件组件ID和第二共享会话通道ID,通过所述第二共享会话通道将所述所布局的模型服务器节点与生产数据进行绑定,并在完成对所述生产数据生成数据元件后,关闭所述第二共享会话通道。
可选地,所述多模态数据是经数据标注、数据分类、校验评估、内容提取、预设信息标注的图像、视频、语音以及文字数据。
本发明有益效果如下:
本发明是通过会话视图来继承脱敏处理后的训练数据以及生产数据,并基于所继承的训练数据来训练得到数据元件模型,然后通过所述数据元件模型来基于生产数据来输出数据元件,且所述数据元件模型输出的数据元件也是通过会话视图来继承并实现存储的,也就是说,本发明中训练数据与数据元件模型、生产数据与数据元件模型、以及数据元件模型与数据元件存储之间都是相互隔离,需要通过会话视图来继承数据,通过这种设置能够避免训练数据和生产数据的外泄,实现在完全可信且安全隔离的环境下完成数据元件安全建模&生产,从而最大程度上保证用户各项数据的安全性,为数据流程提供了强有力的基础。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种构建数据元件模型并生产数据元件的方法的流程示意图;
图2是本发明实施例提供的构建数据元件模型的流程示意图;
图3是本发明实施例提供的生成会话视图的流程示意图。
具体实施方式
本发明实施例针对现有不能在可信且安全隔离的环境下完成数据元件安全建模&生产的问题,本发明中训练数据与数据元件模型、生产数据与数据元件模型、以及数据元件模型与数据元件存储之间都是相互隔离,需要通过会话视图来继承数据,通过这种设置能够避免训练数据和生产数据的外泄,实现在完全可信且安全隔离的环境下完成数据元件安全建模&生产,从而最大程度上保证用户各项数据的安全性,为数据流程提供了强有力的基础。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
数据要素存在数据确权难、计量难、定价难、流通难等系列问题,以及如何通过技术手段的加持,解决数据规模化、安全性的流通的问题。
基于上述问题,本发明实施例提供了一种构建数据元件模型并生产数据元件的方法,参见图1和图2,该方法包括:
S101、读取脱敏处理后的训练数据;
具体来说,本发明实施例是将样本生产数据通过智能同态脱敏算法生成仿真所述样本生产数据的训练数据,以利用该训练数据训练得到数据元件模型。具体实施时,本领域技术人员可以采用各种脱敏算法对样本的生产数据进行脱敏处理,本发明对此不作具体限定。
S102、通过第一预设会话视图来继承所读取的脱敏处理后的训练数据,根据读取的脱敏处理后的训练数据训练得到数据元件模型;
在具体实施时,本发明实施例还需要对所建立的数据元件模型进行调优处理,具体调优方法可以是基于训练数据来得到的数据元件来对数据元件模型进行调优处理,当然在具体实施时,本领域技术人员也可以通过其他各种方式来对数据元件模型进行调优,以获得最优的数据元件模型。
需要说明的是,本发明实施例中的数据元件模型是基于有向无环图(DirectedAcyclic Graph,DAG)编排得到的建模流程。也就是说,本发明实施例中的基于DAG编排得到的建模流程,通过DAG的编排使得本发明实施例中的数据元件模型更为合理,最终使得输出的数据元件更为准确。
具体实施时,在执行本发明实施例中步骤S102之前,所述方法还包括:建立所述第一预设会话视图的步骤。
具体来说,本发明实施例中,建立所述第一预设会话视图的过程,具体包括:
当接收到读取脱敏处理后的数据的指令时,创建第一共享会话通道;
基于所述第一共享会话通道ID,通过所述第一共享会话通道将所述脱敏处理后的数据与模型服务器进行绑定;
其中,所述模型服务器为设有有向无环图DAG编排的建模流程的服务器,所述共享会话通道ID用于对所述第一共享会话通道进行标识;
在完成对所述脱敏处理后的数据生成数据元件后,关闭所述第一共享会话通道,具体建立过程可以参见图3进行理解。
根据上述建立第一预设会话视图的过程可知,本发明实施例中的脱敏处理后的数据与所训练的数据元件模型之间的数据交互,并不需要有技术人员进行触发操作,而是通过机器来自动触发通过会话视图的方式来完成,所以技术人员是接触不到实际的训练数据的,因此,本发明可以有效保证数据的安全性。
最后,本发明实施例通过S102训练调优得到性能良好的数据元件模型,需要说明的是,在训练模型结束后,还可以设置数据元件模型的校验等流程,以最大程度上保证所生成的数据元件模型的各项性能。具体本领域技术人员可以根据实际需要进行设置,本发明对此不作详细限定。
S103、基于调优后的数据元件模型,对通过第二预设会话视图继承的生产数据进行处理,得到所述生产数据所对应的数据元件;
其中,本发明实施例中所述生产数据是多模态数据,具体该多模态数据可以是各种经数据标注、数据分类、校验评估、内容提取、预设信息标注的图像、视频、语音以及文字数据,等等各种数据,也即,本发明实施例的数据元件模型可以通过训练来实现对任意数据输出得到数据所对应的数据元件,具体本领域技术人员可以根据需要进行设置,本发明对此不作详细赘述。
需要说明的是,本发明实施例中的数据元件是通过所述数据元件模型按照预设处理方法处理而得到的具有预设功能的数据集或者数据特征集,也即本发明实施例中的数据元件是具有某种功能或性能的一类数据,本发明实施例通过以数据元件的形式来进行后续的数据买卖、共享等数据交易过程,可以在最大程度上保证用户数据的安全性,从而提高用户体验,并且由于本发明可以有效保证数据的安全性,所以本发明能够在最大程度上提高的数据价值的体现,从而为数据流程提供强有力的基础。
在具体实施时,本发明实施例也需要建立第二预设会话视图,第二预设会话视图的建立过程与第一预设会话视图的建立过程相类似的,具体来说,本发明实施例建立第二预设会话视图的步骤具体包括:
当接收到读取生产数据的指令时,获取有效模型服务器节点,并基于所获取的有效模型服务器节点的空闲资源确定所布局的模型服务器节点;
需要说明是,在具体实施时,模型服务器节点可能有很多,每个模型服务器节点上可能设有一个或多个数据元件模型(每个数据元件模型是通过不同的训练数据生成的,能够生成不同的数据元件),这就需要针对所读取到的生产数据来确定与该生产数据所对应的模型服务器节点,也即有效模型服务器节点,然后针对所确定的有效模型服务器节点的的空闲资源等指标最终确定针对该生产数据所布局的模型服务器节点,具体包括布局的模型服务器的数量以及所布局的模型服务器的ID号等等。
解析所布局的模型服务器节点上数据元件模型的执行元件组件ID;
因为后续对数据元件的存储可能涉及到分布式存储,这就需要获取到不同数据元件模型的执行元件组件ID,以按照执行元件组件ID来将数据元件存储到相应的存储服务器,也即本发明实施例是通过执行元件组件ID来对数据元件进行标识和存储的。
然后创建第二共享会话通道,基于所述数据元件模型的执行元件组件ID和第二共享会话通道ID,通过所述第二共享会话通道将所述所布局的模型服务器节点与生产数据进行绑定;
也即,本发明实施例是通过第二共享会话通道ID来将模型服务器节点与生产数据进行绑定,使得二者能够在同一第二会话视图下进行生产数据的交互,而无需技术人员对生产数据进行管理。
最后在完成对所述生产数据生成数据元件后,关闭所述第二共享会话通道。
需要说明的是,本发明实施例最终在关闭第二共享会话通道,是基于第二共享会话通道ID来进行关闭的,同理本发明实施例中的基于第一共享会话通道以及第三共享会话通道都是基于各自的ID来进行关闭的。
在具体实施时,本发明实施例是通过第三预设会话视图继承并存储所述数据元件,以及基于所存储的数据元件进一步地对所述数据元件模型进行调优,以提升所述数据元件模型的准确性;
本发明实施例所述方法还包括:建立所述第三预设会话视图的步骤,具体建立过程包括:
当接收到数据元件模型进行数据元件结果存储的指令时,解析所述数据元件模型的元件DAG以及所述数据元件模型的执行元件组件ID,创建第三共享会话通道,基于所述数据元件模型的执行元件组件ID和第三共享会话通道ID,通过所述第三共享会话通道将所述数据元件模型与某一个有效存储服务器节点进行绑定,并在完成对所述数据元件结果存储后,关闭所述第三共享会话通道。
具体建立所述第三预设会话视图的过程可以参见本发明实施例上述的建立第一和预设会话视图第二预设会话视图的过程进行理解,本发明在此不做详细论述。
整体来说,本发明实施例是通过所述第一预设会话视图、所述第二预设会话视图以及所述第三预设会话视图来建立所述训练数据与所述数据元件模型、所述生产数据与所述数据元件模型、以及所述数据元件模型与所述数据元件存储之间联系,以避免在生成数据元件过程中造成所述训练数据和所述生产数据的外泄。
也就是说,实质本发明实施例就是所述训练数据与所述数据元件模型、所述生产数据与所述数据元件模型、以及所述数据元件模型与所述数据元件存储之间均是相互隔离的,需要通过所述第一预设会话视图、所述第二预设会话视图以及所述第三预设会话视图来建立对应的连接通道,才能实现数据的交互,而整个数据交互过程中都是自动触发,完全不需要人为参与,所以本发明可以有效避免在生成数据元件过程中造成所述训练数据和所述生产数据的外泄,能够从最大程度上保证用户数据的安全性。
从实际生产角度来看,用户数据可以保存在用户端,整个生产数据元件模型过程中,无需从用户端发送数据,所以本发明可以在最大程度上消除因数据交互过程中而造成的各种数据安全隐患的问题,使得用户能够安心提供数据,从而充分发挥数据的经济效益。
在具体实施时,本发明实施例所述方法还包括:基于所述生产数据的数据量、所要求的生成数据元件的时长以及各个预设的模型服务器节点的空闲资源,来布局生产数据元件的模型服务器节点以及模型服务器节点的数量;
同时本发明实施例是将调优后的数据元件模型设置在布局确定的模型服务器节点上,所述模型服务器节点为一个或多个,当所述模型服务器节点为多个时,将通过第二预设会话视图继承的生产数据按照预设分配规则分配给各个所述模型服务器节点上,最终生成所述生产数据所对应的数据元件。
也就是说,本发明实施例可以根据实际的生产数据量、要求生成数据元件的时间以及模型服务器节点的空间资源等情况来具体布局最终生成模型服务器节点的数量,当然在具体实施过程中,本领域技术人员也可以参考其他各种条件来进行模型服务器的布局,本发明对此不作详细说明。
具体实施时,本发明实施例上述的预设分配规则可以是:将通过第二预设会话视图继承的生产数据平均分配给各个所述模型服务器节点上;
或者,也可以是将通过第二预设会话视图继承的生产数据按照各个模型服务器节点空闲资源的比例划分为多份,其中,对所述生产数据的划分份数与所述模型服务器的个数相等,将各个模型服务器节点空闲资源按照由多到少的顺序进行排序,并将划分后的所述生产数据按照由大到小的顺序进行排序,按照空闲资源多对应大的生产数据的规律,依次将划分后的生产数据分配给各个所述模型服务器节点上。简单来说,本发明实施例是将通过第二预设会话视图继承的生产数据划分为多份,然后按照各个模型服务器节点空闲资源的从大到小的顺序,将所述生产数据也由大到小排序,再依次分配给各个所述模型服务器节点上。
也即,本发明可以简单地将所有的生产数据在所有的模型服务器节点进行平均分配,也可以结合各个模型服务器节点的空闲资源来按照各个模型服务器节点的空闲资源情况来分配生产数据,如按照模型服务器节点的空闲资源的比例来将生产数据划分为多份,然后依次分为每一个模型服务器节点,或者仅是按照模型服务器节点的空闲资源量来将划分后的生产数据进行分配。
本发明实施例通过上述的生产数据的分配可以最大程度上提高生成数据模型的时效性,当然在具体实施时,本领域技术人员可以根据实际需要进行任意设置,本发明对此不作详细限定。
下面将结合图2和图3通过一个具体的例子来对本发明实施例所述的方法进行详细的解释和说明:
目前市场上存在数据隐私计算方面,主要是通过数据沙箱,以项目制的形式,完成数据建模的工作。此模式将存在一定的制约,如:项目作坊式,无法完成数据大规模化生产及应用,数据建模过程中,开发者均有机会接触原始数据,造成原始数据的泄露,数据隐私计算须在两方及以上的条件下,进行数据建模,无法在单一开发者场景下进行建模开发。
针对上述问题,本发明实施例通过将原始数据结合多模态的数据元件安全建模与生产技术手段,可实现数据安全生产工序流程,能够确保数据要素可完成规模化的生产,也即本发明实施例是通过海量数据不同进程传导技术,确保了数据建模生产的高可用,并且本发明实施例的方法通过多源异构数据的融合,结合AI、规则类算子组件,能够完成非结构数据(文档、图片类)的特征提取与结构化数据深度融合,从而支持不同场景的数据建模工作。
具体来说,本发明实施例是结合“读写分离”的设计理念,实现了开发人员在不接触原始数据的情况下,即可完成数据元件安全建模&生产,具体来说,本发明实施例所述的方法包括:
首先,本发明实施例中的数据元件安全生产工序流程:整个建模工作分为开发时和运行时环境,将建模过程拆解读取数据、多语言安全建模以及写数据三大步骤。
在开发时环境,平台提供”智能同态脱敏”算法,可生成高仿真的同态样本数据;元件开发商在不知数据存储地址的情况下,可通过DAG进行建模流程编排;平台通过样本数据不同进程会话传递技术,以“继承”模式,将数据传递给模型,进行模型调优;同时依托元件结果不同进程会话传递技术,由平台将结果数据进行分布式存储,整个过程元件开发商均不知数据读取、数据存储地址,从而保证了建模过程的安全性,杜绝了接触数据的可能。
在生产时环境,元件开发商无任何接触原始生产数据的情况下,平台提供真实的原始数据,
通过智能调度引擎,将计算模型按需加载到不同的计算节点,实行分步计算,最后由写数据组件完成元件计算结果的存储,全过程中,在原始数据不出域、数据可用不可见的可信环境下,实现了整个建模过程的安全化配置。具体生产工序流程参见图2所示。
其次,本发明实施例中的海量数据不同进程传导具体包括:由于采用了“读写分离”的设计理念,在整个建模过程中,会产生三个不同的进程,平台基于自研的数据会话视图技术,通过“继承”模式,将亿级数据传导给下一个计算节点,进行分布式计算,从而确保了数据建模的高可用。
由图3可知,整个亿级海量数据不同进程之间的数据传导,是基于数据会话视图,通过继承授权者的数据权限模式,不再对数据进行传输搬移,解决了数据元件模型开发者在不接触数据的前提下,开展数据元件建模工作。
另外,本发明实施例中多源异构数据融合具体包括:通过AI、规则类算子组件,完成非结构数据(文档、图片类)的特征提取,与结构化数据深度融合,从而支持不同场景的数据建模工作。
综上可知,本发明是基于数据元件安全生产工序流程,结合“读写分离”的设计理念,可实现数据元件模型开发者在不接触原始数据的情况下,完成数据元件安全建模&规模化生产,另外,本发明还基于海量数据不同进程传导技术,避免了数据在开发&生产环境数据存留,同时满足了亿级数据安全传递的场景需求。同时本发明通过多源数据融合,丰富了数据元件加工生产的应用场景。
尽管为示例目的,已经公开了本发明的优选实施例,本领域的技术人员将意识到各种改进、增加和取代也是可能的,因此,本发明的范围应当不限于上述实施例。
Claims (10)
1.一种构建数据元件模型并生产数据元件的方法,其特征在于,包括:
读取脱敏处理后的训练数据;
通过第一预设会话视图来继承所读取的脱敏处理后的训练数据,根据读取的脱敏处理后的训练数据训练得到数据元件模型,并对所述数据元件模型进行调优处理,得到调优后的数据元件模型;
基于调优后的数据元件模型,对通过第二预设会话视图继承的生产数据进行处理,得到所述生产数据所对应的数据元件,其中,所述生产数据是多模态数据,且所述数据元件为通过所述数据元件模型按照预设处理方法处理而得到的具有预设功能的数据集或者数据特征集;
通过第三预设会话视图继承并存储所述数据元件,以及基于所存储的数据元件进一步地对所述数据元件模型进行调优,以提升所述数据元件模型的准确性;
通过所述第一预设会话视图将所述训练数据与所述数据元件模型、并通过所述第二预设会话视图将所述生产数据与所述数据元件模型,以及通过所述第三预设会话视图将所述数据元件模型与数据元件存储之间建立连接,以避免在生成数据元件过程中造成所述训练数据和所述生产数据的外泄。
2.根据权利要求1所述的方法,其特征在于,所述读取脱敏后的训练数据之前,所述方法还包括:
将样本生产数据通过智能同态脱敏算法生成仿真所述样本生产数据的训练数据。
3.根据权利要求1所述的方法,其特征在于,
所述数据元件模型是基于有向无环图DAG编排得到的建模流程。
4.根据权利要求1所述的方法,其特征在于,所述通过第三预设会话视图继承并存储所述数据元件,包括:
通过所述第三预设会话视图继承所述数据元件模型输出的数据元件,并对所继承的数据元件按照预设存储原则进行分布式存储。
5.根据权利要求1-4中任意一项所述的方法,其特征在于,所述方法还包括:
基于所述生产数据的数据量、所要求的生成数据元件的时长以及各个预设的模型服务器节点的空闲资源情况,来布局生产数据元件的模型服务器节点以及模型服务器节点的数量,其中,所述预设的模型服务器节点为设有所述数据元件模型的服务器节点;
所述基于调优后的数据元件模型,对通过第二预设会话视图继承的生产数据进行处理,得到所述生产数据所对应的数据元件,包括:
将调优后的数据元件模型设置在布局确定的模型服务器节点上,所述模型服务器节点为一个或多个,当所述模型服务器节点为多个时,将通过第二预设会话视图继承的生产数据按照预设分配规则分配给各个所述模型服务器节点,最终生成所述生产数据所对应的数据元件。
6.根据权利要求5所述的方法,其特征在于,所述将通过第二预设会话视图继承的生产数据按照预设分配规则分配给各个所述模型服务器节点,包括:
将通过第二预设会话视图继承的生产数据平均分配给各个所述模型服务器节点上;
或者,
将通过第二预设会话视图继承的生产数据按照各个模型服务器节点空闲资源间的比例划分为多份,将各个模型服务器节点空闲资源按照由多到少的顺序进行排序,并将划分后的所述生产数据按照由大到小的顺序进行排序,按照空闲资源多对应大的生产数据的规律,依次将划分后的生产数据分配给各个所述模型服务器节点上。
7.根据权利要求5所述的方法,其特征在于,建立所述第一预设会话视图,包括:
当接收到读取脱敏处理后的训练数据的指令时,创建第一共享会话通道,所述第一共享会话通道设有第一共享会话通道ID,所述第一共享会话通道ID用于对所述第一共享会话通道进行标识;
基于所述第一共享会话通道ID,通过所述第一共享会话通道将所述脱敏处理后的训练数据与模型服务器进行绑定,并在完成对所述脱敏处理后的训练数据生成数据元件后,关闭所述第一共享会话通道。
8.根据权利要求5所述的方法,其特征在于,建立所述第三预设会话视图,包括:
当接收到数据元件模型进行数据元件结果存储的指令时,解析所述数据元件模型的元件DAG以及所述数据元件模型的执行元件组件ID,创建第三共享会话通道,所述第三共享会话通道设有第三共享会话通道ID,所述第三共享会话通道ID用于对所述第三共享会话通道进行标识;
基于所述数据元件模型的执行元件组件ID和第三共享会话通道ID,通过所述第三共享会话通道将所述数据元件模型与某一个有效存储服务器节点进行绑定,并在完成对所述数据元件结果存储后,关闭所述第三共享会话通道。
9.根据权利要求5所述的方法,其特征在于,建立所述第二预设会话视图,包括:
当接收到读取生产数据的指令时,获取有效模型服务器节点,并基于所获取的有效模型服务器节点的空闲资源确定所布局的模型服务器节点,解析所布局的模型服务器节点上数据元件模型的执行元件组件ID,创建第二共享会话通道,所述第二共享会话通道设有第二共享会话通道ID,所述第二共享会话通道ID用于对所述第二共享会话通道进行标识;
基于所述数据元件模型的执行元件组件ID和第二共享会话通道ID,通过所述第二共享会话通道将所述所布局的模型服务器节点与生产数据进行绑定,并在完成对所述生产数据生成数据元件后,关闭所述第二共享会话通道。
10.根据权利要求1-4中任意一项所述的方法,其特征在于,
所述多模态数据是经数据标注、数据分类、校验评估、内容提取、预设信息标注的图像、视频、语音以及文字数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211106681.0A CN115186305B (zh) | 2022-09-13 | 2022-09-13 | 一种构建数据元件模型并生产数据元件的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211106681.0A CN115186305B (zh) | 2022-09-13 | 2022-09-13 | 一种构建数据元件模型并生产数据元件的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115186305A true CN115186305A (zh) | 2022-10-14 |
CN115186305B CN115186305B (zh) | 2022-12-16 |
Family
ID=83524701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211106681.0A Active CN115186305B (zh) | 2022-09-13 | 2022-09-13 | 一种构建数据元件模型并生产数据元件的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186305B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556453A (zh) * | 2024-01-14 | 2024-02-13 | 中电数据产业有限公司 | 基于原始数据不出域的数据元件场内加工方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101375284A (zh) * | 2004-10-25 | 2009-02-25 | 里克·L·奥尔西尼 | 安全数据分析方法和系统 |
US20100251010A1 (en) * | 2009-03-30 | 2010-09-30 | The Boeing Company | Computer architectures using shared storage |
CN107295075A (zh) * | 2017-06-14 | 2017-10-24 | 天津大学 | 一种基于会话保持的跨终端应用状态迁移方法 |
US20200159930A1 (en) * | 2018-11-20 | 2020-05-21 | Aptiv Technologies Limited | Systems and methods for implementing data security |
CN113434497A (zh) * | 2021-08-26 | 2021-09-24 | 中国电子信息产业集团有限公司 | 一种由数据仓库与数据元件仓库组成的数据要素金库 |
CN113434854A (zh) * | 2021-08-26 | 2021-09-24 | 中国电子信息产业集团有限公司 | 一种基于沙箱环境生成数据元件的方法及存储介质 |
CN113902333A (zh) * | 2021-10-28 | 2022-01-07 | 王世虎 | 支撑城市运行服务的数据运营管理系统及构建其的方法 |
-
2022
- 2022-09-13 CN CN202211106681.0A patent/CN115186305B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101375284A (zh) * | 2004-10-25 | 2009-02-25 | 里克·L·奥尔西尼 | 安全数据分析方法和系统 |
US20100251010A1 (en) * | 2009-03-30 | 2010-09-30 | The Boeing Company | Computer architectures using shared storage |
CN107295075A (zh) * | 2017-06-14 | 2017-10-24 | 天津大学 | 一种基于会话保持的跨终端应用状态迁移方法 |
US20200159930A1 (en) * | 2018-11-20 | 2020-05-21 | Aptiv Technologies Limited | Systems and methods for implementing data security |
CN113434497A (zh) * | 2021-08-26 | 2021-09-24 | 中国电子信息产业集团有限公司 | 一种由数据仓库与数据元件仓库组成的数据要素金库 |
CN113434854A (zh) * | 2021-08-26 | 2021-09-24 | 中国电子信息产业集团有限公司 | 一种基于沙箱环境生成数据元件的方法及存储介质 |
CN113902333A (zh) * | 2021-10-28 | 2022-01-07 | 王世虎 | 支撑城市运行服务的数据运营管理系统及构建其的方法 |
Non-Patent Citations (2)
Title |
---|
陆志鹏: "公共数据授权运营机制探索", 《网络安全与数据治理》 * |
陆志鹏: "创新数据治理路径 激活数据要素潜能", 《经济》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117556453A (zh) * | 2024-01-14 | 2024-02-13 | 中电数据产业有限公司 | 基于原始数据不出域的数据元件场内加工方法和系统 |
CN117556453B (zh) * | 2024-01-14 | 2024-04-30 | 中电数据产业有限公司 | 基于原始数据不出域的数据元件场内加工方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115186305B (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | Towards optimal resource provisioning for running mapreduce programs in public clouds | |
JP6045134B2 (ja) | アプリケーション性能試験のための並列作業負荷シミュレーション | |
WO2021190597A1 (zh) | 一种神经网络模型的处理方法以及相关设备 | |
CN103092751B (zh) | 一种云环境下基于用户行为模型的web应用性能测试系统 | |
Sauer et al. | A language for extended queueing network models | |
CN112036125B (zh) | 一种文档管理方法、装置及计算机设备 | |
US20200210829A1 (en) | Network off-line model processing method, artificial intelligence processing device and related products | |
CN109063049A (zh) | 一种区块链网络的账号处理方法、装置、设备及存储介质 | |
CN114168998A (zh) | 数据处理方法和装置 | |
CN115186305B (zh) | 一种构建数据元件模型并生产数据元件的方法 | |
CN105871998A (zh) | 一种数据展示方法及装置 | |
Li et al. | MapReduce task scheduling in heterogeneous geo-distributed data centers | |
Martínez-del-Amor et al. | Design of specific P systems simulators on GPUs | |
CN110414260B (zh) | 一种数据访问方法、装置、系统及存储介质 | |
CN112947907A (zh) | 一种创建代码分支的方法 | |
Xu et al. | DLCD-CCE: A local community detection algorithm for complex IoT networks | |
CN107688582B (zh) | 资源推荐模型的获取方法及装置 | |
Lynn et al. | Heterogeneity, High Performance Computing, Self-Organization and the Cloud | |
Goto et al. | Agent-Based Modeling and Simulation Validation by Scenario Analysis | |
Jrad et al. | STRATModel: Elasticity model description language for evaluating elasticity strategies for business processes | |
Chrétien et al. | Using a sparse promoting method in linear programming approximations to schedule parallel jobs | |
CN110309062A (zh) | 用例生成方法、装置、电子设备及存储介质 | |
Fariz et al. | Improving MapReduce process by mobile agents | |
CN116578405B (zh) | 基于虚拟化架构的模拟训练方法及系统 | |
KR102632607B1 (ko) | 서비스 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |