CN111092935A - 一种用于机器学习的数据共享方法和虚拟训练装置 - Google Patents

一种用于机器学习的数据共享方法和虚拟训练装置 Download PDF

Info

Publication number
CN111092935A
CN111092935A CN201911179466.1A CN201911179466A CN111092935A CN 111092935 A CN111092935 A CN 111092935A CN 201911179466 A CN201911179466 A CN 201911179466A CN 111092935 A CN111092935 A CN 111092935A
Authority
CN
China
Prior art keywords
data
training
index information
set providing
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911179466.1A
Other languages
English (en)
Other versions
CN111092935B (zh
Inventor
加雄伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201911179466.1A priority Critical patent/CN111092935B/zh
Publication of CN111092935A publication Critical patent/CN111092935A/zh
Application granted granted Critical
Publication of CN111092935B publication Critical patent/CN111092935B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用于机器学习训练的数据共享方法,包括:接收对应的数据集提供平台发送的数据索引信息;将所述数据索引信息上传至训练管理平台,以供所述训练管理平台根据所接收到的数据索引信息建立训练总任务;接收所述训练管理平台发送的训练子任务信息,所述训练子任务信息中包括待训练数据的数据索引信息;向所述待训练数据所归属的第一数据集提供平台发送获取数据请求,以供所述第一数据集提供平台在接收到所述获取数据请求后,返回所述待训练数据。本发明还提供一种用于机器学习训练的虚拟训练装置和数据共享系统,涉及通信技术领域。

Description

一种用于机器学习的数据共享方法和虚拟训练装置
技术领域
本发明涉及通信技术领域,具体涉及一种用于机器学习的数据共享方法、虚拟训练装置及数据共享系统。
背景技术
随着科技的日益发展,大数据已呈现爆炸式增长,大数据中隐藏了大量的信息,若能对大数据中的信息进行有效提取和利用,则能够对人们的生活带来诸多便利,以及带来不菲的经济效益。
现有技术中,基于大数据进行机器学习模型开发成为从大数据中获取有利信息的重要手段,这其中,机器学习模型开发者如何从数据提供方处共享到数据成为关键步骤,在实际应用中,作为其中一种方法,机器学习模型开发者预先从数据提供者(一个或多个数据提供者)处拷贝加密数据,这种获取大数据的方式使得机器学习模型开发者需要预先保存加密数据,从而容易发生数据泄露的问题;作为另一种方法,机器学习模型开发者无需事先拷贝数据,其通过将训练任务分配给数据提供者,由数据提供者自行搭建训练环境并基于自身所拥有的数据进行训练,这种方式一方面增加了数据提供者的工作量,从而降低了数据提供者的合作意愿,另一方面,机器学习模型开发者不能实时监控模型的训练过程,从而无法确保训练得出的模型的正确性。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一,提出了一种用于机器学习的数据共享方法、虚拟训练装置及数据共享系统,用以解决现有技术中存在的机器学习模型开发者使用大数据时容易发生数据泄露的问题。
一方面,本发明提供一种用于机器学习的数据共享方法,包括:
接收对应的数据集提供平台发送的数据索引信息;
将所述数据索引信息上传至训练管理平台,以供所述训练管理平台根据所接收到的数据索引信息建立训练总任务;
接收所述训练管理平台发送的训练子任务信息,所述训练子任务信息中包括待训练数据的数据索引信息;
向所述待训练数据所归属的第一数据集提供平台发送获取数据请求,以供所述第一数据集提供平台在接收到所述获取数据请求后,返回所述待训练数据。
优选的,在所述向所述待训练数据所归属的第一数据集提供平台发送获取数据请求的步骤之后,还包括:
接收所述第一数据集提供平台返回的加密后的所述待训练数据和解密索引信息;
根据所述解密索引信息获取解密密钥;
根据所述解密密钥对所述加密数据进行解密以得到所述待训练数据;
基于所述待训练数据和所述训练子任务信息进行模型训练。
优选的,所述根据所述解密索引信息获取解密密钥的步骤具体包括:
将所述解密索引信息添加签名后发送至所述第一数据集提供平台,以供所述第一数据集提供平台对所述解密索引信息的签名进行验证,并当验证通过时,根据所述解密索引信息从自身数据库中提取出对应的解密密钥,并返回所述解密密钥;
接收所述第一数据集提供平台返回的解密密钥。
优选的,所述解密索引信息中包含有获取对应的解密密钥的第二数据集提供平台的标识信息;
所述根据所述解密索引信息获取解密密钥的步骤具体包括:
从所述解密索引信息中提取出所述第二数据集提供平台的标识信息;
根据所述第二数据集提供平台的标识信息,将所述解密索引信息添加签名后发送至所述第二数据集提供平台,以供所述第二数据集提供平台对所述解密索引信息的签名进行验证,并当验证通过时,根据所述解密索引信息从自身数据库中提取出对应的解密密钥,并返回所述解密密钥;
接收所述第二数据集提供平台返回的解密密钥。
优选的,所述训练子任务信息中还包括:环境搭建信息和训练模型;
所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤具体包括:
根据所述环境搭建信息搭建对应的训练环境;
基于所述训练环境,利用所述待训练数据对所述训练模型进行模型训练。
优选的,在所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤之后,还包括:
记录所述待训练数据的使用状态信息;
将所述使用状态信息反馈至所述待训练数据所归属的第一数据集提供平台。
优选的,在所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤之后,还包括:
将所述待训练数据和所述解密密钥销毁。
优选的,所述方法还包括:
当所述训练模型的训练参数发生改变时,将所述训练参数的更新值上传至训练管理平台,以供所述训练管理平台同步更新所述训练模型的对应训练参数,并将所述训练参数的更新值同步下发至其他虚拟机训练装置,以使所述训练模型同步。
另一方面,本发明还提供一种用于机器学习的虚拟训练装置,包括存储模块,用于存储计算机程序,所述计算机程序在被执行时用于实现本发明所述的方法。
再一方面,本发明还提供一种用于机器学习的数据共享系统,包括:训练管理平台、至少一个数据集提供平台和至少一个用于机器学习的虚拟训练装置,其中,至少一个所述用于机器学习的虚拟训练装置采用本发明所述的用于机器学习的虚拟训练装置,各所述虚拟训练装置同步进行模型训练。
本发明的有益技术效果:
本发明所提供的用于机器学习的数据共享方法、虚拟训练装置和数据共享系统,机器训练模型开发者基于虚拟训练装置来获知数据提供方所能够提供的数据,并当确定出训练任务后,将训练任务分发给各个虚拟训练装置,进而由各虚拟训练装置来从数据提供方处获取对应的数据,相较于现有技术,本实施例提供的数据共享方法避免了机器训练模型开发者预先从各数据提供方拷贝数据,从而降低了发生数据泄露的概率;并且,在能够确保数据安全的情况下,数据提供方无需自行搭建训练环境,从而降低了数据提供方的工作量,提高了其使用体验,同时,由于训练环境仍是由机器模型开发者来进行维护,从而能够确保训练得出的模型的正确性。
附图说明
图1为本发明实施例一提供的一种用于机器学习的数据共享方法的方法流程图;
图2为本发明实施例二提供的一种用于机器学习的数据共享方法的方法流程图;
图3为本发明实施例三提供的一种用于机器学习的数据共享装置的结构示意图。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图来对本发明提供的用于机器学习的数据共享方法、虚拟训练装置及数据共享系统进行详细描述。
本发明提供的用于机器学习的数据共享方法适用于一种用于机器学习的数据共享系统中,如图3所示,该数据共享系统包括:训练管理平台11、至少一个虚拟机训练装置12以及至少一个数据集提供平台13;其中,虚拟机训练装置12与数据集提供平台13一一对应设置,或者一个虚拟机训练装置12对应设置有多个数据集提供平台13(图1仅示出了虚拟机训练装置与数据集提供平台一一对应设置的情况),训练管理平台11与虚拟训练装置12皆由机器模型开发者管理,数据集提供平台由数据拥有者管理。
具体地,训练管理平台11用于接收各虚拟机训练装置12上传的数据索引信息,并基于所接收到的数据索引信息生成训练任务,且将训练任务下发至对应的虚拟机训练装置;各虚拟机训练装置12用于接收对应的数据集提供平台13上传的数据索引信息,并将数据索引信息上传至训练管理平台11,同时基于接收到的训练任务从对应的数据集提供平台13获取数据并进行模型训练;各数据集提供平台13用于将数据提供者所拥有数据的数据索引信息上传至虚拟机训练装置以便于训练管理平台从虚拟机训练装置处获知该数据。
实施例一
本实施例提供一种用于机器学习的数据共享方法,该数据共享方法以本发明所提供的虚拟训练装置12作为执行主体,如图1所示,该方法包括:
步骤S101、接收对应的数据集提供平台发送的数据索引信息。
本发明中,数据集提供平台为归属于数据拥有者管理的平台,其中,数据拥有者可以为个人,也可以为机构,例如,数据拥有者有三个,分别为中国联通、中国移动以及中国电信,对应的,数据集提供平台也有三个,分别与三个数据拥有者对应。当数据集提供平台有数据可提供时,数据集提供平台向对应的虚拟训练装置发送数据索引信息,该数据索引信息用于对数据集提供平台所能够提供的数据进行描述,例如,该数据索引信息可包括:数据数量、数据分类、数据标识以及数据标注等。
步骤S102、将数据索引信息上传至训练管理平台,以供训练管理平台根据所接收到的数据索引信息建立训练总任务。
各虚拟训练装置在接收到数据索引信息后,将数据索引信息上传至训练管理平台,训练管理平台在接收到数据索引信息后,根据所接收到的数据索引信息建立训练总任务,需要说明的是,本发明中,训练管理平台不一定是在接收到数据索引信息后立刻组织生成训练总任务,具体训练管理平台何时生成训练总任务可由本领域技术人员通过设置预设条件触发,例如,可以为当能够获取到预设数量的数据时触发生成训练总任务,或者,当能够获取到某些特定种类的数据时触发生成训练总任务,当然还可以是由技术人员在人工分析了所接收到的数据索引信息后,人工触发生成训练总任务。
步骤S103、接收训练管理平台发送的训练子任务信息。
训练管理平台基于所接收到的数据索引信息建立训练总任务中包括多个独立的训练子任务,每个训练子任务被分发给对应的虚拟训练装置,训练子任务信息中包括待训练数据的数据索引信息,其中,训练子任务与虚拟训练装置的对应关系指的是训练子任务所需要的数据正是虚拟训练装置所提供的数据索引信息所对应的数据。
步骤S104、向待训练数据所归属的第一数据集提供平台发送获取数据请求,以供第一数据集提供平台在接收到获取数据请求后,返回待训练数据。
虚拟训练装置在接收到训练子任务信息后,根据训练子任务信息中所包含的待训练数据的数据索引信息,向与该待训练数据所归属的第一数据集提供平台发送获取数据请求,其中,该获取数据请求中包括待训练数据的标识,当该第一数据集提供平台接收到获取数据请求后,根据获取数据请求中的数据标识确定出待训练数据,并将待训练数据返回给虚拟训练装置。
本实施例提供的数据共享方法,机器训练模型开发者基于虚拟训练装置来获知数据提供方所能够提供的数据,并当确定出训练任务后,将训练任务分发给各个虚拟训练装置,进而由各虚拟训练装置来从数据提供方处获取对应的数据,相较于现有技术,本实施例提供的数据共享方法避免了机器训练模型开发者预先从各数据提供方拷贝数据,从而降低了发生数据泄露的概率。
实施例二
本实施例还提供一种用于机器学习的数据共享方法,本实施例是在实施例一基础上做的进一步补充,如图2所示,本实施例中,在实施例一的步骤S104之后还包括:
步骤S105、接收第一数据集提供平台返回的加密后的待训练数据和解密索引信息。
第一数据集提供平台(待训练数据所归属的数据集平台)在接收到获取数据请求后,生成加密密钥和解密密钥,利用加密密钥对待训练数据进行加密,并将加密后的待训练数据返回给虚拟训练装置;同时,第一数据集提供平台还向虚拟训练装置返回解密索引信息,该解密索引信息为解密密钥的标识信息,用于获取解密密钥。
步骤S106、根据解密索引信息获取解密密钥。
虚拟训练装置在接收到解密索引信息后,基于该解密索引信息获取解密密钥。
具体的,本实施例提供两种获取解密密钥的方法,作为其中一种方法,步骤S106具体包括:
步骤S1061a、将解密索引信息添加签名后发送至第一数据集提供平台,以供第一数据集提供平台对该解密索引信息的签名进行验证,并当验证通过时,根据解密索引信息从自身数据库中提取出对应的解密密钥,并返回解密密钥;
步骤S1062a、接收第一数据集提供平台返回的解密密钥。
在本方法中,待训练数据的加密密钥和解密密钥均由待训练数据所归属的第一数据集提供平台产生,即第一数据集提供平台在生成加密密钥的同时还生成解密密钥,且将解密密钥存储在自身数据库中。虚拟训练装置在接收到解密索引信息后,再次基于解密索引信息向第一数据集提供平台请求获取解密密钥,第一数据集提供平台在接收到虚拟训练装置发送的获取解密密钥的请求时,根据解密索引信息从自身数据库中提取出与该解密密钥对应的解密密钥。
本方法中通过使虚拟训练装置分两次来获取加密数据和解密密钥,从而能够避免将加密数据和解密密钥同时传送时带来的数据安全隐患,从而提高数据的安全性。
需要说明的是,本实施例中,当第一数据集提供平台将解密密钥提供给虚拟训练装置后,其将自动将解密密钥进行销毁,以确保数据的安全性。
作为另一种获取解密密钥的方法,步骤S106具体包括:
步骤S1061b、从解密索引信息中提取出第二数据集提供平台的标识信息。
本方法中,解密索引信息中包含有获取对应的解密密钥的第二数据集提供平台的标识信息,该第二数据集提供平台是与第一数据集平台对应的,用于为第一数据集提供平台的数据提供解密密钥,第二数据集提供平台与第一数据集提供平台的配对关系可由本领域技术人员预设设置,例如,当中国联通为第一数据集提供平台时,可设置中国移动而第二数据集提供平台,以为中国联通的数据提供解密密钥。
步骤S1062b、根据第二数据集提供平台的标识信息,将解密索引信息添加签名后发送至第二数据集提供平台,以供第二数据集提供平台对解密索引信息的签名进行验证,并当验证通过时,根据解密索引信息从自身数据库中提取出对应的解密密钥,并返回解密密钥。
步骤S1063b、接收第二数据集提供平台返回的解密密钥。
本方法与上一方法的不同之处在于,本方法中,由第二数据集提供平台来为待训练数据提供解密密钥,具体的,可在第一数据集提供平台生成加密密钥时,向第二数据集提供平台发送生成解密密钥的通知消息,第二数据集提供平台在接收到生成解密密钥的通知消息后,基于预设算法生成对应的解密密钥,并存储在自身的数据库中,且解密密钥的解密索引信息返回给第一数据集提供平台,第一数据集提供平台进而将解密索引信息发送至虚拟训练装置,虚拟训练装置在接收到解密索引信息后,根据解密索引信息中所包含的第二数据集提供平台的标识信息,向第二数据集提供平台发送获取解密密钥的请求,第二数据集提供平台在接收到获取解密密钥的请求后,根据解密索引信息从自身数据库中查询出对应的解密密钥,并返回给虚拟训练装置。
本方法由于将待训练数据与解密密钥设置为由不同的数据集提供平台来提供,从而能够进一步确保数据的安全性。
同上一方法中,当第二数据集提供平台将解密密钥提供给虚拟训练装置后,其将自动销毁解密密钥,以确保数据的安全性。
步骤S107、根据解密密钥对加密数据进行解密以得到待训练数据。
虚拟训练装置在得到解密密钥后,用解密密钥对加密数据进行解密,以得到待训练数据,本实施例中,优选的,解密后的待训练数据优先存储在虚拟训练装置的内存中,而非磁盘中,从而能够进一步提高待训练数据的安全性,避免被恶意拷贝。
需要说明的是,本发明中所涉及的待训练数据的加密解密过程优选为一次性加解密过程,即,前后两次所使用的加密密钥和解密密钥均不同,从而能够进一步确保数据的安全性;并且,本发明不限定待训练数据的加密方式,可以采用对称加密方式,例如,利用量子密钥生成装置来获得随机性对称加密密钥,也可以采用非对称加密方式等。
步骤S108、基于待训练数据和训练任务信息进行模型训练。
本实施例中,步骤S108具体包括:
步骤S1081、根据环境搭建信息搭建对应的训练环境。
训练任务信息中除了包括有待训练数据的索引信息外,还包括环境搭建信息和训练模型,环境搭建信息用于指示虚拟训练装置搭建针对待训练数据的循环环境,训练模型为训练管理平台为待训练数据匹配的适用的训练模型。
步骤S1082、基于训练环境,利用待训练数据对训练模型进行模型训练。
虚拟训练装置在完成训练环境搭建后,基于待训练数据,对训练模型进行训练。本实施所提供的数据共享方法,相较于现有技术,在能够确保数据安全的情况下,数据提供方无需自行搭建训练环境,从而降低了数据提供方的工作量,提高了其使用体验,同时,由于训练环境仍是由机器模型开发者来进行维护,从而能够确保训练得出的模型的正确性。
需要说明的是,本实施例中,各虚拟训练装置基于待训练数据进行模型训练是同步进行的,即,当任意一个虚拟训练装置在训练过程中使训练模型的参数发生更改时,该虚拟训练装置将训练参数的更新值上传至训练管理平台,训练管理平台进而同步更新训练模型的对应训练参数,并同时将训练模型的参数更新值下发至其他模拟训练装置,以供其他模拟训练装置同步更新训练模型的参数,并利用新的参数进行后续训练。
步骤S109、记录待训练数据的使用状态信息,并将使用状态信息反馈至待训练数据所归属的第一数据集提供平台。
当虚拟训练装置对待训练装置完成训练后,将对应于该训练数据的使用状态信息发送至与该虚拟训练装置对应的第一数据集提供平台,以供第一数据集提供平台根据数据的使用状态信息来统计自身所拥有的数据的价值,其中,数据的使用状态信息可包括:数据分类、用于训练的训练模型分类以及被使用次数等。
步骤S110、将待训练数据和解密密钥销毁。
在完成待训练数据的训练后,虚拟训练装置将待训练数据和解密密钥销毁,以避免数据的泄露。
需要说明的是,本实施例中,步骤S109和步骤S110不限定执行先后顺序,可同时执行,也可顺序执行,图3仅示出了一种执行顺序,并不能对本发明起限定作用。
实施例三
本实施例提供一种用于机器学习的虚拟训练装置,包括存储模块,用于存储计算机程序所述计算机程序在被执行时用于实现本发明实施例一或实施例二提供的数据共享方法。
实施例四
本实施例提供一种用于机器学习的数据共享系统,如图3所示,该数据共享系统包括:训练管理平台11、至少一个虚拟训练装置12和至少一个数据集提供平台13;其中,至少一个所述虚拟训练装置12采用本发明实施例三所提供的虚拟训练装置,各虚拟训练装置12基于各自的训练数据同步进行模型训练,并同步更新模型的训练参数。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种用于机器学习训练的数据共享方法,其特征在于,包括:
接收对应的数据集提供平台发送的数据索引信息;
将所述数据索引信息上传至训练管理平台,以供所述训练管理平台根据所接收到的数据索引信息建立训练总任务;
接收所述训练管理平台发送的训练子任务信息,所述训练子任务信息中包括待训练数据的数据索引信息;
向所述待训练数据所归属的第一数据集提供平台发送获取数据请求,以供所述第一数据集提供平台在接收到所述获取数据请求后,返回所述待训练数据。
2.根据权利要求1所述的方法,其特征在于,在所述向所述待训练数据所归属的第一数据集提供平台发送获取数据请求的步骤之后,还包括:
接收所述第一数据集提供平台返回的加密后的所述待训练数据和解密索引信息;
根据所述解密索引信息获取解密密钥;
根据所述解密密钥对所述加密数据进行解密以得到所述待训练数据;
基于所述待训练数据和所述训练子任务信息进行模型训练。
3.根据权利2所述的方法,其特征在于,所述根据所述解密索引信息获取解密密钥的步骤具体包括:
将所述解密索引信息添加签名后发送至所述第一数据集提供平台,以供所述第一数据集提供平台对所述解密索引信息的签名进行验证,并当验证通过时,根据所述解密索引信息从自身数据库中提取出对应的解密密钥,并返回所述解密密钥;
接收所述第一数据集提供平台返回的解密密钥。
4.根据权2所述的方法,其特征在于,所述解密索引信息中包含有获取对应的解密密钥的第二数据集提供平台的标识信息;
所述根据所述解密索引信息获取解密密钥的步骤具体包括:
从所述解密索引信息中提取出所述第二数据集提供平台的标识信息;
根据所述第二数据集提供平台的标识信息,将所述解密索引信息添加签名后发送至所述第二数据集提供平台,以供所述第二数据集提供平台对所述解密索引信息的签名进行验证,并当验证通过时,根据所述解密索引信息从自身数据库中提取出对应的解密密钥,并返回所述解密密钥;
接收所述第二数据集提供平台返回的解密密钥。
5.根据权利要求2所述的方法,其特征在于,所述训练子任务信息中还包括:环境搭建信息和训练模型;
所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤具体包括:
根据所述环境搭建信息搭建对应的训练环境;
基于所述训练环境,利用所述待训练数据对所述训练模型进行模型训练。
6.根据权利要求2所述的方法,其特征在于,在所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤之后,还包括:
记录所述待训练数据的使用状态信息;
将所述使用状态信息反馈至所述待训练数据所归属的第一数据集提供平台。
7.根据权利要求2所述的方法,其特征在于,在所述基于所述待训练数据和所述训练子任务信息进行模型训练的步骤之后,还包括:
将所述待训练数据和所述解密密钥销毁。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
当所述训练模型的训练参数发生改变时,将所述训练参数的更新值上传至训练管理平台,以供所述训练管理平台同步更新所述训练模型的对应训练参数,并将所述训练参数的更新值同步下发至其他虚拟机训练装置,以使所述训练模型同步。
9.一种用于机器学习的虚拟训练装置,包括存储模块,用于存储计算机程序,其特征在于,所述计算机程序在被执行时用于实现上述权利要求1-8任一项所述的方法。
10.一种用于机器学习的数据共享系统,其特征在于,包括:训练管理平台、至少一个数据集提供平台和至少一个用于机器学习的虚拟训练装置,其中,至少一个所述用于机器学习的虚拟训练装置采用权利要求9所述的用于机器学习的虚拟训练装置,各所述虚拟训练装置同步进行模型训练。
CN201911179466.1A 2019-11-27 2019-11-27 一种用于机器学习的数据共享方法和虚拟训练装置 Active CN111092935B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911179466.1A CN111092935B (zh) 2019-11-27 2019-11-27 一种用于机器学习的数据共享方法和虚拟训练装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911179466.1A CN111092935B (zh) 2019-11-27 2019-11-27 一种用于机器学习的数据共享方法和虚拟训练装置

Publications (2)

Publication Number Publication Date
CN111092935A true CN111092935A (zh) 2020-05-01
CN111092935B CN111092935B (zh) 2022-07-12

Family

ID=70394155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911179466.1A Active CN111092935B (zh) 2019-11-27 2019-11-27 一种用于机器学习的数据共享方法和虚拟训练装置

Country Status (1)

Country Link
CN (1) CN111092935B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672954A (zh) * 2021-08-19 2021-11-19 支付宝(杭州)信息技术有限公司 特征提取方法、装置和电子设备
US11693878B2 (en) 2020-11-19 2023-07-04 International Business Machines Corporation Generation of a dataset in the format of a machine learning framework

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289459A (zh) * 2010-06-18 2011-12-21 微软公司 自动地生成训练数据
US20140214736A1 (en) * 2013-01-30 2014-07-31 Technion Research & Development Foundation Limited Training ensembles of randomized decision trees
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
CN105340207A (zh) * 2014-05-22 2016-02-17 华为技术有限公司 数据发送、接收方法及装置
US20170193402A1 (en) * 2015-12-31 2017-07-06 Dassault Systemes Update of a machine learning system
CN107622427A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 深度学习的方法、装置及系统
CN109241141A (zh) * 2018-09-04 2019-01-18 北京百度网讯科技有限公司 深度学习的训练数据处理方法和装置
CN109840591A (zh) * 2017-11-29 2019-06-04 华为技术有限公司 模型训练系统、方法和存储介质
CN109948632A (zh) * 2017-12-19 2019-06-28 杭州海康威视数字技术股份有限公司 数据训练方法、装置及系统、计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102289459A (zh) * 2010-06-18 2011-12-21 微软公司 自动地生成训练数据
US20140214736A1 (en) * 2013-01-30 2014-07-31 Technion Research & Development Foundation Limited Training ensembles of randomized decision trees
CN105340207A (zh) * 2014-05-22 2016-02-17 华为技术有限公司 数据发送、接收方法及装置
CN105045819A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
US20170193402A1 (en) * 2015-12-31 2017-07-06 Dassault Systemes Update of a machine learning system
CN107622427A (zh) * 2016-07-13 2018-01-23 阿里巴巴集团控股有限公司 深度学习的方法、装置及系统
CN109840591A (zh) * 2017-11-29 2019-06-04 华为技术有限公司 模型训练系统、方法和存储介质
CN109948632A (zh) * 2017-12-19 2019-06-28 杭州海康威视数字技术股份有限公司 数据训练方法、装置及系统、计算机设备
CN109241141A (zh) * 2018-09-04 2019-01-18 北京百度网讯科技有限公司 深度学习的训练数据处理方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王黎等: "文本搜索排序中构造训练集的一种方法", 《计算机系统应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11693878B2 (en) 2020-11-19 2023-07-04 International Business Machines Corporation Generation of a dataset in the format of a machine learning framework
CN113672954A (zh) * 2021-08-19 2021-11-19 支付宝(杭州)信息技术有限公司 特征提取方法、装置和电子设备

Also Published As

Publication number Publication date
CN111092935B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN110417918B (zh) 一种档案信息的分布式存储方法、装置及电子设备和介质
CN113204787B (zh) 基于区块链的联邦学习隐私保护方法、系统、设备和介质
CN113159327B (zh) 基于联邦学习系统的模型训练方法、装置、电子设备
CN109634619A (zh) 可信执行环境实现方法及装置、终端设备、可读存储介质
CN111092935B (zh) 一种用于机器学习的数据共享方法和虚拟训练装置
DE102016102424A1 (de) Auf Inhalt beruhende Hardware-Sicherheitsmodulzuweisung zu virtuellen Maschinen
CN104104650B (zh) 数据文件访问方法及终端设备
CN112910870B (zh) 基于区块链的协同隐私计算数据通信方法
CN115765965A (zh) 基于联邦学习和双联盟区块链的医疗数据安全共享方法
CN109408486B (zh) 文件发布方法和系统、发布服务器和文件生成装置
CN104994095A (zh) 一种设备认证方法、客户端、服务器及系统
CN110599384B (zh) 组织关系的转移方法、装置、设备及存储介质
CN116502732A (zh) 基于可信执行环境的联邦学习方法以及系统
CN113609147B (zh) 数据共享方法、装置及电子设备
KR20210077176A (ko) 뉴럴 블록 클러스터 기반의 안전한 블록 체인 네트워크 시스템
CN111062497A (zh) 基于区块链网络的物业管理方法、平台及存储介质
CN116506227B (zh) 数据处理方法、装置、计算机设备和存储介质
CN109979051A (zh) 用于核验用户身份的方法、装置和计算机可读存储介质
CN114143029A (zh) 一种可重复生成的用户个人账号密码生成系统及方法
CN111737747A (zh) 数据库保密方法、装置、设备及计算机存储介质
CN115964755B (zh) 数据授权及验证方法、装置、设备和存储介质
CN115085983B (zh) 数据处理方法、装置、计算机可读存储介质和电子设备
CN110474782A (zh) 一种智能设备的远程管理方法、装置、设备及存储介质
CN113497827B (zh) 信息共享方法及设备
US11695781B2 (en) Method for managing communication authority based on multi-energy equipment data flow using digital twin and a system thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant