CN114818973A - 一种基于隐私保护的图模型训练方法、装置及设备 - Google Patents

一种基于隐私保护的图模型训练方法、装置及设备 Download PDF

Info

Publication number
CN114818973A
CN114818973A CN202210560176.7A CN202210560176A CN114818973A CN 114818973 A CN114818973 A CN 114818973A CN 202210560176 A CN202210560176 A CN 202210560176A CN 114818973 A CN114818973 A CN 114818973A
Authority
CN
China
Prior art keywords
graph
node
model
information
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210560176.7A
Other languages
English (en)
Inventor
吴若凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202210560176.7A priority Critical patent/CN114818973A/zh
Publication of CN114818973A publication Critical patent/CN114818973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/098Distributed learning, e.g. federated learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例公开了一种基于隐私保护的图模型训练方法、装置及设备,该方法应用于终端设备,包括:获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,基于第一节点的隐向量和第一节点对应的训练标签信息,构建第一样本数据;分别为第一图表中的第二节点和第二图表中的节点生成相应的训练标签信息,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,构建第二样本数据;基于第一样本数据和第二样本数据对图模型进行模型训练,并获取对应的梯度信息发送给服务器。

Description

一种基于隐私保护的图模型训练方法、装置及设备
本申请为2021年07月15日提交中国专利局、申请号为202110801373.9、发明名称为“一种基于隐私保护的图模型训练方法、装置及设备”的中国专利申请的分案申请。
技术领域
本说明书涉及计算机技术领域,尤其涉及一种基于隐私保护的图模型训练方法、装置及设备。
背景技术
在大数据或人工智能应用场景中,许多任务需要利用用户数据来训练模型,而用户的个人隐私数据可能因为个人数据传输的过程遭到泄漏,因此,如何构建合理的隐私保护机器学习框架是当下最重要的话题之一。
联邦学习是目前分布式学习中最重要的分支之一,联邦学习通过用户与服务器(数据使用方)交换模型梯度从而避免了直接传输用户的原始隐私数据,联邦学习相对于中心化的机器学习,实现了数据隔离从而保证了一定程度的用户隐私。随着图学习在工业界的大量应用和在学界的蓬勃发展,联邦图学习有着重要的应用前景,然而当前的联邦学习协议并不能保证用户的隐私安全,因为在某些特殊的机器学习模型下,可以通过截获传输的梯度信息直接破译用户的原始隐私数据。为此,需要提供一种能够更好保护用户隐私数据的联邦学习框架。
发明内容
本说明书实施例的目的是提供一种能够更好保护用户隐私数据的联邦学习框架。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种基于隐私保护的图模型训练方法,应用于终端设备,所述方法包括:获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数。获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据。分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例提供的一种基于隐私保护的图模型训练方法,应用于服务器,所述方法包括:接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供的一种基于隐私保护的图模型训练方法,应用于区块链系统,所述方法包括:基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理。基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供的一种基于隐私保护的图模型训练装置,所述装置包括:信息获取模块,获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。图表构建模块,基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数。第一样本构建模块,获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据。第二样本构建模块,分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。梯度确定模块,基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例提供的一种基于隐私保护的图模型训练装置,所述装置包括:梯度接收模块,接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。模型参数更新模块,基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型。发送模块,将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供的一种基于隐私保护的图模型训练装置,所述装置为区块链系统中的装置,所述装置包括:模型参数下发模块,基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理。梯度获取模块,基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。模型参数更新模块,基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型。信息提供模块,将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供的一种基于隐私保护的图模型训练设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数。获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据。分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例提供的一种基于隐私保护的图模型训练设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供的一种基于隐私保护的图模型训练设备,所述设备为区块链系统中的设备,所述基于隐私保护的图模型训练设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理。基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数。获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据。分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:基于预先部署于区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理。基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息。基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型。将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1A为本说明书一种基于隐私保护的图模型训练方法实施例;
图1B为本说明书一种基于隐私保护的图模型训练的处理过程示意图;
图2为本说明书一种基于隐私保护的图模型训练系统的结构示意图;
图3为本说明书另一种基于隐私保护的图模型训练的处理过程示意图;
图4A为本说明书另一种基于隐私保护的图模型训练方法实施例;
图4B为本说明书又一种基于隐私保护的图模型训练的处理过程示意图;
图5A为本说明书又一种基于隐私保护的图模型训练方法实施例;
图5B为本说明书又一种基于隐私保护的图模型训练的处理过程示意图;
图6为本说明书一种基于隐私保护的图模型训练装置实施例;
图7为本说明书另一种基于隐私保护的图模型训练装置实施例;
图8为本说明书又一种基于隐私保护的图模型训练装置实施例;
图9为本说明书一种基于隐私保护的图模型训练设备实施例。
具体实施方式
本说明书实施例提供一种基于隐私保护的图模型训练方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1A和图1B所示,本说明书实施例提供一种基于隐私保护的图模型训练方法,该方法的执行主体可以为终端设备,其中,该终端设备可以如手机、平板电脑、个人计算机等。该方法具体可以包括以下步骤:
在步骤S102中,获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。
其中,第一图表和第二图表可以是一种数据结构,第一图表和第二图表可以是图Graph等,本实施例中,第一图表和第二图表可以是属性图,属性图可以是由节点、边、标签、关系类型和属性组成的关系图,在属性图中,边也可以称为关系,节点和关系是最重要的实体,属性图的节点是独立存在的,可以为节点设置标签,拥有相同标签的节点属于同一个分组或同一个集合,关系可以通过关系类型进行分组,关系类型相同的关系属于同一个集合,关系可以是有向的,关系的两端是起始节点和结束节点,通过有向的箭头来标识方向,节点之间的双向关系通过两个方向相反的关系来标识,任意节点可以有0个、1个或多个标签,但关系必须设置关系类型,并且只能设置一个关系类型。节点信息可以包括节点的标识(如节点ID或名称等)、节点的属性、节点的标签等信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。节点连接信息可以是上述属性图中的关系,可以用于连接两个节点等,节点连接信息可以包括具有关联关系的两个节点的相关信息(如两个节点的标识等)和两个节点中哪个是起始节点,哪个是结束节点等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,在大数据或人工智能应用场景中,许多任务需要利用用户数据来训练模型,而用户的个人隐私数据可能因为个人数据传输的过程遭到泄漏,因此,如何构建合理的隐私保护机器学习框架是当下最重要的话题之一。
联邦学习是目前分布式学习中最重要的分支之一,联邦学习通过用户与服务器(数据使用方)交换模型梯度从而避免了直接传输用户的原始隐私数据,联邦学习相对于中心化的机器学习,实现了数据隔离从而保证了一定程度的用户隐私。随着图学习在工业界的大量应用和在学界的蓬勃发展,联邦图学习有着重要的应用前景,然而当前的联邦学习协议并不能保证用户的隐私安全,因为在某些特殊的机器学习模型下,可以通过截获传输的梯度信息直接破译用户的原始隐私数据。为此,需要提供一种能够更好保护用户隐私数据的联邦学习框架。本说明书实施例提供一种可实现的联邦学习框架,具体可以包括以下内容:
如图2所示,服务器可以根据预先设定的算法构建图模型的模型架构,该模型架构中可以包括待确定的模型参数,基于联邦学习机制,服务器构建图模型的模型架构后,可以将该图模型的模型架构发送给联邦学习的一个或多个不同的终端设备。在实际应用中,联邦学习的一个或多个不同的终端设备也可以根据服务器提供的相关信息(如使用的算法和图模型的相关信息等)构建图模型的模型架构,此时,服务器可以只需要将其构建的图模型的模型架构中模型参数发送给各个终端设备,终端设备接收到模型参数后,可以使用该模型参数对上述构建的图模型的模型架构中的模型参数进行更新,从而得到与服务器中的图模型的模型架构和模型参数均相同的图模型。在实际应用中,除了可以通过上述方式使得服务器与终端设备中最初的图模型相同外,还可以通过其它多种方式实现,具体可以根据实际情况设定,本说明书实施例对此不做限定。
终端设备获取到图模型的模型架构后,可以从终端设备存储的数据中获取用于训练该图模型的数据,在实际应用中,终端设备可以对用户每次提供的数据进行存储,并可以将其作为用于训练该图模型的数据,此外,为了弥补终端设备自身存储的数据的不足,终端设备还可以采用指定的方式从其它设备中获取相应的数据,并可以将其作为用于训练该图模型的数据,具体可以根据实际情况设定。在终端设备获取的数据中可以包括具有完整图表信息的图表,也可以包括具有不完整图表信息的图表,为了后续说明方便,可以将具有完整图表信息的图表称为第二图表,第二图表可以包括一个,也可以包括多个,可以将具有不完整图表信息的图表称为第一图表,第一图表可以包括一个,也可以包括多个等,具体可以根据实际情况设定,本说明书实施例对此不做限定。本说明书实施例中,待构建的第一图表包括节点信息,不包括节点连接信息,第二图表包括节点信息和节点连接信息,基于此,终端设备可以获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。
在步骤S104中,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数。
其中,全连接网络可以是相邻两个网络层之间任意两个节点之间存在连接关系的网络,全连接网络可以包括多个网络层,全连接网络中包含的网络层的数量可以根据实际设定,本说明书实施例对此不做限定。图网络可以是由节点,以及节点之间的连接关系构成的网络,图网络可以包括多种不同的架构,如知识图谱、递归神经网络等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,由于第一图表不包含节点连接信息,为了构建第一图表,可以根据实际情况预先选取一个网络建立一个完整地第一图表,为了保证构建地第一图表不会遗漏信息,可以预先选取全连接网络,这样,可以使得相邻两个网络层之间任意两个节点之间均存在连接关系,具体地,可以根据第一图表的节点信息,并使用上述全连接网络将第一图表中的节点进行连接,得到第一图表。
另外,由于第二图表中包含了完整的图表信息,因此,可以通过指定的图网络构建第二图表,其中,为了减少不同图网络构建的图表之间的差异或减少其它因素对最终结果的影响,可以设定上述全连接网络与该图网络具有相同的网络参数,即上述两个网络可以使用同一套网络参数(也即参数共享)。通过上述方式分别构建出第一图表和第二图表。
在步骤S106中,获取第一图表中存在训练标签信息的第一节点的隐向量,基于第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据。
其中,InstaHide隐私保护规则可以是基于Mixup机制的隐私保护规则,即通过Mixup机制将样本数据与一个或多个随机样本数据混合,从而导致破译单个样本数据的难度显著加大,以此达到隐私保护的目的。Mixup机制可以是一种样本数据的增强处理机制,具体地,针对原始的存在训练标签的样本数据,可以将每个样本数据对应的特征、训练标签与一个或多个其它样本数据计算平均值,得到Mixup机制处理的一个或多个样本数据。隐向量可以通过样本数据的表征来确定。
在实施中,对于存在训练标签信息的数据(即第一图表中的第一节点对应的相关数据),可以先计算每个第一节点的表征,即得到第一图表中存在训练标签信息的第一节点的隐向量。基于第一节点的隐向量和第一节点对应的训练标签信息,可以构建新的数据集合,即由第一节点的隐向量和第一节点对应的训练标签信息构成的数据集合,可以将构建的新的数据集合转换为用于进行模型训练的样本数据。可以根据实际情况预先设定隐私保护规则,本实施例中可以通过InstaHide隐私保护规则实现,具体地,对于由第一节点的隐向量和第一节点对应的训练标签信息构成的数据集合,可以从上述第一节点的隐向量中随机选取一个隐向量,然后,可以从剩余的隐向量中选取一个或多个隐向量,可以计算上述选取的隐向量的平均值,得到相应的计算结果,通过相同的处理方式,对剩余的隐向量进行上述计算,分别得到每个隐向量对应的计算结果(为了后续描述方便,可以称为第一计算结果)。对于第一节点对应的训练标签信息,可以采用与上述隐向量相同的处理方式得到每个第一节点对应的训练标签信息对应的计算结果(为了后续描述方便,可以称为第二计算结果),可以基于第一计算结果和第二计算结果确定第一样本数据,例如,可以直接使用上述第一计算结果和第二计算结果构建第一样本数据,或者,可以分别对上述第一计算结果和第二计算结果进行指定的计算,分别得到相应的结算结果,可以基于上述得到的计算结果确定第一样本数据。
在步骤S108中,分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,获取第二节点和第二图表中的节点的隐向量,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。
在实施中,由于第一图表和第二图表中还包括不存在训练标签信息的节点,因此,可以预先设定为上述节点设置训练标签信息的处理机制,例如,可以预先选取一种分类算法,可以通过该分类算法分别为上述节点进行分类,并通过相应的分类结果确定相应的训练标签信息,或者,可以预先训练一个机器学习模型(如神经网络模型等),通过训练的机器学习模型分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点确定相应的训练标签信息,此外,还可以通过其它多种不同的方式为第二节点和第二图表中的节点生成相应的训练标签信息,具体可以根据实际情况设定,本说明书实施例对此不做限定。
通过上述方式得到不存在训练标签信息的节点对应的训练标签信息后,可以对上述节点执行如上述步骤S106的处理,从而构建第二样本数据,具体处理过程可以参见上述步骤S106的相关内容,在此不再赘述。
在步骤S110中,基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,以使服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
在实施中,通过上述方式得到终端设备中的样本数据后,可以使用该样本数据对服务器下发的图模型进行训练,直到图模型收敛,即可以得到训练后的图模型。然后,可以计算训练后的图模型对应的梯度信息,可以将计算得到的梯度信息发送给服务器。服务器可以接收终端设备发送的梯度信息,此外,服务器也可以接收联邦学习中的其它终端设备提供的相应的终端设备训练后的图模型对应的梯度信息,服务器可以对接收到的梯度信息进行整合处理,并基于整合处理后的结果对服务器中的图模型的模型参数进行更新,得到最终的图模型,然后,可以将该图模型发送给联邦学习中的每个终端设备,终端设备可以使用更新后的图模型进行相应的业务处理,例如,终端设备可以使用更新后的图模型对某保险业务进行指定风险的防护与控制处理等。
本说明书实施例提供一种基于隐私保护的图模型训练方法,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
实施例二
如图3所示,本说明书实施例提供一种基于隐私保护的图模型训练方法,该方法的执行主体可以为终端设备,其中,该终端设备可以如手机、平板电脑、个人计算机等。该方法具体可以包括以下步骤:
在步骤S302中,获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息。
其中,第一图表和第二图表可以是属性图,如属性图G=(V,E),表示一个节点集合V和边集合E的图,如果每个节点v∈V,允许有一个特征xv,则图G即为属性图,可以记为G=(V,E,X),其中,X为每个节点的特征拼接而成的矩阵,在实际应用中,可以使用邻接矩阵A作为边集合的等价定义,A是一个N*N的矩阵,N为节点的个数,A{ij}=1表示节点i与节点j之间存在一条边,否则,A{ij}=0。
在步骤S304中,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数。
其中,全连接网络可以为全卷积网络FCN,上述图网络可以由图卷积神经网络GCN、图注意力网络GAT或GraphSAGE构建。
在步骤S306中,获取第一图表中存在训练标签信息的第一节点的隐向量。
在步骤S308中,针对第一节点的隐向量和第一节点对应的训练标签信息,生成第一节点对应的置换函数和权重。
其中,第一节点对应的权重的之和为1。
在实施中,可以采用Mixup机制确定第一节点对应的置换函数和权重,对于第一节点中的原始数据{(x1,y1),(x2,y2),...,(xm,ym)},其中x表示第一节点的特征,y表示训练标签,通过Mixup机制可以将第一节点的特征进行转换,为此,可以预先设定置换函数πi和相应的权重λi,k,其中,1≤i≤m,且满足πi(i)=i,则对于任意一个节点(即第i个节点),可以有
Figure BDA0003656248470000111
Figure BDA0003656248470000112
jλi,j=1(3)
上述表达式所表达的含义可以为:对第i个样本,将其与k-1个随机选取的样本在样本数据的特征和训练标签信息上同时进行加权平均,然后,可以使用{(x′1,y′1),(x′2,y′2),...,(x′m,y′m)}作为样本数据对相应的模型进行训练。
同样的,对于第一图表中的第一节点,也可以使用与上述类似的方式得到相应的样本数据,对于第一图表中存在训练标签信息的第一节点,可以计算每个第一节点对应的特征,可以得到隐向量f(xi),其中,1≤i≤L,则可以得到新的数据集合{(f(x1),y1),(f(x2),y2),...,(f(xL),yL)},其中,f(xi)可以为d维向量。可以使用与上述公式(1)、公式(2)和公式(3)相同的方式得到:
Figure BDA0003656248470000121
Figure BDA0003656248470000122
jλi,j=1 (6)
求解上述表达式(4)、(5)和(6),最终可以得到第一节点对应的置换函数πi和相应的权重λi,k
在步骤S310中,基于第一节点对应的置换函数和权重,以及第一节点的隐向量和第一节点对应的训练标签信息,生成第一预选样本数据。
在实施中,可以基于上述公式(4)、公式(5)和公式(6),可以得到每个第一节点对应的置换函数和权重,然后,可以结合每个第一节点的隐向量和第一节点对应的训练标签信息最终可以得到
Figure BDA0003656248470000123
上述表达式(7)即可以为第一预选样本数据。
在步骤S312中,生成第一节点对应的节点参数,并基于第一节点对应的节点参数和第一预选样本数据,生成第一样本数据。
其中,节点参数可以是根据实际情况设定,例如,节点参数可以是预先设定的指定向量,或者,也可以是随机向量等,具体可以根据实际情况设定,本说明书实施例对此不做限定。本实施例中,节点参数可以为Rademacher随机向量。
在实施中,对每一个n∈{1,2,...,L},生成d维Rademacher随机向量δ=(σ1,σ2,...,σd),然后与f(xi)逐维相乘,得到最终的第一样本数据。
在步骤S314中,分别将第一图表中不存在训练标签信息的第二节点的节点数据和第二图表中的节点的节点数据输入到预设的目标图神经网络GNN模型中,分别得到与第一图表中不存在训练标签信息的第二节点和第二图表中的节点相应的训练标签信息,其中,目标GNN模型是基于预设的图表样本进行监督训练得到。
在实施中,为了给没有训练标签信息的节点设置相应的训练标签信息,可以预先训练目标GNN模型,具体地,可以预先通过多种不同的方式(如购买或灰度测试等方式)获取用于训练上述目标GNN模型的样本数据(即图表样本,其中可以包括训练标签信息),然后,可以基于获取的图表样本对目标GNN模型进行监督训练,最终可以得到训练后的目标GNN模型。通过上述方式得到第一图表中不存在训练标签信息的第二节点的节点数据和第二图表中的节点的节点数据后,可以将上述获取的节点数据输入到训练后的目标GNN模型中,分别得到与第一图表中不存在训练标签信息的第二节点和第二图表中的节点相应的训练标签信息。
在步骤S316中,获取第二节点和第二图表中的节点的隐向量,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据。
在实施中,可以获取第二节点和第二图表中的节点的隐向量,针对第二节点和第二图表中的节点的隐向量和生成的训练标签信息,生成第二节点和第二图表中的节点对应的置换函数和权重,基于第二节点和第二图表中的节点对应的置换函数和权重,以及生成的训练标签信息,生成第二预选样本数据,生成第二节点和第二图表中的节点对应的节点参数,并基于第二节点和第二图表中的节点对应的节点参数和第二预选样本数据,生成第二样本数据,上述过程的具体处理过程可以参见上述相关内容,在此不再赘述。
在步骤S318中,基于第一样本数据对图模型进行模型训练,得到第一样本数据对应的预设第一分类损失函数的函数值。
其中,图模型可以为基于图神经网络GNN构建。第一分类损失函数可以包括多种,具体可以根据实际情况选取,例如,第一分类损失函数可以为交叉熵损失函数等。
在步骤S320中,基于第二样本数据对图模型进行模型训练,得到第二样本数据对应的预设第二分类损失函数的函数值。
其中,第二分类损失函数可以包括多种,具体可以根据实际情况选取,例如,第二分类损失函数可以为交叉熵损失函数等。此外,第一分类损失函数和第二分类损失函数可以相同,即第一分类损失函数和第二分类损失函数为交叉熵损失函数等。
在步骤S322中,基于第一样本数据对应的预设第一分类损失函数的函数值和第二样本数据对应的预设第二分类损失函数的函数值,确定图模型对应的损失函数的函数值,并基于图模型对应的损失函数的函数值,确定训练后的图模型对应的梯度信息,并将该梯度信息发送给服务器,以使服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
在实施中,可以基于第一样本数据对应的预设第一分类损失函数的函数值和第二样本数据对应的预设第二分类损失函数的函数值,通过预设的整合规则对上述两部分损失进行整合,最终得到图模型对应的损失函数的函数值,然后,可以基于图模型对应的损失函数的函数值,并采用反向传播算法计算相应的梯度信息,得到训练后的图模型对应的梯度信息。
需要说明的是,在部署推理时不需要部署全连接网络,仅需要部署图神经网络GNN进行常规推理即可。
本说明书实施例提供一种基于隐私保护的图模型训练方法,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
此外,本说明书实施例设计了联邦学习协议下的图学习框架,并且具有隐私保护特性,本说明书实施例不仅提供了合理的隐私保护水平的同时避免了由于过量噪音等因素造成的模型精度损失,具有较好的适用性。
实施例三
如图4A和图4B所示,本说明书实施例提供一种基于隐私保护的图模型训练方法,该方法的执行主体可以为服务器,其中,该服务器可以是为某项业务(如进行交易的业务或金融业务等)的服务器,具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等,或者,也可以是需要对业务数据进行风险检测或基于隐私保护的图模型训练的服务器等。该方法具体可以包括以下步骤:
在步骤S402中,接收多个不同的终端设备发送的图模型对应的梯度信息,图模型对应的梯度信息是终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于第一样本数据和第二样本数据对图模型进行模型训练后而得到的梯度信息。
其中,图模型可以为基于图神经网络GNN构建。
在步骤S404中,基于多个不同的终端设备发送的图模型对应的梯度信息,对图模型中的模型参数进行更新,得到更新后的图模型。
上述步骤S404的具体处理可以包括多种,例如,可以对多个不同的终端设备发送的图模型对应的梯度信息进行整合处理,得到整合后的梯度信息,然后,可以基于整合后的梯度信息和图模型,可以计算得到模型参数的数值,然后可以使用计算得到的模型参数的数值对图模型中的模型参数进行更新,得到更新后的图模型。
在实际应用中,上述步骤S404的具体处理,除了可以通过上述方式实现外,还可以通过多种不同的方式实现,以下再提供一种可选的处理方式,具体可以包括以下内容:基于多个不同的终端设备发送的图模型对应的梯度信息,通过预设的梯度更新策略对图模型中的模型参数进行更新,得到更新后的图模型,预设的梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
其中,FedAvg梯度更新策略可以是基于联邦平均的方式对梯度进行更新的策略,FedSgd梯度更新策略可以是基于局部随机梯度下降(SGD)平均的方式对梯度进行更新的策略。
在步骤S406中,将更新后的图模型发送给终端设备,以使终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例提供一种基于隐私保护的图模型训练方法,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
实施例四
如图5A和图5B所示,本说明书实施例提供一种基于隐私保护的图模型训练方法,该方法的执行主体可以为区块链系统,该区块链系统可以由终端设备或服务器等组成,其中,终端设备可以如手机、平板电脑等移动终端设备,还可以如个人计算机等设备。该服务器可以是一个独立的服务器,还可以是由多个服务器构成的服务器集群等。该方法具体可以包括以下步骤:
在步骤S502中,基于预先部署于区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,该智能合约用于触发联邦学习处理。
其中,智能合约中设置有用于触发联邦学习处理的规则,该规则可以包括一个,也可以包括多个。
在实施中,可以预先基于联邦学习框架的处理过程构建智能合约,并可以将构建的智能合约部署于区块链系统中,以使得通过智能合约触发联邦学习处理。当需要进行联邦学习时,可以调用智能合约,通过智能合约中设定的相应规则触发为执行联邦学习的处理过程。
需要说明的是,在实际应用中,图模型可以存储于区块链系统中,也可以存储于其它存储设备中,对于该图模型存储于其它存储设备中的情况,考虑到图模型可能需要进行定期或不定期更新,由于区块链系统具有不可篡改的特征,因此如果图模型存储于区块链系统中,后续需要对区块链系统中的图模型进行频繁的上传、删除和上传者的身份验证等操作,增大区块链系统的处理压力,为了提高处理效率,降低区块链系统的处理压力,可以预先将图模型存储于存储设备的指定存储地址内,而将该存储地址(即索引信息)上传于区块链系统中,由于该存储地址可以固定不变,并存储于区块链系统中,从而既保证了区块链系统中的数据的防篡改性,同时,图模型还可以在上述存储设备中进行定期或不定期的更新。
基于上述内容,则上述步骤S502的处理还可以包括:基于预先部署于区块链系统中的智能合约获取联邦学习框架中的图模型的模型参数,基于该智能合约向联邦学习框架中的多个不同的终端设备发送该模型参数。
在步骤S504中,基于上述智能合约,分别从多个不同的终端设备获取图模型对应的梯度信息,图模型对应的梯度信息是终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于第一样本数据和第二样本数据对图模型进行模型训练后而得到的梯度信息。
在步骤S506中,基于多个不同的终端设备发送的图模型对应的梯度信息和上述智能合约,对图模型中的模型参数进行更新,得到更新后的图模型。
基于上述内容,上述步骤S506的处理也可以通过下述方式处理:
A2:基于上述智能合约,从区块链系统中获取该图模型的索引信息,并基于该索引信息获取该图模型。
其中,索引信息可以用于记录图模型所存储的位置等信息,通过该索引信息,可以快速查找到相应的图模型,该索引信息相应的数据存储到区块链系统中后,通常不会对其内容进行修改,也即是该索引信息对应的图模型的存储位置通常不会改变,从而可以防止该索引信息被恶意篡改。
在实施中,为了保证图模型的索引信息的完整性和防止被篡改,可以将图模型的索引信息上传至区块链系统中,具体地,为了记录图模型,可以根据实际情况预先设置该图模型的索引信息,如可以预先设置图模型能够存储的区域,然后,基于上述设置的区域生成索引信息等。在设置完成索引信息后,可以将该索引信息上传至区块链系统。
A4:基于多个不同的终端设备发送的图模型对应的梯度信息和智能合约,对图模型中的模型参数进行更新,得到更新后的图模型。
上述步骤S506的处理完成后,区块链系统还可以执行下述处理:基于上述索引信息和智能合约,将更新后的图模型存储于该索引信息对应的存储区域。
另外,基于上述内容,上述步骤S506的处理还可以通过下述方式处理:
B2:基于上述智能合约,从区块链系统中获取上述图模型的索引信息。
B4:基于上述智能合约触发上述索引信息对应存储组件基于多个不同的终端设备发送的图模型对应的梯度信息,对该图模型中的模型参数进行更新,得到更新后的图模型。
此外,上述步骤S506的处理也可以通过下述方式处理:
C2:基于上述智能合约,获取对该图模型中的模型参数进行更新的梯度更新策略,该梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
C4:基于多个不同的终端设备发送的图模型对应的梯度信息,通过上述梯度更新策略对图模型中的模型参数进行更新,得到更新后的图模型。
在步骤S508中,将更新后的图模型提供给终端设备,以使终端设备基于更新后的图模型执行相应的业务处理。
基于上述B2和B4的处理方式,上述步骤S508的处理还可以通过下述方式实现:基于上述智能合约触发上述索引信息对应存储组件将更新后的图模型提供给终端设备。
本说明书实施例提供一种基于隐私保护的图模型训练方法,基于预先部署于区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,基于智能合约,分别从多个不同的终端设备获取所述图模型对应的梯度信息,该图模型对应的梯度信息是终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于第一样本数据和第二样本数据对图模型进行模型训练后而得到的梯度信息,基于多个不同的终端设备发送的图模型对应的梯度信息和智能合约,对图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
实施例五
以上为本说明书实施例提供的基于隐私保护的图模型训练方法,基于同样的思路,本说明书实施例还提供一种基于隐私保护的图模型训练装置,如图6所示。
该基于隐私保护的图模型训练装置包括:信息获取模块601、图表构建模块602、第一样本构建模块603、第二样本构建模块604和梯度确定模块605,其中:
信息获取模块601,获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
图表构建模块602,基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数;
第一样本构建模块603,获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
第二样本构建模块604,分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
梯度确定模块605,基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例中,所述全连接网络为全卷积网络FCN,所述图网络由图卷积神经网络GCN、图注意力网络GAT或GraphSAGE构建。
本说明书实施例中,所述第一样本构建模块603,包括:
辅助参数生成单元,针对所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成所述第一节点对应的置换函数和权重;
预选样本生成单元,基于所述第一节点对应的置换函数和权重,以及所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成第一预选样本数据;
第一样本构建单元,生成所述第一节点对应的节点参数,并基于所述第一节点对应的节点参数和所述第一预选样本数据,生成所述第一样本数据。
本说明书实施例中,所述第一节点对应的权重的和为1。
本说明书实施例中,所述梯度确定模块605,包括:
第一损失单元,基于所述第一样本数据对所述图模型进行模型训练,得到所述第一样本数据对应的预设第一分类损失函数的函数值;
第二损失单元,基于所述第二样本数据对所述图模型进行模型训练,得到所述第二样本数据对应的预设第二分类损失函数的函数值;
梯度确定单元,基于所述第一样本数据对应的预设第一分类损失函数的函数值和所述第二样本数据对应的预设第二分类损失函数的函数值,确定所述图模型对应的损失函数的函数值,并基于所述图模型对应的损失函数的函数值,确定训练后的图模型对应的梯度信息,并将所述梯度信息发送给服务器。
本说明书实施例中,所述第一分类损失函数和所述第二分类损失函数相同,所述第一分类损失函数为交叉熵损失函数。
本说明书实施例中,所述第二样本构建模块604,分别将所述第一图表中不存在训练标签信息的第二节点的节点数据和所述第二图表中的节点的节点数据输入到预设的目标图神经网络GNN模型中,得到分别与所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点相应的训练标签信息,其中,所述目标GNN模型是基于预设的图表样本进行监督训练得到。
本说明书实施例中,所述图模型为基于图神经网络GNN构建。
本说明书实施例提供一种基于隐私保护的图模型训练装置,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
此外,本说明书实施例设计了联邦学习协议下的图学习框架,并且具有隐私保护特性,本说明书实施例不仅提供了合理的隐私保护水平的同时避免了由于过量噪音等因素造成的模型精度损失,具有较好的适用性。
实施例六
基于同样的思路,本说明书实施例还提供一种基于隐私保护的图模型训练装置,如图7所示。
该基于隐私保护的图模型训练装置包括:梯度接收模块701、模型参数更新模块702和发送模块703,其中:
梯度接收模块701,接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
模型参数更新模块702,基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
发送模块703,将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述模型参数更新模块702,基于多个不同的终端设备发送的图模型对应的梯度信息,通过预设的梯度更新策略对所述图模型中的模型参数进行更新,得到更新后的图模型,所述预设的梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
本说明书实施例提供一种基于隐私保护的图模型训练装置,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
实施例七
基于同样的思路,本说明书实施例还提供一种基于隐私保护的图模型训练装置,所述装置为区块链系统中的装置,如图8所示。
该基于隐私保护的图模型训练装置包括:模型参数下发模块801、梯度获取模块802、模型参数更新模块803和信息提供模块804,其中:
模型参数下发模块801,基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理;
梯度获取模块802,基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
模型参数更新模块803,基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
信息提供模块804,将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述模型参数更新模块803,包括:
第一信息获取单元,基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息,并基于所述索引信息获取所述图模型;
第一模型参数更新单元,基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
所述装置还包括:
存储触发模块,基于所述索引信息和所述智能合约,将更新后的图模型存储于所述索引信息对应的存储区域。
本说明书实施例中,所述模型参数更新模块803,包括:
第二信息获取单元,基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息;
第二模型参数更新单元,基于所述智能合约触发所述索引信息对应存储组件基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
所述信息提供模块,基于所述智能合约触发所述索引信息对应存储组件将更新后的图模型提供给所述终端设备。
本说明书实施例提供一种基于隐私保护的图模型训练装置,基于预先部署于区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,基于智能合约,分别从多个不同的终端设备获取所述图模型对应的梯度信息,该图模型对应的梯度信息是终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为第一图表中不存在训练标签信息的第二节点和第二图表中的节点生成相应的训练标签信息,基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于第一样本数据和第二样本数据对图模型进行模型训练后而得到的梯度信息,基于多个不同的终端设备发送的图模型对应的梯度信息和智能合约,对图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
实施例八
以上为本说明书实施例提供的基于隐私保护的图模型训练装置,基于同样的思路,本说明书实施例还提供一种基于隐私保护的图模型训练设备,如图9所示。
所述基于隐私保护的图模型训练设备可以为上述实施例提供的服务器、终端设备或区块链系统的设备等。
基于隐私保护的图模型训练设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对基于隐私保护的图模型训练设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在基于隐私保护的图模型训练设备上执行存储器902中的一系列计算机可执行指令。基于隐私保护的图模型训练设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906。
具体在本实施例中,基于隐私保护的图模型训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的图模型训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数;
获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例中,所述全连接网络为全卷积网络FCN,所述图网络由图卷积神经网络GCN、图注意力网络GAT或GraphSAGE构建。
本说明书实施例中,所述基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,包括:
针对所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成所述第一节点对应的置换函数和权重;
基于所述第一节点对应的置换函数和权重,以及所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成第一预选样本数据;
生成所述第一节点对应的节点参数,并基于所述第一节点对应的节点参数和所述第一预选样本数据,生成所述第一样本数据。
本说明书实施例中,所述第一节点对应的权重的和为1。
本说明书实施例中,所述基于所述第一样本数据和所述第二样本数据对图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给服务器,包括:
基于所述第一样本数据对所述图模型进行模型训练,得到所述第一样本数据对应的预设第一分类损失函数的函数值;
基于所述第二样本数据对所述图模型进行模型训练,得到所述第二样本数据对应的预设第二分类损失函数的函数值;
基于所述第一样本数据对应的预设第一分类损失函数的函数值和所述第二样本数据对应的预设第二分类损失函数的函数值,确定所述图模型对应的损失函数的函数值,并基于所述图模型对应的损失函数的函数值,确定训练后的图模型对应的梯度信息,并将所述梯度信息发送给服务器。
本说明书实施例中,所述第一分类损失函数和所述第二分类损失函数相同,所述第一分类损失函数为交叉熵损失函数。
本说明书实施例中,所述分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,包括:
分别将所述第一图表中不存在训练标签信息的第二节点的节点数据和所述第二图表中的节点的节点数据输入到预设的目标图神经网络GNN模型中,得到分别与所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点相应的训练标签信息,其中,所述目标GNN模型是基于预设的图表样本进行监督训练得到。
本说明书实施例中,所述图模型为基于图神经网络GNN构建。
另外,具体在本实施例中,基于隐私保护的图模型训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的图模型训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于多个不同的终端设备发送的图模型对应的梯度信息,通过预设的梯度更新策略对所述图模型中的模型参数进行更新,得到更新后的图模型,所述预设的梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
另外,具体在本实施例中,基于隐私保护的图模型训练设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对基于隐私保护的图模型训练设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理;
基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息,并基于所述索引信息获取所述图模型;
基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
还包括:
基于所述索引信息和所述智能合约,将更新后的图模型存储于所述索引信息对应的存储区域。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息;
基于所述智能合约触发所述索引信息对应存储组件基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
所述将更新后的图模型提供给所述终端设备,包括:
基于所述智能合约触发所述索引信息对应存储组件将更新后的图模型提供给所述终端设备。
本说明书实施例提供一种基于隐私保护的图模型训练设备,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
此外,本说明书实施例设计了联邦学习协议下的图学习框架,并且具有隐私保护特性,本说明书实施例不仅提供了合理的隐私保护水平的同时避免了由于过量噪音等因素造成的模型精度损失,具有较好的适用性。
实施例九
进一步地,基于上述图1A和图5B所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
基于所述第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,其中,所述全连接网络和所述图网络具有相同的网络参数;
获取所述第一图表中存在训练标签信息的第一节点的隐向量,基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,获取所述第二节点和所述第二图表中的节点的隐向量,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
本说明书实施例中,所述全连接网络为全卷积网络FCN,所述图网络由图卷积神经网络GCN、图注意力网络GAT或GraphSAGE构建。
本说明书实施例中,所述基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,包括:
针对所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成所述第一节点对应的置换函数和权重;
基于所述第一节点对应的置换函数和权重,以及所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成第一预选样本数据;
生成所述第一节点对应的节点参数,并基于所述第一节点对应的节点参数和所述第一预选样本数据,生成所述第一样本数据。
本说明书实施例中,所述第一节点对应的权重的和为1。
本说明书实施例中,所述基于所述第一样本数据和所述第二样本数据对图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给服务器,包括:
基于所述第一样本数据对所述图模型进行模型训练,得到所述第一样本数据对应的预设第一分类损失函数的函数值;
基于所述第二样本数据对所述图模型进行模型训练,得到所述第二样本数据对应的预设第二分类损失函数的函数值;
基于所述第一样本数据对应的预设第一分类损失函数的函数值和所述第二样本数据对应的预设第二分类损失函数的函数值,确定所述图模型对应的损失函数的函数值,并基于所述图模型对应的损失函数的函数值,确定训练后的图模型对应的梯度信息,并将所述梯度信息发送给服务器。
本说明书实施例中,所述第一分类损失函数和所述第二分类损失函数相同,所述第一分类损失函数为交叉熵损失函数。
本说明书实施例中,所述分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,包括:
分别将所述第一图表中不存在训练标签信息的第二节点的节点数据和所述第二图表中的节点的节点数据输入到预设的目标图神经网络GNN模型中,得到分别与所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点相应的训练标签信息,其中,所述目标GNN模型是基于预设的图表样本进行监督训练得到。
本说明书实施例中,所述图模型为基于图神经网络GNN构建。
在另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于多个不同的终端设备发送的图模型对应的梯度信息,通过预设的梯度更新策略对所述图模型中的模型参数进行更新,得到更新后的图模型,所述预设的梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
在另一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
基于预先部署于所述区块链系统中的智能合约向联邦学习框架中的多个不同的终端设备发送图模型的模型参数,所述智能合约用于触发联邦学习处理;
基于所述智能合约,分别从所述多个不同的终端设备获取所述图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息,通过预设的全连接网络构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息,通过预设的图网络构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型提供给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息,并基于所述索引信息获取所述图模型;
基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型;
还包括:
基于所述索引信息和所述智能合约,将更新后的图模型存储于所述索引信息对应的存储区域。
本说明书实施例中,所述基于多个不同的终端设备发送的图模型对应的梯度信息和所述智能合约,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于所述智能合约,从所述区块链系统中获取所述图模型的索引信息;
基于所述智能合约触发所述索引信息对应存储组件基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
所述将更新后的图模型提供给所述终端设备,包括:
基于所述智能合约触发所述索引信息对应存储组件将更新后的图模型提供给所述终端设备。
本说明书实施例提供一种存储介质,基于第一图表的节点信息,通过预设的全连接网络构建第一图表,并基于第二图表的节点信息和节点连接信息,通过预设的图网络构建第二图表,其中,全连接网络和图网络具有相同的网络参数,然后,基于第一图表中存在训练标签信息的第一节点的隐向量和第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,分别为第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,并基于第二节点和第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,最终可以基于第一样本数据和第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将该梯度信息发送给服务器,服务器基于不同的终端设备提供的梯度信息对服务器中的图模型中的模型参数进行更新,得到更新后的图模型,这样,基于InstaHide隐私保护规则可以提供合理的隐私保护水平并且具有较高的模型精度,使得从梯度信息破译用户的隐私数据难度急剧增加。
此外,本说明书实施例设计了联邦学习协议下的图学习框架,并且具有隐私保护特性,本说明书实施例不仅提供了合理的隐私保护水平的同时避免了由于过量噪音等因素造成的模型精度损失,具有较好的适用性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (13)

1.一种基于隐私保护的图模型训练方法,应用于终端设备,所述方法包括:
获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
基于所述第一图表的节点信息构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息构建所述第二图表;
基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
2.根据权利要求1所述的方法,所述基于所述第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,包括:
针对所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成所述第一节点对应的置换函数和权重;
基于所述第一节点对应的置换函数和权重,以及所述第一节点的隐向量和所述第一节点对应的训练标签信息,生成第一预选样本数据;
生成所述第一节点对应的节点参数,并基于所述第一节点对应的节点参数和所述第一预选样本数据,生成所述第一样本数据。
3.根据权利要求1所述的方法,所述基于所述第一样本数据和所述第二样本数据对图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给服务器,包括:
基于所述第一样本数据对所述图模型进行模型训练,得到所述第一样本数据对应的预设第一分类损失函数的函数值;
基于所述第二样本数据对所述图模型进行模型训练,得到所述第二样本数据对应的预设第二分类损失函数的函数值;
基于所述第一样本数据对应的预设第一分类损失函数的函数值和所述第二样本数据对应的预设第二分类损失函数的函数值,确定所述图模型对应的损失函数的函数值,并基于所述图模型对应的损失函数的函数值,确定训练后的图模型对应的梯度信息,并将所述梯度信息发送给服务器。
4.根据权利要求3所述的方法,所述第一分类损失函数和所述第二分类损失函数相同,所述第一分类损失函数为交叉熵损失函数。
5.根据权利要求1所述的方法,所述分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,包括:
分别将所述第一图表中不存在训练标签信息的第二节点的节点数据和所述第二图表中的节点的节点数据输入到预设的目标图神经网络GNN模型中,得到分别与所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点相应的训练标签信息,其中,所述目标GNN模型是基于预设的图表样本进行监督训练得到。
6.一种基于隐私保护的图模型训练方法,应用于服务器,所述方法包括:
接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
7.根据权利要求6所述的方法,所述基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型,包括:
基于多个不同的终端设备发送的图模型对应的梯度信息,通过预设的梯度更新策略对所述图模型中的模型参数进行更新,得到更新后的图模型,所述预设的梯度更新策略包括FedAvg梯度更新策略和FedSgd梯度更新策略中的一种或多种。
8.一种基于隐私保护的图模型训练装置,所述装置包括:
信息获取模块,获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
图表构建模块,基于所述第一图表的节点信息构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息构建所述第二图表;
第一样本构建模块,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
第二样本构建模块,分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
梯度确定模块,基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
9.一种基于隐私保护的图模型训练装置,所述装置包括:
梯度接收模块,接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
模型参数更新模块,基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
发送模块,将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
10.一种基于隐私保护的图模型训练设备,所述基于隐私保护的图模型训练设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
基于所述第一图表的节点信息构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息构建所述第二图表;
基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
11.一种基于隐私保护的图模型训练设备,所述基于隐私保护的图模型训练设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
12.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
获取待构建的第一图表的节点信息,以及第二图表的节点信息和节点连接信息;
基于所述第一图表的节点信息构建所述第一图表,并基于所述第二图表的节点信息和节点连接信息构建所述第二图表;
基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据;
分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据;
基于所述第一样本数据和所述第二样本数据对服务器下发的图模型进行模型训练,并获取训练后的图模型对应的梯度信息,将所述梯度信息发送给所述服务器,以使所述服务器基于不同的终端设备提供的梯度信息对所述服务器中的图模型中的模型参数进行更新,得到更新后的图模型。
13.一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:
接收多个不同的终端设备发送的图模型对应的梯度信息,所述图模型对应的梯度信息是所述终端设备基于获取的待构建的第一图表的节点信息构建所述第一图表,并基于获取的第二图表的节点信息和节点连接信息构建所述第二图表,基于所述第一图表中存在训练标签信息的第一节点的隐向量和所述第一节点对应的训练标签信息,通过预设的InstaHide隐私保护规则构建第一样本数据,并分别为所述第一图表中不存在训练标签信息的第二节点和所述第二图表中的节点生成相应的训练标签信息,基于所述第二节点和所述第二图表中的节点的隐向量和生成的训练标签信息,通过预设的InstaHide隐私保护规则构建第二样本数据,基于所述第一样本数据和所述第二样本数据对图模型进行模型训练后而得到的梯度信息;
基于多个不同的终端设备发送的图模型对应的梯度信息,对所述图模型中的模型参数进行更新,得到更新后的图模型;
将更新后的图模型发送给所述终端设备,以使所述终端设备基于更新后的图模型执行相应的业务处理。
CN202210560176.7A 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备 Pending CN114818973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210560176.7A CN114818973A (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110801373.9A CN113361658B (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备
CN202210560176.7A CN114818973A (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110801373.9A Division CN113361658B (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114818973A true CN114818973A (zh) 2022-07-29

Family

ID=77539675

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202210560176.7A Pending CN114818973A (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备
CN202110801373.9A Active CN113361658B (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202110801373.9A Active CN113361658B (zh) 2021-07-15 2021-07-15 一种基于隐私保护的图模型训练方法、装置及设备

Country Status (3)

Country Link
US (1) US20240095538A1 (zh)
CN (2) CN114818973A (zh)
WO (1) WO2023284511A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114818973A (zh) * 2021-07-15 2022-07-29 支付宝(杭州)信息技术有限公司 一种基于隐私保护的图模型训练方法、装置及设备
CN113837638B (zh) * 2021-09-29 2024-04-26 支付宝(杭州)信息技术有限公司 话术确定方法、装置及设备
CN114267191B (zh) * 2021-12-10 2023-04-07 北京理工大学 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用
CN114513337B (zh) * 2022-01-20 2023-04-07 电子科技大学 一种基于邮件数据的隐私保护链接预测方法及系统
CN114638998A (zh) * 2022-03-07 2022-06-17 支付宝(杭州)信息技术有限公司 模型更新方法、装置、系统及设备
CN114662706A (zh) * 2022-03-24 2022-06-24 支付宝(杭州)信息技术有限公司 一种模型训练方法、装置及设备
CN114936323B (zh) * 2022-06-07 2023-06-30 北京百度网讯科技有限公司 图表示模型的训练方法、装置及电子设备
CN116186782B (zh) * 2023-04-17 2023-07-14 北京数牍科技有限公司 联邦图计算方法、装置及电子设备
CN116614504B (zh) * 2023-07-20 2023-09-15 中国人民解放军国防科技大学 基于斯塔克尔伯格博弈的隐私-效率联合优化方法
CN117592556B (zh) * 2024-01-18 2024-03-26 南京邮电大学 一种基于gnn的半联邦学习系统及其运行方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114122A1 (zh) * 2018-12-07 2020-06-11 阿里巴巴集团控股有限公司 用于分析关系网络图的神经网络系统和方法
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111369258A (zh) * 2020-03-10 2020-07-03 支付宝(杭州)信息技术有限公司 实体对象类型的预测方法、装置及设备
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
CN112015749A (zh) * 2020-10-27 2020-12-01 支付宝(杭州)信息技术有限公司 基于隐私保护更新业务模型的方法、装置及系统
CN112200266A (zh) * 2020-10-28 2021-01-08 腾讯科技(深圳)有限公司 基于图结构数据的网络训练方法、装置以及节点分类方法
CN112464292A (zh) * 2021-01-27 2021-03-09 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置
CN112734034A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 模型训练方法、调用方法、装置、计算机设备和存储介质
CN112800468A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备
WO2021114931A1 (zh) * 2019-12-09 2021-06-17 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160226800A1 (en) * 2016-04-12 2016-08-04 Tammy Alo Safety Intact
US10074038B2 (en) * 2016-11-23 2018-09-11 General Electric Company Deep learning medical systems and methods for image reconstruction and quality evaluation
CN109214404A (zh) * 2017-07-07 2019-01-15 阿里巴巴集团控股有限公司 基于隐私保护的训练样本生成方法和装置
CN109033846A (zh) * 2018-06-08 2018-12-18 浙江捷尚人工智能研究发展有限公司 用户隐私保护方法及系统
CN111178524A (zh) * 2019-12-24 2020-05-19 中国平安人寿保险股份有限公司 基于联邦学习的数据处理方法、装置、设备及介质
CN111325352B (zh) * 2020-02-20 2021-02-19 深圳前海微众银行股份有限公司 基于纵向联邦学习的模型更新方法、装置、设备及介质
CN111582505A (zh) * 2020-05-14 2020-08-25 深圳前海微众银行股份有限公司 联邦建模方法、装置、设备及计算机可读存储介质
CN111552986B (zh) * 2020-07-10 2020-11-13 鹏城实验室 基于区块链的联邦建模方法、装置、设备及存储介质
CN112364919A (zh) * 2020-11-11 2021-02-12 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112541575B (zh) * 2020-12-06 2023-03-10 支付宝(杭州)信息技术有限公司 图神经网络的训练方法及装置
CN113011282A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 图数据处理方法、装置、电子设备及计算机存储介质
CN114818973A (zh) * 2021-07-15 2022-07-29 支付宝(杭州)信息技术有限公司 一种基于隐私保护的图模型训练方法、装置及设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020114122A1 (zh) * 2018-12-07 2020-06-11 阿里巴巴集团控股有限公司 用于分析关系网络图的神经网络系统和方法
WO2021114931A1 (zh) * 2019-12-09 2021-06-17 支付宝(杭州)信息技术有限公司 防止隐私数据泄漏的编码模型训练方法及装置
CN111369258A (zh) * 2020-03-10 2020-07-03 支付宝(杭州)信息技术有限公司 实体对象类型的预测方法、装置及设备
CN111291190A (zh) * 2020-03-23 2020-06-16 腾讯科技(深圳)有限公司 一种编码器的训练方法、信息检测的方法以及相关装置
CN111814977A (zh) * 2020-08-28 2020-10-23 支付宝(杭州)信息技术有限公司 训练事件预测模型的方法及装置
CN112015749A (zh) * 2020-10-27 2020-12-01 支付宝(杭州)信息技术有限公司 基于隐私保护更新业务模型的方法、装置及系统
CN112200266A (zh) * 2020-10-28 2021-01-08 腾讯科技(深圳)有限公司 基于图结构数据的网络训练方法、装置以及节点分类方法
CN112734034A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 模型训练方法、调用方法、装置、计算机设备和存储介质
CN112464292A (zh) * 2021-01-27 2021-03-09 支付宝(杭州)信息技术有限公司 基于隐私保护训练图神经网络的方法及装置
CN112800468A (zh) * 2021-02-18 2021-05-14 支付宝(杭州)信息技术有限公司 一种基于隐私保护的数据处理方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUANG Y 等: "InstaHide: Instance-hiding Schemes for Private Distributed Learning", ARXIV, 6 October 2020 (2020-10-06), pages 1 - 17 *

Also Published As

Publication number Publication date
CN113361658B (zh) 2022-06-14
WO2023284511A1 (zh) 2023-01-19
CN113361658A (zh) 2021-09-07
US20240095538A1 (en) 2024-03-21

Similar Documents

Publication Publication Date Title
CN113361658B (zh) 一种基于隐私保护的图模型训练方法、装置及设备
Ando et al. Deep over-sampling framework for classifying imbalanced data
CN111738628B (zh) 一种风险群组识别方法及装置
CN111080304B (zh) 一种可信关系识别方法、装置及设备
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN113312667A (zh) 一种风险防控方法、装置及设备
CN111291125B (zh) 一种数据处理方法及相关设备
CN109214193B (zh) 数据加密、机器学习模型训练方法、装置以及电子设备
CN110674188A (zh) 一种特征提取方法、装置及设备
CN111400504A (zh) 企业关键人的识别方法和装置
CN114417411A (zh) 一种端云开发系统、模型的处理方法、装置及设备
CN112231416A (zh) 知识图谱本体更新方法、装置、计算机设备及存储介质
Bu et al. A hybrid system of deep learning and learning classifier system for database intrusion detection
CN114429222A (zh) 一种模型的训练方法、装置及设备
CN113408668A (zh) 基于联邦学习系统的决策树构建方法、装置及电子设备
CN114819614A (zh) 数据处理方法、装置、系统及设备
CN113221717A (zh) 一种基于隐私保护的模型构建方法、装置及设备
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
CN116308738B (zh) 一种模型训练的方法、业务风控的方法及装置
Walambe et al. Integration of explainable AI and blockchain for secure storage of human readable justifications for credit risk assessment
Llamazares A study of SUOWA operators in two dimensions
CN116431651A (zh) 图数据处理方法、装置和计算机设备
CN113569873B (zh) 一种图像的处理方法、装置及设备
CN115545943A (zh) 一种图谱的处理方法、装置及设备
Jia et al. The fusion model of multidomain context information for the internet of things

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination