CN113268727A - 联合训练模型方法、装置及计算机可读存储介质 - Google Patents

联合训练模型方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113268727A
CN113268727A CN202110814306.0A CN202110814306A CN113268727A CN 113268727 A CN113268727 A CN 113268727A CN 202110814306 A CN202110814306 A CN 202110814306A CN 113268727 A CN113268727 A CN 113268727A
Authority
CN
China
Prior art keywords
training data
current
training
gradient
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110814306.0A
Other languages
English (en)
Inventor
左磊
王绍鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianju Dihe Suzhou Data Co ltd
Original Assignee
Tianju Dihe Suzhou Data Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianju Dihe Suzhou Data Co ltd filed Critical Tianju Dihe Suzhou Data Co ltd
Priority to CN202110814306.0A priority Critical patent/CN113268727A/zh
Publication of CN113268727A publication Critical patent/CN113268727A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了联合训练模型方法、装置及计算机可读存储介质,涉及人工智能技术领域,该联合训练模型方法包括:获取多组训练数据的当前梯度;利用每组训练数据的当前梯度计算当前整合梯度;利用当前整合梯度采用梯度下降法更新当前参数,并返回执行利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;利用最终的当前参数,得到联合逻辑回归模型。基于本申请技术方案,有利于提高联合训练模型方法的安全性。

Description

联合训练模型方法、装置及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及联合训练模型方法、装置及计算机可读存储介质。
背景技术
现有技术中,基于不同数据持有方(如:不同企业或不同部门)所持有的大量数据联合进行模型训练以得到一个适用性广泛的模型已经是本领域较为常见的技术手段。
现有技术的缺陷在于,在基于不同数据持有方的数据作为训练数据,以对模型进行联合训练时,容易出现不同数据持有方之间出现数据的相互泄露,进而造成个人隐私信息的暴露,使得现有的联合训练模型方法的安全性较差。
发明内容
本申请主要解决的技术问题是如何提高联合训练的速度。
为解决上述技术问题,本申请采用的第一个技术方案是:一种联合训练模型方法,包括:获取多组训练数据的当前梯度,每组训练数据的当前梯度是基于以当前参数作为模型参数的逻辑回归模型及每组训练数据计算得到的,多组训练数据分别存储于不同安全沙箱中,各安全沙箱内的数据相互隔离;利用每组训练数据的当前梯度计算当前整合梯度;利用当前整合梯度采用梯度下降法更新当前参数,并返回执行利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;利用最终的当前参数,得到联合逻辑回归模型。
为解决上述技术问题,本申请采用的第二个技术方案是:一种联合训练模型装置,包括:训练模块,用于获取多组训练数据的当前梯度,每组训练数据的当前梯度是基于以当前参数作为模型参数的逻辑回归模型及每组训练数据计算得到的,多组训练数据分别存储于不同安全沙箱中,各安全沙箱内的数据相互隔离;协调计算模块,用于利用每组训练数据的当前梯度计算当前整合梯度;利用当前整合梯度采用梯度下降法更新当前参数,并返回执行利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;模型生成模块,用于利用最终的当前参数,得到联合逻辑回归模型。
为解决上述技术问题,本申请采用的第三个技术方案是:一种联合训练模型装置,包括:存储器和处理器;存储器用于存储程序指令,处理器用于执行程序指令以实现上述联合训练模型方法。
为解决上述技术问题,本申请采用的第四个技术方案是:一种计算机可读存储介质,计算机可读存储介质存储有程序指令,程序指令被处理器执行时实现上述联合训练模型方法。
本申请的有益效果是:区别于现有技术,基于本申请的技术方案,可基于各数据持有方所持有的存放于不同安全沙箱的训练数据分别基于一模型进行训练,之后将各模型训练后得到的相关参数进行聚合处理,以得到最终的联合逻辑回归模型,从而使得各数据持有方的训练数据不必存储至同一处以进行模型的联合训练,阻断了各数据持有方之间相互泄露训练数据的可能途径,提高了联合训练模型方法的安全性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请联合训练模型方法的一实施例的流程示意图;
图2是本申请联合训练模型装置的一实施例的结构示意图;
图3是本申请联合训练模型装置的另一实施例的结构示意图;
图4是本申请计算机可读存储介质的一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,均属于本申请保护的范围。
本申请中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本申请提出一种联合训练模型方法,如图1所示,图1是本申请的联合训练模型方法的一实施例的流程示意图。本实施例联合训练模型方法具体包括以下步骤:
步骤S11:获取多组训练数据的当前梯度。
其中,每组所述训练数据的当前梯度是基于以当前参数作为模型参数的逻辑回归模型及每组所述训练数据计算得到的,所述多组训练数据分别存储于不同安全沙箱中,各所述安全沙箱内的数据相互隔离。
本实施例中,可从不同节点处分别获取训练数据,并将每组训练数据分别存储于不同安全沙箱中,其中,各安全沙箱内的数据相互隔离。该不同节点可以是不同银行所属节点,多组训练数据可以是不同银行的系统数据,该不同节点还可以是其它类型的不同节点,此处不作限定。
当前参数可具备一初始值,在第一次执行步骤S11时,可基于当前参数的初始值分别构建与各组训练数据相对应的逻辑回归模型。
在基于当前参数构建好各组训练数据所对应的逻辑回归模型后,可将各组训练数据分别输入不同的以当前参数作为模型参数的逻辑回归模型,经逻辑回归模型的处理输出各组训练数据所分别对应的当前梯度。
上述基于各组训练数据对不同逻辑回归模型进行训练,以输出各组训练数据所分别对应的当前梯度的动作,可分别由上述同一服务器中的不同安全沙箱内的训练模块完成,降低数据泄露的风险,提高联合训练模型方法的安全性。
具体的,逻辑回归模型的输出函数可以是Sigmoid函数(双弯曲函数)。
可在同一服务器中设置多个安全沙箱,需采用特定秘钥才能对特定安全沙箱的数据进行读取或增减或修改,若无特定秘钥则只可获取特定安全沙箱中的非训练数据,其中,非训练数据可以是基于训练数据训练模型所得到的模型参数,也可以是其它不会泄露训练数据中的信息的数据。基于上述安全沙箱的设置,可将来自不同节点的数据进行相互之间的隔离,避免一个节点能够获取另一个节点存入安全沙箱中的数据,进而造成数据泄露的情况发生,提高了联合训练模型方法的安全性。此外,相较于传统的联合训练模型方法中将训练数据分放在不同服务器的方式,在同一服务器中的多个安全沙箱中存放不同节点的训练数据,可避免因https协议传输加密梯度带来的网络延迟损耗,提高了联合训练模型方法的训练速度。
可选的,在步骤S11之前,联合训练模型方法还包括:
对多组训练数据进行脱敏处理。
具体的,可在采用多组训练数据计算相应的当前梯度之前,对各组训练数据进行脱敏处理,以消除训练数据中包含的隐私信息或敏感信息。脱敏处理所采用的脱敏技术可以包括随机替换技术、字典替换技术、数据重排技术和数据掩码技术中的至少一种。经脱敏处理后的训练数据可在系统层面与原数据保持一致的前提下,最大程度地保留原数据的有意义信息。
可选的,训练数据包括一个以上训练样本;
在步骤S11之前,联合训练模型方法还包括:
对每组训练数据分别进行样本筛选处理;
其中,样本筛选处理包括:
计算一个以上训练样本中每两个训练样本所对应的余弦相似度,并将余弦相似度大于预设相似度的两个训练样本中的一个训练样本删除。
具体的,可依次对训练数据中的每个训练样本分别和其它训练样本之间的余弦相似度进行计算,该余弦相似度可以量化表示两个训练样本之间的相似程度。之后可将余弦相似度大于预设相似度的两个训练样本随机删除一个,以确保训练数据中不存在过于相似的两个训练样本,降低后续训练模型时的计算量,提高联合训练模型方法的训练速度。预设相似度可以是0.95或0.99或其它值,此处不作限定。
可选的,在步骤S11之前,联合训练模型方法还包括:
利用主成分分析算法或特征排序算法,降低多组训练数据的特征维度,进而降低训练数据中的噪声,提高后续基于训练数据进行训练的效率。
具体的,可采用主成分分析算法,对训练数据进行特征挑选,并仅保留方差为预设方差的主成分作为表征样本的新的特征维度,以降低训练数据的特征维度。预设方差可以是最大方差的90%或95%或其它百分比,此处不作限定。
还可采用特征排序算法,对训练数据进行特征排序,并仅保留得分高于预设分数的特征或占原始特征预设百分比的特征,以降低训练数据的特征维度。
可选的,步骤S11具体可包括:
若超过第二预设时长未更新当前参数,则利用以历史参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度。
其中,历史参数为一在第二预设时长前得到的当前参数。
具体的,第二预设时长可以是10ms至100ms,也可以是其它时长,此处不作限定。若在第二预设时长内更新了当前参数,则可直接利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度。
若超过第二预设时长内仍未更新或上述各训练模块仍未接收到更新后的当前参数,则意味着当前参数的更新因某种问题(如:处理器宕机、程序错误)而出现了延迟,因此,此时可利用以历史参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度,促使相关处理模块重新基于每组训练数据的当前梯度对当前参数进行更新,避免因处理器宕机或程序错误等因素而导致训练的过分延迟,提高了联合训练模型方法的训练速度。
历史参数可以是在第二预设时长前得到的最新的当前参数,也可以是在第二预设时长前得到的其它任一次当前参数,此处不作限定。
步骤S12:利用每组训练数据的当前梯度计算当前整合梯度。
本实施例中,基于每组训练数据的当前梯度,经过相应的聚合处理,计算得到当前整合梯度,以备后续更新当前参数时使用。
上述利用每组所述训练数据的当前梯度计算当前整合梯度的动作,可由上述同一服务器中的置于安全沙箱之外的协调计算模块完成,降低数据泄露的风险,提高联合训练模型方法的安全性。
可选的,步骤S12具体可包括:
利用每组第一训练数据所对应的当前梯度,和每组第二训练数据所对应的历史梯度,计算当前整合梯度。
其中,第二训练数据为超过第一预设时长未更新相应当前梯度的训练数据,第一训练数据为多组训练数据中除第二训练数据外的训练数据,历史梯度为一在第一预设时长前得到的当前梯度。
具体的,第一预设时长可以是10ms至100ms,也可以是其它时长,此处不作限定。若存在一训练参数所对应的当前梯度超过第一预设时长未更新,则意味着基于该训练参数更新相应当前梯度的处理模块可能因某种问题(如:处理器宕机、程序错误)而出现了延迟,因此,可基于此类训练数据的历史梯度和在第一预设时长内更新过的当前梯度,计算新的整合梯度,以完成更新,避免因处理器宕机或程序错误等因素而导致训练的过分延迟,提高了联合训练模型方法的训练速度。
历史梯度可以是在第一预设时长前得到的最新的当前梯度,也可以是在第一预设时长前得到的其它任一次当前梯度,此处不作限定。
可选的,步骤S12具体可包括:
利用各第一训练数据所对应的当前梯度,和各第二训练数据所对应的历史梯度,以及各训练数据所对应的权重,计算各训练数据的梯度的加权平均值,作为当前整合梯度。其中,各训练数据所对应的权重可以与各训练数据的数据量成正相关的关系,以提高联合训练模型的准确性。
步骤S13:利用当前整合梯度采用梯度下降法更新当前参数。
步骤S14:判断是否满足预设停止迭代条件。若不满足预设停止迭代条件,则返回执行步骤S11及后续步骤。若满足预设停止迭代条件,则执行步骤S15。
步骤S15:利用最终的当前参数,得到联合逻辑回归模型。
本实施例中,预设停止迭代条件可以是联合训练模型的时间达到预设时间阈值,也可以是返回执行步骤S11的次数达到预设次数阈值,还可以是其它条件,此处不作限定。
采用梯度下降法对当前整合梯度进行处理,即可得到用于构建新的逻辑回归模型的当前参数。
可选的,在步骤S15之后,联合训练模型方法还可包括:
将联合逻辑回归模型的相关信息上传至区块链,以供查阅。
具体的,联合逻辑回归模型的相关信息可包括模型训练时长、模型哈希值、训练数据的来源及数量和其它相关信息中的至少一种,此处不作限定。联合逻辑回归模型的相关信息可用于供联合逻辑回归模型的使用者校验其模型的版本或真伪时使用,避免使用版本过低或假冒的联合逻辑回归模型而造成损失。
在一应用场景中,联合训练模型方法的具体流程可如下:
第一步,从不同节点处分别获取一组训练数据,并将各组训练数据分别存储于一服务器中的不同安全沙箱中。
第二步,启动各安全沙箱中的训练模块,以使各训练模块基于以当前参数为模型参数的逻辑回归模型并,和相应安全沙箱中的训练数据,计算相应安全沙箱中的训练数据所对应的当前梯度gi(i=1,2……N,N为训练数据的总组数),之后将计算出的各当前梯度gi以加密方式写入各安全沙箱外的第一指定文件中。
第三步,启动各安全沙箱外的协调计算模块,以使协调计算模块从第一指定文件中获取数据并进行解密,以得到各组训练数据所对应的当前梯度gi,计算全部当前梯度gi的加权平均值,以作为当前整合梯度gx
第四步,使协调计算模块基于梯度下降法对当前整合梯度gx进行计算得到更新后的当前参数,之后将更新后的当前参数以加密方式写入第二指定文件中,各训练模块可从第二指定文件中获取数据并进行解密以得到当前参数,其中,计算所涉及的公式如下:
ωii-1–α×gx
式中,ωi为更新后的当前参数,ωi-1为更新前的当前参数,α为步长(0<α≤1),gx为当前整合梯度。
第五步,判断当前是否满足预设停止迭代条件。若不满足则返回执行第二步及后续步骤,若满足则继续执行第六步。
第六步,基于最终得到的当前参数,构建一逻辑回归模型,作为联合逻辑回归模型。
第七步,将联合逻辑回归模型及其相关信息上链存储,以供得到相应区块链权限的用户进行读取、查阅。
区别于现有技术,基于本申请的技术方案,可基于各数据持有方所持有的存放于不同安全沙箱的训练数据分别基于一模型进行训练,之后将各模型训练后得到的相关参数进行聚合处理,以得到最终的联合逻辑回归模型,从而使得各数据持有方的训练数据不必存储至同一处以进行模型的联合训练,阻断了各数据持有方之间相互泄露训练数据的可能途径,提高了联合训练模型方法的安全性。
本申请还提出一种联合训练装置,如图2所示,图2是本申请的联合训练装置的一实施例的结构示意图。本实施例联合训练模型装置20具体包括:
获取模块21,用于获取多组训练数据;
训练模块22,用于利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度;
协调计算模块23,用于利用每组训练数据的当前梯度计算当前整合梯度;利用当前整合梯度采用梯度下降法更新当前参数,并返回执行利用以当前参数作为模型参数的逻辑回归模型及每组训练数据分别计算每组训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;
模型生成模块24,用于利用最终的当前参数,得到联合逻辑回归模型。
区别于现有技术,基于本申请的技术方案,可基于各数据持有方所持有的存放于不同安全沙箱的训练数据分别基于一模型进行训练,之后将各模型训练后得到的相关参数进行聚合处理,以得到最终的联合逻辑回归模型,从而使得各数据持有方的训练数据不必存储至同一处以进行模型的联合训练,阻断了各数据持有方之间相互泄露训练数据的可能途径,提高了联合训练模型方法的安全性。
本申请还提出一种联合训练装置,如图3所示,图3是本申请的联合训练装置的另一实施例的结构示意图。本实施例的联合训练装置30包括:处理器31、存储器32以及总线33。
该处理器31、存储器32分别与总线33相连,该存储器32中存储有程序指令,处理器31用于执行程序指令以实现上述实施例中的联合训练模型方法。
在本实施例中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器31也可以是任何常规的处理器等。
区别于现有技术,基于本申请的技术方案,可基于各数据持有方所持有的存放于不同安全沙箱的训练数据分别基于一模型进行训练,之后将各模型训练后得到的相关参数进行聚合处理,以得到最终的联合逻辑回归模型,从而使得各数据持有方的训练数据不必存储至同一处以进行模型的联合训练,阻断了各数据持有方之间相互泄露训练数据的可能途径,提高了联合训练模型方法的安全性。
本申请还提出一种计算机可读存储介质,如图4所示,图4是本申请的计算机可读存储介质的一实施例的结构示意图。本实施例的计算机可读存储介质40其上存储有程序指令41,程序指令41被处理器(图未示)执行时实现上述实施例中的联合训练模型方法。
本实施例计算机可读存储介质40可以是但不局限于U盘、SD卡、PD光驱、移动硬盘、大容量软驱、闪存、多媒体记忆卡、服务器等。
区别于现有技术,基于本申请的技术方案,可基于各数据持有方所持有的存放于不同安全沙箱的训练数据分别基于一模型进行训练,之后将各模型训练后得到的相关参数进行聚合处理,以得到最终的联合逻辑回归模型,从而使得各数据持有方的训练数据不必存储至同一处以进行模型的联合训练,阻断了各数据持有方之间相互泄露训练数据的可能途径,提高了联合训练模型方法的安全性。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种联合训练模型方法,其特征在于,包括:
获取多组训练数据的当前梯度,每组所述训练数据的当前梯度是基于以当前参数作为模型参数的逻辑回归模型及每组所述训练数据计算得到的,所述多组训练数据分别存储于不同安全沙箱中,各所述安全沙箱内的数据相互隔离;
利用每组所述训练数据的当前梯度计算当前整合梯度;
利用所述当前整合梯度采用梯度下降法更新所述当前参数,并返回执行所述利用以当前参数作为模型参数的逻辑回归模型及每组所述训练数据分别计算每组所述训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;
利用最终的所述当前参数,得到联合逻辑回归模型。
2.根据权利要求1所述的联合训练模型方法,其特征在于,所述利用每组所述训练数据的当前梯度计算当前整合梯度的步骤包括:
利用每组第一训练数据所对应的当前梯度,和每组第二训练数据所对应的历史梯度,计算当前整合梯度;
其中,所述第二训练数据为超过第一预设时长未更新相应当前梯度的训练数据,所述第一训练数据为所述多组训练数据中除第二训练数据外的训练数据,所述历史梯度为一在所述第一预设时长前得到的当前梯度。
3.根据权利要求1所述的联合训练模型方法,其特征在于,所述获取多组训练数据的当前梯度的步骤包括:
若超过第二预设时长未更新所述当前参数,则利用以历史参数作为模型参数的逻辑回归模型及每组所述训练数据分别计算每组所述训练数据的当前梯度;
其中,所述历史参数为一在所述第二预设时长前得到的当前参数。
4.根据权利要求1至3任一项所述的联合训练模型方法,其特征在于,在所述获取多组训练数据的当前梯度的步骤之前,所述联合训练模型方法还包括:
对所述多组训练数据进行脱敏处理。
5.根据权利要求1至3任一项所述的联合训练模型方法,其特征在于,所述训练数据包括一个以上训练样本;
在所述获取多组训练数据的当前梯度的步骤之前,所述联合训练模型方法还包括:
对每组所述训练数据分别进行样本筛选处理;
其中,所述样本筛选处理包括:
计算所述一个以上训练样本中每两个所述训练样本所对应的余弦相似度,并将所述余弦相似度大于预设相似度的两个所述训练样本中的一个所述训练样本删除。
6.根据权利要求1至3任一项所述的联合训练模型方法,其特征在于,在所述获取多组训练数据的当前梯度的步骤之前,所述联合训练模型方法还包括:
利用主成分分析算法或特征排序算法,降低所述多组训练数据的特征维度。
7.根据权利要求1至3任一项所述的联合训练模型方法,其特征在于,在所述利用最终的所述当前参数,得到联合逻辑回归模型的步骤之后,所述联合训练模型方法还包括:
将所述联合逻辑回归模型的相关信息上传至区块链,以供查阅。
8.一种联合训练模型装置,其特征在于,包括:
训练模块,用于获取多组训练数据的当前梯度,每组所述训练数据的当前梯度是基于以当前参数作为模型参数的逻辑回归模型及每组所述训练数据计算得到的,所述多组训练数据分别存储于不同安全沙箱中,各所述安全沙箱内的数据相互隔离;
协调计算模块,用于利用每组所述训练数据的当前梯度计算当前整合梯度;利用所述当前整合梯度采用梯度下降法更新所述当前参数,并返回执行所述利用以当前参数作为模型参数的逻辑回归模型及每组所述训练数据分别计算每组所述训练数据的当前梯度的步骤以及后续步骤,直至满足预设停止迭代条件;
模型生成模块,用于利用最终的所述当前参数,得到联合逻辑回归模型。
9.一种联合训练模型装置,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令,所述处理器用于执行所述程序指令以实现如权利要求1至7任一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序指令,所述程序指令被处理器执行时实现如权利要求1至7任一项所述方法。
CN202110814306.0A 2021-07-19 2021-07-19 联合训练模型方法、装置及计算机可读存储介质 Pending CN113268727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110814306.0A CN113268727A (zh) 2021-07-19 2021-07-19 联合训练模型方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110814306.0A CN113268727A (zh) 2021-07-19 2021-07-19 联合训练模型方法、装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN113268727A true CN113268727A (zh) 2021-08-17

Family

ID=77236727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110814306.0A Pending CN113268727A (zh) 2021-07-19 2021-07-19 联合训练模型方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113268727A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308418A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
CN110263908A (zh) * 2019-06-20 2019-09-20 深圳前海微众银行股份有限公司 联邦学习模型训练方法、设备、系统及存储介质
CN110795477A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 数据的训练方法及装置、系统
CN111460528A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 一种基于Adam优化算法的多方联合训练方法及系统
CN111931949A (zh) * 2019-05-13 2020-11-13 国际商业机器公司 联邦学习环境中的通信

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308418A (zh) * 2017-07-28 2019-02-05 阿里巴巴集团控股有限公司 一种基于共享数据的模型训练方法及装置
CN111931949A (zh) * 2019-05-13 2020-11-13 国际商业机器公司 联邦学习环境中的通信
US20200364608A1 (en) * 2019-05-13 2020-11-19 International Business Machines Corporation Communicating in a federated learning environment
CN110263908A (zh) * 2019-06-20 2019-09-20 深圳前海微众银行股份有限公司 联邦学习模型训练方法、设备、系统及存储介质
CN110795477A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 数据的训练方法及装置、系统
CN111460528A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 一种基于Adam优化算法的多方联合训练方法及系统

Similar Documents

Publication Publication Date Title
EP3651043B1 (en) Url attack detection method and apparatus, and electronic device
US11856021B2 (en) Detecting and mitigating poison attacks using data provenance
US20230252327A1 (en) Neural architecture search for convolutional neural networks
TWI706333B (zh) 欺詐交易識別方法、裝置、伺服器及儲存媒體
US11367075B2 (en) Method, apparatus and electronic device for identifying risks pertaining to transactions to be processed
TWI689871B (zh) 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置
CN108053211A (zh) 基于区块链的交易处理方法及装置
CN107528882A (zh) 区块链共识网络中处理共识请求的方法、装置和电子设备
US20150207632A1 (en) Random Number Generation Failure Detection and Entropy Estimation
WO2018133568A1 (zh) 复合模式神经元信息处理方法、系统及计算机设备
JP6870508B2 (ja) 学習プログラム、学習方法及び学習装置
CN112035519B (zh) 用户画像方法、装置、计算机可读存储介质及终端设备
KR20220116535A (ko) 수정된 데이터에 기초한 머신 러닝 모델 그리고 이를 트레이닝 및 사용하기 위한 시스템 및 방법
CN110705996A (zh) 基于特征掩码的用户行为识别方法、系统、及装置
US20200364333A1 (en) Method and system for protecting a machine learning model against extraction
CN107563798A (zh) 中奖数据处理方法及装置
CN112329954B (zh) 物品召回方法、装置、终端设备及存储介质
WO2020061822A1 (en) Method and system for arbitrating authenticity of data in a blockchain
US20180315052A1 (en) System and method for measuring user behavior in electronic transaction based on an immunity system
CN111047146B (zh) 一种企业用户的风险识别方法、装置及设备
CN109948800B (zh) 风险控制方法及其系统
CN113268727A (zh) 联合训练模型方法、装置及计算机可读存储介质
CN111241571B (zh) 一种数据共享方法及模型系统、存储介质
CN112242959B (zh) 微服务限流控制方法、装置、设备及计算机存储介质
CN109800823B (zh) 一种pos终端的聚类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210817

RJ01 Rejection of invention patent application after publication