CN114334036A - 一种模型训练的方法、相关装置、设备以及存储介质 - Google Patents
一种模型训练的方法、相关装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114334036A CN114334036A CN202111417472.3A CN202111417472A CN114334036A CN 114334036 A CN114334036 A CN 114334036A CN 202111417472 A CN202111417472 A CN 202111417472A CN 114334036 A CN114334036 A CN 114334036A
- Authority
- CN
- China
- Prior art keywords
- molecular
- local
- sample
- model
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种基于联邦学习的模型训练方法,涉及人工智能领域。本申请包括:获取K个分子样本特征以及K个分子标注特征;根据贝塔分布确定K个特征混合基数;根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;向中心设备发送第二局部梯度值。本申请还提供了相关装置、设备及存储介质。本申请能够消除噪声的影响,从而提升模型的鲁棒性。此外,在联邦学习框架下多个机构可共同训练一个全局模型,有利于提升模型预测的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练的方法、相关装置、设备以及存储介质。
背景技术
人工智能(Artificial Intelligence,AI),是目前研究和开发用于模拟,延伸以及扩展人类智能的一门新兴科学技术。近年来,人工智能已经被应用于医药领域,人工智能技术的进步也正在影响着药物开发的过程以及产品的生命周期。
目前,在联邦制药场景下,可采用联邦图神经网络(Federated Graph NeuralNetwork,FedGraphNN)构建学习框架。采用FedGraphNN可将各个机构使用的本地模型设置为深度图神经网络,然后利用联合平均(Federated Averaging,FedAVG)算法能够实现端到端的模型训练。
发明人发现现有方案中至少存在如下问题,然而,在实际场景中,各个机构产生的训练数据可能因为外部因素(例如,实验所用溶剂以及实验环境等)的影响,出现数据噪声的问题,导致模型在部分机构的数据上表现不佳。与此同时,每个机构所产生的训练数据非常有限,导致模型预测的效果较差。
发明内容
本申请实施例提供了一种模型训练的方法、相关装置、设备以及存储介质。本申请通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。此外,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
有鉴于此,本申请一方面提供一种模型训练的方法,包括:
获取K个分子样本特征以及K个分子标注特征,其中,分子样本特征与分子标注特征具有对应关系,K为大于1的整数;
根据贝塔分布确定K个特征混合基数,其中,K个特征混合基数之和为1;
根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
向中心设备发送第二局部梯度值。
本申请另一方面提供一种模型训练的方法,包括:
向M个本地设备发送全局模型的模型参数,以使每个本地设备将全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,M为大于或等于1的整数;
接收M个本地设备中每个本地设备发送的第二局部梯度值;
根据M个本地设备中每个本地设备发送的第二局部梯度值,更新全局模型的模型参数;
其中,目标分子样本特征以及目标分子标注特征为本地设备根据K个特征混合基数,K个分子样本特征以及K个分子标注特征生成的,K个特征混合基数为根据贝塔分布确定的,分子样本特征与分子标注特征具有对应关系,K个特征混合基数之和为1,K为大于1的整数。
本申请另一方面提供一种模型训练装置,包括:
获取模块,用于获取K个分子样本特征以及K个分子标注特征,其中,分子样本特征与分子标注特征具有对应关系,K为大于1的整数;
确定模块,用于根据贝塔分布确定K个特征混合基数,其中,K个特征混合基数之和为1;
生成模块,用于根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
获取模块,还用于根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
发送模块,用于向中心设备发送第二局部梯度值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于获取K个分子样本,其中,每个分子样本对应至少一个标注结果;
针对于每个分子样本,对分子样本进行特征提取,得到分子样本所对应的分子样本特征;
针对于每个分子样本,根据分子样本所对应的至少一个标注结果,生成分子样本所对应的分子标注特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于根据分子样本生成分子图样本,其中,分子图样本包括顶点和边,顶点表示原子,边表示化学键;
基于分子图样本,通过图神经网络获取分子样本特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于向目标本地设备发送数据调用请求;
若目标本地设备对数据调用请求鉴权通过,则从目标本地设备中获取P个分子样本,其中,P为大于或等于1的整数;
从本地数据库中获取Q个分子样本,其中,Q为大于或等于1的整数;
将P个分子样本和Q个分子样本作为K个分子样本。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于获取满足贝塔分布的随机数,并将随机数作为第一特征混合基数;
根据第一特征混合基数确定第二特征混合基数。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,K个分子样本特征包括第一分子样本特征以及第二分子样本特征,K个分子标注特征包括第一分子标注特征以及第二分子标注特征;
生成模块,具体用于采用第一特征混合基数对第一分子样本特征进行加权,得到第一特征向量;
采用第二特征混合基数对第二分子样本特征进行加权,得到第二特征向量;
根据第一特征向量以及第二特征向量,生成混合分子样本的目标分子样本特征;
采用第一特征混合基数对第一分子标注特征进行加权,得到第三特征向量;
采用第二特征混合基数对第二分子标注特征进行加权,得到第四特征向量;
根据第三特征向量以及第四特征向量,生成混合分子样本的目标分子标注特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
确定模块,具体用于获取满足贝塔分布的至少三个随机数;
根据至少三个随机数之和,对每个随机数进行归一化,得到每个随机数所对应的特征混合基数。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,K个分子样本特征包括至少三个分子样本特征,K个分子标注特征包括至少三个分子标注特征;
生成模块,具体用于采用每个随机数所对应的特征混合基数,对至少三个分子样本特征进行加权求和,得到混合分子样本的目标分子样本特征;
采用每个随机数所对应的特征混合基数,对至少三个分子标注特征进行加权求和,得到混合分子样本的目标分子标注特征。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,还用于根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值之前,响应中心设备发送的模型更新指令,从中心设备中获取全局模型的模型参数,并将全局模型的模型参数作为本地模型的模型参数。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分值,其中,分子属性预测分值表示预测针对于目标分子属性的分值;
基于分子属性预测分值以及目标分子标注特征,通过第一损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示针对于目标分子属性的实际分值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分布,其中,分子属性预测分布表示预测属于每个分子属性的概率;
基于分子属性预测分布以及目标分子标注特征,通过第二损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示标注属于每个分子属性的概率。
本申请另一方面提供一种模型训练装置,包括:
发送模块,用于向M个本地设备发送全局模型的模型参数,以使每个本地设备将全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,M为大于或等于1的整数;
接收模块,用于接收M个本地设备中每个本地设备发送的第二局部梯度值;
更新模块,用于根据M个本地设备中每个本地设备发送的第二局部梯度值,更新全局模型的模型参数;
其中,目标分子样本特征以及目标分子标注特征为本地设备根据K个特征混合基数,K个分子样本特征以及K个分子标注特征生成的,K个特征混合基数为根据贝塔分布确定的,分子样本特征与分子标注特征具有对应关系,K个特征混合基数之和为1,K为大于1的整数。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,模型训练装置还包括获取模块以及采样模块;
获取模块,用于向M个本地设备发送全局模型的模型参数之前,获取T个本地设备中每个本地设备所对应的第一权重,其中,T为大于或等于M的整数,T个本地设备的第一权重之和为1;
采样模块,用于基于T个本地设备中每个本地设备所对应的第一权重,通过概率密度函数从T个本地设备中采样得到M个本地设备。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
接收模块,还用于接收M个本地设备中每个本地设备发送的损失值;
更新模块,还用于根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的第二权重。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
更新模块,具体用于根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的待处理权重;
根据M个本地设备中每个本地设备所对应的待处理权重之和,对每个待处理权重进行归一化,得到M个本地设备中每个本地设备所对应的归一化权重;
根据剩余权重总和以及M个本地设备中每个本地设备所对应的归一化权重,确定M个本地设备中每个本地设备所对应的第二权重。
本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
其中,存储器用于存储程序;
处理器用于执行存储器中的程序,处理器用于根据程序代码中的指令执行上述各方面的方法;
总线系统用于连接存储器以及处理器,以使存储器以及处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种基于联邦学习的模型训练方法,首先,获取K个分子样本特征以及K个分子标注特征,此外,还需要根据贝塔分布确定K个特征混合基数。由此,可根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征,于是,根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值。当满足模型训练条件时,得到第二局部梯度值,最后,即可向中心设备发送第二局部梯度值,中心设备采用第二局部梯度值更新全局模型的模型参数。通过上述方式,虽然各个机构的训练数据可能存在噪声,但事实上,仍有部分训练数据是不存在噪声的,因此,本申请引入特征混合技术,通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。与此同时,一方面通过构建新的训练数据,达到数据增强的目的,另一方面,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
附图说明
图1为横向联邦学习的一个数据关系示意图;
图2为本申请实施例中联邦学习系统的一个架构示意图;
图3为本申请实施例中模型训练方法的一个流程示意图;
图4为本申请实施例中基于图神经网络实现分子编码的一个示意图;
图5为本申请实施例中多个本地设备之间共享样本的一个架构示意图;
图6为本申请实施例中基于回归任务的一个训练框架示意图;
图7为本申请实施例中基于分类任务的一个训练框架示意图;
图8为本申请实施例中模型训练方法的另一个流程示意图;
图9为本申请实施例中模型训练装置的一个示意图;
图10为本申请实施例中模型训练装置的另一个示意图;
图11为本申请实施例中服务器的一个结构示意图;
图12为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种模型训练的方法、相关装置、设备以及存储介质。本申请通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。此外,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
近年来,制药行业的数据数字化有了很大的增长。数字化带来的挑战是应用这些数据来解决复杂的问题。这激发了人工智能(Artificial Intelligence,AI))的使用,AI在医药领域的应用正在不断扩大。AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
下面将介绍几类AI在医药邻域中的应用场景。
(1)发现药物靶点:AI可以用来从海量的文献中搜索潜在的靶点信息,对比不同靶点的潜力。
(2)药物筛选和结构优化:需要针对靶点去评估不同候选分子与靶点的相互作用能力,筛选出适合的分子。AI可以综合利用各种现有信息去评估,例如,蛋白质结构,化学信息以及构效关系数据等预测相互作用。
(3)性质预测:AI可用于预测分子的理化性质、生物活性和毒性等。例如,采用机器学习(Machine Learning,ML)使用优化过程中产生的数据集来训练。其中,ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是AI的核心,是使计算机具有智能的根本途径,其应用遍及AI的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
由上述介绍可知,药物发现的目的是寻找具有所需化学性质的候选分子,最近,深度神经网络在一系列任务上取得了突破性的成果,如,分子属性预测和基于结构的药物设计(structure-based drug design,SBDD)。但在现实场景中,深度神经网络的训练往往面临缺少数据和数据噪声的问题。本申请提出一种基于联邦学习的模型训练方法,可用于解决上述两个问题。其中,联邦学习(federated learning,FL),又名联邦机器学习、联合学习或联盟学习。联邦学习定义了机器学习框架,在此框架下通过设计虚拟模型,解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起形成的最优模型,各自区域依据模型为本地目标提供服务。
针对不同数据集,联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习,本申请以采用横向联邦学习为例进行介绍,然而这不应理解为对本申请的限定。为了便于理解,请参阅图1,图1为横向联邦学习的一个数据关系示意图,如图所示,横向联邦学习通常用于两个数据集的特征重叠较多,而用户重叠比较少的情况。横向联邦学习的本质是样本的联合,即,对不同机构(例如,机构A和机构B)分别具有的分子样本进行联合学习。
本申请采用联邦学习框架,该框架允许不同机构能够在无需分享本地数据给其他机构的限制下,协同训练一个用于下游任务(例如,分子属性预测等)的全局模型。为了便于理解,请参阅图2,图2为本申请实施例中联邦学习系统的一个架构示意图,如图所示,联邦学习系统包括本地设备和中心设备。其中,中心设备可以是服务器,也可以是终端设备,且,本地设备可以是服务器,也可以是终端设备。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表、车载设备、可穿戴设备等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。本申请提供的方案可以由终端设备独立完成,也可以由服务器独立完成,还可以由终端设备与服务器配合完成,对此,本申请并不做具体限定。
以图2所示架构为例,在一轮迭代中,本地设备A、本地设备B和本地设备C分别从中心设备下载最新的全局模型,并将全局模型作为本地模型。每个本地设备利用本地数据训练本地模型,并得到对应的局部梯度值,于是,各个本地设备分别对局部梯度值进行加密后上传至中心设备。中心设备聚合各个本地设备的局部梯度值,并以此得到一个全局梯度值,利用全局梯度值更新全局模型的模型参数。基于此,中心设备向本地设备A、本地设备B和本地设备C下发更新后的模型参数,各个本地设备更新本地模型。
在整个过程中,算法的训练和数据的运用都实现了本地化,既保护了用户的数据私隐,还极大加快了训练过程。
结合上述介绍,本申请实施例提供的方案涉及AI的ML等技术。下面将从本地设备的角度,对本申请中模型训练的方法进行介绍,请参阅图3,本申请实施例中模型训练方法的一个实施例包括:
110、获取K个分子样本特征以及K个分子标注特征,其中,分子样本特征与分子标注特征具有对应关系,K为大于1的整数;
在一个或多个实施例中,本地设备获取K个分子样本,其中,每个分子样本具有一组标注好的标注结果,这些标注结果通常是在实验过程中确定的。基于此,针对每个分子样本,分别提取其分子样本特征以及分子标注特征。
具体地,分子样本为用于模型训练的分子,其中,分子是由组成的原子按照一定的键合顺序和空间排列而结合在一起的整体,这种键合顺序和空间排列关系称为分子结构。由于分子内原子间的相互作用,分子的物理和化学性质不仅取决于组成原子的种类和数目,更取决于分子的结构。基于此,示例性地,在一种实现方式中,提取分子样本对应的分子基序(molecular motif)特征,经过全连接层后可输出分子样本特征。
需要说明的是,本地设备可以是服务器或终端设备(例如,客户端(client)),此处不做限定。
120、根据贝塔分布确定K个特征混合基数,其中,K个特征混合基数之和为1;
在一个或多个实施例中,本地设备基于预先确定的贝塔(β)分布,可采样满足该β分布的K个特征混合基数,K个特征混合基数之和为1。
具体地,假设某个特征混合基数为“t”,t~Beta(α,α),其中,α为混合超参数,用于控制混合的程度,α∈(0,+∞)。当α趋近于0时,分布越倾向于集中在(0,1)的两端,而α较大的话,容易导致欠拟合。基于此,通常情况下,α的取值范围可以为大于或等于0.1,且小于或等于0.4。
130、根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
在一个或多个实施例中,采用K个特征混合基数对K个分子样本特征进行线性组合,构造出混合分子样本的目标分子样本特征。类似地,采用K个特征混合基数对K个分子标注特征进行线性组合,构造出混合分子样本的目标分子标注特征。
在实际训练中往往需要较多的混合分子样本,本申请以构建一个混合分子样本为例进行介绍,可以理解的是,其他混合分子样本的构建方式类似,此处不做赘述。
140、根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
在一个或多个实施例中,在一轮训练迭代中,将混合分子样本的目标分子样本特征作为本地模型的输入,通过本地模型输出预测值。由此,将目标分子标注特征作为真实值,基于损失函数后可计算得到针对本地模型的第一局部梯度值。
具体地,一种情况下,对于每个本地设备而言,可预先设置一个迭代阈值(例如,20次),当迭代次数达到预设迭代阈值,则确定满足模型训练条件。另一种情况下,中心设备可为不同的本地设备设置不同的迭代阈值,并下发至本地设备,当本地设备的迭代次数达到预设迭代阈值,则确定满足模型训练条件。基于此,在满足模型训练条件时,即可得到针对本地设备的第二局部梯度值。其中,第二局部梯度值表示针对本地模型的多次梯度累加结果。
可以理解的是,模型训练条件不限于迭代次数是否达到迭代阈值,例如,当模型收敛时,确定满足模型训练条件。需要说明的是,在实际训练中,通常基于一个批次(batch)的混合分子样本生成第一局部梯度值,本申请以一个batch中的任意一个混合分子样本为例进行说明,然而,这不应理解为对本申请的限定。
150、向中心设备发送第二局部梯度值。
在一个或多个实施例中,本地设备向中心设备发送第二局部梯度值,中心设备在获取到来自于至少一个本地设备反馈的第二局部梯度值之后,可对这些第二局部梯度值进行聚合(例如,加权平均),从而得到一个全局梯度值,并使用全局梯度值更新全局模型的模型参数。由此,中心设备在不接触原始训练数据的情况下可得到全局模型。
本申请实施例中,提供了一种基于联邦学习的模型训练方法。通过上述方式,虽然各个机构的训练数据可能存在噪声,但事实上,仍有部分训练数据是不存在噪声的,因此,本申请引入特征混合技术,通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。与此同时,一方面通过构建新的训练数据,达到数据增强的目的,另一方面,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,获取K个分子样本特征以及K个分子标注特征,具体可以包括:
获取K个分子样本,其中,每个分子样本对应至少一个标注结果;
针对于每个分子样本,对分子样本进行特征提取,得到分子样本所对应的分子样本特征;
针对于每个分子样本,根据分子样本所对应的至少一个标注结果,生成分子样本所对应的分子标注特征。
在一个或多个实施例中,介绍了一种获取分子样本特征和分子标注特征的方式。由前述实施例可知,每个分子样本具有一组标注结果,可以理解的是,标注结果包含但不仅限于水溶性、毒性、疏水性以及稳定性等。
具体地,分子样本可表示为分子式,例如,水分子样本表示为“H2O”,即一个水分子可采用电解法或其他方法分为两个氢原子(H)和一个氧原子(O)。对此,可采用分子指纹技术将分子样本进行部分分解或扩增(例如,蛋白质的酶解和聚合酶链反应扩增),然后进行层析和电泳等分离,获得分子样本的分子指纹,分子指纹就是一种分子的抽象表征,基于此,将分子指纹作为特征提取网络(例如,若干全连接层)的输入,通过特征提取网络得到分子样本特征。
对于分子样本所对应的至少一个标注结果而言,可采用独热编码的方式生成分子标注特征。假设分子样本X具有的标注结果包括“水溶性”和“毒性”,但不具有“稳定性”,基于此,分子样本X的分子标注特征可表示为(1,1,0)。其中,分子标注特征的第一个元素表示是否具有“水溶性”,如果具有“水溶性”,则第一个元素表示为“1”,否则,第一个元素表示为“0”。分子标注特征的第二个元素表示是否具有“毒性”,如果具有“毒性”,则第二个元素表示为“1”,否则,第二个元素表示为“0”。分子标注特征的第三个元素表示是否具有“稳定性”,如果具有“稳定性”,则第三个元素表示为“1”,否则,第二个元素表示为“0”。
需要说明的是,在实际应用中,标注结果还可以表示为预设标签下的真实值,例如,预设标签为“沸点”,沸点的真实值为95摄氏度,因此,标注结果为95。本申请可采用其他方式对标注结果进行编码,此处仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种获取分子样本特征和分子标注特征的方式,通过上述方式,可分别每个分子样本的特征和标注结果进行编码,能够用于后续的模型训练,由此,为方案的实现提供了可行的处理方案。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,对分子样本进行特征提取,得到分子样本所对应的分子样本特征,具体可以包括:
根据分子样本生成分子图样本,其中,分子图样本包括顶点和边,顶点表示原子,边表示化学键;
基于分子图样本,通过图神经网络获取分子样本特征。
在一个或多个实施例中,介绍了一种图神经网络提取分子样本特征的方式。由前述实施例可知,分子样本可表示为化学式,此外,还可以将分子样本转换为分子图样本,即,以图的形式存储分子样本,其中,分子图样本中的顶点表示原子,边表示化学键。
具体地,为了便于介绍,请参阅图4,图4为本申请实施例中基于图神经网络实现分子编码的一个示意图,如图所示,将分子视为图数据,并结合深度学习方法可完成分子性质预测任务。在给定分子图样本的情况下,可以为每个顶点生成对应的嵌入特征,可选地,还可以为不同类型(离子键、共价键或金属键)的边生成对应的嵌入特征。然后,将这些嵌入特征作为图神经网络(Graph Neural Networks,GNN)的输入,通过GNN输出对应的图表示,即,得到分子样本特征。
再次,本申请实施例中,提供了一种图神经网络提取分子样本特征的方式,通过上述方式,将分子转为分子图之后,能够更好地反映出原子之间的关系,因此,图神经网络可以从分子图中学习到合理的特征表示,从而有利于提取到表征更佳的分子样本特征。此外,GNN是一种为节点生成向量表示的神经网络结构,由于神经网络的前向传播耗时极短,因此,其计算耗时小于传统的量子化学计算方法。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,获取K个分子样本,具体可以包括:
向目标本地设备发送数据调用请求;
若目标本地设备对数据调用请求鉴权通过,则从目标本地设备中获取P个分子样本,其中,P为大于或等于1的整数;
从本地数据库中获取Q个分子样本,其中,Q为大于或等于1的整数;
将P个分子样本和Q个分子样本作为K个分子样本。
在一个或多个实施例中,介绍了一种不同本地设备之间实现样本共享的方式。由前述实施例可知,需要采用至少两个分子样本进行线性组合,其中,至少两个分子样本可来源于同一个用户(即,本地设备),也可以来源于不同的用户(即,本地设备)。
具体地,为了便于介绍,请参阅图5,图5为本申请实施例中多个本地设备之间共享样本的一个架构示意图,如图所示,以目标本地设备为本地设备B为例,本地设备A属于机构A的本地设备,本地设备B属于机构B的本地设备。假设机构A和机构B之间约定共享分子样本,因此,本地设备A可向本地设备B通信发送数据调用请求,其中,数据调用请求携带验证信息。本地设备B解析数据调用请求,并对验证信息进行鉴权,如果鉴权通过,则允许本地设备A从本地设备B中获取P个分子样本。
此外,本地设备A可从本地数据库中取出Q个分子样本,由此,将P个分子样本和Q个分子样本共同作为K个分子样本,即P+Q=K。
需要说明的是,机构A和机构B之间可共享一部分的分子样本,也可以共享所有的分子样本,此处不做限定。此外,P个分子样本和Q个分子样本之间,通常不存在相同的分子样本。
再次,本申请实施例中,提供了一种不同本地设备之间实现样本共享的方式,通过上述方式,特征混合技术不仅可基于同一个用户(即,本地设备)的内部数据进行计算,还可以通过在混合特征中引入其他用户(即,本地设备)的特征进行相应的混合计算,从而进一步提升模型性能。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据贝塔分布确定K个特征混合基数,具体可以包括:
获取满足贝塔分布的随机数,并将随机数作为第一特征混合基数;
根据第一特征混合基数确定第二特征混合基数。
在一个或多个实施例中,介绍了一种获取两个特征混合基数的方式。由前述实施例可知,本地设备可获取至少两个分子样本,对至少两个分子样本进行线性组合之前,需要先确定赋予每个分子样本的特征混合基数。下面将以获取两个特征混合基数为例进行介绍。
具体地,本地设备基于预先确定的β分布,可随机采样一个满足该β分布的特征混合基数,即,得到第一特征混合基数。其中,第一特征混合基数表示为“t”,由于K个特征混合基数之和为1,那么第二特征混合基数表示为“t-1”。
其次,本申请实施例中,提供了一种获取两个特征混合基数的方式,通过上述方式,仅需要随机确定一个特征混合基数即可实现对两个分子样本的组合,即,一定程度上节省随机采样所需的计算资源,从而有利于提升处理效率。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,K个分子样本特征包括第一分子样本特征以及第二分子样本特征,K个分子标注特征包括第一分子标注特征以及第二分子标注特征;
根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征,具体可以包括:
采用第一特征混合基数对第一分子样本特征进行加权,得到第一特征向量;
采用第二特征混合基数对第二分子样本特征进行加权,得到第二特征向量;
根据第一特征向量以及第二特征向量,生成混合分子样本的目标分子样本特征;
采用第一特征混合基数对第一分子标注特征进行加权,得到第三特征向量;
采用第二特征混合基数对第二分子标注特征进行加权,得到第四特征向量;
根据第三特征向量以及第四特征向量,生成混合分子样本的目标分子标注特征。
在一个或多个实施例中,介绍了一种对两个分子样本进行线性组合的方式。由前述实施例可知,本地设备可对至少两个分子样本进行线性组合,下面将以对两个分子样本进行线性组合为例进行介绍。
具体地,假设对第一分子样本和第一分子样本进行线性组合,其中,第一分子样本经过特征提取后得到第一分子样本特征,第二分子样本经过特征提取后得到第二分子样本特征。根据第一分子样本所对应的标注结果可生成第一分子标注特征,根据第二分子样本所对应的标注结果可生成第二分子标注特征。基于此,采用如下公式计算混合分子样本的目标分子样本特征:
X=txi+(t-1)xj; 式(1)
其中,X表示目标分子样本特征,t表示第一特征混合基数,xi表示第一分子样本特征,txi表示第一特征向量。(t-1)表示第二特征混合基数,xj表示第二分子样本特征,(t-1)xj表示第二特征向量。
示例性地,假设第一特征混合基数为0.2,第二特征混合基数为0.8,第一分子样本特征为(0.2,0.8,0.9),第二分子样本特征为(0.1,0.1,0.7)。采用第一特征混合基数对第一分子样本特征进行加权,得到第一特征向量表示为(0.04,0.16,0.18)。类似地,采用第二特征混合基数对第二分子样本特征进行加权,得到第二特征向量表示为(0.08,0.08,0.56)。一种实现方式中,将第一特征向量与第二特征向量进行加和(即,对应元素相加),得到目标分子样本特征表示为(0.12,0.24,0.74)。
基于此,采用如下公式计算混合分子样本的目标分子标注特征:
Y=tyi+(t-1)yj; 式(2)
其中,Y表示目标分子标注特征,t表示第一特征混合基数,yi表示第一分子标注特征,tyi表示第三特征向量。(t-1)表示第二特征混合基数,yj表示第二分子标注特征,(t-1)yj表示第四特征向量。
示例性地,假设第一特征混合基数为0.2,第二特征混合基数为0.8,第一分子标注特征为(1,1,0),第二分子标注特征为(1,0,0)。采用第一特征混合基数对第一分子标注特征进行加权,得到第三特征向量表示为(0.2,0.2,0)。类似地,采用第二特征混合基数对第二分子标注特征进行加权,得到第四特征向量表示为(0.8,0,0)。一种实现方式中,将第三特征向量与第四特征向量进行加和(即,对应元素相加),得到目标分子标注特征表示为(1,0.2,0)。
可以理解的是,混合分子样本可以理解为对K个分子样本进行线性组合之后得到的一个新的分子样本。
需要说明的是,分子样本特征可表示为128维的向量,或者其他维度数量对应的向量,此处不做限定。分子标注特征可表示为20维的向量,或者其他维度数量对应的向量,此处不做限定。
再次,本申请实施例中,提供了一种对两个分子样本进行线性组合的方式,通过上述方式,线性组合所使用的分子样本数量较少,仅需要两个分子样本即可。因此,能够降低分子样本组合的难度,从而节省计算资源。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据贝塔分布确定K个特征混合基数,具体可以包括:
获取满足贝塔分布的至少三个随机数;
根据至少三个随机数之和,对每个随机数进行归一化,得到每个随机数所对应的特征混合基数。
在一个或多个实施例中,介绍了一种获取至少三个特征混合基数的方式。由前述实施例可知,本地设备可获取至少两个分子样本,对至少两个分子样本进行线性组合之前,需要先确定赋予每个分子样本的特征混合基数。下面将以获取至少三个特征混合基数为例进行介绍。
具体地,本地设备基于预先确定的β分布,可随机采样至少三个满足该β分布的随机数,即,得到(R1,R2,…,RK),此时,K为大于或等于3的整数。由于,R1+R2+…+RK之和不一定等于1,因此,可采用如下方式对每个随机数进行归一化处理:
tn=Rn/(R1+R2+…+RK); 式(3)
其中,tn表示第n个特征混合基数,R1表示第1个随机数,R2表示第2个随机数,RK表示第K个随机数,Rn表示第n个随机数。
示例性地,假设K为3,经过采样后得到随机数R1为0.3,随机数R2为0.5,随机数R3为0.8。结合式(3)进行如下计算:
t1=0.3/(0.3+0.5+0.8)=0.1875;
t2=0.5/(0.3+0.5+0.8)=0.3125;
t3=0.8/(0.3+0.5+0.8)=0.5;
其中,t1表示随机数R1所对应的特征混合基数,t2表示随机数R2所对应的特征混合基数,t3表示随机数R3所对应的特征混合基数。
可以理解的是,K为大于3的情况下,计算随机数对应的特征混合基数方式类似,此处不做赘述。
其次,本申请实施例中,提供了一种获取至少三个特征混合基数的方式,通过上述方式,可随机确定K个满足β分布的特征混合基数,但考虑到随机获取的K个特征混合基数之和可能不等于1,因此,采用归一化的方式对这些特征混合基数进行进一步处理,从而为方案的实现提供合理且可行的解决手段。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,K个分子样本特征包括至少三个分子样本特征,K个分子标注特征包括至少三个分子标注特征;
根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征,具体可以包括:
采用每个随机数所对应的特征混合基数,对至少三个分子样本特征进行加权求和,得到混合分子样本的目标分子样本特征;
采用每个随机数所对应的特征混合基数,对至少三个分子标注特征进行加权求和,得到混合分子样本的目标分子标注特征。
在一个或多个实施例中,介绍了一种对至少三个分子样本进行线性组合的方式。由前述实施例可知,本地设备可对至少三个分子样本进行线性组合,下面将以对三个分子样本进行线性组合为例进行介绍,对于三个以上的分子样本进行线性组合的方式类似,此处不做赘述。
具体地,假设对第一分子样本、第一分子样本和第三分子样本进行线性组合,其中,第一分子样本经过特征提取后得到第一分子样本特征,第二分子样本经过特征提取后得到第二分子样本特征,第三分子样本经过特征提取后得到第三分子样本特征。根据第一分子样本所对应的标注结果可生成第一分子标注特征,根据第二分子样本所对应的标注结果可生成第二分子标注特征,根据第三分子样本所对应的标注结果可生成第三分子标注特征。
基于此,采用如下公式计算混合分子样本的目标分子样本特征:
X=t1x1+t2x2+t3x3,s.t.t1+t2+t3=1; 式(4)
其中,X表示目标分子样本特征,t1表示第一特征混合基数,x1表示第一分子样本特征。t2表示第二特征混合基数,x2表示第二分子样本特征。t3表示第三特征混合基数,x3表示第三分子样本特征。
示例性地,假设第一特征混合基数为0.2,第二特征混合基数为0.5,第三特征混合基数为0.3,第一分子样本特征为(0.2,0.8,0.9),第二分子样本特征为(0.1,0.1,0.7),第三分子样本特征为(0.8,0.4,0.6)。采用三个特征混合基数对三个分子样本特征进行加权求和,即,采用对应元素相加的方式,得到目标分子样本特征表示为(0.2,0.8,0.9)。
基于此,采用如下公式计算混合分子样本的目标分子标注特征:
Y=t1y1+t2y2+t3y3,s.t.t1+t2+t3=1; 式(5)
其中,Y表示标分子标注特征,t1表示第一特征混合基数,y1表示第一分子标注特征。t2表示第二特征混合基数,y2表示第二分子标注特征。t3表示第三特征混合基数,y3表示第三分子标注特征。
示例性地,假设第一特征混合基数为0.2,第二特征混合基数为0.5,第三特征混合基数为0.3,第一分子标注特征为(1,1,0),第二分子标注特征为(1,0,0),第二分子标注特征为(1,1,1)。采用三个特征混合基数对三个分子标注特征进行加权求和,即,采用对应元素相加的方式,得到目标分子样本特征表示为(1,0.5,0.3)。
可以理解的是,混合分子样本可以理解为对K个分子样本进行线性组合之后得到的一个新的分子样本。
需要说明的是,分子样本特征可表示为128维的向量,或者其他维度数量对应的向量,此处不做限定。分子标注特征可表示为20维的向量,或者其他维度数量对应的向量,此处不做限定。
再次,本申请实施例中,提供了一种对至少三个分子样本进行线性组合的方式,通过上述方式,线性组合所使用的分子样本数量较多,因此,在一定程度上能够更好地消除分子样本中存在的噪声,在本地训练过程采用数据噪声较少混合分子样本,可以提升模型鲁棒优化的性能。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值之前,还可以包括:
响应中心设备发送的模型更新指令,从中心设备中获取全局模型的模型参数,并将全局模型的模型参数作为本地模型的模型参数。
在一个或多个实施例中,介绍了一种中心设备向本地设备下发模型更新任务的方式。由前述实施例可知,中心设备选择一个或多个本地设备,并向这些本地设备发送模型更新指令,由此,被选中的本地设备响应中心设备发送的模型更新指令,并从中心设备中下载最新的全局模型,即,获取最新全局模型的模型参数。
具体地,以任意一个被选中的本地设备为例,本地设备将最新全局模型的模型参数作为本地模型的模型参数。由此,本地设备对混合分子样本进行损失函数计算,并在损失函数之上进行反向传播,以此更新本地模型的模型参数。本地迭代完成之后即满足模型训练条件,于是,本地设备将最新全局模型对应的第二局部梯度值上传至中心设备。
在实际应用中,为了提升本地设备与中心设备之间信息传输的可靠性,还可以采用对称加密技术或非对称加密技术,对模型参数以及局部梯度值进行加密,由此,提升设备之间通信的私密性。
其次,本申请实施例中,提供了一种中心设备向本地设备下发模型更新任务的方式,通过上述方式,出于对数据安全以及隐私的考量,不同机构之间的数据往往难以直接贡献,而每个机构拥有的数据量往往不大,因此,往往会出现数据缺少的问题。本申请中,由中心设备向各个本地设备下发模型更新任务,使得各个本地设备在不共享样本的同时进行模型训练,不仅保护了数据隐私,而且增加了样本量,有利于实现更好的模型拟合效果。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,具体可以包括:
基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分值,其中,分子属性预测分值表示预测针对于目标分子属性的分值;
基于分子属性预测分值以及目标分子标注特征,通过第一损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示针对于目标分子属性的实际分值。
在一个或多个实施例中,介绍了一种用于实现回归任务的模型训练方法。由前述实施例可知,回归任务通常是用来预测一个值,回归则是对真实值的一种逼近预测。
具体地,为了便于介绍,请参阅图6,图6为本申请实施例中基于回归任务的一个训练框架示意图,如图所示,假设混合分子样本的目标分子标注特征为“96.5”,其中,目标分子标注特征表示沸点对应的实际分值。基于此,将混合分子样本的目标分子样本特征作为本地模型的输入,通过本地模型输出分子属性预测分值,例如,“90.5”。于是,可采用第一损失函数可计算出第一局部梯度值。
需要说明的是,本申请中所使用的第一损失函数可包括均方误差(mean-squareerror,MSE)损失函数,或,平均绝对误差(mean absolute error,MAE)损失函数,或,均方根误差(root mean square error,RMSE)损失函数,还可以是其他类型的损失函数,此处不做限定。
可选地,若本地模型还包括GNN,那么第一损失函数可表示为L(B;θ;w),其中,B表示本地迭代采样的一个批次样本量,θ表示用于计算图表示,w表示用于计算预测结果。
其次,本申请实施例中,提供了一种用于实现回归任务的模型训练方法,通过上述方式,利用线性组合后得到的混合分子样本训练用于回归任务的本地模型,即,基于目标分子标注特征可支持监督学习,从而提升模型训练的灵活性。
可选地,在上述图3对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,具体可以包括:
基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分布,其中,分子属性预测分布表示预测属于每个分子属性的概率;
基于分子属性预测分布以及目标分子标注特征,通过第二损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示标注属于每个分子属性的概率。
在一个或多个实施例中,介绍了一种用于实现分类任务的模型训练方法。由前述实施例可知,分类任务是通常是输出类别,给定一个或多个输入之后,分类任务将预测一个或多个结果。在分类任务中,本地模型可以采用决策树、随机森林、梯度提升树、多层感知器或朴素贝叶斯等,此处不做限定。
具体地,为了便于介绍,请参阅图7,图7为本申请实施例中基于分类任务的一个训练框架示意图,如图所示,假设混合分子样本具有的一个分子属性为“水溶性”,另一个分子属性为“毒性”,但不具有“稳定性”这一分子属性。因此,其对应的目标分子标注特征可以表示为(1,1,0)。基于此,将混合分子样本的目标分子样本特征作为本地模型的输入,通过本地模型输出分子属性预测分布,即(0.7,0.2,0.1),其中,“0.7”表示属于“毒性”的概率,“0.2”表示属于“水溶性”的概率,“0.1”表示属于“稳定性”的概率。于是,可采用第二损失函数可计算出第一局部梯度值。
需要说明的是,本申请中所使用的第二损失函数可以是交叉熵(cross entropy,CE)损失函数,或,合页(Hinge)损失函数,还可以是其他类型的损失函数,此处不做限定。
可选地,若本地模型还包括GNN,那么第二损失函数可表示为L(B;θ;w),其中,B表示本地迭代采样的一个批次样本量,θ表示用于计算图表示,w表示用于计算预测结果。
其次,本申请实施例中,提供了一种用于实现分类任务的模型训练方法,通过上述方式,利用线性组合后得到的混合分子样本训练用于分类任务的本地模型,即,基于目标分子标注特征可支持监督学习,从而提升模型训练的灵活性。
结合上述介绍,下面将从中心设备的角度,对本申请中模型训练的方法进行介绍,请参阅图8,本申请实施例中模型训练方法的另一个实施例包括:
210、向M个本地设备发送全局模型的模型参数,以使每个本地设备将全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,M为大于或等于1的整数;
在一个或多个实施例中,中心设备向M个本地设备发送全局模型的模型参数,每个本地设备将全局模型的模型参数作为本地模型的模型参数,以此获取第二局部梯度值。
为了便于理解,以M个本地设备中的任意一个本地设备为例进行说明。具体地,本地设备获取K个分子样本,其中,每个分子样本具有一组标注好的标注结果,针对每个分子样本,分别提取其分子样本特征以及分子标注特征。此外,本地设备基于预先确定的β分布,可采样满足该β分布的K个特征混合基数,且这K个特征混合基数之和为1。本地设备采用K个特征混合基数对K个分子样本特征进行线性组合,构造出混合分子样本的目标分子样本特征。类似地,本地设备采用K个特征混合基数对K个分子标注特征进行线性组合,构造出混合分子样本的目标分子标注特征。
在一轮训练迭代中,本地设备将混合分子样本的目标分子样本特征作为本地模型的输入,通过本地模型输出预测值。由此,将目标分子标注特征作为真实值,基于损失函数后可计算得到针对本地模型的第一局部梯度值。在满足模型训练条件时,即可得到针对本地设备的第二局部梯度值。其中,第二局部梯度值表示针对本地模型的多次梯度累加结果。
需要说明的是,中心设备可以是服务器或终端设备,此处不做限定。
220、接收M个本地设备中每个本地设备发送的第二局部梯度值;
在一个或多个实施例中,中心设备可接收来自M个本地设备中每个本地设备分别发送的第二局部梯度值。通常情况下,不同本地设备反馈第二局部梯度值的时间不同,因此,此处不限定中心设备获取第二局部梯度值的时间点。
230、根据M个本地设备中每个本地设备发送的第二局部梯度值,更新全局模型的模型参数。
在一个或多个实施例中,中心设备可对这些第二局部梯度值进行聚合(例如,加权平均),从而得到一个全局梯度值,并使用全局梯度值更新全局模型的模型参数。
本申请实施例中,提供了一种基于联邦学习的模型训练方法。通过上述方式,虽然各个机构的训练数据可能存在噪声,但事实上,仍有部分训练数据是不存在噪声的,因此,本申请引入特征混合技术,通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。与此同时,一方面通过构建新的训练数据,达到数据增强的目的,另一方面,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,向M个本地设备发送全局模型的模型参数之前,还可以包括:
获取T个本地设备中每个本地设备所对应的第一权重,其中,T为大于或等于M的整数,T个本地设备的第一权重之和为1;
基于T个本地设备中每个本地设备所对应的第一权重,通过概率密度函数从T个本地设备中采样得到M个本地设备。
在一个或多个实施例中,介绍了一种基于概率密度函数采用M个本地设备的方式。由前述实施例可知,中心设备可为每个本地设备初始化一个权重(λi),∑λi=1,其中,λi中的i为大于或等于1,且小于或等于T的整数。
具体地,每次迭代开始时,中心设备以当前T个本地设备中每个本地设备的权重(例如,第一权重)作为概率密度函数,采样M个本地设备,并将当前的全局模型的模型参数传递给这M个本地设备。连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。而随机变量的取值落在某个区域之内的概率,则为概率密度函数在这个区域上的积分。
其次,本申请实施例中,提供了一种基于概率密度函数采用M个本地设备的方式,通过上述方式,考虑到不同用户(即,本地设备)拥有的分子样本会服从特定的概率分布,也就是说,不同用户(即,本地设备)具有的数据分布往往不同。因此,加入鲁棒优化技术使模型在不同的数据分布上都能取得较好的性能,从而能够适应不同的本地数据分布,有利于实现更好的模型平均性能。此外,噪声的消除也使得分布外鲁棒优化的稳定性增加,从而使得训练模型实现更好的性能。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,还可以包括:
接收M个本地设备中每个本地设备发送的损失值;
根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的第二权重。
在一个或多个实施例中,介绍了一种更新本地设备对应权重的方式。由前述实施例可知,被中心设备选中的M个本地设备,在满足模型训练条件时,不仅向中心设备反馈第二局部梯度值,还可以反馈损失值。
具体地,中心设备基于M个本地设备返回的损失值,更新每个本地设备对应的第一权重,以更新第i个本地设备的第一权重为例,可采用如下方式计算更新后得到的第二权重:
λi更新=λi历史+γLi; 式(6)
其中,λi更新表示第i个本地设备的第二权重。λi历史表示第i个本地设备的第一权重。γ表示预设参数,例如,0.02或0.1等。Li表示第i个本地设备返回的损失值。
其次,本申请实施例中,提供了一种更新本地设备对应权重的方式,通过上述方式,中心设备基于本地设备反馈的损失值,动态更新本地设备对应的权重,由此,有利于更好地适用于不同数据分布,达到更好的模型性能。
可选地,在上述图8对应的各个实施例的基础上,本申请实施例提供的另一个可选实施例中,根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的第二权重,具体可以包括:
根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的待处理权重;
根据M个本地设备中每个本地设备所对应的待处理权重之和,对每个待处理权重进行归一化,得到M个本地设备中每个本地设备所对应的归一化权重;
根据剩余权重总和以及M个本地设备中每个本地设备所对应的归一化权重,确定M个本地设备中每个本地设备所对应的第二权重。
在一个或多个实施例中,介绍了一种更新后权重进行归一化的处理方式。由前述实施例可知,T个本地设备的权重之和为1,但其中的M个本地设备经过权重调整之后,可能会导致T个本地设备的权重不为1,因此,需要对M个本地设备的权重进行调整。
具体地,假设T为10,在初始分配权重的时候,可采用平均分配的方法。假设初始分配的权重即为第一权重,基于此,每个本地设备对应的第一权重为0.1。假设M为3,即从10个本地设备中选中3个本地设备。在满足模型训练条件时,中心设备基于M个本地设备返回的损失值,更新每个本地设备对应的第一权重,即得到每个本地设备对应的第二权重。例如,M个本地设备中第一个本地设备的待处理权重为0.3,M个本地设备中第二个本地设备的待处理权重为0.5,M个本地设备中第一个本地设备的待处理权重为0.8。于是,采用如下方式对每个待处理权重进行归一化处理:
Wi=wi/(w1+w2+…+wT); 式(7)
其中,Wi表示第i个本地设备的归一化权重。wi表示第i个本地设备的待处理权重。(w1+w2+…+wT)表示M个本地设备的待处理权重之和。
示例性地,第一个本地设备的待处理权重为0.1875,第二个本地设备的待处理权重为0.3125,第三个本地设备的待处理权重为0.5。
由于M个本地设备的第一权重之和为0.3,即剩余权重总和为0.3,因此,后续需要按每个本地设备的待处理权重,按比例分配剩余权重总和。基于此,第一个本地设备的第二权重为0.3*0.1875=0.05625,第二个本地设备的第二权重为0.3*0.3125=0.09375,第三个本地设备的第二权重为0.3*0.5=0.15。
可以理解的是,在实际应用中,还可以根据M个本地设备中每个本地设备所对应的归一化权重,以及,(T-M)个本地设备中每个本地设备的第一权重,重新分配各个本地设备的权重,此处不再详述。
再次,本申请实施例中,提供了一种更新后权重进行归一化的处理方式,通过上述方式,令所有本地设备对应的权重之和为定值,即保证定量结果与进样量无关。此外,能够使得各个指标处于同一数量级,便于对各个本地设备进行综合对比。
下面对本申请中的模型训练装置进行详细描述,请参阅图9,图9为本申请实施例中模型训练装置的一个实施例示意图,模型训练装置30包括:
获取模块310,用于获取K个分子样本特征以及K个分子标注特征,其中,分子样本特征与分子标注特征具有对应关系,K为大于1的整数;
确定模块320,用于根据贝塔分布确定K个特征混合基数,其中,K个特征混合基数之和为1;
生成模块330,用于根据K个特征混合基数、K个分子样本特征以及K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
获取模块310,还用于根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
发送模块340,用于向中心设备发送第二局部梯度值。
本申请实施例中,提供了一种模型训练装置。采用上述装置,虽然各个机构的训练数据可能存在噪声,但事实上,仍有部分训练数据是不存在噪声的,因此,本申请引入特征混合技术,通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。与此同时,一方面通过构建新的训练数据,达到数据增强的目的,另一方面,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,具体用于获取K个分子样本,其中,每个分子样本对应至少一个标注结果;
针对于每个分子样本,对分子样本进行特征提取,得到分子样本所对应的分子样本特征;
针对于每个分子样本,根据分子样本所对应的至少一个标注结果,生成分子样本所对应的分子标注特征。
本申请实施例中,提供了一种模型训练装置。采用上述装置,可分别每个分子样本的特征和标注结果进行编码,能够用于后续的模型训练,由此,为方案的实现提供了可行的处理方案。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,具体用于根据分子样本生成分子图样本,其中,分子图样本包括顶点和边,顶点表示原子,边表示化学键;
基于分子图样本,通过图神经网络获取分子样本特征。
本申请实施例中,提供了一种模型训练装置。采用上述装置,将分子转为分子图之后,能够更好地反映出原子之间的关系,因此,图神经网络可以从分子图中学习到合理的特征表示,从而有利于提取到表征更佳的分子样本特征。此外,GNN是一种为节点生成向量表示的神经网络结构,由于神经网络的前向传播耗时极短,因此,其计算耗时小于传统的量子化学计算方法。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,具体用于向目标本地设备发送数据调用请求;
若目标本地设备对数据调用请求鉴权通过,则从目标本地设备中获取P个分子样本,其中,P为大于或等于1的整数;
从本地数据库中获取Q个分子样本,其中,Q为大于或等于1的整数;
将P个分子样本和Q个分子样本作为K个分子样本。
本申请实施例中,提供了一种模型训练装置。采用上述装置,特征混合技术不仅可基于同一个用户的内部数据进行计算,还可以通过在混合特征中引入其他用户的特征进行相应的混合计算,从而进一步提升模型性能。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块320,具体用于获取满足贝塔分布的随机数,并将随机数作为第一特征混合基数;
根据第一特征混合基数确定第二特征混合基数。
本申请实施例中,提供了一种模型训练装置。采用上述装置,仅需要随机确定一个特征混合基数即可实现对两个分子样本的组合,即,一定程度上节省随机采样所需的计算资源,从而有利于提升处理效率。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,K个分子样本特征包括第一分子样本特征以及第二分子样本特征,K个分子标注特征包括第一分子标注特征以及第二分子标注特征;
生成模块330,具体用于采用第一特征混合基数对第一分子样本特征进行加权,得到第一特征向量;
采用第二特征混合基数对第二分子样本特征进行加权,得到第二特征向量;
根据第一特征向量以及第二特征向量,生成混合分子样本的目标分子样本特征;
采用第一特征混合基数对第一分子标注特征进行加权,得到第三特征向量;
采用第二特征混合基数对第二分子标注特征进行加权,得到第四特征向量;
根据第三特征向量以及第四特征向量,生成混合分子样本的目标分子标注特征。
本申请实施例中,提供了一种模型训练装置。采用上述装置,线性组合所使用的分子样本数量较少,仅需要两个分子样本即可。因此,能够降低分子样本组合的难度,从而节省计算资源。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
确定模块320,具体用于获取满足贝塔分布的至少三个随机数;
根据至少三个随机数之和,对每个随机数进行归一化,得到每个随机数所对应的特征混合基数。
本申请实施例中,提供了一种模型训练装置。采用上述装置,可随机确定K个满足β分布的特征混合基数,但考虑到随机获取的K个特征混合基数之和可能不等于1,因此,采用归一化的方式对这些特征混合基数进行进一步处理,从而为方案的实现提供合理且可行的解决手段。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,K个分子样本特征包括至少三个分子样本特征,K个分子标注特征包括至少三个分子标注特征;
生成模块330,具体用于采用每个随机数所对应的特征混合基数,对至少三个分子样本特征进行加权求和,得到混合分子样本的目标分子样本特征;
采用每个随机数所对应的特征混合基数,对至少三个分子标注特征进行加权求和,得到混合分子样本的目标分子标注特征。
本申请实施例中,提供了一种模型训练装置。采用上述装置,线性组合所使用的分子样本数量较多,因此,在一定程度上能够更好地消除分子样本中存在的噪声,在本地训练过程采用数据噪声较少混合分子样本,可以提升模型鲁棒优化的性能。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,还用于根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值之前,响应中心设备发送的模型更新指令,从中心设备中获取全局模型的模型参数,并将全局模型的模型参数作为本地模型的模型参数。
本申请实施例中,提供了一种模型训练装置。采用上述装置,出于对数据安全以及隐私的考量,不同机构之间的数据往往难以直接贡献,而每个机构拥有的数据量往往不大,因此,往往会出现数据缺少的问题。本申请中,由中心设备向各个本地设备下发模型更新任务,使得各个本地设备在不共享样本的同时进行模型训练,不仅保护了数据隐私,而且增加了样本量,有利于实现更好的模型拟合效果。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,具体用于基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分值,其中,分子属性预测分值表示预测针对于目标分子属性的分值;
基于分子属性预测分值以及目标分子标注特征,通过第一损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示针对于目标分子属性的实际分值。
本申请实施例中,提供了一种模型训练装置。采用上述装置,利用线性组合后得到的混合分子样本训练用于回归任务的本地模型,即,基于目标分子标注特征可支持监督学习,从而提升模型训练的灵活性。
可选地,在上述图9所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
获取模块310,具体用于基于目标分子样本特征,通过本地模型获取混合分子样本的分子属性预测分布,其中,分子属性预测分布表示预测属于每个分子属性的概率;
基于分子属性预测分布以及目标分子标注特征,通过第二损失函数确定针对本地模型的第一局部梯度值,其中,目标分子标注特征表示标注属于每个分子属性的概率。
本申请实施例中,提供了一种模型训练装置。采用上述装置,利用线性组合后得到的混合分子样本训练用于分类任务的本地模型,即,基于目标分子标注特征可支持监督学习,从而提升模型训练的灵活性。
下面对本申请中的模型训练装置进行详细描述,请参阅图10,图10为本申请实施例中模型训练装置的另一个实施例示意图,模型训练装置40包括:
发送模块410,用于向M个本地设备发送全局模型的模型参数,以使每个本地设备将全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,M为大于或等于1的整数;
接收模块420,用于接收M个本地设备中每个本地设备发送的第二局部梯度值;
更新模块430,用于根据M个本地设备中每个本地设备发送的第二局部梯度值,更新全局模型的模型参数;
其中,目标分子样本特征以及目标分子标注特征为本地设备根据K个特征混合基数,K个分子样本特征以及K个分子标注特征生成的,K个特征混合基数为根据贝塔分布确定的,分子样本特征与分子标注特征具有对应关系,K个特征混合基数之和为1,K为大于1的整数。
本申请实施例中,提供了一种模型训练装置。采用上述装置,虽然各个机构的训练数据可能存在噪声,但事实上,仍有部分训练数据是不存在噪声的,因此,本申请引入特征混合技术,通过混合没有噪声的训练数据和有噪声的训练数据,能够消除噪声的影响,从而提升模型的鲁棒性。与此同时,一方面通过构建新的训练数据,达到数据增强的目的,另一方面,在联邦学习框架下多个机构可共同训练一个全局模型,从而一定程度上环境训练数量缺少的问题,有利于提升模型预测的准确性。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,模型训练装置40还包括获取模块440以及采样模块450;
获取模块440,用于向M个本地设备发送全局模型的模型参数之前,获取T个本地设备中每个本地设备所对应的第一权重,其中,T为大于或等于M的整数,T个本地设备的第一权重之和为1;
采样模块450,用于基于T个本地设备中每个本地设备所对应的第一权重,通过概率密度函数从T个本地设备中采样得到M个本地设备。
本申请实施例中,提供了一种模型训练装置。采用上述装置,考虑到不同用户(即,本地设备)拥有的分子样本会服从特定的概率分布,也就是说,不同用户(即,本地设备)具有的数据分布往往不同。因此,加入鲁棒优化技术使模型在不同的数据分布上都能取得较好的性能,从而能够适应不同的本地数据分布,有利于实现更好的模型平均性能。此外,噪声的消除也使得分布外鲁棒优化的稳定性增加,从而使得训练模型实现更好的性能。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
接收模块420,还用于接收M个本地设备中每个本地设备发送的损失值;
更新模块430,还用于根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的第二权重。
本申请实施例中,提供了一种模型训练装置。采用上述装置,中心设备基于本地设备反馈的损失值,动态更新本地设备对应的权重,由此,有利于更好地适用于不同数据分布,达到更好的模型性能。
可选地,在上述图10所对应的实施例的基础上,本申请实施例提供的模型训练装置30的另一实施例中,
更新模块430,具体用于根据M个本地设备中每个本地设备发送的损失值,对M个本地设备中每个本地设备所对应的第一权重进行更新,得到M个本地设备中每个本地设备所对应的待处理权重;
根据M个本地设备中每个本地设备所对应的待处理权重之和,对每个待处理权重进行归一化,得到M个本地设备中每个本地设备所对应的归一化权重;
根据剩余权重总和以及M个本地设备中每个本地设备所对应的归一化权重,确定M个本地设备中每个本地设备所对应的第二权重。
本申请实施例中,提供了一种模型训练装置。采用上述装置,令所有本地设备对应的权重之和为定值,即保证定量结果与进样量无关。此外,能够使得各个指标处于同一数量级,便于对各个本地设备进行综合对比。
本申请提供了一种模型训练装置,可部署于服务器。图11是本申请实施例提供的一种服务器结构示意图,该服务器500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)522(例如,一个或一个以上处理器)和存储器532,一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器522可以设置为与存储介质530通信,在服务器500上执行存储介质530中的一系列指令操作。
服务器500还可以包括一个或一个以上电源526,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口558,和/或,一个或一个以上操作系统541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。
本申请提供了一种模型训练装置,可部署于终端设备。如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。在本申请实施例中,以终端设备为智能手机为例进行说明:
图12示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图。参考图12,智能手机包括:射频(radio frequency,RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity,WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解,图12中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对智能手机的各个构成部件进行具体的介绍:
RF电路610可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器680处理;另外,将设计上行的数据发送给基站。通常,RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器620可用于存储软件程序以及模块,处理器680通过运行存储在存储器620的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器620可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元630可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元630可包括触控面板631以及其他输入设备632。触控面板631,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板631可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器680,并能接收处理器680发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631,输入单元630还可以包括其他输入设备632。具体地,其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元640可包括显示面板641,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板641。进一步的,触控面板631可覆盖显示面板641,当触控面板631检测到在其上或附近的触摸操作后,传送给处理器680以确定触摸事件的类型,随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图12中,触控面板631与显示面板641是作为两个独立的部件来实现智能手机的输入和输入功能,但是在某些实施例中,可以将触控面板631与显示面板641集成而实现智能手机的输入和输出功能。
智能手机还可包括至少一种传感器650,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板641的亮度,接近传感器可在智能手机移动到耳边时,关闭显示面板641和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路660、扬声器661,传声器662可提供用户与智能手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号,传输到扬声器661,由扬声器661转换为声音信号输出;另一方面,传声器662将收集的声音信号转换为电信号,由音频电路660接收后转换为音频数据,再将音频数据输出处理器680处理后,经RF电路610以发送给比如另一智能手机,或者将音频数据输出至存储器620以便进一步处理。
WiFi属于短距离无线传输技术,智能手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块670,但是可以理解的是,其并不属于智能手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器680是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器620内的软件程序和/或模块,以及调用存储在存储器620内的数据,执行智能手机的各种功能和处理数据,从而对智能手机进行整体监控。可选的,处理器680可包括一个或多个处理单元;可选的,处理器680可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器680中。
智能手机还包括给各个部件供电的电源690(比如电池),可选的,电源可以通过电源管理系统与处理器680逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
上述实施例中由终端设备所执行的步骤可以基于该图12所示的终端设备结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (20)
1.一种模型训练的方法,其特征在于,包括:
获取K个分子样本特征以及K个分子标注特征,其中,所述分子样本特征与所述分子标注特征具有对应关系,所述K为大于1的整数;
根据贝塔分布确定K个特征混合基数,其中,所述K个特征混合基数之和为1;
根据所述K个特征混合基数、所述K个分子样本特征以及所述K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
根据所述目标分子样本特征以及所述目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
向中心设备发送所述第二局部梯度值。
2.根据权利要求1所述的方法,其特征在于,所述获取K个分子样本特征以及K个分子标注特征,包括:
获取K个分子样本,其中,每个分子样本对应至少一个标注结果;
针对于所述每个分子样本,对分子样本进行特征提取,得到所述分子样本所对应的分子样本特征;
针对于所述每个分子样本,根据分子样本所对应的至少一个标注结果,生成所述分子样本所对应的分子标注特征。
3.根据权利要求2所述的方法,其特征在于,所述对分子样本进行特征提取,得到所述分子样本所对应的分子样本特征,包括:
根据所述分子样本生成分子图样本,其中,所述分子图样本包括顶点和边,所述顶点表示原子,所述边表示化学键;
基于所述分子图样本,通过图神经网络获取所述分子样本特征。
4.根据权利要求2所述的方法,其特征在于,所述获取K个分子样本,包括:
向目标本地设备发送数据调用请求;
若所述目标本地设备对所述数据调用请求鉴权通过,则从所述目标本地设备中获取P个分子样本,其中,所述P为大于或等于1的整数;
从本地数据库中获取Q个分子样本,其中,所述Q为大于或等于1的整数;
将所述P个分子样本和所述Q个分子样本作为所述K个分子样本。
5.根据权利要求1所述的方法,其特征在于,所述根据贝塔分布确定K个特征混合基数,包括:
获取满足所述贝塔分布的随机数,并将所述随机数作为第一特征混合基数;
根据所述第一特征混合基数确定第二特征混合基数。
6.根据权利要求5所述的方法,其特征在于,所述K个分子样本特征包括第一分子样本特征以及第二分子样本特征,所述K个分子标注特征包括第一分子标注特征以及第二分子标注特征;
所述根据所述K个特征混合基数、所述K个分子样本特征以及所述K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征,包括:
采用所述第一特征混合基数对所述第一分子样本特征进行加权,得到第一特征向量;
采用所述第二特征混合基数对所述第二分子样本特征进行加权,得到第二特征向量;
根据所述第一特征向量以及所述第二特征向量,生成所述混合分子样本的所述目标分子样本特征;
采用所述第一特征混合基数对所述第一分子标注特征进行加权,得到第三特征向量;
采用所述第二特征混合基数对所述第二分子标注特征进行加权,得到第四特征向量;
根据所述第三特征向量以及所述第四特征向量,生成所述混合分子样本的所述目标分子标注特征。
7.根据权利要求1所述的方法,其特征在于,所述根据贝塔分布确定K个特征混合基数,包括:
获取满足所述贝塔分布的至少三个随机数;
根据所述至少三个随机数之和,对每个随机数进行归一化,得到所述每个随机数所对应的特征混合基数。
8.根据权利要求7所述的方法,其特征在于,所述K个分子样本特征包括至少三个分子样本特征,所述K个分子标注特征包括至少三个分子标注特征;
所述根据所述K个特征混合基数、所述K个分子样本特征以及所述K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征,包括:
采用所述每个随机数所对应的特征混合基数,对所述至少三个分子样本特征进行加权求和,得到所述混合分子样本的所述目标分子样本特征;
采用所述每个随机数所对应的特征混合基数,对所述至少三个分子标注特征进行加权求和,得到所述混合分子样本的所述目标分子标注特征。
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标分子样本特征以及所述目标分子标注特征,获取针对本地模型的第一局部梯度值之前,所述方法还包括:
响应所述中心设备发送的模型更新指令,从所述中心设备中获取所述全局模型的模型参数,并将所述全局模型的模型参数作为所述本地模型的模型参数。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述根据所述目标分子样本特征以及所述目标分子标注特征,获取针对本地模型的第一局部梯度值,包括:
基于所述目标分子样本特征,通过所述本地模型获取所述混合分子样本的分子属性预测分值,其中,所述分子属性预测分值表示预测针对于目标分子属性的分值;
基于所述分子属性预测分值以及所述目标分子标注特征,通过第一损失函数确定针对所述本地模型的所述第一局部梯度值,其中,所述目标分子标注特征表示针对于所述目标分子属性的实际分值。
11.根据权利要求1至9中任一项所述的方法,其特征在于,所述根据所述目标分子样本特征以及所述目标分子标注特征,获取针对本地模型的第一局部梯度值,包括:
基于所述目标分子样本特征,通过所述本地模型获取所述混合分子样本的分子属性预测分布,其中,所述分子属性预测分布表示预测属于每个分子属性的概率;
基于所述分子属性预测分布以及所述目标分子标注特征,通过第二损失函数确定针对所述本地模型的所述第一局部梯度值,其中,所述目标分子标注特征表示标注属于所述每个分子属性的概率。
12.一种模型训练的方法,其特征在于,包括:
向M个本地设备发送全局模型的模型参数,以使每个本地设备将所述全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对所述本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,所述M为大于或等于1的整数;
接收所述M个本地设备中每个本地设备发送的第二局部梯度值;
根据所述M个本地设备中每个本地设备发送的第二局部梯度值,更新所述全局模型的模型参数;
其中,所述目标分子样本特征以及所述目标分子标注特征为本地设备根据K个特征混合基数,K个分子样本特征以及K个分子标注特征生成的,所述K个特征混合基数为根据贝塔分布确定的,所述分子样本特征与所述分子标注特征具有对应关系,所述K个特征混合基数之和为1,所述K为大于1的整数。
13.根据权利要求12所述的方法,其特征在于,所述向M个本地设备发送全局模型的模型参数之前,所述方法还包括:
获取T个本地设备中每个本地设备所对应的第一权重,其中,所述T为大于或等于所述M的整数,所述T个本地设备的第一权重之和为1;
基于所述T个本地设备中每个本地设备所对应的第一权重,通过概率密度函数从所述T个本地设备中采样得到所述M个本地设备。
14.根据权利要求12或13所述的方法,其特征在于,所述方法还包括:
接收所述M个本地设备中每个本地设备发送的损失值;
根据所述M个本地设备中每个本地设备发送的损失值,对所述M个本地设备中每个本地设备所对应的第一权重进行更新,得到所述M个本地设备中每个本地设备所对应的第二权重。
15.根据权利要求14所述的方法,其特征在于,所述根据所述M个本地设备中每个本地设备发送的损失值,对所述M个本地设备中每个本地设备所对应的第一权重进行更新,得到所述M个本地设备中每个本地设备所对应的第二权重,包括:
根据所述M个本地设备中每个本地设备发送的损失值,对所述M个本地设备中每个本地设备所对应的第一权重进行更新,得到所述M个本地设备中每个本地设备所对应的待处理权重;
根据所述M个本地设备中每个本地设备所对应的待处理权重之和,对每个待处理权重进行归一化,得到所述M个本地设备中每个本地设备所对应的归一化权重;
根据剩余权重总和以及所述M个本地设备中每个本地设备所对应的归一化权重,确定所述M个本地设备中每个本地设备所对应的第二权重。
16.一种模型训练装置,其特征在于,包括:
获取模块,用于获取K个分子样本特征以及K个分子标注特征,其中,所述分子样本特征与所述分子标注特征具有对应关系,所述K为大于1的整数;
确定模块,用于根据贝塔分布确定K个特征混合基数,其中,所述K个特征混合基数之和为1;
生成模块,用于根据所述K个特征混合基数、所述K个分子样本特征以及所述K个分子标注特征,生成混合分子样本的目标分子样本特征以及目标分子标注特征;
获取模块,还用于根据所述目标分子样本特征以及所述目标分子标注特征,获取针对本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值;
发送模块,用于向中心设备发送所述第二局部梯度值。
17.一种模型训练装置,其特征在于,包括:
发送模块,用于向M个本地设备发送全局模型的模型参数,以使每个本地设备将所述全局模型的模型参数作为本地模型的模型参数,并根据目标分子样本特征以及目标分子标注特征,获取针对所述本地模型的第一局部梯度值,当满足模型训练条件时,得到第二局部梯度值,其中,所述M为大于或等于1的整数;
接收模块,用于接收所述M个本地设备中每个本地设备发送的第二局部梯度值;
更新模块,用于根据所述M个本地设备中每个本地设备发送的第二局部梯度值,更新所述全局模型的模型参数;
其中,所述目标分子样本特征以及所述目标分子标注特征为本地设备根据K个特征混合基数,K个分子样本特征以及K个分子标注特征生成的,所述K个特征混合基数为根据贝塔分布确定的,所述分子样本特征与所述分子标注特征具有对应关系,所述K个特征混合基数之和为1,所述K为大于1的整数。
18.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至11中任一项所述的方法,或者,执行权利要求12至15中任一项所述的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
19.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至11中任一项所述的方法,或者,执行权利要求12至15中任一项所述的方法,或,执行权利要求15所述的方法。
20.一种计算机程序产品,包括计算机程序和指令,其特征在于,该计算机程序/指令被处理器执行时实现如权利要求1至11中任一项所述的方法,或者,实现如权利要求12至15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111417472.3A CN114334036A (zh) | 2021-11-25 | 2021-11-25 | 一种模型训练的方法、相关装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111417472.3A CN114334036A (zh) | 2021-11-25 | 2021-11-25 | 一种模型训练的方法、相关装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114334036A true CN114334036A (zh) | 2022-04-12 |
Family
ID=81046365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111417472.3A Pending CN114334036A (zh) | 2021-11-25 | 2021-11-25 | 一种模型训练的方法、相关装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114334036A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423031A (zh) * | 2022-09-20 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法以及相关装置 |
CN115565611A (zh) * | 2022-09-28 | 2023-01-03 | 广州译码基因科技有限公司 | 一种生物学回归预测方法、装置、设备及存储介质 |
CN116304932A (zh) * | 2023-05-19 | 2023-06-23 | 湖南工商大学 | 一种样本生成方法、装置、终端设备及介质 |
-
2021
- 2021-11-25 CN CN202111417472.3A patent/CN114334036A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115423031A (zh) * | 2022-09-20 | 2022-12-02 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法以及相关装置 |
CN115565611A (zh) * | 2022-09-28 | 2023-01-03 | 广州译码基因科技有限公司 | 一种生物学回归预测方法、装置、设备及存储介质 |
CN115565611B (zh) * | 2022-09-28 | 2024-01-23 | 广州译码基因科技有限公司 | 一种生物学回归预测方法、装置、设备及存储介质 |
CN116304932A (zh) * | 2023-05-19 | 2023-06-23 | 湖南工商大学 | 一种样本生成方法、装置、终端设备及介质 |
CN116304932B (zh) * | 2023-05-19 | 2023-09-05 | 湖南工商大学 | 一种样本生成方法、装置、终端设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763599B2 (en) | Model training method and apparatus, face recognition method and apparatus, device, and storage medium | |
CN108228270B (zh) | 启动资源加载方法及装置 | |
WO2020103721A1 (zh) | 信息处理的方法、装置及存储介质 | |
CN114334036A (zh) | 一种模型训练的方法、相关装置、设备以及存储介质 | |
CN110069715B (zh) | 一种信息推荐模型训练的方法、信息推荐的方法及装置 | |
CN111813532B (zh) | 一种基于多任务机器学习模型的图像管理方法及装置 | |
CN111291190B (zh) | 一种编码器的训练方法、信息检测的方法以及相关装置 | |
CN112990390B (zh) | 一种图像识别模型的训练方法、图像识别的方法及装置 | |
CN109918684A (zh) | 模型训练方法、翻译方法、相关装置、设备及存储介质 | |
WO2024041479A1 (zh) | 一种数据处理方法及其装置 | |
CN111914113A (zh) | 一种图像检索的方法以及相关装置 | |
CN114444579B (zh) | 通用扰动获取方法、装置、存储介质及计算机设备 | |
CN113723378B (zh) | 一种模型训练的方法、装置、计算机设备和存储介质 | |
CN114724643A (zh) | 一种多肽化合物的筛选方法以及相关装置 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN112862021B (zh) | 一种内容标注方法和相关装置 | |
CN117540205A (zh) | 模型训练方法、相关装置及存储介质 | |
CN115907041A (zh) | 一种模型训练方法及装置 | |
CN115392405A (zh) | 模型训练方法、相关装置及存储介质 | |
CN115376203A (zh) | 一种数据处理方法及其装置 | |
CN113761784A (zh) | 数据处理方法、数据处理模型的训练方法及装置 | |
CN118035567B (zh) | 模型训练和数据推荐方法、装置、设备、介质及程序产品 | |
CN116450808B (zh) | 一种数据的处理方法、装置以及存储介质 | |
KR102493490B1 (ko) | 인공 지능을 이용한 데이터 크롤링 시스템 | |
CN117373093A (zh) | 基于人工智能的图像识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40071024 Country of ref document: HK |