CN114819057A - 算力网络节点知识迁移方法、装置及系统 - Google Patents
算力网络节点知识迁移方法、装置及系统 Download PDFInfo
- Publication number
- CN114819057A CN114819057A CN202210302664.8A CN202210302664A CN114819057A CN 114819057 A CN114819057 A CN 114819057A CN 202210302664 A CN202210302664 A CN 202210302664A CN 114819057 A CN114819057 A CN 114819057A
- Authority
- CN
- China
- Prior art keywords
- neural network
- weight matrix
- weight
- matrix
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 98
- 238000013508 migration Methods 0.000 title claims abstract description 76
- 230000005012 migration Effects 0.000 title claims abstract description 76
- 239000011159 matrix material Substances 0.000 claims abstract description 387
- 238000013528 artificial neural network Methods 0.000 claims abstract description 356
- 238000012549 training Methods 0.000 claims abstract description 93
- 238000004364 calculation method Methods 0.000 claims description 69
- 238000007906 compression Methods 0.000 claims description 29
- 230000006835 compression Effects 0.000 claims description 29
- 238000013507 mapping Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 23
- 238000009825 accumulation Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000009795 derivation Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012935 Averaging Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007418 data mining Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000007711 solidification Methods 0.000 description 2
- 230000008023 solidification Effects 0.000 description 2
- 241000533950 Leucojum Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种算力网络节点知识迁移方法、装置及系统,其中,该方法包括:向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;接收目标数量的去重后的算力特征神经网络的权重矩阵;基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵。本发明提供的算力网络节点知识迁移方法、装置及系统,能实现算力节点间的知识迁移。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种算力网络节点知识迁移方法、装置及系统。
背景技术
随着人工智能、边缘计算、工业互联网和车联网等业务的不断发展,云、网、边和端各级算力资源分布越来越广泛。并且,数字化、网络化和智能化的社会产生了海量数据,数据处理也需要云边端协同的算力新基础设施。但算力、算法和数据等的种类繁多、分布广泛且相互割裂,大多部署于特定类型的算力资源中,一方面导致大量计算依赖于中心侧的算力资源,导致网络负载过高而边缘与端侧算力资源空载,另一方面算力、算法和数据很难在不同类型或不同级别的算力资源之间协同、复用和迁移,算力资源的整体利用率低。
针对算力资源物理隔离、数据分散等问题,目前常通过基于数据分割和模型分割等解决方案,解决边缘算力资源长期空载的问题,提升算力资源协同和知识迁移能力。其中,最具有代表性的是联邦学习算法。
联邦学习算法的基本思想是首先在各个局部节点训练局部模型,在局部模型完成寻优后,将各个局部模型进行加权平均生成全部模型。在联邦学习的训练过程中,算力网络中传输的是各个局部模型的梯度信息,在一定程度上避免了数据传输导致的高网络负载及数据安全等问题;并且,通过将大量的模型训练过程等下发到分布式算力节点,也相对提高了算力网络的整体计算资源利用率。
但现有技术在新模型训练或算力网络扩展等场景下无法实现节点间的知识迁移。
发明内容
本发明提供一种算力网络节点知识迁移方法、装置及系统,用以解决现有技术中的缺陷,实现。
第一方面,本发明提供一种算力网络节点知识迁移方法,包括:
向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得所述中心节点基于各目标边缘节点发送所述算力特征神经网络的权重矩阵的特征信息,向各所述目标边缘节点下发目标数量的去重后的所述算力特征神经网络的权重矩阵;
接收所述目标数量的去重后的所述算力特征神经网络的权重矩阵;
基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
根据本发明提供的一种算力网络节点知识迁移方法,所述基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本,得到所述第一模型的权重矩阵中的微调部分,从而得到所述第一模型的权重矩阵之后,还包括:
将所述第一模型的权重矩阵和所述各历史神经网络的权重矩阵进行拼接,得到拼接矩阵;
对所述拼接矩阵进行奇异值分解,得到新的算力特征神经网络的权重矩阵对应的特征压缩矩阵;
基于所述特征压缩矩阵对所述拼接矩阵进行压缩,获取新的算力特征神经网络的权重矩阵。
根据本发明提供的一种算力网络节点知识迁移方法,还包括:
将每一所述历史神经网络的权重矩阵表示为重构矩阵和映射矩阵的乘积;所述重构矩阵是基于随机种子生成的;
相应地,所述算力特征神经网络的权重矩阵的特征信息,包括所述算力特征神经网络的权重矩阵对应的特征压缩矩阵、各所述随机种子和各所述映射矩阵。
第二方面,本发明还提供一种算力网络节点知识迁移方法,包括:
获取每个目标边缘节点的所述目标边缘节点的算力特征神经网络的权重矩阵;
将目标数量的去重后的所述算力特征神经网络的权重矩阵下发至各所述目标边缘节点,以使得各所述目标边缘节点基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
第三方面,本发明还提供一种算力网络节点知识迁移装置,包括:
发送模块,用于向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得所述中心节点基于各目标边缘节点发送所述算力特征神经网络的权重矩阵的特征信息,向各所述目标边缘节点下发目标数量的去重后的所述算力特征神经网络的权重矩阵;
接收模块,用于接收所述目标数量的去重后的所述算力特征神经网络的权重矩阵;
训练模块,用于基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
第四方面,本发明还提供一种算力网络节点知识迁移装置,包括:
获取模块,用于获取每个目标边缘节点的所述目标边缘节点的算力特征神经网络的权重矩阵;
下发模块,用于将目标数量的去重后的所述算力特征神经网络的权重矩阵下发至各所述目标边缘节点,以使得各所述目标边缘节点基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
第五方面,本发明还提供一种算力网络节点知识迁移系统,包括:第四方面提供的算力网络节点知识迁移装置和多个第三方面提供的算力网络节点知识迁移装置。
第六方面,本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述算力网络节点知识迁移方法。
第七方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述算力网络节点知识迁移方法。
第八方面,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述算力网络节点知识迁移方法。
本发明提供的算力网络节点知识迁移方法、装置及系统,通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的算力网络节点知识迁移方法的流程示意图之一;
图2是本发明提供的算力网络节点知识迁移方法的应用场景的示意图;
图3是本发明提供的算力网络节点知识迁移方法的流程示意图之二;
图4是本发明提供的算力网络节点知识迁移方法的流程示意图之三;
图5是本发明提供的算力网络节点知识迁移装置的结构示意图之一;
图6是本发明提供的算力网络节点知识迁移装置的结构示意图之二;
图7是本发明提供的算力网络节点知识迁移系统的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例的描述中,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性,且不涉及顺序。
下面结合图1至图8描述本发明提供的算力网络节点知识迁移方法、装置及系统。
图1是本发明提供的算力网络节点知识迁移方法的流程示意图之一。如图1所示,本发明实施例提供的算力网络节点知识迁移方法的执行主体可以为算力网络节点知识迁移装置,该方法包括:步骤101、步骤102和步骤103。
具体地,图2是本发明提供的算力网络节点知识迁移方法的应用场景的示意图,本发明实施例提供的算力网络节点知识迁移方法可以用于图2示出的场景。
如图2所示,算力网络中的各第一边缘节点通过模型训练获得第一个神经网络模型Model1的权重矩阵W1,该算力网络中的各第二边缘节点通过模型训练获得第二个神经网络模型Model2的权重矩阵W2,需要在新的模型训练等场景中,通过点划线框内的各边缘节点进行训练,得到新的神经网络模型Model3。
可以理解的是,神经网络的隐藏层可以看作是对输入数据利用矩阵乘法的特征过程,通过对该矩阵的信息提取能够获得数据挖掘、特征筛选等信息,因此可以通过神经网络的权重矩阵表示该神经网络。
传统的基于联邦学习算法的方案中,数据处理结构仍为“雪花式”,即以数据中心(可以为算力网络中的中心节点)为处理的汇总和协调点,而算力节点间的数据分析往往是隔离的,在新模型训练或算力网络扩展等场景下无法实现节点间的知识迁移。
图2示出的场景是一种新模型训练或算力网络扩展场景,混合使用了部分第一边缘节点、部分第二边缘节点和第三边缘节点(既不是第一边缘节点也不是第二边缘节点的边缘节点)作为目标边缘节点。对于该场景,传统的基于联邦学习算法的方案中,历史模型(包括Model1和Model2)的权重矩阵W1和W2无法辅助新场景中的模型建设,即第一边缘节点的历史模型无法辅助第二边缘节点和第三边缘节点的新模型训练,反之亦然。上述问题在一定程度上造成了历史挖掘数据价值的丢失,可能导致新场景下数据挖掘质量下降。除此之外,每次场景中独立的模型训练,无法将部分模型和特征工程固化到算力节点(指算力网络中的节点,包括边缘节点和中心节点),模型更新需要在算力网络中反复传递完整的神经网络参数(即神经网络的权重矩阵),仍然存在网络负载较高,而整体计算资源空闲的问题。
需要说明的是,每一目标边缘节点,均可以作为本发明实施例中的算力网络节点知识迁移方法的执行主体的算力网络节点知识迁移装置。
步骤101、向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
具体地,目标边缘节点,是参与获取第一模型的各边缘节点。第一模型是神经网络模型。
在确定目标边缘节点是算力网络中的哪些边缘节点之后,每一目标边缘节点可以向中心节点发送自身的算力特征神经网络的权重矩阵的特征信息,而可以不发送完整的算力特征神经网络,以降低需传输的数据量,降低带宽负载。
算力特征神经网络的权重矩阵的特征信息,用于重构该算力特征神经网络的权重矩阵。中心节点可以基于算力特征神经网络的权重矩阵的特征信息,重构出该算力特征神经网络的权重矩阵。
中心节点可以对重构出的各算力特征神经网络的权重矩阵进行去重处理,然后基于去重后的算力特征神经网络的权重矩阵,确定目标数量的去重后的算力特征神经网络的权重矩阵。
可选地,在去重后的算力特征神经网络的权重矩阵的数量大于预设数量N的情况下,目标数量可以为预设数量N,中心节点可以随机抽取N个去重后的算力特征神经网络的权重矩阵,以降低算力节点的预训练矩阵的数量;在去重后的算力特征神经网络的权重矩阵的数量小于或等于该预设数量N的情况下,目标数量可以为去重后的算力特征神经网络的权重矩阵的数量,可以将全部去重后的算力特征神经网络的权重矩阵,确定为目标数量的去重后的算力特征神经网络的权重矩阵。
确定目标数量的去重后的算力特征神经网络的权重矩阵之后,中心节点可以向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵。
需要说明的是,步骤101之前,对每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵。每一边缘节点可以基于任一种适用的特征压缩方法,对自身的各历史神经网络的权重矩阵进行压缩,得到保留了自身的各历史神经网络的权重矩阵的特征的算力特征神经网络的权重矩阵。算力特征神经网络,是该目标边缘节点的特征神经网络。
步骤102、接收目标数量的去重后的算力特征神经网络的权重矩阵。
具体地,目标边缘节点可以接收中心节点下发的目标数量的去重后的算力特征神经网络的权重矩阵。
步骤103、基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵。
具体地,目标边缘节点可以将目标数量的去重后的算力特征神经网络的权重矩阵进行拼接,作为自身的预训练神经网络的权重矩阵。该预训练神经网络作为第一模型的一部分,该预训练神经网络在后续模型训练过程中固化,不参与更新,因而该预训练神经网络的权重矩阵可以作为第一模型的权重矩阵中的固定部分。
第一模型的权重矩阵中除了固定部分之外的部分为微调部分,微调部分的值可以通过模型训练进行微调。微调的过程,可以采用联邦学习算法等联合训练方法。第一模型为全局神经网络,第一模型的权重矩阵中的微调部分用于表示第一模型中的微调神经网络。
通过微调确定第一模型的权重矩阵中的微调部分的值之后,可以结合第一模型的权重矩阵中的固定部分和微调部分,得到第一模型的权重矩阵,进而得到第一模型的权重矩阵表示的第一模型。图2示出的场景中的Model3可以是基于各目标节点的第一模型平均后得到的第二模型。
可选地,可以通过如下微调步骤获取第一模型的权重矩阵:
1、将神经网络参数预结构化,将其表示为低秩矩阵,即令Wi mn=Ai mkBi kn;其中Ai mk为重构矩阵,Bi kn为映射矩阵,其中重构矩阵Ai mk在每个模型训练场景中通过指定一个随机种子Qi生成。
其中,Wi m表示第一模型的权重矩阵,在模型训练过程中更新其中的微调部分,直至训练结束;i为目标边缘节点的编号;m表示第一模型中输入节点的数量;n表示第一模型中输出节点的数量;k为预先确定的正整数,k小于m且k小于n。
2、在目标边缘节点中,基于该目标边缘节点的局部化数据,根据反向传播梯度生成以及梯度下降法进行Bi kn的优化。
3、模型训练过程中,目标边缘节点将局部随机种子Qi和局部映射矩阵Bi kn以及局部误差Ei传输到中心节点。
4、中心节点对权重矩阵首先根据随机种子生成Ai mk,对权重矩阵Wi mn=Ai mk*Bi kn恢复后进行各目标边缘节点的平均,生成全局矩阵Wg mn,对误差Ei求和生成全局误差。
5、中心节点将全局矩阵Wg mn下发到算力节点,算力节点和中心节点协同重复步骤1-4进行下一轮的全局模型优化,直到中心节点误差收敛。
在全局误差不收敛的情况下,中心节点将全局矩阵Wg mn下发到算力节点;在全局误差收敛的情况下,模型训练结束,确定各第一模型和Model3。
中心节点在对算力特征矩阵进行去重、采样后,将算力特征神经网络进行下发和固化,实现了算力矩阵间的特征知识迁移以及算力下沉;在算力节点进行特征工程衍生以及模型微调,生成新场景下的微调神经网络,并与中心节点交互进行全局优化,由于特征神经网络含有历史场景知识,微调神经网络一般远小于全局神经网络,在神经网络传输过程中能够有效降低网络负载。
本发明实施例提供的算力网络节点知识迁移方法,是一种针对多级算力资源(云计算、边缘计算及端计算)并存情况下的算力网络知识迁移方案,对算力节点参与的历史模型参数进行累积、提取和压缩,形成针对算力节点数据特征的算力特征神经网络;在新场景到达后,对参与计算的部分算力节点参数进行算力特征神经网络去重、采样、广播和固化,在后续训练中仅对后续网络进行微调优化。从而实现历史训练知识的提炼和积累以及特征工程的算力下沉,有效降低网络负载,提高算力网络整体利用率,提供客户一致性体验和服务灵活部署。
本发明实施例通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
基于上述任一实施例的内容,基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本,得到第一模型的权重矩阵中的微调部分,从而得到第一模型的权重矩阵之后,还包括:将第一模型的权重矩阵和各历史神经网络的权重矩阵进行拼接,得到拼接矩阵。
具体地,完成新场景的迭代后,将新矩阵进行新的算力节点特征神经网络生成,实现知识累积。
得到第一模型之后,第一模型成为新的历史神经网络。可以对目标边缘节点的新的历史神经网络和原有的各历史神经网络进行拼接,将全部历史神经网络表示为Wh=[(Ai0Bi0)T,(Ai1Bi2)T…(AiNBiN)T]T。在神经网络意义上,相当于将各个独立模型神经网络隐藏层进行拼接。
其中,下标i表示目标边缘节点的编号;Wh表示拼接矩阵;下标0至N分别为第0至N个历史神经网络的编号。
对拼接矩阵进行奇异值分解,得到新的算力特征神经网络的权重矩阵对应的特征压缩矩阵。
具体地,可以对拼接矩阵Wh进行奇异值分解(SVD,Singular ValueDecomposition),将Wh表示为Wh T=USVT。其中,U为Wh的关键特征压缩矩阵(可以简称“特征压缩矩阵”)。
可选地,可以通过截断奇异值分解(Truncated SVD),对奇异值矩阵S进行截断。
可选地,截断标准可以为逐步降低S的维度,并按照前述全部历史神经网络的拼接步骤对Wh进行重构,生成重构矩阵Whc,根据Whc和Wh之间的L2相对距离<a的目标,确定最佳截断维度。
基于特征压缩矩阵对拼接矩阵进行压缩,获取新的算力特征神经网络的权重矩阵。
具体地,将特征压缩矩阵UT与Wh进行相乘,生成压缩后的算力特征神经网络的权重矩阵UTWh,实现知识累积。
本发明实施例通过对第一模型的权重矩阵和各历史神经网络的权重矩阵的拼接矩阵进行奇异值分解,得到新的算力特征神经网络的权重矩阵,实现参数矩阵的强特征提取和压缩、去重,能降低边缘节点与中心节点之间需传输的数据量,能降低带宽负载。在实际应用中,根据压缩率不同,特征压缩率可以在70%以上,即可以将需传输的数据量降低约70%。
基于上述任一实施例的内容,该算力网络节点知识迁移方法还包括:将每一历史神经网络的权重矩阵表示为重构矩阵和映射矩阵的乘积;重构矩阵是基于随机种子生成的。
具体地,可以将神经网络参数预结构化,将其表示为低秩矩阵,即令Wi mn=Ai mkBi kn;其中Ai mk为重构矩阵,Bi kn为映射矩阵,其中重构矩阵Ai mk在每个模型训练场景中通过指定一个随机种子Qi生成。
其中,Wi m表示第一模型的权重矩阵,在模型训练过程中更新其中的微调部分,直至训练结束;i为目标边缘节点的编号;m表示第一模型中输入节点的数量;n表示第一模型中输出节点的数量;k为预先确定的正整数,k小于m且k小于n。
通过预结构训练,将算力节点存储随机种子和映射矩阵即可实现神经网络的压缩存储,压缩率为m/k。
通过预结构算法在算力节点对神经网络参数进行训练和压缩存储,可以解决算力节点存储资源有限的问题。
相应地,算力特征神经网络的权重矩阵的特征信息,包括算力特征神经网络的权重矩阵对应的特征压缩矩阵、各随机种子和各映射矩阵。
相应地,目标边缘节点可以将包括随机种子Qij和Bij,以及特征压缩矩阵UT在内的信息作为自身的算力特征神经网络的权重矩阵的特征信息,向中心节点传输。
其中,下标i为目标边缘节点的编号;下标j为目标边缘节点的历史神经网络的编号。
本发明实施例通过将每一历史神经网络的权重矩阵表示为重构矩阵和映射矩阵的乘积,实现神经网络的压缩存储,能降低边缘节点与中心节点之间需传输的数据量,能降低带宽负载。在实际应用中,神经网络的压缩率约60%以上。
图3是本发明提供的算力网络节点知识迁移方法的流程示意图之二。基于上述任一实施例的内容,如图3所示,本发明实施例提供的算力网络节点知识迁移方法的执行主体可以为算力网络节点知识迁移装置,该方法包括:步骤301和步骤302。
具体地,该算力网络节点知识迁移装置,可以是算力网络中的中心节点。
步骤301、获取每个目标边缘节点的目标边缘节点的算力特征神经网络的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
具体地,每一边缘节点可以基于任一种适用的特征压缩方法,对自身的各历史神经网络的权重矩阵进行压缩,得到保留了自身的各历史神经网络的权重矩阵的特征的算力特征神经网络的权重矩阵。算力特征神经网络,是该目标边缘节点的特征神经网络。
在确定目标边缘节点是算力网络中的哪些边缘节点之后,每一目标边缘节点可以向中心节点发送自身的算力特征神经网络的权重矩阵的特征信息,而可以不发送完整的算力特征神经网络,以降低需传输的数据量,降低带宽负载。
算力特征神经网络的权重矩阵的特征信息,用于重构该算力特征神经网络的权重矩阵。中心节点可以基于算力特征神经网络的权重矩阵的特征信息,重构出该算力特征神经网络的权重矩阵。
步骤302、将目标数量的去重后的算力特征神经网络的权重矩阵下发至各目标边缘节点,以使得各目标边缘节点基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵。
具体地,中心节点可以对重构出的各算力特征神经网络的权重矩阵进行去重处理,然后基于去重后的算力特征神经网络的权重矩阵,确定目标数量的去重后的算力特征神经网络的权重矩阵。
可选地,在去重后的算力特征神经网络的权重矩阵的数量大于预设数量N的情况下,目标数量可以为预设数量N,中心节点可以随机抽取N个去重后的算力特征神经网络的权重矩阵,以降低算力节点的预训练矩阵的数量;在去重后的算力特征神经网络的权重矩阵的数量小于或等于该预设数量N的情况下,目标数量可以为去重后的算力特征神经网络的权重矩阵的数量,可以将全部去重后的算力特征神经网络的权重矩阵,确定为目标数量的去重后的算力特征神经网络的权重矩阵。
确定目标数量的去重后的算力特征神经网络的权重矩阵之后,中心节点可以向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵。
目标边缘节点可以接收中心节点下发的目标数量的去重后的算力特征神经网络的权重矩阵;可以将目标数量的去重后的算力特征神经网络的权重矩阵进行拼接,作为自身的预训练神经网络的权重矩阵。该预训练神经网络作为第一模型的一部分,该预训练神经网络在后续模型训练过程中固化,不参与更新,因而该预训练神经网络的权重矩阵可以作为第一模型的权重矩阵中的固定部分。
第一模型的权重矩阵中除了固定部分之外的部分为微调部分,微调部分的值可以通过模型训练进行微调。
通过微调确定第一模型的权重矩阵中的微调部分的值之后,可以结合第一模型的权重矩阵中的固定部分和微调部分,得到第一模型的权重矩阵,进而得到第一模型的权重矩阵表示的第一模型。
本发明实施例通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
图4是本发明提供的算力网络节点知识迁移方法的流程示意图之三。基于上述任一实施例的内容,如图4所示,算力网络节点知识迁移方法的实施过程可以包括如下步骤:
基于预结构的神经网络训练和网络压缩:
Step1&2、边缘局部优化
Step1、将神经网络参数预结构化,将其表示为低秩矩阵,即令Wi mn=Ai mkBi kn;其中Ai mk为重构矩阵,Bi kn为映射矩阵,其中重构矩阵Ai mk在每个模型训练场景中通过指定一个随机种子Qi生成。
将神经网络表示为低秩预结构化矩阵,存储随机种子和映射矩阵即可实现神经网络的复现。
Step2、在算力节点中,基于算力节点的局部化数据,根据反向传播梯度生成以及梯度下降法进行Bi kn的优化。
Step3、上传随机种子和压缩网络
模型训练过程中,算力节点将局部随机种子Qi和局部映射矩阵Bi kn以及局部误差Ei传输到中心节点。局部映射矩阵Bi kn可以表示压缩后的神经网络。
在全局神经网络的传输中,只需要传输映射矩阵和随机种子,实现m/k的压缩比率。
Step4、平均生成全局神经网络
中心节点对权重矩阵首先根据随机种子生成Ai mk,对权重矩阵Wi mn=Ai mk*Bi kn恢复后进行多个算力节点的平均,生成全局矩阵Wg mn,对误差Ei求和生成全局误差。全局矩阵Wg mn可以为全局神经网络的权重矩阵。
Step5、下发全局神经网络&Step6、迭代至收敛
中心节点将全局神经网络下发,重复迭代,生成全局最优神经网络。
中心节点将全局矩阵Wg mn下发到算力节点,算力节点和中心节点协同重复Step1-4进行下一轮的全局模型优化,直到中心节点误差收敛。
基于SVD的特征神经网络生成:
Step7、神经网络拼接
在各个模型训练场景下,重复步骤1-5,生成各个模型的算力神经网络矩阵,包括随机种子Qij和Bij(其中,i代表算力节点的编号,j代表该算力节点参与生成的历史模型的编号)。历史模型即历史神经网络。算力节点通过存储随机种子和映射矩阵,实现历史网络的存储和恢复,存储负担降低比例为m/k。
对算力节点中的历史神经网络进行拼接,即将历史神经网络表示为Wh=[(Ai0Bi0)T,(Ai1Bi2)T…(AiNBiN)T]T。在神经网络意义上,相当于将各个独立模型神经网络隐藏层进行拼接。
Step8、SVD分解
对上述拼接后的矩阵Wh进行SVD分解,即将Wh表示为Wh T=USVT,其中U为Wh的关键特征压缩矩阵。
采用SVD方法对拼接后的神经网络矩阵进行特征提取和降维,该过程实现在原有拼接神经网络基础上新增一层。
Step9&10、SVD截断与压缩
对奇异值矩阵S进行进行截断:截断标准为,逐步降低S的维度,并按照Step7对Wh进行重构,生成重构矩阵Whc,根据Whc和Wh的L2相对距离<a,确定最佳截断维度。
将特征压缩矩阵UT与Wh进行相乘,生成压缩后的算力特征神经网络UTWh。
预训练神经网络生成:
Step11、上传特征神经网络
在新模型场景下,算力神经网络需要将存储算力特征神经网络UTWh传输到中心节点,为了降低存储,将随机种子Qij和Bij、UT传输到中心节点,由中心节点进行UTWh的重构。
Step12、去重与采样
中心节点将算力节点的UTWh进行去重,为了降低算力节点的预训练矩阵量,对算力节点上传的UTWh进行抽样。抽样标准为:如去重后的算力特征神经网络数量>N,则随机抽取N个,否则全量下发到算力节点;N根据算力节点的算力和存储能力灵活确定,也可以作为全局模型的超参数之一进行优化。
Step13、网络下发
中心节点下发N个特征矩阵。算力节点将从中心节点接收的特征矩阵进行拼接,Wr=[(U0 TWh0)T,(U1 TWh1)T…(UN TWhN)T]T,作为该算力节点的预训练神经网络,该网络在后续模型训练过程中固化,不参与更新。
微调和全局神经网络生成:
Step14、预训练特征生成
将算力节点数据与预训练神经网络相乘,获得预训练特征,即P=WrD,将Wr与该算力节点的裸特征D拼接。该步骤中特征拼接可以通过将Wrnew表示为[I,(U0 TWh0)T,(U1 TWh1)T…(UN TWhN)T]T实现。
Step15、重复Step1-4生成微调神经网络和全局神经网络
重复Step1-4的过程,对该神经网络进行微调,生成新场景下的微调神经网络Wgt,训练得到的全局神经网络标识为Wgn=Wgt*Wrnew。
Step16、知识积累
完成新场景的迭代后,将Wgn作为新的历史模型的权重矩阵,重复Step 7-10,进行新的算力节点的特征神经网络生成,实现知识累积。
本发明实施例是一种基于局部预结构训练-微调框架的算力节点知识迁移方案,在算力节点对历史神经网络进行压缩存储,并利用SVD方法进行特征提取生成算力特征神经网络;中心节点对算力节点特征网络进行去重和采样,并下发到算力节点固化,形成预训练特征矩阵;在后续训练中仅生成微调网络,实现算力节点间的知识迁移和特征工程算力下沉。
通过特征神经网络,实现了历史训练知识的提炼和积累;通过知识迁移和微调,实现了算力节点间的知识迁移和算力下沉,由于算力节点进行了有效的特征工程,在后续网络往往远小于传统的全局网络,因此能够有效降低网络负载。
下面对本发明提供的算力网络节点知识迁移装置进行描述,下文描述的算力网络节点知识迁移装置与上文描述的算力网络节点知识迁移方法可相互对应参照。
图5是本发明提供的算力网络节点知识迁移装置的结构示意图之一。基于上述任一实施例的内容,如图5所示,该装置包括发送模块501、接收模块502和训练模块503,其中:
发送模块501,用于向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;
接收模块502,用于接收目标数量的去重后的算力特征神经网络的权重矩阵;
训练模块503,用于基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;
其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
具体地,该装置可以为目标边缘节点。发送模块501、接收模块502和训练模块503可以顺次电连接。
发送模块501可以向中心节点发送自身的算力特征神经网络的权重矩阵的特征信息,而可以不发送完整的算力特征神经网络,以降低需传输的数据量,降低带宽负载。
接收模块502可以接收中心节点下发的目标数量的去重后的算力特征神经网络的权重矩阵。
训练模块503可以将目标数量的去重后的算力特征神经网络的权重矩阵进行拼接,作为自身的预训练神经网络的权重矩阵。该预训练神经网络作为第一模型的一部分,该预训练神经网络在后续模型训练过程中固化,不参与更新,因而该预训练神经网络的权重矩阵可以作为第一模型的权重矩阵中的固定部分。
第一模型的权重矩阵中除了固定部分之外的部分为微调部分,微调部分的值可以通过模型训练进行微调。训练模块503可以通过微调确定第一模型的权重矩阵中的微调部分的值,结合第一模型的权重矩阵中的固定部分和微调部分,得到第一模型的权重矩阵,进而得到第一模型的权重矩阵表示的第一模型。
可选地,该装置还可以包括:
压缩模块,用于将第一模型的权重矩阵和各历史神经网络的权重矩阵进行拼接,得到拼接矩阵;对拼接矩阵进行奇异值分解,得到新的算力特征神经网络的权重矩阵对应的特征压缩矩阵;基于特征压缩矩阵对拼接矩阵进行压缩,获取新的算力特征神经网络的权重矩阵。
可选地,该装置还可以包括:
预结构化模块,用于将每一历史神经网络的权重矩阵表示为重构矩阵和映射矩阵的乘积;重构矩阵是基于随机种子生成的;
相应地,算力特征神经网络的权重矩阵的特征信息,包括算力特征神经网络的权重矩阵对应的特征压缩矩阵、各随机种子和各映射矩阵。
本发明实施例提供的算力网络节点知识迁移装置,用于执行本发明上述算力网络节点知识迁移方法,其实施方式与本发明提供的算力网络节点知识迁移方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
该算力网络节点知识迁移装置用于前述各实施例的算力网络节点知识迁移方法。因此,在前述各实施例中的算力网络节点知识迁移方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
图6是本发明提供的算力网络节点知识迁移装置的结构示意图之二。基于上述任一实施例的内容,如图6所示,该装置包括获取模块601和下发模块602,其中:
获取模块601,用于获取每个目标边缘节点的目标边缘节点的算力特征神经网络的权重矩阵;
下发模块602,用于将目标数量的去重后的算力特征神经网络的权重矩阵下发至各目标边缘节点,以使得各目标边缘节点基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;
其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
具体地,该装置可以为中心节点。获取模块601和下发模块602可以电连接。
获取模块601可以基于算力特征神经网络的权重矩阵的特征信息,重构出该算力特征神经网络的权重矩阵。
下发模块602可以对重构出的各算力特征神经网络的权重矩阵进行去重处理,然后基于去重后的算力特征神经网络的权重矩阵,确定目标数量的去重后的算力特征神经网络的权重矩阵。
确定目标数量的去重后的算力特征神经网络的权重矩阵之后,下发模块602可以向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵。
可选地,该装置可以包括模型生成模块,用于对权重矩阵恢复后进行多个算力节点的平均,生成全局矩阵。
本发明实施例提供的算力网络节点知识迁移装置,用于执行本发明上述算力网络节点知识迁移方法,其实施方式与本发明提供的算力网络节点知识迁移方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
该算力网络节点知识迁移装置用于前述各实施例的算力网络节点知识迁移方法。因此,在前述各实施例中的算力网络节点知识迁移方法中的描述和定义,可以用于本发明实施例中各执行模块的理解。
本发明实施例通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
图7是本发明提供的算力网络节点知识迁移系统的结构示意图。基于上述任一实施例的内容,如图7所示,该系统包括中心节点701和多个边缘节点702。
具体的,中心节点701可以是一种算力网络节点知识迁移装置;边缘节点702为目标边缘节点,可以是另一种算力网络节点知识迁移装置。
中心节点701和边缘节点702实施算力网络节点知识迁移的过程,可以参见前述各实施例,此处不再赘述。
本发明实施例通过将每次算力节点参与的全局模型参数进行固化,存储到算力节点中,得到历史神经网络的权重矩阵,基于场景累计,对各历史神经网络的权重矩阵进行压缩得到的算力特征神经网络的权重矩阵,在新场景或算力网络扩容下,中心节点对各目标边缘节点的算力特征神经网络的权重矩阵广播到其他目标边缘节点,进行特征衍生,在新模型的训练过程中,对特征神经网络进行固化,仅对后续神经网络进行训练,生成微调神经网络,与特征神经网络协同生成全局网络,能实现算力节点间的知识迁移。
图8是本发明提供的电子设备的结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行算力网络节点知识迁移方法,该方法包括:向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;接收目标数量的去重后的算力特征神经网络的权重矩阵;基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的;或者包括:获取每个目标边缘节点的目标边缘节点的算力特征神经网络的权重矩阵;将目标数量的去重后的算力特征神经网络的权重矩阵下发至各目标边缘节点,以使得各目标边缘节点基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的电子设备中的处理器810可以调用存储器830中的逻辑指令,其实施方式与本申请提供的算力网络节点知识迁移方法的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
另一方面,本发明还提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法所提供的算力网络节点知识迁移方法,该方法包括:向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;接收目标数量的去重后的算力特征神经网络的权重矩阵;基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的;或者包括:获取每个目标边缘节点的目标边缘节点的算力特征神经网络的权重矩阵;将目标数量的去重后的算力特征神经网络的权重矩阵下发至各目标边缘节点,以使得各目标边缘节点基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
本申请实施例提供的计算机程序产品被执行时,实现上述算力网络节点知识迁移方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的算力网络节点知识迁移方法,该方法包括:向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得中心节点基于各目标边缘节点发送算力特征神经网络的权重矩阵的特征信息,向各目标边缘节点下发目标数量的去重后的算力特征神经网络的权重矩阵;接收目标数量的去重后的算力特征神经网络的权重矩阵;基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的;或者包括:获取每个目标边缘节点的目标边缘节点的算力特征神经网络的权重矩阵;将目标数量的去重后的算力特征神经网络的权重矩阵下发至各目标边缘节点,以使得各目标边缘节点基于目标数量的去重后的算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于目标数量的去重后的算力特征神经网络的权重矩阵和训练样本进行训练,得到第一模型的权重矩阵中的微调部分,以得到第一模型的权重矩阵;其中,目标边缘节点的算力特征神经网络的权重矩阵,是目标边缘节点对目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
本申请实施例提供的非暂态计算机可读存储介质上存储的计算机程序被执行时,实现上述算力网络节点知识迁移方法,其具体的实施方式与前述方法的实施例中记载的实施方式一致,且可以达到相同的有益效果,此处不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种算力网络节点知识迁移方法,其特征在于,包括:
向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得所述中心节点基于各目标边缘节点发送所述算力特征神经网络的权重矩阵的特征信息,向各所述目标边缘节点下发目标数量的去重后的所述算力特征神经网络的权重矩阵;
接收所述目标数量的去重后的所述算力特征神经网络的权重矩阵;
基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
2.根据权利要求1所述的算力网络节点知识迁移方法,其特征在于,所述基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本,得到所述第一模型的权重矩阵中的微调部分,从而得到所述第一模型的权重矩阵之后,还包括:
将所述第一模型的权重矩阵和所述各历史神经网络的权重矩阵进行拼接,得到拼接矩阵;
对所述拼接矩阵进行奇异值分解,得到新的算力特征神经网络的权重矩阵对应的特征压缩矩阵;
基于所述特征压缩矩阵对所述拼接矩阵进行压缩,获取新的算力特征神经网络的权重矩阵。
3.根据权利要求2所述的算力网络节点知识迁移方法,其特征在于,还包括:
将每一所述历史神经网络的权重矩阵表示为重构矩阵和映射矩阵的乘积;所述重构矩阵是基于随机种子生成的;
相应地,所述算力特征神经网络的权重矩阵的特征信息,包括所述算力特征神经网络的权重矩阵对应的特征压缩矩阵、各所述随机种子和各所述映射矩阵。
4.一种算力网络节点知识迁移方法,其特征在于,包括:
获取每个目标边缘节点的所述目标边缘节点的算力特征神经网络的权重矩阵;
将目标数量的去重后的所述算力特征神经网络的权重矩阵下发至各所述目标边缘节点,以使得各所述目标边缘节点基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
5.一种算力网络节点知识迁移装置,其特征在于,包括:
发送模块,用于向中心节点发送算力特征神经网络的权重矩阵的特征信息,以使得所述中心节点基于各目标边缘节点发送所述算力特征神经网络的权重矩阵的特征信息,向各所述目标边缘节点下发目标数量的去重后的所述算力特征神经网络的权重矩阵;
接收模块,用于接收所述目标数量的去重后的所述算力特征神经网络的权重矩阵;
训练模块,用于基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
6.一种算力网络节点知识迁移装置,其特征在于,包括:
获取模块,用于获取每个目标边缘节点的所述目标边缘节点的算力特征神经网络的权重矩阵;
下发模块,用于将目标数量的去重后的所述算力特征神经网络的权重矩阵下发至各所述目标边缘节点,以使得各所述目标边缘节点基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵得到第一模型的权重矩阵中的固定部分,并基于所述目标数量的去重后的所述算力特征神经网络的权重矩阵和训练样本进行训练,得到所述第一模型的权重矩阵中的微调部分,以得到所述第一模型的权重矩阵;
其中,所述目标边缘节点的算力特征神经网络的权重矩阵,是所述目标边缘节点对所述目标边缘节点的各历史神经网络的权重矩阵进行压缩后得到的。
7.一种算力网络节点知识迁移系统,其特征在于,包括:如权利要求6所述的算力网络节点知识迁移装置和多个如权利要求5所述的算力网络节点知识迁移装置。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述算力网络节点知识迁移方法。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述算力网络节点知识迁移方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述算力网络节点知识迁移方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302664.8A CN114819057A (zh) | 2022-03-24 | 2022-03-24 | 算力网络节点知识迁移方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210302664.8A CN114819057A (zh) | 2022-03-24 | 2022-03-24 | 算力网络节点知识迁移方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114819057A true CN114819057A (zh) | 2022-07-29 |
Family
ID=82529931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210302664.8A Pending CN114819057A (zh) | 2022-03-24 | 2022-03-24 | 算力网络节点知识迁移方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114819057A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521952A (zh) * | 2023-07-04 | 2023-08-01 | 北京富算科技有限公司 | 使用联邦学习模型进行人群包统计的方法及装置 |
-
2022
- 2022-03-24 CN CN202210302664.8A patent/CN114819057A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116521952A (zh) * | 2023-07-04 | 2023-08-01 | 北京富算科技有限公司 | 使用联邦学习模型进行人群包统计的方法及装置 |
CN116521952B (zh) * | 2023-07-04 | 2023-09-05 | 北京富算科技有限公司 | 使用联邦学习模型进行人群包统计的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | Adaptive gradient sparsification for efficient federated learning: An online learning approach | |
CN113010305B (zh) | 部署在边缘计算网络中的联邦学习系统及其学习方法 | |
CN109740755B (zh) | 一种基于梯度下降法的数据处理方法及相关装置 | |
CN111553484A (zh) | 联邦学习的方法、装置及系统 | |
JP6227813B1 (ja) | 分散深層学習装置及び分散深層学習システム | |
Conway-Jones et al. | Demonstration of federated learning in a resource-constrained networked environment | |
CN112235384A (zh) | 分布式系统中的数据传输方法、装置、设备及存储介质 | |
CN113570027A (zh) | 用于生成神经网络模型的方法、装置、系统、设备、介质和程序产品 | |
CN114819057A (zh) | 算力网络节点知识迁移方法、装置及系统 | |
CN104144313A (zh) | 视频通信方法、系统与云端图像服务器 | |
CN112600697B (zh) | 基于联邦学习的QoS预测方法及系统、客户端和服务端 | |
CN114861790B (zh) | 联邦学习压缩通信的优化方法、系统及装置 | |
CN112906046A (zh) | 一种利用单比特压缩感知技术的模型训练方法和装置 | |
CN114465900B (zh) | 基于联邦边缘学习的数据共享时延优化方法及装置 | |
CN116629305A (zh) | 基于粒子群算法的联邦学习优化方法及装置 | |
CN116362327A (zh) | 一种模型训练方法、系统及电子设备 | |
CN115131196A (zh) | 一种图像处理方法、系统及存储介质和终端设备 | |
CN114595815A (zh) | 一种面向传输友好的云-端协作训练神经网络模型方法 | |
CN111405571B (zh) | 卫星无人机混合网络的频谱共享方法 | |
Alabbasi et al. | On cascaded federated learning for multi-tier predictive models | |
Zhou et al. | Dynamic Coded Distributed Convolution for UAV-based Networked Airborne Computing | |
CN115686821A (zh) | 一种边缘计算任务的卸载方法及装置 | |
CN115499657A (zh) | 视频码率自适应网络的训练方法、应用方法、装置及设备 | |
CN116704296B (zh) | 一种图像处理方法、装置、系统、设备及计算机存储介质 | |
CN114827289B (zh) | 一种通信压缩方法、系统、电子装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |