CN117220734A - 一种模型传输的方法及装置 - Google Patents
一种模型传输的方法及装置 Download PDFInfo
- Publication number
- CN117220734A CN117220734A CN202210609813.5A CN202210609813A CN117220734A CN 117220734 A CN117220734 A CN 117220734A CN 202210609813 A CN202210609813 A CN 202210609813A CN 117220734 A CN117220734 A CN 117220734A
- Authority
- CN
- China
- Prior art keywords
- signals
- models
- model
- information
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 241
- 230000005540 biological transmission Effects 0.000 title claims abstract description 154
- 230000004927 fusion Effects 0.000 claims abstract description 149
- 238000003860 storage Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 405
- 238000012545 processing Methods 0.000 claims description 221
- 238000013528 artificial neural network Methods 0.000 claims description 117
- 230000015654 memory Effects 0.000 claims description 86
- 230000008569 process Effects 0.000 claims description 78
- 239000011159 matrix material Substances 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 58
- 230000010365 information processing Effects 0.000 claims description 3
- 230000006854 communication Effects 0.000 abstract description 80
- 238000004891 communication Methods 0.000 abstract description 77
- 238000003062 neural network model Methods 0.000 description 299
- 238000006243 chemical reaction Methods 0.000 description 254
- 239000010410 layer Substances 0.000 description 212
- 238000011176 pooling Methods 0.000 description 47
- 230000006870 function Effects 0.000 description 44
- 238000013527 convolutional neural network Methods 0.000 description 36
- 238000013473 artificial intelligence Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 29
- 210000002569 neuron Anatomy 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 20
- 230000004913 activation Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 12
- 230000001537 neural effect Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 11
- 238000013138 pruning Methods 0.000 description 11
- 238000013500 data storage Methods 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 8
- 230000001360 synchronised effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 6
- 230000010267 cellular communication Effects 0.000 description 6
- 238000013140 knowledge distillation Methods 0.000 description 6
- 238000013526 transfer learning Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000007781 pre-processing Methods 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000003190 augmentative effect Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000007667 floating Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000820057 Ithone Species 0.000 description 2
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- -1 i.e. Substances 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/0413—MIMO systems
- H04B7/0456—Selection of precoding matrices or codebooks, e.g. using matrices antenna weighting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/02—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas
- H04B7/04—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas
- H04B7/06—Diversity systems; Multi-antenna system, i.e. transmission or reception using multiple antennas using two or more spaced independent antennas at the transmitting station
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本申请实施例提供了一种模型传输的方法及装置,涉及通信技术领域,该方法包括:获取N个第一模型的信息,该N个第一模型对应N个第一任务,其中,N为大于或等于2的整数;获取融合辅助信息,该融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与该N个第一任务不同;根据N个第一模型的信息和该融合辅助信息确定N个第一信号;发送该N个第一信号。本申请的模型传输的方法能够实现多个模型的联合传输,同时可有效降低多个模型在传输过程中的资源开销与时延,并可减少接收端装置对于模型预留的存储空间。
Description
技术领域
本申请实施例涉及通信技术领域,具体涉及一种模型传输的方法及装置。
背景技术
人工神经网络(artificial neural networks,ANN)是一种模拟生物神经网络进行信息处理的非线性统计性数据建模工具。在多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种具备学习能力的自适应系统。这类网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系以达到处理信息的目的,已广泛应用于图像分类、人脸识别和语音识别等领域。
随着人工神经网络技术的普及,以及边缘人工智能(artificial intelligence,AI)设备(例如车载移动装置、无人机、智能手机、个人数字助理)的广泛应用,使用神经网络模型的业务也越来越多,随之而来的,可能需要为同一客户端传输多个神经网络模型。
目前,已知一种通信技术,如图1所示,将一个神经网络模型视作一个待传输的数据,对该数据进行编码后生成对应的信号,并通过无线链路进行发送以实现神经网络模型的传输。但这一传输过程并未将通信过程与人工智能应用的训练过程进行结合,且多个神经网络模型之间相互独立传输,进而导致神经网络模型的传输性能较低,难以满足当前业务的需求。
因此,如何实现多个神经网络模型的高效传输以及减小多个神经网络模型在传输过程中的资源开销和时延,已成为业界亟需解决的技术问题。
发明内容
本申请实施例提供一种模型传输的方法及装置,可实现多个模型的联合传输,降低该多个模型在传输过程中的资源开销和时延,并同时减少接收端设备对于目标神经网络模型的存储空间。
第一方面,提供了一种模型传输的方法,应用于发送端装置或发送端装置中的芯片上,该方法包括:获取N个第一模型的信息,该N个第一模型对应N个第一任务,其中,N为大于或等于2的整数;获取融合辅助信息,该融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与第一任务不同;根据N个第一模型的信息和该融合辅助信息确定N个第一信号;发送该N个第一信号。根据本申请实施例的方案,该方法可以应用于发送端装置或者发送端装置侧的芯片或芯片系统。
根据本申请实施例的方案,发送端装置获取N个第一模型的信息与融合辅助信息,并根据第一模块对该N个第一模型的信息与融合辅助信息进行处理,得到N个第一信号,随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端对于神经网络模型的存储空间。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
结合第一方面,在第一方面的某些实现方式中,该N个第一信号是通过发送端装置内的第一模块对N个第一模型的信息和该融合辅助信息处理后得到的。
结合第一方面,在第一方面的某些实现方式中,该第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第一方面,在第一方面的某些实现方式中,第一模块是根据发送N个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息(channelstate information,CSI)、信噪比(signal-to-noise ratio,SNR)、链路质量。其中,信道状态信息可包括:信道质量指示(channel quality indicator,CQI)、秩指示(rankindicator,RI)、预编码矩阵(precoder matrix,PMI)。
结合第一方面,在第一方面的某些实现方式中,N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第一方面,在第一方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,该第三训练信号与中间模型对应;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该第一模块。
根据本申请实施例的方案,该第一模型可通过模型训练的方式得到,从而有利于实现N个第一信号在信道中完成叠加,进而得到与目标模型对应的第二信号。
结合第一方面,在第一方面的某些实现方式中,该模型传输的方法还包括:发送该融合辅助信息。
结合第一方面,在第一方面的某些实现方式中,该融合辅助信息来自该N个第一信号的接收端装置,或者该融合辅助信息来自为该N个第一信号的接收端装置提供服务的服务器。
可选地,该N个第一模型的信息承载于N个信号A中,该N个第一模型与N个信号A一一对应。
具体地,在本申请实施例的模型传输的方法中,该N个第一模块处理N个第一模型对应的N个信号A的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个信号A可为模拟信号或者数字信号。
方式一,
在方式一中,该N个信号A为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个信号A经过所对应的N个处理处理后得到的N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第一信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式二,
在方式二中,该N个信号A为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式三,
在方式三中,该N个信号A为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式四,
在方式四中,该N个信号为A经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式四的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式五,
在方式五中,该N个信号A为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
第二方面,提供了一种模型传输的方法,应用于发送端装置或发送端装置中的芯片上,该方法包括:获取N个第一信号,该N个第一信号与该N个第一模型一一对应,每个第一信号用于承载所对应的该第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,N为大于或等于2的整数;获取N个第二模型,该N个第二模型与该N个第一模型一一对应,其中,该N个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,M为大于或等于2的整数,该M个第一训练模型对应的M个业务包括该N个第一模型对应的N个业务,且彼此对应的第一模型和第二模型对应同一业务;根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,其中,该N个第二信号中的第n个第二信号是根据第n个第二模型对第n个第一信号进行处理得到的信号,该第n个第一信号是该第n个第二模型对应的第一模型的信号,n∈[1,N];通过同一信道发送该N个第二信号。
根据本申请实施例的方案,发送端装置获取N个第一模型对应的N个第一信号,并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,随后通过第一信道发送该N个第二信号。进而接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端对于神经网络模型的存储空间。
其中,上述模型的外部特征值包括以下信息中的一个或多个:神经网络计算图信息、优化器信息、超参数信息。
结合第二方面,在第二方面的某些实现方式中,该获取N个第二模型包括:根据发送该N个第二信号的信道的参数,获取该N个第二模型。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第二方面,在第二方面的某些实现方式中,该获取N个第二模型还包括:根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的信息,确定第i个第一模型对应的第二模型,i∈[1,N]。
结合第二方面,在第二方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号;对该第三训练信号进行解析以获得中间模型;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该N个第二模型。
根据本申请实施例的方案,可通过模型训练的方式获得满足任务需求的第二模型,从而实现N个第一信号在信道中的叠加,进而得到与目标模型对应的第二信号。
应理解,上述模型的参数可包括权重矩阵、权重向量、偏置矩阵、偏置向量。
具体地,在本申请实施例的模型传输的方法中,该N个第二模型处理N个第一模型对应的N个第一信号的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个第一信号可为模拟信号或者数字信号。
方式一,
在方式一中,该N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第二信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式二,
在方式二中,该N个第一信号为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式三,
在方式三中,该N个第一信号为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式四,
在方式四中,该N个第一信号为经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式四的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式五,
在方式五中,该N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
结合第二方面,在第二方面的某些实现方式中,该模型传输的方法还包括:接收第一信息,该第一信息用于确定该N个第一模型。
其中,该第一信息来自该第二信号的接收端装置,或者该第一信息来自为该第二信号的接收端装置提供服务的服务器。该第一信息包括以下中的一项或者多项:神经网络计算图信息、优化器信息和超参数信息。
第三方面,提供了一种模型传输的方法,应用于至少两个发送端装置向一个接收端装置进行模型的传输的系统中,该方法包括:第一发送端装置获取N个第一模型中的S个第一模型的信息,该N个第一模型中的S个第一模型对应S个第一任务;获取第一融合辅助信息,该第一融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与该S个第一任务不同;第二发送端装置获取N个第一模型中的K个第一模型的信息,该N个第一模型中的K个第一模型对应K个第一任务;获取第二融合辅助信息,该第二融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与该K个第一任务不同,该S个第一模型与该K个第一模型的交集为空集;发送该S个第一信号与K个第一信号。可以理解,如果只有两个发送端装置,那么所述N个第一模型是所述S个第一模型与所述K个第一模型的并集。可选的,所述装置可以是装置或者装置中的芯片。
根据本申请实施例的方案,多个发送端装置可获取对N个第一模型的信息以及该融合辅助信息(例如,当N=2时,第一发送端装置可获取N个第一模型中的S个第一模型和第一融合辅助信息,第二发送端装置可获取N个第一模型中的K个第一模型和第二融合辅助信息,该K个第一模型与该S个第一模型的交集为空集),并根据N个第一模块对该N个第一模型的信息和该融合辅助信息进行处理,得到N个第一信号(例如,N=2时,第一发送端装置对应的S个第一模型的信息和第一融合辅助信息经过所对应的第一模块处理后为S个第一信号,第二发送端装置对应的K个第一模型的信息和该第二融合辅助信息经过所对应的第一模块处理后为K个第一信号),随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
具体地,对于一个发送端装置向一个接收端装置进行模型传输的过程中,该N个第一信号是第一模块对该N个第一模型的信息和该融合辅助信息处理后得到的。对于多个发送端装置向一个接收端装置进行模型传输的过程中,例如两个发送端装置,上述S个第一信号是第一发送端装置通过对应的第一模块对该S个第一模型中的S个第一模型的信息和第一融合辅助信息处理后得到的,上述K个第一信号是第二发送端装置通过对应的第一模块对该K个第一模型中的K个第一模型的信息和第二融合辅助信息处理后得到的。
应理解,在本申请实施例中,第一融合辅助信息和第二融合辅助信息可以相同也可以不同。当第一融合辅助信息与第二融合辅助信息相同时,该第一融合辅助信息和第二融合辅助信息均可用来表示目标模型的外部特征值。当第一融合辅助信息与第二融合辅助信息不同时,该第一融合辅助信息表示目标模型的外部特征值的第一子集,该第二融合辅助信息表示目标模型的外部特征值的第二子集,该第一子集和该第二子集不同,且目标模型的外部特征值为该第一子集和第二子集的并集。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
结合第三方面,在第三方面的某些实现方式中,该第一发送端装置对应的第一模块或所述第二发送端装置对应的第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第三方面,在第三方面的某些实现方式中,第一发送端装置对应的第一模块或所述第二发送端装置对应的第一模块是根据发送对应第一信号或N个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第三方面,在第三方面的某些实现方式中,S个第一模型中的第i个模型对应的第一模块是根据S个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的;所述K个第一模型中的第j个模型对应的第一模块是根据K个第一模型中除第一模型中的第j个模型以外的至少一个第一模型的信息确定的。
结合第三方面,在第三方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,该第三训练信号与中间模型对应;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该第一模块。
结合第三方面,在第三方面的某些实现方式中,该模型传输的方法还包括:发送该融合辅助信息。
结合第三方面,在第三方面的某些实现方式中,该融合辅助信息来自该N个第一信号的接收端装置,或者该融合辅助信息来自为该N个第一信号的接收端装置提供服务的服务器。
可选地,该N个第一模型的信息承载于N个信号A中,该N个第一模型与N个信号A一一对应。
具体地,在本申请实施例的模型传输的方法中,该N个第一模块处理N个第一模型对应的N个信号A的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个信号A可为模拟信号或者数字信号。
方式一,
在方式一中,该N个信号A为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个信号A经过所对应的N个处理处理后得到的N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第一信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式二,
在方式二中,该N个信号A为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式三,
在方式三中,该N个信号A为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式四,
在方式四中,该N个信号为A经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式四的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式五,
在方式五中,该N个信号A为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
第四方面,提供了一种模型传输的方法,应用于至少两个发送端装置向一个接收端装置进行模型的传输的系统中,该方法包括:第一发送端装置获取S个第一信号,该S个第一信号与该S个第一模型一一对应,每个第一信号用于承载所对应的该第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,S为大于或等于1整数;获取S个第二模型,该S个第二模型与该S个第一模型一一对应,其中,该S个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,M为大于或等于2的整数,该M个第一训练模型对应的M个业务包括该S个第一模型对应的N个业务,且彼此对应的第一模型和第二模型对应同一业务;根据S个第二模型对该N个第一信号进行处理,得到S个第二信号,其中,该S个第二信号中的第s个第二信号是根据第s个第二模型对第s个第一信号进行处理得到的信号,该第s个第一信号是该第s个第二模型对应的第一模型的信号,s∈[1,S];
第二发送端装置获取K个第一信号,该K个第一信号与该K个第一模型一一对应,每个第一信号用于承载所对应的该第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,K为大于或等于1整数;获取K个第二模型,该K个第二模型与该K个第一模型一一对应,其中,该K个第二模型是根据训练数据训练得到的,该训练数据包括该M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,M为大于或等于2的整数,该M个第一训练模型对应的M个业务包括该K个第一模型对应的N个业务,且彼此对应的第一模型和第二模型对应同一业务;根据K个第二模型对该N个第一信号进行处理,得到K个第二信号,其中,该K个第二信号中的第k个第二信号是根据第k个第二模型对第k个第一信号进行处理得到的信号,该第k个第一信号是该第k个第二模型对应的第一模型的信号,k∈[1,K],该K个第一模型与S个第一模型的交集为空集;
发送该S个第二信号和K个第二信号。
根据本申请实施例的方案,多个发送端装置可获取对N个第一模型对应的N个第一信号(例如,当N=2时,第一发送端装置可获取N个第一模型中的S个第一模型对应的S个第一信号,第二发送端装置可获取N个第一模型中的K个第一模型对应的K个第一信号,该K个第一模型与该S个第一模型的交集为空集),并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号(例如,N=2时,第一发送端装置对应的S个第一信号经过所对应的第二模型处理后为S个第二信号,第二发送端装置对应的K个第一信号经过所对应的第二模型处理后为K个第二信号),随后通过第一信道发送该N个第二信号。进而接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
其中,上述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息。
结合第四方面,在第四方面的某些实现方式中,该获取N个第二模型包括:根据发送该N个第二信号的信道的参数,获取该N个第二模型。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第四方面,在第四方面的某些实现方式中,该获取N个第二模型还包括:根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的信息,确定第i个第一模型对应的第二模型,i∈[1,N]。
结合第四方面,在第四方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号;对该第三训练信号进行解析以获得中间模型;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该N个第二模型。
根据本申请实施例的方案,通过模型训练的方式获得满足任务需求的第二模型,可实现N个第二信号在信道中进行叠加,并进一步的得到与目标模型对应的第三信号。
应理解,上述模型的参数可包括权重矩阵、权重向量、偏置矩阵、偏置向量。
具体地,在本申请实施例的模型传输的方法中,该N个第二模型处理N个第一模型对应的N个第一信号的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个第一信号可为模拟信号或者数字信号。
方式一,
在方式一中,该N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第二信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式二,
在方式二中,该N个第一信号为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式三,
在方式三中,该N个第一信号为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式四,
在方式四中,该N个第一信号为经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式四的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式五,
在方式五中,该N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
结合第四方面,在第四方面的某些实现方式中,该模型传输的方法还包括:接收第一信息,该第一信息用于确定该N个第一模型。
其中,该第一信息来自该第二信号的接收端装置,或者该第一信息来自为该第二信号的接收端装置提供服务的服务器。该第一信息包括以下中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息。
第五方面,提供了一种模型传输的方法,应用于发送端装置或发送端装置中的芯片上,该方法包括:获取N个第一模型中的S个第一模型的信息,该S个第一模型对应S个第一任务,其中,N为大于或等于1的整数,S为小于或等于N的整数;获取第一融合辅助信息,该第一融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与该S个第一任务不同;根据该S个第一模型的信息和该第一融合辅助信息确定S个第一信号;发送该S个第一信号。
根据本申请实施例的方案,发送端装置获取N个第一模型中的S个第一模型的信息与第一融合辅助信息,并根据第一模块对该S个第一模型的信息与第一融合辅助信息进行处理,得到S个第一信号,随后发送该S个第一信号。当S小于N时,其他一个或多个发送端也会发送N-S个第一信号中的第一信号,进而接收端装置可接收到目标模型对应的第二信号,可选的,该第二信号是由包括S个第一信号的N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,也适用于发送端装置分布式的场景,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
应理解,在本申请实施例中,该第一融合辅助信息可以为目标模型的外部特征值,也可以为该目标模型外部特征值的子集。
结合第五方面,在第五方面的某些实现方式中,该S个第一信号是通过发送端装置内的第一模块对S个第一模型的信息和第一该融合辅助信息处理后得到的。
结合第五方面,在第五方面的某些实现方式中,该第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第五方面,在第五方面的某些实现方式中,第一模块是根据发送S个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第五方面,在第五方面的某些实现方式中,该S个第一模型中的第i个模型对应的第一模块是根据S个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第五方面,在第五方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,该第三训练信号与中间模型对应;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该第一模块。
结合第五方面,在第五方面的某些实现方式中,该模型传输的方法还包括:发送该第一融合辅助信息。
结合第五方面,在第五方面的某些实现方式中,该第一融合辅助信息来自该S个第一信号的接收端装置,或者该第一融合辅助信息来自为该S个第一信号的接收端装置提供服务的服务器。
可选地,该S个第一模型的信息承载于S个信号A中,该S个第一模型与S个信号A一一对应。
具体地,在本申请实施例的模型传输的方法中,该S个第一模块处理S个第一模型对应的S个信号A的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该S个信号A可为模拟信号或者数字信号。
方式一,
在方式一中,该S个信号A为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该S个信号A经过所对应的S个处理处理后得到的S个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该S个第一信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式一的另一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码处理得到的信号。
可选地,该S个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该S个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式一的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该S个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式一的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该S个第一信号。
方式二,
在方式二中,该S个信号A为经过信源编码处理后的信号。
在方式二的一种实现方式中,该S个第一信号经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码处理得到的信号。
可选地,该S个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式二的另一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该S个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该S个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式二的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该S个第一信号。
方式三,
在方式三中,该S个信号A为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该S个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式三的另一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该S个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式三的又一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该S个第一信号。
方式四,
在方式四中,该S个信号为A经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该S个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的S个第一信号。
在方式四的另一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该S个第一信号。
方式五,
在方式五中,该S个信号A为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该S个信号A经过所对应的S个第一模块处理后得到的S个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该S个第一信号。
第六方面,提供了一种模型传输的方法,应用于接收端装置或接收端装置中的芯片上,该方法包括:接收第二信号,该第二信号关联N个第一模型,该N个第一模型对应N个第一任务;根据该第二信号,获得目标模型,该目标模型对应第二任务,该第二任务与该第一任务不同。
根据本申请实施例的方案,接收端装置接收发送端装置发送的第二信号,以获得目标模型。其中,可选的,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
结合第六方面,在第六方面的某些实现方式中,该模型传输的方法还包括:发送融合辅助信息,该融合辅助信息包括目标模型的外部特征值。
具体地,模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息。
第七方面,提供了一种模型传输的方法,应用于发送端装置向接收端装置进行模型的传输的系统中,该方法包括:发送端装置获取N个第一模型的信息和融合辅助信息,根据该N个第一模型的信息和融合辅助信息确定N个第一信号,并发送该N个第一信号,其中,该N个第一模型对应N个第一任务,N为大于或等于2的整数,该N个第一模型的融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与第一任务不同;接收端装置接收发送端装置发送的第二信号,并对该第二信号进行解析,以获取目标模型,其中,该第二信号是由该N个第一信号得到的。
根据本申请实施例的方案,发送端装置获取N个第一模型的信息与融合辅助信息,并根据第一模块对该N个第一模型的信息与融合辅助信息进行处理,得到N个第一信号,随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
结合第七方面,在第七方面的某些实现方式中,该N个第一信号是通过发送端装置内的第一模块对N个第一模型的信息和该融合辅助信息处理后得到的。
结合第七方面,在第七方面的某些实现方式中,该第二信号是该N个第一信号在信道中叠加得到的。
结合第七方面,在第七方面的某些实现方式中,该第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第七方面,在第七方面的某些实现方式中,第一模块是根据发送N个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第七方面,在第七方面的某些实现方式中,N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第七方面,在第七方面的某些实现方式中,该模型传输的方法还包括:发送端装置获取M个原始模型,并将每个第一训练信号输入所对应的原始模型,以获得M个第二训练信号,该M个第二训练信号在同一信道中叠加以获得第三训练信号。其中,第三训练信号与中间模型对应,并根据中间模型与目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,从该模型库中获取该第一模块,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数,该模型库包括经过调节处理后的原始模型,并且经过调节处理后的中间模型与目标模型的偏差在预设范围内。
根据本申请实施例的方案,该第一模型可通过模型训练的方式得到,从而有利于实现N个第一信号在信道中完成叠加,进而得到与目标模型对应的第二信号。
结合第七方面,在第七方面的某些实现方式中,该模型传输的方法还包括:发送该融合辅助信息。
结合第七方面,在第七方面的某些实现方式中,该融合辅助信息来自该N个第一信号的接收端装置,或者该融合辅助信息来自为该N个第一信号的接收端装置提供服务的服务器。
可选地,该N个第一模型的信息承载于N个信号A中,该N个第一模型与N个信号A一一对应。
具体地,在本申请实施例的模型传输的方法中,该N个第一模块处理N个第一模型对应的N个信号A的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个信号A可为模拟信号或者数字信号。
方式一,
在方式一中,该N个信号A为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个信号A经过所对应的N个处理处理后得到的N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第一信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式一的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式二,
在方式二中,该N个信号A为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码处理得到的信号。
可选地,该N个第一信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式二的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式三,
在方式三中,该N个信号A为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第一信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式三的又一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式四,
在方式四中,该N个信号为A经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第一信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第一信号。
在方式四的另一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
方式五,
在方式五中,该N个信号A为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个信号A经过所对应的N个第一模块处理后得到的N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第一信号。
第八方面,提供了一种模型传输的方法,应用于在至少两个发送端装置向一个接收端装置进行模型的传输的系统中,该方法包括:第一发送端装置获取S个第一信号,该S个第一信号与该S个第一模型一一对应,每个第一信号用于承载所对应的该第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,S为大于或等于1整数;获取S个第二模型,该S个第二模型与该S个第一模型一一对应,其中,该S个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,M为大于或等于2的整数,该M个第一训练模型对应的M个业务包括该S个第一模型对应的N个业务,且彼此对应的第一模型和第二模型对应同一业务;根据S个第二模型对该N个第一信号进行处理,得到S个第二信号,其中,该S个第二信号中的第s个第二信号是根据第s个第二模型对第s个第一信号进行处理得到的信号,该第s个第一信号是该第s个第二模型对应的第一模型的信号,s∈[1,S];
第二发送端装置获取K个第一信号,该K个第一信号与该K个第一模型一一对应,每个第一信号用于承载所对应的该第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,K为大于或等于1整数;获取K个第二模型,该K个第二模型与该K个第一模型一一对应,其中,该K个第二模型是根据训练数据训练得到的,该训练数据包括该M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,M为大于或等于2的整数,该M个第一训练模型对应的M个业务包括该K个第一模型对应的N个业务,且彼此对应的第一模型和第二模型对应同一业务;根据K个第二模型对该N个第一信号进行处理,得到K个第二信号,其中,该K个第二信号中的第k个第二信号是根据第k个第二模型对第k个第一信号进行处理得到的信号,该第k个第一信号是该第k个第二模型对应的第一模型的信号,k∈[1,K],该K个第一模型与S个第一模型的交集为空集;
接收端装置获取第三信号,该第三信号是由N个第二信号得到的。
根据本申请实施例的方案,多个发送端装置可获取对N个第一模型对应的N个第一信号(例如,当N=2时,第一发送端装置可获取N个第一模型中的S个第一模型对应的S个第一信号,第二发送端装置可获取N个第一模型中的K个第一模型对应的K个第一信号,该K个第一模型与该S个第一模型的交集为空集),并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号(例如,N=2时,第一发送端装置对应的S个第一信号经过所对应的第二模型处理后为S个第二信号,第二发送端装置对应的K个第一信号经过所对应的第二模型处理后为K个第二信号),随后通过第一信道发送该N个第二信号。进而接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
其中,上述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息。
结合第八方面,在第八方面的某些实现方式中,该获取N个第二模型包括:根据发送该N个第二信号的信道的参数,获取该N个第二模型。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第八方面,在第八方面的某些实现方式中,该获取N个第二模型还包括:根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的信息,确定第i个第一模型对应的第二模型,i∈[1,N]。
结合第八方面,在第八方面的某些实现方式中,第三信号是由N个第二信号在信道中叠加得到的。
结合第八方面,在第八方面的某些实现方式中,该模型传输的方法还包括:发送端装置获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;该发送端装置将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号;对该第三训练信号进行解析以获得中间模型;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该N个第二模型。
根据本申请实施例的方案,通过模型训练的方式获得满足任务需求的第二模型,可实现N个第二信号在信道中进行叠加,并进一步的得到与目标模型对应的第三信号。
应理解,上述模型的参数可包括权重矩阵、权重向量、偏置矩阵、偏置向量。
具体地,在本申请实施例的模型传输的方法中,该N个第二模型处理N个第一模型对应的N个第一信号的过程可包括以下方式中的一种或者多种。
其中,在本申请实施例中,该N个第一信号可为模拟信号或者数字信号。
方式一,
在方式一中,该N个第一信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
在方式一的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为未经过信源编码、信道编码、调制以及上变频或者下变频处理的信号。
可选地,该N个第二信号可通过后续的信源编码、信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式一的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式二,
在方式二中,该N个第一信号为经过信源编码处理后的信号。
在方式二的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码处理得到的信号。
可选地,该N个第二信号可通过后续的信道编码、调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式二的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式三,
在方式三中,该N个第一信号为经过信源编码及信道编码处理后的信号。
在方式三的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码及信道编码处理得到的信号。
可选地,该N个第二信号可通过后续的调制以及上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式三的又一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式四,
在方式四中,该N个第一信号为经过信源编码、信道编码以及调制处理后的信号。
在方式四的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码以及调制处理得到的信号。
可选地,该N个第二信号可通过后续上变频或者下变频进行处理,并通过同一信道发送该处理后的N个第二信号。
在方式四的另一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
方式五,
在方式五中,该N个第一信号为经过信源编码、信道编码、调制以及上变频或者下变频处理后的信号。
在方式五的一种实现方式中,该N个第一信号经过所对应的N个第二模型处理后得到的N个第二信号为经过信源编码、信道编码、调制以及上变频或者下变频处理得到的信号。随后,发送端装置通过同一信道发送该N个第二信号。
结合第八方面,在第八方面的某些实现方式中,该模型传输的方法还包括:接收第一信息,该第一信息用于确定该N个第一模型。
其中,该第一信息来自该第二信号的接收端装置,或者该第一信息来自为该第二信号的接收端装置提供服务的服务器。该第一信息包括以下中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息。
第九方面,提供了一种模型传输的系统,包括:发送端装置,用于获取N个第一模型的信息和融合辅助信息,根据该N个第一模型的信息和融合辅助信息确定N个第一信号,并发送该N个第一信号,其中,该N个第一模型对应N个第一任务,N为大于或等于2的整数,该N个第一模型的融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务,该第二任务与第一任务不同;
接收端装置,用于接收第二信号,并对接收到的第二信号进行解析,以获取目标模型,其中,该第二信号是由该N个第一信号得到的。
根据本申请实施例的方案,一个发送端装置获取N个第一模型与融合辅助信息,并根据第一模块对该N个第一模型的信息与融合辅助信息进行处理,得到N个第一信号,随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
第十方面,提供了一种模型传输的系统,包括:第一发送端装置,用于获取N个第一模型中的S个第一模型的信息和第一融合辅助信息,根据N个第一模型中的S个第一模型的信息和该第一融合辅助信息确定S个第一信号,并发送该S个第一信号,其中,该N个第一模型中的S个模型对应S个第一任务,S为大于或等于1的整数,该第一融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同;
第二发送端装置,用于获取N个第一模型中的K个第一模型和第二合辅助信息,根据该N个第一模型中的K个第一模型的信息和该第二融合辅助信息确定K个第一信号,并发送该K个第一信号,其中,该N个第一模型中的K个模型对应K个第一任务,K为大于或等于1的整数,该第二融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同,该S个第一模型与该K个第一模型的交集为空集;
接收端装置,用于接收第二信号,并对接收到的该第二信号进行解析,以获取目标模型,其中,所述第二信号是由所述S个第一信号和所述K个第一信号得到的。
根据本申请实施例的方案,多个发送端装置可获取对N个第一模型的信息以及该融合辅助信息(例如,当N=2时,第一发送端装置可获取N个第一模型中的S个第一模型和第一融合辅助信息,第二发送端装置可获取N个第一模型中的K个第一模型和该第二融合辅助信息,该K个第一模型与该S个第一模型的交集为空集),并根据N个第一模块对该N个第一模型的信息和该融合辅助信息进行处理,得到N个第一信号(例如,N=2时,第一发送端装置对应的S个第一模型的信息和该第一融合辅助信息经过所对应的第一模块处理后为S个第一信号,第二发送端装置对应的K个第一模型的信息和该第二融合辅助信息经过所对应的第一模块处理后为K个第一信号),随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,该目标模型对应第二任务,该第二任务与N个第一任务不同。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,该N个第一信号是在信道中叠加得到的。
应理解,在本申请实施例中,第一融合辅助信息和第二融合辅助信息可以相同也可以不同。当第一融合辅助信息与第二融合辅助信息相同时,该第一融合辅助信息和第二融合辅助信息均可用来表示目标模型的外部特征值。当第一融合辅助信息与第二融合辅助信息不同时,该第一融合辅助信息表示目标模型的外部特征值的第一子集,该第二融合辅助信息表示目标模型的外部特征值的第二子集,该第一子集和该第二子集不同,且目标模型的外部特征值为该第一子集和第二子集的并集。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
具体地,对于一个发送端装置向一个接收端装置进行模型传输的过程中,该N个第一信号是第一模块对该N个第一模型的信息和该融合辅助信息处理后得到的。对于多个发送端装置向一个接收端装置进行模型传输的过程中,例如两个发送端装置,上述S个第一信号是第一模块对该S个第一模型中的S个第一模型的信息和第一融合辅助信息处理后得到的,上述K个第一信号是第一模块对该K个第一模型中的K个第一模型的信息和第二融合辅助信息处理后得到的。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,该第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,第一模块是基于发送N个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
其中,上述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,该发送端装置还用于获取M个原始模型,并将每个第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将M个第二训练信号在同一信道中叠加以获得第三训练信号。其中,第三训练信号与中间模型对应,并根据中间模型与目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,从该模型库中获取该第一模块,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数,该模型库包括经过调节处理后的原始模型,并且经过调节处理后的中间模型与目标模型的偏差在预设范围内。
根据本申请实施例的方案,该第一模型可通过模型训练的方式得到,从而有利于实现N个第一信号在信道中完成叠加,进而得到与目标模型对应的第二信号。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,发送端装置还用于向接收端装置发送融合辅助信息。
结合第九方面和第十方面,在第九方面和第十方面的某些实现方式中,该融合辅助信息来自接收端装置,或者该融合辅助信息来自为该接收端装置提供服务的服务器。
第十一方面,提供了一种模型传输的系统,包括:发送端装置,用于获取N个第一信号,并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,并通过第一信道发送该N个第二信号,其中,该N个第一信号与该N个第一模型一一对应,该N个第二模型与该N个第一模型一一对应,每个第一信号用于承载所对应的第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,该N个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,该M个第一训练模型对应的M个业务包括该N个第一模型对应的N个业务,并且,该N个第二信号中的第n个第二信号是根据第n个第二模型对第n个第一信号进行处理得到的信号,该第n个第一信号是该第n个第二模型对应的第一模型的信号该N个第一信号与该N个第一模型一一对应,且彼此对应的第一模型和第二模型对应同一业务,n∈[1,N],N为大于或等于2的整数,M为大于或等于2的整数;
接收端装置,用于通过该第一信道接收信号,并对所接收到的信号进行解析,以获取第三模型。
根据本申请实施例的方案,一个发送端装置获取N个第一模型对应的N个第一信号,并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,随后通过第一信道发送该N个第二信号。进而一个发送端装置对应的一个接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在该第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
第十二方面,提供了一种模型传输的系统,包括:第一发送端装置,用于获取N个第一模型中的S个第一模型对应的S个第一信号,并根据N个第二模型中的S个第二模型对该S个第一信号进行处理,得到S个第二信号,并通过第一信道发送该S个第二信号,其中,该S个第一信号与该S个第一模型一一对应,该S个第二模型与该S个第一模型一一对应,每个第一信号用于承载所对应的第一模型的信息,其中,该第一模型的信息包括模型的外部特征值和/或模型的参数,且彼此对应的第一模型和第二模型对应同一业务,S为大于或等于1的整数;
第二发送端装置,用于获取该N个第一模型中的K个第一模型对应的K个第一信号,并根据该N个第二模型中的K个第二模型对该K个第一信号进行处理,得到K个第二信号,并通过第一信道发送该K个第二信号,其中,该K个第一信号与该K个第一模型一一对应,每个第一信号用于承载所对应的第一模型的信息,其中,所述第一模型的信息包括模型的外部特征值和/或模型的参数,该K个第二模型与该K个第一模型一一对应,且彼此对应的第一模型和第二模型对应同一业务,K为大于或等于1的整数,该K个第一模型与S个第一模型的交集为空集;
其中,该N个第二模型与该N个第一模型一一对应,该N个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务,该M个第一训练模型对应的M个业务包括该N个第一模型对应的N个业务,并且,该N个第二信号中的第n个第二信号是根据第n个第二模型对第n个第一信号进行处理得到的信号,该第n个第一信号是该第n个第二模型对应的第一模型的信号,该N个第一信号与该N个第一模型一一对应,且彼此对应的第一模型和第二模型对应同一业务,n∈[1,N],N为大于或等于2的整数,M为大于或等于2的整数;
接收端装置,用于通过该第一信道接收信号,并对所接收到的信号进行解析,以获取第三模型。
根据本申请实施例的方案,多个发送端装置可获取对N个第一模型对应的N个第一信号(例如,当N=2时,第一发送端装置可获取N个第一模型中的S个第一模型对应的S个第一信号,第二发送端装置可获取N个第一模型中的K个第一模型对应的K个第一信号,该K个第一模型与该S个第一模型的交集为空集),并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号(例如,N=2时,第一发送端装置对应的S个第一信号经过所对应的第二模型处理后为S个第二信号,第二发送端装置对应的K个第一信号经过所对应的第二模型处理后为K个第二信号),随后通过第一信道发送该N个第二信号。进而接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端对于神经网络模型的存储空间。
结合第十一方面和第十二方面,在第十一方面和第十二方面的某些实现方式中,该获取N个第二模型包括:根据发送该N个第二信号的信道的参数,获取该N个第二模型。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
其中,上述模型的外部特征值包括以下信息中的一个或者多个信息:神经网络计算图信息、优化器信息、超参数信息。
结合第十一方面和第十二方面,在第十一方面和第十二方面的某些实现方式中,该获取N个第二模型还包括:根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的参数,确定第i个第一模型对应的第二模型,i∈[1,N]。
结合第十一方面和第十二方面,在第十一方面和第十二方面的某些实现方式中,该模型传输的方法还包括:获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号;对该第三训练信号进行解析以获得中间模型;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该N个第二模型。
应理解,上述模型的参数可包括权重矩阵、权重向量、偏置矩阵、偏置向量。
结合第十一方面和第十二方面,在第十一方面和第十二方面的某些实现方式中,该模型传输的方法还包括:接收第一信息,该第一信息用于确定该N个第一模型。
其中,该第一信息来自该第二信号的接收端装置,或者该第一信息来自为该第二信号的接收端装置提供服务的服务器。该第一信息包括一下中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息。
第十三方面,提供了一种模型传输的装置,包括:
获取单元,用于获取N个第一模型的信息和融合辅助信息,该融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务;
处理单元,用于根据该N个第一模型的信息和该融合辅助信息确定N个第一信号,并发送该N个第一信号,其中,该N个第一模型对应N个第一任务,N为大于或等于2的整数,该第二任务与该第一任务不同;
发送单元,用于向接收端装置发送该N个第一信号。
根据本申请实施例的方案,发送端装置获取N个第一模型的信息与融合辅助信息,并根据第一模块对该N个第一模型的信息与N融合辅助信息进行处理,得到N个第一信号,随后发送该N个第一信号。进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
结合第十三方面,在第十三方面的某些实现方式中,该处理单元通过第一模块确定该N个第一信号。
结合第十三方面,在第十三方面的某些实现方式中,该第一模块是基于发送N个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第十三方面,在第十三方面的某些实现方式中,N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第十三方面,在第十三方面的某些实现方式中,该处理单元还用于获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号;对该第三训练信号进行解析以获得中间模型;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该N个第一模块。
结合第十三方面,在第十三方面的某些实现方式中,发送单元还用于向接收端装置发送融合辅助信息。
结合第十三方面,在第十三方面的某些实现方式中,该融合辅助信息来自接收端装置,或者该融合辅助信息来自为该接收端装置提供服务的服务器。
应理解,如果N个第一模型的信息和融合辅助信息是从其他装置接收来的,那么获取单元是接收单元或收发单元;如果N个第一模型的信息和融合辅助信息是该模型传输的装置本地获取的(例如,确定出来的),那么获取单元可以就是处理单元;如果N个第一模型的信息和融合辅助信息中的一类信息是从其他装置接收来的,另一类信息是本地获取的,那么获取单元可以是接收单元和处理单元的功能集成单元。
第十四方面,提供了一种模型传输的装置,包括:
处理单元,用于获取N个第一信号,并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,并通过第一信道发送该N个第二信号,其中,该N个第一信号与N个第一模型一一对应,该N个第二模型与该N个第一模型一一对应,每个第一信号用于承载所对应的第一模型的信息,其中,所述第一模型的信息包括模型的外部特征值和/或模型的参数,该N个第二模型是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足M个训练模型对应的业务,该M个第一训练模型对应的M个业务包括N个第一模型对应的N个业务,并且,该N个第二信号中的第n个第二信号是根据第n个第二模型对第n个第一信号进行处理得到的信号,该第n个第一信号是该第n个第二模型对应的第一模型的信号,N个第一信号与N个第一模型一一对应,且彼此对应的第一模型和第二模型对应同一业务,n∈[1,N],N为大于或等于2的整数,M为大于或等于2的整数;
发送单元,用于通过同一信道向接收端装置发送该N个第二信号。
根据本申请实施例的方案,发送端装置中第一模块可获取N个第一模型对应的N个第一信号,并根据N个第二模型对该N个第一信号进行处理,得到N个第二信号,随后通过发送模块经过第一信道发送该N个第二信号。进而接收端装置可接收到目标模型对应的第三信号,该第三信号是由N个第二信号在第一信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端对于神经网络模型的存储空间。
其中,上述模型的外部特征值包括以下信息中的一个或者多个信息:神经网络计算图信息、优化器信息、超参数信息。
结合第十四方面,在第十四方面的某些实现方式中,该N个第二模型是基于该第一信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第十四方面,在第十四方面的某些实现方式中,该N个第一模型中的第i个第一模型对应的第二模型是根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的信息确定的,i∈[1,N]。
结合第十四方面,在第十四方面的某些实现方式中,该处理单元还用于获取M个原始模型,并将每个第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将该M个第二训练信号在同一信道中叠加以获得第三训练信号,并对该第三训练信号进行解析以获得中间模型,并根据该中间模型与目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,从该模型库中获取N个第二模型,该M个原始模型与M个第一训练信号一一对应,M为大于或等于2的整数,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与目标模型的偏差在预设范围内。
结合第十四方面,在第十四方面的某些实现方式中,该获取单元还用于:接收第一信息,该第一信息用于确定该N个第一模型,其中,该第一信息来自接收端装置,或者该第一信息来自为该接收端装置提供服务的服务器。
第十五方面,提供了一种模型传输的装置,该装置包括:
获取单元,用于获取N个第一模型中的S个第一模型的信息和第一融合辅助信息,该第一融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务;
处理单元,用于根据该S个第一模型的信息和该第一融合辅助信息确定S个第一信号,其中,S个第一模型对应S个第一任务,该第二任务与该S个第一任务不同;
发送单元,用于向接收端装置发送该S个第一信号。
根据本申请实施例的方案,发送端装置获取N个第一模型中的S个第一模型的信息与第一融合辅助信息,并根据第一模块对该S个第一模型的信息与第一融合辅助信息进行处理,得到S个第一信号,随后发送该S个第一信号。当S小于N时,其他一个或多个发送端也会发送N-S个第一信号中的第一信号,进而接收端装置可接收到目标模型对应的第二信号,该第二信号是由包括S个第一信号的N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,也适用于发送端装置分布式的场景,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
具体地,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,该模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
应理解,在本申请实施例中,该第一融合辅助信息可以为目标模型的外部特征值,也可以为该目标模型外部特征值的子集。
结合第十五方面,在第第十五方面的某些实现方式中,该处理单元通过第一模块确定该S个第一信号。
结合第十五方面,在第十五方面的某些实现方式中,该第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,该目标模型能够满足M个训练模型对应的任务,M为大于或等于2的整数。
结合第十五方面,在第十五方面的某些实现方式中,第一模块是根据发送该S个第一信号的信道的参数确定的。
应理解,上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
结合第十五方面,在第十五方面的某些实现方式中,该S个第一模型中的第i个模型对应的第一模块是根据S个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
结合第十五方面,在第十五方面的某些实现方式中,该处理单元还用于获取M个原始模型,该M个原始模型与该M个第一训练信号一一对应,M为大于或等于2的整数;将每个该第一训练信号输入所对应的原始模型,以获得M个第二训练信号;将该M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,该第三训练信号与中间模型对应;根据该中间模型与该目标模型的偏差,对该M个原始模型的参数进行调节处理,以获得模型库,该模型库包括经过调节处理后的原始模型,并且经过该调节处理后的中间模型与该目标模型的偏差在预设范围内;从该模型库中获取该第一模块。
结合第十五方面,在第十五方面的某些实现方式中,发送单元还用于向接收端装置发送第一融合辅助信息。
结合第十五方面,在第十五方面的某些实现方式中,该第一融合辅助信息来自该S个第一信号的接收端装置,或者该第一融合辅助信息来自为该S个第一信号的接收端装置提供服务的服务器。
第十六方面,提供了一种模型接收的装置,该装置包括:
接收单元,用于接收第二信号,该第二信号关联第一模型,该N个第一模型对应N个第一任务;
处理单元,根据该第二信号,获得目标模型,该目标模型对应第二任务,该第二任务与该第一任务不同。
根据本申请实施例的方案,接收端装置接收发送端装置发送的第二信号,以获得目标模型。其中,该第二信号是由N个第一信号在信道中叠加得到的。通过上述模型传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端装置对于神经网络模型的存储空间。
结合第十六方面,在第十六方面的某些实现方式中,该模型的装置还包括发送单元,该发送单元用于向接收端装置发送融合辅助信息,该融合辅助信息包括目标模型的外部特征值。
具体地,模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息。
第十七方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第一方面以及第一方面中的任意一种实现方式中的方法。
第十八方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第二方面以及第二方面中的任意一种实现方式中的方法。
第十九方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第三方面以及第三方面中的任意一种实现方式中的方法。
第二十方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第四方面以及第四方面中的任意一种实现方式中的方法。
第二十一方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第五方面以及第五方面中的任意一种实现方式中的方法。
第二十二方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第六方面以及第六方面中的任意一种实现方式中的方法。
第二十三方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第七方面以及第七方面中的任意一种实现方式中的方法。
第二十四方面,提供了一种模型传输的装置,该装置包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的程序,当所述存储器存储的程序被执行时,所述处理器用于执行第八方面以及第八方面中的任意一种实现方式中的方法。
上述第十七方面至第二十四方面中的处理器既可以是中央处理器(centralprocessing unit,CPU),也可以是CPU与神经网络运算处理器的组合,这里的神经网络运算处理器可以包括图形处理器(graphics processing unit,GPU)、神经网络处理器(neural-network processing unit,NPU)和张量处理器(tensor processing unit,TPU)等等。其中,TPU是谷歌(google)为机器学习全定制的人工智能加速器专用集成电路。
第二十五方面,提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行第一方面以及第八方面中的任意一种实现方式中的方法。
第二十六方面,提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述第一方面及第八方面中的任意一种实现方式中的方法。
第二十七方面,提供一种芯片,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行上述第一方面及第八方面中的任意一种实现方式中的方法。
可选地,作为一种实现方式,所述芯片还可以包括存储器,所述存储器中存储有指令,所述处理器用于执行所述存储器上存储的指令,当所述指令被执行时,所述处理器用于执行第一方面及第八方面中的任意一种实现方式中的方法。
上述芯片具体可以是现场可编程门阵列(field-programmable gate array,FPGA)或者专用集成电路(application-specific integrated circuit,ASIC)。
附图说明
图1是基于神经网络实现的端到端通信系统示意图。
图2是本申请实施例提供的适用的通信系统架构的示意图。
图3是本申请实施例提供的另一例通信系统架构的示意图。
图4是本申请实施例提供的又一例通信系统架构的示意图。
图5示出了本申请实施例的一例人工智能主体框架的示意图。
图6示出了本申请实施例提供的一例系统架构600的示意图。
图7为本申请实施例提供的一种卷积神经网络模型的示意性结构图。
图8为本申请实施例提供的另一种卷积神经网络模型的示意性结构图。
图9为本申请实施例提供的一种芯片的硬件结构的示意图。
图10为本申请实施例提供的一种系统架构1000的示意图。
图11为本申请实施例提供的一种训练模型的装置部署示意图。
图12为本申请实施例提供的一种模型传输的方法的示意图流程图。
图13为本申请实施例提供的一种模型传输的方法的示意图流程框图。
图14为本申请实施例提供的另一种模型传输的方法的示意图流程图。
图15为本申请实施例提供的一种神经网络模型的有向图结构示意图。
图16为本申请实施例提供的一种神经网络模型的计算图的结构示意图。
图17为本申请实施例提供的计算图层面下的神经网络模型传输的示意图。
图18为本申请实施例提供的又一种模型传输的方法的示意图流程图。
图19为本申请实施例提供的一例模型传输的装置的示意性框图。
图20为本申请实施例提供的另一例模型传输的装置的示意性框图。
具体实施方式
本申请实施例的技术方案可以应用于各种通信系统,例如:窄带物联网系统(narrow band-internet of things,NB-IoT)、全球移动通信系统(global system formobile communications,GSM)、增强型数据速率GSM演进系统(enhanced data rate forGSM evolution,EDGE)、宽带码分多址系统(wideband code division multiple access,WCDMA)、码分多址2000系统(code division multiple access,CDMA2000)、时分同步码分多址系统(time division-synchronization code division multiple access,TD-SCDMA)、长期演进(long term evolution,LTE)系统、LTE频分双工(frequency divisionduplex,FDD)系统、LTE时分双工(time division duplex,TDD)、第五代(5th generation,5G)通信系统或新无线(new radio,NR)、无线保真(wireless fidelity,WiFi)系统、以及5G移动通信系统的三大应用场景增强移动宽带(enhanced mobile broadband,eMBB)、超高可靠性超低时延通信(ultra-reliable low-latency communication,uRLLC)、增强机器类通信(LTE enhanced MTO,eMTC)、支持多种无线技术融合的通信系统以及5G之后演进的第六代(6th generation,6G)通信系统等。
本申请实施例的技术方案还可以应用于无线蜂窝通信系统、无线网格(Mesh)网络和卫星通信系统等通信系统。无线蜂窝通信系统包括一个蜂窝基站和多个终端设备时,多个终端设备能够辅助蜂窝基站进行人工智能(artificial intelligence,AI)模型计算。无线蜂窝通信系统包括多个蜂窝基站和一个终端设备时,多个蜂窝基站能够辅助终端设备进行AI模型计算。无线Mesh网络包括蜂窝宏基站、微基站以及终端设备。蜂窝宏基站通过多个微基站中继向终端设备传输下行数据。卫星通信系统包括卫星基站和终端设备。
本申请实施例中的终端可以是一种具有无线收发功能的设备,具体可以指用户设备(user equipment,UE)、接入终端、用户单元(subscriber unit)、用户站、移动台(mobilestation)、远方站、远程终端、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备还可以是卫星电话、蜂窝电话、智能手机、无线数据卡、无线调制解调器、机器类型通信设备、可以是无绳电话、会话启动协议(session initiation protocol,SIP)电话、无线本地环路(wireless local loop,WLL)站、个人数字处理(personal digital assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、高空飞机上搭载的通信设备、可穿戴设备、无人机、机器人、设备到设备通信(device-to-device,D2D)中的终端、车辆外联(vehicle to everything,V2X)中的终端、虚拟现实(virtual reality,VR)终端设备、增强现实(augmented reality,AR)终端设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端或者5G之后演进的通信网络(如,6G)中的终端设备等,本申请不作限制。
在本申请实施例中,用于实现终端设备的功能的装置可以是终端设备;也可以是能够支持终端设备实现该功能的装置,例如芯片系统。该装置可以被安装在终端设备中或者和终端设备匹配使用。本申请实施例中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。
本申请实施例中的网络设备具有无线收发功能的设备,用于与终端设备进行通信。接入网设备可以为无线接入网(radio access network,RAN)中的节点,又可以称为基站,还可以称为RAN节点。可以是LTE中的演进型基站(evolved Node B,eNB或eNodeB);或者gNodeB(gNB)等5G网络中的基站或者5G之后演进的公共陆地移动网络(public landmobile network,PLMN)中的基站,宽带网络业务网关(broadband network gateway,BNG),汇聚交换机或者非第三代合作伙伴项目(3rd generation partnership project,3GPP)接入设备等。可选的,本申请实施例中的网络设备可以包括各种形式的基站,例如:宏基站、微基站(也称为小站)、中继站、WiFi系统中的接入节点,传输接收点(transmitting andreceiving point,TRP)、发射点(transmitting point,TP)、移动交换中心以及设备到设备(device-to-device,D2D)、车辆外联(vehicle-to-everything,V2X)、机器到机器(machine-to-machine,M2M)通信中承担基站功能的设备等,还可以包括云接入网(cloudradio access network,C-RAN)系统中的集中式单元(centralized unit,CU)和分布式单元(distributed unit,DU)、NTN通信系统中的网络设备,本申请实施例对此不作具体限定。
本申请实施例中,用于实现网络设备的功能的装置可以是网络设备;也可以是能够支持网络设备实现该功能的装置,例如芯片系统。该装置可以被安装在网络设备中或者和网络设备匹配使用。本申请实施例中,芯片系统可以由芯片构成,也可以包括芯片和其他分立器件。
应理解,本申请实施例所涉及的发送端设备及接收端设备可以是上述终端设备中的一种或多种,也可以是上述网络设备中的一种或多种,本申请对此不做限定。
本申请实施例中的云端设备可以是服务于接收端设备或者发送端设备的服务器或者服务器集群,该云端设备也可以称为计算节点或者云端计算集群。
图2是本申请实施例提供的一例通信系统架构的示意图。如图2所示,该通信系统架构为卫星通信系统。
如图2中的(a)所示的卫星通信系统包括卫星基站、终端设备#1和终端设备#2等设备,其中,卫星基站也可以称为卫星。该卫星基站可为终端设备#1与终端设备#2提供通信服务。具体地,卫星基站可以向终端设备#1和终端设备#2传输下行数据,其中,下行数据可以经过信道编码,调制映射后传输给终端设备#1和终端设备#2;终端设备#1和终端设备#2也可以向卫星基站传输上行数据,其中,上行数据也可以经过信道编码、调制映射后传输给卫星基站。
与上述图2中的(a)示出通信系统相比,图2中的(b)所示的卫星通信系统还可以包括地面基站,卫星基站可以与地面上的基站进行通信。
其中,卫星基站可以是无人机、热气球、低轨卫星、中轨卫星或高轨卫星等。或者,卫星基站也可以是指非地面的基站或非地面的设备等。卫星基站既可以作为网络设备,也可以作为终端设备。卫星基站可以不具备基站的功能,也可以具备部分或者全部基站的功能,本申请对此不做限定。
应理解,图2中的卫星基站、地面基站和终端设备的数量为示意性的,根据实际场景的需求,可以具有任意数量的卫星基站和终端设备。
图3是本申请实施例提供的另一例通信系统架构的示意图。该通信系统为卫星星间链路通信系统,也可以称为星间通信系统。该通信系统中的卫星可包括通信系统与空间光束捕获跟踪对准技术(acquisition,pointing and tracking,APT)系统。
通信系统可包括通信模块和收发天线,用于负责星间信息的传输,是星间通信系统的主体。APT系统用于负责卫星之间的捕获、对准和跟踪。其中,捕获是指在不确定区域内对目标进行判断和识别,捕获过程包括前期的数据导引和视轴初始指向,在不确定区域内的扫描,直至在捕获视场内判断信标光斑的存在,为后续的跟踪奠定基础;对准是指调整发射波瞄准接收方向,使通信发射视轴与跟踪视轴在装校中需要保持非常精密的同轴性或者需要通过提前量伺服单元修正发射视轴与接收视轴间的偏差;跟踪是指在整个通信过程中不断调整对准和捕获。空间激光通信系统中的跟踪的实质是对激光光束实现主动光电跟踪,进而克服相对运动和平台振动对视轴晃动,跟踪的目的是将跟踪视轴稳定在允许的误差范围之内。
在卫星星间链路通信系统中,为了尽量减少信道中的衰减和干扰影响,同时要求具有较高的保密性和传输率,须实时的调整APT来不断适应变化。现有的APT系统均为光学系统。现有的通信子系统,多数为光通信系统,也有部分微波波段的系统,多采用单个高增益天线。现有的APT系统和通信子系统为独立的系统。
图4是本申请实施例提供的又一例通信系统架构的示意图。所示的通信系统为无线蜂窝通信系统,该无线蜂窝通信系统通常由小区组成,每个小区包含一个基站(basestation,BS),该基站可向多个终端设备提供通信服务。示例性地,图4所示的蜂窝通信系统包括基站、终端设备#1和终端设备#2等设备。具体地,基站可以向终端设备发送下行数据,其中下行数据可以采用信道编码进行编码;终端设备也可以向基站发送上行数据,该上行数据也可以采用信道编码进行编码。
其中,基站包含基带单元(baseband unit,BBU)和远端射频单元(remote radiounit,RRU)。BBU和RRU可以放置在不同的地方,例如:RRU可放置于高话务量的区域,BBU放置于中心机房,或者BBU与RRU放置在同一机房,或者BBU和RRU可以为一个机架下的不同部件。应理解,图4所示的无线蜂窝通信系统可包括多个基站并且每个基站的覆盖范围内可以包括其他数量的终端设备,本申请实施例对此不做限定。
图5示出了本申请实施例的一例人工智能主体框架的示意图,该主体框架描述了人工智能系统总体工作流程,适用于通用的人工智能领域需求。
接下来从“智能信息链”(水平轴)和“信息技术(information technology,IT)价值链”(垂直轴)两个维度对上述人工智能的主题框架结构进行详细的阐述。
“智能信息链”反映从数据的获取到处理的一系列过程。示例性地,可以是智能信息感知、智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中,数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生态过程,反映人工智能为信息技术产业带来的价值。
下面进一步对该人工智能的框架中的子模块进行详细介绍:
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部现实世界的沟通,并通过基础平台实现支撑。
基础设施可以通过传感器与外部进行沟通,基础设施的计算能力可以由智能芯片提供。
其中,这里的智能芯片可以是中央处理器(central processing unit,CPU)、神经网络模型处理器(neural-network processing unit,NPU)、图形处理器(graphicsprocessing unit,GPU)、专门应用的集成电路(application specific integratedcircuit,ASIC)以及现场可编程门阵列(field programmable gate array,FPGA)等硬件加速芯片。
基础设施的基础平台可以包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。
例如,对于基础设施而言,可以通过传感器和外部之间的沟通获取数据,随后将这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据:
基础设施的上一层的数据用于表示人工智能领域的数据来源。该数据涉及到图形、图像、语音、文本,还涉及到设备的物联网数据,包括已有系统的业务数据以及力、位移、液位、温度、湿度等感知数据。
(3)数据处理:
上述数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等处理方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预处理、训练等。
训练(training)是计算密集型操作,模型一般都需要使用大量的数据来进行训练,通过反向传播来不断的优化模型的参数,以使得模型获取某种能力。在训练的过程中,我们常常是将模型在数据集上面的拟合情况放在首要位置的。
推理(inference)是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常可提供分类、排序、预测等功能。
(4)通用能力:
对数据经过上述的数据处理后,进一步基于数据处理的结果可以形成一些通用的能力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语音识别,图像的识别等等。
(5)智能产品及行业应用:
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
本申请实施例可以应用在人工智能中的很多领域,例如,智能制造、智能交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市等领域。
具体地,本申请实施例中的获取神经网络模型的方法可以具体应用在自动驾驶、图像分类、图像检索、图像语义分割、图像质量增强、图像的超分辨率和自然语言的处理等需要使用(深度)神经网络模型的领域。
由于本申请实施例涉及神经网络领域,为了便于理解,下面先对本申请实施例涉及的神经网络领域的相关术语和概念进行介绍。
(1)人工智能
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
(2)边缘人工智能
边缘人工智能(edge AI)是人工智能领域的新领域之一,其目的是让用户进行人工智能流程而不必担心隐私泄露或数据传输速率较慢带来的影响。边缘人工智能将人工智能技术和边缘计算相结合,使人工智能算法运行在能够进行边缘计算的设备上,可以实现对数据的实时处理。边缘人工智能可以使人工智能技术得到更加广泛的应用,使得智能设备无需接入云平台的情况下对输入做出快速反应。
例如,自动驾驶汽车在行驶过程中需要不断地扫描周围的环境并评估当前的行驶状况,并需要根据突发事件对行进轨迹进行不断地校正。在此情况下,对于汽车的实时数据的处理至关重要,其车载的人工智能系统将负责数据的存储、分析和处理。通过引入边缘人工智能技术,可在不依赖云计算连接的情况下,实现对数据的实时分析和处理。
(3)神经网络
神经网络(neural network,NN)也可以称为人工神经网络。神经网络可以是由神经单元组成的,神经单元可以是指以xs和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,Ws为xs的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入,激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(4)深度神经网络
深度神经网络(deep neural network,DNN),也称多层神经网络,可以理解为具有多层隐藏层的神经网络。按照不同层的位置对DNN进行划分,DNN内部的神经网络可以分为三类:输入层,隐藏层和输出层。一般来说,第一层是输入层,最后一层是输出层,中间的层都是隐藏层。层与层之间可以是全连接的,也即是说,第i层的任意一个神经元与第i+1层的任意一个神经元相连。简单来说,可用如下线性关系表示:
其中,是输入向量,/>是输出向量,/>是偏移向量,W为权重矩阵(也称系数),α是激活函数。隐藏层的每一层输入向量/>经过该操作得到输出向量/>由于DNN层数多,系数W和偏移向量b的数量也比较多。这些参数在DNN中的定义如下:以系数W为例,假设在一个三层的DNN中,第二层的第4个神经元到第三层的第2个神经元的线性系数定义为/>上标3代表系数W所在的层数,下标对应的是输出的第三层索引2和输入的第二层索引4。
综上,第L-1层的第k个神经元到第L层的第j个神经元的系数定义为
需要注意的是,输入层是没有参数的。在深度神经网络中,由万能近似定理可知,只要给定足够多的隐藏层,DNN可以以任意精度拟合任意函数。也就是说,更多的隐藏层可以让网络更能够刻画现实世界中的复杂情形。理论上而言,参数越多,模型复杂度越高,“容量”也就越大,也就意味着它能完成更复杂的学习任务。训练深度神经网络也就是学习权重矩阵的过程,其最终目的是训练得到深度神经网络的所有层的权重矩阵(由很多层的向量形成的权重矩阵)。
(5)卷积神经网络
卷积神经网络(convolutional neuron network,CNN)是一种带有卷积结构的神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器,该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中,一个神经元可以只与部分邻层神经元连接。一个卷积层中,通常包含若干个特征平面,每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重,这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。在卷积神经网络的训练过程中,卷积核可以通过学习得到合理的权重。另外,共享权重带来的直接好处是减少卷积神经网络各层之间的连接,同时又降低了过拟合的风险。
(7)反向传播算法
神经网络可以采用梯度反向传播(back propagation,BP)算法在训练过程中修正的神经网络模型中参数的大小,使得神经网络模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新的神经网络模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的神经网络模型的参数,例如权重矩阵。
例如,神经网络模型每次训练产生的loss值在神经网络模型中从后向前逐层传递。传递到每一层时,同时计算出该层参数的更新量(偏导运算),这个更新量与梯度(gradient)相关。
(8)深度学习
深度学习(deep learning,DL)是机器学习(machine learning,ML)领域中的一个新的研究方向。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有较大的帮助。它的目标是让机器能够像人一样具有分析学习的能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远超过先前相关技术。
深度学习中的深度是指一系列连续的表示层,数据模型中包含的层数被称为模型的深度。深层学习的模型特征是一种含多隐藏层的神经网络,通过组合底层特征形成更加抽象的高层特征。
深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
(9)联邦学习
联邦学习(federated learning,FL)在充分保障用户数据隐私和安全的前提下,促使各个分布式节点和中心节点协同合作以高效地完成模型的学习任务。在FL框架中,数据集存在于分布式节点处,即分布式节点收集本地的数据集,并进行本地训练,将训练得到的本地结果(模型或梯度)上报给中心节点。中心节点本身没有数据集,只负责将分布式节点的训练结果进行融合处理,得到全局模型,并下发给分布式节点。然而,由于FL通过联邦平均(federated averaging,FedAvg)算法周期性融合整个模型,收敛速度较慢,收敛性能有一定的缺陷;其次,进行FL的设备需要保存及发送整个模型,对于设备计算、存储及通信能力要求较高。
(10)迁移学习
迁移学习(transfer learning)是机器学习中的一个名词,是指一种学习对另一种学习的影响,或习得的经验对完成其它活动的影响。具体地,迁移学习是一种学习的思想和模式,迁移学习是指利用数据、任务或模型之间的相似性,将在旧领域学习过的模型应用于新领域的一种学习过程,其核心是找到新问题与旧问题之间的相似性,顺利实现知识的迁移。迁移广泛存在于各种知识、技能与社会规范的学习中。
迁移学习专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。深度学习是让机器自主地从数据中获取知识,从而应用于解决新的问题;而迁移学习则侧重于将已学习过的知识迁移应用于解决新的问题。
(11)神经网络剪枝
在网络训练过程中寻求一种评判机制,以剔除掉不重要的连接、节点甚至卷积核,达到精简网络结构的目的。神经网络剪枝可分为两类,其一为训练中的约束,在损失函数添加约束项诱导网络稀疏化,无需重训练;其二为训练后剪枝,以剔除网络中相对冗余、不重要的部分。根据剪枝粒度,有层间剪枝和特征剪枝。两者分别降低网络深度和宽度,细粒度的有核内剪枝。
通过神经网络剪枝,使得训练时间减少,且随着计算量的减少,网络中连接每次迭代的速度得到提升,神经网络模型可以更快的收敛到最优解。也可使得运行速度快,稀疏化后的网络卷积层数、卷积层中的卷积核个数都更少,更简单更轻便的模型意味着更高效、快速的权重更新。神经网络剪枝的优势还在于更可行的嵌入式部署,即剪枝后的网络在移动设备及其他嵌入式设备上的应用提供了更广泛的可能。
(12)模型量化
模型量化是指通过降低权重所需的比特数来压缩原始网络,主要包括低精度和重编码两类方法。如低精度就是用更低位数的浮点数或整型数表示权重参数进行训练、测试或存储;重编码则是对原始数据进行重编码,采用更少的位数对原有数据进行表示,代表有二值化权重/二值化神经网络。模型量化是以较低的推理精度损失将连续取值(或者大量可能的离散取值)的浮点模型权重或流经模型的张量数据定点近似为有限多个离散值的过程,他是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程,而模型的输入输出依然是浮点型,从而达到减少模型尺寸大小、减少模型内存消耗以及加快模型推理速度等目标。
目前对于图像分类许多量化技术都可达到无损压缩;但进行较为复杂的任务例如分割任务时使用量化通常会对模型精度带来巨大影响。
(13)知识蒸馏
知识蒸馏(knowledge distillation,KD)又称网络蒸馏,是模型压缩的一种常用的方法,不同于模型压缩过程中的剪枝和量化,知识蒸馏是通过构建一个轻量化的小模型,利用性能较优的大模型的监督信息来训练小模型,以期达到更优的性能和精度。具体地,大模型可以称为教师模型,小模型称为学生模型,来自教师模型输出的监督信息称为知识,而学生模型迁移学习来自教师模型的监督信息的过程称为知识蒸馏。
图6示出了本申请实施例提供的一例系统架构600的示意图。如图6所示,数据采集设备660用于采集训练数据。示例性地,针对用于图像分类的神经网络模型而言,训练数据可以包括训练图像以及训练图像对应的分类结果,其中,训练图像的结果可以是人工预先标注的结果。
在采集到训练数据之后,数据采集设备660将该训练数据存入数据库630中,训练设备620基于数据库630中的训练数据训练得到目标模型/规则601。
下面对训练设备620基于训练数据得到目标模型/规则601的过程进行描述,训练设备620对输入的原始图像进行处理,并将输出的图像与原始图像进行对比,直到训练设备620输出的图像与原始图像的差值小于一定的预设阈值,从而完成目标模型/规则601的训练过程。
在一种可能的实现方式中,训练设备620可用于获取预训练的网络模型,基于目标数据集迁移预训练的网络模型,并在迁移后的网络模型中搜索子网络模型,以得到目标模型/规则601。该目标数据集可以存储于数据库630中。其中,训练设备620也可以用于预训练网络模型。该网络模型是基于源数据集训练得到的,该源数据集也可以存储于数据库630中。
本申请实施例中的目标模型/规则601具体可以为神经网络模型。例如,卷积神经网络、循环神经网络或者深度神经网络。需要说明的是,在实际的应用中,所述数据库630中维护的训练数据不一定都来自于数据采集设备660的采集,也有可能是从其他设备接收得到的,例如由客户设备640输入的目标数据集。另外需要说明的是,训练设备620也不一定完全基于数据库630维护的训练数据进行目标模型/规则601的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备620训练得到的目标模型/规则601可以应用于不同的系统或设备中,例如应用于图6所示的执行设备610,所述执行设备610可以是终端,如手机终端,平板电脑,笔记本电脑,增强现实(augmented reality,AR)AR/虚拟现实(virtual reality,VR),车载终端等,还可以是服务器或者云端等。如图6所示,执行设备610配置输入/输出(input/output,I/O)接口612,用于与外部设备进行数据交互,用户可以通过客户设备640向I/O接口612输入数据,例如,所述输入数据可以包括:客户设备输入的待处理的图像。
可选地,执行设备610中还可以包括预处理模块613,该预处理模块613用于根据I/O接口612接收到的输入数据(例如:图片数据)进行预处理,如果不需要对输入数据进行预处理,则直接将从I/O接口612接收的输入数据(例如:直接采集获得的图片数据)输入到执行设备610中进行处理。
在执行设备610对输入数据进行预处理,或者在执行设备610的计算模块611执行计算等相关的处理过程中,执行设备610可以调用数据存储系统650中的数据、代码等以用于进行相应的处理,也可以将相应处理得到的数据、指令等存入数据存储系统650中。
随后,I/O接口612将处理后的结果提供给用户设备640,例如上述得到的图像的分类结果返回给客户设备640以供客户使用。
应理解,训练设备620可以针对不同的目标或者不同的任务需求,基于不同的训练数据生成相应的目标模型/规则601,该相应的目标模型/规则601即可以用于实现上述目标或完成上述任务,从而为用户提供所需的处理结果。
在图6中所示出情况下,用户可以手动给定输入数据,该手动给定的数据可以通过I/O接口612提供的界面进行操作。在另一种可能实现的方式中,客户设备640可以自动地向I/O接口612发送输入数据,如果要求客户设备640自动发送输入数据需要获得用户的授权,则用户可以在客户设备640中设置相应权限。用户可以在客户设备640查看执行设备610输出的结果,具体的呈现形式可以是显示、声音、动作等具体的方式。客户设备640也可以作为数据采集端,采集如图所示输入I/O接口612的输入数据及输出I/O接口612的输出结果作为新的样本数据,并存入数据库630。当然,也可以不经过客户设备640进行采集,而是由I/O接口612直接将如图6所示输入I/O接口612的输入数据及输出I/O接口612的输出结果,作为新的样本数据存入数据库630。
还应理解,图6示出的是本申请实施例提供的一种系统架构的示意图,本申请对该系统架构中的设备、器件、模块等之间的位置关系不构成任何限制,例如,在图6示出的系统架构中,数据存储系统650相对执行设备610是外部存储器,在其它可能的情况下,也可以将数据存储系统650置于执行设备610中。
如图6所示,根据训练设备620训练可得到目标模型/规则601,该目标模型/规则601可以是本申请实施例中的神经网络模型,具体的,本申请实施例构建的神经网络模型可以包括CNN、深度神经网络模型(deep neural networks,DNN)、深度卷积神经网络模型(deep convolutional neural networks,DCNN)、循环神经网络模型(recurrent neuralnetwork,RNN)等等,本申请实施例对此不做限定。
图7为本申请实施例涉及的一种卷积神经网络模型的示意性结构图。如图7所示,该卷积神经网络模型(CNN)700可以包括输入层710,卷积层/池化层720(其中池化层为可选的),以及神经网络模型层730。例如,输入层710可以获取待处理的图像,并将获取到的待处理图像交由卷积层/池化层720以及后面的神经网络模型层730进行处理。下面对图7中的CNN 700中内部的层结构进行详细的介绍。
卷积层/池化层720:
卷积层:
如图7所示卷积层/池化层720可以包括如示例的721-726层,例如:在一种可能的实现方式中,721层为卷积层,722层为池化层,723层为卷积层,724层为池化层,725为卷积层,726为池化层;在另一种可能的实现方式中,721与722层为卷积层,723为池化层,724与725为卷积层,726为池化层。即卷积层的输出可以作为随后的池化层的输入,也可以作为另一个卷积层的输入以继续进行卷积操作。
下面将以卷积层721为例结合图像处理的方式,详细介绍一层卷积层的内部工作原理。
卷积层721可以包括多个卷积算子,卷积算子也可称为卷积核,其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器,卷积算子本质上可以是一个权重矩阵,这个权重矩阵通常被预先定义,在对图像进行卷积操作的过程中,权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或者两个像素接着两个像素,这取决于步长stride的取值)的进行处理,从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关,需要注意的是,权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的。在进行卷积运算的过程中,权重矩阵会延伸到输入图像的整个深度。因此,和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出,但是大多数情况下不使用单一权重矩阵,而是应用多个尺寸(行×列)相同的权重矩阵,即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度,这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征,例如一个权重矩阵用来提取图像边缘信息,另一个权重矩阵用来提取图像的特定颜色,又一个权重矩阵用来对图像中的噪点信息进行提取等。该多个权重矩阵尺寸(行×列)相同,经过该多个尺寸相同的权重矩阵提取后的卷积特征图的尺寸也相同,再将提取到的多个尺寸相同的卷积特征图合并形成卷积运算的输出。
这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到,通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息,从而使得卷积神经网络模型700进行正确的预测。
当卷积神经网络模型700有多个卷积层的时候,初始的卷积层(例如721层)往往提取较多的一般特征,该一般特征也可以称之为低级别的特征;随着卷积神经网络模型700深度的加深,越往后的卷积层(例如726层)提取到的特征越来越复杂,比如高级别的语义之类的特征,语义越高的特征越适用于待解决的问题。
池化层:
由于常常需要减少训练参数的数量,因此在卷积层之后常常需要周期性的引入池化层,即如图7中720所示例的721-726各层,可以是一层卷积层后面跟一层池化层,也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中,池化层的目的就是减少图像的空间大小。池化层可以包括平均池化算子或最大池化算子,以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外,与卷积层中用权重矩阵的大小应该与图像尺寸相关一样,池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸,池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。
神经网络模型层730:
在经过卷积层/池化层720的处理后,卷积神经网络模型700还不足以输出所需要的输出信息。如前所述,卷积层/池化层720只会提取特征,并减少输入图像带来的参数。为了生成最终的输出信息(所需要的类信息或其他相关信息),卷积神经网络模型700需要利用神经网络模型层730来生成一个或者一组所需要的类的数量的输出。因此,在神经网络模型层730中可以包括多层隐含层(如图7所示的731、732至73n)以及输出层740,该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到,例如该任务类型可以包括图像识别,图像分类,图像的超分辨率重建等等。
在神经网络模型层730中的多层隐含层之后,也就是整个卷积神经网络模型700的最后层为输出层740,该输出层740具有类似分类交叉熵的损失函数,具体用于计算预测误差,一旦整个卷积神经网络模型700的前向传播(如图7由710至740方向的传播为前向传播)完成,反向传播(如图7由740至710方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差,以减少卷积神经网络模型700的损失,以及卷积神经网络模型700通过输出层输出的结果和目标结果之间的误差。
本申请实施例提供的一种卷积神经网络模型的结构示意图可以如图8所示。在图8所示的卷积神经网络模型(CNN)800可以包括输入层810,卷积层/池化层820(其中池化层为可选的),以及神经网络模型层830。与图7相比,图8中的卷积层/池化层820中的多个卷积层/池化层并行,将分别提取的特征均输入给神经网络模型层230进行处理。
应理解,图7和图8所示的卷积神经网络模型仅作为一种神经网络模型的结构性示例。在具体的应用中,卷积神经网络模型还可以以其他网络模型的形式存在,本申请实施例对此不做限定。
图9为本申请实施例提供的一种芯片的硬件结构,该芯片包括神经网络模型处理器900。该芯片可以被设置在如图6所示的执行设备610中,用以完成计算模块611的计算工作。该芯片也可以被设置在如图6所示的训练设备620中,用以完成训练设备620的训练工作并输出目标模型/规则601。如图7和图8所示的卷积神经网络模型中各层的算法均可在如图9所示的芯片中得以实现。
神经网络模型处理器NPU 50作为协处理器挂载到主中央处理器(centralprocessing unit,CPU)上,由主CPU分配任务。NPU的核心部分为运算电路903,控制器904控制运算电路903提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一种实现方式中,运算电路903内部包括多个处理单元(process engine,PE)。运算电路903可以是二维脉动阵列,运算电路903还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一种可能实现中,运算电路903是通用的矩阵处理器。
例如,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器902中获取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器901中获取矩阵A与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器(accumulator)908中。
向量计算单元907可以对运算电路的输出做进一步的处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元907可以用于神经网络模型中非卷积或非FC层的网络计算,如池化(pooling),批归一化(batch normalization),局部响应归一化(local response normalization)等。
在一些实现方式中,向量计算单元907能将经处理的输出的向量存储到统一缓存器906之中。例如,向量计算单元907可以将非线性函数应用到运算电路903的输出,例如累加值的向量,可用以生成激活值。在一些实现中,向量计算单元907生成归一化的值、合并值,或二者均有。在一种可能的实现方式中,处理过的输出的向量能够用作到运算电路903的激活输入,例如用于在神经网络模型中的后续层之中的使用。
统一存储器906用于存放输入数据以及输出数据。
存储单元访问控制器905(direct memory access controller,DMAC)用于将外部存储器中的输入数据搬运到输入存储器901和/或统一存储器906、将外部存储器中的权重数据存入权重存储器902,以及将统一存储器906中的数据存入外部存储器。
总线接口单元(bus interface unit,BIU)910,用于通过总线实现主CPU、DMAC和取指存储器909之间进行交互。
与控制器904连接的取指存储器(instruction fetch buffer)909,用于存储控制器904使用的指令;
控制器904,用于调用取指存储器909中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器906,输入存储器901,权重存储器902以及取指存储器909均为片上(On-Chip)存储器,外部存储器为该NPU外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory,简称DDR SDRAM)、高带宽存储器(high bandwidth memory,HBM)或其他可读可写的存储器。
上文中介绍的图6中的训练设备610能够执行本申请实施例的获取神经网络模型的方法的各个步骤,图9所示的芯片也可以用于执行本申请实施例的获取神经网络模型的各个步骤。
如图10所示,本申请实施例提供了一种系统架构1000。该系统架构包括本地设备1001、本地设备1002以及执行设备1010和数据存储系统1050,其中,本地设备1001和本地设备1002通过通信网络与执行设备1010连接。
执行设备1010可以由一个或多个服务器实现。可选的,执行设备1010可以与其它计算设备配合使用,例如:数据存储器、路由器、负载均衡器等设备。执行设备1010可以布置在一个物理站点上,或者分布在多个物理站点上。执行设备1010可以使用数据存储系统1050中的数据,或者调用数据存储系统1050中的程序代码来实现本申请实施例的获取神经网络模型方法或训练神经网络模型的方法。
通过上述过程执行设备1010能够获取一个目标神经网络模型,该目标神经网络模型可以用于图像分类或者进行图像处理等等。
用户可以操作各自的用户设备(例如本地设备1001和本地设备1002)与执行设备1010进行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备1010进行交互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在一种实现方式中,本地设备1001、本地设备1002从执行设备1010获取到目标神经网络模型的相关参数,将目标神经网络模型部署在本地设备1001、本地设备1002上,利用该目标神经网络模型进行图像分类或者图像处理等等。
在另一种实现中,执行设备1010上可以直接部署目标神经网络模型,执行设备1010通过从本地设备1001和本地设备1002获取待处理图像,并采用目标神经网络模型对待处理图像进行分类或者其他类型的图像处理。
上述执行设备1010也可以为云端设备,此时,执行设备1010可以部署在云端;或者,上述执行设备1010也可以为终端设备,此时,执行设备1010可以部署在用户终端侧,本申请实施例对此并不限定。
图11是本申请实施例提供的一种训练模型的装置部署示意图,如图11中的(a)所示,训练装置1110可以部署在在云环境中,该云环境是指云计算模式下利用基础资源向用户提供云服务的实体。该云环境包括云数据中心和云服务平台,所述云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源),云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。
训练装置1110可以是在云数据中进行神经网络模型训练的服务器,或者还可以是对神经网络模型进行训练的虚拟机。
训练装置1110还可以是部署在云数据中心的服务器或者虚拟机上的软件装置,该软件装置用于对神经网络模型进行训练,该软件装置可以分布式地部署在多个服务器上、或者分布式地部署在多个虚拟机上、或者分布式地部署在虚拟机和服务器上。
如图11所示,训练装置1110可以由云服务提供商在云服务平台抽象成一种训练神经网络模型的云服务提供给用户,用户在云服务平台购买该云服务后,云环境利用该云服务向用户提供训练神经网络的云服务。
例如,如图11中的(b)所示,用户可以通过应用程序接口(application programinterface,API)或者通过云服务平台提供的网页界面上传待训练的神经网络模型(或者还可以上传原始训练集)至云环境,由训练装置1110接收待训练的神经网络模型以及训练集,通过训练装置1110中对待训练的神经网络模型进行训练,最终训练得到的目标神经网络由训练装置1110返回至用户所在的边缘设备。
其中,边缘设备是指在数据产生源头和云中心之间任一具有计算资源和网络资源的设备。比如,手机就是人与云中心之间的边缘设备,网关是智能家居和云中心之间的边缘设备。在理想环境中,边缘设备指是指在数据产生源附近分析或处理数据的设备。由于没有数据的流转,进而减少网络流量和响应时间。
本申请实施例中的边缘设备可以是具有计算能力的移动电话、平板个人电脑(tablet personal computer,TPC)、媒体播放器、智能家居、笔记本电脑(laptopcomputer,LC)、个人数字助理(personal digital assistant,PDA)、个人计算机(personalcomputer,PC)、照相机、摄像机、智能手表、可穿戴式设备(wearable device,WD)或者自动驾驶的车辆等。应理解,本申请实施例对边缘设备的具体形式不作限定。
例如,用户可以通过应用程序接口或者通过云服务平台提供的网页界面上传目标任务的类型至云环境,进一步地,还可以上传训练集,由训练装置接收目标任务类型以及训练集,通过训练装置1110中对目标任务的类型对应的神经网络模型(例如,待训练的图像识别模型)进行训练,最终训练得到的目标神经网络模型(例如,目标图像识别模型)由训练装置1110返回至用户所在的边缘设备。
上述训练装置1110可以为如图11中的(a)所示部署在云环境中;或者,上述训练装置1110也可以为终端设备,此时,执行设备1110可以部署在用户终端侧,本申请实施例对此并不限定。
目前,一种常见的神经网络模型的传输方案是通过将神经网络模型看作信源进行处理,通过信源编码及信道编码等过程以获得满足信道带宽需求的神经网络的数据,后续通过无线信道发送至接收端设备,接收端设备接收到数据后进行信道译码及信源译码等过程以完成神经网络模型的传输。在上述模型传输方案中,可使用一些AI技术,例如网络剪枝、网络参数量化与知识蒸馏等来获得尺寸相对较少的神经网络模型,从而可在不显著影响推理准确性的前提下,减少接收端的存储空间与推理时延。但是上述传输方案仍是将传统的通信系统作为神经网络模型的传输通道,即需要收发端网络相同,本质上依然属于传统的端对端通信系统,多个神经网络模型之间相互独立传输,且并没有使得通信过程参与AI应用的训练和推理,进而导致神经网络模型的传输性能较低,难以满足当前多神经网络模型传输的需求。
因此,本申请针对未来通信场景中的多个神经网络模型的高性能传输需求,提出了一种神经网络模型联合传输的方法,将神经网络与传统的通信系统进行结合,针对任务需求将不同发送端上的多个神经网络模型经过信道进行组合以产生新的神经网络模型,从而实现接收端设备对多个神经网络模型的传输需求,有利于控制AI应用的多样性和有效性,避免训练多个单一神经网络的传输,减少在多任务需求多模态下的多个神经网络模型的资源开销和时延,并在一定程度上节省接收端及发送端设备对于神经网络模型的存储空间。
在本申请实施例中,神经网络模型是指经过大量有标签的训练数据得到的用于执行认知计算的程序和数据。神经网络模型包括神经网络架构组件与神经网络参数组件,其中,神经网络架构组件是指神经网络模型中与神经网络算法相关的网络及其层次结构,即上述神经网络模型中用于执行认知计算的程序。神经网络参数组件是指训练神经网络模型时得到的大量参数,作为神经网络架构中的神经元的值,即上述神经网络模型中用于执行认知计算的数据。
下面结合图12对本申请实施例的模型传输的方法进行详细的介绍。图12所示的方法中的发送端设备和终端设备均可以由网络设备或者由终端设备执行,本申请实施例对此不做限定。例如,当发送端设备为网络设备时,接收端设备可以为终端设备或者网络设备。该方法1200包括步骤S1210至步骤S1240。下面对步骤S1210至S1240进行详细说明。
应理解,在本申请实施例中,适用于如图12所示的方法的系统中可包括至少一个发送端设备和一个接收端设备。例如,本申请实施例的方法可用于一个发送端内的多个神经网络模型进行联合传输的场景,或者多个不同发送端内的至少一个神经网络网络模型进行联合传输的场景。
应理解,在本申请实施例中,接收端设备也可以称为接收端装置,发送端设备也可以成为发送端装置,本申请对此不做限定。
下面以一个发送端设备内的多个神经网络模型的联合传输场景为例对本申请的模型的传输方法进行详细说明。
S1210,发送端设备获取N个第一模型的信息。
其中,该N个第一模型可对应N个第一任务,N为大于或等于2的整数。
应理解,在本申请实施例中,N个第一模型可根据任务需求信息进行确定,例如,当接收端边缘设备需要进行图像分类处理的业务时,发送端设备可通过接收该任务需求信息来确定该符合该业务需求的多个发送端神经网络模型,或者,该符合业务需求的发送端神经网络模型也可由上图11中的所涉及的云端设备或云服务平台根据业务需求信息进行确定,本申请实施例对此不做限定。其中,上述与设备可以理解成为发送端设备提供服务的服务器。
还应理解,该N个第一模型可理解为预训练的神经网络模型,例如,当任务需求为图像分类时,发送端可根据源数据集(如,Image net数据集)训练得到符合业务需求的神经网络模型供发送端进行使用。应理解,该预训练的神经网络模型可以在离线阶段完成,也可以在线完成。示例性的,当预训练的神经网络模型是在离线阶段完成的情况下,发送端设备在根据任务需求信息获取神经网络模型时,可以直接获取已经训练过的神经网络模型,而无需在线执行预训练的操作。
还应理解,该N个第一模型为符合任务需求的任意的神经网络模型,本申请实施例对此不做限定。
还应理解,上述任务需求信息可包括目标神经网络模型的外部特征值,该神经网络模型的外部特征值可理解为在训练神经网络模型的过程中不会在训练过程中而改变的值,该外部特征值也可以是在神经网络模型的训练之前已经人为或根据经验确定好的外部特征值。
其中,该目标神经网络模型的外部特征值包括以下信息中的一个或者多个信息:神经网络计算图信息、优化器信息、超参数信息。
还应理解上述神经网络计算图信息可用于指示神经网络的结构,其中,神经网络的结构包括以下一项或者多项:神经网络的类型、神经网络的层数、神经网络中各层的节点数、神经网络的节点连接方式。
在本申请实施例中涉及的神经网络的类型可以是全连接神经网络、卷积神经网络、深度神经网络、循环神经网络等,本申请实施例对此不做限定。
神经网络中的超参数可包括三类,即网络参数、优化参数、正则化参数。其中,网络参数是指网络层与层之间的交互方式(例如,相加、相乘或者串接等)、卷积核的数量和卷积核尺寸、网络层数(或称深度)和激活函数等。优化参数是指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数(例如,动量参数momentum)以及部分损失函数的可调参数。正则化参数是指权重衰减系数与神经网络模型的丢弃(dropout)参数等。
应理解,神经网络模型的超参数包括在神经网络模型训练过程中不变的参数,即超参数不是通过神经网络模型的训练得到的,通常是在神经网络模型的训练之前确定的。在本申请实施例中该超参数信息可以根据经验或任务需求人为地进行设置,本申请实施例对此不做限定。
在一种实现方式中,该N个第一模型可对应N个信号A。
应理解,该N个信号A用于承载所对应的第一模型的信息。
在一种实现方式中,发送端边缘设备可通过自身的编码器对N个第一模型的信息进行编码,并生成N个信号A。
在一种可能的实现方式中,发送端设备对该N个第一模型的信息依次通过信源编码、信道编码、调制以及上变频或者下变频处理后得到对应的N个信号A。
在本申请实施例中,模型的信息可包括神经网络模型的外部特征值和/或神经网络模型的参数,本申请模型的信息,不局限于是第一模型的或者目标模型的,只要是本申请出现的神经网络模型均可包含这些信息。具体地,该神经网络模型的外部特征值包括以下信息中的一个或者多个信息:神经网络计算图信息、优化器信息、超参数信息;神经网络模型的参数包括以下中的一项或者多项:权重矩阵、权重向量、偏置矩阵、偏置向量、激活函数。
在本申请实施例中,该N个第一模型对应的N个信号A可以为模拟信号或者数字信号,本申请实施例对此不做限定。
应理解,该N个信号A与上述N个第一模型一一对应,其中,N为大于或等于2的整数。
S1220,发送端设备获取融合辅助信息。
具体地,该融合辅助信息包括目标模型的外部特征值。
在本申请实施例中,该目标模型的外部特征值包括以下信息中的一项或者多项:目标模型的神经网络计算图信息、目标模型的优化器信息、目标模型的超参数信息
在一种实现方式中,该目标模型可对应第二任务,该第二任务与上述N个第一模型对应的N个第一任务可以相同,也可以不同,本申请实施例对此不做限定。例如,发送端中的第1个第一模型可用于对图像中的树木进行检测,第2个第一模型可用于对图像中的鸟类进行检测,经过本申请提供的模型联合传输的方法得到的目标模型可用于对图像中的花朵进行分类。
S1230,根据N个第一模型的信息和该融合辅助信息确定N个第一信号。
具体地,该N个第一信号是N个第一模块对上述N个第一模型的信息和该融合辅助信息处理后得到的。
应理解,在本申请实施例中,该第一模型可以为实现特定功能的模块,或者是满足任务需求的神经网络模型,作为示例本申请实施例对此不做限定。
在本申请实施例中,该N个第一模块是根据训练数据训练得到的训练好的神经网络模型,其中,该N个第一模块可与上述N个第一模型一一对应。
在一种实现方式中,该N个第一模块可理解为N个神经网络模型,该神经网络模型与上述的N个第一模型一一对应。
应理解,该N个第一模块与上述N个第一模型一一对应可以理解为N个第一模块所对应的N个业务需求与上述N个第一模型对应的N个业务需求一一对应,且彼此一一对应的第一模型和第一模块对应于同一业务需求。例如,N个第一模块与N个第一模型所对应的业务需求可均为图像分类业务。
其中,训练数据的类型与神经网络模型的任务需求有关。示例性地,当神经网络模型用于图像处理任务时(例如,图像分类、图像检测、图像分割或者图像生成等),则该训练数据可为图像。当神经网络模型用于文本处理任务时(例如,文本识别或者文本翻译等),则该训练数据可为文本。当神经网络模型用于语音处理任务时(例如,语音识别),则该训练数据可为语音数据。作为示例而非限定,本申请实施例对此不做限定。
在一种实现方式中,上述训练数据包括M个第一训练信号和目标模型的数据,该目标模型的数据可以理解为目标模型的外部特征值,即目标模型的神经网络计算图信息、优化器信息和超参数信息。其中,上述M个第一训练信号与M个训练模型一一对应,该M个训练模型对应于M个业务需求。
还应理解,上述N个第一模型对应的N个业务包括上述M个第一训练模型对应的M个业务。
在一种实现方式中,发送端设备可根据N个第一模型中的除了第i个第一模型以外的至少一个第一模型的信息来确定该第i个第一模型所对应的第一模块。其中,该至少一个第一模型的信息是指神经网络模型的参数和外部特征值,其中神经网络模型的参数是指神经网络模型的内部特征参数,即可在训练模型的过程中进行调整改变的参数。
其中,上述模型的参数是指以下中的一项或者多项:权重矩阵、权重向量、偏置矩阵、偏置向量、激活函数。
示例性地,当2个第一模型对应的业务均为图像处理业务中的目标检测业务时,若第1个第一模型可用于检测图像中的树木,第2个第一模型可用于检测图像中的鸟类,则该第1个第一模型可根据第2个第一模型中的参数(例如,权重矩阵、权重向量等)获得与第1个第一模型对应的第1个第一模块,其中,该第1个第一模块的业务与第1个第一模型的业务对应,且该第1个第一模块可同时用于对图像中的鸟类与树木进行检测。
下面详细介绍该N个第一模块的训练过程。
发送端设备可获取M个原始模型,该M个原始模型与上述M个第一训练信号一一对应,其中,M为大于等于2的整数;发送端将M个第一训练信号依次输入与其一一对应的M个原始模型中,以获得M个第二训练信号,其中,该M个第二训练信号与上述M个第一训练信号一一对应。
随后,发送端将上述M个第二训练信号在同一信道中进行叠加以获得第三训练信号;接收端设备通过对该第三训练信号进行解析后得到中间模型,应理解,该接收端设备可通过对该第三训练信号进行译码后得到与第三训练信号对应的中间模型;发送端设备根据中间模型与该目标模型的偏差,对上述M个原始模型的参数进行调节处理,以获得训练后的模型库。
应理解,该训练后的模型库包括经过上述调节处理后的原始模型,并且经过调节处理后的中间模型与目标模型的偏差在预设范围内,或者,也可以理解为将中间模型的输出值与目标模型的目标值进行比较,直到该中间模型的输出值与目标值的差值小于一定的预设阈值,即损失函数的值达到预设阈值时,停止该中间模型的训练。
最后,发送端设备可从该训练后得到的模型库中获取该N个第一模块。具体地,发送端设备可根据任务需求在该训练后的模型库中搜索符合当前任务需求的神经网络模型作为第一模块。
在一种可能的实现方式中,上述原始模型可根据任务需求信息进行确定,即该原始模型可根据符合任务需求信息的源数据集(例如,ImageNet、Labelme等数据集)训练得到。
应理解,上述训练停止的条件可以根据实际的应用需求和应用场景灵活设置。例如,训练的停止条件可以包括但不限于,训练时间达到预设的时长、训练次数达到预设次数、损失函数的值或者衰减幅度达到预设阈值等。
在一种可能的实现方式中,N个第一模型经过处理后可得到与其一一对应的N个信号A,该N个信号A经过上述训练后的N个第一模块处理后可得到N个第一信号,该N个第一信号在同一信道中进行叠加以得到目标模型对应的第二信号。
应理解,训练好的神经网络模型可以执行目标任务。例如,目标任务可以为图像处理任务,包括:目标检测、图像分割、实例分割、图像去噪、图像超分辨等。或者,该目标任务还可以为语音处理任务,例如,语音识别。或者,该目标任务还可以为文本处理任务,例如,文本识别或者文本翻译。
应理解,在本申请实施例中,对于N个第一模块的训练过程可以由神经网络模型的训练装置来执行,该训练装置可以由云端设备,也可以由终端设备进行执行,例如,边缘设备、电脑、服务器等运算能力足以用来执行神经网络模型的训练方法的装置,也可以是由云端设备和终端设备构成的系统来执行。具体地,上述模型的训练过程可以由图6中的训练设备620、图9中的神经网络处理器900、图10中的执行设备1010或者本地设备1001或1002、图11中的训练装置1110来执行,本申请实施例对此不做限定。
还应理解,该N个第一模块的训练过程可以在离线阶段完成,也可以在线完成。示例性的,若该N个第一模块是在离线阶段完成的情况下,发送端设备可以直接获取已经训练过的神经网络模型,而无需在线执行预训练的操作。
在一种实现方式中,发送端设备根据N个第一模块对上述N个信号A进行处理,得到N个第一信号。
具体地,发送端设备对N个第一模型对应的N个信号A进行处理后可得到N个第一信号。
在一种可能的实现方式中,发送端设备对N个第一模型进行处理后可得到N个信号A,并根据获取的N个第一模块对该N个信号A进行处理后得到N个第一信号。
其中,该N个信号A与该N个第一模型一一对应,该N个第一模块与该N个第一模型一一对应。应理解,该N个第一模块与该N个第一模型一一对应可以理解为N个第一模型的业务与N个第一模块的业务一一对应。该N个第一模块是根据训练数据训练得到的,且该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号对应M个训练模型,每个第一训练信号是所对应的训练模型的信号,该目标模型能够满足该M个训练模型对应的业务需求,且该M个第一训练模型对应的M个业务包括N个第一模型对应的N个业务。
其次,N个第一信号中的第n个第一信号是根据第n个第一模块对第n个信号A进行处理后得到的信号,该第n个信号A是第n个第一模块对应的第一模型的信号,该N个信号A与该N个第一模型一一对应,且彼此对应的第一模型和第一模块对应同一业务,n∈[1,N],N为大于或等于2的整数,M为大于或等于2的整数;
例如,N=5时,该发送端产生的5个第一信号中的第1个第一信号是根据第1个第一模块对第1个信号A进行处理后得到的信号,其中,该第1个信号A与第1个第一模型对应,且第1个第一模型与第1个第一模块对应同一业务。
应理解,该N个第一信号可在信道中叠加为第二信号,该第二信号与目标模型对应。
还应理解,该第二信号可经过接收端设备进行译码后得到任务所需的目标模型的数据,并进一步得到目标神经网络模型。
在一种可能的实现方式中,发送端设备还可通过发送该N个第一信号的信道的参数来确定上述N个第一模块,其中,该N个第一模块与N个第一信号一一对应。
上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
示例性地,发送端设备可根据信道参数中的信道状态信息和信噪比来获得神经网络模型的配置信息,并进一步确定与上述N个第一模型一一对应的N个第一模块。
在一种实现方式中,发送端设备可向接收端设备发送参考信息,该参考信息是发送端供给接收端设备用于进行信道估计或者信道探测的信息,例如,发送端设备可以以发送参考信息的方式进行信道信息的实时测量,随后接收端设备将根据获得的信道的参数来确定发送端设备的神经网络模型的配置参数,进而实现获得N个第一模块的目的。其中,上述神经网络模型的配置参数包括神经网络模型的外部特征值和/或神经网络模型的参数。该神经网络模型的外部特征值包括以下信息中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息;神经网络模型的参数包括以下中的一项或者多项:权重矩阵、权重向量、偏置矩阵、偏置向量、激活函数。
S1240,发送N个第一信号。
在一种可能的实现方式中,发送端设备将生成的N个第一信号发送至接收端设备,其中,上述N个第一信号进行叠加后可生成第二信号,接收端设备接收该第二信号并对其译码后可得到符合任务需求的目标模型的数据。并进一步得到目标神经网络模型,其中,该目标模型与第二信号对应。
在本申请实施例中,模型传输的方法1200还可以通过图13所示的模型传输的流程图进行表示。应理解,发送端所涉及的步骤已在上述图12中进行详细描述,此处不再赘述。
如图13所示,通过发送端设备得到的N个第一信号可在信道中进行叠加以得到第二信号,其中,该第二信号与目标模型对应。
在一种实现方式中,接收端设备接收到第二信号后,可通过解析模块处理该第二信号后得到目标模型的信息,并最终获得符合任务需求的目标神经网络模型。其中,该解析模块所对应的解析方法与模型的外部特征值相关。
在本申请实施例中,对于多个发送端设备内的神经网络模型的联合传输的方法与上述方法相似,此处为了简略不再赘述。
根据上述模型联合传输的方法,可以实现多个不同神经网络模型的联合传输,以及减小多个神经网络模型在传输过程中的资源开销和时延,并在一定程度上降低接收端设备对于神经网络模型的存储空间。
下面将结合附图14与18对本申请实施例提供的神经网络模型的联合传输的方法进行详细描述。
图14为本申请实施例提供的一例模型传输方法的流程示意图。该方法包括步骤S1410至步骤S1460。下面对步骤S1410至S1460进行详细的说明。
应理解,在本申请所提供的模型传输的应用场景下,发送端设备可以为一个或多个。例如,一个发送端设备内的多个神经网络向一个接收端设备进行模型的联合传输,或者三个发送端设备向一个接收端设备进行模型的联合传输。
S1410,接收端向发送端发送任务需求信息。
相应地,发送端获取接收端发送的任务需求信息。
在一种可能的实现方式中,接收端设备可向发送端设备发送任务需求信息,发送端设备根据接收到的任务信息,在离线训练得到的接收端神经网络模型库中选择符合任务需求的一组或者多组神经网络模型作为发送端的神经网络模型。应理解,此处确定的一组或多组神经网络模型可理解为上述方法1200中的N个第一模型。
在一种可能的实现方式中,该任务需求信息还可包括任务需求的准确度与接收端设备的性能。
应理解,上述任务需求信息中还可包括与任务需求信息对应的目标神经网络模型的译码方法,该目标神经网络模型的译码方法与接收端知识库所能表达出的目标神经网络模型的结构相关,经过接收端译码之后的神经网络应是知识库中所能表达出的神经网络模型。
S1420,发送端根据任务需求信息确定目标神经网络模型的外部特征值。
具体地,发送端接收到接收端发送的任务需求信息后,可选择符合任务需求的多个神经网络模型作为发送端神经网络模型。其中,该发送端神经网络模型的组合方案可以是经过上述信道通信运算方式后得到的可实现方式中一种或多种组合的发送端神经网络模型。
其中,该目标神经网络模型的外部特征值包括以下信息中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息。
应理解,在本申请实施例中的神经网络模型的外部特征值可理解为在训练神经网络模型的过程中不会因训练而改变的特征值,其中,该外部特征值也可以是在神经网络模型的训练之间已经确定好的特征值。
还应理解上述神经网络计算图信息可用于指示神经网络的结构,其中,神经网络的结构包括以下一项或者多项:神经网络的类型、神经网络的层数、神经网络中各层的节点数、神经网络的节点连接方式。
在本申请实施例中涉及的神经网络的类型可以是全连接神经网络、卷积神经网络、深度神经网络、循环神经网络等,作为示例而非限定,本申请实施例对此不做限定。
神经网络中的超参数可包括三类,即网络参数、优化参数、正则化参数。其中,网络参数是指网络层与层之间的交互方式(例如,相加、相乘或者串接等)、卷积核的数量和卷积核尺寸、网络层数(或称深度)和激活函数等。优化参数是指学习率(learning rate)、批样本数量(batch size)、不同优化器的参数(例如,动量参数momentum)以及部分损失函数的可调参数。正则化参数是指权重衰减系数与神经网络模型的丢弃(dropout)参数等。
应理解,神经网络模型的超参数包括在神经网络模型训练过程中不变的参数,即超参数不是通过神经网络模型的训练得到的,通常是在神经网络模型的训练之前确定的。在本申请实施例中该超参数的信息可以根据经验或任务需求人为地进行设置,本申请实施例对此不做限定。
S1430,发送端设备向接收端设备发送融合辅助信息。
相应地,接收端设备接收发送端发送的融合辅助信息。
该融合辅助信息用于指示符合任务需求的目标神经网络模型的外部特征值。
在一种实现方式中,接收端设备接收到第一信息后,根据该融合辅助信息中的目标神经网络模型的外部特征值(包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息)来预留目标神经网络模型的存储空间。
在本申请实施例中,发送端设备与接收端设备之间可通过维护多个目标神经网络模型的外部特征值的信息来实现收发端设备之间的目标神经网络模型的外部特征值的信息同步。具体地,在知识库中目标神经网络模型的外部特征值的列表可使用标识信息进行识别与区分。
示例性地,同步知识库中的目标神经网络模型的外部特征值的列表可由下表进行表示:
表1
网络模型结构 | 网络模型ID |
Conv 3*3 | 0001 |
Conv 1*1 | 0002 |
FC 16*16 | 0003 |
表2
表3
网络模型超参数 | 网络模型超参数ID |
Learning rate 0.01,moment 0.9 | 2001 |
Learning rate 0.001,moment 0.9 | 2002 |
表1至表3的第一列分别为神经网络模型的外部特征值,第二列为与该神经网络模型的外部特征值分别对应的ID信息。收发端设备可通过第一信息即上述列表中的ID组合进行收发端的目标神经网络模型信息的同步。例如,当接收端设备接收到的第一信息对应的ID组合为0001、1002和2001时,通过上述知识库中的对应列表可以得出,接收端接收到的目标神经网络模型的外部特征值的信息分别为:目标网络模型结构中包括卷积核尺寸为3*3的的卷积层,选用的网络模型优化器为均方根传播(root mean square prop,RMSProp)的优化算法以及网络模型的超参数为:学习率0.01,动量超参数的值为0.9。
还应理解,上述表2中的网络模型优化器与接收端设备的硬件能力相关,例如,在某些情况下,因终端设备的算力受限只能运行较为简单的网络模型结构或者优化器。
在一种可能的实现方式中,该融合辅助信息还包括参考信息,该参考信息用于供给接收端进行信道估计或者信道探测,以获得信道的参数。具体地,发送端可以以发送参考信息的方式进行信道信息的实时测量,随后接收端将根据获得的信道的参数来确定发送端的神经网络模型的配置参数,进而获得训练后的发送端神经网络模型的目的。
其中,上述神经网络模型的配置参数包括神经网络模型的外部特征值和/或神经网络模型的参数。该神经网络模型的外部特征值包括以下中的一项或者多项:神经网络计算图信息、优化器信息、超参数信息;神经网络模型的参数包括以下中的一项或者多项:权重矩阵、权重向量、偏置矩阵、偏置向量、激活函数。
在一种可能的实现方式中,上述步骤S1410至步骤可S1430可由为发送端设备提供服务的云端设备执行。
可选地,S1440,接收端设备向发送端设备发送融合辅助信息。
对应的,发送端设备接收接收端设备发送的融合辅助信息,以实现收发端对目标神经网络模型的外部特征值的同步。
S1450,发送端进行神经网络模型的联合传输。
具体地,该步骤可采用上述方法1200的方式执行,此处为简略不再赘述。
在本申请实施例提供了一种信道通信运算方式,可表示为发送端设备获取的网络模型经过编码模块Ei与第一模块处理后产生的神经网络模型Ei(Mi),并通过信道叠加后得到的神经网络模型为:
其中,hi表示第i个发送端神经网络模型经过的信道,n表示噪声干扰信号,上述公式(3)中的符号表示神经网络模型的叠加运算过程。
例如,当N=3时,即发送端设备存在三个神经网络模型即M1、M2、M3,经发送端编码模块E1、E2与E3产生的神经网络模型对应的信号分别为E1(M1)、E2(M2)与E3(M3),并经过训练后的与其一一对应的神经网络模型m1、m2、m3处理后的网络模型可表示为E1(m1)、E2(m2)与E3(m3),此时经过信道产生的叠加后的神经网络模型可表示为:
随后发送端设备经过信道传输的神经网络模型经过接收端译码模块D处理后产生的神经网络模型可表示为:
例如,N=3时,最后经过接收端的译码模块D得到的神经网络模型可表示为:
其中,M4为接收端最终获得的符合任务需求的神经网络模型。
为了进一步理解本申请实施例的信道通信运算的具体实现方式,结合神经网络结构的拓扑分析从基础图层面与计算图两个方面进行详细解释。
1.基础图层面(underlying graph)
如图15所示,本申请实施例涉及的神经网络模型可视为经典的有向图结构,其中,该有向图是一幅具有方向性的图,是由一组顶点和一组有方向的边组成,每条边都连接一对有序的顶点。该顶点可看作神经元节点或是神经单元,不同神经元节点之间的连线各对应一个权重值,该权重值可经过训练过程进行调整。具体地,图15中的神经网络模型可以按输入层、隐藏层及输出层进行划分,将神经网络模型可通过有向图数据结构存储表达。因而在该基础图层面下的信道通信运算可表示为不同神经网络模型对应的有向图结构的组合,即将多个发送端对应的神经网络模型的有向图数据结构中的相同部分进行叠加处理。
具体地,该信道通信运算利用基础图层面表示出的神经网络模型的联合传输过程可分为以下几个步骤:
1.选取部分可训练的神经网络模型,例如通过卷积神经网络中的深层卷积层进行抽象特征提取处理后的神经网络模型,并对其按输入层、隐藏层及输出层进行逐层定义,表示出的有向图数据如图15所示。神经网络模型m1为3层神经网络,包含一个隐藏层(也可称为第1层),其中,输入层(也可称为第0层)有2个神经元,隐藏层有1个神经元,输出层(也可称为第2层)有2个神经元。神经网络模型m2为3层神经网络,同样包含一个隐藏层,其中,该神经网络模型m2的输入层有2个神经元,隐藏层有2个神经元,输出层有2个神经元。
上述神经网络模型m1可以进一步表达为:神经网络模型m2可以表达为:/>
其中,l表示神经网络模型对应的有向图结构中的网络节点该网络节点也可以称为神经元或网络单元,l的上标表示神经网络模型内的神经元所在的层数,下标表示有向图中神经网络模型的神经元在所属层的位置序号。
2.发送端将神经网络模型对应的神经网络计算图信息、优化器及超参数等特征值通过同步知识库信息发送给接收端,接收端根据接收到的同步知识库网络信息预留符合任务需求的神经网络模型对应的存储空间。
3.各发送端神经网络模型的数据通过编码模块并经过训练后的神经网络模型处理后得到的信号通过同一信道发送至接收端。
在一种实现方式中,经过发送端发出的神经网络模型的信号可在信道中进行叠加处理得到目标神经网络模型对应的信号。
如图15所示,接收端得到的组合后的神经网络模型m3为3层神经网络,该神经网络模型m3包含一个隐藏层,其中,输入层包含3个神经元,隐藏层包含2个神经元,输出层包含3个神经元。该组合后的神经网络模型M3可表示为:
其中,神经网络模型m3中的/>与/>为需要借助信道通信运算进行叠加的部分,神经网络模型m3的其它部分为各发送端可独立传输的部分。
在一种可能的实现方式中,发送端发出的神经网络模型可在在同一信道上发送需要叠加的神经网络模型的参数,其余神经网络模型的参数在正交信道上进行发送。
具体地,在同一信道上传输神经网络模型的叠加部分的技术方案可表示如下:
各发送端通过传输两个由所需时钟频率分隔的单频正弦(或者余弦)信号,其中,两个时钟频率分别为f1和f2(f2>f1),则期望时钟频率为fref=f2-f1。例如:当f1=150MHz,f2=160MHz时,则fref=10MHz。发送端发送的参考信号为:
Stx(t)=A1cos(2πf1t)+A2cos(2πf2t) (7)
其中,A1与A2表示不同时钟频率对应的振幅值,t表示传输参考信号所耗费的时间。
相应地,接收端接收到的信号为:
其中,B1与B2表示参考信号通过信道,在接收端得到的对应于不同时钟频率的振幅值。与/>分别表示参考信号通过信道,在接收端得到的对应于不同时钟频率的相位值。
将上述接收端接收到的信号进行平方处理后可得:
其中,分别为时钟频率为f2+f1,f2,f1的高频项,/>表示接收端不同时钟频率的相位差,/>当f2-f1的差值较大时,通过滤波器筛选掉高频部分,从而得到的用于同步的时钟频率的参考信号为:
2.计算图层面(computation graph)
本申请实施例提供的一种信道通信运算也可通过如图16所示计算图层面进行表示,计算图是用来描述计算的语言,是一种将计算形式化的方法。在计算图中,计算可被表示成有向图,图中的每一个节点或模块表示一个变量,其中,该变量可以是标量、向量、矩阵、张量等。如图16所示,该计算图可包括骨干网络,卷积层,池化层以及全连接层。其中,卷积层的作用是对输入的数据进行特征提取,其内部包含多个卷积核,组成卷积核的每个元素对应一个权重系数和一个偏置量。池化层的作用是对卷积层中的特征进行压缩并提取主要特征,其中,常见的池化操作有最大池化和平均池化。全连接层用于连接所有特征值,并将输出值发送至分类器。全连接层一般位于池化层后,将池化层的所有特征矩阵转化成一维的特征大向量,同时,全连接层一般也位于卷积神经网络结构的最后层。
示例性的,神经网络模型在图16所示的计算图层面可表示为经过骨干网络输出的数据依次通过卷积层、池化层和全连接层后输出的神经网络模型,其中,对于图16中所示的神经网络模型m1,该神经网络模型m1的卷积层模块包括卷积核尺寸为1*1的卷积层及卷积核尺寸为3*3的卷积层。同理,神经网络模型m2可表示为骨干网络输出的数据依次通过卷积层、池化层以及全连接层后输出的神经网络模型的数据,其中,该卷积层包括尺寸为5*5的卷积核。在此情况下,经过信道通信运算组合得到的神经网络模型m3可用计算图表示为如图16所示。例如,对于神经网络模型m3,通过骨干网络输出的数据(例如,该数据可以为一张200*200像素的图片)依次经过包括卷积核尺寸为1*1的卷积层及包括卷积核尺寸为3*3卷积层后输出的数据与通过骨干网络输出的数据经过卷积核尺寸为5*5的卷积层后得到的数据在同一时刻到达池化层,并在该池化层进行叠加处理。
在计算图层面,可将神经元节点视作特定的网络模块,通过通信过程以实现这些网络模块之间的级联,并可经过切换通信路径来达到任务需求。示例性的,该计算图中的骨干网络可位于基站中,其余模块(包括卷积层、池化层与全连接层)的功能可由一个终端设备执行或多个终端设备分别执行,本申请实施例对此不做限定。如图16所示,通过采用上述计算图层面的方式进行神经网络模型的联合传输,即可通过通信路由实现对数据的不同特征的提取结果,从而提高神经网络的表达能力和性能。
在一种可能的实现方式中,在该计算图层面,可以将神经网络模型联合传输的过程看作为多播路由算法的逆向过程,如图17所示,为计算图层面下的神经网络模型传输的一例示意图。具体地,对于该神经网络模型的联合传输过程,可在接收端建立一个多播路由,经过分流点后将数据传输至多个发送端,该分流点可作为神经网络需要通过通信运算的节点,并在该分流点处进行神经网络模型的叠加组合,以得到最终的目标神经网络模型。
在一种可能的实现方式中,经过训练后得到的N个第一模块根据N个第一模型的信息和该N个第一模型的融合辅助信息处理后得到N个第一信号,发送端设备将处理后的N个第一信号发送至接收端设备,该N个第一信号在信道中进行叠加以获得第二信号,该第二信号与符合任务需求的目标模型对应。
S1460,接收端接收目标神经网络模型。
具体地,接收端设备接收第二信号。
在一种实现方式中,接收端设备可通过接收端的译码模块对该第二信号进行译码后,并进一步经过解析处理后得到目标神经网络模型。其中,该第二信号是由发送端设备发送的N个第一信号在信道中叠加得到的。
通过上述模型传输的方式,一个或者多个发送端设备可根据接收端设备发送的任务需求信息来确定多个神经网络模型,并通过联合传输的方式将组合后的神经网络模型发送至接收端设备,相较于传统的相互独立的模型传输方式,能够显著减少传输过程中的资源开销与时延,并有效降低接收端设备对目标神经网络模型预留的存储空间。
图18为本申请实施例提供的另一例模型传输方法的流程示意图。该方法包括步骤S1810至步骤S1860。下面对步骤S1810至S1860进行详细的说明。与图14所示的模型传输的方法不同的是,该图18中所示的方法的步骤S1810至S1830和步骤S1850可由为接收端设备提供服务的服务器(如,云端设备)执行。应理解,步骤S1810至S1860与上述图14中的步骤S1410至S1460相似,此处为了避免赘述,省略其详细说明。
根据上述模型传输的方式,可通过引入云端设备来根据接收端设备发送的任务需求信息确定多个神经网络模型,且该云端设备通过联合传输的方式将组合后的神经网络模型发送至接收端设备,相较于传统的相互独立的模型传输方式,能够显著减少传输过程中的资源开销与时延,有利于控制AI应用的多样性和有效性,并有效降低接收端设备对目标神经网络模型预留的存储空间。
图19是本申请实施例提供的模型传输的装置的示意性框图。图19所示的模型传输的装置包括获取单元1910、处理单元1920和发送单元1930。
获取单元1910、处理单元1920和发送单元1930可以用于执行本申请实施例的模型传输的方法,例如,可以用于执行上述图12中的方法1200。
获取单元1910,用于接收N个第一模型的信息和融合辅助信息,该融合辅助信息包括目标模型的外部特征值,该目标模型对应第二任务。
处理单元1920,根据该N个第一模型的信息和该融合辅助信息确定N个第一信号,并发送该N个第一信号,其中,该N个第一模型对应N个第一任务,N为大于或等于2的整数,该第二任务与该第一任务不同。
发送单元1930,用于向接收端设备发送该N个第一信号。
应理解,在本申请实施例中,该获取单元1910还可以是接收单元、或者处理单元、或者是一个具备接收和处理功能的单元。
在一种可能的实现方式中,当该获取单元1910为接收单元时,发送端设备可接收云端设备或者接收端设备发送的第一模型的信息;当该获取单元1910为处理单元时,发送端设备可用于在本地自行确定该第一模型的信息;当获取单元1910为具备接收和处理功能的单元时,发送端设备即可接收云端设备或者接收端设备发送的第一模型的信息,也可在本地自行确定该第一模型的信息。
具体地,处理单元1920通过第一模块确定该N个第一信号。
可选地,作为一个实施例,该第一模块是基于发送N个第一信号的信道的参数确定的。
上述信道的参数包括以下中的一个或多个:信道状态信息CSI、信噪比SNR、链路质量。其中,信道状态信息可包括:信道质量指示CQI、秩指示RI、预编码矩阵PMI。
示例性地,发送端设备可根据信道参数中的信道状态信息和信噪比来获得神经网络模型的配置信息,并进一步确定与上述N个第一模型一一对应的N个第一模块。
具体地,本申请实施例提供的模型传输的装置还包括第一模块,该第一模块用于根据所述N个第一模型和该融合辅助信息确定N个第一信号。
可选地,作为一个实施例,该N个第一模型中的第i个第一模型对应的第一模块是根据该N个第一模型中除第i个第一模型以外的至少一个第一模型的信息确定的,i∈[1,N]。
可选地,作为一个实施例,该N个第一模块是根据训练数据训练得到的,该训练数据包括M个第一训练信号和目标模型,该M个第一训练信号与M个训练模型一一对应,目标模型能够满足该M个训练模型对应的任务,M为大于或等于2的整数。
可选地,作为一个实施例,该处理单元1920还用于获取M个原始模型,并将每个第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将该M个第二训练信号在同一信道中叠加以获得第三训练信号,并对第三训练信号进行解析以获得中间模型,并根据中间模型与目标模型的偏差,对M个原始模型的参数进行调节处理,以获得模型库,从模型库中获取第一模块,M个原始模型与M个第一训练信号一一对应,M为大于或等于2的整数,该模型库包括经过调节处理后的原始模型,并且经过调节处理后的中间模型与目标模型的偏差在预设范围内。
可选地,作为一个实施例,发送单元1930还用于向接收端设备发送N个第一模型的融合辅助信息。
需要说明的是,上述装置以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现,对此不作具体限定。
例如,“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。
因此,在本申请的实施例中描述的各示例的单元,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
图20是本申请实施例提供的神经网络模型的训练装置的硬件结构示意图。图20所示的神经网络模型的训练装置2000(该装置2000具体可以是一种计算机设备)包括存储器2010、处理器2020、通信接口2030以及总线2040。其中,存储器2010、处理器2020、通信接口2030通过总线2040实现彼此之间的通信连接。
存储器2010可以是只读存储器(read only memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(random access memory,RAM)。存储器2010可以存储程序,当存储器2010中存储的程序被处理器2020执行时,处理器2020用于执行本申请实施例的神经网络模型的训练方法的各个步骤。具体地,处理器2020可以执行上文中图12所示的方法中1200。
处理器2020可以采用通用的中央处理器(central processing unit,CPU),微处理器,应用专用集成电路(application specific integrated circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请方法实施例的神经网络模型的训练方法。
处理器2020还可以是一种集成电路芯片,具有信号的处理能力,例如,可以是图9所示的芯片。在实现过程中,本申请的神经网络模型的训练方法的各个步骤可以通过处理器2020中的硬件的集成逻辑电路或者软件形式的指令完成。
上述处理器2020还可以是通用处理器、数字信号处理器(digital signalprocessing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所涉及的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2010,处理器2020读取存储器2010中的信息,结合其硬件完成图19所示的训练装置中包括的单元所需执行的功能,或者,执行本申请方法实施例的图12所示的神经网络模型的传输方法。
通信接口2030使用例如但不限于收发器一类的收发装置,来实现装置2000与其他设备或通信网络之间的通信。例如,可以通过通信接口2030获取训练数据。
总线2040可包括在装置2000各个部件(例如,存储器2010、处理器2020、通信接口2030)之间传送信息的通路。
应注意,尽管上述装置2000仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,装置2000还可以包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,装置2000还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,装置2000也可仅仅包括实现本申请实施例所必须的器件,而不必包括图20中所示的全部器件。
应理解,本申请实施例中的处理器可以为中央处理单元(central processingunit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random accessmemory,RAM)可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质。半导体介质可以是固态硬盘。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (39)
1.一种模型传输的方法,其特征在于,所述方法包括:
获取N个第一模型的信息,所述N个第一模型对应N个第一任务,其中,N为大于或等于2的整数;
获取融合辅助信息,所述融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同;
根据所述N个第一模型的信息和所述融合辅助信息确定N个第一信号;
发送所述N个第一信号。
2.根据权利要求1所述的方法,其特征在于,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,所述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,所述模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
3.根据权利要求1或2所述的方法,所述N个第一信号是第一模块对所述N个第一模型的信息和所述融合辅助信息处理后得到的。
4.根据权利要求3所述的方法,其特征在于,所述第一模块是根据训练数据训练得到的,所述训练数据包括M个第一训练信号和目标模型,所述M个第一训练信号与M个训练模型一一对应,所述目标模型能够满足所述M个训练模型对应的任务,M为大于或等于2的整数。
5.根据权利要求3所述的方法,其特征在于,所述第一模块是根据发送所述N个第一信号的信道的参数确定的。
6.根据权利要求3所述的方法,其特征在于,所述N个第一模型中的第i个模型对应的第一模块是根据所述N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取M个原始模型,所述M个原始模型与所述M个第一训练信号一一对应,M为大于或等于2的整数;
将每个所述第一训练信号输入所对应的原始模型,以获得M个第二训练信号;
将所述M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,所述第三训练信号与中间模型对应;
根据所述中间模型与所述目标模型的偏差,对所述M个原始模型的参数进行调节处理,以获得模型库,所述模型库包括经过所述调节处理后的原始模型,并且经过所述调节处理后的中间模型与所述目标模型的偏差在预设范围内;
从所述模型库中获取所述第一模块。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述方法还包括:
发送所述融合辅助信息。
9.根据权利要求1至8中任一项所述的方法,其特征在于,所述融合辅助信息来自所述N个第一信号的接收端装置,或者
所述融合辅助信息来自为所述N个第一信号的接收端装置提供服务的服务器。
10.一种模型传输的系统,其特征在于,所述模型传输系统包括:
发送端装置,用于获取N个第一模型的信息和融合辅助信息,根据所述N个第一模型的信息和所述融合辅助信息确定N个第一信号,并发送所述N个第一信号,其中,所述N个第一模型对应N个第一任务,N为大于或等于2的整数,所述融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同;
接收端装置,用于接收第二信号,并对接收到的所述第二信号进行解析,以获取目标模型,其中,所述第二信号是由所述N个第一信号得到的。
11.根据权利要求10所述的系统,其特征在于,所述第二信号是由所述N个第一信号叠加后得到的。
12.根据权利要求10或11所述的系统,其特征在于,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,所述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,所述模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
13.根据权利要求10或11所述的系统,其特征在于,所述N个第一信号是第一模块对所述N个第一模型的信息和所述融合辅助信息处理后得到的。
14.根据权利要求13所述的系统,其特征在于,所述第一模块是根据训练数据训练得到的,所述训练数据包括M个第一训练信号和目标模型,所述M个第一训练信号与M个训练模型一一对应,所述目标模型能够满足所述M个训练模型对应的任务,M为大于或等于2的整数。
15.根据权利要求13所述的系统,其特征在于,所述第一模块是基于发送所述N个第一信号的信道的参数确定的。
16.根据权利要求13所述的系统,其特征在于,所述N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
17.根据权利要求14所述的系统,其特征在于,所述发送端装置还用于获取M个原始模型,并将每个所述第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将所述M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,所述第三训练信号与中间模型对应,并根据所述中间模型与所述目标模型的偏差,对所述M个原始模型的参数进行调节处理,以获得模型库,从所述模型库中获取所述第一模块,所述M个原始模型与所述M个第一训练信号一一对应,M为大于或等于2的整数,所述模型库包括经过所述调节处理后的原始模型,并且经过所述调节处理后的中间模型与所述目标模型的偏差在预设范围内。
18.根据权利要求10至17中任一项所述的系统,其特征在于,所述发送端装置还用于向所述接收端装置发送所述融合辅助信息。
19.根据权利要求10至18中任一项所述的系统,其特征在于,所述融合辅助信息来自所述接收端装置,或者
所述融合辅助信息来自为所述接收端装置提供服务的服务器。
20.一种模型传输的系统,其特征在于,所述模型传输系统包括:
第一发送端装置,用于获取N个第一模型中的S个第一模型的信息和第一融合辅助信息,根据所述N个第一模型中的S个第一模型的信息和所述第一融合辅助信息确定S个第一信号,并发送所述S个第一信号,其中,所述N个第一模型中的S个模型对应S个第一任务,S为大于或等于1的整数,所述第一融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同;
第二发送端装置,用于获取N个第一模型中的K个第一模型的信息和第二融合辅助信息,根据所述N个第一模型中的K个第一模型的信息和所述第二融合辅助信息确定K个第一信号,并发送所述K个第一信号,其中,所述N个第一模型中的K个模型对应K个第一任务,K为大于或等于1的整数,所述第二融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务,所述第二任务与所述N个第一任务不同,所述S个第一模型与所述K个第一模型的交集为空集;
接收端装置,用于接收第二信号,并对所述接收到的所述第二信号进行解析,以获取目标模型,其中,所述第二信号是由所述S个第一信号和所述K个第一信号得到的。
21.根据权利要求20所述的系统,其特征在于,所述第二信号是由所述S个第一信号和所述K个第一信号叠加后得到的。
22.根据权利要求20或21所述的系统,其特征在于,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,所述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,所述模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
23.根据权利要求20或21所述的系统,其特征在于,所述S个第一信号是第一发送端装置通过对应的第一模块对所述S个第一模型中的S个第一模型的信息和所述第一融合辅助信息处理后得到的,所述K个第一信号是第二发送端装置通过对应的第一模块对所述K个第一模型中的K个第一模型的信息和所述第二融合辅助信息处理后得到的。
24.根据权利要求23所述的系统,其特征在于,所述第一发送端装置对应的第一模块或所述第二发送端装置对应的第一模块,是根据训练数据训练得到的,所述训练数据包括M个第一训练信号和目标模型,所述M个第一训练信号与M个训练模型一一对应,所述目标模型能够满足所述M个训练模型对应的任务,M为大于或等于2的整数。
25.根据权利要求23所述的系统,其特征在于,所述第一发送端装置对应的第一模块或所述第二发送端装置对应的第一模块是基于发送对应第一信号的信道的参数确定的。
26.根据权利要求23所述的系统,其特征在于,所述S个第一模型中的第i个模型对应的第一模块是根据S个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的;所述K个第一模型中的第j个模型对应的第一模块是根据K个第一模型中除第一模型中的第j个模型以外的至少一个第一模型的信息确定的。
27.根据权利要求24所述的系统,其特征在于,所述发送端装置还用于获取M个原始模型,并将每个所述第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将所述M个第二训练信号在同一信道中叠加以获得第三训练信号,其中,所述第三训练信号与中间模型对应,并根据所述中间模型与所述目标模型的偏差,对所述M个原始模型的参数进行调节处理,以获得模型库,从所述模型库中获取所述第一模块,所述M个原始模型与所述M个第一训练信号一一对应,M为大于或等于2的整数,所述模型库包括经过所述调节处理后的原始模型,并且经过所述调节处理后的中间模型与所述目标模型的偏差在预设范围内。
28.一种模型传输的装置,其特征在于,包括:
获取单元,用于获取融合辅助信息和N个第一模型的信息,所述融合辅助信息包括目标模型的外部特征值,所述目标模型对应第二任务;
处理单元,用于根据所述N个第一模型的信息和所述融合辅助信息确定N个第一信号,并发送所述N个第一信号,其中,所述N个第一模型对应N个第一任务,N为大于等于2的整数,所述第二任务与所述第一任务不同;
发送单元,用于向接收端设备发送所述N个第一信号。
29.根据权利要求28所述的装置,其特征在于,第一模型的信息或目标模型的信息包括模型的外部特征值和/或模型的参数,其中,所述模型的外部特征值包括以下信息中的一个或者多个:神经网络计算图信息、优化器信息、超参数信息,所述模型的参数包括以下参数中的一个或者多个:权重矩阵、权重向量、偏置矩阵、偏置向量。
30.根据权利要求28或29所述的装置,其特征在于,所述处理单元通过第一模块确定所述N个第一信号。
31.根据权利要求30所述的装置,其特征在于,所述第一模块是根据训练数据训练得到的,所述训练数据包括M个第一训练信号和目标模型,所述M个第一训练信号与M个训练模型一一对应,所述目标模型能够满足所述M个训练模型对应的任务,M为大于或等于2的整数。
32.根据权利要求30所述的装置,其特征在于,所述第一模块是基于发送所述N个第一信号的信道的参数确定的。
33.根据权利要求30所述的装置,其特征在于,所述N个第一模型中的第i个模型对应的第一模块是根据N个第一模型中除第一模型中的第i个模型以外的至少一个第一模型的信息确定的。
34.根据权利要求31所述的装置,其特征在于,所述处理单元还用于获取M个原始模型,并将每个所述第一训练信号输入所对应的原始模型,以获得M个第二训练信号,并将所述M个第二训练信号在同一信道中叠加以获得第三训练信号,并对所述第三训练信号进行解析以获得中间模型,并根据所述中间模型与所述目标模型的偏差,对所述M个原始模型的参数进行调节处理,以获得模型库,从所述模型库中获取所述第一模块,所述M个原始模型与所述M个第一训练信号一一对应,M为大于或等于2的整数,所述模型库包括经过所述调节处理后的原始模型,并且经过所述调节处理后的中间模型与所述目标模型的偏差在预设范围内。
35.根据权利要求28至34中任一项所述的装置,其特征在于,所述发送单元还用于发送所述融合辅助信息。
36.根据权利要求28至35中任一项所述的装置,其特征在于,所述融合辅助信息来自所述接收端装置,或者
所述融合辅助信息来自为所述接收端装置提供服务的服务器。
37.一种模型传输的装置,其特征在于,包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于调用所述程序指令来执行权利要求1至9中任一项所述的方法。
38.一种计算机可读存储介质,其特征在于,所述计算机可读存储用于设备执行的程序代码,该程序代码包括用于执行如权利要求1至9中任一项所述的方法。
39.一种芯片,其特征在于,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,以执行如权利要求1至9中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609813.5A CN117220734A (zh) | 2022-05-31 | 2022-05-31 | 一种模型传输的方法及装置 |
PCT/CN2023/089764 WO2023231635A1 (zh) | 2022-05-31 | 2023-04-21 | 一种模型传输的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210609813.5A CN117220734A (zh) | 2022-05-31 | 2022-05-31 | 一种模型传输的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117220734A true CN117220734A (zh) | 2023-12-12 |
Family
ID=89026883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210609813.5A Pending CN117220734A (zh) | 2022-05-31 | 2022-05-31 | 一种模型传输的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN117220734A (zh) |
WO (1) | WO2023231635A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117650834A (zh) * | 2024-01-29 | 2024-03-05 | 南京理工大学 | 基于知识蒸馏的天地一体化网络时空流量预测方法 |
CN118397464A (zh) * | 2024-07-01 | 2024-07-26 | 广东海洋大学 | 基于遥感图像的道路提取方法、系统及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190050714A1 (en) * | 2017-08-09 | 2019-02-14 | Ants Technology (Hk) Limited | Modular distributed artificial neural networks |
CN110766151B (zh) * | 2019-10-29 | 2022-03-04 | 中国人民解放军国防科技大学 | 一种基于场景的开放式神经网络模型管理系统 |
CN115956247A (zh) * | 2020-08-26 | 2023-04-11 | 华为技术有限公司 | 神经网络模型优化方法及装置 |
US11502915B2 (en) * | 2020-09-11 | 2022-11-15 | Qualcomm Incorporated | Transmission of known data for cooperative training of artificial neural networks |
US11694678B2 (en) * | 2020-10-07 | 2023-07-04 | General Dynamics Mission Systems, Inc. | Signal processor employing neural network trained using evolutionary feature selection |
-
2022
- 2022-05-31 CN CN202210609813.5A patent/CN117220734A/zh active Pending
-
2023
- 2023-04-21 WO PCT/CN2023/089764 patent/WO2023231635A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117650834A (zh) * | 2024-01-29 | 2024-03-05 | 南京理工大学 | 基于知识蒸馏的天地一体化网络时空流量预测方法 |
CN117650834B (zh) * | 2024-01-29 | 2024-04-12 | 南京理工大学 | 基于知识蒸馏的天地一体化网络时空流量预测方法 |
CN118397464A (zh) * | 2024-07-01 | 2024-07-26 | 广东海洋大学 | 基于遥感图像的道路提取方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023231635A1 (zh) | 2023-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yang et al. | Edge intelligence for autonomous driving in 6G wireless system: Design challenges and solutions | |
Zhou et al. | Edge intelligence: Paving the last mile of artificial intelligence with edge computing | |
CN110175671B (zh) | 神经网络的构建方法、图像处理方法及装置 | |
WO2023231635A1 (zh) | 一种模型传输的方法及装置 | |
CN112183718A (zh) | 一种用于计算设备的深度学习训练方法和装置 | |
CN111797983A (zh) | 一种神经网络构建方法以及装置 | |
CN113326930B (zh) | 数据处理方法、神经网络的训练方法及相关装置、设备 | |
CN113516227B (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN111931901A (zh) | 一种神经网络构建方法以及装置 | |
CN112115830B (zh) | 一种基于比特域特征提取的目标分布式融合识别方法 | |
Zhang et al. | Deep learning techniques for advancing 6G communications in the physical layer | |
CN115081588A (zh) | 一种神经网络参数量化方法和装置 | |
CN116187391A (zh) | 神经网络模型的处理方法及装置 | |
Fouda et al. | A lightweight hierarchical AI model for UAV-enabled edge computing with forest-fire detection use-case | |
CN112446462B (zh) | 目标神经网络模型的生成方法和装置 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
Ryvkin et al. | Convergence of technologies of the evolving prototype of an energy efficient large-scale system | |
Raha et al. | Segment anything model aided beam prediction for the millimeter wave communication | |
Ren et al. | Knowledge base enabled semantic communication: A generative perspective | |
CN116888605A (zh) | 神经网络模型的运算方法、训练方法及装置 | |
CN117295090A (zh) | 一种面向无人机通感一体化系统的资源分配方法 | |
Benelmir et al. | A novel MmWave Beam Alignment Approach for Beyond 5G Autonomous Vehicle Networks | |
CN118095368A (zh) | 一种生成模型训练方法、数据转换方法以及装置 | |
CN116343760A (zh) | 基于联邦学习的语音识别方法、系统和计算机设备 | |
CN112765892B (zh) | 一种异构车联网中的智能切换判决方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |