CN116940946A

CN116940946A - 可分割深度神经网络中的动态特征尺寸适配

Info

Publication number: CN116940946A
Application number: CN202280013234.2A
Authority: CN
Inventors: S·K·库马拉斯瓦米; Q·K·N·董; A·奥泽罗夫; P·方丹; F·施尼茨勒; A·兰伯特; 吉斯伦·佩尔蒂埃
Original assignee: InterDigital CE Patent Holdings SAS
Current assignee: InterDigital CE Patent Holdings SAS
Priority date: 2021-02-05
Filing date: 2022-02-03
Publication date: 2023-10-24
Also published as: JP2024509670A; WO2022167547A1; US20240311621A1; EP4288907A1

Abstract

本发明提出了一种方法，该方法处理针对分布式AI的有效传输，其中规定了在多个带宽之间切换。在边缘设备处的分布式推断期间，每个设备仅需要加载AI模型的一部分一次，但是它们之间所传送的输入/输出特征可通过启用/禁用动态特征尺寸切换器(DySw)中的节点之间的连接而根据可用传输带宽来灵活地配置。当连接或断开一些节点以便实现所需的压缩因数时，DNN的其他参数保持相同。也就是说，将相同的DNN模型用于不同的压缩因数，并且不需要下载新的DNN模型以与压缩因数或网络带宽适配。

Description

可分割深度神经网络中的动态特征尺寸适配

技术领域

本发明实施方案整体上涉及可分割深度神经网络(DNN)中的动态特征尺寸适配。

背景技术

人工智能是当今许多技术领域的重要功能区块。这是由于呈深度神经网络(DNN)形式的神经网络的再次兴起。现代DNN通常为计算密集型的，因此，在处理能力低下的移动电话或其他边缘设备上执行DNN操作很有挑战性。这通常通过将数据从移动设备传输到云服务器来解决，在云服务器中完成所有计算。

发明内容

根据一个实施方案，提出了一种设备，该设备包括无线发射/接收单元(WTRU)，该WTRU包括：接收器，其被配置为接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之前，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处压缩特征的神经网络；一个或多个处理器，其被配置为：获得所述神经网络的压缩因数；响应于所述压缩因数，确定将连接所述神经网络中的哪些节点；响应于所述确定，配置所述神经网络；以及利用所述DNN模型的所述部分来执行推断，以生成压缩特征；以及发射器，其被配置为向另一WTRU发射所述压缩特征。

根据另一实施方案，提出了一种设备，该设备包括无线发射/接收单元(WTRU)，该WTRU包括：接收器，其被配置为接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之后，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处扩展特征的神经网络，其中所述接收器也被配置为接收从另一WTRU输出的一个或多个特征；以及一个或多个处理器，其被配置为：获得所述神经网络的压缩因数；响应于所述压缩因数，确定将连接所述神经网络中的哪些节点；响应于所述确定，配置所述神经网络；以及通过将从另一WTRU输出的所述一个或多个特征用作所述神经网络的输入，利用所述DNN模型的所述部分来执行推断。

根据另一实施方案，提出了一种方法，包括一种由无线发射/接收单元(WTRU)执行的方法，该方法包括：接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之前，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处压缩特征的神经网络；获得所述神经网络的压缩因数；响应于所述压缩因数，确定将连接所述神经网络中的哪些节点；响应于所述确定，配置所述神经网络；利用所述DNN模型的所述部分来执行推断，以生成压缩特征；以及向另一WTRU发射所述压缩特征。

根据另一实施方案，提出了一种方法，该方法包括：接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之后，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处扩展特征的神经网络；接收从另一WTRU输出的一个或多个特征；获得所述神经网络的压缩因数；响应于所述压缩因数，确定将连接所述神经网络中的哪些节点；响应于所述确定，配置所述神经网络；以及通过将从另一WTRU输出的所述一个或多个特征用作所述神经网络的输入，利用所述DNN模型的所述部分来执行推断。

其他实施方案包括被配置为执行本文所述方法的系统。此类系统可包括处理器以及存储指令的非暂态计算机存储介质，这些指令当在处理器上执行时可操作以执行本文所述的方法。

附图说明

图1A是示出了其中可实现一个或多个公开实施方案的示例性通信系统的系统图，并且图1B是示出了根据一个实施方案的可以在图1A所示通信系统内使用的示例性无线发射/接收单元(WTRU)的系统图。

图2示出了一种在没有特征尺寸压缩的情况下用于两个设备之间的分布式AI的机制。

图3A、图3B和图3C分别示出了具有用于特征压缩的一个、两个和三个候选分割处的DNN。

图4示出了具有用于特征压缩的单个分割处的DNN。

图5A示出了一种使用带宽缩减器(BWR)和带宽扩展器(BWE)的用于两个设备(设备1和设备2)之间的分布式AI的特征尺寸压缩机制，其中支持单个压缩因数，并且图5B示出了一种支持多个压缩因数的特征尺寸压缩机制。

图6A示出了没有BWR和BWE的情况下的总干扰延迟，并且图6B示出了具有BWR和BWR的情况下的总干扰延迟，其中可减小中间数据的尺寸。

图7示出了根据一个实施方案的一个用以在分割处和压缩因数(CF)配置之间进行动态切换的过程。

图8A示出了设备1和2估计它们的计算能力和传输信道，图8B示出了每个设备对AI/ML模型的接收，并且图8C示出了这些设备的推断时间操作。

图9示出了根据一个实施方案的一种DNN具有单个分割处用于自适应特征压缩的方法。

图10示出了能够减小和扩展尺寸为4的输入的示例性DySw。

图11示出了图9所示的DySw配置的连接。

具体实施方式

图1A是示出在其中一个或多个所公开的实施方案可得以实现的示例性通信系统100的示意图。通信系统100可为向多个无线用户提供诸如语音、数据、视频、消息、广播等内容的多址接入系统。通信系统100可使多个无线用户能够通过系统资源(包括无线带宽)的共享来访问此类内容。例如，通信系统100可采用一个或多个信道接入方法，诸如码分多址接入(CDMA)、时分多址接入(TDMA)、频分多址接入(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块滤波OFDM、滤波器组多载波(FBMC)等。

如图1A所示，通信系统100可包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104、CN 106、公共交换电话网(PSTN)108、互联网110和其他网络112，但是应当理解，所公开的实施方案设想了任意数量的WTRU、基站、网络和/或网络元件。WTRU 102a、102b、102c、102d中的每一者可以是被配置为在无线环境中操作和/或通信的任何类型的设备。作为示例，WTRU 102a、102b、102c、102d(其中任何一个均可被称为“站”和/或“STA”)可被配置为传输和/或接收无线信号，并且可包括用户装备(UE)、移动站、固定或移动用户单元、基于订阅的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型电脑、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴式显示器(HMD)、车辆、无人机、医疗设备和应用(例如，远程手术)、工业设备和应用(例如，在工业和/或自动处理链环境中操作的机器人和/或其他无线设备)、消费电子设备、在商业和/或工业无线网络上操作的设备等。WTRU 102a、102b、102c和102d中的任一者可互换地称为UE。

通信系统100还可包括基站114a和/或基站114b。基站114a、114b中的每一者可为任何类型的设备，其被配置为与WTRU 102a、102b、102c、102d中的至少一者无线对接以促进对一个或多个通信网络(诸如CN 106、互联网110和/或其他网络112)的访问。作为示例，基站114a、114b可为基站收发台(BTS)、节点B、演进节点B、家庭节点B、家庭演进节点B、gNB、NR节点B、站点控制器、接入点(AP)、无线路由器等。虽然基站114a、114b各自被描绘为单个元件，但应当理解，基站114a、114b可包括任何数量的互连基站和/或网络元件。

基站114a可以是RAN 104的一部分，该RAN还可包括其他基站和/或网络元件(未示出)，诸如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等。基站114a和/或基站114b可被配置为在一个或多个载波频率(其可称为小区(未示出))上发射和/或接收无线信号。这些频率可在许可频谱、未许可频谱或许可和未许可频谱的组合中。小区可向特定地理区域提供无线服务的覆盖，该特定地理区域可为相对固定的或可随时间改变。小区可进一步被划分为小区扇区。例如，与基站114a相关联的小区可被划分为三个扇区。因此，在实施方案中，基站114a可包括三个收发器，即，小区的每个扇区一个收发器。在实施方案中，基站114a可采用多输入多输出(MIMO)技术并且可针对小区的每个扇区利用多个收发器。例如，可使用波束成形在所需的空间方向上发射和/或接收信号。

基站114a、114b可通过空中接口116与WTRU 102a、102b、102c、102d中的一者或多者通信，该空中接口可为任何合适的无线通信链路(例如，射频(RF)、微波、厘米波、微米波、红外(IR)、紫外(UV)、可见光等)。可使用任何合适的无线电接入技术(RAT)来建立空中接口116。

更具体地讲，如上所指出，通信系统100可为多址接入系统，并且可采用一个或多个信道接入方案，诸如CDMA、TDMA、FDMA、OFDMA、SC-FDMA等。例如，RAN 104中的基站114a和WTRU 102a、102b、102c可实现无线电技术诸如通用移动电信系统(UMTS)陆地无线电接入(UTRA)，其可使用宽带CDMA(WCDMA)来建立空中接口116。WCDMA可包括诸如高速分组接入(HSPA)和/或演进的HSPA(HSPA+)之类的通信协议。HSPA可包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。

在实施方案中，基站114a和WTRU 102a、102b、102c可实现诸如演进的UMTS陆地无线电接入(E-UTRA)的无线电技术，其可使用长期演进(LTE)和/高级LTE(LTE-A)和/或高级LTEPro(LTE-A Pro)来建立空中接口116。

在实施方案中，基站114a和WTRU 102a、102b、102c可实现无线电技术诸如NR无线电接入，该无线电技术可使用新空口(NR)来建立空中接口116。

在实施方案中，基站114a和WTRU 102a、102b、102c可实现多种无线电接入技术。例如，基站114a和WTRU 102a、102b、102c可例如使用双连接(DC)原理一起实现LTE无线电接入和NR无线电接入。因此，WTRU 102a、102b、102c所使用的空中接口可由多种类型的无线电接入技术和/或向/从多种类型的基站(例如，eNB和gNB)发送的传输来表征。

在其他实施方案中，基站114a和WTRU 102a、102b、102c可实现诸如IEEE 802.11(即，无线保真(WiFi))、IEEE 802.16(即，全球微波接入互操作性(WiMAX))、CDMA2000、CDMA2000 1X、CDMA2000 EV-DO、暂行标准2000(IS-2000)、暂行标准95(IS-95)、暂行标准856(IS-856)、全球移动通信系统(GSM)、GSM增强数据率演进(EDGE)、GSM EDGE(GERAN)等无线电技术。

图1A中的基站114b可为例如无线路由器、家庭节点B、家庭演进节点B或接入点，并且可利用任何合适的RAT来促进诸如商业场所、家庭、车辆、校园、工业设施、空中走廊(例如，供无人机使用)、道路等局部区域中的无线连接。在实施方案中，基站114b和WTRU 102c、102d可实现诸如IEEE 802.11之类的无线电技术以建立无线局域网(WLAN)。在实施方案中，基站114b和WTRU 102c、102d可实现诸如IEEE 802.15之类的无线电技术以建立无线个域网(WPAN)。在又一个实施方案中，基站114b和WTRU 102c、102d可利用基于蜂窝的RAT(例如，WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等)来建立微微小区或毫微微小区。如图1A所示，基站114b可具有与互联网110的直接连接。因此，基站114b可不需要经由CN 106访问互联网110。

RAN 104可与CN 106通信，该CN可以是被配置为向WTRU 102a、102b、102c、102d中的一者或多者提供语音、数据、应用和/或互联网协议语音技术(VoIP)服务的任何类型的网络。数据可具有不同的服务质量(QoS)要求，诸如不同的吞吐量要求、延迟要求、误差容限要求、可靠性要求、数据吞吐量要求、移动性要求等。CN 106可提供呼叫控制、账单服务、基于移动位置的服务、预付费呼叫、互联网连接、视频分发等，和/或执行高级安全功能，诸如用户认证。尽管未在图1A中示出，但是应当理解，RAN 104和/或CN 106可与采用与RAN 104相同的RAT或不同RAT的其他RAN进行直接或间接通信。例如，除了连接到可利用NR无线电技术的RAN 104之外，CN 106还可与采用GSM、UMTS、CDMA 2000、WiMAX、E-UTRA或WiFi无线电技术的另一RAN(未示出)通信。

CN 106也可充当WTRU 102a、102b、102c、102d的网关，以访问PSTN 108、互联网110和/或其他网络112。PSTN 108可包括提供普通老式电话服务(POTS)的电路交换电话网络。互联网110可包括使用常见通信协议(诸如传输控制协议(TCP)、用户数据报协议(UDP)和/或TCP/IP互联网协议组中的互联网协议(IP))的互连计算机网络和设备的全球系统。网络112可包括由其他服务提供商拥有和/或操作的有线和/或无线通信网络。例如，网络112可包括连接到一个或多个RAN的另一个CN，其可采用与RAN 104相同的RAT或不同的RAT。

通信系统100中的一些或所有WTRU 102a、102b、102c、102d可包括多模式能力(例如，WTRU 102a、102b、102c、102d可包括用于通过不同无线链路与不同无线网络通信的多个收发器)。例如，图1A所示的WTRU 102c可被配置为与可采用基于蜂窝的无线电技术的基站114a通信，并且与可采用IEEE 802无线电技术的基站114b通信。

图1B是示出示例性WTRU 102的系统图。如图1B所示，WTRU 102可包括处理器118、收发器120、发射/接收元件122、扬声器/麦克风124、小键盘126、显示器/触摸板128、不可移动存储器130、可移动存储器132、电源134、全球定位系统(GPS)芯片组136和/或其他外围设备138等。应当理解，在与实施方案保持一致的同时，WTRU 102可包括前述元件的任何子组合。

处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)、状态机等。处理器118可执行信号编码、数据处理、功率控制、输入/输出处理和/或任何其他功能，这些其他功能使WTRU 102能够在无线环境中工作。处理器118可耦合到收发器120，该收发器可耦合到发射/接收元件122。虽然图1B将处理器118和收发器120描绘为单独的部件，但是应当理解，处理器118和收发器120可在电子封装或芯片中集成在一起。

发射/接收元件122可被配置为通过空中接口116向基站(例如，基站114a)发射信号或从基站接收信号。例如，在一个实施方案中，发射/接收元件122可以是被配置为发射和/或接收RF信号的天线。在一个实施方案中，发射/接收元件122可以是被配置为发射和/或接收例如IR、UV或可见光信号的发射器/检测器。在又一个实施方案中，发射/接收元件122可被配置为发射和/或接收RF和光信号。应当理解，发射/接收元件122可被配置为发射和/或接收无线信号的任何组合。

尽管发射/接收元件122在图1B中被描绘为单个元件，但是WTRU 102可包括任何数量的发射/接收元件122。更具体地讲，WTRU 102可采用MIMO技术。因此，在一个实施方案中，WTRU 102可包括用于通过空中接口116发射和接收无线信号的两个或更多个发射/接收元件122(例如，多个天线)。

收发器120可被配置为调制将由发射/接收元件122发射的信号并且解调由发射/接收元件122接收的信号。如上所指出，WTRU 102可具有多模式能力。例如，因此，收发器120可包括多个收发器，以便使WTRU 102能够经由多种RAT(诸如NR和IEEE 802.11)进行通信。

WTRU 102的处理器118可耦合到扬声器/麦克风124、小键盘126和/或显示器/触摸板128(例如，液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元)并且可从其接收用户输入数据。处理器118还可将用户数据输出到扬声器/麦克风124、小键盘126和/或显示器/触摸板128。此外，处理器118可从任何类型的合适存储器(诸如不可移动存储器130和/或可移动存储器132)访问信息，并且将数据存储在任何类型的合适存储器中。不可移动存储器130可包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或任何其他类型的存储器存储设备。可移动存储器132可包括用户身份模块(SIM)卡、记忆棒、安全数字(SD)存储卡等。在其他实施方案中，处理器118可从未物理上定位在WTRU 102上(诸如，服务器或家用计算机(未示出)上)的存储器访问信息，并且将数据存储在该存储器中。

处理器118可从电源134接收电力，并且可被配置为向WTRU 102中的其他部件分配和/或控制电力。电源134可以是用于为WTRU 102供电的任何合适的设备。例如，电源134可包括一个或多个干电池组(例如，镍镉(NiCd)、镍锌(NiZn)、镍金属氢化物(NiMH)、锂离子(Li-ion)等)、太阳能电池、燃料电池等。

处理器118还可耦合到GPS芯片组136，该GPS芯片组可被配置为提供关于WTRU 102的当前位置的位置信息(例如，经度和纬度)。除了来自GPS芯片组136的信息之外或代替该信息，WTRU 102可通过空中接口116从基站(例如，基站114a、114b)接收位置信息和/或基于从两个或更多个附近基站接收到信号的定时来确定其位置。应当理解，在与实施方案保持一致的同时，该WTRU 102可通过任何合适的位置确定方法来获取位置信息。

处理器118还可耦合到其他外围设备138，该其他外围设备可包括提供附加特征、功能和/或有线或无线连接的一个或多个软件模块和/或硬件模块。例如，外围设备138可包括加速度计、电子指南针、卫星收发器、数字相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发器、免提耳麦、模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏播放器模块、互联网浏览器、虚拟现实和/或增强现实(VR/AR)设备、活动跟踪器等。外围设备138可包括一个或多个传感器，该传感器可为以下中的一者或多者：陀螺仪、加速度计、霍尔效应传感器、磁力计、方位传感器、接近传感器、温度传感器、时间传感器；地理位置传感器；测高计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物识别传感器和/或湿度传感器。

WTRU 102可包括全双工无线电台，对于该全双工无线电台，一些或所有信号的传输和接收(例如，与用于UL(例如，用于传输)和下行链路(例如，用于接收)的特定子帧相关联)可为并发的和/或同时的。全双工无线电台可包括干扰管理单元，该干扰管理单元用于经由硬件(例如，扼流圈)或经由处理器(例如，单独的处理器(未示出)或经由处理器118)进行的信号处理来减少和/或基本上消除自干扰。在一个实施方案中，WRTU 102可包括半双工无线电台，对于该半双工无线电台，一些或所有信号的传输和接收(例如，与用于UL(例如，用于传输)或下行链路(例如，用于接收)的特定子帧相关联)。

尽管WTRU在图1A至图1B中被描述为无线终端，但是可以设想，在某些代表性实施方案中，此类终端可(例如，临时或永久)使用与通信网络的有线通信接口。

鉴于图1A和图1B以及图1A和图1B的对应描述，本文参照以下一项或多项所描述的功能中的一个或多个功能或所有功能可由一个或多个仿真设备(未示出)执行：WTRU 102a-d、基站114a-b、演进节点B 160a-c、MME 162、SGW 164、PGW 166、gNB 180a-c、AMF 182a-b、UPF 184a-b、SMF 183a-b、DN 185a-b和/或本文所述的任何其他设备。仿真设备可以是被配置为模仿本文所述的一个或多个或所有功能的一个或多个设备。例如，仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。

仿真设备可被设计为在实验室环境和/或运营商网络环境中实现其他设备的一个或多个测试。例如，该一个或多个仿真设备可执行一个或多个或所有功能，同时被完全或部分地实现和/或部署为有线和/或无线通信网络的一部分，以便测试通信网络内的其他设备。该一个或多个仿真设备可执行一个或多个功能或所有功能，同时临时被实现/部署为有线和/或无线通信网络的一部分。仿真设备可直接耦合到另一个设备以用于测试目的和/或可使用空中无线通信来执行测试。

该一个或多个仿真设备可执行一个或多个(包括所有)功能，同时不被实现/部署为有线和/或无线通信网络的一部分。例如，仿真设备可在测试实验室和/或非部署(例如，测试)有线和/或无线通信网络中的测试场景中使用，以便实现一个或多个部件的测试。该一个或多个仿真设备可为测试装备。经由RF电路系统(例如，其可包括一个或多个天线)进行的直接RF耦合和/或无线通信可由仿真设备用于发射和/或接收数据。

如上所述，DNN操作的执行通常通过将数据从移动设备传输到云服务器来解决，在云服务器中完成所有计算。然而，这对带宽要求高，极为费时(由于传输延迟)，并且会引起数据隐私问题。解决这个问题的一种方式是通过权重轻且准确度较小的DNN在用户设备(例如，移动电话)上进行所有计算。另一方式是通过具有高准确度的DNN，但是通过在单个/多个移动设备和/或云上分摊该计算。

灵活的AI方法

为了仅在用户设备上运行DNN模型，广泛采用模型压缩技术。它们实现了减少模型存储器占用空间和运行时间以使其适合特定设备。然而，可能事先不知道模型将在哪个设备上执行，并且即使该设备已知，其可用资源也可能由于例如其他进程而随时间变化。为了克服这些问题，最近提出了一类所谓的灵活AI模型。那些模型可通过例如实现早期分类退出、适配模型宽度(细化)或实现可切换模型权重量化而立即适配到可用资源。

分布式AI方法

一些所谓的分布式AI方法在两个或多个设备(即，WTRU)之间或者在设备和云/边缘之间分割模型。例如，图2示出了一种在没有特征尺寸压缩的情况下用于2个设备(设备1和设备2)之间的分布式AI的机制。在分布式AI中，需要发射可能具有相当高维度的中间数据(特征)。这增加了处理的延迟，并且由于对应传输网络的带宽限制而并不总是可能。为了克服这个问题，提出了经由瓶颈段来减小特征尺寸的方法。图3A示出了具有用于特征压缩的一个候选分割处的DNN，其中a1、a2或a3可用作分割点。图3B示出了具有用于特征压缩的两个候选分割处(例如，a1和a2)的DNN。图3C示出了具有用于特征压缩的三个候选分割处(例如，c1、c2和c3)的DNN。

在不引入任何限制的情况下，可将一个特征视为可用于表示现象的数据的单独可测量性质或特性。一个或多个特征可以与机器学习算法、神经网络和/或其各层之一的输入和/或输出相关。例如，可以将特征组织成向量。例如，与无线用例相关联的特征可包括时间、发射器标识、以及参考信号(RS)的测量结果。

例如，与用于处理定位信息的算法相关联的特征可包括：与定位RS(PRS)的测量结果、诸如参考信号接收功率(RSRP)的量、诸如参考信号接收质量(RSRQ)的量、与接收信号强度指示(RSSI)相关的量、与基于不同来源的信号的时间差测量结果相关的量(例如，对于基于时间的定位方法)、与到达角度测量结果相关的量、与波束质量相关的量和/或来自传感器的输出(WTRU旋转、来自相机的成像等)相关联的值。

例如，与用于处理信道状态信息(CSI)的算法相关联的特征可包括与信道状态参考信号(CSI-RS)、同步信号块(SSB)、预编码矩阵指示(PMI)、秩指示符(RI)、信道质量指示符(CQI)、RSRP、RSRQ、RSSI等的接收相关联的量的测量结果。

例如，与用于处理波束管理和选择的算法相关联的特征可包括与关于处理CSI的类似测量结果、发射/接收点(TRP)标识(ID)、波束ID、以及/或者与波束故障检测(BFD)相关的一个或多个参数(例如，充足波束质量的阈值确定结果)相关联的量。

类似地，本文所述的任何方法还可应用于或包括用于特定AI/ML处理阶段(例如，训练或推断)的机器学习算法的超参数的特定参数设置。

图4示出了具有用于特征压缩的单个分割处(分别为a2、b2)的DNN，其中特征尺寸从(a)4减小到2并且从(b)4减小到3。特别地，(a3)是实现了特征尺寸从4缩减到2的子网，并且(b3)从4减小到3。在现有工作中，利用针对每个压缩因数的特征压缩器和扩展器从头训练DNN。注意，压缩因数是在压缩器输出处的特征尺寸与压缩器输入处的特征尺寸的比率。这意味着，每当需要改变压缩因数时，设备和云服务器必须协调并从云服务器重新下载新模型。图5A示出了一种使用带宽缩减器(BWR，510)和带宽扩展器(BWE，520)的用于两个设备(设备1和设备2)之间的分布式AI的特征尺寸压缩机制，其中支持单个压缩因数。然而，这些方法无法实现瓶颈段与不同传输网络带宽的适配。

为了提供分布式AI范例中的灵活性，我们引入了灵活和分布式AI(FD-AI)方法。所提出的方法为分布式，这是因为可在两个或多个设备之间进行DNN分割。所提出的方法也具有灵活性，这是因为取决于各设备中的可用资源，可在几个可能的分割点候选项之间选择出分割点。另外，可将每个分割点处所传输的特征尺寸压缩，以适合用于传输的可用网络带宽。

在一个实施方案中，我们提出了作为DNN架构的一部分的可切换瓶颈子网。瓶颈子网是可切换的，因为它们可以在推断时与不同传输网络带宽适配。在所提出的设计中，我们有一个瓶颈子网，该子网具有用以减小特征尺寸的各层以及用以将其恢复到原始尺寸的其他层集。可将这些瓶颈子网并入任何现有DNN的一个或多个分割位置处。为简洁起见，在以下描述中，我们考虑具有单一分割处的DNN，其具有一组用于特征尺寸缩减和扩展的瓶颈子网。

在一个示例中，第一设备可以是边缘设备或云服务器，并且第二设备可以是边缘设备或云服务器。更一般地，本文所述的方法可应用于通过通信链路进行数据交换的任何设备。此类设备可包括分割神经网络的处理或自编码器功能。本文所述的方法可适用于设备中的处理，例如针对最终用户应用(例如，音频、视频等)或针对与数据发射和/或接收处理有关的功能。更一般地，此类设备可以是移动终端、无线电接入网络节点诸如gNB等。此类通信链路可以是无线链路和/或接口，诸如3GPP Uu、3GPP侧链路或Wifi链路。

直到具有瓶颈子网的特征尺寸减小层的分割点的DNN层被加载到第一设备上。其余部分，即瓶颈子网扩展器和DNN在分割点之后的剩余部分被加载到第二设备上。我们将包括缩减器和扩展器的瓶颈子网称为动态特征尺寸切换器(DySw)。在DySw的中间处，提取出待发射到第二设备的特征。我们将实现这一点的DNN称为动态可切换特征尺寸网(DyFsNet)。DyFsNet一般适用于诸如卷积神经网络(CNN)之类的任何DNN架构，并且其在设计和训练方面与众不同。DyFsNet中的推断简单且可调节(关于分割位置和可用网络带宽)。

图5B示出了特征尺寸压缩机制的一个示例，该机制使用带宽缩减器(BWR)和带宽扩展器(BWE)来支持用于两个设备(设备1和设备2)之间的分布式AI的多个压缩因数，其中K₁、K₂、……K_N指定了可训练BWR(530)和BWE(540)内部的压缩因数，这些因数是专用的并且在推断时可动态切换。

更具体地讲，设备1和设备2(可选地与服务器一起)监测信道条件和设备状态，并且选择分割位置处的压缩因数和特征尺寸。设备1接收直到分割位置的DNN模型的第一部分，并且设备2接收DNN模型的其余部分。在设备1处，执行推断以由输入来计算该特征，并且然后由BWR进行压缩。如结合图10和图11更详细所述，通过控制在BWR中连接哪些节点(530)，可获得不同的压缩因数。在设备2处，压缩特征由BWE来接收并扩展(540)。类似于BWR，通过控制BWE中的节点连接，BWE可以控制压缩因数。然后设备2继续该推断并提供最终输出。

网络带宽限制对总体推断引入了附加的延迟。图6A示出了在没有BWR和BWE的情况下的总推断延迟。图6B示出了在具有BWR和BWR的情况下的总推断延迟，其中可减小中间数据的尺寸。

如上所述，我们提出了一种方法，用以在几乎维持预测准确度的同时，减小DNN模型中不同位置处的中间数据尺寸，以限制对通信网络的吞吐量要求。图7示出了根据一个实施方案的一个用以在分割处/压缩因数(CF)配置之间进行动态切换的过程。

在模型训练和分割处/CF估计阶段(710)期间，针对不同的分割处和CF，进行DyFsNet模型训练。这当前可以在云服务器中离线完成。训练模型保存在云服务器中并且可供设备进行下载。基于该请求，(服务器侧的)协调器对训练模型选择和到终端设备传输的协调进行管理。这里，假设关于带宽的信息是可用的。基于此，CF被估计为特征尺寸与可用带宽的比率。

例如，协调器或外部控制系统基于终端设备(例如，在设备1和设备2中)的计算能力来确定DNN的分割位置。这被传达给加载了DNN的设备以根据分割信息进行处理。

在模型部署阶段(720)，由设备来接收所训练的分割模型。一旦收到，就将它们加载到设备上用于进行推断。

对网络(例如，带宽)和/或设备(例如，可用处理能力)状态进行监测(730)。这些设备监测它们之间的网络信道并协调它们之间的CF。这是在不涉及服务器的情况下完成的。

一旦在设备之间达成一致，就进行CF选择(740)，从而影响分割位置处的特征尺寸。注意，可用CF选项取决于分割实现之处的DNN层的滤波器中的信道数量。通常，所选CF几乎与可用带宽匹配而非恰好就是可用带宽。

在第一设备和第二设备上执行分割模型推断(750)。例如，第一设备使用直到分割处的DNN来计算中间特征，压缩该特征，将压缩特征传输到第二设备。第二设备接收压缩特征，不将其压缩，并且继续进行DNN推断。在一个实施方案中，其中设备是无线终端设备以及/或者该设备的通信链路是无线空中接口(例如，诸如NR Uu、侧链路等)，该设备可执行以下至少一项：

-启动本文所提出的适配。例如，设备可调适分割处理点、特征尺寸、压缩因数、推断延迟、处理要求、功能准确度、或本文所提出的任何其他方面。

-确定了关于L1/物理(PHY)层操作的以下至少一项后，设备可触发针对AI处理的此类适配：

ο设备可以确定无线电特性已经发生改变，其中此类特性可能影响接口的传输数据速率，诸如小区标识的改变、载波频率的改变、带宽部分(BWP)的改变、BWP和/或小区的物理资源块(PRB)数量的改变、子载波间隔(SCS)的改变、传输可用的聚合载波数量的改变、可用传输功率的改变、或所测的量的改变等。

ο设备可以确定无线接口上的操作条件发生了改变，诸如控制信道资源(CORESET)或标识的改变，其中第一标识可以与第一阈值相关联，并且第二标识可以与第二阈值相关联。

ο设备可以确定该改变高于指示信道质量恶化的可能配置的特定阈值，并且可以执行将降低与AI处理相关联的数据速率的适配。相反，设备可以确定无线电条件的改善，并且执行可增加与AI处理相关联的数据速率的适配。

例如，这可适用于设备的物理层功能，诸如CSI自编码。

-确定了关于L2/介质访问控制(MAC)层操作的以下至少一项后，设备可触发针对AI处理的此类适配：

ο设备可以确定数据处理、信息承载(例如，数据无线电承载、信令无线电承载)已经发生改变，其中此类特性可能影响可用于AI处理的接口上的传输数据速率，诸如逻辑信道优先化参数的改变，例如分组延迟预算(PDB)、优先化比特率(PBR)、TTI持续时间/数字学、相关联的QoS流ID的改变、针对实现不同数据速率的资源集合的映射限制等的改变。

ο设备可以确定该改变高于指示AI处理可用数据速率减少的可能配置的特定阈值，并且可以执行将降低与AI处理相关联的数据速率的适配。相反，设备可以确定可用数据速率的增加，并且执行可增加与AI处理相关联的数据速率的适配。

例如，这可适用于系统级功能，诸如设备的定位功能。例如，这可应用于特定的数据无线电承载(DRB)和/或DRB类型，例如，与特定的AI启用型应用相关联的DRB，使得DRB或其特性的改变可以在相关联的应用层之处，触发基于AI的处理的适配。

-确定了关于L3/无线电资源控制(RRC)层操作的以下至少一项后，设备可触发针对AI处理的此类适配：

ο设备可以确定配置已经发生改变已经，例如，从而影响了L1/L2配置中的一项或多项配置，诸如可能改变可用数据速率的上述方面。

ο设备可以确定其已经接收到以及/或者其应当应用(例如，针对条件切换命令)例如针对移动性的重新配置消息，其中该消息可包括针对AI处理和/或其相关无线电承载的适用数据速率的指示。

ο设备可以确定已经发生了无线电链路障碍，诸如无线电链路故障(RLF)。

ο设备可以确定该改变高于指示AI处理可用数据速率减少的可能配置的特定阈值，并且可以执行将降低与AI处理相关联的数据速率的适配。相反，设备可以确定可用数据速率的增加，并且执行可增加与AI处理相关联的数据速率的适配。另选地，其可以确定事件本身可与AI处理可用数据速率增加(例如，将小区添加到设备配置的连接性(例如，双重连接性))或减少(例如，RLF和/或将小区从设备配置的连接性中删除)相关联。

-确定了关于可用处理资源的以下至少一项后，设备可触发针对AI处理的此类适配：

ο例如，基于实例化和/或有效AI进程的数量的改变、基于动态设备能力的改变、或基于AI处理的处理要求(例如，推断延迟、准确度)的改变，设备可以确定可用硬件处理已经发生改变。

ο设备可以确定设备的功耗状态已经发生改变。例如，设备可以确定其已经从第一状态转换到第二状态，其中此类状态可能与RRC连接性状态(空闲、无效或连接)、DRX状态(有效、无效)、或它们的不同配置有关。

ο设备可以确定该改变高于可能配置的特定阈值，该阈值指示可用处理资源的减少。相反，设备可以确定可用处理资源的增加，并且执行可增加与AI处理相关联的数据速率的适配。类似地，特定状态可以与特定AI处理级别、分割点配置和/或相关联的数据速率相关联。

-在根据以下至少一项确定其接收到控制信令后，设备可以触发针对AI处理的此类适配：

ο设备可以接收指示AI处理/AI处理可用数据速率的增加或减少的控制信息。这可以隐式地基于用信号通知的值和/或控制信道属性的修改值，诸如上文针对L1、L2、L3处理和/或针对节能管理所述的值，或者显式地使用控制消息中的指示。此类控制信息可以在L1信号、L1消息(例如，PDCCH上的DCI)、L2 MAC控制元素或RRC消息中接收到。

ο控制信息可包括应用于给定AI处理的特定分割点配置、超参数设置、目标分辨率、目标准确度、或目标特征向量等。

图8A、图8B和图8C提供了该过程的替代视图。图8A示出了设备1和2(840,860)估计它们的计算能力和传输信道(850)。向运营商/边缘/云传送(820,830)它们的估计结果，并且请求合适的AI/ML模型(810)。

在图8B中，示出了从每个设备接收AI/ML模型。运营商/云/边缘执行模型的选择并通过网络来发射模型(830)，并且由设备1和2来接收所请求的模型。

图8C描绘了设备的推断时间操作。设备1计算特征，并且然后基于信道条件，向设备2发射具有适当维度的特征尺寸。设备1对输入数据执行推断(870)。输入数据可以是：来自设备存储器或从设备的相机实时捕捉的一张或多张图像；或设备存储器上的或从设备麦克风实时捕捉的音频数据；或需要由DNN处理的任何其他数据。设备1输出由DNN处理的中间或早期输出(880)，诸如在DNN为MSDNet类型的情况下。对该特征进行进一步处理所需的信息也经由信道(850)传送到设备2。设备2接收该特征，进一步继续该推断并在需要时切换CF，并且提供最终输出(890)。此外，设备1将该特征连同控制信息一起发射给设备2，以进一步处理该特征。设备2接收该特征和控制信息，并继续进行推断。

图9示出了所提出的DNN中具有单一分割处用于进行特征压缩的方法。图9(a)描绘了没有选择压缩因数的联合训练子网DySw(a3)。图9(b)描绘了已选特征压缩因数4-2的联合训练子网(b3)。图9(c)描绘了已选特征压缩因数4和3的联合训练子网(c3)。注意，图9(a)、(b)和(c)中的DNN是相同的(单个)DNN。

DySw可以与整个DNN一起进行训练。另选地，在没有DySw的情况下，对DNN进行预先训练，再添加DySw子网。注意，在此另选解决方案中，利用DySw(a3)子网来扩充预先训练的DNN，并且仅针对DySw进行训练，同时使预先训练的DNN(的权重)保持不变(即，固定)。

如图9所示，DySw可重新配置以适应多个压缩因数。通过DySw节点的连接细节来实现重新配置。例如，对于如图10所示的DySw子网，我们可以维持如图11所示的指定了节点连接且尺寸为4×3的矩阵。矩阵中的每个元素(E_ij)表示输入节点i是否连接到输出节点j，其中“0”表示断开，并且“1”表示连接。图11(a)、(b)和(c)所示的矩阵分别对应于图9(a)、(b)和(c)。特别地，图9(a)指定了没有输入节点连接到任何输出节点，图9(b)指定了仅将输出节点中的2个(输出节点2和节点3)连接到输入节点，并且图9(c)指定了将所有输入节点连接到输出。图11示出了缩减器侧上的连接，并且扩展器可以维持与不同压缩因数对应的矩阵。在一个示例中，将扩展器侧的矩阵形状进行转置(相对于缩减器侧的矩阵)，但是全零行的数量将保持相同。

如图8所示，设备调整CF。在一个实施方案中，协调器或外部控制系统向设备1通知可用带宽。基于关于带宽的信息，设备1确定待使用的CF。设备1然后切换DySw，以实现与所确定CF对应的特征尺寸压缩。设备1也可传送其正在使用的CF，并且相应地，设备2切换其DNN侧以适合所传送的信息。

在一个实施方案中，在选择了CF之后，设备1决定应当在节点之间禁用哪些连接以提供所选的CF，并且设备2也对应地决定应当禁用哪些连接以便正确执行扩展。CF确定将多少输出节点连接到输入节点，但是将通过学习来确定方式和多少。

如上所述，图10示出了能够减小和扩展尺寸为4的输入的示例性DySw。注意，尽管为了简单起见，图10示出了单层“缩减器”区块，但缩减器不限于单层。所示DySw能够从4到3、4到2和4到1进行压缩以及进行对应扩展(即，1到4、2到4和3到4)。如果需要，DySw设计可具有附加层，例如用于进行更好训练的BatchNorm层。这里，我们仅示出了缩减器(在虚线左侧示出的BWR)和扩展器(在虚线右侧示出的BWE)。非线性对各层来说是隐式的。BatchNorm层可以是进行有效训练所需的可选层，因此这里并未示出。

更一般地，典型的DySw包括四种类型的层，即特征维度缩减器层和扩展器层、非线性层和批归一化(BatchNorm)层。在这些层中，BatchNorm层是可选的。图10示出了一个简单的DySw。

DNN分类器所用的DySw可使用常规任务特定损失来训练，例如，针对分类任务的交叉熵损失或针对回归任务的均方差损失。DySw可用于任何任务，即分类、检测或分段，并且可用于任何DNN架构，即CNN、GAN、自动编码器等。训练DySw涉及学习缩减器-扩展器层权重和批归一化层(也表示为“BatchNorm”)参数。BatchNorm用于加快训练收敛。

DySw训练实现了对损失目标的附加约束。作为说明，我们示出了跨DySw的重构损失的添加。重构损失对DySw的输入和输出之间的差异不利。DySw是可以添加到经训练的DNN的辅助和可选实体。

在DySw中，缩减因数可在推断时即时切换。在DyFsNet中，训练迭代被修改为利用多个缩减因数来共同学习共享DySw权重，如下面进一步详细所述。

DySw训练可为离线或在线，在云/运营商/边缘上完成，或者它可以是在设备上的联合训练。我们在此描述了针对以下情况的分割DNN的架构和训练：带DySw的两个设备之间具有单个分割处。可以将这里所述的训练机制扩展到多个分割处的情况。在下文中，我们详细描述了分割式DNN的架构、DySw层和DyFsNet(具有DySw层的DNN)的架构、以及不同的损失功能及其训练。

考虑处于第l层末端的分割处，其中设备1处理直到层l，并且设备2从层l+1向前处理。假设设备1中的DNN的一部分是h_device1，并且类似地假设h_device2为设备2中的DNN的一部分。尽管对DNN的输入可以是任何类型的数据，但是现在假设输入X是彩色图像，使得X∈R^{W ^×H×3}，其中W、H是宽度、高度，并且3表示颜色通道(例如，RGB)的数量。分割处的特征张量(或简称为特征)是y_l∈R^{M×N×C}，其中M、N和C表示其宽度、其高度和通道数量。特征y_l通过无线网络被发射到设备2，该设备2将y_l作为输入并产生输出Y。因此，y_l＝h_device1(X)，Y＝h_device2(y_l)。

DySw是由下式表示的子网：h_DySw。参数h_DySw是θ_DySw。假设DySw的缩减器(第一部分)和扩展器(第二部分)称为BWR和BWE，此类缩减器和扩展器的示例性实现方式可包括卷积层、非线性层(ReLu)和批归一化层(BatchNorm)，如下所概括：

具有DySw的DNN被称为DyFsNet。假设DyFsNet由h来表示。假设θ是h的参数。分割点之前的DyFsNet子网是并且分割点之后的子网是

DySw在特征尺寸的各种压缩因数(CF)之间切换。CF切换通过K建立索引。DyFsNet分割处的(通过K建立索引的)中间输出如下：

其中和是分别进行BWR和BWE的DySw子网，并且对于DNN分类器N_c是分类的数量，并且下标K表示压缩因数。取决于DNN的目的是分类器、回归器还是发生器。在不失一般性的情况下，这里我们将假定分类器情况。

该设定为我们提供了两种类型的监督，一种类型是通过地面实况标签并且另一类型是DySw子网的输入和DySw子网的输出之间的重构损失(例如，以均方差的形式)。此外，如果利用预先训练的DNN来初始化DyFsNet，则可以使用预先训练的DNN的输出之间的已知蒸馏损失、Y_KD和DySw子网输出。为简便起见，我们可以将利用Y_True和Y_KD监督所计算的损失称为全局损失，并且将跨DySw的称为局部损失。下面示出了在训练网络期间待优化的不同损失类型。

从头训练的DyFsNet：

s.t. 0≤λ≤1

通过预先训练的初始化结果所训练的DyFsNet：

s.t. λ₁+λ₂+λ₃＝1 and 1≥λ₁,λ₂,λ₃≥0

从头训练的多分割式DyFsNet：

s.t. 0≤λ≤1

由预先训练的初始化结果所训练的多分割式DyFsNet：

s.t. λ₁+λ₂+λ₃＝1 and 1≥λ₁,λ₂,λ₃≥0

DyFsNet训练算法

假设(X_i,Y_i)∈D是数据集，其中X_i和Y_i分别是数据及其监督结果，i∈{0,1,…,N}是索引，N是训练样本的数量，并且Num-of-epochs是训练时期的数量。这里我们给出了针对分类器的使用全局损失(即，交叉熵和KD)的训练算法。基于KD的损失可以是四种类型——其中蒸馏结果来自：i)没有压缩的情况下的DySw输出(即K＝1的DySw)；ii)具有即时较低压缩因数的DySw输出(即来自DySw的蒸馏结果，其中K＝K1至K＝K2，其中K1<K2)；iii)未压缩的DySw输出和最接近的DySw压缩输出的仿射组合；或iv)为相同任务受过良好训练的完全不同DNN架构的输出。

整个算法如下：

a.计算针对DySw未压缩配置的DyFsNet损失。在我们的示例中，它是交叉熵损失，但不限于此。

b.进行反向传播并累积针对DySw未压缩配置的梯度。

c.在1至C的范围内，选择CF的N_r数量，其中1表示未压缩并且C表示最大压缩。

d.对于CF＝2至N_r：

i.计算针对蒸馏类型(i)、(ii)、(iii)或(iv)的DyFsNet损失

ii.进行反向传播并累积DySw梯度

e.使用累积梯度来更新权重。

在一个示例中，使用以下伪代码。

来自未压缩(K＝1)DySw输出的KD：

对于范围(Num-of-epochs)内的n，进行：

对于范围(N)内的i，进行：

//正向通过DyFsNet而不进行压缩，即压缩因数K＝C

计算损失：

进行损失反向传播并累积梯度

//采样N_r个随机数，其中N_r≤C

//假设S是一组N_r个随机数

//注意，S中的每个元素以升序表示压缩因数(CF)。

S＝随机(1，C，尺寸＝N_r)

对于范围(N_r)内的j：

K＝S[j]

Y_K＝h_device2(h_DySw(h_device1(X_i)))

计算KD损失：

进行损失反向传播并累积梯度

结束

DyFsNet权重(如果使用预先训练的固定权重，则是完整的DyFsNet或仅是DySw的权重)更新

结束

来自K＝K1的DySw到K＝K2的DySw的输出中的KD，其中K1<K2：

对于范围(Num-of-epochs)内的n，进行：

对于范围(N)内的i，进行：

//采样N_r个随机数，其中N_r≤C

//假设S是一组N_r个随机数

//注意，S中的每个元素以升序表示压缩因数(CF)。

S＝随机(1，C，尺寸＝N_r)

//正向通过DyFsNet而不进行压缩，即压缩因数K＝C

计算损失：

进行损失反向传播并累积梯度

对于范围(2，N_r)内的j：

K＝S[j]

Y_K＝h_device2(h_DySw(h_device1(X_i)))

计算KD损失：

进行损失反向传播并累积梯度

结束

来自K＝K1的DySw到K＝K2的DySw的输出中的KD，其中K1<K2：

对于范围(Num-of-epochs)内的n，进行：

对于范围(N)内的i，进行：

//采样N_r个随机数，其中N_r≤C

//假设S是一组N_r个随机数

//注意，S中的每个元素以升序表示压缩因数(CF)。

S＝随机(1，C，尺寸＝N_r)

//正向通过DyFsNet而不进行压缩，即压缩因数K＝C

计算损失：

进行损失反向传播并累积梯度

对于范围(2，N_r)内的j：

K＝S[j]

Y_K＝h_device2(h_DySw(h_device1(X_i)))

计算KD损失：

进行损失反向传播并累积梯度

结束

我们使用公知的MSDNet模型测试了所提出的针对图像分类任务的理念。此模型具有若干CNN区块，其中可以在任何区块的输出处进行分类。我们想在不同区块的末端处对此大型网络进行分割，并将对应特征发射到第二设备(或云)。表1示出了ImageNet数据集每个区块末端处的MSDNet特征维度。

表1

我们在此通过说明典型DNN中的数据速率要求来说明特征尺寸缩减的效用。传输与单张图像对应的特征所需的数据传输速率在13Mbps-0.5Gbps范围内，该图像在用于图像分类的DNN(MSDNet)中生成且尺寸为224×224×3。这对于无线网络上的传输而言是具有挑战性的数据速率。在我们的使用MSDNet模型的方法的初步实现方式中，我们能够将特征尺寸减小50％，其中准确度损失最多1％。

在下文中，我们描述了我们在针对CIFAR-100的MSDNet中实现DySw，DNN在七个位置处进行分割，并且表2示出了每个分割位置处的特征尺寸(每单位是16位)。我们已经实现了压缩因数1、2、4和10。

分割位置	特征尺寸(尺寸为16位)
		1	10240
2	13312
		3	8960
4	12032
		5	15104
6	9728
		7	12800

表2

为了研究在MSDNet添加带宽缩减器-扩展器的效果。在表3中，我们示出了针对基线(没有带宽缩减器-扩展器)情况以及具有带宽缩减器-扩展器且针对缩减因数为1、2、4和10的情况的结果。缩减因数1、2、4和10分别对应于原始带宽的100％、50％、25％和10％。可以看出，带宽减小的MSDNet的准确度几乎与没有任何缩减的基线MSDNet相同。注意，准确度是针对所有六个区块(0-6)和所有标度结束处的压缩实现方式而言。换句话说，通过在每个分割点添加新的带宽缩减器-扩展器，可以极大地减少特征以支持特征传输，同时分类准确度几乎不变。

表3

已存在提及CNN权重精确度的精确度可切换网络的方法。也已存在关于可切换多宽度CNN的研究。但是与它们不同，我们提出了可切换特征带宽网络，其可以在推断时间在不同特征带宽之间切换。这种可切换性对于处理各设备或设备云或它们的其他组合之间的通信信道的带宽约束是有用的。此机制可以在CNN架构不可知的情况下使用，例如，它可以与执行不同机器学习任务的现有模型如ResNet、AlexNet、DenseNet、SoundNet和VGG等无缝地使用。此机制也可以在其他特征压缩技术类型诸如权重量化不可知的情况下使用。

所提出的方法处理针对分布式AI传输的有效带宽，其中规定了在多个特征带宽之间切换。在边缘设备处的分布式推断期间，每个设备仅需要加载AI模型的一部分一次，但是它们之间所传送的输入/输出特征可通过启用/禁用DySw中的节点之间的连接而根据可用传输带宽来灵活地配置。当连接或断开一些节点以便实现所需的压缩因数时，DNN的其他参数保持相同。也就是说，将相同的DNN模型用于不同的压缩因数，并且不需要下载新的DNN模型以与压缩因数或网络带宽适配。

AI处理可用于(例如但不限于)基本型电话的相机所拍到的图像、或者从用于经由手势检测进行UI交互的智能TV相机所拍到的图像。所提出的方法可用于各种场景。比如，可以在设备与云之间分割该AI模型。在下文中，我们列出了几种可能的使用场景：

1.在两个设备之间分割的AI模型。例如，用户想要处理智能手表所捕捉的数据，其中一部分处理可以在手表上进行，剩余部分可以在用户的移动电话上进行。

2.在多个设备与可能的云之间分割的AI模型。例如，用户想要在相机本身上快速地处理智能CCTV相机的馈送项以及在云或本地服务器上的详细处理。

3.与用例3类似，但利用的是具有计算使能型麦克风而非CCTV相机的话音/音频处理。

4.在诊断室与云之间分摊医疗数据的处理。

5.可通过无线链路进行通信的终端设备，其中AI处理与无线电处理链的传输和/或接收(例如，CSI压缩、CSI自编码或定位确定等)有关。

6.可通过无线链路进行通信的终端设备，其中AI处理与调度或数据处理的功能有关，例如与QoS处理有关(例如，用户面数据速率适配等)。

在本申请中使用各种数值。具体值是为了示例目的而提供的，并且所述方面不限于这些具体值。

尽管上文以特定组合描述了特征和元件，但是本领域的普通技术人员将理解，每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。另外，本文所述的方法可在结合于计算机可读介质中以供计算机或处理器执行的计算机程序、软件或固件中实现。非暂态计算机可读存储介质的示例包括但不限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、高速缓存存储器、半导体存储器设备、磁介质(诸如内置硬盘和可移动磁盘)、磁光介质和光介质(诸如CD-ROM磁盘和数字通用光盘(DVD))。与软件相关联的处理器可用于实现用于UE、WTRU、终端、基站、RNC或任何主计算机中的视频编码器、视频解码器或两者、射频收发器。

此外，在上述实施方案中，指出了处理平台、计算系统、控制器和包含处理器的其他设备。这些设备可包含至少一个中央处理单元(“CPU”)和存储器。根据计算机编程领域的技术人员的实践，对动作和操作或指令的符号表示的引用可由各种CPU和存储器执行。此类动作和操作或指令可被认为是正在“执行的”、“计算机执行的”或“CPU执行的”。

本领域的普通技术人员将会知道，动作和符号表示的操作或指令包括CPU对电信号的操纵。电系统表示数据位，这些数据位可导致电信号的最终变换或电信号的减少以及对在存储器系统中的存储器位置处的数据位的保持，从而重新配置或以其他方式改变CPU的操作以及进行信号的其他处理。保持数据位的存储器位置是具有与数据位对应或表示数据位的特定电属性、磁属性或光学属性的物理位置。应当理解，示例性实施方案不限于上述平台或CPU，并且其他平台和CPU也可支持所提供的方法。

数据位还可保持在计算机可读介质上，该计算机可读介质包括磁盘、光盘和CPU可读的任何其他易失性(例如，随机存取存储器(“RAM”))或非易失性(例如，只读存储器(“ROM”))海量存储系统。计算机可读介质可包括协作或互连的计算机可读介质，该协作或互连的计算机可读介质唯一地存在于处理系统上或者分布在多个互连的处理系统中，该多个互连的处理系统相对于该处理系统可以是本地的或远程的。应当理解，代表性实施方案不限于上述存储器，并且其他平台和存储器也可支持所述的方法。

在例示性实施方案中，本文所述的操作、过程等中的任一者可实现为存储在计算机可读介质上的计算机可读指令。计算机可读指令可由移动单元、网络元件和/或任何其他计算设备的处理器执行。

硬件或软件的使用通常是(但不总是，因为在某些上下文中，硬件和软件之间的选择可能会变得很重要)表示在成本和效率之间权衡的设计选择。可存在可实现本文所述的过程和/或系统和/或其他技术的各种媒介(例如，硬件、软件和/或固件)，并且优选的媒介可随部署过程和/或系统和/或其他技术的上下文而变化。例如，如果实施者确定速度和准确度最重要，则实施者可选择主要为硬件和/或固件的媒介。如果灵活性最重要，则实施者可选择主要为软件的具体实施。另选地，实施者可选择硬件、软件和/或固件的一些组合。

上述详细描述已经通过使用框图、流程图和/或示例列出了设备和/或过程的各种实施方案。在此类框图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域的技术人员应当理解，此类框图、流程图或示例内的每个功能和/或操作可单独地和/或共同地由广泛范围的硬件、软件、固件或几乎它们的任何组合来实现。合适的处理器包括(以举例的方式示出)GPU(图形处理单元)、通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、专用标准产品(ASSP)、现场可编程门阵列(FPGA)电路、任何其他类型的集成电路(IC)、和/或状态机。

尽管上文以特定组合提供了特征和元件，但是本领域的普通技术人员将理解，每个特征或元件可单独使用或以与其他特征和元件的任何组合来使用。本公开并不限于就本专利申请中所述的具体实施方案而言，这些具体实施方案旨在作为各个方面的例证。在不脱离本发明的实质和范围的前提下可进行许多修改和变型，因其对于本领域的技术人员而言将是显而易见的。除非明确如此提供，否则本申请说明书中使用的任何元件、动作或说明均不应理解为对本发明至关重要或必要。根据前面的描述，除了本文列举的那些之外，在本公开的范围内的功能上等同的方法和装置对于本领域的技术人员而言将是显而易见的。此类修改和变型旨在落入所附权利要求书的范围内。本公开仅受限于所附权利要求的条款以及此类享有权利的权利要求的等同形式的全部范围。应当理解，本公开不限于特定的方法或系统。

还应当理解，本文所用的术语仅用于描述具体实施方案的目的，并非旨在进行限制。

在某些代表性实施方案中，本文所述主题的若干部分可经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)和/或其他集成格式来实现。然而，本领域的技术人员将认识到，本文所公开的实施方案的一些方面整体或部分地可等效地在集成电路中实现为在一个或多个计算机上运行的一个或多个计算机程序(例如，在一个或多个计算机系统上运行的一个或多个程序)、在一个或多个处理器上运行的一个或多个程序(例如，在一个或多个微处理器上运行的一个或多个程序)、固件或几乎它们的任何组合，并且根据本公开，设计电路和/或写入软件和/或固件的代码将完全在本领域技术人员的技术范围内。另外，本领域的技术人员将会知道，本文所述主题的机制可以多种形式作为程序产品分布，并且本文所述主题的例示性实施方案适用，而不管用于实际执行该分布的信号承载介质的具体类型如何。信号承载介质的示例包括但不限于以下各项：可记录类型介质(诸如软盘、硬盘驱动器、CD、DVD、数字磁带、计算机存储器等)；和传输类型介质(诸如数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路等))。

本文所述的主题有时示出了包含在不同的其他部件内或与不同的其他部件连接的不同的部件。应当理解，此类描绘的架构仅仅是示例，并且事实上可实现达成相同功能的许多其他架构。在概念意义上，达成相同功能的部件的任何布置是有效“相关联的”，使得可实现期望的功能。因此，本文组合以达成特定功能的任何两个部件可被视为彼此“相关联”，使得实现期望的功能，而与架构或中间部件无关。同样，如此相关联的任何两个部件也可被视为彼此“可操作地连接”或“可操作地耦合”以实现期望的功能，并且能够如此相关联的任何两个部件也可被视为“可操作地可耦合”于彼此以实现期望的功能。可操作地可耦合的具体示例包括但不限于可物理配合和/或物理交互的部件和/或可无线交互和/或无线交互的部件和/或逻辑交互和/或可逻辑交互的部件。

关于本文使用的基本上任何复数和/或单数术语，本领域的技术人员可根据上下文和/或应用适当地从复数转换成单数和/或从单数转换成复数。为清楚起见，本文可明确地列出了各种单数/复数排列。

本领域的技术人员应当理解，一般来讲，本文尤其是所附权利要求(例如，所附权利要求的主体)中使用的术语通常旨在作为“开放式”术语(例如，术语“包括”应解释为“包括但不限于”，术语“具有”应解释为“具有至少”，术语“包含”应解释为“包含但不限于”等)。本领域的技术人员还应当理解，如果意图说明特定数量的引入的权利要求叙述对象，则此类意图将在权利要求中明确叙述，并且在不存在此类叙述对象的情况下，不存在此类意图。例如，在预期仅一个项目的情况下，可使用术语“单个”或类似的语言。为了有助于理解，以下所附权利要求和/或本文的描述可包含使用引导短语“至少一个”和“一个或多个”来引入权利要求叙述对象。然而，此类短语的使用不应理解为暗示通过不定冠词“一个”或“一种”将包含此类引入的权利要求叙述对象的任何特定权利要求限制为包含仅一个此类叙述对象的实施方案来引入权利要求叙述对象。即使当同一权利要求包括引导短语“一个或多个”或“至少一个”和不定冠词诸如“一个”或“一种”(例如，“一个”和/或“一种”应解释为意指“至少一个”或“一个或多个”)时，也是如此。这同样适用于使用用于引入权利要求叙述对象的定冠词。另外，即使明确叙述了特定数量的引入的权利要求叙述对象，本领域的技术人员也将认识到，此类叙述应解释为意指至少所述的数量(例如，在没有其他修饰语的情况下，对“两个叙述对象”的裸叙述意指至少两个叙述对象、或者两个或更多个叙述对象)。另外，在使用类似于“A、B和C等中的至少一者”的惯例的那些实例中，一般来讲，此类构造的含义是本领域的技术人员将理解该惯例(例如，“具有A、B和C中的至少一者的系统”将包括但不限于单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C和/或同时具有A、B和C等的系统)。在使用类似于“A、B或C等中的至少一者”的惯例的那些实例中，一般来讲，此类构造的含义是本领域的技术人员将理解该惯例(例如，“具有A、B或C中的至少一者的系统”将包括但不限于单独具有A、单独具有B、单独具有C、同时具有A和B、同时具有A和C、同时具有B和C和/或同时具有A、B和C等的系统)。本领域的技术人员还应当理解，事实上，无论在说明书、权利要求书还是附图中，呈现两个或更多个另选术语的任何分离的词语和/或短语都应当理解为设想包括术语中的一个术语、术语中的任一个术语或这两个术语的可能性。例如，短语“A或B”将被理解为包括“A”或“B”或“A和B”的可能性。另外，如本文所用，后面跟着列出多个项目和/或多个项目类别的术语“……中的任一个”旨在包括单独的或与其他项目和/或其他项目类别结合的项目和/或项目类别“中的任一个”、“的任何组合”、“的任何倍数”和/或“的倍数的任何组合”。此外，如本文所用，术语“组”或“群组”旨在包括任何数量的项目，包括零。此外，如本文所用，术语“数量”旨在包括任何数量，包括零。

另外，在根据马库什群组描述本公开的特征或方面的情况下，由此本领域的技术人员将认识到，也根据马库什群组的任何单独的成员或成员的子群组来描述本公开。

如本领域的技术人员将理解的，出于任何和所有目的(诸如就提供书面描述而言)，本文所公开的所有范围还涵盖任何和所有可能的子范围以及它们的子范围的组合。任何列出的范围均可容易地被识别为充分地描述并且使得相同的范围能够被划分成至少相等的两半、三等份、四等份、五等份、十等份等。作为非限制性示例，本文所讨论的每个范围可容易地被划分成下三分之一、中三分之一和上三分之一等。如本领域的技术人员还将理解的，诸如“最多至”、“至少”、“大于”、“小于”等的所有语言包括所引用的数字并且是指随后可被划分为如上所述的子范围的范围。最后，如本领域的技术人员将理解的，范围包括每个单独的数字。因此，例如具有1至3个单元的群组是指具有1、2或3个单元的群组。类似地，具有1至5个单元的群组是指具有1、2、3、4或5个单元的群组等。

此外，除非另有说明，否则权利要求书不应被理解为受限于所提供的顺序或元件。另外，在任何权利要求中使用术语“用于……的装置”旨在调用35U.S.C.§112,6或装置加功能的权利要求格式，并且没有术语“用于……的装置”的任何权利要求并非意在如此。

可以设想，系统可以在微处理器/通用计算机(未示出)上的软件中实现。在某些实施方案中，各种部件的功能中的一个或多个功能可在控制通用计算机的软件中实现。

另外，虽然本文参考具体实施方案示出和描述了本发明，但本发明并非旨在限于所示的细节。相反，在不脱离本发明的情况下，可在权利要求的等同形式的领域和范围内对细节进行各种修改。

Claims

1.一种无线发射/接收单元(WTRU)，所述WTRU包括：

接收器，所述接收器被配置为接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之前，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处压缩特征的神经网络；

一个或多个处理器，所述一个或多个处理器被配置为：

获得所述神经网络的压缩因数，

响应于所述压缩因数，确定将连接所述神经网络中的哪些节点，

响应于所述确定，配置所述神经网络，以及

利用所述DNN模型的所述部分来执行推断，以生成压缩特征；和

发射器，所述发射器被配置为向另一WTRU发射所述压缩特征。

2.根据权利要求1所述的设备，其中所述发射器还被配置为向所述另一WTRU发送所获得的所述压缩因数的指示。

3.一种无线发射/接收单元(WTRU)，所述WTRU包括：

接收器，所述接收器被配置为接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之后，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处扩展特征的神经网络，其中所述接收器也被配置为接收从另一WTRU输出的一个或多个特征；和

一个或多个处理器，所述一个或多个处理器被配置为：

获得所述神经网络的压缩因数，

响应于所述确定，配置所述神经网络，以及

通过将从另一WTRU输出的所述一个或多个特征用作所述神经网络的输入，利用所述DNN模型的所述部分来执行推断。

4.根据权利要求3所述的设备，其中所述接收器还被配置为接收指示所述压缩因数的信号。

5.根据权利要求1至4中任一项所述的设备，其中所述压缩因数选自在推断时间可动态切换的多个压缩因数。

6.根据权利要求1至5中任一项所述的设备，其中所述一个或多个处理器被配置为在调节所述压缩因数时确定将连接所述网络中的哪些节点。

7.根据权利要求6所述的设备，其中所述一个或多个处理器被配置为在推断时间确定将连接所述网络中的哪些节点。

8.根据权利要求1至7中任一项所述的设备，其中所述DNN模型包括多个分割点。

9.根据权利要求1至8中任一项所述的设备，其中所述网络至少包括卷积层和非线性层。

10.根据权利要求9所述的设备，其中所述网络还包括批归一化层。

11.根据权利要求1至10中任一项所述的设备，其中针对不同的压缩因数，仅将一个DNN模型加载到所述设备。

12.根据权利要求1至11中任一项所述的设备，其中基于(1)物理层操作、

(2)介质访问控制层操作、(3)无线电资源控制层操作、(4)可用处理资源和(5)控制信令中的一项或多项，调适所述分割点和所述压缩因数中的至少一项。

13.根据权利要求1至12中任一项所述的设备，其中基于传输数据速率，调适所述分割点和所述压缩因数中的至少一项。

14.根据权利要求13所述的设备，其中基于所述传输数据速率的改变，调适所述分割点和所述压缩因数中的至少一项。

15.一种由无线发射/接收单元(WTRU)执行的方法，所述方法包括：

接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之前，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处压缩特征的神经网络；

获得所述神经网络的压缩因数；

响应于所述压缩因数，确定将连接所述神经网络中的哪些节点；

响应于所述确定，配置所述神经网络；

利用所述DNN模型的所述部分来执行推断，以生成压缩特征；以及

向另一WTRU发射所述压缩特征。

16.根据权利要求15所述的方法，所述方法还包括向所述另一WTRU发送所获得的所述压缩因数的指示。

17.一种方法，所述方法包括：

接收深度神经网络(DNN)模型的一部分，其中所述部分在所述DNN模型的分割点之后，并且其中所述DNN模型的所述部分包括用以在所述DNN模型的所述分割点处扩展特征的神经网络；

接收从另一WTRU输出的一个或多个特征；

获得所述神经网络的压缩因数；

响应于所述确定，配置所述神经网络；以及

18.根据权利要求17所述的方法，所述方法还包括接收指示所述压缩因数的信号。

19.根据权利要求15至18中任一项所述的方法，其中所述压缩因数选自在推断时间可动态切换的多个压缩因数。

20.根据权利要求15至19中任一项所述的方法，其中在调节所述压缩因数时确定将连接所述网络中的哪些节点。

21.根据权利要求20所述的方法，其中在推断时间确定将连接所述网络中的哪些节点。

22.根据权利要求15至21中任一项所述的方法，其中所述DNN模型包括多个分割点。

23.根据权利要求15至22中任一项所述的方法，其中所述网络至少包括卷积层和非线性层。

24.根据权利要求23所述的方法，其中所述网络还包括批归一化层。

25.根据权利要求15至24中任一项所述的方法，其中针对不同的压缩因数，仅将一个DNN模型加载到所述设备。

26.根据权利要求15至25中任一项所述的方法，其中基于(1)物理层操作、(2)介质访问控制层操作、(3)无线电资源控制层操作、(4)可用处理资源和(5)控制信令中的一项或多项，调适所述分割点和所述压缩因数中的至少一项。

27.根据权利要求15至26中任一项所述的方法，其中基于传输数据速率，调适所述分割点和所述压缩因数中的至少一项。

28.根据权利要求27所述的方法，其中基于所述传输数据速率的改变，调适所述分割点和所述压缩因数中的至少一项。

29.一种计算机可读存储介质，所述计算机可读存储介质上存储有用于根据权利要求15至28中任一项所述的方法对深度神经网络进行调适的指令。