CN114072844A - 基于核张量和树分区的神经网络压缩框架的方法和装置 - Google Patents

基于核张量和树分区的神经网络压缩框架的方法和装置 Download PDF

Info

Publication number
CN114072844A
CN114072844A CN202080048675.7A CN202080048675A CN114072844A CN 114072844 A CN114072844 A CN 114072844A CN 202080048675 A CN202080048675 A CN 202080048675A CN 114072844 A CN114072844 A CN 114072844A
Authority
CN
China
Prior art keywords
tensor
core
tree
arbitrary number
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080048675.7A
Other languages
English (en)
Inventor
杨华
李端顺
田东
贺玉文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vid Scale Inc
Original Assignee
Vid Scale Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vid Scale Inc filed Critical Vid Scale Inc
Publication of CN114072844A publication Critical patent/CN114072844A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/119Adaptive subdivision aspects, e.g. subdivision of a picture into rectangular or non-rectangular coding blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals
    • H04N19/96Tree coding, e.g. quad-tree coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

提供了一种对视频进行编码或解码的方法,所述视频包括当前图片、第一参考图片以及与经训练的神经网络(NN)模型相关联的权重张量。该方法包括:生成任意数量的与所述权重张量关联的核张量、输入通道和输出通道,每个核张量与以下中的任意者关联:层类型、输入信号类型和树分区类型,并且每个核张量包括权重系数;根据与所述任意数量的核张量的每一者相关联的相应树分区类型,针对所述任意数量的核张量的每一者,生成译码树单元(CTU)、译码单元(CU)、预测单元(PU)和变换单元(TU)的任意者的树分区;以及通过压缩和译码所述任意数量的核张量,生成所述经训练的NN模型的压缩表示。

Description

基于核张量和树分区的神经网络压缩框架的方法和装置
背景技术
视频译码(coding)系统广泛用于压缩数字视频信号,以减少这种信号的存储需要和/或传输带宽。在各种类型的视频译码系统(例如基于块、基于小波和基于对象的系统)中,现今基于块的混合视频译码系统被最广泛地使用和部署。基于块的视频译码系统的示例包括国际视频译码标准,例如MPEG1/2/4第2部分、H.264/MPEG-4第10部分AVC、VC-1,和称为高效视频译码(HEVC)的最新视频译码标准,其由ITU-T/SG16/Q.6/VCEG和ISO/IEC/MPEG的JCT-VC(视频译码联合合作团队)开发。
HEVC标准的第一版本在2013年1月完成,并且与前一代视频译码标准H.264/MPEGAVC相比,以相等的感知质量提供了大约50%的比特率节省。尽管HEVC标准提供了优于其前身的显著译码改进,但有证据表明,与HEVC相比,可以利用附加译码工具来实现更高的译码效率。基于此,VCEG和MPEG都开始探索新的译码技术,以用于未来的视频译码标准化。在2015年10月中,ITU-T VCEG和ISO/IEC MPEG形成联合视频探索组(JVET)以开始对先进技术的重要研究,这可使得译码效率能够相对于HEVC得到实质性增强。在同一个月,为将来的视频译码探索工作建立了被称为联合探索模型(JEM)的软件代码库。JEM参考软件基于HEVC测试模型(HM),其由JCT-VC开发用于HEVC。另外提出的译码工具可以集成到JEM软件中,并且使用JVET公共测试条件(CTC)来测试。
神经网络(NN)可以用于与人工智能(AI)相关的应用中,例如,与视频译码系统中使用的多媒体信号处理相关的应用,这其中包括诸如视觉对象分类、视频摘要、图像压缩、声学场景分类等的应用。此外,可以存储和/或传输(例如,经由无线网络)用于不同应用的训练好的NN,以使得能够实现相关的各种不同商业应用。在与多媒体信号处理相关的应用的情况下,存在关于NN模型的有效压缩的问题。已经讨论并要求了关于NN压缩标准的提议(CfP),该NN压缩标准可被称为NN的压缩表示和/或神经网络表示(NNR)。对于这种NNR标准,运动图像专家组(MPEG)旨在为经训练的NN定义一种有效译码的、可解释的和可互操作的表示。
附图说明
图1A是示出了可以实施所公开的一个或多个实施例的示例通信系统的系统图示;
图1B是示出了根据一个实施例的可以在图1A所示的通信系统内部使用的示例无线发射/接收单元(WTRU)的系统图示;
图1C是示出了根据一个实施例的可以在图1A所示的通信系统内部使用的例示无线电接入网络(RAN)和例示核心网络(CN)的系统图示;
图1D是示出了根据一个实施例的可以在图1A所示的通信系统内部使用的另一个例示RAN和另一个例示CN的系统图示;
图2是示出了根据实施例的编码器的示图。
图3是示出了根据实施例的解码器的示图。
图4是示出了根据实施例的将核张量(kernel tensor)示为像素的示图。
图5是示出了根据实施例的多树译码的示图。
图6是示出了根据实施例的混合树译码的示图。
用于实施例的实施的示例网络
图1A是示出了可以实施所公开的一个或多个实施例的例示通信系统100的图示。该通信系统100可以是为多个无线用户提供语音、数据、视频、消息传递、广播等内容的多址接入系统。该通信系统100可以通过共享包括无线带宽在内的系统资源而使多个无线用户能够访问此类内容。举例来说,通信系统100可以使用一种或多种信道接入方法,例如码分多址(CDMA)、时分多址(TDMA)、频分多址(FDMA)、正交FDMA(OFDMA)、单载波FDMA(SC-FDMA)、零尾唯一字DFT扩展OFDM(ZT UW DTS-s OFDM)、唯一字OFDM(UW-OFDM)、资源块过滤OFDM以及滤波器组多载波(FBMC)等等。
如图1A所示,通信系统100可以包括无线发射/接收单元(WTRU)102a、102b、102c、102d、RAN 104/113、CN 106/115、公共交换电话网络(PSTN)108、因特网110以及其他网络112,然而应该了解,所公开的实施例设想了任意数量的WTRU、基站、网络和/或网络部件。每一个WTRU 102a、102b、102c、102d可以是被配置成在无线环境中工作和/或通信的任何类型的设备。举例来说,任一WTRU 102a、102b、102c、102d都可被称为“站”和/或“STA”,其可以被配置成发射和/或接收无线信号,并且可以包括用户设备(UE)、移动站、固定或移动订户单元、基于签约的单元、寻呼机、蜂窝电话、个人数字助理(PDA)、智能电话、膝上型计算机、上网本、个人计算机、无线传感器、热点或Mi-Fi设备、物联网(IoT)设备、手表或其他可穿戴设备、头戴显示器(HMD)、车辆、无人机、医疗设备和应用(例如,远程手术)、工业设备和应用(例如,机器人和/或在工业和/或自动处理链环境中工作的其他无线设备)、消费类电子设备、以及在商业和/或工业无线网络上工作的设备等等。WTRU102a、102b、102c、102d中的任意者可被可交换地称为UE。
通信系统100还可以包括基站114a和/或基站114b。每一个基站114a和/或基站114b可以是被配置成通过以无线方式与WTRU 102a、102b、102c、102d中的至少一个无线对接来促使其接入一个或多个通信网络(例如,CN106/115、因特网110、和/或其他网络112)的任何类型的设备。例如,基站114a、114b可以是基地收发信台(BTS)、节点B、e节点B、家庭节点B、家庭e节点B、gNB、NR节点B、站点控制器、接入点(AP)、以及无线路由器等等。虽然每一个基站114a、114b都被描述成了单个部件,然而应该了解,基站114a、114b可以包括任意数量的互连基站和/或网络部件。
基站114a可以是RAN 104/113的一部分,并且所述RAN还可以包括其他基站和/或网络部件(未显示),例如基站控制器(BSC)、无线电网络控制器(RNC)、中继节点等等。基站114a和/或基站114b可被配置成在名为小区(未显示)的一个或多个载波频率上发射和/或接收无线信号。这些频率可以处于许可频谱、无许可频谱或是授权与无许可频谱的组合之中。小区可以为相对固定或者有可能随时间变化的特定地理区域提供无线服务覆盖。小区可被进一步分成小区扇区。例如,与基站114a相关联的小区可被分为三个扇区。由此,在一个实施例中,基站114a可以包括三个收发信机,即,每一个收发信机都对应于小区的一个扇区。在一个实施例中,基站114a可以使用多输入多输出(MIMO)技术,并且可以为小区的每一个扇区使用多个收发信机。例如,通过使用波束成形,可以在期望的空间方向上发射和/或接收信号。
基站114a、114b可以通过空中接口116来与WTRU 102a、102b、102c、102d中的一个或多个进行通信,其中所述空中接口可以是任何适当的无线通信链路(例如,射频(RF)、微波、厘米波、毫米波、红外线(IR)、紫外线(UV)、可见光等等)。空中接口116可以使用任何适当的无线电接入技术(RAT)来建立。
更具体地说,如上所述,通信系统100可以是多址接入系统,并且可以使用一种或多种信道接入方案,例如CDMA、TDMA、FDMA、OFDMA以及SC-FDMA等等。例如,RAN 104/113中的基站114a与WTRU 102a、102b、102c可以实施某种无线电技术,例如通用移动电信系统(UMTS)陆地无线电接入(UTRA),其中所述技术可以使用宽带CDMA(WCDMA)来建立空中接口115/116/117。WCDMA可以包括如高速分组接入(HSPA)和/或演进型HSPA(HSPA+)之类的通信协议。HSPA可以包括高速下行链路(DL)分组接入(HSDPA)和/或高速UL分组接入(HSUPA)。
在一个实施例中,基站114a和WTRU 102a、102b、102c可以某种无线电技术,例如演进型UMTS陆地无线电接入(E-UTRA),其中所述技术可以使用长期演进(LTE)和/或先进LTE(LTE-A)和/或先进LTA Pro(LTE-A Pro)来建立空中接口116。
在一个实施例中,基站114a和WTRU 102a、102b、102c可以实施某种无线电技术,例如NR无线电接入,其中所述无线电技术可以建立使用新型无线电(NR)的空中接口116。
在一个实施例中,基站114a和WTRU 102a、102b、102c可以实施多种无线电接入技术。例如,基站114a和WTRU 102a、102b、102c可以共同实施LTE无线电接入和NR无线电接入(例如,使用双连接(DC)原理)。由此,WTRU 102a、102b、102c使用的空中接口可以通过多种类型的无线电接入技术和/或向/从多种类型的基站(例如,eNB和gNB)发送的传输来表征。
在其他实施例中,基站114a和WTRU 102a、102b、102c可以实施以下的无线电技术,例如IEEE 802.11(即,无线高保真(WiFi))、IEEE802.16(即,全球微波接入互操作性(WiMAX))、CDMA2000、CDMA20001X、CDMA2000 EV-DO、临时标准2000(IS-2000)、临时标准95(IS-95)、临时标准856(IS-856)、全球移动通信系统(GSM)、用于GSM演进的增强数据速率(EDGE)以及GSM EDGE(GERAN)等等。
图1A中的基站114b可以是无线路由器、家庭节点B、家庭e节点B或接入点,并且可以使用任何适当的RAT来促成局部区域中的无线连接,例如营业场所、住宅、车辆、校园、工业设施、空中走廊(例如,供无人机使用)以及道路等等。在一个实施例中,基站114b与WTRU102c、102d可以通过实施IEEE 802.11之类的无线电技术来建立无线局域网(WLAN)。在一个实施例中,基站114b与WTRU 102c、102d可以通过实施IEEE 802.15之类的无线电技术来建立无线个人局域网(WPAN)。在再一个实施例中,基站114b和WTRU 102c、102d可通过使用基于蜂窝的RAT(例如,WCDMA、CDMA2000、GSM、LTE、LTE-A、LTE-A Pro、NR等等)来建立微微小区或毫微微小区。如图1A所示,基站114b可以直连到因特网110。由此,基站114b不需要经由CN106/115来接入因特网110。
RAN 104/113可以与CN 106/115进行通信,所述CN可以是被配置成向一个或多个WTRU 102a、102b、102c、102d提供语音、数据、应用和/或借助网际协议语音(VoIP)服务的任何类型的网络。该数据可以具有不同的服务质量(QoS)需求,例如不同的吞吐量需求、时延需求、容错需求、可靠性需求、数据吞吐量需求、以及移动性需求等等。CN 106/115可以提供呼叫控制、记账服务、基于移动位置的服务、预付费呼叫、因特网连接、视频分发等等,和/或可以执行用户验证之类的高级安全功能。虽然在图1A中没有显示,然而应该了解,RAN 104/113和/或CN 106/115可以直接或间接地和其他那些与RAN 104/113使用相同RAT或不同RAT的RAN进行通信。例如,除了与使用NR无线电技术的RAN 104/113相连之外,CN 106/115还可以与使用GSM、UMTS、CDMA 2000、WiMAX、E-UTRA或WiFi无线电技术的别的RAN(未显示)通信。
CN 106/115还可以充当供WTRU 102a、102b、102c、102d接入PSTN108、因特网110和/或其他网络112的网关。PSTN 108可以包括提供简易老式电话服务(POTS)的电路交换电话网络。因特网110可以包括使用了公共通信协议(例如,TCP/IP网际协议族中的传输控制协议(TCP)、用户数据报协议(UDP)和/或网际协议(IP))的全球性互联计算机网络设备系统。网络112可以包括由其他服务供应商拥有和/或运营的有线和/或无线通信网络。例如,网络112可以包括与一个或多个RAN相连的另一个CN,其中所述一个或多个RAN可以与RAN104/113使用相同RAT或不同RAT。
通信系统100中一些或所有WTRU 102a、102b、102c、102d可以包括多模能力(例如,WTRU 102a、102b、102c、102d可以包括在不同无线链路上与不同无线网络通信的多个收发信机)。例如,图1A所示的WTRU 102c可被配置成与使用基于蜂窝的无线电技术的基站114a通信,以及与可以使用IEEE 802无线电技术的基站114b通信。
图1B是示出了例示WTRU 102的系统图示。如图1B所示,WTRU 102可以包括处理器118、收发信机120、发射/接收部件122、扬声器/麦克风124、数字键盘126、显示器/触摸板128、不可移除存储器130、可移除存储器132、电源134、全球定位系统(GPS)芯片组136以及其他周边设备138。应该了解的是,在保持符合实施例的同时,WTRU 102还可以包括前述部件的任何子组合。
处理器118可以是通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)以及状态机等等。处理器118可以执行信号译码、数据处理、功率控制、输入/输出处理、和/或其他任何能使WTRU102在无线环境中工作的功能。处理器118可以耦合至收发信机120,收发信机120可以耦合至发射/接收部件122。虽然图1B将处理器118和收发信机120描述成单独组件,然而应该了解,处理器118和收发信机120也可以集成在一个电子组件或芯片中。
发射/接收部件122可被配置成经由空中接口116来发射或接收去往或来自基站(例如,基站114a)的信号。举个例子,在一个实施例中,发射/接收部件122可以是被配置成发射和/或接收RF信号的天线。作为示例,在另一个实施例中,发射/接收部件122可以是被配置成发射和/或接收IR、UV或可见光信号的放射器/检测器。在再一个实施例中,发射/接收部件122可被配置成发射和/或接收RF和光信号。应该了解的是,发射/接收部件122可以被配置成发射和/或接收无线信号的任何组合。
虽然在图1B中将发射/接收部件122描述成是单个部件,但是WTRU 102可以包括任意数量的发射/接收部件122。更具体地说,WTRU 102可以使用MIMO技术。由此,在一个实施例中,WTRU 102可以包括两个或多个通过空中接口116来发射和接收无线电信号的发射/接收部件122(例如,多个天线)。
收发信机120可被配置成对发射/接收部件122所要传送的信号进行调制,以及对发射/接收部件122接收的信号进行解调。如上所述,WTRU 102可以具有多模能力。因此,收发信机120可以包括允许WTRU 102借助多种RAT(例如,NR和IEEE 802.11)来进行通信的多个收发信机。
WTRU 102的处理器118可以耦合到扬声器/麦克风124、数字键盘126和/或显示器/触摸板128(例如,液晶显示器(LCD)显示单元或有机发光二极管(OLED)显示单元),并且可以接收来自这些部件的用户输入数据。处理器118还可以向扬声器/麦克风124、数字键盘126和/或显示器/触摸板128输出用户数据。此外,处理器118可以从诸如不可移除存储器130和/或可移除存储器132之类的任何适当的存储器中存取信息,以及将信息存入这些存储器。不可移除存储器130可以包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘或是其他任何类型的记忆存储设备。可移除存储器132可以包括订户身份模块(SIM)卡、记忆棒、安全数字(SD)记忆卡等等。在其他实施例中,处理器118可以从那些并非实际位于WTRU 102的存储器存取信息,以及将数据存入这些存储器,作为示例,此类存储器可以位于服务器或家庭计算机(未显示)。
处理器118可以接收来自电源134的电力,并且可被配置分发和/或控制用于WTRU102中的其他组件的电力。电源134可以是为WTRU 102供电的任何适当设备。例如,电源134可以包括一个或多个干电池组(如镍镉(Ni-Cd)、镍锌(Ni-Zn)、镍氢(NiMH)、锂离子(Li-ion)等等)、太阳能电池以及燃料电池等等。
处理器118还可以耦合到GPS芯片组136,该芯片组可被配置成提供与WTRU 102的当前位置相关的位置信息(例如,经度和纬度)。作为来自GPS芯片组136的信息的补充或替换,WTRU 102可以经由空中接口116接收来自基站(例如,基站114a、114b)的位置信息,和/或根据从两个或多个附近基站接收的信号定时来确定其位置。应该了解的是,在保持符合实施例的同时,WTRU 102可以借助任何适当的定位方法来获取位置信息。
处理器118还可以耦合到其他周边设备138,其中所述周边设备可以包括提供附加特征、功能和/或有线或无线连接的一个或多个软件和/或硬件模块。例如,周边设备138可以包括加速度计、电子指南针、卫星收发信机、数码相机(用于照片和/或视频)、通用串行总线(USB)端口、振动设备、电视收发信机、免提耳机、
Figure BDA0003448872360000091
模块、调频(FM)无线电单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器、虚拟现实和/或增强现实(VR/AR)设备、以及活动跟踪器等等。周边设备138可以包括一个或多个传感器,所述传感器可以是以下的一个或多个:陀螺仪、加速度计、霍尔效应传感器、磁强计、方位传感器、邻近传感器、温度传感器、时间传感器、地理位置传感器、高度计、光传感器、触摸传感器、磁力计、气压计、手势传感器、生物测定传感器和/或湿度传感器。
WTRU 102可以包括全双工无线电设备,其中对于该无线电设备来说,一些或所有信号(例如,与用于UL(例如,对传输而言)和下行链路(例如,对接收而言)的特定子帧相关联)的接收或传输可以是并发和/或同时的。全双工无线电设备可以包括借助于硬件(例如,扼流线圈)或是凭借处理器(例如,单独的处理器(未显示)或是凭借处理器118)的信号处理来减小和/或基本消除自干扰的干扰管理单元。在一个实施例中,WTRU 102可以包括传送或接收一些或所有信号(例如,与用于UL(例如,对传输而言)或下行链路(例如,对接收而言)的特定子帧相关联)的半双工无线电设备。
图1C是示出了根据一个实施例的RAN 104和CN 106的系统图示。如上所述,RAN104可以在空中接口116上使用E-UTRA无线电技术来与WTRU 102a、102b、102c进行通信。所述RAN 104还可以与CN 106进行通信。
RAN 104可以包括e节点B 160a、160b、160c,然而应该了解,在保持符合实施例的同时,RAN 104可以包括任意数量的e节点B。每一个e节点B 160a、160b、160c都可以包括在空中接口116上与WTRU 102a、102b、102c通信的一个或多个收发信机。在一个实施例中,e节点B 160a、160b、160c可以实施MIMO技术。由此,举例来说,e节点B 140a可以使用多个天线来向WTRU 102a发射无线信号,和/或接收来自WTRU 102a的无线信号。
每一个e节点B 160a、160b、160c都可以关联于一个特定小区(未显示),并且可被配置成处理无线电资源管理决策、切换决策、UL和/或DL中的用户调度等等。如图1C所示,e节点B 160a、160b、160c彼此可以通过X2接口进行通信。
图1C所示的CN 106可以包括移动性管理实体(MME)162、服务网关(SGW)164以及分组数据网络(PDN)网关(或PGW)166。虽然前述的每一个部件都被描述成是CN 106的一部分,然而应该了解,这其中的任一部件都可以由CN运营商之外的实体拥有和/或运营。
MME 162可以经由S1接口连接到RAN 104中的每一个e节点B160a、160b、160c,并且可以充当控制节点。例如,MME 142可以负责验证WTRU 102a、102b、102c的用户,执行承载激活/去激活处理,以及在WTRU102a、102b、102c的初始附着过程中选择特定的服务网关等等。MME 162还可以提供一个用于在RAN 104与使用其他无线电技术(例如,GSM和/或WCDMA)的其他RAN(未显示)之间进行切换的控制平面功能。
SGW 164可以经由S1接口连接到RAN 104中的每一个e节点B 160a、160b、160c。SGW164通常可以路由和转发去往/来自WTRU 102a、102b、102c的用户数据分组。并且,SGW 164还可以执行其他功能,例如在e节点B间的切换过程中锚定用户平面,在DL数据可供WTRU102a、102b、102c使用时触发寻呼处理,以及管理并存储WTRU 102a、102b、102c的上下文等等。
SGW 164可以连接到PGW 166,所述PGW可以为WTRU 102a、102b、102c提供分组交换网络(例如,因特网110)接入,以便促成WTRU 102a、102b、102c与启用IP的设备之间的通信。
CN 106可以促成与其他网络的通信。例如,CN 106可以为WTRU 102a、102b、102c提供电路交换网络(例如,PSTN 108)接入,以便促成WTRU 102a、102b、102c与传统的陆线通信设备之间的通信。例如,CN 106可以包括一个IP网关(例如,IP多媒体子系统(IMS)服务器)或与之进行通信,并且该IP网关可以充当CN 106与PSTN 108之间的接口。此外,CN 106可以为WTRU 102a、102b、102c提供针对其他网络112的接入,其中该网络可以包括其他服务供应商拥有和/或运营的其他有线和/或无线网络。
虽然在图1A-1D中将WTRU描述成了无线终端,然而应该想到的是,在某些代表性实施例中,此类终端与通信网络可以使用(例如,临时或永久性)有线通信接口。
在代表性的实施例中,其他网络112可以是WLAN。
采用基础架构基本服务集(BSS)模式的WLAN可以具有用于所述BSS的接入点(AP)以及与所述AP相关联的一个或多个站(STA)。所述AP可以访问或是对接到分布式系统(DS)或是将业务量送入和/或送出BSS的别的类型的有线/无线网络。源于BSS外部且去往STA的业务量可以通过AP到达并被递送至STA。源自STA且去往BSS外部的目的地的业务量可被发送至AP,以便递送到相应的目的地。处于BSS内部的STA之间的业务量可以通过AP来发送,例如其中源STA可以向AP发送业务量并且AP可以将业务量递送至目的地STA。处于BSS内部的STA之间的业务量可被认为和/或称为点到点业务量。所述点到点业务量可以在源与目的地STA之间(例如,在其间直接)用直接链路建立(DLS)来发送。在某些代表性实施例中,DLS可以使用802.11e DLS或802.11z隧道化DLS(TDLS))。举例来说,使用独立BSS(IBSS)模式的WLAN可不具有AP,并且处于所述IBSS内部或是使用所述IBSS的STA(例如,所有STA)彼此可以直接通信。在这里,IBSS通信模式有时可被称为“自组织”通信模式。
在使用802.11ac基础设施工作模式或类似的工作模式时,AP可以在固定信道(例如,主信道)上传送信标。所述主信道可以具有固定宽度(例如,20MHz的带宽)或是借助信令动态设置的宽度。主信道可以是BSS的工作信道,并且可被STA用来与AP建立连接。在某些代表性实施例中,所实施的可以是具有冲突避免的载波感测多址接入(CSMA/CA)(例如,在802.11系统中)。对于CSMA/CA来说,包括AP在内的STA(例如,每一个STA)可以感测主信道。如果特定STA感测到/检测到和/或确定主信道繁忙,那么所述特定STA可以退避。在指定的BSS中,在任何指定时间都有一个STA(例如,只有一个站)进行传输。
高吞吐量(HT)STA可以使用宽度为40MHz的信道来进行通信(例如,借助于将宽度为20MHz的主信道与宽度为20MHz的相邻或不相邻信道相结合来形成宽度为40MHz的信道)。
甚高吞吐量(VHT)STA可以支持宽度为20MHz、40MHz、80MHz和/或160MHz的信道。40MHz和/或80MHz信道可以通过组合连续的20MHz信道来形成。160MHz信道可以通过组合8个连续的20MHz信道或者通过组合两个不连续的80MHz信道(这种组合可被称为80+80配置)来形成。对于80+80配置来说,在信道编码之后,数据可被传递并经过一个分段解析器,所述分段解析器可以将数据非成两个流。在每一个流上可以单独执行反向快速傅里叶变换(IFFT)处理以及时域处理。所述流可被映射在两个80MHz信道上,并且数据可以由执行传输的STA来传送。在执行接收的STA的接收机上,用于80+80配置的上述操作可以是相反的,并且组合数据可被发送至介质接入控制(MAC)。
802.11af和802.11ah支持次1GHz的工作模式。相比于802.11n和802.11ac,在802.11af和802.11ah中使用信道工作带宽和载波有所缩减。802.11af在TV白空间(TVWS)频谱中支持5MHz、10MHz和20MHz带宽,并且802.11ah支持使用非TVWS频谱的1MHz、2MHz、4MHz、8MHz和16MHz带宽。依照代表性实施例,802.11ah可以支持仪表类型控制/机器类型通信(例如,宏覆盖区域中的MTC设备)。MTC可以具有某种能力,例如包含了支持(例如,只支持)某些和/或有限带宽在内的受限能力。MTC设备可以包括电池,并且该电池的电池寿命高于阈值(例如,用于保持很长的电池寿命)。
对于可以支持多个信道和信道带宽的WLAN系统(例如,802.11n、802.11ac、802.11af以及802.11ah)来说,这些系统包含了一个可被指定成主信道的信道。所述主信道的带宽可以等于BSS中的所有STA所支持的最大公共工作带宽。主信道的带宽可以由某一个STA设置和/或限制,其中所述STA源自在支持最小带宽工作模式的BSS中工作的所有STA。在关于802.11ah的示例中,即使BSS中的AP和其他STA支持2MHz、4MHz、8MHz、16MHz和/或其他信道带宽工作模式,但对支持(例如,只支持)1MHz模式的STA(例如,MTC类型的设备)来说,主信道的宽度可以是1MHz。载波感测和/或网络分配向量(NAV)设置可以取决于主信道的状态。如果主信道繁忙(例如,因为STA(其只支持1MHz工作模式)对AP进行传输),那么即使大多数的频带保持空间并且可供使用,也可以认为整个可用频带繁忙。
在美国,可供802.11ah使用的可用频带是902MHz到928MHz。在韩国,可用频带是917.5MHz到923.5MHz。在日本,可用频带是916.5MHz到927.5MHz。依照国家码,可用于802.11ah的总带宽是6MHz到26MHz。
图1D是示出了根据一个实施例的RAN 113和CN 115的系统图示。如上所述,RAN113可以在空中接口116上使用NR无线电技术来与WTRU 102a、102b、102c进行通信。RAN 113还可以与CN 115进行通信。
RAN 113可以包括gNB 180a、180b、180c,但是应该了解,在保持符合实施例的同时,RAN 113可以包括任意数量的gNB。每一个gNB 180a、180b、180c都可以包括一个或多个收发信机,以便通过空中接口116来与WTRU 102a、102b、102c通信。在一个实施例中,gNB180a、180b、180c可以实施MIMO技术。例如,gNB 180a、180b可以使用波束成形处理来向和/或从gNB 180a、180b、180c发射和/或接收信号。由此,举例来说,gNB 180a可以使用多个天线来向WTRU 102a发射无线信号,和/或接收来自WTRU 102a的无线信号。在一个实施例中,gNB 180a、180b、180c可以实施载波聚合技术。例如,gNB 180a可以向WTRU 102a传送多个分量载波(未显示)。这些分量载波的一个子集可以处于无许可频谱上,而剩余分量载波则可以处于许可频谱上。在一个实施例中,gNB 180a、180b、180c可以实施协作多点(CoMP)技术。例如,WTRU 102a可以接收来自gNB 180a和gNB 180b(和/或gNB 180c)的协作传输。
WTRU 102a、102b、102c可以使用与可扩缩参数配置相关联的传输来与gNB 180a、180b、180c进行通信。例如,对于不同的传输、不同的小区和/或不同的无线传输频谱部分来说,OFDM符号间隔和/或OFDM子载波间隔可以是不同的。WTRU 102a、102b、102c可以使用具有不同或可扩缩长度的子帧或传输时间间隔(TTI)(例如,包含了不同数量的OFDM符号和/或持续不同的绝对时间长度)来与gNB 180a、180b、180c进行通信。
gNB 180a、180b、180c可被配置成与采用独立配置和/或非独立配置的WTRU 102a、102b、102c进行通信。在独立配置中,WTRU 102a、102b、102c可以在不接入其他RAN(例如,e节点B 160a、160b、160c)的情况下与gNB 180a、180b、180c进行通信。在独立配置中,WTRU102a、102b、102c可以使用gNB 180a、180b、180c中的一个或多个作为移动锚点。在独立配置中,WTRU 102a、102b、102c可以使用无许可频带中的信号来与gNB 180a、180b、180c进行通信。在非独立配置中,WTRU 102a、102b、102c会在与别的RAN(例如,e节点B 160a、160b、160c)进行通信/相连的同时与gNB 180a、180b、180c进行通信/相连。举例来说,WTRU 102a、102b、102c可以通过实施DC原理而以基本同时的方式与一个或多个gNB 180a、180b、180c以及一个或多个e节点B 160a、160b、160c进行通信。在非独立配置中,e节点B 160a、160b、160c可以充当WTRU 102a、102b、102c的移动锚点,并且gNB 180a、180b、180c可以提供附加的覆盖和/或吞吐量,以便为WTRU 102a、102b、102c提供服务。
每一个gNB 180a、180b、180c都可以关联于特定小区(未显示),并且可以被配置成处理无线电资源管理决策、切换决策、UL和/或DL中的用户调度、支持网络切片、实施双连接性、实施NR与E-UTRA之间的互通处理、路由去往用户平面功能(UPF)184a、184b的用户平面数据、以及路由去往接入和移动性管理功能(AMF)182a、182b的控制平面信息等等。如图1D所示,gNB 180a、180b、180c彼此可以通过Xn接口通信。
图1D所示的CN 115可以包括至少一个AMF 182a、182b,至少一个UPF 184a、184b,至少一个会话管理功能(SMF)183a、183b,并且有可能包括数据网络(DN)185a、185b。虽然每一个前述部件都被描述了CN 115的一部分,但是应该了解,这其中的任一部件都可以被CN运营商之外的其他实体拥有和/或运营。
AMF 182a、182b可以经由N2接口连接到RAN 113中的一个或多个gNB 180a、180b、180c,并且可以充当控制节点。例如,AMF 182a、182b可以负责验证WTRU 102a、102b、102c的用户,支持网络切片(例如,处理具有不同需求的不同协议PDU会话),选择特定的SMF 183a、183b,管理注册区域,终止NAS信令,以及移动性管理等等。AMF 182a、1823b可以使用网络切片处理,以便基于WTRU 102a、102b、102c使用的服务类型来定制为WTRU 102a、102b、102c提供的CN支持。作为示例,针对不同的用例,可以建立不同的网络切片,例如依赖于超可靠低时延(URLLC)接入的服务、依赖于增强型大规模移动宽带(eMBB)接入的服务、和/或用于机器类型通信(MTC)接入的服务等等。AMF 182可以提供用于在RAN 113与使用其他无线电技术(例如,LTE、LTE-A、LTE-A Pro和/或诸如WiFi之类的非3GPP接入技术)的其他RAN(未显示)之间切换的控制平面功能。
SMF 183a、183b可以经由N11接口连接到CN 115中的AMF 182a、182b。SMF 183a、183b还可以经由N4接口连接到CN 115中的UPF 184a、184b。SMF 183a、183b可以选择和控制UPF 184a、184b,并且可以通过UPF 184a、184b来配置业务量路由。SMF 183a、183b可以执行其他功能,例如管理和分配UE IP地址、管理PDU会话、控制策略实施和QoS、以及提供下行链路数据通知等等。PDU会话类型可以是基于IP的、不基于IP的、以及基于以太网的等等。
UPF 184a、184b可以经由N3接口连接到RAN 113中的一个或多个gNB 180a、180b、180c,这样可以为WTRU 102a、102b、102c提供分组交换网络(例如,因特网110)接,以便促成WTRU 102a、102b、102c与启用IP的设备之间的通信,UPF 184、184b可以执行其他功能,例如路由和转发分组、实施用户平面策略、支持多宿主PDU会话、处理用户平面QoS、缓冲下行链路分组、以及提供移动性锚定处理等等。
CN 115可以促成与其他网络的通信。例如,CN 115可以包括或者可以与充当CN115与CN 108之间的接口的IP网关(例如,IP多媒体子系统(IMS)服务器)进行通信。此外,CN115可以为WTRU 102a、102b、102c提供针对其他网络112的接入,这其中可以包括其他服务供应商拥有和/或运营的其他有线和/或无线网络。在一个实施例中,WTRU 102a、102b、102c可以经由对接到UPF 184a、184b的N3接口以及介于UPF 184a、184b与DN 185a、185b之间的N6接口并通过UPF 184a、184b连接到本地数据网络(DN)185a、185b。
有鉴于图1A-1D以及关于图1A-1D的相应描述,在这里对照以下的一项或多项描述的一个或多个或所有功能可以由一个或多个仿真设备(未显示)来执行:WTRU 102a-d、基站114a-b、e节点B 160a-c、MME 162、SGW 164、PGW 166、gNB 180a-c、AMF 182a-ab、UPF 184a-b、SMF 183a-b、DN 185a-b和/或这里描述的其他任何设备。这些仿真设备可以是被配置成模拟这里一个或多个或所有功能的一个或多个设备。举例来说,这些仿真设备可用于测试其他设备和/或模拟网络和/或WTRU功能。
仿真设备可被设计成在实验室环境和/或运营商网络环境中实施关于其他设备的一项或多项测试。例如,所述一个或多个仿真设备可以在被完全或部分作为有线和/或无线通信网络一部分实施和/或部署的同时执行一个或多个或所有功能,以便测试通信网络内部的其他设备。所述一个或多个仿真设备可以在被临时作为有线和/或无线通信网络的一部分实施/部署的同时执行一个或多个或所有功能。所述仿真设备可以直接耦合到别的设备以执行测试,和/或可以使用空中无线通信来执行测试。
一个或多个仿真设备可以在未被作为有线和/或无线通信网络一部分实施/部署的同时执行包括所有功能在内的一个或多个功能。例如,所述仿真设备可以在测试实验室和/或未被部署(例如,测试)的有线和/或无线通信网络的测试场景中使用,以便实施关于一个或多个组件的测试。所述一个或多个仿真设备可以是测试设备。所述仿真设备可以使用直接的RF耦合和/或借助了RF电路(作为示例,该电路可以包括一个或多个天线)的无线通信来发射和/或接收数据。
具体实施方式
神经网络的压缩表示;神经网络表示(NNR)
HEVC测试模型(HM)和联合探索模型(JEM)软件都建立在基于块的混合视频译码框架(100)上。图2示出了基于块的混合视频编码系统的框图。注意,在本申请中,术语“重构”和“解码”可以互换使用。通常,但不是必须的,术语“重构”在编码器侧使用,而“解码”在解码器侧使用。
神经网络(NN)的模型可以互换地称为深度NN(DNN),其可以包括任意数量的层,这其中包括不同类型的层。层可以指以下任意集合:(例如NN)节点(例如,具有相同和/或相似(例如NN)深度的NN的节点)、块(例如NN节点的块)、容器(例如,与某些节点相关联的数据的容器)等。层可以对数据、信息、值等的任意者进行输入、输出、接收、发送、存储等。对于与多媒体信号处理相关的(例如,标准的、典型的等)应用,可以存在不同(例如,任意数量的)类型的NN层,这其中包括以下任意者:卷积NN(CNN)层、全连接(FC)层和偏置层。经训练的NN模型可(例如,基本上)经由其CNN、FC或偏置层和/或其他层类型中的每一者和/或任意者的权重张量(例如,多维矩阵)来表示。
在NN公式(例如,在经训练的NN模型中),L可表示层的数量,{W1,...,WL}可表示权重矩阵,{b1,...,bL}可表示偏置,并且{g1,...,gL}可表示非线性;并且利用这些权重、偏置和非线性,第k层的输出yk+1可以如等式1所示:
yk+1=gk(Wkyk+bk)………………………………[等式1],
其中y1=x可以是到DNN的输入。在此,例如,如关于DNN所使用的,“深”可以意味着、暗示、指示和/或涉及来自不同层的权重矩阵的维数(例如,列和/或行的数量)可能非常大,例如,数百(如在NNR测试场景中的情况),可以是数千,或者可以是任何合适数量的权重矩阵的维数。
每一层可以被看作(例如,被称为、被认为是等基本上)加权张量(例如,多维矩阵),其利用核矩阵/张量(如这里所称的,矩阵可以被可互换地称为张量)和输入和输出特征(也称为通道)中的任意者的数量(和/或与其相关联的数量)来参数化。
核可以是例如具有特定(例如,有限的、配置的、确定的等)大小(例如,3x3、5x5或3x3x3等)的权重矩阵/张量,其在对来自先前NN层(或原始输入信号)的高维输出数据(例如,信号、传输、输出等)进行卷积(和/或,例如,等效地,特定种类的滤波)时覆盖有限大小的特定局部邻域。来自不同类型的NN层的不同种类的权重矩阵/张量(例如,具有不同的维度)可如表1所示被分类。
输入信号类型 层类型 权重张量维度
3D信号:视频或点云 卷积 K<sub>1</sub>×K<sub>2</sub>×K<sub>3</sub>×C<sub>in</sub>×C<sub>out</sub>
2D信号:图像 卷积 K<sub>1</sub>×K<sub>2</sub>×C<sub>in</sub>×C<sub>out</sub>
1D信号:音频 卷积 K<sub>1</sub>×C<sub>in</sub>×C<sub>out</sub>
全连接 C<sub>in</sub>×C<sub>out</sub>
偏置 C<sub>out</sub>
表1-不同类型NN层的权重张量维度
在表1中,K1,K2,K3可以表示卷积核的维度,而Cin和Cout可以分别表示输入和输出特征和/或通道的数目。在NNR(例如,NNR标准的NNR)的某些使用情况下,权重系数可以(例如,通常)被存储为32位浮点数,其值可以(例如,经常)被观察为在-1和+1之间(例如,在-1和+1的范围内),但是也可以(例如,明确地被允许)超出这种范围。权重张量可以是在所关心的NNR问题中要被压缩的数据对象和/或原始信号中的任意者。
现有NNR技术
NNR技术可以由以下模块中的任意者组成(例如,可以执行、实施、实例化等以下模块中的任意者):网络修剪、稀疏性规则化、权重张量压缩和熵译码。网络修剪模块可以使用蒸馏或权重修剪中的任意者来将原始网络转移到较小的NN架构,例如,具有等同或类似的分类能力和性能的架构。在网络修剪模块的情况下,在这些技术(例如,网络修剪模块)中可能需要(例如,通常需要)再训练,例如,以确保性能。稀疏规则化模块可以(例如,尝试)例如通过在训练损失上引入附加稀疏规则化项来增加训练过程期间的权重张量的稀疏性。
权重张量压缩模块可以包括以下中的任意者:(1)矩阵分解模块,用于将原始权重张量排列为矩阵,并使用矩阵分解技术(例如奇异值分解),将原始大矩阵转换为较小矩阵;(2)变换译码模块,用于在量化之前将原始权重变换到频域;(3)标量量化模块,用于将所述权重张量处理为实值(例如,标量点)的列表,并通过将所述标量点聚类成若干聚类来生成码本,并且所述权重可以被量化到最接近的聚类中心;以及(4)向量量化模块,用于将原始权重矩阵布置为向量(例如,多维点)的列表,并且通过将这些多维点聚类为若干聚类来生成码本,并且标量量化可以被视为其中维度退化为一(例如,一的值)的向量量化的特殊情况。熵译码模块可以执行进一步的压缩,例如,作为最后的步骤。
已经引入了具有从HEVC视频译码标准修改而来的(例如,更完整的)译码工具(例如,技术)集合的综合NNR框架。在这种综合NNR框架中,层的核张量中相同位置处的所有权重系数被分离出来,这可形成(例如,被用作、被称为等)权重矩阵,例如,用于(例如,每个、任何、特定的)核张量位置。然后,可以将每个核张量位置的权重矩阵视为(例如,某一特定的等)分量通道(例如,在图像或视频译码的情况下,如RGB或YUV中的任意者的分量通道)的2D图像(例如,Cin是图像的宽度,Cout是高度,如表1所示)。此外,最新的(例如,最近的)基于HEVC的视频译码范例可以用于压缩权重系数的NN层图像。另外,所述综合NNR框架可以应用基于译码树单元(CTU)和译码单元(CU)的树分区(tree partitions),例如,类似于HEVC的那些,并且所使用的主要译码方法是基于HEVC调色板译码模式,其是用于屏幕内容译码的重要/有效的译码工具。所获得的压缩比为大约5比1(例如,对于MobileNet测试情况为5x)和20比1(例如,对于VGG16测试情况),且具有较小的NN分类性能损失。
整体NNR译码范例/框架
除了探索新NNR特定译码方法/技术之外,在NNR技术和开发(例如,第一)NNR标准的早期阶段,需要一种通常认可的高级整体NNR译码范例和/或框架。对于这种新的整体NNR译码范例和/或框架,大多数(例如,如果不是全部)当前正在进行的和/或未来的NNR标准开发工作可以(例如,应该、将等)被很好地适应和/或集成在一起,以提供作为完整的NNR标准的优良译码性能。此外,一个全面、灵活和有效的NNR译码框架是一种重要和有价值的NNR技术,例如,即便是其自身也是很有价值的。
传统的和/或现有的NNR框架可将核张量分解成用于每个张量项位置的单独通道,并且将所述核张量分解成单独通道可能是对传统的和/或现有的NNR框架的限制。此外,在核张量在(例如,整个)压缩过程的(例如,最)开始和整个(例如,整个)压缩过程中被分成小(例如,最小)片段/单元(例如,在每个单元中具有一个单个权重系数)的情况下,系统的(例如,最好的)可实现的总体压缩性能可能受到限制。另外,常规和/或现有NNR框架可仅包括CTU和CU的能力,而不包括预测单元(PU)和/或变换单元(TU)的能力。这主要是由于这样的事实,即,这样的框架使用调色板译码作为此刻唯一的一种译码模式,这可能限制所述框架将其它NNR方法容纳到该框架中的能力。
经训练的NN权重系数的核张量可以是(例如,被视为、被认为是等本质上)滤波器,基于核的卷积计算可以是滤波过程。根据实施例,例如,对于新的整体NNR译码范例和/或框架(其在此可被称为新NNR框架),例如,从训练中形成和/或学习的(例如,每个、任何、一组、所有等)核张量可(例如,应该或可以被认为)反映、表示、指示、告知和/或捕获关于数据、输入数据、输出数据、信号、传输等中的任意者的特征。
根据实施例,经由训练形成的核张量可以指示所述输入数据/信号的某种有意义和/或有用的特征,诸如例如边缘、形状、表面或来自它们的复合结构等中的任意者的特征。根据实施例,作为其整体的有意义的单元(例如,作为单一实体/单元),核张量可以是冗余,和/或可以具有一定程度的冗余,其中所涉及的权重系数(例如,或多或少)彼此相关。根据实施例,对于新的整体NNR译码范例和/或框架,由于其他的和/或新NNR方法可被表示和/或定义为其他的译码模式,对于这样的NNR方法,预测、变换和/或其他形式的处理可进行到(例如,特定的)PU或TU中的任意者(例如,根据PU或TU中的任意者而进行)。
图2是示出了根据实施例的编码器的示图。图3是示出了根据实施例的解码器的示图。
根据实施方式,(例如,上面提到的)新的整体NNR译码范例和/或框架可以是基于核张量的NN压缩框架。图2和3是分别说明该新NNR框架的编码器和解码器的总图。根据实施例,该新NNR框架可基于来自HEVC或VVC中的任意者的现有和/或最新的视频译码标准中的任意者的基于树分区的译码范例。根据实施方式,该新NNR框架可包括以下特征中的任意者:(i)(例如,每个)核张量可以被处理(例如,使用、考虑等)为(例如,最为)基本译码单元;(2)使用和/或包括PU或TU中的任意者、和/或与PU或TU中的任意者相关联的信息、模块、特征和/或操作;以及(3)基于(例如,新的)三维(3D)空间树分区和量化单元(QU)的压缩范例。该新NNR框架可不同于现有的NNR框架,这是因为至少该新NNR框架的上述特征。
如上所述,现有的NNR框架对核(例如,核张量)进行分割。根据实施例,所述新NNR框架可以(例如,总是)查看并将(例如,每个)核张量看作(例如,考虑为)(例如,最为)基本译码单元和/或元素(例如,首先,从一开始,在最基本的级别,等等)。根据实施例,所述新NNR框架可(例如,仅)在某一时间以某种模式(例如,以某种方式)分解核张量,使得结果(例如,分解核张量的结果和/或与分解核张量相关的结果)可被检查(例如,验证、确认等)和/或确保,例如以实现更好的译码效率。根据实施例,在不存在核张量被分解的情况下,可以保留整个该核张量,并且可以例如在(例如,整个)译码过程的结束处对该核张量执行压缩。
根据实施例,所述新NNR框架可包括PU或TU中的任意者(例如,如包括在HEVC或VVC标准中的任意者中和/或在HEVC或VVC标准中的任意者中使用的),并且例如,除了CTU或CU中的任意者之外,包括PU或TU中的任意者。根据实施例,在所述新NNR框架中包括PU或TU中的任意者可例如适应和/或集成许多其他现有的和/或未来的NNR方法和/或技术到新NNR帧工作中(例如,到一个相同的框架中),例如,以提供更好的总压缩性能。
根据实施例,在所述新NNR框架中,例如,在新NNR框架流水线中和/或在该新NNR框架流水线的末端,(例如,每个特定的)核张量和/或其由于树分区的子集可以(例如,应当、需要、必须等)被压缩和译码。根据实施方式,例如,对于在所述新NNR框架流水线的末端的应用,可以使用基于在核张量或子张量(例如,3D空间或较低维度空间,例如,取决于核张量或子张量中的任意者的维度等)上的(例如,新的)树分区和QU的压缩范例,例如,以高效地对核张量进行译码,并且例如,以灵活地适应关于核张量的压缩和译码的现有和/或未来(例如,有效的)NNR方法。根据实施例,不同的核压缩方法可以被选择和/或用于不同维度和/或大小的核张量。
作为像素的核张量
图4是根据实施例的将核张量示为像素的示图。
根据实施例,例如,作为核心思想,新NNR框架可以将核张量考虑和/或处理为不可分离的译码单元,例如,其可以例如,在最开始,或换句话说,从处理核张量的开始或起点开始被整体地保持、存储、处理、使用等。相反,如上所述,在现有的NNR框架中,在整个压缩过程的最开始和所有时间,在每个张量位置处,核张量被分解成单个权重系数。此外,在这种现有的NNR框架中,核张量可以是多个单权重系数(例如,“像素”)。另一方面,根据实施例,要被压缩的特定NN层的权重张量整体可被视为2D图像,其中每个核张量作为“像素”。
根据实施例,在CTU和CU中的任意者的整个树分区过程中,核张量可保持为整体(例如,作为其整体而被保持)。根据实施例,在PU和TU中的任意者的分区(例如,其可能不同于CTU和CU中的任意者的分区)中,核张量可保持为整体(例如,作为其整体而被保持)。根据实施例,当在原始核张量和参考核张量之间进行(例如,某种)预测时,可以分开地和/或单独地预测所述(例如,结果、预测等)张量的每个项和/或分量。
根据实施方式,所述新NNR框架可用于任何(例如,所有可能的)核维度和大小,并且可例如具有和/或用于多种和宽范围的维数和大小(例如,在维数上为1x1至3x1、3x3、5x5、5x5x5等,和/或具有诸如7或更大的大小)。根据实施例,所述新NNR框架可通过使译码语法和/或译码模式(和/或方法)对于不同的核张量大小和/或维度不相同(例如,完全不同)来适应任何核维度和/或大小的任何(例如,所有)可能的情况。根据实施例,例如在张量维度较小(例如,K1×K2×K3小于某个阈值)的情况下,可从参考PU中的对应核张量中预测PU中的(例如,所有)核张量。
根据实施例,例如在张量维度大(例如,大于阈值)的情况下,可以发信号通知一标志以指示是否将针对(例如,特定的)核张量执行预测。例如,可以用信号通知一标志,因为(例如,非常可能的是)预测模式对于PU中的大多数而不是所有张量可能是高效的。根据实施例,在核张量维度高的情况下,即使发信号通知此标志可花费更多译码开销,发信号通知该标志可提供总体译码效率(例如,可以相对于整体译码效率为较好折衷)。根据实施例,在编码器侧,张量预测决定可以是(例如,类似地)速率失真优化(RDO),例如,如在视频译码的情况下,使得(例如,在此)所涉及的失真考虑所有张量项上的总失真。
根据实施例,例如,通过不(例如,不进行)在最开始将核张量分解成不同的单独通道,可以将待压缩的特定NN层的整个权重张量看作2D图像,其中每个核张量作为像素。根据实施例,对于作为像素的核张量,Cin可以是宽度(例如,作为像素的核张量的宽度),Cout可以是高度(例如,作为像素的核张量的高度),例如,如表1所示。根据实施例,在核张量是像素的情况下,可以应用现有的视频和/或图像译码方法。根据实施例,在核张量是像素的情况下,1D卷积层、2D卷积层和3D卷积层张量的Cin*Cout图像的布置在图4中示出。
树分区
在用于HEVC和VVC中的任意者的视频译码标准的情况下,首先将图片划分为CTU,并且可以在树结构中将每个CTU分区为CU。根据实施例,树分区可在新NNR框架中被测试和使用,例如,类似于HEV和VCC中的任意者的树分区。根据实施例,对于要测试和使用的这样的树分区,可以基于实际测试和实际调整结果来使用(例如,需要)一些(例如,必要的)修改。例如,根据实施例,最大允许CTU大小可以从如在VVC中的128×128改变为在NNR中的64×64。根据实施例,VVC的一些树分区形状和/或模式对于NNR可能不是有效的,而一些其他(例如,新的)分区形状和/或模式可能被发现是有用的
在NNR的情况下,表示每个NN层的2D核张量图像应当(例如,需要)被压缩。根据实施例,对于视频译码范例,(例如,仅)空间译码的有用部分(例如,树分区、空间预测等)被包括在新NNR框架中。此外,时间译码(例如,运动补偿)的任何部分可被排除在新NNR框架之外,因为例如这样的部分可能不存在于所关注的NNR问题中。
CU、PU和TU级的单树、多树和混合树
图5是示出了根据实施例的多树译码的示图。
可能存在多树译码的情况,其中在核张量位置处的每个项可被认为是单独的分量通道。在多树的这种情况下,现有的NNR框架在(例如,框架处理的)最开始将所述核张量分解为每个单独通道,并通过独立的树分区来处理每个通道2D权重图像。这种现有的NNR框架可以被称为多树译码,因为每个张量通道被用不同的树分区结构译码,并且产生多树。
根据实施例(并且,例如,与其中核张量被分解为单独的通道的多树译码相比),可以存在单树译码的情况,其中核张量可以在整个译码过程中作为其整体而被保持,并且可以在新NNR框架的最末端被压缩。根据实施例,在单树译码的情况下,任何(例如,所有)通道可以承载相同的树分区结构,并且结果可以是(例如,仅一个)单树。
图6是示出了根据实施例的混合树译码的图。
根据实施例,可以存在混合树译码的情况,其中一些核张量通道良好相关,并且剩余通道不良好相关。根据实施例,在混合树译码的情况下,良好相关的核张量通道可以共享相同的树分区,并且未良好相关的核张量通道可以用分离的和/或独立的树分区来译码,这表示单树和多树译码的混合情况。
根据实施例,所述混合树情况可以被认为是基于核张量的译码树的(例如,最)一般形式,并且所述单树译码和所述多树译码这两者可以被认为是混合树译码的两种极端情况。根据实施例,在最一般的形式中,混合树可以被认为是(例如,实际上是)独立分区的译码树的集合和/或组,其中,多个单独分区树中的每一个中的像素是(例如,实际上)来自完整的核张量的张量项的特定的所选择的子集。换言之,根据实施例,核张量可以被划分成多个通道(和/或核张量的子集,例如“子张量”),其中,每个通道(和/或子张量)包括(例如,由以下组成、形成)在所述核张量中的不同位置处的特定数量的核张量项。根据实施例,每个通道(和/或子张量)的2D图像和/或图片可以被分区成不同的树结构。
根据实施例,对于所述新NNR框架,CU、PU和TU的大小的更一般的关系可以被假定为与HEVC中的相同和/或相似。也就是说,对于新NNR框架,CU、PU和TU这三者中的任意两者可以不具有(例如,并非必须具有)相同的单元大小。例如,可能存在PU大小和TU大小小于或等于CU大小的情况。根据实施例,在CU级树分区之后,可以存在(例如,进一步)用于随后PU和TU的单独的树分区。根据实施例,在用于PU和TU的单独的树分区的情况下,可以分别在CU、PU和TU的不同级别中的任何级别(例如,每个级别、所有级别等)做出关于单树、多树和混合树选择的决定。根据实施例,关于单树、多树和混合树选择的这种决定可以是编码器侧决定,并且因此可以都被RD优化以提高译码效率。
用于TU级变换张量的译码树
根据实施例,上述译码树(例如,全部)处于核张量(例如,维度为K1×K2×K3)的原始空间域中。然而,本公开不限于此。根据实施例,原始核张量可以:(1)被变换和(2)(例如,然后)被分区成不同的译码树。也就是说,根据实施例,可以通过对K1×K2×K3核张量应用3D变换来变换所述原始核张量。此外,根据实施例,频率和/或变换域张量项和/或系数的不同子集可以被分区成不同的译码树,因为变换域张量通道的2D图像很可能在其子张量和/或像素之间具有更多相关性。
预测单元
已知的是,在不同的特征通道和滤波器核之间可能存在显著的冗余;并且可以观察到,NN层权重张量数据的2D图像更像计算机生成的噪声数据,因此,可能接近屏幕内容而不是接近自然视频内容。
根据实施例,在NN层权重张量数据更像计算机生成的噪声数据的情况下,屏幕内容视频译码方法也可用于(例如,有用于)新NNR框架。根据实施例,帧内块复制(IBC)、调色板(PLT)译码模式、帧内预测(INTRA)模式和/或通常在视频译码(例如HEVC和VVC)中使用的其他预测模式中的任意者可以被采用和/或修改,以用于例如新NNR框架中的NNR译码。
例如,广泛用于神经网络压缩的向量量化方法可以(例如,非常)类似于视频译码中的PLT译码模式,因为这两种方法都维护码本和码索引列表。根据实施例,在相邻CTU共享相同随机属性的情况下,IBC可被应用以共享码本。或者,根据实施例,相邻CTU的码本可用于预测INTRA模式中的下一CTU的码本。
根据实施例,在PU级分区选择(例如,选自)多树译码或混合树译码的情况下,可以为不同的树选择和/或使用不同的译码模式。根据实施例,可以通过在每个张量和/或子张量位置处执行预测来执行根据预测参考张量和/或预测参考子张量对当前核张量和/或当前核子张量的预测。
变换单元
根据实施例,在预测之后进行变换译码,例如,类似于在视频译码流水线中。根据实施例,新NNR框架可包括TU的概念,例如,如在HEVC中使用的。根据各实施例,(例如,最一般地)TU分区可在CU上/从CU执行,但不(例如,必须)在PU上/从PU执行,该PU可具有比CU的大小更小或相等的大小。根据实施例,在新NNR框架中,可包括一些不同的变换译码模式,其可与VVC中的类似,例如,各种不同变换的译码模式和/或变换跳过模式。
根据实施例,在新NNR框架中,现有和未来的NNR特定译码方法可(例如,也)被容纳作为新的变换模式。例如,包括在新NNR框架中的NNR特定译码方法可以是矩阵因式分解模式和/或为NNR特别设计和开发的方法。根据实施例,在新NNR框架中,重新排列所述矩阵的线性变换(例如,列和/或行交换变换)也可被应用以增加空间相关性,并且例如增加压缩比。根据实施例,在新NNR框架中,在TU级分区选择多树或混合树中的任意者的情况下,可以选择不同的变换译码模式并将其用于不同的树。
根据实施方式,在新NNR框架中,核张量和/或子张量的TU的变换可以通过以下而进行:(例如,首先)将每个张量和/或子张量划分为由每个单独张量和/或子张量项组成的通道,并且(例如,然后)在每个单独通道TU上应用相同的变换,以及(例如,再然后)将所变换的通道TU划分回属于每个张量和/或子张量的项。也就是说,根据实施例,张量和/或子张量的TU可被构造为使得每个张量和/或子张量(例如,现在)包含来自所有经变换通道TU的特定(例如,相同)频率的所有经变换系数和/或变换域位置索引。也就是说,根据实施例,位于所变换的TU的左上部分的张量和/或子张量可以由低频系数组成,而位于所变换的TU的右下部分的张量和/或子张量可以由高频系数组成。
核张量和/或子张量压缩
根据实施例,在新NNR框架中,在新NNR框架的(例如,整个)NNR管线的末端,例如,在CU级、PU级和/或TU级的(例如,所有可能的)树分区完成之后,可以有一个(例如,最后的)步骤(例如,操作、处理等)来压缩每个得到的核张量。例如,在所有CU/PU/TU级树分区是单树(或混合树)的情况下,可以压缩每个得到的核张量(和/或子张量)。也就是说,根据实施例,单个树分区可以保留全部和/或完整的核张量,而不将其分成子组(例如,子张量)。在涉及非单树分区的情况下,则在结束之前,在那些非单树分区中,核张量可以(例如,已经)被划分成子组(例如,子张量)。在这种情况下,根据实施例,(例如,下一个、最后一个等)步骤是压缩例如所述子张量,而不是全部和/或完整的核张量。根据实施例,在新NNR框架中,对于在新NNR框架中的K1×K2×K3核张量压缩(例如,最一般和最有挑战性的)情况,高效、灵活和全面的译码范例可以用于这样的核张量压缩。
三维(3D)空间树分区
根据实施例,在新NNR框架中,树分区可在3D空间核张量上进行。即,树分区的使用可以从在二维(2D)空间核张量图像上进行扩展到在3D空间核张量本身上进行。根据实施例,在新NNR框架中,在3D空间中,树分区可以通过递归地将3D张量立方体分离和/或分区成多个子张量立方体和/或“子立方体”来进行,例如,以便形成最终的3D空间张量分区树。这种3D空间树分区可以以与2D空间树分区类似的方式进行。
量化单元
根据实施例,(例如,每个)子张量立方体或子立方体(例如,3D张量分区树的每个叶子)可被称为量化单元(QU),例如,因为量化可被应用于新NNR框架的(例如,整个)NNR管线中的这种(例如,最后一个)译码单元上。根据实施例,QU可以是3D立方体。根据实施例,具有量化的变换译码(例如,标量量化、如在VVC中的依赖量化等中的任意者)可以被应用于所述QU。例如,在新NNR框架中,所述变换可以是3D或2D变换中的任意者,并且所涉及的量化可以是以下中的任意者:标量量化(SQ)、如在VVC中的依赖量化(DQ)或一些其他适当的和/或可应用的量化方法,例如点阵量化(LQ)和向量量化(VQ)等。根据实施例,各种变换选项可被编码为包括变换跳过模式的不同变换模式,而各种量化方法可被编码为不同量化模式。根据实施例,在QU大小(例如,QU中的样本总数)小于(例如,特定)限制的情况下,可以跳过所述变换,并且可以例如直接将SQ、DQ或VQ中的任意者应用于(例如,小的)QU。
本申请中描述的各种方法和其它方面可以用于修改如图2和图3所示的视频编码器100和解码器200的模块,例如帧间预测和/或变换模块(162、104、112、262、212),此外,本发明的方面不限于VVC或HEVC,并且可以应用于例如其它标准和建议以及任何这种标准和建议的扩展。
在本申请中使用各种数值,例如,用于确定模板大小的块大小。出于示例目的而提供了特定值,并且所描述的方面不限于这些特定值。
各种实现方式涉及解码。如本申请中所使用的,“解码”可以包括例如对接收到的编码序列执行的全部或部分过程,以便产生适合于显示的最终输出。在各种实施例中,此类过程包括通常由解码器执行的过程中的一者或多者,例如熵解码、逆量化、逆变换和差分解码。短语“解码”是旨在具体地指代操作的子集还是一般地指代更广泛的解码过程,这基于具体描述的上下文将是清楚的,并且相信是本领域技术人员所充分理解的。
各种实现方式涉及编码。以与以上关于“解码”的讨论类似的方式,如在本申请中使用的“编码”可以包括例如对输入视频序列执行的以便产生编码比特流的全部或部分过程。在各种实施例中,此类过程包括通常由编码器执行的一个或多个过程,例如,分区、差分编码、变换、量化和熵编码。
虽然在上文中描述了采用特定组合的特征和要素,但是本领域普通技术人员将会认识到,每一个特征或要素既可以单独使用,也可以与其他特征和要素进行任何组合。此外,这里描述的方法可以在引入到计算机可读介质中以供计算机或处理器运行的计算机程序、软件或固件中实施。关于非暂时计算机可读媒体的示例包括但不局限于只读存储器(ROM)、随机存取存储器(RAM)、寄存器、缓冲存储器、半导体存储设备、磁媒体(例如,内部硬盘和可移除磁盘)、磁光媒体以及光媒体(例如,CD-ROM碟片和数字多用途碟片(DVD))。与软件相关联的处理器可以用于实施在UE、WTRU、终端、基站、RNC或任何计算机主机中使用的射频收发信机。
此外,在上述实施例中提到了处理平台、计算系统、控制器和含有处理器的其他设备(包括约束服务器和集结点/服务器)。这些设备可以包括至少一个中央处理器(“CPU”)和存储器。依照计算机编程领域的技术人员实践,对于操作或指令的行为或符号性表示的引用可以由不同的CPU和存储器来执行。此类行为和操作或指令可被称为“运行”、“计算机运行”或“CPU运行”。
本领域普通技术人员将会了解,行为以及用符号表示的操作或指令包括由CPU来操纵电子信号。电子系统代表的是数据比特,该数据比特可能导致电子信号由此变换或减少,以及将数据比特保存在存储器系统中的存储器位置,由此重新配置或以其他方式变更CPU操作以及其他信号处理的数据比特。保持数据比特的存储器位置是具有与数据比特对应或代表数据比特的特定电、磁、光或有机属性的物理位置。应该理解的是,这里的示例性实施例并不局限于上述平台或CPU,并且其他平台和CPU同样可以支持所提供的方法。
数据比特还可以保持在计算机可读介质上,其中所述介质包括磁盘、光盘以及其他任何可供CPU读取的易失(例如,随机存取存储器(“RAM”))或非易失(例如,只读存储器(“ROM”))大容量存储系统。计算机可读介质可以包括协作或互连的计算机可读介质,这些介质既可以单独存在于处理系统之上,也可以分布在多个位于处理系统本地或远端的互连处理系统之中。应该理解的是,这些例示实施例并不局限于上述存储器,其他的平台和存储器同样可以支持所描述的方法。
在一个说明性实施例中,这里描述的任何操作、处理等等都可以作为保存在计算机可读介质上的计算机可读指令来实施。所述计算机可读指令可以由移动单元、网络部件和/或其他任何计算设备的处理器来运行。
在关于系统的各个方面的硬件和软件实施方式之间几乎是没有区别的。使用硬件还是软件通常(但也并不是始终如此,因为在某些上下文中,在硬件和软件之间做出的选择有可能会很重要)是代表了成本与效率之间的折衷的设计选择。这里描述的处理和/或系统和/或其他技术可以由各种载体来实施(例如,硬件、软件和/或固件),并且优选的载体可以随着部署所述处理和/或系统和/或其他技术的上下文而改变。举例来说,如果实施方案确定速度和精度是首要的,那么实施方可以倾向于主要采用硬件和/或固件载体。如果灵活性是首要的,那么实施方可以倾向于主要采用软件的实施方式。作为替换,实施者可以选择硬件、软件和/或固件的某种组合。
以上的具体实施方式部分已经借助于使用框图、流程图和/或示例而对设备和/或处理的不同实施例进行了描述。就像此类框图、流程图和/或示例包含了一个或多个功能和/或操作那样,本领域技术人员将会理解,此类框图、流程图或示例内部的每一个功能和/操作可以单独和/或共同地由范围广泛的硬件、软件、固件或者近乎其任何组合来实施。作为示例,适当的处理器包括通用处理器、专用处理器、常规处理器、数字信号处理器(DSP)、多个微处理器、与DSP核心相关联的一个或多个微处理器、控制器、微控制器、专用集成电路(ASIC)、专用标准产品(ASSP)、现场可编程门阵列(FPGA)电路、其他任何类型的集成电路(IC)、和/或状态机。
虽然在上文中是以特定组合的方式来提供特征和要素的,但是本领域普通技术人员将会了解,每一个特征或要素既可以单独使用,也可以采用与其他特征和要素相结合的方式来使用。本公开并不是依照本申请中描述的实施例而被限制的,其中所述实施例的目的是对不同的方面进行例证。本领域技术人员将会了解,在不脱离实质和范围的情况,众多的修改和变化都是可行的。除非以显性地方式提供,否则不应将本申请的说明书中使用的要素、行为或指令解释成是对本发明至关重要的。除了这里枚举的方法和装置之外,本领域技术人员可以从以上描述中清楚了解处于本公开的范围以内的功能等价的方法和装置。此类修改和变化都应该落入附加权利要求的范围以内。本公开仅仅是依照附加权利要求以及此类权利要求所具有的完整等价范围限制的。应该理解的是,本公开并不局限于特定的方法或系统。
还应该理解的是,这里使用的术语的用途仅仅是描述特定的实施例,其目的并不是进行限制。当在这里引用的时候,这里使用的术语“用户设备”及其缩略语“UE”可以是指(i)如下所述的无线发射和/或接收单元(WTRU);(ii)关于如下所述的WTRU的多个实施例中的任意者;(iii)具有无线能力和/或有线能力(例如,可连接)的设备,特别地,所述设备配置了如上所述的WTRU的一些或所有结构和功能;(iii)配置了与如上所述的WTRU的所有结构和功能相比相对较少的结构和功能的具有无线能力和/或有线能力的设备;或(iv)类似设备。可以代表这里述及的任何WTRU的例示WTRU的细节。
在某些代表性实施例中,这里描述的主题的若干个部分可以借助于专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)和/或其他集成格式来实现。然而,本领域技术人员将会认识到,这里公开的实施例的一些方面可以全部或者部分在集成电路中以等效的方式实施,作为在一个或多个计算机上运行的一个或多个计算机程序(例如,作为在一个或多个计算机系统上运行的一个或多个程序)来实施,作为在一个或多个处理器上运行的一个或多个程序(例如,作为在一个或多个微处理器上运行的一个或多个程序)来实施,作为固件来实施,或者作为近乎其任何组合来实施,并且依照本公开,关于软件和/或固件的电路设计和/或代码编写同样落入本领域技术人员的技术范围以内。此外,本领域技术人员将会了解,这里描述的主题的机制可以作为程序产品而以各种形式分发,并且无论使用了何种特定类型的信号承载介质来实际执行所述分发,这里描述的主题的说明性实施例都是适用的。关于信号承载介质的示例包括但不限于以下各项:可记录型介质,例如软盘、硬盘驱动器、CD、DVD、数字磁带、计算机存储器等等,以及传输类型介质,例如数字和/或模拟通信介质(例如,光缆、波导、有线通信链路、无线通信链路等等)。
这里描述的主题有时示出了包含在其他不同的组件内部或是与之相连的不同组件。应该理解的是,以这种方式描述的体系结构仅仅是一些示例,并且用于实施相同功能的其他众多的架构实际上都是可以实施的。从概念上讲,实现相同功能的部件的任何布置都被有效地“关联”,由此可以实现期望的功能。因此,在这里组合在一起以实现特定功能的任何两个组件都可被认为是彼此“关联”的,由此将会实现期望的功能,而不用考虑架构或中间组件。同样地,以这种方式关联的任何两个部件也可以被视为彼此“可操作地连接”或“可操作地耦合”,以便实现期望的功能,并且能以这种方式关联的任何两个部件也可以被视为彼此“能够可操作地耦合”,以便实现期望的功能。关于能够可操作地耦合的特定示例包括但不局限于可以在物理上配对和/或在物理上交互的组件和/或可以以无线方式交互和/或无线交互的组件和/或在逻辑上交互和/或可在逻辑上交互的组件。
至于在这里使用了实质上任何的复数和/或单数术语,本领域技术人员可以根据上下文和/或应用适当地从复数转换为单数和/或从单数转换为复数。为了清楚起见,在这里可以明确地阐述各种单数/复数置换。
本领域技术人员将会理解,一般来说,在这里尤其是附加权利要求(例如,附加权利要求的主体)中使用的术语通常应该作为“开放式”术语(举例来说,术语“包括”应被解释成“包括但不局限于”,术语“具有”被解释成“至少具有”,术语“包含”应被解释为“包括但不局限于”等等)。本领域技术人员将会进一步理解,如果所引入的权利要求叙述针对的是特定的数量,那么在该权利要求中应该明确地叙述这种意图,并且如果没有这种叙述,那么此类意图是不存在的。举例来说,如果所预期的是仅仅一个项目,那么可以使用术语“单个”或类似语言。作为理解辅助,后续的附加权利要求和/或这里的描述可以包括使用介绍性短语“至少一个”以及“一个或多个”来引入权利要求的叙述。然而,使用此类短语不应被解释成是这样一种权利要求叙述的引入方式,即通过不定冠词“一”或“一个”来将包含以这种方式引入的权利要求叙述的任何特定的权利要求局限于只包含一个此类叙述的实施例,即使相同的权利要求包含了介绍性短语“一个或多个”或者“至少一个”以及诸如“一”或“一个”之类的不定冠词的时候也是如此(例如,“一”和/或“一个”应该被解释成是指“至少一个”或者“一个或多个”)。对于用于引入权利要求叙述的定冠词的使用,亦是如此。此外,即使明确叙述了所引入的特定数量的权利要求叙述,本领域技术人员也会认识到,这种叙述应被解释成至少是指所叙述的数量(例如,在没有其他修饰语的条件下的关于“两个叙述”的无修饰叙述意味着至少两个叙述或是两个或更多叙述)。此外,在这些示例中,如果使用了与“A、B和C等等中的至少一者”相类似的规约,那么此类结构通常应该具有本领域技术人员所理解的该规约的意义(例如,“具有A、B和C中的至少一者的系统”将会包括但不局限于只具有A、只具有B、只具有C、具有A和B、具有A和C、具有B和C和/或具有A、B和C等等的系统)。在使用了与“A、B或C等等中的至少一者”相似的规约的示例中,此类结构通常应该具有本领域技术人员所理解的所述规约的意义(举例来说,“具有A、B或C中的至少一者的系统”包括但不限于只具有A,只具有B、只具有C、具有A和B,具有A和C,具有B和C和/或具有A、B和C等等的系统)。本领域技术人员会将进一步理解,无论在说明书,权利要求书还是附图中,提出两个或更多替换项的几乎任何分离性的词语和/或短语都应被理解成预期了包括这些项中的一个、任一项或是所有两项的可能性。举例来说,短语“A或B”将被理解成包括“A”或“B”或“A和B”的可能性。此外,这里使用的跟随有一系列的多个项目和/或多个项目类别的术语“任何一个”旨在包括单独或与其他项目和/或其他项目类别相结合的项目和/或项目类别中的“任何一个”,“任何组合”,“任意的多个”和/或“任意的多个的组合”。此外,这里使用的术语“集合”或“群组”应该包括任意数量的项目,其中包括零个。作为补充,这里使用的术语“数量”旨在包括任意数量,其中包括零。
此外,如果本公开的特征或方面是依照马库什群组的方式描述的,那么本领域技术人员将会认识到,本公开由此是依照马库什组中的任意的单个成员或成员子群组描述的。
本领域技术人员将会理解,出于任何和所有目的(例如,在提供书面描述方面),这里公开的所有范围还包含了任何和所有可能的子范围以及其子范围组合。所列出的任何范围都可以很容易地被认为是充分描述和启用了被分解成至少两等分、三等分、四等分、五等分、十等分等等的相同范围。作为非限制性示例,本文论述的每一个范围都很容易即可分解成下部的三分之一、中间的三分之一以及上部的三分之一范围。本领域技术人员将会理解,诸如“至多”、“至少”、“大于”、“小于”等等的所有语言包含了所叙述的数字,并且指代的是随后可被分解成如上所述的子范围的范围。最后,正如本领域技术人员所理解的那样,一个范围会包括每一个单独的成员。由此,举例来说,具有1-3个小区的群组指的是具有1、2或3个小区的群组。同样,具有1-5个小区的群组是指具有1、2、3、4或5个小区的群组,依此类推。
此外,除非进行说明,权利要求不应该被错误地当作仅限于所描述的顺序或要素。作为补充,任何权利要求中使用的术语“用于……的装置”旨在援引35U.S.C.§112,
Figure BDA0003448872360000391
6或者意味着“装置加功能(means-plus-function)”权利要求格式,并且没有单词“装置”的任何权利要求均不具有这种意义。
与软件关联的处理器可用于实现射频收发信机,以便在无线发射接收单元(WTRU)、用户设备(UE)、终端、基站、移动性管理实体(MME)或演进型分组核心(EPC)或任何一种主计算机中使用。WTRU可以与采用硬件和/或软件形式实施的模块结合使用,其中所述模块包括软件定义无线电(SDR)以及其他组件,例如相机、摄像机模块、可视电话、喇叭扩音器、振动设备、扬声器、麦克风、电视收发信机、免提耳机、键盘、
Figure BDA0003448872360000392
模块、调频(FM)无线电单元、近场通信(NFC)模块、液晶显示器(LCD)显示单元、有机发光二极管(OLED)显示单元、数字音乐播放器、媒体播放器、视频游戏机模块、因特网浏览器和/或任何一种无线局域网(WLAN)或超宽带(UWB)模块。
虽然本发明是依照通信系统描述的,然而应该想到的是,这些系统也可以在微处理器/通用处理器的软件中实施(未显示)。在某些实施例中,不同组件的一个或多个功能可以在控制通用计算机的软件中实施。
此外,虽然在这里参考了具体的实施例来例证和描述本发明,但是本发明并不局限于所显示的细节。相反,在权利要求的等价范围和范畴以内,以及在不脱离本发明的范围的情况下,在细节方面是可以进行各种修改的。

Claims (20)

1.一种对视频进行编码或解码的方法,该视频包括当前图片和至少第一参考图片的视频以及与经训练的神经网络(NN)模型相关联的权重张量,所述方法包括:
生成任意数量的与所述权重张量相关联的核张量、输入通道和输出通道中的任意者,其中,每个核张量与以下中的任意者相关联:层类型、输入信号类型和树分区类型,并且其中每个核张量包括任意数量的权重系数;
针对所述任意数量的核张量的每一者,根据与所述任意数量的核张量的每一者相关联的相应树分区类型,生成译码树单元(CTU)、译码单元(CU)、预测单元(PU)和变换单元(TU)中的任意者的树分区;以及
通过压缩和译码所述任意数量的核张量,生成所述经训练的NN模型的压缩表示。
2.根据权利要求1所述的方法,其中,在所述生成用于所述CTU、所述CU、所述PU和所述TU中的任意者的所述树分区的过程中,每个核张量作为整体而被保持并使用。
3.根据权利要求1所述的方法,其进一步包括:根据核张量维度和核张量大小中的任意者,使用或选择译码语法、译码模式或译码方法中的任意者。
4.根据权利要求1所述的方法,其中所述层类型是以下中的任意者:卷积层类型、全连接层类型和偏置层类型。
5.根据权利要求1所述的方法,其中所述输入信号类型是以下中的任意者:与视频或点云中的任意者相关联的三维(3D)信号类型、与图像相关联的二维(2D)信号类型、以及与音频相关联的一维(1D)信号类型。
6.根据权利要求1所述的方法,其中,所述树分区类型是以下中的任意者:单树型、多树型以及混合树型。
7.根据权利要求1所述的方法,其中,任意数量的核张量被划分成任意数量的子张量,每个子张量包括任意数量的权重系数。
8.根据权利要求7所述的方法,其中,所述压缩所述任意数量的核张量的所述译码包括:压缩并译码与所述核张量关联的所述任意数量的子张量。
9.根据权利要求8所述的方法,还包括:压缩和译码核张量或子张量中的任意者,这通过对所述核张量或所述子张量中的任意者以及量化单元(QU)执行树分区而进行。
10.一种非暂态存储介质,所述非暂态存储介质存储使用根据权利要求1至9中任意项所述的方法编码的视频。
11.一种包括处理器和存储指令的非暂时性计算机可读存储介质的装置,所述指令当在所述处理器上执行时可操作以执行根据权利要求1-9中任意项所述的用于视频编码或视频解码中的任意者的方法。
12.一种用于视频编码和解码中的任意者的装置,其包括处理器,其中所述处理器被配置以:
生成任意数量的与所述权重张量相关联的核张量、输入通道和输出通道中的任意者,其中,每个核张量与以下中的任意者相关联:层类型、输入信号类型和树分区类型,并且其中每个核张量包括任意数量的权重系数;
针对所述任意数量的核张量的每一者,根据与所述任意数量的核张量的每一者相关联的相应树分区类型,生成译码树单元(CTU)、译码单元(CU)、预测单元(PU)和变换单元(TU)中的任意者的树分区;以及
通过压缩和译码所述任意数量的核张量,生成所述经训练的NN模型的压缩表示。
13.根据权利要求12所述的装置,其中,在所述生成用于所述CTU、所述CU、所述PU和所述TU中的任意者的所述树分区的过程中,每个核张量作为整体而被保持并使用。
14.根据权利要求12所述的装置,其中所述处理器被配置为根据核张量维度和核张量大小中的任意者,使用或选择译码语法、译码模式或译码方法中的任意者。
15.根据权利要求12所述的装置,其中,所述层类型是以下中的任意者:卷积层类型、全连接层类型和偏置层类型。
16.根据权利要求12所述的装置,其中,所述输入信号类型是以下中的任意者:与视频或点云中的任意者相关联的三维(3D)信号类型、与图像相关联的二维(2D)信号类型、以及与音频相关联的一维(1D)信号类型。
17.根据权利要求12所述的装置,其中,所述树分区类型是以下中的任意者:单树型、多树型以及混合树型。
18.根据权利要求12所述的装置,其中,任意数量的核张量被划分成任意数量的子张量,每个子张量包括任意数量的权重系数。
19.根据权利要求18所述的装置,其中,所述压缩所述任意数量的核张量的所述译码包括:压缩并译码与所述核张量关联的所述任意数量的子张量。
20.根据权利要求19所述的装置,还包括:压缩和译码核张量或子张量中的任意者,这通过对所述核张量或所述子张量中的任意者以及量化单元(QU)执行树分区而进行。
CN202080048675.7A 2019-07-02 2020-07-02 基于核张量和树分区的神经网络压缩框架的方法和装置 Pending CN114072844A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962869679P 2019-07-02 2019-07-02
US62/869,679 2019-07-02
PCT/US2020/040587 WO2021003325A1 (en) 2019-07-02 2020-07-02 Methods and apparatus for kernel tensor and tree partition based neural network compression framework

Publications (1)

Publication Number Publication Date
CN114072844A true CN114072844A (zh) 2022-02-18

Family

ID=71784682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080048675.7A Pending CN114072844A (zh) 2019-07-02 2020-07-02 基于核张量和树分区的神经网络压缩框架的方法和装置

Country Status (4)

Country Link
US (1) US20220360778A1 (zh)
EP (1) EP3994619A1 (zh)
CN (1) CN114072844A (zh)
WO (1) WO2021003325A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894457A (zh) * 2023-09-11 2023-10-17 深存科技(无锡)有限公司 深度学习模型的网络权重存取方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11496775B2 (en) * 2020-02-20 2022-11-08 Tencent America LLC Neural network model compression with selective structured weight unification

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10979718B2 (en) * 2017-09-01 2021-04-13 Apple Inc. Machine learning video processing systems and methods

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116894457A (zh) * 2023-09-11 2023-10-17 深存科技(无锡)有限公司 深度学习模型的网络权重存取方法
CN116894457B (zh) * 2023-09-11 2023-11-24 深存科技(无锡)有限公司 深度学习模型的网络权重存取方法

Also Published As

Publication number Publication date
WO2021003325A1 (en) 2021-01-07
US20220360778A1 (en) 2022-11-10
EP3994619A1 (en) 2022-05-11

Similar Documents

Publication Publication Date Title
JP7390300B2 (ja) ビデオコーディングにおける適応ループフィルタを簡略化する方法
US11425418B2 (en) Overlapped block motion compensation
US11991384B2 (en) Adaptive control point selection for affine motion model based video coding
US12028520B2 (en) Multi-type tree coding
US20220261616A1 (en) Clustering-based quantization for neural network compression
US20220038737A1 (en) Methods and apparatus for flexible grid regions
CN113826400A (zh) 用于利用光流的解码器侧运动向量细化的预测细化的方法和装置
US20220360778A1 (en) Methods and apparatus for kernel tensor and tree partition based neural network compression framework
US20220182634A1 (en) Methods and systems for post-reconstruction filtering
US20220150486A1 (en) Intra sub-partitions in video coding
CN115104304A (zh) 用于帧间预测的视频数据的变换编码
US20240187652A1 (en) Use of general constraint flags associated with coding tools
US20220116656A1 (en) Improved intra planar prediction using merge mode motion vector candidates
US20220132123A1 (en) Content adaptive transform precision for video coding
WO2023122077A1 (en) Temporal attention-based neural networks for video compression
WO2023194192A1 (en) Film grain synthesis using multiple correlated patterns
WO2022229707A1 (en) Interactions between neural network-based intra prediction modes and regular intra prediction modes
WO2024133043A1 (en) Decoder side intra mode derivation with contextual adjustment of the number of derived modes
WO2023133350A1 (en) Coordinate refinement and upsampling from quantized point cloud reconstruction
WO2024133624A1 (en) Local illumination compensation with extended models
WO2024003115A1 (en) Chroma multiple transform selection
CN117652140A (zh) 基于神经网络的帧内预测模式与常规帧内预测模式之间的交互

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination