CN111630593B - 用于译码声场表示信号的方法和装置 - Google Patents

用于译码声场表示信号的方法和装置 Download PDF

Info

Publication number
CN111630593B
CN111630593B CN201980009156.7A CN201980009156A CN111630593B CN 111630593 B CN111630593 B CN 111630593B CN 201980009156 A CN201980009156 A CN 201980009156A CN 111630593 B CN111630593 B CN 111630593B
Authority
CN
China
Prior art keywords
signal
input signal
audio
audio objects
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980009156.7A
Other languages
English (en)
Other versions
CN111630593A (zh
Inventor
K·克乔埃尔林
D·S·麦格拉思
H·普尔纳根
M·R·P·托马斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Dolby Laboratories Licensing Corp
Original Assignee
Dolby International AB
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB, Dolby Laboratories Licensing Corp filed Critical Dolby International AB
Publication of CN111630593A publication Critical patent/CN111630593A/zh
Application granted granted Critical
Publication of CN111630593B publication Critical patent/CN111630593B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

本文档描述了一种用于对描述参考位置处的声场的声场表示SR输入信号(101,301)进行编码的方法(400);其中所述SR输入信号(101,301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道。所述方法(400)包括从所述SR输入信号(101,301)提取(401)一或多个音频对象(103,303)。此外,所述方法(400)包括基于所述SR输入信号(101,301)并基于所述一或多个音频对象(103,303)来确定(402)残差信号(102,302)。所述方法(400)还包括进行所述一或多个音频对象(103,303)和/或所述残差信号(102,302)的联合译码。另外,所述方法(400)包括基于在所述一或多个音频对象(103,303)和/或所述残差信号(102,302)的联合译码的背景下生成的数据来生成(403)位流(701)。

Description

用于译码声场表示信号的方法和装置
相关申请的交叉引用
本专利申请要求于2018年1月18日提交的美国临时专利申请第62/618,991号的优先权权益,其整体通过引用并入。
技术领域
本文档涉及声场表示信号,尤其是高保真度立体声响复制(ambisonics)信号。特别地,本文档涉及使用基于对象的音频译码方案(例如,AC-4)对声场表示信号的译码。
背景技术
可以使用高保真度立体声响复制信号来描述放置在收听位置处的收听者的收听环境内的声音或声场。高保真度立体声响复制信号可以被视为多声道音频信号,其中每个声道对应于收听者的收听位置处的声场的特定指向性图案。可以使用三维(3D)笛卡尔坐标系来描述高保真度立体声响复制信号,其中坐标系的原点对应于收听位置,x轴指向前方,y轴指向左侧,并且Z轴指向上方。
通过增加音频信号或声道的数量以及通过增加相对应的指向性图案(和相对应的平移功能)的数量,可以提高描述声场的精度。举例来说,一阶高保真度立体声响复制信号包括4个声道或波形,即指示声场的全向分量的W声道、描述具有对应于x轴的偶极指向性图案的声场的X声道、描述具有对应于y轴的偶极指向性图案的声场的Y声道和描述具有对应于z轴的偶极指向性图案的声场的Z声道。二阶高保真度立体声响复制信号包括9个声道,包含一阶高保真度立体声响复制信号(也被称为B格式)的4个声道加上不同指向性图案的5个另外的声道。通常,L阶高保真度立体声响复制信号包括(L+1)2个声道,包含(L-1)阶高保真度立体声响复制信号的L2个声道加上另外的指向性图案的[(L+1)2-L2]个另外的声道(在使用3D高保真度立体声响复制格式时)。L>1的L阶高保真度立体声响复制信号可以被被称为高阶高保真度立体声响复制(HOA)信号。
HOA信号可以用于独立于扬声器的布置来描述3D声场,所述扬声器布置用于渲染HOA信号。扬声器的示范性布置包括耳机或一或多个扬声器布置或虚拟现实渲染环境。因此,将HOA信号提供给音频渲染可能是有益的,以便允许音频渲染灵活地适应不同的扬声器布置。
本文档解决了以带宽高效方式通过具有高感知质量的传输网络传输HOA信号(或更一般地说,声场表示(SR)信号)的技术问题。所述技术问题由独立权利要求解决。优选的实例在从属权利要求中描述。
发明内容
根据一个方面,描述了一种用于对表示参考位置处的声场的声场表示(SR)输入信号进行编码的方法。所述方法包括从所述SR输入信号提取一或多个音频对象。此外,所述方法包括基于所述SR输入信号并基于所述一或多个音频对象来确定残差信号。所述方法还包括进行所述一或多个音频对象和/或所述残差信号的联合译码。另外,所述方法包括基于在所述一或多个音频对象和/或所述残差信号的联合译码的背景下生成的数据来生成位流。
根据另外一个方面,描述了一种用于对指示表示参考位置处的声场的SR输入信号的位流进行解码的方法。所述方法包括从所述位流导出一或多个重构音频对象。此外,所述方法包括从所述位流导出重构残差信号。另外,所述方法包括从所述位流导出指示所述SR输入信号的格式和/或声道的数量的SR元数据。
根据另外一个方面,描述了一种编码装置(或设备),其被配置成对指示参考位置处的声场的SR输入信号进行编码。所述编码装置被配置成从所述SR输入信号提取一或多个音频对象。此外,所述编码装置被配置成基于所述SR输入信号并基于所述一或多个音频对象来确定残差信号。另外,所述编码装置被配置成基于所述一或多个音频对象并基于所述残差信号来生成位流。
根据另一方面,描述了一种解码装置(或设备),其被配置成对指示表示参考位置处的声场的SR输入信号的位流进行解码。所述解码装置被配置成从所述位流导出一或多个重构音频对象。此外,所述解码装置被配置成从所述位流导出重构残差信号。另外,所述解码装置被配置成从所述位流导出指示所述SR输入信号的格式和/或声道的数量的SR元数据。
根据另外一个方面,描述了一种软件程序。所述软件程序可以适于在处理器上执行并且适于在所述处理器上执行时进行本文档中概述的方法步骤。
根据另一方面,描述了一种存储媒体。所述存储媒体可以包括软件程序,所述软件程序适于在处理器上执行并且适于在所述处理器上执行时进行本文档中概述的方法步骤。
根据另外一个方面,描述了一种计算机程序产品。所述计算机程序可以包括可执行指令,所述可执行指令用于在计算机上执行时进行本文档中概述的方法步骤。
应注意,包含如在本专利申请中概述的其优选实施例的方法、装置和系统可以独立使用,或者与本文档中公开的其它方法、装置和系统组合使用。此外,本专利申请中概述的方法、装置和系统的所有方面可以任意组合。特别地,权利要求的特征可以以任意方式彼此组合。
附图说明
下面参照附图以示范性方式解释本发明,在附图中
图1示出了用于编码声场表示信号的示范性编码单元;
图2示出了用于解码声场表示信号的示范性解码单元;
图3示出了用于编码声场表示信号的另一示范性编码单元;
图4示出了用于编码声场表示信号的示范性方法的流程图;
图5示出了用于对指示声场表示信号的位流进行解码的示范性方法的流程图;
图6a和6b示出了示范性音频渲染;和
图7示出了示范性译码系统。
具体实施方式
如上所概述,本文档涉及HOA信号(在本文中更一般地被称为声场表示(SR)信号)的有效译码。此外,本文档涉及SR信号在位流内通过传输网络的传输。在一个优选实例中,使用用于音频对象的编码/解码系统(例如,以ETSI(TS 103 190和TS 103 190-2)标准化的AC-4编解码器系统)来对SR信号进行编码和解码。
如在引言部分中所概述,SR信号可以包括相对较大数量的声道或波形,其中不同的声道涉及不同的平移功能和/或不同的指向性图案。举例来说,L阶3D HOA信号包括(L+1)2个声道。SR信号可以以各种不同的格式表示。一个示范性格式是所谓的蜂巢(BeeHive)格式(简称为BH格式),其例如描述于US 2016/0255454 A1中,其中本文档通过引用并入本文。
声场可以被视为由源于围绕收听位置的任意方向的一或多个声音事件构成。因此,一或多个声音事件的位置可以在球体的表面上定义(其中收听或参考位置位于球体的中心)。
以允许通过任意扬声器布置(即任意渲染系统)渲染声场的方式来定义声场格式(例如,高阶高保真度立体声响复制(HOA))。然而,渲染系统(例如,杜比全景声(DolbyAtmos)系统)通常会受到以下限制:扬声器的可能标高固定到一定数量的平面(例如,耳高(水平)平面、天花板或上平面和/或地板或下平面)。因此,可以将理想球形声场的概念修改为由位于球体表面上不同高度的不同环中的声音对象构成的声场(类似于构成蜂巢的堆叠环)。
具有四个环的示范性布置可以包括中环(或层)、上环(或层)、下环(或层)和天顶环(在球体的天顶处为单个点)。本格式可以被称为BHa.b.c.d格式,其中“a”指示中环上的声道的数量,“b”指示上环上的声道的数量,“c”指示下环上的声道的数量,并且“d”指示天顶处的声道的数量(其中“d”仅取值“0”或“1”)。声道可以均匀地分布在相应环上。每个声道对应于一个特定指向性图案。举例来说,可以使用BH3.1.0.0格式来描述根据B格式的声场,即可以使用BH3.1.0.0格式来描述一阶高保真度立体声响复制信号。
基于对象的音频渲染器可以被配置成使用特定扬声器布置来渲染音频对象。图6a示出了示范性音频渲染600,其被配置成渲染音频对象,其中音频对象包括音频对象信号601(包括实际的单声道音频信号)和对象元数据602(将音频对象的位置描述为时间的函数)。音频渲染器600利用指示扬声器布置的N个扬声器的位置的扬声器位置数据603。基于本信息,音频渲染器600为N个扬声器生成N个扬声器信号604。特别地,可以使用平移增益来生成扬声器的扬声器信号604,其中平移增益取决于(不随时间变化的)扬声器位置(由扬声器位置数据603指示)和(随时间变化的)指示2D或3D渲染环境中的对象位置的对象元数据602。
如图6b中所示,音频对象的音频渲染可以被分为两个步骤,第一(随时间变化的)步骤611,将音频对象平移为中间扬声器信号614;和第二(不随时间变化的)步骤612,将中间扬声器信号614变换为特定扬声器布置的N个扬声器的扬声器信号604。对于第一步骤611,可以假设具有K个中间扬声器的中间扬声器布置613(例如,K>11,例如K=14)。K个中间扬声器可以位于蜂巢或球体的一或多个不同的环上(如上所概述)。换句话说,K个中间扬声器的K个中间扬声器信号614可以对应于以BH格式表示的SR信号的不同声道。如例如在杜比全景声技术中所定义,本中间格式可以被称为中间空间格式(ISF)。
音频渲染器600可以被配置成渲染一或多个静态对象,即表现出固定和/或不随时间变化的对象位置的对象。静态对象也可以被称为对象床(bed),并且可以用于再现环境声音。可以将一或多个静态对象分配给扬声器装置的一或多个特定扬声器。举例来说,音频渲染器600可以实现三个不同的扬声器平面(或环),例如水平面、上平面和下平面(杜比全景声技术就是这种情况)。在每个平面中,可以渲染多声道音频信号,其中每个声道可以对应于静态对象和/或平面中的扬声器。举例来说,水平面可以允许渲染5.1或4.0或4.x多声道音频信号,其中第一个数字指示扬声器声道的数量(例如,前左、前右、前中、后左和/或后右),并且第二个数字指示LFE(低频效果)声道的数量。上平面和/或下平面可以例如允许各自使用2个声道(例如,左前和/或右前)。因此,可以例如使用符号4.x.2.2来定义固定音频对象床,其中前两个数字指示水平面的声道的数量(例如,4.x),其中第三个数字指示上平面的声道的数量(例如,2),并且其中第四个数字指示下平面的声道的数量(例如,2)。
如图7中所示,基于对象的音频译码系统700(例如,AC-4)包括编码单元710和解码单元720。编码单元710可以被配置成基于输入信号711来生成用于传输到解码单元720的位流701,其中输入信号711可以包括多个对象(每个对象包括对象信号601和对象元数据602)。可以使用联合对象译码方案(JOC),尤其是AC-4中使用的高级JOC(A-JOC),来对多个对象进行编码。
联合对象译码工具,尤其是A-JOC工具,实现了以降低的数据速率有效地表示基于对象的沉浸式音频内容。这是通过传送沉浸式内容(即多个音频对象)的多声道下混以及参数侧信息来实现的,所述参数侧信息实现了在解码器720处从下混信号重构音频对象。可以使用波形译码工具(例如,ASF(音频频谱前端)和/或A-SPX(高级频谱扩展))来对多声道下混信号进行编码,从而提供表示下混信号的波形译码数据。用于编码下混信号的编码方案的特定实例是MPEG AAC、MPEG HE-AAC和其它MPEG音频编解码器、3GPP EVS和其它3GPP编解码器以及杜比数字/杜比数字+(AC-3、eAC-3)。
参数侧信息包括JOC参数和对象元数据602。JOC参数主要传送从下混信号重构音频对象的上混矩阵的随时间和/或频率变化的元素。上混过程可以在QMF(正交镜像滤波器)子带域中执行。可替代地,可以使用另一时间/频率变换,尤其是基于FFT(快速傅立叶变换)的变换,来进行上混过程。通常,可以应用变换,这实现了频率选择性分析和(上混)处理。JOC上混过程,尤其是A-JOC上混过程,还可以包含解相关器,所述解相关器实现了多个对象的协方差的改进重构,其中解相关器可以由另外的JOC参数来控制。因此,编码器710可以被配置成生成下混信号加上JOC参数(除对象元数据602之外)。本信息可以包含在位流701中,以便使解码器720能够生成多个重构对象作为输出信号721(对应于输入信号711的多个对象)。
可以使用JOC工具,尤其是A-JOC工具,来确定JOC参数,所述JOC参数允许将给定下混信号上混为上混信号,使得上混信号近似于给定目标信号。举例来说,可以确定JOC参数,使得减小(尤其是最小化)上混信号和目标信号之间的某一误差(例如,均方误差)。
“联合对象译码”(例如在模块120和/或330中实施以进行编码,而在模块220中实施以进行解码)可以被描述为从多声道下混信号到具有更大数量的声道和/或对象的参数控制的与时间/频率相关的上混(任选地包含在上混过程中使用解相关)。具体实例是与DD+组合使用的JOC(例如,根据ETSI TS 103 420的JOC)和AC-4中包含的A-JOC(例如,根据ETSITS 103 190)。
还可以在VR(虚拟现实)内容的译码的背景下进行“联合对象译码”,所述VR内容可以由相对大量的音频元素构成,包含动态音频对象、固定音频声道和/或基于场景的音频元素,例如高阶高保真度立体声响复制(HOA)。可以使用内容摄取引擎(可与模块110或320相比)来从VR内容生成对象303和/或残差信号302。此外,可以使用下混模块310来生成下混信号304(例如,以B格式)。下混信号304可以例如使用3GPP EVS编码器进行编码。另外,可以计算元数据,所述元数据实现了将(能量压缩的)下混信号304上混为动态音频对象和/或高阶高保真度立体声响复制场景。本元数据可以被视为在本文档中描述的联合(对象)译码参数305。
图1示出了用于对声场表示(SR)输入信号101(例如,L阶高保真度立体声响复制信号)进行编码的示范性编码单元或编码装置100的框图。编码单元100可以是基于对象的译码系统700(例如,AC-4译码系统700)的编码单元710的一部分。编码单元100包括被配置成从SR输入信号101提取一或多个对象103的对象提取模块110。为此,可以例如使用QMF变换或基于FFT的变换或实现频率选择性处理的另一时间/频率变换来将SR输入信号101变换到子带域中,从而提供多个SR子带信号。所述变换,尤其是QMF变换或基于FFT的变换,可以表现出多个均匀分布的子带,其中可以使用感知度量(例如,巴克(Bark)度量)来对所述均匀分布的子带进行分组,以便减少子带的数量。因此,可以提供多个SR子带信号,其中子带可以表现出不均匀的(感知激励的)间隔或分布。举例来说,所述变换,尤其是QMF变换或基于FFT的变换,可以表现出64个子带,这些子带可以例如被分组成m=19个(非均匀)子带。
如上所指示,SR输入信号101通常包括多个声道(尤其是(L+1)2个声道)。因此,SR子带信号各自包括多个声道(对于L阶HOA信号,尤其是(L+1)2个声道)。
对于每个SR子带信号,可以确定主要到达方向(DOA),从而为相对应的多个SR子带信号提供多个主要DOA。例如,如本领域所已知,可以分别通过W声道与X、Y和Z声道的协方差将SR(子带)信号的主要到达方向导出为(x,y,z)向量。因此,可以为多个子带确定多个主要DOA。多个主要DOA可以被聚类到n个对象103的某一数量的(n个)主要DOA。使用n个主要DOA,可以从多个SR子带信号提取n个音频对象103的对象信号601。此外,可以从n个主要DOA导出n个对象103的对象元数据602。子带变换的子带的数量可以是10、15、20或更多。对象103的数量可以是n=2、3、4或更多。
可以从SR输入信号101减去和/或去除n个对象103以提供残差信号102,其中残差信号102可以使用例如声场表示来表示,例如使用BH格式或ISF格式。
可以在联合对象译码(JOC)模块120内对n个对象103进行编码,以便提供JOC参数105。可以确定JOC参数105,使得可以使用JOC参数105来上混近似于n个对象103的对象信号601和残差信号102的下混信号101。下混信号101可以对应于SR输入信号101(如图1中所示),或者可以通过下混操作基于SR输入信号101来确定(如图3中所示)。
可以在相对应的解码器200内使用下混信号101和JOC参数105来重构n个对象103和/或残差信号102。可以在子带域中(尤其是QMF域或基于FFT的变换域中)以精确且有效的方式确定JOC参数105。在一个优选实例中,在同一子带域中进行对象提取和联合对象译码,从而降低了编码方案的复杂度。
为了确定JOC参数105,一或多个对象103的对象信号601和残差信号102可以被变换到子带域中和/或可以在子带域中处理。此外,下混信号101可以被变换到子带域中。随后,可以逐个子带地确定JOC参数105,尤其使得通过使用JOC参数来对下混信号101的子带信号进行上混,获得n个对象103的对象信号601和残差信号102的子带信号的近似。可以将不同子带的JOC参数105插入位流701中以传输到相对应的解码器。
因此,SR输入信号101可以由下混信号101和JOC参数105以及对象元数据602表示(对于由下混信号101和JOC参数105描述的n个对象103)。可以对JOC下混信号101进行波形编码(例如,使用AC-4的ASF)。此外,关于波形编码信号101的数据和元数据105、602可以包含在位流701中。
将SR输入信号101转换为使用JOC编码的n个对象103和残差信号102优于初始SR输入信号101的直接联合对象译码,因为对象提取会导致能量压缩到相对较小数量的(n个)对象103(与SR输入信号101的声道的数量相比),从而提高了联合对象译码的感知质量。
图2示出了示范性解码单元或解码装置200,其可以是基于对象的译码系统700的解码单元720的一部分。解码单元200包括核心解码模块210,其被配置成对波形编码信号101进行解码以提供解码下混信号203。可以在JOC解码模块220中结合JOC参数204、105和对象元数据602来处理解码下混信号203,以提供n个重构音频对象206和/或重构残差信号205。重构残差信号205和重构音频对象206可以用于扬声器渲染230和/或耳机渲染240。可替代地或另外地,解码下混信号203可以直接用于高效和/或低复杂度渲染(例如,进行低空间分辨率渲染时)。
编码单元100可以被配置成将SR元数据201插入位流701中,其中SR元数据201可以指示SR输入信号101的声场表示格式。举例来说,可以指示高保真度立体声响复制输入信号101的阶L。解码单元200可以包括SR输出级250,其被配置成基于一或多个重构对象206并基于重构残差信号205来重构SR输入信号101,以提供重构SR信号251。
特别地,重构残差信号205和一或多个重构对象206的对象信号601可以被变换到子带域中(尤其是QMF域或基于FFT的变换域中)和/或可以在子带域中处理,并且取决于相应对象元数据602,对象信号601的子带信号可以被分配给重构SR信号251的不同声道。此外,重构残差信号205的不同声道可以被分配给重构SR信号251的不同声道。可以在子带域中进行本分配。可替代地或另外地,可以在时域中进行分配。对于分配,可以使用平移功能。因此,可以以位率有效的方式传输和重构SR输入信号101。
图3示出了另一编码单元300,所述编码单元300包括SR下混模块310,其被配置成将SR输入信号301下混为SR下混信号304,其中SR下混信号304可以对应于下混信号101(如上所述)。SR下混信号304可以例如通过从SR输入信号301选择一或多个声道来生成。举例来说,SR下混信号304可以是通过从L阶高保真度立体声响复制输入信号301的(L+1)2个声道选择L2个较低分辨率声道而生成的(L-1)阶高保真度立体声响复制信号。
此外,编码单元300可以包括对象提取模块320,其以类似于编码单元100的提取模块120的方式工作,并且被配置成从SR输入信号301导出n个对象303。n个提取对象303和/或残差信号302可以使用JOC编码模块330(以类似于JOC编码模块120的方式工作)进行编码,从而提供JOC参数305。可以确定(随频率和/或时间变化的)JOC参数305,使得可以使用JOC参数305来将SR下混信号304上混为近似于n个对象303的对象信号601和残差信号302的上混信号。换句话说,JOC参数305可以实现SR下混信号304到由n个对象303的对象信号601和残差信号302给出的多声道信号的上混。
可以基于SR输入信号301并基于n个对象303来确定残差信号302。此外,可以考虑和/或编码SR下混信号304。关于SR下混信号304、JOC参数305和/或n个对象303的对象元数据602的数据可以插入位流701中以传输到相对应的解码单元200。
相对应的解码单元200可以被配置成进行上混操作(尤其是在SR输出模块250中)以重构SR输入信号301。
因此,本文档描述了AC-4编码器/解码器,其支持B格式和/或高阶高保真度立体声响复制(HOA)的SR信号101、301的本地传递。可以修改AC-4编码器710和/或解码器720以包含对声场表示的支持,所述声场表示例如高保真度立体声响复制,包含B格式和/或HOA。在一个实例中,B格式和/或HOA内容可以被摄取到AC-4编码器710中,所述AC-4编码器710进行优化编码以生成与现有AC-4解码器720兼容的位流701。另外的信号通知(尤其是SR元数据201)可以引入位流701中,以指示编码器声场相关信息,从而实现与AC-4解码器720的B格式/HOA输出级250的确定相关的信息的检测。可以基于以下来将对AC-4中的B格式/HOA的本地支持加入到译码系统700:
i.使用信号通知能力来指示HOA输入;
ii.利用现有的译码工具,和/或
iii.在解码器侧加入HOA输出级250,以实现将接收位流701变换回用信号通知的原始HOA阶的能力。
为了使用现有的译码工具来编码/解码AC-4中的HOA内容,可以加入对内容进行预处理的信号通知机制和/或编码器模块100、300。此外,可以在解码器侧加入另外的渲染250。特别地,可以重复使用AC-4的A-JOC(高级联合对象译码)和/或波形译码工具。
在下文中,讨论了从B格式到L阶(例如,3阶)HOA信号的输入信号101、301的编码和解码场景。这些场景可能考虑
·基于A-JOC T/F(时间/频率)铺叠的从HOA信号101、301对一或多个音频对象103、303的对象提取;
·根据一或多个空间残差的表示、提取对象103、303的数量n和/或A-JOC下混信号101、304的表示的针对HOA输入信号101、301的不同阶的不同回放配置;
·对B格式输入信号101、301的HOA改进B格式表示的本地支持,以及区分渲染的能力;
·与现有解码器的向后兼容性;和/或
·HOA信号101、301的核心/完全解码。
在下文中,描述了高保真度立体声响复制信号101、301的AC-4传递。如图1中所示,作为声场表示信号101(例如,B格式高保真度立体声响复制信号)的编码过程的一部分,声场表示信号101可以使用对象提取模块110分离成床-声道-对象102(即残差信号)和/或动态对象103。此外,可以在联合对象译码(JOC)模块120中使用A-JOC译码对对象102、103进行参数化。特别地,图1示出了对象提取到A-JOC编码过程的示范性映射。
图1示出了示范性编码单元100。编码单元100接收音频输入101,所述音频输入101可以为声场格式(例如,B格式高保真度立体声响复制、ISF格式(例如,ISF 3.1.0.0或BH3.1.0.0))。音频输入101可以被提供给对象提取模块110,所述对象提取模块110输出(多声道)残差信号102和一或多个对象103。残差信号102可以为多种格式(例如,B格式、BH3.1.0.0等)中的一种。一或多个对象103可以是任意数量的(1个、2个、……、n个)对象。残差信号102和/或一或多个对象103可以被提供给确定A-JOC参数105的A-JOC编码模块120。可以确定A-JOC参数105以允许将下混信号101进行上混,以近似n个对象103的对象信号601和残差信号102。
在一个实例中,对象提取模块110被配置成从输入信号101提取一或多个对象103,所述输入信号101可以是声场表示(例如,B格式高保真度立体声响复制、ISF格式)。在一个特定实例中,B格式输入信号101(包括四个声道)可以以4.0.2.2配置(即4.0声道水平层、2声道上层和2声道下层)映射到八个静态对象(即映射到包括8个声道的残差信号102),并且可以映射到两个动态对象103,总共十个声道。不能进行特殊的LFE处理。八个静态对象可能对应于静态位置处的杜比全景声技术的八个全景声对象:水平面上的四个(在全景声正方形的四个角处),以及全景声立方体的上平面和下平面(z=1和z=-1)的侧边中点上的总共四个。如果将这些静态对象分配给床声道,则水平面的4个对象可以是L、R、LS、RS,天花板声道可以是TL、TR,并且地板声道可以是BL、BR。
在一个实例中,对象提取模块110可以进行算法,所述算法分析m=19个不同(非均匀分布)子带中的输入信号101(例如,使用时间-频率变换(例如,正交镜像滤波器(QMF)或基于FFT的变换),与子带的感知分组或分级组合),并且确定每个子带中的主要到达方向。然后,所述算法将不同子带中的主要到达方向聚类,以确定n个总体主要方向(例如,n=2),其中n个总体主要方向可以用作n个对象103的对象位置。在每个子带中,输入信号101的某一分量和/或一部分可以被转移到每个对象103,然后残差B格式分量可以用作静态对象和/或床和/或ISF流以确定残差信号102。
在较高分辨率输入信号101(例如,L阶HOA(例如,3阶HOA))的情况下,可以提取增加数量的(n个)对象103(例如,n=3、4或更多)。
如上所指示,可以在m个子带(例如,m=19个子带)中进行对象提取。如果与随后的JOC译码使用相同的T/F铺叠(即相同的时间-频率变换和/或相同的子带分组)来进行对象提取,则JOC编码器120可以利用对象提取模块110的上混矩阵,使得JOC编码器120可以将本矩阵应用于下混信号101、304(例如,表示为BH3.1.0.0的B格式信号)的协方差矩阵。
相对应的解码器可以解码并直接渲染下混信号101、304(以最小的解码复杂度)。下混信号101、304的解码和重现可以被称为“核心解码”,因为它仅以相对较低的计算复杂度来解码信号的核心表示。下混信号101、304可以是表示为BH3.1.0.0的B格式的SR信号。可替代地或另外地,解码器可以应用JOC解码器来重新生成SR输入信号101的对象提取版本,以在渲染中获得更高的空间精度。
使用B格式的残差信号102使其自身通过BH3.1.0.0ISF路径(例如,杜比全景声系统)馈送。BH3.1.0.0格式包括与(C、LS、RS、天顶)声道大致相对应的四个声道,其性质为可以通过4x4线性混合操作将这些声道无损地转换为B格式或从B格式无损地转换。BH3.1.0.0格式也可以被称为SR3.1.0.0。另一方面,如果ISF选项不可用,则算法可以使用8个静态对象(例如,4.0.2.2格式)。如果将算法更改为与L阶(例如,3阶)HOA输入配合工作,则残差信号302可以以类似4.1.2.2(或BH7.5.3.0或BH5.3.0.0)的格式表示,但是下混信号304可以被简化为例如BH3.1.0.0,以便于AC4译码。
在一个实例中,可以使用AC4和/或全景声格式来承载任何任意声场,而不管声场是否被描述为B格式、HOA、全景声、5.1、单声道。可以在任何种类的扬声器(或耳机)系统上渲染声场。
图2示出了示范性解码单元200。核心解码器210可以接收编码音频位流701,并且可以解码重构(多声道)下混信号203。在一个实例中,核心解码器210可以对重构下混信号203进行解码,并且可以基于来自编码位流701的数据来确定重构下混信号203的格式类型。例如,核心解码器210可以确定下混信号203表现出B格式或BH3.1.0.0格式。核心解码器210可以进一步提供核心解码器模式输出202,以用于渲染下混信号203(例如,经由扬声器渲染230或耳机渲染240)。
A-JOC解码器220可以接收A-JOC参数204和解码下混信号(例如,B格式信号)203。A-JOC解码器220基于下混信号203并基于JOC参数204来解码本信息以确定空间残差205和n个对象206。空间残差205可以为任何格式,例如B格式高保真度立体声响复制或BH3.1.0.0格式。在一个实例中,空间残差205是B格式高保真度立体声响复制,并且对象206的数量n为n=2。在一个实例中,第一耳机渲染器(例如,耳机渲染器240)可以对核心解码器输出B格式信号202进行操作,并且第二耳机渲染器可以对对象提取信号206和相对应的B格式残差205进行操作。例如,对于通过耳机渲染和/或当使用相对较大数量的(n个,例如n=3、4、5或更多)提取对象206时,可能不需要B格式(BH3.1.0.0)残差信号205。
在一个优选实施例中,残差信号205的尺寸(例如,声道的数量)等于或大于下混信号203的尺寸。
图3示出了用于以HOA格式(例如,优选L阶(例如,3阶)HOA)对音频输入流301进行编码的编码单元300。下混渲染器310可以接收L阶(例如,3阶)HOA音频流301,并且可以将音频流301下混为空间格式,例如B格式高保真度立体声响复制、BH3.1.0.0、4.x.2.2床等。在一个实例中,下混渲染器310将HOA信号301下混为B格式下混信号304。
对象提取模块320可以接收HOA信号,例如L阶(例如,3阶)HOA信号301。对象提取模块320可以确定空间残差302和n个对象303。在一个实例中,空间残差302为2阶HOA格式,并且对象303的数量n为n=2。A-JOC编码器330可以基于空间残差302(例如,2阶HOA残差),基于n个对象303(n=2)和/或基于B格式下混信号304来进行A-JOC编码,以确定A-JOC参数305。
如上所指示,图2示出了示范性解码单元200。解码单元200可以接收关于以下的信息201(即SR元数据):
·原始音频信号301的格式类型(例如,优选3阶HOA);
·下混信号304的格式类型;
·如果原始信号301是HOA信号,HOA元数据(例如,原始HOA信号的阶);和/或
·空间残差302的格式。
核心解码器210可以接收编码音频位流701。核心解码器210可以确定下混信号203,所述下混信号203可以为任何格式,例如B格式高保真度立体声响复制、HOA、4.x.2.2床、ISF、BH3.1.0.0等。核心解码器310可以进一步输出核心解码模式输出202,所述核心解码模式输出202可以用于直接使用下混信号203来渲染用于回放的解码音频(例如,扬声器渲染230、耳机渲染240)。
A-JOC解码器220可以利用A-JOC参数204和下混信号203(例如,优选B格式高保真度立体声响复制格式)来确定空间残差205和n个对象206。空间残差205可以为任何格式,例如HOA格式、B格式高保真度立体声响复制、ISF格式、4.x.2.2床和BH3.1.0.0。优选地,如果原始音频信号是L>2的L阶(例如,3阶)HOA信号,则空间残差205可以为2阶高保真度立体声响复制格式。n个对象406可以为2、……、n中的任何一个,优选n=2。解码器200可以包含HOA输出单元250,其在接收HOA输出251的阶和/或格式的指示之后可以将空间残差205和n个对象206处理为HOA输出251,并且可以提供HOA输出251用于音频回放。然后,可以例如经由扬声器渲染230或耳机渲染240来渲染HOA输出251。
在以上所有内容中,从解码器的角度来看,可以将信号通知加入到位流701以用信号通知原始输入301是HOA(例如,使用SR元数据201),和/或可以加入HOA输出级250,将解码信号205、206转换为用信号通知的阶的HOA信号251。HOA输出级250可以被配置成类似于扬声器渲染输出级,以所请求的HOA阶(例如,基于SR元数据201)作为解码器侧的输入。
在一个实例中,例如如果通过解码器API(应用编程接口)请求,则可以将解码信号表示变换为例如HOA输出表示。例如,VR(虚拟现实)回放系统可以请求从AC-4解码器700、200提供的所有音频以L阶(例如,3阶)HOA格式提供,而不管原始音频信号301的格式如何。
一或多个AC-4编解码器可以提供ISF支持,并且可以包含A-JOC工具。这可能需要提供相对较高阶的ISF格式作为输入信号301,并且这可能需要创建下混信号304(例如,合适的低阶ISF),所述下混信号304可以与A-JOC解码器在解码器侧重新创建更高阶的ISF所需的JOC参数305一起进行译码。这可能需要将L阶(例如,3阶)HOA输入信号301转换为合适的ISF(例如BH7.5.3.0)格式的步骤以及加入信号通知机制和HOA输出级250的步骤。输出级250可以被配置成将ISF表示转换为HOA。
在一个实例中,通过利用编码器侧的对象提取技术,与ISF表示相比,HOA信号可以被更有效地表示(即使用更小数量的信号)。内部表示和译码方案可以实现更准确地转换回HOA。可以使用编码器侧的对象提取技术来紧凑地译码并表示给定B格式输入的改进B格式信号。
在一个实例中,原始输入HOA阶可以用信号通知给HOA输出级250。在另一实例中,可以提供向后兼容性,即AC-4解码器可以被配置成提供音频输出,而不管输入信号301的类型如何。
如以上在图1的背景下所概述,除联合对象译码参数105之外,还可以在位流700中编码并提供SR输入信号101。通过这样做,使得相对应的解码器能够有效地导出(重构)音频对象206和/或(重构)残差信号206。与SR输入信号101的直接渲染相比,此些音频对象206可以实现增强渲染。因此,根据图1的编码器100允许生成位流700,所述位流700在被解码时可以产生相较于SR输入信号101(例如,一阶或更高阶的高保真度立体声响复制信号)的直接渲染的质量改进的回放。换句话说,可以由编码器100进行的对象提取110实现了质量改进的回放(尤其是空间定位有所改进)。通过这样做,可以由编码器100(而不是由解码器200)进行对象提取过程(由模块110进行),从而降低渲染装置和/或解码器的计算复杂度。
图3的编码器300通常提供改进的译码效率(与图1的编码器100相比),尤其是通过对下混信号304而非SR输入信号101进行(波形)编码。换句话说,通过使用下混模块310来减少下混信号304中的声道的数量(与SR输入信号301相比),图3的编码系统300实现了改进的译码效率(与图1的编码系统100相比),因此使译码系统能够以降低的位率操作。
图4示出了用于对描述参考位置处的声场的声场表示(SR)输入信号101、301进行编码的示范性方法400的流程图。参考位置可以是收听者的收听位置和/或麦克风的捕捉位置。SR输入信号101、301包括参考位置处的声场的多个不同到达方向的多个声道(或波形)。
SR信号,尤其是SR输入信号101、301,可以包括L阶高保真度立体声响复制信号,其中L大于或等于1。可替代地或另外地,SR信号,尤其是SR输入信号101、301,可以表现出蜂巢(BH)格式,其中多个到达方向被布置在围绕参考位置的球体上的多个不同的环中。多个环可以包括中环、上环、下环和/或天顶。可替代地或另外地,SR信号,尤其是SR输入信号101、301,可以表现出中间空间格式(ISF),尤其是杜比全景声技术中定义的ISF格式。如本文档中所概述,ISF格式可以被视为BH格式的一个特殊情况。
因此,SR输入信号101、301的多个声道的多个不同的指向性图案可以被布置在围绕参考位置的球体的多个不同的环中,其中不同的环表现出不同的仰角。如上所指示,不同的环可以包括中环、上环、下环和/或天顶。在同一环上的不同到达方向通常表现出不同的方位角,其中在同一环上的不同到达方向可以均匀地分布在环上。这是例如根据BH格式和/或ISF格式的SR信号的情况。
SR输入信号101、301的每个声道通常包括针对一系列时间点或一系列帧的一系列音频样本。换句话说,在本文档中描述的“信号”通常包括针对相对应的一系列时间点或帧(例如,以20ms或更小的时间距离)的一系列音频样本。
所述方法400包括从SR输入信号101、301提取401一或多个音频对象103、303。音频对象103、303通常包括对象信号601(具有针对相对应的一系列时间点或帧的一系列音频样本)。此外,音频对象103、303通常包括指示音频对象103、303的位置的对象元数据602。音频对象103、303的位置可以随时间而改变,使得音频对象103、303的对象元数据602可以指示针对一系列时间点或帧的一系列位置。
此外,所述方法400包括基于SR输入信号101、301并基于一或多个音频对象103、303来确定402残差信号102、302。残差信号102、302可以描述已从其提取和/或去除一或多个音频对象103、303的原始声场。残差信号102、302可以是SR信号(例如,L阶高保真度立体声响复制信号和/或使用BH和/或ISF格式的SR信号,尤其是在L=1的情况下)。可替代地或另外地,残差信号102、302可以包括或者可以是多声道音频信号和/或音频信号床。可替代地或另外地,残差信号102、302可以包括固定对象位置(location/position)处的多个音频对象(例如,被分配给限定扬声器布置的特定扬声器的音频对象)。
所述方法400可以包括将SR输入信号101、301变换到子带域中,尤其是QMF域或基于FFT的变换域中,以为多个不同子带提供多个SR子带信号。特别地,可以考虑m个不同的子带,例如其中m等于10、15、20或更大。因此,可以进行SR输入信号101、301的子带分析。子带可以表现出不均匀的宽度和/或间距。特别地,子带可以对应于从均匀时间-频率变换导出的分组子带。分组可能已使用感知度量(例如,巴克度量)来进行。
此外,所述方法400可以包括确定相对应的多个SR子带信号的多个主要到达方向。特别地,可以为每个子带确定主要DOA。可以将子带的主要DOA确定为具有最高能量(与所有其它可能的方向相比)的DOA。所述方法400可以进一步包括将多个主要到达方向聚类为n个聚类到达方向,其中n>0(尤其是n=2或更大)。可以使用已知聚类算法来进行聚类。
然后,可以基于n个聚类到达方向来提取n个音频对象103、303。因此,可以进行SR输入信号101、301的子带分析以确定SR输入信号101、301的n个聚类(主要)到达方向,其中n个聚类DOA指示由SR输入信号101、301表示的原始声场中的n个主要音频对象103、303。
所述方法400可以进一步包括将SR输入信号101、301映射到n个聚类到达方向上,以确定n个音频对象103、303的对象信号601。举例来说,SR输入信号101、301的不同声道可以被投影到n个聚类到达方向。对于n个对象中的每一个对象,可以通过混合SR输入信号的声道来导出对象信号601,以便提取表示在相对应的到达方向上的声场的信号。此外,可以分别使用n个聚类到达方向来确定n个音频对象103、303的对象元数据602。
另外,所述方法400可以包括:对于多个子带中的每一个子带,从SR子带信号减去n个音频对象103、303的对象信号601的子带信号,以为多个子带提供多个残差子带信号。然后,可以基于多个残差子带信号来确定残差信号102、302。因此,可以在子带(尤其是QMF或基于FFT的变换域)中以精确的方式确定残差信号102、302。
此外,所述方法400包括基于一或多个音频对象103、303并基于残差信号102、302来生成403位流701。位流701可以使用基于对象的译码系统700的语法。特别地,位流701可以使用AC-4语法。
因此,描述了一种方法400,其尤其是使用基于对象的译码方案来实现SR输入信号101、301的位率有效传输和高质量编码。
所述方法400可以包括残差信号102、302的波形译码以提供残差数据。可以基于残差数据来以位率有效的方式生成位流701。
所述方法400可以包括一或多个音频对象103、303和/或残差信号102、302的联合译码。特别地,一或多个音频对象103、303的对象信号601可以与残差信号102、302的一或多个声道一起联合译码。为此,可以使用联合对象译码(JOC),尤其是A-JOC。一或多个音频对象103、303的对象信号601和残差信号102、302的一或多个声道的联合对象译码可以涉及利用不同信号之间的相关性和/或可以涉及将不同信号下混为下混信号。此外,联合译码可以涉及提供联合译码参数,其中联合译码参数可以使得下混信号能够上混为一或多个音频对象103、303的对象信号601和残差信号102、302的一或多个声道的近似。位流701可以包括在联合译码的背景下生成的数据,尤其是在JOC的背景下生成的数据。特别地,位流701可以包括联合译码参数和/或关于下混信号的数据。通过进行一或多个音频对象103、303和/或残差信号102、302的联合译码,可以改进译码方案的感知质量和位率效率。
一或多个音频对象103、303和/或残差信号102、302的联合译码可以被视为从下混信号到具有增加数量的声道和/或对象的信号的参数控制的与时间和/或频率相关的上混。下混信号可以是SR下混信号304(例如,在图3的背景下概述)和/或SR输入信号101(例如,在图1的背景下概述)。上混过程可以由联合译码参数,尤其是JOC参数,来控制。
在方法400的背景下,可以提取多个音频对象103、303(尤其是n=2、3或更多个音频对象103、303)。所述方法400可以包括对多个音频对象103、303进行联合对象译码(JOC),尤其是A-JOC。然后,可以基于在多个音频对象103、303的联合对象译码的背景下生成的数据以特别是位率有效的方式来生成位流701。
特别地,所述方法400可以包括基于SR输入信号101、301来生成和/或提供下混信号101、304。下混信号101、304的声道的数量通常小于SR输入信号101、301的声道的数量。此外,所述方法400可以包括确定联合译码参数105、305,尤其是JOC参数,这实现了将下混信号101、301上混为相对应的一或多个音频对象103、303的一或多个重构音频对象206的对象信号601。此外,联合译码参数105、305,尤其是JOC参数,可以使下混信号101、301上混为相对应的残差信号102、302的重构残差信号205。
联合译码参数,尤其是JOC参数,可以包括上混数据,尤其是上混矩阵,这实现了将下混信号101、304上混为一或多个重构音频对象206的对象信号601和/或重构残差信号205。可替代地或另外地,联合译码参数,尤其是JOC参数,可以包括解相关数据,所述解相关数据实现了一或多个音频对象103、303的对象信号601和/或残差信号102、302的协方差的重构。
对于联合译码,尤其是对于联合对象译码,可以将一或多个音频对象103、303的对象信号601变换到子带域中,尤其是变换到QMF域或基于FFT的变换域中,以为每个对象信号601提供多个子带信号。此外,可以将残差信号102、302变换到子带域中。然后,可以基于一或多个对象信号601和/或残差信号102、302的子带信号来以精确的方式确定联合译码参数105、305,尤其是JOC参数。因此,可以确定随频率变化的联合译码参数105、305,尤其是JOC参数,以便基于下混信号101、304来精确地重构一或多个对象103、303的对象信号601和/或残差信号102、302。
可以基于下混信号101、304和/或基于联合译码参数105、305,尤其是JOC参数,来生成位流701。特别地,所述方法400可以包括对下混信号101、304进行波形译码以提供下混数据,并且可以基于下混数据来生成位流701。
所述方法400可以包括将SR输入信号301下混为SR下混信号304(其可以是上述下混信号101、304)。当处理HOA输入信号301,即L>1的L阶高保真度立体声响复制信号时,特别地可以使用下混。下混SR输入信号301可以包括为SR下混信号304选择SR输入信号301的多个声道的子集。特别地,可以选择声道的子集,使得SR下混信号304是SR输入信号301的低于L阶的高保真度立体声响复制信号。位流701可以基于SR下混信号304来生成。特别地,描述SR下混信号304的SR下混数据可以包含在位流701中。通过进行SR输入信号301的下混,可以改进译码方案的位率效率。
可以基于一或多个音频对象103、303来确定残差信号102、302。特别地,可以通过从SR输入信号101、301减去和/或去除一或多个音频对象103、303来确定残差信号102、302。因此,可以提供残差信号102、302,这实现了在相对应的解码器200处的SR输入信号101、301的改进重构。
可以确定联合译码参数105、305,尤其是JOC参数,以便实现将SR下混信号304上混为一或多个音频对象103、303的对象信号601和残差信号102、302。换句话说,一或多个音频对象103、303的对象信号601和残差信号102、302可以被(组合)视为多声道上混信号,所述上混信号可以使用由联合译码参数105、305(尤其是JOC参数)定义的上混操作从SR下混信号304(单独)获得。联合译码参数105、305,尤其是JOC参数,通常是随时间变化的和/或随频率变化的。可以使解码器200(仅)使用来自位流701的数据来重构一或多个对象103、303的对象信号601和残差信号102、302,所述数据与SR下混信号304和联合译码参数105、305(尤其是JOC参数)有关。
位流701可以包括关于SR下混信号304、联合译码或JOC参数105、305和一或多个对象103、303的对象元数据602的数据。本数据对于解码器200而言足以重构一或多个音频对象103、303和残差信号102、302。
所述方法400可以包括将指示SR输入信号101、301的格式(例如,BH格式和/或ISF格式)和/或声道的数量的SR元数据201插入位流701中。通过这样做,实现了在相对应的解码器200处的SR输入信号101、301的改进重构。
图5示出了用于对指示表示参考位置处的声场的声场表示(SR)输入信号101、301的位流701进行解码的示范性方法500的流程图。SR输入信号101、301包括参考位置处的声场的相对应多个不同到达方向的多个声道。在编码方法400的背景下和/或在编码装置100、300的背景下描述的方面和/或特征也可以类似和/或互补的方式应用于解码方法500和/或解码装置200(且反之亦然)。
所述方法500可以包括从位流701导出501一或多个重构音频对象206。如上所指示,音频对象206通常包括对象信号601和指示音频对象206的(随时间变化的)位置的对象元数据602。此外,所述方法500包括从位流701导出502重构残差信号205。一或多个重构音频对象206和重构残差信号205可以描述和/或可以指示SR输入信号101、301。特别地,可以从位流701提取数据,这实现了重构SR信号251的确定,其中重构SR信号251是原始输入SR信号101、301的近似。
另外,所述方法包括从位流701导出503指示SR输入信号101、301的格式和/或声道的数量的SR元数据201。通过提取SR元数据201,可以以精确的方式生成重构SR信号251。
所述方法500可以进一步包括基于一或多个重构音频对象206,基于重构残差信号205和基于SR元数据201来确定SR输入信号101、301的重构SR信号251。为此,一或多个重构音频对象206的对象信号601可以被变换到子带域中或可以在子带域(尤其是QMF域或基于FFT的变换域)中处理。此外,重构残差信号205可以被变换到子带域中或可以在子带域中处理。然后,可以基于子带域中的对象信号601和重构残差信号205的子带信号来以精确的方式确定SR输入信号101、301的重构SR信号251。
位流701可以包括指示重构下混信号203的下混数据。此外,位流701可以包括联合译码或JOC参数204。所述方法500可以包括使用联合译码或JOC参数204来对重构下混信号203进行上混,以提供一或多个重构音频对象206的对象信号601和/或提供重构残差信号205。因此,可以使用联合译码或JOC(尤其是A-JOC)来以位率有效的方式提供重构音频对象206和/或残差信号205。
在联合音频译码的背景下,所述方法500可以包括将重构下混信号203变换到子带域(尤其是QMF域或基于FFT的变换域)中,以提供多个下混子带信号203。可替代地,可以直接在子带域中处理重构下混信号203。可以进行使用JOC参数204的多个下混子带信号203的上混,以提供多个重构音频对象206。因此,可以在子带域中进行联合对象解码,从而提高联合对象译码的关于位率和感知质量的性能。
重构残差信号205可以是包括声道比SR输入信号101、301的重构SR信号251少的SR信号。可替代地或另外地,位流701可以包括指示SR下混信号304的数据,其中与重构SR信号251相比,SR下混信号304包括减少数量的声道。可以使用所述数据来生成与SR下混信号304相对应的重构SR下混信号203。
所述方法500可以包括将重构残差信号205和/或重构SR下混信号上混为重构SR信号251的声道的数量。此外,可以使用一或多个重构音频对象206的对象元数据602来将一或多个重构音频对象206映射到重构SR信号251的声道。因此,可以生成重构SR信号251,其以精确的方式近似于原始SR输入信号101、301。
位流701可以包括指示重构残差信号205和/或重构SR下混信号203的波形编码数据。所述方法500可以包括对波形编码数据进行波形解码以提供重构残差信号205和/或重构SR下混信号203。
此外,所述方法500可以包括使用一或多个渲染600来渲染一或多个重构音频对象206和/或重构残差信号205和/或重构SR信号251。可替代地或另外地,重构SR下混信号203可以以特别有效的方式渲染。
此外,描述了编码装置100、300,其被配置成对描述参考位置处的声场的声场表示(SR)输入信号101、301进行编码。SR输入信号101、301包括参考位置处的声场的多个不同指向性图案的多个声道。
编码装置100、300被配置成从SR输入信号101、301提取一或多个音频对象103、303。此外,编码装置100、300被配置成基于SR输入信号101、301并基于一或多个音频对象103、303来确定残差信号102、302。此外,编码装置100、300被配置成基于一或多个音频对象103、303并基于残差信号102、302来生成位流701。
此外,描述了解码装置200,其被配置成对指示描述参考位置处的声场的声场表示(SR)输入信号101、301的位流701进行解码。SR输入信号101、301包括参考位置处的声场的多个不同指向性图案的多个声道。
解码装置200被配置成从位流701导出一或多个重构音频对象206,并且从位流701导出重构残差信号205。此外,解码装置200被配置成从位流701导出指示SR输入信号101、301的格式和/或声道的数量的SR元数据201。
本文描述的编码器/解码器(例如,解码模块210和/或编码单元100和300的编码)可以符合当前和未来版本的标准(例如,AC-4标准、MPEG AAC标准、增强语音服务(EVS)标准、HE-AAC标准等),以支持高保真度立体声响复制内容(包含高阶高保真度立体声响复制(HOA)内容)。
在下文中,描述了编码方法400和/或解码方法500的列举实例(EE)。
EE1、描述了一种用于编码音频信号101、103的声场表示的方法400,其中所述方法400包括:
-接收所述音频信号101、103的声场表示;
-基于所述声场表示来确定n个对象103、303;
-基于所述声场表示来确定空间残差102、302;
-使用A-JOC编码器120、330来对所述n个对象103、303和所述空间残差102、302进行编码以确定A-JOC参数105、305;
-在位流701中输出所述编码A-JOC参数105、305。
EE2、根据EE 1所述的方法400,其中所述声场的格式是ISF、B格式或HOA中的一种。
EE3、根据EE 1所述的方法400,其中将所述声场表示的格式用信号通知给解码器200(例如,使用SR元数据201)。
EE4、根据EE 1所述的方法400,其中当所述格式为L>1的L阶HOA时,所述编码器100、300进一步包括下混模块310,其用于将所述L阶HOA下混为B格式高保真度立体声响复制并将所述下混B格式高保真度立体声响复制提供给所述A-JOC编码器330以进行编码。
EE5、根据EE 4所述的方法400,其中L阶=3阶。
EE6、根据EE 1所述的方法400,其中n=2。
EE7、根据EE 1所述的方法400,其中所述空间残差102、302的格式是ISF、B格式、HOA或4.x.2.2床中的一种。
EE8、根据EE 1所述的方法400,其中所述空间残差102、302的格式是B格式。
EE9、根据EE 1所述的方法400,其中所述对象提取包含
-分析m个子带中的所述音频,并且确定每个子带中的主要到达方向;
-将所述子带结果聚类以确定n个主要方向,所述主要方向成为所述对象位置;
-在每个子带中,将所述信号101、301的分量转移到每个对象103、303,然后将所述残差B格式分量作为静态/对象/床/ISF流传递通过。
EE10、根据EE 9所述的方法400,其中m=19并且n=2。
EE11、一种用于对编码音频流701进行解码的方法500,其包括:
-接收具有指示201的所述编码音频流701,其中所述指示201为所述原始音频101、301具有声场表示;
-对所述编码音频流701进行核心解码以确定下混信号203;和
-对所述下混信号203进行A-JOC解码以确定空间残差205和n个对象206;
-渲染所述空间残差205和n个对象206以用于音频回放。
EE12、根据EE 11所述的方法500,其进一步包括接收所述下混信号203的格式的指示201。
EE13、根据EE 11所述的方法500,其中所述下混信号203的格式是B格式、ISF和4.x.2.2床格式中的一种。
EE14、根据EE 11所述的方法500,其中基于所述编码音频流701具有L阶HOA格式的指示201,所述核心解码包括将L阶HOA下混为B格式高保真度立体声响复制表示。
EE15、根据EE 11所述的方法500,其进一步包括接收所述原始音频信号101、301的格式的指示201。
EE16、根据EE 15所述的方法500,其中所述格式是3阶HOA格式。
EE17、根据EE 15所述的方法500,其中当所述原始音频信号101、301的格式的指示指示所述信号是HOA音频信号时,所述解码进一步包含HOA输出级250,其用于基于HOA元数据201、所述空间残差205和所述n个对象206来确定HOA信号251。
EE18、根据EE 17所述的方法500,其中所述HOA元数据201指示所述原始音频信号101、301的HOA阶。
EE19、根据EE 11所述的方法500,其进一步包括接收对象的数量n的指示201。
EE20、根据EE 11所述的方法500,其中n=2。
EE21、根据EE 11所述的方法500,其进一步包括接收所述空间残差205的格式的指示201。
EE22、根据EE 11所述的方法500,其中所述空间残差205的格式是2阶HOA、B格式高保真度立体声响复制、ISF格式(例如,BH3.1.0.0.)和4.x.2.2床中的一种。
EE23、根据EE 11所述的方法500,其中所述渲染包括耳机渲染、扬声器渲染中的一种。
本发明的各个示范性实施例可以在硬件或专用电路、软件、逻辑或其任何组合中实施。一些方面可以在硬件中实施,而其它方面可以在可以由控制器、微处理器或其它计算装置执行的固件或软件中实施。一般而言,本公开被理解为还涵盖适合于进行上述方法的设备,例如具有存储器和耦合到存储器的处理器的设备(空间渲染器),其中所述处理器被配置成执行指令并且进行根据本公开的实施例的方法。
尽管将本发明的示范性实施例的各个方面示出并描述为框图、流程图或使用一些其它图形表示,但是应理解,本文所述的框、设备、系统、技术或方法可以在作为非限制性实例的硬件、软件、固件、专用电路或逻辑、通用硬件或控制器、或其它计算装置或其一些组合中实施。
另外,流程图中示出的各个框可以被视为方法步骤,和/或由于计算机程序代码的操作而产生的操作,和/或被构造成执行相关的一或多个功能的多个耦合逻辑电路元件。例如,本发明的实施例包含一种计算机程序产品,其包括有形地体现在机器可读媒体上的计算机程序,其中所述计算机程序含有被配置成执行上述方法的程序代码。
在本公开的背景下,机器可读媒体可以是任何有形媒体,其可以含有或存储由指令执行系统、设备或装置使用或与其组合使用的程序。机器可读媒体可以是机器可读信号媒体或机器可读存储媒体。机器可读媒体可以包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述的任何合适组合。机器可读存储媒体的更具体的实例将包含具有一或多个电线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程读取器只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述的任何合适组合。
可以以一或多种编程语言的任何组合来编写用于执行本发明的方法的计算机程序代码。可以将这些计算机程序代码提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器,以使得所述程序代码在由计算机或其它可编程数据处理设备的处理器执行时实施流程图和/或框图中指定的功能/操作。程序代码可以完全在计算机上执行,部分在计算机上执行,作为独立软件包执行,部分在计算机上且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。
此外,尽管以特定顺序描绘了操作,但是这不应被理解为要求以所示出的特定顺序或以先后顺序执行此些操作或者进行所有示出的操作以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。同样,尽管以上讨论中含有若干具体的实施细节,但是这些不应被解释为对任何发明或可能要求保护的内容的范围的限制,而应被解释为对特定发明的特定实施例专有的特征的描述。在不同的实施例的背景下在本说明书中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的背景下描述的各个特征也可以分别在多个实施例中或任何合适的子组合中实施。
应注意,说明书和附图仅示出了所提出的方法和设备的原理。因此,将理解,本领域技术人员将能够设计出未在本文中明确描述或示出但可体现本发明的原理并包含在其精神和范围内的各种布置。此外,本文中叙述的所有实例主要明确地旨在仅用于教学目的以帮助读者理解所提出的方法和设备的原理以及发明人为进一步发展本领域所贡献的构思,并且应被解释为不限于此些具体叙述的实例和条件。此外,本文中叙述本发明的原理、方面和实施例及其具体实例的所有陈述旨在涵盖其等同内容。

Claims (18)

1.一种用于对描述参考位置处的声场的声场表示(SR)输入信号(101,301)进行编码的方法(400);其中所述SR输入信号(101,301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道;其中所述方法(400)包括,
-从所述SR输入信号(101,301)提取(401)一或多个音频对象(103,303);其中音频对象(103,303)包括对象信号(601)和指示所述音频对象(103,303)的位置的对象元数据(602);
-基于所述SR输入信号(101,301)并基于所述一或多个音频对象(103,303)来确定(402)残差信号(102,302);
-将所述SR输入信号(301)下混为SR下混信号(101,304);
-进行所述一或多个音频对象(103,303)和所述残差信号(102,302)的联合对象译码以确定联合对象译码参数,用于实现将所述SR下混信号上混为与所述一或多个音频对象(103,303)相对应的一或多个重构音频对象(206)和与所述残差信号相对应的重构残差信号;和
-基于所述SR下混信号和所述联合对象译码参数来生成(430)位流(701),
其中所述方法(400)包括将指示所述SR输入信号(101,301)的格式和/或声道的数量的SR元数据(201)插入所述位流(701)中。
2.根据权利要求1所述的方法(400),其中
-所述方法(400)包括所述下混信号(101,304)的波形译码以提供下混数据;并且
-基于所述下混数据来生成所述位流(701)。
3.根据权利要求1或权利要求2所述的方法(400),其中所述联合对象译码参数(105,305),包括
-上混数据,其实现将所述下混信号(101,304)上混为所述一或多个重构音频对象(206)和所述重构残差信号(205);和/或
-解相关数据,其实现所述一或多个音频对象(103,303)和所述残差信号(102,302)的协方差的重构。
4.根据权利要求3所述的方法(400),其中所述上混数据包括上混矩阵。
5.根据权利要求1或权利要求2所述的方法(400),其中所述方法(400)包括
-将所述一或多个音频对象(103,303)的对象信号(601)变换到子带域中,以为每个对象信号(601)提供多个子带信号;和
-基于所述多个对象信号(601)的所述子带信号来确定所述联合对象译码参数(105,305)。
6.根据权利要求5所述的方法(400),其中所述子带域包括QMF域或基于FFT的变换域。
7.根据权利要求1或权利要求2所述的方法(400),其中
-所述残差信号(102,302)包括多声道音频信号和/或音频信号床;和/或
-所述残差信号(102,302)包括固定对象位置处的多个音频对象;和/或
-所述残差信号(102,302)包括SR信号。
8.根据权利要求7所述的方法(400),其中所述SR信号包括一阶高保真度立体声响复制信号。
9.根据权利要求1或权利要求2所述的方法(400),其中所述方法(400)包括
-将所述SR输入信号(101,301)变换到子带域中,以为多个不同子带提供多个SR子带信号;
-确定所述相对应的多个SR子带信号的多个主要到达方向;
-将所述多个主要到达方向聚类为n个聚类到达方向,其中n>0;和
-基于所述n个聚类到达方向来提取n个音频对象(103,303)。
10.根据权利要求9所述的方法(400),其中所述子带域包括QMF域或基于FFT的变换域。
11.根据权利要求9所述的方法(400),其中所述方法(400)包括
-将所述SR输入信号(101,301)映射到所述n个聚类到达方向上,以确定所述n个音频对象(103,303)的所述对象信号(601);和/或
-使用所述n个聚类到达方向来确定所述n个音频对象(103,303)的所述对象元数据(602)。
12.根据权利要求9所述的方法(400),其中所述方法(400)包括
-在所述多个子带中的每个子带中,从所述SR子带信号减去所述n个音频对象(103,303)的所述对象信号(601)的子带信号,以为所述多个子带提供多个残差子带信号;和
-基于所述多个残差子带信号来确定所述残差信号(102,302)。
13.根据权利要求1或权利要求2所述的方法(400),其中
-下混所述SR输入信号(301)包括为所述SR下混信号(304)选择所述SR输入信号(301)的所述多个声道的子集;和/或
-所述SR输入信号(301)是L阶高保真度立体声响复制信号,其中L>1,并且所述SR下混信号(304)是低于L阶的高保真度立体声响复制信号。
14.根据权利要求1或权利要求2所述的方法(400),其中
-所述SR输入信号(101,303)的所述多个声道的所述多个不同指向性图案被布置在围绕所述参考位置的球体的多个不同的环中;
-所述不同的环表现出不同的仰角;
-同一环上的不同到达方向表现出不同的方位角;和/或
-同一环上的不同到达方向均匀地分布在所述环上。
15.根据权利要求1或权利要求2所述的方法(400),其中
-所述SR输入信号(101,301)包括L阶高保真度立体声响复制信号,其中L大于或等于1;
-所述SR输入信号(101,301)表现出蜂巢格式,其中所述多个指向性图案被布置在围绕所述参考位置的多个不同的环中;和/或
-所述SR输入信号(101,301)表现出中间空间格式ISF。
16.根据权利要求1或权利要求2所述的方法(400),其中所述SR输入信号(101,303)的每个声道包括针对一系列帧的一系列音频样本。
17.根据权利要求1或权利要求2所述的方法(400),其中
-所述位流(701)使用AC-4语法;和/或
-基于符合选自以下的标准的编码来生成所述位流(701):AC-4标准、MPEG AAC标准、增强语音服务EVS标准和/或HE-AAC标准。
18.一种编码装置(100,300),其被配置成对描述参考位置处的声场的声场表示(SR)输入信号(101,301)进行编码;其中所述SR输入信号(101,301)包括所述参考位置处的所述声场的多个不同指向性图案的多个声道;其中所述编码装置(100,300)被配置成
-从所述SR输入信号(101,301)提取一或多个音频对象(103,303),其中音频对象(103,303)包括对象信号(601)和指示所述音频对象(103,303)的位置的对象元数据(602);
-基于所述SR输入信号(101,301)并基于所述一或多个音频对象(103,303)来确定残差信号(102,302);
-将所述SR输入信号下混为SR下混信号;
-进行所述一或多个音频对象和所述残差信号的联合对象译码以确定联合对象译码参数,用于实现将所述SR下混信号上混为与所述一或多个音频对象(103,303)相对应的一或多个重构音频对象(206)和与所述残差信号相对应的重构残差信号;
-基于所述SR下混信号和所述联合对象译码参数来生成位流(701),其中指示所述SR输入信号(101,301)的格式和/或声道的数量的SR元数据(201)插入所述位流(701)中。
CN201980009156.7A 2018-01-18 2019-01-17 用于译码声场表示信号的方法和装置 Active CN111630593B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862618991P 2018-01-18 2018-01-18
US62/618,991 2018-01-18
PCT/US2019/014090 WO2019143867A1 (en) 2018-01-18 2019-01-17 Methods and devices for coding soundfield representation signals

Publications (2)

Publication Number Publication Date
CN111630593A CN111630593A (zh) 2020-09-04
CN111630593B true CN111630593B (zh) 2021-12-28

Family

ID=65352144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980009156.7A Active CN111630593B (zh) 2018-01-18 2019-01-17 用于译码声场表示信号的方法和装置

Country Status (5)

Country Link
US (1) US11322164B2 (zh)
EP (1) EP3740950B8 (zh)
JP (1) JP6888172B2 (zh)
CN (1) CN111630593B (zh)
WO (1) WO2019143867A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112019003358T5 (de) * 2018-07-02 2021-03-25 Dolby International Ab Verfahren und vorrichtung zum codieren und/oder decodieren immersiver audiosignale
KR20220044204A (ko) 2019-07-30 2022-04-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 분산형 오디오 디바이스들을 위한 음향 반향 소거 제어
US11514921B2 (en) * 2019-09-26 2022-11-29 Apple Inc. Audio return channel data loopback
TWI812874B (zh) 2019-10-01 2023-08-21 美商杜拜研究特許公司 張量乘積之b平滑曲線預測子
WO2024175587A1 (en) * 2023-02-23 2024-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal representation decoding unit and audio signal representation encoding unit

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422348A (zh) * 2009-05-08 2012-04-18 弗兰霍菲尔运输应用研究公司 音频格式转码器
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100818268B1 (ko) * 2005-04-14 2008-04-02 삼성전자주식회사 오디오 데이터 부호화 및 복호화 장치와 방법
CA2669091C (en) * 2006-11-15 2014-07-08 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
KR101566025B1 (ko) * 2007-10-22 2015-11-05 한국전자통신연구원 다객체 오디오 부호화 및 복호화 방법과 그 장치
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
KR101388901B1 (ko) * 2009-06-24 2014-04-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
KR101697550B1 (ko) * 2010-09-16 2017-02-02 삼성전자주식회사 멀티채널 오디오 대역폭 확장 장치 및 방법
JP6088444B2 (ja) * 2011-03-16 2017-03-01 ディーティーエス・インコーポレイテッドDTS,Inc. 3次元オーディオサウンドトラックの符号化及び復号
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
EP2805326B1 (en) * 2012-01-19 2015-10-14 Koninklijke Philips N.V. Spatial audio rendering and encoding
JP6045696B2 (ja) * 2012-07-31 2016-12-14 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
KR102050455B1 (ko) * 2012-08-10 2019-12-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 오디오 오브젝트 코딩을 위한 잔류 개념을 이용하는 인코더, 디코더, 시스템 및 방법
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2782094A1 (en) 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9666198B2 (en) * 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830052A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US9807538B2 (en) 2013-10-07 2017-10-31 Dolby Laboratories Licensing Corporation Spatial audio processing system and method
US9779739B2 (en) * 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
WO2016182371A1 (ko) 2015-05-12 2016-11-17 엘지전자 주식회사 방송 신호 송신 장치, 방송 신호 수신 장치, 방송 신호 송신 방법, 및 방송 신호 수신 방법
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422348A (zh) * 2009-05-08 2012-04-18 弗兰霍菲尔运输应用研究公司 音频格式转码器
CN105336335A (zh) * 2014-07-25 2016-02-17 杜比实验室特许公司 利用子带对象概率估计的音频对象提取

Also Published As

Publication number Publication date
WO2019143867A1 (en) 2019-07-25
US20210050022A1 (en) 2021-02-18
EP3740950A1 (en) 2020-11-25
EP3740950B8 (en) 2022-05-18
JP6888172B2 (ja) 2021-06-16
CN111630593A (zh) 2020-09-04
US11322164B2 (en) 2022-05-03
EP3740950B1 (en) 2022-04-06
JP2021507314A (ja) 2021-02-22

Similar Documents

Publication Publication Date Title
CN111630593B (zh) 用于译码声场表示信号的方法和装置
US11682403B2 (en) Decoding of audio scenes
EP3005357B1 (en) Performing spatial masking with respect to spherical harmonic coefficients
US9478228B2 (en) Encoding and decoding of audio signals
JP7516251B2 (ja) 没入的オーディオ信号をエンコードおよび/またはデコードするための方法および装置
WO2015175998A1 (en) Spatial relation coding for higher order ambisonic coefficients
CN108141688B (zh) 从以信道为基础的音频到高阶立体混响的转换

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant