CN118077000A - 使用复数数据的音频处理方法及用于执行该方法的装置 - Google Patents

使用复数数据的音频处理方法及用于执行该方法的装置 Download PDF

Info

Publication number
CN118077000A
CN118077000A CN202280067405.XA CN202280067405A CN118077000A CN 118077000 A CN118077000 A CN 118077000A CN 202280067405 A CN202280067405 A CN 202280067405A CN 118077000 A CN118077000 A CN 118077000A
Authority
CN
China
Prior art keywords
signal
complex
synthesis
fdns
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280067405.XA
Other languages
English (en)
Inventor
白承权
成锺模
李泰辰
林宇泽
张仁瑄
赵炳澔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020220173938A external-priority patent/KR20230091045A/ko
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Priority claimed from PCT/KR2022/020434 external-priority patent/WO2023113490A1/ko
Publication of CN118077000A publication Critical patent/CN118077000A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

公开了一种音频信号处理装置和方法。根据一个实施例的音频信号处理装置包括:接收器,用于接收与压缩音频信号对应的比特流;以及处理器,对比特流的实数数据或比特流的复数数据执行反量化以生成实数重构信号或复数重构信号,对实数重构信号或复数重构信号执行实数频域噪声整形(FDN S)合成以生成实数FDNS合成的结果或复数FDNS合成的结果,并且对实数FDNS合成结果或复数FDNS合成结果执行频率到时间变换以生成重构音频信号。

Description

使用复数数据的音频处理方法及用于执行该方法的装置
技术领域
以下描述涉及用于处理音频信号的设备和方法。
背景技术
音频编码是用于压缩音频信号并发送压缩的音频信号的技术。音频编码经过几代的发展,压缩性能已得到改善。
第一代运动图像专家组(MPEG)的音频编码技术是通过基于人类心理声学模型设计量化器并压缩数据以最小化声音质量的感知损失而开发的。
第二代MPEG-2高级音频编码(AAC)的音频编码技术具有一些结构约束,其需要组合正交镜像滤波器组(QMF)和修改的离散余弦变换(MDCT)的变换混合频率的过程,以便提供与现有层的向后兼容性。
作为第三代MPEG音频编码技术的MPEG-4参数编码技术已经在低比特率下实现了显著的可压缩性,但是仍然需要AAC 128kbps来提供高声音质量。
已经开发了作为第四代MPEG音频编码技术的统一语音和音频编码(USAC)技术,以改善先前在MPEG中未处理的低比特率音频的声音质量。
发明内容
技术解决方案
根据实施例的一种音频信号处理设备包括:接收器,被配置为接收与压缩音频信号对应的比特流;以及处理器。处理器可以被配置为通过对比特流的实数数据或比特流的复数数据执行反量化来生成实数恢复信号或复数恢复信号,通过对实数恢复信号或复数恢复信号执行频域噪声整形(FDNS)合成来生成实数FDNS合成的结果或复数FDNS合成的结果,并且通过对实数FDNS合成的结果或复数FDNS合成的结果执行频率到时间变换来生成恢复音频信号。
处理器可以被配置为通过基于相同的缩放因子对实数数据和复数数据执行反量化来生成复数恢复信号。
处理器可以被配置为通过基于第一开关控制信号控制第一开关来对复数恢复信号执行时间噪声整形(TNS)合成或FDNS合成。
当复数恢复信号是TNS残差信号时,处理器可以被配置为对复数恢复信号执行TNS合成,并对TNS合成的结果执行FDNS合成。
当复数恢复信号是FDNS残差信号时,处理器被配置为对复数恢复信号执行复数FDNS合成。
处理器可以被配置为通过基于第二开关控制信号控制第二开关来对比特流执行复数反量化或实数反量化。
处理器可以被配置为对频率到时间变换的结果执行切换补偿。
处理器可以被配置为确定频率到时间变换的结果的与当前帧对应的信号是否为时域混叠(TDA)信号,并且基于确定所述信号是否为TDA信号的结果来执行重叠相加。
处理器可以被配置为确定频率到时间变换的结果的与先前帧对应的信号是否为TDA信号,并基于确定与先前帧对应的信号是否为TDA信号的结果来执行重叠相加。
根据实施例的一种处理音频信号的方法可以包括:接收与压缩音频信号对应的比特流,通过对比特流的实数数据或比特流的复数数据执行反量化来生成实数恢复信号或复数恢复信号,通过对实数恢复信号或复数恢复信号执行频域噪声整形(FDNS)合成来生成实数FDNS合成的结果或复数FDNS合成的结果,以及通过对实数FDNS合成的结果或复数FDNS合成的结果执行频率到时间变换来生成恢复音频信号。
生成实数恢复信号或复数恢复信号可以包括通过基于相同的缩放因子对实数数据和复数数据执行反量化来生成复数恢复信号。
生成实数FDNS合成的结果或复数FDNS合成的结果可以包括通过基于第一开关控制信号控制第一开关来对复数恢复信号执行时间噪声整形(TNS)合成或FDNS合成。
对复数恢复信号执行TNS合成或FDNS合成可以包括:当复数恢复信号是TNS残差信号时,对复数恢复信号执行TNS合成,并对TNS合成的结果执行FDNS合成。
生成实数FDNS合成的结果或复数FDNS合成的结果可以包括:当复数恢复信号是FDNS残差信号时,对复数恢复信号执行复数FDNS合成。
生成实数恢复信号或复数恢复信号可以包括通过基于第二开关控制信号控制第二开关来对比特流执行复数反量化或实数反量化。
音频信号处理方法还可以包括对频率到时间变换的结果执行切换补偿。
执行切换补偿可以包括:确定频率到时间变换的结果的与当前帧对应的信号是否为时域混叠(TDA)信号,以及基于确定所述信号是否为TDA信号的结果来执行重叠相加。
基于确定所述信号是否是TDA信号的结果执行重叠相加可包括:确定频率到时间变换的结果的与先前帧对应的信号是否为TDA信号,以及基于确定与先前帧对应的信号是否为TDA信号的结果来执行重叠相加。
根据另一实施例的一种音频信号处理设备可以包括被配置为接收音频信号的接收器和处理器。处理器可以被配置为通过对音频信号执行时间到频率变换来生成实数变换频谱或复数变换频谱,通过对实数变换频谱或复数变换频谱执行频域噪声整形(FDNS)分析来生成实数残差信号或复数残差信号,并且通过对实数残差信号或复数残差信号执行量化来生成与压缩音频信号对应的比特流。
附图说明
图1是示出根据实施例的音频处理系统的框图。
图2是图1所示的编码器的示意性框图。
图3是图1所示的解码器的示意性框图。
图4是图2中所示的编码器的另一示例。
图5是示出复数时间噪声整形(TNS)增益的曲线图的示例。
图6是示出复数TNS增益的曲线图的另一示例。
图7是图3中所示的解码器的实施方式的示例。
图8是示出图7所示的切换补偿操作的图。
图9是重叠相加操作的示例。
图10是重叠相加操作的另一示例。
图11是示出量化处理的图。
图12是示出反量化处理的图。
图13是音频处理设备的性能的示例。
图14是音频处理设备的性能的另一示例。
图15是图1所示的解码器的操作的流程图。
具体实施方式
示例的以下结构或功能描述仅旨在用于描述示例的目的,并且示例可以以各种形式实现。这里,示例不被解释为限制本公开,并且应当被理解为包括本公开的构思和技术范围内的所有改变、等同物和替换。
本文可以使用诸如第一、第二等术语来描述各种组件。这些术语中的每一个不用于定义相应组件的本质、顺序或序列,而是仅用于将相应组件与其他组件区分开。例如,第一组件可以被称为第二组件,并且类似地,第二组件也可以被称为第一组件。
应当注意,如果描述了一个组件被“连接”、“耦接”或“接合”到另一组件,则第一组件可以被直接连接、耦接或接合到第二组件,也可以在第一组件与第二组件之间“连接”、“耦接”和“接合”第三组件。
单数形式旨在也包括复数形式,除非上下文另有明确说明。如本文所使用的,“A或B”、“A和B中的至少一个”、“A或B中的至少一个”、“A、B或C”、“A、B和C中的至少一个”和“A、B或C中的至少一个”,其中的每一个可以包括在相应的一个短语中一起列出的项目中的任何一个,或其所有可能的组合。将进一步理解,当在本文中使用时,术语“包括/包含有”和/或“包含/包括有”指定所述特征、整数、操作、操作、元件和/或组件的存在,但不排除一个或多个其他特征、整数、操作、操作、元件、组件和/或其组的存在或添加。
除非另有定义,否则本文使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解的含义相同的含义。将进一步理解,诸如在常用词典中定义的那些术语的术语应当被解释为具有与其在相关领域的上下文中的含义一致的含义,并且将不以理想化或过度正式的意义解释,除非在本文中明确地如此定义。
如结合本公开所使用的,术语“模块”可以包括以硬件、软件或固件实现的单元,并且可以与其他术语(例如,“逻辑”、“逻辑块”、“部件”或“电路”)互换使用。模块可以是适于执行一个或多个功能的单个集成组件或其最小单元或部分。例如,根据示例,模块可以以专用集成电路(ASIC)的形式实现。
本文使用的术语“单元”等可以指软件或硬件组件,诸如现场可编程门阵列(FPGA)或ASIC,并且“单元”执行预定义的功能。然而,“单元”不限于软件或硬件。“单元”可以被配置为驻留在可寻址存储介质上或被配置为操作一个或多个处理器。因此,“单元”可以包括例如组件(诸如软件组件、面向对象的软件组件、类组件和任务组件)、进程、功能、属性、过程、子例程、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。组件和“单元”中提供的功能可以组合成更少的组件和“单元”,或者可以进一步分成附加的组件和“单元”。此外,组件和“单元”可以被实现为在设备或安全多媒体卡内的一个或多个中央处理单元(CPU)上进行操作。另外,“单元”可以包括一个或多个处理器。
在下文中,将参考附图详细描述示例。当参考附图描述实施例时,相同的附图标记表示相同的组成元件,并且将省略与其相关的重复描述。
图1是根据实施例的音频信号处理系统的示意性框图,图2是图1中所示的编码器的示意性框图,并且图3是图1中所示的解码器的示意性框图。
参考图1至图3,音频信号处理系统10可以处理音频信号。音频信号可以包括与声音对应的模拟信号和/或数字信号。
音频信号处理系统10可以通过对音频信号进行编码来生成比特流。音频信号处理系统10可以对比特流进行解码来恢复音频信号。
音频信号处理系统10可以通过在不劣化声音质量的情况下用最小量的信息表达音频数据并将音频数据变换为比特串来执行音频压缩。音频信号处理系统10可以压缩频率轴和时间轴上的信息量,以便在不劣化声音质量的情况下以最小量的比特串表示音频数据。
音频信号处理系统10可以对实数数据和复数数据执行数据变换。音频信号处理系统10可以通过准确地估计或去除实数数据和复数数据的时间/频率信息来完全保留频域。
音频信号处理系统10可以基于复数变换方法执行音频编码或音频解码。音频信号处理系统10可以通过有效地量化由于使用复数数据而增加的数据量并且通过减少复数域中的时间/频率信息来在没有失真的情况下减少信息量。
音频信号处理系统10可以包括编码器30和解码器50。编码器30可以对音频信号进行编码。编码器30可以通过对输入音频信号进行编码而生成比特流。解码器50可以恢复音频信号。解码器50可以对比特流进行解码以生成恢复音频信号。
音频信号处理系统10可以由音频信号处理设备实现。音频信号处理设备可以包括编码器30和解码器50中的至少一个。
编码器30可以包括接收器100和处理器200。编码器30还可以包括存储器300。解码器50可以包括接收器400和处理器500。解码器50还可以包括存储器600。
接收器100和接收器400可以包括接收接口。接收器100可以接收音频信号。接收器100可以将接收到的音频信号输出到处理器200。接收器400可以接收与压缩音频信号对应的比特流。接收器400可以将接收到的比特流输出到处理器500。
处理器200和/或处理器500可以处理存储在存储器300和/或存储器600中的数据。处理器200和/或处理器500可以执行存储在存储器300和/或存储器600中的计算机可读代码(例如,软件)以及由处理器200和/或处理器500触发的指令。
处理器200和/或处理器500可以是由硬件实现的数据处理设备,该硬件包括具有用于执行期望操作的物理结构的电路。例如,期望操作可以包括程序中的代码或指令。
例如,硬件实现的数据处理设备可以包括微处理器、CPU、处理器核、多核处理器、多处理器、ASIC和FPGA。
存储器300和/或存储器600可以存储用于操作的数据或操作结果。存储器300和/或存储器600可以存储可由处理器200和/或处理器500执行的指令(或程序)。例如,指令可以包括用于执行处理器的操作的指令和/或用于执行处理器的每个组件的操作的指令。
存储器300和/或存储器600可以被实现为易失性存储器设备或非易失性存储器设备。
易失性存储器设备可以被实现为动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、晶闸管RAM(T-RAM)、零电容器RAM(Z-RAM)或双晶体管RAM(TTRAM)。
非易失性存储器设备可以被实现为电可擦除可编程只读存储器(EEPROM)、快闪存储器、磁性RAM(MRAM)、自旋转移矩(STT)-MRAM、导电桥接RAM(CBRAM)、铁电RAM(FeRAM)、相变RAM(PRAM)、电阻式RAM(RRAM)、纳米管RRAM、聚合物RAM(PoRAM)、纳米浮动栅极存储器(NFGM)、全息存储器、分子电子存储器设备或绝缘体电阻变化存储器。
图4是图2中所示的编码器的实现示例,图5是示出复数时间噪声整形(TNS)增益的曲线图的示例,以及图6是示出复数TNS增益的曲线图的另一示例。
参考图4至图6,处理器(例如,图2的处理器200)可以压缩音频信号。处理器200可以通过对音频信号进行编码来生成比特流。
处理器200可以通过对音频信号执行时间到频率变换来生成实数变换频谱或复数变换频谱。实数变换频谱和/或复数变换频谱可以包括下面描述的线性预测系数(LPC)频谱。
处理器200可以对实数变换频谱或复数变换频谱执行频域噪声整形(FDNS)分析,从而生成实数残差信号或复数残差信号。
处理器200可以通过对实数残差信号或复数残差信号执行量化来生成与压缩音频信号对应的比特流。
处理器200可以包括LPC提取模块411、时间到频率(T/F)分析1模块413、T/F分析2模块415、T/F分析(实数)模块417、FDNS分析1模块419、FDNS分析2模块421、复数TNS分析模块423、残差分析1模块425、残差分析2模块427、第一开关429、第二开关431、复数Q模块433、实数Q模块435和无损编码模块437。
处理器200可以对音频信号x(n)执行时间到频率变换。处理器200可以通过使用离散傅里叶变换(DFT)来使用复数时间到频率变换和/或通过使用改进的离散余弦变换(MDCT)来使用实数时间到频率变换,从而执行时间到频率变换。
处理器200可以通过LPC提取模块411从音频信号中提取LPC。T/F分析1模块413可以通过执行DFT来生成LPC频谱。
LPC可以如等式1中那样定义。
[等式1]
lp(b)=[lp(0,b),lp(1,b),...,lp(order-1,b)]T
这里,order可以表示LPC的阶数,并且b可以表示块或帧索引。T/F分析1模块413可以将lp(b)变换为频率信号。T/F分析1模块413可以执行时间到频率变换,如等式2中所示。
[等式2]
lpf(b)=DFT{lp(b),N or M}
这里,DFT{}可以表示DFT变换操作。T/F分析1模块413可以通过根据音频信号的帧大小N或子带的数量M确定DFT系数的数量来对lp(b)进行变换。
T/F分析2模块415可以通过使用复数变换来执行DFT变换。T/F分析2模块415可以对音频信号执行DFT变换,如等式3中所示。
[等式3]
x(b)=[x(0,b),x(1,b),...,x(N-1,b)]T,xf(b)=DFT{x(b)⊙win(b)}
这里,N可以表示帧大小,win(b)可以表示当音频信号被变换为频率信号时应用的窗口函数,并且运算符⊙可以表示对每个元素执行乘法的运算符。
T/F分析(实数)模块417可以通过使用实数变换来执行MDCT变换。T/F分析(实数)模块417可以执行MDCT变换,如等式4中所示。
[等式4]
这里,实数下标可以表示实数变换的频率系数。
处理器200可以执行FDN。FDNS分析1模块419可以以与FDNS分析2模块421相同的方式进行操作。
FDNS分析1模块419可以处理作为复数值的频率系数,并且FDNS分析2模块421可以处理作为实数值的频率系数。
FDNS分析1模块419和FDNS分析2模块421可以通过处理频率系数来提取残差信号,如等式5中所示。
[等式5]
FDNS分析1模块419和FDNS分析2模块421可以从LPC频谱中提取包络信息,并且包络信息可以被用于提取目标残差信号。FDNS分析1模块419的输出rff(b)可以是具有复数值的残差信号。FDNS分析2模块421的输出可以是具有实数值的残差信号。
复数TNS分析模块423可以对具有复数值的残差信号rff(b)执行TNS。复TNS分析模块423可以获得频域中的具有复数值的LPC系数。复数TNS分析模块423可以获得LPC系数,如等式6中所示。
[等式6]
复数TNS分析模块423可以使用通过等式6获得的来生成TNS残差信号,该TNS残差信号是二次残差信号。生成二次残差信号的过程可以与生成LPC残差信号的过程相同,并且输入信号和LPC系数可以是复数值。
复数TNS分析模块423可以生成TNS残差信号,如等式7和等式8中所示。
[等式7]
[等式8]
这里,NH可以表示N/2。也就是说,由于频率系数是复数且对称,因此复数TNS分析模块423可以仅处理一半的数据。例如,复数TNS分析模块423可以使用对称性,诸如并且因此生成残差信号。
残差分析1模块425可以选择用于量化的残差信号。残差分析1模块425可以生成第一开关控制信号并控制第一开关429从通过仅执行FDN获得的和rff(b)中选择一个块。
由于残差信号具有的信息量越少,残差信号具有的量化效率越高,因此残差分析1模块425可以将残差信号与残差信号rff(b)进行比较,从而控制第一开关429选择具有更高量化效率的信号。由于/>是对rff(b)执行复数TNS以减少信息量的结果,因此可以具有比rff(b)更少的信息量或更少的能量。残差分析1模块425可以通过比较两个残差信号来生成第一开关控制信号,如等式9中所示。
这里,complex_TNS_gain可以是指示在基本上执行复数TNS之后的能量减少量的数值。复数TNS增益越大,复数TNS可以越有效地操作。当复数TNS增益没有显著变化时,复数TNS增益可以具有接近0的值,并且可以确定复数TNS不会造成附加信息减少。
图5的示例可以表示复数TNS增益大的情况。在图5的示例中,可以看出,用实线标记的光谱比用虚线标记的|rff(b)|减小得更多。
如在图6的示例中,当复数TNS增益接近0时,可以看出,即使当应用复数TNS时,频谱能量也存在显著变化。
残差分析1模块425可以通过使用大于零的适当阈值来监测复数TNS增益,并且可以选择适当的残差信号。例如,当复数TNS增益大于或等于3dB时,残差分析1模块425可以选择作为用于量化的残差信号。当复数TNS增益小于3dB时,残差分析1模块425可以选择|rff(b)|作为用于量化的残差信号。
当第一开关429进行操作使得被选择时,第二开关431可以执行切换,使得复数Q模块433可以自动执行量化。第二开关431自动选择复数Q模块433的原因可以是执行复数量化,因为/>是复数值。
残差分析2模块427可以生成用于控制第二开关431的第二开关控制信号。当通过第一开关429选择rff(b)时,残差分析2模块427可以考虑量化效率来控制第二开关431选择rff(b)和中的一个残差信号。
残差分析2模块427可以选择复数Q模块433和实数Q模块435中的一个,从而执行复数量化或实数量化。残差分析2模块427可以考虑当前帧之前或之后的帧的切换情况以及残差信号的信息量来生成第二切换控制信号。
残差分析2模块427可以通过比较量化之后的量化索引熵比特值来选择具有少量比特的块(例如,残差信号)。可选地,残差分析2模块427可以生成第二开关信号以选择量化之后的在恢复期间具有低失真的块信号。第二开关控制信号可以是用于确定从所述两个块中选择哪个块的标志信息。
由第二开关431选择的最终信号可以表示为resf(b)。也就是说,ref(b)可以是rff(b)和/>中的一个。
参考图11详细描述复数Q模块433的量化和实数Q模块435的量化。
无损编码模块437可以通过对量化残差信号执行无损压缩来生成比特流。
图7是图3中所示的解码器的实施方式的示例。
参看图7,处理器(例如,图3的处理器500)可以通过对比特流进行解码来恢复音频信号。处理器500可以通过对比特流进行解码来生成从比特流恢复的音频信号。解码过程可以是如参考图4所描述的那样执行的编码过程的逆过程。
处理器500可以包括第一开关、第二开关、复数dQ模块713、实数dQ模块715、复数TNS合成模块717、FDNS合成模块719、FDNS合成模块721、频率到时间(F/T)合成2模块723、F/T合成(实数)模块725和切换补偿模块727。
第一开关s1和第二开关s2可以执行与图4的第一开关429和第二开关431相同的切换操作。
处理器500可以通过对比特流的实数数据或复数数据执行反量化来生成实数恢复信号或复数恢复信号。处理器500可以通过使用复数dQ模块713和/或实数dQ模块715来执行反量化,并且因此可以生成实数恢复信号。实数恢复信号可以是编码器的/>的恢复信号。FDNS合成模块721可以在没有TNS合成的情况下对/>执行FDNS合成。F/T合成(实数)模块725可以通过将频域的信号变换为时域的信号来生成最终音频信号。
处理器500可以控制第一开关s1以选择和/>中的一个信号。处理器500可以对/>执行复数TNS合成和FDNS合成,并且在FDNS合成之后执行复数F/T变换,以便生成最终输出信号。
处理器500可以对执行FDNS合成和F/T合成,以便生成最终输出信号。
处理器500可以通过基于相同的缩放因子对实数数据和复数数据执行反量化来生成复数恢复信号。
处理器500可以通过基于第二开关控制信号控制第二开关来对比特流执行复数反量化或实数反量化。处理器500可以通过复数dQ模块713对比特流执行复数反量化。处理器500可以通过实数dQ模块715对比特流执行实数反量化。在下文中,参考图12详细描述反量化处理。
处理器500可以通过对实数恢复信号或复数恢复信号执行FDNS合成来生成实数FDNS合成结果或复数FDNS合成结果。
处理器500可以通过基于第一开关控制信号控制第一开关来对复数恢复信号执行TNS合成或FDNS合成。
当复数恢复信号是TNS残差信号时,处理器500可以对复数恢复信号执行TNS合成。处理器500可以对TNS合成结果执行FDNS合成。
当复数恢复信号是FDNS残差信号时,处理器500可以对复数恢复信号执行复数FDNS合成。
复数TNS合成和FDNS合成的过程可以是TNS分析和FDNS分析的逆过程。FDNS合成模块719和FDNS合成模块721可以执行FDNS合成,如等式10中所示。
[等式10]
这里,^(hat)符号可以表示量化信号。
复数TNS合成模块717可以执行TNS合成,如等式11中所示。
[等式11]
处理器500可以通过对实数FDNS合成结果或复数FDNS合成结果执行频率到时间变换来生成恢复音频信号。
F/T合成2模块723可以对的FDNS合成结果或/>的复数TNS合成+FDNS合成的结果执行频率到时间合成。F/T合成2模块723可以执行逆修改离散余弦变换(IMDCT)以生成/>
F/T合成(实数)模块725可以对FDNS合成模块721的结果执行IMDCT以生成切换补偿模块727可以对/>和/或/>执行切换补偿以生成恢复音频信号。
图8是示出图7中所示的切换补偿操作的图,图9是重叠相加操作的示例,并且图10是重叠相加操作的另一示例。
参照图8至图10,处理器(例如,图3的处理器500)可以对频率到时间变换的结果执行切换补偿。切换补偿可以指对当块之间的频率到时间变换处理不同时发生的差异进行校正的操作。
处理器500可以确定频率到时间变换的结果的与当前帧对应的信号是否为TDA信号。处理器500可以基于确定信号是否是TDA信号的结果来执行重叠相加。
处理器500可以确定频率到时间变换的结果的与先前帧对应的信号是否为TDA信号。处理器500可以基于确定与先前帧对应的信号是否为TDA信号的结果来执行重叠相加。
处理器500可以通过切换补偿模块(例如,图7的切换补偿模块727)来执行切换补偿。
由于在执行IMDCT变换时在时域中发生TDA,所以可能不是被完美恢复的信号。切换补偿模块727可以通过执行时域混叠消除(TDAC)来去除TDA。切换补偿模块727可以与作为先前时间点处的信号的/>执行重叠相加,以因此去除TDA。
当先前帧的时间到频率变换方法与当前帧的时间到频率变换方法不同时,切换补偿模块727可执行切换补偿。例如,切换补偿模块727可在解码的帧序列是时执行切换补偿。切换补偿模块727可基于第二开关的切换信息来获得关于时间到频率变换方法的信息。
在操作811中,切换补偿模块727可确定恢复信号是否为在操作813中,当恢复信号为/>时,切换补偿模块727可确定先前帧的恢复信号是否为/>在操作817中,当先前帧是TDA信号(诸如/>)时,切换补偿模块727可通过执行简单的重叠相加来补偿TDA。
在操作819中,当先前帧的恢复信号是(即,与/>的组合)时,切换补偿模块727可使用TDA(b-1)执行重叠相加。
在操作815中,当恢复信号不是时,切换补偿模块727可确定先前帧是否为在操作821中,当先前帧是/>时,切换补偿模块727可执行简单的重叠相加。当先前帧为/>时,切换补偿模块727可使用TDA(b)执行重叠相加。
图9和图10的示例可各自示出通过在先前帧或当前帧中的重叠区域中强制生成TDA来执行重叠的处理。
图9示出了指示的情况的示例。当当前帧是TDA帧并且先前帧是不具有TDA的帧时,切换补偿模块727可通过在先前帧的重叠部分中有意地生成TDA以将生成的TDA变换为与能够与当前帧进行补偿的互补TDAb-1相同的形式,来执行重叠相加。图9的示例可以对应于图8的操作817。图10是指示/>的情况的示例。当当前帧不具有TDA但先前帧具有TDA时,切换补偿模块727可通过生成能够补偿的互补TDA(b)来执行重叠相加。图10的示例可以对应于图8的操作823。
图11是示出量化处理的图,图12是示出反量化处理的图。
参考图11和图12,图11的示例可以是复数Q模块(例如,图4的复数Q模块433)和/或实数Q模块(例如,图4的实数Q模块435),并且图12的示例可以示出复数dQ模块(例如,图7的复数dQ模块713)和/或实数dQ模块(例如,图7的实数dQ模块715)的反量化操作。
复数Q模块433和/或实数Q模块435可以基于resf(b)1111来提取绝对值1113、实部1115和虚部1117。复数Q模块433和/或实数Q模块435可以通过将标量量化扩展到实部1115和虚部1117来执行量化。
复数Q模块433和/或实数Q模块435可以基于复数值的绝对值1113获得缩放因子1119,并且可以将获得的缩放因子1119共同用于实部1115和虚部1117。
复数Q模块433和/或实数Q模块435可以将实数数据变换为整数数据。复数Q模块433和/或实数Q模块435可以通过对实部1115执行浮点到整数变换1121来减少信息量。复数Q模块433和/或实数Q模块435可以对虚部1117执行浮点到整数变换1123以减少信息量。
复数Q模块433和/或实数Q模块435可以通过将原始信号除以缩放因子1119来降低每个信号的电平,并且可以将划分的原始信号变换为整数类型以减少信息量。
复数Q模块433和/或实数Q模块435可以通过对具有减少信息量的整数数据执行无损编码1125或无损编码1127来生成比特流。无损编码1125或无损编码1127可以执行熵编码。例如,熵编码可包括霍夫曼编码和算术编码。
图12的反量化过程可以是量化过程的逆过程。复数dQ模块713和/或实数dQ模块715可以对比特流执行无损编码1223或无损编码1225。复数dQ模块713和/或实数dQ模块715可以通过对无损编码结果执行整数到浮点变换1219或整数到浮点变换1221来执行整数到实数变换。
类似于量化过程,复数dQ模块713和/或实数dQ模块715可以使用发送的共同用于实部1213和虚部1215的缩放因子1217来生成复数值1211。
图13是音频处理设备的性能的示例,并且图14是音频处理设备的性能的另一示例。
参考图13和图14,音频处理系统(例如,图1的音频处理系统10)可在性能上与统一语音音频译码(USAC)的TCX80模式进行比较。TCX80可以是USAC的线性预测域(LPD)编码模式,并且可以是仅将FDNS应用于MDCT区域的编码方案。
音频处理系统10可以在执行编码时使用复数FDNS和复数TNS对复数系数值进行编码,使得音频处理系统10可以比USAC编码更有效地执行编码和解码。
图13的示例可以示出针对16kbps/信道的低比特率的收听测试结果,并且图14的示例可以示出针对高比特率的收听测试结果。收听测试结果是总共6个人的测试数据,并且可以通过使用平均分数的95%置信区间来表示。性能评估环境可以在表1中示出。
[表1]
这里,HR可以表示原始声音。运动图像专家组(MPEG)测试项目可以被用作测试项目。结果可以通过集成“音乐”、“语音”和“混合(语音+音乐)”中的每个类别的测试项目来获得。可以看出,对于低比特率的语音,存在显著的性能改进。
对于高比特率的立体声内容,压缩效率可以明显提高。考虑到最终平均值的95%置信区间,可以确认两个系统表现出等效的声音质量性能。因此,可以确认,即使音频处理系统10与当前USAC技术相比具有12.5%的比特减少,音频处理系统10也可以提供等效的音频质量。
图15是图1所示的解码器的操作的流程图。
参考图15,在操作1510中,接收器(例如,图3的接收器400)可以接收与压缩音频信号对应的比特流。在操作1530中,处理器(例如,图3的处理器500)可以通过对比特流的实数数据或比特流的复数数据执行反量化来生成实数恢复信号或复数恢复信号。
处理器500可以通过基于相同的缩放因子对实数数据和复数数据执行反量化来生成复数恢复信号。
处理器500可以通过基于第二开关控制信号控制第二开关来对比特流执行复数反量化或实数反量化。
在操作1550中,处理器500可以通过对实数恢复信号或复数恢复信号执行FDNS合成来生成实数FDNS合成结果或复数FDNS合成结果。
处理器500可以基于第一开关控制信号来控制第一开关,并且因此可以对复数恢复信号执行TNS合成或FDNS合成。
当复数恢复信号是TNS残差信号时,处理器500可以对复数恢复信号执行TNS合成。处理器500可以对TNS合成结果执行FDNS合成。
当复数恢复信号是FDNS残差信号时,处理器500可以对复数恢复信号执行复数FDNS合成。
在操作1570中,处理器500可以通过对实数FDNS合成结果或复数FDNS合成结果执行频率到时间变换来生成恢复音频信号。
处理器500可以对频率到时间变换的结果执行切换补偿。处理器500可以确定频率到时间变换的结果的与当前帧相对应的信号是否为TDA信号。处理器500可以基于确定信号是否为TDA信号的结果来执行重叠相加。
处理器500可以确定频率到时间变换的结果的与先前帧对应的信号是否为TDA信号。处理器500可以基于确定与先前帧对应的信号是否为TDA信号的结果来执行重叠相加。
本文描述的实施例可以使用硬件组件、软件组件和/或其组合来实现。处理设备可以使用一个或多个通用计算机或专用计算机来实现,例如处理器、控制器和算术逻辑单元(ALU)、数字信号处理器(DSP)、微计算机、FPGA、可编程逻辑单元(PLU)、微处理器或能够以定义的方式响应和执行指令的任何其他设备。处理设备可以运行操作系统(OS)和在OS上运行的一个或多个软件应用。处理设备还可以响应于软件的执行来访问、存储、操纵、处理和创建数据。为了简单起见,处理设备的描述被用作单数形式;然而,本领域技术人员将理解,处理设备可以包括多个处理元件和多种类型的处理元件。例如,处理设备可以包括多个处理器,或者单个处理器和单个控制器。另外,不同的处理配置是可能的,诸如并行处理器。
软件可以包括计算机程序、一段代码、指令或其某种组合,以独立地或统一地指示或配置处理设备以根据需要进行操作。软件和数据可以永久地或临时地实施在任何类型的机器、组件、物理或虚拟装备、计算机存储介质或设备中,或者实施在能够向处理设备提供指令或数据或由处理设备解释的传播信号波中。软件还可以分布在网络耦接的计算机系统上,使得软件以分布式方式存储和执行。软件和数据可以由一个或多个非暂时性计算机可读记录介质存储。
根据上述实施例的方法可以被记录在非暂时性计算机可读介质中,该非暂时性计算机可读介质包括用于实现上述实施例的各种操作的程序指令。介质还可以单独地或与程序指令组合地包括数据文件、数据结构等。记录在介质上的程序指令可以是为了示例的目的而特别设计和构造的程序指令,或者它们可以是计算机软件领域的技术人员公知和可用的类型。非暂时性计算机可读介质的示例包括磁介质,诸如硬盘、软盘和磁带;光学介质,诸如CD-ROM盘、DVD和/或蓝光盘;磁光介质,诸如光盘;以及专门被配置为存储和执行程序指令的硬件设备,诸如只读存储器(ROM)、随机存取存储器(RAM)、闪存(例如,USB闪存驱动器、存储卡、记忆棒等)等。程序指令的示例包括诸如由编译器生成的机器代码和包含可以由计算机使用解释器执行的更高级代码的文件。
上述设备可以被配置为用作一个或多个软件模块,以便执行上述示例的操作,反之亦然。
如上所述,尽管已经参考有限的附图描述了实施例,但是本领域技术人员可以基于此应用各种技术修改和变化。例如,如果所描述的技术以不同的顺序执行和/或如果所描述的系统、架构、设备或电路中的组件以不同的方式组合和/或由其他组件或其等同物替换或补充,则可以实现合适的结果。
因此,本公开的范围不是由具体实施方式限定,而是由权利要求及其等同物限定,并且在权利要求及其等同物的范围内的所有变化都应被解释为包括在本公开中。

Claims (20)

1.一种音频信号处理设备,包括:
接收器,被配置为接收与压缩音频信号对应的比特流;以及
处理器,被配置为:
通过对所述比特流的实数数据或所述比特流的复数数据执行反量化来生成实数恢复信号或复数恢复信号;
通过对所述实数恢复信号或所述复数恢复信号执行频域噪声整形FDNS合成来生成实数FDNS合成的结果或复数FDNS合成的结果;以及
通过对所述实数FDNS合成的结果或所述复数FDNS合成的结果执行频率到时间变换来生成恢复音频信号。
2.根据权利要求1所述的音频信号处理设备,其中,所述处理器被配置为通过基于相同的缩放因子对所述实数数据和所述复数数据执行反量化来生成所述复数恢复信号。
3.根据权利要求1所述的音频信号处理设备,其中,所述处理器被配置为通过基于第一开关控制信号控制第一开关来对所述复数恢复信号执行时间噪声整形TNS合成或所述FDNS合成。
4.根据权利要求3所述的音频信号处理设备,其中,当所述复数恢复信号是TNS残差信号时,所述处理器被配置为对所述复数恢复信号执行所述TNS合成,并对所述TNS合成的结果执行所述FDNS合成。
5.根据权利要求1所述的音频信号处理设备,其中,当所述复数恢复信号是FDNS残差信号时,所述处理器被配置为对所述复数恢复信号执行所述复数FDNS合成。
6.根据权利要求1所述的音频信号处理设备,其中,所述处理器被配置为通过基于第二开关控制信号控制第二开关来对所述比特流执行复数反量化或实数反量化。
7.根据权利要求1所述的音频信号处理设备,其中,所述处理器被配置为对所述频率到时间变换的结果执行切换补偿。
8.根据权利要求7所述的音频信号处理设备,其中,所述处理器被配置为:
确定所述频率到时间变换的结果的与当前帧对应的信号是否为时域混叠TDA信号;以及
基于确定所述信号是否为所述TDA信号的结果来执行重叠相加。
9.根据权利要求8所述的音频信号处理设备,其中,所述处理器被配置为:
确定所述频率到时间变换的结果的与先前帧对应的信号是否为所述TDA信号;以及
基于确定与所述先前帧对应的所述信号是否为所述TDA信号的结果来执行所述重叠相加。
10.一种处理音频信号的方法,所述方法包括:
接收与压缩音频信号对应的比特流;
通过对所述比特流的实数数据或所述比特流的复数数据执行反量化来生成实数恢复信号或复数恢复信号;
通过对所述实数恢复信号或所述复数恢复信号执行频域噪声整形FDNS合成来生成实数FDNS合成的结果或复数FDNS合成的结果;以及
通过对所述实数FDNS合成的结果或所述复数FDNS合成的结果执行频率到时间变换来生成恢复音频信号。
11.根据权利要求10所述的方法,其中,生成所述实数恢复信号或所述复数恢复信号包括:通过基于相同的缩放因子对所述实数数据和所述复数数据执行反量化来生成所述复数恢复信号。
12.根据权利要求10所述的方法,其中,生成所述实数FDNS合成的结果或所述复数FDNS合成的结果包括:通过基于第一开关控制信号控制第一开关来对所述复数恢复信号执行时间噪声整形TNS合成或所述FDNS合成。
13.根据权利要求12所述的方法,其中,对所述复数恢复信号执行所述TNS合成或所述FDNS合成包括:
当所述复数恢复信号是TNS残差信号时,对所述复数恢复信号执行所述TNS合成;以及
对所述TNS合成的结果执行所述FDNS合成。
14.根据权利要求10所述的方法,其中,生成所述实数FDNS合成的结果或所述复数FDNS合成的结果包括:当所述复数恢复信号是FDNS残差信号时,对所述复数恢复信号执行所述复数FDNS合成。
15.根据权利要求10所述的方法,其中,生成所述实数恢复信号或所述复数恢复信号包括:通过基于第二开关控制信号控制第二开关来对所述比特流执行复数反量化或实数反量化。
16.根据权利要求10所述的方法,还包括:对所述频率到时间变换的结果执行切换补偿。
17.根据权利要求16所述的方法,其中,执行所述切换补偿包括:
确定所述频率到时间变换的结果的与当前帧对应的信号是否为时域混叠TDA信号;以及
基于确定所述信号是否为所述TDA信号的结果来执行重叠相加。
18.根据权利要求17所述的方法,其中,基于确定所述信号是否为所述TDA信号的结果来执行所述重叠相加包括:
确定所述频率到时间变换的结果的与先前帧对应的信号是否为所述TDA信号;以及
基于确定与所述先前帧对应的所述信号是否为所述TDA信号的结果来执行所述重叠相加。
19.一种存储指令的非暂时性计算机可读存储介质,所述指令在由处理器执行时使所述处理器执行根据权利要求10至18中任一项所述的方法。
20.一种音频信号处理设备,包括:
接收器,被配置为接收音频信号;以及
处理器,被配置为:
通过对所述音频信号执行时间到频率变换来生成实数变换频谱或复数变换频谱;
通过对所述实数变换频谱或所述复数变换频谱执行频域噪声整形FDNS分析来生成实数残差信号或复数残差信号;以及
通过对所述实数残差信号或所述复数残差信号执行量化来生成与压缩音频信号对应的比特流。
CN202280067405.XA 2021-12-15 2022-12-15 使用复数数据的音频处理方法及用于执行该方法的装置 Pending CN118077000A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2021-0179742 2021-12-15
KR1020220173938A KR20230091045A (ko) 2021-12-15 2022-12-13 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치
KR10-2022-0173938 2022-12-13
PCT/KR2022/020434 WO2023113490A1 (ko) 2021-12-15 2022-12-15 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치

Publications (1)

Publication Number Publication Date
CN118077000A true CN118077000A (zh) 2024-05-24

Family

ID=91111675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280067405.XA Pending CN118077000A (zh) 2021-12-15 2022-12-15 使用复数数据的音频处理方法及用于执行该方法的装置

Country Status (1)

Country Link
CN (1) CN118077000A (zh)

Similar Documents

Publication Publication Date Title
JP4950210B2 (ja) オーディオ圧縮
JP4922296B2 (ja) 低ビット率オーディオ信号の符号化/復号化方法及び装置
EP3779978B1 (en) Method of decoding an encoded stereo audio signal using a variable prediction direction
CA2804907C (en) Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
KR100892152B1 (ko) 시간-이산 오디오 신호를 부호화하기 위한 장치 및 방법그리고 부호화 오디오 데이터를 복호화하기 위한 장치 및방법
JP5719941B2 (ja) オーディオ信号の効率的なエンコーディング/デコーディング
CN111656444B (zh) 用于音频信号的高频重建技术的回溯兼容集成
KR20150126651A (ko) 스테레오 오디오 인코더 및 디코더
KR20120018324A (ko) 저 복잡도의 스펙트럼 대역 복제 (sbr) 필터뱅크
US11581000B2 (en) Apparatus and method for encoding/decoding audio signal using information of previous frame
KR20230091045A (ko) 복소수 데이터를 이용한 오디오 처리 방법 및 그를 수행하는 장치
KR101387808B1 (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
JP6094322B2 (ja) 直交変換装置、直交変換方法及び直交変換用コンピュータプログラムならびにオーディオ復号装置
CN118077000A (zh) 使用复数数据的音频处理方法及用于执行该方法的装置
RU2409874C9 (ru) Сжатие звуковых сигналов
US20100280830A1 (en) Decoder
US11562757B2 (en) Method of encoding and decoding audio signal using linear predictive coding and encoder and decoder performing the method
US9837085B2 (en) Audio encoding device and audio coding method
US20210390967A1 (en) Method and apparatus for encoding and decoding audio signal using linear predictive coding
KR20240062924A (ko) 오디오 신호 부호화/복호화 방법 및 이를 수행하는 장치
KR20240022393A (ko) 오디오 신호 부호화/복호화 장치 및 이의 동작 방법
KR20240066586A (ko) 복소수 양자화를 이용하는 오디오 신호의 부호화 및 복호화 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination