CN1146130C - 输入信号处理系统的编码器和屏蔽频信号量化噪声方法 - Google Patents

输入信号处理系统的编码器和屏蔽频信号量化噪声方法 Download PDF

Info

Publication number
CN1146130C
CN1146130C CNB998090123A CN99809012A CN1146130C CN 1146130 C CN1146130 C CN 1146130C CN B998090123 A CNB998090123 A CN B998090123A CN 99809012 A CN99809012 A CN 99809012A CN 1146130 C CN1146130 C CN 1146130C
Authority
CN
China
Prior art keywords
signal
conversion
threshold value
encoder
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB998090123A
Other languages
English (en)
Other versions
CN1312976A (zh
Inventor
����ˡ�S������
亨里克·S·马瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/085,620 external-priority patent/US6115689A/en
Priority claimed from US09/109,345 external-priority patent/US6029126A/en
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1312976A publication Critical patent/CN1312976A/zh
Application granted granted Critical
Publication of CN1146130C publication Critical patent/CN1146130C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03006Arrangements for removing intersymbol interference
    • H04L25/03159Arrangements for removing intersymbol interference operating in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/667Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03993Noise whitening
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L25/00Baseband systems
    • H04L25/02Details ; arrangements for supplying electrical power along data transmission lines
    • H04L25/03Shaping networks in transmitter or receiver, e.g. adaptive shaping networks
    • H04L25/03006Arrangements for removing intersymbol interference
    • H04L2025/03433Arrangements for removing intersymbol interference characterised by equaliser structure
    • H04L2025/03439Fixed structures
    • H04L2025/03522Frequency domain

Abstract

一种处理音频信号和包括可升级音频编码器(300)和解码器的系统和方法。编码器(300)包括一个多分辨率变换处理器(310),例如调制重叠变换(MLT)变换处理器、加权处理器(312)、均匀量化器(314)、屏蔽阈值频谱处理器(316)、熵编码器(318)和通信设备(320),例如用于复用(组合)从上述组件接收的信号以在单一介质上传输的多路复用器(MUX)。编码器(300)通过分辨率转换、频谱加权和数字编码来编码音频信号。而且,执行数字编码信号的参数建模以增强编码。解码器包括用于解码已编码音频信号的与编码器(300)相反的组件。

Description

输入信号处理系统的编码器和屏蔽音频信号量化噪声方法
本发明涉及一种用于压缩数字信号的系统和方法,具体地说,涉及一种能够升级数字音频信号的编码和解码的系统和方法。
现在,数字音频表示在许多应用中是很平常的。例如,音乐光盘(CD)、互联网音频剪辑、卫星电视、数字化视频光盘(DVD)和依靠数字音频技术的电话机(有线的或蜂窝的)。通过使用模数(A/D)转换器将模拟音频信号变换成数字信号实现音频信号的数字表示。然后,数字表示可以被编码、压缩、存储、传输和使用等。如果需要,然后可以使用数模(D/A)转换器将数字信号转换回模拟信号。A/D和D/A转换器定期抽样模拟信号,通常以下述标准频率之一:8kHz,用于电话机、互联网、视频会议;11.025kHz,用于互联网、只读光盘驱动器;16kHz,用于视频会议、远距离音频广播、互联网、未来电话机;22.05kHz,用于只读光盘驱动器、互联网;32kHz,用于只读光盘驱动器、视频会议、ISDN音频;44.1kHz,用于音频光盘;和48kHz,用于播音室音频再生。
典型地,如果在转换之后编码或压缩音频信号,由A/D生成的原始比特通常以每音频抽样16比特被格式化。对于音频光盘,例如,原始比特速率是44.1kHz×16比特/抽样=705.6kbps(千比特/秒)。对于电话机,原始比特速率是8kHz×8比特/抽样=64kbps。对于音频光盘,在存储容量大约是700兆字节(5600兆比特)的地方,可以存储原始比特,并且不需要压缩。然而,小型光盘仅能存储大约140兆字节,所以需要大约4∶1的压缩以将30分钟到1小时的音频装入2.5英寸小型光盘。
对于互联网电话和大多数其它应用,原始比特速率对于大多数的当前信道容量太高。因而,使用能够进行有效压缩的高效编码/解码器(通常称作编码器/解码器或编解码器)。例如,对于互联网电话机,原始比特速率是64kHz,但所需的信道速率在5至10kbps之间变化。因此,编解码器需要以5至15之间的因子压缩比特速率,带有最小的可觉察的音频信号质量损失。
随着当前处理芯片的发展,编解码器可以以专用硬件,通常用可编程数字信号处理器(DSP)芯片实现,或者以通用计算机的软件来实现。因此,希望使编解码器可以实现,例如:1)低计算复杂性(编码复杂性对于所存储的音频通常不是问题);2)优良的再生保真度(不同的应用将具有不同的质量要求);3)对信号变化的强壮性(音频信号可以是清楚的话音、嘈杂的话音、多个谈话者、音乐等等,编解码器可以处理的这种信号的范围越广越好);4)低延迟(在诸如电话机和视频会议的实时应用中);5)可升级性(适应不同信号抽样速率和不同信道容量的容易程度-尤其希望编码之后的可升级性,即转换成不同抽样速率或信道速率而不需要重新编码);和6)压缩域中的信号修改(如果编解码器允许在压缩域中处理,或者至少不需要完全解码和重新编码,诸如多个信道混合、干扰压缩和其它的操作可以更快)。
当前,商业系统使用多种不同的数字音频技术。一些例子包括:ITU-T标准:G.711,G.726,G.722,G.728,G.723.1和G.729;其它电话标准:GSM、半速率GSM、蜂窝CDMA(IS-733);高保真音频:杜比AC-2和AC-3、MPEG LII和LIII、索尼小型光盘;互联网音频:ACELP-Net、DolbyNet、PictureTel Siren、RealAudio;和军事应用:LPC-10和USFS-1016声码器。
然而,当前的这些编解码器具有多种限制。即,当前编解码器的计算复杂性不够低。例如,当编解码器被集成在一个操作系统中时,希望使编解码器以低CPU使用与其它应用同时运行。另一问题是中等延迟。希望使编解码器允许整个音频获取/重放系统以低于100毫秒的延迟操作,例如,能够实时通信。
另一问题是对信号变换的强壮性级别。希望使编解码器不仅能够处理清楚话音,而且能够处理被混响、办公室噪声、电子噪声和背景音乐等影响的话音,并且还能够处理音乐、拨号音和其它声音。而且,大多数现有编解码器的缺点是它们有限的可升级性和支持信号抽样频率和信道数据速率的狭窄范围。例如,多种当前应用通常需要支持多个不同的编解码器。这是因为多种编解码器被设计仅能处理某一范围的抽样速率。一种相关的期望是使编解码器可以允许修改抽样或数据速率而不需要重新编码。
另一问题是多方电话会议,服务器必须混合来自各参与者的的音频信号。多个编解码器要求在混合之前解码所有数据流。需要的是编解码器支持在编码或压缩域中混合而不需要在混合之前解码所有数据流。
还有一个问题出现在与信号增强功能的集成中。例如,由当前编解码器使用的音频路径在编解码器处理之前可以包括信号增强模块。举一个例子,在免提电话会议中,来自扬声器的信号被麦克风捕获,被本地人员的话音干扰。因此,通常使用回波消除算法来消除扬声器对麦克风的反馈。其它增强操作部分可以包括自动增益控制、降噪器。那些增强操作部分导致将被增加给编码/解码延迟的处理延迟。因而,所需要的是能够将增强处理和编解码器较简单集成的编解码器,以便可以执行所有这些信号增强而不产生除编解码器延迟之外的任何延迟。
与编解码器相关的另一个问题是缺少对比特和分组损失的强壮性。在大多数实际实时应用中,通信信道不能免于错误。无线信道可能具有明显的误比特率,并且分组交换信道(例如互联网)可能具有明显的分组损失。因而,所需要的是编解码器允许具有小信号降级的压缩比特流损失,例如最高5%。
不管上述系统和方法的优点如何,它们不能实现本发明的优点。
为了克服上述现有技术中的限制,并克服其它的限制,阅读和理解本发明之后这将变得很明显,在使用新编码器/解码器(编解码器)能够可升级地编码和解码音频信号的一种系统和方法中实施本发明。
本发明的编解码器系统包括一个编码器和一个解码器。编码器包括多分辨率变换处理器,例如调制重叠变换(MLT)变换处理器、加权处理器、均匀量化器、屏蔽阈值频谱处理器、熵编码器和一个通信设备,例如复用器(MUX),用于复用(组合)从上述部件接收的信号以在单一介质上传输。解码器包括与编码器相反的部件,例如反多分辨率变换处理器、反加权处理器、反均匀量化器、反屏蔽阈值频谱处理器、反熵编码器和解复用器。使用这些部件,本发明能够执行分辨率转换、频谱加权、数字编码和参数建模。
本发明的一些特征和优点包括低计算复杂性。当本发明的编解码器集成在一个操作系统中时,它可以以低CPU使用率与其它应用同时运行。这个编解码器允许整个音频捕获/回放系统以低于例如100毫秒的延迟操作从而能够进行实时通信。这个编解码器具有对信号变化的高级别强壮性,并且它不仅能够处理清楚话音,能够处理受混响、办公室噪声、电噪声、背景音乐等的影响下降的话音,而且能够处理音乐、拨号音和其它声音。另外,该编解码器能够升级,并支持大范围的信号抽样频率和信道数据速率。一个相关特征是这个编解码器允许修改抽样或数据速率而不需要重新编码。例如,这个编解码器可以将32kbps数据流转换成16kbps数据流而不需要完全解码和重新编码。这使服务器能够仅存储高保真度的音频剪辑,在需要时将它们迅速转换成较低的保真度。
而且,对于多方电话会议,这个编解码器支持在不需要在混合之前解码所有数据流的情况下在编码或压缩域中的混合。这显著地影响服务器可以处理的音频流数量。而且,这个编解码器能够以这种方式进行增强处理的较简单的集成,可以在没有除编解码器延迟之外的任何延迟的情况下执行信号增强。而且,这个编解码器的另一特征是它对比特和分组损失的强壮性。例如,在大多数实际实时应用中,通信信道无法免于错误。因为无线信道可能具有明显的误比特率,分组交换信道(例如互联网)可能具有明显的分组损失,这个编解码器允许压缩比特流损失,例如最高5%,较低地降低信号质量。
通过研究下述本发明的详细说明和附图及权利要求书,本发明的上述和其它特征和优点以及对其更完整的理解将更明显。
现在参考附图,其中在所有附图中相同的参考数字表示相应的部件:
图1是一个方框图,表示用于执行本发明的一种设备;
图2是一个普通方框/流程图,表示根据本发明用于编码/解码音频信号的一种系统和方法;
图3是一个总结构方框图,表示根据本发明用于编码音频信号的一个系统;
图4是一个总流程图,表示根据本发明用于编码音频信号的方法;
图5是一个普通方框/流程图,表示根据本发明用于编码音频信号的一个系统;
图6是一个普通方框/流程图,表示根据本发明用于编码音频信号的一个系统;
图7是一个流程图,表示根据本发明的一种调制重叠变换;
图8是一个流程图,表示根据本发明的一种调制重叠双正交变换;
图9是一个简化方框图,表示根据本发明的一种不均匀调制重叠双正交变换;
图10表示不均匀调制重叠双正交变换分析基本函数的一个例子;
图11表示不均匀调制重叠双正交变换分析基本函数的另一个例子;
图12是一个流程图,表示根据本发明用于执行分辨率转换的系统和方法;
图13是一个流程图,表示根据本发明用于执行加权函数计算和部分白化的一种系统和方法;
图14是一个流程图,表示根据本发明用于执行简化Bark阈值计算的一种系统和方法;
图15是一个流程图,表示根据本发明用于执行熵编码的一种系统和方法;
图16是一个方框图,表示根据本发明用于执行参数建模的一种系统和方法。
在本发明的下述说明中,参考构成本发明一部分的附图,利用在其中可以实施本发明的一个具体例子的例图进行图示。应当理解在不脱离本发明范围的情况下可以使用其它实施例,并可以进行结构上的改变。
引言
在许多现代音频编码标准中使用变换或子带编码器,通常以32kbps和更高的比特率,和以2比特/抽样或更高。在低速率上,大约和低于1比特/抽样,诸如G.729和G.723.1的话音编解码器在电话会议应用中使用。这种编解码器以清楚的话音生成模型为基础,因此它们的性能随着其它信号,例如多个说话者,噪声环境,尤其是音乐信号而快速地降低。
随着调制解调器可用速率的提高,许多应用可以为窄带(3.4kHz带宽)音频负担高达8-12kbps,并且对于更高保真度的材料可以是更高的速率。这提高了在对信号变化更强壮的编码器上的兴趣,该编码器速率例如类似或略高于G.729。
本发明是带有转换编码器的编码器/解码器系统(编解码器),所述转换编码器可以以合理的质量工作在低到1比特/抽样(例如以8kHz抽样的8kpbs)的速率上。为了在清晰的话音条件下提高性能,使用频谱加权和带有参数建模的行程长度和熵编码器。结果,改善了有声话音的周期频谱结构的编码。
本发明为包括话音的准周期信号产生改善的性能。根据少量参数计算量化参数表,考虑了在不增加量化表存储的情况下高度的适用性。为了提高瞬变信号的性能,本发明使用带有可变分辨率没有输入窗口切换的不均匀调制重叠双正交变换。实验结果表明本发明可以被用于以接近于1比特/抽样的速率的高质量信号再生,以2比特/抽样的准透明再生,和以3比特/抽样或者更高的速率的可觉察的透明再生。
示范操作环境
图1和下述讨论将用于提供在其中可以实施本发明的合适计算环境的简要说明。尽管不需要,但将在计算机可执行指令,例如由个人计算机执行的程序模块的普通环境下描述本发明。通常,程序模块包括执行特殊任务或实现特定摘要数据类型的例行程序、程序、对象、组件和数据结构等。而且,本领域的技术人员将认识到可以用其它计算机系统配置实现本发明,包括手持式设备、多处理器系统、基于微处理器或可编程用户电子设备、网络个人计算机、小型计算机、大型计算机等。本发明也可以在由通过通信网络链接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算机环境中,程序模块可以被设置于本地和远程存储设备上。
参见图1,用于实现本发明的示范性系统包括形式为常规个人计算机100的通用计算设备,包括处理单元102、系统存储器104和将包括系统存储器104的各种系统组件连接到处理单元102的系统总线106。系统总线106可以是多种总线类型中的任何一种总线,包括存储器总线或存储器控制器、外围总线和使用多种总线结构中的任何一种的本地总线。系统存储器包括只读存储器(ROM)110和随机访问存储器(RAM)112。在ROM 110中存储基本输入/输出系统114(BIOS),包含协助在个人计算机100中在组件之间传输信息的基本例行程序,例如在启动时。个人计算机100还包括用于读取和写入硬盘的硬盘驱动器116,用于读取或写入活动磁盘120的磁盘驱动器118,和用于读取或写入诸如CD-ROM或其它光介质的活动光盘124的光盘驱动器122。硬盘驱动器116、磁盘驱动器128和光盘驱动器122分别通过硬盘驱动器接口126、磁盘驱动器接口128和光盘驱动器接口130连接到系统总线106。驱动器和它们的相关计算机可读介质为个人计算机100提供计算机可读指令、数据结构、程序模块和其它数据的非易失性存储。尽管在此所述的示范性环境使用硬盘、活动磁盘120和活动光盘130,本领域的普通技术人员将理解可以存储可由计算机访问的数据的其它类型的计算机可读介质也可以在示范性操作环境中使用,例如磁带、快闪存储卡、数字视频光盘、贝努里盒式磁盘、随机访问存储器(RAM)、只读存储器(ROM)等。
多个程序模块可以被存储在硬盘、磁盘120、光盘124、ROM 110或RAM 112上,包括操作系统132、一个或多个应用程序134、其它程序模块136和程序数据138。用户可以通过诸如键盘140和指示设备142的输入设备将命令和信息输入个人计算机100。其它输入设备(未图示)可以包括麦克风、控制杆、游戏小键盘、卫星反射器、扫描仪等。这些或其它输入设备通常通过连接到系统总线106的串行接口144连接到处理单元102,但是也可以通过其它接口连接,例如并口、游戏口或通用串行总线(USB)。监视器146或其它类型的显示设备也通过诸如视频适配器148的接口连接到系统总线106。除了监视器146之外,个人计算机通常包括其它外围输出设备(未图示),例如扬声器和打印机。
个人计算机100可以使用到诸如远程计算机150的一个或多个远程计算机的逻辑连接工作在网络环境中。远程计算机150可以是另外一个个人计算机、服务器、路由器、网络PC、对等设备或其它普通网络节点,并且一般包括上述与个人计算机100相关的多个或所有组件,尽管仅在图1中图示存储器存储设备152。图1所示的逻辑连接包括局域网(LAN)154和广域网(WAN)156。这些网络环境在办公室、大企业计算机网络、内部网和因特网中是常见的。
当在LAN网络环境中使用时,个人计算机100通过网络接口或适配器158连接到本地网154。当在WAN网络环境中使用时,个人计算机100一般包括调制解调器160或其它装置,用于在诸如因特网的广域网156上建立通信。可以是内置或外置的调制解调器160通过串口接口144连接到系统总线106。在网络环境中,与个人计算机100或它的一部分相关描述的程序模块可以被存储在远程存储器存储设备中。显然所示的网络连接是示范性的,可以使用在计算机之间建立通信链路的其它装置。
概述
图2是一个普通方框/流程图,说明根据本发明用于编码/解码一个音频信号的系统和方法。首先,由模数(A/D)转换器210接收和处理一个信号源的模拟音频输入信号。A/D转换器210生成原始数据比特。原始数据比特被发送给数字编码器212,并根据本发明处理以生成一个编码比特流(下文提供对编码器的详细说明)。编码比特流被使用、存储、传输等(方框204),然后发送给数字编码器216和处理以再生原先的原始数据比特。数模(D/A)转换器218接收原始数据比特以转换成输出音频信号。所生成的输出音频信号与输入音频信号基本匹配。
图3是一个总结构方框图,图示根据本发明用于编码音频信号的一个系统。本发明的编码器300(图2的编码器212)包括多分辨率变换处理器310、加权处理器312、均匀量化器314、屏蔽阈值频谱处理器316、编码器318和通信设备320。
多分辨率变换处理器310最好是双分辨率调制重叠变换(MLT)变换处理器。变换处理器接收初始信号并根据初始信号生成变换系数。加权处理器312和屏蔽阈值频谱处理器316为尽可能地屏蔽量化噪声执行频谱加权和部分白化。均匀量化器314用于将连续值变换成离散值。编码器318最好是用于编码变换系数的熵编码器。通信设备320最好是复用器(MUX),用于复用(组合)从上述组件接收的信号以在单一介质上传输。
解码器(未图示)包括编码器300的相反组件,例如反多分辨率变换处理器(未图示)、反加权处理器(未图示)、反均匀量化器(未图示)、反屏蔽阈值频谱处理器(未图示)、反编码器(未图示)和反MUX(未图示)。
组件概述
图4是一个总流程图,表示根据本发明用于编码音频信号的方法。将讨论图7-16中操作的具体细节。一般来说,首先,执行一个MLT计算(方框400)以生成变换系数,继之以修改MLT系数(方框410)的分辨率切换(方框405)。分辨率转换被用于提高瞬变信号的性能。
然后,通过下述步骤执行频谱加权(方框412):a)根据下面将要描述的本发明的听觉屏蔽技术加权变换系数(方框414);b)计算简化Bark阈值频谱(方框416);c)执行加权函数的部分白化(方框418);和d)执行标量量化(方框420)。根据本发明执行频谱加权以尽可能多的屏蔽量化噪声。目的是生成尽可能接近清晰的的重建信号。
第三,执行编码和参数建模(方框422),通过建立由编码器使用的概率分布模型(步骤424),所述编码器例如用于熵编码量化系数的熵编码器(方框426),然后为量化步长优化执行二进制搜索(方框428)。标量量化(方框420)将浮点系数转换成量化系数,它由一组离散数中最接近的值给出。离散值之间的距离等于步长。其中熵编码和参数建模提高清晰话音环境下的性能。熵编码生成在一个消息中用一个码元表示的信息的平均数量,并且是用于生成该消息的概率模型(参数建模)的函数。增加模型的复杂性以便模型可以更好地反映信源码元在始发消息中的实际分布从而减小消息。这个技术能够提高有声话音周期频谱结构的编码。
图5是一个总方框/流程图,表示根据本发明用于编码音频信号的系统。图6是一个总方框/流程图,表示根据本发明用于解码音频信号的系统。一般来说,输入信号x(n)的重叠块由编码器500通过非均匀调制重叠双正交转换(NMLBT)510转换到频域。NMLBT 510本质上是带有不同分析和合成窗口的调制重叠转换(MLT),其中为了更好的时间分辨率组合高频子带。根据信号频谱,高频子带的组合可以被打开或关闭,并且一个比特的标记被作为图6解码器的辅助信息发送。如下面更加详细的讨论,不修改NMLBT分析和合成窗口。
如图5所示,利用均匀量化器512量化变换系数X(k)。在速率失真的意义上,均匀量化器512非常接近于最佳,如果它们的输出被例如用行程长度和Tunstall编码器514进行熵编码(下文进行详细描述)。可以使用矢量量化(VQ),但与熵编码器514相比性能增加较小。尽管双VQ或其它结构的VQ可以用于降低复杂性,它们比标量量化依然复杂得多。
在任意给定比特率上最小化失真的最佳速率分配规则将为子带/转化系数指定相同的步长,生成量化白噪声。这生成最大的信噪比(SNR),但不是最佳听觉质量。加权函数计算516在量化之前用X(k)/w(k)替换X(k),k=0,1,…,M-1,其中M是子带数,通常是256和1024之间2的幂。在图6的解码器上,加权通过(k)←(k)w(k)重新构建的变换系数。因而,量化噪声将跟随通过加权函数定义的频谱w(k)。下面的段落描述w(k)的详细计算。利用熵编码器514熵编码变换系数。执行参数建模并由熵编码器514使用结果以增加熵编码器514的效率。而且,步长调整518被用于调整步长。
可以从图5推出图6解码器的操作。除了对应于量化变换系数的编码比特之外,图6的解码器还需要图5所示的辅助信息,以便它可以确定用于反NMLBT的单/多分辨率标志、熵解码表、量化步长、和加权函数w(k)。
组件细节和操作
再次参考图3和图5,通过诸如重叠转换处理器的转换处理器将输入音频信号分解成频率分量。这时因为尽管诸如离散余弦转换(DCT和DCT-IV)的其它转换处理器是用于频域信号分解的有用工具,它们受块人工噪声的影响。例如,由DCT和DCT-IV转换处理器以一些指定方式:量化、滤波、降噪等处理变换系数X(k)。
通过对这些修改后系数施加逆转换获得重建的信号块。当这些重建的信号块被一起传递以构成重建信号(例如解码音频或视频信号)时,在块边界上将存在不连续性。与此相反,调制重叠转换(MLT)通过将基本函数的长度扩展为块大小的两倍即2M来消除这种不连续性。图7是表示根据本发明的调制重叠转换的流程图。
通过以下述方式扩展DCT-IV函数并将它们乘以一个合适的窗口获得MLT的基本函数,
a nk = h ( n ) cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
其中k从0变化到M-1,而n从0变化到2M-1。
因此,最好使用MLT,因为它们可能产生正交或双正交基础,并可以将信号的短期分解实现为重叠窗口余弦函数的叠加。这种函数为信号的定位频率分解提供比DCT或DCT-IV更加有效的工具。MLT是允许理想重建的余弦调制滤波器组的特殊形式。例如,根据信号的MLT系数可以精确地恢复信号。而且,MLT并不具有块人工噪声,即MLT提供在其边界上平滑衰变到零的重建信号,避免了沿块边界的不连续性。另外,从速率/失真意义上说,对于各种信号的转换编码,MLT具有几乎最佳的性能。
具体地说,MLT基于奇数栈式时域混叠消除(TDAC)滤波器组。一般来说,用于包含输入信号x(n),n=0,1,2,…,2M-1的2M个抽样的一个矢量(通过移位输入信号最后M个抽样,并将它们与先前获取的M个抽样组合来确定)的标准MLT转换被转换成包含M个系数X(k),k=0,1,2,…,M-1的另一个矢量。该转换可以用标准MLT计算来重新定义:
X ( k ) ≡ 2 M Σ n = 0 2 M - 1 x ( n ) h ( n ) cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
其中h(n)是MLT窗口。
窗口函数主要为降低块效应而使用。例如,使用重叠转换的信号处理(Signal Processing with Lapped Transforms),H.S.Malvar,Boston:Artech出版社1992年,在此引用作为参考,论证了以下述形式通过余弦调制平滑窗口算子获取其基本函数:
p a ( n , k ) = h a ( n ) 2 M cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ]
p s ( n , k ) = h s ( n ) 2 M cos [ ( n + M + 1 2 ) ( k + 1 2 ) π M ] - - ( 1 )
其中pa(n,k)和ps(n,k)是用于直接(分析)和反向(合成)转换的基本函数,ha(n)和hs(n)分别是分析和合成窗口。时间索引n从0变化到2M-1和频率索引k从0变化到M-1,其中M是块大小。MLT是TDAC,为其窗口生成具有最大DC密度的重叠转换,即:
h a ( n ) = h s ( n ) = sin [ ( n + 1 2 ) π 2 M ] - - ( 2 )
直接转换矩阵Pa在第n行k列具有项目pa(n,k)。类似地,逆变换矩阵具有项目ps(n,k)。对于信号x(n)的2M输入抽样的块x,通过X=Pa Tx计算其变换系数的相应矢量X。对于处理变换系数的矢量Y,通过y=PsY给出重建的2M抽样矢量y。重建矢量y与M抽样重叠叠加,生成重建信号y(n)。
可以比较MLT与DCT-IV。对于信号u(n),其长度-M正交DCT-IV通过下式定义:
U ( k ) ≡ 2 M Σ n = 0 M - 1 u ( n ) cos [ ( n + 1 2 ) ( k + 1 2 ) π M ] - - ( 3 )
构成DCT-IV基础的余弦函数的频率是(k+1/2)π/M,与MLT的相同。因此,存在两个转换之间的简单关系。例如对于具有MLT系数X(k)的信号X(n),它可以被表示为X(k)=U(k),如果u(n)涉及x(n),n=0,1,…,M/2-1,通过
u(n+M/2)=ΔM{x(M-1-n)ha(M-1-n)-x(n)ha(h)}
u(M/2-1-n)=x(M-1-n)ha(n)+x(n)ha(M-1-n)
其中ΔM{·}是M-抽样(一块)延迟算子。为了说明性的目的,通过组合DCT-IV与上述,可以根据标准DCT-IV计算MLT。可以以类似的方式获取一个反向MLT。例如,如果Y(k)=X(k),即没有任何变换系数(或子带信号)的修改,则级联直接和反向MLT处理信号产生y(n)=X(n-2M),其中M个延迟抽样来自块算子,另外M个抽样来自MLT的内部重叠算子(z-M算子)。
调制重叠双正交转换
在本发明中,实际的最佳转换是调制重叠双正交转换(MLBT)。图7是表示根据本发明的调制重叠双正交转换的流程图。MLBT是调制重叠转换(MLT)的变型。与MLT类似,MLBT窗口长度是块大小的两倍。它产生最大编码增益,但它的形状针对初始MLT正弦窗口进行了稍微修改。为了生成在等式(1)中用公式表示的双正交MLT,需要放松相同分析和合成窗口的限制。假设一个对称合成窗口,并将双正交条件应用于等式(1),等式(1)生成调制重叠双正交转换(MLBT),如果分析窗口满足一般化条件:
h a ( n ) = h s ( n ) h s 2 ( n ) + h s 2 ( n + M ) , n = 0,1 , . . . , M - 1 - - ( 4 )
和ha(n)=ha(2M-1-n)。
可以为最大转换编码增益最佳化该窗口,结果是最佳窗口收敛到等式(2)的MLT窗口。这允许MBLT改善合成基本函数响应的频率选择性,并被用作非均匀MLT的标准块(在下文进行详细说明)。MBLT可以被定义为带有合成窗口的等式(1)的调制重叠转换:
h s ( n ) = 1 - cos [ ( n + 1 2 M ) a π ] + β 2 + β , n = 0,1 , . . . , M - 1 - - ( 5 )
和分析窗口用等式(4)定义。
参数α主要控制窗口宽度,而β控制它的结果值。MLBT与MLT相比的主要优点是合成函数阻带衰减的增加,以分析函数阻带衰减的降低为代价。
NMLBT和分辨率切换
典型转换编码器的子带数M必须足够大以提供足够的频率分辨率,这经常导致块大小在20-80毫秒的范围内变化。这导致对瞬变信号很差的响应,带有延续整个块的噪声模式,包括前回声。在这种瞬变信号过程中不需要很好的频率分辨率,因此,减轻该问题的一种方式是为这种声音使用较小的M。为调制重叠转换切换块大小并不困难,但是可能引入附加的编码延迟。一种可选方法是使用分级转换或树形结构滤波器组,类似于离散小波变换。这种分解实现一个新的非均匀子带结构,带有用于高频子带的小块和用于低频子带的大块。分级(或级联)变换具有块之间理想的时域分离,但是很差的频域分离。例如,如果在子带上QMF滤波器组继之以MLT,位于QMF过渡带附近的子带可能具有低达10dB的阻带抑制,一个在树形结构变换上也发生的问题。
创建一个新的非均匀变换结构以降低MLT/MLTBT的振铃人工噪声的可选和最佳方法可以通过修改时间-频率分辨率实现。变换的时间-频率分辨率的修改可以通过将附加变换算子应用于变换系数组以生成一个变换系数的新组合,它生成一个特定的非均匀变换MLBT(NMLBT)。图7是表示根据本发明的非均匀调制重叠双正交变换的简化方框图。
图8是表示根据本发明的非均匀调制重叠双正交变换的操作的简化方框图。具体地说,通过线性地组合一些子带系数X(k)可以生成一种非均匀MBLT,并且新子带的滤波器具有降低时间宽度的脉冲响应。一个例子是:
X′(2r)=X(2r)+X(2r+1)
X′(2r+1)=X′(2r)-X(2r+1)
其中以频率(2r+1/2)π/M和(2r+3/2)π/M为中心的子带信号X(2r)和X(2r+1)被组合以生成两个新的子带信号X’(2r)和X’(2r+1)。这两个新的子带信号都以(r+1)π/M为中心,但是一个具有以块左侧为中心的脉冲响应,而另一个具有以块右侧为中心的脉冲响应。因此,我们舍弃频率分辨率来增加时间分辨率。图9图示非均匀调制重叠双正交变换合成基本函数的一个例子。
这种通过组合变换系数的分辨率转换的方法的主要优点在于时间分辨率更窄的新的子带信号可以在计算输入信号的MLT之后计算。因此,不需要转换MLT窗口函数或块大小M。它还允许信号增强算子,例如降噪器或回波消除器,以在子带合并算子之前对初始变换/子带系数进行操作。这允许将这些信号增强器集成到编解码器中。
可以选择地,并且最好是,如果通过因子4提高时间分辨率可以实现更好的结果。这导致有效宽度为四分之一块大小的子带滤波器脉冲响应,具有结构:
X ′ ( 4 r ) X ′ ( 4 r + 1 ) X ′ ( 4 r + 2 ) X ′ ( 4 r + 3 ) = a a a a b c - c - b - b c c - b - a a - a a X ( 4 r ) X ( 4 r + 1 ) X ( 4 r + 2 ) X ( 4 r + 3 )
其中参数的最佳选择是a=0.5412, c=a2,r=M0,M0+1,...,并且M0一般被设置为M/16(这意味着分辨率转换被应用于子带的75%-从频率0.25π到π)。图10和图11表示与这种结构对应的合成基本函数的曲线。可以看出时间分离不理想,但是它降低了瞬变信号的错误扩散。
上述子带组合矩阵的自动转换可以通过分析输入块波形在编码器上进行。如果块中的概率级别显著地变化,组合矩阵被打开。转换标志作为辅助信息被发送给接收机,所以它可以使用逆4×4算子来恢复MLT系数。一种可选的转换方法是分析MLT系数X(k)之间的功率分配,并在检测到高频类噪声模型时转换组合矩阵。
图12是表示根据本发明执行分辨率转换的最佳系统和方法的流程图。如图12所示,在每个块上确定分辨率转换,并将辅助信息的一个比特发送给解码器以通知开关是接通还是断开。在最佳实施中,当用于给定块的高频能量超过低频能量预定阈值时,编码器将开关接通。基本上,编码器通过测量在高频和低频上的信号功率来控制分辨率转换。如果高频功率(PH)与低频功率(PL)之比超过预定阈值,使用步骤2中所述的子带组合矩阵,如图12所示。
频谱加权
图13是表示根据本发明用于执行加权函数计算和部分白化的系统和方法的流程图。再次参考图3、图5和图13,图示一种用于执行频谱加权的简单技术。根据本发明,可以执行频谱加权以尽可能多地屏蔽量化噪声。目的是生成尽可能清晰的重建信号,即无法区分解码信号和原始信号。这可以通过用函数w(k)加权变换系数来实现,该函数依靠人耳的屏蔽特性。这种加权的意义是形成人耳觉察程度最低的量化噪声,因而屏蔽了量化噪声。而且,简化听觉加权函数的计算以避免通常使用的耗费时间的卷积。
对于给定的输入频谱{X(k)},加权函数w(k)理论上沿着一个听觉屏蔽阈值曲线。最好以Bark标度计算屏蔽阈值。Bark标度(scale)是模拟人耳临界频带的准对数标度。在高编码率上,例如3比特/抽样,对于所有的Bark子带,结果量化噪声可能低于量化阈值从而生成清晰的重建。然而,在低编码速率上,例如1比特/抽样,在屏蔽阈值下隐藏所有的量化噪声是困难的。在这种情况下,最好防止量化噪声在所有子带中被抬高得高于屏蔽阈值相同的分贝数(dB),因为低频未屏蔽噪声通常更加有害。这可以通过用新的函数W(k)α替换初始加权函数W(k)来实现,其中α是通常被设置得低于1的参数,以建立加权函数的部分白化。
一般来说,参考图13、图3、图4和图5,图13表示听觉阈值曲线的简单计算,以及用于计算步长的部分白化效应。图13是图3的方框312和316、图4的方框414、416、418和图5的方框516的详细方框图。参考图13,在MLT计算和NMLBT修改之后,变换系数X(k)首先被平方模块接收以将变换系数平方(方框1310)。接着,阈值模块计算Bark频谱阈值(方框1312),该阈值由扩展模块用于执行Bark阈值扩展(方框1314)和生成听觉阈值。然后,调整模块将听觉阈值调整为绝对阈值以生成一个理想加权函数(方框1316)。最后,执行部分白化效应以便将理想加权函数提高到第α功率从而生成最终的加权函数(方框1318)。
具体地说,平方模块生成P(i),在第i频带上的瞬时功率,它由阈值模块接收用于计算屏蔽阈值wMT(k),(如图13的方框1310所示)。这可以下述方式实现:一开始定义Bark频谱频率上限Bh(i),i=1,2,...,25(可以使用的常规数学策略),以便Bark子带上限是(单位:Hz):
Bh=[100 200 300 400 510 630 770 920 1080 1270 1480 1720 2000];
Bh=[Bh 2320 2700 3150 3700 4400 5300 6400 7700 9500 1200015500 22200];
接着,通过平均落入第i Bark频带的所有子带的信号功率来计算第i Bark频谱功率Pas(i)。然后通过Tr(i)=Pas(i)-Rfac计算带内屏蔽阈值Tr(i)(所有数值的单位都是dB)。参数Rfac,它最好被设置为7dB,确定带内屏蔽阈值级。这可以通过一个数学循环程序来实现以生成Bark功率频谱和Bark中央阈值。
如图13的方框1314所示,随后计算一个简化Bark阈值频谱。图14图示根据本发明的简化Bark阈值计算。最好通过考虑穿越临界频带的横向屏蔽来计算“频谱Bark阈值”。即,并不如前面的方法所建议的利用矩阵算子执行一个完整卷积,本发明使用通过卷积所有Bark频谱值与三角衰变生成的曲线中的最大阈值曲线。三角衰变对于左侧是-25dB/Bark(扩展到低频)和对于右侧是+10dB/Bark(扩展到高频)。用于Bark频谱阈值扩展的本发明的方法具有复杂度O(Lsb),其中Lsb是由信号带宽覆盖的Bark子带数目,而前面的方法一般具有复杂度O(Lsb2)。
如图13的方框1316所示,然后通过比较扩展Bark阈值与绝对Fletcher-Munson阈值,并将两者中的较高者用于所有的Bark子带,调整听觉阈值。这可以通过一个简单程序来实现,例如通过调整考虑绝对屏蔽的阈值。在一个程序中,阈值向量(多达25个每块)被量化成预定精度级别,一般设置为2.5dB,并且2至4比特/阈值被差分编码。
对于加权函数的部分白化,如图13的方框1318所示,以较低的速率,例如1比特/抽样,不可能将所有的量化噪声隐藏在屏蔽阈值之下。在这种特定情况下,最好不要将量化噪声在所有子带提高得高于屏蔽阈值相同的db值,因为低频未屏蔽噪声通常更加有害。因此,假设wMT(k)是如上计算的加权,本发明的编码器使用最终的加权:
w(k)=[wMT(k)α
其中α是可以从低速率上的0.5变化到高速率上的1的参数,并最好使用屏蔽阈值的分数幂。在先前的听觉编码器中,在所有频率上相等地将量化噪声提高得高于屏蔽阈值,如同降低比特率。相反,使用本发明,例如,可以将部分白化参数α设置为0至1之间的一个数(优选地,α=0.5)。这导致噪声频谱在其原先较低的频率上被提得很高。换句话说,当α<1时噪声频谱峰值被衰减。
接着,用于表示w′(k)的辅助信息(side frequency)的数值取决于抽样频率fs。例如,对于fs=8kHz,需要大约17Bark谱值,对于fs=44.1kHz,需要大约25Bark谱值。假设-10dB/Bark频带的到更高子带的段间扩展和用2.5dB精度的差分编码,需要大约3比特/Bark系数。可以利用标量量化器量化加权变换系数(从连续值变换成离散值)。
具体地说,对于标量量化,最终加权函数w(k)确定将最不容易觉察的量化噪声的频谱形状,根据上面讨论的模型。因此,每个子带频率系数X(k)应当用与w(k)成比例的步长量化。一个等效程序将所有的X(k)除以加权函数,然后对所有系数X(k)以相同步长进行均匀量化。一个典型的实现是执行下述:
Xr=round(X/dt);%quantize(量化)
Xqr=(Xr+Rqnoise)*dt;%scale back,adding pseudo-randomnoise(量化回归,加入伪随机噪声)
其中dt是量化步长。向量Rqnoise由均匀分布在[-γ,γ]之间的伪随机变量组成,其中γ是最好在0.1和0.5倍量化步长dt之间选择。通过相加少量噪声和重建系数(一个解码器操作),可以减少因频谱分量丢失导致的人工噪声。这可以被称为拦动、伪随机量化或噪声填充。
编码
在信息理论中典型的离散信源编码问题是以最经济的编码表示信源码元的问题。例如,假设信源在每个瞬间i上发送码元si,并且码元si属于字母表Z。并且,假设码元si和si是统计独立的,具有概率分布Prob{si=zn}=Pn,其中n=0,1,…,N-1,并且N是字母表大小,即可能的码元数。因此,编码设计问题是发现利用信道码元通常是比特来表示码元si的方法。
可以使用普通编码为每个可能码元值zn分配一个M比特模式,如下表所示:
信源码元     码字
    Z0   00...000
    Z1   00...001
    Z2   00...010
    …      
    Zn-1   11…111
在这种情况下,编码使用M/码元。显然一个唯一的表示需要M≥log2(N)。
更好的编码是给每个信源码元分配长度可变的码字。较短的码字被分配给概率高的码元;较长的码字被分配给概率较低所码元。举一个例子,假设一个信源具有字母表Z={a,b,c,d}和概率pa=1/2,pb=pc=pd=1/6。用于该信源的一个可能的长度可变编码将是:
信源码元   码字
    A     0
    B     10
    C     110
    D     111
对于长消息,预期编码长度L由L=∑pnln给出,以比特/信源码元,在此ln是编码码元zn的长度。相对于将需要2比特/码元的直接二进制编码的编码长度,这样更好。
在上述例子中,使用公知的哈夫曼算法生成码字。最终的码字分配被称为用于该信源的哈夫曼编码。在最小化在所有可能的长度可变码字中预期编码长度L的意义上,哈夫曼编码是最佳的。熵是信源内部信息内容的测量值。通过E=-∑pnlog2(pn)以比特每码元来测量熵。编码理论规定用于任一编码的预期编码长度不能少于信源熵。例如上述信源,熵是E=-(1/2)log2(1/2)-(1/2)log2(1/6)=1.793比特/码元。可以看出哈夫曼编码长度非常接近于最佳。
另一种可能编码是将固定长度的码字分配给信源码元串。这种串具有可变长度,并且编码效率得自频繁出现的长串可以仅用一个码字来替代。一个例子是下表中的编码。对于该编码,码字始终具有四个比特,但它被用于表示不同长度的串。根据上表中的概率能够轻易地计算出平均信源串长度,将是K=25/12=2.083。因为这些串用四个比特表示,比特速率是4*12/25=1.92比特/码元。
  信源串   串概率     码字
    D     1/6     0000
    Ab     1/12     0001
    Ac     1/12     0010
    Ad     1/12     0011
    Ba     1/12     0100
    Bb     1/36     0101
    Bc     1/36     0110
    Bd     1/36     0111
    Ca     1/12     1000
    Cb     1/36     1001
    Cc     1/36     1010
    Cd     1/36     1011
    Aaa     1/8     1100
    Aab     1/24     1101
    Aac     1/24     1110
    Aad     1/24     1111
在上述例子中,使用B.P.Tunstall的标题为“无噪声压缩编码合成”(博士论文,乔治亚州大学,Technol,乔治亚州亚特兰大市,1967年)参考文献中的技术确定用每个码字(即字符串表)映射字符串的选择。使用该表的编码称作Tunstall编码。在最小化在所有可能的长度可变到固定编码中的预期编码长度L的意义上,可以看出Tunstall编码是最佳的,Tunstall编码可以被视为双哈夫曼编码。
在这个例子中,Tunstall编码可能没有哈夫曼编码有效,然而,可以表明Tunstall编码的性能随着编码长度的增加即随着字符串表长度的增加将接近信源的熵。根据本发明,Tunstall编码具有相对于哈夫曼编码的优点即更快的解码。这是因为每个码字始终具有相同的比特数,因此更容易分析(在下文详细讨论)。
因此,如图15所示,本发明最好使用熵编码器,它可以是行程编码器和Tunstall编码器。即,图15是表示根据本发明用于执行熵编码的系统和方法的流程图。参考图15和图13,根据本发明,图15表示最好是可变长度熵编码器的一个编码器。
熵是由诸如概率模型的模型提供的信息表示(换句话说,在消息中所包含信息的测量值)。最佳熵编码器生成在一个消息中用一个码元表示的平均信息量,并且是用于生成消息的概率模型的函数(在下文更详细地说明)。增加模型的复杂性以便模型更好地反映信源码元在始发消息中的实际分配以减少消息。最佳熵编码器利用行程编码器继之以诸如常规Tunstall编码器的可变-固定长度编码器编码量化系数。
行程编码器为零序列降低码元速率。可变-固定长度编码器从信源输出的可变长度字符串的一个字典中映射到一组给定长度的码字。可变-给定长度编码使用与信源输出相关的统计。Tunstall编码器使用可变-固定长度编码器为离散、无后效的信源最大化每字典字符串的信源字母预期数。换句话说,输入序列被划分长可变长度块以最大化平均消息长度,并将每块分配给固定长度编码。
先前的编码器,例如ASPEC,使用对变换系数子集的行程编码,并用诸如哈夫曼编码器的矢量固定-可变长度编码器编码非零系数。相反,本发明最好使用行程编码器,它对由所有量化变换系数构成的矢量执行操作,实质上是建立一个新码元信源,其中量化零值的游程被用定义游程长度的码元替代。当游程中零的数量在范围[Rmin,Rmax]中时,本发明的行程编码器用特定码元替代零的游程。某种情况下,例如通过简单地设置Rmax<Rmin可以关闭行程编码器。
Tunstall编码器没有被广泛地使用,因为编码器的效率与信源码元的概率模型直接相关。例如,当设计用于压缩的编码时,如果对于信源有好的模型可以进行更有效的编码,即模型越好,压缩越好。结果,为了有效地编码,需要好的概率分布模型以为编码器建立一个合适的字符串字典。如下所述,本发明使用一个充分概率模型,它使Tunstall编码切实可行和有效。
一般来说,如上所述,量化系数被用行程编码器继之以可变-固定长度块编码器进行编码。具体地说,首先,由计算模块作为一个数据块接收量化变换系数q(k),用于为该块计算最大绝对值(方框1510)。即,扫描所有量化值以确定最大幅值A=max|Xr(k)|。然后,由近似模块量化A(方框1512),该近似模块用于使用vr≥A来近似A,vr是[4,512]范围内的2的幂。从而用3个比特编码vr的值并发送给解码器。接着,替换模块接收q(k)并连接到近似模块,用表示游程长度的可变-固定长度编码字典中定义(图16的方框1610,将在下文详细描述)的新码元替代范围[Rmin,Rmax]中零的游程(方框1514)。利用根据本发明的参数建模技术计算这个字典,如下文在图16中描述中。随后,用于诸如Tunstall编码器的可变-固定长度编码器编码结果值s(k)(方框1516),以生成信道码元(信息比特)。另外,因为熵编码器的效率直接取决于所用的概率模型,需要结合根据本发明的好的参数模型,如下文将详细讨论的。
参数建模
图16是表示根据本发明用于使用概率建模执行熵编码的系统和方法的流程图。如上所述,熵编码器的效率与概率模型的质量直接相关。如图16所示,编码器需要一个输入字符串的字典,它可以用简单算法来建立以根据码元概率编辑一个输入字符串字典(下文详细说明)。尽管可以使用算术编码器或哈夫曼编码器,诸如上述Tunstall编码器的可变-固定长度编码器可以使用本发明的参数模型和简化解码实现接近算术编码器的效率。这是因为所有的Tunstall码字具有相同的长度,例如它可以被设置为一个字节。
而且,与诸如清晰话音的简单信号相比,当前的变换编码器通常对诸如音乐的复杂信号可以更加有效地执行。这是因为与这种信号相关的更高的屏蔽级别和由当前变换编码器使用的熵编码类型。因此,对于清晰话音,以低比特率工作的当前变换编码器可能不能再生优良的谐波结构。即对于有声话音和以大约1比特/抽样的速率,量化步长足够大以使大多数变换系数量化为零,除了基本声域频率的谐波之外。然而,使用上述熵编码器和下述的参数建模,与诸如一阶编码器的当前熵编码系统所推算的结果相比,本发明能够生成更好的结果。
一般来说,本发明的参数建模使用量化和游程长度编码变换参数的概率分布函数(PDF)的模型。通常,使用熵编码(一般是哈夫曼编码)的编解码器从音频抽样集中获取的频率分布图中得出PDF(和它们相应的量化表)。相反,本发明使用适合每个输入块的改进拉普拉斯算子+指数概率密度,它允许更好的编码性能。本发明的PDF模型的一个优点是它的形状由单个参数控制,该参数与量化系数的峰值直接相关。这导致不需要模型选择的计算开销,并且实际上不需要给解码器指定模型的开销。最后,本发明使用二进制搜索程序确定最佳量化步长。如下所述的二进制搜索程序比先前的方法简单得多,先前的方法例如在每次迭代中执行与屏蔽阈值相关的附加计算的方法。
具体地说,本发明的概率分布模型最好使用一个改进拉普拉斯算子+指数概率密度函数(PDF)以适合每个输入块的量化变换系数的频率分布图。PDF模型由在上述图15的方框1510中所述的参数A控制(注意A用vr近似,如图15的方框1512所示)。因此,PDF模型由下式定义:
其中变换和游程编码码元s属于下述字母表:
    量化值     码元
  -A,-A+1,...A     0,1,...,2A
  Rmin个零的游程     2A+1
  Rmin+1个零的游程     2A+2
       ....     ....
  Rmax个零的游程   2A+1+Rmax-Rmin
对于用于步长优化的二进制搜索,如上所述在标量量化中使用的量化步长dt控制创建保真度和比特速率之间的权衡。较小的量化步长产生较好的保真度和较高的比特速率。对于固定速率应用,需要重复调整量化步长直到码元编码器(Tunstall)输出上的比特速率尽可能地匹配希望的速率(而不超过它)。
几种技术可用于调整步长。一种技术包括:1)开始于量化步长,用dB表示,dt=dt0,其中dt0是根据输入定标的一个参数。2)设置kdd=16,并检查用dt获得的速率。如果超过预算,通过dt=dt+kdd改变步长,或者通过dt=dt-kdd改变它。3)重复上述步骤,在每次迭代时将kdd除以2(二进制搜索),直到kdd=1,即以1dB内的精度确定最佳步长。很容易看出这个程序可以生成最多64个不同步长,因此,最佳步长用7个比特表示并发送给解码器。
再次参考图6,表示根据本发明用于解码音频信号的系统的总方框/流程图。该解码器使用合适的相反处理步骤,如图6所示。可变-固定长度解码器(例如Tunstall解码器)和游程解码模块接收编码比特流和与PDF范围参数相关的辅助信息,用于恢复量化变换系数。连接到可变-固定游程长度解码器的均匀去量化模块和游程长度解码模块从均匀量化重建,用于恢复加权NMLBT变换系数的近似值。一个反加权模块执行反加权,用于使变换系数返回它们用于反变换的合适的标度范围。反NMLBT变换模块将近似值恢复到初始信号块。可用信道比特率越大,量化步长越小,因而重建的保真度越好。
应当注意到因为两个原因使解码器的计算复杂性比编码器低。第一,诸如Tunstall解码的可变-固定长度解码(仅需要表查找)比它的对应编码(需要串查找)快。第二,因为已知步长,仅使用一次去量化(不需要循环,与编码器不同)。然而,无论如何,对于编码器和解码器,在NMLBT中有大量的计算,它可以通过快速付立叶变换来有效地计算。
已经为说明和描述目的进行了本发明的上述说明。它将不是穷尽的,也不是将本发明限制到所公开的具体形式。在上述教导的启示下可以进行多种修改和变化。本发明的范围将由权利要求书而非详细说明来限制。

Claims (11)

1.一种处理输入信号的系统中包括一个存储在系统的计算机可读存储器中的编码器,用于对输入信号进行编码,该编码器包括:
一个多分辨率转换处理器(310),接收输入信号并生成具有转换参数的非均匀调制的重叠双正交变换;和
一个加权处理器(312),具有一个屏蔽阈值频谱处理器(316),能够对变换系数进行频谱加权和部分白化以屏蔽量化噪声。
2.根据权利要求1的编码器,其中通过以下方式来对变换系数进行部分白化(418):白化预定的加权函数和使每个加权函数变平以生成最终权值从而使噪声频谱峰值衰减,和利用最终权值作为一个函数来屏蔽量化噪声。
3.根据权利要求1的编码器,其中变换系数通过以近似于听觉模型的临界频带的一个准对数标度计算的一个屏蔽频谱阈值(1312)来频谱加权(412),多个扩展屏蔽阈值在每个临界频带被计算作为来自相邻临界频带影响的最大值(1314),并调整扩展屏蔽阈值生成一个绝对阈值(1316)。
4.根据权利要求1的编码器,还包括一个解码编码的输入信号的解码器,其中解码器包括一个反加权处理器,具有一个反屏蔽阈值频谱处理器,它接收解码的信号并去屏蔽量化噪声,和一个反多分辨率转换处理器,它接收去屏蔽的编码信号和编码信号的非均匀调制的重叠双正交转换,以生成一个输出信号作为输入信号的可察觉的透明再生。
5.一种对输入信号进行编码的方法,该方法在包括处理输入信号的编码器的一个系统中实施,该方法包括:
接收输入信号和计算一个具有频率分量的调制的重叠变换(400);
组合频率分量以生成具有变换系数的非均匀调制的重叠双正交变换(410);
计算具有听觉屏蔽能力的加权函数;和
将加权函数应用于非均匀调制的重叠双正交变换的变换系数(412)。
6.在一个系统中具有一个生成带有给定带宽并有量化噪声的输入信号的变换处理器,一种用于屏蔽量化噪声的方法,该方法包括:
计算以准对准标度的屏蔽频谱阈值,它近似于听觉模型的临界频带(1312);
计算在每个临界频带的多个扩展屏蔽阈值作为一个来自相邻临界频带的作用的最大值(1314);和
调整扩展屏蔽阈值以生成一个绝对阈值(1316)。
7.根据权利要求6的方法,其中计算屏蔽频谱阈值包括定义准对数标度的子带频率上限,通过平均所有子带的信号功率来计算准对数标度的多个频谱功率,和计算一个带内屏蔽阈值(1312)。
8.根据权利要求6的方法,其中调整扩展屏蔽阈值包括比较扩展屏蔽阈值和模型阈值,其中一个最高值被用于所有子带(1316)。
9.根据权利要求6的方法,其中计算多个扩展屏蔽阈值包括考虑横向屏蔽穿过临界频带,并通过卷积准对数标度的频谱值与三角衰变来计算最大阈值(1314)。
10.根据权利要求9的方法,其中计算最大阈值包括计算通过卷积所有Bark频谱值与三角衰变产生的一个阈值。
11.根据权利要求6的方法,其中计算在每个临界频带的多个扩展屏蔽阈值作为来自相邻临界频带的作用的最大值包括低频扩展极限初始化为一个由卷积频谱值与一个三角衰变表示的一个最大值,并重复地重设低频扩展极限和高频扩展极限,直到由信号带宽覆盖了理想数目的子带(1314)。
CNB998090123A 1998-05-27 1999-05-27 输入信号处理系统的编码器和屏蔽频信号量化噪声方法 Expired - Fee Related CN1146130C (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US09/085,620 US6115689A (en) 1998-05-27 1998-05-27 Scalable audio coder and decoder
US09/109,345 1998-06-30
US09/109,345 US6029126A (en) 1998-06-30 1998-06-30 Scalable audio coder and decoder
US09/085,620 1998-06-30

Publications (2)

Publication Number Publication Date
CN1312976A CN1312976A (zh) 2001-09-12
CN1146130C true CN1146130C (zh) 2004-04-14

Family

ID=26772919

Family Applications (3)

Application Number Title Priority Date Filing Date
CN99809011.5A Expired - Fee Related CN1183685C (zh) 1998-05-27 1999-05-27 用于熵编码信号量化变换系数的系统和方法
CNB998090131A Expired - Fee Related CN100361405C (zh) 1998-05-27 1999-05-27 利用可升级的音频编码器和解码器处理输入信号的方法
CNB998090123A Expired - Fee Related CN1146130C (zh) 1998-05-27 1999-05-27 输入信号处理系统的编码器和屏蔽频信号量化噪声方法

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN99809011.5A Expired - Fee Related CN1183685C (zh) 1998-05-27 1999-05-27 用于熵编码信号量化变换系数的系统和方法
CNB998090131A Expired - Fee Related CN100361405C (zh) 1998-05-27 1999-05-27 利用可升级的音频编码器和解码器处理输入信号的方法

Country Status (7)

Country Link
EP (4) EP1080542B1 (zh)
JP (3) JP4864201B2 (zh)
CN (3) CN1183685C (zh)
AT (4) ATE384358T1 (zh)
AU (3) AU4218299A (zh)
DE (4) DE69930848T2 (zh)
WO (3) WO1999062052A2 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU3707300A (en) * 1999-02-26 2000-09-14 Microsoft Corporation A system and method for producing modulated complex lapped transforms
US6826242B2 (en) * 2001-01-16 2004-11-30 Broadcom Corporation Method for whitening colored noise in a communication system
KR20040055788A (ko) * 2001-10-19 2004-06-26 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 모델 파라미터들의 주파수 차동 인코딩
DE10204617B4 (de) * 2002-02-05 2005-02-03 Siemens Ag Verfahren und Vorrichtungen zur Kompression und Dekompression eines Videodatenstroms
ES2915662T3 (es) * 2002-09-20 2022-06-24 Ntt Docomo Inc Método y aparato para codificación aritmética
US7395210B2 (en) * 2002-11-21 2008-07-01 Microsoft Corporation Progressive to lossless embedded audio coder (PLEAC) with multiple factorization reversible transform
CN100339886C (zh) * 2003-04-10 2007-09-26 联发科技股份有限公司 可以检测声音信号的暂态位置的编码器及编码方法
US8627213B1 (en) * 2004-08-10 2014-01-07 Hewlett-Packard Development Company, L.P. Chat room system to provide binaural sound at a user location
CN101046963B (zh) * 2004-09-17 2011-03-23 广州广晟数码技术有限公司 解码经编码的音频数据流的方法
AU2011221401B2 (en) * 2005-06-17 2014-05-01 Dts (Bvi) Limited Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
RU2340114C1 (ru) * 2005-11-18 2008-11-27 Сони Корпорейшн Устройство и способ кодирования, устройство и способ декодирования и система передачи
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
DE102006051673A1 (de) * 2006-11-02 2008-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
CN103594090B (zh) * 2007-08-27 2017-10-10 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
EP2267700B1 (en) * 2009-06-22 2011-12-21 APT Licensing Limited Apparatus and method for selecting quantisation bands in audio encoders
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
US20110292247A1 (en) 2010-05-27 2011-12-01 Sony Corporation Image compression method with random access capability
EP2619758B1 (en) * 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
CN102103859B (zh) * 2011-01-11 2012-04-11 东南大学 一种数字音频编码、解码方法及装置
CN103117793B (zh) * 2013-01-25 2015-04-08 西安电子科技大学 多用户频谱感知中的伪均匀量化方法
ES2763280T3 (es) * 2014-05-08 2020-05-27 Ericsson Telefon Ab L M Clasificador de señales de audio
EP2992898A1 (en) 2014-09-04 2016-03-09 Klinikum rechts der Isar der Technischen Universität München T-cell adjuvant and its use for therapeutic or prophylactic vaccination
US9430676B1 (en) 2015-03-17 2016-08-30 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Processor related noise encryptor
CN109193787B (zh) * 2018-10-28 2021-07-06 国网吉林省电力有限公司四平供电公司 一种含新能源配电网的谐波路径识别方法
US11726761B2 (en) * 2019-03-26 2023-08-15 Tymphany Acoustic Technology (Huizhou) Co., Ltd. Firmware upgrade for wireless stereo earbuds
CN113365176B (zh) * 2020-03-03 2023-04-28 华为技术有限公司 一种实现主动噪声消除的方法、装置和电子设备
WO2024008928A1 (en) * 2022-07-07 2024-01-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Masking threshold determinator, audio encoder, method and computer program for determining a masking threshold information

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4929946A (en) * 1989-02-09 1990-05-29 Storage Technology Corporation Adaptive data compression apparatus including run length encoding for a tape drive system
CA2020084C (en) * 1989-06-29 1994-10-18 Kohei Iseda Voice coding/decoding system having selected coders and entropy coders
US5185800A (en) * 1989-10-13 1993-02-09 Centre National D'etudes Des Telecommunications Bit allocation device for transformed digital audio broadcasting signals with adaptive quantization based on psychoauditive criterion
JPH05119800A (ja) * 1991-10-24 1993-05-18 Kyocera Corp デジタル音声データの高能率圧縮方法
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP3191457B2 (ja) * 1992-10-31 2001-07-23 ソニー株式会社 高能率符号化装置、ノイズスペクトル変更装置及び方法
WO1995002240A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation A fixed bit rate speech encoder/decoder
JPH07261797A (ja) * 1994-03-18 1995-10-13 Mitsubishi Electric Corp 信号符号化装置及び信号復号化装置
JPH0836399A (ja) * 1994-07-21 1996-02-06 Sony Corp オーディオ符号化データの処理装置
JP3291948B2 (ja) * 1994-12-15 2002-06-17 ソニー株式会社 高能率符号化方法及び装置、並びに伝送媒体
EP0749647B1 (en) * 1995-01-09 2003-02-12 Koninklijke Philips Electronics N.V. Method and apparatus for determining a masked threshold
US5870036A (en) * 1995-02-24 1999-02-09 International Business Machines Corporation Adaptive multiple dictionary data compression
US5627534A (en) * 1995-03-23 1997-05-06 International Business Machines Corporation Dual stage compression of bit mapped image data using refined run length and LZ compression
US5692102A (en) * 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
JPH09135173A (ja) * 1995-11-10 1997-05-20 Sony Corp 符号化装置および符号化方法、復号化装置および復号化方法、伝送装置および伝送方法、並びに記録媒体
JP3353266B2 (ja) * 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法
JP3318825B2 (ja) * 1996-08-20 2002-08-26 ソニー株式会社 デジタル信号符号化処理方法、デジタル信号符号化処理装置、デジタル信号記録方法、デジタル信号記録装置、記録媒体、デジタル信号伝送方法及びデジタル信号伝送装置
JP3264626B2 (ja) * 1996-08-21 2002-03-11 松下電器産業株式会社 ベクトル量子化装置
US5924064A (en) * 1996-10-07 1999-07-13 Picturetel Corporation Variable length coding using a plurality of region bit allocation patterns

Also Published As

Publication number Publication date
EP1080579B1 (en) 2006-04-12
DE69930848T2 (de) 2006-09-07
CN1312977A (zh) 2001-09-12
EP1080542A2 (en) 2001-03-07
CN1183685C (zh) 2005-01-05
EP1701452A1 (en) 2006-09-13
DE69930848D1 (de) 2006-05-24
DE69923555D1 (de) 2005-03-10
JP2002517023A (ja) 2002-06-11
ATE288613T1 (de) 2005-02-15
WO1999062253A3 (en) 2000-03-09
EP1080579A2 (en) 2001-03-07
EP1080462A2 (en) 2001-03-07
WO1999062052A3 (en) 2000-03-09
EP1080462B1 (en) 2005-02-02
WO1999062189A2 (en) 1999-12-02
DE69938016T2 (de) 2008-05-15
JP4570250B2 (ja) 2010-10-27
AU4218199A (en) 1999-12-13
CN1312976A (zh) 2001-09-12
ATE323377T1 (de) 2006-04-15
AU4218299A (en) 1999-12-13
JP4864201B2 (ja) 2012-02-01
CN100361405C (zh) 2008-01-09
WO1999062189A3 (en) 2000-03-16
ATE339037T1 (de) 2006-09-15
CN1312974A (zh) 2001-09-12
DE69923555T2 (de) 2006-02-16
JP4373006B2 (ja) 2009-11-25
AU4218099A (en) 1999-12-13
EP1080542B1 (en) 2006-09-06
ATE384358T1 (de) 2008-02-15
JP2002517025A (ja) 2002-06-11
WO1999062253A2 (en) 1999-12-02
WO1999062052A2 (en) 1999-12-02
DE69933119T2 (de) 2007-09-13
EP1701452B1 (en) 2008-01-16
JP2002517019A (ja) 2002-06-11
DE69938016D1 (de) 2008-03-06
DE69933119D1 (de) 2006-10-19

Similar Documents

Publication Publication Date Title
CN1146130C (zh) 输入信号处理系统的编码器和屏蔽频信号量化噪声方法
US6253165B1 (en) System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6240380B1 (en) System and method for partially whitening and quantizing weighting functions of audio signals
US6029126A (en) Scalable audio coder and decoder
RU2555221C2 (ru) Канальное кодирование на основе комплексного преобразования с частотным кодированием с расширенной полосой
EP1914724B1 (en) Dual-transform coding of audio signals
US7136418B2 (en) Scalable and perceptually ranked signal coding and decoding
JP3297051B2 (ja) 適応ビット配分符号化装置及び方法
EP1914725B1 (en) Fast lattice vector quantization
JP3513292B2 (ja) 雑音荷重フィルタリング方法
CN1111959C (zh) 量化装置、量化方法、高效率编码装置、高效率编码方法、解码装置和高效率解码装置
EP0884850A2 (en) Scalable audio coding/decoding method and apparatus
CN1662958A (zh) 使用频谱孔填充的音频编码系统
CN1675683A (zh) 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
JP2003323198A (ja) 符号化方法及び装置、復号方法及び装置、並びにプログラム及び記録媒体
JP3900000B2 (ja) 符号化方法及び装置、復号方法及び装置、並びにプログラム
JP3923783B2 (ja) 符号化装置及び復号化装置
CA2303711C (en) Method for noise weighting filtering
Pinnell Adaptive transform coding of speech signals
Bhaskaran et al. Standards for Audio Compression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CI01 Publication of corrected invention patent application

Correction item: The patent right of invention is granted [30] priority

Correct: [32]1998.05.27[33]US[31]09/085,620 [32]1998.06.30[33]US[31]09/109,345

False: [32]1998.05.27[33]US[31]09/085,620

Number: 15

Page: 447

Volume: 20

CI03 Correction of invention patent

Correction item: The patent right of invention is granted [30] priority

Correct: [32]1998.05.27[33]US[31]09/085,620 [32]1998.06.30[33]US[31]09/109,345

False: [32]1998.05.27[33]US[31]09/085,620

Number: 15

Page: The title page

Volume: 20

COR Change of bibliographic data

Free format text: CORRECT: GRANTING PATENT RIGHT OF INVENTION ¢30!PRIORITY; FROM: ¢32!1998.5.27 ¢33!US¢31!09/085,620 TO: ¢32!1998.5.27 ¢33!US¢31!09/085,620 ¢32!1998.6.30 ¢33!US¢31!09/109,345

ERR Gazette correction

Free format text: CORRECT: GRANTING PATENT RIGHT OF INVENTION ¢30!PRIORITY; FROM: ¢32!1998.5.27 ¢33!US¢31!09/085,620 TO: ¢32!1998.5.27 ¢33!US¢31!09/085,620 ¢32!1998.6.30 ¢33!US¢31!09/109,345

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150512

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150512

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040414

Termination date: 20180527

CF01 Termination of patent right due to non-payment of annual fee