CN103999154B - 用于音频编码的装置和方法 - Google Patents

用于音频编码的装置和方法 Download PDF

Info

Publication number
CN103999154B
CN103999154B CN201280061303.3A CN201280061303A CN103999154B CN 103999154 B CN103999154 B CN 103999154B CN 201280061303 A CN201280061303 A CN 201280061303A CN 103999154 B CN103999154 B CN 103999154B
Authority
CN
China
Prior art keywords
bandwidth
energy
sound signal
coding
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280061303.3A
Other languages
English (en)
Other versions
CN103999154A (zh
Inventor
霍利·L·弗朗索瓦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google Technology Holdings LLC
Original Assignee
Motorola Mobility LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Mobility LLC filed Critical Motorola Mobility LLC
Publication of CN103999154A publication Critical patent/CN103999154A/zh
Application granted granted Critical
Publication of CN103999154B publication Critical patent/CN103999154B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供用于编码音频信号的方法(600)以及装置(100)。接收(605)比特率值(141)。基于比特率值选择(810)多个阈值集合中的能量阈值(371)集合。每个能量阈值集合的能量阈值与接收到的音频信号(615)的子带集合以一对一为基础对应。确定(620)子带集合的每个子带的能量。确定(625)具有超过对应阈值的能量的最高频率子带。编码(630)音频信号的所选带宽。音频信号的所选带宽只包含在具有超过对应阈值的能量的最高频率子带中的音频信号的那些频率,以及在高通截止频率之上的音频信号的较低频率。

Description

用于音频编码的装置和方法
技术领域
本发明总体涉及音频编码以及解码。
背景技术
在过去的20年中微处理器速度呈若干个数量级的增长并且数字信号处理器(DSP)变得无所不在。由模拟通信转变为数字通信是可行的并且是有吸引力的。数字通信提供了能够更有效地利用带宽并且允许使用误差校正技术的主要优势。因此通过使用数字技术,人们能够通过给定的分配的谱空间发送更多信息并且更可靠地发送信息。数字通信能够使用无线电链路(无线)或物理网络介质(例如,光纤、铜网络)。
例如,数字通信能够被使用在诸如语音、音频、图像、视频或遥感的不同类型的通信中。数字通信系统包含发送设备以及接收设备。在能够进行双向通信的系统中,每个设备都具有发送和接收电路二者。在数字发送或接收设备中有多级处理,通过该多级处理信号和合成数据在信号在输入端(例如,麦克风、相机、传感器)被接收的级与信号的数字化版本用于调制载波并被发射的级之间被传递。在(1)信号在输入端被接收并且之后被数字化之后,(2)可以应用一些初始噪声滤波,随后(3)信源编码和(4)最终信道编码。在接收端设备中,该过程按照相反的顺序进行;信道解码,信源恢复,之后变换为模拟。在后续页中将会描述的本发明能够被认为主要落入到信源编码级。
信源编码的主要目标是降低比特率,同时尽量保持感知质量。对于不同类型的媒体已经发展出不同的标准。
附图说明
被认为是新颖的本发明的特点在所附权利要求中特别说明。然而,本发明本身,作为组织以及操作方法二者,与其目标以及优势一起,可以通过参考下述详细说明书被最好的理解,该说明书描述了包含本发明的概念的某些示例性实施例。说明书意欲结合附图被理解,在附图中:
图1是根据某些实施例的通信设备的框图。
图2是根据某些实施例的通信设备的音频编码功能的框图。
图3是根据某些实施例的音频编码功能的子带谱分析功能的框图。
图4示出根据某些实施例的在通信设备中的一些示例性信号的时序图。
图5示出根据某些实施例的来自图4的时序图的扩大部分。
图6-9是示出根据各种实施例的音频编码功能的操作的流程图。
技术人员将会理解图中的元素是为简单清晰起见而图示的并且不必按比例画出。例如,图中的一些元素的尺寸相对于其他元素可以被夸大以帮助提高本发明的实施例的理解。
具体实施方式
尽管本发明容许许多不同形式的实施例,但是在附图中示出并且将会在本文被详细描述特定的实施例,需要理解本公开被认为是本发明的原理的示例并且不意欲将本发明限制为所示以及所描述的特定的实施例。在下面的说明书中,相同的附图标记用于描述在附图的若干个视图中的相同、相似或相对应的部分。
在本文献中,诸如第一和第二,顶端和底端等关系术语可以仅用来区分一个实体或动作与另一个实体或动作,而不必要求或暗示这些实体或动作间的任何实际的这样的关系或顺序。术语“包括(comprises)”、“包括(comprising)”或任何其其他变化,意欲涵盖非排他的包含,以便包括元素列表的过程、方法、物品或装置不只包含那些元素而且可以包含没有显式列出或在这些过程、方法、物品或装置中固有的其他元素。继之以“包括…一(comprises…a)”的元素,在没有更多限制的情况下,排除在包括该元素的过程、方法、物品或装置中的额外相同元素的出现。
贯穿本文献对“一个实施例”“某些实施例”“实施例”或类似的术语的引用意味着结合实施例描述的特定的特点、结构或特性被包含在本发明的至少一个实施例中。因此,贯穿本说明书这样的短语或在各种地方的出现不必指向相同的实施例。此外,特定的特点、结构或特性可以在一个或多个实施例中以任何合适的方式没有限制的结合。
本文使用的术语“或”将会被理解为包含的或意味任何一个或任何组合。因而,“A,B或C”意味着“以下任意一个:A;B;C;A和B;A和C;B和C;A,B和C”。该定义的例外只有当元素、功能、步骤或行为以一些固有的互相排斥的方式组合时发生。
本文所述的实施例涉及编码信号。信号能够是变换为数字信息并且通过有线或无线通信的语音或诸如音乐的其他音频。
现在转向附图,其中相同的附图标记指示相同的部件,图1是根据某些实施例的无线电子通信设备100的框图。无线电子通信设备100代表许多种类的无线通信设备,诸如移动蜂窝电话、移动个人通信设备、蜂窝基站以及装配有无线通信功能的个人计算机。根据一些实施例,无线电子通信设备100包括无线电系统199、人机接口系统120以及射频(RF)天线108。
人机接口系统120是包括下述的系统:处理系统和支持该处理系统的电子部件,诸如外部I/O电路以及功率控制电路,还有与用户对接的电子部件,诸如麦克风102、显示/触摸键盘104以及扬声器106。处理系统包括中央处理单元(CPU)以及存储器。CPU处理存储在存储器中的主要涉及在移动通信设备100的人机接口方面的软件指令,诸如在显示/键盘104上呈现信息(列表、菜单、图形等)并且检测在显示/键盘104的触摸表面上人的录入。这些功能被示出为人机接口应用(HIA)130的集合。HIA130还可以通过模拟/数字(A/D)转换器125从麦克风102接收语音音频,之后执行该语音的语音识别并且响应于语音做出的命令。HIA130还可以通过数字到模拟转换器(D/A)135发送诸如铃声的音给扬声器106。人机接口系统120可以包括图1中未示出的其他人机接口设备,诸如触觉设备以及相机。
无线电系统199是包括下述的系统:处理系统以及支持该处理系统的电子部件,诸如外部I/O电路以及功率控制电路,还有对接到天线的电子部件,诸如RF放大器。处理系统包括中央处理单元(CPU)以及存储器。CPU处理存储在存储器中的主要涉及在移动通信设备100的无线电接口方面的软件指令,诸如发射被编码为数据分组的数字化信号(示出为发射机系统170)并且接收解码为数字化信号的数据分组(示出为接收机系统140)。但是对于天线108以及接收机系统140和发射机系统170的某些射频接口部分(未在图1中显式示出),无线电子通信设备100还将代表许多诸如电缆节点的有线通信设备。下面的一些实施例是个人通信设备。
接收机系统140耦接到天线108。天线108截获可以包含具有数字编码信号的信道的射频(RF)信号。截获的信号耦接到接收机系统140,该接收机系统140解码该信号并且在这些实施例中将恢复的数字信号耦接到人机接口系统120,该人机接口系统120将该信号转换为模拟信号以驱动扬声器。在其他实施例中,恢复的数字信号可以被用于在人机接口系统120的显示器上呈现图像或视频。发射机系统170从人机接口系统120接受数字化信号126,例如可以是数字化语音信号、数字化音乐信号、数字化图像信号或数字化视频信号,其可以从接收机系统140被耦接、存储在无线电子通信设备100中,或者来源于耦接到电子通信设备100的电子设备(未示出)。数字化信号是已经以周期数字化采样率被采样的信号。数字化采样率例如可以是8KHz、16KHz、32KHz、48KHz或其他不必是8KHz倍数的采样率。应当理解的是被采样的信号的带宽可以比采样率的1/2小。例如,在一些实施例中,具有12KHz带宽的信号可以在48KHz的采样率被采样。发射机系统170分析数字化信号126并将其编码为由天线108在RF信道上发射的数字分组。
发射机系统170包括音频编译功能181,其周期的分析数字化信号的采样并将它们编码为带宽有效码字182。码字182以通过数字化信号126的频率分析以及在来自网络设备的消息中接收并从接收机系统140耦接到音频编译功能181的比特率值141所确定的比特率来生成。在一些实施例中,从网络接收的比特率值141可以定义传输到网络设备100不可以超过的允许的比特率,其通常由网络运营商或网络设备基于当前网络业务负载来确定。在一些实施例中,比特率值可以定义允许的比特率,作为平均值设备100必须满足该允许的比特率但是具有在一些容限(例如,不超过平均值的10%以上)内的瞬时值。此类型的比特率值的示例可以是根据付费结构限制由设备100使用的传输比特率。在一些实施例中,比特率值141可以从人机接口系统120而非接收机系统140被耦接。分组生成器187使用码字182以形成耦接到RF发射机190用于放大的分组,之后通过天线108辐射出去。
参考图2,根据某些实施例,示出音频编译功能181的框图。音频编译功能181包括转换器205、子带谱分析功能210,阈值逻辑功能215以及音频编码功能220。在一些实施例中可以不使用转换器205。转换器205将数字化信号126转换为不管数字化信号126的采样率而以为常数的周期率提供值的被转换的信号206。例如,具有诸如8KHz、12KHz以及16KHz的不同采样率的数字化信号126都可以被转换为48KHz周期律的转换的信号206。可以由诸如使用一个或许多内插技术的标准技术来执行转换。在一些实施例中,数字化信号126的采样率可以不变,从而使得转换器205不是必需的。在这些实施例中,数字化信号126可以直接耦接到子带谱分析功能210以及音频编码功能220。在一些实施例中,数字化信号126可以直接耦接到子带谱分析功能210以及音频编码功能220,并且转换功能可以在子带谱分析功能210和音频编码功能220之中的一个或两者中执行。子带谱分析功能210分析在子带的有序集合的每一个中的能量并且耦接子带能量结果211到阈值逻辑功能215,其基于子带能量结果211以及比特率值141确定多个协议中的一个,每个具有码字182被编码的特定带宽。确定的协议216(也被标识为所选的带宽或所选的协议)耦接到音频编码功能220,并且取决于子带能量结果211和耦接到子带谱分析功能210的比特率值141而随时间变化。音频编码功能220使用所选的带宽216以执行数字化126音频信号的编码并生成码字182,从而最小化编码资源并减少传送音频信号所需的平均带宽。应当理解的是,多个协议的低频截止值(高通频率)在数值上足够的接近,使得上截止频率的量级与协议的带宽的量级相同,即,较高的带宽关联较高的上截止频率。
参考图3-5,根据某些实施例,图3示出子带谱分析功能210的框图,图4和图5示出一些示例性信号的时序图。子带谱分析功能210包括子帧快速傅里叶变换(FFT)功能305,能量分析功能308,N个带分割功能310-326的集合,N个对应平滑滤波器330-345的集合以及N个对应具有迟滞阈值功能350-365的集合。数字化信号126或被转换的信号206耦接到子帧FFT功能305,其以对应于数字化信号126或被转换的信号206的速率的帧速率的某个倍数,例如4,来执行快速傅里叶变换。例如,数字化信号126或被转换的信号206的160值可以被包含在每个帧或子帧中。常规技术(例如,锥形重叠等)可以被用于帧或子帧加窗并且用于执行FFT。由每帧或子帧的FFT生成的值的集合耦接到能量分析功能308,其以常规方式(例如,使用FFT值的绝对值的平方)将FFT值的每个集合转换为相对应的能量谱分布值的集合。对于一系列帧或子帧的能量谱分布,如FFT值的集合,是以周期的帧或子帧速率生成的基于频率的分布。在一个示例中,用于标识带分割310-325、平滑滤波器330-345以及阈值350-365的数量值N为4。在图4中,数字化音频信号126或转换的信号206的示例被示出为音频绘图405。这里,由于数字化值(例如,数字化电压采样)在绘图中相对紧密的,因此音频绘图405好像是连续的。在音频绘图405下面是代表音频谱的绘图410。每个垂直线包括许多代表对于频率在0和24KHz之间的一帧的能量密度的灰度等级值(像素或点)。带有非零能量值的峰值频率由绘图411近似。对于绘图410大约半个区域的每帧的最大能量密度较好的在峰值之下。其一个示例是绘图410的区域413,其在图5的扩大图中示出。诸如绘图410的区域412的其他区域具有更均匀分布的能量。
能量分析被耦接到带分割功能310-325,其确定在每个子带中能量的总量。对于本文被使用的示例,子带范围对于带分割#1310是0-7KHz,对于带分割#2315是7-8KHz,对于带分割#3320是8-16KHz,以及对于带分割#4(图3未示出)是16-20KHz。带分割#1到#4的示例性频率范围被标识为图4中的频率子带415-418。应当理解的是对于由该示例代表的实施例,该子带的集合是没有重叠的覆盖0到24KHz全部频率范围子带的集合。在其他实施例中,子带集合可能不填充0到24KHz全部带宽;在子带之间可以存在间隙。在一些实施例中,子带可以重叠。带分割功能310-325的输出耦接到平滑滤波器330-345,其移除将会导致在具有迟滞阈值功能350-365的输出的变化过于迅速的高频影响。平滑滤波器330-345的输出耦接到具有迟滞阈值功能350-365。每个具有迟滞阈值功能350-365还耦接到来自偏置表370的阈值信号371。阈值信号包含由比特率值141确定的用于每个具有迟滞阈值功能350-365的迟滞值和偏置。比特率值141是M个值中的一个值,M个值中的每个用于设置N个具有迟滞阈值功能350-365的等级,这被用作选择用于编码信号126、206的N个协议中一个的一个因素。在某些实施例中,每个协议编码信号126、206的不同带宽。在本文使用的示例中,M为3并且这3个值被标识为低、中以及高值。对于每个具有迟滞阈值功能350-365,比特率值141选择M个阈值中的一个。因此,每个可能的M比特率值选择对应于子带的N个阈值的集合。每个具有迟滞阈值功能350-365生成作为信号211一部分的输出值。当输入超过阈值超过第一迟滞值的持续时间时输出值在第一状态(真),当输入小于阈值超过第二迟滞值的持续时间时输出值在第二状态(假)。迟滞值对于所有的子带可以是相同的并且可以是固定的。在一些实施例中,对于具有迟滞阈值功能350-365的第一和第二迟滞值可以是2N个不同的值,在一些实施例中,第一和第二N个迟滞值可以由比特率值141从M个值的集合中选择。根据本文所述的示例,第一迟滞值是0并且第二迟滞值在具有迟滞阈值功能350-365之间没有不同,并且没有响应于比特率值141而改变。(然而,阈值没有响应于比特率值141而改变。)
返回参考图2,来自子带谱分析功能210的输出信号211耦接到阈值逻辑功能215。阈值逻辑功能215分析信号211并基于处于第一状态的、指示N个子带最高频率的输出信号211的值选择编码协议。出于信号检测的目的,在该频率以下的子带也被假定为在第一状态。所选的编码协议编码信号126、206的带宽,其包括音频信号(数字化信号126或转换的信号206)的直至具有超过对应阈值能量的最高频率子带的那些频率,以及在为音频编码功能220所选的编码协议的高通截止频率之上的音频信号的较低频率分量。在一些实施例中,所有在高通截止频率之上的音频信号的低频分量被包含在所选编码协议的带宽中。在一些实施例中,在子带谱分析210和/或音频编码220之前对输入信号126应用高通或带通滤波可以是必要的或期望的,但是这不会显著地影响处理步骤或处理逻辑。在本文所述的示例中,所选的编码协议是具有7KHz带宽、8KHz带宽、12KHz带宽以及20KHz带宽中的名义上一个的所选带宽的协议,但是这可以实际分别对应于在10Hz到500Hz之间开始并向上扩展到7KHz的带宽,在10Hz到500Hz之间开始并向上扩展到8KHz的带宽,在10Hz到500Hz之间开始并向上扩展到12KHz的带宽,或者在10Hz到500Hz之间开始并向上扩展到20KHz的带宽。其他标识所选编码协议的方法可以显而易见地使用,其仅仅两个示例是编码比特率,或索引的协议值(例如1到4)。
参考表1,根据某些实施例示出了阈值的集合。该集合是可以被用于在本文上面已被描述的示例中的集合,并且可以包含在偏置表370(图3)中。例如,阈值的最大值为100,并且信号126、206的总能量具有为100的值。
表1
应当理解的是,当能量密度均匀时,从最低子带到最高子带每个子带的总能量将会分别是35、5、20以及40。当比特率值141是低并且能量密度均匀时,因为超过的唯一阈值是对于0-7KHz的阈值,所以具有迟滞阈值功能350-365的相应的输出从最低到最高将会是真、假、假以及假。由于对其而言阈值是真的最高子带是0-7KHz子带,所以所选的带宽为7KHz。当能量密度均匀并且比特率是高时,具有迟滞阈值功能350-365的相应的输出从最低到最高将会是真、真、假以及真。由于对其而言阈值是真的最高子带是12-20KHz子带,所以阈值逻辑功能215选择提供20KHz带宽的协议。在图4中的绘图405、410以下示出了三个绘图420、425和430。对于与表1相似的阈值的集合来说,当输入信号126、206是如图5的绘图405所示出的信号时,对于比特率值141的三个值(低、中、高),这些绘图示出阈值逻辑功能215的输出216对比时间。当比特率值为低时生成绘图420,当比特率值为中时生成绘图425,当比特率值为高时生成绘图430。能够看出绘图420与绘图425、430相比在时间上较高比例的具有最低带宽值(7KHz),并且绘图430与绘图420、425相比在时间上较高比例的具有最高带宽值。这个区别能够通过适当地修改阈值很容易的被放大或减少。第二迟滞值的影响在绘图的区域460中是明显的,其示出从最高带宽到较低带宽的缓慢变化,而第一迟滞值的零值导致从最低到最高带宽的快速变化,其在绘图的区域450中是明显的。由在具有在小于大约10帧(能量密度线)的数值变化之间的期间内的输出216(在由420-430图示的示例中)的发生率很小这一事实可见,平滑滤波器330-345执行滤波的好处是明显的。
在某些实施例中,如果存在将会通过使用任一可选带宽而超过的最大允许发射数据率,那么之后发射机系统170可以包含逻辑以阻止具有这样带宽的协议被使用,通过将带宽的选择限制在总是保持发射的数据率低于最大允许发射数据率的较低带宽协议。基于在由接收机系统140接收的协议消息中接收的指示,这个额外的限制可以被并入阈值逻辑功能215。例如,该指示可以用以选择若干个不同值表中的一个,其中的一些具有被选择以排除高带宽的使用的阈值,或者如果所选带宽将会导致过大的发射数据率,则该指示可以是将所选带宽更改为较低带宽的逻辑。
应当理解的是,通过具有定义通过挑选比特率值所选的阈值(以及在一些实施例中对应的迟滞值)集合的灵活性,根据信道状态平均发射比特率能够被降低,同时与在使用常规技术的系统中强加比特率限制时相比更适合保持音频质量。在一些实施例中,应当理解的是,在输入信号的带宽随时间变化时,将编码协议的音频带宽与输入信号的带宽尽可能近的匹配是期望的。也就是说,凭经验确定阈值以便在输入信号期间连续选择的编码协议的音频带宽追踪输入信号的变化的带宽。使用的输入信号是一个或更多个那些典型的期望被编码的音频序列。这样的配置对于达到中等信道比特率(所谓的中比特率设置)是合适的。例如,在一些实施例中,当可以用于编码协议的信道比特率是受限的并且当输入信号带宽降低时产生更好的声音合成的音频时,子带谱分析功能210可以被偏置以便有利于较低音频带宽编码协议;所谓的低比特率设置。在一些实施例中,当较高信道比特率可以用于编码协议时,子带谱分析功能210可以被偏置以便有利于较高音频带宽编码协议;所谓的高比特率设置。在一些实施例中,在音频信号期间比特率值的改变更改了从可用的集合中的阈值集合的选择,只要实际上在使用的编码协议的限制内,这提供了平均信道比特率的更快的改变。这允许正在使用共享带宽的若干设备的组合带宽的更好的控制。
“有利于”较低音频带宽编码协议意味着阈值凭经验被设置以便默认输出将会使用低音频带宽编码协议被编码,仅仅对于有限的时间段切换到较高带宽编码协议,其具有与低音频带宽编码协议的信道比特率相似(例如,在一些实施例中在10%以内;在其他实施例中相似度容限可以高达50%)的信道比特率。当在较高子带的能量足够大以至于编码较高音频带宽的感知的优势胜过由减少分配给较低音频带宽中的音频信号的编码比特的数量引起的劣化时,将会发生该切换。低音频带宽编码协议编码包含最低音频子带并且可以包含上至并包含特定较高音频子带(但不是最高子带)的(一个或多个)较高子带的带宽。低音频带宽基于期望被编码类型的输入信号来确定,并且可以基于理论方法(例如,精度)、经验法(例如,专家聆听或平均意见得分(MOS)测试)来确定,或者可以是在特定时间系统中可用的最低编码协议带宽。“有利于”较高音频带宽意味着阈值凭经验被设置以便输出将会使用高音频带宽编码协议被编码,仅仅对于下述时间段切换到较低带宽编码协议,在该时间段中,高频能量,例如对应于输入信号中的顶子带的能量,对于一般的聆听者是察觉不到的。高音频带宽编码协议编码包含最高音频子带并且可以包含下至并包含特定较低音频子带的(一个或多个)较低子带的带宽。高音频带宽基于期望被编码类型的输入信号来确定,并且可以基于理论方法(例如,精度)、经验法(例如,专家聆听或平均意见得分(MOS)测试)来确定,或者可以是在特定时间系统中可用的最高编码协议带宽。对于上述中、低以及高比特率,凭经验确定的阈值设置可以以诸如表1(但是具有凭经验确定的值)所示的对应表的形式,被用在单个实施例中。对于在单个实施例中的中、低以及高比特率,还可以凭经验确定第一和第二迟滞值。对于在中、低以及高比特率的每个中的过渡,第一和第二迟滞值可以相同。
参考图6,根据某些实施例,示出编码音频信号的方法600的一些步骤。可以在诸如蜂窝电话或网络平板的个人通信设备,或遥感设备,或固定网络设备中执行编码。不必按照示出的顺序执行步骤。在步骤605接收比特率值。该比特率值是M个比特率值集合中的一个。该比特率值可以具有标识。当M为3时这样的标识的非限制性示例为:低、中以及高,或索引值(第一、第二等)。在步骤610基于比特率值选择能量阈值的集合。能量阈值的集合是多个,N个,能量阈值集合中的一个。能量阈值的每个集合的能量阈值与音频信号的子带的集合以一对一为基础对应。(因此,也有N个音频信号的子带)。在步骤615,接收音频信号。在步骤620,确定N个子带的集合的每个子带的能量。在步骤625,确定具有超过对应阈值的能量的最高频率子带。在步骤630,编码音频信号的所选带宽。所选带宽只包含在具有超过对应阈值能量的最高频率子带中的音频信号的那些频率,以及基本上音频信号的所有较低频率。应当理解的是,步骤605-610能够相对于步骤615-620在之前、之后或近似同时执行。本文所述的步骤以及参考图2所述的功能模块之间的关系是步骤615和620可以通过子带谱分析功能210执行;步骤605、610以及625可以通过阈值逻辑功能215执行,并且步骤630可以通过音频编码功能220执行。
参考图7-9,根据某些实施例,示出编码音频信号的方法600的一些步骤。在步骤705(图7),所选带宽被限制为不会导致超过最大允许发射数据率的发射数据率的带宽。在步骤805(图8),基于比特率值选择迟滞值集合。该值对应于音频信号的子带。迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。在步骤905(图9),以相应的周期为基础,一个或多个事件响应于用于执行至少确定能量620、确定最高频率子带625以及编码630的步骤。事件可以是中断或其他事件的计数。在一些实施例中,它们可以使用共同周期被执行。在某些实施例中,周期基础可以不都相同。例如,可以以比确定最高频率子带625更高的速率执行确定能量620的步骤。对于一些带宽决策,这就将具有增加延时的效果。另外,在步骤615接收音频信号典型地以比由子带谱分析功能210执行的用于确定每个子带的能量的周期基础(例如,音频帧率)更大的周期基础(例如,数字化音频采样率)执行。
在本文献中图示的处理,例如(但不限于),图6-9中描述的方法步骤可以使用包含在可以由CPU的处理器读取的计算机可读媒介上的已编程的指令来执行。计算机可读媒介可以是能够存储要由微处理器执行的指令的任何有形介质。该介质可以是CD盘、DVD盘、磁或光盘、磁带以及基于硅的可移除或不可移除存储器中的一个或包含上述中的一个或多个。编程指令还可以以分组化或非分组化有线或无线传输信号的形式被承载。
在上文说明书中,已经描述了本发明的特定实施例。然而,本领域的普通技术人员应当理解的是,在不偏离如下面权利要求书中阐释的本发明的范围的情况下,能够做出各种修改和变化。作为示例,在一些实施例中,一些方法步骤可以按照与所述顺序不同的顺序执行,在功能块中描述的功能可以被不同地安排(例如,偏置表370以及具有迟滞阈值块350-365可以是阈值逻辑功能215的而不是子带谱分析功能210的一部分)。作为另一个示例,对于本领域的那些技术人员公知的任何特定的组织和存取技术可以被用于诸如偏置表370的表中。相应地,说明书和图片被视为图示性的而非限制性的意义,并且所有这样的修改都意欲包含在本发明的范围内。可以引起任何益处、优势或问题的解决方案的发生或变为更加明显的益处、优势、问题的解决方法以及任何(一个或多个)元素不应被解释为任何一个或所有权利要求的重要的、必须的或基本特征或元素。本发明仅通过所附的权利要求,包含在本申请未定时做出的任何修改以及如所发布的那些权利要求的所有等价物,来定义。

Claims (12)

1.一种用于在通信设备处编码音频信号的方法,包括:
在所述通信设备处接收比特率值;
由所述通信设备的处理系统,基于所述比特率值选择能量阈值的集合,其中,所述能量阈值的集合是多个能量阈值集合中的一个,并且其中,能量阈值的每个集合的能量阈值与所述音频信号的子带集合以一对一为基础对应;
在所述通信设备处接收所述音频信号;
由所述处理系统确定所述子带集合的每个子带的能量;
由所述处理系统确定具有超过对应阈值的能量的最高频率子带;
由所述处理系统确定所述音频信号的所选带宽,所述所选带宽只包含在具有超过所述对应阈值的能量的所述最高频率子带中的所述音频信号的那些频率,以及在高通截止频率之上的所述音频信号的所有较低频率;以及
由所述通信设备的音频编译功能编码所述所选带宽。
2.根据权利要求1所述的方法,进一步包括:由所述处理系统将所述所选带宽限制为不会导致超过最大允许发射数据率的发射数据率的带宽。
3.根据权利要求1所述的方法,进一步包括:由所述处理系统基于所述比特率值选择迟滞值集合,所述迟滞值对应于所述音频信号的所述子带集合,其中,所述迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。
4.根据权利要求1所述的方法,进一步包括:在所述音频信号的所述编码期间,由所述处理系统周期地执行确定所述能量,确定所述最高频率子带以及编码的步骤。
5.根据权利要求1所述的方法,其中,能量阈值的两个或更多集合的所述阈值是使得存在两个或更多下述条件:有利于较低音频带宽编码协议,所选的所述编码协议的音频带宽追踪输入信号的变化的带宽,并且有利于较高音频带宽编码协议。
6.根据权利要求1所述的方法,其中,在所述音频信号期间所述比特率值的改变更改了从多个集合中所述阈值集合的选择。
7.一种用于编码音频信号的装置,包括:
通信设备的接收机,用于接收比特率值;以及
所述通信设备的处理系统,被配置用于
基于所述比特率值选择能量阈值的集合,其中,所述能量阈值的集合是多个能量阈值集合中的一个,并且其中,能量阈值的每个集合的能量阈值与所述音频信号的子带集合以一对一为基础对应;
接收所述音频信号;
确定所述子带集合的每个子带的能量;
确定具有超过对应阈值的能量的最高频率子带,以及
确定所述音频信号的所选带宽,所述所选带宽只包含在具有超过所述对应阈值的能量的所述最高频率子带中的所述音频信号的那些频率,以及在高通截止频率之上的所述音频信号的所有较低频率;以及
编码所述所选带宽。
8.根据权利要求7所述的装置,其中,所述通信设备的所述处理系统进一步被配置用于:将所述所选带宽限制为不会导致超过最大允许发射数据率的发射数据率的带宽。
9.根据权利要求7所述的装置,其中,所述通信设备的所述处理系统进一步被配置用于:基于所述比特率值选择迟滞值集合,所述迟滞值对应于所述音频信号的所述子带集合,其中,所述迟滞值包含用于从较低所选带宽改变为较高所选带宽的迟滞延迟以及用于从较高所选带宽改变为较低所选带宽的迟滞延迟中的至少一个。
10.根据权利要求7所述的装置,其中,所述通信设备的所述处理系统进一步被配置用于:在所述音频信号的所述编码期间,周期地执行确定所述能量,确定所述最高频率子带以及编码的步骤。
11.根据权利要求7所述的装置,其中,能量阈值的两个或更多集合的所述阈值是使得存在两个或更多下述条件:有利于较低音频带宽编码协议,所选的所述编码协议的音频带宽追踪输入信号的变化的带宽,并且有利于较高音频带宽编码协议。
12.根据权利要求7所述的装置,其中,在所述音频信号期间所述比特率值的改变更改了从多个集合中所述阈值集合的选择。
CN201280061303.3A 2011-12-12 2012-12-03 用于音频编码的装置和方法 Active CN103999154B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/316,895 2011-12-12
US13/316,895 US8666753B2 (en) 2011-12-12 2011-12-12 Apparatus and method for audio encoding
PCT/US2012/067532 WO2013090039A1 (en) 2011-12-12 2012-12-03 Apparatus and method for audio encoding

Publications (2)

Publication Number Publication Date
CN103999154A CN103999154A (zh) 2014-08-20
CN103999154B true CN103999154B (zh) 2015-07-15

Family

ID=47358302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280061303.3A Active CN103999154B (zh) 2011-12-12 2012-12-03 用于音频编码的装置和方法

Country Status (7)

Country Link
US (1) US8666753B2 (zh)
EP (1) EP2791936A1 (zh)
JP (1) JP5775227B2 (zh)
KR (1) KR101454581B1 (zh)
CN (1) CN103999154B (zh)
CA (1) CA2859013C (zh)
WO (1) WO2013090039A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
JP6556473B2 (ja) * 2015-03-12 2019-08-07 株式会社東芝 送信装置、音声認識システム、送信方法、およびプログラム
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
US10803877B2 (en) 2015-09-04 2020-10-13 Samsung Electronics Co., Ltd. Signal processing methods and apparatuses for enhancing sound quality
US11037581B2 (en) 2016-06-24 2021-06-15 Samsung Electronics Co., Ltd. Signal processing method and device adaptive to noise environment and terminal device employing same
WO2018086972A1 (en) * 2016-11-08 2018-05-17 Koninklijke Philips N.V. Method for wireless data transmission range extension
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
CN112530444B (zh) * 2019-09-18 2023-10-03 华为技术有限公司 音频编码方法和装置
CN112599140A (zh) * 2020-12-23 2021-04-02 北京百瑞互联技术有限公司 一种优化语音编码速率和运算量的方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CN1659785A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 信号多速率点阵矢量量化的方法和系统
CN1748443A (zh) * 2003-03-04 2006-03-15 诺基亚有限公司 多声道音频扩展支持
EP1703493A2 (en) * 1994-08-10 2006-09-20 Qualcomm Incorporated Method and apparatus for selecting an encoding rate in a variable rate vocoder
CN1860526A (zh) * 2003-09-29 2006-11-08 皇家飞利浦电子股份有限公司 音频信号编码

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5115240A (en) 1989-09-26 1992-05-19 Sony Corporation Method and apparatus for encoding voice signals divided into a plurality of frequency bands
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6091723A (en) * 1997-10-22 2000-07-18 Lucent Technologies, Inc. Sorting networks having improved layouts
JP2006018023A (ja) 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
US8214202B2 (en) 2006-09-13 2012-07-03 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
US20100324708A1 (en) 2007-11-27 2010-12-23 Nokia Corporation encoder

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
EP1703493A2 (en) * 1994-08-10 2006-09-20 Qualcomm Incorporated Method and apparatus for selecting an encoding rate in a variable rate vocoder
CN1659785A (zh) * 2002-05-31 2005-08-24 沃伊斯亚吉公司 信号多速率点阵矢量量化的方法和系统
CN1748443A (zh) * 2003-03-04 2006-03-15 诺基亚有限公司 多声道音频扩展支持
CN1860526A (zh) * 2003-09-29 2006-11-08 皇家飞利浦电子股份有限公司 音频信号编码

Also Published As

Publication number Publication date
KR101454581B1 (ko) 2014-10-28
CA2859013C (en) 2016-01-26
US8666753B2 (en) 2014-03-04
WO2013090039A1 (en) 2013-06-20
JP2015505991A (ja) 2015-02-26
EP2791936A1 (en) 2014-10-22
KR20140085596A (ko) 2014-07-07
JP5775227B2 (ja) 2015-09-09
CN103999154A (zh) 2014-08-20
CA2859013A1 (en) 2013-06-20
US20130151260A1 (en) 2013-06-13

Similar Documents

Publication Publication Date Title
CN103999154B (zh) 用于音频编码的装置和方法
JP5162588B2 (ja) 音声符号化システム
US11676612B2 (en) Determination of spatial audio parameter encoding and associated decoding
CN103886857B (zh) 一种噪声控制方法及设备
CN103915098A (zh) 音频信号编码器
EP3707706B1 (en) Determination of spatial audio parameter encoding and associated decoding
CN105825858A (zh) 比特分配、音频编码和解码
CN101918999A (zh) 执行音频水印嵌入以及水印检测和提取的方法和设备
CN106463138A (zh) 用于形成音频信号有效载荷的方法、装置和音频信号有效载荷
WO2019129350A1 (en) Determination of spatial audio parameter encoding and associated decoding
US9799339B2 (en) Stereo audio signal encoder
CN104364842A (zh) 立体声音频信号编码器
CN100489965C (zh) 音频编码系统
WO2020016479A1 (en) Sparse quantization of spatial audio parameters
EP3874492A1 (en) Determination of spatial audio parameter encoding and associated decoding
WO2019105575A1 (en) Determination of spatial audio parameter encoding and associated decoding
CN101202042A (zh) 可扩展的数字音频编码框架及其扩展方法
CN101309085B (zh) 动态调整音频译码程序的方法以及译码音频信息的方法
CN113192517A (zh) 一种音频编解码方法和音频编解码设备
EP3776545A1 (en) Quantization of spatial audio parameters
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
RU2797457C1 (ru) Определение кодирования параметров пространственного звука и соответствующего декодирования
KR20230135665A (ko) 공간 오디오 파라미터 인코딩 및 관련 디코딩 결정

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160406

Address after: American California

Patentee after: Technology Holdings Co., Ltd of Google

Address before: Illinois State

Patentee before: Motorola Mobility, Inc.