CN102216983B

CN102216983B - 用于编码与信号源相关联的至少一个参数的设备和方法

Info

Publication number: CN102216983B
Application number: CN200980146333.2A
Authority: CN
Inventors: 乔纳森·A·吉布斯; 詹姆斯·P·阿什利; 霍利·L·弗朗索瓦; 乌达·米塔尔
Original assignee: Motorola Mobility LLC
Current assignee: Motorola Mobility LLC; Google Technology Holdings LLC
Priority date: 2008-11-19
Filing date: 2009-10-26
Publication date: 2014-03-05
Anticipated expiration: 2029-10-26
Also published as: ES2395349T3; WO2010059342A1; EP2359365B1; EP2359365A1; CN102216983A; BRPI0921082A2; JP5713296B2; KR20110086821A; US20100125453A1; BRPI0921082B1; KR101235494B1; JP2012509505A; US8725500B2

Abstract

用于对与信号源相关联的至少一个参数进行编码以通过k个帧向解码器传输的设备包括：处理器，该处理器在操作上被配置为向k个帧的第一帧的与该至少一个参数相关联的n个比特指配预定比特模式，并且将k-1个后续帧的每一个的与该至少一个参数相关联的n个比特设置为使得k-1个后续帧中的n比特的值表示至少一个参数的值。预定比特模式指示至少一个参数的开始。

Description

用于编码与信号源相关联的至少一个参数的设备和方法

技术领域

本公开涉及用于对与信号源相关联的至少一个参数进行编码以通过多个帧进行传输的设备和方法。

背景技术

诸如语音编码器的基于帧的编码器使用音频信号处理技术来对语音信号进行建模，并且使用一般的数据压缩算法来以紧密的比特流表示得到的建模语音信号，该紧密的比特流然后通过连续的帧被传送到解码器。因此，连续的帧中的每一个包括编码的语音信号以及与该语音信号相关联的参数，该参数由解码器来解码并且用于提高对解码的语音信号的呈现。

在立体声记录的情况下，诸如在视听会议以及广播应用中，可以使用两个麦克风来记录立体声信号。当两个麦克风在空间上分开时，来自与另一个麦克风相比更接近一个麦克风的报告人的记录的信号，以相对于第一个麦克风的延迟到达后一个麦克风。为了考虑语音信号在不同麦克风之间的延迟，称为立体声延迟参数或信道间时间差(ITD)参数的参数可以从记录的立体声信号来确定，并且被编码，并且与编码的语音信号和描述该立体声语音信号的各方面的其他参数一起通过多个帧进行传送。这些传送的参数在解码器中使用以重建立体声信号。因为对低于约1kHz的频率，公知ITD是对立体定位的主要感知影响，所以ITD参数可以显著地改善重建的立体感的质量。

通常，语音编码器采用20ms的帧速率，这意味着语音帧内的每个比特消耗50比特/s，并且同步帧结构使其本身以50Hz的倍数来更新参数。这样的更新速率与人类声道内所经历的改变速率相对应。例如，众所周知，人类声道形状可以以大约50Hz的更新速率通过参数(诸如线性预测编码(LPC)参数)来充分表示，而语音激励能量和形状最好以约200Hz来建模(即以200Hz更新激励参数)。

然而，随着语音编码器的功能被增强用来提供音乐和立体声编码，诸如在称为当前正在由国际电信联盟(ITU)标准化的嵌入式可变比特速率编解码器(EV-VBR)的语音编码器中，需要对与人类声道无关的额外的参数进行编码。这些参数中的一些以比帧速率更慢的速率变化，并且因此，不论该参数是否改变，在每个帧发送相同的参数导致了信道带宽资源的浪费。在比特数目以及随时间缓慢演进方面，这些参数中的一些还可能需要高精度。为了实现所需要的高精度，结合减小量化等级数目的过采样能够提供一种传统的解决方案，但是该方法由于所需要的滤波而具有若干缺点。由于滤波的实际实现，错误传递可能发生，并且还可能存在输出值中具有抖动的问题，这可能延迟了瞬时参数改变的效果，并且在维持综合分析编码器结构中的编码器和解码器的同步中引入困难。

因此，提供一种用于在基于帧的编码方案中编码和传送参数的改进的方法是有利的。

附图说明

现在将仅以示例的方式，参考附图来描述根据本公开的用于对信号源相关联的至少一个参数进行编码以通过多个帧进行传输的设备和方法，在附图中：

图1是根据本公开实施例的通信系统的示意性框图；

图2是根据本公开实施例的用于对语音信号和与该语音信号相关联的参数进行编码的编码设备的示意性框图；

图3是示出对于n和k的各种值，根据本公开实施例的参数可能具有的可能的值的数目；

图4是对于n和k的各种值以百分比示出比特率效率的表；以及

图5是根据本公开实施例的用于对与信号源相关联的至少一个参数进行编码以通过多个帧进行传输的方法的流程图。

具体实施方式

在下面的描述中，将关于用作电话会议应用中的通信装置一部分的语音编码器来描述本公开的实施例，其中对ITD参数进行编码，并且通过无线通信链路来进行传送，以便于增强由另一个通信装置中的解码器所重建的立体声信号。然而，应当理解，本公开可以用于其他类型的编码器/解码器，诸如视频或者其他音频编码器/解码器，并且还可以用于无线通信装置，诸如订户单元、无线用户设备、便携式或移动电话、无线视频或多媒体装置、通信终端、个人数字助理(PDA)、膝上型计算机或嵌入式通信处理器。例如，当用户在蓝牙麦克风和移动电话麦克风、或者车内无线通信系统中的多个麦克风的情况下讲话时，可以记录立体声信号。在这样的应用中，编码和传送ITD参数可以增强用户体验。

参考图1，诸如电话会议系统10的通信系统10包括：通信装置12，该通信装置12用作发射装置并且具有耦合到用于从电话会议系统10的用户(未示出)接收语音信号的麦克风101、103的输入；编码设备121，该编码设备121用于将语音信号和与该语音信号相关联的参数编码成用于通过多个帧进行传输的比特流；以及发射机13，该发射机13用于经由通信链路16向用作接收装置的通信装置14传送帧。接收通信装置14包括用于接收来自发射通信装置12的编码信号的接收机18；耦合到接收机18的解码设备122，该解码设备122用于对接收到的编码的信号进行解码以提供解码的语音信号和与该语音信号相关联的参数，并且用于根据该参数来处理解码的语音信号，以便于在输出端20(诸如一对扬声器，该扬声器可以是如图1所示通信装置14一部分，或者与该装置分开)处向接收通信装置14的用户(或多个用户)提供对麦克风101，103提供的语音信号的重建。对于技术人员明显的是，已经示出并且将描述仅对于理解本公开所需要的那些通信装置12、14的功能组件。

在示例性应用中，两个麦克风101，103用于在房间中记录语音信号，并且以最多为3米的间隔进行定位。在电话会议应用中，当房间内有很多人时，使用两个或多个麦克风可以提供对该房间的更好的音频覆盖。使用多于一个麦克风引起语音信号在多个信道上被提供给编码设备121。在许多多信道编码系统中，并且尤其是在许多多信道语音编码系统中，低级编码基于单信道的编码。在这样的系统中，多信道信号可以被转换为使编码器的低层进行编码的单声道信号。该单声道信号的生成称为下混合。这样的下混合可以与描述立体声信号相对于单声道信号的各方面的参数相关联。具体地，下混合可以生成信道间时间差(ITD)信息，该信息表征左右信道之间的时间差。

现在参考图2，麦克风101，103被耦合到帧处理器105，该帧处理器105在第一信道和第二信道上接收来自麦克风101、103的语音信号。帧处理器105将接收到的信号分成连续的帧。在示例中，采样频率是16k样本/秒，并且帧的持续时间是20毫秒，这导致每个帧包括320个样本。帧处理过程不会导致对语音通路的额外延迟。

帧处理器105被耦合到ITD处理器107，该ITD处理器107被配置为确定来自不同麦克风101、103的语音信号之间的ITD参数或立体声延迟参数。ITD参数是一个信道中的语音信号相对于另一个信道中的语音信号的延迟的指示。例如，当与麦克风103相比更接近麦克风101的报告人讲话时，与在麦克风101处接收到的语音信号相比，在麦克风103处接收到的语音信号由于报告人的位置而将被延迟。为了使在接收装置14处重建语音信号时考虑到该延迟，延迟参数被编码，并且被传送到接收装置14。在该示例中，取决于哪个信道相对于另一个信道被延迟，ITD参数可以是正的或负的。延迟通常由于主要语音源(即，当前讲话的报告人)与麦克风101，103之间延迟的不同而发生。

在图2所示实施例中，ITD处理器107还被耦合到两个延迟器109、111。第一延迟器109被配置为向第一信道引入延迟，并且第二延迟器111被配置为向第二信道引入延迟。引入的延迟量取决于由ITD处理器107确定的ITD参数。而且，在特定的示例中，在任何给定时间仅使用延迟器中的一个。因此，根据估计的ITD参数的符号，延迟被引入到第一信号或者第二信号。延迟量被特定地设置为尽可能地接近ITD参数。因此，在延迟器109、111的输出处的语音信号是紧密时间对准的，并且将特定地具有通常接近于0的时间差。

延迟器109、111被耦合到合并器113，该合并器113通过对来自延迟器109、111的两个输出信号进行合并来生成单声道信号。在该示例中，合并器113是将两路信号相加在一起的简单求和单元。此外，该信号以0.5为因子进行缩放，以便于维持单声道信号的幅度近似于合并之前的单个信号的幅度。在替代配置中，可以省略延迟器109、111。

因此，合并器113的输出是对在麦克风101和103处接收到的两个语音信号的下混合的单声道信号。

合并器113被耦合到单声道编码器115，该编码器115执行单声道信号的单声道编码以生成编码的语音数据。在该特定示例中，单声道编码器是符合EV-VBR标准的码激励线性预测(CELP)编码器。

单声道编码器115被耦合到输出复用器117，该输出复用器117进一步经由设备119被耦合到ITD处理器107。

设备119或参数编码器119被配置为对与信号源相关联的至少一个参数进行编码以通过k个帧传输到解码器，例如接收装置14的解码设备122。在本文描述的示例中，设备119被配置为对与在麦克风101和103处的语音信号相关联的ITD参数进行编码。设备119包括处理器119，该处理器119在操作上被配置为向k个帧中的第一帧的与ITD参数相关联的n个比特指配预定的比特模式，并且将k-1个后续帧中的每一个帧的与ITD参数相关联的n个比特设置为使得k-1个后续帧的n个比特的值表示该至少一个参数的值。预定比特模式指示至少一个参数的开始。

在实施例中，k和n是大于1的整数，并且被选择使得每帧n个比特专用于在每k个帧上以更新速率进行的ITD参数的传输，该更新速率在已经考虑到方案开销时将足以超过该参数的奈奎斯特速率。通过使用与ITD参数相关联的可用n个比特以第一帧发送预定比特模式来发起k个帧上的ITD参数的传输。通常，预定比特模式为全0。

在实施例中，在k-1个后续帧的每一个帧中的n个比特的值被选择为不同于预定比特模式的n个比特的值。因此，除了预定比特模式，对于n个比特存在2ⁿ-1个可能的值。在k-1个后续帧的每一个帧中的n个比特的值用于构建ITD参数，以2ⁿ-1为基开始于ITD参数的最低有效数位(digit)或最高有效数位。假定k个n比特已经被传送，ITD参数可以具有的可能值的数目为(2ⁿ-1)^(k-1)。这导致了100/(kn)·(k-1)log2(2ⁿ-1)％的传输效率。为了现实实现，效率超过66％，并且能够很容易超过85％。

图3提供了示出对于n和k的各种值的可能值的数目的表。图4提供了示出对于n和k的各种值以百分比表示的比特速率效率的表。

因此，通过将参数编码到每帧的n个比特中并且通过k-1个帧传送编码的参数，根据本公开的编码配置能够以低于帧速率的速率来更新参数，并且还可以使用在帧中的更少的比特来传送编码参数，即提高了传输效率。

在实施例中，参数被定义为具有预定范围的值中的值。换言之，参数有预定义的长度。例如，ITD参数可以在-48到+48的范围中取值。从图3可见，对于n＝2和k＝5，可以呈现81个可能的值，也就是+/-40。通过将ITD参数从范围-48到+48转换为范围-40到+40，ITD参数的值可以由5个帧中的每帧2比特来表示。

在参数具有预定范围中的值的情况下，其中k-1帧中的n个比特提供(2ⁿ-1)^(k-1)个值，其包括预定范围并且还包括落在预定范围外的值，范围之外的值可以在解码设备122处使用以检测接收到的编码信号中的错误。例如，如果参数具有范围1-20中的值，并且将n选择为2，并且将k选择为4，如从图3可见，k-1个帧上可能值的数目为27。因此，值21-27没有落在参数的预定范围内。当解码设备122对接收到的4个帧中的两个比特进行解码，并且确定解码的参数具有21-27范围中的值时，那么解码设备122将检测到错误。一旦错误被检测到，解码设备122就可以采取适当的动作。例如，解码设备122可以忽略错误接收到的值并且假定先前接收到的值仍然有效，或者替代地，可以对讨论中的参数执行适当的错误抑制处理。

向k个帧中的第一帧的n个比特指配预定比特模式使得该预定比特模式能够指示ITD参数传输的开始，使得处理器119能够简单地通过安排在由k-1个后续帧跟随的下一帧中发送预定比特模式，来在任何时间发起ITD参数的异步传输。ITD参数的异步传输确保在ITD参数的值改变的时间与新值被传送的时间之间存在最小延迟。例如，当ITD参数的值改变时，甚至在通信装置12还没有完成先前的ITD参数值的传送时，可以在下一帧中发送预定比特模式，下一帧后面是ITD参数的新值。为了提供冗余和避免错误传递，参数还可以每k个帧被重复直到它们改变。替代地，处理器119可以被配置为在没有任何异步传输的情况下有规律地每k个帧进行传送。

因此，在其中ITD参数可以具有-48到+48范围中的值并且预定比特模式为00的上面给出的示例中，每当通过调用例程来更新ITD参数时，通过首先发送在帧中的预定比特模式00，并且然后使用每帧2个比特通过5个后续的帧发送参数值，来异步地发送ITD参数值。如果没有做出更新或者值保持恒定，则每5个帧地发送ITD参数值。

数据的异步传输是为公知的，例如在高级数据链路控制(HDLC)协议中并且在计算机和调制解调器之间的异步字符模式传输中。在后者中，每个信息字符或字节通过使用开始元素和停止元素被独立地同步或成帧，并且能够以不规则的并且独立的时间间隔被传送和接收。HDLC协议被设计用于串行传输，并且依赖于开始和结束标志01111110。除了在开始或停止标志之外，在任何5个连续‘1’之后插入0来避免比特流内的混淆。HDLC的问题在于，因为全‘1’序列通常需要比全‘0’序列更多的带宽，所以是它不是恒定带宽。而且，这些公知的技术使用开始和停止标志，并且用于传送字符或变化长度的连续的比特流。

应当理解，通过k个帧传送的n个比特可以用于对一个参数或多个参数(诸如参数序列)进行编码，其中多个参数具有预定长度。换言之，该多个参数的可能的值在预定范围内。

输出复用器117将来自单声道编码器115的表示编码的语音信号的编码数据以及来自设备119的表示编码的ITD参数的编码数据复用为单输出比特流。在比特流中包括ITD参数有助于解码器从单声道信号重建立体声信号，该单声道信号是从编码数据解码的。

现在将进一步参考图5来描述根据本公开实施例的对与信号源相关联的至少一个参数进行编码以通过k个帧向解码器进行传输的方法。

在步骤502，在多个信道上从各个麦克风101、103接收语音信号，并且确定用于接收到的语音信号的ITD参数(步骤504)。设备119可以通过下述步骤来对ITD参数进行编码：向k个帧中的第一帧的与ITD参数相关联的n个比特指配预定比特模式(步骤506)，并且将k-1个后续帧中的每一个帧的与ITD参数相关联的n个比特设置为使得k-1个后续帧的n个比特的值表示至少一个参数的值(步骤508)。预定比特模式指示ITD参数的开始。然后，预定比特模式和与信号源相关联的ITD参数通过k个帧被传送到解码设备122(步骤510)。在实施例中，在步骤512处，对接收到的语音信号进行编码，并且然后在步骤514处，将编码的语音信号传送到解码设备122。在图2中所示的实施例中，编码的语音信号，预定比特模式和编码的ITD参数被合并成单个比特流并且通过帧进行传送。

接收通信装置14的解码设备122接收由发射通信装置12传送的预定比特模式和k-1个帧上的ITD参数值，并且被配置为对接收的信息进行解码以提供解码的ITD参数。该解码设备对接收到的帧中的每一个进行解码以确定帧中的每个比特的值。当解码设备在与ITD参数相关联的n个比特中检测到预定比特模式(如00)时，解码设备确定包括预定比特模式的帧表示ITD参数的开始，并且是k个连续的帧中的第一帧，从该k个连续的帧可以确定ITD参数。然后，解码设备取后续k-1个帧的与ITD参数相关联的解码的n个比特的值，并且合并该值以获得ITD参数。

在以2ⁿ-1为基在最低有效数位首先发送k-1个值的情况下，根据下面的公式从接收到的值r_i形成ITD参数I：

I = Σ_{i = 1}^{k - 1} {(2^{n} - 1)}^{i - 1} r_{i} - - - (1)

在以2ⁿ-1为基在最高有效数位首先发送k-1个值的情况下，根据下面的公式，从接收到的值r_i来形成ITD参数：

I = Σ_{i = 1}^{k - 1} {(2^{n} - 1)}^{i - 1} r_{k - 1} - - - (2)

解码设备还被配置为对接收到的编码语音信号进行解码，并且根据解码的ITD参数来处理解码的语音信号，以便于向接收通信装置14的用户(或多个用户)提供对麦克风101、103提供的语音信号的重建。

在上述示例中，处理器119对ITD参数进行编码。应当理解，根据本公开的处理器119可以用于对其他参数进行编码，其他参数与信号源或者来自源(多个源)的信号相关联，并且该参数以低于帧速率的速率进行改变。这样的其他参数可以包括下述中的一个或多个：信号源标识参数(诸如基于本地谈话人标识或简单的室内座位位置的谈话人标签、照像机标签、活动的麦克风标签以及标识终端的安全水印)、头部相关传递函数(HRTF)描述参数、室内混响描述参数、本地信噪比(SNR)测量参数和时间戳参数(为了存档或验证的目的)。还应当理解，处理器119可以被配置为对多于一个的参数进行编码以通过k个帧进行传输。在该后者的情况下，多个参数在由k-1个帧的n个比特所提供的(2ⁿ-1)^(k-1)个值内被编码。

处理器119已经被示出和描述为与帧处理器105、ITD处理器107、单声道编码器115和输出复用器117分立的处理器。应当理解，处理器的数目和对处理器的处理功能的分配是技术人员在根据本公开来实现参数编码方案时的设计选择的问题。

综上，本公开支持至少一个参数通过每帧n个比特来编码，并且通过k-1个帧进行传送，其中预定比特模式在k个帧的第一帧中的n比特中被发送以指示参数的开始。因此，根据本公开的编码技术允许来自多个(k-1)个帧的参数信息的级联，使得可以实现低于帧速率(例如50Hz)的更新速度。通过使预定比特模式指示参数的开始，根据本公开的编码方案允许参数的传输是异步的。通过使得能够进行参数的异步传输，传输可以在任何帧处开始，这使得传输是坚固的，并且以最小的传输延迟来进行自同步。

另外，通过在k个帧上的n个比特中编码和传送参数，根据本公开的编码方案允许低的逐帧比特速率以便于对参数进行编码，并且因此在帧中存在更多的‘自由’比特用于发送其他数据。此外，每帧使用相同的n个比特来传送编码的参数，并且因此，根据本公开的方案使得能够以低复杂度来编码参数。

本公开的另一优点在于，通过规则地重传参数，与过采样的传输所需要的滤波的实际实现相关联的记忆传播问题和抖动问题被最小化。此外，传输中的可预测的延迟允许在维持综合分析编码结构中所要求的编码器和解码器之间的同步的同时的低延迟参数的改变。

在前述中，已经参考本发明实施例的特定示例描述了本发明。然而，很明显，在不背离如所附权利所述的本发明的更宽的范围的情况下，可以在本发明中做出各种修改和改变。

Claims

1.一种对与信号源相关联的至少一个参数进行编码以通过k个帧向解码器传输的设备，所述设备包括：

用于向k个帧的第一个帧的与所述至少一个参数相关联的n个比特指配预定比特模式的装置，所述预定比特模式指示所述至少一个参数的开始；以及

用于将k-1个后续帧的每一个帧的与所述至少一个参数相关联的n个比特设置为使得所述k-1个后续帧的所述n个比特的值表示所述至少一个参数的值的装置。

2.根据权利要求1所述的设备，其中，k和n是大于1的整数。

3.根据权利要求1所述的设备，其中，所述k-1个后续帧的每一个帧中的所述n个比特的值被选择为不同于所述预定比特模式的所述n个比特的值。

4.根据权利要求1所述的设备，其中，所述第一个帧后的帧的所述n个比特表示所述至少一个参数的最低有效数位或最高有效数位。

5.根据权利要求1所述的设备，其中，所述至少一个参数具有预定范围中的值。

6.根据权利要求1所述的设备，其中，所述至少一个参数在由所述k-1个帧的所述n个比特提供的(2ⁿ-1)^(k-1)个值内被编码。

7.根据权利要求1所述的设备，其中，所述至少一个参数具有预定范围中的值，并且所述k-1个帧的所述n个比特提供(2ⁿ-1)^(k-1)个值，所述(2ⁿ-1)^(k-1)个值涵盖所述预定范围并且包括落在所述预定范围外的值。

8.根据权利要求1所述的设备，其中，所述至少一个参数包括多个参数。

9.根据权利要求8所述的设备，其中，所述多个参数在由所述k-1个后续帧的所述n个比特提供的(2ⁿ-1)^(k-1)个值内被编码。

10.根据权利要求1所述的设备，其中，所述至少一个参数包括下述参数中的至少一个：立体声延迟参数、信号源标识参数、头部相关传递函数（HRTF）描述参数、室内混响描述参数、本地信噪比测量参数以及时间戳参数。

11.一种对与信号源相关联的至少一个参数进行编码以通过k个帧向解码器传输的方法，所述方法包括：

向k个帧的第一个帧的与所述至少一个参数相关联的n个比特指配预定比特模式，所述预定比特模式指示所述至少一个参数的开始；

将k-1个后续帧的每一个帧的与所述至少一个参数相关联的n个比特设置为使得所述k-1个后续帧的所述n个比特的值表示所述至少一个参数的值。

12.根据权利要求11所述的方法，其中，所述k-1个后续帧的每一个帧中的所述n个比特的值被选择为不同于所述预定比特模式的所述n个比特的值。

13.根据权利要求11所述的方法，其中，所述至少一个参数具有预定范围中的值。

14.根据权利要求11所述的方法，其中，所述至少一个参数在由所述k-1个帧的所述n个比特提供的(2ⁿ-1)^(k-1)个值中被编码。

15.根据权利要求11所述的方法，其中，所述至少一个参数具有预定范围中的值，并且所述k-1个帧的所述n个比特提供(2ⁿ-1)^(k-1)个值，所述(2ⁿ-1)^(k-1)个值涵盖所述预定范围并且包括落在所述预定范围外的值。

16.根据权利要求11所述的方法，还包括通过所述k个帧向所述解码器传送所述预定比特模式和与所述信号源相关联的所述至少一个参数。

17.根据权利要求16所述的方法，其中，通过在k个帧的第一个帧中传送所述预定比特模式，能够在任何帧异步地开始所述至少一个参数的传输，所述第一帧后面的k-1个后续帧表示所述至少一个参数。