CN102067210B

CN102067210B - 用于对音频信号进行编码和解码的设备和方法

Info

Publication number: CN102067210B
Application number: CN2008801290964A
Authority: CN
Inventors: L·拉克索南; M·塔米; A·瓦希拉彻; A·拉莫
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2008-05-09
Filing date: 2008-05-09
Publication date: 2013-05-15
Anticipated expiration: 2028-05-09
Also published as: KR101414412B1; CA2721702A1; RU2477532C2; EP2301017B1; WO2009135532A1; CA2721702C; CN102067210A; ES2613693T3; KR20110002086A; PL2301017T3; RU2010149667A; EP2301017A1; US20110093276A1; US8930197B2

Abstract

一种方法包括在用户设备处接收加密内容。该内容以加密形式存储于所述用户设备中。用于解密所述存储的加密内容的至少一个密钥存储于用户设备中。

Description

用于对音频信号进行编码和解码的设备和方法

技术领域

本发明涉及用于音频编码和再现的装置和方法，并且具体地但是并不排他地涉及用于编码的语音和音频信号的装置。

背景技术

对语音或者音乐这样的音频信号进行编码以便例如实现对音频信号的高效传输或者存储。

音频编码器和解码器用来代表基于音频的信号，比如音乐和背景噪声。这些类型的编码器通常并未将语音模型用于编码过程，实际上，它们使用用于代表包括语音的所有类型的音频信号的过程。

语音编码器和解码器(编码解码器)通常针对语音信号来优化并且可以按照固定或者可变比特速率进行操作。

音频编码解码器也可以被配置成用可变比特速率进行操作。在较低比特速率处，这样的音频编码解码器可以按照与纯语音编码器等效的编码速率对语音信号起作用。在较高比特速率处，音频编码解码器可以用较高质量和性能对包括音乐、背景噪声和语音的任何信号进行编码。

在一些音频编码解码器中，将输入信号划分成有限数目的频带。各频带信号可以被量化。根据心理声学理论，已知频谱中的最高频率在感知上重要性低于低频。这在一些音频编码解码器中由比特分配来反映，其中向高频信号比低频信号分配较少的比特。

在媒体编码领域中的一种新兴趋势是所谓的分层编码解码器，例如ITU-T嵌入式可变比特速率(EV-VBR)语音/音频编码解码器和ITU-T可缩放视频编码解码器(SVC)。可缩放媒体数据包括为了在接收端中实现重建而总是需要的核心层和可以用来向重建媒体提供附加值(例如提高媒体质量或者增加防范传输错误的稳健性等)的一个或者多个增强层。

可以在传输级中使用这些编码解码器的可缩放性以便例如控制网络容量或者对多播媒体流进行成形以有助于与在不同带宽的接入链路后面的参与者的操作。在应用级中，可缩放性可以用于控制比如计算复杂度、编码延迟或者期望质量水平这样的变量。注意：尽管在一些场景中可以在发送端点应用可缩放性，但是也有如下操作场景，其中更适合的是中间网元能够执行缩放。

多数实时语音编码是针对单声道信号，但是对于一些高端视频和音频远程会议系统，已经使用立体声编码来为收听者产生更佳的语音再现体验。传统立体声语音编码涉及对单独左和右声道的编码，这些声道将声源定位于听觉现场中的某一位置。常用的语音立体声编码是双声道编码，其中音频源(比如讲话者的话音)由位于仿真参考头部左和右耳位置的两个麦克风检测。

对左和右麦克风生成的信号的编码和传输(或者存储)需要更多传输带宽和计算，因为有比常规单声道音频源记录更多的信号需要编码和解码。一种减少立体声编码方法中所用传输(存储)带宽数量的方式需要编码器将左和右声道混合在一起、然后将构造(组合)的单声道信号编码为核心层。然后可以将关于左和右声道差的信息编码为单独比特流或者增强层。然而这一类编码在解码器处产生声音质量比来自单个麦克风(例如位于嘴部附近)的单声道信号的传统编码更差的单声道信号，因为组合在一起的两个麦克风信号接收比位于音频源(例如嘴部)附近的单个麦克风多得多的背景或者环境噪声。这导致使用旧式回放设备的向后兼容‘单声道’输出质量比原单声道记录和单声道回放过程更差。

另外，双声道立体声麦克风布局(其中麦克风位于仿真头部上的仿真耳部位置)尤其在音频源迅速或者骤然移动时可能产生干扰收听者的音频信号。例如在麦克风布局在源(讲话者)附近的布置中，简单地在讲话者旋转他们的头部从而在左和右输出信号中引起明显和猛然切换时可能生成质量欠佳的收听体验。

发明内容

本申请提出一种针对比如会议活动和移动用户设备使用这样的环境促进高效立体声图像再现的机制。

本发明的实施例目的在于解决或者至少部分地减轻上述问题。

根据本发明的第一方面提供一种用于对音频信号进行编码的装置，该装置被配置成：生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

因此在本发明的实施例中，可以使用与包括来自音频源的音频分量的较少部分的第二音频信号不同的方法或者参数对音频分量的较大部分进行编码，因此对音频信号的较大部分更优化地进行编码。

该装置还可以被配置成：从位于或者方向朝向音频源的至少一个麦克风接收来自音频源的音频分量的较大部分；并且从位于或者方向远离音频源的至少一个另外麦克风接收来自音频源的音频分量的较少部分。

该装置还可以被配置成：根据第一音频信号生成第一可缩放编码信号层；根据第二音频信号生成第二可缩放编码信号层；并且组合第一与第二可缩放编码信号层以形成第三可缩放编码信号层。

因此，在本发明的实施例中有可能在装置中对信号进行编码，其中将信号记录为至少两个音频信号，并且对信号个别地编码，因而针对至少两个音频信号中的每个音频信号的编码可以使用不同编码方法或者参数以更优化地代表音频信号。

该装置还可以被配置成通过以下各项中的至少一项生成第一可缩放编码层：高级音频编码(AAC)；MPEG-1第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；ITU-T G.729.1；ITU-T G.722.1；ITU-T G.722.1C；以及增强的自适应多速率宽带(AMR-WB+)编码。

该装置还可以被配置成通过以下各项中的至少一项生成第二可缩放编码层：高级音频编码(AAC)；MPEG-1第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；舒适噪声生成(CNG)编码；以及增强的自适应多速率宽带(AMR-WB+)编码。

根据本发明的第二方面，可以提供一种用于对可缩放编码音频信号进行解码的装置，该装置被配置成：将可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号；对第一可缩放编码音频信号进行解码以生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且对第二可缩放编码音频信号进行解码以生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

该装置还可以被配置成：向第一扬声器输出至少第一音频信号。

该装置还可以被配置成：生成第一音频信号与第二音频信号的至少第一组合并且向第一扬声器输出第一组合。

该装置还可以被配置成：生成第一音频信号与第二音频信号的又一组合并且向第二扬声器输出第二组合。

第一可缩放编码音频信号和第二可缩放编码音频信号中的至少一个可以包括以下各项中的至少一项：高级音频编码(AAC)；MPEG-1第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；ITU-T G.729.1(G.722.1，G.722.1C)；舒适噪声生成(CNG)编码；以及增强的自适应多速率宽带(AMR-WB+)编码。

根据本发明的第三方面，提供一种用于对音频信号进行编码的方法，该方法包括：生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

该方法还可以包括：从位于或者方向朝向音频源的至少一个麦克风接收来自音频源的音频分量的较大部分；并且从位于或者方向远离音频源的至少一个另外麦克风接收来自音频源的音频分量的较少部分。

该方法还可以包括：根据第一音频信号生成第一可缩放编码信号层；根据第二音频信号生成第二可缩放编码信号层；并且组合第一与第二可缩放编码信号层以形成第三可缩放编码信号层。

该方法还可以包括通过以下各项中的至少一项生成第一可缩放编码层：高级音频编码(AAC)；MPEG-1第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；ITU-T G.729.1(G.722.1，G.722.1C)；以及增强的自适应多速率宽带(AMR-WB+)编码。

该方法还可以包括通过以下各项中的至少一项生成第二可缩放编码层：高级音频编码(AAC)；MPEG-1第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；舒适噪声生成(CNG)编码；以及增强的自适应多速率宽带(AMR-WB+)编码。

根据本发明的第四方面，提供一种用于对可缩放编码音频信号进行解码的方法，该方法包括：将可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号；对第一可缩放编码音频信号进行解码以生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且对第二可缩放编码音频信号进行解码以生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

该方法还可以包括：向第一扬声器输出至少第一音频信号。

该方法还可以包括：生成第一音频信号与第二音频信号的至少第一组合并且向第一扬声器输出第一组合。

该方法还可以包括：生成第一音频信号与第二音频信号的又一组合并且向第二扬声器输出第二组合。

第一可缩放编码音频信号和第二可缩放编码音频信号中的至少一个可以包括以下各项中的至少一项：高级音频编码(AAC)；MPEG-1 第3层(MP3)；ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；自适应多速率宽带(AMR-WB)编码；ITU-T G.729.1(G.722.1，G.722.1C)；舒适噪声生成(CNG)编码；以及增强的自适应多速率宽带(AMR-WB+)编码。

一种编码器可以包括如上文描述的装置。

一种解码器可以包括如上文描述的装置。

一种电子设备可以包括如上文描述的装置。

一种芯片组可以包括如上文描述的装置。

根据本发明的第五方面，提供一种配置成执行用于对音频信号进行编码的方法的计算机程序产品，该方法包括：生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

根据本发明的第六方面，提供一种配置成执行用于对可缩放编码音频信号进行解码的方法的计算机程序产品，该方法包括：将可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号；对第一可缩放编码音频信号进行解码以生成第一音频信号，该第一音频信号包括来自音频源的音频分量的较大部分；并且对第二可缩放编码音频信号进行解码以生成第二音频信号，该第二音频信号包括来自音频源的音频分量的较少部分。

根据本发明的第七方面，提供一种用于对音频信号进行编码的设备，该设备包括：用于生成第一音频信号的装置，该第一音频信号包括来自音频源的音频分量的较大部分；以及用于生成第二音频信号的装置，该第二音频信号包括来自音频源的音频分量的较少部分。

根据本发明的第八方面，提供一种用于对可缩放编码音频信号进行解码的设备，该设备包括：用于将可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号的装置；用于对第一可缩放编码音频信号进行解码以生成第一音频信号的装置，该第一音频信号包括来自音频源的音频分量的较大部分；以及用于对第二可缩放编码音频信号进行解码以生成第二音频信号的装置，该第二音频信号包括来自音频源的音频分量的较少部分。

附图说明

为了更好地理解本发明，现在将通过例子对以下附图进行参考，其中：

图1示意性地示出了运用本发明实施例的电子设备；

图2示意性地示出了运用本发明实施例的音频编码解码器系统；

图3示意性地示出了图2中所示音频编码解码器系统的编码器部分；

图4示意性地示出了流程图，该流程图图示了根据本发明的如图3中所示音频编码器的一个实施例的操作；

图5示意性地示出了图2中所示音频编码解码器系统的解码器部分；

图6示出了流程图，该流程图图示了根据本发明的如图5中所示音频解码器的一个实施例的操作；以及

图7a至图7h示出了根据本发明实施例的可能麦克风/扬声器位置。

具体实施方式

下文更详细地描述用于提供可缩放音频编码系统的可能机制。就这一点而言，首先参照图1，该图示出了示例性电子设备10的示意框图，该电子设备可以并入根据本发明一个实施例的编码解码器。

电子设备10可以例如是无线通信系统的移动终端或者用户设备。

电子设备10包括经由模数转换器14链接到处理器21的麦克风11。处理器21还经由数模转换器32链接到扩音器33。处理器21还链接到收发器(TX/RX)13、用户接口(UI)15和存储器22。

处理器21可以被配置成执行各种程序代码。实施的程序代码包括音频编码代码，用于对组合的音频信号和代码进行编码，以对与多个通道的空间信息有关的附带信息进行提取和编码。实施的程序代码23还包括音频解码代码。实施的程序代码23可以例如存储于存储器22中以便只要需要就由处理器21取回。存储器22还可以提供用于存储数据(例如根据本发明已经编码的数据)的部分24。

编码和解码代码可以在本发明的实施例中实施于硬件或者固件中。

用户接口15使用户能够例如经由小键盘向电子设备10输入命令和/或例如经由显示器从电子设备10获得信息。收发器13例如经由无线通信网络实现与其它电子设备通信。

将同样理解可以用许多方式补充和变化电子设备10的结构。

电子设备10的用户可以将麦克风11用于输入将向某些其它电子设备传输或者将存储于存储器22的数据部分24中的语音。用户为此已经经由用户接口15激活对应应用。可以由处理器21运行的这一应用使处理器21执行存储器22中存储的编码代码。

模数转换器14将输入的模拟音频信号转换成数字音频信号并且向处理器21提供数字音频信号。

处理器21然后可以用与参照图3和图4所述相同的方式处理数字音频信号。

向收发器13提供所得比特流以便向另一电子设备传输。取而代之，编码数据可以存储于存储器22的数据部分24中，以便例如以后传输或者以后由相同电子设备10呈现。

电子设备10也可以经由它的收发器13从另一电子设备接收具有对应编码数据的比特流。在这一情况下，处理器21可以执行存储器22中存储的解码程序代码。处理器21对接收的数据进行解码并且向数模转换器32提供解码数据。数模转换器32将数字编码数据转换成模拟音频数据并且经由扩音器33输出它们。对解码程序代码的执行可以也可以由用户已经经由用户接口15调用的应用来触发。

接收的编码数据也可以存储于存储器22的数据部分24中而不是经由扩音器33立即呈现，以便例如实现以后呈现或者向又一电子设备转发。

将理解图3和图5中所述示意结构以及图4和图6中的方法步骤代表如图1中所示电子设备中实施的示例所示完整音频编码解码器的操作的仅一部分。

参照图7a和图7b，示出了适合于本发明实施例的麦克风布置例子。在图7a中示出了第一和第二麦克风11a和11b的示例布置。第一麦克风11a位置接近第一音频源，例如会议扬声器701a。从第一麦克风11a接收的音频信号可以标为“近”信号。还示出了第二麦克风11b位置远离音频源701a。从第二麦克风11b接收的音频信号可以定义为“远”音频信号。

如本领域技术人员将清楚理解的那样，为了生成“近”和“远”音频信号而在麦克风的定位之间的差异在于与音频源701a的相对差异之一。因此对于又一会议扬声器701b这第二音频源，从第二麦克风11b导出的音频信号将是“近”音频信号，而从第一麦克风11a导出的音频信号将视为“远”音频。

参照图7b，可以示出用于针对典型移动通信设备生成“近”和“远”音频信号的麦克风布局例子。在这样的布置中，生成“近”音频信号的麦克风11a位置接近音频源703，该音频源将例如在与常规移动通信设备麦克风类似的位置并且因此接近移动通信设备用户705的嘴部，而生成“远”音频信号的第二麦克风11b位于移动通信设备707的相反侧上并且配置成从周围接收音频信号，这防止移动通信设备707本身拾取来自音频源703的直接音频路径。

虽然在图7中示出了第一麦克风11a和第二麦克风11b，但是本领域技术人员将理解可以从任何数目的麦克风源生成“近”和“远”音频信号。

例如可以使用具有定向元件的当麦克风来生成“近”和“远”音频信号。在这一实施例中，可以有可能使用指向音频源的麦克风定向元件来生成近信号并且从远离音频源指向的麦克风定向元件生成“远”音频信号。

另外，在本发明的其它实施例中，可以有可能使用多个麦克风以生成“近”和“远”音频信号。在这些实施例中，可以有对来自麦克风的信号的预处理以通过混合从音频源附近的麦克风接收的音频信号来生成“近”音频信号并且通过混合从位于或者方向远离音频源的麦克风接收的音频信号来生成“远”音频信号。

虽然上文以及下文已经将“近”和“远”信号讨论为由麦克风直接生成或者通过预处理麦克风生成的信号来生成，但是将理解“近”和“远”信号可以是先前记录/存储或者接收而不是直接来自麦克风/预处理器的信号。

另外，虽然上文以及下文讨论对“近”和“远”音频信号的编码和解码，但是将理解在本发明的实施例中可以存在待编码的多于两个音频信号。例如在一个实施例中，可以有多个“近”或者多个“远”音频信号。在本发明的其它实施例中，可以有主要“近”音频信号和多个次要“近”音频信号，其中从在“近”与“远”音频信号之间的位置导出信号。

为了讨论本发明的其余部分，将讨论用于两个麦克风/近和远通道的编码和解码过程的编码和解码。

参照图7c和图7d，示出了适合于本发明实施例的扬声器布置示例。在图7c中示出了常规或者旧式单声道扬声器布置。用户705具有位置与用户705的耳部之一邻近的扬声器709。在如图7c中所示这样的布置中，单个扬声器79可以向优选耳部提供“近”信号。在本发明的一些实施例中，单个扬声器709可以提供“近”信号加上“远”信号的已处理的或者已滤波的分量以便向输出信号添加某一“间隔”。

在图7d中，用户705配备有包括一对扬声器711a和711b的头戴式耳机711。在这样的布置中，第一扬声器711a可以输出“近”信号，而第二扬声器711b可以输出“远”信号。

在本发明的其它实施例中，第一扬声器711a和第二扬声器711b均具有“近”与“远”信号的组合。

在本发明的一些实施例中，第一扬声器711a具有“近”与“远”音频信号的组合，从而第一扬声器711a接收“近”信号和α修改的“远”音频信号。第二扬声器711b接收“远”音频信号和β修改的“近”音频信号。在这一实施例中，α和β项指示已经对音频信号进行滤波或者处理。

参照图7e，示出了适合于本发明实施例的麦克风和扬声器布置的又一例子。在这样的实施例中，用户705配备有第一头戴式耳机/头戴式耳机单元，该单元包括位置分别与优选耳部和嘴部邻近的扬声器713a和麦克风713b。用户705还配备有又一单独蓝牙设备715，该蓝牙设备配备有单独蓝牙设备扬声器715a和单独蓝牙设备麦克风715b。单独蓝牙设备715的麦克风715b被配置成使得它并不从用户705的音频源、即用户705的嘴部直接接收信号。头戴式耳机扬声器713a和单独蓝牙设备扬声器715a的布置可以视为类似于如图7d中所示单个头戴式耳机711的两个扬声器的布置。

参照图7f，还示出了适合于本发明实施例的麦克风和扬声器布置的又一例子。在图7f中示出了可以直接连接到或者可以不直接连接到电子设备的线缆。线缆717包括扬声器729和若干单独麦克风。麦克风沿着线缆的长度布置以形成麦克风阵列。因此，第一麦克风727位置接近扬声器729，第二麦克风725位置沿着线缆717更远离第一麦克风727。第三麦克风723位置沿着线缆717更远离第二麦克风725。第四麦克风721位置沿着线缆717更远离第三麦克风723。第五麦克风719位置沿着线缆717更远离第四麦克风721。麦克风的间隔根据本发明的实施例可以是线性或者非线性配置。在这样的布置中，可以通过混合由与用户705的嘴部最近的麦克风接收的音频信号的组合来形成“近”信号。可以通过混合从与用户705的嘴部最远的麦克风接收的音频信号的组合来生成“远”音频信号。如上文在本发明的一些实施例中所述，各麦克风可以用来生成然后如下文更详细所述处理的单独音频信号。

在这些实施例中，本领域技术人员将理解麦克风的实际数目并不重要。因此，在任何布置中的多个麦克风可以在本发明的实施例中用来捕获音频场，并且信号处理方法可以用来恢复“近”和“远”信号。

参照图7g，示出了适合于本发明实施例的麦克风和扬声器布置的又一例子。在图7g中示出了蓝牙设备连接到用户705的优选耳部。蓝牙设备735包括位置与用户705的嘴部邻近的“近”麦克风731。蓝牙设备735还包括位置相对于邻近(近)麦克风731的位置而言远离的“远”麦克风733。

另外参照图7h，示出了适合于本发明实施例的麦克风/扬声器布置的例子。在图7h中，用户705被配置成操作头戴式耳机751。头戴式耳机包括具有第一扬声器737和第二扬声器739的双声道立体声头戴式耳机。头戴式耳机751还示出具有一对麦克风。第一麦克风741在图7h中表示为位置与扬声器739相距100毫米而第二麦克风743与扬声器739相距200毫米。在这样的布置中，可以根据参照图7d描述的回放布置来配置第一扬声器737和第二扬声器739。

另外，第一麦克风741和第二麦克风743的麦克风布置可以被配置成使得第一麦克风741被配置成接收或者生成“近”音频信号分量而第二麦克风743被配置成生成“远”音频信号。

在图2中示出了如本发明的实施例所使用的音频编码器的主要操作。一般的音频编码/解码系统由编码器和解码器构成，如图2中示意性地图示。图示了具有编码器104、存储或者媒体通道106和解码器108的系统102。

编码器104压缩输入音频信号110从而产生存储或者通过媒体通道106传输的比特流112。可以在解码器108内接收比特流112。解码器108对比特流112进行解压缩并且产生输出音频信号114。比特流112的比特速率和输出音频信号114相对于输入信号110的质量是定义编码系统102的性能的主要特征。

图3示意性地描绘了根据本发明一个示例实施例的编码器104。

编码器104包括配置成接收“近”音频信号(例如如图3中所示来自麦克风111a的音频信号)的核心编码解码器处理器301。核心编码解码器处理器还被布置成连接到复用器305和增强层处理器303。

增强层处理器303还被配置成接收“远”音频信号，其在图3中表示为从麦克风11b接收的音频信号。增强层处理器还被配置成连接到复用器305。复用器305被配置成输出比特流，比如图2中所示比特流112。

参照示出了编码器104的操作的流程图图4更详细地描述这些部件的操作。

“近”和“远”音频信号由编码器104接收。在本发明的第一实施例中，“近”和“远”音频信号是数字采样信号。在本发明的其它实施例中，“近”和“远”音频信号可以是模数(A/D)转换的从麦克风11a和11b接收的模拟音频信号。在本发明的更多实施例中，音频信号从脉码调制(PCM)数字信号转换成调幅(AM)数字信号。在图4中步骤401示出了从麦克风接收音频信号。

如上文在本发明的实施例中所示，可以从麦克风阵列(其可以包括多于2个麦克风)处理“近”和“远”音频信号。从麦克风阵列(比如图7f中所示阵列)接收的音频信号可以使用信号处理方法如波束形成、语音增强、声源跟踪、噪声抑制来生成“近”和“远”音频信号。因此，在本发明的实施例中，选择并确定生成的“近”音频信号使得它优选地包含(干净的)语音信号(换而言之，无太多噪声的音频信号)，并且选择并确定生成的“远”音频信号使得它优选地包含背景噪声分量以及来自周围环境的讲话者自己的话音回声。

核心编码解码器处理器301接收待编码的“近”音频信号并且输出代表核心级编码信号的编码参数。核心编码解码器处理器301还可以生成合成的“近”音频信号(换而言之，将“近”音频信号编码成参数，然后使用反过程对参数进行解码以产生合成的“近”音频信号)以供内部使用。

核心编码解码器处理器301可以使用任何适当编码技术以生成核心层。

在本发明的第一实施例中，核心编码解码器处理器301使用嵌入式可变比特速率编码解码器(EB-VBR)来生成核心层。

在本发明的其它实施例中，核心编码解码器处理器可以是代数代码激励线性预测编码(ACELP)并且被配置成输出典型ACELP参数的比特流。

将理解本发明的实施例同样可以使用任何基于音频或者语音的编码解码器以代表核心层。

在图4中步骤403示出了核心层编码信号的生成。从核心编码解码器301向复用器305传递核心层编码信号。

增强层处理器303接收“远”音频信号并且根据“远”音频信号来生成增强层输出。在本发明的一些实施例中，增强层处理器对“远”音频信号进行如核心编码解码器处理器301对“近”音频信号进行的类似编码。在本发明的其它实施例中，使用任何适当编码方法对“远”音频信号进行编码。例如可以使用比如在不连续发送(DTX)中使用的类似方案对“远”音频信号进行编码，其中在低比特速率层中使用舒适噪声生成(CNG)编码解码器，而对于中和高比特速率容量编码器可以使用代数代码激励线性预测编码(ACELP)和改型离散余弦变换(MDCT)残留编码方法。在本发明的一些实施例中，也可以具体选择对“远”信号的量化以适应信号类型。

在本发明的一些实施例中，增强层处理器被配置成接收合成的“近”音频信号和“远”音频信号。增强层处理器303可以在本发明的实施例中根据“远”音频信号和合成的“近”音频信号来生成也称为增强层的编码比特流。例如在本发明的一个实施例中，增强层处理器从“远”音频信号中提取合成的“近”信号、然后例如通过执行时域到频域的转换并且将频域输出编码为增强层来对差音频信号进行编码。

在本发明的其它实施例中，增强层处理器303被配置成接收“远”音频信号、合成的“近”音频信号和“近”音频信号并且根据三个输入的组合来生成增强层比特流。

因此，用于对音频信号进行编码的装置可以在本发明的实施例中被配置成根据第一音频信号来生成第一可缩放编码信号层、根据第二音频信号来生成第二可缩放编码信号层并且组合第一和第二可缩放编码信号层以形成第三可缩放编码信号层。

该装置可以在实施例中还被配置成：生成包括来自音频源的音频分量的较大部分的第一音频信号，并且生成包括来自音频源的音频分量的较少部分的第二音频信号。

该装置可以在实施例中还被配置成从位于或者方向朝向音频源的至少一个麦克风接收来自音频源的音频分量的较大部分并且从从位于或者方向远离音频源的至少一个另外麦克风接收来自音频源的音频分量的较少部分。

例如在本发明的一些实施例中，根据合成的“近”音频信号和“近”音频信号来生成增强层比特流输出的至少一部分，并且增强层比特流输出的一部分仅依赖于“远”音频信号。在这一实施例中，增强层处理器303执行对“远”音频信号的类似核心编码解码器处理，以生成“远”编码层，其与核心编码解码器处理器301对“近”音频信号、但是未针对“远”音频信号部分而产生的编码层类似。

在本发明的更多实施例中，将“近”合成信号和“远”音频信号变换到频域，然后对两个频域信号之差进行编码以产生增强层数据。

在使用频率频带编码的本发明实施例中，时域到频域的变换可以是任何适当的转换器，比如离散余弦变换(DCT)、离散傅里叶变换(DFT)、快速傅里叶变换(FFT)。

在本发明的一些实施例中，可以生成ITU-T嵌入式可变比特速率(EV-VBR)语音/音频编码解码器增强层和ITU-T可缩放视频编码解码器(SVC)增强层。

另外的实施例可以包括但不限于使用可变多速率宽带(VMR-WB)、ITU-T G.729、ITU-T G.729.1、ITU-T G722.1、ITUG.722.1C、自适应多速率宽带(AMR-WB)和自适应多速率宽带+(AMR-WB+)编码方案来生成增强层。

在本发明的其它实施例中，任何适当层编码解码器可以用来提取在合成的“近”信号与“远”信号之间的相关性以生成有利编码的增强层数据信号。

在图4中步骤405示出了增强层的生成。

从增强层处理器303向复用器305传递增强层数据。

复用器305然后复用从核心编码解码器处理器301接收的核心层和来自增强层处理器303的一个或者多个增强层以形成编码信号比特流112。在图4中步骤407示出了对核心层和增强层进行复用以产生比特流。

为了进一步有助于理解本发明，参照图5中示意性地示出的解码器和图6中示出解码器操作的流程图来示出参照本发明实施例的解码器108的操作。

解码器108包括如下输入502，可以从该输入接收编码比特流112。输入502连接到比特接收器/解复用器1401。解复用器1401被配置成从比特流112中剥离核心和增强层。从解复用器1401向核心编码解码器处理器1403传递核心层数据，并且从解复用器1401向增强层解码器处理器1405传递增强层。

另外，核心编码解码器处理器1403连接到音频信号组合器和混合器1407以及增强层解码器处理器1405。

增强层解码器处理器1405连接到音频信号组合器和混合器1407。音频信号组合器和混合器1407的输出连接到输出音频信号114。

在图6中步骤501示出了对复用编码比特流的接收。

在图6中步骤503示出了对比特流进行解码并且分离成核心层数据和增强层数据。

核心编码解码器处理器1403执行与如编码器104中所示核心编码解码器处理器301相反的过程以便生成合成的“近”音频信号。这从核心编码解码器处理器1403向音频信号组合器和混合器1407传递。

另外，在本发明的一些实施例中也向增强层解码器处理器1405传递合成的“近”音频信号。

在图6中步骤505示出了对核心层进行解码以形成合成的“近” 音频信号。

增强层解码器处理器1405从解复用器1401至少接收增强层信号。另外在本发明的一些实施例中，增强层解码器处理器1405从核心编码解码器处理器1403接收合成的“近”音频信号。另外，在本发明的一些实施例中，增强层解码器处理器1405从核心编码解码器处理器1403接收合成的“近”音频信号以及核心层的一些解码参数。

增强层解码器处理器1405然后执行与编码器104的增强层处理器303内生成的过程相反的过程以便至少生成“远”音频信号。

在本发明的一些实施例中，增强层解码器处理器1405还可以产生用于“近”音频信号的附加音频分量。在图6中步骤507示出了根据对增强层(以及在一些实施例中对合成的核心层)的解码来产生“远”音频信号。

向音频信号组合器和混合器1407传递来自增强层解码器处理器的“远”音频信号。

音频信号组合器和混合器1407然后在接收合成的“近”音频信号和解码的“远”音频信号时产生两个接收信号的组合的和/或所选的组合并且在输出音频信号输出上输出混合的音频信号。

在本发明的一些实施例中，音频信号组合器和混合器经由解复用器1401从输入比特流接收更多信息，或者具有与用来生成“近”和“远”音频信号的麦克风的布局有关的先前知识，以参照用于收听者的扬声器或者麦克风位置的定位来对合成的“近”音频信号和解码的“远”音频信号进行数字信号处理，以便创建“近”和“远”音频信号的正确或者有利发声组合。

在本发明的一些实施例中，音频信号组合器和混合器可以仅输出“近”音频信号。在这样的实施例中，将产生与旧式单声道编码/解码类似的音频信号，并且因此将产生会向后兼容于当前音频信号的结果。

在本发明的一些实施例中，根据比特流对“近”和“远”信号都进行解码，并且向“近”信号混合“远”信号的数量以便获得令人愉悦的发声单声道听觉背景。在本发明的此类实施例中，将有可能让收听者了解音频源的环境而不干扰对音频源的理解。这也将允许接受者调节“环境”数量以适应他的/她的偏好。

使用“近”和“远”信号产生比常规双声道过程更稳定并且受音频源的运动影响较少的输出。另外，在本发明的实施例中有另一优点在于无需编码器连接到多个麦克风以便产生令人愉悦的收听体验。

因此根据上文清楚，在本发明的实施例中，用于对可缩放编码音频信号进行解码的装置被配置成将可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号。该装置还被配置成对第一可缩放编码音频信号进行解码以生成第一音频信号。该装置也被配置成对第二可缩放编码音频信号进行解码以生成第二音频信号。

另外，在本发明的实施例中，该装置还可以被配置成：向第一扬声器输出至少第一音频信号。

如上文描述的，在一些实施例中，该装置还可以被配置成生成第一音频信号与第二音频信号的至少第一组合并且向第一扬声器输出第一组合。

在其它实施例中该装置还可以被配置成生成第一音频信号与第二音频信号的又一组合并且向第二扬声器输出第二组合。

将理解即使已经按照核心层和单个增强层示例性地描述本发明，但是将理解本发明可以应用于更多增强层。

上述本发明的实施例按照单独的编码器104和解码器108描述了编码解码器以便有助于理解涉及到的过程。然而将理解该装置、结构和操作可以实施为单个编码器-解码器装置/结构/操作。另外，在本发明的一些实施例中，编码器和解码器可以共享一些/或者所有共同单元。

如先前提到的那样，虽然上述过程描述了单个核心音频编码信号和单个增强层音频编码信号，但是可以应用相同方式以使用相同或者相似分组传输协议来同步两个媒体流。

虽然上述例子描述了在电子设备610内的编码解码器内操作的本发明实施例，但是将理解：如下文描述的本发明可以实施为任何可变速率/自适应速率音频(或者语音)编码解码器的部分。因此例如本发明的实施例可以实施于如下音频编码解码器内，该编码解码器可以在固定或者有线通信路径内实施音频编码。

因此，用户设备可以包括编码解码器，比如在上述本发明实施例中描述的编码解码器。

将理解术语用户设备旨在于覆盖任何适当类型的无线用户设备，比如移动电话、便携数据处理设备或者便携Web浏览器。

另外，公共陆地移动网络(PLMN)的单元也可以包括如上文描述的音频编码解码器。

一般而言，本发明的各种实施例可以实施于硬件或者专用电路、软件、逻辑或者其任何组合中。例如，一些方面可以实施于硬件，而其它方面可以实施于可以由控制器、微处理器或者其它计算设备执行的固件或者软件中，尽管本发明并不限于此。尽管可以将本发明的各种方面图示和描述为框图、流程图或者使用某一其它图形表示，但是适当地理解这里描述的这些块、装置、系统、技术或者方法可以实施于作为非限制例子的硬件、软件、固件、专用电路或者逻辑、通用硬件或者控制器或者其它计算设备或者其一些组合中。

例如本发明的实施例可以实施为芯片组、也就是相互之间通信的一系列集成电路。芯片组可以包括布置成运行代码的微处理器、专用集成电路(ASIC)或者用于执行上述操作的可编程数字信号处理器。

本发明的实施例可以由可由移动设备的数据处理器(比如在处理器实体中)执行的计算机软件或者由硬件或者由软件与硬件的组合来实施。另外就这一点而言，应当注意如图中的逻辑流程的任何块可以代表程序步骤或者互连的逻辑电路、块和功能或者程序步骤和逻辑电路、块和功能的组合。

存储器可以是适合于本地计算环境的任何类型，并且可以使用任何适当数据存储技术(比如基于半导体的存储器设备、磁存储器设备和系统、光学存储器设备和系统、固定存储器和可拆卸存储器)来实施。数据处理器可以是适合于本地技术环境的任何类型，并且可以包括作为非限制例子的通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器中的一种或者多种。

本发明的实施例可以实施于各种部件如集成电路模块中。集成电路的设计很大程度上是高度自动化的过程。复杂而强大的软件工具可用于将逻辑级设计转换成准备好蚀刻和形成于半导体衬底上的半导体电路设计。

比如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣荷塞的Cadence Design提供的程序这样的程序使用建立好的设计规则以及预存储的设计模块库在半导体芯片上自动对导体进行布线和对部件进行定位。一旦已经完成用于半导体电路的设计，可以向半导体制作设施或者“制作厂”传输标准化电子格式(例如Opus、GDSII等)的所得设计以供制作。

前文描述已经通过示例和非限制性的例子提供对本发明示例实施例的完全和启发描述。然而本领域技术人员鉴于在结合附图和所附权利要求阅读时的前文描述可以清楚各种修改和适配。然而对本发明教导的所有这样和类似的修改仍然将落入如所附权利要求书中限定的本发明范围内。

Claims

1.一种用于对音频信号进行编码的设备，包括：

用于从位于或者方向朝向音频源的至少一个麦克风接收音频分量的装置；

用于从至少一个另外麦克风接收音频分量的装置，其中所述另外麦克风位于相比所述至少一个麦克风的位置进一步远离所述音频源的位置或者所述另外麦克风方向远离所述音频源，以及其中相比从所述至少一个麦克风接收的所述音频源的所述音频分量，从所述至少一个另外麦克风接收的所述音频分量包括更少的所述音频源的音频分量；

用于根据从位于或者方向朝向音频源的所述至少一个麦克风接收的所述音频分量生成第一可缩放编码信号层的装置；以及

用于根据从所述至少一个另外麦克风接收的所述音频分量生成第二可缩放编码信号层的装置。

2.如权利要求1所述的设备，还包括：

用于组合所述第一与第二可缩放编码信号层以形成第三可缩放编码信号层的装置。

3.如权利要求1至2任一项所述的设备，还包括用于通过以下各项中的至少一项生成所述第一可缩放编码信号层的装置：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

ITU-T G.729.1；

ITU-T G.722.1；

ITU-T G.722.1C；以及

增强的自适应多速率宽带(AMR-WB+)编码。

4.如权利要求1至2任一项所述的设备，还包括用于通过以下各项中的至少一项生成所述第二可缩放编码信号层的装置：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

舒适噪声生成(CNG)编码；以及

增强的自适应多速率宽带(AMR-WB+)编码。

5.一种用于对可缩放编码音频信号进行解码的设备，包括：

用于将所述可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号的装置；

用于对所述第一可缩放编码音频信号进行解码以生成第一音频信号的装置，所述第一音频信号包括来自位于或者方向朝向音频源的至少一个麦克风的音频分量；以及

用于对所述第二可缩放编码音频信号进行解码以生成第二音频信号的装置，相比所述第一音频信号的来自所述音频源的音频分量的数量，所述第二音频信号包括来自所述音频源的更少的音频分量，其中所述更少的音频分量来自位于相比所述至少一个麦克风的位置进一步远离所述音频源的位置的另外麦克风或者来自方向远离音频源的另外麦克风。

6.如权利要求5所述的设备，还包括：

用于向第一扬声器输出至少所述第一音频信号的装置。

7.如权利要求6所述的设备，还包括：用于生成所述第一音频信号与所述第二音频信号的至少第一组合并且向所述第一扬声器输出所述第一组合的装置。

8.如权利要求7所述的设备，还包括：用于生成所述第一音频信号与所述第二音频信号的第二组合并且向第二扬声器输出所述第二组合的装置。

9.如权利要求5至6任一项所述的设备，其中所述第一可缩放编码音频信号和所述第二可缩放编码音频信号中的至少一个包括以下各项中的至少一项：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

ITU-T G.729.1；

ITU-T G.722.1；

ITU-T G.722.1C；

舒适噪声生成(CNG)编码；以及

增强的自适应多速率宽带(AMR-WB+)编码。

10.一种用于对音频信号进行编码的方法，包括：

从位于或者方向朝向音频源的至少一个麦克风接收音频分量；

从至少一个另外麦克风接收音频分量，其中所述另外麦克风位于相比所述至少一个麦克风的位置进一步远离所述音频源的位置或者所述另外麦克风方向远离所述音频源，以及其中相比从所述至少一个麦克风接收的所述音频源的所述音频分量，从所述至少一个另外麦克风接收的所述音频分量包括更少的所述音频源的音频分量；

根据从位于或者方向朝向音频源的所述至少一个麦克风接收的所述音频分量生成第一可缩放编码信号层；以及

根据从所述至少一个另外麦克风接收的所述音频分量生成第二可缩放编码信号层。

11.如权利要求10所述的方法，还包括：

组合所述第一与第二可缩放编码信号层以形成第三可缩放编码信号层。

12.如权利要求10至11任一项所述的方法，还包括通过以下各项中的至少一项生成所述第一可缩放编码信号层：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

ITU-T G.729.1；

ITU-T G.722.1；

ITU-T G.722.1C；以及

增强的自适应多速率宽带(AMR-WB+)编码。

13.如权利要求10至11任一项所述的方法，还包括通过以下各项中的至少一项生成所述第二可缩放编码信号层：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

舒适噪声生成(CNG)编码；以及

增强的自适应多速率宽带(AMR-WB+)编码。

14.一种用于对可缩放编码音频信号进行解码的方法，包括：

将所述可缩放编码音频信号划分成至少第一可缩放编码音频信号和第二可缩放编码音频信号；

对所述第一可缩放编码音频信号进行解码以生成第一音频信号，所述第一音频信号包括来自位于或者方向朝向音频源的至少一个麦克风的音频分量；以及

对所述第二可缩放编码音频信号进行解码以生成第二音频信号，相比所述第一音频信号的来自所述音频源的音频分量的数量，所述第二音频信号包括来自所述音频源的更少的音频分量，其中所述更少的音频分量来自位于相比所述至少一个麦克风的位置进一步远离所述音频源的位置的另外麦克风或者来自方向远离音频源的另外麦克风。

15.如权利要求14所述的方法，还包括：

向第一扬声器输出至少所述第一音频信号。

16.如权利要求15所述的方法，还包括：生成所述第一音频信号与所述第二音频信号的至少第一组合并且向所述第一扬声器输出所述第一组合。

17.如权利要求16所述的方法，还包括：生成所述第一音频信号与所述第二音频信号的第二组合并且向第二扬声器输出所述第二组合。

18.如权利要求14至15任一项所述的方法，其中所述第一可缩放编码音频信号和所述第二可缩放编码音频信号中的至少一个包括以下各项中的至少一项：

高级音频编码(AAC)；

MPEG-1第3层(MP3)；

ITU-T嵌入式可变速率(EV-VBR)语音编码基线编码；

自适应多速率宽带(AMR-WB)编码；

ITU-T G.729.1；

ITU-T G.722.1；

ITU-T G.722.1C；

舒适噪声生成(CNG)编码；以及

增强的自适应多速率宽带(AMR-WB+)编码。

19.一种编码器，包括如权利要求1至4所述的设备。

20.一种解码器，包括如权利要求5至9所述的设备。

21.一种电子设备，包括如权利要求1至4所述的设备。

22.一种电子设备，包括如权利要求5至9所述的设备。