CN107408393A

CN107408393A - 替换经编码的音频输出信号

Info

Publication number: CN107408393A
Application number: CN201680017099.3A
Authority: CN
Inventors: J·马基嫩
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-03-23
Filing date: 2016-02-23
Publication date: 2017-11-28
Also published as: WO2016153671A1; US9916836B2; US20160284355A1; EP3274991A1

Abstract

公开了经编码的音频输出信号的替换。在一个示例中，包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集被接收到。中间音频信号通过对数字音频输入信号应用音频处理修改来被产生。音频处理修改使用因装置而异的信息。要使用的特定的音频处理修改基于用户输入或其他信息来被确定。中间音频信号被编码以产生第二经编码的音频输出信号。第一经编码的音频输出信号用数据集中的第二经编码的音频输出信号来被替换。

Description

替换经编码的音频输出信号

背景

各种数字视频相机和移动装置(诸如包含数字相机的智能电话和平板计算机)可具有用于音频录制的两个或更多个麦克风。麦克风可以以允许实现若干音频录制模式(诸如立体声或环绕声录制)的方式来被放置。用户界面使得选择录制模式和其他音频录制参数(诸如启用和禁用高通滤波)成为可能。然而，用户可能并不总是有时间(例如，在自组织情况下)来选择最佳设置。此外，在嘈杂或噪声条件下，最佳设置的选择可能是困难的，因为对音频进行监听不可行或不受支持。

概述

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

描述了经编码的音频输出信号的替换。在一个示例中，一种方法包括接收包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集，这些数字音频输入信号先前已被用作为第一经编码的音频输出信号的输入；使用因装置而异的信息对接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；编码中间音频信号以产生第二经编码的音频输出信号；以及用数据集中的第二经编码的音频输出信号来替换第一经编码的音频输出信号。

在另一示例中，一种装置和计算机可读存储介质连同所述方法的特征已被讨论。

通过结合附图参考以下详细描述，可易于领会并更好地理解许多附带特征。

附图简述

根据附图阅读以下详细描述将更好地理解本说明书，在附图中：

图1是方法的一个示例的流程图；

图2是方法的另一示例的流程图；

图3是方法的另一示例的流程图；

图4是方法的另一示例的流程图；

图5是装置的一个示例的框图。

图6是装置的另一示例的框图。

图7是系统的一个示例的图示。

在各个附图中使用相同的附图标记来指代相同的部件。

详细描述

下面结合附图提供的详细描述旨在作为本发明示例的描述，并不旨在表示可以构建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能，以及用于构建和操作本发明示例的步骤的序列。然而，可以通过不同的示例来实现相同或等效的功能和序列。

虽然本发明示例中的一些示例在本文中可被描述和解说成实现在移动电话、智能电话或平板计算机中，但这些仅仅是装置的示例而非限制。如本领域技术人员将理解的，本发明的示例适合应用于包含具有多个麦克风的数字音频录制模块的各种不同类型的装置，例如独立的数字摄像机设备。

图1示出了一种方法，其可被用来用第二经编码的音频输出信号替换第一经编码的音频输出信号，该第二经编码的音频输出信号是根据与第一经编码的音频输出信号的相同的用麦克风阵列捕获的数字音频输入信号生成的，但是被应用了(诸)不同的音频处理修改。例如，第一音频输出信号可能不具有最佳质量，因此用更好质量的第二音频输出信号来替换它可能是有益的。例如，在自组织情况下(例如现场音乐会录制或者同朋友的会面)，用户可能已经很匆忙，并且没有足够的时间来选择针对(诸)音频处理修改的最佳设置。

在步骤100，包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集在装置的一单位处被接收。这里，“预先储存”指的是数字音频输入信号不是实时地接收自麦克风阵列。相反，它们已首先被储存在存储器中，接着从该存储器接收它们。数字音频输入信号先前已被用作为第一经编码的音频信号的输入。在步骤102，中间音频信号由装置的单元产生。为了产生中间音频信号，音频处理修改被应用于接收到的数字音频输入信号。音频处理修改使用因装置而异的信息，诸如关于麦克风阵列的配置的信息和关于装置声学的信息。在一示例中，麦克风阵列配置是固定的。

在一示例中，要使用的特定音频处理修改基于用户输入来确定。

在另一示例中，要使用的音频处理修改基于其他信息(例如，关于设备配置的信息、关于设备当前正如何被使用的信息等)来确定。

处理器等可自动地选择要使用的修改而无需用户输入。中间音频信号由装置的单元编码以产生第二经编码的音频输出信号，步骤104。编码可包括例如高级音频编码(AAC)、杜比数字加编码(DD+)等。第一经编码的音频输出信号由装置单元用数据集中的第二经编码的音频输出信号来替换，106。作为结果，第二经编码的音频输出信号可提供改进的音频，包括但不限于质量、编码等。

图2示出了另一方法，其可被用来用第二经编码的音频输出信号替换第一经编码的音频输出信号，该第二经编码的音频输出信号是根据与第一经编码的音频输出信号的相同的用麦克风阵列捕获的数字音频输入信号生成的，但是被应用了(诸)不同的音频处理修改。

在步骤200，包括第一经编码的音频输出信号和用装置的麦克风阵列捕获的相关联的预先储存的数字音频输入信号的数据集在装置的一单位处被接收。数字音频输入信号先前已被用作为第一经编码的音频信号的输入。在步骤202中，中间音频信号由装置的单元产生。为了产生中间音频信号，音频处理修改被应用于接收到的数字音频输入信号。音频处理修改包括从接收到的数字音频输入信号生成具有例如由用户输入指定的音频声道量的中间音频信号。音频声道量可包括例如用于立体声的两个声道和用于环绕声的至少三个声道。在另一示例中，音频声道量可从设备要求、工作条件等导出。处理器等可自动地选择音频声道量而无需用户输入。音频处理修改使用关于麦克风阵列的配置及关于装置声学的因装置而异的信息。中间音频信号由装置的单元编码以产生第二经编码的音频输出信号，步骤204。编码可包括例如高级音频编码(AAC)、杜比数字加编码(DD+)等。第一经编码的音频输出信号由装置单元用数据集中的第二经编码的音频输出信号来替换，步骤206。

图3示出了另一方法，其可被用来用第二经编码的音频输出信号替换第一经编码的音频输出信号，该第二经编码的音频输出信号是根据与第一经编码的音频输出信号的相同的用麦克风阵列捕获的数字音频输入信号生成的，但是被应用了(诸)不同的音频处理修改。

在步骤300，包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集在装置的一单位处被接收。数字音频输入信号先前已被用作为第一经编码的音频信号的输入。在步骤302，中间音频信号由装置的单元产生。为了产生中间音频信号，音频处理修改被应用于接收到的数字音频输入信号。音频处理修改包括基于用户输入来修改接收到的数字音频输入信号的频谱特性。在另一示例中，频谱特性的修改可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、录制空间条件等。处理器等可自动地选择要使用的修改而无需用户输入。频谱特性的修改可包括例如对接收到的数字音频输入信号进行高通滤波。音频处理修改使用关于麦克风阵列的配置及关于装置声学的因装置而异的信息。中间音频信号由装置的单元编码以产生第二经编码的音频输出信号，步骤304。编码可包括例如高级音频编码(AAC)、杜比数字加编码(DD+)等。第一经编码的音频输出信号由装置单元用数据集中的第二经编码的音频输出信号来替换，步骤306。

图4示出了另一方法，其可被用来用第二经编码的音频输出信号替换第一经编码的音频输出信号，该第二经编码的音频输出信号是根据与第一经编码的音频输出信号的相同的用麦克风阵列捕获的数字音频输入信号生成的，但是被应用了(诸)不同的音频处理修改。

在步骤400，包括第一经编码的音频输出信号和用装置的麦克风阵列捕获的相关联的预先储存的数字音频输入信号的数据集在装置的一单位处被接收。数字音频输入信号先前已被用作为第一经编码的音频信号的输入。在步骤402，中间音频信号由装置的单元产生。为了产生中间音频信号，音频处理修改被应用于接收到的数字音频输入信号。音频处理修改包括基于例如用户输入来选择要在对中间音频信号编码期间使用的音频编解码器。在另一示例中，音频编解码器的选择可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、可用的回放装备的能力等。处理器等可自动地选择要使用的音频编解码器而无需用户输入。音频处理修改使用关于麦克风阵列的配置及关于装置声学的因装置而异的信息。中间音频信号由装置的单元编码以产生第二经编码的音频输出信号，步骤404。编码可包括例如高级音频编码(AAC)、杜比数字加编码(DD+)等。第一经编码的音频输出信号由装置单元用数据集中的第二经编码的音频输出信号来替换，步骤406。

图1-4的至少一些示例可例如至少部分地由具有麦克风阵列的装置来执行或者由提供基于网络的存储的服务来执行。

图5示出了可被实现成包含具有多个麦克风的数字音频录制模块的任何形式的计算设备和/或电子设备的装置500的一个示例的框图。例如，装置500可被实现成移动电话、智能电话或平板计算机。替代地，装置500可以被实现成例如独立的数字摄像机设备。

装置500包括麦克风阵列505。麦克风阵列505可包括至少两个麦克风。装置500还包括音频捕捉单元506。音频捕捉单元506被配置成接收包括用麦克风阵列505捕获的第一经编码的音频输出信号和相关联的预先储存(例如在存储器502中)的数字音频输入信号509的数据集。数字音频输入信号509先前已被用作为第一经编码的音频信号的输入。

音频捕捉单元506还被配置成使用关于麦克风阵列505的配置及关于装置500的装置声学的因装置500而异的信息来将音频处理修改应用于接收到的数字音频输入信号509。待应用的特定音频处理修改基于例如用户输入来被确定。在另一示例中，要使用的音频处理修改基于其他信息(例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件等)来被确定。处理器等可自动地选择要使用的修改而无需用户输入。作为所应用的音频处理修改的结果，中间音频信号被产生。

由音频捕捉单元506执行的音频处理修改可包括以下各项中的至少一者：从接收到的数字音频输入信号509生成具有由用户输入指定的音频声道量的中间音频信号；基于例如用户输入来修改接收到的数字音频输入信号509的频谱特性；以及基于例如用户输入来选择要在对中间音频信号编码期间使用的音频编解码器。在另一示例中，音频声道量可从设备要求、工作条件等导出。处理器等可自动地选择音频声道量而无需用户输入。音频声道量可包括用于立体声的两个声道和用于环绕声的至少三个声道。在另一示例中，频谱特性的修改可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、录制空间条件等。处理器等可自动地选择要使用的修改而无需用户输入。频谱特性的修改可包括对接收到的数字音频输入信号509进行高通滤波。在另一示例中，音频编解码器的选择可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、可用的回放装备的能力等。处理器等可自动地选择要使用的音频编解码器而无需用户输入。

装置500还包括音频编码单元507。音频编码单元507被配置成对中间音频信号进行编码以产生第二经编码的音频输出信号。音频编码单元507可被配置成使用例如高级音频编码(AAC)和杜比数字加(DD+)编码等中的一者来执行中间音频信号的编码。

装置500还包括输入/输出单元508。输入/输出单元508被配置成用数据集中的第二经编码的音频输出信号来替换第一经编码的音频输出信号。

装置500可包括一个或多个处理器501，这些处理器可以是微处理器、控制器或用于处理计算机可执行指令以控制装置500的操作的任何其他合适类型的处理器。可在装置500处提供包括操作系统503或任何其他合适的平台软件的平台软件以允许在设备上执行应用软件504。应用软件504可包括在图1-7的示例中的例如被配置成提供用于输入用户输入的图形用户界面的软件。

图6示出了可被实现成提供基于网络的存储服务的任何形式的计算设备和/或电子设备的装置600的一个示例的框图。例如，装置600可被实现成服务器计算机，诸如提供基于云的文件存储服务的服务器计算机。

装置600包括一个或多个处理器601，这些处理器可以是微处理器、控制器或用于处理计算机可执行指令以控制装置600的操作的任何其他合适类型的处理器。包括操作系统603或任何其他合适的平台软件的平台软件可在装置600处被提供。

装置600还包括通信接口606。通信接口606被配置成接收包括用图5的装置500的麦克风阵列505捕获的第一经编码的音频输出信号和相关联的数字音频输入信号的数据集。数字音频输入信号先前已被图5的装置500使用作为用于第一经编码的音频信号的输入。包括数字音频输入信号605的数据集被储存在存储器602中。如下面更详细地讨论的，数据集还可包括用装置500捕获并与第一经编码的音频输出信号相关联的视频信号。在这种情况下，数据集可包括mpeg-4数据集(即，mp4容器文件)等。在包含诸如mp4文件之类的容器文件的数据集的情况下，容器文件可包括作为视频流的视频信号、作为默认音频流的第一经编码的音频输出信号以及作为替代音频流的数字音频输入信号。数据集还可包括装置500的标识符或类型指示符，例如元数据。

基于装置500的标识符或类型指示符，装置600被配置成选择适合于装置500的音频处理修改。例如，装置600可被配置成选择与装置500的标识符或类型指示符相对应的音频处理库604。使用所选择的音频处理库604，装置600进一步被配置成使用关于麦克风阵列505的固定配置及关于装置500声学的因装置500而异的信息来促成将音频处理修改应用于接收到的数字音频输入信号，该音频处理修改基于例如用户输入来被确定以产生中间音频信号。用户输入可与数据集一起由装置600接收或者单独由装置600接收。在另一示例中，要使用的音频处理修改基于其他信息(例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件等)来被自动地确定。装置600还被配置成促使对中间音频信号编码以产生第二经编码的音频输出信号，并且用数据集中的第二经编码的音频输出信号替换第一经编码的音频输出信号。

与图5的装置500一样，由装置600执行的音频处理修改可包括以下各项中的至少一者：从经存储的数字音频输入信号605中生成具有例如由用户输入指定的音频声道量的中间音频信号；基于例如用户输入来修改经储存的数字音频输入信号605的频谱特性；以及基于例如用户输入来选择要在对中间音频信号编码期间使用的音频编解码器。在另一示例中，音频声道量可从设备要求、工作条件等被自动地导出。音频声道量可包括用于立体声的两个声道和用于环绕声的至少三个声道。在另一示例中，频谱特性的修改可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、录制空间条件等。频谱特性的修改可包括对接收到的数字音频输入信号509进行高通滤波。在另一示例中，音频编解码器的选择可基于其他信息，例如，关于设备配置的信息、关于设备当前正如何被使用的信息、设备要求、工作条件、可用的回放装备的能力等。

可使用装置500、600能够访问的任何计算机可读介质来提供计算机可执行指令。计算机可读介质可包括例如诸如存储器502、602之类的计算机存储介质和通信介质。诸如存储器502、602之类的计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EPROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁存储设备，或者可被用来储存信息以供计算设备访问的任何其他非传输介质。相比而言，通信介质可以以诸如载波或其他传输机制之类的已调数据信号来体现计算机可读指令、数据结构、程序模块或者其他数据。如本文所定义的，计算机存储介质不包括通信介质。因此，计算机存储介质不应被解释为本质上是传播信号。传播的信号可存在于计算机存储介质中，但是传播的信号本身不是计算机存储介质的示例。尽管在装置500、600中示出了计算机存储介质(存储器502、602)，然而应当理解，该存储可以是分布式的或者位于远程并经由网络或其他通信链路来被访问。

图7示出了系统700的一个示例的图示.系统700包括装置500、网络710和提供基于网络的存储(诸如云存储)的装置600。网络710可包括有线和/或无线通信网络。

在图1-7的示例中，数据集还可包括用装置捕获并与第一经编码的音频输出信号相关联的视频信号。在这样的情况下，数据集可包括诸如MPEG-4Part 14数据集(即mp4容器文件)等的Mpeg-4(运动图像专家组-4)数据集。此外，数字音频输入信号可包括未经压缩和无损压缩的数字音频输入信号中的一者。未经压缩的数字音频输入信号可包括脉冲编码调制(PCM)信号。在包含诸如mp4文件之类的容器文件的数据集的情况下，容器文件可包括作为视频流的视频信号、作为默认音频流的第一经编码的音频输出信号以及作为在图1-7的示例中的处理之前的替代音频流的数字音频输入信号。将数字音频输入信号与第一经编码的音频输出信号储存在相同的容器中可促成使用正确的数字音频输入信号。作为图1-7的示例的处理的结果，第二经编码的音频输出信号将替换第一经编码的音频输出信号作为默认音频流。

图1-7的至少一些示例可使用关于麦克风设置、装置的尺寸和/或麦克风的效果以及麦克风声音端口的信息。该信息特定于具有麦克风阵列的装置。该信息可包括例如关于装置可如何针对不同的麦克风来差异地遮蔽音频信号的信息。待应用的音频处理修改可使用例如波束成形、对来自麦克风阵列的多个麦克风的数字音频输入信号执行定向分析、对来自麦克风阵列的多个麦克风的频域数字音频输入信号的子带执行定向分析和/或因频带而异的优化。

当在小型便携式设备中实现定向捕捉处理时，将遮蔽效应和设备声学纳入考虑可能是有益的。在诸如电话之类的小型便携式设备中，可用于音频捕捉系统的麦克风的数量是有限的。此外，存在针对麦克风位置的很多限制。其他组件(如触摸屏)以及其他限制(诸如通过手来对麦克风静音的可能性)可能决定了麦克风位置的选择。

同时，音频捕捉系统可实现不同的录制模式。例如，当电话的主相机被使用时，定向立体声录制应当被相应地对准。如果用户启用设备另一侧上的辅助相机，则音频录制的焦点也应被改变。在环绕声模式中，音频捕捉系统可能需要集中于例如五或七个方向。实际上，在实现如波束形成器解决方案等的定向处理时，自由场条件不能被假定。因此，将设备对麦克风之间的声音传播的影响纳入考虑可能是有益的。

图1-7中所公开的至少一些示例能够提供用第二经编码的音频输出信号替换第一经编码的音频输出信号，该第二经编码的音频输出信号是根据相比第一经编码的音频输出信号而言相同的用麦克风阵列捕获的数字音频输入信号生成的，但是被应用了(诸)不同的音频处理修改。

图1-7中所公开的至少一些示例能够提供变化的录制模式(例如立体声或环绕声录制)并且之后容易地、直观地且以未被损害的音频质量来提供其他参数。这也适用于要求因设备而异的处理的音频特征。

图1-7中所公开的至少一些示例能够提供重新使用现有音频处理功能，包括因设备而异的特征。

一种方法的一个实施例包括接收包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集，这些数字音频输入信号先前已被用作为第一经编码的音频输出信号的输入；使用因装置而异的信息对接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；编码中间音频信号以产生第二经编码的音频输出信号；以及用数据集中的第二经编码的音频输出信号来替换第一经编码的音频输出信号。

在一个实施例中，替代地或附加地，因装置而异的信息包括关于麦克风阵列的配置和关于装置声学的信息。

在一个实施例中，替代地或附加地，音频处理修改包括以下各项中的至少一者：从接收到的数字音频输入信号中生成具有指定的音频声道量的中间音频信号；修改接收到的数字音频输入信号的频谱特性；以及选择要在对中间音频信号编码期间使用的音频编解码器。

在一个实施例中，替代地或附加地，音频声道量包括用于立体声的两个声道和用于环绕声的至少三个声道。

在一个实施例中，替代地或附加地，修改频谱特性包括对接收到的数字音频输入信号进行高通滤波。

在一个实施例中，替代地或附加地，编码中间音频信号包括对中间音频信号进行高级音频编码以及对中间音频信号进行杜比数字加编码中的一者。

在一个实施例中，替代地或附加地，数据集还包括用装置捕获并与第一经编码的音频输出信号相关联的视频信号。

在一个实施例中，替代地或附加地，该方法由具有麦克风阵列的装置执行。

在一个实施例中，替代地或附加地，该方法由提供基于网络的存储的服务执行。

在一个实施例中，替代地或附加地，数字音频输入信号包括未经压缩和无损压缩的数字音频输入信号中的一者。

在一个实施例中，替代地或附加地，未经压缩的数字音频输入信号包括脉冲编码调制信号。

在一个实施例中，替代地或附加地，数据集包括MPEG-4数据集。

一种装置的一个实施例包括麦克风阵列；音频捕捉单元，该音频捕捉单元被配置成接收包括用麦克风阵列捕获的第一经编码的音频输出信号以及相关联的预先储存的数字音频输入信号的数据集，这些数字音频输入信号先前已被用作为第一经编码的音频信号的输入；并且被配置成使用因装置而异的信息来对接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；被配置成对中间音频信号编码以产生第二经编码的音频输出信号的音频编码单元；以及被配置成用数据集中的第二经编码的音频输出信号来替换第一经编码的音频输出信号的输入/输出单元。

在一个实施例中，替代地或附加地，由音频捕捉单元执行的音频处理修改包括以下各项中的至少一者：从接收到的数字音频输入信号中生成具有指定的音频声道量的中间音频信号；修改接收到的数字音频输入信号的频谱特性；以及选择要在对中间音频信号编码期间使用的音频编解码器。

在一个实施例中，替代地或附加地，音频声道量包括用于立体声的两个声道和用于环绕声的至少三个声道，并且修改频谱特性包括对接收到的数字音频输入信号进行高通滤波。

在一个实施例中，替代地或附加地，音频编码单元被配置成使用高级音频编码和杜比数字加编码中的一者来执行中间音频信号的编码。

在一实施例中，替代地或附加地，麦克风阵列包括至少两个麦克风。

在一实施例中，替代地或附加地，装置包括移动通信设备。

包括用于促使装置的至少一个处理器执行包括以下各项的操作的可执行指令的计算机可读存储介质的一个实施例：接收包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集，这些数字音频输入信号先前已被用作为第一经编码的音频输出信号的输入；使用因装置而异的信息对接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；编码中间音频信号以产生第二经编码的音频输出信号；以及用数据集中的第二经编码的音频输出信号来替换第一经编码的音频输出信号。

本文所使用的术语“计算机”或“基于计算的设备”是指带有处理能力以便其可执行指令的任何设备。本领域技术人员将认识到，这样的处理能力被合并到许多不同的设备中，并因此术语“计算机”和“基于计算的设备”各自包括移动电话(包括智能电话)、平板计算机和许多其他设备。

本文所描述的方法可由有形存储介质上的机器可读形式的软件来执行，例如计算机程序的形式，该计算机程序包括在该程序在计算机上运行时适用于执行本文描述的任何方法的所有步骤的计算机程序代码装置并且其中该计算机程序可被包括在计算机可读介质上。有形存储介质的示例包括计算机存储设备，计算机存储设备包括计算机可读介质，诸如盘(disk)、拇指型驱动器、存储器等而不包括所传播的信号。传播信号可存在于有形存储介质中，但是传播信号本身不是有形存储介质的示例。软件可适于在并行处理器或串行处理器上执行以使得各方法步骤可以按任何合适的次序或同时执行。

这承认，软件可以是有价值的，单独地可交换的商品。它旨在包含运行于或者控制哑(“dumb”)或标准硬件以实现所需功能的软件。它还旨在包含例如用于设计硅芯片，或者用于配置通用可编程芯片的HDL(硬件描述语言)软件等“描述”或者定义硬件配置以实现期望功能的软件。

本领域技术人员会认识到，被用来储存程序指令的存储设备可分布在网络上。例如，远程计算机可储存被描述为软件的进程的示例。本地或终端计算机可以访问远程计算机并下载软件的一部分或全部以运行程序。可另选地，本地计算机可以根据需要下载软件的片段，或在本地终端上执行一些软件指令，并在远程计算机(或计算机网络)上执行另一些软件指令。本领域的技术人员还将认识到，通过利用本领域的技术人员已知的传统技术，软件指令的全部，或一部分可以通过诸如DSP、可编程逻辑阵列等等之类的专用电路来实现。

替换地或附加地，本文所述的功能可至少部分地由一个或多个硬件逻辑组件来执行。例如且并非限制，可使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、应用专用集成电路(ASIC)、应用专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等等。

对精通本技术的人显而易见的是，本文给出的任何范围或设备值可以被扩展或改变，而不会丢失寻求的效果。

尽管用结构特征和/或方法动作专用的语言描述了本发明主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述特定特征和动作是作为实现权利要求书的示例形式而公开的，并且其他等价特征和动作旨在落在权利要求书的范围之内。

可以理解，上文所描述的优点可以涉及一个实施例或可以涉及多个实施例。各实施例不仅限于解决任何或全部所陈述的问题的那些实施例或具有任何或全部所陈述的优点那些实施例。进一步可以理解，对“一个”项目的提及是指那些项目中的一个或多个。

本文所描述的方法的步骤可以在适当的情况下以任何合适的顺序来被执行，或者同时被执行。附加地，在不偏离本文所描述的主题的精神和范围的情况下，可以从任何一个方法中删除各单独的框。上文所描述的任何示例的各方面可以与所描述的其他示例中的任何示例的各方面相结合，以构成进一步的示例，而不会丢失寻求的效果。

本文使用了术语“包括”以旨在包括已标识的方法的框或元件，但是这样的框或元件不包括排它性的列表，并且方法或装置可以包含附加的框或元件。

可以理解，上面的描述只是作为示例给出并且本领域的技术人员可以做出各种修改。以上说明、示例和数据提供了对各示例性实施例的结构和使用的全面描述。虽然上文以一定的详细度或参考一个或多个单独实施例描述了各实施例，但是，在不偏离本说明书的精神或范围的情况下，本领域的技术人员可以对所公开的实施例作出很多更改。具体而言，在一个示例的上下文中描述的各个个体特征、元素或部分也可以以任何组合被连接到任何其他示例。

Claims

1.一种装置，其特征在于，包括：

麦克风阵列；

音频捕捉单元，所述音频捕捉单元被配置成接收包括用所述麦克风阵列捕获的第一经编码的音频输出信号以及相关联的预先储存的数字音频输入信号的数据集，所述数字音频输入信号先前已被用作为所述第一经编码的音频输出信号的输入；并且被配置成使用因装置而异的信息来对所接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；

被配置成对所述中间音频信号编码以产生第二经编码的音频输出信号的音频编码单元；以及

被配置成用所述数据集中的所述第二经编码的音频输出信号来替换所述第一经编码的音频输出信号的输入/输出单元。

2.根据权利要求1所述的装置，其特征在于，所述因装置而异的信息包括关于所述麦克风阵列的配置及关于装置声学的信息。

3.根据权利要求1或2所述的装置，其特征在于，其中由所述音频捕捉单元执行的所述音频处理修改包括以下各项中的至少一者：从所接收到的数字音频输入信号中生成具有指定的音频声道量的所述中间音频信号；修改所接收到的数字音频输入信号的频谱特性；以及选择要在对所述中间音频信号编码期间使用的音频编解码器。

4.根据权利要求3所述的装置，其特征在于，所述音频声道量包括用于立体声的两个声道和用于环绕声的至少三个声道，并且所述的修改所述频谱特性包括对所接收到的数字音频输入信号进行高通滤波。

5.根据权利要求1到4中任一项所述的装置，其特征在于，所述数据集还包括用所述装置捕获并与所述第一经编码的音频输出信号相关联的视频信号。

6.根据权利要求1到5中任一项所述的装置，其特征在于，所述麦克风阵列包括至少两个麦克风。

7.一种计算机可读存储介质，所述计算机可读存储介质包括用于促使装置的至少一个处理器执行操作的可执行指令，所述操作包括：

接收包括用装置的麦克风阵列捕获的第一经编码的音频输出信号和相关联的预先储存的数字音频输入信号的数据集，所述数字音频输入信号先前已被用作为所述第一经编码的音频输出信号的输入；

使用因装置而异的信息来对所述接收到的数字音频输入信号应用音频处理修改，以产生中间音频信号；

编码所述中间音频信号以产生第二经编码的音频输出信号；以及

用所述数据集中的所述第二经编码的音频输出信号来替换所述第一经编码的音频输出信号。

8.一种方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述因装置而异的信息包括关于所述麦克风阵列的配置及关于装置声学的信息。

10.根据权利要求8或9所述的方法，其特征在于，所述音频处理修改包括以下各项中的至少一者：从所述接收到的数字音频输入信号中生成具有指定的音频声道量的所述中间音频信号；修改所述接收到的数字音频输入信号的频谱特性；以及选择要在对所述中间音频信号编码期间使用的音频编解码器。

11.根据权利要求10所述的方法，其特征在于，所述的修改所述频谱特性包括对所述接收到的数字音频输入信号进行高通滤波。

12.根据权利要求8到11中任一项所述的方法，其特征在于，所述的对所述中间音频信号编码包括对所述中间音频信号进行高级音频编码以及对所述中间音频信号进行杜比数字加编码中的一者。

13.根据权利要求8到12中任一项所述的方法，其特征在于，所述数据集还包括用所述装置捕获并与所述第一经编码的音频输出信号相关联的视频信号。

14.根据权利要求8到12中任一项所述的方法，其特征在于，所述方法由具有所述麦克风阵列的所述装置以及提供基于网络的存储的服务中的一者来执行。

15.根据权利要求8到14中任一项所述的方法，其特征在于，所述数字音频输入信号包括未经压缩和无损压缩的数字音频输入信号中的一者。