CN113539286B

CN113539286B - 音频装置、音频系统和音频处理方法

Info

Publication number: CN113539286B
Application number: CN202110644269.3A
Authority: CN
Inventors: 周超
Original assignee: Shenzhen Wonderland Artificial Intelligence Co ltd
Current assignee: Shenzhen Wonderland Artificial Intelligence Co ltd
Priority date: 2020-06-09
Filing date: 2021-06-09
Publication date: 2024-06-04
Anticipated expiration: 2041-06-09
Also published as: CN113539286A

Abstract

提供了一种实施噪声(回声)消除技术的音频装置、音频系统和音频处理方法。该音频装置包括一个或多个主麦克风，其设置成更靠近目标声源，并设置成收集包含更多目标音频信号的第一音频信号。除了该一个或多个主麦克风外，还设有一个或多个辅助麦克风，其设置成远离目标声源，并设置成收集包含更少的目标音频信号的第二音频信号。微控制器，设置成处理第一音频信号和第二音频信号，以产生数据流。一个或多个编码方案，其实施成将音频信号编码成数据流，可选地将音频信号与输出至扬声器的待播放音频信号一起，编码成数据流。将至少一个多输入音频处理算法应用于数据流，以实现对音频信号的准确解释和/或理解，或改进人与人的语音通信。

Description

音频装置、音频系统和音频处理方法

交叉引用

本申请是2019年1月7日提交的标题为“Audio Device and Audio ProcessingMethod”的美国申请号为16/241,942的美国申请的部分延续申请(CIP)，其全部内容通过引用并入本文。

技术领域

本公开涉及音频处理技术领域，并且更具体地，涉及实现噪声(回声)消除技术的音频装置、音频系统和音频处理方法。

背景技术

人机交互(HMI)指的是人类用户与具有一定人工智能属性的机器之间进行的通信和交互，在当今生产生活中起着日益重要的作用。便携式电子装置(例如手机、个人电脑、平板电脑)已经成为用于这种交互的非常流行的终端。

例如，HMI的一种相对常见的应用是由驾驶时需要在手机上进行操作或通话而激发的。但是，在大多数国家/地区，驾驶时用手在手机上操作通常被认为是不安全的，甚至是违反交通规则的行为。为了解决此问题，已引入多种方法来减少或消除驾驶员在手机上的手动操作。在这些方法中，一种可能性是实现语音控制功能，这样用户的语音可以被识别并转换为手机上的操作。

将人类语音转换为文本的ASR(自动语音识别)引擎被广泛应用于HMI。由于本领域用于人类语音识别的ASR引擎通过大量的人类语音材料训练而成，但这些用于训练的语音材料大多收集在没有太多噪声的环境下。因此，当待识别的音频信号既包含期望的用户语音又包含各种噪声时，这些ASR引擎的性能往往会受到影响。为了正确转换并理解用户的语音，在HMI中，减少收集到的音频信号中的噪声，然后再将其发送至ASR引擎以避免误解就变得很重要。

在许多其他场景下，例如机器辅助的人人交互(以远程音频会议VoIP为代表)，上述噪声消除(NC)技术也被认为是必要的，以减少环境噪音的影响。例如，在有来自不同空间的多个与会者参与的电话会议中，来自任何一个空间的环境噪声将污染整个电话会议的质量，并因此影响所有与会者的体验。如何在保留与会者的的语音不受影响的同时减少部署于一个或多个空间的麦克风所获取的音频信号中的噪声是一大挑战。

此外，当用户在HMI或电话会议(VoIP)中除了使用麦克风以外，还使用外放扬声器时，另一个不利因素，其在本领域中通常称为“回声”，通常会影响语音辨识的质量和用户体验。更具体地说，“回声”由一个或多个扬声器向环境播放的音频(通常包含HMI中的机器发出的人工语音TTS信号或来自电话会议中远程与会者的语音)被部署于同一空间的一个或多个麦克风部分地重新获取而产生。回声与所需的人类语音混合，会在影响HMI中机器对人类语音的识别或理解，或在电话会议中影响远方的一个或多个与会者。在极端情况下，如果通话有两个参与者，同时使用上述带有一个或多个扬声器的音频装置并将他们自己的音频增益设置为一定水平，则可能会导致相当烦人的现象，即，“啸叫(howling)”。在这种场景下，有效的降低回声影响的技术，通常被称为声学回声消除(AEC)，也是本领域的主要挑战。业内已存在针对该目的开发出许多算法。

本领域中的某些人可能将回声视为环境噪声的一部分，并且AEC技术可以相应地视为一种特殊的降噪(NC)技术。在下文的描述中，为了反映该概念并避免任何误解，术语“噪声”本身并不排除回声的概念；“NC”一词本身并将AEC的概念排除在外。

图1示出了现有技术中现有音频装置的结构图。现有的音频装置包括嵌入在同一装置中的一个微控制器，该微控制器管理一个麦克风或由多个麦克风组成的麦克风阵列。如图1所示，由麦克风阵列收集的音频信号由微控制器发送和接收。该微控制器包括或连接有硬件数字信号处理(DSP)模块和/或图形处理单元(GPU)，以在本地处理麦克风阵列所收集的音频信号。一个或多个噪声消除(NC)算法和/或回声消除算法(例如，AEC)在嵌入硬件DSP模块/GPU或微控制器中的音频处理方案中执行，以减少所收集的音频信号中的噪声和/或回声。上述部分噪声消除算法的成功运用，依赖于获取多个麦克风分别采集的多路音频信号，以及各路信号之间的时序关系。上述回声消除算法的成功运用，依赖于同步获取麦克风采集的音频信号和扬声器即将播放的音频信号。

然而，这种架构有如下主要缺点和代价。首先，需要微控制器(内含嵌入式DSP/GPU或连接有外置DSP/GPU)为一个或多个NC/AEC算法提供足够的计算能力和存储空间。而额外硬件DSP模块/GPU会带来额外的成本，更多的物理空间占用和更大的发热量。由此，设计者必须面对在选择更高的算法性能与降低硬件成本、减小装置尺寸之间存在的艰难权衡。此外，由于大多数NC/AEC算法在微秒级上对不同信号之间的时间对齐进行计算，因此这些算法必须在与麦克风相同的实时计算系统中执行，这限制了设计的灵活性。有时，微控制器需要专门用于执行音频处理方案(例如，一个处理线程消耗100％的计算能力)以确保实时处理，因此该微控制器不可用于执行其他任务。以上种种，让这种设计的性价比不能令人满意，从而对其广泛应用于音频装置带来了障碍。

因此，本公开提供了一种音频装置、音频系统及音频处理方法，旨在解决上述一个或多个问题或其他问题。

发明内容

本公开提供了一种实施噪声(回声)消除技术的音频装置、音频系统和音频处理方法。其要点包含：除了设置成更靠近目标声源并被设置成收集更多目标音频信号的一个或多个主麦克风之外，可选的设有一个或多个辅助麦克风，其被设置成远离目标声源并被设置成收集更多的的环境噪音信号；一个编码方案，将麦克风采集的音频信号编码成一个数据流，或可选地将该音频信号与输出至扬声器的待播放音频信号一起，编码成一个数据流；至少一种多输入音频处理算法被应用，用于处理数据流以降低或消减上述音频信号中包含的噪音或回声的成分，从而帮助机器准确解释和/或理解音频信号，或改善人与人之间的语音通信质量。

本公开的一个方面可能提供一种音频装置。该音频装置可能包括至少一个第一音频获取模块，该第一音频获取模块包括至少一个麦克风。该至少一个第一音频获取模块可能被设置在目标声源附近并且被设置成收集第一音频信号。音频装置可能还包括至少一个第二音频获取模块，该第二音频获取模块包括至少一个麦克风。该至少一个第二音频获取模块可能被设置成远离目标声源并且被设置成收集第二音频信号。上述至少一个第一音频获取模块和至少一个第二音频获取模块中的每一个可能在各自的有线/无线通信中与一个微控制器连接。该微控制器可能被配置成并行地采样第一音频信号和第二音频信号，处理和编码第一音频信号和第二音频信号，以产生一个数据流；装置连接器端口可能与计算终端相容，并被设置成在有线/无线通信中与微控制器连接，用于将数据流传输至计算终端。基于数据流，第一音频信号可能参考第二音频信号被处理，以产生新的音频信号。产生的新的音频信号中包含来自目标声源的音频信号的比例，可能会高于第一音频信号中包含来自目标声源的比例。

本公开的另一方面可能提供第二种音频装置，其被适配成与包括至少一个麦克风的另一个音频装置配对连接，该至少一个麦克风被设置成收集第一音频信号。该音频装置可能包括至少一个音频获取模块，该音频获取模块包括至少一个麦克风并且被设置成收集第二音频信号，并通过有线通信或无线通信连接至该音频设备中的一个微控制器。该音频装置包括的音频连接器端口可能被设置成在有线/无线通信中选择性地与上述另一个音频装置连接，以确保上述第一音频信号可以被传输至这个微控制器。该微控制器可能被配置成并行地采样第一音频信号和第二音频信号，并可能被设置成处理和编码第一音频信号和第二音频信号，以产生数据流。该音频装置可能还包括装置连接器端口，该装置连接器端口与计算终端相容，并且被设置成以有线通信/无线通信的方式与微控制器连接，用于将数据流传输至计算终端。基于数据流，第一音频信号可能参考第二音频信号被处理，以产生新的音频信号。产生的新的音频信号中所包含的的来自目标声源的音频信号的比例，可能会高于第一音频信号所包含来自目标声源的音频信号的比例。

本公开的又一方面可能提供第三种音频装置，该音频装置被适配成经由至少一个音频输出端口与至少一个扬声器连接，该至少一个扬声器被设置成播放包含待播放的音频信号的下行数据流。该音频装置可能包括至少一个音频获取模块，该音频获取模块包括至少一个麦克风并且被设置成收集音频信号。上述至少一个扬声器和至少一个音频获取模块分别通过有线通信或无线通信方式与该音频装置内的一个微控制器相连接，该微控制器可能被设置成以交错的方式对上述音频获取模块所收集的音频信号和同一时间点上述扬声器即将播放的音频信号进行编码，以产生上行数据流。装置连接器端口，以有线通信/无线通信的方式与微控制器连接，并可能与计算终端相容，并且被设置成从计算终端接收下行数据流，并将上行数据流传输至计算终端。一个或多个NC/AEC算法因而可能被应用于在计算终端中处理上行数据流，以降低环境噪声和/或回声的在所采集音频信号中所占的比例。

以上公开的三种音频装置的共同特征在于，通过在本音频装置中各种设计和设置(详见说明书和附图)，让本音频装置中包含的微控制器能编码产生一个数据流并传递给计算终端，该数据流中同时包含了以噪音消除(NC)和回声消除(AEC)为代表的音频处理算法所需的多路音频数据——可能包括一个或多个不同音频获取模块所分别采集的音频信号，也可能包括扬声器所即将播放的音频信号——并保留了上述各路音频间的时序关系信息。计算终端获取了这样数据流后，就可以充分利用其所配备的丰富算力和存储资源，运用一种或多种音频处理算法，最终生包含噪声和/或回声比例相对于采集的原始音频更小的音频信号，以提升包含HMI和VoIP在内的各种应用的用户体验。

本领域技术人员可以根据本公开的说明书、权利要求书和附图来理解本公开的其他方面。

附图说明

以下附图仅仅是用于说明根据多个公开的实施例的示例，并不旨在限制本公开的范围。

图1示出本领域的音频装置的结构图；

图2结合计算终端示出根据本公开的第一音频装置的结构图；

图3示出根据本公开的第二音频装置中的多个音频获取模块的设置；

图4-1示出根据本公开的第三音频装置的结构图；

图4-2示出根据本公开的第四音频装置的结构图；

图4-3示出根据本公开的第五音频装置的结构图；

图5-1、图5-2和图5-3示出实施图4-1至图4-3所示的音频装置的产品实施例；

图6示出针对根据本公开的音频系统的编码方案的实施；

图7示出针对根据本公开的音频装置的编码方案的另一种实施；

图8-1示出本领域中的第一音频系统；及

图8-2示出本领域中的第二音频系统。

具体实施方式

现在将详细参考本公开的示例性实施例，其在附图中示出。在下文中，将参考附图描述根据本公开的实施例。在所有附图中，将尽可能使用相同的附图标记指代相同或类似的部件。显然，所描述的实施例仅仅是本公开的一些实施例，而非全部实施例。基于所公开的实施例，本领域普通技术人员可以得出符合本公开的其他实施例，所有这些实施例都在本公开的范围内。

本公开提供了一种解决方案，以改善用户使用音频装置的体验。特别地，本公开提供了一种音频装置、音频系统和音频处理方法，其实施噪声(回声)消除技术，以实现对由麦克风采集的音频信号的准确解释和/或理解，或改善远距离人与人之间语音通信的体验。

根据本公开，可能通过多种方式来实施噪声消除技术。在一些实施例中，除了设置成更靠近目标(期望的)声源(通常是用户的嘴)的一个或多个主麦克风之外，还可能将一个或多个辅助麦克风部署在音频装置中，并将其设置成远离该目标声源。与该一个或多个主麦克风相比，该一个或多个辅助麦克风采集到环境噪声信号的可能性更大。因此，由一个或多个辅助麦克风收集的音频信号可能被视为参考，用于消除被一个或多个主麦克风收集的音频信号中的噪声。在一些实施例中，可能在包括音频装置的音频系统中实施一个或多个噪声消除算法。基于多输入音频处理方案，参考由一个或多个辅助麦克风收集的音频信号，对一个或多个主麦克风收集的音频信号进行数学运算，通过这样的处理，可以产生新的音频信号，这些新的音频信号主要包含来自目标声源的声音，新的音频信号比起来自主麦克风和辅助麦克风的音频信号，带有更少部分的噪声，这些新的音频信号可以在进一步的处理步骤中使用，并且可以相应地减弱音频信号中噪声的负面影响。

根据本公开，可能将特定的一个或多个编码方案应用于对从一个或多个主麦克风和一个或多个辅助麦克风收集的音频信号进行编码，可选地，这些音频信号与输出至一个或多个扬声器的待播放音频信号一起被编码成一个数据流，以确保保存的音频信号之间的精确时序对齐(timing alignments)。因此，NC/AEC算法，其需要精确定时对齐，可以在以后的处理中应用于数据流。

图2示出根据本公开的第一音频装置的结构图。音频装置1可能包括被设置成收集音频信号的多个(至少两个)音频获取模块101、102，以及微控制器103。音频获取模块101、102中的每一个可能通过各自的有线/无线方式与微控制器103连接。

如图2所示，音频装置1可能还包括装置连接器端口104，该装置连接器端口104被设置成通过有线/无线连接，以及实时/非实时连接与计算终端2进行通信。装置连接器端口104可能有线/无线方式与微控制器103连接。在一些实施例中，音频装置1可能还包括音频输出模块105(例如，一个或多个扬声器)，并且该音频输出模块105可能以有线/无线方式与微控制器103连接。

装置连接器端口104可能是用于连接音频装置1和计算终端2的接口。在一些实施例中，装置连接器端口104可能经由与计算终端2相容的任何类型的接口来支持与计算终端2的有线连接，例如通用串行总线(USB，包括B型插头、Mini-B型插头、Micro-B型插头、B型超高速插头、C型插头、雷电连接器(lightning connector)等)、高清多媒体接口(HDMI)、显示端口(DP)、音频插孔或任何定制的连接器。微控制器103可能基于标准有线数据传输协议(例如，USB数据传输协议)通过装置连接器端口104，向计算终端2发送数据，或从计算终端2接收数据。在一些实施例中，装置连接器端口104可能支持与计算终端2的无线通信。例如，装置连接器端口104可能包括支持标准无线通信协议的无线通信模块，例如2.4GHz无线模块、超高频(UHF)模块、Wi-Fi模块或蓝牙模块。

微控制器103可能被设置为对由音频获取模块101、102采集的音频信号进行数字编码，以产生数字数据流。微控制器103可能包括任何合适的一个或多个处理器。在一些实施例中，微控制器103可能包括用于多线程或并行处理的多个核心。在一些实施例中，微控制器103可能包括数字信号处理器(DSP)模块和/或音频编解码器模块。

在一些实施例中，微控制器103可能被配置成通过USB数据传输协议将数据流发送至计算终端2。音频装置1可能被设置成支持标准USB数据传输协议和标准USB充电方案，例如USB On-The-Go(OTG)和USB电力传输(PD)。可以理解，在本公开中，USB协议是数字音频信号协议的示例。任何其他合适的有线通信协议或无线通信协议，例如HDMI、DP、串口连接协议、I2S(Inter-IC-Sound，集成电路内置音频总线)协议、SPI(串行外围接口)、蓝牙低能耗通信协议等，只要该通信协议和相应的硬件接口满足预设的带宽下限，并且不会产生常规的传输拥塞，均可以通过相同的原理来实施。

装置连接器端口104可能与计算终端2的相容连接器端口连接(例如插入)。计算终端2可能是智能手机、个人数字助理(PDA)、平板电脑、膝上型计算机、个人计算机(PC)、电视或电视盒、工业计算机等。微控制器103可能与所有的音频获取模块101、102连接，并处理从音频获取模块101、102采集的音频信号，以产生数据流。数据流可能通过装置连接器端口104的数据链接引脚(例如USB连接器中的D+引脚和D-引脚)传输至计算终端2。

根据本公开，可能将一个或多个编码方案应用于所收集的音频信号，以确保音频信号的精确时序对齐，从而提高后续应用的多输入音频处理方案的性能。考虑到在大气中传播的声速(即340m/s)和音频获取模块间距离的空间尺度(例如，同一音频获取模块中两个麦克风之间的典型距离，通常以厘米为单位)由相同声源产生并由不同麦克风接收的音频信号的时间差可以在微秒的范围内。因此，所应用的多输入音频处理方案应当足够精确以探测微秒范围内的时间差。这意味着所收集的各路音频信号在时序对齐上的失准可能会破坏多输入音频处理方案的准确性。因此，通过在进一步分析之前将一个或多个编码方案应用于采集的音频信号，可以确保多输入音频处理方案满足要求。编码方案的细节将在下文进行说明。

如图2所示，每个音频获取模块101、102可能包括至少一个麦克风。在下文的一些描述中，“音频获取模块”可能等同地指代包含在音频获取模块中的“至少一个麦克风”。

音频获取模块101、102中的至少一个麦克风可能包括被设置成产生数字音频信号的至少一个数字麦克风，和/或被设置成产生模拟音频信号的至少一个模拟麦克风。在一些实施例中，音频获取模块101、102中的至少一个麦克风可能包括至少一个麦克风。在一些实施例中，第一音频获取模块101中的至少一个麦克风在其特性、属性和型号上可能与第二音频获取模块102中的至少一个麦克风相同。在这样的实施例中，相同的声源可以由不同的麦克风以最相同/相似的特性(例如，频率响应、回响、音调等)记录，因此，可以相应地减少对多输入音频处理方案性能产生的负面影响。

在一些实施例中，音频装置1可能还包括其他组件，这些组件被设置成实现某些特定目的。例如，当收集的音频信号包含模拟信号时，音频装置1可能还包括被设置成将模拟音频信号转换为数字音频信号的模数转换器(ADC)(未示出)。该ADC可能被嵌入在微控制器103中或被包括在音频获取模块101、102中。在一些实施例中，音频装置1可能还包括嵌入在微控制器103中或设置在音频获取模块101、102中的放大器(未示出)。该放大器可能被设置成增加由音频获取模块101、102收集的一些音频信号的幅度或全部音频信号的幅度。

在一些实施例中，计算终端2可能包括第二音频获取模块102的至少一部分，其被设置成通过装置连接器端口104与微控制器103通信。该通信的具体实现方式可能是在计算终端2上，包括但不限于通过其操作系统设定，设置以音频设备1去监听计算终端2内置的麦克风音源。

在一些实施例中，音频获取模块101、102的一些组件或全部组件可能被集成在微控制器103的同一块印刷电路板(PCB)中。在一些实施例中，音频获取模块101、102中的一个或多个可能被设置在与微控制器103不同的位置处，并且以有线或无线方式与微控制器103连接，如图4-1、4-2或4-3所示。

如所指出的那样，音频获取模块101、102的几何构造，可以影响由相同声源产生、并由音频获取模块101、102的至少一个麦克风接收的音频内容的实际时间戳。基于不同的时间戳以及其他信息，可能识别声源的属性，以进一步增强期望的音频内容和/或减少不需要的音频内容。

可以理解，尽管在图2中示出仅一个第一音频获取模块101和仅一个第二音频获取模块102，但可能灵活地调整音频获取模块101、102的数量。例如，如图3所示，一个或多个第一音频获取模块101可能被部署成更靠近目标(期望的)声源(例如用户的嘴)，并且可能被设置成收集第一音频信号。第二音频获取模块102中的一个或多个可能被设置成远离目标声源并且被设置成收集第二音频信号。在一个示例中，针对已知的环境噪声源，音频装置1可能包括多个第二音频获取模块102，其中每个第二音频获取模块102分别被设置成更靠近环境噪声源中的一个，如图3所示。与更靠近目标源的第一音频获取模块101相比，第二音频获取模块102更有可能采集到噪声信号。因此，由第二音频获取模块102收集的第二音频信号可能被视为参考，用于消除包含在第一音频信号中的噪声。在一些实施例中，基于数据流，可能参考第二音频信号来处理第一音频信号，以产生新的音频信号。第一音频信号可能包括来自目标声源的音频信号的第一部分，并且新音频信号可能包括来自目标声源的音频信号的第二部分，该第二部分高于第一部分。

与如图1所示的单个麦克风或单个麦克风阵列相比，处理由多个音频获取模块101、102收集的音频信号可能获得更多的好处。例如，可能应用多种多样的多输入音频处理方案来处理从多个音频获取模块101、102收集的音频信号，以产生具有较少噪声分量的经处理音频信号，从而带来更好的音频/声音识别结果。

考虑到应用场景的多样性，多输入音频处理方案可能包括两麦克风降噪算法、波束形成算法、AEC(声学回声消除)或类似算法中的至少一种。如下文中所使用的，多输入音频处理方案可能指，用于处理(解码)由多个音频获取模块101、102收集的音频信号的处理技术或算法。根据本公开，可能在音频系统的硬件装置中或在音频系统的软件应用中实施多输入音频处理方案。

应该注意的是，尽管图2示出了第一音频获取模块101、第二音频获取模块102和装置连接器端口104中的每一个均与微控制器103通过实心连接(线)连接，但是，第一音频获取模块101、第二音频获取模块102和装置连接器端口104和微控制器103之间可能形成有线通信或无线通信。此外，第一音频获取模块101、第二音频获取模块102或装置连接器104中的至少一个可能与微控制器103形成为一个物理主体，或集成为一个物理主体。

图4-1示出根据本公开的第三音频装置的结构图。在图4-1所示的音频装置中，第二音频获取模块102(被设置成收集更多的噪声信号)和装置连接器端口104可能与微控制器103形成在一个物理主体中或集成在一个物理主体中，而第一音频获取模块101(被设置成收集更多的目标音频信号)可能被设置成远离微控制器103并与微控制器103形成有线连接(例如，通过电缆)或无线连接。根据图4-1的结构的音频装置可以在与由第一音频获取模块101采集的音频信号的位置完全不同的某处提供极有可能被(由第二音频获取模块102)采集的额外音频信号，因为用户在使用音频附件时可能很少将嘴非常靠近计算终端2。这一点对于某些常用的NC算法的性能至关重要。在一些实施例中，根据计算终端2的物理特性，可能确保包含第二音频获取模块102和装置连接器端口104两者的物理主体的具体机械设计/物理设计，以使第二音频获取模块102中的一个或多个麦克风的声音输入端口不易于被任何障碍物物理覆盖。

图4-2示出根据本公开的第四音频装置的结构图。在图4-2的音频装置中，第二音频获取模块102(被设置成收集更多的噪声信号)可能与微控制器103形成为一个物理主体或集成为一个物理主体，而装置连接器端口104和第一音频获取模块101(被设置成收集城垛的目标音频信号)可能分别被设置成远离微控制器103，并分别与微控制器103形成有线/无线连接。图4-3示出根据本公开的第五音频装置的结构图。在图4-3的音频装置中，第一音频获取模块101(被设置成收集更多的目标音频信号)可能与微控制器103一起形成为第一物理主体或集成为第一物理主体，第二音频获取模块102中的第一个(被设置成收集更多的第一噪声信号)可能与装置连接器端口104形成为第二物理主体或集成为第二物理主体。第二音频获取模块102中的第二个(被设置成收集更多的第二噪声信号)可能被设置成远离微控制器103和装置连接器端口104，并且通过有线/无线通信方式与微控制器103连接。第一物理主体和第二物理主体可能形成有线/无线通信连接。如图4-3所示，第二音频获取模块102中的第二个可能通过装置连接器端口104与微控制器103通信，或者以有线/无线通信方式与微控制器103直接通信。

图4-1至图4-3是若干实施例，示出根据本公开的第一音频获取模块101、第二音频获取模块102、微控制器103和装置连接器端口104的可能设置和连接方式。然而，可以理解的是，图4-1至图4-3中所示的示例性实施例可不限制也不排除任何具有不同设置和连接方式的音频装置。

图5-1、图5-2和图5-3以示例的方式，示出实施图4-1至图4-3所示的音频装置的一些产品实施例。图5-1示出了音频装置1(包括第一音频获取模块101、第二音频获取模块102、微控制器103、装置连接器端口104和音频输出模块105)，其可能形成为耳机或集成为耳机(或听筒)。下文中使用的耳机/听筒可能指这样的电子装置，其包括靠近用户耳朵的至少一个扬声器，和靠近用户的嘴、且用于采集用户的音频信号/语音信号的至少一个麦克风。在一些实施例中，耳机可能是数字耳机，并且装置连接器端口104可能是被设置成与计算终端2通信的数字音频端口，例如HDMI连接器端口、显示端口(DP)等。在一些实施例中，耳机可能是支持USB数据传输协议的USB耳机，并且装置连接器端口104可能是被设置成与计算终端2通信的USB连接器端口。虽然图5-1至5-3示出了计算终端2在应用中的某些示例，但计算终端2可能包括具有一定计算能力的任何合适的用户终端，例如个人数字助理(PDA)、个人计算机(PC)、工作站计算机、手持式计算装置(例如，平板电脑)、移动终端(例如，移动电话或智能电话)、电视或电视盒，或任何其他用户侧计算装置，而不限于特定类型的装置。

第一音频获取模块101可能被设置成更靠近目标声源(通常是指用户的嘴)，并且被设置成收集期望的语音信号。第二音频获取模块102可能被设置成远离目标声源并且被设置成收集更多的噪声信号。上述算法，利用第二音频获取模块102采集的参考音频信号对第一音频获取模块101采集的音频信号进行处理，如果由第二音频获取模块102收集的参考音频信号包含较少的来自目标声源的信号和/或如果第一音频获取模块101收集的音频信号包含较少的噪声信号，则将产生更好的结果。根据本公开，可以针对音频收集/处理方案的性能考虑几种策略，以帮助第一音频获取模块101被设置成以较高的灵敏度采集来自目标声源的信号并且以较低的灵敏度采集环境噪声，而第二音频获取模块102则被设置成相反。在一些实施例中，可以考虑在音频获取模块101和102中朝向不同的方向、以不同的策略部署具有不同的声电转换灵敏度的定向麦克风：第一音频获取模块101的一个或多个定向麦克风的最大灵敏度轴线指向目标声源的可能位置，同时避免第二音频获取模块102的定向麦克风的最大灵敏度轴线指向目标声源的可能位置/方向。在另一些实施例中，如上所述，可能灵活地调整音频获取模块101、102中包含的麦克风数量，具体来说，音频获取模块101和/或102可以包含至少两个麦克风可置于音频装置1的不同位置以形成所谓的麦克风阵列或麦克风点阵。某些多输入音频处理算法，例如远场降噪算法和波束形成算法，可以通过处理麦克风阵列采集的多路音频信号，来增强或衰减(减弱)来自不同距离和/或不同定向的声源的音频信号成分。在一些实施例中，由第一音频获取模块101中的至少两个麦克风采集的音频信号可能被一种波束形成算法处理，以产生经处理的音频信号，其中增强来自目标声源的可能定向的音频信号成分和/或来自短距离的音频信号成分，并衰减(减弱)其他信号。类似的，由第二音频获取模块102中的至少两个麦克风采集的音频信号可能被另一种波束形成算法处理，以产生经处理的音频信号，其中增强来自目标声源的非可能定向的音频信号成分和/或来自较长距离的音频信号成分。

在一些实施例中，在产生数据流之前或之后，微控制器103或计算终端2可能还被设置成处理由从麦克风阵列中的至少一个麦克风收集的音频数据，以增强相对于麦克风阵列的某个方向的音频数据，并减弱来自不同于该某个方向的另一个方向的音频数据。

在图5-1所示的实施例中，当第一音频获取模块101在耳机控制盒中时，第二音频获取模块102可能与微控制器103和装置连接器端口104一起形成为USB插头或集成为USB插头。然而，在其他实施例中，微控制器103可能部署有第一音频获取模块1。

如图5-1所示，第一音频获取模块101可能以有线通信方式与微控制器103连接。因此，音频装置1还可能包括将第一音频获取模块101与第二音频获取模块102连接的数字/模拟电缆106，如图5-1所示。第一音频获取模块101、第二音频获取模块102或微控制器103中的至少一个可能还包括模数和数模(AD/DA)转换器(未示出)，该转换器被设置成将模拟音频信号转换为数字音频信号，和/或将数字音频信号转换为模拟音频信号。

图5-2示出音频装置1，包括第一音频获取模块101、第二音频获取模块102、微控制器103、装置连接器端口104和音频输出模块105(例如，扬声器)。在图5-2的音频装置中，第一音频获取模块101和音频输出模块105可能形成为耳机11或集成为耳机11，而第二音频获取模块102、微控制器103和装置连接器端口104可能形成为音频适配器12或集成为音频适配器12。该音频适配器12可能被设置成与计算终端2的相容接口连接或插入至计算终端2的相容接口中。耳机11可能还包括音频连接器110，该音频连接器110与包括在音频适配器12中的音频连接器端口111相容并与其连接。音频连接器可能包括标准耳机插孔，例如3.5mm模拟耳机插孔，其采用蜂窝电信行业协会(CTIA)标准或开放移动终端平台(OMTP)标准。

在一些实施例中，响应于耳机11与音频适配器12的连接，第一音频获取模块101可能被设置成收集第一音频信号作为目标声音数据，而第二音频获取模块102可能被设置成收集第二音频信号作为参考声音数据。如上文所解释的那样，可能应用多输入处理方案，以处理第一音频信号和第二音频信号，以减少噪声。在一些实施例中，当耳机11从音频适配器12断开连接或拔出时，正在与计算终端2连接的音频适配器12可能独立地起作用。例如，音频适配器12的第二音频获取模块102可能被设置成独立地收集第二音频信号，并通过其自身，将第二音频信号发送至计算终端2。

如图5-3所示，第一音频获取模块101和音频输出模块105可能形成为无线耳机13或集成为无线耳机13，而第二音频获取模块102和装置连接器端口104可能形成为无线音频适配器14或集成为无线音频适配器14。例如，该无线音频适配器14可能是USB RF适配器(dongle)。根据应用，微控制器103(未示出)可能被设置在无线耳机13中或无线音频适配器14中。在图5-3的音频装置中，无线耳机13和无线音频适配器14可能通过无线耳机13和无线音频适配器14中的各自的无线天线之间的无线连接来连接。该无线连接可能包括射频(RF)连接，并且无线耳机13和无线音频适配器14中的每一个可能均包括用于RF连接的RF通信接口。无线耳机13或无线音频适配器14可能还包括AD/DA转换器，该AD/DA转换器被设置成将模拟音频信号转换成数字音频信号，和/或将数字音频信号转换成模拟音频信号。装置连接器端口104可能包括待与计算终端2的相容接口连接或待插入至该相容接口中的物理接口。

在一些实施例中，响应于无线耳机13与无线音频适配器14的连接，第一音频获取模块101可被设置成收集第一音频信号作为目标声音数据，而第二音频获取模块102可能被设置成收集第二音频信号作为参考声音数据。如上文所解释的那样，可能应用多输入处理方案，以处理第一音频信号和第二音频信号，以减少噪声。在一些实施例中，当无线耳机13未与无线音频适配器14连接时，无线音频适配器14中的第二音频获取模块102可能独立地收集第二音频信号，并且通过其自身将第二音频信号发送至计算终端2。

可以理解，根据经本公开，可能基于多输入音频处理方案参考第二音频信号来处理第一音频信号，以产生新的音频信号，该新的音频信号与从第一音频获取模块101和第二音频获取模块102两者收集的音频信号相比，包含更多来自目标声源的音频信号的部分。在一些实施例中，音频系统可能包括第一音频装置和第二音频装置。第一音频装置可能包括被设置成收集第一音频信号的第一音频获取模块101，而第二音频装置可能包括被设置成收集第二音频信号的第二音频获取模块。

如本公开中所限定的那样，同一音频获取模块可能指的是在同一刚性主体上的具有固定的几何尺寸的至少一个麦克风，并且该至少一个麦克风设置成彼此靠近。换句话说，同一音频获取模块中的至少一个麦克风中的两个麦克风之间的几何关系可能是固定的。在一示例中，考虑到声速在大气中传播(即340m/s)，并且音频信号的采样速率为16KHz(即，1/16毫秒)，因此，同一音频获取模块中至少一个麦克风中的两个麦克风之间的典型距离可能是厘米级的，例如1至2厘米。同一音频获取模块中的至少一个麦克风可能在设置中形成麦克风点阵或麦克风阵列。

针对刚性主体上的同一音频获取模块，所应用的多输入处理方案可能包括波束形成算法。下文中所使用的波束形成算法，是用于通过评估同一声源产生的音频信号，与在同一刚性主体上具有固定几何尺寸的不同麦克风接收这些音频信号之间的时间差，来确定声源的特性的处理技术或算法(例如，麦克风和声源之间的定向和距离)。

相反，音频获取模块101、102之间的两个麦克风可能不具有固定的几何关系。例如，如图5-3所示，当第一音频获取模块101通过无线连接与微控制器103连接时，音频获取模块101、102之间的麦克风的几何关系可能不是固定的，而是根据用户的物理位置而变化的。换句话说，音频获取模块101、102之间的麦克风不被考虑在同一刚性主体上。这样，可能将其他多输入音频处理方案(例如双麦克风降噪算法)应用于确定声源的特性并降低由专门用于收集目标音频信号的一个或多个麦克风采集的经收集的音频信号中的噪声。下文中使用的双麦克风降噪算法是专门用于处理由两个麦克风组所收集的音频信号的处理技术或算法，该两个麦克风组具有不固定的几何关系，即不在同一刚性主体上。

在一些实施例中，可能将一个以上的多输入音频处理方案应用于音频系统。例如，可以在应用双麦克风降噪算法之前执行波束形成算法，以叠加降噪效果。

多输入音频处理方案可能通过音频装置1中的本地DSP模块，以类似于图1中相对于微控制器的DSP模块的设置的方式来全部或部分地实施。DSP模块可能是与微控制器103连接或嵌入在微控制器103中的硬件组件，或者是由微控制器103执行的软件应用。例如，DSP模块可能包括微电子电路，其被设置成加速算法的计算或加速嵌入在微控制器103中的模块。

在一些实施例中，考虑到成本节省和性能提高，可能在远离音频装置1的计算终端2中实施多输入音频处理方案。如图2所示，计算终端2可能通过有线/无线方式，和实时/非实时通信方式与音频装置1连接。下文中所使用计算终端可能指的是，具有一定计算能力的任何合适的用户终端，例如，个人计算机(PC)、工作站计算机、手持式计算装置(例如，平板电脑)、移动终端(例如，移动电话或智能电话)或任何其他用户侧计算装置。在一些实施例中，计算终端2可能被设置成从音频装置1接收数据流(即，经编码的音频信号)。计算终端2可能被设置成相应地提供用于相关操作的结构和功能。在一些实施例中，计算终端2可以被设置成分析从音频装置1传输的经编码的数据流，并基于音频信号的分析结果来执行相关的操作。在一些实施例中，音频装置1可能包括缓冲组件，该缓冲组件被设置成缓冲经编码的数据流，并且以非实时通信的方式将经编码的数据流传输至计算机装置2。

通过将计算任务迁移至计算终端，可以消除设置在音频装置中的高性能处理器或DSP芯片的需要，可以消除对实时处理系统的要求和处理采集的音频信号时的专有占用，并且成本高、硬件复杂的独立音频装置可以变成配件级装置。由于以手机、平板电脑和笔记本电脑为代表的消费类电子产品在当今很普遍，因此很容易找到具有针对这样的配件级音频装置的强大计算能力的主机计算终端，而不会给终端用户带来额外的硬件成本，并且在计算终端上部署音频处理方案。与本领域独立音频装置中本地部署的处理器相比，主机计算终端提供的计算能力2可以高得多，并且提供在同一数据流上并行执行多输入音频处理方案的附加能力。与嵌入在音频装置1中的一个或多个芯片相比，计算终端2还具更大的承载音频处理算法的能力，该音频处理算法需要巨大的计算能力和/或存储空间，特别是考虑到当今快速发展的基于AI(人工智能)的音频处理算法所需的容量。在一些实施例中，音频装置1可能还实施不消耗高计算能力的某些预处理方案，例如自动增益控制和/或放大。

数字数据流可能通过装置连接器端口104被传输至计算终端2，以基于多输入音频处理方案来处理(例如，解码)经编码的音频信号。鉴于上述内容，通过将复杂的计算迁移至计算终端2，该设置的音频系统提供针对现有技术中的高硬件成本和高功耗的问题的解决方案。因此，音频装置1不需要增加具有高计算能力的特定处理芯片。

计算终端2和音频装置1之间的连接可能是有线连接或无线连接。音频装置1可能被设置成支持有线通信协议/无线通信协议，例如USB数据传输协议、Wi-Fi通信协议和/或蓝牙通信协议。在有线连接的情况下，装置连接器端口104可能包括待与计算终端2的相容接口连接的物理接口，或插入至计算终端2的相容接口中的物理接口。在无线连接中，装置连接器端口104和/或微控制器103可能包括支持一个或多个无线数据传输协议的无线通信模块。

返回参考图2，在一些实施例中，音频装置1可能还包括音频输入端口107和音频输出端口108。微控制器103可能被设置成基于固定频率的同一时钟信号或基于同步时钟信号，在音频输入端口107的一部分(即，说明书中的采样端口)同步地对从音频获取模块101、102采集的音频信号进行采样。在一些实施例中，响应于微控制器103对通过装置连接器端口104从计算终端2传输的待播放的音频信号(可以包括多个声音信道)的接收，微控制器103可能被设置成通过音频输出端口108将该待播放的音频信号发送至音频输出模块105(内嵌在音频装置1中的一个或多个扬声器，或外部连接的一个或多个扬声器)，并请求音频输出模块105播放该待播放的音频信号。

在本领域中，当计算终端2使用一个或多个扬声器将声音输出至环境时，可能存在问题：一个或多个扬声器所播放的声音可能会干扰由音频装置1或计算终端2中的麦克风收集的音频信号。特别地，当一些麦克风物理上靠近扬声器时，就可能会发生这种情况。这样，一个或多个扬声器播放的声音会严重干扰麦克风甚至使麦克风饱和。替代地，通过将待播放的音频信号引导至与音频装置1连接的音频输出模块105，可以相应地减少干扰和饱和的问题。当在嘈杂的环境中使用音频装置1时，用于将待播放的音频信号输出至音频输出模块105的这种设置特别有用。

在一些实施例中，音频输出端口108可能是与标准音频线(例如3.5mm模拟音频线)相容的标准音频插口，并且音频装置1可能通过音频线和音频输出端口108与音频输出模块105连接。替代地，音频输出端口108可能包括带标准音频插头连接器的音频线，其可能直接插入至外部音频输出模块105的输入端中。微控制器103可能可选地包括与音频输出端口108连接的一个或多个辅助输出引脚(例如，用于左声道和右声道的两个引脚)。当音频装置1与计算终端2连接时，并且当音频输出模块105与音频输出端口108连接时，微控制器103可能被设置成通过装置连接器端口104(例如，在D+引脚和D-引脚处)接收通过计算终端2传输的音频数据，并通过音频输出端口108将音频数据发送至音频输出模块105。

在一些实施例中，音频装置1可能还包括电源连接器端口(未示出)。电源连接器端口可能包括接口，该接口被设置成通过有线方式或无线方式连接音频装置1和电源(未示出)。在一些实施例中，音频输出端口108可能物理上位于电源连接器端口同一侧处。这样的设置对于这样的主机装置(例如，计算终端2)是有用的，这样的主机装置仅具有一个外部连接器端口(例如，智能电话)，而没有音频插孔，并且需要在进行充电的同时与外部音频输出模块连接。它对于车内使用的音频装置或电话会议中使用的音频装置也特别有用。

上述两种应用场景都要求从计算终端2输出的音频信号要以足够大的音量播放以被一个或多个用户听到。如果没有这种设置，通常将嵌入在计算终端2中的一个或多个本机扬声器设置成播放声音，并且这些声音会干扰由麦克风收集的音频信号。

在一些应用中，计算终端2可能在从收集音频信号的时间起经过一定的通信时延后处理数据流。通信时延可能稳定或不稳定，范围从数毫秒到几秒。鉴于以上内容，根据本公开，所收集的音频信号在发送至计算终端2之前可能以特定的方式进行编码，从而不管数据传输中是否丢失某些信息和/或是否存在硬件延迟，确保由计算终端2解码的数据可以提供准确的时差信息(即同一声源产生的音频信号被不同的麦克风接收所产生的时间差)。

微控制器103可能被设置成从一个或多个音频获取模块采样并接收音频信号，以处理(例如，编码)所收集的音频信号以产生数据流，并将经编码的数据流传输至计算终端2(例如，通过装置连接器端口104)，以使得计算终端2可能基于数据流执行相应的操作。

在一些实施例中，微控制器103可能包括编解码器模块，该编解码器模块被设置成接受多个通道的模拟信号，并且在多个通道处并行地对输入信号执行数字采样和编码。在一些实施例中，数字采样可能包括模数(A/D)转换，用于转换模拟信号和/或脉冲密度调制(PDM)。每个麦克风(在音频获取模块101、102中)可能对应于独立的采样端口(音频输入端口107中的一个)，该采样端口独立地操作，并且与其他的一个或多个采样端口并行地操作。针对每个麦克风的数字采样速率可能相同。即，每个麦克风可能在对应的采样端口处与相同且单个微控制器103连接，并且微控制器103可能被设置成使用同一时钟信号以同一速率或使用同步的时钟信号，来采样来自每个麦克风的音频信号。例如，当采样速率是16kHz并且音频装置总共包括四个麦克风时，微控制器103可能被设置成在每个采样周期处(例如，1/16毫秒)获取四个数字数据点。

在一些实施例中，微控制器103可能被设置成以交替的方式处理(例如，编码)来自一个或多个音频获取模块的经采样的音频信号，以产生数据流。具体地，假设包含在一个或多个音频获取模块中的麦克风的总数被表示为n，在m个连续采样周期(即，m个数据点)期间，在对由第i个麦克风采样的音频信号进行编码之后，立即对该m个连续采样周期期间，由第(i+1)个麦克风采样的音频信号进行编码，其中i为1至n-1的整数，m为正整数，例如3。此外，在对由第n个麦克风采样的音频信号进行编码之后(即，当i等于n时)，立即对下一m个连续采样周期中、由第一麦克风采样的音频信号进行编码。

例如，音频装置包括4个麦克风(即n＝4)，并且编码方案是每隔3个连续采样周期(即m＝3)，对来自该4个麦克风的经采样的数据点交替进行编码。在任何采样周期从4个麦克风采样的数据点可能表示为At、Bt、Ct和Dt，其中t是采样周期的时序号。经编码的数据流可能包括：A0A1A2B0B1B2C0C1C2D0D1D2A3A4A5B3B4B5C3C4C5D3D4D5A6A7A8B6B7B8....在另一示例中，如果连续采样周期数为1(即，m＝1)，则经编码数据流可能包括：A0B0C0D0A1B1C1D1A2B2C2D2A3B3C3D3A4B4C4D4...。

另外，每个数据点(例如，A0或B0)的特定编码格式不受限制。每个数据点可能是8位数据、16位数据，或具有其他固定位大小的数据，例如脉冲编码调制(PCM)数据。在一些实施例中，微控制器103可能被设置成使用压缩方案将多个数据点压缩为一个数据封装体。例如，音频装置包括4个麦克风，并且编码方案是每隔3个连续采样周期对来自4个麦克风的采样数据点进行交替编码。每个封装体可能包括来自一个麦克风的三个连续采样数据，例如A0A1A2或B0B1B2。可以使用适合于相应数据点的任何压缩方案来压缩封装体。针对不同封装体的压缩方案可能不一定相同。压缩A0A1A2的封装体的大小可能与压缩B0B1B2的封装体的另一大小不同。这些封装体可能使用类似的交错方式被进一步编码成为数据流。可能在每个封装体的开始处和/或结尾处添加特定标记，以将同一封装体中的数据点与经编码的数据流中的其他数据点分开。例如，可能在每个封装体的末尾添加逗号，并且经编码的数据流可能包括：A0A1A2，B0B1B2，C0C1C2，D0D1D2，A3A4A5，B3B4B5，C3C4C5，D3D4D5…。

如上文所说明的那样，可能基于固定频率的同一时钟信号或基于同步的时钟信号，在微控制器103的相应采样端口处同步地对由麦克风101、102收集的音频信号进行采样。经采样的数字音频信号可能根据采样周期以交替/交错的方式进行编码。这样的设置可以确保即使在通信期间存在通信时延或分组丢失的情况下，也可以对经编码的数据流进行解码，以基于它们的采样时间顺序，恢复音频信号的多个通道的精确对齐。精度可以达到微秒的范围。这样的精度水平使一个或多个多输入音频处理方案的精度能够确定声源的特性(例如，定向和/或距离)，从而基于这些特性增强来自目标声源的信号，基于这些特性减少来自噪声源的信号等。

该编码方案的另一个优点可能包括可以将数据流打包，用于异步通信(例如USB数据传输)。当发生通信拥塞、时延甚至偶发的数据包丢失时，经编码的数据流仍可以基于它们的采样时间顺序恢复音频信号的多个通道的精确对齐，同时多输入音频处理方案的表现不会受到很大影响。例如，经编码的数据流包括：A0B0C0D0A1B1C1D1A2B2C2D2A3B3C3D3A4B4C4D4。经编码的数据流可能被封装成，对应于同一采样周期的数据点单元中的数据包。即，对于四个麦克风的情况，将At、Bt、Ct和Dt视为一个单元。每个数据包可能包括两个数据点单元。假设描述A2B2C2D2A3B3C3D3的两个单元的数据包在通信期间丢失，则经解码的数据流仍可以使用余下的数据包A0B0C0D0A1B1C1D1A4B4C4D4对齐该四个通道，而不会影响不同数据包之间的相对时间顺序。如果经采样的音频信号是分开传输的并且没有在所公开的交错编码方案中进行编码，则计算终端2将不能根据音频数据点的采样时间顺序恢复音频数据点的精确对齐。

鉴于以上内容，数据流可能包括由微控制器103直接从收集的音频信号直接转换并编码的数字化音频信号。微控制器103可能被设置成通过使用特定编码策略对由音频获取模块收集的音频信号进行编码，来产生数据流，以保存关于收集每个音频数据点的特定麦克风的信息，并确保不同麦克风在同一时间处收集的音频数据点可以准确地重建，而不会破坏或失配由不同麦克风收集的音频信号的原始时间顺序。计算终端2可以基于该数据流，在同步时间帧中重构由不同的麦克风收集的音频信号。

如上文所述的那样，微控制器103可能被设置成对从音频获取模块收集的音频信号执行预设的信号处理方案，以产生经处理的信号并将该经处理的信号编码成数据流。如上文所说明的那样，例如，由第一音频获取模块101中的至少一个麦克风采集的音频信号可能被处理，以产生经处理的音频信号，其增强来自目标声源的可能定向的音频信号和/或增强来自短距离的音频信号，并衰减(减弱)其他信号。替代地或整体地，由第二音频获取模块102中的至少一个麦克风采集的音频信号可能被处理，以产生经处理的音频信号，其增强来自目标声源的非可能定向的音频信号，和/或增强来自长距离的音频信号。

在某些场景下，音频信号可能在待播放的音频信号正在播放的同时由麦克风收集。特别地，对于许多音频设备，尤其是用于在线通信或电话会议的那些音频设备，音频获取组件(例如，麦克风)和音频播放组件(例如，扬声器)通常在其几何位置上相邻。结果，很容易发生由一个或多个扬声器正在播放的音频信号被部署于同一空间内音频设备的麦克风同时采集的情况。即，麦克风所拾取的音频信号可能包含同时来自目标声源和来自一个或多个扬声器的声音的组合。这就是所谓的“回声”。“回声”现象通常在音频数据处理中是不利的。回声可以被认为是环境噪声的一部分，会影响从目标声源收集的音频信号的准确解释/理解。

如图2所示，音频装置1可能包括音频输出端口108。响应于微控制器103通过装置连接器端口104对从计算终端2所传输的待播放的音频信号(可能对应于多个声音通道)的接收，微控制器103可能被设置成通过音频输出端口108将这些待播放的音频信号发送至音频输出模块105，并在微控制器103对来自一个或多个音频获取模块的音频信号进行采样的同时，请求音频输出模块105(即，一个或多个扬声器)同时地播放这些待播放的音频信号。

为了解决关于由一个或多个音频获取模块收集的音频信号中包含回声的问题，本公开还可能在将音频信号发送至计算终端2之前还执行改进的编码方案。假设音频获取模块中包含的麦克风总数表示为n，m是表示连续采样周期数的正整数，待播放的音频信号包括要在k个扬声器中播放的k个声音通道，则编码方案实施为：1)微控制器103可能被设置成在m个连续的采样周期(即，对应于m个数据点)期间对从麦克风中的第1个麦克风采样的音频信号进行编码；2)在m个连续采样周期期间，对从第i个麦克风采样的音频信号进行编码后，立即对在同一的m个连续采样周期中从第(i+1)个麦克风采样的音频信号进行编码，其中i为从1到n-1的整数；3)在对从第n个麦克风(即，音频获取模块的最后一个麦克风)采样的音频信号进行编码后，微控制器103可能被设置成在同一的m个连续采样周期期间，依次对包括k个声道的待播放的音频信号进行编码，而不是在接下来的m个连续采样周期期间，从第一个麦克风采样音频信号；4)当上述步骤的一个周期完成时，微控制器103可能被设置成在接下来的m个连续采样周期期间，开始对从第一麦克风采样的音频信号进行编码；并在接下来的m个连续采样周期中重复编码上述步骤2)3)4)，作为另一个循环(迭代)，依此类推。

例如，音频装置1可能包括4个麦克风(即，n＝4)，待播放的音频信号包括2个通道(即，k＝2)，并且编码方案每隔3个连续采样周期(即m＝3)，对来自4个麦克风加上2个待播放的声音通道的经采样的数据点交替进行编码。在任何采样周期处，来自该4个麦克风的经采样的数据点分别表示为At、Bt、Ct、Dt，并且在任何采样周期处采样自该2个待播放的声音通道的数据点分别表示为Et、Ft，其中t是采样周期的顺序号。在这种场景下，经编码的数据流可能包括：A0A1A2B0B1B2C0C1C2D0D1D2E0E1E2F0F1F2A3A4A5B3B4B5C3C4C5D3D4D5E3E4E5F3F4F5A6A7A8B6B7B8…以此类推。在另一示例中，假设仅两个麦克风与微控制器103连接(即，n＝2)，待播放的音频信号包括单声道(即，k＝1)，并且连续采样周期为1(即m＝1)，则经编码的数据流可能包括：A0B0E0A1B1E1A2B2E2A3B3E3A4B4E4...以此类推。

与上文所述的编码方案类似，每个数据点(例如A0、B0或E0)的编码格式不受限制。每个数据点可能是8位数据、16位数据，或具有其他固定位大小的数据，例如脉冲编码调制(PCM)数据。在一些实施例中，微控制器103可能被设置成使用压缩方案将多个数据点压缩为一个数据封装体。例如，音频装置1包括4个麦克风，待播放的音频信号包括2个通道，并且编码方案是每隔三个连续采样周期，对来自该4个麦克风和该2个通道的经采样的数据点交替进行编码。每个封装体可能包括来自一个麦克风的三个连续的经采样的数据，或者对应于一个通道的三个连续的待播放的音频数据，例如A0A1A2、B0B1B2或E0E1E2。可以使用适合于相应数据点的任何压缩方案来压缩封装体。针对不同封装体的压缩方案可能不一定相同。压缩A0A1A2的封装体的大小可能与压缩B0B1B2或E0E1E2的封装体的另一大小不同。该封装体可能被进一步使用类似的交错方式进行编码，以产生数据流。可能在每个封装体的开始处和/或结尾处添加特定标记，以将同一封装体中的数据点与经编码的数据流中的其他数据点分开。例如，可能在每个封装体的末尾处添加逗号。经编码的数据流可能包括：A0A1A2，B0B1B2，C0C1C2，D0D1D2，E0E1E2，F0F1F2，A3A4A5，B3B4B5，C3C4C5，D3D4D5...。

在一些实施例中，可能基于固定频率的同一时钟信号或基于同步的时钟信号，在微控制器103的相应端口处，同步地采样由一个或多个音频获取模块收集的音频信号和待播放音频信号。根据采样周期，对经采样的数字音频信号以交替/交错的方式进行严格编码。这样的设置可以确保即使在通信期间存在通信时延或分组丢失的情况下，也可以对经编码的数据流进行解码，以基于它们的采样时间顺序，恢复音频信号的多个通道的精确对齐。精度可以达到微秒的范围。这样的精度和准确性水平使得计算终端2能够实施多输入音频处理方案，用于确定一个或多个声源的特性(例如，定向和/或距离)，从而基于这些特性增强来自目标声源的信号，基于这些特性减少来自噪声源的信号等。

类似地，该编码方案的另一个优点可能包括可以将数据流打包，用于异步通信(例如USB数据传输)。当发生通信拥塞、时延甚至偶发的数据包丢失时，经解码的数据流仍可以基于它们的采样时间顺序恢复音频信号的多个通道的精确对齐，同时多输入音频处理方案的表现不会受到很大影响。

在一些实施例中，计算终端2可能包括音频输出模块105的至少一部分，其被设置成通过装置连接器端口104与微控制器103通信。该通信的具体实现方式可能是在计算终端2上，包括但不限于通过其操作系统设定，设置以音频设备1去监听计算终端2内置的扬声器音源。

图6示出针对根据本公开的音频系统的编码方案的实施例。如图6所示，该音频系统可能包括音频装置1和计算终端2。音频装置1的微控制器103可能被设置成连续地对来自计算终端2经由装置连接器端口104传输的待播放的音频信号、以及来自一个或多个音频获取模块通过采样端口采集的音频信号进行采样。在一些实施例中，微控制器103可能对待播放的音频信号片段(转发自下行音频数据并在图6中以粗体箭头中示出)进行解码的同时，将该音频信号片段原样和同一时刻通过音频输入端口107的采样端口从一个或多个音频获取模块采集的音频信号片段进行交错编码。此外，微控制器103可能被设置成将这些音频信号处理(例如，编码)为一个数据流，并通过装置连接器端口104传输(如图6中示出的上行音频数据)至计算终端2，以在计算终端2中进行后续处理。

应该注意的是，图6仅示出了一个简化图示，其中音频系统包括单个上行数据信道和单个下行数据信道。然而，在一些实施例中，音频系统可能包括多于一个的上行信道和/或多于一个的下行信道；每一个上行信道对应于一个或多个音频获取模块中的一个，每一个下行信道对应于多个扬声器105中的一个。此外，音频装置1可能包括或可能不包括一个或多个扬声器105。在一些示例中，一个或多个扬声器105可能远离音频装置1并且外部地与音频装置1连接。

图7示出针对根据本公开的音频系统的编码方案的另一实施例。微控制器103可能被设置成，对与k个音频输出端口108(分别与k个扬声器105连接)相对应的k个声道的待播放音频信号进行采样，并通过n个音频采样端口1071(在音频输入端口107中)对来自n个麦克风101、102的音频信号进行采样。假设微控制器103包括至少n+k个音频采样端口(即，图7中的1071和1072)。该n+k个音频采样端口可能是模拟端口或数字端口。音频输入端口107中的第1个采样端口至第n个采样端口(即，图7中的1071)可能被设置成对来自n个麦克风的音频信号进行采样，并且作为n个音频采样端口1071。第(n+1)个采样端口至第(n+k)个采样端口(即，图7中的1072)可能被设置成例如通过外部数字电路或模拟电路链接至分别与扬声器并行设置的k个音频输出端口108。这样，微控制器103可能以交错方式对来自n+k个音频采样端口(1071、1072)的所有音频信号和待播放的音频信号进行采样。在一些实施例中，当音频输入端口107和音频输出端口108仅包括模拟信号时，采样可能简单地通过一条或多条导线109将k个音频输出端口108链接至音频输入端口107的第(n+1)个采样端口1072至第(n+k)个采样端口1072来实施，如图7所示。

可以理解的是，尽管图6和图7示出了音频装置1的第一音频获取模块和第二音频获取模块这两者，但是，图6和图7的音频装置1可能仅配备有第一音频获取模块和第二音频获取模块中的一个。上文所描述的一个或多个编码方案，如上文所说明的那样，可能被应用于具有第一音频获取模块或第二音频获取模块的音频装置。

通过应用如上文描述的编码方案，根据本公开的音频系统提供短而稳定的延迟。因此，可能使用需要精确定时对齐的某些多输入音频处理方案(例如上述的AEC技术)来进一步处理所产生的数据流。AEC是一种算法，可以抑制从采集声音的设备对该被采集的声音的播放。AEC算法严格要求由扬声器播放的待播放音频信号与一个或多个麦克风记录的音频信号高度对齐，以使待播放的音频信号可能从目标声音信号中去除。

而在本领域中，如图8-1中的第一音频系统中所示，AEC在内部的片上DSP模块或与微控制器相连的外部DSP模块中实施。这称为“前端AEC”。然而，在这种设置中，DSP模块需要额外的成本、消耗电力、产生热量并占用空间，并且在选择DSP模块时在成本/功耗/尺寸与性能之间也存在困境。

在本领域的另一个示例中，如图8-2所示的第二音频系统中，AEC是在计算终端上运行的应用软件中实施的。在这种设置中，需要AEC从计算终端的操作系统获取待播放的音频信号，同时音频信号由音频装置进行采样和发送。这样，很难获取与通过音频装置采样的音频信号在时间上精确对齐的待播放音频信号。这种未对齐问题可能是由包括多种时延分量的延时导致的，例如，计算终端与音频装置中的微控制器之间的上行传输延迟和下行传输延迟；等等。由于计算终端由多线程非实时操作系统控制，因此这样的延时是不稳定的并且难以确定。信号之间的不稳定延迟会破坏AEC的性能。因此，在本领域中，在多线程非实时计算终端中实施的软件AEC的性能被牺牲。

然而，通过以上改进的编码方案，即使在以不稳定的延时的异步方式来传输数据流时，仍可以在计算终端中恢复待播放的音频信号和音频信号之间的精确对齐，因为该延时(例如，数据点A0/B0/E0之间)仅来自微控制器引起的处理延迟。这样的系统可以被认为是实时机器。因此，可以在计算终端中实施AEC，而不是通过设置微控制器或在音频装置中添加DSP模块(前端AEC)来实现。相应地，AEC可能被迁移至可能包括具有可用DSP资源的强大CPU的计算终端。因此，无论以同步方式还是异步方式传输数据流，都可以确保具有更高性能、更高稳定性且更低成本的系统。

在一些实施例中，提供了一种包括音频装置1和计算终端2的音频系统。该音频系统可能实施本公开中所描述的一些特征或全部特征。音频装置1可能包括微控制器103和被设置成收集音频信号的至少两个音频获取模块101、102。音频获取模块101、102中的每一个可能分别与微控制器103连接。微控制器103可能被设置成处理由音频获取模块101、102收集的音频信号，以产生一个数据流。当音频装置1与计算终端2连接时，微控制器103可能被设置成将数据流发送至计算终端2，用于以后处理。计算终端2可能被设置成对数据流进行解码并重构音频信号，实施一个或多个多输入音频处理方案以获得一个或多个增强的音频信号，并基于增强的音频信号的语音识别结果执行操作。

如本文所公开的那样，所公开的方法和音频系统可能通过其他方式实现。上文根据多个实施例所描述的音频装置和计算终端仅是示例性的。例如，可以基于逻辑功能来划分所公开的模块/单元。在实际实施中，可以使用其他划分方法。例如，可以将多个模块或单元组合、形成或集成至另一个系统，或者可以省略或不执行某些特性等。

当上文所公开的集成的模块/单元实施成一个或多个软件功能单元的形式并作为独立产品被出售或使用时，这些集成的单元可以被存储在计算机可读存储介质中。因此，本公开的基本技术方案的全部或部分可以反映成一个或多个软件产品的形式。可以将一个或多个计算机软件产品存储在存储介质中，其可以包括多个指令以使计算装置(例如，移动终端、个人计算机、服务器、网络装置等)能够执行根据本公开的多个实施例公开的所有步骤或部分步骤。该存储介质可以包括用于存储编程代码的各种介质，包括例如U盘、便携式硬盘、ROM、RAM、磁盘、光盘等。

所公开的实施例仅是示例。本领域普通技术人员应当理解，合适的软件和/或硬件(例如，通用硬件平台)可能被包括并用于执行所公开的方法。例如，所公开的实施例可以仅通过硬件来实现，其可替代地可以仅通过软件实施，或通过硬件和软件的组合实施。该软件可以存储在存储介质中。该软件可以包括合适的命令，以使任何客户端装置(例如，包括数码相机、智能终端、服务器或网络装置等)能够实施所公开的实施例。

通过考虑本文所公开的发明的说明书和实践，本公开的其他实施方式对于本领域技术人员而言将是显而易见的。说明书和实施例仅被认为是示例性的，本发明的真实范围和精神由权利要求书指出。

Claims

1.一种音频装置，包括：

至少一个第一音频获取模块，其包括至少一个麦克风，所述至少一个第一音频获取模块设置成靠近目标声源，并被设置成收集第一音频信号；

至少一个第二音频获取模块，其包括至少一个麦克风，所述至少一个第二音频获取模块设置成远离所述目标声源，并设置成收集第二音频信号；

一个微控制器，其设置成分别以有线通信/无线通信的方式与所述至少一个第一音频获取模块和所述至少一个第二音频获取模块连接，并行地对所述第一音频信号和所述第二音频信号进行采样、处理并编码，以产生一个数据流；以及

一个与计算终端相容的装置连接器端口，其设置成以有线通信/无线通信的方式与所述微控制器连接，用于将所述数据流传输至计算终端，其中：

所述计算终端基于所述数据流，参考所述第二音频信号处理所述第一音频信号，以产生新的音频信号，其包含来自所述目标声源的音频信号的比例高于所述第一音频信号包含来自所述目标声源的音频信号的比例；

所述微控制器被设置成使用同一时钟信号以同一速率或使用同步的时钟信号对所述至少一个第一音频获取模块收集的所述第一音频信号和所述至少一个第二音频获取模块收集的所述第二音频信号进行采样；经采样的所述第一音频信号和所述第二音频信号根据采样周期以交错的方式进行编码，以便在对经编码的数据流进行解码时基于采样时间顺序恢复音频信号的多个通道的精确对齐，以增强来自目标声源的信号并减少来自噪声源的信号。

2.根据权利要求1所述的音频装置，其中：

上述微控制器对所述第一音频信号和所述第二音频信号编码的编码方案包括：

在m个连续采样周期期间，对从第i个麦克风采集的音频信号进行编码之后，立即对在m个连续采样周期期间，从第（i+1）个麦克风采集的音频信号进行编码；并

在m个连续采样周期期间，对从第n个麦克风采集的音频信号进行编码之后，立即对在接下来的m个连续采样周期期间，从第1个麦克风采集的音频信号进行编码，

其中：

n是所述至少一个第一音频获取模块和所述至少一个第二音频获取模块所包含的的麦克风的总数，

所述的第i个麦克风和第n个麦克风都属于所述第一或第二音频获取模块，

i是从1至n-1的整数，并且

m是正整数。

3.根据权利要求1所述的音频装置，其中：

所述至少一个第二音频获取模块的至少一部分是所述计算终端的组件，并设置成通过所述装置连接器端口与所述微控制器通信。

4.根据权利要求1所述的音频装置，其中：

所述至少一个第一音频获取模块包括布置为麦克风阵列的多个麦克风，且/或所述至少一个第二音频获取模块包括布置为麦克风阵列的多个麦克风；

且波束形成算法被应用于所述麦克风阵列所采集的音频信号上，以增大所述第一音频信号中所含来自所述目标声源的音频信号的比例，且/或减少所述第二音频信号中所含来自所述目标声源的音频信号的比例。

5. 根据权利要求1所述的音频装置，其中：

所述至少一个第二音频获取模块、所述微控制器和所述装置连接器端口形成为一个物理实体，并且

所述微控制器以相应的有线通信方式或无线通信方式与所述至少一个第一音频获取模块连接。

6. 根据权利要求5所述的音频装置，其中：

所述音频装置包括有线耳机/无线耳机，并且

所述至少一个第一音频获取模块被设置在有线耳机/无线耳机的耳机控制盒内或耳机麦克风棒中。

7.一种音频装置，适配成与另一个音频装置以有线或无线通信方式配对连接，所述另一个音频装置包括设置成收集第一音频信号的至少一个麦克风，

所述音频装置包括：

至少一个音频获取模块，包括至少一个麦克风，并设置成收集第二音频信号；

微控制器，其设置成分别以有线通信/无线通信的方式与每一个第二音频获取模块连接，并且并行地对所述第一音频信号和所述第二音频信号进行采样、处理并编码，以产生一个数据流；

一个音频连接器端口，其设置成以有线通信/无线通信的方式，选择性地与所述另一个音频装置连接，让所述第一音频信号传递至所述微控制器；以及

一个与计算终端相容的装置连接器端口，其设置成以有线通信/无线通信的方式与所述微控制器连接，用于将所述数据流传输至所述计算终端，其中：

所述计算终端基于所述数据流，参考所述第二音频信号处理所述第一音频信号，以产生新的音频信号，其包含来自目标声源的音频信号的比例高于所述第一音频信号包含来自目标声源的音频信号的比例；

所述微控制器被设置成使用同一时钟信号以同一速率或使用同步的时钟信号对所述第一音频信号和所述第二音频信号进行采样；经采样的所述第一音频信号和所述第二音频信号根据采样周期以交错的方式进行编码，以便在对经编码的数据流进行解码时基于采样时间顺序恢复音频信号的多个通道的精确对齐，以增强来自目标声源的信号并减少来自噪声源的信号。

8. 根据权利要求7所述的音频装置，其中所述微控制器对所述第一音频信号和所述第二音频信号进行编码的编码方案包括：

在m个连续采样周期期间，从第n个麦克风采集的音频信号进行编码之后，立即对在接下来的m个连续采样周期期间，从第1个麦克风采集的音频信号进行编码，

其中：

n是所述另一个音频装置和所述至少一个音频获取模块所包含的麦克风的总数，

所述的第i个麦克风和第n个麦克风都属于所述另一个音频装置或所述至少一个音频获取模块，

i是从1到n-1的整数，并且

m是正整数。

9.一种音频装置，适配成包含至少一个扬声器或通过至少一个音频输出端口与至少一个扬声器连接，所述至少一个扬声器设置成播放包含待播放的音频信号的下行数据流，所述音频装置包括：

至少一个音频获取模块，其包括至少一个麦克风，并设置成采集原始音频信号；

微控制器，其设置成通过有线通信或无线通信方式分别和至少一个音频获取模块连接，对所述原始音频信号进行采样的同时，获取同一时刻即将播放的音频信号，并将二者进行交错编码，以产生上行数据流；以及

装置连接器端口，其以有线通信/无线通信的方式与所述微控制器连接、并与计算终端相容，且被设置成从所述计算终端接收下行数据流，并将所述上行数据流传输至所述计算终端，其中：

所述计算终端基于所述上行数据流，参考其中包含的所述即将播放的音频信号处理所述原始音频信号，以产生新的音频信号，其包含来自目标声源的音频信号的比例高于所述原始音频信号包含来自目标声源的音频信号的比例；

所述微控制器被设置成使用同一时钟信号以同一速率或使用同步的时钟信号对所述原始音频信号和所述即将播放的音频信号进行采样；经采样的所述原始音频信号和所述即将播放的音频信号根据采样周期以交错的方式进行编码，以便在对经编码的数据流进行解码时基于采样时间顺序恢复音频信号的多个通道的精确对齐，以增强来自目标声源的信号并减少来自噪声源的信号。

10. 根据权利要求9所述的音频装置，其中所述的交错编码方式包括：

在m个连续采样周期期间，对从所述至少一个音频获取模块中的n个麦克风采集的音频信号中的每一个按固定顺序进行编码；并且

在对从所述n个麦克风采集的所述音频信号进行编码之后或之前，对在m个连续采样周期期间、对应于k个声音输出通道的待播放的音频信号中的每一个按固定顺序进行编码；

在针对该m个采样周期的上述编码完成后，再对下m个采样周期期间采集的音频信号和待播放的音频信号按同样顺序进行编码；

其中：

n为所述至少一个音频获取模块中所述至少一麦克风的总数，

m是正整数，并且

k是所述待播放的音频信号的声道的总数。

11.根据权利要求9所述的音频装置，其中所述微控制器对所述原始音频信号进行采样的同时，获取同一时刻即将播放的音频信号，并将二者进行交错编码的具体实现方式是：

所述音频装置还包括音频输入端口，所述音频输入端口具有多个音频采样端口，

所述至少一个音频获取模块被连接至所述音频采样端口的第一部分，

所述至少一个音频输出端口设置成同时与至少一个扬声器和所述音频采样端口的第二部分相连接，并且

所述微控制器被设置成，按固定顺序对对音频输入端口中的各个音频采样端口（包含所述第一部分和所述第二部分）采样的音频数据进行编码。

12.根据权利要求9所述的音频装置，其中所述微控制器对所述原始音频信号进行采样的同时，获取同一时刻即将播放的音频信号，并将二者进行交错编码的具体实现方式是：

所述微控制器还被设置成，对从装置连接器端口获取的下行数据流逐片段进行解码并输出至所述至少一个扬声器的同时，将被解码的下行音频信号片段直接原样编码在同一时刻所述音频获取模块所采集的原始音频信号片段之前或之后。