CN110663173B

CN110663173B - 基于房间特性自动均衡音频输出的方法和系统

Info

Publication number: CN110663173B
Application number: CN201880034116.3A
Authority: CN
Inventors: 本杰明·路易斯·沙亚; 拉斯穆斯·拉尔森; 理查德·莱恩; 迈克尔·斯梅德加德
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-10-04
Filing date: 2018-07-16
Publication date: 2023-09-19
Anticipated expiration: 2038-07-16
Also published as: US11888456B2; US11005440B2; US10734963B2; CN110663173A; EP3692634A1; WO2019070328A1; CN117544884A; US20210194447A1; US10523172B2; US20190103848A1; US20200220511A1; US20190103849A1; US20240146274A1

Abstract

本文所述各种实施方式包括用于自动音频均衡的方法、装置和系统。在一个方面，在包括扬声器、麦克风、处理器和存储器的计算系统执行所述方法。计算系统输出音频用户内容并自动均衡计算系统的音频输出。均衡包括：(1)在多个麦克风的每个麦克风接收所输出的音频内容；(2)基于所接收的音频内容确定房间的声学传递函数；(3)基于所确定的声学传递函数获得房间的频率响应；(4)基于所确定的频率响应调整扬声器的一个或多个属性。

Description

基于房间特性自动均衡音频输出的方法和系统

技术领域

本发明一般涉及音频均衡，包括但不限于不需要用户动作的用于自动音频均衡的方法和系统。

背景技术

集成了麦克风和扬声器的电子装置已经广泛用于收集来自用户的语音输入并输出声音(例如，音乐和讲话)。音频输出的质量会受到诸如房间环境和扬声器在房间中的放置等因素的影响。手动音频均衡是一种用于调整音频输出的不同频率的增益(响应)的过程，通常用于提高输出声音的质量。但是，对于用户而言，手动均衡是一项繁琐且耗时的任务。此外，它需要关于扬声器、麦克风和房间的大量知识，这对于普通用户而言太高级了。

因此，需要用户能够体验高质量的音频而无需用户的时间和精力或者扬声器、麦克风和音频均衡过程的详细知识。希望电子装置能够独立于任何用户交互而自动进行音频均衡。

发明内容

需要用于自动音频均衡的方法、装置和系统。在后附权利要求保护范围内的系统、方法和装置的各种实施方式均具有多个方案，没有一个方案单独负责本文所述的属性。在不限制后附权利要求保护范围的情况下，在考虑本公开之后，尤其是在考虑了标题为“具体实施方式”的部分之后，将理解如何使用各种实施方式的方案来自动(没有用户输入)均衡音频输出。

音频装置包括集成了麦克风和扬声器的电子装置广泛用于收集来自用户的语音输入并输出声音例如音乐或讲话。输出的音频质量并且因此用户的聆听体验可能会受到诸如房间的风格以及房间中装置/扬声器的放置等因素的影响。例如，具有坚硬表面的房间会遭受明显的回声问题。将扬声器放置在边界上或边界附近诸如在地板上或紧邻墙壁增强低频音调，并可能导致“嗡嗡”低音。因此，为了获得一致的输出音频质量，需要低音频率的均衡例如校正以抵消房间和放置的影响。

手动房间均衡通常是一个繁琐的过程，每次房间或位置改变时都要重复进行。用户必须有麦克风，并且必须使用麦克风在房间中的各个位置记录音频输出响应。然后，用户必须基于所收集的响应来应用所需的校正。此外，这种手动均衡过程需要关于扬声器、麦克风和房间的大量知识，这对于普通用户而言太高级了。自动音频均衡为用户提供了获得最佳聆听体验的机会，同时避免了任何设置或校准过程。此外，自动均衡过程使得用户能够重新布置房间或移动扬声器，而不必担心进行另一个烦人的手动均衡。

需要调整驱动扬声器装置的信号的频率响应或均衡，以使其无论是在开阔地、墙壁附近还是角落中声音都一致。

一些均衡方法使用扬声器正前方的麦克风(例如，在扬声器前面的两个位置)。提供公式用于估计声学辐射阻抗，它取决于频率而变，与扬声器有多少功率耦合到房间有关，因此当墙壁的反射导致在低频下辐射阻抗的增加时，可以使用它来估计补偿均衡。但是，在某些情况下，使用外部麦克风手动操作并非可行的解决方案。

根据一些实施方式，使用扬声器装置内的麦克风来进行这个调整。这样避免了任何设置或校准过程或远程传感器的需要。

根据一些实施方式，一种自动均衡方法在扬声器顶部使用麦克风，一个靠近扬声器的前面，一个靠近扬声器的后面，以感测从扬声器向后面的墙壁传播的声波以及从这些墙壁反射的任何声波的相对贡献。在一些实例和实施方式中，在足够低的频率(例如，波长比到反射器的往返距离长)处，预计在麦克风之间从直接来自扬声器的声波的有一定的延迟或相移；并且对于从扬声器后面的墙壁反射回来的声波，预计在麦克风之间所述延迟或相移减少。

在较高的频率处，反射的作用更为复杂，但是通过可以学习和识别的模式，以获取每个位置的良好均衡。因此，根据一些实施方式，在播放音乐时，自动均衡方法使用音乐作为刺激来测量相对相位，并进行一些频率分析来估计相位模式特征。

在一些实施方式中，电子装置包括位于扬声器侧面的一对麦克风(例如，除了扬声器装置顶部的麦克风之外)。在一些实施方式中，装置包括前后分离的多对麦克风。在一些实施方式中，多对麦克风同时位于扬声器的顶部和侧面。在一些实施方式中，麦克风只在扬声器的主体上，远离驱动器，而不是在前方外部。在一些实施方式中，麦克风在扬声器装置内部。例如，麦克风和扬声器是同一电子装置的组件。在一些实施方式中，麦克风处于内部位置，在这些位置它们也可用于其他功能，例如语音识别(例如，在语音启动的智能扬声器中)。在一些实施方式中，将麦克风定位以捕捉来自扬声器装置附近的一个或多个人员的音频。

在一些实施方式中，系统基于扬声器的用户内容(例如，音乐)输出而不是要求测试信号(例如，没有蜂鸣声或扫频音)来进行音频均衡。在一些实施方式中，使用一对或多对麦克风来测量所接收的音频输出中的相移。在一些实施方式中，测量一对或多对麦克风之间的相对相位(相位差)。在一些实施方式中，使用相对幅度频谱特征来确定频率(声学)响应。在一些实施方式中，相对幅度频谱特征与麦克风匹配和/或校准结合使用。在一些实例和实施方式中，向相位差赋予权重使得麦克风之间的灵敏度差异对均衡过程的影响最小化。在一些实施方式中，均衡包括以低于阈值频率(例如，低于约300Hz，其中波长约为1.1m)校正频率响应。在一些实例和实施方式中，仅低于阈值频率的频率从扬声器沿所有方向传播，包括向后传播，因此是受到扬声器后面的墙壁或角落影响的唯一频率。

在一些实施方式中，获得传声器相对于彼此的相对位置，并将其用于确定相位差。在一些实施方式中，在没有任何关于麦克风相对于扬声器的相对位置的信息的情况下进行自动均衡。

在一些实施方式中，基于声学模型执行自动均衡。在一些实施方式中，装置基于房间位置来学习和识别模式，并应用对应的均衡校正。

在一些实施方式中，使用机器学习执行自动均衡。在一些实施方式中，机器学习包括针对位置和/或频率范围的期望校正来训练装置(例如，可以从专家听众获得训练目标，或通过在聆听区域中的辅助麦克风测量频谱，或通过在扬声器驱动器前面使用辅助麦克风的ABC方法)。在一些实施方式中，将最近邻居分类器算法用于识别适当的校正(例如，以在50-300Hz范围内的频率估计的相位作为特征向量)。在一些实施方式中，将非线性逻辑回归(例如具有S形输出的多层神经网络)用于识别适当的校正。在一些实施方式中，利用机器学习能够对于很多位置和反射材料实现校正。在一些实施方式中，利用其他机器学习方法。

如上所述，为用户设置房间均衡通常很繁琐。一般而言，用户必须使用麦克风(例如，智能手机)来进行声学测量，以捕捉房间中各个位置的测量信号。

在一些实施方式中，通过使用位于房间不同位置的多个电子装置(例如，音频助理产品的集群)，一次使用一个电子装置的一个扬声器来生成声音信号，并将其他电子装置的麦克风用于捕捉房间各个位置的相应声音响应。在一些实施方式中，通过使得每个扬声器能够生成声学刺激来自动捕捉关于房间的声学传递函数的信息。在一些实施方式中，使用机器学习算法在服务器系统上(例如，在云中)处理房间响应数据，以生成房间均衡曲线。在一些实施方式中，将所生成的房间均衡曲线下载到电子装置，从而改善房间内频率响应而无需用户交互。

在一个方面，一些实施方式包括一种在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的电子装置上进行的用于均衡音频输出的方法。所述方法包括：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述电子装置的音频输出，所述均衡包括：(a)获得音频内容信号的集合，包括在多个麦克风的每个麦克风接收所输出的音频内容；(b)根据音频内容信号的集合确定多个麦克风的麦克风之间的多个相位差(例如，传递函数)；(c)基于多个相位差获得特征向量；(d)基于所获得的特征向量，根据校正数据库获得频率校正(例如，频率校正曲线)；以及(e)将所获得的频率校正应用于后续音频输出。在一些实施方式中，所述方法还包括在一个或多个麦克风确定所输出的音频内容与所接收的音频内容之间的一个或多个相位差。在一些实施方式中，将多个麦克风定位为相互之间是近场。

在另一个方面，一些实施方式包括一种生成校正数据库的方法。所述方法包括：对于多个房间内多个位置的每个位置：(1)将扬声器装置定位在所述位置；(2)经由扬声器装置输出训练音频；(3)在两个或更多个麦克风接收所输出的训练音频；(4)基于所输出的训练音频生成参考特征向量和参考频率校正；(5)将参考特征向量和参考频率校正值添加到校正数据库。

在另一个方面，一些实施方式包括一种在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的计算系统上进行的均衡音频输出的方法。所述方法包括：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述计算系统的音频输出，所述均衡包括：(a)在多个麦克风的每个麦克风接收所输出的音频内容；(b)基于所接收的音频内容，确定房间的声学传递函数(例如，阻抗)；(c)基于所确定的声学传递函数，获得房间的频率响应(例如，房间/分贝增益)；以及(d)基于所确定的频率响应，调整扬声器的一个或多个属性。在一些实施方式中，独立于任何特定用户请求来进行均衡。在一些实施方式中，在不需要任何用户动作的情况下进行均衡。在一些实施方式中，计算系统基于声纳、雷达或经由高频映射来确定它在房间内的位置。

在另一个方面，一些实施方式包括一种用于训练均衡神经网络的方法。所述方法包括：(1)针对多个房间内多个位置的每个位置，通过以下步骤生成音频均衡神经网络：(a)将音频系统定位在所述位置，所述音频系统具有多个麦克风和一个或多个扬声器；(b)经由所述一个或多个扬声器输出一个或多个音频信号；(c)通过在所述多个麦克风的每个麦克风接收所输出的一个或多个音频信号来获得音频信号的集合；(d)基于所述音频信号的集合，获得所述位置的特征向量；以及(e)将对应于所述特征向量的一个或多个节点添加到神经网络；以及(2)训练所述均衡神经网络。

在另一个方面，一些实施方式包括一种计算系统，所述计算系统包括一个或多个处理器以及耦合到所述一个或多个处理器的存储器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行本文所述任一项方法的指令。

在另一个方面，一些实施方式包括一种计算机可读存储介质，用于存储通过计算系统的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行本文所述任一项方法的指令。

因此，向装置、存储介质和计算系统提供用于自动音频均衡的方法，从而提高这种系统的有效性、效率和用户满意度。这些方法可以补充或替代用于音频均衡的常规方法。

附图说明

为了更好地理解各种所述实施方式，结合以下附图参考以下实施方式的描述，其中，相似的附图标记在所有附图中表示对应的部分。

图1A和图1B示出根据一些实施方式的用于自动音频均衡的代表性电子装置。

图2是示出根据一些实施方式的包括多个电子装置和服务器系统的代表性操作环境的方框图。

图3A是示出根据一些实施方式的代表性电子装置的方框图。

图3B是示出根据一些实施方式的图3A中的电子装置的校正数据库和机器学习数据库的子模块的方框图。

图4A是示出根据一些实施方式的代表性服务器系统的方框图。

图4B是示出根据一些实施方式的图4A中的服务器系统的校正数据库和机器学习数据库的子模块的方框图。

图5A-图5C示出根据一些实施方式的示例频率响应。

图6A和图6B示出根据一些实施方式的图3A的电子装置的示例定位和操作。

图6C是根据一些实施方式的在图6B中定位的电子装置的侧视图，示出电子装置的音频输出。

图6D是根据一些实施方式的在图6B中定位的电子装置的平面图，示出电子装置的音频输出。

图7A-图7C示出根据一些实施方式的图3A的电子装置的示例定位和操作。

图7D是根据一些实施方式的在图7B中定位的电子装置的侧视图，示出电子装置的音频输出。

图7E是根据一些实施方式的在图7B中定位的电子装置的平面图，示出电子装置的音频输出。

图8A-图8C示出根据一些实施方式的图3A的电子装置的示例定位和操作。

图8D-图8F是示出根据一些实施方式的在图8B中定位的电子装置的示例操作顺序的平面图。

图9A-图9H示出根据一些实施方式的图3A的电子装置在房间中的各个位置的示例响应。

图10是根据一些实施方式的用于利用单个电子装置进行自动音频输出均衡的方法的流程图表示。

图11是根据一些实施方式的用于利用多个电子装置进行自动音频输出均衡的方法的流程图表示。

图12是示出根据一些实施方式的通过利用神经网络的机器学习的频率校正过程的方框图。

图13是示出根据一些实施方式的在电子装置的均衡模块执行的音频信号处理的方框图。

图14A至图14B示出根据一些实施方式的在电子装置的示例校正数据库。

在所有附图中，相似的附图标记表示对应的部分。

具体实施方式

下面详细参考实施方式，附图示出其示例。在下面的详细描述中，给出很多具体细节，以便提供对各种所述实施方式的透彻理解。但是，对于本领域技术人员而言显然，没有这些具体细节也可以实践各种所述实施方式。在其他情况下，没有详细描述公知的方法、过程、组件、电路和网络，以免不必要地混淆实施方式的方案。

将集成了麦克风和扬声器的电子装置配置为接收和输出声音。这些装置输出的声音可能实际上受到它们在聆听房间中的放置的影响。例如，取决于聆听房间中附近反射表面的数量(例如，附近的家具、墙壁或天花板)，电子装置输出的声音的低音频率在被听众感知时可能实际上被放大。在某些聆听环境中和/或对于扬声器上播放的某些音频内容，由于房间效应导致电子装置输出的声音失真带来不太理想的聆听体验。在一些实施方式中，还将这些电子装置配置为进行自动音频均衡，以校正对于其输出声音的房间效应。在一些实施方式中，电子装置通过分析聆听环境中的一个或多个麦克风所接收的声音而独立于任何用户交互来校正房间效应，从而使得用户能够方便轻松地在任何位置享受高质量聆听体验。在一些实施方式中，为此目的采用的麦克风是电子装置所提供的麦克风，所述电子装置是待均衡的输出声音的源。在一些实施方式中，为此目的采用的麦克风是在聆听环境中其他电子装置所提供的麦克风。

自动均衡考虑诸如房间和装置位置之类的因素。扬声器输出麦克风所收集的音频。根据所收集的音频，确定包括相位、相位差和音频响应的信息。使用所确定的信息，通过电子装置(例如，使用装置上本地可用的校正数据库)或在服务器生成对应的均衡校正。最后，自动且无需给电子装置的用户输入地应用均衡校正。

图1A示出根据一些实施方式用于自动音频均衡的电子装置100。电子装置100包括一个或多个低音扬声器102(例如，102-1和102-2)、一个或多个高音扬声器104和多个麦克风106。在一些实施方式中，扬声器102包括不同类型的扬声器，例如低频低音扬声器和高频高音/高频扬声器。在一些实施方式中，电子装置100包括三个或更多个扬声器102。在一些实施方式中，以不同的几何形状布置(例如，以三角形配置)扬声器102。在一些实施方式中，电子装置100不包括任何高频扬声器104。在一些实施方式中，电子装置100包括少于六个的麦克风106。在一些实施方式中，电子装置100包括超过六个的麦克风106。在一些实施方式中，麦克风106包括两个或更多个不同类型的麦克风。

在图1A中，将麦克风106布置为三个一组，其中一个麦克风(例如，麦克风106-3)在电子装置100的正面，而群组中的其他两个麦克风(例如，麦克风106-1和106-2)在电子装置100的侧面或顶部。在一些实施方式中，将麦克风106布置在电子装置100内除了图1A所示位置之外的位置。在一些实施方式中，在电子装置100中通过不同的方式将麦克风106分组。例如，将麦克风106布置为四个一组，其中一个麦克风在装置100的正面，一个麦克风在装置100的背面。在一些实施方式中，将麦克风106相对于扬声器102定向和/或定位。例如，一个麦克风(例如106-3)朝向与扬声器102相同的方向，而其他麦克风(例如106-1和106-2)垂直于(或大体上垂直于)扬声器102的方向。作为另一个示例，一个麦克风(例如106-3)的位置比其他麦克风(例如106-1和106-2)更靠近扬声器102。因此，在一些实施方式中，将麦克风106定位为使得在所接收的音频中出现相位差并且可以分析，以确定房间特性。

图1B示出根据一些实施方式用于自动音频均衡的电子装置120。在一些实施方式中，电子装置120包括麦克风122、照明器124的阵列(例如，LED)以及位于网格126后面的一个或多个扬声器。此外，电子装置120后侧可选地包括配置为耦合到电源(未示出)的电源连接器。在一些实施方式中，电子装置120包括比图1B所示更多或更少的麦克风122。在一些实施方式中，将麦克风122布置在电子装置120内除了图1B所示位置之外的位置。

在一些实施方式中，电子装置100和/或电子装置120是语音激活的。在一些实施方式中，电子装置100和/或电子装置120呈现没有可见按钮的干净外观，并且与电子装置120的交互是基于语音和触摸手势。替代性地，在一些实施方式中，电子装置100和/或电子装置120包括有限数量的物理按钮(未示出)，并且与电子装置的交互除了语音和/或触摸手势之外，还基于按下按钮。

图2是示出根据一些实施方式包括多个电子装置100、120和202以及服务器系统206、220的操作环境200的方框图。操作环境包括一个或多个电子装置100、120和202，它们位于限定空间内的一个或多个位置，例如，在单个房间或结构的空间内，或者在开放空间的限定区域内。

电子装置202的示例包括电子装置100、电子装置120、手持式计算机、可穿戴计算装置、个人数字助理(PDA)、平板计算机、膝上型计算机、桌面型计算机、蜂窝电话、智能电话、语音激活装置、增强型通用分组无线服务(EGPRS)移动电话、媒体播放器或这些数据处理装置或其他数据处理装置中的任何两个或多个的组合。

根据一些实施方式，电子装置100、120和202通过通信网络210可通信地耦合到服务器系统206和智能助理系统220。在一些实施方式中，电子装置中的至少一部分(例如，装置100、120和202-1)可通信地耦合到局域网204，局域网204可通信地耦合到通信网络210。在一些实施方式中，局域网204是在网络接口(例如，路由器)实现的本地网络。在一些实施方式中，可通信地耦合到局域网204的电子装置100、120和202也通过局域网204相互通信。在一些实施方式中，电子装置100、120和202可通信地相互耦合(例如，无需通过局域网204或通信网络210)。

可选地，一个或多个电子装置可通信地耦合到通信网络210，并且不在局域网204上(例如，电子装置202-N)。例如，这些电子装置不在与局域网204相对应的Wi-Fi网络上，而是通过蜂窝连接连接到通信网络210。在一些实施方式中，通过语音辅助服务器224进行在局域网204上的电子装置100、120和202与不在局域网204上的电子装置100、120和202之间的通信。因此，将电子装置202注册在装置注册222中，并因此被语音辅助服务器224所知。

在一些实施方式中，服务器系统206包括前端服务器212，其帮助经由通信网络210在服务器系统206与电子装置100、120和202之间的通信。例如，前端服务器212从电子装置202接收音频内容(例如，音频内容是音乐和/或讲话)。在一些实施方式中，将前端服务器212配置为向电子装置202发送信息。在一些实施方式中，将服务器212配置为发送均衡信息(例如，频率校正)。例如，前端服务器212响应于所接收的音频内容向电子装置发送均衡信息。在一些实施方式中，将前端服务器212配置为将数据和/或超链接发送给电子装置100、120和/或202。例如，将前端服务器212配置为向电子装置发送更新(例如，数据库更新)。

在一些实施方式中，服务器系统206包括均衡模块214，均衡模块214根据从电子装置202收集的音频信号确定关于音频信号的信息，例如频率、相位差、传递函数、特征向量、频率响应等。在一些实施方式中，均衡模块214从校正数据库216获得频率校正数据，以发送给电子装置(例如，经由前端服务器212)。在一些实施方式中，频率校正数据是基于关于音频信号的信息。在一些实施方式中，均衡模块214将机器学习(例如，结合机器学习数据库218)应用于音频信号，以生成频率校正。

在一些实施方式中，服务器系统206包括存储频率校正信息的校正数据库216。例如，校正数据库216包括音频特征向量和对应频率校正的配对。

在一些实施方式中，服务器系统206包括存储机器学习信息的机器学习数据库218。在一些实施方式中，机器学习数据库218是分布式数据库。在一些实施方式中，机器学习数据库218包括深度神经网络数据库。在一些实施方式中，机器学习数据库218包括监督训练和/或强化训练数据库。

图3A是示出根据一些实施方式的电子装置300的方框图。在一些实施方式中，电子装置300是或包括图2的电子装置100、120、202的其中任何一个。电子装置300包括一个或多个处理器302、一个或多个网络接口304、存储器306以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线308。

在一些实施方式中，电子装置300包括一个或多个帮助音频输入和/或用户输入的输入装置312，例如麦克风314、按钮316和触摸传感器阵列318。在一些实施方式中，麦克风314包括麦克风106、麦克风122和/或其他麦克风。

在一些实施方式中，电子装置300包括帮助音频输出和/或视觉输出的一个或多个输出装置322，包括一个或多个扬声器324、LED 326和显示器328。在一些实施方式中，LED326包括照明器124和/或其他LED。在一些实施方式中，扬声器324包括低音扬声器102、高频扬声器104、装置120的扬声器和/或其他扬声器。

在一些实施方式中，电子装置300包括无线电320和一个或多个传感器330。无线电320启动一个或多个通信网络，并允许电子装置300与其他装置通信。在一些实施方式中，无线电装置320能够使用各种定制或标准无线协议(例如，IEEE 802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave、Bluetooth Smart、ISA100.5A、WirelessHART、MiWi等)、定制或标准有线协议(例如，Ethernet、HomePlug等)和/或任何其他合适的通信协议，包括截至本文提交之日尚未开发的通信协议来进行数据通信。

在一些实施方式中，传感器330包括一个或多个运动传感器(例如，加速度计)、光传感器、定位传感器(例如，GPS)和/或音频传感器。在一些实施方式中，定位传感器包括一个或多个位置传感器(例如，被动红外(PIR)传感器)和/或一个或多个方位传感器(例如，陀螺仪)。

存储器306包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器装置；并且可选地，包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其他非易失性固态存储装置。存储器306可选地包括一个或多个远离一个或多个处理器302的存储装置。存储器306或存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作逻辑332，包括用于处理各种基本系统服务和用于进行硬件相关任务的过程；

·用户界面模块334，用于提供和显示用户界面，可以在其中配置和/或查看设置、捕捉的数据(包括热词)和/或用于一个或多个装置(例如，电子装置300和/或其他装置)的其他数据；

·无线通信模块336，用于连接到其他网络装置并与之通信(例如，局域网204，例如提供互联网连接的路由器、联网存储装置、网络路由装置、服务器系统206、智能家庭服务器系统220等)，经由一个或多个通信接口304(有线或无线)耦合到一个或多个通信网络210；

·音频输出模块338，用于确定和/或呈现音频信号(例如，结合扬声器324)；

·麦克风模块340，用于获得和/或分析音频信号(例如，结合麦克风314)；

·定位模块344，用于获得和/或分析定位信息(例如，方位和/或位置信息)，例如，结合传感器330；

·均衡模块346，用于均衡电子装置300的音频输出，包括但不限于：

○音频分析子模块3461，用于分析从输入装置(例如，麦克风)收集的音频信号，例如，确定音频属性(例如，频率、相移和/或相位差)和/或生成音频频率的快速傅立叶变换(FFT)；

○校正子模块3462，用于从校正数据库352获得频率校正和/或将频率校正应用于电子装置300；

○传递函数子模块3463，用于使用所分析的音频信号确定特征向量、声学传递函数(将音频输出与音频输入相关)和/或电子装置300的频率响应；以及

○加权子模块3464，用于为各个音频信号和/或音频属性(例如，相位差和/或信噪比)分配不同的权重；

·训练模块348，用于生成和/或训练音频模型，以及可选地与电子装置300相关联的指纹音频事件；

·装置数据库350，用于存储与电子装置300相关的信息，包括但不限于：

○传感器信息3501，与传感器330相关联；

○电子装置300的装置设置3502，例如默认选项和优选用户设置；以及

○通信协议信息3503，用于指定电子装置300所要使用的通信协议；

·校正数据库352，用于存储频率校正信息，如参考图3B更详细所述；以及

·机器学习数据库354，用于存储机器学习信息，如参考图3B更详细所述。

图3B是示出根据一些实施方式的图3A中的电子装置300的校正数据库352和机器学习数据库354的子模块的方框图。在一些实施方式中，校正数据库352包括以下数据集或其子集或超集：

·位置数据3521，与关联音频装置的不同位置和/或方位相对应(例如，麦克风和/或扬声器的定位)；

·矢量数据3522，包括与关联音频装置的不同位置和/或方位相对应的相移、相位差和/或特征向量；

·权重信息3523，包括分配给不同信噪比、麦克风、成对麦克风和/或麦克风定位的权重；

·训练音频3524，包括与构造校正数据库352一起使用的训练数据(例如，白噪声、粉红噪声等)；以及

·校正数据3525，存储用于校正音频装置的音频响应的信息，包括但不限于：

○频率响应3526，包括对应于音频装置的不同位置和/或方向的频率响应和/或特征向量；以及

○频率校正3527，对应于各个频率响应3526。

此外如图3B所示，根据一些实施方式，机器学习数据库354包括以下数据集或其子集或超集：

·神经网络数据3541，包括与一个或多个神经网络的操作相对应的信息，包括但不限于：

○定位信息3542，包括与音频装置的不同位置和/或方位相对应的信息(例如，特征向量)；以及

○校正数据3543，对应于定位信息3542。

以上标识的模块的每个模块都可以可选地存储在本文所述的一个或多个存储器装置中，并且对应于用于进行上述功能的指令集。以上标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方式中，存储器306存储以上标识的模块和数据结构的子集。此外，存储器306可选地存储以上未描述的附加模块和数据结构(例如，用于语音启动式智能扬声器中的热词检测和/或语音识别的模块)。在一些实施方式中，将程序的子集、模块和/或存储器306中存储的数据存储在服务器系统206和/或语音辅助服务器224上和/或由其执行。

图4A是示出根据一些实施方式的服务器系统206的方框图。根据一些实施方式，服务器系统206包括一个或多个处理器402、一个或多个网络接口404、存储器410以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线408。

服务器系统206可选地包括一个或多个帮助用户输入的输入装置406，例如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕捉相机或其他输入按钮或控件。在一些实施方式中，服务器系统206可选地使用麦克风和语音识别或相机和手势识别来补充或替换键盘。服务器系统206可选地包括一个或多个输出装置408，使得能够呈现用户界面并显示内容，例如一个或多个扬声器和/或一个或多个视觉显示器。

存储器410包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其他随机存取固态存储器装置；并且可选地，包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其他非易失性固态存储装置。存储器410可选地包括位置远离一个或多个处理器402的一个或多个存储装置。存储器410或存储器410内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器410或存储器410的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统416，包括用于处理各种基本系统服务以及用于进行硬件相关任务的过程；

·前端212，用于经由网络接口404(有线或无线)和一个或多个网络例如互联网、其他广域网、局域网、城域网等将服务器系统206可通信地耦合到其他装置(例如，电子装置100、120和202)；

·用户界面模块420，用于在服务器系统或电子装置实现信息的呈现(例如，用于呈现应用程序、窗口小部件、网站及其网页、游戏、音频和/或视频内容、文本等的图形用户界面)；

·装置注册模块422，用于注册与服务器系统206一起使用的装置(例如，电子装置300)；

·均衡模块424，用于均衡电子装置(例如，电子装置300)的音频输出，包括但不限于：

○音频分析子模块4241，用于分析从电子装置(例如，电子装置300)接收的音频信号，例如，确定音频属性(例如，频率、相移和/或相位差)和/或生成音频的快速傅立叶变换(FFT)；

○校正子模块4242，用于从校正数据库216获得频率校正和/或将频率校正应用于电子装置300；

○传递函数子模块4243，用于使用所分析的音频信号确定电子装置300的特征向量、声学传递函数(将音频输出与音频输入相关)和/或频率响应；以及

○加权子模块4244，用于为各个音频信号和/或音频属性例如相位差和/或信噪比)分配不同的权重；

·训练模块426，用于生成和/或训练音频模型，以及可选地，与电子装置300相关联的指纹音频事件；

·服务器系统数据428，存储与服务器系统206相关的数据，包括但不限于：

○客户端装置设置4281，包括用于一个或多个电子装置(例如，电子装置300)的装置设置，例如通用装置设置(例如，服务层、装置模型、存储容量、处理能力、通信能力等)，以及用于自动媒体显示控制的信息；

○音频装置设置4282，包括与服务器系统206相关联的音频装置(例如，电子装置(多个)300)的音频设置，例如通用和默认设置(例如，扬声器和/或麦克风的音量设置等)；以及

○语音辅助数据4283，用于语音激活装置和/或语音辅助服务器224的用户帐户，例如帐户访问信息以及用于一个或多个电子装置300的信息(例如，服务层、装置模型、存储容量、处理能力、通讯能力等)；

·校正数据库216，用于存储频率校正信息，如参考图4B更详细所述；以及

·机器学习数据库218，用于存储机器学习信息，如参考图4B更详细所述。

在一些实施方式中，服务器系统206包括通知模块(未示出)，用于为电子装置的用户生成警报和/或通知。例如，在一些实施方式中，将校正数据库本地存储在用户的电子装置上，服务器系统206可以生成通知，以警告用户将最新版本或更新下载到校正数据库。

图4B是示出根据一些实施方式的图4A中的服务器系统206的校正数据库216和机器学习数据库218的子模块的方框图。在一些实施方式中，校正数据库216包括以下数据集或其子集或超集：

·位置数据4301，与关联音频装置的不同位置和/或方位(例如，麦克风和/或扬声器的定位)相对应；

·向量数据4302，包括与关联音频装置的不同位置和/或方位相对应的相移、相位差和/或特征向量；

·权重信息4303，包括分配给不同信噪比、麦克风、成对麦克风和/或麦克风定位的权重；

·训练音频4304，包括用于与构建校正数据库216一起使用的训练数据(例如，白噪声、粉红噪声等)；以及

·校正数据4305，存储用于校正音频装置的音频响应的信息，包括但不限于：

○频率响应4306，包括对应于音频装置的不同位置和/或方位的频率响应和/或特征向量；以及

○频率校正4307，对应于各个频率响应4306。

如图4B所示，根据一些实施方式，机器学习数据库218包括以下数据集或其子集或超集：

·神经网络数据4401，包括与一个或多个神经网络的操作相对应的信息，包括但不限于：

○定位信息4402，包括与音频装置的不同位置和/或方位相对应的信息(例如，特征向量)；以及

○校正数据4403，对应于定位信息4402。

以上标识的元素的每个元素都可以存储在本文所述的一个或多个存储器装置中，并且对应于用于进行上述功能的指令集。以上标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方式中，存储器410可选地存储以上标识的模块和数据结构的子集。此外，存储器410可选地存储以上未描述的附加模块和数据结构。

图5A-图5C示出根据一些实施方式的音频装置(例如，电子装置300)的示例频率响应。在图5A中，示出频率响应508。频率响应508在产生音频的频率范围内测量音频信号的幅度(例如，增益和/或响度)。频率响应508表示为包括在垂直轴502上的幅度(以分贝或dB为单位)和在水平轴504上的频率(以赫兹或Hz为单位)的曲线图。

图5A还示出转变(或阈值)频率F_T 506。在一些实施方式中，转变频率F_T 506基于音频装置所在的房间。在一些实施方式中，转变频率FT 506是预定阈值(例如250Hz)。转变频率F_T 506是音频波长与房间的尺寸相当的频率，因此在某些情况下，房间的共振起主导作用。转变频率F_T 506有时称为谐振频率或Schroeder频率，在此频率以下，房间充当共振器。

在一些实施方式中，频率响应508是均衡之前的测得的音频输出响应。在一些实施方式中，使用电子装置上的麦克风(例如，图1A中的麦克风106或图1B中的麦克风122)获得频率响应508。在一些实施方式中，频率响应508对应于音频装置在特定房间或开放空间中的位置。如图5A所示，在某些情况下，频率响应508包括在频率范围内(例如，在0Hz与F_T 506之间)的幅度波动。在某些情况下，波动是音频装置在房间内的定位(例如，靠近房间中的边界和/或对象)和房间的特性(例如，房间中的边界和/或对象的音频反射率)的结果。

图5A还示出目标频率响应510。在一些实施方式中，目标频率响应510是音频装置用户的理想频率响应。在一些实施方式中，目标频率响应510是这样一种频率响应，它是跨频带的最佳频率响应。在一些实施方式中，目标频率响应510表示在没有音频反射、吸收和散射的情况下音频装置的频率响应。因此，在某些情况下，目标频率响应510在频率范围内(例如，在0Hz和FT之间)不表现出幅度的波动。

如图5A所示，在某些情况下，在低于转变频率F_T 506的频率处，目标频率响应510表现出比实际频率响应508更低的幅度。在某些情况下，在高于转变频率F_T 506的频率处，目标频率响应510表现出比实际频率响应508更高的幅度。在一些实施方式中，目标频率响应510在低于转变频率F_T 506的频率范围内具有均匀的幅度。在一些实施方式中，目标频率响应510在高于转变频率F_T 506的频率范围内具有均匀的幅度。在一些实施方式中，目标频率响应510是从校正数据库(例如，校正数据库216)获得的。在一些实施方式中，目标频率响应510是通过例如使用机器学习来分析音频装置的周围环境而获得的。

图5B示出根据一些实施方式的校正后的频率响应518。在一些实施方式中，校正后的频率响应518是均衡校正之后的音频输出响应。在一些实施方式中，频率响应518是在已经应用针对目标频率响应510的校正之后来自音频装置的频率响应。

如图5B所示，在低于转变频率F_T 506的频率范围内，校正后的频率响应518表现出相当均匀的幅度(例如，与频率响应508相比)。在一些实施方式中，(未示出)频率响应518匹配目标频率响应510。在一些实施方式中，频率响应518在低于转变频率F_T 506的频率处匹配目标频率响应510。在一些实施方式中，频率响应518在低于转变频率F_T506的频率处具有与目标频率响应相似的幅度。在一些实施方式中，与在转变频率F_T 506以下相比，频率响应518在转变频率F_T 506以上显示更多的幅度变化(例如，对转变频率F_T 506以下的频率应用更大的校正)。

图5C示出根据一些实施方式的频率响应528。在一些实施方式中，频率响应528是均衡之前所测量的音频输出响应。在一些实施方式中，频率响应528是使用电子装置300的麦克风获得的，其中电子装置300位于房间或开放空间中的位置。在一些实施方式中，频率响应528仅包括在转变频率F_T 506以上的频率范围内的幅度贡献。在一些实施方式中，根据确定频率响应528的幅度贡献仅高于转变频率F_T 506，不对频率响应528应用均衡。

图6A-图6D、图7A-图7E和图8A-图8F示出根据一些实施方式的图3A的电子装置300的定位和操作的示例。为了简化起见，在这些示例中，电子装置300由电子装置100(图1A)表示，但是，在其他实施方式中，电子装置300包括电子装置120(图1B)、电子装置202(图2)和/或其他电子装置。

图6A示出房间600，包括位于桌子602上的电子装置100，其中电子装置100的扬声器102朝上。如图6A所示，电子装置100位于房间600的中心附近(例如，不靠近任何墙壁或天花板)，因此与图7和图8所示的定位相比，反射效果的影响较小。在一些实施方式中，(未示出)房间600包括多个数量和类型的电子装置，它们放置在房间600内的任何位置和/或方位。在一些实施方式中，(未示出)房间600是开放空间的子集。

图6B示出根据一些实施方式的产生音频612的电子装置100的扬声器102。音频波从电子装置100的扬声器传播，包括沿向上(+z)方向616传播的声波614。在某些实施方式中，声音从桌子602反射回来。在某些情况下，因为在电子装置100与房间600的天花板之间的距离大，所以几乎没有声音或没有声音从天花板反射(例如，对于在房间中聆听的人来说，听不到多少)。在某些情况下，声波614到达房间600的天花板并从天花板反射。例如，基于音频的音量，在房间里聆听的人员可能注意到也可能不会注意到从天花板反射的波的音频贡献。在音频贡献显著的情况下，希望音频均衡，以最小化音频中产生的失真。

图6C和6D示出根据一些实施方式声波从多个方向跑出电子装置100。图6C示出图6B的房间600的侧视图，图6D示出房间600的对应平面图。在一些实施方式中，当电子装置100产生音频输出612时，从电子装置100发射音频波，包括图6C所示沿向上(+z)方向616传播的声波614。在一些实施方式中，当电子装置100产生音频输出612时，沿同心的、向外的方向626(在x-y平面中)从电子装置100发射音频波624。

图7A-7C示出根据一些实施方式的图3A的电子装置300的示例定位和操作。图7A示出将电子装置100放置在桌子602上的同一房间600。在图7A中，电子装置100沿着竖直方向，扬声器102朝向沙发并且靠近一个表面(例如，沙发)。在一些实施方式和实例中，每个邻近的表面在低频(例如，低于房间的转变频率的频率)处导致大约3dB的放大，音频均衡试图对其进行校正。图7B示出电子装置100输出音频712。音频波从电子装置100的扬声器102传播，包括沿向左(-x)方向716传播的声波714。在某些情况下，声波714撞击沙发并从沙发反射。在某些情况下，波714撞击房间600中的墙壁和/或其他对象的表面并从这些墙壁和/或对象反射。在某些情况下，音频波从桌子602和/或房间的天花板反射。反射的音频波在音频中产生失真(例如，导致图5A所示的频率响应508)。

图7C示出由于声波714撞击沙发而从沙发反射的声波724。声波724沿向右(+x)方向726传播(例如，沿声波714的相反传播方向)。

图7D和7E分别示出根据一些实施方式的房间600的侧视图和平面图，其中音频712从电子装置100出来。在这些附图所示的示例中，声波从电子装置100发射，包括沿向左(-x)方向传播的声波714。在此示例中，声波714撞击房间的左壁(或y-z平面)，导致反射波724沿向右(+x)的方向726传播(例如，沿声波14的相反传播方向)。在某些情况下，一部分反射波724传播回电子装置100。

图8A-8C示出根据一些实施方式的图3A的电子装置的示例定位和操作。图8A示出将电子装置100放置在桌子602上的房间600。在图8A-8C中，将桌子602定位为靠近房间600的后边缘608，其中后壁604和右壁606相接。电子装置100沿着竖直方向，其扬声器指向边缘608。因此，如图8C所示，扬声器产生的声音与至少两个表面相互作用。在一些实施方式和实例中，两个邻近的表面在低频下导致大约6dB的放大，音频均衡试图对其进行校正。

图8B示出电子装置100产生音频812。音频输出812包括声波814，沿向外方向816同心地朝向后壁604与右壁606之间的边缘608发射。在某些情况下，声波814从后壁604、右壁606和/或边缘608的其中一个或多个反射。

图8C示出反射波844，包括从后壁604反射的声波844-1，从右壁606反射的声波844-3，以及从边缘壁608反射的声波844-2。在某些情况下，音频也从放置电子装置100的桌子602上反射。在某些情况下，声波814撞击房间600中的一个或多个表面和对象，并且从表面和/或对象反射。

图8D-8F是根据一些实施方式的房间600的平面图，示出如图8B所示定位的电子装置100的示例操作顺序。图8D示出电子装置100在房间600中的位置。图8E示出电子装置100输出音频812。在一些实施方式中，所输出的音频812包括沿方向816朝着后壁604与右壁606之间的边缘608传播的声波814。在某些情况下，声波814撞击后壁604、右壁606和边缘608。

图8F示出声波844从后壁604、右壁606和边缘608反射。反射波844-1来自后壁604并沿方向846-1传播。反射波844-3来自右壁606并沿方向846-3传播，反射波844-2来自边缘608并沿方向846-2传播。

在一些实施方式和实例(未示出)中，电子装置300靠近三个表面，从而在低频下导致大约9dB的放大。因此，如图6-图8中的示例所示，每个不同的配置都会影响房间传递功能(这会影响用户的聆听体验)，并且因此，需要自动确定传递函数并对其进行校正。

图9A-图9H示出根据一些实施方式在房间600中的各个位置图3A所示电子装置300的示例响应。图9A示出电子装置300在房间600中的位置A。图9B示出将频率校正FV(A)应用于电子装置300。

在一些实施方式中，基于位置A的电子装置300的频率响应来确定频率校正FV(A)。在一些实施方式中，频率响应对应于在位置A时装置300所产生的音频。在一些实施方式中，音频输出响应于用户提示(例如，用户经由用户界面与电子装置300交互或者按下使得能够播放音频的按钮或者通过语音激活命令)。在一些实施方式中，将电子装置300配置为自动输出音频(例如，在一天中的某个时间)。在一些实施方式中，从电子装置300上本地可用的校正数据库(例如，图3A中的校正数据库352)和/或从服务器系统206(例如，图2和图4A中的校正数据库216)获得频率校正FV(A)。

图9C-图9H示出对电子装置300从房间A中的位置A移动到位置B的响应。图9C示出电子装置300从位置A移动到位置B。图9D示出根据一些实施方式，由于从位置A到位置B的改变，电子装置300的第一响应。在图9D的示例中，电子装置300识别出它已经移动到位置B，并且因此应用与位置B相对应的频率校正FV(B)。在一些实施方式中，频率校正FV(B)来自在电子装置上本地可用的校正数据库(例如，校正数据库352)和/或来自服务器系统(例如，校正数据库216)。在一些实施方式中，电子装置300确定它已经移动到位置B(例如，经由一个或多个传感器330)，并应用与位置B相对应的存储的校正。例如，电子装置300先前已经放置在位置B并存储了对应的更正。

图9E和图9F示出根据一些实施方式作为从位置A到位置B的改变的结果的电子装置300的第二响应。在图9E-图9F的示例中，电子装置300在移动到位置B之后最初保留频率校正FV(A)。然后，电子装置300继续获得并应用与位置B相对应的频率校正FV(B)。在一些实施方式中，电子装置300连续或间歇地确定频率响应并相应更新频率校正。例如，电子装置300每两分钟确定频率响应，并从校正数据库352中检索对应的频率校正。作为另一个示例，电子装置300每两分钟确定频率响应，将频率响应与先前的频率响应进行比较，如果不同，则获得新的频率校正。在一些实施方式中，电子装置300根据预定条件获得频率校正(例如，电子装置不断监视其位置，并在确定它经过一定时间段仍保持在恒定位置之后继续应用频率校正)。

图9G和图9H示出根据一些实施方式作为从位置A到位置B的改变的结果的电子装置300的第三响应。在图9G-图9H的示例中，电子装置300识别出它已经从位置A移动，并停止应用与位置A的均衡相对应的频率校正FV(A)。在该示例中，电子装置300在位置B上输出音频而不应用校正，直到它获得并应用频率校正FV(B)。

在一些实施方式中，在移动期间/之后的频率校正的应用是基于用户装置设置(例如，装置设置3502)。例如，John喜欢在客厅放松或在厨房做饭时播放他音频装置中的音乐。因此，他经常将装置放在两个特定位置：放在客厅的咖啡桌上，以及放在厨房的工作台上。为了方便起见，将这些位置(“客厅”和“厨房”)与其对应的频率校正一起保存为优选设置。

因此，当John在客厅中时，装置例如响应于John通知该装置它在咖啡桌上的位置(例如，经由输入装置312)，或者响应于装置确定它在咖啡桌上的位置(例如，经由GPS)，获得并应用对咖啡桌位置的校正。

稍后，是John做饭的时间。像往常一样，他将音频装置随身带进厨房并放在工作台上。装置例如响应于John通知装置其位置(例如，经由输入装置312)，响应于装置确定其位置(例如，经由GPS)，响应其他事件(例如，音频播放开始、装置加电)或在连续的基础上获得并应用对工作台位置的校正，因此，装置能够在优选位置快速应用频率校正，从而为John提供最佳的聆听体验。

图10是根据一些实施方式用于利用单个电子装置300进行自动音频输出均衡的方法1000的流程图表示。

在一些实施方式中，方法1000的操作由以下进行：(1)一个或多个电子装置300；(2)一个或多个服务器系统，例如服务器系统206；或(3)其组合。在一些实施方式中，方法1000由存储在非暂时性计算机可读存储介质中并由装置/计算系统的一个或多个处理器例如电子装置的一个或多个处理器302和/或服务器系统206的一个或多个处理器402执行的指令支配。为方便起见，将下面详细描述的特定操作描述为通过特定装置或服务器进行。

电子装置300输出(1002)音频。在一些实施方式中，电子装置300经由一个或多个扬声器(例如，图1A中的扬声器102和/或扬声器104)输出音频。在一些实施方式中，输出的音频包括用户所选择的音频内容(例如，音乐)。在一些实施方式中，输出的音频包括测试信号和/或训练音频。在一些实施方式中，测试信号和/或训练音频包括蜂鸣、扫频、粉红噪声和/或来自多个音乐流派的音乐的组合。

在一些实施方式中，电子装置300接收(1004)其输出的音频。在一些实施方式中，经由电子装置300上的一个或多个麦克风(例如，图1B中的麦克风122)接收所输出的音频。在一些实施方式中，在预定时间段内(例如，0.5秒、1秒、2秒等)接收所输出的音频内容。在一些实施方式中，经由与电子装置300不同的一个或多个麦克风(例如，作为电子装置的麦克风的补充或替代)接收所输出的音频。

在一些实施方式中，根据所输出的音频的接收，电子装置300获得(1006)特征向量。在一些实施方式中，获得特征向量包括确定电子装置300的所接收的音频的相位、相位差和/或频率(例如，经由图3A中的音频分析子模块3461)。在一些实施方式中，基于在电子装置300的不同麦克风接收的输出音频中的相位差来生成特征向量。在一些实施方式中，获得特征向量包括确定电子装置300的频率响应(例如，经由图3A中的传递函数子模块3463)。在一些实施方式中，获得特征向量包括分析所接收的音频的信噪比和/或为各个相位差分配不同的权重(例如，经由图3A中的加权子模块3464)。在一些实施方式中，电子装置300将所接收的音频数据发送给服务器系统206，且服务器系统206生成特征向量。

在一些实施方式中，在获得特征向量之后，电子装置300将所获得的特征向量传输给服务器系统206(例如，经由无线电320和/或无线电通信模块336)，且服务器系统206接收(1008)来自电子装置300的特征向量(例如，经由网络接口404和/或前端212)。在一些实施方式中，服务器系统206还接收包括频率响应、相位差和/或关于电子装置300的位置信息的信息。

在一些实施方式中，服务器系统206基于所接收的特征向量获得(1010)校正(例如，经由均衡模块214)。在一些实施方式中，服务器系统206使用位于服务器系统206的校正数据库(例如，图2中的校正数据库216)来生成校正。在一些实施方式中，生成校正包括使用机器学习方法来找到特征向量的最佳匹配(例如，经由图2中的机器学习数据库218)。

在一些实施方式中，电子装置300基于所接收的特征向量获得校正(例如，经由均衡模块346)。在一些实施方式中，电子装置300使用存储在电子装置300上的校正数据库(例如，图3A和图3B中的校正数据库352)来生成校正，从而省略在图10中的服务器系统206进行的所示操作。在一些实施方式中，生成校正包括使用机器学习方法来找到特征向量的最佳匹配(例如，经由图3A中的机器学习数据库354)。

在一些实施方式中，在服务器系统206生成用于电子装置300的校正之后，服务器系统206将所生成的校正发送给(1012)电子装置(例如，经由图2中的前端服务器212)。电子装置300(例如，经由无线电通信模块336)从服务器系统206接收(1014)校正。

电子装置300对电子装置300输出的音频应用校正(1016)，从而实现音频均衡(例如，经由图3A中的校正子模块3462)。在一些实施方式中，自动应用校正而无需用户输入。在一些实施方式中，用户接收提示(例如，在电子装置的UI上显示的短消息服务(SMS)消息或电子邮件)，并继续授权装置应用校正。

在一些实例和实施方式中，在服务器系统206从电子装置300接收特征向量之后，服务器系统206根据确定所输出的音频不满足一个或多个预定条件(例如，信噪比、超过转变频率的音频频率等)，放弃生成校正并发送给电子装置300。因此，没有均衡应用于电子装置300。

在一些实施方式中，电子装置300连续或间歇地获取它所输出的音频的特征向量，并将特征向量发送给服务器系统206。在一些实施方式中，电子装置300在应用校正之后放弃获得特征向量，直到装置确定其定位已经改变。

图11是用于利用多个电子装置进行自动音频输出均衡的方法1100的流程图表示。在图11的示例中，根据一些实施方式，多个电子装置包括电子装置1192(例如，图1B的装置120)、电子装置1194(例如，图1A的装置100)和电子装置1196(例如，图2的装置202)。在一些实施方式中，电子装置位于房间内的不同位置。在一些实施方式中，图11的示例中示出多于或少于三个装置的多个电子装置。

在一些实施方式中，电子装置1192输出(1102)音频。在一些实施方式中，电子装置1192经由一个或多个扬声器(例如，图1B中的扬声器126)输出音频。在一些实施方式中，输出的音频包括用户所选择的内容(例如，音乐)。在一些实施方式中，输出的音频包括测试信号和/或训练音频。在一些实施方式中，测试信号和/或训练音频包括蜂鸣、扫频、粉红噪声和/或来自多个音乐流派的音乐的组合。

在一些实施方式中，从电子装置1192输出的音频被其他电子装置接收，包括接收(1104)所输出的音频的电子装置1194和接收(1106)所输出的音频的电子装置1196。在一些实施方式中，所输出的音频被电子装置1194(例如，麦克风106)和电子装置1196(例如，图3A中的麦克风314)之中或之上的各个麦克风接收。在一些实施方式中，电子装置1194和电子装置1196位于房间的不同位置，并且它们各自的麦克风用于捕捉电子装置1192输出的音频的声学响应。在一些实施方式中，电子装置1194和电子装置1196在相应的预定时间段(例如0.5秒、1秒、2秒等)内接收所输出的音频内容。

在一些实施方式中，电子装置1194和电子装置1196各自获得(1108、1110)与所接收的音频相对应的特征向量。在一些实施方式中，在每个电子装置获得相应的特征向量包括确定(例如，使用图3A中的音频分析子模块3461)经由每个电子装置的麦克风所接收的音频的相应相位、相位差和/或频率。在一些实施方式中，基于在电子装置1194、1196的各个麦克风接收的音频的集合来生成单个特征向量。例如，每个电子装置1194、1196将音频数据发送给单个目的地装置(例如，服务器系统206)，且目的地装置生成对应的特征向量。在一些实施方式中，目的地装置获得电子装置1194、1196的相对定位信息，并基于音频数据和相对定位信息生成特征向量。

在一些实施方式中，电子装置1194和电子装置1196分别将各自获得的特征向量传输给服务器系统206。服务器系统206从电子装置1194和电子装置1196接收(1112)各自生成的特征向量(例如，经由前端212)。在一些实施方式中，服务器系统206还接收包括电子装置1194、1196的相应频率响应、相位差和/或定位信息的音频信息。

服务器系统206使用所获得的特征向量获得(1114)对电子装置1192的校正。在一些实施方式中，服务器系统206使用位于服务器系统206上的校正数据库(例如，图2中的校正数据库216)来生成校正。在一些实施方式中，生成校正包括使用机器学习方法来找到特征向量的最佳匹配(例如，经由图2中的机器学习数据库218)。在一些实施方式中，服务器系统206查询校正数据库(例如，校正数据库216)并接收与所获得的特征向量相对应的校正。在一些实施方式中，服务器系统206为各个特征向量或特征向量的分量分配不同的权重。在一些实施方式中，服务器系统206基于确定特征向量满足一个或多个预定条件(例如，只包括转变频率以上的频率和/或具有超过特定阈值的信噪比)，放弃生成校正。

在一些实施方式中，电子装置1192从电子装置1194、1196接收特征向量。在一些实施方式中，电子装置1192基于所获得的特征向量获得校正(例如，使用校正数据库352和/或机器学习数据库354)。

在一些实施方式中，服务器系统206在获得校正之后，将校正发送给(1116)电子装置1192。电子装置1192接收(1118)服务器系统206所发送的校正。然后，电子装置1192应用(1120)校正，以实现音频均衡。在一些实施方式中，自动应用校正且无需用户输入(例如，经由图3A中的均衡模块346)。

根据这些原理，下面讨论某些实施方式。

机器学习技术

在某些情况下，采用机器学习来自动均衡音频装置的音频输出(例如，电子装置300的音频输出)。利用机器学习技术，使得系统能够合并来自多个不同麦克风装置的音频数据。例如，如先前关于图11所讨论的，第一客户端装置输出用户音频内容，然后在靠近第一客户端装置的其他客户端装置接收音频内容。在该示例中，基于所接收到的音频内容生成传递函数，并将传递函数输入神经网络中，以获得频率校正。在一些实例中，本示例中神经网络的使用使得系统能够获得与从其他实施方式(例如，从预先建立的校正数据库)获得频率校正相比更精确的频率校正。

图12是示出根据一些实施方式通过利用神经网络1206的机器学习进行频率校正过程的方框图。在一些实施方式中，其中一个电子装置(例如300-1)输出音频，且每个电子装置300(例如使用相应的麦克风314)接收所输出的音频。在一些实施方式中，(未示出)输出音频的电子装置本身不接收/分析音频。在一些实施方式中，如图所示，每个电子装置300使用其各自的传递函数子模块3463基于所接收的音频输出来确定其各自的音频传递函数1212。在一些实施方式中，(未示出)每个电子装置300将与所接收的音频输出相对应的音频数据发送给服务器系统(例如，服务器系统206)，且服务器系统例如使用传递函数子模块4243来生成传递函数1212。

在一些实施方式中，将聚合1204(例如级联)应用于传递函数1212，以获得房间传递函数1214。在一些实施方式中，聚合1204包括将相应的权重分配给传递函数1212。在一些实施方式中，将房间传递函数1214输入神经网络1206中，神经网络1206输出对应的房间频率校正1216。在一些实施方式中，神经网络1206包括机器学习数据库354的神经网络数据3541。在一些实施方式中，神经网络1206包括机器学习数据库218的神经网络数据4401。

在一些实施方式中，用位置信息(例如，特征向量)以及与电子装置300的位置和/或方位(例如，图4B中的定位信息4402)相对应的传递函数来更新神经网络。在一些实施方式中，房间频率校正1216与对应的定位信息(例如，作为校正数据4403)相关联。

根据一些实施方式，在具有一个或多个扬声器(例如，扬声器(一个或多个)324)、多个麦克风(例如，麦克风314)、一个或多个处理器、和存储器的计算系统(例如，电子装置300)处执行用于均衡音频输出的方法。所述方法包括：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容(例如，经由音频输出模块338)；以及(2)自动且无需用户输入地均衡(例如，经由均衡模块346)计算系统的音频输出，所述均衡包括：(a)在多个麦克风的每个麦克风接收所输出的音频内容；(b)基于所接收的音频内容，确定房间的声学传递函数(例如，阻抗)(例如，经由音频分析子模块3461)；(c)基于所确定的声学传递函数，获得房间的频率响应(例如，分贝增益)(例如，经由音频分析子模块3461)；(d)基于所确定的频率响应调整扬声器的一个或多个属性(例如，经由校正子模块3462)。在一些实施方式中，独立于任何特定用户请求来进行均衡。在一些实施方式中，在不需要用户任何动作的情况下进行均衡。在一些实施方式中，计算系统基于声纳、雷达或经由高频映射来确定其在房间内的位置(及其麦克风的位置)。例如，图7B示出电子装置100提供音频712，图7C示出电子装置接收反射的音频724。在一些实施方式中，装置100基于所接收的音频生成传递函数。在这些实施方式中，装置100然后将传递函数输入神经网络，并基于传递函数获得频率校正。在一些实施方式中，装置100然后将频率校正应用于后续音频输出，从而均衡后续音频输出，如图5A和图5B所示。

在一些实施方式中，通过利用一种或多种机器学习技术来确定声学传递函数。在一些实施方式中，机器学习技术包括利用深度神经网络。在一些实施方式中，机器学习包括监督训练和/或强化训练。在一些实施方式中，在计算系统执行机器学习(例如，结合机器学习数据库354使用校正子模块3462)。在一些实施方式中，在远程服务器系统(例如，服务器系统206)进行机器学习。

在一些实施方式中，所述方法还包括将所确定的声学传递函数发送给远程服务器系统(例如，服务器系统206)；以及响应于发送所确定的声学传递函数，从远程服务器系统接收频率响应。

在一些实施方式中，一个或多个调整后的属性包括频率属性和/或相位属性。在一些实施方式中，调整一个或多个属性包括针对特定频率调整增益。

在一些实施方式中，所述方法还包括：在确定声学传递函数之前，确定用户内容包括频率低于房间的转变频率的音频(例如，经由音频分析子模块3461)。在一些实施方式中，根据确定用户内容不包括低于转变频率的音频分量，计算系统放弃确定声学传递函数。在一些实施方式中，所述方法还包括确定用户内容包括频率低于阈值频率(例如，低于250Hz、300Hz或350Hz)的音频。

在一些实施方式中：(1)一个或多个扬声器包括多个扬声器；(2)所述方法还包括确定多个扬声器的相对定位；以及(3)进一步基于多个扬声器的相对位置来调整扬声器的一个或多个属性。

在一些实施方式中，所述方法还包括确定计算系统是否以单声道模式进行操作。在一些实施方式中，确定计算系统是否以立体声模式、环绕声模式、5.1模式等进行操作。在一些实施方式中，调整扬声器的一个或多个属性还基于计算系统的操作模式。

在一些实施方式中，多个麦克风包括多个不同装置上的麦克风。在一些实施方式中，多个麦克风以及一个或多个扬声器位于同一装置内。

在一些实施方式中，确定声学传递函数包括确定一个或多个扬声器是否靠近房间的一个或多个边界。在一些实施方式和实例中，每个邻近边界在低频下导致大约3dB的增加。在一些实施方式中，低频包括50Hz至500Hz范围内的频率。在一些实施方式中，低频是低于房间的转变频率的频率。在一些实施方式中，低频对应于低音频率。

在一些实施方式中，在输出音频用户内容的同时连续进行均衡。在一些实施方式中，在输出音频用户内容的同时周期性地进行均衡。在一些实施方式中，在输出音频用户内容的同时间歇地进行均衡。

在一些实施方式中：(1)所述方法还包括确定多个麦克风的相对位置；以及(2)基于多个麦克风的相对位置例如结合麦克风之间接收的音频中的相位差)来确定声学传递函数。

在一些实施方式中，所述方法还包括经由一个或多个相机确定房间中多个麦克风的每个麦克风的相应位置；且房间的声学传递函数是基于所述相应位置。

根据一些实施方式，一种方法包括：(1)对于多个房间内多个位置的每个位置，通过以下步骤来生成音频均衡神经网络：(a)将音频系统放置在所述位置，所述音频系统具有多个麦克风以及一个或多个扬声器；(b)经由一个或多个扬声器输出一个或多个音频信号；(c)通过在多个麦克风的每个麦克风接收所输出的一个或多个音频信号来获得音频信号的集合；(d)基于音频信号的集合获得所述位置的特征向量；以及(e)将对应于特征向量的一个或多个节点添加到神经网络；以及(2)训练均衡神经网络。

在一些实施方式中，训练均衡神经网络包括监督训练和/或强化训练。在一些实施方式中，训练均衡神经网络包括训练均衡神经网络，以针对一个或多个扬声器附近的一个或多个边界生成补偿函数。在一些实施方式中，一个或多个边界包括系统所在的一个或多个表面。

根据一些实施方式，一种计算系统(例如，电子装置300)包括：(1)一个或多个处理器(例如，处理器302)；(2)耦合到一个或多个处理器的存储器(例如，存储器306)，所述存储器存储被配置为要由一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行上述任何操作或方法的指令。

根据一些实施方式，非暂时性计算机可读存储介质(例如，存储器306内的存储介质)存储一个或多个程序，所述一个或多个程序包括指令，在通过计算系统执行时，所述指令导致系统执行上述任何操作或方法。

校正数据库

在某些情况下，采用本地校正数据库来自动均衡音频装置的音频输出(例如，电子装置300的音频输出)。利用本地数据库使得装置能够在不需要可通信地耦合到任何其他装置的情况下进行均衡。因此，即使不在任何通信网络的范围内，用户也可以享受经过均衡的音频内容。例如，如先前相对于图10所讨论的，装置输出用户音频内容，然后装置的麦克风接收音频内容。在本示例中，基于所接收的音频内容生成特征向量，并查询校正数据库(例如，存储于装置的校正数据库)以获得频率校正。在一些实例中，在本示例中使用本地数据库使得装置能够相比于从其他实施方式(例如，从远程神经网络)更快地获得频率校正。

图13是示出根据一些实施方式在电子装置300的均衡模块346执行音频信号处理的方框图。在一些实施方式中，电子装置300包括麦克风314(例如314-1至314-4)和扬声器324。扬声器324产生音频，而麦克风314接收所输出的音频。

在一些实施方式中，基于麦克风314-2和麦克风314-4接收的音频，电子装置300应用相位差操作1302来确定在麦克风314-2和麦克风314-4接收的音频之间的相位差1312-1(例如，使用音频分析子模块3461)。在一些实施方式中，在快速傅立叶变换(FFT)操作1304中使用相位差1312-1以生成FFT输出1314-1(例如，使用音频分析子模块3461)。

在一些实施方式中，向FFT输出1314-1分配权重1306-1。在一些实施方式中，基于以下因素，例如包括相对麦克风位置、相位差和/或信噪比，通过加权子模块3464来分配权重1306-1。在一些实施方式中，权重1306-1是一个值(例如，整数)，并将FFT输出1314-1乘以所述值，以获得与麦克风对314-2、314-4相对应的特征向量FV₁ 1316-1。在一些实施方式中，在FFT操作1304之前将权重1306-1分配给相位差1312-1。

在一些实施方式中，电子装置300包括两个或更多个的麦克风，并且因此，对多对麦克风进行图13所示的音频信号处理，以获得多个对应的特征向量1316。例如，装置300是图1A中的电子装置100，其包括麦克风106-1至106-6。在本示例中，针对多个麦克风对例如针对麦克风对106-1和106-2、106-1和106-3、106-4和106-5、106-4和106-6获得相应的特征向量1316。在一些实施方式中，通过聚合(例如级联)特征向量1316(例如，通过级联1316-1到1316-N)来获得音频输出的特征向量。虽然图13示出均衡模块346，但是在某些实施方式中，特征向量1316-1是在均衡模块214获得的。

图14A示出根据一些实施方式的电子装置300处的示例校正数据库352。在一些实施方式中，校正数据库352包括具有用于特征向量1404和校正1406的列的表。例如，如图14A所示，特征向量1404-1具有对应的校正1406-1。

在一些实施方式中，每个特征向量1404是与麦克风的各个对相对应的特征向量的权重级联。在一些实施方式中，(如图所示)特征向量1404-1由α₁₁FV₁₁+α₁₂FV₁₂+…+α_1NFV_1N表示，其中α_ij是分配给对应特征向量FV_ij的权重。在一些实施方式中，特征向量FV_ij是对应于麦克风对j(例如，314-2和314-4)的特征向量。在一些实施方式中，将不同的权重α_ij分配给不同的麦克风对(例如，分配给前后麦克风对的权重比分配给左右麦克风对的权重高)和/或不同的频率范围(多个)(例如，分配给频率范围100-200Hz的权重比分配给频率范围3100-3200Hz的权重高)。在一些实施方式中，基于麦克风对接收的音频(例如，信噪比)，将不同的权重α_ij分配给不同的麦克风对。在一些实施方式中，特征向量FV₁₁是图13中的特征向量FV₁ 1316-1。在一些实施方式中，使用在均衡模块346执行的音频信号处理来获得1404-1中的特征向量FV₁₁至FV_1N中的每个特征向量，如图13所示。

图14B示出根据一些实施方式的代表性特征向量FV₁₁ 1414-1的结构。如图14B中所示，根据一些实施方式，特征向量FV₁₁包括在不同频率(例如由下标f1、f2和fn等表示)处的相位差(例如，由Δφ表示)的函数。

在一些实施方式中，如图14A所示，校正1406-1包括针对多个音频频带的每个频带的校正系数。在一些实施方式中，(如图所示)校正1406-1表示为[C₁₁(f_0-10),C₁₂(f_11-30),…,C_1X(f_M-N)]，其中C₁₁，C₁₂和C_1x是分别对应于频带(f_0-10)，(f_11-30)和(f_M-N)的校正系数，且其中(f_0-10)表示0-10Hz的频带，(f_11-30)表示11-30Hz的频带，(f_M-N)表示M-N Hz的频带。在一些实施方式中，校正1406-1仅包含低于转变频率的频率(例如，图5A中的转变频率F_T 506)，并且因此不对高于转变频率F_T 506的频率应用校正。

在一些实施方式中，为了均衡装置的音频输出，生成特征向量，然后将其与校正数据库352中的特征向量1404进行比较(例如，确定哪个特征向量1404与生成的特征向量最相似))以获得对应的校正1406。在一些实施方式中，比较包括应用k最近邻居算法。在一些实施方式中，比较包括确定所生成的特征向量与每个特征向量1404之间的欧几里得距离。在一些实施方式中，比较包括进行最小均方(LMS)运算。虽然图14A示出校正数据库352，但是在一些实施方式中，特征向量1404和校正1406存储在校正数据库216中。

根据一些实施方式，在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的电子装置(例如，电子装置300)处进行用于均衡音频输出的方法。在一些实施方式中，所述方法包括：(1)从位于房间中的所述一个或多个扬声器(例如，扬声器324)输出音频用户内容；(2)自动且无需用户输入地均衡电子装置的音频输出(例如，经由均衡模块346)，所述均衡包括：(a)获得音频内容信号的集合(例如，经由麦克风模块340))，包括在多个麦克风的每个麦克风接收所输出的音频内容；(b)根据音频内容信号的集合确定多个麦克风的麦克风之间的多个相位差(例如，传递函数)(例如，经由音频分析子模块3461)；(c)基于多个相位差获得特征向量(例如，经由音频分析子模块3461)；(d)基于所获得的特征向量(例如，经由校正子模块3462)从校正数据库(例如，校正数据库352)获得频率校正(例如，频率校正曲线)；以及(e)将所获得的频率校正应用于后续音频输出(例如，经由音频输出模块338)。在一些实施方式中，应用所获得的频率校正包括针对特定频率范围调整(降低)增益。

在一些实施方式中，电子装置300在没有来自外部或远程装置的输入的情况下进行操作(1)和(2)。因此，使得电子装置300能够在不可通信地耦合到任何其他装置的同时进行音频均衡。

在一些实施方式中，所述方法还包括在一个或多个麦克风确定所输出的音频内容与所接收的音频内容之间的一个或多个相位差(例如，经由音频分析子模块3461)。在一些实施方式中，将麦克风定位为相互之间是近场。

在一些实施方式中，将校正数据库存储在电子装置处(例如，校正数据库352)。在一些实施方式中，校正数据库包括多个特征向量(例如，频率响应3526)，每个特征向量具有对应的频率校正(例如，频率校正3527)。在一些实施方式中，多个特征向量的每个特征向量对应于房间内电子装置的特定定位。

在一些实施方式中，所述方法还包括：(1)将扬声器装置(例如，电子装置100)定位在结构内的特定位置；(2)经由扬声器装置输出训练音频；(3)在两个或更多个麦克风处接收所输出的训练音频；(4)基于所输出的训练音频生成参考特征向量和参考频率校正(例如，经由音频分析子模块3461)；以及(5)将参考特征向量和参考频率校正添加到校正数据库(例如，校正数据库352)。在一些实施方式中，训练音频(例如，训练音频3524)包括粉红噪声和/或来自多个音乐流派的音乐的组合。在一些实施方式中，生成参考频率校正包括将ABC方法应用于参考特征向量。

在一些实施方式中，从校正数据库获得频率校正包括：(1)基于与获得的特征向量的比较来识别多个特征向量的第一特征向量；以及(2)选择与第一特征向量相对应的频率校正。在一些实施方式中，比较包括对多个特征向量进行最小均方(LMS)运算。在一些实施方式中，比较包括确定特征向量之间的欧几里得距离。在一些实施方式中，比较包括应用k最近邻居算法。在一些实施方式中，比较包括识别多个特征向量中与所获得的特征向量最相似的特征向量。

在一些实施方式中，均衡后续音频输出包括均衡后续音频输出的频带(例如，50Hz–300Hz的频带)。在一些实施方式中：(1)频带由多个子频带组成；以及(2)确定多个相位差包括：对于多个麦克风的第一麦克风和第二麦克风，对于多个子频带的每个子频带，确定第一与第二麦克风之间的对应相位差；以及(3)至少部分地通过级联多个相位差的预定函数来构成特征向量。

在一些实施方式中，确定多个相位差包括：(1)从多个麦克风中指定多个麦克风对；以及(2)针对多个麦克风对的每个麦克风对，确定在麦克风对的每个麦克风接收的音频内容之间的相位差例如传递函数)。在一些实施方式中，获得特征向量包括对多个相位差应用快速傅立叶变换(FFT)。

在一些实施方式中，在每个麦克风接收输出的音频内容包括在预定时间段内接收输出的音频内容。在一些实施方式中，预定时间段是0.5秒、1秒、2秒等。

在一些实施方式中，所述方法还包括：(1)向多个相位差分配多个权重(例如，权重3523)，从而能够向多个相位差的每个相位差分配对应的权重；以及(2)特征向量基于权重的多个相位差。在一些实施方式中，多个权重是基于在每个麦克风接收的音频内容的信噪比。在一些实施方式中，多个权重是基于多个麦克风的相对位置。例如，与其他布置中的麦克风相比，向被布置为增加在麦克风接收的输出音频中的相对相位差的麦克风分配更高的权重。

在一些实施方式中，所述方法还包括在获得特征向量之前，确定所输出的音频内容包括频率具有低于房间的转变频率的音频。在一些实施方式中，所述方法还包括在获得特征向量之前，确定所输出的音频内容包括50-500Hz范围内的音频内容。在一些实施方式中，所述方法还包括在获得特征向量之前，确定所输出的音频内容包括低音频率。在一些实施方式中，所述方法包括：(1)确定所输出的音频内容不包括频率低于转变频率的音频；以及(2)放弃获得特征向量。

在一些实施方式中，在获得特征向量之前，所述方法还包括确定(例如，音频分析子模块3461)所输出的音频内容具有满足特定频率范围(例如，从50Hz到500Hz的范围)的一个或多个能量判据的声能。在一些实施方式中，根据确定所输出的音频内容不具有满足一个或多个能量判据的声能，所述方法包括放弃获得特征向量。

在一些实施方式中，在获得特征向量之前，所述方法包括确定(例如，音频分析子模块3461)所输出的音频内容具有满足一个或一个以上信噪判据的音频相干性。在一些实施方式中，根据确定所输出的音频内容不具有满足一个或多个判据的相干性，所述方法包括放弃获得特征向量。

根据一些实施方式，一种生成校正数据库(例如，校正数据库352)的方法包括：(1)对于多个房间内多个位置的每个位置：(a)将扬声器装置(例如，电子装置100)定位在所述位置；(b)经由扬声器装置输出训练音频(例如，经由扬声器102和/或扬声器104输出训练音频)；(c)在两个或更多个麦克风(例如，麦克风106)接收所输出的训练音频；(d)基于所输出的训练音频生成参考特征向量和参考频率校正(例如，利用传递函数子模块3463和校正子模块3462)；(e)将参考特征向量和参考频率校正添加到校正数据库。

根据一些实施方式，一种计算系统(例如，电子装置300)包括：一个或多个处理器；以及耦合到所述一个或多个处理器的存储器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行任一项上述方法和/或操作的指令。

根据一些实施方式，一种非暂时性计算机可读存储介质(例如，在存储器306内)存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算系统执行时导致所述系统执行任一项上述方法和/或操作。

条款1.一种用于均衡音频输出的方法，包括：在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的计算系统上：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述计算系统的音频输出，所述均衡包括：(A)在所述多个麦克风的每个麦克风接收所输出的音频内容；(B)基于所接收的音频内容确定所述房间的声学传递函数；(C)基于所确定的声学传递函数获得所述房间的频率响应；以及(D)基于所确定的频率响应调整所述扬声器的一个或多个属性。

条款2.根据条款1所述的方法，还包括：将所确定的声学传递函数发送给远程服务器系统；以及其中，获得所述频率响应包括响应于发送所确定的声学传递函数从所述远程服务器系统接收所述频率响应。

条款3.根据条款1或条款2所述的方法，其中，所述一个或多个属性包括频率属性和/或相位属性。

条款4.根据条款1至3任一项所述的方法，还包括：在确定所述声学传递函数之前，确定所述用户内容包括频率低于所述房间的转变频率的音频。

条款5.根据条款1至4任一项所述的方法，其中，所述一个或多个扬声器包括多个扬声器；所述方法还包括确定所述多个扬声器的相对位置；以及其中，调整所述扬声器的一个或多个属性还基于所述多个扬声器的相对位置。

条款6.根据条款1至5任一项所述的方法，还包括确定所述计算系统是否以单声道模式操作。

条款7.根据条款1至6任一项所述的方法，其中，所述多个麦克风包括在多个不同装置上的麦克风。

条款8.根据条款1至6任一项所述的方法，其中，所述多个麦克风和所述一个或多个扬声器位于同一装置内。

条款9.根据条款1至8任一项所述的方法，其中，确定所述声学传递函数包括确定所述一个或多个扬声器是否靠近所述房间的一个或多个边界。

条款10.根据条款1至9任一项所述的方法，其中，确定所述房间的声学传递函数包括通过利用一种或多种机器学习技术来确定所述声学传递函数。

条款11.根据条款10所述的方法，其中，在所述计算系统执行所述机器学习。

条款12.根据条款1至11任一项所述的方法，其中，在输出所述音频用户内容的同时，连续地进行所述均衡。

条款13.根据条款1至12任一项所述的方法，还包括确定所述多个麦克风的相对位置；其中，确定所述声学传递函数包括基于所述多个麦克风的相对位置来确定所述声学传递函数。

条款14.根据条款1至13任一项所述的方法，还包括经由一个或多个相机确定所述多个麦克风的每个麦克风在所述房间中的相应位置；以及其中，所述房间的声学传递函数是基于所述相应位置。

条款15.一种方法，包括：(1)针对多个房间内多个位置的每个位置，通过以下步骤生成音频均衡神经网络：(A)将音频系统定位在所述位置，所述音频系统具有多个麦克风和一个或多个扬声器；(B)经由所述一个或多个扬声器输出一个或多个音频信号；(C)通过在所述多个麦克风的每个麦克风接收所输出的一个或多个音频信号来获得音频信号的集合；(D)基于所述音频信号的集合，获得所述位置的特征向量；以及(E)将对应于所述特征向量的一个或多个节点添加到神经网络；以及(2)训练所述均衡神经网络。

条款16.根据条款15所述的方法，其中，训练所述均衡神经网络包括监督训练和/或强化训练。

条款17.根据条款15或条款16所述的方法，其中，训练所述均衡神经网络包括训练所述均衡神经网络以生成用于一个或多个扬声器附近的一个或多个边界的补偿函数。

条款18.一种计算系统，包括：一个或多个处理器；以及存储器，所述存储器耦合到所述一个或多个处理器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行条款1至17任一项所述的方法的指令。

条款19.一种计算机可读存储介质，用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算系统执行时使得所述系统执行条款1至17任一项所述的方法。

条款20.一种用于均衡音频输出的方法，包括在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的电子装置上：(1)从位于房间中的所述一个或多个扬声器输出音频用户内容；以及(2)自动且无需用户输入地均衡所述电子装置的音频输出，所述均衡包括：(A)获得音频内容信号的集合，包括在多个麦克风的每个麦克风接收所输出的音频内容；(B)根据音频内容信号的集合确定多个麦克风的麦克风之间的多个相位差；(C)基于多个相位差获得特征向量；(D)基于所获得的特征向量，根据校正数据库获得频率校正；以及(E)将所获得的频率校正应用于后续音频输出。

条款21.根据条款20所述的方法，其中，均衡后续音频输出包括均衡后续音频输出的频带。

条款22.根据条款21所述的方法，其中，所述频带由多个子带组成；并且其中，对于多个麦克风的第一和第二麦克风，确定多个相位差包括：(1)对于多个子频带中的每个子频带，确定第一与第二麦克风之间的对应相位差；以及(2)其中，至少部分地通过级联多个相位差的预定函数来构成所述特征向量。

条款23.根据条款20至22任一项所述的方法，其中，获得所述特征向量包括对所述多个相位差应用快速傅立叶变换(FFT)。

条款24.根据条款20至23任一项所述的方法，其中，所述校正数据库存储在所述电子装置处。

条款25.根据条款20至24任一项所述的方法，其中，在每个麦克风接收所输出的音频内容包括在预定时间段内接收所输出的音频内容。

条款26.根据条款20至25任一项所述的方法，还包括：(1)将扬声器装置定位在结构内的特定位置；(2)经由扬声器装置输出训练音频；(3)在两个或更多个麦克风接收所输出的训练音频；(4)基于所输出的训练音频生成参考特征向量和参考频率校正；以及(5)将参考特征向量和参考频率校正添加到校正数据库。

条款27.根据条款20至26任一项所述的方法，其中，所述校正数据库包括多个特征向量，每个特征向量具有对应的频率校正。

条款28.根据条款20至27任一项所述的方法，其中，从所述校正数据库获得所述频率校正包括：(1)基于与所获得的特征向量的比较，识别所述多个特征向量的第一特征向量；以及(2)选择对应于所述第一特征向量的频率校正。

条款29.根据条款20至28任一项所述的方法，其中，确定所述多个相位差包括：(1)从所述多个麦克风中指定多个麦克风对；以及(2)对于所述多个麦克风对中的每个麦克风对，确定在所述麦克风对中的每个麦克风所接收的音频内容之间的相位差。

条款30.根据条款20至29任一项所述的方法，还包括：向所述多个相位差分配多个权重，使得多个相位差的每个相位差分配一个对应的权重；并且其中，所述特征向量是基于经过权重的多个相位差。

条款31.根据条款30所述的方法，其中，所述多个权重基于在每个麦克风所接收的音频内容的信噪比。

条款32.根据条款30或条款31所述的方法，其中，所述多个权重基于所述多个麦克风的相对位置。

条款33.根据条款20至32任一项所述的方法，还包括：在获得所述特征向量之前，确定所输出的音频内容包括频率低于所述房间的转变频率的音频。

条款34.根据条款20至33任一项所述的方法，在获得所述特征向量之前，对于特定的频率范围，确定所输出的音频内容具有满足一个或多个能量判据的声能。

条款35.根据条款20至34任一项所述的方法，在获得所述特征向量之前，确定所输出的音频内容具有满足一个或多个信噪判据的音频相干性。

条款36.根据条款20至35任一项所述的方法，其中，应用所获得的频率校正包括针对特定频率范围调整增益。

条款37.一种生成校正数据库的方法，所述方法包括：对于多个房间内多个位置的每个位置：(1)将扬声器装置定位在所述位置；(2)经由扬声器装置输出训练音频；(3)在两个或更多个麦克风接收所输出的训练音频；(4)基于所输出的训练音频生成参考特征向量和参考频率校正；(5)将参考特征向量和参考频率校正值添加到校正数据库。

条款38.一种计算系统，包括一个或多个处理器以及耦合到所述一个或多个处理器的存储器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括指令，用于进行条款20至37任一项所述的方法。

条款39.一种计算机可读存储介质，用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算系统执行时使得系统执行条款20至37任一项所述的方法。

条款40.一种计算系统，包括一个或多个处理器以及耦合到一个或多个处理器的存储器，所述存储器存储被配置为要由一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括指令，用于进行条款1至17以及20至37任一项所述的方法。

条款41.一种计算机可读存储介质，用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当由计算系统执行时使得系统执行条款1至17以及20至37任一项所述的方法。

对于以上讨论的系统收集关于用户的信息的情况，可以向用户提供选择加入/退出可以收集个人信息的程序或特征的机会(例如，关于用户的偏好或智能装置使用的信息)。此外，在一些实施方式中，某些数据可以在存储或使用之前以一种或多种方式匿名化，以便去除个人可识别信息。例如，可以将用户的身份匿名化，从而不能对于用户确定个人可识别信息或者将其与用户相关联，并且可以对用户偏好或用户交互进行泛化(例如，基于用户人口统计特征进行泛化)，而不是与特定用户相关联。

虽然各种附图中的一部分附图以特定顺序示出多个逻辑阶段，但是可将不依赖于顺序的阶段重新排序，并且可将其他阶段组合或分解。虽然具体提及一些重新排序或其他分组，但是其他重新排序或分组对于本领域技术人员而言将显而易见，因此，本文给出的排序和分组并非详尽的替代物列表。此外，应当认识到，这些阶段可以以硬件、固件、软件或其任何组合来实现。

还应当理解，虽然在某些情况下，在本文中用术语第一、第二等描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于区分一个元件和另一个元件。例如，在不脱离各种所述实施方式范围的情况下，可将第一电子装置称为第二电子装置，并且类似地，可将第二电子装置称为第一电子装置。第一电子装置和第二电子装置都是电子装置，但是它们不是相同类型的电子装置。

在本文中对各种所述实施方式的描述中使用的术语仅是出于描述特定实施方式的目的，并非要进行限制。如在各种所述实施方式的描述和后附权利要求中所使用的，单数形式“一(a/an)”和“该(the)”也意图包括复数形式，除非上下文另外明确指出。还应当理解，本文所用的术语“和/或”表示并涵盖一个或多个相关联列举项目的任何和所有可能的组合。还应当理解，在本说明书中使用时，术语“包括(includes/including)”“包含(comprises/comprising)”规定了所述特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其他特征、整数、步骤、操作、元件和/或组件的存在或添加。

如本文中所使用的，术语“如果”被可选地解释为表示“何时”或“在……时”或“响应于确定”或“响应于检测到”或“根据确定”，这取决于上下文。类似地，短语“如果确定”或“如果检测到[所陈述的条件或事件]”被可选地解释为表示“在确定时”或“响应于确定”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”或“根据确定检测到[所陈述的条件或事件]”，这取决于上下文。

为了说明的目的，已经参考具体实施方式描述了前面的说明书部分。但是，以上说明性讨论并非要穷举或将权利要求的保护范围限制为所公开的精确形式。鉴于以上教导，很多修改和变化是可能的。选择实施方式是为了最好地解释权利要求及其实际应用所基于的原理，从而使得本领域其他技术人员能够最好地使用具有适于所设想的特定用途的各种修改的实施方式。

Claims

1.一种用于均衡音频输出的方法，包括：

在具有一个或多个扬声器、多个麦克风、一个或多个处理器和存储器的计算系统处：

从位于房间中的所述一个或多个扬声器输出音频用户内容；以及

自动且无需用户输入地均衡所述计算系统的音频输出，所述均衡包括：

在所述多个麦克风中的每个麦克风处接收所输出的音频内容；

基于所接收的音频内容：

确定所接收的音频内容的相位差，

基于所述相位差确定特征向量，以及

基于所述特征向量确定所述房间的声学传递函数；

基于所确定的声学传递函数获得所述房间的频率响应；以及

基于所述频率响应调整所述扬声器的一个或多个属性。

2.根据权利要求1所述的方法，还包括：将所确定的声学传递函数发送给远程服务器系统；以及

其中，获得所述频率响应包括响应于发送所确定的声学传递函数而从所述远程服务器系统接收所述频率响应。

3.根据权利要求1所述的方法，其中，所述一个或多个属性包括频率属性和/或相位属性。

4.根据权利要求1所述的方法，还包括：在确定所述声学传递函数之前，确定所述音频用户内容包括频率低于所述房间的转变频率的音频。

5.根据权利要求1所述的方法，其中，所述一个或多个扬声器包括多个扬声器；

所述方法还包括确定所述多个扬声器的相对位置；以及

其中，调整所述扬声器的一个或多个属性还基于所述多个扬声器的相对位置。

6.根据权利要求1所述的方法，还包括确定所述计算系统是否以单声道模式操作。

7.根据权利要求1所述的方法，其中，所述多个麦克风包括在多个不同装置上的麦克风。

8.根据权利要求1所述的方法，其中，所述多个麦克风和所述一个或多个扬声器位于同一装置内。

9.根据权利要求1所述的方法，其中，确定所述声学传递函数包括确定所述一个或多个扬声器是否靠近所述房间的一个或多个边界。

10.根据权利要求1所述的方法，其中，确定所述房间的声学传递函数包括通过利用一种或多种机器学习技术来确定所述声学传递函数。

11.根据权利要求10所述的方法，其中，在所述计算系统处执行所述一种或多种机器学习技术。

12.根据权利要求1所述的方法，其中，在输出所述音频用户内容的同时，连续地进行所述均衡。

13.根据权利要求1所述的方法，还包括确定所述多个麦克风的相对位置；

其中，确定所述声学传递函数包括基于所述多个麦克风的相对位置来确定所述声学传递函数。

14.根据权利要求1至13中的任一项所述的方法，还包括经由一个或多个相机确定所述多个麦克风中的每个麦克风在所述房间中的相应位置；以及

其中，所述房间的声学传递函数基于所述相应位置。

15.一种计算系统，包括：

一个或多个处理器；以及

存储器，所述存储器耦合到所述一个或多个处理器，所述存储器存储被配置为要由所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行权利要求1至14中的任一项所述的方法的指令。

16.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令在由计算系统执行时使得所述计算系统执行权利要求1至14中的任一项所述的方法。