CN110597477A

CN110597477A - 定向声音修改

Info

Publication number: CN110597477A
Application number: CN201910500155.4A
Authority: CN
Inventors: D.迪森索; S.马蒂; J.维比克
Original assignee: Crown Audio Inc
Current assignee: Crown Audio Inc
Priority date: 2018-06-12
Filing date: 2019-06-11
Publication date: 2019-12-20
Anticipated expiration: 2039-06-11
Also published as: CN110597477B; EP3582511A3; EP3582511A2; EP4358537A3; KR20190140848A; EP4358537A2; KR102638672B1

Abstract

各种实施方案阐述用于定向声音修改的技术。在一个方面，一种系统包括：多个音频传感器，所述多个音频传感器被配置成从环境获取声音；以及至少一个处理器，所述至少一个处理器耦合至所述多个音频传感器。所述至少一个处理器被配置成：确定所述环境内的方向；基于从所述环境内的所述方向获取的声音来生成音频信号；以及将所述音频信号传输至至少一个音频输出装置，以生成音频输出。所述音频输出与来自所述环境内的所述方向的声音组合，以产生修改后声音。

Description

定向声音修改

相关申请的交叉引用

本申请是2017年3月20日提交的标题为“定向声音修改(DI RECTI ONAL SOUNDMODI FI CATI ON)”并具有序列号15/464,172的共同未决美国专利申请的部分继续申请，所述共同未决美国专利申请是2014年12月8日提交的标题为“定向声音修改(DI RECTIONAL SOUND MODI FI CATI ON)”并具有序列号14/563,458、现在为第9,622,013号美国专利的美国专利申请的继续申请。这些相关申请的主题特此通过引用方式以其全文并入本文中。

技术领域

本文所公开的实施方案涉及声音修改，且具体地，涉及生成音频信号以针对环境内的一个或多个选定方向产生所需声音修改。

背景技术

为了在工作时不分心，人们通常在繁忙或嘈杂的环境中佩戴消噪或降噪耳机。常见类型的耳机包括入耳式耳机(或“耳塞”)、外耳式耳机和头戴式耳机。

在许多情况下，耳机通常通过完全地或部分地阻挡佩戴者的耳道来提供一定程度的被动噪声衰减。另外，一些耳机通过产生消除环境内的声音的声波来提供主动噪声衰减。此类耳机通常被配置成衰减落入可听频谱的选定部分内的环境噪声。

这些传统方法的一个缺点在于，通过消除环境中的声音，用户与周围环境中的声音隔离。当用户与周围环境中的声音隔离时，用户可能会错过用户可能感兴趣的声音，例如，来自其他人的语音(例如，机场的通知、有人呼叫用户)。为了能够听到这些感兴趣的声音，用户将必须完全地移除耳机或停用主动噪声衰减，这可能会使用户暴露于不期望的噪声中并且降低耳机的整体乐趣。

如前文所述，需要更有效的噪声衰减技术。

发明内容

一个实施方案阐述一种用于定向声音修改的方法。所述方法包括：确定环境内的方向；基于从所述环境内的所述方向获取的声音来生成音频信号；以及将所述音频信号传输至至少一个音频输出装置，以生成音频输出。所述音频输出与来自所述环境内的所述方向的声音组合，以产生修改后声音。

其它实施方案尤其提供一种系统以及一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质被配置成实施上文所阐述的方法。

所公开技术的至少一个优点和技术改进在于，可以在很少或没有用户交互的情况下自动地确定目标声音修改方向。因此，可以减少或消除所述环境中的不想要的噪声，同时仍使用户能够听到源自所述环境中的其它方向的感兴趣声音。

附图说明

为了能够详细地理解各种实施方案的上述特征，可以通过参考各种实施方案获得上文简要概述的发明性概念的更具体描述，在附图中示出其中一些实施方案。然而，应注意，附图仅示出发明性概念的典型实施方案，因此决不应认为限制范围，并且存在其它同等有效的实施方案。

图1A和图1B示出根据各种实施方案的声音修改系统。

图2A至图2F示出根据各种实施方案的部署在不同环境内的声音修改系统。

图3示出根据一个实施方案的环境内的声音修改方向的选择。

图4示出根据一个实施方案的在嘈杂环境中的声音修改系统的操作。

图5示出根据一个实施方案的更新选定的声音修改方向。

图6示出根据一个实施方案的用于定向声音修改的方法。

图7A至图7D示出根据各种实施方案的一个或多个方面的用于识别声音和声音场景以及选择声音修改方向的技术。

图8A至图8C示出根据各种实施方案的一个或多个方面的用于识别声音以及从其接收声音的方向的技术。

图9是根据各种实施方案的一个或多个方面的用于定向声音修改的方法步骤的流程图。

具体实施方式

在以下描述中，阐述了许多具体细节以提供对各种实施方案的更透彻理解。然而，对于所属领域技术人员显而易见的是，可以在没有这些具体细节中的一个或多个的情况下实践本公开。

本文所公开的实施方案包括声音修改系统，所述声音修改系统包括：一个或多个音频传感器，所述音频传感器被布置成检测环境内的声音；以及一个或多个音频输出装置。所述声音修改系统还包括与所述音频传感器和音频输出装置耦合的处理装置，其中所述处理装置操作以基于从所述环境内的一个或多个选定方向检测到的声音来生成音频信号，并且使用所述一个或多个音频输出装置输出所生成的音频信号。输出的所生成音频信号与检测到的声音组合以产生所需声音修改。在各种实施方案中，声音修改系统包括收集位置信息的位置装置，和/或收集视觉信息的传感器装置。处理装置还可以操作以基于位置信息、视觉信息和/或环境内检测到的声音来选择环境内的一个或多个方向。随后，处理装置可以基于从选定方向内检测到的声音来生成音频信号。

可以通过例如个人耳机、家庭立体声系统、汽车立体声系统等各种形式的基于音频的系统来实施声音修改系统。声音修改系统可以选择性地提供噪声衰减、放大，或用于修改检测到的声音的任何其它所需音频效果。声音修改系统可以使用专用处理装置和/或例如用户的移动计算装置或云计算系统的单独计算装置来执行其处理功能。声音修改系统可以使用任何数目的音频传感器检测来自环境的声音，所述音频传感器可以附接至其它系统组件或与其它系统组件集成，或单独地安置。检测到的声音、位置信息、视觉信息和选定方向可以用于生成环境的二维(2D)或三维(3D)地图，并且处理装置可以基于用户取向、用户位置、视觉信息和检测到的声音的变化以及用户与各种噪声源之间的相对距离的变化来更新所述地图。

图1A和图1B示出根据各种实施方案的声音修改系统。如图所示，声音修改系统100包括处理装置110、存储器120、输入/输出(I/O)130、输入装置140、音频传感器150和音频输出装置155。处理装置110可以包括能够执行本文所描述的功能的任何处理元件。尽管描绘为声音修改系统100内的单个元件，但是处理装置110意在表示单个处理器、多个处理器、具有多个核心的一个或多个处理器，以及其组合。存储器120可以包括针对其大小、相对性能或其它能力选择的各种计算机可读介质：易失性和/或非易失性介质、可移动和/或不可移动介质等。存储器120可以包括缓存、随机存取存储器(RAM)、存储装置等。存储器120可以包括一个或多个离散存储器模块，例如，动态RAM(DRAM)双列直插存储器模块(DI MM)。当然，可以替代地选择各种存储器芯片、带宽和形状因数。包括为存储器120的一部分的存储装置通常可以为声音修改系统100提供非易失性存储器，并且可以包括一个或多个不同存储元件，例如，闪存存储器、硬盘驱动器、固态驱动器、光学存储装置，和/或磁性存储装置。

存储器120可以包括用于执行本文所描述的功能的一个或多个模块。在各种实施方案中，存储器120中包括的模块和/或应用程序中的任一个可以由声音修改系统100局部地实施和/或可以通过基于云的架构实施。例如，存储器120中包括的模块和/或应用程序中的任一个可以在远程装置(例如，智能手机、服务器系统、云计算平台等)上执行，所述远程装置通过I/O 130或网络160与声音修改系统100通信。

如图所示，存储器120包括音频信号模块122，用于生成音频信号以提供用于各种选定方向的所需声音修改；以及环境地图模块124，用于创建环境内的噪声源和声音场景的2维(2D)或3维(3D)映射。音频信号模块122通常可以产生呈检测到的声音的缩放以及可能反相副本形式的音频信号，但是也可以生成其它波形以产生所需声音修改。例如，音频信号模块122可以生成周期性音频信号或甚至随机噪声。环境地图模块124可以单独地包括噪声数据126，所述噪声数据反映来自音频传感器150的输入；方向数据128，所述方向数据反映环境内的声音修改方向(无论是最初选择的方向还是更新的方向)；以及取向数据129，所述取向数据反映声音修改系统100的音频传感器150、音频输出装置155和用户中的至少一个的相对取向。环境地图模块124还可以包括由位置装置146接收的位置数据132，所述位置数据反映声音修改系统100的音频传感器150、音频输出装置155和用户中的至少一个的地理位置。环境地图模块124还可以包括视觉数据134，所述视觉数据反映在声音修改系统100的音频传感器150、音频输出装置155和用户中的至少一个附近的由传感器装置142(例如，视觉传感器)捕获的视觉信息。

在各种实施方案中，存储器120还包括声音识别模块190、声音数据库192、声音场景数据库194、配置模块196和方向选择模块199。声音识别模块190识别检测到的声音和/或基于检测到的声音来识别声音场景。声音数据库192包括个别声音的样本和/或特征，用于通过声音识别模块190识别检测到的声音。声音场景数据库194包括声音场景的样本和/或特征，用于通过声音识别模块190识别声音场景。配置模块196执行用于配置声音修改系统100的一个或多个设置和/或参数(例如，修改设置198)的过程，并且执行用于训练声音识别模块190以识别某些声音和声音场景的过程。在一些实施方案中，配置模块196可以单独地包括修改设置198，所述修改设置存储反映声音修改的设置和/或参数的数据。在一些其它实施方案中，修改设置198可以与配置模块196分开存储。方向选择模块199选择一个或多个方向作为目标声音修改方向。

在一些实施方案中，声音数据库192包括各种类型的声音的样本和/或特征。例如，声音数据库192可以包括汽车、施工设备、手提钻、哭泣、人声等的声音的样本和/或特征。类似地，声音场景数据库194包括各种类型的声音场景的样本和/或特征。在各种实施方案中，声音场景是与特定设置相关联的一种或多种类型的声音的集合。例如，交通声音场景可以是与街道和/或高速公路交通相关联的声音的集合，例如，在道路上行驶的汽车的声音、汽车喇叭的声音等的集合。作为另一实例，建筑施工声音场景可以是与建筑施工场地相关联的声音(例如，起重机、拆卸机、推土设备等)的集合。作为另一实例，道路作业声音场景可以是与道路作业和道路施工相关联的声音(例如，手提钻、道路摊铺设备等)的集合。作为另一实例，人群声音场景可以是与人群相关联的声音(例如，人群中的人)的集合。因此，声音场景数据库194可以包括交通声音场景、建筑施工声音场景、道路作业声音场景、人群声音场景等的样本和/或特征。在一些实施方案中，声音数据库192和声音场景数据库194可以包括结合机器学习技术(例如，神经网络、贝叶斯网络等)使用的训练数据。

处理装置110可以使用输入/输出(I/O)130与例如外围装置或其它联网计算装置的其它装置通信。I/O 130可以包括用于提供本文所描述的功能的任何数目的不同I/O适配器或接口。I/O 130可以包括有线和/或无线连接并且可以使用各种格式或协议。在一个实例中，通过I/O 130，处理装置110可以使用输入装置140确定选定的声音修改方向，所述输入装置使用例如(蓝牙特别兴趣小组的注册商标)或(Wi-Fi联盟的注册商标)的无线连接来连接；可以通过有线连接使用音频传感器150检测环境声音；并且可以通过单独的有线或无线连接将合适的音频信号提供至音频输出装置155，以产生用于在选定方向上检测到的声音的所需声音修改。在另一实例中，通过I/O 130，处理装置110可以使用从计算装置(例如，智能手机)获得的位置数据来确定选定的声音修改方向，所述计算装置使用例如蓝牙或Wi-Fi的无线连接来连接。在另一实例中，通过I/O130，处理装置110可以基于在使用无线连接来连接的计算装置(例如，智能手机)处执行的配置过程来获得修改设置198，以存储在存储器120中。

I/O 130还可以包括网络接口，所述网络接口通过网络160将处理装置110连接至一个或多个联网计算装置。联网计算装置的实例包括服务器、台式计算机、例如智能手机或平板计算机的移动计算装置，以及例如手表或耳机或头戴式显示装置的佩戴装置。当然，其它类型的计算装置也可以与处理装置110联网。网络160可以包括各种类型的一个或多个网络，包括局域网或本地接入网(LAN)、通用广域网(WAN)，和/或公共网络(例如，因特网)。在一些实施方案中，联网计算装置可以用作输入装置140、音频传感器150和/或音频输出装置155。

输入装置140与处理装置110耦合，并且将各种输入提供至处理装置110以执行定向声音修改。如图所示，输入装置140包括传感器装置142、取向装置144和位置装置146。可以提供传感器装置142以从声音修改系统100的用户捕获输入，并且所述传感器装置可以包括一种或多种类型的传感器。例如，选择声音修改方向的用户输入可以包括手势，例如，手、手臂、眼睛或身体的其它部位的各种移动或取向。为了检测用户输入，传感器装置142可以包括例如红外(IR)传感器的视觉传感器、热传感器，和/或成像装置，例如，电荷耦合装置(CCD)或互补金属氧化物半导体(CMOS)传感器装置。传感器装置142还可以包括惯性传感器，例如陀螺仪或加速计。传感器装置142可以由用户佩戴或携带，或可以单独地安置(即，作为单独装置存在，或包括在单独装置中)。当然，其它类型的传感器装置也可以包括在传感器装置142中，以执行接收用户输入的各种功能，所述其它类型的传感器装置可以包括电容传感器、红外传感器、磁性传感器、声纳传感器、雷达传感器、LI DAR传感器、神经传感器等。

在一些实施方案中，输入装置140可以包括用户接口，用于接收声音修改方向的用户选择和/或接收其它用户输入，例如，在配置过程期间对一个或多个声音修改设置198的用户输入。用户接口可以采用任何可行形式来提供本文所描述的功能，例如，一个或多个按钮、开关、滑块、转盘、旋钮等，或作为图形用户接口(GUI)。可以通过声音修改系统100的任何组件提供GUI。在一个实施方案中，可以通过单独的计算装置提供GUI，所述单独的计算装置例如通过在用户的移动或可穿戴计算装置上运行的应用程序与处理装置110通信地耦合。为了提供声音修改和/或声音修改设置的优先选择，用户接口可以允许各种参数的用户输入，例如，要执行的声音修改的方向、类型和量，以及目标针对声音修改的声音和声音场景的类型。参数可以由用户更新或可以在操作期间自动地更新。

在另一实例中，用户接口可以接收用于选择方向以及其它声音修改设置和参数的口头命令。在这种情况下，输入装置140可以包括一个或多个音频传感器，所述音频传感器可以与音频传感器150不同或相同。处理装置110可以对接收到的口头命令执行语音识别，和/或将口头命令与存储在存储器120中的命令相比较。在验证接收到的口头命令之后，处理装置110可以执行用于声音修改系统的命令功能(例如，将声音修改参数改变至指定水平)。

取向装置144提供关于音频传感器、音频输出装置和/或用户相对于环境(且更具体来说，相对于环境内的噪声源)的取向的信息。取向装置可以将二维(2D)或三维(3D)取向数据提供至处理装置110，所述处理装置可以将取向数据集成至噪声环境的地图中。取向装置144可以包括能够检测用户取向的一个或多个传感器装置，例如，磁力计、陀螺仪、加速计，或成像装置。取向装置144可以由用户佩戴或可以单独地安置。

位置装置146提供关于音频传感器、音频输出装置和/或用户相对于环境(例如，相对于环境内的噪声源)的地理位置的信息。位置装置146可以将位置数据(例如，纬度和经度坐标)提供至处理装置110，所述处理装置可以将位置数据集成至地理地图和/或噪声环境的地图中。位置装置146可以包括能够检测用户位置的一个或多个传感器装置，例如GPS接收器模块。位置装置146可以由用户佩戴或可以单独地安置。在一些实施方案中，还可以从其它源获得其它形式的位置数据。例如，声音修改系统100可以通过I/O130与位置信标通信并且从这些位置信标获得位置数据。作为另一实例，声音修改系统100可以与网络160内的Wi-Fi网络通信并且从Wi-Fi网络获得位置数据。

包括音频传感器150以捕获在环境中出现的声音。处理装置可以使用所捕获声音来生成合适的定向声音修改。音频传感器可以是能够将声波转换成电信号的多个麦克风或其它换能器或传感器。音频传感器可以包括传感器阵列，所述传感器阵列包括单个类型的传感器，或各种不同传感器。音频传感器150可以由用户佩戴，或单独地安置于固定位置处或可移动。音频传感器可以通过任何可行方式安置于环境中。在若干实施方案中，音频传感器150通常相对于音频输出装置155向外取向，所述音频输出装置通常安置于音频传感器150内并且还向内取向。此种取向对于将待执行声音修改(即，使用来自音频输出装置155的输出)的一个或多个区域与其余环境隔离可能特别有利。在一个实例中，音频传感器150可以从用户径向向外取向，而音频输出装置155朝向用户径向向内取向。

包括音频输出装置155以输出所生成音频信号，从而提供与环境内的一个或多个选定方向相对应的合适声音修改。当然，声音修改音频信号可以在音频输出装置155上与其它音频信号(例如，音乐或其它音频播放)同时驱动。音频输出装置可以使用传统音频输出技术，例如，扬声器或其它合适的电声装置。音频输出装置155可以使用任何数目的不同传统形状因数实施，例如，离散扬声器装置、环耳式(罩耳式)耳机、外耳式(压耳式)耳机或入耳式耳机、助听器、有线或无线耳机、体戴式(头戴式、肩戴式、臂戴式等)收听装置、体戴式近距离定向扬声器或扬声器阵列、体戴式超声波扬声器阵列等。音频输出装置155可以由用户佩戴，或单独地安置于固定位置处或可移动。如上所述，音频输出装置155可以安置于音频传感器150内并且朝向特定区域或用户向内取向。

图1A示出其中声音修改系统100的各个组件可以分布在若干装置上的一个实施方案。图1B示出其中声音修改系统170的计算组件(例如，处理装置110、存储器120和I/O 130)包括在离散计算装置180中的另一实施方案。通常，计算装置180从一个或多个输入装置140和音频传感器150接收输入，生成用于定向声音修改的音频信号，以及使用音频输出装置155输出所生成的音频信号。如下文将看到，计算装置180可以相对接近音频传感器150和音频输出装置155安置。

图2A至图2F示出根据各种实施方案的部署在不同环境内的声音修改系统。图2A示出根据一个实施方案的在头戴式耳机200中实施的声音修改系统。耳机200包括耳罩205，所述耳罩设置成与用户的头部舒适地接合并且覆盖用户的耳朵。耳机200还包括外壳210，所述外壳连接至每个耳罩205，从而为耳罩、扬声器元件以及耳机200中包括的任何其它组件提供支撑。如图所示，耳机200包括处理模块211、多个麦克风212、一个或多个按钮213、反馈装置214，以及电源215。当然，所属领域技术人员将认识到，尽管本文未明确提及，但是在耳机200中也可以包括其它组件。

处理模块211至少包括通过有线或无线连接接收音频信号以及将音频信号输出至耳机200的扬声器元件的能力。处理模块211还可以包括用于调制所接收音频信号的一个或多个有源或无源装置。处理模块211可以包括处理装置110以及上文关于声音修改系统100、170(例如，传感器装置142、取向装置144)描述的其它功能性，以提供环境内的定向声音修改。在一个实施方案中，处理模块211可以是计算装置180。另外，处理模块211可以与一个或多个单独计算装置耦合，所述单独计算装置提供声音修改音频信号并且任选地提供将输出至耳机200的扬声器元件的介质。计算装置可以是用户的移动或穿戴式计算装置，例如，笔记本电脑、智能手机、平板计算机、智能手表等。

麦克风212可以用作音频传感器150并且优先地以特定布置安置。例如，麦克风212的阵列可以沿着外壳210的宽度分布并且向外取向，以捕获在头戴式耳机外部的环境中出现的噪声。在一个实例中，麦克风可以通过遵循外壳210的弯曲外表面和/或通过单独取向来径向向外取向。当然，麦克风可以优先地沿着一个或多个维度或表面分布，以提供所需形状和大小的声音捕获全景图。在一个实施方案中，麦克风的阵列可以包括一个或多个微机电系统(MEMS)装置，每个MEMS装置包括多个较小换能器。多个换能器可以在空间上分开，使得可以通过到达时间差确定声音事件的方向性。随后，可以处理从换能器接收的信号并检查强度、频谱和定时提示以允许声音源的定位。

一个或多个按钮213可以用作输入装置140，用于选择环境内的一个或多个方向来执行声音修改。按钮213可以安置于外壳210上，例如，连接至每个耳罩205的外壳210的部分上的一个或多个按钮。按钮213可以与麦克风212类似地安置，其中每个按钮具体地对应于一个或多个麦克风212。在一个实施方案中，按钮和麦克风以1:1比率对应。例如，按下按钮可以切换是否对由对应的一个或多个麦克风检测到的声音执行声音修改，或者可以改变声音修改设置(例如，改变放大或衰减的量)。在一个实施方案中，可以提供按钮213以循环通过用于声音修改的多个预定设置，无论默认设置还是用户指定。在一个实施方案中，按钮213可以用作用于其它输入的触发装置。例如，用户可以按下按钮并随后输入口头命令或做出特定输入手势，以选择方向或其它声音修改参数。

可以包括反馈装置214以向用户提供视觉或触觉反馈。例如，反馈装置214可以包括一个或多个发光二极管(LED)或振动电机。在一个实施方案中，LED可以类似于麦克风212和/或按钮213安置，并且可以指示选定方向来执行声音修改。反馈装置还可以例如通过闪烁或振动来确认成功的用户选择。

电源215可以与处理模块211和反馈装置214耦合以向每个组件提供电力。电源215可以包括可更换或可充电电池，或其它能量存储装置。电源215还可以包括与墙壁电源的连接，用于为组件供电和/或为电池充电。

图2B示出根据一个实施方案的实例环境220，其中头戴式耳机200由用户225佩戴。基于麦克风的固有特性以及其在耳机200内的相对部署，各种麦克风各自能够感测声音的最小阈值水平，所述最小阈值水平可以对应于距麦克风的特定距离230。各种麦克风的复合感测区域可以组合地形成音频感测区235，所述音频感测区由从麦克风延伸至周围环境中的空间区域或体积表示。取决于麦克风的数目、定位和取向以及每个麦克风的能力(例如，敏感性、频率响应等)，音频感测区235可以具有各种形状和/或大小。在此处描绘的简化实例中，音频感测区235由围绕用户225的头部的球体表示。当然，可能存在且预期更复杂形状，例如，细长形状、包括麦克风覆盖范围的重叠区域的形状，或其中麦克风不提供完全声音覆盖的非连续形状。对于例如耳机200的任何给定装置，装置可以在不同噪声频率下具有不同音频感测区，因为每个麦克风的频率相关特征可能不同。

如此处所描述，音频感测区的外部空间限制表示某个预定的最小声级(例如，3分贝或dB)。当然，这并不要求特定噪声源物理地位于由音频感测区限定的空间内，而是仅要求噪声源产生足够功率以满足或超过外部限制处的阈值声级。

图2C示出根据一个实施方案的用于声音修改系统的另一实例环境240。在这种情况下，声音修改系统可以部署在家庭立体声系统中。家庭立体声系统可以包括电视机245或其它视听装置、立体声接收器247和多个扬声器250。每个扬声器250可以包括对应于不同频率范围的驱动器(例如，高音扬声器、低音扬声器、重低音扬声器)，并且可以优先地安置于环境240内以保证音频质量。更具体地，电视机245和扬声器250可以安置成为预定位置处，例如坐在沙发242上的一个或多个用户提供最佳音频和视频质量。

图2D示出根据一个实施方案的环境260的俯视图。在很大程度上，环境260与环境240相同，但是环境260明确地描绘音频传感器以及对应的音频感测区277。环境260中可以包括一种或多种不同类型的音频传感器。音频传感器可以附接至家庭立体声系统的各种组件或与所述各种组件集成，例如，安置于扬声器250上的音频传感器255。音频传感器还可以单独地安置，例如，附接至家庭立体声系统的非组件或作为单独传感器。音频传感器275附接至窗户270附近的墙壁265外部，并且可以用于修改室外噪声(例如，动物、邻居、汽车/火车/空中交通等)。对声音修改系统的处理可以由立体声接收器247本机执行，或者可以由单独的计算装置执行，所述单独的计算装置还能够将音频信号输出至各种扬声器250。计算装置可以是家庭立体声系统中包括的计算系统，或替代地可以是用户的移动计算装置，例如，笔记本电脑、智能手机、平板计算机、智能手表等。

图2E示出根据一个实施方案的在汽车280中实施的声音修改系统。如图所示，汽车280包括乘客舱282，多个扬声器285和音频接收器287位于所述乘客舱中。音频接收器287与扬声器285耦合，并且通常操作以接收音频输入(基于AM/FM/卫星的无线电、光盘、MP3文件等)，并且将放大和/或均衡后的音频信号驱动至扬声器285。声音修改系统可以包括安置于汽车280外部并且向外取向的多个音频传感器290。尽管四个音频传感器被示为安置于汽车的后护板上，但是任何数目的传感器可以安置于汽车的任何内部或外部位置中。在一个实施方案中，音频传感器可以安置于发动机舱291附近(例如，在发动机舱与乘客舱282之间)，以便优先地修改发动机声音(例如，衰减或放大)。对声音修改系统的处理可以由音频接收器287本机执行，或者可以由单独的计算装置执行，所述单独的计算装置还能够将音频信号输出至各种扬声器285。同样，计算装置可以是音频系统中包括的计算系统，或替代地可以是用户的移动计算装置，例如，笔记本电脑、智能手机、平板计算机、智能手表等。

图2F示出环境292，其中汽车280沿着道路295运行。与上述其它实施方案一样，声音修改系统的传感器290对应于音频感测区297。当通过传感器290检测到环境噪声时，声音修改系统可以生成音频信号，从而为来自选定方向的声音提供所需修改效果。

图3示出根据一个实施方案的用于环境内的声音修改的方向的选择。尽管描绘包括耳机的一个特定实施方案，但是普通技术人员将理解，各种替代实施方式也是可能的。环境300提供用户225将耳机200佩戴在其头部上的自上而下描述。用户225具有在环境300内的初始取向305。尽管本文呈现用户取向和环境的简化2D表示，但是普通技术人员将理解，相同原理也将适用于3D表示(例如，捕获用户将头向前、向后、向左侧还是向右侧等倾斜)。音频感测区325表示耳机200中包括的各种麦克风的复合感测区域，所述音频感测区从麦克风延伸至周围环境中。在不应用主动声音修改的情况下，允许耳机200检测为来自音频感测区325内的通过区域310的声音传递至用户。然而，检测为来自音频感测区325内的修改区域320的声音与所生成的音频信号组合，以产生所需声音修改。

用户可以使用任何数目的方法来选择声音修改方向。在环境300中所示的简化情况下，用户可以选择要衰减或放大的整个侧面320(例如，对应于耳机200的一个耳罩)。或者，用户可以指定角度和角宽度(例如，与当前取向305成90°的中心角，具有180°宽度)，或多个角度(从0°至180°)。

如上所述，用户可能能够通过使用按钮、口头命令、手势，使用GUI等提供这种方向选择输入。在一个实施方案中，耳机200的每一侧可以包括一个或多个按钮，使得用户225可以仅通过按下对应按钮来选择性地对一个或多个方向应用声音修改。在另一实施方案中，用户可以通过直接地或间接地选择角度(例如，使用预先映射至特定角度的词或短语)来提供用于选择一个或多个方向的口头命令。在另一实施方案中，用户可以提供可以直接地或间接地选择角度的手势。例如，用户可以指向限定修改区域320的第一和第二角度，或可以指向对象(例如，特定噪声源)。在一个实施方案中，可以结合选择一个或多个方向来确定用户眼睛的取向，使得可以通过简单地看声源来确定方向。在这种情况下，在通过说出口头命令、按下按钮等触发选择之后，可以基于用户的注视来确定方向。声音修改系统可以接收用户的输入并且设置合适角度，使得对象完全地包括在修改区域320内。

除了选择声音修改方向之外，用户225还可以指定修改的类型和量(例如，放大、衰减以及任一个的量)。例如，用户可能指向噪声源并且说“将此噪声降低50％”，或“将来自此方向的任何噪声降低3dB”。在另一实例中，想要知道同事何时接近其办公室的佩戴耳机的用户可以指向打开的办公室门并且说“将来自此方向的声音增加35％”。声音修改的类型和量对于不同修改区域可能不同。除了方向之外，用户还可以指定将进行修改的某些频率范围。用户可以通过指示特定频率值或通过选择预先映射的频率范围(对应于语音、汽车交通或其它常见噪声源范围)来指定这些。由用户指定的修改区域(例如，修改区域320)可以跟踪用户的取向，或可以保持固定而不管用户的取向变化如何。例如，用户可以选择对来自其右侧的所有声音进行声音修改。如果对应修改区域被设置成追踪用户，则在任何时刻来自用户右侧的声音(即使用户已移动)将继续进行声音修改。

在一些实施方案中，来自一个或多个传感器的输入可以与各种声音源相关，以确定哪些声音对用户来说最具破坏性。破坏性确定可以基于传感器测量与环境中的各种声音的时间比较。实例传感器测量包括确定专注或注意力集中的损失的大脑活动(例如，使用神经传感器)，或检测眼睛或头部移动(例如，较大移动通常可能与破坏性有关)。基于破坏性确定，当音频传感器检测到满足与破坏性声音足够类似的标准的声音时，可以确定声音修改方向并且将声音修改方向自动地应用于这些声音。

如上所述，声音修改系统可以生成环境的映射，以反映检测到的噪声以及一个或多个选定的声音修改方向。在生成用于声音修改的音频信号之前，声音修改系统可以根据用户的当前位置和取向来变换映射。2D版本的地图在外观上可能类似于图3的描绘。虽然2D地图的修改区域通常表示为从用户(或从一个或多个麦克风)投射的楔形，但是3D地图可以包括从用户或麦克风投射的各种向量，所述向量在3D空间中可能是圆锥形或看起来像圆锥形。

作为生成环境地图的一部分，声音修改系统还可以估计检测到的声音的离散噪声源位置，并且可以在地图中绘制那些所估计位置。地图可以使用任何已知的坐标系，例如，笛卡尔坐标系、极坐标系或球坐标系。这些地图还可以链接到用户的绝对位置(通过例如全球定位系统(GPS)传感器的传感器装置提供)。当链接到绝对位置时，地图可以用于声音修改系统的其它用户。例如，在佩戴耳机的用户沿着繁忙的道路行走时生成的噪声地图可以存储于服务器并且随后提供给附近的其他用户，这样可以减少或防止各种声音修改系统的冗余处理。

环境330还提供用户225将耳机200佩戴在其头部上的自上而下描述。用户225具有相同取向305，但是在此实例中希望指定用于修改区域350(在这种情况下，所述区域位于用户后面)的不同方向。设置一个或多个修改区域350的用户225还可以操作以限定音频感测区325内的一个或多个通过区域340。同样，用户可以通过指定特定角度来选择方向。在替代实施方案中，用户可以指定方向或特定角度，以及用于描述修改区域350的相对宽度的修饰语(例如，“窄”、“中等”、“宽”)。可以预先映射修饰语以表示某些角度宽度。在替代实施方案中，用户可以指定一个角度(例如，与当前取向成180度，或“在我后面”)并且应用预定的默认角宽度以创建修改区域350。当然，在初始地设置修改区域350之后，用户可以选择完全新的修改区域或可以对修改区域350进行增量调整。例如，用户可以识别修改区域并提供特定角度或角宽度变化，或者可以指定加宽/缩小修改区域，和/或相对于用户取向使修改区域移位。

环境360还提供用户225将耳机200佩戴在其头部上的自上而下描述。用户225具有相同取向305，但是在此实例中希望指定用于两个不同修改区域380₁、380₂的方向。设置修改区域380₁、380₂还可以操作以限定音频感测区325内的一个或多个通过区域370₁、370₂。用户可以指定可以同时地或在不同时间进行选择的每个修改区域380₁、380₂的角度或角度范围。如前所述，用户可以替代地使用语言描述来设置每个修改区域的宽度(例如，以135°为中心的宽范围，以及315°处的窄范围)。或者，用户可以指定角度，并且应用预定默认角宽度。

图4示出根据一个实施方案的部署在嘈杂环境中的声音修改系统的操作。描绘多层办公楼405，其中用户225在工作站410工作时戴着耳机200。相邻工作站420中的同事大声地打电话，这可能会分散用户注意力。同时，在办公楼405外的街道450上正进行道路作业440，这也会形成可能分散用户注意力的噪声。

使用上述各种技术中的任何技术，用户可以选择对应于这些噪声源的噪声修改方向。在这种情况下，用户可能希望衰减噪声源。尽管未示出，但是用户可以另外或替代地例如从用户的计算机或手机的方向中选择一个或多个方向来增强声音(例如，放大和/或均衡)。在用户指定对应于噪声源的方向之后，声音修改系统可以确定在指定方向的预定范围内的最大噪声源，因为用户可能尚未提供方向的精确指示，并且来自选定方向的最大噪声可能是用户尝试修改的噪声。因此，环境400的3D映射可以包括从用户225(或相反，包括在耳机200中的对应麦克风)投射的向量430和460。向量430、460指示将对检测为来自对应方向的声音执行声音修改。

图5示出根据一个实施方案的更新选定的声音修改方向。在环境500中，用户225被描绘为在处于初始取向505时将耳机200佩戴在其头部上。环境500中包括两个点噪声源510₁、510₂。一个噪声源510₁安置于耳机200的音频感测区525内，而另一个噪声源510₂安置于外部。因此，从对应于通过区域520的方向检测到的声音未进行声音修改，而来自修改区域515₁、515₂的声音由声音修改系统进行修改。声音修改系统可以基于这些选定方向和噪声源生成环境500的地图。

在环境530中，用户已转动其整个身体(或也许仅转动其头部)，使得用户(或耳机200的音频传感器)的取向从取向505改变至取向535。在一个实施方案中，声音修改系统被配置成跟踪噪声源以获得用户取向的变化。尽管用户已重新取向，但是噪声源510₁、510₂保持在相同位置，因此修改区域510₁、510₂相对于噪声源保持静止。无论用户取向如何发生变化，噪声源都将继续进行声音修改。虽然为了简单起见示出2D环境，但是普通技术人员将理解，可以在3D空间中进行类似实施方式。

在一个实施方案中，声音修改系统被配置成还跟踪用户和/或噪声源的位移。除了跟踪噪声源以获得用户取向变化之外，还可以执行这种操作。在环境550中，用户具有初始取向555。同样，包括两个点噪声源510₁、510₂。对应于噪声源510₁的修改区域515₁具有初始角宽度α₁，并且对应于噪声源510₂的修改区域515₂具有初始角宽度β₁。

在环境560中，用户保持相同取向555，但是在用户与两个点噪声源510₁、510₂之间发生相对位移。例如，用户可以在移动和/或一个或两个噪声源可以在移动。修改区域515₁已相对于用户取向移位且现在是修改区域565₁，并且具有指示用户与噪声源510₁之间的距离增加的较小角度α₂。修改区域515₂也已相对于用户取向移位且现在是修改区域565₂，但具有与角度β₁大致相同大小的角度β₂(指示用户与噪声源之间的距离大致相同)。对应通过区域570填充音频感测区525的其余部分。

图6示出根据一个实施方案的用于定向声音修改的方法。可以根据上述各种声音修改系统的描述并且在各种实施方案中描述的环境内使用方法600。可以使用声音修改系统的处理装置，或使用与声音修改系统通信地耦合的单独计算装置，或使用各种处理装置的组合来执行方法600。例如，可以通过在与声音修改系统通信地耦合的用户的移动计算装置上运行的应用程序执行方法600。

方法600开始于框605处，其中选择环境内的一个或多个方向来执行声音修改。可以通过用户以及对来自选定方向的声音执行修改的类型和量来选择方向。选定方向可以包括在噪声环境的所生成2D或3D地图中，并且可以形成一个或多个修改区域，所述一个或多个修改区域可以选择性地跟踪用户取向、用户位移和/或噪声源位移。

在框610处，处理装置确定声音是否由声音修改系统的一个或多个音频传感器检测为来自一个或多个选定方向。如果未检测到声音，或如果任何检测到的声音确定为来自处于选定方向外的通过区域，则方法前进至框615(“否”)，并且允许从非选定方向检测到的任何声音通过，而不提供主动声音修改。方法通常可以循环通过框610，无论连续地还是以离散时间间隔循环通过，直到当方法前进至框625时，检测到的声音对应于一个或多个选定方向(“是”)。

在框625处，处理装置基于对应于一个或多个选定方向的检测到的声音来生成音频信号。音频信号还基于由用户指定的所需声音修改，例如，检测到的声音的衰减或放大以及衰减或放大的量。音频信号通常可以采用检测到的声音的缩放以及可能反相副本形式，但是也可以使用其它波形产生所需声音修改。

在框635处，输出所生成音频信号以产生所需声音修改。这可以包括用输出信号驱动音频输出装置中的选定一个音频输出装置(例如，其取向与选定方向最接近对准的音频输出装置)。所述方法可以在框635之后结束，或可以返回至框610，无论作为连续循环还是以离散时间间隔。

声音修改方向的自动选择

如上所述，通过完全地或部分地阻挡佩戴者的耳道，或以其它方式将佩戴者的耳道与环境隔离，传统耳机可以提供一定程度的被动噪声衰减。另外，一些传统耳机通过产生消除环境内的声音的声波来提供主动噪声衰减。然而，这些传统方法具有若干缺点。一个此种缺点在于，通过消除环境中的声音，用户与周围环境中的声音隔离。因此，用户可能会错过用户可能感兴趣的声音。

为了解决这些问题，在各种实施方案中，声音修改系统100(例如，方向选择模块199)可以自动地(例如，在用户没有明确地选择方向的情况下)选择一个或多个目标声音修改方向。在一个实施方案中，声音修改系统100可以基于检测到的声音、位置信息和视觉信息中的至少一个来确定环境内的可能声音修改方向。

在一个实例中，使用检测到的声音、位置信息和视觉信息中的至少一个，声音修改系统100识别环境中的一个或多个声音场景以及所识别声音场景的对应方向和/或角度范围。随后，基于所识别声音场景，声音修改系统100可以选择环境内的一个或多个声音修改方向。可以根据修改设置198进行选择，所述修改设置指定哪些声音场景应作为声音修改的目标。随后，声音修改系统100可以基于在选定方向上检测到的声音生成音频信号，并且输出音频信号以产生所需声音修改。

在另一实例中，使用检测到的声音、位置信息和视觉信息中的至少一个，声音修改系统100可以生成环境和环境内的一种或多种声音的二维(2D)或三维(3D)地图。随后，基于环境的地图以及环境内的声音的位置，声音修改系统100可以选择环境内的一个或多个声音修改方向。随后，声音修改系统100可以基于在选定方向上检测到的声音生成音频信号，并且输出音频信号以产生所需声音修改。

图7A至图7D示出根据各种实施方案的用于识别声音和声音场景并且选择声音修改方向的技术。如图所示，用户702在将耳机200佩戴在其头部上时处于环境700内的初始取向704。声音源706-1、706-2、706-3、706-4、708-1、708-2和708-3包括在环境700中，作为环境700中的声音(例如，噪声、语音等)源。声音源可以对应于声音的实际源(例如，产生声音的对象或人)或声音的反射源(例如，反射声音的墙壁)。应了解，尽管图7A至图7D示出部署在耳机200中的声音修改系统，但是本文所示出和描述的实施方案也适用于以其它形式部署的声音修改系统。

在各种实施方案中，声音修改系统(例如，耳机200)可以配置有(例如，在初始配置过程中、在修改配置的过程中)用于声音修改的一个或多个修改设置198。例如，配置模块196可以执行引导用户输入修改设置198的配置或设置过程。配置或设置过程可以在声音修改系统或连接的计算装置处(例如，通过连接的智能手机上的应用程序)执行，并且从用户接收指定设置的输入。

在各种实施方案中，修改设置198可以包括声音黑名单，所述声音黑名单包括目标用于修改的一种或多种类型的声音(例如，汽车、哭泣、手提钻、施工设备等)。另外或替代地，修改设置198还可以包括目标用于修改的一种或多种类型的声音场景的声音场景黑名单(例如，交通、施工场地、人群等)。黑名单可以指定声音修改系统的用户想要修改其声音的声音类型和/或声音场景类型。在一些实施方案中，可以关于位置指定声音类型和/或声音源类型(例如，指定将对应于施工声音和/或声音场景的施工场地位置列入黑名单；指定将对应于道路作业声音和/或声音场景的道路作业位置列入黑名单)。声音修改系统选择方向，所述方向包括目标用于声音修改的黑名单中的声音和/或声音场景。除了黑名单之外，修改设置198还包括除了黑名单中的声音和/或声音场景之外的一个或多个修改的白名单。例如，白名单可以指定在修改来自交通声音场景的声音时，应该使应急车辆警报声音未修改地通过。在另一实例中，白名单可以指定在修改来自任何声音场景的声音时，应该使人声未修改地通过。作为另一实例，白名单可以指定在修改来自任何类型的声音场景的任何类型的一种或多种声音时，应该使特定人的语音未修改地通过。黑名单或白名单中包括的声音可以通过本文所描述的任何技术识别，包括但不限于，基于包括在声音数据库192中的声音样本、声音特征等。

在一些实施方案中，修改设置198还可以包括角宽度设置，所述角宽度设置包括以下中的一个或多个的设置：针对声音修改方向，用于声音和/或声音场景的特定角宽度(例如，用于所识别声音和/或声音场景的开始角宽度)；可以其增加或减小声音修改方向的角宽度的角度增量(例如，如果检测到新的声音，可以其增加或减小声音修改方向的角大小的角度增量)；以及将声音修改方向的角宽度设置成多窄或多宽(例如，与声音源的传播紧密结合，或与声音源周围的额外宽度松散结合)。

在各种实施方案中，声音修改系统可以在环境700内检测来自声音源706和708的声音。在各种实施方案中，声音修改系统可以将来自声音源706和708的声音分段成个别声音并识别声音的类型，由此根据声音类型或源类型将声音源706和708分类。识别模块190可以获得检测到的声音的样本，并且将声音与声音数据库192中的样本或特征相比较以识别声音。在一些实施方案中，识别模块190实施机器学习技术(例如，神经网络、贝叶斯网络)来分段并识别声音，其中声音数据库192作为训练数据。

在各种实施方案中，除了或代替分段并识别来自声音源706和708的声音，声音修改系统可以识别环境700内的一个或多个声音场景。识别模块190可以获得检测到的声音的样本并且作为总体比较所述声音。例如，检测到的声音(例如，在不前进至根据类型或源将声音分段成个别声音的情况下，通过音频传感器150捕获的声音)可以作为总体与声音场景数据库194中的样本或特征相比较，以识别存在于环境700中的一个或多个声音场景。在一些实施方案中，识别模块190操作机器学习技术(例如，神经网络、贝叶斯网络)来识别声音场景，其中声音场景数据库194作为训练数据。

另外或替代地，声音修改系统可以从环境700收集位置信息和/或视觉信息。位置装置146可以获得识别用户702和/或耳机200的地理位置的位置数据(例如，维度和经度)。声音修改系统可以使位置数据与地理地图数据(未示出)相关，以识别环境700中的一个或多个声音源和/或声音场景。例如，基于用户的取向704以及用户在街道的人行道上的位置，声音修改系统可以确定在用户702的一侧存在交通声音场景。作为另一实例，基于用户的位置和取向704接近地理地图数据中的已知施工或道路作业场地，声音修改系统可以确定在用户的一侧分别存在施工声音场景或道路作业声音场景。

声音修改系统可以使用任何合适的图像识别技术来处理由传感器装置142捕获的视觉数据(例如，图像、LI DAR数据)，以识别环境700中的地标和/或对象。声音修改系统可以包括模块，所述模块基于所识别地标和/或对象来处理视觉数据并识别一个或多个声音源和/或声音场景，从而识别环境700中的声音场景。例如，如果视觉数据包括汽车沿着街道行驶，则视觉数据可以与取向704相关以确定在用户702的一侧存在交通声音场景。作为另一实例，如果视觉数据包括大的墙壁，则墙壁可以识别为声音源(例如，声音反射源)。

响应于识别环境700中的一个或多个声音和/声音场景，方向选择模块199选择对应于某些所识别声音和/或声音场景的一个或多个方向，作为目标声音修改方向。方向选择模块199可以基于修改设置198进行选择。例如，方向选择模块199可以选择识别属于黑名单中的声音场景类型的声音场景的方向。作为另一实例，方向选择模块199可以选择检测属于黑名单中的声音类型的声音的方向。

图7B示出环境720，其中方向705(以阴影示出)由方向选择模块199选择为目标声音修改方向。如上所述，方向选择模块199可以选择一个或多个方向作为声音修改的目标选择。基于所述选择，声音修改系统可以生成音频信号，所述音频信号可以在选定方向(例如，方向705)上产生用于检测到的声音的声音修改。例如，针对方向705生成的音频信号将在方向705内修改来自源706-1至706-4的声音。在一些实施方案中，基于在选定方向上的声音源的数目和/或所述声音源之间的间隔(例如，在方向705上的源706的数目和/或源706之间的间隔)，确定选定方向(例如，方向705)的角宽度。另外，可以预定义(例如，在修改设置198中)角宽度(例如，角宽度增量)。在一些实施方案中，基于修改设置198中的角宽度设置，方向705的角宽度可以相对于声音源较窄(例如，与方向内的声音源的传播更紧密地结合)或较宽(例如，与方向内的声音源的传播更松散地结合，具有声音源周围的额外角宽度)。应了解，方向选择模块199可以选择目标用于声音修改的多于一个方向，并且选定方向可以重叠或不重叠。

在一些实施方案中，基于源自声音源706的检测到的声音，由方向选择模块199选择方向705。声音识别模块190可以分段并识别来自源706的声音。随后，方向选择模块199可以将这些声音中的一个或多个声音与黑名单中的声音类型匹配并且选择对应于黑名单声音的方向，作为声音修改的目标。例如，方向选择模块199可以基于来自源706的声音与黑名单中的声音类型的匹配来选择方向705。

在一些实施方案中，由方向选择模块199基于声音场景选择方向705，所述声音场景基于检测到的声音进行识别。基于总体检测到的声音或基于已单独进行分段和识别的检测到的声音，声音识别模块190可以识别声音场景。随后，方向选择模块199可以将所识别声音场景与黑名单中的声音场景类型匹配，并且选择对应于黑名单声音场景的方向，作为声音修改的目标。例如，方向选择模块199可以基于方向705中的所识别声音场景与黑名单中的声音场景类型的匹配来选择方向705。

在一些实施方案中，由方向选择模块199基于声音和/或声音场景选择方向705，所述声音和/或声音场景基于位置数据(例如，位置数据132)和/或视觉数据(例如，视觉数据134)进行识别。方向选择模块199可以从位置装置146接收位置数据并且使所述位置数据与地理地图数据(未示出)和取向704相关，以识别环境700内的一个或多个声音源和/或声音场景。例如，方向选择模块199可以使位置数据和取向704与地理地图数据相关，以确定佩戴耳机200的用户702正在人行道上行走，其中车辆交通(以及相应地车辆声音场景)在用户的702的某一侧上。作为另一实例，如果视觉数据示出汽车沿着街道行驶，则视觉数据可以与取向704相关以确定用户702的某一侧具有汽车交通以及相应地交通声音场景。作为另一实例，如果位置数据指示用户接近已知施工场地，并且黑名单包括施工设备声音和/或施工声音场景，则可以选择对应于施工场地的方向用于声音修改。

在一些实施方案中，基于修改设置108中的一个或多个例外，声音修改系统可以让选定方向705上的某些声音传递至用户。例如，如果修改设置198包括黑名单中的交通声音场景以及白名单中的应急车辆警报声音，则声音修改系统将根据这些设置生成音频信号-除了应急车辆警报声音之外，音频信号将在包括交通声音场景的选定方向上产生用于检测到的声音的声音修改。

在一些实施方案中，环境地图模块124可以基于所识别声音和/或声音场景生成环境700的2D或3D地图。环境地图模块124可以基于检测到的声音(例如，噪声数据126)、位置数据132和视觉数据132中的一个或多个生成地图。由环境地图模块124生成的地图将确定声音源706和708以及声音场景相对于用户702和取向704的方向。基于由环境地图模块124生成的地图，方向选择模块199可以选择目标用于声音修改的一个或多个方向(例如，根据修改设置198)。

在一些实施方案中，可以在由环境地图模块124生成的地图内识别声音场景。例如，如果地图包括来自同一方向的多个汽车声音源，则基于作为交通活动的指示的多个汽车声音，可以在由环境地图模块124生成的地图内在所述方向上识别交通声音源。作为另一实例，环境地图模块124可以使位置数据132和取向数据129与地理地图数据相关，以基于用户702在街道人行道上行走而在用户702的一侧上具有交通来生成地图，所述地图识别在用户702的某一侧上的交通声音场景。作为另一实例，如果视觉数据134包括汽车沿着街道行驶，则环境地图模块124可以基于视觉数据134和取向数据129(指示取向704)生成地图，所述地图将用户702的某一侧识别为包括交通声音场景。

在一些实施方案中，仍可以修改来自选定方向外的声音源的声音。图7C示出环境740，其中选定方向705目标用于声音修改。图7C还示出也在图中以阴影示出的源708-1和708-2。源708-1和708-2对应于声音源，所述声音类似于在选定方向705上的声音或否则是黑名单声音。例如，源708-1和708-2可以是源自方向705上的源的声音反射源。声音修改系统可以生成音频信号，所述音频信号修改来自源708-1和708-2的特定声音以及来自方向705的声音。在一些实施方案中，选择用于声音修改的包括源708-1和/或708-2的一个或多个方向，以及方向705。

当用户702移动或改变取向时，声音修改系统保持跟踪检测到的声音以及所识别声音场景，使得选定方向与用户的位置或取向无关。图7D示出环境760，其中用户702已将其头部转到适当位置，例如，如通过指向与环境720(图7B)不同的方向的取向704所示。尽管用户702转动其头部，但是选定方向705和源708-1和708-2在环境760与在环境720处于相同位置，因为源706、708-1和708-2相对于用户702不移动。因此，即使用户取向改变，源的位置相对于用户的位置仍保持相同。如果声音源和/或用户已在环境内移动(例如，用户702相对于源706和708的位置已改变，用户702相对于声音场景的位置已改变)，则声音修改系统可以更新选定方向，使得选定方向继续包括其声音将进行修改的声音源和/或声音场景。因此，即使在用户移动和/或改变取向时，声音修改系统也可以保持跟踪源706和708以及选定的声音修改方向。

在一些实施方案中，方向选择模块199可以基于一天中的时间选择方向，或放弃选择方向。例如，即使基于用户位于街道的人行道上而在用户的一侧上识别到交通声音场景，如果一天中的时间是傍晚或深夜，其指示街道上的交通清闲，因此对应交通声音场景不太可能嘈杂，则方向选择模块199也可以放弃选择包括交通声音场景的方向。

在各个实施方案中，包括在存储器120中的模块和/或应用程序中的任一个可以通过基于云的架构实施。例如，在一些实施方案中，声音修改系统100可以通过I/O130或网络160将检测到的声音的样本、位置数据，和/或视觉数据传输至远程装置(例如，智能手机、服务器系统、云计算平台等)。远程装置可以处理检测到的声音的样本、位置数据和/或视觉数据来识别声音和/或声音场景。在一些实施方案中，远程装置可以包括一个或多个模块或应用程序，所述一个或多个模块或应用程序与环境地图模块124、声音识别模块190和/或配置模块196相同或相似。远程装置还可以包括与声音数据库192和声音场景数据库194类似的一个或多个数据库，并且可以包括与修改设置198相同或相似的用于多个用户的数据。远程装置还可以基于所识别声音和/或声音场景选择声音修改方向(例如，通过与方向选择模块199相同或相似的远程装置中的模块和/或应用程序)，并且将选定方向传输至声音修改系统100。或者，远程装置可以将对应于所识别声音和/或声音场景的信息传输回声音修改系统100，其中方向选择模块199可以基于信息选择声音修改方向。

在一些实施方案中，选定方向的角宽度的大小可以动态地增加或减小。例如，如果选定方向上的声音源移动成彼此更加靠近，则可以减小选定方向的角宽度。作为另一实例，如果选定方向上的声音源移动成分开更远，则可以增加选定方向的角宽度。可以基于修改设置198紧密地或松散地和/或以预定义增量完成角宽度变化。

在一些实施方案中，可以训练声音识别模块190以识别特定声音，例如，特定人的语音。可以使用本领域中已知的任何合适的机器学习训练技术来训练声音识别模块190。在训练期间获得的数据(例如，声音样本)可以存储于声音数据库192和/或声音场景数据库194中。另外或替代地，可以将获得的数据传输至云中的声音数据库和/或声音场景数据库(例如，基于云的数据库)。

图8A至图8C示出根据各个实施方案的用于识别声音以及接收声音的方向的技术。如图8A中所示，用户802在将耳机200佩戴在其头部上时处于环境800内的取向804。声音源805和806包括在环境800中，作为环境700中的声音(例如，噪声、语音等)源。声音源可以对应于声音的实际源(例如，产生声音的对象或人)或声音的反射源(例如，反射声音的墙壁)。声音源805发出匹配黑名单中的声音类型的声音，并且声音源806发出不匹配黑名单中的声音类型的声音。环境800被分成具有预定义角宽度的角区域808。可以在修改设置198中设置预定义角宽度。如图所示，区域808可以是从0度开始的45度增量。应了解，尽管图8A至图8C示出部署在耳机200中的声音修改系统，但是本文所示出和描述的实施方案也适用于以其它形式部署的声音修改系统。

方向选择模块199可以基于发出黑名单声音的声音源关于将环境划分成角区域(例如，区域808)的位置来确定选择用于声音修改的方向。图8B示出表820，所述表示出基于黑名单声音源是否位于区域中而确定声音修改方向。表820示出行828-1至828-8，每个行对应于相应区域808。列822识别区域。例如，行828-1对应于区域1，其在环境800中对应于区域808-1，并且行828-2对应于区域2，其对应于区域808-2。列824指示要修改的声音(例如，黑名单声音)是否位于区域中(例如，黑名单声音源位于区域中)。列826指示区域的角范围，其中距取向804的0度作为参考角度。例如，列826中所示的角范围指示每个区域具有45度的角宽度。应了解，类似于表820的数据结构实际上不需要由方向选择模块199生成。当然，表820提供了方向选择模块199可以进行的确定的概念性描述，作为选择声音修改方向的过程的一部分。

返回至图8A，发出黑名单声音的声音源805位于区域808-4和808-5中。因此，在列824中，在行828-4和828-5中，表820指示区域4和5(分别对应于区域808-4和808-5)包括要修改的声音。基于表820中所示的确定，方向选择模块199可以选择将对应于区域808-4和808-5的区域4和5组合的方向，作为目标声音修改方向。图8C示出具有画阴影区域808-4和808-5的环境840，指示已选择对应于这两个区域的方向用于声音修改。

图9阐述根据各个实施方案的一个或多个方面的用于定向声音修改的方法步骤的流程图。尽管结合图1至图8C的系统描述方法步骤，但是本领域技术人员应理解，被配置成以任何顺序执行方法步骤的任何系统落入各种实施方案的范围内。

如图9中所示，方法900开始于步骤902处，其中音频传感器150检测到一个或多个声音。音频传感器150从环境捕获声音。在步骤904处，位置装置146获得位置数据。例如，位置数据146可以从GPS卫星获得声音修改系统和/或用户的维度和经度坐标。在步骤906处，传感器装置142获得视觉数据。例如，视觉传感器捕获环境的图像。

在步骤908处，声音识别模块190识别一个或多个检测到的声音和/或声音场景。声音识别模块190可以使用机器学习技术和声音数据库192分段并识别声音(以及对应声音源)。另外或替代地，声音识别模块190可以使用机器学习技术和声音场景数据库194基于检测到的声音(分段并识别，或未分段和识别)来识别声音场景。另外或替代地，声音识别模块190可以基于位置数据和/或视觉数据识别声音源和/或声音场景。

在各种实施方案中，可以基于检测到的声音本身、位置数据和视觉数据中的一个或多个来识别声音和/或声音场景。例如，在一些实施方案中，可以基于位置数据和取向数据但不基于所捕获声音或图像来识别声音源和/或声音场景。作为另一实例，可以基于所捕获声音和图像但不基于位置数据来识别声音和/或声音场景。因此，在一些实施方案中，一个或多个步骤906和908是任选的并且可以省略。此外，在一些实施方案中，检测到的声音的识别可以是任选的。

在步骤910处，方向选择模块199确定所识别声音和/或声音源是否在黑名单中。在各种实施方案中，将声音和/或声音源与黑名单中的声音和/或声音源相比较。另外或替代地，将用户的位置与黑名单位置相比较，以识别接近所述位置的声音源和/或声音场景是否在黑名单中。如果所识别声音和/或声音场景不在黑名单中(910-否)，则方法前进至步骤912，其中使所识别声音场景中的一种和/或多种所识别声音通过，而不进行修改。从步骤912，方法可以返回至步骤902以检测额外声音等。如果所识别声音和/或声音场景在黑名单中(910-是)，则方法前进至步骤914。

在步骤914处，方向选择模块199选择方向，所述方向包括用于声音修改的所识别声音和/或声音源。在步骤916处，音频信号模块122生成所识别声音和/或声音场景的音频信号。生成音频信号以产生用于所识别声音和/或声音场景的声音修改。在步骤918处，音频输出装置155输出所生成音频信号以产生声音修改。从此处，方法可以返回至步骤902以检测额外声音等，或方法可以结束。

总之，声音修改系统自动地识别环境内的声音和/或声音场景，并且基于声音和/或声音场景的识别确定一个或多个声音修改方向。声音修改系统可以使用机器学习过程来分段所捕获声音并且识别个别声音源。类似地，声音修改系统可以使用机器学习过程基于至少所捕获声音来识别环境中的一个或多个声音场景。声音修改系统基于所识别声音源和/或声音场景确定一个或多个声音修改方向，并且生成音频信号以在所确定方向上修改声音。

所公开技术的至少一个优点和技术改进在于，可以在很少或没有用户交互的情况下自动地确定目标声音修改方向。用户不必手动地将声音修改系统引导至目标用于声音修改的方向。另外，进入环境的新声音可以目标用于在很少或没有用户交互的情况下进行修改。因此，可以减少或消除环境中的不想要的噪声，同时仍使用户能够听到源自环境中的其它方向的感兴趣声音。

1.在一些实施方案中，一种系统包括多个音频传感器，所述音频传感器被配置成从环境获取声音；以及至少一个处理器，所述至少一个处理器耦合至所述多个音频传感器并且被配置成：确定所述环境内的方向；基于从所述环境内的所述方向获取的声音生成音频信号；以及将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与来自所述环境内的所述方向的所述声音组合，以产生修改后的声音。

2.如条款1所述的系统，其中所述至少一个处理器还被配置成基于从所述环境获取的所述声音识别所述环境中包括的至少一个声音类型，并且其中基于所述至少一个声音类型确定所述环境内的所述方向。

3.如条款1或2所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：识别所述至少一个声音类型中包括的第一声音类型；以及识别由所述多个音频传感器从其获取所述第一声音类型的所述环境内的所述方向。

4.如条款1至3中任一项所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：识别所述至少一个声音类型中包括的第一声音类型；以及识别获取所述第一声音类型的所述多个音频传感器中包括的至少一个音频传感器，其中所述环境内的所述方向对应于所述至少一个音频传感器从其获取声音的方向。

5.如条款1至4中任一项所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：识别所述至少一个声音类型中包括的多个声音类型；确定所述多个声音类型对应于黑名单中包括的声音场景；以及识别由所述多个音频传感器从其获取所述多个声音类型的所述环境内的所述方向。

6.如条款1至5中任一项所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：通过至少一个位置装置获得所述系统的第一位置；基于所述系统的所述第一位置识别所述环境中包括的至少一个声音类型；确定所述至少一个声音类型包括在黑名单中；以及基于所述系统的所述位置以及所述至少一个声音类型的位置来确定所述环境内的所述方向。

7.如条款1至6中任一项所述的系统，其中所述至少一个处理器还被配置成：通过所述至少一个位置装置获得所述系统的第二位置，其中所述系统的所述第二位置不同于所述系统的所述第一位置；基于所述系统的所述第二位置识别所述环境中包括的至少一个第二声音类型；确定所述至少一个第二声音类型包括在所述黑名单中；基于所述系统的所述第二位置以及所述至少一个第二声音类型的位置来确定所述环境内的第二方向；基于从所述环境内的所述第二方向获取的声音生成第二音频信号；以及将所述第二音频信号传输至所述至少一个音频输出装置以生成第二音频输出，其中所述第二音频输出与来自所述环境内的所述第二方向的所述声音组合，以产生第二修改后声音。

8.如条款1至7中任一项所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：通过至少一个图像传感器获取所述环境的视觉数据；基于所述视觉数据识别所述环境中的至少一个声音类型；确定所述至少一个声音类型包括在黑名单中；以及基于与所述至少一个声音类型相关联的所述视觉数据中的位置来确定所述环境内的所述方向。

9.在一些实施方案中，一种用于定向声音修改的方法包括：通过多个音频传感器从环境获取声音；确定所述环境内的方向；基于从所述环境内的所述方向获取的声音生成音频信号；以及将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与来自所述环境内的所述方向的所述声音组合，以产生修改后声音。

10.如条款9所述的方法，其中确定所述环境内的所述方向包括：识别所述环境中包括的第一声音类型；以及基于所述第一声音类型确定所述环境内的所述方向。

11.如条款9或10所述的方法，其中识别所述第一声音类型包括：通过至少一个图像传感器获得所述环境的视觉数据；以及在所述视觉数据中识别对应于所述第一声音类型的至少一个对象。

12.如条款9至11中任一项所述的方法，其中识别所述第一声音类型包括：获得指示与所述多个音频传感器相关联的位置的位置数据；以及基于与所述多个音频传感器相关联的所述位置识别所述第一声音类型。

13.如条款9至12中任一项所述的方法，还包括：获得指示与所述多个音频传感器相关联的第二位置的第二位置数据；基于与所述多个音频传感器相关联的所述第二位置以及对应于所述第一声音类型的位置来确定所述环境内的第二方向；基于从所述环境内的所述第二方向获取的声音生成第二音频信号；以及将所述第二音频信号传输至所述至少一个音频输出装置以生成第二音频输出，其中所述第二音频输出与来自所述环境内的所述第二方向的所述声音组合，以产生第二修改后声音。

14.如条款9至13中任一项所述的方法，其中确定所述环境内的所述方向包括：基于从所述环境获取的所述声音识别所述环境中包括的第一声音类型；以及基于所述第一声音类型确定所述环境内的所述方向。

15.如条款9至14中任一项所述的方法，其中识别所述第一声音类型包括将从所述环境获取的所述声音与声音数据库相比较。

16.在一些实施方案中，一种非暂时性计算机可读存储介质存储指令，所述指令在由至少一个处理器执行时使所述至少一个处理器执行以下步骤：通过多个音频传感器中包括的至少一个音频传感器从环境获取第一声音；基于所述第一声音识别所述环境中包括的第一声音类型；基于所述第一声音类型确定所述环境内的方向，其中所述第一声音从所述环境内的所述方向获取；基于所述第一声音生成音频信号；以及将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与所述第一声音组合以产生修改后声音。

17.如条款16所述的非暂时性计算机可读存储介质，其中确定所述环境内的所述方向包括确定所述第一声音通过所述至少一个音频传感器获取，其中所述至少一个音频传感器被取向成从所述环境内的所述方向获取声音。

18.如条款16或17所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括将至少一个机器学习算法应用于所述第一声音。

19.如条款16至18中任一项所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括：获得所述环境的视觉数据；以及基于所述第一声音和所述视觉数据识别所述第一声音类型。

20.如条款16至19中任一项所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括：获得指示与所述多个音频传感器相关联的位置的位置数据；以及基于所述第一声音以及与所述多个音频传感器相关联的所述位置识别所述第一声音类型。

任何权利要求中所述的任何权利要求元素和/或本申请中描述的任何元素的任何和所有组合以任何方式落入所描述实施方案和本公开保护的预期范围内。

已经出于说明的目的呈现了各种实施方案的描述，但是所述描述并不意图穷举或限制于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于所属领域普通技术人员来说是显而易见的。

本公开实施方案的各方面可以体现为系统、方法或计算机程序产品。因此，本公开的各方面可以采用完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或者组合软件和硬件方面的实施方案的形式，所述软件和硬件方面在本文中通常都可以称为“模块”或“系统”。另外，本公开中描述的任何硬件和/或软件技术、过程、功能、组件、引擎、模块或系统可以实施为电路或电路集合。此外，本公开的各方面可以采用体现在一个或多个计算机可读介质中的计算机程序产品的形式，所述计算机可读介质具有在其上体现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置，或者前述的任何合适的组合。计算机可读存储介质的更具体实例(非详尽列表)将包括以下内容：具有一条或多条电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或上述项的任何合适组合。在本文件的上下文中，计算机可读存储介质可以是任何有形介质，其可以包含或存储程序以供指令执行系统、设备或装置使用或与指令执行系统、设备或装置结合使用。

上文参考根据本公开实施方案的方法、设备(系统)和计算机程序产品的流程图图示和/或框图描述了本公开的各方面。应理解，流程图图示和/或框图中的每个框以及流程图图示和/或框图中的框的组合可以由计算机程序指令实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以产生机器。当通过计算机或其它可编程数据处理设备的处理器执行时，所述指令使得能够实施一个或多个流程图和/或框图框中指定的功能/动作。这些处理器可以是但不限于通用处理器、专用处理器、应用程序特定处理器，或现场可编程门阵列。

图式中的流程图和框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示代码的模块、片段或部分，其包括用于实施指定逻辑功能的一个或多个可执行指令。还应注意，在一些替代实施方式中，框中提到的功能可以不按图中所示的顺序进行。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按相反顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统实施，或由专用硬件和计算机指令的组合实施。

虽然前述内容针对本公开的实施方案，但是可以在不脱离本公开的基本范围的情况下设计本公开的其它和进一步的实施方案，并且本公开的范围通过所附权利要求书确定。

Claims

1.一种系统，包括：

多个音频传感器，所述多个音频传感器被配置成从环境获取声音；以及

至少一个处理器，所述至少一个处理器耦合至所述多个音频传感器并且被配置成：

确定所述环境内的方向；

基于从所述环境内的所述方向获取的声音生成音频信号；以及

将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与来自所述环境内的所述方向的声音组合，以产生修改后声音。

2.如权利要求1所述的系统，其中所述至少一个处理器还被配置成基于从所述环境获取的所述声音识别所述环境中包括的至少一个声音类型，并且其中基于所述至少一个声音类型确定所述环境内的所述方向。

3.如权利要求2所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：

识别所述至少一个声音类型中包括的第一声音类型；以及

识别由所述多个音频传感器从其获取所述第一声音类型的所述环境内的所述方向。

4.如权利要求2所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：

识别所述至少一个声音类型中包括的第一声音类型；以及

识别获取所述第一声音类型的所述多个音频传感器中包括的至少一个音频传感器，其中所述环境内的所述方向对应于所述至少一个音频传感器从其获取声音的方向。

5.如权利要求2所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：

识别所述至少一个声音类型中包括的多个声音类型；

确定所述多个声音类型对应于黑名单中包括的声音场景；以及

识别由所述多个音频传感器从其获取所述多个声音类型的所述环境内的所述方向。

6.如权利要求1所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：

通过至少一个位置装置获得所述系统的第一位置；

基于所述系统的所述第一位置识别所述环境中包括的至少一个声音类型；

确定所述至少一个声音类型包括在黑名单中；以及

基于所述系统的所述位置以及所述至少一个声音类型的位置来确定所述环境内的所述方向。

7.如权利要求6所述的系统，其中所述至少一个处理器还被配置成：

通过所述至少一个位置装置获得所述系统的第二位置，其中所述系统的所述第二位置不同于所述系统的所述第一位置；

基于所述系统的所述第二位置识别所述环境中包括的至少一个第二声音类型；

确定所述至少一个第二声音类型包括在所述黑名单中；

基于所述系统的所述第二位置以及所述至少一个第二声音类型的位置来确定所述环境内的第二方向；

基于从所述环境内的所述第二方向获取的声音生成第二音频信号；以及

将所述第二音频信号传输至所述至少一个音频输出装置以生成第二音频输出，其中所述第二音频输出与来自所述环境内的所述第二方向的所述声音组合，以产生第二修改后声音。

8.如权利要求1所述的系统，其中所述至少一个处理器被配置成通过以下方式确定所述环境内的所述方向：

通过至少一个图像传感器获取所述环境的视觉数据；

基于所述视觉数据识别所述环境中的至少一个声音类型；

确定所述至少一个声音类型包括在黑名单中；以及

基于与所述至少一个声音类型相关联的所述视觉数据中的位置来确定所述环境内的所述方向。

9.一种用于定向声音修改的方法，包括：

通过多个音频传感器从环境获取声音；

确定所述环境内的方向；

将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与来自所述环境内的所述方向的所述声音组合，以产生修改后声音。

10.如权利要求9所述的方法，其中确定所述环境内的所述方向包括：

识别所述环境中包括的第一声音类型；以及

基于所述第一声音类型确定所述环境内的所述方向。

11.如权利要求10所述的方法，其中识别所述第一声音类型包括：

通过至少一个图像传感器获得所述环境的视觉数据；以及

在所述视觉数据中识别对应于所述第一声音类型的至少一个对象。

12.如权利要求10所述的方法，其中识别所述第一声音类型包括：

获得指示与所述多个音频传感器相关联的位置的位置数据；以及

基于与所述多个音频传感器相关联的所述位置识别所述第一声音类型。

13.如权利要求12所述的方法，还包括：

获得指示与所述多个音频传感器相关联的第二位置的第二位置数据；

基于与所述多个音频传感器相关联的所述第二位置以及对应于所述第一声音类型的位置来确定所述环境内的第二方向；

14.如权利要求9所述的方法，其中确定所述环境内的所述方向包括：

基于从所述环境获取的所述声音识别所述环境中包括的第一声音类型；以及

基于所述第一声音类型确定所述环境内的所述方向。

15.如权利要求14所述的方法，其中识别所述第一声音类型包括将从所述环境获取的所述声音与声音数据库相比较。

16.一种存储指令的非暂时性计算机可读存储介质，所述指令在由至少一个处理器执行时使所述至少一个处理器执行以下步骤：

通过多个音频传感器中包括的至少一个音频传感器从环境获取第一声音；

基于所述第一声音识别所述环境中包括的第一声音类型；

基于所述第一声音类型确定所述环境内的方向，其中所述第一声音从所述环境内的所述方向获取；

基于所述第一声音生成音频信号；以及

将所述音频信号传输至至少一个音频输出装置以生成音频输出，其中所述音频输出与所述第一声音组合以产生修改后声音。

17.如权利要求16所述的非暂时性计算机可读存储介质，其中确定所述环境内的所述方向包括确定所述第一声音通过所述至少一个音频传感器获取，其中所述至少一个音频传感器被取向成从所述环境内的所述方向获取声音。

18.如权利要求16所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括将至少一个机器学习算法应用于所述第一声音。

19.如权利要求16所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括：

获得所述环境的视觉数据；以及

基于所述第一声音和所述视觉数据识别所述第一声音类型。

20.如权利要求16所述的非暂时性计算机可读存储介质，其中识别所述第一声音类型包括：

基于所述第一声音以及与所述多个音频传感器相关联的所述位置识别所述第一声音类型。