CN118020314A - 音频事件数据处理 - Google Patents
音频事件数据处理 Download PDFInfo
- Publication number
- CN118020314A CN118020314A CN202280051101.4A CN202280051101A CN118020314A CN 118020314 A CN118020314 A CN 118020314A CN 202280051101 A CN202280051101 A CN 202280051101A CN 118020314 A CN118020314 A CN 118020314A
- Authority
- CN
- China
- Prior art keywords
- audio
- processors
- data
- sound
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 461
- 238000000034 method Methods 0.000 claims description 280
- 230000005236 sound signal Effects 0.000 description 524
- 230000008569 process Effects 0.000 description 76
- 238000001514 detection method Methods 0.000 description 54
- 230000007613 environmental effect Effects 0.000 description 46
- 230000004044 response Effects 0.000 description 35
- 230000005540 biological transmission Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 19
- 230000003190 augmentative effect Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 239000011521 glass Substances 0.000 description 10
- 230000009467 reduction Effects 0.000 description 10
- 230000000007 visual effect Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 230000001965 increasing effect Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 241000269400 Sirenidae Species 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 210000003128 head Anatomy 0.000 description 3
- 210000000988 bone and bone Anatomy 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- SAZUGELZHZOXHB-UHFFFAOYSA-N acecarbromal Chemical compound CCC(Br)(CC)C(=O)NC(=O)NC(C)=O SAZUGELZHZOXHB-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013481 data capture Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000030808 detection of mechanical stimulus involved in sensory perception of sound Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 210000003625 skull Anatomy 0.000 description 1
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
一种第二设备包括存储器和一个或多个处理器,该存储器被配置为存储指令,该一个或多个处理器被配置为:从第一设备接收音频类别的指示,该音频类别对应于音频事件。
Description
I.相关申请的交叉引用
本申请要求共同拥有的2021年7月27日递交的美国临时专利申请第63/203,562号和2022年7月25日递交的美国非临时专利申请第17/814,665号的优先权的权益,这些专利申请各自的内容全文以引用方式明确地并入本文。
II.技术领域
本公开内容整体涉及音频信号处理。
III.相关技术说明
技术进步已导致更小且更强大的计算设备。例如,当前存在各种各样的便携式个人计算设备,包括小型、轻量级且易于用户携带的无线电话(诸如移动和智能电话、平板设备和膝上型计算机)。这些设备可以通过无线网络传送语音和数据分组。此外,许多此类设备并入了额外的功能,例如,数字相机、数字摄像机、数字记录器和音频文件播放器。此外,此类设备可以处理可执行指令,包括软件应用,例如网络浏览器应用,其可以用于访问互联网。照此,这些设备可以包括关键的计算能力。
诸如移动和智能电话之类的设备可与头戴式设备配对,使用户无需将移动电话放在耳朵上即可收听音频。用户佩戴头戴式设备的缺点之一是用户可能不知道周围环境。作为非限制性示例,如果用户步行穿过十字路口,则用户可能听不到正在驶近的交通工具。在用户的焦点在别处(例如,在用户的移动电话上或看向远离正在驶近的交通工具的方向)的情况下,用户可能无法确定交通工具正在驶近或者交通工具正在从哪个方向驶近。
IV.发明内容
根据本公开内容的一种实施方式,第二设备包括存储器和一个或多个处理器,该存储器被配置为存储指令。该一个或多个处理器被配置为:从第一设备接收音频类别的指示,该音频类别对应于音频事件。
根据本公开内容的另一种实施方式,一种处理音频的方法包括:在第二设备的一个或多个处理器处,接收音频类别的指示。该指示是从第一设备接收的并且对应于音频事件。该方法还包括:在该第二设备的该一个或多个处理器处,处理音频数据,以验证在该音频数据中表示的声音对应于该音频事件。
根据本公开内容的另一种实施方式,一种非暂态计算机可读介质包括指令,该指令在由第二设备的一个或多个处理器执行时,使该一个或多个处理器:从第一设备接收音频类别的指示,该音频类别对应于音频事件。
根据本公开内容的另一种实施方式,一种装置包括:构件,该构件用于接收音频类别的指示。该指示从远程设备接收并且对应于音频事件。该装置还包括构件,该构件用于处理音频数据,以验证在该音频数据中表示的声音对应于该音频事件。
本公开内容的其它方面、优点和特征将在审阅包括以下部分的整个申请后变得显而易见:附图说明、具体实施方式和权利要求书。
V.附图说明
图1是根据本公开内容的一些示例的系统的一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图2是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图3是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图4是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图5是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图6是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图7是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图8是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图9是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图10是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图11是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图并且包括音频内容分离的图示,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图12是根据本公开内容的一些示例的操作的一种特定实施方式的图示,该操作可在音频处理设备中执行。
图13是根据本公开内容的一些示例的操作的另一种特定实施方式的图示,该操作可在音频处理设备中执行。
图14是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图15是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图16是根据本公开内容的一些示例的系统的另一个特定例示性方面的框图,该系统被配置为对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
图17例示了根据本公开内容的一些示例的音频场景的示例,该音频场景包括多个定向声源,该多个定向声源可通过对从一个或多个麦克风接收的一个或多个音频信号的定向处理来确定。
图18例示了根据本公开内容的一些示例的共享音频场景的示例,该共享音频场景包括多个定向声源。
图19例示了根据本公开内容的一些示例的集成电路的示例,该集成电路包括用于生成定向音频信号数据的定向音频信号处理单元。
图20是根据本公开内容的一些示例的移动设备的图示,该移动设备包括用于生成定向音频信号数据的定向音频信号处理单元。
图21是根据本公开内容的一些示例的头戴式设备的图示,该头戴式设备包括用于生成定向音频信号数据的定向音频信号处理单元。
图22是根据本公开内容的一些示例的可穿戴电子设备的图示,该可穿戴电子设备包括用于生成定向音频信号数据的定向音频信号处理单元。
图23是根据本公开内容的一些示例的声控扬声器系统的图示,该声控扬声器系统包括用于生成定向音频信号数据的定向音频信号处理单元。
图24是根据本公开内容的一些示例的相机的图示,该相机包括用于生成定向音频信号数据的定向音频信号处理单元。
图25是根据本公开内容的一些示例的头戴式设备(诸如虚拟现实头戴式设备、混合现实头戴式设备或增强现实头戴式设备)的图示,该头戴式设备包括用于生成定向音频信号数据的定向音频信号处理单元。
图26是根据本公开内容的一些示例的混合现实或增强现实眼镜设备的图示,该混合现实或增强现实眼镜设备包括用于生成定向音频信号数据的定向音频信号处理单元。
图27是根据本公开内容的一些示例的耳塞式耳机的图示,该耳塞式耳机包括用于生成定向音频信号数据的定向音频信号处理单元。
图28是根据本公开内容的一些示例的交通工具的第一示例的图示,该交通工具包括用于导航该交通工具的定向音频信号处理单元。
图29是根据本公开内容的一些示例的交通工具的第二示例的图示,该交通工具包括用于导航该交通工具的定向音频信号处理单元。
图30是根据本公开内容的一些示例的处理音频的方法的一种特定实施方式的图示。
图31是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图32是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图33是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图34是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图35是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图36是根据本公开内容的一些示例的处理音频的方法的另一种特定实施方式的图示。
图37是根据本公开内容的一些示例的设备的一个特定例示性示例的框图,该设备能够操作以对从一个或多个麦克风接收的一个或多个音频信号执行定向处理。
VI.具体实施方式
公开了执行定向音频信号处理的系统和方法。第一设备(诸如头戴式设备)可包括多个麦克风,该多个麦克风被配置为捕获周围环境中的声音。在该第一设备上,每个麦克风可具有不同的定向和位置,以便从不同的方向捕获声音。响应于捕获到声音,每个麦克风可生成对应的音频信号,该音频信号被提供给定向音频信号处理单元。该定向音频信号处理单元可处理来自麦克风的音频信号,以识别与声音相关联的不同音频事件和每个音频事件的位置。在一些实施方式中,通过该第一设备处的一个或多个分类器来处理与音频事件相关联的音频信号,以识别该音频事件的音频类别。在非限制性示例中,如果该多个麦克风中的至少一个麦克风捕获汽车声音,则该定向音频信号处理单元可基于与该对应的音频信号相关联的特性(例如,音调、频率等)来识别该汽车声音,并且可基于捕获该声音的相应麦克风来识别该汽车声音的相对方向。响应于识别到该汽车声音和对应的相对方向,该第一设备可生成表示该声音和方向的数据,并且可向第二设备(诸如移动电话)提供该数据。在一些示例中,表示该声音的该数据可包括音频类别或嵌入(embedding)和与该声音的来源相关联的波达方向(direction-of-arrival)信息。该第二设备可使用该数据(例如,方向信息)来执行附加操作。作为非限制性示例,该第二设备可确定是生成视觉警报还是物理警报,以提醒头戴式设备的用户注意附近交通工具。
根据一些方面,使用第一设备(诸如头戴式设备)来执行分布式音频处理,以使用多个麦克风捕获声音并对与所捕获的声音对应的音频执行初步处理。例如,作为例示性、非限制性示例,该第一设备可执行:波达方向处理,以定位一个或多个声源;声学环境处理,以基于周围声音来检测该第一设备的环境或环境变化;音频事件处理,以识别与音频事件对应的声音;或它们的组合。
由于该第一设备在处理资源、存储容量、电池寿命等方面可能相对受约束,因此该第一设备可向具有较大计算资源、存储资源和功率资源的第二设备(诸如移动电话)发送关于音频处理的信息。例如,在一些实施方式中,该第一设备向该第二设备发送音频数据的表示和在该音频数据中检测的音频事件的分类,并且该第二设备执行附加处理以验证该音频事件的分类。根据一些方面,该第二设备使用该第一设备提供的信息(诸如方向信息和与声音事件相关联的分类),作为对处理该音频数据的分类器的附加输入。结合该方向信息、来自该第一设备的分类或两者执行音频数据的分类可改进该第二设备处的分类器的准确性、速度或一个或多个其他方面。
此类分布式音频处理使得该第一设备的用户能够受益于该第二设备的增强的处理能力,诸如通过提供对用户附近发生的声音事件的准确检测,并且使得该第一设备能够向用户警告检测的事件。例如,该第一设备可自动地从回放模式(例如,向用户播放音乐或其他音频)转换到透明模式,在该透明模式下向用户播放与检测的音频事件对应的声音。下面参考附图更详细地描述其中可使用所公开技术的应用的其他优点和示例。
下面参考附图描述本公开内容的特定方面。在本说明书中,共用的特征由共用的附图标记来指定。如本文所使用的,各种术语仅用于描述特定实现方式的目的,而并不旨在对实现方式进行限制。例如,单数形式“一(a)”、“一(an)”和“该(the)”旨在也包括复数形式,除非上下文另外明确指示。此外,本文所描述的一些特征在一些实现中是单数,而在其他实现中是复数。举例说明,图1描绘了包括一个或多个处理器(图1的“处理器”116)的设备110,这指示在一些实施方式中,设备110包括单个处理器116,而在其他实施方式中,设备110包括多个处理器116。为了便于本文引用,这样的特征通常被引入为“一个或多个”特征,并且后续以单数形式来提及,除非描述了与多个特征相关的方面。
可以进一步理解的是,术语“包括”可与“包含”互换地使用。另外,应当理解,术语“其中”可与“在其中”互换地使用。如本文所使用的,“示例性的”可指示示例、实施方式和/或方面,而不应理解为限制性的或指示优选项或优选实施方式。如本文所使用的,用于修饰元素(例如,结构、组件、操作等)的序数术语(例如,“第一”、“第二”、“第三”等)本身并不指示该元素相对于另一元素的任何优先级或顺序,而只是将该元素与具有相同名称(但使用序数术语)的另一元素相区分。如本文所使用的,术语“集合”是指一个或多个特定元素,而术语“多个”是指多个(例如,两个或更多个)特定元素。
如本文所使用的,“耦合”可以包括“通信地耦合”、“电耦合”或“物理地耦合”,以及还可以(或替代地)包括其任何组合。两个设备(或组件)可经由一个或多个其他设备、组件、导线、总线、网络(例如,有线网络、无线网络或它们的组合)等直接或间接耦合(例如,通信地耦合、电耦合或物理地耦合)。作为例示性、非限制性示例,电耦合的两个设备(或组件)可包括在相同的设备中,也可包括在不同的设备中,并且可经由电子器件、一个或多个连接器或电感耦合来连接。在一些实施方式中,通信地耦合(诸如电连通)的两个设备(或组件)可经由一个或多个导线、总线、网络等直接或间接地发送和接收信号(例如,数字信号或模拟信号)。如本文所使用的,“直接耦合”可包括在没有中间组件的情况下耦合(例如,通信地耦合、电耦合或物理地耦合)的两个设备。
在本公开内容中,诸如“确定”、“计算”、“估计”、“移位”、“调整”等术语可以用于描述如何执行一个或多个操作。应当注意,此类术语不应被解读为限制性的,并且可以利用其他技术来执行类似的操作。此外,如本文所提及的,“生成”、“计算”、“估计”、“使用”、“选择”、“访问”和“确定”可以互换使用。例如,“生成”、“计算”、“估计”或“确定”参数(或信号)可以是指主动生成、估计、计算或确定该参数(或信号),或者可以是指使用、选择或访问(例如,由另一组件或设备)已经生成的参数(或信号)。
参考图1,公开了系统的一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为100。系统100包括第一麦克风102和第二麦克风104,它们各自耦合到设备110或集成在该设备中。系统100还包括第三麦克风106和第四麦克风108,它们耦合到设备120或集成在该设备中。尽管两个麦克风102、104被例示为耦合到设备110或集成在该设备中,并且两个麦克风106、108被例示为耦合到设备120或集成在该设备中,但是在其他实施方式中,设备110、设备120或两者可各自耦合到任何数量的附加麦克风。作为非限制性示例,四(4)个麦克风可耦合到设备110,并且另外四(4)个麦克风可耦合到设备120。在一些实施方式中,麦克风102、104、106和108被实施为定向麦克风。在其他实施方式中,麦克风102、104、106和108中的一个或多个(或全部)麦克风被实施为全向麦克风。
根据一种实施方式,设备110对应于头戴式设备,并且设备120对应于移动电话。在一些场景中,设备110可使用无线连接(例如,(美国华盛顿蓝牙技术联盟的注册商标)连接)与设备120配对。例如,设备110可使用低功耗协议(例如,/>低功耗(BLE)协议)与设备120进行通信。在其他示例中,无线连接对应于根据IEEE 802.11型(例如,WiFi)无线局域网或一个或多个其他无线射频(RF)通信协议发送和接收信号。
第一麦克风102被配置为捕获来自一个或多个来源180的声音182。在图1的例示性示例中,来源180对应于交通工具,诸如汽车。因此,如果设备110对应于头戴式设备,则麦克风102、104可用于捕获附近汽车的声音182。然而,应当理解,该交通工具仅为声源的非限制性示例,并且本文所述的技术可使用其他声源来实施。在捕获来自来源180的声音182时,第一麦克风102被配置为生成表示所捕获的声音182的音频信号170。类似地,第二麦克风104被配置为捕获来自一个或多个来源180的声音182。在捕获来自来源180的声音182时,第二麦克风104被配置为生成表示所捕获的声音182的音频信号172。
第一麦克风102和第二麦克风104可具有不同的位置、不同的定向或两者。因此,麦克风102、104可能在不同的时间、以不同的相位或两者捕获到声音182。举例说明,如果第一麦克风102比第二麦克风104更靠近来源180,则第一麦克风102可能在第二麦克风104捕获到声音182之前先捕获到声音182。如下文所述,如果麦克风102、104的位置和定向已知,则麦克风102、104分别生成的音频信号170、172可用于在设备110、设备120或两者处执行定向处理。换句话说,设备110可使用音频信号170、172来确定来源180的位置、确定声音182的波达方向、对与声音182对应的音频进行空间滤波等。如下面进一步描述的,设备110可向设备120提供定向处理的结果(例如,与定向处理相关联的数据),以用于高复杂性处理,反之亦然。
设备110包括第一输入接口111、第二输入接口112、存储器114、一个或多个处理器116和调制解调器118。第一输入接口111耦合到一个或多个处理器116,并且被配置为耦合到第一麦克风102。第一输入接口111被配置为从第一麦克风102接收音频信号170(例如,第一麦克风输出),并将音频信号170作为音频帧174提供给处理器116。第二输入接口112耦合到一个或多个处理器116,并且被配置为耦合到第二麦克风104。第二输入接口112被配置为从第二麦克风104接收音频信号172(例如,第二麦克风输出),并将音频信号172作为音频帧176提供给处理器116。音频帧174、176在本文中还可称为音频数据178。
任选地,一个或多个处理器116包括波达方向处理单元132、音频事件处理单元134、声学环境处理单元136、波束形成单元138或它们的组合。根据一种实施方式,一个或多个处理器116的组件中的一个或多个组件可使用专用电路来实施。作为非限制性示例,一个或多个处理器116的组件中的一个或多个组件可使用现场可编程门阵列(FPGA)、专用集成电路(ASIC)等来实施。根据另一种实施方式,一个或多个处理器116的组件中的一个或多个组件可通过执行存储在存储器114中的指令115来实施。例如,存储器114可以是存储指令115的非暂态计算机可读介质,该指令能够由一个或多个处理器116执行以执行本文所述的操作。
波达方向处理单元132可被配置为处理多个音频信号170、172,以生成与在音频信号170、172中表示的声音182的来源180对应的波达方向信息142。举例说明,波达方向处理单元132可选择从来自每个麦克风102、104的音频信号170、172生成的表示类似声音(诸如来自来源180的声音182)的音频帧174、176。例如,波达方向处理单元132可处理音频帧174、176,以比较声音特性并确保音频帧174、176表示声音182的相同实例。在波达方向处理的例示性、非限制性示例中,响应于确定音频帧174、176表示声音182的相同实例,波达方向处理单元132可比较每个音频帧174、176的时间戳,以确定哪个麦克风102、104首先捕获了声音182的对应实例。如果音频帧174具有比音频帧176更早的时间戳,则波达方向处理单元132可生成指示来源180更接近第一麦克风102的波达方向信息142。如果音频帧176具有比音频帧174更早的时间戳,则波达方向处理单元132可生成指示来源180更接近第二麦克风104的波达方向信息142。因此,基于类似音频帧174、176的时间戳,波达方向处理单元132可定位声音182和对应的来源180。来自附加麦克风的音频帧的时间戳可用于以与上文所述类似的方式改进定位。
在一些实施方式中,可使用用于确定波达方向信息142的一种或多种其他技术来代替或补充如上文所述的时间差,诸如测量在设备110的麦克风阵列中的每个麦克风(例如,麦克风102和104)处接收的声音182的相位差。在一些实施方式中,麦克风102、104、106和108可结合设备120作为分布式麦克风阵列操作,并且波达方向信息142是基于来自麦克风102、104、106和108中的每个麦克风的声音的特性(诸如波达时间或相位)并且基于麦克风102、104、106和108的相对位置和定向而生成的。在此类实施方式中,可在设备110与设备120之间发送关于声音特性的信息(例如,相位信息、时间信息或两者)、所捕获的音频数据(例如,音频信号170、172的至少一部分)或它们的组合,以使用分布式麦克风阵列进行波达方向检测。
可向设备120发送波达方向信息142。例如,调制解调器118可向设备120发送数据,该数据基于波达方向信息142。在一些示例中,在设备110处生成波达方向信息142对应于执行低复杂性处理操作。设备120可使用波达方向信息142来执行高复杂性处理操作。例如,在一些实施方式中,设备110可以是资源受限的设备,诸如相对于设备120具有有限电池寿命、有限存储容量或有限处理能力的设备。在设备120处执行高复杂性处理操作可从设备110分流资源密集型操作。
举例说明,设备120可任选地包括一个或多个传感器129。作为非限制性示例,传感器129可包括非音频传感器,诸如360度相机、激光雷达传感器等。基于波达方向信息142,设备120可命令该360度相机聚焦在来源180上,命令该激光雷达传感器测量设备110、120的用户与来源180之间的距离,等等。
音频事件处理单元134可被配置为处理多个音频信号170、172,以执行音频事件检测。举例说明,音频事件处理单元134可处理音频帧174、176的声音特性,并将该声音特性与多个音频事件模型进行比较,以确定音频事件是否已经发生。例如,音频事件处理单元134可访问数据库(未示出),该数据库包括用于不同音频事件(诸如汽车喇叭、火车喇叭、行人交谈等)的模型。响应于该声音特性与特定模型匹配(或基本上匹配),音频事件处理单元134可生成音频事件信息144,该音频事件信息指示声音182表示与该特定模型相关联的音频事件。如本文所使用的,如果音频帧的音调和频率分量在特定声音模型的音调和频率分量的阈值内,则该音频帧的声音特性可与该特定声音模型“匹配”。
在一些实施方式中,音频事件处理单元134包括一个或多个分类器,该一个或多个分类器被配置为处理音频信号数据(诸如音频信号170、172、音频帧174、176的声音特性、基于音频信号170、172的波束形成的数据或它们的组合),以从该一个或多个分类器支持的多个类别中确定相关联的类别。在一个示例中,该一个或多个分类器结合上述多个音频事件模型来操作,以确定在该音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音的类别(例如,种类,诸如“狗叫声”、“玻璃破碎”、“婴儿哭泣”等)。例如,该一个或多个分类器可包括神经网络,该神经网络已经使用标记的声音数据进行训练以区分各种类别对应的声音,并且该神经网络被配置为处理音频信号数据,以确定该音频信号数据表示的声音的特定类别(或针对每种类别确定该声音属于该类别的概率)。该类别可对应于音频事件信息144或包括在该音频事件信息中。参考图6更详细地描述包括一个或多个分类器的设备110的示例。
在一些实施方式中,音频事件处理单元134包括一个或多个编码器,该一个或多个编码器被配置为处理音频信号数据(诸如音频信号170、172、音频帧174、176的声音特性、基于音频信号170、172的波束形成的数据或它们的组合),以生成在该音频信号数据中表示的声音的签名。例如,该编码器可包括一个或多个神经网络,该一个或多个神经网络被配置为处理该音频信号数据,以生成嵌入,该嵌入与该音频信号数据中的特定声音对应并且与音频事件相关联。“嵌入”可指定由矢量(例如,值的有序序列或一组索引值)表示的相对较低维度空间,该矢量可由较高维度矢量转换,并且可保留语义关系。举例说明,可使用相对较大矢量的序列(例如,表示频谱数据和其他音频特征)来表示音频信号,该相对较大矢量的序列可被处理以生成较小向量表示的嵌入。该嵌入可包括足够的信息,以使得能够检测音频信号中的特定声音。该签名(例如,该嵌入)可对应于音频事件信息144或包括在该音频事件信息中。参考图7更详细地描述包括一个或多个编码器的设备110的示例。
在非限制性示例中,该音频事件可对应于正在驶近的交通工具(例如,来源180)的声音。基于该音频事件,音频事件处理单元134可生成音频事件信息144,并且音频事件信息144可发送到设备120。例如,调制解调器118可向设备120发送与检测的事件对应的数据。在一些示例中,在设备110处生成音频事件信息144对应于执行低复杂性处理操作。设备120可使用音频事件信息144来执行高复杂性处理操作。举例说明,基于音频事件信息144,设备120可执行一个或多个操作,诸如在较大、较准确的分类器处,处理音频数据,以验证该音频事件;基于声音签名来编辑音频场景(例如,以去除与包括在音频事件信息144中的嵌入对应的声音,或去除与该嵌入不对应的声音);命令该360度相机聚焦在来源180上;命令该激光雷达传感器测量设备110、120的用户与来源180之间的距离,等等。
声学环境处理单元136可被配置为处理多个音频信号170、172,以执行声学环境检测。举例说明,声学环境处理单元136可处理音频帧174、176的声音特性,以确定周围环境的声学特性。作为非限制性示例,该声学特性可包括该周围环境的直达混响声能比(DRR)估计。声学环境处理单元136可基于该周围环境的声学特性来生成环境信息146。例如,如果该DRR估计相对较高,则环境信息146可指示设备110处于室内环境中。然而,如果该DRR估计相对较低,则环境信息146可指示设备110处于室外环境中。在一些实施方式中,声学环境处理单元136可包括或被实施为一个或多个分类器,该一个或多个分类器被配置为生成输出,该输出指示音频环境类别,该音频环境类别可对应于环境信息146或包括在该环境信息中。
可向设备120发送环境信息146。例如,调制解调器118可向设备120发送与检测的环境对应(例如,识别所检测的环境)的数据。在一些示例中,在设备110处生成环境信息146对应于执行低复杂性处理操作。设备120可使用环境信息146来执行高复杂性处理操作。举例说明,作为例示性、非限制性示例,基于环境信息146,设备120可执行一个或多个操作,诸如从一个或多个音频信号去除环境或背景噪声;基于环境信息146来编辑音频场景;或更改该360度相机的设置以捕获室外图像而不是室内图像。
波束形成单元138可被配置为处理多个音频信号170、172,以执行波束形成。在一些示例中,波束形成单元138基于波达方向信息142来执行波束形成。另选地或附加地,在一些示例中,波束形成单元138执行自适应波束形成,该自适应波束形成利用多声道信号处理算法对音频信号170、172进行空间滤波并确定来源180的位置。波束形成单元138可将灵敏度提高的波束指向来源180的位置,并抑制来自其他位置的音频信号。在一些示例中,波束形成单元138被配置为相对于音频信号172来调整音频信号170的处理(例如,基于从来源180到不同麦克风102、104中的每个麦克风的不同声音传播路径,通过引入时间或相位延迟、调整信号幅度或两者),以加重(例如,经由相长干涉)从来源180的方向到达的声音,并衰减从一个或多个其他方向到达的声音。在一些示例中,如果波束形成单元138确定来源180的位置接近第一麦克风102,则波束形成单元138可发送命令,以更改第一麦克风102的定向或方向,从而捕获声音182,并使来自其他方向(诸如与第二麦克风104相关联的方向)的声音无效。
可向设备120发送所产生的一个或多个波束形成的音频信号148(例如,音频信号170、172的表示)。例如,调制解调器118可向设备120发送一个或多个波束形成的音频信号148。在一种特定实施方式中,针对所关注的每个音频源,向设备120提供单个波束形成的音频信号148。在一些示例中,在设备110处生成波束形成的音频信号148对应于执行低复杂性处理操作。设备120可使用波束形成的音频信号148来执行高复杂性处理操作。在一个例示性示例中,基于波束形成的音频信号148,设备120可命令该360度相机聚焦在来源180上,命令该激光雷达传感器测量设备110、120的用户与来源180之间的距离,等等。
任选地,设备110可向设备120发送麦克风102、104捕获的音频数据(例如,音频信号170、172)的至少一部分,用于进行分布式音频处理(其中描述为由设备110执行的处理的一部分被分流到设备120),或者用于使用设备120处可用的较大处理资源、存储资源和功率资源进行附加处理。例如,在一些实施方式中,设备110可向设备120发送音频信号170、172(例如,音频数据178)的至少一部分,用于进行较高准确性的波达方向处理、较高准确性的音频事件检测、较高准确性的环境检测或它们的组合。在一些实施方式中,设备110可向设备120发送音频信号170、172(例如,音频数据178)的至少一部分,而不是发送波束形成的音频信号148,或者除了发送该波束形成的音频信号148之外,还会发送音频信号170、172(例如,音频数据178)的至少一部分。
任选地,设备110可包括或耦合到用户接口设备,诸如可视用户接口设备(例如,作为非限制性示例,显示器(诸如图25中所示)或全息投影单元(诸如图26中所示))、音频用户接口设备(例如,作为非限制性示例,扬声器(诸如参考图3所述)或语音用户接口(诸如参考图5所述))或触觉用户接口设备(例如,作为非限制性示例,如参考图22所述)。一个或多个处理器116可被配置为向用户接口设备提供用户接口输出,该用户接口输出指示环境事件或声学事件中的至少一者。举例说明,该用户接口输出可使该用户接口设备提供检测的音频事件或环境条件的通知,诸如基于音频事件信息144、从设备120接收的音频事件信息145、环境信息146、从设备120接收的环境信息147或它们的组合。
上文所述的各种技术说明了设备110(例如,低功率设备)执行定向上下文感知处理。换句话说,设备110处理来自多个麦克风102、104的音频信号170、172,以确定声音182发出的方向。在一种特定实施方式中,设备110对应于头戴式设备,并且设备120对应于移动电话。在该实施方式中,该头戴式设备执行定向上下文感知处理,并且可向该移动电话发送所产生的数据,以执行附加的高复杂性处理。在其他实施方式中,设备110对应于一个或多个其他设备,诸如头戴式设备(例如,虚拟现实头戴式设备、混合现实头戴式设备或增强现实头戴式设备)、眼镜(例如,增强现实眼镜或混合现实眼镜)、“智能手表”设备、虚拟辅助设备或物联网设备,与设备120(例如,移动电话、平板设备、个人计算机、服务器、交通工具等)相比,这些设备具有较小计算能力。
如下文所述,设备120(例如,移动电话)还可基于从设备110接收的音频信号170、172、基于来自麦克风106、108的音频信号190、192或它们的组合来执行定向上下文感知处理。设备120可向设备110(例如,头戴式设备)提供该定向上下文感知处理的结果,使得设备110可执行附加操作,诸如关于图3更详细描述的音频变焦操作。
设备120包括存储器124、一个或多个处理器126和调制解调器128。任选地,设备120还包括第一输入接口121、第二输入接口122和一个或多个传感器129中的一者或多者。
在一些实施方式中,第一输入接口121和第二输入接口122各自耦合到一个或多个处理器126,并且被配置为分别耦合到第三麦克风106和第四麦克风108。第一输入接口121被配置为从第三麦克风106接收音频信号190,并将音频信号190(诸如音频帧194)提供给一个或多个处理器126。第二输入接口122被配置为从第四麦克风108接收音频信号192,并将音频信号192(诸如音频帧196)提供给一个或多个处理器126。音频信号190、192(例如,音频帧194、196)可称为音频数据198,该音频数据被提供给一个或多个处理器126。
任选地,一个或多个处理器126包括波达方向处理单元152、音频事件处理单元154、声学环境处理单元156、波束形成单元158或它们的组合。根据一些实施方式,一个或多个处理器126的组件中的一个或多个组件可使用专用电路来实施。作为非限制性示例,一个或多个处理器126的组件中的一个或多个组件可使用FPGA、ASIC等来实施。根据另一种实施方式,一个或多个处理器126的组件中的一个或多个组件可通过执行存储在存储器124中的指令125来实施。例如,存储器124可以是存储指令125的非暂态计算机可读介质,该指令能够由一个或多个处理器126执行以执行本文所述的操作。
波达方向处理单元152可被配置为处理多个音频信号(例如,音频信号170、172、190或192中的两者或更多者),以生成与在该多个音频信号中表示的声音182的来源180对应的波达方向信息143。举例说明,波达方向处理单元152可被配置为使用参考波达方向处理单元132描述的技术中的一种或多种技术(例如,到达时间、相位差等)来处理该多个音频信号。波达方向处理单元152可具有比波达方向处理单元132更强大的处理能力,并且因此可生成更准确的结果。
在一些实施方式中,从设备110接收音频信号170、172,并且波达方向处理单元152可处理音频信号170、172,以确定波达方向信息143,而无需在波达方向处理单元152处,处理音频信号190、192。例如,麦克风106、108中的一个或多个麦克风可能被遮挡或以其他方式无法生成声音182的有用表示,诸如当设备120是在用户的口袋或包中携带的移动设备时。
在其他实施方式中,从麦克风106、108接收音频信号190、192,并在波达方向处理单元152处对其进行处理,以确定波达方向信息143,而无需在波达方向处理单元152处,处理音频信号170、172。例如,音频信号170、172可不由设备110发送,或者可不由设备120接收。又如,音频信号170、172可以是低质量的,诸如由于麦克风102、104处的大量噪声(例如,风噪声),并且设备120可选择使用音频信号190、192并忽略音频信号170、172。
在一些实施方式中,从设备110接收音频信号170、172,并在波达方向处理单元152处将其与音频信号190、192结合使用,以生成波达方向信息143。举例说明,设备110可对应于具有一个或多个传感器的头戴式设备,诸如定位或位置传感器(例如,全球定位系统(GPS)接收器)、惯性测量单元(IMU),该惯性测量单元跟踪设备110的定向、运动或加速度中的一者或多者或它们的组合(例如,头部跟踪器数据)。设备120还可包括一个或多个定位或位置传感器(例如,GPS接收器)和IMU,以使得设备120能够结合从设备110接收的头部跟踪器数据来确定作为分布式麦克风阵列操作的麦克风102、104、106和108的绝对或相对位置和定向。波达方向信息142、波达方向信息143或两者可相对于设备110的参考帧、相对于设备120的参考帧、相对于绝对参考帧或它们的组合,并且可由设备110、设备120或两者视情况在各种参考帧之间转换。
可向设备110发送波达方向信息143。例如,调制解调器128可向设备110发送数据,该数据基于波达方向信息143。设备110可使用波达方向信息143来执行音频操作,诸如音频变焦操作。例如,一个或多个处理器116可发送命令,以捕获来自来源180和声音182的方向的音频(或聚焦在该音频上)。
音频事件处理单元154可被配置为处理多个音频信号,以执行音频事件检测,并生成与一个或多个检测的音频事件对应的音频事件信息145。举例说明,在一种实施方式中,其中在设备120处接收音频信号170、172,音频事件处理单元154可处理音频信号170、172(例如,音频帧174、176)的声音特性,并将该声音特性与多个音频事件模型进行比较,以确定音频事件是否已经发生。在一些实施方式中,其中在设备120处接收音频信号190、192,音频事件处理单元154可处理音频信号190、192(例如,音频帧194、196)的声音特性,并将该声音特性与该多个音频事件模型进行比较,以检测音频事件。在一些实施方式中,其中接收波束形成的音频信号148,音频事件处理单元154可处理波束形成的音频信号148的声音特性,以检测音频事件。在一些实施方式中,其中,波束形成单元158生成波束形成的音频信号149,音频事件处理单元154可处理波束形成的音频信号149的声音特性,以检测音频事件。
音频事件处理单元154可访问数据库(未示出),该数据库包括用于不同音频事件(诸如汽车喇叭、火车喇叭、行人交谈等)的模型。响应于该声音特性与特定模型匹配(或基本上匹配),音频事件处理单元154可生成音频事件信息145,该音频事件信息指示声音182表示与该特定模型相关联的音频事件。在一些实施方式中,音频事件处理单元154包括一个或多个分类器,该一个或多个分类器被配置为以与针对音频事件处理单元134所述类似的方式来确定音频事件的类别。然而,与音频事件处理单元134相比,音频事件处理单元154可执行更复杂的操作,可支持比音频事件处理单元134大得多的一组模型或音频类别,并且可生成比音频事件处理单元134更准确的音频事件确定(或分类)。
在一些示例中,音频事件处理单元134是相对较低功率的检测器,该相对较低功率的检测器被配置为具有相对较高的灵敏度,该相对较高的灵敏度可降低音频事件未被检测到的概率,这也可能导致错误警报的数量增加(例如,确定在实际上没有音频事件发生时检测到音频事件)。音频事件处理单元154可使用从设备110接收的信息来提供较高的音频事件检测准确性,并且可通过处理对应的音频信号(例如,音频信号170、172、190、192中的一个或多个音频信号、波束形成的音频信号148、149中的一个或多个波束形成的音频信号或它们的组合)来验证从音频事件处理单元134接收的音频事件(例如,分类)。
可向设备110发送音频事件信息145。例如,调制解调器128可向设备110发送与检测的事件对应的数据。设备110可使用音频事件信息145来执行音频操作,诸如音频变焦操作。例如,一个或多个处理器116可发送命令,以捕获来自该音频事件的声音(或聚焦在该声音上)。又如,音频事件信息145可使一个或多个处理器116忽略来自该音频事件的声音(例如,不聚焦在该声音上),或者衰减或去除该声音。例如,音频事件处理单元154可确定该音频事件对应于设备110附近苍蝇的嗡嗡声,并且音频事件信息145可指示设备110将忽略该嗡嗡声,或者将零波束引导到该嗡嗡声的来源的方向。在实施方式中,其中设备110选择是否向设备110的用户回放环境声音,诸如当设备110是头戴式设备时,该头戴式设备被配置为进入“透明”模式,以使用户能够在特定环境下听到外部声音,音频事件信息145可向设备110指示声音182是否应当触发设备110转换到透明模式。
声学环境处理单元156可被配置为处理多个音频信号170、172、多个音频信号190、192或它们的组合,以执行声学环境检测。举例说明,声学环境处理单元156可处理音频帧174、176、音频帧194、196或两者的声音特性,以确定周围环境的声学特性。在一些实施方式中,声学环境处理单元156以与声学环境处理单元136类似的方式工作。然而,与声学环境处理单元136相比,声学环境处理单元156可执行更复杂的操作,可支持比声学环境处理单元136大得多的一组模型或音频环境类别,并且可生成比声学环境处理单元136更准确的声学环境确定(或分类)。
在一些示例中,与声学环境处理单元156相比,声学环境处理单元136是相对较低功率的检测器,该相对较低功率的检测器被配置为具有对环境变化相对较高的灵敏度(例如,作为非限制性示例,当设备110从室内环境移动到室外环境或从室外环境移动到交通工具时,检测背景声音特性的变化),但是在确定环境本身方面可具有相对较低的准确性。声学环境处理单元156可使用从设备110接收的信息来提供较高的声学环境检测准确性,并且可通过处理对应的音频信号(例如,音频信号170、172、190、192中的一个或多个音频信号、波束形成的音频信号148、149中的一个或多个波束形成的音频信号或它们的组合)来验证从声学环境处理单元136接收的环境信息146(例如,分类)。
声学环境处理单元156可基于该周围环境的声学特性来生成环境信息147。可向设备110发送环境信息147。例如,调制解调器128可向设备110发送与检测的环境对应的数据。设备110可使用环境信息147来执行附加的音频操作。
波束形成单元158可被配置为处理多个音频信号170、172,以执行自适应波束形成。举例说明,在一些示例中,波束形成单元158利用多声道信号处理算法对音频信号170、172进行空间滤波,以将灵敏度提高的波束指向来源180的位置,并且以与针对波束形成单元138所述类似的方式抑制来自其他位置的音频信号。又如,波束形成单元158利用多声道信号处理算法对音频信号190、192进行空间滤波,以将灵敏度提高的波束指向来源180的位置。又如,其中设备120从设备110接收音频信号170、172,并且还接收音频信号190、192,波束形成单元158可基于音频信号170、172、190和192中的所有音频信号来执行空间滤波。在一些实施方式中,波束形成单元158为在该音频信号中检测到的每个声源生成单个波束形成的音频信号。例如,如果检测到单个声源,则生成被引导到该声源的单个波束形成的音频信号149。又如,如果检测到多个声源,则可生成多个波束形成的音频信号149,其中该多个波束形成的音频信号149中的每个波束形成的音频信号被引导到该声源中的相应声源。
可向设备110发送所产生的波束形成的音频信号149。例如,调制解调器128可向设备110发送一个或多个波束形成的音频信号149。设备110可使用波束形成的音频信号149来回放改进的音频。
尽管上面例示和描述了设备110和设备120的各种组件,但是应当理解,在其他实施方式中,可省略或绕过这些组件中的一个或多个组件。此外,应当理解,设备110、设备120或两者的组件的各种组合可实现增强设备110、设备120或两者的性能的互操作性,诸如在下面列出的非限制性示例中描述的。
在一种特定实施方式中,设备110包括音频事件处理单元134,并省略(或停用)波达方向处理单元132、声学环境处理单元136和波束形成单元138(或绕过它们的操作)。在该实施方式中,可向设备120提供音频事件信息144,并且结合在设备120处使用音频信号170、172、使用音频信号190、192或使用音频信号170、172、190、192的组合进行处理来使用该音频事件信息,如上文所述。
在另一种特定实施方式中,设备110包括音频事件处理单元134和波达方向处理单元132,并省略(或停用)声学环境处理单元136和波束形成单元138(或绕过它们的操作)。在该实施方式中,在设备110处生成波达方向信息142和音频事件信息144,并且可向设备120提供该波达方向信息和该音频事件信息,以供如前所述使用。波达方向信息142可用于增强音频事件检测(例如,经由提高的准确性、减少的延迟或两者),该音频事件检测可在音频事件处理单元134处、在音频事件处理单元154处或两者处执行。例如,波达方向信息142可作为输入提供到音频事件处理单元134,并且音频事件处理单元134可将波达方向信息142与方向进行比较,该方向与一个或多个先前检测的音频事件或声源相关联。又如,音频事件处理单元134可使用波达方向信息142来增强或降低检测到特定音频事件的可能性。举例说明,作为例示性、非限制性示例,由于从用户上方发出的声音更可能来自鸟或飞机而非来自汽车,因此可应用加权因子来降低确定头顶声音与基于汽车的音频事件匹配的概率。附加地或另选地,波达方向信息142可用于以与针对音频事件处理单元134所述类似的方式增强音频事件处理单元154的性能。
如参考图9进一步说明的,可通过将音频事件信息144(例如,音频事件处理单元134检测到的音频类别)作为输入提供到音频事件处理单元154,来增强音频事件处理单元154的性能。例如,音频事件信息144可用作事件模型数据库搜索的起始点,或者用作可影响基于神经网络的音频事件分类器执行的分类操作的输入。因此,通过在音频事件处理单元134处使用波达方向信息142来提高音频事件信息144的准确性,提高音频事件信息144的准确性还可提高音频事件处理单元154的性能。
在一些实施方式中,其中设备110还包括声学环境处理单元136,环境信息146可用于提高音频事件处理单元134、音频事件处理单元154或两者的性能。例如,由于一些音频事件(例如,汽车喇叭)在一些环境中(例如,在繁忙的街道上或在交通工具中)比在其他环境中(例如,在办公室中)更可能发生,因此音频事件处理单元134可基于环境来调整操作。例如,音频事件处理单元134可优先搜索更可能在特定环境中发生的声音事件模型,这可提高准确性、减少延迟或两者。又如,音频事件处理单元134可基于环境来调整用于一个或多个声音事件模型的加权因子,以增加或降低确定声音182与那些声音事件模型匹配的可能性。在一些实施方式中,环境信息146可发送到设备120,并用于以类似的方式改进音频事件处理单元154的性能。
在一些实施方式中,设备110包括波束形成单元138,波束形成的音频信号148可用于改进音频事件处理单元134、音频事件处理单元154或两者的操作。例如,波束形成的音频信号148可被引导朝向声音182的来源180,并且可因此增强声音182、衰减或去除来自其他来源的声音或环境噪声、或它们的组合。因此,在实施方式中,其中音频事件处理单元134对波束形成的音频信号148进行操作,与音频信号170、172相比,波束形成的音频信号148可提供声音182的改进表示,这使得音频事件处理单元134能够更准确地确定音频事件信息144(例如,通过降低对声音182进行错误分类的可能性)。类似地,在实施方式中,其中波束形成的音频信号148被发送到设备120,并且音频事件处理单元154对波束形成的音频信号148进行操作,波束形成的音频信号148可提高音频事件处理单元154的性能。
在一种特定实施方式中,设备120包括音频事件处理单元154,并省略(或停用)波达方向处理单元152、声学环境处理单元156和波束形成单元158(或绕过它们的操作)。在该实施方式中,音频事件处理单元154可使用音频信号170、172、使用波束形成的音频信号148、使用音频信号190、192或它们的组合来操作,如上所述。
在另一种特定实施方式中,设备120包括音频事件处理单元154和波达方向处理单元152,并省略(或停用)声学环境处理单元156和波束形成单元158(或绕过它们的操作)。在该实施方式中,在设备120处生成波达方向信息143和音频事件信息145,并且可向设备110提供该波达方向信息和该音频事件信息,以供如前所述使用。波达方向信息143可用于增强音频事件检测(例如,经由提高的准确性、减少的延迟或两者),该音频事件检测可以与针对波达方向信息142所述类似的方式在音频事件处理单元154处执行。
在一些实施方式中,其中设备120还包括声学环境处理单元156,环境信息147可用于以与针对环境信息146所述类似的方式提高音频事件处理单元134、音频事件处理单元154或两者的性能。在一些实施方式中,设备120包括波束形成单元158,波束形成单元158生成的波束形成的音频信号可用于以与针对波束形成的音频信号148所述类似的方式改进音频事件处理单元154的操作。
关于图1描述的技术使得每个设备110、120能够基于由麦克风102、104生成的音频信号170、172、由麦克风106、108生成的音频信号190、192或它们的组合来执行定向上下文感知处理。因此,每个设备110、120能够检测不同使用情况的上下文,并且能够确定与周围环境相关联的特性。作为非限制性示例,该技术使得每个设备110、120能够在一个或多个移动声源(例如,警笛、鸟等)、一个或多个固定声源(例如,电视、扬声器等)或它们的组合之间进行区分。
应当理解,关于图1描述的技术可使得能够进行多声道或单声道音频上下文检测,以基于波达方向来区分不同的声音。根据一种实施方式,麦克风102、104、106和108可包括在麦克风阵列中,该麦克风阵列具有位于建筑物(诸如房屋)中的不同位置处的麦克风。在有人摔倒在地板上的情况下,如果使用本文所述的技术将该麦克风阵列的麦克风连接到移动设备(诸如设备120),则该移动设备可使用波达方向信息来确定声音的来源,确定声音的上下文,并执行适当的动作(例如,通知护理人员)。
参考图2,公开了系统的另一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为200。系统200包括一个或多个处理器202。一个或多个处理器202可被集成到设备110或设备120中。例如,一个或多个处理器202可对应于一个或多个处理器116或一个或多个处理器126。
任选地,一个或多个处理器202包括音频输入204,该音频输入被配置为接收音频数据278(诸如图1的音频数据178),并输出音频帧274、276。一个或多个处理器202包括第一处理域210和第二处理域220。第一处理域210可对应于在低功率状态下操作的低功率域,诸如“常开”功率域。第一处理域210可保持处于活动状态,以处理音频帧274和音频帧276。在一些实施方式中,音频帧274和276分别对应于音频帧174和176。在另一种实施方式中,音频帧274和276分别对应于音频帧194和196。第二处理域220可对应于在空闲状态与高功率状态之间转换的高功率域。
第一处理域210包括音频预处理单元230。与第二处理域220中的一个或多个组件相比,音频预处理单元230可消耗相对较低的功率量。音频预处理单元230可处理音频帧274、276,以确定是否存在任何音频活动。根据一些实施方式,音频预处理单元230可接收并处理来自单个麦克风的音频帧,以节省附加的功率。例如,在一些实施方式中,音频帧276可不被提供到第一处理域210,并且音频预处理单元230可确定音频帧274中是否存在音频活动。
如果音频预处理单元230确定音频帧274中或音频帧274、276两者中存在音频活动,则音频预处理单元230可生成激活信号252,以将第二处理域220从空闲状态转换到高功率状态。根据一些实施方式,音频预处理单元230可确定关于该音频活动的初步方向信息250,并将初步方向信息250提供到第二处理域220。例如,如果音频帧274中存在音频活动,并且音频帧276中存在较少数量的音频活动或不存在任何音频活动,则初步方向信息250可指示声音182在捕获与音频帧274对应的音频信号的麦克风附近发出。
第二处理域220包括波达方向处理单元232、音频事件处理单元234、声学环境处理单元236、波束形成单元238或它们的组合。波达方向处理单元232可对应于图1的波达方向处理单元132或图1的波达方向处理单元152,并且可以基本上类似的方式操作。音频事件处理单元234可对应于图1的音频事件处理单元134或图1的音频事件处理单元154,并且可以基本上类似的方式操作。声学环境处理单元236可对应于图1的声学环境处理单元136或图1的声学环境处理单元156,并且可以基本上类似的方式操作。波束形成单元238可对应于图1的波束形成单元138或图1的波束形成单元158,并且可以基本上类似的方式操作。
因此,第二处理域220可在不同的模式下操作。例如,第二处理域220可用于激活不同的传感器,诸如图1的传感器129。另外,第二处理域220可用于执行波达方向处理和计算、波束形成、DRR操作、室内/室外检测、来源距离确定等。
系统200使得第一处理域210能够响应于检测到存在音频活动而选择性地激活第二处理域220。因此,当通过使用低功率处理未检测到音频活动时,可通过将第二处理域220(例如,高功率处理域)转换成空闲状态而在设备(诸如头戴式设备或移动电话)处节省电池电量。
参考图3,公开了系统的另一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为300。系统300包括头戴式设备310和移动电话320。头戴式设备310可对应于设备110,并且移动电话320可对应于设备120。
头戴式设备310包括音频处理单元330、音频变焦单元332、任选的用户提示生成单元334或它们的组合。音频处理单元330包括波达方向处理单元132和音频事件处理单元134。如关于图1所述,波达方向处理单元132可生成波达方向信息142,该波达方向信息指示声音182的来源180的位置(例如,朝向该来源的方向)。波达方向信息142被提供给音频变焦单元332和用户提示生成单元334。如关于图1所述,音频事件处理单元134可生成音频事件信息144,该音频事件信息指示声音182与交通工具声音相关。音频事件信息144被提供给用户提示生成单元334。
音频变焦单元332还可从移动电话320接收波达方向信息143。音频变焦单元332可被配置为基于波达方向信息142或波达方向信息143来调整波束形成单元138的波束形成算法。因此,音频变焦单元332可将麦克风102、104的焦点调整到所关注的声音(例如,声音182)并衰减来自其他方向的声音。因此,头戴式设备310可生成聚焦在来自来源180的声音182上的波束形成的音频信号148,并将波束形成的音频信号148提供给扬声器336,以供回放。在一些实施方式中,以保留声音182的来源180的方向性的方式在多个扬声器336(例如,用于用户左耳的左扬声器和用于用户右耳的右扬声器)处执行波束形成的音频信号148的回放,使得用户感知到所聚焦的声音182从来源180的方向发出(或,如果确定距离信息,则从该位置发出)。
用户提示生成单元334可生成用户警报350,该用户警报被提供给扬声器336,以供回放。例如,用户警报350可以是指示交通工具(例如,来源180)正在驶近的音频。用户提示生成单元334还可生成一个或多个用户警报352,该一个或多个用户警报被提供给移动电话320。用户警报350可包括指示交通工具正在驶近的文本、被编程为指示交通工具正在驶近的振动等。
因此,图3的系统300使得头戴式设备310能够聚焦(例如,音频变焦)在所关注的声音182上,并且可生成用户警报350、352。举例说明,在用户佩戴头戴式设备310的情况下,系统300可向用户警报用户可能不知道的周围事件,诸如正在驶近的交通工具。
参考图4,公开了系统的另一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为400。系统400包括头戴式设备410和移动电话420。头戴式设备410可对应于设备110,并且移动电话420可对应于设备120。
头戴式设备410包括音频处理单元430,并且任选地包括音频变焦单元432、噪声消除单元434、一个或多个扬声器436或它们的组合。音频处理单元430包括波达方向处理单元132和音频事件处理单元134。如关于图1所述,波达方向处理单元132可生成波达方向信息,该波达方向信息指示声音182的来源180的接近位置。波达方向处理单元132还可生成波达方向信息,该波达方向信息指示声音186的来源184的接近位置。如关于图1所述,音频事件处理单元134可生成音频事件信息,该音频事件信息指示声音182与交通工具声音相关。音频事件处理单元134还可生成音频事件信息,该音频事件信息指示声音186与人类语音相关。
音频处理单元430可被配置为生成第一声音信息440,该第一声音信息指示与声音182相关联的波达方向信息(例如,波达方向处理单元132的第一输出)并指示声音182与交通工具相关(例如,音频事件处理单元134的第一输出)。音频处理单元430还可被配置为生成第二声音信息442,该第二声音信息指示与声音186相关联的波达方向信息(例如,波达方向处理单元132的第二输出)并指示声音186与人类语音相关(例如,音频事件处理单元134的第二输出)。任选地,头戴式设备410可向移动电话420发送音频信号数据,诸如与声音182、186对应的音频信号170、172的一个或多个部分。该音频信号数据可包括在声音信息440、442中,或者可与声音信息440、442分开。
移动电话420包括单个麦克风音频上下文检测单元450、音频调整单元452和模式控制器454。第一声音信息440和第二声音信息442被提供给音频调整单元452。根据一些实施方式,单个麦克风音频上下文检测单元450可向音频调整单元452提供附加上下文信息496,诸如图1的波达方向处理单元152生成的波达方向信息143、音频事件处理单元154生成的音频事件信息145、声学环境处理单元156生成的环境信息147或它们的组合。例如,单个麦克风音频上下文检测单元450可处理从头戴式设备410接收的音频信号数据(例如,音频信号170、172的一个或多个部分)、从移动电话420的一个或多个麦克风接收的音频信号数据(例如,音频信号190、192)或它们的组合。
音频调整单元452可被配置为基于来自音频处理单元430的声音信息440、442来生成音频变焦角度460和降噪参数462。换句话说,基于来自单个麦克风音频上下文检测单元450的上下文信息496,音频调整单元452可确定出于波束形成目的而聚焦的音频变焦角度460,并且可确定用于减小来自其他方向的噪声的降噪参数462。因此,基于上下文信息496,如果音频调整单元452确定优先聚焦在声音182上,则音频变焦角度460可指示与来源180相关联的角度,并且降噪参数462可包括用于减小来自来源184的噪声的参数。音频变焦角度460被提供给音频变焦单元432,并且降噪参数462被提供给噪声消除单元434。
音频调整单元452还可被配置为生成模式信号464,该模式信号被提供给模式控制器454。模式信号464可指示是否应当为移动电话420的用户生成振动警报、是否应当为移动电话420的用户生成文本警报、是否应当为移动电话420的用户生成语音警报等。
音频变焦单元432可被配置为基于音频变焦角度460来调整波束形成单元(例如,图1的波束形成单元138)的波束形成算法。因此,音频变焦单元432可将麦克风102、104的焦点调整到所关注的声音(例如,声音182)。基于降噪参数462,噪声消除单元434可被配置为生成降噪信号490,以衰减来自其他方向的声音186。波束形成的音频信号148和降噪信号490可被提供给一个或多个扬声器436,以供回放。
图4的系统400使得能够分析检测的声音事件和对应的波达方向,以改善听觉。基于上下文信息496,系统400可确定用户特别关注的声音。例如,如果用户正在穿过街道,则系统400可确定该交通工具的声音182比人员交谈的声音186更重要。因此,系统400可聚焦在重要的声音182上,并抑制其他声音。
虽然头戴式设备410被描述为提供对声音182的聚焦和对其他声音的抑制,但是应当注意,音频变焦单元432提供的对声音182的聚焦和噪声消除单元434提供的对其他声音的抑制中的每一者均向头戴式设备410的用户提供对声音182的增强感知。例如,在一种实施方式中,其中头戴式设备410包括音频变焦单元432,但省略噪声消除单元434(或绕过它的操作),即使在不存在降噪信号490的情况下,声音182也经由该音频变焦操作来增强。又如,在一种实施方式中,其中头戴式设备410包括噪声消除单元434,但省略音频变焦单元432(或绕过它的操作),声音182经由应用于其他声音的降噪而相对于其他声音来增强。
参考图5,公开了系统的另一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为500。系统500包括空间滤波处理单元502、音频事件处理单元504、应用编程接口506和语音用户接口508。根据一种实施方式,系统500可被集成到设备110或设备120中。
空间滤波处理单元502可被配置为对与所接收的音频信号相关联的音频帧(被例示为音频帧574和576)执行一个或多个空间滤波操作。在一些实施方式中,音频帧574和576分别对应于音频帧174和176。在另一种实施方式中,音频帧574和576分别对应于音频帧194和196。在非限制性示例中,空间滤波处理单元502可对音频帧574、576执行自适应波束形成、对音频帧574、576执行音频变焦操作、对音频帧574、576执行波束形成操作、对音频帧574、576执行空波束形成操作或它们的组合。
基于空间滤波操作,空间滤波处理单元502可生成多个输出510、512、514和每个输出510、512、514的对应波达方向信息542。在图5的例示性示例中,空间滤波处理单元502可从音频帧574、576和两个其他输出512、514(例如,来自两个其他检测到的音频源的音频)生成语音内容输出510。输出510、512、514被提供给音频事件处理单元504,并且每个输出510、512、514的波达方向信息542被提供给应用编程接口506。
音频事件处理单元504被配置为处理每个输出510、512、514,以确定与输出510、512、514相关联的音频事件信息544。例如,音频事件处理单元504可指示输出510与语音内容相关联,输出512与非语音内容相关联,并且输出514与非语音内容相关联。音频事件处理单元504将语音内容输出510提供给语音用户接口508以供用户回放,并将音频事件信息544提供给应用编程接口506。
如关于图1至图4所述,应用编程接口506可被配置为将波达方向信息542和音频事件信息544提供给其他应用或设备,用于进一步的应用特定处理。
图6描绘了设备110的一种实施方式600。一个或多个处理器116被配置为从多个麦克风接收音频信号,该音频信号被例示为音频信号170、172。一个或多个处理器116还被配置为基于在音频信号170、172中的一个或多个音频信号中表示并且与音频事件相关联的声音的类别612来向第二设备发送数据。例如,一个或多个处理器116向第二设备(例如,设备120)发送类别612的指示616。在一个例示性示例中,一个或多个处理器116被集成到头戴式设备中,并且该第二设备对应于移动电话。在另一个例示性示例中,一个或多个处理器116被集成在交通工具中。
一个或多个处理器116被配置为在一个或多个分类器610处,处理信号数据602,以从一个或多个分类器610支持的多个支持的类别612中确定类别614。信号数据602对应于音频信号170、172。例如,在一些实施方式中,该一个或多个处理器被配置为对音频信号170、172执行波束形成操作(例如,在波束形成单元138处),以生成信号数据602,该信号数据可对应于波束形成的音频信号148。另选地或除此之外,一个或多个处理器116被配置为确定音频信号170、172的一个或多个特征,以包括在信号数据602中。另选地或除此之外,信号数据602包括音频信号170、172。
根据一些方面,一个或多个分类器610包括一个或多个神经网络,该一个或多个神经网络被配置为处理信号数据602并生成输出(例如,独热输出),该输出指示类别612比多个支持的类别614中的其余类别更紧密地与该音频事件相关联。类别612经由指示616被发送到该第二设备。在一些示例中,指示616包括类别612的位配置、数字或其他指示符。在其他示例中,指示616包括文本名称、标签或其他描述符,该文本名称、标签或其他描述符使得类别612能够由该第二设备识别到。在一些实施方式中,一个或多个分类器610对应于图1的音频事件处理单元134(或被包括在其中),并且指示616对应于音频事件信息144(或被包括在其中)。
任选地,一个或多个处理器116被进一步配置为在一个或多个分类器610处,处理图像数据,以确定类别612。例如,设备110可任选地包括一个或多个相机,该一个或多个相机被配置为生成该图像数据,或者可从另一设备(例如,经由调制解调器)接收该图像数据。类别612可对应于在该图像数据中表示并且与音频事件相关联的对象(例如,该声音的来源)。例如,在一些实施方式中,一个或多个处理器116可基于音频信号170、172来生成波达方向信息142(或从该第二设备接收波达方向信息143),并且使用波达方向信息142或143在该图像数据中定位与该声音的来源对应的对象。在实施方式中,其中一个或多个分类器610处理除音频数据之外的图像数据,该图像数据可被包括在信号数据602中,或者作为单独的输入被提供给一个或多个分类器610。
在一些实施方式中,多个支持的类别614包括“未知”类别,该类别表示该音频事件未能在置信度阈值内对应于其他支持的类别614中的任何类别。在一个示例中,一个或多个分类器610针对多个支持的类别614中的每个类别计算该音频事件对应于该特定类别的概率。如果所计算的概率均未超过阈值量,则一个或多个分类器610将类别612指定为“未知”类别。
在一些实施方式中,一个或多个处理器116被配置为处理音频信号170、172,以生成与在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源对应的波达方向信息,并且类别612与该波达方向信息相关联。例如,该波达方向信息和类别612对应于音频信号170、172中的相同声音。举例说明,一个或多个处理器116可任选地包括图1的波达方向处理单元132。一个或多个处理器116可被配置为向该第二设备发送数据,该数据基于该波达方向信息。在一个示例中,基于该波达方向信息的该数据包括报告,该报告指示至少一个检测的事件和所检测的事件的方向。
根据各种实施方式,设备110可任选地包括先前参考图1描述的一个或多个附加组件或方面。例如,该一个或多个处理器可被配置为基于该波达方向信息对该音频信号执行空间处理,以生成一个或多个波束形成的音频信号,并且可向该第二设备发送该一个或多个波束形成的音频信号。举例说明,一个或多个处理器116可任选地包括图1的波束形成单元138。在另一个示例中,一个或多个处理器116可被配置为基于声学环境检测操作来生成与检测的环境对应的环境数据。举例说明,一个或多个处理器116可任选地包括图1的声学环境处理单元136。
在另一个示例中,一个或多个处理器116可被配置为向该第二设备发送音频信号170、172的表示。在一些实施方式中,音频信号170、172的该表示对应于一个或多个波束形成的音频信号,诸如波束形成的音频信号148。在另一个示例中,一个或多个处理器116可被配置为从该第二设备接收与音频信号相关联的方向信息,并且基于该方向信息来执行音频变焦操作,诸如参考图3和图4所描述的。
通过发送与在音频信号170、172中表示的声音对应的类别612的指示616,设备110提供该第二设备可用于提高该第二设备处的音频事件处理的准确性的信息,如参考图9进一步描述的。
图7描绘了设备110的一种实施方式700。与实施方式600相比,实施方式700包括一个或多个编码器710,并且省略了一个或多个分类器610。一个或多个编码器710处理信号数据602,以生成嵌入712,该嵌入对应于在音频信号170、172中的一个或多个音频信号中表示并且与音频事件相关联的声音。一个或多个处理器116还被配置为向第二设备发送数据,该数据基于嵌入712。在一个示例中,一个或多个处理器116向该第二设备发送嵌入712的指示716。
根据一些方面,一个或多个编码器710包括一个或多个神经网络,该一个或多个神经网络被配置为处理信号数据602,以生成该声音的嵌入712。嵌入712表示该声音的“签名”,该签名包括关于该声音的各种特性的足够信息,以使得能够在其他音频信号中检测到该声音,但是可能不包括使得能够单独从嵌入712再现该声音的足够信息。根据一些方面,嵌入712可对应于用户的语音、来自环境的特定声音(诸如,狗叫声等),并且嵌入712可用于检测并放大或提取在其他音频数据中可能出现的该声音的其他实例,如参考图11进一步描述的。在一些实施方式中,一个或多个编码器710对应于图1的音频事件处理单元134(或被包括在其中),并且指示716对应于音频事件信息144(或被包括在其中)。
在一些实施方式中,一个或多个处理器116被配置为处理音频信号170、172,以生成与在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源对应的波达方向信息,并且嵌入712与该波达方向信息相关联。在一个示例中,该波达方向信息和嵌入712对应于音频信号170、172中的相同声音。举例说明,一个或多个处理器116可任选地包括图1的波达方向处理单元132。一个或多个处理器116可被配置为向该第二设备发送数据,该数据基于该波达方向信息。
任选地,一个或多个处理器116被进一步配置为在一个或多个编码器710处,处理图像数据,以生成嵌入712。例如,设备110可任选地包括一个或多个相机,该一个或多个相机被配置为生成该图像数据,或者可从另一设备(例如,经由调制解调器)接收该图像数据。嵌入712可对应于在该图像数据中表示并且与音频事件相关联的对象(例如,该声音的来源)。例如,在一些实施方式中,一个或多个处理器116可基于音频信号170、172来生成波达方向信息142(或从该第二设备接收波达方向信息143),并且使用波达方向信息142或143在该图像数据中定位与该声音的来源对应的对象。在实施方式中,其中一个或多个编码器710处理除音频数据之外的图像数据,该图像数据可被包括在信号数据602中,或者作为单独的输入被提供给一个或多个编码器710。
图8描绘了设备110的一种实施方式800,该设备包括图6的一个或多个分类器610,并且还包括图7的一个或多个编码器710。一个或多个分类器610处理信号数据602(或信号数据602的一个或多个部分)以确定类别612,并且一个或多个编码器710处理信号数据602(或信号数据602的一个或多个部分)以生成嵌入712。一个或多个处理器116还被配置为向第二设备发送数据,该数据基于类别612、嵌入712或两者。例如,类别612的指示616、嵌入712的指示716或两者可对应于发送到图1的设备120的音频事件处理单元134或被包括在其中。
图9描绘了设备120(例如,第二设备)的一种实施方式900,该设备包括一个或多个处理器126。一个或多个处理器126包括音频事件处理单元154,并且被配置为从第一设备(例如,设备110)接收与音频事件对应的音频类别的指示902。在一些示例中,指示902对应于图6或图8的指示616,其指示在设备110的一个或多个分类器610处检测到的类别612。在一些实施方式中,一个或多个处理器126耦合到存储器(例如,存储器124)并被集成到移动电话中,并且该第一设备对应于头戴式设备。在另一种实施方式中,该存储器和一个或多个处理器126被集成到交通工具中。
任选地,一个或多个处理器126包括一个或多个分类器920,该一个或多个分类器可对应于音频事件处理单元154或被包括在其中。根据一个方面,一个或多个分类器920比生成指示902的该第一设备中的分类器(诸如参考图1的音频事件处理单元154所描述的)更强大、更准确。一个或多个处理器126还可被配置为接收音频数据904,该音频数据表示与该音频事件相关联的声音。在一些实施方式中,作为例示性、非限制性示例,音频数据904可对应于来自该第一设备的音频信号170、172、来自该第一设备的波束形成的音频信号148、音频信号190、192或它们的组合。一个或多个处理器126可被配置为在一个或多个分类器920处,处理音频数据904,以验证指示902是正确的,诸如通过将指示902与一个或多个分类器920确定的分类922进行比较。可从多个支持的类别924中选择分类922作为最佳地对应于在音频数据904中检测到的音频事件的音频类别。
在一些实施方式中,验证指示902或验证指示902所指示的类别包括确定指示902所指示的类别是否匹配一个或多个分类器920所确定的类别(例如,分类922)。另选地或除此之外,验证指示902或验证指示902所指示的类别包括确定一个或多个分类器920确定的类别是指示902所指示的类别的特定实例或子类。例如,与类别“交通工具事件”对应的指示902可由一个或多个分类器920验证,该一个或多个分类器确定分类922对应于“汽车发动机”、“摩托车发动机”、“刹车声”、“汽车喇叭”、“摩托车喇叭”、“火车喇叭”、“交通工具碰撞”等,它们可被分类为不同类型的交通工具事件。
根据一些方面,通过除音频数据904之外还向一个或多个分类器920提供与该音频事件相关的其他信息来提高一个或多个分类器920的准确性。例如,一个或多个处理器126可任选地被配置为向一个或多个分类器920提供音频数据904和该音频类别的指示902作为输入,以确定与音频数据904相关联的分类922。在实施方式900中,音频数据904包括被输入到一个或多个分类器920的一个或多个波束形成的信号910(例如,波束形成的音频信号148)。在另一个示例中,一个或多个处理器126可任选地被配置为从该第一设备接收与该声音的来源对应的方向数据912(例如,波达方向信息142),并向一个或多个分类器920提供音频数据904、方向数据912和该音频类别的指示902作为输入,以确定与音频数据904相关联的分类922。
任选地,一个或多个处理器126被配置为生成一个或多个输出(诸如通知930、控制信号932、分类器输出934或它们的组合),而不是生成音频事件信息145,或者除了生成音频事件信息145之外,还生成了该一个或多个输出,或者该一个或多个输出被包括在音频事件信息145中。例如,在一种实施方式中,其中该音频类别(例如,分类922)对应于交通工具事件(例如,碰撞),一个或多个处理器126可基于第一设备(例如,设备110)的位置和一个或多个第三设备的位置向该一个或多个第三设备发送该交通工具事件的通知930,诸如参考图14和图15进一步描述的。在另一个示例中,设备120的用户可能正在参与室外事件,诸如沿着步道徒步旅行,并且该音频类别(例如,分类922)对应于安全相关事件,诸如动物咆哮。在该示例中,一个或多个处理器126可向一个或多个第三设备(诸如其他徒步旅行者的电话或头戴式设备)发送该安全相关事件的通知930,该一个或多个第三设备基于与该一个或多个第三设备相关联的位置数据而被确定为在附近。
在另一个示例中,基于分类器输出934向该第一设备发送控制信号932。举例说明,分类器输出934可包括位模式、数字指示符或文本标签或描述,该位模式、数字指示符或文本标签或描述指示一个或多个分类器920确定的分类922。在一个例示性示例中,控制信号932指示该第一设备执行音频变焦操作。在另一个示例中,控制信号932指示该第一设备基于该声音的来源的方向来执行空间处理。在另一个示例中,控制信号932指示该第一设备更改操作模式,诸如从媒体回放模式(例如,向该第一设备的用户播放流式音频)转换到透明模式(例如,以使得该第一设备的用户能够听到环境声音)。
任选地,一个或多个处理器126被配置为执行与跟踪音频场景中的定向音频声音的来源相关联的一个或多个操作,诸如参考图16进一步说明的。在一个示例中,一个或多个处理器126可接收与该第一设备检测到的声源对应的方向数据912。基于该音频事件,一个或多个处理器126可更新音频场景中的定向声源的地图,以生成更新的地图。一个或多个处理器126可向地理上远离该第一设备的一个或多个第三设备发送数据,该数据对应于更新的地图。作为例示性、非限制性示例,该一个或多个第三设备可使用更新的地图来向该一个或多个第三设备的用户通知在该第一设备附近检测到的声源,或向参与共享虚拟环境(例如,在虚拟会议室中)的用户提供共享音频体验。
图10描绘了设备120的另一种实施方式1000。与图9的实施方式900相比,音频事件处理单元154(例如,一个或多个分类器920)接收多声道音频信号1002而非波束形成的信号910作为输入。例如,多声道音频信号1002可包括在音频数据904中接收的音频信号170、172、从麦克风106、108接收的音频信号190、192或它们的组合。多声道音频信号1002可结合指示902、方向数据912或两者作为输入提供给一个或多个分类器920。
举例说明,在一些情况下,波束形成的数据不可用,诸如当检测到音频事件但不能足够准确地确定该音频事件的方向性时(例如,声音主要是扩散的或非定向的,或者被干扰波束形成的其他声音掩蔽)。参考图12和图13描述了基于在设备之间发送音频信号还是波束形成的信号的处理的示例。
图11描绘了设备120的一种实施方式1100和表示可在设备120处执行的音频处理的图示1150。一个或多个处理器126包括内容分离器1120,该内容分离器被配置为基于与音频信号对应的嵌入将音频内容中的前景信号与背景信号分离。
内容分离器1120可包括音频生成网络1122,该音频生成网络被配置为接收与特定声音的一个或多个签名对应的一个或多个嵌入1104。例如,一个或多个嵌入1104可对应于或包括图7的嵌入712。在一些示例中,一个或多个嵌入1104可包括一个或多个音频事件的签名、特定人员的语音签名等。音频生成网络1122还被配置为接收音频数据,该音频数据可包括来自各种声源的背景声音和前景声音两者,其被例示为输入混合波形1102。音频生成网络1122被配置为确定输入混合波形1102是否包括与一个或多个嵌入1104对应的任何声音,并提取、隔离或去除那些特定声音。
内容分离器1120生成目标输出1106。目标输出1106可包括与特定声音对应的音频信号。例如,与一个或多个嵌入1104对应的特定声音可与输入混合波形1102中的剩余声音隔离,以生成目标输出1106。在一个示例中,特定声音可对应于输入混合波形1102中的前景声音,并且目标输出1106可包括背景已去除或衰减的前景声音。
在另一个示例中,目标输出1106对应于输入混合波形1102的修改版本,并且可包括在输入混合波形1102中表示并且在特定声音去除(或衰减)后保留的声音。例如,特定声音可对应于输入混合波形1102中的前景声音,并且目标输出1106可包括在前景声音已去除(或衰减)后保留在输入混合波形1102中的背景声音。
在另一个示例中,目标输出1106可包括音频信号,该音频信号包括作为前景声音的特定声音,该前景声音已经从输入混合波形1102的背景声音中去除并且已添加到一组不同的背景声音。
在图示1150中,在包括第一环境1152(例如,背景)的音频场景1151中描绘了第一前景声音(FG1)1154、第二前景声音(FG2)1156和第三前景声音(FG3)1158。内容分离器1120通过对第一前景声音1154使用一个或多个嵌入1104中的第一嵌入、对第二前景声音1156使用一个或多个嵌入1104中的第二嵌入并对第三前景声音1158使用一个或多个嵌入1104中的第三嵌入来执行前景提取操作1160,以将前景声音1154、1156、1158与第一环境1152隔离,该前景声音被例示为隔离的前景声音1162。场景生成操作1164将前景声音1154、1156、1158添加到具有第二环境1172的音频场景1171(例如,更新的音频场景)中。音频生成网络1122、内容分离器1120、一个或多个处理器1126或它们的组合可执行场景生成操作1164。
在一个示例中,输入混合波形1102表示与音频场景1151对应的音频数据,一个或多个处理器1126处理该音频数据以生成调整的音频数据(例如,包括所隔离的前景声音1162的目标输出1106),并且一个或多个处理器1126再次调整所调整的数据(例如,场景生成操作1164)以生成更新的音频场景(例如,音频场景1171)。音频场景1171可包括与各种对象和音频事件(例如,与共享音频场景中的其他参与者相关联的音频和事件)相关联的方向信息,诸如参考图16至图18进一步描述的。
包括音频生成网络1122的内容分离器1120可使得任何目标声音能够与背景分离,并且不限于将语音与噪声分离。在一些实施方式中,使用音频生成网络1122的内容分离器1120实现特定音频事件、语音等的单个麦克风目标分离,并且可克服与不能区分音频源的常规技术相关联的限制。
图12描绘了与方法1200对应的流程图,该方法可由诸如设备110(例如,一个或多个处理器116)之类的第一设备关于向诸如设备120之类的第二设备发送信息来执行。
方法1200包括在框1202处处理音频信号的一个或多个帧。例如,如图1所述,可在波达方向处理单元132、音频事件处理单元134、声学环境处理单元136、单元138或它们的组合处,处理音频数据178(例如,音频信号170、172的帧)。
方法1200包括在框1204处确定对音频信号的一个或多个帧的处理是否导致环境检测。在一些示例中,环境检测可包括确定已经检测到环境变化。响应于确定已经发生环境检测,方法1200包括在框1206处向该第二设备发送环境信息。例如,设备110向设备120发送环境信息146。
响应于在框1204处确定未发生环境检测,或者在框1206处发送该环境信息后,方法1200包括在1208处确定对音频信号的该一个或多个帧的处理是否导致检测到音频事件。响应于确定检测到音频事件,方法1200包括在框1210处向该第二设备发送音频事件信息。例如,设备110向设备120发送音频事件信息144。
另外,响应于确定检测到音频事件,方法1200包括在框1212处确定有效的波达方向信息是否可用。例如,有效的波达方向信息可对应于检测到具有以高于置信度阈值的置信度水平确定的波达方向的声音的来源,以区分离散声源与不具有可区分来源的扩散声音。在一种特定实施方式中,可用于在一个或多个音频信号中表示的声音的有效波达方向信息指示该声音来自可识别的方向(例如,来自离散声源),并且不可用于该声音的有效波达方向信息指示该声音不来自可识别的方向。响应于在1212处确定有效波达方向信息可用,方法1200包括在框1214处向该第二设备发送该波达方向信息。例如,设备110向设备120发送波达方向信息142。
响应于在框1208处确定未检测到音频事件,在框1212处确定无有效波达方向信息可用,或者在框1214处向该第二设备发送该波达方向信息后,方法1200转到在框1220处确定是向该第二设备发送一个或多个音频信号(例如,音频信号170、172)、一个或多个波束形成的信号(例如,波束形成的音频信号148)还是不发送任何音频信号。
图12例示了在一些实施方式中可用于在框1220处确定是向该第二设备发送一个或多个音频信号、一个或多个波束形成的信号还是不发送任何音频信号的若干任选决策操作。
在框1230处,确定是否发生至少一个环境检测或音频事件检测。响应于确定未发生环境检测并且未检测到音频事件,方法1200在框1240处确定不向该第二设备发送任何音频。因此,在该示例中,当不存在任何环境检测并且不存在音频事件时,该第一设备(例如,设备110)不向该第二设备(例如,设备120)传输音频信息以进行附加处理。
否则,响应于确定发生环境检测或音频事件检测中的至少一者,方法1200包括在框1232处确定可用于向该第二设备传输的功率或带宽量是否受限。例如,如果该第一设备具有低于功率阈值的可用电池电量,或者如果用于向该第二设备发送音频数据的可用传输带宽量低于传输阈值,则该第一设备可确定与向该第二设备传输音频数据相关联的资源将被保存。否则,该第一设备可以默认(例如,非保存)模式进行。
响应于在框1232处确定功率或传输带宽均不受限,方法1200包括在框1248处向该第二设备发送音频信号。例如,设备110可向设备120发送音频信号170、172。
否则,响应于在框1232处确定功率或传输带宽中的至少一者受限,方法1200包括在框1234处确定该第二设备处的麦克风是否可用于捕获音频数据。例如,在该第二设备处的麦克风(例如,麦克风106、108)被遮挡或阻塞(诸如在用户的口袋或包中),或者位置太远而不能捕获与该第一设备处的麦克风基本上相同的音频信息的情况下,可认为该第二设备处的麦克风不可用。
响应于在框1234处确定该第二设备处的麦克风可用,方法1200包括在框1236处确定波束形成的音频信号是否可用。例如,当已经基于扩散环境声音而非来自方向可定位的特定来源的声音发生环境检测时,在该第一设备处可不执行任何波束形成操作。又如,当检测到音频事件但不能以大于阈值置信度的置信度来确定与该音频事件对应的声音的来源的方向时,在该第一设备处不生成有效的波束形成信号。
响应于在框1236处确定没有波束形成的音频信号可用,方法1200在框1240处确定不向该第二设备发送任何音频数据。否则,当在框1236处确定波束形成的音频信号可用时,方法1200转到框1242,在该框处向该第二设备发送波束形成的信号或不发送任何信号。例如,由于功率或传输资源有限,但是麦克风可用于在该第二设备处进行音频捕获和分析,因此该第一设备可确定不向该第二设备发送任何音频,并且相反该第二设备可捕获将用于在该第二设备处进行分析的音频。否则,尽管功率或传输资源有限,并且麦克风可用于在该第二设备处进行音频捕获,但是该第一设备可确定向该第二设备发送波束形成的音频信号。在一种特定实施方式中,在框1242处,关于是否发送波束形成的信号或不发送任何信号的决策可至少部分地基于可用于传输波束形成信号的功率或带宽量(例如,可执行与一个或多个带宽阈值或功率阈值的比较,以确定是否发送一个或多个波束形成的音频信号)。
返回到框1234,响应于确定该第二设备的麦克风不可用,方法1200在框1238处确定一个或多个波束形成的音频信号是否可用。响应于一个或多个波束形成的音频信号可用,方法1200包括在框1244处发送该一个或多个波束形成的音频信号。否则,响应于在框1238处确定该一个或多个波束形成的音频信号不可用,方法1200包括在框1246处向该第二设备发送缩减信号。例如,发送缩减信号可包括发送与减少数量的麦克风声道对应的音频(例如,发送音频信号170或172中的单个音频信号)、发送麦克风声道中的一个或多个麦克风声道的降低分辨率版本(例如,音频信号170、172中的一个或多个音频信号的较低分辨率版本)、发送提取的音频特征数据(例如,从音频信号170、172中的一个或两个音频信号中提取的特征数据,诸如频谱信息),这与发送全音频信号170、172相比,可以降低的功率和带宽使用量向该第二设备提供有用信息。
图13描绘了与方法1300对应的流程图,该方法可由诸如设备120(例如,一个或多个处理器126)之类的第二设备关于从诸如设备110之类的第一设备接收信息来执行。
方法1300包括在框1302处接收来自该第一设备的数据传输。方法1300包括在框1304处确定该传输是否包括音频信号数据。例如,该第二设备可解析所接收的数据,以确定是否接收到一个或多个音频信号(例如,音频信号170、172、一个或多个波束形成的信号148或它们的组合)。
如果该传输不包括音频信号数据,则方法1300任选地包括在框1304处确定该第二设备的一个或多个麦克风是否可用于音频捕获。例如,在该第二设备的麦克风(例如,麦克风106、108)被遮挡或阻塞(诸如在用户的口袋或包中),或者位置太远而不能捕获与该第一设备处的麦克风基本上相同的音频信息的情况下,可认为该第二设备处的麦克风不可用。
响应于在框1304处确定该一个或多个麦克风不可用,方法1300任选地包括在1306处向该第一设备发送该麦克风不可用的信号,并且该方法在1308处结束。否则,当一个或多个麦克风可用时,方法1300任选地包括在框1310处在该第二设备处执行数据捕获操作以捕获音频信号。
方法1300任选地包括在框1312处确定该传输是否包括环境数据。例如,设备120可解析所接收的数据,以确定是否接收到环境信息146。响应于该传输包括环境数据,方法1300任选地包括在1314处执行环境处理。例如,设备120可在声学环境处理单元156处,处理音频信号170、172、190、192或它们的组合,以生成环境信息147。
方法1300包括在框1320处确定该传输是否包括音频事件数据。例如,设备120可解析所接收的数据,以确定是否接收到音频事件信息144。如果该传输不包括音频事件数据,则在1322处结束处理在该传输中接收的数据。响应于该传输包括音频事件数据,方法1300任选地包括在框1330处确定该传输是否包括波达方向数据。例如,设备120可解析所接收的数据,以确定是否接收到波达方向信息142。响应于该传输不包括波达方向数据,方法1300任选地包括在1332处执行波达方向处理,以生成波达方向数据。例如,设备120可在波达方向处理单元152处,处理音频信号170、172、190、192或它们的组合,以生成波达方向信息143。然而,如果该传输包括波达方向数据,则绕过框1332的波达方向处理。因此,该第二设备可基于是否从该第一设备接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于该音频事件。
当在框1330处该传输包括波达方向信息时,或者在框1332处生成该波达方向信息后,方法1300任选地包括在框1340处确定该传输是否包括波束形成数据。例如,设备120可解析所接收的数据,以确定是否接收到波束形成的音频信号148。响应于该传输不包括波束形成数据,方法1300可任选地包括在1342处执行波束形成操作,以生成波束形成数据。例如,设备120可在波束形成单元158处,处理音频信号170、172、190、192或它们的组合,以生成波束形成的音频信号149。然而,如果该传输包括波束形成数据,则绕过在框1342处执行该波束形成操作。因此,该第二设备可基于所接收的音频数据是对应于来自该第一设备的多声道麦克风信号还是对应于来自该第一设备的波束形成的信号,来选择性地绕过该波束形成操作。
当在框1340处该传输包括波束形成数据时,或者在框1342处生成该波束形成数据后,方法1300包括在框1350处执行音频事件处理。例如,设备120可在音频事件处理单元154处,处理音频信号170、172、190、192或它们的组合,以生成音频事件信息145。
通过选择性地绕过一个或多个操作,诸如波达方向处理或波束形成操作,方法1300能够降低与处理从该第一设备接收的音频事件数据相关联的功率消耗、减少与该处理相关联的延迟或两者。
参考图14,公开了系统的一个特定例示性方面,该系统被配置为对从多个麦克风接收的多个音频信号执行定向处理,并且总体上被指定为1400。系统1400包括耦合到第一麦克风1402和第二麦克风1404的交通工具1410。尽管例示了两个麦克风1402、1404,但是在其他实施方式中,附加麦克风可耦合到交通工具1410。作为非限制性示例,八(8)个麦克风可耦合到交通工具1410。在一些实施方式中,麦克风1402、1404为定向麦克风。在其他实施方式中,麦克风1402、1404中的一个或两个麦克风为全向麦克风。
根据一些实施方式,交通工具1410可以是自主交通工具。换句话说,交通工具1410可在没有用户交互的情况下导航。根据其他实施方式,交通工具1410可包括一个或多个用户辅助模式(例如,障碍检测、障碍规避、车道维护、速度控制等),并且在一些示例中可在用户辅助模式与自主模式之间切换。系统1400还包括设备1420。根据一种实施方式,设备1420包括第二交通工具。根据另一种实施方式,设备1420包括服务器。如下所述,交通工具1410可与设备1420进行无线通信,以基于在交通工具1410处检测到的声音来执行一个或多个操作,诸如自主导航。在一种特定实施方式中,交通工具1410对应于设备110,并且设备1420对应于设备120。
第一麦克风1402被配置为捕获来自一个或多个来源1480的声音1482。在图14的例示性示例中,来源1480对应于另一交通工具,诸如汽车。然而,应当理解,该交通工具仅为声源的非限制性示例,并且本文所述的技术可使用其他声源来实施。在捕获来自来源1480的声音1482时,第一麦克风1402被配置为生成表示所捕获的声音1482的音频信号1470。类似地,第二麦克风1404被配置为捕获来自一个或多个来源1480的声音1482。在捕获来自来源1480的声音1482时,第二麦克风1404被配置为生成表示所捕获的声音1482的音频信号1472。
在交通工具1410上,第一麦克风1402和第二麦克风1404可具有不同的位置、不同的定向或两者。因此,麦克风1402、1404可在不同的时间、以不同的接收相位或两者捕获声音1482。举例说明,如果第一麦克风1402比第二麦克风1404更靠近来源1480,则第一麦克风1402可能在第二麦克风1404捕获到声音1482之前先捕获到声音1482。如下文所述,如果麦克风1402、1404的位置和定向已知,则麦克风1402、1404分别生成的音频信号1470、1472可用于执行定向处理。换句话说,交通工具1410可使用音频信号1470、1472来确定来源1480的相对位置、确定声音1482的波达方向等。
交通工具1410包括第一输入接口1411、第二输入接口1412、存储器1414和一个或多个处理器1416。第一输入接口1411耦合到一个或多个处理器1416,并且被配置为耦合到第一麦克风1402。第一输入接口1411被配置为从第一麦克风1402接收音频信号1470(例如,第一麦克风输出),并且可将音频信号1470作为音频帧1474提供给处理器1416。第二输入接口1412耦合到一个或多个处理器1416,并且被配置为耦合到第二麦克风1404。第二输入接口1412被配置为从第二麦克风1404接收音频信号1472(例如,第二麦克风输出),并且可将音频信号1472作为音频帧1476提供给处理器1416。音频信号1470、1472、音频帧1474、1476或两者在本文中还可称为音频数据1478。
一个或多个处理器1416包括波达方向处理单元1432,并且任选地包括音频事件处理单元1434、报告生成器1436、导航指令生成器1438或它们的组合。根据一种实施方式,一个或多个处理器1416的组件中的一个或多个组件可使用专用电路来实施。作为非限制性示例,一个或多个处理器1416的组件中的一个或多个组件可使用FPGA、ASIC等来实施。根据另一种实施方式,一个或多个处理器1416的组件中的一个或多个组件可通过执行存储在存储器1414中的指令1415来实施。例如,存储器1414可以是存储指令1415的非暂态计算机可读介质,该指令能够由一个或多个处理器1416执行以执行本文所述的操作。
波达方向处理单元1432可被配置为处理多个音频信号1470、1472,以生成与在音频信号1470、1472中表示的声音1482的来源1480对应的波达方向信息1442。在一些实施方式中,波达方向处理单元1432被配置为以与图1的波达方向处理单元132类似的方式操作。在例示性、非限制性示例中,波达方向处理单元1432可选择从每个麦克风1402、1404生成的表示类似声音(诸如来自来源1480的声音1482)的音频帧1474、1476。例如,波达方向处理单元1432可处理音频帧1474、1476,以比较声音特性并确保音频帧1474、1476表示声音1482的相同实例。响应于确定音频帧1474、1476表示声音1482的相同实例,波达方向处理单元1432可比较每个音频帧1474、1476的时间戳,以确定哪个麦克风1402、1404首先捕获了声音1482的对应实例。如果音频帧1474具有比音频帧1476更早的时间戳,则波达方向处理单元1432可生成指示来源1480更接近第一麦克风1402的波达方向信息1442。如果音频帧1476具有比音频帧1474更早的时间戳,则波达方向处理单元1432可生成指示来源1480更接近第二麦克风1404的波达方向信息1442。因此,基于类似音频帧1474、1476的时间戳,波达方向处理单元1432可定位声音1482和对应的来源1480。来自附加麦克风的音频帧的时间戳可用于以与上文所述类似的方式改进定位。
在一些实施方式中,可使用用于确定波达方向信息1442的一种或多种其他技术来代替或补充如上文所述的时间差,诸如测量在交通工具1410的麦克风阵列中的每个麦克风(例如,麦克风1402和1404)处接收的声音1482的相位差。在一些实施方式中,麦克风1402、1404可作为麦克风阵列操作或被包括在该麦克风阵列中,并且波达方向信息1442是基于来自该麦克风阵列中的每个麦克风的声音的特性(诸如波达时间或相位)并且基于该麦克风阵列中的麦克风的相对位置和定向而生成的。在此类实施方式中,可在交通工具1410与设备1420之间发送关于声音特性的信息或所捕获的音频数据,以用于波达方向检测。
音频事件处理单元1434可被配置为以与音频事件处理单元134类似的方式处理多个音频信号1470、1472,以执行音频事件检测。举例说明,音频事件处理单元1434可处理音频帧1474、1476的声音特性,并将该声音特性与多个音频事件模型进行比较,以确定音频事件是否已经发生。例如,音频事件处理单元1434可访问数据库(未示出),该数据库包括用于不同音频事件(诸如汽车喇叭、火车喇叭、行人交谈等)的模型。响应于该声音特性与特定模型匹配(或基本上匹配),音频事件处理单元1434可生成音频事件信息1444,该音频事件信息指示声音1482表示与该特定模型相关联的音频事件。作为非限制性示例,该音频事件可对应于正在驶近的交通工具(例如,来源1480)的声音。
报告生成器1436可被配置为基于波达方向信息1442和音频事件信息1444来生成报告1446。因此,报告1446可指示至少一个检测的事件和所检测的事件的方向。在麦克风1402、1404从各个方向捕获多个声音的情况下,报告1446可指示在一时间段内的检测的事件的列表和所检测的事件的方向信息。
处理器1416可被配置为向设备1420发送报告1446。根据一种实施方式,基于报告1446,设备1420可向交通工具1410发送导航指令1458。在从设备1420接收导航指令1458后,处理器1416可基于导航指令1458来导航(例如,自主地导航)交通工具1410。另选地或除此之外,可向交通工具1410的操作者提供导航指令1458,诸如用于调整交通工具1410的操作的可视或可听警报或指令。在一些示例中,导航指令1458指示交通工具1410要采取的路径(例如,当可能安全地让紧急交通工具通过时在一侧停车)。在一些示例中,导航指令1458向交通工具1410通知一个或多个其他交通工具的路径(例如,前方交通工具检测到事故并且将要减速)。处理器1416可自主地导航交通工具1410,以更改路径(例如,改变路线或改变速度),从而考虑一个或多个其他交通工具的路径。
根据另一种实施方式,基于报告1446或独立于报告1446,设备1420可向交通工具1410发送第二报告1456。响应于接收到第二报告1456,根据一种实施方式,处理器1416可基于报告1446和第二报告1456来导航(例如,自主地导航)交通工具1410。根据另一种实施方式,响应于接收到第二报告1456,导航指令生成器1438可被配置为生成处理器1416要用于导航交通工具1410的导航指令1448。在一些示例中,第二报告1456指示另一交通工具检测到的事件(例如,前方交通工具检测到指示事故的声音)。导航指令生成器1438可生成导航指令1448,以自主地导航交通工具1410来改变行进路径,从而避开事件的位置或改变速度(例如,减速)。处理器1416还可向设备1420发送导航指令1448,以向设备1420通知交通工具1410的路径。在一些示例中,导航指令1448指示推荐由一个或多个其他交通工具采用的路径(例如,路线或速度)。例如,导航指令1448指示交通工具1410正在减速,并且在交通工具1410的20英尺内的任何交通工具被推荐减速或改变路线。
任选地,设备1420可基于交通工具1410的位置和一个或多个其他设备1490的位置,向一个或多个其他设备1490发送音频事件(例如,交通工具碰撞)的通知1492。在一个示例中,通知1492对应于图9的通知930。作为例示性、非限制性示例,一个或多个设备1490可包括一个或多个其他交通工具或被并入一个或多个其他交通工具中,该一个或多个其他交通工具可被确定为在交通工具1410附近或接近交通工具1410的位置,以向该交通工具通知在交通工具1410附近的一个或多个检测的音频事件(例如,汽笛、碰撞等)。
图14的系统1400使得交通工具1410能够检测外部声音(诸如汽笛),并且相应地导航。应当理解,使用多个麦克风使得能够确定相对于汽笛声音(例如,来源1480)的位置和相对距离,并且该位置和相对距离可在所检测的汽笛声音接近或远离时显示。
图15描绘了系统1500的一个特定例示性方面,该系统包括与设备1520(例如,第二设备)进行通信的交通工具1510(例如,第一设备)。交通工具1510包括图14的输入接口1412、1411、存储器1414和一个或多个处理器1416。在一种特定实施方式中,交通工具1510对应于设备110,并且设备1520对应于设备120。
一个或多个处理器1416包括音频事件处理单元1434的一种实施方式,其中所生成的音频事件信息1444指示检测的音频事件对应于交通工具事件1502和与交通工具事件1502相关联的音频类别1504。例如,音频事件处理单元1434可包括一个或多个分类器(诸如图6的一个或多个分类器610),该一个或多个分类器被配置为处理音频数据1478,以确定音频类别1504,该音频类别对应于在音频数据1478中表示并且与交通工具事件1502相关联的声音1482。
一个或多个处理器1416被配置为向设备1520发送音频数据1550,该音频数据表示与交通工具事件1502相关联的声音。例如,音频数据1550可包括音频数据1478、音频信号1470、1472、被引导到声音1482的来源1480的一个或多个波束形成的音频信号或它们的组合。一个或多个处理器1416还被配置为向设备1520发送指示1552,该指示为音频数据1550对应于与交通工具事件1502相关联的音频类别1504。例如,指示1552可对应于图6或图8的指示616。
设备1520包括被配置为存储指令1515的存储器1514,并且还包括耦合到存储器1514的一个或多个处理器1516。一个或多个处理器1516被配置为从交通工具1510(例如,第一设备)接收音频数据1550和指示1552,该音频数据表示声音1482,并且该指示为音频数据1554对应于与交通工具事件1502相关联的音频类别1504。在一种特定实施方式中,作为非限制性示例,设备1520对应于另一交通工具、服务器或分布式计算(例如,基于云的)系统。
一个或多个处理器1516还被配置为在一个或多个分类器1530处,处理音频数据1550,以验证在音频数据1550中表示的声音1482对应于交通工具事件1502。例如,在一种特定实施方式中,一个或多个分类器1530对应于图9的一个或多个分类器920。一个或多个处理器1516被配置为基于交通工具1510(例如,第一设备)的位置和一个或多个设备1490(例如,一个或多个第三设备)的位置,向一个或多个设备1490发送交通工具事件1502的通知1492。
图16描绘了设备120(例如,第二设备)的一种特定实施方式,其中一个或多个处理器126被配置为基于第一设备(例如,设备110)检测到的音频事件来更新定向声源的地图1614。
一个或多个处理器126包括音频事件处理单元154、地图更新器1612和音频场景渲染器1618。一个或多个处理器126被配置为执行与跟踪音频场景中的定向音频声音的来源相关联的一个或多个操作。在一个示例中,一个或多个处理器126可从该第一设备接收与音频事件对应的音频类别的指示1602(诸如图6的指示616)和方向数据1604(诸如波达方向信息142),该方向数据对应于与该音频事件相关联的声音的来源。
一个或多个处理器126可基于该音频事件来更新音频场景中的定向声源的地图1614,以生成更新的地图1616。例如,当该音频事件对应于新检测到的音频事件时,地图更新器1612被配置为将与该音频事件对应的信息插入到地图1614中,以生成更新的地图1616。所插入的信息可包括诸如与该音频事件相关联的声音的来源的位置、该音频事件的类型(例如,对应于该音频事件的音频类别)的指示和与该音频事件相关联的音频(例如,指向表示该声音的音频信号数据的链接)等信息。
任选地,一个或多个处理器126可向地理上远离该第一设备的一个或多个第三设备(被例示为设备1670、1672和1674)发送数据1660,该数据对应于更新的地图1616。数据1660使得设备1670、1672和1674能够各自更新该设备的地图1614的本地副本,以使得设备1670、1672或1674的用户能够获知、访问或体验与该音频事件相关联的声音。
在一些实施方式中,地图1614(和更新的地图1616)对应于分布在地理区域上的音频事件和位置的数据库,诸如当在附近检测到碰撞时通知交通工具或更新交通工具导航指令以避免特定音频事件的“众包”数据库,诸如图14和图15所描述的。在其他实施方式中,地图1614(和更新的地图1616)可用于其他应用,诸如以提供在邻域、城镇、城市等中检测到的声音事件的地图。例如,与犯罪相关联的音频事件(例如,枪声、喊叫、汽笛、玻璃破碎等)的地图可由执法部门用于规划资源分配或用于检测需要调查的事件。又如,音频事件的地图可与自然相关联。举例说明,鸟类爱好者可使用各种鸟类的地图,该地图已经基于对其特定鸟类叫声的检测和分类来定位。
在一些实施方式中,音频场景渲染器1618被配置为基于更新的地图1616来生成声音数据,以供回放给该第一设备的用户,该声音数据对应于三维声音场景。例如,该第一设备可对应于用户佩戴的音频头戴式设备(诸如参考图21所述),也可以对应于虚拟现实头戴式设备、增强现实头戴式设备或混合现实头戴式设备(诸如参考图25所述)。
图17描绘了佩戴头戴式设备的用户1702周围的音频场景的3D音频地图1700的图形示例。3D音频地图1700可对应于图16的地图1614(或更新的地图1616)。3D音频地图1700包括第一交通工具1710和第二交通工具1712,该第一交通工具在大致朝向用户1702的方向上移动,并且该第二交通工具也在大致朝向用户的方向上移动。(移动音频来源的移动方向由箭头指示)。其他声源包括狗叫声1714、人员交谈1716、对穿过街道的剩余时间进行倒计时的人行横道计时器1718和已经被编辑到3D音频地图1700中的人工声音1720。例如,声源1710至声源1718可以是经由用户1702佩戴的头戴式设备的麦克风检测到的真实世界声源,并且人工声音1720可由增强现实引擎(或游戏引擎)添加在声音场景中的特定位置处,诸如与该位置处的商店或餐馆相关联的声音效果(例如,商业广播广告)。
图18描绘了定向音频场景1802的示例,该定向音频场景诸如基于图16的地图1614(或更新的地图1616)通过声音事件和环境类别检测来捕获。用户1804位于定向音频场景1802的中心,并且例示了与定向音频场景1802的声场相关联的多组虚拟(或实际)扬声器,这些扬声器包括基本上定位在用户1804上方和下方的第一组扬声器中的第一代表性扬声器1810、沿着定向音频场景1802的上部周边和下部周边定位的第二组扬声器中的第二代表性扬声器1812和定位在用户1804周围的大致头部高度处的第三组扬声器中的第三代表性扬声器1814。
在一种特定实施方式中,操作1820(例如,更新地图1614,以基于类型、方向等添加或去除声音事件)会产生更新的定向音频场景1830,除用户1804之外,所更新的定向音频场景还包括多个虚拟参与者1832、1834。例如,虚拟参与者1832、1834可对应于远程用户共享关于其相应本地声场的信息,该信息可与定向音频场景1802组合,以生成针对用户1804和各个参与者1832、1834的沉浸式共享虚拟体验。此类共享虚拟体验可用于诸如实况旅行频道指南或现场会议、聚会或事件沉浸之类的应用,用于由于社交、健康或其他限制而不能亲自参与的人员。
图19将设备110、120中的至少一个设备的一种实施方式1900描绘为包括定向音频信号处理电路的集成电路1902。例如,集成电路1902包括一个或多个处理器1916。一个或多个处理器1916可对应于一个或多个处理器116、一个或多个处理器126、图2的一个或多个处理器202、关于图3至图5描述的处理电路、一个或多个处理器1416、一个或多个处理器1516或它们的组合。一个或多个处理器1916包括定向音频信号处理单元1990。定向音频信号处理单元1990可包括处理器116的至少一个组件、处理器126的至少一个组件、处理器202的至少一个组件、头戴式设备310的至少一个组件、头戴式设备410的至少一个组件、移动电话420的至少一个组件、系统500的至少一个组件、处理器1416的至少一个组件、处理器1516的至少一个组件或它们的组合。
集成电路1902还包括音频输入1904(诸如一个或多个总线接口),以使得能够接收音频数据178以进行处理。集成电路1902还包括信号输出1906(诸如总线接口),以使得能够发送定向音频信号数据1992。定向音频信号数据1992可对应于以下各项中的至少一者:波达方向信息142、143;音频事件信息144、145;环境信息146、147;波束形成的音频信号148、149;方向信息250;第一声音信息440;第二声音信息442;上下文信息496;音频变焦角度460;降噪参数462;波达方向信息542;音频事件信息544;指示616;指示716;通知930;控制信号932;分类器输出934;目标输出1106;报告1446、1456;导航指令1448、1458;通知1492;指示1552;音频数据1550;数据1660或它们的组合。
集成电路1902能够实现作为系统中的组件的定向音频信号处理,该系统包括麦克风,诸如如图20所示的移动电话或平板设备、如图21所示的头戴式设备、如图22所示的可穿戴电子设备、如图23所示的声控扬声器系统、如图24所示的相机、如图25所示的虚拟现实头戴式设备、混合现实头戴式设备或增强现实头戴式设备、如图26所示的增强现实眼镜或混合现实眼镜、如图27所示的一组入耳式设备或如图28或图29所示的交通工具。
图20描绘了一种实施方式2000,其中设备120是移动设备2002,诸如电话或平板设备,作为例示性、非限制性示例。移动设备2002包括被放置为主要捕获用户的语音的第三麦克风106、被放置为主要捕获环境声音的一个或多个第四麦克风108和显示屏2004。定向音频信号处理单元1990被集成在移动设备2002中,并且使用虚线来例示,以指示对于移动设备2002的用户来说一般不可见的内部组件。在一个特定示例中,定向音频信号处理单元1990可用于生成定向音频信号数据1992,该定向音频信号数据然后被处理以在移动设备2002处执行一个或多个操作,诸如以启动图形用户界面或以其他方式在显示屏2004处显示与检测的音频事件相关联的其他信息(例如,经由集成的“智能助手”应用)。
图21描绘了一种实施方式2100,其中设备110是头戴式设备2102。头戴式设备2102包括被放置为主要捕获用户的语音的第一麦克风102和被放置为主要捕获环境声音的一个或多个第二麦克风104。定向音频信号处理单元1990被集成在头戴式设备2102中。在一个特定示例中,定向音频信号处理单元1990可用于生成定向音频信号数据1992(这可能使头戴式设备2102在头戴式设备2102处执行一个或多个操作)、向第二设备(未示出)发送定向音频信号数据1992以供进一步处理或它们的组合。头戴式设备2102可被配置为诸如基于音频事件信息144、音频事件信息145、环境信息146、环境信息147或它们的组合,向头戴式设备2102的佩戴者提供检测的音频事件或环境的可听通知。
图22描绘了一种实施方式2200,其中设备110、120中的至少一个设备是可穿戴电子设备2202,其被例示为“智能手表”。定向音频信号处理单元1990、第一麦克风102和一个或多个第二麦克风104被集成到可穿戴电子设备2202中。在一个特定示例中,定向音频信号处理单元1990可用于生成定向音频信号数据1992,该定向音频信号数据然后被处理以在可穿戴电子设备2202处执行一个或多个操作,诸如以启动图形用户界面或以其他方式在可穿戴电子设备2202的显示屏2204处显示与检测的音频事件相关联的其他信息。举例说明,可穿戴电子设备2202的显示屏2204可被配置为基于可穿戴电子设备2202检测到的语音来显示通知。在一个特定示例中,可穿戴电子设备2202包括触觉设备,该触觉设备响应于对音频事件的检测而提供触觉通知(例如,振动)。例如,该触觉通知可使用户诸如基于音频事件信息144、音频事件信息145、环境信息146、环境信息147或它们的组合,查看可穿戴电子设备2202,以查看检测的音频事件或环境的显示通知。因此,可穿戴电子设备2202可向具有听力受损的用户或佩戴头戴式设备的用户提醒检测到特定音频活动。
图23是一种实施方式2300,其中设备110、120中的至少一个设备是无线扬声器和声控设备2302。无线扬声器和声控设备2302可具有无线网络连接,并且被配置为执行辅助操作。定向音频信号处理单元1990、第一麦克风102、一个或多个第二麦克风104、第三麦克风106、第四麦克风108或它们的组合被包括在无线扬声器和声控设备2302中。无线扬声器和声控设备2302还包括扬声器2304。在特定方面,设备2304对应于图3的扬声器336、图4的扬声器436或两者。在操作期间,定向音频信号处理单元1990可用于生成定向音频信号数据1992并确定是否说出了关键字。响应于确定说出了关键字,无线扬声器和声控设备2302可诸如通过执行集成辅助应用来执行辅助操作。该辅助操作可包括调节温度、播放音乐、打开灯等。例如,该辅助操作可响应于在关键字或关键短语(例如,“你好,助手”)后接收命令来执行。
图24描绘了一种实施方式2400,其中设备110、120中的至少一个设备是与相机设备2402对应的便携式电子设备。定向音频信号处理单元1990、第一麦克风102、一个或多个第二麦克风104或它们的组合被包括在相机设备2402中。在操作期间,定向音频信号处理单元1990可用于生成定向音频信号数据1992并确定是否说出了关键字。响应于确定说出了关键字,相机设备2402可执行响应于口头用户命令的操作,诸如调整图像或视频捕获设置、图像或视频回放设置或者图像或视频捕获指令,作为例示性示例。
图25描绘了一种实施方式2500,其中设备110包括与扩展现实(“XR”)头戴式设备2502对应的便携式电子设备,诸如虚拟现实(“VR”)头戴式设备、增强现实(“AR”)头戴式设备或混合现实(“MR”)头戴式设备。定向音频信号处理单元1990、第一麦克风102、一个或多个第二麦克风104或它们的组合被集成到头戴式设备2502中。在特定方面,头戴式设备2502包括第一麦克风102和第二麦克风104,该第一麦克风被放置为主要捕获用户的语音,该第二麦克风被放置为主要捕获环境声音。定向音频信号处理单元1990可用于基于从头戴式设备2502的第一麦克风102和第二麦克风104接收的音频信号来生成定向音频信号数据1992。将视觉接口设备定位在用户的眼睛前方,以使得能够在佩戴头戴式设备2502时向用户显示增强现实或虚拟现实图像或场景。在特定的例子中,视觉接口设备被配置为显示指示在音频信号中检测到的用户语音的通知。在一个特定示例中,该视觉接口设备被配置为显示通知,以向用户视觉地指示与音频事件相关联的声音的来源的位置,该通知指示叠加在所显示的内容上(例如,在虚拟现实应用中)或叠加在用户的视野上(例如,在增强现实应用中)的所检测的音频事件。举例说明,该视觉接口设备可被配置为诸如基于音频事件信息144、音频事件信息145、环境信息146、环境信息147或它们的组合,显示检测的音频事件或环境的通知。
图26描绘了一种实施方式2600,其中设备110包括与增强现实或混合现实眼镜2602对应的便携式电子设备。眼镜2602包括全息投影单元2604,该全息投影单元被配置为将视觉数据投影到镜片2606的表面上,或者将该视觉数据从镜片2606的表面反射到佩戴者的视网膜上。定向音频信号处理单元1990、第一麦克风102、一个或多个第二麦克风104或它们的组合被集成到眼镜2602中。定向音频信号处理单元1990可用于基于从第一麦克风102和第二麦克风104接收的音频信号来生成定向音频信号数据1992。在一个特定示例中,全息投影单元2604被配置为显示通知,该通知指示在该音频信号中检测的用户语音。在一个特定示例中,全息投影单元2604被配置为显示通知,该通知指示检测的音频事件。例如,该通知可在和与该音频事件相关联的声音的来源的位置重合的特定位置处叠加在用户的视场上。举例说明,用户可将该声音感知为从该通知的方向发出。在一种例示性实施方式中,全息投影单元2604被配置为诸如基于音频事件信息144、音频事件信息145、环境信息146、环境信息147或它们的组合,显示检测的音频事件或环境的通知。
图27描绘了一种实施方式2700,其中设备110包括与一对耳塞式耳机2706对应的便携式电子设备,该对耳塞式耳机包括第一耳塞式耳机2702和第二耳塞式耳机2704。尽管描述了耳塞式耳机,但是应当理解,本公开技术可应用于其他入耳式或包耳式回放设备。
第一耳塞式耳机2702包括:第一麦克风2720,诸如被定位成捕获第一耳塞式耳机2702的佩戴者的语音的高信噪比麦克风;一个或多个其他麦克风的阵列,这些麦克风被配置为检测环境声音并且在空间上被分布成支持波束形成,其被例示为麦克风2722A、2722B和2722C;靠近佩戴者耳道的“内部”麦克风2724(例如,以辅助有源噪声消除);和自语音麦克风2726,诸如被配置为将佩戴者的耳骨或头骨的声音振动转换成音频信号的骨传导麦克风。
在一种特定实施方式中,第一麦克风2720对应于麦克风102,并且麦克风2722A、2722B和2722C对应于麦克风104的多个实例,并且麦克风2720、以及麦克风2722A、2722B和2722C生成的音频信号被提供给定向音频信号处理单元1990。定向音频信号处理单元1990可用于基于该音频信号来生成定向音频信号数据1992。在一些实施方式中,定向音频信号处理单元1990可被进一步配置为处理来自第一耳塞式耳机2702的一个或多个其他麦克风(诸如内部麦克风2724、自语音麦克风2726或两者)的音频信号。
第二耳塞式耳机2704可以与第一耳塞式耳机2702基本上类似的方式配置。在一些实施方式中,第一耳塞式耳机2702的定向音频信号处理单元1990还被配置为诸如经由耳塞式耳机2702、2704之间的无线传输或经由有线传输(在耳塞式耳机2702、2704经由传输线耦合的实施方式中),接收第二耳塞式耳机2704的一个或多个麦克风生成的一个或多个音频信号。在其他实施方式中,第二耳塞式耳机2704还包括定向音频信号处理单元1990,从而使得本文所述的技术能够由佩戴耳塞式耳机2702、2704中的任一个耳塞式耳机的用户执行。
在一些实施方式中,耳塞式耳机2702、2704被配置为在各种操作模式(诸如直通模式,在该直通模式下,经由扬声器2730播放环境声音;回放模式,在该回放模式下,通过扬声器2730回放非环境声音(例如,与电话交谈、媒体播放、视频游戏等对应的流式音频);和音频变焦模式或波束形成模式,在该音频变焦模式或波束形成模式下,加重一个或多个环境声音和/或抑制其他环境声音以供在扬声器2730处回放)之间自动切换。在其他实施方式中,耳塞式耳机2702、2704可支持较少模式,或者可支持一个或多个其他模式来代替所描述的模式,或者除所描述的模式之外还支持一个或多个其他模式。
在一个例示性示例中,耳塞式耳机2702、2704可以响应于检测到佩戴者的语音而自动地从回放模式转换到直通模式,并且可以在佩戴者已经停止说话之后自动地转换回到回放模式。在一些示例中,耳塞式耳机2702、2704可同时在两个或更多个模式下操作,诸如通过对特定环境声音(例如,狗叫声)执行音频变焦,并且在佩戴者听音乐的同时播放叠加在正在播放的声音上的音频变焦声音(可在播放音频变焦声音的同时减小音量)。在该示例中,可在不停止音乐回放的情况下提醒佩戴者注意与该音频事件相关联的环境声音。
图28描绘了一种实施方式2800,其中在交通工具2802中实施所公开的技术,该交通工具被例示为有人驾驶或无人驾驶空中设备(例如,包裹运送无人机)。定向音频信号处理单元2850被集成到交通工具2802中。定向音频信号处理单元2850包括或对应于定向音频信号处理单元1990,并且可被进一步配置为自主地导航交通工具2802。定向音频信号处理单元2850可包括例如图14的一个或多个处理器1416,并且交通工具2802可对应于交通工具1410。定向音频信号处理单元2850可基于从交通工具2802的第一麦克风102和第二麦克风104接收的音频信号来生成和执行导航指令,诸如用于来自交通工具2802的授权用户的运送指令。
图29描绘了另一种实施方式2900,其中交通工具1410或交通工具1510对应于交通工具2902,该交通工具被例示为汽车。交通工具2902包括定向音频信号处理单元2950。定向音频信号处理单元2950包括或对应于定向音频信号处理单元1990,并且可被进一步配置用于自主地导航交通工具2902。交通工具2902还包括第一麦克风102和第二麦克风104。在一些示例中,第一麦克风102和第二麦克风104中的一者或多者被定位在交通工具2902外部以捕获周围声音,诸如汽笛声音和其他交通工具的声音。在一些实施方式中,可基于从外部麦克风(例如,第一麦克风102和第二麦克风104)接收的音频信号来执行任务,诸如检测环境信息和音频声音事件、自主地导航交通工具2902等。
在一些示例中,第一麦克风102和第二麦克风104中的一者或多者被定位在交通工具2902内部以捕获该交通工具内的声音,诸如指示医疗紧急情况的语音命令或声音。在一些实施方式中,可基于从内部麦克风(例如,第一麦克风102和第二麦克风104)接收的音频信号来执行任务,诸如自主地导航交通工具2902。交通工具2902的一个或多个操作可基于诸如通过经由显示器2920或一个或多个扬声器(例如,扬声器2910)提供反馈或信息检测的一个或多个关键字(例如,“解锁”、“启动引擎”、“播放音乐”、“显示天气预报”或另一语音命令)来发起。
参考图30,示出了处理音频的方法3000的一种特定实施方式。在特定方面,方法3000的一个或多个操作由设备110、系统200、头戴式设备310、头戴式设备410、系统500、交通工具1410、交通工具1510或它们的组合来执行。
方法3000包括在框3002处在第一设备的一个或多个处理器处从多个麦克风接收音频信号。例如,参考图1,处理器130可分别从麦克风102、104接收音频信号170、172的音频帧174、176。
方法3000还包括在框3004处处理该音频信号以生成波达方向信息,该波达方向信息对应于在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源。例如,参考图1,波达方向处理单元132可处理音频帧174、176以生成与在音频信号170、172中表示的声音182的来源180对应的波达方向信息142。
方法3000还包括在框3006处向第二设备发送数据,该数据基于该波达方向信息和与该波达方向信息相关联的类别或嵌入。例如,调制解调器118可向设备120发送波达方向信息142和指示616或指示716中的一者或两者。该类别可对应于在该音频信号中表示并且与特定音频事件相关联的特定声音的种类,并且该嵌入可包括签名或信息,该签名或信息对应于该特定声音或该特定音频事件,并且可被配置为使得能够通过处理其他音频信号来检测该其他音频信号中的该特定声音或该特定音频事件。在一些实施方式中,方法3000还包括向该第二设备发送该音频信号的表示。例如,该音频信号的表示可包括音频信号170、172的一个或多个部分、波束形成的音频信号148的一个或多个部分或它们的组合。根据方法3000的一种实施方式,向设备120发送数据可触发激活一个或多个传感器129。
在一些实施方式中,方法3000包括处理与该音频信号对应的信号数据,以确定该类别或嵌入。在一个示例中,方法3000包括对该音频信号(例如,在波束形成单元138处)执行波束形成操作,以生成信号数据。在一个示例中,在一个或多个分类器(诸如一个或多个分类器610)处,处理该信号数据,以针对在该音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音,从该一个或多个分类器支持的多个类别中确定该类别。诸如经由指示616向该第二设备(例如,设备120)发送该类别。
在一些实施方式中,在一个或多个编码器(诸如一个或多个编码器710)处,处理该信号数据,以生成该嵌入。该嵌入对应于在该音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音。诸如经由指示716向该第二设备(例如,设备120)发送该嵌入。
在一些实施方式中,方法3000包括在该第二设备的一个或多个处理器处,接收该数据,该数据基于该波达方向信息和该类别。例如,设备120的调制解调器128可接收该数据,并向一个或多个处理器126提供波达方向信息142和指示616。方法3000可包括在该第二设备的该一个或多个处理器处,获得音频数据,该音频数据表示与该波达方向信息和该类别相关联的声音。例如,一个或多个处理器126从该第一设备获得音频信号170、172中的一个或多个音频信号,从本地麦克风(例如,麦克风106、108)获得音频信号190、192中的一个或多个音频信号,从该第一设备获得波束形成的音频信号148或它们的组合。方法3000还可包括在该第二设备的该一个或多个处理器处(诸如在音频事件处理单元154处或如参考一个或多个分类器610所描述的),至少基于该音频数据和该波达方向信息来验证该类别。
在一些实施方式中,方法3000包括在该第二设备的一个或多个处理器处,接收该数据,该数据基于该波达方向信息和该嵌入。例如,设备120的调制解调器128可接收该数据,并向一个或多个处理器126提供波达方向信息142和指示716。方法3000还可包括在该第二设备的该一个或多个处理器处,基于该波达方向信息和该嵌入来处理表示声音场景的音频数据,以生成修改的音频数据,所修改的音频数据与更新的声音场景对应。例如,一个或多个处理器126可结合一个或多个嵌入1104和方向信息912来处理表示音频场景1151的输入混合波形1102,以生成所更新的音频场景1171。
方法3000使得能够基于多个麦克风生成的音频信号来执行定向上下文感知处理。因此,能够实现用于各种使用情况的上下文检测和与周围环境相关联的特性的确定。
参考图31,示出了处理音频的方法3100的一种特定实施方式。在特定方面,方法3100的一个或多个操作由图14的交通工具1410执行。
方法3100包括在框3102处在交通工具的一个或多个处理器处从多个麦克风接收多个音频信号。例如,参考图14,处理器1416可分别从麦克风1402、1404接收音频信号1470、1472的音频帧1474、1476。
方法3100还包括在框3104处处理该多个音频信号以生成波达方向信息,该波达方向信息对应于在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源。例如,参考图14,波达方向处理单元1432可处理音频帧1474、1476以生成与在音频信号1470、1472中表示的声音1482的来源1480对应的波达方向信息1442。
方法3100还包括在框3106处基于该波达方向信息来生成报告,该报告指示至少一个检测的事件和所检测的事件的方向。例如,参考图14,报告生成器1436可生成报告1446,该报告指示至少一个检测的事件(来自音频事件信息1444)和所检测的事件的方向(来自波达方向信息1442)。
根据一种实施方式,方法3100可包括向第二设备(例如,第二交通工具或服务器)发送报告,并从该第二设备接收导航指令或第二报告。基于该第二报告,该处理器可生成导航指令,以自主地导航该交通工具。如果该第二设备发送该导航指令,则该处理器可使用所发送的导航指令来自主地导航该交通工具。
方法3100使得交通工具1410能够检测外部声音(诸如汽笛),并且相应地导航。应当理解,使用多个麦克风使得能够确定相对于汽笛声音(例如,来源1480)的位置和相对距离,并且该位置和相对距离可在所检测的汽笛声音接近或远离时显示。
参考图32,示出了处理音频的方法3200的一种特定实施方式。在特定方面,方法3200的一个或多个操作由设备120诸如在一个或多个处理器126处执行。
方法3200包括在框3202处在第二设备的一个或多个处理器处,接收音频类别的指示,该指示是从第一设备接收的并且对应于音频事件。例如,图9的设备120的一个或多个处理器126从图6的设备110接收指示902(例如,指示616)。
方法3200包括在框3204处在该第二设备的该一个或多个处理器处,处理音频数据,以验证在该音频数据中表示的声音对应于该音频事件。例如,图2的设备120的一个或多个处理器126处理音频数据904以生成分类922,以验证在音频数据904中表示的声音对应于该音频事件。在一个示例中,一个或多个处理器126将分类922与指示902所指示的该音频类别进行比较。
任选地,方法3200包括从该第一设备(例如,设备110)接收该音频数据,并且处理该音频数据任选地包括向一个或多个分类器提供该音频数据作为输入,以确定与该音频数据相关联的分类。例如,在一些实施方式中,音频数据904包括音频信号170、172的一个或多个部分、波束形成的音频信号148的一个或多个部分或它们的组合,并且音频数据904被输入到一个或多个分类器920。在一些实施方式中,处理该音频数据还包括向该一个或多个分类器提供该音频类别的该指示(例如,指示902)作为第二输入,以确定与该音频数据相关联的该分类。
任选地,方法3200包括基于该一个或多个分类器的输出向该第一设备(例如,设备110)发送控制信号,诸如控制信号932。在一些实施方式中,该控制信号包括音频变焦指令。在一些实施方式中,该控制信号包括基于该声音的来源的方向来执行空间处理的指令。
在一些实施方式中,该音频类别对应于交通工具事件,并且方法3200任选地包括基于该第一设备的位置和一个或多个第三设备的位置,向该一个或多个第三设备发送该交通工具事件的通知。例如,通知1492被发送到一个或多个设备1490,如参考图14和图15所描述的。
任选地,方法3200包括从该第一设备(例如,设备110)接收方向数据(诸如方向数据912),该方向数据对应于与该音频事件相关联的声音的来源。方法3200可包括基于该音频事件来更新音频场景中的定向声源的地图,以生成更新的地图(诸如参考地图更新器1612所描述的),以及向地理上远离该第一设备的一个或多个第三设备发送数据,该数据对应于更新的地图。例如,设备120向设备1670、1672和1674中的一个或多个设备发送数据1660。
任选地,方法3200包括基于是否从该第一设备(例如,设备110)接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于该音频事件。例如,一个或多个处理器126可基于在图13的框1330处确定在传输中从该第一设备接收到波达方向信息来选择性地绕过执行在图13的框1332处例示的波达方向处理。
任选地,方法3200包括基于所接收的音频数据是对应于来自该第一设备(例如,设备110)的多声道麦克风信号还是对应于来自该第一设备的波束形成的信号,来选择性地绕过波束形成操作。例如,一个或多个处理器126可基于在图13的框1340处确定该传输包括波束形成数据(诸如波束形成的音频信号148),来选择性地绕过执行在图13的框1342处例示的波束形成操作。
通过接收与音频事件对应的音频类别的指示并处理音频数据以验证在该音频数据中表示的声音对应于该音频事件,方法3200使得能够执行分布式音频事件检测,使得与第二级(例如,在移动电话处)相比,第一级(例如,在头戴式设备处)可以相对较高的灵敏度和相对较低的准确性(例如,由于功率、存储或计算限制)来识别音频事件。该第二级可使用更高功率、更准确的音频事件检测来验证该音频事件,并且可基于所检测的音频事件来发送检测结果、控制信号等。因此,可向诸如头戴式设备之类的可穿戴电子设备的用户提供准确的音频事件检测,而不需要可穿戴电子设备支持与全功率音频事件检测相关联的计算负载、内存占用和功率消耗。
参考图33,示出了处理音频的方法3300的一种特定实施方式。在特定方面,方法3300的一个或多个操作由设备120诸如在一个或多个处理器126处执行。在另一特定方面,方法3300的一个或多个操作由设备1520诸如在一个或多个处理器1526处执行。
方法3300包括在框3302处在第二设备的一个或多个处理器处,接收来自第一设备的音频数据和来自该第一设备的指示,该指示为该音频数据对应于与交通工具事件相关联的音频类别。例如,设备1520从交通工具1510接收音频数据1550和指示1552。
方法3300包括在框3304处在该第二设备(例如,设备1520)的一个或多个分类器处,处理音频数据,以验证在该音频数据中表示的声音对应于交通工具事件。例如,在一个或多个分类器1530处,处理音频数据1550,以确定分类1522。
方法3300包括在框3306处基于该第一设备(例如,交通工具1510)的位置和一个或多个第三设备的位置,向该一个或多个第三设备发送该交通工具事件的通知。例如,设备1520基于交通工具1510的位置和一个或多个设备1490的位置向一个或多个设备1490发送通知1592。
参考图34,示出了处理音频的方法3400的一种特定实施方式。在特定方面,方法3400的一个或多个操作由设备110诸如在一个或多个处理器116处执行。
方法3400包括在框3402处在第一设备的一个或多个处理器处从一个或多个麦克风接收一个或多个音频信号。例如,设备110分别从麦克风102、104接收音频信号170、172。
方法3400包括在框3404处在该一个或多个处理器处,处理该一个或多个音频信号,以确定在该音频信号中的一个或多个音频信号中表示的声音是否来自可识别的方向。例如,设备110在图12的框1212处确定在图12的框1202处对该音频信号的处理是否生成关于音频事件的来源的有效波达方向信息。
方法3400包括在框3406处基于该确定选择性地向第二设备发送该声音的来源的波达方向信息。例如,设备110基于确定有效的波达方向信息是否可用来选择是否向第二设备发送波达方向信息,诸如结合图12的框1212和框1214所描述的。
通过基于在该音频信号中的一个或多个音频信号中表示的声音是否来自可识别的方向来选择性地发送波达方向信息,方法3400可节省功率消耗和传输资源,否则该功率消耗和传输资源将以其他方式通过向该第二设备发送无效或不可靠的波达方向信息而消耗。
参考图35,示出了处理音频的方法3500的一种特定实施方式。在特定方面,方法3500的一个或多个操作由设备110诸如在一个或多个处理器116处执行。
方法3500包括在框3502处在第一设备的一个或多个处理器处从一个或多个麦克风接收一个或多个音频信号。例如,设备110分别从麦克风102、104接收音频信号170、172。
方法3500包括在框3504处在一个或多个处理器处并且基于一个或多个标准,确定是向第二设备发送一个或多个音频信号,还是向该第二设备发送波束形成的音频信号,该波束形成的音频信号是基于该一个或多个音频信号生成的。例如,如果波束形成的音频信号在设备110处可用,则设备110可基于诸如可用功率和带宽资源量之类的标准来确定是否发送该一个或多个音频信号,或者是否发送波束形成的音频信号,如参考图12的框1220所描述的。在例示性、非限制性示例中,其中没有麦克风在该第二设备处可用,如果用于传输到该第二设备的可用功率或带宽超过阈值,如结合图12的框1232所描述的,则确定发送该音频信号(例如,经由来自框1232的“否”路径);否则,确定发送该波束形成的信号(例如,经由来自框1232的“是”路径、来自框1234的“否”路径和来自框1238的“是”路径)。
方法3500包括在框3506处基于该确定,向该第二设备发送音频数据,该音频数据对应于该一个或多个音频信号或对应于该波束形成的音频信号。继续上述示例,设备110可在图12的框1248处向设备120发送该音频信号,或者在图12的框1244处向设备120发送该波束形成的信号。
通过基于一个或多个标准(诸如功率可用性或传输资源)来选择是否发送该音频信号或该波束形成的信号,方法3400使得发送设备能够根据具体情况作出关于以下方面的适当的确定,即是否向接收设备提供全音频分辨率(例如,通过发送与包括所关注声音的一组完整的麦克风声道对应的数据),或者是否提供更精细定向的音频(例如,通过发送与针对所关注声音的来源的单个波束形成的声道对应的数据)。
参考图36,示出了处理音频的方法3600的一种特定实施方式。在特定方面,方法3600的一个或多个操作由设备120诸如在一个或多个处理器126处执行。
方法3600包括在框3602处在第二设备的一个或多个处理器处,接收:音频数据,该音频数据表示声音;方向数据,该方向数据对应于该声音的来源;和分类,该分类将该声音分类为对应于音频事件,其中该音频数据、该方向数据和该分类是从第一设备接收的。例如,设备120的一个或多个处理器126可从设备110接收图9或图10的音频数据904、图16的指示1602和方向数据1604。
方法3600包括在框3604处在该一个或多个处理器处,处理该音频数据,以验证该声音对应于该音频事件。例如,音频事件处理单元154处理音频数据,以验证指示1602所指示的音频类别。
方法3600包括在框3606处在该一个或多个处理器处并且基于该音频事件,更新音频场景中的定向声源的地图,以生成更新的地图。例如,地图更新器1612更新地图1614,以生成更新的地图1616。
方法3600包括在框3608处向地理上远离该第一设备的一个或多个第三设备发送数据,该数据对应于更新的地图。例如,向地理上远离设备110的设备1670、1672和1674发送更新的地图数据1660。
通过更新音频场景中的定向声源的地图并向地理上远离的设备发送更新的地图数据,方法3600能够实现应用(诸如虚拟环境,其中多个参与者沉浸在共享声音场景中),诸如参考图18所描述的。
图12、图13和图30至图36的方法可由现场可编程门阵列(FPGA)设备、专用集成电路(ASIC)、处理单元(诸如中央处理单元(CPU))、数字信号处理单元(DSP)、控制器、另一硬件设备、固件设备或它们的任何组合来实现。例如,图12、图13和图30至图36的方法可由执行指令的处理器来执行,诸如参考图37所描述的。
参考图37,描绘了设备的一种特定例示性实施方式的框图,并且总体上将其指定为3700。在各种实施方式中,设备3700可具有比在图37中所示的更多或更少的组件。在一种例示性实施方式中,设备3700可对应于设备110、设备120、设备1410、设备1420、交通工具1510或设备1520。在一种例示性实施方式中,设备3700可执行参考图1至图36描述的一个或多个操作。
在一种特定实施方式中,设备3700包括处理器3706(例如,CPU)。设备3700可包括一个或多个附加处理器3710(例如,一个或多个DSP)。在特定方面,图1的处理器116、126或图14的处理器1416对应于处理器3706、处理器3710或它们的组合。处理器3710可包括语音和音乐编码器-解码器(CODEC)3708,其包括语音译码器(“声码器”)编码器3736、声码器解码器3738、定向音频信号处理单元1990或它们的组合。
设备3700可包括存储器3786和CODEC 3734。存储器3786可包括指令3756,该指令能够由一个或多个附加处理器3710(或处理器3706)执行,以实施参考定向音频信号处理单元1990描述的功能。在特定方面,存储器3786对应于图1的存储器114、存储器124、图14的存储器1414或它们的组合。在特定方面,存储器3756包括图1的指令115、指令125、图14的指令1415或它们的组合。设备3700可包括经由收发器3750耦合到天线3752的调制解调器3770。调制解调器3770可被配置为向第二设备(未示出)发送信号。根据一种特定实施方式,调制解调器3770可对应于图1的调制解调器128。
设备3700可包括耦合到显示控制器3726的显示器3728。扬声器3792、第一麦克风102和第二麦克风104可耦合到CODEC 3734。CODEC 3734可包括数模转换器(DAC)3702、模数转换器(ADC)3704或两者。在一种特定实施方式中,CODEC 3734可从第一麦克风102和第二麦克风104接收模拟信号,使用模数转换器3704将该模拟信号转换为数字信号,并将该数字信号提供给语音和音乐编解码器3708。语音和音乐编解码器3708可处理该数字信号,并且该数字信号可进一步由定向音频信号处理单元1990进行处理。在一种特定实施方式中,语音和音乐编解码器3708可将数字信号提供给CODEC 3734。CODEC 3734可使用数模转换器3702将该数字信号转换为模拟信号,并且可将该模拟信号提供给扬声器3792。
在一种特定实施方式中,设备3700可被包括在系统级封装或片上系统设备3722中。在一种特定实施方式中,存储器3786、处理器3706、处理器3710、显示控制器3726、CODEC3734和调制解调器3770被包括在系统级封装或片上系统设备3722中。在一种特定实施方式中,输入设备3730和电源3744耦合到片上系统设备3722。此外,在一种特定实施方式中,如图37中所示,显示器3728、输入设备3730、扬声器3792、第一麦克风102、第二麦克风104、天线3752和电源3744在片上系统设备3722外部。在一种特定实施方式中,显示器3728、输入设备3730、扬声器3792、第一麦克风102、第二麦克风104、天线3752和电源3744中的每一者可耦合到片上系统设备3722的组件,诸如接口(例如,输入接口121或输入接口122)或控制器。
设备3700可包括智能扬声器、扬声器条、移动通信设备、智能电话、蜂窝电话、膝上型计算机、计算机、平板设备、个人数字助理、显示设备、电视、游戏控制台、音乐播放器、收音机、数字视频播放器、数字视频光盘(DVD)播放器、调谐器、相机、导航设备、交通工具、头戴式设备,增强现实头戴式设备、混合现实头戴式设备、虚拟现实头戴式设备、飞行器、家庭自动化系统、声控设备、无线扬声器和声控设备、便携式电子设备、汽车、交通工具、计算设备、通信设备、物联网(IoT)设备、虚拟现实(VR)设备、基站、移动设备或它们的任何组合。
结合所描述的实施方式,一种装置包括构件,该构件用于从多个麦克风接收音频信号。例如,该用于接收音频信号的构件可对应于输入接口112、输入接口111、处理器116或其组件、输入接口121、输入接口122、处理器126或其组件、第一处理域210或其组件、第二处理域220或其组件、头戴式设备310或其组件、头戴式设备410或其组件、空间滤波处理单元502、音频输入1904、一个或多个处理器1916、定向音频信号处理单元1990、一个或多个处理器3710、被配置为从多个麦克风接收音频信号的一个或多个其他电路或组件或它们的任何组合。
该装置还包括构件,该构件用于处理该音频信号以生成波达方向信息,该波达方向信息对应于在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源。例如,该用于处理的构件可对应于处理器116或其组件、处理器126或其组件、第一处理域210或其组件、第二处理域220或其组件、头戴式设备310或其组件、头戴式设备410或其组件、空间滤波处理单元502、音频事件处理单元504、定向音频信号处理单元1990、一个或多个处理器1916、一个或多个处理器3710、被配置为处理音频信号的一个或多个其他电路或组件或它们的任何组合。
该装置还包括构件,该构件用于向第二设备发送数据,该数据基于该波达方向信息和与该波达方向信息相关联的类别或嵌入。例如,该用于发送的构件可对应于调制解调器118、调制解调器128、信号输出1906、定向音频信号处理单元1990、一个或多个处理器1916、调制解调器3770、收发器3750、天线3752、被配置为发送数据和类别或嵌入的一个或多个其他电路或组件或它们的任何组合。
结合所描述的实施方式,一种装置包括构件,该构件用于从多个麦克风接收多个音频信号。例如,该用于接收多个音频信号的构件可对应于输入接口1412、输入接口1411、一个或多个处理器1416或其组件、定向音频信号处理单元2850、定向音频信号处理单元2950、一个或多个处理器3710、被配置为从多个麦克风接收多个音频信号的一个或多个其他电路或组件或它们的任何组合。
该装置还包括构件,该构件用于处理多个音频信号以生成波达方向信息,该波达方向信息对应于在该音频信号中的一个或多个音频信号中表示的声音的一个或多个来源。例如,该用于处理的构件包括一个或多个处理器1416或其组件、定向音频信号处理单元2850、定向音频信号处理单元2950、一个或多个处理器3710、被配置为处理多个音频信号的一个或多个其他电路或组件或它们的任何组合。
该装置还包括构件,该构件用于基于该波达方向信息来生成报告,该报告指示至少一个检测的事件和所检测的事件的方向。例如,该用于生成的构件包括一个或多个处理器1416或其组件、定向音频信号处理单元2850、定向音频信号处理单元2950、一个或多个处理器3710、被配置为生成该报告的一个或多个其他电路或组件或它们的任何组合。
结合所描述的实施方式,一种装置包括构件,该构件用于接收音频类别的指示,该指示从远程设备接收并且对应于音频事件。例如,该用于接收指示的构件可对应于调制解调器128、一个或多个处理器126、一个或多个处理器1516、音频输入1904、一个或多个处理器1916、天线3752、收发器3750、调制解调器3770、处理器3706、一个或多个处理器3710、被配置为接收指示的一个或多个其他电路或组件或它们的任何组合。
该装置还包括构件,该构件用于处理音频数据,以验证在该音频数据中表示的声音对应于该音频事件。例如,该用于处理音频数据的构件可对应于一个或多个处理器126、一个或多个处理器1516、一个或多个处理器1916、处理器3706、一个或多个处理器3710、被配置为处理音频数据以验证在音频数据中表示的声音对应于音频事件的一个或多个其他电路或组件或它们的任何组合。
在一些实施方式中,一种非暂态计算机可读介质(例如,计算机可读存储设备,诸如存储器114或存储器3786)包括指令(例如,指令115或指令3756),该指令在由一个或多个处理器(例如,一个或多个处理器116、一个或多个处理器3710或处理器3706)执行时,使该一个或多个处理器:从多个麦克风(例如,麦克风102、104)接收音频信号(例如,音频信号170、172)。该指令在由该一个或多个处理器执行时,进一步使该一个或多个处理器:处理该音频信号以生成波达方向信息(例如,波达方向信息142),该波达方向信息对应于该音频信号中的一个或多个音频信号中的声音(例如,声音182)的一个或多个来源(例如,一个或多个来源180)。该指令在由该一个或多个处理器执行时,进一步使该一个或多个处理器:向第二设备(例如,设备120)发送数据,该数据基于该波达方向信息和与该波达方向信息相关联的类别或嵌入。
在一些实施方式中,一种非暂态计算机可读介质(例如,计算机可读存储设备,诸如存储器3786)包括指令(例如,指令3756),该指令在由交通工具(例如,交通工具1410)的一个或多个处理器(例如,一个或多个处理器3710或处理器3706)执行时,使该一个或多个处理器从多个麦克风(例如,麦克风1402、1404)接收多个音频信号(例如,音频信号1470、1472)。该指令在由该一个或多个处理器执行时,进一步使该一个或多个处理器:处理该多个音频信号以生成波达方向信息(例如,波达方向信息1442),该波达方向信息对应于该音频信号中的一个或多个音频信号中的声音(例如,声音1482)的一个或多个来源(例如,一个或多个来源1480)。该指令在由该一个或多个处理器执行时,进一步使该一个或多个处理器:基于该波达方向信息来生成报告(例如,报告1446),该报告指示至少一个检测的事件和所检测的事件的方向。
在一些实施方式中,一种非暂态计算机可读介质(例如,计算机可读存储设备,诸如存储器124、存储器1514或存储器3786)包括指令(例如,指令125、指令1515或指令3756),该指令在由一个或多个处理器(例如,一个或多个处理器126、一个或多个处理器1516、一个或多个处理器3710或处理器3706)执行时,使该一个或多个处理器:从第一设备接收音频类别的指示(例如,指示902、指示1552或指示1602),该音频类别对应于音频事件。
本公开内容包括以下第一组实施例。
实施例1包括一种第一设备,所述第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息。
实施例2包括根据实施例1所述的第一设备,其中,所述存储器和所述一个或多个处理器被集成到头戴式设备中,并且其中所述第二设备对应于移动电话。
实施例3包括根据实施例1所述的第一设备,其中,所述存储器和所述一个或多个处理器被集成到移动电话中,并且其中所述第二设备对应于头戴式设备。
实施例4包括根据实施例1至3中任一项所述的第一设备,其中,发送到所述第二设备的所述数据触发在所述第二设备处激活一个或多个传感器。
实施例5包括根据实施例1至4中任一项所述的第一设备,其中,所述一个或多个传感器中的至少一个传感器包括非音频传感器。
实施例6包括根据实施例1至5中任一项所述的第一设备,其中,所述非音频传感器包括360度相机。
实施例7包括根据实施例1至6中任一项所述的第一设备,其中,所述非音频传感器包括激光雷达传感器。
实施例8包括根据实施例1至7中任一项所述的第一设备,其中,所述一个或多个处理器包括在低功率状态下操作的第一处理域。
实施例9包括根据实施例1至8中任一项所述的第一设备,其中,所述一个或多个处理器还包括在高功率状态下操作的第二处理域,第二功率域被配置为处理所述多个音频信号,以生成所述波达方向信息。
实施例10包括根据实施例1至9中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:处理所述多个音频信号,以执行音频事件检测;以及向所述第二设备发送数据,所述数据对应于检测的音频事件。
实施例11包括根据实施例1至9中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于音频事件检测操作来生成事件数据,所述事件数据对应于检测的音频事件;以及向所述第二设备发送所述事件数据。
实施例12包括根据实施例1至11中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:处理所述多个音频信号,以执行声学环境检测;以及向所述第二设备发送数据,所述数据对应于检测的环境。
实施例13包括根据实施例1至11中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于声学环境检测操作来生成环境数据,所述环境数据对应于检测的环境。
实施例14包括根据实施例1至13中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于所述波达方向信息对所述多个音频信号执行空间处理,以生成波束形成的音频信号;以及向所述第二设备发送所述波束形成的音频信号。
实施例15包括根据实施例1至14中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于所述波达方向信息来调整所述多个麦克风中的至少一个麦克风的焦点。
实施例16包括根据实施例1至15中任一项所述的第一设备,所述第一设备还包括调制解调器,其中,所述数据经由所述调制解调器发送到所述第二设备。
实施例17包括根据实施例1至16中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:向所述第二设备发送所述多个音频信号的表示。
实施例18包括根据实施例17所述的第一设备,其中,所述多个音频信号的所述表示对应于一个或多个波束形成的音频信号。
实施例19包括根据实施例1至18中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:生成用户接口输出,所述用户接口输出指示环境事件或声学事件中的至少一者。
实施例20包括根据实施例1至19中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收数据,所述数据指示声学事件。
实施例21包括根据实施例1至20中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收数据,所述数据指示环境事件。
实施例22包括根据实施例1至21中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收数据,所述数据指示波束形成的音频信号。
实施例23包括根据实施例1至22中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收与所述多个音频信号相关联的方向信息;以及基于所述方向信息来执行音频变焦操作。
实施例24包括根据实施例1至23中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收与所述多个音频信号相关联的方向信息;以及基于所述方向信息来执行噪声消除操作。
实施例25包括根据实施例1至24中任一项所述的第一设备,所述第一设备还包括所述多个麦克风。
实施例26包括根据实施例1至25中任一项所述的第一设备,所述第一设备还包括至少一个扬声器,所述至少一个扬声器被配置为输出与所述多个音频信号中的至少一个音频信号相关联的声音。
实施例27包括根据实施例1至26中任一项所述的第一设备,其中,所述一个或多个处理器被集成在交通工具中。
实施例28包括根据实施例1至27中任一项所述的第一设备,其中,基于所述波达方向信息的所述数据包括报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例29包括一种处理音频的方法,所述方法包括:在第一设备的一个或多个处理器处,从多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息。
实施例30包括根据实施例29所述的方法,所述方法还包括:处理所述多个音频信号,以执行音频事件检测;以及向所述第二设备发送数据,所述数据对应于检测的音频事件。
实施例31包括根据实施例30所述的方法,其中,所述音频事件检测包括:在一个或多个分类器处,处理所述多个音频信号中的一个或多个音频信号,以针对在所述音频信号中的一个或多个音频信号中表示的声音,从所述一个或多个分类器支持的多个类别中确定类别,其中对应于所检测的音频事件的所述数据包括所述类别的指示。
实施例32包括根据实施例29至31中任一项所述的方法,所述方法还包括:处理所述多个音频信号,以执行声学环境检测;以及向所述第二设备发送数据,所述数据对应于检测的环境。
实施例33包括根据实施例29至32中任一项所述的方法,其中,所述数据经由调制解调器发送到所述第二设备。
实施例34包括根据实施例29至33中任一项所述的方法,所述方法还包括:向所述第二设备发送所述多个音频信号的表示。
实施例35包括根据实施例29至34中任一项所述的方法,其中,发送到所述第二设备的基于所述波达方向信息的所述数据触发在所述第二设备处激活一个或多个传感器。
实施例36包括根据实施例29至35中任一项所述的方法,其中,所述一个或多个传感器中的至少一个传感器包括非音频传感器。
实施例37包括一种设备,所述设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据权利要求29至36中任一项所述的方法。
实施例38包括一种设备,所述设备包括一种包括指令的非暂态计算机可读介质,所述指令在由第一设备的一个或多个处理器执行时,使所述一个或多个处理器执行根据权利要求29至36中任一项所述的方法。
实施例39包括一种装置,所述装置包括用于执行根据权利要求29至36中任一项所述的方法的构件。
实施例40包括一种包括指令的非暂态计算机可读介质,所述指令在由第一设备的一个或多个处理器执行时,使所述一个或多个处理器:从多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息。
实施例41包括根据实施例40所述的非暂态计算机可读介质,其中,发送到所述第二设备的所述数据触发在所述第二设备处激活一个或多个传感器。
实施例42包括根据实施例41或42所述的非暂态计算机可读介质,其中,所述一个或多个传感器中的至少一个传感器包括非音频传感器。
实施例43包括根据实施例40至42中任一项所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:向所述第二设备发送所述多个音频信号的表示。
实施例44包括根据实施例43所述的非暂态计算机可读介质,其中,所述多个音频信号的所述表示对应于一个或多个波束形成的音频信号。
实施例45包括一种第一设备,所述第一设备包括:构件,所述构件用于从多个麦克风接收多个音频信号;构件,所述构件用于处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;和构件,所述构件用于向第二设备发送数据,所述数据基于所述波达方向信息。
实施例46包括一种交通工具,所述交通工具包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为执行所述指令以:从多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及基于所述波达方向信息来生成报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例47包括根据实施例46所述的交通工具,其中,所述一个或多个处理器被进一步配置为:向第二设备发送所述报告。
实施例48包括根据实施例46至47中任一项所述的交通工具,其中,所述第二设备包括第二交通工具。
实施例49包括根据实施例46至48中任一项所述的交通工具,其中,所述第二设备包括服务器。
实施例50包括根据实施例46至49中任一项所述的交通工具,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收导航指令;以及基于所述导航指令进行导航。
实施例51包括根据实施例46至50中任一项所述的交通工具,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收第二报告;以及基于所述报告和所述第二报告进行导航。
实施例52包括根据实施例46至51中任一项所述的交通工具,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收第二报告;基于所述第二报告来生成导航指令;以及向所述第二设备发送所述导航指令。
实施例53包括根据实施例46至52中任一项所述的交通工具,其中,所述报告指示在一时间段内的检测的事件的列表和所检测的事件的方向信息。
实施例54包括一种处理音频的方法,所述方法包括:在交通工具的一个或多个处理器处,从所述多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及基于所述波达方向信息来生成报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例55包括根据实施例54所述的方法,所述方法还包括:向第二设备发送所述报告。
实施例56包括根据实施例54至55中任一项所述的方法,其中,所述第二设备包括第二交通工具。
实施例57包括根据实施例54至56中任一项所述的方法,其中,所述第二设备包括服务器。
实施例58包括根据实施例54至57中任一项所述的方法,所述方法还包括:从所述第二设备接收导航指令;以及基于所述导航指令进行导航。
实施例59包括根据实施例54至58中任一项所述的方法,所述方法还包括:从所述第二设备接收第二报告;以及基于所述报告和所述第二报告进行导航。
实施例60包括根据实施例54至59中任一项所述的方法,所述方法还包括:从所述第二设备接收第二报告;基于所述第二报告来生成导航指令;以及向所述第二设备发送所述导航指令。
实施例61包括根据实施例54至60中任一项所述的方法,其中,所述报告指示在一时间段内的检测的事件的列表和所检测的事件的方向信息。
实施例62包括一种包括指令的非暂态计算机可读介质,所述指令在由交通工具的一个或多个处理器执行时,使所述一个或多个处理器:从多个麦克风接收多个音频信号;处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及基于所述波达方向信息来生成报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例63包括根据实施例62所述的非暂态计算机可读介质,其中,所述指令在由所述一个或多个处理器执行时,进一步使所述一个或多个处理器:向第二设备发送所述报告。
实施例64包括根据实施例62至63中任一项所述的非暂态计算机可读介质,其中,所述第二设备包括第二交通工具。
实施例65包括根据实施例62至64中任一项所述的非暂态计算机可读介质,其中,所述第二设备包括服务器。
实施例66包括根据实施例62至65中任一项所述的非暂态计算机可读介质,其中,所述指令在由所述一个或多个处理器执行时,进一步使所述一个或多个处理器:从所述第二设备接收导航指令;以及基于所述导航指令进行导航。
实施例67包括根据实施例62至66中任一项所述的非暂态计算机可读介质,其中,所述指令在由所述一个或多个处理器执行时,进一步使所述一个或多个处理器:从所述第二设备接收第二报告;以及基于所述报告和所述第二报告进行导航。
实施例68包括根据实施例62至67中任一项所述的非暂态计算机可读介质,其中,所述指令在由所述一个或多个处理器执行时,进一步使所述一个或多个处理器:从所述第二设备接收第二报告;基于所述第二报告来生成导航指令;以及向所述第二设备发送所述导航指令。
实施例69包括根据实施例62至68中任一项所述的非暂态计算机可读介质,其中,所述报告指示在一时间段内的检测的事件的列表和所检测的事件的方向信息。
实施例70包括一种交通工具,所述交通工具包括:构件,所述构件用于从多个麦克风接收多个音频信号;构件,所述构件用于处理所述多个音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;和构件,所述构件用于基于所述波达方向信息来生成报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例71包括根据实施例70所述的交通工具,所述交通工具还包括:用于向第二设备发送所述报告的构件。
实施例72包括根据实施例70至71中任一项所述的交通工具,其中,所述第二设备包括第二交通工具。
实施例73包括根据实施例70至72中任一项所述的交通工具,其中,所述第二设备包括服务器。
实施例74包括根据实施例70至73中任一项所述的交通工具,其中,所述报告指示在一时间段内的检测的事件的列表和所检测的事件的方向信息。
实施例75包括根据实施例70至74中任一项所述的交通工具,所述交通工具还包括用于基于所述报告来执行自主导航的构件。
本公开内容包括以下第二组实施例。
根据实施例1,一种第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从多个麦克风接收音频信号;处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的类别或嵌入。
实施例2包括根据实施例1所述的第一设备,其中,所述一个或多个处理器被进一步配置为:处理与所述音频信号对应的信号数据,以确定所述类别或嵌入。
实施例3包括根据实施例2所述的第一设备,其中,所述一个或多个处理器被进一步配置为:对所述音频信号执行波束形成操作,以生成所述信号数据。
实施例4包括根据实施例2或实施例3所述的第一设备,其中,所述一个或多个处理器被进一步配置为:在一个或多个分类器处,处理所述信号数据,以针对在所述音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音,从所述一个或多个分类器支持的多个类别中确定所述类别,并且其中所述类别被发送到所述第二设备。
实施例5包括根据实施例2至4中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:在一个或多个编码器处,处理所述信号数据,以生成所述嵌入,所述嵌入对应于在所述音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音,并且其中所述嵌入被发送到所述第二设备。
实施例6包括根据实施例1至5中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:在一个或多个编码器处,处理图像数据,以生成所述嵌入,所述嵌入对应于在所述图像数据中表示并且与音频事件相关联的对象,并且其中所述嵌入被发送到所述第二设备。
实施例7包括根据实施例6所述的第一设备,所述第一设备还包括一个或多个相机,所述一个或多个相机被配置为生成所述图像数据。
实施例8包括根据实施例1至7中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于声学环境检测操作来生成环境数据,所述环境数据对应于检测的环境。
实施例9包括根据实施例1至8中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:基于所述波达方向信息对所述音频信号执行空间处理,以生成一个或多个波束形成的音频信号;以及向所述第二设备发送所述一个或多个波束形成的音频信号。
实施例10包括根据实施例1至9中任一项所述的第一设备,其中,所述存储器和所述一个或多个处理器被集成到头戴式设备中,并且其中所述第二设备对应于移动电话。
实施例11包括根据实施例1至9中任一项所述的第一设备,其中,所述一个或多个处理器被集成在交通工具中。
实施例12包括根据实施例1至11中任一项所述的第一设备,所述第一设备还包括调制解调器,其中,所述数据经由所述调制解调器发送到所述第二设备。
实施例13包括根据实施例1至12中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:向所述第二设备发送所述音频信号的表示。
实施例14包括根据实施例13所述的第一设备,其中,所述音频信号的所述表示对应于一个或多个波束形成的音频信号。
实施例15包括根据实施例1至14中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:生成用户接口输出,所述用户接口输出指示环境事件或声学事件中的至少一者。
实施例16包括根据实施例1至15中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收数据,所述数据指示声学事件。
实施例17包括根据实施例1至16中任一项所述的第一设备,其中,所述一个或多个处理器被进一步配置为:从所述第二设备接收与所述音频信号相关联的方向信息;以及基于所述方向信息来执行音频变焦操作。
实施例18包括根据实施例1至17中任一项所述的第一设备,其中,基于所述波达方向信息的所述数据包括报告,所述报告指示至少一个检测的事件和所检测的事件的方向。
实施例19包括根据实施例1至18中任一项所述的第一设备,所述第一设备还包括所述多个麦克风。
实施例20包括根据实施例1至19中任一项所述的第一设备,所述第一设备还包括至少一个扬声器,所述至少一个扬声器被配置为输出与所述音频信号中的至少一个音频信号相关联的声音。
实施例21包括根据实施例1至20中任一项所述的第一设备,其中:所述类别对应于在所述音频信号中表示并且与特定音频事件相关联的特定声音的种类;并且所述嵌入包括签名或信息,所述签名或信息对应于所述特定声音或所述特定音频事件,并且被配置为使得能够通过处理其他音频信号来检测所述其他音频信号中的所述特定声音或所述特定音频事件。
根据实施例22,一种系统包括:根据实施例1至21中任一项所述的第一设备;和所述第二设备,所述第二设备包括:一个或多个处理器,所述一个或多个处理器被配置为:接收数据;以及处理所述数据以验证所述类别,以便基于所述波达方向信息和所述嵌入来修改表示声音场景的音频数据,从而生成修改的音频数据,所修改的音频数据对应于更新的声音场景,或两者。
根据实施例23,一种系统包括:第一设备,所述第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从多个麦克风接收音频信号;处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的类别;和第二设备,所述第二设备包括一个或多个处理器,所述一个或多个处理器被配置为:接收所述数据,所述数据基于所述波达方向信息和所述类别;获得音频数据,所述音频数据表示与所述波达方向信息和所述类别相关联的声音;以及至少基于所述音频数据和所述波达方向信息来验证所述类别。
根据实施例24,一种系统包括:第一设备,所述第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从多个麦克风接收音频信号;处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的嵌入;和第二设备,所述第二设备包括一个或多个处理器,所述一个或多个处理器被配置为:接收所述数据,所述数据基于所述波达方向信息和所述嵌入;以及基于所述波达方向信息和所述嵌入来处理表示声音场景的音频数据,以生成修改的音频数据,所修改的音频数据对应于更新的声音场景。
根据实施例25,一种处理音频的方法包括:在第一设备的一个或多个处理器处,从多个麦克风接收音频信号;处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的类别或嵌入。
实施例26包括根据实施例25所述的方法,所述方法还包括:处理与所述音频信号对应的信号数据,以确定所述类别或嵌入。
实施例27包括根据实施例26所述的方法,所述方法还包括:对所述音频信号执行波束形成操作,以生成所述信号数据。
实施例28包括根据实施例26或实施例27所述的方法,其中,在一个或多个分类器处,处理所述信号数据,以针对在所述音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音,从所述一个或多个分类器支持的多个类别中确定所述类别,并且其中所述类别被发送到所述第二设备。
实施例29包括根据实施例26至28中任一项所述的方法,其中,在一个或多个编码器处,处理所述信号数据,以生成所述嵌入,所述嵌入对应于在所述音频信号中的一个或多个音频信号中表示并且与音频事件相关联的声音,并且其中所述嵌入被发送到所述第二设备。
实施例30包括根据实施例25至29中任一项所述的方法,所述方法还包括:向所述第二设备发送所述音频信号的表示。
实施例31包括根据实施例25至30中任一项所述的方法,所述方法还包括:在所述第二设备的一个或多个处理器处,接收所述数据,所述数据基于所述波达方向信息和所述类别;在所述第二设备的所述一个或多个处理器处,获得音频数据,所述音频数据表示与所述波达方向信息和所述类别相关联的声音;以及在所述第二设备的所述一个或多个处理器处,至少基于所述音频数据和所述波达方向信息来验证所述类别。
实施例32包括根据实施例25至31中任一项所述的方法,所述方法还包括:在所述第二设备的一个或多个处理器处,接收所述数据,所述数据基于所述波达方向信息和所述嵌入;以及在所述第二设备的所述一个或多个处理器处,基于所述波达方向信息和所述嵌入来处理表示声音场景的音频数据,以生成修改的音频数据,所修改的音频数据与更新的声音场景对应。
根据实施例33,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例25至30中任一项所述的方法。
根据实施例34,一种非暂态计算机可读介质包括指令,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例25至30中任一项所述的方法。
根据实施例35,一种装置包括用于执行根据实施例25至30中任一项所述的方法的构件。
根据实施例36,一种非暂态计算机可读介质包括指令,所述指令在由第一设备的一个或多个处理器执行时,使所述一个或多个处理器:从多个麦克风接收音频信号;处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;以及向第二设备发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的类别或嵌入。
实施例37包括根据实施例36所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:向所述第二设备发送所述音频信号的表示。
实施例38包括根据实施例37所述的非暂态计算机可读介质,其中,所述音频信号的所述表示对应于一个或多个波束形成的音频信号。
根据实施例39,第一设备包括:构件,所述构件用于从多个麦克风接收音频信号;构件,所述构件用于处理所述音频信号以生成波达方向信息,所述波达方向信息对应于在所述音频信号中的一个或多个音频信号中表示的声音的一个或多个来源;和构件,所述构件用于向第二设备发送数据,所述数据基于所述波达方向信息和与所述波达方向信息相关联的类别或嵌入。
本公开内容包括以下第三组实施例。
根据实施例1,一种第二设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从第一设备接收音频类别的指示,所述音频类别对应于音频事件。
实施例2包括根据实施例1所述的第二设备,其中,所述一个或多个处理器被进一步配置为:从所述第一设备接收音频数据,所述音频数据表示与所述音频事件相关联的声音;以及在一个或多个分类器处,处理所述音频数据,以验证所述声音对应于所述音频事件。
实施例3包括根据实施例2所述的第二设备,其中,所述一个或多个处理器被配置为:向所述一个或多个分类器提供所述音频数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
实施例4包括根据实施例2或实施例3所述的第二设备,其中,所述音频类别对应于交通工具事件,并且其中所述一个或多个处理器被进一步配置为:基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
实施例5包括根据实施例2至4中任一项所述的第二设备,其中,所述一个或多个处理器被进一步配置为:基于所述一个或多个分类器的输出,向所述第一设备发送控制信号。
实施例6包括根据实施例5所述的第二设备,其中,所述控制信号指示所述第一设备执行音频变焦操作。
实施例7包括根据实施例5或实施例6所述的第二设备,其中,所述控制信号指示所述第一设备基于所述声音的来源的方向来执行空间处理。
实施例8包括根据实施例2至7中任一项所述的第二设备,其中,所述一个或多个处理器被进一步配置为:从所述第一设备接收方向数据,所述方向数据对应于所述声音的来源;以及向所述一个或多个分类器提供所述音频数据、所述方向数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
实施例9包括根据实施例2至8中任一项所述的第二设备,其中,所述音频数据包括一个或多个波束形成的信号。
实施例10包括根据实施例1至9中任一项所述的第二设备,其中,所述一个或多个处理器被进一步配置为:从所述第一设备接收方向数据,所述方向数据对应于与所述音频事件相关联的声音的来源;基于所述音频事件来更新音频场景中的定向声源的地图,以生成更新的地图;以及向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
实施例11包括根据实施例1至10中任一项所述的第二设备,其中,所述存储器和所述一个或多个处理器被集成到移动电话中,并且其中所述第一设备对应于头戴式设备。
实施例12包括根据实施例1至10中任一项所述的第二设备,其中,所述存储器和所述一个或多个处理器被集成到交通工具中。
实施例13包括根据实施例1至12中任一项所述的第二设备,所述第二设备还包括调制解调器,其中所述音频类别的所述指示是经由所述调制解调器接收的。
实施例14包括根据实施例1至13中任一项所述的第二设备,其中,所述一个或多个处理器被配置为:基于是否从所述第一设备接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于所述音频事件。
实施例15包括根据实施例1至14中任一项所述的第二设备,其中,所述一个或多个处理器被配置为:基于所接收的音频数据是对应于来自所述第一设备的多声道麦克风信号还是对应于来自所述第一设备的波束形成的信号,来选择性地绕过波束形成操作。
实施例16包括根据实施例1至15中任一项所述的第二设备,其中:所述音频类别对应于在所述音频信号中表示并且与所述音频事件相关联的特定声音的种类。
根据实施例17,一种系统包括:根据实施例1至16中任一项所述的第二设备;和所述第一设备,所述第一设备包括:一个或多个处理器,所述一个或多个处理器被配置为:从一个或多个麦克风接收音频信号;处理所述音频信号以确定音频类别;以及向所述第二设备发送所述音频类别的指示。
根据实施例18,一种系统包括:第一设备,所述第一设备包括:一个或多个处理器,所述一个或多个处理器被配置为:从一个或多个麦克风接收音频信号;处理所述音频信号以确定音频类别,所述音频类别对应于音频事件;以及发送所述音频类别的指示;和第二设备,所述第二设备包括一个或多个处理器,所述一个或多个处理器被配置为:接收所述音频类别的所述指示,所述音频类别对应于所述音频事件。
根据实施例19,一种方法包括:在第二设备的一个或多个处理器处,接收音频类别的指示,所述指示是从第一设备接收的并且对应于音频事件;以及在所述第二设备的所述一个或多个处理器处,处理音频数据,以验证在所述音频数据中表示的声音对应于所述音频事件。
实施例20包括根据实施例19所述的方法,所述方法还包括:从所述第一设备接收所述音频数据,并且其中所述处理所述音频数据包括:向一个或多个分类器提供所述音频数据作为输入,以确定与所述音频数据相关联的分类。
实施例21包括根据实施例20所述的方法,其中,所述处理所述音频数据还包括:向所述一个或多个分类器提供所述音频类别的所述指示作为第二输入,以确定与所述音频数据相关联的所述分类。
实施例22包括根据实施例20或实施例21所述的方法,所述方法还包括:基于所述一个或多个分类器的输出向所述第一设备发送控制信号。
实施例23包括根据实施例22所述的方法,其中,所述控制信号包括音频变焦指令。
实施例24包括根据实施例22或实施例23所述的方法,其中,所述控制信号包括基于所述声音的来源的方向来执行空间处理的指令。
实施例25包括根据实施例19至24中任一项所述的方法,其中,所述音频类别对应于交通工具事件,并且所述方法还包括:基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
实施例26包括根据实施例19至25中任一项所述的方法,所述方法还包括:从所述第一设备接收方向数据,所述方向数据对应于与所述音频事件相关联的声音的来源;基于所述音频事件来更新音频场景中的定向声源的地图,以生成更新的地图;以及向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
实施例27包括根据实施例19至26中任一项所述的方法,所述方法还包括:基于是否从所述第一设备接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于所述音频事件。
实施例28包括根据实施例19至27中任一项所述的方法,所述方法还包括:基于所接收的音频数据是对应于来自所述第一设备的多声道麦克风信号还是对应于来自所述第一设备的波束形成的信号,来选择性地绕过波束形成操作。
实施例29包括根据实施例19至28中任一项所述的方法,所述方法还包括:在所述第一设备的一个或多个处理器处,从一个或多个麦克风接收音频信号;在所述第一设备的所述一个或多个处理器处,处理所述音频信号以确定所述音频类别;以及向所述第二设备发送来自所述第一设备的所述音频类别的所述指示。
根据实施例30,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例16至28中任一项所述的方法。
根据实施例31,一种非暂态计算机可读介质包括指令,所述指令在由一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例16至29中任一项所述的方法。
根据实施例32,一种装置包括用于执行根据实施例16至28中任一项所述的方法的构件。
根据实施例33,一种非暂态计算机可读介质包括指令,所述指令在由第二设备的一个或多个处理器执行时,使所述一个或多个处理器:从第一设备接收音频类别的指示,所述音频类别对应于音频事件。
实施例34包括根据实施例33所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:从所述第一设备接收音频数据,所述音频数据表示与所述音频事件相关联的声音;以及在一个或多个分类器处,处理所述音频数据,以验证所述声音对应于所述音频事件。
实施例35包括根据实施例34所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:向所述一个或多个分类器提供所述音频数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
实施例36包括根据实施例34或实施例35所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:从所述第一设备接收方向数据,所述方向数据对应于所述声音的来源;以及向所述一个或多个分类器提供所述音频数据、所述方向数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
根据实施例37,一种装置包括:构件,所述构件用于接收音频类别的指示,所述指示从远程设备接收并且对应于音频事件;和构件,所述构件用于处理音频数据,以验证在所述音频数据中表示的声音对应于所述音频事件。
根据实施例38,一种第二设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从第一设备接收:音频数据,所述音频数据表示声音;和指示,所述指示为所述音频数据对应于与交通工具事件相关联的音频类别;在一个或多个分类器处,处理所述音频数据,以验证在所述音频数据中表示的所述声音对应于交通工具事件;以及基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
根据实施例39,一种方法包括:在第二设备的一个或多个处理器处,接收来自第一设备的音频数据和来自所述第一设备的指示,所述指示为所述音频数据对应于与交通工具事件相关联的音频类别;在所述第二设备的一个或多个分类器处,处理所述音频数据,以验证在所述音频数据中表示的声音对应于交通工具事件;以及基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
根据实施例40,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例39所述的方法。
根据实施例41,一种非暂态计算机可读介质包括指令,所述指令在由第二设备的一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例39所述的方法。
根据实施例42,一种装置包括用于执行根据实施例39所述的方法的构件。
根据实施例43,一种第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从一个或多个麦克风接收一个或多个音频信号;处理所述一个或多个音频信号,以确定在所述音频信号中的一个或多个音频信号中表示的声音是否来自可识别的方向;以及基于所述确定选择性地向第二设备发送所述声音的来源的波达方向信息。
根据实施例44,一种方法包括:在第一设备的一个或多个处理器处,从一个或多个麦克风接收一个或多个音频信号;在所述一个或多个处理器处,处理所述一个或多个音频信号,以确定在所述音频信号中的一个或多个音频信号中表示的声音是否来自可识别的方向;以及基于所述确定选择性地向第二设备发送所述声音的来源的波达方向信息。
根据实施例45,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例44所述的方法。
根据实施例46,一种非暂态计算机可读介质包括指令,所述指令在由第一设备的一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例44所述的方法。
根据实施例47,一种装置包括用于执行根据实施例44所述的方法的构件。
根据实施例48,一种第一设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从一个或多个麦克风接收一个或多个音频信号;基于一个或多个标准,确定是向第二设备发送所述一个或多个音频信号,还是向所述第二设备发送波束形成的音频信号,所述波束形成的音频信号是基于所述一个或多个音频信号生成的;以及基于所述确定,向所述第二设备发送音频数据,所述音频数据对应于所述一个或多个音频信号或对应于所述波束形成的音频信号。
根据实施例49,一种方法包括:在第一设备的一个或多个处理器处,从一个或多个麦克风接收一个或多个音频信号;在所述一个或多个处理器处并且基于一个或多个标准,确定是向第二设备发送所述一个或多个音频信号,还是向所述第二设备发送波束形成的音频信号,所述波束形成的音频信号是基于所述一个或多个音频信号生成的;以及基于所述确定,向所述第二设备发送音频数据,所述音频数据对应于所述一个或多个音频信号或对应于所述波束形成的音频信号。
根据实施例50,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例49所述的方法。
根据实施例51,一种非暂态计算机可读介质包括指令,所述指令在由第一设备的一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例49所述的方法。
根据实施例52,一种装置包括用于执行根据实施例49所述的方法的构件。
根据实施例53,一种第二设备包括:存储器,所述存储器被配置为存储指令;和一个或多个处理器,所述一个或多个处理器被配置为:从第一设备接收:音频数据,所述音频数据表示声音;方向数据,所述方向数据对应于所述声音的来源;和分类,所述分类将所述声音分类为对应于音频事件;处理所述音频数据,以验证所述声音对应于所述音频事件;基于所述音频事件来更新音频场景中的定向声源的地图,以生成更新的地图;以及向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
根据实施例54,一种方法包括:在第二设备的一个或多个处理器处,接收:音频数据,所述音频数据表示声音;方向数据,所述方向数据对应于所述声音的来源;和分类,所述分类将所述声音分类为对应于音频事件,所述音频数据、所述方向数据和所述分类是从第一设备接收的;在所述一个或多个处理器处,处理所述音频数据,以验证所述声音对应于所述音频事件;在所述一个或多个处理器处并且基于所述音频事件,更新音频场景中的定向声源的地图,以生成更新的地图;以及向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
根据实施例55,一种设备包括:存储器,所述存储器被配置为存储指令;和处理器,所述处理器被配置为执行所述指令,以执行根据实施例54所述的方法。
根据实施例56,一种非暂态计算机可读介质包括指令,所述指令在由第二设备的一个或多个处理器执行时,使所述一个或多个处理器执行根据实施例54所述的方法。
根据实施例57,一种装置包括用于执行根据实施例54所述的方法的构件。
技术人员还将明白的是,结合本文所公开的实现来描述的各个说明性的逻辑框、配置、模块、电路和算法步骤可以被实现为电子硬件、由处理器执行的计算机软件、或这两者的组合。各种说明性的组件、框、配置、模块、电路和步骤已在上文围绕其功能进行了一般性描述。此类功能性是被实现为硬件还是处理器可执行指令取决于具体应用和施加于整体系统的设计约束。技术人员可针对每种特定应用以不同方式来实现所描述的功能性,此类实现决策将不被解读为致使脱离本公开内容的范围。
结合本文中所公开的实现所描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中实施。软件模块可以驻留在随机存取存储器(RAM)、闪存、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动盘、压缩光盘只读存储器(CD-ROM)、或本领域中已知的任何其它形式的非暂时性存储介质。示例性的存储介质耦合到处理器,使得处理器可以从该存储介质读取信息以及向该存储介质写入信息。在替代方案中,存储介质可与处理器集成在一起。处理器和存储介质可以位于专用集成电路(ASIC)中。该ASIC可以位于计算设备或者用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在计算设备或用户终端中。
提供对所公开各方面的先前描述是为使本领域技术人员皆能够制作或使用所公开各方面。对这些方面的各种修改对于本领域技术人员而言将是显而易见的,并且本文中定义的原理可被应用于其他方面而不会脱离本公开内容的范围。由此,本公开内容并非旨在限定于本文中示出的各方面,而是应被授予可能与如由所附权利要求所定义的原理和新颖性特征一致的最广义的范围。
Claims (30)
1.一种第二设备,所述第二设备包括:
存储器,所述存储器被配置为存储指令;和
一个或多个处理器,所述一个或多个处理器被配置为:
从第一设备接收音频类别的指示,所述音频类别对应于音频事件。
2.根据权利要求1所述的第二设备,其中,所述一个或多个处理器被进一步配置为:
从所述第一设备接收音频数据,所述音频数据表示与所述音频事件相关联的声音;以及
在一个或多个分类器处,处理所述音频数据,以验证所述声音对应于所述音频事件。
3.根据权利要求2所述的第二设备,其中,所述一个或多个处理器被配置为:向所述一个或多个分类器提供所述音频数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
4.根据权利要求2所述的第二设备,其中,所述音频类别对应于交通工具事件,并且其中所述一个或多个处理器被进一步配置为:基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
5.根据权利要求2所述的第二设备,其中,所述一个或多个处理器被进一步配置为:基于所述一个或多个分类器的输出,向所述第一设备发送控制信号。
6.根据权利要求5所述的第二设备,其中,所述控制信号指示所述第一设备执行音频变焦操作。
7.根据权利要求6所述的第二设备,其中,所述控制信号指示所述第一设备基于所述声音的来源的方向来执行空间处理。
8.根据权利要求2所述的第二设备,其中,所述一个或多个处理器被进一步配置为:
从所述第一设备接收方向数据,所述方向数据对应于所述声音的来源;以及
向所述一个或多个分类器提供所述音频数据、所述方向数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
9.根据权利要求2所述的第二设备,其中,所述音频数据包括一个或多个波束形成的信号。
10.根据权利要求1所述的第二设备,其中,所述一个或多个处理器被进一步配置为:
从所述第一设备接收方向数据,所述方向数据对应于与所述音频事件相关联的声音的来源;
基于所述音频事件来更新音频场景中的定向声源的地图,以生成更新的地图;以及
向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
11.根据权利要求1所述的第二设备,其中,所述存储器和所述一个或多个处理器被集成到移动电话中,并且其中所述第一设备对应于头戴式设备。
12.根据权利要求1所述的第二设备,其中,所述存储器和所述一个或多个处理器被集成到交通工具中。
13.根据权利要求1所述的第二设备,所述第二设备还包括调制解调器,其中所述音频类别的所述指示是经由所述调制解调器接收的。
14.根据权利要求1所述的第二设备,其中,所述一个或多个处理器被配置为:基于是否从所述第一设备接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于所述音频事件。
15.根据权利要求1所述的第二设备,其中,所述一个或多个处理器被配置为:基于所接收的音频数据是对应于来自所述第一设备的多声道麦克风信号还是对应于来自所述第一设备的波束形成的信号,来选择性地绕过波束形成操作。
16.一种方法,所述方法包括:
在第二设备的一个或多个处理器处,接收音频类别的指示,所述指示是从第一设备接收的并且对应于音频事件;以及
在所述第二设备的所述一个或多个处理器处,处理音频数据,以验证在所述音频数据中表示的声音对应于所述音频事件。
17.根据权利要求16所述的方法,所述方法还包括:从所述第一设备接收所述音频数据,并且其中所述处理所述音频数据包括:向一个或多个分类器提供所述音频数据作为输入,以确定与所述音频数据相关联的分类。
18.根据权利要求17所述的方法,其中,所述处理所述音频数据还包括:向所述一个或多个分类器提供所述音频类别的所述指示作为第二输入,以确定与所述音频数据相关联的所述分类。
19.根据权利要求17所述的方法,所述方法还包括:基于所述一个或多个分类器的输出向所述第一设备发送控制信号。
20.根据权利要求19所述的方法,其中,所述控制信号包括音频变焦指令。
21.根据权利要求19所述的方法,其中,所述控制信号包括基于所述声音的来源的方向来执行空间处理的指令。
22.根据权利要求16所述的方法,其中,所述音频类别对应于交通工具事件,并且所述方法还包括:基于所述第一设备的位置和一个或多个第三设备的位置,向所述一个或多个第三设备发送所述交通工具事件的通知。
23.根据权利要求16所述的方法,所述方法还包括:
从所述第一设备接收方向数据,所述方向数据对应于与所述音频事件相关联的声音的来源;
基于所述音频事件来更新音频场景中的定向声源的地图,以生成更新的地图;以及
向地理上远离所述第一设备的一个或多个第三设备发送数据,所述数据对应于更新的地图。
24.根据权利要求16所述的方法,所述方法还包括:基于是否从所述第一设备接收到波达方向信息,来选择性地绕过对所接收的音频数据的波达方向处理,所接收的音频数据对应于所述音频事件。
25.根据权利要求16所述的方法,所述方法还包括:基于所接收的音频数据是对应于来自所述第一设备的多声道麦克风信号还是对应于来自所述第一设备的波束形成的信号,来选择性地绕过波束形成操作。
26.一种非暂态计算机可读介质,所述非暂态计算机可读介质包括指令,所述指令在由第二设备的一个或多个处理器执行时,使所述一个或多个处理器:从第一设备接收音频类别的指示,所述音频类别对应于音频事件。
27.根据权利要求26所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:
从所述第一设备接收音频数据,所述音频数据表示与所述音频事件相关联的声音;以及
在一个或多个分类器处,处理所述音频数据,以验证所述声音对应于所述音频事件。
28.根据权利要求27所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:向所述一个或多个分类器提供所述音频数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
29.根据权利要求27所述的非暂态计算机可读介质,其中,所述指令能够执行以进一步使所述一个或多个处理器:
从所述第一设备接收方向数据,所述方向数据对应于所述声音的来源;以及
向所述一个或多个分类器提供所述音频数据、所述方向数据和所述音频类别的所述指示作为输入,以确定与所述音频数据相关联的分类。
30.一种装置,所述装置包括:
用于接收音频类别的指示的构件,所述指示从远程设备接收并且对应于音频事件;和
用于处理音频数据以验证在所述音频数据中表示的声音对应于所述音频事件的构件。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63/203,562 | 2021-07-27 | ||
US17/814,665 US20230035531A1 (en) | 2021-07-27 | 2022-07-25 | Audio event data processing |
US17/814,665 | 2022-07-25 | ||
PCT/US2022/074157 WO2023010012A1 (en) | 2021-07-27 | 2022-07-26 | Audio event data processing |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118020314A true CN118020314A (zh) | 2024-05-10 |
Family
ID=90945785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280051101.4A Pending CN118020314A (zh) | 2021-07-27 | 2022-07-26 | 音频事件数据处理 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118020314A (zh) |
-
2022
- 2022-07-26 CN CN202280051101.4A patent/CN118020314A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11095985B2 (en) | Binaural recording for processing audio signals to enable alerts | |
JP6747538B2 (ja) | 情報処理装置 | |
US9271077B2 (en) | Method and system for directional enhancement of sound using small microphone arrays | |
JP2022544138A (ja) | 選択的受聴を補助するためのシステムおよび方法 | |
US9277178B2 (en) | Information processing system and storage medium | |
US11467666B2 (en) | Hearing augmentation and wearable system with localized feedback | |
US10636405B1 (en) | Automatic active noise reduction (ANR) control | |
US20220174395A1 (en) | Auditory augmented reality using selective noise cancellation | |
US10897663B1 (en) | Active transit vehicle classification | |
TW202420242A (zh) | 音訊信號增強 | |
US20230035531A1 (en) | Audio event data processing | |
CN118020314A (zh) | 音频事件数据处理 | |
CN118020313A (zh) | 处理来自多个麦克风的音频信号 | |
TW202314684A (zh) | 對來自多個麥克風的音訊信號的處理 | |
TW202314478A (zh) | 音訊事件資料處理 | |
US11689878B2 (en) | Audio adjustment based on user electrical signals | |
US20230229383A1 (en) | Hearing augmentation and wearable system with localized feedback | |
US20240087597A1 (en) | Source speech modification based on an input speech characteristic | |
WO2023058515A1 (ja) | 情報処理方法、情報処理システム、及びプログラム | |
CN117499837A (zh) | 音频处理方法、装置以及音频播放设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |