CN105378826B

CN105378826B - 音频场景装置

Info

Publication number: CN105378826B
Application number: CN201380078181.3A
Authority: CN
Inventors: K·J·雅维南; A·埃罗南; J·H·阿拉斯维奥里; R·O·雅维南; M·维勒莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2019-06-11
Anticipated expiration: 2033-05-31
Also published as: CN105378826A; EP3005344A1; EP3005344A4; KR20160015317A; US20160125867A1; US10204614B2; US20190139530A1; KR101984356B1; WO2014191798A1; US10685638B2

Abstract

一种装置，包括：音频检测器，被配置成分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的环境中的声场被生成；音频生成器，被配置成生成至少一个另外的音频源；以及混频器，被配置成将至少一个音频源和至少一个另外的音频源混频以使得至少一个另外的音频源与至少一个音频源相关联。

Description

音频场景装置

技术领域

本申请涉及用于处理音频信号以使得能够使用舒适音频信号屏蔽背景噪声的影响的装置。本发明还涉及但不限于用于处理音频信号以使得能够在移动设备处使用舒适音频信号屏蔽背景噪声的影响的装置。

背景技术

在常规情形中，环境包括具有在所有三个空间维度中传播的音频源的声场。由大脑控制的人类听觉系统已经进化了定位、隔离和理解三维声场中的这些声音的先天能力。例如，当来自音频源的音频波阵面到达我们的双耳时，大脑试图通过对嵌入在音频波阵面中的线索解码来确定音频源的位置。对空间感知负责的两个最重要的线索是耳间时间差(ITD)以及耳间水平差(ILD)。例如，位于倾听者左前方的音频源与左耳相比需要更多时间到达右耳。这一时间上的差异称为ITD。类似地，由于头部遮挡，到达右耳的波阵面比到达左耳的波阵面得到更多衰减，从而产生ILD。另外，由于耳廓结构、肩部反射而产生的波阵面的变形在如何在3D声场中定位源方面也扮演着很重要的角色。这些线索因此取决于个人/倾听者、频率、音频源在3D声场中的位置以及他/她所在的环境(例如倾听者是否位于消声室/礼堂/起居室内)。

经3D定位和具体化的音频声场已经成为事实上的自然倾听方式。

电话并且特别是无线电话在实施方式中众所周知。通话通常在环境嘈杂的情况下进行，其中背景噪声造成理解另一方的通信内容上的困难。这通常产生请求重复另一方所说的内容或者停止交流直到噪声已消失或者用户已离开噪声源。这在多方通话(诸如电话会议)中尤其严重，其中一个或两个参与者由于本地噪声而不能跟上讨论，从而造成严重的注意力分散以及不必要地延长通话持续时间。即使周围或环境噪声没有阻止用户理解另一方与其通信的内容，防止用户完全专注于另一方所说的内容并且在倾听时需要额外的努力，可能仍然非常分散注意力和烦人。

然而，完全抑制或压制环境或现场噪声是不可能的，因为其可以提供紧急情况的指示或者比电话呼叫需要更多用户注意力的情况。因此，现场噪声消除能够将用户与其周围环境不必要地隔离。这在紧急情况发生在倾听者附近的情形下可能是危险的，因为这可能阻止倾听者听到来自环境的警告信号。

发明内容

本申请的各方面因此提供另外的或舒适的音频信号，其基本上被配置成屏蔽背景或周围现场音频场噪声信号的影响。

根据第一方面，提供了一种装置，其包括至少一个处理器以及至少一个存储器，至少一个存储器包括用于一个或多个程序的计算机代码，至少一个存储器和计算机代码被配置成与至少一个处理器一起使得装置：分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的环境中的声场被生成；生成至少一个另外的音频源；以及将至少一个音频源和至少一个另外的音频源混频，使得至少一个另外的音频源与至少一个音频源相关联。

装置还可以被使得分析第二音频信号以确定至少一个音频源；并且其中将至少一个音频源和至少一个另外的音频源混频还使得装置将至少一个音频源与至少一个音频源以及至少一个另外的音频源混频。

第二音频信号可以是以下各项中的至少一项：经由接收器的所接收的音频信号；以及经由存储器的所取回的音频信号。

生成至少一个另外的音频源可以使得装置生成与至少一个音频源相关联的至少一个音频源。

生成与至少一个音频源相关联的至少一个另外的音频源可以使得装置：从一系列另外的音频源类型选择和/或生成最接近地匹配至少一个音频源的至少一个另外的音频源；将另外的音频源定位在匹配至少一个音频源的虚拟位置的虚拟位置处；以及处理另外的音频源以匹配至少一个音频源的频谱和/或时间。

与至少一个音频源相关联的至少一个另外的音频源可以是以下各项中的至少一项：至少一个另外的音频源基本上屏蔽至少一个音频源；至少一个另外的音频源基本上掩饰至少一个音频源；至少一个另外的音频源基本上包含至少一个音频源；至少一个另外的音频源基本上适应至少一个音频源；以及至少一个另外的音频源基本上伪装至少一个音频源。

分析第一音频信号以确定至少一个音频源可以使得装置：确定至少一个音频源位置；确定至少一个音频源频谱；确定至少一个音频源时间。

分析第一音频信号以确定至少一个音频源可以使得装置：确定至少两个音频源；确定至少两个音频源的能量参数值；基于能量参数值，从至少两个音频源选择至少一个音频源。

分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的音频环境被生成，可以使得装置执行以下操作：将第二音频信号划分成第一数目的频带；针对第一数目的频带，确定第二数目的主导音频方向；以及选择其中其相关联的音频分量大于所确定的噪声门限值的主导音频方向作为音频源的方向。

装置还可以被使得执行从至少两个麦克风接收第二音频信号，其中麦克风位于装置上或者邻近装置。

装置还可以被使得执行接收与至少一个音频源相关联的至少一个用户输入，其中生成至少一个另外的音频源，其中至少一个另外的音频源与至少一个音频相关联，使得装置基于至少一个用户输入来生成至少一个另外的音频源。

接收与至少一个被确定位置的音频源相关联的至少一个用户输入可以使得装置执行以下各项中的至少一项：接收指示一系列另外的音频源类型的至少一个用户输入；接收指示音频源位置的至少一个用户输入；以及接收指示用于一系列另外的音频源类型的源的至少一个用户输入。

根据第二方面，提供了一种装置，其包括：用于分析第一音频信号以确定至少一个音频源的部件，其中第一音频信号从装置的环境中的声场被生成；用于生成至少一个另外的音频源的部件；以及用于将至少一个音频源和至少一个另外的音频源混频以使得至少一个另外的音频源与至少一个音频源相关联的部件。

装置还可以包括用于分析第二音频信号以确定至少一个音频源的部件；并且其中将至少一个音频源和至少一个另外的音频源混频的部件还可以包括用于将至少一个音频源与至少一个音频源以及至少一个另外的音频源混频的部件。

用于生成至少一个另外的音频源的部件可以包括用于生成与至少一个音频源相关联的至少一个音频源的部件。

用于生成与至少一个音频源相关联的至少一个另外的音频源的部件可以包括：用于从一系列另外的音频源类型选择和/或生成最接近地匹配至少一个音频源的至少一个另外的音频源的部件；用于将另外的音频源定位在匹配至少一个音频源的虚拟位置的虚拟位置处的部件；以及用于处理另外的音频源以匹配至少一个音频源的频谱和/或时间的部件。

与至少一个音频源相关联的至少一个另外的音频源是以下各项中的至少一项：至少一个另外的音频源基本上屏蔽至少一个音频源；至少一个另外的音频源基本上掩饰至少一个音频源；至少一个另外的音频源基本上包含至少一个音频源；至少一个另外的音频源基本上适应至少一个音频源；以及至少一个另外的音频源基本上伪装至少一个音频源。

用于分析第一音频信号以确定至少一个音频源的部件可以包括：用于确定至少一个音频源位置的部件；用于确定至少一个音频源频谱的部件；以及用于确定至少一个音频源时间的部件。

用于分析第一音频信号以确定至少一个音频源的部件可以包括：用于确定至少两个音频源的部件；用于确定至少两个音频源的能量参数值的部件；以及用于基于能量参数值从至少两个音频源选择至少一个音频源的部件。

用于分析第一音频信号以确定至少一个音频源的部件，其中第一音频信号从装置的音频环境被生成，可以包括：用于将第二音频信号划分成第一数目的频带的部件；用于针对第一数目的频带确定第二数目的主导音频方向的部件；以及用于选择其中其相关联的音频分量大于所确定的噪声门限值的主导音频方向作为音频源的方向的部件。

装置还可以包括用于从至少两个麦克风接收第二音频信号的部件，其中麦克风位于装置上或者邻近装置。

装置可以包括用于接收与至少一个音频源相关联的至少一个用户输入的部件，其中用于生成至少一个另外的音频源的部件，其中至少一个另外的音频源与至少一个音频相关联，可以包括用于基于至少一个用户输入来生成至少一个另外的音频源的部件。

用于接收与至少一个被确定位置的音频源相关联的至少一个用户输入的部件可以包括以下各项中的至少一项：用于接收指示一系列另外的音频源类型的至少一个用户输入的部件；用于接收指示音频源位置的至少一个用户输入的部件；以及用于接收指示用于一系列另外的音频源类型的源的至少一个用户输入的部件。

根据第三方面，提供了一种方法，其包括：分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的环境中的声场被生成；生成至少一个另外的音频源；以及将至少一个音频源和至少一个另外的音频源混频，使得至少一个另外的音频源与至少一个音频源相关联。

方法还可以包括分析第二音频信号以确定至少一个音频源；并且其中将至少一个音频源和至少一个另外的音频源混频还可以包括将至少一个音频源与至少一个音频源以及至少一个另外的音频源混频。

生成至少一个另外的音频源可以包括生成与至少一个音频源相关联的至少一个音频源。

生成与至少一个音频源相关联的至少一个另外的音频源可以包括：从一系列另外的音频源类型选择和/或生成最接近地匹配至少一个音频源的至少一个另外的音频源；将另外的音频源定位在匹配至少一个音频源的虚拟位置的虚拟位置处；以及处理另外的音频源以匹配至少一个音频源的频谱和/或时间。

分析第一音频信号以确定至少一个音频源可以包括：确定至少一个音频源位置；确定至少一个音频源频谱；以及确定至少一个音频源时间。

分析第一音频信号以确定至少一个音频源可以包括：确定至少两个音频源；确定至少两个音频源的能量参数值；以及基于能量参数值，从至少两个音频源选择至少一个音频源。

分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的音频环境被生成，可以包括：将第二音频信号划分成第一数目的频带；针对第一数目的频带，确定第二数目的主导音频方向；以及选择其中其相关联的音频分量大于所确定的噪声门限值的主导音频方向作为音频源的方向。

方法还可以包括从至少两个麦克风接收第二音频信号，其中麦克风位于装置上或者邻近装置。

方法可以包括接收与至少一个音频源相关联的至少一个用户输入，其中生成至少一个另外的音频源，其中至少一个另外的音频源与至少一个音频相关联，可以包括基于至少一个用户输入来生成至少一个另外的音频源。

接收与至少一个被确定位置的音频源相关联的至少一个用户输入可以包括以下各项中的至少一项：接收指示一系列另外的音频源类型的至少一个用户输入；接收指示音频源位置的至少一个用户输入；接收指示用于一系列另外的音频源类型的源的至少一个用户输入。

根据第四方面，提供了一种装置，其包括：音频检测器，被配置成分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的环境中的声场被生成；音频生成器，被配置成生成至少一个另外的音频源；以及混频器，被配置成将至少一个音频源和至少一个另外的音频源混频以使得至少一个另外的音频源与至少一个音频源相关联。

装置还可以包括被配置成分析第二音频信号以确定至少一个音频源的另外的音频检测器；并且其中混频器被配置成将至少一个音频源与至少一个音频源以及至少一个另外的音频源混频。

音频生成器可以被配置成生成与至少一个音频源相关联的至少一个另外的音频源。

被配置成生成与至少一个音频源相关联的至少一个另外的音频源的音频生成器可以被配置成：从一系列另外的音频源类型选择和/或生成最接近地匹配至少一个音频源的至少一个另外的音频源；将另外的音频源定位在匹配至少一个音频源的虚拟位置的虚拟位置处；以及处理另外的音频源以匹配至少一个音频源的频谱和/或时间。

音频检测器可以被配置成：确定至少一个音频源位置；确定至少一个音频源频谱；以及确定至少一个音频源时间。

音频检测器可以被配置成：确定至少两个音频源；确定至少两个音频源的能量参数值；基于能量参数值，从至少两个音频源选择至少一个音频源。

音频检测器可以被配置成：将第二音频信号划分成第一数目的频带；针对第一数目的频带，确定第二数目的主导音频方向；以及选择其中其相关联的音频分量大于所确定的噪声门限值的主导音频方向作为音频源的方向。

装置还可以包括被配置成从至少两个麦克风接收第二音频信号的输入，其中麦克风位于装置上或者邻近装置。

装置还可以包括被配置成接收与至少一个音频源相关联的至少一个用户输入的用户输入，其中音频生成器被配置成基于至少一个用户输入来生成至少一个另外的音频源。

用户输入可以被配置成：接收指示一系列另外的音频源类型的至少一个用户输入；接收指示音频源位置的至少一个用户输入；以及接收指示用于一系列另外的音频源类型的源的至少一个用户输入。

根据第五方面，提供了一种装置，其包括：显示器；至少一个处理器；至少一个存储器；至少一个麦克风，被配置成生成第一音频信号；音频检测器，被配置成分析第一音频信号以确定至少一个音频源，其中第一音频信号从装置的环境中的声场被生成；音频生成器，被配置成生成至少一个另外的音频源；以及混频器，被配置成将至少一个音频源和至少一个另外的音频源混频，使得至少一个另外的音频源与至少一个音频源相关联。

一种存储在介质上的计算机程序产品可以使得装置执行如本文中所描述的方法。

一种电子设备可以包括如本文中所描述的装置。

一种芯片组可以包括如本文中所描述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例来参考附图，在附图中：

图1示出使用空间音频编码的典型的电话系统的示例；

图2示出使用图1所示的系统的电话会议的图示；

图3示意性地示出根据一些实施例的用于音频空间化和匹配的舒适音频信号生成的音频信号处理器；

图4示出根据一些实施例的如图3所示的音频信号处理器的操作的流程图；

图5a到图5c示出使用图3和图4所示装置的电话会议的示例；

图6示意性地示出适合在本申请的实施例中使用的装置；

图7示意性地示出根据一些实施例的如图3所示的音频空间化器；

图8示意性地示出根据一些实施例的如图3所示的匹配的舒适音频信号生成器；

图9示意性地示出根据一些实施例的用于选择舒适音频信号类型的用户界面输入菜单；

图10示出根据一些实施例的如图7所示的音频空间化器的操作的流程图；以及

图11示出如图8所示的匹配的舒适音频信号生成器的操作的流程图。

具体实施方式

下面进一步详细地描述用于提供有效的另外的或舒适的音频信号的合适装置和可能机制，这些音频信号被配置成屏蔽周围的现场音频场噪声信号或者“本地”噪声。在下面的示例中，描述音频信号以及音频捕获信号。然而，应当理解，在一些实施例中，音频信号/音频捕获是音视频系统的一部分。

本申请的实施例的概念是当在嘈杂的音频环境中被倾听时提供空间音频的可理解性和质量改进。

图1示出典型的电话空间音频编码系统的示例，以便图示与传统的空间电话相关联的问题。第一装置1包括麦克风501的集合。在图1所示的示例中，有P个麦克风向环绕声编码器传递所生成的音频信号。

第一装置1还包括环绕声编码器502。环绕声编码器502被配置成以适合通过传输通道503传递的方式对P个所生成的音频信号编码。

环绕声编码器502可以被配置成包括适合用于通过传输通道传输的发送器。

系统还包括已编码环绕声音频信号通过其传递的传输通道503。传输通道向第二装置3传递环绕声音频信号。

第二装置被配置成接收编解码器参数并且使用合适的解码器和传输矩阵对这些编解码器参数解码。环绕声解码器504在一些实施例中可以被配置成向M个扬声器输出若干多通道音频信号。在图1所示的示例中，从环绕声解码器504向M个扬声器传递M个输出以产生由第一装置的P个麦克风生成的音频信号的环绕声表示。

在一些实施例中，第三装置3还包括双声道立体声下混频器505。双声道立体声下混频器505可以被配置成接收多通道输出(例如M个通道)并且将多通道表示下混频成空间声音的双声道表示，其可以被输出到头戴式耳机(headphone)(或头戴式受话器(headset)或听筒(earpiece))。

应当理解，环绕声编码器/解码器可以使用任意合适的声音编解码器或者其他空间音频编解码器。例如，环绕声编解码器包括运动图像专家组(MPEG)环绕声以及基于参数对象的MPEG空间音频对象编码(SAOC)。

图1所示的示例是典型的电话系统的简化框图，并且因此出于简化目的而没有讨论传输编码等。另外，应当理解，图1所示的示例示出单向通信，但是第一装置和第二装置可以包括其他装置部分以实现双向通信。

图2示出使用图1所示的系统时可能出现的示例问题，其中个人A 101试图通过空间电话与个人B 103和个人C 105进行远程会议。可以执行空间声音编码使得对于个人A101，环绕声解码器504被配置成将个人B 103定位成与个人A 101的左前方(中间线)成大致30度并且将个人C定位成与个人A 101的右前方成大致30度。如图2所示，可以看到个人A的环境噪声，如与个人A的左侧成大致120度的交通噪声(本地噪声源2 107)以及与个人A的右侧成大致30度的正在使用割草机(本地噪声源1 109)割草的邻居。

本地噪声源1可以使得个人A 101很难听到个人C 105在说什么，因为倾听者(个人A 101)109周围的本地现场音频环境中的个人C(来自空间声音解码)以及噪声源1都从大致相同的方向被听到。应当理解，虽然噪声源2分散注意力，然而其对于个人A 101倾听任何参与者的能力而言具有很小影响或者几乎没有影响，因为方向不同于电话会议的参与者的声音。

本申请的实施例的概念因此在于通过使用音频信号处理插入匹配的另外的或者舒适的音频信号来改进空间音频的质量，匹配的另外的或者舒适的音频信号基本上被配置成屏蔽本地现场音频环境中的噪声源。换言之，能够通过添加与周围的现场音频场噪声信号匹配的另外的或者舒适的音频信号来改善音频质量。

应当理解，通常通过使用主动噪声消除(ANC)抑制任何周围噪声来处理现场音频场噪声信号，其中麦克风捕获来自环境的声音信号。噪声消除电路将所捕获的声音信号的波反相并且将其与噪声信号求和。最佳地，所得到的效果是，相反相位的所渲染的捕获的噪声信号消除了来自环境的噪声信号。

然而，这样做通常可能产生“人工静默”形式的不舒服的结果音频产品。另外，ANC可能不能够消除所有噪声。ANC可能留下可以被感知为厌烦的一些残留噪声。这样的残留噪声也可能是不自然的声音并且因此妨碍倾听者，即使其音量很低。诸如在本文中的实施例中采用的舒适的音频信号或音频源没有尝试消除背景噪声，而是尝试屏蔽噪声源或者使得噪声源不太烦人/可听见。

因此，根据本文中所描述的实施例的概念在于，提供一种信号，其试图通过向环境添加自然的或者人工的声音(诸如白噪声或粉红噪声)以覆盖不想要的声音来执行声音屏蔽。声音屏蔽信号因此尝试减小或消除给定区域中的预先存在的声音的认识并且可以使得工作环境更舒适，同时产生语音隐私，使得工作人员能够集中注意力并且更多产。在如本文中所讨论的概念中，对装置周围的“现场”音频执行分析，并且以空间方式添加另外的或者舒适的音频对象。换言之，针对空间方向来分析噪声或音频对象的空间方向，并且向对应的空间方向中添加另外的或者舒适的音频对象。在如本文中所讨论的一些实施例中，针对单个用户对另外的音频或舒适的对象进行个性化，并且没有将其固定为在任何具体的环境或位置使用。

换言之，概念尝试去除/减小来自用户周围的“现场”音频环境的背景噪声(或者被用户感知为讨厌的任何声音)的影响并且使得背景噪声不太烦人(例如对于使用设备来倾听音乐而言)。这通过以下方式实现：使用麦克风的集合记录用户设备周围的现场空间声场，然后监测和分析现场音频场，并且最终将背景噪声因此在包括舒适音频对象的适当地匹配或形成的空间“舒适音频”信号后面。舒适音频信号在空间上匹配背景噪声，并且隐藏通过空间和时间匹配被实现。匹配基于使用麦克风的集合对倾听者周围的现场音频环境的连续分析以及随后的处理。本文中所描述的实施例因此并非旨在去除/减小周围噪声本身，而是使得其不太可听到、不太烦人并且不太干扰倾听者。

在空间、频谱和时间上匹配的另外的或舒适的音频信号在一些实施例中可以从优选地针对每个用户被个性化的候选的另外的或舒适的音频信号的集合被产生。例如，在一些实施例中，舒适的音频信号来自倾听者的喜爱音乐和混音(换言之，重新平衡或重新定位其中一些乐器)的集合，或者其可以人工生成，或者其可以是这两者的组合。选择或处理舒适的音频信号的频谱、空间和时间特性使其匹配主导噪声源，从而实现隐藏。插入舒适的音频信号的目的在于，尝试阻挡主导现场噪声源以免其被听到或者使得现场噪声与另外的或者舒适的音频(在被同时听到时)的组合对于倾听者而言比现场噪声本身更愉悦。在一些实施例中，另外的或者舒适的音频包括单独位于空间音频环境中的音频对象。这例如将使得包括若干音频对象的单个音乐能够高效地屏蔽不同空间位置的若干噪声源同时保持其他方向的音频环境原封不动。

在这点上，首先参考图6，图6示出示例性装置或电子设备10的示意性框图，其在一些实施例中可以用于作为第一201(编码器)或第二203(解码器)装置进行操作。

例如，电子设备或装置10在用作空间编码器或解码器装置时可以是无线通信系统的移动终端或用户设备。在一些实施例中，装置可以是音频播放器或音频记录器，诸如MP3播放器、媒体记录器/播放器(也称为MP4播放器)、或者适合记录音频或者音频/视频摄录像机/存储器音频或视频记录器的任意合适的便携式设备。

装置10在一些实施例中可以包括音频子系统。音频子系统在一些实施例中例如可以包括用于音频信号捕获的麦克风或者麦克风阵列11。在一些实施例中，麦克风或者麦克风阵列可以是固态麦克风，换言之，能够捕获音频信号并且输出合适的数字格式信号。在一些其他实施例中，麦克风或者麦克风阵列11可以包括任意合适的麦克风或者音频捕获装置，例如电容式麦克风、电容器麦克风、静电麦克风、驻极体电容式麦克风、动态麦克风、带式麦克风、碳粒麦克风、压电麦克风或者微电机系统(MEMS)麦克风。麦克风11或者麦克风阵列在一些实施例中可以向模数变换器(ADC)14输出音频捕获信号。

在一些实施例中，装置还可以包括模数变换器(ADC)14，其被配置成从麦克风接收模拟捕获音频信号并且输出合适的数字形式的音频捕获信号。模数变换器14可以是任意合适的模数变换或处理装置。

在一些实施例中，装置10的音频子系统还包括用于将来自处理器21的数字音频信号变换成合适的模拟格式的数模变换器32。数模变换器(DAC)或信号处理装置32在一些实施例中可以是任意合适的DAC技术。

另外，音频子系统在一些实施例中可以包括扬声器33。扬声器33在一些实施例中可以从数模变换器32接收输出并且向用户呈现模拟音频信号。在一些实施例中，扬声器33可以表示头戴式耳机，例如头戴式受话器或者无线头戴式受话器。

虽然装置10被示出为具有音频捕获部件和音频呈现部件二者，然而应当理解，在一些实施例中，装置10可以包括音频子系统的音频捕获部件和音频呈现部件中的一个或另一个，使得在装置的一些实施例中存在麦克风(用于音频捕获)或扬声器(用于音频呈现)。

在一些实施例中，装置10包括处理器21。处理器21耦合到音频子系统，并且在一些实施例中具体地耦合到模数变换器14以用于从麦克风11接收表示音频信号的数字信号并且耦合到被配置成输出已处理数字音频信号的数模变换器(DAC)12。处理器21可以被配置成执行各种程序代码。所实现的程序代码可以包括例如音频对象的环绕声解码、检测和分离、音频对象的音频对象重定位的确定、抵触或冲突音频分类以及音频源映射代码例程。

在一些实施例中，装置还包括存储器22。在一些实施例中，处理器耦合到存储器22。存储器可以是任意合适的存储装置。在一些实施例中，存储器22包括用于存储在处理器21上可实现的程序代码的程序代码部分23。另外，在一些实施例中，存储器22还可以包括用于存储数据的存储数据部分24，例如已经或者要根据稍后描述的实施例来处理的数据。存储在程序代码部分23内的所实现的程序代码以及存储在存储数据部分24内的数据可以由处理器21在任何需要的时候经由存储器-处理器耦合被取回。

在一些另外的实施例中，装置10可以包括用户界面15。用户界面15在一些实施例中可以耦合到处理器21。在一些实施例中，处理器可以控制用户界面的操作并且从用户界面15接收输入。在一些实施例中，用户界面15可以使得用户能够向电子设备或装置10输入命令(例如经由键盘)，和/或使得用户能够从装置10获取信息(例如经由作为用户界面15的部分的显示器)。用户界面15在一些实施例中可以包括能够使得信息能够被输入到装置10中并且还使得能够向装置10的用户显示信息的触摸屏或者触摸界面。

在一些实施例中，装置还包括收发器13，这样的实施例中的收发器可以耦合到处理器并且被配置成实现其他装置与电子设备之间的通信，例如经由无线通信网络。收发器13或者任意合适的收发器或者发送器和/或接收器装置在一些实施例中可以被配置成经由电线或有线耦合与其他电子设备或装置通信。

如图1所示，耦合可以是传输通道503。收发器13能够通过任意合适的已知通信协议与另外的设备通信，例如在一些实施例中，收发器13或者收发器装置可以使用合适的通用移动电信系统(UMTS)协议、无线局域网(WLAN)协议(诸如例如IEEE 802.X)、合适的近距离射频通信协议(诸如蓝牙)、或者红外数据通信路径(IRDA)。

还应当理解，可以用很多方式补充和改变装置10的结构。

关于图3，示出包括用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器的简化的电话系统的框图。另外，关于图4，示出了一种流程图，其示出图3所示的装置的操作。

图3中将第一编码或传输装置201示出为包括与包括P个麦克风501的麦克风阵列的图1所示的第一装置1类似的部件，P个麦克风生成被传递给环绕声编码器502的音频信号。

环绕声编码器502接收由P个麦克风的麦克风阵列501生成的音频信号并且用任意合适的方式对音频信号编码。

然后通过传输通道503向第二解码或接收装置203传递已编码的音频信号。

第二解码或接收装置203包括环绕声解码器504，环绕声解码器504按照与图1所示的环绕声解码器类似的方式对已编码的环绕声音频信号解码并且生成多通道音频信号，其在图3中被示出为M通道音频信号。在一些实施例中，向音频信号处理器601传递已解码的多通道音频信号以用于音频空间化以及匹配的另外的或舒适的音频信号生成。

应当理解，环绕声编码和/或解码块不仅表示可能的低比特率编码，也可以表示音频的不同表示之间的所有必要处理。这可以包括例如上混频、下混频、平移、添加或者去除解相关等。

用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601可以从环绕声解码器504接收一个多通道音频表示，并且在于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601之后，也可以有改变多通道音频表示的其他块。例如，在一些实施例中，可以实现有5.1通道到7.1通道变换器、或者B格式编码到5.1通道变换器。在本文中所描述的示例实施例中，环绕声解码器504输出中间信号(M)、边缘信号(S)和角度(阿尔法)。然后对这些信号执行对象分离。在一些实施例中，在用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601之后，有单独的渲染块，其将信号变换成合适的多通道音频格式，诸如5.1通道格式、7.1通道格式或者双通道格式。

在一些实施例中，接收装置203还包括麦克风阵列606。在图3所示的示例中包括R个麦克风的麦克风阵列606可以被配置成生成音频信号，音频信号可以被传递给用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601。

在一些实施例中，接收装置203包括用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601。用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601被配置成接收已解码的环绕声音频信号，其例如在图3中被示出为向用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601输入的M通道音频信号，并且音频信号处理器601还被配置成从接收装置203的麦克风阵列606(R个麦克风)接收本地环境生成的音频信号。用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601被配置成确定并且从这些接收的音频信号分离音频源或对象，生成匹配音频源的另外的舒适的音频对象(或音频源)，并且对另外的舒适的音频对象或源与所接收的音频信号进行混频和渲染，以改善环绕声音频信号的可理解性和质量。在本文中的描述中，术语“音频对象”和“音频源”是可互换的。另外，应当理解，音频对象或音频源至少是音频信号的部分，例如音频信号的参数化的部分。

在一些实施例中，用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601包括第一音频信号分析器，其被配置成分析第一音频信号以确定或检测和分离音频对象或源。音频信号分析器或检测器和分离器在附图中被示出为音频对象1的检测器和分离器602。第一检测器和分离器602被配置成从环绕声解码器504接收音频信号并且从多通道信号生成参数音频对象表示。应当理解，第一检测器和分离器602输出可以被配置成输出音频的任意合适的参数表示。例如，在一些实施例中，第一检测器和分离器602例如可以被配置成确定声源并且生成描述例如每个声源的方向、每个声源距倾听者的距离、每个声源的响度的参数。在一些实施例中，音频对象的第一检测器和分离器602可以被旁路或者是可选的，其中环绕声检测器生成空间音频信号的音频对象表示。在一些实施例中，环绕声检测器504可以被配置成输出元数据，其指示描述已解码的音频信号内的声源的参数，诸如声源的方向、距离和响度，然后可以直接向混频器和渲染器605传递音频对象参数。

关于图4，在步骤301示出开始检测和分离来自环绕声检测器的音频对象的操作。

另外，在步骤303示出从声音解码器读取多通道输入的操作。

在一些实施例中，第一解码器和分离器可以使用任意合适的手段来根据空间信号确定音频源。

图4中用步骤305示出检测环绕声解码器内的音频对象的操作。

第一解码器和分离器在一些实施例中然后可以分析所确定的音频对象并且确定所确定的音频对象的参数表示。

另外，图4中用步骤307示出根据环绕声已解码音频信号来产生每个音频对象的参数表示的操作。

第一检测器和分离器在一些实施例中可以向混频器和渲染器605输出这些参数。

图4中用步骤309示出每个音频对象的参数表示的输出的生成并且结束来自环绕声解码器的音频对象的检测和分离。

在一些实施例中，用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601包括音频对象2的第二音频信号分析器(或分析装置)或检测器和分离器604，其被配置成来自麦克风的本地音频信号形式的第二音频信号，以确定或检测和分离音频对象或源。换言之，根据来自装置音频环境的与装置的声场相关联的至少一个音频信号来确定(检测和分离)至少一个本地音频源。第二音频分析器或检测器和分离器在附图中被示出为音频对象2的检测器和分离器604。第二检测器和分离器604在一些实施例中被配置成接收麦克风阵列606的输出并且安装与第一检测器和分离器相似的方式生成所确定的音频对象的参数表示。换言之，可以认为第二检测器和分离器分析本地或环境音频场景，以关于装置的倾听者或者用户确定任何本地音频源或音频对象。

图4中用步骤311示出生成匹配的舒适的音频对象的操作的开始。

图4中用步骤313示出从麦克风606读取多通道输入的操作。

第二检测器和分离器604在一些实施例中可以根据来自麦克风606的多通道输入来确定或检测音频对象。

图4中用步骤315示出音频对象的检测。

第二检测器和分离器604在一些实施例中还可以被配置成对每个所检测的音频对象执行响度门限检查，以确定这些对象中是否有任何对象具有高于确定门限值的响度(或音量或功率水平)。其中所检测的音频对象具有高于设定门限的响度，因此音频对象的第二检测器和分离器604可以被配置成生成音频对象或源的参数表示。

在一些实施例中，门限可以是用户控制的以使得能够针对本地噪声合适地调节灵敏度。在一些实施例中，门限可以用于自动开始或触发舒适的音频对象的生成。换言之，第二检测器和分离器604在一些实施例中可以被配置成控制舒适音频对象生成器603的操作，使得在没有“本地”或“现场”音频对象的情况下，不生成任何舒适的音频对象并且能够在没有另外的音频源的情况下向混频器和渲染器传递来自环绕声解码器的参数以将其混频到音频信号中。

第二检测器和分离器604在一些实施例中还可以被配置成向舒适音频对象生成器603输出具有高于门限的响度的所检测的音频对象的参数表示。

在一些实施例中，第二检测器和分离器604可以被配置成接收系统尝试屏蔽的现场音频对象的最大数目的极限和/或系统将要生成的舒适的音频对象的最大数目的极限(换言之，可以将L和K的值限制为在某个默认值以下)。这些极限(在一些实施例中可以是用户控制的)防止系统在非常嘈杂的环境中变得过度活跃并且防止生成太多的舒适的音频信号(其可能降低用户体验)。

在一些实施例中，用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601包括用于生成另外的音频源的舒适的(或者另外的)音频对象生成器603或合适的装置。舒适音频对象生成器603从音频对象的检测器和分离器604接收参数化的输出并且生成匹配的舒适的音频对象(或源)。所生成的另外的音频源与至少一个音频源相关联。例如，在一些实施例中，如本文中所描述的，通过以下部件来生成另外的音频源：用于从一系列另外的音频源类型选择和/或生成最匹配至少一个音频源的至少一个另外的音频源的部件；用于将另外的音频源定位在匹配至少一个音频源的虚拟位置的虚拟位置处的部件；以及用于处理另外的音频源以匹配至少一个音频源频谱和/或时间的部件。

换言之，另外的(或者舒适的)音频源(或对象)的生成是为了尝试屏蔽由明显的噪声音频对象产生的影响。应当理解，与至少一个音频源相关联的至少一个另外的音频源使得至少一个另外的音频源基本上屏蔽至少一个音频源的效果。然而，应当理解，术语“屏蔽(mask)”或“屏蔽(masking)”可以包括诸如基本上掩饰、基本上包含、基本上适应、或者基本上伪装至少一个音频源等动作。

舒适音频对象生成器603然后可以向混频器和渲染器605输出这些舒适的音频对象。在图3所示的示例中，生成有K个舒适的音频对象。

图4中用步骤317示出产生匹配的舒适音频对象的操作。

图4中用步骤319示出结束来自麦克风阵列的音频对象的检测和分离的操作。

在一些实施例中，用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601包括混频器和渲染器605，其被配置成根据所接收的音频对象参数表示以及舒适的音频对象参数表示来对已解码的声音音频对象进行混频和渲染。

图4中用步骤323示出读取或接收N个音频对象以及K个舒适音频对象的操作。

图4中用步骤325示出对N个音频对象以及K个舒适音频对象进行混频和渲染的操作。

图4中用步骤327示出输出经混频和渲染的N个音频对象以及K个舒适音频对象的操作。

另外，在一些实施例中，例如，其中用户经由噪声隔离头戴式耳机来倾听，混频器和渲染器605可以被配置成对至少一些现场或麦克风音频对象音频信号进行混频和渲染，以使得用户能够在本地环境中有任何紧急情况或其他情况的情形下听到。

混频器和渲染器然后可以向扬声器或双声道立体声下混频器505输出M个多通道信号。

在一些实施例中，可以结合主动噪声消除或者其他背景噪声降低技术来使用舒适噪声生成。换言之，在应用匹配的舒适音频信号以尝试屏蔽在应用ANC之后仍然可听到的背景噪声之前，处理现场噪声并且应用主动噪声消除。注意，在一些实施例中，并非意图屏蔽背景中的全部噪声。这样的益处在于，用户仍然能够听到周围环境中的事件，诸如街道上的汽车声音，并且这在街道上步行的情况下从安全角度来讲是很重要的益处。

图5a到图5c示出由于现场或本地噪声的匹配的舒适音频对象的生成的示例，其中个人A 101例如正在倾听来自个人B 103和个人C 105的电话会议输出。关于图5a，示出第一示例，其中用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601生成舒适的音频源1 119，其匹配本地噪声源1 109以便尝试屏蔽本地噪声源1 109。

关于图5b，示出第二示例，其中用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601生成舒适的音频源1 119和舒适的音频源2 117，舒适的音频源1 119匹配本地噪声源1 109以便尝试屏蔽本地噪声源1 109，舒适的音频源2 117匹配本地噪声源2 107以便尝试屏蔽本地噪声源2 107。

关于图5c，示出第三示例，其中装置的用户(个人A 101)正在倾听由装置生成的音频信号或源，例如在装置上回放音乐，并且用于音频空间化以及匹配的另外的或舒适的音频信号生成的音频信号处理器601生成舒适的音频源1 119和舒适的音频源2 117，舒适的音频源1 119匹配本地噪声源1 109以便尝试屏蔽本地噪声源1 109，舒适的音频源2 117匹配本地噪声源2 107以便尝试屏蔽本地噪声源2 107。在这样的实施例中，由装置生成的音频信号或源可以用于生成匹配的另外的舒适音频对象。应当理解，图5c示出，在一些实施例中，可以在电话呼叫(或任何其他服务的使用)没有发生时生成和应用另外的或舒适的音频对象。在本示例中，本地存储在设备或装置(例如在文件或CD)中的音频被倾听，并且倾听装置不需要连接或耦合到任何服务或其他装置。因此，例如，可以将另外的或舒适的音频对象的添加作为独立的特征来应用以屏蔽烦人的现场背景噪声。换言之，在用户没有使用设备(除了舒适的音频)倾听音乐或者任何其他音频信号的情况下。实施例因此可以用于能够向用户播放空间音频的任何装置中(以屏蔽现场背景噪声)。

关于图7，示出对象检测器和分离器的示例实施方式，诸如根据一些实施例的第一对象检测器和分离器以及第二对象检测器和分离器。另外，关于图10，描述图7所示的示例对象检测器和分离器的操作。

在一些实施例中，对象检测器和分离器包括成帧器1601。成帧器1601或合适的成帧器装置可以被配置成麦克风/解码器接收音频信号并且将数字格式信号划分成音频样本数据的帧或组。在一些实施例中，成帧器1601还可以被配置成使用任意合适的加窗函数对数据加窗。成帧器1601可以被配置成生成每个麦克风输入的音频信号数据的帧，其中每个帧的长度以及每个帧的交叠程度可以是任意合适的值。例如，在一些实施例中，每个音频帧为20毫秒长并且在帧之间具有10毫秒的交叠。成帧器1601可以被配置成向时-频域变换器1603输出帧音频数据。

图10中用步骤901示出对时域样本分组或成帧的操作。

在一些实施例中，对象检测器和分离器被配置成包括时-频域变换器1603。时-频域变换器1603或合适的变换器装置可以被配置成对帧音频数据执行任意合适的时-频域变换。在一些实施例中，时-频域变换器可以是离散傅里叶变换。然而，变换器可以是任意合适的变换器，诸如离散余弦变换器(DCT)、改进的离散余弦变换器(MDCT)、快速傅里叶变换器(FFT)或者正交镜像滤波器(QMF)。时-频域变换器1603可以被配置成向子带滤波器1605输出每个麦克风输入的频域信号。

图10中用步骤903示出将来自麦克风的每个信号变换到频域的操作(其可以包括对音频数据成帧)。

在一些实施例中，对象检测器和分离器包括子带滤波器1605。子带滤波器1605或者合适的装置可以被配置成从时-频域变换器1603接收每个麦克风的频域信号并且将每个麦克风音频信号频域信号划分成大量子带。

子带划分可以是任意合适的子带划分。例如，在一些实施例中，子带滤波器1605可以被配置成使用心理声学滤波带操作。子带滤波器1605然后可以被配置成向方向分析器1607输出每个域范围子带。

图10中用步骤905示出将每个音频信号的频域范围划分成大量子带的操作。

在一些实施例中，对象检测器和分离器可以包括方向分析器1607。方向分析器1607或合适的装置在一些实施例中可以被配置成选择子带以及子带的每个麦克风的相关联的频域信号。

图10中用步骤907示出选择子带的操作。

方向分析器1607然后可以被配置成对子带中的信号执行方向分析。方向分析器1607在一些实施例中可以被配置成在合适的处理装置内执行麦克风/解码器子带频域信号之间的互相关。

在方向分析器1607中，找到使得频域子带信号的互相关最大化的互相关的延迟值。这一延迟在一些实施例中可以用于针对子带估计或表示与主导音频信号源的角度。这一角度可以被定义为α。应当理解，虽然一对或两个麦克风/解码器通道可以提供第一角度，然而可以通过使用多于两个的麦克风/解码器通道并且在一些实施例中优选地使用在两个或多个轴上的多于两个的麦克风/解码器来产生改进的方向估计。

图10中用步骤909示出对子带中的信号执行方向分析的操作。

方向分析器1607然后可以被配置成确定是否已经选择所有子带。

图10中用步骤911示出确定是否已经选择所有子带的操作。

在一些实施例中，如果已经选择所有子带，则方向分析器1607可以被配置成输出方向分析结果。

图10中用步骤913示出输出方向分析结果的操作。

如果尚未选择所有子带，则操作可以回到选择另外的子带的处理步骤。

以上描述了使用频域相关值执行分析的方向分析器。然而，应当理解，对象检测器和分离器可以使用任意合适的方法执行方向分析。例如，在一些实施例中，对象检测器和分离器可以被配置成输出具体的方位高度值而非最大相关延迟值。另外，在一些实施例中，可以在时域执行空间分析。

在一些实施例中，因此可以将这一方向分析定义为接收音频子带数据；

n＝0，...，n_b+1-n_b-1，b＝0，...，B-1

其中n_b是第b子带的第一索引。在一些实施例中，对于每个子带，本文中以上描述的方向分析如下。首先，使用两个通道估计方向。方向分析器求解使得子带b的两个通道之间的相关最大化的延迟τ_b。可以使用下式将例如的DFT域表示平移τ_b个时域样本：

在一些实施例中，可以根据下式获得最优延迟：

其中Re表示结果的实部，★表示复共轭。和被认为是长度为n_b+1-n_b个样本的矢量，并且D_tot对应于麦克风之间的样本的最大延迟。换言之，如果两个麦克风之间的最大距离为d，则D_tot＝d＊Fs/v，其中v是声音在空气中的速度(m/s)，Fs是采样率(Hz)。方向分析器在一些实施例中可以实现一个时域样本的分辨率以用于延迟的搜索。

在一些实施例中，对象检测器和分离器可以被配置成生成和信号。和信号在数学上可以定义为：

换言之，对象检测器和分离器被配置成生成和信号，其中在没有修改的情况下添加事件发生的通道的内容，而将事件稍后发生的通道平移以获取与第一通道的最佳匹配。

应当理解，延迟或平移τ_b表示声源距一个麦克风(或者通道)比另一麦克风(或者通道)近多少。方向分析器可以被配置成将实际的距离差确定为：

其中Fs是信号的采样率(Hz)，v是信号在空气中的速度(m/s)(或者在水中的速度，如果进行水下记录的话)。

即将到来的声音的角度由方向分析器确定为：

其中d是一对麦克风/通道分离(m)之间的距离，b是声源与最近的麦克风之间的估计距离。在一些实施例中，方向分析器可以被配置成将b的值设置为固定值。例如，发现b＝2米提供稳定的结果。

应当理解，本文中所描述的确定提供即将到达的声音的方向的两个替选，因为精确的方向不能仅通过两个麦克风/通道被确定。

在一些实施例中，对象检测器和分离器可以被配置成使用来自第三通道或第三麦克风的音频信号来定义确定中的哪个符号是正确的。第三通道或麦克风与两个估计声源之间的距离为：

其中h是等边三角形的高度(m)(其中通道或麦克风确定三角形)，即：

可以认为以上确定中的距离等于如下延迟(样本延迟)：

对象检测器和分离器在一些实施例中被配置成在这两个延迟中选择一个延迟，其提供与和信号的更好相关。相关例如可以表示为：

对象检测器和分离器然后在一些实施例中可以将子带b的主导声源的距离确定为：

在一些实施例中，对象检测器和分离器还包括中间/边缘信号生成器。中间信号中的主要内容是从方向分析找到的主导声源。类似地，边缘信号包含来自所生成的音频信号的其他部分或周围音频。在一些实施例中，中间/边缘信号生成器可以根据以下等式确定子带的中间信号M和边缘信号S：

注意，中间信号M是先前已经确定的相同的信号，并且在一些实施例中，可以作为方向分析的部分来获取中间信号。可以按照感知上安全的方式构造中间信号和边缘信号，使得发生的事件信号在延迟对准中没有被平移。在一些实施例中，可以按照在麦克风彼此相对较近的情况下合适的方式来确定中间信号和边缘信号。如果麦克风之间的距离相对于到声源的距离明显很大，则中间/边缘信号生成器可以被配置成执行已修改的中间和边缘信号确定，其中通道通常被修改为提供与主通道的最佳匹配。

关于图8，进一步详细地示出示例舒适音频对象生成器603。另外，关于图11，示出舒适音频对象生成器的操作。

在一些实施例中，舒适音频对象生成器603包括舒适音频对象选择器701。舒适音频对象选择器701在一些实施例中可以被配置成接收或读取现场音频对象，换言之，从音频对象2的检测器和分离器604接收或读取音频对象。

图11中用步骤551示出读取现场音频的L个音频对象的操作。

另外，在一些实施例中，舒适音频对象选择器接收若干潜在或候选另外的或舒适的音频对象。应当理解，潜在或候选另外的或舒适的音频对象或音频源是音频信号或音频信号的部分、轨道或剪辑。在图8所示的示例中，有编号为1到Q的Q个候选舒适音频对象可用。然而，应当理解，在一些实施例中，没有预先确定或者预先生成另外的或舒适的音频对象或源，但是基于从现场音频提取的音频对象或音频源直接确定或生成另外的或舒适的音频对象或源。

对于每个本地音频对象(或源)，舒适音频对象(或源)选择器701可以使用合适的搜索、误差或距离测量从候选舒适音频对象的集合中关于空间、频谱和时间值来搜索最相似的舒适音频对象(或源)。例如，在一些实施例中，每个舒适音频对象具有确定的频谱和时间参数，可以将其与本地或现场音频对象的时间和频谱参数或元素相比较。在一些实施例中，可以针对每个候选舒适音频对象和现场音频对象确定不同的测量值，并且选择具有最近的频谱和时间参数(换言之具有最小距离或误差)的舒适音频对象。

在一些实施例中，可以使用用户界面手动确定用于候选舒适音频对象的候选音频源。关于图9，可以示出舒适音频菜单的示例用户界面选择，其中主菜单示出：喜爱音乐的第一选择类型，其例如可以被子菜单1101再分为选项：1.鼓，2.贝司，以及3.弦乐器；合成音频对象的第二选择类型，其例如可以如子菜单1103所示被再分以示出示例：1.波表合成，2.颗粒合成，以及3.物理建模；以及周围音频对象1105的第三选择。

在一些实施例中，在搜索中使用的候选舒适音频对象的集合可以通过执行输入音频文件的集合的音频对象检测来获取。例如，可以向用户的最喜爱的轨道的集合应用音频对象检测。如本文中所描述的，在一些实施例中，候选舒适音频对象可以是合成声音。在一些实施例中，要在特定时间使用的候选舒适音频对象可以从属于用户最喜爱的轨道的单个音乐来得到。然而，如本文中所描述的，可以对音频对象重定位以使其匹配现场噪声的音频对象的方向，或者可以如本文中所解释地对其进行修改。在一些实施例中，可以对音频对象的子集重定位，而其他音频对象的位置可以保持不变，因为它们在原始音乐中。另外，在一些实施例中，如果并非所有对象都需要用于屏蔽，则仅音乐的所有对象的子集可以用作舒适音频。在一些实施例中，可以使用对应于单件乐器的单个音频对象作为舒适音频对象。

在一些实施例中，舒适音频对象的集合可以随着时间变化。例如，当音乐已经被播放为舒适音频时，可以从下一音乐选择舒适音频对象的新的集合并且将其适当地定位到音频空间中以最佳地匹配现场音频对象。

如果要被屏蔽的音频对象是在背景中向其电话讲话的人，则最佳匹配音频对象可以是例如来自音乐的木管乐器或黄铜乐器。

合适的舒适音频对象的选择通常是已知的。例如，在一些实施例中，舒适音频对象是白噪声，因为已经发现白噪声可以有效地作为屏蔽对象，因为其带宽很宽并且因此有效地屏蔽跨宽音频频谱的声音。

为了找到在频谱上最佳匹配的舒适音频对象，在一些实施例中可以使用各种频谱失真和距离测量。例如，在一些实施例中，频谱距离量度可以是如下定义的对数频谱距离：

其中ω是在-π到π之间的归一化频率(其中π是采样频率的一半)，P(ω)和S(ω)分别是现场音频对象以及候选舒适音频对象的频谱。

在一些实施例中，可以通过测量现场音频对象与候选舒适音频对象的mel倒谱之间的欧几里得距离来执行频谱匹配。

作为另外的示例，可以基于其基于任意合适的屏蔽模型执行频谱屏蔽的能力来选择舒适音频对象。例如，可以使用在传统音频编解码器(诸如先进音频编码(AAC))中使用的屏蔽模型。因此，例如，可以选择基于某个频谱屏蔽模型最有效地屏蔽当前现场音频对象的舒适音频对象作为舒适音频对象。

在这样的实施例中，如果音频对象足够长，则在进行匹配时可以考虑频谱的时间演化。例如，在一些实施例中，可以应用动态时间翘曲以计算在现场音频对象以及候选音乐音频对象的mel倒谱上的失真测量。作为另一示例，可以在配合现场音频对象以及候选音乐音频对象的mel倒谱的高斯分布之间使用Kullback-Leibler发散。

在一些实施例中，如本文中所描述的，将候选舒适音频对象合成为另外的或舒适的音频对象。在这样的实施例中，可以应用任意合适的合成，诸如波表合成、颗粒合成以及基于物理建模的合成。为了确保合成的舒适音频对象的频谱相似性，在一些实施例中，可以将舒适音频对象选择配置成调节合成器参数以使得合成声音的频谱匹配要被屏蔽的现场音频对象的频谱。在一些实施例中，舒适音频对象候选是各种生成的合成声音，其使用本文中所描述的频谱失真测量来评估以在频谱失真下降到门限以下时找到匹配。

在一些实施例中，另外的舒适的音频对象选择器被配置成选择舒适音频以使得另外的或舒适的音频以及现场背景噪声的组合令人愉悦。

另外，应当理解，在一些实施例中，第二音频信号可以是用户希望将其与第一音频信号混合的“记录的”音频信号(而非“现场”信号)。在这样的实施例中，第二音频信号包含用户希望去除的噪声源。例如，在一些实施例中，第二音频信号可以是包含噪声音频源的乡村或乡下环境的“记录的”音频信号(诸如例如飞过头顶的飞机)，用户希望将其与第一音频信号组合(诸如电话呼叫)。在一些实施例中，装置并且特别是舒适对象生成器可以生成合适的另外的音频源以基本上屏蔽飞机的噪声，同时将其他乡下(rural)音频信号与电话呼叫组合。

在一些实施例中，可以通过分析要被一起屏蔽的候选屏蔽音频对象和音频对象的频谱、时间或方向特性来执行舒适音频和现场背景噪声的组合的评价。

在一些实施例中，可以使用离散傅里叶变换(DFT)分析音频对象的语气相似性。可以将正弦波的频率估计为：

也就是，可以获取正弦频率估计作为使得DTFT幅度最大化的频率。另外，在一些实施例中，可以通过将对应于DFT的最大峰值(即max_ω|DTFT(ω)|)的幅度与峰值外面的平均DFT幅度相比较来检测或确定音频对象的音调类似性(tone-like nature)。也就是，如果DFT有明显大于最大值外部的平均DFT幅度的最大值，则信号可以具有很高的可能性是音调类似的。相应地，如果DFT的最大值明显接近平均DFT值，则检测步骤可以判定信号不是音调类似的(没有足够强的窄频分量)。

例如，如果最大峰值幅度与平均幅度之比超过10，则信号可以被确定为音调相似的(或音调的)。因此，例如，要被屏蔽的现场音频对象是频率为800Hz的附近的正弦信号。在这种情况下，系统可以合成两个另外的正弦波，其中一个频率为200Hz，另一个频率为400Hz，以用作舒适声音。在这种情况下，这些正弦波的组合产生基频为200Hz的音乐和弦，其比单个正弦波更悦耳。

通常，定位或重定位舒适音频对象的原则是，来自舒适音频对象和现场音频对象的声音的所得到下混频组合是和谐的而非不和谐的。例如，如果舒适音频对象和现场音频或噪声对象都具有音调分量，则噪声音频对象可以按照音乐上优选的比率匹配。例如，两个和声之间的倍频程、谐音、完全四度、完全五度、大三度、小六度、小三度、或大六度比率比其他比率更优选。在一些实施例中，可以通过例如以下方式进行匹配：执行舒适音频对象和现场音频(噪声)对象的基频(F0)估计并且选择要匹配的对使得组合为和谐比率而非不和谐比率。

在一些实施例中，除了谐波愉悦，舒适音频对象选择器701可以被配置成尝试使得舒适音频对象和噪声对象的组合在节奏上愉悦。例如，在一些实施例中，选择器可以被配置成选择舒适音频对象使得它们与噪声对象成节奏关系。例如，假定噪声对象包含拍子为t的可检测脉冲，则可以将舒适音频对象选择为包含为噪声脉冲的整数倍数(例如2t、3t、4t或8t)的可检测脉冲的音频对象。替选地，在一些实施例中，可以将舒适音频对象选择为包含为噪声脉冲的分数(例如1/2t、1/4t、1/8t、1/16t)倍的脉冲的音频对象。可以使用任意合适的用于拍子和节拍分析的方法以用于确定脉冲周期，并且然后将舒适音频和噪声信号对准以使得它们的检测到的拍子匹配。在获取拍子之后，可以使用任意合适的方法分析节拍匹配。在一些实施例中，到节拍跟踪步骤的输入是估计的节拍周期以及在时间估计阶段计算的重音信号。

图11中用步骤552示出使用L个现场音频对象中的每个对象的合适的距离测量以从候选舒适音频对象的集合搜索空间、频谱和时间相似的舒适音频对象的操作。

在一些实施例中，舒适音频对象选择器701然后可以输出与所接收的现场音频对象相关联的舒适音频对象的第一版本(被示出为1到L₁个舒适音频对象)。

在一些实施例中，舒适音频对象生成器603包括舒适音频对象定位器703。舒适音频对象定位器703被配置成接收关于每个本地音频对象从舒适音频对象生成器701生成的舒适音频对象1到L₁，并且将舒适音频对象定位在相关联的本地音频对象的位置处。另外，在一些实施例中，舒适音频对象定位器703可以被配置成修改或处理舒适音频对象的响度(或设置其音量或功率)，使得响度与对应的现场音频对象的响度最佳匹配。

舒适音频对象定位器703然后可以向舒适音频对象时间/频谱定位器705输出位置和舒适音频对象。

图11中用步骤553示出设置舒适音频对象的位置和/或响度以使其与对应的所应用的音频对象的位置和/或响度最佳匹配的操作。

在一些实施例中，舒适音频对象生成器包括舒适音频对象时间/频谱定位器705。舒适音频对象时间/频谱定位器705可以被配置成从舒适音频对象定位器703接收位置和舒适音频对象输出，并且尝试处理位置和舒适音频对象以使得所选择的所定位的舒适音频对象的时间和/或频谱行为与对应的现场音频对象更好地匹配。

图11中用步骤554示出处理舒适音频对象以使其在时间和/或频谱行为方面与现场音频对象更好地匹配的操作。

在一些实施例中，舒适音频对象生成器包括质量控制器707。质量控制器707可以被配置成从舒适音频对象时间/频谱定位器705接收已处理的舒适音频对象并且确定是否已经找到特定的现场音频对象的良好的屏蔽效果。在一些实施例中，可以基于舒适音频对象与现场音频对象之间的合适的距离测量来确定屏蔽效果。如果质量控制器707确定距离测量太大(或者舒适音频对象与现场音频对象之间的误差太明显)，则质量控制器去除舒适音频对象或者使其无效。

在一些实施例中，质量控制器可以被配置成分析舒适音频对象生成在屏蔽噪声和尝试使得其余噪声不太烦人方面的成功。在一些实施例中，这可以通过以下方式来实现：将在向音频信号添加舒适音频对象之后的音频信号与在添加舒适音频信号之前的音频信号相比较，并且基于某个计算上的音频质量度量来分析具有舒适音频对象的信号是否更令用户愉悦。例如，可以采用心理声学听觉屏蔽模型分析所添加的舒适音频对象屏蔽噪声源的效果。

在一些实施例中，可以生成噪声干扰的计算模型以比较噪声干扰在添加舒适音频对象之前或之后是否更大。如果添加舒适音频对象在屏蔽现场音频对象或噪声源以及使得它们不太烦人方面不太有效，则质量控制器707在一些实施例中可以被配置成：

-关闭舒适音频源的生成和添加，这表示不添加任何舒适音频源；

-应用传统的ANC来屏蔽噪声；或者

-请求来自用户的输入，不管他们希望保持舒适音频源屏蔽模式还是向往传统的ANC。

图11中用步骤555示出对舒适音频对象执行质量控制的操作。

在一些实施例中，质量控制器然后形成舒适音频对象的参数表示。在一些实施例中，这可以是以下各项中的一项：按照合适的格式来组合舒适音频对象或者组合音频对象以形成整个舒适音频对象组的合适的中间和边缘信号表示。

图11中用步骤556示出形成参数表示的操作。

在一些实施例中，然后以输出形成舒适音频的K个音频对象的形式来输出参数表示。

图11中用步骤557示出K个舒适音频对象的输出。

在一些实施例中，用户可以给出他是否想要定位屏蔽声音(或者是否定位最烦人的噪声源)的指示。指示可以通过在期望方向上触摸用户界面给出，其中用户位于中央，并且顶部装置直接向前且底部装置直接向后。在这样的实施例中，当用给出这一指示时，系统向对应的方向添加新的屏蔽音频对象以使得其与来自这一方向的噪声匹配。

在一些实施例中，装置可以被配置成从单个方向向用户渲染标记器音调，并且用户能够移动标记器音调的方向直到其与要屏蔽的声音的方向匹配。可以用任意合适的方式执行移动标记器音调的方向，例如通过使用设备操纵杆或者拖动描绘用户界面上的标记器音调位置的图标。

在一些实施例中，用户界面可以提供关于当前屏蔽声音是否很好地工作的用户指示。这例如可以通过拇指向上和拇指向下图标来实现，可以在倾听被用作屏蔽声音的音乐的同时在设备用户界面上点击拇指向上和向下图标。然后可以使用户提供的指示与当前现场音频对象和屏蔽音频对象的参数相关联。如果指示为肯定，则在系统下一次遇到类似的现场音频对象时，其偏好使用类似的屏蔽音频对象，或者通常，偏好屏蔽音频对象使得对象被更频繁地使用。如果指示为否定，则在系统下一次遇到类似的场景(类似的现场音频对象)时，找到替选的屏蔽音频对象或轨迹。

应当理解，术语“用户设备”意在覆盖任意合适类型的无线用户设备，诸如移动电话、便携式数据处理设备或便携式网络浏览器。

另外，陆上公用移动通信网络(PLMN)的单元也可以包括如以上所描述的装置。

总之，本发明的各种实施例可以用硬件、专用电路、软件、逻辑或其任意组合来实现。例如，一些方面可以用硬件来实现，而其他方面可以用能够由控制器、微处理器或其他计算设备执行的固件或软件来实现，然而本发明不限于此。虽然本发明的各个方面可以被说明和描述为框图、流程图，或者使用某种其他图形表示来描述。然而应当理解，作为非限制性示例，本文中描述的这些块、装置、系统、技术或方法可以用硬件、软件、固件、专用电路或逻辑、通用永久或控制器或者其他计算设备、或者其某种组合来实现。

本发明的实施例可以用由移动设备的数据处理器(诸如处理器实体中的)可执行的计算机软件来实现，或者由硬件来实现，或者由软件和硬件的组合来实现。另外，在这点上，应当注意，附图中的逻辑流程的任何块可以表示程序步骤、或者互连的逻辑电路、块和功能、或者程序步骤和逻辑电路、块和功能的组合。软件可以存储在诸如在处理器内实现的存储器芯片或存储器块等物理介质上、诸如硬盘或软盘等磁性介质上、以及诸如例如DVD及其数据变型、CD等光学介质上。

存储器可以是适合本地技术环境的任何类型并且可以使用任意合适的数据存储技术(诸如基于半导体的存储器设备、磁性存储器设备和系统、光学存储器设备和系统、固定存储器和可移除存储器)来实现。数据处理器可以是适合本地技术和环境的任何类型，并且作为非限制性示例，存储器可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、基于多核处理器架构的门级电路和处理器中的一个或多个。

本发明的实施例可以在诸如集成电路模块等各种部件中被实现。集成电路的设计大体上是一个高度自动化的过程。复杂且有用的软件工具可用于将逻辑水平设计变换成准备好被蚀刻和形成在半导体衬底上的半导体电路设计。

诸如由Synopsys,Inc.of Mountain View,California以及Cadence Design,ofSan Jose,California提供的程序等程序使用很好地建立的设计规则以及预先存储的设计模块的库来在半导体芯片上自动布线导体和定位部件。一旦完成半导体电路的设计，可以向半导体制造工厂传输标准化电子装置格式(例如Opus、GDSII等)的所得到的设计用于制造。

以上描述已经通过示例性非限制性实施例提供了对本发明的示例性实施例的完整和说明性描述。然而，在结合附图和所附权利要求阅读时，相关领域技术人员鉴于以上描述可以很清楚各种修改和改变。然而，本发明的教示的所有这样的和类似的修改仍然落在如所附权利要求限定的本发明的范围内。

Claims

1.一种处理音频信号的方法，包括：

在装置中分析第一音频信号以确定至少一个音频源，从而确定所述第一音频信号的参数，其中所述第一音频信号从所述装置的环境中的声场被生成并且由所述装置的至少一个麦克风捕获；

由所述装置生成至少一个另外的音频源，其中所述至少一个另外的音频源由所述装置再现；

将所述至少一个音频源和所述至少一个另外的音频源混频，使得所述至少一个另外的音频源以如下方式与所述至少一个音频源相关联：所述第一音频信号的参数与所述至少一个另外的音频源的参数在时间上匹配，使得所述至少一个音频源和所述至少一个另外的音频源被对准用于渲染；以及

输出经混频的所述至少一个音频源和所述至少一个另外的音频源，以便屏蔽所述至少一个音频源的效果。

2.根据权利要求1所述的方法，还包括分析第二音频信号以确定至少一个第二音频源。

3.根据权利要求2所述的方法，其中生成所述第一音频信号还包括：

将所述第二音频信号划分成第一数目的频带；

针对所述第一数目的频带，确定第二数目的主导音频方向；以及

选择其中其相关联的音频分量大于所确定的噪声门限值的所述主导音频方向作为所述音频源的方向。

4.根据权利要求2和3中任一项所述的方法，其中分析所述第二音频信号还包括将所述至少一个第二音频源与所述至少一个音频源以及所述至少一个另外的音频源混频。

5.根据权利要求2和3中任一项所述的方法，其中所述第二音频信号是以下各项中的至少一项：

经由接收器的所接收的音频信号；以及

经由存储器的所取回的音频信号。

6.根据权利要求2和3中任一项所述的方法，还包括通过至少两个麦克风提供所述第二音频信号。

7.根据权利要求6所述的方法，其中所述装置包括所述至少两个麦克风，或者所述至少两个麦克风在外部并且邻近所述装置。

8.根据权利要求1至3中任一项所述的方法，其中生成所述至少一个另外的音频源包括生成与至少一个音频源相关联的所述至少一个音频源。

9.根据权利要求8所述的方法，其中生成与所述至少一个音频源相关联的所述至少一个另外的音频源包括以下各项中的至少一项：

从一系列另外的音频源类型选择最接近地匹配所述至少一个音频源的至少一个另外的音频源；

将所述另外的音频源定位在匹配所述至少一个音频源的虚拟位置的虚拟位置处；以及

处理所述另外的音频源以匹配音频源频谱和音频源时间中的至少一项。

10.根据权利要求1至3中任一项所述的方法，其中与所述至少一个音频源相关联的所述至少一个另外的音频源是以下各项中的至少一项：

所述至少一个另外的音频源屏蔽所述至少一个音频源；

所述至少一个另外的音频源掩饰所述至少一个音频源；

所述至少一个另外的音频源包含所述至少一个音频源；

所述至少一个另外的音频源适应所述至少一个音频源；或

所述至少一个另外的音频源伪装所述至少一个音频源。

11.根据权利要求1至3中任一项所述的方法，其中分析所述第一音频信号包括确定以下各项中的至少一项：

至少一个音频源位置；

至少一个音频源频谱；以及

至少一个音频源时间。

12.根据权利要求1至3中任一项所述的方法，其中确定所述至少一个音频源包括：

确定至少两个音频源；

确定所述至少两个音频源的能量参数值；以及

基于所述能量参数值，从所述至少两个音频源选择所述至少一个音频源。

13.根据权利要求1至3中任一项所述的方法，还接收至少一个用户输入，所述至少一个用户输入与所述至少一个音频源和所述至少一个另外的音频源中的至少一项相关联。

14.根据权利要求1至3中任一项所述的方法，还执行以下各项中的至少一项：

接收指示一系列另外的音频源类型的所述至少一个用户输入；

接收指示音频源位置的所述至少一个用户输入；以及

接收指示用于一系列另外的音频源类型的源的所述至少一个用户输入。

15.一种用于处理音频信号的装置，被配置为执行根据权利要求1至14中任一项所述的方法。