CN103168326A

CN103168326A - 为隐私和个性化使用而消除背景声

Info

Publication number: CN103168326A
Application number: CN2011800378912A
Authority: CN
Inventors: A·赫尔曼; U·耶胡黛
Original assignee: Bone Tone Communications Ltd
Current assignee: Bone Tone Communications Ltd
Priority date: 2010-08-11
Filing date: 2011-10-11
Publication date: 2013-06-19
Also published as: EP2603914A2; WO2012020394A2; EP2603914A4; US20130137480A1; WO2012020394A3; US8768406B2; KR20140061285A; JP2013540379A

Abstract

一种用于消除背景声的系统，该系统可以包括：被配置为对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号的噪声消减电路；被配置为从第一信号中消除残留背景声以提供第二信号的背景消除电路；以及，被配置为向声音生成电路输出第二信号和至少零个选择的信号的混合的输出电路，所述声音生成电路被配置为输出表示所述混合的音频信号。

Description

为隐私和个性化使用而消除背景声

背景技术

带有其蓝牙和有线耳机的移动电话近来已经变得非常普遍。通过使用移动电话，人们可以在诸如火车、公路、餐厅、健身房俱乐部、家中、办公室、诸如卫生间之类的私密空间等之类的各种未受控地点接听电话。

在家庭和办公室环境中非常普遍的诸如DECT之类的无线电话会发生类似的情况。

一旦用户应答移动电话的呼叫（表示为第一方），移动电话麦克风拾取第一方的组合有他的位置处的背景声的语音。此混合的信号被电话传输到另一方（表示为第二方）。此混合的声音可能向第二方暴露第一方的环境的背景声，这可能泄露有关第一方的位置的某些信息。

在某些情况下，人们希望保护他们的隐私，而不向另一方公开他们位于什么地方。为克服此问题，在某些情况下，接收方将拒绝呼叫，稍后回拨。在其他情况下，接收方将应答呼叫，希望背景声不会被听到并不会泄露他的位置，如果在呼叫过程中背景声启动，则会使第一方难堪。

发明内容

可以提供用于消除背景声的系统，该系统可以包括：被配置为对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号的噪声消减电路；被配置为从第一信号中消除残留背景声以提供第二信号的背景消除电路；以及，被配置为向声音生成电路输出第二信号和至少零个选择的信号的混合的输出电路，所述声音生成电路被配置为输出表示所述混合的音频信号。

可以提供用于消除背景声的方法，该方法可以包括：通过噪声消减电路对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；通过背景消除电路从第一信号中消除残留背景声以提供第二信号；以及，通过输出电路向声音生成电路输出第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

可以提供非瞬时的计算机可读介质，它可以存储用于执行下列操作的指令：对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；从第一信号中消除残留背景声以提供第二信号；以及向声音生成电路输出第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

可以提供用于消除背景声的系统，该系统可以包括：被配置为从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号的处理器；被配置为存储所需背景声的多个样本的存储器；耦合在处理器和声音生成电路之间的接口；其中，所述处理器进一步适用于：确定向声音生成电路发送：(a)仅消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定，通过所述接口向所述声音生成电路提供信号。

可以提供一种方法，该方法可以包括：从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号；存储所需背景声的多个样本；确定向声音生成电路发送：(a)仅所述消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定向声音生成电路提供信号。

可以提供非瞬时的计算机可读介质，该介质可以存储用于以下操作的指令：从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号；存储所需背景声的多个样本；确定向声音生成电路发送：(a)仅所述消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定向声音生成电路提供信号。

附图说明

将参考各个附图，只作为示例来描述本发明的进一步的细节、各方面以及各实施例。在附图中，使用类似的附图标记来标识类似的或功能上类似的元件。图中的元素是为了简明和清楚而示出的，不一定是按比例绘制的。

图1示出了根据本发明的一个实施例的系统；

图2示出了根据本发明的一个实施例的图1的系统的处理器；

图3示出了根据本发明的一个实施例的系统；

图4示出了根据本发明的一个实施例的方法；以及

图5示出了根据本发明的一个实施例的方法。

具体实施方式

在本说明书的结尾部分在权利要求书中特别指出了并明确声明了被视为本发明的主题。然而，本发明，无论是组织还是操作方法，以及其目标、特点、优点，通过参考下面的详细描述并参考附图将得到最好的理解，其中：

在下面的详细描述中，阐述了很多具体细节，以便全面地理解本发明。然而，那些本领域技术人员将会理解，本发明也可以在没有这些具体细节的情况下实施。在其他情况下，没有详细描述已知的方法、过程、和组件，以便不至于使本发明模糊。

下文所提及的信号中的任何一种可以是数字信号或模拟信号。这些信号可以表示声音，并可以使各种电路（诸如声音生成电路）在接收到这些数字或模拟信号之后输出声音。数字信号也可以被称为声音的数字表示或数字化的声音信号。声音可以包括单个音符或可以包括多个音符。任何模拟信号都可以被替换为数字信号，反之亦然。

术语“混合”是指生成表示两个或更多输入信号的输出信号的过程。

术语“电路”可以表示可以包括至少一个硬件组件的非瞬时的（有形的）实体。

下面所示出的任何方法可以由执行存储在非瞬时的计算机可读介质中的指令的计算机来执行。计算机可以是处理器、数字信号处理器或其组合。

提供了用于消除背景声并可任选地将它替换为用户希望另一方将听到的不同的背景声的系统和方法。此能力为用户提供巨大的优点，因为即使在他不希望向另一方公开他的位置的情况下他也可以接听电话或拨打电话。

用户可以选择消除背景声或者可另选地将它替换为预定义的背景。作为示例，如果一个人呆在家里照顾小孩，当他接到业务电话时，他可以将小孩哭的背景声替换为办公室背景声。

另一个有趣的用途可以是，如果用户（发射方）将在他的呼叫过程中生成个性化的音乐，即使他位于嘈杂的环境中，另一方（接收方）也将不会听到实际背景声，而是来自发射方的个性化的放松的音乐。

应该注意，本领域内已知有许多缩小背景声的噪声消除技术，然而，所有这些技术不会消除背景噪声，它们大体上只是缩小背景声的影响。

图1示出了根据本发明的一个实施例的系统100。系统100可以在诸如蓝牙耳机之类的无线耳机或在以有线方式连接到移动电话的有线耳机中实现。系统100也可以被嵌入在移动电话或任何其他无线电话中。为了说明的简洁起见，下列文字将引用以有线方式连接到移动电话的外部耳机。

系统100包括多个（N个）麦克风101（1）-101（N）。在下列示例中，示例N被示为等于两个或三个，但是，N可以超过三个。

来自N个麦克风101（1）-101（N）的输出信号（m1-mN）被发送到模数转换器（A/D）105，该模数转换器105使这些输出信号数字化，以提供这些输出信号的数字样本。这些数字样本被通过链路112发送到处理器110。

处理器110可以是专用DSP（数字信号处理器）或通用处理器，诸如但不仅限于符合ARM的处理器。

处理器110可以执行如在图2中更详细地示出的必要的信号处理。

处理器110连接到存储器120，该存储器120可以存储由处理器110执行的软件以及背景声和/或音乐文件的库，如果用户选择将实际背景声替换为来自背景声的库的个性化背景声，将使用这些文件。

用户可以选择所需背景——这通过向处理器110发送的控制信号111（通过未示出的接口）表示。控制信号111可以通过用户激活耳机中的特殊键生成。另外地或作为替代地，移动电话125可以被用来通过链路113提供控制信号。

处理器110，响应于控制信号，可以选择所需的背景声（可以通过数字信号来表示）并向接口115发送语音和所选背景声的混合（通过链路114）。在耳机和移动电话125之间是有线连接的情况下，混合可以通过使用标准数模转换器被转换为模拟信号，其输出将通过音频连接器130连接到移动电话。在存在到移动电话的数字接口的情况下，可以跳过接口115。在耳机使用到移动电话的无线连接的情况下，诸如在蓝牙中，耳机115可以充当蓝牙发射器和接收器单元。

如此，处理器110可以被配置为从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号。存储器120可以被配置为存储所需背景声的多个样本。接口115可以耦合在处理器110和声音生成电路（诸如移动电话125）之间。

处理器110可以进一步适用于：确定向所述声音生成电路发送：(a)仅消除了背景的信号；还是(b)消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定，通过所述接口提供给声音生成电路。

图2示出了根据本发明的一个实施例的图1的处理器110。

来自N个麦克风的数字样本被馈送到噪声消减电路205，以便执行噪声消减过程。背景声被视为噪声。有许多噪声消减的技术；某些使用一个麦克风，其中，在正常语音谈话中的固有的暂停过程中，估计背景声。另一个备选方案可以是在使用主要拾取带有很少背景声的语音的骨导式麦克风的情况。更先进的技术使用两个麦克风，其中，一个麦克风主要检测用户的语音，另一个麦克风主要检测背景声。通过处理两种信号，可以获取信号S_NR(n)，这是背景噪声降低了的用户的语音。

另一个选项是使用三个麦克风，其中，一个麦克风主要检测用户的语音，第二麦克风主要检测背景声，第三麦克风是骨导式麦克风。通过处理三个信号，可以生成信号S_NR(n)，这是背景噪声降低了的用户的语音。

另一个选项是使用N个麦克风作为麦克风阵列，其中，麦克风阵列被处理，以充当定向麦克风，该定向麦克风主要拾取带有少量很少背景声的语音信号。

在所有这些技术中，背景声没有被完全消除，残留背景声将剩余；因此，替换背景噪声是不可能的，因为用户将听到残留声音加新背景声。

为消除残留声音（残留背景噪声），来自噪声消减电路205的信号（称为第一信号）被馈送到语音特征提取电路210——其可以从S_NR(n)中提取语音的参数。可以在10-20毫秒的帧中处理S_NR(n)。对于每一个帧，从语音中提取语音参数。作为示例，在语音帧中，估计语音的音调、增益和包络，在非语音帧中，估计激励信号的功率和包络。

在噪声消减电路205提供好的噪声消减的情况下，残留信号相对于语音很小，估计的音调可以非常准确，包络估计需要某些处理以降低背景声效果，典型的技术将使用平滑技术。所提取的特征被馈送到语音合成电路215，该电路215可以通过使用语音合成来重建语音，并提供没有背景声的原始声音的估计。

从语音合成电路215输出

其是没有背景噪声的所需语音的估计。它也被称为第二信号。

选择的背景信号可以被发送到背景音乐播放器220，该背景音乐播放器220被配置为播放存储在存储器120中的所需背景声B(n)。所需背景声乘以固定的或自适应增益225，固定的或自适应增益225可以由用户控制或可以自动地设置。输出

是带有新背景声的所需语音。

可另选地，所选背景信号和第二信号，两者都是数字表示，可以以数字方式混合，并发送到电话130——而不混合这些信号的模拟表示。

应该注意，如果愿意注入少量的原始背景声，作为示例，可以通过206将主要麦克风M₁(n)注入220来进行，并且

其中，D是由于

和M₁(n)之间的语音合成过程所造成的延迟。

通过修改G，可以控制最后的信号S_new(n)中的背景噪声的音量。

图3示出了根据本发明的一个实施例的系统300。系统300包括：(a)被配置为对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号的噪声消减电路302；(b)被配置为从所述第一信号中消除所述残留背景声以提供第二信号的背景消除电路304；以及(c)被配置为向声音生成电路308输出所述第二信号和至少零个选择的信号的混合的输出电路306，所述声音生成电路308被配置为输出表示所述混合的音频信号。

图3示出了属于系统300但是可以不属于系统300而是连接到该系统的声音生成电路308。

输出电路306可以被配置为只向所述声音生成电路输出所述第二信号。

输出电路306可以被配置为输出所述第二信号和表示选择的背景声的选择的信号的混合。

背景消除电路304可以包括语音提取器电路，后面跟着诸如图2中所示出的那些的语音合成电路。

系统300进一步被示为包括被配置为从表示不同的所需背景声的多个信号中选择所述选择的信号的选择电路310。

选择电路310可以被配置为从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号。

选择电路310和声音生成电路308可以属于同一通信设备。

选择电路310和声音生成电路308可以属于同一通信设备的不同的组件。

声音生成电路308可以属于电话，而所述选择电路310可以属于被配置为与所述电话进行通信的耳机。

噪声消减电路302可以被配置为从一个麦克风或从多个麦克风接收所述多个样本。

图4示出了根据本发明的一个实施例的方法400。

方法400包括下列步骤401、402、404、406和408。步骤401后面可以跟着步骤406。步骤402后面可以跟着步骤404，步骤404后面又可以跟着步骤406。步骤406后面可以跟着步骤408。

步骤401可以包括从表示不同的所需背景声的多个信号中选择所选择的信号。当只输出第二信号时，选择包括选择零个所选择的信号。

步骤401可以包括从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号。

步骤402可以包括通过噪声消减电路对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号。

步骤402可以包括从多个麦克风接收多个样本。这可以包括缓存这些多个信号，然后从缓存器中取出这些信号。

步骤404可以包括通过背景消除电路从所述第一信号中消除残留背景声以提供第二信号。

步骤406可以包括通过输出电路向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

步骤406可以包括向声音生成电路只输出第二信号。

步骤406可以包括输出所述第二信号和表示选择的背景声的选择的信号的混合。

步骤404可以包括通过从所述第一信号中提取语音特征来消除所述残留背景声，以提供中间信号，并对所述中间信号执行语音合成。

步骤408包括通过所述音频输出电路输出表示所述混合的音频信号。

图5示出了根据本发明的一个实施例的用于消除背景声的方法500。

方法可以从步骤502开始。

步骤502可以包括从来自多个麦克风的所述多个样本中消除背景声以提供消除了背景声的信号；存储所需背景声的多个样本。

步骤502可以包括通过噪声消减电路对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号的步骤503；通过背景消除电路从所述第一信号中消除所述残留背景声以提供第二信号。

步骤502后面可以跟着确定要向声音生成电路发送下列各项的步骤504：(a)仅消除了背景的信号；还是(b)消除了背景的信号和表示所需背景声的样本的混合。

步骤504后面可以跟着响应于所述确定向声音生成电路提供信号的步骤506。

步骤506可以包括通过输出电路向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

根据本发明的一个实施例，所选信号可以通过网络的将信号从一个电话传输到另一个电话的混合组件被添加到第二信号。此组件可以从发送方电话接收指令以将选择的声音添加到来自发送方电话的信号，以便接收方电话接收从发送方电话输出的信号和所选信号的混合。发送电话可以输出表示要添加哪一个选择的声音的选择信号，此选择信号可以被拦截，并向混合组件提供。

根据本发明的另一实施例，用户可以选择要被添加到第二信号中的背景声的量。另外地或作为替代地，用户可以选择（或系统可以自动地选择）第二信号和所选信号的相对强度。在混合过程过程中，使用此相对强度。

尽管此处示出了并描述了本发明的某些特征，但是，所属领域的技术人员将轻松地实现许多修改、替换、变化，以及等价方案。因此，可以理解，所附权利要求书旨在涵盖所有这样的修改和变体，它们都将在本发明的真正的精神和范围内。

Claims

1.一种用于消除背景声的系统，所述系统包括：

噪声消减电路，被配置为对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；

背景消除电路，被配置为从所述第一信号中消除所述残留背景声以提供第二信号；以及

输出电路，被配置为向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

2.根据权利要求1所述的系统，其中，所述输出电路被配置为向所述声音生成电路仅输出所述第二信号。

3.根据权利要求1所述的系统，其中，所述输出信号被配置为输出所述第二信号和表示选择的背景声的选择的信号的混合。

4.根据权利要求1所述的系统，其中，所述背景消除电路包括语音提取器电路，后面跟着语音合成电路。

5.根据权利要求1所述的系统，包括选择电路，被配置为从表示不同的所需背景声的多个信号中选择所述选择的信号。

6.根据权利要求1所述的系统，包括选择电路，被配置为从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号。

7.根据权利要求1所述的系统，其中，所述选择电路和所述声音生成电路属于同一通信设备。

8.根据权利要求1所述的系统，其中，所述选择电路和所述声音生成电路属于同一通信设备的不同的组件。

9.根据权利要求1所述的系统，其中，所述声音生成电路属于电话，而所述选择电路属于被配置为与所述电话进行通信的耳机。

10.根据权利要求1所述的系统，其中，所述噪声消减电路被配置为从多个麦克风接收所述多个样本。

11.根据权利要求1所述的系统，包括所述声音生成电路。

12.一种用于消除背景声的方法，所述方法包括：

通过噪声消减电路对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；

通过背景消除电路从所述第一信号中消除所述残留背景声以提供第二信号；以及

通过输出电路向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

13.根据权利要求12所述的方法，包括向所述声音生成电路仅输出所述第二信号。

14.根据权利要求12所述的方法，包括输出所述第二信号和表示选择的背景声的选择的信号的混合。

15.根据权利要求12所述的方法，包括通过从所述第一信号中提取语音特征以提供中间信号，并对所述中间信号执行语音合成，来消除所述残留背景声。

16.根据权利要求12所述的方法，包括从表示不同的所需背景声的多个信号中选择所述选择的信号。

17.根据权利要求12所述的方法，包括从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号。

18.根据权利要求12所述的方法，其中，所述选择电路和所述声音生成电路属于同一通信设备。

19.根据权利要求12所述的方法，其中，所述选择电路和所述声音生成电路属于同一通信设备的不同的组件。

20.根据权利要求12所述的方法，其中，所述声音生成电路属于电话，而所述选择电路属于被配置为与所述电话进行通信的耳机。

21.根据权利要求12所述的方法，包括从多个麦克风接收所述多个样本。

22.根据权利要求12所述的方法，包括通过所述音频输出电路输出表示所述混合的音频信号。

23.一种存储了用于执行下列操作的指令的非瞬时的计算机可读介质：

对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；

从所述第一信号中消除所述残留背景声以提供第二信号；以及

向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

24.根据权利要求23所述的非瞬时的计算机可读介质，存储用于向所述声音生成电路仅输出所述第二信号的指令。

25.根据权利要求23所述的非瞬时的计算机可读介质，存储用于输出所述第二信号和表示选择的背景声的选择的信号的混合的指令。

26.根据权利要求23所述的非瞬时的计算机可读介质，存储用于通过从所述第一信号中提取语音特征以提供中间信号，并对所述中间信号执行语音合成来消除所述残留背景声的指令。

27.根据权利要求23所述的非瞬时的计算机可读介质，存储用于从表示不同的所需背景声的多个信号中选择所述选择的信号的指令。

28.根据权利要求23所述的非瞬时的计算机可读介质，存储用于从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号的指令。

29.根据权利要求23所述的非瞬时的计算机可读介质，存储用于从多个麦克风接收所述多个样本的指令。

30.根据权利要求23所述的非瞬时的计算机可读介质，存储用于输出表示所述混合的音频信号的指令。

31.一种用于消除背景声的系统，所述系统包括：

处理器，被配置为从来自多个麦克风的所述多个样本中消除背景声以提供消除了背景声的信号；

存储器，被配置为存储所需背景声的多个样本；

耦合在所述处理器和声音生成电路之间的接口；

其中，所述处理器进一步适用于：

确定向所述声音生成电路发送：(a)仅消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及

响应于所述确定，通过所述接口向所述声音生成电路提供信号。

32.根据权利要求31所述的系统，其中，所述处理器包括被配置为对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号的噪声消减电路；以及被配置为从所述第一信号中消除所述残留背景声以提供第二信号的背景消除电路。

33.根据权利要求32所述的系统，其中，所述背景消除电路包括语音提取器电路，后面跟着语音合成电路。

34.根据权利要求31所述的系统，其中，所述处理器被配置为从表示不同的所需背景声的多个信号中选择所述选择的信号。

35.根据权利要求31所述的系统，其中，所述处理器被配置为从至少一组表示所需背景声的信号和所述背景声中选择所述选择的信号。

36.根据权利要求31所述的系统，其中，所述选择电路和所述声音生成电路属于同一通信设备。

37.根据权利要求31所述的系统，其中，所述选择电路和所述声音生成电路属于同一通信设备的不同的组件。

38.根据权利要求31所述的系统，其中，所述声音生成电路属于电话，而所述选择电路属于被配置为与所述电话进行通信的耳机。

39.一种方法，包括：从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号；存储所需背景声的多个样本；确定向声音生成电路发送：(a)仅消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定，向声音生成电路提供信号。

40.根据权利要求40所述的方法，包括：通过噪声消减电路对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；通过背景消除电路从所述第一信号中消除所述残留背景声以提供第二信号；以及，通过输出电路向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。

41.一种存储指令的非瞬时的计算机可读介质，所述指令用于从来自多个麦克风的多个样本中消除背景声以提供消除了背景声的信号；存储所需背景声的多个样本；确定向所述声音生成电路发送：(a)仅所述消除了背景的信号；还是(b)所述消除了背景的信号和表示所需背景声的样本的混合；以及，响应于所述确定向声音生成电路提供信号。

42.根据权利要求42所述的非瞬时的计算机可读介质，存储用于以下操作的指令：对背景声和语音的多个样本应用背景声消减过程以提供包括残留背景声的第一信号；从所述第一信号中消除所述残留背景声以提供第二信号；以及，向声音生成电路输出所述第二信号和至少零个选择的信号的混合，所述声音生成电路被配置为输出表示所述混合的音频信号。