CN107210032B

CN107210032B - 在掩蔽语音区域中掩蔽再现语音的语音再现设备

Info

Publication number: CN107210032B
Application number: CN201680006548.4A
Authority: CN
Inventors: 安德烈亚斯·沃尔瑟; 马丁·施耐德; 伊曼纽尔·哈比兹; 奥立弗·赫尔穆特
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2015-01-20
Filing date: 2016-01-13
Publication date: 2022-03-01
Anticipated expiration: 2036-01-13
Also published as: AU2016208741A1; JP2018506080A; WO2016116330A1; KR20170106430A; CA2974223A1; EP3248186B1; BR112017015388B1; BR112017015388A2; ES2913870T3; AU2021200589A1; RU2666675C1; KR102038528B1; MX2017009378A; AU2019201415A1; EP3248186A1; JP6851980B2; EP3048608A1; CN107210032A; US10395634B2; CA2974223C

Abstract

本发明涉及一种用于基于接收的语音信号再现语音的语音再现设备，使得再现的语音在清晰语音区域中是可理解的，而在掩蔽语音区域中是不可理解的，该语音再现系统包括：音频处理模块，配置为接收语音信号；语音扬声器集合，配置为基于一个或多个语音扬声器信号再现语音；和掩蔽声音扬声器集合，配置为基于一个或多个掩蔽声音扬声器信号产生掩蔽声音，其中所述掩蔽声音在所述掩蔽语音区域中掩蔽所述语音；其中所述音频处理模块包括配置为基于所述语音信号的频谱和/或时间特性产生一个或多个分析信号的语音信号分析模块；其中所述音频处理模块包括配置为基于一个或多个分析信号产生一个或多个掩蔽声音信号的掩蔽声音发生器。

Description

在掩蔽语音区域中掩蔽再现语音的语音再现设备

技术领域

本发明涉及语音再现和再现语音的掩蔽。背景技术

背景技术

不同的情形提出了语音掩蔽的应用，以下给出三个示例：

1.共享的办公空间，每个员工在理解其他人的会话时，可能会从其分配的任务中分散注意力，而无论这些会话是经由电话还是直接进行。在这种情况下，语音掩蔽系统可以通过抑制语音理解来增加工作的舒适度。此外，可能需要保持会话内容保密(即，增加语音私密性)，语音掩蔽系统显然可以有助于实现这一点。

2.车内场景，一个人在进行可能要保密的会话，而同时在车厢内有代驾驾驶员，而两者之间没有物理屏障。在这种情况下，主要目标应当是保持会话的保密性，而驾驶员的舒适性则不那么重要，只要他不分散注意力。

3.诊室，经常有允许与接待员进行免提通信的设备。在紧急情况下：接待员可能需要提及与使用该设备的患者有关的详细信息，而同时另一位患者正在接受治疗。在这种情况下，可以使用语音掩蔽系统来确保保密性。接受治疗的患者可能接受这种掩蔽，因为他们期望医生对他们自身的绝对保密。

用于增加工作舒适度的语音掩蔽系统是本领域公知的。然而，这样的系统对提供语音私密性是低效的。大多数已知系统主要是为了提高工作舒适度，但是语音私密性被认为是次要的。

当仅考虑由电信设备再现的声场时，也可以通过波束成形或多区域再现将再现限制到清晰语音区域。然而，除了需要大量的必要扬声器之外，这种系统永远不会实现实现足够级别的语音私密性，这是因为在掩蔽语音区域中实现的绝对声压级仍然远在人类听力阈值之上。主动噪声消除/控制方法同样如此，可能不仅消除任何再现的信号，还消除本地人类讲话者。此外，这些技术需要使用可能的多个麦克风，并且必要的自适应滤波是已知具有挑战性的任务[4]。最终，主动噪声控制仅成功地用于低频声源或简单场景，如通风管道[4]。

广泛使用的方法是产生不能与语音(被掩蔽方)区分(即，在感知上分离)的掩蔽声音(掩蔽器)，使得在存在掩蔽声音的同时抑制对语音的理解。术语声音掩蔽通常用于这样的系统，这是因为通常在特定区域中播放某种掩蔽器声音。一种方法是再现类似空调的背景噪声。该噪音覆盖了语音，并有助于使其呈现为不可理解。虽然可以通过播放非常大声的掩蔽声音来实现这种掩蔽，但是声音掩蔽技术意在以尽可能低的声级使用适当的掩蔽器。

通常使用白噪声或粉红噪声，在低播放级别下白噪声或粉红噪声对于掩蔽语音不能非常高效地达到可以实现语音私密性的程度。下面总结先前提出的增强感应噪声的掩蔽效果的方法。

在文献[12]中，作者引述了具有不明显的特性和频谱的声音(例如风或波浪声)适合实现语音私密性。该文档还陈述，如果收听者能够定位声音的起源位置则声音就会更具侵入性。已经发现掩蔽噪声的均匀不可定位分布在一些场景下是有利的。因此，[12]提出使用多个去相关噪声源来产生漫射、均匀、离域的声音空间。

已经发现，如果掩蔽声音的级别对应于例如周围环境特性或者应该被掩蔽的讲话者语音的级别自适应地变化(参见例如[10]，[5])，则是有利的。此外，除了级别自适应之外，掩蔽器的谱特性的自动适应已知是有益的(参见例如[11]，[5])。[6]在这方面提出：自适应声音掩蔽系统和方法将不期望的声音分成时间块并估计频谱和功率级，并且连续地产生具有匹配的频谱和功率级的白噪声以掩蔽不期望的声音。

其他应用产生特定的噪声形状，具有特别好地掩蔽语音的能力[9]，或者产生“与源(人讲话)的特性密切匹配“的掩蔽噪声[10]。已经提出了后一种方法，其特定目的是将语音呈现为不可理解，该方法通过人工产生相似的声音或者从数据库中播放话语的随机连接，来使用非常类似于语音话语的掩蔽声音(参见例如[10]，[2])。[10]使用语音来使掩蔽声音不明显。然而，这对于例如暴露于这种声音的驾驶员而言仍然可能分散注意力。

已经提出的实现语音私密性的其他方法例如产生消除信号，该消除信号尝试消除预期位置处的目标语音。日本专利申请[7]公开了这种用于车厢的语音私密性保护设备。捕获会话，消除声音被馈送到不应该听到会话的位置。

根据应用，掩蔽噪声通常会在讲话者周围的较大区域中再现，或者在讲话者自身附近再现(参见[10]，[3])，或者通过物理手段(附加地)分开区域[8]。

Chatter Blocker[1]是具有来自不同类别(声音效果，音乐嘈杂语音)的掩蔽声音的应用，这些掩蔽声音可以单独播放或组合播放，并由用户调整级别。使用播放设备(例如平板电脑)的内置扬声器或连接到播放设备的外部扬声器。

发明内容

本发明的目的是提供一种用于再现语音和用于掩蔽再现的语音的改进构思。

该目的通过一种用于基于接收的语音信号再现语音的语音再现设备来实现，使得再现的语音在清晰语音区域中是可理解的，并且在掩蔽语音区域中是不可理解的，该语音再现系统包括：

音频处理模块，配置为接收语音信号；

语音扬声器集合，配置为基于一个或多个语音扬声器信号再现语音；和

掩蔽声音扬声器集合，配置为基于一个或多个掩蔽声音扬声器信号产生掩蔽声音，其中所述掩蔽声音在所述掩蔽语音区域中掩蔽所述语音；

其中所述音频处理模块包括配置为基于所述语音信号产生所述一个或多个语音扬声器信号的语音扬声器信号发生器；

其中所述音频处理模块包括配置为基于所述语音信号的频谱和/或时间特性产生一个或多个分析信号的语音信号分析模块；

其中所述音频处理模块包括配置为基于所述一个或多个分析信号产生一个或多个掩蔽声音信号的掩蔽声音发生器；以及

其中所述音频处理模块包括配置为基于所述一个或多个掩蔽声音信号产生所述一个或多个掩蔽声音扬声器信号的掩蔽声音扬声器信号发生器。

术语“语音扬声器集合”是指能够再现语音的一个或多个扬声器。类似地，术语“掩蔽声音扬声器集合”是指能够产生掩蔽声音的一个或多个扬声器。然而，一般来说，语音扬声器集合与掩蔽声音扬声器集合分开，使得特定扬声器属于语音扬声器集合或掩蔽声音扬声器集合，但不同时属于这两个集合。因此，语音扬声器可以定位成使得由语音扬声器再现的语音主要针对清晰语音区域，而掩蔽声音扬声器可以定位成使得由语音扬声器产生的掩蔽声音是主要针对掩蔽语音区域。

本发明提供了一种改进构思，用于为无意的收听者或非预期的收听者(可以被称为窃听者)呈现不可理解的语音，而对于预期的收听者或在不同位置的预期收听者来说仍然是可理解的。

在考虑的场景下，再现的语音意在在给定的区域(被称为清晰语音区域)中是可理解的。同时，在另一给定区域(被称为掩蔽语音区域)中，再现的语音应该是不可理解的，其中两个区域可以位于邻近位置。无论何时不可避免的窃听者都需要停留在预期收听者的附近，这是理想的。

根据在清晰语音区域中或附近再现的语音(被掩蔽方)的属性，通过自适应地产生的掩蔽声音(掩蔽器)来抑制语音的理解。换言之：“被掩蔽方”表示必须被掩蔽的语音。在掩蔽语音区域中或附近再现掩蔽声音。

语音扬声器信号发生器可以包括呈现器(render)。同样掩蔽声音扬声器信号发生器可以包括呈现器。

与一些相关技术不同，本文所述的构思的目标不是掩蔽一个或多个现有讲话者的语音，而是掩蔽例如由免提通信设备再现的再现语音，其中，再现语音基于由免提通信设备接收的远端信号。

本发明旨在实现语音私密性，而不是增加周围员工的工作舒适度。如果在讲话者附近(有意或无意地)的人无法掌握会话或理解实质，就会得到语音私密性。这对于免提电话呼叫来说尤为重要，因为远程方可能没有意识到窃听者。

本发明涵盖了诸如电信设备等语音再现设备中的掩蔽噪声发生器的优化集成。考虑以下几个方面：

·向掩蔽噪声发生器提供必要的信息

·主要在给定的清晰语音区域中再现清晰语音信号。

·主要在给定的掩蔽语音区域中再现掩蔽噪声。

为了向掩蔽噪声发生器提供必要的信息，在其再现之前，在语音再现设备中直接观察接收到的语音信号。

根据本发明，使掩蔽声音适应于输入语音信号。为了实现这一点，在使用语音扬声器将语音信号转换成语音之前，语音信号由语音信号分析器模块直接分析。与此不同，现有技术的解决方案使用麦克风将语音转换成信号，然后对该信号进行分析。

本发明提供了对将掩蔽声音针对再现语音所进行的适应的改进。如此进行的原因之一在于，能够对掩蔽声音进行预主动适应，因为在时间方面，可以在最终产生语音之前对输入语音信号进行分析。与之不同，使用来自麦克风的信号来分析再现语音的现有技术解决方案仅能够对掩蔽语音进行后主动适应。因此，可以产生具有低响度和低明显度的掩蔽声音，以便在掩蔽语音区域中使语音呈现为不可理解。

关于“不引人注意”和“不明显”的术语的区别，可以注意以下几点：在现有技术的语音掩蔽系统中，术语“不明显”也可以被解释为“不引人注意”。即，收听者将习惯于均一的掩蔽器，并在一段时间后忽略它。在本案的情形中，掩蔽器是如此的明显以至于不能忽视，所以不是“不引人注意”的，但是在“愉悦而不分散注意力”的意义上，它仍然可以是“不明显”的。

可以实现掩蔽，使得对于预期收听者而言是不明显和愉悦的，并且也使得窃听者不会从分配给他的任务中分散注意力。因此，本发明的另一个优点是可以产生这种不明显的但有效的掩蔽声音。

在所提出的构思中产生可定位的掩蔽声音不是关键的，只要窃听者不从他的主要任务中分散注意力。掩蔽声音不必变得“不引人注意”，并且不需要永久地开启(即，如果不保持保密会话，则掩蔽声音可以被关闭)。窃听者清楚地意识到以下事实：，当进行电话呼叫或会话时(仅此时)，他将听到用于隐藏会话的掩蔽声音。

因此，只要预期收听者和窃听者两者接受掩蔽会话的手段的存在，这两者都会接受这种引人注意的掩蔽声音。

根据本发明的语音掩蔽不会受到噪声消除系统的上述限制的影响，因为它不依赖于声波的精确消除，其中可以通过播放非常大的掩蔽声音来实现掩蔽。相反，目的在于抑制依赖于语音信号的音调、频谱和瞬态结构的人类语音识别。通常，掩蔽声音还将展现音调、频谱或瞬态结构(或其组合)。可以产生掩蔽器，使得其在窃听者位置处与被掩蔽方重叠引起均衡信号，在该均衡信号中去除了可区分的语音特征。另一方面，也能够使用掩蔽器，使得重叠展现出可区分的语音特征，同时掩蔽声音特征使语音的特征模糊到足够程度。后一种方法在掩蔽信号的选择中允许一些自由度，并且更容易实现。在这两种情况下，低声级下的适当掩蔽声音是可能的。

本发明提供了一种通过使用不明显的掩蔽声音来使语音呈现为不可理解的构思，该掩蔽声音不会将窃听者从他必须执行的主要任务(例如，驾驶员必须集中于驾驶)上分散注意力。事实上，收听悦耳的掩蔽器声音，甚至可以比听会话更不分散注意力！这样，系统有助于提高交通安全性。

汽车环境是优选应用场景。在这种场景下，发明人对汽车内部的特定条件(例如，预期收听者、窃听者、扬声器的空间位置，再现空间的声学特性等)有良好的认识。这样，我们可以相应地适配不同的处理步骤。与通用掩蔽系统相比，这是一个优势。

以汽车环境为例，驾驶员(＝窃听者)不会从驾驶中分散注意力很重要。这样，可定位的声音级(例如，在驾驶员前面)完全不成问题。

然而，本发明不限于汽车环境。

根据本发明的优选实施例，语音扬声器信号发生器配置为产生多个语音扬声器信号，并且单独地控制所述多个语音扬声器信号中的每个语音扬声器信号的特性，以便控制语音的空间线索(spatial cue)。具体地，要控制的语音扬声器信号的特性可以包括每个语音扬声器信号的电平(level)和/或时间延迟。

根据本发明的优选实施例，掩蔽声音扬声器信号发生器配置为产生多个掩蔽声音扬声器信号，并且单独地控制所述多个掩蔽声音扬声器信号中的每个掩蔽声音扬声器信号的特性，以便控制掩蔽声音的空间线索。具体地，要控制的掩蔽声音扬声器信号的特性可以包括每个掩蔽声音扬声器信号的电平和/或时间延迟。

通过这些特征，可以使用空间音频再现技术来增加语音掩蔽系统在语音扬声器侧以及掩蔽声音扬声器侧的效果。

可以使用空间音频再现的手段来提高清晰语音区域中的语音级别，同时降低掩蔽语音区域中的语音级别。对于掩蔽声音反之亦然。具有这种效果的技术有

·波束成形

·多区域再现

·扬声器的适当放置(优选地靠近每个区域中的收听者)。

使用语音扬声器作为接近讲话者的掩蔽声音扬声器是现有技术是已知的，但不是良好的选择：在这种情况下，掩蔽声音在清晰语音区域具有最高强度，这是不期望的。因此，不同于语音扬声器的掩蔽声音扬声器可以位于掩蔽语音区域附近或掩蔽语音区域中，使得掩蔽声音主要在该位置被再现。

根据本发明的优选实施例，掩蔽声音发生器包括配置为提供原始掩蔽声音信号的多个掩蔽声源和多个原始掩蔽声音信号适配模块，其中将每个原始掩蔽声音信号适配模块分配给掩蔽声源之一，其中分配的掩蔽适配模块配置为基于所述分析信号来适配相应掩蔽声源的原始掩蔽声音信号，以产生所述一个或多个掩蔽声音信号中的一个掩蔽声音信号。

本发明的该方面涵盖掩蔽噪声发生器本身。在本实施例中，掩蔽噪声发生器与现有技术的不同之处在于使用多个信号源的混合来产生掩蔽声音，其中可以使用根据分析语音信号获得的参数实时地适配混合的掩蔽声音。

根据本发明的优选实施例，所述至少一个掩蔽声源包括配置为提供原始音乐掩蔽声音信号的音乐源，其中分配的掩蔽适配模块配置为基于所述分析信号来适配所述原始音乐掩蔽声音信号以产生所述一个或多个掩蔽声音信号中的一个掩蔽声音信号。

根据本发明的优选实施例，所述至少一个掩蔽声源包括配置为提供原始连续噪声掩蔽声音信号的连续噪声源，其中分配的掩蔽适配模块配置为基于所述分析信号来适配所述原始连续噪声掩蔽声音信号，以产生所述一个或多个掩蔽声音信号中的一个掩蔽声音信号。

根据本发明的优选实施例，所述至少一个掩蔽声源包括配置为提供原始动态噪声掩蔽声音信号的动态噪声源，其中分配的掩蔽适配模块配置为基于所述分析信号来适配所述原始动态噪声掩蔽声音信号，以产生所述一个或多个掩蔽声音信号中的一个掩蔽声音信号。

通过这种方式，可以产生掩蔽声音，使其掩蔽语音，并且同时被感知为不分散注意力，甚至可能被感知为是放松的。本发明构思相对于现有技术的优点在于，可以通过使用具有不同特性的多个不同掩蔽声音信号来产生掩蔽声音，这些掩蔽声音信号可以实时地自动适配于当前情况。由于多个掩蔽声音信号的不同特性，每一个掩蔽声音信号可以应用于实现一个特定的目标，可以是例如：海岸声音，用于实现基本掩蔽效果；滤波噪声，快速适配于语音信号以掩蔽语音的重要部分；音乐，用于确保掩蔽声并不恼人。掩蔽声音信号针对当前情况的单独适配允许对语音的变化立即作出反应(例如，噪声掩蔽声音信号的快速采用)，而掩蔽声音不被感知为不稳定(例如，音乐掩蔽声音信号采用有更慢的时间常数，并在受限范围内)。

由于通过相应的不同类型的噪声最有效地破坏了不同的语音特征，所以本发明的构思比现有技术更有效。当损失部分这种有效性时，能够产生较不明显的掩蔽声音。本发明考虑以下方面：

·确定合适的掩蔽信号的混合。

·获取或产生这种信号。

·获取信息或使用预测来确定用于混合的参数。

·适配掩蔽信号。

存在更有效的掩蔽信号也更明显的趋势。对于掩蔽信号属性的快速变化同样如此。在本发明中优选使用以下类型的声音：

·随机噪声是现有技术中公知的，并构成了本发明的一个源信号。如现有技术中已知的，可对该信号的频谱包络进行整形以优化其掩蔽能力。已知该信号在掩蔽中非常有效，同时也被感知为是明显的。

·自然噪音是在现实世界的地方可以感知到的声场的声音。这包括但不限于海岸、瀑布、街道、车辆引擎附近的地方、人群和餐馆。由于这些噪音是人类已知的，所以它们可能被感知为与随机噪声相比不明显。然而，由于这些噪声的属性通常不稳定，因此它们的掩蔽能力在时间上变化。

·音乐信号通常被感知为是愉悦的，而它们的掩蔽能力却相当低。此外，它们可以仅缓慢地改变(例如在级别上)，以保持他们愉悦的感知。最后，音乐信号也是非稳定的，这伴随有与自然噪声相同的问题。然而，结合一些噪音(自然或随机)，这是有效的。

上述信号类型可以通过原始掩蔽声音信号适配模块按照以下方式来获得：

·从给出信号的录音中读取，并预先知道信号的属性。后一事实可以用于稍后优化适配。

·由模块人工生成。在随机噪声信号的情况下，这通常是伪随机噪声。在自然噪声的情况下，可以定义噪声的属性。这克服了不可控制(非稳定)记录信号所施加的限制。这种“自然”噪声发生器可以利用外部数据源更好地适应给定的场景。例如，能够在车内场景下考虑引擎转速，以模拟完全适应的引擎噪音。

·由麦克风实时测量(例如，用于放大汽车噪音)。

·可以通过专门用于掩蔽语音的声音发生器实时地实现愉悦的掩蔽噪声(例如，类似于浪、类似于风)的产生。此外，它可以适配不同扬声器和会话风格的特性(通过频谱偏移和/或增益对其频谱进行整形)。

·同样适用于音乐，也可以通过适当的算法实时自动合成音乐。

·或者，可以使用预录的音乐和噪音(短循环可能足够了)。

可以根据要被掩蔽的语音单独地适配在掩蔽声中混合的所有信号。可以存在在开发期间定义的参数，表示各个单独掩蔽信号的有效性和明显性，然后将参数组合成用于优化的成本函数。一个重要的方面是预期的收听者不能由于掩蔽噪音而感到不适。在某种程度上，这已经通过将掩蔽声音动态地适配于语音来实现，因为清晰语音将主要在预期的收听者位置，而清晰语音和掩蔽声音的活性是强相关的。

适配掩蔽信号使得最可能地掩蔽接收的语音信号的手段包括：

·通过掩蔽器的以下属性可以抑制被掩蔽方的声调结构的识别：与被掩蔽方的声调结构不同的声调结构。该结构可以是随机的(例如，音乐噪音)或确定的(例如，音乐录音)。

·通过掩蔽声音的以下属性可以抑制频谱结构的识别：填充掩蔽声音和要掩蔽的声音的叠加中的谱间隙使得感知到单峰谱或平坦谱，以及具有明显的空间结构使得被掩蔽方的谱结构被模糊。

·通过掩蔽声音的以下属性可以抑制瞬态结构的识别：具有不同于被掩蔽方的瞬态结构；掩蔽器中的瞬变的出现频率可以适配于被掩蔽方，而出现的实际触发则与被掩蔽方无关；在掩蔽器中产生随机瞬态结构，以进一步混淆窃听者。

根据本发明的优选实施例，音频处理模块包括：自适应语音处理模块，配置为基于语音信号提供适配的语音信号，其中语音扬声器信号发生器配置为基于适配的语音信号产生所述一个或多个语音扬声器信号。

利用语音再现设备内的扩展访问，可以修改被掩蔽方(清晰语音信号)以便于其掩蔽。实现该点的措施包括：

·能够被充分掩蔽的频率的频带限制。

·延迟，使掩蔽噪声发生器有更多的时间相应地适配掩蔽噪声。此外，这样的延迟允许甚至在再现要被掩蔽的信号之前适配掩蔽噪声。这是一种可以利用心理声学中已知的前向掩蔽效应的方式。然而，这样的延迟必须足够短，使得它不被通信方感知。

·清晰语音信号中特别难以掩蔽的瞬变的操纵/衰减/抑制。必须小心使用此措施，以免不劣化预期收听者的可理解性。

·通过动态处理器(例如，压缩器)降低级别的变化。这也将减少优化掩蔽声音的变化，使得该声音变得更加愉悦。

根据本发明的优选实施例，音频处理模块配置为接收包含与语音扬声器集合的设置和/或掩蔽声音扬声器集合的设置有关的信息在内的设置信号。

通过这些特征，音频处理模块可以容易地适配于不同的扬声器配置。该设置信号可以由语音扬声器信号发生器、掩蔽声音扬声器信号发生器和/或由掩蔽声音发生器，特别是原始掩蔽声音信号适配模块使用。

掩蔽声音不仅仅可以使用根据分析语音信号获得的参数来实时适配。相反，可以使用如下所述的其他信息源。

用于适配掩蔽器的主要信息源是要被掩蔽的信号(被掩蔽方)。这可以伴随测量信号。由于因果关系，可以直接考虑在先和当前的信号属性。然而，从语音编码可以看出，在几十毫秒的时间间隔内，可以在一定程度上预测频谱包络。这样的预测可以用于将掩蔽声音适配于要被掩蔽的声音的预期属性。这也将允许更加缓慢/平滑地适配掩蔽声音，使其被感知为更愉悦。注意，这是对再现的清晰语音进行延迟的备选方案。

第二信息源可以是用户设定参数，使得能够调整掩蔽程度。如果仅期望轻度私密性，则可以将掩蔽声音选择为非常不明显。另一方面，如果语音内容是保密的，并且必须确保窃听者不能理解单个单词，则该处理可以与此相适配。在这种情况下，预期的收听者和窃听者都必须接受更具侵扰性的掩蔽器。

此外，可以允许窃听者具有对声音处理设备的有限访问，使得他可以根据自己的偏好定制掩蔽声音(例如，他可以在不同的掩蔽音乐之间进行选择)。重要的是，在应用的变化期间，不能存在语音是可理解的时间段。因此，必须预先选择所有使用的音乐，因为并不是每一首音乐/音乐风格都适合用于有效地掩蔽语音。

根据本发明的优选实施例，掩蔽声音发生器配置为接收包含与天气状况有关的信息在内的天气信号，并且基于天气信号产生所述一个或多个掩蔽声音信号。

天气传感器可以是雨传感器或风速传感器，可以用于考虑实际天气以用于掩蔽噪声产生(例如，使用类似雨的掩蔽声或类似风的掩蔽声)。

根据本发明的优选实施例，掩蔽声音发生器配置为接收包含与光照状况有关的信息在内的光照信号，并且基于光照信号产生所述一个或多个掩蔽声音信号。

根据本发明的优选实施例，掩蔽声音发生器配置为接收包含与日期和/或时间有关的信息在内的时间信号，并且基于时间信号产生所述一个或多个掩蔽声音信号。

可以使用光照信号，特别是从光传感器接收的光照信号，产生自然适应周围光照状况的掩蔽声音，特别地这取决于白天，因此不太恼人。这同样可以使用时间信号，特别是从数字时钟接收的时间信号来实现。

根据本发明的优选实施例，掩蔽声音发生器配置为接收包含与声音产生引擎的操作参数有关的信息在内的引擎信号，并且基于引擎信号产生所述一个或多个掩蔽声音信号。

特别是在车载场景中，从引擎收集的数据可以用作人工类似噪声产生的参数。该构思也可以在其他运输工具或固定引擎靠近设备的情况中使用。

根据本发明的优选实施例，语音再现设备包括：跟踪设备，配置为跟踪清晰语音区域中人的位置和/或方位，和/或跟踪掩蔽语音区域中人的位置和/或方位，其中所述跟踪设备配置为产生跟踪信号，所述跟踪信号包括清晰语音区域中人的位置和/或方位和/或掩蔽语音区域中人的位置和/或方位，其中，所述音频处理模块配置为接收跟踪信号并且基于跟踪信号产生所述一个或多个掩蔽声音扬声器信号。

跟踪系统可以实时提供与讲话者和窃听者的位置和方位有关的信息。例如，这种信息可以用于在彼此接近或当窃听者转过头以更好地倾听时增加掩蔽级别。

根据本发明的优选实施例，掩蔽声音扬声器信号发生器配置为产生掩蔽声音扬声器信号，使得在掩蔽语音区域中掩蔽声音具有与语音相同的空间线索。

根据本发明的优选实施例，语音再现设备包括分配给清晰语音区域和/或掩蔽语音区域的一个或多个麦克风，其中每个麦克风产生麦克风信号。

由语音信号分析模块聚集的信息可以由位于清晰语音区域中或接近清晰语音区域和/或位于掩蔽语音区域中或接近掩蔽语音区域的麦克风测量的信号来支持。在本发明的场景中：可以在掩蔽语音区域中添加麦克风，以便基于掩蔽语音区域中观察到的被掩蔽信号来改变掩蔽器。

根据本发明的优选实施例，麦克风信号中的至少两个麦克风信号被馈送到掩蔽声音扬声器信号发生器，并且其中，掩蔽声音扬声器信号发生器配置为基于所述至少两个麦克风信号确定掩蔽语音区域中的语音的空间线索。

至少两个麦克风可以位于掩蔽语音区域中或接近掩蔽语音区域，以便确定被掩蔽方的到达方向，并且基于该信息来控制掩蔽声音扬声器信号发生器，例如使得被掩蔽方和掩蔽器具有相似的空间线索。

通过这些特征，本发明可以可选地利用空间再现的方式来在掩蔽语音区域处再现掩蔽声音，该掩蔽声音呈现与到达掩蔽语音区域的不期望清晰语音信号类似的空间属性(特别是源的方向和主反射的方向)。这样可以防止窃听者利用其空间听觉，将掩蔽声音与要被掩蔽的语音相分离。

根据本发明的优选实施例，麦克风信号中的至少一个麦克风信号被馈送到掩蔽声音发生器，其中所述掩蔽声音发生器配置为基于所述至少一个麦克风信号产生所述一个或多个掩蔽声音信号。

在这样的实施例中，可以将麦克风添加到掩蔽语音区域中或接近掩蔽语音区域，以基于在掩蔽语音区域中观察到的语音来改变掩蔽器。

根据本发明的优选实施例，掩蔽声音发生器配置为基于以下来产生所述一个或多个掩蔽声音信号：从语音扬声器集合到清晰语音区域的一个或多个房间冲激响应和/或一个或多个传递函数，从掩蔽声音扬声器集合到清晰语音区域的一个或多个房间冲激响应和/或一个或多个传递函数，从语音扬声器集合到掩蔽语音区域的一个或多个房间冲激响应和/或一个或多个传输函数，和/或从掩蔽声音扬声器集合到掩蔽语音区域的一个或多个房间冲激响应和/或一个或多个传递函数。

可以使用附加麦克风来测量从针对清晰语音和掩蔽噪声的再现系统到清晰语音区域和掩蔽语音区域(全部四条路径)的房间冲激响应/声传递函数，以提高对两个区域中实际再现的声场的估计。这些估计可以在掩蔽声音的自适应处理中使用。

在另一方面，本发明提供了一种基于接收的语音信号再现语音的方法，使得再现的语音在清晰语音区域中是可理解的，而在掩蔽语音区域中是不可理解的，该方法包括以下步骤：

使用音频处理模块接收语音信号；

使用语音扬声器集合，基于一个或多个语音扬声器信号再现语音；

使用掩蔽声音扬声器集合，基于一个或多个掩蔽声音扬声器信号产生掩蔽声音，其中所述掩蔽声音在所述掩蔽语音区域中掩蔽语音；

使用所述音频处理模块的语音扬声器信号发生器，基于所述语音信号产生所述一个或多个语音扬声器信号；

使用所述音频处理模块的语音信号分析模块，基于所述语音信号的频谱和/或时间特性产生一个或多个分析信号；

使用所述音频处理模块的掩蔽声音发生器，基于所述一个或多个分析信号产生一个或多个掩蔽声音信号；和

使用音频处理模块的掩蔽声音扬声器信号发生器，基于所述一个或多个掩蔽声音信号产生所述一个或多个掩蔽声音扬声器信号。

当在处理器上运行时执行根据本发明的方法的计算机程序。

附图说明

随后将参照附图讨论本发明的优选实施例，在附图中：

图1以示意图示出了根据本发明的语音再现设备的第一实施例；

图2以示意图示出了根据本发明的语音再现设备的第二实施例的一部分；

3以示意图示出了根据本发明的语音再现设备的第三实施例的一部分；

图4以示意图示出了根据本发明的语音再现设备的第四实施例。

具体实施方式

虽然已经在装置的上下文中描述了一些方面，但是清楚的是，这些方面也表示对应方法的描述，其中方框或装置对应于方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中描述的方面也表示对应装置的对应方框或项目或特征的描述。

图1以示意图示出了根据本发明的语音再现设备1的第一实施例。语音再现设备1配置为基于接收到的语音信号SPS再现语音SP，使得再现的语音SP在清晰语音区域CSZ中是可理解的，而在掩蔽语音区域MSZ中是不可理解的。语音再现设备1包括：

音频处理模块2，配置为接收语音信号SPS；

语音扬声器4的集合3，配置为基于一个或多个语音扬声器信号S再现语音SP；和

掩蔽声音扬声器6的集合5，配置为基于一个或多个掩蔽声音扬声器信号M.1、M.2、...、M.m产生掩蔽声音MN，其中掩蔽声音MN在掩蔽语音区域MSZ中掩蔽语音SP；

其中音频处理模块2包括：语音扬声器信号发生器7，配置为基于语音信号SPS产生一个或多个语音扬声器信号S.1、...、S.n；

其中音频处理模块2包括：语音信号分析模块8，配置为基于语音信号SPS的频谱和/或时间特性来产生一个或多个分析信号AS；

其中音频处理模块2包括：掩蔽声音发生器9，配置为基于一个或多个分析信号AS产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4：以及

其中音频处理模块2包括：掩蔽声音扬声器信号发生器10，配置为基于一个或多个掩蔽声音信号MS产生一个或多个掩蔽声音扬声器信号M.1、M.2、...、M.m。

根据本发明的优选实施例，语音扬声器信号发生器7配置为产生多个语音扬声器信号S.1、...、Sn，并且单独控制多个语音扬声器信号S.1、...、Sn中的每个语音扬声器信号S.1、...、Sn的特性，以便控制语音SP的空间线索。具体地，要控制的语音扬声器信号S.1、...、S.n的特性可以包括每个语音扬声器信号S.1、...、S.n的电平和/或时间延迟。

根据本发明的优选实施例，掩蔽声音扬声器信号发生器10配置为产生多个掩蔽声音扬声器信号M.1、M.2、...、Mm，并且控制单独多个掩蔽声音扬声器信号M.1、M.2、...、Mm中的每个掩蔽声音扬声器信号M.1、M.2、...、Mm，以便控制掩蔽声音MN的空间线索。具体地，要控制的掩蔽声音扬声器信号M.1、M.2、...、Mm的特性可以包括每个掩蔽声音扬声器信号M.1、M.2、...、Mm的电平和/或时间延迟。

在另一方面，本发明提供了一种用于基于接收到的语音信号SPS产生语音SP的方法，使得产生的语音SP在清晰语音区域CSZ中是可理解的，而在掩蔽语音区域MSZ中是不可理解的，该方法包括以下步骤：

使用音频处理模块2接收语音信号SPS；

使用语音扬声器4.1、...、4.n的集合3，基于一个或多个语音扬声器信号S.1、...、S.n生成语音SP；

使用掩蔽声音扬声器6.1、6.2、...、6.m的集合5，基于一个或多个掩蔽声音扬声器信号产生掩蔽声音MN，其中掩蔽声音MN在掩蔽语音区域MSZ中掩蔽语音SP；

使用音频处理模块2的语音扬声器信号发生器7，基于语音信号SPS产生一个或多个语音扬声器信号S.1、...、S.n；

使用音频处理模块2的语音信号分析模块8，基于语音信号SPS的频谱和/或时间特性产生一个或多个分析信号AS；

使用音频处理模块2的掩蔽声音发生器9，基于一个或多个分析信号AS产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4；以及

使用音频处理模块2的掩蔽声音扬声器信号发生器10，基于一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4产生一个或多个掩蔽声音扬声器信号M.1、M.2、...、Mm。

在另一方面，本发明提供了一种用于当在处理器上运行时执行根据本发明的方法的计算机程序。

图2以示意图示出了根据本发明的语音再现设备的第二实施例的一部分。

根据本发明的优选实施例，掩蔽声音发生器9包括：多个掩蔽声源11.1、11.2、11.3、11.4，配置为提供原始掩蔽声音信号RMS.1、RMS.2、RMS.3、RMS.4；以及多个原始掩蔽声音信号适配模块12.1、12.2、12.3、12.4，其中每个原始掩蔽声音信号适配模块12.1、12.2、12.3、12.4被分配给掩蔽声源11.1、11.2、11.3、11.4中的一个，其中所分配的掩蔽适配模块12.1、12.2、12.3、12.4配置为，基于分析信号AS，适配相应掩蔽声源11.1、11.2、11.3、11.4的原始掩蔽声音信号RMS.1、RMS.2、RMS.3、RMS.4，以便产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4之一。

根据本发明的优选实施例，至少一个掩蔽声源11.1、11.2、11.3、11.4包括配置为提供原始音乐掩蔽声音信号RMS.1的音乐源11.1，其中分配的掩蔽适配模块12.1配置为基于分析信号AS适配原始音乐掩蔽声音信号RMS.1，以便产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4中的一个掩蔽声音信号MS.1。

根据本发明的优选实施例，至少一个掩蔽声源11.1、11.2、11.3、11.4包括配置为提供原始连续噪声掩蔽声音信号RMS.2的连续噪声源11.2，其中分配的掩蔽适配模块12.2配置为基于分析信号AS适配原始连续噪声掩蔽声音信号RMS.2，以便产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4的一个掩蔽声音信号MS.2。

根据本发明的优选实施例，至少一个掩蔽声源11.1、11.2、11.3、11.4包括配置为提供原始动态噪声掩蔽声音信号RMS.3的动态噪声源11.3，其中分配的掩蔽适配模块12.3配置为基于分析信号AS适配原始动态噪声掩蔽声音信号RMS.3，以便产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4的一个掩蔽声音信号MS.3。

根据本发明的优选实施例，音频处理模块2包括：自适应语音处理模块13，配置为基于语音信号SPS提供适配的语音信号ASPS，其中语音扬声器信号发生器7配置为基于适配的语音信号ASPS产生一个或多个语音扬声器信号S.1、...、Sn。

根据本发明的优选实施例，音频处理模块2配置为接收包含与语音扬声器4.1、...、4.n的集合3的设置和/或掩蔽声音扬声器6.1、6.2、...、6.m的集合5的设置有关的信息在内的设置信号SI。

根据图2，作为示例，要再现的语音信号SPS经由电信链路接收，并且经由在清晰语音区域CSZ中或接近清晰语音区域CSZ的扬声器4.1、...、4.n以一定级别播放，使得可以容易地理解。同时，在掩蔽语音区域MSZ中产生掩蔽声音MN，使得再现的语音对于掩蔽语音区域MSZ内的人不可理解。

处理级2包括用于分析输入语音信号SPS的语音信号分析模块8。分析结果AS被馈送到针对以下三种不同掩蔽分量的各个自适应处理块12.1、12.2、12.3：音乐、连续噪声和动态噪声。可以从存储设备11.1和11.2播放音乐和连续噪声原始掩蔽声音(例如，海岸的录音)，而同时由合成器11.3实时地生成动态噪声。根据本语音部分8的分析结果，将音乐和噪声信号11.1、11.2、11.3的特性适配为提供良好的掩蔽器MN。各个处理块12.1、12.2、12.3可以输出单声道信号，或者允许特定多声道效果的多声道信号。经处理的音乐和噪声信号MS.1、MS.2、MS.3随后由掩蔽声音扬声器信号发生器10混合以产生足以馈送到可用的扬声器6.1、6.2、...、6.m的扬声器信号M.1、M.2、...、Mn。自适应处理、混合和呈现已知的设置信息允许尽可能地利用给定特性(例如，空间位置、频率特性、换能器特性等)来实现掩蔽效果。

该分析计算语音SP的感知响度(也可以是纯粹基于能量的)的估计。连续地适配音乐信号MS.1以及噪声信号MS.2和MS.3，使得它们的响度相对于语音SP(被掩蔽方)的响度变化。该处理可以对所有三个分量使用不同的适配常数。虽然动态噪声快速适配以掩蔽语音SP的快速变化，但是连续噪声和音乐信号MS.1和MS.2以随时间的缓慢变化进行适配，以保持整体声音的印象令人愉悦。对于音乐和动态噪声，设置最小级别，使得在语音暂停期间音乐和动态噪声不会消减为零(并且掩蔽声音的响度变为零)。这进一步增加了愉悦的感知。

图3以示意图示出了根据本发明的语音再现设备的第三实施例的一部分。

前面描述的实施例的第一修改在于，由自适应语音处理模块13进行语音信号SPS的附加自适应处理，其中适配的语音信号ASPS用于产生针对清晰语音区域CSZ的语音SP。此外，在本实施例中，仅使用两个不同的掩蔽分量MS.1、MS.4(即，音乐和噪声)。

根据本发明的优选实施例，掩蔽声音发生器9配置为接收包含与天气状况有关的信息在内的天气信号WSI并且基于天气信号WSI产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4。

根据本发明的优选实施例，掩蔽声发生器9配置为接收包含与光照状况有关的信息在内的光照信号LSI，并基于光照信号LSI产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4。

根据本发明的优选实施例，掩蔽声音发生器9配置为接收包含与日期和/或时间有关的信息在内的时间信号TSI，并且基于时间信号TSI产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4。

根据本发明的优选实施例，掩蔽声音发生器9配置为接收包含与声音产生引擎EG的操作参数有关的信息在内的引擎信号ESI，并且基于引擎信号ESI产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4。

根据本发明的优选实施例，语音再现设备1包括：跟踪设备14，配置为跟踪清晰语音区域CSZ中人的位置和/或方位，和/或跟踪掩蔽语音区域MSZ中人的位置和/或方位，其中跟踪装置14配置为产生跟踪信号TRS，跟踪信号TRS包括清晰语音区域CSZ中人的位置和/或方位和/或掩蔽语音区域MSZ中人的位置和/或方位，其中音频处理模块2配置为接收跟踪信号TRS，并且基于跟踪信号TRS产生一个或多个掩蔽声音扬声器信号M.1、M.2、...、Mm。

根据本发明的优选实施例，掩蔽声音扬声器信号发生器10配置为产生掩蔽声音扬声器信号MSI.1、MSI.2，使得在掩蔽语音区域MSZ中掩蔽声音MN具有与语音SP相同的空间线索。

根据本发明的优选实施例，语音再现设备1包括分配给掩蔽语音区域MSZ的一个或多个麦克风15.1、15.2，其中每个麦克风15.1、15.2产生麦克风信号MSI.1、MSI.2。

根据本发明的优选实施例，麦克风信号MSI.1、MSI.2中的至少两个麦克风信号MSI.1、MSI.2被馈送到掩蔽声音扬声器信号发生器10，并且其中掩蔽声音扬声器信号发生器10配置为基于该至少两个麦克风信号MSI.1、MSI.2来确定掩蔽语音区域MSZ中的语音SP的空间线索。

根据本发明的优选实施例，麦克风信号MSI.1、MSI.2中的至少一个麦克风信号MSI.2被馈送到掩蔽声音发生器9，其中掩蔽声音发生器9配置为基于该至少一个麦克风信号MSI.1、MSI.2产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4。

根据本发明的优选实施例，掩蔽声音发生器9配置为基于以下产生一个或多个掩蔽声音信号MS.1、MS.2、MS.3、MS.4：从语音扬声器4.1、...、4.n的集合3到清晰语音区域CSZ的一个或多个房间冲激响应和/或一个或多个传递函数，从掩蔽声音扬声器6.1、6.2、...、6.m的集合5到清晰语音区域CSZ的一个或多个房间冲激响应和/或一个或多个传递函数，从语音扬声器4.1、...、4.n的集合4到掩蔽语音区域MSZ的一个或多个房间冲激响应和/或一个或多个传递函数，和/或从掩蔽声音扬声器6.1、6.2、...、6.m的集合5到掩蔽语音区域MSZ的一个或多个房间冲激响应和/或一个或多个传递函数。

根据某些实现要求，本发明的实施例可以以硬件或软件来实现。实现方式可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行，与可编程计算机系统协作(或能够协作)，使得执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，能够与可编程计算机系统协作，使得执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码可用于执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体或非暂时性存储介质上的用于执行本文描述的方法之一的计算机程序。

换句话说，因此，本发明方法的一个实施例是具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文描述的方法之一。

因此，本发明方法的另一实施例是包括在其上记录的用于执行本文描述的方法之一的计算机程序的数据载体(或数字存储介质或计算机可读介质)。

因此，本发明方法的另一实施例是表示用于执行本文描述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以配置为例如经由数据通信连接，例如经由因特网传送。

另一实施例包括配置或适于执行本文描述的方法之一的处理装置，例如计算机或可编程逻辑器件。

另一实施例包括其上安装有用于执行本文描述的方法之一的计算机程序的计算机。

在一些实施例中，可以使用可编程逻辑器件(例如现场可编程门阵列)来执行本文描述的方法的一些或全部功能。在一些实施例中，现场可编程门阵列可以与微处理器协作以便执行本文描述的方法之一。通常，这些方法有利地由任何硬件装置执行。

虽然已经根据若干实施例描述了本发明，但是存在落在本发明范围内的改变、置换和等同物。还应当注意，存在实现本发明的方法和构成的许多替代方式。因此，所附权利要求旨在解释为包括落在本发明的真实精神和范围内的所有这样的改变、置换和等同物。

附图标记：

1 语音再现设备

2 音频处理模块

3 语音扬声器集合

4 语音扬声器

5 掩蔽声音扬声器集合

6 掩蔽声音扬声器

7 语音扬声器信号发生器

8 语音信号分析模块

9 掩蔽声音发生器

10 掩蔽声音扬声器信号发生器

11 掩蔽声源

12 原始掩蔽声音信号适配模块

13 自适应语音处理模块

14 跟踪设备

15 麦克风

SP 语音

SPS 语音信号

CSZ 清晰语音区域

MSZ 掩蔽语音区域

S 语音扬声器信号

MN 掩蔽声音

M 掩蔽声音扬声器信号

AS 分析信号

MS 掩蔽声音信号

RMS 原始掩蔽声音信号

SI 设置信息信号

ASPS 经适配的语音信号

WSI 天气信号

WS 天气传感器

LSI 光照信号

LS 光照传感器

TSI 时间信号

TS 时间信号发生器

TRS 跟踪信号

MSI 麦克风信号

ESI 引擎信号

EG 引擎

参考文献：

[1]Chatterblocker软件：www.chatterblocker.com。

[2]Babak Arvanaghi和Joel Fechter：Method and apparatus for maskingspeech in a private environment(用于在私人环境中掩蔽语音的方法和装置)。美国专利申请号：US 2013/0185061，2013年。

[3]Robert Bailey、Lawrence Heyl和Stephan Schell：Systems and methodsfor altering speech during cellular phone use(在手机使用过程中改变语音的系统和方法)。美国专利申请号：US 2009/0171670，2009年。

[4]Stephen J.Elliott和Philip A.Nelson：Active noise control(主动噪声控制)。在：Signal Processing Magazine，IEEE，10(4)：12-35，1993年。

[5]Andre L.Esperance和Alex Boudreau：Auto-adjusting sound maskingsystem and method(自动调节声掩蔽系统及方法)。美国专利号：US 7,460,675，2008年。

[6]Rafik Goubran和Radamis Botros：Adaptive sound masking system andmethod(自适应声音掩蔽系统及方法)。美国专利申请号：US 2003/0103632，2003年。

[7]Nakamura Ikuya和Ogiwara Takashi：Speech privacy protective device(语音私密性保护设备)。日本专利申请号：JP 3377220和JP 5011780，1991年。

[8]Mai Koike、Yasushi Shimizu、Masato Hata利Takashi Yamakawa：Maskersound generation apparatus and program(掩蔽器声音发生装置和程序)。美国专利申请号：US 2011/0182438 A1，2011年。

[9]Kenneth P.Roy、Thomas J.Johnson、Ronald Fuller和Steve Dove：Architectural sound enhancement with pre-filtered masking sound (具有预过滤掩蔽声音的建筑声音增强)。美国专利号：US 7,548 854，2009年。

[10]Jeffrey Specht、Daniel Mapes-Riordan和William DeKruif：Method andapparatus of overlapping and summing speech for an output that disruptsspeech(将语音重叠和求和用于扰乱语音的输出的方法和装置)。美国专利号：US 7,376.557，2008年。

[11]Richard O.Thomalla：Automatic volume and frequency controlledsound masking system(自动音量和频率控制的声音掩蔽系统)。美国专利号：US 4,438,526，1984年。

[12]Bill G.Watters、Michael Nacey和Thomas R.Horrall：Process andapparatus for speech privacy improvement through incoherent masking noisesound generation in open-plan office spaces and the like(在开放式办公空间等中通过不相干掩蔽噪声声音产生的语音私密性改进的处理和装置)。美国专利号：US 4,059,726，1977年。

Claims

1.一种基于接收的语音信号(SPS)再现语音(SP)的语音再现设备，使得再现的语音(SP)在清晰语音区域(CSZ)中是可理解的，而在掩蔽语音区域(MSZ)中是不可理解的，所述语音再现设备(1)包括：

音频处理模块(2)，配置为接收所述语音信号(SPS)；

语音扬声器(4)的集合(3)，配置为基于一个或多个语音扬声器信号(S)再现语音(SP)；和

掩蔽声音扬声器(6)的集合(5)，配置为基于一个或多个掩蔽声音扬声器信号(M.1、M.2、...、M.m)，产生掩蔽声音(MN)，其中所述掩蔽声音(MN)在掩蔽语音区域(MSZ)中掩蔽语音(SP)；

其中所述音频处理模块(2)包括配置为基于所述语音信号(SPS)产生所述一个或多个语音扬声器信号(S.1、...、S.n)的语音扬声器信号发生器(7)；

其中所述音频处理模块(2)包括配置为基于所述语音信号(SPS)的频谱和/或时间特性产生一个或多个分析信号(AS)的语音信号分析模块(8)；

其中所述音频处理模块(2)包括配置为基于所述一个或多个分析信号产生一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)的掩蔽声音发生器(9)；

其中所述音频处理模块(2)包括配置为基于所述一个或多个掩蔽声音信号(MS)产生所述一个或多个掩蔽声音扬声器信号(M.1、M.2、..、M.m)的掩蔽声音扬声器信号发生器(10)；以及

其中，所述掩蔽声音发生器(9)配置为基于以下产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)：

从语音扬声器(4.1、...、4.n)的集合(3)到清晰语音区域(CSZ)的一个或多个房间冲激响应和/或一个或多个传递函数，以及

从掩蔽声音扬声器(6.1、6.2、...、6.m)的集合(5)到清晰语音区域(CSZ)的一个或多个房间冲激响应和/或一个或多个传递函数，以及

从语音扬声器(4.1、...、4.n)的集合(3)到掩蔽语音区域(MSZ)的一个或多个房间冲激响应和/或一个或多个传递函数，以及

从掩蔽声音扬声器(6.1、6.2、...、6.m)的集合(5)到掩蔽语音区域(MSZ)的一个或多个房间冲激响应和/或一个或多个传递函数。

2.根据权利要求1所述的语音再现设备，其中，所述语音扬声器信号发生器(7)配置为产生多个语音扬声器信号(S.1、...、S.n)，并且单独地控制所述多个语音扬声器信号(S.1、...、S.n)中的每个语音扬声器信号(S.1、...、S.n)的特性，以便控制语音(SP)的空间线索。

3.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音扬声器信号发生器(10)配置为产生多个掩蔽声音扬声器信号(M.1、M.2、...、M.m)并且单独地控制所述多个掩蔽声音扬声器信号(M.1、M.2、...、M.m)中的每个掩蔽声音扬声器信号(M.1、M.2、...、M.m)的特性，以便控制掩蔽声音(MN)的空间线索。

4.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音发生器(9)包括：多个掩蔽声源(11.1、11.2、11.3、11.4)，配置为提供原始掩蔽声音信号(RMS.1、RMS.2、RMS.3、RMS.4)；和多个原始掩蔽声音信号适配模块(12.1、12.2、12.3、12.4)，其中每个原始掩蔽声音信号适配模块(12.1、12.2、12.3、12.4)被分配给掩蔽声源(11.1、11.2、11.3、11.4)之一，其中分配的掩蔽适配模块(12.1、12.2、12.3、12.4)配置为基于所述分析信号(AS)来适配相应掩蔽声源(11.1、11.2、11.3、11.4)的原始掩蔽声音信号(RMS.1、RMS.2、RMS.3、RMS.4)，以便产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)之一。

5.根据权利要求4所述的语音再现设备，其中，所述多个掩蔽声源(11.1、11.2、11.3、11.4)包括配置为提供原始音乐掩蔽声音信号(RMS.1)的音乐源(11.1)，其中，分配的掩蔽适配模块(12.1)配置为基于所述分析信号(AS)来适配原始音乐掩蔽声音信号(RMS.1)，以便产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)中的一个掩蔽声音信号(MS.1)。

6.根据权利要求4所述的语音再现设备，其中，所述多个掩蔽声源(11.1、11.2、11.3、11.4)包括配置为提供原始连续噪声掩蔽声音信号(RMS.2)的连续噪声源(11.2)，其中，分配的掩蔽适配模块(12.2)配置为基于所述分析信号(AS)来适配原始连续噪声掩蔽声音信号(RMS.2)，以便产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)中的一个掩蔽声音信号(MS.2)。

7.根据权利要求4所述的语音再现设备，其中，所述多个掩蔽声源(11.1、11.2、11.3、11.4)包括配置为提供原始动态噪声掩蔽声音信号(RMS.3)的动态噪声源(11.3)，其中，分配的掩蔽适配模块(12.3)配置为基于所述分析信号(AS)来适配原始动态噪声掩蔽声音信号(RMS.3)，以便产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)中的一个掩蔽声音信号(MS.3)。

8.根据权利要求1所述的语音再现设备，其中，所述音频处理模块(2)包括配置为基于所述语音信号(SPS)提供适配的语音信号(ASPS)的自适应语音处理模块(13)，其中所述语音扬声器信号发生器(7)配置为基于适配的语音信号(ASPS)产生所述一个或多个语音扬声器信号(S.1、...、S.n)。

9.根据权利要求1所述的语音再现设备，其中，所述音频处理模块(2)配置为接收包含与所述语音扬声器(4.1、...、4.n)的集合(3)的设置和/或掩蔽声音扬声器(6.1、6.2、...、6.m)的集合(5)的设置有关的信息的设置信号(SI)。

10.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音发生器(9)配置为接收包含与天气状况有关的信息的天气信号(WSI)，并且基于所述天气信号(WSI)产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)。

11.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音发生器(9)配置为接收包含与光照状况有关的信息的光照信号(LSI)，并且基于所述光照信号(LSI)产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)。

12.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音发生器(9)配置为接收包含与日期和/或时间有关的信息的时间信号(TSI)，并且基于所述时间信号(TSI)产生所述一个或多个掩蔽声音信号(MS1、MS.2、MS.3、MS.4)。

13.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音发生器(9)配置为接收包含与声音产生引擎(EG)的操作参数有关的信息的引擎信号(ESI)，并且基于所述引擎信号(ESI)产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)。

14.根据权利要求1所述的语音再现设备，其中，所述语音再现设备(1)包括：跟踪设备(14)，配置为跟踪清晰语音区域(CSZ)中人的位置和/或方位，和/或跟踪掩蔽语音区域(MSZ)中人的位置和/或方位，其中所述跟踪设备(14)配置为产生跟踪信号(TRS)，所述跟踪信号(TRS)包括清晰语音区域(CSZ)中人的位置和/或方位和/或掩蔽语音区域(MSZ)中人的位置和/或方位，其中所述音频处理模块(2)配置为接收跟踪信号(TRS)并且基于跟踪信号(TRS)产生所述一个或多个掩蔽声音扬声器信号(M.1、M.2、...、M.m)。

15.根据权利要求1所述的语音再现设备，其中，所述掩蔽声音扬声器信号发生器(10)配置为产生所述掩蔽声音扬声器信号（M.1、M.2、...、M.m)，使得在掩蔽语音区域(MSZ)中掩蔽声音(MN)具有与语音(SP)相同的空间线索。

16.根据权利要求1所述的语音再现设备，其中，所述语音再现设备(1)包括分配给掩蔽语音区域(MSZ)的一个或多个麦克风(15.1、15.2)，其中每个麦克风(15.1、15.2)产生麦克风信号(MSI.1、MSI.2)。

17.根据权利要求16所述的语音再现设备，其中，所述麦克风信号(MSI.1、MSI.2)中的至少两个麦克风信号(MSI.1、MSI.2)被馈送到所述掩蔽声音扬声器信号发生器(10)，并且其中所述掩蔽声音扬声器信号发生器( 10)配置为基于所述至少两个麦克风信号(MSI.1、MSI.2)来确定掩蔽语音区域(MSZ)中语音(SP)的空间线索。

18.根据权利要求16所述的语音再现设备，其中，所述麦克风信号(MSI.1、MSI.2)中的至少一个麦克风信号(MSI.2)被馈送到所述掩蔽声音发生器(9)，其中所述掩蔽声音发生器(9)配置为基于所述至少一个麦克风信号(MSI.1、MSI.2)产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)。

19.一种基于接收到的语音信号(SPS)再现语音(SP)的方法，使得再现的语音(SP)在清晰语音区域(CSZ)中是可理解的，而在掩蔽语音区域(MSZ)中是不可理解的，该方法包括以下步骤：

使用音频处理模块(2)接收语音信号(SPS)；

使用语音扬声器(4.1、...、4.n)的集合(3)，基于一个或多个语音扬声器信号(S.1、...、S.n)再现语音(SP)；

使用掩蔽声音扬声器(6.1、6.2、...、6.m)的集合(5)，基于一个或多个掩蔽声音扬声器信号产生掩蔽声音(MN)，其中所述掩蔽声音(MN)在掩蔽语音区域(MSZ)中掩蔽语音(SP)；

使用所述音频处理模块(2)的语音扬声器信号发生器(7)，基于所述语音信号(SPS)产生所述一个或多个语音扬声器信号(S.1、...、S.n)；

使用所述音频处理模块(2)的语音信号分析模块(8)，基于所述语音信号(SPS)的频谱和/或时间特性产生一个或多个分析信号(AS)；

使用所述音频处理模块(2)的掩蔽声音发生器(9)，基于所述一个或多个分析信号(AS)，产生一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)；和

使用所述音频处理模块(2)的掩蔽声音扬声器信号发生器(10)，基于所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)产生所述一个或多个掩蔽声音扬声器信号(M.1、M.2、...、M.m)，

其中，所述掩蔽声音发生器(9)基于以下产生所述一个或多个掩蔽声音信号(MS.1、MS.2、MS.3、MS.4)：

20.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序用于在处理器上运行时执行根据权利要求19所述的方法。