CN118140266A

CN118140266A - 语音的音频掩蔽

Info

Publication number: CN118140266A
Application number: CN202280070252.4A
Authority: CN
Inventors: 托马斯·斯托坦; 托马斯·哈泰尔; 阿洛伊斯.松塔奇
Original assignee: Audio Mobile Electronic Equipment Co ltd
Current assignee: Audio Mobile Electronic Equipment Co ltd
Priority date: 2021-10-18
Filing date: 2022-10-18
Publication date: 2024-06-04

Abstract

本申请涉及一种在基于区域的音频系统中掩蔽语音信号的方法，包括：检测音频区域中待掩蔽的语音信号；将检测到的语音信号转换成频谱带；交换至少两个频谱带的频谱值；基于交换后的频谱值产生噪声信号；和输出所述噪音信号作为另一个音频区域的所述语音信号的掩蔽信号。

Description

语音的音频掩蔽

本公开涉及基于区域的音频系统中语音掩蔽信号的产生。

现有技术通信手段及其不断增加的覆盖范围使得几乎无处不在的通信成为可能，例如以电话的形式。在公共场合，其他人经常会无意中听到这样的电话，而了解其中的内容。当涉及到机密的私人或商业电话时，这是一个特别的问题。这种情况可能发生在公共交通工具上，如火车或飞机，也可能发生在私人交通工具上，如出租车或租赁的豪华轿车。例如，在这些情况下，除了发言者之外，还有其他人坐在指定的座位上。此类座椅通常具有相关的音频系统或至少其组件。例如，可以在这些座位上提供用于个人播放音频内容的扬声器，例如集成到头枕中，这也被称为基于区域的音频系统。

除了电话交谈之外，不受欢迎的偷听问题也会发生在人与人之间的谈话中。例如，出租车后座的两位乘客可能正在谈论一个机密话题，而不希望司机听到这个话题。

在现有技术中，我们知道可以通过播放大声的噪音来减少不必要的偷听。然而，这会增加所有相关方的噪音水平，并被视为一种令人不快的损害，这也会影响注意力和反应能力，这在道路交通中尤其不可取。

本文件的技术目标是在基于区域的音频系统中产生掩蔽信号，以减少不必要的对话偷听，同时不表示令人不快的损害。

这个目的将由独立权利要求的特征来解决。从属权利要求中描述了有利的实施例。

根据第一个方面，公开了一种在基于区域的音频系统中掩蔽语音信号的方法。该方法包括检测在音频区域中待掩蔽的语音信号，例如通过一个或多个适当放置的麦克风，该麦克风例如可以设置在座椅的头枕中。语音信号可以来自电话谈话的本地说话人，也可以属于在场的人之间的谈话。然后将检测到的语音信号转换成频谱带，例如其可以使用FFT和Mel滤波器来执行。该方法还涉及交换至少两个频谱带的频谱值，从而改变语音信号的频谱结构而不改变其总体能量含量。然后根据交换后的频谱值生成噪声信号(尽可能宽带)。虽然生成的噪声信号与语音信号的频谱表现出一定的相似性，但并不完全匹配，因为由于频带的交换，语音信号的频谱结构不再完全保留。这种与语音信号具有相似但不相同频谱的噪声信号非常适合作为语音信号的掩蔽信号。还应该注意的是，任意数量的频带(例如，所有频带)都可以交换，由于频带的交换增加，噪声频谱的变化更大。最后，噪声信号作为掩蔽信号输出，以尽可能低的能量输入到另一个音频区域，从而使在场的人更难通过降低该人的语音可理解性来偷听对话。

基于交换频谱值产生噪声信号可涉及产生宽带噪声信号，例如使用噪声发生器，并将所产生的噪声信号转换到频域。此外，噪声信号的频率表示与语音信号的频率表示的乘法可以在考虑交换后的频谱值时进行。频域中的乘法产生的噪声频谱与频谱带交换后的语音信号的噪声频谱基本对应，即与语音频谱相似但不相同。时域卷积也可以达到类似的效果。

语音信号的频率表示可以在频谱值交换后，通过插值所述频带(例如，存在于Mel范围内)的频谱值来生成。从频带的(相对较少的)频谱值进行插值，生成与噪声频谱相乘的频率支持值所需的值。

该方法还可以包括估计背景噪声频谱(最好在收听位置)并将语音信号的频谱值与背景噪声谱进行比较。频谱值的比较最好(但不一定)在频谱带的范围内(例如Mel频带)进行，这意味着背景噪声频谱也必须在频谱带中显示。此外，只有大于(或成预定比例)背景噪声频谱的相应频谱值的语音信号的频谱值才能考虑用于进一步的过程(例如上述插值)。已经被背景噪声掩蔽的语音信号的频谱成分不需要考虑掩蔽信号的产生，并且可以被掩蔽掉(例如通过将它们设置为零)。考虑到背景噪声的影响，可以在谱值交换前后同时进行。在前一种情况下，所比较的频谱带仍然是精确匹配的，并正确地提取了背景噪声。在后一种情况下，语音信号中频谱带的交换和低能量频谱带的掩蔽会给噪声频谱带来额外的变化，从而导致掩蔽的增加。这使掩蔽信号能够适应背景或环境，并且可以在偷听者的音频区域以尽可能低的能量输入输出。

可以使用Mel滤波器频带对语音信号的块进行捕获的语音信号到频谱带的转换。可选地，也可以对Mel频带的光谱值进行时间平滑，例如以浮动平均值的形式。

在本发明的另一个实施例中，噪声信号可以在输出中使用多通道(即至少2通道)再现空间地表示。为此，可以生成掩蔽信号的多通道表示，从而实现掩蔽信号的空间再现。对于双通道系统，这可以通过与声学传递函数的双耳频谱相乘来实现。空间再现增加了掩蔽信号在听入位置混淆语音的效果，特别是如果另一个音频区域的噪声信号在空间中输出，使得它看起来来自被掩蔽语音信号的说话者的方向。

除了上述基于与语音信号相适应的宽带噪声信号的掩蔽信号外，还可以为所述掩蔽信号生成另一分量，所述掩蔽信号共同输出给第二音频区域的偷听人。为此目的，该方法可包括确定语音信号中与语音可理解性相关的时间点(例如，语音信号中存在辅音)，并为该特定时间点生成合适的干扰信号。然后，在特定时间的干扰信号的输出可以作为另一音频区域中的另一掩蔽信号出现，从而在语音发出时对会话内容提供选择性的额外隐藏(掩蔽)。由于干扰信号仅在某些相关时间点发出，因此不会显著增加整体声级，也不会导致任何重大损害。

与语音可理解性相关的时间点可以使用语音信号的频谱函数的极值(例如局部最大值、起始值)来确定，其中频谱函数是基于跨频率轴的频谱值的加法来确定的。频谱值可以事先在时间和/或频率方向上进行平滑处理。在将频谱值沿频率轴相加后，可以选择对求和值进行对数化。为了生成检测相关时间点的局部最大值，可以对(可选的对数化)求和值进行微分。

此外，与语音可理解度相关的时间点可以使用语音信号的参数进行验证，例如过零率、短时能量和/或频谱质心。也可以对极值进行限制，这样它们就需要预定义的最小时间跨度。

然后，可以从一组预先确定的干扰信号中随机选择特定时间的干扰信号。这些可以保存在存储器中以备选择。如果干扰信号在频谱特性和/或其能量方面适应于语音信号，则已证明是有利的。这样，就可以使干扰信号的频谱质心适应于特定时间对应语音段的频谱质心，例如通过单边带调制。因此，可以使用具有同样高的频谱质心(甚至可能相同的频谱质心)的干扰信号来掩蔽具有高频谱质心的语音片段，从而导致更高的掩蔽有效性。干扰信号的能量也可以与语音片段的能量相适应，从而不产生过于大声和过分干扰的掩蔽信号。

在本发明的另一个实施例中，干扰信号可以在输出端使用多通道空间再现来表示，优选地通过声学传递函数的双耳频谱相乘，从而生成干扰信号的多通道(至少2通道)表示，从而使干扰信号的空间再现成为可能。空间再现增加了干扰信号对共同聆听位置的语音混淆的影响，特别是如果另一个音频区域的干扰信号在空间上以这样一种方式输出，即它似乎来自随机方向和/或靠近另一个音频区域的听者的头部。这种空间化降低了语音和干扰信号的可分辨性，或者由于干扰信号的存在，使语音信号更难以被无意中听到，从而减少了干扰信号的能量。

上述语音信号处理和掩蔽信号生成最好在数字域内进行。为此目的，本文未详细描述的步骤，例如模拟到数字转换和数字到模拟转换，是必需的，但是对于研究了本公开的本领域技术人员来说是显而易见的。此外，上述方法可以全部或部分地使用可编程器件来实现，该装置特别包括所需的数字信号处理器和模拟/数字转换器。

根据本发明的另一方面，提出了一种用于在基于区域的音频系统中产生掩蔽信号的装置，该装置接收待掩蔽的语音信号并基于该语音信号产生掩蔽信号。该装置包括：用于将检测到的语音信号转换成频谱带的装置；用于从至少两个频谱带交换光谱值的装置；以及用于产生噪声信号作为基于交换后的频谱值的掩蔽信号的装置。

其中所述方法的上述实施例也可应用于本装置。因此，该装置可进一步包括:用于确定语音信号中与语音可理解性相关的时间点的装置；为相关时间点产生干扰信号的装置；以及将所述噪声信号和所述干扰信号相加以及将求和信号作为掩蔽信号输出的装置。

在该装置的另一实施例中，该装置还包括用于生成掩蔽信号的多通道表示的装置，从而实现掩蔽信号的空间再现。

根据本发明的另一个方面，公开了一种具有多个音频区域的基于区域的音频系统，其中至少一个音频区域包括用于检测语音信号的麦克风，另一个音频区域包括至少一个扬声器。麦克风和扬声器可以安装在车辆乘客座位的头枕上。两个音频区域都有麦克风和扬声器也是可能的。音频系统具有如上所示的用于产生掩蔽信号的装置，该装置接收来自一个音频区域的麦克风的语音信号，并将所述掩蔽信号发送给另一个音频区域的扬声器或扬声器。

然而，本公开的另一个方面涉及作为独立于上述噪声信号的掩蔽信号的干扰信号的产生，如上所示。一种在基于区域的音频系统中掩蔽语音信号的适当方法包括：检测在一个音频区域中待掩蔽的语音信号；确定语音信号中与语音可理解性相关的时间点；为所确定的时间点产生干扰信号，其中所述干扰信号可以相对于所述语音信号的频谱特性和/或其能量进行调整；并在确定为另一个音频区域中的掩蔽信号的时间点上输出干扰信号。该方法的可能实施例与所产生的噪声信号相结合对应于上述所示的实施例。

还公开了一种用于在基于区域的音频系统中产生干扰信号作为掩蔽信号的适当装置，该装置接收待掩蔽的语音信号并基于该语音信号产生掩蔽信号。该装置包括用于确定语音信号中与语音可理解性相关的时间点的装置；用于为相关时间点产生干扰信号的装置，其中，干扰信号可以根据其频谱特性和/或能量而适应于语音信号；以及用于将干扰信号作为掩蔽信号输出的装置。可选地，可以提供用于生成掩蔽信号的多通道表示的装置，从而实现掩蔽信号的空间再现。

以上描述的特征可以以多种方式相互组合，即使没有特别提到这种组合。特别地，为方法所描述的特征也可用于相关装置，反之亦然。

下面，参考原理图对本发明的实施例进行了更详细的描述，其中：

图1示意性地示出了基于区域的音频系统的示例；

图2示意性地示出了基于区域的音频系统的另一个示例；

图3示意性地示出了具有两个区域的基于区域的音频系统的另一个示例；

图4示意性地示出了具有多个区域的基于区域的音频系统的另一个示例；

图5示出用于生成用于语音混淆的宽带掩蔽信号的框图示例；和

图6显示了用于生成用于语音混淆的干扰信号的框图示例。

下面描述的实施例不是限制性的，而纯粹是说明性的。为了说明目的，它们包括本发明所不必需的附加元件。本发明的范围仅由所附权利要求书限定。

以下实施例使车辆乘客在任何座位位置都能进行不受干扰的私人谈话，例如与车外的其他人打电话。为此目的，产生音频掩蔽信号并提供给其他车辆乘客，以防止他们听到谈话，从而使不期望偷听私人谈话变得更加困难，甚至不可能。通过这种方式，为说话者创造了隐私，他也可以在不受干扰的情况下进行私人谈话，而不会有其他车辆乘客能够获取机密信息的风险。例如，对话可以是一个电话或车辆乘客之间的对话。在后一种情况下，有两个说话者交替发出其他乘客不应该能够理解的语音信号，当然，两个对话参与者之间的语音可理解性不应该受到损害。

类似的情况通常发生在当人处于一个房间的声区或声环境中时，每个房间都有单独的声音复制设备提供声音。例如，这种声区可以存在于交通工具中，如车辆、火车、公共汽车、飞机、渡轮等，乘客位于座位上，每个座位上都装有声再现装置。然而，建议的创建私人声区的方法并不局限于这些例子。它可以更普遍地应用于以下情况:人员位于房间内的各自位置(例如，在剧院或电影院的座位上)，并且可以通过单独的声学再现手段暴露于声音中，并且可以捕获讲话者的语音信号，其中讲话者的语音不希望被其他人理解。

在一个实施例中，提供基于区域的音频系统以在车辆的每个乘客座位，或更一般地，声学环境中创建私人声区。音频系统的各个组件相互连接，可以交互地交换信息/信号。图1示意性地显示了这样一个基于区域的音频系统1的示例。使用者或乘客坐在有头枕的座位上，头枕上有两个扬声器和两个麦克风。

这种基于区域的音频系统具有一个，优选至少两个扬声器4，用于个人和个人音频信号的主动声学再现，这些音频信号不应或仅轻微地被相邻区域感知。扬声器4可以安装在头枕3、座椅2本身或车辆头部衬板上。扬声器具有适当的声学设计，可以通过适当的信号处理来控制，以尽量减少对相邻区域的声学影响。

此外，该音频区域还具有独立于相邻区域记录主音频区域的乘客的语音并在主音频区域主动复制信号的能力。

为此，可以将一个或多个麦克风集成在座椅或头枕中，或安装在该区域和乘客的直接声学环境中，如图2所示。优选地，麦克风5以这样一种方式布置，使它们能够最好地检测使用电话的乘客的讲话。如果可以将麦克风放置在说话人的嘴附近(如图2中的中间麦克风)，则单个麦克风通常足以以足够的质量捕获说话人的音频信号。例如，电话耳机的麦克风可以用来捕捉语音信号。否则，两个或多个麦克风有利于捕获语音，以便更有效地记录语音，最重要的是，使用数字信号处理以更有针对性的方式记录语音，如下所述。

扬声器的音频区域可以进行适当的信号处理，以便在尽可能少的干扰下记录主要乘客的语音信号，并且不受相邻区域和环境中普遍存在的干扰(风、滚动噪声、通风等)的影响。

因此，车辆乘客在电话上的语音信号被记录在座位位置(或直接通过相应地设置的麦克风，或间接通过一个或多个具有适当信号处理的远程麦克风)，并与任何干扰信号(如背景噪声)分开。

从这个语音信号中，可以为偷听的乘客产生一个掩蔽信号，以下也称为语音混淆信号。在示例实施例中，为该乘客生成与要混淆的语音相适应的宽带掩蔽信号。另外或可选地，干扰信号也可以在主要说话人的讲话中在个别讲话开始时产生。这些是在某些语音片段上发出的短干扰信号，对语音的可理解性很重要，也可以适应被混淆的语音。发射这些干扰信号以与与语音可理解性相关的语音片段重叠，以便减少听者的信息内容并损害语音或其解释的可理解性(信息掩蔽)，而不显着增加总体声级。

根据各自的声学要求，这些混淆信号可以以空间方式(多通道)传递，从而产生混淆信号的空间感知。这样，就可以尽量避免在听者的座位上偷听。

使用上述方法，乘客收听座位的整体声压级只会最小程度地增加，乘客的困扰不会增加，或者以最好的方式保持局部收听舒适度，而不是简单地输出巨大的噪音来掩盖语音(能量掩蔽)。

图3显示了两个音频区域的示例实施例的功能和基本系统结构的示例。主声区I内的乘客语音信号由设置在扬声器头枕3内的主声区麦克风5记录，并经过一次数字信号处理A，记录主声区乘客的语音信号，使其尽可能不受相邻区域和环境中普遍存在的干扰(风、滚动噪声、通风等)的干扰。或者，麦克风或多个麦克风5也可以设置在扬声器的前面，如图2所示，例如，在前排乘客头枕的后部，或在头罩、方向盘或仪表板上。在所示的示例中，偷听的人坐在扬声器正前方的座位上，但事实并非如此，偷听的人可以位于车内的任何其他位置。

然后将以这种方式处理的语音信号馈送到第二信号处理B，第二信号处理B产生适当的语音混淆信号，从而降低偷听乘客的语音可理解性。然后通过第二声学区II中的扬声器4’输出语音混淆信号。例如，这些装置被安置在偷听的乘客的头枕上，以便尽可能实现最直接和不受干扰的语音混淆信号的再现。如上所述，语音混淆信号可以具有适应于主要乘客语音信号的宽带掩蔽信号和/或从个别语音开始的干扰信号。通过这种方式，可以使声区变得私密，从而使穿过声区边界的不希望的偷听变得更加困难。

在另一种方法中—类似于主动噪声抑制—通过主动添加自适应清除信号来减少各自收听或麦克风位置的估计语音信号。

然而，由于在实际操作中听音位置变化不大，听音和麦克风的位置相距几厘米，因此只能主动减少1.5kHz左右的语音信号分量。然而，由于语音可理解性主要由辅音决定，因此频率高于2khz的信号部分，因此仅使用这种方法是不够的，或者充其量也应该考虑为关键，因为在调谐不充分的情况下(例如，对头部位置的不正确适应)，清除信号恰好携带相关的私人信息，甚至可以放大它，因此语音可理解性增加而不是降低。相比之下，公开的方法对说话者和偷听者的确切头部位置不太敏感，并且即使在诸如辅音之类的高频语音成分的情况下，也允许降低语音可理解性。

由于公开的方法的模块化，涉及多个音频区域的示例实施例也是可以想象的，例如在大众运输(铁路、飞机、火车)或其他应用领域(娱乐、电影等)中。图4示意性地说明了这种多区域方法，使用多排车辆，其中提供6个声区。与之前一样，扬声器和麦克风被集成到乘客的头枕中，麦克风也可以被安排在各自扬声器前面的其他位置，以便有一个有利的布置来捕捉语音信号。与图3类似，在本例中假设说话者坐在无意中听到的乘客(在本例中是驾驶员)的后面。然而，说话乘客的语音信号可以以同样的方式用于为驾驶员以外的乘客以及一些不受欢迎的偷听者产生掩蔽或混淆信号。当然，扬声器也可以位于与图4所示示例不同的车辆位置。本文公开的方法一般可以应用于可以检测说话人的语音并且可以针对不期望的偷听者而输出生成的语音混淆信号的所有场景。

如开头所述，语音信号可以是说话者与声区所在房间外的外部人员进行的电话对话。或者，对话可以在房间里的人之间进行，例如图4所示的说话者和他右边的乘客之间的对话。在这种情况下，还必须为基于区域的音频系统中的第二扬声器提供与所示扬声器相同的信号处理，以便对第二扬声器的语音也进行检测和处理，以生成适合于偷听者的混淆信号。如果两个扬声器交替说话，则只需要确定当前扬声器，并输出与该扬声器相关的混淆信号。如果两个说话者同时说话，两个混淆信号也可以同时输出。

下面，在示例性应用中描述所需的信号处理步骤。在这个应用程序中，坐在左后座的车辆乘客作为内部扬声器向车外的人打电话。除了内部扬声器的语音外，例如内部扬声器头枕的扬声器发出的外部扬声器的语音(远端扬声器信号)也可以被记录为语音进行混淆。这是对“前左”位置的偷听司机进行修饰或混淆。当然，这只是一种可能的情况，所提出的程序通常可以用于任何可能的扬声器位置和聆听位置安排的配置。

通过数字信号处理A对待混淆语音信号估计的信号sig_est为后续产生掩蔽或混淆信号提供了基本变量。待掩蔽的语音信号可以是车辆内的有源内部扬声器和/或车辆外的外部扬声器。混淆信号可以是宽带掩蔽信号和/或干扰信号。这些产生的信号(发送到:出LS-左和LS-右)通过在收听位置的主动头枕再现。在示例实施例中，两种混淆信号一起产生、添加和再现，以对偷听产生放大效果并影响其可理解性。两种混淆信号的结合产生了这些信号在降低语音可理解性方面的协同效应。连续宽带掩蔽信号产生背景噪声，从而与仅输出一个噪声信号相比，减少了信号的体积(能量)，从而达到较少的干扰效果。通过在适当的位置(语音开始)准时输出干扰信号，这些语音片段(如辅音)的语音可理解性被有针对性地干扰，而不会显著增加混淆信号的总能量，并不对听者造成额外的不愉快影响。研究甚至发现，如果干扰信号与噪音信号一起出现，人们会觉得它们不那么令人不快。

图5显示了宽带语音信号相关掩蔽生成的原理框图。输入信号为待掩码的语音信号sig_est。由此产生的双通道输出信号(出LS-左和LS-右)被发送到偷听位置的主动颈托，必要时叠加干扰信号，并通过连接在颈托上的扬声器输出给偷听者。

下面，详细描述了根据示例实施例产生用于语音掩蔽的宽带噪声信号的信号处理步骤。应该注意的是，并不要求总是执行所有步骤，并且一些步骤可以以不同的顺序执行，如数字信号处理领域技术人员所知。此外，一些计算可以在频域或时域中等效地执行。

首先，将语音信号的信号sig_est转换到频域，并在时间和频率方向上进行平滑处理。为此，在区段100中，首先将语音信号sig_est分成多个块(例如，将采样率为fs＝44.1kHz的512个样本以11.6ms的持续时间和50％重叠的块排列)。然后使用NFFT₁＝1024点的傅里叶变换将区段105中的每个信号块转换到频域。

在进一步的步骤110中，使用M＝24个频带的Mel滤波器频带对傅里叶频谱进行滤波，即Mel滤波器频带对光谱进行频谱压缩。滤波器频带可以由具有三角形频率响应的重叠频带组成。各频带的中心频率在Mel标度上等距划分。滤波器频带的最低频带开始于0Hz，最高频带结束于采样率(fs)的一半。对于滤波器频带的所有频带，在框图的区段115中计算每个信号块的短时能量值(单个Mel频带的RMS电平或特定响度曲线)。这些短期能量值在区段120以滑动平均线(移动平均线，120块对应约700ms)的形式在MA＝120块上随时间平均。

在示例实施例中，在区段125中，这些动态响度曲线在直接频率环境中被交换(置乱)。为此，根据下表对频带的响度值进行交换，其中“in”频带的赋值来自于下面“out”行的对应位置。例如，将频带数2的响度值分配给频带数4。将频带数4和频带4的值赋给频带5，将频带5的值赋给频带3，以此类推。这导致响度值与相邻频带或下一个频带进行交换，即在本例中，一个Mel频带与交换频带之间的差异最大为两个Mel频带。当然，所示的表格只是频带如何交换的一个可能示例，其他实现也是可能的。

通过所提出的频带交换，对响度值进行“置乱”，使关联语音区段的响度值分布产生一定的“无序”，从而在不改变语音区段整体能量或响度的情况下，改变其频谱能量或响度分布的描述。例如，将一个频带中特别明显的能量含量转移到另一个频带，或将一个频带中的低能量(响度)转换到相邻频带。研究表明，通过将能量重新分配到相邻的频带中，可以产生特别有效的宽带噪声信号，这比没有频带交换更能降低相关语音段的可理解性。通过交换/反转掩蔽频带的时间动态级数的桶的顺序，避免了噪声信号中语音信息的传输。如果在频带中捕获语音能量(如上文所述的Mel频带)，并将这些时间能量曲线的幅度直接调制到噪声信号上，也划分为相等的频带，那么语音内容将是可听的-如果使用窄频带则更容易理解。通过对响度值进行频带交换，可以显著降低这种影响。

动态响度曲线可根据方框图区段130中的当前背景频谱(包括所有背景噪声)进行调整，必要时可对动态响度曲线进行交换，以评估背景噪声和环境情况。为此，例如在监测位置检测背景噪声，并与语音信号类似，采用频率转换和时频平均方法确定背景频谱。优选地，位于听音位置的麦克风用于此目的。或者，位于其他地方(但最好靠近监测位置)的麦克风可用于捕获监测位置的背景噪声。在产生掩蔽信号时，只需要考虑语音信号在背景频谱之上的那些频带。能量低于相应背景噪声带能量的语音带可以忽略，因为它们对语音可理解性不起作用或已经被背景噪声掩盖。这可以通过例如设置这些语音频带的响度值为零做到。换句话说，如果一个频带已经被强背景噪声掩蔽，则在该频带内不会产生额外的掩蔽信号。因此，宽带掩蔽噪声的哪些信号成分用于混淆语音的决定是根据情况而定的。

在区段135中，在傅里叶变换的所有频率采样点对得到的共监听阈值(在Mel滤波器频带的24个中心频率对应的24个频率上采样的频率轴)进行插值。插值为语音信号在傅里叶变换的整个频率范围内生成一个频谱值，如上述NFFT₁＝1024点的傅里叶变换为1024个值。

最后，在区段155中，使用噪声频谱对以这种方式生成的频率值进行频率网格点(或时域卷积)的逐点乘法。这可以通过噪声发生器(未示出)获得，其噪声信号以与语音信号相同的方式经过具有相同维数的块分段145和傅里叶变换150。这样，将宽带噪声信号作为具有与语音信号相似的频率特性(除了区段125和区段130的交换和归零)的掩蔽信号产生。或者，也可以通过将噪声信号与如上所述处理的语音信号的频谱值(参见区段100至135)变换回时域进行卷积，在时域中生成掩蔽信号。通过在频域和时域之间切换，可以在各个处理步骤中使用不同的频率分辨率或时间持续时间。或者，也可以在频域中进行整个处理。以这种方式，为语音信号的每个块生成适应于该块的语音段的宽带噪声频谱。

在示例实施例中，区段160之后，使用频率网格点(或时域卷积，参见前述)与声学传递函数的双耳频谱逐点相乘进行空间处理，从听者的角度来看，该声学传递函数对应于说话者的源方向(或要掩蔽的语音信号的能量质心的主导方向)。扬声器的声源方向可从声区的空间排列得知。在图4所示的示例中，说话者的源方向就在偷听者的正后方。在掩蔽信号具有空间方向的示例实施例中，需要多通道回放(例如使用两个扬声器)。否则，单通道回放就足够了，最好也通过设置在被听者的颈托上的两个扬声器来实现。

因此，宽带掩蔽信号可以在空间上再现并适应于直接信号的目标方向或说话者明显感知的方向。由于双耳响度的增加，显著改善了掩蔽，掩蔽噪声的过剩水平较低。

在区段165中，将两个结果频谱(用于空间回放)(每个区块)反向变换(IFFT)到时域，并使用重叠添加方法对块进行重叠(参见区段170)。值得注意的是，对于空间再现，产生多通道信号，可以回放，例如，通过立体声回放。如果前面的步骤已经在时域中进行了，可以理解的是，将省略块的反向变换和重叠。

由此产生的时间信号被发送到偷听者各自的活动颈托。在那里，在示例实施例中还产生干扰信号，在通过颈托的扬声器输出之前，可以将掩蔽信号与干扰信号相加。

如前所述，信号处理可以部分在频域或时域进行，但也可以在频域进行整个处理。上面提到的特定值只是可能配置的示例，可以通过多种方式进行更改。例如，FFT变换的频率分辨率可能小于1024点，Mel滤波器的划分可能大于或小于24个滤波器。还可能使用与语音信号不同的块大小和/或FFT配置来执行噪声信号的频率变换。在这种情况下，区段135中的插值必须进行相应的调整，以产生合适的频率值。在另一种变化中，块计算的掩蔽噪声在插值后首先被重新转换到时域，然后被带回到频域以允许空间化-可能具有不同的频谱分辨率。本领域技术人员在研究本公开后，将识别根据本发明的用于产生宽带语音信号相关掩蔽信号的程序的这些变化。

在示例实施例中，使用短持续时间的干扰信号而不是掩蔽噪声，其在时间和/或频率方面适应于语音信号中与可理解性特别相关的部分。作为一个示例，下面描述了这种干扰信号的产生。图6示意性地显示了用于生成依赖于语音信号的干扰信号的框图示例。在信号相关的定义时间点上分散偷听者的注意力。为此，使用语音信号中的三个信息参数确定临界时间点(t_i,distract)：频谱质心“SC”(大致对应于音高)、短时能量“RMS”(大致对应于音量)和过零次数“ZCR”(用于区分语音信号/背景噪声)。

通过额外的初步分析收集的一系列预先选择的干扰信号(如鸟叫声、啁啾声等)及其相关参数(SC和RMS)被存储在数字存储器中。合适的干扰信号最好具有以下特性：一方面，它们是听者从其他情况/日常生活中熟悉的自然信号，因此与待掩盖的信号和上下文无关。此外，它们的特点是它们是声学上独特的信号，持续时间短，具有尽可能广泛的频谱。这类信号的其他例子还有滴水声、水波冲击或短暂的阵风。通常，干扰信号比完全覆盖它们的相关语音片段(如辅音)长。也可以存储不同长度的干扰信号，并选择它们来匹配当前关键时刻的持续时间。

从时间和频率上选择并适应当前语音片段的干扰信号。然后，适应的干扰信号可以从虚拟空间位置再现给偷听的人。对于空间化(BRTF)，可以使用短脉冲响应(256点)来模拟外耳传递函数，使这些干扰信号被偷听者尽可能靠近并呈现在头部，从而达到强烈的干扰效果。空间再现需要多声道(如立体声)回放。

在下文中，详细描述了根据示例实施例产生离散的、空间分布的、短干扰信号的信号处理步骤。应当注意，如本领域技术人员将认识到的，并非总是需要所有步骤，并且一些步骤可以以不同的顺序执行。此外，一些计算可以等效地在频域或时域进行。一些处理步骤对应于用于产生宽带掩蔽信号的处理步骤，因此在使用两种类型的信号进行语音混淆的示例实施例中不需要执行第二次。

在区段200中，语音信号sig_est被分成多个块(BlockLength＝512个样本，fs＝44.1kHz)，持续时间为11.6ms,50％重叠(HopSize＝256)(参见区段100)。

从这些块XBuffer_n(m)中，其中n＝块索引，m＝时间样本，每个信号块的过零次数(过零率，ZCR)在区段205中确定。这可以使用以下公式执行:

在区段210中，每个信号块进行NFFT₂＝1024点的傅里叶变换(参见区段105)。

从这些频谱S(k,n)中，其中k＝频率指数，n＝块指数，在区段215和区段220中计算了另外两个参数：短时能量(RMS)和频谱质心(SC):

短时能量RMS和过零率ZCR的过程也可以使用信号相关的阈值进行滤波，不满足这些阈值的区域可以忽略(例如设置为零)。例如，可以选择阈值，使信号值的一定百分比高于或低于阈值。

在区段225中，每个频谱使用一阶递归离散时间滤波器进行频谱平滑：H(z)＝Bs(z)/As(z)，其中Bs＝0.3,As(z)在两个方向上＝1-(Bs-l)*z^-1(＝acau-sales，二阶零相位滤波器)。

在区段230中，所得光谱使用一阶递归离散时间滤波器进行时间平滑:H(z)＝Bt(z)/At(z)，其中Bt＝0.3,At(z)＝1-(Bt-1)*z^-1。

为了检测与语音可理解性(起始检测)相关的语音信号部分(起始点)，首先在区段235中确定起始点检测功能。为此，频谱和时间平均频谱在频率轴上相加。所得到的信号是对数化的和微分的，负值被设置为零。正则化(例如，在所有频率网格点上添加一个小数字)可以在对数化之前执行，以避免零值。

该起始检测函数扫描局部最大值，局部最大值被要求至少间隔指定数量的块。以这种方式发现的最大值可以使用与信号相关的阈值进一步过滤，以便只保留特别明显的最大值。以这种方式确定的起始检测函数的局部最大值是语音信号的感知相关片段的候选值，这些片段将使用干扰信号选择性地进行干扰。

在示例实施例中，通过使用参数:ZCR、RMS和SC的逻辑单元检查在区段240中确定的起始检测函数的最大值的合理性。只有当这些值在定义的范围内时，这些最大值才会被设置为相关的关键时间点t_i,distract。例如，在起始检测函数达到确定的最大值时，RMS、SC和/或ZCR的值必须满足一定的逻辑条件(例如RMS>X1；X2<SC<X3；ZCR>X4，预设阈值X1到X4)。例如，在示例实施例中，仅考虑位于满足RMS和ZCR的上述过滤条件的时间段内的最大值(即不在隐藏范围内)。ZCR和RMS必须同时满足一定阈值条件的条件，也可以通过保留满足阈值条件时SC的值，并对插入值进行内插或外推，从而对SC的过程进行过滤，得到函数SC_int。

在确定的时间点t_i,distract，从选择的N个干扰信号中随机选择一个干扰信号以数字方式存储在存储器250中(使用区段245)。存储器250包含这些干扰信号的额外元数据：SC和RMS值。

选取的干扰信号在区段255中被分成多个块(见上文BlockLength₂和Hopsize＝BlockLength₂或Overlap＝0)，然后在区段260中用NFFT₂点进行傅里叶变换。对于待掩蔽的语音信号，这种频率变换的参数可以不同于上述版本，也可以独立于上述版本。或者，干扰信号的频率表示可以直接存储在频域中。

所得到的频谱可以在区段265中，使用频率位置的SC参数比(例如通过单边带调制)和/或使用增益中的RMS参数比根据各自时间t_i,distract的信号sig_est进行调整。为此，形成起始时间t的各语音信号区段的频谱质心SC与相关的干扰信号的比值，并调整干扰信号的频率位置，使其与语音信号的频率位置尽可能匹配。这可以通过在起始时间SC_int(t_i,distract)将插值频谱质心的函数SC_int的值与所选干扰信号的SC值进行比较并确定一个失谐参数来实现，失谐参数的正值意味着通过单边带调制使干扰信号的基音增加，负值导致基音降低。

干扰信号的能量(RMS)也与语音信号区段的能量相适应，从而实现干扰信号与语音信号的预定能量比。由于干扰信号在降低语音可理解性方面具有很高的有效性，因此可以在低音量下再现干扰信号，从而使无意听乘客座位位置的整体声压级仅增加最小，并且不会增加乘客的烦恼或损害或以最佳方式保持局部听音舒适度。

在示例实施例中，通过双耳空间传递函数(binaural spatial transferfunctions,BRTF)根据使用相应频谱的频率网格点的点向乘法(或时域卷积)对区段270中每个时间点t_i,distract的随机方向选择，将所得到的干扰信号的修改的频谱映射为空间变量。另外，为区段275中的偏转信号随机选择方向。存储器280包含匹配可能方向的双耳空间传递函数(BRTF)。如上所述，对于掩蔽噪声，可以在频域或时域中进行空间化。在时域中，与选定的外耳传递函数的脉冲响应进行卷积。优选地进行干扰信号的空间化，使得干扰信号被偷听者尽可能靠近并呈现于头部，以实现强烈的干扰效果。空间再现需要多声道(例如立体声)回放，否则单声道回放就足够了，尽管这也可以使用集成在头枕中的两个扬声器来实现。

在频域对干扰信号进行空间化的情况下，在区段285中，通过带有NFFT₂点的傅里叶反变换(IFFT)将卷积结果转换回时域。使用重叠添加方法将反向变换的时间块组合成区段290中的时间信号。如果在时域中已经进行了上述步骤，则可以明显地省略块的反向变换和重叠。

由此产生的时间信号被发送到听者各自的活动颈托。在还产生掩蔽噪声信号的示例实施例中，在通过颈托的扬声器输出之前，可以将掩蔽信号与干扰信号相加。

语音信号匹配的干扰信号产生随机分布的激励/触发信息，在不显著永久影响语音目标信号的情况下改善语音目标信号。

如前所述，信号处理可以部分地在频域或时域进行。上面提到的具体值只是频率变换的任何可能配置的示例，并且可以通过许多方式进行更改。在一种可能的变化中，能量和频率匹配的频谱(见区段265)首先被反变换到时域，然后再次返回到频域，以考虑空间化-可能具有不同的频谱分辨率。然而，也可以在频域进行整个处理。数字信号处理领域的技术人员在研究了本公开之后，将识别根据本发明的用于产生语音信号依赖的干扰信号的程序的这种变化。

在示例实施例中，两个混淆信号—宽带掩蔽噪声和干扰信号—在输出和共同再现之前被求和。掩蔽噪声优选地从说话人的方向感知，产生适应于各自语音区段的频谱特性的宽带噪声信号，在特别相关的点上选择性地(就时间和频率而言)叠加短干扰信号。这些干扰信号在空间上靠近头部被感知，即使它们以低音量或低能量再现，也会特别有效地降低语音的可理解性。然而，由于与宽带掩蔽噪声相结合，干扰信号的短暂开关被认为干扰或损害较小。偷听乘客座位位置的整体声压级仅增加最小，不增加乘客的烦恼或损害，或尽可能保持局部聆听舒适度。

上述示例性实施例的描述具有如权利要求书所定义的对于本发明并不必需的各种细节。示例实施例的描述旨在理解本发明，并且纯粹是说明性的，对保护范围没有限制作用。对于本领域技术人员来说，所描述的要素及其技术效果可以以不同的方式相互组合是显而易见的，因此可以出现权利要求所涵盖的进一步示例实施例。此外，所描述的技术特征可用于器件和方法中，例如由可编程器件实现。特别是，它们可以通过硬件元素或软件来实现。众所周知，数字信号处理的实现最好由专门设计的信号处理器来执行。所述设备的各个组件之间的通信可以通过有线(例如通过总线系统)或无线(例如通过蓝牙或WiFi)进行。以数据载体形式或可下载表示形式的计算机实现及其相关程序或机器码也明确要求保护。

Claims

1.一种在基于区域的音频系统中掩蔽语音信号的方法，包括：

检测音频区域中待掩蔽的语音信号；

将检测到的语音信号转换成频谱带；

交换至少两个频谱带的频谱值；

基于交换后的频谱值产生噪声信号；和

输出所述噪音信号作为另一个音频区域的所述语音信号的掩蔽信号。

2.根据权利要求1所述的方法，其中，基于交换后的频谱值产生噪声信号包括：

产生宽带噪声信号；

将产生的噪声信号转换到频域；和

将所述噪声信号的频率表示乘以所述语音信号的频率表示，同时考虑所述交换后的频谱值。

3.根据权利要求2所述的方法，其中，所述语音信号的所述频率表示是通过在所述频谱值的交换之后插值所述频带的所述频谱值来生成的。

4.根据前述任一项权利要求所述的方法，还包括：

估计背景噪声频谱；

将所述语音信号的频谱值与所述背景噪声频谱进行比较；和

单独考虑大于所述背景噪声频谱的对应的频谱值的所述语音信号的频谱值。

5.根据前述任一项权利要求所述的方法，其中，将检测到的语音信号转换为所述语音信号的块的频谱带，并通过Mel滤波器频带和，且优选地，用于Mel频带的所述频谱值的时间平滑被执行。

6.根据前述任一项权利要求所述的方法，其中，所述噪声信号在输出中通过多通道回放在空间上表示，优选地通过与声学传递函数的双耳频谱相乘。

7.根据权利要求6所述的方法，其中，所述噪声信号在空间上输出在所述另一个音频区域中，使得所述噪声信号看起来来自所述待掩蔽语音信号的所述说话者的主要方向。

8.根据前述任一项权利要求所述的方法，还包括：

确定所述语音信号中与语音可理解性相关的时间点；

为确定的所述时间点产生干扰信号；和

在确定的所述时间点输出所述干扰信号，作为所述另一个音频区域的另一个掩蔽信号。

9.根据权利要求8所述的方法，其中，与所述语音可理解性相关的时间点是使用所述语音信号的频谱函数的极值来确定的，其中，所述频谱函数是基于在所述频率轴上的可选平均的频谱值的相加来确定的。

10.根据权利要求8或9所述的方法，其中，使用所述语音信号的参数，例如过零率、短时间能量和/或频谱质心来验证与所述语音可理解性相关的时间点。

11.根据权利要求8至10中任一项所述的方法，其中，用于特定时间点的所述干扰信号从一组预定的干扰信号中随机选择，和/或根据所述干扰信号的频谱特性和/或能量适应于所述语音信号。

12.一种在基于区域的音频系统中掩蔽语音信号的方法，包括：

检测在音频区域中待掩蔽的语音信号；

确定所述语音信号中与语音可理解性相关的时间点；

为所确定的所述时间点产生干扰信号，所述干扰信号根据其频谱特性和/或能量适应于所述语音信号；和

在另一个音频区域的特定时间点输出所述干扰信号作为掩蔽信号。

13.根据权利要求12所述的方法，其中，与所述语音可理解性相关的时间点是使用所述语音信号的频谱函数的极值来确定的，其中，所述频谱函数是基于在频率轴上的可选平均的频谱值的相加来确定的。

14.根据权利要求12或13所述的方法，其中，使用所述语音信号的参数，例如过零率、短时间能量和/或频谱质心来验证与所述语音可理解性相关的时间点。

15.根据权利要求12至14中任一项所述的方法，其中，用于所述特定时间点的所述干扰信号是从一组预定的干扰信号中随机选择的。

16.根据权利要求12至15中任一项所述的方法，还包括：

将所述捕获的语音信号转换成频谱带；

交换至少两个频谱带的光谱值；

基于交换后的频谱值产生噪声信号；和

输出所述噪声信号作为所述另一个音频区域中的所述语音信号的附加掩蔽信号。

17.根据权利要求16所述的方法，其中，基于交换后的频谱值产生噪声信号包括：

产生宽带噪声信号；

将产生的噪声信号转换成所述频域；和

18.根据权利要求16或17中的一个所述的方法，还包括：

估计背景噪声频谱；

将所述语音信号的频谱值与所述背景噪声频谱进行比较；和

只考虑大于所述背景噪声频谱对应的频谱值的所述语音信号的频谱值。

19.根据权利要求16至18中任一项所述的方法，其中，将捕获的语音信号到频谱带的转换是用于所述语音信号的块，并使用Mel滤波器频带执行，并优选地，用于Mel带的所述频谱值的时间平滑被执行。

20.根据权利要求1至19中任一项所述的方法，其中，所述掩蔽信号在输出中使用在所述另一个音频区域中的多通道回放在空间上表示，优选地通过与声学传递函数的双耳频谱相乘。

21.根据权利要求20所述的方法，其中，所述掩蔽信号在空间上输出在所述另一个音频区域中，使得所述掩蔽信号看起来来自所述另一个音频区域中的听者的头部的随机方向和/或靠近所述另一个音频区域中的听者的头部。

22.一种用于在基于区域的音频系统中产生掩蔽信号的装置，所述装置接收待掩蔽的语音信号并基于所述语音信号的产生掩蔽信号，包括：

用于将检测到的语音信号转换成频谱带的装置；

用于交换至少两个频谱带的频谱值的装置；和

用于基于交换后的频谱值产生噪音信号作为掩蔽信号的装置。

23.根据权利要求22所述的装置，还包括：

用于确定所述语音信号中与语音可理解性相关的时间点的装置；

用于为所述相关时间点产生干扰信号的装置；和

用于将所述噪声信号和所述干扰信号相加并将所述求和信号作为掩蔽信号输出的装置。

24.一种用于在基于区域的音频系统中产生掩蔽信号的装置，所述装置接收在音频区域中的待掩蔽的语音信号并基于所述语音信号的产生掩蔽信号，包括：

用于为相关时间点产生干扰信号的装置，其中，所述干扰信号相对于其频谱特性和/或能量而适应于所述语音信号；和

用于在另一个音频区域的所述特定时间点将所述干扰信号作为掩蔽信号输出的装置。

25.根据权利要求24所述的装置，还包括：

用于将检测到的语音信号转换成频谱带的装置；

用于交换至少两个频谱带的频谱值的装置；和

用于基于所述交换后的频谱值产生的噪声信号作为掩蔽信号的装置；和

26.根据权利要求22至25中任一项所述的装置，还包括：

用于产生所述掩蔽信号的多通道表示，使所述掩蔽信号的空间再现成为可能的装置。

27.一种基于区域的音频系统，包括多个音频区域，一个音频区域包括至少一个用于检测语音信号的麦克风，另一个音频区域包括至少一个扬声器，所述麦克风和所述扬声器优选地设置在车辆乘客座位的头枕中，所述音频系统包括根据权利要求22至26产生掩蔽信号的装置，所述音频系统接收来自所述一个音频区域的麦克风的语音信号，并将所述掩蔽信号发送给所述另一个音频区域的扬声器或多个扬声器。