CN104050969A

CN104050969A - 空间舒适噪声

Info

Publication number: CN104050969A
Application number: CN201310081933.3A
Authority: CN
Inventors: 格伦·N·迪金斯; 孙学京; 许元良; 海科·普尔哈根
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-03-14
Filing date: 2013-03-14
Publication date: 2014-09-17
Also published as: EP2973552A1; WO2014143582A1; EP2973552B1; US20160027447A1; US10224046B2

Abstract

本发明涉及空间舒适噪声。本发明涉及一种方法、设备、逻辑（例如，在非临时性计算机可读介质中编码的以用于执行方法的可执行指令）、以及配置有这种指令的非临时性计算机可读介质。该方法用于在会议系统的接收终端处生成空间舒适噪声并在空间上渲染空间舒适噪声，使得舒适噪声具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性。一个版本包括接收来自其他终端的一个或更多个音频信号，将所接收到的音频信号与空间舒适噪声信号组合，以及将所接收到的音频信号和空间舒适噪声信号的组合渲染成用于扬声器的一组信号，使得除了来自接收到的音频信号的输出之外，空间舒适噪声信号也持续地存在于输出信号中。

Description

空间舒适噪声

相关专利申请

本发明与同时提交且共同转让给发明人David Gunawan、GlennDickins、Paul Holmberg和Richard Cartwright的、题目为SPECTRALAND SPATIAL MODIFICATION OF NOISE CAPTURED DURINGTELECONFERENCING“（电话会议期间捕获的噪声的谱的和空间的调整）”的事务所卷号No.D012190USP1的美国专利申请No.xxxxx相关。该相关申请的内容通过引用合并到本文中。

版权与商标的注意事项

本文所引用的某些标记可能是第三方的商标或注册商标。使用这些标记仅仅用于借助于示例提供能够实施的公开内容，而不应当被解释为将本发明的范围限制于与这些商标相关联的材料。

背景技术

舒适噪声在电信领域中是已知的，并且被用于当没有活动的语音出现期间数据传输停止或减少的时候，例如，当使用不连续传输（DTX）时，添加噪声。在没有舒适噪声的情况下，完全静音的这样的“死”段通常造成没有或缺少远端存在的感觉，这可能使听众不安。添加舒适噪声作为合成或统计噪声以填补由于DTX或其他音频处理的音频流中的显著的信号的缺乏，创建了在感知上更加持续的音频流。

语音会议系统，包括视频会议系统（例如，网真系统）的语音部分，允许尽可能大量的参与者同时通过语音交流。通过将舒适噪声添加到这样的系统中来处理DTX可能很复杂。典型的系统可能会通过切换或选择活动的音频流的子集且仅将所选择的部分混合在一起来限制来自输入流的噪声或舒适噪声的积累。这可能对简单的单声道会议桥有效，但在很多情况下是不理想的。

一些会议系统利用音频的空间属性，这使得对空间噪声的利用额外地变得复杂，例如，使得难以保持想要的音频段与合成的音频段之间的持续性。

发明内容

本发明提出一种系统，该系统被设计成通过添加空间舒适噪声在空间音频会议终端（也称为空间音频会议客户）处创建存在的感觉，该空间舒适噪声包括具有舒适信号的典型谱属性（例如，诸如功率谱的幅值量度谱）的多个空间噪声信号以及与至少一个目标空间属性基本上匹配的至少一个空间属性。

典型的会议系统包括会议服务器，终端耦接至会议服务器。已知若干会议架构，例如，集中控制、终端混合、全网状架构以及多播架构。对于这些架构中的每个架构，在本文中称为会议服务器的为执行控制的单个实体，或为一组分布式实体的功能组合。一个示例为多点控制单元（MCU），通常用于通过混合音频（或视听）流来桥接会议的装置。

对于会议的一种可能的方法包括一组有限的活动音频流从会议服务器被保留和转发。这种方法通过在服务器处发生的磨损构建或潜在的过渡舒适噪声。这将会是其中服务器的默认操作为若干流的组合处理或组合的会议系统中的问题。在这样的系统中，没有音频被丢弃，因此问题是如何根据所有输入的数据流管理预期的舒适噪声。

本发明提供一种方法来通过在接收（例如，收听）终端处执行处理来实现由舒适噪声所提供的所期望的感知持续性，同时避免了根据由接收客户可听到的各个流组来管理舒适噪声的并发症。

附图说明

图1示出了包括本发明的实施方式的示例会议系统100的简化示意图。

图2示出了从指向前部（例如，指向声源）的X轴逆时针分别测量的方位角60°、﹣60°和180°处的三个心形麦克风的群集。

图3更详细地示出了包括本发明的实施方式的终端的输入处理部分的一种示例实施方式的框图。

图4为在其中在接收端可用的空间信息被编码到发送的数据中的本发明的实施方式中所使用的编码器的简化框图。

图5示出了生成多个空间舒适噪声信号的空间舒适噪声发生器的实施方式的简化框图，空间舒适噪声信号具有与至少一个目标谱属性和至少一个目标空间属性至少基本上匹配的谱属性和空间属性，这些空间舒适噪声信号为典型的舒适噪声。

图6示出了与根据本发明的实施方式为空间源生成的合成空间舒适噪声谱相比较的示例谱。

图7为两个图像的组，上面的曲线示出了典型语音的谱、会议期间所捕获的典型背景噪声的谱和所期望的舒适噪声的目标谱。下面的曲线表示用于对上面的曲线的所捕获的噪声进行调整使得经调整的噪声具有与上面的曲线的目标谱匹配的功率谱的增益抑制以及用于对上面的曲线的语音进行调整的抑制增益值的曲线。

图8示出了被配置成与图4的编码器的版本匹配的频域解码器的一种实施方式的框图。

图9示出了位流解码和场景控制元件的一种实施方式的简化框图。

图10示出了在该版本中包括处理系统的图1的终端的一种实施方式的简化框图。

具体实施方式

现将详细参照一些实施方式，在附图中示出了这些实施方式的示例。注意，在可行的情况下在附图中使用相似或相同的附图标记并且它们可以表示相似或相同的功能。附图仅出于说明的目的描绘了所公开的系统（或方法）的可能的实施方式中的一些；本发明的很多实施方式在技术上可行。根据本公开内容，对于本领域普通技术人员而言，如何实现这些实施方式将变得明显。

概述

本发明的实施方式包括方法、设备，包括被编码在非临时性计算机可读介质中以执行方法的可执行指令的逻辑，以及配置有（例如，存储有）这样的指令的非临时性计算机可读介质。该方法在会议系统的接收终端处生成空间舒适噪声并在空间上渲染空间舒适噪声，使得舒适噪声具有舒适噪声的典型谱属性和空间属性。

特定实施方式包括一种在会议系统的接收终端中提供空间舒适噪声的方法。该方法包括：生成一个或更多个噪声信号；对所生成的一个或更多个噪声信号进行处理以形成多个空间舒适噪声信号，所述空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；以及将所述空间舒适噪声信号渲染成用于扬声器（术语“扬声器”包括耳机）的一组输出信号，以被接收终端处的一个或更多个与会者听到。

一种实施方式还包括：在接收终端处接收用于渲染的一个或更多个音频信号；以及将接收到的音频信号与多个空间舒适噪声信号组合。

在一种实施方式中，所述渲染包括将接收到的音频信号与空间舒适噪声信号的组合渲染成用于扬声器的一组输出信号，使得除了来自所接收到的音频信号的输出之外，空间舒适噪声信号也持续地存在于输出信号中。

在一种实施方式中，所述处理包括：对所生成的一个或更多个噪声信号进行滤波使得滤波后的一个或更多个信号具有舒适噪声的典型目标谱特征；以及对滤波后的一个或更多个信号进行空间调整使得调整和滤波后的一个或更多个噪声信号具有所述期望的空间属性并且形成所述多个空间舒适噪声信号。在一个版本中，由具有频率响应的各个带通滤波器对每个所生成的噪声信号进行滤波，频率响应具有基本上一阶的属性和40Hz至200Hz范围的通带。在一个版本中，通带在50Hz到150Hz的范围内。

在一种实施方式中，将所述多个空间舒适噪声信号与从一个或更多个发送终端接收的包括噪声抑制的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于输出信号中，以及，一个或更多个音频信号以编码形式被接收，并且使用包括解码器随机噪声发生器的解码器被解码，解码器形成解码数据。在这样的实施方式中，使用解码器随机噪声发生器生成一个或更多个噪声信号，并且所生成的舒适噪声与解码数据持续地被组合并且该组合被渲染。

在一种实施方式中，将所述多个空间舒适噪声信号与从一个或更多个发送终端接收的包括噪声抑制的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于输出信号中。在这样的实施方式中，一个或更多个发送终端可操作用于执行噪声抑制，并且，噪声抑制使用以下知识，接收终端生成并且在接收终端的输出中持续地包括空间舒适噪声信号。

在一种实施方式中，所述处理包括根据由扭曲矩阵定义的线性映射进行空间调整。在这样的实施方式的一个版本中，扭曲矩阵映射到已知的空间声音格式。

在一种实施方式中，所述渲染包括确定具有所述目标谱特征和所述至少一个空间属性的双耳声表达。

在一种实施方式中，所述扬声器在耳机中。

具体实施方式包括会议系统中的终端设备，包括：一个或更多个处理器；以及配置有指令的存储子系统，当所述指令由所述一个或更多个处理器执行时，使得所述终端设备执行包括上述实施方式中的任一个实施方式中的步骤的方法。

具体实施方式包括一种配置有指令的非临时性计算机可读介质，当所述指令由在会议系统的接收终端中包括的处理系统的一个或更多个处理器执行时，执行根据上述实施方式中的任一个实施方式记载的方法。

具体实施方式包括一种配置有指令的非临时性计算机可读介质，当所述指令由在会议系统的接收终端中包括的处理系统的一个或更多个处理器执行时，执行提供空间舒适噪声的方法。所述方法包括：生成一个或更多个噪声信号；对一个或更多个所生成的噪声信号进行处理以形成多个空间舒适噪声信号，空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；生成多个空间舒适噪声与在接收终端接收的来自发送终端的多个音频信号的组合；以及将接收的音频信号与空间舒适噪声信号的组合渲染成用于扬声器的一组输出信号。

具体实施方式包括会议系统中的终端设备，包括：用于从其他终端接收一个或更多个音频信号以用于在接收终端渲染的装置；用于生成空间舒适噪声信号的装置，空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；用于将所接收的音频信号与空间舒适噪声信号组合的装置；以及用于将接收的音频信号与空间舒适噪声信号的组合渲染成用于扬声器的一组输出信号的装置，使得除了来自所接收到的音频信号的输出之外，空间舒适噪声信号也持续地存在于输出信号中。

在一种实施方式中，用于生成所述空间舒适噪声信号的所述装置包括：用于生成一个或更多个噪声信号的装置；以及用于对所述一个或更多个所生成的噪声信号进行处理以形成多个空间舒适噪声信号的装置，用于处理的所述装置包括用于对所述一个或更多个所生成的噪声信号进行滤波使得所述滤波后的一个或更多个信号具有舒适噪声的典型目标谱特征的装置，以及用于对所述滤波后的一个或更多个信号进行空间调整使得所述调整和滤波后的一个或更多个噪声信号具有所述期望的空间属性并且形成所述多个空间舒适噪声信号的装置。

具体实施方式可以提供这些方面、特征或优点的全部、一些或不提供这些方面、特征或优点。具体实施方式可以提供一个或更多个其他方面、特征或优点，根据本文的附图、说明书和权利要求，对于本领域技术人员而言，这些方面、特征或优点中的一个或更多个将变得明显。

一些示例实施方式

图1示出了包括本发明的实施方式的示例会议系统100的简化示意图。系统100包括会议服务器101以及终端105、107、109和111，会议服务器101用作包括一个或更多个参与终端的会议的控制器，并且会议服务器101耦接至网络103（例如，数据包网络如互联网协议（IP）网络、公共互联网络如互联网、电话交换网或专用网等等），终端105、107、109和111各自耦接至网络103。在不同的系统中可以包括或多或少的元件。不是所有的终端都必须相同。例如，一些终端可以是电话，而其他的终端可以是智能移动电话装置，而另一些的终端可以是内置到专用会议室中的系统。每个终端还可以包括捕获和显示视频信息，即，交流视听信息。本发明涉及这种视听信息的音频部分。

以商定形式将包括编码音频数据在内的会议数据发送至终端111或以商定形式接收来自终端111的包括编码音频数据在内的会议数据，例如，在IP示例中，使用采用RTP或一些其他的协议的IP语音（VoIP），使用例如用于会话控制的SIP。本发明不限于任何特定通信机制或形式。例如，会议服务器的功能性可以分布在一些或全部终端之间。而且，本发明不限于使用作为会议的控制器的会议服务器的架构。

更具体地示出了示例终端111的音频部分，示例终端111的音频部分包括被配置成生成和添加空间舒适噪声的本发明的实施方式，该空间舒适噪声包括多个空间噪声信号，空间噪声信号具有舒适噪声的典型谱属性（例如，幅值度量（metric）谱，如功率谱）以及与至少一个目标空间属性基本上匹配的至少一个空间属性。

从现在开始，将仅描述音频处理方，并且本领域普通技术人员应当理解会议系统和终端111可以包括视频数据、文本数据以及其他形式的数据中的一种或更多种。

在示例实施方式中，终端111包括网络接口113，网络接口113被配置成将包括典型被编码（压缩）的音频数据在内的数据发送至网络103以及接收来自网络103的包括典型被编码（压缩）的音频数据在内的数据。

示例终端的发送方输出处理

虽然本发明的主要方面涉及终端的接收方处理，但是这样的接收方处理也可以影响终端的发送方输入处理或受到终端的发送方输入处理的影响。终端111的一种实施方式包括一个或更多个麦克风的组123以按照某种格式提供音频输入信号，例如，在包括空间信息的情况下，按照双耳格式、声场格式、环绕声格式之一提供音频输入信号，并且设置来自多个麦克风的信号。在图1的示例中，组123包括如图2所示的从指向前部（例如，指向声源）的X轴逆时针分别测量的方位角60°、﹣60°和180°处的三个心形麦克风的群集。在二维中，来自这样的群集的声场可以作为三个信号被被传输，通常将60°、﹣60°和180°处的心形麦克风信号分别表示为L、R和S。可以使用或多或少麦克风（例如，四个或更多麦克风）来捕获三维声场或来自组123的一些其他信号。也可以在其他一些坐标系统中生成麦克风信号，例如，作为来自麦克风阵列的信号的组、作为关于M-麦克风阵列的表示为E₁、E₂、…E_M的信号的组，或以所谓的B格式，在该格式中对于一阶2D情况（水平B格式）包括单独命名为W、X和Y的三个信号，这三个信号对应于连同两个偶极麦克风信号（X和Y）一起的全向麦克风信号（W），该偶极麦克风信号（X和Y）具有分别与X轴和Y轴对准的最大正增益。

由耦接至网络接口113的输入处理模块125接收来自麦克风组123的一个或更多个信号，以使用适合编码的商定格式和协议来生成待发送至网络103的编码音频。

模块125的输入处理被配置成接收作为来自麦克风组123的输出的所捕获的音频信号（作为输入音频）并且执行处理，例如，由本领域已知的子系统执行的处理。在一种实施方式中，处理包括对输入音频进行采样，例如采用重叠来形成样本的帧（也称为块），对样本的帧执行时域到变换域的变换，例如时域到频域的变换，以及响应于频域样本来生成经预处理的音频。模块125的处理还可以包括噪声估计、噪声抑制和位置信号的输出的抑制中的一种或更多种。在一些实施方式中，还存在在终端处捕获的参考音频信号，并且模块125的处理还包括回声抑制。在一些实现中，经预处理的音频为与一些空间信息下混合的单通道频域音频信号。在其他的实施方式中，经预处理的音频为（例如，WXY中的）多通道信号。

输入处理模块125可以包括空间调整器和声场转换器。本领域技术人员已知多种声场格式、双耳格式和环绕声格式之间的转换，这样的转换通常涉及由矩阵定义的线性变换。

在一些实现方式中，输入处理模块125还执行波束形成（例如，时域中的波束形成）以在变换到频域之前生成下混合信号。

为简单起见，我们将所有通道的样本的每个块或帧称作为样本的“帧”。在输出是在频域的情况下，在一些实施方式中，帧被带状划分（band）成多个频带，例如，被带状划分为以感知的尺度间隔的15至60（例如，32）个频带，例如，临界频带。

在一种实施方式中，通过确定数据的每个频带的一组增益并且对每个频带数据应用增益来实现抑制。

输入处理模块125还可以包括话音活动检测器（VAD），该话音活动检测器（VAD）被配置成生成表示音频的每个帧是表示语音（例如，噪声存在下的语音）还是仅表示噪声的控制值。

终端的不同的实施方式可以包括本文所描述的元件和功能中的一些，但不一定包括全部。

在2012年8月16日公开的国际提交日为2012年2月8日、被转让给本发明的受让人的PCT国际公开No.WO2012/109384描述了用于在会议系统终端处（例如，使用单个麦克风或麦克风阵列）所捕获的音频中的噪声的抑制的方法和系统。将噪声抑制应用于在单个终端处所捕获的语音信号，并且噪声抑制是作为空间属性和频率（例如，频带）的函数。空间属性依赖性是例如如果感知到被渲染为从与声源不同的位置处的源发出并在终端处被捕获时，更加抑制噪声。频率依赖性（例如，频带依赖性）是确定频率依赖性抑制深度的结果，音频依赖性抑制深度是每频带增益减小量，并且导致根据频率依赖抑制深度减小每个频带中的噪声增益。

输入处理模块125的一种实施方式包括基本上在PCT公开WO2012/109384中描述的方法和子系统。其他的实施方式使用本领域技术人员已知的不同的架构。

图3更具体地示出了终端111的输入处理部分125的一种示例性实施方式的框图，终端111接收来自麦克风123的多个输入并且被配置成在电话会议期间捕获声音，以及元件303、305、307、309、311、313、315、317如图13中所示那样耦接并且被配置成和进行操作以响应于麦克风的输出生成用于传输至服务器101或终端105、107、109以及图1中所示的系统的任何其他终端的经编码的音频信号。

预处理器303被配置成接收所捕获的来自麦克风123的音频信号作为输入音频，对输入音频进行采样，对所得到的样本执行时域到频域的变换，从而响应于频域样本生成经预处理的音频。在一些实现方式中，经预处理的音频为（例如，在预处理器303的波束形成阶段或子系统中产生的）下混合的单通道频域音频信号。在其他的实施方式中，经预处理的音频为多通道信号，例如，诸如WXY格式的三通道音频信号。预处理器303的经预处理的频域输出中的每个输出为音频样本的一系列帧。为简单起见，不管是单通道还是多通道，将来自预处理器303的输出都称为样本的“帧”。

谱带状划分（banding）元件307被配置成针对每个帧生成一组带状的值，例如，集中在其分离单调非减的频率处的B带。在一些特定的实施方式中，例如，在心理声学的尺度上，带分离以类似对数（log）的方式单调增加。在一种实施方式中，频带被临界地间隔开，或遵循通过比例因子与临界间隔相关的间隔。带状划分元件包括其带宽和间隔在等效矩形带宽（ERB）频率尺度上不变的一组线性滤波器。本领域的一些技术人员认为，ERB频率尺度更加紧密地与人类的感知匹配。也可以使用吠声（Bark）频率尺度。所有这些类似对数的带状划分在本文中被称为“感知带状划分”。通常，每个频带应当具有大约0.5至2ERB的有效带宽，在一种具体的实施方式中使用0.7ERB的带宽。在一些实施方式中，每个频带具有0.25至1吠声的有效带宽。一种特定实施方式使用0.5吠声的带宽。在一种实施方式中，基于感知尺度（例如，ERB频率尺度），带状划分元件307为每帧生成15至60（例如，30）个带，即，被带状划分至临界频带。

在一种实施方式中，B带集中在其分离单调非减的频率处。在一些特定的实施方式中，带分离以类似对数方式单调增加。在感知上激发这样的类似对数方式。在一些特定的实施方式中，它们是基于心理声学尺度的，即，频带被临界间隔开，或遵循通过比例因子与临界间隔相关的间隔。

带状空间特征估计器305被配置成根据来自预处理器303的带状样本（或在一些版本中，根据麦克风信号样本）来生成空间特征，例如，空间概率指示器。这些指示器可以指示明显的源方向或位置、或帧的一些频带或全部频带中的声音的位置或方向的范围，并且可以用于抑制以在空间上将信号分离成源自所期望的位置的分量和不是源自所期望的位置的分量。这连同预处理器303中的波束形成一起可以提供对位置外的信号功率的一些抑制和对噪声的一些抑制。

在一些实施方式中，空间特征估计器305确定带状信号的协方差矩阵和平均值的估计值。

信号估计器309被配置成根据样本的每个帧来确定信号的带状功率谱（或其他幅值度量谱）。

噪声估计器和话音活动检测器（VAD）311被配置成确定噪声的带状功率谱（或其他幅值度量谱）的估计值，并且还被配置成生成表示样本的每个帧是表示语音（具有噪声）还是仅表示噪声的控制值，控制值被表示为S。在一种实施方式中，S在0与1之间并且等于存在的语音的概率的单调函数。

元件311的一种实施方式使用最小统计和最小跟随器（minimumfollower）如在R.Martin，“Spectral Subtraction Based on MinimumStatistics（基于最小统计量的谱减）”，Proc.欧洲，信号处理会议，（EUSIPCO），1994年，第1182至1185页中所描述的，来确定表示为N′_b的带状噪声幅值度量（例如，功率谱）。备选实施方式，不跟随窗口上的最小值，例如如上述的Martin参考文献，使用“泄漏”最小跟随器（例如，具有指数跟踪，该指数跟踪具有由至少一个最小跟随器泄漏速率参数限定的跟踪速率，跟踪速率为最小跟随器将跟踪的时间上的速率，例如，以dB/秒表示（例如，约20dB/秒（或更广泛地，1dB/秒至30dB/秒的范围））)来确定带状噪声功率。在一种实施方式中，由元件311的V AD部分所确定的正存在的语音的概率S来控制最小跟随器的速率参数。如果语音的概率表明正存在的语音的概率高，则泄漏较慢，而如果存在没有语音的高概率，则泄漏较快。在一种实施方式中，当表明语音时使用10dB/秒的速率，否则使用20dB/秒的值。在元件311的备选实施方式中，使用最小值控制的递归平均来确定噪声电平N′_b。参见，例如：I.Cohen和B.Berdugo，“Spectral enhancement by tracking speech presenceprobability in subbands（通过跟踪子带中的语音存在概率的谱增强）”，Proc.免提语音通信的IEEE研讨会，HSC'01，京都，日本，2001年04月9日至11日，第95至98页；I.Cohen和B.Berdugo，“Speechenhancement for nonstationary noise environments（非平稳噪声环境下的语音增强）”，信号处理，第81卷，第11期，第2403至2518页，2001年11月；以及I.Cohen和B.Berdugo，“Noise Estimation by MinimaControlled Recursive averaging for Robust Speech Enhancement（通过用于鲁棒语音增强的最小值控制的递归平均的噪声估计）”，IEEE信号处理快报，第9卷，第1期，2002年1月，第12至15页。

增益确定级313使用控制值、空间指示器以及关于样本的每帧的估计的信号功率谱和瞬时带状信号功率中的一个或更多个来确定用于配置增益应用级315的一组增益控制值。增益应用级被配置成对样本的每个频带应用适当的增益，以实现噪声抑制和位置外的信号的抑制中的一个或更多个。

在一些实施方式中，实现级313（或类似的增益确定级）来确定增益控制值，该增益控制值另外用于将增益级315配置为根据包括目标功率谱（或其他幅值度量谱）和目标空间属性集的一个公共目标来调整在终端所捕获的仅噪声样本的每个帧。在会议系统的一个版本中，这样的噪声样本的调整被包括在图1中示出的系统的每个终端中，并且所有的终端可以使用相同的目标，使得不同的终端处调整后的噪声比未调整的噪声在谱和空间属性上更一致。因此，在一些实施方式中，在每个终端处捕获的噪声被调整以生成具有与目标谱（至少基本上）匹配的功率谱（或其他幅值度量谱）以及与目标空间属性（至少基本上）匹配的至少一个空间属性的调整后的噪声。通常，在终端处捕获的语音还没有被这样调整。例如，响应于VAD311指示的样本的每个帧很可能是语音，级313确定用于配置增益级315的一组语音默认增益控制值以调整帧。对于表示噪声而不是语音的每个帧，级使用用于配置增益级315的增益控制值调整帧的样本，从而生成具有与目标谱（至少基本上）匹配的谱以及与目标空间属性（至少基本上）匹配的至少一个空间属性的调整后的噪声样本。参见图10和其下文的说明。

来自级315的样本输出在编码器317中被编码，然后所得到的编码音频信号通常经由图1的网络接口113被发送至服务器101或直接发送至系统的每个终端105、107、109和任何其他终端。

在一种实施方式中，时间-频率变换实现了调整的离散余弦变换（MDCT）。图4示出了编码器317的简化框图。该编码器被配置成根据输入样本的帧的MDCT谱数据来确定的幅值度量包络值（例如，对数RMS包络），并且对包络进行量化。编码器317还操作用于例如使用包络增量编码和Huffman编码对量化的包络值进行编码，以产生包络增量，该包络增量构成由编码器输出的编码位流的一部分。编码器317还被配置成对输入的量化的包络的每个频带分配位以生成分配数据。编码器还被配置成使用量化的包络将MDCT谱数据归一化。该编码器还被配置成通过对归一化的MDCT谱数据进行量化和编码以形成编码位流的量化的MDCT谱数据部分。在一种实施方式中，音频输入的编码量化的MDCT谱数据、分配数据和编码包络增量以分层编码格式形成一个或更多个层。在这样的实施方式中，编码器提供其他信息（例如，增益、空间信息以及一个或更多个层中的VAD值中的一个或更多个信息）并且复用这些层以经由网络进行传输。

终端111的输入处理模块125可以对由麦克风123捕获的输入音频信号执行其他处理，以生成经由网络接口113被认定（assert）到网络123的编码音频输出。

未示出的元件为，例如，包括将音频输入信号数字化的量化器的模数转换器、生成一组音频输出的数模转换器和其他元件，这些对于本领域技术人员而言将是清楚的。

终端105、107和105中的任何终端可以包括上述输入处理级125的所有元件，但不是必须包括上述输入处理级125的所有元件，并且可以包括其它元件。例如，输入处理的一些实施方式包括回声抑制。

示例终端的接收方输出处理

在示例实施方式中，终端111的接收方包括网络接口113和解码器114，网络接口113被配置成接收来自网络的包括以商定格式和协议编码的音频数据在内的数据，解码器114被配置成产生由输出处理模块117要处理的多个接收到的音频信号115。本发明的主要方面涉及接收方处理：终端111包括空间舒适噪声发生器119，空间舒适噪声发生器119被配置成产生具有舒适噪声的典型谱属性和与至少一个目标空间属性基本上匹配的至少一个空间属性的多个空间舒适噪声信号121。在一种实施方式中，至少一个目标空间属性由目标统计属性表示，在一个版本中，由协方差矩阵表示。空间舒适噪声发生器119耦接至输出处理模块117。输出处理模块117被配置成将所接收的音频信号115与多个空间舒适噪声信号121组合，并且输出处理模块117包括一个或更多个渲染引擎，渲染引擎被配置成渲染结合有舒适噪声帧的接收到的音频帧，以形成用于扬声器（例如，耳机131）或布置在环绕声布置（例如，5.1布置133）中的扬声器的一组输出信号，以使接收终端处的一个或更多个与会者听到。在示出的示例实施方式中，输出处理模块117被配置成产生两组输出信号，一组输出信号用于耳机131以及另一组输出信号用于5.1布置133。因此，在一种实施方式中，渲染为所接收的音频信号与空间舒适噪声信号组合，使得除了所接收的音频信号的输出之外，还持续地输出空间舒适噪声信号。

图5示出了空间舒适噪声发生器119的一种实施方式，空间舒适噪声发生器119以所期望的声场或其他空间形式（在该示例中，为WXY B格式）生成多个空间舒适噪声信号121，并且空间舒适噪声信号121具有舒适噪声的典型谱属性以及与至少一个目标空间属性噪声基本上匹配的至少一个空间属性。发生器119包括多个噪声源，在该示例中，包括三个噪声源401、402、403，这些噪声源被配置成例如使用随机数发生器来生成独立同分布（independent and identically distributed，IID）的噪声样本。在一种实施方式中，每个噪声信号为由被归一化具有均值0和协方差1的样本组成的高斯噪声，而在另一实施方式中，每个噪声信号被均匀地分布，由被归一化成在范围﹣1至1的范围内的样本组成。缩放元件405、406和406被配置成将各个噪声样本缩放到低于标称语音电平的某个电平。在一种实施方式中，噪声样本被缩放到低于标称RMS语音电平的30dB与60dB之间的电平。

将噪声调整成具有目标幅值度量谱（例如，目标功率谱）和目标空间属性集的调整后的噪声信号121。目标谱特征被选择为舒适噪声的典型谱特征。因此，在一种实施方式中，每个噪声信号的滤波器生成具有舒适噪声的典型功率谱的噪声。在一种实施方式中，谱调整使用一组带通滤波器511、512和513。在一种实施方式中，这些滤波器为具有50Hz至150Hz的通带的一阶带通滤波器，而在另一形式中，这些滤波器为具有50Hz至200Hz的通带的一阶带通滤波器。在一种实施方式中，每个一阶滤波器为具有50Hz至150Hz的通带的一阶时域巴特沃斯（Butterworth）带通滤波器。空间属性调整并且与语音信号（可能是静音的）组合之后，以及在渲染之后，发现对人类受试者产生满意的结果。注意，本发明不限于任何特定带通滤波器设计，不限于任何通带，或者甚至不限于使得噪声具有所期望的目标谱特征和目标空间属性的任何特定方法。

图6示出了作为曲线T的在本发明的典型实施方式中使用的由具有50Hz至150Hz的通带的一阶时域巴特沃斯带通滤波器511、512和513滤波的噪声的目标谱。发明人发现，这生成具有舒适噪声的典型谱属性的噪声。由于50Hz至150Hz处的通带仅为一阶，所以会从150Hz至300Hz下降6dB。类似地，从50Hz到25Hz存在6dB的下降。这样生成的噪声具有以较低的频率存在于很多办公室和会议室中的背景噪声的典型“粉红噪声”谱特征。当在本发明的实施方式中使用时，可以由所期望的绝对噪声输出电平（例如，通常低于所期望的约20dB至60dB的绝对语音输出电平的绝对噪声输出电平）将谱进行缩放。为了进行比较，图6还示出了在包含典型的会议系统终端的两个不同室内中所捕获的两个实际噪声信号（标记为N1和N2）的功率谱。

具有目标空间属性集的调整包括在输出处理级117或其他地方将滤波后的噪声信号渲染为一组远场源。在一种实施方式中，渲染与空间调整级521组合。在一种实施方式中，以声场格式（例如，左、右、环绕（LRS）格式或者由W、X和Y信号（XYZ）所定义的水平B格式）生成三个信号。

在一种实施方式中，空间调整级521被配置成将三个声场映射到由具有至少一个目标空间属性的W、X和Y信号所定义的水平B格式。发现这很有效。然而，本发明不限于将噪声转换为声场形式或任何其他形式（例如，环绕声形式）或简单地作为来自麦克风阵列的一组信号。本发明也不限于使用到特定的预定义的声场格式的任何特定映射。此外，渲染可以是声场格式，或者，在已知仅使用耳机输出的情况下，一种实施方式仅创建两个噪声信号，进行滤波以在谱上定形信号，并使用HRTF（头部相关转换函数）空间滤波器组的滤波器进行滤波，这在本领域是公知的，以直接生成耳机的双耳声的输出。

在一种实施方式中，空间调整级521是由3×3矩阵定义的线性映射，表示为M并且称为扭曲矩阵（warping matrix），在一种实施方式中，扭曲矩阵将第一声场格式与第二声场格式之间的映射与实现由目标统计属性（例如，目标协方差矩阵）表示的至少一个目标空间属性组合。521级的备选名称是空间扭曲级521。

下面是从LRS到XYZ的转换以及从XYZ到LRS的转换，在每种情况下，保留信号的参考电平。使用表示矩阵转置的(·)^T将信号向量[XYZ]^T转换为信号向量[L R S]^T’，[X Y Z]^T=M[L R S]^T，其中，

M = [\begin{matrix} \frac{2}{3} & \frac{2}{3} & \frac{2}{3} \\ \frac{2}{3} & \frac{2}{3} & - \frac{4}{3} \\ \frac{2}{\sqrt{3}} & - \frac{2}{\sqrt{3}} & 0 \end{matrix}] . .

类似地，保留参考电平从信号向量[L R S]^T转换成信号向量[X Y Z]^T，

M = [\begin{matrix} \frac{1}{2} & \frac{1}{4} & \frac{\sqrt{3}}{4} \\ \frac{1}{2} & \frac{1}{4} & - \frac{\sqrt{3}}{4} \\ \frac{1}{2} & - \frac{1}{2} & 0 \end{matrix}] . .

在一种实施方式中，空间调整级521的矩阵M运算被配置成在WXY域创建目标统计，例如，所期望的WXY域中的协方差矩阵，表示为R_T。

在一种实施方式中，用于噪声源501、502和503的缩放元件505、506和507不仅分别被调节以实现低于标称语音电平的目标电平，而且还被配置成使得用于实现所期望的协方差矩阵的空间调整级521的所需要的矩阵操作M是简单的单位矩阵，使得级521是直通（pass-through），在一个版本中使用可设置的参数来实现，例如，不执行操作521。在各向同性噪声的情况下，噪声的W、X和Y分量将不相关，因此可以被映射为具有所期望的电平。从各向同性噪声开始，使用用于噪声源501、502和503的缩放元件505、506和507对输入流进行适当的缩放，可以实现由单位矩阵定义的级521，即，直通。

在更一般的情况下，使由具有平均值的向量X₀（例如，具有平均值的X₀=[X₀ Y₀ Z₀]^T，其中，在一种实施方式中是零向量0）表示到级521的输入，并且最初假设噪声的协方差矩阵为R₀。由具有平均值和所期望的协方差矩阵R_T的向量X（例如，X₀=[X Y Z]^T）表示输出噪声121。然后，级521的应用扭曲矩阵M将产生平均值

\overset{&OverBar;}{X} = M {\overset{&OverBar;}{X}}_{0},

以及协方差矩阵

R_T=MR₀M_T

为了实现这个，

以MATLAB表示，M=[R_TR₀–1]^1/2=[R_T/R₀]^1/2，

其中，对于矩阵A，平方根矩阵A^1/2是矩阵方程BB^T－A=0的解B，或者，如果B是对称的，BB-A=O。如果矩阵A是协方差矩阵，它是半正定且对称的，所以被对角化并且具有非负特征值。存在矩阵V使得A=VΛV^T，其中，Λ是A的特征值的对角矩阵，并且A^1/2=VΛ^1/2V^T，其中Λ^1/2是每个元素是Λ的相应元素的平方根的对角矩阵，即，特征值是Λ的相应的特征值的平方根。

在一种实施方式中，噪声源501、502和503产生独立同分布（i.i.d.）的随机信号，例如，三个独立单位协方差高斯信号，例如R₀=I（未经505、506、507缩放）。为了实现具有所期望的空间统计属性的表示为R_T的所期望的协方差，级521应用扭曲矩阵，

M=[R_T]^1/2

在一些实施方式中，目标空间属性为使得噪声121被渲染成被视为源自明显的源位置，例如，远离不同的明显的源位置。作为示例，再次假设噪声R₀=I（未经505、506、507的缩放），并且期望实现噪声分量中的光空间倾斜，例如，实现下面的目标协方差矩阵R_T，该R_T对应于有点偏向零方位方向的噪声，

R_{T} = [\begin{matrix} 1 & 1 & 0 \\ 0.1 & 0.9 & 0 \\ 0 & 0 & 0.8 \end{matrix}] . .

然后

M = {[\begin{matrix} 1 & 1 & 0 \\ 0.1 & 0.9 & 0 \\ 0 & 0 & 0.8 \end{matrix}]}^{\frac{1}{2}} = = [\begin{matrix} 0.9987 & 0.0514 & 0 \\ 0.0514 & 0.9473 & 0 \\ 0 & 0 & 0.8944 \end{matrix}] .

所生成的舒适噪声的噪声样本被布置为一组音频样本帧中的每个帧的频带。因此，关于每个带的所期望的协方差矩阵R_T的元素确定了表示调整后的噪声信号在应用空间扭曲矩阵M之后在每个带中如何在空间上偏向的二阶统计量。在一些实施方式中，对于不同频带，目标空间协方差结构R_T可以有所不同。例如，较低的频带可以在可以减少不愉快的室内模式的目标上更相关，而在较高的频带处，目标空间结构可以是各向同性的。在一些实施方式中，空间扭曲矩阵被慎重地确定，以使得对输入噪声应用空间偏置以提供改进的会议体验。

注意，在一种实施方式中，缩放元件505、506、507实现所期望的噪声电平深度轮廓，并且还应用缩放因数，该缩放因数为频带的函数并且被配置成使输出噪声的幅值度量（例如，功率谱）与目标谱匹配。也就是说，在一种实施方式中，将滤波器511、512、513的滤波被结合到缩放元件505、506、507中。

因此，在本发明的一些实施方式中，确定关于每个带的扭曲矩阵M，并且通过对所生成的噪声的帧的频带应用这些扭曲矩阵，发明的系统和方法使所得到的舒适噪声的谱和空间属性与目标谱和目标空间属性相匹配。

本发明的实施方式的一个特征是不管是否存在语音，空间舒适噪声均以舒适噪声电平持续地存在，使得舒适噪声成为感知上与语音存在无关。

此外，由于WXY和/或LRS格式与检测器有些不相关，一般在关于各向同性或扩散性噪声的信号的依赖于频率的协方差方面不存在显著的变化。相反，在双耳输出的情况下，这样的输出意味着一定的间隔和随频率变化的相关程度。因此，通过残留在基于共同入射的麦克风组或集中的基本函数组的声场域LRS或WXY，独立的空间存在分量与WXY声场之间的变换为宽带变换，因此一般在时域中实施。

上述实施方式中的附加的注释是，在WXY域中所生成的信号是适合于不同类型的输出（例如，耳机或一组扬声器）的很多渲染。在所得到的输出仅是针对耳机的情况下，可以示出，左耳机（L）和右耳机（R）将具有相关联的协方差矩阵，该协方差矩阵可以使用适当的依赖于频率的转换矩阵更直接地被实现用于谱匹配。

虽然这是达到模拟扩散场双耳噪声和匹配关于扩散场的常规双耳时间差（ITD）和两耳间电平差（ILD）特征的捷径，明显的是，上述方法利用了现有渲染框架，例如，头相关变换函数（HRTF）渲染引擎或扬声器平移引擎，这对于系统实现能够更有效。

此外，HRTF中的频率依赖性协方差表明需要频率依赖性或有限冲激响应（FIR））滤波。通常更容易使用供应有由具有添加的舒适噪声的语音信号构成的分量的存在的现有的一组渲染滤波器，以实现这一目标，而不是任何专用的扩散场模拟滤波器的设计，并且一些实施方式需要利用这样现有的渲染滤波器。

对输入处理的调节和调整

由于在一些实施方式中，终端111的接收方经常在存在所生成的空间舒适噪声的情况下使音频被听到，因此捕获音频的终端的输入处理可以考虑这一点。具体地，音频输入处理只需要足够的努力，以减少任何残留的或不想要的噪声分量，以使得在存在所生成的空间舒适噪声的情况下，它们低于掩蔽阈值或噪声阈值。在很多情况下，这代表比其他方式应用了更低量的抑制，这在使得声音质量能够改进的方面上是有利的。这主要适用于否则将具有语音片段周围的静音的会议系统。

假设另一终端（例如，发送终端105）与终端111具有关于音频的相同架构，该架构包括级125的输入处理，这样的输入处理125的一些实施方式包括：确保增益不下降至低于预定义的最小值，因此，存在预先定义的最大抑制深度。此外，在一些实施方式，并非关于所有带的增益都具有相同的最大抑制深度（最小增益），可以期望频带不同则最小电平也不同。在一种实施方式中，应用于所捕获的信号的带状幅度度量谱（例如，功率谱）增益（表示为Gain′_b）被确定为：

Gain′_b＝Gain′_b,MIN+(1-Gain′_b,MIN)·Gain′_b,RAW

其中，Gain′_b,MIN表示最小增益，以及Gain′_b,RAW表示以下增益，该增益用于实现可能与回声和位置外的抑制组合的噪声抑制。作为一个示例，在输入处理125的一些实施方式中，最大抑制深度或最小增益可以从﹣80dB至﹣5dB变化并且依赖于频率。在一种实施方式中，抑制深度在200Hz以下的低频率处大约是﹣20dB，在1kHz处变化到大约﹣10dB以及在约4kHz的较高语音频率处释放为仅﹣6dB。

在输入处理125的一些实施方式中，通过输入信号的分类（例如，通过VAD来确定是否为语音）来控制增益处理。在一种这样的信号分类控制的实施方式中，用于每个带的增益的最小值Gain′_b,MIN取决于信号的分类，例如，在包括VAD的实施方式中该信号被VAD确定为语音。在一种这样的实施方式中，如果VAD确定信号是语音，则Gain′_b,MIN例如以依赖于频带的方式增加到接近于1，或在另一实施方式中，Gain′_b,MIN针对每个带b而增加相同的量。在一种实施方式中，最小值中的增加量在中频带（例如，在500Hz和2kHz之间的带）中更大。

在改进的实施方式中，最小增益值的增加被控制为随着检测到语音的时间以逐步的方式增加，以及类似地，在已经检测到语音之后随着检测到语音的缺失的时间以逐步的方式减小。

图7为两个曲线的组。在上面的曲线中，标有“语音”的曲线为电话会议期间所捕获的典型语音的功率谱，“噪声”曲线为电话会议期间所捕获的典型背景噪声的功率谱，以及“目标”曲线为目标功率谱。

在下面的曲线中，标有“Gain_N”实线曲线表示用于调整噪声（例如，上面的曲线中的噪声）的一组示例增益抑制值（被绘制为频带的函数），使得调整后的噪声具有与上面的曲线中的目标谱匹配的功率谱，并且Gain_v的阴影区域表示关于这样的噪声抑制增益的范围。

由T′_b表示通常具有-60dB的量级的目标存在噪声电平。由D′_b表示最大抑制深度（通常介于-30dB与-40dB之间）。同样，S是由VAD所确定的语音的概率或语音的当前概率的单调函数，并且Gain′_b表示在带中应用的抑制增益。注意，所有的这些量都取决于频带b。

在一种实施方式中，存在最小增益（最大抑制深度），使得Gain′_b>Gain′_b,MIN，并且期望使增益Gain′_b最大化以抑制噪声，使得噪声估计N′_b×Gain′_b≤T′_b。此外，当S→1时，Gain′_b→1。

在一种实施方式中，随着VAD输出的增益变化是：

{Gain}_{b}^{'} = {Gain}_{b, MIN}^{'} + (1 - {Gain}_{b, MIN}^{'}) {(\frac{T_{b}^{'}}{N_{b}^{'}})}^{1 - S / 2},

N′_b＞T′_b

Gain′_b＝1，N′_b≤T′_b。

如果以dB表示，则随着VAD输出的增益变化是：

{Gain}_{b_{dB}}^{'} = (1 - S) \max ({Gain}_{{b, MIN}_{dB},}^{'} \min (0, (T_{b_{dB}}^{'} - N_{b_{dB}}^{'}))) .

因此，当在谱中不存在或存在很低的输入能量，因此表示只存在噪声时，被抑制的信号的所得到的谱将下降得低于目标电平。在一般情况下，目标通常被设置为在最终预期的存在的附近。在一种实施方式中，信号中的残余噪声电平被设置为与目标谱噪声电平相匹配。

注意，当没有信号时，例如，如果信号完全被关断（gate off），关于任何带的高于注入的存在噪声的目标电平一般会导致一些提高（boosting），而关于任何带的低于存在噪声的目标电平可能会涉及更深的平均抑制，即使利用这样的目标电平可能更好地减少或消除对信号中的背景感知，这仍可能会影响语音质量。发送终端的一些实施方式包括这样的终端，该终端在没有语音的时间期间将噪声普调整为具有一个共同的目标，这样，由不同的终端发送的仅噪声信号是一致的。本发明的接收终端实施例方式被配置为生成存在噪声并将存在噪声添加至接收到的信号。对下降得低于所期望的目标的任何残余噪声进行提高没有什么益处，并且它可以是低电平噪声将被放大的给定的风险。

因此，在具有根据本发明的一个方面添加已知的舒适噪声的终端的会议系统中，本发明的一些终端实施例利用了以下知识，该知识为语音音频和已知的舒适噪声将始终在收听终端处一起被听到。具体地，这样的发送终端利用该知识来改善甚至优化它们各自的输入音频处理。在很多情况下，已知具有已知的目标谱属性的舒适噪声将被包括在接收终端，导致发送终端（该发送终端通常还被配置为在接收时添加这样的噪声）使用不想要的噪声的比其他将被施加的噪声较少量的抑制。

谱和空间指导

特别有用的是，特别有用的是在接收终端具有关于发送终端（以及其环境）的附加数据，附加数据可以用于使用例如滤波器511、512、513以及空间扭曲（warping）矩阵（元件521）来获得舒适噪声的典型谱属性和空间属性。这可适用于，例如，捕获终端的原始室内（在抑制后）处于高噪声和/或噪声在空间或谱特征方面与典型的存在噪声很不同的情况。

本发明的一些实施方式包括将所生成的舒适噪声的空间属性调整为不同的会议室的属性和所捕获的声场的属性。一个方面是将所生成的存在噪声的空间属性配置成与不同室内和声场的至少一个合理匹配，所述不同室内和声场可以以正被捕获的预期的会议终端活性存在。也就是说，再次考虑图1，终端111的一种实施方式被配置为调整所生成的存在噪声的空间属性以匹配在其他终端105、107和109处捕获的以及发送自所述其他终端105、107和109的语音信号的通常不同的各个空间属性，其中，所述其他终端105、107和109将语音发送至终端111。

接收终端的一些实施方式使用表示在发送终端所捕获的信号的至少一个空间属性的信息，例如，关于正被捕获的声场的谱统计信息，例如，与发送终端相关联的WXY协方差矩阵的属性、与发送终端所发送的声场有关的这种数据、或者在接收终端处确定的这种数据。在一种这样的终端实施方式中，空间存在噪声的生成和渲染使用关于发送终端处的声场的这种数据。本发明的不同实施方式包括实现这一点的不同方法。

作为第一个这种方法，接收终端监测在发送终端处捕获的声场。本发明的一些实施方式包括发送对此，本发明的一些实施方式包括发送终端确定WXY（或类似的）声场分量的带状协方差矩阵。接收终端111的一种实施方式被配置成监测各自的空间属性，例如，当这样的终端活动时，被配置为确定来自发送终端的一组频带的各自的WXY流的协方差矩阵，并且还被配置成存储一组协方差矩阵，例如，关于每个已知的发送终端的至少一个协方差矩阵。因此，接收终端111的一种实施方式包括接收终端执行一些处理，例如，执行声场噪声统计分析以生成以下数据，该数据可用于生成空间舒适噪声。要注意，这样的处理通常被包括在接收终端的输入处理中，例如，用于在这种的终端发送会议数据时进行抑制，并且用于这种处理的装置可以被用于接收到的数据以生成空间舒适噪声。

利用在发送终端处捕获的空间信息的第二方法包括：发送终端发送这种信息，以及接收终端接收该信息。如上所述，在标题为“示例终端的发送方输出处理”的子章节中和其他地方，发送终端可以包括确定噪声电平的估计值。发送终端的一些实施方式还包括确定空间属性，例如，协方差矩阵统计信息的估计，至少包括整个光谱的协方差交叉项的估计值。典型的终端不管其是否正在发送都可以确定这种信息，例如，当VAD表示输入不是语音，即，是噪声时，可以确定该输入的协方差矩阵。如上所述，发送终端中的处理的一种实施方式包括空间扭曲以使得至少一个空间属性（例如，协方差矩阵）与至少一个目标空间属性（例如，目标协方差矩阵）匹配。本发明的一种实施方式包括在传输脉冲串期间在一个版本中发送终端不时地（例如以相对低的速率）发送至少一个谱空间属性，以及作为备选的或附加地，在另一版本中，以低的速率随着发送终端的正常数据一起发送至少一个谱空间属性。

一种这样的实施方式包括发送终端压缩谱和空间属性数据，以例如通过发送（1至1.5倍频程分辨率的量级的）粗糙谱数据来减小数据速率。

发送终端的一种实施方式确定（作为发送方处理的一部分）二次位流格式（例如，利用相对于常规编码音频数据包来说较小的数据包）并且包括要生成的舒适噪声的这样的二次位流谱形状数据和其他属性。二次位流可以与与常规音频数据的位流复用，以形成经由网络发送到服务器的复用位流。

发送终端的另一种实施方式包括发送终端将二次位流作为单独的信道来发送，该单独的信道没有时帧率更新的那么频繁。

在一些实施方式中，谱和空间属性数据被打包为分层编码方法的字段之一，分层编码方法对信息（字段）的层进行编码并且将层发送至接收终端111，例如，作为各层的复用位流。接收终端，例如，终端111利用一个或更多个附加层中的该信息来引导空间舒适噪声。已知的是，发送终端可以被配置为根据多个捕获的音频信号来确定用于发送的多个层，将这样的多个层编码成位流，并发送这样的位流。一个层包括足以重构表示所捕获的音频信号的单声道音频信号的单声道（monophonic，mono）信息。一个或更多个附加层被设置用于发送（和接收）空间信息和其他信息（例如，噪声估计、掩蔽曲线、每个带的VAD值、和/或实现所期望的抑制的一个或更多个的增益、和/或相关联的掩蔽曲线）。这样的空间信息的示例包括通过估计输入信号的协方差来社情的带状的协方差矩阵数据。尽管终端识别信息在接收服务器处也可以是能推导出的，但是在一个版本中，额外的层包括关于发送终端的识别信息和其他信息，并且被发送至接收终端。因此，接收终端接收以下信息，该信息足以确定来自各个终端的所捕获的输入信号的至少一个空间属性，并且足以将来自特定终端的信号空间渲染为具有所期望的空间属性，例如，所期望的位置或方向。

发送终端提供数据以引导在接收终端处生成舒适噪声的第三方法为：针对接收终端，使用与噪声相关联的掩蔽曲线、以及通常被嵌入在任意编码流中的其他噪声细节。例如，在没有语音活动性时发送的流包含以下噪声，该噪声在一个实施方式中包含用于对在接收终端111处渲染的空间存在噪声进行塑形的谱信息。

舒适噪声的时域结构

本发明的上述实施方式使用底层稳态噪声处理来生成舒适噪声。已知的是，典型的室内噪声（以及典型的环境噪声）具有一定的时域结构。本发明的一些实施方式还包括或替代地包括生成具有舒适噪声的典型时域结构的噪声。

包括合并时域结构的终端111的一种实施方式包括对于生成的舒适噪声使用预先记录或采样的、并且在一个版本中重复，即，循环的典型室内噪声的预存储的部分。

包括合并时域结构的终端111的另一实施方式包括使用高阶统计量以及通过谱的全部或部分的激发包络来生成幅度调制。为了执行这，一种实施方式使用典型的室内噪声的整个频率范围的时域结构的知识。通常，在较高的频率处涉及的时间相对小，使得较高的频率建模需要对约三至四个带的建模。

在一种实施方式中，生成包络激发使用分形激发（fractionalexcitation）。已知的是，很多自然现象具有相对于时间的分形（也称为自相似性）属性，也就是说，它们是尺度不变的，原因在于它们的现象对于时间单位的任何选择都表现得相同。所谓的1/f噪声对于时间单位的任何选择都表现得相同。出于这个原因，它已经被广泛认为是很多自然现象的分形特征的突出表现形式。众所周知，过程的自相似的时间性质与自然噪声类似。参见，例如，R.F.Voss和J.Clarke，“音乐中的1/f噪声”，美国声学学会杂志，第63卷，第258-263页，1978年1月。

一种实施方式使用以下分形激发，该分形激发包括使用随机噪声发生器产生的1/f噪声。另一实施方式使用以下分形激发，该分形激发包括使用自定义函数创建的1/f噪声。一种这样的方法采用有限差分方程，例如，如在I.Procaccia和H.G.Schuster，“Functional Renormalisation GroupTheory of Universal1/f Noise in Dynamical Systems（动态系统中的通用1/f噪声的函数重新归一化组理论）”，物理评论28A，1210-1212页（1983）中提出的。还参见H.G.Schuster和W.Just，“Determination Chaos–AnIntroduction(4^thEdition)（确定混沌-导论（第4版））”，WILEY-VCH出版社，Weinheim，德国，2005年。1/f噪声生成方程的一种实施方式生成二进制噪声样本{x_t}，有限差分方程：

x_t=[x_t-1+（x_t+1）²]mod1

终端111的一种实施方式还包括包络激发的适当滤波以确保它与给定房间中的合理情况是一致的。在一种实施方式中，通过快速跟踪和慢衰减峰值跟踪器来对包络进行滤波，例如，通过一阶最大跟随滤波器（following filter）（或一阶几何衰减滤波器）对包络进行滤波，以捕捉快速攻击，同时限制衰减的速度以与室内的典型回响特征相匹配。

与变换域噪声生成编解码器的集成

对于发送终端常见的是，通过在不存在活动语音期间停止或减少数据传输以提高编码效率，并且使用不连续传输指示符（例如，DTX）向接收终端表示存在不连续性。终端处的典型编解码器的解码器部分被配置成接收这样的编码数据（包括DTX），检测DTX，以及在这样的流中为静音周期添加“填充噪声（fill-noise）”，通常使用解码器随机噪声发生器来生成填充噪声。

本发明的一个方面是调整编解码器，并且使用通常在编解码器的解码器侧生成的填充噪声以高效地生成具有舒适噪声的典型的谱和空间属性的舒适噪声，以及将这样的舒适噪声添加到解码数据。在图1的会议系统的一种实施方式中，没有DTX被发送，而在另外的实施方式中个，DTX被发送。根据本发明的一个方面，除了在包括DTX的情况下填充噪声之外，不管噪声是否存在，接收终端111总是将舒适噪声添加到流。

图8示出了被配置成与图5的MDCT域编码器相匹配的MDCT域解码器417的一种实施方式的框图。该解码器可以通过对与图5的编码器相匹配的典型MDCT域解码器进行简单调整来实现。这样的典型MDCT域解码器包括选通器（gater）、DTX检测器和随机噪声发生器，选通器、DTX检测器和随机噪声发生器被配置成协作以例如，当检测到DTX时，或当量化的系数为零时，或者在遇到零值的量化MDCT系数时，添加填充噪声。随机噪声发生器所生成的随机数与（例如，来自存储的表格的）噪声电平参数相乘。对于图5中所示的示意图中的随机噪声发生器来说，图8的发明的解码器使用典型的解码器中包括的随机噪声发生器。除了零和非零系数之外，图8的解码器使用与典型解码器相同的策略。选通器和DTX检测器807为典型解码器的选通器和DTX检测器的调整版本，并且接收舒适噪声的具有谱特征以及（在一种实施方式中）典型空间特征的舒适噪声，该舒适噪声是由发生器803生成的噪声的调整版本。由谱/空间调整级805执行调整。选通器和DTX检测器807被配置成与舒适噪声插入级809协作以在任意时间将舒适噪声添加到解码信号，并且还在静音的时段和/或DTX时段插入舒适噪声。在一种实施方式中，所得到的MDCT系数被形成为所获得的重构系数与包络的乘积。

在一种实施方式中，解码器被配置成具有相对缓慢变化的包络。在一种实施方式中，施加简单的平滑，例如，使用可根据参数值设置的单个时间常数来进行平滑。

因此，终端111的编解码器提供机制来控制信号的粗糙的谱形状（指数编码），以及还提供以下源，该源用于生成随机变换域激励以填充低于编码噪声阈值的信号分量，并且还生成舒适噪声。

在一种实施方式中，存在噪声被假定为具有以下分量，例如，不相关的WXY分量，即，具有对角线协方差矩阵，例如，在相同分布的分量的情况下，具有作为缩放单位矩阵I的协方差矩阵。

一种实施方式使用从单信道编解码器生成的噪声样本，并且应用延迟和置换来创建适合于生成舒适噪声的空间上不同的声音。

丢包隐藏

终端111中的解码器的一种实施方式包括语音编解码器的典型丢包隐藏。终端111的一种实施方式明确区分DTX和丢包条件。此外，在一种实施方式中，舒适噪声生成被用于一个或更多个预定义的丢包条件中的丢包隐藏。在一个实施方式中，舒适噪声生成被用于丢包的长时间脉冲的情况下的丢包隐藏。

示例解码和场景控制子系统

图9示出了位流解码和场景控制子系统900的一种实施方式的简化框图，该位流解码和场景控制子系统900为其中终端以多个编码数据流接收数据的会议系统的实施方式的备选实施方式的一部分。这样的终端包括比框图1、3、4、5和8以及它们的描述中所描述的处理级更多的处理级。该处理还可以被分割成与这些框图中的处理级不同的处理级。位流解码和场景控制子系统900被配置成在到达网络接口的数据包的内容（有效载荷）中接收多个编码数据流。数据包有效载荷包括通过网络103从会议服务器101接收的来自一个或更多个终端的会议数据，其中多个终端能够在任意时间称为活动的参与者。数据包有效载荷的会议数据被布置成表示来自发送终端的音频的多个编码数据流。编码数据流包括来自一个或更多个终端（通常为多个发送终端）的编码单声道音频数据，并且还包括用于渲染音频数据流的空间和控制信息

图1的会议系统的实施方式的一个方面包括将在任意时间点到达任意终端处的会议音频数据限制到编码数据流的表示为N_max的最大数量。在系统的一种实施方式中，N_max=3，所以在任意时间点达到任意终端处的最大数量为三个的输入编码数据流。备选的实施方式将编码数据流的数量限制到不同值的N_max。

由N_S表示在端点处接收到的数据包数据中同时活动的音频数据流的数量。这样的会议系统实施方式的另一方面包括提供大于N_max的N_S，使得比最大数量N_max多的终端音频数据流可以同时活动。将同时活动的音频数据流的最大数量表示为N_S,max。在一种实施方式中，N_S,max>N_max，例如，N_max=3，N_S,max=6。在这样的实施方式中，因此，服务器101被配置成将N_S个编码活动流和其空间信息布置成编码数据流，使得不多于N_max的编码流被发送至任意一个终端。在一个示例中，N_S个活动流与场景控制和渲染信息911一起被复用到N_max个流，场景控制和渲染信息911足以使得接收终端能够将所接收的编码数据流解码和去复用成包括N_S个解码音频流的流，并且提供场景控制和渲染信息以对N_S个解码音频流进行渲染。例如，通过使用输出渲染器909将N_S个解码音频流中的一个或另一流移动和重新分配到N_S个空间位置，渲染对N_S个去复用的解码数据流赋予特定的相应空间属性。在一种实施方式中，场景控制和渲染信息911包含其他信息，例如，VAD值。

输出渲染器909被配置成将N_S个流中的每个流渲染成一组固定的点中的N_S个点。附加地，另一实施方式，或作为备选的实施方式，由渲染器909使用影响每个流的渲染的参数，例如，从而赋予到达N_S个流中的每个流的不同方向。

解码/场景控制子系统900的一种实施方式包括：包括N_max个各自的解码级905、906、907的一组N_max个编解码器。通常，各个解码级905、906、907包括相应的随机噪声发生器NG1、NG2、NG3。这样的噪声发生器被共同用于静音期间和/或在接收到适当的DTX数据时，并且根据本发明的实施例方式而被用于舒适噪声生成。

解码/场景控制子系统900的实施方式被配置成将空间舒适噪声添加到流，这样的空间舒适噪声与N_S个接收到的流的音频一起被空间渲染。因此，如果语音存在，并且没有任何传入的语音活动性，则空间舒适噪声被添加到流的解码的语音数据。

一些实施方式使用图4中示出的上面所描述的系统，该系统包括单独的随机噪声发生器。子系统900的实施方式使用包括在解码级905、906、907中的随机噪声发生器NG1、NG2、NG3。

解码/场景控制子系统900的一种实施方式包括数据包解释器901以解释传入的数据包有效载荷并且将有效载荷分离成：a）内容信息，在一种实施方式中，包括关于N_S个音频流的编码数据的N_max流；以及b）场景控制和渲染信息911，提供用于对N_S个音频流进行渲染的空间信息和控制，并且可以包括由子系统900执行功能所需的其他信息。

一种实施方式假定和提供在数据包有效载荷中被编码到N_max个编码数据流中的固定数量N_S,max个所包括的音频流。

解码引导级913接收内容信息，并且响应于场景控制和渲染信息911（具体地，响应于来自场景控制和渲染信息911的由场景控制级915所生成的场景控制信号），将数据分配给N_max个可用的解码器905、906、907，向解码器馈送可应用于N_S,max个所包括的流中的每个流的相应谱信息。场景控制级915还将空间信息和控制信息（以及在一些版本中，还有其他的信息（例如，VAD控制信息）馈送给生成存在控制信号的存在控制器917，用于生成和添加舒适噪声。N_max个解码器905、906、907中的每个解码器对N_max个编码数据流中的每个流进行解码，并且根据本发明的一个方面，以及响应于存在控制信号，如上所述的，例如，在图8和其描述中，生成和不断添加所需的舒适噪声。存在控制器917还生成关于场景引导级919的空间信息和存在控制信号，场景引导级919被配置成接收N_max个（例如，3个）添加有舒适噪声数据的解码数据流，以及生成包括N_S,max个（例如，6个）音频流信号（具有舒适噪声）的音频。场景引导级919还生成关于根据空间信息和存在控制信号确定的输出音频的N_S,max个时间变化场景引导数据。由场景渲染器909接收N_S,max个信号的音频、空间信息和存在控制以提供具有N_S个空间位置的一组解码信号和具有目标谱和目标空间属性的舒适噪声，目标空间属性包括关于听众的N_S个空间位置的舒适噪声。

在一种实施方式中，场景渲染器909的输出为三信号的声场格式。该格式可以是本领域技术人员已知的WXY、LRS、三维B格式WXY、双耳声表达、5.1环绕声、或任何其他的空间表达。

注意，在一些实施方式中，当来自编解码器所包括噪声发生器的要添加或注入的空间存在噪声超过通常由编解码器已经生成的分量时，由编解码器表示的音频信号或额外的噪声可以被视为被掩蔽并且没有被渲染。

另外，在一些情况下，将需要渲染分量来处理传入的声场（例如，WXY）。在一些实施方式中，这可能涉及三个音频信道的解码，因此涉及最终变换引擎的三个实例。

处理系统实施方式

图10示出了图1的终端111的一种实施方式1003的简化框图，在该版本中，包括在接收方处的用于执行接收终端111的数字处理的音频处理系统。这样的处理包括：对来自麦克风123的音频输入信号的输入方处理，以及生成耳机信号和环绕侧或其他声场格式的扬声器信号中的一个或更多个的输出方处理。处理系统1003包括：包括将音频输入信号数字化的量化器的模数转换器（未示出）、生成一组音频输出的数模转换器（也未示出）和至少一个处理器1005。处理系统1003还包括存储子系统1007，存储子系统通常包括一个或更多个存储器元件。处理系统1003还包括被配置成将该处理系统1003耦接至示为数据包网络103的网络的网络接口113。在备选的版本中，网络接口是一个单独的部件。处理系统1003的各元件例如通过总线子系统或图10中未示出的一些其他互连机制耦合。使用本领域技术人员普遍已知的技术，可以将处理系统1003的一些元件集成到单个电路中。

存储子系统1007包括软件，该软件带有当由（多个）处理器1005执行时使得执行本文描述的终端方法的指令1011，具体地，由输入处理级125、网络接口113、空间舒适噪声发生器119和输出处理级117执行的处理。指令的不同版本可以执行本文所描述的不同方法实施方式，包括本文所描述的变形例。

注意，示出的版本包括两组输出，一组输出用于通过耳机131收听，而另一组输出用于在包括一组扬声器133的环绕声系统中收听。当然，不同的实现方式可以包括一组或另一组输出、或者一个或更多个不同类型的输出。

在一些实施方式中，存储子系统1007被配置成存储一个或更多个参数1013，该参数可以用于，例如，改变由处理系统1003执行的处理步骤中的一些步骤，以及提供关于处理级的信息。这样的参数是可设置的，而其他参数是预先定义的。

关于符号、术语和其他方面

在本公开内容的全文中，包括在权利要求中，术语“语音”和“声音”在广义上可互换地被用于表示被人类视为交流形式的音频内容，或表示这样的音频内容的信号（或数据）。因此，由音频信号所确定或表示的语音可以是当由扬声器（或其他发声转换器）再现信号时被视为人类话语的信号的音频内容。

在本公开内容的全文中，包括在权利要求中，术语“噪声”在广义上被用于表示除了语音以外的音频内容，或表示这样的音频内容（但不表示语音的显著电平）的信号（或数据）。因此，由电话会议期间所捕获的音频信号（或由表示这样的信号的样本的数据）所确定或表示的噪声可以是当由扬声器（或其他发声转换器）再现信号时不被视为人类话语的信号的音频内容。

在本公开内容的全文中，包括在权利要求中，“扬声器（speaker）”和扬声器（loudspeaker）同义地被用于表示由单个扬声器馈送驱动的任何发声转换器（或转换器组）。一组典型的耳机包括两个扬声器。扬声器可以被实现为包括多个转换器（例如，低音扬声器和高音扬声器），所有转换器由单个公共的扬声器馈送（扬声器馈送可以在耦接至不同的转换器的不同的电路系统支路中进行不同的处理）驱动。

在本公开内容的全文中，包括在权利要求中，每个表达“单声道音频（monophonic audio）”、“单声道音频信号（monophonic audio signal）”、“单声道音频（mono audio）”和“单声道音频信号（mono audio signal）”中的每个表达表示能够被渲染以生成用于驱动单个扬声器以发出由听众感知如出自一个或更多个源的声音但不发出由听众感知如源自不同于扬声器实际位置的明显的源位置（或两个或更多个明显的源位置）的声音的单个扬声器馈送的音频信号。

在本公开内容的全文中，包括在权利要求中，表达“对信号或数据执行操作”等（例如，对信号或数据进行滤波，缩放，变换，或施加增益）在广义上被用于表示在相同的域（例如，时域或变换域）或不同的域（例如，变换域或时域）中对信号或数据直接执行操作，或对信号或数据的处理后的版本（例如，对在对其执行下述操作之前已经进行初步滤波或预处理的信号的版本）执行操作。

在本公开内容的全文中，包括在权利要求中，表达“系统”在广义上被用于表示设备、装置、系统、子系统、模块、或设备的级。例如，实现解码器的子系统可以被称为解码器系统，以及包括这样的子系统的系统，例如，在其中子系统生成一些输入并且从外部源接收其他的输入，响应于多个输入生成大量输出信号的系统，也可以被称为解码器系统。

以类似的方式，术语“处理器”可以指代对电子数据执行操作（例如，根据寄存器和/或存储器将该电子数据变换成（例如，可以被存储在寄存器和/或存储器的）其他电子数据）的任何装置或装置的一部分。具体地，处理器在广义上被用于表示（例如，使用软件或固件）可编程或以其他方式可配置以对数据（例如，音频、视频或其他图像数据、或音频和视频的组合）执行操作的系统或装置。处理器可以包括场景可编程门阵列或其他可配置的集成电路或芯片组、可编程和/或以其他方式可配置以对数据（例如，音频或其他声音数据）执行处理（例如，流水线处理）的数字信号处理器（DSP）、曲线处理单元（GPU）、可编程的通用处理器或计算机的中央处理单元（CPU）和可编程的微处理器芯片、芯片的部分或芯片组中的一个或更多个。

注意，当方法被描述成其包括若干要素，例如，若干步骤，除非特别说明，否则不意指这些要素的顺序（例如，这些步骤的顺序）。

词组“配置成”执行步骤与词组“操作用于”执行步骤同义地被使用，并且意味着这些要素被设计成当进行操作时执行步骤。

所描述的方法在一些实施方式中可由接收逻辑（例如，编码在一个或更多个计算机可读介质上的指令）的一个或更多个处理器执行。当由一个或更多个处理器执行指令时，指令使得执行本文所描述的方法中的至少一个方法。

处理系统或计算机或计算机器或计算平台（通常，处理系统）可以包括一个或更多个处理器。处理系统还包括具有至少一个存储介质（存储介质可以包括嵌入在半导体期间中的存储器）的存储子系统，或包括主RAM和/或静态RAM和/或ROM以及高速缓冲存储器的单独的存储器子系统。存储子系统还可以包括一个或更多个其他存储装置，例如，磁和/或光和/或其他的固态存储装置。可以包括总线子系统以用于部件之间的连通。处理系统还可以是具有通过网络（例如，通过网络接口装置或无线网络接口装置）耦接的处理器的分布式处理系统。如果处理系统需要显示器，则可以包括这样的显示器，例如，液晶显示器（LCD）、有机发光显示器（OLED）或阴极射线管（CRT）显示器。如果需要人工数据输入，则处理系统还包括输入装置，例如，字母数字输入单元（例如，键盘）、指示控制装置（例如，鼠标）等等中的一个或更多个。本文所使用的术语“存储装置”、“存储子系统”或“存储单元”，如果根据上下文变得清晰，除非另有明确说明，否则，还包括存储系统，例如，磁盘驱动单元。在一些配置中处理系统可以包括声音输入转换器（例如，一个或更多个麦克风）、声音输出装置和网络接口装置。

在一些实施方式中，非临时性计算机可读介质被配置有（例如，被编码有）指令（例如逻辑），当由包括至少一个处理器元件和存储子系统的处理系统的一个或更多个处理器执行指令时，使得执行本文所描述的方法。一些实施方式为逻辑本身的形式。

非临时性计算机可读介质可以是任何计算机可读介质，是适用于本公开内容的专利法（包括美国法典35章第101条）下的法定主题。例如，非临时性计算机可读介质是任意计算机可读介质，并非具体地是临时性传播信号或临时性载波或一些其他临时性传输介质。从而术语非临时性计算机可读介质涵盖任何实质的计算机可读存储介质。这样的介质可以采用很多形式，包括例如静态存储器（“静态RAM”）、动态存储器（“动态RAM”）（如处理系统中的主存储器）、光盘、磁盘和磁光盘中的一个或多个。

在如上所描述的典型处理系统中，因此，存储子系统包括计算机可读存储介质，该计算机可读存储介质被配置有（例如，被编码有）指令（例如逻辑，例如软件），当由一个或更多个处理器执行指令时，使得执行本文所描述的方法步骤中的一个或更多个步骤。软件可以驻留在硬盘上，或者也可以在由计算机系统执行期间全部或至少部分地驻留在存储器（例如，RAM）内和/或处理器寄存器内。因此，存储器和处理器寄存器也构成在其上可以被编码指令以当指令被执行时使得执行方法步骤的非临时性计算机可读介质。

虽然可以在示例实施方式中将计算机可读介质示为单个介质，术语介质应当被视为包括存储一组或更多组指令的单个介质或更多个介质（例如，若干存储器、集中式或分布式数据库、和/或相关联的高速缓存和服务器）。

此外，非临时性计算机可读介质，例如，计算机可读存储介质，可以形成计算机程序产品，或可以被包括在计算机程序产品中。

在备选实施方式中，一个或更多个处理器作为独立的装置进行操作，或者一个或更多个处理器可以以服务器-客户端网络环境中的服务器或客户机（例如，如本文所描述的端点）的能力进行操作，或者作为对等或分布式网络环境中的对等机。除非明确排除或在本文中另外明确定义，否则术语“处理系统”包含所有这些可能性。一个或更多个处理器可以形成或被包括在个人计算机（PC）、媒体播放装置、耳机装置、免提通信移动装置、平板PC、机顶盒（STB）、个人数字助理（PDA）、平板电脑、游戏机、蜂窝电话、Web应用、网络路由器、交换机或桥、会议系统的终端、或能够执行指定由该机器要采取的操作的指令集（顺序或其他）的任何机器。被包括和/或排除的处理系统的具体形式可以根据本说明书的上下文而变得清晰。

注意，虽然一些图仅示出了单个处理器和单个存储子系统，例如，存储有包括指令的逻辑的单个存储器，但是本领域技术人员将理解到，包括上面所描述的部件中的很多部件，但为了不模糊发明的各方面，没有明确地示出或描述这些部件。例如，虽然仅示出了单个机器，术语机器也应当被视为包括单独地或联合地执行一组（或多组）指令以执行本文所讨论的方法中的任何一个或更多个方法的机器的任何集合。

因此，本领域技术人员将会理解到，本发明的实施方式可以被实现为方法、诸如会议系统的终端设备、诸如数据处理系统的设备、例如嵌入在非临时性计算机可读介质中的逻辑、或被编码有指令的非临时性计算机可读介质。因此，本发明的各个方面可以采用方法、完全硬件实施方式、完全软件实施方式或组合了软件方面和硬件方面的实施方式的形式。此外，本发明的实施方式可以采用程序逻辑（例如，非临时性计算机可读介质上的计算机程序）、或被配置有计算机可读程序代码的非临时性计算机可读介质（例如，计算机程序产品）的形式。

还应当理解，本发明的实施方式不限于任何特定的实现或编程技术，并且使用用于实现本文所描述的功能的任何适当的技术可以实现本发明。此外，实施方式不限于任何特定的编程语言或操作系统。

在本说明书的全文中，参照“一种实施方式”、“一个实施方式”、“一些实施方式”、或“多个实施方式”意味着结合该实施方式所描述的特定的功能、结构或特征被包括在本发明的至少一种实施方式。因此，在本说明书的全文中的各个地方的“在一种实施方式中”或“在一个实施方式中”的出现不一定都参照同一实施方式，但也可以参照同一实施方式。此外，根据本公开内容，对于本领域的普通技术人员而言将明显的是，特定的功能、结构或特征可以在一个或更多个实施方式中以任何适当的方式被组合。

类似地，应当理解，在本发明的示例实施方式的上面的描述中，为了简化本公开内容和有助于理解多个发明方面中的一个或更多个方面，本发明的各种特征有时在单个实施方式、图或其描述中被组合在一起。然而，本公开内容的方法不被解释为反映所要求保护的发明需要比每个权利要求中明确记载的功能较多的功能。相反，如下面的权利要求所反映的，发明方面在于比单个上述所公开的实施方式的所有特征更少。因此，所附权利要求在此明确并入具体实施方式，其中每个权利要求独立地作为一个单独的实施方式，或者在多项从属权利要求的情况下，作为本发明的多个单独的实施方式。

此外，本领域技术人员将理解，虽然本文所描述的一些实施方式包括其他实施方式中包括的一些但并非其他的特征，但是不同实施方式的特征的组合意味着在本发明的范围之内，并且形成不同的实施方式。例如，在下面的权利要求中，可以以任何组合使用所要求保护的实施方式中的任何实施方式。

此外，在本文中实施方式中的一些实施方式被描述为可以由计算机系统的处理器或由执行功能的其他装置实现的方法或方法的元件的组合。因此，具有用于执行这样的方法或方法的元件的必需的指令的处理器形成用于执行该方法或方法的元件的装置。此外，设备实施方式的本文所描述的元件为用于执行由旨在执行本发明的元件执行的功能的装置的示例。

在本文所提供的描述中，阐述了大量具体的细节。然而，应该理解，可以在没有这些具体的细节的情况下实施本发明的实施方式。为了不模糊本说明书的理解，在其他实例中没有详细地示出众所周知的方法、结构和技术。

如本文所使用的，除非另有说明，使用序号形容词第一、第二、第三等描述公共的对象仅仅表示所指代的相同对象的不同的实例，并且不意在暗示如此描述的对象无论是在时间上、空间上、排序上或以任何其他方式必须在给定的序列中。

本文中所举出的指定美国的所有的美国专利、美国专利申请和国际（PCT）专利申请通过引用合并于此，除了不准许通过引用合并的那些管辖区域，在这种情况下，本申请人有权利在不考虑这种插入的新的事项的情况下通过调整将这样的材料的任何部分或全部插入说明书。在专利规则或规程不允许通过引用本身通过引用合并信息的材料合并的情况下，本文通过引用的材料的合并不包括通过引用材料这样合并的中的通过引用合并的任何信息，除非这样的信息通过引用明确合并到本文中。

本说明书中的其他领域的任何讨论不应当以任何方式被认为是承认这样的领域是广知的、是公知的、或形成在发明时该领域的一般知识的部分。

在下面的权利要求中和本文的说明书中，术语“包括（comprising）”、术语“包括（comprised of）”或术语“其包括（which comprises）”中的任何一个是开放式的术语，意味着至少包括后续的元件/功能，但不排除其他的。因此，术语“包括”，当在权利要求中使用时，不应当被解释为限于其后列出的装置或元件或步骤。例如，表达“装置包括A和B”的范围不应当限于装置仅由元件A和B组成。本文所使用的术语“包括（including）”或术语“其包括（which includes，that includes）”中的任何一个也是开放式的术语，也意味着至少包括术语后续的元素/功能，但不排除其他的。因此，“包括（including）”与包括（comprising）是同义的，并且意思是包括（comprising）。

类似地，要注意，术语“耦接”，当在权利要求中使用时，不应当被解释为仅限于直接连接。也可以使用术语“耦接”和“连接”，以及它们的衍生物。应当理解的是，这些术语并不旨在作为彼此的同义词，但也可以是彼此的同义词。因此，表达“耦接至装置B的装置A”的范围不应当限于其中装置A的输入或输出直接连接至装置B的输出或输入的装置或系统。它意味着装置A与装置B之间存在路径，该路径可以在装置A与装置B之间包括其它设备或装置。此外，“耦接至”并不意味着方向。因此，表达“装置A耦接至装置B”可以与表达“装置B耦接至装置A”同义。“耦接”可以意味着两个或更多个元件直接物理或电接触，或两个或更多个元件彼此不直接接触但仍然相互合作或交互。

此外，单词“一个（a）”或“一个（an）”被用于描述本文的实施方式的元件和部件。这仅仅是为了方便，并且给出本发明的一般意义。除非意思是显而易见的，否则，本说明书应该被理解为包括一个或至少一个并且单数形式也包括复数。

因此，虽然已经描述了被认为是本发明的优选实施方式的内容，本领域技术人员将认识到，本发明的备选实施方式可以包括修改和其他元件，并且在法律允许的范围内意在要求保护所有的这些修改和其他元件。例如，在法律允许的范围内，上面给出的任何公式仅代表可以使用的程序；可以从框图中添加或删除功能并且可以在功能块之间互换操作；以及可以从本发明的范围内所描述的方法中添加或删除步骤。

Claims

1.一种在会议系统的接收终端中提供空间舒适噪声的方法，所述方法包括：

生成一个或更多个噪声信号；

对所述一个或更多个所生成的噪声信号进行处理以形成多个空间舒适噪声信号，所述空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；以及

将所述空间舒适噪声信号渲染成用于扬声器的一组输出信号，以被所述接收终端处的一个或更多个与会者听到。

2.根据权利要求1所述的方法，还包括：

在所述接收终端处接收用于渲染的一个或更多个音频信号；以及

将所接收的音频信号与所述多个空间舒适噪声信号组合；

其中，所述渲染包括将所接收到的音频信号与所述空间舒适噪声信号的组合渲染成用于扬声器的所述一组输出信号，

使得除了来自所接收到的音频信号的输出之外，所述空间舒适噪声信号也持续地存在于所述输出信号中，而不管在所接收到的一个或更多个音频信号中是否存在语音。

3.根据前述权利要求中的任一项所述的方法，其中，生成所述的一个或更多个噪声信号包括使用一个或更多个随机数发生器，并且其中所述处理包括：

对所述一个或更多个所生成的噪声信号进行滤波使得所述滤波后的一个或更多个信号具有舒适噪声的典型目标谱特征；以及

对所述滤波后的一个或更多个信号进行空间调整使得所述调整和滤波后的一个或更多个噪声信号具有所述期望的空间属性并且形成所述多个空间舒适噪声信号。

4.根据权利要求3所述的方法，其中，由具有频率响应的各个带通滤波器对每个所生成的噪声信号进行滤波，所述频率响应具有基本上一阶的属性和40Hz至200Hz范围的通带。

5.根据权利要求4所述的方法，其中，所述通带在50Hz至150Hz的范围内。

6.根据前述权利要求中的任一项所述的方法，其中，所述生成包括生成多个噪声信号，并且其中，所述处理包括根据由扭曲矩阵所限定的线性映射而进行空间调整。

7.根据权利要求6所述的方法，其中，所述扭曲矩阵映射到已知的空间声音格式。

8.根据权利要求1至5中的任一项所述的方法，其中所述生成包括生成多个相同分布的独立噪声信号，并且其中，所述处理包括缩放所生成的噪声信号并对缩放后的一个或更多个生成的噪声信号进行滤波，所述缩放和所述滤波的特征在于，滤波和缩放后的一个或更多个信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的所述至少一个空间属性。

9.根据权利要求1或2所述的方法，其中，所述一个或更多个噪声信号的生成和所述一个或更多个生成的噪声信号的处理利用了预先记录或采样的典型室内噪声中的预先存储的部分。

10.根据权利要求1或2所述的方法，其中，所述一个或更多个噪声信号的生成和所述一个或更多个生成的噪声信号的处理包括结合由激发包络所限定的时域结构。

11.根据权利要求1或2所述的方法，其中，所述一个或更多个噪声信号的生成和所述一个或更多个生成的噪声信号的处理包括结合使用分形激发以产生对时间单位的任何选择都表现得相同的1/f噪声。

12.根据权利要求11所述的方法，其中，利用随机噪声发生器来产生包括1/f噪声的所述分形激发。

13.根据权利要求11所述的方法，其中，利用自定义函数来产生包括1/f噪声的所述分形激发。

14.根据前述权利要求中的任一项所述的方法，

其中，所述多个空间舒适噪声信号中的一个或更多个信号与在所述接收终端处接收到的由一个或更多个发送终端发送的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于所述输出信号中，

其中，所述一个或更多个音频信号以编码形式被接收，并且由包括解码器随机噪声发生器的解码器解码，所述解码器形成解码数据，

其中，使用所述解码器随机噪声发生器来生成所述一个或更多个噪声信号，以及

其中，所述生成的舒适噪声与所述解码数据持续地被组合并且所述组合被渲染。

15.根据前述权利要求中的任一项所述的方法，

其中，将所述多个空间舒适噪声信号中的一个或更多个空间舒适噪声信号与在所述接收终端处接收到的从一个或更多个发送终端发送的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于所述输出信号中，

其中，一个或更多个发送终端用于执行噪声抑制，以及

其中，所述噪声抑制使用以下知识：所述接收终端生成并且在所述接收终端的输出中持续地包括空间舒适噪声信号。

16.根据前述权利要求中的任一项所述的方法，其中，所述渲染包括确定具有所述目标谱特征和所述至少一个空间属性的双耳声表达。

17.根据前述权利要求中的任一项所述的方法，其中，所述扬声器在耳机中。

18.根据前述权利要求中的任一项所述的方法，

其中，将所述多个空间舒适噪声信号中的一个或更多个空间舒适噪声信号与在所述接收终端处接收到的从一个或更多个发送终端发送的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于所述输出信号中，以及

其中，所述处理利用与特定发送终端有关的数据，所述数据可以包括所述特定发送终端的环境，利用所述数据来实现舒适噪声的典型目标谱特征和所述至少一个空间属性。

19.根据权利要求18所述的方法，其中，所述特定发送终端捕获多个音频信号，并且其中，与所述特定发送终端有关的数据包括在所述特定发送终端处捕获的音频信号的统计信息，所述统计信息是所述特定发送终端发送的，或者是在所述接收终端处确定的。

20.根据权利要求18所述的方法，其中，所述特定发送终端捕获多个音频信号，并且其中，与所述特定发送终端有关的数据包括与所述特定发送终端捕获的并被所述特定发送终端发送的音频信号的协方差矩阵有关的信息。

21.根据权利要求18所述的方法，其中，所述特定发送终端捕获多个音频信号，并且其中，与所述特定发送终端有关的数据包括与在所述特定发送终端处捕获的音频信号的协方差矩阵有关的信息、以及与在所述接收终端处确定的协方差矩阵有关的信息。

22.根据前述权利要求中的任一项所述的方法，

其中，将所述多个空间舒适噪声信号中的一个或更多个空间舒适噪声信号与在所述接收终端处以分层格式接收到的从一个或更多个发送终端以所述分层格式发送的一个或更多个音频信号组合，使得所述空间舒适噪声信号持续地存在于所述输出信号中，以及

其中，来自特定发送终端的所述分层格式在第一层中包括在该特定发送终端处捕获和处理的一个或更多个信号中的音频信号，并且还在一个或更多个其他层中包括以下信息中的至少一项：空间信息，噪声估计值，掩蔽曲线，语音活动信息，用于实现期望的抑制的一组增益值，以及相关联的掩蔽曲线数据。

23.根据前述权利要求中的任一项所述的方法，

其中，所述接收终端被配置为接收数据包，所述数据包包含不多于N_max个编码数据流的多个编码数据流，所述多个编码数据流以组合的方式承载N_S个同时活动的编码音频数据流，其中N_S个同时活动的编码音频数据流被复用到至多N_max个编码数据流，特征在于N_S≤N_S,max和N_S,max>N_max，所述数据包还包含关于所述编码音频数据流的场景控制和渲染信息，

其中，所述方法包括：

接收包含多个N_S个同时活动的编码音频数据流的所述多个编码数据流并且包含所述场景控制和渲染信息的数据包；

解释所述数据包以分离出所述编码数据流和所述场景控制和渲染信息；

响应于所述场景控制和渲染信息来生成存在控制信号；

将所述编码数据分配给由N_max个解码器构成的一组解码器，并且利用所述N_max个解码器对所述编码数据流进行解码以生成N_max个解码数据流；

响应于所述存在控制信号，生成舒适噪声并且持续地添加所生成的舒适噪声以形成添加有舒适噪声的N_max个解码数据流；

从所述添加有舒适噪声的N_max个解码数据流生成添加有舒适噪声的N_S个音频流信号、以及用于所述N_S个音频流信号的随时间变化的场景引导数据，

其中，所述渲染包括响应于所述随时间变化的场景引导数据，将所述添加有舒适噪声的N_S个音频流信号渲染成用于扬声器的所述一组输出信号，

特征在于，所述N_S个音频流信号具有N_S个相应的空间位置，并且舒适噪声具有目标谱和所述目标空间属性，所述目标空间属性包括针对听众的N_S个空间位置。

24.根据权利要求23所述的方法，其中，所述N_max个解码器中的每个解码器均包括用于舒适噪声生成的相应的随机噪声发生器。

25.一种配置有指令的非临时性计算机可读介质，当所述指令由处理系统的一个或更多个处理器执行时，执行前述方法权利要求中的任一项所述的方法。

26.一种配置有指令的非临时性计算机可读介质，当所述指令由在会议系统的接收终端中包括的处理系统的一个或更多个处理器执行时，执行提供空间舒适噪声的方法，所述方法包括：

生成一个或更多个噪声信号；

对所述一个或更多个所生成的噪声信号进行处理以形成多个空间舒适噪声信号，所述空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；

生成所述多个空间舒适噪声信号与在所述接收终端处接收的来自发送终端的多个音频信号的组合；以及

将所述接收的音频信号与所述空间舒适噪声信号的组合渲染成用于扬声器的一组输出信号。

27.一种会议系统中的终端设备，包括：

用于从其他终端接收一个或更多个音频信号以用于在接收终端处渲染的装置；

用于生成空间舒适噪声信号的装置，所述空间舒适噪声信号具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性；

用于将接收的音频信号与所述空间舒适噪声信号组合的装置；以及

用于将所述接收的音频信号与所述空间舒适噪声信号的组合渲染成用于扬声器的一组输出信号的装置，使得除了来自所接收到的音频信号的输出之外，所述空间舒适噪声信号也持续地存在于所述输出信号中。

28.根据权利要求14所述的终端设备，其中，用于生成所述空间舒适噪声信号的所述装置包括：

用于生成一个或更多个噪声信号的装置；以及

用于对所述一个或更多个所生成的噪声信号进行处理以形成多个空间舒适噪声信号的装置，用于处理的所述装置包括用于对所述一个或更多个所生成的噪声信号进行滤波，使得所述滤波后的一个或更多个信号具有舒适噪声的典型目标谱特征的装置，以及用于对所述滤波后的一个或更多个信号进行空间调整，使得所述调整和滤波后的一个或更多个噪声信号具有所述期望的空间属性，从而形成所述多个空间舒适噪声信号的装置。

29.一种会议系统中的终端设备，包括：

一个或更多个处理器；以及

配置有指令的存储子系统，当所述指令由所述一个或更多个处理器执行时，使得所述终端设备执行包括前述方法权利要求中的任一项的步骤的方法。

30.一种实现于非临时计算机可读介质中的逻辑，所述逻辑包括指令，当所述指令由处理系统的一个或更多个处理器执行时，执行前述方法权利要求中的任一项所述的方法。