CN108235181A

CN108235181A - 在音频处理装置中降噪的方法

Info

Publication number: CN108235181A
Application number: CN201711332207.9A
Authority: CN
Inventors: M·库瑞格; B·库恩哲
Original assignee: Oticon AS
Current assignee: Oticon AS
Priority date: 2016-12-13
Filing date: 2017-12-13
Publication date: 2018-06-29
Anticipated expiration: 2037-12-13
Also published as: EP3337190B1; US10499167B2; EP3337190A1; CN108235181B; DK3337190T3; US20180167747A1

Abstract

本申请公开了在音频处理装置中降噪的方法，该方法包括：a)提供表示声音的时变电输入信号；b)提供所述电输入信号的对数表示；c)提供电输入信号的对数表示的特定斜率是因混响引起的似然的预定统计模型；d)根据所述统计模型识别电输入信号为混响信号的时刻；及e)将衰减应用于识别为混响的时刻。这具有提供增强的声音信号的优点。本发明例如可用于增强有噪声的如混响的信号。

Description

在音频处理装置中降噪的方法

技术领域

本申请涉及音频处理系统中的降噪，例如涉及例如听力装置如助听器中的混响的减少。本发明尤其涉及在音频处理装置中减少混响的方法。

本申请还涉及音频处理装置。

本申请还涉及音频处理系统，及涉及包括处理器和程序代码的数据处理系统，所述程序代码使得所述处理器执行所述方法的至少部分步骤。

本发明的实施例如可用在涉及有噪声如混响信号的音频处理的应用中。本发明例如可用在下述应用中：助听器、头戴式耳机、耳麦、耳朵保护系统、免提电话系统、移动电话、远程会议系统、广播系统、卡拉OK系统、教室放大系统等。

背景技术

在混响环境中，例如具有硬表面的房间、教堂等，理解语音的能力下降。这是因为来自目标扬声器的信号在环境的表面上反射，因而不仅来自目标扬声器的直接(未反射的)声音到达用户的耳朵，而且延迟及减弱的版本因反射也被接收。房间“越硬”，反射越多。

EP1469703A2涉及听力仪器中将声学输入信号处理为输出信号的方法。增益使用房间脉冲衰减值进行计算，其为对数比例尺上转换后的输入信号能量的最大负斜率的测度。

发明内容

混响的声压级以指数方式衰减。这暗含着混响电平的对数线性衰减。这再次暗含着对数-电平的斜率在衰减期间或多或少保持恒定。对数-电平的该恒定斜率正是算法检测混响希望得到的。

本申请的目标在于提供减少声音信号中的噪声如混响的备选方法。

本申请的目标由所附权利要求限定的及下面描述的发明实现。

音频处理装置中的降噪方法

在本申请的一方面，本申请的目标通过减少音频处理装置中的声音信号的混响的方法实现。该方法包括：

-提供声音的混响模型，包括

--提供表示声音的时变电输入信号；

--根据第一处理方案提供所述电输入信号的处理后的表示；

--提供关于处理后的电输入信号在给定时刻的混响性质的信息；

--基于所述处理后的电输入信号和所述关于混响性质的信息提供所述电输入信号的处理后的表示的特定斜率是因混响引起的似然(可能性)的预定或者在线计算的模型；

-对表示声音的当前电信号使用所述混响模型，包括

--提供表示声音的时变当前电输入信号；

--根据所述第一处理方案提供所述当前电输入信号的当前处理后的表示；

--使用所述预定或者在线计算的模型确定所述当前电输入信号的处理后的表示在当前给定时刻的特定斜率是因混响引起的当前似然；

--基于所述当前似然及对应的针对多个先前时刻确定的似然确定合成似然；

--基于所述合成似然及所述电输入信号的所述当前处理后的表示的特性计算所述当前电输入信号在所述当前时刻的衰减值；

--将所述衰减应用于所述当前时刻的所述当前电输入信号从而提供修改的电信号。

这具有提供增强的声音信号的优点。本发明的实施提高声音信号的可懂度。

在实施例中，时变电输入信号被提供为多个输入频带信号。在实施例中，时变电输入信号和/或该电输入信号的处理后的表示被提供为多个输入频带信号。在实施例中，所述模型处于随频率而变的框架中。在实施例中，电输入信号的处理后的表示在给定时刻的特定斜率的似然被提供为信号频率的函数。

在实施例中，关于处理后的电输入信号在给定时刻的混响性质的信息可包括信号-混响比、直接-混响比或者早期-后期反射比。

在实施例中，所述当前电输入信号的处理后的表示在给定时刻的特定斜率是因混响引起的合成似然从a)当前似然及b)针对多个先前的时刻确定的对应的似然确定。在实施例中，合成似然从当前似然及在多个连续的先前时刻确定的当前似然确定，例如确定为其平均，如加权平均。

在实施例中，“特定时刻”指当前电输入信号的特定时间样本。在实施例中，连续的先前时刻的数量在从2到100个时间样本的范围中，如从20到50 个时间样本。

在实施例中，特定时刻指当前电输入信号的特定时间帧。

在实施例中，术语“似然”指其值被限制在0和1之间的区间的似然函数。在实施例中，似然指似然函数的对数表示，例如对数-似然或者对数-似然比。在实施例中，似然可呈现正值和负值(正值表明比负值大的似然)。在实施例中，似然被限制取-1和+1之间的值。

在实施例中，在似然取正和负值的情形下，给定时刻的合成似然用当前似然更新(代替需要存储多个先前的似然值)，藉此可节省存储器。

在实施例中，电输入信号的处理后的表示的特性取决于该信号的噪底。在实施例中，电输入信号的处理后的表示的特性等于该信号的噪底(例如处理后的电输入信号中的噪声的平均电平，例如在目标信号如语音停顿期间的信号的电平)。

在实施例中，当前电输入信号与合成似然的最大值相关联的最大衰减值可配置。

在实施例中，用于识别电输入信号为混响信号的时刻的预定或者在线计算的模型取决于输入信号的特性。

混响模型可定义为混响语音模型与纯净语音模型之间的差。因此，混响模型直接取决于输入信号的特性。

在实施例中，本发明方法包括确定表示特定声环境的输入信号的特性。在实施例中，在给定时间点用于识别电输入信号是混响信号的时刻的预定或者在线计算的模型与特定声环境相关联。在实施例中，在特定时间点使用的预定或者在线计算的模型已用当前声环境的声音信号特性进行训练。

在实施例中，根据第一处理方案提供电输入信号或者当前电输入信号的处理后的表示的步骤包括提供电输入信号和/或当前电输入信号的对数表示。在实施例中，根据第一处理方案提供电输入信号或当前电输入信号的处理后的表示包括估计电输入信号的电平。在实施例中，估计电输入信号的电平包括对电输入信号进行整流。在实施例中，估计电输入信号的电平包括使电输入信号和/或整流后的电输入信号平滑。

计算机可读介质

本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质，当计算机程序在数据处理系统上运行时，使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。除保存在有形介质如磁盘、CD-ROM、DVD或硬盘介质或者任何其它机器可读介质上及在从这样的有形介质直接读时使用之外，计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。

数据处理系统

一方面，本发明进一步提供数据处理系统，包括处理器和程序代码，程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

音频处理装置

一方面，本发明还提供音频处理装置。该音频处理装置包括：

-输入单元，用于提供表示声音的时变当前电输入信号；

-处理器，用于根据第一处理方案提供所述当前电输入信号的当前处理后的表示；

-存储器单元，包括电输入信号的根据所述第一处理方案处理的处理后的表示的特定斜率是因混响引起的似然的预定或者在线计算的模型；

所述处理器配置成

-基于所述合成似然及所述电输入信号的所述当前处理后的表示的特性计算所述当前电输入信号在所述当前时刻的衰减值；及

所述音频处理装置还包括

-增益单元，用于将所述衰减值应用于所述当前时刻的所述当前电输入信号以提供修改的电信号。

当由对应的结构特征适当代替时，上面描述的、“具体实施方式”中详细描述的或权利要求中限定的方法的部分或所有特征可与本发明装置的实施结合，反之亦然。装置的实施具有与对应方法一样的优点。

音频处理装置(如处理器)可配置成执行所述方法(的步骤)。

存储器单元包括电输入信号的根据第一处理方案处理的当前处理后的表示的特定斜率是因混响引起的当前似然的预定或者在线计算的模型，该模型可基于处理后的电输入信号及关于所述处理后的电输入信号在给定时刻的混响性质的信息。

在实施例中，音频处理装置包括输出单元，用于基于所述修改的电信号将可感知的刺激作为声音呈现给用户。

在实施例中，增益单元适于进一步补偿用户的听力受损。

在实施例中，音频处理装置包括时域到时-频域转换单元。在实施例中，输入单元包括时域到时-频域转换单元。在实施例中，时域到时-频域转换单元适于将时变电信号转换为多个(重叠或者非重叠)频带中的多个时变电信号。在实施例中，时域到时-频域转换单元包括分析滤波器组。在实施例中，时域到时 -频域转换单元包括傅里叶变换单元，例如离散傅里叶变换(DFT)单元。在实施例中，电输入信号和/或当前电输入信号的处理后的表示在频带(k＝1,…,K) 中提供。

在实施例中，音频处理装置包括分类单元，用于对音频处理装置的当前声环境进行分类。在实施例中，音频处理装置包括向分类单元提供输入的多个检测器，分类基于这些输入进行。在实施例中，音频处理装置包括话音活动检测器，例如自我话音检测器。在实施例中，音频处理装置包括混响如混响时间的检测器。在实施例中，音频处理装置包括相关检测器，例如自相关检测器和/或互相关检测器。在实施例中，音频处理装置包括反馈检测器。多个不同的检测器可在频带级和/或全带级的基础上提供它们的相应标示信号。

在实施例中，音频处理装置包括电平检测器，用于确定频带级的输入信号和/或完全信号的电平。

在实施例中，存储器单元包括多个预定或者在线计算的模型，每一模型与特定声环境或者特定听音情形相关联。在实施例中，预定或者在线计算的模型中的至少一个为统计模型。在实施例中，针对不同的房间或位置提供分开的模型，例如这样的房间或位置具有不同的混响常数如混响时间例如T60，例如客厅、办公室空间、教堂、电影院、演讲厅、博物馆等。在实施例中，针对用户预期在其中停留的特定房间或位置提供单独的统计模型，例如用户家中或者特定办公室或者私人或公共集会场所，例如教堂或其它大的房间。在实施例中，与特定声环境或者听音情形相关联的统计模型已用这样的环境或听音情形的声音信号特性进行训练。

在实施例中，统计模型包括用于指明给定斜率源自混响或者纯净信号分量的似然的模型。在实施例中，统计模型通过对数似然比定义。

在实施例中，音频处理装置构成或包括通信装置或助听器。

在实施例中，听力装置包括模数(AD)转换器以按预定的采样速率如 20kHz对模拟输入进行数字化。在实施例中，听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号，例如用于经输出变换器呈现给用户。

在实施例中，表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号，其中模拟信号以预定采样频率或采样速率f_s进行采样，f_s例如在从8kHz到40kHz的范围中(适应应用的特定需要)以在离散的时间点t_n (或n)提供数字样本x_n(或x[n])，每一音频样本通过预定的N_s比特表示声信号在t_n时的值，N_s例如在从1到16比特的范围中。数字样本x具有1/f_s的时间长度，如对于f_s＝20kHz，50μs。在实施例中，多个音频样本按时间帧安排。在实施例中，一时间帧包括64个音频数据样本(对于f_s＝20kHz，对应于 3.2ms)。根据实际应用可使用其它帧长度。

在实施例中，听力装置包括分类单元，用于对听力装置周围的当前声学环境进行分类。在实施例中，听力装置包括向分类单元提供输入的多个检测器，分类基于这些输入进行。

在实施例中，听力装置包括电平检测器(LD)，用于确定输入信号的电平 (如基于频带级和/或全(宽带)信号)。从用户的声环境拾取的电传声器信号的输入电平例如为该环境的分类参数。在实施例中，电平检测器适于根据多个不同的(如平均)信号电平对用户当前的声环境进行分类，例如分类为高电平或低电平环境。

在特定实施例中，听力装置包括话音检测器(VD)，用于确定输入信号 (在特定时间点)是否包括话音信号。在本说明书中，话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中，话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点：包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别，因而与仅包括其它声源(如人工产生的噪声)的时间段分离。在实施例中，话音检测器适于将用户自己的话音也检测为“话音”。作为备选，话音检测器适于从“话音”的检测排除用户自己的话音。在实施例中，听力装置包括噪声电平检测器。

在实施例中，听力装置包括自我话音检测器，用于检测特定输入声音(如话音)是否源自系统用户的话音。在实施例中，听力装置的传声器系统适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。

在实施例中，音频处理装置包括通信装置如移动电话例如智能电话。在实施例中，音频处理装置包括(至少部分)补偿用户的听力受损的听力装置如助听器。在实施例中，听力装置包括助听器或听力仪器(例如适于位于用户耳朵处或者完全或部分位于耳道中或者完全或部分植入在用户头部中的听力仪器)、头戴式耳机、耳麦、或耳朵保护装置或其组合。

用途

此外，本发明提供上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理装置的用途。在实施例中，提供在包括一个或多个听力装置、头戴式耳机、耳麦、有源耳朵保护系统、蜂窝电话等的系统中的用途。在实施例中，提供在免提电话系统、远程会议系统、广播系统、卡拉OK系统、教室放大系统等中的用途。

音频处理系统

另一方面，本发明提供包括一个或多个上面描述的、“具体实施方式”中详细描述的及权利要求中限定的音频处理装置及包括辅助装置的音频处理系统。

在实施例中，该音频处理系统适于在听力装置和/或辅助装置之间建立通信链路以使信息(如控制和状态信号，可能音频信号)能在其间进行交换或从一装置转发给另一装置。

在实施例中，辅助装置是或包括音频网关设备，其适于(如从娱乐装置例如TV或音乐播放器，从电话装置例如移动电话，或从计算机例如PC)接收多个音频信号，及适于使用户能选择和/或组合所接收音频信号(或信号组合)中的适当信号以传给听力装置。在实施例中，辅助装置是或包括遥控器，用于控制音频处理装置(如一个或多个听力装置)的功能和运行。在实施例中，遥控器的功能实施在智能电话中，该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口，例如基于蓝牙或一些其它标准化或专有方案)。在实施例中，辅助装置是或包括蜂窝电话如智能电话或者类似装置。

在本说明书中，智能电话可包括(A)移动电话与(B)个人计算机的结合：

-(A)移动电话包括传声器、扬声器、和到公用电话交换网(PSTN)的 (无线)接口；

-(B)个人计算机包括处理器、存储器、操作系统(OS)、用户接口 (如键盘和显示器，例如集成在触敏显示器中)和无线数据接口(包括网页浏览器)，使用户能下载和执行实施特定功能特征(例如显示从因特网取回的信息，遥控另一装置，组合来自智能电话的多个不同传感器(如照相机、扫描仪、 GPS、传声器等)和/或外部传感器的信息以提供特殊特征等)的应用程序 (APP)。

在实施例中，音频处理装置包括听力装置如助听器，用于(至少部分)补偿用户的听力受损。

在实施例中，音频处理系统包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。

APP

另一方面，本发明还提供称为APP的非短暂应用。APP包括可执行指令，其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。在实施例中，该 APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。

在实施例中，APP配置成使用户能从预定的一组环境选择一个以优化减少混响的设置(例如从适于特定声学环境的多个适当模型、和/或算法和/或算法设置选择一个)。

在实施例中，模型或算法或算法设置与地理位置数据联系起来。

在实施例中，APP配置成接收用于感测目前位置的特征混响的一个或多个检测器的输入，或者从声学环境的其它“分类器”接收输入。

在实施例中，APP配置成提出适当的当前环境。

在实施例中，APP配置成使用户能控制分配给混响的最大似然的最大衰减量。

定义

在本说明书中，“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置，其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供：辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。

听力装置可构造成以任何已知的方式进行佩戴，如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它部件一起设置在壳体中，或者本身可以是外部单元 (可能与柔性引导元件如圆顶状元件结合)。

更一般地，听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中，放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件，用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/ 或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息，例如由信号处理电路提供)。在一些听力装置中，输出单元可包括输出变换器，例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中，输出单元可包括一个或多个用于提供电信号的输出电极(如用于电刺激耳蜗神经的多电极阵列)。

在一些听力装置中，振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中，振动器可植入在中耳和/或内耳中。在一些听力装置中，振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中，振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中，输出电极可植入在耳蜗中或植入在颅骨内侧上，并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听性脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。

听力装置如助听器可适应特定用户的需要，例如适应听力受损。听力装置的可配置的信号处理电路可适于应用输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配规程进行确定。随频率和电平而变的增益例如可体现在处理参数中，例如经到编程装置(验配系统)的接口上传到听力装置，并由听力装置的可配置的信号处理电路所执行的处理算法使用。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”，其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与其交互作用。

本申请的另外的目标由从属权利要求限定的及下面详细描述的实施方式实现。

除非明确指出，在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整体、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、整体、步骤、操作、元件、部件和/或其组合。应当理解，除非明确指出，当元件被称为“连接”或“耦合”到另一元件时，可以是直接连接或耦合到其他元件，也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出，在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

附图说明

本发明将在下面参考附图并结合优选实施例进行更完全地说明。

图1A示出了纯净和混响信号的对数-电平，及图1B示出了纯净和混响信号的对数-电平-斜率直方图。

图2示出了一组测试信号的纯净和混响斜率的加权和归一化直方图。

图3示出了所计算的模型(图1A、1B和2的直方图)的对数似然比。

图4示出了限制所应用的衰减的不同策略：

A)衰减通过14dB的常数值限制；

B)衰减通过14dB的常数值及SNR进行限制；

C)衰减通过14dB的常数值及0.5*SNR进行限制。

图5A、5B示出了表示音频处理装置的实施例中实施的所提出的算法的信号流的框图，图5A给出了概览图，图5B示出了更详细的图。

图6示出了音频处理系统的实施例，其包括第一和第二听力装置及包含用于音频处理系统的用户接口的辅助装置。

图7示出了根据本发明实施例的在音频处理装置中减少混响的方法的流程图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。在整个说明书中，同样的附图标记用于同样或对应的部分。

通过下面给出的详细描述，本发明进一步的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。对于本领域技术人员来说，基于下面的详细描述，本发明的其它实施方式将显而易见。

具体实施方式

在本发明实施例的下述描述中公开的涉及混响减少的元件和原理也可用在涉及降噪的其它算法中(具体地，其中噪声的出现和信号电平的斜率彼此有关的算法)。这样类型的噪声例如可包括瞬态噪声。

根据本发明的音频处理算法(实施方法的步骤)或者音频处理装置的实施例可通过下述方面或特征进行分类：

-所需要的传声器的最小数量为1；

-仅作用于后期反射；

-不需要估计脉冲响应；

-不需要估计混响时间；

-可在不同频带中工作。

其它特性可包括：

-算法“总是开”。如果不存在混响，没有使算法禁用的环境检测。因此，混响估计应优选足够准确以防止无混响环境中的非自然信号；

-算法仅缓冲每频道一个过去样本的信息。需要一个过去样本来计算当前与过去样本之间的斜率。对于到达输入的每一新样本，算法立即计算斜率并在此基础上估计混响似然并在每一频道中应用对应的衰减值。

统计模型

算法不明确地估计当前环境的混响时间。而是，其使用特定斜率是混响的似然的预定统计模型。该模型背后的直观理解如下：对数-电平的斜率在混响衰减期间几乎保持恒定不变。如果产生混响信号的各个对数-电平-斜率的直方图，其中“产生直方图”意味着对每一斜率的出现次数计数，在大约对应于混响衰减斜率的位置将观察到凸起(或尖峰)。纯净信号的斜率的直方图不展现这样的凸起。因此，通过比较纯净和混响信号的“对数-电平-斜率-直方图”，对于每一特定斜率，可确定其更可能指混响信号还是纯净信号。该方案用于为建立所需要的(预定)统计模型提供引导。

电输入信号的对数表示的特定斜率是混响的似然的预定模型或者在线产生的模型(如统计模型)可以多种方式产生。在实施例中，这样的产生方法包括下面的步骤：

-提供时变纯净第一声音信号(无混响)；

-提供同一第一声音信号的包括多种不同程度的混响的多个有噪声版本；

-计算几个频道中的纯净和混响信号的平滑的对数电平的一阶导数；

-通过对每一斜率的出现次数计数产生纯净和混响信号的斜率的直方图。这些直方图表示某一斜率出现表明信号是纯净或混响信号的似然；

-通过使混响直方图除以纯净直方图并取结果的对数产生两个直方图的对数似然比。

对数似然比为可用于确定某一斜率是否更可能是混响的统计模型。正值标示混响，负值标示纯净信号。值的量值标示该模型怎样有把握，值越大，越有把握。

图1A、1B示出了纯净和混响信号的对数-电平(图1A)及对数-电平-斜率 -直方图(图1B)。图1A的两个曲线图展现了纯净语音信号(下面的记为“纯净信号”的曲线)和混响语音信号(最上面的记为“混响信号”的曲线) 的对数-电平(电平按dB计，在15dB和65dB之间)与时间(按s计的线性比例尺，在0和6s之间)的关系。应注意，在图1A的右部(从约3s到约4.5s)，混响信号的几乎恒定的斜率(-20dB/s)。图1B示出了同样的两个信号(纯净信号和混响信号)的斜率的直方图，每一曲线标示所涉及信号具有给定斜率的概率。纵轴(记为“概率”)在线性比例尺上指明概率-0.02和0.18之间。水平轴(记为“斜率”)指明按dB/s计的斜率在-60dB/s和+20dB/s之间。两条曲线均在从-5dB/s到0dB/s的范围中的负斜率附近展现清晰的尖峰。应注意，曲线“混响信号”的“混响凸起”在约-20dB/s时(在从-30dB/s到-10dB/s的范围中)。

改进的统计模型

权重函数

如果我们聚焦于实质部分即混响，我们可改进统计模型。我们仍想要产生纯净和混响直方图，但我们现在考虑每一个别样本处的实际混响量。为实现此目标，我们必须计算新的信号，所谓的权重函数，其结合关于我们具有多少信号及其怎样混响的信息。这里是其可怎样实现的描述：

权重函数直观理解

该权重函数背后的直观理解如下：我们想要更多地注意具有比噪底高得多的电平的样本。如果这样的信号样本主要包含混响，其应被衰减(很多)。另一方面，如果其完全无混响，则其(根本)不应被衰减。我们不太关注电平接近噪底的信号样本，不管它们纯净与否。总之，所计算的权重函数具有下述性质：

-如果信号-混响比为正即如果纯净信号电平高于混响的电平，则其为正。否则，其为负；

-如果信号-噪底比大，则其绝对值大(正或负)；

-因此，其指明特定斜率应贡献于哪一直方图(纯净或混响)及其展现特定斜率对相应的直方图多重要。

归一化的加权直方图

我们现在可返回到像开始那样产生直方图。然而，代替形成完整信号的斜率的直方图，我们现在可形成仅纯净斜率和仅混响斜率的直方图。这是可能的，因为对于处理后的信号的每一单一斜率，我们具有对应的权重函数值，其告诉我们该斜率是否是混响。此外，我们可对每一斜率加权权重函数的量(如名称提示的)。具有大(负)权重函数值的混响斜率因此相较具有低权重函数值的同一斜率将更多地贡献于混响直方图。同样的处理应用于纯净斜率。所得的直方图必须归一化以使和为1，这是为了表示有效的概率分布。此外，混响直方图的符号需要被反向以得到正值。

图2示出了一组测试信号的纯净和混响斜率的加权和归一化直方图。测试信号包括纯净OLSA句子测试信号(72秒长)加上具有从短(RT60＝1sec)到长 (RT60＝4sec)混响时间的混响量的四个副本。

对数似然比

图2的直方图中所示的概率分布也可依据似然进行解释。两条曲线的高度展现对应的斜率是纯净还是混响的似然。当然，将每一斜率与两个单独的直方图比较有点单调乏味。可能将两直方图组合在一个方便的模型中：对数似然比 (LLR)。我们按如下计算LLR：

图3示出了所计算的模型(图1A、1B和2的直方图)的对数似然比。其展现单一斜率或为纯净或为混响的似然。我们可以看到，该模型展现斜率与对数似然比之间或多或少线性的关系的区域。该情形可被开发以建立LLR模型的简化版。该简化的模型仍是好的逼近并可仅使用几个数据点进行存储。

从对数似然比到混响衰减

当然，我们并不真地想要知道每一个别样本具有混响的似然。而是，根据当前及过去的样本，我们寻求特定时刻具有混响的平均似然。为得到具有混响的平均似然，我们通过一些常数简单地缩放LLR值(以控制估计速度)并在双边界积分器中对它们求和(例如限制到[0…1]之间的值)。如果该积分器的输出值增大，这表明混响似然增加。因此，积分器输出的量值指明我们怎样肯定当前信号由混响组成。积分器输出的最大值为1，因此，我们可简单地使其乘以我们需要的最大衰减以得到最终的混响衰减值。

随SNR而变的最大衰减

混响信号不仅由信号和混响组成，而且由或多或少恒定的噪底组成。该噪底可因传声器噪声或者任何类型的未调制的背景噪声引起。如果我们现在检测混响并将其衰减太大的量，输出电平将可能下降到低于噪底。该衰减策略通常导致不自然的声音非自然信号。一个好的备选方案是将最大可能衰减限制到小于或等于实际的SNR。在该情形下，我们不能衰减到低于噪底的电平。在实践中，使用该策略，我们仍可听见非自然信号，尽管它们被减少很多。在算法的当前设置中，衰减被限制到更低的值，即0.5*SNR。

图4示出了限制所应用的衰减的不同策略：

A)衰减通过14dB的常数值限制；

B)衰减通过14dB的常数值及SNR进行限制；

C)衰减通过14dB的常数值及0.5*SNR进行限制。

显然绘图A中的衰减策略在衰减被释放时产生听得见的非自然信号。在绘图B中，这些非自然信号已经大大减少。绘图C中的衰减策略更多地减少非自然信号，导致非常自然的声音质量，尽管具有非常强的14dB的衰减。

图4中的绘图展现了不同的衰减策略及输出电平看上去怎样。

优化

混响估计滞后

对于直到现在描述的算法，有一个小问题：每一纯净信号的电平具有大的正斜率(上升)和大的负斜率(下降)。当从上升斜率变到下降斜率时，根据图3中的LLR，将有一些“最可能混响的”斜率。因此，该信号在短暂时间期间将被错误地衰减。这种性态与信号或环境无关，而是概念问题。为克服该弱点，我们将滞后引入混响估计。在可应用任何衰减之前，混响估计器必须达到某一水平的确定性。这解决了所述问题。

对数域的非对称平滑

大家可能已注意到，对数-电平斜率的直方图对于纯净信号展现有点奇怪的分布。人们可能预期接近正常分布的分布，但实际上，它们并不十分对称。这是因为电平已使用一阶非对称平滑器进行平滑。滤波器设计成正斜率根本不被平滑(以捕捉每一单一尖峰)，而负斜率被平滑某一指定的平滑因子。之所以需要这种平滑，是因为对数-电平的一阶差很有噪声。理论上，对数-电平斜率在混响衰减期间应为恒定值。然而，由于噪声，其实际上跨大的值范围分布，其均值或多或少在理论的恒定值。因此，使对数-电平斜率平滑将滤掉噪声，使得我们接近几乎恒定的斜率值。

总结

对数似然比(LLR)的统计模型是所提出的混响减少算法的核心元素。该模型基于纯净和混响输入信号的选择进行计算。基于该预定的LLR模型，算法确定输入的样本是混响的似然。连续的LLR值的累计和给出怎样肯定信号由混响组成的好的估计量。该估计量之后可乘以随SNR而变的最大衰减值以计算有效衰减从而减少混响。

图5A、5B中的每一个示出了表示音频处理装置如助听器的实施例中实施的所提出的算法的信号流的框图，图5A给出了概览图，图5B示出了更详细的图。图5A和5B中记为APD的实线框标示在运行期间在音频处理装置(APD) 如听力仪器内部进行的信号处理。图5A和5B的S-MOD单元例如离线执行并定义将由算法使用的LLR函数。应注意，预处理和助听器通路中的斜率计算模块的等同。有利地，预处理通路应用与算法在助听器中进行的一样的斜率计算以得到代表性统计模型。计算该统计模型的潜在数据来自信号数据库SIG-DB，其包括多个具有和没有混响的信号对。具有混响的信号可通过使干信号与房间脉冲响应卷积进行记录或产生。在实施例中，输入单元(图5B中的IN，例如图5A中的AD转换器AD)包括滤波器组，用于在多个频带(k＝1,…,K)提供电输入信号。作为备选，听力装置可包括其它时域到频域转换单元，适当地位于该听力装置中，例如以优化功耗。电平估计器模块L-EST和对数模块LOG将输入信号转换为对数域中的平滑的电平信号。下一模块是平滑的微分器SM-DIFF并计算信号电平的一阶导数的平滑版本。基于这些信号，预处理模块 PRE-PR产生统计模型，其之后经编程接口PIF保存到音频处理装置。在音频处理装置内部，同样的模块(L-EST、LOG和SM-DIF)建立信号处理链的第一部分。SM-DIF模块的输出被转换为对应的对数似然比(LLR)，其之后使用有边界的积分器INT进行积分。滞后模块HYST减少非混响信号的错误衰减。最后，后处理模块PPR使用预定的最大衰减(ATT)和估计的噪底(N-EST) 将来自HYST模块的信号转换为可应用的衰减。可应用的衰减在延迟的(DEL) 输入信号上组合(COMB)并发送给输出级OUT。

图6示出了音频处理系统的实施例，其包括第一和第二听力装置(HAD_l, HAD_r)(例如第一和第二助听器)及包含用于音频处理系统的用户接口UI的辅助装置AD。经用户接口UI(例如经智能电话的触敏显示器和在智能电话上运行的APP实施，在此记为“声学环境APP、混响等”)，用户U可从预定的一组环境选出一个(参见屏幕上的文本“选择位置的当前类型”，在此由选项“客厅、办公室、教堂、默认”例示)以优化混响减少设置(例如选择不同的模型和/或算法和/或算法设置)。这些设置也可与地理位置数据联系起来，使得用户处于教堂中时APP自动使能教堂设置。作为备选或另外，环境可通过检测器感测，其感测目前位置中的特征混响(例如通过发出测试信号并通过智能电话的相应扬声器和传声器测量反射的信号)。例如由目前的APP或者智能电话的另一APP提供的声环境的其它“分类参数”可用于识别当前环境。在实施例中，适当的当前环境由APP提出，可能留给用户最终选择或接受。APP也可配置成使用户能控制他或她需要的衰减量。最后，APP可配置成使用所应用的衰减的某类现场查看展现算法的活动。

左和右听力装置(HAD_l,HAD_r)例如按结合图5A或5B所述实施。在图6的实施例中，双耳助听系统包括移动电话如智能电话形式或者包括移动电话的辅助装置AD。左和右听力仪器(HAD_l,HAD_r)及辅助装置AD中的每一个包括相应的天线和收发器电路，用于在听力装置之间(链路1^st-WL)及在左和右听力装置中的至少一个或者每一个与辅助装置之间(分别参见链路2^nd-WL(l)和2^nd- WL(r))建立无线通信链路。左和右听力装置的每一个中建立两个链路必要的天线和收发器电路在图6中在左和右听力装置中分别记为(Rx1/Tx1)_l,(Rx2/Tx2)_l和(Rx1/Tx1)_r,(Rx2/Tx2)_r。

在实施例中，耳间链路1^st-WL基于近场通信(例如基于感应耦合)，但作为备选，也可基于辐射场(例如符合蓝牙标准，和/或基于利用蓝牙低功率标准的音频传输)。在实施例中，辅助装置与听力装置之间的链路2^nd-WL(l,r)基于辐射场(例如符合蓝牙标准，和/或基于利用蓝牙低功率标准的音频传输)，但作为备选，也可基于近场通信(例如基于感应耦合)。链路的带宽优选适于使声源信号(或者至少其部分，例如所选频带和/或时间段)和/或识别声源的当前位置的定位参数能在装置之间传送。在实施例中，系统的处理(如混响识别) 和/或遥控器的功能完全或部分实施在辅助装置AD(智能电话)中。

感应通信链路IA-WL的多个不同方面例如在EP 1 107 472 A2、EP 1 777 644 A1、US 2005/0110700 A1和US2011222621A1中描述。WO 2005/055654和 WO 2005/053179描述了包括用于与其它单元感应通信的感应线圈的助听器的多个不同方面。在感应通信链路中使用的协议例如在US 2005/0255843 A1中描述。

在实施例中，RF通信链路WL-RF基于蓝牙特别兴趣小组(SIG)指定的经典蓝牙(例如参见https://www.bluetooth.org)。在实施例中，(第二)RF通信链路基于其它标准或专用协议(例如蓝牙的修改版，例如被修改以包括音频层的蓝牙低功率)。

图7示出了根据本发明实施例的在音频处理装置中减少混响的方法的流程图。该方法包括如下概述的步骤S1-S12.

S1提供声音的混响模型，包括

S2提供表示声音的时变电输入信号；

S3根据第一处理方案提供所述电输入信号的处理后的表示；

S4提供关于处理后的电输入信号在给定时刻的混响性质的信息；

S5基于所述处理后的电输入信号和所述关于混响性质的信息提供所述电输入信号的处理后的表示的特定斜率是因混响引起的似然的预定或者在线计算的模型；

S6对表示声音的当前电信号使用所述混响模型；

S7提供表示声音的时变当前电输入信号；

S8根据所述第一处理方案提供所述当前电输入信号的处理后的表示；

S9使用所述预定或者在线计算的模型确定所述当前电输入信号的处理后的表示在给定时刻的特定斜率是因混响引起的似然；

S10基于所述当前似然及对应的针对多个先前时刻确定的似然确定合成似然；

S11基于所述合成似然及所述电输入信号的所述处理后的表示的特性计算所述当前电输入信号在所述时刻的衰减值；

S12将所述衰减应用于所述时刻的所述当前电输入信号从而提供修改的电信号。

如果方便或者适当，一些步骤可以不同于上面概述的另一顺序(或者并行) 执行。

总之，本发明提供用于在音频处理装置如听力装置例如助听器中减少混响的影响的方法和装置。

用于衰减表示来自环境的声音的电输入信号的混响部分的方案包括：

A、产生或者包含表示声音的电输入信号的处理后的(如对数)表示的特定斜率是因混响引起的似然的模型；

B、对当前电输入信号使用所述模型，以

-确定当前电输入信号的处理后的表示在给定时刻(如给定时间样本，或者给定时频单元)的特定斜率是否因混响引起；

-针对识别为混响的时刻确定当前电输入信号的衰减(通常保持其它时刻不衰减)；及

-将相应衰减应用于在对应时刻的当前电输入信号。

本发明由独立权利要求的特征限定。从属权利要求限定优选实施方式。权利要求中的任何附图标记不意于限定其范围。

一些优选实施例已经在前面进行了说明，但是应当强调的是，本发明不受这些实施例的限制，而是可以权利要求限定的主题内的其它方式实现。例如，为增强不同于包含混响的信号的其它信号，如具有可预测的特性的其它类型的噪声。

Claims

1.减少声音信号中的混响的方法，所述方法包括：

-提供声音的混响模型，包括

--提供表示声音的时变电输入信号；

--根据第一处理方案提供所述电输入信号的处理后的表示；

--基于所述处理后的电输入信号和所述关于混响性质的信息提供所述电输入信号的处理后的表示的特定斜率是因混响引起的似然的预定或者在线计算的模型；

-对表示声音的当前电信号使用所述混响模型，包括

--提供表示声音的时变当前电输入信号；

2.根据权利要求1所述的方法，其中时变电输入信号被提供为多个输入频带信号。

3.根据权利要求1或2所述的方法，其中关于处理后的电输入信号在给定时刻的混响性质的信息包括信号-混响比、直接-混响比或者早期-后期反射比。

4.根据权利要求1所述的方法，其中电输入信号的处理后的表示的特性取决于该信号的噪底。

5.根据权利要求1所述的方法，其中用于识别电输入信号为混响信号的时刻的预定或者在线计算的模型取决于输入信号的特性。

6.根据权利要求1所述的方法，包括确定标示特定声环境的输入信号的特性。

7.根据权利要求1所述的方法，其中根据第一处理方案提供电输入信号或者当前电输入信号的处理后的表示包括提供电输入信号和/或当前电输入信号的对数表示。

8.一种音频处理装置，包括：

-输入单元，用于提供表示声音的时变当前电输入信号；

-存储器单元，包括电输入信号的根据所述第一处理方案处理的处理后的表示的特定斜率是因混响引起的似然的、基于处理后的电输入信号和关于所述处理后的电输入信号在给定时刻的混响性质的信息的预定或者在线计算的模型；

所述处理器配置成

--基于所述当前似然及对应的针对多个先前时刻确定的似然确定合成似然；及

--基于所述合成似然及所述电输入信号的所述当前处理后的表示的特性计算所述当前电输入信号在所述当前时刻的衰减值；及

所述音频处理装置还包括

9.根据权利要求8所述的音频处理装置，包括输出单元，用于基于所述修改的电信号将可感知的刺激作为声音呈现给用户。

10.根据权利要求8所述的音频处理装置，其中所述增益单元适于进一步补偿用户的听力受损。

11.根据权利要求8所述的音频处理装置，包括时域到时-频域转换单元。

12.根据权利要求8所述的音频处理装置，包括分类单元，用于对音频处理装置的当前声环境进行分类。

13.根据权利要求8所述的音频处理装置，包括电平检测器，用于确定频带级的输入信号和/或完全信号的电平。

14.根据权利要求8所述的音频处理装置，其中所述存储器单元包括多个预定或者在线计算的模型，每一模型与特定声环境或者特定听音情形相关联。

15.根据权利要求8所述的音频处理装置，构成或者包括通信装置或助听器。