CN113299316A

CN113299316A - 估计声音信号的直接混响比

Info

Publication number: CN113299316A
Application number: CN202110148911.9A
Authority: CN
Inventors: R·朱拉达
Original assignee: Universitaet Zuerich; Sonova AG
Current assignee: Universitaet Zuerich; Sonova Holding AG
Priority date: 2020-02-06
Filing date: 2021-02-03
Publication date: 2021-08-24
Also published as: EP3863303A1; US20210250722A1; EP3863303B1; US11395090B2; DK3863303T3

Abstract

提出了一种用于估计声音信号(30)的直接混响比(38)的方法。该方法包括：确定第一时间帧的声音信号(30)的第一能量值；如果第一时间帧的第一能量值与先前的第二时间帧的第二能量值的差大于阈值，则向第一时间帧的开始值指派正值，否则指派零值；以及通过将包括开始值的开始信号(42)提供给机器学习算法(44)来确定直接混响比(38)，该机器学习算法(44)已经被训练以基于所述开始信号确定直接混响比(38)。

Description

估计声音信号的直接混响比

技术领域

本发明涉及用于估计声音信号的直接混响比(direct-to-reverberant)的方法、计算机程序和计算机可读介质。此外，本发明涉及一种听力设备。

背景技术

听力设备通常是小型且复杂的设备。听力设备可以包括处理器、麦克风、扬声器、存储器、壳体以及其他电子和机械组件。一些示例听力设备是耳后(BTE)设备、耳道内接收机(RIC)设备、耳内(ITE)设备、完全耳道内(CIC)设备和耳道内不可见(IIC)设备。用户可以基于听力损失、审美偏好、生活方式需要和预算来与另一设备相比更喜欢这些听力设备中的一个设备。

由听力设备获取的日常声音不断受到混响的影响。对于听力设备的用户，反射的声波有助于空间感知和距离感知。对于由听力设备执行的处理声波的算法，关于根据声波生成的声音信号中存在的混响量的知识可能是有益的。

已经提出了用于直接混响(能量)比(DRR)估计的若干种方法。然而，这些方法在听力设备应用中使用时可能会有缺点。此外，所有方法都基于关于声场的假设，而这些假设在现实中并不总能满足。一些方法依赖于各向同性(isotropic)声场的假设。一些方法要求相对于声源的到达方向的先验知识。在所有这些情况下，使用至少多于一个麦克风。

US 20170303053 A1涉及一种听力设备，其中执行去混响过程，该去混响过程测量专用的混响参考信号以确定声学环境的混响特性，并且基于该混响特性来减小听力设备的输出信号中的混响效果。

发明内容

本发明的目的是提供一种用于估计直接混响比的方法，该方法适用于听力设备应用。本发明的另一目的是提供一种用于估计直接混响比的方法，该方法具有低计算成本，易于实现，并且可以利用仅由一个麦克风记录的声音信号来执行。

这些目的通过独立权利要求的主题来实现。根据从属权利要求和以下描述，其他示例性实施例是显而易见的。

本发明的第一方面涉及一种用于估计声音信号的直接混响比的方法。该方法可以由听力设备执行。听力设备可以包括生成声音信号的麦克风。听力设备可以由用户佩戴在例如耳后或耳中。听力设备可以是用于补偿用户的听力损失的助听器。在这里和下文中，当提及听力设备时，也意味着一对听力设备，即，用于用户的每只耳朵的听力设备。听力设备可以包括助听器和/或耳蜗植入物。

从声源接收到的直接声音与从声源的环境中的反射接收到的混响声音之间的直接混响比或更精确的直接混响能量比。

直接声音可以基于从一个或多个声源直接行进到获取声音信号的麦克风的声波。反射和/或混响的声音可以是来自一个或多个声源的声波，其在环境中被反射。直接混响比可以是例如在0到1之间的数字，其中0可以表示不存在混响的声音，和/或1可以表示仅存在混响的声音。直接混响比也可以以dB提供。

根据本发明的实施例，该方法包括：确定第一时间帧的声音信号的第一能量值。可以在时间帧中确定声音信号。针对每个时间帧，可以根据声音信号计算至少一个能量值。时间帧可以全都具有相等的长度。时间帧可以重叠。能量值可以指示声音信号的能量或声音信号在相应的时间帧中的频带中的至少一个。

例如，可以对声音信号进行离散傅立叶变换。特别地，声音信号可以被时间信号缓冲以重叠、加窗和傅立叶变换。然后，可以执行每帧功率估计。声音信号可以被划分为时间帧，并且在时间帧中，声音信号被变换为频率箱(bin)，该频率箱指示在与该频率箱相关联的频率范围中的声音信号的强度。根据这些强度(即，傅立叶系数)，可以计算出能量值。

根据本发明的实施例，该方法还包括：如果第一时间帧的第一能量值与先前的第二时间帧的第二能量值的差大于阈值，则向第一时间帧的开始(onset)值指派正值，否则指派零值。可以根据一个或多个能量值确定至少一个开始信号。当时间帧的能量值比先前的时间帧的能量值高出超过阈值时，针对时间帧的开始信号的开始值可以被设置为正值。否则，开始值被设置为零。开始或更具体的声学开始可以被定义为声音信号的能量的突然跳跃，特别是向上跳跃。

开始信号可以包括针对每个时间帧的开始值。正值可以指示开始的存在和/或开始的幅度。为了确定开始和/或开始值，比较时间帧的能量值和先前的时间帧的能量值。当时间帧的能量值与先前的时间帧的能量值的差高出超过阈值时，则假设存在开始。

当针对时间帧检测到开始时，开始值被设置为的正值可以为1。通常，正值可以高于作为零值的阈值。

当针对时间帧检测到开始时，开始值被设置为的正值也可以是时间帧中的能量值与先前的时间帧中的能量值的差。当未检测到开始时，开始值可以被设置为0。

通常，该方法基于混响对声学开始的影响。混响通常可以弄脏声音信号的频谱。因此，可以假设声学开始的数量和强度会随着混响的增加而降低。

必须注意，可以针对每个时间帧关于声音信号的不同属性(例如，不同的频带)确定多于一个能量值。然后，可以针对每个特性各自确定多于一个开始信号。

根据本发明的实施例，该方法还包括：通过将包括开始值的开始信号提供给机器学习算法来确定直接混响比，该机器学习算法已经被训练以基于所述开始信号确定直接混响比。可以通过将至少一个开始信号和/或从其导出的特征输入到机器学习算法中来确定直接混响比，该机器学习算法已经被训练以根据至少一个开始信号产生直接混响比。

可以将一个或多个开始信号输入到机器学习算法中。可以在将输入的声音信号输入到机器学习算法中之前对输入的声音信号进行预处理。例如，如下面所描述的，可以对开始信号进行积分和/或可以确定积分的开始信号的梯度。然后，可以将积分的开始信号和/或梯度输入到机器学习算法中。

机器学习算法已经被训练以基于一个或多个开始信号确定直接混响比。通常，机器学习算法可以具有在训练期间已经适应的参数(例如，加权或系数)，使得当一个或多个开始信号和/或从其导出的参数连同已知的直接混响比被一起输入时，由机器学习算法输出该直接混响比。

本文描述的根据一个单个声音信号确定一个或多个开始信号并利用机器学习算法确定直接混响比的方法易于实现，并且通过选择合适的机器学习算法，还具有较少的计算需求。必须注意，可以使用相当简单的机器学习算法，例如，回归模型。

通过针对开始信号选择适当的正值，该方法可以独立于信号的电平，即，不取决于记录的响度。该方法可以适用于在线应用和离线应用。就要求的存储器和功率而言，该方法是有效的。该方法可以单耳或双耳使用。

该方法不要求传入声音的定向角的先前知识。此外，该方法不受麦克风指向性图案的影响。

根据本发明的实施例，相对于听力设备的类型来训练机器学习算法。可以针对具有特定硬件(例如，外壳和/或麦克风和/或麦克风位置)的特定类型的听力设备记录并生成训练数据。也可以针对左耳和右耳的听力设备不同地训练机器学习算法。

根据本发明的实施例，开始信号在时间上被积分，确定开始信号的梯度并将该梯度提供给机器学习算法。可以对一个或多个开始信号进行积分和/或确定每个开始信号的梯度。可以在开始于特定时间点并且结束于确定了积分的开始值的时间点的时间间隔内执行积分。然后，可以将每个开始信号的梯度输入到机器学习算法中。如已经提到的，可以在将一个或多个开始信号输入到机器学习算法中之前对一个或多个开始信号进行预处理。

可以通过对有关时间排序的时间帧的能量值进行求和来对开始信号进行积分。换言之，针对时间帧的积分的开始信号的值可以是先前的时间帧的所有能量值的能量值的总和。

积分的开始信号的梯度可以是积分的开始信号的平均梯度。可以根据由积分的开始信号定义的点中的至少一些点的梯度来确定这样的平均的梯度。还可以通过线性回归来确定这样的平均的梯度。通常，梯度可以是指示对应的开始信号的上升的数字。

根据本发明的实施例，利用状态空间模型来确定每个开始信号的梯度。利用状态空间模型，可以以较少的计算需求的方式确定梯度，因为可能无需对矩阵求逆。

根据本发明的实施例，机器学习算法是或至少包括线性回归模型。然后，可以根据积分的开始信号的梯度来确定直接混响比。可以将梯度输入到线性回归模型中，该线性回归模型可以包括对梯度进行加权并产生直接混响比的线性函数。可能已经通过训练机器学习算法确定了梯度的加权。

必须注意，也可以使用其他机器学习算法。例如，可以将一个或多个开始信号输入到人工神经元网络中，该人工神经元网络已经被训练以对开始信号进行分类。由人工神经元网络输出的分类器可以是直接混响比或直接混响比的范围。

存在如何利用声音信号的属性以针对每个时间帧产生不同的能量值的若干种可能情况。可以使用声音信号的总能量。也可以使用声音信号的频带的能量。作为另一种可能情况，可以从声音信号中移除响亮的和/或安静的声音，然后根据移除了响亮的和/或安静的声音的声音信号确定能量值。

根据本发明的实施例，针对第一时间帧或每个时间帧确定宽带能量值，该宽带能量值指示声音信号在时间帧中的能量。例如，可以根据时间帧中的所有频率箱确定宽带能量值。频率箱的能量值可以与复杂傅立叶系数的绝对值的平方成比例。可以对这些能量值进行求和。

根据本发明的实施例，当时间帧的宽带能量值比先前的时间帧的宽带能量值高出超过宽带阈值时，通过将针对时间帧的宽带开始信号的宽带开始值设置为正值来确定宽带开始信号。可以根据宽带能量值来确定宽带开始信号。如上面所描述的，可以将正值设置为0和1。当满足针对时间帧中的开始的标准时，也可以将正值设置为该时间帧的宽带能量值与先前的时间帧的宽带能量值的差。

根据本发明的实施例，针对每个时间帧确定频带能量值，该频带能量值指示声音信号在该时间帧中的频带中的能量。可以将特定的频率箱组装为频带，并且可以仅根据相关联的频率箱的傅立叶系数来确定该频带的能量值。

例如，频带可以具有下限，该下限高于可用于声音信号的完整频谱的中频。自然地，较高频率可以比较低频率受到更大的影响，因为基于混响的声音衍射主要发生在高频范围内。

根据本发明的实施例，当时间帧的频带能量值比先前的时间帧的频带能量值高出超过频带阈值时，通过将针对时间帧的频带开始信号的频带开始值设置为正值来确定频带开始信号。

可以根据频带能量值来确定频带开始信号。如上面所描述的，可以将正值设置为0和1。当满足针对时间帧中的开始的标准时，也可以将正值设置为该时间帧的频带能量值与先前的时间帧的频带能量值的差。

根据本发明的实施例，声音信号被划分为多个频带，并且针对每个频带确定频带开始信号。频带可以重叠。频带也可以覆盖可用于声音信号的完整频谱。

根据本发明的实施例，频带阈值不同于宽带阈值。例如，频带阈值低于宽带阈值。

根据本发明的实施例，针对不同频带的频带阈值是不同的。例如，针对较低频率的频带阈值低于针对较高频率的频带阈值。

根据本发明的实施例，确定宽带开始信号和多个频带开始信号并且将其输入到机器学习算法中，该宽带开始信号和多个频带开始信号可以覆盖从声音信号可获得的频率范围。这可以提高直接混响比的准确度。可以在正值被设置为1的情况下确定宽带开始信号，并且可以在正值被设置为1 的情况下确定针对多个频带的多个频带开始信号。

还可以确定针对相同频带的不同的频带开始信号，这以不同的方式(例如，利用不同类型的正值)确定。可以在正值被设置为1的情况下确定针对多个频带的多个第一频带开始信号。此外，可以在正值被设置为时间帧中的能量值与先前的时间帧中的能量值的差的情况下确定针对多个频带的多个第二频带开始信号。

可以将先前的两个实施例进行组合，即，可以确定宽带开始信号、第一频带开始信号和第二频带开始信号，并且将其输入到机器学习算法中。

本发明的另一方面涉及一种用于操作听力设备的方法，该方法包括：利用听力设备的麦克风生成声音信号；如上面和下面所描述的，估计声音信号的直接混响比；通过使用直接混响比来处理声音信号以补偿听力设备的用户的听力损失；以及将处理后的声音信号输出到用户。可以利用在听力设备的处理器中运行的软件模块来确定直接混响比。可以利用听力设备的声音处理器来执行声音信号的处理，该声音处理器可以借助直接混响比进行调谐。

根据本发明的实施例，直接混响比用于以下各项中的至少一个：噪声消除，混响消除，频率依赖性放大，频率压缩，波束成形，声音分类，自我话音检测，前景/背景分类。可以利用软件模块(例如，听力设备的程序) 来执行这些功能中的每一个。这些软件模块可以使用直接混响比作为输入参数。

例如，基于直接混响比，噪声消除算法可以更好地估计本底噪声。混响消除可以出于相同的原因受益。增益模型(即，频率依赖性放大)和/或压缩器(即，频率压缩)可以基于直接和混响能量的量来更好地调谐，直接和混响能量的量可以根据直接混响比来确定。基于直接混响比，自适应波束成形器可能具有更好的噪声参考估计。也可以通过使用直接混响比作为附加输入参数来改进声音分类器。特别地，可以通过另外地输入直接混响比来优化针对“混响中的语音”的程序。

本发明的另一方面涉及一种用于估计声音信号的直接混响比并且可选地用于操作听力设备的计算机程序，该计算机程序在由处理器执行时适于执行在上文和下文中描述的方法的步骤，本发明的另一方面还涉及计算机可读介质，其中存储了这样的计算机程序。

例如，计算机程序可以在听力设备的处理器中执行，该听力设备例如可以由人携带在耳后。计算机可读介质可以是该听力设备的存储器。

通常，计算机可读介质可以是软盘、硬盘、USB(通用串行总线)存储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦除可编程只读存储器)或闪速存储器。计算机可读介质还可以是允许下载程序代码的数据通信网络，例如，互联网。计算机可读介质可以是非暂时性或暂时性介质。

本发明的另一方面涉及一种听力设备，其适于执行在上文和下文中描述的方法。该听力设备可以包括麦克风、声音处理器、处理器和声音输出设备。该方法可以容易地集成在听力设备中，因为其可以利用听力设备的 DSP块和/或声音处理器中已经可用的特征。

麦克风可以适于获取声音信号。诸如DSP之类的声音处理器可以适于处理声音信号以例如补偿用户的听力损失。处理器可以适于基于对直接混响比的估计来设置声音处理器的参数。适于将处理后的声音信号输出到用户的声音输出设备可以是扬声器或耳蜗植入物。

必须理解，在上文和下文中描述的方法的特征可以是在上文和下文中描述的计算机程序、计算机可读介质和听力设备的特征，反之亦然。

参考下文描述的实施例，本发明的这些和其他方面将变得显而易见并得到阐明。

附图说明

下面，参考附图更详细地描述本发明的实施例。

图1示意性地示出了根据本发明实施例的听力设备。

图2示出了听力设备的功能图，其示出了根据本发明的实施例的用于估计声音信号的直接混响比的方法。

图3和图4示出了具有在图2的方法中产生的开始信号的图。

图5示出了具有在图2的方法中产生的积分的开始信号的图。

图6示出了说明图2的方法的性能的图。

在附图标记列表中以摘要形式列出了附图中使用的附图标记及其含义。原则上，图中相同的部分具有相同的附图标记。

具体实施方式

图1示意性地示出了以耳后设备的形式的听力设备10。必须注意，听力设备10是特定实施例，并且本文描述的方法还可以由其他类型的听力设备(例如，耳内设备或可听戴设备)执行。

听力设备10包括耳后部件12和要放在用户的耳道中的部件14。部件 12和部件14通过管16连接。在部件12中，设置有麦克风18、声音处理器20和声音输出设备22(例如，扬声器)。麦克风20可以获取用户的环境声音并且可以生成声音信号，声音处理器20可以放大声音信号，并且声音输出设备22可以生成被引导通过管16和耳内部件14进入用户的耳道中的声音。

听力设备10可以包括处理器24，该处理器24适于调整声音处理器20 的参数，例如，频率依赖性放大、频率偏移和频率压缩。这些参数可以由在处理器24中运行的计算机程序确定。例如，利用听力设备12的把手26，用户可以选择修改器(例如，低音、高音、噪声抑制、动态音量等)，这会影响声音处理器20的功能。所有这些功能都可以被实现为存储在听力设备 10的存储器28中的计算机程序，该计算机程序可以由处理器24执行。

图2示出了诸如图1的听力设备之类的听力设备的功能图。功能图的框可以示出如本文所描述的方法的步骤和/或可以示出听力设备10的模块，例如，在处理器24中运行的软件模块。

首先，通过麦克风18获取声音信号30。例如，声音信号可以由听力设备10以22050Hz的采样频率记录。可以在具有75％重叠的128个样本的时间帧中缓冲声音信号30。

图3和图4示出了以语音信号的形式的声音信号30，其具有高的直接混响比(8.7dB，图3)和低的直接混响比(-4.5dB，图4)。两幅图示出了在时域中相对于秒的声音信号30。

然后，可以通过离散傅立叶变换(例如，快速傅立叶变换)将声音信号30以及特别是时间帧从时域变换到频域。在计算离散傅立叶变换之前，可以应用Hanning窗和/或零填充。

声音信号30由声音处理器20处理以产生输出声音信号32，然后，可以例如由扬声器22输出该声音信号32。可以借助于声音处理器设置34来调整声音处理器20的操作，该声音处理器设置34可以由听力设备10的程序36确定。这些程序也可以接收和评估声音信号30。例如，程序36可以通过相应地调整声音处理器20来执行噪声消除、混响消除、频率依赖性放大、频率压缩、波束成形、声音分类、自我话音检测、前景/背景分类等。

特别地，程序36中的一些或所有可以接收已经根据声音信号30确定出的直接混响比38，并且程序36可以另外地使用该直接混响比38来确定适当的声音处理器设置34。

以以下方式来确定直接混响比38。

在开始确定框32中，根据声音信号30确定开始信号42。

通常，声音信号30可以被划分为时间帧，这可以在离散傅立叶变换之前完成，并且可以根据声音信号30针对每个时间帧计算至少一个能量值。可以根据能量值确定至少一个开始信号42，其中，当时间帧的能量值比先前的时间帧的能量值高出超过阈值时，将针对时间帧的开始信号42的开始值设置为正值；并且其中，否则将开始值设置为零。

例如，对于被变换到频域的声音信号30，可以基于ERB(等效矩形带宽)标度将离散傅立叶变换箱分组为多个子带。例如，可能存在20个这种子带。然后，可以针对每个时间帧和频率子带E_k,f(k指示时间帧的数量并且f指示频带，对于宽带情况不需要子索引f)计算以dB或等效能量为单位的功率。

由此，可以计算开始信号42。

图3和图4示出了两种不同类型的开始信号——宽带开始信号42a和频带开始信号42b。相应的附图的开始信号42a、42b对应于附图顶部中的相应的声音信号30。

根据时间帧中的声音信号30的总功率和/或能量来确定宽带开始信号 42a。如果时间帧k与时间帧k-1的宽带功率和/或能量之间的差超出给定阈值，则在帧k中检测到开始。宽带开始信号42a可以是二进制特征，每个时间帧可以取值1或0。宽带开始信号42a的第k个时间帧处的值

可以根据以下确定：

这里，E_k是通过对来自所有子带f的所有E_k,f进行求和计算出的第k个时间帧的功率和/或能量值。

根据特定频带的时间帧中的声音信号30的功率和/或能量来确定频带开始信号42b。可以通过聚合若干子带来确定频带。例如，上面提到的20 个子带可以被分组为4个频带。下表示出了可以如何划分频带。

也可以将离散傅里叶变换的频率箱分组为频带，并且频带的功率和/或能量是直接根据频率箱计算的。然而，在许多听力设备中，出于其他原因，已经确定了上面提到的子带能量。

对于频带开始信号42c，针对在第k个时间帧的第i个频率范围的值

的计算规则可以是

在图3和图4中，未示出作为二进制信号(即，仅具有值0和1)生成的频带开始信号42c，但是示出了频带开始信号42b，其中，当检测到开始时，将频带开始信号42b的值设置为开始的强度。

针对频带开始强度42b的值

的计算规则可以与针对频带开始信号 42c的计算规则几乎相同。但是在这种情况下，每当检测到开始时，就将功率和/或能量差用作针对该时间帧的值。

也可以以这种方式确定宽带开始强度。

必须注意，频带阈值可能与针对宽带开始信号42a的阈值不同。针对不同的频带开始信号42b、42c的阈值也可以是不同的。

就开始的数量而言，较高的频率范围通常比较低的频率范围受到更大影响。因此，混响通常不排他地减少开始的数量，而是还随时间改变开始分布。从图3和图4中示出的开始信号42b可以直接看出这一点。

图3和图4还示出了混响对频带开始强度的影响。可以看出，总强度随着混响而降低，并且最高频率范围受到的影响最大。

然后，将开始信号42输入到机器学习算法44中。通常，可以通过将至少一个开始信号42输入到机器学习算法44中来确定直接混响比38，该机器学习算法44已经被训练以根据至少一个开始信号42产生直接混响比38。

机器学习算法44可以由若干子块组成。积分器46可以确定积分的开始信号48。梯度确定器50可以确定每个积分的开始信号48的梯度52，并且梯度52可以被输入到回归模型54中，该回归模型54输出直接混响比38。

积分器46根据每个开始信号42(特别是根据开始信号42a、42b、42c) 计算积分的开始信号48。这是通过随时间累计相应的开始信号42的开始值来完成的。针对时间帧k的积分的开始信号48的值可以是针对时间帧0至 k的开始信号42的值的总和。

图5示出了具有用于相同类型的开始信号42(例如，宽带开始信号42a 或频带开始信号42a、42b)的若干积分的开始信号52的曲线的示例。在该图中，右侧描绘了时间帧的数量。已经针对不同的已知直接混响比38(DRR) 确定了曲线。可以看出，当直接混响比38较高时，积分的开始信号52的总梯度和/或梯度52也较高。

积分的开始信号48被输入到梯度确定器50中，该梯度确定器50针对每个积分的开始信号48确定梯度52。特别地，存在与每个开始信号42a、 42b、42c相关联的梯度52。

可以通过计算相应的积分的开始信号48的平均梯度来确定一个或多个梯度52。这可以通过确定曲线的远端点的梯度来完成，如图5中描绘的。这些梯度可以被平均。

还可以通过使用状态空间模型来确定曲线的梯度52。利用状态空间模型，可以以较少的计算需求的方式来计算梯度，因为可以避免对大型矩阵进行大量除法和/或求逆。状态空间模型可以对累积的开始执行局部线拟合。由于线由其梯度和截距完全描述，因此拟合的参数可以直接表示这些量。可以丢弃截距并且可以保留梯度。状态空间模型可以由2×2矩阵表示。可以通过使用伪逆矩阵来避免为了获得梯度而进行求逆。

然后将一个或多个梯度52输入到线性回归模型54中和/或将其用作线性回归模型54的特征。如上面所描述的，可以假设梯度52指示相应的频带中的与开始信号42、42a、42b、42c相关联的混响，并且对于针对不同频带的混响改变另外做出不同反应。因此，梯度52是机器学习算法的良好特征。

线性回归模型54已经利用从具有不同已知直接混响比38的声音信号 30中提取的梯度52进行训练。线性回归模型54的输出是对直接混响比38 的估计。

线性回归模型54可以具有输入到其中的每个梯度52的加权和/或系数。线性回归模型54的输出(即，估计出的直接混响比38)是这些加权和/或系数乘以相应的梯度52的总和。这些加权和/或系数是在训练期间被调整的参数。

必须注意，一个或多个开始信号42和/或梯度52可以被输入到另一类型的机器学习算法(例如，人工神经元网络)中。

图6示出了指示根据声源的方位角的直接混响比估计器40、44的性能的图。特别地，示出了指示针对声音的36个到达方向的直接混响比估计器的性能。需要指出的是，估计器不知道声音的到达方向。用圆圈标记的值指代利用本文所描述的方法从耳后听力设备中的左前麦克风获得的直接混响比估计。

用三角形标记的值指代根据通过左前麦克风记录的房间脉冲响应以及房间中的进一步的测量计算出的直接混响比。用三角形标记的值受针对左后方位角的听力设备的指向性图案的影响，并且对侧值受头部阴影的影响。然而，在身体同侧，应确定相同的直接混响比。可以看出，估计不受左后侧的指向性图案的影响。

尽管已经在附图和前述描述中详细地说明和描述了本发明，但是这样的说明和描述应被认为是说明性或示例性而非限制性的；本发明不限于所公开的实施例。通过研究附图、公开内容和所附权利要求书，本领域技术人员和实践要求保护的发明的人员可以理解和实现所公开的实施例的其他变型。在权利要求书中，词语“包括”不排除其他元素或步骤，并且不定冠词“一(a)”或“一(an)”不排除多个。单个处理器或控制器或其他单元可以实现权利要求书中引述的若干项的功能。在互不相同的从属权利要求中引述某些措施的事实并不指示不能有利地使用这些措施的组合。在权利要求书中的任何附图标记都不应被解释为限制范围。

附图标记列表

10 听力设备

12 耳后部件

14 耳内部件14

16 管

18 麦克风

20 声音处理器

22 声音输出设备

24 处理器

26 把手

28 存储器

30 声音信号

32 输出声音信号

34 声音处理器设置

36 听力设备程序

38 直接混响比

40 开始信号确定

42 开始信号

42a 宽带开始信号

42b 频带开始信号

42c 频带开始信号

44 机器学习算法

46 积分器

48 积分的开始信号

50 梯度确定器

52 梯度

54 回归模型

Claims

1.一种用于估计声音信号(30)的直接混响比(38)的方法，其中，所述直接混响比(38)指示从声源接收到的直接声音与从所述声源的环境中的反射接收到的混响声音之间的比，所述方法包括：

针对第一时间帧确定声音信号(30)的第一能量值；

如果所述第一时间帧的所述第一能量值与先前的第二时间帧的第二能量值的差大于阈值，则向所述第一时间帧的开始值指派正值，否则指派零值；

通过将包括所述开始值的开始信号(42)提供给机器学习算法(44)来确定所述直接混响比(38)，所述机器学习算法(44)已经被训练以基于所述开始信号确定所述直接混响比(38)。

2.根据权利要求1所述的方法，

其中，所述开始信号(42)在时间上被积分，确定所述开始信号(42)的梯度(52)并且将所述梯度(52)提供给所述机器学习算法(44)。

3.根据权利要求2所述的方法，

其中，通过状态空间模型确定积分的开始信号(48)的所述梯度(52)。

4.根据前述权利要求中的一项所述的方法，

其中，所述机器学习算法(44)包括线性回归模型(54)。

5.根据前述权利要求中的一项所述的方法，

其中，针对所述第一时间帧确定宽带能量值，所述宽带能量值指示所述声音信号(30)在所述第一时间帧中的能量；

其中，当所述第一时间帧的所述宽带能量值比所述先前的第二时间帧的所述宽带能量值高出超过宽带阈值时，通过将针对所述第一时间帧的宽带开始信号(42a)的宽带开始值设置为正值来确定所述宽带开始信号(42a)。

6.根据前述权利要求中的一项所述的方法，

其中，针对所述第一时间帧确定频带能量值，所述频带能量值指示所述声音信号(30)在所述第一时间帧中的频带中的能量；

其中，当所述第一时间帧的所述频带能量值比所述先前的第二时间帧的所述频带能量值高出超过频带阈值时，通过将针对所述第一时间帧的频带开始信号(42b)的频带开始值设置为正值来确定所述频带开始信号(42b)。

7.根据权利要求6所述的方法，

其中，所述声音信号(30)被划分为多个频带，并且针对每个频带确定频带开始信号(42b)。

8.根据权利要求6或7所述的方法，

其中，所述频带阈值不同于所述宽带阈值；和/或

其中，针对不同频带的频带阈值是不同的。

9.根据前述权利要求中的一项所述的方法，

其中，开始值被设置为的所述正值为1；或者

其中，所述正值是所述第一时间帧中的能量值与所述先前的第二时间帧中的能量值的差。

10.根据前述权利要求中的一项所述的方法，

其中，在正值被设置为1的情况下确定宽带开始信号(42a)；

其中，在正值被设置为1的情况下确定针对多个频带的多个第一频带开始信号(42c)；

其中，在正值被设置为所述第一时间帧中的所述能量值与所述先前的第二时间帧中的所述能量值的所述差的情况下确定针对所述多个频带的多个第二频带开始信号(42b)；

其中，所述宽带开始信号(42a)、所述第一频带开始信号(42c)和所述第二频带开始信号(42b)被输入到所述机器学习算法中。

11.一种用于操作听力设备(10)的方法，所述方法包括：

利用所述听力设备(10)的麦克风(18)生成声音信号(30)；

根据前述权利要求中的一项，估计所述声音信号(30)的直接混响比(38)；

使用所述直接混响比(38)处理所述声音信号(30)以补偿所述听力设备(10)的用户的听力损失；

将处理后的声音信号(32)输出到所述用户。

12.根据权利要求11所述的方法，

其中，所述直接混响比(38)用于以下各项中的至少一个：

噪声消除，

混响消除，

频率依赖性放大，

频率压缩，

波束成形，

声音分类，

自我话音检测，

前景/背景分类。

13.一种用于估计声音信号(30)的直接混响比的计算机程序，所述计算机程序当由处理器执行时适于执行前述权利要求中的一项所述的方法的步骤。

14.一种计算机可读介质(28)，其中存储了根据权利要求13所述的计算机程序。

15.一种听力设备(10)，适于执行根据权利要求1至12中的一项所述的方法。