CN113299316A - 估计声音信号的直接混响比 - Google Patents

估计声音信号的直接混响比 Download PDF

Info

Publication number
CN113299316A
CN113299316A CN202110148911.9A CN202110148911A CN113299316A CN 113299316 A CN113299316 A CN 113299316A CN 202110148911 A CN202110148911 A CN 202110148911A CN 113299316 A CN113299316 A CN 113299316A
Authority
CN
China
Prior art keywords
time frame
value
band
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110148911.9A
Other languages
English (en)
Inventor
R·朱拉达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universitaet Zuerich
Sonova Holding AG
Original Assignee
Universitaet Zuerich
Sonova AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Universitaet Zuerich, Sonova AG filed Critical Universitaet Zuerich
Publication of CN113299316A publication Critical patent/CN113299316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Neurosurgery (AREA)
  • Data Mining & Analysis (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

提出了一种用于估计声音信号(30)的直接混响比(38)的方法。该方法包括:确定第一时间帧的声音信号(30)的第一能量值;如果第一时间帧的第一能量值与先前的第二时间帧的第二能量值的差大于阈值,则向第一时间帧的开始值指派正值,否则指派零值;以及通过将包括开始值的开始信号(42)提供给机器学习算法(44)来确定直接混响比(38),该机器学习算法(44)已经被训练以基于所述开始信号确定直接混响比(38)。

Description

估计声音信号的直接混响比
技术领域
本发明涉及用于估计声音信号的直接混响比(direct-to-reverberant)的 方法、计算机程序和计算机可读介质。此外,本发明涉及一种听力设备。
背景技术
听力设备通常是小型且复杂的设备。听力设备可以包括处理器、麦克 风、扬声器、存储器、壳体以及其他电子和机械组件。一些示例听力设备 是耳后(BTE)设备、耳道内接收机(RIC)设备、耳内(ITE)设备、完 全耳道内(CIC)设备和耳道内不可见(IIC)设备。用户可以基于听力损 失、审美偏好、生活方式需要和预算来与另一设备相比更喜欢这些听力设备中的一个设备。
由听力设备获取的日常声音不断受到混响的影响。对于听力设备的用 户,反射的声波有助于空间感知和距离感知。对于由听力设备执行的处理 声波的算法,关于根据声波生成的声音信号中存在的混响量的知识可能是 有益的。
已经提出了用于直接混响(能量)比(DRR)估计的若干种方法。然 而,这些方法在听力设备应用中使用时可能会有缺点。此外,所有方法都 基于关于声场的假设,而这些假设在现实中并不总能满足。一些方法依赖 于各向同性(isotropic)声场的假设。一些方法要求相对于声源的到达方向 的先验知识。在所有这些情况下,使用至少多于一个麦克风。
US 20170303053 A1涉及一种听力设备,其中执行去混响过程,该去混 响过程测量专用的混响参考信号以确定声学环境的混响特性,并且基于该 混响特性来减小听力设备的输出信号中的混响效果。
发明内容
本发明的目的是提供一种用于估计直接混响比的方法,该方法适用于 听力设备应用。本发明的另一目的是提供一种用于估计直接混响比的方法, 该方法具有低计算成本,易于实现,并且可以利用仅由一个麦克风记录的 声音信号来执行。
这些目的通过独立权利要求的主题来实现。根据从属权利要求和以下 描述,其他示例性实施例是显而易见的。
本发明的第一方面涉及一种用于估计声音信号的直接混响比的方法。 该方法可以由听力设备执行。听力设备可以包括生成声音信号的麦克风。 听力设备可以由用户佩戴在例如耳后或耳中。听力设备可以是用于补偿用 户的听力损失的助听器。在这里和下文中,当提及听力设备时,也意味着 一对听力设备,即,用于用户的每只耳朵的听力设备。听力设备可以包括 助听器和/或耳蜗植入物。
从声源接收到的直接声音与从声源的环境中的反射接收到的混响声音 之间的直接混响比或更精确的直接混响能量比。
直接声音可以基于从一个或多个声源直接行进到获取声音信号的麦克 风的声波。反射和/或混响的声音可以是来自一个或多个声源的声波,其在 环境中被反射。直接混响比可以是例如在0到1之间的数字,其中0可以 表示不存在混响的声音,和/或1可以表示仅存在混响的声音。直接混响比 也可以以dB提供。
根据本发明的实施例,该方法包括:确定第一时间帧的声音信号的第 一能量值。可以在时间帧中确定声音信号。针对每个时间帧,可以根据声 音信号计算至少一个能量值。时间帧可以全都具有相等的长度。时间帧可 以重叠。能量值可以指示声音信号的能量或声音信号在相应的时间帧中的 频带中的至少一个。
例如,可以对声音信号进行离散傅立叶变换。特别地,声音信号可以 被时间信号缓冲以重叠、加窗和傅立叶变换。然后,可以执行每帧功率估 计。声音信号可以被划分为时间帧,并且在时间帧中,声音信号被变换为 频率箱(bin),该频率箱指示在与该频率箱相关联的频率范围中的声音信号 的强度。根据这些强度(即,傅立叶系数),可以计算出能量值。
根据本发明的实施例,该方法还包括:如果第一时间帧的第一能量值 与先前的第二时间帧的第二能量值的差大于阈值,则向第一时间帧的开始(onset)值指派正值,否则指派零值。可以根据一个或多个能量值确定至 少一个开始信号。当时间帧的能量值比先前的时间帧的能量值高出超过阈 值时,针对时间帧的开始信号的开始值可以被设置为正值。否则,开始值 被设置为零。开始或更具体的声学开始可以被定义为声音信号的能量的突 然跳跃,特别是向上跳跃。
开始信号可以包括针对每个时间帧的开始值。正值可以指示开始的存 在和/或开始的幅度。为了确定开始和/或开始值,比较时间帧的能量值和先 前的时间帧的能量值。当时间帧的能量值与先前的时间帧的能量值的差高 出超过阈值时,则假设存在开始。
当针对时间帧检测到开始时,开始值被设置为的正值可以为1。通常, 正值可以高于作为零值的阈值。
当针对时间帧检测到开始时,开始值被设置为的正值也可以是时间帧 中的能量值与先前的时间帧中的能量值的差。当未检测到开始时,开始值 可以被设置为0。
通常,该方法基于混响对声学开始的影响。混响通常可以弄脏声音信 号的频谱。因此,可以假设声学开始的数量和强度会随着混响的增加而降 低。
必须注意,可以针对每个时间帧关于声音信号的不同属性(例如,不 同的频带)确定多于一个能量值。然后,可以针对每个特性各自确定多于 一个开始信号。
根据本发明的实施例,该方法还包括:通过将包括开始值的开始信号 提供给机器学习算法来确定直接混响比,该机器学习算法已经被训练以基 于所述开始信号确定直接混响比。可以通过将至少一个开始信号和/或从其 导出的特征输入到机器学习算法中来确定直接混响比,该机器学习算法已 经被训练以根据至少一个开始信号产生直接混响比。
可以将一个或多个开始信号输入到机器学习算法中。可以在将输入的 声音信号输入到机器学习算法中之前对输入的声音信号进行预处理。例如, 如下面所描述的,可以对开始信号进行积分和/或可以确定积分的开始信号 的梯度。然后,可以将积分的开始信号和/或梯度输入到机器学习算法中。
机器学习算法已经被训练以基于一个或多个开始信号确定直接混响比。 通常,机器学习算法可以具有在训练期间已经适应的参数(例如,加权或 系数),使得当一个或多个开始信号和/或从其导出的参数连同已知的直接混 响比被一起输入时,由机器学习算法输出该直接混响比。
本文描述的根据一个单个声音信号确定一个或多个开始信号并利用机 器学习算法确定直接混响比的方法易于实现,并且通过选择合适的机器学 习算法,还具有较少的计算需求。必须注意,可以使用相当简单的机器学 习算法,例如,回归模型。
通过针对开始信号选择适当的正值,该方法可以独立于信号的电平, 即,不取决于记录的响度。该方法可以适用于在线应用和离线应用。就要 求的存储器和功率而言,该方法是有效的。该方法可以单耳或双耳使用。
该方法不要求传入声音的定向角的先前知识。此外,该方法不受麦克 风指向性图案的影响。
根据本发明的实施例,相对于听力设备的类型来训练机器学习算法。 可以针对具有特定硬件(例如,外壳和/或麦克风和/或麦克风位置)的特定 类型的听力设备记录并生成训练数据。也可以针对左耳和右耳的听力设备 不同地训练机器学习算法。
根据本发明的实施例,开始信号在时间上被积分,确定开始信号的梯 度并将该梯度提供给机器学习算法。可以对一个或多个开始信号进行积分 和/或确定每个开始信号的梯度。可以在开始于特定时间点并且结束于确定 了积分的开始值的时间点的时间间隔内执行积分。然后,可以将每个开始 信号的梯度输入到机器学习算法中。如已经提到的,可以在将一个或多个 开始信号输入到机器学习算法中之前对一个或多个开始信号进行预处理。
可以通过对有关时间排序的时间帧的能量值进行求和来对开始信号进 行积分。换言之,针对时间帧的积分的开始信号的值可以是先前的时间帧 的所有能量值的能量值的总和。
积分的开始信号的梯度可以是积分的开始信号的平均梯度。可以根据 由积分的开始信号定义的点中的至少一些点的梯度来确定这样的平均的梯 度。还可以通过线性回归来确定这样的平均的梯度。通常,梯度可以是指 示对应的开始信号的上升的数字。
根据本发明的实施例,利用状态空间模型来确定每个开始信号的梯度。 利用状态空间模型,可以以较少的计算需求的方式确定梯度,因为可能无 需对矩阵求逆。
根据本发明的实施例,机器学习算法是或至少包括线性回归模型。然 后,可以根据积分的开始信号的梯度来确定直接混响比。可以将梯度输入 到线性回归模型中,该线性回归模型可以包括对梯度进行加权并产生直接 混响比的线性函数。可能已经通过训练机器学习算法确定了梯度的加权。
必须注意,也可以使用其他机器学习算法。例如,可以将一个或多个 开始信号输入到人工神经元网络中,该人工神经元网络已经被训练以对开 始信号进行分类。由人工神经元网络输出的分类器可以是直接混响比或直 接混响比的范围。
存在如何利用声音信号的属性以针对每个时间帧产生不同的能量值的 若干种可能情况。可以使用声音信号的总能量。也可以使用声音信号的频 带的能量。作为另一种可能情况,可以从声音信号中移除响亮的和/或安静 的声音,然后根据移除了响亮的和/或安静的声音的声音信号确定能量值。
根据本发明的实施例,针对第一时间帧或每个时间帧确定宽带能量值, 该宽带能量值指示声音信号在时间帧中的能量。例如,可以根据时间帧中 的所有频率箱确定宽带能量值。频率箱的能量值可以与复杂傅立叶系数的 绝对值的平方成比例。可以对这些能量值进行求和。
根据本发明的实施例,当时间帧的宽带能量值比先前的时间帧的宽带 能量值高出超过宽带阈值时,通过将针对时间帧的宽带开始信号的宽带开 始值设置为正值来确定宽带开始信号。可以根据宽带能量值来确定宽带开 始信号。如上面所描述的,可以将正值设置为0和1。当满足针对时间帧中 的开始的标准时,也可以将正值设置为该时间帧的宽带能量值与先前的时 间帧的宽带能量值的差。
根据本发明的实施例,针对每个时间帧确定频带能量值,该频带能量 值指示声音信号在该时间帧中的频带中的能量。可以将特定的频率箱组装 为频带,并且可以仅根据相关联的频率箱的傅立叶系数来确定该频带的能 量值。
例如,频带可以具有下限,该下限高于可用于声音信号的完整频谱的 中频。自然地,较高频率可以比较低频率受到更大的影响,因为基于混响 的声音衍射主要发生在高频范围内。
根据本发明的实施例,当时间帧的频带能量值比先前的时间帧的频带 能量值高出超过频带阈值时,通过将针对时间帧的频带开始信号的频带开 始值设置为正值来确定频带开始信号。
可以根据频带能量值来确定频带开始信号。如上面所描述的,可以将 正值设置为0和1。当满足针对时间帧中的开始的标准时,也可以将正值设 置为该时间帧的频带能量值与先前的时间帧的频带能量值的差。
根据本发明的实施例,声音信号被划分为多个频带,并且针对每个频 带确定频带开始信号。频带可以重叠。频带也可以覆盖可用于声音信号的 完整频谱。
根据本发明的实施例,频带阈值不同于宽带阈值。例如,频带阈值低 于宽带阈值。
根据本发明的实施例,针对不同频带的频带阈值是不同的。例如,针 对较低频率的频带阈值低于针对较高频率的频带阈值。
根据本发明的实施例,确定宽带开始信号和多个频带开始信号并且将 其输入到机器学习算法中,该宽带开始信号和多个频带开始信号可以覆盖 从声音信号可获得的频率范围。这可以提高直接混响比的准确度。可以在 正值被设置为1的情况下确定宽带开始信号,并且可以在正值被设置为1 的情况下确定针对多个频带的多个频带开始信号。
还可以确定针对相同频带的不同的频带开始信号,这以不同的方式(例 如,利用不同类型的正值)确定。可以在正值被设置为1的情况下确定针 对多个频带的多个第一频带开始信号。此外,可以在正值被设置为时间帧 中的能量值与先前的时间帧中的能量值的差的情况下确定针对多个频带的 多个第二频带开始信号。
可以将先前的两个实施例进行组合,即,可以确定宽带开始信号、第 一频带开始信号和第二频带开始信号,并且将其输入到机器学习算法中。
本发明的另一方面涉及一种用于操作听力设备的方法,该方法包括: 利用听力设备的麦克风生成声音信号;如上面和下面所描述的,估计声音 信号的直接混响比;通过使用直接混响比来处理声音信号以补偿听力设备 的用户的听力损失;以及将处理后的声音信号输出到用户。可以利用在听 力设备的处理器中运行的软件模块来确定直接混响比。可以利用听力设备 的声音处理器来执行声音信号的处理,该声音处理器可以借助直接混响比 进行调谐。
根据本发明的实施例,直接混响比用于以下各项中的至少一个:噪声 消除,混响消除,频率依赖性放大,频率压缩,波束成形,声音分类,自 我话音检测,前景/背景分类。可以利用软件模块(例如,听力设备的程序) 来执行这些功能中的每一个。这些软件模块可以使用直接混响比作为输入 参数。
例如,基于直接混响比,噪声消除算法可以更好地估计本底噪声。混 响消除可以出于相同的原因受益。增益模型(即,频率依赖性放大)和/或 压缩器(即,频率压缩)可以基于直接和混响能量的量来更好地调谐,直 接和混响能量的量可以根据直接混响比来确定。基于直接混响比,自适应 波束成形器可能具有更好的噪声参考估计。也可以通过使用直接混响比作 为附加输入参数来改进声音分类器。特别地,可以通过另外地输入直接混 响比来优化针对“混响中的语音”的程序。
本发明的另一方面涉及一种用于估计声音信号的直接混响比并且可选 地用于操作听力设备的计算机程序,该计算机程序在由处理器执行时适于 执行在上文和下文中描述的方法的步骤,本发明的另一方面还涉及计算机 可读介质,其中存储了这样的计算机程序。
例如,计算机程序可以在听力设备的处理器中执行,该听力设备例如 可以由人携带在耳后。计算机可读介质可以是该听力设备的存储器。
通常,计算机可读介质可以是软盘、硬盘、USB(通用串行总线)存 储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦 除可编程只读存储器)或闪速存储器。计算机可读介质还可以是允许下载 程序代码的数据通信网络,例如,互联网。计算机可读介质可以是非暂时 性或暂时性介质。
本发明的另一方面涉及一种听力设备,其适于执行在上文和下文中描 述的方法。该听力设备可以包括麦克风、声音处理器、处理器和声音输出 设备。该方法可以容易地集成在听力设备中,因为其可以利用听力设备的 DSP块和/或声音处理器中已经可用的特征。
麦克风可以适于获取声音信号。诸如DSP之类的声音处理器可以适于 处理声音信号以例如补偿用户的听力损失。处理器可以适于基于对直接混 响比的估计来设置声音处理器的参数。适于将处理后的声音信号输出到用 户的声音输出设备可以是扬声器或耳蜗植入物。
必须理解,在上文和下文中描述的方法的特征可以是在上文和下文中 描述的计算机程序、计算机可读介质和听力设备的特征,反之亦然。
参考下文描述的实施例,本发明的这些和其他方面将变得显而易见并 得到阐明。
附图说明
下面,参考附图更详细地描述本发明的实施例。
图1示意性地示出了根据本发明实施例的听力设备。
图2示出了听力设备的功能图,其示出了根据本发明的实施例的用于 估计声音信号的直接混响比的方法。
图3和图4示出了具有在图2的方法中产生的开始信号的图。
图5示出了具有在图2的方法中产生的积分的开始信号的图。
图6示出了说明图2的方法的性能的图。
在附图标记列表中以摘要形式列出了附图中使用的附图标记及其含义。 原则上,图中相同的部分具有相同的附图标记。
具体实施方式
图1示意性地示出了以耳后设备的形式的听力设备10。必须注意,听 力设备10是特定实施例,并且本文描述的方法还可以由其他类型的听力设 备(例如,耳内设备或可听戴设备)执行。
听力设备10包括耳后部件12和要放在用户的耳道中的部件14。部件 12和部件14通过管16连接。在部件12中,设置有麦克风18、声音处理 器20和声音输出设备22(例如,扬声器)。麦克风20可以获取用户的环境 声音并且可以生成声音信号,声音处理器20可以放大声音信号,并且声音 输出设备22可以生成被引导通过管16和耳内部件14进入用户的耳道中的 声音。
听力设备10可以包括处理器24,该处理器24适于调整声音处理器20 的参数,例如,频率依赖性放大、频率偏移和频率压缩。这些参数可以由 在处理器24中运行的计算机程序确定。例如,利用听力设备12的把手26, 用户可以选择修改器(例如,低音、高音、噪声抑制、动态音量等),这会 影响声音处理器20的功能。所有这些功能都可以被实现为存储在听力设备 10的存储器28中的计算机程序,该计算机程序可以由处理器24执行。
图2示出了诸如图1的听力设备之类的听力设备的功能图。功能图的 框可以示出如本文所描述的方法的步骤和/或可以示出听力设备10的模块, 例如,在处理器24中运行的软件模块。
首先,通过麦克风18获取声音信号30。例如,声音信号可以由听力设 备10以22050Hz的采样频率记录。可以在具有75%重叠的128个样本的 时间帧中缓冲声音信号30。
图3和图4示出了以语音信号的形式的声音信号30,其具有高的直接 混响比(8.7dB,图3)和低的直接混响比(-4.5dB,图4)。两幅图示出了 在时域中相对于秒的声音信号30。
然后,可以通过离散傅立叶变换(例如,快速傅立叶变换)将声音信 号30以及特别是时间帧从时域变换到频域。在计算离散傅立叶变换之前, 可以应用Hanning窗和/或零填充。
声音信号30由声音处理器20处理以产生输出声音信号32,然后,可 以例如由扬声器22输出该声音信号32。可以借助于声音处理器设置34来 调整声音处理器20的操作,该声音处理器设置34可以由听力设备10的程 序36确定。这些程序也可以接收和评估声音信号30。例如,程序36可以 通过相应地调整声音处理器20来执行噪声消除、混响消除、频率依赖性放 大、频率压缩、波束成形、声音分类、自我话音检测、前景/背景分类等。
特别地,程序36中的一些或所有可以接收已经根据声音信号30确定 出的直接混响比38,并且程序36可以另外地使用该直接混响比38来确定 适当的声音处理器设置34。
以以下方式来确定直接混响比38。
在开始确定框32中,根据声音信号30确定开始信号42。
通常,声音信号30可以被划分为时间帧,这可以在离散傅立叶变换之 前完成,并且可以根据声音信号30针对每个时间帧计算至少一个能量值。 可以根据能量值确定至少一个开始信号42,其中,当时间帧的能量值比先 前的时间帧的能量值高出超过阈值时,将针对时间帧的开始信号42的开始 值设置为正值;并且其中,否则将开始值设置为零。
例如,对于被变换到频域的声音信号30,可以基于ERB(等效矩形带 宽)标度将离散傅立叶变换箱分组为多个子带。例如,可能存在20个这种 子带。然后,可以针对每个时间帧和频率子带Ek,f(k指示时间帧的数量并 且f指示频带,对于宽带情况不需要子索引f)计算以dB或等效能量为单 位的功率。
由此,可以计算开始信号42。
图3和图4示出了两种不同类型的开始信号——宽带开始信号42a和 频带开始信号42b。相应的附图的开始信号42a、42b对应于附图顶部中的 相应的声音信号30。
根据时间帧中的声音信号30的总功率和/或能量来确定宽带开始信号 42a。如果时间帧k与时间帧k-1的宽带功率和/或能量之间的差超出给定阈 值,则在帧k中检测到开始。宽带开始信号42a可以是二进制特征,每个时 间帧可以取值1或0。宽带开始信号42a的第k个时间帧处的值
Figure BDA0002931390790000101
可以根 据以下确定:
Figure BDA0002931390790000102
这里,Ek是通过对来自所有子带f的所有Ek,f进行求和计算出的第k个 时间帧的功率和/或能量值。
根据特定频带的时间帧中的声音信号30的功率和/或能量来确定频带 开始信号42b。可以通过聚合若干子带来确定频带。例如,上面提到的20 个子带可以被分组为4个频带。下表示出了可以如何划分频带。
Figure BDA0002931390790000103
Figure BDA0002931390790000111
也可以将离散傅里叶变换的频率箱分组为频带,并且频带的功率和/或 能量是直接根据频率箱计算的。然而,在许多听力设备中,出于其他原因, 已经确定了上面提到的子带能量。
对于频带开始信号42c,针对在第k个时间帧的第i个频率范围的值
Figure BDA0002931390790000112
的计算规则可以是
Figure BDA0002931390790000113
在图3和图4中,未示出作为二进制信号(即,仅具有值0和1)生成 的频带开始信号42c,但是示出了频带开始信号42b,其中,当检测到开始 时,将频带开始信号42b的值设置为开始的强度。
针对频带开始强度42b的值
Figure BDA0002931390790000114
的计算规则可以与针对频带开始信号 42c的计算规则几乎相同。但是在这种情况下,每当检测到开始时,就将功 率和/或能量差用作针对该时间帧的值。
Figure BDA0002931390790000115
也可以以这种方式确定宽带开始强度。
必须注意,频带阈值可能与针对宽带开始信号42a的阈值不同。针对 不同的频带开始信号42b、42c的阈值也可以是不同的。
就开始的数量而言,较高的频率范围通常比较低的频率范围受到更大 影响。因此,混响通常不排他地减少开始的数量,而是还随时间改变开始 分布。从图3和图4中示出的开始信号42b可以直接看出这一点。
图3和图4还示出了混响对频带开始强度的影响。可以看出,总强度 随着混响而降低,并且最高频率范围受到的影响最大。
然后,将开始信号42输入到机器学习算法44中。通常,可以通过将 至少一个开始信号42输入到机器学习算法44中来确定直接混响比38,该 机器学习算法44已经被训练以根据至少一个开始信号42产生直接混响比38。
机器学习算法44可以由若干子块组成。积分器46可以确定积分的开 始信号48。梯度确定器50可以确定每个积分的开始信号48的梯度52,并 且梯度52可以被输入到回归模型54中,该回归模型54输出直接混响比38。
积分器46根据每个开始信号42(特别是根据开始信号42a、42b、42c) 计算积分的开始信号48。这是通过随时间累计相应的开始信号42的开始值 来完成的。针对时间帧k的积分的开始信号48的值可以是针对时间帧0至 k的开始信号42的值的总和。
图5示出了具有用于相同类型的开始信号42(例如,宽带开始信号42a 或频带开始信号42a、42b)的若干积分的开始信号52的曲线的示例。在该 图中,右侧描绘了时间帧的数量。已经针对不同的已知直接混响比38(DRR) 确定了曲线。可以看出,当直接混响比38较高时,积分的开始信号52的 总梯度和/或梯度52也较高。
积分的开始信号48被输入到梯度确定器50中,该梯度确定器50针对 每个积分的开始信号48确定梯度52。特别地,存在与每个开始信号42a、 42b、42c相关联的梯度52。
可以通过计算相应的积分的开始信号48的平均梯度来确定一个或多个 梯度52。这可以通过确定曲线的远端点的梯度来完成,如图5中描绘的。 这些梯度可以被平均。
还可以通过使用状态空间模型来确定曲线的梯度52。利用状态空间模 型,可以以较少的计算需求的方式来计算梯度,因为可以避免对大型矩阵 进行大量除法和/或求逆。状态空间模型可以对累积的开始执行局部线拟合。 由于线由其梯度和截距完全描述,因此拟合的参数可以直接表示这些量。 可以丢弃截距并且可以保留梯度。状态空间模型可以由2×2矩阵表示。可 以通过使用伪逆矩阵来避免为了获得梯度而进行求逆。
然后将一个或多个梯度52输入到线性回归模型54中和/或将其用作线 性回归模型54的特征。如上面所描述的,可以假设梯度52指示相应的频 带中的与开始信号42、42a、42b、42c相关联的混响,并且对于针对不同频 带的混响改变另外做出不同反应。因此,梯度52是机器学习算法的良好特 征。
线性回归模型54已经利用从具有不同已知直接混响比38的声音信号 30中提取的梯度52进行训练。线性回归模型54的输出是对直接混响比38 的估计。
线性回归模型54可以具有输入到其中的每个梯度52的加权和/或系数。 线性回归模型54的输出(即,估计出的直接混响比38)是这些加权和/或 系数乘以相应的梯度52的总和。这些加权和/或系数是在训练期间被调整的 参数。
必须注意,一个或多个开始信号42和/或梯度52可以被输入到另一类 型的机器学习算法(例如,人工神经元网络)中。
图6示出了指示根据声源的方位角的直接混响比估计器40、44的性能 的图。特别地,示出了指示针对声音的36个到达方向的直接混响比估计器 的性能。需要指出的是,估计器不知道声音的到达方向。用圆圈标记的值 指代利用本文所描述的方法从耳后听力设备中的左前麦克风获得的直接混 响比估计。
用三角形标记的值指代根据通过左前麦克风记录的房间脉冲响应以及 房间中的进一步的测量计算出的直接混响比。用三角形标记的值受针对左 后方位角的听力设备的指向性图案的影响,并且对侧值受头部阴影的影响。 然而,在身体同侧,应确定相同的直接混响比。可以看出,估计不受左后 侧的指向性图案的影响。
尽管已经在附图和前述描述中详细地说明和描述了本发明,但是这样 的说明和描述应被认为是说明性或示例性而非限制性的;本发明不限于所 公开的实施例。通过研究附图、公开内容和所附权利要求书,本领域技术 人员和实践要求保护的发明的人员可以理解和实现所公开的实施例的其他 变型。在权利要求书中,词语“包括”不排除其他元素或步骤,并且不定 冠词“一(a)”或“一(an)”不排除多个。单个处理器或控制器或其他单 元可以实现权利要求书中引述的若干项的功能。在互不相同的从属权利要 求中引述某些措施的事实并不指示不能有利地使用这些措施的组合。在权 利要求书中的任何附图标记都不应被解释为限制范围。
附图标记列表
10 听力设备
12 耳后部件
14 耳内部件14
16 管
18 麦克风
20 声音处理器
22 声音输出设备
24 处理器
26 把手
28 存储器
30 声音信号
32 输出声音信号
34 声音处理器设置
36 听力设备程序
38 直接混响比
40 开始信号确定
42 开始信号
42a 宽带开始信号
42b 频带开始信号
42c 频带开始信号
44 机器学习算法
46 积分器
48 积分的开始信号
50 梯度确定器
52 梯度
54 回归模型

Claims (15)

1.一种用于估计声音信号(30)的直接混响比(38)的方法,其中,所述直接混响比(38)指示从声源接收到的直接声音与从所述声源的环境中的反射接收到的混响声音之间的比,所述方法包括:
针对第一时间帧确定声音信号(30)的第一能量值;
如果所述第一时间帧的所述第一能量值与先前的第二时间帧的第二能量值的差大于阈值,则向所述第一时间帧的开始值指派正值,否则指派零值;
通过将包括所述开始值的开始信号(42)提供给机器学习算法(44)来确定所述直接混响比(38),所述机器学习算法(44)已经被训练以基于所述开始信号确定所述直接混响比(38)。
2.根据权利要求1所述的方法,
其中,所述开始信号(42)在时间上被积分,确定所述开始信号(42)的梯度(52)并且将所述梯度(52)提供给所述机器学习算法(44)。
3.根据权利要求2所述的方法,
其中,通过状态空间模型确定积分的开始信号(48)的所述梯度(52)。
4.根据前述权利要求中的一项所述的方法,
其中,所述机器学习算法(44)包括线性回归模型(54)。
5.根据前述权利要求中的一项所述的方法,
其中,针对所述第一时间帧确定宽带能量值,所述宽带能量值指示所述声音信号(30)在所述第一时间帧中的能量;
其中,当所述第一时间帧的所述宽带能量值比所述先前的第二时间帧的所述宽带能量值高出超过宽带阈值时,通过将针对所述第一时间帧的宽带开始信号(42a)的宽带开始值设置为正值来确定所述宽带开始信号(42a)。
6.根据前述权利要求中的一项所述的方法,
其中,针对所述第一时间帧确定频带能量值,所述频带能量值指示所述声音信号(30)在所述第一时间帧中的频带中的能量;
其中,当所述第一时间帧的所述频带能量值比所述先前的第二时间帧的所述频带能量值高出超过频带阈值时,通过将针对所述第一时间帧的频带开始信号(42b)的频带开始值设置为正值来确定所述频带开始信号(42b)。
7.根据权利要求6所述的方法,
其中,所述声音信号(30)被划分为多个频带,并且针对每个频带确定频带开始信号(42b)。
8.根据权利要求6或7所述的方法,
其中,所述频带阈值不同于所述宽带阈值;和/或
其中,针对不同频带的频带阈值是不同的。
9.根据前述权利要求中的一项所述的方法,
其中,开始值被设置为的所述正值为1;或者
其中,所述正值是所述第一时间帧中的能量值与所述先前的第二时间帧中的能量值的差。
10.根据前述权利要求中的一项所述的方法,
其中,在正值被设置为1的情况下确定宽带开始信号(42a);
其中,在正值被设置为1的情况下确定针对多个频带的多个第一频带开始信号(42c);
其中,在正值被设置为所述第一时间帧中的所述能量值与所述先前的第二时间帧中的所述能量值的所述差的情况下确定针对所述多个频带的多个第二频带开始信号(42b);
其中,所述宽带开始信号(42a)、所述第一频带开始信号(42c)和所述第二频带开始信号(42b)被输入到所述机器学习算法中。
11.一种用于操作听力设备(10)的方法,所述方法包括:
利用所述听力设备(10)的麦克风(18)生成声音信号(30);
根据前述权利要求中的一项,估计所述声音信号(30)的直接混响比(38);
使用所述直接混响比(38)处理所述声音信号(30)以补偿所述听力设备(10)的用户的听力损失;
将处理后的声音信号(32)输出到所述用户。
12.根据权利要求11所述的方法,
其中,所述直接混响比(38)用于以下各项中的至少一个:
噪声消除,
混响消除,
频率依赖性放大,
频率压缩,
波束成形,
声音分类,
自我话音检测,
前景/背景分类。
13.一种用于估计声音信号(30)的直接混响比的计算机程序,所述计算机程序当由处理器执行时适于执行前述权利要求中的一项所述的方法的步骤。
14.一种计算机可读介质(28),其中存储了根据权利要求13所述的计算机程序。
15.一种听力设备(10),适于执行根据权利要求1至12中的一项所述的方法。
CN202110148911.9A 2020-02-06 2021-02-03 估计声音信号的直接混响比 Pending CN113299316A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP20155833.5A EP3863303B1 (en) 2020-02-06 2020-02-06 Estimating a direct-to-reverberant ratio of a sound signal
EP20155833.5 2020-02-06

Publications (1)

Publication Number Publication Date
CN113299316A true CN113299316A (zh) 2021-08-24

Family

ID=69526038

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110148911.9A Pending CN113299316A (zh) 2020-02-06 2021-02-03 估计声音信号的直接混响比

Country Status (4)

Country Link
US (1) US11395090B2 (zh)
EP (1) EP3863303B1 (zh)
CN (1) CN113299316A (zh)
DK (1) DK3863303T3 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200184987A1 (en) * 2020-02-10 2020-06-11 Intel Corporation Noise reduction using specific disturbance models
US12014748B1 (en) * 2020-08-07 2024-06-18 Amazon Technologies, Inc. Speech enhancement machine learning model for estimation of reverberation in a multi-task learning framework
GB2614713A (en) * 2022-01-12 2023-07-19 Nokia Technologies Oy Adjustment of reverberator based on input diffuse-to-direct ratio

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602007004061D1 (de) * 2007-02-06 2010-02-11 Oticon As Abschätzung der eigenen Stimmaktivität mit einem Hörgerätsystem aufgrund des Verhältnisses zwischen Direktklang und Widerhall
EP2058804B1 (en) 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
US9549266B2 (en) 2012-04-24 2017-01-17 Sonova Ag Method of controlling a hearing instrument
CN102750956B (zh) * 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
EP3483874B1 (en) 2013-03-05 2021-04-28 Apple Inc. Adjusting the beam pattern of a speaker array based on the location of one or more listeners
US9538297B2 (en) 2013-11-07 2017-01-03 The Board Of Regents Of The University Of Texas System Enhancement of reverberant speech by binary mask estimation
DK2916321T3 (en) 2014-03-07 2018-01-15 Oticon As Processing a noisy audio signal to estimate target and noise spectral variations
CN106688247A (zh) 2014-09-26 2017-05-17 Med-El电气医疗器械有限公司 确定房间混响以用于信号增强
WO2016056683A1 (ko) 2014-10-07 2016-04-14 삼성전자 주식회사 전자 장치 및 이의 잔향 제거 방법
US9813811B1 (en) * 2016-06-01 2017-11-07 Cisco Technology, Inc. Soundfield decomposition, reverberation reduction, and audio mixing of sub-soundfields at a video conference endpoint
DE102018210143A1 (de) * 2018-06-21 2019-12-24 Sivantos Pte. Ltd. Verfahren zur Unterdrückung eines akustischen Nachhalls in einem Audiosignal

Also Published As

Publication number Publication date
EP3863303A1 (en) 2021-08-11
US20210250722A1 (en) 2021-08-12
EP3863303B1 (en) 2022-11-23
US11395090B2 (en) 2022-07-19
DK3863303T3 (da) 2023-01-16

Similar Documents

Publication Publication Date Title
CN107454538B (zh) 包括含有平滑单元的波束形成器滤波单元的助听器
Hamacher et al. Signal processing in high-end hearing aids: State of the art, challenges, and future trends
EP2899996B1 (en) Signal enhancement using wireless streaming
CN113299316A (zh) 估计声音信号的直接混响比
US8842861B2 (en) Method of signal processing in a hearing aid system and a hearing aid system
WO2019084405A1 (en) ELECTRONIC DEVICE IMPLEMENTING A COMPOSITE MEASUREMENT FOR ENHANCING SOUND
US11109164B2 (en) Method of operating a hearing aid system and a hearing aid system
CN105706466B (zh) 具有概率性的听力损失补偿的助听器
JP2004312754A (ja) 両耳信号増強システム
EP2238592A2 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
WO2010028683A1 (en) Method for sound processing in a hearing aid and a hearing aid
EP3360136A1 (en) Hearing aid system and a method of operating a hearing aid system
EP3074975A1 (en) Method of operating a hearing aid system and a hearing aid system
EP3008924A1 (en) Method of signal processing in a hearing aid system and a hearing aid system
DK2595414T3 (en) Hearing device with a device for reducing a noise microphone and method for reducing noise of a microphone
US8233650B2 (en) Multi-stage estimation method for noise reduction and hearing apparatus
US9949041B2 (en) Hearing assistance device with beamformer optimized using a priori spatial information
CN113825076A (zh) 用于包括听力装置的听力系统的与方向相关抑制噪声的方法
US20100046775A1 (en) Method for operating a hearing apparatus with directional effect and an associated hearing apparatus
WO2020035158A1 (en) Method of operating a hearing aid system and a hearing aid system
Lopez et al. Technical evaluation of hearing-aid fitting parameters for different auditory profiles
US8385572B2 (en) Method for reducing noise using trainable models
US8625826B2 (en) Apparatus and method for background noise estimation with a binaural hearing device supply
EP3837861B1 (en) Method of operating a hearing aid system and a hearing aid system
US10051382B2 (en) Method and apparatus for noise suppression based on inter-subband correlation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination