CN113299316A - 估计声音信号的直接混响比 - Google Patents
估计声音信号的直接混响比 Download PDFInfo
- Publication number
- CN113299316A CN113299316A CN202110148911.9A CN202110148911A CN113299316A CN 113299316 A CN113299316 A CN 113299316A CN 202110148911 A CN202110148911 A CN 202110148911A CN 113299316 A CN113299316 A CN 113299316A
- Authority
- CN
- China
- Prior art keywords
- time frame
- value
- band
- sound
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 37
- 238000010801 machine learning Methods 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 11
- 238000012417 linear regression Methods 0.000 claims description 10
- 230000001419 dependent effect Effects 0.000 claims description 7
- 206010011878 Deafness Diseases 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 5
- 230000010370 hearing loss Effects 0.000 claims description 5
- 231100000888 hearing loss Toxicity 0.000 claims description 5
- 208000016354 hearing loss disease Diseases 0.000 claims description 5
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 230000003447 ipsilateral effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/305—Electronic adaptation of stereophonic audio signals to reverberation of the listening space
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Neurosurgery (AREA)
- Data Mining & Analysis (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
提出了一种用于估计声音信号(30)的直接混响比(38)的方法。该方法包括:确定第一时间帧的声音信号(30)的第一能量值;如果第一时间帧的第一能量值与先前的第二时间帧的第二能量值的差大于阈值,则向第一时间帧的开始值指派正值,否则指派零值;以及通过将包括开始值的开始信号(42)提供给机器学习算法(44)来确定直接混响比(38),该机器学习算法(44)已经被训练以基于所述开始信号确定直接混响比(38)。
Description
技术领域
本发明涉及用于估计声音信号的直接混响比(direct-to-reverberant)的 方法、计算机程序和计算机可读介质。此外,本发明涉及一种听力设备。
背景技术
听力设备通常是小型且复杂的设备。听力设备可以包括处理器、麦克 风、扬声器、存储器、壳体以及其他电子和机械组件。一些示例听力设备 是耳后(BTE)设备、耳道内接收机(RIC)设备、耳内(ITE)设备、完 全耳道内(CIC)设备和耳道内不可见(IIC)设备。用户可以基于听力损 失、审美偏好、生活方式需要和预算来与另一设备相比更喜欢这些听力设备中的一个设备。
由听力设备获取的日常声音不断受到混响的影响。对于听力设备的用 户,反射的声波有助于空间感知和距离感知。对于由听力设备执行的处理 声波的算法,关于根据声波生成的声音信号中存在的混响量的知识可能是 有益的。
已经提出了用于直接混响(能量)比(DRR)估计的若干种方法。然 而,这些方法在听力设备应用中使用时可能会有缺点。此外,所有方法都 基于关于声场的假设,而这些假设在现实中并不总能满足。一些方法依赖 于各向同性(isotropic)声场的假设。一些方法要求相对于声源的到达方向 的先验知识。在所有这些情况下,使用至少多于一个麦克风。
US 20170303053 A1涉及一种听力设备,其中执行去混响过程,该去混 响过程测量专用的混响参考信号以确定声学环境的混响特性,并且基于该 混响特性来减小听力设备的输出信号中的混响效果。
发明内容
本发明的目的是提供一种用于估计直接混响比的方法,该方法适用于 听力设备应用。本发明的另一目的是提供一种用于估计直接混响比的方法, 该方法具有低计算成本,易于实现,并且可以利用仅由一个麦克风记录的 声音信号来执行。
这些目的通过独立权利要求的主题来实现。根据从属权利要求和以下 描述,其他示例性实施例是显而易见的。
本发明的第一方面涉及一种用于估计声音信号的直接混响比的方法。 该方法可以由听力设备执行。听力设备可以包括生成声音信号的麦克风。 听力设备可以由用户佩戴在例如耳后或耳中。听力设备可以是用于补偿用 户的听力损失的助听器。在这里和下文中,当提及听力设备时,也意味着 一对听力设备,即,用于用户的每只耳朵的听力设备。听力设备可以包括 助听器和/或耳蜗植入物。
从声源接收到的直接声音与从声源的环境中的反射接收到的混响声音 之间的直接混响比或更精确的直接混响能量比。
直接声音可以基于从一个或多个声源直接行进到获取声音信号的麦克 风的声波。反射和/或混响的声音可以是来自一个或多个声源的声波,其在 环境中被反射。直接混响比可以是例如在0到1之间的数字,其中0可以 表示不存在混响的声音,和/或1可以表示仅存在混响的声音。直接混响比 也可以以dB提供。
根据本发明的实施例,该方法包括:确定第一时间帧的声音信号的第 一能量值。可以在时间帧中确定声音信号。针对每个时间帧,可以根据声 音信号计算至少一个能量值。时间帧可以全都具有相等的长度。时间帧可 以重叠。能量值可以指示声音信号的能量或声音信号在相应的时间帧中的 频带中的至少一个。
例如,可以对声音信号进行离散傅立叶变换。特别地,声音信号可以 被时间信号缓冲以重叠、加窗和傅立叶变换。然后,可以执行每帧功率估 计。声音信号可以被划分为时间帧,并且在时间帧中,声音信号被变换为 频率箱(bin),该频率箱指示在与该频率箱相关联的频率范围中的声音信号 的强度。根据这些强度(即,傅立叶系数),可以计算出能量值。
根据本发明的实施例,该方法还包括:如果第一时间帧的第一能量值 与先前的第二时间帧的第二能量值的差大于阈值,则向第一时间帧的开始(onset)值指派正值,否则指派零值。可以根据一个或多个能量值确定至 少一个开始信号。当时间帧的能量值比先前的时间帧的能量值高出超过阈 值时,针对时间帧的开始信号的开始值可以被设置为正值。否则,开始值 被设置为零。开始或更具体的声学开始可以被定义为声音信号的能量的突 然跳跃,特别是向上跳跃。
开始信号可以包括针对每个时间帧的开始值。正值可以指示开始的存 在和/或开始的幅度。为了确定开始和/或开始值,比较时间帧的能量值和先 前的时间帧的能量值。当时间帧的能量值与先前的时间帧的能量值的差高 出超过阈值时,则假设存在开始。
当针对时间帧检测到开始时,开始值被设置为的正值可以为1。通常, 正值可以高于作为零值的阈值。
当针对时间帧检测到开始时,开始值被设置为的正值也可以是时间帧 中的能量值与先前的时间帧中的能量值的差。当未检测到开始时,开始值 可以被设置为0。
通常,该方法基于混响对声学开始的影响。混响通常可以弄脏声音信 号的频谱。因此,可以假设声学开始的数量和强度会随着混响的增加而降 低。
必须注意,可以针对每个时间帧关于声音信号的不同属性(例如,不 同的频带)确定多于一个能量值。然后,可以针对每个特性各自确定多于 一个开始信号。
根据本发明的实施例,该方法还包括:通过将包括开始值的开始信号 提供给机器学习算法来确定直接混响比,该机器学习算法已经被训练以基 于所述开始信号确定直接混响比。可以通过将至少一个开始信号和/或从其 导出的特征输入到机器学习算法中来确定直接混响比,该机器学习算法已 经被训练以根据至少一个开始信号产生直接混响比。
可以将一个或多个开始信号输入到机器学习算法中。可以在将输入的 声音信号输入到机器学习算法中之前对输入的声音信号进行预处理。例如, 如下面所描述的,可以对开始信号进行积分和/或可以确定积分的开始信号 的梯度。然后,可以将积分的开始信号和/或梯度输入到机器学习算法中。
机器学习算法已经被训练以基于一个或多个开始信号确定直接混响比。 通常,机器学习算法可以具有在训练期间已经适应的参数(例如,加权或 系数),使得当一个或多个开始信号和/或从其导出的参数连同已知的直接混 响比被一起输入时,由机器学习算法输出该直接混响比。
本文描述的根据一个单个声音信号确定一个或多个开始信号并利用机 器学习算法确定直接混响比的方法易于实现,并且通过选择合适的机器学 习算法,还具有较少的计算需求。必须注意,可以使用相当简单的机器学 习算法,例如,回归模型。
通过针对开始信号选择适当的正值,该方法可以独立于信号的电平, 即,不取决于记录的响度。该方法可以适用于在线应用和离线应用。就要 求的存储器和功率而言,该方法是有效的。该方法可以单耳或双耳使用。
该方法不要求传入声音的定向角的先前知识。此外,该方法不受麦克 风指向性图案的影响。
根据本发明的实施例,相对于听力设备的类型来训练机器学习算法。 可以针对具有特定硬件(例如,外壳和/或麦克风和/或麦克风位置)的特定 类型的听力设备记录并生成训练数据。也可以针对左耳和右耳的听力设备 不同地训练机器学习算法。
根据本发明的实施例,开始信号在时间上被积分,确定开始信号的梯 度并将该梯度提供给机器学习算法。可以对一个或多个开始信号进行积分 和/或确定每个开始信号的梯度。可以在开始于特定时间点并且结束于确定 了积分的开始值的时间点的时间间隔内执行积分。然后,可以将每个开始 信号的梯度输入到机器学习算法中。如已经提到的,可以在将一个或多个 开始信号输入到机器学习算法中之前对一个或多个开始信号进行预处理。
可以通过对有关时间排序的时间帧的能量值进行求和来对开始信号进 行积分。换言之,针对时间帧的积分的开始信号的值可以是先前的时间帧 的所有能量值的能量值的总和。
积分的开始信号的梯度可以是积分的开始信号的平均梯度。可以根据 由积分的开始信号定义的点中的至少一些点的梯度来确定这样的平均的梯 度。还可以通过线性回归来确定这样的平均的梯度。通常,梯度可以是指 示对应的开始信号的上升的数字。
根据本发明的实施例,利用状态空间模型来确定每个开始信号的梯度。 利用状态空间模型,可以以较少的计算需求的方式确定梯度,因为可能无 需对矩阵求逆。
根据本发明的实施例,机器学习算法是或至少包括线性回归模型。然 后,可以根据积分的开始信号的梯度来确定直接混响比。可以将梯度输入 到线性回归模型中,该线性回归模型可以包括对梯度进行加权并产生直接 混响比的线性函数。可能已经通过训练机器学习算法确定了梯度的加权。
必须注意,也可以使用其他机器学习算法。例如,可以将一个或多个 开始信号输入到人工神经元网络中,该人工神经元网络已经被训练以对开 始信号进行分类。由人工神经元网络输出的分类器可以是直接混响比或直 接混响比的范围。
存在如何利用声音信号的属性以针对每个时间帧产生不同的能量值的 若干种可能情况。可以使用声音信号的总能量。也可以使用声音信号的频 带的能量。作为另一种可能情况,可以从声音信号中移除响亮的和/或安静 的声音,然后根据移除了响亮的和/或安静的声音的声音信号确定能量值。
根据本发明的实施例,针对第一时间帧或每个时间帧确定宽带能量值, 该宽带能量值指示声音信号在时间帧中的能量。例如,可以根据时间帧中 的所有频率箱确定宽带能量值。频率箱的能量值可以与复杂傅立叶系数的 绝对值的平方成比例。可以对这些能量值进行求和。
根据本发明的实施例,当时间帧的宽带能量值比先前的时间帧的宽带 能量值高出超过宽带阈值时,通过将针对时间帧的宽带开始信号的宽带开 始值设置为正值来确定宽带开始信号。可以根据宽带能量值来确定宽带开 始信号。如上面所描述的,可以将正值设置为0和1。当满足针对时间帧中 的开始的标准时,也可以将正值设置为该时间帧的宽带能量值与先前的时 间帧的宽带能量值的差。
根据本发明的实施例,针对每个时间帧确定频带能量值,该频带能量 值指示声音信号在该时间帧中的频带中的能量。可以将特定的频率箱组装 为频带,并且可以仅根据相关联的频率箱的傅立叶系数来确定该频带的能 量值。
例如,频带可以具有下限,该下限高于可用于声音信号的完整频谱的 中频。自然地,较高频率可以比较低频率受到更大的影响,因为基于混响 的声音衍射主要发生在高频范围内。
根据本发明的实施例,当时间帧的频带能量值比先前的时间帧的频带 能量值高出超过频带阈值时,通过将针对时间帧的频带开始信号的频带开 始值设置为正值来确定频带开始信号。
可以根据频带能量值来确定频带开始信号。如上面所描述的,可以将 正值设置为0和1。当满足针对时间帧中的开始的标准时,也可以将正值设 置为该时间帧的频带能量值与先前的时间帧的频带能量值的差。
根据本发明的实施例,声音信号被划分为多个频带,并且针对每个频 带确定频带开始信号。频带可以重叠。频带也可以覆盖可用于声音信号的 完整频谱。
根据本发明的实施例,频带阈值不同于宽带阈值。例如,频带阈值低 于宽带阈值。
根据本发明的实施例,针对不同频带的频带阈值是不同的。例如,针 对较低频率的频带阈值低于针对较高频率的频带阈值。
根据本发明的实施例,确定宽带开始信号和多个频带开始信号并且将 其输入到机器学习算法中,该宽带开始信号和多个频带开始信号可以覆盖 从声音信号可获得的频率范围。这可以提高直接混响比的准确度。可以在 正值被设置为1的情况下确定宽带开始信号,并且可以在正值被设置为1 的情况下确定针对多个频带的多个频带开始信号。
还可以确定针对相同频带的不同的频带开始信号,这以不同的方式(例 如,利用不同类型的正值)确定。可以在正值被设置为1的情况下确定针 对多个频带的多个第一频带开始信号。此外,可以在正值被设置为时间帧 中的能量值与先前的时间帧中的能量值的差的情况下确定针对多个频带的 多个第二频带开始信号。
可以将先前的两个实施例进行组合,即,可以确定宽带开始信号、第 一频带开始信号和第二频带开始信号,并且将其输入到机器学习算法中。
本发明的另一方面涉及一种用于操作听力设备的方法,该方法包括: 利用听力设备的麦克风生成声音信号;如上面和下面所描述的,估计声音 信号的直接混响比;通过使用直接混响比来处理声音信号以补偿听力设备 的用户的听力损失;以及将处理后的声音信号输出到用户。可以利用在听 力设备的处理器中运行的软件模块来确定直接混响比。可以利用听力设备 的声音处理器来执行声音信号的处理,该声音处理器可以借助直接混响比 进行调谐。
根据本发明的实施例,直接混响比用于以下各项中的至少一个:噪声 消除,混响消除,频率依赖性放大,频率压缩,波束成形,声音分类,自 我话音检测,前景/背景分类。可以利用软件模块(例如,听力设备的程序) 来执行这些功能中的每一个。这些软件模块可以使用直接混响比作为输入 参数。
例如,基于直接混响比,噪声消除算法可以更好地估计本底噪声。混 响消除可以出于相同的原因受益。增益模型(即,频率依赖性放大)和/或 压缩器(即,频率压缩)可以基于直接和混响能量的量来更好地调谐,直 接和混响能量的量可以根据直接混响比来确定。基于直接混响比,自适应 波束成形器可能具有更好的噪声参考估计。也可以通过使用直接混响比作 为附加输入参数来改进声音分类器。特别地,可以通过另外地输入直接混 响比来优化针对“混响中的语音”的程序。
本发明的另一方面涉及一种用于估计声音信号的直接混响比并且可选 地用于操作听力设备的计算机程序,该计算机程序在由处理器执行时适于 执行在上文和下文中描述的方法的步骤,本发明的另一方面还涉及计算机 可读介质,其中存储了这样的计算机程序。
例如,计算机程序可以在听力设备的处理器中执行,该听力设备例如 可以由人携带在耳后。计算机可读介质可以是该听力设备的存储器。
通常,计算机可读介质可以是软盘、硬盘、USB(通用串行总线)存 储设备、RAM(随机存取存储器)、ROM(只读存储器)、EPROM(可擦 除可编程只读存储器)或闪速存储器。计算机可读介质还可以是允许下载 程序代码的数据通信网络,例如,互联网。计算机可读介质可以是非暂时 性或暂时性介质。
本发明的另一方面涉及一种听力设备,其适于执行在上文和下文中描 述的方法。该听力设备可以包括麦克风、声音处理器、处理器和声音输出 设备。该方法可以容易地集成在听力设备中,因为其可以利用听力设备的 DSP块和/或声音处理器中已经可用的特征。
麦克风可以适于获取声音信号。诸如DSP之类的声音处理器可以适于 处理声音信号以例如补偿用户的听力损失。处理器可以适于基于对直接混 响比的估计来设置声音处理器的参数。适于将处理后的声音信号输出到用 户的声音输出设备可以是扬声器或耳蜗植入物。
必须理解,在上文和下文中描述的方法的特征可以是在上文和下文中 描述的计算机程序、计算机可读介质和听力设备的特征,反之亦然。
参考下文描述的实施例,本发明的这些和其他方面将变得显而易见并 得到阐明。
附图说明
下面,参考附图更详细地描述本发明的实施例。
图1示意性地示出了根据本发明实施例的听力设备。
图2示出了听力设备的功能图,其示出了根据本发明的实施例的用于 估计声音信号的直接混响比的方法。
图3和图4示出了具有在图2的方法中产生的开始信号的图。
图5示出了具有在图2的方法中产生的积分的开始信号的图。
图6示出了说明图2的方法的性能的图。
在附图标记列表中以摘要形式列出了附图中使用的附图标记及其含义。 原则上,图中相同的部分具有相同的附图标记。
具体实施方式
图1示意性地示出了以耳后设备的形式的听力设备10。必须注意,听 力设备10是特定实施例,并且本文描述的方法还可以由其他类型的听力设 备(例如,耳内设备或可听戴设备)执行。
听力设备10包括耳后部件12和要放在用户的耳道中的部件14。部件 12和部件14通过管16连接。在部件12中,设置有麦克风18、声音处理 器20和声音输出设备22(例如,扬声器)。麦克风20可以获取用户的环境 声音并且可以生成声音信号,声音处理器20可以放大声音信号,并且声音 输出设备22可以生成被引导通过管16和耳内部件14进入用户的耳道中的 声音。
听力设备10可以包括处理器24,该处理器24适于调整声音处理器20 的参数,例如,频率依赖性放大、频率偏移和频率压缩。这些参数可以由 在处理器24中运行的计算机程序确定。例如,利用听力设备12的把手26, 用户可以选择修改器(例如,低音、高音、噪声抑制、动态音量等),这会 影响声音处理器20的功能。所有这些功能都可以被实现为存储在听力设备 10的存储器28中的计算机程序,该计算机程序可以由处理器24执行。
图2示出了诸如图1的听力设备之类的听力设备的功能图。功能图的 框可以示出如本文所描述的方法的步骤和/或可以示出听力设备10的模块, 例如,在处理器24中运行的软件模块。
首先,通过麦克风18获取声音信号30。例如,声音信号可以由听力设 备10以22050Hz的采样频率记录。可以在具有75%重叠的128个样本的 时间帧中缓冲声音信号30。
图3和图4示出了以语音信号的形式的声音信号30,其具有高的直接 混响比(8.7dB,图3)和低的直接混响比(-4.5dB,图4)。两幅图示出了 在时域中相对于秒的声音信号30。
然后,可以通过离散傅立叶变换(例如,快速傅立叶变换)将声音信 号30以及特别是时间帧从时域变换到频域。在计算离散傅立叶变换之前, 可以应用Hanning窗和/或零填充。
声音信号30由声音处理器20处理以产生输出声音信号32,然后,可 以例如由扬声器22输出该声音信号32。可以借助于声音处理器设置34来 调整声音处理器20的操作,该声音处理器设置34可以由听力设备10的程 序36确定。这些程序也可以接收和评估声音信号30。例如,程序36可以 通过相应地调整声音处理器20来执行噪声消除、混响消除、频率依赖性放 大、频率压缩、波束成形、声音分类、自我话音检测、前景/背景分类等。
特别地,程序36中的一些或所有可以接收已经根据声音信号30确定 出的直接混响比38,并且程序36可以另外地使用该直接混响比38来确定 适当的声音处理器设置34。
以以下方式来确定直接混响比38。
在开始确定框32中,根据声音信号30确定开始信号42。
通常,声音信号30可以被划分为时间帧,这可以在离散傅立叶变换之 前完成,并且可以根据声音信号30针对每个时间帧计算至少一个能量值。 可以根据能量值确定至少一个开始信号42,其中,当时间帧的能量值比先 前的时间帧的能量值高出超过阈值时,将针对时间帧的开始信号42的开始 值设置为正值;并且其中,否则将开始值设置为零。
例如,对于被变换到频域的声音信号30,可以基于ERB(等效矩形带 宽)标度将离散傅立叶变换箱分组为多个子带。例如,可能存在20个这种 子带。然后,可以针对每个时间帧和频率子带Ek,f(k指示时间帧的数量并 且f指示频带,对于宽带情况不需要子索引f)计算以dB或等效能量为单 位的功率。
由此,可以计算开始信号42。
图3和图4示出了两种不同类型的开始信号——宽带开始信号42a和 频带开始信号42b。相应的附图的开始信号42a、42b对应于附图顶部中的 相应的声音信号30。
根据时间帧中的声音信号30的总功率和/或能量来确定宽带开始信号 42a。如果时间帧k与时间帧k-1的宽带功率和/或能量之间的差超出给定阈 值,则在帧k中检测到开始。宽带开始信号42a可以是二进制特征,每个时 间帧可以取值1或0。宽带开始信号42a的第k个时间帧处的值可以根 据以下确定:
这里,Ek是通过对来自所有子带f的所有Ek,f进行求和计算出的第k个 时间帧的功率和/或能量值。
根据特定频带的时间帧中的声音信号30的功率和/或能量来确定频带 开始信号42b。可以通过聚合若干子带来确定频带。例如,上面提到的20 个子带可以被分组为4个频带。下表示出了可以如何划分频带。
也可以将离散傅里叶变换的频率箱分组为频带,并且频带的功率和/或 能量是直接根据频率箱计算的。然而,在许多听力设备中,出于其他原因, 已经确定了上面提到的子带能量。
在图3和图4中,未示出作为二进制信号(即,仅具有值0和1)生成 的频带开始信号42c,但是示出了频带开始信号42b,其中,当检测到开始 时,将频带开始信号42b的值设置为开始的强度。
也可以以这种方式确定宽带开始强度。
必须注意,频带阈值可能与针对宽带开始信号42a的阈值不同。针对 不同的频带开始信号42b、42c的阈值也可以是不同的。
就开始的数量而言,较高的频率范围通常比较低的频率范围受到更大 影响。因此,混响通常不排他地减少开始的数量,而是还随时间改变开始 分布。从图3和图4中示出的开始信号42b可以直接看出这一点。
图3和图4还示出了混响对频带开始强度的影响。可以看出,总强度 随着混响而降低,并且最高频率范围受到的影响最大。
然后,将开始信号42输入到机器学习算法44中。通常,可以通过将 至少一个开始信号42输入到机器学习算法44中来确定直接混响比38,该 机器学习算法44已经被训练以根据至少一个开始信号42产生直接混响比38。
机器学习算法44可以由若干子块组成。积分器46可以确定积分的开 始信号48。梯度确定器50可以确定每个积分的开始信号48的梯度52,并 且梯度52可以被输入到回归模型54中,该回归模型54输出直接混响比38。
积分器46根据每个开始信号42(特别是根据开始信号42a、42b、42c) 计算积分的开始信号48。这是通过随时间累计相应的开始信号42的开始值 来完成的。针对时间帧k的积分的开始信号48的值可以是针对时间帧0至 k的开始信号42的值的总和。
图5示出了具有用于相同类型的开始信号42(例如,宽带开始信号42a 或频带开始信号42a、42b)的若干积分的开始信号52的曲线的示例。在该 图中,右侧描绘了时间帧的数量。已经针对不同的已知直接混响比38(DRR) 确定了曲线。可以看出,当直接混响比38较高时,积分的开始信号52的 总梯度和/或梯度52也较高。
积分的开始信号48被输入到梯度确定器50中,该梯度确定器50针对 每个积分的开始信号48确定梯度52。特别地,存在与每个开始信号42a、 42b、42c相关联的梯度52。
可以通过计算相应的积分的开始信号48的平均梯度来确定一个或多个 梯度52。这可以通过确定曲线的远端点的梯度来完成,如图5中描绘的。 这些梯度可以被平均。
还可以通过使用状态空间模型来确定曲线的梯度52。利用状态空间模 型,可以以较少的计算需求的方式来计算梯度,因为可以避免对大型矩阵 进行大量除法和/或求逆。状态空间模型可以对累积的开始执行局部线拟合。 由于线由其梯度和截距完全描述,因此拟合的参数可以直接表示这些量。 可以丢弃截距并且可以保留梯度。状态空间模型可以由2×2矩阵表示。可 以通过使用伪逆矩阵来避免为了获得梯度而进行求逆。
然后将一个或多个梯度52输入到线性回归模型54中和/或将其用作线 性回归模型54的特征。如上面所描述的,可以假设梯度52指示相应的频 带中的与开始信号42、42a、42b、42c相关联的混响,并且对于针对不同频 带的混响改变另外做出不同反应。因此,梯度52是机器学习算法的良好特 征。
线性回归模型54已经利用从具有不同已知直接混响比38的声音信号 30中提取的梯度52进行训练。线性回归模型54的输出是对直接混响比38 的估计。
线性回归模型54可以具有输入到其中的每个梯度52的加权和/或系数。 线性回归模型54的输出(即,估计出的直接混响比38)是这些加权和/或 系数乘以相应的梯度52的总和。这些加权和/或系数是在训练期间被调整的 参数。
必须注意,一个或多个开始信号42和/或梯度52可以被输入到另一类 型的机器学习算法(例如,人工神经元网络)中。
图6示出了指示根据声源的方位角的直接混响比估计器40、44的性能 的图。特别地,示出了指示针对声音的36个到达方向的直接混响比估计器 的性能。需要指出的是,估计器不知道声音的到达方向。用圆圈标记的值 指代利用本文所描述的方法从耳后听力设备中的左前麦克风获得的直接混 响比估计。
用三角形标记的值指代根据通过左前麦克风记录的房间脉冲响应以及 房间中的进一步的测量计算出的直接混响比。用三角形标记的值受针对左 后方位角的听力设备的指向性图案的影响,并且对侧值受头部阴影的影响。 然而,在身体同侧,应确定相同的直接混响比。可以看出,估计不受左后 侧的指向性图案的影响。
尽管已经在附图和前述描述中详细地说明和描述了本发明,但是这样 的说明和描述应被认为是说明性或示例性而非限制性的;本发明不限于所 公开的实施例。通过研究附图、公开内容和所附权利要求书,本领域技术 人员和实践要求保护的发明的人员可以理解和实现所公开的实施例的其他 变型。在权利要求书中,词语“包括”不排除其他元素或步骤,并且不定 冠词“一(a)”或“一(an)”不排除多个。单个处理器或控制器或其他单 元可以实现权利要求书中引述的若干项的功能。在互不相同的从属权利要 求中引述某些措施的事实并不指示不能有利地使用这些措施的组合。在权 利要求书中的任何附图标记都不应被解释为限制范围。
附图标记列表
10 听力设备
12 耳后部件
14 耳内部件14
16 管
18 麦克风
20 声音处理器
22 声音输出设备
24 处理器
26 把手
28 存储器
30 声音信号
32 输出声音信号
34 声音处理器设置
36 听力设备程序
38 直接混响比
40 开始信号确定
42 开始信号
42a 宽带开始信号
42b 频带开始信号
42c 频带开始信号
44 机器学习算法
46 积分器
48 积分的开始信号
50 梯度确定器
52 梯度
54 回归模型
Claims (15)
1.一种用于估计声音信号(30)的直接混响比(38)的方法,其中,所述直接混响比(38)指示从声源接收到的直接声音与从所述声源的环境中的反射接收到的混响声音之间的比,所述方法包括:
针对第一时间帧确定声音信号(30)的第一能量值;
如果所述第一时间帧的所述第一能量值与先前的第二时间帧的第二能量值的差大于阈值,则向所述第一时间帧的开始值指派正值,否则指派零值;
通过将包括所述开始值的开始信号(42)提供给机器学习算法(44)来确定所述直接混响比(38),所述机器学习算法(44)已经被训练以基于所述开始信号确定所述直接混响比(38)。
2.根据权利要求1所述的方法,
其中,所述开始信号(42)在时间上被积分,确定所述开始信号(42)的梯度(52)并且将所述梯度(52)提供给所述机器学习算法(44)。
3.根据权利要求2所述的方法,
其中,通过状态空间模型确定积分的开始信号(48)的所述梯度(52)。
4.根据前述权利要求中的一项所述的方法,
其中,所述机器学习算法(44)包括线性回归模型(54)。
5.根据前述权利要求中的一项所述的方法,
其中,针对所述第一时间帧确定宽带能量值,所述宽带能量值指示所述声音信号(30)在所述第一时间帧中的能量;
其中,当所述第一时间帧的所述宽带能量值比所述先前的第二时间帧的所述宽带能量值高出超过宽带阈值时,通过将针对所述第一时间帧的宽带开始信号(42a)的宽带开始值设置为正值来确定所述宽带开始信号(42a)。
6.根据前述权利要求中的一项所述的方法,
其中,针对所述第一时间帧确定频带能量值,所述频带能量值指示所述声音信号(30)在所述第一时间帧中的频带中的能量;
其中,当所述第一时间帧的所述频带能量值比所述先前的第二时间帧的所述频带能量值高出超过频带阈值时,通过将针对所述第一时间帧的频带开始信号(42b)的频带开始值设置为正值来确定所述频带开始信号(42b)。
7.根据权利要求6所述的方法,
其中,所述声音信号(30)被划分为多个频带,并且针对每个频带确定频带开始信号(42b)。
8.根据权利要求6或7所述的方法,
其中,所述频带阈值不同于所述宽带阈值;和/或
其中,针对不同频带的频带阈值是不同的。
9.根据前述权利要求中的一项所述的方法,
其中,开始值被设置为的所述正值为1;或者
其中,所述正值是所述第一时间帧中的能量值与所述先前的第二时间帧中的能量值的差。
10.根据前述权利要求中的一项所述的方法,
其中,在正值被设置为1的情况下确定宽带开始信号(42a);
其中,在正值被设置为1的情况下确定针对多个频带的多个第一频带开始信号(42c);
其中,在正值被设置为所述第一时间帧中的所述能量值与所述先前的第二时间帧中的所述能量值的所述差的情况下确定针对所述多个频带的多个第二频带开始信号(42b);
其中,所述宽带开始信号(42a)、所述第一频带开始信号(42c)和所述第二频带开始信号(42b)被输入到所述机器学习算法中。
11.一种用于操作听力设备(10)的方法,所述方法包括:
利用所述听力设备(10)的麦克风(18)生成声音信号(30);
根据前述权利要求中的一项,估计所述声音信号(30)的直接混响比(38);
使用所述直接混响比(38)处理所述声音信号(30)以补偿所述听力设备(10)的用户的听力损失;
将处理后的声音信号(32)输出到所述用户。
12.根据权利要求11所述的方法,
其中,所述直接混响比(38)用于以下各项中的至少一个:
噪声消除,
混响消除,
频率依赖性放大,
频率压缩,
波束成形,
声音分类,
自我话音检测,
前景/背景分类。
13.一种用于估计声音信号(30)的直接混响比的计算机程序,所述计算机程序当由处理器执行时适于执行前述权利要求中的一项所述的方法的步骤。
14.一种计算机可读介质(28),其中存储了根据权利要求13所述的计算机程序。
15.一种听力设备(10),适于执行根据权利要求1至12中的一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP20155833.5A EP3863303B1 (en) | 2020-02-06 | 2020-02-06 | Estimating a direct-to-reverberant ratio of a sound signal |
EP20155833.5 | 2020-02-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113299316A true CN113299316A (zh) | 2021-08-24 |
Family
ID=69526038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110148911.9A Pending CN113299316A (zh) | 2020-02-06 | 2021-02-03 | 估计声音信号的直接混响比 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11395090B2 (zh) |
EP (1) | EP3863303B1 (zh) |
CN (1) | CN113299316A (zh) |
DK (1) | DK3863303T3 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200184987A1 (en) * | 2020-02-10 | 2020-06-11 | Intel Corporation | Noise reduction using specific disturbance models |
US12014748B1 (en) * | 2020-08-07 | 2024-06-18 | Amazon Technologies, Inc. | Speech enhancement machine learning model for estimation of reverberation in a multi-task learning framework |
GB2614713A (en) * | 2022-01-12 | 2023-07-19 | Nokia Technologies Oy | Adjustment of reverberator based on input diffuse-to-direct ratio |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602007004061D1 (de) * | 2007-02-06 | 2010-02-11 | Oticon As | Abschätzung der eigenen Stimmaktivität mit einem Hörgerätsystem aufgrund des Verhältnisses zwischen Direktklang und Widerhall |
EP2058804B1 (en) | 2007-10-31 | 2016-12-14 | Nuance Communications, Inc. | Method for dereverberation of an acoustic signal and system thereof |
US9549266B2 (en) | 2012-04-24 | 2017-01-17 | Sonova Ag | Method of controlling a hearing instrument |
CN102750956B (zh) * | 2012-06-18 | 2014-07-16 | 歌尔声学股份有限公司 | 一种单通道语音去混响的方法和装置 |
EP3483874B1 (en) | 2013-03-05 | 2021-04-28 | Apple Inc. | Adjusting the beam pattern of a speaker array based on the location of one or more listeners |
US9538297B2 (en) | 2013-11-07 | 2017-01-03 | The Board Of Regents Of The University Of Texas System | Enhancement of reverberant speech by binary mask estimation |
DK2916321T3 (en) | 2014-03-07 | 2018-01-15 | Oticon As | Processing a noisy audio signal to estimate target and noise spectral variations |
CN106688247A (zh) | 2014-09-26 | 2017-05-17 | Med-El电气医疗器械有限公司 | 确定房间混响以用于信号增强 |
WO2016056683A1 (ko) | 2014-10-07 | 2016-04-14 | 삼성전자 주식회사 | 전자 장치 및 이의 잔향 제거 방법 |
US9813811B1 (en) * | 2016-06-01 | 2017-11-07 | Cisco Technology, Inc. | Soundfield decomposition, reverberation reduction, and audio mixing of sub-soundfields at a video conference endpoint |
DE102018210143A1 (de) * | 2018-06-21 | 2019-12-24 | Sivantos Pte. Ltd. | Verfahren zur Unterdrückung eines akustischen Nachhalls in einem Audiosignal |
-
2020
- 2020-02-06 EP EP20155833.5A patent/EP3863303B1/en active Active
- 2020-02-06 DK DK20155833.5T patent/DK3863303T3/da active
-
2021
- 2021-02-03 CN CN202110148911.9A patent/CN113299316A/zh active Pending
- 2021-02-04 US US17/167,931 patent/US11395090B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3863303A1 (en) | 2021-08-11 |
US20210250722A1 (en) | 2021-08-12 |
EP3863303B1 (en) | 2022-11-23 |
US11395090B2 (en) | 2022-07-19 |
DK3863303T3 (da) | 2023-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107454538B (zh) | 包括含有平滑单元的波束形成器滤波单元的助听器 | |
Hamacher et al. | Signal processing in high-end hearing aids: State of the art, challenges, and future trends | |
EP2899996B1 (en) | Signal enhancement using wireless streaming | |
CN113299316A (zh) | 估计声音信号的直接混响比 | |
US8842861B2 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
WO2019084405A1 (en) | ELECTRONIC DEVICE IMPLEMENTING A COMPOSITE MEASUREMENT FOR ENHANCING SOUND | |
US11109164B2 (en) | Method of operating a hearing aid system and a hearing aid system | |
CN105706466B (zh) | 具有概率性的听力损失补偿的助听器 | |
JP2004312754A (ja) | 両耳信号増強システム | |
EP2238592A2 (en) | Method for reducing noise in an input signal of a hearing device as well as a hearing device | |
WO2010028683A1 (en) | Method for sound processing in a hearing aid and a hearing aid | |
EP3360136A1 (en) | Hearing aid system and a method of operating a hearing aid system | |
EP3074975A1 (en) | Method of operating a hearing aid system and a hearing aid system | |
EP3008924A1 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
DK2595414T3 (en) | Hearing device with a device for reducing a noise microphone and method for reducing noise of a microphone | |
US8233650B2 (en) | Multi-stage estimation method for noise reduction and hearing apparatus | |
US9949041B2 (en) | Hearing assistance device with beamformer optimized using a priori spatial information | |
CN113825076A (zh) | 用于包括听力装置的听力系统的与方向相关抑制噪声的方法 | |
US20100046775A1 (en) | Method for operating a hearing apparatus with directional effect and an associated hearing apparatus | |
WO2020035158A1 (en) | Method of operating a hearing aid system and a hearing aid system | |
Lopez et al. | Technical evaluation of hearing-aid fitting parameters for different auditory profiles | |
US8385572B2 (en) | Method for reducing noise using trainable models | |
US8625826B2 (en) | Apparatus and method for background noise estimation with a binaural hearing device supply | |
EP3837861B1 (en) | Method of operating a hearing aid system and a hearing aid system | |
US10051382B2 (en) | Method and apparatus for noise suppression based on inter-subband correlation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |