CN114827859A - 包括循环神经网络的听力装置及音频信号的处理方法 - Google Patents

包括循环神经网络的听力装置及音频信号的处理方法 Download PDF

Info

Publication number
CN114827859A
CN114827859A CN202210067599.5A CN202210067599A CN114827859A CN 114827859 A CN114827859 A CN 114827859A CN 202210067599 A CN202210067599 A CN 202210067599A CN 114827859 A CN114827859 A CN 114827859A
Authority
CN
China
Prior art keywords
signal
vector
input
time
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210067599.5A
Other languages
English (en)
Inventor
Z·耶利科娃
R·琼斯
D·T·布利克斯
M·S·佩德森
J·詹森
A·H·安德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oticon AS
Original Assignee
Oticon AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oticon AS filed Critical Oticon AS
Publication of CN114827859A publication Critical patent/CN114827859A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • H04R25/507Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/405Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • H04R25/606Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers acting directly on the eardrum, the ossicles or the skull, e.g. mastoid, tooth, maxillary or mandibular bone, or mechanically stimulating the cochlea, e.g. at the oval window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/025In the ear hearing aids [ITE] hearing aids
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/67Implantable hearing aids or parts thereof not covered by H04R25/606
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Automation & Control Theory (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了包括循环神经网络的听力装置及音频信号的处理方法,其中力装置包括:提供至少一电输入信号的输入单元;及信号处理器;信号处理器包括包含至少一定义为门控循环单元的层的神经网络,门控循环单元包括隐藏状态向量h形式的记忆,输出向量o(t)由门控循环单元根据输入向量x(t)和隐藏状态向量h(t‑1)提供,在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1);所述层实施为改良门控循环单元,其中信号处理器配置成计算输入向量x(t)和隐藏状态向量h(t‑1)从一时刻t‑1到下一时刻t的变化,及信号处理器还配置成使得改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh

Description

包括循环神经网络的听力装置及音频信号的处理方法
技术领域
本申请涉及信号处理如音频和/或图像处理领域,尤其涉及音频处理中神经网络的使用,特别涉及在(例如便携式)音频处理装置中实施学习算法或机器学习技术的算法。
背景技术
所谓的学习算法例如神经网络的形式,已发现在所有类的信号处理任务中日益增长的应用,包括助听器或耳机中的(自然)语音处理。在助听器中,降噪为解决提供或增加用户(如听力受损用户)对环境中的语音及其它声音接近可接受的感知问题的关键特征。
助听器或耳机或类似的便携音频处理装置中,a)小尺寸、b)低潜伏时间、及c)低功耗是重要的设计参数。因此,处理算法的“功率效率”最重要。低功率要求限制了例如在助听器中可行的神经网络的类型和大小,因而限制了适合由神经网络实施的功能任务。在实践中,网络参数的数量(在助听器中的当前处理功率下)限于10000级。该数量预期(例如由于集成电路领域的发展)随时间增加。
发明内容
本申请涉及音频或视频处理的改进,其使用神经网络尤其是循环神经网络,例如德尔塔(Δ)循环神经网络(德尔塔RNN)如长短期记忆(LSTM)型RNN,或者门控循环单元(GRU),或者其改良。改进在音频处理领域进行例示,特别是应用在听力装置如助听器或耳机中。
上述改进可应用于与数据处理有关的任何问题,例如表示时变处理的数据,例如音频或视频处理。在处理功率有限的应用中,及例如在从一时段到下一时段的数据(显著)变化有限例如少于数据的20%的应用中,其可能特别有利。这样的例子在从一帧到下一帧的视频图像中或者在音频数据中出现,例如其通过从一时间帧到下一时间帧(或者在一时间帧内,从一频道到相邻频道,例如参见图7)的谱图表示。
示例性的听力装置如助听器或耳机可包括用于按时频表示k,t提供至少一电输入信号的输入单元,其中k和t分别为频率指数和时间指数,及k表示子频带通道,k=1,…,K,K>1,至少一电输入信号表示声音,其可包括目标信号分量和噪声分量。输入单元例如可包括输入变换器如传声器。听力装置如输入单元可包括模数转换器和/或滤波器组。听力装置如输入单元可包括一个或多个波束形成器,用于基于至少一电输入信号(例如包括至少两个电输入信号)或源自其的信号提供空间滤波的信号。听力装置还可包括信号处理器,其连接到输入单元并配置成接收至少一电输入信号或源自其的信号(例如空间滤波的信号和/或反馈校正的信号)。信号处理器可包括降噪系统,配置成降低至少一电输入信号或源自其的信号中的噪声分量。信号处理器可配置成确定所述时频表示中的相应增益值G(k,t),当其应用于至少一电输入信号或源自其的信号时,相对于目标信号分量降低噪声分量。
配置成执行改良的门控循环单元(“改良GRU”)的信号处理器及相应方法
信号处理器可包括包含至少一层的神经网络,其定义为包括记忆的德尔塔循环神经网络(德尔塔RNN)。德尔塔RNN例如可包括长短期记忆(LSTM)型RNN或门控循环单元(GRU)或其改良。至少一层可实施为包括记忆的GRU(或改良GRU),例如隐藏状态的形式(例如参见图1A中的向量h(k,t-1))。信号处理器配置成执行包括实施为GRU(例如根据本发明的改良GRU)的至少一层的循环神经网络。GRU(或根据本发明的改良GRU)根据输入向量x(k,t)和隐藏状态向量h(k,t-1)提供输出向量o(k,t),其中在给定时间步t的输出o(k,t)被存储为隐藏状态h(k,t)并用于计算下一时间步t+1的输出向量o(k,t+1)。降噪系统可包括神经网络(例如可通过神经网络实施)。神经网络的参数可能已用多个训练信号进行训练。信号处理器可配置成在给定时刻t分别计算输入向量x(k,t)和隐藏状态向量h(k,t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000031
Figure BDA0003480784760000032
Figure BDA0003480784760000033
其中
Figure BDA0003480784760000034
Figure BDA0003480784760000035
分别为x和h的估计值。估计值
Figure BDA0003480784760000036
Figure BDA0003480784760000037
可等于(至少)早先一个时间步的x和h的值。估计值
Figure BDA0003480784760000038
Figure BDA0003480784760000039
可存储在存储器中并在时间步t的计算时使用。估计值
Figure BDA00034807847600000310
Figure BDA00034807847600000311
可分别等于x和h的最后值,导致超阈值变化(从一时间步到下一时间步)。信号处理器还可配置成使得在所述给定时刻t用于输入向量x(k,t)和隐藏状态向量h(k,t-1)的更新的通道数量限于峰(即最大)值Np(或Np,x,Np,oh,参见下面)的数量,其中Np小于(或等于)Nch(或Nch,x,Nch,oh),其中Nch(或Np,x,Np,oh)为处理通道的(总)数量。这种改良版的GRU在下面称为峰值GRU(或峰值GRU RNN)(进一步参见下面)。峰值GRU可看作[Neil etal.;2018]描述的德尔塔GRU的改良版。(实际)处理的通道的数量通过另外的(节能)措施(甚至)可限于少于Np个通道,例如舍弃给定时间步的Np个最大值之中的、小于或等于阈值的值(的处理/更新)。估计值
Figure BDA00034807847600000312
Figure BDA00034807847600000313
可分别等于x和h的最后值,其导致在所涉及的时刻t’具有Np个最大变化之中的数值的变化。
对于输入向量(x)(Nch,x)和输出(隐藏状态)向量(o,h,其中h(t)=o(t))(Nch,oh),通道(节点)的数量Nch(Nch,x;Nch,oh)可以相等(Nch=Nch,x=Nch,oh)或不同。类似地,对于峰值GRU,峰值的数量Np(Np,x,Np,oh)对于输入向量(x)(Np,x)和输出(隐藏状态)向量(o,h)(Np,oh)可以相等(Np=Np,x=Np,oh)或不同。由输入单元提供的子频带通道的数量K可等于(K=Nch)或不同于德尔塔GRU/峰值GRU层的处理通道的数量Nch(Nch,x;Nch,oh)(对于基线GRU也成立)。因此,尽管德尔塔GRU/峰值GRU层的通道指数一般标示为一个(k,等于子频带通道指数),在实践中,其可以不同(以及对德尔塔GRU/峰值GRU层的输入向量(x)和输出向量(o,h)不同)。子频带通道指数k的(最大)变化范围例如为1≤k≤K。如果德尔塔GRU/峰值GRU层的输入和输出节点的数量一样,德尔塔GRU/峰值GRU通道指数k的(最大)变化范围例如为1≤k≤Nch;如果德尔塔GRU/峰值GRU层的输入和输出节点的数量不同,则1≤i≤Nch,x和1≤j≤Nch,oh。代替使用k作为一般的“通道指数”,指数i和j可分别用于输入向量和输出(及隐藏状态)向量,例如参见下面针对峰值GRU的等式(5)’、(6)’、(7)’和(8)’。
峰值GRU的峰值的数量Np(Np,x,Np,oh)可以固定。峰值的数量Np(Np,x,Np,oh)可动态确定,例如根据至少一电输入信号(例如根据其特征如调制、电平、估计的信噪比等)动态确定。
输入节点的数量例如可等于输入信号的频道数量(一输入向量例如可表示输入信号的一帧)或者可等于频道数量的倍数。输入节点的数量例如可在16到500的范围中。输出节点的数量例如可等于输入信号的频道数量或者等于该数量的分数。输出节点的数量例如可在1到500的范围中,如1到150。输入节点和输出节点的数量可以一样。
神经网络中的层数可大于2。“隐藏”层的数量可大于或等于2,例如大于或等于3,例如在2到10的范围中。
实施为根据本发明的改良门控循环单元的层的数量可大于或等于1,例如大于或等于2,例如在1到3的范围中,例如在1到10的范围中。神经网络的所有层均可以是改良GRU层。
根据本发明的改良门控循环单元例如可用在音频或视频处理应用中,例如用在(低)功耗是重要参数的应用中,例如用在体戴电子设备如助听器或耳机或手持视频处理设备中。
在本发明中,改良GRU的使用结合音频处理装置如听力装置中的降噪(例如SNR-增益转换等)进行例示。然而,改良GRU可用在其它应用中,例如自我话音检测、唤醒词检测、关键词检出、话音活动检测等。此外,改良GRU可用在视频处理中,例如从一帧到下一帧地处理视频图像。音频-图像(谱图)与其它(普通、视频)图像之间的相似性显而易见。但音频-图像(谱图)不同于一般(视频)图像之处在于音频-图像具有时间维度。鉴于从音频处理应用到神经网络的输入可能是包括音频信号在给定时刻的“频谱”的时间帧及音频-图像(谱图)通过级联的顺序的时间帧建立,从视频处理应用到神经网络的输入可能的图像序列,其中每一图像表示特定时刻,及其中图像序列提供时间维度。
包括改良门控循环单元的听力装置
一方面,提供一种听力装置如助听器或耳机。听力装置可配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中,其包括用于按时频表示提供至少一电输入信号的输入单元及包括信号处理器,信号处理器包括配置成提供所述时频表示中的相应增益值G(k,t)从而降低至少一电输入信号中的噪声分量的神经网络。神经网络包括至少一定义为改良门德尔塔控循环单元(称为峰值GRU)的层,其包括隐藏状态向量h形式的记忆,其中输出向量o由峰值GRU根据输入向量x和隐藏状态向量h提供,其中峰值GRU在给定时间步t的输出o(j,t)存储为隐藏状态向量h(j,t)并用于计算下一时间步t+1的输出o(j,t+1)。信号处理器配置成使得对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),峰值GRU的Nch(Nch,x;Nch,oh)个处理通道之中的更新的通道的数量限于峰值的数量Np(Np,x,Np,oh),其中Np(Np,x,Np,oh)小于Nch(Nch,x;Nch,oh)。信号处理器配置成执行包括根据本发明的改良门控循环单元的神经网络。还公开了听力装置的运行方法。
第一听力装置
在本申请的一方面,提供一种听力装置。该听力装置可包括:
-用于按时频表示k,t提供至少一电输入信号的输入单元,其中k和t分别为频率指数和时间指数,及k表示子频带信号,k=1,…,K,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
-信号处理器,包括
--SNR估计器,用于提供所述时频表示中所述至少一电输入信号或源自其的信号的目标信噪比(SNR)估计量SNR(k,t);
--SNR-增益转换器,用于将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t);
其中所述信号处理器包括包含至少一定义为门控循环单元的层的神经网络,门控循环单元包括隐藏状态向量h形式的记忆,其中输出向量o(t)由所述门控循环单元根据输入向量x(t)和隐藏状态向量h(t-1)提供,其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1)。听力装置可配置成使得至少所述SNR-增益转换器通过所述神经网络实施,及其中至少一定义为门控循环单元的层实施为改良门控循环单元,其中信号处理器配置成在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000061
Figure BDA0003480784760000062
其中
Figure BDA0003480784760000063
Figure BDA0003480784760000064
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量,及其中信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
神经网络的输入向量可基于或包括所述至少一电输入信号或源自其的信号的所述目标信噪比(SNR)估计量SNR(k,t)。神经网络的输出向量包括降噪算法的增益(G(k,t))。
从而可提供改进的听力装置。
还(通过将第一听力装置的结构特征转换为过程特征)公开了第一听力装置的运行方法。
第二听力装置
在本申请的一方面,提供一种听力装置。该听力装置包括:
-用于按时频表示k,t提供至少一电输入信号的输入单元,其中k和t分别为频率指数和时间指数,及k表示频道,k=1,…,K,K>1,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
-连接到所述输入单元并配置成接收至少一电输入信号或源自其的信号的信号处理器,所述信号处理器配置成确定所述时频表示中的相应增益值G(k,t),当所述增益值应用于所述至少一电输入信号或源自其的一个或多个信号时相对于所述目标信号分量降低所述噪声分量,其中所述信号处理器包括包含至少一定义为门控循环单元的层的神经网络,所述门控循环单元为改良门控循环单元的形式;
-其中所述信号处理器配置成在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000071
Figure BDA0003480784760000072
其中
Figure BDA0003480784760000073
Figure BDA0003480784760000074
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量;及
-其中所述信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
神经网络的输入向量可基于或包括所述至少一电输入信号或源自其的信号。神经网络的输出向量包括降噪算法的增益(G(k,t))。
还(通过将第二听力装置的结构特征转换为过程特征)公开了第二听力装置的运行方法。
第三听力装置
在本申请的一方面,提供一种听力装置。该听力装置包括:
-用于按时频表示k,t提供至少一电输入信号的输入单元,其中k和t分别为频率指数和时间指数,及k表示频道,k=1,…,K,K>1,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
-连接到所述输入单元并配置成接收至少一电输入信号或源自其的信号的信号处理器,所述信号处理器包括
--目标信号估计器,用于提供目标信号的估计量;
--噪声估计器,用于提供噪声的估计量;
--增益估计器,用于根据目标信号估计量和噪声估计量提供相应的增益值,其中所述增益估计器包括神经网络,其中神经网络的权重已用多个训练信号进行训练,及其中神经网络的输出包括实值或复值增益或者分开的实值增益和实值相位;
-其中所述信号处理器配置成在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000081
Figure BDA0003480784760000082
其中
Figure BDA0003480784760000083
Figure BDA0003480784760000084
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量;及
-其中所述信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
输入向量可基于或包括目标信号的估计量和噪声的估计量或者源自其的信号。神经网络的输出向量包括降噪算法的增益(G(k,t))。
还(通过将第三听力装置的结构特征转换为过程特征)公开了第三听力装置的运行方法。
听力装置的特征(及对应的方法)
下面的特征计划可与上面的第一、第二和第三听力装置组合。
听力装置可适于通过进一步舍弃给定时间步的Np,x和Np,oh个最大值之中的、小于或等于阈值的值的处理而使得处理的通道的数量分别限于少于Np,x和Np,oh个通道。
听力装置可适于使得估计值
Figure BDA0003480784760000085
Figure BDA0003480784760000086
可分别等于x和h的最后值,其导致在所涉及的时刻t’分别具有Np,x和Np,oh个最大变化之中的数值的变化。
根据本发明的改良门控循环单元称为“峰值GRU”或者“峰值GRU RNN”。术语在给定时刻t的“峰值数量Np,x和Np,oh”在本说明书中意为与时刻t(或者对于隐藏状态h,t-1)的输入向量和隐藏状态有关的参数的Np,x和Np,oh个最大值。峰值数量Np,x和Np,oh可相等(Np,x=Np,oh)。处理通道指数在结合输入向量x时记为i,在结合隐藏状态向量h时记为j(以指明在输入节点的数量Nch,x不同于德尔塔GRU RNN或峰值GRU RNN层的输出(或隐藏状态)节点的数量Nch,oh时,处理通道指数分别从1到Nch,x及从1到Nch,oh独立地变化)。然而,为简单起见,这通常不被应用于本发明的所有表达式,其中k可用作共同的“通道指数”。输入向量x(i,t)和隐藏状态向量h(j,t-1)的估计值
Figure BDA0003480784760000091
Figure BDA0003480784760000092
从一时间步到下一时间步进行记忆(例如使得
Figure BDA0003480784760000093
Figure BDA0003480784760000094
在时间步t可用以能够确定Δx(i,t)和Δh(j,t-1)),例如参见图1C。估计值
Figure BDA0003480784760000095
Figure BDA0003480784760000096
可等于至少早先一个时间步的x和h的值。估计值
Figure BDA0003480784760000097
Figure BDA0003480784760000098
Figure BDA0003480784760000099
可存储在存储器中并用在时间步t的计算中。估计值
Figure BDA00034807847600000910
Figure BDA00034807847600000911
可分别等于x和h的导致(从一时间步到下一时间步的)“超阈值”变化的最后值,即不(必然)是自最后时间步以来的差异。估计值
Figure BDA00034807847600000912
Figure BDA00034807847600000913
可分别等于x和h的、导致在所涉及的时刻t’具有Np(Np,x,Np,oh)个最大变化之中的数值的变化的最后值。术语“对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元(即峰值GRU)的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh”意为(至少)不同于所述Np个最大值的、Δx(i,t)的(Nch,x-Np,x)个值和Δh(j,t-1)的(Nch,oh-Np,oh)个值在峰值GRU单元的给定时间步(t)的计算中被设定为0。换言之,在给定时间步的处理通道数量最大为Np。术语“更新通道的数量”在本说明书中意为其输出值o(k,t)因而及隐藏状态值h(k,t)在给定时间步可(相较于先前时间步的相应值)变化的那些通道。每一神经元(通道)仅在变化(Δx(k,t)和Δh(k,t-1))的绝对值“超阈值”时传输其值,例如超过阈值和/或在Np(Np,x,Np,oh)个最大值之中时。换言之,估计值
Figure BDA00034807847600000914
Figure BDA00034807847600000915
可等于满足峰值(和/或阈值)判据的最后变化时的值(且仅可在该情形下存储)。
估计值
Figure BDA00034807847600000916
Figure BDA00034807847600000917
可看作状态。这些状态分别存储在最后变化时的第i个神经元的输入和第j个神经元的隐藏状态。当前输入x(i,t)和状态h(j,t)将与这些值比较以分别确定Δx和Δh。之后,
Figure BDA00034807847600000918
Figure BDA00034807847600000919
值将仅在越过阈值时进行更新(参见[Neil et al.;2018]),或者在本发明的情形下,在
Figure BDA0003480784760000101
Figure BDA0003480784760000102
值在峰值之中和/或高于阈值时。
信号处理器可配置成将输入向量和隐藏状态向量的估计值确定为:
Figure BDA0003480784760000103
Figure BDA0003480784760000104
其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh。如提及的,峰值数量可相等,Np,oh=Np,x=Np,及通道数量可相等,Nch,x=Nch,oh=Nch
信号处理器可配置成将输入向量和隐藏状态向量的值的变化确定为:
Figure BDA0003480784760000105
Figure BDA0003480784760000106
如果输入节点的数量不同于峰值GRU RNN层的输出或隐藏状态节点的数量,在上面的表达式中,i和j分别满足1≤i≤Nch,x和1≤j≤Nch,oh。如果峰值数量对于输入向量和输出向量因而及隐藏状态向量不同,上面的德尔塔值在上面的表达式中应对应地分别与Np,x和Np,oh有关。
输入单元可包括多个输入变换器和波束形成器滤波器,其中波束形成器滤波器配置成基于来自多个输入变换器的信号提供至少一电输入信号。波束形成器滤波器可基于来自多个输入变换器的信号和预先确定或自适应确定的波束形成器权重将至少一电输入信号提供为空间滤波的信号。
听力装置可包括话音活动检测器,配置成估计输入信号在给定时间点是否或者以何种概率包括话音信号并提供指明结果的话音活动控制信号。当前噪声电平的估计量例如可在话音活动控制信号指明不存在语音时间或提供。话音活动检测器的输出可由波束形成器滤波器使用。从声源到听力装置(在由用户佩戴时)的(每一)输入变换器的绝对或相对声学传递函数可在话音活动控制信号指明(例如不同于来自用户的)语音时进行估计。
听力装置可包括输出单元,配置成根据至少一电输入信号向用户提供输出刺激。
输入单元可包括至少一输入变换器如传声器。输入单元可包括至少一模数转换器,用于将至少一电输入信号提供为数字化信号。输入单元可包括至少一分析滤波器组,配置成将至少一电输入信号(按时频表示(k,t)或(k,l)或(k,m),其中t和l和m均为时间指数)提供为子频带信号。输出单元可包括合成滤波器组,配置成将时频表示的处理后的信号(子频带信号)转换为时域信号。输出单元可包括数模转换器,用于将(包括数字样本的)数字化信号转换为模拟电信号。输出单元可包括配置成向用户提供输出刺激的输出变换器。输出变换器可包括扬声器或振动器。输出变换器可包括植入部分,例如配置成电刺激用户耳朵处的耳蜗神经的多电极阵列。
信号处理器可配置成将SNR-增益转换器提供的增益值G(k,t)应用于至少一电输入信号或源自其的信号。信号处理器可包括组合单元(如乘法器),以将增益值G(k,t)应用于至少一电输入信号IN(k,t)(或源自其的信号)并提供噪声降低的信号。信号处理器可配置成处理至少一电输入信号(或源自其的信号)或噪声降低的信号并提供处理后的信号。信号处理器可配置成应用配置成补偿用户的听力受损的压缩算法。
其它配置和输入特征也可能。峰值GRU也可用于到达方向估计、反馈通路估计、(自我)话音活动检测或其它场景分类等。
信号处理器可配置成舍弃在给定时刻t的Np个通道之中的、其绝对值
Figure BDA0003480784760000111
Figure BDA0003480784760000112
小于阈值Θp的通道的处理。从而提供德尔塔GRU RNN和峰值GRU RNN算法的组合。这在所选峰值(数值)小的情形下不处理小值的好处。从而保持处理功率的上限,同时使得在信号变化小的情形下处理功率可较低。峰值数量对于输入向量和隐藏状态向量可不同。类似地,阈值Θp对于输入向量和隐藏状态可不同(例如分别为Θp,x和Θp,oh)。在变化(例如
Figure BDA0003480784760000121
)非对称的情形下,可应用两个不同的阈值(Θp,x+p,x-),例如取决于
Figure BDA0003480784760000122
是大于还是小于0。阈值(Θp或Θp,x+p,x-)例如可取决于给定检测到的声音场景。前述适当的阈值可在训练期间进行估计。上面的舍弃其值小于阈值的通道的处理的特征也可与下面描述的统计RNN(StatsRNN)组合。
峰值数量Np,x和Np,oh可根据至少一电输入信号自适应确定。至少一电输入信号例如可跨一时间段进行评估。峰值数量Np(或者分别为Np,x和Np,oh)对于给定声环境(例如对于助听器的给定程序)可能恒定不变。助听器或耳机可包括声环境分类器。在给定时间的峰值数量可取决于来自声环境分类器的指明当前声环境的控制信号。峰值数量Np(或者分别为Np,x和Np,oh)对于输入的变化(Δx)和隐藏状态的变化(Δh)可以不同。
神经网络的参数可用多个训练信号进行训练。包括根据本发明的峰值GRU RNN算法的神经网络可用基线GRU RNN算法进行训练,从而提供经训练的网络的最佳权重(例如权重矩阵Wxr,Whr,Wxc,Whc,Wxu,Whu,参见图1A、1C)。优化的权重则可存储在听力装置中,峰值GRU约束条件可应用于经训练的网络。神经网络可基于估计的信噪比作为从有噪声输入混合获得的输入及其对应的(已知的)输出作为跨主要包含需要的信号的、噪声降低的输入信号的频率的向量的例子进行训练。神经网络可基于(数字化)电输入信号IN(k,t)的例子进行训练,例如直接来自分析滤波器组(例如参见图3A、3B中的FB-A),其相应的SNR和适当的增益已知(或者,如果SNR估计器形成神经网络的一部分,其适当的增益已知,图3B)。
听力装置可由空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。助听器可配置成由用户佩戴在耳朵处或耳朵中,或者完全或部分植入在用户耳朵处的头部中。听力装置可由耳机构成或可包括耳机。
听力装置可包括特别适于按向量化运算处理门控循环单元的元素的硬件模块。硬件模块例如可形成集成电路的一部分,例如听力装置的数字信号处理器(DSP)。硬件模块可配置成一次对一组值(一个向量)进行运算,例如Npro的多组,例如Npro=四个元素。处理或舍弃该组的所有元素的决定可基于逻辑运算,例如涉及该组值(向量)的各个元素的值的逻辑运算。处理或舍弃的决定例如可包括这些值中的至少一个(如大部分)是否高于阈值(例如在前Np个值之中)。不同的峰值数量Np(Np,x,Np,oh)可用于输入向量和隐藏状态向量。如果是,整个向量(所有Npro个例如四个值)均被处理。如果否,所有Npro个值被舍弃。在本发明的与音频处理有关的例子中,该组Npro个值可表示表示频谱的向量中的元素的子集(向量的各个元素表示频谱的频带在给定时间点的值)。考虑各个频带被怎样分组成(子)向量则很重要。按原始顺序(频带1,2,3,4等,Nch=例如64或128或512个频带)对频带分组可能导致丢失例如较低频率的信息,如果向量内的大多数值太小。因此,可进行重新分组(例如基于试验)。
听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出信号的信号处理器。
听力装置可包括输出单元,用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入件的多个电极(对于CI型助听器)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器或耳机中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。
听力装置包括用于提供表示声音的至少一电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器,用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。无线接收器例如可配置成接收在无线电频率范围(3kHz到300GHz)的电磁信号。无线接收器例如可配置成接收在光频率范围(例如红外光300GHz到430THz或者可见光如430THz到770THz)的电磁信号。
听力装置可包括定向传声器系统,其适于对来自环境的声音进行空间滤波从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在听力装置中,传声器阵列波束形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地,MVDR波束形成器保持来自目标方向(也称为视向)的信号不变,而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表示优点。在双耳配置情形下,定向信号可基于来自听力仪器的传声器。估计的SNR可取决于双耳信号。
听力装置可包括天线和收发器电路(如无线接收器),用于从另一装置无线接收直接电输入信号(如音频信号),另一装置如娱乐设备(例如电视机)、通信装置(如电话)、无线传声器或另一听力装置。一般地,听力装置的天线及收发器电路建立的无线链路可以是任何类型。无线链路可在两个装置之间建立,例如在通信装置与听力装置之间,或者在两个听力装置之间,例如经第三中间装置(如处理装置,例如遥控装置、智能电话等)。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM=工业、科学和医学,这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如蓝牙低功耗技术)。
听力装置可以是便携(即配置成可穿戴)装置或形成其一部分,如包括本机能源如电池例如可再充电电池的装置。听力装置例如可以是轻质、容易穿戴的装置,例如具有小于100g例如小于20g的总重量。
听力装置可包括输入单元(如输入变换器,例如传声器或传声器系统和/或直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所有信号处理可在时域进行。
表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值,Nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用Nb比特量化(导致音频样本的2Nb个不同的可能的值)。数字样本x具有1/fs的时间长度,如50μs,对于fs=20kHz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。听力装置可包括数模(DA)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
听力装置如输入单元和/或天线及收发器电路包括用于提供输入信号的时频表示的时频(TF)转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率fmin到最大频率fmax的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,即fs≥2fmax。听力装置的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。听力装置可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。
听力装置可配置成在不同模式下运行,如正常模式及一个或多个特定模式,例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行优化。运行模式可包括低功率模式,其中听力装置的功能被减少(例如以便节能),例如禁用无线通信和/或禁用听力装置的特定特征。运行模式可包括通信模式例如电话模式。
听力装置可包括多个检测器,其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域),例如在有限的多个频带中。
多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成确定正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。
听力装置可包括话音活动检测器(VAD),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选,话音活动检测器可适于从“话音”的检测排除用户自己的话音。
听力装置可包括自我话音检测器,用于估计特定输入声音(如话音,如语音)是否(或以何种概率)源自听力装置系统用户的话音。听力装置的传声器系统可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。
多个检测器可包括运动检测器,例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。传感器信号(或者从传感器信号得出的信号)也可用作峰值GRU的输入特征。
听力装置可包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”可由下面的一个或多个定义:
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
b)当前声学情形(输入电平、反馈等);及
c)用户的当前模式或状态(运动、温度、认知负荷等);
d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
分类单元可基于或者包括神经网络(例如循环神经网络),例如经训练的神经网络。
听力装置可包括声学(和/或机械)反馈控制(例如抑制)或回声消除系统。
听力装置还可包括用于所涉及应用的其它适宜功能,如压缩、降噪、话音活动检测例如自我话音检测和/或估计、关键词检测等。
听力装置可包括助听器,例如听力仪器,例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如耳机、耳麦、耳朵保护装置或其组合。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的听力装置的应用。可提供在包括一个或多个助听器(如听力仪器)、耳机、耳麦、主动耳朵保护系统等的装置或系统中的应用,例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等。
音频或视频处理装置的运行方法
一方面,提供音频或视频处理装置如听力装置例如助听器或耳机的运行方法。音频或视频处理装置至少包括输入单元和用于处理输入单元的输出并提供处理后的输出的信号处理器,信号处理器包括包含至少一实施为改良门控循环单元(改良GRU)的层的神经网络,改良GRU包括隐藏状态向量(h(t-1))形式的记忆。所述方法包括:
-通过输入单元按时频表示k,t提供至少一电输入信号,其中k和t分别为频率指数和时间指数,及k表示频道,k=1,…,K,至少一电输入信号表示声音或图像数据;
-基于所述至少一电输入信号或源自其的信号向至少一实施为门控循环单元(GRU)的层提供输入向量x(t);
-通过信号处理器在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000181
Figure BDA0003480784760000182
Figure BDA0003480784760000183
其中
Figure BDA0003480784760000184
Figure BDA0003480784760000185
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量;及
-通过信号处理器使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
-通过信号处理器在给定时刻t根据输入向量x(t)和隐藏状态向量h(t-1)计算至少一实施为门控循环单元(GRU)的层的输出向量o(t),其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1);
-其中所述处理后的输出由信号处理器根据所述输出向量或源自其的信号确定;及
-其中所述处理后的输出用于控制音频或视频处理装置中的处理和/或由音频或视频处理装置传给另一装置。
另一方面,提供视频处理装置如便携式视频处理装置的运行方法。视频处理装置至少包括输入单元和用于处理输入单元的输出并提供处理后的输出的信号处理器,信号处理器包括包含至少一实施为改良门控循环单元(改良GRU)的层的神经网络,改良GRU包括隐藏状态向量(h(t-1))形式的记忆。所述方法包括:
-通过输入单元提供表示视频序列的连续的数字图像,每一图像与特定时刻(t)相关联,随后的图像表示在随后时刻(t+1)的图像,每一图像包括多个像素,多个像素一起构成图像,其中从一时刻到下一时刻的图像变化由所述多个像素中的一个或多个的变化表示;
-基于与所述特定时刻(t)相关联的所述图像或源自其的信号向至少一实施为门控循环单元(GRU)的层提供输入向量x(t);
-通过信号处理器在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000191
Figure BDA0003480784760000192
Figure BDA0003480784760000193
其中
Figure BDA0003480784760000194
Figure BDA0003480784760000195
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量;及
-通过信号处理器使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
-通过信号处理器在给定时刻t根据输入向量x(t)和隐藏状态向量h(t-1)计算至少一实施为门控循环单元(GRU)的层的输出向量o(t),其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1);
-其中所述处理后的输出由信号处理器根据所述输出向量或源自其的信号确定;及
-其中所述处理后的输出为表示视频序列的所述连续的数字图像的修正版,或者用于控制视频处理装置中的处理和/或由视频处理装置传给另一装置。
前述方法可用于数据的处理,例如表示时变处理的数据,例如音频或视频处理,或者通过多个随后的图像(或帧)表示的视频序列。在处理功率有限的应用中,及例如在从一时间步到下一时间步的数据(显著)变化有限例如少于数据的20%的应用中,前述方法可能特别有利。这样的例子在从一帧到下一帧的视频图像中或者在音频数据中出现,例如其通过从一时间帧到下一时间帧的谱图表示。在音频处理中,本发明方法例如可用于下述任务:降噪(如本申请中例示的)、话音活动检测、自我话音检测、自我话音估计、唤醒词检测、关键词检出等等。
第一和第二听力装置的运行方法
一方面,提供听力装置如助听器或耳机的运行方法。所述方法包括:
-按时频表示k,t提供至少一电输入信号,其中k和t分别为频率指数和时间指数,及k表示频道,k=1,…,K,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
--提供所述时频表示中所述至少一电输入信号或源自其的信号的目标信噪比(SNR)估计量SNR(k,t);及
--将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t);或
--将所述至少一电输入信号转换为所述时频表示中的相应增益值G(k,t);
所述方法还包括:
-提供包括包含至少一定义为门控循环单元的层的神经网络,门控循环单元包括隐藏状态向量h形式的记忆,其中输出向量o(t)由所述门控循环单元根据输入向量x(t)和隐藏状态向量h(t-1)提供,其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1)。
所述方法可包括使得将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t)或者将所述至少一电输入信号转换为所述时频表示中的相应增益值G(k,t)通过所述神经网络实施,其中至少一定义为门控循环单元的层实施为改良门控循环单元,及其中所述方法还包括:
-在给定时刻t分别确定输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure BDA0003480784760000211
Figure BDA0003480784760000212
Figure BDA0003480784760000213
其中
Figure BDA0003480784760000214
Figure BDA0003480784760000215
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量,及
-其中信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
输入向量(x(t))可基于或包括所述至少一电输入信号或源自其的信号的所述目标信噪比(SNR)估计量SNR(k,t)。输入向量(x(t))可基于或包括所述至少一电输入信号或源自其的信号。
从而可提供改进的听力装置。
还(通过将第一听力装置的结构特征转换为过程特征)公开了第一听力装置的运行方法。
本发明方法例如在听力装置运行之前可包括用多个训练信号训练神经网络的参数。
计算机可读介质或数据载体
本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体),当计算机程序在数据处理系统(计算机)上运行时,使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
计算机程序
此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
听力系统
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及包括辅助装置的听力系统。
听力系统可适于在听力装置与辅助装置之间建立通信链路以使得信息(如控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。
辅助装置可由遥控器构成或者包括遥控器,其用于控制听力装置的功能和运行。遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
辅助装置可由音频网关设备构成或者包括音频网关设备,其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力装置。
辅助装置可由另一助听器构成或者包括另一听力装置。听力系统可包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。
APP
另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或听力系统的用户接口。APP可配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1A示出了实施基本门控循环单元(GRU)所需要的计算的第一图形图示;
图1B示出了实施基本GRU所需要的计算的第二图形图示;
图1C示出了实施德尔塔GRU层所需要的计算的图形图示;
图2A示意性地示出了用于将信噪比转换为增益(参见图3A中的SNR2G模块)从而衰减噪声的示例性神经网络,该神经网络包括门控循环单元(GRU)层;
图2B示出了用于将表示声音的输入信号转换为增益(参见图3B中的IN2G模块)从而衰减噪声的示例性神经网络,该神经网络包括门控循环单元(GRU)层;
图3A示意性地示出了包括降噪系统的助听器或耳机的输入部分,其包括SNR估计器和SNR-增益模块,后者通过神经网络实施(例如如图2A中所示);
图3B示意性地示出了包括降噪系统的助听器或耳机的输入部分,其包括输入信号-增益模块,后者通过神经网络实施(例如如图2B中所示);
图4A示意性地示出了根据本发明的助听器或耳机的第一实施例,其包括如图3A中所示的输入部分;
图4B示意性地示出了根据本发明的助听器或耳机的第二实施例,其包括如图3B中所示的输入部分;
图5A示意性地示出了根据本发明的助听器或耳机的第三实施例;
图5B示意性地示出了根据本发明的助听器或耳机的第四实施例;
图6示出了根据本发明的助听器或耳机的另一实施例;
图7示出了语音信号的谱图;
图8示意性地示出了根据本发明的SNR-增益估计器的神经网络的训练设置;
图9示意性地示出了用于向量化数据的并行处理的硬件模块;
图10示出了来自用于包括StatsRNN(StatsGRU层)的神经网络的训练数据集的
Figure BDA0003480784760000251
数据的对数直方图的一部分的放大图;
图11A示出了根据本发明的听力装置的实施例,其中神经网络的输入包括分开的目标和噪声估计量或者目标和噪声估计量的对应量值响应,或者至少噪声估计量,或者噪声估计量和有噪声输入混合;
图11B示出了根据本发明的听力装置的实施例,其中神经网络的输入包括目标保留波束形成器的输出(表示目标估计量)和目标消除波束形成器的输出(表示噪声估计量)。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件,例如用于感测和/或记录环境、装置、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
在本发明中,(例如深度)神经网络应用于确定助听器或耳机的单通道降噪系统的后滤波器增益的任务。后滤波器配置成降低空间滤波的信号中的剩余噪声。空间滤波的信号例如确定为例如来自助听器或耳机的传声器的多个电输入信号的线性组合。具有这种目的的后滤波器已用不同方式实施,例如实施为齐纳(Wiener)滤波器(或其改良)。神经网络用于实施后滤波器已在现有技术中提出,例如参见EP3694229A1。
本发明涉及包括记忆节点和所谓的门控循环单元(GRU)的(单层或多层)循环神经网络(RNN)体系结构。尽管从功能角度有吸引力,然而,这样的网络可能计算要求相当高,在实践中一般不可应用于低功率应用如便携电子装置例如音频处理装置如助听器或耳机等中。试图限制这类神经网络的处理复杂性,已提出称为德尔塔网络的循环神经网络(RNN)体系结构(例如参见[Neil et al.;2018])。在德尔塔循环神经网络(德尔塔RNN)中,每一神经元仅在其激活时的变化超过阈值时传输其值。在将要处理的信号随时间相当稳定(变化相当缓慢)时,这尤其高效。这例如正是一些音频和视频信号的情形。
即使是德尔塔RNN也可能不适合用在低功率(便携)装置如助听器中,因为由网络执行的运算量可能可观。然而,首要的是,运算量未知,因为其将取决于网络的输入信号以及阈值参数。
本发明提出德尔塔RNN的改良。
在下面,描述经改良的所谓的峰值GRU RNN。但首先概述基线GRU和德尔塔RNN的关键元素。
基线GRU、德尔塔GRU或峰值GRU RNN可用作单层(循环)神经网络。
基线深度神经网络(DNN)由几层组成。深度神经网络在输入层与输出层之间包括至少一(隐藏)层(将称为DNN)。这些层中的至少一层包括门控循环单元(GRU),例如根据本发明的峰值GRU。
基线GRU对所有输入执行计算(例如参见图1A),而根据本发明的峰值GRU方案可跳过一些输入的计算。由于本发明聚焦于低功率,寻求减少计算量因而节能但仍然保持足够的性能(音频质量)的方法。
网络激活或输入数据中的稀疏性(如零)(即网络参数(权重、偏差或非线性函数)中的稀疏性,或者网络的输入数据中的稀疏性)是可用于实现高功率效率的性质。通过忽略涉及零的计算,可降低计算复杂性(因而降低计算功率)。
下面为门控循环单元GRU的基本部分(从[Neil et al.;2018]的部分2.1调整而来):
门控循环单元(GRU)
GRU神经元模型具有两个门(即复位门r和更新门u)及候选隐藏状态c。复位门r确定来自先前的隐藏状态的、将被添加到候选隐藏状态c的信息量。更新门u决定为使能长期记忆,激活向量h应被候选隐藏状态c进行何种程度的更新。GRU公式表示如下:
r(t)=σ[Wxrx(t)+Whrh(t-1)+br] (1)
u(t)=σ[Wxux(t)+Whuh(t-1)+bu] (2)
c(t)=tanh[Wxcx(t)+r(t)⊙(Whch(t-1))+bc] (3)
h(t)=(1-u(t))⊙h(t-1)+u(t)⊙c(t) (4)
其中x为(外部)输入向量,h为激活向量,W为权重矩阵,b为偏差,σ表示逻辑sigmoid函数,⊙指逐元素相乘。GRU节点模型的数据流在图1A、1B中示意性示出(从[Kostadinov;2017]调整而来)。
图1A表示如等式(1)-(4)中写出的、GRU节点所需的所有计算。
参数x(t)为(外部)输入,参数h(t)为将用作可能的下一层(例如全连接层,例如参见图2A、2B)的、GRU的输出(在图1A、1B、2中也记为o(t)),参见图1A中从输出o(t)到内部输入h(t-1)的记为h(t)的虚线曲线箭头。换言之,参数h反映网络的过去输出值的记忆。在图中,(外部(x,o)和内部(h))输入和输出参数被示为粗体以标示“特征向量”。在本发明的所示例子中,“特征向量”的“特征”体现为所涉及的参数在不同频率k,k=1,…,K的值(其中K可等于或不同于GRU的处理通道的数量Nch),例如参见图2A、2B。在图2A的例子中,包括(峰值)GRU单元作为中间层的神经网络的输入向量为在时间t的(Kx1)输入向量SNR(t),其表示在时间t的信噪比(SNR)估计量的频谱,其中向量SNR(t)T=(SNR(1,t),…,SNR(K,t))的每一元素表示在时间t、在频率k,k=1,…,K的SNR估计量。GRU的输入向量x(t)可具有一样(Kx 1)或不同(Nch,xx 1)的维数,取决于神经网络的前导层输出节点的数量(例如图2A、2B中的全连接层(NN层)),或者其可具有输入数据的维数(如果GRU层是第一层且在其前面没有其它层)。同时,在GRU的处理尚未完成的情形下,输出o(t)=h(t)用作GRU的下一时间步的内部输入h(t-1)(例如参见图1B,其中GRU单元的计算的时间序列t-1,t,t+1未折叠)。任何类型的神经网络(前馈、递归、长短期记忆、门控循环单元等)均可向GRU(包括向峰值GRU)提供输入层和/或输出层。在图2A、2B中,全连接的前馈神经网络被标示为输入和输出层(NN层),具有GRU RNN(例如根据本发明的峰值GRU RNN)作为中间层。
图1A示出了GRU怎样(使用上面的等式(1)-(4))计算输出。主要组成为下面更详细描述的两个门(复位门r和更新门u)和候选状态c。
更新门u
在更新门u中,输入x(t)与其对应的由矩阵Wxu(Wxux(t))表示的权重相乘。在本发明的例子中,权重矩阵Wxu,Whu等为KxK矩阵,其中K为GRU的输入信号的频带的数量(例如K=Nch)。然而,一般地,权重矩阵的维数根据GRU的输入和输出向量的维数适应具体情形。如果例如有64个输入和256个输出(隐藏状态的维数),则X(Wxu等)的内核(矩阵)中的每一个将具有64x256的维数,H矩阵(Whu等)中的每一个的维数将为256x256。同样的规则应用于与矩阵Whu(Whuh(t-1))相乘的h(t-1),其中h(t-1)包含来自先前时间步的信息。两个结果加在一起(Wxux(t)+Whuh(t-1))(及可能另外加上偏差参数bu),应用sigmoid激活函数(σ)以将结果限制为0到1之间(u(t)=σ[Wxux(t)+Whuh(t-1)+bu]),参见等式(2)。也可应用不同于sigmoid的其它激活函数。
复位门r
复位门r用于决定先前的信息应被忘记多少。公式表示与更新门的公式表示一样,除了权重矩阵(Wxr,Whr)和可能的偏差参数(br)不同之外(r(t)=σ[Wxrx(t)+Whrh(t-1)+br]),参见等式(1)。
候选状态c
与先前的类似,执行与输入(Wxcx(t))和Whch(t-1))相乘(参见等式(3))。之后,具有复位门的逐元素的积(r(t)⊙(Whch(t-1)))确定什么信息将被从先前的时间步去除。r的值越接近0,越多信息将被忘记。最后(在非必须地加上偏差bc之后),应用将结果限制为在-1到1的范围中的tanh激活函数(c(t)=tanh[Wxcx(t)+r(t)⊙(Whch(t-1))+bc])。也可应用不同于tanh的激活函数。
隐藏状态h
最后一步是计算隐藏状态h(t),其保留当前单元的信息。为获得h(t),需要更新门(u)。更新门确定从当前记忆内容(c)和先前的记忆内容h(t-1)保留什么。因此,我们需要再次执行逐元素相乘,(1-u(t))⊙h(t-1)和u(t)⊙c(t),这次使用更新门u(t)。最后,我们对结果求和并获得h(t)(h(t)=(1-u(t))⊙h(t-1)+u(t)⊙c(t)),其将用作下一层及下一时间步的输入(例如参见图1B)。
门控循环单元(GRU)的基准想法对于德尔塔GRU RNN和峰值GRU RNN方法是共同的。峰值GRU RNN从德尔塔GRU RNN方法得出,它们具有许多共同的计算。
图1B示出了实施基本GRU所需要的计算的第二图形图示,其中如图1A中所示及上面描述的GRU单元被“折叠掉”以指明时间序列(t-1,t,t+1)并图示GRU中记忆的存在(与前馈型神经网络相反)。分别表示时刻t-1,t,t+1的三个连续的GRU(“单元”)连在一起以说明输出值(o=h)怎样用作下一单元(下一时间步)的输入。输入(特征)向量x可以是物理实体向量(例如音频或视频信号的时间帧),或者其可用于接收来自(可能的)在前神经网络层(可以是GRU层或任何其它类型的神经网络层)的输出向量。类似地,输出(特征)向量o可以是用在音频或视频应用中的结果向量(例如将应用于(有噪声)输入信号的、随频率而变的增益向量),或者其可用于向可以是GRU层或任何其它类型的神经网络层的另一神经网络层提供输入。
下面为德尔塔GRU RNN的基本部分(从[Neil et al.;2018]的部分2.2调整而来)。
德尔塔GRU RNN算法
德尔塔GRU RNN算法通过利用RNN输入、状态和输出的时间稳定性而减少记忆访问及算术运算。与比其先前时间步具有小变化量的神经元激活相关联的计算可被跳过。跳过单一神经元节约所有有关权重矩阵(例如参见上面描述的GRU的权重矩阵(Wxr,Whr,Wxc,Whc,Wxu,Whu))中整列的相乘以及对应权重元素的读取。在神经元激活向量(例如x或h)和权重矩阵(W)之间的矩阵-向量相乘(MxV)中,向量中的零元素导致对最终结果没有贡献的零部分和。
将确定最大元素并放在德尔塔向量(Δx,Δh)中。最小元素在硬件中将被跳过(在等式中设置为0)。之后,这些德尔塔向量用于与降噪相乘。这样,代替复位状态r的原始(例如对于外部输入x(t))Wxrx(t),我们将得到WxrΔx(t),其中Δx(t)稀疏。对于激活向量h同样如此。
德尔塔GRU RNN的关键特征在于其仅在神经元的激活向量变化多于德尔塔阈值Θ时更新神经元的输出。为跳过与任何小的Δx(t)有关的计算,引入德尔塔阈值Θ来决定何时可忽略德尔塔向量元素。神经元的激活向量的变化仅在其大于Θ时进行记忆。此外,为防止误差随时间累积,仅变化大于德尔塔阈值的最后激活值被记忆。这通过下面的一组等式定义(已省略节点指数):
Figure BDA0003480784760000301
Figure BDA0003480784760000302
Figure BDA0003480784760000311
Figure BDA0003480784760000312
其中最后的变化
Figure BDA0003480784760000313
被记忆并用作下一时间周期(t+1,参见图1C)的内部输入,而德尔塔向量Δx(t)和Δh(t-1)通过使用先前值的估计量
Figure BDA0003480784760000314
Figure BDA0003480784760000315
Figure BDA0003480784760000316
在每一时间步t进行计算。等式(5)和(6)或者(7)和(8)中的Θ阈值可以一样,也可跨频率一样。然而,Θ值可以不同,例如对于x(Δx)(等式(5),(7))和h(Δh)(等式(6),(8))不同。当前输入xi,t(x(t))(其中i为输入向量x的第i个元素(节点))和状态hj,t(h(t))(其中j为隐藏状态向量h的第j个元素(节点))将与这些值进行比较(例如相减)以确定相应的Δ值。之后,
Figure BDA0003480784760000317
Figure BDA0003480784760000318
值将仅在越过阈值时更新。在上面的等式(5)-(8)中已省略指数i,j。
在改良的德尔塔GRU中,可应用非对称的阈值。在另一改良的德尔塔GRU中,可跨一层中的不同神经元应用不同的阈值。
接下来,使用等式(5),(6),(7)和(8),传统的GRU等式集(上面的(1)-(4))可被变换为其德尔塔网络版:
Mr(t)=WxrΔx(t)+WhrΔh(t-1)+Mr(t-1) (9)
Mu(t)=WxuΔx(t)+WhuΔh(t-1)+Mu(t-1) (10)
Mxc(t)=WxcΔx(t)+Mxc(t-1) (11)
Mhc(t)=WhcΔh(t-1)+Mhc(t-1)) (12)
r(t)=σ[Mr(t)] (13)
u(t)=σ[Mu(t)] (14)
c(t)=tanh[Mxc(t)+r(t)⊙Mhc(t)] (15)
h(t)=(1-u(t))⊙h(t-1)+u(t)⊙c(t) (16)
其中,Mr,Mu,Mxc和Mhc分别指复位门r、更新门u、候选状态c和隐藏状态h的存储的(记忆)值,其中Mr(0)=br,Mu(0)=bu,Mxc(0)=bc和Mhc(0)=0。上面的对于时间指数t的处理关系(记为等式(9)到(18))在图1C中图形图示。该图左部中对于先前时刻(t-1)的值Mr(t-1),Mu(t-1),Mxc(t-1),Mhc(t-1)在在前处理周期中存储(通常被所述参数的用在后面处理周期中的新值盖写)。
在德尔塔GRU中例如可能有6个不同的权重矩阵(其它表示也可能)。这些权重矩阵可以是Wxr,Whr,Wxu,Whu,Wxx和Whc(参见图1A)。x和h指矩阵是否与x或h输入有关,u,r,c分别意为更新、复位、候选。下标用于区分输出来自什么样的输入-矩阵对。如果我们写Wxr,我们知道该矩阵将用在具有输入向量x的计算中并与复位门有关(例如参见等式(9)中获得的Mr(t)用在等式(13)中的复位门(r)计算中)。
总之,德尔塔GRU RNN算法设定特定的阈值Θ例如0.1(参见上面等式(5)-(8)中的Θ),其将用于与元素值比较。如果当前处理后的元素的值(相减的绝对值)低于该阈值,元素将不用于该时间步的进一步的计算,而是将被跳过(设置为0)。因此,将进一步处理的元素的数量可根据元素值从一时间步到另一时间步变化。
峰值GRU RNN
下面描述根据本发明的峰值GRU RNN,其为GRU和德尔塔GRU RNN的改良版。
峰值GRU RNN算法的优点在于其以确定性的方式减少计算(即其总是提前知道多少运算将由该算法的给定配置执行)。这通过设置硬极限实现,其将确定在峰值GRU RNN的每一输入特征向量中(例如在音频或视频信号的每一时间帧中)有多少值(峰值)将被处理。代替(如在德尔塔GRU中)设置输入向量的元素的变化率的阈值,在每次迭代中选择处理预先确定数量(Np)的元素。因而,同样仅需要所涉及矩阵(如Wxr,Whr,Wxu,Whu,Wxc,Whc)的Np列。在每一迭代中,输入向量的具有最大变化率(德尔塔)的Np个元素被选择进行进一步处理。这使能具有不必处理整个向量矩阵相乘的灵活性,而且具有确定性(总共Np个点积)。峰值GRURNN(以及德尔塔GRU RNN,例如如果在(德尔塔)输入向量中没有零)可进行全向量矩阵相乘(例如Np=Nch)或者其子集,下至零相乘(例如Np=0)。阈值Np对应于峰值GRU RNN层的(德尔塔)输入向量(Δx(t),Δh(t-1))的、将(或可)被处理的最大绝对值/量值的数量。如上面指出的,峰值数量Np(Np,x,Np,oh)对于输入向量(x)(Np,x)和输出(及隐藏状态)向量(o,h)(Np,oh)可相等(Np=Np,x=Np,oh)或不同。
更新与(例如Np个)最大Δ(Δx,Δh)对应的神经元假定所有神经元同等重要。然而,Δ可通过“重要性”因子进行加权,其中该因子与在训练期间所得的价值函数变化有关,参见下面的“训练”部分。
峰值GRU RNN(及类似地,德尔塔GRU RNN和基线GRU RNN)的权重矩阵(如Wxr,Whr,Wxu,Whu,Wxc,Whc)通常固定为在训练程序中优化的值。
峰值数量越低,需要越少计算和记忆访问,因此功耗越低。
改良根源在德尔塔RNN算法的等式(5)到(8)中。代替如德尔塔RNN算法要求的、满足
Figure BDA0003480784760000331
Figure BDA0003480784760000332
大于阈值Θ的判据,根据本发明的峰值GRU RNN算法在给定时间点t仅分别确定
Figure BDA0003480784760000333
Figure BDA0003480784760000334
的Np个最大值且仅处理这些值。在不同的时间点…,t-1,t,t+1…,
Figure BDA0003480784760000335
Figure BDA0003480784760000336
的Np个最大值可与输入向量和隐藏状态向量中的不同向量/位置(指数)(例如本发明例子中的不同频率)的元素相关联。
使用绝对值|·|使得我们能够基于它们的量值比较数量,德尔塔向量之后被分配相减的实际结果(对应于它们的高于阈值的量值)。对于德尔塔GRU,这同样有效(但处理的值的数量可以不同)。
代替针对德尔塔GRU RNN的等式(5),(6),下面的表达式可用于峰值GRU RNN:
Figure BDA0003480784760000337
Figure BDA0003480784760000338
其中i,j指第i个输入,及第j个神经元的隐藏状态(其中1≤i≤K和1≤j≤K,其中K为本发明的应用情形(音频处理)的示例性(输入和输出特征向量)中的频带数量)。
类似地,针对德尔塔GRU RNN的等式(7),(8)可用于峰值GRU RNN,包括与预先确定的将在每一迭代中处理的元素数量(Np)有关的改良:
Figure BDA0003480784760000341
Figure BDA0003480784760000342
向量中不同指数的元素可在不同时间步被选择,例如在时间步(t-1),我们可具有下面的示例性向量,其中黑体值被选择(基于其量值的两个最大值,Np=2,Nch=5):[1,0,-9,8,-4],而在时间步t,我们可具有向量[2,-5,0,1,-1],其中向量中的两个其它指数被选择,因为它们(数值上)展现最大值。
对于x和h,分开地选择最大值,这意味着我们将具有Np个Δx峰值和Np个(不同值N’p的)Δh峰值。
总之,峰值GRU RNN使用不同类型的极限工作(然而,保持上面等式(5)-(8)中的相减)。其使用等于在每一时间步中将总是(或最大)处理的元素数量的硬极限。将被处理的元素基于它们的绝对值进行选择。例如,如果我们在64输入节点系统中将峰值数量设置为48,在每一时间步中,64-48=16个最小绝对值将总是被跳过。
说明两种方法的
Figure BDA0003480784760000343
(或
Figure BDA0003480784760000344
)(称为“减后元素”)及
Figure BDA0003480784760000345
(或
Figure BDA0003480784760000346
)(称为ABS(减)后元素)的值的例子在下面示出(通过仅使用10个元素进行简化,Nch=10):
减后元素:[0,-0.6,0.09,0.8,0.1,0,0,-1.0,0.05,0.22]
ABS(减)后元素:[0,0.6,0.09,0.8,0.1,0,0,1.0,0.05,0.22]
德尔塔GRU RNN
如果例如阈值Θ=0.06,具有低于或等于0.06的值的元素将被设置为0(如具有下划线的零(0)所示):[0,-0.6,0.09,0.8,0.1,0,0,-1.0,0,0.22]。
峰值GRU RNN
如果例如我们想要处理的峰值数量为Np=6,则我们将跳过10–6=4个最小绝对值(设置为0):[0,-0.6,-0.09,0.8,0.1,0,0,-1.0,0,0.22]。
在该例子中(在该时刻),德尔塔GRU方法和峰值GRU方法计算上同等高效。这说明仅基于通过相应方法(在给定时刻)去除的数据值数量来比较这两个方法的困难性。这分别取决于Θ和Np的值以及相应算法处理的数据。因此,在不知道数据集/不知道其怎样影响最后结果的情形下,仅通过看有多少值被去除,不可能说哪一方法更好。如果我们在该例子中将峰值数量仅设置为例如3,则峰值GRU RNN方法将看上去更高效。
峰值GRU的潜在优点
德尔塔GRU RNN算法用元素与其比较的实际数值阈值工作。因此,如果所有值均高于阈值(阈值未被设置到足够高),则发生所有元素将进行处理及相较于基线GRU的所有另外的计算将贡献于更高的功耗而不是降低功耗。预期德尔塔GRU RNN在时间步之间的变化不是那么突然(例如更安静的环境)的情形下很好地起作用。
一般地,德尔塔GRU对输入向量的元素的变化率设置阈值,而峰值GRU从输入向量选择预先确定数量的元素,其中被选择的元素具有最大变化率。
如果将被跳过的峰值数量不足够高,峰值GRU RNN算法也可能贡献于功耗的增加。然而,一般地,峰值GRU RNN算法:
-总是切除特定数量的元素,不管它们是否高于或低于特定数值阈值。因此,相较于德尔塔GRU RNN,峰值GRU RNN是确定性的方法,即我们可总是提前定义多少计算将被执行。这对于低功率装置如听力仪器是非常重要的方面;
-由于峰值GRU RNN算法不像德尔塔GRU RNN那样使用静态阈值,而是仅使用前多少个元素的数量工作(即“数值阈值”是动态的并每一时间步调整),其对于预处理是强健的方法并可在没有数据集值的现有分析的情形下处理数据集。如果我们需要将预处理应用于数据,导致数据从一表示变为另一表示(例如量化、或一些简单滤波、归一化等),德尔塔GRU阈值将不再能起作用,其也将不得不重新映射。然而,对于峰值GRU,将不需要任何另外的调节,因为预处理后的数据元素的阶数将保持一样;
-类似地,与德尔塔GRU RNN算法类似,峰值GRU RNN算法相较于基线GRU RNN算法节省计算。
例子:SNR-增益估计器
图2A示意性地示出了例如在助听器中用于将信噪比转换为增益(参见图3A中的SNR2G模块)的示例性神经网络。该神经网络为包括门控循环单元(GRU)层作为隐藏层的深度神经网络。图2A的深度神经网络包括相应的全连接的前馈神经网络层(NN层)作为输入和输出层,具有GRU RNN(GRU,例如根据本发明的峰值GRU RNN)作为中间层。在所示例子中,输入层(NN层)的“输入特征向量”的“特征”体现为信噪比SNR(k,t)在不同频率k,k=1,…,K时的值。输入向量被写为(Kx1)输入向量SNR(t)T=(SNR(1,t),…,SNR(K,t)),上标T指转置,并可看作表示在时间t的信噪比(SNR)估计量的频谱。在图2A的例子中,第一输入层(NN层)的输出记为x(t)且为GRU单元(GRU)的输入向量。GRU输入向量x(t)可以是(Kx1)向量。GRU层提供输出向量o(t),其可以是(Kx1)向量。如结合图1A、1B和1C所述,GRU包括来自GRU的过去输出的记忆,因为输出o(t)=h(t)用作下一时间步的内部输入h(t-1)(参见图2A中从o(t)到h(t-1)的虚线箭头(例如参见图1B,其中GRU单元的计算的时间序列t-1,t,t+1未被折叠))。GRU层的输出向量o(t)被馈给输出层(NN层),其提供对应于输入SNR向量SNR(t)的表示“增益谱”的输出向量G(t)T=(G(1,t),…,G(K,t))。在图4A的示例性助听器中,增益G(t)=G(k,t),k=1,…,K被应用于正向(音频)通路的信号(从而例如提供增强的(降噪的)信号)。
SNR2G估计器的(全连接的、前馈)输入和输出层(NN层)的多个虚线箭头用于标示第k个频道中的增益(在给定时间点t)取决于至少一估计的SNR值,例如K个频道的部分或全部,即,例如
G(k,t)=f(SNR(1,t),…,SNR(k,t),…,SNR(K,t))
这种特性在GRU层中也可能固有。换言之,根据本发明的(深度)神经网络可进行优化以找到从跨频率的一组SNR估计量(SNR(k,t))到一组随频率而变的增益值(G(k,t))的最佳映射。
图2B示出了用于将(直接)表示声音的输入信号转换为增益(参见图3B中的IN2G模块)从而衰减噪声的示例性神经网络,该神经网络包括门控循环单元(GRU)层。代替具有SNR估计量作为输入,图2B的神经网络直接取来自滤波器组的信号(或其处理后版本)。图2B因而可被考虑表示整个降噪系统(NRS)。
在图2A、2B中,全连接的前馈神经网络层(NN层)用作GRU RNN(GRU)“周围的”输入和输出层。任何类型的神经网络(前馈、递归、长短期记忆、门控循环单元等)均可向GRU(例如根据本发明的峰值GRU)提供输入层和/或输出层。此外,GRU不需要为隐藏层。此外,三个以上的层可用于实施SNR2G估计器(或者音频或视频处理装置的其它功能单元)。
GRU RNN(GRU)可以是根据本发明的峰值GRU RNN。在本说明书中,峰值GRU RNN算法的峰值数量对应于处理通道总数(Nch)之中被RNN(在给定时间点)处理的通道数量(Np),Np≤Nch。(输入或输出)通道的数量(例如Nch(或Nch,x,Nch,oh))可以是(大于2的)任何数量,例如在2到1024之间,例如在4到512之间,例如在10到500之间。这意味着我们可根据Np的值处理Nch,Nch-1,Nch-2,…下至0个通道。在图2A、2B的上下文中,峰值GRU层的通道数量Nch可等于K即滤波器组FB-A的频带数量,或者,根据神经网络的输入和输出层(NN层)的特性,其可大于或小于K。在本发明的示例性的上下文中,神经网络优选配置成接收输入向量并提供输出向量,二者均具有K维(作为输入信号IN(k,t)(或SNR(k,t))及对应的(估计的)降噪增益G(k,t)的时间帧)。K为听力装置的处理通路的频带数量(例如24或64等),其中实施神经网络(例如参见图FIG.4A,4B,5A,5B)。如上面提出的,中间层(例如峰值GRU层)当然可具有其它节点数量(小于或大于输入和输出节点的数量)。
处理的通道数量Nch减少到Np≤Nch(例如Np<Nch),例如在任何给定时间点考虑(更新)的单元(k,t)数量,将导致节能,但自然地,其也对所得的音频质量有影响。因此,需要找到合理的峰值数量,例如根据当前声环境。一个选择是例如基于不同声环境的模拟选择固定的数量Np(例如使用语音可懂度(SI)度量使峰值数量Np的给定选择的结果符合条件)。从而,可找到每一环境的最佳峰值数量Np(每一峰值数量例如在专用于给定声环境或听音情形的不同助听器程序中应用,例如噪声中语音、安静中语音、聚会、音乐、车内、飞机内、开放办公室内、礼堂中、教堂中等)。作为备选,可找到一般的峰值数量Np作为在所有环境均提供最大平均SNR的峰值数量。
峰值数量Np对于给定应用可恒定不变或者可根据输入信号自适应确定(例如跨一时间段进行评估)。峰值数量Np对于给定声环境(例如对于助听器的给定程序)可以恒定不变。助听器或耳机可包括声环境分类器。在给定时间的峰值数量可取决于来自声环境分类器的指明当前声环境的控制信号。
为优化给定应用的峰值数量,可进行使用合适数据集的模拟,例如通过增大我们想要跳过的峰值数量并观察其怎样影响SNR、估计的增益、语音可懂度度量(和/或其它度量)。对于峰值GRU RNN和德尔塔GRU RNN,分别在我们处理所有峰值时及阈值为0时,峰值GRU RNN(及德尔塔GRU RNN)与基线GRU具有完全一样的性能。当我们开始扔掉一些值时,在某点,这些度量将逐渐开始恶化并达到这些度量如SNR将太低且不可接受的点。
神经网络的最佳层数取决于数据集、我们试图解决的问题的复杂性、每层的神经元数量、我们馈入神经网络什么样的信号等。3层可能足够,也可能需要4或5层等。在本发明的例子中,每层的神经元数量保持在频道的数量K。然而,并不必须如此。
图3A示意性地示出了包括降噪系统的助听器或耳机的输入部分,其包括SNR估计器和SNR-增益模块,后者通过神经网络实施(例如如图2A中所示)。输入部分包括包含用于提供至少一电输入信号IN(t)的至少一输入变换器(在此为传声器M)的输入单元以及用于按时频表示IN(k,t)提供至少一电输入信号IN(t)的至少一分析滤波器组FB-A,其中k和t分别为频率和时间指数。频率指数k表示频道,k=1,…,K(例如图2A)。频道数量在装置的不同部分可以不同,例如在正向音频通路中比在分析通路中大(或者反之亦然),例如参见图4A,4B(指数k,k’)。至少一电输入信号(IN(t),IN(k,t))表示声音并可包括目标信号分量和噪声分量。目标信号分量为源自助听器或耳机的用户(当前)可能感兴趣的声源的信号分量(例如来自用户周围的人的语音)。输入部分还包括降噪系统NRS(通常为助听器或耳机的分析通路的一部分),其目标在于降低至少一电输入信号(或源自其的信号,例如空间滤波的(波束形成)信号)中的噪声分量。降噪系统配置成提供用于应用于电输入信号(IN(k,t)或源自其的信号的增益G(k,t)(k=1,…,K),例如参见图4A。降噪增益G(k,t)(k=1,…,K)适于降低(衰减)噪声分量,同时保留目标信号分量不被改变(或者较少衰减目标信号分量)。降噪系统NRS包括信噪比估计器SNR-EST和信噪比到增益转换器SNR2G。信噪比估计器SNR-EST接收至少一电输入信号(IN(k,t))并提供该电输入信号信噪比的估计量(SNR(k,t),k=1,…,K)。SNR估计量(SNR(k,t))可基于任何现有技术方法,例如确定为观察到的(可用)有噪声电输入信号IN(k,t)(包括目标信号S与噪声N的混合,IN(k,t)=S(k,t)+N(k,t)),例如通过一个或多个传声器拾取,例如参见图3A中的M)除以噪声估计量的比。SNR估计量例如可确定为在给定时间点(例如在给定时间帧)的有噪声信号IN(k,t)的功率除以噪声信号的功率估计量
Figure BDA0003480784760000391
换言之,
Figure BDA0003480784760000392
或者
Figure BDA0003480784760000393
t0指噪声估计量(的更新)可在“当前”时刻t之前的时刻进行,例如在电输入信号IN(k,t)中(估计)不存在(目标)语音时估计噪声电平的情形下。t0优选可以是当前时间指数之前的最后时间指数,其中噪声电平已进行估计。
信噪比估计器SNR-EST可实施为神经网络。信噪比估计器SNR-EST可被包括在信噪比到增益转换器SNR2G中并通过根据本发明的循环神经网络实施。在图3A的示例性实施例中,将意味着降噪系统模块NRS将被实施为根据本发明的循环神经网络,例如直接从分析滤波器组FB-A将其输入向量接收为IN(k,t),例如一帧一帧地(其中t表示时间帧指数)。
信噪比估计器SNR-EST向信噪比到增益转换器(SNR2G,RNN)提供SNR估计量(SNR(k,t))。对于相应的频道(k=1,…,K),信噪比(SNR(k,t))的连续的时间帧用作实施为深度神经网络尤其是根据本发明的峰值GRU循环神经网络的SNR到增益转换器(SNR2G)的输入向量。SNR到增益转换器(SNR2G,RNN)的神经网络(RNN)包括输入层、多个隐藏层和输出层(例如参见图2A)。来自输出层的输出向量包括随频率而变的增益G(k,t),其配置成应用于(例如数字化的)电输入信号(或源自其的信号)以提供降噪的信号(例如参见图4A中的信号OUT(k’,t))。随频率而变的增益G(k,t)可被写为(向量)G(t)=G(k,t),k=1,…,K。
图3B示意性地示出了包括降噪系统NRS的助听器的输入部分,其包括输入信号-增益模块IN2G,该模块通过神经网络实施(例如如图2B中所示)。
图4A示出了根据本发明的助听器(或者,如果扬声器被发射器取代,耳机的传声器通路)的第一实施例,其包括如图3A中所示的输入部分。SNR到增益转换器SNR2G可按如图2A中所示实施。
在本发明中,描述了包括降噪系统的助听器或耳机,降噪系统包括实施为根据本发明的循环(可能深度)神经网络(RNN)的SNR到增益转换模块(SNR2G)。助听器包括正向(音频)信号通路,其包括提供表示助听器或耳机环境中的声音的至少一电输入信号IN(t)的至少一输入变换器(例如传声器M)。正向通路还包括用于将(时域)电输入信号IN(t)转换到K个频道IN(k,t)的分析滤波器组FB-A,其中k=1,…,K为频率指数,t为时间(帧)指数。助听器还包括分析通路,其包括配置成降低(有噪声)电输入信号(IN(k,t),或源自该信号的信号)中的噪声从而向用户提供更好质量的假定存在于有噪声电输入信号中的目标信号(目标信号例如为来自通信伙伴的语音)的降噪系统NRS(参见虚线框)。降噪系统包括SNR估计器SNR-EST,配置成估计(频域)电输入信号IN(k,t)的相应频道(k)的信噪比(SNR(k,t)),例如参见图3A。分析通路可具有其自己的分析滤波器组FBA,如图4A中所示。这例如在分析通路的通道数量(例如K)不同于(大于或小于)正向(音频)通路的通道数量(例如K’)时适合。如果通道数量与正向通路中一样(K=K’),分析通路可使用与正向通路同样的分析滤波器组(FB-A)。如果分析通路中的通道数量小于正向通路中的通道数量,可在正向通路的分析滤波器组(FB-A)与降噪系统NRS的输入之间引入“频带”单元。频带求和单元可适于将正向通路的多个频道合并为分析通路的单一频道,使得所得的分析通路的通道数量K小于正向通路的通道数量K’。
包括三层的、用于实施SNR到增益转换器(SNR2G,RNN)的循环神经网络示例在图2A中示出。三层为a)全连接的输入层、b)隐藏GRU层(例如峰值GRU RNN层)、及c)全连接的输出层。SNR到增益模块利用跨不同频道的信息来改善降噪系统,其通过将第k个频道的增益估计量设为不仅取决于第k个频道中的SNR,而且取决于多个相邻例如所有频道的SNR估计量。
图4B示意性地示出了根据本发明的助听器的第二实施例,其包括如图3B中所示的输入部分,其中降噪系统NRS包括来自分析滤波器组FB-A的子频带信号(IN(k,t))到降噪增益G(k,t)的直接变换(通常衰减)。
图4A和4B中所示的听力装置实施例中的每一个的正向通路包括用于将随频率而变的增益G(k,t)应用于正向(音频)通路的输入信号IN(k’,t)的多个组合单元(在此为相乘单元‘x’)。如果提供随频率而变的增益G(k,t)的分析通路的频道数量K不同于提供输入信号IN(k’,t)的正向通路的频道数量K’,在降噪系统NRS的输出(G(k,t))与组合单元(‘x’)之间暗含“频带分布”(或“频带求和”)单元以使增益信号G(k,t)适应输入信号IN(k’,t)的频道数量。组合单元(‘x’)的输出为所得的降噪信号OUT(k’,t)。正向通路还包括合成滤波器组(FB-S),用于将子频带信号OUT(k’,t)转换为时域信号OUT(t)。正向通路还包括输出变换器(在此为扬声器(SPK)),用于将输出信号OUT(t)转换为可由用户感知为声音的刺激(在此为包括空气中振动的声学信号)。输出变换器可包括提供骨导刺激的振动器或者提供耳蜗神经的电刺激的耳蜗植入件的多电极阵列。
助听器/耳机可包括另外的电路以实施助听器/耳机的其它功能,例如用于将随频率和电平而变的增益应用于正向(音频)通路的信号从而例如补偿用户的听力受损的音频处理器。音频处理器例如可位于正向通路中,例如组合单元(‘x’)与合成滤波器组(FB-S)之间。只要对于所涉及的应用适当,助听器还可包括模数转换器和数模转换器。助听器还可包括天线和收发器电路,从而使助听器或耳机能与其它装置(例如对侧装置,例如对侧的助听器或耳机部分)通信,例如建立到远处通信伙伴的链路,例如经移动电话。
图5A示出了根据本发明的助听器的第二实施例。图5A的实施例与图4A的实施例类似,但包括另外的输入变换器(M1,M2)和波束形成器BF(参见虚线框)。助听器HD包括提供相应的(时域)电输入信号(IN1,IN2)的两个输入变换器(传声器(M1,M2))。每一电输入信号在呈现给分析滤波器组(FB-A)之前可经历模数转换,这按K个子频带提供表示佩戴助听器的用户环境中的声音的、对应的(时变)子频带信号IN1(k)和IN2(k),如记为K的粗箭头所示(图5A中暗含时间相依t)。助听器包括波束形成器BF,其适于根据输入信号IN1,IN2(或源自其的信号)及(固定和/或自适应更新的)波束形成器权重提供空间滤波的(波束形成)信号YBF(k)。波束形成器包括根据输入信号IN1,IN2提供多个固定波束形成器(在此为两个,C1,C2,例如目标保留波束形成器和目标消除波束形成器)的固定波束形成器模块Fx-BF。波束形成器还包括自适应波束形成器ABF和话音活动检测器VAD。话音活动检测器配置成提供指明输入信号(在此为来自固定波束形成器C1例如目标保留波束形成器的信号)(在给定时间点)是否(或者以何种概率)包括话音信号的控制信号VA。自适应波束形成器ABF配置成根据来自固定波束形成器C1,C2的信号提供空间滤波的信号YBF(k)。自适应波束形成器ABF例如适于根据来自话音活动检测器的控制信号VA更新其滤波器权重。用户周围的噪声场的估计量例如可在不存在话音时确定。用于自适应更新自适应波束形成器ABF的滤波器权重的算法例如可以是最小方差无失真响应(MVDR)算法或类似算法,例如基于统计方法及一个或多个约束条件。
助听器还包括根据本发明的降噪系统NRS,例如结合图3A所述的降噪系统。降噪系统NRS根据固定波束形成器(C1,C2)的输出提供后滤波器增益G(k)(在图3A和4A中记为G(k,t))。来自固定波束形成器(例如目标保留波束形成器(C1)和目标消除波束形成器(C2))的信号可形成在时间-频率(k,t)基础上估计信噪比(SNR)的基础。如结合图2A和3A所述,SNR估计量可向SNR-增益估计器(SNR2G)提供输入。作为备选,来自固定波束形成器(例如目标保留波束形成器(C1)和目标消除波束形成器(C2))的信号可被直接馈给用于估计适当增益(G(k))的神经网络,如结合图11B所述。如图5A中通过虚线箭头标示的,波束形成信号YBF(k)也可用作降噪系统的输入(例如以改善SNR估计量)。后滤波器增益G(k)在组合单元(‘X’)中应用于空间滤波的信号YBF(k)的K个子频带,从而提供噪声降低的信号YNR(k)。降噪系统NRS和组合单元(‘X’)提供(单通道)后滤波器(PF,参见图5A中的虚线框)的功能。
图5B示意性地示出了根据本发明的助听器的第四实施例,其中降噪系统包括组合的波束形成器和降噪系统(后滤波器)。在该实施例中,降噪系统可实施为循环神经网络(RNN),如图2B、3B中所示,将传声器信号之一(在此为M1,例如助听器的BTE部分的前传声器)取为神经网络的输入。所得的增益G(k)应用于两个子频带信号IN1(k)和IN2(k)。因而,噪声降低的电输入信号在组合单元(‘+’)中被求和为波束形成信号。波束形成器-降噪单元(BF-NR)可包括固定或自适应的波束形成器以将信号YNR(k)提供为空间滤波的(和噪声降低的)信号。
如图5A和5B的实施例中所示,助听器HD还可包括音频处理器PRO,用于将另外的处理算法应用于正向(音频)通路的信号(例如YNR(k)),例如用于补偿用户的听力受损的压缩放大算法。类似地,用于处理反馈控制、话音接口等的算法可应用在音频处理器PRO中。处理器PRO提供所得的输出信号OUT(k),其被馈给合成滤波器组FB-S。合成滤波器组FB-S将子频带输出信号OUT(k)转换为时域信号OUT,其被馈给助听器的输出变换器(在此为扬声器)。在其它实施例中,其它输出变换器可能适合,例如骨导助听器的振动器或者耳蜗植入型助听器的电极阵列,或者耳机的无线发射器。在图5A、5B得到实施例表示耳机的传声器通路的情形下,波束形成器配置成根据传声器信号和固定和/或自适应更新的波束形成器权重拾取用户的话音。在该情形下,可另外提供用于呈现来自远处通信伙伴的声音的另一扬声器通路。这在图6中示出。
图6示出了根据本发明的助听器或耳机(HD)的实施例。图6示出了耳机或助听器的实施例,其包括自我话音估计及将自我话音估计量传给另一装置的选择,以及从另一装置接收声音以经扬声器呈现给用户,例如与来自用户环境的声音混合。图6示出了听力装置HD的实施例,例如助听器或耳机,其包括配置成提供表示佩戴听力装置的用户环境中的声音的电输入信号(IN1,IN2)的两个传声器(M1,M2)。听力装置还包括空间滤波器DIR和自我话音DIR,每一空间滤波器基于电输入信号提供空间滤波的信号(分别为ENV和OV)。空间滤波器DIR例如可实施针对相对于用户的声学远场中的目标信号的目标保留、噪声消除波束形成器。空间滤波器自我话音DIR实施指向用户嘴巴的自我话音波束形成器(其启动例如受控于自我话音存在控制信号和/或电话模式控制信号)。在助听器的电话运行模式(或耳机的正常运行模式)下,用户自我话音由传声器M1、M2拾取并由空间滤波器“自我话音DIR”的自我话音波束形成器进行空间滤波,从而提供信号OV,非必须地,其经自我话音处理器OVP馈给发射器Tx进行发射(通过到另一装置或系统如电话的线缆或无线链路,参见记为“传到电话机”的虚线箭头及电话机符号)。在助听器的电话运行模式(或耳机的正常运行模式)下,信号PHIN可通过(有线或无线)接收器Rx从另一装置或系统(如电话机,如电话机符号及记为“自电话机”的虚线箭头所示)接收。当远端讲话者活跃时,信号PHIN包含来自远端讲话者的语音,例如经电话线传输(例如完全或部分无线,但通常至少部分线缆传播)。“远端”电话信号PHIN可在组合单元(在此为选择器/混合器SEL-MIX)中进行选择或与来自空间滤波器DIR的环境信号ENV混合,所选或混合的信号PHENV被馈给输出变换器SPK(如扬声器或者骨导听力装置的振动器)以作为声音呈现给用户。非必须地,如图6中所示,所选或混合的信号PHENV可馈给处理器PRO,从而将一个或多个处理算法应用于所选或混合的信号PHENV而提供处理后的信号OUT,该信号被馈给输出变换器SPK。图6的实施例可表示耳机,在该情形下,所接收的信号PHIN可被选择以呈现给用户,而不与环境信号混合。图6的实施例可表示助听器,在该情形下,所接收的信号PHIN在呈现给用户之前可与环境信号混合(以使用户能保留周围环境的感觉,当然,同样可适合耳机应用,根据使用情形)。此外,在助听器中,处理器PRO可配置成补偿听力装置(助听器)的用户的听力受损。
根据本发明的降噪系统(例如图3A、3B中的NRS)可被包括在“自我话音通路”中和/或“扬声器通路”中。在自我话音通路中,降噪系统可实施在“自我话音DIR”模块中或者自我话音处理器OVP中。在扬声器通路中,降噪系统可实施在DIR模块中。
图7示出了谱图,其示出了信号怎样在不同频率随时间变化以及信号已被根据本发明的神经网络怎样衰减。更具体地,图7示出了语音信号的谱图以及应用于该信号的后滤波器增益(光越亮,衰减越少(语音);越黑衰减越多(噪声))。灰色标尺对应于按分贝计的从0dB(亮)到12dB(黑)的衰减值。该谱图示出了表示语音信号的从0到10kHz的频率范围的512个频道的量值与信号的1200个时间帧的时间的关系。如从图7可明显看出的,在谱图表示中“语音稀疏”,例如<20%的TF窗口包含目标语音。因此,这有助于目前的方案,其中没有变化的TF窗口在更新神经网络时可被忽略。对于视频图像同样如此。
训练
图8示意性地示出了根据本发明的SNR-增益估计器的神经网络的训练设置。该图及部分下面的描述取自EP3694229A1。
一般地,包括根据本发明的峰值GRU RNN算法的神经网络可用基线GRU RNN进行训练,从而提供经训练的网络的最佳权重(例如权重矩阵Wxr,Whr,Wxc,Whc,Wxu,Whu,参见图1A、1C)。峰值GRU约束条件可应用于经训练的网络。
神经网络可基于估计的信噪比作为从有噪声输入混合获得的输入及其对应的输出作为跨主要包含需要的信号的、噪声降低的输入信号的频率的向量的例子进行训练。神经网络可基于(数字化)电输入信号IN(k,t)的例子进行训练,例如直接来自分析滤波器组(例如参见图3A、3B中的FB-A),其相应的SNR和/或适当的增益已知(或者,如果SNR估计器形成神经网络的一部分,其适当的增益已知)。
神经网络(RNN)可基于估计的信噪比作为从有噪声输入混合获得的输入及其对应的输出作为降噪增益(衰减)的跨频率的向量的例子进行训练,当其应用于电输入信号(的数字表示)时,提供主要包含需要的(目标)信号的信号。峰值GRU RNN可使用常规GRU进行训练,即经训练的权重和偏差从GRU传给峰值GRU。
如EP3694229A1中所述,SNR到增益转换器(例如参见该图中的SNR2G)可包括神经网络,其中神经网络的权重已使用多个训练信号进行训练(例如参见图8)。向SNR到增益转换器SNR2G提供输入的SNR估计器SNR-EST可通过传统的方法实施,例如不使用人工神经网络或基于有监督或无监督的学习的其它算法进行实施。其也可使用神经网络实施。
图8示意性地示出了根据本发明的SNR-增益估计器(SNR2G)的神经网络的训练设置。图8示出了数据库DB-S-N,其包括纯净语音S的时间段的适当例子(指数q,q=1,…,Q),每一时间段例如大于1s,例如在1s到20s的范围中。数据库可包括按时频表示S(k,t)的每一时间段,其中k为频率指数和t为时间指数。数据库可包括对应的噪声N的例子(例如对于第p个语音段,不同类型的噪声和/或不同的噪声量(电平)),例如按时频表示N(k,t)。纯净语音S与噪声N的给定混合与(因此)已知的SNR以及预计已知的相应最佳增益G-OPT相关联。这些数据可被取为用于训练算法并提供神经网络的优化的权重的“标注(ground truth)”数据。纯净语音Sq(k,t)和噪声Nq(k,t)的不同的对应的时间段可分开地(并行)呈现给用于针对语音和噪声的给定组合Sq(k,t),Nq(k,t)提供最佳增益G-OPTq(k,t)的模块OPTG。类似地,纯净语音Sq(k,t)和噪声Nq(k,t)的不同的对应的时间段可混合,混合信号INq(k,t)可被呈现给用于针对语音和噪声的给定组合Sq(k,t),Nq(k,t)提供有噪声(混合)的输入信号INq(k,t)的估计的SNR(SNR-ESTq(k,t))的SNR估计器SNR-EST。估计的SNR(SNR-ESTq(k,t))被馈给实施为神经网络例如根据本发明的循环神经网络的SNR-增益估计器SNR2G,其提供对应的估计的增益G-ESTp(k,t)。相应的最佳的和估计的增益(G-OPTq(k,t),G-ESTq(k,t))被馈给价值函数模块LOSS,其提供当前“价值”(“误差估计量”)的度量。该“价值”或“误差估计量”迭代地反馈回给神经网络模块SNR2G以修改神经网络参数直到实现可接受的误差估计量为止。代替依赖于分开的SNR估计器(例如如图3A,4A,5A中所示),神经网络可配置成直接从有噪声输入信号IN(k,t)提供降噪增益G(k,t),例如参见图3B,4B,5B。在该情形下,图8的自适应训练程序应包括作为一个神经网络。
训练数据可逐时间帧地传给神经网络(SNR(k,t)之后为SNR(k,t+1),或者IN(k,t)之后为IN(k,t+1)),其中一时间步表示帧长度(例如Ns(如Ns=64)个样本/帧除以采样频率fs(如fs=20kHz),从而提供示例性的3.2ms的帧长度)或者其一部分(在相邻时间帧之间重叠的情形下)。类似地,神经网络的输出G(k,t)可逐时间帧地传送(G(k,t)之后为G(k,t+1))。
神经网络可随机地初始化,其后可迭代地更新。每一节点的优化的网络参数(例如权重和偏差值)可根据神经网络输出G-ESTp(k,t)和最佳增益G-OPTq(k,t)使用标准、迭代的随机梯度找到,例如陡降和陡升方法,例如使用使价值函数最小化的向后传播实施,例如均方误差,(参见信号ΔGq(k,t))。价值函数(如均方误差)跨输入信号的许多训练对(q=1,…,Q,其中Q可以≥10,如≥50,如≥100或者更大)进行计算。
优化的神经网络参数可存储在实施在听力装置中的SNR-增益估计器SNR2G中并用于从随频率而变的输入SNR值例如从“后验SNR”(简单的SNR,例如(S+N)/<N>)或者从“先验SNR”(改善的SNR,例如<S>/<N>)或者从二者确定随频率而变的增益(其中<●>指估计量)。
用于选择将进行处理的神经元的阈值跨(给定层内的)神经元不同可能有利。针对给定神经元的阈值可能在训练期间调整。
如果存在一个以上RNN层,在层之间,阈值也可不同。
可使用其它训练方法,例如参见[Sun et al.;2017]。也参见下面的“统计RNN(StatsRNN)”部分。
神经网络优选具有K维的输入向量和输出向量(与输入信号IN(k,t)(或SNR(k,t))的时间帧以及对应的(估计的)降噪增益G(k,t)一样),其中K为其中实施神经网络的听力装置的分析通路的频带数量(例如参见图4A,4B,5A,5B)。K可等于或不同于听力装置的正向(音频)通路的频带数量。
图9示意性地示出了配置成一次作用于一组值(向量)的硬件模块,在此例示为多组四个元素。在硬件中,计算通常按组(向量)进行,在峰值GRU RNN和德尔塔GRU RNN的情形下,要不不进行任何处理,要不处理整个向量。因此,适应峰值GRU RNN算法的硬件模块例如可适于计算每组的平均值,并基于这样的平均值选择最大的向量组。
此外,元素可进行重新组织使得相邻的频带跨不同的组展开(为了在整个向量组被丢弃时不丢失来自较低频带的基本信息)。存储器(图9)中的4个纵向矩形用于图示整个向量/矩形(例如权重矩阵的列)对应于Δx/Δh向量(图9中记为Δx/Δh)中的输入。因此,如果Δx向量或Δh向量中的4个元素将被跳过(它们为0),那4个权重列也将被跳过。即整个权重列均被跳过,不仅仅是图9的存储器的水平矩形中的单一元素。
在硬件中处理元素时,几种方法均可能。我们可以一个一个地依次处理元素,或者我们可以例如按四个元素一组地进行向量化运算(一次对一组值(向量)进行运算,提供加速)。在该情形下,我们将需要决定我们是想要处理还是舍弃所有四个元素,因为它们将按向量进行接收和输出。这可基于确定这些值的大多数/部分是否高于阈值/在向量中的前Np个值之中。如果是,整个向量将被处理。如果否,所有值将被舍弃。考虑各个频带怎样分组为向量则很重要。按原始顺序(频带1,2,3,4等)对频带分组可能导致丢失例如较低频率的信息,如果向量内的大多数值太小。因此,可考虑重新分组(例如基于试验)。
峰值GRU与德尔塔GRU的组合
此外,峰值GRU RNN和德尔塔GRU RNN方法可进行组合,即我们可首先确定相应的值是否高于特定德尔塔阈值,然后可应用基于峰值GRU RNN的另外的滤波(反之亦然)。这结合了两种方法的优点,即仅在超出阈值时更新但不更新多于Np个神经元。
峰值GRU RNN和德尔塔GRU RNN的组合可包括下面的选择:如果(基于德尔塔GRU阈值)在一层中未达到Np,“节省下来的”计算可移到其中已超过Np的另一层(或时间步)(假定神经网络具有一个以上峰值GRU层)。
统计RNN(StatsRNN)(峰值和/或阈值Np,Θ的训练和设置)
获得/逼近与峰值GRU RNN类似的前几个元素的另一种方法是从统计角度查看数据以调查确定元素是否应被设置为0的
Figure BDA0003480784760000491
Figure BDA0003480784760000492
Figure BDA0003480784760000493
计算是否具有可利用的统计特性。我们可基于训练数据集分开地对上面的(相减的绝对值的)x和h计算(跨所有声环境或每一环境个别地)创建直方图并开发数据是否具有随机行为(这用图10的例子图示,其示出了来自用于包括StatsRNN(StatsGRU层)的神经网络的训练数据集的
Figure BDA0003480784760000494
数据的对数直方图的一部分的放大图)。在该例子中,非常左边的细黑竖线对应于包含~31%的零的第一窗口。X(水平)和y(纵)轴分别对应于阈值(直方图柱边界)和百分比,即整个训练数据集有多少元素在每一柱内。如果数据不是随机数据,如图10的例子中那样,阈值则可针对x和h分开地统计确定(使用直方图窗口),对应于应进行处理的前n个元素的百分比。这种方法保留峰值GRU RNN的想法并对给定数据集提供有价值的洞察。StatsRNN对x和h个别地分析地定义起始阈值。这是非常重要的考虑,因为,如[Neilet al.;2018]中所表明的,向量具有不同的稀疏性,它们的个别处理可能贡献于另外的改进。因此,利用关于数据的先验知识将导致具有一致的性能的更好和更确定性的算法,以及更好地确定硬件执行必要的数据字长度。
此外,我们可应用自适应设置阈值,即x和h的阈值并非静态值,而是例如可从一时间步到另一时间步(或跨所有环境或每一环境个别地)进行调节。如果使用当前阈值,在当前时间步t太多元素要进行处理(向量的太多元素高于阈值,例如100中的80个而不是50个),在下一时间步可增大阈值。新的阈值可再次基于直方图确定,即我们可取当前边界右边(更大值)的相邻直方图柱的边界或者直方图的大于当前边界的任何其它边界。关于元素自身,我们可用所有元素继续进行进一步的计算或者执行另外的过滤以获得(或接近)需要数量的元素(100中的50个,从初始的80个下降30个元素)。这种过滤可基于归类和选择最大值、选择高于阈值的前/最后n个元素、选择高于阈值的随机元素等进行。作为备选,高于阈值但未被选择的元素在下一时间步中可优先。
类似地,如果在当前时间步t太少元素要进行处理(例如100中的20个而不是50个),阈值可在下一时间步可降低并可基于直方图确定。我们可取当前边界左边(更小值)的相邻直方图柱的边界或者直方图的小于当前边界的任何其它边界。关于元素自身,我们可用几个获得的元素继续进行进一步的计算或者执行另外的元素选择以获得(或接近)需要数量的元素(在该例子中,另外的30个元素,从而获得100中的50个)。这种选择可基于归类和选择最大值、设置在当前时间步已经较高的阈值、及从初始使用初始阈值舍弃的元素集选择例如高于阈值的前/最后/随机的n个元素等进行。
起始阈值本身可(理想地)基于直方图(也可随机),其将提供最好的起始点及更可预测的轻触阈值的方式。同样的x和h阈值可用于所有声环境,或者不同的x和h阈值可个别地应用于每一环境。这种方法可按软件和硬件实施主要用于StatsRNN,而且也可用于DeltaRNN(及其改良版)。
图11A和11B示出了听力装置如助听器的不同的示例性实施例,其中增益估计器(TE-NE2Gain)由神经网络NN例如循环或卷积神经网络如深度神经网络实施,优选包括根据本发明的改良门控循环单元。
图11A示出了根据本发明的听力装置的实施例,其中实施降噪增益估计器(TE-NE2Gain)的神经网络NN的输入,不是SNR(例如如图2A,3A,4A中那样)或者不是来自输入变换器的电输入信号(如图2B,3B,4B中那样),包括分开的目标估计量(TE)和噪声估计量(NE),或者目标和噪声估计量的对应的量值响应,或者至少噪声估计量,或者噪声估计量和有噪声输入混合。在图11A的实施例中,目标估计量(TE)和噪声估计量(NE)基于来自单一输入传声器(M)的信号(IN(t))进行估计。传声器(M)提供时域的电输入信号(IN(t),t表示时间)(例如,只要适当,通过模数转换器数字化)。听力装置包括使听力装置中的处理能在时频域(k,m)进行的滤波器组(包括分析滤波器组(FB-A)和合成滤波器组(FB-S)),其中k和m分别为频率指数和时间指数。分析滤波器组(FB-A)连接到传声器(M)并按时频表示IN(k,m)提供电输入信号IN(t)。听力装置包括输出变换器,在此为扬声器(SPK),用于将时域的输出信号(OUT(t))转换为可由用户感知为声音的刺激。合成滤波器组(FB-S)将时频域的处理后的信号(OUT(k,m))转换为时域的输出信号(OUT(t))。听力装置包括目标和噪声估计器(TE-NE),用于提供电输入信号(IN(k,m))的目标分量的估计量(TE(k,m))和噪声分量的估计量(NE(k,m))。目标估计量(TE(k,m))和噪声估计量(NE(k,m))被输入到增益估计器(TE-NE2Gain),其通过神经网络(NN)例如循环或卷积神经网络如深度神经网络实施,优选包括根据本发明的改良门控循环单元。神经网络(NN)的输出为表示在应用于正向通路的信号在此为电输入信号(IN(k,m))时用于实施降噪的衰减的增益值(G(k,m))。增益(G(k,m))在组合单元(在此为相乘单元(X))中应用于电输入信号(IN(k,m))。组合单元(X)的输出为处理后的输出信号(OUT(k,m)),其被馈给合成滤波器组(FB-S)以转换到时域并呈现给用户(和/或传给另一装置或系统,例如进行进一步处理)。
估计的增益可应用于目标估计量(TE(k,m))而不是分析滤波器组的输出(电输入信号IN(k,m))。在目标估计量为波束形成信号的情形下,这尤其合适。代替将来自神经网络(NN)的降噪增益(G(k,m))应用于电输入信号(IN(k,m)),其可应用于电输入信号的进一步处理后的版本,例如如下面所述(参见图11B)。
在多个传声器的情形下(例如参见图11B中的M1,M2),目标估计量(TE)和噪声估计量(NE)可从提供传声器信号(IN1,IN2)的线性组合的波束形成器滤波器(BFa)获得,例如目标增强波束形成器和目标消除波束形成器(后者具有大约指向目标的零向)。图11B示出了根据本发明的听力装置的实施例,其中神经网络(NN)的输入为目标保留波束形成器的输出(表示目标估计量,TE(k,m))和目标消除波束形成器的输出(表示噪声估计量,NE(k,m))。
图11B的听力装置包括两个传声器(M1,M2),每一传声器提供时域的电输入信号(IN1(t),IN2(t))。听力装置包括连接到相应传声器的两个分析滤波器组(FB-A),用于按时频表示(IN1(k,m),IN2(k,m))提供电输入信号(IN1(t),IN2(t))。电输入信号(IN1(k,m),IN2(k,m))被馈给包括目标保留波束形成器和目标消除波束形成器的波束形成器滤波器(BFa)。目标保留波束形成器和目标消除波束形成器分别提供目标估计量(TE)和噪声估计量(NE)。图11A实施例中的s、目标估计量(TE)和噪声估计量(NE)用作实施降噪增益估计器(TE-NE2Gain)的神经网络(NN)的输入。降噪增益估计器(TE-NE2Gain)提供表示在应用于正向通路的信号在此为波束形成信号(YBF(k,m))时实施降噪的衰减的增益值(G(k,m))。波束形成信号(YBF(k,m))由波束形成器滤波器(BFb)提供,例如作为TE-βNE,其中β为自适应确定的参数(在模块BFb中确定),例如参见US2017347206A1。波束形成信号根据目标保留波束形成器和目标消除波束形成器以及当前的电输入信号(IN1(k,m),IN2(k,m))(可能及用于区分语音和噪声的话音活动检测器)进行确定。
波束形成器可以固定或自适应。多个目标消除波束形成器可同时用作神经网络(NN)的输入特征,例如,两个目标消除波束形成器,每一目标消除波束形成器具有单一零向,但具有指向不同的可能目标的多个零。
目标和噪声估计量的量值、或量值的平方、或量值的对数可用作神经网络(NN)的输入。神经网络(NN)的输出可包括实值或复值增益,或者分开的实值增益和实值相位。
通过神经网络提供的最大降噪量可通过神经网络的输入的电平、或调制(如SNR)或稀疏度进行控制。稀疏度例如可通过背景噪声与(目标)语音的时间和/或频率重叠程度表示。
在图11B的实施例中,示出了基于单一目标消除波束形成器的噪声估计量。然而,几个噪声估计量可被提供为神经网络的输入特征。不同的噪声估计量可由不同的目标消除波束形成器组成或提供,每一目标消除波束形成器具有指向特定方向的零。但噪声估计量(用作神经网络的输入)也可基于不同于空间特性的其它特性,例如噪底估计器,例如基于输入信号的调制。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
峰值GRU RNN算法在音频处理领域进行例示,尤其在助听器或耳机的降噪系统框架下。然而,该算法可应用于助听器或耳机中或者其它音频处理装置中的其它任务,例如用于到达方向估计、反馈通路估计、(自我)话音活动检测、关键词检测、或其它(例如声学)场景分类。而且该算法也可应用于不同于音频处理的其它领域,例如图像或者包括一定量的冗余(例如随时间相当慢的变化,例如相对于采样时间(ts=1/fs,其中fs为该数据的采样频率))的其它数据的处理,例如财务数据、气候数据等的处理。
参考文献
·[Neil et al.;2018]Daniel Neil,Jun Haeng Lee,Tobi Delbruck,Shih-ChiiLiu,DeltaRNN:A Power-efficient Recurrent Neural Network Accelerator,publishedin FPGA'18:Proceedings of the 2018ACM/SIGDA International Symposium on Field-Programmable Gate Arrays,February 2018,Pages 21–30,https://doi.org/10.1145/3174243.3174261;
·EP3694229A1(Oticon)12.08.2020;
·[Kostadinov;2018];
·https://towardsdatascience.com/understanding-gru-networks-2ef37df6c9be.

Claims (15)

1.一种听力装置,配置成由用户佩戴在耳朵处或耳朵中或者完全或部分植入在用户耳朵处的头部中,所述听力装置包括:
-用于按时频表示k,t提供至少一电输入信号的输入单元,其中k和t分别为频率指数和时间指数,及k表示子频带信号,k=1,…,K,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
-信号处理器,包括
--SNR估计器,用于提供所述时频表示中所述至少一电输入信号或源自其的信号的目标信噪比(SNR)估计量SNR(k,t);
--SNR-增益转换器,用于将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t);
其中所述信号处理器包括包含至少一定义为门控循环单元的层的神经网络,门控循环单元包括隐藏状态向量h形式的记忆,其中输出向量o(t)由所述门控循环单元根据输入向量x(t)和隐藏状态向量h(t-1)提供,其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1);
其中至少所述SNR-增益转换器通过所述神经网络实施,及其中至少一定义为门控循环单元的层实施为改良门控循环单元,其中信号处理器配置成在给定时刻t分别计算输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure FDA0003480784750000011
Figure FDA0003480784750000012
其中
Figure FDA0003480784750000013
Figure FDA0003480784750000014
Figure FDA0003480784750000015
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量,及其中信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
2.根据权利要求1所述的听力装置,其中,信号处理器配置成将输入向量和隐藏状态向量的估计值确定为:
Figure FDA0003480784750000021
Figure FDA0003480784750000022
其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch和1≤j≤Nch
3.根据权利要求2所述的听力装置,其中,信号处理器配置成将输入向量和隐藏状态向量的值的变化确定为:
Figure FDA0003480784750000028
Figure FDA0003480784750000029
4.根据权利要求1所述的听力装置,其中,输入单元包括多个输入变换器和波束形成器滤波器,其中波束形成器滤波器配置成基于来自多个输入变换器的信号提供至少一电输入信号。
5.根据权利要求1所述的听力装置,包括话音活动检测器,配置成估计输入信号在给定时间点是否或者以何种概率包括话音信号并提供指明结果的话音活动控制信号。
6.根据权利要求1所述的听力装置,包括输出单元,配置成根据至少一电输入信号向用户提供输出刺激。
7.根据权利要求1所述的听力装置,其中,信号处理器配置成将SNR-增益转换器提供的增益值G(k,t)应用于至少一电输入信号或源自其的信号。
8.根据权利要求1所述的听力装置,其中,信号处理器配置成舍弃在给定时刻t的Np个通道之中的、其绝对值
Figure FDA0003480784750000026
Figure FDA0003480784750000027
小于阈值Θp的通道的处理。
9.根据权利要求1所述的听力装置,其中,峰值数量Np,x和Np,oh根据至少一电输入信号自适应确定。
10.根据权利要求1所述的听力装置,其中,神经网络的参数已用多个训练信号进行训练。
11.根据权利要求1所述的听力装置,由空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。
12.根据权利要求1所述的听力装置,由耳机构成或包括耳机。
13.根据权利要求1所述的听力装置,包括特别适于按向量化运算处理门控循环单元的元素的硬件模块。
14.听力装置的运行方法,所述方法包括:
-按时频表示k,t提供至少一电输入信号,其中k和t分别为频率指数和时间指数,及k表示频道,k=1,…,K,至少一电输入信号表示声音并包括目标信号分量和噪声分量;及
-提供所述时频表示中所述至少一电输入信号或源自其的信号的目标信噪比(SNR)估计量SNR(k,t);
-将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t);
-提供包括包含至少一定义为门控循环单元的层的神经网络,门控循环单元包括隐藏状态向量h形式的记忆,其中输出向量o(t)由所述门控循环单元根据输入向量x(t)和隐藏状态向量h(t-1)提供,其中在给定时间步t的输出o(t)存储为隐藏状态h(t)并用于计算下一时间步t+1的输出向量o(t+1);
其中将目标信噪比估计量SNR(k,t)转换为所述时频表示中的相应增益值G(k,t)通过所述神经网络实施,其中至少一定义为门控循环单元的层实施为改良门控循环单元,及其中所述方法还包括:
-在给定时刻t分别确定输入向量x(t)和隐藏状态向量h(t-1)从一时刻t-1到下一时刻t的变化
Figure FDA0003480784750000031
Figure FDA0003480784750000032
Figure FDA0003480784750000033
其中
Figure FDA0003480784750000034
Figure FDA0003480784750000035
分别为x(i,t-1)和h(j,t-2)的估计值,其中i,j分别指隐藏状态的第i个输入神经元和第j个神经元,其中1≤i≤Nch,x和1≤j≤Nch,oh,其中Nch,x和Nch,oh分别为输入向量x和隐藏状态向量h的处理通道的数量,及其中信号处理器还配置成使得分别对于给定时刻t的输入向量x(t)和隐藏状态向量h(t-1),改良门控循环单元的Nch,x和Nch,oh个处理通道之中的更新通道的数量分别限于峰值数量Np,x和Np,oh,其中Np.x小于Nch,x,及Np,oh小于Nch,oh
15.根据权利要求14所述的方法,包括用多个训练信号训练神经网络的参数。
CN202210067599.5A 2021-01-20 2022-01-20 包括循环神经网络的听力装置及音频信号的处理方法 Pending CN114827859A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/153,168 2021-01-20
US17/153,168 US11330378B1 (en) 2021-01-20 2021-01-20 Hearing device comprising a recurrent neural network and a method of processing an audio signal

Publications (1)

Publication Number Publication Date
CN114827859A true CN114827859A (zh) 2022-07-29

Family

ID=79602246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210067599.5A Pending CN114827859A (zh) 2021-01-20 2022-01-20 包括循环神经网络的听力装置及音频信号的处理方法

Country Status (3)

Country Link
US (1) US11330378B1 (zh)
EP (1) EP4033784A1 (zh)
CN (1) CN114827859A (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220300789A1 (en) * 2021-03-19 2022-09-22 Micron Technology, Inc. Building units for machine learning models for denoising images and systems and methods for using same
US11868812B2 (en) * 2021-08-12 2024-01-09 International Business Machines Corporation Predictive scaling of container orchestration platforms
US11849286B1 (en) 2021-10-25 2023-12-19 Chromatic Inc. Ear-worn device configured for over-the-counter and prescription use
EP4210348A1 (en) 2022-01-06 2023-07-12 Oticon A/s A method for monitoring and detecting if hearing instruments are correctly mounted
US11818547B2 (en) 2022-01-14 2023-11-14 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11832061B2 (en) 2022-01-14 2023-11-28 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US20230306982A1 (en) 2022-01-14 2023-09-28 Chromatic Inc. System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
US11950056B2 (en) 2022-01-14 2024-04-02 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11984110B2 (en) * 2022-03-07 2024-05-14 Mediatek Singapore Pte. Ltd. Heterogeneous computing for hybrid acoustic echo cancellation
CN114664322B (zh) * 2022-05-23 2022-08-12 深圳市听多多科技有限公司 基于蓝牙耳机芯片的单麦克风助听降噪方法及蓝牙耳机
EP4333464A1 (en) 2022-08-09 2024-03-06 Chromatic Inc. Hearing loss amplification that amplifies speech and noise subsignals differently
WO2024097568A1 (en) * 2022-10-31 2024-05-10 Qualcomm Incorporated Multi-stream processing of single-stream data
US11886974B1 (en) * 2023-07-20 2024-01-30 Chromatic Inc. Neural network chip for ear-worn device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3509325T3 (da) 2016-05-30 2021-03-22 Oticon As Høreapparat, der omfatter en stråleformerfiltreringsenhed, der omfatter en udglatningsenhed
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
US10805740B1 (en) * 2017-12-01 2020-10-13 Ross Snyder Hearing enhancement system and method
EP3694229A1 (en) 2019-02-08 2020-08-12 Oticon A/s A hearing device comprising a noise reduction system
CN110473567B (zh) * 2019-09-06 2021-09-14 上海又为智能科技有限公司 基于深度神经网络的音频处理方法、装置及存储介质

Also Published As

Publication number Publication date
EP4033784A1 (en) 2022-07-27
US11330378B1 (en) 2022-05-10

Similar Documents

Publication Publication Date Title
CN114827859A (zh) 包括循环神经网络的听力装置及音频信号的处理方法
JP7250418B2 (ja) 音響信号の信号対ノイズ比を推定するオーディオ処理装置及び方法
US11696079B2 (en) Hearing device comprising a recurrent neural network and a method of processing an audio signal
US10966034B2 (en) Method of operating a hearing device and a hearing device providing speech enhancement based on an algorithm optimized with a speech intelligibility prediction algorithm
CN107454538B (zh) 包括含有平滑单元的波束形成器滤波单元的助听器
CN111836178A (zh) 包括关键词检测器及自我话音检测器和/或发射器的听力装置
CN111556420A (zh) 包括降噪系统的听力装置
CN110740412B (zh) 包括语音存在概率估计器的听力装置
CN112637749A (zh) 包括检测器和经训练的神经网络的听力装置
US9078057B2 (en) Adaptive microphone beamforming
CN112995876A (zh) 听力装置中的信号处理
CN112492434A (zh) 包括降噪系统的听力装置
US20220264231A1 (en) Hearing aid comprising a feedback control system
US20220295191A1 (en) Hearing aid determining talkers of interest
US20240007802A1 (en) Hearing aid comprising a combined feedback and active noise cancellation system
CN112911477A (zh) 包括个人化波束形成器的听力系统
CN116806005A (zh) 包括助听器和外部处理装置的听力系统
CN115706909A (zh) 包括反馈控制系统的听力装置
CN115442726A (zh) 低延时助听器
US20230186934A1 (en) Hearing device comprising a low complexity beamformer
US11950057B2 (en) Hearing device comprising a speech intelligibility estimator
CN115209331A (zh) 包括降噪系统的听力装置
Mittal et al. Frame-by-frame mixture of beamformers for source separation
CN117615290A (zh) 听力装置的风噪降噪方法
Borisagar Design analysis and implementation of quality Improvement algorithm using wavelet for digital hearing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination