CN109040932B - 传声器系统及包括传声器系统的听力装置 - Google Patents
传声器系统及包括传声器系统的听力装置 Download PDFInfo
- Publication number
- CN109040932B CN109040932B CN201810595855.1A CN201810595855A CN109040932B CN 109040932 B CN109040932 B CN 109040932B CN 201810595855 A CN201810595855 A CN 201810595855A CN 109040932 B CN109040932 B CN 109040932B
- Authority
- CN
- China
- Prior art keywords
- signal
- microphone
- covariance matrix
- hearing
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/407—Circuits for combining signals of a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/40—Arrangements for obtaining a desired directivity characteristic
- H04R25/405—Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/45—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback
- H04R25/453—Prevention of acoustic reaction, i.e. acoustic oscillatory feedback electronically
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/552—Binaural
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/55—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
- H04R25/554—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/01—Input selection or mixing for amplifiers or loudspeakers
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Neurosurgery (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了传声器系统及包括传声器系统的听力装置,其中所述传声器系统,包括:M个传声器;信号处理器,配置成在下述基础上估计目标声音信号相对于传声器系统的方向和/或位置:最大似然方法学;包括向量dθ的字典的数据库Θ,其元素为相对传递函数dm(k);其中RTF向量dθ的所述数据库Θ的各个字典元素包括多个不同方向(θ)和/或位置相对于传声器系统的相对传递函数;及所述信号处理器配置成确定各个字典元素中的部分或者全部的后验概率或者log(后验)概率;通过确定所确定的后验概率或者log(后验)概率之中分别具有最大后验概率或者log(后验)概率的一个或多个值而确定到目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
Description
技术领域
本申请涉及听力装置如助听器领域。本申请尤其涉及用于自适应估计目标声音的位置或者到目标声音的方向的传声器系统(例如包括传声器阵列)。
发明内容
本发明涉及传声器系统(例如包括传声器阵列),其例如形成听力装置如助听器或者听力系统如双耳助听器系统的一部分,配置成使用基于最大似然(ML)的方法估计来自有噪声背景中的目标声源的目标信号的到达方向(DOA)。该方法基于下述假设:从目标信号源到助听器系统中相对于参考传声器的任何传声器的相对传递函数(RTF)即声学传递函数的字典可用。基本上,所提出的方案目标在于在前述字典中找到在产生所观察的(有噪声)目标信号时所“使用”的RTF(具有最高似然(可能性)(在字典条目之中))。
该字典元素随后可用于波束形成目的(相对传递函数是大多数波束形成器如MVDR波束形成器的元素)。另外,由于每一RTF字典元素具有与其相关的对应的DOA,从而提供DOA的估计量。最后,使用似然计算的部分,估计假设的目标信号的信噪比(SNR)是简单的事情。该SNR例如可用于话音活动检测。
对于传声器系统的各个传声器,字典Θ则可包括声源位置或者到声源的方向的对应的值(例如通过水平角θ指明),及从该位置的声源到所涉及传声器的、不同频率下的相对传递函数RTF(RTF(k,θ),k表示频率)。所提出的方案针对相对传递函数(因而及位置/方向)的子集或者全部计算似然及到具有最大似然的位置/方向的传声器和点。
传声器系统例如可构成或形成听力装置如助听器的一部分,其适于位于用户耳朵中和/或耳朵处。一方面,提供包括左和右听力装置的听力系统,每一听力装置包括根据本发明的传声器系统。在实施例中,左和右听力装置(如助听器)配置成分别位于用户的左和右耳中和/或左和右耳处。
传声器系统
在本申请的一方面,提供一种传声器系统。该传声器系统包括M个传声器,其中M等于或大于2,其适于从环境拾取声音及提供M个对应的电输入信号xm(n),m=1,…,M,n表示时间,给定传声器处的环境声音包括从目标声源的位置经声学传播通道传播的目标声音信号sm(n)与所涉及传声器的位置处可能存在的附加噪声信号vm(n)的混合;
-连接到所述M个传声器的信号处理器,所述信号处理器配置成在下述基础上估计目标声音信号相对于传声器系统的方向和/或位置:
--最大似然方法学;
--包括相对传递函数dm(k)的字典的数据库Θ,所述相对传递函数表示从所述M个传声器中的每一个(m=1,…,M)到所述M个传声器之中的参考传声器(m=i)的随方向而变的声学传递函数,k为频率指数。
-确定所述各个字典元素中的部分或者全部的后验概率或者log(后验)概率;
-通过确定所确定的后验概率或者log(后验)概率之中分别具有最大后验概率或者log(后验)概率的一个或多个值而确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
从而可提供一种改进的传声器系统。
在实施例中,各个字典元素基于校准程序例如基于模型进行选择或计算。
传声器系统的实施例可具有一个或多个下述优点:
-仅物理上似真的RTF可被估计(字典用作可能的RTF结果的先验知识)。
-使用所提出的ML方法,强加约束条件是简单的事情,例如跨频率的所有RTF均应“指向”同一物理对向,例如它们均应对应于同一DOA。类似地,将不同位置(例如耳朵)处估计的RTF限制到同一方向中的“点”很容易(且计算上简单)。
-自我话音:如果用于体戴式传声器阵列中的波束形成,由于传声器系统可配置成使得对应于嘴巴位置的RTF不形成字典的一部分,预期自我话音问题将较少。作为备选,如果RTF字典被扩展具有对应于嘴巴位置的RTF,这可用于自我话音检测。
术语“后验概率”在本说明书中意为条件概率,例如给定某一证据X(例如给定时刻l的给定某一输入信号X(l)),到达方向θ的概率。该条件(或后验)概率通常写为p(θ│X)。术语“先验概率分布”,有时记为“先验”,在本说明书中指在观察到的数据被考虑之前一参数(如到达方向)的分布的先验知识或者预期。
在实施例中,n表示时间帧指数。
信号处理器可配置成根据有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv(两个协方差矩阵)确定字典Θ中的部分或所有元素的似然函数或者对数似然函数。在实施例中,有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv基于话音活动估计量和/或SNR估计量进行估计和更新,例如在逐帧的基础上。有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv可由平滑后的估计量表示。有噪声目标信号协方差矩阵和/或噪声协方差矩阵的平滑后的估计量和/或可通过自适应协方差平滑确定。自适应协方差平滑包括分别确定所述有噪声协方差矩阵和/或所述噪声协方差矩阵的估计量和/或的归一化快速和可变的协方差度量和分别应用快速平滑因子和可变平滑因子其中当快速估计器的归一化协方差度量与可变估计器的归一化协方差度量偏差常数值∈以上时,所述可变平滑因子被设定为快速否则被设定为慢速(α0),即
在实施例中,传声器系统适于便携,例如可穿戴。
在实施例中,传声器系统适于佩戴在用户耳朵处,及其中所述数据库Θ的所述相对传递函数dm(k)表示用户的头部和躯干的随方向而变的滤波效应,其为从所述目标信号源到所述M个传声器中的每一个(m=1,…,M)相对于所述M个传声器之中的参考传声器(m=i)的随方向而变的声学传递函数的形式。
在实施例中,信号处理器另外配置成基于针对通过从目标声源到第m个传声器的声学传播通道在传声器m(m=1,…,M)处接收的声音信号xm的信号模型而估计到目标声音信号的方向(相对于传声器系统)和/或目标声音信号相对于传声器系统的位置。在实施例中,信号模型假定入射在第m个传声器上的目标信号sm(n)被附加噪声vm(n)污染,使得有噪声的观察结果xm(n)由下式给出:
xm(n)=sm(n)+vm(n);m=1,…,M
其中xm(n),sm(n)和vm(n)分别指有噪声目标信号、纯净目标信号和噪声信号,M>1为可用传声器的数量,及n为离散时间指数。为了数学方便,假定观察结果为零均值高斯随机处理的实现,及噪声处理为独立于目标处理的统计。
在实施例中,传声器的数量M等于2,及其中信号处理器配置成根据下面的表达式针对至少一子频带k计算所述相对传递函数dm(k)的数据库Θ的各个字典元素的至少部分的对数似然:
其中l为时间帧指数,wθ表示可能换算的MVDR波束形成器权重,和分别为所述有噪声协方差矩阵和所述噪声协方差矩阵的平滑后的估计量,bθ表示阻塞矩阵的波束形成器权重,及l0指上一帧,其中已被更新。从而DOA可被高效率地估计。
在实施例中,传声器系统包括话音活动检测器,配置成估计电输入信号在给定时间点是否或者以何种概率包括话音元素。在实施例中,话音活动检测器配置成在多个子频带起作用并估计所述多个子频带的每一子频带中的电输入信号在给定时间点是否或者以何种概率包括话音元素。在实施例中,传声器系统如信号处理器配置成根据电输入信号中存在或者不存在语音的分类在分开的时间帧中计算或者更新传声器间协方差矩阵CX和CV。
在实施例中,话音活动检测器配置成根据输入信号的目标信号-噪声比提供其在多个类中的分类,其中目标信号表示话音,及其中类的数量为3个以上并包括高SNR、中等SNR和低SNR类。应当理解,电输入信号在给定时间点t1,t2和t3分别被分类为高SNR、中等SNR和低SNR的信噪比(SNR(t))有关联,使得SNR(t1)>SNR(t2)>SNR(t3)。在实施例中,信号处理器配置成根据所述分类在分开的时间帧中计算或者更新传声器间协方差矩阵CX和CV。在实施例中,信号处理器配置成仅在话音活动检测器将当前的电输入信号分类为高SNR时针对给定帧计算或更新传声器间协方差矩阵CX。在实施例中,信号处理器配置成仅在话音活动检测器将当前的电输入信号分类为低SNR时计算或更新传声器间协方差矩阵CV。
在实施例中,字典大小(或者先验概率)按输入声音电平或SNR的函数变化,例如因为字典元素被限制以针对一些值的输入声音电平或SNR覆盖某些角度θ。在实施例中,在高声音电平/低SNR时,仅在听者前面的字典元素被包括在计算中。在实施例中,在低输入电平/高SNR时,朝向所有方向的字典元素均被包括在计算中。
在实施例中,字典元素可基于校准信号例如来自正面的校准信号(或自我话音)进行选择或计算。自我话音可用于校准,因为自我话音总是相对于听力仪器来自同一位置。
在实施例中,字典元素(相对传递函数和/或所选的位置)针对特定用户进行个别化,例如在使用传声器系统之前例如在验配期间进行测量。
在实施例中,DOA估计仅基于有限的频率带宽,例如基于频带的子集,例如其中预期存在语音的频带。
在实施例中,信号处理器配置成在每一频带k中独立地估计包括相对传递函数dθ,m(k),m=1,…,M的所述数据库Θ的各个字典元素dθ的后验概率或者log(后验)概率。换言之,包括相对传递函数dθ,m(k)的各个字典元素dθ在每一频带中被独立地估计,导致不同频率下可能不同的估计的DOA。
在实施例中,信号处理器配置成跨部分或所有频带k中联合地估计包括相对传递函数dθ,m(k),m=1,…,M的所述数据库Θ的各个字典元素dθ的后验概率或者log(后验)概率。在本说明书中,术语“联合地估计”或者“联合最佳”用于强调包括相对传递函数dθ,m(k)的各个字典元素dθ在同一最大似然估计过程中跨部分或者所有频带k进行估计。换言之,在实施例中,各个字典元素dθ的ML估计量通过针对每一频带选择(同样的)第θ*个RTF向量而找到,其中
其中指在频带k中针对第θ个RTF向量dθ计算的对数似然。
在实施例中,信号处理器配置成利用另外的(不是源自所述电输入信号的)信息确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
在实施例中,另外的信息包括关于眼睛凝视的信息和/或关于头部位置和/或头部运动的信息。
在实施例中,另外的信息包括存储在传声器系统中的信息或者从另一装置如从传感器、传声器、移动电话和/或用户接口接收如无线接收的信息。
在实施例中,RTF向量dθ的数据库Θ包括自我话音视向量。从而DOA估计方案可用于自我话音检测。如果在给定时间点所述字典中最可能的视向量为对应于用户嘴巴位置的视向量,则其表示存在自我话音的标示。
听力装置如助听器
一方面,本申请还提供一种听力装置如助听器,适于佩戴在用户耳朵处或者耳朵中,或者适于完全或部分植入在用户耳朵处的头部中,其包括上面描述的、结合附图详细描述的及权利要求中限定的传声器系统。
在实施例中,听力装置包括波束形成器滤波单元,其在工作时连接到所述多个传声器中的至少部分并配置成接收所述电输入信号及配置成根据所述信号处理器估计的、到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置提供波束成形信号。在实施例中,听力装置包括(单通道)后滤波器,用于(除波束形成器滤波单元的空间滤波之外还)提供另外的降噪,前述另外的降噪例如取决于在时频单元标尺上的不同波束图的SNR的估计量,例如参见EP2701145A1。
在实施例中,信号处理器(例如波束形成器滤波单元)配置成基于波束形成器算法如基于GSC结构例如MVDR算法计算波束形成器滤波权重。在实施例中,信号处理器(例如波束形成器滤波单元)配置成针对通过信号处理器估计的到所述目标声源的多个(例如两个以上,例如三个)最可能的方向或者所述目标声源的多个最可能的位置计算多组波束形成器滤波权重(例如MVDR权重),并将波束图加在一起以提供合成波束形成器(其应用于电输入信号以提供波束成形信号)。
在实施例中,信号处理器配置成在到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置用于控制波束形成器滤波单元之前对其进行平滑。
在实施例中,信号处理器配置成就时间、频率和角向中的一个或多个执行所述平滑。在有噪声环境中,如果SNR低(例如为负),可假定用户将聚焦于(例如看向)目标声源,DOA的估计(在该情形下)可集中于有限的角度或者锥体(例如用户前面或者用户侧面或者用户后面),例如在跨越所涉及方向的+/-30°的角度空间中,例如用户前面。这样的聚焦选择可提前确定或者根据一个或多个传感器例如基于眼睛凝视或者运动传感器(IMU)等自适应确定。
在实施例中,听力装置包括反馈检测器,适于提供不同频带中反馈水平的估计量,其中所述信号处理器配置成根据所述反馈水平对频带的后验概率或者log(后验)概率进行加权。
在实施例中,听力装置包括助听器、耳麦、头戴式耳机、耳朵保护装置或其组合。
在实施例中,听力装置适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。在实施例中,听力装置包括用于增强输入信号并提供处理后的输出信号的信号处理器。
在实施例中,听力装置包括输出单元,用于基于处理后的电信号提供由用户感知为声学信号的刺激。在实施例中,输出单元包括耳蜗植入物的多个电极或者骨导听力装置的振动器。在实施例中,输出单元包括输出变换器。在实施例中,输出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施例中,输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。
在实施例中,听力装置包括用于提供表示声音的电输入信号的输入单元。在实施例中,输入单元包括用于将输入声音转换为电输入信号的输入变换器如传声器。在实施例中,输入单元包括用于接收包括声音的无线信号并提供表示该声音的电输入信号的无线接收器。
听力装置包括根据本发明的传声器系统,其适于对来自环境的声音进行空间滤波,从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。传声器系统适于自适应检测传声器信号的特定部分源自哪一方向。在听力装置中,传声器阵列波束形成器经常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到,例如参见[Brandstein&Ward;2001]及其中的参考文献。最小方差无失真响应(MVDR)波束形成器被广泛用在传声器阵列信号处理中。理想地,MVDR波束形成器保持来自目标方向(也称为视向)的信号不变,同时最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构为MVDR波束形成器的等同表示,但其相较初始形式的直接表示提供计算和计数优点。
在实施例中,听力装置包括用于从另一装置如从娱乐装置(例如电视机)、通信装置、无线传声器或另一听力装置接收直接电输入信号的天线和收发器电路(如无线接收器)。在实施例中,直接电输入信号表示或包括音频信号和/或控制信号和/或信息信号。在实施例中,听力装置包括用于对所接收的直接电输入进行解调的解调电路,以提供表示音频信号和/或控制信号的直接电输入信号,例如用于设置听力装置的运行参数(如音量)和/或处理参数。总的来说,听力装置的天线及收发器电路建立的无线链路可以是任何类型。在实施例中,无线链路在两个装置之间建立,例如在娱乐装置(如TV)与听力装置之间或者在两个听力装置之间,例如经第三、中间装置(如处理装置,例如遥控装置、智能电话等)。在实施例中,无线链路在功率约束条件下使用,例如由于听力装置是或者包括便携式(通常电池驱动的)装置。在实施例中,无线链路为基于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。在另一实施例中,无线链路基于远场电磁辐射。在实施例中,经无线链路的通信根据特定调制方案进行安排,例如模拟调制方案,如FM(调频)或AM(调幅)或PM(调相),或数字调制方案,如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅)等。
在实施例中,听力装置与另一装置之间的通信在基带(音频频率范围,例如在0和20kHz之间)中。优选地,听力装置和另一装置之间的通信基于高于100kHz的频率下的某类调制。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM=工业、科学和医学,这样的标准化范围例如由国际电信联盟ITU定义)。在实施例中,无线链路基于标准化或专用技术。在实施例中,无线链路基于蓝牙技术(如蓝牙低功率技术)。
在实施例中,听力装置为便携装置,如包括本机能源如电池例如可再充电电池的装置。
在实施例中,听力装置包括输入单元(如输入变换器,例如传声器或传声器系统和/或直接电输入(如无线接收器))与输出单元如输出变换器之间的正向或信号通路。在实施例中,信号处理器位于该正向通路中。在实施例中,信号处理器适于根据用户的特定需要提供随频率而变的增益。在实施例中,听力装置包括具有用于分析输入信号(如确定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例中,分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中,分析通路和/或信号通路的部分或所有信号处理在时域进行。
在实施例中,表示声信号的模拟电信号在模数(AD)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值,Nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用Nb比特量化(导致音频样本的2Nb个不同的可能的值)。数字样本x具有1/fs的时间长度,如50μs,对于fs=20kHz。在实施例中,多个音频样本按时间帧安排。在实施例中,一时间帧包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
在实施例中,听力装置包括模数(AD)转换器以按预定的采样速率如20kHz对(例如来自输入变换器如传声器的)模拟输入进行数字化。在实施例中,听力装置包括数模(DA)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
在实施例中,听力装置如传声器单元和/或收发器单元包括用于提供输入信号的时频表示的TF转换单元。在实施例中,时频表示包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。在实施例中,TF转换单元包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。在实施例中,TF转换单元包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元。在实施例中,听力装置考虑的、从最小频率fmin到最大频率fmax的频率范围包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,fs≥2fmax。在实施例中,听力装置的正向通路和/或分析通路的信号拆分为NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。在实施例中,助听器适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。对于DOA估计,我们可使DOA估计量基于小于呈现给听者的带宽的频率范围。
在实施例中,听力装置包括多个检测器,其配置成提供与听力装置的当前网络环境(如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
在实施例中,多个检测器中的一个或多个对全带信号起作用(时域)。在实施例中,多个检测器中的一个或多个对频带拆分的信号起作用((时-)频域),例如在有限数量的频带中。
在实施例中,多个检测器包括用于估计正向通路的信号的当前电平的电平检测器。在实施例中,预定判据包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。在实施例中,电平估计器对全带信号(时域)起作用。在实施例中,电平检测器对频带拆分信号((时-)频域)起作用。
在特定实施例中,听力装置包括话音检测器(VD),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。在实施例中,话音检测器单元适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或者主要)包括其它声源(如人工产生的噪声)的时间段分离。在实施例中,话音检测器适于将用户自己的话音也检测为“话音”。作为备选,话音检测器适于从“话音”的检测排除用户自己的话音。
在实施例中,听力装置包括自我话音检测器,用于估计特定输入声音(如话音,例如语音)是否(或者以何种概率)源自系统用户的话音。在实施例中,听力装置的传声器系统适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。
在实施例中,多个检测器包括运动检测器,例如加速度传感器。在实施例中,运动检测器配置成检测用户的面部肌肉和/或骨头的运动,例如由语音或者咀嚼引起的运动(例如颌部运动),并提供标示这样的运动的检测器信号。
在实施例中,听力装置包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”由下面的一个或多个定义:
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
b)当前声学情形(输入电平、反馈等);
c)用户的当前模式或状态(运动、温度、认知负荷等);
d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
在实施例中,听力装置还包括用于所涉及应用的其它适宜功能,如压缩、降噪、反馈检测和/或抵消等。
在实施例中,听力装置包括听音装置如助听器,如听力仪器例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置或其组合。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的传声器系统的应用。在实施例中,提供在听力装置如助听器中的应用。在实施例中,提供在包括一个或多个助听器(如听力仪器)的听力系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用。在实施例中,提供在双耳听力系统如双耳助听器系统中的应用。
方法
一方面,提供传声器系统的运行方法,所述传声器系统包括适于从环境拾取声音的M个传声器,其中M大于或等于2,所述方法包括:
-提供M个电输入信号xm(n),m=1,…,M,n表示时间,每一电输入信号表示给定传声器处的环境声音并包括从目标声源的位置经声学传播通道传播的目标声音信号sm(n)与所涉及传声器的位置处可能存在的附加噪声信号vm(n)的混合;
-在下面所列基础上估计相对于传声器系统到目标声源的方向和/或目标声源相对于传声器系统的位置:
--所述电输入信号;
--最大似然方法学;及
--包括相对传递函数dm(k)的字典的数据库Θ,所述相对传递函数表示从所述M个传声器中的每一个(m=1,…,M)到所述M个传声器之中的参考传声器(m=i)的随方向而变的声学传递函数,k为频率指数。所述方法还包括
-确定所述各个字典元素中的部分或者全部的后验概率或者log(后验)概率;及
-通过确定所确定的后验概率或者log(后验)概率之中分别具有最大后验概率或者log(后验)概率的一个或多个值而确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
在实施例中,在确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置时的计算复杂性通过下述之一或多个降低:
-动态下采样;
-动态选择多个字典元素的子集;
-动态选择多个频道的子集;及
-动态去除似然函数中具有低重要性的项。
在实施例中,DOA估计仅基于有限的频率带宽,例如基于频带的子集,例如其中预期存在语音的频带。
在实施例中,确定所述各个字典元素中的部分或者全部的后验概率或者log(后验)概率按两步执行:
-第一步,针对字典元素的第一子集以第一角分辨率评估后验概率或者log(后验)概率,以获得最可能方向的第一初步估计;及
-第二步,针对字典元素的在所述最可能方向的第一初步估计附近的第二子集评估后验概率或者log(后验)概率,使得在所述最可能方向的第一初步估计附近的字典元素以第二角分辨率进行评估,其中第二角分辨率大于第一角分辨率。
在本说明书中,“以较大的角分辨率进行评估”指每弧度使用较大数量的字典元素进行评估,但排除远离所述最可能方向的第一初步估计的角空间的一部分。在实施例中,在第一和第二步骤中,同样数量的字典元素被评估。在实施例中,在第二步中评估的字典元素数量小于第一步中评估的字典元素数量。在实施例中,似然值按几个步骤进行计算,例如参见图5。在实施例中,似然计算步骤在双耳听力系统的左和右听力装置之间对准。
在实施例中,所述方法包括基于自适应协方差平滑的平滑方案。自适应协方差平滑例如在到感兴趣声源的方向变化的环境中或情形下有利(例如由于存在一个以上(如本地化)感兴趣声源,及一个以上声源在不同时间点活动,例如一个接一个,或者不相关)。
在实施例中,所述方法包括根据第一和第二电输入信号的协方差随时间的变化(ΔC)对包括自适应改变用于平滑的时间常数(τatt,τrel)的电输入信号的协方差矩阵(Cx,Cv)进行自适应平滑,
--其中所述时间常数对于低于第一阈值(ΔCth1)的协方差变化具有第一值(τatt1,τrel1)及对于高于第二阈值(ΔCth2)的协方差变化具有第二值(τatt2,τrel2),其中第一值大于所述时间常数的对应的第二值,而第一阈值(ΔCth1)小于或等于第二阈值(ΔCth2)。
计算机可读介质
本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质,当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
计算机程序
此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
听力系统
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置及包括辅助装置的听力系统。
在实施例中,该听力系统适于在听力装置和辅助装置之间建立通信链路以使信息(如控制和状态信号,可能音频信号)能在其间进行交换或从一装置转发给另一装置。
在实施例中,听力系统包括辅助装置,例如遥控器、智能电话、或者其它便携或可穿戴电子装置如智能手表等。
在实施例中,辅助装置是或包括遥控器,用于控制听力装置的功能和运行。在实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制听力装置的功能的APP(听力装置包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。在实施例中,智能电话配置成执行与估计似然函数有关的部分或所有处理。
在实施例中,辅助装置是或包括音频网关设备,其适于(如从娱乐装置例如TV或音乐播放器,从电话装置例如移动电话,或从计算机例如PC)接收多个音频信号,及适于选择和/或组合所接收音频信号(或信号组合)中的适当信号以传给听力装置。
在实施例中,辅助装置如智能电话配置成执行与估计似然函数和/或最可能的到达方向有关的部分或者所有处理。
在实施例中,辅助装置包括另一根据本发明的听力装置。
在实施例中,在听力装置之一中确定的、到所述目标声源的一个或多个最可能方向或所述目标声源的一个或多个最可能位置或者与所述最可能方向有关的数据经所述通信链路传给另一听力装置并用于确定到所述目标声源的联合最可能方向或者所述目标声源的联合最可能位置。在实施例中,到所述目标声源的联合最可能方向或者所述目标声源的联合最可能位置在一个或两个听力装置中用于控制波束形成器滤波单元。在实施例中,似然值在几个步骤中进行计算,例如参见图5。在实施例中,似然计算步骤在左和右听力仪器之间对准。
在实施例中,听力系统配置成通过在将似然相加为跨频率的联合似然之前选择跨仪器的局部似然而确定所述目标声源的一个或多个联合确定的最可能方向或者位置,即
在实施例中,字典元素的分布(如角分布,例如参见图4A、4B)在左和右听力仪器上不同。
在实施例中,辅助装置是或包括另一听力装置。在实施例中,听力系统包括适于实施双耳听力系统如双耳助听器系统的两个听力装置。
APP
另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的听力装置或(例如双耳)听力系统的用户接口。在实施例中,该APP配置成在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置上运行。
定义
在本说明书中,“听力装置”指适于改善、增强和/或保护用户的听觉能力的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。
听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元(具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬声器可连同听力装置的其它元件一起设置在壳体中,或者本身可以是外部单元(可能与柔性引导元件如圆顶件组合)。
更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理器,例如包括可配置(可编程)的处理器,例如数字信号处理器)、及用于根据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适于在时域或者在多个频带处理输入信号。在一些听力装置中,放大器和/或压缩器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的)存储元件,用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/或到编程装置的接口使用的信息(如处理后的信息,例如由信号处理电路提供)。在一些听力装置中,输出单元可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置中,输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激耳蜗神经的多电极阵列)。
在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。在一些听力装置中,振动器可植入在中耳和/或内耳中。在一些听力装置中,振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中,振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听力装置中,输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层和/或大脑皮层的其它部分。
听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电平而变的增益例如可体现在处理参数中,例如经到编程装置(验配系统)的接口上传到听力装置,并由听力装置的可配置的信号处理电路执行的处理算法使用。
“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与听力装置通信并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动电话(如智能电话)、或音乐播放器。听力装置、听力系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播系统、耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK)系统、远程会议系统、教室放大系统等的一部分或者与它们交互。
本发明的实施例如可用在如助听器的应用中。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1B示出了包括左和右听力装置的双耳听力系统,这些听力装置被不同地安装在用户的左和右耳处,一个听力装置的传声器轴未指向用户视向(θ≠0),另一听力装置的传声器轴指向用户视向。
图1C示意性地示出了在用户的前半平面中包括(点)源的环境中用户佩戴双耳听力系统的典型几何设置。
图2A-2G示出了相对传递函数dm(k)字典的字典元素的角分布(θ)的七个不同图形表示,相对传递函数表示从目标声源到M个传声器中的每一个(m=1,…,M)相对于M个传声器之中的参考传声器(m=i)的随方向而变的声学传递函数,k为频率指数,其中
图2A示出了第一图形表示;
图2B示出了第二图形表示;
图2C示出了第三图形表示;
图2D示出了第四图形表示;
图2E示出了第五图形表示;
图2F示出了第六图形表示;及
图2G示出了第七图形表示。
图3A示出了针对第一输入信号就所有字典元素进行评估的对数似然函数。
图3B示出了针对第二输入信号就字典元素的第一选择进行评估的对数似然函数。
图3C示出了针对第三输入信号就字典元素的第二选择进行评估的对数似然函数。
图4A示出了相对传递函数的字典的第一图形表示,其中字典中的所有元素均已在用户头部的两侧(如两个听力仪器)进行评估。
图4B示出了相对传递函数的字典的第二图形表示,其中计算在用户头部的两侧(如听力仪器)之间划分,使得仅与头部相对于目标声源的非阴影侧有关的字典元素的对数似然函数被评估。
图5A和5B示出了用于评估有限数量的字典元素的似然函数的两步过程。
图5A示出了字典元素的均匀分布的子集的第一评估。
图5B示出了字典元素的子集的第二评估,这些字典元素接近从第一评估获得的并更密集表示的最可能的值。
图6示出了根据本发明第一实施例的听力装置。
图7示出了根据本发明第二实施例的听力装置。
图8示出了用于根据本发明的包括两个传声器的传声器系统的字典元素和权重的示例性存储器分配。
图9A、9B、9C示出了包括听者和两个讲话者的使用场合的不同方面,其中提供另外的信息以使根据本发明的DOA(角度θ)似然估计量L(θ)合格,其中
图9A示意性地示出了在给定时间点tn的到达方向的对数似然评估及用户和声源的对应的几何设置。
图9B示出了在给定时间点tn的眼睛凝视角θ的概率分布。
图9C示出了根据本发明的用于同时估计到达方向的动态双讲话者几何设置及在因而估计的到达方向的确认时使用的另外的信息(在此为眼睛凝视角)的记录。
图10示出了示例性的声音段,包括具有语音的子段和具有语音停顿的子段,及随之发生的、有噪声协方差矩阵和噪声协方差矩阵的更新策略。
图11A示出了针对如图10中所示的噪声中语音情形的有噪声目标信号协方差矩阵Cx的平滑系数-SNR关系,其中对于中等值的SNR,不存在随SNR而变的平滑。
图11B示出了针对如图10中所示的噪声中语音情形的噪声协方差矩阵Cv的平滑系数-SNR关系,其中对于中等值的SNR,不存在随SNR而变的平滑。
图11C示出了针对噪声中语音情形的有噪声目标信号协方差矩阵Cx的平滑系数-SNR关系,包括也用于中等值的SNR的第一随SNR而变的平滑方案。
图11D示出了针对噪声中语音情形的噪声协方差矩阵Cv的平滑系数-SNR关系,包括也用于中等值的SNR的第一随SNR而变的平滑方案。
图11E示出了针对噪声中语音情形的有噪声目标信号协方差矩阵Cx的平滑系数-SNR关系,包括也用于中等值的SNR的第二随SNR而变的平滑方案。
图11F示出了针对噪声中语音情形的噪声协方差矩阵Cv的平滑系数-SNR关系,包括也用于中等值的SNR的第二随SNR而变的平滑方案。
图12示出了根据本发明的用于估计听力装置的正向通路中的波束成形信号的示意性流程图。
图13A、13B和13C示出了可变时间常数协方差估计器的一般实施例,其中
图13A示意性地示出了根据本发明的协方差平滑单元;
图13B示意性地示出了根据本发明的协方差预平滑单元;
图13C示意性地示出了根据本发明的协方差可变平滑单元。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
一些假设和理论框架概述如下。
信号模型
假定入射在第m个传声器上的目标信号sm(n)被附加噪声vm(n)污染,从而有噪声观察结果xm(n)由下式给出
xm(n)=sm(n)+vm(n);m=1,…,M
其中xm(n),sm(n)和vm(n)分别指有噪声目标、纯净目标和噪声信号,其中M>1为可用传声器的数量,及n为离散时间指数。为了数学方便(简单),假定观察结果为零均值高斯随机处理的实现,及噪声处理为独立于目标处理的统计。
每一传声器信号被通过分析滤波器组。例如,如果使用离散傅里叶变换(DFT)滤波器组,复值子频带信号(DFT系数)由下式给出
其中l和k分别为帧和频率窗口(bin)指数,N为DFT阶,DA为滤波器组抽取因子,wA(n)为分析窗口函数,可能包括用于零填充的零,及为虚数单位。对于目标信号DFT系数Sm(l,k)和噪声DFT系数Vm(l,k),具有类似的表达式。
我们采用Xm(l,k)跨时间l和频率k近似独立的标准假设,这使我们能独立地处理具有不同频率指数k的DFT系数(当信号的相关时间相较于帧长度短时该假设有效,相继的帧被间隔开足够远)。因此,为了记法方便和不损失一般性,频率指数k在下面被封锁。
对于给定频率指数k和帧指数l,每一传声器的有噪声DFT系数被收集在向量X(l)∈CM中,
其中上标T指转置。对于纯净DFT系数向量S(l)和噪声DFT系数向量V(l),具有类似的表达式,使得
X(l)=S(l)+V(l)
对于给定帧指数l和频率指数k,d’(l)=[d’1(l)…d’M(l)]T指从目标源到每一传声器的(复值)声学传递函数。通常用d’(l)的归一化版本运算更方便。更具体地,将第i个传声器选择为参考传声器,则
d(l)=d’(l)/d’i(l)
指其元素dm为从每一传声器到参考传声器的传递函数的向量。我们将d(l)称为相对传递函数。则S(l)可被写为
有噪声观察结果的传声器间互功率谱密度(CPSD)矩阵CX(l)=E[X(l)XH(l)]现在可被写为
CX(l)=λS(l)d(l)dH(l)+E[V(l)VH(l)]
其中第一项表示目标的CPSD,CS(l)=λS(l)d(l)dH(l),及第二项表示噪声的CPSD,CV(l)=E[V(l)VH(l)],即其中上标H指厄米(Hermitian)转置,及为目标信号在所涉及频率指数k时的功率谱密度(psd)。
最后,我们假定下面的、在存在语音的信号区期间噪声协方差矩阵跨时间的时间演变的模型。l0指不存在语音的最近的帧指数,从而l>l0为具有语音活动的帧指数。我们假定噪声协方差矩阵根据下面的模型跨时间演变[3]:
CV(l)=λV(l)GV(l0),l>l0 (2)
其中CV(l0)为在不存在目标信号的最近帧指数l0时换算后的噪声协方差矩阵。为了方便,该矩阵被换算使得元素(iref,iref)等于1。则λV(l)为在参考位置处测得的噪声处理的时变psd。因而,在语音存在期间,噪声处理不需要固定不变,而是协方差结构必须保持固定直到纯量相乘。这种情形例如在噪声源空间上固定不动并具有共变化的功率水平时出现。
因此,在语音活动期间有噪声观察结果的协方差矩阵可总结为
RTF向量dθ(l)、时变语音psd λS(l)和时变噪声换算因子λV(l)均未知。下标θ指RTF字典D的第θ个元素。矩阵CV(l0)可在语音不存在的信号区中进行估计,使用话音活动检测算法识别,及假定已知。
RTF向量dθ(l)的最大似然估计
在下面,假定RTF字典dθ∈Θ可用(例如在使用系统之前估计或测量;可能在系统使用期间更新)。目标是基于有噪声传声器信号X(l)找到dθ∈Θ的ML估计量。
从上面的假设,向量X(l)遵循零均值(复、循环对称)高斯概率分布,即
其中│·│指矩阵行列式。我们要求CX(l)可逆。在实践中,这不是问题,因为传声器自噪声将确保CV(l0)因而CX(l)具有满秩。X D(l)∈CMxD指具有D个观察到的向量的矩阵,X(j),j=l-D+1…,l作为列:
X D(l)=[X(l-D+1)…X(l)]
由于频谱观察结果Xm(l)被假定跨时间l独立,相继的观察结果的似然函数由下式给出
tr表示迹算子即矩阵的主要对角元素的和,及其中CX(l)为dθ,λV和λS的函数并在等式(3)中给出,及其中
为找到dθ的ML估计量,我们针对每一dθ∈Θ评估对数似然并选择导致最大对数似然的一个。让我们考虑怎样针对特定dθ计算对数似然。似然函数是未知参数dθ,λV(l)和λS(l)的函数。为针对特定dθ计算似然,我们因此将依赖于dθ的选择的λV(l)和λS(l)的ML估计量代入等式(6)。
λV(l)和λS(l)的ML估计量在[4]中获得,及等同表达式在[3,5]中获得。具体地,使Bθ(l)∈CMxM-1指其列形成与dθ(l)直交的M-1维向量空间的基础的阻塞矩阵,使得矩阵Bθ可按如下所述找到。定义MxM矩阵 则Bθ可被发现为Hθ的前M-1列,即Bθ=Hθ(:,1:M-1)。使用Bθ的该定义,λV(l)的ML估计量由[3-5]给出:
等式(8)可被解释为可观察的有噪声向量X(l)的平均方差,被通过M-1个线性独立的目标抵消波束形成器,并根据每一波束形成器的输出之间的噪声协方差归一化。
λS(l)的ML估计量可表达如下,其中MVDR波束形成器的权重向量wθ(l)∈CM例如由[6]给出
其中我们现在已指明似然与RTF向量dθ的明确的相干性。
dθ的ML dθ*估计量被简单地发现为
高效率地计算对数似然
应注意,等式(11)中的第一和第三项与dθ无关,使得
|A+uvT|=(1+vTA-1u)|A| (14)
将此应用于等式(13),我们发现
其中wθ(l)为在dθ的方向的MVDR波束形成器。
对于M=2,进一步简化
其中bθ为阻塞矩阵(在M=2情形下,其为2x 1向量)。应注意,目标抵消波束形成器权重bθ与信号无关,并可先验计算(例如在使用系统之前)。
将等式(16)和(10)插入到等式(15)内,我们得到下面的对数似然表达式:
的逆由下式给出
因此,在等式(17)的第一项中的波束形成器的表达式wθ(l)可简单地由下式替代
应注意,等式(17)中的表达式对于如听力仪器的应用计算上效率高,因为其避免了矩阵求逆、本征值等。第一项为有噪声观察结果通过MVDR波束形成器的方差与上一仅有噪声的区域中的信号通过同一MVDR波束形成器的方差的对数比。第二项为有噪声观察结果通过目标抵消波束形成器的方差与上一仅有噪声区域中的信号通过同一目标抵消波束形成器的方差的对数比。
我们可总结对数似然可被怎样高效率地计算:
给定dθ,θ=1,…,θN,其中θN为字典Θ中表示的不同位置/方向的数量,计算对应的不随信号而变的目标抵消波束形成器权重bθ,θ=1,…,θN(参见上面的等式(10))。则
-计算(换算后的)MVDR波束形成器(只要CV(l0)变化):
-计算行列式│CV(l0)│(只要CV(l0)变化);
-通过对方差的对数和上面的行列式(等式(17))的对数求和而计算对数似然。
目标抵消波束形成器权重bθ例如可离线计算,每字典元素一组权重,或者按上面等式(8)中所述的直接从dθ计算。
原则上,我们针对所有帧计算CX,同时在只有噪声的帧(上一帧,其中已被更新的CV记为l0)中仅CV被更新。然而,我们可能避免在只有噪声的帧中更新CX,因为在那些区域中我们不能预期变化方向(除非我们接收到其它信息如头部运动)。在检测到语音的区域中我们可仅选择更新CX,参见图10。图10示出了跨时间(参见记为时间[s]的水平轴)的示例性声音段,包括具有语音的(时间-)子段(记为“高SNR:更新Cx”)及具有语音停顿的子段(可能只包括噪声,“低SNR:更新CV”),及具有语音和噪声的混合的子段(记为中等SNR,在图10中由沿时间轴的交叉阴影线的矩形标示)。由于我们在具有低信噪比的时间帧中仅更新噪声协方差矩阵Cv,在具有高SNR的时间帧中我们可仅选择更新“有噪声”(目标+噪声)协方差矩阵Cx。藉此,我们避免了对数似然被太频繁地更新。如我们看到的,在一些帧中(交叉阴影线的时间段),Cv和Cx均不被更新,因为估计的SNR在低和高之间(图10中的“中等”)。例示的图示出了时域中的信号。通常,SNR将在每一频道中进行估计。因而,在一频道中的l0可能不同于另一频道中的l0。在Cv仅在语音停顿时更新及Cx仅在语音期间更新的情形下,
l1指其中语音活动的上一帧。
作为备选,Cv和Cx也在中等SNR区域中进行更新。代替更新或者不更新协方差矩阵,平滑时间常数可随SNR而变,使得Cv的时间常数随SNR的增加而增大,直到其在“高”SNR区域变得无限慢为止,同样,Cx的时间常数随SNR的减小而增大,直到其在“低”SNR时变得无限慢为止。然而,这种实施方式计算上变得更昂贵,因为似然函数的不同项被更频繁地更新。
图11A和11B分别示出了在如图10中所示的噪声中语音的情形下,对于有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv的平滑系数-SNR关系,其中对于中等值的SNR,不存在随SNR而变的平滑。
图11C和11D分别示出了在包括也用于中等值的SNR的第一随SNR而变的平滑方案的噪声中语音的情形下,对于有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv的平滑系数-SNR关系。
图11E和11F分别示出了在包括也用于中等值的SNR的第二随SNR而变的平滑方案的噪声中语音的情形下,对于有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv的平滑系数-SNR关系。
图11A-11F示出了随SNR而变的平滑系数的例子。平滑的量(通过IIR平滑时间常数τ确定)可从平滑滤波器系数λ得到,即其中Fs为样本频率。从τ的表达式,显然在λ→1时平滑时间常数变为0(如果该时间常数变为0,估计量仅取决于当前样本),及随着λ→0,平滑时间常数变得无限慢(更新将被停止)。图11A示出了图10的情形,其中Cx仅在SNR高时更新。在中等或者低SNR时,Cx不被更新。图11C示出了同样的情形,其中Cx还被允许随着时间常数减小在中等SNR时更新,以在低SNR时没有更新开始,直到已达到高SNR平滑时间常数为止。如图11E中所示,Cx的更新可在SNR水平高于低SNR水平时停止,因为低SNR阈值主要是与Cv的更新有关的阈值。同样,图11B类似于图10中所示的Cv的平滑。仅在低SNR时,Cv被用某一时间常数进行平滑。高于该阈值时,Cv的更新被停止。在图11D和11F中,平滑在较高的SNR水平逐渐减小,直到达到平滑被停止的水平。在实施例中,平滑永不停止,即平滑系数永不变为0。在另一实施例中,平滑系数限于λ=2-N,其中N∈0,1,2,3,4,…。在实施例中,其中Cx被更新的SNR范围不与其中Cv被更新的SNR范围重叠(藉此可能避免Cx=Cv)。
图10和图11A-11F与随SNR而变的平滑系数有关。本申请的发明人已提出备选平滑方案,称为“自适应协方差平滑”,其中平滑系数根据协方差矩阵的变化确定。该平滑方案在下面结合图13A、13B、13C进行概述。
制约式ML RTF估计器
上面的算法每频带进行描述:在频带FBk内,k=1,…,K,其描述ML RTF估计量dθ*可怎样通过下述步骤找到:针对来自字典的每一候选dθ(θ=θ1,…,θN)计算对数似然L(dθ)(其中每一dθ为包括M个元素的向量dθ=[dθ,1(k),…,dθ,M(k)]T),及选择导致最大似然的一个(dθ*)。不是在每一频带中独立地估计ML RTF向量(dθ*)(k=1,…,k=K)(这对不同的频带FBk可能导致不同的θ*值),通常跨(部分或所有)频带联合地估计ML RTF向量是合理的。换言之,寻找“指向”同一空间位置的RTF向量组(每一频带一个RTF向量)是合理的(使得对于不同的FBk,θ*不会不同)。找到该RTF向量联合组在所提出的框架中十分简单。具体地,基于子频带信号统计上独立的标准假设,一组RTF向量的对数似然等于它们的各个对数似然的和。
以类似的方式,使每一助听器中估计的RTF向量限于“指向”同一空间位置或者将该约束条件应用于两个助听器和/或所有频带十分简单。
计算后验DOA概率
已在等式(17)中针对每一θ计算对数似然,将这些对数似然转换为后验DOA概率很简单。后验DOA概率通常有利,因为它们更容易解释并能更好地用于可视化等。使用等式(17)中的对数似然,对应的似然可写为
从贝叶斯(Bayes)规则,DOA后验概率由下式给出
其中P(dθ)为dθ的先验概率。对于“平的”先验,P(dθ)=1/NΘ,我们找到特别简单的结果,即后验概率由归一化似然给出
其非常容易评估,给定似然值(等式(17))以任何方式进行计算。
另外的方式
截至目前的描述已考虑方向估计量dθ基于传声器信号X(l)的情形。然而,在未来的助听器系统中,除传声器捕获的声音信号之外,可能获得另外的信息;这些信息例如包括助听器用户的眼睛凝视方向的信息、关于用户的听觉注意的信息等。在许多情形下,该另外的信息可提供非常强的、活动目标讲话者的方向的证据,因此有助于识别目标方向。例如,助听器用户看向感兴趣的目标声源是常见的情形,至少有时,例如用于在声学困难情形下唇读。可能将上面描述的框架扩展到考虑这些另外的信息源。让我们引入变量e(l)来描述任何这样的另外的信息。作为例子,e(l)描述用户的眼睛凝视方向。此外或者作为备选,存在许多其它的额外信息源,其可以类似的方式组合到所提出的框架中。
dθ的最大似然估计量
助听器系统在特定时刻l可用的全部信息o(l)由下式给出:
o(l)=[X(l)e(l)]
及似然函数由下式给出
如上,dθ的最大似然估计量由下式给出
如前所述,等式(26)可通过试验所有候选向量dθ∈Θ进行评估。为此所需要的计算取决于在传声器观察结果X(l)与另外的信息e(l)之间存在哪些统计关系(或者哪些统计关系被假定)。应注意,在本发明中,似然估计量及对数似然估计量由同一符号L(或者在等式/表达式中)表示。
例子
如果假定X(l)和e(l)统计上独立,则出现特别简单的情形:
使得
在该情形下,第一项与等式(11)中描述的仅传声器信号的对数似然函数一样。第二项取决于概率密度函数fe(l)(e(l);dθ),其可容易地测量,例如在离线校准期间,例如在实际使用之前(和/或在系统使用期间更新)。
dθ的最大后验估计量
代替找到如上所述的dθ的最大似然估计量,可确定dθ的最大后验(MAP)估计量。MAP方法具有使能以不同于上面描述的方式使用另外的信息信号e(n)的优点。
dθ的后验概率P(dθ;X(l))在等式(23)中定义,给定传声器信号X(l)(对于仅传声器观察结果的情形)。为找到dθ的MAP估计量,必须对下式求解
应注意,第一因子简单地为似然,而第二项为dθ的先验概率。换言之,后验概率与似然函数成正比,通过任何可用的先验知识换算。先验概率描述目标声音从特定方向出现的固有概率。如果没有理由相信目标信号趋于相较另一方向源自特定方向,可选择一致的先验,P(dθ)=1/NΘ,θ=1,…,NΘ,其中NΘ指候选向量的数量。类似地,如果预期目标源将主要在正面,这可在先验中通过增大来自正面方向的概率而反映。至于最大似然判据,该判据的评估可通过试验候选dθ并选择使后验概率最大化的候选向量进行。
例子
我们在此提出从另外的信息信号e(n)得到先验概率P(dθ)。例如,如果e(n)表示眼睛凝视信号,可跨过去的时间段如5秒建立“首选眼睛方向”(或者“热点”)的柱图。假定助听器用户有时看向目标源,例如用于唇读,该柱图将展现特定方向相较于其它方向更高的出现率。该柱图容易被归一化为概率质量函数P(dθ),其可在从等式(29)寻找dθ的最大后验估计量时使用。同样,其它传感器数据对先验概率有贡献,例如EEG测量结果、反馈通路估计量、自动唇读、或者运动传感器、跟踪照相机、头部跟踪器等。使用听力装置的电极测量眼睛凝视的多个不同方面在我们的2016年12月21日申请的、名称为“A hearing devicecomprising a sensor for picking up electromagnetic signals from the body”的未决欧洲专利申请16205776.4(公开号为EP3185590A1)中讨论。
图9A、9B、9C示出了前述场合的不同方面。图9C示出了包括两个(如交替或者同时)第一和第二讲话者P1,P2和佩戴根据本发明的听力系统的听者U的示例性场合。在所示情形下,两个讲话者位于用户的前半平面,在此分别位于水平角θ=-30°(P1)和θ=+30°(P2)处。图9C示出了在时刻tn的场景,其中第一讲话者讲话(由粗实线椭圆形包围及文本“在时间tn的讲话者”标示),来自在时刻tn-1的情形,其中第二讲话者讲话(由虚线椭圆形包围及文本“在时间tn-1的讲话者”标示)。该从第二讲话者到第一讲话者的语音活动的转移在用户的眼睛凝视(或者眼睛凝视与头部运动的结合)的变化中反映,从角度θ=+30°(注意第二讲话者P2)到θ=-30°(注意第一讲话者P1)。在实施例中,眼睛凝视可用于解决(算法的)左-右混淆(参见图9A、9B)。假定用户佩戴某类眼睛凝视监视装置,例如包括一个或多个眼睛跟踪照相机和/或用于从用户身体(例如包括耳朵和/或耳道附近)采集电位差的电极和/或用于监视用户的头部运动的头部跟踪器的一对听力装置或者眼镜,这样的信息可在图9C的场景中用于给出到当前活动的音频源(在此为第一和第二讲话者P1,P2)的可能方向的额外(先验)知识。图9B示出了前述额外信息可在时间tn获得,其中用户已将注意从第二讲话者P2转移到第一讲话者P1。图9B可图示说明在图9C的场景中用户U的眼睛凝视角的可能值的分布函数。分布函数P(θ)通常可取决于其被记录的时间段(及取决于第一和第二讲话者的各个语音概率)。对于较长的记录时间,预期在θ=-30°(P1)和θ=+30°(P2)附近看到两个波峰。该额外(或“先验”)信息可用于使如图9A中示意性所示并由根据本发明的传声器系统(或者例如双耳助听器系统)提供的到达方向(DOA)的似然估计量L(θ)(例如对数似然估计量)合格。在该情形下,来自图9B中所示的分布函数P(θ)的额外信息可证明似然估计量L(θ)在θ=-30°处的峰值正确并优先于在θ=+30°处的峰值将此作为在时间=tn的DOA的最可能角度。分布函数P(θ)和似然估计量L(θ)可相乘在一起以给出改善的似然估计量(例如参见上面的等式(28))。眼睛凝视、头部运动(例如基于加速计、磁力计或者陀螺仪)均可影响协方差矩阵Cv和Cx的时间常数。
联合到达方向决定
给定等式(17)中的对数似然,我们可选择在每一听力仪器处针对每一频道进行单一到达方向决定,或者我们可选择进行跨频率的联合决定,如等式(21)中所示。对于M=2情形,我们的跨频率的联合似然函数由下式给出
假定平的先验概率,我们可从等式(21)得出最可能的到达方向
相较于从后验概率得出θ*,从联合似然函数直接得出最可能方向θ*是有利的。如果我们想要应用非一致的先验概率,例如为了有利于某些方向或者为了补偿字典元素的非均匀分布,我们需要将指数函数应用于对数似然(这在计算上昂贵),即
作为备选,由于先验通常离线计算,使后验概率的对数最大化在计算上可能有利,即
跨两个听力仪器进行联合方向决定可能有利,其使得对应于单一估计的方向的定向权重应用于两个听力仪器。为进行联合决定,我们可合并左和右仪器处估计的似然函数,即
我们也可选择使后验概率最大化,其中每一后验概率已被单独归一化,即
上面的方法的优点在于避免了在仪器之间交换传声器信号。其仅需要传输估计的似然函数或者归一化概率。作为备选,联合决定在具有最高估计的SNR的听力仪器处估计,例如依据最高调制量进行测量,或者如2016年9月26日申请的、名称为“A voice activitydetection unit and a hearing device comprising a voice activity detectionunit”的未决欧洲专利申请EP16190708.4(公开号为EP3300078A1)中描述的。在该情形下,仅本地决定和本地SNR必须在仪器之间交换。我们也可在将似然相加为跨频率的联合似然之前跨仪器选择本地似然,即
我们可选择具有最高SNR的那一侧,或者作为备选,具有包含最小行列式│CV(l0,k)│的噪声协方差矩阵的那一侧。
图1A和1B中的每一个示出了用户U佩戴包括左和右听力装置HDL,HDR的双耳听力系统,这些听力装置被不同地安装在用户的左和右耳处,在图1A中,一个听力装置的传声器轴指向水平面外面及在图1B中,一个听力装置的传声器轴未指向用户的视向(θ≠0)。图1C示意性地示出了在用户的前(左)半平面中包括(点)源S的环境中,用户佩戴包括左和右听力装置(HDL,HDR)如助听器的双耳听力系统的典型几何设置,声源S与例如形成坐标系统的中心的、用户头部的中心之间的距离为ds。用户的鼻子确定用户的视向LOOK-DIR,从而确定相应的相对于用户的前和后方向(参见图1C左边中记为前和后的箭头)。声源S位于水平面中相对于用户视向(-)θs角度处。左和右听力装置HDL,HDR彼此间隔开距离a地分别位于用户U的左和右耳处。左和右听力装置HDL,HDR中的每一个包括相应的前传声器FMx和后传声器RMx(x=L(左)、R(右)),用于从环境拾取声音。前传声器FMx和后传声器RMx位于相应的左和右听力装置上并间隔开距离ΔLM(如10mm),及由两组传声器的中心形成的轴(当听力装置安装在用户耳朵处时)分别确定图1A、1B和1C的左和右听力装置的相应参考方向REF-DIRL,REF-DIRR。到声源的方向可确定在用户左和右耳处接收的声音的共同到达方向。来自声源S的声音在左和右听力装置处的真实到达方向在实践中将不同于箭头D确定的方向(差异越大,声源越靠近用户)。如果认为必要,正确的角度例如可从几何设置确定(包括角度θs和听力装置之间的距离a)。
如图1A、1B中所示,听力装置如助听器可能不必然指向与字典中假设的理想位置对应的位置。助听器可能被倾斜某一仰角(参见图1A),及作为备选或另外,助听器可能指向稍微不同于预期的水平方向(参见图1B中的角度θ)。如果两个仪器指向同一方向,误差可能导致估计的视向量(或者导向向量)不对应于实际方向。再者,所选的视向量将为最佳字典元素。然而,如果听力仪器指向不同方向,这必须进行考虑以利用两个仪器处的联合到达方向决定。例如,如果左仪器被相较于右仪器倾斜,由于较小的水平延迟,左仪器处的视向量相较于右仪器将更接近90度。在该情形下,表示不同方向的定向(方向)权重可被应用于两个仪器。作为备选,在具有更好SNR的听力仪器处估计的方向将被应用于两个仪器。另一种方法是利用运动传感器如加速计或陀螺仪(在图1A中记为acc)以考虑视向将在头部转动时快速变化。如果这被检测到,协方差矩阵变得过时并应被重新估计。加速计可帮助确定该仪器是否被相较于水平面倾斜(参见图1A中左听力装置HDL上的加速计acc和相对于重力方向(由重力加速度g表示)的倾斜角的标示)。磁力计可帮助确定两个仪器是否未指向同一方向。
实施例
图2A-2G示出了相对传递函数dm(k)的字典的不同图形表示,相对传递函数表示从M个传声器中的每一个(m=1,…,M)到M个传声器之中的参考传声器(m=i)的随方向而变的声学传递函数,k为频率指数。每一字典表示有限数量的视向量。
图2A和2B中的字典示出了在水平面中均匀分布的视向量但具有不同的分辨率,图2A中为15°的分辨率(24个字典元素)及图2B中为5°的分辨率(72个字典元素)。为了节省字典元素,更相像的字典元素可被精简。由于朝向前面方向或者后面的视向量类似,来自前面(或后面)的视向量相较于来自侧面的视向量更能容忍小的DOA误差。对于水平面中均匀分布的字典元素dθ(在自由场和远场条件下),前和后传声器之间的延迟与cos(θ)成正比。为实现关于传声器延迟均匀分布的字典元素,这些元素应被均匀分布在arccos标尺上(arccos表示反余弦函数)。这样的分布在图2C中示出,其中数据点已被凑整到5°分辨率。注意,相对于侧面,相对少数几个朝向前面和后面的方向必要(从而节省计算和/或存储器容量)。由于大多数感兴趣的声音出现在前半平面中,字典元素可主要位于前半平面中,如图2D中所示。为了不获得“随机”视向量分配,当声音从后面入射时,表示后面的单一字典元素也被包括在字典中,如图2D中所示。图2E和图2F分别类似于图2A和图2B,但除了水平面中的均匀分布的视向量之外,这些字典还包含“自我话音”视向量。在一致先验的情形下,字典中的每一元素可能相等。比较图2E和2F,我们分别具有25元素字典(24个水平方向+1个自我话音方向)及73元素字典(72个水平方向+1个自我话音方向)。假定两个字典中平的先验将有利于图2E的25元素字典中的自我话音方向(相较于图2F的73元素字典更有利)。同样,在图2C和图2D的字典中,一致视向量将有利于覆盖更宽水平范围的方向。因而,分配给每一方向的先验分布合乎需要。因而,我们通常需要将非一致先验概率应用于每一方向,如等式(36)中所示。包括自我话音视向量可使我们能使用该框架用于自我话音检测。字典元素也可在使用期间个别化或者部分地估计。例如,自我话音视向量可在使用期间进行估计,如EP2882204A1中所述。由于用户附近的相对传递函数不同于更加远离用户的相对传递函数,字典也可包含在距用户不同距离处(不同位置)测量的相对传递函数,如图2G中所示。同样,来自不同仰角的传递函数可以是字典的一部分(未示出),例如参见图1A中的角度
在微型听力装置如助听器中,大小和功耗是重要的限制因素。因此,首选避免计算复杂性或者使其最小化。在本发明的实施例中,计算可通过下述措施减少:
-下采样;
-减少字典元素的数量;
-减少频道的数量;
-去除似然函数中重要性低的项。
图3A、3B、3C的数据用于展现似然可针对不同字典元素进行评估,及似然的结果(最大值)取决于所选的字典元素子集。
图3A示出了就所有字典元素θ进行评估的视向量的对数似然函数L(θ)。此外,记为θref的参考元素已从传声器信号直接进行估计(或者通过其它手段)。参考元素θref的似然值按与字典元素同样的标尺进行标示,而其在角度标尺θ上的位置任意(由水平θ轴的符号中断∫∫标示)。参考视向量dθref被假定接近似然函数的最大值。在字典仅包含非常少的元素的情形下(例如参见图3B),该参考视向量变得有用。在字典中仅具有少数几个元素,可能没有元素接近最佳视向,尽管元素之一仍具有字典元素之中的最大值。通过将该最大值与参考元素θref的最大值比较,可能确定字典中的最大值是否也有资格作为全局最大值。
图3B示出了由垂直点线“背景”中的垂直实线标示的稀疏字典元素中没有元素接近似然函数的最大值的情形。所得的θ值可基于参考值进行估计(如图5A、5B中所示),其通过在参考值θref周围的范围中选择θ值的子范围用于更彻底的调查(具有更大的θ值密度)进行。图3C示出了稀疏字典元素之一有资格作为似然函数的全局最大值的情形,因为其接近估计的参考视向量的似然值。图3B和3C中的点线元素,为了与图3A比较进行标示,表示字典中未被评估的(例如在目前时间)或者非现有的元素。
在实施例中,如我们的未决欧洲专利申请EP16190708.4(公开号EP3300078A1)中所述,参考到达方向θref可从传声器信号确定。
图4A示出了相对传递函数dm(k)的字典中的所有元素均已在左和右仪器中进行评估的情形。在左仪器中评估的视向量通过x进行标记,及在右仪器中评估的视向量通过○进行标记。这些相符的符号○和x标示该元素是左和右听力装置的字典的一部分。为说明字典元素的角分布,用户U被示为处于圆圈的中心处,其中字典元素被均匀分布。用户U的视向LOOK-DIR由虚线箭头标示。表示来自用户嘴巴(记为自我话音)的相对传递函数的另外的字典元素刚好位于用户U的前面。在图4B、5A和5B中假定同样的图例。为节省存储器及计算,每一听力仪器可将其计算限于头部的“阳”面。阳面通常将具有最好的信噪比,因而最好的估计量(因为其指相对于用户的包括活动目标声源的那一侧(或者半或四分之一平面))。在图4B中,计算在仪器之间划分,使得仅与头部的非阴影侧有关的相对传递函数dm(k)的字典元素的对数似然函数被评估(在给定耳朵处,例如在给定听力装置中)。其后,似然函数可被组合以找到最可能的方向。作为备选,参考视向量的似然可被评估(例如如图3A、3B、3C中所示)以确定所述阳面是在左视向量元素之中还是在右元素之中。另一选择是归一化所述联合似然函数,例如通过将同样的值分配给已在两个仪器处评估的视向量之一(即前、后或者自我话音)。
图5A-5B示出了用于评估有限数量的字典元素的似然函数的两步过程。图5A示出了字典元素的均匀分布的子集的第一评估。图5B示出了字典元素的子集的第二评估,这些字典元素接近从第一评估获得的最可能的值(从而提供最可能的θ值范围的更精细的分辨率)。在图5A和5B的每一个中,左边部分图示用户附近的字典元素的角分布和密度(如图2A-2G中),而右边部分将针对所有字典元素的示例性对数似然函数(在给定时间)示为在顶部具有“o”的垂直实线,该线的长度表示似然函数的量值(如图3A-3C中)。
减少将要评估的字典元素的数量的方法顺序执行评估(如图5A和5B中所示)。在初始,似然在几个点进行评估(低角度分辨率,参见图5A)以获得最可能方向的初步估计。基于该估计量,用另一子集的字典元素评估似然,这些元素接近从初始评估获得的最可能值(例如使得最可能方向用更高的角度分辨率进行评估,参见图5B)。藉此,似然函数可以高分辨率进行评估,而不评估所有字典元素。原则上,评估可在更多步骤中发生。应用这样的顺序评估可节省计算,因为不可能的方向仅以低角度分辨率进行评估,仅可能的方向以高角度分辨率进行评估。在实施例中,字典元素的子集在左和右听力仪器之间对准。
应当强调的是,即使两个听力仪器中存在给定字典元素,该元素的值取决于传声器相对于声源的准确位置(似然值因而在相应听力仪器的字典之间可能不同)。
降低复杂性的另一方法是在较少频道中应用对数似然。较少频道不仅节省计算,而且节省存储器,因为较少的视向量需要存储。
图6示出了根据本发明第一实施例的包括定向传声器系统的听力装置。该听力装置包括用于将来自多个输入变换器(在此为两个传声器,M1,M2)的音频信号传播到输出变换器(在此为扬声器SPK)的正向通路,及用于提供正向通路的信号的空间滤波和降噪的分析通路。
正向通路包括两个传声器M1,M2,用于从环境拾取输入声音并提供相应的表示声音的电输入信号(例如参见图12中的(数字化)时域信号x1,x2)。正向通路还包括相应的分析滤波器组FBA1,FBA2,用于按时频表示将相应的电输入信号提供为多个(N个)子频带信号(例如参见信号X1,X2)。
分析通路包括根据本发明的多输入波束形成器和降噪系统,其包括波束形成器滤波单元DIR、(位置或)到达方向估计单元DOA、相对传递函数的字典DB和后滤波器PF。多输入波束形成器和降噪系统提供相应的合成定向增益DG1,DG2以应用于相应的子频带信号X1,X2。
合成定向增益DG1,DG2在正向通路的相应组合单元(相乘单元x)中被应用于相应子频带信号X1,X2,从而提供相应的降噪后的输入信号,其在正向通路的组合单元(在此为提供和的求和单元+)中组合。求和单元+的输出为合成波束成形(子频带)信号。正向通路还包括合成滤波器组FBS,用于将子频带信号Y转换为时域信号y。时域信号y被馈给扬声器SPK以转换为源自输入声音的输出声音信号。正向通路在分析和合成滤波器组之间包括N个子频带信号。正向通路(或者分析通路)可包括另外的处理单元,例如用于应用随频率和电平而变的增益以补偿用户的听力受损。
分析通路包括相应的子频带合并和分布单元,以使正向通路的信号能在减少数量的子频带中进行处理。分析通路还被拆分为两个部分,作用于不同数量的子频带,波束形成器后滤波器通路(包括DIR和PF单元)作用于K个频带中的电输入信号,及位置估计通路(包括DOA和DB单元)作用于Q个频带中的电输入信号。
波束形成器后滤波器通路包括相应的子频带合并单元,例如频带求和单元BS-N2K,用于将N个子频带合并为K个子频带(K<N)以将K个子频带中的相应传声器信号X1,X2提供给波束形成器滤波单元DIR,及用于将K个子频带分布到N个子频带的分布单元DIS-K2N。
位置估计通路包括相应的子频带合并单元如频带求和单元BS-N2Q,用于将N个子频带合并为Q个子频带(Q<N)以将Q个子频带中的相应传声器信号X1,X2提供给位置或到达方向估计单元DOA。在此基础上,位置或到达方向估计单元DOA使用根据本发明的最大似然方法基于数据库DB中存储的字典或相对传递函数估计当前声源的NML个最可能位置或者到其的方向(参见信号θq*,q=1,…,NML,其中NML≥1)。当前声源的一个或多个最可能位置或者到其的一个或多个最可能方向(参见信号θq*)中的每一个在多个子频带(如Q)中提供或者提供为一个频率无关的值(因此在图6中的信号θq*处的标示1..Q)。信号θq*被馈给波束形成器滤波单元DIR,其中其与K个子频带中的输入信号X1,X2一起使用以确定分别表示权重wθ1和wθ2的、随频率而变的波束形成器滤波权重(D-GE(Kx2)),配置成在后滤波器PF中进一步降噪后应用于正向通路中的相应电输入信号X1,X2。波束形成器滤波单元DIR进一步配置成产生合成波束成形信号、目标保持信号TSE和目标抵消信号TC-BF。信号TSE、TC-BF和波束形成器滤波权重D-GE被馈给后滤波器PF从而提供进一步降噪的随频率而变的波束形成器滤波权重D-PF-GE(Kx2),配置成在从K个频带转换为N个频带之后应用于正向通路中的相应电输入信号X1,X2。后滤波器PF根据目标保持信号TSE和目标抵消信号TC-BF的各个时频单元的信噪比(SNR)将随时间而变的换算因子应用于波束形成器滤波权重D-GE(wθ1和wθ2)。
在实施例中,Q<N。在实施例中,K<N。在实施例中,Q≤K。在实施例中,Q<K<N。在实施例中,N等于64或128或更多。在实施例中,K等于16或32或更多。在实施例中,Q等于4或8或更多。在实施例中,Q个子频带仅覆盖正向通路的N个频带覆盖的工作频率范围的子范围。
在图6所示的听力装置实施例中,用于估计位置或到达方向(单元DOA)的似然函数在多个频道中进行计算,这些被合并为跨所有频道的单一似然估计量L。相较于定向系统(波束形成器)和/或降噪系统中使用的频道数量K,似然函数在不同数量的频道Q中进行估计。
根据图6的听力装置实施例包括第一和第二传声器M1,M2,用于从环境拾取声音并将该声音转换为相应的第一和第二电信号(可能数字化形式)。第一和第二传声器耦合到相应的分析滤波器组AFB1,AFB2,用于按N个子频带信号提供(数字化的)第一和第二电信号。
目标视向为基于到达方向(DOA)估计更新的位置估计量。通常,定向系统在比来自分析滤波器组的频带数量N少的频道K中运行。由于目标位置估计与定向系统的频率分辨率无关,我们可在甚至更少的频带中应用似然估计量,因而我们可在甚至更少的频带中应用计算。
获得Q个频带的一种方式是将K个频道中的部分合并为Q个频道,如图7中所示。图7示出了根据本发明第二实施例的听力装置。图7的听力装置包括与图6的听力装置一样的功能单元。如图6中一样,似然函数在不同于降噪系统中使用的频道数量K的频道数量Q中进行估计。与图6的实施例相反,其中K和Q个频道通过合并初始的N个频带获得,图7中的Q个频道通过将K个频道合并为Q个频道获得。
在实施例中,仅在低频率范围的频道被评估。藉此,我们可基于自由场模型使用字典。使得例如所有元素仅包含延迟。由d/c cos(θ)给出,其中d为每一仪器中传声器之间的距离,c为声音速度。藉此,所有字典元素可基于校准进行计算,其中最大延迟已被估计。该延迟可离线或在线估计,例如基于测得的延迟的柱图分布。
可以看出,将初始的例如16个频带合并为更少的频带影响弥散噪声场中从180度入射的声音的似然函数的形状。此外,不包括更高的频道可能有利,因为最高频道中的相对传递函数跨个体变化,及在仪器重新安装在耳朵处时我们看到由于稍微不同的放置引起的变化。使分开的频道用于DOA估计和降噪系统需要更多存储器。需要一些存储器分配用于字典权重及对应的定向权重。在2个传声器的情形下的存储器分配考虑在图8中示出。
图8示出了用于根据本发明的包括两个传声器的传声器系统的字典元素和权重的示例性存储器分配。
首先考虑DOA估计,视向量d=[d1 d2]T及对应的目标抵消波束形成器权重bθ=[b1b2]T应被保存。由于d1=1及我们可按我们喜欢的换算bθ,定向元素dθ和bθ中的每一个需要每频道Q一个复数,总共2x Q x NΘ个实值。原则上,bθ可从dθ进行计算,但在大多数情形下,将bθ保存在存储器中而不是每次重新计算bθ有利。对应于字典元素的定向权重也需要被保存。如果K≠Q,需要单独的权重。原则上,所有定向权重可从视向量dθ直接获得,但由于同样的权重必须连续计算,预存所有必要的权重是有利的。如果我们直接实施MVDR波束形成器,我们可从视向量dθ直接获得权重,如等式(9)
应注意,MVDR波束形成器中使用的Cv的估计量可不同于ML DOA估计中使用的Cv的估计量,因为对于DOA估计和降噪,可能不同的平滑时间常数最佳。
在双传声器情形下,如果MVDR波束形成器经GSC结构实施,我们需要全向波束形成器的固定权重aθ及其对应的目标抵消波束形成器权重bθ,使得
wθ=aθ–β*bθ(41)
其中*指复共轭,及β为按下式估计的自适应参数
注意,aθ∝dθ。在该情形下,我们需要连同目标抵消波束形成器权重及(非必须地)用于获得固定波束形成器权重的一组固定值βfix一起保存aθ=[a1 a2]。由于MVDR波束形成器对角度分辨率不太敏感,我们可仅保存比字典元素数量小数量Ω的权重aθ。但由于目标抵消波束形成器权重也必须结合(空间)后滤波器使用(例如参见图8),目标抵消波束形成器权重应首选以与字典元素数量同样数量的权重进行保存。
回想似然函数
我们注意到,在语音不存在时,仅部分项(仅取决于l0)被更新。我们因而可节省部分计算,因为一些项仅需要在存在语音时更新。由于方向仅需要在存在语音时更新,在存在语音期间我们可选择仅更新似然的其它项。此外,为节省计算,我们还可选择忽略似然函数中的一些项,因为不是所有项均具有同等的权重。例如,我们可将似然估计为
获得方向的稳定估计量
由于视向量的变化可导致合成波束形成器中听得见的变化,应避免视向θ太频繁的变化。由信号处理引起的听得见的变化通常不合需要。为获得稳定估计量,估计的协方差矩阵的平滑时间常数可被调整(参见下面提及自适应协方差矩阵平滑的内容)。此外,我们例如可通过修改先验概率而将更高的概率分配给当前估计的方向。跨时间的平滑也可依照柱图实施,对最可能方向计数。柱图可用于调整先验概率。同样,为了减少方向变化,变化应仅在当前方向的似然已变得不可能时才被允许。除了跨频率平滑之外,我们也可应用跨方向的平滑使得附近方向变得更可能。在实施例中,传声器系统配置成在旧视向量估计量与新视向量估计量之间渐变(以避免可能产生非自然信号的突变)。可在似然估计量中导致误差的其它因素为反馈。如果在一些频道中反馈通路凌驾于信号之上,其也可影响似然。在频道中高反馈量的情形下,在估计跨频率的联合似然时,该频道应不被考虑,即
其中ρk为0和1之间的加权函数,在没有反馈的情形下其接近或等于1,及在高反馈量的情形下其接近或等于0。在实施例中,加权函数按对数标尺给出。
图12示出了在根据本发明的听力装置的正向通路中提供波束成形信号的处理流的实施例。输入变换器(传声器M1,M2)从环境拾取声音并提供时域(如数字化)信号x1,x2。每一传声器信号x1,x2通过分析滤波器组转换到频域。在每一频道k中,基于话音活动估计量和/SNR估计量估计和更新协方差矩阵Cx和Cv。协方差矩阵用于估计字典Θ中的部分或所有元素的似然函数,参见似然估计量模块。评估的似然函数Lθ(可能及关于字典元素的先验信息p(θ))用于找到最可能方向或者多个最可能方向,参见提取最可能方向模块。在实施例中,其中自我话音字典元素被包括在似然计算中,“自我话音标志”可由提取最可能方向模块提供,例如结合协方差矩阵的更新用在本发明的算法中,或者由该装置的其它算法或单元提供。估计的方向θ*可被发现为跨所有频道的单一方向及基于(如双耳助听器系统的,参见记为的天线符号Lθext)另一仪器的估计的似然Lθext。基于估计的方向,确定导向向量dθ(或者视向)是否应被更新,参见改变导向向量dθ模块。基于导向向量dθ,波束形成器权重wθ被估计,参见估计波束形成器权重模块,并应用于传声器信号(可能结合其它增益贡献,参见将权重应用于传声器Y=wθ HX模块)以提供合成波束成形信号Y。波束成形信号Y被馈给合成滤波器组,从而提供合成时域信号y。合成的信号y通过输出变换器SPK呈现给听者。
估计波束形成器权重模块需要噪声协方差矩阵Cv作为输入以提供波束形成器权重估计量,例如参见等式(9)或等式(41)、(42)。应注意,用于提供波束形成的噪声协方差矩阵Cv可不同于用于DOA估计量的那些进行估计(不同的时间常数、平滑)。
用于准确的目标估计和跟踪的自适应协方差矩阵平滑的方法
在本发明的另一方面,自适应平滑协方差矩阵的方法概述如下。该方案的特别用途是用于(自适应)估计来自目标声源的声音到人(如助听器例如根据本发明的助听器的用户)的到达方向。该方案在到感兴趣声源的方向随时间动态改变的环境中或情形下有利。
相较于上面结合图10和11A-11F概述的基于SNR的平滑,该方法被例示为用于协方差矩阵Cx和Cv(在DOA估计中使用)的平滑的备选(或另外的)方案。
自适应协方差矩阵方案在我们2017年5月30日申请的名称为“A hearing aidcomprising a beam former filtering unit comprising a smoothing unit”的未决欧洲专利申请EP17173422.1(公开号为EP3253075A1)中描述。
信号模型
我们考虑入射在由M个传声器组成的传声器阵列的第i个传声器上的信号x的下述信号模型:
xi(n)=si(n)+vi(n) (101)
其中s为目标信号,v为噪声信号,及n指时间样本指数。对应的向量记法为
x(n)=s(n)+v(n) (102)
其中x(n)=[x1(n);x2(n),…,xM(n)]T。在下面,我们在时频域考虑该信号模型。对应的模型因而由下式给出
X(k,m)=S(k,m)+V(k,m)(103)
其中k指频道指数,及m指时间帧指数。同样,X(k,m)=[X1(k,m),X2(k,m),…,XM(k,m)]T。在第i个传声器处的信号xi为目标信号si与噪声vi的线性混合。vi为来自不同方向的所有噪声贡献及传声器噪声的和。参考传声器处的目标信号sref由目标信号s与目标位置和参考传声器位置之间的声学传递函数h卷积给出。另一传声器处的目标信号因而由参考传声器处的目标信号与传声器之间的相对传递函数d=[1,d2,…,dM]T卷积给出,即si=s*h*di。相对传递函数d取决于目标信号的位置。由于这通常为感兴趣的方向,我们将d称为视向量(参见如先前定义的d(l)=d’(l)/d’i(l))。在每一频道,我们因而定义参考传声器处的目标功率谱密度即
其中<·>指预期值。类似地,参考传声器处的噪声功率谱密度由下式给出
对于纯净信号s,第k个频道处的传声器间互谱协方差矩阵则由下式给出
其中H指厄米转置。我们注意到,M x M矩阵Cs(k,m)为秩1矩阵,因为Cs(k,m)的每一列与d(k,m)成正比。类似地,入射在传声器阵列上的噪声信号的互功率谱密度矩阵由下式给出
其中Γ(k,m0)为在过去的某一时间(帧指数m0)测得的、噪声的M x M噪声协方差矩阵。由于对于每一频道指数,所有运算均一样,为了记法方便,在下面只要可能,我们跳过频率指数k。类似地,只要可能,我们跳过时间帧指数m。有噪声信号的传声器间互功率谱密度矩阵由下式给出
C=Cs+Cv (108)
其中目标和噪声信号被假定不相关(其中和分别对应于目标信号λS(l)和噪声信号λV(l)的功率谱密度psd,如先前定义的)。描述目标信号的第一项Cs为秩1矩阵的事实意味着语音信号的有益部分(即目标部分)被假定相干/定向。语音信号的无益部分(例如由于后期混响引起的信号分量,其通常不相干,例如从许多同时方向到达)由第二项捕获。
协方差矩阵估计
在只有两个传声器的情形下,基于有噪声输入协方差矩阵及仅噪声协方差矩阵的估计量,视向量估计量可被高效率地得出。我们将第一传声器选择为参考传声器。我们的有噪声协方差矩阵估计量由下式给出
其中*指复共轭。我们的有噪声协方差矩阵的每一元素通过对输入信号的外积XXH进行低通滤波而进行估计。我们使用平滑因子α∈[0;1]通过一阶IIR低通滤波器估计每一元素,即
我们因而需要低通滤波四个不同的值(两个实值和一个复值),即和我们不需要因为假定目标位置在语音停顿时不戏剧性改变,即保持来自先前语音时间段的目标信息是有益的,从而使用慢时间常数给出准确的估计量。这意味着,不总是以同样的时间常数更新及在语音停顿时不收敛到(收敛是通常的情形)。在语音不存在的长时间段中,估计量将(非常缓慢地)朝向Cno收敛,使用接近于1的。协方差矩阵Cno可表示目标DOA为零度(前面方向)的情形,使得在不存在语音时该系统使前面方向优先。Cno例如可被选择为Cx的初始值。
以类似的方式,我们估计噪声协方差矩阵中的元素,在该情形下
该噪声协方差矩阵仅在存在噪声时更新。是否存在目标可通过基于调制的话音活动检测器确定。应注意,“目标存在”(参见图13C)不必然与“仅噪声”的反义相同。控制更新的VAD指示器可从瞬间SNR或者调制指数估计量的不同阈值得到。
自适应平滑
视向量估计的性能高度取决于平滑因子α的选择,其控制的更新速率。当α接近于零时,准确的估计量可在空间固定的情形下获得。当α接近于1时,估计器将能够跟踪快速空间变化,例如当跟踪对话情形下的两个讲话者时。理想地,我们想要获得准确的估计量及快速跟踪能力,这在平滑因子方面是矛盾,需要找到良好的平衡。为了同时获得空间固定情形下的准确估计量和快速跟踪能力,提出自适应平滑方案。
为了控制可变平滑因子,归一化的协方差
在实际实施中,例如便携装置如助听器,我们首选避免除法并减少计算数量,因而我们提出下面的对数归一化协方差度量
根据
根据
图13A、13B和13C示出了上面概述的可变时间常数协方差估计器的一般实施例。
图13A示意性地示出了根据本发明的协方差平滑单元。该协方差单元包括预平滑单元PreS和可变平滑单元VarS。预平滑单元PreS在K个频带中进行瞬时协方差矩阵C(m)=X(m)X(m)H(例如表示有噪声输入信号X的协方差/方差)的随时间的初始平滑并提供预平滑的协方差矩阵估计量X11,X12和X22(<C>pre=<X(m)X(m)H>,其中<·>指随时间的LP平滑)。可变平滑单元VarS根据声学环境的变化基于自适应确定的上升和释放时间进行信号X11,X12和X22的可变平滑,并提供平滑的协方差估计器和
预平滑单元PreS随时间进行初始平滑(由用于提供输入信号Xi(k,m)的量值平方的ABS平方单元│·│2和随后的由低通滤波器LP提供的低通滤波图示)以提供预平滑的协方差矩阵Cx11,Cx12和Cx22,如图13B中所示。X1和X2例如可表示助听器的第一(如前面)和第二(如后面)(通常有噪声的)传声器信号。元素Cx11和Cx22表示方差(如输入信号的振幅的变化),而元素Cx12表示协方差(例如代表相位(因而及方向)(及振幅)变化)。
目标存在输入例如为来自话音活动检测器的控制输入。在实施例中,目标存在输入(参见图13A中的信号TP)为在给定时间帧或时间段存在语音的二元估计量(如1或0)。在实施例中,目标存在输入表示在当前输入信号(如传声器信号之一如X1(k,m))中存在(或不存在)语音的概率。在后一情形下,目标存在输入可取0到1之间的区间中的值。目标存在输入例如可以是来自话音活动检测器(参见图13C中的VAD)的输出,例如如本领域已知的。
快Rel Coef、快Atk Coef、慢Rel Coef和慢Atk Coef分别为固定的(例如在使用该程序之前确定的)快速和慢速上升和释放时间。总的来说,快速上升和释放时间比慢速上升和释放时间短。在实施例中,时间常数(参见图13A中的信号TC)被保存在助听器的存储器中(例如参见图13A中的MEM)。在实施例中,时间常数可在助听器使用期间更新。
应注意,y=log(max(Im{x12}+1,0))-log(x11)的计算目标(参见图13C右部中形成平滑因子的确定的一部分的两个实例)是检测声学场景的变化,例如目标方向的突然变化(例如在讨论/对话中由于当前讲话者的切换)。图13C的示例性实施因为其计算简单(这在具有有限功率预算的听力装置中很重要)而被选择,如通过转换到对数域提供。数学上更正确(但计算上更复杂)的实施是计算y=x12/x11。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非另行指明,在此公开的任何方法的步骤不精确限于相应说明的顺序。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
因而,本发明的范围应依据权利要求进行判断。
参考文献
[1]D.R.Brillinger,“Time Series:Data Analysis and Theory”.Philadelphia:SIAM,2001.
[2]R.Martin,“Noise Power Spectral Density Estimation Based on OptimalSmoothing and Minimum Statistics,"IEEE Trans.Speech,Audio Processing,vol.9,no.5,pp.504-512,July,2001.
[3]U.Kjems and J.Jensen,“Maximum likelihood noise covariance matrixestimation for multi-microphone speech enhancement,"in Proc.20th EuropeanSignal Processing Conference(EU-SIPCO),2012,pp.295-299.
[4]H.Ye and R.D.DeGroat,“Maximum likelihood doa estimation andasymptotic cramér-rao bounds for additive unknown colored noise,"IEEETrans.Signal Processing,1995.
[5]J.Jensen and M.S.Pedersen,“Analysis of beamformer directed single-channel noise reduction system for hearing aid applications,"in Proc.IEEEInt.Conf.Acoust.,Speech,Signal Processing,April 2015,pp.5728-5732.
[6]K.U.Simmer,J.Bitzer,and C.Marro,“Post-Filtering Techniques,"inMicrophone Arrays-Signal Processing Techniques and Applications,M.Brandsteinand D.Ward,Eds.Springer Verlag,2001.
EP3300078A1(Oticon)28.03.2018
EP3185590A1(Oticon)28.06.2017
EP3253075A1(Oticon)06.12.2017
Claims (14)
1.一种传声器系统,包括:
-M个传声器,其中M等于或大于2,其适于从环境拾取声音及提供M个对应的电输入信号xm(n),m=1,…,M,n表示时间,给定传声器处的环境声音包括从目标声源的位置经声学传播通道传播的目标声音信号sm(n)与所涉及传声器的位置处可能存在的附加噪声信号vm(n)的混合;
-连接到所述M个传声器的信号处理器,所述信号处理器配置成在下述基础上估计目标声音信号相对于传声器系统的方向和/或位置:
--最大似然方法学;
--包括称为RTF向量的向量dθ的字典的数据库Θ,其元素为相对传递函数dm(k),所述相对传递函数表示从所述目标声源到所述M个传声器中的每一个(m=1,…,M)相对于所述M个传声器之中的参考传声器的随方向而变的声学传递函数,k为频率指数;
-根据有噪声目标信号协方差矩阵Cx和噪声协方差矩阵Cv确定字典Θ中的部分或所有元素的似然函数或者对数似然函数,其中所述有噪声目标信号协方差矩阵Cx和所述噪声协方差矩阵Cv由平滑后的估计量表示,其中所述有噪声目标信号协方差矩阵和/或所述噪声协方差矩阵的平滑后的估计量和/或通过自适应协方差平滑确定,其平滑系数根据述有噪声目标信号协方差矩阵和所述噪声协方差矩阵的变化确定;及在此基础上,
-确定所述各个字典元素中的部分或者全部的后验概率或者log(后验)概率;
-通过确定所确定的后验概率或者log(后验)概率之中分别具有最大后验概率或者log(后验)概率的一个或多个值而确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
2.根据权利要求1所述的传声器系统,其中所述有噪声目标信号协方差矩阵Cx和所述噪声协方差矩阵Cv基于话音活动估计量和/或SNR估计量进行估计和更新。
4.根据权利要求1所述的传声器系统,适于佩戴在用户耳朵处,及其中所述数据库Θ的所述相对传递函数dm(k)表示用户的头部和躯干的随方向而变的滤波效应,其为从所述目标声源到所述M个传声器中的每一个相对于所述M个传声器之中的参考传声器的随方向而变的声学传递函数的形式。
6.根据权利要求1所述的传声器系统,其中信号处理器配置成利用不是源自所述电输入信号的信息确定到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置。
7.根据权利要求6所述的传声器系统,其中所述信息包括关于眼睛凝视的信息和/或关于头部位置和/或头部运动的信息。
8.根据权利要求6所述的传声器系统,其中所述信息包括存储在传声器系统中的信息或者从另一装置接收的信息。
9.根据权利要求1所述的传声器系统,其中RTF向量dθ的数据库Θ包括自我话音视向量。
10.根据权利要求1所述的传声器系统,其中所述字典元素被均匀分布在反余弦函数标尺上,使得所述字典元素关于传声器延迟均匀分布。
11.根据权利要求1所述的传声器系统,其中所述电输入信号的协方差矩阵Cx,Cv的自适应平滑包括根据第一和第二电输入信号的协方差随时间的变化ΔC自适应改变所述平滑的时间常数τatt,τrel,其中所述时间常数对于低于第一阈值ΔCth1的协方差变化具有第一值τatt1,τrel1及对于高于第二阈值ΔCth2的协方差变化具有第二值τatt2,τrel2,其中所述时间常数的第一值大于对应的第二值,第一阈值ΔCth1小于或等于第二阈值ΔCth2。
12.一种听力装置,适于佩戴在用户耳朵处或者耳朵中,或者适于完全或部分植入在用户耳朵处的头部中,所述听力装置包括根据权利要求1所述的传声器系统。
13.根据权利要求12所述的听力装置,包括波束形成器滤波单元,其在工作时连接到所述M个传声器中的至少部分并配置成接收所述电输入信号及配置成根据所述信号处理器估计的、到所述目标声源的一个或多个最可能的方向或者所述目标声源的一个或多个最可能的位置提供波束成形信号。
14.根据权利要求12所述的听力装置,包括助听器、耳麦、头戴式耳机、耳朵保护装置或其组合。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17175303 | 2017-06-09 | ||
EP17175303.1 | 2017-06-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109040932A CN109040932A (zh) | 2018-12-18 |
CN109040932B true CN109040932B (zh) | 2021-11-02 |
Family
ID=59034597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810595855.1A Active CN109040932B (zh) | 2017-06-09 | 2018-06-11 | 传声器系统及包括传声器系统的听力装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10631102B2 (zh) |
EP (2) | EP3413589B1 (zh) |
CN (1) | CN109040932B (zh) |
DK (1) | DK3413589T3 (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339962B2 (en) * | 2017-04-11 | 2019-07-02 | Texas Instruments Incorporated | Methods and apparatus for low cost voice activity detector |
DE102018208657B3 (de) * | 2018-05-30 | 2019-09-26 | Sivantos Pte. Ltd. | Verfahren zur Verringerung eines Auftretens einer akustischen Rückkopplung in einem Hörgerät |
EP3837861B1 (en) * | 2018-08-15 | 2023-10-04 | Widex A/S | Method of operating a hearing aid system and a hearing aid system |
EP3629602A1 (en) | 2018-09-27 | 2020-04-01 | Oticon A/s | A hearing device and a hearing system comprising a multitude of adaptive two channel beamformers |
US10728655B1 (en) | 2018-12-17 | 2020-07-28 | Facebook Technologies, Llc | Customized sound field for increased privacy |
DK3672280T3 (da) | 2018-12-20 | 2023-06-26 | Gn Hearing As | Høreaggregat med accelerationsbaseret stråleformning |
EP3716650B1 (en) * | 2019-03-28 | 2022-07-20 | Sonova AG | Grouping of hearing device users based on spatial sensor input |
CN109787930A (zh) * | 2019-03-29 | 2019-05-21 | 苏州东奇信息科技股份有限公司 | 一种基于mppsk调制方式的抗脉冲干扰方法 |
US10957299B2 (en) * | 2019-04-09 | 2021-03-23 | Facebook Technologies, Llc | Acoustic transfer function personalization using sound scene analysis and beamforming |
EP3726856B1 (en) | 2019-04-17 | 2022-11-16 | Oticon A/s | A hearing device comprising a keyword detector and an own voice detector |
CN110544532B (zh) * | 2019-07-27 | 2023-07-18 | 华南理工大学 | 一种基于app的声源空间定位能力检测系统 |
US11743640B2 (en) | 2019-12-31 | 2023-08-29 | Meta Platforms Technologies, Llc | Privacy setting for sound leakage control |
US11212606B1 (en) | 2019-12-31 | 2021-12-28 | Facebook Technologies, Llc | Headset sound leakage mitigation |
US11055533B1 (en) | 2020-01-02 | 2021-07-06 | International Business Machines Corporation | Translating sound events to speech and AR content |
US11375322B2 (en) * | 2020-02-28 | 2022-06-28 | Oticon A/S | Hearing aid determining turn-taking |
US11134349B1 (en) | 2020-03-09 | 2021-09-28 | International Business Machines Corporation | Hearing assistance device with smart audio focus control |
US11259127B2 (en) * | 2020-03-20 | 2022-02-22 | Oticon A/S | Hearing device adapted to provide an estimate of a user's own voice |
US11632635B2 (en) | 2020-04-17 | 2023-04-18 | Oticon A/S | Hearing aid comprising a noise reduction system |
CN112182983B (zh) * | 2020-11-09 | 2023-07-25 | 中国船舶科学研究中心 | 计及海底地形及波浪影响的浮体水弹性响应分析方法 |
EP4007308A1 (en) | 2020-11-27 | 2022-06-01 | Oticon A/s | A hearing aid system comprising a database of acoustic transfer functions |
EP4040801A1 (en) | 2021-02-09 | 2022-08-10 | Oticon A/s | A hearing aid configured to select a reference microphone |
EP4138418A1 (en) | 2021-08-20 | 2023-02-22 | Oticon A/s | A hearing system comprising a database of acoustic transfer functions |
EP4156711A1 (en) * | 2021-09-28 | 2023-03-29 | GN Audio A/S | Audio device with dual beamforming |
EP4287646A1 (en) | 2022-05-31 | 2023-12-06 | Oticon A/s | A hearing aid or hearing aid system comprising a sound source localization estimator |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010114829A (ja) * | 2008-11-10 | 2010-05-20 | Yamaha Corp | 信号処理装置およびプログラム |
CN104703106A (zh) * | 2013-12-06 | 2015-06-10 | 奥迪康有限公司 | 用于免提通信的助听器装置 |
CN105516846A (zh) * | 2014-10-08 | 2016-04-20 | Gn奈康有限公司 | 用于优化耳机中的噪声消除的方法及用于话音通信的耳机 |
CN105872923A (zh) * | 2015-02-11 | 2016-08-17 | 奥迪康有限公司 | 包括双耳语音可懂度预测器的听力系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1473964A3 (en) * | 2003-05-02 | 2006-08-09 | Samsung Electronics Co., Ltd. | Microphone array, method to process signals from this microphone array and speech recognition method and system using the same |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
US8285383B2 (en) * | 2005-07-08 | 2012-10-09 | Cochlear Limited | Directional sound processing in a cochlear implant |
EP3190587B1 (en) | 2012-08-24 | 2018-10-17 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
US9549253B2 (en) * | 2012-09-26 | 2017-01-17 | Foundation for Research and Technology—Hellas (FORTH) Institute of Computer Science (ICS) | Sound source localization and isolation apparatuses, methods and systems |
EP2848007B1 (en) * | 2012-10-15 | 2021-03-17 | MH Acoustics, LLC | Noise-reducing directional microphone array |
EP2928211A1 (en) * | 2014-04-04 | 2015-10-07 | Oticon A/s | Self-calibration of multi-microphone noise reduction system for hearing assistance devices using an auxiliary device |
US10181328B2 (en) * | 2014-10-21 | 2019-01-15 | Oticon A/S | Hearing system |
EP3057337B1 (en) * | 2015-02-13 | 2020-03-25 | Oticon A/s | A hearing system comprising a separate microphone unit for picking up a users own voice |
EP3185590B1 (en) | 2015-12-22 | 2020-08-19 | Oticon A/s | A hearing device comprising a sensor for picking up electromagnetic signals from the body |
DK3253075T3 (en) | 2016-05-30 | 2019-06-11 | Oticon As | A HEARING EQUIPMENT INCLUDING A RADIO FORM FILTER UNIT CONTAINING AN EXCHANGE UNIT |
EP3300078B1 (en) | 2016-09-26 | 2020-12-30 | Oticon A/s | A voice activitity detection unit and a hearing device comprising a voice activity detection unit |
-
2018
- 2018-06-06 EP EP18176227.9A patent/EP3413589B1/en active Active
- 2018-06-06 DK DK18176227.9T patent/DK3413589T3/da active
- 2018-06-06 EP EP22206662.3A patent/EP4184950A1/en active Pending
- 2018-06-08 US US16/003,396 patent/US10631102B2/en active Active
- 2018-06-11 CN CN201810595855.1A patent/CN109040932B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010114829A (ja) * | 2008-11-10 | 2010-05-20 | Yamaha Corp | 信号処理装置およびプログラム |
CN104703106A (zh) * | 2013-12-06 | 2015-06-10 | 奥迪康有限公司 | 用于免提通信的助听器装置 |
CN105516846A (zh) * | 2014-10-08 | 2016-04-20 | Gn奈康有限公司 | 用于优化耳机中的噪声消除的方法及用于话音通信的耳机 |
CN105872923A (zh) * | 2015-02-11 | 2016-08-17 | 奥迪康有限公司 | 包括双耳语音可懂度预测器的听力系统 |
Also Published As
Publication number | Publication date |
---|---|
EP4184950A1 (en) | 2023-05-24 |
EP3413589B1 (en) | 2022-11-16 |
DK3413589T3 (da) | 2023-01-09 |
EP3413589A1 (en) | 2018-12-12 |
US10631102B2 (en) | 2020-04-21 |
CN109040932A (zh) | 2018-12-18 |
US20180359572A1 (en) | 2018-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109040932B (zh) | 传声器系统及包括传声器系统的听力装置 | |
CN108600907B (zh) | 定位声源的方法、听力装置及听力系统 | |
US10362414B2 (en) | Hearing assistance system comprising an EEG-recording and analysis system | |
US11109163B2 (en) | Hearing aid comprising a beam former filtering unit comprising a smoothing unit | |
US10945079B2 (en) | Hearing system configured to localize a target sound source | |
EP2916321B1 (en) | Processing of a noisy audio signal to estimate target and noise spectral variances | |
CN109951785B (zh) | 听力装置及包括双耳降噪系统的双耳听力系统 | |
CN109660928B (zh) | 包括用于影响处理算法的语音可懂度估计器的听力装置 | |
EP3704874B1 (en) | Method of operating a hearing aid system and a hearing aid system | |
US9439005B2 (en) | Spatial filter bank for hearing system | |
US10425745B1 (en) | Adaptive binaural beamforming with preservation of spatial cues in hearing assistance devices | |
WO2019086439A1 (en) | Method of operating a hearing aid system and a hearing aid system | |
EP4287646A1 (en) | A hearing aid or hearing aid system comprising a sound source localization estimator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |