CN117156364A - 包括声源定位估计器的助听器或助听器系统 - Google Patents

包括声源定位估计器的助听器或助听器系统 Download PDF

Info

Publication number
CN117156364A
CN117156364A CN202310638104.4A CN202310638104A CN117156364A CN 117156364 A CN117156364 A CN 117156364A CN 202310638104 A CN202310638104 A CN 202310638104A CN 117156364 A CN117156364 A CN 117156364A
Authority
CN
China
Prior art keywords
hearing aid
transfer function
signal
user
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310638104.4A
Other languages
English (en)
Inventor
J·詹森
P·霍昂
S·B·B·汤姆森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oticon AS
Original Assignee
Oticon AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oticon AS filed Critical Oticon AS
Publication of CN117156364A publication Critical patent/CN117156364A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/405Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/604Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of acoustic or vibrational transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/60Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles
    • H04R25/609Mounting or interconnection of hearing aid parts, e.g. inside tips, housings or to ossicles of circuitry
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了包括声源定位估计器的助听器或助听器系统,其中所述助听器包括:包括M个传声器的传声器系统;连接到M个传声器并配置成处理电输入信号的处理器;及数据库(Θ),包括在传声器系统安装在自然人或机器人的耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同候选位置(θi)的多个声学传递函数向量(d(k,θi));及与所述声学传递函数向量(d(k,θi))中的至少部分以及用户的不同眼睛注视方向(φj)有关的多个后验概率(p);其中,所述处理器配置成根据下述因素确定目标声源相对于用户的当前位置(θi):所述时变电输入信号(ym(n))的当前值;提供关于用户当前的眼睛注视方向的信息的时变信号(φ(n));所述数据库(Θ)的所述声学传递函数向量(d(k,θi))和所述后验概率(p(d(k,θi)|φj))。

Description

包括声源定位估计器的助听器或助听器系统
技术领域
本申请涉及配置成由用户佩戴(例如完全或部分佩戴在头上,例如佩戴在耳朵处或耳朵中)的听力装置如助听器,尤其涉及相对于用户的声源定位。
背景技术
现代助听器(HA)系统中的大多数信号处理算法受益于知道在特定时刻存在的声源的位置(例如角度和距离)。例如,知道目标声源(相对于助听器用户的鼻子)的位置可显著增加降噪性能。类似地,知道从目标声源到助听器系统的每一传声器的声学传递函数(ATF)可能有用。声学传递函数与目标声源的位置关联,在大多数情形下,如果位置变化,该传递函数(或时域的脉冲响应)也变化。如前所述,HA系统的机载算法可显著受益于访问关于前述传递函数的信息。
传统地,目标位置或ATF基于HA系统的传声器信号即声学信息进行估计。然而,在未来的HA系统中,可能使用另外的信号。例如,未来的HA系统可配置成例如经朝向用户眼睛的(例如安装在眼镜上的)摄像机或者使用电极(例如耳内电极)测量用户的眼睛注视方向,可将该方向展现为用户眼睛的时间的函数(例如参见[7])。暗含的想法在此是,为了读唇或者保持与目标讲话者的社交联系,用户的眼睛趋于至少不时地朝向目标声源。因此,用户的眼睛注视方向通常包含关于声源位置尤其是目标声源的位置的信息。因而,需要提供一种利用该另外的信息源的方案。
发明内容
一方面,本发明涉及用户佩戴的助听器,其包括:A)用于拾取用户环境中的声音的多个传声器;B)数据库,包括b1)表示环境中的目标声源相对于传声器系统的不同候选位置的多个声学传递函数向量及b2)与至少部分声学传递函数向量有关的多个后验概率,每一后验概率表示给定用户的具体眼睛注视方向、给定声学传递函数的概率;及C)处理器,配置成根据1)多个传声器拾取的时变电输入信号的当前值、2)提供关于用户的当前眼睛注视方向的信息的时变信号、及3)所述数据库确定目标声源相对于用户的当前位置。
第一助听器
在本申请的一方面,提供一种配置成佩戴在用户耳朵处或耳朵中的助听器。该助听器包括:
-包括M个传声器的传声器系统,其中M大于或等于2,所述传声器系统适于拾取来自环境的声音并提供M个对应的电输入信号ym(n),m=1,…,M,n表示时间,来自给定传声器处的环境的声音包括下面信号的混合:
--在助听器由用户佩戴时,经从目标声源的位置(θi)到助听器的第m个传声器的声学传播通道传播的目标声音信号xm(n)(n例如为时间指数);及
--第m个传声器的位置处可能存在的、附加或非附加噪声信号vm(n);其中所述声学传播通道建模为ym(n)=xm(n)·hm(n)+vm(n),其中hm(n)为从目标声源到第m个传声器的脉冲响应;
-连接到所述M个传声器并配置成处理所述电输入信号或者源自其的一个或多个信号的处理器;及
-数据库(Θ),包括
--在传声器系统安装在自然人或机器人的耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同候选位置(θi)的多个声学传递函数向量(d(k,θi)),其中给定声学传递函数向量(d(k,θi))的M个向量元素(dm(k,θi))表示声音从目标声源的位置(θi)到所述M个传声器的随频率而变的声学传播,k为频率指数,k=1,…,K,其中K为频带数量,i为位置指数,i=1,…,I,I为不同位置的数量;及
--与所述声学传递函数向量(d(k,θi))中的至少部分以及用户的不同眼睛注视方向有关的多个后验概率(p),其中特定声学传递函数向量(d(k,θi*))的后验概率为该特定声学传递函数向量(d(k,θi*))在给定特定眼睛注视方向/>的概率。
所述处理器可配置成根据下述因素确定目标声源相对于用户的当前位置(θi):
-所述时变电输入信号(ym(n))的当前值;
-提供关于用户当前的眼睛注视方向的信息的时变信号
-所述数据库(Θ)的所述声学传递函数向量(d(k,θi))和所述后验概率
从而可提供改进的助听器。
给定多个传声器提供的当前电输入信号(ym(n))(的观测值)以及关于用户眼睛的当前信息(φ(n))例如眼睛注视信号,处理器配置成确定一具体声学传递函数向量(d(k,θi))的概率。关于用户眼睛的当前信息(φ(n))例如可包括提供关于声学场景的、用户有关的信息的信号该信号/>例如可以是反映听觉注意方向的EEG信号。
声学传递函数向量(d(k,θi))的向量元素(dm(k,θi))可包括相对于传声器系统的M个传声器中的参考传声器(m*)的、从给定声源到该参考传声器(m*)的声学传递函数(d’m*(k,θi))确定的相对声学传递函数。
当前眼睛注视方向例如可相对于用户鼻子的方向提供。当前眼睛注视方向例如可相对于助听器例如助听器的传声器系统提供。当前眼睛注视方向例如可提供为在助听器由用户佩戴时相对于用户和/或助听器的已知方向的眼睛注视角度。关于用户的当前眼睛注视方向的信息例如可由眼睛注视角度(例如在水平面中)表示。
声学传递函数向量的向量元素可由相对声学传递函数构成或者可包括相对声学传递函数。声学传递函数(ATF)可包括相对声学传递函数(RATF)。为从相应的绝对声学传递函数(AATF)Hθ确定所述数据库(Θ)的相对声学传递函数例如RATF向量dθ,RATF向量(dθ)的对应于第m个传声器和方向(θ)的元素为dm(k,θ)=Hm(θ,k)/Hi(θ,k),其中Hi(θ,k)为从给定位置(θ)到传声器系统的M个传声器中的参考传声器(m=i)的(绝对)声学传递函数。前述绝对和相对传递函数(对于给定机器人或自然人)可进行估计(例如在助听器系统使用之前进行测量)并存储在数据库Θ中。对于来自给定位置(θ)的声音,所得的(绝对)声学传递函数(AATF)向量Hθ记为:
H(θ,k)=[H1(θ,k)…HM(θ,k)]T,k=1,…,K
以及来自该位置的相对声学传递函数(RATF)向量dθ记为:
d(θ,k)=[d1(θ,k)…dM(θ,k)]T,k=1,…,K
数据库(Θ)中存储的声学传递函数向量可以时不变。数据库(Θ)中存储的声学传递函数向量的向量元素例如可基于人头模型进行估计(例如测量)。优选地,声学传递函数使用与配置成佩戴在用户头上耳朵处或耳朵中的助听器匹配(例如一样)的助听器(或定向系统)进行确定。作为备选或另外,向量元素可在助听器被安装在人头例如用户的头上(或者另一人的头上,或者具有不同的头部特征(如大小或形状)的几个人的头上)时进行估计(例如测量)。
作为备选或另外,数据库可用助听器使用期间估计的声学传递函数和/或对应的眼睛注视信息进行更新。
当前注视方向可量化为有限数量的方向。方向的数量例如可大于1,例如大于2,例如在3到9的范围中。方向的数量例如可以是奇数。
关于用户的当前眼睛注视方向的信息可通过一个或多个传感器提供。一个或多个传感器可位于助听器中和/或可由助听器访问(例如位于与助听器通信的另一装置中)。一个或多个传感器例如可包括朝向用户眼睛的摄像机(或者一个以上摄像机),例如安装在眼镜上。一个或多个传感器例如可包括头部安装的电极,从而提供EEG或EOG信号或者其它身体产生的信号。
助听器可包括滤波器组,从而使处理器能处理时频表示(k,l)的电输入信号或者源自其的一个或多个信号,其中k为频率指数,l为时间指数。
当前的不同眼睛注视方向可作为多个声学传递函数向量(d(k,θi))中的至少部分的、对于不同眼睛注视方向/>的后验概率的字典(Φj)包括在数据库(Θ)中。
对于i=1,…,I和j=1,…,J,后验概率的值可在助听器使用之前进行计算并存储在数据库(Θ)中。
处理器可配置成对于给定声学传递函数向量(d(k,θi)),根据当前电输入信号(y(n))的似然确定后验概率。当前电输入信号(y(n))为助听器的相应传声器处的电输入信号ym(n),m=1,…,M的值。因此,y(n)=[y1(n),…,yM(n)]。当前电输入信号(y(n))例如在时频域提供为Y(k,l)=[Y1(k,l),…,YM(k,l)]。
处理器可配置成基于使电输入信号(Y(k,l))和时变信号的当前观测值与当前声学传递函数向量(d(k,θ*))关联的统计模型将当前声学传递函数向量(d(k,θ*))确定为展现给定当前电输入信号(Y(k,l))和当前时变信号/>时的条件概率的最大值的声学传递函数向量(d(k,θ*))。统计模型可将当前电输入信号Y(k,l)、表示用户当前的眼睛注视的时变信号/>及相对传递函数(d(k,l,θi))视为随机变量的实现并使用条件概率密度函数p(d(k,l,θi)|Y(k,l),φj(n))描述它们的相互依存性。
处理器可配置成根据声学传递函数向量(d(k,θi))在给定当前电输入信号(Y(k,l))和与用户当前的眼睛注视相关联的当前时变信号时的条件概率密度函数(p(d(k,l,θi)|Y(k,l),φj(n)))确定当前目标信号(X*(k,l))。从而,有利于波束形成,因为可确定波束形成器滤波器系数。
处理器可配置成根据当前声学传递函数向量(d(k,θ*))确定波束形成器滤波器的权重。
处理器可配置成通过识别所选声学传递函数(d*(k,θi))的最可能的指数(i*)而估计目标声源的给定频率k时的物理位置(θ*)。有利地,给定频率可以是相当低的音频频率,例如高概率存在语音的频率,例如低于2kHz(及例如高于250Hz)的频率。这具有处理复杂性相当低的优点。
处理器可配置成通过找到使下式最大化的指数(i*)而估计目标的物理位置(θ*):
其中Z(·)为组合跨频率的概率的函数,例如所有每频率概率的积。
在给定当前电输入信号(Y(k,l))和表示用户的当前眼睛注视的时变信号时,提供相对传递函数(d(k,θi))为当前使用的相对传递函数(d(k,l,θi))的概率的条件概率密度函数(p(d(k,l,θi)|Y(k,l),φj(n)))可跨多个(L个)时间单位积分。
对时间积分例如在讨论中两个以上讲话者活跃的情形下适合,从而使能1)在两个以上讲话者之间切换波束形成器或者2)使能产生朝向两个以上讲话者的两个以上“固定”波束形成器。在第一情形下,多个时间单位可对应于L为毫秒(ms)级,例如在10到50ms的范围中如20ms。在第二情形下,多个时间单位可对应于L为秒(s)级,例如在5s到10s的范围中。
条件概率p(d(k,l,θi)|Y(k,l),φj(n))的对时间积分例如可表达为:
其中l表示当前时间,L表示平均时间,例如参见图6。
助听器可由空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者可包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。
助听器可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以补偿用户的听力受损。助听器可包括用于增强输入信号并提供处理后的输出信号的信号处理器。
处理器(例如信号处理器)可配置成增强电输入信号并根据其提供处理后的电输出信号。
助听器可包括输出单元,用于基于处理后的电信号提供由用户感知为声学信号的刺激。输出单元可包括耳蜗植入物的多个电极(对于CI型助听器而言)或者骨导助听器的振动器。输出单元可包括输出变换器。输出变换器可包括用于将刺激作为声信号(例如处理后的电输入信号)提供给用户的接收器(扬声器)(例如在声学(基于空气传导的)助听器中)。输出变换器可包括用于将刺激作为颅骨的机械振动提供给用户的振动器(例如在附着到骨头的或骨锚式助听器中)。输出单元可(另外或作为备选)包括用于将助听器拾取的声音(例如经网络,例如在电话运行模式下,或在耳机配置中)传给另一装置如远端通信伙伴的发射器。
助听器可包括用于提供表示声音的电输入信号的输入单元。输入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入单元可包括无线接收器,用于接收包括或表示声音的无线信号并提供表示所述声音的电输入信号。
无线接收器和/或发射器例如可配置成接收和/或发射在无线电频率范围(3kHz到300GHz)的电磁信号。无线接收器和/或发射器例如可配置成接收和/或发射在光频率范围(例如红外光300GHz到430THz或者可见光如430THz到770THz)的电磁信号。
助听器可包括定向传声器系统,其适于对来自环境的声音进行空间滤波从而增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。定向系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可以例如现有技术中描述的多种不同方式实现。在助听器中,传声器阵列波束形成器通常用于空间上衰减背景噪声源。波束形成器可包括线性约束最小方差(LCMV)波束形成器。许多波束形成器变型可在文献中找到。最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。理想地,MVDR波束形成器保持来自目标方向(也称为视向)的信号不变,而最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是MVDR波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表示优点。
助听器可包括天线和收发器电路,其使能建立到娱乐设备(例如电视机)、通信装置(如电话)、无线传声器或另一助听器等的无线链路。助听器因而可配置成从另一装置无线接收直接电输入信号。类似地,助听器可配置成将直接电输出信号无线传给另一装置。直接电输入或者输出信号可表示或包括音频信号和/或控制信号和/或信息信号。
一般地,助听器的天线及收发器电路建立的无线链路可以是任何类型。无线链路可以是基于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应耦合的感应链路。无线链路可基于远场电磁辐射。优选地,用于在助听器和另一装置之间建立通信链路的频率低于70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在5.8GHz范围中或在60GHz范围中(ISM=工业、科学和医学,这样的标准化范围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线链路可基于蓝牙技术(如低功耗蓝牙技术)或超宽带(UWB)技术。
助听器可以是或可形成便携式(即配置成可穿戴的)设备的一部分,例如包括本地能源如电池例如可再充电电池的设备。助听器例如可以是低重量、容易穿戴的设备,例如具有小于100g如小于20g的总重量。
助听器可包括助听器的输入和输出单元之间的、用于处理音频信号的“正向”(或“信号”)通路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要(例如听力受损)提供随频率而变的增益。助听器可包括具有用于分析信号和/或控制正向通路的处理的功能件的“分析”通路。分析通路和/或正向通路的部分或所有信号处理可在频域进行,在该情形下,助听器包括适当的分析和合成滤波器组。分析通路和/或正向通路的部分或所有信号处理可在时域进行。
表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值,Nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用Nb比特量化(导致音频样本的2Nb个不同的可能的值)。数字样本x具有1/fs的时间长度,如50μs,对于fs=20kHz。多个音频样本可按时间帧安排。一时间帧可包括64个或128个音频数据样本。根据实际应用可使用其它帧长度。
助听器可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输入(例如来自输入变换器如传声器)进行数字化。助听器可包括数模(DA)转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
助听器如输入单元和/或天线及收发器电路可包括变换单元,用于将时域信号转换为变换域(例如频域或拉普拉斯(Laplace)域、Z变换、小波变换等)中的信号。变换单元可由时频(TF)转换单元构成或包括时频转换单元,其用于提供输入信号的时频表示。时频表示可包括所涉及信号在特定时间和频率范围的相应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频域中的(时变)信号的傅里叶变换单元(例如离散傅里叶变换(DFT)算法、短时傅里叶变换(STFT)算法、或类似算法)。助听器考虑的、从最小频率fmin到最大频率fmax的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分,例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率fmax的两倍,即fs≥2fmax。助听器的正向通路和/或分析通路的信号可拆分为NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50,如大于100,如大于500,至少其部分个别进行处理。助听器可适于在NP个不同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一致(如宽度随频率增加)、重叠或不重叠。
助听器可配置成在不同模式下运行,如正常模式及一个或多个特定模式,例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境如通信模式例如电话模式进行优化。运行模式可包括低功率模式,其中助听器的功能被减少(例如以便节能),例如禁用无线通信和/或禁用助听器的特定特征。
助听器可包括多个检测器,其配置成提供与助听器的当前网络环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外,一个或多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传感器等。
多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中的一个或多个可对频带拆分的信号起作用((时-)频域),例如在有限的多个频带中。
多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。检测器可配置成判定正向通路的信号的当前电平是否高于或低于给定(电平-)阈值。电平检测器作用于全频带信号(时域)。电平检测器作用于频带拆分信号((时-)频域)。
助听器可包括话音活动检测器(VAD),用于估计输入信号(在特定时间点)是否(或者以何种概率)包括话音信号。在本说明书中,话音信号可包括来自人类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。话音活动检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间段分离。话音活动检测器可适于将用户自己的话音也检测为“话音”。作为备选,话音活动检测器可适于从“话音”的检测排除用户自己的话音。
助听器可包括自我话音检测器,用于估计特定输入声音(如话音,如语音)是否(或以何种概率)源自系统用户的话音。助听器的传声器系统可适于能够在用户自己的话音及另一人的话音之间进行区分及可能与无话音声音区分。
多个检测器可包括运动检测器,例如加速度传感器。运动检测器可配置成检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并提供标示该运动的检测器信号。
助听器可包括分类单元,配置成基于来自(至少部分)检测器的输入信号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”可由下面的一个或多个定义:
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由助听器接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它性质);
b)当前声学情形(输入电平、反馈等);
c)用户当前的模式或状态(运动、温度、认知负荷等);
d)助听器和/或与助听器通信的另一装置的当前模式或状态(所选程序、自上次用户交互之后消逝的时间等)。
分类单元可基于或包括神经网络例如经训练的神经网络。
助听器可包括声(和/或机械)反馈控制(如抑制)或者回声消除系统。自适应反馈抵消有能力跟踪反馈通路随时间的变化。其通常基于估计反馈通路的线性时不变滤波器,但滤波器权重随时间更新。滤波器更新可使用随机梯度算法进行计算,包括某一形式的最小均方(LMS)或归一化LMS(NLMS)算法。它们均具有在均方方面使误差信号最小化的性质,NLMS另外使滤波器更新关于某一参考信号的欧几里得范数的平方归一化。
助听器还可包括用于所涉及应用的其它适宜功能,如压缩、降噪等。
助听器可包括听力仪器,例如适于位于用户耳朵处或者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置或其组合。听力系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换器,例如用在音频会议情形),例如包括波束形成器滤波单元,例如提供多个波束形成能力。
第二助听器
在另一方面,进一步提供第二助听器。该助听器包括:
-包括M个传声器的传声器系统,其中M大于或等于2,所述传声器系统适于拾取来自环境的声音并提供M个对应的电输入信号ym(n),m=1,…,M,n表示时间,来自给定传声器处的环境的声音包括在助听器由用户佩戴时从目标声源的位置(θi)传播到助听器的第m个传声器的目标声音信号xm(n);
-连接到所述M个传声器并配置成处理所述电输入信号或者源自其的一个或多个信号的处理器;
-数据库(Θ),包括
--在传声器系统安装在自然人或机器人的头上耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同位置(θi)的多个声学传递函数向量(d(k,θi));及
--与所述声学传递函数向量(d(k,θi))中的至少部分以及关于用户眼睛的参数有关的多个条件概率(p),其中特定声学传递函数向量(d(k,θi*))的后验概率为该特定声学传递函数向量(d(k,θi*))在给定关于用户眼睛的特定参数时的概率;
其中,所述处理器配置成根据a)所述电输入信号(ym(n))、b)所述声学传递函数向量(d(k,θi))、及c)提供所述关于用户眼睛的参数的当前值的信息的时变信号φ(n)确定目标声源的位置(θi)。
条件(或后验)概率描述在给定观测到的、关于用户眼睛的参数的当前信息(φ(n))(该信息例如包括用户的眼睛注视方向、用户的瞳孔大小等)时,给定声学传递函数向量(d(k,θi))“用于”产生观测到的声学信号(即当前电输入信号(ym(n)))的概率。从而,可估计目标声源处于特定位置(θi)的概率。
第一助听器的特征可与第二助听器组合。
第三助听器
在另一方面,进一步提供第三助听器。该助听器包括:
-包括M个传声器的传声器系统,其中M大于或等于2,所述传声器系统适于拾取来自环境的声音并提供M个对应的电输入信号ym(n),m=1,…,M,n表示时间,来自给定传声器处的环境的声音包括在助听器由用户佩戴时从目标声源的位置(θi)传播到助听器的第m个传声器的目标声音信号xm(n);
-连接到所述M个传声器并配置成处理所述电输入信号或者源自其的一个或多个信号的处理器;
-数据库(Θ),包括
--在传声器系统安装在自然人或机器人的头上耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同位置(θi)的多个声学传递函数向量(d(k,θi));及
--与所述声学传递函数向量(d(k,θi))中的至少部分以及用户的不同眼睛注视方向有关的多个条件概率(p),其中特定声学传递函数向量(d(k,θi*))的后验概率为该特定声学传递函数向量(d(k,θi*))在给定特定眼睛注视方向/>时的概率;
其中,所述处理器配置成确定特定声学传递函数向量(d(k,θi))在给定当前电输入信号(ym(n))的观测值以及用户的眼睛注视方向的当前值时的条件概率。
第一助听器的特征可与第三助听器组合。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要求中限定的助听器的应用。可提供在包括一个或多个助听器(如听力仪器)、耳机、耳麦、主动耳朵保护系统等的系统中的应用,例如免提电话系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教室放大系统等。
方法
一方面,还提供配置成佩戴在用户耳朵处或耳朵中的助听器的运行方法,该助听器包括具有M个传声器的传声器系统,其中M大于或等于2,所述传声器系统适于拾取来自环境的声音。所述方法包括:
-通过所述M个传声器提供M个对应的电输入信号ym(n),m=1,…,M,n表示时间,来自给定传声器处的环境的声音包括下面信号的混合:
--在助听器由用户佩戴时,经从目标声源的位置(θi)到助听器的第m个传声器的声学传播通道传播的目标声音信号xm(n)(n例如为时间指数);及
--第m个传声器的位置处可能存在的、附加或非附加噪声信号vm(n);其中所述声学传播通道建模为ym(n)=xm(n)·hm(n)+vm(n),其中hm(n)为从目标声源到第m个传声器的脉冲响应;
-处理所述电输入信号或者源自其的一个或多个信号;及
-提供数据库(Θ),其包括
--在传声器系统安装在自然人或机器人的耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同位置(θi)的多个声学传递函数向量(d(k,θi)),其中给定声学传递函数向量(d(k,θi))的M个向量元素(dm(k,θi))表示声音从目标声源的位置(θi)到所述M个传声器的随频率而变的声学传播,k为频率指数,k=1,…,K,其中K为频带数量,i为位置指数,i=1,…,I,I为不同位置的数量;及
--与所述声学传递函数向量(d(k,θi))中的至少部分以及用户的不同眼睛注视方向有关的多个后验概率(p),其中特定声学传递函数向量(d(k,θi*))的后验概率为该特定声学传递函数向量(d(k,θi*))在给定特定眼睛注视方向/>的概率。
所述处理包括根据下述因素确定目标声源的位置(θi):
-所述时变电输入信号(ym(n))的当前值;
-提供关于用户当前的眼睛注视方向的信息的时变信号
-所述数据库(Θ)的所述声学传递函数向量(d(k,θi))和所述后验概率
在另一方面,提供配置成由用户佩戴的助听器的另一运行方法,该方法包括:
-提供表示用户环境中的声音的时变电输入信号的多个当前值;
-提供数据库,其包括
--表示环境中的目标声源相对于传声器系统的不同候选位置的多个声学传递函数向量;及
-与至少部分声学传递函数向量有关的多个后验概率,每一后验概率表示给定声学传递函数在给定的、用户的特定眼睛注视方向的概率;及
-根据下述因素确定目标声源相对于用户的当前位置:
--由多个传声器拾取的时变电输入信号的当前值;
--提供关于用户的当前眼睛注视方向的信息的时变信号;及
--所述数据库。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合,反之亦然。方法的实施具有与对应装置一样的优点。
计算机可读介质或数据载体
本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机可读介质(数据载体),当计算机程序在数据处理系统(计算机)上运行时,使得数据处理系统执行(实现)上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
计算机程序
此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法(的步骤)。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
听力系统
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器以及包括辅助装置的听力系统。
听力系统可适于在助听器与辅助装置之间建立通信链路以使得信息(例如控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
辅助装置可包括遥控器、智能电话或者其它便携或可穿戴电子装置智能手表等。
辅助装置可由遥控器构成或者包括遥控器,其用于控制助听器的功能和运行。遥控器的功能实施在智能电话中,该智能电话可能运行使能经智能电话控制音频处理装置的功能的APP(助听器包括适当的到智能电话的无线接口,例如基于蓝牙或一些其它标准化或专有方案)。
辅助装置可由音频网关设备构成或者包括音频网关设备,其适于(例如从娱乐装置如TV或音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给助听器。
辅助装置可由另一助听器构成或者可包括另一助听器。听力系统可包括适于实施双耳听力系统例如双耳助听器系统的两个助听器。
APP
另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令,其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细描述的及权利要求中限定的助听器或听力系统的用户接口。该APP可配置成在移动电话如智能电话或另一使能与所述助听器或听力系统通信的便携装置上运行。
本发明的实施例如可用在如助听器、耳麦、耳机、耳朵保护装置或其组合的应用中。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1A示出了根据本发明的第一示例,其示出了对于测试人员佩戴的助听器的给定传声器,用于估计绝对和/或相对声学传递函数(ATFmj,k))的圆上的、可能的目标声源位置(θi,i=1,…,I);
图1B示出了根据本发明的第二示例,其示出了对于测试人员佩戴的助听器的给定传声器,用于估计绝对和/或相对声学传递函数(ATFmj,k))的、具有不同半径(r1,r2)的两个同心圆上的、可能的目标声源位置(θi,i=1,…,I);
图2示出了用户在时间n的候选眼睛注视方向φj(n),j=1,…,J=9的例子;
图3示意性地示出了对于给定测试人员,将助听器HD(或者一对助听器(HDR,HDL))的给定传声器对于不同位置(θi,i=1,…,I)的绝对和/或相对声学传递函数(ATFmj,k))的估计量的组合提供为频率指数(k,k=1,…,K)以及每一声学传递函数(ATFmj,k))对于给定的、用户的不同眼睛注视角度的条件概率p的函数;
图4示意性地示出了根据本发明的助听器的示例性框图;
图5示意性地示出了根据本发明的、包括波束形成器滤波单元的助听器的示例性框图;
图6示意性地示出了给定声学传递函数d(k,l,θi)在给定时间l、给定当前传声器信号Y(k,l)及参数L定义的历史中包括的时刻l’的眼睛注视角度时为最佳声学传递函数的条件概率p(d(k,l,θi)|Y(k,l),φj(n))的对时间积分中使用的“历史值”;
图7示出了根据本发明的用于实施在助听器中的示例性眼睛注视估计器;
图8A示意性地示出了在眼睛注视信号的单一观测值情形(目标位于用户右边)的后验概率;
图8B示意性地示出了在眼睛注视信号的L个观测值情形(目标位于用户右边)的后验概率;
图8C示意性地示出了在眼睛注视信号的L个观测值情形(目标位于用户左边)的后验概率;
图8D示意性地示出了在对两个目标的眼睛注视信号的L个观测值情形(目标分别位于用户左边和右边)的后验概率;
图9A示出了包括与眼镜架一体的第一和第二听力装置的听力系统的实施例的俯视图;
图9B示出了图9A实施例的主视图;
图9C示出了图9A实施例的侧视图。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微机电系统(MEMS)、(例如专用)集成电路、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路板(PCB)(例如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的其它适当硬件,例如用于感测和/或记录环境、设备、用户等的物理性质的传感器。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
本发明涉及配置成由用户佩戴的听力装置如助听器,尤其涉及相对于用户的声源定位。
在下面,描述怎样使用传声器信号和辅助信号(在该例子中,与助听器用户的眼睛有关的信号)来提取与目标声源的位置有关的信息(或者,等同地,关于从目标声源到助听器系统的传声器的声学传递函数的信息)。
基于传声器及眼睛注视数据估计相对声学传递函数-背景
声学信息-传声器信号
在下面的概述中,进行入射在第m个传声器上的声音信号ym(n)由目标信号xm(n)与噪声分量vm(n)的和给出的标准假设,即
ym(n)=xm(n)+vm(n),m=1,...,M
每一传声器信号通过一分析滤波器组,例如短时傅里叶变换(STFT),导致下面形式的时频域信号:
Ym(k,l)=Xm(k,l)+Vm(k,l),m=1,...,M
其中k为频率指数,1为时间(帧)指数。对于给定频率指数k和时间指数l,频谱系数(例如STFT系数)聚集为下面的向量:
Y(k,l)=[Y1(k,l)...YM(k,l)]T
对于向量X(k,l)和V(k,l),类似,从而得到下面的向量记法:
Y(k,l)=X(k,l)+V(k,l)
对于给定频率指数k和时间指数1,设
d′(k,l,θi)=[d′1(k,l,θi)...d′M(k,l,θi)]T,i=1,...,/
指从候选目标声源位置i到助听器系统的每一传声器的(通常复值的)声学传递函数向量。我们假定目标信号可源自I个预选声源位置之一。每一这样的声源位置由(通常)不同的声学传递函数向量d′(k,l,θi)表示。
用d′(k,l,θi)的归一化版本运行通常更方便。更具体地,设
指其元素dm(k,l,θi),m=1,...,M表示从目标声源到第m个传声器的相对声学传递函数(RATF)的向量,其中具有指数m*的传声器为预先选择的参考传声器。这意味着向量d(k,l,θi)中的第m*个元素等于1,其余元素描述从其它传声器到该参考传声器的声学传递函数。
在典型的、目前技术发展水平的听力装置中,声源位置的数量I为I=2(例如,单耳助听器的前/后,或者双耳助听器系统的左/右)。然而,可预见具有更大数量的声源的其它配置,例如I=4(例如前、后、左、右,或者左前、右前、左后、右后),或者从复杂性角度I=8-64将可能合理。然而,在将来(或者如果计算在耳外进行),64<I<1024甚或更高也可能。
通常,助听器或耳机的输入变换器的数量M大于或等于2(M≥2)。一般地,M=2或3或者M=4-6(包括双耳配置中的传声器)也合理。
图1A示出了根据本发明的第一示例,其示出了对于测试人员佩戴的助听器的给定传声器,用于估计绝对和/或相对声学传递函数(ATFmj,k))的圆(半径r)上的、可能的目标声源位置(θi,i=1,...,I)。我们将可能的一组声源位置(θi)与RATF的数据库或字典的元素相关联,Θ={d(k,l,θ1),...,d(k,l,θI)},k=1,...,K,其中每一RATF向量d(k,l,θi)与一个特定目标候选位置(θi)相关联。图1A示出了前述字典/数据库的图形示例,其中候选目标位置限于用户周围的圆,圆上的每一十字表示字典(Θ)中的RATF向量。在图1A的例子中,声源位置的数量为I=24。这些位置为以距测试对象TO的头部中心距离r(=|r|)均匀分布的位置。向量r可表示测试对象的视向,对应于位置(或角度)θ1,在水平面中=0°。每一位置对应于水平面中的角度θi=i·360°/I,i=1,...,I。在图1A的例子中,“角步长”为360°/24=15°。
显然,图1A仅为一示例,可预见其中候选目标位置处于其它位置的其它字典,例如绕测试对象/用户的球形、几个球形、或者任何其它的设置(实质上,字典/数据库仅为向量的集合,它们不需要设置成特定的物理图案)。图1B示出了另一例子。
图1B示意性地示出了根据本发明的第二示例,其示出了在助听器由测试人员佩戴时对于助听器的给定传声器,用于估计绝对和/或相对声学传递函数(ATFmj,k))的、具有不同半径(r1,r2)的两个同心圆上的、可能的目标声源位置(θi,i=1,…,I)。I=16个声源位置的两个圆上的位置记为θi,i=1,…,I=16。内圆(具有半径r1)和外圆(具有半径r2)的位置通过它们的极坐标(θ’z,rq)表征,其中z=1,…Z=8及q=1,…,R=2。角度数量的值Z及半径数量的值R可根据所涉及的应用进行调整。同样,声源位置可位于不同于圆的其它几何图案上并可非均匀地分布。此外,声源位置可按三维分布,每一位置例如在球(或正交)坐标系中确定,例如居中在测试对象/用户的头部中心。
对于RATF字典,传声器处观测到的有噪声传声器信号可写为:
其中为参考传声器处的目标信号的频谱系数,d(k,l,θi)为一个来自字典Θ的特定RATF向量,表示目标声源碰巧处于那里的物理位置。
辅助信息-示例:眼睛注视方向
除了访问向量Y(k,l)中存储的传声器信号之外,我们还假定HA系统有权使用时变信号φ(n),其提供另外的辅助信息。具体地,我们假定φ(n)提供关于用户眼睛的信息(例如它们的方向),在此n为时间变量,其可与涉及声学信息即Y(k,l)的时间变量l同步(即一样)。φ(n)表示的信息例如可以是水平面中的眼睛角度,在该情形下,φ(n)为标量(即单一数量),或者在水平面和纵平面中的眼睛角度,在该情形下,φ(n)为向量。原则上,与眼睛有关的信号φ(n)也可包含其它信息,例如瞳孔大小、瞳孔扩张、瞳孔大小的时间导数、可从用户眼睛的视频序列得到的任何信息、等等。
图2示出了用户在时间n的候选眼睛注视方向φj(n),j=1,...,J=9的例子。图2示意性地示出了反映人类(例如助听器的用户U)可用的(有限的)角度范围的多个预定眼睛注视角度。前述角度范围例如可小于或等于160°,例如小于或等于120°,例如小于或等于90°,如小于或等于60°。在第一情形下,图2示例的角步长为120°/8=15°。
在下面,为容易阐释且不失去一般性,假定φ(n)表示在水平面中相对于前向的用户眼睛角度,为时间的函数。为简单起见,假定在特定时刻的眼睛注视角度为J个可能的角度之一,φ(n)={φ1(n),...,φJ(n)}.。换言之,定义候选眼睛注视角度的字典。一组候选眼睛注视方向的例子(1≤j≤9)在图2中示出,其中每一十字标示一眼睛注视方向。在实践中,为获得眼睛注视信号,假定可访问一个或多个周围传感器,例如安装在眼镜上的朝向用户眼睛的摄像机、来自头部安装的电极的EEG或EOG信号等。
基于传声器和眼睛注视数据计算相对声学传递函数的概率
我们的目标是在给定来自传声器信号Y(k,l)和眼睛注视信号φ(n)的观测值时计算特定RATF向量d(k,l,θi)的概率。为此,我们延伸来自[1]的结果,其针对仅从传声器信号Y(k,l)估计RATF向量d(k,l,θi)的问题提出基于字典的解决方案。所提出的想法涉及我们的专利申请EP 3 413 589 A1([2])。具体地,我们延伸这些结果可用在另外的辅助信号如眼睛注视信号φ(n)可用的情形中。
为推导RATF向量的估计器,给定Y(k,l)和φj(n),我们依赖于将Y(k,l)和φj(n)的观测值与RATF向量d(k,l,θi).相关联的统计模型。这样的统计模型将Y(k,l)、φj(n)和d(k,l,θi)视为随机变量的实现并使用条件概率密度函数p(d(k,l,θi)|Y(k,l),φj(n)).描述它们的相互依存性。
因此,能够计算(估计)p(d(k,l,θi)|Y(k,l),φj(n))的值至关重要,在下面,我们详细描述怎样计算。
为能够计算p(d(k,l,θi)|Y(k,l),φj(n)),我们使用贝叶斯(Bayes)定理展开它,使得
在下面,非常详细地描述评估右手边的因子的一种方式(可能有其它方式)以能够计算左手边的p(d(k,l,θi)|Y(k,l),φj(n))值。具体地,我们可按如下所述评估右手边的因子:
-f(Y(k,l)|d(k,l,θi))为在给定d(k,l,θi)时Y(k,l)的似然。为计算该函数的值,我们遵循[1,2]中概述的程序。
具体地,为计算f(Y(k,l)|d(k,l,θi)),我们假定Y(k,l)是圆形对称复数高斯分布。在该假设下,给出似然函数f(Y(k,l)|d(k,l,θi)):
其中H指厄米()转置,det(·)指行列式算子,CY(k,l,θi)=E[Y(k,l)YH(k,l)]为传声器信号Y(k,l)的互功率谱密度(CPSD)矩阵。
接下来,我们假定下面的CY(k,l,θi)模型[3,4]:
CY(k,l,θi)=λX(k,l)d(k,l,θi)dH(k,l,θi)+λV(k,l)ΓV(k,l0)
其中,为参考传声器处的目标语音信号功率谱密度(PSD)(E[·]指预期算子),/>为参考传声器处的噪声PSD,为归一化的噪声CPSD矩阵。
最后,为针对特定候选RATF向量d(k,l,θi)评估CY(k,l,θi),在实践中,我们遵循[4]中描述的程序。具体地,ΓV(k,l0)可从语音不存在时频单元进行估计,其中l0指在过去不存在语音的最后时刻,同时,为估计λX(k,l)和λV(k,l),可使用来自[4]的ML估计器。
p(d(k,l,θi)|φj(n))为在给定φj(n)时d(k,l,θi)的后验(条件)概率。该量描述了知道辅助信息(在该具体例子中,用户的水平眼睛注视方向)可怎样提供关于目标位置的信息,或者,更具体地,目标RATF向量d(k,l,θi)。
在实践中,对于i=1,...,I和j=1,...,J,p(d(k,l,θi)|φj(n))的值可提前进行计算并存储在查询表(数据库)中。查询表的一示例在下面的表1中示出:
φ1(n) φJ(n)
d(k,l,θ1) p(d(k,l,θ1)|φ1(n)) p(d(k,l,θ1)|φJ(n))
d(k,l,θI) p(d(k,l,θI)|φ1(n)) p(d(k,l,θI)|φJ(n))
表1:具有后验概率p(d(k,l,θi)|φj(n))的、预先计算的查询表
在该表中,概率可提前从实验进行计算,其中用户的眼睛注视使用所涉及的特定HA系统在目标声源位于多个不同位置的多个不同声学情形下进行测量。例如,为获得p(d(k,l,θI)|φ1(n))的值,可计算这些情形的一小部分(例如时间的一小部分),其中,在用户的眼睛注视朝向φ1(n).时,目标位置处于位置i=I。这些测量使用所涉及的特定HA系统进行很重要,例如,如果HA系统使用从朝向用户眼睛的视频摄像机得到的眼睛注视水平角度,则用于估计p()的测量应用理想地同样的系统进行(即相同的摄像机类型、相同的摄像机位置、相同的助听器类型和位置等)。
应注意,主动考虑头部转动本身不重要。如果头部转动,目标角度和眼睛角度均变化,这意味着上表的其它部分将被填满。
f(Y(k,l)|φj(n))通常可从p(d(k,l,θi)|Y(k,l),φj(n))总计为值1的事实进行计算,即
然而,在MAP估计器的具体例子中,可完全忽略该因子(例如设定为1),因为归一化常数并非d(k,l,θi)的函数。
换言之,一旦我们已(从上面阐述的两个因子)计算上面的p(d(k,l,θi)|Y(k,l),φj(n))表达式的右手边的分子,我们不需要明确地计算分母,因为左手边由于为概率质量函数而总计为1。
在HA应用中使用估计的RATF后验概率
如上面提及的,知道位置或者更具体地知道概率质量函数p(d(k,l,θi)|Y(k,l),φj(n)),i=1,...,I对几个目的有用。在该部分,我们非常简要地概述这样的目的。具体地,我们讨论a)怎样使用它来估计“活跃”RATF向量(因此估计目标声源的物理位置),及b)怎样使用它来建立波束形成器,即从(通常有噪声的)传声器信号取回目标信号的空间滤波算法。
我们保持这部分描述简短,因为本发明的新颖方面是描述计算p(d(k,l,θi)|Y(k,l),φj(n))即RATF向量的概率(或者等同地,目标声源位置)的方式,除传统的传声器信号之外,还给定辅助信号φ(n)。
RATF向量的估计
概率质量函数p(d(k,l,θi)|Y(k,l),φj(n)),i=1,...,I描述多个不同的RATF向量d(k,l,θi),i=1,...,I“用于”产生观测到的声学信号的概率,或者等同地,目标声源处于特定位置的概率。
这可用于计算“活跃的”RATF向量(因此目标声源的位置)的多个不同的估计量。我们提出下面的一些例子,对于本领域技术人员而言,可能使用p(d(k,l,θi)|Y(k,l),φj(n)),i=1,...,I得到其它例子。
RATF向量的最大后验(MAP)估计
我们在此考虑d(k,l,θi)的、所谓的最大后验(MAP)估计器。
对于MAP估计器,给定Y(k,l)和φj(n),我们必须从字典D选择最可能的RATF向量。MAP估计器通过从字典选择其后验概率最大的RATF向量而确定,即
其中p(d(k,l,θi)|Y(k,l),φj(n))为在给定Y(k,l)和φj(n)的观测值时d(k,l,θi)的后验概率。为此,我们针对每一字典元素d(k,l,θi)计算p(d(k,l,θi)|Y(k,l),φj(n))并选择其后验概率最大的元素。
因此,使用上面推导的表达式,现在给出MAP估计器:
其中,对于来自字典D的每一候选RATF向量d(k,l,θi),似然函数f(Y(k,l)|d(k,l,θi))可使用上面的等式进行计算,后验概率p(d(k,l,θi)|φj(n))例如可从预先计算的表确定。
RATF估计量例如可用在波束形成算法的设计中(参见下面)或者用于推断目标声源相对于用户的物理位置。
RATF向量的最小均方误差(MMSE)估计
上面的MAP RATF估计器基于Y(k,l)和φj(n)的观测值从预定义的字典D选择最可能的RATF向量d(k,l,θi)。然而,由于RATF字典D有限(及可能小),在实际声学情形中“活跃的”RATF向量可能不在该字典中。作为替代,可使用最小均方误差(MMSE)估计器,其不限于输出字典中存在的RATF向量。(使用与[1,4]类似的推导)可得出RATF向量的MMSE估计器由下式给出:
其中,d(k,l,θi)简单地为RATF字典D的向量元素,p(d(k,l,θi)|Y(k,l),φj(n))可按部分2.2中所示进行计算。
目标信号的估计
入射在参考传声器上的目标信号这在助听器应用中显然感兴趣,因为是无噪声目标信号,能够将该信号呈现给助听器用户而不是有噪声的传声器信号Y(k,l)通常在语音可懂度、声音质量和听音努力方面有利。
在文献中,已提出许多这样的方法,其依赖于p(d(k,l,θi)|Y(k,l)),即仅声学信息。容易将这些方法扩展到使用用户的眼睛注视信息,即代替使用p(d(k,l,θi)|Y(k,l)),我们现在使用p(d(k,l,θi)|Y(k,l),φj(n)),i=1,…,I。
贝叶斯最小均方误差(MMSE)波束形成
给定p(d(k,l,θi)|Y(k,l),φj(n))i=1,…,I,可应用针对降噪的、所谓的贝叶斯波束形成方法[5]来计算
/>
其中是众所周知的多通道齐纳(Wiener)滤波器,使用RATF向量d(k,l,θi)实施。实施多通道齐纳滤波器/>众所周知,相应的详细描述可在[4]中找到。
贝叶斯最小方差无失真响应(MVDR)波束形成
上面使用的波束形成器有时导致听得见的失真。为避免该情况,可使用由下式给出的启发性、有根据的贝叶斯MVDR波束形成器[1,5]:
其中为MVDR空间滤波器,使用RATF向量d(k,l,θi)实施。如前所述,MVDR波束形成器/>的实际实施是已得到很好研究的课题(例如参见[6])。
最大后验(MAP)概率波束形成
上面概述的贝叶斯波束形成器为“指向特定方向的”波束形成器的线性组合,其中每一这样的波束形成器的权重为后验概率p(d(k,l,θi)|Y(k,l),φj(n))i=1,…,I。代替使用前述线性组合,可通过使用上面给出的RATF向量的MAP估计量而简单地确定最大后验波束形成器:
换言之,这导致上面的波束形成器的MAP变型,分别为其中指数i*为最大后验RATF的指数:
图3示意性地示出了一种离线设置,对于给定测试人员,将助听器HD(或者一对助听器(HDR,HDL))的给定传声器对于不同目标候选位置(θi,i=1,…,I)的绝对和/或相对声学传递函数(ATFmj,k))的估计量的组合提供为频率指数(k,k=1,…,K)以及每一声学传递函数(ATFmj,k))对于给定的、用户的不同眼睛注视角度的条件概率p(d(k,θi)|φj(n))i=1,…,I,j=1,…,J的函数。图3例如示出了用于例如在真人或机器人(在图3中记为“测试对象”,例如身体模型,如HATS模型)上估计例如测量对于目标声源的位置(参见圆上的不同扬声器位置)和双耳听力系统的左和右助听器(HDL,HDR)的不同传声器(m=1,…,M)的、相对随频率而变的声学传递函数dmj,k)的设置。
不同位置(θi,i=1,…,I)的几何测量设置例如如图1A、1B中所示。图1A示出了声源在圆周上的、不同的、均匀分布的位置处的位置,参见交叉符号“x”。测量可在右助听器HDR和左助听器HDL的传声器上个别地进行。测量结果可分别存储在左和右助听器中(数据库ΘL和ΘR),或者存储在左和右助听器中之一或每一个的共同数据库ΘC中,或者存储在与左和/或右助听器通信的另一设备或系统中。
图2中标示的眼睛注视角度范围(与人类如用户的正常眼睛注视范围一样)在图3中标示(参见受限于从位置θi+1到θ2的粗虚径向线的、记为“眼睛注视范围”的虚弧线),在图3的例子中,从θ10到θ2,例如从-60°(=300°)到+60°。预先确定的条件概率可仅针对眼睛注视范围(如图3中所示)内的位置确定,或者作为替代,针对所有位置确定。
声源相对于助听器(传声器系统或传声器)的位置由符号θj表示并在图3中示为水平面中的角度,例如(在人或用户处于站立位置时)通过人或用户的耳朵的水平面。然而,其也可通过极坐标进行标示,例如(θ,r)水平面(如图1B中所示)或者出水平面(例如(x,y,z))。数据库中存储的声学传递函数ATF可以是或表示绝对声学传递函数AATF或相对声学传递函数RATF。
图4示出了根据本发明的助听器HD的示例性框图。助听器HD例如可配置成佩戴在用户耳朵处的头上或者用户耳朵中(或者部分植入在用户耳朵处的头部中)。助听器包括包含例如按预定几何配置设置在助听器的壳体中的M个传声器(在此为两个,M1,M2)的传声器系统。传声器系统适于从环境拾取声音并提供对应的电输入信号ym(n),m=1,2,其中n表示时间。给定传声器处的环境声音可包括下述信号(按多个不同的量)的混合:a)在助听器由用户佩戴时经声学传播通道从目标声源的方向或位置(θ)传播到助听器的第m个传声器的目标声音信号xm(n);及b)在第m个传声器的位置处存在的附加噪声信号vm(n)(以及目标信号的可能后到达的反射(回响))。声学传播通道可建模为ym(n)=xm(n)hm(θ)+vm(n),其中hm(θ)为声音对该声学传播通道的声学脉冲响应。助听器包括连接到传声器(M1,M2)的、接收(有噪声的)电输入信号(Y1,Y2)的处理器PRO。电输入信号(Y1,Y2)在此通过相应的分析滤波器组(FB-A1,FB-A2)按时频表示(k,l)提供为子频带信号。电输入信号(Y1,Y2)中的一个或多个(在此为两个)进一步馈给用于估计人类话音(如语音)存在或不存在的话音活动检测器VAD。话音活动检测器提供指明输入信号(在给定时间点)是否(或者以何种概率)包括话音信号的话音活动控制信号V-NV。话音活动控制信号V-NV被馈给处理器PRO以可能用于估计当前声学传递函数(ATF)。助听器还包括数据库Θ(MEM[DB]),其包括相对声学传递函数(RATF)向量(在此称为d)的ATF字典,其元素dm(k,θi),m=1,…,M,k=1,…,K为表示声音从目标声源的位置(θ)到M个(在此M=2)传声器中的每一传声器的、随方向或位置(θ)而变的以及随频率(k)而变的传播的、随频率(k)而变的(相对)声学传递函数,k为频率指数,k=1,…,K,其中K为频带数量。声学传递函数在传声器系统(例如助听器装置)被安装在自然人或机器人(p)的头上耳朵处或耳朵中时确定。传声器系统优选安装在人身上并处于与助听器的配置一样或尽可能接近的配置(例如类型与用户佩戴的助听器的类型一样)。ATF字典包括对于自然人或机器人(p)、对于相对于传声器系统的多个不同位置θj,j=1,…,J的ATF向量d(k,θi)。数据库Θ还包括眼睛注视字典,其包括在用户的给定不同眼睛注视角度时与数据库的声学传递函数(dmi,k)或d(k,θi)或d(θi))(或其至少部分)有关的条件概率p(d(θi)|φj(n)),例如参见图2、3。处理器PRO连接到数据库(参见图4中的Θ[DB])并配置成基于数据库Θ、当前电输入信号xm(n),m=1,…,M(在此m=1,2)、关于用户眼睛的当前信息φ(n)例如眼睛注视信号如眼睛注视方向、及声学传播通道的模型估计用户的ATF向量ATF*θ。用户的ATF向量ATF*(参见图4中的d*)可通过本领域可获得的多种不同方法确定,例如,最大可能性估计(MLE)方法,例如参见EP3413589A1。其它统计方法例如可包括均方误差(MSE)、递归分析(例如最小平方(LS))、概率方法(如MLE)、有监督的学习(如神经网络算法)。用户的ATF向量ATF*(d*)例如可通过使价值函数最小化确定。处理器PRO可配置成,在具有给定电输入信号时的给定时间,将用户的个性化ATF向量ATF*(d*)确定为ATF向量/>或者/> 即,对于每一传声器、对于每一频率(k)的声学传递函数(相对或绝对)。ATF向量ATF*(d*)从组合的ATF字典及眼睛注视字典确定。所选的ATF向量(d*)与声源的具体位置θj=θ*及用户的具体眼睛注视角度/>相关联。处理器PRO可配置成将该信息(d*,θ*)呈现给助听器的其它部分,例如如图4中所示(参见从处理器PRO到信号处理器SP的实线箭头)。信号处理器SP配置成将一个或多个处理算法应用于正向通路的一个或多个信号,例如波束形成算法。在图4的实施例中,除了针对用户和声源的具体位置θj=θ*选择的ATF向量ATF*(d*)之外,其它参数也可被转发给信号处理器SP,例如与ATF*(d*)向量相关联的具体眼睛注视角度/>和/或条件概率p(d(θi)|φj(n))。关于用户眼睛的当前信息(φ(n))例如眼睛注视信号通过眼睛注视估计器E-GE提供(例如基于EEG或EOG信号,或者朝向用户眼睛的摄像机,例如安装在眼镜架上,例如参见图9A、9B、9C)。助听器例如可配置成(随时间)记录所述个性化参数(例如眼睛注视角度/>)中的一个或多个。参数例如可与指明用于确定所涉及的参数值的电输入信号(Y)的质量(例如信噪比(SNR)、或估计的噪声电平、或信号电平等)的参数一起存储。
图4的助听器HD包括正向(音频信号)通路,配置成处理电输入信号(y1,y2)及提供用于呈现给用户的增强的(处理后的)输出信号OUT。正向通路包括在工作时彼此连接的:输入变换器(在此为传声器(M1,M2))、相应的分析滤波器组(FB-A1,FB-A2)、信号处理器SP、合成滤波器组FBS、及输出变换器(在此为扬声器SPK)。
处理器PRO和信号处理器SP可形成同一数字信号处理器的一部分(或者可以是独立的单元)。分析滤波器组(FB-A1,FB-A2)、处理器PRO、信号处理器SP、合成滤波器组FBS及话音活动检测器VAD可形成同一数字信号处理器的一部分(或者可以是独立的单元)。
信号处理器SP配置成将一个或多个处理算法应用于电输入信号(例如波束形成和压缩放大)并提供处理后的输出信号OUT以经输出变换器呈现给用户。位于信号处理器SP与输出变换器SPK之间的合成滤波器组FBS配置成将多个子频带信号OUT转换为时域信号out。输出变换器(在此为扬声器SPK)配置成将表示声音的信号转换为可由用户感知为声音的刺激(例如空气中振动、骨头中振动、或者耳蜗神经的电刺激的形式)。
助听器可包括天线和收发器电路,配置成使能与另一装置如智能电话或者任何其它便携或固定装置或系统交换数据。数据库Θ可位于助听器中或其它装置中。同样,处理器PRO可位于助听器中或其它装置中。
图5示出了根据本发明的、包括波束形成器滤波器的助听器HD的示例性框图。图5的实施例与图4的实施例类似,但另外包括SNR估计器SNRE、数据记录器D-LOG和波束形成器滤波器BF。SNR估计器SNRE配置成估计当前信噪比(SNR)(或者当前电输入信号(y1,y2)或信号(如波束形成信号(YBF))或源自其的信号的质量的等同估计量)。SNR估计量SNR被馈给处理器PRO(及可能馈给助听器的其它部分,例如波束形成器和/或助听器增益控制器HA-G)。数据记录器D-LOG可连同指明用于确定所涉及的参数值的电输入信号的质量(例如信噪比(SNR)、和/或估计的噪声电平、或信号电平等)的参数一起保存更新的参数PMT*(例如声源的具体位置θj=θ*、与(当前)ATF向量ATF*(例如绝对或相对声学传递函数(H*θ或d*θ))相关联的具体眼睛注视方向)。数据记录器D-LOG从处理器PRO接收具体参数PMT*。具体参数PMT*可使用SNR估计量确定是否符合条件,使得仅在高于阈值的SNR确定的参数被记录(例如保存)在数据记录器D-LOG中。处理器PRO将针对(由电输入信号(y1,y2)及非必须地由话音活动检测器VAD反映的)当前声学情形确定的具体声学传递函数(在此为相对声学传递函数(d*θ),非必须地,及与其相关联的例如根据本发明确定的当前位置(θj=θ*))馈给信号处理器SP,尤其是馈给波束形成器滤波器BF。波束形成器滤波器BF还接收时频表示(k,l)的电输入信号(Y1,Y2),其中k和l分别为频率和时间(帧)指数。波束形成器滤波器BF根据电输入信号(Y1(k,l),Y2(k,l))及个性化的相对声学传递函数(d*θ)提供波束形成信号YBF,例如如[10]中所述。波束形成信号YBF被馈给助听器增益控制器HA-G,以根据用户需要例如为补偿用户的听力受损而将(例如由压缩算法提供的)随频率而变的增益应用于波束形成信号。助听器增益控制器HA-G将处理后的信号OUT提供为子频带信号,其被馈给合成滤波器组FBS以转换为时域信号out(如图4中所示)。波束形成器滤波器和助听器增益控制器HA-G形成信号处理器SP的一部分,如图5中记为SP的虚线框所示。图5的所有完全数字的功能元件(FB-A1、FB-A2、VAD、PRO、SNRE、D-LOG、BF、HA-G、FBS,非必须地,及存储器MEM)可形成定制或标准数字信号处理器(适于音频处理)的一部分。存储器MEM例如可实施为单独的芯片。
图6示意性地示出了给定声学传递函数d(k,l,θi)在给定时间l、给定当前传声器信号Y(k,l)及参数L定义的历史中包括的时刻l’的眼睛注视角度时为最佳声学传递函数的条件概率p(d(k,l,θi)|Y(k,l),φj(n))的对时间积分中使用的“历史值”。
对时间积分例如在讨论中两个以上讲话者活跃的情形下适合,从而使能1)在两个以上讲话者之间切换波束形成器或者2)使能产生朝向两个以上讲话者的两个以上“固定”波束形成器。在第一情形下,多个时间单位可对应于毫秒(ms)级的L,例如在10到50ms的范围中如20ms。在第二情形下,多个时间单位可对应于秒(s)级的L,例如在5s到10s的范围中。
条件概率p(d(k,l,θi)|Y(k,l),φj(n))的对时间积分例如可表达为:
其中l表示当前时间,L表示平均时间。
包括对频率积分导致下面的表达式:
定义平均概率基于其的持续时间的参数L根据应用进行选择。L的典型值对应于20ms、100ms、200ms、500ms、1s、5s、10s或更长的持续时间。在一些应用中,L可对应于一个句子或者多个句子的持续时间。
求平均过程,其中随频率而变的权重wk为预先确定的权重因子,例如指明不同频带的成比例的重要性,即0≤wk≤1和∑kwk=1。
图7示出了根据本发明的用于实施在助听器中的示例性眼睛注视估计器。
图4的助听器包括用于估计用户当前的眼睛注视方向(φ(n))的眼睛注视估计器E-GE。眼睛注视估计器E-GE包括用于从用户身体捕获生物信号(例如EEG或EOG信号)的生物信号感测单元BSU。生物信号感测单元BSU包括适于位于耳朵处或耳朵中和/或完全或部分植入在用户头部中的传感器部分(E1,E2,…,EN)。传感器部分包括电位传感器,用于从用户身体尤其是头部感测例如因大脑活动或眼球运动引起的电位。传感器部分体现为电极E1,E2,…,EN,其为助听器的、配置成在助听器安装在用户身上(例如耳道中)或者植入在用户头部中时接触用户头部的皮肤或组织的电极。生物信号感测单元BSU还包括放大器AMP,连接到电位传感器部分的电子电路形式,以提供放大的输出。放大器例如差分放大器接收来自电极E1,E2,…,EN的多个电位P1,P2,…,PN以及来自参考电极REF的参考电位P0并提供相应的放大的电压AV1,AV2,…,AVN。放大的电压被馈给相应的模数转换器AD从而提供数字化的放大的电压DAVi(i=1,2…,N)。在实施例中,放大器AMP包括模数转换或者由模数转换器构成。
听力装置还包括无线收发器和适当的天线电路(Rx/Tx,ANT),从而使能例如经无线链路X-WL(参见图7中记为“来自/传至其它HD”的带箭头波浪线)从对侧听力装置接收生物信号BioV及将生物信号BioV传给对侧听力装置,例如放大的电压V1,V2,…,VN,例如眼球运动。来自对侧听力装置的生物信号DAVi,contra被馈给计算单元CALC并与相应的、本地产生的生物信号DAVi例如放大的电压V1,V2,…,VN或者电压差V1-V0,…VN-V0比较,其中V0为参考电极REF提供的参考电位。在实施例中,EarEOG信号为左和右放大的电压Vleft和Vright之间的差的函数(f),EarEOG=f(Vleft-Vright)。在实施例中,每一对电压即V1,left和V1,right,…,VN,left和VN,right可提供对应的耳朵EOG信号,例如EarEOG1=f(V1,left-V1,right),…,EarEOGN=f(VN,left–VN,right)。在实施例中,在给定时间所得的耳朵EOG信号可被确定为N个耳朵EOG信号的平均(例如加权平均,例如根据所涉及的电极距眼睛的距离)。该求平均和其它处理可在计算单元CALC中进行。
眼睛注视估计器E-GE还包括计算单元CALC和控制单元CONT。计算单元CALC配置成组合来自(本地)生物信号单元BSU的数字化放大的电压DAVi(i=1,.2....,N)(表示(耳朵)EEG和/或(耳朵)EOG信号)和从对侧听力装置的生物信号单元BSU接收(参见图7中的无线链路X-WL)的对应的数字化放大的电压DAVi,contra(i=1,.2....,N)以提供组合的眼睛注视信号数据。计算单元CALC还可包括一卡尔曼(Kalman)滤波器FIL(或者一个或多个卡尔曼滤波器),用于对个别或组合的数字化放大的电压进行滤波以提供眼睛注视角度,参见信号EOGD。信号EOGD被转发给控制单元CONT。控制单元CONT提供表示用户当前的眼睛注视方向的控制信号如图4中所示,控制信号/>被提供给助听器的处理单元PRO。
图8A示意性地示出了在眼睛注视信号的单一观测值情形(目标位于用户右边)的后验概率。
图8B示意性地示出了在眼睛注视信号的L个观测值情形(目标位于用户右边)的后验概率。
图8C示意性地示出了在眼睛注视信号的L个观测值情形(目标位于用户左边)的后验概率。
图8D示意性地示出了在对两个目标的眼睛注视信号的L个观测值情形(目标分别位于用户左边和右边)的后验概率。
图8A示出了在时刻n、在给定眼睛注视信号的观测值(φj(n))时,条件概率分布p(d(k,θi)|φj(n))为方向(θi)的函数的示例。在该例子中,目标讲话者位于用户的右边。
图8B示出了在给定眼睛注视信号的N个观测值时,仅眼睛注视的条件概率分布p(d(k,θi)|φj(n-N+1),...,φj(n))为方向(θi)的函数的示例。计算p(d(k,θi)|φj(n-N+1),...,φj(n))的例子通过对眼睛注视的N个观测值中的每一个的概率分布p(d(k,θi)|φj(m)),m=n-N+1,...,n求和进行。在该例子中,目标讲话者位于用户的右边。
图8C示出了在给定眼睛注视信号的N个观测值时,仅眼睛注视的条件概率分布p(d(k,θi)|φj(n-N+1),...,φj(n))为方向(θi)的函数的示例。在该例子中,目标讲话者位于用户的左边。
图8D示出了在给定眼睛注视信号的N个观测值时,仅眼睛注视的条件概率分布p(d(k,θi)|φj(n-N+1),...,φj(n))为方向(θi)的函数的示例。在具有多个目标讲话者的情形下,条件概率分布p(d(k,θi)|φj(n-N+1),...,φj(n))可具有几种统计模式,其中每一模式指明每一目标讲话者的最可能的位置。在该例子中,有两个目标讲话者存在,一个位于用户的左边,一个位于用户的右边。
另外的、怎样使用仅眼睛注视的条件概率分布的评论
仅眼睛注视的条件概率分布p(d(k,θi)|φj(n-NC+1),...,φj(n))例如可用于计算如等式(1)中的音频-眼睛-注视条件概率分布p(d(k,θi)|Y(k,l),φj(n-NC+1),...,φj(n)),然后例如用在贝叶斯波束形成(参见上面的等式(2)和(3))中。
在图8A、8B、8C、8D中的条件概率p的时变函数上使用的时间指数n可优选与应用中别处使用的(例如p(d(k,l,θi)|φj(n))中的)指数l同步。指数n的值N指明图8B、8C、8D中考虑的历史值的持续时间。N的值例如可为10秒级,参见图6的描述以及所提出的、对应参数L的值。
图9A示出了包括与眼镜架一体的第一和第二听力装置的听力系统实施例的俯视图。图9B示出了图9A实施例的主视图。图9C示出了图9A实施例的侧视图。
根据本发明的听力系统包括传感器集成装置,配置成佩戴在用户头上,包括头戴托架,在此体现在眼镜架中。
听力系统包括安装在眼镜架上的左和右听力装置以及多个传感器。听力系统HS包括分别与左和右听力装置(HD1,HD2)相关联(例如形成其一部分或者连接到左和右听力装置)的多个传感器S1i,S2i,(i=1,...,NS)。NS为位于眼镜架的每一侧上的传感器的数量(在图9A、9B、9C的例子中,假定对称,但并不需要必须如此)。第一、第二、第三和第四传感器S11,S12,S13,S14及S21,S22,S23,S24安装在眼镜GL的镜架上。在图9A的实施例中,传感器S11,S12和S21,S22安装在相应的侧杆(SB1和SB2)上,而传感器S13和S23安装在与右和左侧杆(SB1和SB2)具有铰链连接的横梁CB上。最后,传感器S14和S24安装在从横梁CB延伸并适于位于用户鼻子上的第一和第二鼻部子梁(NSB1,NSB2)上。镜架的镜片或透镜LE安装在横梁CB和鼻部子梁(NSB1,NSB2)上。左和右听力装置(HD1,HD2)包括相应的BTE部分(BTE1,BTE2),及还包括相应的ITE部分(ITE1,ITE2)。应注意,更换ITE部分将改变眼镜的所有传声器与更换后的ITE部分之间的传递函数。在实施例中,系统的所有传声器位于眼镜上和/或BTE部分上。ITE部分例如可包括用于从用户拾取身体信号的电极,例如形成用于监测用户的生理功能如大脑活动或眼球运动活动或体温的传感器S1i,S2i(i=1,…,NS)的一部分。同样,眼镜架上的一个或多个传感器可包括用于从用户拾取身体信号的电极。在实施例中,传感器S11,S14和S21,S24(黑框)可表示用于拾取身体信号例如眼动电图(EOG)电位和/或脑电波电位如脑电图(EEG)电位的传感器电极,例如参见[7]。第一和第二鼻部子梁(NSB1,NSB2)上的传感器S14,S24可特别好地定位以捕获眼睛的电位变化因而提供用户当前的眼睛注视角度(参见上面提及的信号)。安装在眼镜架上的传感器例如可包括下述之一或多个:加速计、陀螺仪、磁力计、雷达传感器、眼球摄像机(例如用于监测瞳孔测量)、摄像机(例如用于对用户环境的物体成像)、或者用于定位或贡献于佩戴听力系统的用户感兴趣的声源(或其它地标)和/或用于识别用户自我话音的其它传感器。位于横梁CB上的传感器(S13,S23)和/或位于侧杆(SB1,SB2)上的传感器(例如S12,S22)例如可包括用于监视环境和/或用于识别用户自我话音的一个或多个摄像机或雷达或超声传感器。听力系统还包括多个传声器,在此配置成三个单独的传声器阵列(MAR,MAL,MAF),分别位于右侧杆、左侧杆和(前)横梁上。每一传声器阵列(MAR,MAL,MAF)包括多个传声器(分别为MICR,MICL,MICF),在此分别为四个、四个和八个。传声器可分别形成听力系统的一部分(例如与右和左听力装置(HD1,HD2)相关联)并贡献于定位和对来自用户周围环境的相应声源的声音进行空间滤波,例如参见[8]。眼镜架用作多个传感器的托架与听力系统的相应左和右BTE部分写作例如在[9]中示出和描述。
听力装置的BTE部分和ITE部分(BTE和ITE)电连接,或无线或有线,如图9C中它们之间的虚线连接所示。ITE部分可包括在使用期间位于耳道中的传声器和/或扬声器。眼镜架上的一个或多个传声器(MICL,MICR,MICF)可取代正常位于助听器的ITE部分和/或BTE部分中的传声器。作为备选或另外,图9A、9B和9C实施例的BTE部分可包括另外的传声器。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
应注意的是,不管怎样获得眼睛数据(摄像机、电极等),也不管数据是否被测量噪声破坏(当然,眼睛数据越纯净,系统的性能将越好),本发明的框架均起作用。
随SNR而变的在前(从其可估计条件概率/>)考虑眼睛在低SNR时趋于比在高SNR时更常看向目标。
参考文献
·[1]P.Hoang,Z.-H.Tan,J.M.de Haan,T.Lunner,and J.Jensen,“RobustBayesian and Maximum a Posteriori Beamforming for Hearing Assistive Devices,”in2019IEEE Global Conference on Signal and Information Processing(GlobalSIP),Ottawa,ON,Canada,Nov.2019,pp.1–5.
·[2]J.Jensen,J.M.De Haan,and M.S.Pedersen,“A microphone system and ahearing device comprising a microphone system,”EP3413589A1,Dec.12,2018.
·[3]J.Jensen and U.Kjems,“Maximum Likelihood Based Noise CovarianceMatrix Estimation For Multi-Microphone Speech Enhancement,”EUSIPCO,Aug.2012.
·[4]J.Jensen and M.S.Pedersen,“Analysis of beamformer directedsingle-channel noise reduction system for hearing aid applications,”in2015IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),South Brisbane,Queensland,Australia,Apr.2015,pp.5728–5732.
·[5]K.L.Bell,Y.Ephraim,and H.L.Van Trees,“A Bayesian approach torobust adaptive beamforming,”IEEE Transactions on Signal Processing,vol.48,no.2,pp.386–398,Feb.2000.
·[6]E.Habets,J.Benesty,I.Cohen,S.Gannot,and J.Dmochowski,“NewInsights Into the MVDR Beamformer in Room Acoustics,”IEEE Transactions onAudio,Speech,and Language Processing,vol.18,no.1,pp.158–170,Jan.2010,doi:10.1109/TASL.2009.2024731.
·[7]T.Lunner,F.Gustafsson,“Hearing device comprising a sensor forpicking up electromagnetic signals from the body”,EP3185590A1(Oticon)28.06.2017.
·[8]T.Lunner,F.Gustafsson,D.Lindgren,G.Hendeby,“Direction of arrivalestimation in miniature devices using a sound sensor array”,EP3267697A1(Oticon)10.01.2018.
·[9]T.Lunner,M.Skoglund,F.Gustafsson,“Hearing system adapted fornavigation and method therefor”,EP3496417A2(Oticon)12.06.2019.
·[10]M.S.Pedersen,J.M.de Haan,J.Jensen,”A hearing aid comprising abeam former filtering unit comprising a smoothing unit”,EP3253075A1(Oticon)06.12.2017.

Claims (16)

1.一种配置成佩戴在用户耳朵处或耳朵中的助听器,所述助听器包括:
-包括M个传声器的传声器系统,其中M大于或等于2,所述传声器系统适于拾取来自环境的声音并提供M个对应的电输入信号ym(n),m=1,…,M,n表示时间,来自给定传声器处的环境的声音包括下面信号的混合:
--在助听器由用户佩戴时,经从目标声源的位置(θi)到助听器的第m个传声器的声学传播通道传播的目标声音信号xm(n);及
--第m个传声器的位置处可能存在的、附加或非附加噪声信号vm(n);其中所述声学传播通道建模为ym(n)=xm(n)·hm(n)+vm(n),其中hm(n)为从目标声源到第m个传声器的脉冲响应;
-连接到所述M个传声器并配置成处理所述电输入信号或者源自其的一个或多个信号的处理器;及
-数据库(Θ),包括
--在传声器系统安装在自然人或机器人的耳朵处或耳朵中时,表示目标声源相对于传声器系统的不同候选位置(θi)的多个声学传递函数向量(d(k,θi)),其中给定声学传递函数向量(d(k,θi))的M个向量元素(dm(k,θi))表示声音从目标声源的位置(θi)到所述M个传声器的随频率而变的声学传播,k为频率指数,k=1,…,K,其中K为频带数量,i为位置指数,i=1,…,I,I为不同位置的数量;及
--与所述声学传递函数向量(d(k,θi))中的至少部分以及用户的不同眼睛注视方向有关的多个后验概率(p),其中特定声学传递函数向量(d(k,θi*))的后验概率为该特定声学传递函数向量(d(k,θi*))在给定特定眼睛注视方向/>的概率;
其中,所述处理器配置成根据下述因素确定目标声源相对于用户的当前位置(θi):
-所述时变电输入信号(ym(n))的当前值;
-提供关于用户当前的眼睛注视方向的信息的时变信号
-所述数据库(Θ)的所述声学传递函数向量(d(k,θi))和所述后验概率
2.根据权利要求1所述的助听器,其中,所述声学传递函数向量的向量元素为相对声学传递函数。
3.根据权利要求1所述的助听器,其中,所述数据库(Θ)中存储的声学传递函数向量时不变。
4.根据权利要求1所述的助听器,其中,当前注视方向被量化为有限数量的方向。
5.根据权利要求1所述的助听器,其中,关于用户的当前眼睛注视方向的信息通过一个或多个传感器提供。
6.根据权利要求1所述的助听器,包括滤波器组,从而使所述处理器能处理时频表示(k,l)的电输入信号或者源自其的一个或多个信号,其中k为频率指数,l为时间指数。
7.根据权利要求1所述的助听器,其中,当前的不同眼睛注视方向作为多个声学传递函数向量(d(k,θi))中的至少部分的、对于不同眼睛注视方向/>的后验概率的字典(Φj)包括在所述数据库(Θ)中。
8.根据权利要求1所述的助听器,其中,后验概率对于i=1,…,I和j=1,…,J的值在助听器使用之前进行计算并存储在所述数据库(Θ)中。
9.根据权利要求1所述的助听器,其中,所述处理器配置成对于给定声学传递函数向量(d(k,θi)),根据当前电输入信号(y(n))的似然确定所述后验概率。
10.根据权利要求1所述的助听器,其中,所述处理器配置成基于使电输入信号(Y(k,l))和时变信号的当前观测值与当前声学传递函数向量(d(k,θ*))关联的统计模型将当前声学传递函数向量(d(k,θ*))确定为展现给定当前电输入信号(Y(k,l))和当前时变信号/>时的条件概率的最大值的声学传递函数向量(d(k,θ*))。
11.根据权利要求10所述的助听器,其中,所述处理器配置成根据声学传递函数向量(d(k,θi))在给定当前电输入信号(Y(k,l))和与用户当前的眼睛注视相关联的当前时变信号时的条件概率密度函数(p(d(k,l,θi)|Y(k,l),φj(n)))确定当前目标信号(X*(k,l))。
12.根据权利要求10所述的助听器,其中,所述处理器配置成根据当前声学传递函数向量(d(k,θ*))确定波束形成器滤波器的权重。
13.根据权利要求10所述的助听器,其中,所述处理器配置成通过识别所选声学传递函数(d*(k,θi))的最可能的指数(i*)而估计目标声源的给定频率k时的物理位置(θ*)。
14.根据权利要求10所述的助听器,其中,所述处理器配置成通过找到使下式最大化的指数(i*)而估计目标的物理位置(θ*):
其中Z(·)为组合跨频率的概率的函数,例如所有每频率概率的积。
15.根据权利要求10所述的助听器,其中,在给定当前电输入信号(Y(k,l))和表示用户的当前眼睛注视的时变信号时,提供相对传递函数(d(k,θi))为当前使用的相对传递函数(d(k,l,θi))的概率的条件概率密度函数(p(d(k,l,θi)|Y(k,l),φj(n)))对多个(L个)时间单位积分。
16.根据权利要求1所述的助听器,由空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合构成或者包括空气传导型助听器、骨导型助听器、耳蜗植入型助听器或其组合。
CN202310638104.4A 2022-05-31 2023-05-31 包括声源定位估计器的助听器或助听器系统 Pending CN117156364A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP22176296 2022-05-31
EP22176296.6 2022-05-31

Publications (1)

Publication Number Publication Date
CN117156364A true CN117156364A (zh) 2023-12-01

Family

ID=81854353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310638104.4A Pending CN117156364A (zh) 2022-05-31 2023-05-31 包括声源定位估计器的助听器或助听器系统

Country Status (3)

Country Link
US (1) US20230388721A1 (zh)
EP (1) EP4287646A1 (zh)
CN (1) CN117156364A (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3185590B1 (en) 2015-12-22 2020-08-19 Oticon A/s A hearing device comprising a sensor for picking up electromagnetic signals from the body
DK3509325T3 (da) 2016-05-30 2021-03-22 Oticon As Høreapparat, der omfatter en stråleformerfiltreringsenhed, der omfatter en udglatningsenhed
EP3267697A1 (en) 2016-07-06 2018-01-10 Oticon A/s Direction of arrival estimation in miniature devices using a sound sensor array
EP4184950A1 (en) 2017-06-09 2023-05-24 Oticon A/s A microphone system and a hearing device comprising a microphone system
EP3496417A3 (en) 2017-12-06 2019-08-07 Oticon A/s Hearing system adapted for navigation and method therefor

Also Published As

Publication number Publication date
US20230388721A1 (en) 2023-11-30
EP4287646A1 (en) 2023-12-06

Similar Documents

Publication Publication Date Title
US11304014B2 (en) Hearing aid device for hands free communication
CN109922417B (zh) 适于导航的听力装置或系统
CN108600907B (zh) 定位声源的方法、听力装置及听力系统
US10966034B2 (en) Method of operating a hearing device and a hearing device providing speech enhancement based on an algorithm optimized with a speech intelligibility prediction algorithm
EP3883266A1 (en) A hearing device adapted to provide an estimate of a user's own voice
US11689869B2 (en) Hearing device configured to utilize non-audio information to process audio signals
CN110602620B (zh) 包括自适应声源频率降低的听力装置
US20220295191A1 (en) Hearing aid determining talkers of interest
US11582562B2 (en) Hearing system comprising a personalized beamformer
EP4250765A1 (en) A hearing system comprising a hearing aid and an external processing device
EP4099724A1 (en) A low latency hearing aid
CN110636425B (zh) 适于使用听力装置佩戴者的话音匹配输入变换器的听力装置
US20230388721A1 (en) Hearing aid system comprising a sound source localization estimator
US20230054213A1 (en) Hearing system comprising a database of acoustic transfer functions
US11950057B2 (en) Hearing device comprising a speech intelligibility estimator
EP4210348A1 (en) A method for monitoring and detecting if hearing instruments are correctly mounted
US20220353623A1 (en) Hearing device comprising an input transducer in the ear
EP4199541A1 (en) A hearing device comprising a low complexity beamformer
US20230121895A1 (en) Hearing device comprising a feedback control system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication