CN112492434A - 包括降噪系统的听力装置 - Google Patents

包括降噪系统的听力装置 Download PDF

Info

Publication number
CN112492434A
CN112492434A CN202010955909.8A CN202010955909A CN112492434A CN 112492434 A CN112492434 A CN 112492434A CN 202010955909 A CN202010955909 A CN 202010955909A CN 112492434 A CN112492434 A CN 112492434A
Authority
CN
China
Prior art keywords
signal
speech
user
hearing device
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010955909.8A
Other languages
English (en)
Inventor
P·霍昂
J·M·德哈恩
J·詹森
M·S·彼得森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oticon AS
Original Assignee
Oticon AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oticon AS filed Critical Oticon AS
Publication of CN112492434A publication Critical patent/CN112492434A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1783Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions
    • G10K11/17837Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase handling or detecting of non-standard events or conditions, e.g. changing operating modes under specific operating conditions by retaining part of the ambient acoustic environment, e.g. speech or alarm signals that the user needs to hear
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1016Earpieces of the intra-aural type
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/405Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • G10K2210/1081Earphones, e.g. for telephones, ear protectors or headsets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/10Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
    • H04R2201/107Monophonic and stereophonic headphones with microphone for two-way hands free communication
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了包括降噪系统的听力装置,其中所述听力装置包括:用于提供至少一表示用户环境中的声音的电输入信号的输入单元,所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量;用于提供目标语音信号的估计量的降噪系统,其中所述噪声信号分量被至少部分衰减;自我话音检测器,用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音;其中所述噪声信号分量在所述自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间被识别。

Description

包括降噪系统的听力装置
技术领域
本申请涉及听力装置如助听器或头戴式耳机,尤其涉及听力装置中的降噪。 本发明具体涉及其中需要佩戴听力装置的用户话音的良好(高质量)估计量的 应用,例如用于传给另一装置如远端通信伙伴或听者和/或传给例如用于听力装 置(或其它装置或系统)的话音控制的话音接口。
背景技术
听力装置例如可通过应用话音活动检测器而确定音频信号中是否包括话音 (或语音)。然而,话音经常同时源自想要的和不想要的声源,从而使得很难 区分想要的和不想要的话音信号及很难衰减不想要的话音信号。因而,希望能 够在增强来自想要的声源的话音的同时衰减来自不想要的声源的话音。
发明内容
听力装置
在本申请的一方面,公开了一种听力装置。该听力装置可适于位于用户耳 朵处或耳朵中,或者适于完全或部分植入在用户头部中。
听力装置可包括用于提供至少一表示用户环境中的声音的电输入信号的输 入单元。环境可指用户周围的自由空间,其固定不变和/或动态地取决于用户是 站着不动还是走来走去,及其包含到达用户位置的音频(如声音)。例如,环 境可指用户位于其中的封闭教室,或者在用户位于例如建筑物外面时,可指用 户周围的开放空间。
电输入信号可包括来自目标声源的目标语音信号和来自一个或多个其它声 源的另外的信号分量(在此称为噪声信号分量)。目标声源可指一个或多个声 源如一个或多个人(例如听力装置的用户和/或其他人)或者一个或多个电子设 备(如电视机、收音机等),其产生和/或发出用户想要听见的语音信号。一个 或多个其它声源例如可指一个或多个人、电子设备或其它声源(如仪器、动物 等),其产生和/或发出另外的信号分量即噪声信号分量,这些信号分量被视为 用户不想要的信号分量且优选应被衰减。
听力装置可包括用于提供目标语音信号的估计量的降噪系统。
噪声信号分量可至少部分被衰减。
听力装置可包括自我话音检测器,用于反复估计至少一电输入信号或源自 其的信号是否或者以何种概率包括源自用户话音的语音。
听力装置还可配置成使得噪声信号分量在时间段期间被识别。
自我话音检测器可指明至少一电输入信号或源自其的信号源自用户话音或 者以高于自我话音存在概率(OVPP,own voice presence probability)阈值的概 率源自用户话音。
从而,噪声信号分量,其也可包括来自不想要的声源的话音,可在自我话 音检测器估计用户正说话的时间间隔期间进行检测,例如代替(本领域常见的) 在没有话音活动的时间间隔期间进行检测,或者除在没有话音活动的时间间隔 期间进行检测之外另行在自我话音检测器估计用户正说话的时间间隔期间进行 检测。因而,进行衰减的噪声信号分量同样可在用户正说话的同时更新。例如, 如果一人在与用户说话同样的时间段说话,来自该人的声音可被识别并标记为 噪声,其应被衰减。
进一步地,利用自我话音检测识别噪声信号分量不再需要另外的检测器 (如摄像机),其专用于例如通过图像分析而识别特定的人在与用户同样的时 间段说话时他/她是否是不想要的噪声源。
因而,使得可改善降噪。
输入单元可包括传声器。输入单元可包括至少两个传声器。输入单元可包 括三个以上传声器。
每一传声器可提供电输入信号。电输入信号可包括目标语音信号和噪声信 号分量。
听力装置可包括话音活动检测器,用于反复估计至少一电输入信号或源自 其的信号是否或者以何种概率包括语音。
从而,至少一电输入信号中包括的语音可被增强。
听力装置可包括一个或多个波束形成器。例如,波束形成器滤波器可包括 两个以上波束形成器。
输入单元可配置成提供连接到一个或多个波束形成器的、至少两个电输入 信号。一个或多个波束形成器可配置成提供至少一个波束成形信号。
一个或多个波束形成器可包括一个或多个自我话音抵消波束形成器,配置 成衰减源自用户嘴巴的信号分量,同时来自(例如所有)其它方向的信号分量 保持不变或者较少衰减。
一个或多个可包括一个或多个目标波束形成器,用于(相对于来自不同于 目标声源方向的其它方向的声音)增强目标声源的话音。
目标信号可假定为用户的自我话音。
一个或多个波束形成器可包括自我话音波束形成器,配置成保持来自用户 嘴巴的信号分量,同时衰减来自(例如所有)其它方向的信号分量。自我话音 波束形成器可在听力装置运行之前(例如在验配期间)确定,对应的滤波器权 重例如可存储在听力装置的存储器中。从用户嘴巴到听力装置的每一传声器的 声学传递函数例如可在听力装置运行之前确定,或使用模型(如头和躯干模型, 例如来自Brüel&
Figure BDA0002678579480000031
Sound&VibrationMeasurement A/S的HATS,Head and Torso Simulator 4128C),或测量例如包括用户的一个或多个人。绝对或相对声 学传递函数可由视向量d=(d1,…,dM)表示,其中每一元素表示从嘴巴到M个传 声器中的特定传声器的(绝对或相对)传递函数。传声器之一可被定义为参考 传声器,及相对传递函数可定义成从参考传声器到听力装置(或听力系统)的 其余传声器的传递函数。自我话音滤波器权重WOV可在听力装置运行之前或期 间确定。自我话音滤波器权重为有噪声传声器信号的视向量dOV(k)、噪声协方 差矩阵估计量
Figure BDA0002678579480000032
及传声器间协方差矩阵Cx(k,n)的函数,其中k和n分别为 频率指数和时间指数。对于给定类型的波束形成器(如MVDR波束形成器), 滤波器权重的计算在本领域为常规手段并例如在本说明书的具体实施方式部分 例示。
波束形成器可包括最小方差无失真响应(MVDR,minimum variancedistortionless response)波束形成器。
波束形成器可包括多通道齐纳滤波器(MWF,multichannel Wiener filter) 波束形成器。
波束形成器可包括MVDR波束形成器和MWF波束形成器。
波束形成器可包括MVDR滤波器及其后的单通道后滤波器。
例如,波束形成器可包括MVDR波束形成器和单通道后齐纳滤波器。
使用MVDR滤波器的优点在于不会使目标分量失真。
使用MWF滤波器的优点在于使宽带信噪比(SNR)最大化。
噪声信号分量可由噪声协方差矩阵估计量表示。
噪声协方差矩阵可基于噪声信号分量的互功率谱密度(CPSDs,cross powerspectral densities)。
从而提供噪声场的简单(数学上易处理的)描述。
听力装置可包括包含多个波束形成器的波束形成器滤波器。
噪声协方差矩阵可在自我话音检测器指明至少一电输入信号或源自其的信 号源自用户话音时进行更新。
噪声协方差矩阵可在自我话音检测器指明至少一电输入信号或源自其的信 号以高于OVPP阈值的概率源自用户话音时进行更新。
从而,用户(当前)不感兴趣的和/或干扰用户语音的、来自(竞争性)说 话者的话音(不想要的语音)可被衰减。
噪声信号分量可另外在话音活动检测器指明至少一电输入信号或源自其的 信号中不存在语音的时间段期间进行识别。
噪声信号分量可在话音活动检测器指明没有语音或者以低于语音存在概率(SPP,speech presence probability)阈值的概率存在语音的时间段期间进行识 别。
听力装置可配置成使用最大似然估计器估计噪声信号分量。
从而,提供最佳地“解释”(具有最大似然)所观测的传声器信号的噪声 协方差矩阵估计量。
来自目标声源的目标语音信号可包括(或者构成)来自听力装置用户的自 我话音语音信号。
目标声源可包括(或者构成)听力装置用户环境中的外部讲话者。
听力装置可包括用于听力装置或其它装置或系统的话音控制的话音接口。
话音接口的输入例如可基于由自我话音波束形成器提供的用户自我话音的 估计量,其配置成保持来自用户嘴巴的信号分量,同时衰减来自(例如所有) 其它方向的信号分量。听力装置可包括基于用户话音的估计量的唤醒词检测器。 听力装置可配置成在(例如以高于唤醒词检测阈值的概率如大于60%)检测到 唤醒词时启动话音接口。
话音接口可被包括在听力装置的、设置在用户耳朵处、耳后或耳朵中的部 分中。听力装置可包括一个或多个“辅助装置”,其与听力装置通信并影响和/ 或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设备、移动 电话(如智能电话)或音乐播放器。在该情形下,一个或多个辅助装置可包括 话音接口。
通过提供包括话音接口的听力装置,提供听力装置的功能的无缝处理。
听力装置可由助听器、头戴式耳机、主动耳朵保护装置或其组合构成或者 包括助听器、头戴式耳机、主动耳朵保护装置或其组合。
听力装置可包括头戴式耳机。听力装置可包括助听器。听力装置例如可包 括天线和收发器电路,其配置成建立到另一装置或系统的通信链路。听力装置 例如可用于实施免提电话。
听力装置还可包括定时器,其配置成确定自我话音语音信号与另一语音信 号之间的重叠时间段。
另一语音信号可指由人、收音机、电视机等产生的语音信号。
定时器可与自我话音检测器相关联。在目标语音信号包括来自听力装置用 户的语音时,定时器可在自我话音检测器检测来自用户的语音信号的时间段检 测到另一语音信号时开始。定时器可在自我话音检测器未检测来自用户的语音 信号时结束。因而,不想要的语音信号可被识别和衰减。
听力装置可配置成确定所述时间段是否超过时限,如果是,将另一语音信 号标记为噪声信号分量的一部分。
例如,时限可以是至少二分之一秒、至少一秒、至少两秒。
另一语音信号可以是来自竞争性讲话者的语音,本身可被视为相对于目标 语音信号的噪声。因而,另一语音信号可被标记为噪声信号分量的一部分使得 另一语音信号可被衰减。
听力装置可配置成,对于预定时间段,将另一语音信号标记为噪声信号分 量的一部分。其后,另一语音信号可不被标记为噪声信号分量的一部分。例如, 当一人不是与听力装置用户的对话的一部分时,来自该人的话音信号可被衰减, 但在随后的时间,当该人参与与听力装置用户的对话时,可不被衰减。
降噪系统可递归地进行更新。噪声信号分量可递归地进行识别。因而,可 提供噪声协方差矩阵的递归更新。例如,来自一声源的话音信号,其从前已被 识别并标记为噪声信号分量的一部分,可随时间以连续递减的程度进行衰减。 在某一时间,该声源可免于被衰减,除非该声源被再次识别和标记为噪声信号 分量的一部分。
听力装置可适于提供随频率而变的增益和/或随电平而变的压缩和/或一个 或多个频率范围到一个或多个其它频率范围的移频(具有或没有频率压缩)以 补偿用户的听力受损。听力装置可包括用于增强输入信号并提供处理后的输出 信号的信号处理器。
听力装置可包括输出单元,用于基于处理后的电信号提供由用户感知为声 信号的刺激。输出单元可包括耳蜗植入件(用于CI型听力装置)的多个电极或 者骨导听力装置的振动器。输出单元可包括输出变换器。输出变换器可包括用 于将刺激作为声信号提供给用户的接收器(扬声器)(例如在声学(基于空气 传导的)听力装置中)。输出变换器可包括用于将刺激作为颅骨的机械振动提 供给用户的振动器(例如在附着到骨头的或骨锚式听力装置中)。输出单元可 包括无线发射器,用于将包括或表示声音的无线信号传给另一装置。
听力装置包括用于提供一个或多个表示声音的电输入信号的输入单元。输 入单元可包括用于将输入声音转换为电输入信号的输入变换器如传声器。输入 单元可包括用于接收包括或表示声音的无线信号并提供表示所述声音的电输入 信号的无线接收器。
无线接收器和/或发射器(如收发器)例如可配置成接收和/或发射在射频 范围(3kHz到300GHz)的电磁信号。无线接收器和/或发射器例如可配置成 接收和/或发射在光频率范围(例如红外光300GHz到430THz,或可见光,例 如430THz到770THz)的电磁信号。
听力装置可包括用于从另一装置如从娱乐设备(例如电视机)、通信装置 (例如智能电话)、无线传声器、个人计算机或另一听力装置接收信号和/或将 信号传给前述另一装置的天线和收发器电路(如无线接收器)。信号可表示或 包括音频信号和/或控制信号和/或信息信号。听力装置可包括用于对所传输/接 收的信号进行调制/解调的适当调制/解调电路。信号可表示音频信号和/或控制 信号,例如用于设置听力装置的运行参数(如音量)和/或处理参数和/或话音 控制命令等。总的来说,听力装置的天线及收发器电路建立的无线链路可以是 任何类型。无线链路可在两个装置之间建立,例如在娱乐装置(如TV)或通信装置(如智能电话)与听力装置之间,或者在两个听力装置之间,例如经第 三中间装置(如处理装置,例如遥控装置、智能电话等)。无线链路可以是基 于近场通信的链路,例如基于发射器部分和接收器部分的天线线圈之间的感应 耦合的感应链路。无线链路可基于远场电磁辐射。经无线链路的通信可根据特 定调制方案进行安排,例如模拟调制方案,如FM(调频)或AM(调幅)或 PM(调相),或数字调制方案,如ASK(幅移键控)如开-关键控、FSK(频移键控)、PSK(相移键控)如MSK(最小频移键控)或QAM(正交调幅) 等。
听力装置与另一装置之间的通信可处于基带(音频频率范围,如0和 20kHz之间)中。听力装置与听力装置之间的通信可基于高于100kHz频率的某 类调制。优选地,用于在听力装置和另一装置之间建立通信链路的频率低于 70GHz,例如位于从50MHz到70GHz的范围中,例如高于300MHz,例如在高 于300MHz的ISM范围中,例如在900MHz范围中或在2.4GHz范围中或在 5.8GHz范围中或在60GHz范围中(ISM=工业、科学和医学,这样的标准化范 围例如由国际电信联盟ITU定义)。无线链路可基于标准化或专用技术。无线 链路可基于蓝牙技术(如蓝牙低功率技术)。
听力装置可具有0.08m级的最大外尺寸(如耳机)。听力装置可具有0.04m 级的最大外尺寸(如听力仪器)。
听力装置可包括定向传声器系统,其适于对来自环境的声音进行空间滤波 从而增强佩戴听力装置的用户的局部环境中的多个声源之中的目标声源。定向 系统可适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可 以例如现有技术中描述的多种不同方式实现。在听力装置中,传声器阵列波束 形成器通常用于空间上衰减背景噪声源。许多波束形成器变型可在文献中找到。 最小方差无失真响应(MVDR)波束形成器广泛用在传声器阵列信号处理中。 理想地,MVDR波束形成器保持来自目标方向(也称为视向)的信号不变,而 最大程度地衰减来自其它方向的声音信号。广义旁瓣抵消器(GSC)结构是 MVDR波束形成器的等同表示,其相较原始形式的直接实施提供计算和数字表 示优点。
听力装置可以是便携(即配置成可穿戴)装置或形成其一部分,如包括本 机能源如电池例如可再充电电池的装置。听力装置可以是轻质、容易穿戴的装 置,例如具有小于100g的总重量,如小于20g,如小于10g。
听力装置可包括输入单元(如输入变换器,例如传声器或传声器系统和/或 直接电输入(如无线接收器))和输出单元如输出变换器之间的正向或信号通 路。信号处理器可位于该正向通路中。信号处理器可适于根据用户的特定需要 提供随频率而变的增益。听力装置可包括具有用于分析输入信号(如确定电平、 调制、信号类型、声反馈估计量等)的功能件的分析通路。分析通路和/或信号 通路的部分或所有信号处理可在频域进行。分析通路和/或信号通路的部分或所 有信号处理可在时域进行。
表示声信号的模拟电信号可在模数(AD)转换过程中转换为数字音频信 号,其中模拟信号以预定采样频率或采样速率fs进行采样,fs例如在从8kHz到 48kHz的范围中(适应应用的特定需要)以在离散的时间点tn(或n)提供数字 样本xn(或x[n]),每一音频样本通过预定的Nb比特表示声信号在tn时的值, Nb例如在从1到48比特的范围中如24比特。每一音频样本因此使用Nb比特量 化(导致音频样本的2Nb个不同的可能的值)。数字样本x具有1/fs的时间长度, 如50μs,对于fs=20kHz。多个音频样本可按时间帧安排。一时间帧可包括64 个或128个音频数据样本。根据实际应用可使用其它帧长度。
听力装置可包括模数(AD)转换器以按预定的采样速率如20kHz对模拟输 入(例如来自输入变换器如传声器)进行数字化。听力装置可包括数模(DA) 转换器以将数字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
听力装置如输入单元和/或天线及收发器电路可包括用于提供输入信号的时 频表示的TF转换单元。时频表示可包括所涉及信号在特定时间和频率范围的相 应复值或实值的阵列或映射。TF转换单元可包括用于对(时变)输入信号进行 滤波并提供多个(时变)输出信号的滤波器组,每一输出信号包括截然不同的 输入信号频率范围。TF转换单元可包括用于将时变输入信号转换为(时-)频 域中的(时变)信号的傅里叶变换单元。听力装置考虑的、从最小频率fmin到 最大频率fmax的频率范围可包括从20Hz到20kHz的典型人听频范围的一部分, 例如从20Hz到12kHz的范围的一部分。通常,采样率fs大于或等于最大频率 fmax的两倍,即fs≥2fmax。听力装置的正向通路和/或分析通路的信号可拆分为 NI个(例如均匀宽度的)频带,其中NI例如大于5,如大于10,如大于50, 如大于100,如大于500,至少其部分个别进行处理。助听器可适于在NP个不 同频道处理正向和/或分析通路的信号(NP≤NI)。频道可以宽度一致或不一 致(如宽度随频率增加)、重叠或不重叠。
听力装置可配置成在不同模式下运行,如正常模式及一个或多个特定模式, 例如可由用户选择或者可自动选择。运行模式可针对特定声学情形或环境进行 优化。运行模式可包括低功率模式,其中听力装置的功能被减少(例如以便节 能),例如禁用无线通信和/或禁用听力装置的特定特征。运行模式可以是话音 控制模式,其中话音接口例如经特定唤醒词如“Hey Oticon”激活。运行模式 可以是通信模式,其中听力装置配置成拾取用户的话音并将其传给另一装置 (可能及从另一装置接收音频,例如以使能免提通话)。
听力装置可包括多个检测器,其配置成提供与听力装置的当前网络环境 (如当前声环境)有关、和/或与佩戴听力装置的用户的当前状态有关、和/或 与听力装置的当前状态或运行模式有关的状态信号。作为备选或另外,一个或 多个检测器可形成与听力装置(如无线)通信的外部装置的一部分。外部装置 例如可包括另一听力装置、遥控器、音频传输装置、电话(如智能电话)、外 部传感器等。
多个检测器中的一个或多个可对全带信号起作用(时域)。多个检测器中 的一个或多个可对频带拆分的信号起作用((时-)频域),例如在有限的多个 频带中。
多个检测器可包括用于估计正向通路的信号的当前电平的电平检测器。预 定判据包括正向通路的信号的当前电平是否高于或低于给定(L-)阈值。电平 检测器可作用于全频带信号(时域)。电平检测器可作用于频带拆分信号 ((时-)频域)。
听力装置可包括话音检测器(VD),用于估计输入信号(在特定时间点) 是否(或者以何种概率)包括话音信号。在本说明书中,话音信号包括来自人 类的语音信号。其还可包括由人类语音系统产生的其它形式的发声(如唱歌)。 话音检测器单元可适于将用户当前的声环境分类为“话音”或“无话音”环境。 这具有下述优点:包括用户环境中的人发声(如语音)的电传声器信号的时间 段可被识别,因而与仅(或主要)包括其它声源(如人工产生的噪声)的时间 段分离。话音检测器可适于将用户自己的话音也检测为“话音”。作为备选,话音检测器适于从“话音”的检测排除用户自己的话音。
听力装置可包括自我话音检测器,用于估计特定输入声音(如话音,如语 音)是否(或以何种概率)源自听力系统用户的话音。听力装置的传声器系统 可适于能够进行用户自己的话音与另一人的话音及可能与无话音声音的区分。
多个检测器可包括运动检测器,例如加速度传感器。运动检测器可配置成 检测用户面部肌肉和/或骨头的例如因语音或咀嚼(如颌部运动)引起的运动并 提供标示该运动的检测器信号。
听力装置可包括分类单元,配置成基于来自(至少部分)检测器的输入信 号及可能其它输入对当前情形进行分类。在本说明书中,“当前情形”由下面 的一个或多个定义:
a)物理环境(如包括当前电磁环境,例如出现计划或未计划由听力装置 接收的电磁信号(包括音频和/或控制信号),或者当前环境不同于声学的其它 性质);
b)当前声学情形(输入电平、反馈等);
c)用户的当前模式或状态(运动、温度、认知负荷等);
d)听力装置和/或与听力装置通信的另一装置的当前模式或状态(所选程 序、自上次用户交互之后消逝的时间等)。
分类单元可基于或者包括神经网络例如经训练的神经网络。
听力装置还可包括用于所涉及应用的其它适宜功能,如压缩、反馈控制等。
听力装置可包括听音装置如助听器、听力仪器例如适于位于用户耳朵处或 者完全或部分位于耳道中的听力仪器,例如头戴式耳机、耳麦、耳朵保护装置 或其组合。听力系统可包括喇叭扩音器(包含多个输入变换器和多个输出变换 器,例如用在音频会议情形),例如包括波束形成器滤波单元,例如提供多个 波束形成能力。
在本申请的一方面,公开了包括第一听力装置和辅助装置的双耳听力系统。 该双耳听力系统可配置成使能在第一听力装置与辅助装置之间交换数据。
在本申请的一方面,公开了包括第一和第二听力装置的双耳听力系统。该 双耳听力系统可配置成使能在第一和第二听力装置之间例如经中间辅助装置交 换数据。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要 求中限定的听力装置的应用。可提供在包括一个或多个助听器(如听力仪器) 的系统、头戴式耳机、耳麦、主动耳朵保护系统等中的应用,例如在免提电话 系统、远程会议系统(例如包括喇叭扩音器)、广播系统、卡拉OK系统、教 室放大系统等中的用途。
方法
一方面,提供一种听力装置的运行方法。
听力装置可适于位于用户耳朵处或耳朵中,或者适于完全或部分植入在用 户头部中。
该方法可包括提供至少一表示用户环境中的声音的电输入信号。
电输入信号可包括来自目标声源的目标语音信号和来自一个或多个其它声 源的另外的信号分量(称为噪声信号分量)。
该方法可包括提供目标语音信号的估计量。
噪声信号分量可至少部分被衰减。
该方法可包括反复估计至少一电输入信号或源自其的信号是否或者以何种 概率包括源自用户话音的语音。
该方法还可包括在时间段期间识别噪声信号分量。
自我话音检测器可指明至少一电输入信号或源自其的信号源自用户话音或 者以高于自我话音存在概率(OVPP)阈值的概率源自用户话音。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的 或权利要求中限定的装置的部分或所有结构特征可与本发明方法的实施结合, 反之亦然。方法的实施具有与对应装置一样的优点。
计算机可读介质或数据载体
本发明进一步提供保存包括程序代码(指令)的计算机程序的有形计算机 可读介质(数据载体),当计算机程序在数据处理系统上运行时,使得数据处 理系统(计算机)执行(完成)上面描述的、“具体实施方式”中详细描述的 及权利要求中限定的方法的至少部分(如大部分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、 EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或 者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的 任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字 多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这 些盘可用激光光学地复制数据。其它存储介质包括存储在DNA中(例如合成的DNA链中)。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有 形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网 进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。
其中噪声信号分量至少部分被衰减的、提供目标语音信号的估计量的方法 步骤可以软件进行实施。
噪声信号分量可至少部分被衰减。
反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自 用户话音的语音的方法步骤可以软件进行实施。
在自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或 者以高于自我话音存在概率(OVPP)阈值的概率源自用户话音的时间段期间 识别噪声信号分量的方法步骤可以软件进行实施。
计算机程序
此外,本申请提供包括指令的计算机程序(产品),当该程序由计算机运 行时,导致计算机执行上面描述的、“具体实施方式”中详细描述的及权利要 求中限定的方法(的步骤)。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序 代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求 中限定的方法的至少部分(如大部分或所有)步骤。
听力系统
另一方面,提供包括上面描述的、“具体实施方式”中详细描述的及权利 要求中限定的听力装置及辅助装置的听力系统。
听力系统可适于在听力装置与辅助装置之间建立通信链路以使得信息(如 控制和状态信号,可能音频信号)可进行交换或者从一装置转发给另一装置。
辅助装置可包括遥控器、智能电话、或者其它便携或可穿戴电子设备如智 能手表等。
辅助装置可构成或包括遥控器,用于控制听力装置的功能和运行。遥控器 的功能可被实施在智能电话中,智能电话可能运行使能经智能电话控制音频处 理装置的功能的APP(听力装置包括适当的到智能电话的无线接口,例如基于 蓝牙或一些其它标准化或专有方案)。
辅助装置可以是或包括音频网关设备,其适于(例如从娱乐装置如TV或 音乐播放器、从电话设备如移动电话或者从计算机如PC)接收多个音频信号并 适于选择和/或组合所接收的音频信号中的适当信号(或信号组合)以传给听力 装置。
辅助装置可由另一听力装置构成或包括另一听力装置。听力系统可包括适 于实施双耳听力系统如双耳助听器系统的两个听力装置。
APP
另一方面,本发明还提供称为APP的非短暂应用。APP包括可执行指令, 其配置成在辅助装置上运行以实施用于上面描述的、“具体实施方式”中详细 描述的及权利要求中限定的听力装置或听力系统的用户接口。该APP可配置成 在移动电话如智能电话或另一使能与所述听力装置或听力系统通信的便携装置 上运行。
定义
在本说明书中,“听力装置”指适于改善、增强和/或保护用户的听觉能力 的装置如助听器例如听力仪器或有源耳朵保护装置或其它音频处理装置,其通 过从用户环境接收声信号、产生对应的音频信号、可能修改该音频信号、及将 可能已修改的音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。 “听力装置”还指适于以电子方式接收音频信号、可能修改该音频信号、及将 可能已修改的音频信号作为听得见的信号提供给用户的至少一只耳朵的装置如 头戴式耳机或耳麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内 的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户 内耳的声信号、及直接或间接传到用户耳蜗神经的电信号。
听力装置可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中 的输出变换器如扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作 为连到植入在颅骨内的固定结构的单元如振动器、或作为可连接的或者整个或 部分植入的单元等。听力装置可包括单一单元或几个彼此电子通信的单元。扬 声器可连同听力装置的其它部件一起设置在壳体中,或者其本身可以是外部单 元(可能与柔性引导元件如圆顶状元件组合)。听力装置可实施在单一单元 (壳体)中或者可实施在彼此连接的多个单元中。
更一般地,听力装置包括用于从用户环境接收声信号并提供对应的输入音 频信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接 收器、用于处理输入音频信号的(通常可配置的)信号处理电路(如信号处理 器,例如包括可配置(可编程)的处理器,例如数字信号处理器)、及用于根 据处理后的音频信号将听得见的信号提供给用户的输出单元。信号处理器可适 于在时域或者在多个频带处理输入信号。在一些听力装置中,放大器和/或压缩 器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的) 存储元件,用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和/或用于保存适合听力装置功能的信息和/或用于保存例如结合到用户的接口和/ 或到编程装置的接口使用的信息(如处理后的信息,例如由信号处理电路提 供)。在一些听力装置中,输出单元可包括输出变换器,例如用于提供空传声 信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些听力装置 中,输出单元可包括一个或多个用于提供电信号的输出电极(例如用于电刺激 耳蜗神经的多电极阵列)。听力装置可包括喇叭扩音器(包括多个输入变换器 和多个输出变换器,例如用在音频会议情形)。
在一些听力装置中,振动器可适于经皮或由皮将结构传播的声信号传给颅 骨。在一些听力装置中,振动器可植入在中耳和/或内耳中。在一些听力装置中, 振动器可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些听力装置中, 振动器可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些听 力装置中,输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号 提供给耳蜗的毛细胞、一个或多个听觉神经、听觉脑干、听觉中脑、听觉皮层 和/或大脑皮层的其它部分。
听力装置如助听器可适应特定用户的需要如听力受损。听力装置的可配置 的信号处理电路可适于施加输入信号的随频率和电平而变的压缩放大。定制的 随频率和电平而变的增益(放大或压缩)可在验配过程中通过验配系统基于用 户的听力数据如听力图使用验配基本原理(例如适应语音)确定。随频率和电 平而变的增益例如可体现在处理参数中,例如经到编程装置(验配系统)的接 口上传到听力装置,并由听力装置的可配置的信号处理电路执行的处理算法使 用。
“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包 括两个听力装置并适于协同地向用户的两只耳朵提供听得见的信号的系统。听 力系统或双耳听力系统还可包括一个或多个“辅助装置”,其与听力装置通信 并影响和/或受益于听力装置的功能。辅助装置例如可以是遥控器、音频网关设 备、移动电话(如智能电话)或音乐播放器。听力装置、听力系统或双耳听力 系统例如可用于补偿听力受损人员的听觉能力损失、增强或保护正常听力人员 的听觉能力和/或将电子音频信号传给人。听力装置或听力系统例如可形成广播 系统、主动耳朵保护系统、免提电话系统、汽车音频系统、娱乐(如卡拉OK) 系统、远程会议系统、教室放大系统等的一部分或者与其交互。
本发明的实施例如可用在需要佩戴听力装置的用户的话音的良好(高质量) 估计的应用中。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为 清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所 必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或 对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些 及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1A示出了根据本发明的听力装置系统的示例性应用情形;
图1B-1D分别示出了根据本发明的、同样时间段的相应话音活动、话音活 动检测器(VAD)和噪声更新;
图2A示出了根据本发明的听力装置系统的示例性应用情形;
图2B-2D分别示出了根据本发明的、同样时间段的相应话音活动、话音活 动检测器(VAD)和噪声更新;
图3A示出了根据本发明的听力装置系统的示例性应用情形;
图3B-3D分别示出了根据本发明的、同样时间段的相应话音活动、话音活 动检测器(VAD)和噪声更新;
图4A示出了示例性输入单元连接到示例性降噪系统;
图4B示出了根据本发明的、示例性输入单元连接到示例性降噪系统;
图5A示出了根据本发明实施例的、包括降噪系统的助听器的示例性框图;
图5B示出了根据本发明实施例的、包括降噪系统的助听器处于免提电话运 行模式时的示例性框图;
图5C示出了根据本发明实施例的、包括降噪系统的助听器包括话音控制接 口时的示例性框图;
图6示出了根据本发明的听力装置系统的示例性应用情形。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而, 应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说 明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它 实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用 于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易 见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方 面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等 (统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元 素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微型机电系统(MEMS)、集成电路(例如专用集成电 路)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列 (FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、印刷电路 板(PCB)(如柔性PCB)、及配置成执行本说明书中描述的多个不同功能的 其它适当硬件如传感器,例如用于感测和/或记录环境、设备、用户等的物理性 质等。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、 程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、 可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、 硬件描述语言还是其他名称。
本申请涉及听力装置如助听器领域。
在现实音频应用中通常需要语音增强和降噪,其中来自声学环境的噪声掩 蔽所需要的语音信号通常导致语音可懂度降低。其中降噪有益的音频应用的例 子为免提无线通信设备,如头戴式耳机、自动语音识别系统和助听器(HA)。 具体地,其中(“远端”)人类听者需要理解由头戴式耳机的传声器拾取的有 噪声自我话音的应用如头戴式耳机通信设备,噪声可大大降低声音质量和语音 可懂度,从而使对话更困难。
在本说明书中,“头戴式耳机应用”可包括用于例如经网络与“远端讲话 者”通信的正常头戴式耳机应用(如办公室或呼叫中心应用),也可包括其中 助听器处于适于拾取用户话音并将其传给另一装置(如远端通信伙伴)同时可 能从其它装置(如远端通信伙伴)接收音频的特定“通信或电话模式”的助听 器应用。
多传声器设备中实施的降噪算法可包括一组线性滤波器,例如用于对这些 传声器拾取的声音进行整形的空间滤波器和时间滤波器。空间滤波器能够通过 按方向的函数增强或衰减声音而改变声音,时间滤波器可改变有噪声信号的频 率响应以增强或衰减特定频率。为找到最佳滤波器系数,通常需要知道声学环 境的噪声特性。遗憾的是,这些噪声特性通常未知并需要在线进行估计。通常 需要的、作为多通道降噪算法的输入的特性例如为噪声的互功率谱密度 (CPSDs)。例如最小方差无失真响应(MVDR)波束形成器和多通道齐纳滤 波器(MWF)波束形成器均需要噪声CPSDs,这两个为多传声器降噪系统中实 施的常见波束形成器。
为估计噪声统计数据,研究人员已开发了大量噪声统计数据的估计器,例 如[1–5]。在[1,4]中,提出存在语音期间的噪声CPSD矩阵的最大似然(ML, maximum likelihood)估计器,假定噪声CPSD矩阵保持一样,直到一标量乘数。 当噪声CPSD矩阵的根本结构不随时间改变时,例如对于车厢噪声和均质噪声 场,该估计器表现很好,但在其它情形下可能失败。在许多现实声学环境中, 噪声CPSD矩阵的根本结构不能被假定固定,例如在声学场景中存在显著的、 非固定不动的干扰噪声源时。具体地,当干扰为竞争性讲话者时,许多降噪系 统在高效抑制竞争性讲话者方面失败,因为很难确定是自我话音还是竞争性讲 话者是所需要的语音。
在图1A中,示出了听力装置用户1的环境。该环境被示为包括听力装置用 户1、目标声源2和噪声信号分量3。
听力装置用户1可佩戴听力装置,其包括用户1的左耳上的第一传声器4 和第二传声器5及用户1的右耳上的第三传声器6和第四传声器7。
目标声源2可位于听力装置用户1附近并可配置成产生目标语音信号并发 射到用户1的环境内。目标声源2可以是人、收音机、电视机等,其产生目标 语音信号。目标语音信号可朝向用户1的方向或者可朝向远离用户1的方向。
噪声信号分量3被示为围绕听力装置用户1和目标声源2,因而导致目标声 源信号在听力装置用户1处接收。噪声信号分量可包括局部噪声源(如机器、 风扇等)和/或分布式(分散、均质)噪声声源。
第一传声器4、第二传声器5、第三传声器6和第四传声器7(中的每一个) 可提供包括目标语音信号和噪声信号分量3的电输入信号。
在图1B中,话音活动(VA)被示为时间段的函数。假定目标声源2和用 户1背对背讲话,即在对话的语音之间没有停顿或者仅有最小停顿。用户1被 示为在t1与t2之间及t5与t6之间的时间段讲话(记为“自我话音”),而目 标声源2被示为在t3与t4之间及t7与t8之间的时间段讲话(记为“目标声 源”)。在图1B的整个时间段期间,有具有随机波动的噪声电平的噪声信号 (记为“噪声”的实线曲线)。
图1C示出了图1B的示例性话音活动可怎样使用自我话音VAD(如自我话 音检测器(OVD))及使用VAD(即经典的VAD)进行检测。
自我话音VAD可检测到用户在t1与t2之间的时间段及t5与t6之间的时间 段讲话。另一方面,该VAD将在从t1到t8的整个时间段检测语音正(从用户 1和目标声源2)产生。然而,根据所使用的VAD的分辨率,在t2到t3、t4到 t5及t6到t7的时间段检测到的话音活动中可能有小的中断。
图1D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量 及至少部分衰减噪声信号分量3。
在经典方法中(图1D的上部),VAD可用于检测语音的存在,听力装置 的降噪系统将仅在不产生语音(来自用户1和目标声源2)的时间进行更新, 因为VAD不能区分来自用户1的语音和来自目标声源2的语音。因而,仅在 VAD未检测到语音的时间,即从t0到t1及从t8之后,降噪系统才将被更新。
使用自我话音VAD(图1D的下部),听力装置的降噪系统不仅可在未检 测到语音时更新,而且可在自我话音VAD检测到来自用户1的语音时更新,即 从t0到t2、从t5到t6及从t8之后。
因而,噪声信号分量可在自我话音检测器指明至少一电输入信号或源自其 的信号源自用户1的话音或者以高于自我话音存在概率(OVPP)阈值的概率如 60%或70%源自用户1的话音时的时间段(时间间隔)期间识别。
在听力装置中结合自我话音VAD和VAD,降噪系统可配置成既在用户1 讲话时检测又在目标声源2讲话时检测。从而,该降噪系统可在未产生语音信 号的时间段期间及用户1讲话的时间段期间进行更新,但被防止在仅目标声源 2产生目标语音信号(讲话)的时间段更新。
在图2A中,示出了听力装置用户1的环境。该环境被示为包括听力装置用 户1、竞争性讲话者8和噪声信号分量3。
与图1A的情形一样,听力装置用户1可佩戴听力装置,其包括用户1的左 耳上的第一传声器4和第二传声器5及用户1的右耳上的第三传声器6和第四 传声器7。
竞争性讲话者8可位于听力装置用户1附近并可配置成产生竞争性语音信 号(即不想要的语音信号)并发射到用户1的环境内。竞争性讲话者8可以是 人、收音机、电视机等,其产生竞争性语音信号。竞争性语音信号可朝向用户 1的方向或者可朝向远离用户1的方向。
噪声信号分量3被示为围绕听力装置用户1和竞争性讲话者8,因而导致在 听力装置的传声器4、5、6、7处接收的、用户1的自我话音即想要的语音信号 的估计(例如在听力装置包括或实施头戴式耳机的情形下)。
在图2B中,话音活动(VA)被示为时间段(时间)的函数。假定用户1 在t1到t3的时间段讲话,而竞争性讲话者8在t2到t4的时间段讲话,藉此, 竞争性讲话者8的话音与用户1的话音重叠。在图2B的整个时间段期间,有具 有随机波动的噪声电平的噪声信号。
图2C示出了图2B的示例性话音活动可怎样使用自我话音VAD及使用(一 般)VAD进行检测。
自我话音VAD(图2C的下部)可检测到用户1在t1与t3之间的时间段讲 话。另一方面,该VAD(图2C的上部)将在从t1到t4的整个时间段检测语音 正(从用户1和竞争性讲话者8)产生。
图2D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量 及至少部分衰减噪声信号分量3。
在经典方法中(图2D的上部),VAD用于检测语音的存在,听力装置的 降噪系统将仅在不产生语音(来自用户1和竞争性讲话者8)的时间进行更新, 因为一般VAD不能区分来自用户1的语音和来自竞争性讲话者8的语音。因 而,仅在VAD未检测到语音的时间,即从t0到t1(及从t4之后),降噪系统 才可被更新。
使用自我话音VAD(图2D的下部),听力装置的降噪系统可配置成不仅 在未检测到语音时即从t0到t1(及从t4之后)更新,而且在自我话音VAD检 测到来自用户1的语音时更新,即(总共)在从t0到t3的时间更新。
因而,(包括来自竞争性讲话者8的)噪声信号分量可在自我话音检测器 指明至少一电输入信号或源自其的信号源自用户1的话音或者以高于自我话音 存在概率(OVPP)阈值的概率源自用户1的话音时的时间段期间识别。
在听力装置中结合自我话音VAD和一般VAD,降噪系统可配置成既在用 户1讲话时检测又在竞争性讲话者8独自讲话时检测。从而,该降噪系统可在 未产生语音信号的时间间隔期间及用户1讲话的时间间隔期间进行更新,但被 防止在竞争性讲话者8产生语音信号的时间间隔更新。
在图3A中,示出了听力装置用户1的环境。该环境被示为包括听力装置用 户1、目标声源2、竞争性讲话者8和噪声信号分量3。
与图1A和图2A的情形一样,听力装置用户1可佩戴听力装置,其包括用 户1的左耳上的第一传声器4和第二传声器5及用户1的右耳上的第三传声器6 和第四传声器7。
目标声源2和竞争性讲话者8可位于听力装置用户1附近并可配置成产生 语音信号并发射到用户1的环境内。目标语音信号和/或竞争性讲话者语音信号 可朝向用户1的方向或者可朝向远离用户1的方向。
噪声信号分量3被示为围绕听力装置用户1、竞争性讲话者8和目标声源 2,因而可影响在听力装置用户1处接收到的目标声源信号。
第一传声器4、第二传声器5、第三传声器6和第四传声器7可提供包括目 标语音信号、竞争性讲话者信号和噪声信号分量3的电输入信号。
在图3B中,话音活动(VA)被示为时间间隔(时间)的函数。假定目标 声源2和用户背对背讲话,竞争性讲话者8与目标声源2和用户1的语音重叠。 用户1被示为在t1与t2之间及t5与t6之间的时间间隔讲话(“自我话音”), 而目标声源2被示为在t3与t4之间及t7与t8之间的时间间隔讲话(“目标声 源”)。竞争性讲话者8被示为在t1*与t7*之间的时间间隔讲话(“竞争性讲 话者”)。在图3B的整个时间间隔期间,有具有随机波动的噪声电平的噪声信号(记为“噪声”的实线曲线)。
图3C示出了图3B的示例性话音活动可怎样使用自我话音VAD及使用 VAD进行检测。
自我话音VAD将检测到用户1在t1与t2之间的时间间隔及在t5与t6之间 的时间间隔讲话。另一方面,所述VAD将在从t1到t8的整个时间间隔检测语 音正(从用户1、竞争性讲话者8和目标声源2)产生。
图3D示出了听力装置能够更新降噪系统从而提供目标语音信号的估计量 及至少部分衰减包括竞争性讲话者信号的噪声信号分量3的时间间隔。
在经典方法中,VAD可用于检测语音的存在,听力装置的降噪系统将仅在 不产生语音(来自用户1、竞争性讲话者8和来自目标声源2)的时间进行更 新,因为VAD不能区分来自用户1的语音、来自竞争性讲话者8的语音和来自 目标声源2的语音。因而,仅在VAD未检测到语音的时间,即从t0到t1及从 t8之后,降噪系统才将被更新。
使用自我话音VAD,听力装置的降噪系统可配置成不仅在未检测到语音时 更新,而且在自我话音VAD检测到来自用户1的语音时更新,即从t0到t2、 从t5到t6及从t8之后的时间更新。
因而,噪声信号分量可在自我话音检测器指明至少一电输入信号或源自其 的信号源自用户1的话音或者以高于自我话音存在概率(OVPP)阈值的概率源 自用户1的话音时的时间段期间识别。
在听力装置中结合自我话音VAD和一般VAD,降噪系统可配置成既在用 户1讲话时检测又在目标声源2和竞争性讲话者8讲话时检测。从而,该降噪 系统可在未产生语音信号的时间间隔期间及用户1讲话的时间间隔期间进行更 新,但被防止在目标声源2产生目标语音信号的时间间隔更新。
在图4A和4B中,降噪系统NRS连接到包括M个输入变换器(IT1,…,ITM) 如传声器的输入单元IU,其中M大于或等于2。M个输入变换器可位于单一听 力装置如助听器中(例如位于用户耳朵中或耳朵处)。M个输入变换器可跨两 个(分开的)听力装置如助听器分布(例如在位于用户的两只耳朵中或耳朵处 的两个听力装置中)。后一配置可形成双耳听力系统如双耳助听器系统的一部 分或者构成双耳听力系统如双耳助听器系统。双耳助听器系统的每一听力装置 可包括一个或多个(至少一个)例如两个以上输入变换器(如传声器)。图6示出了双耳助听器系统的传声器配置,其中每一助听器包括两个传声器。图5A、 5B、5C示出了根据本发明的、包括降噪系统的听力装置(如助听器)的多个 不同实施例。
图4A示出了示例性的输入单元IU连接到示例性的降噪系统。M个输入变 换器中的每一个(在其相应的、不同位置)接收来自输入声场(包括环境声音) 的声音信号(s1,…,sM)。输入单元IU包括M个输入子单元(IU1,…,IUM)。每一 输入单元包括输入变换器(IT1,…,ITM)如传声器,用于将输入声音信号转换为电 输入信号(s’1,…,s’M)。每一输入变换器可包括模数转换器,用于将模拟输入信 号转换为数字信号(以某一采样速率,如20kHz或更高)。每一输入单元还包 括分析滤波器组,用于将时域(数字)信号转换为K个(例如≥16,或≥24或≥ 64)子频带信号(S1(k,n),…,SM(k,n),其中k和n分别为频率指数和时间指数, 及其中k=1,…,K。时频表示(k,n)的相应电输入信号(S1(k,n),…,SM(k,n))被馈给 降噪系统NRS。
降噪系统NRS配置成提供目标语音信号(如助听器用户的自我话音和/或 用户环境中的目标讲话者的话音)的估计量
Figure BDA0002678579480000251
其中噪声信号分量被至少 部分衰减。降噪系统NRS包括多个波束形成器。降噪系统NRS包括波束形成 器BF如MVDR波束形成器或MWF波束形成器,其连接到输入单元IU并配置 成接收时频表示的电输入信号(S1(k,n),…,SM(k,n))。波束形成器BF配置成提供 至少一波束成形(空间滤波的)信号,例如目标语音信号的估计量
Figure BDA0002678579480000252
通过波束形成实现定向性/方向性是衰减不想要的噪声的有效方式,因为随 方向而变的增益可抵消来自一方向的噪声,同时保留从另一方向传来的感兴趣 的声音,从而可能提高目标语音信号的可懂度(进而提供空间滤波)。通常, 听力装置如助听器中的波束形成器具有波束图,其被持续调整以使噪声分量最 小化,同时从目标方向传来的声音不被改变。通常,噪声信号的声学性质随时 间变化。因此,降噪系统实施为自适应系统,其调整方向波束图以使噪声最小 化,同时目标声音(方向)不被改变。
图4A的降噪系统NRS还包括话音活动检测器VAD,用于反复估计至少一 (大部分或全部)电输入信号或源自其的信号是否或者以何种概率包括语音。 电输入信号(S1(k,n),…,SM(k,n))或者其中的至少一个(或其处理后的例如波束成 形版本)被馈给VAD,在其基础上,提供指明电输入信号或其处理后版本是否 或者以何种概率包含语音的话音活动信号VA。VA被馈给用于更新噪声协方差 矩阵Cnoise的更新单元UPD-Cnoise。噪声协方差矩阵在不存在语音时(在给定时 间点)从(有噪声的)电输入信号(S1(k,n),…,SM(k,n))确定(假定在这些时刻在 声场中仅存在噪声)。更新的噪声协方差矩阵Cnoise(k,n)由更新滤波器权重单元 UPD-W使用,其中在噪声协方差矩阵被更新的给定时刻更新的滤波器权重W(k,n)基于最新的噪声协方差矩阵Cnoise(k,n)和从目标声源到听力系统(或装置) 的输入单元IU的相应输入变换器的当前相对或绝对声学传递函数的估计量(例 如设置中视向量d(k,m)中)进行确定。噪声协方差矩阵Cnoise(k,n)和波束形成器 权重W(k,n)的计算在现有技术中已知,例如在[11]中和/或EP2701145A1中描述。 更新的波束形成器权重W(k,n)在波束形成器BF中应用于电输入信号(S1(k,n),…, SM(k,n)),藉此,提供目标信号的估计量
Figure BDA0002678579480000261
图4B示出了示例性输入单元IU连接到根据本发明的、示例性降噪系统 NRS。图4B的实施例基本等同于图4A的实施例,因为其包含与图4A实施例 一样的功能元件。然而,其另外包含自我话音检测器OVAD,用于反复估计至 少一(大部分或全部)电输入信号(S1,SM)或源自其的信号是否或者以何种概率 包括源自用户话音的语音。一些声学事件具有截然不同的方向波束图,这些声 学事件可与其它声学事件区分开。听力装置用户的自我话音是这样的事件的一 个例子。这在本发明中被利用。通过同时监测(一般的)话音存在(由来自VAD的话音活动信号VA标示)和(特别的)自我话音存在(由来自OVAD的 自我话音活动信号OVA标示),可有利地使用用于识别适合更新噪声协方差矩 阵Cnoise(k,n)的时间段的另一方案(不同于一般话音不存在)。如图1A、2D、 3D的例子中所示,根据本发明的降噪系统配置成在自我话音语音活动期间(可 能及在一般语音不存在期间)更新噪声协方差矩阵Cnoise(k,n)。更新单元UPD- Cnoise例如可包括自我话音抵消波束形成器,配置成抵消(或衰减)来自用户嘴 巴的声音,同时保留来自其它方向的声音不变(或较少衰减)。更新滤波器权 重单元UPD-W可包括(单通道)后滤波器的功能,其中,除了目标信号的空 间滤波之外,噪声分量还被更新单元UPD-Cnoise的自我话音抵消波束形成器衰 减。更新滤波器权重单元UPD-W可接收或计算自我话音传递函数(嘴巴到传 声器),例如设置在视向量d中(参见输入d)。视向量可在听力装置运行之 前或期间确定。视向量可用于确定当前滤波器权重。视向量可表示到用户自我 话音或者到外部目标声源如环境中的目标讲话者的传递函数或相对传递函数。 用户自我话音的视向量及环境目标讲话者的视向量均可提供给降噪系统或者由 降噪系统自适应确定。降噪系统NRS可包括模式选择输入(“模式”),配置 成指明系统如波束形成器的运行模式和/或更新策略,例如目标信号是用户自我 的话音还是来自用户环境的目标信号(及可能指明这样的目标声源的方向或位 置)。模式控制信号例如可从用户接口如从遥控装置(例如实施为智能电话或 类似装置如智能手表等的APP)提供。用户接口可包括话音控制接口(例如参 见图5C)。模式控制信号例如可自动产生,例如使用一个或多个传感器产生, 例如由如来自电话的无线信号的接收开始。波束形成器BF的输出可以是用户 话音的估计量
Figure BDA0002678579480000271
或者来自环境的目标声音的估计量
Figure BDA0002678579480000272
例如参见图5B。
图5A示出了听力装置如助听器HD的示例性框图,其包括根据本发明的降 噪系统NRS。该听力装置包括用于从环境拾取声音sin并提供M个电输入信号 (S1,…,SM)的输入单元IU和用于基于电输入信号及非必须地基于结合图4A、 4B描述的另外的信息(如模式控制信号(“模式”))估计输入声音sin中的目 标信号
Figure BDA0002678579480000273
的降噪系统NRS。该助听器还包括处理器PRO,用于将一个或多个处 理算法应用于从输入到输出变换器的正向通路的信号(例如,在此应用于目标 信号的估计量
Figure BDA0002678579480000277
按时频表示
Figure BDA0002678579480000278
提供)。一个或多个处理算法例如可包括压 缩算法,配置成根据用户需要放大(或衰减)信号,从而例如补偿用户的听力 受损。其它处理算法可包括频移、反馈控制等。处理器提供处理后的输出OUT, 其被馈给输出单元OU,输出信号out因而被转换为可由用户感知为声音的刺激 sout(感知的输出声音),例如(空气和/或颅骨中的)声学振动或者耳蜗神经 的电刺激。在非助听器如头戴式耳机应用中,处理器可配置成进一步增强来自 降噪系统的信号或者可被省掉(使得目标信号的估计量
Figure BDA0002678579480000276
被直接馈给输出单 元)。目标信号可以是用户自我话音和/或用户环境中的目标声音(例如(不同 于用户的)人讲话,例如与用户通信)。
图5B示出了听力装置如助听器HD的示例性框图,其包括根据本发明实施 例的、处于免提电话运行模式的降噪系统NRS。图5B的实施例包括结合图5A 实施例描述的功能模块。然而,特别地,图5B的实施例配置成在特定通信模式 下实施无线头戴式耳机,从而使用户能与远处的通信伙伴进行口头通信。在特 定通信运行模式(如电话模式)下,助听器配置成使用输入单元IUMIC提供的 电输入信号拾取用户的话音并使用根据本发明的降噪系统NRS1提供用户话音 的估计量
Figure BDA0002678579480000284
及将该估计量(自我话音音频)经合成滤波器组FBS及适 当的发射器Tx和天线电路传给另一装置(如电话机或类似设备)或系统。另外, 助听器HD包括辅助音频输入(音频输入),配置成从另一装置或系统如电话 机(或类似设备)(例如通过有线或无线方式)接收直接音频输入。在图5B的 实施例中,无线接收的输入(例如来自通信伙伴的口头通信)被示为由助听器 经天线和输入单元IUAUX接收。辅助输入单元IUAUX包括适当的接收器电路、模 数转换器(如果适当)及分析滤波器组以将时频表示的音频信号Saux提供为子 频带信号Saux(k,n)。图5B的助听器的正向通路包括与结合图5A的实施例描述 的一样的元件及另外包括选择器-混合器SEL-MIX,从而使正向通路的信号 (其在处理器PRO中进行处理并作为可感知为声音的刺激呈现给用户)可配置。 在模式控制信号的控制下,选择器-混合器SEL-MIX的输出Sx(k,n)可以是a)环 境信号SENV(k,n)(例如环境中的目标信号的估计量,或者全向信号,例如来自 传声器之一);b)来自另一装置的辅助输入信号Saux(k,n);或者c)其混合 (例如(可能经用户接口可配置的)加权混合)。此外,相较于图5A的实施 例,图5B实施例的正向通路包括合成滤波器组FBS,配置成将通过多个子频带 信号表示的时频域的信号(在此为来自处理器PRO的信号OUT(k,n))转换为时 域信号out。助听器(正向通路)还包括输出变换器OT,用于将输出信号out 转换为可由用户感知为声音(输出声音)的刺激sout,例如(空气和/或颅骨中 的)声学振动。输出变换器OT可包括数模转换器,如果适当。
第一降噪系统NRS1配置成提供用户自我话音的估计量
Figure BDA0002678579480000285
第一降噪系统 NRS1可包括自我话音保持波束形成器和自我话音抵消波束形成器。自我话音 抵消波束形成器包括用户讲话时的噪声源。
第二降噪系统NRS2配置成提供目标声源的估计量(例如用户环境中的讲 话者的话音
Figure BDA0002678579480000286
第二降噪系统NRS2可包括环境目标声源保持波束形成器 和环境目标声源抵消波束形成器和/或自我话音抵消波束形成器。目标抵消波束 形成器包括目标讲话者讲话时的噪声源。自我话音抵消波束形成器包括用户讲 话时的噪声源。
图5B可表示一般的头戴式耳机应用,例如通过将传声器到发射器通路 IUMIC-Tx与直接音频输入到扬声器通路IUAUX-OT分开。这可以几种方式进行, 例如通过去除第二降噪系统NRS2及选择器-混合器SEL-MIX,及可能去除合成 滤波器组FBS(如果辅助输入信号Saux在时域进行处理),从而将辅助输入信 号Saux直接馈给处理器PRO,其可以或者(一般地)也可不配置成补偿用户的 听力受损。
图5C示出了根据本发明的包括降噪系统的助听器的示例性框图,其包括话 音控制接口。图5C的实施例包括与图5B的实施例一样的正向通路,除了在图 5C的实施例中省略在由来自输入变换器的电输入信号组成的波束成形信号中包 括(例如无线接收的)辅助音频信号的选项之外。在另一实施例中,图5B和 5C的实施例可混合,使得图5C的助听器另外包括来自另一装置的辅助输入及 将自我话音信号传给另一装置(以实施通信模式)的选项也可实施。通信模式 (如电话模式)的开始(或终止)例如可经话音接口如话音控制信号Vctr提供。 在图5C的实施例中,由第一降噪系统NRS1提供的用户自我话音的估计量
Figure BDA0002678579480000292
用作话音控制接口VCI的输入。话音控制接口VCI例如可根据唤醒词(由用户 说出并从用户话音的估计量
Figure BDA0002678579480000291
提取)的检测而启动。当话音控制接口启动时, 可提取多个预定命令词之中的一个命令词,并可根据其产生控制信号(VCtr, xVCtr)。助听器的功能(例如通过处理器PRO实施)可经话音接口VCI控制, 参见信号Vctr。提取的唤醒词(例如“Hey Siri”、“HeyGoogle”或“OK Google”、“Alexa”、“X Oticon”等)和/或命令词可传给另一装置(例如智 能电话或其它话音可控制的设备),参见经(非必须地,合成滤波器组FBS和) 天线和收发器电路TX传给另一装置的控制信号xvctr。
例1
在本申请中,公开了噪声CPSD矩阵的最大似然(ML)估计器,其克服 [1,4]提出的方法的局限性(例如在声学环境中存在显著的干扰时)。提出了扩 展噪声CPSD矩阵模型。在下面,呈现了声学场景中的有噪声观察结果的信号 模型。基于该信号模型,得出干扰+噪声CPSD矩阵的ML估计器,及所提出的 方法通过应用于自我话音取回进行例示。
声学场景由用户配备有多个助听器或者可访问至少M>2个传声器的头戴 式耳机组成。这些传声器从环境拾取声音,及有噪声信号被采样为离散序列
Figure BDA0002678579480000301
对于所有m=1,...,M个传声器,
Figure BDA0002678579480000302
如图6中所示,用户在该 声学场景中活动,由用户产生的、所需要的纯净语音信号(我们称为自我话音) 定义为离散序列so(t)。干扰被建模为点源(称为vc(t)),及声学环境中的噪声 为ve,m(t)。由传声器拾取的有噪声信号则为所有三个分量的和,即
xm(t)=so(t)*do,m(t)+vc(t)*dm(t,θc)+ve,m(t), (1)
其中*指卷积,do,m(t)为第m个传声器与自我话音来源之间的相对脉冲响应, dm(t,θc)为第m个传声器与从方向θc∈Θ到达的干扰之间的相对脉冲响应,其中, 在不损失一般性的情形下,我们假定Θ为方向的离散集,Θ={-180°,...,180}, 具有I个元素。降噪系统的目标则为从有噪声的观察结果xm(t)取回so(t)。
我们将短时傅里叶变换(STFT,short-time Fourier transform)应用于xm(t) 以将有噪声信号变换到时频(TF)域,具有帧长度T、抽选因子D和分析窗口 wA(t),使得
Figure BDA0002678579480000303
为有噪声信号的TF域表示,其中,
Figure BDA0002678579480000304
k为频率窗口(frequency bin)指数,及n为帧指数。有噪声观察结果在TF域的信号模型则变成
Figure BDA0002678579480000305
为了方便,对有噪声观察结果进行向量化,使得x(k,n)=[x1(k,n),...,xM(k,n)]T
Figure BDA0002678579480000311
我们进一步假定相对传递函数(RTF)向量(即do(k,n)和d(k,n,θc))随时 间保持一样,这样,我们可定义
Figure BDA0002678579480000312
Figure BDA0002678579480000313
在实践 中,通常是so(k,n)、vc(k,n)和ve(k,n)为无关联的随机处理,意味着有噪声观察 结果的CPSD矩阵即
Figure BDA0002678579480000314
按下式给出
Figure BDA0002678579480000315
其中λs(k,n)、λc(k,n)和λe(k,n)分别为自我话音、干扰和噪声的功率谱密度(PSD)。Γe(k,n)为归一化的噪声CPSD矩阵,1为参考传声器指数,我们假定 Γe(k,n)为已知矩阵,但对于大约均质的噪声场,可被建模为
Figure BDA0002678579480000316
我们假定自我话音RTF向量do(k)已知,因为其可在部署之前提前进行测量。 剩余要估计的参数为λc(k,n)、λe(k,n)和θc,所提出的、这些参数的ML估计器 将在下面的部分提出。
为估计干扰+噪声PSD即λc(k,n)和λe(k,n)以及干扰方向θc,我们首先应用自 我话音抵消波束形成器以获得仅干扰+噪声的信号(例如来自自我话音和竞争 性讲话者的信号)。自我话音抵消波束形成器使用自我话音阻塞矩阵Bo(k)实施。 找到自我话音阻塞矩阵的常见方法是首先找到do(k)的正交投影矩阵,然后选择 该投影矩阵的前M-1列向量。更清楚地,设IM×M为M×M单位矩阵,则IM×M-1为IM×M的前M-1列向量。自我话音阻塞矩阵则按下式给出
Figure BDA0002678579480000317
其中Bo(k)∈CM×M-1。自我话音阻塞的信号z(k,n)可表达为
Figure BDA0002678579480000321
及自我话音阻塞的CPSD矩阵为
Figure BDA0002678579480000322
在提出λc(k,n)、λe(k,n)和θc的ML估计器之前,我们介绍自我话音+干扰阻 塞矩阵
Figure BDA0002678579480000323
该步骤是必要的,因为噪声PSDλe(k,n)的ML估计器还要求干扰被从自我 话音阻塞的信号z(k,n)去除。形成自我话音+干扰阻塞矩阵遵循与形成自我话音 阻塞矩阵类似的程序。自我话音+干扰阻塞矩阵可以是
Figure BDA0002678579480000324
其中
Figure BDA0002678579480000325
自我话音+干扰阻塞矩阵
Figure BDA0002678579480000326
为方向的函数,因 为干扰的方向一般未知。自我话音+干扰阻塞的信号则为
Figure BDA0002678579480000327
及阻塞的自我话音+干扰CPSD矩阵为
Figure BDA0002678579480000328
仅在θi=θc时。
假定自我话音、干扰和噪声时间上无关联是常见的[6]。在该假设条件下, 阻塞的自我话音+干扰信号根据圆形对称复高斯分布进行分布,即
Figure BDA00026785794800003314
Figure BDA00026785794800003315
意味着z(k,n)的N个观察结果的似然函数由下式给出
Figure BDA0002678579480000331
Figure BDA0002678579480000332
tr(·)指迹算子,及
Figure BDA0002678579480000333
Figure BDA0002678579480000334
为自我话音阻塞的CPSD矩阵的样本估计量。干扰+噪声PSDλc(k,n)和λe(k,n)的ML估计器已在[1,4]中得出。λe(k,n)的ML估计器由下式给 出
Figure BDA0002678579480000335
Figure BDA0002678579480000336
为自我话音+干扰阻塞的信号的样本 协方差,及干扰PSD的ML估计器则为如[7]给出的
Figure BDA0002678579480000337
其中
Figure BDA0002678579480000338
为从阻塞的自我话音CPSD矩阵构建的MVDR波束形成器,即
Figure BDA0002678579480000339
将ML估计量
Figure BDA00026785794800003310
Figure BDA00026785794800003311
插入到似然函数,我们获得集中的似 然函数
Figure BDA00026785794800003312
我们将其简化为
Figure BDA00026785794800003313
常见 地,通过将自然对数函数应用于集中的似然函数而使对数似然函数最大化。则 可表明,集中的对数似然函数正比于[8,9]。
Figure BDA0002678579480000341
在声学环境中仅存在单一干扰及跨频率窗口的有噪声观察结果不相关的假 设下,则可得出宽带集中的对数似然函数
Figure BDA0002678579480000342
其中K为单边频谱的频率窗口的总数。为获得干扰方向的ML估计量,我 们使下面的函数最大化
Figure BDA0002678579480000343
由于θi属于方向的离散集,θc的ML估计量通过跨θi的穷尽搜索获得。最 后,为获得干扰+噪声CPSD矩阵的估计量,我们将ML估计量插入到干扰+噪 声CPSD模型内,即
Figure BDA0002678579480000344
对于自我话音取回,我们实施MWF波束形成器。众所周知,MWF可分解 为MVDR波束形成器和单通道后齐纳滤波器。MVDR波束形成器由下式给出
Figure BDA0002678579480000345
及单通道后齐纳滤波器为
Figure BDA0002678579480000346
MWF波束形成器系数则为
wMWF(k,n)=wMVDR(k,n)·g(k,n). (23)
最后,自我话音信号可使用波束形成器权重估计为有噪声观察结果的线性 组合,即
Figure BDA0002678579480000351
增强的TF域信号y(k,n)然后使用逆STFT变换回到时域,使得y(t)为取回 的自我话音时域信号。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的 及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形 式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具 有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件 和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元 件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或 “耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何 及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开 的顺序执行。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者 “可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发 明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多 个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在 此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一 般原理可应用于其他方面。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全 部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一 个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
因而,本发明的范围应依据权利要求进行判断。
参考文献
[1]U.Kjems and J.Jensen,“Maximum likelihood based noise covariancematrix estimation for multimicrophone speech enhancement,”in 2012Proceedingsof the 20th European Signal Processing Conference(EUSIPCO),Aug 2012,pp.295–299.
[2]Yujie Gu and A.Leshem,“Robust Adaptive Beamforming Based onInterference Covariance Matrix Reconstruction and Steering VectorEstimation,”IEEE Transactions on Signal Processing,vol.60,no.7,pp.3881–3885,July 2012.
[3]Richard C.Hendriks and Timo Gerkmann,“Estimation of the noisecorrelation matrix,”in 2011IEEE International Conference on Acoustics,Speechand Signal Processing(ICASSP),Prague,Czech Republic,May 2011,pp.4740–4743,IEEE.
[4]Jesper Jensen and Michael Syskind Pedersen,“Analysis of beamformerdirected single-channel noise reduction system for hearing aid applications,”in 2015 IEEE International Conference on Acoustics,Speech and SignalProcessing(ICASSP), South Brisbane,Queensland,Australia,Apr.2015,pp.5728–5732,IEEE.
[5]Mehrez Souden,Jingdong Chen,Jacob Benesty,and Sofi`ene Affes,“AnIntegrated Solution for Online Multichannel Noise Tracking and Reduction,”IEEE Transactions on Audio,Speech,and Language Processing,vol.19,no.7,pp.2159– 2169,Sept.2011.
[6]K.L.Bell,Y.Ephraim,and H.L.Van Trees,“A Bayesian approach torobust adaptive beamforming,”IEEE Transactions on Signal Processing,vol.48,no.2,pp. 386–398,Feb.2000.
[7]Adam Kuklasinski,Simon Doclo,Timo Gerkmann,Soren Holdt Jensen,andJesper Jensen,“Multi-channel PSD estimators for speech dereverberation-Atheoretical and experimental comparison,”in 2015IEEE International Conferenceon Acoustics,Speech and Signal Processing(ICASSP),South Brisbane,Queensland,Australia,Apr.2015,pp.91–95,IEEE.
[8]Mehdi Zohourian,Gerald Enzner,and Rainer Martin,“Binaural SpeakerLocalization Integrated Into an Adaptive Beamformer for Hearing Aids,”IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.26,no.3,pp.515–528, Mar.2018.
[9]Hao Ye and D.DeGroat,“Maximum likelihood DOA estimation andasymptotic Cramer-Rao bounds for additive unknown colored noise,”IEEETransactions on Signal Processing,vol.43,no.4,pp.938–949,Apr.1995.
[10]Michael Brandstein and Darren Ward,Microphone Arrays:SignalProcessing Techniques and Applications,2001.
[11]EP2701145A1(Retune,Oticon)26.02.2014

Claims (15)

1.一种听力装置,其适于位于用户耳朵处或耳朵中或者适于完全或部分植入在用户头部中,所述听力装置包括:
用于提供至少一表示用户环境中的声音的电输入信号的输入单元,所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量;
用于提供目标语音信号的估计量的降噪系统,其中所述噪声信号分量被至少部分衰减;
自我话音检测器,用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音;
其中所述噪声信号分量在所述自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间被识别。
2.根据权利要求1所述的听力装置,其中输入单元包括传声器,每一传声器提供包括目标语音信号和噪声信号分量的电输入信号。
3.根据权利要求1或2所述的听力装置,包括话音活动检测器,用于反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括语音。
4.根据前面任一权利要求所述的听力装置,包括一个或多个波束形成器,其中输入单元配置成提供连接到一个或多个波束形成器的、至少两个电输入信号,及其中一个或多个波束形成器配置成提供至少一个波束成形信号。
5.根据权利要求4所述的听力装置,其中一个或多个波束形成器包括一个或多个自我话音抵消波束形成器,配置成衰减源自用户嘴巴的信号分量,同时来自所有其它方向的信号分量保持不变或者较少衰减。
6.根据前面任一权利要求所述的听力装置,其中噪声信号分量另外在话音活动检测器指明至少一电输入信号或源自其的信号中不存在语音或者以低于语音存在概率阈值的概率存在语音的时间段期间进行识别。
7.根据前面任一权利要求所述的听力装置,包括用于听力装置或其它设备或系统的话音控制的话音接口。
8.根据前面任一权利要求所述的听力装置,其中来自目标声源的目标语音信号包括来自听力装置用户的自我话音语音信号。
9.根据权利要求1-7任一所述的听力装置,其中目标声源包括听力装置用户环境中的外部讲话者。
10.根据前面任一权利要求所述的听力装置,由助听器、头戴式耳机、主动耳朵保护装置或其组合构成或者包括助听器、头戴式耳机、主动耳朵保护装置或其组合。
11.根据前面任一权利要求所述的听力装置,其中所述听力装置还包括定时器,其配置成确定自我话音语音信号与另一语音信号之间的重叠时间段。
12.根据前面任一权利要求所述的听力装置,其中所述听力装置配置成确定所述时间段是否超过时限,如果是,将另一语音信号标记为噪声信号分量的一部分。
13.一种听力装置的运行方法,所述听力装置适于位于用户耳朵处或耳朵中或者适于完全或部分植入在用户头部中,所述方法包括:
提供至少一表示用户环境中的声音的电输入信号,所述电输入信号包括来自目标声源的目标语音信号和来自一个或多个其它声源的另外的信号分量即噪声信号分量;
提供目标语音信号的估计量,其中噪声信号分量被至少部分衰减;
反复估计至少一电输入信号或源自其的信号是否或者以何种概率包括源自用户话音的语音;
在自我话音检测器指明至少一电输入信号或源自其的信号源自用户话音或者以高于自我话音存在概率阈值的概率源自用户话音时的时间段期间识别噪声信号分量。
14.一种双耳听力系统,包括第一和第二根据权利要求1-12任一所述的听力装置,所述双耳听力系统配置成使能在第一和第二听力装置之间交换数据。
15.一种计算机可读介质,其上存储有包括指令的计算机程序,当所述程序由计算机执行时,使得所述计算机执行根据权利要求13所述的方法的步骤。
CN202010955909.8A 2019-09-11 2020-09-11 包括降噪系统的听力装置 Pending CN112492434A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP19196675.3 2019-09-11
EP19196675 2019-09-11

Publications (1)

Publication Number Publication Date
CN112492434A true CN112492434A (zh) 2021-03-12

Family

ID=67928691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010955909.8A Pending CN112492434A (zh) 2019-09-11 2020-09-11 包括降噪系统的听力装置

Country Status (3)

Country Link
US (3) US11533554B2 (zh)
EP (1) EP3793210A1 (zh)
CN (1) CN112492434A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038338A (zh) * 2021-03-22 2021-06-25 联想(北京)有限公司 降噪处理方法和装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11195518B2 (en) * 2019-03-27 2021-12-07 Sonova Ag Hearing device user communicating with a wireless communication device
EP4057644A1 (en) * 2021-03-11 2022-09-14 Oticon A/s A hearing aid determining talkers of interest
CN113257270B (zh) * 2021-05-10 2022-07-15 中国科学技术大学 一种基于参考麦克风优化的多通道语音增强方法
US20230230581A1 (en) * 2022-01-20 2023-07-20 Nuance Communications, Inc. Data augmentation system and method for multi-microphone systems

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
CN103155036B (zh) 2010-09-28 2015-01-14 松下电器产业株式会社 语音处理装置及语音处理方法
DK2701145T3 (en) 2012-08-24 2017-01-16 Retune DSP ApS Noise cancellation for use with noise reduction and echo cancellation in personal communication
US9438985B2 (en) * 2012-09-28 2016-09-06 Apple Inc. System and method of detecting a user's voice activity using an accelerometer
EP3222057B1 (de) 2014-11-19 2019-05-08 Sivantos Pte. Ltd. Verfahren und vorrichtung zum schnellen erkennen der eigenen stimme
FR3047628B1 (fr) * 2016-02-05 2018-05-25 Christophe Guedon Procede d'aide au suivi d'une conversation pour personne malentendante

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038338A (zh) * 2021-03-22 2021-06-25 联想(北京)有限公司 降噪处理方法和装置

Also Published As

Publication number Publication date
US20230083192A1 (en) 2023-03-16
US20210076124A1 (en) 2021-03-11
US11533554B2 (en) 2022-12-20
US11856357B2 (en) 2023-12-26
EP3793210A1 (en) 2021-03-17
US20240089651A1 (en) 2024-03-14

Similar Documents

Publication Publication Date Title
US11671773B2 (en) Hearing aid device for hands free communication
CN108200523B (zh) 包括自我话音检测器的听力装置
US10966034B2 (en) Method of operating a hearing device and a hearing device providing speech enhancement based on an algorithm optimized with a speech intelligibility prediction algorithm
US11917370B2 (en) Hearing device and a hearing system comprising a multitude of adaptive two channel beamformers
US11503414B2 (en) Hearing device comprising a speech presence probability estimator
CN111556420A (zh) 包括降噪系统的听力装置
US11856357B2 (en) Hearing device comprising a noise reduction system
EP3681175B1 (en) A hearing device comprising direct sound compensation
EP3902285B1 (en) A portable device comprising a directional system
US11330375B2 (en) Method of adaptive mixing of uncorrelated or correlated noisy signals, and a hearing device
EP4057644A1 (en) A hearing aid determining talkers of interest
US11576001B2 (en) Hearing aid comprising binaural processing and a binaural hearing aid system
EP4250765A1 (en) A hearing system comprising a hearing aid and an external processing device
CN117615290A (zh) 听力装置的风噪降噪方法
CN115226016A (zh) 包括通信接口的听力装置或系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination