CN107371111A - 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统 - Google Patents

用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统 Download PDF

Info

Publication number
CN107371111A
CN107371111A CN201710155078.4A CN201710155078A CN107371111A CN 107371111 A CN107371111 A CN 107371111A CN 201710155078 A CN201710155078 A CN 201710155078A CN 107371111 A CN107371111 A CN 107371111A
Authority
CN
China
Prior art keywords
mrow
signal
msub
noise
intelligibility
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710155078.4A
Other languages
English (en)
Other versions
CN107371111B (zh
Inventor
A·H·安德森
J·M·德哈恩
郑华·谭
J·詹森
M·S·佩德森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oticon AS
Original Assignee
Oticon AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oticon AS filed Critical Oticon AS
Publication of CN107371111A publication Critical patent/CN107371111A/zh
Application granted granted Critical
Publication of CN107371111B publication Critical patent/CN107371111B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/554Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired using a wireless connection, e.g. between microphone and amplifier or using Tcoils
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/51Aspects of antennas or their circuitry in or for hearing aids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请公开了用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统。本申请还公开了一种包括双耳语音可懂度预测单元的侵入双耳语音可懂度预测系统,所述双耳语音可懂度预测单元包括:第一、第二、第三和第四输入单元,用于分别提供目标信号的左和右无噪声版本及左和右有噪声和/或处理后版本的时频表示;第一和第二均衡‑抵消级,适于分别提供所得的无噪声信号及所得的有噪声和/或处理后的信号;‑单耳语音可懂度预测单元,用于提供最终双耳语音可懂度预测值SI测度;其中,第一和第二均衡‑抵消级适于优化最终双耳语音可懂度预测值SI测度以指明听者对目标信号的有噪声和/或处理后版本的最大可懂度。

Description

用于预测有噪声和/或增强的语音的可懂度的方法及双耳听 力系统
技术领域
本申请涉及助听器的语音可懂度预测。本发明例如涉及用于预测有噪声和/ 或增强的(处理后的)语音的方法和系统及涉及实施前述方法的双耳听力系统。
背景技术
助听器的设计通常受正常听力或听力受损人员参与的听音试验指导。这些 听音测试用于调查新的听觉病矫治方案或信号处理技术的有用性。此外,它们 用于在整个开发过程中确证和评估助听器对用户的好处。这些测试成本高且耗 时。然而,目前尚没有实现前述试验的现实备选方案。
发明内容
在本申请中,提出了使用双耳侵入语音可懂度测度部分或完全代替使用听 音试验,所述测度能够预测有噪声环境和助听器处理的影响。
在语音可懂度测度的上下文中,术语“双耳”指人因结合来自左和右耳的 信息获得的优势。在本说明书中,术语“侵入”意指为了计算语音可懂度测度, 实现用于参考的纯净语音信号(没有噪声、失真或助听器处理)的取得。所提 出的结构或方法的实施如图1D中所示。所述测度能够预测多种不同的听音条 件(如不同的房间、不同位置或不同讲话者位置处的不同噪声类型)和处理类 型(如不同的助听器或助听器设置/算法)的影响。所述测度依赖于信号,其通 常可在测试助听器的环境中得到。具体地,所述测度基于四个输入信号:
1)来自听者左耳的有噪声及可能助听器处理的语音信号。该信号可以是 记录的信号、模拟的信号或“现场”信号(如在原位置拾取);
2)来自听者右耳的有噪声及可能助听器处理的语音信号。该信号可以是 记录的信号、模拟的信号或“现场”信号(如在原位置拾取);
3)来自听者左耳的纯净语音信号。这应与有噪声/处理后的信号一样,但 既没有噪声也没有助听器处理;
4)来自听者右耳的纯净语音信号。这应与有噪声/处理后的信号一样,但 既没有噪声也没有助听器处理;
从这四个输入信号,所述测度提供一数,其描述由一组具有类似听音能力 的听者判断平均起来(或者由特定用户判断)有噪声/处理后的信号怎样明白易 懂。输出可以是简单的“得分”形式(如0和1之间的数,其中0为难懂,1 为高度明白易懂)或者听音测试结果的直接预测的形式(如话语的一部分被正 确理解、语音接受阈和/或类似)。该方法在[Andersen et al.;2016]中详细描述。
具体地,提出用图1D中所示的结构或方法解决上述任务。所有四个信号 (或作为备选,仅两个有噪声/处理后的信号)可以也可不首先遭受第一模型 (图1D中的听力损失模型),其通过向信号添加噪声和失真以使模型预测拟 合具有特定听力损失的受测对象的表现而仿效听力损失(或与正常听力的偏 差)。存在几个这样的模型,但听力损失模型的特别简单的例子为向输入信号 添加根据所涉及听力损失谱整形的统计上独立的噪声。之后,第二模型(图 1D中的双耳优势(advantage))用于对具有两只耳朵的受测对象的优势建模。该模型将左和右耳信号结合为单一纯净信号和单一有噪声/处理后的信号。这个 过程需要确定左和右耳信号怎样进行结合的一个或多个参数,如左和右耳处接 收的信号之间的电平差和/或时间差。之后,单一纯净信号和单一有噪声/处理 后的信号发送给单耳可懂度测度(图1D中的“单耳可懂度测度”),其不考 虑双耳优势。术语“单耳”用于表明(尽管来自左和右耳的信号组合为所得的 信号)一个所得的(组合)信号通过(单耳)语音可懂度预测单元仿效。“单 耳语音可懂度预测单元”基于对应的所得的实质上无噪声及有噪声/处理后的目 标信号(就像它们源自单耳设置一样,例如参见图1D)评估语音可懂度。作 为备选,可使用其它术语如“通道语音可懂度预测单元”或简单的“语音可懂 度预测单元”。其提供可懂度测度。确定结合左和右耳信号的过程所需要的参 数使得所得的语音可懂度测度最大化。所提出的结构使双耳优势的任何模型能 与用于处理后的信号的(如单耳或双耳)语音可懂度的任何模型一起使用并获 得双耳可懂度测度,其处理处理后的信号。本发明的实施具有计算简单的优点 因而很适合在功率受限的情形下使用,如在助听器中使用。
双耳语音可懂度系统
在本申请的一方面,提供侵入双耳语音可懂度预测系统。该双耳语音可懂 度预测系统包括双耳语音可懂度预测单元,其适于接收包括a)左和右实质上 无噪声版本xl,xr及b)左和右有噪声和/或处理后版本yl,yr的语音的目标信号, 所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示,该 双耳语音可懂度预测单元配置成将指明听者对目标信号的有噪声和/或处理后版 本yl,yr的感知的最终双耳语音可懂度预测值SI测度提供为输出。该双耳语音 可懂度预测单元还包括:
-第一和第二输入单元,用于分别提供目标信号的左无噪声版本xl和有噪 声和/或处理后版本yl的时频表示xl(k,m)和yl(k,m),k为频率窗口(bin)指数, k=1,2,…,K,m为时间指数;
-第三和第四输入单元,用于分别提供目标信号的右无噪声版本xr和有噪 声和/或处理后版本yr的时频表示xr(k,m)和yr(k,m),k为频率窗口指数,k=1, 2,…,K,m为时间指数;
-第一均衡-抵消级,适于分别接收和相对时移及振幅调节左和右无噪声版 本xl(k,m)和xr(k,m),随后使左和右目标信号的时移及振幅调节的左和右无噪声 版本xl’(k,m)和xr’(k,m)彼此相减从而提供所得的无噪声信号x(k,m);
-第二均衡-抵消级,适于分别接收和相对时移及振幅调节左和右有噪声和/ 或处理后版本yl(k,m)和yr(k,m),随后使左和右目标信号的时移及振幅调节的左 和右有噪声和/或处理后版本yl’(k,m)和yr’(k,m)彼此相减从而提供所得的有噪声 和/或处理后的信号y(k,m);及
-单耳语音可懂度预测单元,用于基于所得的无噪声信号x(k,m)和所得的 有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度;
其中第一和第二均衡-抵消级适于优化最终双耳语音可懂度预测值SI测度 以指明听者对目标信号的有噪声和/或处理后版本yl,yr的最大可懂度。
从而,可提供改进的语音可懂度预测器。
在实施例中,该侵入双耳语音可懂度预测系统如第一和第二均衡-抵消级和 单耳语音可懂度预测单元配置成重复相应单元进行的计算以优化最终双耳语音 可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的最大可 懂度。在实施例中,第一和第二均衡-抵消级和单耳语音可懂度预测单元配置成 分别针对左和右无噪声版本xl(k,m)和xr(k,m)及左和右有噪声和/或处理后版本 yl(k,m)和yr(k,m)的不同时移及振幅调节重复相应单元进行的计算以优化最终双 耳语音可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的 最大可懂度。
在实施例中,第一和第二均衡-抵消级配置成对时移和振幅调节的所有组合 进行相应的穷尽计算,例如对于一组离散的值,例如在相应现实范围内。在实 施例中,第一和第二均衡-抵消级配置成使用其它方案(如算法)估计最终双耳 语音可懂度预测值(SI测度)的最佳值,例如基于最速下降或梯度的算法。
在实施例中,单耳语音可懂度预测单元包括:
-第一包络提取单元,用于按时域包络的形式提供所得的无噪声信号x(k,m) 或其函数的时频子频带表示从而提供时频子频带信号X(q,m),q为子频带指数, q=1,2,…,Q,m为时间指数;
-第二包络提取单元,用于按时域包络的形式提供所得的有噪声和/或处理 后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m), q为子频带指数,q=1,2,…,Q,m为时间指数;
-第一时频段分开单元,用于将所得的无噪声信号x(k,m)的时频子频带表 示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段x(q,m);
-第二时频段分开单元,用于将有噪声和/或处理后的信号y(k,m)的时频子 频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段 y(q,m);
-相关系数单元,适于计算无噪声信号的每一时频包络段和有噪声和/或处 理后的信号的对应包络段之间的相关系数
-最终语音可懂度测量单元,用于将最终双耳语音可懂度预测值SI测度提 供为跨时间帧和子频带计算的相关系数的加权组合。
在实施例中,双耳语音可懂度预测系统包括双耳听力损失模型。在实施例 中,双耳听力损失模型包括用户的左和右耳的相应单耳听力损失模型。
双耳听力系统
另一方面,提供一种双耳听力系统,包括适于位于用户的左和右耳处的左 和右助听器及上面描述的、“具体实施方式”部分详细描述的及权利要求中限 定的侵入双耳语音可懂度预测系统。
在实施例中,左和右助听器中的每一个包括:
-左和右可配置的信号处理单元,配置成分别处理目标信号的左和右有噪 声和/或处理后版本yl,yr及分别提供左和右处理后的信号uleft,uright;及
-左和右输出单元,用于基于左和右电输出信号产生配置成可由用户感知 为声音的输出刺激,所述电输出信号分别为左和右处理后的信号uleft,uright的形 式或者源自其的信号。
该双耳听力系统还包括:
a)双耳听力损失模型单元,其操作地连接到侵入双耳语音可懂度预测单 元并配置成将反映用户的相应左和右耳的听力受损的随频率而变的修改应用于 电输出信号以向侵入双耳语音可懂度预测单元提供相应修改的电输出信号。
双耳语音可懂度预测系统(可能包括双耳听力损失模型)可实施在左和右 助听器的任何一个(或两个)中。作为备选(或另外),双耳语音可懂度预测 系统可实施在(分开的)辅助装置中,如遥控装置(如智能电话等)。
在实施例中,助听器包括用于从另一装置如通信装置或另一助听器无线接 收直接电输入信号的天线和收发器电路。在实施例中,左和右助听器包括天线 和收发器电路,用于在其间建立耳间链路从而使能在其间交换数据,包括音频 和/或控制数据或信息信号。总的来说,由助听器的天线和收发器电路建立的无 线链路可以是任何类型。在实施例中,无线链路在功率受限制的条件下使用, 例如因为助听器包括便携(通常电池驱动的)装置。
在实施例中,助听器(如可配置的信号处理单元)适于提供随频率而变的 增益和/或随电平而变的压缩和/或一个或多个频率范围到一个或多个其它频率 范围的移频(具有或没有频率压缩)以补偿用户的听力受损。
在实施例中,每一助听器包括输出单元。在实施例中,输出单元包括耳蜗 植入物的多个电极。在实施例中,输出单元包括输出变换器。在实施例中,输 出变换器包括用于将刺激作为声信号提供给用户的接收器(扬声器)。在实施 例中,输出变换器包括用于将刺激作为颅骨的机械振动提供给用户的振动器 (例如在附着到骨头的或骨锚式助听器中)。
在实施例中,输入单元包括用于将输入声音转换为电输入信号的输入变换 器。在实施例中,输入单元包括用于接收包括声音的无线信号并提供表示所述 声音的电输入信号的无线接收器。在实施例中,助听器包括定向传声器系统, 其适于增强佩戴助听器的用户的局部环境中的多个声源之中的目标声源。
在实施例中,助听器包括输入变换器(传声器系统和/或直接电输入(如无 线接收器))和输出变换器之间的正向或信号通路。在实施例中,信号处理单 元位于该正向通路中。在实施例中,信号处理单元适于根据用户的特定需要提 供随频率而变的增益。在实施例中,助听器包括具有用于分析输入信号(如确 定电平、调制、信号类型、声反馈估计量等)的功能件的分析通路。在实施例 中,分析通路和/或信号通路的部分或所有信号处理在频域进行。在实施例中, 分析通路和/或信号通路的部分或所有信号处理在时域进行。
在实施例中,助听器包括模数(AD)转换器以按预定的采样速率如20kHz 对模拟输入进行数字化。在实施例中,助听器包括数模(DA)转换器以将数 字信号转换为模拟输出信号,例如用于经输出变换器呈现给用户。
在实施例中,助听器包括多个检测器,其配置成提供与助听器的当前网络 环境(如当前声环境)有关、和/或与佩戴助听器的用户的当前状态有关、和/ 或与助听器的当前状态或运行模式有关的状态信号。作为备选或另外,一个或 多个检测器可形成与助听器(如无线)通信的外部装置的一部分。外部装置例 如可包括另一助听器、遥控器、音频传输装置、电话(如智能电话)、外部传 感器等。在实施例中,多个检测器中的一个或多个对全带信号起作用(时域)。 在实施例中,多个检测器中的一个或多个对频带拆分的信号起作用((时-)频 域)。
在实施例中,助听器还包括用于所涉及应用的其它适宜功能,如压缩、降 噪、反馈。
在实施例中,助听器包括听力仪器如适于位于耳朵处或者完全或部分位于 用户耳道中或者完全或部分实施在用户头部中的听力仪器,头戴式耳机、耳麦、 耳朵保护装置或其组合。
在实施例中,该听力系统适于在助听器和辅助装置之间建立通信链路以使 信息(如控制和状态信号,可能音频信号)能在其间进行交换或从一装置转发 给另一装置。
在实施例中,辅助装置是或包括音频网关设备,适于(如从娱乐装置如 TV或音乐播放器、从电话设备如移动电话或从计算机如PC)接收多个音频信 号及适于选择和/或组合所接收的音频信号(或信号组合)中的适当信号以传给 助听器。在实施例中,辅助装置是或包括遥控器,用于控制助听器的功能和运 行。在实施例中,遥控器的功能实施在智能电话中,该智能电话可能运行使能 经智能电话控制音频处理装置的功能的APP(助听器包括到智能电话的适当无 线接口,例如基于蓝牙或一些其它标准化或专有方案)。
应用
一方面,提供如上所述的、“具体实施方式”部分中详细描述的和权利要 求中限定的双耳语音可懂度系统的应用。在实施例中,提供用于执行听音测试 的应用。在实施例中,提供在包括一个或多个听力仪器的系统、头戴式耳机、 耳麦、主动耳朵保护系统等中的应用。在实施例中,提供用于在双耳助听器系 统中增强语音的应用。
提供双耳语音可懂度预测值的方法
一方面,提供用于提供双耳语音可懂度预测值的方法。该方法包括:
S1,接收包括a)左和右实质上无噪声版本xl,xr及b)左和右有噪声和/或 处理后版本yl,yr的语音的目标信号,所述信号被接收为声学信号或者为听者左 和右耳处接收的声学信号的表示;
S2,分别提供目标信号的左无噪声版本xl和有噪声和/或处理后版本yl的 时频表示xl(k,m)和yl(k,m),k为频率窗口指数,k=1,2,…,K,m为时间指数;
S3,分别提供目标信号的右无噪声版本xr和有噪声和/或处理后版本yr的 时频表示xr(k,m)和yr(k,m),k为频率窗口指数,k=1,2,…,K,m为时间指数;
S4,分别接收和相对时移及振幅调节左和右无噪声版本xl(k,m)和xr(k,m), 随后使左和右目标信号的时移及振幅调节的左和右无噪声版本xl’(k,m)和 xr’(k,m)彼此相减从而提供所得的无噪声信号x(k,m);
S5,分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本yl(k,m) 和yr(k,m),随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处 理后版本yl’(k,m)和yr’(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号 y(k,m);及
S6,基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号 y(k,m)提供最终双耳语音可懂度预测值SI测度,其指明听者对目标信号的有噪 声和/或处理后版本yl,yr的感知;
S7,重复步骤S4-S6以优化最终双耳语音可懂度预测值SI测度从而指明听 者对目标信号的有噪声和/或处理后版本yl,yr的最大可懂度。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的 或权利要求中限定的系统的部分或所有结构特征可与本发明方法的实施结合, 反之亦然。方法的实施具有与对应系统一样的优点。
在实施例中,步骤S4和S5中的每一个包括:
-使得相对时移和振幅调节由下面的因子给出:
λ=10(γ+Δγ)/40ejω(τ+Δτ)/2
其中τ指按秒计的时移,γ指按dB计的振幅调节,及其中Δτ和Δγ为与正 常听力人员的听觉系统的模型缺陷不相关的噪声源;及
-所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)分别 由下面的等式给出:
在实施例中,不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分 布:
其中确定γ和τ的值以使可懂度预测值最大化。
在实施例中,步骤S6包括:
-按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带 表示从而提供时频子频带信号X(q,m),q为子频带指数,q=1,2,…,Q,m为时 间指数;
-按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数 的时频子频带表示从而提供时频子频带信号Y(q,m),q为子频带指数,q=1, 2,…,Q,m为时间指数;
-将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子 频带信号的N个连续样本的时频包络x(q,m)段;
-将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于 所述子频带信号的N个连续样本的时频包络段y(q,m);
-计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包 络段之间的相关系数ρ(q,m);
-将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相 关系数的加权组合。
在实施例中,表示相应的第q个子频带信号的时域包络的时频信号X(q,m), Y(q,m)分别为按下式确定的功率包络:
其中q为子频带指数,q=1,2,…,Q,k1(q)和k2(q)分别指第q个频带的下部 和上部DFT窗口。在实施例中,时变(无噪声或有噪声)输入信号的时频分解 基于离散傅里叶变换(DFT),将对应的时域信号转换为包括相应信号在多个 DFT窗口的量值和/或相位的(实值或)复值的时频表示。在实施例中,在本申 请中,定义具有子频带指数q=1,2,…,Q的Q个(非均匀)子频带,每一子频 带包括一个或多个DFT窗口(参见图3B中的纵向子频带q轴)。第q个子频 带包括具有下部和上部指数的DFT窗口k1(q)和k2(q),分别定义第q个子频带 的下和上截止频率。在实施例中,子频带为三分之一倍频带。在实施例中,子 频带的数量Q为15。
在实施例中,功率包络安排为N个样本的向量:
xq,m=[Xq,m-N+1,Xq,m-N+2,...,Xq,m]T
yq,m=[Yq,m-N+1,Yq,m-N+2,...,Yq,m]T
其中向量xq,m在实施例中,N=30个样本。
在实施例中,纯净和有噪声/处理后包络之间的相关系数确定为:
其中期望值跨输入信号及噪声源Δτ和Δγ取得。
在实施例中,跨输入信号的相关系数ρq的N个样本估计量由下式给出:
其中μ(·)指给定向量中的项的平均值,EΔ为跨步骤S4、S5中应用的噪声 的期望值,及1为所有一的向量。
在实施例中,最终双耳语音可懂度预测值通过对信号中的所有帧m和频带 q估计相关系数并跨这些帧和频带求平均获得:
其中Q和M分别为子频带数和帧数。
配置成实施提供双耳语音可懂度预测值的方法的侵入双耳语音可懂度单元
一方面,本发明提供侵入双耳语音可懂度单元,其配置成实施(如上所述 的、“具体实施方式”部分详细描述的及权利要求中限定的)提供双耳语音可 懂度预测值的方法。
计算机可读介质
本发明进一步提供保存包括程序代码的计算机程序的有形计算机可读介质, 当计算机程序在数据处理系统上运行时,使得数据处理系统执行上面描述的、 “具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部 分或所有)步骤。
作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、 EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或 者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的 任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字 多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这 些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链 路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置 处运行。
数据处理系统
一方面,本发明进一步提供数据处理系统,包括处理器和程序代码,程序 代码使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求 中限定的方法的至少部分(如大部分或所有)步骤。
计算机程序
本申请还提供包括指令的计算机程序(产品),当所述程序由计算机运行 时,使得计算机执行上面描述的、“具体实施方式”中详细描述的及权利要求 中限定的方法(的步骤)。
定义
在本说明书中,“助听器”指适于改善、增强和/或保护用户的听觉能力的 装置如听力仪器或有源耳朵保护装置或其它音频处理装置,其通过从用户环境 接收声信号、产生对应的音频信号、可能修改该音频信号、及将可能已修改的 音频信号作为可听见的信号提供给用户的至少一只耳朵而实现。“助听器”还 指适于以电子方式接收音频信号、可能修改该音频信号、及将可能已修改的音 频信号作为听得见的信号提供给用户的至少一只耳朵的装置如头戴式耳机或耳 麦。听得见的信号例如可以下述形式提供:辐射到用户外耳内的声信号、作为 机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、 及直接或间接传到用户耳蜗神经的电信号。
助听器可构造成以任何已知的方式进行佩戴,如作为佩戴在耳后的单元 (具有将辐射的声信号导入耳道内的管或者具有安排成靠近耳道或位于耳道中 的扬声器)、作为整个或部分安排在耳廓和/或耳道中的单元、作为连到植入在 颅骨内的固定结构的单元、或作为整个或部分植入的单元等。助听器可包括单 一单元或几个彼此电子通信的单元。
更一般地,助听器包括用于从用户环境接收声信号并提供对应的输入音频 信号的输入变换器和/或以电子方式(即有线或无线)接收输入音频信号的接收 器、用于处理输入音频信号的(通常可配置的)信号处理电路、及用于根据处 理后的音频信号将听得见的信号提供给用户的输出装置。在一些助听器中,放 大器可构成信号处理电路。信号处理电路通常包括一个或多个(集成或单独的) 存储元件,用于执行程序和/或用于保存在处理中使用(或可能使用)的参数和 /或用于保存适合助听器功能的信息和/或用于保存例如结合到用户的接口和/或 到编程装置的接口使用的信息(如处理后的信息,例如由信号处理电路提供)。 在一些助听器中,输出装置可包括输出变换器,例如用于提供空传声信号的扬声器或用于提供结构或液体传播的声信号的振动器。在一些助听器中,输出装 置可包括一个或多个用于提供电信号的输出电极。
在一些助听器中,振动器可适于经皮或由皮将结构传播的声信号传给颅骨。 在一些助听器中,振动器可植入在中耳和/或内耳中。在一些助听器中,振动器 可适于将结构传播的声信号提供给中耳骨和/或耳蜗。在一些助听器中,振动器 可适于例如通过卵圆窗将液体传播的声信号提供到耳蜗液体。在一些助听器中, 输出电极可植入在耳蜗中或植入在颅骨内侧上,并可适于将电信号提供给耳蜗 的毛细胞、一个或多个听觉神经、听觉皮层和/或大脑皮层的其它部分。
“听力系统”指包括一个或两个助听器的系统。“双耳听力系统”指包括 两个助听器并适于协同地向用户的两只耳朵提供听得见的信号的系统。听力系 统或双耳听力系统还可包括一个或多个“辅助装置”,其与助听器通信并影响 和/或受益于助听器的功能。辅助装置例如可以是遥控器、音频网关设备、移动 电话(如智能电话)、广播系统、汽车音频系统或音乐播放器。助听器、听力 系统或双耳听力系统例如可用于补偿听力受损人员的听觉能力损失、增强或保 护正常听力人员的听觉能力和/或将电子音频信号传给人。
本发明的实施例例如可用在下述应用中,例如听力仪器、头戴式耳机、耳 麦、主动耳朵保护系统或其组合或者前述装置的开发系统。
在本发明中,时变信号的时频表示可记为x(k,m)或xk,m或xk(m),在意思上 没有任何差别,其中k指频率,n和m指时间。
附图说明
本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为 清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所 必要的细节,而省略其他细节。在整个说明书中,同样的附图标记用于同样或 对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些 及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:
图1A象征性地示出了双耳语音可懂度预测系统与评估单元结合。
图1B示出了双耳语音可懂度预测系统与双耳听力损失模型和评估单元结 合。
图1C示出了双耳语音可懂度预测系统与双耳听力损失模型、信号处理单 元和评估单元的结合。
图1D示出了所提出的语音可懂度预测方法的框图。
图2A示出了根据本发明的双耳语音可懂度预测单元的一般实施例。
图2B示出了根据本发明的用于提供DBSTOI语音可懂度测度的方法的实 施例的框图。
图3A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化, 这些样本安排在多个时间帧中,每一时间帧包括Ns个样本。
图3B示出了图3A的时变电信号的时频图表示。
图4示出了包括用户、位于用户周围的目标信号源和一个或多个噪声源的 听音测试情形。
图5示出了包括根据本发明的双耳语音可懂度预测单元的听音测试系统。
图6A示出了包括处于有噪声环境中的讲话者的听音情形,其佩戴包括发 射器的传声器以将讲话者话音传给佩戴根据本发明的包括左和右助听器的双耳 听力系统的用户。
图6B从另一角度示出了与图6A中一样的听音情形。
图6C示出了无噪声和有噪声语音信号的混合以在双耳听力系统中提供组 合信号,其基于例如可在图6A和6B的听音情形中得到的组合信号的语音可懂 度预测。
图6D示出了实施图6C中所示方案的双耳听力系统的实施例。
图7示意性地示出了根据本发明的包括左和右助听器的双耳听力系统的示 例性实施例,其例如可用在图6A、6B和6C的听音情形中。
图8示出了提供双耳语音可懂度预测值的方法的实施例。
通过下面给出的详细描述,本发明进一步的适用范围将显而易见。然而, 应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说 明目的给出。对于本领域技术人员来说,基于下面的详细描述,本发明的其它 实施方式将显而易见。
具体实施方式
下面结合附图提出的具体描述用作多种不同配置的描述。具体描述包括用 于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易 见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方 面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等 (统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元 素可使用电子硬件、计算机程序或其任何组合实施。
电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可 编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、 及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应 广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件 模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、 程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。
本申请涉及听力装置如助听器领域,尤其涉及语音可懂度预测。自从引入 传声清晰度指数(Articulation Index,AI)[French&Steinberg;1947]以来,其 后来被改良并标准化为语音可懂度指数(Speech Intelligibility Index,SII) [ANSI S3.5-1997],语音可懂度预测(SIP)的论题已被广泛调查。在研究兴趣 初始来自电话行业的同时,可能应用于助听器及耳蜗植入物最近已引起注意, 例如参见[Taal et al.;2012]和[Falk et al.;2015]。
SII在具有附加、固定噪声的条件下预测单耳可懂度。另一早期及高度流 行的方法是语音传输指数(STI),其预测已传输通过有噪声和失真传输系统 (如回响房间)的语音的可懂度。已提出许多另外的SIP方法,主要目的在于 扩展可进行预测的条件范围。
对于可结合双耳通信装置如助听器应用的SIP方法,典型方法的工作范围 必须以两种方式进行扩展。首先,它们必须能够考虑在这样的装置中经常发生 的非线性处理。该任务因许多SIP方法假设知道纯净语音和干扰信号分离而复 杂化,前述假设在语音和噪声的组合已被非线性处理时没有意义。未进行这种 假设的方法的一个例子为STOI测度[Taalet al.;2011],其从有噪声/处理后的信 号及纯净语音信号预测可懂度。STOI测度已被证明能很好地预测多个增强算 法对可懂度的影响。其次,SIP方法必须考虑信号通常双耳地呈现给用户的事 实。根据声学条件及应用的处理,双耳听觉感知向用户提供不同程度的优势 [Bronkhorst;2000]。几个SIP方法已聚焦于预测该优势。然而,现有的双耳方 法通常不能针对非线性处理的信号提供预测。
图1A示出了双耳侵入语音可懂度预测单元BSIP与评估单元EVAL结合的 设置。双耳侵入语音可懂度预测单元基于(至少)四个信号提供语音可懂度测 度(图1A中的SI测度),其包括呈现给听者的左和右耳的有噪声/处理后的信 号yl,yr及同样呈现给听者的左和右耳的纯净语音信号xl,xr。纯净语音信号优选 应与有噪声/处理后的信号一样,但没有噪声及未进行处理(如在助听器中)。 评估单元EVAL被示为接收和评估双耳语音可懂度预测值SI测度。评估单元 EVAL例如可进一步处理语音可懂度预测值SI测度,例如以图形和/或数字显 示当前值和/或最近的历史值、推导趋势等。评估单元例如可实施在分开的装置中,例如用作双耳语音可懂度预测单元BSIP的用户接口,例如形成测试系统 的一部分(例如参见图5),和/或用作包括前述单元的助听器的用户接口,例 如实施为遥控装置,例如实施为智能电话的APP。
从听者环境中的给定声学(目标)源(相对于用户的给定位置处)呈现给 听者的左和右耳的纯净(目标)语音信号xl,xr可从包括测得的或建模的头部相 关传递函数(HRTF)的设置的声学模型产生以提供适当的随频率和角度而变 的耳间时间差(ITD)和耳间电平差(ILD)。呈现给听者的左和右耳的、各个 噪声源Ni,i=1,2,…,Ns的贡献ni,l,ni,r可类似地从所述设置的声学模型确定,Ns为考虑的位于听者周围的不同位置处的噪声源的数量(如等于1或更多)。从 而,包括呈现给听者的左和右耳的目标语音的有噪声(如未处理的)信号yl,yr可提供为呈现给听者的左和右耳的相应纯净(目标)语音信号xl,xr和各个噪声 源Ni,i=1,2,…,Ns的噪声信号ni,l,ni,r的和(例如参见图4)。
作为备选,呈现给听者的左和右耳的纯净(目标)语音信号xl,xr和有噪声 (如未处理的)信号yl,yr可在特定几何设置中进行测量,例如使用仿真头模型 (如用头部-躯干模拟器(HATS,来自Brüel& Sound&Vibration Measurement A/S的头部和躯干模拟器4128C)在录音室中进行)(例如参见图 4)。
因此,在实施例中,呈现给听者的左和右耳并用作双耳语音可懂度预测单 元的输入的纯净和有噪声信号提供为人工产生的和/或测得的信号。
图1B示出了双耳语音可懂度预测系统与双耳听力损失模型BHLM和评估 单元EVAL结合。该听力损失模型BHLM例如配置成反映用户的听力损失 (即就像用户的听觉系统表现的那样,扭曲(修改)声学输入在此为有噪声信 号yl,yr)。
图1C示出了双耳语音可懂度预测系统与双耳听力损失模型BHLM、信号 处理单元SPU和评估单元EVAL结合。信号处理单元SPU例如可配置成运行 助听器的一个或多个处理算法。这样的配置因而可用于模拟用于试验特定信号 处理算法的听音测试,例如在开发信号处理算法期间,以针对给定用户找到该 算法的适当设置。
图1D示出了包括双耳语音可懂度预测单元BSIP和双耳听力损失模型 BHLM的双耳语音可懂度预测系统的框图。图1D中所示的双耳语音可懂度预 测单元包括双耳优势模块和单耳可懂度测度模块。双耳优势模块包括具有一个 或多个参数的模型,其确定左和右耳信号怎样被听觉系统组合。单耳可懂度测 度模块包括单耳语音可懂度预测单元,例如如[Taal et al.;2011]中所述。
图2A、2B中所示的示例性测度不包括图1D中的听力损失模型模块。
图2A示出了根据本发明的双耳语音可懂度预测单元的一般实施例。图2A 示出了包括双耳语音可懂度预测单元BSIP的侵入双耳语音可懂度预测系统, 其适于接收包括a)左和右实质上无噪声版本xl,xr及b)左和右有噪声和/或处 理后版本yl,yr的语音的目标信号。纯净信号xl,xr和有噪声/处理后的信号yl,yr表示听者左和右耳处接收的声学信号。双耳语音可懂度预测单元BSIP配置成 将指明听者对目标信号的有噪声和/或处理后版本yl,yr的感知的最终双耳语音 可懂度预测值SI测度提供为输出。双耳语音可懂度预测单元BSIP包括第一和 第三输入单元TF-D1,TF-D3,用于分别提供目标信号的左和右无噪声版本xl(n) 和xr(n)的时频表示xl(k,m)和xr(k,m),k为频率窗口指数,k=1,2,…,K,m为时 间指数。双耳语音可懂度预测单元BSIP还包括第二和第四输入单元TF-D2, TF-D4,用于分别提供目标信号的左和右有噪声和/或处理后版本yl(n)和yr(n)的 时频表示yl(k,m)和yr(k,m)。双耳语音可懂度预测单元BSIP还包括第一均衡-抵 消级MOD-EC1,适于分别接收和相对时移及振幅调节左和右无噪声版本 xl(k,m)和xr(k,m),随后使左和右目标信号的时移及振幅调节的左和右无噪声版 本x’l(k,m)和x’r(k,m)彼此相减从而提供所得的无噪声信号x(k,m)。双耳语音可 懂度预测单元BSIP还包括第二均衡-抵消级MOD-EC2,适于分别接收和相对 时移及振幅调节左和右有噪声和/或处理后版本yl(k,m)和yr(k,m),随后使左和 右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y’l(k,m)和 y’r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m)。双耳语音 可懂度预测单元BSIP还包括单耳语音可懂度预测单元MSIP,用于基于所得的 无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音 可懂度预测值SI测度。第一和第二均衡-抵消级MOD-EC1,MOD-EC2适于优 化最终双耳语音可懂度预测值SI测度以指明(听者对)目标信号的有噪声和/ 或处理后版本yl,yr的最大(估计)可懂度。
在图2A中所示的侵入双耳语音可懂度预测系统的实施例中,单耳语音可 懂度预测单元MSIP包括第一包络提取单元EEU1,用于按时域包络的形式提 供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信 号X(q,m),q为子频带指数,q=1,2,…,Q,m为时间指数。单耳语音可懂度预 测单元MSIP还包括第二包络提取单元EEU2,用于按时域包络的形式提供所 得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频 子频带信号Y(q,m)。单耳语音可懂度预测单元MSIP还包括第一时频段分开单 元SDU1,用于将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应 于所述子频带信号的N个连续样本的时频包络x(q,m)段。类似地,单耳语音可 懂度预测单元MSIP还包括第二时频段分开单元SDU2,用于将有噪声和/或处 理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个 连续样本的时频包络段y(q,m)。单耳语音可懂度预测单元MSIP还包括相关系 数单元CCU,适于计算无噪声信号的每一时频包络段和有噪声和/或处理后的 信号的对应包络段之间的相关系数单耳语音可懂度预测单元MSIP还 包括最终语音可懂度测量单元A-CU,用于将最终双耳语音可懂度预测值SI测 度提供为跨时间帧和子频带计算的相关系数的加权组合。优化最终双耳语音可 懂度预测值SI测度以提供(听者对)目标信号的有噪声和/或处理后版本yl,yr的最大(估计)可懂度由从最终语音可懂度测量单元A-CU分别到第一和第二 均衡-抵消级MOD-EC1,MOD-EC2的连接指明。前述优化过程的例子结合下面 的步骤2:EC处理部分描述。
图2B示出了用于提供DBSTOI双耳语音可懂度测度的方法/装置的框图。
在[Andersen et al.;2015]中,提出了STOI测度的双耳扩展即双耳STOI (BSTOI)测度。BSTOI测度已被证明能很好地预测在水平面中具有正面目标 和单点噪声源的条件下获得的可懂度(包括双耳优势)。BSTOI测度还被证明 能预测已由ITFS(理想的时频分段)处理的影响双耳的语音的可懂度。
在本申请中,提出了BSTOI测度的改进版,其计算上要求较低,且不同于 BSTOI,可产生确定性结果。所提出的测度具有能够在双耳优势和非线性处理 同时影响可懂度的条件下预测可懂度的优点。就本申请的发明人了解的,没有 其它SIP方法能够在可懂度受双耳优势和非线性处理的条件下产生预测。我们 将改进的双耳语音可懂度测度称为确定性BSTOI(DBSTOI)测度。
DBSTOI测度基于四个信号对可懂度打分:呈现给听者的左和右耳的有噪 声/处理后的信号及同样在两耳处的纯净语音信号。纯净(实质上无噪声)信号 应与有噪声/处理后的信号一样,但既没有噪声也没有进行处理。DBSTOI测度 产生0-1范围中的得分。目标在于在DBSTOI测度和测得的可懂度之间具有单 调对应,使得较高的DBSTOI测度对应于较高的可懂度(如正确听见的话语的 百分比)。
DBSTOI测度基于改进的均衡抵消(EC)级与[Andersen et al.;2015]中提出 的STOI测度的结合。在此,我们引入STOI测度的进一步结构变化以使能更好 地与EC级整合。这使能确定性地及以封闭形式计算所述测度,这与[Andersen et al.;2015]的BSTOI测度相反,其使用蒙特卡罗模拟法进行计算。
DBSTOI测度的结构如图2B中所示。该程序分为三个主要步骤:1)基于 离散傅里叶变换(DFT)的时频分解;2)改进的EC级,其提取双耳优势;及 3)单耳STOI测度的改进版。
具体例子
下面描述的DBSTOI测度作为所提出类型的双耳可懂度预测器的具体例子。 提供该特定测度的双耳语音可懂度预测单元的框图如图2B中所示。该测度/单 元对应于图1D中的双耳优势和单耳可懂度测度模块。图2B中所示的示例性测 度不包括图1B、1C和1D中所示的听力损失模型模块。
计算DBSTOI测度的过程概述如下:
1)通过使用短时傅里叶变换对输入信号进行时频分解。随后的步骤在短 时傅里叶域进行;
2)左和右耳信号借助于改进的均衡级进行组合。具体地:
a)左和右耳信号相对于彼此进行时移和振幅调节。这针对三分之一倍频 带单独进行,参见下面的等式(1)和(2);
b)时移及振幅调节的左和右信号彼此相减。该差称为组合信号。对纯净 信号和有噪声/处理后的信号应用同样的时移和振幅调节因子。以该方式获得一 个组合纯净信号和一个组合有噪声/处理后的信号。参见下面的等式(1)和 (2)。
3)从每一信号(纯净信号和有噪声/处理后的信号)的每一三分之一倍频 带提取功率包络,参见下面的等式(5);
4)将这些包络安排为短的重叠段。参见下面的等式(8);
5)计算纯净信号的每一包络段和有噪声/处理后的信号的对应包络段之间 的相关系数。参见下面的等式(9)。
6)按跨所有时间帧和三分之一倍频带计算的相关系数的平均获得最终测 度。参见下面的等式(15)。
有利地,步骤2中的时移和振幅调节因子针对每一短包络段独立确定并确 定为例如使得包络之间的相关最大化。这对应于人的大脑使用来自两耳的信息 以使语音尽可能明白易懂的假设。最终的数通常位于0和1之间的区间中,其 中0表明有噪声/处理后的信号大大不同于纯净信号及预期难懂,而接近1的数 表明有噪声/处理后的信号接近纯净信号及预期高度易懂。
步骤1:TF分解
第一步骤(例如参见图2B中的步骤1)将四个输入信号xl,xr,yl,yr重采样 到10kHz,去除没有语音的段(经基于理想帧的话音活动检测器),及执行基 于短时DFT的时频(TF)分解(参见图2B中的短时DFT模块)。这以与 STOI测度完全一样的方式进行(例如参见[Taal et al.;2011])。设为 对应于左耳处纯净信号在第m时间帧和第k频率窗口的TF单元(参见图3B)。 类似地,设分别指右耳纯净信号及左和右耳有噪声/处理后的信 号TF单元。
步骤2:EC处理
计算所述测度的第二步骤(例如参见图2B中的步骤2)使用改进的EC级 (EC=均衡-抵消)组合左和右耳信号以对双耳优势建模(例如参见[Durlach; 1963],[Durlach;1972])(参见图2B中的改进的(1/3倍频)EC级模块)。
组合纯净信号通过相对时移和振幅调节左和右纯净信号及其后使它们彼此 相减而获得。对有噪声/处理后的信号进行同样的处理以获得单一有噪声/处理 后的信号。相对时移τ(秒)和振幅调节γ(dB)由下面的因子给出:
λ=10(γ+Δγ)/40ejω(τ+Δτ)/2 (1)
其中,Δτ和Δγ与正常听力人员的听觉系统的模型缺陷无关的噪声源。所 得的组合纯净信号由下式给出:
组合的有噪声/处理后的TF单元yk,m以类似的方式(使用同样的λ值)获 得。
不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分布:
遵循[Andersen et al.;2015]中介绍的原理,值γ和τ确定为使可懂度的得分 最大化。这在下面进一步描述。
步骤3:可懂度预测
此时,四个输入信号已变为两个信号:纯净信号xk,m及有噪声/处理后的信 号yk,m。我们利用STOI测度的变型计算这些信号的可懂度得分。为了数学上 易处理,我们使用功率包络而不是STOI中初始提出的量值包络[Taal et al.; 2011]。这也在[Taal et al.;2012]中进行且似乎对预测没有明显影响。此外,我 们舍弃原始STOI中包含的剪切机制,同样如[Taal et al.;2012]中进行的。我们 未看到这样做负面影响结果的表现。
纯净及处理后的信号的功率包络在Q=15三分之一倍频带中确定(参见图 2B中的包络提取模块):
其中α=10(γ+Δγ)/20,及
其中上标c指左和右通道之间的相关,及其中k1(q)和k2(q)指第q个三分之 一倍频带的下部和上部DFT窗口,及ωq为第q个频带的中心频率。大约相等 通过插入(1)和(2)并假定每一三分之一倍频带中的能量包含在中心频率下 而获得。处理后的信号的类似处理产生第三倍频功率包络Yq,m
如果我们假定输入信号为广义固定随机的过程,由于输入信号的随机性质 及EC级中的噪声源Δτ和Δγ,功率包络Xq,m和Yq,m也为随机过程。STOI暗含 的假设为可懂度与纯净和有噪声/处理后的包络之间的相关有关(例如参见[Taal et al.;2011]):
其中期望值跨输入信号及EC级中的噪声源取得。
为估计ρq,功率包络被安排成N=30个样本的向量(例如参见[Taal et al.;2011]和图2B中的短时分段模块):
xq,m=[Xq,m-N+1,Xq,m-N+2,...,Xq,m]T (8)
对处理后的信号定义类似的向量
ρq跨输入信号的N样本估计量则由下式给出:
其中μ(·)指给定向量中的项的平均值,EΔ为跨EC级中的噪声的期望值, 及1为所有一的向量(参见图2B中的相关系数模块)。该期望值的封闭形式 的表达可得到及由下式给出:
其中
对于有噪声/处理后的信号,类似。的表达式可通过用xq,m替换yq,m的所有实例而从(10)获得,对反之亦然。
最终DBSTOI测度通过估计信号中所有帧m和频带q的相关系数并跨 这些相关系数求平均获得[Taal et al.;2011]:
其中Q和M分别为频带数和帧数(参见图2B中的求平均模块)。
已发现每当左和右耳输入一样时,DBSTOI测度产生与单耳STOI一样的 得分(即基于改进的单耳STOI测度且没有剪裁)。
确定γ和τ
最后,我们考虑参数γ和τ。这些参数对每一时间单元m和三分之一倍频 带q个别地确定以使最终DBSTOI测度最大化(参见图2B中从输出DBSTOI 到改进的(1/3倍频)EC级模块的反馈环路)。因而,每一相关系数估计量为 其自己的参数组的函数。因此,DBSTOI测度(15)可通过个别地使每 一估计的相关系数最大化而最大化:
总的来说,优化可通过对一组离散的γ和τ值评估并选择最高值而实 现。
图3A示意性地示出了样本中的时变模拟信号(振幅-时间)及其数字化, 这些样本安排在多个时间帧中,每一时间帧包括Ns个样本。图3A示出了模拟 电信号(实线曲线),例如表示来自传声器的声输入信号,其在模数(AD) 转换过程中转换为数字音频信号,在模数转换过程中,模拟信号以预定采样频 率或速率fs进行采样,fs例如在从8kHz到40kHz的范围中(适应应用的特定需 要),以在离散时间点n提供数字样本x(n),如从时间轴延伸的在其与所述曲 线重合的端点处具有实心点的垂直线所示,表示在对应的不同时间点n的数字样本值。每一(音频)样本x(n)表示通过预定数量(Nb)的比特表示声信号在n的值,Nb例如在从1到16比特的范围中。数字样本x(n)具有1/fs的时间长度, 例如对于fs=20kHz,该时间长度为50μs。多个(音频)样本Ns安排在时间 帧中,如图3A下部示意性图示的,其中各个(在此均匀间隔的)样本按时间 帧分组(1,2,…,Ns)。同样如图3A的下部图示的,时间帧可连续地安排成非 重叠(时间帧1,2,…,m,…,M)或重叠(在此为50%,时间帧1,2,…,m,…, M’),其中m为时间帧指数。在实施例中,一时间帧包括64个音频数据样本。 根据实际应用,也可使用其它帧长度。
图3B示意性地示出了图3A的(数字化)时变电信号x(n)的时频表示。该 时频表示包括信号的对应复值或实值在特定时间和频率范围的阵列或映射。该 时频表示例如可以是将时变输入信号x(n)转换为时频域的(时变)信号x(k,m) 的傅里叶变换的结果。在实施例中,傅里叶变换包括离散傅里叶变换算法 (DFT)。典型助听器考虑的从最小频率fmin到最大频率fmax的频率范围包括从 20Hz到20kHz的典型人听频范围的一部分,如从20Hz到12kHz的范围的一部 分。在图3B中,信号x(n)的时频表示x(k,m)包括信号的量值和/或相位在指数 (k,m)确定的多个DFT窗口中的复值,其中k=1,….,K表示K个频率值(参见 图3B中的纵向k轴),及m=1,….,M(M’)表示M(M’)个时间帧(参见图3B 中的水平m轴)。时间帧由特定时间指数m和对应的K个DFT窗口确定(参 见图3B中的时间帧m的指示)。时间帧m表示信号x在时间m的频谱。包括 所涉及信号的(实或)复值x(k,m)的DFT窗口(k,m)在图3B中通过时频图中对 应场的阴影图示。频率指数k的每一值对应于频率范围Δfk,如图3B中通过纵 向频率轴f指明。时间指数m的每一值表示时间帧。连续时间指数跨越的时间 Δtm取决于时间帧的长度(如25ms)及相邻时间帧之间的重叠程度(参见图3B 中的水平t轴)。
在本申请中,定义具有子频带指数q=1,2,…,Q的Q个(非均匀)子频带, 每一子频带包括一个或多个DFT窗口(参见图3B中的纵向子频带q轴)。第 q个子频带(由图1B的右部的子频带q(xq(m))指明)包括分别具有低和高指数 k1(q)和k2(q)的DFT窗口,其分别定义第q个子频带的低和高截止频率。特定 时频单元(q,m)由特定时间指数m和DFT窗口指数k1(q)-k2(q)定义,如图3B中 通过对应DFT窗口周围的粗框架指明。特定时频单元(q,m)包含第q个子频带 信号xq(m)在时间m的复值或实值。在实施例中,子频带为三分之一倍频带。ωq指第q个频带的中心频率。
图4示出了包括用户、位于用户周围的目标信号源和一个或多个噪声源的 听音测试情形。
图4示出了用户U佩戴包括位于用户左和右耳处的左和右助听器HDL, HDR的听力系统。目标信号源(目标源S)包括位于用户周围清晰可辨的空间 点处的无噪声语音和多个噪声声音源(噪声源i,Vi,i=1,2,…,NV,其中NV为噪声声音源的数量)。目标声音源S相对于用户(用户头部的中心)的位置 由向量dS确定。噪声声音源Vi相对于用户的位置由向量dVi确定。从用户到给 定声音源的方向(在垂直于纵向VERT-DIR的水平面中)由相对于用户的视向 LOOK-DIR的角度θ确定,视向跟随用户的鼻子。到目标声音源S和噪声声音 源Vi的方向分别由角度θS和θVi确定。
包括左和右实质上无噪声(纯净)目标信号xl(n),xr(n)中的语音(如来自 人或扬声器)的、来自目标源S的目标信号例如可在录音时间记录,n为时间 指数,其在左和右助听器HDL,HDR位于用户的左和右耳处时分别在左和右助 听器处接收,其中每一助听器包括适当的传声器和存储器单元。同样,可记录 分别在左和右助听器HDL,HDR处接收的、来自噪声声音源Vi的信号,从而提 供噪声信号vil(n),vir(n)。这可对每一声音源Vi,i=1,2,…,NV执行。之后,目标 信号的左和右有噪声和/或处理后版本yl,(n),yr(n)可通过混合(相加)无噪声 (纯净)左和右目标信号xl(n),xr(n)及左和右噪声信号vil(n),vir(n),i=1,2,…,NV而组成。换言之,目标信号的左和右有噪声和/或处理后版本yl,(n),yr(n)可分别 确定为yl(n)=xl(n)+vil(n)和yr(n)=xr(n)+vir(n),i=1,2,…,NV。这些信号xl(n), xr(n)和yl(n),yr(n)可转发给双耳语音可懂度预测单元,及所得的语音可懂度预测 值dbin(或相应的左和右预测dbin,l值和dbin,r,例如参见图7)确定。通过包括双 耳听力损失模型BHLM(或相应的左和右耳听力损失模型HLMl,HLMr,例如 参见图7),听力受损的影响可包括在语音可懂度预测中(和/或可提供用于修 改助听器处理以使语音可懂度预测值最大化的自适应系统)。
作为备选,记录的(电)无噪声(纯净)左和右目标信号xl(n),xr(n)及左 和右助听器处(声学)接收和由相应助听器的传声器拾取的纯净目标源和噪声 声音源的混合yl(n),yr(n)可提供给双耳语音可懂度预测单元,及所得的双耳语 音可懂度预测值dbin(作为备选,记为SI测度或DBSTOI)确定。从而,可 (针对固定声音源S)评估噪声声音源Vi的位置、类型和电平的变化对所得的 双耳语音可懂度预测值dbin的影响。
通过包括助听器的处理算法,双耳语音可懂度预测系统可用于测试不同算 法对所得的双耳语音可懂度预测值的影响。作为备选或另外,这样的设置可用 于测试给定算法(如降噪算法或方向性算法)的不同参数设置对所得的双耳语 音可懂度预测值的影响。
图4的设置例如可用于产生电无噪声(纯净)左和右目标信号xl(n),xr(n), 如左和右耳处从经历对应于所选声音源位置(如通过角度θS给出)的左和右头 部相关传递函数的单一无噪声目标声音源(图4中的S)接收的。
图5示出了包括根据本发明的双耳语音可懂度预测单元BSIP的听音测试 系统TEST。该测试系统例如可包括用于针对特定人的听力受损调整助听器或 一对助听器的验配系统。作为备选或另外,该测试系统可包括用于测试处理算 法(或处理算法的变化)对估计的用户(或具有指定如典型或特殊听力受损的 一般用户)语音可懂度的影响的开发系统或形成其一部分。
测试系统TEST包括用户接口UI,用于开始测试和/或用于显示测试结果。 该测试系统还包括处理部分PRO,配置成提供预定测试信号,包括a)目标语 音信号的左和右实质上无噪声版本xl,xr及b)目标语音信号的左和右有噪声和/ 或处理后版本yleft,yright。信号xl,xr,yleft,yright适于仿效听者左和右耳处接收的信 号或者听者左和右耳处接收的声学信号的表示。这些信号例如可按结合图4所 述产生。
测试系统TEST包括(双耳)信号处理单元BSPU,其将一个或多个处理 算法应用于目标语音信号的左和右有噪声和/或处理后版本yleft,yright并提供所得 的处理后的信号uleft和uright
测试系统TEST还包括双耳听力损失模型BHLM,用于仿效用户的听力损 失(或与正常听力的偏差)。双耳听力损失模型BHLM从双耳信号处理单元 BSPU接收处理后的信号uleft和uright并提供左和右经修改的处理后信号yl和yr, 其作为目标信号的左和右有噪声和/或处理后版本馈给双耳语音可懂度预测单元 BSIP。同时,目标语音信号的纯净版xl,xr从测试系统的处理部分PRO提供给 双耳语音可懂度预测单元BSIP。处理后的信号uleft和uright例如可馈给相应的扬 声器(由点线指明)以将这些信号声学呈现给听者。
测试系统的处理部分(PRO)还配置成接收所得的语音可懂度预测值SI测 度及处理和/或经用户接口UI呈现听者对当前有噪声和处理后的信号uleft和 uright中的语音的可懂度的评估结果。在此基础上,可评估当前算法(或算法的 设置)对语音可懂度的影响。在实施例中,算法的参数设置根据所呈现的所得 语音可懂度预测值SI测度进行变化(例如手动或自动,例如根据预定方案,例 如经控制信号cntr)。
测试系统TEST例如可配置成施加相对于听者位于不同位置处的包括语音 的多个不同(如存储的)测试刺激,及将其与相对于听者位于不同位置处的一 个或多个不同噪声源混合,及具有可配置的频率含量和振幅整形。测试刺激优 选可经用户接口UI配置和施加。
基于可懂度的信号选择
图6A和6B示出了包括处于有噪声环境中的讲话者的听音情形的多个不同 图,讲话者佩戴包括发射器的传声器以将讲话者话音传给佩戴根据本发明的包 括左和右助听器的双耳听力系统的用户。图6C示出了无噪声和有噪声语音信 号的混合以在双耳听力系统中提供组合信号,其基于例如可在图6A和6B的听 音情形中得到的组合信号的语音可懂度预测。图6D示出了实施图6C中所示 方案的双耳听力系统的实施例。
图6A和6B示出了目标讲话者TLK佩戴能够以高信噪比(SNR)(由于 讲话者嘴巴和传声器之间的短距离)拾取其话音(信号x)的无线传声器M。 在实施例中,无线传声器包括话音检测单元,其使传声器能识别人话音正由传 声器拾取的时间段。在实施例中,无线传声器包括自我话音检测单元,其使传 声器能识别讲话者的话音正由该传声器拾取的时间段。在实施例中,自我话音 检测单元已被训练以使能检测讲话者的话音。一般想法是传声器信号x通过传 输单元Tx例如与无线传声器M一体的传输单元无线传给听力仪器用户。在实 施例中,传声器拾取的信号仅在人话音已被话音检测单元识别时传输。在实施 例中,传声器拾取的信号仅在讲话者的话音已被自我话音检测单元识别时传输。 因此,左和右耳处佩戴左和右助听器HDL,HDR的听力受损听者U具有可用目 标语音信号的两个不同版本:a)左和右助听器的传声器分别拾取的语音信号 yl,yr;及b)目标讲话者的体戴传声器拾取并无线传给用户的左和右助听器的 语音信号x。藉此,对于将语音信号呈现给佩戴听力仪器HDL,HDR的用户U, 我们具有两个主要选择:
1、听者可听听力仪器传声器拾取的语音信号yl,yr
2、听者可听放在讲话者嘴巴附近的传声器拾取的语音信号x。
选择1的优点在于听力仪器传声器信号yl,yr被双耳地记录。藉此,语音信 号的空间感知实质上正确,及空间线索可帮助听者更好地理解目标讲话者。此 外,助听器用户的传声器信号中存在的(潜在)声学噪声可使用外部传声器信 号作为次要信息而得以减少(例如参见本申请的申请人于2015年10月20日在 欧洲专利局申请的未决欧洲专利申请EP15190783.9)。即使如此,该增强的信 号的SNR相较于外部传声器处的SNR仍然可能非常差。
选择2的优点在于靠近目标讲话者TLK的嘴巴的外部传声器M处拾取的 信号x的SNR极可能远好于听力仪器HDL,HDR的传声器处的SNR。在该信号 x可呈现给助听器用户的同时,缺点在于我们进具有单声道版本呈现,使得任 何双耳空间线索必须人工进行恢复(例如参见上面引用的EP15190783.9)。
为此,对于高信噪比情形,其中可懂度降级不是问题,最好呈现听力仪器 传声器处初始记录的处理后的信号。另一方面,如果SNR非常差,牺牲空间线 索以获得更好的信噪比有利。
为决定在给定情形下最好向听者呈现哪一信号,可使用语音可懂度模型。 大多数现有的语音可懂度模型均为单耳模型,例如参见[Taal et al.,2011]中描述 的模型,同时少数几个现有模型作用于双耳信号,例如[Beutelmann&Brand; 2006]。对于本申请中提出的想法,使用双耳模型预期性能更好,但基本想法不 要求双耳模型。大多数语音可懂度模型假定可得到纯净参考信号。基于该纯净 参考信号和有噪声(及可能处理后的)信号,可能预测有噪声/处理后的信号的 语音可懂度。对于上面描述的及图6A、6B和6C中所示的无线传声器情形, 外部传声器M处记录的语音信号x取为“纯净参考信号”(图6C中的参考信号)。基于该参考信号,我们可经语音可懂度模型估计听力仪器传声器处的语 音可懂度(参见图6C中的双耳语音可懂度预测单元BSIP)。如果听力仪器传 声器处(估计的)语音可懂度(参见图6C中的信号SI测度)足够高,没有理 由将外部传声器信号呈现给听者。通过听听力仪器HDL,HDR记录(拾取)的 传声器信号yl,yr,我们保持讲话者TLK的正确空间感知。另一方面,如果本 地听力仪器传声器的语音可懂度(SI测度)非常低,最好将外部传声器信号x 呈现给听者。为避免听力仪器传声器和外部传声器之间的波动转变,在信号选 择内实施滞后(和/或渐变)是有利的。
到此为止,已讨论呈现1)听力仪器传声器拾取的语音信号和2)无线传 声器拾取的语音信号之间的二元选择。使该想法一般化是有用的。具体地,可 呈现两个信号的适当组合。尤其是,对于线性组合,所呈现的信号ulocal由下式 给出:
ulocal=a*ylocal+(1-a)*xwireless
其中ylocal为助听器用户的传声器信号(local=左或右),及xwireless为目标 讲话者TLK拾取并无线传给助听器的信号(=图6A、6B、6C、6D中的信号 x),及0<=a<=1为自由参数。现在的目标是找到常数a的适当值,其在可懂 度方面最佳。这可通过基于不同的预先选择的a值简单地合成u的不同版本及 使用可懂度模型评估所得的可懂度实现。之后,使用导致最高(预测的)可懂 度的a值。在图6D所示的双耳听力系统实施例中,上面的方案可实施为常数a 和语音可懂度预测值SI测度的对应值的查询表,例如存储在图6D的双耳语音可懂度预测单元BSIP中。在实施例中,基于相应的信号对yl,xlr和yr,xlr对左 和右听力仪器HDL,HDR中的每一个确定SI测度(如图7中的dbin,l,dbin,r)的值。 有噪声目标信号yl和yr为输入单元IUl和IUr分别基于信号yleft和yright提供的 电输入信号(在图6D中记为左耳处的有噪声语音和右耳处的有噪声语音)。 纯净目标信号xlr为收发器单元Rx/Tx提供的电输入信号,如从图6A中的传声 器M接收。电输入信号yl,yr和xlr馈给双耳信号预测单元BSIP。信号对yl,xlr和yr,xlr分别馈给左和右混合单元MIXl和MIXr。混合单元混合相应的输入信 号,例如混合为输入信号的加权(线性)组合,并分别提供所得的左和右信号 uleft和uright(参见下面)。所得的信号例如进一步处理和/或分别馈给相应的输 出单元(在此为扬声器)SPl,SPr以呈现给双耳听力系统的用户。非必须地,所 得的信号馈给双耳语音可懂度预测单元BSIP,例如以使能自适应改善混合控制 信号mxl,mxr。如常数a确定的、估计的最佳混合(从语音可懂度的角度)可 确定为查询表中的分开的常数a值(如al(dbin,l),ar(dbin,r)),分别对应于左和右 助听器HDL,HDR中的SI测度(如dbin,l,dbin,r)的目前值。参考图6D,分别由 左和右听力仪器的混合单元MIXl和MIXr提供的所得的左和右信号uleft和uright因而可确定为:
uleft=al*yleft+(1-al)*xlr,及
uright=ar*yright+(1-ar)*xlr
左和右混合单元MIXl,MIXr配置成经混合控制信号mxl,mxr应用上面等式 中指明的混合常数al,ar
在实施例中,双耳听力系统配置成使得0<al,ar<1。在实施例中,双耳听 力系统配置成使得0≤al,ar≤1。
在实施例中,al=ar=a从双耳语音可懂度模型确定,使得
uleft=a*yleft+(1-a)*xlr,及
uright=a*yright+(1-a)*xlr
因而,混合控制信号mxl,mxr(参见图6D)可一样。
在实施例中,双耳听力系统配置成使得0<a<1。在实施例中,双耳听力 系统配置成使得0≤a≤1。
在实施例中,混合常数基于BSIP单元提供的语音可懂度预测值的优化基 于所得的左和右信号uleft和uright的估计量自适应确定。实施目标信号的纯净和 有噪声版本的混合比的自适应优化的双耳听力系统的实施例在下面描述(图 7)。
图7示出了根据本发明的包括左和右助听器HDL,HDR的双耳听力系统的 示例性实施例,其例如可用在图6A、6B和6C的听音情形中。
图7示出了根据本发明的双耳助听器系统的实施例,包括用于估计用户在 被(分别经左和右扬声器SPl和SPr)呈现双耳助听器系统的相应左和右输出信 号uleft和uright时其感知的可懂度的双耳语音可懂度预测系统BSIP,及使用所得 的预测值调整包括语音的相应输入信号yleft和yright的处理(在助听器HDL,HDR的相应处理单元SPU中)以使双耳语音可懂度预测值最大化。这通过将经相应 输出单元(在此为扬声器)呈现给用户的输出信号uleft和uright馈给双耳听力损 失模型(在此包括左和右耳的个体模型HLMl,HLMr)实现,所述模型对用户 的(受损)听觉系统建模,将所得的左和右信号yl和yr呈现给双耳语音可懂度 预测系统BSIP。可配置的信号处理单元SPU适于基于最终双耳语音可懂度控 制信号dbin,l和dbin,r(反映当前双耳语音可懂度度量)(自适应)控制相应电输 入信号y1,left,y2,left和y1,right,y2,right的处理以使用户对输入声音信号uleft和uright的 可懂度最大化。
图7示出了结合图6D所述的用于确定助听器的传声器拾取的目标信号的 有噪声版本和目标信号的无线接收的纯净版本的最佳混合的方案的备选方案。
图7示出了根据本发明的包括左和右助听器HDL,HDR的双耳听力系统的 实施例。左和右助听器HDL,HDR适于位于用户的左和右耳之处或之中。左和 右助听器中的每一个的信号处理由呈现在助听器用户耳朵处因而由助听器用户 体验的信号的语音可懂度的估计量引导。双耳语音可懂度预测单元BSIP配置 成将左和右助听器的由用户的相应左和右耳的听力损失模型(在图7中分别为 HLMleft,HLMright)修改(以对用户的受损听觉系统的缺陷建模)的输出信号 uleft,uright取为输入。左和右助听器中的至少一个如两个(如图7中所示)包括 收发器单元Rx/Tx,用于(经无线链路,图7中的RF-LINK)接收包括目标信 号x(如来自图6A情形下的传声器M)的纯净(实质上无噪声)版本的信号 并提供纯净电输入信号xlr。在图7的实施例中,同样版本的纯净目标信号xlr在 两助听器处接收。作为备选,纯净目标信号的个性化版本xl,xr(如反映空间线 索)可由相应的左和右助听器接收。双耳语音可懂度预测单元BSIP提供双耳 语音可懂度预测值(如从双耳语音可懂度预测单元BSIP到左和右助听器HDL, HDR的相应信号处理单元SPU的左和右SI预测信号dbin,l,dbin,l的形式)。
在图7的实施例中,语音可懂度估计/预测在左耳助听器HDL中发生。右 耳助听器HDR的输出信号uright经耳间通信链路IA-LINK传到左耳助听器HDL。 耳间通信链路可基于有线或无线连接(及基于近场或远场通信)。助听器HDL, HDR优选无线连接。
助听器HDL,HDR中的每一个包括两个传声器、信号处理单元SPU、混合 单元MIX和扬声器SPl,SPr。另外,一个或两个助听器包括双耳语音可懂度单 元BSIP。左和右助听器HDL,HDR的每一个的两个传声器中的每一个拾取可能 有噪声的(时变)信号y(t)(参见图7中的y1,left,y2,left和y1,right,y2,right),其通常 由目标信号分量x(t)(参见图7中的x1,left,x2,left和x1,right,x2,right)和不想要的信号 分量v(t)(参见图7中的v1,left,v2,left和v1,right,v2,right)组成。在图7中,下标1、 2分别指第一和第二(如前和后)传声器,而下标left、right或者l、r指其与 左耳还是右耳助听器(分别为HDL,HDR)有关。
基于双耳语音可懂度预测系统(BSIP),每一助听器的信号处理单元SPU 可(个别地)进行调整(参见控制信号dbin,l,dbin,r)。由于在图7的实施例中, 双耳语音可懂度预测单元位于左耳助听器HDL中,右耳助听器HDR中的处理 的调整需要将经通信链路IA-LINK从左耳助听器传到右耳助听器的控制信号 dbin,r
在图7中,左和右助听器中的每一个包括两个传声器。在其它实施例中, 每一助听器(或者助听器之一)可包括三个以上传声器。同样,在图7中,双 耳语音可懂度预测器BSIP位于左助听器HDL中。作为备选,双耳语音可懂度 预测器BSIP可位于右助听器HDR中,或者作为备选,位于两个助听器中,优 选在每一助听器中执行一样的功能。后一实施方式消耗更多的功率并需要输出 音频信号uleft,uright的双向交换,而可省略处理控制信号(图7中的dbin,r)的传 输。在又一实施例中,双耳语音可懂度预测单元BSIP位于单独的辅助装置如 遥控器(例如体现在智能电话中)中,要求控制助听器和辅助装置之间建立音 频链路以从相应助听器接收输出信号uleft,uright及将处理控制信号dbin,l,dbin,r传给 相应助听器HDL,HDR
图8示出了提供双耳语音可懂度预测值的方法的实施例的流程图。该方法 包括:
S1,提供或接收包括a)左和右实质上无噪声版本xl,xr及b)左和右有噪 声和/或处理后版本yl,yr的语音的目标信号,所述信号被接收为声学信号或者 为听者左和右耳处接收的声学信号的表示;
S2,分别提供目标信号的左无噪声版本xl和有噪声和/或处理后版本yl的 时频表示xl(k,m)和yl(k,m),k为频率窗口指数,k=1,2,…,K,m为时间指数;
S3,分别提供目标信号的右无噪声版本xr和有噪声和/或处理后版本yr的 时频表示xr(k,m)和yr(k,m),k为频率窗口指数,k=1,2,…,K,m为时间指数;
S4,分别接收和相对时移及振幅调节左和右无噪声版本xl(k,m)和xr(k,m), 随后使左和右目标信号的时移及振幅调节的左和右无噪声版本xl’(k,m)和 xr’(k,m)彼此相减从而提供所得的无噪声信号x(k,m);
S5,分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本yl(k,m) 和yr(k,m),随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处 理后版本y’l(k,m)和y’r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号 y(k,m);及
S6,基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号 y(k,m)提供最终双耳语音可懂度预测值SI测度,其指明听者对目标信号的有噪 声和/或处理后版本yl,yr的感知;
S7,重复步骤S4-S6以优化最终双耳语音可懂度预测值SI测度从而指明听 者对目标信号的有噪声和/或处理后版本yl,yr的最大可懂度。
当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的 及权利要求中限定的装置的结构特征可与本发明方法的步骤结合。
除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形 式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具 有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件 和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元 件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或 “耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间插入元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何 及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开 的顺序执行。
应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者 “可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发 明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多 个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在 此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一 般原理可应用于其他方面。
权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全 部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一 个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。
因而,本发明的范围应依据权利要求进行判断。
参考文献
[Andersen et al.;2015]A.H.Andersen,J.M.de Haan,Z.Tan,and J.Jensen,“Abinaural short time objective intelligibility measure for noisy and enhancedspeech,” in INTERSPEECH,Dresden,Germany,Sept.2015,pp.2563–2567,2015.
[Andersen et al.;2016]A.H.Andersen,J.M.de Haan,Z.Tan,and J.Jensen,“Amethod for predicting the intelligibility of noisy and non-linearly enhancedbinaural speech”,To be presented at ISCASP 2016,Shanghai,China,20-25 March2016, Published in:IEEE International Conference on Acoustics,Speech andSignal Processing(ICASSP),pp.4995-4999,2016.
[ANSI S3.5-1997]American National Standards Institute,“S3.5-1997:Methods for calculation of the speech intelligibility index,”1997.
[Beutelmann&Brand;2006]Beutelmann,R.and Brand,T.,“Prediction ofspeech intelligibility in spatial noise and reverberation for normal-hearingand hearing-impaired listeners,”J.Acoust.Soc.Am.,Vol.120,pp.331–342,2006.
[Bronkhorst;2000]A.W.Bronkhorst,“The cocktail party phenomenon:Areview on speech intelligibility in multiple-talker conditions,”Acta AcusticaUnited with Acustica,vol.86,no.1,pp.117–128,Jan.2000.
[Falk et al.;2015]T.H.Falk,V.Parsa,J.F.Santos,K.Arehart,O.Hazrati,R.Huber,J.M.Kates,and S.Scollie,“Objective quality and intelligibilityprediction for users of assistive listening devices,”IEEE Signal ProcessingMagazine,vol.32,no.2, pp.114–124,Mar.2015.
[French&Steinberg;1947]N.R.French and J.C.Steinberg,“Factorsgoverning the
intelligibility of speech sounds,”J.Acoust.Soc.Am.,vol.19,no.1,pp.90–119, Jan.1947.
[Durlach;1963]N.I.Durlach,“Equalization and cancellation theory ofbinaural masking-level differences”,J.Acoust.Soc.Am.,vol.35,no.8,pp.1206–1218,Aug. 1963.
[Durlach;1972]N.I.Durlach,“Binaural signal detection:Equalization andcancellation theory”,in Foundations of Modern Auditory Theory Volume II,JerryV. Tobias,Ed.,pp.371–462.Academic Press,New York,1972.
[Taal et al.;2011]Taal,C.,Hendriks,R.,Heusdens,R.,and Jensen,J.,“Analgorithm for intelligibility prediction of time-frequency weighted noisyspeech,” IEEE Trans.Audio,Speech,Lang.Process.,Vol.19,pp.2125–2136,2011.
[Taal et al.;2012]C.H.Taal,R.C.Hendriks,and R.Heusdens,“Matchingpursuit for channel selection in coclear implants based on an intelligibilitymetric,”in Proceedings of the 20th European Signal Processing Conference(EUSIPCO), Bucharest,Romania,Aug.2012,pp.504–508.

Claims (16)

1.一种侵入双耳语音可懂度预测系统,包括双耳语音可懂度预测单元,其适于接收包括a)左和右实质上无噪声版本xl,xr及b)左和右有噪声和/或处理后版本yl,yr中的语音的目标信号,所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示,所述双耳语音可懂度预测单元配置成将指明听者对目标信号的有噪声和/或处理后版本yl,yr的感知的最终双耳语音可懂度预测值SI测度提供为输出,所述双耳语音可懂度预测单元包括:
-第一和第二输入单元,用于分别提供目标信号的左无噪声版本xl和右无噪声版本xr的时频表示xl(k,m)和xr(k,m),k为频率窗口指数,k=1,2,...,K,m为时间指数;
-第三和第四输入单元,用于分别提供目标信号的左有噪声和/或处理后版本yl和右有噪声和/或处理后版本yr的时频表示yl(k,m)和yr(k,m),k为频率窗口指数,k=1,2,...,K,m为时间指数;
-第一均衡-抵消级,适于分别接收和相对时移及振幅调节左和右无噪声版本xl(k,m)和xr(k,m),随后使左和右目标信号的时移及振幅调节的左和右无噪声版本x’l(k,m)和x’r(k,m)彼此相减从而提供所得的无噪声信号x(k,m);
-第二均衡-抵消级,适于分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本yl(k,m)和yr(k,m),随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本y’l(k,m)和y’r(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m);及
-单耳语音可懂度预测单元,用于基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度;
其中,第一和第二均衡-抵消级适于优化最终双耳语音可懂度预测值SI测度以指明听者对目标信号的有噪声和/或处理后版本yl,yr的最大可懂度。
2.根据权利要求1所述的侵入双耳语音可懂度预测系统,配置成重复第一和第二均衡-抵消级和单耳语音可懂度预测单元进行的计算以优化最终双耳语音可懂度预测值从而指明听者对目标信号的所述有噪声和/或处理后版本的最大可懂度。
3.根据权利要求1所述的侵入双耳语音可懂度预测系统,其中所述单耳语音可懂度预测单元包括:
-第一包络提取单元,用于按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m),q为子频带指数,q=1,2,...,Q,m为时间指数;
-第二包络提取单元,用于按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m),q为子频带指数,q=1,2,...,Q,m为时间指数;
-第一时频段分开单元,用于将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段x(q,m);
-第二时频段分开单元,用于将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段y(q,m);
-相关系数单元,适于计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包络段之间的相关系数
-最终语音可懂度测量单元,用于将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相关系数的加权组合。
4.根据权利要求1所述的侵入双耳语音可懂度预测系统,包括双耳听力损失模型。
5.一种双耳听力系统,包括适于位于用户的左和右耳处的左和右助听器及根据权利要求1所述的侵入双耳语音可懂度预测系统。
6.根据权利要求5所述的双耳听力系统,其中左和右助听器中的每一个包括:
-左和右可配置的信号处理单元,配置成分别处理目标信号的左和右有噪声和/或处理后版本yl,yr及分别提供左和右处理后的信号uleft,uright;及
-左和右输出单元,用于基于左和右电输出信号产生配置成可由用户感知为声音的输出刺激,所述电输出信号分别为左和右处理后的信号uleft,uright的形式或者源自其的信号;
其中所述双耳听力系统包括:
a)双耳听力损失模型单元,其操作地连接到所述侵入双耳语音可懂度预测单元并配置成将反映用户的相应左和右耳的听力受损的随频率而变的修改应用于电输出信号以向所述侵入双耳语音可懂度预测单元提供相应修改的电输出信号。
7.根据权利要求5所述的双耳听力系统,其中左和右助听器中的每一个包括天线和收发器电路,用于在其间建立耳间链路以使能在其间交换包括音频和/或控制数据信号的数据。
8.用于提供双耳语音可懂度预测值的方法,所述方法包括:
S1,接收包括a)左和右实质上无噪声版本xl,xr及b)左和右有噪声和/或处理后版本yl,yr中的语音的目标信号,所述信号被接收为声学信号或者为听者左和右耳处接收的声学信号的表示;
S2,分别提供目标信号的左无噪声版本xl和左有噪声和/或处理后版本yl的时频表示xl(k,m)和yl(k,m),k为频率窗口指数,k=1,2,...,K,m为时间指数;
S3,分别提供目标信号的右无噪声版本xr和右有噪声和/或处理后版本yr的时频表示xr(k,m)和yr(k,m),k为频率窗口指数,k=1,2,...,K,m为时间指数;
S4,分别接收和相对时移及振幅调节左和右无噪声版本xl(k,m)和xr(k,m),随后使左和右目标信号的时移及振幅调节的左和右无噪声版本xl’(k,m)和xr’(k,m)彼此相减从而提供所得的无噪声信号x(k,m);
S5,分别接收和相对时移及振幅调节左和右有噪声和/或处理后版本yl(k,m)和yr(k,m),随后使左和右目标信号的时移及振幅调节的左和右有噪声和/或处理后版本yl’(k,m)和yr’(k,m)彼此相减从而提供所得的有噪声和/或处理后的信号y(k,m);及
S6,基于所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)提供最终双耳语音可懂度预测值SI测度,其指明听者对目标信号的有噪声和/或处理后版本yl,yr的感知;
S7,重复步骤S4-S6以优化最终双耳语音可懂度预测值SI测度从而指明听者对目标信号的有噪声和/或处理后版本yl,yr的最大可懂度。
9.根据权利要求8所述的方法,其中步骤S4和S5中的每一个包括:
-使得相对时移和振幅调节由下面的因子给出:
λ=10(γ+Δγ)/40ejω(τ+Δτ)/2
其中τ指按秒计的时移,γ指按dB计的振幅调节,及其中Δτ和Δγ为与正常听力人员的听觉系统的模型缺陷不相关的噪声源;及
-所得的无噪声信号x(k,m)和所得的有噪声和/或处理后的信号y(k,m)分别由下面的等式给出:
<mrow> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&amp;lambda;y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>-</mo> <msup> <mi>&amp;lambda;</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msubsup> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </msubsup> <mo>.</mo> </mrow>
10.根据权利要求9所述的方法,其中不相关的噪声源Δτ和Δγ通常以零平均值和标准偏差进行分布:
<mrow> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>&amp;Delta;</mi> <mi>&amp;gamma;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mn>2</mn> </msqrt> <mo>&amp;CenterDot;</mo> <mn>1.5</mn> <mi>d</mi> <mi>B</mi> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mrow> <mo>|</mo> <mi>&amp;gamma;</mi> <mo>|</mo> </mrow> <mrow> <mn>13</mn> <mi>d</mi> <mi>B</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mn>1.6</mn> </msup> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <mi>d</mi> <mi>B</mi> <mo>&amp;rsqb;</mo> </mrow>
<mrow> <msub> <mi>&amp;sigma;</mi> <mrow> <mi>&amp;Delta;</mi> <mi>&amp;gamma;</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>&amp;gamma;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msqrt> <mn>2</mn> </msqrt> <mo>&amp;CenterDot;</mo> <mn>65</mn> <mo>&amp;CenterDot;</mo> <msup> <mn>10</mn> <mrow> <mo>-</mo> <mn>6</mn> </mrow> </msup> <mi>s</mi> <mo>&amp;CenterDot;</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mfrac> <mrow> <mo>|</mo> <mi>&amp;tau;</mi> <mo>|</mo> </mrow> <mrow> <mn>0.0016</mn> <mi>s</mi> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&amp;lsqb;</mo> <mi>s</mi> <mo>&amp;rsqb;</mo> </mrow>
其中确定γ和τ的值以使所述可懂度预测值最大化。
11.根据权利要求8所述的方法,其中步骤S6包括:
-按时域包络的形式提供所得的无噪声信号x(k,m)或其函数的时频子频带表示从而提供时频子频带信号X(q,m),q为子频带指数,q=1,2,...,Q,m为时间指数;
-按时域包络的形式提供所得的有噪声和/或处理后的信号y(k,m)或其函数的时频子频带表示从而提供时频子频带信号Y(q,m),q为子频带指数,q=1,2,...,Q,m为时间指数;
-将所得的无噪声信号x(k,m)的时频子频带表示X(q,m)分为对应于所述子频带信号的N个连续样本的时频包络x(q,m)段;
-将有噪声和/或处理后的信号y(k,m)的时频子频带表示Y(q,m)分为对应于所述子频带信号的N个连续样本的时频包络段y(q,m);
-计算无噪声信号的每一时频包络段和有噪声和/或处理后的信号的对应包络段之间的相关系数ρ(q,m);
-将最终双耳语音可懂度预测值SI测度提供为跨时间帧和子频带计算的相关系数的加权组合。
12.根据权利要求11所述的方法,其中表示相应的第q个子频带信号的时域包络的时频信号X(q,m),Y(q,m)分别为按下式确定的功率包络:
<mrow> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <msub> <mi>k</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>k</mi> <mn>2</mn> </msub> <mrow> <mo>(</mo> <mi>q</mi> <mo>)</mo> </mrow> </mrow> </munderover> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
其中k1(q)和k2(q)分别指第q个频带的下部和上部DFT窗口。
13.根据权利要求12所述的方法,其中所述功率包络安排为N个样本的向量:
xq,m=[Xq,m-N+1,Xq,m-N+2,...,Xq,m]T,及
yq,m=[Yq,m-N+1,Yq,m-N+2,...,Yq,m]T
其中向量xq,m
14.根据权利要求13所述的方法,其中纯净和有噪声/处理后包络之间的相关系数确定为:
<mrow> <msub> <mi>&amp;rho;</mi> <mi>q</mi> </msub> <mo>=</mo> <mfrac> <mrow> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mrow> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> <msqrt> <mrow> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msub> <mi>X</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&amp;rsqb;</mo> </mrow> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mi>E</mi> <mrow> <mo>&amp;lsqb;</mo> <msub> <mi>Y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>&amp;rsqb;</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&amp;rsqb;</mo> </mrow> </mrow> </msqrt> </mfrac> </mrow>
其中,期望值跨输入信号及噪声源Δτ和Δγ取得。
15.根据权利要求14所述的方法,其中跨输入信号的相关系数ρq的N个样本估计量由下式给出:
<mrow> <msub> <mover> <mi>&amp;rho;</mi> <mo>^</mo> </mover> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>E</mi> <mi>&amp;Delta;</mi> </msub> <mrow> <mo>&amp;lsqb;</mo> <mrow> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&amp;mu;</mi> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> </mrow> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&amp;mu;</mi> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> <msqrt> <mrow> <msub> <mi>E</mi> <mi>&amp;Delta;</mi> </msub> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&amp;mu;</mi> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> <msub> <mi>E</mi> <mi>&amp;Delta;</mi> </msub> <mrow> <mo>&amp;lsqb;</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> <mo>-</mo> <mn>1</mn> <msub> <mi>&amp;mu;</mi> <msub> <mi>y</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>&amp;rsqb;</mo> </mrow> </mrow> </msqrt> </mfrac> </mrow>
其中μ(·)指给定向量中的项的平均值,EΔ为跨步骤S4、S5中应用的噪声的期望值,及1为所有一的向量。
16.根据权利要求15所述的方法,所述最终双耳语音可懂度预测值通过对信号中的所有帧m和频带q估计相关系数并跨这些帧和频带求平均获得:
<mrow> <mi>D</mi> <mi>B</mi> <mi>S</mi> <mi>T</mi> <mi>O</mi> <mi>I</mi> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>Q</mi> <mi>M</mi> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>q</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>Q</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>m</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msub> <mover> <mi>&amp;rho;</mi> <mo>^</mo> </mover> <mrow> <mi>q</mi> <mo>,</mo> <mi>m</mi> </mrow> </msub> </mrow>
其中Q和M分别为子频带数和帧数。
CN201710155078.4A 2016-03-15 2017-03-15 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统 Expired - Fee Related CN107371111B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP16160309 2016-03-15
EP16160309.7 2016-03-15

Publications (2)

Publication Number Publication Date
CN107371111A true CN107371111A (zh) 2017-11-21
CN107371111B CN107371111B (zh) 2021-02-09

Family

ID=55587082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710155078.4A Expired - Fee Related CN107371111B (zh) 2016-03-15 2017-03-15 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统

Country Status (4)

Country Link
US (1) US10057693B2 (zh)
EP (1) EP3220661B1 (zh)
CN (1) CN107371111B (zh)
DK (1) DK3220661T3 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108742641A (zh) * 2018-06-28 2018-11-06 佛山市威耳听力技术有限公司 独立双通道声测试听觉识别敏感度的方法
CN110248268A (zh) * 2019-06-20 2019-09-17 歌尔股份有限公司 一种无线耳机降噪方法、系统及无线耳机和存储介质
CN111418004A (zh) * 2018-06-11 2020-07-14 思睿逻辑国际半导体有限公司 用于啸叫检测的技术
CN112188376A (zh) * 2018-06-11 2021-01-05 厦门新声科技有限公司 双耳助听器平衡调节的方法、装置及计算机可读存储介质
WO2023000796A1 (zh) * 2021-07-19 2023-01-26 首都医科大学宣武医院 认知障碍患者双耳信息整合功能的声学测量方法及装置

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6849978B2 (ja) * 2017-08-04 2021-03-31 日本電信電話株式会社 音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム
EP3471440A1 (en) 2017-10-10 2019-04-17 Oticon A/s A hearing device comprising a speech intelligibilty estimator for influencing a processing algorithm
EP3671739A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus and method for source separation using an estimation and control of sound quality
CN110853664B (zh) * 2019-11-22 2022-05-06 北京小米移动软件有限公司 评估语音增强算法性能的方法及装置、电子设备
US11711061B2 (en) 2021-01-21 2023-07-25 Biamp Systems, LLC Customized automated audio tuning
EP4106349A1 (en) 2021-06-15 2022-12-21 Oticon A/s A hearing device comprising a speech intelligibility estimator
US20230146772A1 (en) * 2021-11-08 2023-05-11 Biamp Systems, LLC Automated audio tuning and compensation procedure
WO2023119076A1 (en) * 2021-12-22 2023-06-29 Cochlear Limited Tinnitus remediation with speech perception awareness

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147192A (zh) * 2005-02-23 2008-03-19 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
CN102194460A (zh) * 2010-03-11 2011-09-21 奥迪康有限公司 语音清晰度预测器及其应用
US20110305345A1 (en) * 2009-02-03 2011-12-15 University Of Ottawa Method and system for a multi-microphone noise reduction
CN102510418A (zh) * 2011-10-28 2012-06-20 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
WO2012152323A1 (en) * 2011-05-11 2012-11-15 Robert Bosch Gmbh System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure
US20140247956A1 (en) * 2011-12-22 2014-09-04 Widex A/S Method of operating a hearing aid and a hearing aid

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3057335B1 (en) * 2015-02-11 2017-10-11 Oticon A/s A hearing system comprising a binaural speech intelligibility predictor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101147192A (zh) * 2005-02-23 2008-03-19 霍尼韦尔国际公司 用于音频通知系统的清晰度测量的方法与装置
US20110305345A1 (en) * 2009-02-03 2011-12-15 University Of Ottawa Method and system for a multi-microphone noise reduction
CN102194460A (zh) * 2010-03-11 2011-09-21 奥迪康有限公司 语音清晰度预测器及其应用
WO2012152323A1 (en) * 2011-05-11 2012-11-15 Robert Bosch Gmbh System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure
CN102510418A (zh) * 2011-10-28 2012-06-20 声科科技(南京)有限公司 噪声环境下的语音可懂度测量方法及装置
US20140247956A1 (en) * 2011-12-22 2014-09-04 Widex A/S Method of operating a hearing aid and a hearing aid

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. JENSEN, C. H. TAAL: "《Speech Intelligibility Prediction Based》", 《IEEE TRAN. ON AUDIO SPEECH AND LANGUAGE PROCESSING》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111418004A (zh) * 2018-06-11 2020-07-14 思睿逻辑国际半导体有限公司 用于啸叫检测的技术
CN112188376A (zh) * 2018-06-11 2021-01-05 厦门新声科技有限公司 双耳助听器平衡调节的方法、装置及计算机可读存储介质
CN112188376B (zh) * 2018-06-11 2021-11-02 厦门新声科技有限公司 双耳助听器平衡调节的方法、装置及计算机可读存储介质
CN111418004B (zh) * 2018-06-11 2023-12-22 思睿逻辑国际半导体有限公司 用于啸叫检测的技术
CN108742641A (zh) * 2018-06-28 2018-11-06 佛山市威耳听力技术有限公司 独立双通道声测试听觉识别敏感度的方法
CN108742641B (zh) * 2018-06-28 2020-10-30 佛山市威耳听力技术有限公司 独立双通道声测试听觉识别敏感度的方法
CN110248268A (zh) * 2019-06-20 2019-09-17 歌尔股份有限公司 一种无线耳机降噪方法、系统及无线耳机和存储介质
WO2023000796A1 (zh) * 2021-07-19 2023-01-26 首都医科大学宣武医院 认知障碍患者双耳信息整合功能的声学测量方法及装置

Also Published As

Publication number Publication date
EP3220661B1 (en) 2019-11-20
DK3220661T3 (da) 2020-01-20
US20170272870A1 (en) 2017-09-21
US10057693B2 (en) 2018-08-21
EP3220661A1 (en) 2017-09-20
CN107371111B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN107371111A (zh) 用于预测有噪声和/或增强的语音的可懂度的方法及双耳听力系统
US10225669B2 (en) Hearing system comprising a binaural speech intelligibility predictor
CN107690119B (zh) 配置成定位声源的双耳听力系统
CN107454538A (zh) 包括含有平滑单元的波束形成器滤波单元的助听器
CN108600907A (zh) 定位声源的方法、听力装置及听力系统
Kollmeier et al. Functionality of hearing aids: State-of-the-art and future model-based solutions
CN107147981A (zh) 单耳侵入语音可懂度预测单元、助听器及双耳助听器系统
CN110060666A (zh) 听力装置的运行方法及基于用语音可懂度预测算法优化的算法提供语音增强的听力装置
CN104412618B (zh) 用于助听器的方法
CN107046668A (zh) 单耳语音可懂度预测单元、助听器及双耳听力系统
CN105848078A (zh) 双耳听力系统
CN106231520A (zh) 对等联网听力系统
CN107360527A (zh) 包括波束形成器滤波单元的听力装置
CN108574922A (zh) 包括声音的无线接收器的听力装置
CN104284286A (zh) 个体hrtf的确定
CN104980870A (zh) 使用辅助装置对助听装置的多传声器降噪系统进行自校准
CN104618843A (zh) 包括头部相关传递函数数据库的双耳助听系统
CN107872762A (zh) 话音活动检测单元及包括话音活动检测单元的听力装置
CN105722001A (zh) 适于估计当前真耳-耦合腔差值的听力装置
CN107426660A (zh) 包括定向传声器系统的助听器
CN109660928A (zh) 包括用于影响处理算法的语音可懂度估计器的听力装置
CN107547983A (zh) 用于提高目标声音的可分离性的方法和听力装置
CN105491495A (zh) 基于确定性序列的反馈估计
US20210168518A1 (en) Hearing system comprising a personalized beamformer
CN105554663A (zh) 用于估计听力装置的反馈通路的听力系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210209