CN109257687A - 具有非侵入式语音清晰度的听力设备和方法 - Google Patents

具有非侵入式语音清晰度的听力设备和方法 Download PDF

Info

Publication number
CN109257687A
CN109257687A CN201810756892.6A CN201810756892A CN109257687A CN 109257687 A CN109257687 A CN 109257687A CN 201810756892 A CN201810756892 A CN 201810756892A CN 109257687 A CN109257687 A CN 109257687A
Authority
CN
China
Prior art keywords
signal
input signal
block
characterization
hearing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810756892.6A
Other languages
English (en)
Other versions
CN109257687B (zh
Inventor
C·瑟伦森
J·B·博尔特
A·克塞纳基
M·S·卡瓦莱卡拉姆
M·G·克里斯坦森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GN Hearing AS
Original Assignee
GN Hearing AS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GN Hearing AS filed Critical GN Hearing AS
Publication of CN109257687A publication Critical patent/CN109257687A/zh
Application granted granted Critical
Publication of CN109257687B publication Critical patent/CN109257687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • G10L19/07Line spectrum pair [LSP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/405Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种听力设备包括:输入模块,用于提供第一输入信号,该输入模块包括第一麦克风;处理器,用于处理输入信号并基于输入信号提供电输出信号;接收器,用于将电输出信号转换为音频输出信号;以及控制器,包括语音清晰度估计器,用于基于第一输入信号来估计语音清晰度指标,其中,控制器配置为基于语音清晰度指标来控制处理器。语音清晰度估计器包括分解模块,用于将第一输入信号分解为第一输入信号的第一表示,其中,第一表示包括表示第一输入信号的一个或多个元素。分解模块包括用于表征频域中的第一表示的一个或多个元素的一个或多个表征块。

Description

具有非侵入式语音清晰度的听力设备和方法
技术领域
本发明涉及一种听力设备及操作听力设备的方法。
背景技术
通常,助听设备用户的语音清晰度很大程度上取决于特定的听音环境。助听器(HA)用户遇到的主要问题之一是在诸如“鸡尾酒会问题”的嘈杂的多语音环境中严重降低的语音清晰度。
为了评估语音清晰度,存在用于以可接受的可靠性来预测语音清晰度的各种侵入式方法,诸如短时目标清晰度(STOI)度量和归一化协方差度量(NCM)。
然而,STOI方法和NCM方法是侵入式的,即它们都需要获得“干净的”语音信号。然而,在大部分现实生活场景下,诸如鸡尾酒会,很难获得作为参考语音信号的“干净的”的语音信号。
发明内容
因此,需要一种能够克服背景技术中的缺陷的听力设备、方法和听力系统。
公开了一种听力设备。听力设备包括:输入模块,用于提供第一输入信号,该输入模块包括第一麦克风;处理器,用于处理输入信号并基于输入信号提供电输出信号;接收器,用于将电输出信号转换为音频输出信号;以及控制器,可操作地连接到输入模块。控制器包括语音清晰度估计器,用于基于第一输入信号来估计指示语音清晰度的语音清晰度指标。控制器可以配置为基于语音清晰度指标来控制处理器。语音清晰度估计器包括分解模块,用于将第一输入信号分解为第一输入信号的例如在频域中的第一表示。第一表示可以包括表示第一输入信号的一个或多个元素。分解模块可以包括用于表征例如在频域中的第一表示的一个或多个元素的一个或多个表征块。
此外,提供一种操作听力设备的方法。该方法包括:将音频转换为包括第一输入信号的一个或多个麦克风输入信号;获得指示与第一输入信号相关的语音清晰度的语音清晰度指标;以及基于语音清晰度指标来控制听力设备。获得语音清晰度指标包括:通过使用一个或多个表征块确定第一输入信号在频域中的表示的一个或多个元素来获得第一输入信号在频域中的第一表示。
本发明的优点在于其允许在没有可用参考语音信号的情况下评估语音清晰度。通过使用一个或多个表征块将输入信号分解为表示来有利地估计语音清晰度。所获得的表示使得能够重建参考语音信号,从而获得对语音清晰度的改进的评估。具体而言,本发明利用所公开的分解以及所公开的表示来提高存在噪声时对语音清晰度的非侵入式估计的精确度。
附图说明
通过参考附图对本发明的示例性实施例的以下详细描述,本发明的上述和其他特征和优点对于本领域技术人员将是显而易见的,其中:
图1示意性地示出根据本发明的示例性听力设备,
图2示意性地示出根据本发明的示例性听力设备,其中,听力设备包括第一波束形成器,
图3是根据本发明的用于操作听力设备的示例性方法的流程图,以及
图4是示出与侵入式STOI技术相比所公开的技术的示例性清晰度性能结果的曲线图。
附图标记列表
2 听力设备
2A 听力设备
4 天线
5 第一无线输入信号
6 输入模块
7 无线电收发器
8 第一麦克风
9 第一输入信号
9' 第一麦克风信号
9” 第一波束形成信号
10 第二麦克风
11 第二输入信号
11' 第二麦克风信号
11” 第二波束形成信号
12 控制器
12a 语音清晰度估计器
12aa 分解模块
12ab 信号合成器
12ac 短时目标清晰度(STOI)估计器
A1…Ai 一个或多个表征块
14 处理器
16 接收器
18 第一波束形成器
19 第二波束形成器
100 操作听力设备的方法
102 将音频转换为一个或多个麦克风输入信号
104 获得语音清晰度指标
104a 获得第一表示
104aa 使用一个或多个表征块来确定第一输入信号在频域中的表示的一个或多个元素
104ab 将第一输入信号的特征映射到一个或多个表征块中
104ac 针对一个或多个表征块,将参考信号表示的一个或多个元素确定为与估计的参考语音信号相关的估计系数
104ad 将第一输入信号的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块进行比较
104ae 基于比较来确定第一表示的一个或多个元素
104b 获得第二表示
104c 基于第一表示来生成重建的参考语音信号
104d 基于重建的参考语音信号来确定语音清晰度指标
106 基于语音清晰度指标来控制听力设备
具体实施方式
以下参考相关附图描述各种示例性实施例和细节。应当注意,附图可以或可以不按比例绘制,并且在整个附图中,类似结构或功能的元件由类似附图标记表示。还应当理解,附图仅旨在便于实施例的描述。它们不旨在作为对本发明的详尽描述或作为对本发明的范围的限制。另外,所示实施例不需要示出所有方面或优点。结合特定实施例描述的方面或优点不一定限于该实施例,并且即使未示出或未明确描述,也可以在任何其他实施例中实践。
语音清晰度度量是侵入式的,即,它们需要参考语音信号,这在实际应用中几乎不可用。已经建议为噪声和经非线性处理的语音导出非侵入式清晰度测量,即可以在不需要干净的参考信号的情况下根据劣化的语音信号预测清晰度的测量。建议的测量根据劣化的信号来在调制域中估计干净信号幅度包络。然而,与原始侵入式STOI测量相比,这种方法中的测量不允许重建干净的参考信号,并且其执行精确度不足。此外,这种方法中的测量在复杂的听音环境中表现不佳,例如,在单个竞争演讲者的情况下。
所公开的听力设备和方法提出从(噪声)输入信号中确定在频域中估计的表示。该表示可以例如为频谱包络。使用一个或多个预定义的表征块来确定本文公开的表示。定义和计算一个或多个表征块,使得它们足够好地适合或表示带噪声的语音信号,并且支持参考语音信号的重建。这导致足以被认为是参考语音信号的表示的表示,并且使得能够重建参考语音信号以用于评估语音清晰度指标。
本发明提供一种听力设备,其通过基于(噪声)输入信号的表示估计语音清晰度指标来非侵入式地估计听音环境的语音清晰度。本发明提出使用估计的语音清晰度指标来控制输入信号的处理。
本发明的优点在于,本发明中不需要获得参考语音信号来估计语音清晰度指标。本发明提出一种听力设备和方法,其能够基于输入信号(即,带噪声的输入信号)的表示来重建参考语音信号(即,表示语音信号的清晰度的参考语音信号)。本发明通过在不访问参考语音信号的情况下,利用输入信号和输入信号的特征(诸如频率或频谱包络或其自回归参数)以及表征块导出输入信号的表示(诸如参考语音信号的频谱包络),来克服参考语音信号的可用性不足或访问不足的缺陷。
公开了一种听力设备。听力设备可以是助听器,其中,处理器配置为补偿用户的听力损失。听力设备可以是助听器,例如耳后(BTE)式、耳内(ITE)式、入耳(ITC)式、耳道内接收器(RIC)式或耳内接收器(RITE)式。听力设备可以是耳蜗植入型或骨锚固型助听器。
听力设备包括用于提供第一输入信号的输入模块,输入模块包括第一麦克风,诸如麦克风组中的第一麦克风。输入信号例如是由麦克风处理的声学声音信号,诸如第一麦克风信号。第一输入信号可以基于第一麦克风信号。麦克风组可以包括一个或多个麦克风。麦克风组包括用于提供第一麦克风信号的第一麦克风和/或用于提供第二麦克风信号的第二麦克风。第二输入信号可以基于第二麦克风信号。麦克风组可以包括用于提供N个麦克风信号的N个麦克风,其中,N是范围从1到10的整数。在一个或多个示例性听力设备中,麦克风的数量N是2、3、4、5或以上。麦克风组可以包括用于提供第三麦克风信号的第三麦克风。
听力设备包括用于处理输入信号(诸如,麦克风信号)的处理器。处理器配置为基于至处理器的输入信号来提供电输出信号。处理器可以配置为补偿用户的听力损失。
听力设备包括用于将电输出信号转换为音频输出信号的接收器。接收器可以配置为将电输出信号转换为音频输出信号以被引向听力设备用户的鼓膜。
听力设备可选地包括用于将一个或多个无线输入信号(例如,第一无线输入信号和/或第二无线输入信号)转换为天线输出信号的天线。无线输入信号源自外部源,诸如配偶传声器设备、无线TV音频发射器和/或与无线发射器相关联的分布式麦克风阵列。
听力设备可选地包括耦合至天线的无线电收发器,用于将天线输出信号转换为收发器输入信号。来自不同外部源的无线信号可以在无线电收发器中被多路复用为收发器输入信号,或者在无线电收发器的分离的收发器输出端子上被提供为分离的收发器输入信号。听力设备可以包括多个天线和/或天线可以配置为以一个或多个天线模式操作。收发器输入信号包括表示来自第一外部源的第一无线信号的第一收发器输入信号。
听力设备包括控制器。控制器可以可操作地连接至输入模块(诸如,第一麦克风)和处理器。控制器可以可操作地连接至第二麦克风(如果存在)。控制器可以包括语音清晰度估计器,用于基于第一输入信号来估计指示语音清晰度的语音清晰度指标。控制器可以配置为估计指示语音清晰度的语音清晰度指标。控制器配置为基于语音清晰度指标来控制处理器。
在一个或多个示例性听力设备中,处理器包括控制器。在一个或多个示例性听力设备中,控制器与处理器并置。
语音清晰度估计器可以包括分解模块,用于将第一麦克风信号分解为第一输入信号的第一表示。分解模块可以配置为将第一麦克风信号分解为频域中的第一表示。例如,分解模块可以配置为基于第一输入信号来确定第一表示,例如,频域中的第一表示。第一表示可以包括表示第一输入信号的一个或多个元素,诸如频域中的一个或多个元素。分解模块可以包括用于表征例如在频域中的第一表示的一个或多个元素的一个或多个表征块。
一个或多个表征块可以被视为一个或多个基于频率的表征块。换言之,一个或多个表征块可以被视为频域中的一个或多个表征块。一个或多个表征块可以配置为例如以最小化的误差适合或表示带噪声的语音信号。一个或多个表征块可以配置为支持参考语音信号的重建。
本文使用的术语“表示”是指表征和/或估计输入信号的特性的一个或多个元素。可以通过从输入信号提取的特征(诸如,表示输入信号的特征)来反映或估计该特性。例如,第一输入信号的特征可以包括第一输入信号的参数、第一输入信号的频率、第一输入信号的频谱包络和/或第一输入信号的频谱。第一输入信号的参数可以是自回归模型的自回归AR系数。
在一个或多个示例性听力设备中,一个或多个表征块形成码本和/或词典的一部分。例如,一个或多个表征块形成频域中的码本或频域中的词典的一部分。
例如,控制器或语音清晰度估计器可以配置为基于第一表示来估计语音清晰度指标,这使得能够重建参考语音信号。换言之,控制器或语音清晰度估计器基于第一表示将语音清晰度指标预测为足以重建参考语音信号的表示。
在应用所公开的技术的说明性示例中,假设加性噪声模型是(噪声)第一输入信号的一部分,其中:
y(n)=s(n)+w(n), (1)
这里,y(n)、s(n)和w(n)分别表示第一输入信号(例如,来自输入模块的带噪声的采样语音信号)、参考语音信号和噪声。可以将参考语音信号模拟为随机自回归AR处理,例如:
这里,s(n-1)=[s(n-1),...,s(n-P)]T表示P个过去的参考语音采样信号,是包含参考语音信号的语音线性预测系数LPC的向量,并且u(n)是具有激励方差的零均值白高斯噪声。类似地,可以模拟噪声信号,例如:
这里,w(n-1)=[w(n-1),...,w(n-Q)]T表示Q个过去的噪声采样信号,是包含噪声信号的语音线性预测系数的向量,并且v(n)是具有激励方差的零均值白高斯噪声。
在一个或多个示例性听力设备中,听力设备配置为使用自回归AR模型来模拟输入信号。
在一个或多个示例性听力设备中,分解模块可以配置为通过例如使用第一输入信号的基于频率的特征的投影将第一输入信号的特征映射到一个或多个表征块中,来将第一输入信号分解为第一表示。例如,分解模块可以配置为使用第一输入信号的自回归模型将第一输入信号的特征映射到一个或多个表征块中,其中线性预测系数将第一输入信号的基于频率的特征与分解模块的一个或多个表征块相关。
在一个或多个示例性听力设备中,将第一输入信号的特征映射到一个或多个表征块中可以包括:将特征与一个或多个表征块进行比较,并且基于比较来导出第一表示的一个或多个元素。例如,分解模块可以配置为通过针对每一个表征块估计与第一输入信号相关的线性预测系数和激励协方差的最小均方误差,来比较第一输入信号的基于频率的特征与一个或多个表征块。
在一个或多个示例性听力设备中,一个或多个表征块可以包括一个或多个目标语音表征块。例如,一个或多个目标语音表征块可以形成频域中的目标语音码本或频域中的目标语音词典的一部分。
在一个或多个示例性听力设备中,表征块可以是码本的条目或词典的条目。
在一个或多个示例性听力设备中,一个或多个表征块可以包括一个或多个噪声表征块。例如,一个或多个噪声表征块可以形成频域中的噪声码本或频域中的噪声词典的一部分。
在一个或多个示例性听力设备中,分解模块配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块并基于比较确定第一表示的一个或多个元素,来确定第一表示。例如,分解模块配置为针对一个或多个目标语音表征块中的每一个和/或针对一个或多个噪声表征块中的每一个,将第一表示的一个或多个元素确定为与第一输入信号相关的估计系数。例如,分解模块可以配置为使用第一输入信号的自回归模型将第一输入信号的特征映射到一个或多个目标语音表征块和一个或多个噪声表征块中,其中线性预测系数将第一输入信号的基于频率的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块相关。例如,分解模块可以配置为通过针对一个或多个目标语音表征块中的每一个和/或针对一个或多个噪声表征块中的每一个,估计与估计的参考语音信号相关的线性预测系数和激励协方差的最小均方误差,来比较估计的参考语音信号的基于频率的特征与一个或多个表征块。
在一个或多个示例性听力设备中,第一表示可以包括参考信号表示。换言之,第一表示可以与参考信号表示相关,例如参考语音信号的参考信号的表示。参考语音信号可以被视为精确表示语音信号清晰度的参考信号。换言之,参考语音信号表现出与由音频源发出的信号相似的特性,诸如关于语音清晰度的足够的信息。
在一个或多个示例性听力设备中,分解模块配置为针对一个或多个表征块(例如,目标语音表征块)中的每一个,将参考信号表示的一个或多个元素确定为与估计的参考语音信号相关的估计系数。例如,分解模块可以配置为使用第一输入信号的自回归模型将估计的参考语音信号的特征映射到一个或多个表征块(例如,目标语音表征块)中,其中线性预测系数将估计的参考语音信号的基于频率的特征与一个或多个表征块(例如,目标语音表征块)相关。例如,分解模块可以配置为通过针对一个或多个表征块(例如,目标语音表征块)中的每一个,估计与估计的参考语音信号相关的线性预测系数和激励协方差的最小均方误差,来比较估计的参考语音信号的基于频率的特征(例如,频谱包络)与一个或多个表征块(例如,目标语音表征块)。
在一个或多个示例性听力设备中,分解模块配置为将第一输入信号分解为第一输入信号的第二表示,其中,第二表示包括表示第一输入信号的一个或多个元素。分解模块可以包括用于表征第二表示的一个或多个元素的一个或多个表征块。
在一个或多个示例性听力设备中,第二表示可以包括噪声信号的表示,诸如噪声信号表示。
在一个或多个示例性听力设备中,分解模块配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块并基于比较确定第二表示的一个或多个元素,来确定第二表示。例如,当第二表示旨在表示估计的噪声信号时,分解模块配置为针对一个或多个噪声表征块中的每一个,将第二表示的一个或多个元素确定为与估计的噪声信号相关的估计系数。例如,分解模块可以配置为使用估计的噪声信号的自回归模型将估计的噪声信号的特征映射到一个或多个噪声表征块中,其中线性预测系数将估计的噪声信号的基于频率的特征与一个或多个噪声表征块相关。例如,分解模块可以配置为通过针对一个或多个噪声表征块中的每一个估计与估计的噪声信号相关的线性预测系数和激励协方差的最小均方误差,来比较估计的噪声信号的基于频率的特征与一个或多个噪声表征块。
在一个或多个示例性听力设备中,分解模块配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和一个或多个噪声表征块并基于比较确定第一表示的一个或多个元素和第二表示的一个或多个元素,来将第一表示确定为参考信号表示,并将第二表示确定为噪声信号表示。例如,分解模块配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和一个或多个噪声表征块并基于比较确定参考信号表示的一个或多个元素和噪声信号表示的一个或多个元素,来确定参考信号表示和噪声信号表示。
在应用所公开的技术的说明性示例中,第一表示被认为包括参考语音信号的估计频谱。第二表示包括噪声信号的估计频谱。根据估计向量中级联的线性预测系数和激励方差来估计第一表示和第二表示。使用包括一个或多个目标语音表征块的目标语音码本和/或包括一个或多个噪声表征块的噪声码本来估计第一表示和第二表示。目标语音码本和/或噪声码本可以由听力设备使用先验训练数据或现场训练数据来训练。表征块可以被视为以线性预测系数形式与参考语音信号的频谱形状或第一输入信号的频谱形状相关。给定长度为N的当前帧的第一输入信号的观测向量y=[y (0)y(1)...y (N-1)],向量θ的最小均方误差MMSE估计可以针对要估计的参数的空间θ给出为并且可以使用贝叶斯定理重新表示为,例如:
可以分别针对目标语音表征块的每个ith条目和噪声表征块的jth条目定义估计向量相应地,目标语音激励方差的最大似然ML估计以及噪声激励方差的ML估计可以给出为例如:
这里,
这里,是ith和jth向量的频谱,即,ith目标语音表征块和jth噪声表征块。目标语音表征块可以形成目标语音码本的一部分,并且噪声表征块可以形成噪声码本的一部分。还假设||f(ω)||=∫|f(ω)|dω。目标语音码本、噪声码本和第一输入信号的频谱包络分别由和Py(ω)给出。在实践中,公式4中的估计向量θ的MMSE估计例如通过下式被评估为θij的加权线性组合:
这里,Ns和Nw分别是目标语音表征块和噪声表征块的数量。Ns和Nw可以分别被视为目标语音码本和噪声码本中的条目的数量。第一输入信号的MMSE估计的权重p(y|θij)可以计算为例如:
这里,第一输入信号(或噪声频谱)与模拟的第一输入信号(或模拟的噪声频谱)之间的Itakura-Saito失真由给出。LPC的加权求和可选地在线谱频域中执行,例如为了确保稳定的逆滤波器。线谱频域是具有数学和数字益处的LPC系数的具体表示。作为示例,LPC系数是低阶频谱近似--它们定义频谱的整体形状。如果我们想要在两组LPC系数之间找到频谱,我们需要从LPC->LSF进行传输,找到平均值,并传输LSF->LPC。因此,线谱频域是LPC系数信息的更方便(但相同)的表示。LPC和LSF对与笛卡尔坐标和极坐标相似。
在一个或多个示例性听力设备中,听力设备配置为训练一个或多个表征块。例如,听力设备配置为使用女性声音和/或男性声音来训练一个或多个表征块。可以设想,听力设备配置为在制造时或在分配时训练一个或多个表征块。替代地或附加地,可以设想,听力设备配置为连续地训练一个或多个表征块。听力设备可选地配置为训练一个或多个表征块,以便获得能够实现精确的第一表示的代表性表征块,其继而允许重建参考语音信号。例如,听力设备可以配置为使用自回归AR模型来训练一个或多个表征块。
在一个或多个示例性听力设备中,语音清晰度估计器包括信号合成器,用于基于第一表示(例如,参考信号表示)生成重建的参考语音信号。可以基于重建的参考语音信号来估计语音清晰度指标。例如,信号合成器可以配置为基于作为参考信号表示的第一表示来生成重建的参考语音信号。
在一个或多个示例性听力设备中,语音清晰度估计器包括信号合成器,用于基于第二表示来生成重建的噪声信号。可以基于重建的噪声语音信号来估计语音清晰度指标。例如,信号合成器可以配置为基于作为噪声信号表示的第二表示和/或作为参考信号表示的第一表示来生成重建的噪声语音信号。
在应用所公开的技术的说明性示例中,可以用以下示例性方式来重建参考语音信号。第一表示包括参考语音信号的估计频谱。第二表示包括噪声信号的估计频谱。换言之,第一表示是参考信号表示,并且第二表示是噪声信号表示。在本示例中,第一表示包括估计参考信号的时频TF频谱。第一表示包括每个时间帧的参考语音信号的一个或多个估计的AR滤波器系数αs。重建的参考语音信号可以基于第一表示例如通过下式来获得:
这里,在本示例中,第二表示包括估计噪声信号的时频TF功率谱。第二表示包括构成估计噪声信号的TF频谱的估计噪声信号的估计的噪声AR滤波器系数αw。估计噪声信号可以基于第二表示例如通过下式来获得:
这里,线性预测系数,即αs和αw分别确定对应的估计参考信号和估计噪声信号的包络的形状。激励方差确定整体信号幅度。最后,可以将重建的带噪声的语音信号确定为参考信号频谱和噪声信号频谱(或功率谱)的组合总和,例如:
时频频谱可以取代参考语音信号和带噪声的语音信号的离散傅里叶变换作为STOI估计器中的输入。
在一个或多个示例性听力设备中,语音清晰度估计器包括短时目标清晰度估计器。短时目标清晰度估计器可以配置为将重建的参考语音信号与重建的带噪声的语音信号进行比较并且例如基于比较来提供语音清晰度指标。例如,第一输入信号的第一表示的元素(例如,带噪声的语音的频谱(或功率谱),)可以由在公式14中表示的归一化过程来限幅,以便不强调噪声在频谱中占主导地位的影响:
这里,是重建的参考信号的频谱(或功率谱),是用于对带噪声的TF频段进行归一化的比例因子,并且β=-15dB为例如更低的信号失真比。给定频率f和时间t处的之间的局部相关系数rf(t),可以通过在频带和帧上进行平均来估计语音清晰度指标SII:
在一个或多个实施例中,短时目标清晰度估计器可以配置为将重建的参考语音信号与第一输入信号进行比较以提供语音清晰度指标。换言之,重建的带噪声的语音信号可以由从输入模块获得的第一输入信号来替代。第一输入信号可以由单个麦克风(其是全向的)或由多个麦克风(例如,使用波束形成)捕获。例如,可以由控制器或语音清晰度估计器通过使用STOI估计器比较重建的语音信号和第一输入信号来预测语音清晰度指标,诸如通过使用STOI估计器比较重建的语音信号和第一输入信号的相关性。
在一个或多个示例性听力设备中,输入模块包括第二麦克风和第一波束形成器。第一波束形成器可以连接到第一麦克风和第二麦克风,并且配置为基于第一和第二麦克风信号提供第一波束形成信号作为第一输入信号。第一波束形成器可以连接到第三麦克风和/或第四麦克风,并且配置为基于第三麦克风的第三麦克风信号和/或第四麦克风的第四麦克风信号提供第一波束形成信号作为第一输入信号。分解模块可以配置为将第一波束形成信号分解为第一表示。例如,第一波束形成器可以包括前波束形成器或零方向波束形成器,诸如指向用户前方的波束形成器。
在一个或多个示例性听力设备中,输入模块包括第二波束形成器。第二波束形成器可以连接到第一麦克风和第二麦克风,并且配置为基于第一和第二麦克风信号提供第二波束形成信号作为第二输入信号。第二波束形成器可以连接到第三麦克风和/或第四麦克风,并且配置为基于第三麦克风的第三麦克风信号和/或第四麦克风的第四麦克风信号提供第二波束形成信号作为第二输入信号。分解模块可以配置为将第二输入信号分解为第三表示。例如,第二波束形成器可以包括全向波束形成器。
本发明还涉及一种操作听力设备的方法。该方法包括:将音频转换为包括第一输入信号的一个或多个麦克风信号;并且获得指示与第一输入信号相关的语音清晰度的语音清晰度指标。获得语音清晰度指标包括:通过使用一个或多个表征块确定第一输入信号在频域中的表示的一个或多个元素来获得第一输入信号在频域中的第一表示。
在一个或多个示例性方法中,使用一个或多个表征块来确定第一输入信号的第一表示的一个或多个元素包括:将第一输入信号的特征映射到一个或多个表征块中。在一个或多个示例性方法中,一个或多个表征块包括一个或多个目标语音表征块。在一个或多个示例性方法中,一个或多个表征块包括一个或多个噪声表征块。
在一个或多个示例性方法中,获得语音清晰度指标包括:基于第一表示来生成重建的参考语音信号,并且基于重建的参考语音信号来确定语音清晰度指标。
方法可以包括基于语音清晰度指标来控制听力设备。
为了清楚起见,附图是示意性的和简化的,并且它们仅仅示出对于理解本发明所必需的细节,而其余细节已被省略。在整个附图中,相同的附图标记用于相同或对应的部分。
图1是根据本发明的示例性听力设备2的框图。
听力设备2包括用于提供第一输入信号9的输入模块6。输入模块6包括第一麦克风8。输入模块6可以配置为提供第二输入信号11。第一麦克风8可以是麦克风组的一部分。麦克风组可以包括一个或多个麦克风。麦克风组包括用于提供第一麦克风信号9'的第一麦克风8和可选的用于提供第二输入信号11'的第二麦克风10。第一输入信号9是第一麦克风信号9',而第二输入信号11是第二麦克风信号11'。
听力设备2可选地包括用于将第一外部源(图1中未示出)的第一无线输入信号5转换为天线输出信号的天线4。听力设备2可选地包括耦合至天线4的无线电收发器7,用于将天线输出信号转换为一个或多个收发器输入信号,并且该无线电收发器耦合至输入模块6和/或包括第一麦克风8和可选的第二麦克风10的麦克风组,用于提供相应的第一麦克风信号9和第二麦克风信号11。
听力设备2包括用于处理输入信号的处理器14。处理器14基于至处理器14的输入信号来提供电输出信号。
听力设备包括用于将电输出信号转换为音频输出信号的接收器16。
处理器14配置为补偿用户的听力损失并基于输入信号提供电输出信号15。接收器16将电输出信号15转换为音频输出信号以引向听力设备用户的鼓膜。
听力设备包括控制器12。控制器12可操作地连接至输入模块6(例如,连接至第一麦克风8)和处理器16。控制器12可以可操作地连接至第二麦克风10(如果存在)。控制器12配置为基于一个或多个输入信号(诸如第一输入信号9)来估计指示语音清晰度的语音清晰度指标。控制器12包括语音清晰度估计器12a,用于基于第一输入信号9来估计指示语音清晰度的语音清晰度指标。控制器12配置为基于语音清晰度指标来控制处理器14。
语音清晰度估计器12a包括分解模块12aa,用于将第一输入信号9分解为第一输入信号9在频域中的第一表示。第一表示包括表示第一输入信号9的一个或多个元素。分解模块包括用于表征频域中的第一表示的一个或多个元素的一个或多个表征块A1、...、Ai。在一个或多个示例性听力设备中,分解模块12aa配置为通过将第一输入信号9的特征映射到一个或多个表征块A1、...、Ai中,来将第一输入信号9分解为第一表示。例如,分解模块配置为使用第一输入信号的自回归模型将第一输入信号9的特征映射到一个或多个表征块A1、...、Ai中,其中线性预测系数将第一输入信号9的基于频率的特征与分解模块12aa的一个或多个表征块A1、...、Ai相关。第一输入信号9的特征包括例如第一输入信号的参数、第一输入信号的频率、第一输入信号的频谱包络和/或第一输入信号的频谱。第一输入信号的参数可以是自回归模型的自回归AR系数,诸如公式(1)中的系数。
在一个或多个示例性听力设备中,分解模块12aa配置为将该特征与一个或多个表征块A1、...、Ai进行比较,并基于比较导出第一表示的一个或多个元素。例如,分解模块12aa通过针对每一个表征块估计与第一输入信号9相关的线性预测系数和激励协方差的最小均方误差,来比较第一输入信号9的基于频率的特征与一个或多个表征块A1、...、Ai,如公式(4)中所示。
例如,一个或多个表征块A1、...、Ai可以包括一个或多个目标语音表征块。在一个或多个示例性听力设备中,表征块可以是码本的条目或词典的条目。例如,一个或多个目标语音表征块可以形成频域中的目标语音码本或频域中的目标语音词典的一部分。
在一个或多个示例性听力设备中,一个或多个表征块A1、...、Ai可以包括一个或多个噪声表征块。例如,一个或多个噪声表征块A1、...、Ai可以形成频域中的噪声码本或频域中的噪声词典的一部分。
分解模块12aa可以配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块并基于比较确定第二表示的一个或多个元素,来确定第二表示。第二表示可以是噪声信号表示,而第一表示可以是参考信号表示。
例如,分解模块12aa可以配置为通过比较第一输入信号的特征与一个或多个目标语音表征块和一个或多个噪声表征块并基于比较确定第一表示的一个或多个元素和第二表示的一个或多个元素,来确定第一表示和第二表示,如公式(5-10)中的任一个所示。
听力设备可以配置为例如使用女性声音和/或男性声音来训练一个或多个表征块。
语音清晰度估计器12a可以包括信号合成器12ab,用于基于第一表示来生成重建的参考语音信号。语音清晰度估计器12a可以配置为基于由信号合成器12ab提供的参考重建的语音信号来估计语音清晰度指标。例如,信号合成器12ab配置为基于第一表示来生成重建的参考语音信号,例如按照公式(11)。
信号合成器12ab可以配置为基于第二表示来生成重建的噪声信号,例如基于公式(12)。
。可以基于重建的噪声语音信号来估计语音清晰度指标。
语音清晰度估计器12a可以包括短时目标清晰度(STOI)估计器12ac。短时目标清晰度估计器12ac配置为比较重建的参考语音信号和带噪声的输入信号(重建的带噪声的输入信号或第一输入信号9)并基于比较来提供语音清晰度指标,如公式(13-15)中所示。
例如,短时目标清晰度估计器12ac比较重建的参考语音信号和带噪声的语音信号(重建的或非重建的)。换言之,短时目标清晰度估计器12ac评估重建的参考语音信号和带噪声的语音信号(例如,重建的带噪声的语音信号)之间的相关性,并使用评估的相关性来向控制器12或处理器14提供语音清晰度指标。
图2是根据本发明的示例性听力设备2A的框图,其中,第一输入信号9是第一波束形成信号9”。听力设备2A包括用于提供第一输入信号9的输入模块6。输入模块6包括第一麦克风8、第二麦克风10以及连接到第一麦克风8和第二麦克风10的第一波束形成器18。第一麦克风8是包括多个麦克风的麦克风组的一部分。麦克风组包括用于提供第一麦克风信号9'的第一麦克风8和用于提供第二麦克风信号11'的第二麦克风10。第一波束形成器配置为基于第一麦克风信号9'和第二麦克风信号11'来生成第一波束形成信号9”。第一输入信号9是第一波束形成信号9”,而第二输入信号11是第二波束形成信号11”。
输入模块6配置为提供第二输入信号11。输入模块6包括连接到第二麦克风10和第一麦克风8的第二波束形成器19。第二波束形成器19配置为基于第一麦克风信号9'和第二麦克风信号11'来生成第二波束形成信号11”。
听力设备2A包括用于处理输入信号的处理器14。处理器14基于至处理器14的输入信号来提供电输出信号。
听力设备包括用于将电输出信号转换为音频输出信号的接收器16。
处理器14配置为补偿用户的听力损失并基于输入信号提供电输出信号15。接收器16将电输出信号15转换为音频输出信号以引向听力设备用户的鼓膜。
听力设备包括控制器12。控制器12可操作地连接至输入模块6(即,连接至第一波束形成器18)和处理器16。控制器12可以可操作地连接至第二波束形成器19(如果存在)。控制器12配置为基于第一波束形成信号9”来估计指示语音清晰度的语音清晰度指标。控制器12包括语音清晰度估计器12a,用于基于第一波束形成信号9”来估计指示语音清晰度的语音清晰度指标。控制器12配置为基于语音清晰度指标来控制处理器14。
语音清晰度估计器12a包括分解模块12aa,用于将第一波束形成信号9”分解为频域中的第一表示。第一表示包括表示第一波束形成信号9”的一个或多个元素。分解模块包括用于表征频域中的第一表示的一个或多个元素的一个或多个表征块A1、...、Ai。
分解模块12a配置为将第一波束形成信号9”分解为第一表示(与估计的参考语音信号相关),并且可选地分解为第二表示(与估计的噪声信号相关),如公式(4-10)中所示。
当第二波束形成器包括在输入模块6中时,分解模块可以配置为将第二输入信号11”分解为第三表示(与估计的参考语音信号相关)并且可选地分解为第四表示(与估计的噪声信号相关)。
语音清晰度估计器12a可以包括信号合成器12ab,用于基于第一表示来生成重建的参考语音信号,例如在公式(11)中。语音清晰度估计器12a可以配置为基于由信号合成器12ab提供的重建的参考语音信号来估计语音清晰度指标。
语音清晰度估计器12a可以包括短时目标清晰度(STOI)估计器12ac。短时目标清晰度估计器12ac配置为比较重建的参考语音信号和带噪声的语音信号(例如,重建的或从输入模块直接获得的)并且基于比较来提供语音清晰度指标。例如,短时目标清晰度估计器12ac比较重建的语音信号(例如,重建的参考语音信号)和带噪声的语音信号(例如,重建的或从输入模块直接获得的)。换言之,短时目标清晰度估计器12ac评估重建的参考语音信号和带噪声的语音信号(例如,重建的带噪声的语音信号或输入信号)之间的相关性,并使用评估的相关性来向控制器12或处理器14提供语音清晰度指标。
在一个或多个示例性听力设备中,分解模块12aa配置为通过将第一输入信号9的特征映射到一个或多个表征块A1、...、Ai中,来将第一输入信号9分解为第一表示。例如,分解模块配置为使用第一输入信号的自回归模型将第一输入信号9的特征映射到一个或多个表征块A1、...、Ai中,其中线性预测系数将第一输入信号9的基于频率的特征与分解模块12aa的一个或多个表征块A1、...、Ai相关。第一输入信号9的特征包括例如第一输入信号的参数、第一输入信号的频率、第一输入信号的频谱包络和/或第一输入信号的频谱。第一输入信号的参数可以是自回归模型的自回归AR系数。
在一个或多个示例性听力设备中,分解模块12aa配置为将该特征与一个或多个表征块A1、...、Ai进行比较,并基于比较导出第一表示的一个或多个元素。例如,分解模块12aa通过针对每一个表征块估计与第一输入信号9相关的线性预测系数和激励协方差的最小均方误差,来比较第一输入信号9的基于频率的特征与一个或多个表征块A1、...、Ai,如公式(4)中所示。
例如,一个或多个表征块A1、...、Ai可以包括一个或多个目标语音表征块。例如,一个或多个目标语音表征块可以形成频域中的目标语音码本或频域中的目标语音词典的一部分。
在一个或多个示例性听力设备中,表征块可以是码本的条目或词典的条目。
在一个或多个示例性听力设备中,一个或多个表征块可以包括一个或多个噪声表征块。例如,一个或多个噪声表征块可以形成频域中的噪声码本或频域中的噪声词典的一部分。
图3示出根据本发明的操作听力设备的示例性方法的流程图。方法100包括:将音频转换(102)为包括第一输入信号的一个或多个麦克风输入信号;并且获得(104)指示与第一输入信号相关的语音清晰度的语音清晰度指标。获得(104)语音清晰度指标包括:通过使用一个或多个表征块确定(104aa)第一输入信号在频域中的表示的一个或多个元素来获得(104a)第一输入信号在频域中的第一表示。
在一个或多个示例性方法中,使用一个或多个表征块来确定(104aa)第一输入信号的第一表示的一个或多个元素包括:将第一输入信号的特征映射(104ab)到一个或多个表征块中。例如,可以使用第一输入信号的自回归模型将第一输入信号的特征映射(104ab)到一个或多个表征块中,其中线性预测系数将第一输入信号的基于频率的特征与分解模块的一个或多个表征块相关。
在一个或多个示例性方法中,将第一输入信号的特征映射(104ab)到一个或多个表征块中可以包括:将特征与一个或多个表征块进行比较,并且基于比较来导出第一表示的一个或多个元素。例如,比较第一输入信号的基于频率的特征与一个或多个表征块可以包括:针对每一个表征块估计与第一输入信号相关的线性预测系数和激励协方差的最小均方误差。
在一个或多个示例性方法中,一个或多个表征块包括一个或多个目标语音表征块。在一个或多个示例性方法中,一个或多个表征块包括一个或多个噪声表征块。
在一个或多个示例性方法中,第一表示可以包括参考信号表示。
在一个或多个示例性方法中,使用一个或多个表征块来确定(104aa)第一输入信号的第一表示的一个或多个元素可以包括:针对一个或多个表征块(例如,目标语音表征块)中的每一个,将参考信号表示的一个或多个元素确定(104ac)为与估计的参考语音信号相关的估计系数。例如,可以使用第一输入信号的自回归模型将估计的参考语音信号的特征映射到一个或多个表征块(例如,目标语音表征块)中,其中线性预测系数将估计的参考语音信号的基于频率的特征与一个或多个表征块(例如,目标语音表征块)相关。例如,将估计的参考语音信号的基于频率的特征映射到一个或多个表征块(例如,目标语音表征块)中可以包括:针对一个或多个表征块(例如,目标语音表征块)中的每一个,估计与估计的参考语音信号相关的线性预测系数和激励协方差的最小均方误差。
在一个或多个示例性方法中,确定(104aa)第一表示的一个或多个元素可以包括:比较(104ad)第一输入信号的特征与一个或多个目标语音表征块和/或一个或多个噪声表征块并基于比较来确定(104ae)第一表示的一个或多个元素。
在一个或多个示例性方法中,获得(104)语音清晰度指标可以包括获得(104b)第一输入信号的第二表示,其中,第二表示包括表示第一输入信号的一个或多个元素。获得(104b)第一输入信号的第二表示可以使用用于表征第二表示的一个或多个元素的一个或多个表征块来执行。在一个或多个示例性方法中,第二表示可以包括噪声信号的表示,诸如噪声信号表示。
在一个或多个示例性方法中,获得(104)语音清晰度指标包括:基于第一表示来生成(104c)重建的参考语音信号,并且基于重建的参考语音信号来确定(104d)语音清晰度指标。
方法可以包括基于语音清晰度指标来控制(106)听力设备。
图4示出与侵入式STOI技术相比所公开的技术的示例性清晰度性能结果。所公开的技术的清晰度性能结果在图4中以实线示出,而侵入式STOI技术的清晰度性能结果以虚线示出。性能结果使用作为信噪比SNR的函数的STOI分数来呈现。
在来自英语句子语料库EUROM_1数据库的5位男性演讲人和5位女性演讲人的语音样本上评估图4所示的清晰度性能结果。干扰加性噪声信号在-30至30dB SNR的范围内被模拟为来自NOIZEUS数据库的多说话者串音。在采样频率10kHz下从25.6ms帧中估计参考语音信号和噪声信号两者的线性预测系数和方差。假设参考语音信号以及STP(短期预测器)参数在非常短的帧内是固定的。参考语音和噪声两者的自回归模型阶数P和Q分别设定为14。使用通用的Lloyd算法在来自EUROM_1数据库中的多个演讲者的15分钟演讲的训练样本上生成语音码本以确保通用语音模型。目标语音表征块(例如,目标语音码本)的训练样本不包括来自测试集中使用的扬声器的语音样本。在2分钟的串音讲话中训练噪声表征块(例如,噪声码本)。目标语音和噪声码本的大小分别是Ns=64和Nw=8。
模拟示出所公开的非侵入式技术与侵入式STOI之间的高度相关性,表明所公开的技术是用于语音信号的自动分类的合适度量。此外,这些性能结果还支持本文公开的表示提供足以准确估计语音清晰度的提示。
使用词语“第一”、“第二”、“第三”和“第四”等并不意味着任何特定顺序,而是被包括以用于识别各个元件。此外,词语第一、第二等的使用不表示任何顺序或重要性,而是使用词语第一、第二等来区分一个元件与另一元件。请注意,这里和其他地方使用词语第一和第二,仅用于标注目的,并不旨在表示任何特定的空间或时间排序。此外,第一元件的标注并不意味着存在第二元件,反之亦然。
虽然已经示出和描述了具体特征,但是应当理解,它们并不旨在限制所要求保护的发明,并且对于本领域技术人员显而易见的是,可以在不脱离所要求保护的发明的精神和范围的情况下进行各种改变和修改。因此,说明书和附图被认为是说明性的而不是限制性的。所要求保护的发明旨在涵盖所有替代方案、修改和等同物。

Claims (15)

1.一种听力设备,包括:
输入模块,用于提供第一输入信号,所述输入模块包括第一麦克风;
处理器,用于处理输入信号并基于输入信号来提供电输出信号;
接收器,用于将所述电输出信号转换为音频输出信号;以及
控制器,可操作地连接至所述输入模块,所述控制器包括语音清晰度估计器,用于基于所述第一输入信号来估计指示语音清晰度的语音清晰度指标,其中,所述控制器配置为基于所述语音清晰度指标来控制所述处理器,
其中,所述语音清晰度估计器包括分解模块,用于将所述第一输入信号分解为所述第一输入信号在频域中的第一表示,其中,所述第一表示包括表示所述第一输入信号的一个或多个元素,并且
其中,所述分解模块包括用于表征所述频域中的第一表示的一个或多个元素的一个或多个表征块。
2.根据权利要求1所述的听力设备,其中,所述分解模块配置为通过将所述第一输入信号的特征映射到一个或多个表征块中来将所述第一输入信号分解为所述第一表示。
3.根据权利要求2所述的听力设备,其中,将所述第一输入信号的特征映射到所述一个或多个表征块中包括:将所述特征与一个或多个表征块进行比较,并且基于比较来导出所述第一表示的一个或多个元素。
4.根据前述权利要求中任一项所述的听力设备,其中,所述一个或多个表征块包括一个或多个目标语音表征块。
5.根据前述权利要求中任一项所述的听力设备,其中,所述一个或多个表征块包括一个或多个噪声表征块。
6.根据权利要求4至5中任一项所述的听力设备,其中,所述分解模块配置为通过比较所述第一输入信号的特征与所述一个或多个目标语音表征块和/或所述一个或多个噪声表征块并基于比较确定所述第一表示的一个或多个元素,来确定所述第一表示。
7.根据前述权利要求中任一项所述的听力设备,其中,所述分解模块配置为用于将所述第一输入信号分解为所述第一输入信号的第二表示,其中,所述第二表示包括表示所述第一输入信号的一个或多个元素,并且其中,所述分解模块包括用于表征所述第二表示的一个或多个元素的一个或多个表征块。
8.根据从属于权利要求4至5中任一项的权利要求7所述的听力设备,其中,所述分解模块配置为通过比较所述第一输入信号的特征与所述一个或多个目标语音表征块和/或所述一个或多个噪声表征块并基于比较确定所述第二表示的一个或多个元素,来确定所述第二表示。
9.根据前述权利要求中任一项所述的听力设备,其中,所述听力设备配置为训练所述一个或多个表征块。
10.根据前述权利要求中任一项所述的听力设备,其中,所述一个或多个表征块形成码本和/或词典的一部分。
11.一种操作听力设备的方法,所述方法包括:
将音频转换为包括第一输入信号的一个或多个麦克风输入信号;
获得指示与所述第一输入信号相关的语音清晰度的语音清晰度指标;以及
基于所述语音清晰度指标来控制所述听力设备,
其中,获得所述语音清晰度指标包括:通过使用一个或多个表征块确定所述第一输入信号在频域中的表示的一个或多个元素来获得所述第一输入信号在所述频域中的第一表示。
12.根据权利要求11所述的方法,其中,使用一个或多个表征块来确定所述第一输入信号的第一表示的一个或多个元素包括:将所述第一输入信号的特征映射到所述一个或多个表征块中。
13.根据权利要求11至12中任一项所述的方法,其中,获得所述语音清晰度指标包括:基于所述第一表示来生成重建的参考语音信号,并且基于所述重建的参考语音信号来确定所述语音清晰度指标。
14.根据权利要求11至13中任一项所述的方法,其中,所述一个或多个表征块包括一个或多个目标语音表征块。
15.根据权利要求11至14中任一项所述的方法,其中,所述一个或多个表征块包括一个或多个噪声表征块。
CN201810756892.6A 2017-07-13 2018-07-11 具有非侵入式语音清晰度的听力设备和方法 Active CN109257687B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP17181107.8 2017-07-13
EP17181107.8A EP3429230A1 (en) 2017-07-13 2017-07-13 Hearing device and method with non-intrusive speech intelligibility prediction

Publications (2)

Publication Number Publication Date
CN109257687A true CN109257687A (zh) 2019-01-22
CN109257687B CN109257687B (zh) 2022-04-08

Family

ID=59337534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810756892.6A Active CN109257687B (zh) 2017-07-13 2018-07-11 具有非侵入式语音清晰度的听力设备和方法

Country Status (4)

Country Link
US (2) US11164593B2 (zh)
EP (1) EP3429230A1 (zh)
JP (1) JP2019022213A (zh)
CN (1) CN109257687B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612810A (zh) * 2020-11-23 2022-06-10 山东大卫国际建筑设计有限公司 一种动态自适应异常姿态识别方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3471440A1 (en) * 2017-10-10 2019-04-17 Oticon A/s A hearing device comprising a speech intelligibilty estimator for influencing a processing algorithm
EP3796677A1 (en) * 2019-09-19 2021-03-24 Oticon A/s A method of adaptive mixing of uncorrelated or correlated noisy signals, and a hearing device
DE102020201615B3 (de) * 2020-02-10 2021-08-12 Sivantos Pte. Ltd. Hörsystem mit mindestens einem im oder am Ohr des Nutzers getragenen Hörinstrument sowie Verfahren zum Betrieb eines solchen Hörsystems
CN114374924B (zh) * 2022-01-07 2024-01-19 上海纽泰仑教育科技有限公司 录音质量检测方法及相关装置
US20240144950A1 (en) * 2022-10-27 2024-05-02 Harman International Industries, Incorporated System and method for switching a frequency response and directivity of microphone

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133013A (en) * 1988-01-18 1992-07-21 British Telecommunications Public Limited Company Noise reduction by using spectral decomposition and non-linear transformation
US20050141737A1 (en) * 2002-07-12 2005-06-30 Widex A/S Hearing aid and a method for enhancing speech intelligibility
CN104703107A (zh) * 2015-02-06 2015-06-10 哈尔滨工业大学深圳研究生院 一种用于数字助听器中的自适应回波抵消方法
CN105872923A (zh) * 2015-02-11 2016-08-17 奥迪康有限公司 包括双耳语音可懂度预测器的听力系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003454B2 (en) * 2001-05-16 2006-02-21 Nokia Corporation Method and system for line spectral frequency vector quantization in speech codec
CN101853665A (zh) * 2009-06-18 2010-10-06 博石金(北京)信息技术有限公司 语音中噪声的消除方法
JP5852266B2 (ja) * 2011-12-22 2016-02-03 ヴェーデクス・アクティーセルスカプ 補聴器の動作方法および補聴器
US9972325B2 (en) * 2012-02-17 2018-05-15 Huawei Technologies Co., Ltd. System and method for mixed codebook excitation for speech coding

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5133013A (en) * 1988-01-18 1992-07-21 British Telecommunications Public Limited Company Noise reduction by using spectral decomposition and non-linear transformation
US20050141737A1 (en) * 2002-07-12 2005-06-30 Widex A/S Hearing aid and a method for enhancing speech intelligibility
US7599507B2 (en) * 2002-07-12 2009-10-06 Widex A/S Hearing aid and a method for enhancing speech intelligibility
CN104703107A (zh) * 2015-02-06 2015-06-10 哈尔滨工业大学深圳研究生院 一种用于数字助听器中的自适应回波抵消方法
CN105872923A (zh) * 2015-02-11 2016-08-17 奥迪康有限公司 包括双耳语音可懂度预测器的听力系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ASGER HEIDEMANN ANDERSEN ET AL: ""A non-intrusive Short-Time Objective Intelligibility measure"", 《IEEE》 *
CHARLOTTE SORENSEN ETAL: ""Pitch-based non-intrusive objective intelligibility prediction"", 《IEEE》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114612810A (zh) * 2020-11-23 2022-06-10 山东大卫国际建筑设计有限公司 一种动态自适应异常姿态识别方法及装置
CN114612810B (zh) * 2020-11-23 2023-04-07 山东大卫国际建筑设计有限公司 一种动态自适应异常姿态识别方法及装置

Also Published As

Publication number Publication date
CN109257687B (zh) 2022-04-08
EP3429230A1 (en) 2019-01-16
US20210335380A1 (en) 2021-10-28
US11676621B2 (en) 2023-06-13
JP2019022213A (ja) 2019-02-07
US11164593B2 (en) 2021-11-02
US20190019526A1 (en) 2019-01-17

Similar Documents

Publication Publication Date Title
CN109257687A (zh) 具有非侵入式语音清晰度的听力设备和方法
Kuklasiński et al. Maximum likelihood PSD estimation for speech enhancement in reverberation and noise
McCowan et al. Microphone array post-filter based on noise field coherence
Andersen et al. Refinement and validation of the binaural short time objective intelligibility measure for spatially diverse conditions
EP2962300B1 (en) Method and apparatus for generating a speech signal
RU2595636C2 (ru) Система и способ для генерации аудиосигнала
RU2605522C2 (ru) Устройство, содержащее множество аудиодатчиков, и способ его эксплуатации
Tsao et al. Generalized maximum a posteriori spectral amplitude estimation for speech enhancement
US11146897B2 (en) Method of operating a hearing aid system and a hearing aid system
Schwartz et al. Joint estimation of late reverberant and speech power spectral densities in noisy environments using Frobenius norm
Yousefian et al. A coherence-based noise reduction algorithm for binaural hearing aids
Swami et al. Speech enhancement by noise driven adaptation of perceptual scales and thresholds of continuous wavelet transform coefficients
Taseska et al. DOA-informed source extraction in the presence of competing talkers and background noise
Nelke Wind noise reduction: signal processing concepts
Huelsmeier et al. Towards non-intrusive prediction of speech recognition thresholds in binaural conditions
Ohlenbusch et al. Modeling of Speech-dependent Own Voice Transfer Characteristics for Hearables with In-ear Microphones
Yu Post-filter optimization for multichannel automotive speech enhancement
US11470429B2 (en) Method of operating an ear level audio system and an ear level audio system
Liang et al. A joint echo cancellation algorithm for quick suppression of howls in hearing aids
Manamperi et al. Drone audition: Audio signal enhancement from drone embedded microphones using multichannel Wiener filtering and Gaussian-mixture based post-filtering
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템
Reimes Assessment of Listening Effort for various Telecommunication Scenarios
US11950057B2 (en) Hearing device comprising a speech intelligibility estimator
Kodrasi et al. Instrumental and perceptual evaluation of dereverberation techniques based on robust acoustic multichannel equalization
Gul et al. Recycling an anechoic pre-trained speech separation deep neural network for binaural dereverberation of a single source

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant