CN114121040A - 用于借助听力设备评估语音信号的语音质量的方法 - Google Patents

用于借助听力设备评估语音信号的语音质量的方法 Download PDF

Info

Publication number
CN114121040A
CN114121040A CN202110993782.3A CN202110993782A CN114121040A CN 114121040 A CN114121040 A CN 114121040A CN 202110993782 A CN202110993782 A CN 202110993782A CN 114121040 A CN114121040 A CN 114121040A
Authority
CN
China
Prior art keywords
signal
characteristic
speech
speech signal
input audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110993782.3A
Other languages
English (en)
Inventor
J.蒂姆特
M.卢格
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sivantos Pte Ltd
Original Assignee
Sivantos Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sivantos Pte Ltd filed Critical Sivantos Pte Ltd
Publication of CN114121040A publication Critical patent/CN114121040A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/30Monitoring or testing of hearing aids, e.g. functioning, settings, battery power
    • H04R25/305Self-monitoring or self-testing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/405Arrangements for obtaining a desired directivity characteristic by combining a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/43Electronic input selection or mixing based on input signal analysis, e.g. mixing or selection between microphone and telecoil or between microphones with different directivity characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/50Customised settings for obtaining desired overall acoustical characteristics
    • H04R25/505Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种用于借助听力设备评估语音信号的语音质量的方法,其中借助听力设备的声电输入转换器从听力设备的周围环境接收包含语音信号的声音并转换为输入音频信号,其中通过借助信号处理对输入音频信号的分析定量地采集语音信号的至少一种发音和/或韵律特性,并且其中依据至少一种发音和/或韵律特性推导出语音质量的定量的量度。本发明还涉及一种听力设备,包括声电输入转换器,其被设计用于从周围环境接收声音并转换为输入音频信号;和信号处理装置,其被设计用于根据对输入音频信号的分析定量地采集语音信号的包含在输入音频信号中的分量的至少一种发音和/或韵律特性,并且依据至少一种发音或韵律特性推导出语音质量的定量的量度。

Description

用于借助听力设备评估语音信号的语音质量的方法
技术领域
本发明涉及一种用于借助听力设备评估语音信号的语音质量的方法,其中借助听力设备的声电输入转换器,从听力设备的周围环境接收包含语音信号的声音,并且将其转换为输入音频信号,其中,通过借助信号处理对输入音频信号的分析定量地采集语音信号的至少一种特性。
背景技术
在使用听力设备、例如助听器、头戴式耳机或通信设备时的重要的任务通常是尽可能精确地、即尤其在声学上尽可能可理解地向听力设备的用户输出语音信号。为此,通常在根据具有语音信号的声音产生的音频信号中抑制来自声音的干扰噪声,以便强调代表语音信号的信号分量,并且因此提高其可理解性。然而,通过用于噪声抑制的算法通常可能降低了所产生的输出信号的声音质量,其中,通过音频信号的信号处理尤其可能形成伪影(Artefakt),和/或听觉感觉通常感觉为不太自然。
在大多数情况下,在此根据特征参量实施噪声抑制,特征参量首先涉及噪声或总信号、即例如信噪比(“signal-to-noise-ratio”,SNR)、本底噪声水平(“noise floor”),或音频信号的电平。然而,用于控制噪声抑制的该方案最终可能导致,当虽然有明显的干扰噪声,但由于尽管存在干扰噪声却仍然很容易理解的语音分量,根本没有必要应用噪声抑制时,也应用噪声抑制。在该情况下,在没有真正必要的情况下,例如由于噪声抑制的伪影会承担声音质量恶化的风险。相反,在说话者的发音很弱的情况下,仅与小的噪声叠加的并且就此而言使相关的音频信号具有良好的SNR的语音信号也可以具有低的语音质量。
如果在听力设备中,依据要处理的音频信号中的语音信号分量的质量,在特殊情况下控制用于噪声抑制的算法,并且在一般情况下控制信号处理,那么可以避免这一点。然而为此需要完全可以对这种质量进行测量和采集。
发明内容
因此,本发明所要解决的技术问题在于,提供一种方法,借助该方法客观地评估要由听力设备处理的音频信号中的语音分量的质量。此外,本发明所要解决的技术问题在于,提供一种听力设备,该听力设备被设计用于针对内部的音频信号客观地评估包含在其中的语音分量的质量。
根据本发明,第一个提到的技术问题通过用于借助听力设备评估语音信号的语音质量的方法来解决,其中借助听力设备的声电输入转换器,从听力设备的周围环境接收包含语音信号的声音,并且将其转换为输入音频信号,其中,通过借助信号处理、尤其是听力设备的信号处理和/或可与听力设备连接的辅助设备对输入音频信号的分析,定量地采集语音信号的至少一种发音和/或韵律特性,并且其中,依据至少一种发音或韵律特性推导出语音质量的定量的量度。有利的和部分自身有创造性的设计方案是本发明和以下描述的主题。
根据本发明,第二个提到的技术问题通过听力设备来解决,该听力设备包括声电输入转换器和尤其是具有信号处理器的信号处理装置,其中,声电输入转换器被设计用于从听力设备的周围环境接收声音,并且将其转换为输入音频信号,并且其中,信号处理装置被设计用于通过对输入音频信号的分析定量地采集语音信号的包含在输入音频信号中的分量的至少一种发音和/或韵律特性,并且依据至少一种发音或韵律特性推导出语音质量的定量的量度。
根据本发明的听力设备具有根据本发明的方法的优点,该方法尤其可以借助根据本发明的听力设备实施。针对方法和其扩展方案以下提到的优点在此根据意义可以转用至听力设备。
声电输入转换器在此尤其包括以下任何转换器,其被设计用于从周围环境的声音产生电音频信号,从而由声音引起的空气运动和气压波动在转换器的位置处通过产生的音频信号中的电气参量、尤其是电压的相应的振荡来再现。尤其地,声电输入转换器可以通过麦克风提供。
尤其借助相应的信号处理装置进行信号处理,信号处理装置被设计用于借助至少一个信号处理器来实施设置用于信号处理的计算和/或算法。在此,信号处理装置尤其布置在听力设备上。然而,信号处理装置也可以布置在设计用于与听力设备连接用以交换数据的辅助设备、例如智能手机、智能手表等上。听力设备例如可以将输入音频信号传输到辅助设备,并且借助通过辅助设备提供的计算资源实施分析。最后,作为分析的结果,可以将定量的量度传输回听力设备。
分析在此可以直接在输入音频信号上实施,或根据由输入音频信号推导出的信号实施。这在此尤其可以由隔离的(isoliert)语音信号分量提供;但也可以由音频信号提供,如其例如可以在听力设备中通过反馈回路借助用于补偿声学反馈的补偿信号产生的等等;或者由根据另一输入转换器的另一输入音频信号产生的定向信号提供。
在此,语音信号的发音特性尤其包括共振峰、尤其是元音的精度,以及辅音、尤其是摩擦音和/或爆破音的支配度(Dominanz)。在此可以说明,共振峰的精度越高或辅音的支配度和/或精度越高,那么将语音质量设置得越高。语音信号的韵律特性尤其包括语音信号的基本频率的时间稳定性和重音的相对声音强度。
声音产生通常包括声源的三个物理组成部分:机械振荡器、例如弦或膜,其使振荡器周围的空气处于振动中;振荡器的激励(例如通过拨动或抚摸);和共振体。通过激励使振荡器处于振荡中,从而使振荡器周围的空气通过振荡器的振动而处于压力振动中,压力振动作为声波传播。在此,在机械振荡器中大多不仅激励单一频率的振动,而且激励不同频率的振动,其中,传播的振动的频谱组成确定声波图。特定的振动的频率在此通常提供为基本频率的整数倍,并且被称为该基本频率的“谐波”或泛音(Oberton)。然而,也可以构造更复杂的频谱模式,从而并非所有产生的频率都可以表示为相同的基本频率的谐波。在此,在共振空间中产生的频率的共振也与声波图有关,因为在共振空间中由振荡器产生的特定的频率通常相对于声音的主频率衰减。
在应用于人声时,这意味着机械振荡器通过声带及其在从肺部流过声带的空气中的激励提供,其中,共振空间主要由咽腔和口腔形成。男性声音的基本频率通常在60Hz到150Hz的范围内,女性通常在150Hz到300Hz的范围内。由于各个人之间的、不仅关于其声带,而且尤其关于咽腔和口腔的解剖差异,首先形成不同的发声。通过由相应的下颌和嘴唇运动来改变口腔的体积和几何形状,共振空间在此可以如下地改变,即形成表征产生元音的频率、所谓的共振峰。对于各个元音,这些共振峰处于不可改变的频率范围(所谓的“共振峰范围”)中,其中,通常通过一系列的通常为四个的共振峰的前两个共振峰F1和F2以已经可清晰听到的方式将元音与其他的声音区分开(参见“元音三角形”和“元音梯形”)。在此,与基本频率、即基本振动的频率无关地形成共振峰。
在该意义中,共振峰的精度尤其理解为声能在彼此界定的共振峰范围上、尤其是分别在共振峰范围内的各个频率上的集中程度,和各个元音根据共振峰的由此产生的可确定性。
为了产生辅音,流过声带的气流在至少一个部位上被部分或完全阻塞,由此此外也形成气流的湍流,因此,仅可以使一些辅音与和元音类似清晰的共振峰结构相关联,而其他的辅音具有较宽带的频率结构。然而,也可以使辅音与特定的频带相关联,在这些频带中,声能被集中。由于辅音的冲击性的“噪声性质”,这些频带通常高于元音的共振峰范围,即主要在大约2到8kHz的范围内,而元音的最重要的共振峰F1和F2的范围通常在大约1.5kHz(F1)或4kHz(F2)处结束。在此,辅音的精度尤其由声能在相应的频率范围上的集中程度和各个辅音的由此产生的可确定性来确定。
然而,语音信号的各个组成部分的可区分性和进而可能分辨这些组成部分的可能性不仅取决于发音方面。所述发音方面主要涉及语音、所谓的音素的最小的隔离的声音事件的声学精度,韵律方面也决定了语音质量,因为可以通过语调和重音,尤其在在几个片段、即几个音素或音素组上给一个说明赋予特别的意义,例如通过提高句子末尾的音高来澄清问题,或通过重读词语中的具体的音节来区分不同的含义(参见“umfahren”与“umfahren”)或重读一个词语来强调它。在这方面,通过例如确定声音的音调、即其基本频率的随时间的变化的量度,以及幅度最大值和/或电平最大值的对比的清晰度的量度,也可以根据韵律特性尤其如上面描述的那样定量地采集语音信号的语音质量。
因此,根据语音信号的一个或多个所提到的和/或另外的定量采集的发音和/或韵律特性可以推导出语音质量的定量的量度。
在此优选地,作为语音信号的发音特性,采集与语音信号中的元音的预设的共振峰的精度相关的特征参量;与语音信号中的辅音、尤其是摩擦音的支配度相关的特征参量;和/或与浊音和清音的转变的精度相关的特征参量。语音质量的定量的量度分别可以直接通过所提到的采集的特征参量提供,或根据所述特征参量形成,例如通过对不同的共振峰的两个特征参量进行加权等,或也通过所提到的特征参量中的至少两个不同的特征参量彼此的加权、即通过形成加权平均值来提供。语音质量的定量的量度与说话者的语音生成有关,该说话者在感觉为“干净的”发言中可能具有缺陷(例如口齿不清或含糊不清),甚至语音错误,这相应降低了语音质量。
与语音在环境中的传播相关的参量、例如以频带方式对各个语音分量和噪声分量进行加权的语音清晰度指数(“Speech Intellegibility Index”,SII),或借助模拟人类语音的调制的测试信号采集传输信道对调制深度的影响的语音传输指数(“SpeechTransmission Index”,STI)不同地,当前的量度在此尤其与传输信道的外部特性、例如可能有回响的空间或嘈杂的环境中的传播无关,而是优选仅与由说话者产生的语音的固有特性相关。
这尤其意味着,在安静的环境和/或仅具有低背景噪声的环境中,(基于参考值,该参考值优选确定用于感觉为“非常好的”语音质量)识别降低的语音质量。
在此有利地,为了采集与语音信号中的辅音的支配度相关的特征参量,计算包含在低的频率范围内的第一能量,计算包含在低的频率范围之上的更高的频率范围中的第二能量,并且根据第一能量和第二能量的比和/或在提到的频率范围的相应的带宽上加权的比来形成相关的特征参量。在此尤其地,可以预先使语音信号随时间平滑化。为了计算第一和第二能量,尤其可以例如借助滤波器组并且必要时借助各个产生的频带的相应的选择,将输入音频信号划分为低的和更高的频率范围。优选地,低的频率范围被选择为,使得其位于频率区间[0Hz,2.5kHz]内,特别优选位于频率区间[0Hz,2kHz]内。优选选择更高的频率范围,使得其位于频率区间[3kHz,10kHz]内,特别优选位于频率区间[4Hz,8kHz]内。
证实为进一步有利的是,为了采集与浊音和清音的转变的精度相关的特征参量,根据相关性测量和/或根据输入音频信号或由输入音频信号推导出的信号的过零率来区分浊音时间序列和清音时间序列,确定从浊音时间序列到清音时间序列或从清音时间序列到浊音时间序列的转变,针对至少一个频率范围确定在转变之前包含在浊音或清音时间序列中的能量,并且针对至少一个频率范围确定在转变之后包含在清音或浊音时间序列中的能量,并且根据转变之前的能量并且根据转变之后的能量确定特征参量。
这尤其意味着:首先确定输入音频信号中的语音信号的浊音和清音时间序列,并且由此识别从浊音到清音或从清音到浊音的转变。对于至少一个尤其根据经验知识针对转变的精度预设的频率范围,现在确定在输入音频信号或从其推导出的信号的频率范围中的在转变之前的能量。例如可以在转变的不久前通过浊音或清音时间序列获取该能量。例如通过转变之后的清音或浊音时间序列确定在转变之后的在相关的频率范围内的能量。
根据这两个能量,现在可以确定特征值,特征值尤其能够实现关于转变时的能量分配的变化的说明。该特征值例如可以确定为转变之前和之后的两个能量的商或相对偏差。但是,特征值也可以形成为转变之前或之后的能量与整个(宽带的)信号能量的比较。然而,尤其也可以针对另外的频率范围分别在转变之前和之后确定能量,从而可以附加地根据在另外的频带中的在转变之前和之后的能量确定特征值,例如作为在转变期间能量分配到参与的频率范围内的变化率(即在转变之前的在两个频率范围内的能量的分配与转变之后的分配的比较)。
根据所述特征值,然后可以确定语音质量的量度的与转变的精度相关的特征参量。为此可以直接使用所述特征值,或者所述特征值可以与预先针对良好的发音尤其根据相应的经验知识确定的参考值比较(例如作为商或相对偏差)。通常可以根据关于相应的频带或频带组的相应的有效性的经验结果实现具体的设计方案、尤其关于要使用的频率范围和边界值或参考值的具体的设计方案。作为至少一个频率范围,在此尤其可以使用Bark尺度的频带13至14、优选16至23。作为另外的频率范围,尤其可以使用更低的频率的频率范围。
优选地,为了采集与语音信号中的元音的预设的共振峰的精度相关的特征参量,将语音信号的集中在至少两个不同共振峰范围内的声能(或与所述能量相关的参量)相互比较。特别优选地,确定在频率空间中的至少一个共振峰范围内的语音信号的信号分量,针对至少一个共振峰范围内的语音信号的信号分量确定与电平相关的信号参量,并且根据与电平相关的信号参量的最大值和/或根据其时间稳定性确定特征参量。在此尤其地,作为至少一个共振峰范围可以选择第一共振峰F1(优选250Hz至1kHz、特别优选300Hz至750Hz)或第二共振峰F2(优选500Hz至3.5kHz、特别优选600Hz至2.5kHz)的频率范围,或选择第一和第二共振峰的两个共振峰范围。尤其也可以选择与不同的元音相关联的多个第一和/或第二共振峰范围(即与相应的元音的第一或第二共振峰相关联的频率范围)。现在针对一个或多个选择的共振峰范围确定信号分量,并且确定相应的信号分量的与电平相关的信号参量。在此,可以由电平本身或也通过必要时适当平滑化的最大的信号幅度提供信号参量。根据信号参量的时间稳定性(其又通过信号参量在适当的时间窗内的方差确定)和/或根据在适当的时间窗内信号参量与其最大值的偏差,现在可以做出关于共振峰的精度的说明,即小的方差和与发音的声音的最大电平的小的偏差(尤其可以依据发音的声音的长度选择时间窗的长度)代表高的精度。
有利地,以时间分辨的方式采集语音信号的基本频率,并且将表征基本频率的时间稳定性的特征参量确定为语音信号的韵律特性。例如可以根据基本频率的随时间累积的相对偏差,或者通过在预设的时间段内采集基本频率的多个最大值和最小值确定特征参量。基本频率的时间稳定性对于语音旋律和重读的单调性来说是尤为重要的,因此,定量的采集也允许说明语音信号的语音质量。
优选地,对于语音信号,尤其通过相应对输入音频信号或由此推导出的信号的分析,以时间分辨的方式采集与音量相关的参量、尤其是幅度和/或电平,其中,在预设的时间段内形成与音量相关的参量的最大值与所述参量的在预设的时间段内确定的平均值的商,并且其中,作为语音信号的韵律特性,依据所述商确定特征参量,商由在预设的时间段内的与音量相关的参量的最大值和平均值形成。以该方式,可以根据语音信号的间接采集的音量动态说明重读的定义。
在有利的设计方案中,根据对输入音频信号的分析确定至少两个分别表征发音和/或韵律特性的特征参量,其中,根据这些特征参量的乘积和/或根据这些特征参量的加权平均值和/或最大值或最小值来形成语音质量的定量的量度。当需要或期望语音质量的唯一的量度时,或当期望应该采集所有发音特性或所有韵律特性的唯一的量度时,这尤其是有利的。
优选地,在采集语音信号的至少一种发音和/或韵律特性之前探测语音活动,和/或确定输入音频信号中的SNR,其中,依据探测到的语音活动或确定的SNR实施关于语音信号的至少一种发音和/或韵律特性的分析。由此,对语音信号的语音质量的分析可以被限制到语音信号实际存在或SNR尤其高于预设的边界值的情况,从而可以假设,只有完全能够对输入音频信号中的语音信号的信号分量进行足够好的识别,才能进行相应的评估。相反,尽管在发音很弱的情况下和/或韵律特征、例如重音很小的情况下的较差的语音质量受益于借助信号处理的改进,但在常规的信号处理中,对于足够高的SNR,通常不采取措施来强调或以类似方式处理语音信号。
优选地,听力设备被设计为助听器。在此,助听器可以通过单耳装置或通过带有两个本地装置的双耳装置提供,本地装置由助听器的用户分别佩戴在其右耳或左耳上。除了所提到的输入转换器以外,助听器尤其还可以具有至少一个另外的声电输入转换器,其将周围环境的声音转换成相应的另外的输入音频信号,从而语音信号的至少一种发音和/或韵律特性的定量采集可以通过分析多个参与的输入音频信号来进行。在双耳装置的情况下,所使用的输入音频信号中的两个可以分别在助听器的不同的本地单元中(即分别在左耳和右耳上)产生。在此,信号处理装置尤其可以包括两个本地单元的信号处理器,其中优选地,根据所考虑的发音和/或韵律特性以适当的方式通过针对两个本地单元形成的平均值或者最大值或最小值,分别使语音质量的本地产生的量度标准化。
附图说明
随后根据附图详细阐述本发明的实施例。在此分别示意性地:
图1以电路图示出了助听器,其采集具有语音信号的声音;并且
图2以框图示出了用于确定根据图1的语音信号的定量的量度的方法。
彼此相应的部件和参量在所有附图中分别具有相同的附图标记。
具体实施方式
图1以电路图示意性示出了一种听力设备1,该听力设备当前被设计为助听器2。助听器2具有声电输入转换器4,该声电输入转换器被设计用于将助听器2的周围环境的声音6转换为输入音频信号8。具有另外的输入转换器(未示出)的助听器2的设计方案在此同样是可想到的,该另外的输入转换器从周围环境的声音6产生相应的另外的输入音频信号。助听器2当前被构造为单独的单耳装置。同样可想到的是,助听器2被设计为具有两个本地装置(未示出)的双耳助听器,本地装置由助听器2的用户分别佩戴在其右侧的和左侧的耳朵上。
将输入音频信号8输送至助听器2的信号处理装置10,在信号处理装置中,输入音频信号8尤其根据助听器2的用户的听力要求相应被处理,并且在此例如以频带方式被放大和/或压缩。为此尤其借助相应的信号处理器(在图1中未详细示出)和可通过信号处理器寻址的主存储器来设计信号处理装置10。输入音频信号8的可能的预处理、例如产生的输入音频信号8的A/D转换和/或预放大在此应该被视为输入转换器4的一部分。
信号处理装置10在此通过处理输入音频信号8产生输出音频信号12,输出音频信号借助电声输出转换器14转换为助听器2的输出声音信号16。在此优选通过麦克风提供输入转换器4,例如通过扬声器(例如平衡金属壳接收器,Balanced Metal Case Receiver)提供输出转换器14,但也可以由骨传导耳机等提供输出转换器14。
助听器2的周围环境的由输入转换器4采集的声音6此外包含未详细示出的扬声器的语音信号18和另外的声音分量20,另外的声音分量尤其可以包括指向的和/或扩散的干扰噪声(干扰声音或背景噪声),但也可以包含根据情况可以被视为有用信号的声音、例如音乐和与周围环境相关的声学的警告信号或指示信号。
输入音频信号8的在用于产生输出音频信号12的信号处理装置10中实现的信号处理尤其可以包括对信号分量的抑制,该信号分量抑制包含在声音6中的干扰噪声,和代表语音信号18的信号分量相对于代表另外的声音分量20的信号分量的相对提升。在此尤其也可以使用与频率相关的或宽带的动态压缩和/或放大以及噪声抑制算法。
为了可以在输出音频信号12中尽可能好地听到输入音频信号8中的代表语音信号18的信号分量,并且在输出声音16中仍然能够向助听器2的用户传达尽可能自然的听觉感觉,在信号处理装置10中应该确定语音信号18的语音质量的定量的量度,用以控制应用于输入音频信号8的算法。根据图2描述这一点。
图2以框图示出了对根据图2的助听器2的输入音频信号8的处理。首先,针对输入音频信号8实施语音活动VAD的识别。如果不存在值得注意的语音活动(路径“n”),那么根据第一算法25进行输入音频信号8的信号处理,用以产生输出音频信号12。第一算法25在此以提前预设的方式以宽带和/或尤其频带方式评估输入音频信号8的信号参数、例如电平、背景噪声、瞬态等,并且由此确定可应用于输入音频信号8的各个参数、例如频带方式的放大因子和/或压缩特征数据(即主要是拐点、比率、攻击、释放)。
第一算法25尤其也可以设置听力情况的在声音6中实现的归类,并且依据归类设置各个参数,必要时作为相应针对具体的听力情况设置的听力程序。此外,对于第一算法25也可以考虑助听器2的用户的个体的听力要求,以便能够通过将第一算法25应用于输入音频信号8来尽可能好地补偿用户的听力障碍。
然而,如果在识别语音活动VAD时确定值得注意的语音活动(路径“y”),那么接下来确定SNR,并且将其与预设的边界值ThSNR进行比较。如果SNR不高于边界值、即SNR≤ThSNR,那么第一算法25再次应用于输入音频信号8以产生输出音频信号12。然而,如果SNR高于预设的边界值ThSNR、即SNR>ThSNR,那么以如下描述的方式确定包含在输入音频信号8中的语音分量18的语音质量的定量的量度30,以用于输入音频信号8的进一步处理。为此,语音信号18的发音和/或韵律特性被定量地采集。包含在输入音频信号8中的语音信号分量26的术语在此理解为输入音频信号8的代表声音6的语音分量18的信号分量,从声音借助输入转换器4产生输入音频信号8。
为了确定所提到的定量的量度30,将输入音频信号8划分到各个信号路径中。
对于输入音频信号8的第一信号路径32,首先确定中心波长λC并将其与中心波长的预定边界值Thλ进行比较。如果根据中心波长的上述的边界值Thλ确定输入音频信号8中的信号分量是足够高频的,那么在第一信号路径32中,必要时在可适当选择的随时间的平滑化(未示出)之后,针对低的频率范围NF和位于低的频率范围NF之上的更高的频率范围HF选择信号分量。一个可能的划分例如可以是,低的频率范围NF包括所有以下频率:fN≤2500Hz,尤其fN≤2000Hz,并且更高的频率范围HF包括以下频率fH:2500Hz<fH≤10000Hz,尤其4000Hz≤fH≤8000Hz或2500Hz<fH≤5000Hz。
选择可以直接在输入音频信号8中实施,或也如下地实现,即输入音频信号8借助滤波器组(未示出)被划分为各个频带,其中,各个频带依据相应的带边界与低的或更高的频率范围NF或HF相关联。
随后,对于包含在低的频率范围NF中的信号确定第一能量E1,并且对于包含在更高的频率范围HF中的信号确定第二能量E2。现在由作为分子的第二能量和作为分母的第一能量E1形成商QE。在适当选择的更低和更高的频率范围LF、HF的情况下,商QE现在可以考虑作为特征参量33,该特征参量与语音信号18中的辅音的支配度相关。因此,特征参量33能够实现关于输入音频信号8中的语音信号分量26的发音特性的说明。例如,对于商的值QE>>1(即QE>ThQE,其中预设的未详细示出的边界值ThQE>>1)可以推导出辅音的高的支配度,而对于值QE<1,可以推导出低的支配度。
在第二信号路径34中,在输入音频信号8中,根据相关性测量和/或根据输入音频信号8的过零率,实施浊音时间序列V和清音时间序列UV的区分36。根据浊音和清音时间序列V或UV,确定从浊音时间序列V到清音时间序列UV的转变TS。浊音或清音时间序列的长度例如可以在10至80ms之间、尤其是在20至50ms之间。
现在对于至少一个频率范围(例如对特别有效的频带的适当确定的选择,例如Bark尺度的频带16至23,或Bark尺度的频带1至15),分别确定转变TS之前的浊音时间序列V的能量Ev和转变TS之后的清音时间序列UV的能量En。在此尤其地,对于一个以上的频率范围,也可以分别分开地确定转变TS之前和之后的相应的能量。现在例如通过相对变化ΔETS或通过转变TS之前和之后的能量Ev、En的商(未示出)来确定能量在转变TS时如何变化。
能量变化的量度,即当前的相对变化现在与针对转变时的能量分配的、预先针对良好的发音确定的边界值ThE比较。尤其地,特征参量35可以根据相对变化ΔETS与所述边界值ThE的比或者根据相对变化ΔETS与该边界值ThE的相对偏差来形成。所述特征参量35与语音信号18中的浊音和清音的转变的发音相关,并且因此能够实现关于输入音频信号8中的语音信号分量26的另外的发音特性的说明。在此通常适用的是以下说明,即在与浊音和清音相关的频率范围内,能量分配的变化越快地、即越在时间上可界定地发生,浊音和清音时间序列之间的转变就更精确地发音。
然而,对于特征参量35也可以例如通过相应的能量的商或可比较的特征值考虑将能量分配到两个频率范围内(例如根据Bark尺度的上述的频率范围,或在更低的和更高的频率范围NF、HF中),并且特征参量考虑在转变时商或特征值的变化。因此,例如可以确定商或特征参量的变化率,并且将其与变化率的提前适当确定的参考值比较。
为了形成特征参量35,也可以以类似的方式观察从清音时间序列的转变。通常可以根据关于相应的频带或频带组的相应的有效性的经验结果实现具体的设计方案、尤其关于要使用的频率范围和边界值或参考值的具体的设计方案。
在第三信号路径38中,在输入音频信号8中以时间分辨的方式采集语音信号分量26的基本频率fG,并且根据基本频率fG的方差为所述基本频率fG确定时间稳定性40。时间稳定性40可以用作特征参量41,其能够实现关于输入音频信号8中的语音信号分量26的韵律特性的说明。在此,基本频率fG的较大的方差可以考虑作为更好的语音清晰度的指标,而单调的基本频率fG具有更小的语音清晰度。
在第四信号路径42中,针对输入音频信号8和/或针对包含在其中的语音信号分量26以时间分辨的方式采集电平LVL,并且在尤其根据相应的经验知识预设的时间段44中形成时间平均值MNLVL。此外,在时间段44内确定电平LVL的最大值MXLVL。现在,将电平LVL的最大值MXLVL除以电平LVL的时间平均值MNLVL,并且因此确定与语音信号18的音量相关的特征参量45,该特征参量能够实现关于输入音频信号8中的语音信号分量26的韵律特性的进一步的说明。替代电平LVL地,在此也可以使用与语音信号分量26的音量和/或能量含量相关的另一参量。
在第一至第四信号路径32、34、38、42中如所描述的那样分别确定的特征参量33、35、41或45现在可以分别单独考虑作为包含在输入音频信号8中的语音分量18的质量的定量的量度30,依据该量度,现在将第二算法46应用于输入音频信号8以进行信号处理。在此,可以通过信号处理的一个或多个参数的、依据相关的定量的量度30实现的相应的变化,从第一算法25产生第二算法46,或者第二算法设置完全独立的听力程序。
尤其地,也可以根据如所描述的那样确定的特征参量33、35、41或45,例如通过特征参量33、35、41、45的乘积或加权平均值(在图2中通过合并特征参量33、35、41、45示意性示出)确定单独的值作为语音质量的定量的量度30。各个特征参量的加权在此尤其可以根据预先根据经验确定的加权因子进行,加权因子可以根据语音质量的由相应的特征参量采集的发音或韵律特性的有效性来确定。
虽然本发明在细节上通过优选的实施例详细说明和描述,但本发明并不局限于公开的示例,并且可以由本领域技术人员从中推导出其他的变型方案,而不会脱离本发明的保护范围。
附图标记列表
1 听力设备
2 助听器
4 输入转换器
6 周围环境的声音
8 输入音频信号
10 信号处理装置
12 输出音频信号
14 输出转换器
16 输出声音
18 语音信号
20 声音分量
25 第一算法
26 语音信号分量
30 语音质量的定量的量度
32 第一信号路径
33 特征参量
34 第二信号路径
35 特征参量
36 区分
38 第三信号路径
40 时间稳定性
41 特征参量
42 第四信号路径
44 时间段
45 特征参量
46 第二算法
ΔETS (转变时的能量的)相对变化
λC 中心波长
E1 第一能量
E2 第二能量
Ev (转变之前的)能量
En (转变之后的)能量
fG 基本频率
LVL 电平
HF 更高的频率范围
MNLVL (电平的)时间平均值
MXLVL 电平的最大值
NF 低的频率范围
QE 商
SNR 信噪比(SNR)
Thλ (中心波长的)边界值
ThE (能量的相对变化的)边界值
ThSNR (SNR的)边界值
TS 转变
V 浊音时间序列
VAD 语音活动的识别
UV 清音时间序列

Claims (11)

1.一种用于借助听力设备(1)评估语音信号(18)的语音质量的方法,
-其中借助所述听力设备(1)的声电输入转换器(4),从听力设备(1)的周围环境接收包含语音信号(18)的声音(6),并且将所述声音转换为输入音频信号(8),
-其中,通过借助信号处理对输入音频信号(8)的分析,定量地采集语音信号(18)的至少一种发音特性和/或韵律特性,并且
-其中,依据至少一种发音特性或韵律特性推导出语音质量的定量的量度(30)。
2.根据权利要求1所述的方法,其中,作为语音信号(18)的发音特性,采集
-与语音信号(18)中的元音的预设的共振峰的精度相关的特征参量,和/或
-与语音信号(18)中的辅音、尤其是摩擦音的支配度相关的特征参量(31),和/或
-与浊音和清音的转变的精度相关的特征参量(35)。
3.根据权利要求2所述的方法,其中,为了采集与所述语音信号(18)中的辅音的支配度相关的特征参量(33),
-计算包含在低的频率范围(NF)内的第一能量(E1),
-计算包含在低的频率范围(E2)之上的更高的频率范围(HF)中的第二能量(E2),
并且根据第一能量(E1)和第二能量(E2)的比(QE)和/或在提到的频率范围(NF、HF)的相应的带宽上加权的比来形成特征参量。
4.根据权利要求2或3所述的方法,其中,为了采集与浊音和清音的转变的精度相关的特征参量(35),
-根据相关性测量和/或根据过零率来区分(36)浊音时间序列(V)和清音时间序列(UV),
-确定从浊音时间序列(V)到清音时间序列(UV)或从清音时间序列(UV)到浊音时间序列(V)的转变(TS),
-针对至少一个频率范围确定在转变(TS)之前包含在浊音或清音时间序列(V、UV)中的能量(Ev),并且针对至少一个频率范围确定在转变(TS)之后包含在清音或浊音时间序列(UV、V)中的能量(En),并且
-根据转变(TS)之前的能量(Ev)并且根据转变(TS)之后的能量(En)确定特征参量(35)。
5.根据权利要求2至4中任一项所述的方法,其中,为了采集与语音信号(18)中的元音的预设的共振峰的精度相关的特征参量,
-确定在频率空间中的至少一个共振峰范围内的语音信号(18)的信号分量,
-针对至少一个共振峰范围内的语音信号(18)的信号分量确定与电平相关的信号参量,并且
-根据与电平相关的信号参量的最大值和/或时间稳定性确定特征参量。
6.根据前述权利要求中任一项所述的方法,
其中,以时间分辨的方式采集所述语音信号(18)的基本频率(fG),并且
其中,将表征基本频率(fG)的时间稳定性(40)的特征参量(41)确定为语音信号(18)的韵律特性。
7.根据前述权利要求中任一项所述的方法,
其中,对于语音信号(18),以时间分辨的方式采集与音量相关的参量(LVL),
其中,在预设的时间段(44)内,形成与音量相关的参量(LVL)的最大值(MXLVL)与所述参量(LVL)的在预设的时间段(44)内确定的平均值(MNLVL)的商,并且
其中,作为语音信号(18)的韵律特性,依据所述商确定特征参量(45),所述商由在预设的时间段(44)内的与音量相关的参量(VL)的最大值(MXLVL)和平均值(MNLVL)形成。
8.根据前述权利要求中任一项所述的方法,
其中,根据对输入音频信号(18)的分析确定至少两个分别表征发音特性和/或韵律特性的特征参量(33、35、41、45),并且
其中,根据这些特征参量(33、35、41、45)的乘积和/或根据这些特征参量(33、35、41、45)的加权平均值来形成语音质量的定量的量度(30)。
9.根据前述权利要求中任一项所述的方法,
其中,在采集所述语音信号的至少一种发音特性和/或韵律特性之前探测语音活动(VAD),和/或确定输入音频信号(18)中的信噪比(SNR),并且
其中,依据探测到的语音活动(VAD)或确定的信噪比(SNR)实施关于语音信号(18)的至少一种发音特性和/或韵律特性的分析。
10.一种听力设备(1),所述听力设备包括:
-声电输入转换器(4),所述声电输入转换器被设计用于从听力设备(1)的周围环境接收声音(6),并且将所述声音转换为输入音频信号(8),和
-信号处理装置(10),所述信号处理装置被设计用于根据对输入音频信号(8)的分析定量地采集语音信号(18)的包含在输入音频信号(8)中的分量的至少一种发音特性和/或韵律特性,并且依据至少一种发音特性或韵律特性推导出语音质量的定量的量度(30)。
11.根据权利要求10所述的听力设备(1),所述听力设备被设计为助听器(2)。
CN202110993782.3A 2020-08-28 2021-08-27 用于借助听力设备评估语音信号的语音质量的方法 Pending CN114121040A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE102020210919.2A DE102020210919A1 (de) 2020-08-28 2020-08-28 Verfahren zur Bewertung der Sprachqualität eines Sprachsignals mittels einer Hörvorrichtung
DE102020210919.2 2020-08-28

Publications (1)

Publication Number Publication Date
CN114121040A true CN114121040A (zh) 2022-03-01

Family

ID=77316824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110993782.3A Pending CN114121040A (zh) 2020-08-28 2021-08-27 用于借助听力设备评估语音信号的语音质量的方法

Country Status (3)

Country Link
EP (1) EP3962115A1 (zh)
CN (1) CN114121040A (zh)
DE (1) DE102020210919A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7165025B2 (en) * 2002-07-01 2007-01-16 Lucent Technologies Inc. Auditory-articulatory analysis for speech quality assessment
US20040167774A1 (en) * 2002-11-27 2004-08-26 University Of Florida Audio-based method, system, and apparatus for measurement of voice quality
EP3370440B1 (en) 2017-03-02 2019-11-27 GN Hearing A/S Hearing device, method and hearing system

Also Published As

Publication number Publication date
EP3962115A1 (de) 2022-03-02
DE102020210919A1 (de) 2022-03-03
US20220068294A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
JP5901971B2 (ja) 強化エンベロープ符号化音、音声処理装置およびシステム
Monson et al. Analysis of high-frequency energy in long-term average spectra of singing, speech, and voiceless fricatives
Steinmetzger et al. The role of periodicity in perceiving speech in quiet and in background noise
JP2017538146A (ja) インテリジェントな音声認識および処理のためのシステム、方法、およびデバイス
US9936308B2 (en) Hearing aid apparatus with fundamental frequency modification
Vandali et al. Development of a temporal fundamental frequency coding strategy for cochlear implants
KR101803306B1 (ko) 이어폰 착용상태 모니터링 장치 및 방법
Maruri et al. V-speech: Noise-robust speech capturing glasses using vibration sensors
Mcloughlin et al. Reconstruction of phonated speech from whispers using formant-derived plausible pitch modulation
CN102149038A (zh) 一种带有用于对输入和输出信号去相关的装置的助听器
WO2010011963A1 (en) Methods and systems for identifying speech sounds using multi-dimensional analysis
US7539614B2 (en) System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes
US11727949B2 (en) Methods and apparatus for reducing stuttering
Howard Peak‐picking fundamental period estimation for hearing prostheses
Cole et al. Application of noise reduction techniques for alaryngeal speech enhancement
EP2151820B1 (en) Method for bias compensation for cepstro-temporal smoothing of spectral filter gains
JP2006017946A (ja) 音声処理装置およびプログラム
Rahman et al. Amplitude variation of bone-conducted speech compared with air-conducted speech
Meltzner et al. Measuring the neck frequency response function of laryngectomy patients: Implications for the design of electrolarynx devices
CN114121040A (zh) 用于借助听力设备评估语音信号的语音质量的方法
CN110931037A (zh) 改进的Mel频率尺度与耳语音共振峰结合的耳语音增强算法
US12009005B2 (en) Method for rating the speech quality of a speech signal by way of a hearing device
Babacan et al. Parametric representation for singing voice synthesis: A comparative evaluation
US11967334B2 (en) Method for operating a hearing device based on a speech signal, and hearing device
Bapineedu et al. Analysis of Lombard speech using excitation source information.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination