CN113823319B - 改进的语音可懂度 - Google Patents

改进的语音可懂度 Download PDF

Info

Publication number
CN113823319B
CN113823319B CN202111256933.3A CN202111256933A CN113823319B CN 113823319 B CN113823319 B CN 113823319B CN 202111256933 A CN202111256933 A CN 202111256933A CN 113823319 B CN113823319 B CN 113823319B
Authority
CN
China
Prior art keywords
formant
speech
estimate
noise
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111256933.3A
Other languages
English (en)
Other versions
CN113823319A (zh
Inventor
阿德里安·丹尼尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Top Top Technology Hongkong Co ltd
Original Assignee
Top Top Technology Hongkong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Top Top Technology Hongkong Co ltd filed Critical Top Top Technology Hongkong Co ltd
Priority to CN202111256933.3A priority Critical patent/CN113823319B/zh
Publication of CN113823319A publication Critical patent/CN113823319A/zh
Application granted granted Critical
Publication of CN113823319B publication Critical patent/CN113823319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0016Codebook for LPC parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本文公开了一种包括处理器和存储器的装置。存储器包括从采样环境噪声计算噪声频谱估值的噪声频谱估计器,从输入语音计算语音频谱估值的语音频谱估计器,使用在语音频谱中检测的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器。存储器还包括共振峰升高估计器,其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选目标值。

Description

改进的语音可懂度
本申请是申请日为2016年6月13日、申请号为201610412732.0、名称为“改进的语音可懂度”的发明申请的分案申请。
技术领域
背景技术
在移动装置中,降噪技术大大改进音频质量。为改进在嘈杂环境中的语音可懂度,对于耳机,主动噪声消除(ANC)是有吸引力的提议并且ANC的确在某种程度改进在嘈杂环境中的音频再现。然而,当移动电话在没有ANC耳机的情况下使用时,ANC方法很少或没有益处。此外,ANC方法在可被消除的频率上受到限制。
然而,在嘈杂环境中,难以消除所有噪声分量。为了在存在噪声的情况下使语音信号更可懂,ANC方法不对语音信号进行操作。
语音可懂度可通过提升共振峰来改善。共振峰提升可使用大约表示,通过增加匹配共振峰的共振获得。接着共振可以出自线性预测编码(LPC)系数的参数形式获得。然而,共振意味着使用计算上昂贵的多项式求根算法。为降低计算复杂度,这些共振可通过线谱对表示法(LSP)来操控。增强共振主要在于使自回归传递函数的极点更接近单位圆移动。这种解决方案还遇到相互作用的问题,其中由于彼此接近的共振相互作用,所以它们难以单独操控。因此,需要可计算上昂贵的迭代方法。但是即使小心进行,增强共振使其带宽变窄,这产生人工发声的语音。
发明内容
提供此发明内容以简化形式介绍在下文的具体实施方式中另外描述的概念选择。该发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
本文中所描述的实施例解决在存在独立噪声源的情况下改进待再现的语音信号的可懂度的问题。举例来说,位于嘈杂环境中的用户正在通过电话收听对话者。在其中不可能对噪声操作情况下,语音信号可被改进以使其在存在噪声的情况下更可懂。
本文公开了一种包括处理器和存储器的装置。存储器包括从采样的环境噪声计算噪声频谱估值的噪声频谱估计器、从输入语音计算语音频谱估值的语音频谱估计器、使用在输入语音中所检测到的每个共振峰内的噪声频谱估值和语音频谱估值计算SNR估值的共振峰信噪比(SNR)估计器以及共振峰提升估计器,其计算一组增益因数并将该组增益因数应用到输入语音的每个频率分量,使得在每个共振峰内的所得SNR达到预选的目标值。
在一些实施例中,噪声频谱估计器被配置成通过使用通过采样环境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅度值求平均值计算噪声频谱估值。在一个例子中,语音频谱估计器被配置成使用低阶线性预测滤波器计算语音频谱估值。低阶线性预测滤波器可使用莱文森-德宾(Levinson-Durbin)算法。
在一个例子中,共振峰SNR估计器被配置成使用在中心定在共振峰中心频率上的关键波段上的语音与噪声频谱幅度估值平方的总和的比率计算共振峰SNR估值。关键波段是听觉滤波器的频率带宽。
在一些例子中,该组增益因数通过在输入语音中的每个共振峰分段乘以预选因数计算。
在一个实施例中,该装置还可包括输出限制混频器,以将通过共振峰提升估计器形成的滤波器的输出限制为预选的最大均方根水平或峰值水平。共振峰提升估计器产生过滤输入语音的滤波器,并且与输入语音组合的滤波器的输出穿过输出限制混频器。在语音输入中的每个共振峰通过共振峰分段模块检测,其中共振峰分段模块将语音频谱估值分割成多个共振峰。
在另一个实施例中,公开了一种用于执行改进语音可懂度的操作方法。此外,公开了一种对应的计算机程序产品。所述操作包括接收输入语音信号、接收采样环境噪声、从采样环境噪声计算噪声频谱估值、从输入语音计算语音频谱估值、从这些估值计算共振峰信噪比(SNR)、分割在语音频谱估值中的共振峰并基于计算的共振峰提升估值计算用于共振峰中的每个共振峰的共振峰提升因数。
在一些例子中,噪声频谱估值的计算包括通过使用通过采样环境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅度值求平均值。噪声频谱估值的计算还可包括使用低阶线性预测滤波器。低阶线性预测滤波器可使用莱文森-德宾算法。
附图说明
为了可详细地理解本发明的上述特征的方式,可通过参考实施例添加上文简要地概括的本发明的更特定描述,所述实施例中的一些实施例在附图中示出。然而,应注意,附图仅示出本发明的典型实施例,且因此不应被视为限制本发明的范围,因为本发明可准许其它同样有效的实施例。对于结合附图阅读本说明书的本领域的技术人员而言,所要求保护的主题的优点将变得显而易见,其中相同的附图标号已用于指代相同的元件,其中:
图1是根据本公开的一或多个实施例的装置的一部分的示意图;
图2是根据本公开的一或多个实施例的装置的存储器的一部分的逻辑描述;
图3描绘根据本公开的一或多个实施例的装置的各模块之间的相互作用;
图4示出了根据本公开的更多实施例中的一个实施例的共振峰分段模块的操作;以及
图5示出了根据本公开的更多实施例中的一个实施例的共振峰提升估算模块的操作。
具体实施方式
当用户在嘈杂场所中接收移动电话呼叫或收听从电子装置输出的声音时,语音变得不可懂。本公开的各种实施例通过改善语音可懂度和再现质量提高用户体验。本文中所描述的实施例可用于包括语音再现的移动装置和其它电子装置中,诸如包括声音方向的GPS接收器、收音机、音频书、播客等。
声道在被称作共振峰的语音信号-频谱峰值中的特定频率产生共振,其被听觉系统使用以在元音之间区分。然后,在可懂度中的重要因素是频谱对比:在频谱峰值和频谱谷值之间的能量差异。本文中所描述的实施例改进输入语音信号在噪声中的可懂度同时保持其自然度。在本文中所描述的方法仅适用于有声分段。背后的主要推理在于单独频谱峰值应以所解遮蔽特定水平而不是频谱谷值为目标。谷值可得到提升,因为解遮蔽增益被应用于其环绕峰值,但是所述方法不应尝试专门解遮蔽谷值(否则,共振峰结构可被破坏)。此外,不管噪声如何,本文中所描述的方法增加频谱对比,这已被证明改进可懂度。本文中所描述的实施例可用于静态模式而与噪声采样无任何相关性,以根据预定义提升策略改善频谱对比。另选地,噪声采样可用于改进语音可懂度。
本文所述的一或多个实施例提供低复杂度无失真的解决方案,其允许频谱解遮蔽在噪声中再现的有声语音分段。这些实施例适用于实时应用,诸如电话对话。
为解遮蔽关于噪声特性的在嘈杂环境中再现的语音,可使用时域或频域方法的任一个。时域方法遇到噪声的频谱特性的不良适应性。频域方法依赖于允许独立放大频率分量的的语音和噪声两者频域表示法,由此定向特定频谱信噪比(SNR)。然而,共同困难是语音频谱结构失真的风险-即,涉及获得允许小心操作此类修改的语音表示法的语音共振峰和计算复杂度。
图1是无线通信装置100的示意图。如上所述,本文中所描述的实施例的应用不限于无线通信装置。再现语音的任何装置可得益于由本文所述的一或多个实施例所产生的改进的语音可懂度。无线通信装置100仅作为例子使用。以免混淆本文中所描述的实施例,无线通信装置100的许多部件未示出。无线通信装置100可为移动电话或能够与另一个通信装置建立音频/视频通信链路的任何移动装置。无线通信装置100包括处理器102、存储器104、收发器114和天线112。应注意,如图所示的天线112仅为图示。天线112可为内部天线或外部天线且可为与所示不同的形状。此外,在一些实施例中,可存在多个天线。收发器114包括在单个半导体芯片中的发射器和接收器。在一些实施例中,发射器和接收器可彼此分开实现。处理器102包括合适的逻辑和编程指令(可存储在存储器104中和/或处理器102的内部存储器中)以处理通信信号并控制无线通信装置100的至少一些处理模块。处理器102被配置成读取/写入并操控存储器104的内容。无线通信装置100还包括一或多个麦克风108和(一或多个)扬声器和/或(一或多个)扩音器110。在一些实施例中,麦克风108和扩音器110可经由标准接口技术诸如蓝牙耦接至无线通信装置100的外部部件。
无线通信装置100还包括编解码器106。编解码器106包括音频解码器和音频编码器。音频解码器解码从收发器114的接收器接收到的信号并且音频编码器编码用于由收发器114的发射器发射的音频信号。在上行链路上,从麦克风108接收的音频信号由出话语音处理模块120处理用于音频改善。在下行链路上,从编解码器106接收到的解码的音频信号由来话语音处理模块122处理用于音频改善。在一些实施例中,编解码器106可为软件实现的编解码器并且可驻留在存储器104中并由处理器102执行。编解码器106可包括合适逻辑以处理音频信号。编解码器106可被配置成处理通常用于移动电话的在不同采样率的数字信号。来话语音处理模块122,(所述来话语音处理模块122的至少一部分可驻留在存储器104中),被配置成使用如在以下段落中描述的提升模式改善语音。在一些实施例中,在下行链路中的音频改善处理也可使用在本文的以下章节中描述的其它处理模块。
在一个实施例中,出话语音处理模块120使用降噪、回波消除和自动增益控制改善上行链路语音。在一些实施例中,噪声估值(如下所述)可以借助于降噪和回波消除算法获得。
图2为所述无线通信装置100的存储器104的一部分的逻辑描述。应注意,在图2所描绘的处理模块中的至少一些还可在硬件中实现。在一个实施例中,存储器104包括编程指令,当所述编程指令由处理器102实行时,形成噪声频谱估计器150以执行噪声频谱估计,语音频谱估计器158用于计算语音频谱估值,共振峰信噪比(SNR)估计器154用于形成SNR估值,共振峰分段模块156用于将语音频谱估值分割成共振峰(声道共振),共振峰提升估计器形成应用到输入语音的每个频率分量的一组增益因数,输出限制混频器118用于查找应用到输入信号和输出信号之间的差值的时变混合因数。
噪声频谱密度是每单位带宽的噪声功率;也就是说,噪声频谱密度是噪声的功率谱密度。噪声频谱估计器150通过使用平滑参数和过去频谱幅度值(举例来说,使用采样环境噪声的离散傅里叶变换获得的)求平均值产生噪声频谱估值。平滑参数可以是时变频率相关的。在一个例子中,在电话呼叫的情形中,近端语音不应是噪声估值的一部分,并因此所述平滑参数通过近端语音存在概率调节。
语音频谱估计器158借助于低阶线性预测滤波器(即,自回归模型)产生语音频谱估值。在一些实施例中,此类滤波器可以使用莱文森-德宾算法计算。然后通过计算该自回归滤波器的频率响应获得频谱估值。莱文森-德宾算法使用自相关法估计一段语音的线性预测参数。线性预测编码(也被称作线性预测分析(LPA))用于以相对较少的参数表示一段语音的波谱的形状。
共振峰SNR估计器154在语音波谱中检测的每个共振峰内产生SNR估值。为了这样做,共振峰SNR估计器154使用来自噪声频谱估计器150和语音频谱估计器158的语音和噪声频谱估值。在一个实施例中,与每个共振峰相关联的SNR被计算为在中心被定在共振峰中心频率上的关键波段上的语音与噪声频谱幅度估值平方的总和的比率。
在听力学和心理声学中,术语“关键波段”是指由在内耳内的耳蜗、听觉的感测器官所形成的“听觉滤波器”的频率带宽。关键波段大约是在该波段内通过听觉掩蔽第二音调将干扰第一音调的感知的音频频率的波段。滤波器是提升某些频率并衰减其它频率的装置。具体而言,带通滤波器允许在带宽内的频率范围穿过而阻止在截断频率之外的频率范围。术语“关键波段”在Moore B.C. J.的“听觉心理学的介绍(An Introduction to thePsychology of Hearing)”中论述,该文献以引用的方式并入本文中。
共振峰分段模块156将语音频谱估值分割为共振峰(例如,声道共振)。在一些实施例中,共振峰被定义为在两个局部最小值(谷值)之间的光谱范围,并因此该模块检测在语音频谱估值中的所有频谱谷值。每个共振峰的中心频率也通过此模块计算为在所述共振峰频谱范围(即,在两个周围的谷值之间)中的最大频谱幅值。然后该模块基于检测的共振峰分段归一化语音波谱。
共振峰提升估计器152产生应用在输入语音的每个频率分量的一组增益因数,以便在每个共振峰内的所得SNR(如上文所论述)达到特定目标或预选目标。这些增益因数通过每个共振峰分段乘以特定或预选因数获得,以确保达到在所述分段内的目标SNR。
输出限制混频器118查找应用到在输入信号和输出信号之间的差值的时变混合因数,以便在与输入信号混合时,最大允许动态范围或均方根(RMS)水平未超出。因此,当输入信号已达到所述最大动态范围RMS水平时,混合因数等于零并且输出等于输入。另一方面,在输出信号未超出最大动态范围或RMS水平时,混合因数等于1,并且输出信号不衰减。
将语音的每个频谱分量独立提升到特定频谱信噪比(SNR)的目标根据噪声引起成形语音。只要频率分辨率低(即,所述频率跨越超过单个语音频谱峰值),将峰值和谷值同样地处理为给定输出SNR的目标产生可接受的结果。然而,在更精细分辨率的情况下,输出语音可能是高度失真的。噪声可快速波动并且噪声估值可能是不完美的。此外,噪声和语音可能不来自相同的空间位置。因此,收听者可认知地区分语音和噪声。甚至在存在噪声的情况下,可察觉出语音失真,因为所述失真不被噪声完全遮蔽。
此类失真的一个例子是当噪声恰好在频谱语音谷值中存在时:对应于该谷值的所述频率分量的水平的直式调节增加它们的SNR将感知调低其周围的峰值(即,然后频谱对比度下降)。更合理的技术将是提升两个周围的峰值,因为噪声存在于峰值的附近。
共振峰提升通常使用适当的表示法,通过增加匹配共振峰的共振获得。共振可以出自LPC系数的参数形式获得。然而,这意味着使用计算上昂贵的多项式求根算法。应急措施通过线谱对表示法(LSP)操控这些共振。增强共振包括使自回归传递函数的极点移动成更接近单位圆。这种解决方案还遇到相互作用的问题,其中由于彼此接近的共振相互作用,所以它们难以单独操控。因此,解决方案需要计算上昂贵的迭代方法。增强共振还使它们的带宽变窄,这产生人工发声的语音。
图3描绘在装置100的各模块之间的相互作用。基于帧的处理方案同步用于噪声和语音两者。首先,在步骤202和208,计算采样环境噪声和语音输入帧的功率谱密度(PSD)。如上文所解释,目的中的一个是仅改进频谱峰值周围的SNR。换句话说,频率分量越接近去掩蔽的共振峰的峰值,对去掩蔽该共振峰的贡献应该越大。其结果是,在频谱谷值中的频率分量的贡献应该是极小的。在步骤210,执行共振峰分段的过程。应注意,采样环境噪声是环境噪声而不是输入语音中存在的噪声。
共振峰分段模块156专门将在步骤208计算的语音频谱估值分割成共振峰。在步骤204,连同在步骤202计算的噪声频谱估值,该分段用于计算一组SNR估值,一个SNR估值在每个共振峰区域中。该分段的另一个结果是匹配输入语音的共振峰结构的频谱提升模式。
在步骤206,基于该提升模式并且基于SNR估值,应用到每个共振峰的必要提升使用共振峰提升估计器152计算。在步骤212,可应用共振峰去掩蔽滤波器,并且可选地,步骤212的输出与输入语音混合以限制输出语音的动态范围和/或RMS水平。
在一个实施例中,低阶LPC分析,即,可采用自回归模型用于语音的频谱估算。高频共振峰的建模另外可以通过在LPC分析之前在输入语音上应用预加强改进。然后频谱估值以LPC系数的频率响应倒数获得。在下文中,假定频谱估值在对数域中,这避免幂升高运算符(power elevation operators)。
图4示出了共振峰分段模块156的运算。通过共振峰分段模块156执行的运算中的一个是将语音波谱分割成各共振峰。在一个实施例中,共振峰定义为在两个局部最小值之间的频谱分段。然后这些局部最小值的频率指数定义频谱谷值的位置。在频谱谷值未达到相同能级的意义上,语音自然是不均衡的。具体而言,在更多能量朝向低频率的情况下,语音通常是倾斜的。因此,为改进语音波谱分割成共振峰的过程,波谱可以可选地预先“被均衡”。在一个实施例中,在步骤302,该均衡通过使用倒谱低频滤波并从初始频谱减去平滑频谱计算频谱的平滑版本来执行。在步骤304和306,局部最小值通过区分(differentiating)均衡语音频谱检测,一旦检测到,则然后定位标志从负值改变为正值。区分(differentiating)长度n的信号X包括计算X的相邻元素之间的差值:[X(2)-X(1)X(3)-X(2)...X(n)-X(n-1)]。所定位的标志变化的频率分量被标记。在步骤308,分段线性信号由这些标记形成。均衡语音频谱包络的值被指派给所标记的频率分量,并且在两者之间的值以线性方式插入。在步骤310,在所有局部最小值等于0dB的情况下,从均衡语音频谱包络减去该分段线性信号以获得“归一化的”频谱包络。通常,负值设定成0dB。步骤310的输出信号构成共振峰提升模式,该共振峰提升模式被传送到共振峰提升估计器152上,而分段标记被传送到共振峰SNR估计模块156。
图5示出了共振峰提升估计器152的运算。共振峰提升估计器152计算应用到每个共振峰的整体提升量,并接着计算为了这样做应用到每个频率分量的必要增益。在步骤402,采用心理声学模型以单独确定每个共振峰的目标SNR。心理声学模型所需的能量估值通过共振峰SNR估计器154计算。心理声学模型从所述目标SNR扣除一组提升因数βi≥0。在步骤404,然后这些提升因数通过提升模式的分段ⅰ的每个采样乘以关联因数βi应用。举例来说,非常基本的心理声学模型将确保在应用提升因数之后,与每个共振峰关联的SNR达到特定的目标SNR。更高级的心理声学型号可以包括听觉掩蔽和语音感知的模型。步骤404的结果是第一增益频谱,在步骤406,所述第一增益频谱被平滑出以形成共振峰揭露滤波器408。然后输入语音通过共振峰去掩蔽滤波器408处理。
在一个例子中,为了示出确保与每个共振峰相关联的SNR达到某一的目标SNR的心理声学模型,提升因数可如下计算。本例子仅考虑在当前帧中检测的所有共振峰的单个共振峰。对于其它共振峰可重复相同过程。在所选的共振峰内的输入SNR可以表述为:
其中,SD分别是输入语音和噪声信号的幅值频谱(在线性单元中表示),并且指数K属于中心定在所述共振峰中心频率上的关键波段。A[k]是当前帧的提升模式,并且β是所考虑共振峰的寻求提升因数。然后当增益频谱在线性单元中表示时,将是A[k]β。在该增益频谱应用之后,与该共振峰相关联的输出SNR变为:
在一个实施例中,寻找β的一个简单方式是通过迭代,从0开始,以固定步长增加其值并在每个迭代计算ξout直到达到目标输出SNR。
均衡语音频谱使所有频谱谷值的能级更接近相同值。然后减去分段线性信号确保所有局部最小值,即,每个频谱谷值的“中心”等于0dB。这些0dB连接点提供在所述提升模式的各分段之间的必要一致性:将一组不等的提升因数应用到提升模式直到产生在各连续片段之间具有平滑过渡的增益频谱。所得的增益频谱观察事先陈述的期望特性:因为在归一化频谱中的局部最小值等于0dB,对应于频谱峰值的单独频率分量通过乘法运算提升,并且频谱值越大,所得频谱增益就越大。增益频谱本身确保去掩蔽共振峰中的每个(在心理声学模型中的极限),但是对于给定共振峰的必要提升可能是非常高的。因此,增益频谱可能是非常陡峭的并且输出语音是不自然的。后续的平滑运算将增益稍微展开成谷值以获得更自然的输出。
在一些应用中,输出动态范围和/或均方根(RMS)水平可被限制为例如在移动通信应用中。为解决该问题,输出限制混频器118提供限制输出动态范围和/或RMS水平的机制。在一些实施例中,由输出限制混频器118提供的RMS水平限制不基于信号衰减。
除非本文中另外指出或明显与内容相矛盾,否则在描述主题的情况下(尤其在以上权利要求书的情况下)使用术语“一(a/an)”和“所述”以及类似指示物应理解为涵盖单数和复数。除非本文中另有说明,否则本文中的值范围的叙述仅旨在充当单独地提及在所述范围内的每一个单独的值的速记方法,并且每一个单独的值并入本说明书中,如同在本文单独地叙述一般。此外,上述描述仅出于说明的目的,而不是出于限制的目的,因为寻求保护的范围由附属权利要求及其任何等效物来限定。本文所提供的任何和所有例子或示例性语言(例如,“诸如”)仅仅是旨在更好说明所述主题并不对所述主题的范围造成限制,除非另有要求。使用术语“基于”和其它类似短语指示在附属权利要求和书面描述中产生结果的条件,并不旨在排除产生该结果的其它条件。本说明书中的任何语言都不应理解为指示实施所要求保护的本发明所必需的任何不要求保护的元件。
本文中描述的本发明的优选实施例,包括本发明人已知的用于进行所要求保护的主题的最佳模式。当然,那些优选实施例的变型对于阅读上述描述的本领域普通技术人员将是显而易见的。本发明人期望熟练的业内人士适当时采用此类变型,并且本发明人旨在以不同于本文中特定描述的其它方式来实施本发明所要求保护的主题。因此,所要求保护的主题包括可适用法律所准许的在附属权利要求中叙述的主题的所有变化和等效物。此外,除非本文另外指示或以其他方式明确指出与内容相矛盾,否则本发明涵盖上述要素以其所有可能的变化形式的任何组合。

Claims (16)

1.一种用于执行改进语音可懂度的操作的方法,其特征在于,包括:
接收输入语音信号;
从采样环境噪声计算噪声频谱估值;
从所述输入语音信号计算语音频谱估值;
计算在所述计算的噪声频谱估值和所述语音频谱估值中的共振峰SNR估值;
分割在所述语音频谱估值中的共振峰;以及
基于计算的所述共振峰SNR估值计算用于所述共振峰中的每个共振峰的一组增益因数;
将所述一组增益因数应用到所述输入语音信号的每个频率分量,以使所述每个共振峰内的所得SNR估值达到预选的目标值;
所述计算所述语音频谱估值包括使用低阶线性预测滤波器计算所述语音频谱估值;
其中,所述分割在所述语音频谱估值中的共振峰包括:根据定位标志形成分段线性信号,在局部最小值等于0dB的情况下从均衡语音频谱包络减去所述分段线性信号,以获得归一化的频谱包络。
2.根据权利要求1所述的方法,其特征在于,所述噪声频谱估值通过使用通过采样环境噪声的离散傅里叶变换获得的平滑参数和过去频谱幅值求平均值的过程来计算。
3.根据权利要求2所述的方法,其特征在于,所述低阶线性预测滤波器使用莱文森-德宾算法。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算所述共振峰SNR估值包括使用中心定在共振峰中心频率上的关键波段上的语音与噪声的频谱幅度估值平方的总和的比率计算所述共振峰SNR估值,其中所述关键波段是听觉滤波器的频率带宽,所述关键波段是在所述频率带宽内通过听觉掩蔽第二音调将干扰第一音调的感知的音频频率的波段;
通过对所述均衡语音频谱进行区分来检测所述局部最小值,且所述定位标志从负值改变为正值,对长度为n的信号X进行区分包括计算所述信号X的相邻元素之间的差值,标记所述定位标志变化的频率分量,所述分段线性信号用于共振峰SNR估计。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述一组增益因数通过在所述输入语音信号中的每个共振峰分段乘以预选因数计算。
6.根据权利要求1至3中任一项所述的方法,其特征在于,过滤所述输入语音信号,并将过滤后的所述输入语音信号与所述输入语音信号混合以限制输出语音的动态范围和/或均方根水平。
7.根据权利要求6所述的方法,其特征在于,围绕所述输入语音的频谱峰值施加解遮蔽增益。
8.根据权利要求5所述的方法,其特征在于,将所述语音频谱估值分割成共振峰。
9.一种用于改进语音可懂度的装置,其特征在于,包括:
处理器;
存储器,其中,所述存储器包括:
噪声频谱估计器,其从采样环境噪声计算噪声频谱估值;
语音频谱估计器,其从输入语音信号计算语音频谱估值;
共振峰信噪比SNR估计器,其使用在所述输入语音信号中所检测的每个共振峰内的所述噪声频谱估值和语音频谱估值计算共振峰SNR估值;以及
共振峰提升估计器,其计算一组增益因数并将所述一组增益因数应用到所述输入语音信号的每个频率分量,使得在每个共振峰内的所得SNR达到预选的目标值;
所述语音频谱估计器被配置成使用低阶线性预测滤波器计算所述语音频谱估值;
其中,在所述输入语音信号中的所述每个共振峰通过共振峰分段模块检测,其中所述共振峰分段模块将所述语音频谱估值分割成共振峰,所述共振峰分段模块被配置为根据定位标志形成分段线性信号,在局部最小值等于0dB的情况下从均衡语音频谱包络减去所述分段线性信号,以获得归一化的频谱包络。
10.根据权利要求9所述的装置,其特征在于,所述噪声频谱估计器被配置成通过使用通过采样噪声的离散傅里叶变换获得的平滑参数和过去频谱幅值求平均值来计算噪声频谱估值。
11.根据权利要求9或10所述的装置,其特征在于,所述低阶线性预测滤波器使用莱文森-德宾算法。
12.根据权利要求9或10所述的装置,其特征在于,所述共振峰SNR估计器被配置成使用中心定在共振峰中心频率上的关键波段上的语音与噪声的频谱幅度估值平方的总和的比率计算所述共振峰SNR估值,其中所述关键波段是听觉滤波器的频率带宽,所述关键波段是在所述频率带宽内通过听觉掩蔽第二音调将干扰第一音调的感知的音频频率的波段;
所述共振峰分段模块被配置为通过对所述均衡语音频谱进行区分来检测所述局部最小值,且所述定位标志从负值改变为正值,对长度为n的信号X进行区分包括计算所述信号X的相邻元素之间的差值,标记所述定位标志变化的频率分量,所述分段线性信号传送至所述共振峰SNR估计模块。
13.根据权利要求9或10所述的装置,其特征在于,所述组增益因数通过在所述输入语音信号中的每个共振峰分段乘以预选因数计算。
14.根据权利要求9或10所述的装置,其特征在于,另外包括输出限制混频器,其中所述共振峰提升估计器产生滤波器以过滤所述输入语音信号并且与所述输入语音信号组合的所述滤波器的输出被传递通过所述输出限制混频器。
15.根据权利要求14所述的装置,其特征在于,另外包括共振峰解遮蔽滤波器,其过滤所述输入语音信号并向将所述共振峰解遮蔽滤波器的输出输入到所述输出限制混频器。
16.根据权利要求13所述的装置,其特征在于,在所述输入语音信号中的所述每个共振峰通过共振峰分段模块检测,其中所述共振峰分段模块将所述语音频谱估值分割成共振峰。
CN202111256933.3A 2015-06-17 2016-06-13 改进的语音可懂度 Active CN113823319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256933.3A CN113823319B (zh) 2015-06-17 2016-06-13 改进的语音可懂度

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP15290161.7 2015-06-17
EP15290161.7A EP3107097B1 (en) 2015-06-17 2015-06-17 Improved speech intelligilibility
CN201610412732.0A CN106257584B (zh) 2015-06-17 2016-06-13 改进的语音可懂度
CN202111256933.3A CN113823319B (zh) 2015-06-17 2016-06-13 改进的语音可懂度

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201610412732.0A Division CN106257584B (zh) 2015-06-17 2016-06-13 改进的语音可懂度

Publications (2)

Publication Number Publication Date
CN113823319A CN113823319A (zh) 2021-12-21
CN113823319B true CN113823319B (zh) 2024-01-19

Family

ID=53540698

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111256933.3A Active CN113823319B (zh) 2015-06-17 2016-06-13 改进的语音可懂度
CN201610412732.0A Active CN106257584B (zh) 2015-06-17 2016-06-13 改进的语音可懂度

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201610412732.0A Active CN106257584B (zh) 2015-06-17 2016-06-13 改进的语音可懂度

Country Status (3)

Country Link
US (1) US10043533B2 (zh)
EP (1) EP3107097B1 (zh)
CN (2) CN113823319B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
DE102018117556B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Einzelkanal-rauschreduzierung
US11594241B2 (en) * 2017-09-26 2023-02-28 Sony Europe B.V. Method and electronic device for formant attenuation/amplification
EP3474280B1 (en) * 2017-10-19 2021-07-07 Goodix Technology (HK) Company Limited Signal processor for speech signal enhancement
US11017798B2 (en) * 2017-12-29 2021-05-25 Harman Becker Automotive Systems Gmbh Dynamic noise suppression and operations for noisy speech signals
US10847173B2 (en) 2018-02-13 2020-11-24 Intel Corporation Selection between signal sources based upon calculated signal to noise ratio
US11227622B2 (en) * 2018-12-06 2022-01-18 Beijing Didi Infinity Technology And Development Co., Ltd. Speech communication system and method for improving speech intelligibility
CN111986686B (zh) * 2020-07-09 2023-01-03 厦门快商通科技股份有限公司 短时语音信噪比估算方法、装置、设备及存储介质
CN113241089B (zh) * 2021-04-16 2024-02-23 维沃移动通信有限公司 语音信号增强方法、装置及电子设备
CN113470691A (zh) * 2021-07-08 2021-10-01 浙江大华技术股份有限公司 一种语音信号的自动增益控制方法及其相关装置
CN116962123B (zh) * 2023-09-20 2023-11-24 大尧信息科技(湖南)有限公司 软件定义框架的升余弦成型滤波带宽估计方法与系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289614A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 音声強調装置
JP2005331783A (ja) * 2004-05-20 2005-12-02 Fujitsu Ltd 音声強調装置,音声強調方法および通信端末
CN201294092Y (zh) * 2008-11-18 2009-08-19 苏州大学 一种耳语音噪声消除器
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统
CN104246877A (zh) * 2012-04-23 2014-12-24 高通股份有限公司 用于音频信号处理的系统和方法
CN104704560A (zh) * 2012-09-04 2015-06-10 纽昂斯通讯公司 共振峰依赖的语音信号增强

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2056110C (en) * 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
WO1994018666A1 (en) * 1993-02-12 1994-08-18 British Telecommunications Public Limited Company Noise reduction
JP3321971B2 (ja) * 1994-03-10 2002-09-09 ソニー株式会社 音声信号処理方法
GB9714001D0 (en) 1997-07-02 1997-09-10 Simoco Europ Limited Method and apparatus for speech enhancement in a speech communication system
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
CA2354755A1 (en) 2001-08-07 2003-02-07 Dspfactory Ltd. Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank
US7177803B2 (en) * 2001-10-22 2007-02-13 Motorola, Inc. Method and apparatus for enhancing loudness of an audio signal
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8280730B2 (en) * 2005-05-25 2012-10-02 Motorola Mobility Llc Method and apparatus of increasing speech intelligibility in noisy environments
US8326614B2 (en) * 2005-09-02 2012-12-04 Qnx Software Systems Limited Speech enhancement system
US9336785B2 (en) * 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
US20110178799A1 (en) * 2008-07-25 2011-07-21 The Board Of Trustees Of The University Of Illinois Methods and systems for identifying speech sounds using multi-dimensional analysis
DE102009012166B4 (de) * 2009-03-06 2010-12-16 Siemens Medical Instruments Pte. Ltd. Hörvorrichtung und Verfahren zum Reduzieren eines Störgeräuschs für eine Hörvorrichtung
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
CN102456348B (zh) * 2010-10-25 2015-07-08 松下电器产业株式会社 声音补偿参数计算方法和设备、声音补偿系统
WO2013019562A2 (en) * 2011-07-29 2013-02-07 Dts Llc. Adaptive voice intelligibility processor
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
US9576590B2 (en) * 2012-02-24 2017-02-21 Nokia Technologies Oy Noise adaptive post filtering
WO2014021890A1 (en) * 2012-08-01 2014-02-06 Dolby Laboratories Licensing Corporation Percentile filtering of noise reduction gains
JP6263868B2 (ja) * 2013-06-17 2018-01-24 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data
US9875754B2 (en) * 2014-05-08 2018-01-23 Starkey Laboratories, Inc. Method and apparatus for pre-processing speech to maintain speech intelligibility

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004289614A (ja) * 2003-03-24 2004-10-14 Fujitsu Ltd 音声強調装置
JP2005331783A (ja) * 2004-05-20 2005-12-02 Fujitsu Ltd 音声強調装置,音声強調方法および通信端末
CN201294092Y (zh) * 2008-11-18 2009-08-19 苏州大学 一种耳语音噪声消除器
CN104246877A (zh) * 2012-04-23 2014-12-24 高通股份有限公司 用于音频信号处理的系统和方法
CN104704560A (zh) * 2012-09-04 2015-06-10 纽昂斯通讯公司 共振峰依赖的语音信号增强
CN103915103A (zh) * 2014-04-15 2014-07-09 成都凌天科创信息技术有限责任公司 语音质量增强系统

Also Published As

Publication number Publication date
CN113823319A (zh) 2021-12-21
CN106257584A (zh) 2016-12-28
CN106257584B (zh) 2021-11-05
US10043533B2 (en) 2018-08-07
EP3107097B1 (en) 2017-11-15
EP3107097A1 (en) 2016-12-21
US20160372133A1 (en) 2016-12-22

Similar Documents

Publication Publication Date Title
CN113823319B (zh) 改进的语音可懂度
JP6147744B2 (ja) 適応音声了解度処理システムおよび方法
CN111418010B (zh) 一种多麦克风降噪方法、装置及终端设备
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US8200499B2 (en) High-frequency bandwidth extension in the time domain
US8831936B2 (en) Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
EP2353159B1 (en) Audio source proximity estimation using sensor array for noise reduction
US9779721B2 (en) Speech processing using identified phoneme clases and ambient noise
EP0993670B1 (en) Method and apparatus for speech enhancement in a speech communication system
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
CN111554315B (zh) 单通道语音增强方法及装置、存储介质、终端
AU2011200494A1 (en) A speech intelligibility predictor and applications thereof
CN112424863A (zh) 语音感知音频系统及方法
US20080228473A1 (en) Method and apparatus for adjusting hearing intelligibility in mobile phones
US20160088407A1 (en) Method of signal processing in a hearing aid system and a hearing aid system
EP3757993B1 (en) Pre-processing for automatic speech recognition
US20060089836A1 (en) System and method of signal pre-conditioning with adaptive spectral tilt compensation for audio equalization
US20130054232A1 (en) Method, System and Computer Program Product for Attenuating Noise in Multiple Time Frames
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
CN109994104B (zh) 一种自适应通话音量控制方法及装置
EP2063420A1 (en) Method and assembly to enhance the intelligibility of speech
Tzur et al. Sound equalization in a noisy environment
Purushotham et al. Soft Audible Noise Masking in Single Channel Speech Enhancement for Mobile Phones
JP6160045B2 (ja) 調整装置および調整方法
Martin Noise Reduction for Hearing Aids

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant