CN102498482B - 用于自适应话音可懂度处理的系统 - Google Patents

用于自适应话音可懂度处理的系统 Download PDF

Info

Publication number
CN102498482B
CN102498482B CN200980161425.8A CN200980161425A CN102498482B CN 102498482 B CN102498482 B CN 102498482B CN 200980161425 A CN200980161425 A CN 200980161425A CN 102498482 B CN102498482 B CN 102498482B
Authority
CN
China
Prior art keywords
noise
signal
voice signal
controller
enhancing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200980161425.8A
Other languages
English (en)
Other versions
CN102498482A (zh
Inventor
杨钧
理查德·J·奥利弗
詹姆斯·特雷西
何星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of CN102498482A publication Critical patent/CN102498482A/zh
Application granted granted Critical
Publication of CN102498482B publication Critical patent/CN102498482B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

自适应音频系统可以在通信设备中实现。自适应音频系统可以增强由通信设备接收的音频信号中的话音,以提高话音的可懂度。音频系统可以至少部分地基于由通信设备接收的环境含量(例如,噪声)的级别来调整音频增强。例如,对于更高的环境含量级别,该音频系统可以更强地施加音频增强。此外,该自适应音频系统可以检测环境含量中的实质上周期性含量。自适应音频系统还可以响应于环境含量来调整音频增强。

Description

用于自适应话音可懂度处理的系统
背景技术
移动电话通常在包括高背景噪声的区域中使用。这种噪声通常具有使得来自移动电话扬声器的口头通信信息的可懂度的极大降低的级别。在大多数情况下,因为高环境噪声级别掩盖或扭曲了呼叫方的话音,所以当收听者收听时,丢失或至少部分地丢失了一些通信信息。
在存在高背景噪声的情况下,使可懂度的损失最小化的尝试已经包括:使用均衡器、限幅电路,或者简单地增大移动电话的音量。均衡器和限幅电路自身就可能增大背景噪声,因而不能解决该问题。增大移动电话的声音或扬声器音量的总级别,通常不能显著地提高可懂度,并且可能造成其它问题,比如反馈和收听者的不适感。
发明内容
在特定实施例中,一种用于自动调整施加至音频信号上的话音可懂度增强的系统,包括:增强模块,接收包括共振峰的输入话音信号,并且对所述输入话音信号施加音频增强,来提供增强话音信号。音频增强可以加强所述输入话音信号中的一个或多个共振峰。该系统还包括:增强控制器,具有一个或多个处理器。增强控制器可以至少部分地基于检测到的环境噪声量来调整由所述增强模块施加的音频增强的量。该系统还包括:输出增益控制器,可以至少部分地基于所述环境噪声的量和所述输入话音信号,来调整增强话音信号的总增益,以及向增强话音信号施加所述总增益,以产生放大话音信号。该系统还可以包括:失真控制模块,可以至少通过将所述放大话音信号的一个或多个采样映射到在正弦和表中存储的一个或多个值,来减小所述放大话音信号中的限幅。可以根据较低次正弦谐波之和来产生所述正弦和表。
在多种实施例中,调整话音可懂度增强的方法可以包括:接收话音信号和具有近端环境含量的输入信号,利用一个或多个处理器计算所述输入信号中的所述近端环境含量,利用所述一个或多个处理器,至少部分地基于所述近端环境含量来调整话音增强的级别,以及对所述话音信号施加所述话音增强,以产生增强话音信号。所述话音增强可以加强所述话音信号的一个或多个共振峰。
此外,在特定实施例中,用于自动地调整施加至音频信号上的话音可懂度增强的系统可以包括增强模块,所述增强模块可以接收包括共振峰的输入话音信号,以及对所述输入话音信号施加音频增强,以提供增强话音信号。所述音频增强可以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括增强控制器,所述增强控制器包括一个或多个处理器。所述增强控制器可以至少部分地基于检测到的环境噪声的量来调整由所述增强模块施加的音频增强的量。该系统还可以包括输出增益控制器,所述输出增益控制器可以至少部分地基于环境噪声的量和所述输入话音信号来调整增强话音信号的总增益,以及向所述增强话音信号施加所述总增益,以产生放大话音信号。
一种处理器可读存储介质,具有在其上存储的指令,所述指令使得一个或多个处理器执行调整话音可懂度增强的方法,所述方法可以包括:接收来自远程电话的话音信号和来自麦克风的噪声信号,计算所述噪声信号的值,至少部分地基于所述噪声信号的值来调整施加至所述话音信号的共振峰上的增益,以及对所述话音信号的共振峰施加所述增益。
在一些实现中,一种用于调整话音可懂度增强的噪声阈值的系统可以包括:话音增强模块,可以利用接收设备来接收来自远程设备的输入话音信号,以及对所述输入话音信号施加音频增强,以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括话音增强控制器,所述话音增强控制器具有一个或多个处理器。所述话音增强控制器可以至少部分地基于第一噪声阈值以上检测到的环境噪声量,来调整由所述增强模块施加的音频增强的量。该系统还可以包括噪声灵敏度控制器,所述噪声灵敏度控制器可以调整所述第一噪声阈值。所述噪声灵敏度控制器可以包括第一相关器、第一方差模块、第二相关器、第二方差模块和噪声灵敏度调节器,其中所述第一相关器可以根据从接收设备的麦克风接收的麦克风输入信号计算第一自相关值,所述第一方差模块可以计算第一自相关值的第一方差,所述第二相关器可以根据扬声器输入信号计算第二自相关值,其中扬声器输入信号包括话音增强模块的输出信号,所述第二方差模块可以计算第二自相关值的第二方差,所述噪声灵敏度调节器可以使用所述第一和第二自相关值以及第一和第二方差值中的一个或多个来调整第一噪声阈值,以产生第二噪声阈值。因此,在特定实施例中,话音增强控制器可以至少部分地基于第二噪声阈值以上检测到的环境噪声第二量,来调整施加至第二输入音频信号上的音频增强的量。
在特定实施例中,一种用于调整话音可懂度增强的灵敏度的系统包括:话音增强模块,可以利用接收设备接收由接收设备从远程设备处接收的输入话音信号,以及向所述输入话音信号施加音频增强,以加强所述输入话音信号中的一个或多个共振峰。该系统还可以包括增强控制器,所述增强控制器可以至少部分地基于所述输入话音信号中存在的环境噪声的量来调整由所述话音增强模块施加的所述音频增强的量。该系统还可以包括具有一个或多个处理器的噪声灵敏度控制器,所述噪声灵敏度控制器可以至少部分地基于麦克风输入信号和扬声器输入信号中的至少一个或二者的统计分析来调整所述增强控制器对环境噪声的灵敏度,其中麦克风输入信号从接收设备的麦克风获得,扬声器束信号作为话音增强模块的输出信号来提供。
在特定实施例中,一种用于调整话音增强的灵敏度的方法包括:接收输入音频信号;检测输入音频信号中的相关含量,其中检测包括使用一个或多个处理器来计算对所述输入音频信号的统计分析;以及响应于执行所述检测,调整施加至所述输入音频信号的增强级别。
此外,在多种实施例中,一种音频信号处理方法包括:接收麦克风输入信号;检测所述麦克风输入信号中的实质上周期性含量;以及利用一个或多个处理器,至少部分地基于在所述麦克风输入信号中检测到的实质上周期性含量来调整音频增强。所述音频增强可以至少部分地基于所述麦克风输入信号的级别来选择性地加强音频输出信号。所述方法还可以包括向扬声器提供所述音频输出信号。
为了概括本公开,本文已经描述了本发明的特定方面、优点和新颖特征。应该理解,根据本文公开的本发明的任何特定实施例,可能没有必要实现所有这些优点。因此,可以以下方式实现或执行本文公开的本发明:实现或优化本文教导的一个或一组优点,而没有必要实现可能由本文教导或建议的其它优点。
附图说明
贯穿附图,可以重复使用参考数字,以指示参考元件之间的对应性。提供附图来指示本文描述的本发明的实施例,而非限制其范围。
图1示出了用于实现话音增强系统的移动电话环境的实施例;
图2示出了图1的与增强系统的实施例;
图3示出了由话音增强系统使用的话音增强控制过程的实施例;
图4示出了由话音增强系统使用的输出音量控制过程的实施例;
图5A、5B、5C和6示出了由话音增强系统使用的噪声灵敏度控制过程的实施例;
图7示出了图1的系统的示例失真控制模块;
图8示出了正弦波的示例时域图示;
图9示出了图8的正弦波的示例频谱;
图10示出了限幅正弦波的示例时域图示;
图11示出了图10的限幅正弦波的示例频谱;
图12示出了与图11的限幅正弦波频谱相比谐波数目减少的示例频谱,;
图13示出了与图12的频谱相对应的部分饱和波的示例时域图示;
图14示出了正弦和映射函数的实施例;
图15示出了音频信号和该信号的失真控制版本的示例时域图示。
具体实施方式
I.介绍
移动电话以及其它类似尺寸的设备倾向具有小扬声器,其中在小扬声器生产时,其声音的音量就受到了限制。因此,在存在环境噪声的情况下,很难听到移动电话上的对话。
本公开描述了一种用于基于环境噪声、语音级别(speech level)、两者的结合等来调整话音可懂度处理的系统和方法。话音可懂度处理可以包括加强语音中共振峰的技术。例如,话音可懂度处理可以用于使移动电话对话等的语音清晰。话音可懂度处理可以适于至少部分地基于环境噪声增大或减小话音共振峰或其它声音特性。通过增强话音可懂度处理,可以加强讲话者语音中的共振峰,以使得收听者感觉到更清楚。然而,在存在相当大的环境噪声的情况下,加强语音中的共振峰可能使得语音听起来刺耳。因此,如果环境噪声减小,则可以降低话音可懂度处理的量,以避免语音中的刺耳声。
此外,还可以至少部分地基于噪声级别和/或话音级别,自适应地增大音频信号的总增益。然而,如果将音频信号的总增益增大到超出特定级别,则可能发生音频信号饱和,从而引起谐波失真。在特定实施例中,为了减少饱和的失真效应,可以使用失真控制处理。失真控制处理可以减少高增益情形期间发生的失真,同时允许发生一些失真,以保持或增大响度。在特定实施例中,可以通过将音频信号映射到输出信号来执行失真控制,其中与全饱和信号相比,该输出信号具有较少的谐波。
II.系统概要
图1示出了用于实现话音增强系统110的移动电话环境100的实施例。在示例移动电话环境100中,示出了呼叫方电话104和接收方电话108。呼叫方电话104和接收方电话108可以是移动电话、基于互联网协议的话音(VOIP)电话、智能电话、地面通信线电话等。呼叫方电话104可以被看作是位于移动电话环境100的远端,而接收方电话可以被看作是位于移动电话环境100的近端。当移动电话108的用户说话时,近端与远端可以颠倒。
在所描述的实施例中,呼叫方向呼叫方电话104提供话音输入102。呼叫方电话104中的发射机106向接收方电话108发送话音输入信号102。发射机106可以根据呼叫方电话104的类型无线地或通过地面通信线发送话音输入信号102。接收方电话108的话音增强系统110可以接收话音输入信号102。话音增强系统110可以包括用于提高话音输入信号102的可懂度的硬件和/或软件。例如,话音增强系统110可以利用话音增强来处理话音输入信号102,其中话音增强加强了口声的区别特性。
话音增强系统110还可以利用接收方电话108的麦克风来检测环境噪声112。环境噪声或含量112可以包括背景噪声或周围噪声(ambientnoise)。除了其普通含义之外,环境噪声或或含量还可以包括一些或全部近端噪音。例如,除了接收方电话108的麦克风接收到的背景声音之外,环境噪声或含量还包括来自扬声器输出114的回声。在一些情况下,环境噪声还可以包括来自接收方电话108的用户的话音输入,包括咳嗽、清嗓子以及双讲(double talk)(参见以下的“噪声灵敏度控制(NoiseSensitivity Control)”)。
有利地,在特定实施例中,话音增强系统110至少部分地基于环境噪声112的量来调整施加至话音输入信号102上的话音增强的强度。例如,如果环境噪声112增大,则话音增强系统110可以增大所施加的话音增强的量,反之亦然。因此,话音增强可以至少部分地跟踪检测到的环境噪声112的量。
此外,话音增强系统110可以至少部分地基于环境噪声112的量来增大施加至话音输入信号102上的总增益。然而,当存在较小的环境噪声112时,话音增强系统110可以减少所施加的话音增强和/或增益增大的量。这种减少有益于收听者,原因在于当存在低级别的背景噪声112时,话音增强和/或音量增大可能听起来刺耳或者讨厌。
因此,在特定实施例中,话音增强系统110将话音输入信号变换为增强的输出信号114,其中存在变化的环境噪声级别的情况下,所述增强的输出信号114对于收听者而言可能更好理解。在一些实施例中,还可以在呼叫方电话104中包括话音增强系统110。话音增强系统110可以至少部分地基于呼叫方电话104检测到的环境噪声的量,来对话音输入信号102施加增强。因此,可以在呼叫方电话104、接收方电话108,或者两者中使用话音增强系统110。
尽管示出的话音增强系统110是电话108的一部分,但是替换地,可以在任何通信设备或与电话通信的设备中实现话音增强系统110。例如,可以在与支持VOIP的电话进行通信或耦合的计算机、路由器、模拟电话适配器等中实现话音增强系统110。还可以在公共地址(“PA”)设备(包括因特网协议上的PA)、无线电收发机、助听设备(例如,助听器)、对讲电话以及其它音频系统中使用话音增强系统110。此外,可以在向一个或多个扬声器提供音频输出的任何基于处理器的系统中实现话音增强系统110。
图2示出了话音增强系统210的更详细的实施例。话音增强系统210可以具有话音增强系统110的全部特征。可以在以下设备中实现话音增强系统210:移动电话、峰窝电话、智能电话或包括任何上述设备的其它计算设备。有利地,在特定实施例中,话音增强系统210至少部分地基于检测到的环境噪声的量和/或话音信号的级别来调整话音可懂度处理和音量处理。
话音增强系统210包括话音增强模块220。话音增强模块220可以包括用于对话音输入信号202施加话音增强的硬件和/或软件。话音增强可以加强话音输入信号202中的口声的区别特性。在某些实施例中,这些区别特性包括在人(例如,使用电话的呼叫方)的声道中产生的共振峰。人类话音的可懂度可能很大程度上取决于共振峰的频率分布的图案。因此,话音增强模块220可以选择性地增强共振峰,以在存在背景噪声的情况下提供更容易理解的话音。
在特定实施例中,话音增强模块220利用1995年10月17日提交的发明名称为“公共地址可懂度系统”的美国专利NO.5459813(“813专利”)中描述的一些或全部特征来施加话音增强,其全部内容通过引用合并于此。尽管‘813专利在电路的上下文中描述了这些特征,但是话音增强模块220可以利用在诸如数字信号处理器(DSP)之类的处理器中执行的指令来实现这些特征的一部分或全部。此外,话音增强模块220还可以使用‘813专利中没有公开的话音增强技术。
话音增强模块220可以通过将话音输入信号202划分为频率子带来处理共振峰。话音增强模块220可以将话音输入信号202划分为两个或多个子带等等。话音增强模块220可以通过应用具有中心频率的带通滤波器来执行这种频率划分,其中,在所述中心频率处倾向于出现共振峰或者在所述中心频率附近倾向于出现共振峰。在实施例中,这种频率划分可以通过例如在‘813专利的第4列第50行至第5列第24行以及第7列中的第10行至32行中描述的频谱分析器42或124来完成,在此特别并入‘813专利的该部分以供参考。
话音增强模块220可以通过独立地放大子带中的共振峰,并且选择性地对其加权来施加话音增强。对共振峰加权可以使得特定共振峰被加强,从而提高可懂度。话音增强模块220可以将加权后的共振峰与基带话音分量相结合,以向(以下描述的)输出增益控制器230提供输出话音信号。话音增强模块220还可以增强其它的有声区别特性,比如爆破音和摩擦音。
例如,话音增强模块220还可以以与‘813专利的以下部分中描述的方式相同或类似的方式执行这些放大、加权和组合功能(或者其数字实现):第5列第1-7行;第5列第46行至第6列第19行;以及第9列第8行至39行。因此,特别并入‘813专利的这些部分以供参考。为了对可以如何数字地实现这些功能中的某些功能的示例进行举例说明,‘813专利描述了利用可变电阻来对特定子带中的信号加权(例如,参见第5列第66行至第6列第19行)。话音增强模块220可以通过将增益值存储在存储器中并利用处理器对信号施加该增益值,来数字地实现这些权重。
有利地,在特定实施例中,提供一种话音增强控制器222,该话音增强控制器可以控制话音增强模块220提供的话音增强的级别。话音增强控制器222可以包括硬件和/或软件。话音增强控制器222可以向话音增强模块220提供增强级别控制信号或值,该话音增强模块220增大或减小施加的话音增强的级别。在一个实施例中,增强级别控制信号调整子带的加权。例如,控制信号可以包括与一些或全部子带的输出(或输入)相乘的一个或多个增益值。同样地,控制信号可以用于加上或减去一些或全部子带的输入或输出。当环境噪声204增大和减小时,控制信号可以逐采样地进行调整。
在特定实施例中,在检测到环境噪声204的阈值能量之后,话音增强控制器222调整话音增强的级别。在阈值以上时,话音增强控制器222可以使得话音增强的级别跟随或实质上跟随环境噪声204的量。在一个实施例中,例如,所提供的噪声阈值以上的噪声增强的级别和噪声能量(或功率)与阈值的比例成比例。在备选实施例中,调整话音增强的级别,而不管存在的环境噪声的量,例如没有使用阈值。
所描述的话音增强系统210的实施例包括噪声灵敏度控制器224和额外增强控制226,所述额外增强控制226用于进一步调整由话音增强控制器222提供的控制量。噪声灵敏度控制器224可以向话音增强控制器222提供噪声灵敏度控制值,以调整话音增强控制器222对存在的噪声204量敏感的程度。如以下将更详细地描述的,噪声灵敏度控制器224可以影响噪声阈值,在该噪声阈值以下,话音增强控制器222不可以调整话音增强的级别。
在特定实施例中,噪声灵敏度控制器224至少部分地基于从麦克风和/或扬声器输入获得的音频采样自动地产生噪声灵敏度控制。有利地,在特定实施例中,噪声灵敏度控制器224可以自动地调整噪声灵敏度,以解决由麦克风获得的扬声器回声以及其它噪声伪迹。以下将参考图5和6更详细地描述这些特征。此外,在一些实施例中,噪声灵敏度控制器224提供用户接口,该用户接口允许用户调整噪声灵敏度控制。因此,噪声灵敏度控制器224可以提供对话音增强控制器222的自动和/或手动控制。
额外增强控制226可以向话音增强控制器222提供额外增强控制信号,该额外增强控制信号可以用作在其下增强级别不再下降的值。可以经由用户接口向用户显现额外增强控制226。该控制226还允许用户将增强级别增大到超出由话音增强控制器222确定的增强级别。在一个实施例中,话音增强控制器222可以将来自额外增强控制226的额外增强加到由话音增强控制器222确定的增强级别中。对于可能想要更强的话音增强处理或者想要频繁施加话音增强处理的听力受损者而言,额外增强控制226可能特别有用。
在特定实施例中,输出增益控制器230可以控制施加至话音增强模块220的输出信号上的总增益的量。可以以硬件和/或软件实现输出增益控制器230。输出增益控制器230至少部分地基于噪声输入204的级别和话音输入202的级别来调整施加至输出信号的增益。除了诸如电话的音量控制之类的任何用户设置的增益之外,可以施加这种增益。有利地,基于环境噪声204和/或话音输入202来调整音频信号的增益可能有助于收听者进一步感知话音输入信号202。
在所描述的实施例中,还示出了自适应级别控制232,其可以进一步调整由输出增益控制器230提供的增益量。用户接口还可以向用户显现自适应级别控制232。增大这种控制232可以在来电话音输入202级别下降或者当噪声输入204增大时使控制器230的增益增大得更多。减小这种控制232能够在来电话音输入202级别下降或者当噪声输入204下降时使控制器230的增益增大得更少。
在一些情况下,话音增强模块220、话音增强控制器222和/或输出增益控制器230施加的增益可以使得话音信号被限幅或饱和。饱和可能导致令收听者不愉快的谐波失真。因此,在特定实施例中,还提供了失真控制模块140。失真控制模块140可以接收输出增益控制器230的调整增益后的话音信号。失真控制模块140可以包括硬件和/或软件,在至少部分地保持或者甚至增大由话音增强模块220、话音增强控制器222和/或输出增益控制器230提供的信号能量的同时控制失真。
在特定实施例中,失真控制模块140通过将话音信号中的一个或多个采样映射到输出信号来控制话音信号中的失真,与全饱和信号相比,该输出信号具有较少的谐波。对于不饱和的采样,该映射可以线性地或近似线性地跟随话音信号。对于饱和的采样,该映射可以是施加控制失真上非线性变换。因此,在特定实施例中,与全饱和信号相比,失真控制模块140可以允许话音信号听起来更响亮,具有更少的失真。因此,在特定实施例中,失真控制模块140将代表物理话音信号的数据转换为代表了具有控制失真的另一物理话音信号的数据。
III.话音增强控制
图3示出了话音增强控制过程300的实施例。可以通过话音增强系统110或210来实现话音增强控制过程300。具体地,可以通过话音增强控制器222来实现话音增强控制过程300。有利地,在特定实施例中,话音增强控制过程300至少部分地基于环境噪声能量的级别来调整话音增强处理。
在方框302,通过诸如电话之类的通信设备接收环境噪声输入信号。该环境噪声输入信号可以通过通信设备的麦克风来检测。在判定框304,确定是否启用环境控制。如果不启用环境控制,则向方框306提供零值。在一个实施例中,可以由用户通过通信设备的用户接口启用或禁用环境控制。禁用环境控制可能使得话音增强控制过程基于噪声级别以外的因素(诸如上述额外控制级别)来调整话音增强处理。
在方框306,可以通过采用噪声信号的绝对值来计算环境噪声信号的能量,以及在方框308中,通过对噪声信号施加噪声平滑滤波器来计算环境噪声信号的能量。噪声平滑滤波器可以是一阶滤波器或者较高阶滤波器。例如,平滑滤波器可以是低通滤波器等。在一些实施例中,噪声平滑滤波器提供每采样的平均(例如,移动平均)噪声能量级别。在备选实施例中,计算噪声信号的功率,而非能量。
在方框310,可以向输出增益控制过程提供环境噪声信号的能量。以下参考图4描述示例输出增益控制过程。还可以向判定框312提供环境噪声能量,所述判定框312可以确定是否能量已经达到(例如,大于或者等于)噪声阈值。在一个实施例中,如下计算噪声阈值:
噪声阈值=1-(α噪声灵敏度控制)        (1)
其中,α是常量,其中噪声灵敏度控制可以是由图2的噪声灵敏度控制器224产生的值。噪声灵敏度控制可以影响话音增强控制器222对环境噪声输入302的灵敏度。噪声灵敏度控制可以基于多种因素而改变,从而使得噪声阈值改变(参见图5和6)。在实施例中,α和噪声灵敏度控制可以在范围[0,1]之间,或者可以具有在该示例范围之外的其它值。
在所描述的实施例中,如果噪声能量大于或等于阈值,则将噪声能量传送至乘法框314。否则,向乘法框314提供零控制级别。因为控制级别可以乘以以上参考图2描述的话音信号子带,所以零控制级别可能潜在地造成不向话音信号应用话音增强处理(例如,在以下的方框316处,没有提供额外处理)。
在乘法方框314,将判定方框312的输出与噪声阈值的的乘法逆元素(multiplicative inverse)相乘。备选地,判定框312的输出除以噪声阈值判定。乘法框314的输出可以是初步增强级别。因此,在特定实施例中,增强级别可以是噪声能量与噪声阈值的比值。
在框316,可以将以上参考图2描述的额外增强控制添加至初步增强控制级别中。额外增强控制可以在范围[0,1]之间,或者具有一些其它值。在判定框318,确定是否已经达到高控制级别。高控制级别可以是预定峰值或最大控制级别。如果已经达到了高控制级别,则在判定框318,将增强控制级别限制到高控制级别。否则,判定框318向判定方框320传递增强控制级别。
在判定框320,可以确定是否启用话音增强控制。如果否,则用户输入可以用于调整话音增强处理级别。可以经由用户接口等向用户显现用户输入。如果启用控制,则在方框322,可以将在方框302至318中计算的增强控制级别作为输出控制级别。
尽管在本示例中使用了噪声阈值,但是不需要在所有实施例中使用噪声阈值。在特定实施例中,可以基于任何噪声级别调整话音增强处理。然而,在一些情况下,使用阈值可能是有益的。例如,在低环境噪声的情况下,话音增强处理可能是刺耳或者令人不快的。因此,使用阈值来确定何时开启话音增强控制可以使得在存在更大噪声级别时使用话音增强处理。
IV.输出增益控制
图4示出了输出增益控制过程400的实施例。输出增益控制过程400可以通过话音增强系统110或210来实现。具体地,可以通过输出增益控制器230来实现输出增益控制过程400。有利地,在特定实施例中,输出增益控制过程400至少部分地基于环境噪声能量的级别以及话音输入级别来调整输出增益。
在框402,通过诸如电话之类的通信设备接收来自远程呼叫方的话音输入信号。在方框404和406,可以通过在方框404采用话音输入的绝对值来确定话音输入信号中的能量,以及通过在方框406应用话音平滑滤波器来计算话音输入信号中的能量。话音平滑滤波器可以是低通滤波器等,提供每采样(sample per sample basis)的平均(例如,移动平均)话音级别。
在框408,接收环境噪声能量。在上述音量控制过程300中计算该环境噪声能量。在判定框410,将话音平滑滤波器的输出与接收增益阈值相比较,以及将环境噪声能量与麦克风增益阈值相比较。接收增益阈值可以至少部分地取决于以上参考图2描述的自适应增益控制。麦克风增益阈值可以至少部分地基于以上参考图2描述的噪声灵敏度控制。
在一个实施例中,如下计算接收增益阈值:
接收增益阈值=0.5+(γ自适应增益控制)        (2)
其中,γ是范围在[0,1]之间的常量,以及自适应增益控制可以是与图2的自适应增益控制232相对应的值。同样,可以如下计算麦克风增益阈值:
麦克风增益阈值=1-(η*噪声灵敏度控制)    (3)
其中,η是范围在[0,1]之间的常量,以及噪声灵敏度控制是由上述噪声灵敏度控制器224产生的值。噪声灵敏度控制可以改变值(也参见图5和6),从而使得在一些实施例中麦克风增益阈值也改变。
在判定方框410,如果满足条件,则向乘法框412提供环境噪声能量。否则,可以向乘法框412提供低增益级别。低增益级别可以是最小增益级别等。例如,在环境噪声能量相对低并且话音输入相对高的情况下,可以使用低增益级别。在这些情况下,因为话音信号可能已经是相对容易理解的,所以可能期望进行细微的增益调整。
在乘法框412,将判定方框410的输出乘以麦克风增益阈值的乘法逆元素,以产生增益级别。备选地,判定框410的输出可以除以麦克风增益阈值。因此,增益级别可以是环境噪声能量与麦克风增益阈值的比值。在方框414,确定是否已经达到了高增益级别。如果没有达到高增益级别,则向输出增益平滑滤波器416传递乘法框412的输出。否则,向输出增益平滑滤波器提供高增益级别。高增益级别可以是最大增益级别等。
在方框416,向判定框414的输出施加输出增益平滑滤波器。输出增益平滑滤波器可以是低通滤波器等,对乘法方框412和/或判定方框414处计算的增益级别进行平均。该平滑滤波器可以减少增益级别的突然变化。在方框418处,将增益平滑滤波器的输出乘以输出增益控制,其中所述输出增益控制可以是用户设置的值。例如,可以经由用户接口向用户显现输出增益控制。在方框420,提供乘法方框418的输出作为输出增益级别。
V.噪声灵敏度控制
如上所述,可以自动地或者在用户控制之下改变由噪声灵敏度控制器224产生的噪声灵敏度控制。在特定实施例中,改变噪声灵敏度控制影响了话音增强控制器222和/或输出增益控制器230对噪声的灵敏度。在一个实施例中,增大噪声灵敏度控制使得话音增强控制器222通过极大地增强话音的可懂度来极大地响应环境噪声,反之亦然。类似地,增大噪声灵敏度控制可以使得输出增益控制器230极大地增大施加至增强音频信号的输出增益,反之亦然。
在若干情况下,自动地减小话音增强控制器222和/或输出增益控制器230的灵敏度可能是有益的。例如,如果图1的接收电话108仅接收噪声,而不会接收来自呼叫方电话104的话音信号(例如,由于对话暂停),则施加话音增强可能增大噪声的响度。此外,当接收电话108的麦克风获得来自电话108的扬声器输出114的话音信号时,可能发生令人不快的效果。这种扬声器反馈可以被话音增强控制器222解释为环境噪声,这可以使得话音增强对扬声器反馈进行调制。得到的调制后的输出信号114可能是令收听者不愉快的。当收听者与接收方电话108通话的同时接收方电话108输出从呼叫方电话104接收到的话音信号时,可能发生类似的问题。接收电话108的麦克风可以检测到双讲,并且话音增强控制器222可以使得话音增强调制该双讲,从而导致令人不快的声音。
在特定实施例中,噪声灵敏度控制器224可以通过自动调整话音增强控制器222和/或输出增益控制器230对噪声的灵敏度来克服这些和其它问题。备选地,噪声灵敏度控制器224可以触发(例如,开启或关闭)话音增强控制器222和/或输出增益控制器230。参考图5A、5B和5C,示出了更详细的噪声灵敏度控制器524a、524b和524c的实施例。图5A的噪声灵敏度控制器524a可以调整控制器222、230的噪声灵敏度或者触发控制器222、230,以说明接收电话108只接收噪声而不接收来自远端(例如,来自呼叫方电话104)的话音信号的情形。图5B的噪声灵敏度控制器524a可以调整控制器222、230的噪声灵敏度或者触发控制器222、230,以说明扬声器反馈和/或双讲的情形。图5C的噪声灵敏度控制器524c结合了图5A和5B所示的控制器524a、524b的特征。
在图5A中,噪声灵敏度控制器524a接收扬声器输入502a。扬声器输入502a可以包括在缓冲器等中存储的一个或多个输出采样,其中所述一个或多个输出采样还被提供至诸如电话108之类的通信设备的扬声器。扬声器输入502a可以是上述话音增强系统210的输出信号250。向相关器530a提供扬声器输入502a,其中相关器530a可以计算或估计扬声器输入502a的自相关。在实施例中,相关器530a计算扬声器输入502a中的一组采样的自相关。
话音信号倾向于是周期性的或者实质上周期性的。因此,如果扬声器输入502a包括话音信号,则由于自相关的性质,扬声器输入502a的自相关函数也可能是周期性的或实质上周期性的。另一方面,噪声信号通常是不相关的,并且不是周期性的(以下描述一些异常)。对周期性的或实质上周期性的信号的自相关进行评估可能导致比很多噪声信号的自相关要大的值。
向灵敏度调节器550a提供由相关器530a所计算得的自相关。在一个实施例中,如果自相关较小或低于阈值,则扬声器输入502a极可能是噪声。因此,灵敏度调节器550a可以减小与以上等式(1)和(3)的噪声灵敏度控制相对应的噪声灵敏度控制504a。因此,噪声灵敏度控制504a可以调整话音增强控制器222使用的噪声阈值和/或输出增益控制器230使用的麦克风增益阈值。因此,话音增强控制器222和/或输出增益控制器230可以不太积极响应环境噪声。如果自相关较大的或者大于阈值(表示扬声器输入502a可能包括话音),则灵敏度调节器550a可以增大噪声灵敏度控制504a。因此,话音增强控制器222和/或输出增益控制器230可以积极地响应环境噪声。
在特定实施例中,灵敏度调节器550a提供的灵敏度调整量可以与自相关的级别相对应。例如,自相关越低,灵敏度调节器550a就可以使噪声灵敏度控制504a越小,反之亦然。
在所描述的实施例中,相关器530a还向可选的方差模块540a提供自相关值。方差模块540a可以计算或估计一组自相关值的方差。方差模块540a可以向灵敏度调节器550a提供得到的方差值,灵敏度调节器550a可以使用该方差值,以细化对噪声灵敏度控制504a的调整。较大的方差值可以反映话音信号的存在,而较小的方差值则可以反映主要噪声的存在。因此,灵敏度调节器550a可以包括逻辑,以当自相关和方差值都较大时增大噪声灵敏度控制504a,以及当自相关和方差值中的一个值为小或者两个都较小时减小噪声灵敏度控制504b。
可以提供用于所示示例噪声灵敏度控制器524a的多种备选配置。例如,可以省略方差模块540a。备选地,相关器530a可以仅向方差模块提供值,以及灵敏度调节器550a可以只基于方差值来调整噪声灵敏度控制504a。此外,相关器530a可以使用其它统计措施来分析扬声器输入502a。例如,相关器530a可以使用任何归一化的无偏估计器。在一个实施例中,相关器530a通过一组采样的总功率或能量来归一化所述相关。通过功率来归一化所述相关可以使得灵敏度调节器550a基于输入信号502a的特性而非基于输入信号502a的功率方差来调整噪声灵敏度控制504a。
参考图5B,示例噪声灵敏度控制器524b包括图5A的特征中的大多数特征。然而,噪声灵敏度控制器524b接收麦克风(“mic”)输入502b,而非扬声器输入502a,其中麦克风输入520b可以包括由麦克风接收的一组采样。对麦克风输入502b应用以上描述的相关和/或方差技术可以允许噪声灵敏度控制器524b在存在扬声器反馈和/或双讲的情况下改善话音可懂度处理。
向能够提供相同上述自相关特征的相关器530b提供麦克风输入502b。在扬声器反馈或双讲的情况下,麦克风输入502b可以包括周期性的或实质上周期性的信息。因此,自相关函数可以是周期性的或实质上周期性的,以及相关器530b计算的自相关值可以大于许多形式的噪声的自相关。
如前,相关器530b可以向灵敏度调节器550b提供自相关值。如果自相关值较大或大于阈值,则灵敏度调节器550b可以减小噪声灵敏度控制504b,以减小由扬声器反馈和/或双讲造成的话音增强调制。类似地,如果自相关值较小或者小于阈值,则灵敏度调节器550b可以增大噪声灵敏度控制504b。如上,灵敏度调节器550b可以至少部分地基于自相关的级别来调整噪声灵敏度控制504b的量。
相关器530b还向可选的方差模块540b提供自相关值。方差模块540b可以计算一组自相关值的方差或方差的近似值。方差模块540b可以向灵敏度调节器550b提供得到的方差值,灵敏度调节器550b可以使用该方差值来细化对噪声灵敏度控制504b的调整。较大的方差值可以反映话音反馈和/或双讲的存在,而较小的方差值可以主要反映噪声的存在。因此,当方差较大时,灵敏度调节器550b还可以减小噪声灵敏度控制504b,反之亦然。
有益地,方差模块540b可以解决具有谐波分量的某些噪声信号。一些噪声信号,比如由汽车和飞机产生的这些噪声信号,具有低频谐波含量,其可以导致较高的相关值。然而,与针对话音信号的方差值相比,这些噪声信号的自相关可以具有较低的方差值。因此,灵敏度调节器550b可以包括逻辑,以当自相关和方差值都较大时减小噪声灵敏度控制504b,以及当自相关和方差值中的一个值或者两个值都较小时,增大噪声灵敏度控制504b。
在多种实施例中,以上参考噪声灵敏度控制器524a描述的备选配置还可以用于修改噪声灵敏度控制器524b。此外,在备选实施例中,可以使用声学回声消除器来替代相关器530b、方差模块540b和/或灵敏度调节器550b(或者除了相关器530b、方差模块540b和/或灵敏度调节器550b以外还可以使用声学回声消除器)。声学回声消除器可以在麦克风输入502b处减少或消除从扬声器接收到的回声。例如,可以采用实现了1993年3月的ITU-T建议G.167中描述的特征的声学回声消除器,因而并入其全部作为参考。然而,有利地,在某些实施例中,可以利用比声学回声消除器要少的处理资源来实现本文描述的相关和/或方差特征。
参考图5C,噪声灵敏度控制器524c组合了噪声灵敏度控制器524a和524b的特征。特别地,噪声灵敏度控制器524c接收麦克风输入502b和扬声器输入504a。向相关器530a提供扬声器输入502a,相关器530a向灵敏度调节器550c以及方差模块540a提供自相关值,方差模块540a向灵敏度调节器550c提供方差值。向相关器530a提供麦克风输入502b,相关器530b向灵敏度调节器550c以及方差模块540b提供自相关值,方差模块540b向灵敏度调节器550c提供方差值。
灵敏度调节器550c可以包括逻辑,以至少部分地基于从以下部件中的任何一个部件接收的信息来调整噪声灵敏度控制504c:部件530a、530b、540a和540b。在特定实施例中,灵敏度调节器550c执行软判定,以调整噪声灵敏度控制504c。在图6中描述了可以由灵敏度调节器550c执行的过程600的一个示例。在过程600的判定框602,确定是否麦克风方差值大于阈值。麦克风方差值可以由方差模块540b来计算。如果麦克风输入502b的自相关的方差大于阈值,则可能由于语音反馈或双讲而存在周期性的或实质上周期性的信号。因此,在方框604,灵敏度调节器550c至少部分地基于来自相关器530b的相关值来减小噪声灵敏度控制,其中相关值越大,潜在地导致更大的减小。
如果麦克风方差小于阈值,则在判定框606处确定是否扬声器方差小于阈值。方差模块540a可以根据扬声器输入502a的自相关来计算扬声器方差值。如果扬声器方差大于等于阈值,则在扬声器输入信号502a中可能存在语音信号。因此,在方框608处,灵敏度调节器550c将噪声灵敏度控制设置为缺省级别。
如果扬声器方差小于阈值,则在扬声器输入502a中可能存在噪声。因此,灵敏度调节器550c至少部分地基于来自相关器530a的相关值来减小噪声灵敏度控制,其中相关值越小,潜在地导致更大的减小。
过程600示出了灵敏度调节器550c的一个示例实现方式。在其它实施例中,可以向过程600中描述的阈值之一或两个阈值提供滞后量。在其它实施例中,在方框604中,将噪声灵敏度控制设置为不直接取决于相关值的特定较小值。同样地,在方框610中,可以将噪声灵敏度控制设置为不取决于相关值的值。此外,可以使用自相关和方差以外的其它统计措施来调整噪声灵敏度,包括标准偏差、高阶矩、声学回声消除等。多种其它配置也是可能的。
更一般地,以上描述的任何噪声灵敏度控制器可以被看作是话音、对话或语音分类器,其检测输入音频信号中的一个或多个声音、对话或语音分量,和/或对输入音频信号中的一个或多个声音、对话或语音分量进行分类。噪声灵敏度控制器还可以被看作是话音检测器或普通信号分类器。噪声灵敏度控制器至少部分地通过使用一个或多个处理器来执行话音或信号分类或检测,以分析输入音频信号的一个或多个统计特征。自相关和方差、声学回声消除及估计器仅是噪声灵敏度控制器可以采用的技术的示例。包括其它统计技术的其它技术可以用于检测输入信号的话音或其它分量。
此外,话音反馈和双讲也仅是可以检测的声音分量的示例。以上参考图5和6描述的噪声灵敏度控制器的特征可以用于检测音频信号中的其它话音分量,包括任何媒体内容(比如,电视、无线电、音乐和其它内容)中的话音。例如,控制器可以使用媒体内容中的音频的自相关来检测媒体内容中的话音分量。在一个实施例中,控制器可以向对话增强提供检测到的话音分量,以增大或减小所施加的对话增强的量,从而使能该对话增强更有效地增强对话。
VI.失真控制
话音增强控制器222和/或输出增益控制器230可以增大施加至话音信号的一个或多个增益。在一些情况下,使增益增大以超过特定点可以导致信号饱和,这可以造成失真。有利地,在特定实施例中,以上描述的失真控制模块240可以提供控制失真,从而提供较大的响度。
图7示出了更详细的失真控制模块740的实施例,其可以具有以上描述的失真控制模块140的所有特征。可以以硬件和/或软件实现失真控制模块740。在特定实施例中,失真控制模块740可以导致音频信号中的选定失真,以增大信号能量,并从而增大响度。该选定失真可以是控制失真,其增加了比全饱和信号中存在的谐波要少的谐波。
如上所述,失真控制模块740可以至少部分地通过将输入采样映射成输出采样来导致选定失真。失真控制模块740可以通过将输入信号702的采样用作进入正弦和(sum-of-sines)表714或表的索引来执行这种映射。正弦和表714可以包括:将谐波相关的正弦波求和来产生的值。
举例说明,如果输入信号702具有值为m的采样,则失真控制模块740可以将输入采样映射到正弦和表714中索引m处的输出采样。如果输入信号702的采样落在表714的索引值之间,则失真控制模块740可以对索引值进行内插。使用内插可以允许减小正弦和表714的大小,以节约存储器。然而,在特定实施例中,正弦和表714可以被设计为足够大,以避免使用内插。失真控制模块740可以使用正弦和表714中映射后的输出值作为针对输出信号722的输出采样。
正弦和表714可以被实现为任何数据结构,比如数组、矩阵等。产生表714,以包括任意数目的谐波正弦波,该任意数目的谐波正弦波包括奇次谐波、偶次谐波或其结合。在特定实施例中,奇次谐波可以提供针对话音音频信号的良好失真控制。偶次谐波可以在其它实现方式中使用,并且有利于减少音乐信号中的限幅。奇次谐波或偶次谐波可以用于混合的话音和音乐信号。然而,这仅是说明性示例,以及奇次谐波或偶次谐波或者两者可以用于任何应用中。
当使用更多正弦波来产生表714时,信号能量和失真方面的潜在增大就越大,反之亦然。因为使用大量的正弦波可以导致显著的谐波失真,所以在特定实施例中,有益地,使用相对小数目的低频正弦波来构建正弦和表714。
例如,可以根据两个或三个谐波相关正弦波、四个正弦波、五个正弦波、或者更多正弦波之和来构建表714。可以在存储器中存储多个正弦和表714,并且可以基于不同的目的而由失真控制模块740使用。例如,具有多个谐波的正弦和表714可以用于话音信号,而具有较少谐波的表714可以用于音乐,以构建较少的失真。
失真控制模块740还可以提供用户接口,该用户接口向用户提供失真控制,以调整信号能量增大和/或失真的量。例如,可以提供图形化游标、钮等,或者用户能够按压物理或软按钮来调整所施加的能量增大或失真的量。增大失真控制可以使得能够使用具有更多谐波的表,反之亦然。
现在使用与三个奇次谐波相关正弦波来描述用于产生正弦和表714的示例过程。在该示例中,可以通过填充具有选定大小的第一表格来产生正弦和表714,其中所述选定大小的第一表格具有一个正弦波周期的值(例如,从0弧度至2pi)。填充大小为N(N是整数)的表格可以包括将一个正弦波周期划分成N个值,以及将该N个值分配给表格中的N个空位。该第一正弦波表格可以表示基谐波或一次谐波。
可以以类似的方式(通过将三个正弦周期划分为N个值),利用正弦波的三个周期来填充与第一表格相同大小的第二表格。第二表格中的值可以表示第一正弦波的三次谐波。类似地,可以利用五个正弦波周期来填充与前两个表格相同大小的第三表格,该第三表格表示五次谐波。可以根据需要来缩放第一、第二和第三表格中的值。例如,可以缩小第二表格中的值,以使其幅度小于第一表格中那些值的幅度,以及可以缩放第三表格中的值,以包括比第二表格中的值要小的值。
因为在特定实施例中,三个表格大小相同(例如,具有相同数目的N个条目),所以可以将三个表格的相应索引中的值加在一起,以创建新正弦和表714,该新正弦和表714包括一次、三次和五次谐波之和。因此,在特定实施例中,如果要绘制正弦和表714中的值,则应当示出经求和后的波形的一个周期的近似图形。在特定实施例中,使用的正弦波越多,绘制的这个波形将越近似于方波。在多种实施例中,可以以与描述三个奇次谐波的方式相类似的方式,来构建具有不同谐波的其它正弦和表。备选地,可以使用正弦波周期的一些部分而非完整的周期来构建正弦和表714。
由于失真控制模块740将来自输入信号702的采样映射到正弦和表714中,表714中的谐波频率可以依赖于表查找速率,表查找速率继而可以依赖于输入信号的频率。在特定实施例中,这种频率依赖性使得失真控制模块740以与输入信号702的频率相同速率或者以接近该速率的速率执行表查找操作。
作为说明,对于具有给定频率的简单正弦波输入信号702,失真控制模块740可以以相同频率执行映射操作。得到的谐波可以具有取决于正弦波频率的特定频率。因此,使正弦波的频率加倍可以使得谐波频率加倍。对于包括多个叠加频率的输入信号702,由失真控制模块740执行的映射可能导致谐波叠加。
图8至15示出了失真和正弦波和的示例。作为参考,图8示出了正弦波802的示例时域曲线800。示出了在没有限幅的情况下正弦波802的峰值804。正弦波802的峰值电平804处于0db处,在一些实施例中,峰值电平804可以是峰值可能数字电平。图9示出了示例曲线900,该示例曲线900示出了图8的正弦波802的频谱902。因为图9是正弦曲线,所以代表了一个频率。
在特定实施例中,使正弦波802的幅度增大到超出峰值电平可能导致硬限幅。图10的曲线1000中示出了正弦曲线1002的硬限幅。限幅后的正弦曲线1002包括在峰值电平处饱和的限幅部分1004。在图11中示出的频域图示1102中,可以看见限幅后的正弦波1002的谐波1104的示例。如所示,谐波1104可以扩展为与采样频率一样高(在所示示例图中大约22kHz)。谐波1106的特定部分还是混淆的,从而造成进一步的失真。
为了避免硬限幅的完全失真,同时仍然允许增大音量,如上所述,失真控制模块740可以使用较低频谐波的复合波。图12示出了这种波的一组谐波的示例,其包括复合波的示例频率响应曲线1200,可以响应于400Hz的输入正弦波而产生所述复合波。与图11的全限幅情况相比,曲线1200中的频谱包括较少的谐波1202。在所描述的实施例中,已经产生了五次谐波1202。与图11的高频谐波1104相比,最高次谐波1202处于较低频率下。在该实施例中不存在混淆谐波1106。
所示示例实施例包括大约400Hz、1200Hz、2000Hz、2800Hz和3600Hz的谐波。这些谐波1202是奇次谐波1202,其包括一次谐波1204、三次谐波1206、五次谐波1208、七次谐波1210和九次谐波1212。一次谐波1204具有约0dB的幅度,在特定实施例中,0dB的幅度是最大可能数字幅度。相继的谐波1202的幅度随着频率的增大而变小。在实施例中,谐波1202的幅度单调递减。在其它实施例中,这些幅度可以改变。
由较低频率谐波提供的控制失真的结果可以是圆润且更自然的声音波形,该声音波形具有较高的信号能量或者较高的平均信号能量。图13示出了波1302的示例时域曲线1300,该示例时域曲线1300示出了映射至图12的谐波1204上的正弦波。所示示例波1302具有部分限幅部分1306和部分圆润部分1308。波1302与硬限幅波1002之间的比较结果,示出了波1302比硬限幅波1002更圆润。此外,波1302的部分1304是线性的或者近似线性的。弯曲部分1308从限幅部分1306在大约-3dB处开始弯曲。
图14示出了示例曲线1400,该示例曲线1400描绘了正弦和映射函数1410的实施例。可以通过绘制正弦和表(例如上述表714)中的值来绘制所示正弦和映射函数1410。正弦和映射函数1410包括四分之一周期的正弦和波。为了最佳化,可以使用正弦和波的四分之一周期来替代完整波,这将在下文进行描述。
在x轴上绘出了输入信号值,其包括范围在0至1之间的正幅度值。类似地,在y轴上绘出了输出信号值,也包括范围在0至1之间的幅度值。将在下文描述负幅度值。当失真控制模块140或740将输入采样映射到输出采样时,在特定实施例中,将输入采样映射到映射函数1410上的点。与输入采样相比,映射后的输出采样可以具有更大或更小的值,这取决于输入采样被映射到了何位置。
为了清楚起见,示出正弦和映射函数1410作为连续函数。然而,当在数字系统中实现时,映射函数1410可以是离散的。此外,如上所述,不可能为所有的输入信号值定义映射函数1410。因此,例如,失真控制模块140或740可以在映射函数1410上的两个最近点之间对输出信号值进行内插。
作为参考,示出了虚线1420,其与线y=x相对应。如果根据虚线1420映射输入采样,则输出采样可以与输入采样相同。映射函数1410包括线性或近似线性的映射区域1412以及非线性或近似非线性的映射区域1414。随着落在线性映射区域1412中的输入采样值增大,线性映射区域1412中的相应输出采样也线性地或实质上线性地增大。落在非线性区域1414中的某些输入采样值非线性地或实质上非线性地增大,具有变化的增大级别。
映射函数1410的大多数值大于虚线1420的值,使得大多数输入采样可以被映射到更大的值。然而,在非线性映射区域1414的区域1416中,映射函数1410的值小于或者等于虚线1420的值。在该区域1416,输入采样被映射到了更小的值。因此,例如,可以减小硬限幅采样的值(例如,具有1.0或近似1.0的值)。
如上所述,映射函数1410包括正弦和波的四分之一,而非完整的波。使用四分之一的波(或者甚至是二分之一波)可以使得能够减小正弦和表714的大小,从而节约存储器。对于负输入信号值,(例如,在范围[-1,0]之间等),失真控制模块140、740可以反转x轴上的映射函数1410,并且颠倒y轴上的映射函数1410。此后,失真控制模块140、740可以将映射函数1410应用到输入采样上。备选地,可以反转负值,并将其归一化到范围[0,1]。然后,可以应用映射函数1410,并且可以将得到的输出采样求反,以恢复到负值。
在备选实施例中,例如,根据用于产生正弦和表714的谐波的数目,所示函数1410可以看起来不同。例如,线性映射区域1412可以具有更大或更小的斜率。非线性映射区域1414可以是不同的形状;例如,可以具有更少的峰值。同样地,区域1416可以在幅度上更小或更大。
在特定实施例中,x轴和/或y轴的范围可以不同于上述范围[0,1]。将x轴的范围缩减到[0,a]可以增大至少一部分输入信号的放大率,其中a小于1。反之,将x轴范围增大到[0,b]可以减小至少一部分输入信号的放大率,其中b大于1。有益地,在一些实施例中,使用大于1的b值可以减少限幅。类似地,可以将y轴改变为[0,c],其中c小于或大于1。
图15示出了在施加失真控制之前的音频信号1512的示例时域图示的曲线1500。此外,图15示出了施加了失真控制之后相同音频信号1514的示例时域图示。使用失真控制的示例实现将近似6dB的附加增益引入到了该波形中。
失真控制可以用于其它应用中,例如,失真控制可以用于增大低音音量,而减小失真。失真控制还可以被用于频率展开应用中。此外,例如,失真控制还可以用于通过选择多种谐波创建期望的乐器音质,来合成乐器声音或其它声音。
VII.结论
根据实施例,这里描述的任何算法的特定动作、事件或功能可以以不同顺序来执行,可以添加、合并或一起省去(例如,不是所有所描述的动作或事件对于算法的实行是必需的)。此外,在特定实施例中,例如可以通过多线程处理、中断处理或多处理器或处理器核来同时执行动作或事件,而非顺序执行。
结合这里所公开的实施例描述的各个示意逻辑块、模块和算法步骤可以实现为电子硬件、计算机软件或二者的组合。为了清楚示意硬件和软件的可互换性,上述通常在它们的功能方面描述了各个示意组件、块、模块和步骤。将这种功能实现为硬件或软件取决于特定应用并设计施加于总体系统的约束。针对每个特定应用,可以以变化的方式来实现所描述的功能,但是这种实现方式的决定不应当解释为导致对本公开范围的背离。
可以利用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑器件、离散门或晶体管逻辑、离散硬件组件、或其任何组合(被设计为执行这里描述功能),来实现或执行结合这里公开的实施例而描述的各个示意逻辑块和模块。通用处理器可以是微处理器,但可选地,该处理器可以是处理器、控制器、微控制器或状态机及其组合等。处理器还可以实现为计算设备的组合(例如,DSP和微处理器的组合)、多个微处理器、与DSP内核结合的一个或多个微处理器、或任何其他的这种配置。
结合这里公开的实施例描述的方法或算法的步骤可以直接以硬件、由处理器执行的软件模块或二者的组合的形式来实现。软件模块可以驻留在RAM存储器、闪存存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可拆卸盘、CD-ROM或本领域已知的任何其他形式的存储介质中。示例性存储介质可以耦合至处理器,使得处理器可以从存储介质读取信息,并向存储介质写入信息。可选地,存储介质可以与处理器集成。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。可选地,处理器和存储介质可以作为分立组件驻留在用户终端中。
除非另有声明否则将在所使用的上下文理解,这里使用的诸如“可以”、“例如”等之类的条件性语言通常倾向于覆盖特定的实施例包括而其他实施例不包括的特定特征、元素和/或状态。因此,这种条件性语言通常不倾向于暗示对于一个或多个实施例按照任意方式要求所述特征、元素和/或状态,或者一个或多个实施例需要包括利用作者的输入或提示包括来决定是否在任意具体的实施例中要包括或执行这些特征、元素和/或状态的逻辑。
尽管上述详细描述已示出、描述并指出了应用于各个实施例的新颖特征,但将理解,在不背离本公开的精神的前提下,可以对所示设备或算法的形式和细节进行各种省略、替换和改变。将认识到,由于一些特征可以与其他特征分离地使用或实现,因此这里描述的本发明的特定实施例可以以不能提供这里所述的所有特征和优点的形式来实现。这里公开的本发明的范围由所附权利要求而不是由上述描述来指示。在权利要求的等同意义和范围内的所有改变应包括在其范围内。

Claims (17)

1.一种用于自动调整施加至音频信号的话音可懂度增强的系统,所述系统包括: 
增强模块,被配置为接收包括共振峰的输入话音信号,并且对所述输入话音信号施加音频增强,以提供增强话音信号,所述音频增强被配置为加强输入话音信号中的一个或多个共振峰; 
增强控制器,包括一个或多个处理器,所述增强控制器被配置为至少部分地基于检测到的环境噪声的量来调整由增强模块施加的音频增强的量; 
输出增益控制器,被配置为: 
至少部分地基于输入话音信号中环境噪声的量,来调整增强话音信号的总增益,以及 
向增强话音信号施加所述总增益,以产生放大话音信号;以及 
失真控制模块,被配置为通过至少将所述放大话音信号的一个或多个采样映射到正弦和表中存储的一个或多个值来减小放大话音信号中的限幅,其中所述正弦和表是根据低次正弦谐波之和产生的。 
2.如权利要求1所述的系统,其中,所述增强模块还操作用于通过对输入话音信号的频率子带施加增益来加强所述一个或多个共振峰。 
3.如权利要求1所述的系统,其中,所述增强控制器还被配置为至少部分地基于第一噪声阈值以上的检测到的环境噪声的量,来调整由所述增强模块施加的音频增强的量。 
4.如权利要求3所述的系统,还包括:噪声灵敏度控制器,被配置为调整所述第一噪声阈值。 
5.如权利要求4所述的系统,其中,所述噪声灵敏度控制器提供被配置为允许用户调整噪声灵敏度控制的用户接口,所述噪声灵敏度控制被配置为影响所述第一噪声阈值。 
6.如权利要求4所述的系统,其中,所述噪声灵敏度控制器包 括: 
第一相关器,被配置为根据从接收设备的麦克风接收到的麦克风输入信号来计算第一自相关值; 
第一方差模块,操作用于计算第一自相关值的第一方差; 
第二相关器,被配置为根据扬声器输入信号计算第二自相关值,所述扬声器输入信号包括增强模块的输出信号; 
第二方差模块,操作用于计算第二自相关值的第二方差;以及 
噪声灵敏度调节器,被配置为使用第一和第二自相关值和第一和第二方差中的一个或多个来调整第一噪声阈值,以产生第二噪声阈值,其中所述增强控制器被配置为至少部分地基于第二噪声阈值以上的检测到的环境噪声的第二量,调整施加至第二输入音频信号的音频增强的量。 
7.如权利要求4所述的系统,其中,所述噪声灵敏度调节器还被配置为响应于小于预定量的第二方差,产生小于第一噪声阈值的第二噪声阈值。 
8.如权利要求4所述的系统,其中,所述噪声灵敏度调节器还被配置为响应于预定量以上的第一方差,产生小于第一噪声阈值的第二噪声阈值。 
9.如权利要求8所述的系统,其中,所述噪声灵敏度调节器还被配置为至少部分地基于第一自相关值中的一个或多个,减小第二噪声阈值。 
10.如权利要求8所述的系统,其中,所述噪声灵敏度调节器还被配置为针对较大的第一自相关值,提供第二噪声阈值的更大减小。 
11.如权利要求10所述的系统,其中,所述噪声灵敏度调节器还被配置为至少部分地基于第二自相关值中的一个或多个,减小所述第二噪声阈值。 
12.如权利要求8所述的系统,其中,所述噪声灵敏度调节器还被配置为对于较小的第二自相关值,提供第二噪声阈值更大减小。 
13.如权利要求1所述的系统,其中,所述由失真控制模块执行的映射被配置为将所述放大话音信号映射到输出信号,其中与全饱和 信号相比,所述输出信号具有较少的谐波。 
14.如权利要求1所述的系统,其中,所述增强控制器还被配置为至少部分地基于检测到的环境噪声的量与阈值水平的比值来调整所施加的音频增强的量。 
15.一种用于自动调整施加至音频信号的话音可懂度增强的方法,所述方法包括: 
接收包括共振峰的输入话音信号; 
对输入话音信号施加音频增强,以提供增强话音信号,所述音频增强被配置为加强输入话音信号中的一个或多个共振峰; 
至少部分地基于检测到的环境噪声的量来调整所施加的音频增强的量; 
至少部分地基于输入话音信号中环境噪声的量来调整增强话音信号的总增益; 
对增强话音信号施加所述总增益,以产生放大话音信号;以及 
通过至少将放大话音信号的一个或多个采样映射到正弦和表中存储的一个或多个值来减小放大话音信号中的限幅,其中所述正弦和表是根据低次正弦谐波之和产生的。 
16.如权利要求15所述的方法,还包括:通过对输入话音信号的频率子带施加增益来加强一个或多个共振峰。 
17.如权利要求15所述的方法,其中,所述映射还包括将放大话音信号映射到输出信号,其中与全饱和信号相比,所述输出信号具有较少的谐波。 
CN200980161425.8A 2009-09-14 2009-09-14 用于自适应话音可懂度处理的系统 Active CN102498482B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/056850 WO2011031273A1 (en) 2009-09-14 2009-09-14 System for adaptive voice intelligibility processing

Publications (2)

Publication Number Publication Date
CN102498482A CN102498482A (zh) 2012-06-13
CN102498482B true CN102498482B (zh) 2014-10-15

Family

ID=43732720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980161425.8A Active CN102498482B (zh) 2009-09-14 2009-09-14 用于自适应话音可懂度处理的系统

Country Status (7)

Country Link
EP (1) EP2478444B1 (zh)
JP (1) JP5551254B2 (zh)
KR (1) KR101598654B1 (zh)
CN (1) CN102498482B (zh)
HK (1) HK1171273A1 (zh)
PL (1) PL2478444T3 (zh)
WO (1) WO2011031273A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104078050A (zh) 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103888107B (zh) * 2014-03-21 2017-04-19 天地融科技股份有限公司 一种数据解码方法
RU2696952C2 (ru) 2014-10-01 2019-08-07 Долби Интернешнл Аб Аудиокодировщик и декодер
CN104464764B (zh) * 2014-11-12 2017-08-15 小米科技有限责任公司 音频数据播放方法和装置
CN106710604A (zh) * 2016-12-07 2017-05-24 天津大学 提高语音可懂度的共振峰增强装置和方法
CN106409287B (zh) * 2016-12-12 2019-12-13 天津大学 提高肌肉萎缩或神经退行性病人语音可懂度装置和方法
CN109413258B (zh) * 2017-08-18 2021-03-26 成都鼎桥通信技术有限公司 一种集群终端的省电方法
KR20210072384A (ko) * 2019-12-09 2021-06-17 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN111863004A (zh) * 2020-07-29 2020-10-30 芯讯通无线科技(上海)有限公司 声音信号的处理方法、系统、电子设备及存储介质
CN112767908A (zh) * 2020-12-29 2021-05-07 安克创新科技股份有限公司 基于关键声音识别的主动降噪方法、电子设备及存储介质
CN112802489A (zh) * 2021-04-09 2021-05-14 广州健抿科技有限公司 一种通话语音自动调节系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390383A (zh) * 1999-03-30 2003-01-08 高通股份有限公司 移动电话内扬声器及话筒增益的自动调节方法和装置
CN1620751A (zh) * 2000-08-14 2005-05-25 清晰音频有限公司 声音增强系统
CN101233561A (zh) * 2005-08-02 2008-07-30 皇家飞利浦电子股份有限公司 通过根据背景噪声控制振动器的操作来增强移动通信设备中的语音可懂度

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2056110C (en) 1991-03-27 1997-02-04 Arnold I. Klayman Public address intelligibility system
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
US7023868B2 (en) * 1999-04-13 2006-04-04 Broadcom Corporation Voice gateway with downstream voice synchronization
US7423983B1 (en) * 1999-09-20 2008-09-09 Broadcom Corporation Voice and data exchange over a packet based network
US7277767B2 (en) * 1999-12-10 2007-10-02 Srs Labs, Inc. System and method for enhanced streaming audio
CA2399159A1 (en) * 2002-08-16 2004-02-16 Dspfactory Ltd. Convergence improvement for oversampled subband adaptive filters
JP4685735B2 (ja) * 2006-09-04 2011-05-18 日本電信電話株式会社 音響信号区間検出方法、装置、プログラム及びその記録媒体
JP2009147702A (ja) * 2007-12-14 2009-07-02 Panasonic Corp 騒音レベル推定装置、受話音量制御装置、携帯電話装置、および騒音レベル推定方法
JP4940158B2 (ja) * 2008-01-24 2012-05-30 株式会社東芝 音補正装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1390383A (zh) * 1999-03-30 2003-01-08 高通股份有限公司 移动电话内扬声器及话筒增益的自动调节方法和装置
CN1620751A (zh) * 2000-08-14 2005-05-25 清晰音频有限公司 声音增强系统
CN101233561A (zh) * 2005-08-02 2008-07-30 皇家飞利浦电子股份有限公司 通过根据背景噪声控制振动器的操作来增强移动通信设备中的语音可懂度

Also Published As

Publication number Publication date
KR101598654B1 (ko) 2016-02-29
WO2011031273A1 (en) 2011-03-17
CN102498482A (zh) 2012-06-13
JP5551254B2 (ja) 2014-07-16
EP2478444A4 (en) 2016-01-06
JP2013504791A (ja) 2013-02-07
HK1171273A1 (zh) 2013-03-22
PL2478444T3 (pl) 2019-05-31
EP2478444A1 (en) 2012-07-25
KR20120064105A (ko) 2012-06-18
EP2478444B1 (en) 2018-12-12

Similar Documents

Publication Publication Date Title
CN102498482B (zh) 用于自适应话音可懂度处理的系统
US8204742B2 (en) System for processing an audio signal to enhance speech intelligibility
US10299040B2 (en) System for increasing perceived loudness of speakers
CN100397781C (zh) 声音增强系统
EP2465200B1 (en) System for increasing perceived loudness of speakers
CN102016984B (zh) 用于动态声音传送的系统和方法
US20230352038A1 (en) Voice activation detecting method of earphones, earphones and storage medium
CN107124149A (zh) 一种音量调整方法、装置和设备
CN101437065A (zh) 音频信号处理装置、音频信号处理方法和通信终端
CN103348408A (zh) 噪声和位置外信号的组合抑制
CN1416564A (zh) 减噪仪器及方法
CN102572646A (zh) 一种在耳机听音乐状态下的消噪方法及设备
EP1913591B1 (en) Enhancement of speech intelligibility in a mobile communication device by controlling the operation of a vibrator in dependance of the background noise
US11627421B1 (en) Method for realizing hearing aid function based on bluetooth headset chip and a bluetooth headset
US8423357B2 (en) System and method for biometric acoustic noise reduction
US8254590B2 (en) System and method for intelligibility enhancement of audio information
CN105430563A (zh) 多频带闪避器
CN115314823A (zh) 一种基于数字发声芯片的助听方法、系统及设备
CN107197403A (zh) 一种终端音频参数管理方法、装置及系统
EP4258263A1 (en) Apparatus and method for noise suppression
CN112908350B (zh) 一种音频处理方法、通信装置、芯片及其模组设备
Kumar A review of smart volume controllers for consumer electronics
Luo et al. Digital signal processing technology and applications in hearing aids

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: DST LLC

Free format text: FORMER OWNER: SRS LABS INC.

Effective date: 20121130

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20121130

Address after: American California

Applicant after: DTS Labs Inc.

Address before: American California

Applicant before: SRS Labs Inc.

REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1171273

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1171273

Country of ref document: HK