CN110447069A - 自适应噪声环境的语音信号处理的方法和装置 - Google Patents

自适应噪声环境的语音信号处理的方法和装置 Download PDF

Info

Publication number
CN110447069A
CN110447069A CN201780088703.6A CN201780088703A CN110447069A CN 110447069 A CN110447069 A CN 110447069A CN 201780088703 A CN201780088703 A CN 201780088703A CN 110447069 A CN110447069 A CN 110447069A
Authority
CN
China
Prior art keywords
signal
far
noise
information
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780088703.6A
Other languages
English (en)
Other versions
CN110447069B (zh
Inventor
成昊相
郑钟勋
朱基岘
吴殷美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN110447069A publication Critical patent/CN110447069A/zh
Application granted granted Critical
Publication of CN110447069B publication Critical patent/CN110447069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17823Reference signals, e.g. ambient acoustic environment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • G10K11/17827Desired external signals, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17873General system configurations using a reference signal without an error signal, e.g. pure feedforward
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17885General system configurations additionally using a desired external signal, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1083Reduction of ambient noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/10Applications
    • G10K2210/108Communication systems, e.g. where useful sound is kept and noise is cancelled
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K2210/00Details of active noise control [ANC] covered by G10K11/178 but not provided for in any of its subgroups
    • G10K2210/30Means
    • G10K2210/301Computational
    • G10K2210/3044Phase shift, e.g. complex envelope processing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Abstract

根据本发明的一个实施例的用于解决技术问题的处理语音信号的方法,包括以下步骤:通过使用至少一个麦克风获取近端噪声信号和近端语音信号;根据呼入获取远端语音信号;基于关于所述近端语音信号的信息、关于所述近端噪声信号的信息以及关于远端语音信号的信息的至少一者来确定噪声控制参数和语音信号改变参数;基于所述噪声控制参数来生成所述近端噪声信号的反相信号;基于所述语音信号改变参数、所述近端噪声信号、所述反相信号和误差信号来改变所述远端语音信号,使得可以改进远端语音信号的清晰度;以及输出所述反相信号和改变后的远端语音信号。

Description

自适应噪声环境的语音信号处理的方法和装置
技术领域
本公开涉及音频和/或语音信号处理,更具体地,涉及一种用于根据近端或远端的嘈杂环境自适应地处理音频和/或语音信号的信号处理方法和装置。
背景技术
当在存在各种类型的背景噪声的环境中通过使用移动设备进行与对方的语音通话时,由于背景噪声而可能不能很好地听到对方的语音。例如,当在嘈杂地点(诸如在地铁或在车辆经过的街道上)进行通话时,听到对方的语音很小,远低于在没有噪声的安静地点的呼叫的语音。如此地,背景噪声降低语音的清晰度或声音质量的最重要原因可能是掩蔽效应。
考虑到背景噪声,提供了各种语音处理技术,可以根据远端和近端环境对语音处理方法进行分类。其中,考虑了远端环境的语音处理技术具有未考虑各种近端背景噪声环境的限制。因此,需要一种能够考虑具有背景噪声的各种接收环境、根据近端设备或接收模块的用户周围的背景噪声来有效地处理从远端设备发送的或从发送模块提供的语音信号的技术。
发明内容
技术问题
要解决的目标包括用于自适应地改进接收侧或近端噪声环境的解码信号的清晰度和/或声音质量从而提高通话质量的信号处理方法和装置,以及计算机可读记录介质。
问题的解决方案
本公开的用于实现上述目标的代表性配置如下。
根据本公开的实施例,语音信号处理方法包括:通过使用至少一个麦克风获取近端噪声信号和近端语音信号;根据呼入获取远端语音信号;基于关于所述近端语音信号的信息、关于所述近端噪声信号的信息或关于所述远端语音信号的信息中的至少一者来确定噪声控制参数和语音信号改变参数;基于所述噪声控制参数来生成所述近端噪声信号的反相信号;基于与所述语音信号改变参数、所述近端噪声信号或所述反相信号中的至少一者相关的信息,改变所述远端语音信号以改进所述远端语音信号的清晰度;以及输出所述反相信号和改变后的远端语音信号。
根据本公开的另一实施例,所述反相信号可以包括关于虚拟噪声信号的反相信号,所述虚拟信号是基于获取所述近端噪声信号的位置和感知所述远端语音信号的位置之间的差异或者获取近端噪声信号的时间和感知所述远端语音信号的时间之间的差异中的至少一者从所述远端噪声信号估计的。
根据本公开的另一实施例,关于所述远端语音信号的信息可以包括关于所述远端语音信号编码的信息、关于所述远端语音信号的频带的信息、关于是否正在输出所述远端语音信号的信息、关于接收所述呼入的信道的信息、或关于所述呼入的模式的信息中的至少一者。
根据本公开的另一实施例,关于所述近端语音信号的信息可以包括关于所述近端语音信号是否处于活动状态的信息。
根据本公开的另一实施例,关于所述近端噪声信号的信息可以包括关于所述近端噪声信号的所述频带的信息或者关于所述近端噪声信号的噪声类型的信息中的至少一者。
根据本公开的另一实施例,所述噪声控制参数可以表示是否生成所述反相信号、所述反相信号的输出功率或者在其中生成所述反相信号的频带中的至少一者。
根据本公开的另一实施例,所述语音信号改变参数可以表示关于是否改变所述远端语音的信息、改变后的远端语音信号的输出功率、在其中所述远端语音信号被改变的频带或语音信号改变方法中的至少一条信息。
根据本公开的另一实施例,在改变所述远端语音信号时,针对远端语音信号频谱的每个频率仓(frequency bin),可以减小所获取的远端语音信号和在存在所述近端噪声信号和所述反相信号的情况下的远端语音信号之间的差异。
根据本公开的另一实施例,改变所述远端语音信号可以包括基于听觉感知模型将频率仓分类为能量增加类、能量减少类和能量维持类,以及将所述远端语音信号的所述能量减少类的能量转移到所述能量增加类。
根据本公开的另一实施例,改变所述远端语音信号可以包括根据基于说话模式的模型来改变所述远端语音信号。
根据本公开的另一实施例,所述反相信号可以基于前一帧的改变后的远端语音信号生成。
根据本公开的实施例,语音信号处理装置包括:至少一个麦克风,所述至少一个麦克风被配置为获取近端噪声信号和近端语音信号;接收器,所述接收器被配置为根据呼入获取远端语音信号;控制器,所述控制器被配置为基于关于所述近端语音信号的信息、关于所述近端噪声信号的信息或关于所述远端语音信号的信息中的至少一者来确定噪声控制参数和语音信号改变参数;降噪器,所述降噪器被配置为基于所述噪声控制参数来生成所述近端噪声信号的反相信号;语音信号改变器,所述语音信号改变器被配置为基于与所述语音信号改变参数、所述近端噪声信号或所述反相信号中的至少一者有关的信息来改变所述远端语音信号,以便改进所述远端语音信号的清晰度;以及输出器,所述输出器被配置为输出所述反相信号和改变后的远端语音信号。
根据本公开的实施例,提供了非暂时性计算机可读记录介质,所述非暂时计算机可读记录介质上记录有用于执行上述方法的程序。
此外,提供了非暂时性计算机可读记录介质,所述非暂时性计算机可读记录介质上记录有用于执行其他方法、其他系统和方法以实现本公开的程序。
本公开的有益效果
根据本公开,可以自适应地对接收侧或近端的嘈杂环境改进通话质量。可以通过使用预测噪声信号有效地去除近端噪声信号,并且可以基于心理声学模型或语音信号模式来改进清晰度。
此外,可以通过使用物理上去除噪声的近端信号来改进远端信号的清晰度,并且可以通过使用具有改进的清晰度的远端信号来降低近端信号的噪声。
附图说明
图1是根据实施例的用于语音呼叫的移动通信设备的框图。
图2是根据实施例的信号处理装置的配置的框图。
图3是根据另一实施例的信号处理装置的配置的框图。
图4示出了根据实施例的用于在远端设备和近端设备中生成远端输入/输出以及近端输入/输出的信号。
图5示出了根据本公开的实施例的信号处理装置的操作。
图6示出了根据实施例的与降噪器相关的信号。
图7示出了根据一实施例的生成具有改进的清晰度的语音信号的方法。
图8示出了根据另一实施例的与降噪器相关的各个信号。
图9是根据实施例的生成具有改进的清晰度的语音信号的方法的流程图。
图10是根据实施例的近端设备中的降噪器和清晰度增强器的操作的框图。
图11示出了根据实施例的基于听觉感知重要性改进语音清晰度的方法。
图12示出了根据实施例的清晰度改进方法中的语音信号的频带之间的能量交换关系。
图13示出了根据实施例的当基于听觉感知重要性改变语音信号时每个频带的能量变化。
图14示出了根据实施例的通过基于语音信号的说话模式改变语音信号来改进语音信号的清晰度的方法。
图15示出了根据另一实施例的信号处理装置的操作。
最佳方式
本公开的实现上述目标的代表性配置如下所述。
根据本公开的实施例,语音信号处理方法包括:通过使用至少一个麦克风获取近端噪声信号和近端语音信号;根据呼入获取远端语音信号;基于关于近端语音信号的信息、关于近端噪声信号的信息或关于远端语音信号的信息中的至少一者来确定噪声控制参数和语音信号改变参数;基于所述噪声控制参数来生成所述近端噪声信号的反相信号;基于与语音信号改变参数、近端噪声信号或反相信号中的至少一者相关的信息,改变所述远端语音信号以改进所述远端语音信号的清晰度;以及输出所述反相信号和改变后的远端语音信号。
具体实施方式
参考用于说明本公开的优选实施例的附图,以便充分理解本公开、本公开的优点以及通过实现本公开而实现的目标。为了本领域技术人员充分实施本公开,详细描述了实施例。本公开的各种实施例彼此不同,但不需要彼此矛盾。
例如,在不脱离本公开的精神和范围的情况下,可以通过从一个实施例改变到另一个实施例来实现本说明书中的特定形状、结构和特性。此外,可以理解在不脱离本公开的精神和范围的情况下修改每个实施例中的各个组成元件的位置和布置。因此,下面描述的详细描述不能被解释为限制性含义,并且本公开的范围可以被解释为理解权利要求所要求保护的范围以及与其等同的所有范围。
在附图中,类似的附图标记在各个方面表示相同或相似的元件。在以下描述中,当确定关于相关公知功能或结构的详细描述以使本公开的主旨不清楚时,这里将省略详细描述,并且在所有附图中类似的附图标记表示类似的元件。
在以下描述中,参考附图详细描述实施例,以进一步完整地向本公开所属领域的普通技术人员解释本公开。然而,本公开不限于此,并且应当理解的是,在不脱离所附权利要求的精神和范围的情况下,可以在形式和细节上进行各种改变。
在本说明书中,当组成元件“连接”或“被连接”到另一个组成元件时,组成元件不仅可以直接接触或连接另一个组成元件,而且还可以通过插入器件的至少一个其他组成元件电连接该另一个组成元件。在整个说明书中,当一部分“包括”元件时,除非另有说明,另一元件可以被进一步包括,而不是排除另一个元素的存在。
在下文中,将通过参考附图解释本公开的优选实施例来详细地描述本公开。
图1是根据实施例的用于语音通话的移动通信设备的配置的框图。
图1中示出的设备可以包括远端设备110和近端设备130,并且远端设备110可以包括第一转换器111、发送处理器113和编码器115,并且近端设备130可以包括解码器131、信号改变器133、接收处理器135和第二转换器137。在本说明书中,远端设备被以与发送装置相同的含义来使用,并且近端设备被以与接收装置相同的含义来使用。
远端设备110可以包括第一转换器111、发送处理器113和编码器115,并且近端设备130可以包括解码器131、信号改变器133、接收处理器135和第二转换器137。除了用单独的硬件实现远端设备110和/或近端设备130中的每个组成元件的情况之外,远端设备110和/或近端设备130中的每个组成元件可通过集成在至少一个处理器中来实现。远端设备110和近端设备130可分别被安装在每个用户设备的发送侧和接收侧。
在图1中,第一转换器111可将通过诸如麦克风的输入设备提供的模拟信号转换为数字信号。
发送处理器113可对从第一转换器111提供的数字信号执行各种处理操作。信号处理操作的示例可以包括噪声去除或回声减低,但是本公开不限于此。
编码器115可以通过使用预定编解码器对由发送处理器113提供的信号进行编码。可通过传输信道将作为编码的结果而生成的比特流发送到接收侧或者将所述比特流存储在存储介质中,使得比特流被用于解码。
解码器131可以通过使用预定编解码器对接收到的比特流进行解码。
信号改变器133可以根据近端终端的环境噪声信号来改变与接收环境相对应的解码信号。信号改变器133可以响应于与音量调节有关的用户输入和诸如音量级别的终端状态信息,来改变与接收环境相对应的解码信号。根据实施例,信号改变器133可以关于噪声信号和语音信号的每个频带来确定与清晰度改进有关的频带类别,基于所确定的噪声信号的频带类别和所确定的语音信号的频带类别来生成用于清晰度改进的引导信息,并通过将引导信息应用于语音信号来生成改变的语音信号。根据另一实施例,信号改变器133可以关于噪声信号和语音信号的每个来确定与语音信号的清晰度改进有关的类别,基于所确定的类别以及从清楚环境中的语音信号和嘈杂环境中的所改变的语音信号建模的语音清晰度模型来生成用于清晰度改进的引导信息,并且通过将引导信息应用于语音信号来生成改变的语音信号。
接收处理器135可以对从信号改变器133提供的信号执行各种信号处理操作。信号处理操作的示例可以包括噪声去除或回声减低,但是本公开不限于此。
第二转换器137可以将从接收处理器135提供的信号转换为模拟信号。可以通过扬声器或受话器再现从第二转换器137提供的模拟信号。
图1中使用的编解码器的示例可以包括增强型语音服务(EVS)。
图2是根据实施例的可以与图1的信号改变器133对应的信号处理装置的框图。
图2中所示的设备可以包括模式确定器210、第一清晰度增强器230和第二清晰度增强器250。可选地提供模式确定器210和第二清晰度增强器250,因此信号处理装置可以由第一清晰度增强器230实现。
清晰度是表示语音质量的指标,其通过比率指示收听者理解由语音信号表示的实际声音的音节的程度。可懂度是一个显示关于有意义的词语或句子的可懂度的指数,其具有随着清晰度增加而可懂度增加的关系。
可以在语音传输指数(STI)或直接声音与反射声音之间的比率值(D_50)中测量清晰度。然而,上述测量不是与诸如信噪比的客观声音质量成比例的关系,而是具有主观和感知特征。因此,清晰度改进对应于改进主观声音质量的方法。
根据实施例,当接收音量达到设定的最大值时,模式确定器210可以检查是否另外接收到来自用户的音量增大输入,并确定第一模式和第二模式中的一个。根据另一实施例,当接收到紧急警报广播或检测到诸如紧急呼叫的紧急事件时,模式确定器210可以确定它是第二模式。第一模式可以被称为基础模式,第二模式可以被称为积极模式。
根据另一实施例,模式确定器210可以根据基于近端噪声的特征使能最优性能的清晰度改进方法来确定第一模式和第二模式中的一个。例如,在嘈杂的环境中,可以将清晰度改进方法设置为处于改变语音信号的第二模式,使得可以清楚地输出每个音节。第一模式可以被称为基础模式,第二模式可以被称为清楚模式。
根据实施例,可以将第一模式设置为默认模式。
第一清晰度增强器230可在模式确定器210确定其为第一模式时操作,并且第二清晰度增强器250可在模式确定器210确定其为第二模式时操作。可以关于噪声信号和语音信号的每个频带确定与清晰度改进相关的频带类别,可以基于每个噪声信号和语音信号的所确定的频带类别来生成用于清晰度改进的引导信息,并且可以生成通过将引导信息应用于语音信号而改变的语音信号。在这种状态下,可以执行信号处理以保持帧的总能量。
图3是根据另一实施例的可以与图1的信号改变器133对应的信号处理装置的框图。
图3的装置可以包括降噪器310和清晰度增强器330。清晰度增强器330可以如图2所示实现,并且降噪器310可以通过使用经由麦克风接收的噪声信号来减少整个接收信号中的噪声。
代表性降噪技术可以包括有源噪声控制(ANC)方法,详细地,其包括前馈类型、反馈类型和虚拟感测类型。
前馈ANC方法在宽带宽中操作并且能够在高达约3kHz频带去除噪声,以便在语音通话期间在对应于语音频带的高频范围内稳定地操作。高频分量可以使语音信号更清楚地被识别。
与前馈ANC方法相比,反馈ANC方法可以在较低频率范围内(通常在等于或小于100Hz的范围内)表现出高性能,并且可以在高达约1kHz的频率下操作。与前馈ANC技术相比,反馈ANC技术可适用于语音信号而不是音频信号,并且会对风噪声具有有效的性能。
虚拟感测方法是使用存在于虚拟位置而不是麦克风的实际位置处的虚拟噪声的噪声控制技术,其使用实际麦克风位置的声学传递函数和从关于虚拟位置的传递函数获得的传递函数。对于虚拟感测方法,基于考虑了虚拟位置的延迟时间的预测噪声来执行ANC。
ANC方法是通过向扬声器输出通过使用麦克风获得的噪声信号的反相信号,从而用反相信号抵消噪声信号,来去除噪声的技术。作为对噪声信号和反相信号相加的结果而生成的信号被称为误差信号,并且理想地,由于噪声信号和反相信号之间的相消干涉,噪声信号被完全去除,因此误差信号变为0。
然而,实际上不可能完全去除噪声,并且当反相信号和噪声信号的同步或相位彼此不精确匹配时,通过相长干涉可能反而会放大噪声。因此,根据嘈杂环境或实施例,可以通过调整反相信号的大小或ANC模块的输出来稳定地控制噪声。在ANC技术中,通过误差麦克风获得误差信号,并且生成反映误差信号的反相信号,因此可以自适应地或主动地控制噪声。反相信号、误差信号和预测噪声信号可以是ANC模块的输出信号,并且在说明书中,降噪信号、ANC信号或ANC信号可以表示降噪器310的输出信号。
通常,ANC技术在去除低频范围的主要噪声方面是有效的。相比之下,语音信号的清晰度主要由高频范围的信号确定。
因此,当针对低频范围通过使用有源噪声去除技术来物理地去除噪声时,可以改进客观的信号质量,并且可以针对高频范围通过改变语音信号来提高主观的信号质量以可感知地改进清晰度。
图4示出了根据实施例的用于在远端设备410和近端设备430中生成远端输入/输出以及近端输入/输出的信号,其中在终端中安装两个麦克风。对此,可使用来自位于下端或者下端的前表面或后表面上的第一麦克风的噪声NI1以及来自位于上端或者上端的前表面或后表面上的第三麦克风的噪声NI2来进行清晰度改进。
近端输出NO是其中远端输入语音信号FI经由网络发送到近端设备430的信号,输出信号NO1是通过使用经由近端设备430的麦克风所接收的近端噪声NI1和NI3而最终生成的。
尽管图4示出了在终端处安装两个麦克风的情况,但是根据实施例的信号处理装置不限制麦克风的数量和/或位置。
图5示出了根据实施例的信号处理装置500的操作。
图5的实施例中公开的信号处理装置500可以包括麦克风部分511和512、控制器530、降噪器550和清晰度增强器570。实线表示在降噪器550和清晰度增强器570中处理的语音信号和噪声信号的流,虚线表示用于控制各个处理器的控制信号的流。
麦克风部分511和512可以包括与参考麦克风对应的第一麦克风511和与误差麦克风对应的第二麦克风512,并且针对对近端噪声信号进行的ANC,参考麦克风可以获得参考噪声信号并且误差麦克风可以获得误差信号。参考麦克风和误差麦克风均可以包括多个麦克风。
控制器530可以基于从第一麦克风511和第二麦克风512获得的近端语音信号和近端噪声信号、由远端终端发送的远端语音信号以及关于从远端终端接收的呼入的信息来控制降噪器550和清晰度增强器570的操作。根据实施例,控制器530可以基于关于近端语音信号的信息、关于近端噪声信号的信息或关于远端语音信号的信息中的至少一者来确定要应用于降噪器550的噪声控制参数。
噪声控制参数可以表示要用于ANC的参数,并且可以表示与降噪器550的使用、降噪器550的输出功率、应用于噪声控制信号的增益、加权和降噪器550的频率操作范围有关的至少一条信息。
控制器530可以基于近端噪声信号的振幅、频带和类型来确定要应用于降噪器550的噪声控制参数。
例如,作为对每个频率的近端噪声信号的分量的分析结果,当噪声信号主要存在于低频范围中或者主要噪声存在于低频范围中时,控制器530可以确定降噪器550的输出为高。相反,作为对每个频率的近端噪声信号的分量的分析的结果,当噪声信号主要存在于高频范围中或者主频噪声存在于高频范围中时,控制器530可以确定降噪器550的输出为低或者可以确定降噪器550不操作。替代地,控制器530可以基于近端噪声信号的频带确定降噪器550的频率操作范围。
控制器530可以确定要应用于降噪器550的输出的加权。
例如,在虚拟感测方法中,当预测噪声信号与实际噪声信号不同或者反相信号的相位与实际噪声信号不同步时,降噪器550可以通过将所确定的加权应用于输出来表现出稳定的降噪性能。
控制器530可以基于在远端语音信号的比特流中包括的编解码信息,编解码器的核心模式信息或不连续传输(DTX)信息来确定远端信号的类型和特征,并且可以基于此确定噪声控制参数。
例如,控制器530可以基于EVS编解码器的核心编码模式来确定远端信号是语音信号还是音乐信号。ANC技术,特别是反馈型ANC技术,在对应于一系列语音信号的低频范围内表现出高噪声去除性能。然而,对于高频范围信号,ANC技术可能具有低噪声去除性能反而降低声音质量。因此,当确定远端信号是语音信号时,控制器530可以将要应用于降噪器550的输出确定为高,并且当远端信号未被确定为语音信号时,控制器530可以将要应用于降噪器550的输出确定为低或者可以确定不操作降噪器550。
DTX是在没有要传输的数据时停止传输的功能,其可以用于减少干扰和有效使用资源,并且可以在语音通信中与编码器的语音活动检测(VAD)功能一起使用。
例如,当作为所接收的远端语音信号的比特流检查结果将DTX设置为1时,处于不存在远端输入信号的状态,因此控制器530可以确定降低降噪器550的输出或不操作噪声降低器550。
根据另一实施例,控制器530可以基于关于近端语音信号的信息、关于近端噪声信号的信息或关于远端语音信号的信息中的至少一个来确定要应用于清晰度增强器570的语音信号改变参数。
语音信号改变参数可以表示用于改变语音信号以改进远端语音信号的清晰度的参数,并且可以表示关于是否使用清晰度增强器、清晰度增强器的输出功率、清晰度增强器的频率操作范围或清晰度改进方法的至少一条信息。
控制器530可以基于近端噪声信号的振幅、频带和类型来确定要应用于清晰度增强器570的语音信号改变参数。
如上所述,控制器530可以基于近端噪声信号的振幅和频带来确定降噪器550的输出。由于整个系统的资源是有限的,所以降噪器550和清晰度增强器570的输出彼此相关,并且考虑到有限的资源和系统改进性能,有必要为每个模块确定最优输出。此外,控制器530可以基于近端噪声信号的频带确定清晰度增强器570的频率操作范围。
可选择地,控制器530可以基于近端噪声信号的类型(例如,其是干扰通话还是与噪声信号是近端语音还是远端语音无关的环境噪声)确定语音信号改变参数。
控制器530可以基于在远端语音信号的比特流中包括的编解码信息、编解码器的核心模式信息或DTX信息来确定远端信号的类型和特征,并且可以基于此确定语音信号改变参数。
例如,控制器530可以基于EVS编解码器的核心编码模式来确定远端信号是语音信号还是音乐信号。清晰度改进通常主要应用于语音通话,因此当远端信号被确定为语音信号时,控制器530可以将要应用于清晰度增强器570的输出确定为高,并且当远端信号未被确定为语音信号时,控制器530可将清晰度增强器570的输出确定为低或可确定不操作清晰度增强器570。
DTX是在没有要传输的数据时停止传输的功能,其可以用于减少干扰和有效地使用资源,并且可以在语音通信中与编码器的语音活动检测(VAD)功能一起使用。
例如,当作为接收的远端语音信号的比特流检查结果将DTX设置为1时,处于不存在远端输入信号的状态,因此控制器530可以确定降低清晰度增强器570的输出或不操作清晰度增强器570。可选择地,当从接收的近端语音信号的VAD检测到语音活动时,可以通过使用检测到的语音活动来分析噪声信号,并且控制器530可以基于VAD确定清晰度增强器570的输出。
降噪器550基于由控制器530确定的噪声控制参数来生成反相信号。降噪器550可以将反相信号和误差信号发送到清晰度增强器570,因此在物理上降低噪声的环境中改变远端语音信号,从而改进清晰度。
当降噪器550使用虚拟感测方法时,可以向清晰度增强器570另外地发送预测噪声信号。下面描述虚拟感测方法和降噪器550的各个信号。在这种情况下,降噪信号可以包括参考噪声信号、反相信号、误差信号或预测噪声信号中的至少一种。
清晰度增强器570可以基于由控制器530确定的语音信号改变参数来改变远端语音信号。清晰度增强器570可以基于要通过使用从降噪器550发送的降噪信息来降低的噪声,通过改变远端语音信号改进清晰度。降噪信息可以是从降噪器550获得的参考噪声信号、反相信号或误差信号,或者相关信息。
根据本公开的实施例,控制器530可以控制降噪器550和清晰度增强器570以选择性地操作。
此外,降噪器550可以通过使用从清晰度增强器570发送的关于改变的远端语音信号的信息来进一步降低噪声。例如,当在远端语音信号中包括噪声时,降噪性能可能下降,因此当检查远端语音信号并且发现包括一定级别的噪声时,可以改变降噪方法或可以调整降噪级别。
根据本发明实施例的清晰度改进方法,应用噪声控制技术的近端噪声信号和通过使用清晰度改进技术改变的远端语音信号不是被简单地相互组合,而是在通过噪声控制技术物理地降低噪声的环境中采用清晰度提高技术,因此不仅可以改进主观声音质量还可以改进客观声音质量。
由于噪声信号在时间上变化速度非常快,因此当降噪器550在时间上快速响应时可以保证性能,并且可以根据噪声的变化特征在相当长时间内自适应地执行清晰度增强器570。
清晰度增强器570可以通过清晰度改进处理输出改变的语音信号,并且改变的语音信号与降噪器550的反相信号相加然后被输出。当噪声信号和噪声信号的反相信号相加时,生成相消干涉,因此可以减小噪声信号。
图6示出了根据实施例的与降噪器550相关的信号。
如上所述,ANC或有源噪声去除(有源噪声消除)技术生成噪声信号y(n),即反相信号,其具有与通过麦克风输入的噪声x(n)相反的相位,并对反相信号和原始信号进行相加,从而降低噪声。
作为对噪声信号和反相信号相加的结果而生成的信号是误差信号e(n),并且理想地,由于噪声信号x(n)和反相信号y(n)之间的相消干涉,噪声信号被完全去除,使得误差信号e(n)变为0。
然而,完全去除噪声实际上是不可能的,并且当反相信号和噪声信号之间的同步或相位不精确匹配时,可能由于相长干涉反而放大噪声。因此,根据噪声环境或实施例,通过调整反相信号的振幅或ANC模块的输出,主动地控制误差信号e(n)以减小误差信号e(n)。
降噪器550可以基于关于第(n-2)帧的参考噪声信号610生成关于第(n-2)帧的反相信号630,通过扬声器输出所生成的反相位信号,并通过第二麦克风获取关于第(n-2)帧的误差信号620。
降噪器550可以基于关于第(n-1)帧的参考噪声信号610来生成反相信号630,并且使用在第(n-2)帧处获取的误差信号。当误差信号几乎不存在或者很小时,可以确定降噪器550正常操作,而当误差信号异常大时,反相信号被不适当地生成,因此重新设置噪声控制参数并且生成第(n-1)帧的反相信号630。
降噪器550可以通过扬声器输出关于第(n-1)帧的所生成的反相信号630,并且通过第二麦克风获取关于第(n-1)帧的误差信号620。
这样,通过上述过程可以实现有源和自适应噪声控制。
图7示出了根据实施例的通过使用基于近端设备700中的虚拟感测的预测参考噪声信号来生成具有改进的清晰度的语音信号的操作。
在图7的实施例中公开的近端设备700可以包括麦克风部分711和712、控制器730(未示出)、降噪器750、清晰度增强器770和虚拟传感器790。
由箭头指示参考噪声信号、误差信号、反相信号和远端语音信号的流和声学信号路径。
第一麦克风(参考麦克风)711通常靠近终端用户的嘴,并且第一麦克风711可以接收近端噪声信号x(n)、通过反馈路径F(z)接收的反相信号y(n)或远端语音信号s_f(n)中的至少一个。第二麦克风(误差麦克风)712靠近终端用户的耳朵和终端的扬声器,并且第二麦克风712可以接收通过主路径P(z)接收的近端噪声信号x(n)和通过辅路径S(z)接收的反相信号y(n)中的至少一个。
在实际终端的实现中,虽然从扬声器输出的反相信号y(n)对位于相对远离扬声器的第一麦克风711没有影响,但反相信号y(n)会对整体信号处理具有很大影响,因为反相信号y(n)被输入到位于扬声器附近的第二麦克风。
尽管在图7中假设,当从扬声器输出的反相信号y(n)直接输入到第二麦克风712时,第二麦克风的输入是x(n)+y(n)(即,e(n)),输入到第二麦克风712的反相信号的效果可能根据实际实现而变化。根据本发明的另一实施例,通过单独的方法获得背景噪声信号x(n)和反相信号y(n),并且将这两个信号相加以生成误差信号e(n)。
图7中所示的实施例包括虚拟传感器790,并且虚拟传感器790通过使用在第一麦克风711处接收的噪声信号x(n),生成并输出关于在存在于虚拟位置的虚拟麦克风713处接收的虚拟噪声信号的反相信号。
背景噪声被实际上减小的位置必然是收听者的耳朵参考点(ERP),即鼓膜。因此,尽管扬声器和误差麦克风的理想位置是感知声音的ERP,但由于结构限制,扬声器和误差麦克风位于预期收听者的耳廓存在的位置,并且在第二麦克风的位置处获取误差信号e(n)。
由于握持终端的方式因人而异并且说话者的听觉器官的形状或大小彼此不同,所以收听者的ERP与终端的相对位置之间的差异可以变化。当使用多个麦克风时,可以对降噪进行更有效的信号建模,但是在减小终端的尺寸和厚度的趋势中,可能不容易安装额外的硬件模块。
因此,通过生成从第二麦克风712到收听者ERP的声音的传输路径函数,可以预测从至少一个虚拟麦克风位置生成的声音,以便估计虚拟误差信号e_v(n)。
在这种状态下,当第二麦克风712的位置更靠近说话者的耳朵的位置时,噪声去除性能被改进,因此虚拟麦克风的位置可以被设置为通过单独传感测量的说话者的耳朵的位置。
根据另一实施例,即使当第二麦克风712难以位于说话者的耳朵极可能所在的位置时,也可以通过使用虚拟感测来获得改进的噪声去除性能。
根据另一实施例,当存在通过多个参考麦克风接收的多个参考噪声信号时,基于虚拟感测的降噪技术可以生成多个预测误差信号,因此可以有效地去除噪声。
当使用通过虚拟感测的预测误差信号时,在虚拟感测的位置不匹配或者预测误差信号与实际信号不匹配时可能发生性能劣化,并且在这种情况下,可以通过将加权应用到降噪器750的输出信号来防止性能劣化。
降噪器750可以通过从参考噪声信号和虚拟误差信号生成预测参考噪声信号来获取反相信号,并且向清晰度增强器770传输所获取的反相信号、参考噪声信号、预测参考噪声信号和误差信号。在本说明书中,降噪信号可以表示作为降噪器750的输入/输出信号的参考噪声信号、预测参考噪声信号、反相信号和误差信号。
清晰度增强器770可以通过处理远端语音信号s_f(n)来增强清晰度,并且利用降噪器750的输出信号向扬声器输出具有改进的清晰度的远端语音信号。当在降噪器750中使用具有改进的清晰度的信号时,具有改进的清晰度的信号被发送到降噪器750。
这样,当通过使用虚拟误差信号在期望位置处执行降噪时,可以防止由于用户终端握持方式的差异或用户的听觉器官中的结构差异导致的降噪性能的恶化。
图8示出了根据本公开另一实施例的与降噪器750相关的各个信号。
输出扬声器或耳机的位置以及收听者感知声音的ERP彼此不同。因此,当关于输出扬声器(耳机)生成输出信号时,在输出扬声器(耳机)的输出信号和收听者的ERP之间存在传播延迟。
此外,由于处理可能存在附加时间延迟d,并且在虚拟感测方法中,可以基于时间预测来补偿附加时间延迟。
在这种状态下,假设存在多个参考麦克风(例如,L个参考麦克风),参考噪声信号810是L-信道信号。
空间预测相当于通过基于实际麦克风的位置和与ERP对应的虚拟参考噪声信号的位置将通过实际麦克风测量的参考噪声信号转换为虚拟参考噪声信号来反映传播延迟的过程。因此,参考噪声信号811、参考噪声信号812和参考噪声信号813分别被转换为预测参考噪声信号821、预测参考噪声信号822和预测参考噪声信号823。
时间预测是通过反映由于处理引起的附加延迟基于当前信号预测未来信号的过程。因此,通过反映附加延迟,将参考时间t的预测参考噪声信号823转换为t+d的预测参考噪声信号824。
根据本公开的实施例的信号处理装置的降噪器750可以从通过空间预测和时间预测的过程生成的预测参考噪声信号824生成反相信号840。因此,反相信号840对应于预测参考噪声信号820,并且通过将预测参考噪声信号820和反相信号840相加来生成误差信号830。
图9是根据实施例的生成具有改进的清晰度的语音信号的方法的流程图。
当在降噪器中确定反相信号并且获取误差信号时,在降噪器中,缓冲反相信号和误差信号(910),并且每个信号在时间上对齐并且组帧(framed)以与清晰度增强器匹配时间和帧同步(920)。
清晰度增强器还可以包括噪声信号改变器。在噪声信号改变器中,降噪器的噪声信号和降噪器的输出信号(即反相信号和误差信号)被时频转换(930),并且噪声信号的频谱被基于降噪器的输出信号在频域中被校正(940),从而改变噪声信号。
在清晰度增强器中,基于改变的噪声信号来确定转换的语音信号的每个频谱的类别(950),并且基于语音信号每条频谱信息的类别来生成语音信号改变信息(960),并且输出每个频谱的增益。
根据本公开的实施例,可以基于语音清晰度模型(详细地,听觉感知重要性或语音说话模式)来确定语音信号改变方法。
图10是根据实施例的近端设备中的降噪器1010和清晰度增强器1030的操作的框图。
根据本公开实施例的降噪器1010可以接收近端语音信号和噪声信号(参考噪声信号)并基于此输出反相信号、误差信号和预测参考噪声信号中的至少一个。
除了近端语音信号和噪声信号(参考噪声信号),根据本公开实施例的清晰度增强器1030可以接收远端语音信号,基于听觉感知重要性来改变语音信号(1031)并基于说话模式改变语音信号(1032),从而输出具有改进的清晰度的远端语音信号。
根据本公开的实施例,可以在图2的第一清晰度增强器230中执行基于听觉感知重要性改变语音信号的过程(1031),可以在第二清晰度增强器250中执行基于说话改变模式语音信号的过程(1032),并且可以根据模式确定器210的确定来选择性地操作第一清晰度增强器230和第二清晰度增强器250。
在这种状态下,清晰度增强器1030可以缓冲实时噪声控制信号,然后针对关于在耳朵中实际听到的噪声的信息采用清晰度改进方法。
根据本公开的另一实施例,降噪器1010可以使用关于从清晰度增强器1030输出的改变的语音信号的信息,并且在这种情况下,降噪器1010需要具有非常快的响应速度并且需要根据噪声信号的变化模式缓慢地调整清晰度增强器1030。
图11示出了根据实施例的基于听觉感知重要性改进语音清晰度的方法。
根据本公开的实施例的语音清晰度改进方法的目标是使得在具有大环境噪声信号N的环境中感知的语音信号(S+N)类似于在没有环境噪声信号的环境中感知的语音信号S。换句话说,具体地,为了提高语音信号S和噪声信号N的信噪比(SNR),语音信号(S+N)和语音信号S之间的包括噪声的误差信号被降低。
可以基于听觉感知重要性在频带上将语音信号S分类为信号S1和信号S2。信号S1对应于不显著影响基于感知模型的清晰度改进的频带的信号。信号S2对应于显著影响基于感知模型的清晰度改进的频带的信号。
可以如[公式1]表示包括噪声的语音信号(S+N)。
αS1+βS2+γN [公式1]
在这种情况下,如[公式2]表示语音信号(S+N)与语音信号S之间的包括噪声的误差信号。
S-(αS1+βS2+γN) [公式2]
可以如[公式3]表示误差信号的最小平方误差(LSE)。
min{[S-(αS1+βS2+γN)]^2} [公式3]
为了理想的清晰度改进,在包括噪声的语音信号(S+N)中,S1和N对应于要减小的分量,S2对应于要增加的分量。
换句话说,当选择满足[公式3]的每个信号的系数α、β和γ时,语音信号S和噪声信号N增加,因此改进了清晰度。为了满足[公式3],α减小,β增加,并且根据噪声的特性确定γ。这样的处理相当于将在没有感知到声音的频带和与信号S1对应的频带中的能量传递到与信号S2对应的频带的过程。
信号S1和信号S2不通过连续频带区分。语音信号以频谱为单位被分类为多个类别,并且为每个类别确定是否增加、减少或保持类别的能量;与要减小的类别相对应的信号被称为信号S1,并且与要增加的类别对应的信号被称为信号S2。
此外,在[公式1]至[公式3]中,应注意的是,省略了关于与维持能量的类别对应的信号的描述。
如图11中所示,通过根据感知模式的绝对临界值来确定S1信号频带和其中没有感知到声音的频带。
在根据[公式1]到[公式3]的过程中,信号(αS1+βS2+γN)中的(βS2+γN)被视为噪声,与信号S1和信号S2之间的边界对应的部分可以被解释为要设置的新临界值。
根据本公开的另一实施例,可以通过使用基于感知模型的加权W将[公式3]改变为[公式4]。
min{W[S-(αS1+βS2+γN)]^2} [公式4]
在这种情况下,可以通过确定性方法获得用于清晰度改进的W、α、β或γ。
图12示出了根据实施例的清晰度改进方法中的语音信号的频带之间的能量交换关系。
根据本公开实施例的确定信号S1的减少的能量值、信号S2的增加的能量值和具有基于感知模型未感知到的分量的信号的减少的能量值的方法确定了闭环的形式的能量交换关系,以便改变语音信号,从而改进清晰度。
根据本公开另一实施例,一种减小了包括语音信号S和噪声的语音信号(S+N)的均方误差(MSE)的确定信号S1的减少的能量值和信号S2的增加的能量值的方法,根据考虑了能量交换关系的确定性方法来改变语音信号,从而改进清晰度。根据这些方法,当根据分类的频带类别处理信号时,可以对每个频率分量进行处理,并且可以改进客观的测量性能。
图13示出了根据实施例的当基于听觉感知重要性改变语音信号时每个频带的能量变化。
线1310表示根据频带的语音信号的能量,线1320表示用于确定是否增加或减小信号的能量级别的掩蔽临界值。线1330表示考虑了基于心理声学模型的听觉感知重要性,确定语音清晰度的重要频带,其在曲线图中被表示为指示语音信号的能量的线1310上的圆。
在表示根据频带的语音信号的能量的线1310中,频带1的信号对应于低频信号,并且对于心理声学地确定语音清晰度没有显着影响。然而,频带1的信号具有高于其他频带的信号的能量级别。
此外,还从用于确定语音清晰度的重要频带中排除频带12、13、16、17、19和20的信号。在图13中可以通过比较每个频带信号的能量级别1310和掩蔽临界级1320来进行核查,并且因此确定频带12、13、16、17、19和20的掩蔽临界值大于相应部分的语音信号能量级别。
因此,频带1、12、13、16、17、19和20的信号能量被适当地分布给重要频带,以便用于增加重要频带信号的能量级别。具体地,由于频带1的信号具有高于其他频带的信号的能量级别,所以频带1的信号的能量可以被分配到各种重要频带信号的部分S2_1、S2_1和S2_3。
图14示出了根据实施例的通过基于语音信号的说话模式改变语音信号来改进语音信号的清晰度的方法。
曲线图1410示出了根据说话者说出的语音信号的说话模式,其中,线1412表示当人们一般说话时的语音信号的(随意)说话模式并且线1411表示当一个人意图清楚说话时语音信号的(清楚)说话模式。
因此,在具有高噪声级别的环境中,根据嘈杂环境基于说话模式模型来将具有诸如线1412的特征的说话者的语音信号改变为具有诸如线1411的特征的信号。由于所改变的信号的振幅大于改变之前的信号,所以改变信号可以具有更高的能量级别。
曲线图1420示出了具有诸如线1411的特征的语音信号和具有诸如线1412的特征的语音信号的调制频率的调制指数,其中基于说话模式模型改变的语音信号的能量级别高于改变之前的语音信号的能量级别,可以调整所改变的语音信号以具有更高的调制指数。
图15示出了根据另一实施例的在近端设备1500中生成具有改进的清晰度的改变信号的方法。
与根据实施例的图5的近端设备500进行比较,根据实施例的图15的近端设备1500还可以包括虚拟麦克风1513、预处理器1520和编解码器单元1560。
关于近端语音信号、近端噪声信号、远端语音信号和来自远端终端的呼入的各条信息被发送到预处理器1520。
在这种情况下,近端语音信号可以包括所有通过第一麦克风1511接收的噪声-语音信号、通过第二麦克风接收的噪声信号以及在虚拟麦克风1513处预测的虚拟噪声。远端语音信号可以包括从远端终端发送的语音信号。关于呼入的信息可以包括远端语音信号的编解码器类型、编解码器的核心模式和DTX信息。
预处理器1520预处理所接收的信号以获取语音信号、噪声信号和误差信号,并将所获取的信号发送到控制器1530和编解码器单元1560,并且还将关于所发送的呼入的信息发送到控制器1530和编解码单元1560。在这种状态下,预处理器1520可以包括回声消除器。
编解码器单元1560的编码器1561对近端语音信号进行编码,并且编解码器单元1560的解码器1562对远端语音信号进行解码。编解码器单元1560向控制器1530发送由解码器1562解码的远端语音信号s_f(n)。
控制器1530可以基于近端语音信号和噪声信号以及远端语音信号和呼叫信息来控制降噪器1550和清晰度增强器1570的操作。控制器1530可以控制降噪器1550的输出和清晰度增强器1570的输出功率,或者控制降噪器1550和清晰度增强器1570的操作以根据噪声类型进行选择性地操作。
可替代地,控制器1530可以基于近端语音信号和噪声信号以及远端语音信号和呼叫信息来确定降噪器1550的降噪信息或清晰度增强器1570的清晰度改进级别。
降噪器1550可以通过使用近端噪声信号和误差信号来生成反相信号。当通过扬声器来输出噪声信号的反相信号时,噪声信号由于相消干涉而被抵消,因此可以物理地减少噪声。
清晰度增强器1570处理远端语音信号,从而改进清晰度。清晰度增强器1570使用从控制器1530发送的控制信号和从降噪器1550发送的降噪信号,以改进远端语音信号的清晰度。
根据本公开实施例的清晰度改进方法,应用降噪技术的近端语音信号和应用清晰度改进技术的远端语音信号不是被简单地相互组合,而是在通过噪声控制技术物理地降低噪声的环境中采用清晰度提高技术,因此不仅可以改进主观声音质量还可以改进客观声音质量。
可以以各种计算设备可执行的程序命令的形式实现上述公开的实施例,并且可以在计算机可读介质上记录上述公开的实施例。计算机可读介质可以单独地或组合地包括程序命令、数据文件、数据结构等。记录在介质上的程序命令可以是为本公开专门设计和配置的,或者可以是本公开可用的(例如计算机软件),这是本公开所属领域的普通技术人员所熟知的。计算机可读记录介质可以包括被特别地配置为存储和执行程序指令的磁介质(例如硬盘、软盘和磁带)、光学介质(例如CD-ROM和DVD)、磁光介质(例如光软盘)以及硬件装置(例如ROM、RAM和闪速存储器)。程序命令的示例不仅可以包括由编译器创建的机器代码,还可以包括使用解释器的计算机课执行的高级别编程语言。上述硬件设备可以被配置为作为一个或更多个软件模块操作以执行根据本公开的各种实施例的操作,或反之亦然。
尽管已经参考使用特定术语的优选实施例具体地示出和描述了本公开,但是仅应该出于描述性场景而不是出于限制的目的来考虑这些实施例和术语。因此,本领域技术人员应理解的是,可以在不脱离由所附权利要求书所限定的本公开的精神和范围的情况下作出各种形式和细节上的改变。
因此,本公开的范围不是由本公开的详细描述所限定,而是由所附权利要求所限定,并且该范围内的所有改变将被解释为包括在本公开中。

Claims (23)

1.一种语音信号处理方法,所述语音信号处理方法包括:
通过使用至少一个麦克风获取近端噪声信号和近端语音信号;
根据呼入获取远端语音信号;
基于关于所述近端语音信号的信息、关于所述近端噪声信号的信息或关于所述远端语音信号的信息中的至少一者来确定噪声控制参数和语音信号改变参数;
基于所述噪声控制参数来生成所述近端噪声信号的反相信号;
基于与所述语音信号改变参数、所述近端噪声信号或所述反相信号中的至少一者相关的信息,改变所述远端语音信号以改进所述远端语音信号的清晰度;以及
输出所述反相信号和改变后的远端语音信号。
2.根据权利要求1所述的语音信号处理方法,其中,所述反相信号包括:
关于虚拟噪声信号的反相信号,所述虚拟信号是基于获取所述近端噪声信号的位置和感知所述远端语音信号的位置之间的差异或者获取近端噪声信号的时间和感知所述远端语音信号的时间之间的差异中的至少一者从所述远端噪声信号估计的。
3.根据权利要求1所述的语音信号处理方法,其中,关于所述远端语音信号的信息包括:
关于所述远端语音信号的编码的信息、关于所述远端语音信号的频带的信息、关于是否正在输出所述远端语音信号的信息、关于接收所述呼入的信道的信息、或关于所述呼入的模式的信息中的至少一者。
4.根据权利要求1所述的语音信号处理方法,其中,关于所述近端语音信号的信息包括:
关于所述近端语音信号是否处于活动状态的信息。
5.根据权利要求1所述的语音信号处理方法,其中,关于所述近端噪声信号的信息包括:
关于所述近端噪声信号的频带的信息或者关于所述近端噪声信号的噪声类型的信息中的至少一者。
6.根据权利要求1所述的语音信号处理方法,其中,所述噪声控制参数表示:
是否生成所述反相信号、所述反相信号的输出功率或者在其中生成所述反相信号的频带中的至少一者。
7.根据权利要求1所述的语音信号处理方法,其中,所述语音信号改变参数表示:
关于是否改变所述远端语音的信息、关于改变后的远端语音信号的输出功率的信息、关于在其中所述远端语音信号被改变的频带的信息或关于语音信号改变方法的信息中的至少一条信息。
8.根据权利要求1所述的语音信号处理方法,其中,在改变所述远端语音信号时,
针对远端语音信号频谱的每个频率仓,减小所获取的远端语音信号与存在所述近端噪声信号和所述反相信号的环境下的远端语音信号之间的差异。
9.根据权利要求8所述的语音信号处理方法,其中,改变所述远端语音信号包括:
基于听觉感知模型将频率仓分类为能量增加类、能量减少类和能量维持类;以及
将所述远端语音信号的所述能量减少类的能量转移到所述能量增加类。
10.根据权利要求1所述的语音信号处理方法,其中,改变所述远端语音信号包括:
根据基于说话模式的模型来改变所述远端语音信号。
11.根据权利要求1所述的语音信号处理方法,其中,所述反相信号是基于前一帧的改变后的远端语音信号生成的。
12.一种语音信号处理装置,所述语音信号处理装置包括:
至少一个麦克风,所述至少一个麦克风被配置为获取近端噪声信号和近端语音信号;
接收器,所述接收器被配置为根据呼入获取远端语音信号;
控制器,所述控制器被配置为基于关于所述近端语音信号的信息、关于所述近端噪声信号的信息或关于所述远端语音信号的信息中的至少一者来确定噪声控制参数和语音信号改变参数;
降噪器,所述降噪器被配置为基于所述噪声控制参数来生成所述近端噪声信号的反相信号;
语音信号改变器,所述语音信号改变器被配置为基于与所述语音信号改变参数、所述近端噪声信号或所述反相信号中的至少一者有关的信息,改变所述远端语音信号以改进所述远端语音信号的清晰度;以及
输出器,所述输出器被配置为输出所述反相信号和改变后的远端语音信号。
13.根据权利要求12所述的语音信号处理装置,其中,所述反相信号包括:
关于虚拟噪声信号的反相信号,所述虚拟信号是基于获取所述近端噪声信号的位置和感知所述远端语音信号的位置之间的差异或者获取近端噪声信号的时间和感知所述远端语音信号的时间之间的差异中的至少一者从所述远端噪声信号估计的。
14.根据权利要求12所述的语音信号处理装置,其中,关于所述远端语音信号的信息包括:
关于所述远端语音信号编码的信息、关于所述远端语音信号的频带的信息、关于是否正在输出所述远端语音信号的信息、关于接收所述呼入的信道的信息、或关于所述呼入的模式的信息中的至少一者。
15.根据权利要求12所述的语音信号处理装置,其中,关于所述近端语音信号的信息包括:
关于所述近端语音信号是否处于活动状态的信息。
16.根据权利要求12所述的语音信号处理装置,其中,关于所述近端噪声信号的信息包括:
关于所述近端噪声信号的频带的信息或者关于所述近端噪声信号的噪声类型的信息中的至少一者。
17.根据权利要求12所述的语音信号处理装置,其中,所述噪声控制参数表示:
是否生成所述反相信号、所述反相信号的输出功率或者在其中生成所述反相信号的频带中的至少一者。
18.根据权利要求12所述的语音信号处理装置,其中,所述语音信号改变参数表示:
关于是否改变所述远端语音的信息、关于改变后的远端语音信号的输出功率的信息、关于在其中所述远端语音信号被改变的频带的信息或关于语音信号改变方法的信息中的至少一条信息。
19.根据权利要求12所述的语音信号处理装置,其中,所述语音信号改变器进一步被配置为针对远端语音信号频谱的每个频率仓,减小所获取的远端语音信号与存在所述近端噪声信号和所述反相信号的环境下的远端语音信号之间的差异。
20.根据权利要求19所述的语音信号处理装置,其中,所述语音信号改变器进一步被配置为基于听觉感知模型将频率仓分类为能量增加类、能量减少类和能量维持类,并且将所述远端语音信号的所述能量减少类的能量转移到所述能量增加类。
21.根据权利要求12所述的语音信号处理装置,其中,所述语音信号改变器进一步被配置为根据基于说话模式的模型来改变所述远端语音信号。
22.根据权利要求12所述的语音信号处理装置,其中,所述反相信号是基于前一帧的改变后的远端语音信号生成的。
23.一种非暂时性计算机可读记录介质,所述非暂时性计算机可读记录介质上记录有用于执行权利要求1所限定的方法的程序。
CN201780088703.6A 2017-03-22 2017-03-22 自适应噪声环境的语音信号处理的方法和装置 Active CN110447069B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2017/003055 WO2018174310A1 (ko) 2017-03-22 2017-03-22 잡음 환경에 적응적인 음성 신호 처리방법 및 장치

Publications (2)

Publication Number Publication Date
CN110447069A true CN110447069A (zh) 2019-11-12
CN110447069B CN110447069B (zh) 2023-09-26

Family

ID=63584585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780088703.6A Active CN110447069B (zh) 2017-03-22 2017-03-22 自适应噪声环境的语音信号处理的方法和装置

Country Status (6)

Country Link
US (1) US11152015B2 (zh)
EP (1) EP3605529B1 (zh)
KR (1) KR102317686B1 (zh)
CN (1) CN110447069B (zh)
AU (1) AU2017405291B2 (zh)
WO (1) WO2018174310A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309418A (zh) * 2020-10-30 2021-02-02 出门问问(苏州)信息科技有限公司 一种抑制风噪声的方法及装置
CN114550740A (zh) * 2022-04-26 2022-05-27 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109994104B (zh) * 2019-01-14 2021-05-14 珠海慧联科技有限公司 一种自适应通话音量控制方法及装置
DE102019205694A1 (de) * 2019-04-18 2020-10-22 Volkswagen Aktiengesellschaft Geschwindigkeitsabhängige Rauschunterdrückung bei Audiosignalen in einem Fahrzeug
US10991377B2 (en) 2019-05-14 2021-04-27 Goodix Technology (Hk) Company Limited Method and system for speaker loudness control
CN110223711B (zh) * 2019-06-03 2021-06-01 清华大学 基于麦克风信号的语音交互唤醒电子设备、方法和介质
KR20210078682A (ko) * 2019-12-19 2021-06-29 삼성전자주식회사 전자장치 및 그 제어방법
CN111883097A (zh) * 2020-08-05 2020-11-03 西安艾科特声学科技有限公司 一种基于虚拟传感的列车驾驶室有源噪声控制系统
CN113409803B (zh) * 2020-11-06 2024-01-23 腾讯科技(深圳)有限公司 语音信号处理方法、装置、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008311876A (ja) * 2007-06-13 2008-12-25 Funai Electric Co Ltd 電話機能付きテレビジョン装置、テレビジョンシステムおよび雑音信号の除去方法
CN101853667A (zh) * 2010-05-25 2010-10-06 无锡中星微电子有限公司 一种语音降噪装置
US20140064507A1 (en) * 2012-09-02 2014-03-06 QoSound, Inc. Method for adaptive audio signal shaping for improved playback in a noisy environment

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4622399B2 (ja) * 2004-09-07 2011-02-02 沖電気工業株式会社 エコーキャンセラ付き通信端末及びそのエコーキャンセル方法
US9202456B2 (en) * 2009-04-23 2015-12-01 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for automatic control of active noise cancellation
KR101639331B1 (ko) 2009-12-04 2016-07-25 삼성전자주식회사 잡음 환경에서 음성 신호를 강화하는 방법 및 그 장치
KR101658908B1 (ko) 2010-05-17 2016-09-30 삼성전자주식회사 휴대용 단말기에서 통화 음질을 개선하기 위한 장치 및 방법
US9099077B2 (en) 2010-06-04 2015-08-04 Apple Inc. Active noise cancellation decisions using a degraded reference
US8515089B2 (en) 2010-06-04 2013-08-20 Apple Inc. Active noise cancellation decisions in a portable audio device
US8744091B2 (en) 2010-11-12 2014-06-03 Apple Inc. Intelligibility control using ambient noise detection
JP2012252240A (ja) * 2011-06-06 2012-12-20 Sony Corp 再生装置、信号処理装置、信号処理方法
CN102348151B (zh) 2011-09-10 2015-07-29 歌尔声学股份有限公司 噪声消除系统和方法、智能控制方法和装置、通信设备
KR101373082B1 (ko) 2012-04-09 2014-03-12 (주)알고코리아 외부 잡음 제거 기능을 가지는 음향 제공 장치
US9058801B2 (en) 2012-09-09 2015-06-16 Apple Inc. Robust process for managing filter coefficients in adaptive noise canceling systems
WO2015027168A1 (en) 2013-08-23 2015-02-26 Google Inc. Method and system for speech intellibility enhancement in noisy environments
US9576588B2 (en) 2014-02-10 2017-02-21 Apple Inc. Close-talk detector for personal listening device with adaptive active noise control
US10014961B2 (en) 2014-04-10 2018-07-03 Google Llc Mutual information based intelligibility enhancement
KR102346660B1 (ko) * 2015-08-25 2022-01-03 삼성전자주식회사 에코 제거 방법 및 그 전자 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008311876A (ja) * 2007-06-13 2008-12-25 Funai Electric Co Ltd 電話機能付きテレビジョン装置、テレビジョンシステムおよび雑音信号の除去方法
CN101853667A (zh) * 2010-05-25 2010-10-06 无锡中星微电子有限公司 一种语音降噪装置
US20140064507A1 (en) * 2012-09-02 2014-03-06 QoSound, Inc. Method for adaptive audio signal shaping for improved playback in a noisy environment

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309418A (zh) * 2020-10-30 2021-02-02 出门问问(苏州)信息科技有限公司 一种抑制风噪声的方法及装置
CN112309418B (zh) * 2020-10-30 2023-06-27 出门问问(苏州)信息科技有限公司 一种抑制风噪声的方法及装置
CN114550740A (zh) * 2022-04-26 2022-05-27 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统
CN114550740B (zh) * 2022-04-26 2022-07-15 天津市北海通信技术有限公司 噪声下的语音清晰度算法及其列车音频播放方法、系统

Also Published As

Publication number Publication date
KR20190117725A (ko) 2019-10-16
US20200090675A1 (en) 2020-03-19
KR102317686B1 (ko) 2021-10-26
EP3605529A1 (en) 2020-02-05
US11152015B2 (en) 2021-10-19
EP3605529B1 (en) 2022-09-21
EP3605529A4 (en) 2020-04-22
AU2017405291B2 (en) 2020-10-15
CN110447069B (zh) 2023-09-26
AU2017405291A1 (en) 2019-10-10
WO2018174310A1 (ko) 2018-09-27

Similar Documents

Publication Publication Date Title
CN110447069A (zh) 自适应噪声环境的语音信号处理的方法和装置
JP4755506B2 (ja) オーディオ強化システムおよび方法
US8538749B2 (en) Systems, methods, apparatus, and computer program products for enhanced intelligibility
KR101270854B1 (ko) 스펙트럼 콘트라스트 인핸스먼트를 위한 시스템, 방법, 장치, 및 컴퓨터 프로그램 제품
EP2577657B1 (en) Systems, methods, devices, apparatus, and computer program products for audio equalization
US9558755B1 (en) Noise suppression assisted automatic speech recognition
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
CA2527461C (en) Reverberation estimation and suppression system
US8611552B1 (en) Direction-aware active noise cancellation system
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
CN108235181B (zh) 在音频处理装置中降噪的方法
US9343073B1 (en) Robust noise suppression system in adverse echo conditions
JP2008197200A (ja) 了解度自動調整装置及び了解度自動調整方法
EP3830823A1 (en) Forced gap insertion for pervasive listening
EP4258263A1 (en) Apparatus and method for noise suppression

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant