CN111370017B - 一种语音增强方法、装置、系统 - Google Patents

一种语音增强方法、装置、系统 Download PDF

Info

Publication number
CN111370017B
CN111370017B CN202010192095.7A CN202010192095A CN111370017B CN 111370017 B CN111370017 B CN 111370017B CN 202010192095 A CN202010192095 A CN 202010192095A CN 111370017 B CN111370017 B CN 111370017B
Authority
CN
China
Prior art keywords
frequency points
different frequency
voice data
data
loudness values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010192095.7A
Other languages
English (en)
Other versions
CN111370017A (zh
Inventor
刘兵兵
包飞
吴科苇
刘如意
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suning Cloud Computing Co Ltd
Original Assignee
Suning Cloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suning Cloud Computing Co Ltd filed Critical Suning Cloud Computing Co Ltd
Priority to CN202010192095.7A priority Critical patent/CN111370017B/zh
Publication of CN111370017A publication Critical patent/CN111370017A/zh
Application granted granted Critical
Publication of CN111370017B publication Critical patent/CN111370017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本申请实施例公开一种语音增强方法、装置、系统,方法包括:对原始语音数据和噪声数据进行傅里叶变换并且对傅里叶变换后得到的原始语音数据和噪声数据的不同频点的短时幅度谱进行响度处理;将噪声数据的不同频点的响度值输入至一心理声学模型得到噪声数据的不同频点的掩蔽阈值,根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整;根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益,根据放大增益对原始语音数据的不同频点的响度值进行放大、转换成对应频点的短时幅度谱并进行反傅里叶变换得到增强后的语音数据。本申请可以实现语音放大以使语音掩盖噪声的同时具有较高的感知质量。

Description

一种语音增强方法、装置、系统
技术领域
本发明属于声学领域,尤其涉及一种语音增强方法、装置、系统。
背景技术
一般情况下,当设备播放声音时,噪声都会伴随着语音一起被听到。噪声并不是所需要的声音,它的存在对语音产生了干扰,有时候严重影响人耳对语音的感知。通常情况下,会采用语音增强的方法,对含有噪声的语音进行处理,使语音得到增强,噪声得到抑制。
但在很多情况下,噪声并不是和语音一起从设备中传输过来的,而是从其他实际的环境中传过来的。比如,当室内音频播放设备播放着音乐,而隔壁恰好在装修,此时装修的声音不停地传进来,掩盖了音乐。这种情况下,除了物理隔绝手段,没有办法对噪声进行主动降噪。为了调高对音乐的体验,通常的做法是调高音频播放设备的音量,使得播放的声音高过噪声。但当音量调高一定程度时,由于器件的非线性,会使得播放的声音有所失真,降低声音感知的质量。因此,亟待一种新的处理方法来解决上述问题。
发明内容
为了解决现有技术的问题,本发明提出了一种语音增强方法、装置、系统,本方法根据一心理声学模型计算噪声的掩蔽阈值,根据噪声的掩蔽阈值调整声音的响度值,并且根据调整后的声音的响度值和调整前的声音的响度值来确定放大增益,从而对语音进行放大,这样既能保证声音可以掩盖噪声,同时也能保证放大后的声音具有较高的感知质量。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供一种语音增强方法,所述方法包括:
对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;
分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;
根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益,并根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理;
将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
优选的,根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益具体包括:
将所述原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值;
将所述常数因子确定为所述原始语音数据的不同频点的响度值的放大增益。
优选的,根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理具体包括:
将所述放大增益乘以所述原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
优选的,在获取所述噪声数据之前,所述方法还包括:
接收由麦克风阵列系统采集的音频数据;
根据预存储的原始语音数据,对所述音频数据进行回声抵消;
判断回声抵消后的数据是否为噪声数据。
第二方面,本发明提供一种语音增强装置,所述装置包括:
转换模块,用于对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;以及用于分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
调整模块,用于将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;以及用于根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益;
处理模块,用于根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理;
所述转换模块还用于将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
优选的,所述调整模块具体用于:
将所述原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值;
将所述常数因子确定为所述原始语音数据的不同频点的响度值的放大增益。
优选的,所述处理模块具体用于:
将所述放大增益乘以所述原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
优选的,所述装置还包括:
接收模块,用于接收由麦克风阵列系统采集的音频数据;
分离模块,用于根据预存储的原始语音数据,对所述音频数据进行回声抵消;
判断模块,用于判断回声抵消后的数据是否为噪声数据。
第三方面,本发明提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;
分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;
根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益,并根据所述放大增益对原始语音数据的不同频点的响度值进行放大处理;
将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
本发明实施例具有如下有益效果:
本发明根据一心理声学模型计算噪声的掩蔽阈值,根据噪声的掩蔽阈值调整声音的响度值,并且根据调整后的声音的响度值和调整前的声音的响度值来确定放大增益,从而对语音进行放大,这样既能保证声音可以掩盖噪声,同时也能保证放大后的声音具有较高的感知质量。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的一种语音增强方法的流程图;
图2是本申请实施例二提供的一种语音增强装置的结构示意图;
图3是本申请实施例三提供的一种计算机系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本申请提供了一种语音增强方法,可以应用于一终端,终端与麦克风阵列系统和音频设备进行通信。麦克风阵列系统安装在音频设备上,两者通过网络进行通信。麦克风阵列系统可以同时采集音频设备播放的语音以及外界环境噪声并发送至终端由终端进行处理,具体的实现过程如下:
S11、接收麦克风阵列系统采集的音频数据。
其中,音频数据包括音频设备发出的语音数据、外界的噪声数据中的至少一种。
S12、根据预存储的原始语音数据,对音频数据进行回声抵消。
当音频数据为包括语音数据和噪声数据时的混合数据时,需要对音频数据进行分离以得到噪声数据。
S13、判断回声抵消后的数据是否为噪声数据。
S14、当回声抵消后的数据为噪声数据时,对原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据和噪声数据的不同频点的短时幅度谱。
S15、分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值。
S16、将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整。
其中,本方案中的心理声学模型为Johnston掩蔽模型,由于Johnston掩蔽模型属于现有技术,因此不再进行赘述。
根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整具体包括:
根据噪声数据的不同频点的掩蔽阈值,对原始语音数据的对应频点的响度值进行调整以使调整后的语音数据的不同频点的响度值大于等于噪声数据的对应频点的掩蔽阈值。
S17、根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益,并根据放大增益对原始语音数据的不同频点的响度值进行放大处理。
该步骤具体可以包括:
1、将原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于调整后的语音数据的不同频点的响度值;
2、将常数因子确定为原始语音数据的不同频点的响度值的放大增益;
3、将放大增益乘以原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
本方案中,将原始语音数据和噪声数据从时域变换到响度域,再进行掩蔽计算、放大处理等,可以保证声音不失真,具有较高的质量。
S18、将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
该步骤具体可以包括:
如此,终端便可将放大后的语音数据发送至音频设备,从而音频设备播放放大的语音。
根据上述语音增强方法对不同的噪声场景进行测试,得到的实验结果如下表1所示:
表1不同实验场景的pesq指标对比结果
Figure BDA0002416299620000071
由此,根据本方案的语音增强方法,可以提高语音质量。
实施例二
如图2所示,本申请提供了一种语音增强装置,包括:
转换模块21,用于对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;以及用于分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
调整模块22,用于将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整;以及用于根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益;
处理模块23,用于根据放大增益对原始语音数据的不同频点的响度值进行放大处理;
上述转换模块21还用于将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
优选的,上述调整模块22具体用于:
将原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于调整后的语音数据的不同频点的响度值;
将常数因子确定为原始语音数据的不同频点的响度值的放大增益。
优选的,上述处理模块23具体用于:
将放大增益乘以原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
优选的,上述装置还包括:
接收模块24,用于接收由麦克风阵列系统采集的音频数据;
分离模块25,用于根据预存储的原始语音数据,对音频数据进行回声抵消;
判断模块26,用于判断回声抵消后的数据是否为噪声数据。
实施例三
本申请提供了一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整;
根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益,并根据放大增益对原始语音数据的不同频点的响度值进行放大处理;
将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
其中,图3示例性的展示出了计算机系统的架构,具体可以包括处理器32,视频显示适配器34,磁盘驱动器36,输入/输出接口38,网络接口310,以及存储器312。上述处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310,与存储器312之间可以通过通信总线314进行通信连接。
其中,处理器32可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器312可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器312可以存储用于控制计算机系统30运行的操作系统316,用于控制计算机系统的低级别操作的基本输入输出系统(BIOS)318。另外,还可以存储网页浏览器320,数据存储管理系统322等等。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器312中,并由处理器32来调用执行。
输入/输出接口38用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口310用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
通信总线314包括一通路,在设备的各个组件(例如处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310,与存储器312之间传输信息。
另外,该计算机系统还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310,存储器312,通信总线314等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务端,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。另外,上述实施例提供的计算机系统、语音增强装置与语音增强方法属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种语音增强方法,其特征在于,所述方法包括:
对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;
分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;
根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益,并根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理;
将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
2.根据权利要求1所述的方法,其特征在于,根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益具体包括:
将所述原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值;
将所述常数因子确定为所述原始语音数据的不同频点的响度值的放大增益。
3.根据权利要求1或2所述的方法,其特征在于,根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理具体包括:
将所述放大增益乘以所述原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
4.根据权利要求1或2所述的方法,其特征在于,在获取所述噪声数据之前,所述方法还包括:
接收由麦克风阵列系统采集的音频数据;
根据预存储的原始语音数据,对所述音频数据进行回声抵消;
判断回声抵消后的数据是否为噪声数据。
5.一种语音增强装置,其特征在于,所述装置包括:
转换模块,用于对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;以及用于分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
调整模块,用于将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;以及用于根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益;
处理模块,用于根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理;
所述转换模块还用于将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
6.根据权利要求5所述的装置,其特征在于,所述调整模块具体用于:
将所述原始语音数据的不同频点的响度值以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值;
将所述常数因子确定为所述原始语音数据的不同频点的响度值的放大增益。
7.根据权利要求5或6所述的装置,其特征在于,所述处理模块具体用于:
将所述放大增益乘以所述原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。
8.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收由麦克风阵列系统采集的音频数据;
分离模块,用于根据预存储的原始语音数据,对所述音频数据进行回声抵消;
判断模块,用于判断回声抵消后的数据是否为噪声数据。
9.一种计算机系统,其特征在于,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱;
分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值;
将噪声数据的不同频点的响度值输入至一预设的心理声学模型,得到噪声数据的不同频点的掩蔽阈值,根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整;
根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益,并根据所述放大增益对原始语音数据的不同频点的响度值进行放大处理;
将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱,并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。
CN202010192095.7A 2020-03-18 2020-03-18 一种语音增强方法、装置、系统 Active CN111370017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010192095.7A CN111370017B (zh) 2020-03-18 2020-03-18 一种语音增强方法、装置、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010192095.7A CN111370017B (zh) 2020-03-18 2020-03-18 一种语音增强方法、装置、系统

Publications (2)

Publication Number Publication Date
CN111370017A CN111370017A (zh) 2020-07-03
CN111370017B true CN111370017B (zh) 2023-04-14

Family

ID=71209002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010192095.7A Active CN111370017B (zh) 2020-03-18 2020-03-18 一种语音增强方法、装置、系统

Country Status (1)

Country Link
CN (1) CN111370017B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115862657B (zh) * 2023-02-22 2023-07-28 科大讯飞(苏州)科技有限公司 随噪增益方法和装置、车载系统、电子设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550924A (en) * 1993-07-07 1996-08-27 Picturetel Corporation Reduction of background noise for speech enhancement
CN1870135A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 基于掩蔽曲线的数字助听器频响补偿方法
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
CN102157156A (zh) * 2011-03-21 2011-08-17 清华大学 一种单通道语音增强的方法和系统
JP2012163682A (ja) * 2011-02-04 2012-08-30 Nec Casio Mobile Communications Ltd 音声処理装置及び方法
CN103039023A (zh) * 2010-04-09 2013-04-10 Dts公司 音频重放的自适应环境噪声补偿
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103580632A (zh) * 2012-08-01 2014-02-12 哈曼贝克自动系统股份有限公司 自动响度控制
CN103594093A (zh) * 2012-08-15 2014-02-19 王景芳 基于信噪比软掩蔽语音增强方法
CN108768330A (zh) * 2012-08-01 2018-11-06 哈曼贝克自动系统股份有限公司 自动响度控制
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN110265046A (zh) * 2019-07-25 2019-09-20 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090122142A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101764926B1 (ko) * 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5550924A (en) * 1993-07-07 1996-08-27 Picturetel Corporation Reduction of background noise for speech enhancement
CN1870135A (zh) * 2005-05-24 2006-11-29 北京大学科技开发部 基于掩蔽曲线的数字助听器频响补偿方法
CN101636648A (zh) * 2007-03-19 2010-01-27 杜比实验室特许公司 采用感知模型的语音增强
CN101777349A (zh) * 2009-12-08 2010-07-14 中国科学院自动化研究所 基于听觉感知特性的信号子空间麦克风阵列语音增强方法
CN103039023A (zh) * 2010-04-09 2013-04-10 Dts公司 音频重放的自适应环境噪声补偿
JP2012163682A (ja) * 2011-02-04 2012-08-30 Nec Casio Mobile Communications Ltd 音声処理装置及び方法
CN102157156A (zh) * 2011-03-21 2011-08-17 清华大学 一种单通道语音增强的方法和系统
CN103580632A (zh) * 2012-08-01 2014-02-12 哈曼贝克自动系统股份有限公司 自动响度控制
CN108768330A (zh) * 2012-08-01 2018-11-06 哈曼贝克自动系统股份有限公司 自动响度控制
CN103594093A (zh) * 2012-08-15 2014-02-19 王景芳 基于信噪比软掩蔽语音增强方法
CN103578479A (zh) * 2013-09-18 2014-02-12 中国人民解放军电子工程学院 基于听觉掩蔽效应的语音可懂度测量方法
CN103531204A (zh) * 2013-10-11 2014-01-22 深港产学研基地 语音增强方法
CN109119093A (zh) * 2018-10-30 2019-01-01 Oppo广东移动通信有限公司 语音降噪方法、装置、存储介质及移动终端
CN110265046A (zh) * 2019-07-25 2019-09-20 腾讯科技(深圳)有限公司 一种编码参数调控方法、装置、设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A speech enhancement algorithm to reduce noise and;JEON Yu-yong;《J. Cent. South Univ. Technol》;20111230;全文 *
Chang Huai You;An Invertible Frequency Eigendomain Transformation;《IEEE SIGNAL PROCESSING LETTERS》;20050530;全文 *
场景字符识别综述;罗昱成;《现代计算机》;20200205(第04期);全文 *
基于 MMSE-MLSA 与感知滤波的语音增强算法;董胡;《计算机技术与发展》;20190830;全文 *
改进的基于人耳掩蔽效应谱减语音增强算法;赵晓群;《通信学报》;20080930;全文 *

Also Published As

Publication number Publication date
CN111370017A (zh) 2020-07-03

Similar Documents

Publication Publication Date Title
CN109658942B (zh) 一种音频数据处理方法、装置以及相关设备
JP2011523086A (ja) ダイナミックサウンド提供システム及び方法
CN102549659A (zh) 抑制音频信号中的噪声
CN107948869B (zh) 音频处理方法、装置、音响系统及存储介质
CN110956976B (zh) 一种回声消除方法、装置、设备及可读存储介质
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN111370017B (zh) 一种语音增强方法、装置、系统
US9373341B2 (en) Method and system for bias corrected speech level determination
CN113963716A (zh) 通话式门铃的音量均衡方法、装置、设备和可读存储介质
CN112669878B (zh) 声音增益值的计算方法、装置和电子设备
CN116612778B (zh) 回声及噪声抑制方法、相关装置和介质
CN110611862A (zh) 麦克风增益调节方法、装置、系统及存储介质
CN110022514B (zh) 音频信号的降噪方法、装置、系统及计算机存储介质
CN112307161B (zh) 用于播放音频的方法和装置
CN114420153A (zh) 音质调整方法、装置、设备及存储介质
CN112333534B (zh) 杂音消除方法、装置、智能电视系统及可读存储介质
CN109716432B (zh) 增益处理方法及其装置、电子设备、信号采集方法及其系统
CN114627889A (zh) 多声源声音信号处理方法及装置、存储介质和电子设备
CN111462743B (zh) 一种语音信号处理方法及装置
CN110335623B (zh) 音频数据处理方法及装置
CN113362839A (zh) 音频数据处理方法、装置、计算机设备及存储介质
CN113314134A (zh) 一种骨传导信号补偿方法及装置
CN104078049B (zh) 信号处理设备和信号处理方法
CN110827851B (zh) 调节音量的方法、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant