CN111370017B

CN111370017B - 一种语音增强方法、装置、系统

Info

Publication number: CN111370017B
Application number: CN202010192095.7A
Authority: CN
Inventors: 刘兵兵; 包飞; 吴科苇; 刘如意; 王峰
Original assignee: Suning Cloud Computing Co Ltd
Current assignee: Suning Cloud Computing Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-04-14
Anticipated expiration: 2040-03-18
Also published as: CN111370017A

Abstract

本申请实施例公开一种语音增强方法、装置、系统，方法包括：对原始语音数据和噪声数据进行傅里叶变换并且对傅里叶变换后得到的原始语音数据和噪声数据的不同频点的短时幅度谱进行响度处理；将噪声数据的不同频点的响度值输入至一心理声学模型得到噪声数据的不同频点的掩蔽阈值，根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整；根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益，根据放大增益对原始语音数据的不同频点的响度值进行放大、转换成对应频点的短时幅度谱并进行反傅里叶变换得到增强后的语音数据。本申请可以实现语音放大以使语音掩盖噪声的同时具有较高的感知质量。

Description

一种语音增强方法、装置、系统

技术领域

本发明属于声学领域，尤其涉及一种语音增强方法、装置、系统。

背景技术

一般情况下，当设备播放声音时，噪声都会伴随着语音一起被听到。噪声并不是所需要的声音，它的存在对语音产生了干扰，有时候严重影响人耳对语音的感知。通常情况下，会采用语音增强的方法，对含有噪声的语音进行处理，使语音得到增强，噪声得到抑制。

但在很多情况下，噪声并不是和语音一起从设备中传输过来的，而是从其他实际的环境中传过来的。比如，当室内音频播放设备播放着音乐，而隔壁恰好在装修，此时装修的声音不停地传进来，掩盖了音乐。这种情况下，除了物理隔绝手段，没有办法对噪声进行主动降噪。为了调高对音乐的体验，通常的做法是调高音频播放设备的音量，使得播放的声音高过噪声。但当音量调高一定程度时，由于器件的非线性，会使得播放的声音有所失真，降低声音感知的质量。因此，亟待一种新的处理方法来解决上述问题。

发明内容

为了解决现有技术的问题，本发明提出了一种语音增强方法、装置、系统，本方法根据一心理声学模型计算噪声的掩蔽阈值，根据噪声的掩蔽阈值调整声音的响度值，并且根据调整后的声音的响度值和调整前的声音的响度值来确定放大增益，从而对语音进行放大，这样既能保证声音可以掩盖噪声，同时也能保证放大后的声音具有较高的感知质量。

本发明实施例提供的具体技术方案如下：

第一方面，本发明提供一种语音增强方法，所述方法包括：

对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱；

分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值；

将噪声数据的不同频点的响度值输入至一预设的心理声学模型，得到噪声数据的不同频点的掩蔽阈值，根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整；

根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益，并根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理；

将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱，并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。

优选的，根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益具体包括：

将所述原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值；

将所述常数因子确定为所述原始语音数据的不同频点的响度值的放大增益。

优选的，根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理具体包括：

将所述放大增益乘以所述原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。

优选的，在获取所述噪声数据之前，所述方法还包括：

接收由麦克风阵列系统采集的音频数据；

根据预存储的原始语音数据，对所述音频数据进行回声抵消；

判断回声抵消后的数据是否为噪声数据。

第二方面，本发明提供一种语音增强装置，所述装置包括：

转换模块，用于对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱；以及用于分别对所述原始语音数据的不同频点的短时幅度谱和所述噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值；

调整模块，用于将噪声数据的不同频点的响度值输入至一预设的心理声学模型，得到噪声数据的不同频点的掩蔽阈值，根据所述噪声数据的不同频点的掩蔽阈值对所述原始语音数据的不同频点的响度值进行调整；以及用于根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益；

处理模块，用于根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理；

所述转换模块还用于将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱，并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。

优选的，所述调整模块具体用于：

优选的，所述处理模块具体用于：

优选的，所述装置还包括：

接收模块，用于接收由麦克风阵列系统采集的音频数据；

分离模块，用于根据预存储的原始语音数据，对所述音频数据进行回声抵消；

判断模块，用于判断回声抵消后的数据是否为噪声数据。

第三方面，本发明提供一种计算机系统，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益，并根据所述放大增益对原始语音数据的不同频点的响度值进行放大处理；

本发明实施例具有如下有益效果：

本发明根据一心理声学模型计算噪声的掩蔽阈值，根据噪声的掩蔽阈值调整声音的响度值，并且根据调整后的声音的响度值和调整前的声音的响度值来确定放大增益，从而对语音进行放大，这样既能保证声音可以掩盖噪声，同时也能保证放大后的声音具有较高的感知质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的一种语音增强方法的流程图；

图2是本申请实施例二提供的一种语音增强装置的结构示意图；

图3是本申请实施例三提供的一种计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本申请提供了一种语音增强方法，可以应用于一终端，终端与麦克风阵列系统和音频设备进行通信。麦克风阵列系统安装在音频设备上，两者通过网络进行通信。麦克风阵列系统可以同时采集音频设备播放的语音以及外界环境噪声并发送至终端由终端进行处理，具体的实现过程如下：

S11、接收麦克风阵列系统采集的音频数据。

其中，音频数据包括音频设备发出的语音数据、外界的噪声数据中的至少一种。

S12、根据预存储的原始语音数据，对音频数据进行回声抵消。

当音频数据为包括语音数据和噪声数据时的混合数据时，需要对音频数据进行分离以得到噪声数据。

S13、判断回声抵消后的数据是否为噪声数据。

S14、当回声抵消后的数据为噪声数据时，对原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据和噪声数据的不同频点的短时幅度谱。

S15、分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值。

S16、将噪声数据的不同频点的响度值输入至一预设的心理声学模型，得到噪声数据的不同频点的掩蔽阈值，根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整。

其中，本方案中的心理声学模型为Johnston掩蔽模型，由于Johnston掩蔽模型属于现有技术，因此不再进行赘述。

根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整具体包括：

根据噪声数据的不同频点的掩蔽阈值，对原始语音数据的对应频点的响度值进行调整以使调整后的语音数据的不同频点的响度值大于等于噪声数据的对应频点的掩蔽阈值。

S17、根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益，并根据放大增益对原始语音数据的不同频点的响度值进行放大处理。

该步骤具体可以包括：

1、将原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于调整后的语音数据的不同频点的响度值；

2、将常数因子确定为原始语音数据的不同频点的响度值的放大增益；

3、将放大增益乘以原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。

本方案中，将原始语音数据和噪声数据从时域变换到响度域，再进行掩蔽计算、放大处理等，可以保证声音不失真，具有较高的质量。

S18、将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱，并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。

该步骤具体可以包括：

如此，终端便可将放大后的语音数据发送至音频设备，从而音频设备播放放大的语音。

根据上述语音增强方法对不同的噪声场景进行测试，得到的实验结果如下表1所示：

表1不同实验场景的pesq指标对比结果

由此，根据本方案的语音增强方法，可以提高语音质量。

实施例二

如图2所示，本申请提供了一种语音增强装置，包括：

转换模块21，用于对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱；以及用于分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值；

调整模块22，用于将噪声数据的不同频点的响度值输入至一预设的心理声学模型，得到噪声数据的不同频点的掩蔽阈值，根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整；以及用于根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益；

处理模块23，用于根据放大增益对原始语音数据的不同频点的响度值进行放大处理；

上述转换模块21还用于将放大后的语音数据的不同频点的响度值进行转换得到对应频点的短时幅度谱，并对放大后语音数据的不同频点的短时幅度谱进行反傅里叶变换以得到增强后的语音数据。

优选的，上述调整模块22具体用于：

将原始语音数据的不同频点的响度值乘以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于调整后的语音数据的不同频点的响度值；

将常数因子确定为原始语音数据的不同频点的响度值的放大增益。

优选的，上述处理模块23具体用于：

将放大增益乘以原始语音数据的不同频点的响度值以得到放大后的语音数据的不同频点的响度值。

优选的，上述装置还包括：

接收模块24，用于接收由麦克风阵列系统采集的音频数据；

分离模块25，用于根据预存储的原始语音数据，对音频数据进行回声抵消；

判断模块26，用于判断回声抵消后的数据是否为噪声数据。

实施例三

本申请提供了一种计算机系统，包括：

一个或多个处理器；以及

对获取到的原始语音数据和噪声数据进行傅里叶变换以得到原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱；分别对原始语音数据的不同频点的短时幅度谱和噪声数据的不同频点的短时幅度谱进行响度处理以得到原始语音数据的不同频点的响度值和噪声数据的不同频点的响度值；

将噪声数据的不同频点的响度值输入至一预设的心理声学模型，得到噪声数据的不同频点的掩蔽阈值，根据噪声数据的不同频点的掩蔽阈值对原始语音数据的不同频点的响度值进行调整；

根据调整后的语音数据的不同频点的响度值确定原始语音数据的不同频点的响度值的放大增益，并根据放大增益对原始语音数据的不同频点的响度值进行放大处理；

其中，图3示例性的展示出了计算机系统的架构，具体可以包括处理器32，视频显示适配器34，磁盘驱动器36，输入/输出接口38，网络接口310，以及存储器312。上述处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，与存储器312之间可以通过通信总线314进行通信连接。

其中，处理器32可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器312可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器312可以存储用于控制计算机系统30运行的操作系统316，用于控制计算机系统的低级别操作的基本输入输出系统(BIOS)318。另外，还可以存储网页浏览器320，数据存储管理系统322等等。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器312中，并由处理器32来调用执行。

输入/输出接口38用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口310用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

通信总线314包括一通路，在设备的各个组件(例如处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，与存储器312之间传输信息。

另外，该计算机系统还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器32、视频显示适配器34、磁盘驱动器36、输入/输出接口38、网络接口310，存储器312，通信总线314等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，云服务端，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。另外，上述实施例提供的计算机系统、语音增强装置与语音增强方法属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音增强方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，根据调整后的语音数据的不同频点的响度值确定所述原始语音数据的不同频点的响度值的放大增益具体包括：

3.根据权利要求1或2所述的方法，其特征在于，根据所述放大增益对所述原始语音数据的不同频点的响度值进行放大处理具体包括：

4.根据权利要求1或2所述的方法，其特征在于，在获取所述噪声数据之前，所述方法还包括：

接收由麦克风阵列系统采集的音频数据；

判断回声抵消后的数据是否为噪声数据。

5.一种语音增强装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述调整模块具体用于：

将所述原始语音数据的不同频点的响度值以一常数因子以使乘以常数因子后的语音数据的不同频点的响度值大于等于所述调整后的语音数据的不同频点的响度值；

7.根据权利要求5或6所述的装置，其特征在于，所述处理模块具体用于：

8.根据权利要求5或6所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收由麦克风阵列系统采集的音频数据；

判断模块，用于判断回声抵消后的数据是否为噪声数据。

9.一种计算机系统，其特征在于，包括：

一个或多个处理器；以及