CN113270089A

CN113270089A - 语音重采样方法及装置

Info

Publication number: CN113270089A
Application number: CN202110537780.3A
Authority: CN
Inventors: 陈英爽; 鲍捷; 吕春
Original assignee: CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD; Shenzhen SDG Information Co Ltd
Current assignee: CHENGDU FOURIER ELECTRONIC TECHNOLOGY CO LTD; Shenzhen SDG Information Co Ltd
Priority date: 2021-05-18
Filing date: 2021-05-18
Publication date: 2021-08-17

Abstract

本发明提供一种语音重采样方法及装置，方法包括将电台语音转换成非电台语音，以及将非电台语音转换为电台语音，其中将电台语音转换成非电台语音，包括步骤：对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，第二采样率大于第一采样率。采用洗数据方式，实现8k电台语音转换为16k非电台语音，采样率更高，声音更清晰识别率更高，同时可实现非电台语音转换为电台语音，减少标定数据的成本。

Description

语音重采样方法及装置

技术领域

本发明涉及电台语音转换识别技术领域，尤其涉及一种语音重采样方法及装置。

背景技术

相同的声音若由不同信道采集后，声音差距很大。比如，现有开源语音训练数据是采用麦克风录制，采样率为16K或44.1K；而电台语音数据是通过电台录制，采用率为8K。因此，相同的声音，通过麦克风、电台录制，声色完全不一样，区别巨大。现有的语音识别模型都采用麦克风或者手机录制的数据进行训练产生，对电台产生的语音识别率非常低；若是重新电台语音数据做标定训练。但标定语音数据成本太高，100小时的标定都要上几十万，训练需要上千小时的数据。

发明内容

针对上述现有技术不足，本申请提供一种语音重采样方法及装置，用于电台语音和非电台语音的相互转换，采用洗数据方式，实现8k电台语音转换为16k非电台语音，采样率更高，声音更清晰识别率更高，同时可实现非电台语音转换为电台语音，减少标定数据的成本。

为了实现本发明的目的，拟采用以下方案：

一种语音重采样方法，包括将电台语音转换成非电台语音；

将电台语音转换成非电台语音，包括步骤：

对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；

将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；

对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，第二采样率大于第一采样率。

进一步，SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块；

多个第一RESCNN残差网络块用于对具有第一频谱宽度的第一频谱进行转换，获得具有第一频谱宽度的第一转换频谱；

上采样模块用于对第一转换频谱进行上采处理获得具有第二频谱宽度的中间转换频谱；

多个第二RESCNN残差网络块用于对中间转换频谱进行转换，获得具有第二频谱宽度的第二频谱。

第一RESCNN残差网络块有3个，第二RESCNN残差网络块有14个，第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。

进一步，语音重采样方法，还包括将非电台语音转电台语音；

将非电台语音转电台语音，包括步骤：

通过声卡一播发非电台语音，并经声卡一的音频输出通道传输给无线发射电台，以使无线发射电台发送语音；

通过声卡二的音频输入通道采集由无线接收电台接收的从无线发射电台发送的语音，完成重采样。

一种语音重采样装置，包括：

傅里叶变换模块，用于对第一采样率电台语音进行短时傅里叶变换，获得N个具有第一频谱宽度的第一频谱；

信道转换模块，用于将N个第一频谱输入到SSGAN深度学习网络进行信道转换，获得N个具有第二频谱宽度的第二频谱；

相位恢复模块，用于对N个第二频谱进行相位恢复；

傅里叶逆变换模块，用于对相位恢复后的第二频谱进行傅里叶逆变换，得到第二采样率的非电台语音音频文件。

进一步，信道转换模块包括SSGAN深度学习网络，SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块；

进一步，语音重采样装置，还包括：PC机以及与PC机分别连接的声卡一、声卡二，用于将非电台语音转换为电台语音；

PC机，用于在声卡一播发非电台语音；

声卡一，用于通过其音频输出通道将播发的非电台语音传输给无线发射电台，以使无线发射电台发送语音；

声卡二，用于将无线接收电台收到的接收语音通过音频输入通道进行采集；

PC机，还用于对声卡二采集的语音进行保存。

一种电子设备，包括：至少一个处理器和存储器；其中，存储器存储有计算机执行指令；在至少一个处理器执行存储器存储的计算机执行指令时，使得至少一个处理器执行语音重采样方法。

一种计算机可读存储介质，其上存储有计算机程序，在计算机程序被处理器运行时控制存储介质所在设备执行语音重采样方法。

本发明的有益效果：

1、本申请的应用，可以将低采样率电台语音转换为高采样率非电台语音，如8K电台语音转为16K麦克风语音，从而让电台的语音听得更清晰、也使得电台的语音识别率变高；本申请的应用，还可以实现非电台语音转电台语音，可以减少标定数据的成本；

2、传统方式8k采样率语音无法还原为16k，在8-16k频段的信息已经缺失了，本申请通过短时傅里叶变换、SSGAN网络进行信道转换、相位恢复、傅里叶逆变换，实现电台语音向非电台语音的转换，在8-16k频段的信息不会缺失，Pesq增益10.928db；

3、本通过的SSGAN网络采用多个第一RESCNN残差网络块、上采样模块、及多个第二RESCNN残差网络块的组合，且每个第一/第二RESCNN残差网络块包括3层CNN+Normalization网络，通过此种方式进行信道转换，Pesq增益（10.928db）、识别率提升0.513%。

附图说明

本文描述的附图只是为了说明所选实施例，而不是所有可能的实施方案，更不是意图限制本发明的范围。

图1示出了本申请实施例的电台语音转非电台语音流程图。

图2示出了本申请实施例的SSGAN深度学习网络进行信道转换的流程图。

图3示出了本申请实施例的第一RESCNN残差网络块结构示意图。

图4示出了本申请实施例的第二RESCNN残差网络块结构示意。

图5示出了本申请实施例的非电台语音转电台语音流程图。

图6示出了本申请实施例的电台语音转非电台语音装置结构图。

图7示出了本申请实施例的非电台语音转电台语音装置结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图对本发明的实施方式进行详细说明，但本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例。

本实例的一个方面，提供一种语音重采样方法，包括将电台语音转为非电台语音，和/或，将非电台语音转为电台语音。非电台语音为麦克风语音，也可以是对讲机语音等。

如图1所示，为本实例的语音重采样方法，用于将电台语音转换成非电台语音的步骤：

首先，对8K采样率电台语音进行短时傅里叶变换，获得N*128频谱图；

然后，将N*128频谱图输入到SSGAN深度学习网络进行信道转换，获得N*256的频谱图；

然后，对N*256的频谱图进行相位恢复；

然后，再进行傅里叶逆变换，得到16K采样率的非电台语音音频文件。

通过上述方法第可以将8k的电台语音通过16K非电台语音重采样后，声音会变得更清晰；且重采样以后16k的语音文件，用于语音训练或者语音识别、识别率将会高于8K的语音识别率。

其中，将N*128频谱图输入到SSGAN深度学习网络进行信道转换时，通过如图2所示的流程，其中SSGAN深度学习网络采用17个RESCNN残差网络块；其中，前3个为RESCNN128残差网络块，后14个为RESCNN256残差网络块，中间设有一个上采样模块。

如图3所示，第一RESCNN残差网络块包括3层CNN+Normalization网络。

如图4所示，第二RESCNN残差网络块包括3层CNN+Normalization网络。

每个第一RESCNN残差网络块的第1层CNN+Normalization网络，用于对N*128频谱图进行信道转换处理，得到N*128一级转换频谱；

每个第一RESCNN残差网络块第2层CNN+Normalization网络，用于对N*128频谱图和N*128一级转换频谱结合进行信道转换处理，得到N*128二级转换频谱；

每个第一RESCNN残差网络块第3层CNN+Normalization网络，用于对N*128频谱图、N*128一级转换频谱、N*128二级转换频谱结合进行信道转换处理，得到N*128频谱图。

3个第一RESCNN残差网络块依次进行3次上述处理，输出N*128频谱图。

上采样模块用于对3个第一RESCNN残差网络块处理后得到的N*128频谱图进行上采样，获得N*256频谱图。

每个第二RESCNN残差网络块的第1层CNN+Normalization网络，用于对N*256频谱图进行信道转换处理，得到N*256一级转换频谱；

每个第二RESCNN残差网络块第2层CNN+Normalization网络，用于对N*256频谱图和N*256一级转换频谱结合进行信道转换处理，得到N*256二级转换频谱；

每个第二RESCNN残差网络块第3层CNN+Normalization网络，用于对N*256频谱图、N*256一级转换频谱、N*256二级转换频谱结合进行信道转换处理，得到N*256频谱图。

14个第二RESCNN残差网络块依次进行14次上述处理，输出N*256频谱图。

通过本实例进行将电台语音转换成非电台语音，可以达到Pesq增益10.928db、识别率会提升0.513%

如图5所示，为本实例的语音重采样方法，用于将非电台语音转换成电台语音的步骤：

首先，通过声卡一播发非电台语音，并经声卡一的音频输出通道传输给无线发射电台，以使无线发射电台发送语音；

本实例的另一个方面，提供一种语音重采样装置，其包括两部分，一部分用于将电台语音转换成非电台语音，另一部分用于非电台语音转换成电台语音。非电台语音为麦克风语音，也可以是对讲机语音等。

如图6所示，本实例的语音重采样装置一部分，包括依次连接的傅里叶变换模块、信道转换模块、相位恢复模块、傅里叶逆变换模块。其中，信道转换模块采用SSGAN深度学习网络，SSGAN深度学习网络采用17个RESCNN残差网络块；每一个RESCNN残差网络块包括3层CNN+Normalization网络。

傅里叶变换模块对8K采样率电台语音进行短时傅里叶变换，获得N*128频谱图；信道转换模块将N*128频谱图输入到SSGAN深度学习网络进行信道转换，获得N*256频谱图；相位恢复模块对N*256频谱图进行相位恢复；傅里叶逆变换模块对相位恢复后的频谱进行傅里叶逆变换，得到16K采样率的非电台语音音频文件。

如图7所示，本实例的语音重采样装置另一部分，包括PC机、声卡一和声卡二。PC机分别连接的声卡一、声卡二，声卡一连接无线发射电台，声卡二连接无线接收电台。

非电台语音转为电台语音的方式为：

PC机在声卡一播发非电台语音；声卡一通过其音频输出通道将播发的非电台语音传输给无线发射电台，以使无线发射电台发送语音；声卡二将无线接收电台收到的接收语音通过音频输入通道进行采集；PC机对声卡二采集的语音进行保存。

本实例的另一个方面，提供一种电子设备，其包括至少一个处理器和存储器；其中，存储器存储有计算机执行指令；在至少一个处理器执行存储器存储的计算机执行指令时，使得至少一个处理器执行如本实例的语音重采样方法。

本实例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，在计算机程序被处理器运行时控制存储介质所在设备执行如本实例的语音重采样方法。

以上仅为本发明的优选实施例，并不表示是唯一的或是限制本发明。本领域技术人员应理解，在不脱离本发明的范围情况下，对本发明进行的各种改变或同等替换，均属于本发明保护的范围。

Claims

1.一种语音重采样方法，其特征在于，包括将电台语音转换成非电台语音；

所述将电台语音转换成非电台语音，包括步骤：

对N个第二频谱进行相位恢复，再进行傅里叶逆变换，得到第二采样率的非电台语音音频文件，所述第二采样率大于第一采样率。

2.根据权利要求1所述的语音重采样方法，其特征在于：所述SSGAN深度学习网络，包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块；

3.根据权利要求2所述的语音重采样方法，其特征在于，其特征在于，第一RESCNN残差网络块有3个，第二RESCNN残差网络块有14个，第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。

4.根据权利要求1所述的语音重采样方法，其特征在于，还包括将非电台语音转电台语音；

所述将非电台语音转电台语音，包括步骤：

5.一种语音重采样装置，其特征在于，包括：

相位恢复模块，用于对N个第二频谱进行相位恢复；

傅里叶逆变换模块，用于对相位恢复后的第二频谱进行傅里叶逆变换，得到第二采样率的非电台语音音频文件；

其中，所述第二采样率大于第一采样率。

6.根据权利要求5所述的语音重采样装置，其特征在于，信道转换模块包括SSGAN深度学习网络，SSGAN深度学习网络包括依次设置多个第一RESCNN残差网络块、上采样模块、多个第二RESCNN残差网络块；

7.根据权利要求6所述的语音重采样装置，其特征在于，第一RESCNN残差网络块有3个，第二RESCNN残差网络块有14个，第一RESCNN残差网络块和第二RESCNN残差网络块均包括3层CNN+Normalization网络。

8.根据权利要求6所述的语音重采样装置，其特征在于，还包括：PC机以及与PC机分别连接的声卡一、声卡二；

PC机，用于在声卡一播发非电台语音；

PC机，还用于对声卡二采集的语音进行保存。

9.一种电子设备，包括：至少一个处理器和存储器；其中，所述存储器存储有计算机执行指令；其特征在于，在所述至少一个处理器执行所述存储器存储的计算机执行指令时，使得所述至少一个处理器执行如权利要求1~4中任意一项所述的语音重采样方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，在所述计算机程序被处理器运行时控制所述存储介质所在设备执行如权利要求1~4中任意一项所述的语音重采样方法。