CN113257262A

CN113257262A - 一种语音信号处理方法、装置、设备及存储介质

Info

Publication number: CN113257262A
Application number: CN202110509990.1A
Authority: CN
Inventors: 梁广; 叶万余; 李聪; 郭月峰; 汪密; 陈松波; 余耀权; 严永高; 耿晓昕; 尹祖春
Original assignee: Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-08-13

Abstract

本申请公开了一种语音信号处理方法、装置、设备及存储介质，该方法包括：步骤一：获取包含噪声信号的语音信号；步骤二：根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号；步骤三：根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号：重复上述步骤一至步骤三，得到语音信号训练集和语音信号测试集；其中，语音信号训练集和语音信号测试集均包括至少一个目标增强信号；根据语音信号训练集训练长短时神经网络，得到优化后的网络模型；根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理；将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。

Description

一种语音信号处理方法、装置、设备及存储介质

技术领域

本申请实施例涉及语音信号处理领域，尤其涉及一种语音信号处理方法、装置、设备及存储介质。

背景技术

在电网领域，变电站的日常维修和改造工作量较大，通常需要由班组人员进行安全交代。但由于变电站工作量的增加，需要有更多的工作人员在变电站现场工作，并且需要更多的操作时间。基于此，工人为了节约时间，往往会省略、跳过变电站安全交代中的一些内容，这样可能会导致安全事故的发生。如果依靠人工方式进行变电站现场的安全交代监督，那么会额外增加工作量。

发明内容

本申请提供了一种语音信号处理方法、装置、设备及存储介质，可以得到接近于无噪声的语音信号，从而能够保证语音信号的准确转化，以进一步可以准确识别、判断现场上语音信息指令的发布是否存在偏差或省略，从而以高效的方式起到了良好的管理、监督作用。

第一方面，本申请实施例提供了一种语音信号处理方法，该方法包括：

步骤一：获取语音信号，语音信号包含噪声信号；

步骤二：根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号；

步骤三：根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号：

重复上述步骤一至步骤三，得到语音信号训练集和语音信号测试集；

其中，语音信号训练集和语音信号测试集均包括至少一个目标增强信号；

根据语音信号训练集训练长短时神经网络，得到优化后的网络模型；

根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理；

将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。

第二方面，本申请实施例还提供了一种语音信号处理装置，该装置包括：

获取模块，用于获取语音信号，语音信号包含噪声信号；

处理模块，用于根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号；

确定模块，用于根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号：

确定模块，还用于确定语音信号训练集和语音信号测试集；

训练模块，用于根据语音信号训练集训练长短时神经网络，得到优化后的网络模型；

处理模块，用于根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理；

处理模块，还用于将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。

第三方面，本申请实施例还提供了一种电子设备，包括：

存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，当处理器执行计算机程序时，实现如本申请实施例提供的一种语音信号处理方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当该计算机程序被处理器执行时，实现如本申请实施例提供的一种语音信号处理方法。

本申请提供了一种语音信号处理方法、装置、设备及存储介质，该方法包括：步骤一：获取包含噪声信号的语音信号；步骤二：根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号；步骤三：根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号：重复上述步骤一至步骤三，得到语音信号训练集和语音信号测试集；其中，语音信号训练集和语音信号测试集均包括至少一个目标增强信号；根据语音信号训练集训练长短时神经网络，得到优化后的网络模型；根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理；将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。通过上述方案可以得到接近于无噪声的语音信号，从而能够保证语音信号的准确转化，以进一步可以准确识别、判断现场上语音信息指令的发布是否存在偏差或省略，从而以高效的方式起到了良好的管理、监督作用。

附图说明

图1是本申请实施例中的一种语音信号处理方法流程图；

图2是本申请实施例中的获取的原始语音信号波形图；

图3是本申请实施例中的优化后的网络模型对目标增强信号处理后的波形图；

图4是本申请实施例中的无噪声的纯净信号的波形图；

图5是本申请实施例中的获取与可变参数α和β对应的增强信号的方法流程图；

图6为本申请实施例提供的一种语音信号处理装置的结构示意图；

图7为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

另外，在本申请实施例中，“可选地”或者“示例性地”等词用于表示作例子、例证或说明。本申请实施例中被描述为“可选地”或者“示例性地”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“可选地”或者“示例性地”等词旨在以具体方式呈现相关概念。

图1为本申请实施例提供的一种语音信号处理方法流程图，该方法可以应用于包含有噪声信号的语音信号处理场景下，例如，变电站的安全信息交代场景下。该方法可以通过软件和/或硬件的方式实现，如图1所示，该方法可以包括但不限于以下步骤：

S101、获取语音信号。

本申请实施例中的语音信号为包含有噪声信号的信号，例如，假设获取的语音信号为y(t)，噪声信号为n(t)，那么

y(t)＝n(t)+s(t) (1)

其中，n(t)为纯净的语音信号，获取的语音信号y(t)的波形图如图2所示。

S102、根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号。

本申请实施例中的可变参数α和β表示这两个参数在各自对应的取值范围内为数值可变的变量参数，那么基于取值不同的参数α和β对获取的语音信号进行处理，即可得到α和β不同参数数值对应的增强信号。

示例性地，本步骤中对语音信号进行处理的实现方式可以如下所示：

对语音信号y(t)进行傅里叶变换，得到第一信号Y(e^jw)，例如，

Y(e^jw)＝S(e^jw)+N(e^jw) (2)

其中，Y(e^jw)、S(e^jw)、N(e^jw)分别表示y(t)、s(t)、n(t)经过傅里叶变换后所得到信号，w表示频域角速度。

计算上述第一信号Y(e^jw)的短时功率谱|Y(w)|²，其计算方式如下所示，

|Y(w)|²＝|S(w)|²+|N(w)|²+2Re[S(w)N^*(w)] (3)

其中，Re表示取实部，*表示共轭函数。由于噪声与语音信号不相关，因此，公式(3)中的最后一项为0，第一信号Y(e^jw)的短时功率谱|Y(w)|²可以表示为

|Y(w)|²＝|S(w)|²+|N(w)|² (4)

根据可变参数α和β，以及上述计算得到的短时功率谱，计算与可变参数α和β的各参数值对应的增强信号。

S103、根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号。

由于基于可变参数α和β可以计算得到与一个语音信号对应的多个增强信号，那么再结合信噪比判断条件和板仓距离判断条件可以在多个增强信号中确定得到一个目标增强信号。

其中，上述板仓距离用于表示两个信号之间的相似性，在本申请实施例中，板仓距离用于表示目标增强信号与获取的原始的语音信号之间的相似性，板仓距离越接近于0，表示这两个信号越相似。

S104、重复上述S101至S103，得到语音信号训练集和语音信号测试集。

在本申请实施例中，语音信号训练集和语音信号测试集均包括至少一个目标增强信号。即通过重复执行上述S101至S103，可以得到多个目标增强信号，进而根据预设的比例对多个目标增强信号进行划分，例如，按照2:8的比例将多个目标增强信号划分为两个信号集合，分别作为语音信号测试集合语音信号训练集。

可选地，在确定语音信号训练集和语音信号测试集之前，还可以对得到的目标增强信号进行归一化处理。

S105、根据语音信号训练集训练长短时神经网络，得到优化后的网络模型。

示例性地，长短时神经网络中的各变量之间的计算公式如下

f_t＝σ(W_xfx_t+W_hfh_t-1+W_cfc_t-1+b_f) (5)

i_t＝σ(W_xix_t+W_hih_t-1+W_cic_t-1+b_i)

(6)

c_t＝f_tc_t-1+i_ttanh(W_xcx_t+W_hch_t-1+b_c) (7)

o_t＝σ(W_xox_t+W_hoh_t-1+W_coc_t+b_o) (8)

h_t＝o_ttanh(c_t) (9)

其中，f_t、i_t、c_t、o_t、h_t分别表示长短时神经网络模型中的遗忘门、输入门、细胞状态、输出门及隐藏层状态函数，W_xc、W_xf、W_xo为长短时神经网络中输入信号x_t的连接权重矩阵，W_xi、W_hi、W_ci为i_t的权重矩阵，W_hc、W_hf、W_ho分别为h_t的权重矩阵，W_cf、W_co为c_t的权重矩阵，b_i、b_c、b_f、b_o、为权重向量，σ为激活函数，输入信号x_t即为上述目标增强信号。

本步骤中的训练过程即为优化长短时神经网络中的上述参数W_xc、W_xf、W_xo、W_hc、W_hf、W_ho、W_cf、W_co、b_c、b_f、b_o、σ。

在确定上述损失函数达到收敛时，将得到的网络模型确定为优化后的网络模型。

S106、根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理。

如图3所示，为根据优化后的网络模型对目标增强信号处理后的波形图，如图4为无噪声的纯净信号的波形图。对比图3、图4可以看出，经过本申请实施例提供的处理方式对包含噪声信号的语音信号处理后，得到的信号波形与图4中无噪声的纯净语音信号的波形图几乎一致，即表示本申请实施例提供的信号处理方法去噪性能良好。

S107、将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。

在对获取到的语音信号进行一系列处理之后，得到了接近于无噪声的纯净语音信号，进而可以将处理后的信号转换为文字信息，并与存储的标准文字进行对比，以准确识别、判断现场上语音信息指令的发布是否存在偏差或省略，从而以高效的方式起到了良好的管理、监督作用。

本申请实施例提供了一种语音信号处理方法，该方法包括：步骤一：获取包含噪声信号的语音信号；步骤二：根据可变参数α和β对语音信号进行处理，得到与可变参数α和β对应的增强信号；步骤三：根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号：重复上述步骤一至步骤三，得到语音信号训练集和语音信号测试集；其中，语音信号训练集和语音信号测试集均包括至少一个目标增强信号；根据语音信号训练集训练长短时神经网络，得到优化后的网络模型；根据优化后的网络模型对语音信号测试集中的目标增强信号进行处理；将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。通过上述方案可以得到接近于无噪声的语音信号，从而能够保证语音信号的准确转化，以进一步可以准确识别、判断现场上语音信息指令的发布是否存在偏差或省略，从而以高效的方式起到了良好的管理、监督作用。

在一种示例中，如图5所示，上述步骤S102中根据可变参数α和β，以及短时功率谱，得到与可变参数α和β对应的增强信号的实现方式可以包括但不限于以下步骤：

S501、根据预估噪声、短时功率谱，以及当前α和β的参数值计算与当前α和β对应的增强信号。

假设预估噪声为λ(w)，那么本步骤中计算增强信号的实现方式可以如下所示：

其中，

表示增强信号，α表示功率矫正系数，其可以取值为小数，这样能够更好地适应语音信号现场(例如，变电站)的复杂环境，β表示噪声超减系数，λ(w)可以用安静段的噪声统计平均值估计当前帧的噪声。

S502、按照第一步长和第二步长分别在参数α和β的取值范围内调整当前α和β的参数值，并将调整后的α和β的参数值作为当前α和β的参数值。

在本申请实施例中，通过经验测试确定α的取值范围为[1,5]，β的取值范围为[0,1]，α的初始值为1，β的初始值为0。示例性地，设上述第一步长为0.1，第二步长为0.05，那么可以依据步长0.1和0.05分别调整参数α和β的取值。

S503、重复执行上述S501至S502，直至得到参数α和β的取值范围内所有参数α和β对应的增强信号。

通过重复执行上述步骤S501和S502，可以得到多个不同的α和β对应的增强信号。

在一种示例中，上述步骤S103中，根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号的实现方式可以包括：

根据各增强信号和各增强信号对应的语音信号计算各增强信号的信噪比和板仓距离。例如，

计算增强信号的板仓距离的实现方式可以包括

其中，a_s表示语音信号的线性预测系数矩阵，R表示语音信号的自相关矩阵，D表示语音信号的全极增益，

表示矩阵转置，下标s和

分别对应获取的原始语音信号和处理后的增强信号，

表示板仓距离。

计算信噪比的实现方式可以包括

其中，SNR表示信噪比，y表示获取的原始语音信号，

表示增强信号，N表示语音信号中的采样点数。

若多个增强信号中的任一增强信号的信噪比为各增强信号的信噪比中的最大值，且对应的板仓距离小于或等于板仓距离参考值的1.2倍，则将该任一增强信号确定为目标增强信号。

即参数α和β满足如下条件，

上述α_B，β_B表示最优功率校正系数和最优噪声超减系数，α_B，β_B对应的增强信号即为目标增强信号，

为板仓距离参考值，表示通过基本谱减法得到的板仓距离，当参数α取值为2，β取值为1时，计算得到的板仓距离即为板仓距离参考值。

图6为本申请实施例提供的一种语音信号处理装置，如图6所示，该装置装置包括：获取模块601、处理模块602、确定模块603、训练模块604；

获取模块，用于获取语音信号，该语音信号包含噪声信号；

确定模块，还用于确定语音信号训练集和语音信号测试集；

在一种示例中，处理模块，用于对语音信号进行傅里叶变换，得到第一信号；计算第一信号的短时功率谱；以及，根据可变参数α和β，以及短时功率谱，得到与可变参数α和β对应的增强信号。

在一种示例中，上述处理模块，还用于执行以下过程：

步骤一：根据预估噪声、短时功率谱，以及当前α和β的参数值计算与当前α和β对应的增强信号；

步骤二：按照第一步长和第二步长分别在参数α和β的取值范围内调整当前α和β的参数值，并将调整后的α和β的参数值作为当前α和β的参数值；

重复执行上述步骤一至步骤二，直至得到参数α和β的取值范围内所有参数α和β对应的增强信号。

在一种示例中，确定模块，用于根据各增强信号和各增强信号对应的语音信号计算各增强信号的信噪比和板仓距离；

若任一增强信号的信噪比为各增强信号的信噪比中的最大值，且对应的板仓距离小于或等于板仓距离参考值的1.2倍，则所述确定模块，用于将所述任一增强信号确定为目标增强信号；

其中，板仓距离参考值为根据基本谱减法得到的板仓距离。

在一种示例中，确定模块，用于根据预设比例将得到的多个目标增强信号划分为两个信号集合，并将两个信号集合分别作为语音信号训练集和语音信号测试集。

本申请实施例所提供的语音信号处理装置可执行本申请图1实施例所提供的语音信号处理方法，具备执行方法相应的功能模块和有益效果。

图7为本申请实施例提供的一种电子设备的结构示意图，如图7所示，该设备包括处理器701、存储器702、输入装置703、输出装置704；设备中处理器701的数量可以是一个或多个，图7中以一个处理器701为例；设备中的处理器701、存储器702、输入装置703和输出装置704可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器702作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例图1中的语音信号处理方法对应的程序指令/模块。处理器701通过运行存储在存储器702中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的语音信号处理方法中设备的相关功能。

存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据云服务器的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器702可进一步包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置703可用于接收输入的数字或字符信息，以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置704可包括显示屏等显示设备。

本申请实施例还提供一种包含计算机可执行指令的存储介质，该计算机可执行指令在由计算机处理器执行时用于执行一种语音信号处理方法。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

值得注意的是，上述语音信号处理装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种语音信号处理方法，其特征在于，包括：

步骤一：获取语音信号，所述语音信号包含噪声信号；

步骤二：根据可变参数α和β对所述语音信号进行处理，得到与所述可变参数α和β对应的增强信号；

其中，所述语音信号训练集和语音信号测试集均包括至少一个目标增强信号；

根据所述语音信号训练集训练长短时神经网络，得到优化后的网络模型；

根据所述优化后的网络模型对所述语音信号测试集中的目标增强信号进行处理；

2.根据权利要求1所述的方法，其特征在于，根据可变参数α和β对所述语音信号进行处理，得到与所述可变参数α和β对应的增强信号，包括：

对所述语音信号进行傅里叶变换，得到第一信号；

计算所述第一信号的短时功率谱；

根据所述可变参数α和β，以及所述短时功率谱，得到与所述可变参数α和β对应的增强信号。

3.根据权利要求2所述的方法，其特征在于，根据所述可变参数α和β，以及所述短时功率谱，得到与所述可变参数α和β对应的增强信号，包括：

步骤一：根据预估噪声、短时功率谱，以及当前α和β的参数值计算与所述当前α和β对应的增强信号；

4.根据权利要求1-3任一项所述的方法，其特征在于，根据信噪比判断条件和板仓距离判断条件在多个增强信号中确定目标增强信号，包括：

根据各增强信号和各增强信号对应的语音信号计算各增强信号的信噪比和板仓距离；

若任一增强信号的信噪比为各增强信号的信噪比中的最大值，且对应的板仓距离小于或等于板仓距离参考值的1.2倍，则将所述任一增强信号确定为目标增强信号；

其中，所述板仓距离参考值为根据基本谱减法得到的板仓距离。

5.根据权利要求1所述的方法，其特征在于，确定语音信号训练集和语音信号测试集，包括：

根据预设比例将得到的多个目标增强信号划分为两个信号集合；

将所述两个信号集合分别作为语音信号训练集和语音信号测试集。

6.一种语音信号处理装置，其特征在于，所述装置包括：

获取模块，用于获取语音信号，所述语音信号包含噪声信号；

处理模块，用于根据可变参数α和β对所述语音信号进行处理，得到与所述可变参数α和β对应的增强信号；

所述确定模块，还用于确定语音信号训练集和语音信号测试集；

训练模块，用于根据所述语音信号训练集训练长短时神经网络，得到优化后的网络模型；

所述处理模块，用于根据所述优化后的网络模型对所述语音信号测试集中的目标增强信号进行处理；

所述处理模块，还用于将处理后的目标增强信号转换为文字信息，并与存储的标准文字进行对比。

7.根据权利要求6所述的装置，其特征在于，所述处理模块，用于对所述语音信号进行傅里叶变换，得到第一信号；计算所述第一信号的短时功率谱；以及，根据所述可变参数α和β，以及所述短时功率谱，得到与所述可变参数α和β对应的增强信号。

8.根据权利要求7所述的装置，其特征在于，确定模块，用于根据各增强信号和各增强信号对应的语音信号计算各增强信号的信噪比和板仓距离；

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1-5任一项所述的语音信号处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-5任一项所述的语音信号处理方法。