CN117409795A

CN117409795A - 语音信号的处理方法、装置、设备及存储介质

Info

Publication number: CN117409795A
Application number: CN202210795074.3A
Authority: CN
Inventors: 李波
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd; Guangzhou Shirui Electronics Co Ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2024-01-16

Abstract

本申请提供一种语音信号的处理方法、装置、设备及存储介质。该方法包括：获取待处理的语音波形信号，将所述待处理的语音波形信号转换为表示频域特征的语音数据；根据所述语音数据，确定所述语音数据的语音类别；其中，所述语音类别表征语音数据的发出场景；根据所述语音数据的语音类别，确定与所述语音数据的语音类别对应的降噪强度；根据所述降噪强度，对所述待处理的语音波形信号进行降噪，得到降噪后的目标信号。本申请的方法，通过确定语音类别，得到对应的降噪强度，从而根据不同的降噪强度对语音信号进行针对性的处理，提高语音信号处理的灵活性和精度。

Description

语音信号的处理方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术，尤其涉及一种语音信号的处理方法、装置、设备及存储介质。

背景技术

在课堂录播或直播中，通常需要采用拾音设备，对课堂上的语音进行录制，便于学生观看和学习。

现有技术中，对录制的语音信号进行3A(AEC-ANS-AGC，回波抵消/背景噪声抑制/自动增益控制)处理。但是，3A算法会把常见的多人说话、音乐课上播放音乐等语音片段进行抑制，难以在多人同时说话的场景下清楚录制教师的声音，录制的音乐片段容易受损，无法听清，语音信号的处理精度较低。

发明内容

本申请提供一种语音信号的处理方法、装置、设备及存储介质，用以提高语音信号的处理精度。

第一方面，本申请提供一种语音信号的处理方法，包括：

获取待处理的语音波形信号，将所述待处理的语音波形信号转换为表示频域特征的语音数据；

根据所述语音数据，确定所述语音数据的语音类别；其中，所述语音类别表征语音数据的发出场景；

根据所述语音数据的语音类别，确定与所述语音数据的语音类别对应的降噪强度；

根据所述降噪强度，对所述待处理的语音波形信号进行降噪，得到降噪后的目标信号。

第二方面，本申请提供一种语音信号的处理装置，包括：

信号获取模块，用于获取待处理的语音波形信号，将所述待处理的语音波形信号转换为表示频域特征的语音数据；

类别确定模块，用于根据所述语音数据，确定所述语音数据的语音类别；其中，所述语音类别表征语音数据的发出场景；

强度确定模块，用于根据所述语音数据的语音类别，确定与所述语音数据的语音类别对应的降噪强度；

降噪模块，用于根据所述降噪强度，对所述待处理的语音波形信号进行降噪，得到降噪后的目标信号。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如第一方面所述的语音信号的处理方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的语音信号的处理方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如第一方面所述的语音信号的处理方法。

本申请提供的一种语音信号的处理方法、装置、设备及存储介质，通过将时域特征的波形信号转换为频域特征，得到向量形式的语音数据。预设不同的语音类别，确定语音数据对应的语音类别，并确定语音类别对应的降噪强度。根据降噪强度，对语音数据对应的语音波形信号进行针对性处理。根据不同的降噪强度，实现在多种场景下进行语音信号的处理。解决了现有技术中，无法在多人说话的场景下进行精确降噪的问题，实现动态调整降噪策略，提高语音信号降噪处理的灵活性和精度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种语音信号的处理方法的流程示意图；

图2为本申请实施例提供的语音波形信号转换为FBank特征的过程示意图；

图3为本申请实施例提供的一种语音信号的处理方法的流程示意图；

图4为本申请实施例提供的复数域网络的结构示意图；

图5为本申请实施例提供的一种语音信号的处理方法的流程示意图；

图6为本申请实施例提供的一种语音信号的处理装置的结构框图；

图7为本申请实施例提供的一种语音信号的处理装置的结构框图；

图8为本申请实施例提供的一种电子设备的结构框图；

图9为本申请实施例提供的一种电子设备的结构框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的对象，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

需要注意的是，由于篇幅所限，本申请说明书没有穷举所有可选的实施方式，本领域技术人员在阅读本申请说明书后，应该能够想到，只要技术特征不互相矛盾，那么技术特征的任意组合均可以构成可选的实施方式。下面对各实施例进行详细说明。

语音录制应用在生活的各种领域中，例如，在课堂上，可以对教师的讲课内容进行录制。在课堂的录播或直播中，经常会出现多人说话的场景，或者人声和其他声音同时存在。例如，在音乐课上，教师在播放音乐的同时可能会伴随教师和同学说话的声音。通用的拾音设备，会把所有的声音进行录制，使录制的声音中噪声较多，影响用户体验。

在声音录制处理的相关技术中，通常采用3A算法对语音信号进行处理。3A处理是在音频数据采集后的预处理过程，通过3A处理可以对语音信号中的噪声进行一定的消除。但是，3A处理无法针对不同场景的声音进行针对性处理，例如，3A算法在消除课堂上噪声的同时，还会减弱课堂中有用的声音。通常会把常见的多人说话以及音乐课上播放音乐等语音片段均进行抑制，造成难以清楚录制多人同时说话的场景。或者在录制音乐课时，音乐片段受损，难以听清。语音信号的处理灵活性和精度较低，影响用户的收听体验。

本申请提供的一种语音信号的处理方法、装置、设备及存储介质，旨在解决现有技术的如上技术问题。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1是根据本申请实施例提供的一种语音信号的处理方法的流程示意图，本实施例提供的方法由一种语音信号的处理装置执行。如图1所示，该方法包括以下步骤：

S101、获取待处理的语音波形信号，将待处理的语音波形信号转换为表示频域特征的语音数据。

示例性地，可以采用拾音设备获取待处理的语音信号，语音信号可以是语音的波形信号，语音波形信号可以用于表示语音的时域特征。待处理的语音波形信号可以是预设场景中所采集到的所有声音的语音波形信号，例如，获取课堂上的语音波形信号，则可以获取课堂上老师的声音、学生的声音以及老师通过电子设备的播放声音等声音的语音波形信号。

语音波形信号表示时域特征，将时域特征转换为频域特征，即，将语音波形信号转换为可以表示频域特征的语音数据。例如，可以将语音波形信号转换为FBank(FilterBank，滤波器组)特征，作为语音数据，实现时域到频域的转换。图2为语音波形信号转换为FBank特征的过程示意图。如图2所示，语音波形信号转换为FBank特征的过程可以是，对语音波形信号先进行预加重，预加重的作用是加强声压，凸显人声。再对预加重的语音波形信号进行分帧加窗，得到多个窗口。再进行DFT(Discrete Fourier Transform，离散傅里叶变换)处理，再经过梅尔滤波器组和对数处理，得到FBank特征。

S102、根据语音数据，确定语音数据的语音类别；其中，语音类别表征语音数据的发出场景。

示例性地，预先设置多种语音类别，语音类别可以表示语音数据的发出场景，即，语音波形信号的发出场景。可以把语音类别分类为笑声、掌声、多人同时说话等场景，例如，语音类别为笑声，即，语音数据的发出场景为发出笑声的场景，该场景中的语音为笑声。

可以根据预设的业务，对语音类别进行人工标注。可以将语音类别划分为笑声、掌声、多人同时说话和单人说话等粗粒度类别的场景，还可以对粗粒度类别进行细粒度的划分，单人说话的场景可以再细标记出年龄段和情绪等，年龄段可以包括年长、年轻和年幼，情绪可以包括正常、沉闷、拖沓、生气、兴奋和激昂。例如，一个语音类别可以是年轻人生气时单人说话的场景。

在得到语音数据后，确定语音数据所属的语音类别。可以根据预设的语音识别算法，从预设的多个语音类别中确定语音数据的语音类别。例如，可以确定语音数据中声音轨道的数量，从而确定语音数据为单人说话或多人说话的场景。还可以根据语音数据中语音的语速和音量等，确定说话人的情绪，从而确定语音类别。本实施例中，对语音识别算法不做具体限定。

S103、根据语音数据的语音类别，确定与语音数据的语音类别对应的降噪强度。

示例性地，不同语音类别可以对应不同的降噪强度，预先设置多个降噪强度，降噪强度是指对语音波形信号进行降噪的强度。降噪强度越大，语音波形信号的降噪效果越明显。在得到语音数据的语音类别后，可以确定与该语音类别对应的降噪强度。例如，各语音类别对应有自己的标识，且各降噪强度预先进行了等级划分。根据预设的计算公式，对语音类别的标识进行计算，得到的数值为降噪强度的等级，从而确定了降噪强度。根据语音数据的语音类别，确定对语音数据所对应的语音波形信号进行降噪处理的降噪强度。

本实施例中，根据语音数据的语音类别，确定与语音数据的语音类别对应的降噪强度，包括：根据预设的语音类别与降噪强度之间的关联关系，确定与语音数据的语音类别关联的降噪强度。

具体的，预先设置语音类别与降噪强度之间的关联关系，例如，语音类别为音乐播放场景，关联的降噪强度为0.1；语音类别为笑声，关联的降噪强度为0.2。在得到语音数据的语音类别后，根据预设的关联关系，直接查找与该语音类别关联的降噪强度。减少计算过程，提高降噪强度的确定精度和效率，从而提高语音处理的效率和精度。且不同场景下的语音数据对应不同的降噪强度，实现对降噪策略的灵活变动，提高语音处理的灵活性，便于满足多种业务需求。

S104、根据降噪强度，对待处理的语音波形信号进行降噪，得到降噪后的目标信号。

示例性地，不同降噪强度能够实现不同的降噪效果，根据确定的降噪强度，对待处理的语音波形信号进行降噪处理。待处理的语音波形信号即为与语音数据对应的语音波形信号。可以根据预设的语音降噪算法，对待处理的语音波形信号进行降噪，降噪强度可以是语音降噪算法中的参数，影响降噪效果。降噪后所得到的信号即为目标信号，例如，待处理的语音波形信号为教师讲课的波形信号，其中存在学生小声说话的声音，则降噪后的目标信号中可以抹去学生小声说话的声音，保留教师讲课的声音。本实施例中，对语音降噪算法不做具体限定。

本实施例中，在得到降噪后的目标信号之后，还包括：将目标信号转换为数字信号，并将数字信号输入至预设的录制设备进行语音录制。

具体的，在得到降噪后的目标信号，可以对目标信号进行录制。例如，降噪后的目标信号为课堂上教师讲课的声音，对教师讲课的声音进行录制，便于学生进行学习。目标信号为波形信号，将波形信号转换为数字信号，将数字信号输入至预设的声音录制设备中进行存储，完成声音的录制，所录制的声音即为降噪后的目标信号所对应的声音，使录制的音频更加清晰。

即，在进行声音录制时，需要先对声音进行处理，得到清晰的目标信号，再将清晰的目标信号进行录制。本实施例中，可以先获取待处理的语音波形信号，也就是在当前被录制的环境下所采集到的所有声音的波形信号。将待处理的语音波形信号转换为表示频域特征的语音数据，根据语音数据，确定语音数据的语音类别，来表明语音数据的发出场景。例如，可以根据语音数据中声音的音量和音轨数量等，确定语音类别为笑声场景或多人说话场景等。根据语音数据的语音类别，确定预先设定的与语音数据的语音类别对应的降噪强度。将降噪强度作为预设的卷积神经网络模型中的参数，并将待处理的语音波形信号输入卷积神经网络模型中进行降噪，得到降噪后的目标信号。将目标信号转为数字信号的形式进行存储，完成语音的录制。

本申请实施例提供的一种语音信号的处理方法，通过将时域特征的波形信号转换为频域特征，得到向量形式的语音数据。预设不同的语音类别，确定语音数据对应的语音类别，并确定语音类别对应的降噪强度。根据降噪强度，对语音数据对应的语音波形信号进行针对性处理。解决了现有技术中，无法在多人说话的场景下进行精确降噪的问题，实现动态调整降噪策略，提高语音信号降噪处理的灵活性和精度。

图3为本申请实施例提供的一种语音信号的处理方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，根据降噪强度，对待处理的语音波形信号进行降噪，得到降噪后的目标信号，可细化为：将待处理的语音波形信号输入至预设的第一卷积神经网络模型中，基于短时傅里叶变换算法，将待处理的语音波形信号转换为频域信号；根据降噪强度，对频域信号进行降噪，得到第一中间结果；将频域信号与所述第一中间结果进行拼接，得到第二中间结果；根据短时傅里叶逆变换算法，将第二中间结果转换为时域信号，为降噪后的目标信号。

如图3所示，该方法包括以下步骤：

S301、获取待处理的语音波形信号，将待处理的语音波形信号转换为表示频域特征的语音数据。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S302、根据语音数据，确定语音数据的语音类别；其中，语音类别表征语音数据的发出场景。

示例性地，本步骤可以参见上述步骤S102，不再赘述。

S303、根据语音数据的语音类别，确定与语音数据的语音类别对应的降噪强度。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

S304、将待处理的语音波形信号输入至预设的第一卷积神经网络模型中，基于短时傅里叶变换算法，将待处理的语音波形信号转换为频域信号。

示例性地，预先构建并训练卷积神经网络模型，作为第一卷积神经网络模型。第一卷积神经网络模型的输入为语音波形信号，输出为目标信号，降噪强度为第一卷积神经网络模型中的参数，即，第一卷积神经网络模型可以用于根据降噪强度，对语音波形信号进行降噪。

在第一卷积神经网络模型中预设有STFT(Short-time Fourier Transform，短时傅里叶变换)算法，STFT算法可以将时域特征转换为频域特征。将待处理的语音波形信号作为原始脉冲数据输入至第一卷积神经网络中，经过STFT算法，转换为频域信号，完成时域到频域的转换。原始脉冲数据为PCM(Pulse Code Modulation，脉冲编码调制)格式的数据，即，将采集到的待处理的PCM数据作为输入。

S305、根据频域信号，基于预设的复数域网络，得到第一中间结果。

示例性地，在第一卷积神经网络模型中，预设有复数域网络，复数域网络用在STFT算法之后，用于提取音频特征。在得到频域信号后，将频域信号输入至复数域网络中，通过卷积层对频域信号进行特征提取，得到第一中间结果。

本实施例中，根据频域信号，基于预设的复数域网络，得到第一中间结果，包括：根据第一卷积神经网络模型中的复数域网络，对频域信号进行编解码，得到第三中间结果；将第三中间结果输入至第一卷积神经网络模型中的全连接层，得到第一中间结果。

具体的，在第一卷积神经网络模型中设置有复数域网络，复数域网络的输入为频域信号。复数域网络中包括编码层和解码层，编码层中可以包括多层卷积层，解码层中也可以包括多层卷积层。本实施例中，复数域网络为DCUNet(Deep Complex U Networks，深度复数U型网络)。该复数域网络中包括10层卷积层为编码层，以及10层转置卷积层为解码层，共20层。即，复数域网络的编码层为10层卷积层，解码层为10层转置卷积层。编码层中各卷积层的尺寸可以逐层减半，解码层中各转置卷积层的尺寸可以逐层加倍。卷积层的尺寸逐层减半，是为了更有效的进行编码压缩特征，而Decoder(解码器)是与Encoder(编码器)呈镜像式的设计，意在还原为原始特征，并且将对称的层两两残差连接。

图4为复数域网络的结构示意图。图4中，编码器有四层卷积层，解码器有四层转置卷积层，编码器逐层减小，解码器逐层增大，编码器中的各卷积层与解码器中相同大小的转置卷积层进行残差连接。

频域信号经过复数域网络的编解码后，得到的结果为第三中间结果。在复数域网络后设置有全连接层。将第三中间结果输入至全连接层中，输出得到第一中间结果。第一中间结果为矩阵形式的掩码。

这样设置的有益效果在于，通过设置20层的复数域网络，既可以有效提取特征，又能避免计算时间过长，有效提高语音处理的效率。通过确定掩码，便于后续抹除噪声，提高语音处理的精度。

S306、根据降噪强度，将频域信号与第一中间结果进行拼接，得到第二中间结果。

示例性地，第一中间结果为复数掩码，在得到第一中间结果后，将频域信号与第一中间结果进行拼接，频域信号和第一中间结果都是矩阵，拼接的过程可以是将频域信号与第一中间结果结合，例如，可以是元素级的相乘，即，频域信号与第一中间结果这两个矩阵中的元素进行两两相乘。

在得到频域信号与第一中间结果的拼接结果后，可以将该拼接结果与降噪强度相乘，得到抹除噪声后的语音特征，作为第二中间结果。

S307、根据短时傅里叶逆变换算法，将第二中间结果转换为时域信号，为降噪后的目标信号。

示例性地，第二中间结果为频域特征，需要将频域特征转换为时域特征。在得到第二中间结果后，根据预设的短时傅里叶逆变换算法，将第二中间结果转换为时域信号，即得到与待处理的语音波形信号对应的降噪后的目标信号。

本实施例中，第一卷积神经网络的应用过程为，先经过短时傅里叶变换算法，得到频域信号；再经过复数域网络，得到第三中间结果；再经过全连接层，得到掩码，即第一中间结果；再根据降噪强度，将频域信号与第一中间结果进行元素级相乘，得到第二中间结果；最后根据短时傅里叶逆变换算法，将第二中间结果转换为时域信号，得到目标信号。第一卷积神经网络中设置有可变的降噪强度，通过第一卷积神经网络，可以对待处理的语音波形信号进行针对性的降噪，有效提高降噪强度和效率。

本实施例中，该方法还包括：采集噪声样本，将噪声样本进行切分，得到至少两个预设长度的噪声音频；将噪声音频与预先采集的人声进行合成，得到带噪样本语音；将带噪样本语音输入至预先构建的第一卷积神经网络模型中，得到样本输出数据；若根据预设的第一损失函数，确定样本输出数据与预先采集的人声之间的差值在预设差值范围内，则确定第一卷积神经网络模型训练完成。

具体的，在使用第一卷积神经网络模型之前，需要对预先构建的第一卷积神经网络模型进行训练。先采集待训练的噪声样本，可以采集一段时间长度的噪声，作为噪声样本。可以在一个安静的环境下，采集笔触碰撞屏幕的噪声。需要采集在平板设备上的各个位置、不同力道、不同时长、不同的书写方式的噪声，尽可能穷尽各种情况噪声。例如，可以采集3分钟在黑板写字的声音作为噪声样本。

把采集的噪声样本进行切分，得到至少两个预设长度的噪声音频，例如，可以将噪声样本切分为0.5～10秒的短音频。本实施例中，还可以对噪声样本进行校对和清洗等处理。

预先采集纯净的人声，纯净的人声是指不含任何噪声的单人语音的声音。例如，预先采集的人声可以是只有教师讲课的声音。预先采集的人声可以涵盖不同性别、不同年龄的音色。

将噪声音频与人声进行合成，使人声中存在噪声，所得到的声音为带噪样本语音。将带噪样本语音输入至预先构建的第一卷积神经网络模型中，得到样本输出数据，其中，带噪样本语音为x，预先采集的人声为y，样本输出数据为y’。预先设置第一损失函数，根据预设的第一损失函数，确定样本输出数据与预先采集的人声之间的差值是否在预设差值范围内，若是，则确定第一卷积神经网络模型训练完成；若否，则继续训练第一卷积神经网络模型。

预设的第一损失函数可以是SDR(Signal-to-Distortion Ratio，信号失真比)损失函数，具体的，第一损失函数可以是其中，loss_SDR(y，y’)为第一损失函数的函数值。

这样设置的有益效果在于，通过预先训练第一卷积神经网络模型，使第一卷积神经网络模型涵盖多种噪声情况，有效提高目标信号的输出精度。

图5为本申请实施例提供的一种语音信号的处理方法的流程示意图，该实施例是在上述实施例基础上的可选实施例。

本实施例中，根据语音数据，确定语音数据的语音类别，可细化为：将语音数据输入至预设的第二卷积神经网络模型中，输出语音数据属于预设的各语音类别的概率；根据语音数据属于预设的各语音类别的概率的大小，确定语音数据所属的语音类别。

如图5所示，该方法包括以下步骤：

S501、获取待处理的语音波形信号，将待处理的语音波形信号转换为表示频域特征的语音数据。

示例性地，本步骤可以参见上述步骤S101，不再赘述。

S502、将语音数据输入至预设的第二卷积神经网络模型中，输出语音数据属于预设的各语音类别的概率。

示例性地，预先构建并训练第二卷积神经网络模型，第二卷积神经网络模型用于根据语音数据确定语音数据属于预设的各语音类别的概率。例如，预设三种语音类别，则可以输出三个概率，所输出的概率表示语音数据属于各语音类别的可能性。概率越大，属于该概率对应的语音类别的可能性越大。

将语音数据输入第二卷积神经网络模型中，输出得到该语音数据属于预设的各语音类别的概率，例如，语音数据属于三种语音类别的概率分别为70％、10％和20％。本实施例中，对第二卷积神经网络模型的模型结构不做具体限定。

本实施例中，语音数据为至少两个；将语音数据输入至预设的第二卷积神经网络模型中，包括：根据语音数据所对应的待处理的语音波形信号的获取时间顺序，将至少两个语音数据拼接为语谱图；将语谱图输入至第二卷积神经网络模型中。

具体的，可以获取一段时间内的语音波形信号，作为待处理的语音波形信号。在将待处理的语音波形信号转换为语音数据时，可以将预设时间段作为语音数据的向量大小，例如，可以将20ms作为一个单元，得到一个语音数据。即，一段待处理的语音波形信号可以得到多个语音数据。

若有多个语音数据，则可以将多个语音数据一起输入至第二卷积神经网络模型中，不需要每次输入一个语音数据，提高语音处理的效率。确定语音数据所对应的待处理的语音波形信号的获取时间顺序，根据待处理的语音波形信号的获取时间顺序，对语音数据进行排序，将语音数据根据时间的排序拼为语谱图。语谱图可以是一副由多种颜色组成的图像，可以由向量表示。将语谱图的向量输入至第二卷积神经网络模型中，实现将多个语音数据同时输入至第二卷积神经网络模型中。

这样设置的有益效果在于，通过拼接成语谱图，提高语音类别的确定效率，进而提高降噪效率。

S503、根据语音数据属于预设的各语音类别的概率的大小，确定语音数据所属的语音类别。

示例性地，在得到语音数据属于各语音类别的概率后，根据这些概率的大小，确定该语音数据所属的语音类别。例如，可以将大于预设概率阈值的概率对应的语音类别作为语音数据所属的语音类别。

本实施例中，根据语音数据属于预设的各语音类别的概率的大小，确定语音数据所属的语音类别，包括：将语音数据属于预设的各语音类别的概率进行大小排序，确定位于预设排序位置处的概率对应的语音类别，为语音数据所属的语音类别。

具体的，将语音数据属于各语音类别的概率进行大小排序，可以由大至小或由小至大进行排序。预先设置一个排序位置，例如，若进行由大至小排序，则预设排序位置可以是第一位；若进行由小至大排序，则预设排序位置可以是最后一位。在得到概率的大小排序结果后，查找位于预设排序位置上的概率，将该概率对应的语音类别确定为语音数据所属的语音类别。例如，可以将最大值概率对应的语音类别确定为语音数据所属的语音类别。

这样设置的有益效果在于，可以找到最大的概率，从而得到语音数据所属的可能性最大的语音类别，提高语音类别的确定效率和精度。

本实施例中，方法还包括：采集预设语音类别下的样本数据；将样本数据输入至预先构建的第二卷积神经网络模型，得到样本数据在各语音类别下的输出概率值；将样本数据的语音类别以及样本数据在各语音类别下的输出概率值输入至预设的第二损失函数中，确定第二损失函数的函数值；若第二损失函数的函数值位于预设的数值范围内，则确定第二卷积神经网络模型训练完成。

具体的，预先设置多种语音类别，采集各种语音类别下的语音数据，作为样本数据。将样本数据输入至预先构建的第二卷积神经网络模型中，第二卷积神经网络模型输出得到样本数据属于各语音类别的概率，作为输出概率值。预先设置第二损失函数，将样本数据正确的语音类别和样本数据属于各语音类别的输出概率值输入至第二损失函数中，得到第二损失函数的函数值。确定第二损失函数的函数值是否位于预设的数值范围内，若是，则确定第二卷积神经网络模型训练完成；若否，则继续训练第二卷积神经网络模型。

第二卷积神经网络模型可以是交叉熵函数，预设的数值范围可以是足够小的数值。

这样设置的有益效果在于，通过训练第二卷积神经网络模型，保证第二卷积神经网络模型可以确定语音数据的正确的语音类别，提高语音类别的确定精度，进而提高降噪精度。

S504、根据语音数据的语音类别，确定与语音数据的语音类别对应的降噪强度。

示例性地，本步骤可以参见上述步骤S103，不再赘述。

S505、根据降噪强度，对待处理的语音波形信号进行降噪，得到降噪后的目标信号。

示例性地，本步骤可以参见上述步骤S104，不再赘述。

图6为本申请实施例提供的一种语音信号的处理装置的结构框图。为了便于说明，仅示出了与本公开实施例相关的部分。参照图6，该装置包括：信号获取模块601、类别确定模块602、强度确定模块603和降噪模块604。

信号获取模块601，用于获取待处理的语音波形信号，将所述待处理的语音波形信号转换为表示频域特征的语音数据；

类别确定模块602，用于根据所述语音数据，确定所述语音数据的语音类别；其中，所述语音类别表征语音数据的发出场景；

强度确定模块603，用于根据所述语音数据的语音类别，确定与所述语音数据的语音类别对应的降噪强度；

降噪模块604，用于根据所述降噪强度，对所述待处理的语音波形信号进行降噪，得到降噪后的目标信号。

图7为本申请实施例提供的一种语音信号的处理装置的结构框图，在图6所示实施例的基础上，如图7所示，降噪模块604包括频域信号获得单元6041、第一结果获得单元6042、第二结果获得单元6043和目标信号确定单元6044。

频域信号获得单元6041，用于将所述待处理的语音波形信号输入至预设的第一卷积神经网络模型中，基于短时傅里叶变换算法，将所述待处理的语音波形信号转换为频域信号；

第一结果获得单元6042，用于根据所述频域信号，基于预设的复数域网络，得到第一中间结果；

第二结果获得单元6043，用于根据所述降噪强度，将所述频域信号与所述第一中间结果进行拼接，得到第二中间结果；

目标信号确定单元6044，用于根据短时傅里叶逆变换算法，将所述第二中间结果转换为时域信号，为降噪后的目标信号。

一个示例中，第一结果获得单元6042，具体用于：

根据所述第一卷积神经网络模型中的复数域网络，对所述频域信号进行编解码，得到第三中间结果；

将所述第三中间结果输入至所述第一卷积神经网络模型中的全连接层，得到第一中间结果。

一个示例中，复数域网络中包括10层卷积层为编码层，以及10层转置卷积层为解码层。

一个示例中，类别确定模块602，包括：

概率输出单元，用于将所述语音数据输入至预设的第二卷积神经网络模型中，输出所述语音数据属于预设的各语音类别的概率；

语音类别确定单元，用于根据所述语音数据属于预设的各语音类别的概率的大小，确定所述语音数据所属的语音类别。

一个示例中，语音数据为至少两个；

概率输出单元，具体用于：

根据语音数据所对应的待处理的语音波形信号的获取时间顺序，将至少两个语音数据拼接为语谱图；

将所述语谱图输入至所述第二卷积神经网络模型中。

一个示例中，语音类别确定单元，具体用于：

将所述语音数据属于预设的各语音类别的概率进行大小排序，确定位于预设排序位置处的概率对应的语音类别，为所述语音数据所属的语音类别。

一个示例中，强度确定模块603，具体用于：

根据预设的语音类别与降噪强度之间的关联关系，确定与所述语音数据的语音类别关联的降噪强度。

一个示例中，该装置还包括：

第一模型训练模块，用于采集噪声样本，将所述噪声样本进行切分，得到至少两个预设长度的噪声音频；

将所述噪声音频与预先采集的人声进行合成，得到带噪样本语音；

将所述带噪样本语音输入至预先构建的第一卷积神经网络模型中，得到样本输出数据；

若根据预设的第一损失函数，确定所述样本输出数据与预先采集的人声之间的差值在预设差值范围内，则确定所述第一卷积神经网络模型训练完成。

一个示例中，该装置还包括：

第二模型训练模块，用于采集预设语音类别下的样本数据；

将所述样本数据输入至预先构建的第二卷积神经网络模型，得到所述样本数据在各语音类别下的输出概率值；

将所述样本数据的语音类别以及所述样本数据在各语音类别下的输出概率值输入至预设的第二损失函数中，确定第二损失函数的函数值；

若所述第二损失函数的函数值位于预设的数值范围内，则确定所述第二卷积神经网络模型训练完成。

一个示例中，该装置还包括：

语音录制模块，用于在得到降噪后的目标信号之后，将所述目标信号转换为数字信号，并将所述数字信号输入至预设的录制设备进行语音录制。

图8为本申请实施例提供的一种电子设备的结构框图，如图8所示，电子设备包括：存储器81，处理器82；存储器81；用于存储处理器82可执行指令的存储器。

其中，处理器82被配置为执行如上述实施例提供的方法。

电子设备还包括接收器83和发送器84。接收器83用于接收其他设备发送的指令和数据，发送器84用于向外部设备发送指令和数据。

图9是根据一示例性实施例示出的一种电子设备的结构框图，该设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理，车辆等。

设备900可以包括以下一个或多个组件：处理组件902，存储器904，电源组件906，多媒体组件908，音频组件910，输入/输出(I/O)接口912，传感器组件914，以及通信组件916。

处理组件902通常控制设备900的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件902可以包括一个或多个模块，便于处理组件902和其他组件之间的交互。例如，处理组件902可以包括多媒体模块，以方便多媒体组件908和处理组件902之间的交互。

存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在设备900上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件906为设备900的各种组件提供电力。电源组件906可以包括电源管理系统，一个或多个电源，及其他与为设备900生成、管理和分配电力相关联的组件。

多媒体组件908包括在所述设备900和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件908包括一个前置摄像头和/或后置摄像头。当设备900处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件910被配置为输出和/或输入音频信号。例如，音频组件910包括一个麦克风(MIC)，当设备900处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中，音频组件910还包括一个扬声器，用于输出音频信号。

I/O接口912为处理组件902和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件914包括一个或多个传感器，用于为设备900提供各个方面的状态评估。例如，传感器组件914可以检测到设备900的打开/关闭状态，组件的相对定位，例如所述组件为设备900的显示器和小键盘，传感器组件914还可以检测设备900或设备900一个组件的位置改变，用户与设备900接触的存在或不存在，设备900方位或加速/减速和设备900的温度变化。传感器组件914可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件914还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件916被配置为便于设备900和其他设备之间有线或无线方式的通信。设备900可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件916还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器904，上述指令可由设备900的处理器920执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当该存储介质中的指令由终端设备的处理器执行时，使得终端设备能够执行上述终端设备的语音信号的处理方法。

本申请还公开了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现如本实施例中所述的方法。

本申请以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或电子设备上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据电子设备)、或者包括中间件部件的计算系统(例如，应用电子设备)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和电子设备。客户端和电子设备一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-电子设备关系的计算机程序来产生客户端和电子设备的关系。电子设备可以是云电子设备，又称为云计算电子设备或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。电子设备也可以为分布式系统的电子设备，或者是结合了区块链的电子设备。应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种语音信号的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，根据所述降噪强度，对所述待处理的语音波形信号进行降噪，得到降噪后的目标信号，包括：

将所述待处理的语音波形信号输入至预设的第一卷积神经网络模型中，基于短时傅里叶变换算法，将所述待处理的语音波形信号转换为频域信号；

根据所述频域信号，基于预设的复数域网络，得到第一中间结果；

根据所述降噪强度，将所述频域信号与所述第一中间结果进行拼接，得到第二中间结果；

根据短时傅里叶逆变换算法，将所述第二中间结果转换为时域信号，为降噪后的目标信号。

3.根据权利要求2所述的方法，其特征在于，根据所述频域信号，基于预设的复数域网络，得到第一中间结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述复数域网络中包括10层卷积层为编码层，以及10层转置卷积层为解码层。

5.根据权利要求1所述的方法，其特征在于，根据所述语音数据，确定所述语音数据的语音类别，包括：

将所述语音数据输入至预设的第二卷积神经网络模型中，输出所述语音数据属于预设的各语音类别的概率；

根据所述语音数据属于预设的各语音类别的概率的大小，确定所述语音数据所属的语音类别。

6.根据权利要求5所述的方法，其特征在于，所述语音数据为至少两个；

将所述语音数据输入至预设的第二卷积神经网络模型中，包括：

将所述语谱图输入至所述第二卷积神经网络模型中。

7.根据权利要求5所述的方法，其特征在于，根据所述语音数据属于预设的各语音类别的概率的大小，确定所述语音数据所属的语音类别，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述语音数据的语音类别，确定与所述语音数据的语音类别对应的降噪强度，包括：

9.根据权利要求1-8中任一所述的方法，其特征在于，所述方法还包括：

采集噪声样本，将所述噪声样本进行切分，得到至少两个预设长度的噪声音频；

10.根据权利要求1-8中任一所述的方法，其特征在于，所述方法还包括：

采集预设语音类别下的样本数据；

11.根据权利要求1-8中任一所述的方法，其特征在于，在得到降噪后的目标信号之后，还包括：

将所述目标信号转换为数字信号，并将所述数字信号输入至预设的录制设备进行语音录制。

12.一种语音信号的处理装置，其特征在于，包括：

13.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-11中任一项所述的语音信号的处理方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-11中任一项所述的语音信号的处理方法。

15.一种计算机程序产品，其特征在于，包括计算机程序，该计算机程序被处理器执行时实现如权利要求1-11中任一项所述的语音信号的处理方法。