CN112767927A

CN112767927A - 一种提取语音特征的方法、装置、终端及存储介质

Info

Publication number: CN112767927A
Application number: CN202011602171.3A
Authority: CN
Inventors: 张之勇; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-05-07
Also published as: WO2022141868A1

Abstract

本申请适用于计算机技术领域，提供了一种提取语音特征的方法、装置、终端及存储介质，包括：获取待处理的语音数据；将该语音数据输入到已训练的语音特征提取模型中进行处理，得到该语音数据对应的目标语音特征。上述方式中的语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的。基于该语音特征提取模型可以提取到有效地、信息丰富、表达准确的目标语音特征，进而使该目标语音特征应用于智能语音任务处理场景时，处理结果更准确。

Description

一种提取语音特征的方法、装置、终端及存储介质

技术领域

本申请属于计算机技术领域，尤其涉及一种提取语音特征的方法、装置、终端及存储介质。

背景技术

智能语音技术作为人工智能重要的组成部分，其应用通过标注大量的有监督数据，重新训练语音模型或者在原始语音模型上进行优化，其过程会消耗大量的人力、经济以及时间。且可直接作为训练样本的带标注的语音数据很少，不利于语音模型的训练。因此，无监督的语音特征提取方法应用而生。

然而，由于语音数据的复杂性和多变性，现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征，导致使用该语音模型提取到的语音特征不准确。

发明内容

有鉴于此，本申请实施例提供了一种提取语音特征的方法、装置、终端及存储介质，以解决现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征，导致使用该语音模型提取到的语音特征不准确的问题。

本申请实施例的第一方面提供了一种提取语音特征的方法，包括：

获取待处理的语音数据；

将所述语音数据输入到已训练的语音特征提取模型中进行处理，得到所述语音数据对应的目标语音特征，所述语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。

本申请实施例的第二方面提供了一种提取语音特征的装置，包括：

获取单元，用于获取待处理的语音数据；

处理单元，用于将所述语音数据输入到已训练的语音特征提取模型中进行处理，得到所述语音数据对应的目标语音特征，所述语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。

本申请实施例的第三方面提供了一种提取语音特征的终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述第一方面所述的提取语音特征的方法的步骤。

本申请实施例的第四方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的提取语音特征的方法的步骤。

本申请实施例的第五方面提供了一种计算机程序产品，当计算机程序产品在提取语音特征的终端上运行时，使得提取语音特征的终端执行上述第一方面所述的提取语音特征的方法的步骤。

本申请实施例提供的一种提取语音特征的方法、提取语音特征的装置、提取语音特征的终端及存储介质，具有以下有益效果：

本申请实施例，语音特征提取模型是以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，基于自监督学习对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，且每个样本语音数据对中的增强语音数据是对原始语音数据进行数据增强处理得到的。这样训练得到的语言特征提取模型学习到了，从增强语音数据中提取到原始语音数据对应的语音特征的能力，可以理解为从失真语音数据中提取到未失真语音数据对应的语音特征的能力，也学习到了如何提取有效地语音特征，使得该语言特征提取模型在实际使用过程中，可提取到有效地、信息丰富、表达准确的目标语音特征。进而使该目标语音特征应用于智能语音任务处理场景时，处理结果更准确。且该语言特征提取模型在训练过程中，可根据原始语音数据生成增强语音数据，一方面扩大了样本语音数据的数量，一方面不需要人工去提供样本语音数据，节省了大量的人力、经济、时间。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种提取语音特征的方法的示意流程图；

图2是本发明另一实施例提供的一种提取语音特征的方法的示意流程图；

图3是本发明提供的语音特征提取模型结构的示意图；

图4是本发明又一实施例提供的一种提取语音特征的方法的示意流程图；

图5是本申请一实施例提供的一种提取语音特征的装置的示意图；

图6是本申请另一实施例提供的一种提取语音特征的终端的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

然而，发明人意识到，由于语音数据的复杂性和多变性，现有的基于无监督学习训练得到的语音模型很难学习到语音数据的有效特征，导致使用该语音模型提取到的语音特征不准确。

有鉴于此，本申请提供了一种提取语音特征的方法，该方法中，语音特征提取模型是以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，基于自监督学习对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，且每个样本语音数据对中的增强语音数据是对原始语音数据进行数据增强处理得到的。这样训练得到的语言特征提取模型学习到了，从增强语音数据中提取到原始语音数据对应的语音特征的能力，可以理解为从失真语音数据中提取到未失真语音数据对应的语音特征的能力，也学习到了如何提取有效地语音特征，使得该语言特征提取模型在实际使用过程中，可提取到有效地、信息丰富、表达准确的目标语音特征。进而使该目标语音特征应用于智能语音任务处理场景时，处理结果更准确。且该语言特征提取模型在训练过程中，可根据原始语音数据生成增强语音数据，一方面扩大了样本语音数据的数量，一方面不需要人工去提供样本语音数据，节省了大量的人力、经济、时间。

请参见图1，图1是本申请实施例提供的一种提取语音特征的方法的示意流程图。本实施例中提取语音特征的方法的执行主体为终端、服务器等，其中，终端包括但不限于智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assistant，PDA)等移动终端，还可以包括台式电脑等终端。本实施例中以执行主体为终端为例进行说明，如图1所示的提取语音特征的方法可包括S101～S102，具体如下：

S101：获取待处理的语音数据。

待处理的语音数据即为需要进行语音特征提取的语音数据。提取到的语音特征可应用于不同的智能语音任务处理场景中。例如，提取到的语音特征可以应用到语音识别、说话人身份识别、语种识别、语音翻译、同声翻译、语音控制等场景中。

正是由于可能会应用到不同的智能语音任务处理场景中，待处理的语音数据可以相同，也可以不同。例如，若是在说话人身份识别这种场景中需要提取语音特征，待处理的语音数据可以是预先上传至终端的一条完整的语音；若是在语音控制这种场景中需要提取语音特征，待处理的语音数据可以通过内置的拾音装置(例如，麦克风、声卡等)获取到的用户发出的语音等。此处仅为示例性说明，对此不做限定。

示例性地，不同应用场景获取待处理的语音数据方式也不相同。当应用场景需要实时出结果时，例如同声翻译、语音控制的等，此时获取该语音数据的方式可以为，通过内置的拾音装置(例如，麦克风、声卡等)获取用户发出的语音。

当应用场景不需要实时出结果时，例如说话人身份识别，获取该语音数据的方式可以为，用户预先将待处理的语音数据上传至终端，终端获取该待处理的语音数据。也可以是终端在检测到特征提取指令时，根据该特征提取指令中包含的文件标识，获取该文件标识对应的文本文件，并提取该文本文件中待处理的语音数据。此处仅为示例性说明，对此不做限定。

S102：将该语音数据输入到已训练的语音特征提取模型中进行处理，得到该语音数据对应的目标语音特征，该语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，该增强语音数据是对该原始语音数据进行数据增强处理得到的。

在本实施例中，提取语音特征的终端中预先存储有预先训练好的语音特征提取模型。该语音特征提取模型是采用自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的。

每个样本语音数据对中的增强语音数据，是对每个样本语音数据对中的原始语音数据进行数据增强处理得到的。可以理解为，原始语音数据为纯净的语音数据，即不含噪音、杂质、未失真的语音数据。增强语音数据是对该原始语音数据，进行混响处理、加噪处理、频率掩蔽处理、时间掩蔽处理、剪辑处理、重叠语音处理中的任意一种处理或任意多种处理后得到的。

通常现有技术中，获取的样本语音数据是含噪音、杂质、失真的语音数据，以及从该语音数据中提取到的语音特征。基于该语音特征为学习目标，通过机器学习对这些语言数据和语音特征进行训练，使训练得到的语音模型具有从含噪音、杂质、失真的语音数据中，提取出有效语音特征的能力。然而，这种训练语音模型的方式，由于语音数据的复杂性和多变性，且学习目标原本就是从含噪音、杂质、失真的语音数据中提取到的语音特征，导致语音模型在训练过程中学习到很多没有意义的特征，再加上语音数据的复杂性和多变性带来的干扰，最终训练得到的语音模型在实际处理语音数据时，不能提取到有效、准确、丰富地语音特征，进而导致该语音模型在各种智能语音任务处理场景中应用时，处理结果不准确。

或者，现有技术中还采用无监督学习的方式训练语音模型，无监督学习是指在没有目标的情况下寻找输入数据的变化，其目的在于更好地理解数据中的相关性。目前无监督的语音特征提取方法主要包括主成分分析方法和基于混合高斯模型的方法两种，上述两种方法的设置前提均是语音数据服从高斯分布，且在执行过程中仅需要进行人为降维，然而语音数据不一定符合高斯分布，且人为降维会无可避免地导致高维特征的损失，导致语音模型在实际处理语音数据时，不能提取到有效、准确、丰富地语音特征，进而导致该语音模型在各种智能语音任务处理场景中应用时，处理结果不准确。

而本申请中采用自监督学习的方式，将原始语音数据中提取到的的样本语音特征作为自监督学习的目标，目标明确，且由于原始语音数据是不含噪音、杂质、未失真的语音数据，从该原始语音数据中提取到的样本语音特征更准确、丰富、有效。

对原始语音数据进行数据增强处理得到增强语音数据，一方面相当于增加了训练样本的数量，一方面对原始语音数据应用的是已知的变换，便于对增强语音数据的类型进行控制，即对原始语音数据进行数据增强处理时，可以控制数据增强处理的类型，使得语音特征提取模型在训练过程中，有针对性地学习各种有效的语音特征。进而使最终训练得到的语音特征提取模型，在实际处理语音数据时，能够提取到有效、准确、丰富地语音特征，该语音特征提取模型在各种智能语音任务处理场景中应用时，处理结果更加准确。

可以理解的是，语音特征提取模型可以由提取语音特征的终端预先训练好，也可以由其他设备预先训练好后将语音特征提取模型对应的文件移植至该终端中。也就是说，训练该语音特征提取模型的执行主体与使用该语音特征提取模型进行语音特征提取的执行主体可以是相同的，也可以是不同的。例如，当采用其他设备训练初始语音特征提取模型时，其他设备对初始语音特征提取模型结束训练后，固定初始语音特征提取模型的模型参数，得到训练好的语音特征提取模型对应的文件。然后将该文件移植到提取语音特征的终端中。

请参见图2，图2是本发明另一实施例提供的一种提取语音特征的方法的示意流程图。可选地，在一种可能的实现方式中，如图2所示，上述S102可以包括S1021～S1023，具体如下：

S1021：将该语音数据输入到该卷积滤波器中进行处理，得到该语音数据对应的第一语音特征，该第一语音特征包括频率特征。

已训练的语音特征提取模型中包括卷积滤波器、卷积编码器以及准循环神经网络。请参见图3，图3是本发明提供的语音特征提取模型结构的示意图。其中，卷积滤波器可以为可解释的卷积滤波器(SincNet)，卷积编码器由7个卷积神经网络层(ConvNet)构成，准循环神经网络可以为神经网络回归(Quantile RegressionNeural Network,QRNN)。此处仅为示例性说明，对此不做限定。

示例性地，已训练的语音特征提取模型在对待处理的语音数据进行处理时，可先将该语音数据转换为波形，具体可通过现有的语音转换波形软件对该语音数据进行转换，此处不再赘述。将转换得到的波形输入SincNet中，SincNet基于预设时长的滑动窗口，对输入的波形进行时域卷积操作，得到该语音数据对应的第一语音特征，第一语音特征可以包括频率特征、梅尔频率倒谱系数(Mel-FrequencyCepstraloefficients，MFCC)特征、滤波器组特性(Filter bank characteristics，Fbank)特征、波形(wave)特征、对数功率谱(Log-power spectrum，Lps)特征等。其中，频率特征可以包括音频特征、基频特征、频带特征等。其中，预设时长可根据实际情况进行调整，例如本实施例中，可设置为10毫秒的滑动窗口。语音数据具有时序性，基于预设时长的滑动窗口对输入的波形进行时域卷积操作，可以理解为每次对10毫秒时长的波形进行时域卷积操作，直至输入的波形被处理完成。

示例性地，SincNet对输入的波形进行时域卷积操作可通过下式(1)表现，具体如下：

上述(1)式中，y[n]表示SincNet输出的第一语音特征，x[n]表示输入的波形，h[n]为预设的长度为L的滤波器。

此处仅为示例性说明，对此不做限定。

S1022：通过该卷积编码器对该第一语音特征进行卷积处理，得到第二语音特征，该第二语音特征包括MFCC特征和Fbank特征。

将第一语音特征输入卷积编码器中进行卷积处理，得到第二语音特征，第二语音特征可以包括MFCC特征、Fbank特征、wave特征、Lps特征、伽马(Gamma)特征、韵律(Proso)特征等。

该卷积编码器由7个ConvNet构成，第一个ConvNet对第一语音特征进行卷积处理，得到第一处理结果。将第一处理结果输入至第二个ConvNet，第二个ConvNet对该第一处理结果进行卷积处理，得到第二处理结果，以此类推，直至最后一个ConvNet对前一个ConvNet传递过来的处理结果进行卷积处理后，输出第二语音特征。

示例性地，第一个ConvNet基于预设的卷积核对第一语音特征卷积，可以理解为第一个ConvNet在第一语音特征中进行特征选择，去除多余特征，得到第一处理结果。例如，根据第一语音特征中的信息提取MFCC特征、Fbank特征、wave特征、Lps特征、伽马(Gamma)特征、韵律(Proso)特征等。将第一处理结果输入至第二个ConvNet中，第二个ConvNet在第一个ConvNet提取到的特征的基础上，进一步进行卷积，以提取更深层的特征，得到第二处理结果。以此类推，直至最后一个ConvNet对前一个ConvNet传递过来的处理结果进行卷积处理后，得到第二语音特征。

可选地，在一种可能实现的方式中，为了使提取到的第二语音特征更准确，消除可能由性别、年龄带来的语音特征之间的差异性，可将该第七处理结果输入降采样层进行处理，再由该降采样层输出第二语音特征。

示例性地，降采样层对第七处理结果的处理可通过下式(2)表现，具体如下：

上述(2)式中，P_j,m表示降采样层的输出，j表示第j个ConvNet的处理结果，m表示第m个降采样带，n表示降采样因子，r表示降采样窗长的大小，表示要把多少频带的数据降采样到一起。

此处仅为示例性说明，对此不做限定。

本实施例中，由于不同人器官构造和发声习惯不同，常常会导致特征提取后具有一定的差异性，具体表现为频谱偏移，例如男人相比女人声音频率普遍要低，承认相比儿童频率也普遍降低，通过降采样层的处理，可很好的消除该差异性，使提取到的语音特征更准确。

S1023：将该第二语音特征输入到该准循环神经网络中进行处理，得到该目标语音特征，该目标语音特征包括目标波形特征、目标对数功谱率特征、目标频谱特征、目标滤波器组特性、目标伽马特征以及目标韵律特征。

将第二语音特征输入QRNN中进行处理，得到待处理的语音数据对应的目标语音特征。目标语音特征包括目标波形特征、目标对数功谱率特征、目标频谱特征、目标滤波器组特性、目标伽马特征以及目标韵律特征，目标语音特征还可包括长时对数功率谱(LongLog-power spectrum，Long-Lps)特征、长时梅尔频率倒谱系数(Long Mel-FrequencyCepstraloefficients，Long-MFCC)特征、长时滤波器组特性(Long Filter bankcharacteristics，Long-Fbank)特征、长时伽马(Long Gamma)特征等。值得说明的是，第一语音特征、第二语音特征以及目标语音特征中，有些特征是相同类型的特征，不同的是，第一语音特征和第二语音特征提取到的特征，特征信息不是很丰富，特征表达的也不是很准确，经过准循环神经网络的处理后，得到的目标语音特征信息丰富、表达准确。

如图3所示，QRNN中的第一层为卷积层(Conv 1D)，用于提取输入的第二语音特征中的特征，Sigmoid、Tanh为该QRNN中用到的函数，第二层为池化层，用于减少特征数目，不同的是，QRNN中池化层采用的是fo-pool方法。示例性地，基于QRNN中卷积层提取第二语音特征中的特征可通过下式(3)表现，具体如下：

上述(3)式中，X表示输入的第二语音特征，Z、F、O表示参数W参与的乘法门，W_z、W_f、W_o表示预设R大小的卷积滤波器，当滤波器宽度为2时，上述(3)式可以表示为：

即滤波器的宽度越大，可考虑到更多时刻的特征，越能计算得到更高的特征。

将卷积层提取到的特征输入池化层中进行处理，输出目标语音特征。可通过下式(4)、(5)实现池化层卷积层提取到的特征的处理，具体如下：

c_t＝f_t☉c_t-1+(1-f_t)☉z_t， (4)

h_t＝o_t☉c_t， (5)

上式(4)中c_t表示时间t的单元状态向量，上式(5)中h_t表示时间t的隐藏状态向量。

可选地，在一种可能的实现方式中，为了使提取到的目标语音特征信息更准确、表达更准确，在S1022之后还可包括S1024～S1025，具体如下：

S1024：基于该准循环神经网络提取第二语音特征对应的第三语音特征。

第三语音特征与目标语音特征中包括的各个特征的类型相同，即第三语音特征包括MFCC特征、Fbank特征、wave特征、Lps特征、伽马(Gamma)特征、韵律(Proso)特征、Long-Lps特征、Long-MFCC特征、Long-Fbank特征、Long Gamma特征等。此处仅为示例性说明，对此不做限定。

将第二语音特征输入QRNN中进行处理，得到第二语音特征对应的目标语音特征。准循环神经网络对第二语音特征的具体处理过程，可参考S1023中的描述，此处不再赘述。

S1025：采用跳跃连接的方式将第二语音特征与第三语音特征结合，得到该目标语音特征。

第二语音特征与第三语音特征均以向量的形式表现，将第二语音特征与第三语音特征对应相加，得到目标语音特征。若第三语音特征中包括的某个类型的特征，在第二语音特征中没有，默认第二语音特征中该类型的特征对应的向量为0。此处仅为示例性说明，对此不做限定。

可选地，在一种可能的实现方式中，基于S1022可知，卷积编码器由7个ConvNet构成，每个ConvNet都有一个对应的处理结果。采用跳跃连接的方式将第二语音特征与第三语音特征结合可以是，将第一个ConvNet对应的第一处理结果、第三个ConvNet对应的第三处理结果、第五个ConvNet对应的第五处理结果与第三语音特征对应相加，得到目标语音特征。或者，将第一个ConvNet对应的第一处理结果、第三个ConvNet对应的第三处理结果、第五个ConvNet对应的第五处理结果、第七个ConvNet对应的第七处理结果与第三语音特征对应相加，得到目标语音特征。又或者，将第二个ConvNet对应的第二处理结果、第四个ConvNet对应的第四处理结果、第六个ConvNet对应的第六处理结果与第三语音特征对应相加，得到目标语音特征。此处仅为示例性说明，对此不做限定。

本实施例中，目标语音特征表现为卷积编码器发现的特征的总和，因此，使最终得到的目标语音特征信息更准确、表达更准确。

本申请实施例，语音特征提取模型是以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，基于自监督学习对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，且每个样本语音数据对中的增强语音数据是对原始语音数据进行数据增强处理得到的。这样训练得到的语言特征提取模型学习到了，从增强语音数据中提取到原始语音数据对应的语音特征的能力，可以理解为从失真语音数据中提取到未失真语音数据对应的语音特征的能力。使得该语言特征提取模型在实际使用过程中，可提取到有效地、信息丰富、表达准确的目标语音特征。进而使该目标语音特征应用于智能语音任务处理场景时，处理结果更准确。且该语言特征提取模型在训练过程中，可根据原始语音数据生成增强语音数据，一方面扩大了样本语音数据的数量，一方面不需要人工去提供样本语音数据，节省了大量的人力、经济、时间。

请参见图4，图4是本发明又一实施例提供的一种提取语音特征的方法的示意流程图。该方法可以包括S201～S206。其中，图4所示的步骤S205～S206可以参考图1对应的实施例中S101～S102的相关描述，为了简洁，这里不再赘述。下面将具体对步骤S201～S204进行说明。

S201：将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征。

样本语音数据集中包括多个样本语音数据对，每个样本语音数据对中包括一个原始语音数据和一个增强语音数据。其中，每个样本语音数据对中的增强语音数据，是由该样本语音数据对中的原始语音数据经过数据增强处理后得到的。其中，数据增强处理可以为混响处理、加噪处理、频率掩蔽处理、时间掩蔽处理、剪辑处理、重叠语音处理中的任意一种处理或任意多种处理。

示例性地，可对每一种数据增强处理预设一个概率值，并基于预设的概率值对获取到的每个样本语音数据对中的原始语音数据进行数据增强处理，得到每个样本语音数据对中的原始语音数据对应的增强语音数据。概率值用于表示对每个原始语音数据进行该概率值对应的数据增强处理的可能性。

例如，混响处理对应的概率值为0.5，加噪处理对应的概率值为0.4，频率掩蔽处理对应的概率值为0.4，时间掩蔽处理对应的概率值为0.2，剪辑处理对应的概率值为0.2，重叠语音处理对应的概率值为0.1。也就是说，有0.5的概率会对某个原始语音数据进行混响处理，有0.4的概率会对某个原始语音数据进行加噪处理，有0.4的概率会对某个原始语音数据进行频率掩蔽处理，有0.2的概率会对某个原始语音数据进行时间掩蔽处理，有0.2的概率会对某个原始语音数据进行剪辑处理。值得说明的是，虽然对每个不同的数据增强处理设置了概率值，但是对每个原始语音数据进行几种数据增强处理并不限定，可以是其中一种，也可以是基于概率值出现的几种处理的组合。

示例性地，混响处理是通过将原始语音数据对应的信号与一组1300个脉冲响应卷积来实现的，这些脉冲响应是用图像方法导出的。脉冲响应模拟不同的声学条件，混响时间在0.3到0.9秒之间。加噪处理中的噪声是从预设的FreeSound数据集和DIRHA数据集中提取的，加噪处理中的噪声可以包括背景噪声和非平稳噪声，如警报、敲门声、电话铃声、电视声等，信噪比在0到10dB之间随机采样。频率掩蔽处理通过用带阻滤波器对原始语音数据对应的时间信号进行滤波来实现的。时间掩蔽处理通过将原始语音数据中的随机片段设置为零实现。剪辑处理通过对原始语音数据添加随机饱和度来实现。重叠语音处理通过在原始语音数据中与该原始语音数据对应的主信号重叠的语音信号实现。此处均为示例性说明，对此不做限定。

将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，即分别将每个样本语音数据对中的原始语音数据输入到初始语音特征提取模型中进行处理，将每个样本语音数据对中的增强语音数据输入到初始语音特征提取模型中进行处理。初始语音特征提取模型输出每个原始语音数据对应的样本语音特征，以及输出每个增强语音数据对应的真实语音特征。

示例性地，如图3所示，在训练语音特征提取模型的过程中，初始语音特征提取模型包括初始卷积滤波器、初始卷积编码器以及初始准循环神经网络。其中，初始卷积滤波器可以为可解释的卷积滤波器(SincNet)，初始卷积编码器由7个卷积神经网络层(ConvNet)构成，初始准循环神经网络可以为QRNN。Skip Connections(跳跃式传递)表示跳跃式连接，FC表示在7个ConvNet中跳跃式选择的处理结果。图3顶层的Workers表示12个自监督任务，基于一个小的前馈神经网络(通常一个隐藏层有256个隐藏单元)实现。可以明显的看出，这12个自监督任务每个对应一个从语音数据中提取出的语音特征，可以通俗理解为，监督每个原始语音数据对应的样本语音特征，和输出每个增强语音数据对应的真实语音特征之间的差异性，并根据该差异性调整初始语音特征提取模型的模型参数，直至每个增强语音数据对应的真实语音特征与每个原始语音数据对应的样本语音特征相同。

图3中的Speech Distortion(语音失真)表示数据增强处理，Speech Distortion下面的语音片段表示原始语音数据。可选地，一种处理方式为，通过初始语音特征提取模型对原始语音数据进行处理，得到原始语音数据对应的样本语音特征。一种处理方式为，先对原始语音数据进行Speech Distortion处理，即数据增强处理，得到该原始语音数据对应的增强语音数据，再提取该增强语音数据对应的真实语音特征。具体提取样本语音特征和真实语音特征的过程可参考S102中的描述，此处不再赘述。

S202：针对每个样本语音数据对，根据预设的损失函数计算样本语音数据对中的原始语音数据对应的样本语音特征，与该样本语音数据对中的增强语音数据对应的真实语音特征之间的损失值。

每个样本语音数据对中的原始语音数据对应的样本语音特征，与该样本语音数据对中的增强语音数据对应的真实语音特征之间的损失值，可用于衡量该初始语音特征提取模型提取的语音特征的准确度。可以理解的是，原始语音数据为纯净的语音数据，即不含噪音、杂质、未失真的语音数据，该原始语音数据对应的样本语音特征便是标准的、信息丰富、表达准确的语音特征，这也是我们初始语音特征提取模型学习的目标，增强语音数据是对该原始语音数据进行数据增强处理后得到，里面含有噪音、杂质等。当可以从该增强语音数据中提取到与原始语音数据对应的样本语音特征相同的语音特征时，证明初始语音特征提取模型训练完成。

预设的损失函数可以为均方误差函数、平均绝对误差函数等，对此不做限定。样本语音特征可以包括MFCC特征、Fbank特征、wave特征、Lps特征、伽马(Gamma)特征、韵律(Proso)特征、Long-Lps特征、Long-MFCC特征、Long-Fbank特征、Long Gamma特征等。真实语音特征也可以包括波形特征(wave特征)、对数功谱率特征(Lps特征)、频谱特征(MFCC特征)、滤波器组特性(Fbank特征)、伽马特征、韵律特征、Long-Lps特征、Long-MFCC特征、Long-Fbank特征、Long Gamma特征等。

对于每个样本语音数据对中的原始语音数据和增强语音数据，基于预设的损失函数计算样本语音特征和真实语音特征之间的损失值。值得说明的是，由于每个样本语音特征和真实语音特征均包含的对应的多种类型的特征，最终得到的损失值为每组同类型的特征之间的损失值之和。例如，样本语音特征包括MFCC特征、Fbank特征、wave特征，真实语音特征包括MFCC特征、Fbank特征、wave特征。样本语音特征和真实语音特征之间的损失值为，样本语音特征对应的MFCC特征与真实语音特征对应的MFCC特征之间的损失值、样本语音特征对应的Fbank特征与真实语音特征对应的Fbank特征之间的损失值以及样本语音特征对应的wave特征与真实语音特征对应的wave特征之间的损失值之和。此处仅为示例性说明，对此不做限定。

在计算得到损失值后，判断该损失值是否满足预设条件。当损失值不满足预设条件时，执行S201；当损失值满足预设条件时，执行S204。预设条件可以是损失值小于或等于预设的损失值阈值，也可以是损失值属于预设的误差范围，但并不限于此，还可以根据实际情况进行设置，此处不做限制。

S203：当损失值不满足预设条件时，调整初始语音特征提取模型的模型参数，并返回执行将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征的步骤。

例如，假设预设条件为损失值小于或等于预设的损失值阈值。那么，当执行训练过程的设备在确认当前的损失值大于预设的损失值阈值时，判定当前的初始语音特征提取模型提取的语音特征还未达到要求。此时，需要调整初始语音特征提取模型的模型参数，之后返回S201，继续执行S201和S202，直到在S202中确定的损失值小于或等于预设的损失值阈值时，执行S204。

S204：当损失值满足预设条件时，停止训练初始语音特征提取模型，并将训练后的初始语音特征提取模型作为已训练的语音特征提取模型。

例如，假设预设条件为损失值小于或等于预设的损失值阈值。那么，当执行训练过程的设备在确认当前的损失值小于或者等于预设的损失值阈值时，判定当前的初始语音特征提取模型的训练符合预期要求，停止训练初始语音特征提取模型。

此时调整模型参数后的初始语音特征提取模型经过了大量的样本训练，且其损失值保持在一个较小的范围内，使用该初始语音特征提取模型对语音数据进行处理，可以获得信息丰富、表达准确的语音特征。因此，可以确定停止训练时(即最后一次训练完成后)的初始语音特征提取模型作为已训练的语音特征提取模型。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本实施例中训练得到的语音特征提取模型，可在增强语音数据中提取到与原始语音数据相同的语音特征，而增强语音数据是对原始语音数据进行混响处理、加噪处理等得到的。从另一方面来说，语音特征提取模型也学习到了如何对语音数据进行降噪以及失真不变性的能力。

基于实验表明，通过该语音特征提取模型提取到的语音特征，应用在语音识别、说话人身份识别、语种识别、语音翻译、同声翻译、语音控制等场景时，处理结果明显优于现有的语音模型和MFCC系统。

可选地，在一种可能的实现方式中，在上述S102之后或者S204之后，还可将已训练的语音特征提取模型上传至区块链中。

在本实施例中，将已训练的语音特征提取模型上传至区块链中，可保证其安全性和对用户的公正透明性。且将已训练的语音特征提取模型上传至区块链中，借助区块链上文件无法随意篡改的特性，能够避免已训练的语音特征提取模型被恶意篡改，便于后续用户可直接准确地获取到已训练的语音特征提取模型，也便于后续用户使用已训练的语音特征提取模型对待处理的语音数据进行处理，保证提取到信息丰富、表达准确、有效的语音特征。

本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

请参见图5，图5是本申请一实施例提供的一种提取语音特征的装置的示意图。该装置包括的各单元用于执行图1、图2、图4对应的实施例中的各步骤。具体请参阅图1、图2、图4各自对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图5，包括：

获取单元310，用于获取待处理的语音数据；

处理单元320，用于将所述语音数据输入到已训练的语音特征提取模型中进行处理，得到所述语音数据对应的目标语音特征，所述语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，所述增强语音数据是对所述原始语音数据进行数据增强处理得到的。

可选地，所述语音特征提取模型包括卷积滤波器、卷积编码器以及准循环神经网络，所述处理单元320具体用于：

将所述语音数据输入到所述卷积滤波器中进行处理，得到所述语音数据对应的第一语音特征，所述第一语音特征包括频率特征；

通过所述卷积编码器对所述第一语音特征进行卷积处理，得到第二语音特征，所述第二语音特征包括MFCC特征和Fbank特征；

将所述第二语音特征输入到所述准循环神经网络中进行处理，得到所述目标语音特征，所述目标语音特征包括目标波形特征、目标对数功谱率特征、目标频谱特征、目标滤波器组特性、目标伽马特征以及目标韵律特征。

可选地，所述处理单元320还用于：

第一语音特征进行卷积处理，得到第二语音特征之后，所述方法还包括：

基于所述准循环神经网络提取所述第二语音特征对应的第三语音特征；

采用跳跃连接的方式将所述第二语音特征与所述第三语音特征结合，得到所述目标语音特征。

可选地，所述装置还包括：

第一训练单元，用于将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征；

第二训练单元，用于针对每个样本语音数据对，根据预设的损失函数计算所述样本语音数据对中的原始语音数据对应的样本语音特征，与所述样本语音数据对中的增强语音数据对应的真实语音特征之间的损失值；

第三训练单元，用于当所述损失值不满足预设条件时，调整所述初始语音特征提取模型的模型参数，并返回执行所述将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征的步骤；

第四训练单元，用于当所述损失值满足所述预设条件时，停止训练所述初始语音特征提取模型，并将训练后的所述初始语音特征提取模型作为已训练的语音特征提取模型。

可选地，所述真实语音特征包括波形特征、对数功谱率特征、频谱特征、滤波器组特性、伽马特征、韵律特征。

可选地，所述数据增强处理为混响处理、加噪处理、频率掩蔽处理、时间掩蔽处理、剪辑处理、重叠语音处理中的任意一种处理或任意多种处理。

可选地，所述装置还包括：

上传单元，用于将所述语音特征提取模型上传至区块链中。

请参见图6，图6是本申请另一实施例提供的一种提取语音特征的终端的示意图。如图6所示，该实施例的提取语音特征的终端4包括：处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机指令42。所述处理器40执行所述计算机指令42时实现上述各个提取语音特征的方法实施例中的步骤，例如图1所示的S101至S102。或者，所述处理器40执行所述计算机指令42时实现上述各实施例中各单元的功能，例如图5所示单元310至320功能。

示例性地，所述计算机指令42可以被分割成一个或多个单元，所述一个或者多个单元被存储在所述存储器41中，并由所述处理器40执行，以完成本申请。所述一个或多个单元可以是能够完成特定功能的一系列计算机指令段，该指令段用于描述所述计算机指令42在所述提取语音特征的终端4中的执行过程。例如，所述计算机指令42可以被分割为获取单元以及处理单元，各单元具体功能如上所述。

所述提取语音特征的终端可包括，但不仅限于，处理器40、存储器41。本领域技术人员可以理解，图6仅仅是提取语音特征的终端4的示例，并不构成对提取语音特征的终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述提取语音特征的终端还可以包括输入输出终端、网络接入终端、总线等。

所称处理器40可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器41可以是所述提取语音特征的终端的内部存储单元，例如提取语音特征的终端的硬盘或内存。所述存储器41也可以是所述提取语音特征的终端的外部存储终端，例如所述提取语音特征的终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器41还可以既包括所述提取语音特征的终端的内部存储单元也包括外部存储终端。所述存储器41用于存储所述计算机指令以及所述终端所需的其他程序和数据。所述存储器41还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机存储介质，计算机存储介质可以是非易失性，也可以是易失性，该计算机存储介质存储有计算机程序，该计算机程序被处理器执行时实现：获取待处理的语音数据；将语音数据输入到已训练的语音特征提取模型中进行处理，得到语音数据对应的目标语音特征，该语音特征提取模型是基于自监督学习，以每个样本语音数据对中的原始语音数据对应的样本语音特征为目标，对每个样本语音数据对中的原始语音数据和增强语音数据之间的差异性进行训练得到的，该增强语音数据是对该原始语音数据进行数据增强处理得到的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神范围，均应包含在本申请的保护范围之内。

Claims

1.一种提取语音特征的方法，其特征在于，包括：

获取待处理的语音数据；

2.如权利要求1所述的方法，其特征在于，所述语音特征提取模型包括卷积滤波器、卷积编码器以及准循环神经网络，所述将所述语音数据输入到已训练的语音特征提取模型中进行处理，得到所述语音数据对应的目标语音特征，包括：

3.如权利要求2所述的方法，其特征在于，所述通过所述卷积编码器对所述第一语音特征进行卷积处理，得到第二语音特征之后，所述方法还包括：

4.如权利要求1至3任一项所述的方法，其特征在于，所述获取待处理的语音数据之前，所述方法还包括：

将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征；

针对每个样本语音数据对，根据预设的损失函数计算所述样本语音数据对中的原始语音数据对应的样本语音特征，与所述样本语音数据对中的增强语音数据对应的真实语音特征之间的损失值；

当所述损失值不满足预设条件时，调整所述初始语音特征提取模型的模型参数，并返回执行所述将样本语音数据集中的多个样本语音数据对输入到初始语音特征提取模型中进行处理，得到每个原始语音数据对应的样本语音特征以及每个增强语音数据对应的真实语音特征的步骤；

当所述损失值满足所述预设条件时，停止训练所述初始语音特征提取模型，并将训练后的所述初始语音特征提取模型作为已训练的语音特征提取模型。

5.如权利要求4所述的方法，其特征在于，所述真实语音特征包括波形特征、对数功谱率特征、频谱特征、滤波器组特性、伽马特征、韵律特征。

6.如权利要求1所述的方法，其特征在于，所述数据增强处理为混响处理、加噪处理、频率掩蔽处理、时间掩蔽处理、剪辑处理、重叠语音处理中的任意一种处理或任意多种处理。

7.如权利要求1所述的方法，其特征在于，所述将所述语音数据输入到已训练的语音特征提取模型中进行处理，得到所述语音数据对应的目标语音特征之后，所述方法还包括：

将所述语音特征提取模型上传至区块链中。

8.一种提取语音特征的装置，其特征在于，包括：

获取单元，用于获取待处理的语音数据；

9.一种提取语音特征的终端，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。