CN112992155B

CN112992155B - 一种基于残差神经网络的远场语音说话人识别方法及装置

Info

Publication number: CN112992155B
Application number: CN202110231097.7A
Authority: CN
Inventors: 张安妮; 冯瑞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-03-02
Filing date: 2021-03-02
Publication date: 2022-10-14
Anticipated expiration: 2041-03-02
Also published as: CN112992155A

Abstract

本发明提供了一种基于残差神经网络的远场语音说话人识别方法及装置，用于在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，其特征在于，包括如下步骤：对待测音频进行预处理得到预处理短时语音；利用语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征；基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量；基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定待测音频对应的说话人。

Description

一种基于残差神经网络的远场语音说话人识别方法及装置

技术领域

本发明属于数据识别领域，具体涉及一种基于残差神经网络的远场语音说话人识别方法及装置。

背景技术

近年来，由于机器学习技术及互联网的快速发展，计算机视觉、语音处理和自然语言处理等应用领域都有了突破性进展。另外，由于人们对保护与限制信息资源访问的可靠方法的需求越来越大，因此亟需新的身份验证方法来满足上述需求。而生物识别成为了该领域的重点研究领域之一，无论是法律政策还是商业模型，生物识别都因其可靠性成为比较热门的项目。其中，说话人识别作为计算机语音处理和生物识别项目中的一项基础任务，识别精度也在不断地被提升。

说话人识别包括说话人辨认和说话人确认，前者用以判断某段语音是若干人中的哪一个所说的，而后者用以确认某段语音是否是指定的某个人所说的。当前的说话人识别技术有：模板匹配法、概率模型法以及神经网络法。

其中，模板匹配法的训练过程为从每个说话人的训练语句中提取出特征矢量，形成特征矢量序列，选择方法优化，求取一个特征矢量集合表征特征矢量序列，将此集合作为参考模板。在识别时，利用同样的方法提取特征矢量序列，按匹配规则跟所有参考模板比较。然而，实际应用中短语音和跨信道问题普遍存在，该类技术对语音的长度，文本及信道等方面都有一定的应用局限性。

概率模型法是先从某人的一次或多次发音中提出有效特征矢量，然后根据统计特性为其建立相应的数学模型，使其能够有效的刻画出此说话人特征矢量在特征空间的分布规律。在识别时，将测试语音的特征矢量与表征说话人的数学模型进行匹配，从概率统计角度，计算得到测试语音与模型间的相似度。最常用的概率模型法为高斯混合模型识别，但其对语音数据量要求很大，对信道环境噪声非常敏感。

神经网络法是一种类比于生物神经系统处理信息的方法，利用大量的简单处理单元并行连接而构成一种独具特点的、复杂的信息处理网络。该网络具有自组织、自学习的能力，可以随着经验的累积而改善自身的性能。人工神经网络的特性对说话人识别系统的实现有很大的帮助，可以用于更好的提取语音样本中所包含的说话人的个性特征。

近年来，由于智能家居系统与智能设备中虚拟助手的不断发展和日益普及，因此对语音识别提出了更高的要求，对生物识别系统在远场条件下的可靠性也提出了更高的要求。而当前语音识别与生物识别在远场条件下面临的挑战有：在嘈杂、混响环境中，对远场说话人识别精度不佳；对短句说话人识别精度不佳。上述三个方法都无法在不可控、嘈杂、混响的环境中对短句说话人取得较好的识别精度从而无法应用在实际场景中。

发明内容

为解决上述问题，提供了一种能够在嘈杂、混响环境中对短时说话人有效识别的说话人识别方法及装置，本发明采用了如下技术方案：

本发明提供了一种基于残差神经网络的远场语音说话人识别方法，用于在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，其特征在于，包括如下步骤：步骤S1-1，利用预定的预处理方法对待测音频进行预处理得到预处理短时语音；步骤S1-2，利用预先训练好的语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征；步骤S1-3，基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量；步骤S1-4，基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定待测音频对应的说话人，其中，语音活动检测模型为基于U-Net神经网络结构的语音活动检测模型，残差神经网络模型为基于ResNet34的残差神经网络模型。

根据本发明提供的一种基于残差神经网络的远场语音说话人识别方法，还可以具有这样的技术特征，其中，其中，语音活动检测模型的网络结构包括：其中，语音活动检测模型的网络结构包括：输入层，该输入层为conv2d，输入维度为1*128*23的预处理短时语音，激活函数为LeakyRelu；第二层下采样层，该第二层下采样层为conv2d，维度为8*64*12，激活函数为LeakyRelu；第三层下采样层，该第三层下采样层为conv2d，维度为16*32*6，激活函数为LeakyRelu；第四层下采样层，该第四层下采样层为conv2d，维度为32*16*3，激活函数为LeakyRelu；第五层下采样层，该第五层下采样层为conv2d，维度为64*8*3，激活函数为LeakyRelu；第六层下采样层，该第六层下采样层为conv2d，维度为128*4*3，激活函数为LeakyRelu；第一层上采样层，该第一层上采样为deconv2d，维度为128*8*3，激活函数为LeakyRelu；第二层上采样层，该第二层上采样为deconv2d，维度为64*16*3，激活函数为LeakyRelu；第三层上采样层，该第三层上采样层为deconv2d，维度为32*32*6，激活函数为LeakyRelu；第四层上采样层，该第四层上采样层为deconv2d，维度为16*64*12，激活函数为LeakyRelu；第五层上采样层，该第五层上采样层为globalAVGpool，维度为1*128*12，激活函数为Sigmoid；以及输出层，输出1*128的语音活动检测掩码，该语音活动检测掩码作为语音向量特征。

根据本发明提供的一种基于残差神经网络的远场语音说话人识别方法，还可以具有这样的技术特征，其中，残差神经网络模型包括1个conv2d输入层、4个ResNetBlock层、1个统计池化层、1个Flatten层以及2个全连接Dense层。

根据本发明提供的一种基于残差神经网络的远场语音说话人识别方法，还可以具有这样的技术特征其中，预处理方法包括如下步骤：步骤S2-1，对待测音频进行语音增强得到增强数据；步骤S2-2，对增强数据进行有重叠的滑动窗口采样得到采样数据；步骤S2-3，对采样数据进行短时傅里叶变换得到变换后数据；步骤S2-4，利用MFCC方法对变换后数据进行特征提取得到MFCC特征；步骤S2-5，利用局部CMN归一化方法对MFCC特征进行处理从而得到预处理短时语音。

根据本发明提供的一种基于残差神经网络的远场语音说话人识别方法，还可以具有这样的技术特征，其中，残差神经网络模型在训练过程中利用AM-softmax损失函数进行训练。

本发明提供了一种实时行人检测与重识别装置，用于在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，其特征在于，包括：预处理模块，利用预定的预处理方法对待测音频进行预处理得到预处理短时语音；语音向量特征提取模块，利用预先训练好的语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征；说话人嵌入向量提取模块，基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量；说话人确定模块，基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定待测音频对应的说话人，其中，语音活动检测模型为基于U-Net神经网络结构的语音活动检测模型，残差神经网络模型为基于ResNet34的残差神经网络模型。

发明作用与效果

根据本发明的一种基于残差神经网络的远场语音说话人识别方法及装置，由于利用预先训练好的语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征，因此，可以极大地去除了语音片段中的噪音回响静音干扰，并且为残差神经网络模型的说话人识别精度的提升奠定基础。另外，基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量，因此，可以从优质的语音向量特征中得到优质说话人声音的特征向量，从而在说话人识别时能够得到更准确的结果，极大地提升了在不可控环境噪音下短时语音的说话人识别精度。

通过本发明的基于残差神经网络的远场语音说话人识别方法及装置可以有效识别嘈杂、混响环境下的短时语音，例如在多人会议中，根据短时语音确定会议中哪些人在讲话从而方便相应地会议记录。

附图说明

图1为本发明实施例的一种基于残差神经网络的远场语音说话人识别方法的流程图；

图2为本发明实施例的语音活动检测模型的网络结构示意图；

图3为本发明实施例的残差神经网络模型的网络结构内容表；

图4为本发明实施例的残差神经网络模型的网络结构示意图；以及

图5为本发明实施例的实验结果对比图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于残差神经网络的远场语音说话人识别方法及装置作具体阐述。

<实施例>

本实施例中一种基于残差神经网络的远场语音说话人识别方法及装置在一张NVIDIA 1080Ti显卡的辅助下实现相应训练与预测功能。

图1为本发明实施例的一种基于残差神经网络的远场语音说话人识别方法的流程图。

如图1所示，一种基于残差神经网络的远场语音说话人识别方法包括如下步骤：

步骤S1-1，利用预定的预处理方法对待测音频进行预处理得到预处理短时语音。

其中，预处理方法包括如下步骤：

步骤S2-1，对待测音频进行语音增强得到增强数据。

步骤S2-2，对增强数据进行有重叠的滑动窗口采样得到采样数据。

本实施例中，对增强数据进行采样时，采样频率为16KHZ，帧长为25ms，语音重叠为15ms。

步骤S2-3，对采样数据进行短时傅里叶变换得到变换后数据。

步骤S2-4，利用MFCC方法对变换后数据进行特征提取得到MFCC特征。

本实施例中，利用MFCC方法提取到的MFCC特征大小为40*N，其中，N为步骤S2-2中滑动窗口采样得到的窗口数量。

步骤S2-5，利用局部CMN归一化方法对MFCC特征进行处理从而得到预处理短时语音。

步骤S1-2，利用预先训练好的语音活动检测模型(简称VAD)对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征。

其中，语音活动检测模型为基于U-Net神经网络结构的语音活动检测模型，它可以利用非常少的数据进行端到端训练。将语音活动检测模型运用到语义活动检测中，可以对处于嘈杂混响背景音中的短时语音进行语音分割，从而较好地去除噪音和静音。

图2为本发明实施例的语音活动检测模型的网络结构示意图。

如图2所示，语音活动检测模型的网络结构包括：

输入层，该第一层输入层为conv2d，输入维度为1*128*23的预处理短时语音，激活函数为LeakyRelu；

第二层下采样层，该第二层下采样层为conv2d，维度为8*64*12，激活函数为LeakyRelu；

第三层下采样层，该第三层下采样层为conv2d，维度为16*32*6，激活函数为LeakyRelu；

第四层下采样层，该第四层下采样层为conv2d，维度为32*16*3，激活函数为LeakyRelu；

第五层下采样层，该第五层下采样层为conv2d，维度为64*8*3，激活函数为LeakyRelu；

第六层下采样层，该第六层下采样层为conv2d，维度为128*4*3，激活函数为LeakyRelu；

第一层上采样层，该第一层上采样为deconv2d，维度为128*8*3，激活函数为LeakyRelu；

第二层上采样层，该第二层上采样为deconv2d，维度为64*16*3，激活函数为LeakyRelu；

第三层上采样层，该第三层上采样层为deconv2d，维度为32*32*6，激活函数为LeakyRelu；

第四层上采样层，该第四层上采样层为deconv2d，维度为16*64*12，激活函数为LeakyRelu；

第五层上采样层，该第五层上采样层为globalAVGpool，维度为1*128*12，激活函数为Sigmoid；以及

输出层，输出1*128的语音活动检测掩码(即VAD mask)，该语音活动检测掩码作为与说话人对应的声音特征从而构成声音特征库。

其中，下采样的过程可以捕捉语音中的语义信息，并且进行语音压缩，增强干扰语音噪声的鲁棒性语音特征还原，从而起到分割有效语音作用。而上采样过程中对特征进行上采样并融合对应的下采样层的特征映射，因此可以对语义进行精确的定位，还可以将抽象的语音特征还原，从而起到分割有效语音作用。

步骤S1-3，基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量。

其中，残差神经网络模型为基于ResNet34的残差神经网络模型。

图3为本发明实施例的残差神经网络模型的网络结构内容表；以及

图4为本发明实施例的残差神经网络模型的网络结构示意图。

如图3以及图4所示，残差神经网络模型(即34-layer residual)包括1个conv2d输入层、4个ResNetBlock层、1个统计池化层、1个Flatten层以及2个全连接Dense层，具体架构以及输出大小如图3所示，每个网络层的连接如图4所示。

其中，残差神经网络模型在训练过程中利用AM-softmax损失函数进行训练。

本实施例中，残差神经网络模型的训练数据为上述经过处理的VoxCeleb1比较数据集，批次大小为30，一共迭代训练37000次。

步骤S1-4，基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定待测音频对应的说话人。

其中，声音特征库为语音活动检测模型以及残差神经网络模型基于预先采集的嘈杂混响环境下所有说话人的短时语音训练后得到，该声音特征库中包含嘈杂混响环境下所有说话人的优质声音特征向量，并且与对应的说话人ID进行一一存储。

具体地，在多人交流的会议场景下，可以预先采集所有参会人员的短时语音(如1s、2s或5s的语音)，然后根据这些短时语音训练语音活动检测模型以及残差神经网络模型，完成训练后，不仅得到训练好的语音活动检测模型以及训练好的残差神经网络模型，还得到了声音特征库。

本实施例中，语音活动检测模型的训练数据集为VoxCeleb1，通过标准Kaldi增强法(牙牙学语、音乐、噪音等)进行语音增强。

VoxCeleb1数据集音频全部采自YouTube，从网上视频切除出对应的音轨，再根据说话人进行切分，数据集为文本无关的英音语音，男女性别均衡，男性55％，女性45％，每句平均时长8.2s，最大时长145s，最短时长4S，短语音较多。

其中，噪声包括环境突发噪声、背景人声、笑声、回声、室内噪声、录音设备噪音等，并且场景多样化。

为了适用本发明对短时语音识别的应用场景，本实施例中只采用对VoxCeleb1语库中时长超过6秒的语句，总共8700条语句。并且在此基础上，在总共1251个说话者中，对每个说话者随机抽取100个目标和100对冒充者，生成一个比较协议，产生一个包括唯一的250048个数据的比较数据集。

对于其中的注册样本，只将完整时长的原始文件作为测试示例。并且仅在每个文件中使用前1、2和5秒的语音。如果语音持续时间小于要求，将使用此文件中所有可用的语音。

本实施例的基于残差神经网络的远场语音说话人识别装置包括语音采集模块、第一预处理模块、声音特征库构建模块、第二预处理模块、特征提取模块以及相似度计算模块。本实施例中，基于残差神经网络的远场语音说话人识别装置是基于本发明的基于残差神经网络的远场语音说话人识别方法得到的，用于在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，并可应用于嵌入式设备。

预处理模块利用预定的预处理方法对待测音频进行预处理得到预处理短时语音。

语音向量特征提取模块利用预先训练好的语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征。

说话人嵌入向量提取模块基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量。

说话人确定模块基于预定的声音特征库对说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定待测音频对应的说话人。

为了验证本发明实施例的基于残差神经网络的远场语音说话人识别方法及装置的有效性，从VoxCeleb1的测试集中筛选说话时长为1s、2s、5s的音频作为本发明的测试集进行测试。

图5为本发明实施例的实验结果对比图。

另外，在上述测试集的基础上，通过与现有方法i-vector+K-Means、x-vector+K-Means以及LSTM+cosine进行实验对比，实验结果如图5所示。

从图5中可以看出，本发明的基于残差神经网络的远场语音说话人识别方法的误差率(简称EER)为4.52％，均小于i-vector+K-Means、x-vector+K-Means以及LSTM+cosine方法的误差率。因此，本发明的基于残差神经网络的远场语音说话人识别方法及装置具有较高的准确率，能够有效地完成远场语音说话人识别任务。

实施例作用与效果

根据本实施例提供的基于残差神经网络的远场语音说话人识别方法及装置，由于利用预先训练好的语音活动检测模型对预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征，因此，可以极大地去除了语音片段中的噪音回响静音干扰，并且为残差神经网络模型的说话人识别精度的提升奠定基础。另外，基于语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量，因此，可以从优质的语音向量特征中得到优质说话人声音的特征向量，从而在说话人识别时能够得到更准确的结果，极大地提升了在不可控环境噪音下短时语音的说话人识别精度。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于残差神经网络的远场语音说话人识别方法，用于在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，其特征在于，包括如下步骤：

步骤S1-1，利用预定的预处理方法对所述待测音频进行预处理得到预处理短时语音；

步骤S1-2，利用预先训练好的语音活动检测模型对所述预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征；

步骤S1-3，基于所述语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量；

步骤S1-4，基于预定的声音特征库对所述说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定所述待测音频对应的说话人，

其中，所述预处理方法包括如下步骤：

步骤S2-1，对所述待测音频进行语音增强得到增强数据；

步骤S2-2，对所述增强数据进行有重叠的滑动窗口采样得到采样数据；

步骤S2-3，对所述采样数据进行短时傅里叶变换得到变换后数据；

步骤S2-4，利用MFCC方法对所述变换后数据进行特征提取得到MFCC特征；

步骤S2-5，利用局部CMN归一化方法对所述MFCC特征进行处理从而得到预处理短时语音，

所述语音活动检测模型为基于U-Net神经网络结构的语音活动检测模型，所述语音活动检测模型的网络结构包括：

输入层，该输入层为conv2d，输入维度为1*128*23的所述预处理短时语音，激活函数为LeakyRelu；

输出层，输出1*128的语音活动检测掩码，该语音活动检测掩码作为所述语音向量特征，

所述残差神经网络模型为基于ResNet34的残差神经网络模型。

2.根据权利要求1所述的基于残差神经网络的远场语音说话人识别方法，其特征在于：

其中，所述残差神经网络模型包括1个conv2d输入层、4个ResNetBlock层、1个统计池化层、1个Flatten层以及2个全连接Dense层。

3.根据权利要求1所述的基于残差神经网络的远场语音说话人识别方法，其特征在于：

其中，所述残差神经网络模型在训练过程中利用AM-softmax损失函数进行训练。

4.一种基于残差神经网络的远场语音说话人识别装置，用于使用权利要求1-3中任意一项所述的基于残差神经网络的远场语音说话人识别方法在嘈杂混响且有多个说话人的环境下，对短时的待测音频进行远场语音说话人识别从而确定该待测音频对应的说话人，其特征在于，包括：

预处理模块，利用预定的预处理方法对所述待测音频进行预处理得到预处理短时语音；

语音向量特征提取模块，利用预先训练好的语音活动检测模型对所述预处理短时语音进行语音分割得到分割结果，并从滤除了噪声以及静音的分割结果中提取得到语音向量特征；

说话人嵌入向量提取模块，基于所述语音向量特征利用预先训练好的残差神经网络模型进行说话人特征提取得到说话人嵌入向量；以及

说话人确定模块，基于预定的声音特征库对所述说话人嵌入向量进行相似度计算得到语音相似度值，根据该语音相似度值确定所述待测音频对应的说话人，

其中，所述语音活动检测模型为基于U-Net神经网络结构的语音活动检测模型，

所述残差神经网络模型为基于ResNet34的残差神经网络模型。