CN112420057B

CN112420057B - 基于距离编码的声纹识别方法、装置、设备及存储介质

Info

Publication number: CN112420057B
Application number: CN202011157868.4A
Authority: CN
Inventors: 汪欣
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2022-05-03
Anticipated expiration: 2040-10-26
Also published as: CN112420057A

Abstract

本发明公开一种基于距离编码的声纹识别方法、装置、设备及存储介质，方法包括训练阶段：获取带有说话人标签的语音数据，并对其提取基础特征表示；计算每两条语音的基础特征表示间的距离，构成相似度矩阵；对相似度矩阵做特征值分解，取D个最大特征值对应的特征向量构成矩阵，转置后形成嵌入向量；在训练集中选出M个语音数据，将其对应的基础特征表示的集合定义为锚点集；用锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码，生成编码向量；训练回归模型，将每条语音数据对应的编码向量映射到其对应的嵌入向量。识别阶段：进行相似度判断。本发明将原始特征空间位置关系引入说话人嵌入向量，从而获得更好的识别性能。

Description

基于距离编码的声纹识别方法、装置、设备及存储介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种基于距离编码的声纹识别方法、装置、设备及存储介质。

背景技术

随着人工智能技术的快速发展，越来越多融入了人工智能技术的产品出现在人们的日常生活中。其中，声纹识别作为重要的身份信息鉴定方法，近年来也取得了良好的发展和广泛的应用，特别是在安防领域和智能设备产品上。

然而，现有的声纹识别技术只考虑语音数据在目标空间的类标签，即说话人标签，而忽视数据在原始空间的关系。这样的系统可能会使得部分在原始空间距离较近的数据映射到嵌入向量空间后反而距离较远，造成声纹识别效果欠佳。

此外，部分的声纹识别系统需要利用额外的信息来将语音数据划分成为不同的子集，针对每个子集单独训练模型，以提升系统的准确率。然而，这样的系统要求训练数据和识别数据提供更多额外的信息，才能进行正确的划分，这在实际应用中有一定的局限性。对于现有的利用锚点来辅助说话人识别的系统里，需要对每个说话人建模，并且基于目标说话人的注册语句来选择对应锚点，效率较低且不具备普遍适应性。

发明内容

本发明提供了一种基于距离编码的声纹识别方法、装置、设备及存储介质，以解决现有技术只考虑语音数据在目标空间的类标签，而忽视数据在原始空间的关系，这样的系统可能会使得部分在原始空间距离较近的数据映射到嵌入向量空间后反而距离较远，造成声纹识别效果欠佳的问题，同时，解决现有的声纹识别系统效率较不高且普遍适应性差的问题。

本发明采用的技术方案是：提供一种基于距离编码的声纹识别方法，包括训练阶段和识别阶段，所述训练阶段包括以下步骤：

S11、获取带有说话人标签的语音数据，并对每条语音提取基础特征表示，从而形成训练集；

S12、计算每条语音的基础特征表示与其它语音基础特征表示之间的距离，构成相似度矩阵；

S13、对相似度矩阵做特征值分解，取D个最大特征值对应的特征向量构成矩阵，并对该矩阵进行转置，转置后的矩阵中每个列向量即为每条语音的嵌入向量；

S14、在训练集中选出M个语音数据，将其对应的基础特征表示的集合定义为锚点集；

S15、用锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码，生成每条语音的编码向量；

S16、训练回归模型，将每条语音数据对应的编码向量映射到其对应的嵌入向量；

所述识别阶段基于训练阶段中训练好的回归模型对待测语音进行相似度判断。

优选地，所述识别阶段中对待测语音进行相似度判断方法包括：

S21，获取待检测的语音，并对其提取基础特征表示；

S22，用所述锚点集中数据的基础特征表示对待检测语音的基础特征表示进行编码，生成待检测语音的编码向量；

S23，将待检测语音的编码向量输入训练阶段训练完成的回归模型中，生成待检测语音的嵌入向量；

S24，计算待检测语音的嵌入向量与目标说话人对应的嵌入向量的相似度，判定识别结果。

优选地，步骤S11中，所述基础特征表示为频率特征或基于神经网络提取的嵌入表示，所述频率特征包括梅尔频率倒谱系数或常数Q倒频谱系数；所述基于神经网络提取的嵌入表示包括d-vector或x-vector。

优选地，步骤S12中，所述基础特征表示之间的距离计算方式采用动态时间规整算法、欧式距离、余弦相似度，以及基于这些算法的变形。

优选地，步骤S14中，所述锚点集的挑选方法采用对训练数据进行聚类后选择聚类中心，或者利用先验知识进行数据选择。

优选地，步骤S15中，所述用锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码方法包括，计算每个锚点数据的基础特征表示和待编码数据基础特征表示之间的距离，构成一个距离向量作为编码后的向量。

优选地，步骤S16中，所述回归模型包括多层感知机、支持向量机、循环神经网络模型，以及基于这些模型的变形。

本发明还体用一种基于距离编码的声纹识别装置，所述装置需先经过训练阶段再进行识别阶段，所述装置包括：

语音处理模块，在训练阶段用于获取带有说话人标签的语音数据，并对每条语音提取基础特征表示，从而形成训练集，并形成训练集；在识别阶段用于对待识别的语音数据进行前端处理并提取基础特征表示

相似度矩阵训练模块，用于在训练阶段计算每条语音的基础特征表示与其它语音基础特征表示之间的距离，构成相似度矩阵；

嵌入向量生成模块，在训练阶段用于对相似度矩阵做特征值分解，取D个最大特征值对应的特征向量构成矩阵，并对该矩阵进行转置，转置后的矩阵中每个列向量即为每条语音的嵌入向量；在识别阶段用于将待检测语音的编码向量输入训练阶段训练完成的回归模型中，生成待检测语音的嵌入向量；

锚点集生成模块，用于在训练阶段的训练集中选出M个语音数据，将其对应的基础特征表示的集合定义为锚点集；

编码模块，在训练阶段用于将锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码，生成每条语音的编码向量；在识别阶段用于将锚点集中数据的基础特征表示对待检测语音的基础特征表示进行编码，生成待检测语音的编码向量；

回归模型训练模块，用于在训练阶段训练回归模型，将每条语音数据对应的编码向量映射到其对应的嵌入向量；

识别模块，用于在识别阶段在训练好的回归模型的基础上计算说话人嵌入向量的相似度，判定待识别语音对应的说话人身份。

本发明还一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现上述的基于距离编码的声纹识别方法的步骤。

本发明还提供一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于距离编码的声纹识别方法的步骤。

本发明的有益效果是：本发明区别于仅利用说话人标签的声纹识别系统，将具有相同说话人标签的语音数据在原始特征空间的位置关系引入说话人嵌入向量，使嵌入向量一定程度保留原空间数据的位置关系，有利于映射关系的学习，从而获得更好的识别性能。并且，利用具备代表性的数据构成锚点集，使语音数据通过固定数量的锚点数据被编码为定长向量，解决了不同语音数据的基础特征序列长度不等的难题，使系统具备更大的灵活性。此外，可利用先验知识来辅助锚点选择，提升算法对特定特征的敏感度，并且可以根据特定需求对产品进行快速迭代优化。本发明还可以为语音信号处理和声纹识别任务提供一种技术补充，从而使语音信号相关技术具有更广泛的应用范围和更良好的性能。

附图说明

图1为本发明公开的一种基于距离编码的声纹识别方法流程示意图；

图2为本发明公开的一种基于距离编码的声纹识别装置结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步详细描述，但本发明的实施方式不限于此。

实施例1：

参见图1，本实施例提供一种基于距离编码的声纹识别方法，包括训练阶段和识别阶段，其中，训练阶段包括：

步骤S11，获取带有说话人标签的语音数据，并对每条语音提取基础特征表示，从而形成训练集。

在该步骤中，语音的基础特征表示可以是频率特征，例如梅尔频率倒谱系数(MFCC),常数Q倒频谱系数(CQCC)等，也可以是基于神经网络提取的嵌入表示，例如d-vector,x-vector等。语音数据可以是完整的语句数据，也可以是以音素、音节、单词等为语音单元进行划分后的语音片段。

在本实施例中，我们以一个涵盖200人共计100000条语音的数据库形成的训练集进行说明。数据集中每一条数据提供原始语音音频以及对应的说话人标签。对每一条语音提取梅尔频率倒谱系数(MFCC)作为其基础特征表示。对所有数据提取完成后，获得100000条长度不等的MFCC特征序列。

步骤S12，计算每条语音的基础特征表示与其它语音基础特征表示之间的距离，构成相似度矩阵。

在该步骤中，基础特征表示之间的距离计算，可采用动态时间规整(DTW)算法、欧式距离、余弦相似度，以及基于上述算法的变形。

在本实施例中，仍以上述训练集为例进行解释说明相似度矩阵的构建过程。通过步骤S11后，得到训练集中每条语音数据对应的基础特征表示。针对每一个基础特征表示，计算其与其它语音数据的基础特征表示之间的距离，构成一个对称的相似度矩阵，矩阵的每个元素表示两个语音数据之间的距离。

具体地，上述得到100000条MFCC序列。将数据按一定顺序排序后，对每个数据对应的MFCC序列，采用动态时间规整(DTW)的方法来依序计算它与其它数据的MFCC序列之间的距离。并且，对此距离进行归一化处理，映射到0至1的取值范围。此外，采用有监督的方式，利用语音数据的说话人标签信息，对于两条MFCC序列源于不同说话人时，其距离乘以一个小于1的系数，降低相似度得分。最终使得相似度矩阵中，出自同一说话人的不同语音之间具有较高的相似度，而出自不同说话人的语音之间具有较低的相似度，可以使得最终的说话人嵌入向量对于不同说话人有较好的区分性。因此，每个数据得到一条100000维的距离向量，将所有数据的距离向量依序排列后，得到一个100000×100000的相似性矩阵。

步骤S13,对相似度矩阵做特征值分解，取D个最大特征值对应的特征向量构成矩阵，并对该矩阵进行转置，转置后的矩阵中每个列向量即为每条语音的嵌入向量。

在本实施例中，我们对上述生成的相似度矩阵进行特征值分解，将特征向量根据其对应的特征值大小，按照特征值从大到小排序。然后，取最大的D个特征值对应的特征向量，构成新矩阵。对该矩阵进行转置后，则每个列向量即为每条语音数据对应的嵌入向量。

具体来说，上述训练集中的100000条数据构建成一个100000×100000的相似性矩阵。对矩阵进行特征值分解后，得到100000条特征向量。排序后，取前500个列向量，则得到一个100000×500的矩阵。对矩阵进行转置后，得到一个500×100000的新矩阵。新矩阵的每一列则是训练集中每条语音数据对应的嵌入向量，每个嵌入向量为500维。

步骤S14，在训练集中选出M个语音数据，将其对应的基础特征表示的集合定义为锚点集。

在该步骤中，锚点集的挑选方法可以采用对训练数据进行聚类后选择聚类中心，或者利用先验知识进行数据选择，例如根据说话人的性别、年龄段、口音的分布等。

在本实施例中，从上述训练集的语音数据中选择一个子集作为锚点集。可采取的方式为，设定锚点数为K,利用聚类算法将数据集划分为K类，分别计算训练集中每条语音数据的基础特征表示与其它同类语音数据的基础特征表示之间的距离，选择距离和最小的语音数据作为类中心。

具体地，上述训练集的语音数据提取基础特征表示后，生成对应的MFCC序列。对训练集内所有的MFCC序列利用DTW算法进行两两距离的计算。并且，设置锚点数为1000，再利用K-Medoids算法计算出1000个类的类中心，这些类中心对应的MFCC即为锚点数据，构成锚点集。

步骤S15，用锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码，生成每条语音的编码向量。

在该步骤中，编码的方法可以是计算每个锚点数据的基础特征表示和待编码数据基础特征表示之间的距离，构成一个距离向量作为编码后的向量。

在本实施例中，以上述数据集和选出的锚点集进行解释说明进一步的编码工作。通过上述步骤得到锚点集后，对训练集中的每条语音数据，计算其基础特征表示与锚点集内的每条数据的距离，构成该语音数据对应的编码向量。

具体地，例如上述训练集中选出了1000个锚点，其对应的MFCC序列构成锚点集。对训练集中的每条语音数据，计算其MFCC序列与每个锚点的MFCC序列之间的DTW距离，构成一个1000维的距离向量，即为该语音数据对应的编码向量。

步骤S16，训练回归模型，将每条语音数据对应的编码向量映射到其对应的嵌入向量。

在该步骤中，回归模型可以选择多层感知机、支持向量机、循环神经网络模型以及基于上述模型的变形等。

在本实施例中，通过上述步骤得到训练集中每条语音数据对应的嵌入向量和编码向量。选择一个回归模型，将编码向量作为模型的输入，嵌入向量作为模型的输出，对模型进行训练。

具体地，例如上述训练集中每条语音数据对应的1000维的编码向量和500维的嵌入向量，设计一个多层感知机(MLP)作为回归模型，则模型输入是1000维的编码向量，输出是500维的嵌入向量，损失函数采用均方误差(MSE)。用训练集中包含的1000个编码向量和对应嵌入向量来训练回归模型。

识别阶段包括：

步骤S21，获取待检测的语音，并对其提取基础特征表示。

在该步骤中，待检测语音的基础特征表示与训练阶段的表示方法一致。

在本实施例中，我们用一条说话人标签未知的待检测语音数据进行说明。对该语音数据提取梅尔频率倒谱系数MFCC作为其基础特征表示，获得其对应的MFCC特征序列。

步骤S22，用所述锚点集中数据的基础特征表示对待检测语音的基础特征表示进行编码，生成待检测语音的编码向量。

在本实施例中，上述训练阶段的训练集中选出了1000个锚点，其对应的MFCC序列构成锚点集。对待检测的语音数据，计算其MFCC序列与每个锚点MFCC序列之间的DTW距离，生成一个1000维的距离向量，即为待检测的语音数据对应的编码向量。

步骤S23，将待检测语音的编码向量输入训练阶段训练完成的回归模型中，生成待检测语音的嵌入向量。

在本实施例中，利用在上述训练阶段训练完成的回归模型，将待检测语音数据对应的编码向量输入回归模型中，生成待检测语音数据的嵌入向量。

具体地，例如将上述生成的待检测语音数据对应的1000维编码向量，输入训练好的MLP回归模型后，输出500维的嵌入向量，即为待检测语音数据对应的说话人嵌入向量。

步骤S24，计算待检测语音的嵌入向量与目标说话人对应的嵌入向量的相似度，判定识别结果。

相似度计算可以选择欧式距离、余弦相似度、概率线性判别分析(PLDA)。

在本实施例中，利用待检测语音数据对应的嵌入向量与目标说话人的嵌入向量计算余弦相似度，当两者余弦相似度大于设定的阈值时，认为待检测语音数据源于目标说话人；否则，认为待检测语音数据不属于目标说话人。

上述声纹识别的方法通过将语音数据在原始特征空间的相互位置关系信息引入说话人嵌入向量，使嵌入向量一定程度上保留原始特征表示的数据分布，使得映射关系的学习更加容易，从而获得更好的识别性能。此外，基于距离编码的方式解决了不同语音数据的特征序列长度不等的难题，为后端的模型选择拓宽了可能性和灵活性。同时，利用具备代表性的锚点数据进行编码处理，可利用先验知识来辅助特征挑选，提升算法对特定特征的敏感度，且可以根据特定需求对产品进行快速迭代优化。

实施例2

参见图2，一种基于距离编码的声纹识别装置，本装置需先经过训练阶段再进行识别阶段，所述装置包括：语音处理模块、相似度矩阵训练模块、嵌入向量生成模块、锚点集生成模块、编码模块、回归模型训练模块以及识别模块。

语音处理模块，在训练阶段用于获取带有说话人标签的语音数据，并对每条语音提取基础特征表示，从而形成训练集，并形成训练集；在识别阶段用于对待识别的语音数据进行前端处理并提取基础特征表示。

具体的，语音的基础特征表示可以是频率特征，例如梅尔频率倒谱系数(MFCC),常数Q倒频谱系数(CQCC)等，也可以是基于神经网络提取的嵌入表示，例如d-vector,x-vector等。语音数据可以是完整的语句数据，也可以是以音素、音节、单词等为语音单元进行划分后的语音片段。

相似度矩阵训练模块，用于在训练阶段计算每条语音的基础特征表示与其它语音基础特征表示之间的距离，构成相似度矩阵。

具体的，基础特征表示之间的距离计算，可采用动态时间规整(DTW)算法、欧式距离、余弦相似度，以及基于上述算法的变形。

嵌入向量生成模块，在训练阶段用于对相似度矩阵做特征值分解，取D个最大特征值对应的特征向量构成矩阵，并对该矩阵进行转置，转置后的矩阵中每个列向量即为每条语音的嵌入向量；在识别阶段用于将待检测语音的编码向量输入训练阶段训练完成的回归模型中，生成待检测语音的嵌入向量。

锚点集生成模块，用于在训练阶段的训练集中选出M个语音数据，将其对应的基础特征表示的集合定义为锚点集。

具体的，锚点集的挑选方法可以采用对训练数据进行聚类后选择聚类中心，或者利用先验知识进行数据选择，例如根据说话人的性别、年龄段、口音的分布等。

编码模块，在训练阶段用于将锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码，生成每条语音的编码向量；在识别阶段用于将锚点集中数据的基础特征表示对待检测语音的基础特征表示进行编码，生成待检测语音的编码向量。

具体的，编码的方法可以是计算每个锚点数据的基础特征表示和待编码数据基础特征表示之间的距离，构成一个距离向量作为编码后的向量。

回归模型训练模块，用于在训练阶段训练回归模型，将每条语音数据对应的编码向量映射到其对应的嵌入向量。

具体的，回归模型可以选择多层感知机、支持向量机、循环神经网络模型等。

识别模块，用于在识别阶段基于训练好的回归模型的基础上计算说话人嵌入向量的相似度，判定待识别语音对应的说话人身份。

具体的，相似度计算可以选择欧式距离、余弦相似度、概率线性判别分析(PLDA)。

本实施例中的基于距离编码的声纹识别装置是作为应用程序或后台服务程序运行在客户机上，实现本发明图2所示实施例的流程，上述程序可以安装在智能移动终端和服务器中，上述智能终端可以为个人计算机、智能手机或平板电脑等，上述服务器可以为任意平台下的高性能计算机，本实施例对智能终端和服务器的形态不做限定。

本实施例中，语音处理模块完成对语音信号基础特征表示的提取工作，编码模块将待识别语音的基础特征表示编码成为固定长度的编码向量，嵌入向量生成模块将待识别语音的编码向量映射为说话人嵌入向量，获得具备更强区分性的特征表示，识别模块计算待检测语音的嵌入向量与目标说话人的嵌入向量的相似度，给出识别结果。

需要说明的是，本实施例中的各模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可以拆分成多个模块(或单元)。

实施例3

基于实施例1的方法和实施例2的装置，本实施例提供一种计算机设备，包括存储器和处理器，其中存储器和处理器均设置在总线上，存储器存储有计算机程序，处理器执行计算机程序时实现是实施例1所述的基于距离编码的声纹识别方法。

本领域普通技术人员可以理解，实现实施例1的方法中的全部或部分流程是可以通过程序来指令相关的硬件、软件、固件或他们的组合来完成，所述的程序可以存储于计算机可读取存储介质中，该程序在执行时，可包括如上各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

实施例4

基于实施例1的方法和实施例2的装置，本实施例提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例1所示的基于距离编码的声纹识别方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于距离编码的声纹识别方法，包括训练阶段和识别阶段，其特征在于，所述训练阶段包括以下步骤：

所述识别阶段基于训练阶段中训练好的回归模型对待测语音进行相似度判断；

所述用锚点集中的基础特征表示对训练集内每条语音数据的基础特征表示进行编码的方法包括，计算每个锚点数据的基础特征表示和待编码数据基础特征表示之间的距离，构成一个距离向量作为编码后的向量。

2.根据权利要求1所述的一种基于距离编码的声纹识别方法，其特征在于，所述识别阶段中对待测语音进行相似度判断方法包括：

S21，获取待检测的语音，并对其提取基础特征表示；

3.根据权利要求1所述的一种基于距离编码的声纹识别方法，其特征在于，步骤S11中，所述基础特征表示为频率特征或基于神经网络提取的嵌入表示，所述频率特征包括梅尔频率倒谱系数或常数Q倒频谱系数；所述基于神经网络提取的嵌入表示包括d-vector或x-vector。

4.根据权利要求1所述的一种基于距离编码的声纹识别方法，其特征在于，步骤S12中，所述基础特征表示之间的距离计算方式采用动态时间规整算法、欧式距离、余弦相似度，以及基于这些算法的变形。

5.根据权利要求1所述的一种基于距离编码的声纹识别方法，其特征在于，步骤S14中，所述锚点集的挑选方法采用对训练数据进行聚类后选择聚类中心，或者利用先验知识进行数据选择。

6.根据权利要求1所述的一种基于距离编码的声纹识别方法，其特征在于，步骤S16中，所述回归模型包括多层感知机、支持向量机、循环神经网络模型，以及基于这些模型的变形。

7.一种基于距离编码的声纹识别装置，所述装置需先经过训练阶段再进行识别阶段，其特征在于，所述装置包括：

识别模块，用于在识别阶段在训练好的回归模型的基础上计算说话人嵌入向量的相似度，判定待识别语音对应的说话人身份；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行计算机程序时实现权利要求1-6任意一项所述的基于距离编码的声纹识别方法的步骤。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的基于距离编码的声纹识别方法的步骤。