CN115862634A

CN115862634A - 一种声纹识别方法及嵌入式装置

Info

Publication number: CN115862634A
Application number: CN202211666089.6A
Authority: CN
Inventors: 李广明; 张红良; 陈倩; 陈毅轩; 陈林豪; 余晨晖
Original assignee: Dianrui Intelligent Dongguan Technology Co ltd; Dongguan University of Technology
Current assignee: Dianrui Intelligent Dongguan Technology Co ltd; Dongguan University of Technology
Priority date: 2022-12-23
Filing date: 2022-12-23
Publication date: 2023-03-28

Abstract

本发明提供一种声纹识别方法及嵌入式装置，方法包括以下步骤：S1：获取语音数据集并提取特征矩阵，划分为训练数据集和测试数据集；S2：随机抽取若干语音数据生成子数据集；S3：优化声纹识别模型，得到优化后的声纹识别模型；S4：训练优化后的声纹识别模型，得到训练好的声纹识别模型；S5：对训练好的声纹识别模型进行测试，得到最佳声纹识别阈值；提取声纹特征，计算声纹特征和对比声纹特征之间的余弦相似度；S6：根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。本发明提供一种声纹识别方法及嵌入式装置，解决了目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的问题。

Description

一种声纹识别方法及嵌入式装置

技术领域

本发明涉及声纹识别技术领域，更具体的，涉及一种声纹识别方法及嵌入式装置。

背景技术

声纹识别技术是一种借助于声音完成对用户身份信息确认的技术，是语音识别领域的重点研究方向之一。伴随着科学技术的不断进步及人工智能领域的蓬勃发展，声纹识别近年来得到了很大的发展，又由于通过声纹识别技术进行身份验证，对比于人脸识别和指纹识别，在准确性和安全性上都有所提升，且方便快捷，使其已然成为一种高效的身份识别方法，广泛应用于公安、银行、智能家居行业。

嵌入式人工智能，是一种将人工智能算法应用于终端设备上的技术概念，使各种设备能够在不联网的情况下完成环境感知、人机交互等功能。采用深度神经网络模型提取声纹特征逐渐成为当前声纹识别的主流技术。随着声纹识别技术的广泛应用，在嵌入式设备上进行声纹识别正成为声纹识别技术的主流趋势，嵌入式设备逐渐成为声纹识别技术的主要载体。

但目前用于嵌入式设备的声纹识别技术对计算能力和资源都有非常高的要求，使用成本极高，难以在资源受限的嵌入式设备取得较高的识别准确度。

发明内容

本发明为克服目前用于嵌入式设备的深度神经网络难以在资源受限的嵌入式设备取得较高的识别准确度的技术缺陷，提供一种声纹识别方法及嵌入式装置。

为解决上述技术问题，本发明的技术方案如下：

一种声纹识别方法，包括以下步骤：

S1：获取带人物标签的语音数据集，并提取其中语音数据的特征矩阵，根据人物标签划分为训练数据集和测试数据集；

S2：从训练数据集中随机抽取若干语音数据，生成子数据集；

S3：通过群体智能优化算法利用子数据集优化预构建的声纹识别模型，得到优化后的声纹识别模型；

S4：利用训练数据集训练优化后的声纹识别模型，得到训练好的声纹识别模型；

S5：利用测试数据集对训练好的声纹识别模型进行测试，得到最佳声纹识别阈值；

利用训练好的声纹识别模型提取待识别语音数据的声纹特征，计算待识别语音数据的声纹特征和预获取的对比声纹特征之间的余弦相似度；

S6：根据余弦相似度和最佳声纹识别阈值得到声纹识别结果。

上述方案中，通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整，以得到适应于当前数据的最佳模型，即可以根据嵌入式设备采集的数据重新训练出更加合适的模型，降低资源需求，在资源受限的嵌入式设备中实现声纹识别；同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值，根据余弦相似度和最佳声纹识别阈值得到声纹识别结果，模拟真实场景，进一步提高了在未知场景下的识别准确性。

优选的，测试数据集中的人物标签与训练数据集中的人物标签不同。

上述方案中，通过根据人物标签对语音数据集进行划分，避免训练数据集中出现测试数据集中的人物语音特征，降低无关数据对声纹识别模型的影响，提高在真实环境中对未知声纹识别的准确性。

优选的，提取语音数据的特征矩阵包括以下步骤：

S1.1：通过语音活性检测去除语音数据中的静默音；

S1.2：通过梅尔倒谱系数的提取方法提取语音数据的特征矩阵。

优选的，在步骤S1中，还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。

优选的，所述群体智能优化算法为粒子群优化算法。

优选的，采用余弦退火算法训练优化后的声纹识别模型；采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。

优选的，通过以下步骤得到最佳声纹识别阈值：

利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征，设置声纹识别阈值从0到1，且以步长s进行以下迭代：

计算测试数据集中两两声纹特征之间的余弦相似度，并与当前的声纹识别阈值进行比较；

若两个声纹特征间的余弦相似度大于当前的声纹识别阈值，则识别对应的两个语音数据属于同一人物，即为正样本，在正样本中，若两个语音数据的人物标签相同则表示识别正确，否则识别错误；

若两个声纹特征间的余弦相似度小于或等于当前的声纹识别阈值，则识别对应的两个语音数据属于不同人物，即为负样本，在负样本中，若两个语音数据的人物标签相同则表示识别错误，否则识别正确；

得到当前的声纹识别阈值下正负样本的识别准确率；

判断当前的声纹识别阈值是否为1，若是，迭代结束，若否，令当前的声纹识别阈值增加一个步长后继续迭代；

迭代结束后，将正负样本的识别准确率取得最大值时对应的声纹识别阈值作为最佳声纹识别阈值。

优选的，所述声纹识别为声纹对比；

若余弦相似度大于最佳声纹识别阈值，则得到声纹识别结果为同一人物；若余弦相似度小于或等于最佳声纹识别阈值，则得到声纹识别结果为不同人物。

优选的，所述声纹识别为声纹辨认；

将与待识别语音数据的声纹特征的余弦相似度最高的对比声纹特征的人物标签作为声纹识别结果。

本发明基于所述的一种声纹识别方法，还提出了一种声纹识别嵌入式装置，包括：

采集模块，用于采集待识别语音数据；

处理模块，用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征，从声纹库获取对比声纹特征，计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度，根据余弦相似度和最佳声纹识别阈值得到声纹识别结果；

声纹库，用于存储对比声纹特征及其人物标签。

与现有技术相比，本发明技术方案的有益效果是：

本发明提供了一种声纹识别方法及嵌入式装置，通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整，以得到适应于当前数据的最佳模型，即可以根据嵌入式设备采集的数据重新训练出更加合适的模型，降低资源需求，在资源受限的嵌入式设备中实现声纹识别；同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值，根据余弦相似度和最佳声纹识别阈值得到声纹识别结果，模拟真实场景，进一步提高了在未知场景下的识别准确性。

附图说明

图1为本发明的技术方案实施步骤流程图；

图2为本发明中声纹识别嵌入式装置的工作流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种声纹识别方法，包括以下步骤：

在具体实施过程中，通过群体智能优化算法优化的声纹识别模型可根据训练数据集的不同及时对模型参数进行调整，以得到适应于当前数据的最佳模型，即可以根据嵌入式设备采集的数据重新训练出更加合适的模型，降低资源需求，在资源受限的嵌入式设备中实现声纹识别；同时通过测试数据集测试出训练好的声纹识别模型的最佳声纹识别阈值，根据余弦相似度和最佳声纹识别阈值得到声纹识别结果，模拟真实场景，进一步提高了在未知场景下的识别准确性。

实施例2

一种声纹识别方法，包括以下步骤：

更具体的，提取语音数据的特征矩阵包括以下步骤：

S1.1：通过语音活性检测去除语音数据中的静默音；

在具体实施过程中，采用梅尔倒谱系数的提取方法，提取语音数据的特征矩阵，所提取的特征矩阵维度设为N，其中N是正整数。梅尔倒谱系数是组成梅尔频率倒谱的系数，它衍生自音讯片段的倒频谱，是一种在自动语音和说话人识别中广泛使用的特征。

更具体的，测试数据集中的人物标签与训练数据集中的人物标签不同。

在具体实施过程中，通过根据人物标签对语音数据集进行划分，避免训练数据集中出现测试数据集中的人物语音特征，降低无关数据对声纹识别模型的影响，提高在真实环境中对未知声纹识别的准确性。语音数据集，又称声纹识别语音数据集，是全量声纹识别语音数据集，现有的有ZhVoice、CN-Celeb、VoxCeleb等数据集，本实施例采用ZhVoice数据集。按照8：2的比例进行分割，训练数据集占80％，测试数据集占20％。

更具体的，在步骤S1中，还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。

在具体实施过程中，群体智能优化算法(Swarm Intelligence OptimizationAlgorithm)是计算智能中的一种常用算法，其基本理论是模拟自然界中鱼群、鸟群、蜂群、狼群和细菌群等动物群体的行为，利用群体间的信息交流与合作，通过简单有限的个体间互动来达到优化的目的。群体系统往往并没有复杂精细的内部设计，但基于简单的个体与规则，它们具有更强的鲁棒性、稳定性和适应性。群体智能方法处理的最典型问题就是优化问题。其寻优速度更快，能更有效地搜索复杂优化问题的全局最优解。

声纹识别模型部署于嵌入式设备中，需要轻量级模型和较快的响应速度。本实施例中优选MobileNet模型作为声纹特征提取的主干网络。MobileNet网络中的深度可分离卷积能够极大的降低计算的参数量，同时可以通过MobileNet内部的两个超参数α和ρ来进一步对模型进行瘦身，其中α表示按照比例减少深度可分离卷积通道数，其取值范围为(0,1]，ρ表示按照比例降低特征图的大小，其取值范围为(0,1]，在嵌入式设备中，可以通过对α,ρ两个参数取值的控制实现模型参数与结构的改变。

更具体的，所述群体智能优化算法为粒子群优化算法。

在具体实施过程中，使用粒子群优化算法优化的参数包括：α表示调整模型中卷积操作的通道数，ρ表示调整模型的特征图大小，r表示模型初始学习率，I表示模型初始输入的特征图大小。由于α,ρ,I的变换会导致模型整体结构的变换，因此本实施例中采用粒子群优化算法进迭代时，操作步骤包括以下步骤：

首先，将α,ρ,I进行固定，在第一训练数据集上对r进行迭代，其中r∈[0.25,0.005]，获得最佳初始学习率r；

然后，固定最佳学习率r，迭代模型输入维度I，其中I表示输入模型的特征矩阵的维度，I∈[256,512]；将通过梅尔倒谱系数方法所提取的语音数据的特征矩阵作为声纹识别模型的输入，使用随机裁剪的方法将特征矩阵的维度裁剪为I；

最后，固定最佳学习率r和模型输入维度I，对调整模型结构的参数α,ρ进行迭代优化，在迭代过程中设置每N轮训练调整一次α,ρ，其中N为正整数。

更具体的，采用余弦退火算法训练优化后的声纹识别模型；采用加性角度间隔损失函数(ArcFace loss)作为训练优化后的声纹识别模型的损失函数。

在具体实施过程中，采用余弦退火算法周期性调整学习率，能够避免陷入局部最优，增强模型的拟合性能。

更具体的，通过以下步骤得到最佳声纹识别阈值：

利用训练好的声纹识别模型提取测试数据集中各语音数据的声纹特征，设置声纹识别阈值从0到1，且以步长s(本实施例中s＝0.01)进行以下迭代：

得到当前的声纹识别阈值下正负样本的识别准确率；

更具体的，所述声纹识别为声纹对比；

实施例3

一种声纹识别方法，包括以下步骤：

更具体的，提取语音数据的特征矩阵包括以下步骤：

S1.1：通过语音活性检测去除语音数据中的静默音；

在具体实施过程中，通过根据人物标签对语音数据集进行划分，避免训练数据集中出现测试数据集中的人物语音特征，降低无关数据对声纹识别模型的影响，提高在真实环境中对未知声纹识别的准确性。

更具体的，所述群体智能优化算法为粒子群优化算法。

更具体的，采用余弦退火算法训练优化后的声纹识别模型；采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。

更具体的，通过以下步骤得到最佳声纹识别阈值：

得到当前的声纹识别阈值下正负样本的识别准确率；

更具体的，所述声纹识别为声纹辨认；

实施例4

采集模块，用于采集待识别语音数据；

处理模块，用于加载训练好的声纹识别模型来提取待识别语音数据的声纹特征，从声纹库获取对比声纹特征，计算待识别语音数据的声纹特征和对比声纹特征之间的余弦相似度，根据余弦相似度和预设的最佳声纹识别阈值得到声纹识别结果；

声纹库，用于存储对比声纹特征及其人物标签。

在具体实施过程中，预先收集注册语音数据，通过梅尔倒谱系数方法提取特征矩阵，利用训练好的声纹识别模型获取所有注册语音数据的声纹特征，注册语音数据对应的人物标签是已知的。以声纹识别模型倒数第二个全连接层的输出向量作为声纹特征。最后，将声纹特征注册，作为对比声纹特征存储在声纹库中，并标记人物标签。

如图2所示，通过采集模块(如麦克风)接收待识别语音信息，由处理模块通过声纹识别模型提取待识别语音的声纹特征，然后计算待识别语音的声纹特征与声纹库中声纹特征的相似度；

判断相似度是否大于预设的最佳声纹识别阈值，

若相似度大于预设的最佳声纹识别阈值，则通过一输出模块输出对应的用户名称，结束本次流程；

若相似度小于或等于预设的最佳声纹识别阈值时，通过用户选择是否将当前声纹特征作为对比声纹特征存储在声纹库中，若加入，则在声纹库中添加该声纹特征信息及其对应的用户标签，并通过一输出模块输出新加入的用户名称，结束本次流程；若不加入，直接结束本次流程。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种声纹识别方法，其特征在于，测试数据集中的人物标签与训练数据集中的人物标签不同。

3.根据权利要求1所述的一种声纹识别方法，其特征在于，提取语音数据的特征矩阵包括以下步骤：

S1.1：通过语音活性检测去除语音数据中的静默音；

4.根据权利要求1所述的一种声纹识别方法，其特征在于，在步骤S1中，还包括在训练数据集的各语音数据中分别添加背景噪声、电子干扰声、混响中的任意一种或多种。

5.根据权利要求1所述的一种声纹识别方法，其特征在于，所述群体智能优化算法为粒子群优化算法。

6.根据权利要求1所述的一种声纹识别方法，其特征在于，采用余弦退火算法训练优化后的声纹识别模型；采用加性角度间隔损失函数作为训练优化后的声纹识别模型的损失函数。

7.根据权利要求1所述的一种声纹识别方法，其特征在于，通过以下步骤得到最佳声纹识别阈值：

得到当前的声纹识别阈值下正负样本的识别准确率；

8.根据权利要求1所述的一种声纹识别方法，其特征在于，所述声纹识别为声纹对比；

9.根据权利要求1所述的一种声纹识别方法，其特征在于，所述声纹识别为声纹辨认；

10.一种声纹识别嵌入式装置，其特征在于，包括：

采集模块，用于采集待识别语音数据；

声纹库，用于存储对比声纹特征及其人物标签。