CN111933147B

CN111933147B - 声纹识别方法、系统、移动终端及存储介质

Info

Publication number: CN111933147B
Application number: CN202010573042.XA
Authority: CN
Inventors: 洪国强; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-06-22
Filing date: 2020-06-22
Publication date: 2023-02-14
Anticipated expiration: 2040-06-22
Also published as: CN111933147A

Abstract

本发明提供了一种声纹识别方法、系统、移动终端及存储介质，该方法包括：对样本对象进行语音采集，得到至少两条样本语音，分别获取每条样本语音的样本声纹特征；获取所有样本语音的平均声纹特征，根据PLDA模型分别计算每条样本声纹特征与平均声纹特征之间的特征相似值；计算特征相似值的平均值，得到平均相似值，根据PLDA模型计算待识别语音中的待识别声纹特征与平均声纹特征之间的目标相似值，计算目标相似值与平均相似值之间的差值，得到目标相似值；若目标相似值大于相似值阈值，则判定待识别语音的发音对象是样本对象。本发明通过采用PLDA算法的方式进行该发音对象与样本对象之间声纹相似度比对，提高了声纹识别的准确性。

Description

声纹识别方法、系统、移动终端及存储介质

技术领域

本发明声纹识别技术领域，尤其涉及一种声纹识别方法、系统、移动终端及存储介质。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。

现有声纹识别方法是提前采集样本对象的语音数据，并对语音数据进行特征值提取，将提取到的特征值输入声纹模型得到N维声纹向量，对待识别的语音数据提取特征值，将特征值输入声纹模型，得到N维声纹向量，基于cosine公式(余弦相似度)或欧式距离公式与声纹库里原有的声纹向量做相似度比对，以判定待识别的语音数据的发音人是否为样本对象，但现有的声纹识别方法使用过程中，基于cosine公式或欧式距离公式进行声纹向量的相似度比对，导致声纹识别准确性低下。

发明内容

本发明实施例的目的在于提供一种声纹识别方法、系统、移动终端及存储介质，旨在解决现有的声纹识别方法使用过程中，由于采用cosine公式或欧式距离公式进行声纹向量的相似度比对，所导致的声纹识别准确性低下的问题。

本发明实施例是这样实现的，一种声纹识别方法，所述方法包括：

对样本对象进行语音采集，得到至少两条样本语音，并分别获取每条所述样本语音的样本声纹特征；

获取所有所述样本语音的平均声纹特征，并根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值；

计算所述特征相似值的平均值，得到平均相似值，并获取待识别语音中的待识别声纹特征；

根据所述PLDA模型计算所述待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算所述目标相似值与所述平均相似值之间的差值，得到目标相似值；

若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象。

更进一步的，所述根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值的步骤包括：

根据所有所述样本声纹特征生成训练集，并在所述训练集中去除所述平均声纹特征；

对所述PLDA模型进行初始化，并根据预设参数信息对所述PLDA模型进行参数配置；

将所述训练集输入所述PLDA模型，对所述PLDA模型进行迭代优化，并分别将每条所述样本声纹特征输入迭代优化后的所述PLDA模型；

控制所述PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的相似值，得到所述特征相似值。

更进一步的，所述对所述PLDA模型进行迭代优化的步骤包括：

对所述PLDA模型进行矩阵转换，得到矩阵模型，并计算所述矩阵模型的隐含变量的期望；

根据所述隐含变量的期望对所述PLDA模型进行参数更新，直至所述PLDA模型满足预设迭代条件。

更进一步的，计算每条所述样本声纹特征与所述平均声纹特征之间的相似值所采用的计算公式为：

其中，n₁为所述样本声纹特征对应的样本特征矢量，n₂为所述平均声纹特征对应的平均特征矢量，p(n₁|H_d)，p(n₂|H_d)分别为所述样本特征矢量和所述平均特征矢量来自不同空间的似然函数，p(n₁,n₂|H_s)为所述样本特征矢量和所述平均特征矢量来自同一空间的似然函数，score为所述特征相似值。

更进一步的，所述分别获取每条样本语音的样本声纹特征的步骤包括：

分别将每条所述样本语音输入xvector模型或ivector模型，得到所述样本声纹特征。

更进一步的，所述根据所述隐含变量的期望对所述PLDA模型进行参数更新的步骤之后，所述方法还包括：

若所述PLDA模型输出后的对数似然比大于似然比阈值，或所述PLDA模型的迭代次数大于次数阈值时，判定所述PLDA模型满足所述预设迭代条件。

本发明实施例的另一目的在于提供一种声纹识别系统，所述系统包括：

语音采集模块，用于对样本对象进行语音采集，得到至少两条样本语音，并分别获取每条所述样本语音的样本声纹特征；

特征相似值计算模块，用于获取所有所述样本语音的平均声纹特征，并根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值；

平均相似值计算模块，用于计算所述特征相似值的平均值，得到平均相似值，并获取待识别语音中的待识别声纹特征；

目标相似值计算模块，用于根据所述PLDA模型计算所述待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算所述目标相似值与所述平均相似值之间的差值，得到目标相似值；

识别判断模块，用于若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象。

更进一步的，所述特征相似值计算模块还用于：

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声纹识别方法的步骤。

本发明实施例，通过根据PLDA(Probabilistic Linear Discriminant Analysis)模型计算待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算目标相似值与平均相似值之间的差值得到目标相似值的设计，以采用PLDA算法的方式进行该发音对象与样本对象之间声纹相似度比对，防止了采用cosine公式或欧式距离公式进行声纹向量的相似度比对，所导致的声纹识别准确性低下的现象，进而提高了声纹识别的准确性。

附图说明

图1是本发明第一实施例提供的语音分离方法的流程图；

图2是本发明第二实施例提供的语音分离方法的流程图；

图3是本发明第三实施例提供的语音分离方法的流程图；

图4是本发明第四实施例提供的语音分离系统的结构示意图；

图5是本发明第五实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的声纹识别方法的流程图，包括步骤：

步骤S10，对样本对象进行语音采集，得到至少两条样本语音，并分别获取每条所述样本语音的样本声纹特征；

其中，通过对样本对象进行语音采集，以得到动态数字的样本语音，优选的，该步骤中，还可以采用固定文本的方式进行该样本语音的获取；

可选的，该步骤中，该样本语音的数量可以根据需求进行设置，例如，该样本语音的数量可以设置为10条、20条或100条件，该样本语音所对应的语种可以为中文、英文、粤语或闽南语等。

具体的，该步骤中，所述分别获取每条样本语音的样本声纹特征的步骤包括：

分别将每条所述样本语音输入xvector模型或ivector模型，得到所述样本声纹特征，当采用xvector模型进行该样本声纹特征的提取时，则对应提取到的样本声纹特征为xvector特征，当采用ivector模型进行该样本声纹特征的提取时，则对应提取到的样本声纹特征为ivector特征。

步骤S20，获取所有所述样本语音的平均声纹特征，并根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值；

其中，概率线性判别分析(PLDA)是一种信道补偿算法，又称概率形式的LDA算法，PLDA算法通常也是基于ivector特征或xvector，为其提供信道补偿；

该步骤中，通过对所有样本语音进行合并，并将合并后的语音输入xvector模型或ivector模型，以得到该平均声纹特征；

具体的，该步骤中，通过根据PLDA模型分别计算每条样本声纹特征与平均声纹特征之间的特征相似值的设计，有效的提高了后续平均相似值计算的准确性。

步骤S30，计算所述特征相似值的平均值，得到平均相似值，并获取待识别语音中的待识别声纹特征；

其中，通过对所有特征相似度进行因子分析(factor analysis)，以计算特征相似值的平均值得到平均相似值，并通过将该待识别语音输入xvector模型或ivector模型，以得到该待识别声纹特征。

步骤S40，根据所述PLDA模型计算所述待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算所述目标相似值与所述平均相似值之间的差值，得到目标相似值；

其中，通过根据PLDA模型计算待识别声纹特征与平均声纹特性之间的目标相似值，并计算目标相似值与平均相似值之间的差值得到目标相似值的设计，以采用PLDA算法的方式进行该发音对象与样本对象之间声纹相似度比对，防止了数据正态分布产生的误差，提高了声纹识别的准确性。

步骤S50，若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象；

其中，该相似值阈值可以根据需求进行设置，优选的，本实施例中，若该样本对象的数量为多个时，则分别计算待识别声纹特征与不同平均声纹特性之间的目标相似值，并将最大目标相似值对应的平均声纹特性对应的样本对象输出为该发音对象。

本实施例，通过根据PLDA模型计算待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算目标相似值与平均相似值之间的差值得到目标相似值的设计，以采用PLDA算法的方式进行该发音对象与样本对象之间声纹相似度比对，防止了采用cosine公式或欧式距离公式进行声纹向量的相似度比对，所导致的声纹识别准确性低下的现象，防止了数据正态分布产生的误差，提高了声纹识别的准确性。

实施例二

请参阅图2，是本申请第二实施例提供的声纹识别方法的流程图，该第二实施例用于对第一实施例中步骤S20进行细化，以细化描述如何根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值的步骤，包括步骤：

步骤S21，根据所有所述样本声纹特征生成训练集，并在所述训练集中去除所述平均声纹特征；

其中，通过在训练集X_all中去除平均声纹特征μ，以达到对训练集进行特征均值处理的效果。

可选的，若该样本对象的数量为N个时，则再计算N个人的平均声纹特征N_μ。

步骤S22，对所述PLDA模型进行初始化，并根据预设参数信息对所述PLDA模型进行参数配置；

其中，PLDA模型的参数有4个,分别为：数据矩阵mu,空间特征矩阵F及G、噪声协方差Σ，具体的，所述对所述PLDA模型进行初始化的步骤包括：

特征维度记为D，即μ是D×1维的，N_μ是D×N维的，身份空间维度需要根据预设参数信息进行设置，记为N_F，即F是D×N_F维的,同时隐含变量h_i是N_F×1维的，噪声空间维度需要根据预设参数信息进行设置，记为N_G，即G是D×N_G维的。

可选的，G使用随机初始化；F初始化：对每个人的均值数据进行PCA降维，降到N_F维，赋值给F；Σ初始化为D×1维的常量。

步骤S23，将所述训练集输入所述PLDA模型，对所述PLDA模型进行迭代优化，并分别将每条所述样本声纹特征输入迭代优化后的所述PLDA模型；

其中，对PLDA模型进行迭代优化目的是：输入训练集，输出可以最大程度上表示该训练集的高斯分布的参数θ＝[μ,F,G,Σ]。

具体的，该步骤中，所述根据所述隐含变量的期望对所述PLDA模型进行参数更新的步骤之后，所述方法还包括：

步骤S24，控制所述PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的相似值，得到所述特征相似值；

其中，计算每条所述样本声纹特征与所述平均声纹特征之间的相似值所采用的计算公式为：

本实施例，通过在训练集中去除所述平均声纹特征的设计，以达到对训练集进行特征均值处理的效果，通过对PLDA模型进行初始化，并根据预设参数信息对PLDA模型进行参数配置的设计，有效的提高了PLDA模型训练的准确性，通过控制PLDA模型分别计算每条样本声纹特征与平均声纹特征之间的相似值得到特征相似值的设计，以采用PLDA算法的方式进行该发音对象与样本对象之间声纹相似度比对，防止了数据正态分布产生的误差，提高了声纹识别的准确性。

实施例三

请参阅图3，是本申请第三实施例提供的声纹识别方法的流程图，该第三实施例用于对第一实施例中步骤S23进行细化，以细化描述如何对所述PLDA模型进行迭代优化的步骤，包括步骤：

步骤S231，对所述PLDA模型进行矩阵转换，得到矩阵模型，并计算所述矩阵模型的隐含变量的期望；

其中，由于PLDA模型的迭代优化均是采用矩阵的形式进行操作，因此，将该PLDA模型进行矩阵转换，得到矩阵模型，该矩阵模型为：

X′＝μ′+Ay+∈′；

该步骤中，基于该矩阵模型计算该隐含变量h_i的期望，计算该隐含变量h_i的期望过程也称作是Expectation(E-Step，E过程)，即期望的意思，E-step是获取期望的过程，即根据现有的PLDA模型，计算各个数据输入到PLDA模型中的计算结果。

步骤S232，根据所述隐含变量的期望对所述PLDA模型进行参数更新，直至所述PLDA模型满足预设迭代条件；

其中，根据隐含变量的期望述PLDA模型进行参数更新的过程称作Maximization(M-Step，M过程)，即最大化的意思，M-step也是期望最大化的过程，得到一轮期望值以后，重新计算PLDA模型的参数，以最大化期望值，最大化的意思是在使用LDA模型时，希望定义的函数能使得到的结果最大化，而结果越大越接近希望得到的结果，参数更新的目标是得到最大值的函数，即输出可以最大程度上表示该训练集的高斯分布的参数θ＝[μ,F,G,Σ]。

本实施例中，通过对PLDA模型进行矩阵转换，计算矩阵模型的隐含变量的期望，并根据隐含变量的期望对PLDA模型进行参数更新的设计，以采用最大期望算法(Expectation-Maximization algorithm,EM)的方式进行该PLDA模型的迭代优化，提高了PLDA模型参数优化效果，进而提高了PLDA模型对目标相似值计算的准确性，进而提高了声纹识别的准确性。

实施例四

请参阅图4，是本发明第四实施例提供的声纹识别系统100的结构示意图，包括：语音采集模块10、特征相似值计算模块11、平均相似值计算模块12、目标相似值计算模块13和识别判断模块14，其中：

语音采集模块10，用于对样本对象进行语音采集，得到至少两条样本语音，并分别获取每条所述样本语音的样本声纹特征。

其中，所述语音采集模块10还用于：分别将每条所述样本语音输入xvector模型或ivector模型，得到所述样本声纹特征。

特征相似值计算模块11，用于获取所有所述样本语音的平均声纹特征，并根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值。

其中，所述特征相似值计算模块11还用于：根据所有所述样本声纹特征生成训练集，并在所述训练集中去除所述平均声纹特征；

具体的，计算每条所述样本声纹特征与所述平均声纹特征之间的相似值所采用的计算公式为：

优选的，所述特征相似值计算模块11还用于：对所述PLDA模型进行矩阵转换，得到矩阵模型，并计算所述矩阵模型的隐含变量的期望；

此外，所述特征相似值计算模块11还用于：若所述PLDA模型输出后的对数似然比大于似然比阈值，或所述PLDA模型的迭代次数大于次数阈值时，判定所述PLDA模型满足所述预设迭代条件。

平均相似值计算模块12，用于计算所述特征相似值的平均值，得到平均相似值，并获取待识别语音中的待识别声纹特征。

目标相似值计算模块13，用于根据所述PLDA模型计算所述待识别声纹特征与所述平均声纹特征之间的目标相似值，并计算所述目标相似值与所述平均相似值之间的差值，得到目标相似值。

识别判断模块14，用于若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象。

实施例五

请参阅图5，是本发明第五实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别方法，该移动终端101可以为机器人。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图4中示出的组成结构并不构成对本发明的声纹识别系统的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-3中的声纹识别方法亦采用图4中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述当前声纹识别系统中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述当前声纹识别系统的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象；

所述根据PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的特征相似值的步骤包括：

控制所述PLDA模型分别计算每条所述样本声纹特征与所述平均声纹特征之间的相似值，得到所述特征相似值；

计算每条所述样本声纹特征与所述平均声纹特征之间的相似值所采用的计算公式为：

2.如权利要求1所述的声纹识别方法，其特征在于，所述对所述PLDA模型进行迭代优化的步骤包括：

3.如权利要求1所述的声纹识别方法，其特征在于，所述分别获取每条所述样本语音的样本声纹特征的步骤包括：

4.如权利要求2所述的声纹识别方法，其特征在于，所述根据所述隐含变量的期望对所述PLDA模型进行参数更新的步骤之后，所述方法还包括：

5.一种声纹识别系统，其特征在于，所述系统包括：

识别判断模块，用于若所述目标相似值大于相似值阈值，则判定所述待识别语音的发音对象是所述样本对象；

所述特征相似值计算模块还用于：

6.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至4任一项所述的声纹识别方法。

7.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至4任一项所述的声纹识别方法的步骤。