CN110853654A

CN110853654A - 一种模型生成方法、声纹识别方法及对应装置

Info

Publication number: CN110853654A
Application number: CN201911123580.2A
Authority: CN
Inventors: 白仲鑫; 梁成栋; 张晓雷; 陈景东
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2019-11-17
Filing date: 2019-11-17
Publication date: 2020-02-28
Anticipated expiration: 2039-11-17
Also published as: CN110853654B

Abstract

本申请提供一种模型生成方法、声纹识别方法及对应装置，在训练阶段利用学习类中心的训练样本对构造方法，通过给训练集中每个说话人一个预设类中心向量，与神经网络的输出向量组成样本对，根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失，根据得到的损失来训练神经网络模型的参数和预设类中心向量，获得提取声纹特征的神经网络模型，提供了一种新的确认损失函数，并为该确认损失函数提供了一种新的训练样本对构造方法，由于该确认损失函数是在最大化ROC曲线下指定的面积，因此针对不同应用场景下的声纹识别系统训练特定的模型，学习类中心的训练样本对构造方法，解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。

Description

一种模型生成方法、声纹识别方法及对应装置

技术领域

本申请涉及深度学习声纹识别领域，具体而言，涉及一种模型生成方法、声纹识别方法及对应装置。

背景技术

现有的通过深度学习来进行声纹识别的损失函数分为两类，包括分类损失函数和确认损失函数，而确认损失函数采用的是传统的随机采样训练样本对构造方法，而传统的随机采样训练样本对构造方法中存在的训练不稳定问题。

发明内容

本申请实施例的目的在于提供一种模型生成方法、声纹识别方法及对应装置，用以解决确认损失函数采用的是传统的随机采样训练样本对构造方法，而传统的随机采样训练样本对构造方法中存在的训练不稳定问题。

第一方面，实施例提供一种模型生成方法，所述方法包括：将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过所述预设的神经网络模型的输出向量；

根据多个所述输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对，其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量；计算每个第一训练样本对和每个第二训练样本对的余弦相似度；将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；将所述第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；根据所述训练损失对所述神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

在上述设计的模型生成方法中，在训练阶段利用学习类中心的训练样本对构造方法，通过给训练集中每个说话人一个预设类中心向量，与神经网络的输出向量组成样本对，根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失，根据计算得到的损失来训练预设的神经网络模型的参数和预设类中心向量，获得提取声纹特征的神经网络模型，提供了一种新的确认损失函数，并为该确认损失函数提供了一种新的训练样本对构造方法，由于该确认损失函数是在最大化ROC曲线下指定的面积，因此针对不同应用场景下的声纹识别系统训练特定的模型，学习类中心的训练样本对构造方法，解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。

在第一方面的可选实施方式中，所述预先构建的损失函数L为：

其中，P表示为第一余弦相似度集合；I表示为所述第一余弦相似度集合的余弦相似度样本个数；N₀表示为选取的余弦相似度样本集合；K表示为选取的余弦相似度样本个数；δ表示可调超参数；s_i表示第一余弦相似度集合中的一个余弦相似度样本；s_k表示选取的一个余弦相似度样本。

在第一方面的可选实施方式中，在所述将多个不同说话人的声学特征输入预设的神经网络模型之前，所述方法还包括：获取不同说话人的语音训练信息，滤除所述不同说话人的语音训练信息中的静音信息和噪声信息，获得多个语音训练片段，并对不同说话人的语音训练片段进行标注；通过梅尔频率倒谱系数提取每个语音训练片段中的声学特征信息，获得所述多个不同说话人的声学特征。

第二方面，实施例提供一种声纹识别方法，所述方法包括：获取测试用户的测试语音信息，提取所述测试语音信息的声学特征；将所述测试语音信息的声学特征输入深度嵌入特征模型，以提取所述测试语音信息的说话人特征向量，所述深度嵌入特征模型采用第一方面任一可选实施方式获得的深度嵌入特征模型；根据存储用户的语音样本信息的说话人特征向量以及所述测试语音信息的说话人特征向量判断所述测试用户是否为存储用户。

在上述设计的声纹识别方法中，通过第一方面训练完成的深度嵌入特征模型，进而来对测试语音和存储语音的说话人进行判断，使得对语音对应的人员身份进行识别，达到语音声纹识别的效果，并且第一方面的深度嵌入特征模型使得提取出的说话人特征向量更加精确，使得后续的声纹识别更加准确。

在第二方面的可选实施方式中，所述根据存储用户的语音样本信息中的说话人特征向量以及所述测试语音信息中的说话人特征向量判断所述测试用户是否为存储用户，包括：将所述存储用户的语音样本信息中的说话人特征向量以及所述测试语音信息中的说话人特征向量输入声纹相似度判断模型，以判断所述测试用户是否为存储用户；所述声纹相似度判断模型的建立方法，包括：获取声学特征训练样本组，所述声学特征训练样本组包括多个训练样本，所述多个训练样本中至少部分训练样本具有不同说话人的声学特征；将声学特征训练样本组中多个训练样本输入所述深度嵌入特征模型，以提取所述声学特征训练样本组中每个训练样本的说话人特征向量；根据所述声学特征训练样本组中每个训练样本对应的说话人特征向量对声纹相似度判断模型进行训练，获得训练完成的所述声纹相似度判断模型。

在第二方面的可选实施方式中，在所述获取测试用户的测试语音信息之前，所述方法还包括：获取语音样本信息，提取所述语音样本信息的声学特征；将所述语音样本信息的声学特征输入所述深度嵌入特征模型，以提取所述语音样本信息的说话人特征向量；将所述语音样本信息的说话人特征向量存储在数据库中。

在第二方面的可选实施方式中，所述提取所述测试语音信息的声学特征，包括：滤除所述测试语音信息中的静音信息和噪声信息，获得多个测试语音片段；通过梅尔频率倒谱系数提取每个测试语音片段中的声学特征。

第三方面，实施例提供一种模型生成装置，所述装置包括：输入模块，用于将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过所述预设的神经网络模型的输出向量；生成模块，用于根据多个所述输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对，其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量；计算模块，用于计算每个第一训练样本对和每个第二训练样本对的余弦相似度；划分模块，用于将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；排列模块，用于将所述第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；选取模块，用于根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；所述计算模块，还用于根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；更新模块，用于根据所述训练损失对所述神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

在上述设计的模型生成装置中，在训练阶段利用学习类中心的训练样本对构造方法，通过给训练集中每个说话人一个预设类中心向量，与神经网络的输出向量组成样本对，根据最大化ROC曲线下的部分面积构造的损失函数来计算的损失，根据计算得到的损失来训练预设的神经网络模型的参数和预设类中心向量，获得提取声纹特征的神经网络模型，提供了一种新的确认损失函数，并为该确认损失函数提供了一种新的训练样本对构造方法，由于该确认损失函数是在最大化ROC曲线下指定的面积，因此针对不同应用场景下的声纹识别系统训练特定的模型，学习类中心的训练样本对构造方法，解决了传统随机采样训练样本对构造方法中存在的训练不稳定问题。

第四方面，实施例提供一种声纹识别装置，所述装置包括：获取模块，用于获取测试用户的测试语音信息；提取模块，用于提取所述测试语音信息的声学特征；输入模块，用于将所述测试语音信息的声学特征输入深度嵌入特征模型，以提取所述测试语音信息的说话人特征向量，所述深度嵌入特征模型采用第一方面任一可选实施方式获得的深度嵌入特征模型；判断模块，用于根据存储用户的语音样本信息的说话人特征向量以及所述测试语音信息的说话人特征向量判断所述测试用户是否为存储用户。

在上述设计的声纹识别装置中，通过第一方面训练完成的深度嵌入特征模型，进而来对测试语音和存储语音的说话人进行判断，使得对语音对应的人员身份进行识别，达到语音声纹识别的效果，并且第一方面的深度嵌入特征模型使得提取出的说话人特征向量更加精确，使得后续的声纹识别更加准确。

第五方面，实施例提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

第六方面，实施例提供一种非暂态可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

第七方面，实施例提供了一种计算机程序产品，所述计算机程序产品在计算机上运行时，使得计算机执行第一方面、第一方面的任一可选的实现方式、第二方面、第二方面的任一可选的实现方式中的所述方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术说话人来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的模型生成方法第一流程图；

图2位本申请第一实施例提供的示意图；

图3为本申请第一实施例提供的模型生成方法第二流程图；

图4为本申请第二实施例提供的声纹识别方法第一流程图；

图5为本申请第二实施例提供的声纹识别方法第二流程图；

图6为本申请第三实施例提供的模型生成装置结构示意图；

图7为本申请第四实施例提供的声纹识别方法结构示意图；

图8为本申请第五实施例提供的电子设备结构示意图。

图标：300-输入模块；302-生成模块；304-计算模块；306-划分模块；308-排列模块；310-选取模块；312-更新模块；314-获取模块；316-滤除模块；318-标注模块；320-提取模块；400-获取模块；402-提取模块；404-输入模块；406-判断模块；408-存储模块；5-电子设备；501-处理器；502-存储器；503-通信总线。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

第一实施例

如图1所示，本申请实施例提供一种模型生成方法，该方法具体包括如下步骤：

步骤S100：将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过该预设的神经网络模型的输出向量。

步骤S102：根据每一说话人的输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对。

步骤S104：计算每个第一训练样本对和每个第二训练样本对的余弦相似度。

步骤S106：将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合。

步骤S108：将第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列。

步骤S110：根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本。

步骤S112：根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失。

步骤S114：根据训练损失对神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

在步骤S100中，多个不同说话人的声学特征可通过提取多个不同说话人的语音信息获得，多个不同说话人的语音信息可通过录入或实时说话产生；同一说话人的声学特征可进行标注，以区分不同说话人的声学特征，进而执行将多个不同说话人的声学特征输入预设的神经网络模型的动作，在将多个不同说话人的声学特征输入预设的神经网络模型之后，通过神经网络模型提取每一说话人的输出向量，其中，该预设的神经网络模型可采用TDNN神经网络结构，具体如表1所示。表1中Segment6层的输出为提取的说话人特征向量，其他具体配置与现有的TDNN神经网络结构一致。

表1.用于提取深度嵌入声纹特征的TDNN网络结构.

在步骤S100提取出每一说话人的输出向量之后，执行步骤S102根据每一说话人的输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对。其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量。具体地，可为每一个说话人分配一个预设的类中心向量，多个说话人的预设类中心向量可组成一个预设类中心向量集合，在每个迭代中，可随机选取神经网络提取的多个输出向量与该预设类中心向量集合中的预设类中心向量进行两两组合，进而构成多个训练样本对，在多个训练样本对中的输出向量和预设类中心向量为同一人的样本对，将其确定为第一训练样本对；输出向量与预设类中心向量为不同人的样本对，将其确定为第二训练样本对，进而执行步骤S104计算每个第一训练样本对和每个第二训练样本对的余弦相似度。

在执行步骤S104前，设所有训练样本对的集合为：

T＝{x_n,y_n；l_n|n＝1,2,L,N}；

其中，x_n和y_n分别表示一个样本对中的输出向量和预设类中心向量；l_n为相似度标签，表示对应的样本对中的特征向量和预设类中心向量是否属于同一人，如果x_n和y_n来自同一个说话人l_n＝1，反之l_n＝0。给定一个相似度函数

其中，‖°‖为范数算子。通过该相似度函数计算一个样本对中特征向量x_n和预设类中心向量y_n的相似度。进而执行步骤S106将第一训练样本对的多个余弦相似度划分为第一余弦相似度集合，将第二训练样本对对应的余弦相似度划分为第二余弦相似度集合，具体地，设第一余弦相似度集合为P，第二余弦相似度集合为N，其中，第一余弦相似度集合P＝{(s_i，l_i＝1)|i＝1,2…I}，第二余弦相似度集合N＝{(s_j，l_i＝1)|j＝1,2…J}，其中I+J＝N，I为集合P的余弦相似度个数，J为集合N的余弦相似度个数，N为余弦相似度总数。进而执行步骤S108和S110将第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本。具体地，比值控制区间根据前述所说为[α，β]，可将区间[α，β]用[j_α/J，j_β/J]替换，其中，j_α＝[Jα]+1，j_β＝[Jβ]为两个整数，然后将集合

中的元素按照数值递减的顺序排列，最后从排序后的样本中选取第j_α到j_β个余弦相似度样本集合并将其定义为集合N₀，其中，N₀＝(s_k，l_k＝1)|k＝1,2…K，其中，K＝j_β-j_α+1。进而执行步骤S112根据选取的每个余弦相似度样本以及第二余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失。

在步骤S112中，余弦构建的损失函数L具体为：

在根据上述方式计算出对应的训练损失之后，执行步骤S114根据训练损失对所述神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行更新迭代，以得到深度嵌入特征模型。具体地，可以根据反向传播算法、训练损失值以及参数更新函数来对各个参数和每个说话人对应的预设类中心向量进行更新迭代，在更新迭代的参数满足预设要求或者迭代次数达到预设值时，结束训练过程，获得训练完成的深度嵌入特征模型。

根据如下方法来确定前述所说的预设选取区间：

确定一个相似程度的判决公式：

设定一个预设值θ，就能从

N中计算出一个真正率和一个假正率。真正率表示该多个训练样本对中第一样本对被正确预测的概率，假正率表示该第二样本对中被错误预测的概率，该真正率的计算方式为超过预设值θ的第一训练样本对中的余弦相似度的个数与总个数的比值，该假正率的计算方式为超过预设值θ的第二训练样本对中的余弦相似度个数与总个数的比值。

在上述的基础上，通过改变预设值θ的取值，可以得到一系列的真正率和假正率，进而可以画出一条ROC曲线，如图2所示，当控制假正率的取值区间在一定区间[α，β]区间范围时，ROC曲线下填充图像的面积被定义为pAUC，其中，α和β为两个可调超参数。在此基础上，执行步骤S108和S112根据超过所述预设值的第二训练样本对的余弦相似度个数与第二训练样本对余弦相似度总数的比值控制区间确定选取区间；将所述第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；根据所述选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本。

在本实施例的可选实施方式中，在步骤S100将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过该预设的神经网络模型的输出向量之前，如图3所示，该方法还包括：

步骤S98：获取多个不同说话人的语音训练信息，滤除多个不同说话人的语音训练信息中的静音信息和噪声信息，获得多个语音训练片段，并对不同说话人的语音训练片段进行标注。

步骤S99：通过梅尔频率倒谱系数提取每个语音训练片段中的声学特征信息，获得多个不同说话人的声学特征。

在步骤S98中，获取的多个不同说话人的语音训练信息可为多个说话人的语音音频信息；滤除语音训练信息中的静音信息和噪声信息可通过语音端点检测滤除每段音频的静音段和噪声段，以此来保留含有说话人语音的音频片段作为语音训练片段，并对保留的每个语音训练片段进行标注，可以标注其是否属于同一说话人。

在步骤S99获得多个标注后的不同说话人的语音训练片段之后，可将每个语音训练片段切割成2-4秒长度不等的小片段，按帧提取每个小片段语音的声学特征，可通过执行步骤S92通过梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)提取每个语音训练片段中的声学特征信息。具体地，可采用30维的MFCC特征，其中帧长为25毫秒、帧移为10毫秒，并对MFCC采用滑动的方式去除均值，且滑动窗长为3秒，进而获得多个不同说话人的声学特征。

上述实施例在VoxCeleb和SITW数据集上进行了实验验证。采用VoxCeleb数据集共作为训练集，采用SITW作为测试集，该测试集包括两个任务，即Dev.Core和Eval.Core。

作为对比，本实施例分别对别了传统的Softmax损失函数(Softmax)、本申请提出的pAUC损失加基于随机采样构造训练样本对的方法(pAUC-R)，本申请提出的pAUC损失加本申请提出的基于学习类中心构造训练样本对的方法(pAUC-L)等三种损失函数情形下，训练的深度嵌入网络的说话人确认性能。

本申请采用的评价指标分别为，等错误率(EER)，以及最小检测代价函数DCF10-2和DCF10-3。如表2所示，

表2在SITW数据集上实验结果

上述实验结果证明了，即该实施例证明了本方案的有效性。

第二实施例

如图4所示，本申请提供一种声纹识别方法，该方法具体包括如下步骤：

步骤S200：获取测试用户的测试语音信息，提取测试语音信息的声学特征。

步骤S202：将测试语音信息的声学特征输入深度嵌入特征模型，以提取测试语音信息的说话人特征向量，该深度嵌入特征模型采用第一实施例中任一可选实施方式获得的深度嵌入特征模型。

步骤S204：根据存储用户的语音样本信息的说话人特征向量以及测试语音信息的说话人特征向量判断测试用户是否为存储用户。

在步骤S200中，获取测试用户的测试语音信息可理解为测试用户实时录入语音信息或者实时说一句话，然后提取该测试语音信息中的声学特征，其中，该提取的方式可与第一实施例中步骤S90～步骤S92的方式一致，在这里不再赘述，提取出该测试语音中的声学特征之后执行步骤S202。

在步骤S202中，将该提取的测试语音中的声学特征输入第一实施例训练完成的深度嵌入特征模型中，以通过该训练完成的深度嵌入特征模型提取测试语音信息的说话人特征向量，进而执行步骤S204。

在步骤S204中，根据存储用户的语音样本信息的说话人特征向量与步骤S202得到的测试语音信息中的说话人特征向量进而判断该测试用户是否为存储用户，其中，该存储用户的语音样本信息的说话人特征向量可在训练完成得到第一实施例中的深度嵌入特征模型之后，输入存储用户的语音样本信息的声学特征，进而通过该深度嵌入特征模型提取得到，并将该提取得到的存储用户的语音样本信息的说话人特征向量存储在数据库中，为后续的声纹识别作数据准备，便于后续进行声纹识别时进行调用。

在上述设计的声纹识别方法中，通过第一实施例训练完成的深度嵌入特征模型，进而来对测试语音和存储语音的说话人进行判断，使得对语音对应的人员身份进行识别，达到语音声纹识别的效果，并且第一实施例的深度嵌入特征模型使得提取出的说话人特征向量更加精确，使得后续的声纹识别更加准确。

在本实施例的可选实施方式中，步骤S204根据存储用户的语音样本信息的说话人特征向量以及测试语音信息的说话人特征向量判断测试用户是否为存储用户，具体有以下方式：

第一，根据存储用户的语音样本信息的说话人特征向量以及测试语音信息的说话人特征向量计算其相似度，进而根据相似度是否超过预设的相似度值来进行判断测试用户是否为存储用户。

第二，可将该存储用户的语音样本信息说话人特征向量以及所述测试语音信息说话人特征向量输入语音相似度判断模型，进而根据相似度模型输出的相似度得分来判断是否为同一人。其中，该语音相似度判断模型可包含两个部分，第一部分为用于向量降维的线性判别分析，第二部分为计算相似度的概率线性判别分析。如图4所示，该相似度模型的训练过程可为：

步骤S210：获取多个不同说话人的声学特征。

步骤S212：将多个不同说话人的声学特征输入该深度嵌入特征模型，以提取每一说话人的说话人输出向量。

步骤S214：根据每一说话人的说话人输出向量对声纹相似度判断模型进行训练，获得训练完成的声纹相似度判断模型。

上述步骤S210～214可理解为在通过第一实施例的方式训练得到深度嵌入特征模型之后，基于训练完成的深度嵌入特征模型输出的说话人特征向量进而对该声纹相似度判断模型进行训练，而声纹相似度判断模型的训练过程与现有的方式一致。

第三实施例

图6出示了本申请提供的模型生成装置的示意性结构框图，应理解，该装置与上述图1至图3中的方法实施例对应，能够执行第一实施例中的方法涉及的步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：输入模块300，用于将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过预设的神经网络模型的输出向量；生成模块302，用于根据多个所述输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对，其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量；计算模块304，用于计算每个第一训练样本对和每个第二训练样本对的余弦相似度；划分模块306，用于将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；排列模块308，用于将第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；选取模块310，用于根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；计算模块304，还用于根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；更新模块312，用于根据训练损失对神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

在本实施例的可选实施方式中，获取模块314，用于获取不同说话人的语音训练信息；滤除模块316，用于滤除所述不同说话人的语音训练信息中的静音信息和噪声信息，获得多个语音训练片段；标注模块318，用于对不同说话人的语音训练片段进行标注；提取模块320，用于通过梅尔频率倒谱系数提取每个语音训练片段中的声学特征，获得多个不同说话人的声学特征。

第四实施例

图7出示了本申请提供的声纹识别装置的示意性结构框图，应理解，该装置与上述图4至图5中的方法实施例对应，能够执行第一实施例中的方法涉及的步骤，该装置具体的功能可以参见上文中的描述，为避免重复，此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operatingsystem，OS)中的软件功能模块。具体地，该装置包括：获取模块400，用于获取测试用户的测试语音信息；提取模块402，用于提取测试语音信息中的声学特征；输入模块404，用于将测试语音信息中的声学特征输入深度嵌入特征模型，以提取测试语音信息中的声学特征对应的特征向量，深度嵌入特征模型采用第一实施例任一可选实施方式获得的深度嵌入特征模型；判断模块406，用于根据存储用户的语音样本信息中的声学特征对应的特征向量以及测试语音信息中的声学特征对应的特征向量判断测试用户是否为存储用户。

在上述设计的声纹识别装置中，通过第一实施例训练完成的深度嵌入特征模型，进而来对测试语音和存储语音的说话人进行判断，使得对声音对应的说话人身份进行识别，达到语音声纹识别的效果，并且第一实施例的深度嵌入特征模型使得提取出的特征向量更加精确，使得后续的声音识别更加准确。

在本实施例的可选实施方式中，判断模块406，具体用于将存储用户的语音样本信息中的声学特征对应的特征向量以及测试语音信息中的声学特征对应的特征向量输入相似度判断模型，以判断测试用户是否为存储用户；相似度判断模型的建立方法，包括：获取多个不同说话人的声学特征；将所述多个不同说话人的声学特征输入深度嵌入特征模型，以提取所述多个不同说话人的声学特征对应的特征向量，深度嵌入特征模型采用第一实施例获得的深度嵌入特征模型；根据所述多个不同说话人的声学特征对应的特征向量对相似度判断模型进行训练，获得训练完成的所述相似度判断模型。

在本实施例的可选实施方式中，获取模块400，还用于获取语音样本信息；提取模块402，还用于提取语音样本信息中的声学特征；输入模块404，还用于将语音样本信息中的声学特征输入深度嵌入特征模型，以提取语音样本信息中的声学特征对应的特征向量；存储模块408，用于将语音样本信息中的声学特征对应的特征向量存储在数据库中。

第五实施例

如图8所示，本申请提供一种电子设备5，包括：处理器501和存储器502，处理器501和存储器502通过通信总线503和/或其他形式的连接机构(未标出)互连并相互通讯，存储器502存储有处理器501可执行的计算机程序，当计算设备运行时，处理器501执行该计算机程序，以执行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的方法，例如步骤S100～S114将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过该预设的神经网络模型的输出向量；根据每一说话人的输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对；计算每个第一训练样本对和每个第二训练样本对的余弦相似度；将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；将第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；根据训练损失对神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

本申请提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的方法。

本申请提供一种计算机程序产品，该计算机程序产品在计算机上运行时，使得计算机执行第一实施例、第一实施例的任一可选的实现方式、第二实施例、第二实施例的任一可选的实现方式中的所述方法。

Claims

1.一种模型生成方法，其特征在于，所述方法包括：

将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过所述预设的神经网络模型的输出向量；

根据每一说话人的输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对，其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量；

计算每个第一训练样本对和每个第二训练样本对的余弦相似度；

将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；

将所述第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；

根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；

根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；

根据所述训练损失对所述神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

2.根据权利要求1所述方法，其特征在于，所述预先构建的损失函数L为：

3.根据权利要求1所述方法，其特征在于，在所述将多个不同说话人的声学特征输入预设的神经网络模型之前，所述方法还包括：

获取不同说话人的语音训练信息，滤除所述不同说话人的语音训练信息中的静音信息和噪声信息，获得多个语音训练片段，并对不同说话人的语音训练片段进行标注；

通过梅尔频率倒谱系数提取每个语音训练片段中的声学特征信息，获得所述多个不同说话人的声学特征。

4.一种声纹识别方法，其特征在于，所述方法包括：

获取测试用户的测试语音信息，提取所述测试语音信息的声学特征；

将所述测试语音信息的声学特征输入深度嵌入特征模型，以提取所述测试语音信息的说话人特征向量，所述深度嵌入特征模型采用权利要求1-3中任一项所述的方法获得的深度嵌入特征模型；

根据存储用户的语音样本信息的说话人特征向量以及所述测试语音信息的说话人特征向量判断所述测试用户是否为存储用户。

5.根据权利要求4所述的方法，其特征在于，所述根据存储用户的语音样本信息中的说话人特征向量以及所述测试语音信息中的说话人特征向量判断所述测试用户是否为存储用户，包括：

将所述存储用户的语音样本信息中的说话人特征向量以及所述测试语音信息中的说话人特征向量输入声纹相似度判断模型，以判断所述测试用户是否为存储用户；

所述声纹相似度判断模型的建立方法，包括：

获取声学特征训练样本组，所述声学特征训练样本组包括多个训练样本，所述多个训练样本中至少部分训练样本具有不同说话人的声学特征；

将声学特征训练样本组中多个训练样本输入所述深度嵌入特征模型，以提取所述声学特征训练样本组中每个训练样本的说话人特征向量；

根据所述声学特征训练样本组中每个训练样本对应的说话人特征向量对声纹相似度判断模型进行训练，获得训练完成的所述声纹相似度判断模型。

6.根据权利要求5所述的方法，其特征在于，在所述获取测试用户的测试语音信息之前，所述方法还包括：

获取语音样本信息，提取所述语音样本信息的声学特征；

将所述语音样本信息的声学特征输入所述深度嵌入特征模型，以提取所述语音样本信息的说话人特征向量；

将所述语音样本信息的说话人特征向量存储在数据库中。

7.根据权利要求4所述的方法，其特征在于，所述提取所述测试语音信息的声学特征，包括：

滤除所述测试语音信息中的静音信息和噪声信息，获得多个测试语音片段；

通过梅尔频率倒谱系数提取每个测试语音片段中的声学特征。

8.一种模型生成装置，其特征在于，所述装置包括：

输入模块，用于将多个不同说话人的声学特征输入预设的神经网络模型，以计算的每一说话人的声学特征经过所述预设的神经网络模型的输出向量；

生成模块，用于根据多个所述输出向量以及每个说话人对应的预设类中心向量生成多个第一训练样本对多个第二训练样本对，其中，每个说话人对应的预设类中心向量不同，每一第一训练样本对包括一个说话人的输出向量以及同一说话人的预设类中心向量，每一第二训练样本对包括一个说话人的输出向量以及另一不同说话人的预设类中心向量；

计算模块，用于计算每个第一训练样本对和每个第二训练样本对的余弦相似度；

划分模块，用于将多个第一训练样本对对应的余弦相似度划分为第一余弦相似度集合，将多个第二训练样本对对应的余弦相似度划分为第二余弦相似度集合；

排列模块，用于将所述第二余弦相似度集合中的余弦相似度按照数值递减的顺序排列；

选取模块，用于根据预设的选取区间从排列后的第二余弦相似度集合中选取多个余弦相似度样本；

所述计算模块，还用于根据选取的每个余弦相似度样本以及第一余弦相似度集合中的每个余弦相似度样本，通过预先构建的损失函数计算对应的训练损失；

更新模块，用于根据所述训练损失对所述神经网络模型的各个参数以及每个说话人对应的预设类中心向量进行迭代更新，以得到深度嵌入特征模型。

9.一种声纹识别装置，其特征在于，所述装置包括：

获取模块，用于获取测试用户的测试语音信息；

提取模块，用于提取所述测试语音信息的声学特征；

输入模块，用于将所述测试语音信息的声学特征输入深度嵌入特征模型，以提取所述测试语音信息的说话人特征向量，所述深度嵌入特征模型采用权利要求1-3中任一项所述的方法获得的深度嵌入特征模型；

判断模块，用于根据存储用户的语音样本信息的说话人特征向量以及所述测试语音信息的说话人特征向量判断所述测试用户是否为存储用户。

10.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。