CN110689895B

CN110689895B - 语音校验方法、装置、电子设备及可读存储介质

Info

Publication number: CN110689895B
Application number: CN201910844559.5A
Authority: CN
Inventors: 王愈; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2021-04-02
Anticipated expiration: 2039-09-06
Also published as: CN110689895A

Abstract

本发明实施例提供了一种语音校验方法、装置、电子设备及计算机存储介质，所述方法包括：从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列；根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征；基于待校验用户的声学模型，对所述声学复合特征进行校验；基于校验结果，确定所述待校验音频是否为待校验用户的音频。由于在本语音校验方法中，增加了对音素嵌入向量的提取和识别，丰富了语音校验中从音频中提取的特征参数，提高了语音校验的正确性。

Description

语音校验方法、装置、电子设备及可读存储介质

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音校验方法、一种语音校验装置、一种电子设备以及一种计算机可读存储介质。

背景技术

根据语音的特色是由发音器官的形状和质地特性决定的，因此可以像指纹一样可以唯一甄别出每个人。现有的声纹校验，也被称为语音校验，主要用于身份确认，辨别一段语音是否真的由本人说出，对于各种试图以假乱真的攻击，如他人模仿、仿真语音生成等，要求声纹校验应有足够的辨别力和准确度。

现有的声纹校验所校验的是语音中的声学谱参数，该声学谱参数，如Mel频率倒谱系数MFCC(Mel Frequency Cepstral Coefficents)，在语音校验领域，MFCC是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量，体现的是用户发出的语言信号的能量在不同频率范围的分布，是比较有用可用于声纹校验的语音物理信息。但是，发明人在使用上述现有的声纹校验进行声纹校验时，发现采用MFCC进行声纹校验时，MFCC并不能完全体现个人发音特性，还是存在识别准确不高的问题。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音校验方法、一种语音校验装置、一种电子设备，以及一种计算机可读存储介质。

本发明实施例的第一方面，提供了一种语音校验方法，所述方法应用于声纹校验系统，包括：

从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列；

根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征；

根据所述声学复合特征，确定所述待校验音频的声纹向量；

获取所述待校验音频针对的待校验用户在所述声纹校验系统中预存的声纹模型；

基于所述声纹模型，对所述声纹向量进行校验；

基于校验结果，确定所述待校验音频是否为所述待校验用户产生的音频。

可选地，所述方法还包括：

获取训练数据集，所述训练数据集中包括多个用户的录音样本，其中，每个用户对应多个录音样本；

针对每个的多个录音样本，执行如下步骤：

提取该用户的所述多个录音样本各自的样本声学复合特征，所述样本声学复合特征包括声学谱参数和音素嵌入向量；

根据所述样本声学复合特征，确定所述多个录音样本各自的样本声纹向量；

确定各所述样本声纹向量的平均向量，将所述平均向量作为该用户在所述声纹校验系统中的声纹模型。

可选地，所述声纹校验系统包括声纹提取层、余弦相似度计算层、逻辑回归层、误差计算层，针对所述训练数据集中的任意两个第一录音样本和第二录音样本，执行如下步骤：

获取所述第一录音样本的第一样本声纹向量，以及所述第一录音样本的第二样本声纹向量；

将所述第一样本声纹向量和所述第二样本声纹向量输入所述余弦相似度计算层，得到相似度；

将所述相似度输入所述逻辑回归层，得到相似度值；

确定所述第一录音样本和所述第二录音样本之间的标准值；

将所述相似度值和所述标准值输入所述误差计算层；

从所述误差计算层做神经网络的梯度回传，以更新所述声纹提取层和所述逻辑回归层。

可选地，基于所述声纹模型，对所述声纹向量进行校验，包括：

将所述声纹向量与所述声纹模型输入所述余弦相似度计算层，得到向量余弦距离；

将所述向量余弦距离输入所述逻辑回归层，得到置信度；

基于校验结果，确定所述待校验音频是否校验成功，包括：

将所述置信度作为所述校验结果，判断所述置信度是否达到预设阈值；

若是，则确定所述待校验音频为所述待校验用户产生的音频；

若否，则确定所述待校验音频不为所述待校验用户产生的音频。

可选地，所述语音校验系统与基于深度神经网络结构的语音合成系统相关联，其中，所述所述方法还包括：

获取多个音频语料，从各所述音频语料中提取各自的第二声学谱参数，并根据所述第二声学谱参数，确定所述多个音频语料各自对应的第二音素序号序列；

将获取到的各所述第二音素序号序列输入所述深度神经网络结构进行训练，得到音素嵌入向量模型；

将音素嵌入向量模型嵌入到所述声纹校验系统的输入层；

根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，包括：

基于所述音素嵌入向量模型，得到所述音素序号序列对应的所述音素嵌入向量。

可选地，根据所述声学谱参数确定所述待校验音频对应的音素序号序列，包括：

采用音素对齐算法，将所述待校验音频切分为音素序列，所述音素序列包括按照所述时间先后顺序排列的多个音素；

根据所述声学谱参数及每一音素对应的起止时间，确定所述音素序列中每一音素的帧长度；

基于预设的音素ID编号表，确定每一音素对应的音素ID序号；

根据每一音素的帧长度及音素ID序号，确定所述待校验音频对应的音素序号序列。

本发明实施例的第二方面，提供一种语音校验装置，所述装置应用于声纹校验系统，所述装置包括：

第一提取模块，用于从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列；

第一确定模块，用于根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征；

第二确定模块，用于根据所述声学复合特征，确定所述待校验音频的声纹向量；

声纹模型获取模块，用于获取所述待校验音频针对的待校验用户在所述声纹校验系统中预存的声纹模型；

校验模块，用于基于所述声纹模型，对所述声纹向量进行校验；

判断模块，用于基于校验结果，确定所述待校验音频是否为所述待校验用户产生的音频。

可选地，所述装置还可以包括：

训练集获取模块，用于获取训练数据集，所述训练数据集中包括多个用户的录音样本，其中，每个用户对应多个录音样本；

声学复合特征提取模块，用于提取每个用户的所述多个录音样本各自的声学复合特征，所述声学复合特征包括声学谱参数和音素嵌入向量；

声纹模型确定模块，用于确定各所述声纹向量的平均向量，将所述平均向量作为该用户在所述声纹校验系统中的声纹模型。

本发明实施例的第三方面，公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现所述的语音校验方法。

本发明实施例的第四方面，公开了一种计算机可读存储介质，其存储的计算机程序使得处理器执行所述的语音校验方法。

本发明实施例包括以下优点：

在本发明实施例中，通过从待校验音频中提取的声学谱参数确定音素序号序列，将根据音素序号序列确定的音素嵌入向量和上述的声学谱参数作为待校验音频的声学复合特征，之后，根据对声学复合特征进行校验的校验结果确定待校验音频是否被校验成功。由于在本语音校验方法中，事先得到了待校验音频的音素嵌入向量，进而增加了语音校验中从待校验音频中提取的特征参数，实现了语音校验的准确性的提高。由于音素序号序列是根据人对语言中辅音和元音的发声而确定到的，因此，根据该音素序号序列得到的音素嵌入向量能够数值化地区分不同音素的实际发音差异，使得对整句话从头到尾的校验更加分门别类地精细化，从而提高校验精度。

附图说明

为了更清楚地说明本申请各个实施例的技术方案，下面将对本申请各个实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种语音校验方法的步骤流程图；

图2是本发明实施例中构建用户的声纹模型的过程示意图；

图3是本发明实施例中声纹校验系统的结构图；

图4是本发明实施例中对声纹校验系统进行训练的步骤流程图；

图4-1是本发明实施例中对声纹校验系统进行训练的总体流程图；

图5是本发明实施例的一种可选实施方式的原理示意图；

图6是本发明实施例的一种语音校验装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

语音校验广泛应用在门禁解锁、金融交易和侦查技术领域中，在基于语音校验技术的门禁解锁、远程支付、远程开户等应用场景中，设备需要采集识别当前用户录入的语音是否与预存的用户语音一致，一致则校验通过，允许进行后续的操作，不一致则校验不通过，禁止进行后续的操作。在侦查技术领域中，如缩小刑侦范围时需要通过语音校验技术辨认各个待检测人员。

现有的语音校验一般采用声纹校验系统进行，声纹校验系统用于身份确认，通过与本人的真实语音对比分析，找到差异，从而辨别一段语音是否真的由本人说出，对于各种试图以假乱真的攻击，如他人模仿、仿真语音生成等具有足够的辨别力。声纹校验系统的前提，是认为世界上每个人的语音都有其唯一特色，而语音的特色是由发音器官的形状和质地特性决定的，从而可以像指纹一样可以唯一甄别出每个人。所以决定声纹校验准确度的核心特征因素就是从语音中提取的特征能够多大程度地体现本人发音特色的唯一性，或者说与他人的区分度。而现有的声纹校验一般是采取语音特征参数MFCC来进行语音校验，MFCC是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量，体现的是用户发出的语言信号的能量在不同频率范围的分布。但是申请人发现MFCC并不能完全反映一个人的发音特色，因此在语音校验中常常出现对模仿语音或相似语音的辨识度不高的问题。因此，申请人考虑需要从音频中提取尽可能多的倾向于体现个人特性的参数。

基于此考虑，申请人发现几乎所有国家的语言，微观上都是辅音和元音的交替序列。辅音和元音，从发音原理简单区分，辅音是声带不振动，元音是声带振动。声带不振动的辅音，本质上是肺部呼出的气流经过口腔、由唇齿控制摩擦、阻塞、爆破等动作产生的非周期性气流声。发音过程不涉及声带等发生器官，不具备充分的个人特性；另外非周期性气流声的随机性较强，特性不稳定。元音发音过程则是充分调动了所有的发音器官，具备更鲜明的个人特性，很难被模仿；声带振动则决定了元音是典型的周期性声音，从信号学角度具备稳定的、易量化描述的特性。因此，不同的人对于同一元音的发言，差异明显，可以更精确地体现人与人之间的发音差异。比如，张三和李四发x的音，可能差异不大，而张三和李四发iè的元音，差异就较明显。

据此，申请人提出一种新思路，在对一段待校验音频做声纹校验时，将音频内的元音的音素的变化情况和MFCC综合考虑到声纹校验中，以提高语音校验的准确度。

为了实现申请人提出的上述构思，如图1所示，示出了本发明实施例的一种语音校验方法的步骤流程图，该方法可以应用于声纹校验系统之中，具体包括以下步骤：

步骤S11，从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列。

其中，待校验音频可以是用户录入的真实语音。从音频中提取的声学谱参数可以为MFCC参数，MFCC参数是一种在自动语音和说话人识别中广泛使用的特征，从音频中提取MFCC参数的方法可以参考现有的相关技术，在此不再赘述。因提取MFCC参数的过程中，是通过对语音进行分帧进行时频变换，得到每一帧的FFT频谱再将各帧频谱按照时间顺序排列起来，得到时间-频率-能量分布图，因此，在提取MFCC参数的过程中得到的时间-频率-能量分布图，可以很直观的表现出语音信号随时间的频率中心的变化。进而语音中的音素的属性可以更好的在这里面得出来。

具体地，可以根据声学谱参数，确定到该待校验音频的音素序号序列，该音素序号序列可以表征该待校验音频中每个因素的元音发音特色。

可选地，确定待校验音频对应的音素序号序列可以采用下述步骤确定：

步骤S111，采用音素对齐算法将所述待校验音频切分为音素序列，所述音素序列包括按照时间先后顺序排列的多个音素。

音素对齐(Phoneme Alignment)是对于一段语音和相应的文字内容，借助语音校验中的维特比算法，切分出相应音素序列的起止时间。比如一段内容为“你好吗”的录音，先检索标音词典将文字转换为按照发音时间的先后顺序排列的音素序列“n3 i3 h3 ao3 m0a0”，其中的数字表示汉语的声调，如“你”，发音是三声，则用3标注n和i。其中，0表示语气词，1表示发音是一声。

步骤S112，根据所述声学谱参数及每一音素对应的起止时间，确定所述音素序列中每一音素的帧长度。

实际中，可以根据所述声学谱参数可以确定出该待校验音频中每一帧音频所占据的时间长度，进而可以再结合每一个音素所的起止时间，可以确定到米一个音素占用几帧音频。

例如，根据声学谱参数，确定到在该“你好吗”中，每10ms为一帧，其中，n3的起止时间总的时长为30ms，则n3长3帧；以此类推，如i3长5帧。进而可以确定到n3占用3帧音频，i3占用5帧音频。

步骤S113，基于预设的音素ID编号表，确定每一音素对应的音素ID序号。

步骤S114，根据每一音素的帧长度及音素ID序号，确定所述待校验音频对应的音素序号序列。

实际中，可以在音素ID编号表中查找每一个音素对应的ID序号，音素ID编号表可以参考表1所示，在该表中用一组数字编号表示每一个字母的不同发音。在确定到每个音素对应的ID序号后，进而可以将每个音素替换为对应的ID序号，再根据每个音素的帧长度，将该ID序号复制为多份，复制的份数为与各自的帧长度匹配，如帧长度为3，则复制3份，最终将确定出的音素序列替换为音素序号序列。

表1：音素ID编号表

示例地，如待校验音频为“你”，则根据声学特征标音后的音素序列为是“n3 i3”，其中，n3占用3帧音频，i3占用5帧音频，根据音素ID编号表查找到n3对应的ID序号为64，i3对应的ID序号为44，之后，将“n3 i3”替换为的音素序号序列为：64 64 64 44 44 44 4444。这样就实现了对音频中每个元音的发音特色，且由于发元音的声调的不同其音素序号序列的ID也不同，这样可以充分地将每个人发出的音素进行数值化的区分。

步骤S12，根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征。

本实施例中，可以将确定出的音素序号序列输入语音合成系统中的输入层，利用语音合成系统得到待校验音频对应的音素嵌入向量。具体地，语音合成系统是一种能够将文字信息转化为语音并进行朗读的系统，该语音合成系统合成语音的核心原理是从一批录音或相应文稿样本对中，创建一个发音模型，利用训练好的发音模型对任何给定的输入参数输出声学谱参数，进而模拟真人发音。以录音为例，将一批录音提取为机器可以识别的声学谱参数，多个录音的声学谱参数构成训练集，将这些训练集中的数据输入预先创建的发音模型进行训练，不断修正发音模型内部的参数，以使得发音模型输出的声学谱参数与录音标注的声学谱参数差距最小，进而得到训练完成后的发音模型。该训练完成后的发音自身有一定的集外泛化能力，对于训练集之外任何内容的文稿都能够正常合成输出声学谱参数，达到一定程度的模拟真人发音。

在本实施例中，可以将音素序号序列输入语音合成系统，进而可以利用语音合成系统输出针对该音素序号序列的音素嵌入向量，进而将该音素嵌入向量与步骤S11中提取的声学谱参数一起作为待校验音频的声学复合特征。具体实施时，在语音合成系统的输入层中包括嵌入结构，在该嵌入结构中保存了多个可训练调优的音素向量，在将音素序号序列输入语音合成模型的输入层后，便经过嵌入结构调取出上述的多个音素特征向量。其中，嵌入结构可以理解为是与语音合成系统中使用的词嵌入相似的，可以理解将音素嵌入到输入的声学谱参数中，进而使得输出的声学谱参数包括了音素嵌入向量，以提高语音合成后的语音具有更逼真的发音效果。

示例地，将上述“n3 i3”对应的音素序号序列“64 64 64 44 44 44 44 44”输入语音合成系统中的输入层，在该嵌入结构中保存了N个可训练调优的向量Vx，则按照输入的音素序号序列调取出来得到音素嵌入向量，该音素嵌入向量为“V64 V64 V64 V44 V44 V44V44 V44”。这样，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征，如，声学谱参数表示为C1 C2.......CM；则该所述声学复合特征可以是形如如下的语音特征参数：(C1 V64)(C2 V64)(C3 V64)(C4 V44)(C5 V44).....。其中每个括号内的向量值，表示把两个向量串接成一个长向量，称为声学复合特征，如(C1V64)，表示将C1和V64串接成一个长向量。

该声学复合特征即是表征了发音人员在发出一段音频时的声学谱参数和元音的发音特征。以便在后期校验时，可以以音素嵌入向量数值化地区分不同音素的实际发音差异。例如，以“你”的发言的符合声学特征为例，对该“你”的发音采用音素嵌入向量“V64 V64V64 V44 V44 V44 V44 V44”进行了数值化区分，在声学复合特征中则可以将(C1 V64)(C2V64)(C3 V64)(C4 V44)(C5 V44)与另一个用户发出的“你”或与“你”的同音字构成的声学复合特征，以长向量为单位进行校验，从而实现了精细化了音频校验，提高了校验的精度，进而使得语音校验的准确度得到了提高。

步骤S13，根据所述声学复合特征，确定所述待校验音频的声纹向量。

实际中，可以将所述声学复合特征输入到声纹校验系统的声纹提取层，则从声纹提取层输出的便为该待校验音频的声纹向量。

步骤S14，获取所述待校验音频针对的待校验用户在所述声纹校验系统中预存的声纹模型。

实际中，待校验用户为该待校验音频的校验对象，例如，要确定该待校验音频是否为A用户说的，则可以将A用户作为待校验用户，进而从声纹校验系统中调取到事先为A用户存储的声纹模型。

在一种可选实施方式中，可以事先在声纹校验系统中训练好每个用户的声纹模型，之后，可以利用声纹模型对待校验音频进行校验。

参考图2，图2是本申请一实施例中构建用户的声纹模型的过程示意图。其构建声纹模型具体可以包括以下步骤：

步骤S20，获取训练数据集，所述训练数据集中包括多个用户的录音样本，其中，每个用户对应多个录音样本。

实际中，训练数据集中可以包括N个用户，每个用户录有多个录音样本，其中，录音样本的个数越多越好，比如一千个。接下来，即利用该声纹校验系统构建每个用户的声纹模型，具体地，包括以下步骤：

步骤S21，提取该用户的所述多个录音样本各自的样本声学复合特征，所述声学复合特征包括声学谱参数和音素嵌入向量。

其中，提取样本声学复合特征可以通过步骤S11和步骤S12所述的方法实现，这样，便得到该用户每个录音样本的样本声学复合特征。

步骤S22，根据所述样本声学复合特征，确定所述多个录音样本各自的样本声纹向量。

实际中，可以将每个样本声学复合特征输入到声纹校验系统的声纹提取层，则从声纹提取层输出的便为各录音样本的声纹向量，该录音样本的声纹向量即为样本声纹向量。

步骤S23，确定各所述样本声纹向量的平均向量，将所述平均向量作为该用户在所述声纹校验系统中的声纹模型。

在得到该用户的每个录音样本各自的样本声纹向量后，可以求这多个样本声纹向量的均值，该平均值即为平均向量，该平均向量即为该用户的声纹模型。

示例地，以N个用户中的i用户为例，该用户录入1000个录音样本，从这1000个录音样本中提取到1000个声学复合特征，将这1000个声学复合特征分别输入到声纹校验系统的声纹提取层，则得到1000个样本声纹向量，之后，求取该1000个样本声纹向量的平均值，将该平均值作为i用户的声纹模型。

步骤S15，基于所述声纹模型，对所述声纹向量进行校验。

本发明实施例中，可以将声纹向量与所述声纹模型进行比对，根据比对结果确定待校验音频是否为真实音频样本。

在一种可选的实施方式中，在构建每个用户的声纹模型的过程中，可以对声纹校验系统进行训练，以优化声纹校验系统，之后可以利用该优化了的声纹校验系统对待校验音频进行校验，具体地，如图3所示，示出了声纹校验系统的结构图，在该声纹校验系统中，除包括声纹提取层DNN/LSTM外，还包括余弦相似度cosine similarity计算层、逻辑回归层logistic regression及误差计算层。参考图4，示出了对声纹校验系统进行训练的步骤流程图，对声纹校验系统进行优化的方法具体地可以包括以下步骤：

实际中，在构建声纹模型时，可以得到训练数据集中多个用户的多个录音样本打乱，每次随机挑选其中的两个录音样本送入声纹校验系统进行校验，该随机的两个录音样本可以称为第一录音样本和第二录音样本，对该第一录音样本和第二录音样本执行如下步骤：

步骤S41，获取所述第一录音样本的第一样本声纹向量，以及所述第一录音样本的第二样本声纹向量。

具体地，可以通过上述步骤S21和步骤S22所述的方法获取到第一录音样本的第一样本声纹向量，以及第二录音样本的第二样本声纹向量。

步骤S42，将所述第一声纹向量和所述第二声纹向量输入所述余弦相似度计算层，得到相似度。

实际中，声纹校验系统中的余弦相似度计算层对第一声纹向量和第二声纹向量采用余弦距离算法，计算第一声纹向量和第二声纹向量之间的向量余弦距离，该向量余弦距离即为相似度。

其中，向量余弦距离是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，体现两个向量的相似度。具体而言，因第一声纹向量和第二声纹向量均可以表示音频在二维空间(向量空间)上的分布，即，向量余弦距离为第一声纹向量和第二声纹向量在向量空间中的向量夹角。具体实施时，可以将第一声纹向量和第二声纹向量输入声纹校验系统中的余弦相似度计算层，通过该余弦相似度计算层对第一声纹向量和第二声纹向量进行计算后，得到上述的向量余弦距离。

其中，余弦相似度计算层可以采用现有的余弦距离公式1得出：

公式1：

其中，x表示第一声纹向量，y表示第二声纹向量，cosA表示向量余弦距离。根据上述公式可知，该向量余弦距离的值在-1到1之间的数。数值越接近1，则表示第一声纹向量和第二声纹向量越相似。

步骤S43，将所述相似度输入所述逻辑回归层，得到相似度值。

在得到向量余弦距离后，可以将向量余弦距离输入声纹校验系统中的逻辑回归层，该逻辑回归层输出得到针对该向量余弦距离的置信度。该置信度又被称为置信区间，体现的是这个参数(向量余弦距离)的真实值有一定概率落在测量结果(校验是否通过)的周围的程度。

具体而言，逻辑回归层可以采用下述公式2将该向量余弦距离压为0至1之间的数值，该0至1之间的数值便称为置信度：

公式2：

其中，y1表示置信度，x1表示向量余弦距离。

获取的置信度越接近1，则表示该声学复合特征越能被校验通过，即，待校验音频越能被校验通过。

步骤S44，确定所述第一录音样本和所述第二录音样本之间的标准值。

实际中，校验人员可以为每个录音样本标注来源人，校验人员则可以根据第一录音样本的来源人和第二录音样本的来源人，确定该标准值。若现实中确定第一录音样本的来源人和第二录音样本的来源人相同，则标准值为1，若不同，则标准值为0。

步骤S45，将所述相似度值和所述标准值输入所述误差计算层。

步骤S46，从所述误差计算层做神经网络的梯度回传，以更新所述声纹提取层和所述逻辑回归层。

具体而言，误差计算层可以通过交叉熵误差函数确定所述相似度值与所述标准值之间的误差，并根据所述误差，建立损失函数，采用梯度回传法修正所述声纹提取层的参数和所述逻辑回归层的参数，并将更新后的声纹提取层和逻辑回归层投入下一轮的训练。其中，梯度回传法又可以称为梯度下降法。其中，上述步骤S41至步骤S46则为声纹校验系统的一轮训练，经过多轮训练后，例如1000轮训练，结束训练，得到最终的声纹提取层和逻辑回归层。又例如，在连续多轮训练后，确定到误差计算层输出的误差不再减小时，则确定该声纹校验系统已经可以准确地预测出该两个录音样本是否来自于同一人，如此，便可以结束训练，以得到了最优的声纹提取层和逻辑回归层。

具体的上述该对该声纹校验系统进行训练的总体流程示意图，可见图4-1所示。

相应地，则可以利用上述训练好的声纹校验系统实现上述步骤S15及上述步骤S16。

其中，步骤S15具体可以包括以下步骤：

步骤S151，将所述声纹向量与所述声纹模型输入所述余弦相似度计算层，得到向量余弦距离。

具体地，可以将声纹模型与待校验音频的声纹向量输入到余弦相似度计算层中得到向量余弦距离。具体参照步骤S42执行即可，在此不再赘述。

步骤S152，将所述向量余弦距离输入所述逻辑回归层，得到置信度。

具体地，可以将向量余弦距离输入到训练好的逻辑回归层中，进而从该层输出置信度。

相应地，步骤S16可以包括下述步骤：

步骤S161，将所述置信度作为所述校验结果，判断所述置信度是否达到预设阈值,。

其中，所述预设阈值可以由用户预先设定，若达到预设阈值，则转步骤S162，若未达到，则转步骤S163。

步骤S162，确定所述待校验音频为所述待校验用户产生的音频。

步骤S163，确定所述待校验音频不为所述待校验用户产生的音频。

实际中，还可以在确定所述待校验音频为所述待校验用户产生的音频时，显示校验通过的信息，在确定所述待校验音频不为所述待校验用户产生的音频时，显示校验不通过的信息。进而在实际运用中，可以根据最后校验的结果进行后续的操作，比如，校验不通过，则不允许打开门禁，校验通过了，则打开门禁。

采用该实施方式时，由于采用用户的多个录音样本对声纹校验系统进行训练，减小了声纹校验系统校验音频的误差，进而进一步提高了语音校验的准确度。

为了能更智能地实施申请人提出的上述方法，使得该方法的应用范围更广，申请人提出了一种可选措施，参照图5所示，示出了本发明实施例的一种可选实施方式的原理示意图：首先，利用语音合成系统训练出一套音素嵌入向量模型，然后，将该训练好的音素嵌入向量模型嵌入到声纹校验系统中，利用嵌入了该音素嵌入向量模型的声纹校验系统执行上述步骤S11至步骤S16的方法。

具体而言，在步骤S11之前，可以包括以下步骤：

步骤S51，获取多个音频语料，从各所述音频语料中提取各自的第二声学谱参数，并根据所述第二声学谱参数，确定所述多个音频语料各自对应的第二音素序号序列。

其中，音频语料可以来自于真人的录音，实际中，音频语料的数量可以足够多。例如，可以是1000个音频语料。其中，确定每个音频语料各自对应的第二音素序号序列的方法与与步骤S11类似，相关之处参见步骤S11即可，在此不再赘述。

步骤S52，将获取到的各所述第二音素序号序列输入语音合成系统的深度神经网络模型进行训练，得到音素嵌入向量模型。

其中，语音合成系统中具有语音合成模型，该语音合成模型可以是深度神经网络结构模型，该深度神经网络模型包括输入层、隐藏层和输出层，具体而言，可以将该各第二音素序号序列输入深度神经网络模型的输入层，则在该深度神经网络模型的输出层和隐藏之间，对各第二音素序号序列进行训练，具体地，每一轮输入一个音素序号序列到深度神经网络模型的输入层，以此完成多轮训练，训练结束后，得到一套音素嵌入向量模型，该音素嵌入向量模型中具有针对每个音素的向量。得到该音素嵌入向量模型后，将该音素嵌入向量模型插入到声纹校验系统，作为声纹校验系统的输入层，以在获取待校验音频的音素嵌入向量时，作为查表来使用。这样，在上述步骤S12中，则可以根据该音素嵌入向量模型快速获取到针对音素序号序列的音素嵌入向量。

相应地，在步骤S12中，根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量的步骤，可以包括以下步骤：

基于所述音素嵌入向量模型，获取与所述音素序号序列对应的音素嵌入向量。

实际中，可以将音素嵌入向量模型作为查表使用，快速获取到与所述音素序号序列对应的音素嵌入向量。

相应地，在构建声纹模型过程中的步骤S21中，也可以利用嵌入了所述音素嵌入向量模型的声纹校验系统获取每个录音样本各自的声学复合特征。

采用上述技术方案，由于利用语音合成系统的深度神经网络模型训练出了一套音素嵌入向量模型，并将该音素嵌入向量模型应用到声纹校验系统中，使得本发明实施例所述的语音校验的效率更高。

参考图5所示的原理图，结合以上实施例，在一种可选的实施方式中，示出了本发明实施例的语音校验方法的原理示意图，完整地给出了通过语音合成系统创建音素嵌入向量模型，并将该音素嵌入向量模型应用于声纹校验系统对待校验音频进行校验的过程，具体包括以下步骤：

首先，获取多个音频语料，从各所述音频语料中提取各自的第二声学谱参数，并根据所述第二声学谱参数，确定所述多个音频语料各自对应的第二音素序号序列。

其次，将所述第二音素序号序列输入语音合成系统的深度神经网络模型进行训练，得到音素嵌入向量模型。

接着，将所述音素嵌入向量模型嵌入声纹校验系统，并与所述声纹校验系统的声纹提取层连接，作为所述声纹校验系统的输入层。

然后，利用嵌入所述音素嵌入向量模型的声纹校验系统构建多个用户各自的声纹模型，并在构建声纹模型的过程中，对声纹校验系统的各层进行训练，具体地包括以下步骤：

步骤1，获取训练数据集，所述训练数据集中包括多个用户各自包括的的多个录音样本。

步骤2，随机选取任意两个录音样本，例如图中的录音一和录音二，提取该任意两个录音样本各自的声学复合特征，其中，声学复合特征包括声学谱参数和音素嵌入向量，其中，音素嵌入向量是基于所述音素嵌入向量模型及声学谱参数对应的音素序号序列确定到的。

步骤3，将两个声学复合特征输入到声纹校验系统的声纹提取层，得到链各个声纹向量。

步骤4，将两个声纹向量输入到声纹校验系统的余弦相似度计算层，得到相似度。

步骤5，将相似度和这两个录音样本的标准值输入到误差计算层，得到误差。

步骤6，根据误差，采用梯度回传法，更新声纹提取层和逻辑回归层的参数。

在连续多轮训练后，确定到误差计算层输出的误差不再减小时，便可以结束训练，得到了最优的声纹提取层和逻辑回归层。

最后，获取每个用户所包括的多个录音样本各自的声纹向量，将多个声纹向量的平均值作为该用户自己的声纹模型。

接下来，利用训练好的声纹校验系统对待校验音频进行校验，具体可以包括以下内容：

首先，对新来的一句话的录音(即为待校验音频)提取声学谱参数，利用音素嵌入向量模型，获取到声学谱参数对应的音素嵌入向量，将该声学谱参数和音素嵌入向量作为新来的这一录音的声学复合特征。

接着，将得到的声学复合特征输入训练好的声纹提取层，得到声纹向量；

然后，从事先构建的多个声纹模型中，调取出待校验用户的声学模型，将该声学模型与声纹向量一起输入余弦相似度计算层，得到相似度；

最后，将相似度输入逻辑回归层，得到取值范围介于[0,1]之间的的分值(该分值即为上述实施例所述的置信度)；如果分值足够高，高于实现约定的阈值(即为上述实施例所述的预设阈值)，则确认这句话是待校验用户说的，否则，则确认这句话不是待校验用户说的。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参考图6，示出了本发明实施例的一种语音校验装置的结构框图，所述装置应用于声纹校验系统，所述装置具体可以包括以下模块：

第一提取模块61，用于从待校验音频中提取声学特征谱参数，并根据所述声学谱特征参数确定所述待校验音频对应的音素序号序列；

第一确定模块62，用于根据所述音素序号序列，确定所述待校验音频对应的音素特征参数音素嵌入向量，所述音素特征参数音素嵌入向量及所述声学谱特征参数形成所述待校验音频的声学复合特征第一语音特征；

第二确定模块63，用于根据所述声学复合特征，确定所述待校验音频的声纹向量；

声纹模型获取模块64，用于获取所述待校验音频针对的待校验用户在所述声纹校验系统中预存的声纹模型；

校验模块65，用于基于所述声纹模型，对所述声纹向量进行校验；

判断模块66，用于基于校验结果，确定所述待校验音频是否为所述待校验用户产生的音频。

可选地，所述装置还可以包括：

可选地，所述声纹校验系统包括声纹提取层、余弦相似度计算层、逻辑回归层、误差计算层，所述装置还可以包括：

录音样本获取模块，用于从所述训练数据集中获取任意两个第一录音样本和第二录音样本；

声纹向量获取模块，用于获取所述第一录音样本的第一样本声纹向量和所述第一录音样本的第二样本声纹向量；

第一计算模块，用于将所述第一样本声纹向量和所述第二样本声纹向量输入所述余弦相似度计算层，得到相似度；

第二相似度值计算模块，用于将所述相似度输入所述逻辑回归层，得到相似度值；

标准值确定模块，用于确定所述第一录音样本和所述第二录音样本之间的标准值；

误差计算模块，用于将所述相似度值和所述标准值输入所述误差计算层；

参数更新模块，用于从所述误差计算层做神经网络的梯度回传，以更新所述声纹提取层和所述逻辑回归层。

可选地，所述校验模块65包括：

第二计算单元，用于将所述声纹向量与所述声纹模型输入所述余弦相似度计算层，得到向量余弦距离；

第三计算单元，用于将所述向量余弦距离输入所述逻辑回归层，得到置信度；

相应地，所述判断66模块，具体用于将所述置信度作为所述校验结果，判断所述置信度是否达到预设阈值；若是，则确定所述待校验音频为所述待校验用户产生的音频；若否，则确定所述待校验音频不为所述待校验用户产生的音频。

可选地，所述语音校验系统与基于深度神经网络结构的语音合成系统相关联，其中，所述装置还包括：

第三提取模块，用于获取多个音频语料，从各所述音频语料中提取各自的第二声学谱参数，并根据所述第二声学谱参数，确定所述多个音频语料各自对应的第二音素序号序列；

音素嵌入向量训练模块，用于将获取到的各所述第二音素序号序列输入所述深度神经网络结构进行训练，得到音素嵌入向量模型；

嵌入模块，用于将音素嵌入向量模型嵌入到所述声纹校验系统的输入层；

所述第一确定模块，具体用于基于所述音素嵌入向量模型，得到所述音素序号序列对应的所述音素嵌入向量。

可选地，所述第一提取模块61包括：

音素提取单元，用于采用音素对齐算法，将所述待校验音频切分为音素序列，所述音素序列包括按照所述时间先后顺序排列的多个音素；

帧长度确定单元，用于根据所述声学谱参数及每一音素对应的起止时间，确定所述音素序列中每一音素的帧长度；

音素ID号确定单元，用于基于预设的音素ID编号表，确定每一音素对应的音素ID序号；

音素序号序列确定单元，用于根据每一音素的帧长度及音素ID序号，确定所述待校验音频对应的音素序号序列。

对于语音校验装置实施例而言，由于其与语音校验方法实施例基本相似，所以描述的比较简单，相关之处参见语音校验方法实施例的部分说明即可。

本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现上述实施方式所述的语音校验方法。

本发明实施例还提供了一种计算机可读存储介质，其存储的计算机程序使得处理器执行如本发明实施例所述的语音校验方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音校验方法、一种语音校验装置、一种电子设备和一种计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音校验方法，其特征在于，所述方法应用于声纹校验系统，包括：

从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列；所述音素序号序列用于表征所述待校验音频中每个音素的元音发音特色；

根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征；根据所述声学复合特征，确定所述待校验音频的声纹向量；

基于所述声纹模型，对所述声纹向量进行校验；

基于校验结果，确定所述待校验音频是否为所述待校验用户产生的音频；

其中，从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列，包括：

采用音素对齐算法，将所述待校验音频切分为音素序列，所述音素序列包括按照时间先后顺序排列的多个音素；

基于预设的音素ID编号表，确定每一音素对应的音素ID序号；

根据每一音素的帧长度及音素ID序号，确定所述待校验音频对应的音素序号序列；

其中，根据所述音素序号序列，确定所述待校验音频对应的音素嵌入向量，包括：

将所述音素序号序列输入语音合成系统，利用所述语音合成系统输出针对所述音素序号序列的音素嵌入向量；其中，所述语音合成系统的输入层中包括嵌入结构；所述嵌入结构中保存了多个可训练调优的音素向量，按照所述音素序号序列调取出来得到音素嵌入向量；

其中，所述音素嵌入向量及所述声学谱参数形成所述待校验音频的声学复合特征包括：

将所述音素嵌入向量与所述声学谱参数串接成一个长向量，将该长向量作为所述声学复合特征；其中，所述声学复合特征表征了一段音频的声学谱参数和元音的发音特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对每个用户的多个录音样本，执行如下步骤：

3.根据权利要求2所述的方法，其特征在于，所述声纹校验系统包括声纹提取层、余弦相似度计算层、逻辑回归层、误差计算层，针对所述训练数据集中的任意两个第一录音样本和第二录音样本，执行如下步骤：

将所述相似度输入所述逻辑回归层，得到相似度值；

确定所述第一录音样本和所述第二录音样本之间的标准值；

将所述相似度值和所述标准值输入所述误差计算层；

4.根据权利要求3所述的方法，其特征在于，基于所述声纹模型，对所述声纹向量进行校验，包括：

将所述向量余弦距离输入所述逻辑回归层，得到置信度；

基于校验结果，确定所述待校验音频是否校验成功，包括：

5.根据权利要求1所述的方法，其特征在于，所述语音校验系统与基于深度神经网络结构的语音合成系统相关联，其中，所述方法还包括：

将音素嵌入向量模型嵌入到所述声纹校验系统的输入层；

基于所述音素嵌入向量模型，得到所述音素序号序列对应的音素嵌入向量。

6.一种语音校验装置，其特征在于，所述装置应用于声纹校验系统，所述装置包括：

第一提取模块，用于从待校验音频中提取声学谱参数，并根据所述声学谱参数确定所述待校验音频对应的音素序号序列；所述音素序号序列用于表征所述待校验音频中每个音素的元音发音特色；

判断模块，用于基于校验结果，确定所述待校验音频是否为所述待校验用户产生的音频；

所述第一提取模块具体用于采用音素对齐算法，将所述待校验音频切分为音素序列，所述音素序列包括按照时间先后顺序排列的多个音素；根据所述声学谱参数及每一音素对应的起止时间，确定所述音素序列中每一音素的帧长度；基于预设的音素ID编号表，确定每一音素对应的音素ID序号；根据每一音素的帧长度及音素ID序号，确定所述待校验音频对应的音素序号序列；

所述第一确定模块具体用于将所述音素序号序列输入语音合成系统，利用所述语音合成系统输出针对所述音素序号序列的音素嵌入向量；其中，所述语音合成系统的输入层中包括嵌入结构；所述嵌入结构中保存了多个可训练调优的音素向量，按照所述音素序号序列调取出来得到音素嵌入向量；

所述第一确定模块具体还用于将所述音素嵌入向量与所述声学谱参数串接成一个长向量，将该长向量作为所述声学复合特征；其中，所述声学复合特征表征了一段音频的声学谱参数和元音的发音特征。

7.根据权利要求6所述的装置，其特征在于，所述装置还可以包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的语音校验方法。

9.一种计算机可读存储介质，其特征在于，其存储的计算机程序使得处理器执行如权利要求1至5任一项所述的语音校验方法。