CN109448732B

CN109448732B - 一种数字串语音处理方法及装置

Info

Publication number: CN109448732B
Application number: CN201811609029.4A
Authority: CN
Inventors: 闫杰; 李晋; 方昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2021-06-08
Anticipated expiration: 2038-12-27
Also published as: CN109448732A

Abstract

本申请提供了一种数字串语音处理方法及装置，其中，方法包括：获取目标数字串语音；基于整个目标数字串语音和预先建立的身份向量确定模型，确定目标数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成目标数字串语音对应的数字声纹模型，其中，身份向量确定模型采用数字串语音训练得到，数字声纹模型中包含训练数字串语音中数字串的结构化信息。本申请提供的数字串语音处理方法能够确定出稳定、精准的数字声纹模型。

Description

一种数字串语音处理方法及装置

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种数字串语音处理方法及装置。

背景技术

声纹识别技术又称说话人识别技术，其是利用人的声音来检测说话人的身份的技术。与其它生物识别技术相比，声纹识别技术利用语音信号进行身份确认，具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点，同时也可以通过电话或网络等方式进行远程操作。因此，声纹识别技术在安防、军事、经济、生活等很多领域都具有良好而广阔的应用前景。

根据对语音数据的要求，声纹识别可以分为与文本相关和与文本无关两类。前者要求注册语音和测试语音具有相同的语义文本，需要用户的积极配合，后者则没有此要求，限制因素较少，应用更灵活。文本提示型说话人识别是文本相关声纹识别的一种变形，文本提示型说话人识别的测试语音文本是从一个固定集合中随机组合产生。数字声纹识别是文本提示型说话人识别的一种具体形式，数字声纹识别的测试语音文本是固定位数的随机数字串，随机数字串的使用既约束了文本的变化空间，又可以在使用过程中有效地防止录音回放攻击。

数字声纹识别的过程为：获取待验证数字串语音对应的数字声纹模型，将待验证数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型进行匹配，基于匹配结果确定测试数字串语音与注册数字串语音对应的用户身份是否一致。数字声纹模型获取是数字声纹识别的关键，现有技术中，数字声纹模型的获取是基于全变量因子分析的方法实现的，但基于全变量因子分析的方法获得的数字声纹模型不够稳定和准确，进而导致声纹识别效果不佳。

发明内容

有鉴于此，本申请提供了一种数字串语音处理方法及装置，用以从数字串语音中获取精准、稳定的数字声纹模型，进而提高声纹识别效果，其技术方案如下：

一种数字串语音处理方法，包括：

获取目标数字串语音；

基于整个所述目标数字串语音和预先建立的身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型；

其中，所述身份向量确定模型采用数字串语音训练得到，所述数字声纹模型中包含所述数字串语音中数字串的结构化信息。

其中，所述身份向量确定模型的训练过程，包括：

获取所述数字串语音中各个数字的起始位置信息和结束位置信息；

获取整个所述数字串语音对应的频域特征；

利用整个所述数字串语音对应的频域特征，以及所述数字串语音中各个数字的起始位置信息和结束位置信息，训练并构建身份向量确定模型。

可选的，所述将整个所述数字串语音对应的频域特征，以及所述数字串语音中各个数字的起始位置信息和结束位置信息，输入身份向量确定模型进行训练，包括：

通过所述身份向量确定模型将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征；

通过所述身份向量确定模型将所述频域上的多个第一特征转换为时域上的多个第二特征，其中，任一所述第二特征的长度与所述数字串语音的帧数相同，任一所述第一特征的长度小于任一所述第二特征的长度；

通过所述身份向量确定模型的身份向量确定模块，基于所述数字串语音中各个数字的起始位置信息和结束位置信息，通过所述身份向量确定模型从所述多个第二特征中分别获取各个数字对应的特征片段，基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量；

通过所述身份向量确定模型对所述数字串语音中各个数字对应的数字身份向量进行分类，分类结果作为所述数字串语音对应的身份标签。

可选的，基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量：

对于所述数字串语音中的任一数字，将分别从所述多个第二特征中获取的、该数字对应的特征片段并求平均，获得多个特征值，所述多个特征值组成该数字对应的数字身份向量，以得到所述数字串语音中各个数字对应的数字身份向量。

可选的，所述数字串语音处理方法还包括：

确定所述目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度，其中，所述注册数字串语音对应的数字声纹模型预先基于所述身份向量确定模型确定；

若所述匹配度大于预设值，则确定所述目标数字串语音与所述注册数字串语音对应的用户身份一致。

可选的，预先基于所述身份向量确定模型确定所述注册数字串语音对应的数字声纹模型，包括：

获取注册数字串语音，所述注册数字串语音中至少包括所述目标数字串语音所包含的各个数字；

基于所述注册数字串语音和所述身份向量确定模型，确定所述注册数字串语音中各个数字对应的注册声纹特征；

将同一数字对应的注册声纹特征求平均，获得所述注册数字串语音中多个不同数字分别对应的注册声纹特征，所述注册数字串语音中多个不同数字分别对应的注册声纹特征组成所述注册数字串语音对应的数字声纹模型。

一种数字串语音处理装置，包括：语音获取模块和目标声纹模型确定模块；

所述语音获取模块，用于获取目标数字串语音；

所述目标声纹模型确定模块，用于基于整个所述目标数字串语音和预先建立的身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型；

所述数字串语音处理装置还包括：训练模块；

所述训练模块包括：训练样本获取子模块、样本信息获取子模块、频域特征确定子模块和模型训练子模块；

所述训练样本获取子模块，用于从训练样本集中获取数字串语音；

所述样本信息获取子模块，用于获取所述数字串语音中各个数字的起始位置信息和结束位置信息；

所述频域特征确定子模块，用于获取整个所述数字串语音对应的频域特征；

所述模型训练子模块，用于将整个所述数字串语音对应的频域特征，以及所述数字串语音中各个数字的起始位置信息和结束位置信息，输入身份向量确定模型进行训练，然后触发所述训练样本获取子模块从训练样本集中获取一数字串语音继续进行训练，直至满足训练结束条件。

可选的，模型训练子模块，具体用于通过所述身份向量确定模型将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征；通过所述身份向量确定模型将所述频域上的多个第一特征转换为时域上的多个第二特征，其中，任一所述第二特征的长度与所述数字串语音的帧数相同，任一所述第一特征的长度小于任一所述第二特征的长度；基于所述数字串语音中各个数字的起始位置信息和结束位置信息，通过所述身份向量确定模型从所述多个第二特征中分别获取各个数字对应的特征片段，基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量；通过所述身份向量确定模型对所述数字串语音中各个数字对应的数字身份向量进行分类，分类结果作为所述数字串语音对应的身份标签。

可选的，所述模型训练子模块在基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量时，具体用于对于所述数字串语音中的任一数字，将分别从所述多个第二特征中获取的、该数字对应的特征片段求平均，获得多个特征值，所述多个特征值组成该数字对应的数字身份向量，以得到所述数字串语音中各个数字对应的数字身份向量。

可选的，所述数字串语音处理装置还包括：身份验证模块；

所述身份验证模块，用于确定所述目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度，其中，所述注册数字串语音对应的数字声纹模型预先基于所述身份向量确定模型确定；若所述匹配度大于预设值，则确定所述目标数字串语音与所述注册数字串语音对应的用户身份一致。

可选的，所述数字串语音处理装置还包括：注册声纹模型确定模块；

所述注册声纹模型确定模块，用于获取所述注册数字串语音，所述注册数字串语音中至少包括所述目标数字串语音所包含的各个数字；基于所述注册数字串语音和所述身份向量确定模型，确定所述注册数字串语音中各个数字对应的注册声纹特征；将同一数字对应的注册声纹特征求平均，获得所述注册数字串语音中多个不同数字分别对应的注册声纹特征，所述注册数字串语音中多个不同数字分别对应的注册声纹特征组成所述注册数字串语音对应的数字声纹模型。

一种数字串语音处理设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现所述数字串语音处理方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述数字串语音处理方法的各个步骤。

经由上述的技术方案可知，本申请提供的数字串语音处理方法及装置，首先获取目标数字串语音，然后根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量，从而获取目标数字串语音对应的数字声纹模型。由此可见，本申请基于整个目标数字串语音确定数字声纹模型，一方面，整个目标数字串语音覆盖的音素较多，基于整个目标数字串语音确定的数字声纹模型能够对声纹属性进行可靠描述，即确定的数字声纹模型不易受干扰，比较稳定，另一方面，基于整个目标数字串语音确定数字声纹模型能够充分利用整个目标数字串语音中数字之间的协同发音信息，这使得确定出的数字声纹模型比较精准。另外，本申请只需要建立一个身份向量确定模型即可，而不需要针对不同数字建立不同模型，模型参数量大幅下降，从而使得方案实现简单、易用性强。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的数字串语音处理方法的流程示意图；

图2为本申请实施例提供的数字串语音处理方法中，根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量的流程示意图；

图3为本申请实施例提供的数字串语音处理方法中，基于整个目标数字串语音对应的频域特征，以及目标数字串语音中各个数字的起始位置信息和结束位置信息，通过身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量的流程示意图；

图4为本申请实施例提供的建立身份向量确定模型的一示例的示意图；

图5为本申请实施例提供的数字串语音处理装置的结构示意图；

图6为本申请实施例提供的数字串语音处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现有技术，通过一段语音确定声纹模型的方法大多为基于全变量因子分析的方法，具体的，对于一段语音，首先提取反映声纹信息的特征，如梅尔倒谱系数特征(MelFrequency Cepstrum Coefficient，MFCC)、感知线性预测(Perceptual LinearPredictive，PLP)等，然后通过Baum-Welch算法按时序计算每帧语音数据在混合高斯模型中每个高斯成分中的后验占有率，通过训练好的全变量空间，将语音特征进行线性投影，获取该段语音对应的声纹模型。

在数字密码场景，数字串语音对应的数字声纹模型也大多基于全变量因子分析的方法获得，具体的，在模型训练时，首先对随机数字串语音进行文本识别，同时得到每个数字的起始边界和结束边界；然后将训练集中的数字串语音按照数字边界进行切分，得到只包含单个数字的语音片段；接着将切分得到的语音片段按照相同的数字文本各自聚集在一起，为0至9中的每个数字单独建立全变量空间以及后端LDA(线性判别分析)/PLDA(概率线性判别分析)等模型，共十组模型，在测试时，测试语音按照相同的做法切分成只包含单个数字的语音片段，提取语音特征后将特征片段通过其对应的全变量空间提取i-vector，以获得数字声纹模型。

发明人在实现本发明创造的过程中发现：现有技术中基于全变量因子分析的声纹模型确定获取方法，会逐帧计算后验概率和相关统计量，该方法在有效语音时长较长(比如30秒以上)时，可以得到比较稳定的声纹模型，但是当语音时长较短时，由于语音不足以覆盖到所有的音素，这时的声纹模型就很容易受到文本的干扰，难以对声纹属性进行可靠描述。对于数字密码场景，由于单个数字片段的时长一般都非常短，因此，采用基于全变量因子分析的方法获取的数字声纹模型不够稳定、不够精准，影响声纹识别效果。

鉴于现有技术中存在的问题，本案发明人进行了深入研究，最终提出了一种数字串语音处理方法，接下来通过下述实施例对本申请提供的数字串语音处理方法进行介绍。

请参阅图1，示出了本申请实施例提供的数字串语音处理方法的流程示意图，可以包括：

步骤S101：获取目标数字串语音。

其中，目标数字串语音为包含预设个数字的语音，其可以为对用户的身份进行验证的数字串语音，可用于识别用户声纹。

步骤S102：根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成目标数字串语音对应的数字声纹模型。

其中，身份向量确定模型采用数字串语音训练得到，数字声纹模型中包含数字串语音中数字串的结构化信息。

本实施例中的身份向量确定模型以整个数字串语音为训练样本训练得到的、能够确定0～9中各个数字对应的数字身份向量的统一模型。

需要说明的是，发明人在实现本申请的过程中发现，现有方案确定的数字声纹模型之所以不够稳定、不够精准，主要是因为未考虑以下两点：

其一，将数字串语音切分得到的语音片段一般都比较短，大多不到一秒，语音片段覆盖的音素较少；

其二，在数字串语音中，数字之间的协同发音表现很明显，同一个数字的发音会受到它所处的位置及其前后不同的数字序列的影响。

另外，现有技术中，分数字建模的方法同时要建立十组模型(0-9组模型)对应不同数字，这使得整体上模型规模很大；例如，将数字串语音123456分别拆分为1，2，3，4，5，6，然后输入训练模型，得到1，2，3，4，5，6的单个数字向量模型。

有鉴于此，本申请抛弃先切分成片段再分别建模的方式，以整个数字串语音为训练样本训练得到能够确定0～9中各个数字对应的数字身份向量的统一模型，以便能充分利用整个语音覆盖的因素以及数字之间的协同发音信息，从而提高声纹模型的稳定性和精准度。

本申请实施例提供的数字串语音处理方法，首先获取目标数字串语音，然后根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量，以获得目标数字串语音对应的数字声纹模型。由此可见，本申请实施例基于整个目标数字串语音和一身份向量确定模型获得目标数字串语音对应的数字声纹模型，一方面，整个目标数字串语音覆盖的音素较多，基于整个目标数字串语音确定的数字声纹模型能够对声纹属性进行可靠描述，即确定的数字声纹模型不易受干扰，比较稳定，另一方面，基于整个目标数字串语音确定数字声纹模型能够充分利用整个目标数字串语音中数字之间的协同发音信息，这使得确定出的数字声纹模型比较精准。另外，本实施例只需要建立一个统一的身份向量确定模型即可，而不需要针对不同数字建立不同模型，因此，模型参数量大幅下降，从而使得方案实现简单、易用性强。

在本申请的另一实施例中，对上述实施例中步骤S102中的“根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量”进行介绍。

请参阅图2，示出了根据整个目标数字串语音和预先建立的身份向量确定模型，确定数字串语音中各个数字对应的目标数字身份向量的实现过程的流程示意图，可以包括：

步骤S201：获取目标数字串语音中各个数字的起始位置信息和结束位置信息。

其中，目标数字串语音中各个数字的起始位置信息可以为目标数字串语音所包含的各个数字的起始帧位置，目标数字串语音中各个数字的结束位置信息可以为目标数字串语音所包含的各个数字的结束帧位置。

需要说明的是，对于目标数字串语音，可首先基于提示数字串使用语音识别系统对目标数字串语音的数字文本进行验证，若验证一致，再获取目标数字串语音中各个数字的起始位置信息和结束位置信息。

步骤S202：获取整个目标数字串语音对应的频域特征。

具体的，可对整个目标数字串语音进行分帧加窗、傅里叶变换，得到FFT特征，作为整个目标数字串语音对应的频域特征。整个目标数字串语音对应的频域特征的长度为L，维度为d(比如64维)，其中，L为整个目标数字串语音的帧数。

步骤S203：基于整个目标数字串语音对应的频域特征，以及目标数字串语音中各个数字的起始位置信息和结束位置信息，通过身份向量确定模型，确定目标数字串语音中各个数字对应的目标数字身份向量。

请参阅图3，示出了基于整个目标数字串语音对应的频域特征，以及目标数字串语音中各个数字的起始位置信息和结束位置信息，通过身份向量确定模型，确定目标数字串语音中各个数字对应的目标数字身份向量的流程示意图，可以包括：

步骤S301：通过身份向量确定模型的第一特征获取模块，将整个目标数字串语音对应的频域特征映射为频域上的预设个第一特征。

具体的，可将整个目标数字串语音对应的频域特征组成L×d的特征图输入身份向量确定模型的第一特征获取模块，第一特征获取模块将L×d的特征图映射为频域上的预设个第一特征图。

步骤S302：通过身份向量确定模型的第二特征获取模块，将频域上的预设个第一特征转换为时域上的预设个第二特征。

具体的，身份向量确定模型的第一特征获取模块输出的预设个第一特征图输入第二特征获取模块，第二特征获取模块将预设个第一特征图转换为时域上的预设个第二特征图，即第二特征获取模块输出预设个第二特征图。

其中，任一第二特征图的长度与目标数字串语音的帧数相同，任一第一特征的长度小于任一第二特征的长度。

步骤S303：通过身份向量确定模型的身份向量确定模块，基于目标数字串语音中各个数字的起始位置信息和结束位置信息，以及预设个第二特征，确定数字串语音中各个数字对应的目标数字身份向量。

具体的，对于目标数字串语音中的任一数字，通过身份向量确定模型的身份向量确定模块，基于该数字的起始位置信息和结束位置信息，分别从各个第二特征中获取该数字对应的特征片段并求平均，获得预设个特征值，预设个特征值组成该数字对应的目标数字身份向量，以得到目标数字串语音中各个数字对应的目标数字身份向量。

近年来，深度学习方法在包括图像识别、语音识别的许多研究领域都取得很大的成功。目前，有采用深度学习方法获取声纹模型以实现声纹识别的方案，但这些方案仍局限于时域特性，无法建立时域和频域之间的关联关系，最终导致声纹识别效果不理想。

深度卷积神经网络(Convolutional Neural Networks,CNN)及相关变形是深度学习中备受重视一种网络结构。它首先对局部特征进行感知，然后在更高层将局部的二维信息综合起来，并利用多层卷积网络堆叠描述新的特征转换空间。相对于现有技术中基于全变量因子分析的方法，卷积神经网络可以对时域和频域进行联合分析，在两个维度上挖掘语音频谱中的声纹信息，获得更加稳定的声纹特征，从而建立精准的声纹模型。

基于此，本实施例中的身份向量确定模型可以为深度卷积神经网络，深度卷积神经网络可以包括卷积层、池化层、反卷积层和分类层，用整个训练数字串语音训练深度卷积神经网络，下面结合图4，对深度卷积神经网络的训练过程进行说明，深度卷积神经网络的训练过程包括：

步骤S1、获取训练数字串语音中各个数字的起始位置信息和结束位置信息。

其中，训练数字串语音中各个数字的起始位置信息和结束位置信息为训练数字串语音中各个数字的起始帧位置和结束帧位置。

步骤S2、获取整个训练数字串语音对应的频域特征。

具体的，对整个训练数字串语音进行分帧加窗、傅里叶变换，得到FFT特征，作为整个训练数字串语音对应的频域特征。整个训练数字串语音对应的频域特征的长度为L，维度为d，其中，L为整个训练数字串语音的帧数。

步骤S3、将整个训练数字串语音对应的频域特征组成一个L×d的特征图输入深度卷积神经网络，通过卷积神经网络的卷积层和第一池化层将L×d的特征图映射为M个尺寸为S×1的第一特征图。

本实施例中的卷积神经网络可以包括多个卷积层，最后一个卷积层采用M个卷积核，池化层将特征图在频域上维度由d降为1。

示例性的，如图4所示，训练数字串语音为140帧，其中包含的数字串为“3527869”，训练数字串语音对应的频域特征为64维，则将训练数字串语音对应的频域特征组成140×64的特征图输入深度卷积神经网络，通过卷积神经网络的卷积层和第一池化层将140×64的特征图映射为512个尺寸为70×1的第一特征图。

步骤S4、通过卷积神经网络的反卷积层将M个尺寸为S×1的第一特征图处理成M个L×1的第二特征图。

本实施例中的卷积神经网络可以包括多个反卷积层，通过多个反卷积层的反卷积操作将第一特征图中每一个子层在时域上由S恢复为L，也即，用多个反卷积层将第一特征图的长度扩展为与训练数字串语音的总帧数相同的长度。此时，反卷积得到的M个L×1的第二特征图中仍然保留有训练数字串语音中数字串的结构化信息。

如图4所示，通过卷积神经网络的反卷积层将512个尺寸为70×1的第一特征图处理成512个140×1的第二特征图。

步骤S5、通过卷积神经网络的第二池化层，基于训练数字串语音中各个数字的起始位置信息和结束位置信息，以及M个L×1的第二特征图，确定训练数字串语音中各个数字对应的数字身份向量。

具体的，针对训练数字串语音中的任一数字，基于该数字起始位置信息和结束位置信息分别从M个L×1的第二特征图中获取该数字对应的特征片段并求平均，从而获得M个一维特征值，将M个一维特征值组合，获得M×1的向量作为该数字对应的数字身份向量，以获得训练数字串语音中各个数字对应的数字身份向量。假设训练数字串语音中包含N个数字，则经第二池化层，可获得N个M×1的数字身份向量，这些数字身份向量在获取时，仅仅是第二特征图做平均时的起始位置和结束位置不同。

如图4所示，对于训练数字串语音中的数字“2”，基于数字“2”的起始位置信息和结束位置信息，对数字“2”在各个第二特征图中的特征片段分别求平均，得到数字“2”对应的512个特征值，数字“2”对应的512个特征值组合，获得数字“2”对应的512×1的数字身份向量，其它数字类似，从而获得训练数字串语音中“3527869”分别对应的数字身份向量，即7个512×1的数字身份向量。

步骤S6、将训练数字串语音中各个数字对应的数字身份向量分别经分类层(Softmax)进行分类，分类结果用于预测训练数字串语音对应的身份标签。

卷积神经网络采用上述过程进行多次训练迭代优化后，即可得到最终的身份向量确定模型。

在获得身份向量确定模型后，便可将目标数字串语音对应的频域特征组成一个L×d的特征图输入身份向量确定模型，L×d的特征图经卷积层和第一池化层，输出M个尺寸为S×1的第一特征图，M个尺寸为S×1的第一特征图经反卷积层输出M个L×1的第二特征图，M个L×1的第二特征图经第二池化层，获得目标数字串语音中各个数字对应的M×1的数字身份向量，目标数字串语音中各个数字对应的M×1的数字身份向量便组成目标数字串语音对应的数字声纹模型。

在声纹识别任务中，获得目标数字串语音(用于验证身份的数字串语音)对应的数字声纹模型后，便可基于目标数字串语音对应的数字声纹模型对目标数字串语音进行验证，具体的，确定目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度；若匹配度大于预设值，则确定目标数字串语音与所述注册数字串语音对应的用户身份一致。

其中，注册数字串语音对应的数字声纹模型预先基于身份向量确定模型确定。具体的，预先基于身份向量确定模型确定注册数字串语音对应的数字声纹模型的过程可以包括：获取注册数字串语音；基于注册数字串语音和身份向量确定模型，确定注册数字串语音中各个数字对应的注册声纹特征；将同一数字对应的注册声纹特征求平均，获得注册数字串语音中多个不同数字分别对应的注册声纹特征，注册数字串语音中多个不同数字分别对应的注册声纹特征组成注册数字串语音对应的数字声纹模型。

将注册语音中相同的数字得到的数字身份向量聚集在一起做平均，得到该说话人在特定数字(如1)上的声纹模型。因此在注册阶段，每个人会得到对应于10个不同数字的10个数字身份向量模板。测试时，测试语音得到的数字身份向量通过余弦距离与已经注册的数字身份向量模板做距离得分。

通常情况，注册数字串语音中需包含数字0～9，注册数字串语音可以为一条，也可以为多条，只要所有注册数字串语音中包含数字0～9即可。基于此，基于注册数字串语音和身份向量确定模型可确定0～9这10个数字分别对应的注册数字身份向量，即获得10个注册数字身份向量，这10个注册数字身份向量组成注册数字串语音对应的数字声纹模型。

确定目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度的过程包括：对于目标数字串语音中的任一数字，计算该数字对应的目标数字身份向量与该数字对应的注册身份向量的余弦距离(也可以为其它距离)，作为该数字对应的余弦距离，以得到目标数字串语音中各个数字对应的余弦距离，将目标数字串语音中各个数字对应的余弦距离求和，求和得到的值作为目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度。

若目标数字串语音对应的数字声纹模型与注册数字串语音对应的数字声纹模型的匹配度大于预设值，则确定目标数字串语音与所述注册数字串语音对应的用户身份一致，则验证通过，否则验证不通过。

实验表明，对于声纹识别而言，在相同的测试集中，本方案在虚警为2％的条件下的召回率相对于现有技术中的方案从90％提高至94％左右，这在声纹识别任务上是一个很大的提升，同时由于不同数字共享统一的模型，模型参数量规模大幅下降了90％左右。

本申请实施例还提供了一种数字串语音处理装置，下面对本申请实施例提供的数字串语音处理装置进行描述，下文描述的数字串语音处理装置与上文描述的数字串语音处理方法可相互对应参照。

请参阅图5，示出了本申请实施例提供的一种数字串语音处理装置的结构示意图，如图5所示，该装置可以包括：语音获取模块501和目标声纹模型确定模块502。

语音获取模块501，用于获取目标数字串语音。

目标声纹模型确定模块502，用于基于整个所述目标数字串语音和预先建立的身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型。

本申请实施例提供的数字串语音处理装置，基于整个目标数字串语音和一身份向量确定模型获得目标数字串语音对应的数字声纹模型，一方面，整个目标数字串语音覆盖的音素较多，基于整个目标数字串语音确定的数字声纹模型能够对声纹属性进行可靠描述，即确定的数字声纹模型不易受干扰，比较稳定，另一方面，基于整个目标数字串语音确定数字声纹模型能够充分利用整个目标数字串语音中数字之间的协同发音信息，这使得确定出的数字声纹模型比较精准。另外，本实施例只需要建立一个统一的身份向量确定模型即可，而不需要针对不同数字建立不同模型，因此，模型参数量大幅下降，从而使得方案实现简单、易用性强。

在一种可能的实现方式中，上述实施例提供的数字串语音处理装置中的目标声纹模型确定模块502可以包括：信息获取子模块、频域特征确定子模块和身份向量确定子模块。

所述信息获取子模块，用于获取所述目标数字串语音中各个数字的起始位置信息和结束位置信息。

所述频域特征确定子模块，用于获取整个所述目标数字串语音对应的频域特征。

所述身份向量确定子模块，用于基于整个所述目标数字串语音对应的频域特征，以及所述目标数字串语音中各个数字的起始位置信息和结束位置信息，通过所述身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量。

在一种可能的实现方式中，所述声纹特征确定子模块，具体用于通过所述身份向量确定模型的第一特征获取模块，将整个所述目标数字串语音对应的频域特征映射为频域上的预设个第一特征；通过所述身份向量确定模型的第二特征获取模块，将所述频域上的预设个第一特征转换为时域上的预设个第二特征，其中，任一所述第二特征的长度与所述目标数字串语音的帧数相同，任一所述第一特征的长度小于任一所述第二特征的长度；通过所述身份向量确定模型的身份向量确定模块，基于所述目标数字串语音中各个数字的起始位置信息和结束位置信息，以及所述预设个第二特征，确定所述数字串语音中各个数字对应的目标数字身份向量。

在一种可能的实现方式中，所述声纹特征确定子模块在通过所述身份向量确定模型的身份向量确定模块，基于所述目标数字串语音中各个数字的起始位置信息和结束位置信息，以及所述预设个第二特征，确定所述数字串语音中各个数字对应的目标数字身份向量时，具体用于：对于所述目标数字串语音中的任一数字，通过所述身份向量确定模型的身份向量确定模块，基于该数字的起始位置信息和结束位置信息，分别从各个所述第二特征中获取该数字对应的特征片段并求平均，获得预设个特征值，预设个特征值组成该数字对应的目标数字身份向量，以得到所述数字串语音中各个数字对应的目标数字身份向量。

在一种可能的实现方式中，上述实施例提供的数字串语音处理装置还包括：身份验证模块。

在一种可能的实现方式中，上述实施例提供的数字串语音处理装置还包括：注册声纹模型确定模块。

所述注册声纹模型确定模块，用于获取所述注册数字串语音；基于所述注册数字串语音和所述身份向量确定模型，确定所述注册数字串语音中各个数字对应的注册声纹特征；将同一数字对应的注册声纹特征求平均，获得所述注册数字串语音中多个不同数字分别对应的注册声纹特征，所述注册数字串语音中多个不同数字分别对应的注册声纹特征组成所述注册数字串语音对应的数字声纹模型。

本申请实施例还提供了一种数字串语音处理设备，请参阅图6，示出了该数字串语音处理设备的结构示意图，该设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本申请实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器601可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器603可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

获取目标数字串语音；

基于整个所述目标数字串语音和预先建立的身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量，所有目标数字身份向量组成所述目标数字串语音对应的数字声纹模型。

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

获取目标数字串语音；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数字串语音处理方法，其特征在于，包括：

获取目标数字串语音；

其中，所述身份向量确定模型采用数字串语音训练得到，所述数字声纹模型中包含所述数字串语音中数字串的结构化信息；

所述基于整个所述目标数字串语音和预先建立的身份向量确定模型，确定所述目标数字串语音中各个数字对应的目标数字身份向量，包括：

获取所述目标数字串语音对应的频域特征；基于所述身份向量确定模型，将所述目标数字串语音对应的频域特征处理为频域上的多个特征，并将所述频域上的多个特征转换为时域上的多个特征，根据所述时域上的多个特征确定所述目标数字串语音中各个数字对应的目标数字身份向量。

2.根据权利要求1所述的数字串语音处理方法，其特征在于，所述身份向量确定模型的训练过程包括：

获取整个所述数字串语音对应的频域特征；

3.根据权利要求2所述的数字串语音处理方法，其特征在于，所述身份向量确定模型为卷积神经网络；

将整个所述数字串语音对应的频域特征，以及所述数字串语音中各个数字的起始位置信息和结束位置信息，输入身份向量确定模型进行训练，包括：

通过所述身份向量确定模型的卷积层和第一池化层，将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征；

通过所述身份向量确定模型的反卷积层，将所述频域上的多个第一特征转换为时域上的多个第二特征，其中，任一所述第二特征的长度与所述数字串语音的帧数相同，任一所述第一特征的长度小于任一所述第二特征的长度；

基于所述数字串语音中各个数字的起始位置信息和结束位置信息，通过所述身份向量确定模型的第二池化层，从所述多个第二特征中分别获取各个数字对应的特征片段，基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量；

通过所述身份向量确定模型的分类层，对所述数字串语音中各个数字对应的数字身份向量进行分类，分类结果作为所述数字串语音对应的身份标签。

4.根据权利要求3所述的数字串语音处理方法，其特征在于，所述基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量，包括：

对于所述数字串语音中的任一数字，将分别从所述多个第二特征中获取的、该数字对应的特征片段求平均，获得多个特征值，所述多个特征值组成该数字对应的数字身份向量，以得到所述数字串语音中各个数字对应的数字身份向量。

5.根据权利要求1～4中任意一项所述的数字串语音处理方法，其特征在于，还包括：

6.根据权利要求5所述的数字串语音处理方法，其特征在于，预先基于所述身份向量确定模型确定所述注册数字串语音对应的数字声纹模型，包括：

7.一种数字串语音处理装置，其特征在于，包括：语音获取模块和目标声纹模型确定模块；

所述语音获取模块，用于获取目标数字串语音；

所述目标声纹模型确定模块，具体用于获取所述目标数字串语音对应的频域特征；基于所述身份向量确定模型，将所述目标数字串语音对应的频域特征处理为频域上的多个特征，并将所述频域上的多个特征转换为时域上的多个特征，根据所述时域上的多个特征确定所述目标数字串语音中各个数字对应的目标数字身份向量。

8.根据权利要求7所述的数字串语音处理装置，其特征在于，还包括：训练模块；

9.根据权利要求8所述的数字串语音处理装置，其特征在于，所述身份向量确定模型为卷积神经网络；

所述模型训练子模块，具体用于通过所述身份向量确定模型的卷积层和第一池化层，将整个所述数字串语音对应的频域特征映射为频域上的多个第一特征；通过所述身份向量确定模型的反卷积层，将所述频域上的多个第一特征转换为时域上的多个第二特征，其中，任一所述第二特征的长度与所述数字串语音的帧数相同，任一所述第一特征的长度小于任一所述第二特征的长度；基于所述数字串语音中各个数字的起始位置信息和结束位置信息，通过所述身份向量确定模型的第二池化层，从所述多个第二特征中分别获取各个数字对应的特征片段，基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量；通过所述身份向量确定模型的分类层，对所述数字串语音中各个数字对应的数字身份向量进行分类，分类结果作为所述数字串语音对应的身份标签。

10.根据权利要求9所述的数字串语音处理装置，其特征在于，所述模型训练子模块在基于所述各个数字对应的特征片段确定所述数字串语音中各个数字对应的数字身份向量时，具体用于对于所述数字串语音中的任一数字，将分别从所述多个第二特征中获取的、该数字对应的特征片段求平均，获得多个特征值，所述多个特征值组成该数字对应的数字身份向量，以得到所述数字串语音中各个数字对应的数字身份向量。

11.根据权利要求7～10中任意一项所述的数字串语音处理装置，其特征在于，还包括：身份验证模块；

12.根据权利要求11所述的数字串语音处理装置，其特征在于，还包括：注册声纹模型确定模块；

所述注册声纹模型确定模块，用于获取注册数字串语音，所述注册数字串语音中至少包括所述目标数字串语音所包含的各个数字；基于所述注册数字串语音和所述身份向量确定模型，确定所述注册数字串语音中各个数字对应的注册声纹特征；将同一数字对应的注册声纹特征求平均，获得所述注册数字串语音中多个不同数字分别对应的注册声纹特征，所述注册数字串语音中多个不同数字分别对应的注册声纹特征组成所述注册数字串语音对应的数字声纹模型。