CN112259106A

CN112259106A - 声纹识别方法、装置、存储介质及计算机设备

Info

Publication number: CN112259106A
Application number: CN202011126786.3A
Authority: CN
Inventors: 陈柱欣; 林悦; 陈堆盛; 丁涵宇
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2021-01-22
Anticipated expiration: 2040-10-20

Abstract

本申请实施例公开了一种声纹识别方法、装置、存储介质及计算机设备，其中，该方法包括：获取待识别的目标语音信号，基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量，基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征通过注册步骤对注册语音信号进行处理后得到，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。本申请实施例可以同时进行说话人身份信息和语音内容的匹配，提高的声纹识别的准确率，复杂度更低，应用范围更广。

Description

声纹识别方法、装置、存储介质及计算机设备

技术领域

本申请涉及计算机技术领域，具体涉及一种声纹识别方法、装置、存储介质及计算机设备。

背景技术

近几年来，机器学习尤其是深度学习领域相关技术的研究取得突飞猛进的进展，极大促进了人机交互方式的极大转变。语音交互技术，作为人类最自然的交互方式之一，逐渐应用到许多商业化产品。语音指令控制、声纹识别技术是智能语音控制的若干关键技术。其中，语音指令控制用于判断说话人是否发出指定文本内容的语音，声纹识别用于判断语音的说话人身份。当构建一个说话人相关的语音指令控制系统时，即只有目标说话人发出相应的指令时系统才触发响应，该系统也可以称为文本相关的声纹识别系统。

目前，大多数文本相关的声纹识别系统依赖于语音识别系统，使用语音识别进行音素的提取，或者是文本内容的匹配。在这一过程中，受限于训练数据的采集，低资源语言的语音识别模型训练往往较为困难，成本也更高。当用户使用自己特定的一段语音(可以是任意语言)作为声纹语音指令时，在应用上将存在一定的限制。

因此，现有技术存在缺陷，有待改进与发展。

发明内容

本申请实施例提供一种声纹识别方法、装置、存储介质及计算机设备，可以同时进行说话人身份信息和语音内容的匹配，用户可以使用任意语言、语种注册声纹指令，提高的声纹识别的准确率，复杂度更低，应用范围更广。

本申请实施例提供了一种声纹识别方法，所述方法包括：

获取待识别的目标语音信号；

基于预设的神经网络模型，对所述目标语音信号进行处理，以得到所述目标语音信号的目标语音特征，所述目标语音特征为用于表征所述目标语音信号的说话人身份信息和语音内容的深层向量；

基于预设的度量模块，将所述目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，所述注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，所述注册语音特征为用于表征所述注册语音信号的说话人身份信息和语音内容的深层向量。

本申请实施例还提供一种声纹识别装置，所述装置包括：

获取单元，用于获取待识别的目标语音信号；

处理单元，用于基于预设的神经网络模型，对所述目标语音信号进行处理，以得到所述目标语音信号的目标语音特征，所述目标语音特征为用于表征所述目标语音信号的说话人身份信息和语音内容的深层向量；

匹配单元，用于基于预设的度量模块，将所述目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，所述注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，所述注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。

可选的，所述获取单元，包括：

获取子单元，用于获取待识别的目标语音；

第一提取子单元，用于提取所述目标语音中的有效目标语音；

第二提取子单元，用于提取所述有效目标语音的音频特征，以得到所述待识别的目标语音信号。

可选的，所述神经网络模型包含帧级别网络结构和段级别网络结构，所述处理单元，包括：

第一处理子单元，用于将所述有效目标语音的音频特征输入所述帧级别网络结构，提取所述有效目标语音的音频特征中的局部特征信息和长时依赖信息，并将所述有效目标语音的音频特征中的局部特征信息和长时依赖信息投影到预设维度空间，以输出中间参数矩阵；

第二处理子单元，用于将所述帧级别网络结构输出的中间参数矩阵输入所述段级别网络结构，基于所述中间参数矩阵的平均值和标准差统计量，获取所述目标语音特征，所述目标语音特征为用于表征所述目标语音信号的说话人身份信息和语音内容的深层向量。

可选的，所述处理单元还包括预处理子单元，用于：

对所述有效目标语音的音频特征中的每一帧音频特征进行二分类，划分为语音帧和静音帧；

移除所述有效目标语音的音频特征中的静音帧，且合并拼接所述有效目标语音的音频特征中的语音帧；

当所述合并拼接后的语音帧少于预设帧数时，对所述合并拼接后的语音帧进行多倍重复拼接处理。

可选的，所述处理单元，还包括：

第一训练子单元，用于采用第一训练集训练所述预设的神经网络模型，其中，所述第一训练集包括文本相关的训练数据和文本无关的训练数据，其中所述文本无关的训练数据中的每一说话人对应多个不同的文本内容。

可选的，所述第一提取子单元，用于：

获取所述目标语音中语音帧的能量；

将所述目标语音中语音帧的能量大于或者等于能量阈值的目标语音确定为有效目标语音；以及

将所述目标语音中语音帧的能量小于能量阈值的目标语音确定为无效目标语音。

可选的，所述匹配单元，包括：

中心化处理子单元，用于分别对所述目标语音特征与注册语音特征进行中心化处理，以使所述目标语音特征与注册语音特征的数据分别靠近坐标原点；

变换处理子单元，用于对所述中心化处理后的所述目标语音特征与注册语音特征进行线性判别分析变换，以消除信道干扰；

正则化处理子单元，用于对所述线性判别分析变换后的所述目标语音特征与注册语音特征进行正则化处理，以使所述目标语音特征与注册语音特征的数据分布接近高斯分布；

计算子单元，用于使用概率线性鉴别分析计算所述经过正则化处理后的所述目标语音特征与注册语音特征之间的对数似然比；

确定子单元，用于若所述对数似然比达到预设相似度阈值，则确定所述目标语音信号的说话人身份信息和语音内容与所述注册语音信号的说话人身份信息和语音内容一致；以及

若所述对数似然比未达到预设相似度阈值，则确定所述目标语音信号的说话人身份信息和语音内容与所述注册语音信号的说话人身份信息和语音内容不一致。

可选的，所述匹配单元，还包括第二训练子单元，用于：

获取文本相关的第二训练集，所述第二训练集中的每一条训练样本具有说话人标签和文本标签，所述第二训练集中的每一说话人含有若干条文本内容完全一致的语音，且同一说话人对应多个文本内容；

将所述第二训练集中同一说话人的不同文本内容的语音进行随机拼接，以形成新的训练样本，基于所述新的训练样本扩充所述第二训练集的数据；

根据所述数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分所述数据扩充后的第二训练集中的训练样本的类别；

基于所述数据扩充后的第二训练集中的训练样本的类别，训练所述预设的度量模块。

可选的，所述第二训练子单元，用于根据所述数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分所述数据扩充后的训练集中的训练样本的类别，具体包括：

比较所述数据扩充后的第二训练集中每两条训练样本间的说话人标签和文本标签是否一致；

若所述数据扩充后的第二训练集中每两条训练样本间的说话人标签一致且文本标签一致，则将所述数据扩充后的第二训练集中说话人标签一致且文本标签一致的训练样本确定为同一类别；

若所述数据扩充后的第二训练集中每两条训练样本间的说话人标签不一致和/或文本标签不一致，则将所述数据扩充后的第二训练集中说话人标签不一致和/或文本标签不一致的训练样本确定为不同类别。

可选的，所述装置还包括：

所述获取单元，还用于获取同一用户输入的多条注册语音信号；

所述处理单元，还用于基于所述预设的神经网络模块，对所述多条注册语音信号进行处理，以得到所述多条注册语音信号中每一注册语音信号的深层向量特征，所述每一注册语音信号的深层向量特征为用于表征所述多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量；

聚类单元，用于基于所述多条注册语音信号中每一注册语音信号的深层向量特征，对所述多条注册语音信号进行聚类处理；

生成单元，用于根据所述聚类处理后的多条注册语音信号以及所述每一注册语音信号的深层向量特征，生成用于表征所述多条注册语音信号的说话人身份信息和语音内容的注册语音特征，并将所述注册语音特征存入特征数据库中。

可选的，所述聚类单元，用于：

计算所述多条注册语音信号中每两条注册语音信号的深层向量特征的距离；

将深层向量特征的距离小于设定距离阈值的注册语音信号合并为同一类别的语音信号。

可选的，所述获取单元，包括：

获取子单元，用于获取同一用户输入的多条注册语音；

第一提取子单元，用于提取所述多条注册语音对应的多条有效注册语音；

第二提取子单元，用于提取所述多条有效注册语音的音频特征，以得到同一用户输入的多条注册语音信号。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的声纹识别方法中的步骤。

本申请实施例还提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的声纹识别方法中的步骤。

本申请实施例通过获取待识别的目标语音信号，并基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量，然后基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。本申请实施例可以在不借助语音识别系统的情况下，同时进行说话人身份信息和语音内容的匹配，同时判断注册语音和待识别目标语音的说话人身份信息和语音内容是否完全一致，用户可以使用任意语言、语种注册声纹指令，提高的声纹识别的准确率，复杂度更低，应用范围更广。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为申请实施例提供的声纹识别方法的应用场景意图。

图2为本申请实施例提供的声纹识别方法的流程示意图。

图3为本申请实施例提供的神经网络模型的结构示意图。

图4为本申请实施例提供的声纹识别方法的另一流程示意图。

图5为本申请实施例提供的声纹识别装置的结构示意图。

图6为本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种声纹识别方法、装置、计算机设备和存储介质。具体地，本申请实施例的声纹识别方法可以由计算机设备执行，其中，该计算机设备可以为终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备，终端还可以包括客户端，该客户端可以是游戏应用客户端、携带有游戏程序的浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参阅图1，图1为本申请实施例提供的声纹识别方法的应用场景示意图。该声纹识别方法由计算机设备执行为例，其中，该计算机设备可以为终端或者服务器等设备。该声纹识别方法在由计算机设备执行的过程中，包含了注册语音的注册环节和目标语音的识别环节。其中，用户可以自定义注册语音内容，用户可以使用任意语言、语种注册声纹指令。在注册环节中，将用户录制的注册语音进行提交，并进行音频合格性检验，若音频合格性检验结果为合格，则将合格的注册语音输入特征提取模块中提取注册语音中的音频特征，该音频特征主要为声学特征，若音频合格性检验结果为不合格，则要求重新录制注册语音；将提取到的音频特征输入神经网络模型，以提取出表征注册语音的说话人身份信息和语音内容的深层向量；并通过音频一致性检验，判断用户录入的多条注册语音在说话人身份信息和语音内容两个方面是否都保持一致；若音频一致性检验结果为合格，则将合格的深度向量作为注册语音特征存入特征数据库中，若音频一致性检验结果为不合格，则要求重新录制注册语音。在识别环节中，将用户录制待识别的目标语音进行提交，并进行音频合格性检验，若音频合格性检验结果为合格，则将合格的目标语音输入特征提取模块中提取目标语音中的音频特征，该音频特征主要为声学特征，若音频合格性检验结果为不合格，则要求重新录制目标语音；将提取到的音频特征输入神经网络模型，以提取出目标语音特征，该目标语音特征为用于表征目标语音的说话人身份信息和语音内容的深层向量；并基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配并返回相似度分数，以确定声纹识别结果。注册环节主要是提取表征注册语音的说话人身份信息和语音内容的固定维度向量并保存在特征数据库中，识别环节则是给定注册语音的特征向量，判断待识别的目标语音的说话人身份信息和语音内容与注册语音的内容是否一致。本申请实施例可以在不借助语音识别系统的情况下，同时进行说话人身份信息和语音内容的匹配，同时判断注册语音和待识别目标语音的说话人身份信息和语音内容是否完全一致，用户可以使用任意语言、语种注册声纹指令，提高的声纹识别的准确率，复杂度更低，应用范围更广。

其中，本申请实施例中的神经网络模型和度量模块均需要经过训练得到。

例如，可以采用第一训练集训练预设的神经网络模型，其中，第一训练集包括文本相关的训练数据和文本无关的训练数据，其中文本无关的训练数据中的每一说话人对应多个不同的文本内容。

例如，可以采用获取文本相关的第二训练集训练预设的度量模块，第二训练集中的每一条训练样本具有说话人标签和文本标签，第二训练集中的每一说话人含有若干条文本内容完全一致的语音，且同一说话人对应多个文本内容。例如，不同说话人之间的文本内容可以不相同，即不同说话人之间的文本内容可以不完全一致，不同说话人之间的文本内容可以有部分重叠。在训练过程中需要进行训练标签组合及训练数据扩充，然后基于数据扩充后的第二训练集中的训练样本的类别，训练预设的度量模块。

本申请各实施例提供了一种声纹识别方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本申请实施例以声纹识别方法由终端执行为例来进行说明。

一种声纹识别方法，包括：获取待识别的目标语音信号；基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量；基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。

请参阅图2至图3，图2为本申请实施例提供的声纹识别方法的流程示意图，图3为本申请实施例提供的神经网络模型的结构示意图。该声纹识别方法的具体流程可以如下：

步骤101，获取待识别的目标语音信号。

可选的，获取待识别的目标语音信号，包括：

(1)获取待识别的目标语音；

(2)提取目标语音中的有效目标语音；

(3)提取有效目标语音的音频特征，以得到待识别的目标语音信号。

具体的，可以通过麦克风录制待识别的目标语音。其中，用户可以使用任意语言、语种录制目标语音。

可选的，提取目标语音中的有效目标语音，包括：

获取目标语音中语音帧的能量；将目标语音中语音帧的能量大于或者等于能量阈值的目标语音确定为有效目标语音；以及将目标语音中语音帧的能量小于能量阈值的目标语音确定为无效目标语音。

其中，为了保证声纹匹配的准确率，可以采用音频合格性检验模块来检验目标语音中的有效目标语音，其中输入的有效目标语音必须大于一定的长度。该音频合格性检验模块主要是剔除目标语音中的无效目标语音，当处理后的有效目标语音长度满足系统设置条件时，通过该音频合格性检验模块检测，否则要求重新录制。

例如，音频合格性检验模块可以使用基于能量阈值的语音活动检测(VoiceActivity Detection，VAD)算法来实现。获取目标语音中语音帧的能量；将目标语音中语音帧的能量大于或者等于能量阈值的目标语音确定为有效目标语音；以及将目标语音中语音帧的能量小于能量阈值的目标语音确定为无效目标语音。

例如，为了更加有效的估计能量阈值，还可以使用一种能量滑动窗口策略，即预先设定一个窗口大小，以帧为单位滑动，估计每个窗口的平均帧能量，取最大能量的窗口的平均帧能量作为基准值，最终的能量阈值为基准值乘以基准系数再加上基准偏置。能量阈值的计算公式如下所示：

其中，E表示估计的基准值，e_t表示音频每一帧的能量，W表示窗口大小，T表示音频帧数，θ表示最终的能量阈值，α表示基数系数，β表示基准偏置。

在应用中，音频特征每一帧的帧移为10ms，窗口大小取值300(即对应到3s语音)，α取值0.5，β取值5.5。当窗口大小W大于帧数T时，令W等于T，即取整段语音估计能量阈值。

例如，为了避免单帧能量阈值判断导致的分类抖动，还可以使用平滑策略对上述分类结果进行平滑处理，即平滑窗口内有效语音帧超过设定比例时，相应的帧为有效语音帧，否则为无效语音帧。例如，平滑窗口取值大小为5。平滑窗口的大小等价于滑动窗口大小。

其中，可以基于预设的特征提取模块来提取有效目标语音的音频特征，以得到待识别的目标语音信号。其中，该特征提取模块主要是提取语音中的声学特征，用于作为神经网络模型的输入。

特征提取的任务是提取并选择对说话人的声纹具有可分性强、稳定性高等特性的声学或语言特征。在进行声纹识别时，可以通过提取语音中的声纹识别的特征来判别说话人身份。其中，表征一个人特点的特征包括多个层面的特征，比如，与人类的发音机制的解剖学结构有关的声学特征(如频谱、倒频谱、共振峰、基音、反射系数等)、鼻音、带深呼吸音、沙哑音、笑声等；比如，受社会经济状况、受教育水平、出生地等影响的语义、修辞、发音、言语习惯等；比如，个人特点或受父母影响的韵律、节奏、速度、语调、音量等特征。声纹识别中通常使用的特征包括：声学特征(比如倒频谱)、词法特征、韵律特征、语种信息、方言和口音信息等。

例如，本申请实施例中的特征提取模块选择提取的是常见的语音音频特征，可以是梅尔倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)、梅尔声谱(Fbank)或者幅度谱(Spectrogram)。例如，以梅尔倒谱系数特征为例，其特征提取过程如下：

(1)进行预加重处理。预加重的目的是提高频谱的高频部分，使频谱更加平坦，其实质上是语音信号通过一个高通滤波器，传递函数如下所示：

H(Z)＝1-μz^-1；其中，μ为预加重系数，其值取0.97。

(2)进行分帧处理。由于语音信号在短时段上才可视为平稳过程，因此应用平稳过程的方法进行分析，需要将语音信号划分为一个个时间段。在应用中，取25ms语音为一帧，语音帧之间间隔10ms。

(3)进行加窗处理。加窗的目的是增加每一帧信号左端和右端之间的连续性，减少语音帧的截断效应。在应用中使用汉明窗，其计算公式如下：

x(n)＝S(n)×W(n)；

其中，s(n)表示分帧后的信号；w(n)表示为窗函数；N表示一帧的采样点个数；α是汉明窗系数，取值0.46。

(4)进行离散傅里叶变换。由于信号在时域上的变换难以看出信号的特性，通常将其转换到频域再进行观察和分析。不同的能量分布，代表不同的语音特性。因此，在进行加窗处理之后，每一帧还需要经过快速傅里叶变换，计算频谱的能量分布。在应用中，其计算公式如下：

其中，x(n)表示加窗信号。

(5)经过梅尔滤波器组处理。梅尔(Mel)滤波器组主要是根据人耳对不同频率的音频分辨能力不均匀的特性，划分不同的频带进行滤波处理。在滤波器组频带划分上，需要进行相应的频率转换，计算公式如下：

其中，F_Hz表示所述冲击信号的实际频率。

Mel滤波器组的特点是在Mel频率坐标系上，相邻的滤波组间隔等距，即满足如下计算公式：

Mel(f(m))-Mel(f(m-1))＝Mel(f(m+1))-Mel(f(m))。

设Mel滤波器的传递函数为H_m(k)，表示第m个Mel滤波器在频率k处的加权因子，计算公式为：

使用Mel滤波器组对x(n)的能量谱进行加权求和，并取对数操作，即可得到梅尔声谱Fbank特征，其表达式为：

其中，M表示梅尔滤波组的个数。在应用中，参数M设置为40。

对梅尔声谱Fbank特征应用离散余弦变换，可得到MFCC系数：

其中，参数L为MFCC特征的维度。在应用中，参数L设置为40。

步骤102，基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量。

可选的，神经网络模型包含帧级别网络结构和段级别网络结构，基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，包括：

将有效目标语音的音频特征输入帧级别网络结构，提取有效目标语音的音频特征中的局部特征信息和长时依赖信息，并将有效目标语音的音频特征中的局部特征信息和长时依赖信息投影到预设维度空间，以输出中间参数矩阵；

将帧级别网络结构输出的中间参数矩阵输入段级别网络结构，基于中间参数矩阵的平均值和标准差统计量，获取目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量。

其中，神经网络模型的输入为特征矩阵，输出为固定维度的深度向量。模型训练时，输出对应到训练集说话人分类的集合，是一个说话人分类网络。模型测试时，使用神经网络模型中间输出层的高阶统计量，表征语音的语音内容和说话人身份信息。

如图3所示，在神经网络模型结构上，神经网络模型的基本结构由频谱增强模块、卷积神经网络、长短时记忆神经网络、全连接神经网络和统计量平均层等模块构成。如图3所示，神经网络模型中的网络层分为帧级别结构和段级别结构两种类型。帧级别结构的输出均为矩阵，而段级别结构的输出为向量。在帧级别结构中，频谱增强模块在模型训练过程，在频率维度和时间维度随机掩去连续的若干维度，用于进行数据扩充；模型测试时，频谱增强模块输入与输出保持一致。卷积神经网络用于提取局部特征；例如，该局部特征为目标语音的频谱图的局部特点，比如为频谱图的共振峰特点。长短时记忆网络用于提交长时依赖信息。假设时间维度上的上下文窗口大小为5，那么计算第t帧的输出，卷积神经网络只依赖于第t-2到第t+2帧的输入，输入范围较小，因此只能提取局部信息，而循环神经网络第t帧的输入，依赖于第1到第t帧的输入，输入范围更大，因此可以提取长时依赖信息。全连接神经网络用于将特征投影到一个高维空间；其中，维度越高，效果更好，但计算量也会更大，一般取一个平衡的参数，例如全连接网络结构的维度可以设置为512维、1024维或者2048维。在段级别结构中，统计量平均层提取上一层网络输出的平均值和标准差统计量，将输入矩阵变为输出向量，接着全连接网络结构逐层投影，在网络最后一层的输出为说话人标签。

可选的，在基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征之前，还包括：

采用第一训练集训练预设的神经网络模型，其中，第一训练集包括文本相关的训练数据和文本无关的训练数据，其中文本无关的训练数据中的每一说话人对应多个不同的文本内容。

在模型训练上，本申请实施例使用大规模含有大量说话人的语音数据进行训练。尽管声纹识别模型用于文本相关的匹配任务，但在训练数据要求等方面，本申请实施例提出的神经网络模型可以使用文本无关的数据进行训练，即训练集中对应于每个说话人的训练数据，设置是同一说话人的不同语音，可以有不同的文本内容，即语音的文本内容可以相同也可以不同，可以在一定程度上降低数据的采集成本。

可选的，在将有效目标语音的音频特征输入帧级别网络结构之前，还包括：

对有效目标语音的音频特征中的每一帧音频特征进行二分类，划分为语音帧和静音帧；

移除有效目标语音的音频特征中的静音帧，且合并拼接有效目标语音的音频特征中的语音帧；

当合并拼接后的语音帧少于预设帧数时，对合并拼接后的语音帧进行多倍重复拼接处理。

其中，该神经网络模型主要涉及到深层向量(deep embedding)的提取策略。首先，在神经网络模型的输入上，针对短语音采用拼接策略。在实际应用中，用户录入的有效语音时长可能较短。为了保证深层向量的提取效果，对经过语音激活检测(Voice ActivityDetection，VAD)算法处理之后小于设定长度的语音，进行多倍重复拼接处理，比如进行3倍重复拼接处理。其中VAD算法用于判断音频中的语音帧和静音帧。经过拼接处理之后的语音，可以有效的利用语音中的边界信息。如图3所示，接着在网络提取层的选取上，选用标准差统计量用于提取深层向量。在神经网络结构中，越接近输入层，语音内容信息越多，越接近输出层，提取的向量更加能表征训练集中的说话人身份信息；反之，越远离输入层，语音内容越少，说话人身份信息也越少。统计量平均层需兼顾于语音内容信息和说话人身份信息这两者之间。同时，由于标准差统计量相对于平均值统计含有更高阶的信息，因此含有更多的语音内容，更适合文本相关声纹识别系统的建模。例如，在处理目标语音信号时，具体提取步骤为：

(1)提取有效目标语音的MFCC特征或者Fbank特征。

(2)应用VAD算法，对有效目标语音的每一帧音频特征进行二分类，分为语音帧和静音帧。移除静音帧，合并拼接语音帧。当剩余的语音帧少于预设帧数时，对语音帧进行3倍重复拼接处理。比如该预设帧数可以设为500帧。

(3)将经过上述处理的MFCC特征或者Fbank特征作为神经网络模型的输入，取段级别结构最后一层全连接结构输出的标准差统计量，即为表征有效目标语音的说话人身份信息和语音内容的深层向量。

步骤103，基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。

可选的，基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，包括：

分别对目标语音特征与注册语音特征进行中心化处理，以使目标语音特征与注册语音特征的数据分别靠近坐标原点；

对中心化处理后的目标语音特征与注册语音特征进行线性判别分析变换，以消除信道干扰；

对线性判别分析变换后的目标语音特征与注册语音特征进行正则化处理，以使目标语音特征与注册语音特征的数据分布接近高斯分布；

使用概率线性鉴别分析计算经过正则化处理后的目标语音特征与注册语音特征之间的对数似然比；

若对数似然比达到预设相似度阈值，则确定目标语音信号的说话人身份信息和语音内容与注册语音信号的说话人身份信息和语音内容一致；

若对数似然比未达到预设相似度阈值，则确定目标语音信号的说话人身份信息和语音内容与注册语音信号的说话人身份信息和语音内容不一致。

其中，该度量模块可以使用概率线性鉴别分析(Probabilistic LinearDiscriminant Analysis，PLDA)来度量注册语音的深度向量和待识别的目标语音的深层向量的距离，其中注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量。目标语音特征与注册语音特征的深层向量首先经过中心化处理，使得深层向量的数据分布尽可能靠近原点。接着应用线性判别分析(Linear Discriminant Analysis，LDA)变换，用于消除信道干扰，使输入数据经过投影矩阵之后，相同类别的数据的投影点尽可能靠近，而不同类别的数据的类别中心距离尽可能的大。然后应用正则化处理，使得处理后的数据分布更加接近高斯分布。最后，处理后的向量匹配对作为PLDA模型的输入。其中，对于PLDA模型，其建模公式如下：

y～N(μ，φ_b)

x～N(y，φ_w)；

其中，y表示类别的中心向量，对于所有类别的数据，PLDA模型假设所有类别的中心向量服从均值为μ，方差为

的高斯分布。x表示y类别的向量，PLDA模型假设y类别的所有向量服从均值为y，方差为

的高斯分布。

和

也被称为类间协方差矩阵和类内协方差矩阵。

可选的，在基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果之前，还包括：

获取文本相关的第二训练集，第二训练集中的每一条训练样本具有说话人标签和文本标签，第二训练集中的每一说话人含有若干条文本内容完全一致的语音，且同一说话人对应多个文本内容；

将第二训练集中同一说话人的不同文本内容的语音进行随机拼接，以形成新的训练样本，基于新的训练样本扩充第二训练集的数据；

根据数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分数据扩充后的第二训练集中的训练样本的类别；

基于数据扩充后的第二训练集中的训练样本的类别，训练预设的度量模块。

可选的，根据数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分数据扩充后的训练集中的训练样本的类别，包括：

例如，为了使得度量模块(即LDA和PLDA模型)能够同时对语音内容和说话人身份信息进行区分，本申请实施例通过组合训练标签和进行训练数据扩充，使用后端模型的协方差矩阵更好的拟合数据分布。度量模块训练方法如下：

(1)进行训练标签组合处理。度量模块使用文本相关的数据进行训练，对说话人标签和文本标签进行组合，训练数据当且仅当说话人标签和文本标签均一致时为同一类别，若说话人标签不一致和/或文本标签不一致时为不同类别。在训练数据要求上，要求第二训练集中的每个说话人含有若干条文本内容完全一致的语音，但允许同一说话人有多个文本内容，不同说话人之间的文本内容可以不相同。例如，不同说话人之间的文本内容可以不完全一致，不同说话人之间的文本内容可以有部分重叠。现有模型训练通常只考虑说话人标签，即语音对应的说话人一致即视为相同类别。而本申请实施例通过组合说话人标签和文本标签，细化类别的颗粒度，每一类别的建模单元x差异更小，在一定程度上改变了模型参数协方差

和

使得度量模块更好的对文本相关数据进行建模。

(2)进行训练数据扩充处理。通常大量文本相关的数据收集成本较高，该度量模块通过对同一说话人的不同类别(即不同说话内容)的语音进行随机拼接，从而形成新的类别，达到数据扩充的目的。

其中，PLDA模型训练后，测试语音分数的计算方法如下：

(1)假设注册语音数量为n，使用预设的神经网络模型提取注册语音信号的深层向量

然后计算

的平均值(即注册语音特征)，即

(2)使用预设的神经网络模型提取待识别的目标语音信号的深层向量u^p(即目标语音特征)。

(3)对分别对向量

u^p进行中心化、LDA变化、正则化处理，得到向量

和u^p′。

(4)使用PLDA模型计算向量

和u^p′的对数似然分数，作为相应的得分，计算公式如下：

即分别计算

和u^p′属于相同类别的概率

和u^p′属于不同类别的概率

取两者对数概率差值。

具体为，使用概率线性鉴别分析PLDA计算经过正则化处理后的目标语音特征与注册语音特征之间的对数似然比，若对数似然比达到预设相似度阈值，则确定目标语音信号的说话人身份信息和语音内容与注册语音信号的说话人身份信息和语音内容一致，若对数似然比未达到预设相似度阈值，则确定目标语音信号的说话人身份信息和语音内容与注册语音信号的说话人身份信息和语音内容不一致。

可选的，在获取待识别的目标语音信号之前，还包括注册步骤，注册步骤包括：

获取同一用户输入的多条注册语音信号；

基于预设的神经网络模块，对多条注册语音信号进行处理，以得到多条注册语音信号中每一注册语音信号的深层向量特征，每一注册语音信号的深层向量特征为用于表征多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量；

基于多条注册语音信号中每一注册语音信号的深层向量特征，对多条注册语音信号进行聚类处理；

根据聚类处理后的多条注册语音信号以及每一注册语音信号的深层向量特征，生成用于表征多条注册语音信号的说话人身份信息和语音内容的注册语音特征，并将注册语音特征存入特征数据库中。

可选的，基于多条注册语音信号中每一注册语音信号的深层向量特征，对多条注册语音信号进行聚类处理，包括：

计算多条注册语音信号中每两条注册语音信号的深层向量特征的距离；

可选的，获取同一用户输入的多条注册语音信号，包括：

获取同一用户输入的多条注册语音；

提取多条注册语音对应的多条有效注册语音；

提取多条有效注册语音的音频特征，以得到同一用户输入的多条注册语音信号。

上述所有的技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

请参阅图4，图4为本申请实施例提供的声纹识别方法的另一流程示意图。该声纹识别方法的具体流程可以如下：

步骤201，获取同一用户输入的多条注册语音信号。

可选的，获取同一用户输入的多条注册语音信号，包括：

获取同一用户输入的多条注册语音；

提取多条注册语音对应的多条有效注册语音；

具体的，可以通过麦克风录制注册语音。其中，用户可以使用任意语言、语种录制注册语音。

可选的，提取多条注册语音对应的多条有效注册语音，包括：

逐个获取多条注册语音中每一条注册语音的语音帧的能量；将每一条注册语音中语音帧的能量大于或者等于能量阈值的注册语音确定为有效注册语音；以及将注册语音中语音帧的能量小于能量阈值的注册语音确定为无效注册语音。遍历用户输入的多条注册语音之后，提取出多条注册语音对应的多条有效注册语音。

其中，为了保证声纹匹配的准确率，可以采用音频合格性检验模块来检验注册语音中的有效注册语音，其中输入的有效注册语音必须大于一定的长度。该音频合格性检验模块主要是剔除注册语音中的无效注册语音，当处理后的有效注册语音长度满足系统设置条件时，通过该音频合格性检验模块检测，否则要求重新录制。

例如，音频合格性检验模块可以使用基于能量阈值的VAD算法来实现。获取注册语音中语音帧的能量；将注册语音中语音帧的能量大于或者等于能量阈值的注册语音确定为有效注册语音；以及将注册语音中语音帧的能量小于能量阈值的注册语音确定为无效注册语音。

例如，为了有效的估计能量阈值，还以使用一种能量滑动窗口策略，即预先设定一个窗口大小，以帧为单位滑动，估计每个窗口的平均帧能量，取最大能量的窗口的平均帧能量作为基准值，最终的能量阈值为基准值乘以基准系数再加上基准偏置。能量阈值的计算公式可参步骤101的实施例，在此不再赘述。

其中，可以基于预设的特征提取模块来提取有效注册语音的音频特征，以得到注册语音信号。其中，该特征提取模块主要是提取语音中的声学特征，用于作为神经网络模型的输入。其中，特征提取过程可参照步骤101的实施例，在此不再赘述。

步骤202，基于预设的神经网络模块，对多条注册语音信号进行处理，以得到多条注册语音信号中每一注册语音信号的深层向量特征，每一注册语音信号的深层向量特征为用于表征多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量。

可选的，神经网络模型包含帧级别网络结构和段级别网络结构，基于预设的神经网络模型，对多条注册语音信号进行处理，以得到多条注册语音信号中每一注册语音信号的深层向量特征，包括：

将多条有效注册语音的音频特征输入帧级别网络结构，提取有效注册语音的音频特征中的局部特征信息和长时依赖信息，并将有效注册语音的音频特征中的局部特征信息和长时依赖信息投影到预设维度空间，以输出中间参数矩阵；

将帧级别网络结构输出的中间参数矩阵输入段级别网络结构，基于中间参数矩阵的平均值和标准差统计量，得到多条注册语音信号中每一注册语音信号的深层向量特征，每一注册语音信号的深层向量特征为用于表征多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量。

其中，神经网络模型的训练过程以及实现过程可参照步骤102的实施例，在此不再赘述。

步骤203，基于多条注册语音信号中每一注册语音信号的深层向量特征，对多条注册语音信号进行聚类处理。

步骤204，根据聚类处理后的多条注册语音信号以及每一注册语音信号的深层向量特征，生成用于表征多条注册语音信号的说话人身份信息和语音内容的注册语音特征，并将注册语音特征存入特征数据库中。

其中，为了保证声纹匹配的准确率，注册环节通常需要用户录入多条注册语音。可以通过音频一致性检验模块来判断用户录入的多条注册语音，在语音内容和说话人身份信息两个方面是否都保持一致。

该音频一致性检验模块使用层次聚类的方法进行处理，即预先假设用户录入的每一条注册语音为不同类别，其中语音内容或说话人身份信息不同即为不同类别，计算每两条注册语音两两之间的深层向量的距离。根据设定的距离阈值，对小于设定距离阈值且距离最近的类别进行合并。合并后的注册语音为同一类，取该类别所有注册语音的平均深层向量进行表示。重复上述步骤，直到只剩下唯一类别或者所有类别之间的距离均大于设定距离阈值。如最终类别只有一类，则取该类别所有注册语音的平均深层向量作为该说话人的注册语音特征。若最终类别多于一类，且注册语音数量最多的一类的语音数量满足设定要求，则取语音数量最多的一类进行注册，否则提示用户注册语音不满足规则并重新录制注册语音。

步骤205，获取待识别的目标语音信号。步骤205的具体实施可参见步骤101的实施例，在此不再赘述。

步骤206，基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量。步骤206的具体实施可参见步骤102的实施例，在此不再赘述。

步骤207，基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。步骤207的具体实施可参见步骤103的实施例，在此不再赘述。

为便于更好的实施本申请实施例的声纹识别方法，本申请实施例还提供一种声纹识别装置。请参阅图5，图5为本申请实施例提供的声纹识别装置的结构示意图。其中，该声纹识别装置300可以包括：

获取单元301，用于获取待识别的目标语音信号；

处理单元302，用于基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量；

匹配单元305，用于基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。

可选的，获取单元301，包括：

获取子单元3011，用于获取待识别的目标语音；

第一提取子单元3012，用于提取目标语音中的有效目标语音；

第二提取子单3013元，用于提取有效目标语音的音频特征，以得到待识别的目标语音信号。

可选的，神经网络模型包含帧级别网络结构和段级别网络结构，处理单元302，包括：

第一处理子单元3023，用于将有效目标语音的音频特征输入帧级别网络结构，提取有效目标语音的音频特征中的局部特征信息和长时依赖信息，并将有效目标语音的音频特征中的局部特征信息和长时依赖信息投影到预设维度空间，以输出中间参数矩阵；

第二处理子单元3024，用于将帧级别网络结构输出的中间参数矩阵输入段级别网络结构，基于中间参数矩阵的平均值和标准差统计量，获取目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量。

可选的，处理单元302还包括预处理子单元3022，用于：

可选的，处理单元302，还包括：

第一训练子单元3021，用于采用第一训练集训练预设的神经网络模型，其中，第一训练集包括文本相关的训练数据和文本无关的训练数据，其中文本无关的训练数据中的每一说话人对应多个不同的文本内容。

可选的，第一提取子单元3012，用于：

获取目标语音中语音帧的能量；

将目标语音中语音帧的能量大于或者等于能量阈值的目标语音确定为有效目标语音；以及

将目标语音中语音帧的能量小于能量阈值的目标语音确定为无效目标语音。

可选的，匹配单元305，包括：

中心化处理子单元3052，用于分别对目标语音特征与注册语音特征进行中心化处理，以使目标语音特征与注册语音特征的数据分别靠近坐标原点；

变换处理子单元3053，用于对中心化处理后的目标语音特征与注册语音特征进行线性判别分析变换，以消除信道干扰；

正则化处理子单元3054，用于对线性判别分析变换后的目标语音特征与注册语音特征进行正则化处理，以使目标语音特征与注册语音特征的数据分布接近高斯分布；

计算子单元3055，用于使用概率线性鉴别分析PLDA计算经过正则化处理后的目标语音特征与注册语音特征之间的对数似然比；

确定子单元3056，用于若对数似然比达到预设相似度阈值，则确定目标语音信号的说话人身份信息和语音内容与注册语音信号的说话人身份信息和语音内容一致；以及

可选的，匹配单元305，还包括第二训练子单元3051，用于：

可选的，第二训练子单元3051，用于根据数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分数据扩充后的训练集中的训练样本的类别，具体包括：

比较数据扩充后的第二训练集中每两条训练样本间的说话人标签和文本标签是否一致；

若数据扩充后的第二训练集中每两条训练样本间的说话人标签一致且文本标签一致，则将数据扩充后的第二训练集中说话人标签一致且文本标签一致的训练样本确定为同一类别；

若数据扩充后的第二训练集中每两条训练样本间的说话人标签不一致和/或文本标签不一致，则将数据扩充后的第二训练集中说话人标签不一致和/或文本标签不一致的训练样本确定为不同类别。

请继续参阅5，声纹识别装置300还包括聚类单元303和生成单元304。

其中，获取单元301，还用于获取同一用户输入的多条注册语音信号；

处理单元302，还用于基于预设的神经网络模块，对多条注册语音信号进行处理，以得到多条注册语音信号中每一注册语音信号的深层向量特征，每一注册语音信号的深层向量特征为用于表征多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量；

聚类单元303，用于基于多条注册语音信号中每一注册语音信号的深层向量特征，对多条注册语音信号进行聚类处理；

生成单元304，用于根据聚类处理后的多条注册语音信号以及每一注册语音信号的深层向量特征，生成用于表征多条注册语音信号的说话人身份信息和语音内容的注册语音特征，并将注册语音特征存入特征数据库中。

可选的，聚类单元303，还用于：

可选的，获取单元301，包括：

获取子单元3011，用于获取同一用户输入的多条注册语音；

第一提取子单元3012，用于提取多条注册语音对应的多条有效注册语音；

第二提取子单元3013，用于提取多条有效注册语音的音频特征，以得到同一用户输入的多条注册语音信号。

本申请实施例提供的声纹识别装置300，通过获取单元301获取待识别的目标语音信号，处理单元302基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量，然后匹配单元305基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。本申请实施例可以在不借助语音识别系统的情况下，同时进行说话人身份信息和语音内容的匹配，同时判断注册语音和待识别目标语音的说话人身份信息和语音内容是否完全一致，用户可以使用任意语言、语种注册声纹指令，提高的声纹识别的准确率，复杂度更低，应用范围更广。

相应的，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，该终端可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机(PC，Personal Computer)、个人数字助理(Personal Digital Assistant，PDA)等终端设备。如图6所示，图6为本申请实施例提供的计算机设备的结构示意图。该计算机设备400包括有一个或者一个以上处理核心的处理器401、有一个或一个以上计算机可读存储介质的存储器402及存储在存储器402上并可在处理器上运行的计算机程序。其中，处理器401与存储器402电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器401是计算机设备400的控制中心，利用各种接口和线路连接整个计算机设备400的各个部分，通过运行或加载存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备400的各种功能和处理数据，从而对计算机设备400进行整体监控。

在本申请实施例中，计算机设备400中的处理器401会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能：

获取待识别的目标语音信号，并基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量，然后基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

可选的，如图6所示，计算机设备400还包括：触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407。其中，处理器401分别与触控显示屏403、射频电路404、音频电路405、输入单元406以及电源407电性连接。本领域技术人员可以理解，图6中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

触控显示屏403可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏403可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器401，并能接收处理器401发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器401以确定触摸事件的类型，随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。在本申请实施例中，可以将触控面板与显示面板集成到触控显示屏403而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏403也可以作为输入单元406的一部分实现输入功能。

在本申请实施例中，通过处理器401执行游戏应用程序在触控显示屏403上生成图形用户界面，图形用户界面上的虚拟场景中包含至少一个技能控制区域，技能控制区域中包含至少一个技能控件。该触控显示屏403用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。

射频电路404可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。

音频电路405可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路405可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路405接收后转换为音频数据，再将音频数据输出处理器401处理后，经射频电路404以发送给比如另一计算机设备，或者将音频数据输出至存储器402以便进一步处理。音频电路405还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。

输入单元406可用于接收输入的数字、字符信息或用户特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

电源407用于给计算机设备400的各个部件供电。可选的，电源407可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源407还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管图6中未示出，计算机设备400还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的计算机设备，通过获取待识别的目标语音信号，并基于预设的神经网络模型，对目标语音信号进行处理，以得到目标语音信号的目标语音特征，目标语音特征为用于表征目标语音信号的说话人身份信息和语音内容的深层向量，然后基于预设的度量模块，将目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，注册语音特征为通过注册步骤对注册语音信号进行处理后得到的注册语音特征，注册语音特征为用于表征注册语音信号的说话人身份信息和语音内容的深层向量。本申请实施例可以在不借助语音识别系统的情况下，同时进行说话人身份信息和语音内容的匹配，同时判断注册语音和待识别目标语音的说话人身份信息和语音内容是否完全一致，用户可以使用任意语言、语种注册声纹指令，提高的声纹识别的准确率，复杂度更低，应用范围更广。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种声纹识别方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种声纹识别方法中的步骤，因此，可以实现本申请实施例所提供的任一种声纹识别方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种声纹识别方法、装置、存储介质及计算机设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

获取待识别的目标语音信号；

2.如权利要求1所述的声纹识别方法，其特征在于，所述获取待识别的目标语音信号，包括：

获取待识别的目标语音；

提取所述目标语音中的有效目标语音；

提取所述有效目标语音的音频特征，以得到所述待识别的目标语音信号。

3.如权利要求2所述的声纹识别方法，其特征在于，所述神经网络模型包含帧级别网络结构和段级别网络结构，所述基于预设的神经网络模型，对所述目标语音信号进行处理，以得到所述目标语音信号的目标语音特征，包括：

将所述有效目标语音的音频特征输入所述帧级别网络结构，提取所述有效目标语音的音频特征中的局部特征信息和长时依赖信息，并将所述有效目标语音的音频特征中的局部特征信息和长时依赖信息投影到预设维度空间，以输出中间参数矩阵；

将所述帧级别网络结构输出的中间参数矩阵输入所述段级别网络结构，基于所述中间参数矩阵的平均值和标准差统计量，获取所述目标语音特征，所述目标语音特征为用于表征所述目标语音信号的说话人身份信息和语音内容的深层向量。

4.如权利要求3所述的声纹识别方法，其特征在于，在所述将所述有效目标语音的音频特征输入所述帧级别网络结构之前，还包括：

5.如权利要求3所述的声纹识别方法，其特征在于，在所述基于预设的神经网络模型，对所述目标语音信号进行处理，以得到所述目标语音信号的目标语音特征之前，还包括：

采用第一训练集训练所述预设的神经网络模型，其中，所述第一训练集包括文本相关的训练数据和文本无关的训练数据，其中所述文本无关的训练数据中的每一说话人对应多个不同的文本内容。

6.如权利要求2所述的声纹识别方法，其特征在于，所述提取所述目标语音中的有效目标语音，包括：

获取所述目标语音中语音帧的能量；

7.如权利要求1所述的声纹识别方法，其特征在于，所述基于预设的度量模块，将所述目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果，包括：

分别对所述目标语音特征与注册语音特征进行中心化处理，以使所述目标语音特征与注册语音特征的数据分别靠近坐标原点；

对所述中心化处理后的所述目标语音特征与注册语音特征进行线性判别分析变换，以消除信道干扰；

对所述线性判别分析变换后的所述目标语音特征与注册语音特征进行正则化处理，以使所述目标语音特征与注册语音特征的数据分布接近高斯分布；

使用概率线性鉴别分析计算所述经过正则化处理后的所述目标语音特征与注册语音特征之间的对数似然比；

若所述对数似然比达到预设相似度阈值，则确定所述目标语音信号的说话人身份信息和语音内容与所述注册语音信号的说话人身份信息和语音内容一致；以及

8.如权利要求7所述的声纹识别方法，其特征在于，在所述基于预设的度量模块，将所述目标语音特征与特征数据库中的注册语音特征进行相似度匹配以确定声纹识别结果之前，还包括：

9.如权利要求8所述的声纹识别方法，其特征在于，所述根据所述数据扩充后的第二训练集中的每一条训练样本的说话人标签和文本标签，划分所述数据扩充后的训练集中的训练样本的类别，包括：

10.如权利要求1所述的声纹识别方法，其特征在于，在所述获取待识别的目标语音信号之前，还包括所述注册步骤，所述注册步骤包括：

获取同一用户输入的多条注册语音信号；

基于所述预设的神经网络模块，对所述多条注册语音信号进行处理，以得到所述多条注册语音信号中每一注册语音信号的深层向量特征，所述每一注册语音信号的深层向量特征为用于表征所述多条注册语音信号中每一注册语音信号的说话人身份信息和语音内容的深层向量；

基于所述多条注册语音信号中每一注册语音信号的深层向量特征，对所述多条注册语音信号进行聚类处理；

根据所述聚类处理后的多条注册语音信号以及所述每一注册语音信号的深层向量特征，生成用于表征所述多条注册语音信号的说话人身份信息和语音内容的注册语音特征，并将所述注册语音特征存入特征数据库中。

11.如权利要求10所述的声纹识别方法，其特征在于，所述基于所述多条注册语音信号中每一注册语音信号的深层向量特征，对所述多条注册语音信号进行聚类处理，包括：

12.如权利要求10所述的声纹识别方法，其特征在于，所述获取同一用户输入的多条注册语音信号，包括：

获取同一用户输入的多条注册语音；

提取所述多条注册语音对应的多条有效注册语音；

提取所述多条有效注册语音的音频特征，以得到同一用户输入的多条注册语音信号。

13.一种声纹识别装置，其特征在于，所述装置包括：

获取单元，用于获取待识别的目标语音信号；

14.如权利要求13所述的声纹识别装置，其特征在于，所述装置还包括：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求1-12任一项所述的声纹识别方法中的步骤。

16.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1-12任一项所述的声纹识别方法中的步骤。