CN111524524A

CN111524524A - 声纹识别方法、装置、设备及存储介质

Info

Publication number: CN111524524A
Application number: CN202010350084.7A
Authority: CN
Inventors: 郭跃超; 谯轶轩; 唐义君; 王俊; 高鹏; 谢国彤
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-11
Anticipated expiration: 2040-04-28
Also published as: CN111524524B; JP2022536190A; JP7184236B2; WO2021217979A1; US20220254349A1

Abstract

本发明涉及人工智能领域，公开了声纹识别方法，用于解决在声纹识别过程中识别准确度低下的问题。包括：获取待识别的目标语音信息集合，包括至少一个对象所对应的语音信息；利用预置算法在目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化目标特征信息，得到第一声纹识别结果；获取目标语音信道的目标语音信道信息，目标语音信道信息包括信道噪声信息，目标语音信道用于传输目标语音信息集合；抽取信道噪声信息中的目标特征向量，并根据第二损失函数优化目标特征向量，得到第二声纹识别结果；将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果。本发明还涉及区块链技术，所述目标语音信息集合存储于区块链中。

Description

声纹识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能的声纹识别领域，尤其涉及一种声纹识别方法、装置、设备及存储介质。

背景技术

声纹识别是生物识别技术的一种，也称为说话人识别，分为说话对象识别和说话对象辨认。目前常用的声纹识别系统包括传统的基于特征工程的i-vector浅层网络系统和x-vector深度网络系统，以及近年来主流的的端到端d-vector深度网络系统等。这些系统基本上都是通过捕捉说话对象声音的长时特征，将其编码到低维向量表示来有效解决识别问题。具体来说，将说话随想的语音信息通过网络的逐层嵌入最终获得具有固定维度的向量(如512维)，然后计算不同说话对象的向量表示间的余弦相似度，进而完成说话对象的辨认和确认等操作。

目前端到端的声纹识别系统，诸如google的GE2E系统，虽然可以完美实现端到端的声纹任务的训练和推理，但是这些系统的损失函数并没有对声音对声音的信道信息中的噪声进行处理，导致深度网络在训练过程中无法感知到信道的相关信息，进而深度网络在训练过后识别到声纹信息的准确度低下。

发明内容

本发明的主要目的在于解决在声纹识别过程中识别准确度低下的问题。

本发明第一方面提供了一种声纹识别方法，包括：获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的；利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果；获取目标语音信道的目标语音信道信息，所述目标语音信道信息包括信道噪声信息，所述目标语音信道用于传输所述目标语音信息集合；抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果；将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果。

可选的，在本发明第一方面的第一种实现方式中，所述目标语音信息集合存储于区块链中，所述利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果包括：利用预置算法在所述目标语音信息集合中抽取目标特征信息；根据预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息；基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失，得到第一声纹识别结果。

可选的，在本发明第一方面的第二种实现方式中，所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括：利用预置算法采集所述目标语音信息集合中的语音序列，并获取所述语音序列的幅度谱；通过滤波器对所述语音序列的幅度谱进行滤波，得到语音序列的滤波输出结果；对所述语音序列的滤波输出结果进行离散余弦变换，得到目标特征信息。

可选的，在本发明第一方面的第三种实现方式中，所述根据预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息包括：将目标特征信息转化为低维向量，所述低维向量为采用低维度表示所述目标特征信息的向量；基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息。

可选的，在本发明第一方面的第四种实现方式中，所述抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果包括：抽取所述信道噪声信息中的目标特征向量，并计算所述目标特征向量的均值；根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵，得到第二声纹识别结果。

可选的，在本发明第一方面的第五种实现方式中，所述抽取所述目标语音信道信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果包括：获取所述第一声纹识别结果以及所述第二声纹识别结果；利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果，融合公式为：

在式中，L表示融合后的最终的声纹识别结果，L₁表示第一声纹识别结果，L₂表示第二声纹识别结果，k表示声纹识别对象，N表示每个声纹识别对象的语音信息条数，γ表示调节因子。

可选的，在本发明第一方面的第六种实现方式中，所述获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的包括：获取待处理的语音信息，并利用预置处理公式对所述待处理的语音信息s(n)进行预加重，得到处理后的语音信息s'(n)，所述预置处理公式为s'(n)＝s(n)-as(n-1)，其中a为预加重系数，s(n-1)为待处理的语音信息的上一条语音信息；将所述处理后的语音信息进行分帧处理，并对每帧所述处理后的语音信息进行加窗处理，得到目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息。

本发明第二方面提供了一种声纹识别装置，包括：第一获取模块，用于获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的；第一优化模块，用于利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果；第二获取模块，用于获取目标语音信道的目标语音信道信息，所述目标语音信道信息包括信道噪声信息，所述目标语音信道用于传输所述目标语音信息集合；第二优化模块，用于抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果；融合模块，用于将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果。

可选的，在本发明第二方面的第一种实现方式中，所述第一优化模块包括：抽取单元，用于利用预置算法在所述目标语音信息集合中抽取目标特征信息；计算单元，用于根据预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息；优化单元，用于基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失，得到第一声纹识别结果。

可选的，在本发明第二方面的第二种实现方式中，所述抽取单元具体用于：利用预置算法采集所述目标语音信息集合中的语音序列，并获取所述语音序列的幅度谱；通过滤波器对所述语音序列的幅度谱进行滤波，得到语音序列的滤波输出结果；对所述语音序列的滤波输出结果进行离散余弦变换，得到目标特征信息。

可选的，在本发明第二方面的第三种实现方式中，计算单元具体用于：将目标特征信息转化为低维向量，所述低维向量为采用低维度表示所述目标特征信息的向量；基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息。

可选的，在本发明第二方面的第四种实现方式中，第二优化模块具体用于：抽取所述信道噪声信息中的目标特征向量，并计算所述目标特征向量的均值；根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵，得到第二声纹识别结果。

可选的，在本发明第二方面的第五种实现方式中，融合模块具体用于：获取所述第一声纹识别结果以及所述第二声纹识别结果；利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果，融合公式为：

可选的，在本发明第二方面的第六种实现方式中，第一获取模块具体用于：获取待处理的语音信息，并利用预置处理公式对所述待处理的语音信息s(n)进行预加重，得到处理后的语音信息s'(n)，所述预置处理公式为s'(n)＝s(n)-as(n-1)，其中a为预加重系数，s(n-1)为待处理的语音信息的上一条语音信息；将所述处理后的语音信息进行分帧处理，并对每帧所述处理后的语音信息进行加窗处理，得到目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息。

本发明第三方面提供了一种声纹识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述指令，以使得所述声纹识别设备执行上述的声纹识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的声纹识别方法。

本发明提供的技术方案中，获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的；

利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果；获取目标语音信道的目标语音信道信息，所述目标语音信道信息包括信道噪声信息，所述目标语音信道用于传输所述目标语音信息集合；抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果；将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果。本发明实施例中，服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理，再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起，使得深度网络学习到语音信道噪声消除的方法，提高声纹识别准确度。

附图说明

图1为本发明实施例中声纹识别方法的一个实施例示意图；

图2为本发明实施例中声纹识别方法的另一个实施例示意图；

图3为本发明实施例中声纹识别装置的一个实施例示意图；

图4为本发明实施例中声纹识别装置的另一个实施例示意图；

图5为本发明实施例中声纹识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种声纹识别方法、装置、设备及存储介质，通过分别对目标语音信息集合和目标语音信道信息进行损失优化处理，再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起，使得深度网络学习到语音信道噪声消除的方法，提高声纹识别准确度。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中声纹识别方法的一个实施例包括：

101、获取待识别的目标语音信息集合，目标语音信息集合包括至少一个对象所对应的语音信息，语音信息是经过预处理过后得到的；

可以理解的是，本发明的执行主体可以为声纹识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

服务器获取待识别的目标语音信息集合，这里的目标语音信息集合中包括至少一个对象所对应的语音信息，一个对象的语音信息可以为一条或多条，这里并不对目标对象的数量以及目标对象的语音信息数量进行限定。此外这里的语音信息是经过预处理之后得到的。需要强调的是，为进一步保证上述目标语音信息集合的私密和安全性，上述目标语音信息集合还可以存储于一区块链的节点中。

需要说明的是，服务器在接收到一个对象的语音信号后需要对该语音信号进行预处理，经过预处理后的信号才能够被更好的分析，令服务器最终识别到更精准的信息。这里的预处理指的是预加重、分帧以及加窗。这些操作的目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素，对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑，为信号参数提取提供优质的参数，提高语音处理质量。

102、利用预置算法在目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化目标特征信息，得到第一声纹识别结果；

服务器在获取到预处理过后的目标语音信息集合后，利用预置算法在目标语音信息集合中抽取语音信息的目标特征信息，并根据第一损失函数优化抽取到的目标特征信息，从而得到第一声纹识别结果。

可以理解的是，在语音信号中，包含着非常丰富的特征参数，不同的特征向量表征着不同的物理和声学意义。服务器抽取的特征参数对声纹识别系统的成败意义重大，如果选择了适合的特征参数，将有助于提高识别率。抽取目标特征信息就是要尽量取出或削减语音信号中与识别无关的信息的影响，减少后续识别阶段需处理的数据量，生成表征语音信号中携带的声纹识别对象信息的特征参数。根据语音特征的不同用途，需要提取不同的特征参数，从而保证识别的准确率。待抽取目标特征信息之后，服务器需要对该目标特征信息进行相似度矩阵的计算，得到相应的映射信息，令声纹识别更加的精确，最后服务器利用映射信息与第一损失函数对损失进行优化，得到第一声纹识别结果。

103、获取目标语音信道的目标语音信道信息，目标语音信道信息包括信道噪声信息，目标语音信道用于传输目标语音信息集合；

服务器获取目标语音信道的目标语音信道信息，这里的目标语音信道是传输目标语音信息集合的通道，在传输的过程中信道中会产生一定的目标语音信道信息，也就是噪声信息。

可以理解的是，声纹识别对象的语音信息在信道中传输的过程中会有一定的噪声影响，也就是信道噪声，信道噪声能够干扰通信的效果，降低通信的可靠性，对声纹识别结果造成重大的影响。因此在本申请中，在进行声纹识别过程中对传输语音信息的通道进行处理，以减少噪声的干扰。

104、抽取信道噪声信息中的目标特征向量，并根据第二损失函数优化目标特征向量，得到第二声纹识别结果；

服务器在获取到目标语音信道中的目标语音信道信息后，也就是在目标语音信道的信道噪声信息中抽取目标特征向量，并根据第二损失函数优化目标特征向量，从而得到第二声纹识别结果。

需要说明的是，在进行优化目标语音信道信息时，大多数信号处理理论中将目标语音信道信息中的信道噪声信息归结为高斯白噪声，这是语音信道的先验信息，因此，这里利用的第二损失函数是最小均方误差(minimum mean squared error，MMSE)，MMSE是将预测值和真值的误差的平方的期望(均值)最小化，以使得预测值尽量逼近真值，和真值差距尽可能小，这种算法可以使预测模型在含噪数据中有好的精度(概率最大模型)，达到f(x)＝y。本申请中通过对目标语音信道信息中的信道噪声进行优化，使得深度网络学习到语音噪声消除的方法，获得更加精确的声纹识别信息，即第二声纹识别结果。

105、将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果。

服务器将得到的第一声纹识别结果与第二声纹识别结果融合在一起，确定最终的声纹识别结果。服务器将经过两次优化的声纹信息进行融合，得到更加精确的声纹识别结果。

服务器在优化目标信道语音信息以及声纹识别对象的语音信息后，基本上消除了识别声纹信息时所产生的噪声，服务器可以清晰的识别声纹识别对象的语音信息，将两者融合到一起，便可以得到最终的声纹识别结果。

本发明实施例中，服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理，再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起，使得深度网络学习到语音信道噪声消除的方法，提高声纹识别准确度。

请参阅图2，本发明实施例中声纹识别方法的另一个实施例包括：

201、获取待识别的目标语音信息集合，目标语音信息集合包括至少一个对象所对应的语音信息，语音信息是经过预处理过后得到的；

服务器获取待识别的目标语音信息集合，这里的目标语音信息集合中包括至少一个对象所对应的语音信息，一个对象的语音信息可以为一条或多条，这里并不对目标对象的数量以及目标对象的语音信息数量进行限定。此外这里的语音信息是经过预处理之后得到的。具体的：

首先，服务器获取待处理的语音信息，并利用预置处理公式对待处理的语音信息s(n)进行预加重，得到处理后的语音信息s'(n)，预置处理公式为s'(n)＝s(n)-as(n-1)，其中a为预加重系数，s(n-1)为待处理的语音信息的上一条语音信息；然后服务器对处理后的语音信息进行分帧处理，最后服务器对每帧处理后的语音信息进行加窗处理，最终得到目标语音信息集合，这里的目标语音信息集合中包括至少一个对象所对应的语音信息，一个对象的语音信息可以为一条或多条。

进一步说明的是，这里的预加重指的是，当语音信号s(n)的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct(倍频程)衰减，频率越高相应的成分越小，为此要在对语音信号s(n)进行分析之前对其高频部分加以提升。通常的措施是用数字滤波器实现预加重，预加重网络的输出和输入的语音信号可以利用预置处理公式进行表示：s'(n)＝s(n)-as(n-1)，其中a为预加重系数，一般取0.9，s(n-1)为待处理的语音信息的上一条语音信息，s'(n)为处理后的语音信息。当语音信号经过加重处理后，由于语音信号具有时变特性，但是在一个短时间范围内，其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程，即语音信号具有短时平稳性。所以任何语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”，将语音信号分段来分析其特征参数，其中每一段称为一“帧”，帧长一般取为10-30ms。这样，对于整体的语音信号来讲，分析出的是由每一帧特征参数组成的特征参数时间序列。服务器在进行分帧处理过后，还需要对语音信号进行加窗处理，加窗的目的是对抽样n附近的语音波形加以强调而对波形的其余部分加以减弱。对语音信号的各个短段进行处理，实际上就是对各个短段进行某种变换或施以某种运算。用得最多的三种窗函数是矩形窗、汉明窗和汉宁窗，在本申请中，并不对所采用的窗函数进行限定，可以根据实际情况对窗函数进行选择。

202、利用预置算法在目标语音信息集合中抽取目标特征信息；

服务器在获取到目标语音信息集合后，在目标语音信息集合中抽取目标特征信息。具体的：

首先，服务器采用预置算法采集目标语音信息集合中的语音序列，同时获取到语音序列的幅度谱；然后，服务器通过滤波器对语音序列的幅度谱进行滤波，得到语音序列的滤波输出结果；最后，服务器对语音序列的滤波输出结果进行离散余弦变换，最终得到目标特征信息。

这里服务器利用到的是频率倒谱系数(mel frequency cepstrum coefficient，MFCC)提取特征信息，依据Mel频率倒谱系数模拟人耳对不同频率语音的感知，将语音信号中的目标特征信息提取出来。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系，人耳分辨声音频率的过程就像一种取对数的操作，例如：在Mel频域内，人对音调的感知能力为线性关系，如果两段语音的Mel频率差两倍，则人在感知上也差两倍。MFCC则是利用这种关系，计算得到的Hz频谱特征。MFCC参数是基于人的听觉特性利用人听觉的临界带效应，在Mel标度频率域提取出来的倒谱特征参数。

举例来说，服务器首先利用预置算法采集目标语音信息集合中的语音序列x[n](n＝1,2,…,N-1)，并对语音序列作快速傅里叶变换：

其中N为帧长，j为虚数，X[k]为N点的复数系列，之后服务器再对X[k]取模得到语音序列的幅度谱；然后服务器配置一个三角形滤波器组，并计算每一个三角形滤波器对信号幅度谱滤波后的输出，得到语音序列的滤波输出结果：

在式中，

w_l(k)为对应

的滤波器的滤波系数，o(l)、c(l)、h(l)为实际频率坐标轴上对应滤波器的下限频率、中心频率和上限频率，f_o(l)、f_c(l)、f_h(l)分别为下限频率滤波值、中心频率滤波值和上限频率滤波值，f_s为采样率，L为滤波器总数，l为滤波器的编号，N为帧长；最后，服务器对所有滤波器输出作对数运算，再进一步做离散余弦变换，得到目标特征信息：

其中，Q为目标特征信息的阶数，一般取13，L为滤波器总数，l为滤波器的编号，N为帧长，F(L)为语音序列的滤波输出结果，这样就得到了目标特征信息。

203、根据预置公式计算目标特征信息的相似度矩阵，得到目标特征信息的映射信息；

服务器待获取到目标语音信息集合中抽取目标特征信息之后，根据预置公式计算目标特征信息的相似度矩阵，从而得到目标特征信息的映射信息。

具体的：

服务器将获取到的目标特征信息转化为低维向量，低维向量为采用低维度表示目标特征信息的向量，服务器根据转化的低维向量与预置公式计算目标特征信息的相似度矩阵，这里的相似度矩阵有多个，且计算相似度矩阵的对象可以相同也可不同，最终得到目标特征信息的映射信息。

服务器待提取完目标特征信息之后，会通过LSTM或者其他神经网络将目标特征信息转化为低维向量，利用低维向量表示对应的目标特征信息，这样将目标特征信息转化为低维向量的方式，有利于相似度矩阵的计算。这里服务器计算的目标特征信息的相似度矩阵为对同一个声纹识别对象不同语音信息之间的相似度矩阵，以及不同声纹识别对象之间的相似度矩阵，服务器进行多个相似度矩阵的计算后就可以通过每个声纹识别对象的相似度矩阵进行损失的优化。

204、基于映射信息与第一损失函数优化目标语音信息集合的损失，得到第一声纹识别结果；

服务器根据目标特征信息的映射信息以及第一损失函数对目标语音信息集合进行损失优化，从而得到第一声纹识别结果。

举例来说，服务器获取到三个不同声纹识别对象，每个声纹识别对象均有三条不同的语音信息，分别对语音信息进行预处理，得到目标语音信息集合，然后服务器利用预置公式计算目标特征信息的相似度矩阵，得到目标特征信息的映射信息，其中预置公式如下：

在式中，S_ji,k表示声纹识别对象k的第j个声纹识别对象的第i条语音信息的目标特征信息相似度矩阵，k表示声纹识别对象，e_ji表示第j个声纹识别对象的第i条语音信息，也就是目标特征信息转化的低维向量，ω以及b是通过大量训练得到的变量，M表示声纹识别对象的数量，c_j表示第j个声纹识别对象除去第i条语音信息之后，其余语音信息的质心(平均值)，其计算公式为：

在式中，M表示声纹识别对象的数量，e_jm表示第j个声纹识别对象的第m条语音信息，最后服务器将第一损失函数与映射信息优化损失进行计算，这里的第一损失函数为：

在式中，S_ji,j是声纹识别对象的第i条语音信息与该声纹识别对象其他语音信息之间的相似度矩阵，S_ji,k表示声纹识别对象的语音信息与其他声纹识别对象的语音信息之间的相似度矩阵，N表示每个声纹识别对象的语音信息条数，这样服务器就计算得到了第一声纹识别结果。

205、获取目标语音信道的目标语音信道信息，目标语音信道信息包括信道噪声信息，目标语音信道用于传输目标语音信息集合；

206、抽取信道噪声信息中的目标特征向量，并根据第二损失函数优化目标特征向量，得到第二声纹识别结果；

服务器在获取到目标语音信道中的目标语音信道信息后，也就是在目标语音信道信息的信道噪声信息中抽取目标特征向量，并根据第二损失函数优化目标特征向量，从而得到第二声纹识别结果。具体的：

服务器抽取目标语音信道信息中的目标特征向量，并计算多个目标特征向量的均值；然后服务器根据目标特征向量的均值与第二损失函数计算目标语音信道信息的最小均方误差矩阵，进而得到第二声纹识别结果。

需要说明的是，优化目标信道语音信息的步骤是在优化目标语音信息集合之后，因在开始进行优化目标语音信息集合的步骤时，网络训练的均值随机性较强，优化目标信道语音信息的均值项无法被捕捉到，因此需要训练多个优化目标语音信息集合的步骤之后再进行优化目标信道语音信息的步骤，这时的训练网络才会稳定下来，可以更好的进行信道噪声的捕捉，具体进行多少步优化目标语音信息集合的步骤，需要根据具体情况进行分析。例如：当进行声纹识别过程中，所有的训练数据需要10W个训练步骤完成时，可以在进行6W个训练步骤后再开始进行目标信道语音信息的优化。

举例说明，服务器在抽取目标语音信道信息中的目标特征向量之后，利用目标特征向量计算目标特征向量的均值，计算目标特征向量的均值公式为：

在式中，LC_j,t为t步骤时的目标特征向量的均值，e_ji表示第j个声纹识别对象的第i条语音信息，也就是目标特征向量，β表示加权系数，M表示每个声纹识别对象的语音信息的条数，LC_j,t-1为t-1步骤时的目标特征向量的均值；服务器在计算目标特征向量的均值后，再计算目标语音信道信息的最小均方误差矩阵，计算最小均方误差矩阵的公式如下：

在式中，MMSE_j表示最小均方差矩阵，LC_j,t为t步骤时的目标特征向量的均值，M表示每个声纹识别对象的语音信息的条数，e_ji表示第j个声纹识别对象的第i条语音信息，μ表示缩放系数，θ表示偏置系数，两者均是通过训练得到的，一般的μ的初始值为1，θ的初始值为0，得到第二声纹识别结果。

207、将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果。

服务器将得到的第一声纹识别结果与第二声纹识别结果融合在一起，确定最终的声纹识别结果。服务器将经过两次优化的声纹信息进行融合，得到更加精确的声纹识别结果。具体的：

服务器分别获取第一声纹识别结果以及第二声纹识别结果；然后服务器利用融合公式将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果，融合公式为：

在式中，L表示声纹识别融合后的结果，L₁表示第一声纹识别结果，L₂表示第二声纹识别结果，k表示声纹识别对象，N表示每个声纹识别对象的语音信息条数。

举例说明，待服务器得到第一声纹识别结果与第二声纹识别结果之后，通过融合公式将两者融合在一起，融合公式为：

在式中，L表示融合后的最终的声纹识别结果，L₁表示第一声纹识别结果，L₂表示第二声纹识别结果，k表示声纹识别对象，N表示每个声纹识别对象的语音信息条数，γ表示调节因子。根据步骤204与步骤206分别得知，第一声纹识别结果L₁与第二声纹识别结果L₂的表达式，将两者带入融合公式中可得到：

在式中，L(e_ji)表示第j个声纹识别对象的第i条语音信息的声纹识别结果，S_ji,j表示声纹识别对象的第i条语音信息与该声纹识别对象其他语音信息的之间相似度矩阵，S_ji,k表示声纹识别对象的语音信息与其他声纹识别对象的语音信息之间的相似度矩阵，其中：

在式中，k表示声纹识别对象，e_ji表示第j个声纹识别对象的第i条语音信息，也就是目标特征信息转化的低维向量，ω以及b是通过大量训练得到的变量，c_j表示第j个声纹识别对象除去第i条语音信息之后，其余语音信息的质心(平均值)，其计算公式为：

在式中，M表示声纹识别对象的数量，e_jm表示第j个声纹识别对象的第m条语音信息，N表示每个声纹识别对象的语音信息条数；γ表示调节因子，用来调节整体MMSE_j损失函数部分的大小；MMSE_j表示最小均方误差矩阵，且MMSE_j的表达式如下：

在式中，μ表示缩放系数，θ表示偏置系数，M表示每个声纹识别对象的语音信息的条数，e_ji表示第j个声纹识别对象的第i条语音信息，LC_j,t为t步骤时的目标特征向量的均值，其中LC_j,t的表达式如下：

在式中，e_ji表示第j个声纹识别对象的第i条语音信息，也就是目标特征向量，β表示加权系数，M表示每个声纹识别对象的语音信息的条数，LC_j,t-1为t步骤时的目标特征向量的均值，这样就得到了最终的声纹识别结果，进一步的优化了语音信息，从而识别到更精确的语音信息。

上面对本发明实施例中声纹识别方法进行了描述，下面对本发明实施例中声纹识别装置进行描述，请参阅图3，本发明实施例中声纹识别装置一个实施例包括：

第一获取模块301，用于获取待识别的目标语音信息集合，目标语音信息集合包括至少一个对象所对应的语音信息，语音信息是经过预处理过后得到的；

第一优化模块302，用于利用预置算法在目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化目标特征信息，得到第一声纹识别结果；

第二获取模块303，用于获取目标语音信道的目标语音信道信息，目标语音信道信息包括信道噪声信息，目标语音信道用于传输目标语音信息集合；

第二优化模块304，用于抽取信道噪声信息中的目标特征向量，并根据第二损失函数优化目标特征向量，得到第二声纹识别结果；

融合模块305，用于将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果。

本发明实施例中，服务器分别对目标语音信息集合和目标语音信道信息进行损失优化处理，再将损失优化处理后的第一声纹识别结果以及第二声纹识别结果融合在一起，使得深度网络学习到语音信道噪声消除的方法，提高声纹识别准确度。需要强调的是，为进一步保证上述目标语音信息集合的私密和安全性，上述目标语音信息集合还可以存储于一区块链的节点中。

请参阅图4，本发明实施例中声纹识别装置的另一个实施例包括：

可选的，第一优化模块302包括：

抽取单元3021，用于利用预置算法在目标语音信息集合中抽取目标特征信息；

计算单元3022，用于根据预置公式计算目标特征信息的相似度矩阵，得到目标特征信息的映射信息；

优化单元3023，用于基于映射信息与第一损失函数优化目标语音信息集合的损失，得到第一声纹识别结果。

可选的，抽取单元3021还可以具体用于：

利用预置算法采集目标语音信息集合中的语音序列，并获取语音序列的幅度谱；

通过滤波器对语音序列的幅度谱进行滤波，得到语音序列的滤波输出结果；

对语音序列的滤波输出结果进行离散余弦变换，得到目标特征信息。

可选的，计算单元3022还可以具体用于：

将目标特征信息转化为低维向量，低维向量为采用低维度表示目标特征信息的向量；

基于低维向量与预置公式计算目标特征信息的相似度矩阵，得到目标特征信息的映射信息。

可选的，第二优化模块304还可以具体用于：

抽取信道噪声信息中的目标特征向量，并计算目标特征向量的均值；

根据目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵，得到第二声纹识别结果。

可选的，融合模块305还可以具体用于：

获取第一声纹识别结果以及第二声纹识别结果；

利用融合公式将第一声纹识别结果与第二声纹识别结果融合，确定最终的声纹识别结果，融合公式为：

可选的，第一获取模块301还可以具体用于：

获取待处理的语音信息，并利用预置处理公式对待处理的语音信息s(n)进行预加重，得到处理后的语音信息s'(n)，预置处理公式为s'(n)＝s(n)-as(n-1)，其中a为预加重系数，s(n-1)为待处理的语音信息的上一条语音信息；

将处理后的语音信息进行分帧处理，并对每帧处理后的语音信息进行加窗处理，得到目标语音信息集合，目标语音信息集合包括至少一个对象所对应的语音信息。

上面图3和图4从模块化功能实体的角度对本发明实施例中的声纹识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中声纹识别设备进行详细描述。

图5是本发明实施例提供的一种声纹识别设备的结构示意图，该声纹识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对声纹识别设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在声纹识别设备500上执行存储介质530中的一系列指令操作。

声纹识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的声纹识别设备结构并不构成对声纹识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述声纹识别方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹识别方法，其特征在于，所述声纹识别方法包括：

获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的；

利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果；

获取目标语音信道的目标语音信道信息，所述目标语音信道信息包括信道噪声信息，所述目标语音信道用于传输所述目标语音信息集合；

抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果；

将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果。

2.根据权利要求1所述的声纹识别方法，其特征在于，所述目标语音信息集合存储于区块链中，所述利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果包括：

利用预置算法在所述目标语音信息集合中抽取目标特征信息；

根据预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息；

基于所述映射信息与第一损失函数优化所述目标语音信息集合的损失，得到第一声纹识别结果。

3.根据权利要求2所述的声纹识别方法，其特征在于，所述利用预置算法在所述目标语音信息集合中抽取目标特征信息包括：

利用预置算法采集所述目标语音信息集合中的语音序列，并获取所述语音序列的幅度谱；

通过滤波器对所述语音序列的幅度谱进行滤波，得到语音序列的滤波输出结果；

对所述语音序列的滤波输出结果进行离散余弦变换，得到目标特征信息。

4.根据权利要求2所述的声纹识别方法，其特征在于，所述根据预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息包括：

将目标特征信息转化为低维向量，所述低维向量为采用低维度表示所述目标特征信息的向量；

基于所述低维向量与预置公式计算所述目标特征信息的相似度矩阵，得到所述目标特征信息的映射信息。

5.根据权利要求1所述的声纹识别方法，其特征在于，所述抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果包括：

抽取所述信道噪声信息中的目标特征向量，并计算所述目标特征向量的均值；

根据所述目标特征向量的均值与第二损失函数计算信道噪声信息的最小均方误差矩阵，得到第二声纹识别结果。

6.根据权利要求1所述的声纹识别方法，其特征在于，所述将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果包括：

获取所述第一声纹识别结果以及所述第二声纹识别结果；

利用融合公式将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果，融合公式为：

7.根据权利要求1-5中任一项所述的声纹识别方法，其特征在于，所述获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的包括：

获取待处理的语音信息，并利用预置处理公式对所述待处理的语音信息s(n)进行预加重，得到处理后的语音信息s'(n)，所述预置处理公式为s'(n)＝s(n)-as(n-1)，其中a为预加重系数，s(n-1)为待处理的语音信息的上一条语音信息；

将所述处理后的语音信息进行分帧处理，并对每帧所述处理后的语音信息进行加窗处理，得到目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息。

8.一种声纹识别装置，其特征在于，所述声纹识别装置包括：

第一获取模块，用于获取待识别的目标语音信息集合，所述目标语音信息集合包括至少一个对象所对应的语音信息，所述语音信息是经过预处理过后得到的；

第一优化模块，用于利用预置算法在所述目标语音信息集合中抽取目标特征信息，并根据第一损失函数优化所述目标特征信息，得到第一声纹识别结果；

第二获取模块，用于获取目标语音信道的目标语音信道信息，所述目标语音信道信息包括信道噪声信息，所述目标语音信道用于传输所述目标语音信息集合；

第二优化模块，用于抽取所述信道噪声信息中的目标特征向量，并根据第二损失函数优化所述目标特征向量，得到第二声纹识别结果；

融合模块，用于将所述第一声纹识别结果与所述第二声纹识别结果融合，确定最终的声纹识别结果。

9.一种声纹识别设备，其特征在于，所述声纹识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述声纹识别设备执行如权利要求1-7中任意一项所述的声纹识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述声纹识别方法。