CN110648669B

CN110648669B - 多频分路声纹识别方法、装置、系统及计算机可读存储介质

Info

Publication number: CN110648669B
Application number: CN201910945619.2A
Authority: CN
Inventors: 陈华官; 张志齐
Original assignee: Shanghai Yitu Information Technology Co ltd
Current assignee: Shanghai Yitu Information Technology Co ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2022-06-07
Anticipated expiration: 2039-09-30
Also published as: CN110648669A

Abstract

多频分路声纹识别方法、装置、系统及计算机可读存储介质，方法包括：获得语音音频，抽取出频谱图；根据频率高、低对频谱图作若干段分割，并分别进入若干对应的卷积神经网络；将卷积神经网络输出的若干结果的特征映射拼接在一起。本发明通过对同一频谱图进行分割、继而多路进行深度学习的处理，能够让神经网络学习到适合不同音频的特征，从而提升语音任务的性能。

Description

多频分路声纹识别方法、装置、系统及计算机可读存储介质

技术领域

本发明涉及计算机语音处理、识别技术领域，具体地说是一种多频分路声纹识别方法、装置、系统及计算机可读存储介质。

背景技术

声纹识别，是根据人声的特质来自动识别说话人身份，声纹识别技术属于生物识别验证技术，即通过语音来对说话人的身份进行验证，具有较好的便捷性、稳定性、可测量性等特点，其在诸多公共领域有着广泛的应用。

机器学习属于人工智能的分支之一，机器学习让计算机学会学习，能够模拟人类的学习行为、建立学习能力，从而实现识别和判断。机器学习使用算法来解析海量数据，从中找出规律，并完成学习；用学习出来的思维模型对真实事件做出决策和预测。

现有技术中，在声纹识别(即确定一段音频是哪个人说的)通常是对截取的音频抽成一个F×D维的频谱图，然后送入卷积神经网络CNN中获得声纹特征，而这个CNN网络可以是任意的；比如：512维的向量。然后基于此向量做说话人分类，直接音频波形信号中使用短时傅里叶变化 (short-time Fourier transform，STFT)抽取出语音的频谱图，继而基于该频谱图使用CNN网络结构，则可以实现语音识别、声纹识别、语言分类等等语音任务。

然而，一张频谱图是有时间上的平移不变性，但没有频率维度上的平移不变性。在使用CNN网络结构做语音任务时，由于CNN网络假设了两个方向上的平移不变性，它假设了CNN学到的核（kernel）是对所有频率上是通用的，这有一定的不合理性，会影响语音任务的性能。

发明内容

本发明为解决现有的问题，旨在提供一种多频分路声纹识别方法、装置、系统及计算机可读存储介质。

为了达到上述目的，本发明采用的技术方案包括步骤：

S1，获得语音音频，抽取出频谱图；

S2，根据频率高、低对频谱图作若干段分割，并分别进入若干对应的卷积神经网络；

S3，将卷积神经网络输出的若干结果的特征映射拼接在一起。

进一步地，S1中，将语音音频抽成一个F×D维的频谱图。

进一步地，S2中，频谱图根据频率高、低分割为两段。

进一步地，所述分割以4K频率为分割点。

进一步地，S3中，按照频率维度将得到的若干结果的特征映射拼接在一起。

进一步地，还包括S4，拼接后的结果再进入后端的卷积神经网络进行识别与分类，得到声纹特征。

进一步地，还包括S5，对拼接后的特征映射作说话人分类。

一种声纹识别装置，其特征在于：

包括音频处理模块，用于抓取语音音频，抽取出音频的频谱图；

分路模块，根据频率高、低对频谱图作若干段分割；

深度学习机，利用卷积神经网络对各频率维度的声纹特征以及对拼接后的特征映射作深度学习；

分类模块，对结果作分类。

一种声纹识别系统，包括处理器、以及用于存储处理器的可执行指令的存储器，所述处理器运行时执行上述任一所述的声纹识别方法。

一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令被处理执行时，实现上述的声纹识别方法。

和现有技术相比，本发明通过对同一频谱图进行分割、继而多路进行深度学习的处理，能够让神经网络学习到适合不同音频的特征，从而提升语音任务的性能。

附图说明

图1为本发明一个实施例的流程示意图。

具体实施方式

现结合附图对本发明作进一步地说明。本实施例依据一种声纹识别装置，包括音频处理模块，用于抓取语音音频，抽取出音频的频谱图；分路模块，可以根据频率高、低对频谱图作若干段分割；深度学习机，利用卷积神经网络对个频率维度的声纹特征以及对拼接后的特征映射作深度学习；分类模块，对结果作分类。

基于上述声纹识别设备，提出本发明的声纹识别方法的实施例。参见图1，图1展示的是本发明的一个流程示意图。在人说话的音频中，每一个频率维度都是有其独特性。而尤其在4K频率为界，特点区别较为明显。具体表现为，高4K频率是一种特点，高4K有明显的无规律噪音现象(辅音)；而低4K频率是另一种特点，低4K有明显的谐波现象(元音)。由于低频部分或者高频部分的频谱图内部有一定的相似性，每一个部分内部的核（kernel）大致是可以共享的，进而卷积神经网络（CNN）的权重可以共享。

因此，本实施例操作如下：

首选，获得3秒的语音音频，然后抽成一个F×D维的频谱图。可以通过麦克风获取用户所发出的语音音频，麦克风将获取的声音发送至声纹识别装置的音频处理模块；也可以通过其他智能终端(手机、平板等)获取语音音频，智能终端将获取的验证语音发送至音频处理模块；其他现有手段不予赘述。

其次，根据频率高、低对频谱图作两段分割，其中分为高4K频率图和低4K频率图，并分别进入两个对应的卷积神经网络CNN0和CNN1，即高低频各自过一个CNN网络，得到两个特征(feature map)。网络训练使用的是现有的SGD+Momentum方法。CNN0和CNN1可以是同样类型的网络，也可以是不同的。

再次，将卷积神经网络输出的若干结果的特征映射按照频率维度拼接在一起。拼接后的结果再进入后端共同的卷积神经网络CNN2进行识别与分类，得到声纹特征。

现有技术都会得到声纹特征，而本实施例中则没有差别——差别仅在得到的声纹特征用于声纹比对时的算法性能不同。本实施例通过增加高、低频图双通路的网络结构，让CNN网络学习到适合高频4K图或者低频4K图的特征，破除了原有的模型瓶颈，从而提升语音任务的性能。

其中，CNN2和CNN0，CNN1是不同结构的卷积神经网络；因为两者的输入大小不一样。

最后，对拼接后的特征映射作说话人分类（逻辑回归模型softmax），即训练数据中若有N个说话人，做N分类，每个说话人一类；该操作为常规的现有技术。

本实施例中的高低频各自过一个CNN网络，到后期再将特征映射拼接在一起，再过共同的CNN网络，通过增加高低频双通路的网络结构，让CNN网络学习到适合高频4K或者低频4K的特征，从而提升语音任务的性能。

基于相同的技术构思，本实施例还提供一种电子设备，包括至少一个处理器，以及至少一个用于存储处理器的可执行指令的存储器，本申请实施例中不限定处理器与存储器之间的具体连接介质，两者之间通过总线连接；而总线可以分为地址总线、数据总线、控制总线等。

处理器是电子设备的控制中心，

可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，可以实现或者执行本申请实施例，即可以利用各种接口和线路连接电子设备的各个部分，通过运行或执行存储在存储器内的指令以及调用存储在存储器内的数据，从而执行上述任一所述的方法。

本实施例还提供了一种计算机可读介质，其存储有可由电子设备执行的计算机程序，当程序在终端设备上运行时，所述计算机程序指令被处理执行时，实现上述任一所述的方法。

计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上面结合附图及实施例描述了本发明的实施方式，实施例给出的结构并不构成对本发明的限制，本领域内熟练的技术人员可依据需要做出调整，在所附权利要求的范围内做出各种变形或修改均在保护范围内。

Claims

1.一种多频分路声纹识别方法，其特征在于包括：

S1，获得语音音频，抽取出频谱图；

S3，将卷积神经网络输出的若干结果的特征映射拼接在一起；

S4，拼接后的结果再进入后端的卷积神经网络进行识别与分类，得到声纹特征；

S5，对拼接后的特征映射，作说话人分类。

2.根据权利要求1所述的多频分路声纹识别方法，其特征在于：S1中，将语音音频抽成一个F×D维的频谱图。

3.根据权利要求1所述的多频分路声纹识别方法，其特征在于：S2中，频谱图根据频率高、低分割为两段。

4.根据权利要求3所述的多频分路声纹识别方法，其特征在于：所述分割以4K频率为分割点。

5.根据权利要求1、2、3或4所述的多频分路声纹识别方法，其特征在于：S3中，按照频率维度将得到的若干结果的特征映射拼接在一起。

6.一种声纹识别装置，其特征在于：

分路模块，根据频率高、低对频谱图作若干段分割；

分类模块，对结果作分类。

7.一种声纹识别系统，其特征在于：包括处理器、以及用于存储处理器的可执行指令的存储器，所述处理器运行时执行权利要求1-5中任一所述的声纹识别方法。

8.一种计算机可读介质，其上存储有计算机程序指令，其特征在于：所述计算机程序指令被处理执行时，实现权利要求1-5中任一所述的声纹识别方法。