CN112786057A

CN112786057A - 一种声纹识别方法、装置、电子设备及存储介质

Info

Publication number: CN112786057A
Application number: CN202110200815.4A
Authority: CN
Inventors: 杨奇; 陈书楷
Original assignee: Xiamen Entropy Technology Co Ltd
Current assignee: Xiamen Entropy Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-05-11
Anticipated expiration: 2041-02-23
Also published as: CN112786057B

Abstract

本发明公开了一种声纹识别方法、装置、电子设备及存储介质；其中，方法包括：获取语音信号，并从语音信号中获取语音片段；提取语音片段的频谱图；对频谱图进行周期变换，得到周期频谱；将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；匹配声纹特征与预设声纹特征，识别声纹特征对应的说话人ID。从而提高了声纹识别率和识别速度。

Description

一种声纹识别方法、装置、电子设备及存储介质

技术领域

本发明涉及声纹识别技术领域，尤其涉及一种声纹识别方法、装置、电子设备及存储介质。

背景技术

声纹识别，是根据人声的特质来自动识别说话人身份，声纹识别技术属于生物识别验证技术，即通过语音来对说话人的身份进行验证，具有较好的便捷性、稳定性、可测量性等特点，其在诸多公共领域有着广泛的应用。

现有技术中，声纹识别通常是将截取的音频抽成一个F*D维的频谱图，然后送入卷积神经网络CNN中获得声纹特征，而这个CNN网络可以是任意的；比如：512维的向量。然后基于此向量做说话人分类，直接音频波形信号中使用短时傅里叶变化抽取出语音的频谱图，继而基于该频谱图使用CNN网络结构，则可实现声纹识别。

然而，现有技术存在声纹识别率不高，识别速度慢的技术问题。

发明内容

本发明提供了一种声纹识别方法、装置、电子设备及存储介质，用于解决现有技术存在的声纹识别率不高，识别速度慢的技术问题。

本发明提供了一种声纹识别方法，包括：

获取语音信号，并从所述语音信号中获取语音片段；

提取所述语音片段的频谱图；

对所述频谱图进行周期变换，得到周期频谱；

将所述周期频谱变换为梅尔频谱，并基于所述梅尔频谱得到语谱图；

通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征；

匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID。

可选地，所述获取语音信号，并从所述语音信号中获取语音片段的步骤，包括：

获取语音信号；

对所述语音信号进行分帧处理，获取语音片段。

可选地，所述提取所述语音片段的的频谱图的步骤，包括：

对所述语音片段进行短时傅里叶变换，提取所述语音片段的频谱图。

可选地，所述匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID的步骤，包括：

计算所述声纹特征与预设声纹特征的相似性分数；

当所述相似性分数大于预设阈值时，获取所述预设声纹特征的说话人ID；

将所述说话人ID确定为所述声纹特征的说话人ID。

本发明还提供了一种声纹识别装置，包括：

语音片段获取模块，用于获取语音信号，并从所述语音信号中获取语音片段；

频谱图提取模块，用于提取所述语音片段的频谱图；

周期频谱生成模块，用于对所述频谱图进行周期变换，得到周期频谱；

语谱图生成模块，用于将所述周期频谱变换为梅尔频谱，并基于所述梅尔频谱得到语谱图；

声纹特征提取模块，用于通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征；

识别模块，用于匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID。

可选地，所述语音片段获取模块，包括：

语音信号获取子模块，用于获取语音信号；

语音片段获取子模块，用于对所述语音信号进行分帧处理，获取语音片段。

可选地，所述频谱图提取模块，包括：

频谱图提取子模块，用于对所述语音片段进行短时傅里叶变换，提取所述语音片段的频谱图。

可选地，所述识别模块，包括：

相似性分数计算子模块，用于计算所述声纹特征与预设声纹特征的相似性分数；

说话人ID获取子模块，用于当所述相似性分数大于预设阈值时，获取所述预设声纹特征的说话人ID；

说话人ID确定子模块，用于将所述说话人ID确定为所述声纹特征的说话人ID。

本发明还提供了一种电子设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上任一项所述的声纹识别方法。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上任一项所述的声纹识别方法。

从以上技术方案可以看出，本发明具有以下优点：本发明通过获取语音信号，并从语音信号中获取语音片段；提取语音片段的频谱图；对频谱图进行周期变换，得到周期频谱；将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；匹配声纹特征与预设声纹特征，识别声纹特征对应的ID。从而提高了声纹识别率和识别速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种声纹识别方法的步骤流程图；

图2为本发明实施例提供的Inception模块的结构图；

图3为本发明实施例提供的1阶HOA模块的工作流程图；

图4为本发明另一实施例提供的一种声纹识别方法的步骤流程图；

图5为本发明实施例提供的一种声纹识别装置的结构框图。

具体实施方式

本发明实施例提供了一种声纹识别方法、装置、电子设备及存储介质，用于解决现有技术存在的声纹识别率不高，识别速度慢的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例提供的一种声纹识别方法的步骤流程图。

本发明提供的一种声纹识别方法，具体可以包括以下步骤：

步骤101，获取语音信号，并从语音信号中获取语音片段；

在本发明实施例中，语音信号可以通过音频采集装置接收某个ID的说话人复读随机的语音得到，在得到语音信号后，可以将语音信号按照设定的长度分割成长度相等的多个语音片段。

步骤102，提取语音片段的频谱图；

频谱是频率谱密度的简称，是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡，这些谐振荡的幅值按频率排列的图形叫做频谱。频谱广泛应用于声学、光学和无线电技术等方面。频谱将对信号的研究从时域引入到频域，从而带来更直观的认识。

频谱图，是以横轴纵轴的波纹方式，记录信号在各种频率的图形资料。

在本发明实施例中，通过语音片段的频率特征，可以提取得到语音片段的频谱图。

步骤103，对频谱图进行周期变换，得到周期频谱；

在本发明实施例中，当提取到语音片段的频谱图后，可以对频谱图进行周期变换，得到周期频谱。

步骤104，将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；

在本发明实施例中，在计算得到周期频谱后，可以通过梅尔标度滤波器组(mel-scale filter banks)把周期频谱变换为梅尔频谱，再取梅尔频谱的对数，即可得到语音信号的语谱图(spectrogram)。

其中，语谱图是频谱分析视图，语谱图的横坐标是时间，纵坐标是频率，坐标点值为语音数据能量。由于是采用二维平面表达三维信息，所以能量值的大小是通过颜色来表示的，颜色深，表示该点的语音能量越强。

梅尔标度滤波器组包括若干个滤波器，滤波器的数量可以根据梅尔频率区间的划分数量进行确定，本发明实施例在此不作限定。梅尔标度滤波器组的设置和人耳听觉模型相对应，只关注某些特定频率，允许某些特定频率的信号通过；梅尔标度滤波器组可以对周期频谱中的冗余的数据进行滤除，以获取可以准确体现语音特征的数据。

步骤105，通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；

在本发明实施例中，当获取到语谱图后，可以将语谱图进行裁剪采样，得到语谱图样本，通过预设CNN模型MobileAudioNet可以从语谱图的语谱图样本中提取声纹特征。

MobileAudioNet模型，即声纹识别模型，是对MobileFaceNets模型进行了改进，在卷积层块conv1和conv_23后各增加了1个Inception模块，它可以多尺度融合特征图，使声纹浅层特征的表述更全面，另外，在conv_5后加入了1个1阶HOA(High-Order Attention，高阶注意)模块，其能加强局部细节，使中级(mid-level)声纹特征具有较强的细节表征能力，是一种轻量级网络模型，可以在移动设备上快速运行，能实现较高的识别准确率。

需要说明的是，Inception模块的目的是设计一种具有优良局部拓扑结构的网络，即对输入图像并行地执行多个卷积运算或池化操作，并将所有结果拼接为一个非常深地特征图。如图2所示，图2为Inception模块的结构图。其中，Base代表样本张量经过第一个卷积层处理，1x1，3x3，Pool表示不同的卷积层，可对Base输出的数据进行卷积操作和池化操作，Filter Concat表示从Base出发的4个分支feature map(卷积层的输出)再串联起来，其计算方式是：

H(x)＝F1(x)+F2(x)+F3(x)+F4(x)

其中，x是一个张量，H(x)是新的feature map，Fi(x)是第i个分支feature map，i取值[1，4]。

需要说明的是，在MobileAudioNet模型中使用1阶HOA模块的目的是在提高准确率的情况下，避免速度下降过大。图3为1阶HOA模块的工作流程图。如图3所示，张量x的维数为N*C*H*W(数量*通道*宽*高)，通过尺度向量V(1x1conv)将x张量的通道数由C变成D¹，生成张量Z¹，接着使用权重向量

(包括ReLU算子和1x1 conv算子)对张量Z¹进行处理，把Z¹通道数由D¹变回C，得到一个新张量(维数仍是N*C*H*W)，之后再与原张量x做HadamardProduct，得到张量y。其中，A(x)是一种映射，代表先用1x1 conv，再用ReLU和1x1 conv。HOA的作用一是在多种空间位置共享网络权值时，不会产生过多参数，一是使用1×1conv操作简单。

步骤106，匹配声纹特征与预设声纹特征，识别声纹特征对应的ID。

在通过MobileAudioNet获取到声纹特征后，可以通过匹配声纹特征与预先保存的声纹特征，识别声纹特征对应的说话人ID。

本发明通过获取语音信号，并从语音信号中获取语音片段；提取语音片段的频谱图；对频谱图进行周期变换，得到周期频谱；将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；匹配声纹特征与预设声纹特征，识别声纹特征对应的ID。从而提高了声纹识别率和识别速度。

请参阅图4，图4为本发明另一实施例提供的一种声纹识别方法的步骤流程图。具体可以包括以下步骤：

步骤401，获取语音信号；

步骤402，对语音信号进行分帧处理，获取语音片段；

在本发明实施例中，语音信号可以通过音频采集装置(如麦克风)接收某个ID的说话人复读随机的语音得到，在得到语音信号后，可以对语音信号进行分帧处理，得到长度相等的多个语音片段。

步骤403，对语音片段进行短时傅里叶变换，提取语音片段的频谱图；

在得到语音片段后，可以对语音片段进行短时傅里叶变换，提取出语音片段的频谱图。其目的是为了将输入的语音信号从时域信号转换成频域信号。

步骤404，对频谱图进行周期变换，得到周期频谱；

在得到语音片段的频谱图后，可以对频谱图进行周期变换，得到周期频谱。

步骤405，将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；

在得到周期频谱后，可以通过梅尔标度滤波器组把周期频谱变换为梅尔频谱。

为了便于理解，语谱图的生成，可以通过以下具体示例进行说明。

在本发明实施例中，首先，可以对采集到的某个ID说话人的一段语音信号x(t)进行分帧处理，得到长度相等的m个语音片段x(t_i)，i＝1，2，...，m；接着对输入的语音片段进行短时傅里叶变换，提取出语音信号的频谱图，这就把x(t_i)的时域信号转换成频域信号f(t_i)；之后对f(t_i)做周期变换，得到周期频谱

其中，

为频域信号f(t_i)的共轭复数；最后，通过梅尔标度滤波器组把周期频谱C(t_i)变为梅尔频谱mel(t_i)，再取对数，就得到m个语谱图。

在一个示例中，一个语谱图的尺寸可以为w*h＝400*160，这里w＝400＝16000*0.025，h＝160＝16000*0.01，其中16000是音频采样率，单位是Hz，0.025和0.01分别是汉明窗口(hamming window)宽度和步长，单位是秒。

进一步地，对于400*160的语谱图，可以进行5种位置裁剪采样，形成5个112*112的语谱图样本。这里的5种位置是指左上角、右上角、左下角、右下角和中心。这样一个样本的维数就是5*112*112，或者说有5个通道，每个通道的大小是112*112。

步骤406，通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；

在本发明实施例中，对于声纹特征的提取，可以使用CNN模型MobileAudioNet进行。

MobileAudioNet模型首先需要采用批量样本进行训练，从而形成最优模型参数。在其推断声纹特征时，模型参数固定，不再更新。其可以对每个音频的语谱图样本进行512维的声纹特征提取。这种声纹特征不仅可以表征说话人的声纹特征和声纹细节，而且具有较强的辨识能力，能用来较好地区分不同的说话人ID，也能验证同一个ID的不同时段的音频信息。

步骤407，计算声纹特征与预设声纹特征的相似性分数；

步骤408，当相似性分数大于预设阈值时，获取预设声纹特征的说话人ID；

步骤409，将说话人ID确定为声纹特征的说话人ID。

在提取到声纹特征后，可以将声纹特征与预先存储的声纹特征一一进行匹配，计算两者的相似度分数，若相似度分数大于或等于预设阈值，则说明这两个声纹特征来自同一个ID；即可完成对声纹特征的说话人ID的识别。若相似度分数小于预设阈值，则说明这两个声纹特征来自不同的ID。

请参阅图5，图5为本发明实施例提供的一种声纹识别装置的结构框图。

本发明实施例提供了一种声纹识别装置，包括：

语音片段获取模块501，用于获取语音信号，并从语音信号中获取语音片段；

频谱图提取模块502，用于提取语音片段的频谱图；

周期频谱生成模块503，用于对频谱图进行周期变换，得到周期频谱；

语谱图生成模块504，用于将周期频谱变换为梅尔频谱，并基于梅尔频谱得到语谱图；

声纹特征提取模块505，用于通过预设CNN模型MobileAudioNet从语谱图中提取声纹特征；

识别模块506，用于匹配声纹特征与预设声纹特征，识别声纹特征对应的说话人ID。

在本发明实施例中，语音片段获取模块501，包括：

语音信号获取子模块，用于获取语音信号；

语音片段获取子模块，用于对语音信号进行分帧处理，获取语音片段。

在本发明实施例中，频谱图提取模块502，包括：

频谱图提取子模块，用于对语音片段进行短时傅里叶变换，提取语音片段的频谱图。

在本发明实施例中，识别模块506，包括：

相似性分数计算子模块，用于计算声纹特征与预设声纹特征的相似性分数；

说话人ID获取子模块，用于当相似性分数大于预设阈值时，获取预设声纹特征的说话人ID；

说话人ID确定子模块，用于将说话人ID确定为声纹特征的说话人ID。

本发明实施例还提供了一种电子设备，设备包括处理器以及存储器：

存储器用于存储程序代码，并将程序代码传输给处理器；

处理器用于根据程序代码中的指令本发明实施例的声纹识别方法。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质用于存储程序代码，程序代码用于执行本发明实施例的声纹识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹识别方法，其特征在于，包括：

获取语音信号，并从所述语音信号中获取语音片段；

提取所述语音片段的频谱图；

对所述频谱图进行周期变换，得到周期频谱；

通过预设CNN模型MobileAudioNet从所述语谱图中提取声纹特征；

2.根据权利要求1所述的方法，其特征在于，所述获取语音信号，并从所述语音信号中获取语音片段的步骤，包括：

获取语音信号；

对所述语音信号进行分帧处理，获取语音片段。

3.根据权利要求1所述的方法，其特征在于，所述提取所述语音片段的的频谱图的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述匹配所述声纹特征与预设声纹特征，识别所述声纹特征对应的说话人ID的步骤，包括：

计算所述声纹特征与预设声纹特征的相似性分数；

将所述说话人ID确定为所述声纹特征的说话人ID。

5.一种声纹识别装置，其特征在于，包括：

频谱图提取模块，用于提取所述语音片段的频谱图；

6.根据权利要求5所述的装置，其特征在于，所述语音片段获取模块，包括：

语音信号获取子模块，用于获取语音信号；

7.根据权利要求5所述的装置，其特征在于，所述频谱图提取模块，包括：

8.根据权利要求5所述的装置，其特征在于，所述识别模块，包括：

9.一种电子设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的声纹识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的声纹识别方法。