CN114999500A

CN114999500A - 一种基于基频信息的声纹识别方法及装置

Info

Publication number: CN114999500A
Application number: CN202210600613.3A
Authority: CN
Inventors: 李国伟; 王俊波; 唐琪; 张殷; 黎小龙; 范心明; 李新; 董镝; 宋安琪; 刘崧; 梁年柏; 谢志杨; 李志锦; 严司玮; 蒋维; 武利会; 陈志平; 王志刚; 张伟忠; 何胜红
Original assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Guangdong Power Grid Co Ltd; Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-02

Abstract

本申请公开了一种基于基频信息的声纹识别方法及装置，方法包括：采用自相关法计算目标语音帧的基频；基于傅里叶变换，根据基频和目标语音帧进行LPCC特征提取，得到LPCC特征序列；基于预设梅尔滤波器组，根据基频和目标语音帧进行MFCC特征提取，得到MFCC特征序列，梅尔滤波器组中的梅尔滤波器包括多个谐波；通过预置声纹识别模型对LPCC特征序列和MFCC特征序列进行特征识别，得到声纹识别结果。本申请解决了现有技术缺乏对发音时声门特征的分析，导致实际的声纹识别准确率受到影响的技术问题。

Description

一种基于基频信息的声纹识别方法及装置

技术领域

本申请涉及声纹识别技术领域，尤其涉及一种基于基频信息的声纹识别方法及装置。

背景技术

声纹识别系统是根据人声的特质来自动识别说话人身份的系统，身纹识别技术属于生物验证技术的一种，即通过语音对说话人的身份进行验证。这种技术具有较好的便捷性、稳定性、可测量性、安全性等特点，其通常用在银行、社保、公安、智能家居、移动支付等领域。

传统声纹识别技术仅对发音时声道特征的描述，其中并不包含发音时的声门特征，相当于忽略了语音中的部分信息，而这势必会影响到声纹识别的准确率。

发明内容

本申请提供了一种基于基频信息的声纹识别方法及装置，用于解决现有技术缺乏对发音时声门特征的分析，导致实际的声纹识别准确率受到影响的技术问题。

有鉴于此，本申请第一方面提供了一种基于基频信息的声纹识别方法，包括：

采用自相关法计算目标语音帧的基频；

基于傅里叶变换，根据所述基频和所述目标语音帧进行LPCC特征提取，得到LPCC特征序列；

基于预设梅尔滤波器组，根据所述基频和所述目标语音帧进行MFCC特征提取，得到MFCC特征序列，所述梅尔滤波器组中的梅尔滤波器包括多个谐波；

通过预置声纹识别模型对所述LPCC特征序列和所述MFCC特征序列进行特征识别，得到声纹识别结果。

优选地，所述采用自相关法计算目标语音帧的基频，之前还包括：

对获取到的语音帧进行预处理操作，得到目标语音帧，所述预处理操作包括分帧、加窗和预加重。

优选地，所述基于傅里叶变换，根据所述基频和所述目标语音帧进行LPCC特征提取，得到LPCC特征序列，包括：

采用预设线性预测方法计算所述目标语音帧的线性预测系数，得到线性预测系数序列；

对所述线性预测系数序列进行N点傅里叶变换，得到LPCC幅度谱序列；

按照所述基频对所述LPCC幅度谱序列进行抽样处理，得到LPCC特征序列。

优选地，所述基于预设梅尔滤波器组，根据所述基频和所述目标语音帧进行MFCC特征提取，得到MFCC特征序列，所述梅尔滤波器组中的梅尔滤波器包括多个谐波，包括：

根据所述基频计算所述目标语音帧中各次谐波的谐波频率，并转换为梅尔频率；

根据所述梅尔频率以及梅尔滤波器的通带范围统计所述梅尔滤波器中各次谐波的谐波数量；

将各次谐波的所述谐波数量除以谐波总数，得到所述梅尔滤波器的谐波分布系数；

将所述谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列。

优选地，所述将所述谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列，之前还包括：

采用傅里叶变换法和余弦变换法计算所述目标语音帧的预置梅尔倒谱系数。

优选地，所述通过预置声纹识别模型对所述LPCC特征序列和所述MFCC特征序列进行特征识别，得到声纹识别结果，包括：

通过预置声纹识别模型对所述LPCC特征序列和所述MFCC特征序列进行特征分析，得到声纹特征序列，每个所述声纹特征序列包括一个对应的得分阈值；

计算所述声纹特征序列之间的向量距离，得到比对分数；

根据所述比对分数和所述得分阈值进行比对分析，得到声纹识别结果。

本申请第二方面提供了一种基于基频信息的声纹识别装置，包括：

基频提取模块，用于采用自相关法计算目标语音帧的基频；

第一特征模块，用于基于傅里叶变换，根据所述基频和所述目标语音帧进行LPCC特征提取，得到LPCC特征序列；

第二特征模块，用于基于预设梅尔滤波器组，根据所述基频和所述目标语音帧进行MFCC特征提取，得到MFCC特征序列，所述梅尔滤波器组中的梅尔滤波器包括多个谐波；

声纹识别模块，用于通过预置声纹识别模型对所述LPCC特征序列和所述MFCC特征序列进行特征识别，得到声纹识别结果。

优选地，还包括：

预处理模块，用于对获取到的语音帧进行预处理操作，得到目标语音帧，所述预处理操作包括分帧、加窗和预加重。

优选地，所述第一特征模块，包括：

预测计算子模块，用于采用预设线性预测方法计算所述目标语音帧的线性预测系数，得到线性预测系数序列；

傅里叶变换子模块，用于对所述线性预测系数序列进行N点傅里叶变换，得到LPCC幅度谱序列；

频谱抽样子模块，用于按照所述基频对所述LPCC幅度谱序列进行抽样处理，得到LPCC特征序列。

优选地，所述第二特征模块，包括：

频率计算子模块，用于根据所述基频计算所述目标语音帧中各次谐波的谐波频率，并转换为梅尔频率；

谐波统计子模块，用于根据所述梅尔频率以及梅尔滤波器的通带范围统计所述梅尔滤波器中各次谐波的谐波数量；

系数计算子模块，用于将各次谐波的所述谐波数量除以谐波总数，得到所述梅尔滤波器的谐波分布系数；

特征提取子模块，用于将所述谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种基于基频信息的声纹识别方法，包括：采用自相关法计算目标语音帧的基频；基于傅里叶变换，根据基频和目标语音帧进行LPCC特征提取，得到LPCC特征序列；基于预设梅尔滤波器组，根据基频和目标语音帧进行MFCC特征提取，得到MFCC特征序列，梅尔滤波器组中的梅尔滤波器包括多个谐波；通过预置声纹识别模型对LPCC特征序列和MFCC特征序列进行特征识别，得到声纹识别结果。

本申请提供的一种基于基频信息的声纹识别方法，在提取语音的LPCC特征和MFCC特征过程中，融入了基频信息，然后根据融合后的特征序列进行声纹识别，考虑了发音时的声门特征，可以进一步提升声纹识别的准确率。因此，本申请能够解决现有技术缺乏对发音时声门特征的分析，导致实际的声纹识别准确率受到影响的技术问题。

附图说明

图1为本申请实施例提供的一种基于基频信息的声纹识别方法的一个流程示意图；

图2为本申请实施例提供的一种基于基频信息的声纹识别方法的另一个流程示意图；

图3为本申请实施例提供的一种基于基频信息的声纹识别装置的结构示意图；

图4为本申请实施例提供的mel频率与滤波器幅度增益关系变化波形示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于基频信息的声纹识别方法的实施例一，包括：

步骤101、采用自相关法计算目标语音帧的基频。

人在发音时，根据声带是否振动可以将语音信号分为轻音和浊音两种。浊音携带大量的能量，因此又被称为有声语音，其在时域上有明显的周期性。而清音类似于白噪声，没有明显的周期性。发浊音时，气流通过声门使声带产生张弛震荡式振动，产生准周期的激励脉冲串。这种声带振动的频率称为基音频率，即基频；相应的周期就称为基音周期。可以理解的是，本申请的声门特征即包括基频，是说话人个性特征的重要体现。

采用的自相关法算法简单，计算量小，通常是以自相关函数对目标语音帧进行计算处理，获取目标语音帧中的基频信息。

步骤102、基于傅里叶变换，根据基频和目标语音帧进行LPCC特征提取，得到LPCC特征序列。

LPCC(Linear Predictive Cepstral Coefficient)即为线性预测倒谱系数，可以基于此系数提取目标语音帧的时域特征，而本实施例将基频信息引入该时域特征中，可以得到带有基频间隔特点的LPCC特征序列，更能反映目标声纹的实际特征。

步骤103、基于预设梅尔滤波器组，根据基频和目标语音帧进行MFCC特征提取，得到MFCC特征序列，梅尔滤波器组中的梅尔滤波器包括多个谐波。

MFCC(Mel-Frequency Cepstrum)为梅尔频率倒谱系数，可基于此系数提取目标语音帧的频域特征，本实施例将基频信息引入该频域特征中，得到优化特征LPCC特征序列，能够进一步提升声纹的特征表达能力。且用梅尔滤波器中的谐波进行特征分析，而不是直接采用梅尔频率倒谱系数，更能反映语音谐波变化特征。

步骤104、通过预置声纹识别模型对LPCC特征序列和MFCC特征序列进行特征识别，得到声纹识别结果。

基于两种特征序列进行声纹识别的本质是形成对比，根据比分与阈值之间的关系就可以确定声纹身份，即声纹识别结果。具体的对比方式或者依据的阈值可以根据实际情况设置，在此不作限定。

本申请实施例提供的一种基于基频信息的声纹识别方法中，在提取语音的LPCC特征和MFCC特征过程中，融入了基频信息，然后根据融合后的特征序列进行声纹识别，考虑了发音时的声门特征，可以进一步提升声纹识别的准确率。因此，本申请实施例能够解决现有技术缺乏对发音时声门特征的分析，导致实际的声纹识别准确率受到影响的技术问题。

为了便于理解，请参阅图2，本申请提供了一种基于基频信息的声纹识别方法的实施例二，包括：

步骤201、对获取到的语音帧进行预处理操作，得到目标语音帧，预处理操作包括分帧、加窗和预加重。

前期的预处理操作是为了将语音帧转换成较容易分析的形式，除了分帧、加窗和预加重之外，还可以根据实际情况设计其他相关预处理操作，在此不作限定。本实施例中的音频采样频率为Fs＝8000Hz。

步骤202、采用自相关法计算目标语音帧的基频。假设，本实施例中提取到的基频为F0＝300Hz。

步骤203、采用预设线性预测方法计算目标语音帧的线性预测系数，得到线性预测系数序列。

步骤204、对线性预测系数序列进行N点傅里叶变换，得到LPCC幅度谱序列。

步骤205、按照基频对LPCC幅度谱序列进行抽样处理，得到LPCC特征序列。

需要解释的是，N点傅里叶变换中的N取正整数，LPCC幅度谱序列中包括N/2+1个点，抽样处理实质就是得到一个基频间隔的LPCC幅度频谱序列。具体的可以举例说明LPCC特征序列的获取过程，LPCC频谱的傅里叶变换点数N＝512；在语音频带范围0Hz～Fs/2内，计算全部谐波分量的频率，得到谐波频率序列；语音的有效频带范围为0～4000Hz，以基频为间隔，得到谐波频率序列为(300,600,900,1200,1500,1800,2100,2400,2700,3000,3300,3600,3900)；计算LPCC幅度谱各频点的频率，也即以Fs/N＝8000/512＝15.625为间隔，对语音频带范围0～4000Hz进行抽样，得到一个长度为N/2+1的抽样频率序列(0，Fs/N，Fs/N*2，……,Fs/2)；以抽样频率序列和LPC幅度谱序列为基准，对谐波频率序列中的每一个频率进行插值求得其对应的LPCC频谱幅度，得到幅度谱插值序列，也即融合了基频间隔的LPCC幅度谱序列。具体的插值方法可用线型插值、三次样条插值等插值算法，在此不作限定。

步骤206、根据基频计算目标语音帧中各次谐波的谐波频率，并转换为梅尔频率。

步骤207、根据梅尔频率以及梅尔滤波器的通带范围统计梅尔滤波器中各次谐波的谐波数量。

步骤208、将各次谐波的谐波数量除以谐波总数，得到梅尔滤波器的谐波分布系数。

步骤209、采用傅里叶变换法和余弦变换法计算目标语音帧的预置梅尔倒谱系数。

步骤210、将谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列。

梅尔滤波器组是预先设置得到，本实施例中设置的梅尔滤波器的数量为24个，在梅尔频率域，将语音的全频带范围按相同间隔划分为24个等带宽的Mel频率带通滤波器，其通带mel频率范围分别为：

0～171.38；85.691～257.07；171.38～342.76；257.07～428.45；342.76～514.14；428.45～599.83；514.14～685.53；599.83～771.22；685.53～856.91；771.22～942.6；856.91～1028.3；942.6～1114；1028.3～1199.7；1114～1285.4；1199.7～1371.1；1285.4～1456.7；1371.1～1542.4；1456.7～1628.1；1542.4～1713.8；1628.1～1799.5；1713.8～1885.2；1799.5～1970.9；1885.2～2056.6；1970.9～2142.3。

语音的有效频带范围为0～4000Hz，以基频为间隔，得到谐波频率序列为(300,600,900,1200,1500,1800,2100,2400,2700,3000,3300,3600,3900)，再将谐波频率序转换到mel频率域，得到mel频率域的谐波频率序列(401.3,696.4,930,1123.3,1288.3,1432.1,1559.6,1674.1,1778,1873.1,1960.8,2042.2,2118.1)。分别统计24个mel频率带通滤波器中包含的mel频率域的谐波个数，得到mel滤波器组谐波分布序列(0,0,0,1,1,0,0,1,1,1,1,0,1,1,1,2,1,1,2,2,2,2,2,2),将每个滤波器包含的谐波个数除以谐波总数得到谐波分布系数序列(0,0,0,0.0769,0.0769,0,0,0.0769,0.0769,0.0769,0.0769,0,0.0769,0.0769,0.0769,0.15385,0.0769,0.0769,0.15385,0.15385,0.15385,0.15385,0.15385,0.15385)。由于部分滤波器中包含的谐波个数为零，为保证分布系数为正数，对上面的系数序列统一加上一个最小分布系数0.0769作为修正，从而得到最终的谐波分布系数序列为(0.0769,0.0769,0.0769,0.15385,0.15385,0.0769,0.0769,0.15385,0.15385,0.15385,0.15385,0.0769,0.15385,0.15385,0.15385,0.23077,0.15385,0.15385,0.23077,0.23077,0.23077,0.23077,0.23077,0.23077)。请参阅图4，为mel频率与滤波器幅度增益的关系变化曲线。

步骤211、通过预置声纹识别模型对LPCC特征序列和MFCC特征序列进行特征分析，得到声纹特征序列，每个声纹特征序列包括一个对应的得分阈值。

步骤212、计算声纹特征序列之间的向量距离，得到比对分数。

步骤213、根据比对分数和得分阈值进行比对分析，得到声纹识别结果。

本实施例中预置声纹识别模型的输出为声纹特征序列和对应的声纹比对得分阈值，属于模型输出量，基于声纹特征序列之间的向量距离计算得到的对比分数则是实际得分，将实际得分与模型输出量得分阈值进行比对分析，就可以实现声纹的识别。

为了便于理解，请参阅图3，本申请还提供了一种基于基频信息的声纹识别装置的实施例，包括：

基频提取模块301，用于采用自相关法计算目标语音帧的基频；

第一特征模块302，用于基于傅里叶变换，根据基频和目标语音帧进行LPCC特征提取，得到LPCC特征序列；

第二特征模块303，用于基于预设梅尔滤波器组，根据基频和目标语音帧进行MFCC特征提取，得到MFCC特征序列，梅尔滤波器组中的梅尔滤波器包括多个谐波；

声纹识别模块304，用于通过预置声纹识别模型对LPCC特征序列和MFCC特征序列进行特征识别，得到声纹识别结果。

进一步地，还包括：

预处理模块305，用于对获取到的语音帧进行预处理操作，得到目标语音帧，预处理操作包括分帧、加窗和预加重。

进一步地，第一特征模块302，包括：

预测计算子模块3021，用于采用预设线性预测方法计算目标语音帧的线性预测系数，得到线性预测系数序列；

傅里叶变换子模块3022，用于对线性预测系数序列进行N点傅里叶变换，得到LPCC幅度谱序列；

频谱抽样子模块3023，用于按照基频对LPCC幅度谱序列进行抽样处理，得到LPCC特征序列。

进一步地，第二特征模块303，包括：

频率计算子模块3031，用于根据基频计算目标语音帧中各次谐波的谐波频率，并转换为梅尔频率；

谐波统计子模块3032，用于根据梅尔频率以及梅尔滤波器的通带范围统计梅尔滤波器中各次谐波的谐波数量；

系数计算子模块3033，用于将各次谐波的谐波数量除以谐波总数，得到梅尔滤波器的谐波分布系数；

特征提取子模块3034，用于将谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于基频信息的声纹识别方法，其特征在于，包括：

采用自相关法计算目标语音帧的基频；

2.根据权利要求1所述的基于基频信息的声纹识别方法，其特征在于，所述采用自相关法计算目标语音帧的基频，之前还包括：

3.根据权利要求1所述的基于基频信息的声纹识别方法，其特征在于，所述基于傅里叶变换，根据所述基频和所述目标语音帧进行LPCC特征提取，得到LPCC特征序列，包括：

4.根据权利要求1所述的基于基频信息的声纹识别方法，其特征在于，所述基于预设梅尔滤波器组，根据所述基频和所述目标语音帧进行MFCC特征提取，得到MFCC特征序列，所述梅尔滤波器组中的梅尔滤波器包括多个谐波，包括：

5.根据权利要求4所述的基于基频信息的声纹识别方法，其特征在于，所述将所述谐波分布系数与预置梅尔倒谱系数相乘，得到MFCC特征序列，之前还包括：

6.根据权利要求1所述的基于基频信息的声纹识别方法，其特征在于，所述通过预置声纹识别模型对所述LPCC特征序列和所述MFCC特征序列进行特征识别，得到声纹识别结果，包括：

计算所述声纹特征序列之间的向量距离，得到比对分数；

7.一种基于基频信息的声纹识别装置，其特征在于，包括：

基频提取模块，用于采用自相关法计算目标语音帧的基频；

8.根据权利要求7所述的基于基频信息的声纹识别装置，其特征在于，还包括：

9.根据权利要求7所述的基于基频信息的声纹识别装置，其特征在于，所述第一特征模块，包括：

10.根据权利要求7所述的基于基频信息的声纹识别装置，其特征在于，所述第二特征模块，包括：