CN110428841A

CN110428841A - 一种基于不定长均值的声纹动态特征提取方法

Info

Publication number: CN110428841A
Application number: CN201910639183.4A
Authority: CN
Inventors: 严锡君; 刘旭东; 候添琪; 刁宏志; 蒋悦
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-11-08
Anticipated expiration: 2039-07-16
Also published as: CN110428841B

Abstract

本发明公开了一种基于不定长均值的声纹动态特征提取方法。首先，根据实时的采样率、帧长和帧移，计算出最优均值步长；然后，根据最优均值步长和每一帧语音信号的梅尔倒谱系数，计算出帧语音信号的均值系数，得到均值系数矩阵，采用均值系数矩阵提取声纹动态特征。本发明改善了动态特征提取算法与引入信息量最优长度的匹配度，能够降低声纹识别的平均等错误率，提高识别率。

Description

一种基于不定长均值的声纹动态特征提取方法

技术领域

本发明属于智能识别技术领域，特别涉及了一种声纹动态特征提取方法。

背景技术

目前，智能家居越来越广泛地应用到人们的生活和工作中。在实际使用中，能否为使用者提供合理的人机交互很大程度上决定了智能家居系统的用户体验。智能家居采用无线通信、图像处理、语音处理等技术，基于语音交互的智能家居系统使用更为便捷、信息采集空间更为广泛，用户体验更为友好。

声纹识别在近年来已经取得了长足发展，在某些场合中，识别率也满足了人们对安全性的基本需求，且由于其具有经济性，便捷性等优势，应用前景十分广泛。如何能够尽可能地抑制外部噪声，从采集到的信号中提取尽可能纯净的语音特征，是各种语音处理技术走向实用化的前提。

在人们生活品质飞速提高的今天，社会大众对智能家居系统的要求也不再仅仅局限于使其执行标准的、普通的控制功能，而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居系统添加声纹识别功能，并采用语音增强来提高系统在噪声环境下的稳定性，不但可以进一步地改善智能家居的人机交互体验，提高用户对智能家居的使用效率；还可以为智能家居的控制与操作设定等级制度，针对不同权限等级的用户提供差异化的服务功能，使得系统整体安全性、实用性得到进一步提高。而这样的系统在未来的市场中必然有着强劲的冲击力，尤其在我国目前智能家居市场发展较为缓慢的大背景下，其一定会发挥越来越重要的作用，对大众的生活产生深远的影响。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了一种基于不定长均值的声纹动态特征提取方法，提高声纹识别率。

为了实现上述技术目的，本发明的技术方案为：

一种基于不定长均值的声纹动态特征提取方法，包括以下步骤：

(1)根据实时的采样率、帧长和帧移，计算出实时的最优均值步长；

(2)根据最优均值步长和每一帧语音信号的梅尔倒谱系数，计算出帧语音信号的均值系数，得到均值系数矩阵；

(3)采用均值系数矩阵提取声纹动态特征。

进一步地，在步骤(1)中，通过下式计算最优均值步长：

上式中，T为最优矩阵步长，fs为采样率，n为帧长，m为帧移，round表示四舍五入取整函数。

进一步地，在步骤(2)中，通过下式计算帧语音信号的均值系数：

上式中，m(l,k)为语音信号的均值系数，C(l,t)为语音信号的梅尔倒谱系数，T为最优均值步长，l＝1,2,..,L，k＝1,2,…,K，L为梅尔倒谱系数阶数，K为语音数据的总帧数。

采用上述技术方案带来的有益效果：

针对经典方法采用定长均值方法可能导致提取到的动态特征引入误差的问题，本发明提供一种基于不定长均值的声纹动态特征提取方法，在不同系统设定的不同采样率、帧长、帧移下，提取动态特征时随之调整一次特征提取引入的相关帧数，以实现对动态特征引入数据量最优长度进行匹配，从而达到降低平均等错误率、提高识别率的目的。

附图说明

图1是动态特征引入数据量最优长度示意图；

图2是不同帧长导致最优引入帧数的变化图；

图3本发明与经典方法的性能对比图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

如图1所示，在一些系统的动态特征提取方法中，一次动态特征计算引入的数据量常有一个最优值，该最优值的设定一般与原始数据所描述对象的固有周期大致相关。当某系统设定帧长长度一定时，一次动态特征提取过程中引入的数据量较少，则可能导致提取到的动态特征信息不足，而当一次动态特征提取过程中引入的数据量较多，则可能导致提取到的动态特征引入误差。

如图2所示，对于语音信号，由于语音处理中一帧信号的长度选择在10～30毫秒之间均可，故在不同系统设定的不同采样率、帧长、帧移下提取动态特征时，应当随之调整一次特征提取引入的相关帧数，以对动态特征引入数据量最优长度进行匹配。

考虑经典差分法在进行动态特征提取时，每次引入的相关帧数为定值，即在某些系统设定的采样率、帧长、帧移下，可能导致提取动态特征时选用的信息长度与最优长度匹配度较差，故针对该现象，为改善动态特征提取算法与引入信息量最优长度的匹配度，本发明设计了基于不定长均值的动态特征提取方案以代替经典差分法来对动态特征进行描述。

在本实施例中，采用如下优选方案：

第k帧语音信号的均值系数m(l,k)可由下式计算：

其中，C(l,t)为语音信号的梅尔倒谱系数，T为最优均值步长，l＝1,2,..,L，k＝1,2,…,K，L为梅尔倒谱系数阶数，K为语音数据的总帧数。

最优均值T步长可由下式求取：

其中，fs为系统设定的采样率，n为系统设定的帧长，m为系统设定的帧移，round函数为四舍五入取整函数。

将得到的2×L阶均值系数矩阵替换经典系数矩阵中的差分系数矩阵，进行信息提取。

设定系统UBM模型高斯元件个数为64，并选定实验数据库中60人(女性17人，男性43人，称之为“UBM模型训练组”)，每人5段语音用于训练系统本地UBM模型并保存模型参数。同时选定实验数据库中另40人(女性12人，男性28人，称之为“GMM模型训练组”)，每人5段语音组合得到10秒语音用于训练每个说话人的个人GMM模型并保存模型参数。将GMM模型训练组中40人每人剩余的5段语音，循环组合成10段5秒的语音用于对系统进行说话人确认测试，即一次完整的实验中包括400次说话人接受测试与15600次说话人拒绝测试，并最终以等错误率作为一次实验的输出结果。

语音数据特征提取方面，针对每次输入至系统的可分为N帧的语音段，设定基础阶数为15，即可得到15×N的原始梅尔倒谱系数矩阵。分别计算差分系数与均值系数后又可得两组15×N的系数矩阵，经过相互组合后即可得30阶的经典算法系数矩阵与30阶的本发明算法系数矩阵。设定系统采样率为16KHz，帧移为帧长的1/2，考虑短时语音处理帧长范围(10～30毫秒)与计算机常用FFT长度，分别在帧长为160(10毫秒)、256(16毫秒)、320(20毫秒)、400(25毫秒)、480(30毫秒)下对上述两种系数矩阵进行五次系统性能测试，实验结果(等错误率)见表1和表2。

表1

表2

图3为性能仿真对比图，将本发明算法与经典算法用MATLAB进行仿真、对比。当系统采用本发明算法来提取动态特征时，在实验设定的各组参数下，系统性能(平均等错误率)均优于采用经典差分法提取动态特征时的系统性能。且由于两种算法提取到的系数矩阵维度相同，故采用本发明算法生成的系数矩阵代替差分系数矩阵时，并不会因为额外增大的运算开销而致使系统响应实时性下滑。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于不定长均值的声纹动态特征提取方法，其特征在于，包括以下步骤：

(3)采用均值系数矩阵提取声纹动态特征。

2.根据权利要求1所述基于不定长均值的声纹动态特征提取方法，其特征在于，在步骤(1)中，通过下式计算最优均值步长：

3.根据权利要求1或2所述基于不定长均值的声纹动态特征提取方法，其特征在于，在步骤(2)中，通过下式计算帧语音信号的均值系数：