CN110335611A

CN110335611A - 一种基于质量维度的声纹识别算法评估方法

Info

Publication number: CN110335611A
Application number: CN201910633799.0A
Authority: CN
Inventors: 董波; 王道宁; 张亚东; 陶亮; 廖志梁
Original assignee: Yicheng High Tech (dalian) Technology Co Ltd
Current assignee: Yicheng High Tech (dalian) Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-15
Anticipated expiration: 2039-07-15
Also published as: CN110335611B

Abstract

一种基于质量维度的声纹识别算法评估方法，包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法，对于单个声纹识别算法而言，可以通过多维度评估，得到算法对各种不同参量的敏感性，从而针对不同参量做算法优化；对于不同的声纹识别算法而言，可以提供更详细的比对结果，结合应用环境来给出最优的识别算法。

Description

一种基于质量维度的声纹识别算法评估方法

技术领域

本发明涉及图像处理技术领域。

背景技术

声纹识别算法在当下的授权应用、学术科研均有较大的参考价值，基于不同的出发点与原理提出的声纹识别算法也越来越多，声纹识别在日常生活中的应用范围也越来越广，由于声纹信号的信息相对于图像、视频更简单，数据量更小，但承载的生物识别特征用来做识别是足够的，因此其具有更高的应用灵活度。

单纯从声纹信号的质量而言，是有相关标准的，但这里的标准主要针对声纹处理硬件给出，来判别设备的信号保真度，针对声纹识别算法而言，评估算法主要还是以识别率与运行效率为主，包括：

1)以识别率为基础的评估模型，例如假正例率(False Positive Rate)，真正例率(True Positive Rate)，受试者工作特征曲线(Receiver Operating CharacteristicCurve)，也就是所谓的召回率(参考《机器学习》周志华清华大学出版)，一般地，识别率越高，代表算法性能越好；

2)运行复杂度，具体体现在处理固定时长声纹信号所用时间以及运行过程中的最大资源消耗，这里的资源包括内存或者计算单元数量，一般地，占用时间与资源消耗是成反比的，资源消耗越大，代表占用时间相对短，精度越高，资源消耗越小，代表占用时间长，精度相对低。

资源消耗是客观存在的，与测试数据、测试方法与过程无关，只是以量化记录的方式将理论的资源消耗情况反映出来而已，所以第二种评估方法并没有太多的问题，但针对基于识别率的评估方式而言：

1)对同个声纹识别算法而言，识别率相对来讲是个最简单的量化指标，无法体现出算法在哪些情况表现差，哪些情况表现良好，而这些情况往往是算法设计的短板所在，要想更客观地体现算法优劣，仅凭多个测试库来测定识别率是不全面的，而且参考意义不大；

2)对不同声纹识别算法而言，主流(state of the art)算法在识别率上的差异不大，以识别率为参考标准，不容易给出相对更详细的优势描述，这就使算法在应用场景的选择上容易出现误判。

发明内容

为了解决现有声纹识别算法评估方法存在的上述问题，本发明提供了一种基于质量维度的声纹识别算法评估方法。

本发明为实现上述目的所采用的技术方案是：一种基于质量维度的声纹识别算法评估方法，包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法，

基于目标相关的声纹识别评估方法包括以下步骤：

2-1.在测试声纹数据库存在的情况下，对库做参数属性模型化分类，分类的对象包括：情绪、假音与音量；

2-2.基于情绪的测试库分类：对测试库每个声纹信号进行标号，不同人的声纹，标号不同，相同人的声纹，标号相同；

2-2-1.对典型情绪声纹做量化分类，以正常情绪的声纹信号为参考，将与情绪相关的因子与个性特征分离；

2-2-2.在正常情绪下采集声纹信号，然后按照步骤2-2-1的方法统计分离后信号的分布情况；

2-2-3.在不同状态下，分别按照2-2-2的方式统计出各个情绪状态下的声纹信号分布情况；

2-2-4.基于统计出的声纹信号分布情况，训练情绪状态分类器；

2-2-5.对库中的任意声纹样本，按照步骤2-2-1的方式取得情绪声纹频率，然后基于步骤2-2-4给出的状态分类器，获得任意样本的情绪标签；

2-3.基于假音的测试库信息标记：

2-3-1.假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音；

2-3-2.采集部分声纹样本，采集对象包括正常状态下的样本以及用假音发音的声纹样本；

2-3-3.对同人不同发音状态的声纹样本做分组，训练假音分类器，然后对测试库中的样本做真假音分类，得到任意样本的真假音标记ID_type。

2-4.基于音量的测试库分类：

2-4-1.音量是针对主频的幅频能量占平均能量的大小；

2-4-2.对所有样本进行中心频率提取，得到该频率下的幅频信息，然后幅频信息除以短时声纹信号的0频幅频，得到的比值作为各样本的能量比η，能量比越大，认为相对音量越高；

2-5.对于得到情绪、假音、音量评估或者分类信息的测试库而言，对需要测试的声纹识别算法先进行一次整体的识别统计，找到识别失败的样本，然后对于识别失败的样本，按照不同的量化与分类维度做汇总统计：

2-5-1.以情绪标记为横坐标，同区间识别失败样本的数量为纵坐标，统计情绪变化引入识别失败的统计直方图，哪个坐标下的分布概率越大，代表算法对相对应情绪的敏感度越高；

2-5-2.以是否假音为横坐标，同状态下识别失败样本的数量为纵坐标，统计假音引入识别失败的统计直方图，一般在刻意修改发声状态下的样本会丧失个性特征，使识别率降低，但这也从客观上说明现阶段的声纹识别算法泛化能力不足；

2-5-3.以相对音量大小为横坐标，按照固定的步长对遮挡率做区间划分，等级分类为横坐标，同区间识别失败样本的数量为纵坐标，统计相对音量大小改变引入识别失败的统计直方图，哪个等级的分布概率越大，代表算法对相对应的敏感度越高，正常状态下，相对音量越小，算法性能越差；

2-6.对其他要测试的算法均进行步骤2-5，得到所有算法对不同目标质量参量的敏感度结果，在相同条件下：基于情绪的误识别直方图分布越广，算法对情绪越敏感；假音状态下的误识别样本数量越多，算法越不稳定；同音量等级下，误识别直方图样本数量越少，算法对音量变化的鲁棒性越高；

基于非目标相关的声纹识别评估方法包括以下步骤：

3-1.在测试声纹库存在的情况下，对声纹库做质量属性模型化分类，分类的对象包括：噪声水平与背景杂音能量；

3-2.基于噪声的测试库分类：

3-2-1.对测试库中的任意声纹样本做一次傅里叶变换，提取高频信号的能量则取高频段的幅频均值作为噪声能量，其余频段的能量减去该均值的结果为非噪声能量；

3-2-2.计算声纹信号信噪比＝20log(非噪声能量/噪声能量)；

3-2-3.重复进行步骤3-2-1～3-2-2，计算出所有声纹信号的信噪比信息snr，然后对信噪比做最大值与最小值统计，得到信噪比取值范围，对整个范围做固定步长的分区，得到不同的信噪比区间，然后找到所有样本信噪比所在区间的标号；

3-3.基于背景音的测试库信息标记：

3-3-1.对测试库中的任意声纹信号，对按照步骤3-2-1进行去噪的声纹频谱做多个主频统计，得到主频序列中的最高频率与最低频率；

3-3-2.计算最高频率与最低频率的差值，得到音频主频带范围；

3-3-3.重复进行3-3-1～3-3-2，计算出所有样本的频带范围信息，然后做最大范围值与最小范围统计，得到范围的取值区间，对整个区间做固定步长的分区，得到不同的范围区间，然后找到所有声纹信号所在区间的标号；

3-4.对于得到噪声、背景杂音量化评估或者分类信息的测试库而言，对需要测试的声纹识别算法先进行一次整体的识别统计，找到识别失败的样本，然后对于识别失败的样本，按照不同的量化与分类维度做汇总统计：

3-4-1.以信噪比区间为横坐标，同区间识别失败样本的数量为纵坐标，统计信噪比引入识别失败的统计直方图，正常状态下，信噪比等级越高，算法性能越差；

3-4-2.以不同背景杂音范围分类为横坐标，同区间识别失败样本的数量为纵坐标，统计模糊度引入识别失败的统计直方图，正常状态下，杂音等级越高，算法性能越差。

3-5.对其他要测试的算法均进行步骤3-4，得到所有算法对不同非目标质量参量的敏感度结果，在相同条件下：同质量参数等级下，误识别直方图样本数量越少，算法鲁棒性越高。

所述步骤2-2-1中，分离方法为：提取每个声纹的频谱信息，构建发声滤波器，滤除非人声以外的信号，通过频谱峰值找到声纹主频率，将主频率作为该声纹的中心参考频率，当所有人的声纹都消除主频率影响时，认为已经将个性特征与情绪因子分离。

所述步骤2-2-2中，统计分离后信号的分布情况方法为按照中心参考频率逐频率做相应频率频谱的累加，然后取平均。

所述步骤2-2-3中，状态分为伤心、开心、沮丧、生气。

所述步骤2-2-4中，训练情绪状态分类器为基于SVM、决策树或者贝叶斯估计等分类模型。

所述步骤2-2-5中，情绪标签ID_emotion＝{正常,大笑,伤心,沮丧,生气}。

所述步骤2-5中的识别统计方法为计算计算识别率，识别率＝识别正确样本数量/整体样本数量，识别错误的样本即识别失败样本，具体表现是提供的人员标号与识别结果标号不一致。

所述步骤3-2-1中对图像做恢复的方法包括：去噪自编码和边缘自适应滤波方法。

本发明的基于质量维度的声纹识别算法评估方法，对于单个声纹识别算法而言，可以通过多维度评估，得到算法对各种不同参量的敏感性，从而针对不同参量做算法优化；对于不同的声纹识别算法而言，可以提供更详细的比对结果，结合应用环境来给出最优的识别算法。

附图说明

图1是本发明情绪类别的错误样本分布图。

图2是本发明假音状态下的错误样本分布图。

图3是本发明相对音量与错误样本数量关系分布图。

具体实施方式

现在用于声纹识别测试的数据库从数据量、个体特点、背景杂音、拍摄设备等都具有较高的多样性，归根结底，可以体现在两个方面：目标或者目标本身体现的多样性，比如情绪、假音、音量等；除目标以外的采集条件多样性，比如背景音(杂音)、采集设备的噪声等，体现在声音信号上，即声纹的信噪比。因此，本方案的目的是，对不同种类的多样性对算法的影响程度做量化判定，然后基于判定结果，解决单一识别率所达不到的：

1)多维度指标评测；

2)问题维度分析与算法调优反馈。

基于方案的目的，本方案认为对降低声纹识别算法识别率的因素都属于信号质量问题，采集对象的相关参数属性(情绪、假音、音量等)是目标相关的，采集设备条件与环境造成的质量问题是非目标相关的，基于目标相关的声纹识别评估方案参考步骤2，基于非目标相关的声纹识别评估方案参考步骤3；

2、基于目标相关的声纹识别评估：

2-2.基于情绪的测试库分类：假定测试库每个声纹信号都是有标号的，这里标号用来区分人(不同人的声纹，标号不同，相同人的声纹，标号相同)；

2-2-1.对典型情绪声纹做量化分类，以正常情绪的声纹信号为参考，将与情绪相关的因子与个性特征分离，具体分离的做法是：提取每个声纹的频谱信息，构建发声滤波器，滤除非人声以外的信号，比如20～20000Hz的带通滤波，然后通过频谱峰值找到声纹主频率，将主频率作为该声纹的中心参考频率，当所有人的声纹都消除主频率影响时，认为已经将个性特征与情绪因子分离；提取频谱信息的方法最简单最经典就是傅里叶变换；滤波器的构建方法为提供截至频率与滤波窗，这步骤2-2-1中已经规定滤波器的类型(带通滤波)，低通与高通截止频率：20Hz、20000Hz，滤波窗可以采用汉明窗。频谱的峰值代表滤波后频谱的最高值。

2-2-2.在正常情绪下采集多人多组声纹信号(建议10人以上，每人5组声纹短时信号)，然后按照2-2-1的方法统计分离后信号的分布情况，比较简单的方式是按照中心参考频率逐频率做相应频率频谱的累加，然后取平均；

2-2-3.在伤心、开心、沮丧、生气状态下，分别按照2-2-2的方式统计出各个情绪状态下的声纹信号分布情况；

2-2-4.基于统计出的声纹信号分布情况，训练情绪状态分类器，具体方法可以基于SVM、决策树或者贝叶斯估计等分类模型做训练分类；

2-2-5.对库中的任意声纹样本，按照2-2-1的方式取得情绪声纹频率，然后基于2-2-4给出的状态分类器，获得任意样本的情绪标签ID_emotion＝{正常,大笑,伤心,沮丧,生气}。

2-3.基于假音的测试库信息标记：

2-3-1.这里假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音，由于在发声时会有其他器官的共鸣，因此往往声纹特征的分布会与真实声纹有较大的差异，对识别造成很大程度的干扰；

2-3-2.采集部分声纹样本，采集对象包括正常状态下的样本以及用假音发音的声纹样本，这里采集对象数量建议是10人以上，正常样本与假音样本分别是5组以上；

2-3-3.对同人不同发音状态的声纹样本做分组，训练假音分类器，分类器可以基于SVM等经典分类模型训练所得，然后对测试库中的样本做真假音分类，得到任意样本的真假音标记ID_type。

2-4.基于音量的测试库分类：

2-4-1.这里的音量并不是指整体声纹信号的短时总能量，而是针对主频的幅频能量(声纹主频的定义可以参考2-2-1的中心频率提取方法)占平均能量的大小；

2-4-2.对所有样本进行中心频率提取，得到该频率下的幅频信息，然后幅频信息除以短时声纹信号的0频幅频，得到的比值作为各样本的能量比η，能量比越大，认为相对音量越高。

2-5.对于得到情绪、假音、音量评估或者分类信息的测试库而言，对需要测试的声纹识别算法先进行一次整体的识别统计，找到识别失败的样本，然后对于识别失败的样本，按照不同的量化与分类维度做汇总统计，识别统计的方法就是计算识别率，识别率＝识别正确样本数量/整体样本数量，识别错误的样本即识别失败样本，具体表现是提供的人员标号与识别结果标号不一致；整体的识别统计就是统计识别率：

2-5-1.以情绪标记为横坐标，同区间识别失败样本的数量为纵坐标，统计情绪变化引入识别失败的统计直方图，如图1所示，哪个坐标下的分布概率越大，代表算法对相对应情绪的敏感度越高；

2-5-2.以是否假音为横坐标，同状态下识别失败样本的数量为纵坐标，统计假音引入识别失败的统计直方图，如图2所示，一般在刻意修改发声状态下的样本会丧失个性特征，使识别率降低，但这也从客观上说明现阶段的声纹识别算法泛化能力不足；

2-5-3.以相对音量大小为横坐标，按照固定的步长对遮挡率做区间划分，等级分类为横坐标，同区间识别失败样本的数量为纵坐标，统计相对音量大小改变引入识别失败的统计直方图，如图3所示，哪个等级的分布概率越大，代表算法对相对应的敏感度越高，正常状态下，相对音量越小，算法性能越差。

2-6.对其他要测试的算法均进行2-5，得到所有算法对不同目标质量参量的敏感度结果，在相同条件下：基于情绪的误识别直方图分布越广，算法对情绪越敏感；假音状态下的误识别样本数量越多，算法越不稳定；同音量等级下，误识别直方图样本数量越少，算法对音量变化的鲁棒性越高。

3、基于非目标相关的声纹识别评估：

3-2.基于噪声的测试库分类：

3-2-1.对测试库中的任意声纹样本做一次傅里叶变换，提取高频信号的能量(高频可以是超过20000Hz的频域能量部分)，这里认为噪声在频域是均匀分布的，即每个频带的噪声分布功率一致，则取高频段的幅频均值作为噪声能量，其余频段的能量减去该均值的结果(小于0的置为0)为非噪声能量；

3-2-2.计算声纹信号信噪比＝20log(非噪声能量/噪声能量)；

3-2-3.重复进行3-2-1～3-2-2，计算出所有声纹信号的信噪比信息snr，然后对信噪比做最大值与最小值统计，得到信噪比取值范围，对整个范围做固定步长的分区，得到不同的信噪比区间，然后找到所有样本信噪比所在区间的标号；

3-3.基于背景音的测试库信息标记：

3-3-1.对测试库中的任意声纹信号而言，认为主频率为采集对象的主频，并不是背景杂音的，即采集对象在声纹信号中的能量占比最高，对已经进行去噪的声纹频谱(3-2-1)做多个主频统计，认为由于背景杂音的影响，使原来声音频率分布较小的声音信号在频率上做了扩充，加宽了音频信号在频谱上的分布，同主频数量前提下，得到主频序列中的最高频率与最低频率；

3-3-3.重复进行3-3-1～3-3-2，计算出所有样本的频带范围信息，然后做最大范围值与最小范围统计，得到范围的取值区间，对整个区间做固定步长的分区，得到不同的范围区间，然后找到所有声纹信号所在区间的标号。

3-5.对其他要测试的算法均进行3-4的步骤，得到所有算法对不同非目标质量参量的敏感度结果，在相同条件下：同质量参数等级下，误识别直方图样本数量越少，算法鲁棒性越高。

本发明是通过实施例进行描述的，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种基于质量维度的声纹识别算法评估方法，其特征在于：包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法，

基于目标相关的声纹识别评估方法包括以下步骤：

2-3.基于假音的测试库信息标记：

2-4.基于音量的测试库分类：

2-4-1.音量是针对主频的幅频能量占平均能量的大小；

基于非目标相关的声纹识别评估方法包括以下步骤：

3-2.基于噪声的测试库分类：

3-2-2.计算声纹信号信噪比＝20log(非噪声能量/噪声能量)；

3-3.基于背景音的测试库信息标记：

2.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-2-1中，分离方法为：提取每个声纹的频谱信息，构建发声滤波器，滤除非人声以外的信号，通过频谱峰值找到声纹主频率，将主频率作为该声纹的中心参考频率，当所有人的声纹都消除主频率影响时，认为已经将个性特征与情绪因子分离。

3.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-2-2中，统计分离后信号的分布情况方法为按照中心参考频率逐频率做相应频率频谱的累加，然后取平均。

4.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-2-3中，状态分为伤心、开心、沮丧、生气。

5.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-2-4中，训练情绪状态分类器为基于SVM、决策树或者贝叶斯估计等分类模型。

6.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-2-5中，情绪标签ID_emotion＝{正常,大笑,伤心,沮丧,生气}。

7.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法，其特征在于：所述步骤2-5中的识别统计方法为计算计算识别率，识别率＝识别正确样本数量/整体样本数量，识别错误的样本即识别失败样本，具体表现是提供的人员标号与识别结果标号不一致。

8.根据权利要求1所述的一种基于质量维度的人脸识别算法评估方法，其特征在于：所述步骤3-2-1中对图像做恢复的方法包括：去噪自编码和边缘自适应滤波方法。