CN110335611A - 一种基于质量维度的声纹识别算法评估方法 - Google Patents
一种基于质量维度的声纹识别算法评估方法 Download PDFInfo
- Publication number
- CN110335611A CN110335611A CN201910633799.0A CN201910633799A CN110335611A CN 110335611 A CN110335611 A CN 110335611A CN 201910633799 A CN201910633799 A CN 201910633799A CN 110335611 A CN110335611 A CN 110335611A
- Authority
- CN
- China
- Prior art keywords
- sample
- frequency
- vocal print
- algorithm
- mood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000001755 vocal effect Effects 0.000 claims description 88
- 230000036651 mood Effects 0.000 claims description 50
- 238000012360 testing method Methods 0.000 claims description 44
- 238000009826 distribution Methods 0.000 claims description 25
- 238000001228 spectrum Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 8
- 238000000926 separation method Methods 0.000 claims description 8
- 238000013139 quantization Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000035945 sensitivity Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000011158 quantitative evaluation Methods 0.000 claims description 3
- 210000001260 vocal cord Anatomy 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 2
- 239000004744 fabric Substances 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002889 sympathetic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
- Complex Calculations (AREA)
Abstract
一种基于质量维度的声纹识别算法评估方法,包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法,对于单个声纹识别算法而言,可以通过多维度评估,得到算法对各种不同参量的敏感性,从而针对不同参量做算法优化;对于不同的声纹识别算法而言,可以提供更详细的比对结果,结合应用环境来给出最优的识别算法。
Description
技术领域
本发明涉及图像处理技术领域。
背景技术
声纹识别算法在当下的授权应用、学术科研均有较大的参考价值,基于不同的出发点与原理提出的声纹识别算法也越来越多,声纹识别在日常生活中的应用范围也越来越广,由于声纹信号的信息相对于图像、视频更简单,数据量更小,但承载的生物识别特征用来做识别是足够的,因此其具有更高的应用灵活度。
单纯从声纹信号的质量而言,是有相关标准的,但这里的标准主要针对声纹处理硬件给出,来判别设备的信号保真度,针对声纹识别算法而言,评估算法主要还是以识别率与运行效率为主,包括:
1)以识别率为基础的评估模型,例如假正例率(False Positive Rate),真正例率(True Positive Rate),受试者工作特征曲线(Receiver Operating CharacteristicCurve),也就是所谓的召回率(参考《机器学习》周志华清华大学出版),一般地,识别率越高,代表算法性能越好;
2)运行复杂度,具体体现在处理固定时长声纹信号所用时间以及运行过程中的最大资源消耗,这里的资源包括内存或者计算单元数量,一般地,占用时间与资源消耗是成反比的,资源消耗越大,代表占用时间相对短,精度越高,资源消耗越小,代表占用时间长,精度相对低。
资源消耗是客观存在的,与测试数据、测试方法与过程无关,只是以量化记录的方式将理论的资源消耗情况反映出来而已,所以第二种评估方法并没有太多的问题,但针对基于识别率的评估方式而言:
1)对同个声纹识别算法而言,识别率相对来讲是个最简单的量化指标,无法体现出算法在哪些情况表现差,哪些情况表现良好,而这些情况往往是算法设计的短板所在,要想更客观地体现算法优劣,仅凭多个测试库来测定识别率是不全面的,而且参考意义不大;
2)对不同声纹识别算法而言,主流(state of the art)算法在识别率上的差异不大,以识别率为参考标准,不容易给出相对更详细的优势描述,这就使算法在应用场景的选择上容易出现误判。
发明内容
为了解决现有声纹识别算法评估方法存在的上述问题,本发明提供了一种基于质量维度的声纹识别算法评估方法。
本发明为实现上述目的所采用的技术方案是:一种基于质量维度的声纹识别算法评估方法,包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法,
基于目标相关的声纹识别评估方法包括以下步骤:
2-1.在测试声纹数据库存在的情况下,对库做参数属性模型化分类,分类的对象包括:情绪、假音与音量;
2-2.基于情绪的测试库分类:对测试库每个声纹信号进行标号,不同人的声纹,标号不同,相同人的声纹,标号相同;
2-2-1.对典型情绪声纹做量化分类,以正常情绪的声纹信号为参考,将与情绪相关的因子与个性特征分离;
2-2-2.在正常情绪下采集声纹信号,然后按照步骤2-2-1的方法统计分离后信号的分布情况;
2-2-3.在不同状态下,分别按照2-2-2的方式统计出各个情绪状态下的声纹信号分布情况;
2-2-4.基于统计出的声纹信号分布情况,训练情绪状态分类器;
2-2-5.对库中的任意声纹样本,按照步骤2-2-1的方式取得情绪声纹频率,然后基于步骤2-2-4给出的状态分类器,获得任意样本的情绪标签;
2-3.基于假音的测试库信息标记:
2-3-1.假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音;
2-3-2.采集部分声纹样本,采集对象包括正常状态下的样本以及用假音发音的声纹样本;
2-3-3.对同人不同发音状态的声纹样本做分组,训练假音分类器,然后对测试库中的样本做真假音分类,得到任意样本的真假音标记IDtype。
2-4.基于音量的测试库分类:
2-4-1.音量是针对主频的幅频能量占平均能量的大小;
2-4-2.对所有样本进行中心频率提取,得到该频率下的幅频信息,然后幅频信息除以短时声纹信号的0频幅频,得到的比值作为各样本的能量比η,能量比越大,认为相对音量越高;
2-5.对于得到情绪、假音、音量评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:
2-5-1.以情绪标记为横坐标,同区间识别失败样本的数量为纵坐标,统计情绪变化引入识别失败的统计直方图,哪个坐标下的分布概率越大,代表算法对相对应情绪的敏感度越高;
2-5-2.以是否假音为横坐标,同状态下识别失败样本的数量为纵坐标,统计假音引入识别失败的统计直方图,一般在刻意修改发声状态下的样本会丧失个性特征,使识别率降低,但这也从客观上说明现阶段的声纹识别算法泛化能力不足;
2-5-3.以相对音量大小为横坐标,按照固定的步长对遮挡率做区间划分,等级分类为横坐标,同区间识别失败样本的数量为纵坐标,统计相对音量大小改变引入识别失败的统计直方图,哪个等级的分布概率越大,代表算法对相对应的敏感度越高,正常状态下,相对音量越小,算法性能越差;
2-6.对其他要测试的算法均进行步骤2-5,得到所有算法对不同目标质量参量的敏感度结果,在相同条件下:基于情绪的误识别直方图分布越广,算法对情绪越敏感;假音状态下的误识别样本数量越多,算法越不稳定;同音量等级下,误识别直方图样本数量越少,算法对音量变化的鲁棒性越高;
基于非目标相关的声纹识别评估方法包括以下步骤:
3-1.在测试声纹库存在的情况下,对声纹库做质量属性模型化分类,分类的对象包括:噪声水平与背景杂音能量;
3-2.基于噪声的测试库分类:
3-2-1.对测试库中的任意声纹样本做一次傅里叶变换,提取高频信号的能量则取高频段的幅频均值作为噪声能量,其余频段的能量减去该均值的结果为非噪声能量;
3-2-2.计算声纹信号信噪比=20log(非噪声能量/噪声能量);
3-2-3.重复进行步骤3-2-1~3-2-2,计算出所有声纹信号的信噪比信息snr,然后对信噪比做最大值与最小值统计,得到信噪比取值范围,对整个范围做固定步长的分区,得到不同的信噪比区间,然后找到所有样本信噪比所在区间的标号;
3-3.基于背景音的测试库信息标记:
3-3-1.对测试库中的任意声纹信号,对按照步骤3-2-1进行去噪的声纹频谱做多个主频统计,得到主频序列中的最高频率与最低频率;
3-3-2.计算最高频率与最低频率的差值,得到音频主频带范围;
3-3-3.重复进行3-3-1~3-3-2,计算出所有样本的频带范围信息,然后做最大范围值与最小范围统计,得到范围的取值区间,对整个区间做固定步长的分区,得到不同的范围区间,然后找到所有声纹信号所在区间的标号;
3-4.对于得到噪声、背景杂音量化评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:
3-4-1.以信噪比区间为横坐标,同区间识别失败样本的数量为纵坐标,统计信噪比引入识别失败的统计直方图,正常状态下,信噪比等级越高,算法性能越差;
3-4-2.以不同背景杂音范围分类为横坐标,同区间识别失败样本的数量为纵坐标,统计模糊度引入识别失败的统计直方图,正常状态下,杂音等级越高,算法性能越差。
3-5.对其他要测试的算法均进行步骤3-4,得到所有算法对不同非目标质量参量的敏感度结果,在相同条件下:同质量参数等级下,误识别直方图样本数量越少,算法鲁棒性越高。
所述步骤2-2-1中,分离方法为:提取每个声纹的频谱信息,构建发声滤波器,滤除非人声以外的信号,通过频谱峰值找到声纹主频率,将主频率作为该声纹的中心参考频率,当所有人的声纹都消除主频率影响时,认为已经将个性特征与情绪因子分离。
所述步骤2-2-2中,统计分离后信号的分布情况方法为按照中心参考频率逐频率做相应频率频谱的累加,然后取平均。
所述步骤2-2-3中,状态分为伤心、开心、沮丧、生气。
所述步骤2-2-4中,训练情绪状态分类器为基于SVM、决策树或者贝叶斯估计等分类模型。
所述步骤2-2-5中,情绪标签IDemotion={正常,大笑,伤心,沮丧,生气}。
所述步骤2-5中的识别统计方法为计算计算识别率,识别率=识别正确样本数量/整体样本数量,识别错误的样本即识别失败样本,具体表现是提供的人员标号与识别结果标号不一致。
所述步骤3-2-1中对图像做恢复的方法包括:去噪自编码和边缘自适应滤波方法。
本发明的基于质量维度的声纹识别算法评估方法,对于单个声纹识别算法而言,可以通过多维度评估,得到算法对各种不同参量的敏感性,从而针对不同参量做算法优化;对于不同的声纹识别算法而言,可以提供更详细的比对结果,结合应用环境来给出最优的识别算法。
附图说明
图1是本发明情绪类别的错误样本分布图。
图2是本发明假音状态下的错误样本分布图。
图3是本发明相对音量与错误样本数量关系分布图。
具体实施方式
现在用于声纹识别测试的数据库从数据量、个体特点、背景杂音、拍摄设备等都具有较高的多样性,归根结底,可以体现在两个方面:目标或者目标本身体现的多样性,比如情绪、假音、音量等;除目标以外的采集条件多样性,比如背景音(杂音)、采集设备的噪声等,体现在声音信号上,即声纹的信噪比。因此,本方案的目的是,对不同种类的多样性对算法的影响程度做量化判定,然后基于判定结果,解决单一识别率所达不到的:
1)多维度指标评测;
2)问题维度分析与算法调优反馈。
基于方案的目的,本方案认为对降低声纹识别算法识别率的因素都属于信号质量问题,采集对象的相关参数属性(情绪、假音、音量等)是目标相关的,采集设备条件与环境造成的质量问题是非目标相关的,基于目标相关的声纹识别评估方案参考步骤2,基于非目标相关的声纹识别评估方案参考步骤3;
2、基于目标相关的声纹识别评估:
2-1.在测试声纹数据库存在的情况下,对库做参数属性模型化分类,分类的对象包括:情绪、假音与音量;
2-2.基于情绪的测试库分类:假定测试库每个声纹信号都是有标号的,这里标号用来区分人(不同人的声纹,标号不同,相同人的声纹,标号相同);
2-2-1.对典型情绪声纹做量化分类,以正常情绪的声纹信号为参考,将与情绪相关的因子与个性特征分离,具体分离的做法是:提取每个声纹的频谱信息,构建发声滤波器,滤除非人声以外的信号,比如20~20000Hz的带通滤波,然后通过频谱峰值找到声纹主频率,将主频率作为该声纹的中心参考频率,当所有人的声纹都消除主频率影响时,认为已经将个性特征与情绪因子分离;提取频谱信息的方法最简单最经典就是傅里叶变换;滤波器的构建方法为提供截至频率与滤波窗,这步骤2-2-1中已经规定滤波器的类型(带通滤波),低通与高通截止频率:20Hz、20000Hz,滤波窗可以采用汉明窗。频谱的峰值代表滤波后频谱的最高值。
2-2-2.在正常情绪下采集多人多组声纹信号(建议10人以上,每人5组声纹短时信号),然后按照2-2-1的方法统计分离后信号的分布情况,比较简单的方式是按照中心参考频率逐频率做相应频率频谱的累加,然后取平均;
2-2-3.在伤心、开心、沮丧、生气状态下,分别按照2-2-2的方式统计出各个情绪状态下的声纹信号分布情况;
2-2-4.基于统计出的声纹信号分布情况,训练情绪状态分类器,具体方法可以基于SVM、决策树或者贝叶斯估计等分类模型做训练分类;
2-2-5.对库中的任意声纹样本,按照2-2-1的方式取得情绪声纹频率,然后基于2-2-4给出的状态分类器,获得任意样本的情绪标签IDemotion={正常,大笑,伤心,沮丧,生气}。
2-3.基于假音的测试库信息标记:
2-3-1.这里假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音,由于在发声时会有其他器官的共鸣,因此往往声纹特征的分布会与真实声纹有较大的差异,对识别造成很大程度的干扰;
2-3-2.采集部分声纹样本,采集对象包括正常状态下的样本以及用假音发音的声纹样本,这里采集对象数量建议是10人以上,正常样本与假音样本分别是5组以上;
2-3-3.对同人不同发音状态的声纹样本做分组,训练假音分类器,分类器可以基于SVM等经典分类模型训练所得,然后对测试库中的样本做真假音分类,得到任意样本的真假音标记IDtype。
2-4.基于音量的测试库分类:
2-4-1.这里的音量并不是指整体声纹信号的短时总能量,而是针对主频的幅频能量(声纹主频的定义可以参考2-2-1的中心频率提取方法)占平均能量的大小;
2-4-2.对所有样本进行中心频率提取,得到该频率下的幅频信息,然后幅频信息除以短时声纹信号的0频幅频,得到的比值作为各样本的能量比η,能量比越大,认为相对音量越高。
2-5.对于得到情绪、假音、音量评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计,识别统计的方法就是计算识别率,识别率=识别正确样本数量/整体样本数量,识别错误的样本即识别失败样本,具体表现是提供的人员标号与识别结果标号不一致;整体的识别统计就是统计识别率:
2-5-1.以情绪标记为横坐标,同区间识别失败样本的数量为纵坐标,统计情绪变化引入识别失败的统计直方图,如图1所示,哪个坐标下的分布概率越大,代表算法对相对应情绪的敏感度越高;
2-5-2.以是否假音为横坐标,同状态下识别失败样本的数量为纵坐标,统计假音引入识别失败的统计直方图,如图2所示,一般在刻意修改发声状态下的样本会丧失个性特征,使识别率降低,但这也从客观上说明现阶段的声纹识别算法泛化能力不足;
2-5-3.以相对音量大小为横坐标,按照固定的步长对遮挡率做区间划分,等级分类为横坐标,同区间识别失败样本的数量为纵坐标,统计相对音量大小改变引入识别失败的统计直方图,如图3所示,哪个等级的分布概率越大,代表算法对相对应的敏感度越高,正常状态下,相对音量越小,算法性能越差。
2-6.对其他要测试的算法均进行2-5,得到所有算法对不同目标质量参量的敏感度结果,在相同条件下:基于情绪的误识别直方图分布越广,算法对情绪越敏感;假音状态下的误识别样本数量越多,算法越不稳定;同音量等级下,误识别直方图样本数量越少,算法对音量变化的鲁棒性越高。
3、基于非目标相关的声纹识别评估:
3-1.在测试声纹库存在的情况下,对声纹库做质量属性模型化分类,分类的对象包括:噪声水平与背景杂音能量;
3-2.基于噪声的测试库分类:
3-2-1.对测试库中的任意声纹样本做一次傅里叶变换,提取高频信号的能量(高频可以是超过20000Hz的频域能量部分),这里认为噪声在频域是均匀分布的,即每个频带的噪声分布功率一致,则取高频段的幅频均值作为噪声能量,其余频段的能量减去该均值的结果(小于0的置为0)为非噪声能量;
3-2-2.计算声纹信号信噪比=20log(非噪声能量/噪声能量);
3-2-3.重复进行3-2-1~3-2-2,计算出所有声纹信号的信噪比信息snr,然后对信噪比做最大值与最小值统计,得到信噪比取值范围,对整个范围做固定步长的分区,得到不同的信噪比区间,然后找到所有样本信噪比所在区间的标号;
3-3.基于背景音的测试库信息标记:
3-3-1.对测试库中的任意声纹信号而言,认为主频率为采集对象的主频,并不是背景杂音的,即采集对象在声纹信号中的能量占比最高,对已经进行去噪的声纹频谱(3-2-1)做多个主频统计,认为由于背景杂音的影响,使原来声音频率分布较小的声音信号在频率上做了扩充,加宽了音频信号在频谱上的分布,同主频数量前提下,得到主频序列中的最高频率与最低频率;
3-3-2.计算最高频率与最低频率的差值,得到音频主频带范围;
3-3-3.重复进行3-3-1~3-3-2,计算出所有样本的频带范围信息,然后做最大范围值与最小范围统计,得到范围的取值区间,对整个区间做固定步长的分区,得到不同的范围区间,然后找到所有声纹信号所在区间的标号。
3-4.对于得到噪声、背景杂音量化评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:
3-4-1.以信噪比区间为横坐标,同区间识别失败样本的数量为纵坐标,统计信噪比引入识别失败的统计直方图,正常状态下,信噪比等级越高,算法性能越差;
3-4-2.以不同背景杂音范围分类为横坐标,同区间识别失败样本的数量为纵坐标,统计模糊度引入识别失败的统计直方图,正常状态下,杂音等级越高,算法性能越差。
3-5.对其他要测试的算法均进行3-4的步骤,得到所有算法对不同非目标质量参量的敏感度结果,在相同条件下:同质量参数等级下,误识别直方图样本数量越少,算法鲁棒性越高。
本发明是通过实施例进行描述的,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。
Claims (8)
1.一种基于质量维度的声纹识别算法评估方法,其特征在于:包括基于目标相关的声纹识别评估方法和基于非目标相关的声纹识别评估方法,
基于目标相关的声纹识别评估方法包括以下步骤:
2-1.在测试声纹数据库存在的情况下,对库做参数属性模型化分类,分类的对象包括:情绪、假音与音量;
2-2.基于情绪的测试库分类:对测试库每个声纹信号进行标号,不同人的声纹,标号不同,相同人的声纹,标号相同;
2-2-1.对典型情绪声纹做量化分类,以正常情绪的声纹信号为参考,将与情绪相关的因子与个性特征分离;
2-2-2.在正常情绪下采集声纹信号,然后按照步骤2-2-1的方法统计分离后信号的分布情况;
2-2-3.在不同状态下,分别按照2-2-2的方式统计出各个情绪状态下的声纹信号分布情况;
2-2-4.基于统计出的声纹信号分布情况,训练情绪状态分类器;
2-2-5.对库中的任意声纹样本,按照步骤2-2-1的方式取得情绪声纹频率,然后基于步骤2-2-4给出的状态分类器,获得任意样本的情绪标签;
2-3.基于假音的测试库信息标记:
2-3-1.假音是指通过有意识的控制而只使部分声带发生振动所发出来的声音;
2-3-2.采集部分声纹样本,采集对象包括正常状态下的样本以及用假音发音的声纹样本;
2-3-3.对同人不同发音状态的声纹样本做分组,训练假音分类器,然后对测试库中的样本做真假音分类,得到任意样本的真假音标记IDtype。
2-4.基于音量的测试库分类:
2-4-1.音量是针对主频的幅频能量占平均能量的大小;
2-4-2.对所有样本进行中心频率提取,得到该频率下的幅频信息,然后幅频信息除以短时声纹信号的0频幅频,得到的比值作为各样本的能量比η,能量比越大,认为相对音量越高;
2-5.对于得到情绪、假音、音量评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:
2-5-1.以情绪标记为横坐标,同区间识别失败样本的数量为纵坐标,统计情绪变化引入识别失败的统计直方图,哪个坐标下的分布概率越大,代表算法对相对应情绪的敏感度越高;
2-5-2.以是否假音为横坐标,同状态下识别失败样本的数量为纵坐标,统计假音引入识别失败的统计直方图,一般在刻意修改发声状态下的样本会丧失个性特征,使识别率降低,但这也从客观上说明现阶段的声纹识别算法泛化能力不足;
2-5-3.以相对音量大小为横坐标,按照固定的步长对遮挡率做区间划分,等级分类为横坐标,同区间识别失败样本的数量为纵坐标,统计相对音量大小改变引入识别失败的统计直方图,哪个等级的分布概率越大,代表算法对相对应的敏感度越高,正常状态下,相对音量越小,算法性能越差;
2-6.对其他要测试的算法均进行步骤2-5,得到所有算法对不同目标质量参量的敏感度结果,在相同条件下:基于情绪的误识别直方图分布越广,算法对情绪越敏感;假音状态下的误识别样本数量越多,算法越不稳定;同音量等级下,误识别直方图样本数量越少,算法对音量变化的鲁棒性越高;
基于非目标相关的声纹识别评估方法包括以下步骤:
3-1.在测试声纹库存在的情况下,对声纹库做质量属性模型化分类,分类的对象包括:噪声水平与背景杂音能量;
3-2.基于噪声的测试库分类:
3-2-1.对测试库中的任意声纹样本做一次傅里叶变换,提取高频信号的能量则取高频段的幅频均值作为噪声能量,其余频段的能量减去该均值的结果为非噪声能量;
3-2-2.计算声纹信号信噪比=20log(非噪声能量/噪声能量);
3-2-3.重复进行步骤3-2-1~3-2-2,计算出所有声纹信号的信噪比信息snr,然后对信噪比做最大值与最小值统计,得到信噪比取值范围,对整个范围做固定步长的分区,得到不同的信噪比区间,然后找到所有样本信噪比所在区间的标号;
3-3.基于背景音的测试库信息标记:
3-3-1.对测试库中的任意声纹信号,对按照步骤3-2-1进行去噪的声纹频谱做多个主频统计,得到主频序列中的最高频率与最低频率;
3-3-2.计算最高频率与最低频率的差值,得到音频主频带范围;
3-3-3.重复进行3-3-1~3-3-2,计算出所有样本的频带范围信息,然后做最大范围值与最小范围统计,得到范围的取值区间,对整个区间做固定步长的分区,得到不同的范围区间,然后找到所有声纹信号所在区间的标号;
3-4.对于得到噪声、背景杂音量化评估或者分类信息的测试库而言,对需要测试的声纹识别算法先进行一次整体的识别统计,找到识别失败的样本,然后对于识别失败的样本,按照不同的量化与分类维度做汇总统计:
3-4-1.以信噪比区间为横坐标,同区间识别失败样本的数量为纵坐标,统计信噪比引入识别失败的统计直方图,正常状态下,信噪比等级越高,算法性能越差;
3-4-2.以不同背景杂音范围分类为横坐标,同区间识别失败样本的数量为纵坐标,统计模糊度引入识别失败的统计直方图,正常状态下,杂音等级越高,算法性能越差。
3-5.对其他要测试的算法均进行步骤3-4,得到所有算法对不同非目标质量参量的敏感度结果,在相同条件下:同质量参数等级下,误识别直方图样本数量越少,算法鲁棒性越高。
2.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-2-1中,分离方法为:提取每个声纹的频谱信息,构建发声滤波器,滤除非人声以外的信号,通过频谱峰值找到声纹主频率,将主频率作为该声纹的中心参考频率,当所有人的声纹都消除主频率影响时,认为已经将个性特征与情绪因子分离。
3.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-2-2中,统计分离后信号的分布情况方法为按照中心参考频率逐频率做相应频率频谱的累加,然后取平均。
4.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-2-3中,状态分为伤心、开心、沮丧、生气。
5.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-2-4中,训练情绪状态分类器为基于SVM、决策树或者贝叶斯估计等分类模型。
6.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-2-5中,情绪标签IDemotion={正常,大笑,伤心,沮丧,生气}。
7.根据权利要求1所述的一种基于质量维度的声纹识别算法评估方法,其特征在于:所述步骤2-5中的识别统计方法为计算计算识别率,识别率=识别正确样本数量/整体样本数量,识别错误的样本即识别失败样本,具体表现是提供的人员标号与识别结果标号不一致。
8.根据权利要求1所述的一种基于质量维度的人脸识别算法评估方法,其特征在于:所述步骤3-2-1中对图像做恢复的方法包括:去噪自编码和边缘自适应滤波方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910633799.0A CN110335611B (zh) | 2019-07-15 | 2019-07-15 | 一种基于质量维度的声纹识别算法评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910633799.0A CN110335611B (zh) | 2019-07-15 | 2019-07-15 | 一种基于质量维度的声纹识别算法评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110335611A true CN110335611A (zh) | 2019-10-15 |
CN110335611B CN110335611B (zh) | 2021-12-10 |
Family
ID=68144907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910633799.0A Active CN110335611B (zh) | 2019-07-15 | 2019-07-15 | 一种基于质量维度的声纹识别算法评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110335611B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN111312259A (zh) * | 2020-02-17 | 2020-06-19 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN111599345A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 语音识别算法评估方法、系统、移动终端及存储介质 |
CN113593581A (zh) * | 2021-07-12 | 2021-11-02 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252668A (ja) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | コンタクトセンタ運用管理プログラム、装置および方法 |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN106934328A (zh) * | 2015-12-30 | 2017-07-07 | 厦门中控生物识别信息技术有限公司 | 一种人脸检测算法的评估方法及装置 |
CN109145145A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
-
2019
- 2019-07-15 CN CN201910633799.0A patent/CN110335611B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004252668A (ja) * | 2003-02-19 | 2004-09-09 | Fujitsu Ltd | コンタクトセンタ運用管理プログラム、装置および方法 |
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN106934328A (zh) * | 2015-12-30 | 2017-07-07 | 厦门中控生物识别信息技术有限公司 | 一种人脸检测算法的评估方法及装置 |
CN109145145A (zh) * | 2017-06-16 | 2019-01-04 | 阿里巴巴集团控股有限公司 | 一种数据更新方法、客户端及电子设备 |
Non-Patent Citations (4)
Title |
---|
FENG YONG ET AL.: "《Evaluation of the deep nonlinear metric learning based speaker identification on the large scale of voiceprint corpus》", 《2016 10TH INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING (ISCSLP)》 * |
ZHANG JING ET AL.: "《A research of improved algorithm for GMM voiceprint recognition model》", 《2016 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 * |
王昌龙等: "《基于特征音素的说话人识别方法》", 《仪器仪表学报》 * |
王炎: "《浅谈声纹识别技术与安全》", 《阿里安全视角》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875043A (zh) * | 2019-11-11 | 2020-03-10 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN110875043B (zh) * | 2019-11-11 | 2022-06-17 | 广州国音智能科技有限公司 | 声纹识别方法、装置、移动终端及计算机可读存储介质 |
CN111370000A (zh) * | 2020-02-10 | 2020-07-03 | 厦门快商通科技股份有限公司 | 声纹识别算法评估方法、系统、移动终端及存储介质 |
CN111312259A (zh) * | 2020-02-17 | 2020-06-19 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111599345A (zh) * | 2020-04-03 | 2020-08-28 | 厦门快商通科技股份有限公司 | 语音识别算法评估方法、系统、移动终端及存储介质 |
CN113593581A (zh) * | 2021-07-12 | 2021-11-02 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
CN113593581B (zh) * | 2021-07-12 | 2024-04-19 | 西安讯飞超脑信息科技有限公司 | 声纹判别方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110335611B (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335611A (zh) | 一种基于质量维度的声纹识别算法评估方法 | |
CN110132598B (zh) | 旋转设备滚动轴承故障噪声诊断算法 | |
CN108231067A (zh) | 基于卷积神经网络与随机森林分类的声音场景识别方法 | |
CN110120218A (zh) | 基于gmm-hmm的高速公路大型车辆识别方法 | |
CN104795064B (zh) | 低信噪比声场景下声音事件的识别方法 | |
CN105022835A (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
CN109188211B (zh) | 一种高压设备绝缘故障诊断方法和系统 | |
CN109616140A (zh) | 一种异常声音分析系统 | |
CN112732748B (zh) | 一种基于自适应特征选择的非侵入式家电负荷识别方法 | |
CN111144522B (zh) | 一种基于硬件本征差异的电网nfc设备指纹认证方法 | |
CN110120230A (zh) | 一种声学事件检测方法及装置 | |
CN107274912B (zh) | 一种手机录音的设备来源辨识方法 | |
CN108836322B (zh) | 一种裸眼3d显示视觉诱导晕动症检测方法 | |
Hou et al. | Sound event detection with sequentially labelled data based on connectionist temporal classification and unsupervised clustering | |
CN115457966A (zh) | 基于改进ds证据理论多分类器融合的猪咳嗽声识别方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
Karim et al. | Identification of seizure from single channel EEG using Support Vector Machine & Hilbert Vibration Decomposition | |
CN109117787A (zh) | 一种情感脑电信号识别方法及系统 | |
CN108766465A (zh) | 一种基于enf通用背景模型的数字音频篡改盲检测方法 | |
CN114121025A (zh) | 一种面向变电站设备的声纹故障智能检测方法及装置 | |
CN109935234B (zh) | 一种对录音鉴定来源设备的方法 | |
CN109272020B (zh) | 一种肌电数据中离群点的处理方法和系统 | |
CN112101301B (zh) | 一种螺杆水冷机组的好音稳定预警方法、装置及存储介质 | |
CN117150265B (zh) | 一种低信噪比条件下鲁棒的射频信号开集识别方法 | |
CN118052558B (zh) | 基于人工智能的风控模型决策方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method for Evaluating Voiceprint Recognition Algorithms Based on Quality Dimension Effective date of registration: 20230726 Granted publication date: 20211210 Pledgee: Dalian Branch of Shanghai Pudong Development Bank Co.,Ltd. Pledgor: YICHENG GAOKE (DALIAN) TECHNOLOGY Co.,Ltd. Registration number: Y2023980049989 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |