CN103714826B

CN103714826B - 面向声纹鉴定的共振峰自动匹配方法

Info

Publication number: CN103714826B
Application number: CN201310700673.3A
Authority: CN
Inventors: 柳林; 李敬阳; 陈涛; 胡国平; 邱志超; 冯祥; 张友国; 胡少云; 汤蕾蕾; 汤东梅
Original assignee: Xun Feizhi Metamessage Science And Technology Ltd
Current assignee: Xun Feizhi Metamessage Science And Technology Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2016-08-17
Anticipated expiration: 2033-12-18
Also published as: CN103714826A

Abstract

本发明提供一种面向声纹鉴定的共振峰自动匹配方法，该方法使用基于连续语音识别的音素切分（Forced Alignment，FA）技术自动标注出声纹鉴定中检材和样本中的音素边界位置；对检材与样本的相同元音音素片段，利用基频、共振峰和功率谱密度参数自动判断当前音素是否为有效可分析音素；采用利用DTW（Dynamic Time Warping，动态时间归整）算法自动给出相应共振峰时频面积的偏差比例，作为最终人工声纹鉴定的分析依据。本发明自动标注音素边界、并判断音素发音是否有效，可大幅度提高处理效率；同时，对有效音素对的自动共振峰偏差比对算法，可提高共振峰比对的精度。

Description

面向声纹鉴定的共振峰自动匹配方法

技术领域

本发明涉及声纹鉴定的技术领域，具体涉及一种面向声纹鉴定的共振峰自动匹配方法。

背景技术

声纹鉴定技术（参见文献[1]Beigi,Homayoon.Voice:Technologies andAlgorithms for Biometrics Applications[M].http://ieee-elearning.org/course.2010）是在司法鉴定中的一种应用声纹识别技术（参见文献[2]X.D.Huang,A.Aceroand H.Hon,Spoken Language Processing,Prentice Hall,2000以及参见文献[3]L.Rabiner and B.H.Juang,Fundamentals of speech recognition,Prentice Hall PTR,1993），是指鉴定人运用科学技术或者专门知识将样本语音与检材语音进行比对，得出样本说话人与建材说话人是否同一的鉴定结论。目前，声纹鉴定技术已经广泛应用于司法鉴定领域，许多国家都己把声纹鉴定作为辨认犯罪嫌疑人的重要手段，为侦查工作提供新的线索和证据。

声纹鉴定的基本方法主要有基于视听检验的人工鉴定方法和基于统计模式识别的计算机自动鉴定方法（参见文献[4]L.Liu,J.He,and G.Palm,"A comparison of humanand machine in speaker recognition,"in Proc.of the European Conference onSpeech Communication and Technology(EUROSPEECH),1999.以及参见文献[5]A.Schmidt-Nielsen and T.H.Crystal,"Speaker verification human listeners:experiments comparing human and machine performance using the NIST1998speakerevaluation data,"Digital Signal Processing,vol.10,pp.249-266,2000.）两种，美国国家标准技术美国国家标准与技术研究院（National Institute of StandardsandTechnology，NIST）在2010年说话人识别比赛中增加了人工辅助声纹识别（Human AssistedSpeaker Recognition，HASR）评测（参见文献[6]http://www.itl.nist.gov/iad/mig/tests/sre/2010/index.html），旨在评估人工和机器结合的方式提高自动声纹识别技术的水平，同时降低人工声纹鉴定中人工工作量。两种方法各有特点与优势，下面分别进行介绍。

1、基于视听检验的人工鉴定方法

其基本方法是通过专业鉴定人员对检材与样本语音进行审听、韵律辨识、言语习惯等分析，观察分析检材与样本中相同或相近的音节、词语在语谱图（参见文献[2]X.D.Huang,A.Acero and H.Hon,Spoken Language Processing,Prentice Hall,2000）上的声学特征，做出肯定或否定的定性结论。此方法的优点在于：

1）通过专家知识可以发现说话人细微的发音韵律习惯、方言等信息；

2）通过可视化分析，可以人工调整语音信号，进行降噪、滤波等，受噪声影响较少；

3）专家分析对检材的语音质量要求较低。

此方法的缺点在于：

1）对鉴定人员的专业要求较高，鉴定人员需要具备信号分析、语言学和语音学等多学科相关知识，具备专业鉴定知识的人员很少；

2）可视化分析过程中，需要鉴定人员反复测听检材和样本语音，首先确定需要比对的音节，再标注出相同音素的起止时间，准确挑选并标注一个音素对的位置需要几分钟到几十分钟，人工参与度很高；

3）由于人的声道发声具有缓变特性，且单个音素的发音收到前后音素的影响，共振峰的走势也会发声较大变化，人工比对选取的检材和样本可能处于同的发声阶段，影响判断的准确性。

2、基于统计模式识别的自动鉴定方法

其基本方法是对样本语音信号进行特征参数提取，并建立特征参数对应的统计模型，鉴定时从检材语音中提取特征参数并计算在样本统计模型上的概率似然度（参见文献[7]W.M.Campbell,J.P.Campbell,D.A.Reynolds,D.A.Jones,and T.R.Leek,High-levelspeaker verification with support vector machines,ICASSP2004,Vol I,pp73～76以及文献[8]Dehak N.,Kenny P.,Dehak R.,Dumouchel P and Ouellet P.Front-EndFactor Analysis for Speaker Verification IEEE Transactions on Audio,Speechand Language Processing,19(4),pp.788-798,May2011），通过似然度的大小作出相似程度的判断。此方法的优势体现在：

1）人工参与量较少，只需人工切分出纯净的单个说话人样本语音文件，即可使用声纹识别系统注册说话人模型；

2）适用于海量数据中自动筛选出包含目标说话人的语音；

3）不受语种影响，需要了解具体待处理语音的音素体系。

此方法的缺点在于：

1）声纹识别系统受信道、噪声等音素影响较大，当样本和检材的信道差异较大时，系统给出的相似度得分会有较大变化；

2）声纹识别系统只能给出相似度得分，需要通过设置阈值给出是或否的确定性判别结果，在实际鉴定任务中阈值设置比较困难；

3）为了设置较为可靠的阈值，需要与检材语音的信道、噪声、内容相近的多句样本说话人语音，实际中满足要求的多句样本语音很难获得，使得声纹识别系统给出的似然度得分较难作为同一性认定的评估参考。

发明内容

本发明要解决的技术问题为：本发明提出一种自动的音素切分、有效性检测和共振峰比对的声纹鉴定方法。

本发明采用的技术方案为：一种面向声纹鉴定的共振峰自动匹配方法，其特征在于采用连续语音识别、声纹稳定段判断和动态规划技术自动实现音素边界切分和共振峰参数比对，大幅度提高声纹鉴定工作的自动化程度，该方法主要由训练环节和测试环节构成，所需要实施的步骤如下：

步骤（1）、将检材和样本带比较片段标注：

101）、海量语音训练得到音素切分需要的声学模型；

102）、从检材和样本语音文件中选取待比较的语音片段；

步骤（2）、检材和样本语音文件音素边界切分：

201）、从检材和样本语音文件的特定片段提取语音识别所需声学特征；

202）、利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界；

步骤（3）、从检材和样本语音文件中提取声纹鉴定所需声学特征参数：

301）、提取基频参数；

301）、提取共振峰参数；

301）、提取功率谱密度参数；

步骤（4）、对比检材和样本相同音的素段是否有效：

401）、对比检材和样本相同音素段的基频偏差；

402）、分别评估检材和样本相同音素的共振个数满足鉴定要求；

403）、通过功率谱密度评估语音信号的频谱范围，辅助判断共振峰提取是否可靠；

步骤（5）、共振峰偏差比例估计：

501）、计算检材与样本音素对中每个共振峰的平均偏差；

502）、计算检材与样本音素对中每个共振峰的偏差比例；

503）、给出当前音素的同一性判定参考结果。

本发明的原理在于：

1）使用基于标注文件和语音识别的音素切分（Forced Alignment，FA）（参见文献[9]Steve Young.The HTK Book Ver3.4.1[M].http://svr-www.eng.cam.ac.uk,2009,pp182,192）自动标注出检材和样本中的音素边界位置；

2）在限定边界的音素片段中，通过基频、共振峰和功率谱分析自动判断当前音素是否为有效可分析音素；

3）基于有效可分析的检材和样本因素对，利用DTW（Dynamic Time Warping，动态时间归整）算法（参见文献[10]Sakoe H.and Chiba S.,Dynamic programming algorithmoptimization for spoken word recognition[C],IEEE Transactions on Acoustics,Speech and Signal Processing,26(1)pp.43-49,1978,ISSN:0096-3518）自动给出相应共振峰的偏差比例，作为最终人工声纹鉴定的分析数据。

本发明与现有技术相比的优势在于：

对比传统的基于视听检验的人工鉴定方法完全依靠人工挑选比较共振峰参数，本发明自动标注音素边界、并判断音素发音是否有效，可大幅度提高处理效率；同时，对有效音素对的自动共振峰偏差比对算法，可提高共振峰比对的精度，避免由于人工选取了不同发声阶段的共振峰参数导致分析偏差。

另外对比已有类似专利，本发明的创新性体现在：“数字声纹鉴定系统及确认和辨认方法”（专利号:2007101781412），此专利思想是使用多个语音采集器的基于统计的自动声纹识别系统，提供声纹确认和声纹辨认两种功能，并针对两种方法提供相应的数据库存储、排序等功能。与本发明的核心差别在于，此专利是针对基于统计模式识别的声纹识别技术在刑事鉴定领域的具体应用方法设计；而本发明是一套针对基于视听检验的声纹鉴定系统，具有自动音素提取、音素发音有效性判断能力，同时本发明中将DTW应用于共振峰对比解决共振峰走势变化对一致性分析的影响。

附图说明

图1为面向人工声纹鉴定的共振峰自动匹配方法总体框图。

图2为DTW帧跳转五条路径。

具体实施方式

下面结合附图以及具体实施例进一步说明本发明。

本发明的原理框图如图1所示，主要由训练环节和测试环节构成，所需要实施的步骤如下：

1）将检材和样本带比较片段标注

101）海量语音训练得到音素切分需要的声学模型；

102）从检材和样本语音文件中选取待比较的语音片段；

2）检材和样本语音文件音素边界切分

201）从检材和样本语音文件的特定片段提取语音识别所需声学特征；

202）利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界；

3）从检材和样本语音文件中提取声纹鉴定所需声学特征参数

301）提取基频参数；

301）提取共振峰参数；

301）提取功率谱密度参数；

4）对比检材和样本相同音的素段是否有效

401）对比检材和样本相同音素段的基频偏差；

402）分别评估检材和样本相同音素的共振个数满足鉴定要求；

403）通过功率谱密度评估语音信号的频谱范围，辅助判断共振峰提取是否可靠；

5）共振峰偏差比例估计

501）计算检材与样本音素对中每个共振峰的平均偏差；

502）计算检材与样本音素对中每个共振峰的偏差比例；

503）给出当前音素的同一性判定参考结果。

各步骤的具体实施方案如下：

步骤101：海量语音训练得到音素切分需要的声学模型，海量语音由日常电话信道或PC信道采集的真实交谈数据构成，语音数据量越大、与实际应用中语音的信道等条件越接近会更好的提升音素切分的准确度，采用经典GMM-HMM框架或最新的DNN框架语音识别技术路线均可训练得到音素切分所需要声学模型。

步骤102：人工检听检材和样本语音文件，从中选取待比较的一一对应的若干语音片段，标注出语音片段的文本内容和起止时间点。

步骤201：从检材和样本语音文件中提取音素标注所需的MFCC、PLP或Filter-Bank等特征参数。

步骤202：将步骤101训练得到的声学模型、步骤102标注的文本和时间信息、步骤201提取的特征参数作为输入，首先采用自动切分FA技术进行音素边界的初步判定，再采用普通话水平测试电子化系统中的二次切分识别方式提高切分边界的准确性，对由初步判定的语音数据进行声学模型的自适应训练，第二遍切分识别在自适应后高复杂度精确模型基础上进行（参见文献[11]魏思，刘庆升，胡郁，王仁华，“普通话水平测试电子化系统”，中文信息学报[J]，2006，pp89-96.以及参见文献[12]魏思，刘庆升，胡郁，王仁华,“带方言口音普通话自动水平测试”,第八届全国人机语音通讯学术会议[C]，2005,pp22-25.），本方法采用基于DNN的声学识别模型相对传统GMM-HMM技术路线，音素边界切分准确率可获得从94.2%到98.4%的提升。

步骤301：采用自相关法（ACF）和平均幅度差（AMDF）相融合的方法（参见文献[13]A.de Cheveigne,YIN,a fundamental frequency estimator for speech and music,J.Acoust.Soc.Am.,2001以及参见文献[14]L.Hui,B.-q.Dai,and L.Wei,A pitchdetection algorithm based on AMDF and ACF,in Proc.ICASSP2006pp.377-380.）提取检材和样本语音的基频参数，由于基频参数在不同信道和复杂噪声环境下具有较好的鲁棒性，可作为发音是否稳定的判断参数。

步骤302：对检材和样本语音相同音素片段进行分帧处理，提取每帧语音的共振峰参数，首先采用格型法（参见文献[15]Markhoul,J.(1973).“Spectral analysis ofspeech by linear prediction.”IEEE Trans.on Acoustics,Speech and SignalProcessing21(3):140-149.）提取的线性预测系数（LPC），再通过多项式求根法将LPC参数转为线谱频率（LSF）参数，进而将LSF参数转换到语音信号频率上得到共振峰位置和带宽，通过将共振峰频率与标准的元音共振峰范围对比滤除数值分析产生的虚假共振峰值。

步骤303：采用基于离散傅里叶变换（DFT）的方法提取语音功率谱密度。

步骤401：对比检材和样本相同音素段的基频均值偏差，当均值偏差比例大于阈值时，认为当前音素对不是稳定的音素对，默认阈值为15%（可以根据实际经验调整）；当均值偏比例小于阈值时，认为当前音素为声纹鉴定的备选音素片段。

步骤402：分别评估检材和样本相同音素的共振个数满足鉴定要求，如果检材或样本语音的共振峰个数少于三个，认为当前音素对不具备比对条件。

步骤403：分别计算检材和样本音素在特定频率（对不同元音的设定频率不同，参见文献林焘，王理嘉，《语音学教程》，北京大学出版社，1992，pp55）以上的功率谱密度与全频带功率谱密度的比值，当比值小于设定阈值时，认为当前检材或样本音素的高频信号丢失，不具备提取3个以上共振峰条件，不可用于声纹鉴定，默认阈值为10%（可以根据实际经验调整）。

步骤501：在经过401、402、403步骤判断为可做鉴定的检材和样本音素对，利用DTW算法计算检材与样本音素对中每个共振峰频率位置的平均偏差D(i,j)--表示样本音素第i帧与检材音素第j帧的共振峰累计偏差，公式如下：

\begin{matrix} D (i, j) = | t (i) - r (j) | + \\ \min \{\begin{matrix} D (i, j - 1), & D (i - 1, j - 1), & D (i - 1, j - 2), \\ D (i - 1, j), & D (i - 2, j - 1) \end{matrix}\} \end{matrix}

共振峰平均偏差定义为：

\overset{&OverBar;}{D} (i, j) = \frac{D (i, j)}{N}

其中N为样本语音的音素长度。

实际中说话人正常发音的语音速度不会有2倍以上的差异，设置DTW可以跳转的路径为图2中的五条路径。

步骤502：在步骤501计算得到每个共振峰频率位置偏差的基础上计算每个共振峰的面积偏差。首先，定义样本共振峰的时频域面积：

S_{k} = Σ_{i = 0}^{N} F_{k} (i) \times frame_Len, k = 1,2,3,4

式（1）中k表示第k个共振峰，F_k(i)为第i帧语音第k个共振峰的频率，frame_Len为一帧语音的长度，S_k表示样本语音第k个共振峰的面积。

定义检材和样本的共振峰偏差面积：

Δ S_{k} = \overset{&OverBar;}{D_{k}} * N * frame_len, k = 1,2,3,4

式中表示步骤501中检材和样本之间共振峰的平均距离，N为样本语音的总帧数。最后，可以计算出检材相对于样本语音的共振峰偏差比例：

R_k＝ΔS_k/S_k k＝1,2,3,4

步骤503：根据步骤501和步骤502中计算得出的共振峰频率位置平均偏和共振峰面积偏差比例，给出当前音素的同一性判定参考结果。下表给出了研究人员在600名不同说话人朗读相同文本的数据集合上共振峰面积偏差比例的统计情况。

表共振峰偏差比例统计

本发明未详细公开的部分属于本领域的公知技术。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种面向声纹鉴定的共振峰自动匹配方法，其特征在于采用连续语音识别、声纹稳定段判断和动态规划技术自动实现音素边界切分和共振峰参数比对，大幅度提高声纹鉴定工作的自动化程度，该方法主要由参数提取环节和一致性比对环节构成，所需要实施的步骤如下：

步骤(1)、将检材和样本待比较片段标注：

101)海量语音训练得到音素切分需要的声学模型；

102)从检材和样本语音文件中选取待比较的语音片段；

步骤(2)、检材和样本语音文件音素边界切分：

201)从检材和样本语音文件的特定片段提取语音识别所需声学特征；

202)利用FA技术和声学模型对声学特征进行语音识别得到每个音素的起止时间边界；

步骤(3)、从检材和样本语音文件中提取声纹鉴定所需声学特征参数：

301)提取基频参数；

301)提取共振峰参数；

301)提取功率谱密度参数；

步骤(4)、对比检材和样本相同音的素段是否有效：

401)对比检材和样本相同音素段的基频偏差；

402)分别评估检材和样本相同音素的共振个数满足鉴定要求；

403)通过功率谱密度评估语音信号的频谱范围，辅助判断共振峰提取是否可靠；

步骤(5)、共振峰偏差比例估计：

501)计算检材与样本音素对中每个共振峰的平均偏差；

502)计算检材与样本音素对中每个共振峰面积的偏差比例；

503)给出当前音素的同一性判定参考结果。