CN104464724A

CN104464724A - 一种针对刻意伪装语音的说话人识别方法

Info

Publication number: CN104464724A
Application number: CN201410743616.8A
Authority: CN
Inventors: 孙林慧; 杨震
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2014-12-08
Filing date: 2014-12-08
Publication date: 2015-03-25

Abstract

本发明设计了一种针对刻意伪装语音的说话人识别方法。首先针对说话者提高音调、压低音调、快速、慢速、捏鼻子、捂嘴、咬物(叼铅笔)、嚼物(嚼口香糖)这8种刻意伪装语音在无噪声无反射的消声室中建立了合理的录制方案，然后基于基音周期预分类后再采用Mel频率倒谱系数和高斯混合模型进行说话人伪装下的辨认，最后采用自适应调整组别实现高质量的伪装语音说话人识别。该方法可应用于犯罪分子使用伪装发音掩盖身份的语音案件中。

Description

一种针对刻意伪装语音的说话人识别方法

技术领域

本发明涉及一种针对刻意伪装语音的说话人识别方法，属于语音信号处理和说话人识别领域。

背景技术

随着时代的发展，说话人识别技术取得了长足的进步，语音的说话人个性特征分析和研究得到了关注。然而，伪装语音的出现，使说话人识别的研究工作受到了前所未有的挑战。伪装语音属于严重畸变语音，它是相对于正常语音而言的。广义的伪装语音是指不管原因如何，对于正常语音的任何改变、扭曲或者偏离都可以称作伪装语音。狭义的伪装是指刻意伪装，即以掩盖身份为目的，对正常语音的故意扭曲。

在语音犯罪案件中，犯罪分子为了掩盖身份，常常采用各种手段伪装发音，逃避打击。伪装语音的出现，则会使语音鉴定工作难上加难。因此，深入研究各种伪装语音的特点及其对话者识别的影响，探索刻意伪装语音的各种域内的特征参量，提取最为理想的语音特征代替说话人个性特征，设计针对刻意伪装语音的高质量的说话人识别方法，使之能够适应变化多端的伪装语音，对于说话人的识别鉴定和其证据效力的发挥具有重要意义。

发明内容

本发明的目的在于提供一种针对刻意伪装语音的说话人识别方法，该方法包括说话人刻意伪装方式下语音的采集方法设计和基于基音周期预分类的针对刻意伪装语音的说话人识别方法。

本发明解决其技术问题所采取的技术方案是：本发明提供了一种针对刻意伪装语音的说话人识别方法，该方法包括：说话人刻意伪装方式下语音的采集方法设计和基于基音周期预分类的针对刻意伪装语音的说话人的识别；所述基于基音周期预分类的针对刻意伪装语音的说话人的识别分为训练和实测两个阶段；训练阶段，包括特征提取和模型训练，特征提取部分以基音周期和MFCC作为主要研究的特征参数，用基音周期为标准对说话人性别进行预分类，然后使用24阶MFCC对GMM进行训练，得到两个性别子类说话人的GMM参数，存储以备第二部分调用；第二部分为对伪装语音的说话人鉴别阶段，分别用两个主函数实现，首先在判别该说话人的性别后，将其划分到所属的性别子类中，然后读取该子类的说话人的GMM参数，同样以MFCC作为特征参数，计算待识说话人在各个注册说话人模型下的概率，取出匹配距离最小即后验概率最大的说话人作为识别出来的说话人，针对预分类个别的错误采用后续的自适应方式加以修正，当识别效果很差时，自适应调整到另一个性别子类进行识别，二者比较取识别率高的作为最终的识别结果。

本发明设计了说话者提高音调、压低音调、快速、慢速、捏鼻子、捂嘴、咬物(叼铅笔)、嚼物(嚼口香糖)这8种伪装条件下的语音采集方法(在无噪声无反射的消声室中录制)。发音内容包括五个部分：元音、单个字词、独立句子、英文段落、中文段落。其中，元音为标准英文音标：/ei/、/i:/、/ɑi/、//ju:/；单个字词包括了中、英文0～9十个数字单词和不含第一部分元音的5个简单单词，每个单词录音5遍；独立句子部分设计了3个中文句子和4个英文句子，中文句子的长度在20个字左右，英文句子的长度在10个单词左右；英文段落约为100个单词，正常语速情况下阅读一遍的时间长度约为50秒；中文段落大约400字，正常语速情况下阅读一遍大约用去90～100秒的时间。采用该方案录制的语音非常适用进行刻意伪装说话人识别。

附图说明

图1是本发明中基音周期预分类的针对刻意伪装语音的说话人识别方法框图；

图2是本发明中某三个说话人正常发音24阶MFCC前两个系数分布图；

图3是本发明中两次不同测试语音时长下的正确识别率比较。

具体实施方式

以下结合说明书附图对本发明的技术方案进行详细说明。

如图1、图2和图3所示，伪装语音的特性及其话者识别研究具有重要意义，为实际的说话人识别技术的改进提供参考。语音伪装使得说话人系统的识别率显著降低，不同的伪装类型对自动话者识别的影响不同。不同话者伪装语音的辨识结果存在较大差异，有些发音人要比其他人更容易识别。发音人在实施伪装策略时具有取向性，不同话者擅长或倾向的伪装方式不同。各种伪装方式改变了说话人的时域、频域、倒谱域等特征，伪装后说话人的正确识别率大大降低。

本发明设计的针对伪装语音的说话人识别方法包括说话人刻意伪装方式下语音的采集方案设计、基于基音周期预分类的针对刻意伪装语音的说话人识别方法。

下面给出这两部分的主要实施方式。

一、刻意伪装方式下语音的采集方法设计

在充分考虑实验用语音材料的基础上，制定了刻意伪装语音的录制方案。在南京邮电大学通信与信息工程学院信息处理与传输研究院的消声室(专用无反射回波的音频录音室)中进行“纯”音频数据的采集。采用CSL 4400语音工作站采集设备录制语音，采样率设置为8000Hz，采用16比特PCM量化编码，获得的原始语音信号以“*.wav”的格式储存备用。

录制了10名被选说话人提高音调、压低音调、快速、慢速、捏鼻子、捂嘴、咬物(叼铅笔)、嚼物(嚼口香糖)这8种伪装条件下的语音样本。说话人年龄均为22～23岁，其中6名男生4名女生，来自不同的省市地区，虽然他们有不同的发音习惯，但是要求他们用普通话朗读录音内容，不考虑方言性伪装对实验中8种伪装方式结果的影响，他们的简单档案如表1所示。

表1：10名说话人的简单档案

序号	姓名	性别	年龄	籍贯
					1	GUSHIJIA	男	23	河北
2	PENGBOYU	男	22	江苏
					3	GUORONGDAN	女	23	福建
4	ZHUMENG	男	22	山东
					5	CHENXIA	女	23	安徽
6	SHENWEI	男	22	湖南
					7	LILIYING	女	22	江西
8	PENGMEI	女	23	湖北
					9	DENGWENHUI	男	22	江苏
10	XUXINZHOU	男	22	江苏

为获得充分的语音样本，在录音时，要求说话者首先用正常语音阅读全部内容两遍，然后按照这8种伪装方式依次阅读所有内容一遍。接下来，使用CoolEdit Pro 2.0分割每个说话人的各种原始语音样本。以音节为单位，寻找一段语音信号两端稳定连续的零点，粗略的作为目标语音信号的开始和结束点，分割出所需的每个说话人各种伪装方式的语音样本，包括了两次正常发音和所有8种伪装条件下的元音和中、英文段落等，将语音信号片段重新命名并另存为“*.wav”格式待用。

二、基于基音周期预分类的针对刻意伪装语音的说话人识别方法

本发明的基于基音周期预分类的针对刻意伪装语音的说话人识别系统框图见图1。整体系统主要分为两个部分：第一部分为训练阶段，包括特征提取和模型训练，第二部分为对伪装语音的说话人鉴别阶段，分别用两个主函数实现。特征提取部分以基音周期和MFCC作为主要研究的特征参数，用基音周期为标准对说话人性别进行预分类，这项分类是本发明的关键点，也是该系统能否对八种伪装语音进行准确的说话人鉴别的必要准备，它关系到对于各种伪装语音的说话人身份鉴别的正确率。然后使用24阶MFCC对GMM进行训练，得到两个性别子类10名说话人的GMM参数，存储以备第二部分调用。第二部分是对各种伪装语音的说话人的身份识别。首先在判别该说话人的性别后，将其划分到所属的性别子类中，性别分类不仅大大缩小了识别匹配范围，而且提高了系统身份鉴别的准确度。然后读取该子类的说话人的GMM参数，同样以MFCC作为特征参数，计算待识说话人在各个注册说话人模型下的概率，取出匹配距离最小即后验概率最大的说话人作为识别出来的说话人。针对预分类个别的错误采用后续的自适应方式加以修正，当识别效果很差时，往往是分类发生了错误，自适应调整到另一个性别子类进行识别，二者比较取识别率高的作为最终的识别结果。

A.训练阶段，具体步骤如下：

a.对训练语音进行静音去除，具体过程如下：

要从说话人的语音信号中充分提取能够表征该说话人个性特征的特征参数，语音信号的时间长度必须满足一定的要求，这样该语音信号才能尽量的包含说话人的几乎全部发音特征。而英文段落是本设计选择的语音特征的提取素材语音。因为录音场所选则在条件相对较好的消音室，采用了比较先进的语音采集设备，完全可以忽略环境噪声对语音的影响，即认为语音信号是无噪的。在这种前提下，对于说话人各种伪装语音特征提取的影响因素之一是来自于说话人朗读英文段落时每段连续发音之间的空隙，即“静音部分”。去除这些无用的不发音信号，使提取的语音特征能够准确代替说话人的个性特征。

采用VOICEBOX工具箱中的函数FXRAPT的一个辅助功能：把所有输入的训练语音信号按照100ms一段分割成若干段，则每段有800个采样(采样率为8000Hz)，同时按照规则判定每一段是否为静音，用1标记静音，0标记发音段，将标记为0的语音重新组合，得到去除静音后的训练语音信号。

b.基于基音周期预分类，具体过程如下：

基音周期是语音信号时域特征的代表，也是人耳听觉最直接的感觉之一。针对去除静音后的训练语音信号，采用VOICEBOX中的FXRAPT函数的鲁棒性基音周期算法，得到训练语音每一帧的基音频率，然后进行统计平均，得到每个说话人的基音频率，实验数据如表2所示。分析结果分析发现：男、女说话人之间在基音频率在数值范围上存在着明显的性别差异：女性说话人的基音频率(Hz)略高于男性说话人，他们之间有确定的临界值。我们知道说话人识别系统的误识率与该系统注册的说话人数量基本上成正比率，系统注册的说话人越多，误识率越高。如果能够将原来系统注册地说话人按照一定的规则和界限人为的划分成两个子类，缩小系统的实际注册说话人数目，则可以大大的提高说话人识别系统的识别率。因此，可以把基音频率作为预分类标准，取基音频率阈值为200Hz，把训练集说话人按照性别的不同划分成两个相对独立的子类。这样，在明确知道待识说话人性别的情况下，识别系统搜索判决的范围几乎缩小至原来的一半，不仅节约了识别时间，而且使得刻意伪装语音的说话人识别正确率大幅度提高。

表2：10名说话人正常语音的平均基音频率

序号	姓名	基音频率(Hz)
			1	GUSHIJIA	169.9
2	PENGBOYU	197.9
			3	GUORONGDAN	214.8
4	ZHUMENG	154.8
			5	CHENXIA	230.8
6	SHENWEI	179.8
			7	LILIYING	216.4
8	PENGMEI	221.9
			9	DENGWENHUI	165.0
10	XUXINZHOU	152.0

c.提取MFCC参数，具体过程如下：

倒谱特征是用于说话人个性特征表征和说话人识别的最有效的特征之一。与普通实际频率倒谱分析不同，MFCC(Mel-Frequency CepstralCoefficients)的分析更着眼于人耳的听觉特性，因为，人耳所听到的声音的高低与声音的频率不成线性正比关系，而用Mel频率尺度则更符合人耳的听觉特性。同时，由于声道和音源激励所处的倒谱时段不同，通过语音信号倒谱的低时和高时段可以将它们分离，彼此基本互不干扰，尤其是可避免声道分量受具有随机变化的音源激励分量的干扰。由于倒谱的低时部分描述了说话人发音的声道特性，故常作为用于说话人识别的说话人个性特征参数。图2是计算得到的某三个说话人正常发音英文段落去除静音后语音信号的24阶MFCC前两个系数的分布图。由图2可以看出不同说话人的MFCC存在彼此不同的统计分布，包括了分布中心及离散程度，对应于不同的均值和方差，依据这种特征差异，我们则可以为每个说话人建模，得到的模型参数也存在可预测的差异。

24阶MFCC参数的计算过程的具体步骤如下：

⑴对训练语音信号采用8KHz采样，16bit量化，采用汉明窗加窗分帧，帧长取20ms，帧交叠10ms。

⑵对分帧和加窗以后的信号S_w(n)进行快速Fourier变换后得到：

X(bin)＝{FFT(S_w(n))}，P(bin)＝|X(bin)|²,0≤bin≤N_FFT/2

⑶信号经FFT变换通过Mel滤波器组后每个滤波器输出为：

E_{FB} = Σ_{i = {bin}_{center} (k - 1)}^{{bin}_{center} (k)} W_{left} (i, k) \times P (i) + Σ_{i = {bin}_{center} (k) + 1}^{{bin}_{center} (k + 1)} W_{right} (i, k) \times P (i), 1 \leq k \leq K_{FB}

⑷对E_FB(k)取对数得：S_FB(k)＝ln(E_FB(k)),1≤k≤K_FB

⑸对S_FB(k)进行DCT变换得到MFCC参数：

C (i) = Σ_{k = 1}^{K_{FB}} S_{FB} (k) \times \cos (\frac{i \times π}{K_{FB}} \times (k - 0.5)), 0 \leq i < p

其中p是倒谱的阶数，取p＝24。

d.训练GMM模型，具体过程如下：

经过理论分析和实验验证在动态时间规整方法、矢量量化方法、隐马尔可夫模型方法、高斯混合模型方法、人工神经网络方法等建模方法中，选取高斯混合模型为每个说话人建模，基于高斯混合模型搭建说话人识别系统。注册10名说话人，利用每个说话人的训练语音X＝{x_t,t＝1,2,…,T}提取得到的MFCC参数C＝{c_t,t＝1,2,…,T}，依据最大似然(ML，Maximum Likelihood)准则采用EM(ExpectationMaximization)算法估计每个说话人的混合数为16的GMM模型参数λ，按照男女分类存储模型参数。

具体首先从训练数据的参数序列中随机选取50个矢量，求其均值和方差，作为EM算法中模型的初始化参数。从初始化参数开始，估计出一个新的参数，使得新的模型参数的似然度大于等于原参数的似然度。新的模型参数再作为初始模型参数进行训练，这样迭代运算直到模型收敛。依次训练得到男女两个子类10个人的GMM模型分别为λ₁,λ₂,…,λ₁₀。其中

混合权值：

P_{i} = \frac{1}{T} Σ_{t = 1}^{T} p (i / c_{t}, λ)

均值：

μ_{i} = \frac{Σ_{t = 1}^{T} p (i / c_{t}, λ) c_{t}}{Σ_{t = 1}^{T} p (i / c_{t}, λ)}

方差：

σ_{i}^{2} = \frac{Σ_{t = 1}^{T} p (i / c_{t}, λ) c_{t}^{2}}{Σ_{t = 1}^{T} p (i / c_{t}, λ)} - μ_{i}^{2}

分量i的后验概率

p (i / c_{t}, λ) = \frac{P_{i} b_{i} (c_{t})}{Σ_{k = 1}^{M} P_{k} b_{k} (c_{t})}

B.实测阶段，具体步骤如下：

a.对伪装语音进行静音去除，具体过程如下：

采用VOICEBOX工具箱中的函数FXRAPT的一个辅助功能：把输入的伪装语音信号按照100ms一段分割成若干段，则每段有800个采样(采样率为8000Hz)，同时按照规则判定每一段是否为静音，用1标记静音0标记发音段，将标记后的语音重新组合，得到去除静音后的伪装语音信号。

b.基于基音周期预分类，具体过程如下：

在初步分析中，综合运用时域波形图和语音信号频谱图对8种伪装条件下发音的5个元音信号样本进行了分析。使用MATLAB首先读取了正常情况下的语音信号和各种伪装条件下的语音信号，对比发现他们之间存在着人眼可以区分的差异。然后读取了语谱图，对8种伪装语音和正常语音进行了比较，发现某些伪装语音在不同频率上的能量分布产生了很大的变化。

接下来用同样的方法计算10名说话人在8种伪装情况下语音信号的基音频率，同样以英文段落作为参数提取的语音素材。对去除静音后的伪装语音信号采用VOICEBOX中的FXRAPT函数的鲁棒性基音周期算法，得到测试语音每一帧的基音频率，然后进行统计平均，得到该伪装方式下的说话人的基音频率。表3是计算得到的正常发音和八种伪装方式下说话人基音频率测试结果。可以看出降低音调基音频率大多数降低，提高音调基音频率整体提高，其他几种伪装方式下波动较小，但大多数依然符合女性说话人的基音频率高，男性说话人基音频率低的规律。得到结论：不能够直接将基音频率单独作为特征参数对说话人模型进行训练，也不能将其作为特征代替说话人个性特征进行识别，但是语音周期可以作为识别前说话人性别预分类标准。按照某种伪装方式下的基音频率阈值，对说话人进行预分类，分为男女两组。关于某些错误分类的说话人在自适应部分加以修正。

表3：正常发音和八种伪装方式下说话人的基音频率

c.对伪装语音提取24阶MFCC参数，其具体过程如下：

⑵对分帧和加窗以后的信号S_w(n)进行快速Fourier变换后得到：

X(bin)＝{FFT(S_w(n))}，P(bin)＝|X(bin)|²,0≤bin≤N_FFT/2

⑶信号经FFT变换通过Mel滤波器组后每个滤波器输出为：

E_{FB} = Σ_{i = {bin}_{center} (k - 1)}^{{bin}_{center} (k)} W_{left} (i, k) \times P (i) + Σ_{i = {bin}_{center} (k) + 1}^{{bin}_{center} (k + 1)} W_{right} (i, k) \times P (i), 1 \leq k \leq K_{FB}

⑷对E_FB(k)取对数得：S_FB(k)＝ln(E_FB(k)),1≤k≤K_FB

⑸对S_FB(k)进行DCT变换得到MFCC参数：

D (i) = Σ_{k = 1}^{K_{FB}} S_{FB} (k) \times \cos (\frac{i \times π}{K_{FB}} \times (k - 0.5)), 0 \leq i < p

其中p是倒谱的阶数，取p＝24。

d.说话人辨认，其具体过程如下；

对一个伪装语音观测序列D＝{d_t,t＝1,2,…,T}，找到使之具有最大后验概率的模型λ_S所对应的说话人S，即:

根据Bayes理论，最大后验概率可表示为：

P (λ_{i} / D) = \frac{P (D / λ_{i}) P (λ_{i})}{P (D)}

且

P (D / λ) = Π_{t = 1}^{T} P (d_{t} / λ)

其对数形式为：

\log P (D / λ) = Σ_{t = 1}^{T} \log P (d_{t} / λ)

因为P(λ_i)的先验概率未知，我们假定该语音信号出自封闭集里的每个人的可能性相等，也就是说：

P (λ_{i}) = \frac{1}{N} 1 \leq i \leq N

对于一个确定的矢量X，P(D)是一个确定的常数值，对所有说话人都相等。因此，求取后验概率的最大值可以通过求取P(D/λ_i)获得，这样，辨认该语音属于语音库中的哪一个说话人可以表示为：

i^{*} = \underset{i}{\arg \max} P (D / λ_{i})

其中i^*为辨认出的说话人。

e.自适应调整模型库，其具体过程如下；

针对测试时基于基音周期预分类产生的个别错误分类，采用自适应方式加以修正，当某种伪装方式下某说话人的识别率低于50％时，往往是预分类时发生了错误，自适应调整到另一个性别子类下进行识别，二者比较取识别率高的作为最终的识别结果。

值得再次强调的是，以语音周期为标准对性别分类在该系统中是至关重要的，它关系到对于各种伪装语音的说话人身份鉴别的正确率，作为两步法说话人识别技术，第一次的性别子类划分有效地缩小了说话人身份鉴别时的搜索范围，相应的提高了正确识别率，同时缩小识别用时。另一方面，使用MFCC作为说话人的语音特征，更贴近人耳的听觉感受，可以取得比较好的识别效果。整个说话人识别系统对于8种伪装语音取得了比较理想的识别结果。当训练语音时长40～60s，测试语音时长1s、2s情况下的正确识别率如图3所示。由图3分析实验结果数据可以得出以下结论：

⑴实验中的说话识别系统对正常语音的识别可以达到非常理想的识别率，说明该系统对正常语音的处理和为每个说话人利用GMM建模是合理的，同时对于GMM的训练得到的参数是正确的；

⑵对于8种伪装条件下的语音，基于基音周期预分类的识别系统各种伪装情况的平均识别率已提升到可以接受的识别率。本发明设计的针对刻意伪装语音的说话人识别方法针对压低音调、咬物和嚼物、以及语速变化(包括快速和慢速)刻意伪装方式下可以得到高质量的识别效果；

⑶GMM要得到充分的训练，才能使此系统的识别率稳定在能够接受的水平，一般取训练时长为50s左右；同时，识别时测试语音的时长也不能太短，从极短的声音中提取准确的特征参数并且识别说话人是不可能的，测试语音一般要选取2～3s。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种针对刻意伪装语音的说话人识别方法，其特征在于：所述识别方法包括说话人刻意伪装方式下语音的采集方法设计和基于基音周期预分类的针对刻意伪装语音的说话人的识别；所述基于基音周期预分类的针对刻意伪装语音的说话人的识别分为训练和实测两个阶段；训练阶段，包括特征提取和模型训练，特征提取部分以基音周期和MFCC作为主要研究的特征参数，用基音周期为标准对说话人性别进行预分类，然后使用24阶MFCC对GMM进行训练，得到两个性别子类说话人的GMM参数，存储以备第二部分调用；第二部分为对伪装语音的说话人鉴别阶段，分别用两个主函数实现，首先在判别该说话人的性别后，将其划分到所属的性别子类中，然后读取该子类的说话人的GMM参数，同样以MFCC作为特征参数，计算待识说话人在各个注册说话人模型下的概率，取出匹配距离最小即后验概率最大的说话人作为识别出来的说话人，针对预分类个别的错误采用后续的自适应方式加以修正，当识别效果很差时，自适应调整到另一个性别子类进行识别，二者比较取识别率高的作为最终的识别结果。

2.一种如权利要求1所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述训练阶段的具体步骤为：

a:对训练语音进行静音去除；

b:基于基音周期预分类；

c:提取MFCC参数；

d:训练GMM模型。

3.一种如权利要求1所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述实测阶段的具体步骤为：

a:对伪装语音进行静音去除；

b:基于基音周期预分类；

c:对伪装语音提取24阶MFCC参数；

d:说话人辨认；

e:自适应调整模型库。

4.一种如权利要求1所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述系统的24阶MFCC参数的计算过程的具体步骤如下：

a:对训练语音信号采用8KHz采样，16bit量化，采用汉明窗加窗分帧，帧长取20ms，帧交叠10ms；

b:对分帧和加窗以后的信号S_w(n)进行快速Fourier变换后得到：

X(bin)＝{FFT(S_w(n))}，P(bin)＝|X(bin)|²,0≤bin≤N_FFT/2；

c:信号经FFT变换通过Mel滤波器组后每个滤波器输出为：

E_{FB} = Σ_{i = {bin}_{center} (k - 1)}^{{bin}_{center} (k)} W_{left} (i, k) \times P (i) + Σ_{i = {bin}_{center} (k) + 1}^{{bin}_{center} (k + 1)} W_{right} (i, k) \times P (i), 1 \leq k \leq K_{FB};

d:对E_FB(k)取对数得：S_FB(k)＝ln(E_FB(k)),1≤k≤K_FB；

e:对S_FB(k)进行DCT变换得到MFCC参数：

C (i) = Σ_{k = 1}^{K_{FB}} S_{FB} (k) \times \cos (\frac{i \times π}{K_{FB}} \times (k - 0.5)), 0 \leq i < p

其中p是倒谱的阶数，取p＝24。

5.一种如权利要求1所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述识别方法的语音采集的过程为：录制8种伪装条件下的语音样本，在录音时，要求说话者首先用正常语音阅读全部发音内容两遍，然后按照这8种伪装方式依次阅读所有内容一遍，然后使用Cool Edit Pro 2.0分割每个说话人的各种原始语音样本，以音节为单位，寻找一段语音信号两端稳定连续的零点，粗略的作为目标语音信号的开始和结束点，分割出所需的每个说话人各种伪装方式的语音样本，包括了两次正常发音和所有8种伪装条件下的元音和中、英文段落。

6.一种如权利要求5所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述语音的采集方法的8种伪装方式为：提高音调、压低音调、快速、慢速、捏鼻子、捂嘴、咬物、嚼物；所述发音内容包括五个部分：元音、单个字词、独立句子、英文段落和中文段落。

7.一种如权利要求5所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述发音内容部分的元音为标准英文音标：/ei/、/i:/、/ɑi/、/ju:/；单个字词包括了中、英文0～9十个数字单词和不含第一部分元音的5个简单单词；独立句子包括3个中文句子和4个英文句子，中文句子的长度在20个字，英文句子的长度在10个单词；英文段落设计为100个单词；中文段落设计为400字。

8.一种如权利要求5所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述语音的采集方法设计在无噪声无反射的消声室中录制。

9.一种如权利要求5所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述语音的采集方法设计的咬物伪装条件为叼铅笔。

10.一种如权利要求5所述的针对刻意伪装语音的说话人的识别方法，其特征在于：所述语音的采集方法设计的嚼物伪装条件为嚼口香糖。