CN106340298A

CN106340298A - 融合内容识别和话者识别的声纹解锁方法

Info

Publication number: CN106340298A
Application number: CN201510391231.4A
Authority: CN
Inventors: 郭逾; 李千目; 许小强; 李德强; 陈晗婧
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2017-01-18

Abstract

本发明公开了一种融合内容识别和话者识别的声纹解锁方法。该方法包括以下步骤：步骤1，建立密钥语音样本库和话者语音样本库，并建立相应的密钥样本识别模板和话者样本识别模板；步骤2，设定密钥，系统根据设定密钥组合密钥样本，形成当前密钥识别模板；步骤3，解锁时，通过麦克风采集语音信号，对输入语音信号进行预处理，并分别提取语音的内容识别特征参数和话者识别特征参数；步骤4，将输入语音的内容识别特征参数与当前密钥模板比对，同时将输入语音的话者识别特征参数与话者样本库模板比对，并综合两项比对结果进行判决是否授权解锁。本发明的方法具备较高的安全性能，同时包含了文本密钥和生理密钥的安全性，且计算简单，易于实现，移植性强。

Description

融合内容识别和话者识别的声纹解锁方法

技术领域

本发明涉及的是一种声纹解锁方法，特别是一种融合内容识别和话者识别的复合声纹解锁方法。

背景技术

声纹锁是将声纹识别技术应用于门禁系统而形成的一种锁。声纹解锁建立在声纹识别技术的基础之上，是声纹识别技术的一个具体的应用。在日本等国家的使用已经比较普遍，他们将声纹解锁在较为关键的门禁系统，实现隐私保护。

声纹解锁方法主要基于声纹识别技术实现。声纹识别主要分为说话人识别以及语音识别，由于说话人发音器官的生理差异及后天的行为差异，可以通过说话人识别能够对语音的话者是否为指定说话人进行判别。由于汉字(字母、数字)发音具有固定性和规律性，通过语音识别能够对语音所包含内容是否为指定内容进行判别。

识别系统一般由预处理、特征提取、模型建模、特征匹配判决四部分组成。

(1)预处理

语音信号的预处理主要包括预加重、加窗分帧以及有效语音帧提取。

(2)语音信号的预处理和特征提取

特征提取就是提取能够有效表征语音内容特征或说话人特征的参数。大部分采用的特征都是从语音信号模型中得到，这些特征既包含语音内容特征，又包含说话人的个性特征。

(3)模型建模

模型的建立包括模型结构的表示和模型参数的最优化算法。常用的建模模型包括矢量量化，模板匹配法，隐马尔可夫模型，高斯混合马尔可夫模型，人工神经网络方法等。

(4)特征匹配判决

对于输入的语音信号提取特征后，与实现建立的模型进行匹配识别，以判断输入信号是否为样本语音内容或样本说话人。

当前的声纹解锁主要集中在说话人确认方面，即单一确认输入语音的话者是否为样本语音库中的话者。由于说话人的语音信息可复制性较强，切获得较为容易，大部分声纹解锁并未取得很好的效果。

发明内容

本发明的目的在于提供一种安全性能高的融合语音内容识别和说话人确认的声纹解锁方法。

实现本发明目的的技术解决方案为：一种融合内容识别和话者识别的声纹解锁方法，包括以下步骤：

步骤1、建立密钥语音样本库和话者语音样本库，其中密钥语音样本库包括孤立的汉字语音、英文语音和数字语音，话者语音样本库存储授权解锁人的语音；所述话者语音样本库中每个话者语音样本均超过60s。

步骤2、建立样本库中密钥语音样本的识别模板和话者语音样本的识别模板；具体为：

步骤2-1、对语音数据进行预加重处理以提升语音的高频部分，具体采用一阶滤波器实现预加重，预加重函数为：

H(z)＝1-αz^-1

其中α为预加重系数，z为变量；

步骤2-2、对语音数据进行分帧、加窗处理，所述语音帧长为512点，帧移256点，窗函数采用汉明窗，窗函数为：

其中N为语音帧帧长；

步骤2-3、对密钥样本语音端点进行检测，提取有效语音帧，密钥样本语音端点检测采用短时TEO能量算法进行有效语音帧检测，短时TEO能量函数为：

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

其中i为帧序号，N为语音帧帧长，x(n)为语音信号采样值，ψ[x(n)]为短时TEO能量算子，它的具体形式为

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

其中E_avg为所有帧的平均TEO能量，α₁为端点检测阈值的系数；

当E_i＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤2-4、对话者样本语音进行端点进行检测，提取有效语音帧；具体采用频域能量特性检测，仅提取语音的元音帧作为有效语音帧；

采用频域能量特性检测，提取语音的元音帧作为有效语音帧的具体步骤为：

步骤2-4-1、将提取的帧信号x(n)进行快速傅立叶变换得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

其中N为语音帧帧长，x(n)为语音信号采样值，k为频谱X(k)对应的频点；

步骤2-4-2、确定每帧频谱X(k)在290-4000Hz频率范围内的频域能量，记做FE_i

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

其中i为帧号，P(f)为X(k)对应的幅度谱；

步骤2-4-3、设定检验阀值Thr_Sbec，公式为

Thr_FE＝α₂·FE_avg

其中FE_avg所有帧的平均频域能量，α₂为端点检测阈值的系数；

当FE_k＞Thr_FE时，判定为语音帧，否则判定为非语音帧。

步骤2-5、特征参数提取，利用步骤2-3判定的有效语音帧提取语音的内容识别特征参数，利用步骤2-4判定的有效语音帧提取语音的话者识别特征参数，两者特征参数均采用梅尔频率倒谱系数进行提取；特征参数提取的具体步骤为：

步骤2-5-1、对每帧语音信号x(n)进行快速傅立叶变换得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

步骤2-5-2、把得到的X(k)通过Mel三角滤波器组得到Mel频率并进行对数处理，得到对数频谱S(m)，具体函数为：

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

其中M为滤波器组中三角滤波器个数，H_m(k)为滤波器函数，其具体形式为

H_{m} (k) \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k &GreaterEqual; f (m + 1) \end{matrix}

其中f(m)为三角滤波器的中心频率；

步骤2-5-3、将得到的对数谱S(m)经过离散余弦变换得到梅尔频率倒谱系数，函数为：

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

其中t为梅尔频率倒谱系数的阶数，所述梅尔频率倒谱系数即为所要提取的特征参数。

步骤2-6、对特征参数进行建模，根据步骤2-5提取的语音内容识别特征参数和话者识别特征参数，分别建立密钥识别模型和话者识别模型。

密钥识别模型和话者识别模型均采用矢量量化模型进行参数建模，参数建模采用基于分裂的LBG算法设计矢量量化码本，具体步骤为：

步骤2-6-1、设定码本和迭代训练参数：设全部输入训练矢量X的集合为S,M₁为全部输入训练矢量X的个数；设置码本的尺寸J、迭代算法的最大迭代次数L_max、畸变改进阈值δ；

步骤2-6-2、提取出所有帧的特征矢量的均值作为第一个码字矢量将码本根据分裂规则，形成J个码字，分裂函数为：

\{\begin{matrix} {Y_{1}}^{(2)} = {Y_{1}}^{(0)} (1 + ϵ) \\ {Y_{1}}^{(1)} = {Y_{1}}^{(0)} (1 - ϵ) \end{matrix}

其中ε为分裂函数的扰乱系数；

步骤2-6-3、根据步骤2-6-2的码本，求出平均失真最小条件下的所有区域边界S_i(i＝1,2,......,J)，根据最邻近准则将训练序列S分成J个子集即当下式成立：

d (X, Y_{i}^{(m - 1)}) \leq d (X, Y_{i}^{(m - 1)}) &ForAll; i, i &NotEqual; 1

其中X为输入的训练矢量，m代表输入的第m个特征矢量，表示第m个特征矢量的第i个码字；

步骤2-6-4、确定总畸变D^m，所用公式为：

D^{m} = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)})

步骤2-6-5、确定畸变改进量ΔD^m的相对值δ^(m)，所用公式为：

δ^{(m)} = \frac{{ΔD}^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}}

步骤2-6-6、确定新码本的码字所用公式为：

Y_{J}^{(m)} = \frac{1}{N_{i}} \underset{X &Element; S_{i}^{(m)}}{Σ} X

步骤2-6-7、判断δ^(m)＜δ，若是，转入执行步骤2-6-9；否则，转入执行步骤2-6-8；

步骤2-6-8、判断m＜L_max，若否，转入执行步骤2-6-9；否则m＝m+1，转入执行步骤2-6-4；

步骤2-6-9、迭代终止，输出作为最终的码字矢量，作为VQ模板。

步骤3、设定当前密钥，当前密钥由密钥语音样本库中n个样本构成，并将该n个样本线性组合形成当前密钥的识别模型，n为正整数；

步骤4、利用麦克风采集输入的语音信号，判断输入信号是否有效，无效则提示重新输入，有效则执行步骤5；具体为：

步骤4-1、麦克风采集语音信号；

步骤4-2、判断输入语音时长，时长高于1s则输入语音判定有效，进入步骤4-3，否则判定无效，提示重新输入语音；

步骤4-3、判断输入语音是否存在振幅变化，若有变化，则认为存在有效语音输入，判定有效，进入步骤5，若无变化则判定无效，提示重新输入语音；

步骤4-4、判断提示重新输入语音的次数是否达到n次，如果达到则进行强制锁死，需要n秒后自动解除锁死或管理员进入系统解除锁死；如果没有达到n次，则不处理。

步骤5、对有效的输入的语音信号进行预处理，并分别提取说话人特征参数和语音内容特征参数；具体步骤为：

步骤5-1、对输入语音数据进行预加重处理以提升语音的高频部分，具体采用一阶滤波器实现预加重，预加重函数为：

H(z)＝1-αz^-1

步骤5-2、对经过步骤5-1处理后的语音数据进行分帧、加窗处理，所述语音帧长为512点，帧移256点，窗函数采用汉明窗，窗函数为：

步骤5-3、对经过步骤5-2的语音数据进行端点进行检测，提取用于内容识别的有效语音帧，针对语音内容识别特性，采用短时TEO能量测算法进行有效语音帧检测，短时TEO能量函数为：

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

ψ[x(n)]为短时TEO能量算子，它的具体形式为

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

其中E_avg所有帧的平均TEO能量；

当E_k＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤5-4、对经过步骤5-2的语音数据进行端点进行检测，提取用于话者识别的有效语音帧，采用频域能量特性检测，仅提取语音的元音帧作为有效语音帧；具体步骤为：

步骤5-4-1、将帧信号x(n)进行快速傅立叶变换得到频谱X(k)具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

步骤5-4-2、计算每帧频谱X(k)在290-4000Hz频率范围内的频域能量，记做FE_i

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

步骤5-4-3、设定检验阀值Thr_Sbec，公式为

Thr_FE＝α₂·FE_avg

其中FE_avg为所有帧的平均频域能量，当FE_k＞Thr_FE时，判定为语音帧，否则判定为非语音帧；

步骤5-5、特征参数提取，利用步骤5-3判定的有效语音帧提取语音的内容识别特征参数，利用步骤5-4判定的有效语音帧提取语音的话者识别特征参数，两者特征参数均采用梅尔频率倒谱系数，具体步骤为：

步骤5-5-1、对每帧语音信号x(n)进行快速傅立叶变换(FFT)得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

步骤5-5-2、把得到X(k)的通过Mel三角滤波器组得到Mel频率并通过对数处理，得到对数频谱S(m)，具体函数为：

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

H_m(k)为滤波器函数，其具体形式为：

H_{m} (k) \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k &GreaterEqual; f (m + 1) \end{matrix}

步骤5-5-3、将得到的对数谱S(m)经过离散余弦变换得到梅尔频率倒谱系数，函数为：

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

梅尔频率倒谱系数即为所要提取的特征参数。

步骤6、将输入语音的内容识别特征参数与当前密钥模板进行匹配识别，并给出匹配结果；并将输入语音的话者识别特征参数与话者样本库中话者模板进行匹配识别，并给出匹配结果；具体步骤为：

步骤6-1、进行话者识别，设X＝{x₁,x₂......x_T}是根据步骤5提取的说话人特征参数，共T帧，在步骤2中说话人样本库训练得到的码书为：{B₁,B₂......B_N}，N为样本库中说话人的个数，每个码书包含J个码本；

步骤6-1-1、依次计算输入特征矢量与每个码书的失真距离D

D (n) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}) (n \leq N)

步骤6-1-2、判断D(n)是否达到确认阈值，若达到则话者识别结果返回确认成功；若未达到，则结果返回确认失败；

步骤6-2、进行语音内容识别，设X＝{x₁,x₂......x_T}是根据步骤5提取语音内容特征参数，共T帧；在步骤2中密钥样本库训练得到的码书为：{B₁,B₂......B_K}，K为样本密钥的个数，每个码书包含J个码本；根据步骤3组合成当前密钥，提取当前密钥的码书{B₁,B₂......B_C}，C为当前密钥包含的密钥样本数；

步骤6-2-1、依次计算输入特征矢量与每个码书的失真距离D，所用公式为：

D (o) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}) (o \leq C)

步骤6-2-2、判断D(o)是否达到确认阈值，若达到则内容确认结果返回确认成功；若未达到，则结果返回确认失败。

步骤7、对内容识别结果和话者识别结果进行综合判决，如果判决失效则提示重新输入语音并转到步骤4，如果判决有效则解锁。具体为：

1)当话者识别反馈D(n)和内容确认反馈D(o)同时为成功确认，则解锁；否则提示输入错误，提示重新输入；

2)提示重新输入语音达到n次，则进行强制锁死，需要n秒后自动解除锁死或管理员进入系统解除锁死；否则不处理。

本发明与现有技术相比，其显著优点为：(1)本发明的方法安全性强，相对于指纹、虹膜、语音等不可变且可复制特征，增加了可变的语音内容密钥，管理人员能够根据样本库中的文字样本，自主设定并周期性更新声纹解锁需要的语音内容密钥；(2)本发明的方法合理利用说话人信息特征和语音结构特征，在提高该技术安全性和实用性的同时，减小了系统消耗；(3)本发明的方法应用面广，系统构架简单且易于实现，可以用于身份鉴定、智能家居控制等领域；(4)本发明的方法使用简便，可以通过远程控制实现加(解)锁。

附图说明

图1是本发明融合内容识别和话者识别的声纹解锁方法的流程图。

图2是建立样本库中密钥样本识别模板的流程图。

图3是建立样本库中话者样本识别模板的流程图。

图4是输入信号判断流程图。

图5是提取适用于说话人识别和语音内容识别的特征参数流程图。

图6是语音内容确认匹配识别流程图。

图7是话者识别匹配流程图。

图8是综合判决流程图。

图9是MFCC特征参数提取流程图。

图10是矢量量化模型建模流程图。

具体实施方式

结合图1，本发明融合内容识别和话者识别的声纹解锁方法包括以下步骤：

步骤1、建立密钥语音样本库和话者语音样本库，其中密钥语音样本库包括孤立的汉字语音、英文语音和数字语音，话者语音样本库存储授权解锁人的语音，每个话者语音样本均超过60s；

步骤2、建立样本库中密钥语音样本的识别模板和话者语音样本的识别模板，结合图2和图3，建立样本库中密钥语音样本的识别模板和话者语音样本的识别模板具体步骤为：

H(z)＝1-αz^-1

步骤2-3、对密钥样本语音进行端点进行检测，提取有效语音帧。针对语音内容识别特性，密钥样本语音端点检测采用短时TEO能量测算法进行有效语音帧检测，短时TEO能量函数为：

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

ψ[x(n)]为短时TEO能量算子，它的具体形式为

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

其中E_avg所有帧的平均TEO能量。

当E_k＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤2-4、对话者样本语音进行端点进行检测，提取有效语音帧。针对说话人语音样本以及说话人识别的特性，采用频域能量特性检测，仅提取语音的元音帧作为有效语音帧；具体步骤为：

步骤2-4-1、将提取的帧信号x(n)进行快速傅立叶变换得到频谱X(k)具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

步骤2-4-2、计算每帧频谱X(k)在290-4000Hz频率范围内的频域能量，记做FE_i

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

P(f)为X(k)对应的幅度谱；

步骤2-4-3、设定检验阀值Thr_Sbec，公式为

Thr_FE＝α₂·FE_avg

其中FE_avg所有帧的平均频域能量。

当FE_k＞Thr_FE时，判定为语音帧，否则判定为非语音帧；

步骤2-5、特征参数提取。利用步骤2-3判定的有效语音帧提取语音的内容识别特征参数，利用步骤2-4判定的有效语音帧提取语音的话者识别特征参数。两者特征参数均采用梅尔频率倒谱系数，提取方法相同。具体步骤为：

步骤2-5-1、对每帧语音信号x(n)进行快速傅立叶变换(FFT)得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

步骤2-5-2、把得到X(k)的通过Mel三角滤波器组得到Mel频率并通过对数处理，得到对数频谱S(m)，具体函数为：

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

H_m(k)为滤波器函数，它的具体形式为

H_{m} (k) \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k &GreaterEqual; f (m + 1) \end{matrix}

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

梅尔频率倒谱系数即为所要提取的特征参数。

步骤2-6、特征参数建模。对根据步骤2-5提取的语音内容识别特征参数和话者识别特征参数，分别建立密钥识别模型和话者识别模型。密钥识别模型和话者识别模型均采用矢量量化模型进行参数建模。

参数建模采用基于分裂的LBG算法设计矢量量化码本。具体步骤为：

步骤2-6-1、设定码本和迭代训练参数：设全部输入训练矢量X的集合为S,M₁为全部输入训练矢量X的个数；设置码本的尺寸J、迭代算法的最大迭代次数L_max、畸变改进阈值δ。

步骤2-6-2、提取出所有帧的特征矢量的均值作为第一个码字矢量将当前码本根据分裂规则，形成J个码字。分裂函数为：

\{\begin{matrix} {Y_{1}}^{(2)} = {Y_{1}}^{(0)} (1 + ϵ) \\ {Y_{1}}^{(1)} = {Y_{1}}^{(0)} (1 - ϵ) \end{matrix}

步骤2-6-3、根据2-6-2码本，求出平均失真最小条件下的所有区域边界S_i(i＝1,2,......,J)。根据最邻近准则将训练序列S分成J个子集即当下式成立：

d (X, Y_{i}^{(m - 1)}) \leq d (X, Y_{i}^{(m - 1)}) &ForAll; i, i &NotEqual; 1

步骤2-6-4、计算总畸变D^m

D^{m} = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{^{(m - 1)}})

步骤2-6-5、计算畸变改进量ΔD^m的相对值δ^(m)

δ^{(m)} = \frac{{ΔD}^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}}

步骤2-6-6、计算新码本的码字

Y_{J}^{(m)} = \frac{1}{N_{i}} \underset{X &Element; S_{i}^{(m)}}{Σ} X

步骤2-6-7、判断δ^(m)＜δ，若是，转入执行步骤2-6-9；否则，转入执行步骤2-6-8

步骤2-6-8、判断m＜L_max，若否，转入执行步骤2-6-9；否则m＝m+1，转入执行步骤2-6-4

步骤4、通过麦克风采集输入的语音信号，判断输入信号是否有效，无效提示重新输入，有效则继续。结合图4，检测输入信号是否有效具体步骤为：

步骤4-1、提示输入语音，等待麦克风采集语音信号

步骤4-2、判断输入语音时长，时长高于1s则输入语音判定有效，进入第三步，否则判定无效，提示重新输入语音。

步骤4-3、判断输入语音是否存在振幅变化，若有变化，则认为存在有效语音输入，判定有效，进入步骤5，若无变化则判定无效，提示重新输入语音。

步骤4-4、提示重新输入语音达到n次，则进行强制锁死，需要n秒后自动解除锁死或管理员进入系统解除锁死。

步骤5、对有效的输入的语音信号进行预处理，并分别提取输入语音的内容识别特征参数和话者识别特征参数，结合图5，提取输入语音的内容识别特征参数和话者识别特征参数具体步骤为：

步骤5-1、对语音数据进行预加重处理以提升语音的高频部分，具体采用一阶滤波器实现预加重，预加重函数为：

H(z)＝1-αz^-1

步骤5-2、对语音数据进行分帧、加窗处理，所述语音帧长为512点，帧移256点，窗函数采用汉明窗，窗函数为：

步骤5-3、对经过步骤5-2的语音数据进行端点进行检测，提取用于内容识别的有效语音帧。针对语音内容识别特性，采用短时TEO能量测算法进行有效语音帧检测，短时TEO能量函数为：

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

ψ[x(n)]为短时TEO能量算子，它的具体形式为

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

其中E_avg所有帧的平均TEO能量

当E_k＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤5-4、对经过步骤5-2的语音数据进行端点进行检测，提取用于话者识别的有效语音帧。针对话者识别的特性，采用频域能量特性检测，仅提取语音的元音帧作为有效语音帧；具体步骤为：

步骤5-4-1、将提取的帧信号x(n)进行快速傅立叶变换得到频谱X(k)具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

步骤5-4-3、设定检验阀值Thr_Sbec，公式为：

Thr_FE＝α₂·FE_avg

其中FE_avg所有帧的平均频域能量，当FE_k＞Thr_FE时，判定为语音帧，否则判定为非语音帧；

步骤5-5、特征参数提取，步骤5-5特征参数提取。利用步骤5-3判定的有效语音帧提取语音的内容识别特征参数，利用步骤5-4判定的有效语音帧提取语音的话者识别特征参数。两者特征参数均采用梅尔频率倒谱系数，提取方法相同。具体步骤为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

H_m(k)为滤波器函数，它的具体形式为

H_{m} (k) \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k &GreaterEqual; f (m + 1) \end{matrix}

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

梅尔频率倒谱系数即为所要提取的特征参数。

步骤6、输入语音的语音内容特征参数与当前密钥模板进行匹配识别，输入语音的说话人特征参数与样本库中说话人模板进行匹配识别，并给出匹配结果。结合图6和图7，具体步骤为：

步骤6-1、首先进行话者识别，设X＝{x₁,x₂......x_T}是根据步骤5提取的说话人特征参数，共T帧。在步骤2中说话人样本库训练得到的码书为：{B₁,B₂......B_N}，N为样本库中说话人的个数，每个码书包含J个码本。

步骤6-1-1、依次计算输入特征矢量与每个码书的失真距离D

D (n) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}) (n \leq N)

步骤6-1-2判断D(n)是否达到确认阈值，若达到则话者识别结果返回确认成功；若未达到，则结果返回确认失败。

步骤6-2、其次进行语音内容识别，设X＝{x₁,x₂......x_T}是根据步骤5提取语音内容特征参数，共T帧。在步骤2中密钥样本库训练得到的码书为：{B₁,B₂......B_K}，K为样本密钥的个数，每个码书包含J个码本。根据步骤3组合成当前密钥，提取当前密钥的码书{B₁,B₂......B_C}，C为当前密钥包含的密钥样本数。

步骤6-2-1、依次计算输入特征矢量与每个码书的失真距离D

D (o) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}) (o \leq C)

步骤7、综合内容匹配结果和话者匹配结果进行判决，判决失效则转到步骤4，有效则解锁。结合图8，进行综合判决的具体步骤为：

步骤7-1、若话者识别反馈D(n)和内容确认反馈D(o)同时为成功确认，则解锁；否则提示输入错误，提示重新输入

步骤7-2、提示重新输入语音达到n次，则进行强制锁死，需要n秒后自动解除锁死或管理员进入系统解除锁死。

下面结合实施例对本发明做进一步详细的描述：

实施例1

下面结合一个实例对本发明作进一步详细描述。

密钥语音样本库中包含26个英文字母，不区分大小写。话者语音样本库中包含5个说话人样本语音。密钥样本库语音和话者样本库语音均在实验室环境中录制。设定系统参数，建立密钥语音样本的识别模板和话者语音样本的识别模板，系统参数设置如下表：

表1语音建模参数设置

根据表1设置参数，得到26个密钥样本识别模板以及5个话者识别模板。设置当前密钥为asdf，系统线性组合密钥样本a、密钥样本s、密钥样本d、密钥样本f识别模板，组成当前密钥识别模板。

系统设置完毕后，申请解锁的说话人对麦克风输入语音，该说话人为样本库中5个话者之一，输入语音内容为qwer。经过判断后，满足有效输入语音条件，开始对输入语音信号进行处理，分别提取输入语音的内容识别特征参数和话者识别特征参数。具体参数设置如下表：

表2输入语音特征参数提取

系统将输入语音的内容识别特征参数与当前密钥模板进行匹配，将输入语音的话者识别特征参数与话者样本库中话者模型进行匹配，匹配阈值如下表：

表3特征参数匹配阈值

经过系统计算，输入语音的话者识别匹配值为3212，输入语音的内容识别匹配值为132，话者识别返回结果为成功，内容识别返回结果为失败，综合两者结果，系统判定解锁失败。

系统提示重新输入语音。

由上可知，本发明的方法安全性强，增加了可变的语音内容密钥，管理人员能够根据样本库中的文字样本，自主设定并周期性更新声纹解锁需要的语音内容密钥；本发明的方法使用简便，可以通过远程控制实现加(解)锁。

Claims

1.一种融合内容识别和话者识别的声纹解锁方法，其特征在于，包括以下步骤：

步骤1、建立密钥语音样本库和话者语音样本库，其中密钥语音样本库包括孤立的汉字语音、英文语音和数字语音，话者语音样本库存储授权解锁人的语音；

步骤2、建立样本库中密钥语音样本的识别模板和话者语音样本的识别模板；

步骤4、利用麦克风采集输入的语音信号，判断输入信号是否有效，无效则提示重新输入，有效则执行步骤5；

步骤5、对有效的输入的语音信号进行预处理，并分别提取说话人特征参数和语音内容特征参数；

步骤6、将输入语音的内容识别特征参数与当前密钥模板进行匹配识别，并给出匹配结果；并将输入语音的话者识别特征参数与话者样本库中话者模板进行匹配识别，并给出匹配结果；

步骤7、对内容识别结果和话者识别结果进行综合判决，如果判决失效则提示重新输入语音并转到步骤4，如果判决有效则解锁。

2.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤1所述话者语音样本库中每个话者语音样本均超过60s。

3.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤2中建立样本库中密钥语音样本的识别模板和话者样本的识别模板的步骤具体为：

步骤2‐1、对语音数据进行预加重处理以提升语音的高频部分，具体采用一阶滤波器实现预加重，预加重函数为：

H(z)＝1-αz^-1

其中α为预加重系数，z为变量；

其中N为语音帧帧长；

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

当E_i＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤2‐5、特征参数提取，利用步骤2‐3判定的有效语音帧提取语音的内容识别特征参数，利用步骤2‐4判定的有效语音帧提取语音的话者识别特征参数，两者特征参数均采用梅尔频率倒谱系数进行提取；

4.根据权利要求3所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤2‐4中采用频域能量特性检测，提取语音的元音帧作为有效语音帧的具体步骤为：

步骤2‐4‐1、将提取的帧信号x(n)进行快速傅立叶变换得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

其中i为帧号，P(f)为X(k)对应的幅度谱；

步骤2-4-3、设定检验阀值Thr_Sbec，公式为

Thr_FE＝α₂·FE_avg

当FE_k＞Thr_FE时，判定为语音帧，否则判定为非语音帧。

5.根据权利要求3所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤2‐5特征参数提取的具体步骤为：

步骤2‐5‐1、对每帧语音信号x(n)进行快速傅立叶变换得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

H_{m} (k) \{\begin{matrix} 0 & , k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & , f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & , f (m) \leq k \leq f (m + 1) \\ 0 & , k &GreaterEqual; f (m + 1) \end{matrix}

其中f(m)为三角滤波器的中心频率；

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

6.根据权利要求3所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤2‐6中密钥识别模型和话者识别模型均采用矢量量化模型进行参数建模，参数建模采用基于分裂的LBG算法设计矢量量化码本，具体步骤为：

\{\begin{matrix} {Y_{1}}^{(2)} = {Y_{1}}^{(0)} (1 + ϵ) \\ {Y_{1}}^{(1)} = {Y_{1}}^{(0)} (1 - ϵ) \end{matrix}

其中ε为分裂函数的扰乱系数；

d (X, Y_{i}^{(m - 1)}) \leq d (X, Y_{i}^{(m - 1)}) &ForAll; i, i &NotEqual; 1

其中X为输入的训练矢量，m代表输入的第m个特征矢量，Y_i ^m表示第m个特征矢量的第i个码字；

步骤2-6-4、确定总畸变D^m，所用公式为：

D^{m} = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)})

步骤2-6-5、确定畸变改进量ΔD^m的相对值δ^(m)，所用公式为：

δ^{(m)} = \frac{{ΔD}^{(m)}}{D^{(m)}} = \frac{| D^{(m - 1)} - D^{(m)} |}{D^{(m)}}

步骤2-6-6、确定新码本的码字所用公式为：

Y_{J}^{(m)} = \frac{1}{N_{i}} \underset{X &Element; S_{i}^{(m)}}{Σ} X

7.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤4通过麦克风采集输入的语音信号，判断输入信号是否有效，无效提示重新输入，有效则继续的步骤为：

步骤4‐1、麦克风采集语音信号；

步骤4‐2、判断输入语音时长，时长高于1s则输入语音判定有效，进入步骤4‐3，否则判定无效，提示重新输入语音；

步骤4‐3、判断输入语音是否存在振幅变化，若有变化，则认为存在有效语音输入，判定有效，进入步骤5，若无变化则判定无效，提示重新输入语音；

步骤4‐4、判断提示重新输入语音的次数是否达到n次，如果达到则进行强制锁死，需要n秒后自动解除锁死或管理员进入系统解除锁死；如果没有达到n次，则不处理。

8.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤5对有效的输入的语音信号进行预处理，并提取输入语音的内容识别特征参数和话者识别特征参数的具体步骤为：

步骤5‐1、对输入语音数据进行预加重处理以提升语音的高频部分，具体采用一阶滤波器实现预加重，预加重函数为：

H(z)＝1-αz^-1

E_{i} = Σ_{n = 0}^{N - 1} ψ^{2} [x (n)]

ψ[x(n)]为短时TEO能量算子，它的具体形式为

ψ[x(n)]＝x²(n)-x(n-1)·x(n+1)

设定检测阈值Thr_E，公式为

Thr_E＝α₁·E_avg

其中E_avg所有帧的平均TEO能量；

当E_k＞Thr_E时，判定为语音帧，否则判定为非语音帧；

步骤5‐4‐1、将帧信号x(n)进行快速傅立叶变换得到频谱X(k)具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

{FE}_{i} = Σ_{f = 290}^{4000} {| P (f) |}^{2}

步骤5-4-3、设定检验阀值Thr_Sbec，公式为

Thr_FE＝α₂·FE_avg

步骤5‐5、特征参数提取，利用步骤5‐3判定的有效语音帧提取语音的内容识别特征参数，利用步骤5‐4判定的有效语音帧提取语音的话者识别特征参数，两者特征参数均采用梅尔频率倒谱系数，具体步骤为：

步骤5‐5‐1、对每帧语音信号x(n)进行快速傅立叶变换(FFT)得到频谱X(k)，具体函数为：

X (k) = Σ_{n = 0}^{N - 1} x (n) e^{- j 2 π k n / N}

S (m) = l n (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m \leq M

H_m(k)为滤波器函数，其具体形式为：

H_{m} (k) \{\begin{matrix} 0 & , k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & , f (m - 1) \leq k \leq f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))} & , f (m) \leq k \leq f (m + 1) \\ 0 & , k &GreaterEqual; f (m + 1) \end{matrix}

c_{m f c c} (t) = Σ_{m = 0}^{M} S (m) c o s (π t (m + 1 / 2) / M)

梅尔频率倒谱系数即为所要提取的特征参数。

9.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤6输入语音的语音内容特征参数与当前密钥模板进行匹配识别，输入语音的说话人特征参数与样本库中说话人模板进行匹配识别，并给出匹配结果的步骤为：

步骤6-1-1、依次计算输入特征矢量与每个码书的失真距离D

D (n) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}), (n \leq N)

D (o) = Σ_{i = 1}^{J} \underset{x &Element; S_{i}^{(m)}}{Σ} d (X, Y_{i}^{(m - 1)}), (o \leq C)

10.根据权利要求1所述的融合内容识别和话者识别的声纹解锁方法，其特征在于，步骤7综合内容匹配结果和话者匹配结果进行判决，具体为：