CN104978507A

CN104978507A - 一种基于声纹识别的智能测井评价专家系统身份认证方法

Info

Publication number: CN104978507A
Application number: CN201410148223.2A
Authority: CN
Inventors: 张晋言; 邢强; 张德峰; 刘海河
Original assignee: Logging Co Of Triumph Petroleum Engineering Co Ltd Of China Petrochemical Industry; China Petrochemical Corp
Current assignee: Logging Co Of Triumph Petroleum Engineering Co Ltd Of China Petrochemical Industry; China Petrochemical Corp
Priority date: 2014-04-14
Filing date: 2014-04-14
Publication date: 2015-10-14
Anticipated expiration: 2034-04-14
Also published as: CN104978507B

Abstract

一种基于声纹识别的智能测井评价专家系统身份认证方法，采集解释专家用户对同一文本发音的声纹波形，构成声纹模板库；通过待识别用户指示，得到要进行身份认证的解释专家名；采集待识别用户对与声纹模板库声纹波形；从声纹模板库中，提取对应该解释专家名的声纹模板；分别对解释专家和待识别用户的声纹模板，进行抗干扰预处理，并提取声纹特征，形成样本特征矢量序列；计算待识别用户样本特征矢量序列与该解释专家样本特征矢量序列之间的匹配距离，则判定待识别用户为指示的解释专家。本发明具有认证准确率高，速度快，鲁棒性强，可准确识别过慢和过快速语音等优点。

Description

一种基于声纹识别的智能测井评价专家系统身份认证方法

技术领域

本发明涉及一种基于声纹识别的智能测井评价专家系统身份认证方法，属于计算机信息安全技术领域，应用于测井处理解释软件领域。

背景技术

国外发展了多种石油测井解释的智能测井评价专家系统，如斯伦贝谢公司的地层倾角解释咨询系统和岩性模式识别(LITHO)专家系统，壳牌石油公司的岩石物性评价知识库系统（LOGIX）。而国内主要有华北油田和胜利油田的OWLI和LIX测井解释智能专家系统，但这些智能测井评价专家系统缺少用户身份认证和权限划分，易造成构建的专家知识库被非法修改和盗用。

基于声纹的生物特征信息识别技术，利用人类发音器官的生理差异以及后天形成的行为差异导致的发音方式和说话习惯的不同，进行身份识别和认证，具有安全程度高，使用者易接受，生物特征获取成本低廉，认证算法复杂度低等优势，已逐渐取代传统的密码认证方式。

在已有的声纹识别技术中，主要有基于高斯混合模型（专利：CN102194455A和CN102324232A）和基于矢量量化方法（专利：101055718A）的两大类方法。

基于高斯混合模型的方法主要包括训练和待识别样本声纹波形信息的特征提取，构建训练样本特征向量的高斯混合模型，计算待识别样本特征向量在高斯混合模型中的概率分布，作为判别条件。缺点：(1)声纹信息特征并不完全符合高斯分布，与高斯模型不够吻合；(2)模型初始参数的选取比较随机，严重影响系统的识别率；(3)构建高斯混合模型，训练算法复杂程度高，迭代过程中易出现协方差矩阵元素小于零的情况，造成无法训练得到最终模型。

基于矢量量化的方法主要包括训练和待识别样本声纹波形信息的特征提取，构建训练样本特征向量的矢量量化码本，采用穷尽搜索，计算待识别样本输入矢量与所有训练样本码字之间的失真，通过比较找出失真最小的码字，作为判别结果。缺点：(1)从码本中搜索训练矢量的最近码字需要大量的存储空间和繁琐的计算，当采用大码本和高维矢量时，计算复杂度将非常大；(2)初始码本的选择影响码本训练的收敛速度和最终码本的性能。

实际应用中还发现这两种方法的鲁棒性较差，对于过慢和过快速的待识别声纹的识别率很低。

发明内容

本发明的一种基于声纹识别的智能测井评价专家系统身份认证方法，目的在于使用用户的声纹信息对智能测井评价专家系统用户进行身份认证，并划分相应的权限，避免因智能测井评价专家系统中的专家知识库被非法修改和盗用引发的安全问题。

本发明的技术方案

一种基于声纹识别的智能测井评价专家系统身份认证方法，其特征在于包括以下步骤：

(1)采集智能测井评价专家系统每位解释专家用户对同一文本发音的声纹波形，构成声纹模板库；

(2)通过待识别用户指示，得到要进行身份认证的解释专家名；

(3)采集待识别用户对与声纹模板库中构建该解释专家声纹模板相同的文本发音的声纹波形；

(4)从声纹模板库中，提取对应该解释专家名的声纹模板；

(5)对解释专家的声纹模板，进行抗干扰预处理，并提取声纹特征，形成样本特征矢量序列；

(6)对待识别用户声纹波形，进行抗干扰预处理，并提取声纹特征，形成待识别样本特征矢量序列；

(7)计算待识别用户样本特征矢量序列与该解释专家样本特征矢量序列之间的匹配距离，如果该距离小于拒识阈值，则判定待识别用户为指示的解释专家，识别成功，系统开放智能测井评价所用知识库；否则，拒识。

上述方案中的步骤(5)、(6)抗干扰预处理方法包括以下步骤：

(a)提取声纹波形的浊音段；

(b)对每个浊音段，进行重叠分帧处理；

(c)对每帧信号，进行加窗处理；

(d)对加窗后信号进行FFT变换。

针对步骤(5)、(6)中抗干扰预处理方法的具体实施步骤如下：

(a)提取声纹波形的浊音段；首先采用倒谱法计算声纹波形的基音频率，信号s[n]的实倒谱如下式计算：

c [n] = F_{DTDT}^{- 1} (\log | F_{DTFT} (s [n]) |) = \frac{1}{2 π} {&Integral;}_{- π}^{π} \log | S (ω) | e^{jωn} dω - - - (1)

式中，将实倒谱c[n]的x坐标n，通过SFreq（采样频率）/n，转换成频率值；限定基音频率值在70Hz和500Hz之间，在该限定频率范围内，寻找实倒谱c[n]中的最大值，如果该最大值大于0.09，则对应的频率即为计算的基音频率，否则基音频率为零；最后，对计算的基音频率进行中值滤波，将不为零的基音频率对应的声纹波形段，认为是浊音段；

(b)对每个浊音段，进行重叠分帧处理；帧与帧之间要保证一定的重叠，即帧移，帧移与帧长的比值一般在0～1/2之间；

(c)对每帧信号，进行加窗处理；对每帧数据加汉明窗，即是用有限长窗口对每帧信号进行加权处理，汉明窗函数如下所示：

(d)对加窗后信号进行FFT变换，得到该帧的频谱为：

X (k) = Σ_{n = 0}^{N} x (n) \exp (- j \frac{2 πnk}{N}) - - - (3)

针对步骤(5)、(6)中提取声纹特征信息采用梅尔频率倒谱系统（MFCC）作为声纹特征参数，具体实施步骤如下：

(e)计算每帧频谱X(k)幅度的平方，得到能量谱|X(k)|²；

(f)将能量谱通过Mel频率滤波器组，以实现对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰；

Mel频率滤波器组是一组三角带通滤波器，中心频率为f(m)，0≤m<M，M为滤波器组个数，取值20～28之间，Mel滤波器H_m(k)表示如下：

H_{m} (k) = \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k > f (m + 1) \end{matrix} - - - (4)

(g)对Mel滤波器组的输出取对数：压缩语音频谱的动态范围，将频域中的噪声的乘性成分转换成加性成分，得到对数Mel频谱S(m)如下：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m < M - - - (5)

(h)将对数能量谱S(m)经过离散余弦变换得到MFCC系数，第n个系数C(n)的计算如下式：

C (n) = Σ_{m = 1}^{M} S (m) \cos [n (m - 0.5 \frac{π}{M})], n = 1,2, . . ., L

(6)

式中，L为MFCC参数的维数。

针对步骤(7)中的匹配距离计算方法包括以下步骤：

(i)计算待识别用户样本特征矢量序列中每帧信号的特征向量与指示解释专家样本特征矢量序列中所有帧信号的特征向量之间的距离；

(j)寻找帧间距离最小值所对应的帧对作为最优匹配结果；

(k)计算待识别用户样本特征矢量序列与指示解释专家样本特征矢量序列之间的所有最优匹配帧对，并对所有最优匹配帧对之间的距离进行平均，作为待识别用户样本特征矢量序列与指示解释专家样本特征矢量序列之间的匹配距离。

本发明与现有技术相比，具有以下优点：

(1)为智能测井评价系统增加了基于声纹识别的用户身份认证和权限划分机制，有效保护了知识库不被非法修改和盗用；

(2)在声纹识别技术中，通过采用抗干扰预处理方法，只提取包含声纹特征的浊音段，去除清音段的干扰，解决了现有方法鲁棒性差的问题，极大提高了过慢和过快速声纹波形的识别率。

(3)在声纹识别技术中，采用基于帧间最优匹配对平均距离计算的模型匹配方法，具有匹配方法简单、高效，识别准确率高等优点，避免了现有方法中高斯混合模型和码本训练算法复杂，耗时、成功率低以及匹配码字搜索计算复杂程度大等问题。

附图说明

图1所示为本发明方法提出的一种基于声纹识别的智能测井评价专家系统身份认证方法的系统流程结构图。

具体实施方式

本实施例给出的一种基于声纹识别的智能测井评价专家系统身份认证方法，首先为智能测井评价专家系统的每位解释专家用户构建声纹模板库，通过采集三次每位解释专家用户对同一文本发音的声纹波形，经过量化后，以解释专家名字为索引，载入加密数据库。在系统身份认证过程中，待识别用户首先在解释专家列表中，指定要进行身份确认的解释专家名字，再采集待识别用户对与指定解释专家的声纹模板相同的文本进行发音的声纹波形，并量化。根据待识别用户的指示，从数据库中提取对应该解释专家名字的三个声纹模板，分别进行抗干扰预处理和声纹特征提取，组合成包含多个帧特征向量的特征矢量序列；对待识别用户量化后的声纹信号，进行抗干扰预处理和声纹特征提取，也形成对应每帧特征向量的特征矢量序列。在待识别用户样本特征矢量序列与指定解释专家样本特征矢量序列之间的匹配距离计算步骤中，首先计算待识别用户特征矢量序列中每帧特征矢量与指定解释专家特征矢量序列中所有帧特征矢量之间的帧间距离，寻找帧间距离最小的最优匹配对，并将最优匹配对的帧间距离入栈存储，迭代循环，直到待识别用户特征矢量序列中所有帧对应的最优匹配对的帧间距离全部入栈存储；计算最优匹配对帧间距离栈内所有存储值的平均值，作为待识别用户样本特征矢量序列与指定解释专家样本特征矢量序列之间的匹配距离，如果该距离小于拒识阈值（经验值），则判定待识别用户为指定的解释专家，识别成功，系统开放智能测井评价所用知识库，否则，拒识。

抗干扰预处理方法的具体实施步骤如下：

(1)提取声纹波形的浊音段；本发明首先采用倒谱法计算声纹波形的基音频率，信号s[n]的实倒谱如下式计算：

c [n] = F_{DTDT}^{- 1} (\log | F_{DTFT} (s [n]) |) = \frac{1}{2 π} {&Integral;}_{- π}^{π} \log | S (ω) | e^{jωn} dω - - - (1)

式中，将实倒谱c[n]的x坐标n，通过SFreq（采样频率）/n，转换成频率值；限定基音频率值在70Hz和500Hz之间，在该限定频率范围内，寻找实倒谱c[n]中的最大值，如果该最大值大于0.09，则对应的频率即为计算的基音频率，否则基音频率为零。最后，对计算的基音频率进行中值滤波。将不为零的基音频率对应的声纹波形段，认为是浊音段。

(2)对每个浊音段，进行重叠分帧处理；语音信号的时变特性决定对其进行处理必须在一小段语音上进行，因此要对其进行分帧处理，同时为了保证语音信号不会因为分帧而导致信息的丢失，帧与帧之间要保证一定的重叠，即帧移，帧移与帧长的比值一般在0～1/2之间。本发明中使用的帧长为256个采样点，帧移为128个采样点。

(3)对每帧信号，进行加窗处理；对每帧数据加汉明窗，即是用有限长窗口对每帧信号进行加权处理。汉明窗函数如下所示：

汉明窗的带宽大约是矩形窗的两倍，在通带外，汉明窗的衰减比矩形窗大得多。汉明窗较好的保留了高频部分的信号，更适合用于频域分析。因此，本发明采用汉明窗，窗长即为每帧的长度。

(4)对加窗后信号进行FFT变换；本发明提取声纹波形的频域特征，因此对加窗后的每帧信号进行FFT变换，得到该帧的频谱为：

X (k) = Σ_{n = 0}^{N} x (n) \exp (- j \frac{2 πnk}{N}) - - - (3)

对抗干扰预处理后的每帧声纹信号频谱，提取声纹特征信息，本发明采用反映人耳对不同频率语音信号敏感程度的梅尔频率倒谱系统（MFCC）作为声纹特征参数，具体实施步骤如下：

(1)计算每帧频谱X(k)幅度的平方，得到能量谱|X(k)|²；

(2)将能量谱通过Mel频率滤波器组，以实现对语音信号的频谱进行平滑，并消除谐波，凸显原先语音的共振峰。

Mel频率滤波器组是一组三角带通滤波器，中心频率为f(m)，0≤m<M，M为滤波器组个数，一般取20～28之间，本发明取M值为20。Mel滤波器H_m(k)表示如下：

H_{m} (k) = \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k > f (m + 1) \end{matrix} - - - (4)

(3)对Mel滤波器组的输出取对数：压缩语音频谱的动态范围；将频域中的噪声的乘性成分转换成加性成分，得到对数Mel频谱S(m)如下：

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m < M - - - (5)

(4)将对数能量谱S(m)经过离散余弦变换（DTC）即可以得到MFCC系数，第n个系数C(n)的计算如下式：

C (n) = Σ_{m = 1}^{M} S (m) \cos [n (m - 0.5 \frac{π}{M})], n = 1,2, . . ., L - - - (6)

式中，L为MFCC参数的维数，其值通常依据实验情况来确定。本发明取L＝20，即取前20维的MFCC系数。

在待识别用户样本特征矢量序列与指定解释专家样本特征矢量序列之间的匹配距离计算方法中，具体实施时，对于帧间距离的计算，本发明采用欧氏距离作为帧间距离的度量。

Claims

1.一种基于声纹识别的智能测井评价专家系统身份认证方法，其特征在于包括以下步骤：

(4)从声纹模板库中，提取对应该解释专家名的声纹模板；

2.如权利要求1所述基于声纹识别的智能测井评价专家系统身份认证方法，其特征在于步骤(5)、(6)中的抗干扰预处理方法包括以下步骤：

(a)提取声纹波形的浊音段；

(b)对每个浊音段，进行重叠分帧处理；

(c)对每帧信号，进行加窗处理；

(d)对加窗后信号进行FFT变换。

3.如权利要求2所述基于声纹识别的智能测井评价专家系统身份认证方法，其特征在于，

步骤(5)、(6)中抗干扰预处理方法的具体实施步骤如下：

c [n] = F_{DTDT}^{- 1} (\log | F_{DTFT} (s [n]) |) = \frac{1}{2 π} {&Integral;}_{- π}^{π} \log | S (ω) | e^{jωn} dω - - - (1)

(d)对加窗后信号进行FFT变换，得到该帧的频谱为：

X (k) = Σ_{n = 0}^{N} x (n) \exp (- j \frac{2 πnk}{N}) - - - (3)

步骤(5)、(6)中提取声纹特征信息采用梅尔频率倒谱系统（MFCC）作为声纹特征参数，具体实施步骤如下：

(e)计算每帧频谱X(k)幅度的平方，得到能量谱|X(k)|²；

H_{m} (k) = \{\begin{matrix} 0, & k < f (m - 1) \\ \frac{2 (k - f (m - 1))}{(f (m + 1) - f (m - 1)) (f (m) - f (m - 1))}, & f (m - 1) \leq k < f (m) \\ \frac{2 (f (m + 1) - k)}{(f (m + 1) - f (m - 1)) (f (m + 1) - f (m))}, & f (m) \leq k \leq f (m + 1) \\ 0, & k > f (m + 1) \end{matrix} - - - (4)

S (m) = \ln (Σ_{k = 0}^{N - 1} {| X (k) |}^{2} H_{m} (k)), 0 \leq m < M - - - (5)

C (n) = Σ_{m = 1}^{M} S (m) \cos [n (m - 0.5 \frac{π}{M})], n = 1,2, . . ., L - - - (6)

式中，L为MFCC参数的维数。

4.如权利要求1或2、3所述基于声纹识别的智能测井评价专家系统身份认证方法，其特征在于步骤(7)中的匹配距离计算方法，该方法包括以下步骤：

(j)寻找帧间距离最小值所对应的帧对作为最优匹配结果；