CN103117059B

CN103117059B - 一种基于张量分解的语音信号特征提取方法

Info

Publication number: CN103117059B
Application number: CN201210579491.0A
Authority: CN
Inventors: 杨立东; 王晶
Original assignee: Beijing Institute of Technology BIT; Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2015-05-06
Anticipated expiration: 2032-12-27
Also published as: CN103117059A

Abstract

本发明公开了一种基于张量分解的语音信号特征提取方法，属于语音信号处理技术领域。将分帧后的语音信号进行多层小波分解，对小波分解后得到的多个分量信息分别提取美尔频谱倒谱系数及所对应的一阶差分系数和二阶差分系数组成特征参数矢量，建立三阶语音张量，并对其进行张量分解，计算分量信息阶、特征参数阶上的特征投影，矩阵化后的结果就是语音信号各帧携带的特征。本方法相比传统特征参数增强了对语音信号的表征能力，获取携带较全面语音信号的特征，能够提高语音识别、说话人识别等语音信号处理系统的效果。

Description

一种基于张量分解的语音信号特征提取方法

技术领域

本发明涉及一种语音信号特征提取方法，尤其是一种基于张量分解的语音信号特征提取方法，属于语音信号处理技术领域。

背景技术

语音信号是一种非平稳的时变信号，它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音信号处理中都需要提取语音中包含的各种信息。一般而言语音处理的目的是要得到某些语音特征参数以便高效的传输或存储；或者是通过某种处理运算以达到某种用途的要求，例如识别出讲话的内容，辨识出讲话的人，合成语音等，简单说就是要方便有效的提取并表示语音信号所携带的信息。

随着现代科学技术的不断进步，语音信号处理也随着语音学和数字信号处理两个学科的发展而发展。其中，语音信号的特征提取就是语音信号处理中的一个研究热点。特征提取是寻找语音信号的内在特点，经过数字信号处理提取表征语音信息的特征参数。语音信号的特征主要有时域和频域两种提取方式。

语音信号的时域特征主要包括短时平均能量、短时平均过零率、基音周期等。语音信号虽然是一种随时间而变化的信号，但浊音的基音周期、清浊音信号幅度和声道参数等都随时间缓慢变化。由于发声器官的惯性运动，可以认为在一个小段时间里（一般为10-30毫秒）语音信号近似平稳，即语音信号具有短时平稳性。根据该特性，语音的时域特征都需要进行加窗分帧处理。当然，在此之前，为了对语音信号的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率，也可以对语音信号进行预加重。分帧后的语音信号在一帧内抽样点值的加权平方和就是短时平均能量，其主要用于区分清浊音。短时平均过零率定义为每帧内信号通过零值的次数，其在一定程度上可以反映信号的频率信息，获得谱特性的一种粗略估计。基音周期是表征语音信号本质特征的参数，定义为浊音信号振动频率的倒数，其往往通过短时自相关法或者短时平均幅度差函数法获得。

语音信号的频域特征主要包括从人的发声模型角度出发，利用线性预测编码（LPC）技术在频域得到的线性预测倒谱系数(LPCC)，及其一阶二阶差分；在频域构造人的听觉模型，以语音通过该模型（滤波器组）的输出为声学特征，直接通过离散傅立叶变换（DFT）进行变换而得到的美尔频谱倒谱系数(MFCC)，及其一阶二阶差分，MFCC是语音识别、合成等语音信号处理场合效果较佳也应用广泛的一类参数；基于听觉模型的感知加权线性预测系数(PLPC)，是根据人类听觉生理学和听觉心理学的一些知识进行模拟处理而提取出来的仿人类听觉的语音特征，人类的听觉系统对频率的分辨率是非均匀的，对低频率比高频率有更好的分辨率，提取过程中先对语音信号的频谱进行一系列的修正，再用一个自回归全极点模型来逼近，在对语音信号的功率谱修正时综合应用了掩蔽效应及临界带、人耳的等响曲线、强度-响度功率律等。语音信号的频域特征比较彻底的去除了语音生成过程中的激励信息，主要反映了声道响应，所以在语音信号处理过程中被广泛使用。

语音信号在时域是一维信号，当进行信号处理时，上述特征参数仅仅包含了语音的部分信息。为了充分展现语音信号的特征，往往通过综合提取多个特征参数，把语音信号表示为一个高维矢量的办法，这样处理取得了一定的效果。但是由于目前语音信号的数学模型的局限性，特征的变换和取舍、特征时序信息的使用都没有形成最佳体系，所以仍然是研究的重点课题之一。

近期一些新的模型和算法也应用到提取语音信号的特征。Jeong等人提出了利用张量分析对语音信号的训练模型状态、特征维度、说话人、噪声空间进行多线性奇异值分析的方法；Mesgarani等人提出了声音信号从耳蜗到大脑皮层阶段产生的多尺度暂态语谱图特征，利用多线性降维技术进行处理，可以在低信噪比或者高回响的环境下或得较高的分辨率；我国公开号为CN102592593A（公开日为2012年7月18日）的专利“一种考虑语音中多线性群组稀疏性的情绪特征提取方法”考虑了语音信号中包括的时间、频率、尺度、方向信息的多重因素，利用多线性群组稀疏分解的方法进行特征提取。另外，经验模态分解法(EMD)也被用于语音信号的特征提取，该方法利用信号的局部特征时间尺度，从原信号中提取出若干个内禀模态函数(IMF)和一个残余量，分解出的各个IMF分量突出了数据的局部特征，残余分量体现了信号中的缓慢变化量，对它们进行分析，该方法可以更准确有效地把握原数据的特征信息。

总之，在降低语音信号冗余度的特征提取过程中，不光要考虑特征是否能完全、准确地表达语音信号，同时要求各特征参数之间耦合应该尽可能的小，在噪声环境下具有较强的鲁棒性。

发明内容

本发明的目的是为了充分表征语音信号，提出了一种基于张量分解的语音信号特征提取方法，解决了传统语音特征只包含语音信号部分信息的问题。

为了实现上述目的，本发明方法的基本思路是：语音信号通过预处理后进行多层小波分解，对小波分解后得到的多个分量信息分别提取特征参数，然后根据不同帧语音信号各分量信息的特征建立语音张量，并对其进行张量分解得到投影矩阵，最后计算得到分量信息阶、特征参数阶上的特征投影。

本发明所述一种基于张量分解的语音信号特征提取方法，包括以下步骤：

步骤一：对待处理的语音信号采用汉明窗进行分帧，帧长为L，帧移为M，从而把语音信号分成N帧，顺序排列后得到帧序列；

步骤二：对分帧后的每帧语音信号分别进行R层小波分解，每帧语音信号R层小波分解后得到(R+1)个分量信息；

步骤三：对每帧语音信号的各个分量信息分别进行短时傅里叶变换，获得每个分量信息的频谱；

求出每个分量信息频谱幅度的平方即得到各分量信息的能量谱，使各分量信息的能量谱通过美尔频率滤波器组得到各分量信息的Mel频谱；

对得到的Mel频谱分别取自然对数，得到各分量信息的对数频谱；

对每个分量信息的对数频谱再经过离散余弦变换到倒频谱域，从而获得每个分量信息的长度为B的美尔频谱倒谱系数，即MFCC；所述B为预设值；

求出各分量信息的MFCC所对应的一阶差分系数和二阶差分系数，它们的长度分别也是B；

对每个分量信息，将其MFCC、MFCC的一阶差分系数、MFCC的二阶差分系数相接组成一维矢量，即组成该分量信息的长度为S=B+B+B的特征参数矢量；

步骤四：对每帧语音信号，将其每个分量信息的特征参数矢量排列成一个大小为（R+1）×S的矩阵，该矩阵的行数对应步骤二中R层小波分解后得到的分量个数，矩阵的列数对应为步骤三中得到的特征参数矢量的长度S，即矩阵每行表示该帧语音信号一个分量信息的长度为S的特征参数矢量，那么按照语音信号的帧顺序，就构成了一个帧序列个数N×每帧分量信息个数（R+1）×特征参数长度S的三阶语音张量X，所述的三阶分别称为帧序列阶、分量信息阶、特征参数阶；

步骤五：对步骤四构造的三阶语音张量X进行张量分解，分解后表示为：G×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾，其中G为核张量；U⁽¹⁾、U⁽²⁾、U⁽³⁾彼此之间正交，U⁽¹⁾、U⁽²⁾、U⁽³⁾代表语音张量分别在帧序列、分量信息、特征参数对应各阶上的主分量；即U⁽¹⁾为该语音张量分解时在帧序列阶的投影矩阵，且本方法不对帧序列阶进行低秩近似，U⁽²⁾为该语音张量分解时在分量信息阶进行秩为P的低秩投影矩阵，其中参数P应满足1≤P≤R+1，U⁽³⁾为语音张量分解时在特征参数阶进行的秩为Q的低秩投影矩阵，其中参数Q应满足1≤Q≤S；

×₁、×₂、×₃分别表示张量第一阶、第二阶、第三阶的张量矩阵乘，张量矩阵乘定义如下：设有一个大小为I₁×I₂×…×I_N的N阶张量H，一个大小为J×I_n的矩阵A，则张量的n阶（1≤n≤N）矩阵乘为H×_nA的结果是一个大小为I₁×I₂×…×I_n-1×J×I_n+1×…×I_N的N阶张量；

作为优选，步骤五中，所述张量分解进行低秩近似的过程采用交替最小二乘法。

步骤六：计算语音张量X在分量信息阶上的特征投影Y＝X×₂U⁽²⁾，U⁽²⁾为步骤五中语音张量X分解时在分量信息阶进行秩为P的低秩投影矩阵，Y为语音张量X在第二阶即分量信息阶进行张量矩阵乘X×₂U⁽²⁾的结果，即是X在分量信息阶上进行秩为P的低秩投影的结果；

步骤七：计算语音张量X在特征参数阶的特征投影Z＝Y×₃U⁽³⁾，U⁽³⁾为步骤五中语音张量X分解时在特征参数阶进行的秩为Q的低秩投影矩阵，Z为步骤六中得到的特征投影Y在第三阶即特征参数阶进行张量矩阵乘Y×₃U⁽³⁾的结果，即语音张量X在分量信息阶上进行秩为P的低秩投影后，又在特征参数阶上进行秩为Q的低秩投影的结果；

步骤八：对步骤七获得的张量Z进行张量的矩阵化，得到大小为N×W的矩阵，W为P与Q的乘积；即矩阵的行数为语音信号帧的个数N，矩阵的列数为语音张量X分解时在分量信息阶低秩投影的秩P和在特征参数阶低秩投影的秩Q的乘积；

步骤八中的张量Z矩阵化后的结果就是基于张量分解在两个不同阶即分量信息阶和特征参数阶上提取降秩后的语音信号各帧携带的特征。

作为优选，步骤八中，所述张量Z的矩阵化包括如下步骤：

将大小为N×P×Q的三阶张量Z，表示为Z(:,:,1)、Z（:,:,2）、…、Z（:,:,Q），其中“：”代表所有元素；即有Q个大小为N×P的矩阵，现在以N为基础进行张量的矩阵化：

①从第一个矩阵Z(:,:,1)的第一行顺序取出P个元素，然后再从第二个矩阵Z（:,:,2)的第一行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:，:，Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

②从第一个矩阵Z(:,:,1)的第二行顺序取出P个元素，然后再从第二个矩阵Z（:,:,2）的第二行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:,:,Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

③以此类推，直到从第一个矩阵Z(:,:,1)的第N行顺序取出P个元素，然后再从第二个矩阵Z（:，:，2）的第N行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:，:，Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

④把上述得到的每个行向量依次作为最终矩阵的每一行，即得到三阶张量Z以N为基础矩阵化的结果，是一个N×W的矩阵。

对比现有技术，本发明的有益效果在于：本发明考虑了语音信号在多层小波分解后得到不同分量信息的特征，并且利用张量分解得到了投影矩阵，进而获取携带较全面语音信号的特征。本发明结合小波变换和张量分解得到投影后的语音信号特征，相比传统特征参数增强了对语音信号的表征能力，能够提高语音识别、说话人识别等语音信号处理系统的效果。

附图说明

图1是利用张量分解提取语音信号特征的流程图；

图2是语音张量构造示意图；

图3是语音识别系统的原理框图；

图4是本发明方法提取出的特征参数与传统方法提取出的MFCC分别利用隐马尔科夫模型进行无人车控制命令语音识别率的比较图。

具体实施方式

下面将结合附图和实施例对本发明加以详细说明，同时也叙述了本发明技术方案解决的技术问题及有益效果，需要指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本发明的基于张量分解的语音信号特征提取方法具体包括以下步骤：

步骤二：对分帧后的每帧语音信号分别进行R层小波分解，因为语音信号是一维信号，所以每帧语音信号R层小波分解后得到(R+1)个分量信息；

作为优选，R的取值为3。

求出每个分量信息频谱幅度的平方即得到各分量信息的能量谱，使各分量信息的能量谱通过美尔（Mel）频率滤波器组得到各分量信息的Mel频谱，此处美尔频率滤波器组的定义可以参照张雪英在《数字语音处理及MATLAB仿真》第191页的描述；

对得到的Mel频谱分别取自然对数（取ln），得到各分量信息的对数频谱，每个分量信息的对数频谱再经过离散余弦变换(DCT)到倒频谱域，从而获得每个分量信息的长度为B的美尔频谱倒谱系数，即MFCC；所述B为预设值；

作为优选，对每个分量信息，将其MFCC、MFCC的一阶差分系数、MFCC的二阶差分系数依次首尾相接，组成该分量信息的长度为S=B+B+B的特征参数矢量；；

作为优选，B取值为10或32或39。

步骤四：对每帧语音信号，将其每个分量信息的特征参数矢量排列成一个大小为（R+1）×S的矩阵，该矩阵的行数对应步骤二中R层小波分解后得到的分量个数，矩阵的列数对应为步骤三中得到的特征参数矢量的长度S，即矩阵每行表示该帧语音信号一个分量信息的长度为S的特征参数矢量，那么按照语音信号的帧顺序，就构成了一个帧序列个数N×每帧分量信息个数（R+1）×特征参数长度S的三阶语音张量X，所述的三阶分别称为帧序列阶、分量信息阶、特征参数阶，该三阶语音张量X如图2所示；

步骤五：对步骤四构造的三阶语音张量X进行张量分解，张量分解是一个低秩近似的过程，分解后表示为：G×₁U⁽¹⁾×₂U⁽²⁾×₃U⁽³⁾，其中G为核张量，核张量G保留了原语音张量X的主要信息；U⁽¹⁾、U⁽²⁾、U⁽³⁾彼此之间正交，U⁽¹⁾、U⁽²⁾、U⁽³⁾代表了语音张量分别在帧序列、分量信息、特征参数对应各阶上的主分量；即U⁽¹⁾为该语音张量分解时在帧序列阶的投影矩阵，本方法不对帧序列阶进行低秩近似（张量分解可以在每一阶上进行低秩投影，但是本方法没有在帧序列上进行低秩近似，以前是多少维，分解后仍然是多少维，而对其他二阶都进行了低秩近似，例如原来是100维，张量分解后变成了10维），为该语音张量分解时在分量信息阶进行秩为P的低秩投影矩阵，其中参数P应满足1≤P≤R+1，U⁽³⁾为语音张量分解时在特征参数阶进行的秩为Q的低秩投影矩阵，其中参数Q应满足1≤Q≤S；

作为优选，上述张量分解进行低秩近似的过程采用Evrim Acar等人在文献《An Optimization Approach for Fitting Canonical Tensor Decompositions》中13-14页所提出的交替最小二乘法获得，但此处不限于采用交替最小二乘法。

作为优选，所述张量Z的矩阵化步骤如下：将大小为N×P×Q的三阶张量Z，表示为Z(:,:,1)、Z（:,:,2）、…、Z（:,:,Q），其中“：”代表所有元素；即有Q个大小为N×P的矩阵，现在以N为基础进行张量的矩阵化：

①从第一个矩阵Z(:,:,1)的第一行顺序取出P个元素，然后再从第二个矩阵Z（:，:，2)的第一行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:，:，Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

②从第一个矩阵Z(:，:，1)的第二行顺序取出P个元素，然后再从第二个矩阵Z（:,:,2）的第二行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:,:,Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

③以此类推，直到从第一个矩阵Z(:，:，1)的第N行顺序取出P个元素，然后再从第二个矩阵Z（:，:，2）的第N行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:，:，Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

步骤八中的张量Z以帧为基础进行矩阵化，矩阵化后的结果就是基于张量分解在两个不同阶即分量信息阶和特征参数阶上提取降秩后的语音信号各帧携带的特征。

为了进一步说明步骤四-步骤八，举例说明各参数的关系；例如三阶张量X的大小为90×4×117（帧序列×分量信息×特征参数），张量X分解时分量信息进行秩1近似，特征参数进行秩39近似，语音张量X在分量信息阶上的特征投影Y为90×1×117的张量，语音张量X在分量信息阶上投影之后，又在特征参数阶的特征投影Z为90×1×39的张量，那以帧为基础进行张量的矩阵化，矩阵化后的矩阵大小为90×（1×39=39），表示把语音信号分为90帧，每帧信号最后有39个参数，具体张量矩阵化的过程可以参考Brett W.Bader等人的文献《EfficientMATLAB computations with Sparse and factored tensors》第12页2.3小结内容；

步骤八中的张量Z以帧为基础进行矩阵化，矩阵化后的结果就是基于张量分解在两个不同阶（分量信息和特征参数）上提取降秩后的语音信号各帧携带的特征。

本发明方法所提取的语音信号特征可以应用到无人车控制命令识别、门禁声纹识别、计算机辅助语言学习系统等语音识别、说话人识别或语种识别等人机交互领域，下面以无人车控制命令识别为实例，利用本发明方法提取语音信号特征，然后通过图3所示框图进行语音控制命令识别效果的验证。

在验证过程中，采用隐马尔科夫模型（HMM）完成模型库的训练和待测语音的识别，训练和测试语音采用自建无人车控制命令数据库，语音信号的采样率为8000Hz，采用汉明窗进行分帧，帧长为20ms，帧移为10ms，每帧包括160个采样点。

本验证过程使用db3小波对分帧后的每帧语音信号进行3层小波分解，把小波分解后得到的分量信息进行短时傅立叶变换得到频谱，求出每个分量信息的能量谱，能量谱通过Mel频率滤波器组得到Mel频谱，对Mel频谱取ln，得到对数频谱，每个分量信息的对数频谱经过DCT变换到倒频谱域，提取39个MFCC（包括0阶谱系数），并求出每个分量信息的MFCC对应的39个一阶差分系数和39个二阶差分系数，顺序排列后得到117个特征参数；根据语音信号的帧数、3层小波变换得到的4个分量信息、从每个分量信息提取的117个特征参数，就可以构造一个帧数×4×117的三阶语音张量；利用交替最小二乘法对语音张量进行分解得到投影矩阵U⁽¹⁾（帧序列不进行低秩近似）、U⁽²⁾（分量信息进行秩1近似）、U⁽³⁾（特征参数进行秩39近似）；计算语音张量X在分量信息阶上的特征投影Y＝X×₂U⁽²⁾，此时张量Y的大小为帧数×1×117；计算语音张量X在分量信息阶上投影之后，又在特征参数阶的特征投影Z＝Y×₃U⁽³⁾，此时张量Z的大小为帧数×1×39；张量Z以帧为依据进行矩阵化，最终得到每帧39个特征参数。把获取的特征参数通过图3所示系统进行建模，通过学习训练，可以得到无人车控制命令的模型，当给定测试控制命令，利用该模型分别计算概率，得到最大概率的控制命令就是识别结果。

本发明方法与已有的特征参数提取方法（例如MFCC，同样提取39个特征参数）利用图3系统在无人车控制命令识别的比较结果如图4，从图4中可见，采用本发明方法得到的控制命令的识别率为94.7%，已有传统方法的识别率为92.1%，识别率提升了2.6%。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换和替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于张量分解的语音信号特征提取方法，其特征在于，包含如下步骤：

2.根据权利要求1所述一种基于张量分解的语音信号特征提取方法，其特征在于，步骤一中，R的取值为3。

3.根据权利要求1所述一种基于张量分解的语音信号特征提取方法，其特征在于，步骤三中，对每个分量信息，将其MFCC、MFCC的一阶差分系数、MFCC的二阶差分系数依次首尾相接组成一维矢量，即组成该分量信息的长度为S=B+B+B的特征参数矢量。

4.根据权利要求1所述一种基于张量分解的语音信号特征提取方法，其特征在于，步骤三中，B取值为10或32或39。

5.根据权利要求1所述一种基于张量分解的语音信号特征提取方法，其特征在于，步骤五中，所述张量分解进行低秩近似的过程采用交替最小二乘法。

6.根据权利要求1所述一种基于张量分解的语音信号特征提取方法，其特征在于，步骤八中，所述张量Z的矩阵化包括如下步骤：

①从第一个矩阵Z(:,:,1)的第一行顺序取出P个元素，然后再从第二个矩阵Z（:，:，2)的第一行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:,:,Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；

③以此类推，直到从第一个矩阵Z(:,:,1)的第N行顺序取出P个元素，然后再从第二个矩阵Z（:，:，2）的第N行顺序取出P个元素，同样的操作一直到最后一个矩阵Z（:，:，Q），把取出的元素首尾相接排列，得到一个长度为W的行向量；④把上述得到的每个行向量依次作为最终矩阵的每一行，即得到三阶张量Z以N为基础矩阵化的结果，是一个N×W的矩阵。