CN110197657B

CN110197657B - 一种基于余弦相似度的动态音声特征提取方法

Info

Publication number: CN110197657B
Application number: CN201910430464.9A
Authority: CN
Inventors: 左毅; 艾佳琪; 李铁山; 陈俊龙; 肖杨; 贺培超; 刘君霞; 马赫
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-05-22
Filing date: 2019-05-22
Publication date: 2022-03-11
Anticipated expiration: 2039-05-22
Also published as: CN110197657A

Abstract

本发明公开了一种基于余弦相似度的动态音声特征提取方法，包括以下步骤：S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号，采用窗口函数将语音信号分解为一定长度的帧；S2:将语音时域信号转换成频域信号，获取每帧语音频域信号的320维的离散余弦反变换(IDCT‑Cepstrum Coefficient)倒谱系数；S3:对语音的频域信号进行相邻维之间的余弦相似度计算；S4:找到余弦相似度的两列最大相邻维进行合并；S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征；S6:将语音特征以直方图形式表示。

Description

一种基于余弦相似度的动态音声特征提取方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于余弦相似度的动态音声特征提取方法。

背景技术

语音识别由语音特征提取、语音识别模型建立和说话人识别三个部分组成。其中语音特征提取在整个说话人识别过程中至关重要，有效地提取出表示说话人本质特点的语音特征将使得模型的语音分类识别更为准确，识别率更高。目前常用的特征有MFCC(梅尔频率倒谱系数)、Fbank(Filterbank feature)、PLP(Linear Predictive Coding)等，目前这一领域使用MFCC作为语音特征的应用较为多见。

虽然MFCC是最受欢迎的音声特征表现，但它有两个主要的缺点。第一，它们是从10ms到50ms的窗函数估计的，因此不能捕获信号中的长期特征。第二，MFCC认为语音信号的相邻帧间相互独立，这样导致特征提取过程中丢失了语音信号的动态特征。本发明介绍的新方法是以动态结合方法获得说话人的频率分布，不仅抗噪声干扰能力强，还能体现出语音信号的动态特性和语音信号中所含有的类别信息。

发明内容

根据现有语音特征提取过程中存在的问题，本发明公开了一种基于余弦相似度的动态音声特征提取方法，具体包括以下步骤：

S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号，采用窗口函数将语音信号分解为一定长度的帧；

S2:将语音时域信号转换成频域信号，获取每帧语音频域信号的320维的离散余弦反变换(IDCT-Cepstrum Coefficient)倒谱系数；

S3:对语音的频域信号进行相邻维之间的余弦相似度计算；

S4:找到余弦相似度最大的两列相邻维进行合并；

S5:重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量；

S6:将语音特征向量以直方图形式表示。

进一步的，采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-Cepstrum Coefficient)：

C(q)＝IDCT{log|DCT{x(k)}|} q＝1…,M-1 (1)

其中：x(k)为时域信号，C(q)为倒谱系数，C(q)就是得到的320维的IDCT CepstrumCoefficient语音特征。

进一步的，采用余弦公式(2)计算相邻维的特征向量之间的相似度，其中余弦相似度计算公式如下：

其中：ν_i代表第i维特征向量，ν_j代表第j维特征向量。

本发明公开的一种基于余弦相似度的动态音声特征提取方法，基于遮掩效应本发明公开的方法是利用人耳听觉模型建立的IDCT倒谱系数，并将IDCT倒谱系数进行降维。本发明将320维IDCT-Cepstrum Coefficient根据相邻维的余弦相似度进行合并，最终从320维语音频域信号得到14维的语音特征向量，我们称之为C-Vector。C-Vector的语音特征不仅在说话人识别精度上更高，且在识别速度上也更快。本发明的语音特征提取方法在说话人识别精度方面比传统的MFCC语音特征高，其有效性在多人文本无关语音集下表现得更为明显。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的实施流程图；

图2为经过频域变换的320维IDCT-Cepstrum Coefficient

图3为基于余弦相似度的层次聚类分析

图4为本发明提出的14维语音频域特征向量C-Vector

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的一种基于余弦相似度的动态音声特征提取方法，具体包括以下步骤：

S1:采用预加重、分帧和加窗方法对时域语音信号进行预处理，采用窗口函数将语音信号分解为一定长度的帧。预处理是在提取特征之前对时域语音信号所做的一些预处理，具体采用的方式如下。

①预加重：由于人体构造和发音特点等原因，频率高于800Hz的频段会有6dB的衰减，预加重就是来弥补这部分的损失，预加重过程采用传递函数为式(3)的数字滤波器进行实现。

H(z)＝1-uz^-1 (3)

其中u为常数，通常取u＝0.97。

②分帧：由于语音信号有短时平稳特性，可以把语音信号分为一些短段来进行处理，这就是分帧。为了保证语音信号的连续性，实现相邻帧之间的平滑过渡，一般会让前后两帧之间有一定的交叠。由于语音信号不具有长时平稳性，因而需要对语音信号分帧以利用其短时平稳性。本发明取帧长为320，帧移为100。

③加窗实现方法是采用不断移动的有限长度的窗口与原始信号相乘，所得结果就是各个分帧数据，一般窗函数选用汉明窗。其中本发明使用汉明窗。

汉明窗的窗函数：

S2:将语音时域信号转换成频域信号，获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数，具体分为三个步骤。

S21：离散余弦变换，将前面经过预处理的语音信号，即时域信号进行离散余弦变换(DCT)，求出线性频谱X(k)；

S22：然后将X(k)经过对数能量处理，得到对数频谱S(m)；

S23：将S(m)经过离散余弦反变换(IDCT)得到倒谱频域。得到320维IDCT-CepstrumCoefficient。如图2所示，其中，v_i,v_j是相邻的两维。

S3:分别计算320维语音频域信号的相邻维的余弦相似度，如表1所示，l₁表示第一维数据与第二维数据的余弦相似度，以此类推l₂是第二维与第三维的余弦相似度。

表1如下：

cosθ1

cosθ2

cosθ3

......

cosθ317

cosθ318

cosθ319

最大值

I1

L2

L3

L317

L318

L319

L2

S4：，找出余弦相似度最大的相邻两维进行合并，进而得到319维的特征。处理过程如图3所示。

S5：重复操作S3至S4将320维语音频域信号降维到14维的语音频域特征向量；

S6：将语音特征向量以直方图形式表示。

进一步的，采用如下算法获取每帧语音信号的320维离散余弦反变换IDCT倒谱系数：

C(g)＝IDCT{log|DCT{x(k)}|} q＝1...，M-1 (1)

其中：x(k)为时域信号，C(q)为倒谱系数，C(q)就是得到的IDCT-CepstrumCoefficient语音特征。

进一步的，采用余弦公式计算相邻维的特征向量之间的相似度，其中余弦相似度计算公式如下：

其中：ν_i代表第i维特征向量，ν_j代表第j维特征向量。

Claims

1.一种基于余弦相似度的动态音声特征提取方法，其特征在于包括以下步骤：

S1:采用预加重、分帧和加窗方法将语音信号预处理成时域信号，利用窗口函数将语音信号分解为一定长度的帧；

S2:将语音时域信号转换成频域信号，获取每帧语音频域信号的320维的离散余弦反变换IDCT倒谱系数；

S3:对语音的频域信号进行相邻维之间的余弦相似度计算；

S4:找到余弦相似度最大的两列相邻维进行合并；

S6:将语音特征向量以直方图形式表示；

采用如下算法获取每帧语音信号的320维离散余弦反变换倒谱系数(IDCT-CepstrumCoefficient)：

C(q)＝IDCT{log|DCT{x(k)}|}q＝1…,M-1 (1)

其中：x(k)为时域信号，C(q)为倒谱系数，C(q)就是得到的IDCT CepstrumCoefficient语音特征；

采用余弦公式(2)计算相邻维的特征向量之间的相似度，其中余弦相似度计算公式如下：

其中：ν_i代表第i维特征向量，ν_j代表第j维特征向量。