CN110060697A

CN110060697A - 一种情感特征提取方法

Info

Publication number: CN110060697A
Application number: CN201910296711.0A
Authority: CN
Inventors: 李剑峰
Original assignee: Hunan Check Credit Intelligent Technology Co Ltd
Current assignee: Hunan Check Credit Intelligent Technology Co Ltd
Priority date: 2019-04-14
Filing date: 2019-04-14
Publication date: 2019-07-26

Abstract

本发明公开了一种情感特征提取方法，包括：对语音中的一帧采样，对语音序列s(n)实行预加重然后做离散FFT变换，再逐步计算得到MFCC参数。本发明在任何条件下都可以使用MFCC参数，在抗噪能力上MFCC参数具有很强的处理能力，增强了抗噪能力。

Description

一种情感特征提取方法

技术领域

本发明涉及情感分析技术领域，更为具体地，涉及一种情感特征提取方法。

背景技术

特征参数提取是为了对语音信号进行分析处理，语音情感识别系统主要提取以短时谱为基础的各种表征，反映人耳听觉特性的MEL频率倒谱系数(MFCC)。Mel频率倒谱系数(MFCC)表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中，具体地说，在50Hz以下的低频段，人耳对频率感知是线性的；在50Hz以上频段，人耳对频率感知呈现对数非线性。Mel频率倒谱参数(MFCC)就是充分利用了人耳对这种频段的感知特性的参数。通过临界带宽的度量方法可以采用Mel刻度，MFCC是将信号频谱的频率轴转换换为Mel刻度，所谓的Mel频率尺度，它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的关系式，倒谱系数是通过倒谱域的转换得到的。现有的特征提取技术，存在抗噪特性差等问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种情感特征提取方法，在任何条件下都可以使用提取的MFCC参数，在抗噪能力上MFCC参数具有很强的处理能力，因此增强了特质提取过程中的抗噪能力。

本发明的目的是通过以下技术方案来实现的：

一种情感特征提取方法，包括：

(1)对语音序列s(n)实行预加重然后做离散FFT变换；

(2)对语音中的一帧采样{x_i}_{i＝1,2,…,M}，M是帧长，对{x_i}_{i＝1,2,…,M}加汉明窗后作M点的FFT，频域分量{X_i}_{i＝1,2,…,M}通过时域信号进行转化，离散功率谱S(n)通过取模的平方得到；

(3)计算S(n)通过传递函数H_m(n)求得功率值，即计算S(n)和H_m(n)的乘积再求和，求得M个参数P_m；

(4)计算P_m的自然对数，求得L_m；

(5)计算L_m的离散余弦变换，求得D_m；

(6)去除直流成分的D₀，取D₁,D₂,…,D_k作为MFCC参数。

进一步的，在步骤(1)中，通过传递函数为H(Z)＝1-αZ-1的滤波器对其加以滤波，其中α为预加重系数且0.9<α<10，设n时刻的语音采样值为X(n)，经过预加重处理后的结果为Y(n)＝X(n)-αX(n-1)，0.9<α<1.0。

进一步的，在步骤(1)中，k＝12。

进一步的，在步骤(1)中，语音中的一帧采样，为了计算FFT方便，取n＝256点。

本发明的有益效果是：

(1)本发明在任何条件下都可以使用MFCC参数，在抗噪能力上MFCC参数具有很强的处理能力，增强了抗噪能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的步骤流程示意图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。本说明书中公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书(包括任何附加权利要求、摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

下面将详细描述本发明的具体实施例，应当注意，这里描述的实施例只用于举例说明，并不用于限制本发明。在以下描述中，为了提供对本发明的透彻理解，阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的电路，软件或方法。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在对实施例进行描述之前，需要对一些必要的术语进行解释。例如：

若本申请中出现使用“第一”、“第二”等术语来描述各种元件，但是这些元件不应当由这些术语所限制。这些术语仅用来区分一个元件和另一个元件。因此，下文所讨论的“第一”元件也可以被称为“第二”元件而不偏离本发明的教导。应当理解的是，若提及一元件“连接”或者“联接”到另一元件时，其可以直接地连接或直接地联接到另一元件或者也可以存在中间元件。相反地，当提及一元件“直接地连接”或“直接地联接”到另一元件时，则不存在中间元件。

在本申请中出现的各种术语仅仅用于描述具体的实施方式的目的而无意作为对本发明的限定，除非上下文另外清楚地指出，否则单数形式意图也包括复数形式。

当在本说明书中使用术语“包括”和/或“包括有”时，这些术语指明了所述特征、整体、步骤、操作、元件和/或部件的存在，但是也不排除一个以上其他特征、整体、步骤、操作、元件、部件和/或其群组的存在和/或附加。

如图1所示，一种情感特征提取方法，包括：

(1)对语音序列s(n)实行预加重然后做离散FFT变换；

(4)计算P_m的自然对数，求得L_m；

(5)计算L_m的离散余弦变换，求得D_m；

(6)去除直流成分的D₀，取D₁,D₂,…,D_k作为MFCC参数。

进一步的，在步骤(1)中，k＝12。

实施例1

一种情感特征提取方法，包括：

(1)对语音序列s(n)实行预加重然后做离散FFT变换；

(4)计算P_m的自然对数，求得L_m；

(5)计算L_m的离散余弦变换，求得D_m；

(6)去除直流成分的D₀，取D₁,D₂,…,D_k作为MFCC参数。

特征参数提取是为了对语音信号进行分析处理。语音情感识别系统主要提取以短时谱为基础的各种表征，反映人耳听觉特性的MEL频率倒谱系数(MFCC)。

Mel频率倒谱系数(MFCC)表示的核心思想是把人的听觉系统对频率感知的非线性特征用于语音识别特征中，具体地说，在50Hz以下的低频段，人耳对频率感知是线性的；在50Hz以上频段，人耳对频率感知呈现对数非线性。

Mel频率倒谱参数(MFCC)就是充分利用了人耳对这种频段的感知特性的参数。通过临界带宽的度量方法可以采用Mel刻度，MFCC是将信号频谱的频率轴转换换为Mel刻度，所谓的Mel频率尺度，它的值大体上对应于实际频率的对数分布关系。Mel频率与实际频率的关系式，倒谱系数是通过倒谱域的转换得到的。其具体计算过程如下：

1.语音中的一帧采样{x_i}_{i＝1,2,…,M}，M是帧长,对{x_i}_{i＝1,2,…,M}加汉明窗后作M点的FFT，频域分量{X_i}_{i＝1,2,…,M}通过时域信号进行转化，离散功率谱S(n)通过取模的平方得到；

2.为了计算S(m)和H_n(m)的乘积在各离散频率点上的和,功率值通过带通滤波器组，获得N个参数P_j；

3.计算自然对数，倒谱域通过离散余弦变换(DCT)获得到：

p是MFCC的阶数，取p＝12。{C_k}_{k＝1,2,…,12}结果是MFCC的参数。

倒谱提升窗口：得到每帧数据的MFCC参数后，需要将系数乘以权系数。

4.差分倒谱参数：MFCC参数用于表示语音参数静态特性，人耳在对语音动态特征反

应上特别灵敏，常用差分倒谱参数来描述动态特性。

这里ΔC和C都表示一帧语音参数，k为常数，通常取2。差分参数就是当前帧的前后两帧的线性组合。

由上式得到的差分参数是一阶MFCC差分参数，然后再计算，得到的就是二阶MFCC差分参数。为了进行下级语音训练和识别，最后提取的特征参数为特征矢量。

具体实现程序如下：

调用函数melbankm来计算m个滤波器的系数，melbankm.m的语法为：

h＝melbankm(m,n,fs)

function ccc＝mfcc(x)

％归一化mel滤波器组系数

bank＝melbankm(24,256,8000,0,0.5,'m')；

bank＝full(bank)；

bank＝bank/max(bank(:))；

％DCT系数,12*24

for k＝1:12

n＝0:23；

dctcoef(k,:)＝cos((2*n+1)*k*pi/(2*24))；

end

％归一化倒谱提升窗口

w＝1+6*sin(pi*[1:12]./12)；

w＝w/max(w)；

％计算每帧的MFCC参数

for i＝1:size(xx,1)

y＝xx(i,:)；

s＝y'.*hamming(256)；

t＝abs(fft(s))；

t＝t.^2；

c1＝dctcoef*log(bank*t(1:129))；

c2＝c1.*w'；

m(i,:)＝c2'；

end

％差分系数

dtm＝zeros(size(m))；

for i＝3:size(m,1)-2

dtm(i,:)＝-2*m(i-2,:)-m(i-1,:)+m(i+1,:)+2*m(i+2,:)；

end

dtm＝dtm/3；

％合并mfcc参数和一阶差分mfcc参数

ccc＝[m dtm]；

％去除首尾两帧，因为这两帧的一阶差分参数为0

ccc＝ccc(3:size(m,1)-2,:)。

在本实施例中的其余技术特征，本领域技术人员均可以根据实际情况进行灵活选用和以满足不同的具体实际需求。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实现本发明。在其他实例中，为了避免混淆本发明，未具体描述公知的算法，方法或系统等，均在本发明的权利要求书请求保护的技术方案限定技术保护范围之内。

对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

本领域技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能，但是这种实现不应超出本发明的范围。

所揭露的系统、模块和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例，仅仅是示意性的，例如，所述单元的划分，可以仅仅是一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以说通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述分立部件说明的单元可以是或者也可以不收物理上分开的，作为单元显示的部件可以是或者可以不收物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种情感特征提取方法，其特征在于，包括：

(1)对语音序列s(n)实行预加重然后做离散FFT变换；

(4)计算P_m的自然对数，求得L_m；

(5)计算L_m的离散余弦变换，求得D_m；

(6)去除直流成分的D₀，取D₁,D₂,…,D_k作为MFCC参数。

2.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，通过传递函数为H(Z)＝1-αZ-1的滤波器对其加以滤波，其中α为预加重系数且0.9<α<10，设n时刻的语音采样值为X(n)，经过预加重处理后的结果为Y(n)＝X(n)-αX(n-1)，0.9<α<1.0。

3.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，k＝12。

4.根据权利要求1所述的一种情感特征提取方法，其特征在于，在步骤(1)中，语音中的一帧采样，取n＝256点。