CN107564543B

CN107564543B - 一种高情感区分度的语音特征提取方法

Info

Publication number: CN107564543B
Application number: CN201710822706.XA
Authority: CN
Inventors: 肖仲喆; 陶智; 陈颖; 张晓俊; 吴迪
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-09-13
Filing date: 2017-09-13
Publication date: 2020-06-26
Anticipated expiration: 2037-09-13
Also published as: CN107564543A

Abstract

本发明公开了一种高情感区分度的语音特征提取方法，包括：进行常规的语谱图提取，即对语音信号分帧后，对各帧数据进行离散傅里叶变换DFT，以频谱幅度值作为灰度值，得到语谱图。对语谱图进行预滤波后，进行稀疏化处理，提取其最高若干条能量峰值曲线，并对所提取的曲线结果进行频率位置信息去除，仅保留其幅度，以消除语音内容的影响，然后进行第二层离散傅里叶变换，生成语音二重谱，可以保留具有高情感区分度的信息。本发明解决了现有技术中在语音识别过程中，语音信息部分细节信息被淹没，同时由于语音特征中包含大量与语音内容有关的信息而造成情感区分度有限的技术问题。

Description

一种高情感区分度的语音特征提取方法

技术领域

本发明涉及语音识别技术领域，特别是一种高情感区分度的语音特征提取方法。

背景技术

随着语音处理、语音识别等技术的快速发展，语音情感识别以及富含情感信息的语音合成技术逐渐成为语音信号处理、情感计算、多媒体检索等众多领域中共同的重要研究方向。这一研究方向的研究目的之一是能够从语音中进行情感信息的自动提取，以便实现广播/电视自动选台，热线电话根据情绪状态分类转接，或极端工作环境下异常情绪监测等任务。

语音特征是在语音情感识别研究中的关键环节之一，从情感计算这一方向兴起至今一直都是本领域的研究热点，而语音特征的情感区分度决定了其在情感语音识别中的有效性。现有的用于语音情感识别中的特征来自于传统语音识别以及说话人识别中的语音参数，即包括体现语音频谱结构的基频、共振峰参数，语音短时能量参数，体现人耳听觉特性的MFCC(Mel Frequency Cepstrum Coefficients，梅尔频率倒谱系数)等参数，以这些参数在音素、音节、词、短语等级别上的统计值作为语音情感识别参数，如图1所示。

这些参数对语音情感有一定程度的区分度，但是一方面，基于统计的长时特征在计算过程中有可能造成部分细节信息被淹没；另一方面，继承于语音识别等领域的参数，如基频、共振峰等，包含大量与语音内容有关的信息，情感区分度有限，成为近年来语音情感识别性能遭遇瓶颈的原因之一。因此，具有高情感区分度的语音细节特征成为本领域的重要需求。

发明内容

针对上述技术问题，本发明中提出了一种高情感区分度的语音特征提取方法，该方法基于语谱图稀疏化信息提取的语音二重谱特征参数，用于对语音情感进行区分。首先，进行常规的语谱图提取，即对语音信号分帧后，对各帧数据进行离散傅里叶变换(DFT)，以频谱幅度值作为灰度值，得到语谱图。对语谱图进行预滤波后，进行稀疏化处理，提取其最高若干条能量峰值曲线，并对所提取的曲线结果进行频率位置信息去除，仅保留其幅度，以消除语音内容的影响，然后进行第二层离散傅里叶变换，生成语音二重谱，可以保留具有高情感区分度的信息。本发明解决了现有技术中在语音识别过程中，语音信息部分细节信息被淹没，同时由于语音特征中包含大量与语音内容有关的信息而造成情感区分度有限的技术问题。

为了实现根据本发明的这些目的和其它优点，提供了一种高情感区分度的语音特征提取方法，包括以下步骤：

步骤一、从语音信号中提取语谱图STG(i，k)，i为时间轴序号，k为设定的第一频率f₁的轴序号；

步骤二、对语谱图STG(i，k)进行稀疏化处理，取语谱图中峰值位置幅度最大的v个峰值位置，并将这些峰值点沿时域方向形成峰值轨迹；

步骤三、对峰值轨迹位置进行差分运算，得到v-1个频率差分值，以投票方式确定各次谐波间频率差Dh(i)，计算各次谐波在设定邻域内的均值，组合成前v次谐波强度轨迹，以去除语音内容的影响，设定q为谐波次数，q＝1，2，…v；

步骤四、设置第二频率f₂的分辨率，确定第二级傅立叶变换的计算点数N₂，计算第q条谐波强度轨迹的第二频率频谱，将v条强度轨迹的第二频率频谱去除相位，仅保留幅度谱，并拼合为去除了内容影响的语音二重谱；

步骤五、设定第二频率f₂的对应离散频率编号阈值为l_f2，其对应的分割阈值频率为：

设定第一频率f₁归一化后的第一阈值频率tf₁₁和第二阈值频率tf₁₂，在第一频率f₁和第二频率f₂构建的坐标系中划分如下4个区域，其中：

区域1：

区域2：

区域3：

区域4：

l为第二频率f₂离散后的序号，根据划分好的4个区域，分别计算各区域内语音二重谱的均值和标准差作为语音情感识别特征，将计算得出的8个特征输入情感语音识别模型模块中训练学习，得到语音中的情感信息。

优选的，所述步骤一中，语谱图的提取过程包括以下步骤：

步骤A、设置截止频率为f_b，对采集的语音信号进行低通滤波，滤波后的语音信号记为S(t)，随后以采样频率f_s数字化语音信号，数字化后的语音信号记为S_d(n)＝S(n/f_s)；

步骤B、设置帧长为L_f，帧移为Sh_f，对数字化后的语音信号进行短时帧切分，则第i帧信号为

记帧长点数为

步骤C、对短时帧信号进行加汉明窗处理，计算加窗后的第i帧信号F_iw：

其中，α为汉明窗型调整参数；

步骤D、定义频域变量为第一频率f₁，设定第一频率f₁的频率分辨率，得出第一级傅立叶变换的点数为N₁，计算第i帧频谱的幅度：

对第i帧频谱的幅度Spec_i(k)进行256级量化，作为灰度值，量化后的灰度值表达为：

步骤E、由各帧频谱所得的灰度值拼接为语谱图STG(i，k)：

STG(i，k)＝SpecQ_i(k)

其中，k的取值范围限定为k＝0～round(4000×N₁/f_s)。

优选的，所述步骤二中，对语谱图STG(i，k)进行稀疏化处理的过程包括以下步骤：

步骤F、设置截止频率f_c或阶次，采用低通滤波器对语谱图STG(i，k)按列取出的数据STG(i)进行平滑处理，并对低通滤波造成的偏移进行补偿，平滑和补偿后的语谱图记为STG_L(i，k)；

步骤G、对语谱图STG_L(ik)进行第一频率f₁方向的一阶差分运算，计算过程为：

D_STG(i，k)＝STG_L(i，k+1)-STG_L(i，k)：

步骤H、对差分结果仅保留符号，计算公式为：

步骤I、随后在第一频率f₁方向进行第二次一阶差分运算，计算过程为：

DSD_STG(i，k)＝SD_STG(i，k+1)-SD_STG(i，k)：

步骤J、提取第二次差分运算结果取值为-2的位置即为所需的峰值位置，对峰值位置进行补偿，记补偿后各峰值位置为p₁，p₂，...，在语谱图中取峰值位置幅度，进行幅度大小排序，仅保留幅度最大的v个峰值位置，记为pM(i，j)，j＝1～v，并将这些峰值点沿时域方向形成所述峰值轨迹。

优选的，步骤三中，在语音信号中去除语音内容影响的过程包括以下步骤：

步骤K、对步骤J中得到的峰值轨迹位置进行差分运算，得到v-1个频率差分值，计算过程为：

Dh(i，j)＝pM(i，j+1)-pM(i，j)；

步骤L、对频率差分值进行相近值分组，以投票方式确定组内数量最多的差分值为各次谐波间频率差，记为Dh(i)；

步骤M、设定邻域宽度参数w；

步骤N、计算各次谐波在设定邻域内的均值，组合成前v次谐波强度轨迹，谐波位置为：

P(i，q)＝q·Dh(i)

谐波强度轨迹为：

其中，谐波间频率差Dh(i)不在强度轨迹结果中出现，即去除了语音内容方面的影响。

优选的，所述步骤四中，语音二重谱的生成过程包括以下步骤：

步骤O、设置第二频率f₂的分辨率，确定第二级傅立叶变换的计算点数N₂；

步骤P、计算第q条谐波强度轨迹的第二频率频谱：

步骤Q、将v条强度轨迹的第二频率频谱去除相位，仅保留幅度谱，并拼合为去除了内容影响的语音二重谱：

S_double(q，l)＝|Spec2_q(l)|

其中，q、l均为整数，q为第一频率f₁根据谐波频率间隔归一化序号，即对应的谐波次数，l为第二频率f₂离散后的序号，对应的频率为：

本发明至少包括以下有益效果：

1、对语谱图进行稀疏化处理，提取其最高若干条能量峰值曲线，并对所提取的曲线结果进行频率位置信息去除，仅保留其幅度，以消除语音内容的影响，提高了语音识别中情感区分度；

2、构建语音二重谱，在语音二重谱中提取语音情感识别特征，以保留具有高情感区分度的信息，进一步提高提取出的语音情感区分度。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为现有技术中语音情感识别的流程示意图；

图2为本发明的高情感区分度的语音特征提取流程示意图；

图3为语谱图生成流程示意图；

图4为语谱图稀疏化处理流程示意图；

图5为语音内容信息去除流程示意图；

图6为二重谱生成流程示意图；

图7为语音情感识别特征提取流程示意图；

图8为一种实施例中，利用本发明方法提取的语音二重谱，其中情感区分结果显示，图8(a)对应着愤怒，图8(b)对应着恐惧，图8(c)对应着悲伤，图8(d)对应着高兴，图8(e)对应着中性，图8(f)对应着厌烦。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本发明所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

如图2-7所示，本发明提供了一种高情感区分度的语音特征提取方法，提取流程包括语谱图计算，语谱图稀疏化处理，语音内容信息去除，二重谱生成，二重谱信息提取等模块，如图2所示。具体包括以下步骤：

步骤一、语谱图生成，包括以下子步骤：

步骤A、采集语音信号，本实施例中，采集时间长度位1-3s的短语信号，设置截止频率为f_b，对采集的语音信号进行低通滤波，本实施例中，设置截止频率为f_b＝4000Hz，以去除高频部分影响，滤波后的语音信号记为S(t)，随后以采样频率f_s数字化语音信号，数字化后的语音信号记为S_d(n)＝S(n/f_s)；

步骤B、设置帧长为L_f，帧移为Sh_f，单位均为秒，针对本发明需求的典型取值为L_f＝0.04s，Sh_f＝0.005s，对数字化后的语音信号进行短时帧切分，则第i帧信号为

其中，

为向下取整，记帧长点数为

其中，α为汉明窗型调整参数，默认值为0.46；

步骤D、定义一般频域变量为第一频率f₁，设定第一频率f₁的频率分辨率，得出第一级傅立叶变换的点数为N₁，计算第i帧频谱的幅度：

其中，max(·)为取最大值，round(·)为四舍五入；

步骤E、由各帧频谱所得的灰度值拼接为语谱图STG(i，k)：

STG(i，k)＝SpecQ_i(k)

其中，i为时间轴序号，取值范围由语句长度限制，k为第一频率轴序号，取值范围限定为k＝0～round(4000×N₁/f_s)；

步骤二、对语谱图STG(i，k)进行稀疏化处理，包括以下子步骤：

步骤G、对语谱图STG_L(i，k)进行第一频率f₁方向的一阶差分运算，计算过程为：

D_STG(i，k)＝STG_L(i，k+1)-STG_L(i，k)：

步骤H、对差分结果仅保留符号，计算公式为：

DSD_STG(i，k)＝SD_STG(i，k+1)-SD_STG(i，k)：

步骤J、提取第二次差分运算结果取值为-2的位置即为所需的峰值位置，根据具体语谱图情况进行峰值位置进行补偿，记补偿后各峰值位置为p₁，p₂，...，在语谱图中取峰值位置幅度，进行幅度大小排序，仅保留幅度最大的16个峰值位置，记为pM(i，j)，j＝1～16，受限于计算精度，各峰值位置有可能存在一定误差，假设语音信号在亚音节时间范围内(5～10帧)平稳，对各峰值位置在亚音节片段时间内进行平均，以获得平滑效果，并将这些峰值点沿时域方向形成所述峰值轨迹。

步骤三、语音内容信息去除，包括以下子步骤：

步骤K、对步骤J中得到的峰值轨迹位置进行差分运算，针对每帧(每个i)得出15个频率差分值，计算过程为：

Dh(i，j)＝pM(i，j+1)-pM(i，j)；

步骤M、根据语音信号具体情况，设定邻域宽度参数w；

步骤N、计算各次谐波在设定邻域内的均值，组合成前16次谐波强度轨迹，谐波位置为：

P(i，q)＝q·Dh(i)

谐波强度轨迹为：

其中，设定q为谐波次数，q＝1，2，…，16，谐波间频率差Dh(i)不在强度轨迹结果中出现，相当于去除了语音内容(基频)方面的影响，从而消除语音内容的影响，提高了语音识别中情感区分度。

步骤四、二重谱生成，包括以下步骤：

步骤O、设置第二频率f₂的分辨率，确定第二级傅立叶变换的计算点数N₂；由于步骤A中设置帧移为Sh_f＝0.00Ss，第二频率f₂的取值范围为0～200Hz；

步骤P、计算第q条谐波强度轨迹的第二频率频谱：

步骤Q、将16条强度轨迹的第二频率频谱去除相位，仅保留幅度谱，并拼合为去除了内容影响的语音二重谱：

S_double(q，l)＝|Spec2_q(l)|

其中，l最高数值为N₂；

步骤五、二重谱信息提取，根据语音具体情况，设定第二频率f₂的对应离散频率编号阈值为l_f2，其对应的分割阈值频率为：

区域1：

区域2：

区域3：

区域4：

l为第二频率f₂离散后的序号，本实施例中，l_f2在30～50HZ，tf₁₁在3～4，tf₁₂在7～9，如图7所示，根据划分好的4个区域，分别计算各区域内语音二重谱的均值和标准差作为语音情感识别特征；

共8个特征的计算过程如下：

将计算得出的8个特征输入情感语音识别模型模块中训练学习，即可得到语音中的情感信息。

为了验证本发明方法的效果，在公开情感语音数据库Emo-DB上选择同一说话人在同一文本内容上以不同情感朗读的语音样本，Emo-DB是由柏林工业大学录制的德语情感音库，按照本发明所述过程提取语音二重谱，所得结果如图8所示，可以清楚的区分各个子图对应的情感特征，其中，各子图分别对应愤怒、恐惧、悲伤、高兴、中性、厌烦六种情感。

以图8(a)对应的愤怒和图8(c)对应悲伤为例，根据图7的区域划分，愤怒在区域1具有多个峰值，但峰值幅度较低，而在区域2、3、4均体现出明显波动，波动幅度与区域1中的最高峰值为同一量级；悲伤在区域1仅表现出单一峰值，且峰值幅度很高，区域2、3、4的最高幅度明显降低，且区域4非常平坦，波动幅度很小。由两图比较可以证明，此二重谱在不同情感类型上表现出明显区别，由此可见，由二重谱提取的特征具有有较高的情感区分度。

由上所述，本发明方法中，对语谱图进行稀疏化处理，提取其最高若干条能量峰值曲线，并对所提取的曲线结果进行频率位置信息去除，仅保留其幅度，以消除语音内容的影响，提高了语音识别中情感区分度；同时，构建语音二重谱，在语音二重谱中提取语音情感识别特征，以保留具有高情感区分度的信息，进一步提高提取出的语音情感区分度，由此可见，经过本发明方法识别的语音信号，具有较高的情感区分度，具有广泛的推广应用价值。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。