CN107564543B - 一种高情感区分度的语音特征提取方法 - Google Patents

一种高情感区分度的语音特征提取方法 Download PDF

Info

Publication number
CN107564543B
CN107564543B CN201710822706.XA CN201710822706A CN107564543B CN 107564543 B CN107564543 B CN 107564543B CN 201710822706 A CN201710822706 A CN 201710822706A CN 107564543 B CN107564543 B CN 107564543B
Authority
CN
China
Prior art keywords
frequency
voice
stg
spectrogram
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710822706.XA
Other languages
English (en)
Other versions
CN107564543A (zh
Inventor
肖仲喆
陶智
陈颖
张晓俊
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201710822706.XA priority Critical patent/CN107564543B/zh
Publication of CN107564543A publication Critical patent/CN107564543A/zh
Application granted granted Critical
Publication of CN107564543B publication Critical patent/CN107564543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种高情感区分度的语音特征提取方法,包括:进行常规的语谱图提取,即对语音信号分帧后,对各帧数据进行离散傅里叶变换DFT,以频谱幅度值作为灰度值,得到语谱图。对语谱图进行预滤波后,进行稀疏化处理,提取其最高若干条能量峰值曲线,并对所提取的曲线结果进行频率位置信息去除,仅保留其幅度,以消除语音内容的影响,然后进行第二层离散傅里叶变换,生成语音二重谱,可以保留具有高情感区分度的信息。本发明解决了现有技术中在语音识别过程中,语音信息部分细节信息被淹没,同时由于语音特征中包含大量与语音内容有关的信息而造成情感区分度有限的技术问题。

Description

一种高情感区分度的语音特征提取方法
技术领域
本发明涉及语音识别技术领域,特别是一种高情感区分度的语音特征提取方法。
背景技术
随着语音处理、语音识别等技术的快速发展,语音情感识别以及富含情感信息的语音合成技术逐渐成为语音信号处理、情感计算、多媒体检索等众多领域中共同的重要研究方向。这一研究方向的研究目的之一是能够从语音中进行情感信息的自动提取,以便实现广播/电视自动选台,热线电话根据情绪状态分类转接,或极端工作环境下异常情绪监测等任务。
语音特征是在语音情感识别研究中的关键环节之一,从情感计算这一方向兴起至今一直都是本领域的研究热点,而语音特征的情感区分度决定了其在情感语音识别中的有效性。现有的用于语音情感识别中的特征来自于传统语音识别以及说话人识别中的语音参数,即包括体现语音频谱结构的基频、共振峰参数,语音短时能量参数,体现人耳听觉特性的MFCC(Mel Frequency Cepstrum Coefficients,梅尔频率倒谱系数)等参数,以这些参数在音素、音节、词、短语等级别上的统计值作为语音情感识别参数,如图1所示。
这些参数对语音情感有一定程度的区分度,但是一方面,基于统计的长时特征在计算过程中有可能造成部分细节信息被淹没;另一方面,继承于语音识别等领域的参数,如基频、共振峰等,包含大量与语音内容有关的信息,情感区分度有限,成为近年来语音情感识别性能遭遇瓶颈的原因之一。因此,具有高情感区分度的语音细节特征成为本领域的重要需求。
发明内容
针对上述技术问题,本发明中提出了一种高情感区分度的语音特征提取方法,该方法基于语谱图稀疏化信息提取的语音二重谱特征参数,用于对语音情感进行区分。首先,进行常规的语谱图提取,即对语音信号分帧后,对各帧数据进行离散傅里叶变换(DFT),以频谱幅度值作为灰度值,得到语谱图。对语谱图进行预滤波后,进行稀疏化处理,提取其最高若干条能量峰值曲线,并对所提取的曲线结果进行频率位置信息去除,仅保留其幅度,以消除语音内容的影响,然后进行第二层离散傅里叶变换,生成语音二重谱,可以保留具有高情感区分度的信息。本发明解决了现有技术中在语音识别过程中,语音信息部分细节信息被淹没,同时由于语音特征中包含大量与语音内容有关的信息而造成情感区分度有限的技术问题。
为了实现根据本发明的这些目的和其它优点,提供了一种高情感区分度的语音特征提取方法,包括以下步骤:
步骤一、从语音信号中提取语谱图STG(i,k),i为时间轴序号,k为设定的第一频率f1的轴序号;
步骤二、对语谱图STG(i,k)进行稀疏化处理,取语谱图中峰值位置幅度最大的v个峰值位置,并将这些峰值点沿时域方向形成峰值轨迹;
步骤三、对峰值轨迹位置进行差分运算,得到v-1个频率差分值,以投票方式确定各次谐波间频率差Dh(i),计算各次谐波在设定邻域内的均值,组合成前v次谐波强度轨迹,以去除语音内容的影响,设定q为谐波次数,q=1,2,…v;
步骤四、设置第二频率f2的分辨率,确定第二级傅立叶变换的计算点数N2,计算第q条谐波强度轨迹的第二频率频谱,将v条强度轨迹的第二频率频谱去除相位,仅保留幅度谱,并拼合为去除了内容影响的语音二重谱;
步骤五、设定第二频率f2的对应离散频率编号阈值为lf2,其对应的分割阈值频率为:
Figure GDA0002455573070000021
设定第一频率f1归一化后的第一阈值频率tf11和第二阈值频率tf12,在第一频率f1和第二频率f2构建的坐标系中划分如下4个区域,其中:
区域1:
Figure GDA0002455573070000022
区域2:
Figure GDA0002455573070000023
区域3:
Figure GDA0002455573070000024
区域4:
Figure GDA0002455573070000031
l为第二频率f2离散后的序号,根据划分好的4个区域,分别计算各区域内语音二重谱的均值和标准差作为语音情感识别特征,将计算得出的8个特征输入情感语音识别模型模块中训练学习,得到语音中的情感信息。
优选的,所述步骤一中,语谱图的提取过程包括以下步骤:
步骤A、设置截止频率为fb,对采集的语音信号进行低通滤波,滤波后的语音信号记为S(t),随后以采样频率fs数字化语音信号,数字化后的语音信号记为Sd(n)=S(n/fs);
步骤B、设置帧长为Lf,帧移为Shf,对数字化后的语音信号进行短时帧切分,则第i帧信号为
Figure GDA0002455573070000032
记帧长点数为
Figure GDA0002455573070000033
步骤C、对短时帧信号进行加汉明窗处理,计算加窗后的第i帧信号Fiw
Figure GDA0002455573070000034
其中,α为汉明窗型调整参数;
步骤D、定义频域变量为第一频率f1,设定第一频率f1的频率分辨率,得出第一级傅立叶变换的点数为N1,计算第i帧频谱的幅度:
Figure GDA0002455573070000035
对第i帧频谱的幅度Speci(k)进行256级量化,作为灰度值,量化后的灰度值表达为:
Figure GDA0002455573070000036
步骤E、由各帧频谱所得的灰度值拼接为语谱图STG(i,k):
STG(i,k)=SpecQi(k)
其中,k的取值范围限定为k=0~round(4000×N1/fs)。
优选的,所述步骤二中,对语谱图STG(i,k)进行稀疏化处理的过程包括以下步骤:
步骤F、设置截止频率fc或阶次,采用低通滤波器对语谱图STG(i,k)按列取出的数据STG(i)进行平滑处理,并对低通滤波造成的偏移进行补偿,平滑和补偿后的语谱图记为STGL(i,k);
步骤G、对语谱图STGL(ik)进行第一频率f1方向的一阶差分运算,计算过程为:
DSTG(i,k)=STGL(i,k+1)-STGL(i,k):
步骤H、对差分结果仅保留符号,计算公式为:
Figure GDA0002455573070000041
步骤I、随后在第一频率f1方向进行第二次一阶差分运算,计算过程为:
DSDSTG(i,k)=SDSTG(i,k+1)-SDSTG(i,k):
步骤J、提取第二次差分运算结果取值为-2的位置即为所需的峰值位置,对峰值位置进行补偿,记补偿后各峰值位置为p1,p2,...,在语谱图中取峰值位置幅度,进行幅度大小排序,仅保留幅度最大的v个峰值位置,记为pM(i,j),j=1~v,并将这些峰值点沿时域方向形成所述峰值轨迹。
优选的,步骤三中,在语音信号中去除语音内容影响的过程包括以下步骤:
步骤K、对步骤J中得到的峰值轨迹位置进行差分运算,得到v-1个频率差分值,计算过程为:
Dh(i,j)=pM(i,j+1)-pM(i,j);
步骤L、对频率差分值进行相近值分组,以投票方式确定组内数量最多的差分值为各次谐波间频率差,记为Dh(i);
步骤M、设定邻域宽度参数w;
步骤N、计算各次谐波在设定邻域内的均值,组合成前v次谐波强度轨迹,谐波位置为:
P(i,q)=q·Dh(i)
谐波强度轨迹为:
Figure GDA0002455573070000042
其中,谐波间频率差Dh(i)不在强度轨迹结果中出现,即去除了语音内容方面的影响。
优选的,所述步骤四中,语音二重谱的生成过程包括以下步骤:
步骤O、设置第二频率f2的分辨率,确定第二级傅立叶变换的计算点数N2
步骤P、计算第q条谐波强度轨迹的第二频率频谱:
Figure GDA0002455573070000051
步骤Q、将v条强度轨迹的第二频率频谱去除相位,仅保留幅度谱,并拼合为去除了内容影响的语音二重谱:
Sdouble(q,l)=|Spec2q(l)|
其中,q、l均为整数,q为第一频率f1根据谐波频率间隔归一化序号,即对应的谐波次数,l为第二频率f2离散后的序号,对应的频率为:
Figure GDA0002455573070000052
本发明至少包括以下有益效果:
1、对语谱图进行稀疏化处理,提取其最高若干条能量峰值曲线,并对所提取的曲线结果进行频率位置信息去除,仅保留其幅度,以消除语音内容的影响,提高了语音识别中情感区分度;
2、构建语音二重谱,在语音二重谱中提取语音情感识别特征,以保留具有高情感区分度的信息,进一步提高提取出的语音情感区分度。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为现有技术中语音情感识别的流程示意图;
图2为本发明的高情感区分度的语音特征提取流程示意图;
图3为语谱图生成流程示意图;
图4为语谱图稀疏化处理流程示意图;
图5为语音内容信息去除流程示意图;
图6为二重谱生成流程示意图;
图7为语音情感识别特征提取流程示意图;
图8为一种实施例中,利用本发明方法提取的语音二重谱,其中情感区分结果显示,图8(a)对应着愤怒,图8(b)对应着恐惧,图8(c)对应着悲伤,图8(d)对应着高兴,图8(e)对应着中性,图8(f)对应着厌烦。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
应当理解,本发明所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。
如图2-7所示,本发明提供了一种高情感区分度的语音特征提取方法,提取流程包括语谱图计算,语谱图稀疏化处理,语音内容信息去除,二重谱生成,二重谱信息提取等模块,如图2所示。具体包括以下步骤:
步骤一、语谱图生成,包括以下子步骤:
步骤A、采集语音信号,本实施例中,采集时间长度位1-3s的短语信号,设置截止频率为fb,对采集的语音信号进行低通滤波,本实施例中,设置截止频率为fb=4000Hz,以去除高频部分影响,滤波后的语音信号记为S(t),随后以采样频率fs数字化语音信号,数字化后的语音信号记为Sd(n)=S(n/fs);
步骤B、设置帧长为Lf,帧移为Shf,单位均为秒,针对本发明需求的典型取值为Lf=0.04s,Shf=0.005s,对数字化后的语音信号进行短时帧切分,则第i帧信号为
Figure GDA0002455573070000064
其中,
Figure GDA0002455573070000065
为向下取整,记帧长点数为
Figure GDA0002455573070000062
步骤C、对短时帧信号进行加汉明窗处理,计算加窗后的第i帧信号Fiw
Figure GDA0002455573070000063
其中,α为汉明窗型调整参数,默认值为0.46;
步骤D、定义一般频域变量为第一频率f1,设定第一频率f1的频率分辨率,得出第一级傅立叶变换的点数为N1,计算第i帧频谱的幅度:
Figure GDA0002455573070000071
对第i帧频谱的幅度Speci(k)进行256级量化,作为灰度值,量化后的灰度值表达为:
Figure GDA0002455573070000072
其中,max(·)为取最大值,round(·)为四舍五入;
步骤E、由各帧频谱所得的灰度值拼接为语谱图STG(i,k):
STG(i,k)=SpecQi(k)
其中,i为时间轴序号,取值范围由语句长度限制,k为第一频率轴序号,取值范围限定为k=0~round(4000×N1/fs);
步骤二、对语谱图STG(i,k)进行稀疏化处理,包括以下子步骤:
步骤F、设置截止频率fc或阶次,采用低通滤波器对语谱图STG(i,k)按列取出的数据STG(i)进行平滑处理,并对低通滤波造成的偏移进行补偿,平滑和补偿后的语谱图记为STGL(i,k);
步骤G、对语谱图STGL(i,k)进行第一频率f1方向的一阶差分运算,计算过程为:
DSTG(i,k)=STGL(i,k+1)-STGL(i,k):
步骤H、对差分结果仅保留符号,计算公式为:
Figure GDA0002455573070000073
步骤I、随后在第一频率f1方向进行第二次一阶差分运算,计算过程为:
DSDSTG(i,k)=SDSTG(i,k+1)-SDSTG(i,k):
步骤J、提取第二次差分运算结果取值为-2的位置即为所需的峰值位置,根据具体语谱图情况进行峰值位置进行补偿,记补偿后各峰值位置为p1,p2,...,在语谱图中取峰值位置幅度,进行幅度大小排序,仅保留幅度最大的16个峰值位置,记为pM(i,j),j=1~16,受限于计算精度,各峰值位置有可能存在一定误差,假设语音信号在亚音节时间范围内(5~10帧)平稳,对各峰值位置在亚音节片段时间内进行平均,以获得平滑效果,并将这些峰值点沿时域方向形成所述峰值轨迹。
步骤三、语音内容信息去除,包括以下子步骤:
步骤K、对步骤J中得到的峰值轨迹位置进行差分运算,针对每帧(每个i)得出15个频率差分值,计算过程为:
Dh(i,j)=pM(i,j+1)-pM(i,j);
步骤L、对频率差分值进行相近值分组,以投票方式确定组内数量最多的差分值为各次谐波间频率差,记为Dh(i);
步骤M、根据语音信号具体情况,设定邻域宽度参数w;
步骤N、计算各次谐波在设定邻域内的均值,组合成前16次谐波强度轨迹,谐波位置为:
P(i,q)=q·Dh(i)
谐波强度轨迹为:
Figure GDA0002455573070000081
其中,设定q为谐波次数,q=1,2,…,16,谐波间频率差Dh(i)不在强度轨迹结果中出现,相当于去除了语音内容(基频)方面的影响,从而消除语音内容的影响,提高了语音识别中情感区分度。
步骤四、二重谱生成,包括以下步骤:
步骤O、设置第二频率f2的分辨率,确定第二级傅立叶变换的计算点数N2;由于步骤A中设置帧移为Shf=0.00Ss,第二频率f2的取值范围为0~200Hz;
步骤P、计算第q条谐波强度轨迹的第二频率频谱:
Figure GDA0002455573070000082
步骤Q、将16条强度轨迹的第二频率频谱去除相位,仅保留幅度谱,并拼合为去除了内容影响的语音二重谱:
Sdouble(q,l)=|Spec2q(l)|
其中,q、l均为整数,q为第一频率f1根据谐波频率间隔归一化序号,即对应的谐波次数,l为第二频率f2离散后的序号,对应的频率为:
Figure GDA0002455573070000091
其中,l最高数值为N2
步骤五、二重谱信息提取,根据语音具体情况,设定第二频率f2的对应离散频率编号阈值为lf2,其对应的分割阈值频率为:
Figure GDA0002455573070000092
设定第一频率f1归一化后的第一阈值频率tf11和第二阈值频率tf12,在第一频率f1和第二频率f2构建的坐标系中划分如下4个区域,其中:
区域1:
Figure GDA0002455573070000093
区域2:
Figure GDA0002455573070000094
区域3:
Figure GDA0002455573070000095
区域4:
Figure GDA0002455573070000096
l为第二频率f2离散后的序号,本实施例中,lf2在30~50HZ,tf11在3~4,tf12在7~9,如图7所示,根据划分好的4个区域,分别计算各区域内语音二重谱的均值和标准差作为语音情感识别特征;
共8个特征的计算过程如下:
Figure GDA0002455573070000097
Figure GDA0002455573070000098
Figure GDA0002455573070000101
Figure GDA0002455573070000102
Figure GDA0002455573070000103
Figure GDA0002455573070000104
Figure GDA0002455573070000105
Figure GDA0002455573070000106
将计算得出的8个特征输入情感语音识别模型模块中训练学习,即可得到语音中的情感信息。
为了验证本发明方法的效果,在公开情感语音数据库Emo-DB上选择同一说话人在同一文本内容上以不同情感朗读的语音样本,Emo-DB是由柏林工业大学录制的德语情感音库,按照本发明所述过程提取语音二重谱,所得结果如图8所示,可以清楚的区分各个子图对应的情感特征,其中,各子图分别对应愤怒、恐惧、悲伤、高兴、中性、厌烦六种情感。
以图8(a)对应的愤怒和图8(c)对应悲伤为例,根据图7的区域划分,愤怒在区域1具有多个峰值,但峰值幅度较低,而在区域2、3、4均体现出明显波动,波动幅度与区域1中的最高峰值为同一量级;悲伤在区域1仅表现出单一峰值,且峰值幅度很高,区域2、3、4的最高幅度明显降低,且区域4非常平坦,波动幅度很小。由两图比较可以证明,此二重谱在不同情感类型上表现出明显区别,由此可见,由二重谱提取的特征具有有较高的情感区分度。
由上所述,本发明方法中,对语谱图进行稀疏化处理,提取其最高若干条能量峰值曲线,并对所提取的曲线结果进行频率位置信息去除,仅保留其幅度,以消除语音内容的影响,提高了语音识别中情感区分度;同时,构建语音二重谱,在语音二重谱中提取语音情感识别特征,以保留具有高情感区分度的信息,进一步提高提取出的语音情感区分度,由此可见,经过本发明方法识别的语音信号,具有较高的情感区分度,具有广泛的推广应用价值。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (5)

1.一种高情感区分度的语音特征提取方法,其特征在于,包括以下步骤:
步骤一、从语音信号中提取语谱图STG(i,k),i为时间轴序号,k为设定的第一频率f1的轴序号;
步骤二、对语谱图STG(i,k)进行稀疏化处理,取语谱图中峰值位置幅度最大的v个峰值位置,并将这些峰值点沿时域方向形成峰值轨迹;
步骤三、对峰值轨迹位置进行差分运算,得到v-1个频率差分值,以投票方式确定各次谐波间频率差Dh(i),计算各次谐波在设定邻域内的均值,组合成前v次谐波强度轨迹,以去除语音内容的影响,设定q为谐波次数,q=1,2,…v;
步骤四、设置第二频率f2的分辨率,确定第二级傅立叶变换的计算点数N2,计算第q条谐波强度轨迹的第二频率频谱,将v条强度轨迹的第二频率频谱去除相位,仅保留幅度谱,并拼合为去除了内容影响的语音二重谱;
步骤五、设定第二频率f2的对应离散频率编号阈值为lf2,其对应的分割阈值频率为:
Figure FDA0002455573060000011
设定第一频率f1归一化后的第一阈值频率tf11和第二阈值频率tf12,在第一频率f1和第二频率f2构建的坐标系中划分如下4个区域,其中:
区域1:
Figure FDA0002455573060000012
区域2:
Figure FDA0002455573060000013
区域3:
Figure FDA0002455573060000014
区域4:
Figure FDA0002455573060000021
l为第二频率f2离散后的序号,根据划分好的4个区域,分别计算各区域内语音二重谱的均值和标准差作为语音情感识别特征,将计算得出的8个特征输入情感语音识别模型模块中训练学习,得到语音中的情感信息。
2.如权利要求1所述的高情感区分度的语音特征提取方法,其特征在于,所述步骤一中,语谱图的提取过程包括以下步骤:
步骤A、设置截止频率为fb,对采集的语音信号进行低通滤波,滤波后的语音信号记为S(t),随后以采样频率fs数字化语音信号,数字化后的语音信号记为Sd(n)=S(n/fs);
步骤B、设置帧长为Lf,帧移为Shf,对数字化后的语音信号进行短时帧切分,则第i帧信号为
Figure FDA0002455573060000022
记帧长点数为
Figure FDA0002455573060000023
步骤C、对短时帧信号进行加汉明窗处理,计算加窗后的第i帧信号Fiw
Figure FDA0002455573060000024
其中,α为汉明窗型调整参数;
步骤D、定义频域变量为第一频率f1,设定第一频率f1的频率分辨率,得出第一级傅立叶变换的点数为N1,计算第i帧频谱的幅度:
Figure FDA0002455573060000025
对第i帧频谱的幅度Speci(k)进行256级量化,作为灰度值,量化后的灰度值表达为:
Figure FDA0002455573060000026
步骤E、由各帧频谱所得的灰度值拼接为语谱图STG(i,k):
STG(i,k)=SpecQi(k)
其中,k的取值范围限定为k=0~round(4000×N1/fs)。
3.如权利要求2所述的高情感区分度的语音特征提取方法,其特征在于,所述步骤二中,对语谱图STG(i,k)进行稀疏化处理的过程包括以下步骤:
步骤F、设置截止频率fc或阶次,采用低通滤波器对语谱图STG(i,k)按列取出的数据STG(i)进行平滑处理,并对低通滤波造成的偏移进行补偿,平滑和补偿后的语谱图记为STGL(i,k);
步骤G、对语谱图STGL(i,k)进行第一频率f1方向的一阶差分运算,计算过程为:
DSTG(i,k)=STGL(i,k+1)-STGL(i,k);
步骤H、对差分结果仅保留符号,计算公式为:
Figure FDA0002455573060000031
步骤I、随后在第一频率f1方向进行第二次一阶差分运算,计算过程为:
DSDSTG(i,k)=SDSTG(i,k+1)-SDSTG(i,k);
步骤J、提取第二次差分运算结果取值为-2的位置即为所需的峰值位置,对峰值位置进行补偿,记补偿后各峰值位置为p1,p2,...,在语谱图中取峰值位置幅度,进行幅度大小排序,仅保留幅度最大的v个峰值位置,记为pM(i,j),j=1~v,并将这些峰值点沿时域方向形成所述峰值轨迹。
4.如权利要求3所述的高情感区分度的语音特征提取方法,其特征在于,步骤三中,在语音信号中去除语音内容影响的过程包括以下步骤:
步骤K、对步骤J中得到的峰值轨迹位置进行差分运算,得到v-1个频率差分值,计算过程为:
Dh(i,j)=pM(i,j+1)-pM(i,j);
步骤L、对频率差分值进行相近值分组,以投票方式确定组内数量最多的差分值为各次谐波间频率差,记为Dh(i);
步骤M、设定邻域宽度参数w;
步骤N、计算各次谐波在设定邻域内的均值,组合成前v次谐波强度轨迹,谐波位置为:
P(i,q)=q·Dh(i)
谐波强度轨迹为:
Figure FDA0002455573060000041
其中,谐波间频率差Dh(i)不在强度轨迹结果中出现,即去除了语音内容方面的影响。
5.如权利要求4所述的高情感区分度的语音特征提取方法,其特征在于,所述步骤四中,语音二重谱的生成过程包括以下步骤:
步骤O、设置第二频率f2的分辨率,确定第二级傅立叶变换的计算点数N2
步骤P、计算第q条谐波强度轨迹的第二频率频谱:
Figure FDA0002455573060000042
步骤Q、将v条强度轨迹的第二频率频谱去除相位,仅保留幅度谱,并拼合为去除了内容影响的语音二重谱:
Sdouble(q,l)=|Spec2q(l)|
其中,q、l均为整数,q为第一频率f1根据谐波频率间隔归一化序号,即对应的谐波次数,l为第二频率f2离散后的序号,对应的频率为:
Figure FDA0002455573060000043
CN201710822706.XA 2017-09-13 2017-09-13 一种高情感区分度的语音特征提取方法 Active CN107564543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710822706.XA CN107564543B (zh) 2017-09-13 2017-09-13 一种高情感区分度的语音特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710822706.XA CN107564543B (zh) 2017-09-13 2017-09-13 一种高情感区分度的语音特征提取方法

Publications (2)

Publication Number Publication Date
CN107564543A CN107564543A (zh) 2018-01-09
CN107564543B true CN107564543B (zh) 2020-06-26

Family

ID=60980716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710822706.XA Active CN107564543B (zh) 2017-09-13 2017-09-13 一种高情感区分度的语音特征提取方法

Country Status (1)

Country Link
CN (1) CN107564543B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847252B (zh) * 2018-04-26 2022-12-02 杭州电子科技大学 基于声信号语谱图纹理分布的声特征提取方法
CN110232907B (zh) * 2019-07-24 2021-11-02 出门问问(苏州)信息科技有限公司 一种语音合成方法、装置、可读存储介质及计算设备
CN111063371B (zh) * 2019-12-21 2023-04-21 华南理工大学 一种基于语谱图时间差分的语音音节数估计方法
CN111710349B (zh) * 2020-06-23 2023-07-04 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN111883178B (zh) * 2020-07-17 2023-03-17 渤海大学 一种基于双通道语音转图像式情感识别方法
CN112259086A (zh) * 2020-10-15 2021-01-22 杭州电子科技大学 一种基于语谱图合成的语音转换方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258531A (zh) * 2013-05-29 2013-08-21 安宁 一种用于说话人无关的语音情感识别的谐波特征提取方法
CN103531206A (zh) * 2013-09-30 2014-01-22 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
CN105047194A (zh) * 2015-07-28 2015-11-11 东南大学 一种用于语音情感识别的自学习语谱图特征提取方法
CN105139867A (zh) * 2015-08-12 2015-12-09 东南大学 基于拼音韵母说话内容标准化语音情感特征选择方法

Also Published As

Publication number Publication date
CN107564543A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107564543B (zh) 一种高情感区分度的语音特征提取方法
CN104835498B (zh) 基于多类型组合特征参数的声纹识别方法
EP2695160B1 (en) Speech syllable/vowel/phone boundary detection using auditory attention cues
CN101136199B (zh) 语音数据处理方法和设备
Song et al. Noise invariant frame selection: a simple method to address the background noise problem for text-independent speaker verification
CN106297776A (zh) 一种基于音频模板的语音关键词检索方法
CN110808033A (zh) 一种基于双重数据增强策略的音频分类方法
Imtiaz et al. Isolated word automatic speech recognition (ASR) system using MFCC, DTW & KNN
Jiao et al. Convex weighting criteria for speaking rate estimation
Lin et al. Automatic estimation of voice onset time for word-initial stops by applying random forest to onset detection
Stanek et al. Algorithms for vowel recognition in fluent speech based on formant positions
CN110299133B (zh) 基于关键字判定非法广播的方法
Verma et al. An Acoustic Analysis of Speech for Emotion Recognition using Deep Learning
Leow et al. Language-resource independent speech segmentation using cues from a spectrogram image
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Matoušek et al. A comparison of convolutional neural networks for glottal closure instant detection from raw speech
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Alvarez et al. Learning intonation pattern embeddings for arabic dialect identification
Kalinli Automatic phoneme segmentation using auditory attention features
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
CN112331219B (zh) 语音处理方法和装置
Sarma et al. Analysis of spurious vowel-like regions (vlrs) detected by excitation source information
Kalinli Syllable segmentation of continuous speech using auditory attention cues
CN111210845A (zh) 一种基于改进自相关特征的病理语音检测装置
Bera et al. Emotion recognition using combination of mfcc and lpcc with supply vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant