CN109087628B - 一种基于轨迹的时间-空间光谱特征的语音情感识别方法 - Google Patents

一种基于轨迹的时间-空间光谱特征的语音情感识别方法 Download PDF

Info

Publication number
CN109087628B
CN109087628B CN201810956425.8A CN201810956425A CN109087628B CN 109087628 B CN109087628 B CN 109087628B CN 201810956425 A CN201810956425 A CN 201810956425A CN 109087628 B CN109087628 B CN 109087628B
Authority
CN
China
Prior art keywords
frame
emotion
emotion recognition
track
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810956425.8A
Other languages
English (en)
Other versions
CN109087628A (zh
Inventor
宋泊东
张立臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201810956425.8A priority Critical patent/CN109087628B/zh
Publication of CN109087628A publication Critical patent/CN109087628A/zh
Application granted granted Critical
Publication of CN109087628B publication Critical patent/CN109087628B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于轨迹的时间‑空间光谱特征的语音情感识别方法,本发明的核心思想是从语音频谱图,获得空间和时间上的描述符,进行分类和维度情感识别。采用穷举特征提取的实验表明:与MFCCs和基频特征提取方法相比,本文提出的方法在噪声条件下,调制光谱特更具鲁棒性。在4类情绪识别实验中获得了可比较的非加权平均回馈,得到了较为准确的结果,话音激活检测方面也具有显著的改进。

Description

一种基于轨迹的时间-空间光谱特征的语音情感识别方法
技术领域
本发明涉及语音识别领域,更具体地,涉及一种基于轨迹的时间-空间光谱特征的语音情感识别方法。
背景技术
在过去的十年中,情感计算研究的蓬勃发展,已经开始使机器能够感知和情感表达行为。其技术广泛应用于人机界面,和交互式机器人设计,甚至是新兴的交叉研究领域,如社会信号处理和行为信号处理等。
作为人类交流的自然编码信息,语音可以反映人类。例如,情感、性别、年龄及人格等等。因此,开发语音情感分析算法,仍然是一个流行的话题。
发明内容
本发明的目的是解决上述一个或多个缺陷,提出一种基于轨迹的时间-空间光谱特征的语音情感识别方法。
为实现以上发明目的,采用的技术方案是:
一种基于轨迹的时间-空间光谱特征的语音情感识别方法,包括以下步骤:
S1:选择情感数据库进行算法实验,其中数据库中的话语均带有情感特征标签和维度表征;
S2:分别在数据库中进行情绪识别、情感效价维度和激活维度识别,并进行特征提取。
优选的是,步骤S1所述的情感数据库为USC IEMOCAP数据库。
优选的是,步骤S1所述情绪识别为四类情绪识别,分别为快乐的、悲伤的、中性的和愤怒的。
优选的是,步骤S1所述维度表征划分为三个层次,分别为低、中、高;其中低层定义为(0-1:67),中层定义为(1:67-3:33),高层定义为(3:33-5)。
优选的是,步骤S2分为以下步骤::
S2.1:将整个话语分割成帧的区域,每个帧的长度为L(L=250ms,150ms),帧之间有50%的重叠;
S2.2:使用26个Mel滤波器能量组(MFB)输出的序列表示每一帧中的信号,也可以被成像为光谱图;MFB的窗口大小设置为25ms,重叠度为50%,MFB计算的频率上限为3000hz;
S2.3:26个滤波器输出的每个能量轮廓在每个帧的持续时间内形成一个基本轨迹;
S2.4:对于每个基本轨迹,在t=1时,计算其相邻网格的一阶差分;然后沿着时间轴移动,计算这些网格差,直到帧结束;至此得到8个额外的轨迹,也称为派生轨迹,为每帧26个滤镜输出,组成总共9个轨迹,即1个基本轨迹+8个派生轨迹;
S2.5:通过应用4个统计功能,即基于帧级轨迹的时空描述符,得到最终的帧级轨迹,即:最大、最小、平均、标准偏差;其中26×9轨迹——每帧形成一组特性。
与现有技术相比,本发明的有益效果是:
本发明建立了一种基于轨迹的时间-空间光谱特征的语音情感识别方法,本核心思想是从语音频谱图,获得空间和时间上的描述符,进行分类和维度情感IEEE。本发明提出的方法在噪声条件下,调制光谱特更具鲁棒性,在4类情绪识别实验中获得了可比较的非加权平均回馈,得到了较为准确的结果,话音激活检测方面也具有显著的改进。
附图说明
图1为基于轨迹的时空光谱特征分析流程图;
图2为三个特征集融合方法图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
一种基于轨迹的时间-空间光谱特征的语音情感识别方法,请参考图1,包括以下步骤:
S1:选择情感数据库进行算法实验,其中数据库中的话语均带有情感特征标签和维度表征;
S2:分别在数据库中进行情绪识别、情感效价维度和激活维度识别,并进行特征提取。
本实施例中,步骤S1所述的情感数据库为USC IEMOCAP数据库。这个数据库由10个参与者组成,他们两人一组,进行面对面的互动。二元互动的设计是为了从演员中引出自然的多模态情感表现。话语都有明确的情感标签(如:愤怒、快乐、悲伤、神经等)和维度表征(如:价感、激活和支配)。每句话的特征标签至少由3个评分者标注,维度属性至少由2个评分者标注。考虑到这个数据库的自发性和评估者之间的协议约为0.4,这个数据库对于算法的发展仍然是一个具有挑战性的情绪数据库。
本实施例中,步骤S1所述情绪识别为四类情绪识别,分别为快乐的、悲伤的、中性的和愤怒的。本实施例中,我们在这个数据库上进行了两项不同的情绪识别任务:1)四类情绪识别2)三层的情感效价维度和激活维度识别。对于分类情绪识别,分别是快乐的、悲伤的、中性的和愤怒的,我们认为样本与“兴奋”的标签是相同的“快乐”。评价和激活的三个层次被定义为:低(0-1:67)、中(1:67-3:33)和高(3:33-5),其中每个样本的值是基于评分者的平均值计算的。本研究中,情感分类标签的样本数量分别为快乐:531,悲伤:576,中性:411,愤怒:378;唤醒维度标签的样本数量为:低:331,中:1228,高:337;情感效价维度标签样本数量为:低653,中:820,高:423。
本实施例中,步骤S2具体为空间时间谱特征提取话语框架,代表了信号实现框架使用一个情感序列,形成每个MFB-系数轨迹,计算基于网格的时空特征和获得额外导出轨迹。最后通过计算统计函数9×26轨迹,就可获得框架水平特性
其中步骤S2分为以下步骤:
S2.1:将整个话语分割成帧的区域,每个帧的长度为L(L=250ms,150ms),帧之间有50%的重叠;
S2.2:使用26个Mel滤波器能量组(MFB)输出的序列表示每一帧中的信号,也可以被成像为光谱图;MFB的窗口大小设置为25ms,重叠度为50%,MFB计算的频率上限为3000hz;
S2.3:26个滤波器输出的每个能量轮廓在每个帧的持续时间内形成一个基本轨迹;
S2.4:对于每个基本轨迹,在t=1时,我们计算其相邻网格的一阶差分(8total:在图1中标记为黄色);然后我们沿着时间轴移动,计算这些网格差,直到帧结束。因此,我们得到8个额外的轨迹(所谓的派生轨迹),为每帧26个滤镜输出(一个轨迹的真实例子见图1),组成总共9个轨迹(1个基本轨迹+8个派生轨迹);
S2.5:通过应用4个统计功能,即基于帧级轨迹的时空描述符,得到最终的帧级轨迹,即:最大、最小、平均、标准偏差;其中26×9轨迹——每帧形成一组特性。
本发明新提出的特性的基本思想是,本质上跟踪光谱能量的变化在一个长期的框架内,在频率轴(空间)和时间轴的方向。由于框架灵感来自于视频描述符的提取方法,与语音生成/感知相关的物理意义虽然很难建立。但是,这个框架提供了一种简单的方法来量化语音信号的频谱-时间特性之间的各种相互关系,直接从时间-频率表示,而不需要进行更高级别的处理。
在本实施例中,对对前文所述的情感识别任务进行了如下两个实验:
实验I:三种情绪识别实验中我们提出的带有Conv-PS和OpEmo-Uttfeatures的Traj-ST的比较和分析;
实验II:在三个情感识别实验中,Traj-ST与Conv-PS和/oropem-utt特征融合后的识别精度分析。
其中,Conv-PS特征提取方法与Traj-ST相似,但不是计算Mel-filter输出轨迹的时空特征,而是每10ms计算基本频率(f0)、强度(INT)、MFCCs、它们的delta和delta-delta-delta-delta-delta-delta 45个低级描述符。然后我们将7个统计函数应用到这些LLD特征上,从而得到每一帧Conv-PS总共有315个特性。OpEmo-Utt是一个详尽的语音级特性集。在许多辅助语言识别任务中都有使用。每句话包含6668个特征。所有的特征都是针对单个说话者的。所有的评价都是通过一对一的交叉验证进行的,精度是用非加权平均的方法来衡量的。基于ANOVA测试的单变量特征选择是针对Traj-ST和conv-ps特性集进行的。
在实验I中,对于Traj-ST和Conv-PS特征集,我们使用高斯混合模型(M=32)生成帧级每个类标签的概率分数pi;t,然后使用以下简单规则进行帧级识别:
Figure BDA0001772782240000041
提到的类标签中,t指的是框架指数,而N则指的是一个话语中的总帧数。对于OpEmo-Utt,由于它是一个大维度的话语级特征向量,我们在进行主成分分析(90%的方差)和线性核支持向量机多类分类器后,使用了基于gmm的方法。
在实验II中,Traj-ST与Conv-PS和OpEmo-Utt的融合方法如图2所示。融合框架基于逻辑回归。对于Traj-ST和Conv-PS,融合是在统计功能上进行的,即,均值,标准差,max,andmin,应用于pi;t;对于OpEmo-Utt,融合是基于从一个Vs-all多类支持向量机输出的决策分数进行的。
图2描述了三种特征集的融合方法。基于框架的特征用GMM模型的概率评分输出的统计功能进行融合,使用SVM分类器的决策分数直接融合话语层次特征。最后采用的融合模型是logistic回归。
表1总结了Exp i的详细结果。对于Traj-ST和Conv-PS,我们报告了使用不同帧长进行特征提取的GMM模型的UARsof,即。,125ms,250ms,375ms,完整发音长度。对于OpEmo-Utt,我们报告了使用GMM和svm模型的UARs。
结果中有几点需要注意:在四类情绪识别任务中,Traj-ST与OpEmo-Utt(47.5%vs.47.7%)进行了比较,而最佳准确率为Conv-PS(48.6%)。在三层价识别任务中,使用OpEmo-Utt(47.4%)是最准确的,在这一任务中,Traj-ST和Conv-PS表现不佳。最后,我们建议的Traj-ST特性集在三层激活识别任务上的性能明显优于Conv-PS和opemo-utt。它的识别率达到了61.5%,比Conv-PS提高了1.7%,比OpEmo-Utt提高了2.9%。通过三种类型的情绪识别任务的运行,似乎可以明显地看出,每一组这些特征确实具有不同数量和不同质量的情绪内容。opem-uttem似乎对价性表现得最好,这可能是由于对价度的感知的复杂性(例如需要在话语层面提取排气特征)。虽然过去已经证明,与声音有关的特征在激活维度中往往包含更多的信息,但是我们仍然可以很肯定地看到我们提出的特征,Traj-ST,在预测激活的整体感知方面比这两个其他特征集更有效。
表1实验I输出了三种不同情绪的结果
Figure BDA0001772782240000051
Figure BDA0001772782240000061
识别任务:4级情绪识别,3级激活/情感效价识别。对于Traj-ST和Conv-PS,采用具有不同框架长度的GMM模型的UARs,用于特征提取。对于OpEmo-Utt,使用GMM和SVM模型的UARs。帧的持续时间也对获得最佳的精度forTraj-ST(也适用于Conv-PS)起着重要的作用。由此可见,大约250ms的持续时间是最理想的帧-持续时间。
这一结果证实了已有研究在情感识别中使用长期光谱特征的发现。此外,Traj-ST的特征选择输出结果表明,时空特征的前三个方向分别为{0,0}-基轨迹,{1,0}-高时空等效方向轨迹,以及{1,-1}-高时空-早时空方向轨迹。这三种特征占选择产生的特征的50%。这些轨迹量化了光谱能量向高频段方向的变化,具有较高的情感识别精度,在3级激活识别中也表现显著。
假设在实验I中,每一组特征似乎都能识别不同的情绪表现。为了进一步验证算法的可靠性,本文融合这三种不同的特征。表2列出了各种融合结果。OpEmo-Utt是指融合SVM模型输出的决策分数。表2总结了三个不同特征集的融合结果。
表2实验II输出了三个不同特征集融合的分析结果
Figure BDA0001772782240000071
注:TRAJ ST,CONV PS,OpEmo Utt为使用UAR计算所呈现的数目。
由表2可见。首先,不同特征集的融合都提高了最佳单特征集的结果。具体表现在,4类情感识别的最佳融合精度是通过融合所有三组特征获得的53.5%(相对于绝对单个特征集的4.8%的绝对改进);3级情感效价的最佳融合结果是47.8%(1%绝对改进优于最佳单特征集,OpE)。最后,三级激活的最佳融合结果是61.2%(相对于最佳单特征集0.9%的绝对改进,TRAJST)。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (4)

1.一种基于轨迹的时间-空间光谱特征的语音情感识别方法,其特征在于,包括以下步骤:
S1:选择情感数据库进行算法实验,其中数据库中的话语均带有情感特征标签和维度表征;
S2:分别在数据库中进行情绪识别、情感效价维度和激活维度识别,并进行特征提取;
步骤S2分为以下步骤:
S2.1:将整个话语分割成帧的区域,每个帧的长度为L,L=250ms,150ms,帧之间有50%的重叠;
S2.2:使用26个Mel滤波器能量组输出的序列表示每一帧中的信号,也可以被成像为光谱图;MFB的窗口大小设置为25ms,重叠度为50%,MFB计算的频率上限为3000hz;
S2.3:26个滤波器输出的每个能量轮廓在每个帧的持续时间内形成一个基本轨迹;
S2.4:对于每个基本轨迹,在t=1时,计算其相邻网格的一阶差分;然后沿着时间轴移动,计算这些网格差,直到帧结束;至此得到8个额外的轨迹,也称为派生轨迹,为每帧26个滤镜输出,组成总共9个轨迹,即1个基本轨迹+8个派生轨迹;
S2.5:通过应用4个统计功能,即基于帧级轨迹的时空描述符,得到最终的帧级轨迹,即:最大、最小、平均、标准偏差;其中26×9轨迹——每帧形成一组特性。
2.根据权利要求1所述的一种基于轨迹的时间-空间光谱特征的语音情感识别方法,其特征在于,步骤S1所述的情感数据库为USC IEMOCAP数据库。
3.根据权利要求1所述的一种基于轨迹的时间-空间光谱特征的语音情感识别方法,其特征在于,步骤S2所述情绪识别为四类情绪识别,分别为快乐的、悲伤的、中性的和愤怒的。
4.根据权利要求1所述的一种基于时间-空间光谱特征的语音情感识别方法,其特征在于,步骤S1所述维度表征划分为三个层次,分别为低、中、高;其中
低层定义为(0-1:67),中层定义为(1:67-3:33),高层定义为(3:33-5)。
CN201810956425.8A 2018-08-21 2018-08-21 一种基于轨迹的时间-空间光谱特征的语音情感识别方法 Expired - Fee Related CN109087628B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810956425.8A CN109087628B (zh) 2018-08-21 2018-08-21 一种基于轨迹的时间-空间光谱特征的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810956425.8A CN109087628B (zh) 2018-08-21 2018-08-21 一种基于轨迹的时间-空间光谱特征的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN109087628A CN109087628A (zh) 2018-12-25
CN109087628B true CN109087628B (zh) 2023-03-31

Family

ID=64794229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810956425.8A Expired - Fee Related CN109087628B (zh) 2018-08-21 2018-08-21 一种基于轨迹的时间-空间光谱特征的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN109087628B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021308B (zh) * 2019-05-16 2021-05-18 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599271B (zh) * 2009-07-07 2011-09-14 华中科技大学 一种数字音乐情感的识别方法
EP2817800B1 (en) * 2012-02-21 2016-10-19 Tata Consultancy Services Limited Modified mel filter bank structure using spectral characteristics for sound analysis
CN103531206B (zh) * 2013-09-30 2017-09-29 华南理工大学 一种结合局部与全局信息的语音情感特征提取方法
CN104637497A (zh) * 2015-01-16 2015-05-20 南京工程学院 一种面向语音情感识别的语谱特征提取方法
CN107633851B (zh) * 2017-07-31 2020-07-28 极限元(杭州)智能科技股份有限公司 基于情感维度预测的离散语音情感识别方法、装置及系统

Also Published As

Publication number Publication date
CN109087628A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN108805089B (zh) 基于多模态的情绪识别方法
CN108877801B (zh) 基于多模态情绪识别系统的多轮对话语义理解子系统
Datcu et al. Semantic audiovisual data fusion for automatic emotion recognition
Haq et al. Audio-visual feature selection and reduction for emotion classification.
CN108564942A (zh) 一种基于敏感度可调的语音情感识别方法及系统
Eyben et al. String-based audiovisual fusion of behavioural events for the assessment of dimensional affect
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN115577161A (zh) 融合情感资源的多模态情感分析模型
CN104008754A (zh) 一种基于半监督特征选择的语音情感识别方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
Cid et al. A novel multimodal emotion recognition approach for affective human robot interaction
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN112418172A (zh) 基于多模信息智能处理单元的多模信息融合情感分析方法
Alghifari et al. On the use of voice activity detection in speech emotion recognition
Mariooryad et al. Feature and model level compensation of lexical content for facial emotion recognition
Padi et al. Multi-window data augmentation approach for speech emotion recognition
Chakraborty et al. Analyzing emotion in spontaneous speech
CN114463688A (zh) 一种跨模态上下文编码的对话情感识别方法及系统
Hamsa et al. An enhanced emotion recognition algorithm using pitch correlogram, deep sparse matrix representation and random forest classifier
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN109087628B (zh) 一种基于轨迹的时间-空间光谱特征的语音情感识别方法
Gangashetty et al. Detection of vowel on set points in continuous speech using autoassociative neural network models.
Gangashetty et al. Extraction of fixed dimension patterns from varying duration segments of consonant-vowel utterances
Jia et al. Two-level discriminative speech emotion recognition model with wave field dynamics: A personalized speech emotion recognition method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20230331

CF01 Termination of patent right due to non-payment of annual fee