CN109146066A - 一种基于语音情感识别的虚拟学习环境自然交互方法 - Google Patents

一种基于语音情感识别的虚拟学习环境自然交互方法 Download PDF

Info

Publication number
CN109146066A
CN109146066A CN201811296271.0A CN201811296271A CN109146066A CN 109146066 A CN109146066 A CN 109146066A CN 201811296271 A CN201811296271 A CN 201811296271A CN 109146066 A CN109146066 A CN 109146066A
Authority
CN
China
Prior art keywords
feature
input
term
virtual learning
learning environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811296271.0A
Other languages
English (en)
Inventor
蔡林沁
陈富丽
陆相羽
胡雅心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201811296271.0A priority Critical patent/CN109146066A/zh
Publication of CN109146066A publication Critical patent/CN109146066A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于语音情感识别的虚拟学习环境自然交互方法,属于深度学习领域,包括步骤S1:通过kinect采集学生用户的语音信号,进行重采样,分帧加窗,静音处理,得到短时单帧信号;S2:对信号进行快速傅里叶变换得到频域数据,求其功率谱,采用梅尔滤波器组得到梅尔频谱图;S3:将梅尔频谱图特征输入卷积神经网络,进行卷积操作与池化操作,并将最后一层降采样后的各矩阵向量,输入到全连接层,构成一个向量输出特征;S4:将输出特征压缩输入到双向长短时记忆神经网络中;S5:将输出特征输入到支持向量机中分类输出分类结果;S6:将分类结果反馈到虚拟学习系统中进行虚拟学习环境交互。本发明驱动学习者调整学习状态,增强虚拟学习环境的实用性。

Description

一种基于语音情感识别的虚拟学习环境自然交互方法
技术领域
本发明属于深度学习领域,涉及一种基于语音情感识别的虚拟学习环境自然交互方法。
背景技术
语音信号是人类最方便、最快捷、最自然的交流方式,其中携带着大量的情感信息。因此对语音情感识别的分析与研究在人机交互领域具有重要的意义。例如,在教师对学生进行远程教育课堂上,可以采用此技术帮助教师分析学生回答问题的情感状态,关联预测出学生此时的学习状态,进而调整自己的课堂教学,使课堂教学真正的做到以人为本;在医学治疗上,医生可以对病房里的病人此刻的情绪状态进行一个远程实时的监控,在其情绪消极的时候,实施开导,使病人积极的配合治疗。此外,语音情感计算还能应用于陪伴机器人,电子商务等相关产业,使机器更加智能拟人化。而语音信号中情感信息的体现,不仅体现在声学特征上的变化,还应结合语义内容,对语音信号的情感特征进行分析。
语音情感识别领域的主要难点在于没有一个能很好的描述语音情感的特征。针对语音情感特征的提取一直都是语音情感识采用传统的声学特征,对语音信号进行预处理之后,提取语音特征,例如:LPC,短时能量,短时过零率,MFCC等特征。但是语音信号是具有层次性的信号,略过浅层特征,直接提取上述高层特征是很难的。
通常语音情感识别只考虑了语音信号中声学特征的表征情感信息,而语音信号是一个连续的信号,其中情绪的表达也是一个连续的过程,与时间序列有很大的关联性。故单考虑声学特征中的短时能量特征等并不能找到完整的情感描述特征。
虚拟学习环境是将虚拟现实技术与课堂教学融为一体,能通过在虚拟环境中构建课堂教学场景、授课策略、教学内容,力求打破时间、空间、教学资源的限制,让学生“身临其境”地体验各种教学实验实践过程,加强对各种原理、概念、方法的理解,提升学生的学习兴趣和效果。在虚拟学习环境中,学生的情感都随着课堂的推移而实时变化,故在虚拟学习环境中,考察语音情感特征中的时序特征具有非常重要的意义。
发明内容
有鉴于此,本发明的目的在于提供一种基于语音情感识别的虚拟学习环境自然交互方法,将通过Kinect采集的学生实时语音信号转化为频谱图,输入到卷积神经网络模型中进行特征的学习,从浅层的特征学习到深层次的短时域特征以及频域特征,将其压缩为一维特征向量;将经过卷积神经网络初提取学习的初始一维特征向量,输入到搭建的双向长短时记忆神经网络中,学习时序特征,输出加入时序特征后的情感描述特征;将双向长短时记忆神经网路学习后的输出特征,输入到支持向量机中进行分类。其中支持向量机选用RBF高斯核函数为内核,采用grid search网格寻优的算法寻找最优参数,并输出最后的分类结果;以虚拟学习环境的学生作为应用对象,采集学生的实时语音情感,将此结果反馈到虚拟学习系统中,驱动教师模块,实时调整教师的授课策略与行为表达,增强课堂趣味性。
为达到上述目的,本发明提供如下技术方案:
一种基于语音情感识别的虚拟学习环境自然交互方法,包括以下步骤:
S1:通过kinect采集学生用户的语音信号,对所述语音信号进行重采样,分帧加窗,静音处理,得到短时的单帧信号,第n帧信号为x(n);
S2:对x(n)进行快速傅里叶变换得到频域数据,求所述频域数据的功率谱,采用梅尔滤波器组,得到该帧的梅尔频谱图;
S3:将得到的梅尔频谱图特征,输入到搭建的卷积神经网络中,进行卷积操作与池化操作,并将最后一层降采样后的各矩阵向量,输入到全连接层,构成一个向量输出特征;
S4:将卷积神经网络的输出特征,压缩为一维特征向量,将所述一维特征向量作为输入,输入到搭建好的双向长短时记忆神经网络中,进行特征学习;
S5:将双向长短时记忆神经网路学习后的输出特征,输入到支持向量机中进行分类;其中支持向量机选用RBF高斯核函数为内核,采用grid search网格寻优的算法寻找最优参数,并输出最后的分类结果;
S6:将分类结果反馈到虚拟学习系统中,以虚拟学习环境的学生作为应用对象,进行虚拟学习环境交互。
进一步,在步骤S6中,利用步骤S5的分类结果来反馈学生的学习状态,并用该结果驱动教师模块,实时调整虚拟教师的授课策略与行为表达,促进学习者学习状态的改善。
进一步,在步骤S3中,所述卷积操作包括,其卷积层的每个滤波器作用于一张梅尔频谱图,利用卷积神经网络的共享权重和偏置的特点,对频谱图的局部特征进行提取,经过卷积后的特征图输出为:
其中表示在第l个卷积层的第j个映射集合,表示l-1个卷积层第i个特征集合,表示l层第i个特征集合与第j个映射集合之间的卷积核,为加权偏置项,fc(.)为激活函数,表示二维卷积。
进一步,在步骤S3中,池化操作是对卷积层进行利用相邻分布点的相关性降采样聚合操作,对卷积层信息进行特征筛选,提取主要信息,减少输出数目,提升系统的鲁棒性和泛化性能,池化过程如下:
式中down(.)表示l-1层到l层的降采样运算方法,采用Avy pooling或Max poling方法;表示乘偏置项,表示加偏置项,fp(.)为池化层的激活函数。
进一步,在步骤S4中,所述双向长短时记忆神经网络包括输出门ot、输入门it、遗忘门ft,通过各个门的参数来控制文本信息ct,用xt和ht分别表示长短时记忆神经网络单元的输入值与输出值,t时刻候选记忆单元信息计算如下:
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,计算公式如下:
it=σ(wxixt+whiht-1+bi)
遗忘门ft控制历史信息的传递,计算公式如下:
ft=σ(wxfxt+whfht-1+bf)
ct为记忆单元内容,由与ct-1决定,受ft和it调控,计算如下:
输出门ot计算LSTM单元的输出值ht,计算公式如下:
ot=σ(wxoxt+whoht-1+bo)
其中,w为权重,b为偏置项,表示点乘,函数σ为sigmoid函数,表示某种情况的发生概率;
由于语音信号的连续性,语音情感与前后时间的关联性与连续性,双向长短时记忆神经网络处理单向时间,仅仅对前向历史信息学习,所以采用双向长短时记忆神经网络,将词序列特征在前向和后向同时输入,连接到相同的输出层,情感特征前后的关联性与连续性,减少误判率。
本发明的有益效果在于:1.采用Kinect实时采集语音信号,并用深度学习的方法从语音中自提取语音情感特征,提升语音初始情感特征的表征性能;
2.采用双向长短时记忆神经网络,来学习语音情感中的时序特征,加深情感特征之间的关联性,进一步加强情感特征的描述性;
3.将一种实时识别语音情感系统运用到虚拟学习环境下,实时调整虚拟教师的授课策略与行为表达,促进学习者学习状态的改善,达到提升学习者兴趣的目的,使虚拟学习环境中教师与学生的交互更加实时与自然,增强虚拟学习环境的实用性,极大的提高学习效果。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为语音情感识别流程图;
图2为长短时记忆神经网络LSTM原理结构图;
图3为卷积神经网络情感特征提取流程图;
图4为双向长短时记忆神经网络Bi-LSTM特征学习,识别流程图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,一种基于语音情感识别的虚拟学习环境自然交互方法,包括以下步骤:
步骤101:对kinect实时采集的学生用户语音信号进行重采样,分帧加窗,静音处理,得到短时的单帧信号,第n帧信号为x(n);
步骤102:对x(n)进行快速傅里叶变换得到频域数据,求其功率谱,采用梅尔滤波器组,得到该帧的梅尔频谱图;
如图3所示,步骤103:将得到的梅尔频谱图特征,输入到搭建的卷积神经网络中,进行卷积操作,其卷积层的每个滤波器作用于一张梅尔频谱图,利用卷积神经网络的共享权重和偏置的特点,对频谱图的局部特征进行提取,经过卷积后的特征图输出为
其中表示在第l个卷积层的第j个映射集合,表示l-1个卷积层第i个特征集合,表示l层第i个特征集合与第j个映射集合之间的卷积核,为加权偏置项,fc(.)为激活函数(RLUE函数),表示二维卷积。
对卷积层进行利用相邻分布点的相关性降采样聚合操作,也就是池化过程,对卷积层信息进行特征筛选,提取主要信息,减少输出数目,提升系统的鲁棒性和泛化性能,池化过程如下
式中down(.)表示l-1层到l层的降采样运算方法,一般有Avy pooling和Maxpoling两种;两种表示乘偏置项和加偏置项,fp(.)为池化层的激活函数。
将最后一层降采样后的各矩阵向量,输入到全连接层,构成一个向量输出特征。
步骤104:将103步骤提取的初始情感特征输入到搭建的双向长短时记忆神经网络(LSTM)中。LSTM原理结构如图2所示,主要包括输出门ot,输入门it,遗忘门ft,通过各个门的参数来控制文本信息ct用xt和ht分别表示LSTM单元的输入值与输出值。t时刻候选记忆单元信息计算如下:
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,计算公式如下:
it=σ(wxixt+whiht-1+bi) (4)
遗忘门ft控制历史信息的传递,计算公式如下:
ft=σ(wxfxt+whfht-1+bf) (5)
ct为记忆单元内容,由与ct-1决定,受ft和it调控,计算如下:
输出门ot计算LSTM单元的输出值ht,计算公式如下:
ot=σ(wxoxt+whoht-1+bo) (7)
以上计算公式,w为权重,b为偏置项,表示点乘,函数σ为sigmoid函数,表示某种情况的发生概率。
由于语音信号的连续性,语音情感与前后时间的关联性与连续性,LSTM网络处理单向时间,仅仅对前向历史信息学习,所以采用双向LSTM网络(Bi-LSTM),其结构图如图4中所示,将词序列特征在前向和后向同时输入,连接到相同的输出层,情感特征前后的关联性与连续性,减少误判率。
步骤105:将步骤104输出的向量特征作为输入,输入到支持向量机中进行分类。其中支持向量机选用RBF高斯核函数为内核,采用grid search网格寻优的算法寻找最优参数,并输出最后的分类结果
步骤106:将此结果反馈到虚拟学习系统中,以虚拟学习环境的学生作为应用对象,进行虚拟学习环境交互。将步骤105的识别结果来反馈学生的学习状态,并用该结果驱动教师模块,实时调整虚拟教师的授课策略与行为表达,促进学习者学习状态的改善,达到提升学习者兴趣的目的,使虚拟学习环境中教师与学生的交互更加实时与自然,增强虚拟学习环境的实用性,极大的提高学习效果。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (5)

1.一种基于语音情感识别的虚拟学习环境自然交互方法,其特征在于:包括以下步骤:
S1:通过kinect采集学生用户的语音信号,对所述语音信号进行重采样,分帧加窗,静音处理,得到短时的单帧信号,第n帧信号为x(n);
S2:对x(n)进行快速傅里叶变换得到频域数据,求所述频域数据的功率谱,采用梅尔滤波器组,得到该帧的梅尔频谱图;
S3:将得到的梅尔频谱图特征,输入到搭建的卷积神经网络中,进行卷积操作与池化操作,并将最后一层降采样后的各矩阵向量,输入到全连接层,构成一个向量输出特征;
S4:将卷积神经网络的输出特征,压缩为一维特征向量,将所述一维特征向量作为输入,输入到搭建好的双向长短时记忆神经网络中,进行特征学习;
S5:将双向长短时记忆神经网路学习后的输出特征,输入到支持向量机中进行分类;其中支持向量机选用RBF高斯核函数为内核,采用grid search网格寻优的算法寻找最优参数,并输出最后的分类结果;
S6:将分类结果反馈到虚拟学习系统中,以虚拟学习环境的学生作为应用对象,进行虚拟学习环境交互。
2.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法,其特征在于:在步骤S6中,利用步骤S5的分类结果来反馈学生的学习状态,并用该结果驱动教师模块,实时调整虚拟教师的授课策略与行为表达,促进学习者学习状态的改善。
3.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法,其特征在于:在步骤S3中,所述卷积操作包括,其卷积层的每个滤波器作用于一张梅尔频谱图,利用卷积神经网络的共享权重和偏置的特点,对频谱图的局部特征进行提取,经过卷积后的特征图输出为:
其中表示在第l个卷积层的第j个映射集合,表示l-1个卷积层第i个特征集合,表示l层第i个特征集合与第j个映射集合之间的卷积核,为加权偏置项,fc(.)为激活函数,表示二维卷积。
4.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法,其特征在于:在步骤S3中,池化操作是对卷积层进行利用相邻分布点的相关性降采样聚合操作,对卷积层信息进行特征筛选,提取主要信息,减少输出数目,提升系统的鲁棒性和泛化性能,池化过程如下:
式中down(.)表示l-1层到l层的降采样运算方法,采用Avy pooling或Max poling方法;表示乘偏置项,表示加偏置项,fp(.)为池化层的激活函数。
5.根据权利要求1所述的于语音情感识别的虚拟学习环境自然交互方法,其特征在于:在步骤S4中,所述双向长短时记忆神经网络包括输出门ot、输入门it、遗忘门ft,通过各个门的参数来控制文本信息ct,用xt和ht分别表示双向长短时记忆神经网络单元的输入值与输出值,t时刻候选记忆单元信息计算如下:
输入门it由当前输入数据xt和前一时刻单元输出ht-1决定,计算公式如下:
it=σ(wxixt+whiht-1+bi)
遗忘门ft控制历史信息的传递,计算公式如下:
ft=σ(wxfxt+whfht-1+bf)
ct为记忆单元内容,由与ct-1决定,受ft和it调控,计算如下:
输出门ot计算LSTM单元的输出值ht,计算公式如下:
ot=σ(wxoxt+whoht-1+bo)
其中,w为权重,b为偏置项,表示点乘,函数σ为sigmoid函数,表示某种情况的发生概率。
CN201811296271.0A 2018-11-01 2018-11-01 一种基于语音情感识别的虚拟学习环境自然交互方法 Pending CN109146066A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296271.0A CN109146066A (zh) 2018-11-01 2018-11-01 一种基于语音情感识别的虚拟学习环境自然交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296271.0A CN109146066A (zh) 2018-11-01 2018-11-01 一种基于语音情感识别的虚拟学习环境自然交互方法

Publications (1)

Publication Number Publication Date
CN109146066A true CN109146066A (zh) 2019-01-04

Family

ID=64807151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296271.0A Pending CN109146066A (zh) 2018-11-01 2018-11-01 一种基于语音情感识别的虚拟学习环境自然交互方法

Country Status (1)

Country Link
CN (1) CN109146066A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110223712A (zh) * 2019-06-05 2019-09-10 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN111079665A (zh) * 2019-12-20 2020-04-28 长沙深之瞳信息科技有限公司 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法
CN111128191A (zh) * 2019-12-31 2020-05-08 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111292724A (zh) * 2020-02-13 2020-06-16 上海凯岸信息科技有限公司 一种基于深度学习的语音情绪识别方案
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN112819133A (zh) * 2019-11-15 2021-05-18 北方工业大学 一种深度混合神经网络情感识别模型的构建方法
CN113314151A (zh) * 2021-05-26 2021-08-27 中国工商银行股份有限公司 语音信息处理方法、装置、电子设备及存储介质
CN113518500A (zh) * 2021-04-16 2021-10-19 江苏力行电力电子科技有限公司 一种基于情境识别的智能灯光自动调节方法及调控系统
CN113853161A (zh) * 2019-05-16 2021-12-28 托尼有限责任公司 用于识别和测量情感状态的系统和方法
WO2022198923A1 (zh) * 2021-03-26 2022-09-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
WO2023222088A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 语音识别与分类方法和装置
CN117725369A (zh) * 2024-02-07 2024-03-19 合肥工业大学 一种环境鲁棒的WiFi信号行为识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632251A (zh) * 2016-01-20 2016-06-01 华中师范大学 具有语音功能的3d虚拟教师系统及其方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107961007A (zh) * 2018-01-05 2018-04-27 重庆邮电大学 一种结合卷积神经网络和长短时记忆网络的脑电识别方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105632251A (zh) * 2016-01-20 2016-06-01 华中师范大学 具有语音功能的3d虚拟教师系统及其方法
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN106919251A (zh) * 2017-01-09 2017-07-04 重庆邮电大学 一种基于多模态情感识别的虚拟学习环境自然交互方法
CN107961007A (zh) * 2018-01-05 2018-04-27 重庆邮电大学 一种结合卷积神经网络和长短时记忆网络的脑电识别方法
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张传雷,张善文,李建荣: "《基于图像分析的植物及其病虫害识别方法研究》", 31 October 2018 *
李蕊: "《科技大数据:因你而改变》", 31 August 2018 *
黄孝平: "《当代机器深度学习方法与应用研究》", 30 November 2017 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109982137A (zh) * 2019-02-22 2019-07-05 北京奇艺世纪科技有限公司 模型生成方法、视频标记方法、装置、终端及存储介质
WO2020192009A1 (zh) * 2019-03-25 2020-10-01 平安科技(深圳)有限公司 一种基于神经网络的静音检测方法、终端设备及介质
CN110059188B (zh) * 2019-04-11 2022-06-21 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN110059188A (zh) * 2019-04-11 2019-07-26 四川黑马数码科技有限公司 一种基于双向时间卷积网络的中文情感分析方法
CN113853161A (zh) * 2019-05-16 2021-12-28 托尼有限责任公司 用于识别和测量情感状态的系统和方法
CN110097894A (zh) * 2019-05-21 2019-08-06 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110175596A (zh) * 2019-06-04 2019-08-27 重庆邮电大学 基于双流卷积神经网络的虚拟学习环境微表情识别与交互方法
CN110223712B (zh) * 2019-06-05 2021-04-20 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110223712A (zh) * 2019-06-05 2019-09-10 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN110444202B (zh) * 2019-07-04 2023-05-26 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110782872A (zh) * 2019-11-11 2020-02-11 复旦大学 基于深度卷积循环神经网络的语种识别方法及装置
CN112819133A (zh) * 2019-11-15 2021-05-18 北方工业大学 一种深度混合神经网络情感识别模型的构建方法
CN111079665A (zh) * 2019-12-20 2020-04-28 长沙深之瞳信息科技有限公司 基于Bi-LSTM神经网络的摩尔斯电码自动识别方法
CN111128191A (zh) * 2019-12-31 2020-05-08 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111128191B (zh) * 2019-12-31 2023-03-28 中国科学院声学研究所 一种在线端对端语音转写方法及系统
CN111292724A (zh) * 2020-02-13 2020-06-16 上海凯岸信息科技有限公司 一种基于深度学习的语音情绪识别方案
WO2022198923A1 (zh) * 2021-03-26 2022-09-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
CN113518500A (zh) * 2021-04-16 2021-10-19 江苏力行电力电子科技有限公司 一种基于情境识别的智能灯光自动调节方法及调控系统
CN113314151A (zh) * 2021-05-26 2021-08-27 中国工商银行股份有限公司 语音信息处理方法、装置、电子设备及存储介质
WO2023222088A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 语音识别与分类方法和装置
CN117725369A (zh) * 2024-02-07 2024-03-19 合肥工业大学 一种环境鲁棒的WiFi信号行为识别方法及系统
CN117725369B (zh) * 2024-02-07 2024-05-17 合肥工业大学 一种环境鲁棒的WiFi信号行为识别方法及系统

Similar Documents

Publication Publication Date Title
CN109146066A (zh) 一种基于语音情感识别的虚拟学习环境自然交互方法
Wang et al. Wavelet packet analysis for speaker-independent emotion recognition
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
Wu et al. Audio classification using attention-augmented convolutional neural network
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN108334583A (zh) 情感交互方法及装置、计算机可读存储介质、计算机设备
Chen et al. A novel dual attention-based BLSTM with hybrid features in speech emotion recognition
CN110110169A (zh) 人机交互方法及人机交互装置
Zhou et al. Deep learning based affective model for speech emotion recognition
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN112466326A (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN110223714A (zh) 一种基于语音的情绪识别方法
CN110534133A (zh) 一种语音情感识别系统及语音情感识别方法
CN115862684A (zh) 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法
Huang et al. A generative adversarial network model based on intelligent data analytics for music emotion recognition under IoT
Wu et al. Speech emotion recognition using sequential capsule networks
Yang et al. English speech sound improvement system based on deep learning from signal processing to semantic recognition
Peng et al. Auditory-inspired end-to-end speech emotion recognition using 3D convolutional recurrent neural networks based on spectral-temporal representation
Huijuan et al. Coarse-to-fine speech emotion recognition based on multi-task learning
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Kamaruddin et al. Features extraction for speech emotion
Hu et al. Speech Emotion Recognition Based on Attention MCNN Combined With Gender Information
Li et al. Multimodal emotion recognition and state analysis of classroom video and audio based on deep neural network
Ying et al. Design of speech emotion recognition algorithm based on deep learning
Kamaruddin et al. Speech emotion verification system (SEVS) based on MFCC for real time applications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190104