CN112489690A - 语音情绪识别方法及系统 - Google Patents

语音情绪识别方法及系统 Download PDF

Info

Publication number
CN112489690A
CN112489690A CN202011536031.0A CN202011536031A CN112489690A CN 112489690 A CN112489690 A CN 112489690A CN 202011536031 A CN202011536031 A CN 202011536031A CN 112489690 A CN112489690 A CN 112489690A
Authority
CN
China
Prior art keywords
audio
emotion recognition
voice file
voice
speech emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011536031.0A
Other languages
English (en)
Inventor
曲道奎
杜威
王海鹏
邹风山
王晓东
高多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Siasun Robot and Automation Co Ltd
Original Assignee
Shenyang Siasun Robot and Automation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Siasun Robot and Automation Co Ltd filed Critical Shenyang Siasun Robot and Automation Co Ltd
Priority to CN202011536031.0A priority Critical patent/CN112489690A/zh
Publication of CN112489690A publication Critical patent/CN112489690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种语音情绪识别方法,包括:将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。本发明还涉及一种语音情绪识别系统。本发明能够提升语音情绪识别准确率,并且在短时间内准确、实时地识别说话人的潜在情绪。

Description

语音情绪识别方法及系统
技术领域
本发明涉及一种语音情绪识别方法及系统。
背景技术
传统的基于支持向量机(Support Vector Machine,SVM)、隐马尔科夫链(HiddenMarkov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、K最近邻居(KNearest Neighbors,KNN)等方法在语音情绪识别方面取得了一定的效果。
然而,传统的语音情绪识别方法准确率并不高,且不能够在短时间内准确、实时地识别说话人的潜在情绪。
发明内容
有鉴于此,有必要提供一种语音情绪识别方法及系统,其能够提升语音情绪识别准确率,并且在短时间内准确、实时地识别说话人的潜在情绪。
本发明提供一种语音情绪识别方法,该方法包括如下步骤:a.将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;b.使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;c.将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
具体地,所述的音频预处理包括:静音移除及数据增强。
具体地,所述的静音移除包括:
使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。
具体地,所述的语音数据增强包括:
如果当前语音文件短于最小音频片段数据,则将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
具体地,所述的步骤b包括:
使用音频处理库函数抽取包括以音高、能量、过零率、色度为代表的韵律特征,以共振频率、谱特征为代表的质量特征,及以梅尔倒频谱系数、MFCC一阶导数、线性预测编码系数为代表的导出特征,通过拼接的方式组成音频特征向量。
具体地,所述的步骤b包括:
使用谱图像特征的形式展示预处理后的语音文件的多维度特征。
具体地,所述语音情绪识别模型为卷积神经网络模型,采用所述卷积神经网络模型完成语音情绪识别。
具体地,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型,采用所述融合双向长短时记忆与注意力机制模型完成语音情绪识别。
本发明提供一种语音情绪识别系统,该系统包括该系统包括预处理模块、音频特征抽取模块、语音情绪识别模块,其中:所述预处理模块用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;所述音频特征抽取模块用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;所述语音情绪识别模块用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
本发明通过深度学习语音情绪识别模型,使得语音情绪识别的准确率得到明显提升。从实际应用效果来看,本发明能够在短时间内准确、实时地识别说话人的潜在情绪。
附图说明
图1为本发明语音情绪识别方法的流程图;
图2为本发明实施例提供的BiLSTM+Att模型示意图;
图3为本发明语音情绪识别系统的硬件架构图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步详细的说明。
参阅图1所示,是本发明语音情绪识别方法较佳实施例的作业流程图。
步骤S1,将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件。具体而言:
将说话人说的一句话保存为一个原始语音文件,所述原始语音文件为wav或者mp3格式,时长2秒左右。对所述原始语音文件进行音频预处理,所述音频预处理包括:静音移除及数据增强。
进一步地,
a)静音移除:使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。其中,所述语音能量为根均方能量(Root-Mean-SquareEnergy,RMSE)。
b)语音数据增强:如果当前语音文件短于最小音频片段数据,则使用语音数据增强的方法增加当前语音文件音频的长度,使得当前语音文件有足够的数据输入语音情绪识别模型,且保证当前语音文件中语音情绪识别的结果与原始语音情绪相同。本实施例中的语音数据增强方法是将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
步骤S2,使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征。具体而言:
所述音频特征抽取包括两种方法:
a)音频特征向量:使用音频处理库函数抽取包括以音高(Pitch)、能量(energy)、过零率(Zero-Crossing Rate,ZCR)、色度(chroma)为代表的韵律(prosody)特征,以共振频率(Fromant Frequencies)、谱(Spectral)特征为代表的质量(quality)特征,及以梅尔倒频谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、MFCC一阶导数(first timederivatives of MFCC)、线性预测编码系数(Linear Predictive Coding Coefficients,LPCC)等导出特征,通过拼接的方式组成音频特征向量。
b)使用谱图像特征,该类型谱图像包括梅尔频谱(Mel-frequency spectrogram)图像特征、梅尔倒频谱(MFCC)图像特征和谱(spectrogram)图像特征,即,使用图像的形式展示原始语音信号的多维度特征。
在一些实施例中,通过方法a)抽取得到音频特征向量;在另一些实施例中,通过方法b)抽取得到谱图像特征。
步骤S3,将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。具体而言:
在一些实施例中,所述语音情绪识别模型为卷积神经网络模型(CNN),采用CNN模型完成语音情绪识别。
CNN模型:包括输入层、卷积层、全连接层和分类层。将抽取得到的上述音频特征经数据标准化处理后送入输入层,经卷积层的卷积操作后送至全连接层,经过全连接层处理后送入分类层,所述分类层实现对音频类型的分类,完成语音情绪识别。
在另一些实施例中,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型(BiLSTM+Att),采用BiLSTM+Att模型完成语音情绪识别。
BiLSTM+Att模型,如图2所示:
(1)输入层:将抽取得到的上述音频特征,作为输入层的数据直接输入BiLSTM+Att模型;
(2)BiLSTM网络层:由双向LSTM网络构成的一个网络结构,使用标注后的数据输入BiLSTM网络层,在BiLSTM网络层完成语音情绪识别模型的训练;
其中,所述标注后的数据是指已经标注好各种情绪标签的数据;
(3)注意力层:产生一个权重向量,该权重向量乘以BiLSTM网络层的输出,完成对网络输出中不同维度的权重赋值,使得特征中能够表达情绪的部分得到充分表达;
(4)输出层:使用两个全连接网络层,结合softmax函数,实现情绪类型的准确判断。
一个BiLSTM网络层包括多个双向传输的LSTM网络单元。在具体的网络内部,一个LSTM循环单元以音频数据作为输入,产生特征输出H=(h1,h2,…,hT),其中hi表示LSTM在时间戳i的隐状态,并总结所有的音频特征到参数xi。本实施例中使用双向LSTM以更好地得到音频特征,且使用两个方向的特征来完成。一个双向的LSTM包括一个正向的LSTM网络
Figure BDA0002853495300000061
和一个反向的LSTM网络
Figure BDA0002853495300000062
其中
Figure BDA0002853495300000063
读取音频特征数据顺序为从x1到xT
Figure BDA0002853495300000064
读取音频特征数据顺序为xT到x1,最终标记一个音频片段xi将二者合并起来,如下式所示:
Figure BDA0002853495300000065
Figure BDA0002853495300000066
Figure BDA0002853495300000067
其中,||表示连接操作,T代表每个LSTM网络的长度。本文使用一个Bi-LSTM网络结构以获取更多的抽象特征。
在实际的情绪判断中,并不是每个音频片段特征都对最终情绪的识别结果产生决定性作用,因此需要使用一种自动的机制或方法来完成不同音频片段的权重判断。而注意力机制则是能够充分利用自动更新的语音情绪识别模型并给予不同音频片段特征赋予不同权重。因此,本实施例在包括相关模型的基础上,使用如下公式进行注意力的判断:
uai=tanh(Whai+b)
Figure BDA0002853495300000071
Figure BDA0002853495300000072
其中,a代表第t个语音文件,i代表第i个语音特征,n代表一个语音文件中总的特征个数。Hti代表第t个语音文件中的第i个音频向量输入到一个一层的多层感知网络中得到uti作为hti的隐表示,Hti是Bi-LSTM层输出的拼接(concatenation),W是注意力网络的权重矩阵,b是注意力网络的一个偏置向量。然后本实施例使用相似度计算方法来分析语音片段特征的权重,该相似度方法是使用uti与随机初始化的音频特征向量uw做余弦计算。接着,使用一个softmax函数得到一个标准化的权重ati。ati是第t个语音文件中第i个音频片段特征的权重。Ati的值越大,代表该第i个特征更能够表达最终的情感。最终,使用st代表第t个语音文件的语音片段的权重和。
参阅图3所示,是本发明语音情绪识别系统10的硬件架构图。该系统包括:预处理模块101、音频特征抽取模块102以及语音情绪识别模块103。
所述预处理模块101用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件。具体而言:
将说话人说的一句话保存为一个原始语音文件,所述原始语音文件为wav或者mp3格式,时长2秒左右。所述预处理模块101对所述原始语音文件进行音频预处理,所述音频预处理包括:静音移除及数据增强。
进一步地,
a)静音移除:使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。其中,所述语音能量为根均方能量(Root-Mean-SquareEnergy,RMSE)。
b)语音数据增强:如果当前语音文件短于最小音频片段数据,则使用语音数据增强的方法增加当前语音文件音频的长度,使得当前语音文件有足够的数据输入语音情绪识别模型,且保证当前语音文件中语音情绪识别的结果与原始语音情绪相同。本实施例中的语音数据增强方法是将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
所述音频特征抽取模块102用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征。具体而言:
所述音频特征抽取包括两种方法:
a)音频特征向量:所述音频特征抽取模块102使用音频处理库函数抽取包括以音高(Pitch)、能量(energy)、过零率(Zero-Crossing Rate,ZCR)、色度(chroma)为代表的韵律(prosody)特征,以共振频率(Fromant Frequencies)、谱(Spectral)特征为代表的质量(quality)特征,及以梅尔倒频谱系数(Mel-Frequency Cepstral Coefficient,MFCC)、MFCC一阶导数(first time derivatives of MFCC)、线性预测编码系数(LinearPredictive Coding Coefficients,LPCC)等导出特征,通过拼接的方式组成音频特征向量。
b)使用谱图像特征,该类型谱图像包括梅尔频谱(Mel-frequency spectrogram)图像特征、梅尔倒频谱(MFCC)图像特征和谱(spectrogram)图像特征,即,所述音频特征抽取模块102使用图像的形式展示原始语音信号的多维度特征。
在一些实施例中,所述音频特征抽取模块102通过方法a)抽取得到音频特征向量;在另一些实施例中,所述音频特征抽取模块102通过方法b)抽取得到谱图像特征。
所述语音情绪识别模块103用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。具体而言:
在一些实施例中,所述语音情绪识别模型为卷积神经网络模型(CNN),采用CNN模型完成语音情绪识别。
CNN模型:包括输入层、卷积层、全连接层和分类层。将抽取得到的上述音频特征经数据标准化处理后送入输入层,经卷积层的卷积操作后送至全连接层,经过全连接层处理后送入分类层,所述分类层实现对音频类型的分类,完成语音情绪识别。
在另一些实施例中,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型(BiLSTM+Att),采用BiLSTM+Att模型完成语音情绪识别。
BiLSTM+Att模型,如图2所示:
(1)输入层:将抽取得到的上述音频特征,作为输入层的数据直接输入BiLSTM+Att模型;
(2)BiLSTM网络层:由双向LSTM网络构成的一个网络结构,使用标注后的数据输入BiLSTM网络层,在BiLSTM网络层完成语音情绪识别模型的训练;
其中,所述标注后的数据是指已经标注好各种情绪标签的数据;
(3)注意力层:产生一个权重向量,该权重向量乘以BiLSTM网络层的输出,完成对网络输出中不同维度的权重赋值,使得特征中能够表达情绪的部分得到充分表达;
(4)输出层:使用两个全连接网络层,结合softmax函数,实现情绪类型的准确判断。
一个BiLSTM网络层包括多个双向传输的LSTM网络单元。在具体的网络内部,一个LSTM循环单元以音频数据作为输入,产生特征输出H=(h1,h2,…,hT),其中hi表示LSTM在时间戳i的隐状态,并总结所有的音频特征到参数xi。本实施例中使用双向LSTM以更好地得到音频特征,且使用两个方向的特征来完成。一个双向的LSTM包括一个正向的LSTM网络
Figure BDA0002853495300000101
和一个反向的LSTM网络
Figure BDA0002853495300000102
其中
Figure BDA0002853495300000103
读取音频特征数据顺序为从x1到xT
Figure BDA0002853495300000104
读取音频特征数据顺序为xT到x1,最终标记一个音频片段xi将二者合并起来,如下式所示:
Figure BDA0002853495300000105
Figure BDA0002853495300000106
Figure BDA0002853495300000107
其中,||表示连接操作,T代表每个LSTM网络的长度。本文使用一个Bi-LSTM网络结构以获取更多的抽象特征。
在实际的情绪判断中,并不是每个音频片段特征都对最终情绪的识别结果产生决定性作用,因此需要使用一种自动的机制或方法来完成不同音频片段的权重判断。而注意力机制则是能够充分利用自动更新的语音情绪识别模型并给予不同音频片段特征赋予不同权重。因此,本实施例在包括相关模型的基础上,使用如下公式进行注意力的判断:
uai=tanh(Whai+b)
Figure BDA0002853495300000111
Figure BDA0002853495300000112
其中,a代表第t个语音文件,i代表第i个语音特征,n代表一个语音文件中总的特征个数。Hti代表第t个语音文件中的第i个音频向量输入到一个一层的多层感知网络中得到uti作为hti的隐表示,Hti是Bi-LSTM层输出的拼接(concatenation),W是注意力网络的权重矩阵,b是注意力网络的一个偏置向量。然后本实施例使用相似度计算方法来分析语音片段特征的权重,该相似度方法是使用uti与随机初始化的音频特征向量uw做余弦计算。接着,使用一个softmax函数得到一个标准化的权重ati。ati是第t个语音文件中第i个音频片段特征的权重。Ati的值越大,代表该第i个特征更能够表达最终的情感。最终,使用st代表第t个语音文件的语音片段的权重和。
虽然本发明参照当前的较佳实施方式进行了描述,但本领域的技术人员应能理解,上述较佳实施方式仅用来说明本发明,并非用来限定本发明的保护范围,任何在本发明的精神和原则范围之内,所做的任何修饰、等效替换、改进等,均应包含在本发明的权利保护范围之内。

Claims (9)

1.一种语音情绪识别方法,其特征在于,该方法包括如下步骤:
a.将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;
b.使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;
c.将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
2.如权利要求1所述的方法,其特征在于,所述的音频预处理包括:静音移除及数据增强。
3.如权利要求2所述的方法,其特征在于,所述的静音移除包括:
使用语音能量作为阈值,如果所述原始语音文件一段时间内的能量小于所设定的阈值时,认为当前该段时间内的音频为噪音,并丢弃;然后保存丢弃所述噪音后的语音文件作为当前语音文件。
4.如权利要求3所述的方法,其特征在于,所述的语音数据增强包括:
如果当前语音文件短于最小音频片段数据,则将当前语音文件中间开始截取一定长度,将该长度复制到原始语音文件的中间位置,以保证预处理后的语音文件满足最短音频时长要求。
5.如权利要求1所述的方法,其特征在于,所述的步骤b包括:
使用音频处理库函数抽取包括以音高、能量、过零率、色度为代表的韵律特征,以共振频率、谱特征为代表的质量特征,及以梅尔倒频谱系数、MFCC一阶导数、线性预测编码系数为代表的导出特征,通过拼接的方式组成音频特征向量。
6.如权利要求1所述的方法,其特征在于,所述的步骤b包括:
使用谱图像特征的形式展示预处理后的语音文件的多维度特征。
7.如权利要求1所述的方法,其特征在于,所述语音情绪识别模型为卷积神经网络模型,采用所述卷积神经网络模型完成语音情绪识别。
8.如权利要求1所述的方法,其特征在于,所述语音情绪识别模型为融合双向长短时记忆与注意力机制模型,采用所述融合双向长短时记忆与注意力机制模型完成语音情绪识别。
9.一种语音情绪识别系统,其特征在于,该系统包括预处理模块、音频特征抽取模块以及语音情绪识别模块,其中:
所述预处理模块用于将说话人的语音保存为原始语音文件,并对所述原始语音文件进行音频预处理,得到预处理后的语音文件;
所述音频特征抽取模块用于使用音频处理库函数,对所述预处理后的语音文件进行音频特征抽取,得到音频特征向量或者谱图像特征;
所述语音情绪识别模块用于将抽取的音频特征送入训练好的语音情绪识别模型,由语音情绪识别模型完成语音情绪识别。
CN202011536031.0A 2020-12-23 2020-12-23 语音情绪识别方法及系统 Pending CN112489690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011536031.0A CN112489690A (zh) 2020-12-23 2020-12-23 语音情绪识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011536031.0A CN112489690A (zh) 2020-12-23 2020-12-23 语音情绪识别方法及系统

Publications (1)

Publication Number Publication Date
CN112489690A true CN112489690A (zh) 2021-03-12

Family

ID=74914348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011536031.0A Pending CN112489690A (zh) 2020-12-23 2020-12-23 语音情绪识别方法及系统

Country Status (1)

Country Link
CN (1) CN112489690A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113593532A (zh) * 2021-08-31 2021-11-02 竹间智能科技(上海)有限公司 语音情绪识别模型训练方法及电子设备
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN113780198A (zh) * 2021-09-15 2021-12-10 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN116863957A (zh) * 2023-09-05 2023-10-10 硕橙(厦门)科技有限公司 工业设备运行状态的识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705806A (zh) * 2017-08-22 2018-02-16 北京联合大学 一种使用谱图和深卷积神经网络进行语音情感识别的方法
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
US20200086496A1 (en) * 2018-09-14 2020-03-19 Lg Electronics Inc. Emotion recognizer, robot including the same, and server including the same
CN111312292A (zh) * 2020-02-18 2020-06-19 北京三快在线科技有限公司 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111445899A (zh) * 2020-03-09 2020-07-24 咪咕文化科技有限公司 语音情绪识别方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108115695A (zh) * 2016-11-28 2018-06-05 沈阳新松机器人自动化股份有限公司 一种情感色彩表达系统及机器人
CN107705806A (zh) * 2017-08-22 2018-02-16 北京联合大学 一种使用谱图和深卷积神经网络进行语音情感识别的方法
US20200086496A1 (en) * 2018-09-14 2020-03-19 Lg Electronics Inc. Emotion recognizer, robot including the same, and server including the same
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111312292A (zh) * 2020-02-18 2020-06-19 北京三快在线科技有限公司 基于语音的情绪识别方法、装置、电子设备及存储介质
CN111445899A (zh) * 2020-03-09 2020-07-24 咪咕文化科技有限公司 语音情绪识别方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
褚钰等: "语音情感识别中的特征选择方法", 《应用声学》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113571050A (zh) * 2021-07-28 2021-10-29 复旦大学 一种基于Attention与Bi-LSTM的语音抑郁状态识别方法
CN113593532A (zh) * 2021-08-31 2021-11-02 竹间智能科技(上海)有限公司 语音情绪识别模型训练方法及电子设备
CN113593532B (zh) * 2021-08-31 2024-06-18 竹间智能科技(上海)有限公司 语音情绪识别模型训练方法及电子设备
CN113780198A (zh) * 2021-09-15 2021-12-10 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN113780198B (zh) * 2021-09-15 2023-11-24 南京邮电大学 一种面向影像生成的多模态情感分类方法
CN113674767A (zh) * 2021-10-09 2021-11-19 复旦大学 一种基于多模态融合的抑郁状态识别方法
CN116863957A (zh) * 2023-09-05 2023-10-10 硕橙(厦门)科技有限公司 工业设备运行状态的识别方法、装置、设备及存储介质
CN116863957B (zh) * 2023-09-05 2023-12-12 硕橙(厦门)科技有限公司 工业设备运行状态的识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Zeng et al. Effective combination of DenseNet and BiLSTM for keyword spotting
CN112489690A (zh) 语音情绪识别方法及系统
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US7054810B2 (en) Feature vector-based apparatus and method for robust pattern recognition
Friedland et al. The ICSI RT-09 speaker diarization system
Aggarwal et al. Acoustic modeling problem for automatic speech recognition system: conventional methods (Part I)
CN111640456B (zh) 叠音检测方法、装置和设备
Vadwala et al. Survey paper on different speech recognition algorithm: challenges and techniques
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
Barakat et al. Keyword spotting based on the analysis of template matching distances
KR20230129094A (ko) 멀티모달 기반 실시간 감정인식 방법 및 장치
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
US11282495B2 (en) Speech processing using embedding data
Liu Deep convolutional and LSTM neural networks for acoustic modelling in automatic speech recognition
O’Shaughnessy Recognition and processing of speech signals using neural networks
Tabibian A voice command detection system for aerospace applications
CN116090474A (zh) 对话情绪分析方法、装置和计算机可读存储介质
Mary et al. Searching speech databases: features, techniques and evaluation measures
Wöllmer et al. A novel bottleneck-BLSTM front-end for feature-level context modeling in conversational speech recognition
Gade et al. A comprehensive study on automatic speaker recognition by using deep learning techniques
Patil et al. Emotion detection from speech using Mfcc & GMM
Manjunath et al. Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali
Thangthai Computer lipreading via hybrid deep neural network hidden Markov models
Valaki et al. A hybrid HMM/ANN approach for automatic Gujarati speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210312

RJ01 Rejection of invention patent application after publication