CN115482837B - 一种基于人工智能的情绪分类方法 - Google Patents
一种基于人工智能的情绪分类方法 Download PDFInfo
- Publication number
- CN115482837B CN115482837B CN202210876457.3A CN202210876457A CN115482837B CN 115482837 B CN115482837 B CN 115482837B CN 202210876457 A CN202210876457 A CN 202210876457A CN 115482837 B CN115482837 B CN 115482837B
- Authority
- CN
- China
- Prior art keywords
- voice data
- feature
- features
- predicted
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 54
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 239000010410 layer Substances 0.000 claims description 6
- 239000002356 single layer Substances 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 230000002996 emotional effect Effects 0.000 description 5
- 238000007635 classification algorithm Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000000994 depressogenic effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Hospice & Palliative Care (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Child & Adolescent Psychology (AREA)
- Psychiatry (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明一种基于人工智能的情绪分类方法,包括以下步骤,步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果。
Description
技术领域
本发明一种基于人工智能的情绪分类算法,属于融合领域的人工智能模型,涉及语音情感信息的声纹提取、特征融合及深度学习等方法。
背景技术
情绪是指主观引起的一种强烈的情感状态,并且经常伴有心理上的变化。人们的情绪状态通常包含在人类的语言中。在人机交互中,通过人的语音识别出情绪状态是十分重要的环节。在心理情感分析领域,若能在谈话过程中及时的对人的情绪进行分类,将有助于对心理情绪的诊断和治疗。因此,需要一种可以通过输入语音数据来判断情绪分类的方法。
发明内容
有鉴于此,本发明为了解决现有技术存在的缺陷和不足,提供了一种基于人工智能的情绪分类算法,通过语音数据样本输入构建的神经网络模型迭代学习后得到特征模型,特征模型可对待预测样本进行预测,得到预测标签和情绪分类结果。
本发明一种基于人工智能的情绪分类方法,包括以下步骤,
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;
步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果。
本发明的进一步改进在于:步骤1中,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征;所述第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。
本发明的进一步改进在于:步骤1得到的特征向量为多维矩阵,其中存储了情绪特征的数学形式。
本发明的进一步改进在于:步骤2中,神经网络训练模型反复迭代学习,依据特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数;当情绪特征的数学形式与对应的实际标签拟合时,迭代学习后的神经网络训练模型即为特征模型。
本发明的进一步改进在于:调整神经网络训练模型的参数有损失函数和超参数,其中损失函数是loss_function;超参数是hyper_para。
本发明的进一步改进在于:所述特征模型包括记忆网络单元、门控循环单元、全连接神经网络单元;
所述步骤4包括以下步骤:
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象;
步骤42:使用分类器归一化情绪特征数据,得到统计学概率分布,输出预测标签。
本发明的进一步改进在于:在步骤40中,当特征向量进入门控循环单元之后,其输出结果由优化器接收,进行优化后,再进入步骤41。
本发明的进一步改进在于:记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
本发明的进一步改进在于:所述分类器为softmax函数;所述预测标签为4维预测标签。
本发明的进一步改进在于:步骤3中,待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
与现有技术相比,本发明的有益效果:
语音数据样本无法直接输入神经网络训练模型进行训练,利用特征提取,将语音数据样本转换为特征向量的形式,即多维矩阵然后将特征向量传入神经网络训练模型,神经网络训练模型经迭代学习,得到特征模型。
本发明先对第一类特征以特征堆叠的方式进行部分融合,再与第二类特征进行进一步的特征融合,使得语音中的情绪特征数据更为显著,提升了融合与拼接效率。
本发明结合了长短期记忆网络与门控循环单元网络,相较单层长短期记忆网络具有明显的准确率提升优势。同时,使用优化器(sigmoid)作为激活函数,也对提升预测的准确率有明显帮助。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是待预测语音数据输入特征模型的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明提供了一种基于人工智能的情绪分类算法,通过语音数据样本输入构建的神经网络模型迭代学习后得到特征模型,特征模型可对待预测样本进行预测,得到预测标签和情绪分类结果。
本发明一种基于人工智能的情绪分类方法,包括以下步骤:
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量。
更具体的,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征。第一类特征为统计学特征,统计学特征是指无法从语音数据样本中直接输出的数据,需要通过提取模型的输出,从而计算统计值(如均值,标准差等)得到的特征数据。第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。特征向量即多维矩阵,其中存储了情绪特征的数学形式。
预处理和特征提取过程,使每个语音数据样本均可得到一对应的特征向量。
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型。
神经网络模型包括记忆网络单元、门控循环单元、全连接神经网络单元、优化器、损失函数、超参数等,以序列化形式搭建多层网络。
多个语音数据样本的特征向量进入记忆网络单元之后,然后进入门控循环单元,再经过优化器进行优化之后进入全连接神经网络单元,然后经分类器进行分类,输出预测结果。
神经网络训练模型反复迭代学习,依据语音数据样本的特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数。调整神经网络训练模型的参数有损失函数、优化器、超参数,其中损失函数是loss_function;超参数是hyper_para函数,优化器为sigmoid函数。
优化器是指在训练过程中,调整参数使得最后输出结果最好,并优化调整参数的时间。损失函数可以衡量优化器最后输出结果的好坏程度。优化器每次将语音数据样本的特征向量迭代之后,会计算出一个结果,利用该结果与实际标签的真实值进行比对,产生的差值由优化器反向传播,逐层调整训练参数,使得下一轮迭代损失值降低。
当预测结果与对应的实际标签尽可能的拟合时,迭代学习后的神经网络训练模型即为特征模型。
步骤3:将获取的待预测语音数据进行处理,得到待预测语音数据的特征向量,并将其输入至特征模型。
待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
步骤3中待预测语音数据进行预处理和特征提取的过程与语音数据样本预处理和特征提取过程一致。
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签。
特征模型包括记忆网络单元(LSTM)、门控循环单元(GRU)、全连接神经网络单元(CNN)。记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
具体的,步骤4包括以下步骤:如图1所示,
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
当待预测语音数据的特征向量进入门控循环单元之后,其输出结果由优化器进行接收,之后进入下一步骤;此处,优化器为sigmoid函数。
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象,
步骤42:使用分类器(softmax函数)归一化情绪特征数据,得到统计学概率分布,扩大结果差距,输出4维预测标签。4维标签为抑郁、双重抑郁、焦虑、正常。
在实际应用场景下,如心理诊疗室辅助进行语音情绪识别时,通过具有语音获取功能的硬件设备(麦克风)获得音频数据。通过对音频数据进行预处理,得到该音频数据的第一类特征和第二类特征,然后第一类特征进行部分融合后,再与第二类特征融合,之后输入到特征模型得到情绪分类的结果,来辅助理疗师判断情绪分类。
本发明先对第一类特征以特征堆叠的方式进行部分融合,再与第二类特征进行进一步的特征融合,使的语音中的情绪特征数据更为显著,提升了融合与拼接效率。
本发明结合了长短期记忆网络与门控循环单元网络,相较单层长短期记忆网络具有明显的准确率提升。同时,使用sigmoid作为激活函数,也对提升预测的准确率有明显帮助。
本发明以序列的形式输入,以长短期记忆网络、卷积神经网络等训练模型进行特征训练,训练效果优于支持向量机等其他传统分类模型。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种基于人工智能的情绪分类方法,其特征在于,包括以下步骤,
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;
步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果;
所述特征模型包括记忆网络单元、门控循环单元、全连接神经网络单元;
所述步骤4包括以下步骤:
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象;
步骤42:使用分类器归一化情绪特征数据,得到统计学概率分布,输出预测标签。
2.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,步骤1中,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征;所述第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。
3.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,步骤1得到的特征向量为多维矩阵,其中存储了情绪特征的数学形式。
4.根据权利要求3所述的基于人工智能的情绪分类方法,其特征在于,
步骤2中,神经网络训练模型反复迭代学习,依据特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数;当情绪特征的数学形式与对应的实际标签拟合时,迭代学习后的神经网络训练模型即为特征模型。
5.根据权利要求4所述的基于人工智能的情绪分类方法,其特征在于,
调整神经网络训练模型的参数有损失函数和超参数,其中损失函数是loss_function;超参数是hyper_para。
6.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,
在步骤40中,当特征向量进入门控循环单元之后,其输出结果由优化器接收,进行优化后,再进入步骤41。
7.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,
记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
8.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,所述分类器为softmax函数;所述预测标签为4维预测标签。
9.根据权利要求5所述的基于人工智能的情绪分类方法,其特征在于,
步骤3中,待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210876457.3A CN115482837B (zh) | 2022-07-25 | 2022-07-25 | 一种基于人工智能的情绪分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210876457.3A CN115482837B (zh) | 2022-07-25 | 2022-07-25 | 一种基于人工智能的情绪分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115482837A CN115482837A (zh) | 2022-12-16 |
CN115482837B true CN115482837B (zh) | 2023-04-28 |
Family
ID=84421950
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210876457.3A Active CN115482837B (zh) | 2022-07-25 | 2022-07-25 | 一种基于人工智能的情绪分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115482837B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110400010A (zh) * | 2019-07-11 | 2019-11-01 | 新华三大数据技术有限公司 | 预测方法、装置、电子设备以及计算机可读存储介质 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111044617A (zh) * | 2019-11-28 | 2020-04-21 | 东南大学 | 一种基于深度学习与声发射技术的拉索损伤识别方法 |
CN111464469A (zh) * | 2020-03-12 | 2020-07-28 | 南京航空航天大学 | 基于神经网络的混合数字调制方式识别方法 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN112949708A (zh) * | 2021-02-26 | 2021-06-11 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备和存储介质 |
CN114118401A (zh) * | 2021-10-12 | 2022-03-01 | 国电南瑞科技股份有限公司 | 基于神经网络的配电网络流量预测方法、系统、装置及存储介质 |
CN114187898A (zh) * | 2021-12-31 | 2022-03-15 | 电子科技大学 | 一种基于融合神经网络结构的端到端语音识别方法 |
CN114203177A (zh) * | 2021-12-06 | 2022-03-18 | 深圳市证通电子股份有限公司 | 一种基于深度学习与情绪识别的智能语音问答方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366302B2 (en) * | 2016-10-10 | 2019-07-30 | Gyrfalcon Technology Inc. | Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor |
US11315570B2 (en) * | 2018-05-02 | 2022-04-26 | Facebook Technologies, Llc | Machine learning-based speech-to-text transcription cloud intermediary |
US11461657B2 (en) * | 2019-05-10 | 2022-10-04 | Fujitsu Limited | Data augmentation in training deep neural network (DNN) based on genetic model |
CN115346561B (zh) * | 2022-08-15 | 2023-11-24 | 南京医科大学附属脑科医院 | 基于语音特征的抑郁情绪评估预测方法及系统 |
-
2022
- 2022-07-25 CN CN202210876457.3A patent/CN115482837B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN110164476A (zh) * | 2019-05-24 | 2019-08-23 | 广西师范大学 | 一种基于多输出特征融合的blstm的语音情感识别方法 |
CN110400010A (zh) * | 2019-07-11 | 2019-11-01 | 新华三大数据技术有限公司 | 预测方法、装置、电子设备以及计算机可读存储介质 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
CN111044617A (zh) * | 2019-11-28 | 2020-04-21 | 东南大学 | 一种基于深度学习与声发射技术的拉索损伤识别方法 |
CN111464469A (zh) * | 2020-03-12 | 2020-07-28 | 南京航空航天大学 | 基于神经网络的混合数字调制方式识别方法 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN112949708A (zh) * | 2021-02-26 | 2021-06-11 | 平安科技(深圳)有限公司 | 情绪识别方法、装置、计算机设备和存储介质 |
CN114118401A (zh) * | 2021-10-12 | 2022-03-01 | 国电南瑞科技股份有限公司 | 基于神经网络的配电网络流量预测方法、系统、装置及存储介质 |
CN114203177A (zh) * | 2021-12-06 | 2022-03-18 | 深圳市证通电子股份有限公司 | 一种基于深度学习与情绪识别的智能语音问答方法和系统 |
CN114187898A (zh) * | 2021-12-31 | 2022-03-15 | 电子科技大学 | 一种基于融合神经网络结构的端到端语音识别方法 |
Non-Patent Citations (2)
Title |
---|
Yunfeng Xu等.HGFM:A_Hierarchical_Grained_and_Feature_Model_for_Acoustic_Emotion_Recognition.《ICASSP》.2020,6499-6530. * |
李胜旺等.文本方面级情感分类方法综述.《河北科技大学学报》.2020,第41卷(第6期),518-527. * |
Also Published As
Publication number | Publication date |
---|---|
CN115482837A (zh) | 2022-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
Jothimani et al. | MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network | |
CN113822192A (zh) | 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质 | |
Fei et al. | Research on speech emotion recognition based on deep auto-encoder | |
CN112967725A (zh) | 语音对话数据处理方法、装置、计算机设备及存储介质 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Chen | Simulation of English speech emotion recognition based on transfer learning and CNN neural network | |
An et al. | Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features | |
CN112329438A (zh) | 基于域对抗训练的自动谎言检测方法及系统 | |
CN111508475B (zh) | 一种机器人唤醒的语音关键词识别方法、装置及存储介质 | |
CN111583965A (zh) | 一种语音情绪识别方法、装置、设备及存储介质 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
Hamsa et al. | Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG | |
Li et al. | Automatic depression level assessment from speech by long-term global information embedding | |
CN115482837B (zh) | 一种基于人工智能的情绪分类方法 | |
CN116863920A (zh) | 基于双流自监督网络的语音识别方法、装置、设备及介质 | |
Rammohan et al. | Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety | |
CN112951270B (zh) | 语音流利度检测的方法、装置和电子设备 | |
Wu et al. | Research on voiceprint recognition based on weighted clustering recognition SVM algorithm | |
Wang et al. | Artificial Intelligence and Machine Learning Application in NPP MCR Speech Monitoring System | |
CN110689875A (zh) | 一种语种识别方法、装置及可读存储介质 | |
Xu et al. | Speech feature extraction based on linear prediction residual | |
Bhanbhro et al. | Speech Emotion Recognition Using Deep Learning Hybrid Models | |
Jagtap et al. | A survey on speech emotion recognition using MFCC and different classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |