CN115482837B - 一种基于人工智能的情绪分类方法 - Google Patents

一种基于人工智能的情绪分类方法 Download PDF

Info

Publication number
CN115482837B
CN115482837B CN202210876457.3A CN202210876457A CN115482837B CN 115482837 B CN115482837 B CN 115482837B CN 202210876457 A CN202210876457 A CN 202210876457A CN 115482837 B CN115482837 B CN 115482837B
Authority
CN
China
Prior art keywords
voice data
feature
features
predicted
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210876457.3A
Other languages
English (en)
Other versions
CN115482837A (zh
Inventor
林慧菊
许云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kerina Hebei Medical Technology Co ltd
Original Assignee
Kerina Hebei Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kerina Hebei Medical Technology Co ltd filed Critical Kerina Hebei Medical Technology Co ltd
Priority to CN202210876457.3A priority Critical patent/CN115482837B/zh
Publication of CN115482837A publication Critical patent/CN115482837A/zh
Application granted granted Critical
Publication of CN115482837B publication Critical patent/CN115482837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明一种基于人工智能的情绪分类方法,包括以下步骤,步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果。

Description

一种基于人工智能的情绪分类方法
技术领域
本发明一种基于人工智能的情绪分类算法,属于融合领域的人工智能模型,涉及语音情感信息的声纹提取、特征融合及深度学习等方法。
背景技术
情绪是指主观引起的一种强烈的情感状态,并且经常伴有心理上的变化。人们的情绪状态通常包含在人类的语言中。在人机交互中,通过人的语音识别出情绪状态是十分重要的环节。在心理情感分析领域,若能在谈话过程中及时的对人的情绪进行分类,将有助于对心理情绪的诊断和治疗。因此,需要一种可以通过输入语音数据来判断情绪分类的方法。
发明内容
有鉴于此,本发明为了解决现有技术存在的缺陷和不足,提供了一种基于人工智能的情绪分类算法,通过语音数据样本输入构建的神经网络模型迭代学习后得到特征模型,特征模型可对待预测样本进行预测,得到预测标签和情绪分类结果。
本发明一种基于人工智能的情绪分类方法,包括以下步骤,
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;
步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果。
本发明的进一步改进在于:步骤1中,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征;所述第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。
本发明的进一步改进在于:步骤1得到的特征向量为多维矩阵,其中存储了情绪特征的数学形式。
本发明的进一步改进在于:步骤2中,神经网络训练模型反复迭代学习,依据特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数;当情绪特征的数学形式与对应的实际标签拟合时,迭代学习后的神经网络训练模型即为特征模型。
本发明的进一步改进在于:调整神经网络训练模型的参数有损失函数和超参数,其中损失函数是loss_function;超参数是hyper_para。
本发明的进一步改进在于:所述特征模型包括记忆网络单元、门控循环单元、全连接神经网络单元;
所述步骤4包括以下步骤:
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象;
步骤42:使用分类器归一化情绪特征数据,得到统计学概率分布,输出预测标签。
本发明的进一步改进在于:在步骤40中,当特征向量进入门控循环单元之后,其输出结果由优化器接收,进行优化后,再进入步骤41。
本发明的进一步改进在于:记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
本发明的进一步改进在于:所述分类器为softmax函数;所述预测标签为4维预测标签。
本发明的进一步改进在于:步骤3中,待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
与现有技术相比,本发明的有益效果:
语音数据样本无法直接输入神经网络训练模型进行训练,利用特征提取,将语音数据样本转换为特征向量的形式,即多维矩阵然后将特征向量传入神经网络训练模型,神经网络训练模型经迭代学习,得到特征模型。
本发明先对第一类特征以特征堆叠的方式进行部分融合,再与第二类特征进行进一步的特征融合,使得语音中的情绪特征数据更为显著,提升了融合与拼接效率。
本发明结合了长短期记忆网络与门控循环单元网络,相较单层长短期记忆网络具有明显的准确率提升优势。同时,使用优化器(sigmoid)作为激活函数,也对提升预测的准确率有明显帮助。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是待预测语音数据输入特征模型的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
本发明提供了一种基于人工智能的情绪分类算法,通过语音数据样本输入构建的神经网络模型迭代学习后得到特征模型,特征模型可对待预测样本进行预测,得到预测标签和情绪分类结果。
本发明一种基于人工智能的情绪分类方法,包括以下步骤:
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量。
更具体的,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征。第一类特征为统计学特征,统计学特征是指无法从语音数据样本中直接输出的数据,需要通过提取模型的输出,从而计算统计值(如均值,标准差等)得到的特征数据。第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。特征向量即多维矩阵,其中存储了情绪特征的数学形式。
预处理和特征提取过程,使每个语音数据样本均可得到一对应的特征向量。
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型。
神经网络模型包括记忆网络单元、门控循环单元、全连接神经网络单元、优化器、损失函数、超参数等,以序列化形式搭建多层网络。
多个语音数据样本的特征向量进入记忆网络单元之后,然后进入门控循环单元,再经过优化器进行优化之后进入全连接神经网络单元,然后经分类器进行分类,输出预测结果。
神经网络训练模型反复迭代学习,依据语音数据样本的特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数。调整神经网络训练模型的参数有损失函数、优化器、超参数,其中损失函数是loss_function;超参数是hyper_para函数,优化器为sigmoid函数。
优化器是指在训练过程中,调整参数使得最后输出结果最好,并优化调整参数的时间。损失函数可以衡量优化器最后输出结果的好坏程度。优化器每次将语音数据样本的特征向量迭代之后,会计算出一个结果,利用该结果与实际标签的真实值进行比对,产生的差值由优化器反向传播,逐层调整训练参数,使得下一轮迭代损失值降低。
当预测结果与对应的实际标签尽可能的拟合时,迭代学习后的神经网络训练模型即为特征模型。
步骤3:将获取的待预测语音数据进行处理,得到待预测语音数据的特征向量,并将其输入至特征模型。
待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
步骤3中待预测语音数据进行预处理和特征提取的过程与语音数据样本预处理和特征提取过程一致。
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签。
特征模型包括记忆网络单元(LSTM)、门控循环单元(GRU)、全连接神经网络单元(CNN)。记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
具体的,步骤4包括以下步骤:如图1所示,
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
当待预测语音数据的特征向量进入门控循环单元之后,其输出结果由优化器进行接收,之后进入下一步骤;此处,优化器为sigmoid函数。
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象,
步骤42:使用分类器(softmax函数)归一化情绪特征数据,得到统计学概率分布,扩大结果差距,输出4维预测标签。4维标签为抑郁、双重抑郁、焦虑、正常。
在实际应用场景下,如心理诊疗室辅助进行语音情绪识别时,通过具有语音获取功能的硬件设备(麦克风)获得音频数据。通过对音频数据进行预处理,得到该音频数据的第一类特征和第二类特征,然后第一类特征进行部分融合后,再与第二类特征融合,之后输入到特征模型得到情绪分类的结果,来辅助理疗师判断情绪分类。
本发明先对第一类特征以特征堆叠的方式进行部分融合,再与第二类特征进行进一步的特征融合,使的语音中的情绪特征数据更为显著,提升了融合与拼接效率。
本发明结合了长短期记忆网络与门控循环单元网络,相较单层长短期记忆网络具有明显的准确率提升。同时,使用sigmoid作为激活函数,也对提升预测的准确率有明显帮助。
本发明以序列的形式输入,以长短期记忆网络、卷积神经网络等训练模型进行特征训练,训练效果优于支持向量机等其他传统分类模型。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种基于人工智能的情绪分类方法,其特征在于,包括以下步骤,
步骤1:对多个语音数据样本按照情绪特征的实际标签分类并对其中的每个语音数据样本分别进行预处理和特征提取,得到多个语音数据样本的特征向量;
步骤2:将多个语音数据样本的特征向量均输入神经网络训练模型,进行反复迭代学习后,得到特征模型;
步骤3:将获取的待预测语音数据进行预处理和特征提取,得到待预测语音数据的特征向量,并将其输入至特征模型;
步骤4:特征模型对待预测语音数据的特征向量进行提取,得到统计学概率分布,输出预测标签,得到情绪分类结果;
所述特征模型包括记忆网络单元、门控循环单元、全连接神经网络单元;
所述步骤4包括以下步骤:
步骤40:待预测语音数据的特征向量输入至特征模型的记忆网络单元处理后,进入门控循环单元,使得待预测语音数据的特征向量的情绪特征数据显化;
步骤41:显化的情绪特征数据再输入至全连接神经网络单元,进行权重更迭,使得显化的情绪特征数据得到具象;
步骤42:使用分类器归一化情绪特征数据,得到统计学概率分布,输出预测标签。
2.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,步骤1中,预处理和特征提取的过程如下:
步骤11:获取语音数据样本的音频采样率和信号值,并统一语音数据样本的时间序列长度;
步骤12:利用librosa音频处理库,提取统一时间序列长度的语音数据样本的第一类特征;所述第一类特征为统计学特征,包括语音过零率、均方根能量、频谱质心;
步骤13:利用librosa音频处理库,对统一时间序列长度的语音数据样本执行快速傅里叶变换,计算每个频率区间能量,进行离散余弦变换之后,提取得到语音数据样本的第二类特征;所述第二类特征为音频数据特征,包括梅尔频率特征、谱对比度特征、色度频率特征;
步骤14:将语音数据样本的第一类特征以矩阵拼接的方式进行部分融合,之后再通过concatenate函数与对应的第二类特征进行特征融合,形成语音数据样本的特征向量。
3.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,步骤1得到的特征向量为多维矩阵,其中存储了情绪特征的数学形式。
4.根据权利要求3所述的基于人工智能的情绪分类方法,其特征在于,
步骤2中,神经网络训练模型反复迭代学习,依据特征向量中的情绪特征的数学形式得到的预测结果与对应的实际标签之间的预测误差,调整神经网络训练模型的参数;当情绪特征的数学形式与对应的实际标签拟合时,迭代学习后的神经网络训练模型即为特征模型。
5.根据权利要求4所述的基于人工智能的情绪分类方法,其特征在于,
调整神经网络训练模型的参数有损失函数和超参数,其中损失函数是loss_function;超参数是hyper_para。
6.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,
在步骤40中,当特征向量进入门控循环单元之后,其输出结果由优化器接收,进行优化后,再进入步骤41。
7.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,
记忆网络单元为128维的单层长短期记忆网络单元;门控循环单元为1152维的多层门控循环单元。
8.根据权利要求1所述的基于人工智能的情绪分类方法,其特征在于,所述分类器为softmax函数;所述预测标签为4维预测标签。
9.根据权利要求5所述的基于人工智能的情绪分类方法,其特征在于,
步骤3中,待预测语音数据通过预处理和特征提取,得到待预测语音数据的第一类特征和第二类特征,待预测语音数据的第一类特征进行部分融合后,再与第二类特征进行融合,得到待预测语音数据的特征向量。
CN202210876457.3A 2022-07-25 2022-07-25 一种基于人工智能的情绪分类方法 Active CN115482837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210876457.3A CN115482837B (zh) 2022-07-25 2022-07-25 一种基于人工智能的情绪分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210876457.3A CN115482837B (zh) 2022-07-25 2022-07-25 一种基于人工智能的情绪分类方法

Publications (2)

Publication Number Publication Date
CN115482837A CN115482837A (zh) 2022-12-16
CN115482837B true CN115482837B (zh) 2023-04-28

Family

ID=84421950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210876457.3A Active CN115482837B (zh) 2022-07-25 2022-07-25 一种基于人工智能的情绪分类方法

Country Status (1)

Country Link
CN (1) CN115482837B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110400010A (zh) * 2019-07-11 2019-11-01 新华三大数据技术有限公司 预测方法、装置、电子设备以及计算机可读存储介质
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111044617A (zh) * 2019-11-28 2020-04-21 东南大学 一种基于深度学习与声发射技术的拉索损伤识别方法
CN111464469A (zh) * 2020-03-12 2020-07-28 南京航空航天大学 基于神经网络的混合数字调制方式识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112949708A (zh) * 2021-02-26 2021-06-11 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
CN114118401A (zh) * 2021-10-12 2022-03-01 国电南瑞科技股份有限公司 基于神经网络的配电网络流量预测方法、系统、装置及存储介质
CN114187898A (zh) * 2021-12-31 2022-03-15 电子科技大学 一种基于融合神经网络结构的端到端语音识别方法
CN114203177A (zh) * 2021-12-06 2022-03-18 深圳市证通电子股份有限公司 一种基于深度学习与情绪识别的智能语音问答方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10366302B2 (en) * 2016-10-10 2019-07-30 Gyrfalcon Technology Inc. Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor
US11315570B2 (en) * 2018-05-02 2022-04-26 Facebook Technologies, Llc Machine learning-based speech-to-text transcription cloud intermediary
US11461657B2 (en) * 2019-05-10 2022-10-04 Fujitsu Limited Data augmentation in training deep neural network (DNN) based on genetic model
CN115346561B (zh) * 2022-08-15 2023-11-24 南京医科大学附属脑科医院 基于语音特征的抑郁情绪评估预测方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN110164476A (zh) * 2019-05-24 2019-08-23 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110400010A (zh) * 2019-07-11 2019-11-01 新华三大数据技术有限公司 预测方法、装置、电子设备以及计算机可读存储介质
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111044617A (zh) * 2019-11-28 2020-04-21 东南大学 一种基于深度学习与声发射技术的拉索损伤识别方法
CN111464469A (zh) * 2020-03-12 2020-07-28 南京航空航天大学 基于神经网络的混合数字调制方式识别方法
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112949708A (zh) * 2021-02-26 2021-06-11 平安科技(深圳)有限公司 情绪识别方法、装置、计算机设备和存储介质
CN114118401A (zh) * 2021-10-12 2022-03-01 国电南瑞科技股份有限公司 基于神经网络的配电网络流量预测方法、系统、装置及存储介质
CN114203177A (zh) * 2021-12-06 2022-03-18 深圳市证通电子股份有限公司 一种基于深度学习与情绪识别的智能语音问答方法和系统
CN114187898A (zh) * 2021-12-31 2022-03-15 电子科技大学 一种基于融合神经网络结构的端到端语音识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Yunfeng Xu等.HGFM:A_Hierarchical_Grained_and_Feature_Model_for_Acoustic_Emotion_Recognition.《ICASSP》.2020,6499-6530. *
李胜旺等.文本方面级情感分类方法综述.《河北科技大学学报》.2020,第41卷(第6期),518-527. *

Also Published As

Publication number Publication date
CN115482837A (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
CN108597539B (zh) 基于参数迁移和语谱图的语音情感识别方法
Jothimani et al. MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network
CN113822192A (zh) 一种基于Transformer的多模态特征融合的在押人员情感识别方法、设备及介质
Fei et al. Research on speech emotion recognition based on deep auto-encoder
CN112967725A (zh) 语音对话数据处理方法、装置、计算机设备及存储介质
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
An et al. Speech Emotion Recognition algorithm based on deep learning algorithm fusion of temporal and spatial features
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
CN111508475B (zh) 一种机器人唤醒的语音关键词识别方法、装置及存储介质
CN111583965A (zh) 一种语音情绪识别方法、装置、设备及存储介质
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Hamsa et al. Speaker identification from emotional and noisy speech using learned voice segregation and speech VGG
Li et al. Automatic depression level assessment from speech by long-term global information embedding
CN115482837B (zh) 一种基于人工智能的情绪分类方法
CN116863920A (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
Rammohan et al. Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Wu et al. Research on voiceprint recognition based on weighted clustering recognition SVM algorithm
Wang et al. Artificial Intelligence and Machine Learning Application in NPP MCR Speech Monitoring System
CN110689875A (zh) 一种语种识别方法、装置及可读存储介质
Xu et al. Speech feature extraction based on linear prediction residual
Bhanbhro et al. Speech Emotion Recognition Using Deep Learning Hybrid Models
Jagtap et al. A survey on speech emotion recognition using MFCC and different classifier

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant