CN117079673A - 一种基于多模态人工智能的智能情绪识别方法 - Google Patents

一种基于多模态人工智能的智能情绪识别方法 Download PDF

Info

Publication number
CN117079673A
CN117079673A CN202311340057.1A CN202311340057A CN117079673A CN 117079673 A CN117079673 A CN 117079673A CN 202311340057 A CN202311340057 A CN 202311340057A CN 117079673 A CN117079673 A CN 117079673A
Authority
CN
China
Prior art keywords
individual
audio signal
byte
acquiring
formants
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311340057.1A
Other languages
English (en)
Other versions
CN117079673B (zh
Inventor
徐绍杰
侯志军
于晓鲁
孙雷
徐勇
李同庆
邢德鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Mingweisoft Information Technology Co ltd
Original Assignee
Qingdao Mingweisoft Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Mingweisoft Information Technology Co ltd filed Critical Qingdao Mingweisoft Information Technology Co ltd
Priority to CN202311340057.1A priority Critical patent/CN117079673B/zh
Publication of CN117079673A publication Critical patent/CN117079673A/zh
Application granted granted Critical
Publication of CN117079673B publication Critical patent/CN117079673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及语音识别技术领域,提出了一种基于多模态人工智能的智能情绪识别方法,包括:获取个体音频信号,进而获取字节音频信号;获取字节音频信号对应的音强高昂度;获取字节音频信号对应的个体频谱图,获取个体频谱图对应的音调高昂度;获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度;根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果。本发明旨在解决现有的语音识别过程中,对中性情绪识别精度较低的问题。

Description

一种基于多模态人工智能的智能情绪识别方法
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于多模态人工智能的智能情绪识别方法。
背景技术
当前通常使用面部表情或语音对个体的情绪进行识别。然而,由于隐私保护的需要和特定情境下不方便获取个体的面部图像,所以,实际操作过程中往往仅采集个体的语音信息对个体的情绪进行识别。
然而,现有的根据语音数据进行情绪识别的算法,在变长语音输入情况下有时会面对特征数量大的情况,现有情绪识别算法对语音数据的特征提取方式过于简单,无法有效提取对情绪识别贡献高的有用特征,同时,现有情绪识别算法对人为设计的特征利用率低,最终导致中性情绪易与高兴、愤怒、悲伤等非中性情绪混淆,中性情绪识别精度低的问题。所以,需要一种可额外提取语音特征帮助情绪识别、对中性情绪识别精度较高的情绪识别方法。
发明内容
本发明提供一种基于多模态人工智能的智能情绪识别方法,以解决现有的语音识别过程中,对中性情绪识别精度较低的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种基于多模态人工智能的智能情绪识别方法,该方法包括以下步骤:
获取个体音频信号,获取个体音频信号的共振峰,获取共振距离序列,根据共振距离序列建立散点图,根据散点图获取字节音频信号;
获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵,获取字节音频信号对应的音强高昂度;
获取字节音频信号对应的个体频谱图,根据个体频谱图获取一级幅度,根据一级幅度获取个体频谱图对应的音调高昂度;
根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,根据个体音频信号内包含的所有同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度;
根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果。
进一步,所述获取个体音频信号,获取个体音频信号的共振峰,获取共振距离序列,包括的具体方法为:
使用音频采集设备采集需要进行情绪识别的个体的音频信号,将去噪后的音频信号记为个体音频信号;
获取个体音频信号的共振峰和每个共振峰对应的音频采集时刻;
分别将每个共振峰作为待测共振峰,将待测共振峰后一时刻的共振峰记为待测共振峰的相邻共振峰;
将每个待测共振峰的相邻共振峰与待测共振峰的音频采集时刻之差记为待测共振峰的共振距离;
将个体音频信号的所有共振峰的共振距离按照共振峰的采集时刻进行排列,获取共振距离序列,将共振距离在共振距离序列中的次序记为共振距离的序号。
进一步,所述根据共振距离序列建立散点图,根据散点图获取字节音频信号,包括的具体方法为:
以共振距离的序号为横轴,以共振距离的音频采集时刻为纵轴建立散点图,获取每个共振距离在散点图中对应的散点;
对散点图中的所有散点进行聚类,获取多个聚类簇;
选取同一聚类簇内包含的所有散点对应的共振峰,选取所有共振峰的音频采集时刻中最为靠前和最为靠后的音频采集时刻,将最为靠前的音频采集时刻至最为靠后的音频采集时刻确定的时间段对应的音频信号记为字节音频信号;
获取每个聚类簇对应的字节音频信号。
进一步,所述获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵,获取字节音频信号对应的音强高昂度,包括的具体方法为:
获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵;
根据字节音频信号内包含的共振峰的数量和共振峰的振幅,获取字节音频信号内包含的共振峰的振幅的均值;
将字节音频信号内包含的共振峰的振幅的均值与振幅的信息熵的比值记为字节音频信号对应的音强高昂度。
进一步,所述获取字节音频信号对应的个体频谱图,根据个体频谱图获取一级幅度,包括的具体方法为:
获取节音频信号对应的个体频谱图;
获取个体频谱图中的频谱波峰;
获取个体频谱图中的频谱波峰对应的幅度的自适应划分阈值,将频谱波峰对应的幅度中大于自适应划分阈值的幅度标记为一级幅度。
进一步,所述根据一级幅度获取个体频谱图对应的音调高昂度,包括的具体方法为:
获取个体频谱图内包含所有一级幅度的幅度均值和一级幅度的信息熵;
将体频谱图内包含所有一级幅度的幅度均值与一级幅度的信息熵的比值记为个体频谱图对应的音调高昂度。
进一步,所述根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,包括的具体方法为:
获取字节音频信号和字节音频信号对应的个体频谱图对应的同一发音字节;
将字节音频信号对应的个体频谱图对应的音调高昂度记为字节音频信号对应的音调高昂度;
将字节音频信号对应的音强高昂度和字节音频信号对应的音调高昂度的乘积记为第一乘积;
将第一乘积记为所述同一发音字节对应的字节高昂度。
进一步,所述根据个体音频信号内包含的所有同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度,包括的具体方法为:
将个体音频信号中包含的所有发音字节对应的字节高昂度的中值记为第一中值;
将个体音频信号中包含的所有发音字节对应的字节高昂度与第一中值的差的绝对值的均值记为第一均值;
将第一均值与第一中值的乘积的线性归一化值记为第一归一化值;
将数字一与第一归一化值的差值记为个体音频信号对应的情绪中性置信度。
进一步,所述根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,包括的具体方法为:
将同一获取时间的个体音频信号和个体音频信号对应的情绪中性置信度组成的数对记为获取时间的个体音频数对;
将连续第一预设阈值个个体音频数对按照获取的时间顺序排列为情绪中性置信度序列;
将情绪中性置信度序列输入LSTM长短期记忆递归神经网络,获取长短期记忆递归神经网络学习到的语音数据向量;
将个体音频信号转为文本数据;
将文本数据输入文本分类模型,获取文本分类模型学习到的文本数据向量。
进一步,所述获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果,包括的具体方法为:
将语音数据向量和文本数据向量进行平均加权,获取多模态特征向量;
将多模态特征向量作为Softmax分类器的输入,得到个体音频信号对应的情绪识别结果。
本发明的有益效果是:
本发明从获取的个体音频信号中识别共振峰,根据共振峰之间的共振距离获取字节音频信号,根据个体的情绪为中性时音强较小、振幅平缓的特征对每个字节音频信号进行评价,获取字节音频信号对应的音强高昂度;其次,获取每个字节音频信号对应的个体频谱图,根据个体的情绪为中性时音调平缓的特征对个体频谱图进行评价,获取个体频谱图对应的音调高昂度,进而根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度获取发音字节对应的字节高昂度,为语音特征的提取提供更为准确的评价,为后续情绪识别提供帮助;然后,根据语句中的不同发音字节表达的情绪不完全相同的特征,获取个体音频信号对应的情绪中性置信度,对个体音频信号表达的中性情绪的置信度进行更为准确地评价;最后,根据个体音频信号获取文本数据向量,根据情绪中性置信度和个体音频信号获取语音数据向量,根据文本数据向量和语音数据向量实现多模态智能情绪识别,在考虑个体音频信号的音强和音调的前提下,添加文本数据对情绪识别结果的影响,利用无情绪起伏影响的单一文字对情绪精准识别进行辅助,进一步提升中性情绪的识别精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种基于多模态人工智能的智能情绪识别方法流程示意图;
图2为多模态情绪识别框架示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种基于多模态人工智能的智能情绪识别方法流程图,该方法包括以下步骤:
步骤S001、获取个体音频信号,获取个体音频信号的共振峰,获取共振距离序列,根据共振距离序列建立散点图,根据散点图获取字节音频信号。
在需要进行情绪识别的个体位置附近设置音频采集设备。音频采集设备用于采集需要进行情绪识别的个体的音频信号。其中,音频采集设备可选择录音笔、录音器等设备。
为了增强音频信号的质量,消除环境噪声干扰以及音频采集设备中的电流声等干扰噪声,采用维纳滤波对采集的音频信号进行去噪处理,其中,维纳滤波去噪为公知技术,不再赘述。将去噪后的音频信号记为个体音频信号。
对个体音频信号使用线性预测方法进行共振峰检测,获取共振峰。获取每个共振峰对应的音频采集时刻。分别将每个共振峰作为待测共振峰,将待测共振峰后一时刻的共振峰记为待测共振峰的相邻共振峰,将每个待测共振峰的相邻共振峰与待测共振峰的音频采集时刻之差记为待测共振峰的共振距离。将个体音频信号的所有共振峰的共振距离按照共振峰的采集时刻进行排列,获取共振距离序列。将共振距离在共振距离序列中的次序记为共振距离的序号。以共振距离的序号为横轴,以共振距离的音频采集时刻为纵轴建立散点图,获取每个共振距离在散点图中对应的散点。
由于同一字对应的音频信号一般包含3-5个共振峰,且这些共振峰的音频采集时刻接近,所以,以此为基础将对应同一个字的音频信号选取出来。以3为最小点数目,以10为最大半径,对散点图中的所有散点使用DBSCAN算法进行聚类,获取多个聚类簇。选取同一聚类簇内包含的所有散点对应的共振峰,选取所有共振峰的音频采集时刻中最为靠前和最为靠后的音频采集时刻,将最为靠前的音频采集时刻至最为靠后的音频采集时刻确定的时间段对应的音频信号记为字节音频信号。其中,使用DBSCAN算法对散点图中的所有散点进行聚类为公知技术,不再赘述。
至此,获取个体音频信号中的所有共振峰和字节音频信号。
步骤S002、获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵,获取字节音频信号对应的音强高昂度。
当需要进行情绪识别的个体的情绪较为中性时,在说话的过程中,每个字的音强较小,每个字对应的字节音频信号的振幅均较为平缓,而个体的情绪较为激动高昂时,在说话的过程中,每个字的音强较大,每个字对应的字节音频信号的振幅均较大。为提高中性情绪的识别精度,以此为依据对每个字节音频信号分别进行分析。
获取每个字节音频信号内包含的所有共振峰的数量和共振峰的振幅。获取每个字节音频信号内包含的所有共振峰的振幅的信息熵。当个体的情绪较为激动高昂时,则每个字对应的字节音频信号包含的所有共振峰的振幅的均值较大,信息熵较小;当个体的情绪较为中性时,则每个字对应的字节音频信号包含的所有共振峰的振幅的均值较小,信息熵较大。
根据上述分析,获取每个字节音频信号对应的音强高昂度。
式中,表示个体音频信号中第/>个字节音频信号对应的音强高昂度,其中,,/>表示个体音频信号中包含的字节音频信号的数量;/>表示第/>个字节音频信号内包含的第/>个共振峰的振幅,其中,/>;/>为第/>个字节音频信号内包含的共振峰的数量;/>表示第/>个字节音频信号内包含的共振峰的振幅的信息熵。
式中,表示个体音频信号中第/>个字节音频信号包含的所有共振峰的振幅的和,/>表示个体音频信号中第/>个字节音频信号包含的所有共振峰的振幅的均值。
当字节音频信号包含的所有共振峰的振幅的均值越大、共振峰的振幅的信息熵越小时,则字节音频信号对应的音强高昂度越大,字节音频信号对应的个体发音的字节情绪越为激动高昂,即字节音频信号对应的字在个体的语句中表达的情绪为中性的置信度越小。
至此,获取每个字节音频信号对应的音强高昂度。
步骤S003、获取字节音频信号对应的个体频谱图,根据个体频谱图获取一级幅度,根据一级幅度获取个体频谱图对应的音调高昂度。
对字节音频信号使用离散傅里叶变换,获取频谱图,将频谱图记为字节音频信号对应的个体频谱图。其中,使用离散傅里叶变换获取频谱图为公知技术,具体过程不再赘述。由于每个字节音频信号对应一个个体频谱图,所以,个体音频信号中包含的字节音频信号的数量即为个体音频信号中包含的个体频谱图的数量。
对个体频谱图使用局部最大值和局部最小值进行频谱峰谷检测,获取个体频谱图中的频谱波峰。分别对每个个体频谱图中的频谱波峰对应的幅度使用OTSU最大类间方差法进行划分,获取自适应划分阈值,将频谱波峰对应的幅度中大于自适应划分阈值的幅度标记为一级幅度。获取每个个体频谱图中筛选出的一级幅度的数量以及一级幅度的信息熵。
当个体的情绪较为激动高昂时,则每个字的音调较高,每个字对应的个体频谱图中一级幅度的均值较大,信息熵较小;当个体的情绪较为中性时,则每个字的音调较低,每个字对应的个体频谱图中一级幅度的均值较小,信息熵较大。
根据上述分析,获取每个个体频谱图对应的音调高昂度。
式中,表示个体音频信号中第/>个个体频谱图对应的音调高昂度,其中,,/>表示个体音频信号中包含的个体频谱图的数量;/>表示第/>个个体频谱图内包含的第/>个一级幅度的幅度,其中,/>;/>表示第/>个个体频谱图内包含的一级幅度的数量;/>表示第/>个个体频谱图内包含的一级幅度的信息熵。
式中,表示个体音频信号中第/>个个体频谱图包含的所有一级幅度的和,/>表示个体音频信号中第/>个个体频谱图包含的所有一级幅度的均值。
当个体频谱图包含的一级幅度的均值越大、一级幅度的信息熵越小时,则个体频谱图对应的音调高昂度越大,个体频谱图对应的个体发音的字节情绪越为激动高昂,即个体频谱图对应的字在个体的语句中表达的情绪为中性的置信度越小。
至此,获取每个个体频谱图对应的音调高昂度。
步骤S004、根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,根据个体音频信号内包含的所有同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度。
由于每个字节音频信号对应在个体的语句中表达的一个字,所以个体音频信号中包含的发音字节的数量即为个体音频信号中包含的字节音频信号的数量。
根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度。
式中,表示个体音频信号中第/>个发音字节对应的字节高昂度,其中,,/>表示个体音频信号中包含的发音字节的数量;/>表示个体音频信号中第/>个字节音频信号对应的音强高昂度,/>表示个体音频信号中第/>个个体频谱图对应的音调高昂度。
当字节音频信号对应的音强高昂度越大、个体频谱图对应的音调高昂度越大时,字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度越大,即发音字节传递的情绪越为激动高昂,发音字节表达的情绪为中性的置信度越小。
在每个个体用语言表达观点或者抒发情绪时,语句的情绪会带动声音起伏,使语句抑扬顿挫,所以,语句中的不同发音字节表达的情绪不完全相同,即不同发音字节对应的字节高昂度有所差异。为了更准确地识别出中性情绪,对个体音频信号中包含的发音字节对应的字节高昂度进行分析。
获取个体音频信号中包含的所有发音字节对应的字节高昂度的中值。
获取个体音频信号对应的情绪中性置信度。
式中,表示个体音频信号对应的情绪中性置信度;/>表示个体音频信号中包含的所有发音字节对应的字节高昂度的中值;/>表示个体音频信号中第/>个发音字节对应的字节高昂度,其中,/>;/>表示个体音频信号中包含的发音字节的数量;表示线性归一化函数,作用为取括号内的线性归一化值。
当个体音频信号中包含的所有发音字节对应的字节高昂度的中值越小,不同发音字节对应的字节高昂度差异越小时,则个体音频信号对应的情绪中性置信度越大,即个体音频信号对应的语句的情绪越为平静温和,个体音频信号对应的语句表达的情绪为中性的置信度越大。
至此,获取个体音频信号对应的情绪中性置信度。
步骤S005、根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果。
将同一获取时间的个体音频信号和个体音频信号对应的情绪中性置信度组成的数对记为获取时间的个体音频数对,将连续个个体音频数对按照获取的时间顺序排列为情绪中性置信度序列,将情绪中性置信度序列输入LSTM长短期记忆递归神经网络,获取长短期记忆递归神经网络学习到的语音数据向量。其中,/>为第一预设阈值,经验值为10;LSTM长短期记忆递归神经网络以Adam为优化算法,以MSE函数为损失函数,网络的构建和训练过程为公知技术,不再赘述。
对个体音频信号使用Whisper模型将语音信号转为文本数据。将文本数据输入文本分类模型,获取文本分类模型学习到的文本数据向量。其中,文本分类模型以SGD算法为优化算法,以多分类交叉熵为损失函数,模型的构建过程为公知技术,不再赘述。
将语音数据向量和文本数据向量进行平均加权,获取多模态特征向量,将多模态特征向量作为Softmax分类器的输入,得到个体音频信号对应的情绪识别结果。其中,情绪识别结果包括高兴,愤怒,伤心,惊讶,讨厌,害怕和中性。
进一步的,在上述获取情绪识别结果的过程中,添加文本数据对情绪识别结果的影响,可依据无情绪起伏影响音强和音调等因素的单一文字,进一步提升中性情绪的识别的精度。
根据个体音频信号对应的情绪中性置信度和个体音频信号获取个体音频信号对应的情绪识别结果的多模态情绪识别框架示意图如图2所示。
至此,完成对情绪的识别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多模态人工智能的智能情绪识别方法,其特征在于,该方法包括以下步骤:
获取个体音频信号,获取个体音频信号的共振峰,获取共振距离序列,根据共振距离序列建立散点图,根据散点图获取字节音频信号;
获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵,获取字节音频信号对应的音强高昂度;
获取字节音频信号对应的个体频谱图,根据个体频谱图获取一级幅度,根据一级幅度获取个体频谱图对应的音调高昂度;
根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,根据个体音频信号内包含的所有同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度;
根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果。
2.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述获取个体音频信号,获取个体音频信号的共振峰,获取共振距离序列,包括的具体方法为:
使用音频采集设备采集需要进行情绪识别的个体的音频信号,将去噪后的音频信号记为个体音频信号;
获取个体音频信号的共振峰和每个共振峰对应的音频采集时刻;
分别将每个共振峰作为待测共振峰,将待测共振峰后一时刻的共振峰记为待测共振峰的相邻共振峰;
将每个待测共振峰的相邻共振峰与待测共振峰的音频采集时刻之差记为待测共振峰的共振距离;
将个体音频信号的所有共振峰的共振距离按照共振峰的采集时刻进行排列,获取共振距离序列,将共振距离在共振距离序列中的次序记为共振距离的序号。
3.根据权利要求2所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述根据共振距离序列建立散点图,根据散点图获取字节音频信号,包括的具体方法为:
以共振距离的序号为横轴,以共振距离的音频采集时刻为纵轴建立散点图,获取每个共振距离在散点图中对应的散点;
对散点图中的所有散点进行聚类,获取多个聚类簇;
选取同一聚类簇内包含的所有散点对应的共振峰,选取所有共振峰的音频采集时刻中最为靠前和最为靠后的音频采集时刻,将最为靠前的音频采集时刻至最为靠后的音频采集时刻确定的时间段对应的音频信号记为字节音频信号;
获取每个聚类簇对应的字节音频信号。
4.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵,获取字节音频信号对应的音强高昂度,包括的具体方法为:
获取字节音频信号内包含的共振峰的数量、共振峰的振幅和振幅的信息熵;
根据字节音频信号内包含的共振峰的数量和共振峰的振幅,获取字节音频信号内包含的共振峰的振幅的均值;
将字节音频信号内包含的共振峰的振幅的均值与振幅的信息熵的比值记为字节音频信号对应的音强高昂度。
5.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述获取字节音频信号对应的个体频谱图,根据个体频谱图获取一级幅度,包括的具体方法为:
获取节音频信号对应的个体频谱图;
获取个体频谱图中的频谱波峰;
获取个体频谱图中的频谱波峰对应的幅度的自适应划分阈值,将频谱波峰对应的幅度中大于自适应划分阈值的幅度标记为一级幅度。
6.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述根据一级幅度获取个体频谱图对应的音调高昂度,包括的具体方法为:
获取个体频谱图内包含所有一级幅度的幅度均值和一级幅度的信息熵;
将体频谱图内包含所有一级幅度的幅度均值与一级幅度的信息熵的比值记为个体频谱图对应的音调高昂度。
7.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述根据字节音频信号对应的音强高昂度和个体频谱图对应的音调高昂度,获取字节音频信号和其对应的个体频谱图对应的同一发音字节对应的字节高昂度,包括的具体方法为:
获取字节音频信号和字节音频信号对应的个体频谱图对应的同一发音字节;
将字节音频信号对应的个体频谱图对应的音调高昂度记为字节音频信号对应的音调高昂度;
将字节音频信号对应的音强高昂度和字节音频信号对应的音调高昂度的乘积记为第一乘积;
将第一乘积记为所述同一发音字节对应的字节高昂度。
8.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述根据个体音频信号内包含的所有同一发音字节对应的字节高昂度,获取个体音频信号对应的情绪中性置信度,包括的具体方法为:
将个体音频信号中包含的所有发音字节对应的字节高昂度的中值记为第一中值;
将个体音频信号中包含的所有发音字节对应的字节高昂度与第一中值的差的绝对值的均值记为第一均值;
将第一均值与第一中值的乘积的线性归一化值记为第一归一化值;
将数字一与第一归一化值的差值记为个体音频信号对应的情绪中性置信度。
9.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述根据个体音频信号对应的情绪中性置信度和个体音频信号获取语音数据向量和文本数据向量,包括的具体方法为:
将同一获取时间的个体音频信号和个体音频信号对应的情绪中性置信度组成的数对记为获取时间的个体音频数对;
将连续第一预设阈值个个体音频数对按照获取的时间顺序排列为情绪中性置信度序列;
将情绪中性置信度序列输入LSTM长短期记忆递归神经网络,获取长短期记忆递归神经网络学习到的语音数据向量;
将个体音频信号转为文本数据;
将文本数据输入文本分类模型,获取文本分类模型学习到的文本数据向量。
10.根据权利要求1所述的一种基于多模态人工智能的智能情绪识别方法,其特征在于,所述获取多模态特征向量,根据多模态特征向量获取个体音频信号对应的情绪识别结果,包括的具体方法为:
将语音数据向量和文本数据向量进行平均加权,获取多模态特征向量;
将多模态特征向量作为Softmax分类器的输入,得到个体音频信号对应的情绪识别结果。
CN202311340057.1A 2023-10-17 2023-10-17 一种基于多模态人工智能的智能情绪识别方法 Active CN117079673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311340057.1A CN117079673B (zh) 2023-10-17 2023-10-17 一种基于多模态人工智能的智能情绪识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311340057.1A CN117079673B (zh) 2023-10-17 2023-10-17 一种基于多模态人工智能的智能情绪识别方法

Publications (2)

Publication Number Publication Date
CN117079673A true CN117079673A (zh) 2023-11-17
CN117079673B CN117079673B (zh) 2023-12-19

Family

ID=88706520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311340057.1A Active CN117079673B (zh) 2023-10-17 2023-10-17 一种基于多模态人工智能的智能情绪识别方法

Country Status (1)

Country Link
CN (1) CN117079673B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194002A1 (en) * 1999-08-31 2002-12-19 Accenture Llp Detecting emotions using voice signal analysis
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN110085221A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情感交互方法、计算机设备和计算机可读存储介质
CN110675858A (zh) * 2019-08-29 2020-01-10 平安科技(深圳)有限公司 基于情绪识别的终端控制方法和装置
CN113409824A (zh) * 2021-07-06 2021-09-17 青岛洞听智能科技有限公司 一种语音情感识别方法
CN114051639A (zh) * 2019-06-28 2022-02-15 亚马逊技术公司 使用说话者基线进行情绪检测

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020194002A1 (en) * 1999-08-31 2002-12-19 Accenture Llp Detecting emotions using voice signal analysis
CN102142253A (zh) * 2010-01-29 2011-08-03 富士通株式会社 语音情感识别设备及方法
CN110085221A (zh) * 2018-01-26 2019-08-02 上海智臻智能网络科技股份有限公司 语音情感交互方法、计算机设备和计算机可读存储介质
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN114051639A (zh) * 2019-06-28 2022-02-15 亚马逊技术公司 使用说话者基线进行情绪检测
CN110675858A (zh) * 2019-08-29 2020-01-10 平安科技(深圳)有限公司 基于情绪识别的终端控制方法和装置
CN113409824A (zh) * 2021-07-06 2021-09-17 青岛洞听智能科技有限公司 一种语音情感识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
EUN HO KIM ET AL.: "Speech Emotion Recognition Using Eigen-FFT in Clean and Noisy Environments", 《16TH IEEE INTERNATIONAL CONFERENCE ON ROBOT & HUMAN INTERACTIVE COMMUNICATION》 *
陈鹏展;张欣;徐芳萍;: "基于语音信号与文本信息的双模态情感识别", 华东交通大学学报, no. 02 *

Also Published As

Publication number Publication date
CN117079673B (zh) 2023-12-19

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
Cai et al. Sensor network for the monitoring of ecosystem: Bird species recognition
CN101620853A (zh) 一种基于改进模糊矢量量化的语音情感识别方法
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN102810311B (zh) 说话人估计方法和说话人估计设备
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN103824557A (zh) 一种具有自定义功能的音频检测分类方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN112397074A (zh) 基于mfcc和向量元学习的声纹识别方法
CN111933148A (zh) 基于卷神经网络的年龄识别方法、装置及终端
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN112331220A (zh) 一种基于深度学习的鸟类实时识别方法
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及系统
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN112927723A (zh) 基于深度神经网络的高性能抗噪语音情感识别方法
CN117079673B (zh) 一种基于多模态人工智能的智能情绪识别方法
CN115064175A (zh) 一种说话人识别方法
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant