CN114566189B - 基于三维深度特征融合的语音情感识别方法及系统 - Google Patents

基于三维深度特征融合的语音情感识别方法及系统 Download PDF

Info

Publication number
CN114566189B
CN114566189B CN202210454745.XA CN202210454745A CN114566189B CN 114566189 B CN114566189 B CN 114566189B CN 202210454745 A CN202210454745 A CN 202210454745A CN 114566189 B CN114566189 B CN 114566189B
Authority
CN
China
Prior art keywords
voice
network
emotion
feature
depth
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210454745.XA
Other languages
English (en)
Other versions
CN114566189A (zh
Inventor
李太豪
郑书凯
刘逸颖
阮玉平
岳鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210454745.XA priority Critical patent/CN114566189B/zh
Publication of CN114566189A publication Critical patent/CN114566189A/zh
Application granted granted Critical
Publication of CN114566189B publication Critical patent/CN114566189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。

Description

基于三维深度特征融合的语音情感识别方法及系统
技术领域
本发明属于人工智能领域,涉及一种基于三维深度特征融合的语音情感识别方法及系统。
背景技术
基于语音交互的口语对话系统成为当下一种普遍使用的人机交互技术,这种人机交互方式的目标在于构建一个具备类似人类思考能力的机器人,以便能够以类人的方式与人交互,并在交互过程中完成各种任务。而通过语音进行说话人的情感识别是拟人机器人的一项重要功能。
当前主流的语音情感识别方法基本都是基于深度神经网络的方法,其主要优点是能够利用深度神经网络的自学习能力,从语音数据中直接学习并提取语音情感识别相关的特征,并进行分类,不但避免了人工设计特征的繁杂工作,也通过这种数据驱动的方式,大大提升了情感识别的精度。
但是对于深度神经网络语音情感识别技术而言,标注数据对模型性能直接起到了关键作用,人工标注语音情感数据是非常困难的,往往需要进行复杂的培训才能进行,所以导致了语音情感识别数据缺乏的问题。而少量数据训练的网络模型通常泛化性比较差,导致其在实际使用中,情感识别准确率低下,难以真正落地。
发明内容
为了解决现有技术中存在的上述技术问题,本发明基于语音情感与说话人本身的嗓音特征以及说话的发音内容强相关的特点,提出了一种基于三维深度特征融合的语音情感识别方法及系统,通过在大数据集上预训练的声纹模型和语音识别模型,提取先验的和说话人相关的声纹特征以及和说话内容相关的音素特征进行融合,并结合使用复数网络提取的声谱图特征,最后通过多层卷积网络和注意力网络进行语音情感识别,通过这种引入先验知识的方法,提供网络模型的泛化性,有效解决低资源训练模型导致的语音情感识别准确率低的问题。其具体技术方案如下:
基于三维深度特征融合的语音情感识别方法,包括以下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。
进一步的,所述步骤一具体包括以下子步骤:
步骤S1,通过网络搜索开源的语音识别数据集,并使用该数据集训练DeepSpeech3语音识别网络模型,得到预训练的语音识别网络模型
Figure 801785DEST_PATH_IMAGE001
步骤S2,通过网络搜索开源的声纹识别数据集,表示为声纹识别数据
Figure 859871DEST_PATH_IMAGE002
步骤S3,构建声纹识别网络模型,并用步骤S2得到的数据
Figure 905187DEST_PATH_IMAGE002
进行声纹识别网络模型训练,得到预训练的声纹识别网络模型
Figure 300396DEST_PATH_IMAGE003
步骤S4,从网络收集开源的情感语音数据集,通过维纳滤波器进行去噪后,得到干净情感语音音频
Figure 380348DEST_PATH_IMAGE004
进一步的,所述声纹识别网络模型由3层,维度为256的双向长短期记忆网络堆叠,加上两层维度分别为256和7的全连接层构成。
进一步的,所述步骤二具体包括以下子步骤:
步骤S5,将干净情感语音音频
Figure 468389DEST_PATH_IMAGE004
进行短时傅里叶变换,得到短时傅里叶变换的复数声谱图特征
Figure 125636DEST_PATH_IMAGE005
步骤S6,将步骤S5得到的
Figure 590115DEST_PATH_IMAGE005
输入到复数特征提取子网络,得到深度声谱图特征
Figure 524573DEST_PATH_IMAGE006
,所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络。
进一步的,所述复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数。
进一步的,所述步骤三具体包括以下子步骤:
步骤S7,将干净情感语音音频
Figure 783516DEST_PATH_IMAGE007
输入到预训练的语音识别网络模型
Figure 678791DEST_PATH_IMAGE008
,提出该模型最后一层网络层的前一层的特征,即深度音素特征
Figure 681382DEST_PATH_IMAGE009
步骤S8,将干净情感语音音频
Figure 470346DEST_PATH_IMAGE007
输入到预训练的声纹识别网络模型
Figure 165770DEST_PATH_IMAGE010
,提出该模型最后一层网络层的前一层的特征,即深度声纹特征
Figure 407395DEST_PATH_IMAGE011
步骤S9,将深度声谱图特征
Figure 72732DEST_PATH_IMAGE012
、深度音素特征
Figure 981782DEST_PATH_IMAGE013
以及深度声纹特征
Figure 582528DEST_PATH_IMAGE014
进行叠加,得到预分类特征
Figure 577029DEST_PATH_IMAGE015
,具体的:
Figure 796788DEST_PATH_IMAGE016
进一步的,所述步骤四具体包括以下子步骤:
步骤S10,将预分类特征
Figure 560345DEST_PATH_IMAGE017
输入到自注意力卷积块中,生成深度复合特征
Figure 597571DEST_PATH_IMAGE018
步骤S11,将深度复合特征
Figure 813789DEST_PATH_IMAGE018
进行注意力权重叠加,即时间维度权重累加,得到最终的输出特征
Figure 696294DEST_PATH_IMAGE019
,具体表达式为:
Figure 438991DEST_PATH_IMAGE020
其中,
Figure 647119DEST_PATH_IMAGE021
表示时间维度的权重矩阵,SUM表示求和操作;
步骤S12,将深度复合特征
Figure 350632DEST_PATH_IMAGE022
输入到两个全连接网络层中,输出经过Softmax网络层进行语音情感分类。
进一步的,所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块, 每层自注意力机制网络的计算公式如下:
Figure 36829DEST_PATH_IMAGE023
其中,
Figure 650344DEST_PATH_IMAGE024
为网络维度,这里设置为256,另外,
Figure 29373DEST_PATH_IMAGE025
Figure 220182DEST_PATH_IMAGE026
Figure 710070DEST_PATH_IMAGE027
其中,
Figure 161780DEST_PATH_IMAGE028
Figure 711710DEST_PATH_IMAGE029
Figure 124236DEST_PATH_IMAGE030
分别表示每层自注意力机制网络的三个全连接层的网络权重参数,
Figure 417814DEST_PATH_IMAGE031
表示每层自注意力机制网络的输入特征,当该层为第一层时,
Figure 864976DEST_PATH_IMAGE032
就是
Figure 195595DEST_PATH_IMAGE033
基于三维深度特征融合的语音情感识别系统,包括:
语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成用于神经网络处理的数据;
用户信息预测模块,将预处理后的数据通过预训练的语音识别网络模型、声纹识别网络模型得到深度音素特征、深度声纹特征,即用于识别语音文本内容及发音人身份信息;
多元融合情感识别模块,将深度音素特征、深度声纹特征和由复数网络结构构成的声谱图特征提取卷积网络得到深度声谱图特征融合,后输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感,即用于综合预测用户的情感类型;
分析存储模块,用于利用MySQL等数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱图特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图特征提取,采用基于短时能量和过零率的方法进行人声检测。
有益效果:
1、本发明通过大规模数据预训练模型提取语音中和发音情感强相关的声纹信息和发音音素信息,充分利用了跨任务大数据预训练模型的优势,有效提高语音情感识别模型的泛化性及准确率;
2、本发明利用复数网络与常规卷积网络结合的混合架构,能够从利用复数网络提取更优的语音特征,利用通用卷积网络降低全复数网络的计算复杂度,有效提高了语音情感识别的准确率及推理速度;
3、本发明集成了多元语音情感识别模型,能够实现语音情感识别实际应用的可用性,适用于基于语音的口语对话系统,例如:口语对话机器人,智能客服、智能音箱等场景。
附图说明
图1为本发明的基于三维深度特征融合的语音情感识别系统的结构示意图;
图2为本发明的基于三维深度特征融合的语音情感识别方法流程示意图;
图3为本发明的基于三维深度特征融合的语音情感识别方法的子步骤流程示意图;
图4为本发明的基于三维深度特征融合的语音情感识别方法的网络结构示意图;
图5为本发明的基于三维深度特征融合的语音情感识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的基于声纹、音素、声谱图的三维深度特征融合的语音情感识别的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号,一般采用高保真单麦克风或者麦克风阵列,以降低语音信号采集的失真度;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据,具体为:该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、静音去除等操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成包含相位信息的声谱图特征,用于后续处理;其中采用谱减法对语音进行去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图提取,采用基于短时能量和过零率的方法进行人声检测;
用户信息预测模块,用于通过上述语音情感识别方法中的语音识别模块及声纹识别模型,分别识别语音文本内容及发音人身份信息。
多元融合情感识别模块,用于通过设计的基于声纹、音素、声谱图三维深度特征融合的语音情感识别模型及开源的基于Bert模型的文本情感识别方法,综合预测用户的情感类型;
分析存储模块,用于利用MySQL等数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
如图2至图4所示,一种基于声纹、音素、声谱图的三维深度特征融合的语音情感识别方法,包括如下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;具体包括以下子步骤:
步骤S1,采集开源语音识别数据集,训练DeepSpeech3模型:
通过网络搜索开源的语音识别数据集,例如:THCHS-30、AI-SHELL3、aidatatang_200zh等数据集,训练DeepSpeech3语音识别网络模型,得到预训练的语音识别网络模型
Figure 360997DEST_PATH_IMAGE034
步骤S2,采集开源声纹识别数据集:
通过网络搜索开源的声纹识别数据集,例如:Free ST Chinese Mandarin Corpus等数据集,表示为声纹识别数据
Figure 192687DEST_PATH_IMAGE035
步骤S3,构建声纹识别网络模型,并用声纹数据训练声纹识别网络模型:
构造由3层,维度为256的双向长短期记忆网络堆叠,加上两层维度分别为256和7的全连接层构成的声纹识别网络,并用步骤S2得到的数据
Figure 759934DEST_PATH_IMAGE035
进行声纹识别网络模型训练,得到预训练的声纹识别网络模型
Figure 120508DEST_PATH_IMAGE036
步骤S4,收集情感语音数据,并进行去噪:
从网络收集开源的情感语音数据集,通过维纳滤波器进行去噪后,得到干净情感语音音频
Figure 163420DEST_PATH_IMAGE037
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;具体包括以下子步骤:
步骤S5,预处理情感音频数据,得到复数声谱图特征:
从步骤S4得到的干净情感语音音频
Figure 533221DEST_PATH_IMAGE037
进行短时傅里叶变换,得到短时傅里叶变换的复数声谱图特征
Figure 689396DEST_PATH_IMAGE038
步骤S6,将声谱图特征输入复数特征提取子网络,得到深度声谱图特征:
将步骤S5得到的
Figure 752030DEST_PATH_IMAGE038
输入到复数特征提取子网络,得到深度声谱图特征
Figure 501811DEST_PATH_IMAGE039
,所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络,所述复数网络结构是近年信号处理领域用到的神经网络结构,同领域人员应当知晓,具体的:复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数。
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;具体包括以下子步骤:
步骤S7,将情感语音输入训练好的语音识别网络模型,得到深度音素特征:
将步骤S4得到干净情感语音音频
Figure 940883DEST_PATH_IMAGE040
输入到步骤S1的预训练的语音识别网络模型,提出模型最后一层网络层的前一层的特征,即深度音素特征
Figure 217143DEST_PATH_IMAGE041
步骤S8,将情感语音输入训练好的声纹识别网络模型,得到深度声纹特征:
将步骤S4得到干净情感语音音频
Figure 450678DEST_PATH_IMAGE042
输入到步骤S3的预训练的声纹识别网络模型,提出模型最后一层网络层的前一层的特征,即深度声纹特征
Figure 937023DEST_PATH_IMAGE043
步骤S9,融合深度声谱图特征、深度音素特征、深度声纹特征:
将步骤S6得到的深度声谱图特征
Figure 914207DEST_PATH_IMAGE044
、步骤S7得到的深度音素特征
Figure 779395DEST_PATH_IMAGE045
以及步骤S8得到的深度声纹特征
Figure 183831DEST_PATH_IMAGE046
进行叠加,得到预分类特征
Figure 32838DEST_PATH_IMAGE047
,具体的:
Figure 423500DEST_PATH_IMAGE048
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感;具体包括以下子步骤:
步骤S10,用自注意力卷积块处理融合特征,获取深度复合特征:
将步骤S9得到的预分类特征输入到自注意力卷积块中,生成深度复合特征
Figure 674352DEST_PATH_IMAGE049
,所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块,具体的:
每层自注意力机制网络的计算公式如下:
Figure 249690DEST_PATH_IMAGE050
其中,
Figure 585994DEST_PATH_IMAGE051
为网络维度,这里设置为256,另外,
Figure 639400DEST_PATH_IMAGE052
Figure 134973DEST_PATH_IMAGE053
Figure 615632DEST_PATH_IMAGE054
其中,
Figure 173653DEST_PATH_IMAGE055
Figure 296329DEST_PATH_IMAGE056
Figure 131561DEST_PATH_IMAGE057
分别表示每层自注意力机制网络的三个全连接层的网络权重参数,
Figure 48702DEST_PATH_IMAGE058
表示每层自注意力机制网络的输入特征,当该层为第一层时,
Figure 359598DEST_PATH_IMAGE058
就是
Figure 20386DEST_PATH_IMAGE059
步骤S11,将深度复合特征通过注意力权重叠加:
将步骤S10得到的深度复合特征
Figure 959392DEST_PATH_IMAGE060
进行注意力权重叠加,即时间维度权重累加,得到最终的输出特征
Figure 47434DEST_PATH_IMAGE061
,具体表达式为:
Figure 580046DEST_PATH_IMAGE062
其中,
Figure 44526DEST_PATH_IMAGE063
表示时间维度的权重矩阵,SUM表示求和操作;
步骤S12,通过两层全连接层,语音情感分类:
将步骤S11输出的深度复合特征
Figure 713404DEST_PATH_IMAGE064
输入到维度分别为256和7的全连接网络层中,输出经过Softmax网络层进行语音情感分类,Softmax网络层是一种通用的网络结构。
与前述基于三维深度特征融合的语音情感识别的语音情感识别方法的实施例相对应,本发明还提供了基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例。
参见图5,本发明实施例提供的一种基于三维深度特征融合的语音情感识别的语音情感识别装置,包括一个或多个处理器,用于实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。
本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于三维深度特征融合的语音情感识别方法,其特征在于,包括以下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;具体包括以下子步骤:
步骤S1,通过网络搜索开源的语音识别数据集,并使用该数据集训练DeepSpeech3语音识别网络模型,得到预训练的语音识别网络模型
Figure DEST_PATH_IMAGE001
步骤S2,通过网络搜索开源的声纹识别数据集,表示为声纹识别数据
Figure DEST_PATH_IMAGE002
步骤S3,构建声纹识别网络模型,并用步骤S2得到的数据
Figure DEST_PATH_IMAGE003
进行声纹识别网络模型训练,得到预训练的声纹识别网络模型
Figure DEST_PATH_IMAGE004
;所述声纹识别网络模型由3层,维度为256的双向长短期记忆网络堆叠,加上两层维度分别为256和7的全连接层构成;
步骤S4,从网络收集开源的情感语音数据集,通过维纳滤波器进行去噪后,得到干净情感语音音频
Figure DEST_PATH_IMAGE005
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;所述复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数;
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。
2.如权利要求1所述的基于三维深度特征融合的语音情感识别方法,其特征在于,所述步骤二具体包括以下子步骤:
步骤S5,将干净情感语音音频
Figure DEST_PATH_IMAGE006
进行短时傅里叶变换,得到短时傅里叶变换的复数声谱图特征
Figure DEST_PATH_IMAGE007
步骤S6,将步骤S5得到的
Figure 452246DEST_PATH_IMAGE007
输入到复数特征提取子网络,得到深度声谱图特征
Figure DEST_PATH_IMAGE008
,所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络。
3.如权利要求1所述的基于三维深度特征融合的语音情感识别方法,其特征在于,所述步骤三具体包括以下子步骤:
步骤S7,将干净情感语音音频
Figure DEST_PATH_IMAGE009
输入到预训练的语音识别网络模型
Figure DEST_PATH_IMAGE010
,提出该模型最后一层网络层的前一层的特征,即深度音素特征
Figure DEST_PATH_IMAGE011
步骤S8,将干净情感语音音频
Figure DEST_PATH_IMAGE012
输入到预训练的声纹识别网络模型
Figure DEST_PATH_IMAGE013
,提出该模型最后一层网络层的前一层的特征,即深度声纹特征
Figure DEST_PATH_IMAGE014
步骤S9,将深度声谱图特征
Figure DEST_PATH_IMAGE015
、深度音素特征
Figure DEST_PATH_IMAGE016
以及深度声纹特征
Figure DEST_PATH_IMAGE017
进行叠加,得到预分类特征
Figure DEST_PATH_IMAGE018
,具体的:
Figure DEST_PATH_IMAGE019
4.如权利要求3所述的基于三维深度特征融合的语音情感识别方法,其特征在于,所述步骤四具体包括以下子步骤:
步骤S10,将预分类特征
Figure DEST_PATH_IMAGE020
输入到自注意力卷积块中,生成深度复合特征
Figure DEST_PATH_IMAGE021
步骤S11,将深度复合特征
Figure 656962DEST_PATH_IMAGE021
进行注意力权重叠加,即时间维度权重累加,得到最终的输出特征
Figure DEST_PATH_IMAGE022
,具体表达式为:
Figure DEST_PATH_IMAGE023
其中,
Figure DEST_PATH_IMAGE024
表示时间维度的权重矩阵,SUM表示求和操作;
步骤S12,将深度复合特征
Figure DEST_PATH_IMAGE025
输入到两个全连接网络层中,输出经过Softmax网络层进行语音情感分类。
5.如权利要求4所述的基于三维深度特征融合的语音情感识别方法,其特征在于,所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块,每层自注意力机制网络的计算公式如下:
Figure DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE027
为网络维度,这里设置为256,另外,
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE033
分别表示每层自注意力机制网络的三个全连接层的网络权重参数,
Figure DEST_PATH_IMAGE034
表示每层自注意力机制网络的输入特征,当该层为第一层时,
Figure DEST_PATH_IMAGE035
就是
Figure DEST_PATH_IMAGE036
6.一种基于三维深度特征融合的语音情感识别系统,其特征在于,包括:
语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成用于神经网络处理的数据;
用户信息预测模块,将预处理后的数据通过预训练的语音识别网络模型、声纹识别网络模型得到深度音素特征、深度声纹特征,即用于识别语音文本内容及发音人身份信息;
多元融合情感识别模块,将深度音素特征、深度声纹特征和由复数网络结构构成的声谱图特征提取卷积网络得到深度声谱图特征融合,后输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感,即用于综合预测用户的情感类型;
分析存储模块,用于利用MySQL数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
7.如权利要求6所述的基于三维深度特征融合的语音情感识别系统,其特征在于,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱图特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图特征提取,采用基于短时能量和过零率的方法进行人声检测。
CN202210454745.XA 2022-04-28 2022-04-28 基于三维深度特征融合的语音情感识别方法及系统 Active CN114566189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210454745.XA CN114566189B (zh) 2022-04-28 2022-04-28 基于三维深度特征融合的语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210454745.XA CN114566189B (zh) 2022-04-28 2022-04-28 基于三维深度特征融合的语音情感识别方法及系统

Publications (2)

Publication Number Publication Date
CN114566189A CN114566189A (zh) 2022-05-31
CN114566189B true CN114566189B (zh) 2022-10-04

Family

ID=81721591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210454745.XA Active CN114566189B (zh) 2022-04-28 2022-04-28 基于三维深度特征融合的语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN114566189B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115311731B (zh) * 2022-10-10 2023-01-31 之江实验室 一种手语数字人的表情生成方法和装置
CN115620706B (zh) * 2022-11-07 2023-03-10 之江实验室 一种模型训练方法、装置、设备及存储介质
CN116189655B (zh) * 2023-04-27 2023-08-01 北京红棉小冰科技有限公司 一种声谱图生成方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110896422A (zh) * 2018-09-07 2020-03-20 青岛海信移动通信技术股份有限公司 一种基于语音的智能响应方法及装置
CN113643723A (zh) * 2021-06-29 2021-11-12 重庆邮电大学 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
WO2021248916A1 (zh) * 2020-06-09 2021-12-16 深圳大学 一种基于智能声学设备的步态识别与情绪感知方法和系统
US11281945B1 (en) * 2021-02-26 2022-03-22 Institute Of Automation, Chinese Academy Of Sciences Multimodal dimensional emotion recognition method
CN114360584A (zh) * 2021-12-02 2022-04-15 华南理工大学 一种基于音素级的语音情感分层式识别方法及系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
KR101173944B1 (ko) * 2008-12-01 2012-08-20 한국전자통신연구원 차량 운전자의 감성 조절 시스템 및 방법
CN109448751B (zh) * 2018-12-29 2021-03-23 中国科学院声学研究所 一种基于深度学习的双耳语音增强方法
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN112216307B (zh) * 2019-07-12 2023-05-16 华为技术有限公司 语音情感识别方法以及装置
CN111108551B (zh) * 2019-12-24 2023-05-26 广州国音智能科技有限公司 一种声纹鉴定方法和相关装置
CN111523389A (zh) * 2020-03-25 2020-08-11 中国平安人寿保险股份有限公司 情绪智能识别方法、装置、电子设备及存储介质
CN111696579B (zh) * 2020-06-17 2022-10-28 厦门快商通科技股份有限公司 一种语音情感识别方法、装置、设备和计算机存储介质
CN111789577B (zh) * 2020-07-15 2023-09-19 天津大学 基于cqt和stft深度语谱特征鼾声分类方法及系统
CN111968679B (zh) * 2020-10-22 2021-01-29 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112765323B (zh) * 2021-01-24 2021-08-17 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法
CN113035227B (zh) * 2021-03-12 2022-02-11 山东大学 一种多模态语音分离方法及系统
CN112712824B (zh) * 2021-03-26 2021-06-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN110896422A (zh) * 2018-09-07 2020-03-20 青岛海信移动通信技术股份有限公司 一种基于语音的智能响应方法及装置
WO2021248916A1 (zh) * 2020-06-09 2021-12-16 深圳大学 一种基于智能声学设备的步态识别与情绪感知方法和系统
US11281945B1 (en) * 2021-02-26 2022-03-22 Institute Of Automation, Chinese Academy Of Sciences Multimodal dimensional emotion recognition method
CN113643723A (zh) * 2021-06-29 2021-11-12 重庆邮电大学 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法
CN114360584A (zh) * 2021-12-02 2022-04-15 华南理工大学 一种基于音素级的语音情感分层式识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度卷积网络和谱图的语音情感识别;张家铭等;《长春理工大学学报(自然科学版)》;20200215(第01期);全文 *

Also Published As

Publication number Publication date
CN114566189A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
Song English speech recognition based on deep learning with multiple features
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN111312245B (zh) 一种语音应答方法、装置和存储介质
WO2018227781A1 (zh) 语音识别方法、装置、计算机设备及存储介质
CN110970036B (zh) 声纹识别方法及装置、计算机存储介质、电子设备
Li et al. Learning fine-grained cross modality excitement for speech emotion recognition
CN109036467A (zh) 基于tf-lstm的cffd提取方法、语音情感识别方法及系统
Londhe et al. Machine learning paradigms for speech recognition of an Indian dialect
CN114420169B (zh) 情绪识别方法、装置及机器人
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
Sinha et al. Acoustic-phonetic feature based dialect identification in Hindi Speech
Basak et al. Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems.
Sen et al. A convolutional neural network based approach to recognize bangla spoken digits from speech signal
Singh et al. An efficient algorithm for recognition of emotions from speaker and language independent speech using deep learning
Wang et al. A research on HMM based speech recognition in spoken English
Radha et al. Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
Bhatia et al. Convolutional Neural Network Based Real Time Arabic Speech Recognition to Arabic Braille for Hearing and Visually Impaired
Kethireddy et al. Deep neural architectures for dialect classification with single frequency filtering and zero-time windowing feature representations
CN116682463A (zh) 一种多模态情感识别方法及系统
Fan et al. CNN-based audio front end processing on speech recognition
Tashakori et al. Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS)
Mendiratta et al. A robust isolated automatic speech recognition system using machine learning techniques
CN116013371A (zh) 一种神经退行性疾病监测方法、系统、装置及存储介质
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant