CN114566189B - 基于三维深度特征融合的语音情感识别方法及系统 - Google Patents
基于三维深度特征融合的语音情感识别方法及系统 Download PDFInfo
- Publication number
- CN114566189B CN114566189B CN202210454745.XA CN202210454745A CN114566189B CN 114566189 B CN114566189 B CN 114566189B CN 202210454745 A CN202210454745 A CN 202210454745A CN 114566189 B CN114566189 B CN 114566189B
- Authority
- CN
- China
- Prior art keywords
- voice
- network
- emotion
- feature
- depth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 53
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000004927 fusion Effects 0.000 title claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 58
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 239000002131 composite material Substances 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000013329 compounding Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000011426 transformation method Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 230000007787 long-term memory Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000011410 subtraction method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000015654 memory Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本发明属于人工智能领域,涉及基于三维深度特征融合的语音情感识别方法及系统,该方法包括:步骤一,采集开源数据集得到预训练的识别网络模型和经过去噪处理的干净情感语音音频;步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。本发明有效解决低资源训练模型导致的语音情感识别准确率低的问题。
Description
技术领域
本发明属于人工智能领域,涉及一种基于三维深度特征融合的语音情感识别方法及系统。
背景技术
基于语音交互的口语对话系统成为当下一种普遍使用的人机交互技术,这种人机交互方式的目标在于构建一个具备类似人类思考能力的机器人,以便能够以类人的方式与人交互,并在交互过程中完成各种任务。而通过语音进行说话人的情感识别是拟人机器人的一项重要功能。
当前主流的语音情感识别方法基本都是基于深度神经网络的方法,其主要优点是能够利用深度神经网络的自学习能力,从语音数据中直接学习并提取语音情感识别相关的特征,并进行分类,不但避免了人工设计特征的繁杂工作,也通过这种数据驱动的方式,大大提升了情感识别的精度。
但是对于深度神经网络语音情感识别技术而言,标注数据对模型性能直接起到了关键作用,人工标注语音情感数据是非常困难的,往往需要进行复杂的培训才能进行,所以导致了语音情感识别数据缺乏的问题。而少量数据训练的网络模型通常泛化性比较差,导致其在实际使用中,情感识别准确率低下,难以真正落地。
发明内容
为了解决现有技术中存在的上述技术问题,本发明基于语音情感与说话人本身的嗓音特征以及说话的发音内容强相关的特点,提出了一种基于三维深度特征融合的语音情感识别方法及系统,通过在大数据集上预训练的声纹模型和语音识别模型,提取先验的和说话人相关的声纹特征以及和说话内容相关的音素特征进行融合,并结合使用复数网络提取的声谱图特征,最后通过多层卷积网络和注意力网络进行语音情感识别,通过这种引入先验知识的方法,提供网络模型的泛化性,有效解决低资源训练模型导致的语音情感识别准确率低的问题。其具体技术方案如下:
基于三维深度特征融合的语音情感识别方法,包括以下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。
进一步的,所述步骤一具体包括以下子步骤:
进一步的,所述声纹识别网络模型由3层,维度为256的双向长短期记忆网络堆叠,加上两层维度分别为256和7的全连接层构成。
进一步的,所述步骤二具体包括以下子步骤:
进一步的,所述复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数。
进一步的,所述步骤三具体包括以下子步骤:
进一步的,所述步骤四具体包括以下子步骤:
进一步的,所述自注意力卷积块是3层带自注意力机制网络的Transformer卷积块, 每层自注意力机制网络的计算公式如下:
基于三维深度特征融合的语音情感识别系统,包括:
语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成用于神经网络处理的数据;
用户信息预测模块,将预处理后的数据通过预训练的语音识别网络模型、声纹识别网络模型得到深度音素特征、深度声纹特征,即用于识别语音文本内容及发音人身份信息;
多元融合情感识别模块,将深度音素特征、深度声纹特征和由复数网络结构构成的声谱图特征提取卷积网络得到深度声谱图特征融合,后输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感,即用于综合预测用户的情感类型;
分析存储模块,用于利用MySQL等数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱图特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图特征提取,采用基于短时能量和过零率的方法进行人声检测。
有益效果:
1、本发明通过大规模数据预训练模型提取语音中和发音情感强相关的声纹信息和发音音素信息,充分利用了跨任务大数据预训练模型的优势,有效提高语音情感识别模型的泛化性及准确率;
2、本发明利用复数网络与常规卷积网络结合的混合架构,能够从利用复数网络提取更优的语音特征,利用通用卷积网络降低全复数网络的计算复杂度,有效提高了语音情感识别的准确率及推理速度;
3、本发明集成了多元语音情感识别模型,能够实现语音情感识别实际应用的可用性,适用于基于语音的口语对话系统,例如:口语对话机器人,智能客服、智能音箱等场景。
附图说明
图1为本发明的基于三维深度特征融合的语音情感识别系统的结构示意图;
图2为本发明的基于三维深度特征融合的语音情感识别方法流程示意图;
图3为本发明的基于三维深度特征融合的语音情感识别方法的子步骤流程示意图;
图4为本发明的基于三维深度特征融合的语音情感识别方法的网络结构示意图;
图5为本发明的基于三维深度特征融合的语音情感识别装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
如图1所示,本发明的基于声纹、音素、声谱图的三维深度特征融合的语音情感识别的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号,一般采用高保真单麦克风或者麦克风阵列,以降低语音信号采集的失真度;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据,具体为:该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、静音去除等操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成包含相位信息的声谱图特征,用于后续处理;其中采用谱减法对语音进行去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图提取,采用基于短时能量和过零率的方法进行人声检测;
用户信息预测模块,用于通过上述语音情感识别方法中的语音识别模块及声纹识别模型,分别识别语音文本内容及发音人身份信息。
多元融合情感识别模块,用于通过设计的基于声纹、音素、声谱图三维深度特征融合的语音情感识别模型及开源的基于Bert模型的文本情感识别方法,综合预测用户的情感类型;
分析存储模块,用于利用MySQL等数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
如图2至图4所示,一种基于声纹、音素、声谱图的三维深度特征融合的语音情感识别方法,包括如下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;具体包括以下子步骤:
步骤S1,采集开源语音识别数据集,训练DeepSpeech3模型:
步骤S2,采集开源声纹识别数据集:
步骤S3,构建声纹识别网络模型,并用声纹数据训练声纹识别网络模型:
步骤S4,收集情感语音数据,并进行去噪:
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;具体包括以下子步骤:
步骤S5,预处理情感音频数据,得到复数声谱图特征:
步骤S6,将声谱图特征输入复数特征提取子网络,得到深度声谱图特征:
将步骤S5得到的输入到复数特征提取子网络,得到深度声谱图特征,所述复数特征提取子网络是由复数网络结构构成的声谱图特征提取卷积网络,所述复数网络结构是近年信号处理领域用到的神经网络结构,同领域人员应当知晓,具体的:复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数。
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;具体包括以下子步骤:
步骤S7,将情感语音输入训练好的语音识别网络模型,得到深度音素特征:
步骤S8,将情感语音输入训练好的声纹识别网络模型,得到深度声纹特征:
步骤S9,融合深度声谱图特征、深度音素特征、深度声纹特征:
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感;具体包括以下子步骤:
步骤S10,用自注意力卷积块处理融合特征,获取深度复合特征:
每层自注意力机制网络的计算公式如下:
步骤S11,将深度复合特征通过注意力权重叠加:
步骤S12,通过两层全连接层,语音情感分类:
与前述基于三维深度特征融合的语音情感识别的语音情感识别方法的实施例相对应,本发明还提供了基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例。
参见图5,本发明实施例提供的一种基于三维深度特征融合的语音情感识别的语音情感识别装置,包括一个或多个处理器,用于实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。
本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明的基于三维深度特征融合的语音情感识别的语音情感识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于三维深度特征融合的语音情感识别的语音情感识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于三维深度特征融合的语音情感识别方法,其特征在于,包括以下步骤:
步骤一,采集开源语音识别数据集和声纹识别数据集并训练分别得到预训练的语音识别网络模型和声纹识别网络模型,再采集开源情感语音数据集后进行去噪处理得到干净情感语音音频;具体包括以下子步骤:
步骤S3,构建声纹识别网络模型,并用步骤S2得到的数据进行声纹识别网络模型训练,得到预训练的声纹识别网络模型;所述声纹识别网络模型由3层,维度为256的双向长短期记忆网络堆叠,加上两层维度分别为256和7的全连接层构成;
步骤二,对干净情感语音音频进行短时傅里叶变换后输入复数特征提取子网络,得到深度声谱图特征;
步骤三,将干净情感语音音频输入预训练的语音识别网络模型和声纹识别网络模型,分别得到深度音素特征和深度声纹特征,后与深度声谱图特征融合;所述复数特征提取子网络由两层复数卷积网络构成,复数卷积网络的卷积核为5,通道数为256,每层卷积层后根着一个复数ReLU激活函数;
步骤四,将步骤三融合后的特征输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感。
6.一种基于三维深度特征融合的语音情感识别系统,其特征在于,包括:
语音信号采集模块,采用高保真单麦克风或者麦克风阵列采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行人声检测,去除非人声部分,生成用于神经网络处理的数据;
用户信息预测模块,将预处理后的数据通过预训练的语音识别网络模型、声纹识别网络模型得到深度音素特征、深度声纹特征,即用于识别语音文本内容及发音人身份信息;
多元融合情感识别模块,将深度音素特征、深度声纹特征和由复数网络结构构成的声谱图特征提取卷积网络得到深度声谱图特征融合,后输入自注意力卷积块,生成深度复合特征,再进行注意力权重叠加后通过两层全连接层输出,经分类网络层分类识别出语音情感,即用于综合预测用户的情感类型;
分析存储模块,用于利用MySQL数据库,存储用户的语音数据、发音文本数据和情感标签数据,并根据实际业务进行统计分析。
7.如权利要求6所述的基于三维深度特征融合的语音情感识别系统,其特征在于,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、静音去除,人声检测操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成声谱图特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行声谱图特征提取,采用基于短时能量和过零率的方法进行人声检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210454745.XA CN114566189B (zh) | 2022-04-28 | 2022-04-28 | 基于三维深度特征融合的语音情感识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210454745.XA CN114566189B (zh) | 2022-04-28 | 2022-04-28 | 基于三维深度特征融合的语音情感识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114566189A CN114566189A (zh) | 2022-05-31 |
CN114566189B true CN114566189B (zh) | 2022-10-04 |
Family
ID=81721591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210454745.XA Active CN114566189B (zh) | 2022-04-28 | 2022-04-28 | 基于三维深度特征融合的语音情感识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114566189B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115311731B (zh) * | 2022-10-10 | 2023-01-31 | 之江实验室 | 一种手语数字人的表情生成方法和装置 |
CN115620706B (zh) * | 2022-11-07 | 2023-03-10 | 之江实验室 | 一种模型训练方法、装置、设备及存储介质 |
CN116189655B (zh) * | 2023-04-27 | 2023-08-01 | 北京红棉小冰科技有限公司 | 一种声谱图生成方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN110896422A (zh) * | 2018-09-07 | 2020-03-20 | 青岛海信移动通信技术股份有限公司 | 一种基于语音的智能响应方法及装置 |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
WO2021248916A1 (zh) * | 2020-06-09 | 2021-12-16 | 深圳大学 | 一种基于智能声学设备的步态识别与情绪感知方法和系统 |
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN114360584A (zh) * | 2021-12-02 | 2022-04-15 | 华南理工大学 | 一种基于音素级的语音情感分层式识别方法及系统 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4085130B2 (ja) * | 2006-06-23 | 2008-05-14 | 松下電器産業株式会社 | 感情認識装置 |
KR101173944B1 (ko) * | 2008-12-01 | 2012-08-20 | 한국전자통신연구원 | 차량 운전자의 감성 조절 시스템 및 방법 |
CN109448751B (zh) * | 2018-12-29 | 2021-03-23 | 中国科学院声学研究所 | 一种基于深度学习的双耳语音增强方法 |
CN110097894B (zh) * | 2019-05-21 | 2021-06-11 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
CN112216307B (zh) * | 2019-07-12 | 2023-05-16 | 华为技术有限公司 | 语音情感识别方法以及装置 |
WO2021127998A1 (zh) * | 2019-12-24 | 2021-07-01 | 广州国音智能科技有限公司 | 一种声纹鉴定方法和相关装置 |
CN111523389A (zh) * | 2020-03-25 | 2020-08-11 | 中国平安人寿保险股份有限公司 | 情绪智能识别方法、装置、电子设备及存储介质 |
CN111696579B (zh) * | 2020-06-17 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种语音情感识别方法、装置、设备和计算机存储介质 |
CN111789577B (zh) * | 2020-07-15 | 2023-09-19 | 天津大学 | 基于cqt和stft深度语谱特征鼾声分类方法及系统 |
CN111968679B (zh) * | 2020-10-22 | 2021-01-29 | 深圳追一科技有限公司 | 情感识别方法、装置、电子设备及存储介质 |
CN112765323B (zh) * | 2021-01-24 | 2021-08-17 | 中国电子科技集团公司第十五研究所 | 基于多模态特征提取与融合的语音情感识别方法 |
CN113035227B (zh) * | 2021-03-12 | 2022-02-11 | 山东大学 | 一种多模态语音分离方法及系统 |
CN112712824B (zh) * | 2021-03-26 | 2021-06-29 | 之江实验室 | 一种融合人群信息的语音情感识别方法和系统 |
CN114387997B (zh) * | 2022-01-21 | 2024-03-29 | 合肥工业大学 | 一种基于深度学习的语音情感识别方法 |
-
2022
- 2022-04-28 CN CN202210454745.XA patent/CN114566189B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
CN110896422A (zh) * | 2018-09-07 | 2020-03-20 | 青岛海信移动通信技术股份有限公司 | 一种基于语音的智能响应方法及装置 |
WO2021248916A1 (zh) * | 2020-06-09 | 2021-12-16 | 深圳大学 | 一种基于智能声学设备的步态识别与情绪感知方法和系统 |
US11281945B1 (en) * | 2021-02-26 | 2022-03-22 | Institute Of Automation, Chinese Academy Of Sciences | Multimodal dimensional emotion recognition method |
CN113643723A (zh) * | 2021-06-29 | 2021-11-12 | 重庆邮电大学 | 一种基于注意力CNN Bi-GRU融合视觉信息的语音情感识别方法 |
CN114360584A (zh) * | 2021-12-02 | 2022-04-15 | 华南理工大学 | 一种基于音素级的语音情感分层式识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于深度卷积网络和谱图的语音情感识别;张家铭等;《长春理工大学学报(自然科学版)》;20200215(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114566189A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Song | English speech recognition based on deep learning with multiple features | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
WO2018227781A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN114420169B (zh) | 情绪识别方法、装置及机器人 | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Londhe et al. | Machine learning paradigms for speech recognition of an Indian dialect | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
Wang et al. | A research on HMM based speech recognition in spoken English | |
Sen et al. | A convolutional neural network based approach to recognize bangla spoken digits from speech signal | |
Singh et al. | An efficient algorithm for recognition of emotions from speaker and language independent speech using deep learning | |
Bhatia et al. | Convolutional Neural Network Based Real Time Arabic Speech Recognition to Arabic Braille for Hearing and Visually Impaired | |
Radha et al. | Speech and speaker recognition using raw waveform modeling for adult and children’s speech: A comprehensive review | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
Kethireddy et al. | Deep neural architectures for dialect classification with single frequency filtering and zero-time windowing feature representations | |
Fan et al. | CNN-based audio front end processing on speech recognition | |
Mendiratta et al. | A robust isolated automatic speech recognition system using machine learning techniques | |
Tashakori et al. | Designing the Intelligent System Detecting a Sense of Wonder in English Speech Signal Using Fuzzy-Nervous Inference-Adaptive system (ANFIS) | |
CN116013371A (zh) | 一种神经退行性疾病监测方法、系统、装置及存储介质 | |
CN112700796B (zh) | 一种基于交互式注意力模型的语音情感识别方法 | |
Zheng et al. | A two-channel speech emotion recognition model based on raw stacked waveform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |