CN114898778A - 基于注意力时频网络的语音情感识别方法及系统 - Google Patents

基于注意力时频网络的语音情感识别方法及系统 Download PDF

Info

Publication number
CN114898778A
CN114898778A CN202210534999.2A CN202210534999A CN114898778A CN 114898778 A CN114898778 A CN 114898778A CN 202210534999 A CN202210534999 A CN 202210534999A CN 114898778 A CN114898778 A CN 114898778A
Authority
CN
China
Prior art keywords
attention
frequency
emotion
time
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210534999.2A
Other languages
English (en)
Inventor
郑文明
路成
宗源
李溯南
连海伦
唐传高
赵焱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN202210534999.2A priority Critical patent/CN114898778A/zh
Publication of CN114898778A publication Critical patent/CN114898778A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于注意力时频网络的语音情感识别方法及系统,本发明首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好,然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性,本发明识别效果更好、识别率更高。

Description

基于注意力时频网络的语音情感识别方法及系统
技术领域
本发明涉及语音处理技术领域,尤其是一种基于注意力时频网络的语音情感识别方法及系统。
背景技术
语音情感识别的目的是使机器通过语音信号判别人类所处情感状态(如惊恐、快乐、悲伤等),已成为情感计算、人机交互等领域的研究热点。国内外许多研究机构(如美国MIT媒体实验室、英国帝国理工学院GLAM实验室、中科院自动化所等)均致力于语音情感识别研究,并开始尝试应用于教育、医疗等领域。
目前语音情感识别技术的难点在于由于语音数据易受到环境噪声、说话人、语种、录制设备等因素差异的影响,使得语音中情感特征的分布存在显著差异从而造成情感信息的表征异常困难,严重制约语音情感识别方法的泛化性能,为鲁棒语音情感识别带来了巨大的挑战。语音信号的时频特性对于语音情感的表征具有重大意义,因此如何挖掘语音的频域和时域信息用于情感特征的提取是鲁棒语音情感识别亟需突破的关键技术难题
发明内容
本发明所要解决的技术问题在于,提供一种基于注意力时频网络的语音情感识别方法及系统,识别效果更好、识别率更高。
为解决上述技术问题,本发明提供一种基于注意力时频网络的语音情感识别方法,包括如下步骤:
(1)获取若干情感语音样本,进行短时离散傅里叶变换获得频谱特征,作为网络的输入;
(2)将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征;
(3)将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征;
(4)对时频语音情感特征经过情感分类器进行分类;
(5)对基于注意力的频域编码器、基于注意力的时域编码器和情感分类器进行联合训练,得到最优模型参数;
(6)将待识别的情感语音样本输入训练好的基于注意力的频域编码器、基于注意力的时域编码器和情感分类器,得到识别出的语音情感。
优选的,步骤(1)中,对干净的语音信号进行短时离散傅里叶变换获得频谱特征,作为网络的输入具体包括如下步骤:
(1-1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作;
(1-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;
(1-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
优选的,步骤(2)中,将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征具体包括如下步骤:
(2-1)将训练样本的对数梅尔频谱特征输入频域注意力网络得到频域注意力af
(2-2)将频域注意力af与频域特征x做广播乘积后与原频域特征按通道加权后求均值得到加权频域特征x′;
(2-3)频域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模块均包含一个卷积模块操作,乘积模块包含一个广播乘积操作,求和模块包含一个加法操作。
优选的,步骤(3)中,将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征,具体包括如下步骤:
(3-1)将训练样本的对数梅尔频谱特征输入时域注意力网络得到时域注意力at
(3-2)将时域注意力at与时域特征x′做广播乘积后与原时域特征按通道加权后求均值得到加权时域特征,即时频特征x″;
(3-3)时域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模块均包含一个卷积模块操作,乘积模块包含一个广播乘积操作,求和模块包含一个加法操作。
优选的,步骤(4)中,对时频特征经过情感判别器进行分类具体包括如下步骤:
(4-1)对时频特征x″经过情感判别器进行情感分类;
(4-2)情感判别器为一个二层的全连接网络,其隐节点维度分别为512、情感类别数c。
相应的,一种基于注意力时频网络的语音情感识别系统,包括:
特征提取模块,用于提取语音样本的对数梅尔频谱特征;
频域注意力模块,用于计算梅尔特征的频域注意力;
频域编码器模块,用于对频域注意力加强后的梅尔特征进行频域编码;
时域注意力模块,用于计算梅尔特征的时域注意力;
时域编码器模块,用于对时域注意力加强后的频域特征进行时域编码;
情感分类器模块,用于对时频特征进行情感类别分类;
注意力的时频网络训练模块,用于建立由频域注意力网络、频域编码器网络、时域注意力网络、时域编码器网络、情感分类网络合并而成的时频联合学习网络,将每路对应特征作为输入,对注意力时频网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的注意力时频网络,得到识别出的语音情感。
优选的,特征提取模块具体包括:分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征。
优选的,频域注意力模块具体包括:频域注意力计算单元,用于获取所述语音样本梅尔特征的频域注意力;频域注意力广播乘积单元,用于获取所述语音样本的频域注意特征。频域编码器模块具体包括:频域特征通道加权平均单元,用于对所述语音样本的频域注意力加权特征;频域编码单元,用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。
优选的,时域注意力模块具体包括:时域注意力计算单元,用于获取所述语音样本梅尔特征的时域注意力;时域注意力广播乘积单元,用于获取所述语音样本的时域注意特征。时域编码器模块具体包括:时域特征通道加权平均单元,用于对所述语音样本的时域注意力加权特征;时域编码单元,用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征,即时频特征。
优选的,情感分类器模块具体包括:情感特征映射单元,用于对所述语音样本的高层特征进行情感特征空间映射;情感特征分类单元,用于对所述语音样本的情感特征进行分类预测。
本发明的有益效果为:本发明首先通过样本特征提取模块获取的对数梅尔频谱特征鲁棒性更好,然后通过时频注意力网络和编码器获得具有与异常噪声(如背景噪声、说话人身份、语种等)无关但与情感有关的泛化性的特征,最后利用情感分类器模块进一步增强获得特征的情感判别性和与噪声无关的泛化性,本发明识别效果更好、识别率更高。
附图说明
图1为本发明的方法流程示意图。
图2为本发明与其他方法在IEMOCAP数据集下的实验结果对比示意图。
图3为本发明与其他方法在ABC数据集下的实验结果对比示意图。
图4为本发明在IEMOCAP数据集下的归一化混淆矩阵。
图5为本发明在ABC数据集下的归一化混淆矩阵。
具体实施方式
如图1所示,一种基于注意力时频网络的语音情感识别方法,包括如下步骤:
(1)获取情感语音样本,进行短时离散傅里叶变换获得频谱特征,作为网络输入。
该步骤具体包括:(1-1)对去噪处理后的语音信号进行预加重、分帧、加窗等预处理操作;(1-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;(2-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
本实施例中,分帧、加窗、短时离散傅里叶变换以及梅尔滤波器组均采用Librosa开源语音信号处理库,该处理库采用Hamming窗,窗长25ms,帧间重叠率50%,fft点数512,梅尔滤波器80个。
(2)将训练样本的对数梅尔谱特征输入基于基于注意力的频域编码器获得加权频域语音情感特征。
该步骤具体包括:(2-1)将训练样本输入频域注意力网络;(2-2)频域注意力网络包含一个卷积模块和一个广播乘积模块,其中每个卷积模块均包含1D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)三个操作,广播乘积模块包含一个广播乘积操作;(2-3)将频域注意力af与频域特征x做广播乘积得到
Figure BDA0003647444990000041
(2-4)再将x与原特征x按通道相加后平均输入至频域编码器得到增强的频域特征x′;
本实施例中卷积的尺寸分别为(1,5,8),频域注意力的卷积尺寸(1,5),通道数为8;频域编码器的卷积个数为2,卷尺尺寸均为(1,5),通道数为32和8。
(3)加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征。
该步骤具体包括:(3-1)将训练样本输入时域注意力网络;(3-2)时域注意力网络包含一个卷积模块和一个广播乘积模块,其中每个卷积模块均包含1D卷积、批归一化(Batch Normalization)、线性激活函数(ReLU)三个操作,广播乘积模块包含一个广播乘积操作;(3-3)将时域注意力at与频域特征x做广播乘积得到
Figure BDA0003647444990000051
(3-4)再将
Figure BDA0003647444990000052
与频域特征x′按通道相加后平均输入至时域编码器得到增强的时域特征,即时频特征x″。
本实施例中卷积的尺寸分别为(1,8,8),时域注意力的卷积尺寸(1,5),通道数为8;时域域编码器是双向LSTM,隐节点数为512。
(4)对时频特征经过情感分类器进行分类。
该步骤具体包括:(6-1)对源域的高层特征Gs经过情感判别器进行情感分类;(6-2)情感判别器为一个二层的全连接网络,其隐节点维度分别为512、情感类别数c。
本实施例中,根据具体数据库的不同情感类别c的设置为:IEMOCAP的情感类别c为4,ABC的情感类别c为6。
(5)对频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器进行联合训练,得到最优模型参数。
本实施例中,频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器均采用随机梯度下降方法。
(6)将待识别的情感语音样本输入训练好的频域注意力网络、频域编码器、时域注意力网络、时域编码器、情感分类器,得到识别出的语音情感。
其中,在训练好神经网络后进行测试,测试结果如下:
为验证本发明的注意力时频网络的有效性与必要性,在IEMOCAP和ABC数据集上进行了实验,选取加权平均召回率(WAR)和不加权平均召回率(UAR)作为评价指标,结果如图2和图3所示,可以观察到本发明的注意力时频网络在两个数据集上均取得了最好的效果。为避免由于数据集中各类情绪样本数量不平衡导致的识别率无法完全客观地评价模型的问题,我们对于注意力时频网络在两个数据集上的结果计算了归一化混淆矩阵,如图4和图5所示。
本实施例还提供了一种基于注意力时频网络的语音情感识别系统,包括:
特征提取模块,用于提取语音样本的对数梅尔频谱特征;
频域注意力模块,用于计算梅尔特征的频域注意力;
频域编码器模块,用于对频域注意力加强后的梅尔特征进行频域编码;
时域注意力模块,用于计算梅尔特征的时域注意力;
时域编码器模块,用于对时域注意力加强后的频域特征进行时域编码;
情感分类器模块,用于对时频特征进行情感类别分类;
注意力的时频网络训练模块,用于建立由频域注意力网络、频域编码器网络、时域注意力网络、时域编码器网络、情感分类网络合并而成的时频联合学习网络,将每路对应特征作为输入,对注意力时频网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的注意力时频网络,得到识别出的语音情感。
其中,特征提取模块具体包括:
分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;
频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;
对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征。
其中,频域注意力模块具体包括:
频域注意力计算单元,用于获取所述语音样本梅尔特征的频域注意力;
频域注意力广播乘积单元,用于获取所述语音样本的频域注意特征。
其中,频域编码器模块具体包括:
频域特征通道加权平均单元,用于对所述语音样本的频域注意力加权特征;
频域编码单元,用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。
其中,时域注意力模块具体包括:
时域注意力计算单元,用于获取所述语音样本梅尔特征的时域注意力;
时域注意力广播乘积单元,用于获取所述语音样本的时域注意特征。
其中,时域编码器模块具体包括:
时域特征通道加权平均单元,用于对所述语音样本的时域注意力加权特征;
时域编码单元,用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征,即时频特征。
其中,情感分类器模块具体包括:
情感特征映射单元,用于对所述语音样本的高层特征进行情感特征空间映射;
情感特征分类单元,用于对所述语音样本的情感特征进行分类预测。

Claims (10)

1.基于注意力时频网络的语音情感识别方法,其特征在于,包括如下步骤:
(1)获取若干情感语音样本,进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征,作为网络的输入;
(2)将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征;
(3)将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征;
(4)对时频语音情感特征经过情感分类器进行分类;
(5)对基于注意力的频域编码器、基于注意力的时域编码器和情感分类器进行联合训练,得到最优模型参数;
(6)将待识别的情感语音样本输入训练好的基于注意力的频域编码器、基于注意力的时域编码器和情感分类器,得到识别出的语音情感。
2.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(1)中,对干净的语音信号进行短时离散傅里叶变换后再经梅尔滤波器组后取对数获得对数梅尔频谱特征,作为网络的输入具体包括如下步骤:
(1-1)对去噪处理后的语音信号进行预加重、分帧、加窗预处理操作;
(1-2)对预处理后的语音信号进行短时离散傅里叶变换得到频谱;
(1-3)对频谱通过多个梅尔滤波器组进行梅尔尺度缩放后去对数,得到对数梅尔频谱特征作为网络的输入。
3.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(2)中,将训练样本的对数梅尔频谱特征输入基于注意力的频域编码器获得加权频域语音情感特征具体包括如下步骤:
(2-1)将训练样本的对数梅尔频谱特征输入频域注意力网络得到频域注意力af
(2-2)将频域注意力af与频域特征x做广播乘积后与原频域特征按通道加权后求均值得到加权频域特征x′;
(2-3)频域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模块均包含一个卷积模块操作,乘积模块包含一个广播乘积操作,求和模块包含一个加法操作。
4.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(3)中,将加权频域语音情感特征输入基于注意力的时域编码器获得加权时域语音情感特征,即时频语音情感特征,具体包括如下步骤:
(3-1)将训练样本的对数梅尔频谱特征输入时域注意力网络得到时域注意力at
(3-2)将时域注意力at与时域特征x′做广播乘积后与原时域特征按通道加权后求均值得到加权时域特征,即时频特征x″;
(3-3)时域注意力网络包含一个卷积模块、一个乘积模块和一个求和模块,其中卷积模块均包含一个卷积模块操作,乘积模块包含一个广播乘积操作,求和模块包含一个加法操作。
5.如权利要求1所述的基于注意力时频网络的语音情感识别方法,其特征在于,步骤(4)中,对时频特征经过情感判别器进行分类具体包括如下步骤:
(4-1)对时频特征x″经过情感判别器进行情感分类;
(4-2)情感判别器为一个二层的全连接网络,其隐节点维度分别为512、情感类别数c。
6.如权利要求1所述的基于注意力时频网络的语音情感识别方法的识别系统,其特征在于,包括:
特征提取模块,用于提取语音样本的对数梅尔频谱特征;
频域注意力模块,用于计算梅尔特征的频域注意力;
频域编码器模块,用于对频域注意力加强后的梅尔特征进行频域编码;
时域注意力模块,用于计算梅尔特征的时域注意力;
时域编码器模块,用于对时域注意力加强后的频域特征进行时域编码;
情感分类器模块,用于对时频特征进行情感类别分类;
注意力的时频网络训练模块,用于建立由频域注意力网络、频域编码器网络、时域注意力网络、时域编码器网络、情感分类网络合并而成的时频联合学习网络,将每路对应特征作为输入,对注意力时频网络进行训练;
语音情感识别模块,用于将待识别的语音样本输入训练好的注意力时频网络,得到识别出的语音情感。
7.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统,其特征在于,特征提取模块具体包括:分帧加窗单元,用于将所述干净的语音信号进行分帧、加窗操作;频谱提取单元,用于对分帧加窗后的语音信号进行短时离散傅里叶变换提取频谱;对数梅尔谱提取单元,用于对提取的频谱进行梅尔尺度滤波和求对数操作,得到对数梅尔频谱特征。
8.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统,其特征在于,频域注意力模块具体包括:频域注意力计算单元,用于获取所述语音样本梅尔特征的频域注意力;频域注意力广播乘积单元,用于获取所述语音样本的频域注意特征。频域编码器模块具体包括:频域特征通道加权平均单元,用于对所述语音样本的频域注意力加权特征;频域编码单元,用于对所述频域注意力加权特征进行频域特征编码得到增强频域特征。
9.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统,其特征在于,时域注意力模块具体包括:时域注意力计算单元,用于获取所述语音样本梅尔特征的时域注意力;时域注意力广播乘积单元,用于获取所述语音样本的时域注意特征。时域编码器模块具体包括:时域特征通道加权平均单元,用于对所述语音样本的时域注意力加权特征;时域编码单元,用于对所述时域注意力加权特征进行时域特征编码得到增强时域特征,即时频特征。
10.如权利要求6所述的基于注意力时频网络的语音情感识别方法的识别系统,其特征在于,情感分类器模块具体包括:情感特征映射单元,用于对所述语音样本的高层特征进行情感特征空间映射;情感特征分类单元,用于对所述语音样本的情感特征进行分类预测。
CN202210534999.2A 2022-05-17 2022-05-17 基于注意力时频网络的语音情感识别方法及系统 Pending CN114898778A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534999.2A CN114898778A (zh) 2022-05-17 2022-05-17 基于注意力时频网络的语音情感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534999.2A CN114898778A (zh) 2022-05-17 2022-05-17 基于注意力时频网络的语音情感识别方法及系统

Publications (1)

Publication Number Publication Date
CN114898778A true CN114898778A (zh) 2022-08-12

Family

ID=82724431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534999.2A Pending CN114898778A (zh) 2022-05-17 2022-05-17 基于注意力时频网络的语音情感识别方法及系统

Country Status (1)

Country Link
CN (1) CN114898778A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631410A (zh) * 2023-07-25 2023-08-22 北京安吉贝玛健康科技有限公司 一种基于深度学习的语音识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116631410A (zh) * 2023-07-25 2023-08-22 北京安吉贝玛健康科技有限公司 一种基于深度学习的语音识别方法
CN116631410B (zh) * 2023-07-25 2023-10-24 陈志丰 一种基于深度学习的语音识别方法

Similar Documents

Publication Publication Date Title
Ayvaz et al. Automatic Speaker Recognition Using Mel-Frequency Cepstral Coefficients Through Machine Learning.
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
AU2006302549A1 (en) Neural network classifier for seperating audio sources from a monophonic audio signal
Mulimani et al. Segmentation and characterization of acoustic event spectrograms using singular value decomposition
Mesgarani et al. Speech discrimination based on multiscale spectro-temporal modulations
Chaki Pattern analysis based acoustic signal processing: a survey of the state-of-art
CN106531174A (zh) 基于小波包分解和声谱图特征的动物声音识别方法
Lei et al. Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics
CN113555038B (zh) 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN114898778A (zh) 基于注意力时频网络的语音情感识别方法及系统
Saleem et al. Spoofed voice detection using dense features of stft and mdct spectrograms
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN110246509A (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
CN117275524A (zh) 一种基于时频Transformer的语音情感识别方法及系统
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN104134443B (zh) 对称三进制串表示的语音感知哈希序列构造和认证方法
Song et al. Automatic vocal segments detection in popular music
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
Qamhan et al. Transformer for authenticating the source microphone in digital audio forensics
CN111524523A (zh) 基于声纹识别技术的仪器设备状态检测系统及其方法
Bora et al. Speaker identification for biometric access control using hybrid features
Rudramurthy et al. Speaker identification using empirical mode decomposition-based voice activity detection algorithm under realistic conditions
Guntur Feature extraction algorithms for speaker recognition system and fuzzy logic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination