CN113488069A - 基于生成式对抗网络的语音高维特征快速提取方法和装置 - Google Patents

基于生成式对抗网络的语音高维特征快速提取方法和装置 Download PDF

Info

Publication number
CN113488069A
CN113488069A CN202110761504.5A CN202110761504A CN113488069A CN 113488069 A CN113488069 A CN 113488069A CN 202110761504 A CN202110761504 A CN 202110761504A CN 113488069 A CN113488069 A CN 113488069A
Authority
CN
China
Prior art keywords
voice
dimensional
network
features
generator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110761504.5A
Other languages
English (en)
Other versions
CN113488069B (zh
Inventor
陈晋音
陈若曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110761504.5A priority Critical patent/CN113488069B/zh
Priority claimed from CN202110761504.5A external-priority patent/CN113488069B/zh
Publication of CN113488069A publication Critical patent/CN113488069A/zh
Application granted granted Critical
Publication of CN113488069B publication Critical patent/CN113488069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于生成式对抗网络的语音高维特征快速提取方法和装置,包括:获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。该方法能够实现声音序列语音高维特征的高效提取。

Description

基于生成式对抗网络的语音高维特征快速提取方法和装置
技术领域
本发明属于数据处理领域,具体涉及一种基于生成式对抗网络的语音高维特征快速提取方法和装置。
背景技术
MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)是声音处理领域最常见的声音特征,它是根据人的听觉机理发现的特征参数,与频率成非线性对应关系。MFCC系数较好地模拟了人耳听觉系统感知信号的能力,具有鲁棒性强、识别率高的特点,广泛应用于语音处理系统中。
深度学习以其优越的性能被广泛应用于图像分类、目标检测、生物信息、语音识别、自然语言处理等众多领域。部分研究者将深度学习应用于语音特征的提取,并取得了一定的成果。卷积神经网络(CNN)、循环神经网络(RNN)以及长短期记忆网络(LSTM)均可以被应用于语音特征提取。
作为近年来深度学习领域中一种较为先进的技术,生成式对抗网络(GAN)凭借着其优良的学习映射关系的能力在许多领域中取得了良好的结果,如图片合成、图片补全、文本生成和视频生成等应用。生成式对抗网络包括了两个深度模型结构:生成器模型和判别器模型。对于某种给定的信息,生成器模型可以通过一定的映射关系将该信息映射到某一特征空间中;判别器模型主要是对生成数据和真实数据进行真假判断。目前,已有将生成式对抗网络技术应用于语音合成、语音增强任务中,并取得较好结果。
尽管现有特征提取方法能达到较好的效果,但它们仍存在以下缺点和不足:(1)在语音特征提取过程中存在的普适性差,效率低和鲁棒性不强而无法适应实际场景下快速稳定准确提取高维特征。(2)直接通过深度学习模型提取MFCC特征可以实现端到端的特征提取,这简化了特征提取的步骤,但是目前的深度学习模型无法很好的拟合MFCC特征,同时也对于模型的训练成本和数据本身提出了更高的要求,在实际应用中也难以实现。
发明内容
鉴于上述,本发明提供了一种基于生成式对抗网络的语音高维特征快速提取方法和装置,通过充分利用生成式对抗网络的特征学习能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。
实施例提供的一种基于生成式对抗网络的语音高维特征快速提取方法,包括以下步骤:
获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;
构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;
利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。
优选地,所述语音信号的MFCC的提取过程包括:
对语音信号进行预加重、加窗分帧预处理后;对预处理后的语音信号进行离散傅里叶变换得到离散谱;将离散谱输入至Mel滤波器组,取对数后得到对数频谱;将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC。
优选地,所述生成器包括二维卷积层、池化层。
优选地,所述判别器为二分类器,包括至少2层全连接层,激活函数采用softmax函数。
优选地,所述分类器包括二维卷积层,池化层和全连接层和残差卷积块。
优选地,在训练生成式对抗网络时,首先,固定生成器网络参数,采用交叉熵损失函数优化判别器网络参数;然后,固定判别器网络参数,采用交叉熵损失函数优化生成器网络参数;最后,固定生成器网络参数和判别器网络参数,采用交叉熵损失函数优化分类器网络参数。
第二方面,实施例提供的一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。
上述实施例提供的技术方案,具有的有益效果至少包括:
利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取,极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明,该方法和装置具有良好的适用性和准确率,对语音信号的特征有良好的提取效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图;
图2是实施例提供的基于生成式对抗网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图;图2是实施例提供的基于生成式对抗网络的结构示意图。如图1和图2所示,实施例提供的基于生成式对抗网络的语音高维特征快速提取方法,主要技术构思为:搭建生成式对抗网络,利用其优秀的特征抽取能力提取语音信号的时序特征。交替训练生成器、判别器和分类器,使其达到最终的优化目标。在实现高效特征提取的同时,保证特征类标的准确性,使其能被分类器正确识别。具体包括以下步骤:
步骤1,构建训练数据集。
实施例中,获取语音信号,采用数据增强技术对语音信号增加各类实际场景下的模拟噪声,以构建数据池。数据池的构建可以通过以下公式表示:
Xn=X+noise(X)n,n∈N
其中,X表示输入的语音信号,noise(·)表示噪声添加函数,用于向输入语音信号中添加实际场景下的模拟噪声,N表示构建的实际场景下的模拟噪声的种类。数据池的数据经过生成器以提取高维特征。
实施例中,从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征。MFCC通过手动的方式进行特征提取,特征提取的过程如下:
(a)对语音信号进行预加重、加窗分帧预处理。
预加重由传递函数为H(Z)=1-αz-1的一阶高通数字滤波器来实现,其中α为预加重系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1)。
语音信号的加窗分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33-100帧。一般的分帧方法为交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0-0.5。本项目中采用汉明窗,具体公式为:
Figure BDA0003150013070000051
(b)对预处理后的语音信号进行离散傅里叶变换(DFT)变换得到离散谱。离散傅里叶变换过程表示为:
Figure BDA0003150013070000052
其中,N为帧长。
(c)将离散谱输入至Mel滤波器组,取对数后得到对数频谱如下:
Figure BDA0003150013070000061
其中,Hm(k)为带通滤波器。
(d)将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC如下:
Figure BDA0003150013070000062
将得到的MFCC特征与基频特征F0进行融合以生成级联特征,具体公式如下:
XMFCC=Concat(MFCC,F0)
Concat函数表示对矩阵的最后一维进行拼接操作。
步骤2,构建GAN模型。
实施例中,GAN模型包括生成器G、判别器D和分类器。其中,生成器主要由二维卷积层和池化层构成。它的输入为添加噪声的语音数据,输出为重构后接近真实样本分布的高维特征。利用tfleran中的库函数搭建卷积神经网络。conv_2d表示二维卷积网络,nb_filter表示卷积核的数量,filter_size表示卷积核的大小,max_pool_2d表示二维最大池化层,dropout表示抑制该层部分神经元的输出。
判别器是个二分类器,主要由三层全连接层构成,它需要判别语音数据是否符合MFCC音频特征的数据分布。因此判别器的输入为重构后的MFCC特征和原始MFCC特征,输出为0和1。其中0表示重构的特征分布不符合MFCC特征,1表示生成器的重构特征为真实特征。全连接层采用softmax函数作为激活函数,将每个元素取指数后进行归一化,最后输出模型的置信度。
分类器的主要由二维卷积层,池化层和全连接层和残差卷积块构成。分类器的输入为语音特征,输出语音的分类类标。
步骤3,交替训练生成器G和判别器D。
实施例中,采用数据池以及MFCC和F0的级联特征训练生成式对抗网络以实现高维特征的提取。对于上述生成式对抗网络的训练,生成器和判别器的训练交替进行,具体步骤如下:
判别器的输入为MFCC与基频的级联特征和重构的高维特征,用于判断重构的高维特征的分布是否属于声学特征。训练特征判别模型D参数的具体过程为:固定生成器G的参数,将生成器G输出的重构MFCC特征输入到判别器D,将得到的输出与0进行交叉熵计算损失;将原始MFCC特征输入到判别器D,将得到的输出与1进行交叉熵计算损失。该过程的优化目标为:
Figure BDA0003150013070000071
其中,x~pdata(xMFCC)表示x采样自MFCC特征xMFCC
Figure BDA0003150013070000072
表示x采样自重构后的MFCC特征,G(·)表示生成器G的输出,D(·)表示判别器D的输出。
生成器的输入为语音信号,生成器直接对输入的语音信号提取高维的声学特征,输出为重构后的高维特征。训练生成器G的参数的具体过程为:固定D的参数,将原始语音信号输入生成器G,将重构后的特征输入到特征判别器D,得到的输出与1进行交叉熵计算损失,通过最小化上述损失反馈训练GAN-G的参数。
该过程的优化目标为:
Figure BDA0003150013070000073
其中,
Figure BDA0003150013070000081
表示x采样自重构后的MFCC特征。
分类器的损失函数定义为:
Figure BDA0003150013070000082
其中,CE表示交叉熵,y为语音信号x的真实类标,
Figure BDA0003150013070000083
为语音x对应的重构MFCC特征,C(·)表示分类器函数。
利用生成的训练数据集对GAN模型进行训练,在训练完成后用测试集进行测试,统计分类器的测试精度,即分类器对原特征和重构后特征分类精度,以及生成器对MFCC特征的处理效果,若经过生成器处理后的MFCC特征能够被语音识别分类器模型正确识别,则认为生成器的这次处理是有效的。若分类器的分类精度和生成器的处理效果达不到预设标准,则更改模型的参数继续训练模型。重复交替训练G和D,直到特征提取模型G和特征判别模型D实现纳什均衡,或者达到预设的迭代次数。实现纳什均衡的时候有:
Figure BDA0003150013070000084
通过判别器D与生成器G两者的对抗训练,实现上述的优化目标,使得生成器G产生的重构后的MFCC特征更加接近原始特征的分布,即实现了在最大程度保留原始信号特征的基础上进行特征提取和重构,同时使能被分类器正确识别。
步骤4,利用参数确定的生成器来进行语音高维特征快速提取。
当训练结束后,将语音信号输入至参数确定的生成器,进行语音高维特征快速提取。
实施例还提供了一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。
上述实施例提供的基于生成式对抗网络的语音高维特征快速提取方法和装置,利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取,极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明,该算法具有良好的适用性和准确率,对语音信号的特征有良好的提取效果。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,包括以下步骤:
获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;
构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;
利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。
2.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述语音信号的MFCC的提取过程包括:
对语音信号进行预加重、加窗分帧预处理后;对预处理后的语音信号进行DFT变换得到离散谱;将离散谱输入至Mel滤波器组,取对数后得到对数频谱;将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC。
3.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述生成器包括二维卷积层、池化层。
4.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述判别器为二分类器,包括至少2层全连接层,激活函数采用softmax函数。
5.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述分类器包括二维卷积层,池化层和全连接层和残差卷积块。
6.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,在训练生成式对抗网络时,首先,固定生成器网络参数,采用交叉熵损失函数优化判别器网络参数;然后,固定判别器网络参数,采用交叉熵损失函数优化生成器网络参数;最后,固定生成器网络参数和判别器网络参数,采用交叉熵损失函数优化分类器网络参数。
7.一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的基于生成式对抗网络的语音高维特征快速提取方法。
CN202110761504.5A 2021-07-06 基于生成式对抗网络的语音高维特征快速提取方法和装置 Active CN113488069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110761504.5A CN113488069B (zh) 2021-07-06 基于生成式对抗网络的语音高维特征快速提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110761504.5A CN113488069B (zh) 2021-07-06 基于生成式对抗网络的语音高维特征快速提取方法和装置

Publications (2)

Publication Number Publication Date
CN113488069A true CN113488069A (zh) 2021-10-08
CN113488069B CN113488069B (zh) 2024-05-24

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765962A (zh) * 2023-09-28 2024-03-26 青岛科技大学 一种海洋哺乳动物叫声数据增强方法
CN117765962B (zh) * 2023-09-28 2024-05-24 青岛科技大学 一种海洋哺乳动物叫声数据增强方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
US20200184053A1 (en) * 2018-12-05 2020-06-11 Bank Of America Corporation Generative adversarial network training and feature extraction for biometric authentication
CN111312285A (zh) * 2020-01-14 2020-06-19 腾讯音乐娱乐科技(深圳)有限公司 一种开头爆音检测方法及装置
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111583935A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 贷款智能进件方法、装置及存储介质
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统
CN112133293A (zh) * 2019-11-04 2020-12-25 重庆邮电大学 基于生成对抗网络的短语音样本补偿方法及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019171415A1 (en) * 2018-03-05 2019-09-12 Nec Corporation Speech feature compensation apparatus, method, and program
CN110827809A (zh) * 2018-08-13 2020-02-21 中国科学院声学研究所 一种基于条件生成式对抗网络的语种识别分类方法
US20200184053A1 (en) * 2018-12-05 2020-06-11 Bank Of America Corporation Generative adversarial network training and feature extraction for biometric authentication
CN112133293A (zh) * 2019-11-04 2020-12-25 重庆邮电大学 基于生成对抗网络的短语音样本补偿方法及存储介质
CN111128197A (zh) * 2019-12-25 2020-05-08 北京邮电大学 基于声纹特征与生成对抗学习的多说话人语音分离方法
CN111312285A (zh) * 2020-01-14 2020-06-19 腾讯音乐娱乐科技(深圳)有限公司 一种开头爆音检测方法及装置
CN111583935A (zh) * 2020-04-02 2020-08-25 深圳壹账通智能科技有限公司 贷款智能进件方法、装置及存储介质
CN111540367A (zh) * 2020-04-17 2020-08-14 合肥讯飞数码科技有限公司 语音特征提取方法、装置、电子设备和存储介质
CN111798874A (zh) * 2020-06-24 2020-10-20 西北师范大学 一种语音情绪识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
夏文心: "人工智能识别主持人语音情感", 文化产业, vol. 33, pages 10 - 11 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117765962A (zh) * 2023-09-28 2024-03-26 青岛科技大学 一种海洋哺乳动物叫声数据增强方法
CN117765962B (zh) * 2023-09-28 2024-05-24 青岛科技大学 一种海洋哺乳动物叫声数据增强方法

Similar Documents

Publication Publication Date Title
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
WO2021139294A1 (zh) 语音分离模型训练方法、装置、存储介质和计算机设备
CN105023573B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN111899757A (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN115862684A (zh) 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法
CN111653267A (zh) 一种基于时延神经网络的快速语种识别方法
CN111402922B (zh) 基于小样本的音频信号分类方法、装置、设备及存储介质
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Cheng et al. DNN-based speech enhancement with self-attention on feature dimension
Zheng et al. MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios
Sun et al. A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN113129908B (zh) 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN113257279A (zh) 一种基于gtcn的实时语音情感识别方法及应用装置
CN112052880A (zh) 一种基于更新权值支持向量机的水声目标识别方法
CN115472168B (zh) 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备
CN116682463A (zh) 一种多模态情感识别方法及系统
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN112735477B (zh) 语音情感分析方法和装置
CN115035887A (zh) 语音信号的处理方法、装置、设备及介质
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant