CN113488069A - 基于生成式对抗网络的语音高维特征快速提取方法和装置 - Google Patents
基于生成式对抗网络的语音高维特征快速提取方法和装置 Download PDFInfo
- Publication number
- CN113488069A CN113488069A CN202110761504.5A CN202110761504A CN113488069A CN 113488069 A CN113488069 A CN 113488069A CN 202110761504 A CN202110761504 A CN 202110761504A CN 113488069 A CN113488069 A CN 113488069A
- Authority
- CN
- China
- Prior art keywords
- voice
- dimensional
- network
- features
- generator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000000605 extraction Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 8
- 239000000284 extract Substances 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000015654 memory Effects 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 230000003213 activating effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000013507 mapping Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013256 Gubra-Amylin NASH model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于生成式对抗网络的语音高维特征快速提取方法和装置,包括:获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。该方法能够实现声音序列语音高维特征的高效提取。
Description
技术领域
本发明属于数据处理领域,具体涉及一种基于生成式对抗网络的语音高维特征快速提取方法和装置。
背景技术
MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)是声音处理领域最常见的声音特征,它是根据人的听觉机理发现的特征参数,与频率成非线性对应关系。MFCC系数较好地模拟了人耳听觉系统感知信号的能力,具有鲁棒性强、识别率高的特点,广泛应用于语音处理系统中。
深度学习以其优越的性能被广泛应用于图像分类、目标检测、生物信息、语音识别、自然语言处理等众多领域。部分研究者将深度学习应用于语音特征的提取,并取得了一定的成果。卷积神经网络(CNN)、循环神经网络(RNN)以及长短期记忆网络(LSTM)均可以被应用于语音特征提取。
作为近年来深度学习领域中一种较为先进的技术,生成式对抗网络(GAN)凭借着其优良的学习映射关系的能力在许多领域中取得了良好的结果,如图片合成、图片补全、文本生成和视频生成等应用。生成式对抗网络包括了两个深度模型结构:生成器模型和判别器模型。对于某种给定的信息,生成器模型可以通过一定的映射关系将该信息映射到某一特征空间中;判别器模型主要是对生成数据和真实数据进行真假判断。目前,已有将生成式对抗网络技术应用于语音合成、语音增强任务中,并取得较好结果。
尽管现有特征提取方法能达到较好的效果,但它们仍存在以下缺点和不足:(1)在语音特征提取过程中存在的普适性差,效率低和鲁棒性不强而无法适应实际场景下快速稳定准确提取高维特征。(2)直接通过深度学习模型提取MFCC特征可以实现端到端的特征提取,这简化了特征提取的步骤,但是目前的深度学习模型无法很好的拟合MFCC特征,同时也对于模型的训练成本和数据本身提出了更高的要求,在实际应用中也难以实现。
发明内容
鉴于上述,本发明提供了一种基于生成式对抗网络的语音高维特征快速提取方法和装置,通过充分利用生成式对抗网络的特征学习能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。
实施例提供的一种基于生成式对抗网络的语音高维特征快速提取方法,包括以下步骤:
获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;
构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;
利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。
优选地,所述语音信号的MFCC的提取过程包括:
对语音信号进行预加重、加窗分帧预处理后;对预处理后的语音信号进行离散傅里叶变换得到离散谱;将离散谱输入至Mel滤波器组,取对数后得到对数频谱;将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC。
优选地,所述生成器包括二维卷积层、池化层。
优选地,所述判别器为二分类器,包括至少2层全连接层,激活函数采用softmax函数。
优选地,所述分类器包括二维卷积层,池化层和全连接层和残差卷积块。
优选地,在训练生成式对抗网络时,首先,固定生成器网络参数,采用交叉熵损失函数优化判别器网络参数;然后,固定判别器网络参数,采用交叉熵损失函数优化生成器网络参数;最后,固定生成器网络参数和判别器网络参数,采用交叉熵损失函数优化分类器网络参数。
第二方面,实施例提供的一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,所述处理器执行所述计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。
上述实施例提供的技术方案,具有的有益效果至少包括:
利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取,极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明,该方法和装置具有良好的适用性和准确率,对语音信号的特征有良好的提取效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图;
图2是实施例提供的基于生成式对抗网络的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是实施例提供的基于生成式对抗网络的语音高维特征快速提取方法的流程图;图2是实施例提供的基于生成式对抗网络的结构示意图。如图1和图2所示,实施例提供的基于生成式对抗网络的语音高维特征快速提取方法,主要技术构思为:搭建生成式对抗网络,利用其优秀的特征抽取能力提取语音信号的时序特征。交替训练生成器、判别器和分类器,使其达到最终的优化目标。在实现高效特征提取的同时,保证特征类标的准确性,使其能被分类器正确识别。具体包括以下步骤:
步骤1,构建训练数据集。
实施例中,获取语音信号,采用数据增强技术对语音信号增加各类实际场景下的模拟噪声,以构建数据池。数据池的构建可以通过以下公式表示:
Xn=X+noise(X)n,n∈N
其中,X表示输入的语音信号,noise(·)表示噪声添加函数,用于向输入语音信号中添加实际场景下的模拟噪声,N表示构建的实际场景下的模拟噪声的种类。数据池的数据经过生成器以提取高维特征。
实施例中,从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征。MFCC通过手动的方式进行特征提取,特征提取的过程如下:
(a)对语音信号进行预加重、加窗分帧预处理。
预加重由传递函数为H(Z)=1-αz-1的一阶高通数字滤波器来实现,其中α为预加重系数,0.9<a<1.0。设n时刻的语音采样值为x(n),经过预加重处理后的结果为y(n)=x(n)-ax(n-1)。
语音信号的加窗分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33-100帧。一般的分帧方法为交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0-0.5。本项目中采用汉明窗,具体公式为:
(b)对预处理后的语音信号进行离散傅里叶变换(DFT)变换得到离散谱。离散傅里叶变换过程表示为:
其中,N为帧长。
(c)将离散谱输入至Mel滤波器组,取对数后得到对数频谱如下:
其中,Hm(k)为带通滤波器。
(d)将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC如下:
将得到的MFCC特征与基频特征F0进行融合以生成级联特征,具体公式如下:
XMFCC=Concat(MFCC,F0)
Concat函数表示对矩阵的最后一维进行拼接操作。
步骤2,构建GAN模型。
实施例中,GAN模型包括生成器G、判别器D和分类器。其中,生成器主要由二维卷积层和池化层构成。它的输入为添加噪声的语音数据,输出为重构后接近真实样本分布的高维特征。利用tfleran中的库函数搭建卷积神经网络。conv_2d表示二维卷积网络,nb_filter表示卷积核的数量,filter_size表示卷积核的大小,max_pool_2d表示二维最大池化层,dropout表示抑制该层部分神经元的输出。
判别器是个二分类器,主要由三层全连接层构成,它需要判别语音数据是否符合MFCC音频特征的数据分布。因此判别器的输入为重构后的MFCC特征和原始MFCC特征,输出为0和1。其中0表示重构的特征分布不符合MFCC特征,1表示生成器的重构特征为真实特征。全连接层采用softmax函数作为激活函数,将每个元素取指数后进行归一化,最后输出模型的置信度。
分类器的主要由二维卷积层,池化层和全连接层和残差卷积块构成。分类器的输入为语音特征,输出语音的分类类标。
步骤3,交替训练生成器G和判别器D。
实施例中,采用数据池以及MFCC和F0的级联特征训练生成式对抗网络以实现高维特征的提取。对于上述生成式对抗网络的训练,生成器和判别器的训练交替进行,具体步骤如下:
判别器的输入为MFCC与基频的级联特征和重构的高维特征,用于判断重构的高维特征的分布是否属于声学特征。训练特征判别模型D参数的具体过程为:固定生成器G的参数,将生成器G输出的重构MFCC特征输入到判别器D,将得到的输出与0进行交叉熵计算损失;将原始MFCC特征输入到判别器D,将得到的输出与1进行交叉熵计算损失。该过程的优化目标为:
生成器的输入为语音信号,生成器直接对输入的语音信号提取高维的声学特征,输出为重构后的高维特征。训练生成器G的参数的具体过程为:固定D的参数,将原始语音信号输入生成器G,将重构后的特征输入到特征判别器D,得到的输出与1进行交叉熵计算损失,通过最小化上述损失反馈训练GAN-G的参数。
该过程的优化目标为:
分类器的损失函数定义为:
利用生成的训练数据集对GAN模型进行训练,在训练完成后用测试集进行测试,统计分类器的测试精度,即分类器对原特征和重构后特征分类精度,以及生成器对MFCC特征的处理效果,若经过生成器处理后的MFCC特征能够被语音识别分类器模型正确识别,则认为生成器的这次处理是有效的。若分类器的分类精度和生成器的处理效果达不到预设标准,则更改模型的参数继续训练模型。重复交替训练G和D,直到特征提取模型G和特征判别模型D实现纳什均衡,或者达到预设的迭代次数。实现纳什均衡的时候有:
通过判别器D与生成器G两者的对抗训练,实现上述的优化目标,使得生成器G产生的重构后的MFCC特征更加接近原始特征的分布,即实现了在最大程度保留原始信号特征的基础上进行特征提取和重构,同时使能被分类器正确识别。
步骤4,利用参数确定的生成器来进行语音高维特征快速提取。
当训练结束后,将语音信号输入至参数确定的生成器,进行语音高维特征快速提取。
实施例还提供了一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在存储器中并可在处理器上执行的计算机程序,处理器执行计算机程序时实现上述基于生成式对抗网络的语音高维特征快速提取方法。
上述实施例提供的基于生成式对抗网络的语音高维特征快速提取方法和装置,利用生成式对抗网络优良的学习映射关系的能力对于语音信号进行特征抽取,实现针对声音序列语音高维特征的高效提取,极大地提高了特征有效利用率和声纹识别的效率。通过数据增强技术,模仿实际场景下可能产生的噪声对数据进行增强,从而实现对高维特征快速稳定的提取。在数据集上的实验结果表明,该算法具有良好的适用性和准确率,对语音信号的特征有良好的提取效果。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,包括以下步骤:
获取语音信号,采用数据增强技术对语音信号增加模拟噪声,以构建数据池;从语音信号中提取MFCC,提取的MFCC与基频特征叠加形成级联特征;
构建包含生成器、判别器以及分类器的生成式对抗网络,其中生成器对输入语音信号进行高维特征提取,判别器对输入的级联特征和提取的高维特征进行特征真伪分辨,分类器对输入的高维特征进行语音分类;
利用数据池中的语音信号对生成式对抗网络进行训练以优化网络参数,提取参数确定的生成器用于语音高维特征快速提取。
2.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述语音信号的MFCC的提取过程包括:
对语音信号进行预加重、加窗分帧预处理后;对预处理后的语音信号进行DFT变换得到离散谱;将离散谱输入至Mel滤波器组,取对数后得到对数频谱;将对数频谱经过离散余弦变换到倒频谱域,得到的MFCC。
3.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述生成器包括二维卷积层、池化层。
4.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述判别器为二分类器,包括至少2层全连接层,激活函数采用softmax函数。
5.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,所述分类器包括二维卷积层,池化层和全连接层和残差卷积块。
6.如权利要求1所述的基于生成式对抗网络的语音高维特征快速提取方法,其特征在于,在训练生成式对抗网络时,首先,固定生成器网络参数,采用交叉熵损失函数优化判别器网络参数;然后,固定判别器网络参数,采用交叉熵损失函数优化生成器网络参数;最后,固定生成器网络参数和判别器网络参数,采用交叉熵损失函数优化分类器网络参数。
7.一种基于生成式对抗网络的语音高维特征快速提取装置,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~6任一项所述的基于生成式对抗网络的语音高维特征快速提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761504.5A CN113488069B (zh) | 2021-07-06 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110761504.5A CN113488069B (zh) | 2021-07-06 | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113488069A true CN113488069A (zh) | 2021-10-08 |
CN113488069B CN113488069B (zh) | 2024-05-24 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765962A (zh) * | 2023-09-28 | 2024-03-26 | 青岛科技大学 | 一种海洋哺乳动物叫声数据增强方法 |
CN117765962B (zh) * | 2023-09-28 | 2024-05-24 | 青岛科技大学 | 一种海洋哺乳动物叫声数据增强方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN110827809A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院声学研究所 | 一种基于条件生成式对抗网络的语种识别分类方法 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
US20200184053A1 (en) * | 2018-12-05 | 2020-06-11 | Bank Of America Corporation | Generative adversarial network training and feature extraction for biometric authentication |
CN111312285A (zh) * | 2020-01-14 | 2020-06-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种开头爆音检测方法及装置 |
CN111540367A (zh) * | 2020-04-17 | 2020-08-14 | 合肥讯飞数码科技有限公司 | 语音特征提取方法、装置、电子设备和存储介质 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
CN112133293A (zh) * | 2019-11-04 | 2020-12-25 | 重庆邮电大学 | 基于生成对抗网络的短语音样本补偿方法及存储介质 |
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019171415A1 (en) * | 2018-03-05 | 2019-09-12 | Nec Corporation | Speech feature compensation apparatus, method, and program |
CN110827809A (zh) * | 2018-08-13 | 2020-02-21 | 中国科学院声学研究所 | 一种基于条件生成式对抗网络的语种识别分类方法 |
US20200184053A1 (en) * | 2018-12-05 | 2020-06-11 | Bank Of America Corporation | Generative adversarial network training and feature extraction for biometric authentication |
CN112133293A (zh) * | 2019-11-04 | 2020-12-25 | 重庆邮电大学 | 基于生成对抗网络的短语音样本补偿方法及存储介质 |
CN111128197A (zh) * | 2019-12-25 | 2020-05-08 | 北京邮电大学 | 基于声纹特征与生成对抗学习的多说话人语音分离方法 |
CN111312285A (zh) * | 2020-01-14 | 2020-06-19 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种开头爆音检测方法及装置 |
CN111583935A (zh) * | 2020-04-02 | 2020-08-25 | 深圳壹账通智能科技有限公司 | 贷款智能进件方法、装置及存储介质 |
CN111540367A (zh) * | 2020-04-17 | 2020-08-14 | 合肥讯飞数码科技有限公司 | 语音特征提取方法、装置、电子设备和存储介质 |
CN111798874A (zh) * | 2020-06-24 | 2020-10-20 | 西北师范大学 | 一种语音情绪识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
夏文心: "人工智能识别主持人语音情感", 文化产业, vol. 33, pages 10 - 11 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117765962A (zh) * | 2023-09-28 | 2024-03-26 | 青岛科技大学 | 一种海洋哺乳动物叫声数据增强方法 |
CN117765962B (zh) * | 2023-09-28 | 2024-05-24 | 青岛科技大学 | 一种海洋哺乳动物叫声数据增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
WO2021139294A1 (zh) | 语音分离模型训练方法、装置、存储介质和计算机设备 | |
CN105023573B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN115862684A (zh) | 一种基于音频的双模式融合型神经网络的抑郁状态辅助检测的方法 | |
CN111653267A (zh) | 一种基于时延神经网络的快速语种识别方法 | |
CN111402922B (zh) | 基于小样本的音频信号分类方法、装置、设备及存储介质 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
Cheng et al. | DNN-based speech enhancement with self-attention on feature dimension | |
Zheng et al. | MSRANet: Learning discriminative embeddings for speaker verification via channel and spatial attention mechanism in alterable scenarios | |
Sun et al. | A novel convolutional neural network voiceprint recognition method based on improved pooling method and dropout idea | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN113129908B (zh) | 基于循环帧级特征融合的端到端猕猴声纹验证方法及系统 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN113257279A (zh) | 一种基于gtcn的实时语音情感识别方法及应用装置 | |
CN112052880A (zh) | 一种基于更新权值支持向量机的水声目标识别方法 | |
CN115472168B (zh) | 耦合bgcc和pwpe特征的短时语音声纹识别方法、系统及设备 | |
CN116682463A (zh) | 一种多模态情感识别方法及系统 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN111785262B (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
CN112735477B (zh) | 语音情感分析方法和装置 | |
CN115035887A (zh) | 语音信号的处理方法、装置、设备及介质 | |
CN113488069A (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |