CN111243621A - 一种用于合成语音检测的gru-svm深度学习模型的构造方法 - Google Patents

一种用于合成语音检测的gru-svm深度学习模型的构造方法 Download PDF

Info

Publication number
CN111243621A
CN111243621A CN202010034132.1A CN202010034132A CN111243621A CN 111243621 A CN111243621 A CN 111243621A CN 202010034132 A CN202010034132 A CN 202010034132A CN 111243621 A CN111243621 A CN 111243621A
Authority
CN
China
Prior art keywords
gru
svm
speech
deep learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010034132.1A
Other languages
English (en)
Inventor
王宏霞
黄婷
何沛松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202010034132.1A priority Critical patent/CN111243621A/zh
Publication of CN111243621A publication Critical patent/CN111243621A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明公开了一种用于合成语音检测的GRU‑SVM深度学习模型的构造方法,包括步骤:提取训练语音每一帧的特征参数;构造训练语音的特征矩阵;构造GRU‑SVM深度学习模型;对GRU‑SVM深度学习模型进行softmax的回归。门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用,本发明提出的GRU‑SVM深度学习模型能进一步提高合成语音的检测率。

Description

一种用于合成语音检测的GRU-SVM深度学习模型的构造方法
技术领域
本发明涉及语音取证技术领域,特别是一种用于合成语音检测的GRU-SVM深度学习模型的构造方法。
背景技术
随着人工智能时代的到来,人与人的交流方式逐渐多样化。数字音频作为最常用的交流媒介应用于日常工作和学习中。通过各种移动设备,人们可以完成对音频的传输和接收来完成信息交换。与此同时,语音合成技术的不断发展。语音合成技术,即将任意文本转换成语音的技术。该技术如果结合深度学习方法的合成技术能够很容易地合成出与某个目标说话人相同说话特征的语音。目前许多识别技术都不能识别出这类合成语音与真实说话人说出的自然语音,并容易将合成的语音认作自然语音,从而发生验证错误。若犯罪分子将该技术应用到实际场景中,将造成人员伤害与经济损失。为了解决这一问题人们提出了自动说话人验证系统,通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定,是一种对收到的说话人语音信号进行分析和提取,自动地确定说话人是否在所建立的说话人集合里面,并确定说话人是谁的过程。
文献“Speaker verification using Gaussian mixture model”(Jagtap,S.S.,Bhalke,D.G,International Conference on Pervasive Computing,pp.1–5,2015)提出了一种主流的机器学习分类器,该分类器使用高斯混合模型(GMM)进行特征分类。文献“Artificial neural networks as speech recognisers for dysarthric speech”(Shahamiri,S.R.,Salim,S.S.B.,Advanced Engineering Informatics 28(1),102-110,2014),Shahamiri等人已经成功地将基于人工神经网络(ANN)的分类算法应用于语音识别。以GMM为代表的机器学习分类器的平均识别错误率始终保持在1%左右。基于神经网络模型的分类检测算法在检测已知攻击时表现较好,但在检测为止攻击时表现稍差。
发明内容
本发明的目的是提供一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,以进一步提高合成语音检测的准确性。
实现本发明目的的技术方案为:
一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,包括:
步骤一:提取训练语音每一帧的特征参数,包括
1.1将训练语音解码后进行预处理,所述预处理包括预加重、分帧和加窗;
1.2通过快速傅里叶变换,将时域信号转换为频域信号,再取模后平方得到谱线能量;
1.3放入m维的Mel滤波器组,计算出通过Mel滤波器的能量;
1.4取对数倒谱后DCT变换,得到MFCC特征;
1.5提取MFCC特征的一阶差分系数ΔMFCC,与MFCC特征组成2m维特征参数CC,
CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
其中,Cm表示第m维Mel滤波器输出的MFCC特征,ΔCm表示第m维ΔMFCC;
步骤二:构造训练语音的特征矩阵,包括
2.1将每一个训练语音的所有帧的2m维特征参数CC构成一个特征矩阵;其中,帧数最大的那个训练语音的特征矩阵为L行2m列,L为其帧数;
2.2将帧数小于L的训练语音的特征矩阵,进行补0操作,使其特征矩阵为L行2m列;
步骤三:构造GRU-SVM深度学习模型,包括
3.1将每一个训练语音的特征序列(x1,x2...xt-1,xt)输入到具有3层隐藏层的GRU神经网络,依次计算相应的隐藏层,得到输出向量(y1,y2,...yt-1,yt);所述训练语音的特征序列(x1,x2...xt-1,xt)中,x1为训练语音的特征矩阵的第一行,x2为训练语音的特征矩阵的第二行,…,xt为训练语音的特征矩阵的第L行;
3.2将GRU的输出向量(y1,y2,...yt-1,yt)的yt输入到SVM,完成SVM回归,得到GRU-SVM深度学习模型;
步骤四:对GRU-SVM深度学习模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,并通过最小化损失的方法进行优化,得到优化后的GRU-SVM深度学习模型。
选择合适的分类器从语音特征中学习相关信息是一个关键的问题,门控循环单元(GRU)神经网络用于克服循环神经网络(RNN)学习信息长期依赖时产生的梯度消失和爆炸问题。结合支持向量机(SVM)在softmax层进行分类之前起回归作用,本发明提出的GRU-SVM深度学习模型能进一步提高合成语音的检测率。
附图说明
图1为说话人识别系统流程图。
图2为GRU-SVM原理图。
图3为MFCC语音特征流程图。
图4为MFCC特征矩阵。
图5为训练过程中的预测准确率与损失率。
具体实施方式
典型的自动说话人识别系统主要包括语音预处理、特征提取、使用分类器训练出模型并识别检测的过程,如图1。
本发明利用基于GRU的模型能从大量语音功能中提取有用特征信息的方法,设计了一种GRU-SVM模型来检测合成语音的算法。在GRU的隐藏层输出数据之后,SVM在进行回归,softmax函数输出最终分类结果。本发明包括语音特征提取和GRU-SVM合成语音检测算法分类结果两个部分。
语音特征提取部分,主要步骤如下:
利用倒谱特征来进行说话人识别是目前最流行的方法之一,Mel频率倒谱分析是基于人的听觉机理,是常用的说话人识别并且优于其他倒谱系数的特征。MFCC先将线性频谱映射到基于听觉感知的Mel非线性频谱上,再转换到倒谱上。MFCC特征参数提取原理框图如图3所示。
步骤1:将语音编码解码后的每一帧数据进行预处理,预处理包括预加重、分帧、加窗等步骤。经过预处理后得到信号xi,每一帧信号进行快速傅里叶变换,此步将时域信号转换为频域信号,再将其取模后平方得到谱线能量;然后放入20维(取20维时效果好)的Mel滤波器组,计算出通过Mel滤波器的能量,滤波器输出能量后再取对数倒谱后DCT变换,输出MFCC。输出的MFCC特征可由公式(1)表示:
Figure BDA0002365411060000031
公式(1)中,S(i,m)是Mel滤波器能量;m是指第m个Mel滤波器;i是指第i帧;n是DCT后的谱线。
步骤2:由于语音信号是时域连续的,分帧提取的特征信息只反映了本帧语音的特性,为了使特征更能体现时域连续性,可以在特征维度中增加前后帧信息的维度,本发明提取了MFCC的一阶差分系数ΔMFCC。
提取MFCC与ΔMFCC组成的40维特征参数形式:
CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)} (2)
CC表示本发明提取的特征参数;m是指第m个Mel滤波器,本发明中m=20。
步骤3:将所有语音通过叠加的方式组合形成一个L*40维的语音特征矩阵,L是所有训练音频样本中的最大帧长,40是MFCC特征维度。根据上述所得到的语音特征矩阵,进行GRU-SVM模型,特征输入需要进行处理。
对于得到的语音矩阵进行调整,如果音频样本中有样本的帧长短于L帧,将为该音频特征矩阵提供补0的操作。确保每个特征都是同样大小的矩阵。如图4所示。
通过上述所获特征集进行GRU-SVM深度学习模型生成,步骤如下:
步骤1:构建训练集(Xt)使用输入为批次和分帧数量(序列号),通过GRU的门控机制学习特征参数。输入特征序列(x1,x2...xt-1,xt),GRU计算相应的隐藏层(h1,h2...ht-1,ht),并输出向量(y1,y2,...yt-1,yt),门控机制由以下函数实现。
zt=σ(Wz·[ht-1,xt]) (3)
ut=σ(Wr·[ht-1,xt]) (4)
Figure BDA0002365411060000041
重置门,更新门和隐藏状态分别为等式(3),(4)和(5)。其中σ(·)是Sigmoid函数。Wz是重置门的矩阵权重,Wr是更新门的矩阵权重,zt表示重置门,ut表示更新门。由此可构建GRU神经网络架构,本算法采用3层隐藏GRU神经网络层。
由于相对于LSTM的输入门,遗忘门,输出门,GRU的门函数比LSTM少,所以这里取神经网络输出的最后一层的输出。
步骤2:使用SVM模型接收上一步的输出,使用下面公式完成SVM回归,得到预测值模型。
Figure BDA0002365411060000042
Figure BDA0002365411060000043
其中,w,bi为SVM回归的权重和偏置参数。
Figure BDA0002365411060000044
是SVM回归后的向量,y(i)是GRU训练后的输出向量。C是根据SVM核函数确定的常数(C>0),N模型迭代的次数根据神经网络的情况确定,L是损失函数值。
步骤3:对预测模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,进行优化。(在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。)
为了验证所提出模型的性能,我们使用了LJ语音数据集。该数据集是一个公共领域的语音数据集,由来自单个发言人的13,100个简短音频片段组成,每个剪辑的长度从1到10秒不等,总长度约为24小时。另外关于合成语音数据库,我们使用了WaveGlow,一种基于流的可以从梅尔谱图生成高质量语音的网络,并且由于能够从Mel频谱图生成高质量语音。WaveGlow将Glow与WaveNet相结合,以提供快速,高效和高质量的音频合成,不需要使用自回归。WaveGlow训练过程简单而稳定。
在实验中,自然语音样本和合成语音样本的采样频率均为22.05kHz,均为标准单声道。我们使用python和tensorflow来提供所有模型并调整超参数。表1显示了实验环境的详细构造。
表1实验网络参数
Figure BDA0002365411060000051
在定义实验网络的超参数后,我们从两个数据库中一共选取16000个语音样本作为训练样本,并将其放入所提出的GRU-SVM网络训练方法中,然后保存训练好的模型。最后,从数据库中剩余的语音中选择8000个语音样本作为测试样本进行测试。
1.本发明方法的效果可以用过一些性能指标表现,主要包括:检测率(Accuracy)表示正负样本被正确分类的比例,虚警率(False alarm)(FPR)表示负类样本被分为正类样本在所有负类样本中的比例。漏警率(Missing alarm)(FNR)表示表示正类样本被分为负类样本在所有正类样本中的比例。
Figure BDA0002365411060000052
Figure BDA0002365411060000053
Figure BDA0002365411060000054
TP表示阳性样本具有正确的分类。TN表示分类正确的阴性样品。FP表示分类错误的阳性样本,FN表示分类错误的阴性样本。通常,检测率越高,FPR和FNR得分越低,分类器效果越好。
2.本发明报告了不同训练模型的检测率,如表2所示。在我们开发的数据库中,GRU网络和GRU-SVM网络的性能表现始终比以上的其他网络更出色。这表明我们基于GRU的模型更适用于合成语音检测。与其他方法相比,GRU-SVM模型的性能更好。平均检测率是指自然语音和合成语音的平均检测值,GRU-SVM为99.63%,GRU是99.55%,LSTM是99.28%,RNN是50.11%,线性SVM是97.40%。SVM在分类方面也具有良好的性能,这是由于SVM中具有核函数,对于线性不可分的数据具有强大的分类能力。随着时间步长的增加,RNN无法再连接特征信息,存在梯度爆炸的问题。所以RNN几乎将所有测试样本错误地分类为自然语音,这就是为什么RNN是自然语音中最好的。另外,因为合成语音是使用Mel频谱图功能合成的,这使得合成语音的特征比自然语音的更加有规律。虽然LSTM在检测合成语音方面是最好的,但在检测自然语音方面却不如GRU和GRU-SVM有效。在表3中也看到了相同的问题,除去RNN,GRU-SVM在众模型中,虚警率中表现最好。除LSTM外,GRU-SVM在漏检率这个指标中表现也最好。
3.图5(a)和图5(b)所示的是训练过程中的准确率和损失率,我们进一步将GRU和GRU-SVM进行比较。我们选择前4,000次迭代并进行统计。对于训练过程中的准确率如图5(a),GRU-SVM比GRU早达到峰值,且GRU-SVM收敛过程更稳定。对于损失率,如图5(b)中所示,GRU-SVM也比GRU先到最低点,且GRU损失率的范围变化较大,尤其是在2000至2500次迭代之间。结果证明,GRU-SVM的收敛速度比GRU快。以上实验结果表明,该方法在合成语音检测中是可行和有效的。在GRU输出的隐藏层之后,SVM执行回归以控制特定特征空间中的整个特征数据,从而增强了特征并促进了后续分类。这是GRU-SVM模型成功的主要原因。
表2不同模型的准确率(%)
Figure BDA0002365411060000061
表3不同模型的虚警率与漏检率(%)
Figure BDA0002365411060000062

Claims (1)

1.一种用于合成语音检测的GRU-SVM深度学习模型的构造方法,其特征在于,包括:
步骤一:提取训练语音每一帧的特征参数,包括
1.1将训练语音解码后进行预处理,所述预处理包括预加重、分帧和加窗;
1.2通过快速傅里叶变换,将时域信号转换为频域信号,再取模后平方得到谱线能量;
1.3放入m维的Mel滤波器组,计算出通过Mel滤波器的能量;
1.4取对数倒谱后DCT变换,得到MFCC特征;
1.5提取MFCC特征的一阶差分系数ΔMFCC,与MFCC特征组成2m维特征参数CC,CC={(C1,C2,...Cm),(ΔC1,ΔC2,...ΔCm)},
其中,Cm表示第m维Mel滤波器输出的MFCC特征,ΔCm表示第m维ΔMFCC;
步骤二:构造训练语音的特征矩阵,包括
2.1将每一个训练语音的所有帧的2m维特征参数CC构成一个特征矩阵;其中,帧数最大的那个训练语音的特征矩阵为L行2m列,L为其帧数;
2.2将帧数小于L的训练语音的特征矩阵,进行补0操作,使其特征矩阵为L行2m列;
步骤三:构造GRU-SVM深度学习模型,包括
3.1将每一个训练语音的特征序列(x1,x2...xt-1,xt)输入到具有3层隐藏层的GRU神经网络,依次计算相应的隐藏层,得到输出向量(y1,y2,...yt-1,yt);所述训练语音的特征序列(x1,x2...xt-1,xt)中,x1为训练语音的特征矩阵的第一行,x2为训练语音的特征矩阵的第二行,…,xt为训练语音的特征矩阵的第L行;
3.2将GRU的输出向量(y1,y2,...yt-1,yt)的yt输入到SVM,完成SVM回归,得到GRU-SVM深度学习模型;
步骤四:对GRU-SVM深度学习模型进行softmax的回归,对回归后的输出进行交叉熵损失的计算,并通过最小化损失的方法进行优化,得到优化后的GRU-SVM深度学习模型。
CN202010034132.1A 2020-01-14 2020-01-14 一种用于合成语音检测的gru-svm深度学习模型的构造方法 Pending CN111243621A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010034132.1A CN111243621A (zh) 2020-01-14 2020-01-14 一种用于合成语音检测的gru-svm深度学习模型的构造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010034132.1A CN111243621A (zh) 2020-01-14 2020-01-14 一种用于合成语音检测的gru-svm深度学习模型的构造方法

Publications (1)

Publication Number Publication Date
CN111243621A true CN111243621A (zh) 2020-06-05

Family

ID=70877797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010034132.1A Pending CN111243621A (zh) 2020-01-14 2020-01-14 一种用于合成语音检测的gru-svm深度学习模型的构造方法

Country Status (1)

Country Link
CN (1) CN111243621A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113098707A (zh) * 2021-03-16 2021-07-09 重庆邮电大学 边缘网络中一种虚拟网络功能需求预测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20170200451A1 (en) * 2014-07-04 2017-07-13 Intel Corporation Replay attack detection in automatic speaker verification systems
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN109767776A (zh) * 2019-01-14 2019-05-17 广东技术师范学院 一种基于密集神经网络的欺骗语音检测方法
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170200451A1 (en) * 2014-07-04 2017-07-13 Intel Corporation Replay attack detection in automatic speaker verification systems
CN105869630A (zh) * 2016-06-27 2016-08-17 上海交通大学 基于深度学习的说话人语音欺骗攻击检测方法及系统
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions
CN109767776A (zh) * 2019-01-14 2019-05-17 广东技术师范学院 一种基于密集神经网络的欺骗语音检测方法
CN110491391A (zh) * 2019-07-02 2019-11-22 厦门大学 一种基于深度神经网络的欺骗语音检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
AGARAP A F M: ""A Neural Network Architecture Combining Gated Recurrent Unit (GRU) and Support Vector Machine (SVM) for Intrusion Detection in Network Traffic Data"", 《ICMLC》 *
ALALSHEKMUBARAK A: ""A novel approach combining recurrent neural network and support vector machines for time series classification"", 《 INNOVATIONS IN INFORMATION TECHNOLOGY 》 *
SOORA N R: ""A neural network model for attacker detection using GRU and modified kernel of SVM"", 《INTERNATIONAL JOURNAL OF RECENT TECHNOLOGY AND ENGINEERING》 *
ZHUXIN CHEN: ""recurrent neural networks for automatic replay spoofing attack detection"", 《ICASSP》 *
李山路: ""重录语音检测算法"", 《信号处理》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112185417A (zh) * 2020-10-21 2021-01-05 平安科技(深圳)有限公司 人工合成语音检测方法、装置、计算机设备及存储介质
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法
CN113098707A (zh) * 2021-03-16 2021-07-09 重庆邮电大学 边缘网络中一种虚拟网络功能需求预测方法
CN113098707B (zh) * 2021-03-16 2022-05-03 重庆邮电大学 边缘网络中一种虚拟网络功能需求预测方法

Similar Documents

Publication Publication Date Title
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110491416B (zh) 一种基于lstm和sae的电话语音情感分析与识别方法
EP3719798B1 (en) Voiceprint recognition method and device based on memorability bottleneck feature
WO2019232829A1 (zh) 声纹识别方法、装置、计算机设备及存储介质
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
Deshwal et al. A language identification system using hybrid features and back-propagation neural network
CN102968990B (zh) 说话人识别方法和系统
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Poorjam et al. Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals
Todkar et al. Speaker recognition techniques: A review
Omar et al. Training Universal Background Models for Speaker Recognition.
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Lei et al. Speaker recognition using wavelet cepstral coefficient, i-vector, and cosine distance scoring and its application for forensics
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Abdiche et al. Text-independent speaker identification using mel-frequency energy coefficients and convolutional neural networks
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法
CN113450830A (zh) 具有多重注意机制的卷积循环神经网络的语音情感识别方法
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.
Dong et al. Application of voiceprint recognition based on improved ecapa-tdnn
Srinivas LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system
Sharma et al. Text-independent speaker identification using backpropagation MLP network classifier for a closed set of speakers
Xu et al. Speech feature extraction based on linear prediction residual

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200605

WD01 Invention patent application deemed withdrawn after publication