CN109637545A - 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 - Google Patents

基于一维卷积非对称双向长短时记忆网络的声纹识别方法 Download PDF

Info

Publication number
CN109637545A
CN109637545A CN201910045664.2A CN201910045664A CN109637545A CN 109637545 A CN109637545 A CN 109637545A CN 201910045664 A CN201910045664 A CN 201910045664A CN 109637545 A CN109637545 A CN 109637545A
Authority
CN
China
Prior art keywords
lstm
voice
term
short
vocal print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910045664.2A
Other languages
English (en)
Other versions
CN109637545B (zh
Inventor
王兴梅
薛复昭
刘安华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910045664.2A priority Critical patent/CN109637545B/zh
Publication of CN109637545A publication Critical patent/CN109637545A/zh
Application granted granted Critical
Publication of CN109637545B publication Critical patent/CN109637545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

基于一维卷积非对称双向长短时记忆网络的声纹识别方法,属于声纹识别技术领域。本发明首先对原始语音信号进行预处理;构建非对称双向长短时记忆网络ABLSTM模型,以7:3的比例分配正向传播的LSTM和反向传播的LSTM的隐藏层神经元个数和输出层权重,使识别结果更大程度取决于正向传播的LSTM,提高声纹识别的精度;采用1DCNN进行声纹特征提取,利用最大池化操作减少特征参数,保留特征语音的声纹特征,并采用Leaky ReLU激活函数处理特征提取结果;采用提取同一时刻的声纹特征作为提出的非对称双向长短时记忆网络模型一个时间步的输入,利用归一化指数函数实现较精确的声纹识别。本发明方法训练速度较快,能更好的提高声纹识别的正确率,有一定的有效性。

Description

基于一维卷积非对称双向长短时记忆网络的声纹识别方法
技术领域
本发明属于声纹识别技术领域,具体涉及基于一维卷积非对称双向长短时记忆网络的声纹识别方法。
背景技术
近年来随着移动互联网的蓬勃发展,生物识别技术由于其安全性、稳定性和不可替代性,越来越受到重视。与其他生物识别技术相比,声纹识别技术能够进行远程认证,使用成本低且易用性高。现如今,声纹识别技术有着广泛的应用领域,如军事安全、信息安全、司法鉴定、语音拨号、电话银行等,无论是在军事上还是民用上都有着重要的现实意义。因此,国内外学者对声纹识别进行了深入的分析研究。其中在已有的文献中最著名和效果最好的声纹识别方法主要包括:1.基于概率线性鉴别分析模型的文本无关声纹识别:2017年Khosravani A,Homayounpour M M.A PLDA approach for language and textindependent speaker recognition.Computer Speech&Language,2017,45(5):457-474.提出利用来自双语使用者的多语种数据训练概率线性鉴别分析模型,从而实现文本无关的多语言声纹识别,实验取得了较高的识别正确率。2.基于课程学习的声纹识别鲁棒性研究:2018年Ranjan S,Hansen J H L,Ranjan S,et al.Curriculum Learning BasedApproaches for Noise Robust Speaker Recognition.IEEE/ACM Transactions onAudio Speech&Language Processing,2017,16(1):197-210.提出使用课程学习的训练方法,由易到难逐步训练概率线性鉴别分析模型,相比传统概率线性鉴别分析算法能取得更强的鲁棒性。3.基于受限玻尔兹曼机向量表示的声纹识别方法:2018年Ghahabi O,Hernando J.Restricted Boltzmann machines for vector representation of speechin speaker recognition.Computer Speech&Language,2018,47(1):16-29.提出通过受限玻尔兹曼机在高斯混合模型生成的超向量中提取全体说话人和回话变量,最后使用不同激活函数训练受限玻尔兹曼机,并利用不同变化函数提取目的向量,在保证良好识别效果的同时,降低了计算复杂度。4.基于梅尔倒谱系数和高斯混合模型的声纹识别方法:2018年Speaker Recognition for Hindi Speech Signal using MFCC-GMM Approach.ProcediaComputer Science,2018,125(3):880-887.提出通过梅尔倒谱系数提取特征,使用矢量量化方法和高斯混合模型分别进行文本相关和文本无关的声纹识别,得到了较高的识别正确率。5.基于声音补偿梅尔倒谱系数特征提取的声纹识别方法:2018年Jokinen E,Saeidi R,Kinnunen T,et al.Vocal effort compensation for MFCC feature extraction in ashouted versus normal speaker recognition task.Computer Speech&Language,2019,53(3):1-11.提出在声纹识别的特征提取阶段,使用高斯混合模型得到补偿滤波器,修改梅尔倒谱系数计算链的全极点功率谱,修改呼喊语音的频谱包络,使呼喊语音接近于正常语音,取得了较高的识别正确率。
传统声纹识别方法是采取不同的提取特征方法来完成声纹识别任务,但特定的某种特征提取方法在提取声纹特征的同时,也会造成一定的特征损失,不能充分利用到语音的全部信息,影响识别的正确率。近年来,随着深度学习技术的蓬勃发展,国内外学者对其在声纹识别、语音识别等领域进行了深入的分析研究,取得了显著的效果。其中在已有的文献中最著名和效果最好的方法主要包括:1.基于最大输出神经元的CNN和LSTM的语音识别:2016年Cai M,Liu J.Maxout neurons for deep convolutional and LSTM neuralnetworks in speech recognition.Speech Communication,2016,77(2):53-64.提出将Maxout神经元用于CNN和LSTM的语音识别中,在六种语言上提高了识别正确率。2.基于PAC-MCLDNN的多语种语音识别:2017年Bukhari D,Wang Y,Wang H.MultilingualConvolutional,Long Short-Term Memory,Deep Neural Networks for Low ResourceSpeech Recognition.Procedia Computer Science,2017,107(5):842-847.提出使用LSTM、卷积神经网络,深度神经网络组合模型,结合预测矫正结构,在AP16OrientalLanguage Recognition即AP16-OLR任务上取得了较好的识别精度。3.基于通用估计I-矢量的快速声纹识别:2018年Xu L,Lee K A,Li H,et al.Generalizing I-Vector Estimationfor Rapid Speaker Recognition.IEEE/ACM Transactions on Audio,Speech,andLanguage Processing,2018,26(4):749-759.提出一种快速得到I-矢量的方法,以加快特征提取的速度,完成声纹识别。4.基于注意力增强CNN的音频分类:2018年Yu Wu,Hua Mao,Zhang Yi.Audio Classification using Attention-Augmented Convolutional NeuralNetwork.Knowledge-Based Systems,2018,161(23):90-100.提出将声音转化为频谱图,并沿频域进行分割,生成频域分布谱图,最后采用注意力增强机制,通过卷积神经网络进行分类,取得了良好的分类效果。5.基于1DCNN-LSTM和2DCNN-LSTM的说话人情绪识别:Speechemotion recognition using deep 1D&2D CNN LSTM networks.Biomedical SignalProcessing and Control,2019,47:312-323.提出对声谱图采用卷积神经网络提取特征,采用LSTM进行说话人情绪识别,取得了较好的识别效果。
发明内容
本发明的目的在于提供一种具有较快训练速度,并能更好的提高声纹识别正确率的基于一维卷积非对称双向长短时记忆网络的声纹识别方法。
本发明的目的是这样实现的:
基于一维卷积非对称双向长短时记忆网络的声纹识别方法,包括以下步骤:
(1)对原始语音信号进行预处理:(1.1)对原始语音信号进行幅值归一化处理;(1.2)对语音长度的归一化处理;
(2)提出构建ABLSTM模型:(2.1)根据语音信号的时序特征,构建一条与时间轴同向的LSTM,以及一条与时间轴反向的LSTM;(2.2)根据7:3的比例分配正反向LSTM隐藏层神经元个数;(2.3)根据7:3比例分配正反向LSTM输出层权重;(2.4)合并隐藏层,构建ABLSTM模型;
(3)提出利用1DCNN进行声纹特征提取:(3.1)采用1DCNN生成特征语音;(3.2)使特征语音经过最大池化操作,减少特征参数的同时,保留特征语音的声纹特征;(3.3)利用Leaky ReLU激活函数激活池化后的特征语音;
(4)完成基于一维卷积非对称双向长短时记忆网络的声纹识别:(4.1)同一语音信号经过1DCNN生成多个特征语音,提取同一时刻的声纹特征作为ABLSTM模型一个时间步的输入;(4.2)按照时间步逐步处理特征信息,利用归一化指数函数实现较精确的声纹识别。
在步骤1中对原始语音信号进行幅值归一化处理,范围为[-1,1];对语音长度进行归一化处理,包括裁剪大于标准长度语音的冗余部分和填充小于标准长度语音的空白部分。
步骤2.2中所述的根据7:3的比例分配正反向LSTM隐藏层神经元个数,即令正向传播的LSTM的隐藏层相对于反向传播的LSTM的隐藏层具有较多神经元,使正向传播的LSTM能保留更多的声纹特征;步骤2.3中所述的根据7:3比例分配正反向LSTM输出层权重,即令正向传播的LSTM的输出层相对于反向传播的LSTM的输出层具有较大权重,使识别结果更大程度取决于正向传播的LSTM;步骤2.4合并正反向LSTM在相同时间步下的隐藏层,构成基于非对称结构的隐藏层结构,完成构建ABLSTM模型。
在步骤3.1中采用对语音信号进行卷积操作,生成特征语音;xconv(t)和hconv(t)函数是卷积的变量,p是积分变量,t是函数hconv(-p)偏移的步长;卷积层提取特征的过程为m表示卷积层数,ki,j是一维卷积滤波器,bj是偏置项,*表示卷积操作,Qj表示所输入特征语音的集合;步骤3.2中采用最大池化对卷积后的特征语音映射,继续提取声纹特征并降维,ci为池化区域的特征值,Rj为池化区域特征值的集合;步骤3.3中采用Leaky ReLU激活函数激活池化后的特征语音,具体为Leaky ReLU激活函数的映射范围为-∞~∞,即输出值为任意实数。
步骤3中根据语音信号数据的特点,提出构建1DCNN为1层输入层,2层一维卷积层,2层最大池化层。
步骤4.2中根据正向传播的LSTM,按照时间步顺序处理声纹特征向量,根据反向传播的LSTM,按照时间步逆序处理声纹特征向量,并结合正反向输出信息。
步骤4.2中采用归一化指数函数实现精确的声纹识别,如果输入的xi值是x中的最大值,这个映射的分量逼近于1,其他x则逼近于0,并采用回归算法作为损失函数,1{·}表示的是示性函数,当y(i)=d为真时,返回1,否则返回0。
与现有技术相比,本发明的的有益效果在于:
a.在声纹识别过程中,为了使长短时记忆网络保留更多有效的声纹特征,增强正向语音的权重,本发明提出构建ABLSTM模型,经过实验分析,以7:3的比例分配正向传播的LSTM和反向传播的LSTM的隐藏层神经元个数,以及正向传播的LSTM和反向传播的LSTM的输出层权重,使识别结果更大程度取决于正向传播的LSTM,提高声纹识别的精度;
b.传统方法通常采用对语音信号生成语谱图,然后利用卷积神经网络提取特征,但实际上会损失部分有用信息特征,影响最终识别的正确率,因此,本发明提出采用1DCNN进行声纹特征提取,利用最大池化操作减少特征参数,保留特征语音的声纹特征,并采用Leaky ReLU激活函数处理特征提取结果;
c.由于同一语音信号经过1DCNN能生成多个特征语音,提出采用提取同一时刻的声纹特征作为提出的非对称双向长短时记忆网络模型一个时间步的输入,利用归一化指数函数实现较精确的声纹识别。本发明提出的基于一维卷积非对称双向长短时记忆网络声纹识别方法,能提高训练速度,并且能更好的提高声纹识别的正确率,有一定的有效性。
附图说明
图1是本发明方法的流程图;
图2是10名说话人70条原始语音信号中的一条语音的音频波形图,图2(a)是1号男性说话人的音频波形图,图2(b)是2号男性说话人的音频波形图,图2(c)是3号男性说话人的音频波形图,图2(d)是4号男性说话人的音频波形图,图2(e)是5号男性说话人的音频波形图,图2(f)是1号女性说话人的音频波形图,图2(g)是2号女性说话人的音频波形图,图2(h)是3号女性说话人的音频波形图,图2(i)是4号女性说话人的音频波形图,图2(j)是5号女性说话人的音频波形图;
图3是基于图2幅值归一化处理后的语音信号音频波形图,图3(a)是2(a)经过幅值归一化处理后的音频波形图,图3(b)是2(b)经过幅值归一化处理后的音频波形图,图3(c)是2(c)经过幅值归一化处理后的音频波形图,图3(d)是2(d)经过幅值归一化处理后的音频波形图,图3(e)是2(e)经过幅值归一化处理后的音频波形图,图3(f)是2(f)经过幅值归一化处理后的音频波形图,图3(g)是2(g)经过幅值归一化处理后的音频波形图,图3(h)是2(h)经过幅值归一化处理后的音频波形图,图3(i)是2(i)经过幅值归一化处理后的音频波形图,图3(j)是2(j)经过幅值归一化处理后的音频波形图;
图4是基于图3语音长度归一化处理后的语音信号音频波形图,图4(a)是3(a)经过语音长度归一化处理后的音频波形图;图4(b)是3(b)经过语音长度归一化处理后的音频波形图,图4(c)是3(c)经过语音长度归一化处理后的音频波形图,图4(d)是3(d)经过语音长度归一化处理后的音频波形图,图4(e)是3(e)经过语音长度归一化处理后的音频波形图,图4(f)是3(f)经过语音长度归一化处理后的音频波形图,图4(g)是3(g)经过语音长度归一化处理后的音频波形图,图4(h)是3(h)经过语音长度归一化处理后的音频波形图,图4(i)是3(i)经过语音长度归一化处理后的音频波形图,图4(j)是3(j)经过语音长度归一化处理后的音频波形图;
图5是本发明提出的ABLSTM模型结构图;
图6是LSTM的结构图;
图7是本发明1DCNN结构图;
图8是Leaky ReLU激活函数图;
图9是reshape方法示意图;
图10是各种声纹识别模型迭代800次后的识别正确率;
图11是经过第一个卷积层后特征语音的音频波形图可视化结果;
图12是经过第一个池化层后特征语音的音频波形图可视化结果;
图13是经过第二个卷积层后特征语音的音频波形图可视化结果;
图14是经过第二个池化层后特征语音的音频波形图可视化结果;
图15是本发明提出的1DCNN-ABLSTM损失精度变化图;
图16是各种声纹识别模型30次实验的识别正确率。
具体实施方式
下面结合附图举例对本发明做更详细地描述。
结合图1,本发明的具体步骤如下:
(1)对原始语音信号进行预处理
本发明的数据集采用AISHELL-2数据集,从中选取10名说话人的语音作为实验数据。本发明考虑到异性之间的声纹特征差异较大,两种性别选取相同数目,即五名男性,五名女性。每名说话人选取70条语音数据加入训练集,20条语音加入测试集。图2是10名说话人70条原始语音信号中的一条语音的音频波形图。
(1.1)原始语音信号的幅值归一化处理
对原始语音信号使用归一化方法将语音数据映射到[-1,1]之间,其中max为样本数据的最大值,min为样本数据的最小值。在图2的基础上,经过幅值归一化处理后的语音信号音频波形图如图3所示。
(1.2)语音长度的归一化处理
将幅值归一化处理后的语音信号裁剪为统一长度,包括裁剪大于标准长度语音的冗余部分,和填充小于标准长度语音的空白部分。在图3的基础上,语音长度归一化处理后的语音信号音频波形图如图4所示。
(2)提出构建ABLSTM模型
为了使LSTM保留更多有效的声纹特征,增强正向语音的权重,提出构建ABLSTM模型,以提高声纹识别的精度。图5是本发明ABLSTM模型的结构图,具有1层输入层,2层隐藏层和1层输出层。
语音信号具有显著的时序特征,LSTM能避免传统循环神经网络存在的梯度爆炸和梯度消散问题,因此,本发明是基于LSTM的声纹识别方法。LSTM的结构如图6所示,包含遗忘门、输入门和输出门,具体有:
g(t)=φ(Wgxx(t)+Wghh(t-1))+bg
i(t)=σ(Wixx(t)+Wihh(t-1))+bi
f(t)=σ(Wfxx(t)+Wfhh(t-1))+bf
o(t)=σ(Woxx(t)+Wohh(t-1))+bo
c(t)=g(t)*i(t)+g(t-1)*f(t)
h(t)=c(t)*o(t)
式中:W表示连接两层的权重矩阵,x(t)和h(t)分别为输入和输出序列,g(t)和i(t)构成输入门,f(t)为遗忘门,o(t)为输出门,c(t)为LSTM节点状态。
对于语音信号而言,由于当前时间的语音信息与前后的语音都有关联,因此建立两条时间步长度相同、方向相反的LSTM,能更充分地利用语音特征。在实际应用过程中,由于其正向传播的特征信息要多于反向传播的特征信息,根据实验分析,本专利按照非对称结构分配正向LSTM与反向LSTM的隐藏层神经元个数比为7:3,从而使正向LSTM能保留更多的声纹特征,并且根据7:3比例分配正反向LSTM输出层权重,使识别结果更大程度取决于正向传播的LSTM,加快收敛速度,提高识别的正确率。
(3)提出利用1DCNN提取声纹特征
为解决声纹识别过程中,所生成语谱图导致的特征损失问题,提出采用1DCNN进行声纹特征提取。本发明1DCNN结构为1层输入层,2层卷积层,1层输出层,每层卷积层与最大池化层相间排列。1DCNN结构如图7所示。
(3.1)卷积操作
卷积层是对经过预处理的语音信号中的一维卷积滤波器进行训练,将前一层输出的语音与卷积层上的一维卷积滤波器做卷积操作,表示为:
式中:xconv(t)和hconv(t)函数是卷积的变量,p是积分变量,t是函数hconv(-p)偏移的步长。
卷积层提取特征的过程为:
式中:m表示卷积层数,ki,j是一维卷积滤波器,bj是偏置项,*表示卷积操作,Qj表示所输入特征语音的集合。通过一维卷积滤波器在待卷积的语音信号或特征语音上滑动,进行卷积操作,提取得到由声纹特征构成的特征语音。
(3.2)池化操作
卷积层连接着池化层。池化层的作用是对特征语音进行降维操作,并继续提取声纹特征。本发明采用最大池化操作,减少特征参数,对特征语音进行降维的同时,尽可能多的保留语音的声纹特征,并加快运行速度,缓解过拟合现象,提高网络结构的鲁棒性。池化操作的具体过程为:
式中:ω是权重,pool(·)是池化函数。
本发明选用的池化函数为最大池化操作,有:
式中:ci为池化区域的特征值,Rj为池化区域特征值的集合。
在此基础上,本发明采用如图8所示的Leaky ReLU激活函数,激活池化后的特征语音,具体为:
式中:Leaky ReLU激活函数的映射范围为-∞~∞,即输出值为任意实数。
(4)完成基于一维卷积非对称双向长短时记忆网络的声纹识别
(4.1)提取同一时刻的声纹特征作为ABLSTM模型一个时间步的输入
由于同一语音信号经过1DCNN生成多个特征语音,本发明采用如图9所示的reshape方法,将同一语音生成的特征语音在同一时刻的特征值转换成该时刻的特征向量,得到一组行数与特征语音个数相同,列数与特征语音长度相同,按时间轴顺序排列的特征矩阵。将特征矩阵每一列的特征向量作为提出的ABLSTM模型一个时间步的输入,其中ABLSTM模型的时间步数是特征矩阵列数的二倍,将特征矩阵按时间步顺序输入到ABLSTM模型中正向传播的LSTM,按时间步逆序输入ABLSTM模型中反向传播的LSTM。
(4.2)利用归一化指数函数实现较精确的声纹识别
本发明采用归一化指数函数实现声纹识别,具体有:
如果输入的xi值是x中的最大值,映射的分量逼近于1,其他x则逼近于0。
采用回归算法作为损失函数,有:
式中:1{·}表示的是示性函数,当y(i)=d为真时,返回1,否则返回0。
为验证本发明提出的一种基于一维卷积非对称双向长短时记忆网络声纹识别方法的有效性,给出AISHELL-2数据集的实验。图10是本发明提出的声纹识别方法1DCNN-BLSTM,与同样采用1DCNN进行声纹特征提取的双向长短时记忆网络Bi-directional LongShort Time Memory Network,BLSTM、LSTM,以及基于语谱图的CNN分别迭代800次后的识别的正确率。从图10中可以得出,本发明提出的1DCNN-ABLSTM识别正确率最高。相比较于1DCNN-BLSTM、1DCNN-LSTM和CNN,本发明提出的1DCNN-ABLSTM更适用于声纹识别。
由于传统CNN在使用语谱图做特征提取的过程中,忽略了部分分布在时域上的声纹特征,造成了特征损失,因此识别正确率较低。本发明提出利用1DCNN进行声纹特征提取,解决了CNN模型中采用对语音信号生成语谱图造成的特征损失问题。图11、图12、图13和图14分别给出1DCNN-ABLSTM经过第一个卷积层、第一个池化层和第二个卷积层和第二个池化层后特征语音的音频波形图可视化结果。从可视化结果中可以看出,图11和图13中的特征语音相较于图2中的原始语音信号具有更加丰富的特征值,说明1DCNN能有效地提取声纹特征。图12和图14中的特征语音具有更加清晰的轮廓,说明最大池化操作能在减少特征参数的同时,更多地保留声纹特征。
在此基础上,通过实验分析研究,虽然同样采用1DCNN进行声纹特征提取的LSTM和BLSTM能明显提高识别正确率,但由于对于声纹识别而言,其识别结果不仅与上文相关,还与下文相关,1DCNN-LSTM只能考虑到上文信息,不能利用下文信息,1DCNN-BLSTM虽然可以同时考虑到上下文信息,但没有考虑到正向传播的LSTM具有更多的声纹特征,且识别结果更大程度取决于正向传播的LSTM。为了使长短时记忆网络保留更多有效的声纹特征,增强正向语音的权重,本发明提出构建ABLSTM模型,表1给出采用1DCNN进行声纹特征提取正向传播的LSTM即1DCNN-LSTM、反向传播的LSTM即1DCNN-backLSTM,以及不同比例划分BLSTM时,在最后100次迭代下的对于不同性别说话人的平均识别正确率。
表1最后100次迭代的不同性别说话人平均识别正确率
从表1的分析研究可以看出,当采用7:3的比例划分BLSTM时,其识别正确率最高。因此,本发明提出构建ABLSTM模型,以7:3的比例分配正向传播的LSTM和反向传播的LSTM的隐藏层神经元个数,以及正向传播的LSTM和反向传播的LSTM的输出层权重,使识别结果更大程度取决于正向传播的LSTM,提高声纹识别的精度。
为进一步验证本发明提出1DCNN-ABLSTM的有效性,表2给出在极大迭代次数是800次时,本发明提出的1DCNN-ABLSTM,与1DCNN-BLSTM、1DCNN-LSTM、CNN的识别正确率、精确率和F1值。其中正确率表示测试集中被正确识别的语音信号数量占测试集中所有语音信号数量的百分比。精确率表示测试集中被识别为正确的语音信号数量占测试集中真正正确的语音信号数量的百分比。F1值表示正确率和精确率的调和均值。
表2极大迭代次数的识别正确率、精确率和F1值
声纹识别模型 正确率 精确率 F1值
1DCNN-ABLSTM 98.5% 98.57% 98.54%
1DCNN-BLSTM 97.2% 97.41% 97.31%
1DCNN-LSTM 96.6% 96.79% 96.69%
CNN 68.3% 69.58% 69.01%
从表2可以看出,在极大迭代次数为800次时,本发明提出的1DCNN-ABLSTM,与1DCNN-BLSTM、1DCNN-LSTM和CNN的识别正确率分别为98.5%,97.2%,96.6%和68.3%,精确率分别为98.6%、97.4%、96.8%和69.6%,F1值分别为96.6%、96.8%、96.7%和69.0%。在极大迭代次数的条件下,本发明提出的1DCNN-ABLSTM获得的声纹识别正确率、精确率以及F1值均高于1DCNN-BLSTM、1DCNN-LSTM和CNN。
表3给出了各种声纹识别模型单次迭代所需的平均时间。
表3各种声纹识别模型单次迭代所需的平均时间(秒)
声纹识别模型 1DCNN-ABLSTM 1DCNN-BLSTM 1DCNN-LSTM CNN
时间 2.4336 2.5530 2.4195 3.1209
从表3可以看出,当使用相同的硬件环境下运行时,即本发明在64位Windows10操作系统,GTX1070显卡,i7-8750处理器,32G内存以及tensorflow1.6版本下运行时,本发明提出的1DCNN-ABLSTM的平均迭代时间与1DCNN-LSTM大致相同,且明显优于1DCNN-BLSTM和CNN。因此,本发明提出的1DCNN-ABLSTM能更有效地利用计算资源,降低了计算开销。因此,本发明提出的1DCNN-ABLSTM在识别精度和训练速度上均明显优于1DCNN-BLSTM、1DCNN-LSTM、和CNN,有一定的有效性。
为验证本发明提出1DCNN-ABLSTM的收敛性,图15是在迭代次数为800次的情况下,本发明提出的1DCNN-ABLSTM,与1DCNN-BLSTM、1DCNN-LSTM、和CNN的损失精度变化情况。从实验结果中可以看出,当迭代次数为600时,各个模型的损失值都趋于稳定,接近收敛,收敛速度基本相同。同时,结合图10,表2和表3,说明本发明提出的1DCNN-ABLSTM的声纹识别正确率更高,收敛速度更快。
为了比较本专利提出的1DCNN-ABLSTM,与1DCNN-BLSTM、1DCNN-LSTM和基于语谱图的CNN在AISHELL-2数据集上的识别性能,表4给出30次实验识别正确率结果。为了获得更清晰直观的比较结果,图16是表4对应的曲线图。
表4 30次实验各种模型的识别正确率
从表4和图16可以看到,在30次实验过程中,本发明提出的1DCNN-ABLSTM识别率最高。它不仅解决了声纹识别过程中,传统CNN进行声纹识别时,将语音转化成语谱图的过程中造成的特征损失问题,也使长短时记忆网络保留更多有效的声纹特征,增强了正向语音的权重,提高了拟合速度,在减少计算资源的同时,能更好的提高识别的正确率,有一定的有效性。

Claims (7)

1.基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于,包括以下步骤:
(1)对原始语音信号进行预处理:(1.1)对原始语音信号进行幅值归一化处理;(1.2)对语音长度的归一化处理;
(2)提出构建ABLSTM模型:(2.1)根据语音信号的时序特征,构建一条与时间轴同向的LSTM,以及一条与时间轴反向的LSTM;(2.2)根据7:3的比例分配正反向LSTM隐藏层神经元个数;(2.3)根据7:3比例分配正反向LSTM输出层权重;(2.4)合并隐藏层,构建ABLSTM模型;
(3)提出利用1DCNN进行声纹特征提取:(3.1)采用1DCNN生成特征语音;(3.2)使特征语音经过最大池化操作,减少特征参数的同时,保留特征语音的声纹特征;(3.3)利用LeakyReLU激活函数激活池化后的特征语音;
(4)完成基于一维卷积非对称双向长短时记忆网络的声纹识别:(4.1)同一语音信号经过1DCNN生成多个特征语音,提取同一时刻的声纹特征作为ABLSTM模型一个时间步的输入;(4.2)按照时间步逐步处理特征信息,利用归一化指数函数实现较精确的声纹识别。
2.根据权利要求1所述基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:在步骤1中对原始语音信号进行幅值归一化处理,范围为[-1,1];对语音长度进行归一化处理,包括裁剪大于标准长度语音的冗余部分和填充小于标准长度语音的空白部分。
3.根据权利要求1所述的基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:步骤2.2中所述的根据7:3的比例分配正反向LSTM隐藏层神经元个数,即令正向传播的LSTM的隐藏层神经元比反向传播的LSTM的隐藏层的神经元多,使正向传播的LSTM能保留更多的声纹特征;步骤2.3中所述的根据7:3比例分配正反向LSTM输出层权重,即令正向传播的LSTM的输出层权重比反向传播的LSTM的输出层权重大,使识别结果更大程度取决于正向传播的LSTM;步骤2.4合并正反向LSTM在相同时间步下的隐藏层,构成基于非对称结构的隐藏层结构,完成构建ABLSTM模型。
4.根据权利要求1所述的基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:在步骤3.1中采用对语音信号进行卷积操作,生成特征语音;xconv(t)和hconv(t)函数是卷积的变量,p是积分变量,t是函数hconv(-p)偏移的步长;卷积层提取特征的过程为m表示卷积层数,ki,j是一维卷积滤波器,bj是偏置项,*表示卷积操作,Qj表示所输入特征语音的集合;步骤3.2中采用最大池化对卷积后的特征语音映射,继续提取声纹特征并降维,ci为池化区域的特征值,Rj为池化区域特征值的集合;步骤3.3中采用Leaky ReLU激活函数激活池化后的特征语音,具体为Leaky ReLU激活函数的映射范围为-∞~∞,即输出值为任意实数。
5.根据权利要求1或4所述的基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:步骤3中根据语音信号数据的特点,提出构建1DCNN为1层输入层,2层一维卷积层,2层最大池化层。
6.根据权利要求1所述基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:步骤4.2中根据正向传播的LSTM,按照时间步顺序处理声纹特征向量,根据反向传播的LSTM,按照时间步逆序处理声纹特征向量,并结合正反向输出信息。
7.根据权利要求1或6所述的基于一维卷积非对称双向长短时记忆网络的声纹识别方法,其特征在于:步骤4.2中采用归一化指数函数实现精确的声纹识别,如果输入的xi值是x中的最大值,这个映射的分量逼近于1,其他x则逼近于0,并采用回归算法作为损失函数,1{·}表示的是示性函数,当y(i)=d为真时,返回1,否则返回0。
CN201910045664.2A 2019-01-17 2019-01-17 基于一维卷积非对称双向长短时记忆网络的声纹识别方法 Active CN109637545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910045664.2A CN109637545B (zh) 2019-01-17 2019-01-17 基于一维卷积非对称双向长短时记忆网络的声纹识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910045664.2A CN109637545B (zh) 2019-01-17 2019-01-17 基于一维卷积非对称双向长短时记忆网络的声纹识别方法

Publications (2)

Publication Number Publication Date
CN109637545A true CN109637545A (zh) 2019-04-16
CN109637545B CN109637545B (zh) 2023-05-30

Family

ID=66061206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910045664.2A Active CN109637545B (zh) 2019-01-17 2019-01-17 基于一维卷积非对称双向长短时记忆网络的声纹识别方法

Country Status (1)

Country Link
CN (1) CN109637545B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059082A (zh) * 2019-04-17 2019-07-26 东南大学 一种基于1D-CNN与Bi-LSTM的天气预测方法
CN110473554A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN110556114A (zh) * 2019-07-26 2019-12-10 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110853653A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于自注意力和迁移学习的声纹识别方法
CN111524526A (zh) * 2020-05-14 2020-08-11 中国工商银行股份有限公司 声纹识别方法及装置
CN112702599A (zh) * 2020-12-24 2021-04-23 重庆理工大学 一种基于深度学习的vvc帧内快速编码方法
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
WO2021217978A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
CN113611285A (zh) * 2021-09-03 2021-11-05 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法
CN114861835A (zh) * 2022-07-04 2022-08-05 浙江大学 一种基于非对称卷积的噪声性听力损失预测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
US20180336889A1 (en) * 2017-05-19 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd . Method and Apparatus of Building Acoustic Feature Extracting Model, and Acoustic Feature Extracting Method and Apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN105513591A (zh) * 2015-12-21 2016-04-20 百度在线网络技术(北京)有限公司 用lstm循环神经网络模型进行语音识别的方法和装置
CN106782602A (zh) * 2016-12-01 2017-05-31 南京邮电大学 基于长短时间记忆网络和卷积神经网络的语音情感识别方法
US20180336889A1 (en) * 2017-05-19 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd . Method and Apparatus of Building Acoustic Feature Extracting Model, and Acoustic Feature Extracting Method and Apparatus
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
XIANGANG LI 等: "Long Short-Term Memory based Convolutional Recurrent Neural Networks for Large Vocabulary Speech Recognition", 《ARXIV》 *
卢官明等: "基于长短期记忆和卷积神经网络的语音情感识别", 《南京邮电大学学报(自然科学版)》 *
姚煜等: "基于双向长短时记忆-联结时序分类和加权有限状态转换器的端到端中文语音识别系统", 《计算机应用》 *
居治华等: "基于反向卷积的Bi-LSTM语音识别", 《软件导刊》 *
李洋等: "基于CNN和BiLSTM网络特征融合的文本情感分析", 《计算机应用》 *
谭咏梅等: "基于CNN与双向LSTM的中文文本蕴含识别方法", 《中文信息学报》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059082A (zh) * 2019-04-17 2019-07-26 东南大学 一种基于1D-CNN与Bi-LSTM的天气预测方法
CN110556114A (zh) * 2019-07-26 2019-12-10 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110556114B (zh) * 2019-07-26 2022-06-17 国家计算机网络与信息安全管理中心 基于注意力机制的通话人识别方法及装置
CN110473554A (zh) * 2019-08-08 2019-11-19 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN110675891A (zh) * 2019-09-25 2020-01-10 电子科技大学 一种基于多层注意力机制的语音分离方法、模块
CN110853653A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于自注意力和迁移学习的声纹识别方法
WO2021217978A1 (zh) * 2020-04-28 2021-11-04 平安科技(深圳)有限公司 原始语音的声纹识别方法、装置、设备及存储介质
US11798563B2 (en) 2020-04-28 2023-10-24 Ping An Technology (Shenzhen) Co., Ltd. Method, apparatus and device for voiceprint recognition of original speech, and storage medium
CN111524526A (zh) * 2020-05-14 2020-08-11 中国工商银行股份有限公司 声纹识别方法及装置
CN111524526B (zh) * 2020-05-14 2023-11-17 中国工商银行股份有限公司 声纹识别方法及装置
CN112702599A (zh) * 2020-12-24 2021-04-23 重庆理工大学 一种基于深度学习的vvc帧内快速编码方法
CN112908341A (zh) * 2021-02-22 2021-06-04 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN112908341B (zh) * 2021-02-22 2023-01-03 哈尔滨工程大学 基于多任务自注意力机制的语言学习者声纹识别方法
CN113611285A (zh) * 2021-09-03 2021-11-05 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法
CN113611285B (zh) * 2021-09-03 2023-11-24 哈尔滨理工大学 基于层叠双向时序池化的语种识别方法
CN114861835A (zh) * 2022-07-04 2022-08-05 浙江大学 一种基于非对称卷积的噪声性听力损失预测系统

Also Published As

Publication number Publication date
CN109637545B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN109637545A (zh) 基于一维卷积非对称双向长短时记忆网络的声纹识别方法
Sun et al. Speech emotion recognition based on DNN-decision tree SVM model
Chen et al. 3-D convolutional recurrent neural networks with attention model for speech emotion recognition
CN109801634B (zh) 一种声纹特征的融合方法及装置
CN109272988B (zh) 基于多路卷积神经网络的语音识别方法
CN110164452A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
CN107146601A (zh) 一种用于说话人识别系统的后端i‑vector增强方法
CN108109613A (zh) 用于智能对话语音平台的音频训练和识别方法及电子设备
CN107093422B (zh) 一种语音识别方法和语音识别系统
Han et al. Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network
CN105261367A (zh) 一种说话人识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
CN110047504B (zh) 身份矢量x-vector线性变换下的说话人识别方法
Perero-Codosero et al. X-vector anonymization using autoencoders and adversarial training for preserving speech privacy
CN103456302A (zh) 一种基于情感gmm模型权重合成的情感说话人识别方法
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM
CN109767789A (zh) 一种用于语音情感识别的新特征提取方法
Sun et al. Text-independent speaker identification based on deep Gaussian correlation supervector
CN104464738B (zh) 一种面向智能移动设备的声纹识别方法
CN111243621A (zh) 一种用于合成语音检测的gru-svm深度学习模型的构造方法
Qin et al. Graph convolution-based deep clustering for speech separation
CN112863521B (zh) 一种基于互信息估计的说话人识别方法
Hu et al. Speaker recognition based on short utterance compensation method of generative adversarial networks
Le et al. Personalized speech enhancement combining band-split rnn and speaker attentive module

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant