CN111986679A - 一种应对复杂声学环境的说话人确认方法、系统及存储介质 - Google Patents

一种应对复杂声学环境的说话人确认方法、系统及存储介质 Download PDF

Info

Publication number
CN111986679A
CN111986679A CN202010871239.1A CN202010871239A CN111986679A CN 111986679 A CN111986679 A CN 111986679A CN 202010871239 A CN202010871239 A CN 202010871239A CN 111986679 A CN111986679 A CN 111986679A
Authority
CN
China
Prior art keywords
speaker
voiceprint
module
artificial
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010871239.1A
Other languages
English (en)
Inventor
刘明
周彦兵
孙冲武
赵学华
高波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Information Technology
Original Assignee
Shenzhen Institute of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Information Technology filed Critical Shenzhen Institute of Information Technology
Priority to CN202010871239.1A priority Critical patent/CN111986679A/zh
Publication of CN111986679A publication Critical patent/CN111986679A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种应对复杂声学环境的说话人确认方法、系统及存储介质,该说话人确认方法包括执行以下步骤:步骤1:输入说话人语音;步骤2:接收步骤1的说话人语音音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人语音音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;步骤4。本发明的有益效果是:利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力。

Description

一种应对复杂声学环境的说话人确认方法、系统及存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种应对复杂声学环境的说话人确认方法、系统及存储介质。
背景技术
目前,智能手机、智能音箱、对话机器人等产品中都会加入目标说话人声纹确认的功能,来提高这类电子设备对用户的专用性。但是,当具备说话人确认功能的语音产品工作在一些复杂的应用场景时,如存在各式各样背景噪音的环境、周围有其他人说话干扰的场景等,产品的声纹识别准确率较低。除此之外,当目标说话人由于感冒或其他疾病而导致自身的声音发生一些变化时,目前市面上的语音产品也难以正确地识别目标说话人的声纹。
发明内容
本发明提供了一种应对复杂声学环境的说话人确认方法,包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
作为本发明的进一步改进,在所述步骤2中,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧预处理,得到每一帧语音信号的语音序列s(n);
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换,将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
Figure BDA0002651189350000021
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
Figure BDA0002651189350000022
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换,将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
Figure BDA0002651189350000023
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
作为本发明的进一步改进,在所述步骤2中,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理;
步骤S2:为了求解线性预测系数,令
Figure BDA0002651189350000024
并写出自相关函数的形式如下:
Figure BDA0002651189350000031
其中R(j)是自相关函数,拆写加权式子,便得到如下的Toeplize矩阵表达形式:
Figure BDA0002651189350000032
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换,使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
作为本发明的进一步改进,在所述步骤3中,所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。
作为本发明的进一步改进,在所述步骤4中,所述声纹识别模块一共由四层神经网络构成,包括一层输入层,两层长短期记忆神经网络层和一层输出层,输入层需要与特征增强模块的输出层对接,因此输入层的维度是80维;中间的两层长短期记忆网络层均为512维,并且采用ReLU激活函数进行非线性映射;最后的输出层采用的是线性层,维度为256,来实现声纹特征的进一步抽象表示,将输出层中说话人一整句话的所有帧进行累加平均,得到一个句子级的特征表示形式,如下式(10)所示:
Figure BDA0002651189350000033
其中,
Figure BDA0002651189350000034
为平均后的输出,维度为256。
作为本发明的进一步改进,该说话人确认方法还包括对特征增强模块的数据训练,其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的音频都加入不同信噪比程度的噪声干扰,在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,得到带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的纯净音频经过特征提取模块进行特征提取,得到一个纯净音频的特征矩阵;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块具备了对特征进行降噪处理的能力。
作为本发明的进一步改进,在所述构建训练带噪特征矩阵步骤中,将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰。
作为本发明的进一步改进,该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
步骤Y1:将不同的说话人的每一句话都表示成公式(10)中的向量形式
Figure BDA0002651189350000041
其中n和m代表第n个说话人的第m条语句,即1≤n≤50,1≤m≤10;步骤Y2:对每一句话的输出向量
Figure BDA0002651189350000042
进行L2正则化,得到嵌入式向量的形式如下:
Figure BDA0002651189350000043
再定义第n个说话人的语音质心如下:
Figure BDA0002651189350000044
得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
Figure BDA0002651189350000051
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:由神经网络模型的输出σm,n,k计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。
本发明还公开了一种应对复杂声学环境的说话人确认系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明的有益效果是:1.本发明的说话人确认方法利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力;2.本发明的说话人确认方法利用深层神经网络模型实现端到端的说话人确认,减少了模型假设,利于提取出更具区分性的抽象声纹特征,进一步提高了算法的识别准确率;3.本发明的说话人确认方法采用神经网络模型进行声纹特征的增强处理,提高了算法在噪声干扰环境中的识别鲁棒性;4.本发明的说话人确认方法训练过程不依赖说话人文本,使算法对说话人的说话内容不敏感,目标说话人说的任何句子,都可以进行精确的声纹确认。
附图说明
图1(a)是本发明说话人确认方法训练过程原理框图;
图1(b)是本发明说话人确认方法测试应用过程原理框图;
图2是本发明说话人确认方法MFCC特征提取流程图;
图3是本发明说话人确认方法LPC及其残差特征的提取流程图;
图4是本发明每个训练批次中理想的相似矩阵形式原理框图。
具体实施方式
如图1所示,本发明公开了一种应对复杂声学环境的说话人确认方法,该说话人确认方法利用梅尔倒谱系数特征和线性预测特征进行人工声纹特征建模,并利用前馈神经网络和长短期记忆神经网络分别实现对人工特征的降噪处理和相似度判决,保证了算法在噪声干扰的应用场景中也具备较好的声纹确认准确率,该说话人确认方法包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
在所述步骤2中,梅尔倒谱系数特征提取模块,实现了对语音信号的梅尔倒谱系数特征提取,该特征是为了描述人耳的听觉感知能力对频率不同的语音信号的灵敏度存在差别的特性,而提出的一种声学特征。如图2所示,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧等一系列的预处理,得到每一帧语音信号的语音序列s(n),这里采用16kHz的采样率,帧长16ms,重叠50%。每条输入语音的长度为2s,一共分成250帧;
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换(FFT),将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
Figure BDA0002651189350000061
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
Figure BDA0002651189350000062
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换(DCT),将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
Figure BDA0002651189350000071
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
在所述步骤2中,线性预测特征提取模块,实现了对语音的线性预测系数(LPC)及其残差特征的提取,这些线性特征序列表征了声道模型的线性时变系统特性,反映了说话人的声道特征,特别适合对人的声纹特征进行建模。如图3所示,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理,帧长16ms,重叠50%,每句话250帧,表示成语音序列s(n),n=1,2,…,250,p阶的线性预测分析就可以表示为由语音信号在某一时刻之前的p个取样值的线性组合来对这一时刻的取样值s(n)进行预测,设
Figure BDA0002651189350000072
为相应的线性预测值,则有:
Figure BDA0002651189350000075
那么,线性预测值与实际取样值之间的误差(也称为残差)计算公式为:
Figure BDA0002651189350000073
线性预测系数ai(i=1,2,...,p)的选择应使误差的均方值E(e2(n))最小。令这个最小均方误差为Ep:
Figure BDA0002651189350000074
步骤S2:为了求解线性预测系数,令
Figure BDA0002651189350000081
并写出自相关函数的形式如下:
Figure BDA0002651189350000082
其中R(j)是自相关函数,拆写加权式子,便可以进一步得到如下的Toeplize矩阵表达形式:
Figure BDA0002651189350000083
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而可以求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换(FFT),使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
在所述步骤3中,所述特征增强模块主要对提取的人工声纹特征进行降噪处理,使算法能够在噪声干扰的情况下,依然能够正确地识别目标说话人的声纹。所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维(40维MFCC和40维LPC)声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。为了保证神经网络降噪模型良好的泛化能力,每层隐藏层均采用批归一化处理,并进行丢弃率为0.2的随机神经元失活处理。
在所述步骤4中,所述声纹识别模块将进行增强处理后的特征相似度估计,来实现说话人的声纹确认。所述声纹识别模块一共由四层神经网络构成,包括一层输入层,两层长短期记忆神经网络层和一层输出层,输入层需要与特征增强模块的输出层对接,因此输入层的维度是80维;中间的两层长短期记忆网络层均为512维,并且采用ReLU激活函数进行非线性映射;最后的输出层采用的是线性层,维度为256,来实现声纹特征的进一步抽象表示;为了捕捉说话人的句子级特征,将输出层中说话人一整句话的所有帧进行累加平均,得到一个句子级的特征表示形式,如下式(10)所示:
Figure BDA0002651189350000091
其中,
Figure BDA0002651189350000092
为平均后的输出,维度为256。
该说话人确认方法还包括对特征增强模块的数据训练,因为在处理过程中,特征增强模块和声纹识别模块都用到了神经网络技术,所以需要对两个模块的神经网络进行大量的数据训练,才能保证算法具备优秀的降噪和声纹确认能力。如图1(a)所示,算法进行训练时,训练集一共有20000个不同的说话人,每人10句话,一共是200000句话,每个训练批次随机输入50个说话人,每人10句话的音频数据,每句话的内容不定。为了保证一致性,输入的音频长度是定长的,每句话均不超过两秒,不足两秒的音频可以补零至两秒。所述特征增强模块的数据训练其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰,因此在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,会得到一个带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的500句纯净音频也会经过特征提取模块进行特征提取,会得到一个纯净音频的特征矩阵,然后对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,训练完毕以后,特征增强模块就具备了对特征进行降噪处理的能力;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块训练完毕以后,特征增强模块就具备了对特征进行降噪处理的能力。
为了避免特征增强模块造成的失真影响声纹识别的效果,必须和后面的声纹识别模块进行整体调优训练。该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
步骤Y1:在声纹识别模块的训练阶段,每一轮都随机抽取50个说话人,每个说话人有10句话,即以500个语句为一个处理批次,将不同的说话人的每一句话都表示成公式(10)中的向量形式
Figure BDA0002651189350000101
其中n和m代表第n个说话人的第m条语句,即1≤n≤50,1≤m≤10;
步骤Y2:对每一句话的输出向量
Figure BDA0002651189350000102
进行L2正则化,得到嵌入式向量的形式如下:
Figure BDA0002651189350000103
那么可以定义第n个说话人的语音质心如下:
Figure BDA0002651189350000104
语音质心,即同一个说话人的多条语音的嵌入向量的中心点,多个说话人就会产生多个中心点。输入待测试的说话人语音,它与哪个语音质心的距离较近,就可以被确认为哪个说话人的声纹。
接下来,需要计算不同语句之间的相似度,得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9,因为此时有一句话被用作了测试语句;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
Figure BDA0002651189350000105
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:在声纹识别模块的训练阶段,每批次输入500条语句,由神经网络模型的输出计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。训练完成以后,便得到了一个具备声纹确认能力的神经网络模型。图4展示了训练时理想的相似矩阵的形式。
如图1(b)模型训练完毕以后,模型的测试应用的处理流程不变,仍然是由特征提取到特征增强,再到最后的相似度估计。当进行模型的测试应用时,不再需要输入500句的批次数据,只需要事先将所有需要进行声纹确认的说话人语音预存下来,然后一一进行相似度对比即可。例如,目标说话人有5个人,每人录制10句话存好,测试时只需要输入一句现场录制的测试语音和预存语音库中某一个说话人的10条语句到神经网络模型,求取预存语音的质心,并与测试语音进行相似度计算,得到一个相似度值。随后,与预存语音库中的每个说话人都进行对比,就会得到一个5维的相似度向量,取出向量中最大的一个元素,将其与一个预设阈值(本说话人确认方法中设置为0.95)进行比较,当元素大于该阈值时,则确认是其对应的目标说话人声纹,否则测试语音不属于任何一个目标说话人。
本发明还公开了一种应对复杂声学环境的说话人确认系统,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现本发明所述的说话人确认方法的步骤。
本发明的有益效果是:1.本发明的说话人确认方法利用梅尔倒谱特征和线性预测特征级联的方式,进行说话人声纹建模,提高了算法对目标声纹的辨识能力;2.本发明的说话人确认方法利用深层神经网络模型实现端到端的说话人确认,减少了模型假设,利于提取出更具区分性的抽象声纹特征,进一步提高了算法的识别准确率;3.本发明的说话人确认方法采用神经网络模型进行声纹特征的增强处理,提高了算法在噪声干扰环境中的识别鲁棒性;4.本发明的说话人确认方法训练过程不依赖说话人文本,使算法对说话人的说话内容不敏感,目标说话人说的任何句子,都可以进行精确的声纹确认。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (10)

1.一种应对复杂声学环境的说话人确认方法,其特征在于,包括执行以下步骤:
步骤1:输入说话人音频;
步骤2:接收步骤1的说话人音频,再采用梅尔倒谱系数提取模块和线性预测提取模块提取出所接收的说话人音频中的人工声纹特征,最后将提取的人工声纹特征送到特征增强模块;
步骤3:采用特征增强模块接收步骤2提取的人工声纹特征,并通过特征增强模块对所接收的人工声纹特征进行降噪处理,得到增强后的人工声纹特征,最后将增强后的人工声纹特征送到声纹识别模块;
步骤4:采用声纹识别模块接收增强后的人工声纹特征,进行更深层次的抽象表示分析,再在神经网络的输出层得到新的特征表示形式,最后计算不同语句之间的相似值,输出相似度向量,并做出是否是目标说话人的判决。
2.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤2中,所述梅尔倒谱系数提取模块还包括依次执行以下步骤:
预处理步骤:将原始语音信号进行采样量化、预加重、加窗分帧预处理,得到每一帧语音信号的语音序列s(n);
傅里叶变换步骤:对预处理后得到的语音序列s(n)进行快速傅里叶变换,将其从时域变换到频域,得到其频谱,并求得频谱的幅度值S(k);
滤波步骤:将幅度值S(k)通过梅尔频率滤波器组Hm(k)得到的输出为Pm(m=0,1,…,M-1),参数Pm的表达公式如下:
Figure FDA0002651189340000011
其中,Hm(k)是梅尔频率滤波器组的传递函数,其定义表达如下式所示:
Figure FDA0002651189340000012
公式(2)中M为三角形滤波器的数量,即梅尔滤波器组的阶数,f(m)是三角形滤波器的中心频率;f(m-1)和f(m+1)分别表示一个三角形滤波器的上限频率与下限频率;
梅尔倒谱系数计算步骤:对参数Pm进行对数能量计算,输出得到的参数为Lm(m=0,1,…,M-1),再将参数Lm进行离散余弦变换,将得到的参数Lm转换到倒谱域中,这样就得到了梅尔倒谱系数Cmel,其具体过程如下:
Lm=ln(Pm),(m=0,1,…,M-1) (3)
Figure FDA0002651189340000021
上式(4)中的Cmel(k)就是所需要求取的MFCC特征参数,N表示梅尔倒谱系数的阶数,这里我们取N=40,也就是提取40维的MFCC特征。
3.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤2中,所述线性预测提取模块还包括依次执行以下步骤:
步骤S1:对输入的语音信号进行预加重、分帧加窗和滤波的预处理;
步骤S2:为了求解线性预测系数,令
Figure FDA0002651189340000022
并写出自相关函数的形式如下:
Figure FDA0002651189340000023
其中R(j)是自相关函数,拆写加权式子,便得到如下的Toeplize矩阵表达形式:
Figure FDA0002651189340000024
步骤S3:使用Durbin算法来求解Toeplize矩阵,即可计算出滤波器系数ai,也就是线性预测系数,进而求得线性预测系数的残差值e(n),取p=38,也就是提取38维的线性预测系数;
步骤S4:对残差信号e(n)进行快速傅里叶变换,使其从时域变换到频域,得到其频谱,将残差频谱的一阶矩、二阶矩也作为特征参数,与提取的38维线性预测系数一起组成该模块的40维线性预测特征。
4.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤3中,所述特征增强模块采用了前馈神经网络构建降噪模型,该模型一共由五层神经网络层构成,其中输入层输入的是人工提取的80维声纹特征,后面连接着三层隐藏层,每层隐藏层有1024个神经元,并采用ReLU非线性函数作为激活函数,输出层为线性层,采用80个神经元用来实现增强特征的重构。
5.根据权利要求1所述的说话人确认方法,其特征在于,在所述步骤4中,所述声纹识别模块一共由四层神经网络构成,包括一层输入层,两层长短期记忆神经网络层和一层输出层,输入层需要与特征增强模块的输出层对接,因此输入层的维度是80维;中间的两层长短期记忆网络层均为512维,并且采用ReLU激活函数进行非线性映射;最后的输出层采用的是线性层,维度为256,来实现声纹特征的进一步抽象表示,将输出层中说话人一整句话的所有帧进行累加平均,得到一个句子级的特征表示形式,如下式(10)所示:
Figure FDA0002651189340000031
其中,
Figure FDA0002651189340000032
为平均后的输出,维度为256。
6.根据权利要求1所述的说话人确认方法,其特征在于,该说话人确认方法还包括对特征增强模块的数据训练,其执行步骤依次如下:
构建训练带噪特征矩阵步骤:将每批次输入的音频都加入不同信噪比程度的噪声干扰,在经过梅尔倒谱系数提取模块和线性预测特征提取模块后,得到带噪音频的特征矩阵;
构建训练纯净特征矩阵步骤:将未受噪声干扰的与构建训练带噪特征矩阵步骤同批次的纯净音频经特征提取模块进行特征提取,得到一个纯净音频的特征矩阵;
特征增强模块降噪步骤:对特征增强模块的神经网络进行训练,利用反向传播算法更新神经网络的参数,使特征增强模块具备了对特征进行降噪处理的能力。
7.根据权利要求6所述的说话人确认方法,其特征在于,在所述构建训练带噪特征矩阵步骤中,将每批次输入的500句音频都加入了-5dB到15dB不同信噪比程度的噪声干扰。
8.根据权利要求1所述的说话人确认方法,其特征在于,该说话人确认方法还包括对声纹识别模块的数据训练,其执行步骤如下:
步骤Y1:将不同的说话人的每一句话都表示成公式(10)中的向量形式
Figure FDA0002651189340000041
其中n和m代表第n个说话人的第m条语句,即1≤n≤50,1≤m≤10;
步骤Y2:对每一句话的输出向量
Figure FDA0002651189340000042
进行L2正则化,得到嵌入式向量的形式如下:
Figure FDA0002651189340000043
再定义第n个说话人的语音质心如下:
Figure FDA0002651189340000044
得到一个相似矩阵,如下式(13)所示:
Sm,n,k=ω·cos(em,n,ck)+b (13)
其中,1≤n,k≤50,1≤m≤10,ω与b为神经网络中的学习参数且ω>0,ck表示第k个人的语音质心,当k=n时,式子(12)中的M取值为9;而当k≠n时,M的取值为10;
步骤Y3:将计算的相似度Sm,n,k映射成概率的形式,进一步对公式(13)进行Sigmoid函数映射,如下式(14)所示,
Figure FDA0002651189340000045
其中σm,n,k为Sigmoid函数映射后得到的神经网络模型的输出;
步骤Y4:由神经网络模型的输出σm,n,k计算出一个与事先构建的理想相似度矩阵同维度的相似度矩阵,并以理想相似度矩阵为目标进行反向传播调优训练,从输出层一直更新至特征增强模块的输入层,实现神经网络的整体调优。
9.一种应对复杂声学环境的说话人确认系统,其特征在于,包括:存储器、处理器以及存储在所述存储器上的计算机程序,所述计算机程序配置为由所述处理器调用时实现权利要求1-8中任一项所述的说话人确认方法的步骤。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机程序,所述计算机程序配置为由处理器调用时实现权利要求1-8中任一项所述的说话人确认方法的步骤。
CN202010871239.1A 2020-08-26 2020-08-26 一种应对复杂声学环境的说话人确认方法、系统及存储介质 Pending CN111986679A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010871239.1A CN111986679A (zh) 2020-08-26 2020-08-26 一种应对复杂声学环境的说话人确认方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010871239.1A CN111986679A (zh) 2020-08-26 2020-08-26 一种应对复杂声学环境的说话人确认方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN111986679A true CN111986679A (zh) 2020-11-24

Family

ID=73440946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010871239.1A Pending CN111986679A (zh) 2020-08-26 2020-08-26 一种应对复杂声学环境的说话人确认方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN111986679A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687275A (zh) * 2020-12-25 2021-04-20 北京中科深智科技有限公司 一种语音过滤方法和过滤系统
CN113035217A (zh) * 2021-03-01 2021-06-25 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN113436607A (zh) * 2021-06-12 2021-09-24 西安工业大学 一种快速语音克隆方法
CN116612767A (zh) * 2023-07-17 2023-08-18 国网山东省电力公司菏泽供电公司 基于嵌入增强的超短时说话人确认方法、设备及介质
CN116741180A (zh) * 2023-08-14 2023-09-12 北京分音塔科技有限公司 基于声纹增强和对抗的语音识别模型训练方法及装置
CN117198321A (zh) * 2023-11-08 2023-12-08 方图智能(深圳)科技集团股份有限公司 一种基于深度学习的复合音频实时传输方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082692A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-Compensated Low-Level Features For Speaker Recognition
CN108848507A (zh) * 2018-05-31 2018-11-20 厦门快商通信息技术有限公司 一种不良电信用户信息采集方法
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN109767782A (zh) * 2018-12-28 2019-05-17 中国科学院声学研究所 一种提高dnn模型泛化性能的语音增强方法
CN111223493A (zh) * 2020-01-08 2020-06-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180082692A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-Compensated Low-Level Features For Speaker Recognition
CN108848507A (zh) * 2018-05-31 2018-11-20 厦门快商通信息技术有限公司 一种不良电信用户信息采集方法
CN109767782A (zh) * 2018-12-28 2019-05-17 中国科学院声学研究所 一种提高dnn模型泛化性能的语音增强方法
CN109712628A (zh) * 2019-03-15 2019-05-03 哈尔滨理工大学 一种基于rnn的语音降噪方法及语音识别方法
CN111223493A (zh) * 2020-01-08 2020-06-02 北京声加科技有限公司 语音信号降噪处理方法、传声器和电子设备
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭茗涵: "基于深度学习的声纹识别算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 08, 15 August 2020 (2020-08-15), pages 12 - 21 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112687275A (zh) * 2020-12-25 2021-04-20 北京中科深智科技有限公司 一种语音过滤方法和过滤系统
CN113035217A (zh) * 2021-03-01 2021-06-25 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN113035217B (zh) * 2021-03-01 2023-11-10 武汉大学 一种基于声纹嵌入的低信噪比条件下的语音增强方法
CN113436607A (zh) * 2021-06-12 2021-09-24 西安工业大学 一种快速语音克隆方法
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
CN116612767A (zh) * 2023-07-17 2023-08-18 国网山东省电力公司菏泽供电公司 基于嵌入增强的超短时说话人确认方法、设备及介质
CN116612767B (zh) * 2023-07-17 2023-10-13 国网山东省电力公司菏泽供电公司 基于嵌入增强的超短时说话人确认方法、设备及介质
CN116741180A (zh) * 2023-08-14 2023-09-12 北京分音塔科技有限公司 基于声纹增强和对抗的语音识别模型训练方法及装置
CN116741180B (zh) * 2023-08-14 2023-10-31 北京分音塔科技有限公司 基于声纹增强和对抗的语音识别模型训练方法及装置
CN117198321A (zh) * 2023-11-08 2023-12-08 方图智能(深圳)科技集团股份有限公司 一种基于深度学习的复合音频实时传输方法及系统
CN117198321B (zh) * 2023-11-08 2024-01-05 方图智能(深圳)科技集团股份有限公司 一种基于深度学习的复合音频实时传输方法及系统

Similar Documents

Publication Publication Date Title
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
Akbari et al. Lip2audspec: Speech reconstruction from silent lip movements video
KR100908121B1 (ko) 음성 특징 벡터 변환 방법 및 장치
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN108520753B (zh) 基于卷积双向长短时记忆网络的语音测谎方法
Aida-Zade et al. Investigation of combined use of MFCC and LPC features in speech recognition systems
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
KR20080078466A (ko) 다단계 음성인식장치 및 방법
CN110600014B (zh) 一种模型训练方法、装置、存储介质及电子设备
Antony et al. Speaker identification based on combination of MFCC and UMRT based features
CN113488058A (zh) 一种基于短语音的声纹识别方法
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN111798846A (zh) 语音命令词识别方法、装置、会议终端及会议终端系统
González-Salazar et al. Enhancing speech recorded from a wearable sensor using a collection of autoencoders
Azam et al. Urdu spoken digits recognition using classified MFCC and backpropgation neural network
CN114141256A (zh) 基于小波神经网络的声纹特征提取模型构建方法及系统
Zhipeng et al. Voiceprint recognition based on BP Neural Network and CNN
Shrawankar et al. Speech: a challenge to digital signal processing technology for human-to-computer interaction
CN114512133A (zh) 发声对象识别方法、装置、服务器及存储介质
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
Deriche et al. A bilingual emotion recognition system using deep learning neural networks
EP3933829B1 (en) Speech processing method and apparatus, electronic device, and computer-readable storage medium
Devi et al. Automatic speaker recognition from speech signal using principal component analysis and artificial neural network
Pandit et al. Automatic speech recognition of Gujarati digits using artificial neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination