CN109616124A - 基于ivector的轻量化声纹识别方法和系统 - Google Patents

基于ivector的轻量化声纹识别方法和系统 Download PDF

Info

Publication number
CN109616124A
CN109616124A CN201910073337.8A CN201910073337A CN109616124A CN 109616124 A CN109616124 A CN 109616124A CN 201910073337 A CN201910073337 A CN 201910073337A CN 109616124 A CN109616124 A CN 109616124A
Authority
CN
China
Prior art keywords
ivector
characteristic parameter
voice signal
ubm
speech characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910073337.8A
Other languages
English (en)
Inventor
洪国强
肖龙源
蔡振华
李稀敏
刘晓葳
谭玉坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Express Business Information Consulting Co Ltd
Original Assignee
Xiamen Express Business Information Consulting Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Express Business Information Consulting Co Ltd filed Critical Xiamen Express Business Information Consulting Co Ltd
Priority to CN201910073337.8A priority Critical patent/CN109616124A/zh
Publication of CN109616124A publication Critical patent/CN109616124A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于ivector的轻量化声纹识别方法和系统,其通过采集语音信号,并对所述语音信号提取语音特征参数,基于所述语音特征参数进行UBM训练,并统计UBM训练步骤中各GM的贡献值,最后将贡献值小于预设的贡献度阈值的GM进行裁剪,能够根据需求对无关GM进行裁剪,从而减小算法体积,提高算法速度,使其应用场景更广。

Description

基于ivector的轻量化声纹识别方法和系统
技术领域
本发明涉及声纹识别技术领域,特别是一种基于ivector的轻量化声纹识别方法及其应用该方法的系统。
背景技术
在实际应用中,由于说话人语音中说话人信息和各种干扰信息掺杂在一起,不同的采集设备的信道之间也具有差异性,会使我们收集到的语音中掺杂信道干扰信息。这种干扰信息会引起说话人信息的扰动。传统的GMM-UBM方法,没有办法克服这一问题,导致系统性能不稳定。
ivector矢量中不仅包含说话人差异信息,同时也存在信道差异信息,从而对全局差异进行建模,将说话人差异信息和信道差异信息作为一个整体进行建模,其在文本无关、文本半相关(动态数字)、文本相关上都有很好的声纹识别效果。
但是,由于ivector算法是基于UBM的声纹识别算法,其模型大小和其UBM中采用的高斯分布(GM)个数成正比,而在采用2048个高斯分布(GM)时内存占用量达到了4G,所需内存空间和资源过大,造成了应用场景的限制,比如无法在嵌入式系统中的开发使用。
发明内容
本发明为解决上述问题,提供了一种基于ivector的轻量化声纹识别方法和系统,能够根据需求对无关GM进行裁剪,从而减小算法体积,提高算法速度,使其应用场景更广。
为实现上述目的,本发明采用的技术方案为:
一种基于ivector的轻量化声纹识别方法,其包括以下步骤:
a.采集语音信号,并对所述语音信号提取语音特征参数;
b.基于所述语音特征参数进行UBM训练;
c.统计UBM训练步骤中各GM的贡献值;
d.将贡献值小于预设的贡献度阈值的GM进行裁剪。
优选的,所述的步骤a中,对所述语音信号提取语音特征参数,进一步包括:
a-1),通过高通滤波器对所述语音信号进行预加重,并进行分帧加窗处理;
a-2),对分帧加窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱信号;
a-3),对所述频谱取模平方得到所述语音信号的幅度谱;
a-4),将所述幅度谱通过Mel三角形滤波器组,得到对数能量;
a-5),将所述对数能量经离散余弦变换得到MFCC梅尔倒频谱参数,即为所述语音特征参数。
优选的,所述的步骤b中,所述语音特征参数采用MFCC梅尔倒频谱参数,所述UBM训练进一步包括:
b-1),对所述语音特征参数进行前端处理,得到特征向量feat;
b-2),将所述特征向量feat在UBM通用背景模型中进行适应,得到GMM的后验概率post;
b-3),根据所述特征向量feat和所述GMM的后验概率post,进行训练特征提取器extractor,并利用该特征提取器extractor进行提取所述语音信号的身份特征向量ivector;
b-4),通过后端的PLDA算法进行判断两个不同的身份特征向量ivector的相似程度。
优选的,所述的步骤c中,统计UBM训练步骤中各GM的贡献值,是根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例,并根据所述裁剪比例进行设置所述贡献度阈值。
优选的,所述的步骤c中,统计UBM训练步骤中各GM的贡献值,是将每个GM适应的总次数作为所述贡献值。
对应的,本发明还提供一种基于ivector的轻量化声纹识别系统,其包括:
语音信号采集模块,用于采集语音信号;
特征参数提取模块,用于对所述语音信号提取语音特征参数;
UBM训练模块,其基于所述语音特征参数进行UBM训练;
GMM统计模块,用于统计UBM训练步骤中各GM的贡献值;
GMM裁剪模块,用于将贡献值小于预设的贡献度阈值的GM进行裁剪。
本发明的有益效果是:
(1)本发明的一种基于ivector的轻量化声纹识别方法和系统,其通过采集语音信号,并对所述语音信号提取语音特征参数,基于所述语音特征参数进行UBM训练,并统计UBM训练步骤中各GM的贡献值,最后将贡献值小于预设的贡献度阈值的GM进行裁剪,能够根据需求对无关GM进行裁剪,从而减小算法体积,提高算法速度,使其应用场景更广;
(2)本发明通过轻量化ivector,使其能在多场景应用,并裁去了无关的GM,增强了抗噪的能力;
(3)本发明无需针对某一特定的内容进行大量语音采集去训练模型,只需少量数据去裁剪多余的GM,使用更方便。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种基于ivector的轻量化声纹识别方法的流程简图;
图2为本发明一种基于ivector的轻量化声纹识别系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在声纹识别中,特别是在文本半相关和文本相关这两种形式的声纹识别中,其文本较短,语音的feat特征数量有限,UBM步骤适应的GM有限,因此可利用本发明的方法原理对整体模型进行轻量化。
如图1所示,本发明的一种基于ivector的轻量化声纹识别方法,其包括以下步骤:
a.采集语音信号,并对所述语音信号提取语音特征参数;
b.基于所述语音特征参数进行UBM训练;
c.统计UBM训练步骤中各GM的贡献值;
d.将贡献值小于预设的贡献度阈值的GM进行裁剪。
本实施例中,所述语音特征参数采用MFCC(Mel-scale Frequency CepstralCoefficients,简称MFCC)梅尔倒频谱参数,具体如下:
所述的步骤a中,采集语音信号,至少包括100人以上的足够量的语音数据,并对语音数据进行预处理得到所需的语音信号。其中,对所述语音信号提取语音特征参数,进一步包括:
a-1),通过高通滤波器对所述语音信号进行预加重,并进行分帧加窗处理;其中,预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发生过程中声带和嘴唇的效应,来补偿语音信号受到发音系统所抑制的高频部分,也为了突出高频的共振峰。分帧是先将N个采样点集合成一个观测单位,称为帧。通常情况下N的值为256或512,帧长约为20~30ms左右。加窗是指将每一帧乘以汉明窗(Hamming Window),以增加帧左端和右端的连续性;
a-2),对分帧加窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱信号;其中,快速傅氏变换(FFT),是离散傅氏变换的快速算法,它是根据离散傅氏变换的奇、偶、虚、实等特性,对离散傅立叶变换的算法进行改进获得的;
a-3),对所述频谱取模(绝对值)平方得到所述语音信号的幅度谱(即,功率谱);
a-4),将所述幅度谱通过Mel三角形滤波器组,得到对数能量;优选的,为了减小泄露,还包括进一步对mel三角形滤波器组进行加窗处理(采用melbankm函数中的窗函数);
a-5),将所述对数能量经离散余弦变换得到MFCC梅尔倒频谱参数,即为所述语音特征参数;其中,离散余弦变换(DCT for Discrete Cosine Transform)是与傅里叶变换相关的一种变换,它类似于离散傅里叶变换(DFT for Discrete Fourier Transform),但是只使用实数,在对语音、图像信号变换的确定的变换矩阵正交变换中,DCT变换被认为是一种准最佳变换。
所述的步骤b中,所述语音特征参数采用MFCC梅尔倒频谱参数,所述UBM训练进一步包括:
b-1),对所述语音特征参数进行前端处理,得到特征向量feat;语音的前端处理是在特征提取之前,先对原始语音进行处理,部分消除噪声和不同说话人带来的影响,抑制各种干扰,使待识别的语音更干净更能反映语音的本质特征;语音前端处理算法在语音通信和语音修复中也有着广泛的应用。最常用的前端处理有端点检测(VAD,又称语音边界检测)、降噪(噪声抑制)和语音增强(例如基于短时谱估计增强算法中的谱减法);
b-2),将所述特征向量feat在UBM通用背景模型中进行适应,得到GMM的后验概率post;
b-3),根据所述特征向量feat和所述GMM的后验概率post,进行训练特征提取器extractor,并利用该特征提取器extractor进行提取所述语音信号的身份特征向量ivector;
b-4),通过后端的PLDA算法进行判断两个不同的身份特征向量ivector的相似程度;本实施例中,还进一步根据所述相似程度进行相似度打分,获取得分score。
其中,UBM是由多个GM组成,UBM的表达式为:
其中,M是GM的数量,每个GM的权重为w。
所述GMM的后验概率post的计算方法为:
其中,pi(xt)、pj(xt)是GM的概率密度函数,其计算公式为:
所述的步骤c中,统计UBM训练步骤中各GM的贡献值,是将每个GM适应的总次数作为所述贡献值;并且,根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例,并根据所述裁剪比例进行设置所述贡献度阈值。
所述的步骤d中,对GM进行裁剪,是将待裁剪的GM对应的S、m、T的行数据进行删除,其中,S=m+Tw;m值是UBM中GM的均值u的组合,S是UBM对说话人语音适应后的UBM’的均值u的组合;T的维度为M*R*X,M为GM的数量,R为GM的维度,T中的每个R*X对应一个GM的转换;w是指每个GM的权重。
另外,本发明所述语音特征参数还可采用LPCC(Linear Prediction CepstrumCoefficient,简称LPCC)线性预测倒谱系数,或者采用局部归一化倒谱系数及小波包变换等其他特征,不以此为限。
如图2所示,本发明还提供前述的一种基于ivector的轻量化声纹识别方法相对应的系统,其包括:
语音信号采集模块,用于采集语音信号;
特征参数提取模块,用于对所述语音信号提取语音特征参数;
UBM训练模块,其基于所述语音特征参数进行UBM训练;
GMM统计模块,用于统计UBM训练步骤中各GM的贡献值;
GMM裁剪模块,用于将贡献值小于预设的贡献度阈值的GM进行裁剪。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种基于ivector的轻量化声纹识别方法,其特征在于,包括以下步骤:
a.采集语音信号,并对所述语音信号提取语音特征参数;
b.基于所述语音特征参数进行UBM训练;
c.统计UBM训练步骤中各GM的贡献值;
d.将贡献值小于预设的贡献度阈值的GM进行裁剪。
2.根据权利要求1所述的一种基于ivector的轻量化声纹识别方法,其特征在于:所述的步骤a中,对所述语音信号提取语音特征参数,进一步包括:
a-1),通过高通滤波器对所述语音信号进行预加重,并进行分帧加窗处理;
a-2),对分帧加窗后的各帧信号进行快速傅里叶变换,得到各帧的频谱信号;
a-3),对所述频谱取模平方得到所述语音信号的幅度谱;
a-4),将所述幅度谱通过Mel三角形滤波器组,得到对数能量;
a-5),将所述对数能量经离散余弦变换得到MFCC梅尔倒频谱参数,即为所述语音特征参数。
3.根据权利要求1所述的一种基于ivector的轻量化声纹识别方法,其特征在于:所述的步骤b中,所述语音特征参数采用MFCC梅尔倒频谱参数,所述UBM训练进一步包括:
b-1),对所述语音特征参数进行前端处理,得到特征向量feat;
b-2),将所述特征向量feat在UBM通用背景模型中进行适应,得到GMM的后验概率post;
b-3),根据所述特征向量feat和所述GMM的后验概率post,进行训练特征提取器extractor,并利用该特征提取器extractor进行提取所述语音信号的身份特征向量ivector;
b-4),通过后端的PLDA算法进行判断两个不同的身份特征向量ivector的相似程度。
4.根据权利要求3所述的一种基于ivector的轻量化声纹识别方法,其特征在于:所述的步骤c中,统计UBM训练步骤中各GM的贡献值,是根据所述特征向量feat的数量和所述GMM的后验概率post的数量进行设置GM的裁剪比例,并根据所述裁剪比例进行设置所述贡献度阈值。
5.根据权利要求3所述的一种基于ivector的轻量化声纹识别方法,其特征在于:所述的步骤c中,统计UBM训练步骤中各GM的贡献值,是将每个GM适应的总次数作为所述贡献值。
6.一种基于ivector的轻量化声纹识别系统,其特征在于,包括:
语音信号采集模块,用于采集语音信号;
特征参数提取模块,用于对所述语音信号提取语音特征参数;
UBM训练模块,其基于所述语音特征参数进行UBM训练;
GMM统计模块,用于统计UBM训练步骤中各GM的贡献值;
GMM裁剪模块,用于将贡献值小于预设的贡献度阈值的GM进行裁剪。
CN201910073337.8A 2019-01-25 2019-01-25 基于ivector的轻量化声纹识别方法和系统 Withdrawn CN109616124A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910073337.8A CN109616124A (zh) 2019-01-25 2019-01-25 基于ivector的轻量化声纹识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910073337.8A CN109616124A (zh) 2019-01-25 2019-01-25 基于ivector的轻量化声纹识别方法和系统

Publications (1)

Publication Number Publication Date
CN109616124A true CN109616124A (zh) 2019-04-12

Family

ID=66018463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910073337.8A Withdrawn CN109616124A (zh) 2019-01-25 2019-01-25 基于ivector的轻量化声纹识别方法和系统

Country Status (1)

Country Link
CN (1) CN109616124A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111794A (zh) * 2019-04-16 2019-08-09 深圳壹账通智能科技有限公司 应用程序的启动方法、装置、计算机设备及存储介质
CN110555370A (zh) * 2019-07-16 2019-12-10 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111794A (zh) * 2019-04-16 2019-08-09 深圳壹账通智能科技有限公司 应用程序的启动方法、装置、计算机设备及存储介质
CN110555370A (zh) * 2019-07-16 2019-12-10 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法
CN110555370B (zh) * 2019-07-16 2023-03-31 西北工业大学 水下目标识别中基于plda因子分析法的通道效应抑制方法
CN111145758A (zh) * 2019-12-25 2020-05-12 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN106847292B (zh) 声纹识别方法及装置
CN108986824B (zh) 一种回放语音检测方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102968990B (zh) 说话人识别方法和系统
CN106024010B (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN109616124A (zh) 基于ivector的轻量化声纹识别方法和系统
CN105679312B (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN108198545A (zh) 一种基于小波变换的语音识别方法
Todkar et al. Speaker recognition techniques: A review
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN101887722A (zh) 快速声纹认证方法
Manurung et al. Speaker recognition for digital forensic audio analysis using learning vector quantization method
CN106782503A (zh) 基于发音过程中生理信息的自动语音识别方法
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
CN108922514A (zh) 一种基于低频对数谱的鲁棒特征提取方法
CN108172214A (zh) 一种基于Mel域的小波语音识别特征参数提取方法
CN110197657B (zh) 一种基于余弦相似度的动态音声特征提取方法
CN107527611A (zh) Mfcc语音识别方法、存储介质、电子设备及系统
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Ravindran et al. Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN114299986A (zh) 一种基于跨域迁移学习的小样本声音识别方法及系统
Zhang et al. Deep scattering spectra with deep neural networks for acoustic scene classification tasks
CN112309404B (zh) 机器语音的鉴别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190412