CN107886943A - 一种声纹识别方法及装置 - Google Patents

一种声纹识别方法及装置 Download PDF

Info

Publication number
CN107886943A
CN107886943A CN201711167480.0A CN201711167480A CN107886943A CN 107886943 A CN107886943 A CN 107886943A CN 201711167480 A CN201711167480 A CN 201711167480A CN 107886943 A CN107886943 A CN 107886943A
Authority
CN
China
Prior art keywords
current
voice
frame
vector
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711167480.0A
Other languages
English (en)
Inventor
陈东鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Network Technology Co Ltd
Original Assignee
Guangzhou Speakin Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Network Technology Co Ltd filed Critical Guangzhou Speakin Network Technology Co Ltd
Priority to CN201711167480.0A priority Critical patent/CN107886943A/zh
Publication of CN107886943A publication Critical patent/CN107886943A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明实施例公开了一种声纹识别方法及装置,其中,该声纹识别方法包括:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。相对于传统通过高斯混合模型对人声语音信号进行身份矢量的提取做法,通过神经网络能够提取出更准确的说话人的身份矢量,极大地提高了系统识别准确率和鲁棒性,也保证了声纹提取和验证的速度,能适应多种不同场景与应用的需求。

Description

一种声纹识别方法及装置
技术领域
本发明涉及声纹识别领域,尤其涉及一种声纹识别方法及装置。
背景技术
声纹识别系统是根据人声的特质来自动识别说话人身份的系统。声纹识 别技术属于生物验证技术的一种,采用语音对说话人身份进行验证。这种技 术具有较好的便捷性、稳定性、可测量性和安全性等特点。作为一种非接触 式的采集、识别技术,声纹的获取成本较低、获取方便、使用简单,在银行、 社保、公安、智能家居、移动支付等领域都有巨大应用前景。
1945年,贝尔实验室的研究人员通过观察语谱图的匹配情况,提出了“声 纹”的概念,意指不同人的声音具有个体差异性,并基于语谱图匹配的方法 进行声纹识别实验;随后几十年间,在模板匹配和统计方差分析基础上,研 究人员的工作主要集中在各种识别参数的提取、选择和实验上,致力于从声 学角度对反应语音特征的物理参数的提取。1980年后,声纹识别技术的研究 重点开始转向采用统计学的方法对声纹进行建模,其中,最具代表性的有基 于高斯混合模型-通用背景模型(Gaussian Mixture Model-UniversalBackground Model,GMM-UBM)的声纹识别方法,该方法只需要少量语音数据就能完成 特定说话人模型训练,但在多信道测试条件下此方法性能严重下降,从而制 约声纹识别技术的应用。针对信道失配问题,Kenny提出联合因子分析(Joint Factor Analysis,JFA)技术,虽然在信道失配条件下相对于GMM-UBM方法, JFA取得了较好的效果,但在各种信道下的训练数据不均衡时,JFA技术存在 明显不足;2011年,Dehak提出身份矢量(i-vector)技术,基于i-vector技术 的声纹识别系统能较好的反映说话人语音特性,也逐渐成为声纹识别的主流 技术,但是,由于i-vector技术中采用的GMM-UBM是一种无监督学习的建 模方法,一定程度上制约了基于i-vector声纹识别系统的性能。
在实际应用中,传统的声纹识别系统面临多通道音频采集过程繁琐、系 统识别的准确率和鲁棒性较低等问题,极大地影响声纹识别系统的可用性。
发明内容
本发明实施例提供了一种声纹识别方法及装置,能够提高声纹识别系统 的音频采集效率、识别准确率和鲁棒性。
本发明实施例提供了一种声纹识别方法,包括:
S1:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;
S2:通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待 测试的身份矢量;
S3:将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数, 再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
优选地,步骤S1具体包括:
通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音 边界检测算法对当前语音帧进行分离得到当前人声语音帧。
优选地,步骤S3具体包括:
S31:通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢 量进行比对得到匹配分数;
S32:对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与 预置阈值进行比较,得到声纹识别结果。
优选地,步骤S2之前还包括:
T1:计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根 据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音 帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声 语音信号滤除,得到滤除后的当前人声语音帧;
T2:通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增 强,得到增强后的当前人声语音帧;
T3:对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到 当前语音特征;
T4:通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的 当前语音特征;
T5:获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两 个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征 进行拼接得到语音特征向量;
步骤S2具体为:通过深度神经网络对语音特征向量进行身份矢量的提取, 得到待测试的身份矢量。
优选地,步骤S2具体包括:
S21:将语音特征向量输入深度神经网络进行计算得到后验概率;
S22:根据后验概率计算零阶统计量、一阶统计量和二阶统计量;
S23:根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;
S24:根据全局差异矩阵通过预置公式计算待测试的身份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为 待测试的身份矢量。
优选地,本发明还提供了一种声纹识别装置,包括:
分离单元,用于获取到当前语音帧,对当前语音帧进行分离得到当前人 声语音帧;
提取单元,用于通过深度神经网络对当前人声语音帧进行身份矢量的提 取,得到待测试的身份矢量;
比对单元,用于将待测试的身份矢量与预置的身份矢量进行比对得到最 终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
优选地,分离单元还用于通过麦克风装置获取到当前语音帧,然后通过 结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声 语音帧。
优选地,比对单元包括:
比对子单元,用于通过概论线性区分性分析模型将待测试的身份矢量与 预置的身份矢量进行比对得到匹配分数;
比较子单元,用于对匹配分数进行偏移补偿得到最终匹配分数,并将最 终匹配分数与预置阈值进行比较,得到声纹识别结果。
优选地,本发明实施例提供的一种声纹识别装置还包括:处理单元;
处理单元具体包括:
滤除子单元,用于计算当前人声语音帧的有效语音时长、信噪比和语音 信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将 当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和 小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;
增强子单元,用于通过快速线性语音增强算法对滤除后的当前人声语音 帧进行音量增强,得到增强后的当前人声语音帧;
特征提取子单元,用于对增强后的当前人声语音帧进行梅尔频率倒谱系 数特征提取,得到当前语音特征;
降噪子单元,用于通过深度降噪自动编码器对当前语音特征进行降噪, 得到降噪后的当前语音特征;
拼接子单元,用于获取到与降噪后的当前语音特征时序相邻的前两个语 音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后 两个语音特征进行拼接得到语音特征向量;
提取单元还用于通过深度神经网络对语音特征向量进行身份矢量的提 取,得到待测试的身份矢量。
优选地,提取单元具体包括:
第一计算子单元,用于将语音特征向量输入深度神经网络进行计算得到 后验概率;
第二计算子单元,用于根据后验概率计算零阶统计量、一阶统计量和二 阶统计量;
第三计算子单元,用于根据零阶统计量、一阶统计量和二阶统计量计算 全局差异矩阵;
第四计算子单元,用于根据全局差异矩阵通过预置公式计算待测试的身 份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为 待测试的身份矢量。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例提供了一种声纹识别方法及装置,其中,该声纹识别方法 包括:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;通 过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份 矢量;将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数, 再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。相对于传统通 过高斯混合模型对人声语音信号进行身份矢量的提取做法,通过神经网络能 够提取出更准确的说话人的身份矢量,极大地提高了系统识别准确率和鲁棒性,也保证了声纹提取和验证的速度,能适应多种不同场景与应用的需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种声纹识别方法的一个实施例的流程示意 图;
图2为本发明实施例提供的一种声纹识别方法的另一个实施例的流程示 意图;
图3为本发明实施例提供的一种声纹识别装置的一个实施例的结构示意 图。
具体实施方式
本发明实施例提供了一种声纹识别方法及装置,能够提高声纹识别系统 的音频采集效率、识别准确率和鲁棒性。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将 结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部 的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供的一种声纹识别方法的一个实施例,包括:
101、获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;
需要说明的是,获取到一个语音信号后,首先将完整的语音信号分为一 定时长的语音帧,例如每个语音帧时长可以为10ms,完整的语音信号为1m。 获取到当前需要处理的当前语音帧,对当前语音帧进行分离得到当前人声语 音帧,可以理解的是,人声语音帧为语音帧中有效的人声语音部分。
102、通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待 测试的身份矢量;
得到当前人声语音帧后,通过深度神经网络对当前人声语音帧进行身份 矢量的提取,得到待测试的身份矢量。
103、将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分 数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
得到待测试的身份矢量后,将待测试的身份矢量与预置的身份矢量进行 比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹 识别结果。
以上为一种声纹识别方法的一个实施例,为进行更具体的说明,下面提 供一种声纹识别方法的另一个实施例,请参阅图2,本发明提供的一种声纹识 别方法的另一个实施例,包括:
201、通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的 语音边界检测算法对当前语音帧进行分离得到当前人声语音帧;
获取到一个语音信号后,首先将完整的语音信号分为一定时长的语音帧, 例如每个语音帧时长可以为10ms,完整的语音信号为1s。获取到当前需要处 理的当前语音帧,对当前语音帧进行分离得到当前人声语音帧,可以理解的 是,人声语音帧为语音帧中有效的人声语音部分。
在本实施例中,包括一个用于音频采集的、可模拟多通道的麦克风装置。
202、计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根 据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音 帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声 语音信号滤除,得到滤除后的当前人声语音帧;
为保证声纹注册的质量,以及验证的准确度,对人声语音帧进行录音质 量检查,质量检测的过程包括:1)计算有效语音时长,滤出时长过短的语音; 2)计算噪音部分的能量,进而计算出信噪比,滤除信噪比过低的语音;3) 计算语音信号能量,滤除音量非常小的语音,通过质量检查后,得到滤除后 的当前人声语音帧。
203、通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增 强,得到增强后的当前人声语音帧;
为保证在声音信号处理过程中尽可能地保留声纹信息,本实施例选择快 速线性语音增强算法,在抑制噪声的同时增强人声部分的能量,同时保证了 人声部分时长不受影响,即通过快速线性语音增强算法对滤除后的当前人声 语音帧进行音量增强,得到增强后的当前人声语音帧。
204、对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到 当前语音特征;
得到增强后的当前人声语音帧后,在广泛应用于语音识别的MFCC(梅 尔频率倒谱系数)特征的基础上,对其提取更高维数的MFCC特征,即当前 语音特征,该特征能更精细地反映说话人特性。
205、通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的 当前语音特征;
利用预先离线训练好的深度降噪自动编码器(Deep Denoising AutoEncoder,Deep DAE)对带噪声的MFCC特征进行降噪,专用的深度神经网络算法可以 自动从大量语音数据中学习如何区分无用噪声和有用人声,并将噪声从人声 中分离,还原清晰的语音。
206、获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两 个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征 进行拼接得到语音特征向量;
需要说明的是,步骤201中将完整的语音信号分成多个语音帧,每个语 音帧均需进行语音特征的提取,可以理解的是,多个语音帧在时序上是具备 一定顺序的,例如将一段时长为10s的语音分成10个语音帧,每个语音帧的 时长为1s,第一语音帧为整个语音第一秒的语音,第二语音帧为整个语音第 二秒的语音…以此类推。因此,在本实施例中,得到当前语音特征后,通过 在与当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个 语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征 向量,例如当前语音特征为第5个语音帧的语音特征,则取第3个语音帧、 第4个语音帧、第6个语音帧和第7个语音帧的语音特征进行拼接得到语音 特征向量,若当前语音特征为最后一个语音帧的语音特征,则其后两个语音 特征默认为零语音特征(即静音)。
207、通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测 试的身份矢量;
在本实施例中,步骤207在传统的身份矢量提取过程中,通过背景模型 UBM为深度神经网络的方式进行提取,具体包括:
2071、将语音特征向量输入深度神经网络进行计算得到后验概率;
2072、根据后验概率计算零阶统计量、一阶统计量和二阶统计量;
在i-vector系统总体变化子空间T的估计过程中,由于高斯混合模型均值 超矢量是通过计算声学特征相对于通用背景模型UBM均值超矢量的零阶、一 阶和二阶统计量得到的。为了估计各阶段统计量,需要首先利用一些训练数 据通过期望最大化(ExpectationMaximun,EM)算法得到通用背景模型UBM, 该模型提供了一个统一的参考坐标空间,并且可以在一定程度上解决由于说 话人训练数据较少导致的小样本问题。而特定说话人的高斯混合模型则可以 通过训练数据在该UBM上面进行最大厚颜概率(Maximum A Posterior,MAP) 自适应得到。各阶统计量的估计过程如下所示,假设说话人s的声学特征表示 为xs,t,则其相对于UBM均值超矢量m的零阶统计量Nc,s,一阶统计量Fc,s以及 二阶统计量Sc,s,如下列公式所示:
其中,mc代表神经网络计算得到的UBM均值超矢量m中的第c个高斯 均值分量,t表示时间帧索引。γc,s,t表示UBM第c个高斯分量的后验概率。 diag{}表示取对角运算。假设单高斯模型的维数为F,则将所有C个高斯模型 的均值矢量拼接成的高斯均值超矢量维数为FC。
2073、根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;
子空间T的估计可以采用如下的期望最大化(Expectation Maximum,EM) 算法得到,首先随机初始化子空间矩阵T,然后固定T,在最大似然准则下估 计隐变量ω的一阶和二阶统计量,估计过程如下公式所示。其中超矢量Fs是由 Fc,s矢量拼接成FC×1维的矢量。Ns是由Nc,s作为主对角元拼接成的FC×FC维的 矩阵。
Ls=I+TT-1NsT
式中Ls是临时变量,∑是UBM的协方差矩阵。
接着更新T矩阵和协方差矩阵∑。T矩阵的更新过程可以利用下示公式实 现。
对UBM协方差矩阵∑的更新过程如下公式所示。
式中Ss是由Sc,s进行矩阵对角拼接成的FC×FC维的矩阵,N=∑Ns为所有 说话人的零阶统计量之和。
对于上述步骤反复进行迭代6~8次后,可近似认为T矩阵和协方差矩阵∑ 收敛。
2074、根据全局差异矩阵通过预置公式计算待测试的身份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为 待测试的身份矢量。
208、通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢 量进行比对得到匹配分数;
209、对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与 预置阈值进行比较,得到声纹识别结果。
为了尽可能减少环境声音对208中得到的匹配分数造成的影响,本系统 通过大量真实环境下的实验,对208中得到的匹配分数做出相应的偏移补偿, 比较最终分数与预置阈值,得到声纹识别结果,作出决策。
请参阅图3,本发明实施例提供的一种声纹识别装置的一个实施例,包括:
分离单元301,用于获取到当前语音帧,对当前语音帧进行分离得到当前 人声语音帧;
提取单元303,用于通过深度神经网络对当前人声语音帧进行身份矢量的 提取,得到待测试的身份矢量;
比对单元304,用于将待测试的身份矢量与预置的身份矢量进行比对得到 最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
在本实施例中,分离单元301还用于通过麦克风装置获取到当前语音帧, 然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到 当前人声语音帧。
在本实施例中,比对单元304包括:
比对子单元3041,用于通过概论线性区分性分析模型将待测试的身份矢 量与预置的身份矢量进行比对得到匹配分数;
比较子单元3042,用于对匹配分数进行偏移补偿得到最终匹配分数,并 将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
在本实施例中,本发明实施例提供的一种声纹识别装置还包括:处理单 元302;
处理单元302具体包括:
滤除子单元3021,用于计算当前人声语音帧的有效语音时长、信噪比和 语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能 量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信 号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;
增强子单元3022,用于通过快速线性语音增强算法对滤除后的当前人声 语音帧进行音量增强,得到增强后的当前人声语音帧;
特征提取子单元3023,用于对增强后的当前人声语音帧进行梅尔频率倒 谱系数特征提取,得到当前语音特征;
降噪子单元3024,用于通过深度降噪自动编码器对当前语音特征进行降 噪,得到降噪后的当前语音特征;
拼接子单元3025,用于获取到与降噪后的当前语音特征时序相邻的前两 个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征 和后两个语音特征进行拼接得到语音特征向量;
提取单元303还用于通过深度神经网络对语音特征向量进行身份矢量的 提取,得到待测试的身份矢量。
在本实施例中,提取单元303具体包括:
第一计算子单元3031,用于将语音特征向量输入深度神经网络进行计算 得到后验概率;
第二计算子单元3032,用于根据后验概率计算零阶统计量、一阶统计量 和二阶统计量;
第三计算子单元3033,用于根据零阶统计量、一阶统计量和二阶统计量 计算全局差异矩阵;
第四计算子单元3034,用于根据全局差异矩阵通过预置公式计算待测试 的身份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为 待测试的身份矢量。
本发明实施例使用用于语音识别的深度神经网络(DNN),将级联后的短 时语音帧看做三音素模型(Tri-phone)输入到之前训练好的DNN网络中,按 照后验概率将短时语音帧进行分类。每一帧和对应的后验概率可以被用于训 练一个新的UBM,这样可以通过监督学习的方式训练UBM,取代了传统UBM 训练中的无监督的EM算法。
声纹识别技术作为一种远程非接触式的身份验证技术,结合跨媒体交互 通信与应用服务平台,在在银行、社保、公安、智能家居、移动支付等领域 都有巨大应用前景。本发明采用基于深度学习的声纹识别算法,与其他传统 声纹识别算法相比,具有准确率高、噪声鲁棒和信道鲁棒、适应各种文本等 优点,支持跨平台、跨信道部署;同时,针对多通道声纹采集问题,提出可 以模拟多通道的声纹采集装置,能极大简化声纹采集流程,提升声纹采集工 作效率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描 述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应 过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和 方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示 意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可 以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个 系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间 的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合 或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单 元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单 元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售 或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本 发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的 全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个 存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步 骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘 等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制; 尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其 中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案 的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种声纹识别方法,其特征在于,包括:
S1:获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;
S2:通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;
S3:将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
2.根据权利要求1所述的声纹识别方法,其特征在于,步骤S1具体包括:
通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧。
3.根据权利要求1所述的声纹识别方法,其特征在于,步骤S3具体包括:
S31:通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;
S32:对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
4.根据权利要求1所述的声纹识别方法,其特征在于,步骤S2之前还包括:
T1:计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;
T2:通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;
T3:对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;
T4:通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;
T5:获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;
步骤S2具体为:通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量。
5.根据权利要求4所述的声纹识别方法,其特征在于,步骤S2具体包括:
S21:将语音特征向量输入深度神经网络进行计算得到后验概率;
S22:根据后验概率计算零阶统计量、一阶统计量和二阶统计量;
S23:根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;
S24:根据全局差异矩阵通过预置公式计算待测试的身份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为待测试的身份矢量。
6.一种声纹识别装置,其特征在于,包括:
分离单元,用于获取到当前语音帧,对当前语音帧进行分离得到当前人声语音帧;
提取单元,用于通过深度神经网络对当前人声语音帧进行身份矢量的提取,得到待测试的身份矢量;
比对单元,用于将待测试的身份矢量与预置的身份矢量进行比对得到最终匹配分数,再将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
7.根据权利要求6所述的声纹识别装置,其特征在于,分离单元还用于通过麦克风装置获取到当前语音帧,然后通过结合深度神经网络的语音边界检测算法对当前语音帧进行分离得到当前人声语音帧。
8.根据权利要求6所述的声纹识别方法,其特征在于,比对单元包括:
比对子单元,用于通过概论线性区分性分析模型将待测试的身份矢量与预置的身份矢量进行比对得到匹配分数;
比较子单元,用于对匹配分数进行偏移补偿得到最终匹配分数,并将最终匹配分数与预置阈值进行比较,得到声纹识别结果。
9.根据权利要求6所述的声纹识别装置,其特征在于,还包括:处理单元;
处理单元具体包括:
滤除子单元,用于计算当前人声语音帧的有效语音时长、信噪比和语音信号音量,根据当前人声语音帧的有效语音时长、信噪比和语音信号能量将当前人声语音帧包含的短时长的人声语音信号、低信噪比的人声语音信号和小音量的人声语音信号滤除,得到滤除后的当前人声语音帧;
增强子单元,用于通过快速线性语音增强算法对滤除后的当前人声语音帧进行音量增强,得到增强后的当前人声语音帧;
特征提取子单元,用于对增强后的当前人声语音帧进行梅尔频率倒谱系数特征提取,得到当前语音特征;
降噪子单元,用于通过深度降噪自动编码器对当前语音特征进行降噪,得到降噪后的当前语音特征;
拼接子单元,用于获取到与降噪后的当前语音特征时序相邻的前两个语音特征和后两个语音特征,将前两个语音特征、降噪后的当前语音特征和后两个语音特征进行拼接得到语音特征向量;
提取单元还用于通过深度神经网络对语音特征向量进行身份矢量的提取,得到待测试的身份矢量。
10.根据权利要求9所述的声纹识别方法,其特征在于,提取单元具体包括:
第一计算子单元,用于将语音特征向量输入深度神经网络进行计算得到后验概率;
第二计算子单元,用于根据后验概率计算零阶统计量、一阶统计量和二阶统计量;
第三计算子单元,用于根据零阶统计量、一阶统计量和二阶统计量计算全局差异矩阵;
第四计算子单元,用于根据全局差异矩阵通过预置公式计算待测试的身份矢量;
其中,预置公式为:
Ms=mu+Tωs
式中,mu为深度神经网络的高斯均值超矢量,T为全局差异矩阵,ωs为待测试的身份矢量。
CN201711167480.0A 2017-11-21 2017-11-21 一种声纹识别方法及装置 Pending CN107886943A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711167480.0A CN107886943A (zh) 2017-11-21 2017-11-21 一种声纹识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711167480.0A CN107886943A (zh) 2017-11-21 2017-11-21 一种声纹识别方法及装置

Publications (1)

Publication Number Publication Date
CN107886943A true CN107886943A (zh) 2018-04-06

Family

ID=61778352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711167480.0A Pending CN107886943A (zh) 2017-11-21 2017-11-21 一种声纹识别方法及装置

Country Status (1)

Country Link
CN (1) CN107886943A (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN108962237A (zh) * 2018-05-24 2018-12-07 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN109273002A (zh) * 2018-10-26 2019-01-25 蔚来汽车有限公司 车辆配置方法、系统、车机以及车辆
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN109493873A (zh) * 2018-11-13 2019-03-19 平安科技(深圳)有限公司 牲畜声纹识别方法、装置、终端设备及计算机存储介质
CN109584887A (zh) * 2018-12-24 2019-04-05 科大讯飞股份有限公司 一种声纹信息提取模型生成、声纹信息提取的方法和装置
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110223429A (zh) * 2019-06-19 2019-09-10 上海应用技术大学 语音门禁系统
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
WO2019233360A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
WO2019233361A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 对音乐进行音量调节的方法及设备
CN110782902A (zh) * 2019-11-06 2020-02-11 北京远鉴信息技术有限公司 音频数据确定方法、装置、设备和介质
CN110970036A (zh) * 2019-12-24 2020-04-07 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN111179942A (zh) * 2020-01-06 2020-05-19 泰康保险集团股份有限公司 声纹识别方法、装置、设备及计算机可读存储介质
CN111243619A (zh) * 2020-01-06 2020-06-05 平安科技(深圳)有限公司 语音信号分割模型的训练方法、装置和计算机设备
CN111785282A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 一种语音识别方法及装置和智能音箱
CN111785302A (zh) * 2020-06-23 2020-10-16 北京声智科技有限公司 说话人分离方法、装置及电子设备
TWI745968B (zh) * 2019-05-20 2021-11-11 仁寶電腦工業股份有限公司 降噪方法和使用該方法的降噪裝置及降噪系統
CN113782033A (zh) * 2021-09-26 2021-12-10 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
CN117576763A (zh) * 2024-01-11 2024-02-20 杭州世平信息科技有限公司 云环境下基于声纹信息和人脸信息的身份识别方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254551A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 声纹认证装置
CN102376306A (zh) * 2010-08-04 2012-03-14 华为技术有限公司 语音帧等级的获取方法及装置
US8352265B1 (en) * 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN106098068A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
WO2017099936A1 (en) * 2015-12-10 2017-06-15 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352265B1 (en) * 2007-12-24 2013-01-08 Edward Lin Hardware implemented backend search engine for a high-rate speech recognition system
CN102254551A (zh) * 2010-05-20 2011-11-23 盛乐信息技术(上海)有限公司 声纹认证装置
CN102376306A (zh) * 2010-08-04 2012-03-14 华为技术有限公司 语音帧等级的获取方法及装置
CN103971690A (zh) * 2013-01-28 2014-08-06 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN105609114A (zh) * 2014-11-25 2016-05-25 科大讯飞股份有限公司 一种发音检测方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置
WO2017099936A1 (en) * 2015-12-10 2017-06-15 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN106098068A (zh) * 2016-06-12 2016-11-09 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN107146601A (zh) * 2017-04-07 2017-09-08 南京邮电大学 一种用于说话人识别系统的后端i‑vector增强方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李湾湾: "基于改进MFD的i-vector说话人识别", 《电声技术》 *
林舒都: "基于i-vector和深度学习的说话人识别", 《计算机技术与发展》 *

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108597496B (zh) * 2018-05-07 2020-08-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108597496A (zh) * 2018-05-07 2018-09-28 广州势必可赢网络科技有限公司 一种基于生成式对抗网络的语音生成方法及装置
CN108962237A (zh) * 2018-05-24 2018-12-07 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
WO2019233360A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
WO2019233361A1 (zh) * 2018-06-05 2019-12-12 安克创新科技股份有限公司 对音乐进行音量调节的方法及设备
US11875807B2 (en) 2018-06-05 2024-01-16 Anker Innovations Technology Co., Ltd. Deep learning-based audio equalization
CN108766459A (zh) * 2018-06-13 2018-11-06 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
CN108766459B (zh) * 2018-06-13 2020-07-17 北京联合大学 一种多人语音混合中目标说话人估计方法及系统
US11341983B2 (en) 2018-09-17 2022-05-24 Honeywell International Inc. System and method for audio noise reduction
CN109273002A (zh) * 2018-10-26 2019-01-25 蔚来汽车有限公司 车辆配置方法、系统、车机以及车辆
CN109273002B (zh) * 2018-10-26 2022-06-10 蔚来(安徽)控股有限公司 车辆配置方法、系统、车机以及车辆
CN109493873A (zh) * 2018-11-13 2019-03-19 平安科技(深圳)有限公司 牲畜声纹识别方法、装置、终端设备及计算机存储介质
CN109346088A (zh) * 2018-12-06 2019-02-15 泰康保险集团股份有限公司 身份识别方法、装置、介质及电子设备
CN109584887B (zh) * 2018-12-24 2022-12-02 科大讯飞股份有限公司 一种声纹信息提取模型生成、声纹信息提取的方法和装置
CN109584887A (zh) * 2018-12-24 2019-04-05 科大讯飞股份有限公司 一种声纹信息提取模型生成、声纹信息提取的方法和装置
CN111785282A (zh) * 2019-04-03 2020-10-16 阿里巴巴集团控股有限公司 一种语音识别方法及装置和智能音箱
CN110033757A (zh) * 2019-04-04 2019-07-19 行知技术有限公司 一种人声识别算法
TWI745968B (zh) * 2019-05-20 2021-11-11 仁寶電腦工業股份有限公司 降噪方法和使用該方法的降噪裝置及降噪系統
CN110223429A (zh) * 2019-06-19 2019-09-10 上海应用技术大学 语音门禁系统
CN110265052A (zh) * 2019-06-24 2019-09-20 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110265052B (zh) * 2019-06-24 2022-06-10 秒针信息技术有限公司 收音设备的信噪比确定方法、装置、存储介质及电子装置
CN110197665A (zh) * 2019-06-25 2019-09-03 广东工业大学 一种用于公安刑侦监听的语音分离与跟踪方法
CN110491373A (zh) * 2019-08-19 2019-11-22 Oppo广东移动通信有限公司 模型训练方法、装置、存储介质及电子设备
CN110782902A (zh) * 2019-11-06 2020-02-11 北京远鉴信息技术有限公司 音频数据确定方法、装置、设备和介质
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN110970036A (zh) * 2019-12-24 2020-04-07 网易(杭州)网络有限公司 声纹识别方法及装置、计算机存储介质、电子设备
CN111243619A (zh) * 2020-01-06 2020-06-05 平安科技(深圳)有限公司 语音信号分割模型的训练方法、装置和计算机设备
CN111179942A (zh) * 2020-01-06 2020-05-19 泰康保险集团股份有限公司 声纹识别方法、装置、设备及计算机可读存储介质
CN111243619B (zh) * 2020-01-06 2023-09-22 平安科技(深圳)有限公司 语音信号分割模型的训练方法、装置和计算机设备
CN111785302A (zh) * 2020-06-23 2020-10-16 北京声智科技有限公司 说话人分离方法、装置及电子设备
CN113782033A (zh) * 2021-09-26 2021-12-10 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质
CN113782033B (zh) * 2021-09-26 2023-11-24 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质
CN117576763A (zh) * 2024-01-11 2024-02-20 杭州世平信息科技有限公司 云环境下基于声纹信息和人脸信息的身份识别方法及系统

Similar Documents

Publication Publication Date Title
CN107886943A (zh) 一种声纹识别方法及装置
WO2018166112A1 (zh) 基于声纹识别的身份验证的方法、电子装置及存储介质
CN101980336B (zh) 一种基于隐马尔可夫模型的汽车声音识别方法
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN107886957A (zh) 一种结合声纹识别的语音唤醒方法及装置
CN107610707A (zh) 一种声纹识别方法及装置
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN108281146A (zh) 一种短语音说话人识别方法和装置
CN108986798B (zh) 语音数据的处理方法、装置及设备
CN106898355B (zh) 一种基于二次建模的说话人识别方法
CN110265035B (zh) 一种基于深度学习的说话人识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN105096955A (zh) 一种基于模型生长聚类的说话人快速识别方法及系统
CN110728991B (zh) 一种改进的录音设备识别算法
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN108198561A (zh) 一种基于卷积神经网络的翻录语音检测方法
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN110570871A (zh) 一种基于TristouNet的声纹识别方法、装置及设备
CN103280219A (zh) 一种基于Android平台的声纹认证方法
CN113270112A (zh) 一种电子伪装语音自动判别与还原方法及系统
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180406