CN108899032A - 声纹识别方法、装置、计算机设备及存储介质 - Google Patents

声纹识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108899032A
CN108899032A CN201810573715.4A CN201810573715A CN108899032A CN 108899032 A CN108899032 A CN 108899032A CN 201810573715 A CN201810573715 A CN 201810573715A CN 108899032 A CN108899032 A CN 108899032A
Authority
CN
China
Prior art keywords
voice
identified
feature
truncation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810573715.4A
Other languages
English (en)
Inventor
涂宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810573715.4A priority Critical patent/CN108899032A/zh
Priority to PCT/CN2018/092598 priority patent/WO2019232829A1/zh
Publication of CN108899032A publication Critical patent/CN108899032A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building

Abstract

本发明公开了一种声纹识别方法、装置、计算机设备及存储介质,其中,该声纹识别方法包括:获取待识别语音,待识别语音携带说话人标识;基于待识别语音,获取对应的待识别语音特征;采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征;基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取声纹识别结果。该方法通过修复待识别语音中的待识别语音特征后获取接近说话人原始语音的目标语音特征,可有效提高语音识别的可靠性和准确性。

Description

声纹识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及生物识别技术领域,尤其涉及一种声纹识别方法、装置、计算机设备及存储介质。
背景技术
通讯设备制造商为了使通话音量保持在一个合适的音量范围内,给通讯设备配置有语音增益控制模块,以使语音通话更为友好。自动增益控制模块的工作原理是通过调节语音音量的饱和值也即截顶语音来实现的,具体包括给音量小的语音增添较大增益,给音量大的语音分配较小增益。而这样的设置方式也随之带来问题:通信设备中的语音频繁出现截顶现象,使得基于该通信设备采集到的语音在进行声纹识别时,会削弱声纹识别的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种可以增强声纹识别准确性的声纹识别方法、装置、计算机设备及存储介质。
一种声纹识别方法,包括:
获取待识别语音,待识别语音携带说话人标识;
基于待识别语音,获取对应的待识别语音特征;
采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征;
基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
一种声纹识别装置,包括:
获取待识别语音模块,用于获取待识别语音,待识别语音携带说话人标识;
获取待识别特征模块,用于基于待识别语音,获取对应的待识别语音特征;
获取目标语音特征模块,用于采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征;
获取声纹识别结果模块,用于基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述声纹识别方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述声纹识别方法的步骤。
上述声纹识别方法、装置、计算机设备及存储介质,通过截顶语音检测算法可检测出待识别语音是否为截顶语音段,若是则通过截顶语音修复模型可将截顶语音段的待识别语音特征修复为目标语音特征,以对比说话人对于的标准语音特征来识别说话人的真实身份。本实施例通过修复待识别语音中的待识别语音特征后获取接近说话人原始语音的目标语音特征,可有效提高语音识别的可靠性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获取其他的附图。
图1是本发明一实施例中声纹识别方法的一应用环境示意图;
图2是本发明一实施例中声纹识别方法的一流程图;
图3是本发明一实施例中声纹识别方法的另一具体流程图;
图4是本发明一实施例中声纹识别方法的另一具体流程图;
图5是本发明一实施例中声纹识别方法的另一具体流程图;
图6是本发明一实施例中声纹识别方法的另一具体流程图;
图7是本发明一实施例中声纹识别装置的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的声纹识别方法,可应用在如图1的应用环境中,其中,语音采集终端通过网络与识别服务器进行通信。其中,语音采集终端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。识别服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
声纹(Voiceprint)信息,是用电声学仪器显示的携带言语信息的声波频谱。人的发声控制器官包括声带、软颚、舌头、牙齿和唇等,人的发声共鸣器包括咽腔、口腔和鼻腔。这些器官存在大小、形态及功能上的差异,这些差异导致发声气流的改变,造成音质和音色的差别。此外,人发声的习惯有快有慢,用力有大有小,也造成音强和音长的差别。音高、音强、音长和音色在语言学中被称为语音“四要素”,这些因素又可分解成九十余种特征。这些特征表现成不同声音的波长、频率、强度和节奏,通过声学工具可绘制成基于时域的功率谱,也即形成说话人的声纹信息。
声纹识别,生物识别技术的一种,也称为说话人识别,有两类,即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。应用于本实施例,基于说话人确认技术进行说明。
在一实施例中,如图2所示,提供一种声纹识别方法,以该声纹识别方法应用在图1中的识别服务器为例进行说明,包括如下步骤:
S10.获取待识别语音,待识别语音携带说话人标识。
其中,待识别语音是语音采集终端直接采集到的需要进行识别的语音,该待识别语音携带有说话人标识,用于识别该待识别语音对应的说话人。说话人标识是待识别说话人提供的用于验证身份的说话人标识,包括但不限于:姓名、注册名或身份证号码等可表示说话人唯一身份的标识。
由于通讯设备制造商在制造语音采集终端过程中,在该语音采集终端配置语音增益控制模块,以使采集到的说话人的语音保持在一个合适的音量范围内,使得该语音采集终端直接采集到的待识别语音包括截顶语音段和正常语音段。具体地,语音采集终端录制说话人发出的待识别语音时,若说话人的音量过大或过小,语音采集终端的语音增益控制模块会自适应调整最高音阈值或最低音阈值对应的幅度阈值,然后把待识别语音的音量高于最高音阈值的幅度部分或者低于最低音阈值的幅度部分截去,并记录为幅度阈值,从而形成截顶语音段。相应地,语音采集终端录制的待识别语音中,音量在最低音阈值和最高音阈值之间的语音部分无需通过语音增益控制模块进行增益处理,故为正常语音段。
以待识别语音形成的典型正弦声波信号为例,若待识别语音的最大振幅为Em,语音采集终端的幅度阈值为Eq,发生信号截顶时最大振幅Em超过幅度阈值Eq,则会直接导致采样点取值在幅度阈值Eq,在波形上显示为大于幅度阈值Eq的部分被截断,从而形成本实施例所说的截顶语音段。在实际情况下,当语音采集终端采集大量的待识别语音,语音采集终端可能会自动调整增益大小,可能发生接收到的样本会被随机记录成一个低于幅度阈值Eq的值Ec,此时,Ec自适应调整为幅度阈值。
S20.基于待识别语音,获取对应的待识别语音特征。
其中,待识别语音特征是用以将待识别语音区别于其他人语音的特征,应用于本实施例,可采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,以下简称MFCC特征)作为待识别语音特征。
语音特征在声纹识别技术领域常用MFCC(Mel-scale FrequencyCepstralCoefficients,梅尔频率倒谱系数)特征来表示。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,从低频到高频这一段频带内按临界带宽的大小可以由密到疏安排一组梅尔刻度的带通滤波器,对输入信号进行滤波以使每个频率段对应一个数值。梅尔刻度的滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
S30.采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征。
其中,目标语音特征包含正常语音段对应的语音特征,也包含采用截顶语音修复模型修复截顶语音段对应的语音特征所形成的语音特征。即目标语音特征是对待识别语音特征进行语音修复后形成的语音特征。
截顶语音修复模型是可以将输入的待识别语音特征还原,并输出为目标语音特征的模型。应用于本实施例,截顶语音修复模型已预先训练好并存储在识别服务器上,以便识别服务器可实时调用该模型来修复截顶语音段。
本实施例中,截顶语音检测算法是检测语音采集终端采集的待识别语音的种类的算法。待识别语音的种类包括两种:经截顶语音处理后的截顶语音段和未经截顶语音处理的正常语音段。可以理解地,由于正常语音段没有对语音信号进行处理,其保留说话人的声纹特征,而截顶语音段是待识别语音被截除小于最低音阈值或者大于最高音阈值之后获取的语音段,存在语音信号失真现象。若直接基于包括截顶语音段对应的待识别语音进行语音识别,可能存在识别不准确的现象。因此,需要采用截顶语音检测算法首先判定待识别语音的种类,为后续语音识别提供技术基础。
在一实施例中,采用截顶语音修复模型修复待识别语音特征,获取目标语音特征。
其中,截顶语音修复模型是由初始训练模型经训练后形成的、用于修复截顶语音段对应的语音特征的模型。应用于本实施例,可采用DNN(Deep Neural Networks,深度神经网络)、DBN(Deep Belief Nets,深度信念网络)模型或CDBN(Convolutional DeepBeliefNetworks,卷积的深度信念网络)模型等作为初始训练模型。下述以采用DNN模型为例说明修复截顶语音段的过程:
DNN模型被广泛应用在很多重要的互联网应用,如语音识别,图像识别,自然语言处理等。DNN模型由于计算复杂度高,能大幅度提高语音识别的精度,因此被广泛用在很多公司的语音识别产品中。
目前的DNN模型的结构包括输入层,数个中间层和输出层。输入层负责接收来自外界的输入信息,并传递给中间层;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单中间层或者多中间层结构;中间层传递到输出层的信息经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。
各层的神经元数一般是几百到几万不等,层以层之间是全连接的网络。DNN模型的训练计算是一层算完再期待下一层,层与层之间不能并行。一般一次DNN训练可以用以下几个阶段表示:前向计算、反向误差计算,最后是根据前向计算和反向误差计算的结果更新每层的权重。前向计算过程是从输入层向后一直算到输出层,计算是串行的。反向计算过程是从输出层向前一直算到第一层,计算也是串行的。
每次输入一小段训练数据称为一个batch,一个batch完成一次训练,也就是说得到一个新的权值后,会用这个权值及新输入的下一个batch进行训练,得到更新的一个权值,直到所有的输入计算完毕称为一轮。一般一个完整的训练需要10~20轮。
当实际输出与期望输出不符时,进入误差的反向传播阶段。误差通过输出层,按误差梯度下降的方式修正各层权值,向中间层和输入层逐层反传。DNN训练过程是周而复始的信息正向传播和误差反向传播过程,是各层权值不断调整的过程,也是神经网络学习训练的过程,此过程一直进行到网络输出的误差减少到可以接受的程度,或者预先设定的学习次数为止。
在一实施例中,在步骤S30中,即采用截顶语音修复模型修复待识别语音特征,获取目标语音特征,具体包括如下步骤:
S31.采用基于DNN模型的截顶语音修复模型修复待识别语音特征,获取目标语音特征。
其中,截顶语音修复模型是由DNN模型经训练后形成的、用于修复截顶语音段对应的语音特征并输出为目标语音特征的模型。
具体地,本实施例可采用步骤S30生成的截顶语音修复模型用以修复待识别语音特征。将待识别语音特征也即待识别MFCC特征作为DNN模型的输入,经DNN模型的训练,可获取DNN模型输出的目标语音特征,也即原始MFCC特征。
在步骤S30中,识别服务器采用所述基于DNN模型的截顶语音修复模型修复所述待识别语音特征,获取目标语音特征,即将截顶语音段的待识别语音特征(截顶MFCC特征)输入截顶语音修复模型,用以经截顶语音修复模型修复后获取修复语音段的目标语音特征(MFCC特征),以作为语音识别的技术基础。因MFCC特征是基于对输入的语音信号不做任何的假设和限制,且利用听觉模型而产生的,具有良好的鲁棒性,更符合人耳的听觉特性,即使当信噪比降低时仍然具有较好的语音识别性能。本步骤中采用基于DNN模型生成的截顶语音修复模型来修复截顶语音段,可大幅提高语音修复的准确性。
进一步地,因语音采集终端的增益模块会自适应调整幅度阈值,识别服务器难以通过指定一个固定的幅度阈值来判定截顶语音段,可采用判定高音音量子区间的采样点数的百分比,也即采用本步骤提出的截顶语音检测算法来进行判定,可有效提高判定结果的准确性。
本实施例提出的声纹识别方法,通过截顶语音检测算法可检测出待识别语音是否为截顶语音段,若是则通过截顶语音修复模型可将截顶语音段的待识别语音特征修复为目标语音特征,以对比说话人对于的标准语音特征来识别说话人的真实身份。本实施例通过修复待识别语音中的待识别语音特征后获取接近说话人原始语音的目标语音特征,可有效提高语音识别的可靠性和准确性。
S40.基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
其中,标准语音是与说话人标识对应的保存在预存标准语音库中、记录未经截顶语音处理的说话人发出的语音。同理地,标准语音特征就是标准语音对应的MFCC特征。
预设声纹识别模型是用于对标准语音特征和目标语音特征进行相似度打分的模型,现有多种成熟的声纹识别模型,比如GMM-UBM(Gaussian mixture model-universalbackground model,混合模型-通用背景模型)模型或i-vector(identity-vector,身份认证向量)模型等。应用于本实施例,可采用i-vector模型作为预设声纹识别模型。
优选地,为了加快语音识别的处理速度,识别服务器可在数据库中关联存储标准MFCC特征对应的标准i-vector,以便基于i-vector进行语音识别时可直接调用该标准i-vector作为对比标准。
采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别是通过对比目标语音特征和标准语音特征的余弦距离实现的。余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,夹角的余弦值也即余弦距离趋近于1,则这两个向量就相近。应用于本实施例,可根据实际情况设置一距离阈值。当标准i-vector和原始i-vector的余弦距离大于距离阈值时,可判定目标语音特征和标准语音特征对应同一说话人。
在一实施例中,如图3所示,在步骤S20中,即基于待识别语音,获取对应的待识别语音特征,具体包括如下步骤:
S21:对待识别语音进行预处理,获取预处理语音数据。
本实施例中,对待识别语音进行预处理,并获取相对应的预处理语音数据。对待识别语音进行预处理能够更好地提取待识别语音的待识别语音特征,使得提取出的待识别语音特征更能代表该待识别语音,以采用该待识别语音特征进行语音区分。
在一实施例中,步骤S21中,对待识别语音进行预处理,获取预处理语音数据,包括如下步骤:
S211:对待识别语音作预加重处理,预加重处理的计算公式为s'n=sn-a*sn-1,其中,sn为时域上的信号幅度,sn-1为与sn相对应的上一时刻的信号幅度,s'n为预加重后时域上的信号幅度,a为预加重系数,a的取值范围为0.9<a<1.0。
其中,预加重是一种在发送端对输入信号高频分量进行补偿的信号处理方式。随着信号速率的增加,信号在传输过程中受损很大,为了使接收端能得到比较好的信号波形,就需要对受损的信号进行补偿。预加重技术的思想就是在传输线的发送端增强信号的高频成分,以补偿高频分量在传输过程中的过大衰减,使得接收端能够得到较好的信号波形。预加重对噪声并没有影响,因此能够有效提高输出信噪比。
本实施例中,对待识别语音作预加重处理,该预加重处理的公式为s'n=sn-a*sn-1,其中,sn为时域上的信号幅度,即语音数据在时域上表达的语音的幅值(幅度),sn-1为与sn相对的上一时刻的信号幅度,s'n为预加重后时域上的信号幅度,a为预加重系数,a的取值范围为0.9<a<1.0,这里取0.97预加重的效果比较好。采用该预加重处理能够消除发声过程中声带和嘴唇等造成的干扰,可以有效补偿待识别语音被压抑的高频部分,并且能够突显待识别语音高频的共振峰,加强待识别语音的信号幅度,有助于提取待识别语音特征。
S212:将预加重后的待识别语音进行分帧处理。
本实施例中,在预加重待识别语音后,还应进行分帧处理。分帧是指将整段的语音信号切分成若干段的语音处理技术,每帧的大小在10-30ms的范围内,以大概1/2帧长作为帧移。帧移是指相邻两帧间的重叠区域,能够避免相邻两帧变化过大的问题。对待识别语音进行分帧处理,能够将待识别语音分成若干段的语音数据,可以细分待识别语音,便于待识别语音特征的提取。
S213:将分帧后的待识别语音进行加窗处理,获取预处理语音数据,加窗的计算公式为其中,N为窗长,n为时间,sn为时域上的信号幅度,s'n为加窗后时域上的信号幅度。
本实施例中,在对待识别语音进行分帧处理后,每一帧的起始段和末尾端都会出现不连续的地方,所以分帧越多与待识别语音的误差也就越大。采用加窗能够解决这个问题,可以使分帧后的待识别语音变得连续,并且使得每一帧能够表现出周期函数的特征。加窗处理具体是指采用窗函数对待识别语音进行处理,窗函数可以选择汉明窗,则该加窗的公式为N为汉明窗窗长,n为时间,sn为时域上的信号幅度,s'n为加窗后时域上的信号幅度。对待识别语音进行加窗处理,获取预处理语音数据,能够使得分帧后的待识别语音在时域上的信号变得连续,有助于提取待识别语音的待识别语音特征。
上述步骤S211-S213对待识别语音的预处理操作,为提取待识别语音的待识别语音特征提供了基础,能够使得提取的待识别语音特征更能代表该待识别语音,并根据该待识别语音特征进行语音区分。
S22:对预处理语音数据作快速傅里叶变换,获取待识别语音的频谱,并根据频谱获取待识别语音的功率谱。
其中,快速傅里叶变换(Fast Fourier Transformation,简称FFT),指利用计算机计算离散傅里叶变换的高效、快速计算方法的统称,简称FFT。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少,特别是被变换的抽样点数越多,FFT算法计算量的节省就越显著。
本实施例中,对预处理语音数据进行快速傅里叶变换,以将预处理语音数据从时域上的信号幅度转换为在频域上的信号幅度(频谱)。该计算频谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度,s(n)为时域上的信号幅度,n为时间,i为复数单位。在获取预处理语音数据的频谱后,可以根据该频谱直接求得预处理语音数据的功率谱,以下将预处理语音数据的功率谱称为目标待区分语音数据的功率谱。该计算目标待区分语音数据的功率谱的公式为1≤k≤N,N为帧的大小,s(k)为频域上的信号幅度。通过将预处理语音数据从时域上的信号幅度转换为频域上的信号幅度,再根据该频域上的信号幅度获取待识别语音的功率谱,为从待识别语音的功率谱中提取待识别语音特征提供重要的技术基础。
S23:采用梅尔刻度滤波器组处理待识别语音的功率谱,获取待识别语音的梅尔功率谱。
其中,采用梅尔刻度滤波器组处理待识别语音的功率谱是对功率谱进行的梅尔频率分析,梅尔频率分析是基于人类听觉感知的分析。观测发现,人耳就像一个滤波器组一样,只关注某些特定的频率分量(人的听觉对频率是有选择性的),也就是说人耳只让某些频率的信号通过,而直接无视不想感知的某些频率信号。然而这些滤波器在频率坐标轴上却不是统一分布的,在低频区域有很多的滤波器,他们分布比较密集,但在高频区域,滤波器的数目就变得比较少,分布很稀疏。可以理解地,梅尔刻度滤波器组在低频部分的分辨率高,跟人耳的听觉特性是相符的,这也是梅尔刻度的物理意义所在。
本实施例中,采用梅尔刻度滤波器组处理待识别语音的功率谱,获取待识别语音的梅尔功率谱,通过采用梅尔刻度滤波器组对频域信号进行切分,使得最后每个频率段对应一个数值,若滤波器的个数为22,则可以得到待识别语音的梅尔功率谱对应的22个能量值。通过对待识别语音的功率谱进行梅尔频率分析,使得其分析后获取的梅尔功率谱保留着与人耳特性密切相关的频率部分,该频率部分能够很好地反映出待识别语音的特征。
S24:在梅尔功率谱上进行倒谱分析,获取待识别语音的梅尔频率倒谱系数。
其中,倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换,由于一般傅里叶谱是复数谱,因而倒谱又称复倒谱。
本实施例中,对梅尔功率谱进行倒谱分析,根据倒谱的结果,分析并获取待识别语音的梅尔频率倒谱系数。通过该倒谱分析,可以将原本特征维数过高,难以直接使用的待识别语音的梅尔功率谱中包含的特征,通过在梅尔功率谱上进行倒谱分析,转换成易于使用的特征(用来进行训练或识别的梅尔频率倒谱系数特征向量)。该梅尔频率倒谱系数能够作为待识别语音特征对不同语音进行区分的系数,该待识别语音特征可以反映语音之间的区别,可以用来识别和区分待识别语音。
在一实施例中,步骤S24中,在梅尔功率谱上进行倒谱分析,获取待识别语音的梅尔频率倒谱系数,包括如下步骤:
S241:取梅尔功率谱的对数值,获取待变换梅尔功率谱。
本实施例中,根据倒谱的定义,对梅尔功率谱取对数值log,获取待变换梅尔功率谱m。
S242:对待变换梅尔功率谱作离散余弦变换,获取待识别语音的梅尔频率倒谱系数。
本实施例中,对待变换梅尔功率谱m作离散余弦变换(Discrete CosineTransform,DCT),获取相对应的待识别语音的梅尔频率倒谱系数,一般取第2个到第13个系数作为待识别语音特征,该待识别语音特征能够反映语音数据间的区别。对待变换梅尔功率谱m作离散余弦变换的公式为i=0,1,2,...,N-1,N为帧长,m为待变换梅尔功率谱,j为待变换梅尔功率谱的自变量。由于梅尔滤波器之间是有重叠的,所以采用梅尔刻度滤波器获取的能量值之间是具有相关性的,离散余弦变换可以对待变换梅尔功率谱m进行降维压缩和抽象,并获得间接的待识别语音特征,相比于傅里叶变换,离散余弦变换的结果没有虚部,在计算方面有明显的优势。
步骤S21-S24对待识别语音进行特征提取后获得的待识别语音特征,能够很准确地体现待识别语音的特征,利于基于待识别语音特征进行语音识别。
在一实施例中,如图4所示,在步骤S30中,即采用截顶语音检测算法对待识别语音进行处理,获取截顶语音段,具体包括如下步骤:
S31.将待识别语音按时序平均分割出至少两个语音子段。
其中,待识别语音是语音采集终端将待识别说话人的原始语音经截顶语音处理后记录的语音。
具体地,将待识别语音按时序分割成若干不重叠的至少两个语音子段,每一时段可设置为0.5s,以形成做截顶语音识别检测的最小基本单位。
本步骤通过将待识别语音按时序平均分割出至少两个语音子段进行检测,可以提高检测截顶语音段的精确度。可以理解地,分割出的语音子段越多,检测截顶语音段的精确度越高。
S32.将语音子段按音量变化均匀分割成至少两个音量子区间,获取最高音所在的音量子区间的高音采样点数量。
其中,高音采样点数量就是在最高音所在的音量子区间获得的语音采样点的数量。
具体地,识别服务器首先获取每一语音子段的幅值(音量)最大值Vm,将区间[0,Vm]均匀分割为不重叠的至少两个音量子区间。因每一语音子段中的最高音所在的音量子区间可能发生截顶语音处理的现象,若发生截顶语音处理,则最高音所在的音量子区间就是幅度阈值所在的区间。
本步骤通过获取最高音所在的音量子区间的高音采样点数量,可用于判定该语音子段是否为截顶语音段作为技术基础。
S33.统计所有音量子区间的采样点总数,以获取高音采样点数量相对采样点总数的高音采样百分比。
其中,采样点总数是每个语音字段中对语音音量进行采样的所有采样点数。高音采样百分比是高音采样点数量占采样点总数的百分比。
S34.若高音采样百分比超过预设阈值,则对应的语音子段为截顶语音段。
其中,预设阈值是根据实际经验设定的高音采样点数量相对采样点总数的百分比。若高音采样百分比超过预设阈值,说明该音量子区间所在的语音子段为截顶语音段。
可以理解地,若最高音所在的音量子区间的高音采样百分比没有都超过预设阈值,说明该音量子区间所在的语音子段的语音采样点的数量属于正常范围,该音量子区间所在的语音子段为正常语音段。
本实施例中,因语音采集终端的增益模块会自适应调整幅度阈值,识别服务器难以通过指定一个固定的幅度阈值来判定截顶语音段,可采用高音采样点数量相对采样点总数的高音采样百分比对比预设阈值进行判定,可有效提高判定方法的灵活性和有利于提高判定结果的准确性。
在一实施例中,如图5所示,在步骤S30之前,即在采用截顶语音修复模型修复待识别语音特征的步骤之前,该声纹识别方法还包括:
S35.获取原始训练语音对应的原始训练特征,对该原始训练语音进行截顶语音处理以获取对应的截顶训练语音,再提取该截顶训练语音的截顶训练特征。
其中,原始训练语音是说话人发出的未经截顶语音处理的原始语音。可以理解地,截顶训练语音就是说话人发出的、经截顶语音处理后的语音。
本步骤中,识别服务器通过将原始训练语音进行截顶处理,也即只保留原始训练语音在最高音阈值和最低音阈值之间的语音信号,将超出上述范围的语音信号记录为幅度阈值,以获取对应的截顶训练语音。
S36.将截顶训练语音对应的截顶训练特征作为DNN模型的输入层,将原始训练语音对应的原始训练特征作为DNN模型的输出层,校准DNN模型的特征参数,以生成基于DNN模型的截顶语音修复模型。
其中,语音特征在声纹识别技术领域常用MFCC特征来表示。因MFCC特征是基于对输入的语音信号不做任何的假设和限制,且利用听觉模型而产生的,具有良好的鲁棒性,更符合人耳的听觉特性,即使当信噪比降低时仍然具有较好的语音识别性能。因此,截顶训练特征就是截顶训练语音对应的截顶MFCC特征,原始训练特征就是原始训练语音对应的原始MFCC特征。
具体地,提取截顶训练语音的截顶MFCC特征的实现过程包括:基于傅里叶变换将截顶训练语音从时域信号转换为频域信号;再过滤该频域信号以获取梅尔功率谱;在梅尔功率谱上进行倒谱分析,获取初始语音的梅尔频率倒谱系数也即MFCC特征。其中,倒谱(cepstrum)是指一种信号的傅里叶变换谱经对数运算后再进行的傅里叶反变换,转换成易于使用的语音特征(用来进行训练或识别的梅尔频率倒谱系数特征向量)。上述过程同样适用于提取原始训练语音对应的原始MFCC特征。
DNN模型的结构包括输入层,数个中间层和输出层。输入层负责接收来自外界的输入信息,并传递给中间层;中间层是内部信息处理层,负责信息变换,根据信息变化能力的需求,中间层可以设计为单中间层或者多中间层结构;最高音量所在的中间层传递到输出层的信息经进一步处理后,完成一次学习的正向传播处理过程,由输出层向外界输出信息处理结果。
具体地,识别服务器将截顶MFCC特征和原始MFCC特征分别作为DNN模型的输入层和输出层,以获取DNN模型有关截顶语音修复模型的特征参数。
如果原始MFCC特征涉及的特征数量为n,则DNN模型的输出层包括n个神经元,该神经元是针对输入的每个神经元的截顶MFCC特征输出对应的原始MFCC特征值。
若DNN网络总共有n层,每层有多个神经元,不同层之间全连接;每层设置自己的激励函数f(激励函数是表示神经网络中的每个神经元接受输入值,并将输入值传递给下一层,神经元之间的输入输出关系的函数)。输入为特征向量v,第i层到第i+1层的转移矩阵为wi(i+1),第i+1层的偏置向量为b(i+1),第i层的输出为outi,第i+1的输入为ini+1,计算过程为:
ini+1=outi*wi(i+1)+b(i+1)
outi+1=f(ini+1)
由此可见DNN模型的参数包括层间的转移矩阵w和每一层的偏置向量b等,训练DNN模型的主要任务就是确定上述特征参数,最终生成基于DNN模型的截顶语音修复模型。
本实施例中,识别服务器采用基于DNN模型生成的截顶语音修复模型来修复截顶语音段,可大幅提高语音修复的精度。优选地,还可采用DBN(Deep Belief Nets,深度信念网络)模型或CDBN(Convolutional Deep Belief Networks,卷积的深度信念网络)模型作为初始训练模型,其中,训练DBN模型的网络架构快于DNN模型,更适用于训练大型语音数据库的数据;CDBN模型适用于训练特大型语音数据库的数据。
在一实施例中,在步骤S30中,即采用截顶语音修复模型修复截顶语音段,获取修复语音段,具体包括如下步骤:
S37.采用基于DNN模型的截顶语音修复模型修复待识别语音特征,获取修复语音段的目标语音特征。
具体地,识别服务器首先获取截顶语音段的待识别语音特征;然后将截顶语音段的语音特征作为DNN模型的输入层,经步骤S32获得的基于DNN模型的截顶语音修复模型的修复后,可在DNN模型的输出层获得对应的目标语音特征。
本实施例中,识别服务器采用基于DNN模型的截顶语音修复模型的修复截顶语音段,可有效提高输出层获得的目标语音特征的精确性。
在一实施例中,如图6所示,在步骤S40中,即基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,具体包括如下步骤:
S41.采用预设声纹识别模型分别处理目标语音特征和标准语音特征,分别得到原始语音向量和标准语音向量。
其中,预设声纹识别模型是用于对标准语音特征和待识别语音特征进行相似度打分的模型,现有多种成熟的声纹识别模型,比如GMM-UBM(Gaussian mixture model-universal background model,混合模型-通用背景模型)或i-vector模型等。
应用于本实施例,可采用i-vector模型作为预设声纹识别模型,以获取每个说话人对应的i-vector向量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,夹角的余弦值也即余弦距离趋近于1,则这两个向量就相近。本实施例中,原始语音向量就是修复i-vector,标准语音向量就是标准i-vector。
具体地,识别服务器采用i-vector模型获得原始语音向量的具体实现过程如下:
识别服务器通过目标语音特征来训练表征语音空间的GMM-UBM;利用训练好的UBM计算每帧语音特征的充分统计量,并将该充分统计量映射到总变量空间得到目标语音特征的原始i-vector。优选地,还可采用LDA(Linear Discriminant Analysis,线性鉴别分析)方法进行信道补偿处理该原始i-vector,以通过投影矩阵算法最小化同类样本间距离和最大化非同类样本间距离。同理可知获得标准语音向量的实现过程。
S42.获取原始语音向量和标准语音向量的空间距离。
其中,空间距离应用于本实施例可指两个向量之间的余弦距离。余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。
S43.根据空间距离与预设的距离阈值,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
其中,距离阈值是根据实际经验设置的一用余弦值表示的数值。
具体地,识别服务器通过对比步骤S42得到的标准i-vector和原始i-vector两个向量的空间距离也即余弦距离。若两者的余弦距离大于根据实际情况预设的距离阈值时,可判定目标语音特征和标准语音特征是源自同一说话人。
在一实施例中,在步骤S42中,即获取原始语音向量和标准语音向量的空间距离,具体包括如下步骤:
S424.采用余弦相似度算法获取原始语音向量和标准语音向量的空间距离。
具体地,获取原始语音向量和标准语音向量的空间距离可由以下公式进行判定:
其中,Ai和Bi分别代表原始语音向量和标准语音向量的各个分量。由上式可知,相似度范围从-1到1,其中-1表示两个向量方向相反,1表示两个向量指向相同;0表示两个向量是独立的。在-1和1之间表示两个向量之间的相似性或相异性,可以理解地,相似度越接近1表示两个向量越接近。应用于本实施例,可根据实际经验预先设定cosθ的距离阈值。若原始语音向量和标准语音向量的相似度大于距离阈值,则认为原始语音向量和标准语音向量相似,也即可判定目标语音特征和标准语音特征对应同一说话人的声纹识别结果。
本实施例中,通过余弦相似度算法即可判定原始语音向量和标准语音向量的相似度,简单快捷,利于快速确认识别结果。
综上,本实施例提出一种声纹识别方法,通过截顶语音检测算法可检测出待识别语音是否为截顶语音段,若是则通过截顶语音修复模型可将截顶语音段的待识别语音特征修复为目标语音特征,以对比说话人对于的标准语音特征来识别说话人的真实身份。本实施例通过修复待识别语音中的待识别语音特征后获取接近说话人原始语音的目标语音特征,可有效提高语音识别的可靠性和准确性。
进一步地,识别服务器可对待识别语音进行特征提取后获得的目标语音特征,能够很准确地体现待识别语音的特征,利于基于待识别语音特征进行语音识别;采用高音采样点数量相对采样点总数的高音采样百分比对比预设阈值进行判定,可有效提高判定方法的灵活性和有利于提高判定结果的准确性;采用基于DNN模型生成的截顶语音修复模型来修复截顶语音段,可大幅提高语音修复的精度;通过余弦相似度算法即可判定原始语音向量和标准语音向量的相似度,简单快捷,利于快速确认识别结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图7示出与上述实施例中声纹识别方法一一对应的声纹识别装置的原理框图。如图7所示,该声纹识别装置包括获取待识别语音模块10、获取待识别特征模块20、获取目标语音特征模块30和获取声纹识别结果模块40。其中,获取待识别语音模块10、获取语音段模块20、修复语音段模块30和确定说话人模块40的实现功能与上述实施例中声纹识别方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
获取待识别语音模块10,用于获取待识别语音,待识别语音携带说话人标识。
获取待识别特征模块20,用于基于待识别语音,获取对应的待识别语音特征。
获取目标语音特征模块30,用于采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征。
获取声纹识别结果模块40,用于基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
优选地,获取待识别特征模块20包括获取语音数据单元21、获取功率谱单元22、获取梅尔功率谱单元23和获取梅尔系数单元24。
获取语音数据单元21,用于对待识别语音进行预处理,获取预处理语音数据。
获取功率谱单元22,用于对预处理语音数据作快速傅里叶变换,获取待识别语音的频谱,并根据频谱获取待识别语音的功率谱。
获取梅尔功率谱单元23,用于采用梅尔刻度滤波器组处理待识别语音的功率谱,获取待识别语音的梅尔功率谱。
获取梅尔系数单元24,用于在梅尔功率谱上进行倒谱分析,获取待识别语音的梅尔频率倒谱系数。
优选地,获取目标语音特征模块30包括分割语音子段单元31、获取采样点数量单元32、获取采样百分比单元33和超过预设阈值单元34。
分割语音子段单元31,用于将待识别语音按时序平均分割出至少两个语音子段。
获取采样点数量单元32,用于将语音子段按音量变化均匀分割成至少两个音量子区间,获取最高音所在的音量子区间的高音采样点数量。
获取采样百分比单元33,用于统计所有音量子区间的采样点总数,以获取高音采样点数量相对采样点总数的高音采样百分比。
超过预设阈值单元34,用于若高音采样百分比超过预设阈值,则对应的语音子段为截顶语音段。
优选地,该声纹识别装置还包括获取原始语音单元35和生成修复模型单元36。
获取原始语音单元35,用于获取原始训练语音对应的原始训练特征,对该原始训练语音进行截顶语音处理以获取对应的截顶训练语音,再提取该截顶训练语音的截顶训练特征。
生成修复模型单元36,用于将截顶训练语音对应的截顶训练特征作为DNN模型的输入层,将原始训练语音对应的原始训练特征作为DNN模型的输出层,校准DNN模型的特征参数,以生成基于DNN模型的截顶语音修复模型。
优选地,该声纹识别装置还包括获取原始特征单元37。
获取原始特征单元37,用于采用基于DNN模型的截顶语音修复模型修复待识别语音特征,获取修复语音段的目标语音特征。
优选地,获取声纹识别结果模块40包括采用识别模型单元41、获取空间距离单元42、获取识别结果单元43。
采用识别模型单元41,用于采用预设声纹识别模型分别处理目标语音特征和标准语音特征,分别得到原始语音向量和标准语音向量。
获取空间距离单元42,用于获取原始语音向量和标准语音向量的空间距离。
获取识别结果单元43,用于根据空间距离与预设的距离阈值,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
关于声纹识别装置的具体限定可以参见上文中对于声纹识别方法的限定,在此不再赘述。上述声纹识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一实施例中,提供一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与声纹识别方法相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种声纹识别方法。
在一实施例中,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取待识别语音,待识别语音携带说话人标识;基于待识别语音,获取对应的待识别语音特征;采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征;基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
在一实施例中,提取训练语音数据对应的训练语音特征,处理器执行计算机程序时实现如下步骤:对训练语音数据进行预处理,获取预处理语音数据;对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱;采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
在一实施例中,采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,处理器执行计算机程序时实现如下步骤:将待识别语音按时序平均分割出至少两个语音子段;将语音子段按音量变化均匀分割成至少两个音量子区间,获取最高音所在的音量子区间的高音采样点数量;统计所有音量子区间的采样点总数,以获取高音采样点数量相对采样点总数的高音采样百分比;若高音采样百分比超过预设阈值,则对应的语音子段为截顶语音段。
在一实施例中,在采用截顶语音修复模型修复待识别语音特征的步骤之前,处理器执行计算机程序时还实现如下步骤:获取原始训练语音,并截顶处理原始训练语音,以获取对应的截顶训练语音;将截顶训练语音对应的截顶训练特征作为DNN模型的输入层,将原始训练语音对应的原始训练特征作为DNN模型的输出层,校准DNN模型的特征参数,以生成基于DNN模型的截顶语音修复模型。
在一实施例中,采用截顶语音修复模型修复待识别语音特征,获取目标语音特征,处理器执行计算机程序时实现如下步骤:采用基于DNN模型的截顶语音修复模型修复待识别语音特征,获取修复语音段的目标语音特征。
在一实施例中,基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,处理器执行计算机程序时实现如下步骤:采用预设声纹识别模型分别处理目标语音特征和标准语音特征,分别得到原始语音向量和标准语音向量;获取原始语音向量和标准语音向量的空间距离;根据空间距离与预设的距离阈值,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
在一实施例中,获取原始语音向量和标准语音向量的空间距离,处理器执行计算机程序时实现如下步骤:采用余弦相似度算法获取原始语音向量和标准语音向量的空间距离。
在一实施例中,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别语音,待识别语音携带说话人标识;基于待识别语音,获取对应的待识别语音特征;采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,则采用截顶语音修复模型修复待识别语音特征,获取目标语音特征;基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
在一实施例中,提取训练语音数据对应的训练语音特征,计算机程序被处理器执行时实现以下步骤:对训练语音数据进行预处理,获取预处理语音数据;对预处理语音数据作快速傅里叶变换,获取训练语音数据的频谱,并根据频谱获取训练语音数据的功率谱;采用梅尔刻度滤波器组处理训练语音数据的功率谱,获取训练语音数据的梅尔功率谱;在梅尔功率谱上进行倒谱分析,获取训练语音数据的MFCC特征。
在一实施例中,采用截顶语音检测算法检测待识别语音,若待识别语音为截顶语音段,计算机程序被处理器执行时实现以下步骤:将待识别语音按时序平均分割出至少两个语音子段;将语音子段按音量变化均匀分割成至少两个音量子区间,获取最高音所在的音量子区间的高音采样点数量;统计所有音量子区间的采样点总数,以获取高音采样点数量相对采样点总数的高音采样百分比;若高音采样百分比超过预设阈值,则对应的语音子段为截顶语音段。
在一实施例中,在采用截顶语音修复模型修复待识别语音特征的步骤之前,计算机程序被处理器执行时实现以下步骤:获取原始训练语音,并截顶处理原始训练语音,以获取对应的截顶训练语音;将截顶训练语音对应的截顶训练特征作为DNN模型的输入层,将原始训练语音对应的原始训练特征作为DNN模型的输出层,校准DNN模型的特征参数,以生成基于DNN模型的截顶语音修复模型。
在一实施例中,采用截顶语音修复模型修复待识别语音特征,获取目标语音特征,计算机程序被处理器执行时实现以下步骤:采用基于DNN模型的截顶语音修复模型修复待识别语音特征,获取修复语音段的目标语音特征。
在一实施例中,基于说话人标识对应的标准语音特征,采用预设声纹识别模型对目标语音特征和标准语音特征进行声纹识别,计算机程序被处理器执行时实现以下步骤:采用预设声纹识别模型分别处理目标语音特征和标准语音特征,分别得到原始语音向量和标准语音向量;获取原始语音向量和标准语音向量的空间距离;根据空间距离与预设的距离阈值,获取目标语音特征和标准语音特征是否对应同一说话人的声纹识别结果。
在一实施例中,获取原始语音向量和标准语音向量的空间距离,计算机程序被处理器执行时实现以下步骤:采用余弦相似度算法获取原始语音向量和标准语音向量的空间距离。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种声纹识别方法,其特征在于,包括:
获取待识别语音,所述待识别语音携带说话人标识;
基于所述待识别语音,获取对应的待识别语音特征;
采用截顶语音检测算法检测所述待识别语音,若所述待识别语音为截顶语音段,则采用截顶语音修复模型修复所述待识别语音特征,获取目标语音特征;
基于所述说话人标识对应的标准语音特征,采用预设声纹识别模型对所述目标语音特征和所述标准语音特征进行声纹识别,获取所述目标语音特征和所述标准语音特征是否对应同一说话人的声纹识别结果。
2.如权利要求1所述声纹识别方法,其特征在于,所述基于所述待识别语音,获取对应的待识别语音特征,包括:
对所述待识别语音进行预处理,获取预处理语音数据;
对所述预处理语音数据作快速傅里叶变换,获取所述待识别语音的频谱,并根据所述频谱获取所述待识别语音的功率谱;
采用梅尔刻度滤波器组处理所述待识别语音的功率谱,获取所述待识别语音的梅尔功率谱;
在所述梅尔功率谱上进行倒谱分析,获取所述待识别语音的梅尔频率倒谱系数。
3.如权利要求1所述声纹识别方法,其特征在于,所述采用截顶语音检测算法检测所述待识别语音,若所述待识别语音为截顶语音段,包括:
将所述待识别语音按时序平均分割出至少两个语音子段;
将所述语音子段按音量变化均匀分割成至少两个音量子区间,获取最高音所在的音量子区间的高音采样点数量;
统计所有所述音量子区间的采样点总数,以获取所述高音采样点数量相对所述采样点总数的高音采样百分比;
若所述高音采样百分比超过预设阈值,则对应的所述语音子段为截顶语音段。
4.如权利要求1所述声纹识别方法,其特征在于,在所述采用截顶语音修复模型修复所述待识别语音特征的步骤之前,所述声纹识别方法还包括:
获取原始训练语音对应的原始训练特征,对该原始训练语音进行截顶语音处理以获取对应的截顶训练语音,再提取该截顶训练语音的截顶训练特征;
将所述截顶训练语音对应的截顶训练特征作为DNN模型的输入层,将所述原始训练语音对应的原始训练特征作为DNN模型的输出层,校准所述DNN模型的特征参数,以生成基于DNN模型的截顶语音修复模型。
5.如权利要求4所述声纹识别方法,其特征在于,所述采用截顶语音修复模型修复所述待识别语音特征,获取目标语音特征,包括:
采用所述基于DNN模型的截顶语音修复模型修复所述待识别语音特征,获取目标语音特征。
6.如权利要求1所述声纹识别方法,其特征在于,所述基于所述说话人标识对应的标准语音特征,采用预设声纹识别模型对所述目标语音特征和所述标准语音特征进行声纹识别,包括:
采用预设声纹识别模型分别处理所述目标语音特征和所述标准语音特征,分别得到原始语音向量和标准语音向量;
获取所述原始语音向量和所述标准语音向量的空间距离;
根据所述空间距离与预设的距离阈值,获取所述目标语音特征和所述标准语音特征是否对应同一说话人的声纹识别结果。
7.如权利要求6所述声纹识别方法,其特征在于,所述获取所述原始语音向量和所述标准语音向量的空间距离,包括:
采用余弦相似度算法获取所述原始语音向量和所述标准语音向量的空间距离。
8.一种声纹识别装置,其特征在于,包括:
获取待识别语音模块,用于获取待识别语音,所述待识别语音携带说话人标识;
获取待识别特征模块,用于基于所述待识别语音,获取对应的待识别语音特征;
获取目标语音特征模块,用于采用截顶语音检测算法检测所述待识别语音,若所述待识别语音为截顶语音段,则采用截顶语音修复模型修复所述待识别语音特征,获取目标语音特征;
获取声纹识别结果模块,用于基于所述说话人标识对应的标准语音特征,采用预设声纹识别模型对所述目标语音特征和所述标准语音特征进行声纹识别,获取所述目标语音特征和所述标准语音特征是否对应同一说话人的声纹识别结果。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述声纹识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述声纹识别方法的步骤。
CN201810573715.4A 2018-06-06 2018-06-06 声纹识别方法、装置、计算机设备及存储介质 Pending CN108899032A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810573715.4A CN108899032A (zh) 2018-06-06 2018-06-06 声纹识别方法、装置、计算机设备及存储介质
PCT/CN2018/092598 WO2019232829A1 (zh) 2018-06-06 2018-06-25 声纹识别方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810573715.4A CN108899032A (zh) 2018-06-06 2018-06-06 声纹识别方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN108899032A true CN108899032A (zh) 2018-11-27

Family

ID=64343940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810573715.4A Pending CN108899032A (zh) 2018-06-06 2018-06-06 声纹识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108899032A (zh)
WO (1) WO2019232829A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109584887A (zh) * 2018-12-24 2019-04-05 科大讯飞股份有限公司 一种声纹信息提取模型生成、声纹信息提取的方法和装置
CN110556126A (zh) * 2019-09-16 2019-12-10 平安科技(深圳)有限公司 语音识别方法、装置以及计算机设备
WO2019232829A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110827853A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音特征信息提取方法、终端及可读存储介质
CN111402889A (zh) * 2020-03-16 2020-07-10 南京奥拓电子科技有限公司 音量阈值确定方法与装置、语音识别系统及排队机
CN111613244A (zh) * 2020-05-20 2020-09-01 北京搜狗科技发展有限公司 一种扫描跟读处理的方法及相关装置
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
CN112767950A (zh) * 2021-02-24 2021-05-07 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN112767949A (zh) * 2021-01-18 2021-05-07 东南大学 一种基于二值权重卷积神经网络的声纹识别系统
CN113129899A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司 一种安全作业监管方法、设备和存储介质
CN113223511A (zh) * 2020-01-21 2021-08-06 珠海市煊扬科技有限公司 用于语音识别的音频处理装置
WO2021169356A1 (zh) * 2020-09-18 2021-09-02 平安科技(深圳)有限公司 语音文件修复方法、装置、计算机设备及存储介质
CN113823261A (zh) * 2021-10-28 2021-12-21 广州宏途教育网络科技有限公司 一种基于语音交互的学习互动系统及方法
CN114010202A (zh) * 2021-09-18 2022-02-08 苏州无双医疗设备有限公司 植入式心律管理设备心律分类及区分室速和室上速的方法
CN114242044A (zh) * 2022-02-25 2022-03-25 腾讯科技(深圳)有限公司 语音质量评估方法、语音质量评估模型训练方法及装置
CN115641852A (zh) * 2022-10-18 2023-01-24 中国电信股份有限公司 声纹识别方法、装置、电子设备和计算机可读存储介质
CN114010202B (zh) * 2021-09-18 2024-05-14 苏州无双医疗设备有限公司 植入式心律管理设备心律分类及区分室速和室上速的方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542156A (zh) * 2020-12-08 2021-03-23 山东航空股份有限公司 基于声纹识别和语音指令控制的民航维修工卡系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN101315771A (zh) * 2008-06-04 2008-12-03 哈尔滨工业大学 说话人识别中不同语音编码影响的补偿方法
US20140214417A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
US20140379342A1 (en) * 2013-06-25 2014-12-25 Shaw Li Voice filter system
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605111B (zh) * 2009-06-25 2012-07-04 华为技术有限公司 一种削波控制的方法和装置
CN106847292B (zh) * 2017-02-16 2018-06-19 平安科技(深圳)有限公司 声纹识别方法及装置
CN108091352B (zh) * 2017-12-27 2020-10-13 腾讯音乐娱乐科技(深圳)有限公司 一种音频文件处理方法、装置、存储介质及终端设备
CN108899032A (zh) * 2018-06-06 2018-11-27 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
CN101315771A (zh) * 2008-06-04 2008-12-03 哈尔滨工业大学 说话人识别中不同语音编码影响的补偿方法
US20140214417A1 (en) * 2013-01-28 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US20140379342A1 (en) * 2013-06-25 2014-12-25 Shaw Li Voice filter system
CN104008751A (zh) * 2014-06-18 2014-08-27 周婷婷 一种基于bp神经网络的说话人识别方法
CN105989843A (zh) * 2015-01-28 2016-10-05 中兴通讯股份有限公司 一种实现缺失特征重建的方法和装置
CN107610707A (zh) * 2016-12-15 2018-01-19 平安科技(深圳)有限公司 一种声纹识别方法及装置
CN107039036A (zh) * 2017-02-17 2017-08-11 南京邮电大学 一种基于自动编码深度置信网络的高质量说话人识别方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
FANHU BIE ETC.: "Detection and reconstruction of clipped speech for speaker recognition", 《SPEECH COMMUNICATION》 *
FANHU BIE ETC.: "Detection and reconstruction of clipped speech for speaker recognition", 《SPEECH COMMUNICATION》, 2 July 2015 (2015-07-02), pages 218 - 231, XP055664948 *
LI CHUN-ZHI ETC.: "Restoration of Clipped vibration signal Based on BP Neural Network", 《2010 INTERNATIONAL CONFERENCE ON MEASURING TECHNOLOGY AND MECHATRONICS AUTOMATION》, 6 May 2010 (2010-05-06), pages 251 - 253 *
冯志伟: "《自然语言计算机形式分析的理论与方法》", 中国科学技术大学出版社, pages: 707 - 710 *
别凡虎: "说话人识别中区分性问题的研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》 *
别凡虎: "说话人识别中区分性问题的研究", 《中国优秀博硕士学位论文全文数据库(博士) 信息科技辑》, no. 07, 15 July 2016 (2016-07-15), pages 1 - 2 *
李弼程 等: "《模式识别原理与应用》", 29 February 2008, 西安电子科技大学出版社, pages: 228 - 229 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232829A1 (zh) * 2018-06-06 2019-12-12 平安科技(深圳)有限公司 声纹识别方法、装置、计算机设备及存储介质
CN109584887A (zh) * 2018-12-24 2019-04-05 科大讯飞股份有限公司 一种声纹信息提取模型生成、声纹信息提取的方法和装置
CN109473091A (zh) * 2018-12-25 2019-03-15 四川虹微技术有限公司 一种语音样本生成方法及装置
CN109473091B (zh) * 2018-12-25 2021-08-10 四川虹微技术有限公司 一种语音样本生成方法及装置
CN110556126A (zh) * 2019-09-16 2019-12-10 平安科技(深圳)有限公司 语音识别方法、装置以及计算机设备
CN110556126B (zh) * 2019-09-16 2024-01-05 平安科技(深圳)有限公司 语音识别方法、装置以及计算机设备
CN110610709A (zh) * 2019-09-26 2019-12-24 浙江百应科技有限公司 基于声纹识别的身份辨别方法
CN110827853A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 语音特征信息提取方法、终端及可读存储介质
CN113223511B (zh) * 2020-01-21 2024-04-16 珠海市煊扬科技有限公司 用于语音识别的音频处理装置
CN113223511A (zh) * 2020-01-21 2021-08-06 珠海市煊扬科技有限公司 用于语音识别的音频处理装置
CN111402889A (zh) * 2020-03-16 2020-07-10 南京奥拓电子科技有限公司 音量阈值确定方法与装置、语音识别系统及排队机
CN111613244A (zh) * 2020-05-20 2020-09-01 北京搜狗科技发展有限公司 一种扫描跟读处理的方法及相关装置
CN111883175A (zh) * 2020-06-09 2020-11-03 河北悦舒诚信息科技有限公司 一种基于声纹库的油站服务质量提升方法
WO2021169356A1 (zh) * 2020-09-18 2021-09-02 平安科技(深圳)有限公司 语音文件修复方法、装置、计算机设备及存储介质
CN112767949A (zh) * 2021-01-18 2021-05-07 东南大学 一种基于二值权重卷积神经网络的声纹识别系统
CN112767950A (zh) * 2021-02-24 2021-05-07 嘉楠明芯(北京)科技有限公司 一种声纹识别方法、装置及计算机可读存储介质
CN113129899A (zh) * 2021-04-16 2021-07-16 广东电网有限责任公司 一种安全作业监管方法、设备和存储介质
CN114010202A (zh) * 2021-09-18 2022-02-08 苏州无双医疗设备有限公司 植入式心律管理设备心律分类及区分室速和室上速的方法
CN114010202B (zh) * 2021-09-18 2024-05-14 苏州无双医疗设备有限公司 植入式心律管理设备心律分类及区分室速和室上速的方法
CN113823261A (zh) * 2021-10-28 2021-12-21 广州宏途教育网络科技有限公司 一种基于语音交互的学习互动系统及方法
CN114242044A (zh) * 2022-02-25 2022-03-25 腾讯科技(深圳)有限公司 语音质量评估方法、语音质量评估模型训练方法及装置
CN114242044B (zh) * 2022-02-25 2022-10-11 腾讯科技(深圳)有限公司 语音质量评估方法、语音质量评估模型训练方法及装置
CN115641852A (zh) * 2022-10-18 2023-01-24 中国电信股份有限公司 声纹识别方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
WO2019232829A1 (zh) 2019-12-12

Similar Documents

Publication Publication Date Title
CN108899032A (zh) 声纹识别方法、装置、计算机设备及存储介质
Valin et al. LPCNet: Improving neural speech synthesis through linear prediction
Kingsbury et al. Robust speech recognition using the modulation spectrogram
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN102968990B (zh) 说话人识别方法和系统
CN108198547A (zh) 语音端点检测方法、装置、计算机设备和存储介质
Sithara et al. Study of MFCC and IHC feature extraction methods with probabilistic acoustic models for speaker biometric applications
CN113488058A (zh) 一种基于短语音的声纹识别方法
CN109036470B (zh) 语音区分方法、装置、计算机设备及存储介质
Ling et al. Attention-Based Convolutional Neural Network for ASV Spoofing Detection.
Nandyal et al. MFCC based text-dependent speaker identification using BPNN
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
Moritz et al. Integration of optimized modulation filter sets into deep neural networks for automatic speech recognition
Brucal et al. Female voice recognition using artificial neural networks and MATLAB voicebox toolbox
Nijhawan et al. A new design approach for speaker recognition using MFCC and VAD
CN113012684B (zh) 一种基于语音分割的合成语音检测方法
CN115116475A (zh) 一种基于时延神经网络的语音抑郁症自动检测方法和装置
Prajapati et al. Feature extraction of isolated gujarati digits with mel frequency cepstral coefficients (mfccs)
Khalil et al. A robust text dependent speaker identification using neural responses from the model of the auditory system
Pickersgill et al. Investigation of DNN prediction of power spectral envelopes for speech coding & ASR
CN113658599A (zh) 基于语音识别的会议记录生成方法、装置、设备及介质
Srinivas LFBNN: robust and hybrid training algorithm to neural network for hybrid features-enabled speaker recognition system
Luo The Improving Effect of Intelligent Speech Recognition System on English Learning
Maurya et al. Speaker recognition for noisy speech in telephonic channel
Shen et al. Research on robustness of voiceprint recognition technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181127

RJ01 Rejection of invention patent application after publication