CN108039176A

CN108039176A - 一种防录音攻击的声纹认证方法、装置及门禁系统

Info

Publication number: CN108039176A
Application number: CN201810027059.8A
Authority: CN
Inventors: 郑渊中
Original assignee: Speakin Technologies Co ltd
Current assignee: Guangzhou Speakin Intelligent Technology Co ltd
Priority date: 2018-01-11
Filing date: 2018-01-11
Publication date: 2018-05-15
Anticipated expiration: 2038-01-11
Also published as: CN108039176B

Abstract

本发明公开了一种防录音攻击的声纹认证方法、装置及门禁系统，包括：获取待检测音频，提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量；将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成，得到待检测音频的第一声学特征向量；将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。解决了现有的说话人识别系统语音识别准确率低，依赖指定文本的技术问题。

Description

一种防录音攻击的声纹认证方法、装置及门禁系统

技术领域

本发明涉及语音认证技术领域，尤其涉及一种防录音攻击的声纹认证方法、装置及门禁系统。

背景技术

随着信息技术的发展，一些破坏安全的技术手段也在不断进步，目前，冒充说话人身份和录制说话人语音的攻击手段是说话人识别系统面临的最常见的攻击手段。冒充说话人身份的手段一般是利用一些技巧如模仿说话人的发音习惯和语调来试图冒充说话人的身份以进入说话人识别系统。

录音攻击是一种用高保真录音设备录下目标人物的声音，然后运用录音音频去破解声纹认证系统的技术手段。与冒充说话人身份攻击的手段不同，录音攻击的语音是来自说话人本人，因此更具真实性，这种攻击对系统的安全性将造成一个更大的威胁。

为解决说话人识别系统的安全问题，现有的方法是通过提取回放语音的特征参数，应用模式匹配的方式来区分回放的语音还是用户本人的声音，同时，系统会在特定的字符集合随意的抽取出若干个字符并给出相应的提示，用户要按照系统提示的给定的文本进行跟读操作，确认跟读者是否是用户本人，但是这种说话人识别系统，声学特征区分率不高，同时因为文本的多样性会导致浪费很多的资源在语音训练和识别过程中，而且让用户按指定的内容来跟读的方式可能对降低用户体验性，不利于系统的广泛推广。

发明内容

本发明实施例提供了一种防录音攻击的声纹认证方法、装置及门禁系统，用于解决现有的说话人识别系统语音识别准确率低，依赖指定文本的技术问题。

本发明提供的一种防录音攻击的声纹认证方法，包括：

S1：获取待检测音频，提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量；

S2：将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成，得到所述待检测音频的第一声学特征向量；

S3：将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。

优选地，步骤S1之前还包括：

S01：获取训练音频，所述训练音频包括录音音频和真实语音音频，对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

S02：提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量，提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量；

S03：将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成，得到所述录音音频的第二声学特征向量，将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成，得到所述真实语音音频的第三声学特征向量，并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

优选地，步骤S1具体包括：

S11：获取待检测音频，对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

S12：提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。

优选地，步骤S2具体包括：将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成，得到所述待检测音频的第一声学特征向量。

优选地，步骤S03具体包括：将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成，得到所述录音音频的第二声学特征向量，将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成，得到所述真实语音音频的第三声学特征向量，并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

本发明提供的一种防录音攻击的声纹认证装置，包括：

第一特征提取单元，用于获取待检测音频，提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量；

合成单元，用于将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成，得到所述待检测音频的第一声学特征向量；

识别单元，用于将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。

优选地，还包括：

获取单元，用于获取训练音频，所述训练音频包括录音音频和真实语音音频，对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第二特征提取单元，用于提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量，提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量；

训练单元，用于将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成，得到所述录音音频的第二声学特征向量，将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成，得到所述真实语音音频的第三声学特征向量，并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

优选地，第一特征提取单元具体包括：

获取子单元，用于获取待检测音频，对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第一特征提取子单元，用于提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。

优选地，所述合成单元具体用于：将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成，得到所述待检测音频的第一声学特征向量；

所述训练单元具体用于：将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成，得到所述录音音频的第二声学特征向量，将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成，得到所述真实语音音频的第三声学特征向量，并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

本发明提供的一种防录音攻击的声纹认证门禁系统，包括：电控锁和上述的任意一种防录音攻击的声纹认证装置；

防录音攻击的声纹认证装置和电控锁通信连接。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明提供的一种防录音攻击的声纹认证方法，包括：S1：获取待检测音频，提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量；S2：将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成，得到所述待检测音频的第一声学特征向量；S3：将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。

本发明提供的一种防录音攻击的声纹认证方法，通过提取更贴近人耳听觉响应的Mel频率倒谱系数MFCC声学特征向量、Gammatone频率倒谱系数GFCC声学特征向量和更高频的常数Q变换倒谱系数CQCC声学特征向量进行合成，有效地实现了对说话人真实语音和录音的判断，提高了声纹识别的准确率；同时，通过MFCC、GFCC和CQCC的合成，可以有效降低声纹认证系统对文本的要求，解决了现有的说话人识别系统语音识别准确率低，依赖指定文本的技术问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种防录音攻击的声纹认证方法的一个实施例的流程示意图；

图2为本发明实施例提供的一种防录音攻击的声纹认证方法的另一个实施例的流程示意图；

图3为本发明实施例提供的一种防录音攻击的声纹认证装置的一个实施例的结构示意图；

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种防录音攻击的声纹认证方法的一个实施例，包括：

步骤101：获取待检测音频，提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。

需要说明的是，在获取待检测音频之后，需要对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

MFCC(Mel-Frequency Cepstrum Coefficients,Mel频率倒谱系数)即对时域信号做傅里叶变换后利用梅尔频率刻度的滤波器组对频域信号进行切分，最后每个频率段对应一个数值，然后取对数Log,再进行离散傅里叶变换，得到幅度倒谱和/或功率倒谱；

GFCC(Gammatone Frequency Cepstrum Coefficients,Gammatone频率倒谱系数)即对时域信号做傅里叶变换后利用Gammatone滤波器组对频域信号进行切分，最后每个频率段对应一个数值，然后进行指数压缩,再进行离散傅里叶变换，得到幅度倒谱和/或功率倒谱；

CQCC(Constant Qtransform Cepstrum Coefficients,常数Q变换频率倒谱系数)，常数Q变换是一种适用于音乐信号分析的时域信号分析工具，在频率轴为对数log，而且其窗口长度可以随着频率而改变；常数Q变换频率倒谱系数即通过对语音信号进行常数Q变换，获得功率谱之后取对数log，再进行离散傅里叶变换得到功率倒谱。

步骤102：将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成，得到待检测音频的第一声学特征向量。

需要说明的是，获得待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量之后对第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行向量的加法合成，得到待检测音频的第一声学特征向量。

步骤103：将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。

需要说明的是，SVM(Support Vector Machine，支持向量机)是一种用于判别的方法，可应用于模式识别、分类以及回归分析，本实施例中用于对录音音频的第二声学特征向量和真实语音音频的第三声学特征向量分别进行训练建模得到录音声学特征向量模型和真实语音声学特征向量模型。

本发明实施例通过提取更贴近人耳听觉响应的Mel频率倒谱系数MFCC声学特征向量、Gammatone频率倒谱系数GFCC声学特征向量和更高频的常数Q变换倒谱系数CQCC声学特征向量进行合成，有效地实现了对说话人真实语音和录音的判断，提高了声纹识别的准确率；同时，通过MFCC、GFCC和CQCC的合成，可以有效降低声纹认证系统对文本的要求，解决了现有的说话人识别系统语音识别准确率低，依赖指定文本的技术问题。

以上是对一种防录音攻击的声纹认证方法的一个实施例的说明，以下对一种防录音攻击的声纹认证方法的另一个实施例进行说明：

请参阅图2，图2是一种防录音攻击的声纹认证方法的另一个实施例，包括：

步骤201：获取训练音频，训练音频包括录音音频和真实语音音频，对录音音频和真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

需要说明的是，录音音频和真实语音音频可以是wav格式音频文件。

步骤202：提取录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量，提取真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量。

需要说明的是，MFCC特征向量的获取方式为：对训练音频信号进行预加重和分帧加窗处理，对预加重和分帧加窗处理后的训练音频进行傅里叶变换(FFT),再由Mel频率滤波器组对频域信号进行切分，最后每个频率段对应一个数值，然后取对数Log能量,再进行离散傅里叶变换(DCT)，得到幅度倒谱和/或功率倒谱，得到的MFCC特征向量为：

其中，S(m)为经过Mel滤波器组后的输出进行对数运算得到的对数频谱，M表示滤波器的个数，n为第n维特征；

GFCC特征向量的获取方式为：对训练音频信号进行预加重和分帧加窗处理，对预加重和分帧加窗处理后的训练音频做傅里叶变换后利用Gammatone滤波器组对频域信号进行切分，最后每个频率段对应一个数值，然后进行指数压缩,再进行离散傅里叶变换，得到幅度倒谱和/或功率倒谱，得到的MFCC特征向量为：

其中，S_m为经过Gammatone滤波器组后的输出进行指数运算得到的指数频谱，M表示滤波器的个数，l为特征参数的维数；

CQCC特征向量的获取方式为：通过对语音信号进行常数Q变换，获得功率谱之后取对数log，再进行离散傅里叶变换得到功率倒谱，得到的CQCC特征向量为：

其中，是窗函数，N_k为第k条谱线所对应的有限序列的长度，x(n)为经过常数Q变换取对数得到的功率谱，n为第n维特征。

步骤203：将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行加法合成或乘法合成，得到录音音频的第二声学特征向量，将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成或乘法合成，得到真实语音音频的第三声学特征向量，并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

需要说明的是，将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行合成，将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成，即：

步骤204：获取待检测音频，对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。

需要说明的是，待检测音频可以是wav格式音频文件。

步骤205：提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。

需要说明的是，第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量的提取方法已在步骤101中进行说明，在此不再进行赘述。

步骤206：将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行加法合成或乘法合成，得到待检测音频的第一声学特征向量。

需要说明的是：特征向量的合成方法可以是加法合成，也可以是乘法合成，本实施例选用的是加法合成。

步骤207：将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。

需要说明的是，单个特征向量类型的识别结果及多个特征向量合成的识别结果如表1所示，由表1的识别结果可以看出，MFCC+GFCC+CQCC的合成识别结果错误率是最低的，因此MFCC+GFCC+CQCC的合成能够提高声纹识别的准确率。

表1

特征向量组合类型	错误率％
		MFCC	2.61
i-vector	1.97
		MFCC+GFCC	1.21
MFCC+CQCC	0.89
		MFCC+CQCC+GFCC	0.36

以上是对一种防录音攻击的声纹认证方法的另一个实施例的说明，与现有技术相比，本发明具有如下优点与效果：

本发明实施例通过提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量并进行加法合成，得到待检测音频的第一声学特征向量；将待检测音频的第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频。本发明实施例经过对MFCC特征向量、GFCC特征向量和CQCC特征向量进行向量加法合成之后，有效地降低了声纹识别的错误率，提高了声纹识别的准确率，且不需要依赖于指定文本，提高了声纹识别系统的灵活性和用户体验性。

以上是对一种防录音攻击的声纹认证方法的另一个实施例的说明，以下是对一种防录音攻击的声纹认证装置的一个实施例的说明。

请参阅图3，图3是一种防录音攻击的声纹认证装置的一个实施例，包括：

第一特征提取单元301，用于获取待检测音频，提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量；

合成单元302，用于将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成，得到待检测音频的第一声学特征向量；

识别单元303，用于将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，若否，则判断为真实语音音频；

获取单元304，用于获取训练音频，训练音频包括录音音频和真实语音音频，对录音音频和真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第二特征提取单元305，用于提取录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量，提取真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量；

训练单元306，用于将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行合成，得到录音音频的第二声学特征向量，将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行合成，得到真实语音音频的第三声学特征向量，并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库；

进一步地，第一特征提取单元301具体包括：

获取子单元3011，用于获取待检测音频，对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理；

第一特征提取子单元3012，用于提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。

进一步地，合成单元302具体用于：将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行加法合成或乘法合成，得到待检测音频的第一声学特征向量；

训练单元306具体用于：将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行加法合成或乘法合成，得到录音音频的第二声学特征向量，将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成或乘法合成，得到真实语音音频的第三声学特征向量，并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

以上是对一种防录音攻击的声纹认证装置的结构示意图的一个实施例的说明，以下是对一种防录音攻击的声纹认证门禁系统的一个实施例的说明。

一种防录音攻击的声纹认证门禁系统，包括：电控锁和上述的任意一种防录音攻击的声纹认证装置；

防录音攻击的声纹认证装置和电控锁通信连接；

识别单元303将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，电控锁处于锁定状态，拒绝用户进入；若否，则判断为真实语音音频，此时，识别单元303会将真实语音音频与预置的各说话人声纹模型进行匹配度比对，判断真实语音音频是否是合法用户，若是，则电控锁处于打开状态，允许用户进入，若否，则电控锁处于锁定状态，拒绝用户进入。

以上是对一种防录音攻击的声纹认证门禁系统的一个实施例的说明，与现有技术相比，本发明具有如下优点与效果：

本发明实施例通过提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量并进行加法合成，得到待检测音频的第一声学特征向量；将待检测音频的第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对，判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度，若是，则判断为录音音频，电控锁处于锁定状态，拒绝用户进入；若否，则判断为真实语音音频，此时，识别单元303会将真实语音音频与预置的各说话人声纹模型进行匹配度比对，判断真实语音音频是否是合法用户，若是，则电控锁处于打开状态，允许用户进入，若否，则电控锁处于锁定状态，拒绝用户进入。本发明实施例经过对MFCC特征向量、GFCC特征向量和CQCC特征向量进行向量加法合成之后，有效地降低了声纹识别的错误率，提高了声纹识别的准确率，同时，本发明实施例中，待检测音频可以是任意语音文本，即说话人可以发出任何语音文本，该门禁系统不需要指定文本给说话人进行跟读操作，解决了说话人识别系统依赖指定文本的技术问题，提高了声纹识别系统的灵活性和用户体验性。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种防录音攻击的声纹认证方法，其特征在于，包括：

2.根据权利要求1所述的一种防录音攻击的声纹认证方法，其特征在于，步骤S1之前还包括：

3.根据权利要求2所述的一种防录音攻击的声纹认证方法，其特征在于，步骤S1具体包括：

4.根据权利要求1所述的一种防录音攻击的声纹认证方法，其特征在于，步骤S2具体包括：

将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成，得到所述待检测音频的第一声学特征向量。

5.根据权利要求2所述的一种防录音攻击的声纹认证方法，其特征在于，步骤S03具体包括：

将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成，得到所述录音音频的第二声学特征向量，将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成，得到所述真实语音音频的第三声学特征向量，并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练，得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。

6.一种防录音攻击的声纹认证装置，其特征在于，包括：

7.根据权利要求6所述的一种防录音攻击的声纹认证装置，其特征在于，还包括：

8.根据权利要求7所述的一种防录音攻击的声纹认证装置，其特征在于，所述第一特征提取单元具体包括：

9.根据权利要求6或7所述的一种防录音攻击的声纹认证装置，其特征在于，所述合成单元具体用于：将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成，得到所述待检测音频的第一声学特征向量；

10.一种防录音攻击的声纹认证门禁系统，其特征在于，包括：电控锁和如权利要求6至9中任意一项所述的防录音攻击的声纹认证装置；

所述防录音攻击的声纹认证装置和所述电控锁通信连接。