CN108039176A - 一种防录音攻击的声纹认证方法、装置及门禁系统 - Google Patents
一种防录音攻击的声纹认证方法、装置及门禁系统 Download PDFInfo
- Publication number
- CN108039176A CN108039176A CN201810027059.8A CN201810027059A CN108039176A CN 108039176 A CN108039176 A CN 108039176A CN 201810027059 A CN201810027059 A CN 201810027059A CN 108039176 A CN108039176 A CN 108039176A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- audio
- acoustic feature
- acoustic
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 70
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 74
- 230000015572 biosynthetic process Effects 0.000 claims description 50
- 238000003786 synthesis reaction Methods 0.000 claims description 50
- 239000000654 additive Substances 0.000 claims description 22
- 230000000996 additive effect Effects 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 description 19
- 230000009466 transformation Effects 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 5
- 238000009432 framing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Game Theory and Decision Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开了一种防录音攻击的声纹认证方法、装置及门禁系统,包括:获取待检测音频,提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成,得到待检测音频的第一声学特征向量;将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。解决了现有的说话人识别系统语音识别准确率低,依赖指定文本的技术问题。
Description
技术领域
本发明涉及语音认证技术领域,尤其涉及一种防录音攻击的声纹认证方法、装置及门禁系统。
背景技术
随着信息技术的发展,一些破坏安全的技术手段也在不断进步,目前,冒充说话人身份和录制说话人语音的攻击手段是说话人识别系统面临的最常见的攻击手段。冒充说话人身份的手段一般是利用一些技巧如模仿说话人的发音习惯和语调来试图冒充说话人的身份以进入说话人识别系统。
录音攻击是一种用高保真录音设备录下目标人物的声音,然后运用录音音频去破解声纹认证系统的技术手段。与冒充说话人身份攻击的手段不同,录音攻击的语音是来自说话人本人,因此更具真实性,这种攻击对系统的安全性将造成一个更大的威胁。
为解决说话人识别系统的安全问题,现有的方法是通过提取回放语音的特征参数,应用模式匹配的方式来区分回放的语音还是用户本人的声音,同时,系统会在特定的字符集合随意的抽取出若干个字符并给出相应的提示,用户要按照系统提示的给定的文本进行跟读操作,确认跟读者是否是用户本人,但是这种说话人识别系统,声学特征区分率不高,同时因为文本的多样性会导致浪费很多的资源在语音训练和识别过程中,而且让用户按指定的内容来跟读的方式可能对降低用户体验性,不利于系统的广泛推广。
发明内容
本发明实施例提供了一种防录音攻击的声纹认证方法、装置及门禁系统,用于解决现有的说话人识别系统语音识别准确率低,依赖指定文本的技术问题。
本发明提供的一种防录音攻击的声纹认证方法,包括:
S1:获取待检测音频,提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;
S2:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成,得到所述待检测音频的第一声学特征向量;
S3:将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
优选地,步骤S1之前还包括:
S01:获取训练音频,所述训练音频包括录音音频和真实语音音频,对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S02:提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量;
S03:将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
优选地,步骤S1具体包括:
S11:获取待检测音频,对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S12:提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
优选地,步骤S2具体包括:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成,得到所述待检测音频的第一声学特征向量。
优选地,步骤S03具体包括:将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
本发明提供的一种防录音攻击的声纹认证装置,包括:
第一特征提取单元,用于获取待检测音频,提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;
合成单元,用于将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成,得到所述待检测音频的第一声学特征向量;
识别单元,用于将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
优选地,还包括:
获取单元,用于获取训练音频,所述训练音频包括录音音频和真实语音音频,对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第二特征提取单元,用于提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量;
训练单元,用于将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
优选地,第一特征提取单元具体包括:
获取子单元,用于获取待检测音频,对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第一特征提取子单元,用于提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
优选地,所述合成单元具体用于:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成,得到所述待检测音频的第一声学特征向量;
所述训练单元具体用于:将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
本发明提供的一种防录音攻击的声纹认证门禁系统,包括:电控锁和上述的任意一种防录音攻击的声纹认证装置;
防录音攻击的声纹认证装置和电控锁通信连接。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明提供的一种防录音攻击的声纹认证方法,包括:S1:获取待检测音频,提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;S2:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成,得到所述待检测音频的第一声学特征向量;S3:将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
本发明提供的一种防录音攻击的声纹认证方法,通过提取更贴近人耳听觉响应的Mel频率倒谱系数MFCC声学特征向量、Gammatone频率倒谱系数GFCC声学特征向量和更高频的常数Q变换倒谱系数CQCC声学特征向量进行合成,有效地实现了对说话人真实语音和录音的判断,提高了声纹识别的准确率;同时,通过MFCC、GFCC和CQCC的合成,可以有效降低声纹认证系统对文本的要求,解决了现有的说话人识别系统语音识别准确率低,依赖指定文本的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种防录音攻击的声纹认证方法的一个实施例的流程示意图;
图2为本发明实施例提供的一种防录音攻击的声纹认证方法的另一个实施例的流程示意图;
图3为本发明实施例提供的一种防录音攻击的声纹认证装置的一个实施例的结构示意图;
具体实施方式
本发明实施例提供了一种防录音攻击的声纹认证方法、装置及门禁系统,用于解决现有的说话人识别系统语音识别准确率低,依赖指定文本的技术问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明提供的一种防录音攻击的声纹认证方法的一个实施例,包括:
步骤101:获取待检测音频,提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
需要说明的是,在获取待检测音频之后,需要对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
MFCC(Mel-Frequency Cepstrum Coefficients,Mel频率倒谱系数)即对时域信号做傅里叶变换后利用梅尔频率刻度的滤波器组对频域信号进行切分,最后每个频率段对应一个数值,然后取对数Log,再进行离散傅里叶变换,得到幅度倒谱和/或功率倒谱;
GFCC(Gammatone Frequency Cepstrum Coefficients,Gammatone频率倒谱系数)即对时域信号做傅里叶变换后利用Gammatone滤波器组对频域信号进行切分,最后每个频率段对应一个数值,然后进行指数压缩,再进行离散傅里叶变换,得到幅度倒谱和/或功率倒谱;
CQCC(Constant Qtransform Cepstrum Coefficients,常数Q变换频率倒谱系数),常数Q变换是一种适用于音乐信号分析的时域信号分析工具,在频率轴为对数log,而且其窗口长度可以随着频率而改变;常数Q变换频率倒谱系数即通过对语音信号进行常数Q变换,获得功率谱之后取对数log,再进行离散傅里叶变换得到功率倒谱。
步骤102:将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成,得到待检测音频的第一声学特征向量。
需要说明的是,获得待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量之后对第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行向量的加法合成,得到待检测音频的第一声学特征向量。
步骤103:将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
需要说明的是,SVM(Support Vector Machine,支持向量机)是一种用于判别的方法,可应用于模式识别、分类以及回归分析,本实施例中用于对录音音频的第二声学特征向量和真实语音音频的第三声学特征向量分别进行训练建模得到录音声学特征向量模型和真实语音声学特征向量模型。
本发明实施例通过提取更贴近人耳听觉响应的Mel频率倒谱系数MFCC声学特征向量、Gammatone频率倒谱系数GFCC声学特征向量和更高频的常数Q变换倒谱系数CQCC声学特征向量进行合成,有效地实现了对说话人真实语音和录音的判断,提高了声纹识别的准确率;同时,通过MFCC、GFCC和CQCC的合成,可以有效降低声纹认证系统对文本的要求,解决了现有的说话人识别系统语音识别准确率低,依赖指定文本的技术问题。
以上是对一种防录音攻击的声纹认证方法的一个实施例的说明,以下对一种防录音攻击的声纹认证方法的另一个实施例进行说明:
请参阅图2,图2是一种防录音攻击的声纹认证方法的另一个实施例,包括:
步骤201:获取训练音频,训练音频包括录音音频和真实语音音频,对录音音频和真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
需要说明的是,录音音频和真实语音音频可以是wav格式音频文件。
步骤202:提取录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量。
需要说明的是,MFCC特征向量的获取方式为:对训练音频信号进行预加重和分帧加窗处理,对预加重和分帧加窗处理后的训练音频进行傅里叶变换(FFT),再由Mel频率滤波器组对频域信号进行切分,最后每个频率段对应一个数值,然后取对数Log能量,再进行离散傅里叶变换(DCT),得到幅度倒谱和/或功率倒谱,得到的MFCC特征向量为:
其中,S(m)为经过Mel滤波器组后的输出进行对数运算得到的对数频谱,M表示滤波器的个数,n为第n维特征;
GFCC特征向量的获取方式为:对训练音频信号进行预加重和分帧加窗处理,对预加重和分帧加窗处理后的训练音频做傅里叶变换后利用Gammatone滤波器组对频域信号进行切分,最后每个频率段对应一个数值,然后进行指数压缩,再进行离散傅里叶变换,得到幅度倒谱和/或功率倒谱,得到的MFCC特征向量为:
其中,Sm为经过Gammatone滤波器组后的输出进行指数运算得到的指数频谱,M表示滤波器的个数,l为特征参数的维数;
CQCC特征向量的获取方式为:通过对语音信号进行常数Q变换,获得功率谱之后取对数log,再进行离散傅里叶变换得到功率倒谱,得到的CQCC特征向量为:
其中,是窗函数,Nk为第k条谱线所对应的有限序列的长度,x(n)为经过常数Q变换取对数得到的功率谱,n为第n维特征。
步骤203:将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行加法合成或乘法合成,得到录音音频的第二声学特征向量,将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成或乘法合成,得到真实语音音频的第三声学特征向量,并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
需要说明的是,将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行合成,将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成,即:
步骤204:获取待检测音频,对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理。
需要说明的是,待检测音频可以是wav格式音频文件。
步骤205:提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
需要说明的是,第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量的提取方法已在步骤101中进行说明,在此不再进行赘述。
步骤206:将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行加法合成或乘法合成,得到待检测音频的第一声学特征向量。
需要说明的是:特征向量的合成方法可以是加法合成,也可以是乘法合成,本实施例选用的是加法合成。
步骤207:将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
需要说明的是,单个特征向量类型的识别结果及多个特征向量合成的识别结果如表1所示,由表1的识别结果可以看出,MFCC+GFCC+CQCC的合成识别结果错误率是最低的,因此MFCC+GFCC+CQCC的合成能够提高声纹识别的准确率。
表1
特征向量组合类型 | 错误率% |
MFCC | 2.61 |
i-vector | 1.97 |
MFCC+GFCC | 1.21 |
MFCC+CQCC | 0.89 |
MFCC+CQCC+GFCC | 0.36 |
以上是对一种防录音攻击的声纹认证方法的另一个实施例的说明,与现有技术相比,本发明具有如下优点与效果:
本发明实施例通过提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量并进行加法合成,得到待检测音频的第一声学特征向量;将待检测音频的第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。本发明实施例经过对MFCC特征向量、GFCC特征向量和CQCC特征向量进行向量加法合成之后,有效地降低了声纹识别的错误率,提高了声纹识别的准确率,且不需要依赖于指定文本,提高了声纹识别系统的灵活性和用户体验性。
以上是对一种防录音攻击的声纹认证方法的另一个实施例的说明,以下是对一种防录音攻击的声纹认证装置的一个实施例的说明。
请参阅图3,图3是一种防录音攻击的声纹认证装置的一个实施例,包括:
第一特征提取单元301,用于获取待检测音频,提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;
合成单元302,用于将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行合成,得到待检测音频的第一声学特征向量;
识别单元303,用于将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频;
获取单元304,用于获取训练音频,训练音频包括录音音频和真实语音音频,对录音音频和真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第二特征提取单元305,用于提取录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量;
训练单元306,用于将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行合成,得到录音音频的第二声学特征向量,将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行合成,得到真实语音音频的第三声学特征向量,并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库;
进一步地,第一特征提取单元301具体包括:
获取子单元3011,用于获取待检测音频,对待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第一特征提取子单元3012,用于提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
进一步地,合成单元302具体用于:将第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量进行加法合成或乘法合成,得到待检测音频的第一声学特征向量;
训练单元306具体用于:将第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量进行加法合成或乘法合成,得到录音音频的第二声学特征向量,将第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量进行加法合成或乘法合成,得到真实语音音频的第三声学特征向量,并将第二声学特征向量和第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
以上是对一种防录音攻击的声纹认证装置的结构示意图的一个实施例的说明,以下是对一种防录音攻击的声纹认证门禁系统的一个实施例的说明。
一种防录音攻击的声纹认证门禁系统,包括:电控锁和上述的任意一种防录音攻击的声纹认证装置;
防录音攻击的声纹认证装置和电控锁通信连接;
识别单元303将第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,电控锁处于锁定状态,拒绝用户进入;若否,则判断为真实语音音频,此时,识别单元303会将真实语音音频与预置的各说话人声纹模型进行匹配度比对,判断真实语音音频是否是合法用户,若是,则电控锁处于打开状态,允许用户进入,若否,则电控锁处于锁定状态,拒绝用户进入。
以上是对一种防录音攻击的声纹认证门禁系统的一个实施例的说明,与现有技术相比,本发明具有如下优点与效果:
本发明实施例通过提取待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量并进行加法合成,得到待检测音频的第一声学特征向量;将待检测音频的第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于第一声学特征向量与真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,电控锁处于锁定状态,拒绝用户进入;若否,则判断为真实语音音频,此时,识别单元303会将真实语音音频与预置的各说话人声纹模型进行匹配度比对,判断真实语音音频是否是合法用户,若是,则电控锁处于打开状态,允许用户进入,若否,则电控锁处于锁定状态,拒绝用户进入。本发明实施例经过对MFCC特征向量、GFCC特征向量和CQCC特征向量进行向量加法合成之后,有效地降低了声纹识别的错误率,提高了声纹识别的准确率,同时,本发明实施例中,待检测音频可以是任意语音文本,即说话人可以发出任何语音文本,该门禁系统不需要指定文本给说话人进行跟读操作,解决了说话人识别系统依赖指定文本的技术问题,提高了声纹识别系统的灵活性和用户体验性。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种防录音攻击的声纹认证方法,其特征在于,包括:
S1:获取待检测音频,提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;
S2:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成,得到所述待检测音频的第一声学特征向量;
S3:将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
2.根据权利要求1所述的一种防录音攻击的声纹认证方法,其特征在于,步骤S1之前还包括:
S01:获取训练音频,所述训练音频包括录音音频和真实语音音频,对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S02:提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量;
S03:将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
3.根据权利要求2所述的一种防录音攻击的声纹认证方法,其特征在于,步骤S1具体包括:
S11:获取待检测音频,对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
S12:提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
4.根据权利要求1所述的一种防录音攻击的声纹认证方法,其特征在于,步骤S2具体包括:
将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成,得到所述待检测音频的第一声学特征向量。
5.根据权利要求2所述的一种防录音攻击的声纹认证方法,其特征在于,步骤S03具体包括:
将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
6.一种防录音攻击的声纹认证装置,其特征在于,包括:
第一特征提取单元,用于获取待检测音频,提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量;
合成单元,用于将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行合成,得到所述待检测音频的第一声学特征向量;
识别单元,用于将所述第一声学特征向量与预置的训练模板库中的经过SVM分类器训练得到的录音声学特征模型和真实语音声学特征模型进行匹配度比对,判断所述第一声学特征向量与录音声学特征向量模型的第一匹配度是否大于等于所述第一声学特征向量与所述真实语音声学特征向量模型的第二匹配度,若是,则判断为录音音频,若否,则判断为真实语音音频。
7.根据权利要求6所述的一种防录音攻击的声纹认证装置,其特征在于,还包括:
获取单元,用于获取训练音频,所述训练音频包括录音音频和真实语音音频,对所述录音音频和所述真实语音音频分别进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第二特征提取单元,用于提取所述录音音频的第二MFCC特征向量、第二GFCC特征向量和第二CQCC特征向量,提取所述真实语音音频的第三MFCC特征向量、第三GFCC特征向量和第三CQCC特征向量;
训练单元,用于将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
8.根据权利要求7所述的一种防录音攻击的声纹认证装置,其特征在于,所述第一特征提取单元具体包括:
获取子单元,用于获取待检测音频,对所述待检测音频进行采样处理和/或预加重处理和/或预滤波处理和/或加窗处理和/或端点检测处理;
第一特征提取子单元,用于提取所述待检测音频的第一MFCC特征向量、第一GFCC特征向量和第一CQCC特征向量。
9.根据权利要求6或7所述的一种防录音攻击的声纹认证装置,其特征在于,所述合成单元具体用于:将所述第一MFCC特征向量、所述第一GFCC特征向量和所述第一CQCC特征向量进行加法合成或乘法合成,得到所述待检测音频的第一声学特征向量;
所述训练单元具体用于:将所述第二MFCC特征向量、所述第二GFCC特征向量和所述第二CQCC特征向量进行加法合成或乘法合成,得到所述录音音频的第二声学特征向量,将所述第三MFCC特征向量、所述第三GFCC特征向量和所述第三CQCC特征向量进行加法合成或乘法合成,得到所述真实语音音频的第三声学特征向量,并将所述第二声学特征向量和所述第三声学特征向量分别送入SVM分类器进行训练,得到对应的录音声学特征模型和真实声学特征模型并加入训练模板库。
10.一种防录音攻击的声纹认证门禁系统,其特征在于,包括:电控锁和如权利要求6至9中任意一项所述的防录音攻击的声纹认证装置;
所述防录音攻击的声纹认证装置和所述电控锁通信连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027059.8A CN108039176B (zh) | 2018-01-11 | 2018-01-11 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810027059.8A CN108039176B (zh) | 2018-01-11 | 2018-01-11 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108039176A true CN108039176A (zh) | 2018-05-15 |
CN108039176B CN108039176B (zh) | 2021-06-18 |
Family
ID=62099196
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810027059.8A Active CN108039176B (zh) | 2018-01-11 | 2018-01-11 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108039176B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147799A (zh) * | 2018-10-18 | 2019-01-04 | 广州势必可赢网络科技有限公司 | 一种语音识别的方法、装置、设备及计算机存储介质 |
CN109300479A (zh) * | 2018-10-31 | 2019-02-01 | 桂林电子科技大学 | 一种回放语音的声纹识别方法、装置及存储介质 |
CN109448759A (zh) * | 2018-12-28 | 2019-03-08 | 武汉大学 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
CN109599117A (zh) * | 2018-11-14 | 2019-04-09 | 厦门快商通信息技术有限公司 | 一种音频数据识别方法及人声语音防重放识别系统 |
CN109754812A (zh) * | 2019-01-30 | 2019-05-14 | 华南理工大学 | 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN110459226A (zh) * | 2019-08-19 | 2019-11-15 | 效生软件科技(上海)有限公司 | 一种通过声纹引擎检测人声或机器音进行身份核验的方法 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN110689893A (zh) * | 2019-10-12 | 2020-01-14 | 四川虹微技术有限公司 | 一种提高语音支付安全性的方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN111445904A (zh) * | 2018-12-27 | 2020-07-24 | 北京奇虎科技有限公司 | 基于云端的语音控制方法、装置及电子设备 |
CN111755014A (zh) * | 2020-07-02 | 2020-10-09 | 四川长虹电器股份有限公司 | 一种领域自适应的录音重放攻击检测方法及系统 |
CN112424860A (zh) * | 2018-07-31 | 2021-02-26 | 思睿逻辑国际半导体有限公司 | 重放攻击的检测 |
CN112509598A (zh) * | 2020-11-20 | 2021-03-16 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
CN112712809A (zh) * | 2021-03-29 | 2021-04-27 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN113053397A (zh) * | 2021-03-04 | 2021-06-29 | 常州分音塔科技有限公司 | 一种防录音攻击身份认证方法、装置及系统 |
CN113641980A (zh) * | 2021-08-23 | 2021-11-12 | 北京百度网讯科技有限公司 | 认证方法及装置,电子设备和介质 |
CN113724693A (zh) * | 2021-11-01 | 2021-11-30 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
CN114822587A (zh) * | 2021-01-19 | 2022-07-29 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN114826709A (zh) * | 2022-04-15 | 2022-07-29 | 马上消费金融股份有限公司 | 身份认证和声学环境检测方法、系统、电子设备及介质 |
CN115280410A (zh) * | 2020-01-13 | 2022-11-01 | 密歇根大学董事会 | 安全自动说话者验证系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260455A1 (en) * | 2006-04-07 | 2007-11-08 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
US20100223057A1 (en) * | 2008-12-23 | 2010-09-02 | Thales | Method and system to authenticate a user and/or generate cryptographic data |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN103390305A (zh) * | 2013-07-15 | 2013-11-13 | 厦门大学 | 文本提示型声纹门禁系统 |
CN103955981A (zh) * | 2014-05-15 | 2014-07-30 | 南宁思飞电子科技有限公司 | 一种门禁装置 |
US20150012274A1 (en) * | 2013-07-03 | 2015-01-08 | Electronics And Telecommunications Research Institute | Apparatus and method for extracting feature for speech recognition |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105095964A (zh) * | 2015-08-17 | 2015-11-25 | 杭州朗和科技有限公司 | 一种数据处理方法和装置 |
CN105913855A (zh) * | 2016-04-11 | 2016-08-31 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
US20170358298A1 (en) * | 2013-10-04 | 2017-12-14 | Nuance Communications, Inc. | System and method of using neural transforms of robust audio features for speech processing |
-
2018
- 2018-01-11 CN CN201810027059.8A patent/CN108039176B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070260455A1 (en) * | 2006-04-07 | 2007-11-08 | Kabushiki Kaisha Toshiba | Feature-vector compensating apparatus, feature-vector compensating method, and computer program product |
US20100223057A1 (en) * | 2008-12-23 | 2010-09-02 | Thales | Method and system to authenticate a user and/or generate cryptographic data |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
US20150012274A1 (en) * | 2013-07-03 | 2015-01-08 | Electronics And Telecommunications Research Institute | Apparatus and method for extracting feature for speech recognition |
CN103390305A (zh) * | 2013-07-15 | 2013-11-13 | 厦门大学 | 文本提示型声纹门禁系统 |
US20170358298A1 (en) * | 2013-10-04 | 2017-12-14 | Nuance Communications, Inc. | System and method of using neural transforms of robust audio features for speech processing |
CN103955981A (zh) * | 2014-05-15 | 2014-07-30 | 南宁思飞电子科技有限公司 | 一种门禁装置 |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN105095964A (zh) * | 2015-08-17 | 2015-11-25 | 杭州朗和科技有限公司 | 一种数据处理方法和装置 |
CN105913855A (zh) * | 2016-04-11 | 2016-08-31 | 宁波大学 | 一种基于长窗比例因子的回放语音攻击检测算法 |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
Non-Patent Citations (3)
Title |
---|
M. TODISCO 等: ""A New Feature for Automatic Speaker Verification Anti-Spoofing: Constant Q Cepstral Coefficients"", 《SPEAKER ODYSSEY WORKSHOP》 * |
X. ZHAO 等: ""Analyzing noise robustness of MFCC and GFCC features in speaker identification"", 《2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
集运物流: ""漫谈RNN之注意力机制(语音识别篇)"", 《 HTTP://BBS.IMEFUTURE.COM/ARTICLE/4411》 * |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112424860A (zh) * | 2018-07-31 | 2021-02-26 | 思睿逻辑国际半导体有限公司 | 重放攻击的检测 |
CN109147799A (zh) * | 2018-10-18 | 2019-01-04 | 广州势必可赢网络科技有限公司 | 一种语音识别的方法、装置、设备及计算机存储介质 |
CN109300479A (zh) * | 2018-10-31 | 2019-02-01 | 桂林电子科技大学 | 一种回放语音的声纹识别方法、装置及存储介质 |
CN109599117A (zh) * | 2018-11-14 | 2019-04-09 | 厦门快商通信息技术有限公司 | 一种音频数据识别方法及人声语音防重放识别系统 |
CN111445904A (zh) * | 2018-12-27 | 2020-07-24 | 北京奇虎科技有限公司 | 基于云端的语音控制方法、装置及电子设备 |
CN109448759A (zh) * | 2018-12-28 | 2019-03-08 | 武汉大学 | 一种基于气爆音的抗语音认证欺骗攻击检测方法 |
CN109801638A (zh) * | 2019-01-24 | 2019-05-24 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN109801638B (zh) * | 2019-01-24 | 2023-10-13 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备及存储介质 |
CN109754812A (zh) * | 2019-01-30 | 2019-05-14 | 华南理工大学 | 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 |
CN109920435A (zh) * | 2019-04-09 | 2019-06-21 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN109920435B (zh) * | 2019-04-09 | 2021-04-06 | 厦门快商通信息咨询有限公司 | 一种声纹识别方法及声纹识别装置 |
CN110491391A (zh) * | 2019-07-02 | 2019-11-22 | 厦门大学 | 一种基于深度神经网络的欺骗语音检测方法 |
CN110459226A (zh) * | 2019-08-19 | 2019-11-15 | 效生软件科技(上海)有限公司 | 一种通过声纹引擎检测人声或机器音进行身份核验的方法 |
CN110689893A (zh) * | 2019-10-12 | 2020-01-14 | 四川虹微技术有限公司 | 一种提高语音支付安全性的方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN112863523B (zh) * | 2019-11-27 | 2023-05-16 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN112863523A (zh) * | 2019-11-27 | 2021-05-28 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
WO2021103913A1 (zh) * | 2019-11-27 | 2021-06-03 | 华为技术有限公司 | 语音防伪方法、装置、终端设备及存储介质 |
CN115280410A (zh) * | 2020-01-13 | 2022-11-01 | 密歇根大学董事会 | 安全自动说话者验证系统 |
CN111755014B (zh) * | 2020-07-02 | 2022-06-03 | 四川长虹电器股份有限公司 | 一种领域自适应的录音重放攻击检测方法及系统 |
CN111755014A (zh) * | 2020-07-02 | 2020-10-09 | 四川长虹电器股份有限公司 | 一种领域自适应的录音重放攻击检测方法及系统 |
CN112509598A (zh) * | 2020-11-20 | 2021-03-16 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
CN112509598B (zh) * | 2020-11-20 | 2024-06-18 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
CN114822587A (zh) * | 2021-01-19 | 2022-07-29 | 四川大学 | 一种基于常数q变换的音频特征压缩方法 |
CN113053397A (zh) * | 2021-03-04 | 2021-06-29 | 常州分音塔科技有限公司 | 一种防录音攻击身份认证方法、装置及系统 |
CN112927694A (zh) * | 2021-03-08 | 2021-06-08 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN112927694B (zh) * | 2021-03-08 | 2022-09-13 | 中国地质大学(武汉) | 一种基于融合声纹特征的语音指令合法性判别方法 |
CN112712809A (zh) * | 2021-03-29 | 2021-04-27 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
CN113641980A (zh) * | 2021-08-23 | 2021-11-12 | 北京百度网讯科技有限公司 | 认证方法及装置,电子设备和介质 |
CN113724693A (zh) * | 2021-11-01 | 2021-11-30 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
CN113724693B (zh) * | 2021-11-01 | 2022-04-01 | 中国科学院自动化研究所 | 语音判别方法、装置、电子设备及存储介质 |
CN114826709A (zh) * | 2022-04-15 | 2022-07-29 | 马上消费金融股份有限公司 | 身份认证和声学环境检测方法、系统、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108039176B (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108039176B (zh) | 一种防录音攻击的声纹认证方法、装置及门禁系统 | |
Lavrentyeva et al. | STC antispoofing systems for the ASVspoof2019 challenge | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
CN107517207A (zh) | 服务器、身份验证方法及计算机可读存储介质 | |
WO2017114307A1 (zh) | 能够防止录音攻击的声纹认证方法、服务器、终端及系统 | |
WO2019002831A1 (en) | REPRODUCTIVE ATTACK DETECTION | |
CN109215665A (zh) | 一种基于3d卷积神经网络的声纹识别方法 | |
CN104485102A (zh) | 声纹识别方法和装置 | |
CN109448759A (zh) | 一种基于气爆音的抗语音认证欺骗攻击检测方法 | |
WO2018129869A1 (zh) | 声纹验证方法和装置 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN108154371A (zh) | 电子装置、身份验证的方法及存储介质 | |
EP3989217A1 (en) | Method for detecting an audio adversarial attack with respect to a voice input processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium | |
CN104517066A (zh) | 一种文件夹加密方法 | |
CN111816185A (zh) | 一种对混合语音中说话人的识别方法及装置 | |
CN109841219A (zh) | 利用语音振幅信息和多种相位检测语音欺诈重放攻击方法 | |
CN109920435A (zh) | 一种声纹识别方法及声纹识别装置 | |
US11611581B2 (en) | Methods and devices for detecting a spoofing attack | |
CN117253490A (zh) | 一种基于Conformer的说话人验证方法与系统 | |
CN117037843A (zh) | 一种语音对抗样本生成方法、装置、终端设备及介质 | |
CN116469396A (zh) | 基于时频域掩蔽效应的跨域语音鉴伪方法和系统 | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
CN116434774A (zh) | 语音识别方法及相关装置 | |
CN113012684B (zh) | 一种基于语音分割的合成语音检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 510700 room a401-1, zone a, Guangzhou International Business Incubator, No. 3, Juquan Road, Science City, Huangpu District, Guangzhou, Guangdong Province (office only) Patentee after: GUANGZHOU SPEAKIN INTELLIGENT TECHNOLOGY Co.,Ltd. Address before: 510000 Building 1, No.12 Keyun Road, Tianhe District, Guangzhou City, Guangdong Province (Location: 705) Patentee before: SPEAKIN TECHNOLOGIES Co.,Ltd. |