CN105938716B - 一种基于多精度拟合的样本复制语音自动检测方法 - Google Patents
一种基于多精度拟合的样本复制语音自动检测方法 Download PDFInfo
- Publication number
- CN105938716B CN105938716B CN201610192323.4A CN201610192323A CN105938716B CN 105938716 B CN105938716 B CN 105938716B CN 201610192323 A CN201610192323 A CN 201610192323A CN 105938716 B CN105938716 B CN 105938716B
- Authority
- CN
- China
- Prior art keywords
- voice
- sample
- speaker
- model
- precision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000012790 confirmation Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 102100024109 Cyclin-T1 Human genes 0.000 description 1
- 101000910488 Homo sapiens Cyclin-T1 Proteins 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及语音检测领域,尤其涉及一种基于多精度拟合的样本复制语音自动检测方法,包括如下步骤:S1、建立语音特征库;S2、目标说话人识别模型训练;S3、样本复制语音检测模型训练;S4、说话人识别;S5、样本复制语音检测。本发明的样本复制语音自动检测方法,可以防止冒认者获取到用于声纹识别系统训练模型的样本复制语音后,试图通过越过测试语音采集步骤,直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的情况发生,提高了声纹识别系统的安全性。
Description
技术领域
本发明涉及语音检测领域,尤其涉及一种基于变精度拟合的样本复制语音入侵检测方法。
背景技术
随着互联网技术的发展,声纹识别技术在工业界比如公安侦查、声纹控制、电子金融、智能家居等领域得到了广泛应用。与此同时,说话人识别系统正在面临前端攻击及传输存储等安全问题的威胁,这在一定程度上制约了其应用和发展。样本复制语音和训练样本几乎完全相同,拥有相同的语速、文本、背景噪声、能量特征等,在音素空间上极为接近。在声纹识别系统的应用场景中,尤其是在发展越来越快的网络应用中,通过一些网络技术,语音数据在传输或存储过程中极容易被截获。这对系统造成了极大的安全威胁。
声纹识别系统入侵检测的一种方法是使用混合系统,比如将声纹和人脸等其他生物信息相结合的混合型身份认证系统,以及将声纹识别和动态随机文本的语音识别相结合的VIV(Verbal Information Verification)系统。这些系统参考了用户其他信息或即时信息,能够很好地避免样本复制语音的攻击。但是,此类方法实施起来流程复杂,并且往往需要采集大量额外信息。
另外,还有一种基于信道模式噪声的入侵检测技术,利用了回放的语音中不仅含有系统的信道模式噪声,还含有偷录设备和回放设备的信道模式噪声的特点,此方法相对简单,但是并没有解决冒认者直接利用样本语音攻击说话人识别系统的问题。
2008年,加拿大研究员W.Sheng和M.Stevenson通过对电话信道的研究,得出了录音回放攻击检测(Playback Attack Detection)的理论技术。他首先将信号分帧并作傅里叶变换,之后取出各个帧中频谱幅度最大的前五个峰值作为特征,然后通过模式匹配识别回放录音。这种方法识别效果不错,但是识别过程需要和数据库中所有样本语音进行匹配,效率很低。
发明内容
本发明解决的技术问题在于提供一种提高语音检测系统的安全性的语音检测方法,应用于冒认者已经获取到用于声纹识别系统训练模型的样本复制语音,并试图通过越过测试语音采集步骤,直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的自动检测场景。
为了解决上述问题,本发明采用了如下技术方案:
一种基于多精度拟合的样本复制语音自动检测方法,包括如下步骤:
S1、建立语音特征库:采集目标说话人的样本语音,提取所有样本语音的特征,建立样本语音特征库;
S2、目标说话人识别模型训练:使用所述样本语音特征库中的特征文件,训练目标说话人样本语音识别模型;
S3、样本复制语音检测模型训练:使用所述样本语音特征库中的特征文件,训练目标说话人样本复制语音检测模型;
S4、说话人识别:录入测试语音,提取所述测试语音特征,在所述目标说话人样本语音识别模型上进行说话人识别,判断测试语音是否来源于目标说话人;若通过说话人识别测试,进入下一步;
S5、样本复制语音检测:对通过说话人识别测试的测试语音,在所述目标说话人样本复制语音检测模型上进行样本复制语音检测,判断测试语音是否为样本复制语音。
进一步的,步骤S3中,训练目标说话人样本复制语音检测模型包括:在训练时通过设置不同的仅影响模型的拟合精度的模型参数,得到仅拟合精度不同的说话人模型集合,作为目标说话人样本复制语音检测模型。
进一步的,步骤S3中,所述的样本复制语音包括样本语音的副本或副本的一部分,以及在样本语音采集过程中入侵者使用同样的设备偷录的语音。
进一步的,步骤S5中,所述的样本复制语音检测包括:将测试语音在目标说话人样本复制语音检测模型中的仅拟合精度不同的多个说话人模型上分别打分,并将得分进行排序,根据得分排序结果判定测试语音是否为样本复制语音。
进一步的,若测试语音在拟合精度越高的说话人模型上得分越高,则判定测试语音为样本复制语音;反之,若拟合精度的提高未引起测试语音在说话人模型上的似然得分的提高,则判定测试语音为非样本复制语音。
进一步的,所述目标说话人为一个或多个,当目标说话人为多个时,分别为每个目标说话人建立语音特征库,并进行相应的说话人识别模型训练和样本复制语音检测模型训练。
进一步的,步骤S4中,说话人识别包括说话人确认和/或说话人鉴别;说话人确认用于判断测试语音是否来自其所声称的目标说话人,说话人鉴别用于判断测试语音来自语音库中的哪一个目标说话人。
进一步的,说话人确认具体包括:将测试语音在其声称的目标说话人样本语音识别模型上打分,并将得分和系统阈值比较,大于阈值则判定测试语音来自其所声称的目标说话人。
进一步的,说话人鉴别具体包括:将测试语音在每一个目标说话人样本语音识别模型上分别打分,将得分最高的模型作为鉴别结果,即测试语音来自该模型对应的目标说话人。
本发明的样本复制语音自动检测方法,基于拟合精度关联的得分单调性变化现象。其原理是,在声纹识别系统中进行模型训练时,模型阶数的提高对应模型拟合精度的提高,模型拟合精度的逐步提高会带来原始模型训练语音(样本复制语音)的似然得分的关联性逐步提高。对于一个未知测试语音,将它在不同阶数的模型上计算似然得分,根据似然得分随阶数的增长关系就可以区分此测试语音是否为样本复制语音。
本发明的样本复制语音自动检测方法,可以防止冒认者获取到用于声纹识别系统训练模型的样本复制语音后,试图通过越过测试语音采集步骤,直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的情况发生,提高了声纹识别系统的安全性。
附图说明
图1为本发明的样本复制语音自动检测方法的流程示意图;
图2为在模型训练阶段训练多精度拟合说话人模型的流程示意图;
图3为检测通过的语音是否为样本复制语音的流程示意图;
图4为样本复制语音和非样本复制语音的似然得分随GMM模型的拟合精度增高呈现的变化趋势图。
具体实施方式
本发明提供了一种基于多精度拟合的样本复制语音自动检测方法,如附图1所示,分为训练阶段和测试阶段,训练阶段在样本语音特征提取之后进行,测试阶段在声纹识别任务之后进行。具体的,包括如下步骤:
1)采集目标说话人的样本语音,提取所有样本语音的特征,建立样本语音特征库;
2)使用样本语音特征库中的特征文件,训练目标说话人样本语音识别模型及目标说话人样本复制语音检测模型;训练模型时设置不同的模型参数使系统的拟合精度递增,分别保存这些模型,用于样本语音检测;
3)录入测试语音,提取测试语音特征,并使用测试语音的特征文件,在目标说话人样本语音识别模型上进行说话人确认和/或说话人鉴别;
其中,说话人确认具体包括:将测试语音在其声称的目标说话人样本语音识别模型上打分,并将得分和系统阈值比较,大于阈值则判定测试语音来自其所声称的目标说话人;说话人鉴别具体包括:将测试语音在每一个目标说话人样本语音识别模型上分别打分,将得分最高的模型作为鉴别结果,即测试语音来自该模型对应的目标说话人;若通过说话人识别测试,进入下一步;
4)对通过说话人识别测试的测试语音,在目标说话人样本复制语音检测模型上进行样本复制语音检测并打分;对单个测试语音的多个得分进行排序,如果在拟合精度越高的模型上得分越高,表明测试语音为样本复制语音;反之,如果在拟合精度越高的模型上得分并非越高,则表明测试语音非样本复制语音。
为了进一步理解本发明,下面结合具体实施例对本发明的优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
由于说话人识别在现有的声纹识别系统中已得到普遍的应用,在此不多作说明。此处主要说明样本复制语音检测模型的训练和样本复制语音的检测。
1、样本复制语音检测模型训练阶段
在模型训练阶段训练多精度拟合(不同阶数)的目标说话人模型,即目标说话人样本复制语音检测模型,这里以高斯混合模型(GMM,Gaussian Mixture Model)为例。如图2所示,模型训练阶段主要分为三个步骤:
1)采集目标说话人的样本语音:常使用的采样频率为8KHz,10KHz或16KHz;
2)提取样本语音的梅尔频率倒谱系数(MFCC)特征:MFCC参数取5~18阶即可,通常会加上一维能量特征和MFCC的一阶delta特征,以保存局部语音的变化信息;
3)和以往的声纹识别系统不同,这里要训练多精度拟合的说话人模型,即多个阶数的GMM模型:训练时GMM阶数分别设置为8、128、256、512、1024,其它参数则保持一致,得到的模型集合为M8、M128、M256、M512、M1024;
此处是以GMM模型为例进行说明,调整GMM模型的高斯分量个数可以改变模型的拟合精度,但在使用其它模型的声纹识别系统中可能要调整其它参数以达到同样的效果。
2、样本复制语音检测阶段
此阶段放在声纹识别系统的后端,即先进行声纹识别任务,识别通过的语音进一步检测是否为样本复制语音。如图3所示,具体分为如下几个步骤:
1)测试语音录入:这里的测试语音可能是样本复制语音,也可能是其它非样本复制语音;
2)特征提取:和模型训练时保持一致,仍然提取MFCC特征;
3)使用测试语音的MFCC在所有GMM模型上计算似然得分;
4)对得分进行排序,如果得分满足S1024>S512>S256>S128>S8则判定此测试语音为样本复制语音;否则,则判定测试语音为非样本复制语音。
以上判断依据是基于GMM模型的拟合精度增高时,拟合精度更高的模型更逼近样本数据的实际分布。由于GMM模型参数估计基于最大似然准则,该模型生成给定样本的概率比拟合精度低的模型要大,样本语音在该模型上的似然得分就更高;与此对应的是拟合精度更高的模型对非样本语音的音素空间描述能力降低,该模型生成非样本语音的概率减小,相应的似然得分就更小。即样本复制语音和非样本复制语音的似然得分随GMM模型的拟合精度(这里选取的拟合精度的因变量为模型阶数)增高呈现不同的变化趋势,如图4所示,其中前6个测试语音为样本复制语音,后面54个为非样本复制语音。
上述实施例中的样本复制语音自动检测方法在MASC@CCNT库上进行了实验,该库包含68个说话人的语音数据,以1号说话人为例,此库包含其20种不同短文本的发音,每种文本包含三遍发音,一共60句。
我们选取其前6种文本的第一遍发音作为样本语音,MFCC阶数为12阶,训练GMM模型,GMM阶数分别选择8、128、256、512、1024。这样每个说话人就得到5个GMM模型,一共得到68*5个GMM模型。
然后用每个说话人所有60句语音进行交叉测试。每个测试语句在不同目标说话人的8个模型上进行打分。一共进行(68*60)*(68*5)次测试。
统计每个测试语句在目标说话人的不同GMM模型上的得分,如果测试语音为目标说话人的样本复制语音并且得分满足S1024>S512>S256>S128>S8;或者,测试语音不是目标说话人的样本复制语音并且得分不满足S1024>S512>S256>S128>S8,则表明检测成功。实验结果显示,识别正确率达到99.3%。
还需指出,上述实验中,模型阶数需适当选择,过于低阶的模型之间区分性不大,比如8阶和16阶、32阶、64阶之间,得分比较相近,可以只选择一个8阶代表这几个低阶模型。检测正确率如表1所示。
表1模型阶数选择与检测正确率的关系
模型阶数选择 | 正确率 |
8_16_32_64_128_256_512_1024 | 0.689 |
32_64_128_256_512_1024 | 0.953 |
64_128_256_512_1024 | 0.984 |
8_128_256_512_1024 | 0.993 |
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (5)
1.一种基于多精度拟合的样本复制语音自动检测方法,其特征在于,包括如下步骤:
S1、建立语音特征库:采集目标说话人的样本语音,提取所有样本语音的特征,建立样本语音特征库;
S2、目标说话人识别模型训练:使用所述样本语音特征库中的特征文件,训练目标说话人样本语音识别模型,具体包括:
在训练时通过设置不同的仅影响模型的拟合精度的模型参数,得到仅拟合精度不同的说话人模型集合,即多精度拟合的说话人模型,作为目标说话人样本复制语音检测模型;所述的样本复制语音包括样本语音的副本或副本的一部分,以及在样本语音采集过程中入侵者使用同样的设备偷录的语音;
S3、样本复制语音检测模型训练:使用所述样本语音特征库中的特征文件,训练目标说话人样本复制语音检测模型;
S4、说话人识别:录入测试语音,提取所述测试语音特征,在所述目标说话人样本语音识别模型上进行说话人识别,判断测试语音是否来源于目标说话人;若通过说话人识别测试,进入下一步;
S5、样本复制语音检测:对通过说话人识别测试的测试语音,在所述目标说话人样本复制语音检测模型上进行样本复制语音检测,判断测试语音是否为样本复制语音,具体包括:
将测试语音在目标说话人样本复制语音检测模型中的仅拟合精度不同的多个说话人模型上分别打分,并将似然得分进行排序,根据得分排序结果判定测试语音是否为样本复制语音;若测试语音在拟合精度越高的说话人模型上得分越高,则判定测试语音为样本复制语音;反之,若拟合精度的提高未引起测试语音在说话人模型上似然得分的提高,则判定测试语音为非样本复制语音。
2.如权利要求1所述的基于多精度拟合的样本复制语音自动检测方法,其特征在于,所述目标说话人为一个或多个,当目标说话人为多个时,分别为每个目标说话人建立语音特征库,并进行相应的说话人识别模型训练和样本复制语音检测模型训练。
3.如权利要求2所述的基于多精度拟合的样本复制语音自动检测方法,其特征在于,步骤S4中,说话人识别包括说话人确认和/或说话人鉴别;说话人确认用于判断测试语音是否来自其所声称的目标说话人,说话人鉴别用于判断测试语音来自语音库中的哪一个目标说话人。
4.如权利要求3所述的基于多精度拟合的样本复制语音自动检测方法,其特征在于,说话人确认具体包括:将测试语音在其声称的目标说话人样本语音识别模型上打分,并将得分和系统阈值比较,大于阈值则判定测试语音来自其所声称的目标说话人。
5.如权利要求3所述的基于多精度拟合的样本复制语音自动检测方法,其特征在于,说话人鉴别具体包括:将测试语音在每一个目标说话人样本语音识别模型上分别打分,将得分最高的模型作为鉴别结果,即测试语音来自该模型对应的目标说话人。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192323.4A CN105938716B (zh) | 2016-03-30 | 2016-03-30 | 一种基于多精度拟合的样本复制语音自动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610192323.4A CN105938716B (zh) | 2016-03-30 | 2016-03-30 | 一种基于多精度拟合的样本复制语音自动检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105938716A CN105938716A (zh) | 2016-09-14 |
CN105938716B true CN105938716B (zh) | 2019-05-28 |
Family
ID=57151909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610192323.4A Active CN105938716B (zh) | 2016-03-30 | 2016-03-30 | 一种基于多精度拟合的样本复制语音自动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105938716B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201801661D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic International Uk Ltd | Detection of liveness |
GB2567503A (en) | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
CN107886956B (zh) * | 2017-11-13 | 2020-12-11 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
CN108986824B (zh) * | 2018-07-09 | 2022-12-27 | 宁波大学 | 一种回放语音检测方法 |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN111292766B (zh) * | 2020-02-07 | 2023-08-08 | 抖音视界有限公司 | 用于生成语音样本的方法、装置、电子设备和介质 |
CN112735437A (zh) * | 2020-12-15 | 2021-04-30 | 厦门快商通科技股份有限公司 | 一种声纹比对方法及系统及装置及存储机构 |
CN114023333A (zh) * | 2021-11-02 | 2022-02-08 | 中国工商银行股份有限公司 | 声纹识别的测试方法、装置、存储介质及电子设备 |
CN115578999A (zh) * | 2022-12-07 | 2023-01-06 | 深圳市声扬科技有限公司 | 复制语音的检测方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101770774A (zh) * | 2009-12-31 | 2010-07-07 | 吉林大学 | 基于嵌入式的开集说话人识别方法及其系统 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及终端 |
US9202464B1 (en) * | 2012-10-18 | 2015-12-01 | Google Inc. | Curriculum learning for speech recognition |
-
2016
- 2016-03-30 CN CN201610192323.4A patent/CN105938716B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
CN101770774A (zh) * | 2009-12-31 | 2010-07-07 | 吉林大学 | 基于嵌入式的开集说话人识别方法及其系统 |
CN102270451A (zh) * | 2011-08-18 | 2011-12-07 | 安徽科大讯飞信息科技股份有限公司 | 说话人识别方法及系统 |
CN102394062A (zh) * | 2011-10-26 | 2012-03-28 | 华南理工大学 | 一种自动录音设备源识别的方法和系统 |
CN103680495A (zh) * | 2012-09-26 | 2014-03-26 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及终端 |
US9202464B1 (en) * | 2012-10-18 | 2015-12-01 | Google Inc. | Curriculum learning for speech recognition |
Non-Patent Citations (1)
Title |
---|
防录音回放攻击的说话人认证算法及系统设计;代亚丽;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415(第04期);全文 |
Also Published As
Publication number | Publication date |
---|---|
CN105938716A (zh) | 2016-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105938716B (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
US10276152B2 (en) | System and method for discriminating between speakers for authentication | |
Singh et al. | Applications of speaker recognition | |
Faundez-Zanuy et al. | State-of-the-art in speaker recognition | |
CN104900235B (zh) | 基于基音周期混合特征参数的声纹识别方法 | |
Wu et al. | On the study of replay and voice conversion attacks to text-dependent speaker verification | |
Justin et al. | Speaker de-identification using diphone recognition and speech synthesis | |
US9564134B2 (en) | Method and apparatus for speaker-calibrated speaker detection | |
Algabri et al. | Automatic speaker recognition for mobile forensic applications | |
CN105513598B (zh) | 一种基于频域信息量分布的回放语音检测方法 | |
Zhong et al. | DNN i-Vector Speaker Verification with Short, Text-Constrained Test Utterances. | |
Krishna et al. | An automated system for regional nativity identification of indian speakers from english speech | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
Mary et al. | Analysis and detection of mimicked speech based on prosodic features | |
Suthokumar et al. | Phoneme specific modelling and scoring techniques for anti spoofing system | |
Chakroun et al. | Improving text-independent speaker recognition with GMM | |
Ozaydin | Design of a text independent speaker recognition system | |
Wildermoth et al. | GMM based speaker recognition on readily available databases | |
Aroon et al. | Speaker recognition system using Gaussian Mixture model | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
Dey et al. | Feature diversity for emotion, language and speaker verification | |
Yang et al. | User verification based on customized sentence reading | |
Mohamed et al. | An Overview of the Development of Speaker Recognition Techniques for Various Applications. | |
Chao et al. | Vocal effort detection based on spectral information entropy feature and model fusion | |
Türk et al. | Speaker verification based on the German veridat database. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |