CN110706712A - 家居环境下的录音重放检测方法 - Google Patents
家居环境下的录音重放检测方法 Download PDFInfo
- Publication number
- CN110706712A CN110706712A CN201910969492.8A CN201910969492A CN110706712A CN 110706712 A CN110706712 A CN 110706712A CN 201910969492 A CN201910969492 A CN 201910969492A CN 110706712 A CN110706712 A CN 110706712A
- Authority
- CN
- China
- Prior art keywords
- voice
- sample set
- playback
- training
- gmm model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000011156 evaluation Methods 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims description 11
- 238000005315 distribution function Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 9
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种家居环境下的录音重放检测方法,包括:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;提取训练样本集和测试样本集语音的MFCC特征;采用训练样本集中的原始语音训练原始语音的GMM模型;采用训练样本集中的回放语音训练回放语音的GMM模型;将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。本发明采用随机变分推断,优化混合高斯模型的参数,提高了模型训练速度,同时保障了精度。
Description
技术领域
本发明涉及声纹识别技术领域,具体的说,是一种家居环境下的录音重放检测方法。
背景技术
在生物识别技术领域,声纹识别系统因安全性较高,语料获取较为方便,在生活领域、金融领域以及司法领域得到了广泛应用。声纹识别技术不断发展的同时,各种仿冒语音对声纹系统的攻击也日趋严峻。仿冒语音大致分为两种:逻辑性攻击和物理攻击。逻辑性攻击包括合成语音和转换语音,物理攻击包括录音重放攻击。在过去的几年中,研究人员对仿冒语音的检测主要集中在合成语音和转换语音的上,一定程度上忽视了回放语音对声纹识别系统的攻击。事实上,由于回放语音是通过真实声音直接录音得到的,因此比合成语音和转换语音更具有威胁性。其次,回放语音相较于其他仿冒语音获取更为方便,仅仅需要一部录音设备就可以完成为仿冒者提供了便利。同时近些年高保真设备的普及化和便携化,更是极大的提升了回放语音对声纹识别系统的威胁。因此,需要一种对录音重放检测方法,以区分真人说话以及录音回放。现有技术中通过目标用户的预留训练语音建立用户信道模型,利用最大期望算法训练模型。依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定的阈值比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音,认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,从而避免了闯入者重放攻击的问题。但其特征提取较为复杂,需要预留目标用户的信道。实际家居环境下,语料收集与特征处理难以平衡。在模型训练方面,如果语料库非常大,即使运用最大期望算法优化,收敛速度也较慢,在实际操作中往往采用限制对角协方差矩阵的方法,加快收敛,但这样做会损失模型的精度。
发明内容
本发明的目的在于提供一种家居环境下的录音重放检测方法,用于解决现有技术中通过目标用户的预留训练语音建立用户信道模型,利用最大期望算法训练模型,依据用户信道模型计算待识别语音的信任度打分的方法,特征提取较为复杂,需要预留目标用户的信道、模型训练算法存在收敛速度较慢或者会损失模型的精度的问题。
本发明通过下述技术方案解决上述问题:
一种家居环境下的录音重放检测方法,包括:
步骤S100:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
进一步地,所述步骤S300中训练原始语音的GMM模型以及训练回放语音的GMM模型均采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t)];
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
循环步骤S320-步骤S350,直到所有的数据训练完成。
训练数据集较大时,采用最大期望算法训练模型较不容易收敛。而一般的变分推断,由于要遍历所有数据,亦无法在较大规模的数据集上使用。随机变分推断可以很好的解决上述问题。本发明采用随机变分推断,优化混合高斯模型(GMM模型)的参数,提高了模型训练速度,同时保障了精度。
进一步地,所述步骤S400中的评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数。直接使用后验概率的分数似然比,会导致分数分布较分散,不易给出最后的评估阈值的设定方案。本发明使用sigmoid函数将似然比归一化到(0,1)区间,在最后设定阈值时提供了较直观的解释。
步骤S500中根据阈值θ处的虚警率Pfa(θ)和漏警率Pmiss(θ),其中虚警率Pfa(θ)反映被判定为原始语音的样本中,有多少个是回放语音,漏警率Pmiss(θ)反映有多少个原始语音被判定为回放语音。Pfa(θ)和Pmiss(θ)分别是关于θ的单调递减和单调递增的函数。通过调节阈值θ的取值可以调节虚警率Pfa(θ)和漏警率Pmiss(θ)。若使得虚警率降低,则漏警率就会变大;反之若降低漏警率,则虚警率就会相应的提升。因此对于阈值的选择,可根据实际情况进行调节。如果在高安全性在训练阶段,则可以通过调节阈值使得虚警率最小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值以提另一高漏警率,以兼顾易用性。在家居环境下,阈值可适度降低,以保证更好的使用体验。
本发明与现有技术相比,具有以下优点及有益效果:
本发明采用随机变分推断,优化混合高斯模型(GMM模型)的参数,提高了模型训练速度,同时保障了精度。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种家居环境下的录音重放检测方法,包括:
步骤S100:收集不同用户的语音数据(非目标语料和目标语料,分别用于测试模型和训练模型),分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
训练模型采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t)];
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
将优化后的参数代入GMM模型;
循环步骤S320-步骤S350,直到所有的数据训练完成;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
根据阈值θ处的虚警率Pfa(θ)和漏警率Pmiss(θ),其中虚警率Pfa(θ)反映被判定为原始语音的样本中,有多少个是回放语音,漏警率Pmiss(θ)反映有多少个原始语音被判定为回放语音。Pfa(θ)和Pmiss(θ)分别是关于θ的单调递减和单调递增的函数。通过调节阈值θ的取值可以调节虚警率Pfa(θ)和漏警率Pmiss(θ)。若使得虚警率降低,则漏警率就会变大;反之若降低漏警率,则虚警率就会相应的提升。因此对于阈值的选择,可根据实际情况进行调节。如果在高安全性在训练阶段,则可以通过调节阈值使得虚警率最小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值以提另一高漏警率,以兼顾易用性。在家居环境下,阈值可适度降低,以保证更好的使用体验。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。
Claims (3)
1.一种家居环境下的录音重放检测方法,其特征在于,包括:
步骤S100:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
2.根据权利要求1所述的家居环境下的录音重放检测方法,其特征在于,所述步骤S300中训练原始语音的GMM模型以及训练回放语音的GMM模型均采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t;)]
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
循环步骤S320-步骤S350,直到所有的数据训练完成。
3.根据权利要求2所述的家居环境下的录音重放检测方法,其特征在于,所述步骤S400中的评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969492.8A CN110706712A (zh) | 2019-10-12 | 2019-10-12 | 家居环境下的录音重放检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910969492.8A CN110706712A (zh) | 2019-10-12 | 2019-10-12 | 家居环境下的录音重放检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110706712A true CN110706712A (zh) | 2020-01-17 |
Family
ID=69198622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910969492.8A Pending CN110706712A (zh) | 2019-10-12 | 2019-10-12 | 家居环境下的录音重放检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110706712A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735381A (zh) * | 2020-12-29 | 2021-04-30 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
CN113869486A (zh) * | 2021-06-07 | 2021-12-31 | 四川大学华西医院 | 基于循环神经网络的语音重放监测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694315B1 (en) * | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
-
2019
- 2019-10-12 CN CN201910969492.8A patent/CN110706712A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8694315B1 (en) * | 2013-02-05 | 2014-04-08 | Visa International Service Association | System and method for authentication using speaker verification techniques and fraud model |
CN105702263A (zh) * | 2016-01-06 | 2016-06-22 | 清华大学 | 语音重放检测方法和装置 |
CN109192200A (zh) * | 2018-05-25 | 2019-01-11 | 华侨大学 | 一种语音识别方法 |
CN108986824A (zh) * | 2018-07-09 | 2018-12-11 | 宁波大学 | 一种回放语音检测方法 |
CN109243487A (zh) * | 2018-11-30 | 2019-01-18 | 宁波大学 | 一种归一化常q倒谱特征的回放语音检测方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735381A (zh) * | 2020-12-29 | 2021-04-30 | 四川虹微技术有限公司 | 一种模型更新方法及装置 |
CN113869486A (zh) * | 2021-06-07 | 2021-12-31 | 四川大学华西医院 | 基于循环神经网络的语音重放监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11508381B2 (en) | Voiceprint recognition method, model training method, and server | |
KR102339594B1 (ko) | 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체 | |
CN108198574B (zh) | 变声检测方法及装置 | |
Gałka et al. | Playback attack detection for text-dependent speaker verification over telephone channels | |
WO2019210796A1 (zh) | 语音识别方法、装置、存储介质及电子设备 | |
Ibrahim et al. | I-vector extraction for speaker recognition based on dimensionality reduction | |
CN114495950A (zh) | 一种基于深度残差收缩网络的语音欺骗检测方法 | |
CN110706712A (zh) | 家居环境下的录音重放检测方法 | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
US20220399007A1 (en) | System and method for robust wakeword detection in presence of noise in new unseen environments without additional data | |
Weng et al. | The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge | |
GB2576960A (en) | Speaker recognition | |
CN116488942B (zh) | 一种面向智能声纹识别系统的后门安全性评估方法 | |
CN109377982A (zh) | 一种有效语音获取方法 | |
KR101925252B1 (ko) | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 | |
CN108694950B (zh) | 一种基于深度混合模型的说话人确认方法 | |
CN111261172A (zh) | 一种声纹识别方法和装置 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
CN117648990A (zh) | 一种用于黑盒攻击的语音对抗样本生成方法及其系统 | |
CN111951791B (zh) | 声纹识别模型训练方法、识别方法、电子设备及存储介质 | |
Lou et al. | A Deep One-Class Learning Method for Replay Attack Detection. | |
Tan et al. | Artificial speech detection using image-based features and random forest classifier | |
Gofman et al. | Quality-based score-level fusion for secure and robust multimodal biometrics-based authentication on consumer mobile devices | |
CN111027453B (zh) | 基于高斯混合模型的非合作水中目标自动识别方法 | |
CN113192493B (zh) | 一种结合GMM Token配比与聚类的核心训练语音选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200117 |
|
RJ01 | Rejection of invention patent application after publication |