CN110706712A - 家居环境下的录音重放检测方法 - Google Patents

家居环境下的录音重放检测方法 Download PDF

Info

Publication number
CN110706712A
CN110706712A CN201910969492.8A CN201910969492A CN110706712A CN 110706712 A CN110706712 A CN 110706712A CN 201910969492 A CN201910969492 A CN 201910969492A CN 110706712 A CN110706712 A CN 110706712A
Authority
CN
China
Prior art keywords
voice
sample set
playback
training
gmm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910969492.8A
Other languages
English (en)
Inventor
郭九麟
唐博
彭凝多
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hongwei Technology Co Ltd
Original Assignee
Sichuan Hongwei Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hongwei Technology Co Ltd filed Critical Sichuan Hongwei Technology Co Ltd
Priority to CN201910969492.8A priority Critical patent/CN110706712A/zh
Publication of CN110706712A publication Critical patent/CN110706712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种家居环境下的录音重放检测方法,包括:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;提取训练样本集和测试样本集语音的MFCC特征;采用训练样本集中的原始语音训练原始语音的GMM模型;采用训练样本集中的回放语音训练回放语音的GMM模型;将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。本发明采用随机变分推断,优化混合高斯模型的参数,提高了模型训练速度,同时保障了精度。

Description

家居环境下的录音重放检测方法
技术领域
本发明涉及声纹识别技术领域,具体的说,是一种家居环境下的录音重放检测方法。
背景技术
在生物识别技术领域,声纹识别系统因安全性较高,语料获取较为方便,在生活领域、金融领域以及司法领域得到了广泛应用。声纹识别技术不断发展的同时,各种仿冒语音对声纹系统的攻击也日趋严峻。仿冒语音大致分为两种:逻辑性攻击和物理攻击。逻辑性攻击包括合成语音和转换语音,物理攻击包括录音重放攻击。在过去的几年中,研究人员对仿冒语音的检测主要集中在合成语音和转换语音的上,一定程度上忽视了回放语音对声纹识别系统的攻击。事实上,由于回放语音是通过真实声音直接录音得到的,因此比合成语音和转换语音更具有威胁性。其次,回放语音相较于其他仿冒语音获取更为方便,仅仅需要一部录音设备就可以完成为仿冒者提供了便利。同时近些年高保真设备的普及化和便携化,更是极大的提升了回放语音对声纹识别系统的威胁。因此,需要一种对录音重放检测方法,以区分真人说话以及录音回放。现有技术中通过目标用户的预留训练语音建立用户信道模型,利用最大期望算法训练模型。依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定的阈值比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音,认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,从而避免了闯入者重放攻击的问题。但其特征提取较为复杂,需要预留目标用户的信道。实际家居环境下,语料收集与特征处理难以平衡。在模型训练方面,如果语料库非常大,即使运用最大期望算法优化,收敛速度也较慢,在实际操作中往往采用限制对角协方差矩阵的方法,加快收敛,但这样做会损失模型的精度。
发明内容
本发明的目的在于提供一种家居环境下的录音重放检测方法,用于解决现有技术中通过目标用户的预留训练语音建立用户信道模型,利用最大期望算法训练模型,依据用户信道模型计算待识别语音的信任度打分的方法,特征提取较为复杂,需要预留目标用户的信道、模型训练算法存在收敛速度较慢或者会损失模型的精度的问题。
本发明通过下述技术方案解决上述问题:
一种家居环境下的录音重放检测方法,包括:
步骤S100:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
进一步地,所述步骤S300中训练原始语音的GMM模型以及训练回放语音的GMM模型均采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t)];
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
循环步骤S320-步骤S350,直到所有的数据训练完成。
训练数据集较大时,采用最大期望算法训练模型较不容易收敛。而一般的变分推断,由于要遍历所有数据,亦无法在较大规模的数据集上使用。随机变分推断可以很好的解决上述问题。本发明采用随机变分推断,优化混合高斯模型(GMM模型)的参数,提高了模型训练速度,同时保障了精度。
进一步地,所述步骤S400中的评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数。直接使用后验概率的分数似然比,会导致分数分布较分散,不易给出最后的评估阈值的设定方案。本发明使用sigmoid函数将似然比归一化到(0,1)区间,在最后设定阈值时提供了较直观的解释。
步骤S500中根据阈值θ处的虚警率Pfa(θ)和漏警率Pmiss(θ),其中虚警率Pfa(θ)反映被判定为原始语音的样本中,有多少个是回放语音,漏警率Pmiss(θ)反映有多少个原始语音被判定为回放语音。Pfa(θ)和Pmiss(θ)分别是关于θ的单调递减和单调递增的函数。通过调节阈值θ的取值可以调节虚警率Pfa(θ)和漏警率Pmiss(θ)。若使得虚警率降低,则漏警率就会变大;反之若降低漏警率,则虚警率就会相应的提升。因此对于阈值的选择,可根据实际情况进行调节。如果在高安全性在训练阶段,则可以通过调节阈值使得虚警率最小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值以提另一高漏警率,以兼顾易用性。在家居环境下,阈值可适度降低,以保证更好的使用体验。
本发明与现有技术相比,具有以下优点及有益效果:
本发明采用随机变分推断,优化混合高斯模型(GMM模型)的参数,提高了模型训练速度,同时保障了精度。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例1:
结合附图1所示,一种家居环境下的录音重放检测方法,包括:
步骤S100:收集不同用户的语音数据(非目标语料和目标语料,分别用于测试模型和训练模型),分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
训练模型采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t)];
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
将优化后的参数代入GMM模型;
循环步骤S320-步骤S350,直到所有的数据训练完成;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
根据阈值θ处的虚警率Pfa(θ)和漏警率Pmiss(θ),其中虚警率Pfa(θ)反映被判定为原始语音的样本中,有多少个是回放语音,漏警率Pmiss(θ)反映有多少个原始语音被判定为回放语音。Pfa(θ)和Pmiss(θ)分别是关于θ的单调递减和单调递增的函数。通过调节阈值θ的取值可以调节虚警率Pfa(θ)和漏警率Pmiss(θ)。若使得虚警率降低,则漏警率就会变大;反之若降低漏警率,则虚警率就会相应的提升。因此对于阈值的选择,可根据实际情况进行调节。如果在高安全性在训练阶段,则可以通过调节阈值使得虚警率最小,以提高安全性。若用于诸如考勤等低安全性领域,则可以适当降低阈值以提另一高漏警率,以兼顾易用性。在家居环境下,阈值可适度降低,以保证更好的使用体验。
尽管这里参照本发明的解释性实施例对本发明进行了描述,上述实施例仅为本发明较佳的实施方式,本发明的实施方式并不受上述实施例的限制,应该理解,本领域技术人员可以设计出很多其他的修改和实施方式,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (3)

1.一种家居环境下的录音重放检测方法,其特征在于,包括:
步骤S100:收集不同用户的语音数据,分别组成测试样本集和训练样本集,所述训练样本集包括原始语音和回放语音;
步骤S200:提取训练样本集和测试样本集语音的MFCC特征;
步骤S300:采用训练样本集中的原始语音训练原始语音的GMM模型,记作λt;采用训练样本集中的回放语音训练回放语音的GMM模型,记作λf;
步骤S400:将测试样本集的MFCC特征分别在原始语音的GMM模型和回放语音的GMM模型进行测试,得到评估得分σ;
步骤S500:根据评估得分σ与阈值θ的比较结果,将评估得分σ大于阈值θ的语音判定为真人语音,将评估得分σ小于或等于阈值θ的语音判定为回放语音。
2.根据权利要求1所述的家居环境下的录音重放检测方法,其特征在于,所述步骤S300中训练原始语音的GMM模型以及训练回放语音的GMM模型均采用随机变分推断,具体流程为:
步骤S310:初始化GMM模型参数λ,设置步长ρ_t;
步骤S320:从训练样本集中随机选取一个数据x_t;
步骤S330:采用近似模型的概率分布函数优化局部变分参数:Φ_t=E[η(x_t;)]
步骤S340:采用近似概率分布函数的参数优化全局变分参数:λ_=E_φ[η(x_t)];
步骤S350:更新当前变分参数:λ_t=(1-ρ_t)λ_(t-1)+ρ_t*λ_;
循环步骤S320-步骤S350,直到所有的数据训练完成。
3.根据权利要求2所述的家居环境下的录音重放检测方法,其特征在于,所述步骤S400中的评估得分σ由以下函数执行:
σ=sigmoid(log(P(x|λt)/P(x|λf)))
其中,x为训练样本集中的数据,sigmoid函数用于将似然比归一化到(0,1)区间,函数P为GMM模型的输出分数。
CN201910969492.8A 2019-10-12 2019-10-12 家居环境下的录音重放检测方法 Pending CN110706712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910969492.8A CN110706712A (zh) 2019-10-12 2019-10-12 家居环境下的录音重放检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910969492.8A CN110706712A (zh) 2019-10-12 2019-10-12 家居环境下的录音重放检测方法

Publications (1)

Publication Number Publication Date
CN110706712A true CN110706712A (zh) 2020-01-17

Family

ID=69198622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910969492.8A Pending CN110706712A (zh) 2019-10-12 2019-10-12 家居环境下的录音重放检测方法

Country Status (1)

Country Link
CN (1) CN110706712A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN113869486A (zh) * 2021-06-07 2021-12-31 四川大学华西医院 基于循环神经网络的语音重放监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694315B1 (en) * 2013-02-05 2014-04-08 Visa International Service Association System and method for authentication using speaker verification techniques and fraud model
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN109192200A (zh) * 2018-05-25 2019-01-11 华侨大学 一种语音识别方法
CN108986824A (zh) * 2018-07-09 2018-12-11 宁波大学 一种回放语音检测方法
CN109243487A (zh) * 2018-11-30 2019-01-18 宁波大学 一种归一化常q倒谱特征的回放语音检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN113869486A (zh) * 2021-06-07 2021-12-31 四川大学华西医院 基于循环神经网络的语音重放监测方法

Similar Documents

Publication Publication Date Title
US11508381B2 (en) Voiceprint recognition method, model training method, and server
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN108198574B (zh) 变声检测方法及装置
Gałka et al. Playback attack detection for text-dependent speaker verification over telephone channels
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
Ibrahim et al. I-vector extraction for speaker recognition based on dimensionality reduction
CN114495950A (zh) 一种基于深度残差收缩网络的语音欺骗检测方法
CN110706712A (zh) 家居环境下的录音重放检测方法
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
US20220399007A1 (en) System and method for robust wakeword detection in presence of noise in new unseen environments without additional data
Weng et al. The sysu system for the interspeech 2015 automatic speaker verification spoofing and countermeasures challenge
GB2576960A (en) Speaker recognition
CN116488942B (zh) 一种面向智能声纹识别系统的后门安全性评估方法
CN109377982A (zh) 一种有效语音获取方法
KR101925252B1 (ko) 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치
CN108694950B (zh) 一种基于深度混合模型的说话人确认方法
CN111261172A (zh) 一种声纹识别方法和装置
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
CN117648990A (zh) 一种用于黑盒攻击的语音对抗样本生成方法及其系统
CN111951791B (zh) 声纹识别模型训练方法、识别方法、电子设备及存储介质
Lou et al. A Deep One-Class Learning Method for Replay Attack Detection.
Tan et al. Artificial speech detection using image-based features and random forest classifier
Gofman et al. Quality-based score-level fusion for secure and robust multimodal biometrics-based authentication on consumer mobile devices
CN111027453B (zh) 基于高斯混合模型的非合作水中目标自动识别方法
CN113192493B (zh) 一种结合GMM Token配比与聚类的核心训练语音选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication