CN109243487A - 一种归一化常q倒谱特征的回放语音检测方法 - Google Patents

一种归一化常q倒谱特征的回放语音检测方法 Download PDF

Info

Publication number
CN109243487A
CN109243487A CN201811451509.2A CN201811451509A CN109243487A CN 109243487 A CN109243487 A CN 109243487A CN 201811451509 A CN201811451509 A CN 201811451509A CN 109243487 A CN109243487 A CN 109243487A
Authority
CN
China
Prior art keywords
voice
cqcc
coefficient
model
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811451509.2A
Other languages
English (en)
Other versions
CN109243487B (zh
Inventor
劳灵杰
叶勇超
严迪群
林朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huzhou Chuangguan Technology Co ltd
Original Assignee
Ningbo University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University filed Critical Ningbo University
Priority to CN201811451509.2A priority Critical patent/CN109243487B/zh
Publication of CN109243487A publication Critical patent/CN109243487A/zh
Application granted granted Critical
Publication of CN109243487B publication Critical patent/CN109243487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供一种高鲁棒性的归一化常Q倒谱特征的回放语音检测方法,包括提取原始语音和回放语音的语音信息X(n)的声学特征CQCC系数;对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;将该系数置于混合高斯模型中进行训练,得到原始语音模型和回放语音模型;提取待测语音的语音信息X(n)的声学特征CQCC系数;对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。

Description

一种归一化常Q倒谱特征的回放语音检测方法
技术领域
本发明涉及回放语音的检测识别方法,具体是指一种归一化常Q倒谱特征的回放语音检测方法。
背景技术
随着现代社会的不断发展,信息安全问题日显突出,其中身份认证在信息安全防护中承担着至关重要的作用。密码是最常见的身份认证方式之一,但其存在容易被遗忘、安全性低等问题,因此国内外学者提出了将人体特征应用于身份认证的生物识别技术,而声纹识别技术就是其中之一。相较于指纹、人脸等生物认证方式,声纹具有易采集、可远程等特点,因而被广泛应用于公安、金融等领域。近年来,随着语音处理技术的快速发展,出现了诸如合成转换、电子变调以及录音回放等声纹伪造攻击手段,对基于声纹的身份认证系统构成了严重威胁。其中录音回放攻击是一种简单且易操作的攻击手段,攻击者通过隐蔽性较高的录音设备,对目标说话人的语音进行偷录,并以偷录的语音来欺骗声纹认证系统。这类攻击由于不需要对回放语音进行额外的操作,从而避免了因修改语音而留下操作痕迹,同时回放语音与原始语音具有较高的相似度,现有的声纹认证系统通常无法正确判断两者之间的差别。
现有技术中针对回放语音的检测方法,按检测原理的不同,可以分为基于语音产生随机性的方法、基于语音信道特性的方法以及基于深度学习的方法:由于同一个人在不同时刻说出相同的内容所产生的语音信息存在较大的随机性,Shang等人提出了一种基于语音产生随机性的回放语音检测算法,该算法通过比较原始语音与待测语音在波峰图上的差异,判断其是否为回放语音,在随后的研究中,作者又通过得分归一化的方法对检测算法进行了改进;Jakub Galka等则在Shang算法的基础上,将波峰图中各频率点的位置关系作为检测特征,但该方法只能应用于文本相关的声纹识别系统中,且检测时长较长,局限性较大;此外,由于回放语音在录制过程中会经过偷录设备的编码和回放设备的解码等环节,同时还会受到偷录时周围环境的影响,因此相比于原始语音会引入更多的失真,基于此,出现了基于语音产生信道的回放语音检测算法,如Zhang利用回放语音的失真现象,提出了一种基于静音段梅尔倒谱系数对语音信道进行建模的方法,通过比较待测语音的信道与已建立的模型,进而判断待测语音是否为回放语音;王志峰着重研究低频段的信道噪声,提取了6阶Legendre多项式系数及系数所对应的统计特征,在此基础上利用SVM训练噪声分类模型,并得到了很好的分类结果;近年来,随着深度学习在计算机视觉、自然语言处理等领域的广泛应用,也有相关学者将尝试将该技术应用于回放语音的检测,Lin等通过基于电网频率(ENF)的分析对特征进行预处理,并用卷积神经网络(CNN)对原始语音和回放语音进行训练和分类,由于ENF仅存在于由电网供电的偷录设备中(比如录音机),同时ENF信号提取的准确性会极大地影响检测方法的性能,因此该方法应用范围有较大的局限性。
综上所述,现有技术中所提出的检测方法往往面临需要文本相关、检测时间长等问题,且很少有关于多种翻录回放设备或是不同环境下回放的检测方法。但随着电子设备小型化多样化的发展,实际场景中,声纹认证系统将面临多种录音回放设备的攻击,而不同的设备可能对系统的性能产生不同的影响。鉴于此,有必要提供一种高准确率、高鲁棒性、且高效的回放语音检测方法。
发明内容
本发明所要解决的技术问题在于克服现有技术的缺陷而提供一种高准确率、高鲁棒性、且高效的归一化常Q倒谱特征的回放语音检测方法。
本发明的技术问题通过以下技术方案实现:
一种归一化常Q倒谱特征的回放语音检测方法,包括以下步骤:
S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);
S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;
S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;
S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。
进一步地,步骤S1中,提取CQCC系数包括对语音信息X(n)做CQT变换得到XCQT(k),计算功率谱得到|XCQT(k)|2,进行对数变换得到log|XCQT(k)|2,进行均匀重采样得到log|XCQT(i)|2,进行DCT变换得到CQCC(p).
进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练得到语音模型,还包括使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行话和高斯模型估计。
进一步地,步骤S1中,提取所述语音信息X(n)的CQCC系数包括:
S1.1:对语音信息X(n)进行常Q变化(CQT),公式为
其中,k=1,2,…,K为序列CQ谱的频域下标,Nk为窗口长度,基函数ak *(n)为复数时频原子,与窗口大小有关,比如Hamming窗,
定义ω(t)使用Hamming窗,fk为中心频率,fs为采样频率,fk=f0·2k/b,常量b表示时间分辨率和频率分辨率的权衡,f0为CQ谱中的最小频率,
定义带宽Bk=fk+1-fk=fk(21/b-1),定义常数则窗口长度
S1.2:对经过CQT的语音信息X(n)进行提取CQCC系数,公式为
其中,q为CQCC系数的下标,i=0,1,…,K-1是XCQ在线性分布所对应的下标。
进一步地,步骤S2中,对CQCC系数进行倒谱均值和方差归一化处理包括:
定义Xt为t时刻的K维倒谱特征向量,Xt(i)代表Xt的第i个分量,X={x1,x2,…,xt,…,xT}代表长度为T的语音段,则
其中,均值为μML
方差为σ,
进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练,使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行混合高斯模型估计包括:
设训练样本的特征向量为{x1,x2,x3,…,xN},其模型参数集的似然度其中,每个状态的概率密度函数bi(xn)为:其中R是特征向量的维数,函数bi(xn)是R维的高斯概率密度函数,具有依赖于状态的均值矢量ui和协方差均值∑i|;
根据期望最大化算法,计算使P(X|λk+1)≥P(X|λk)成立的一组最大λ值,最大期望值将所述最大期望值迭代直至收敛至局部最优解。
进一步地,步骤S6中,将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配的公式为:
其中,P(X|s=s0)表示待测语音归一化的CQCC系数与回放语音模型的匹配度,P(X|s=s1)表示待测语音归一化的CQCC系数与原始语音模型的匹配度。
与现有技术相比,本发明的优点在于:
(1)采用CQCC系数用以表征语音信息的声学特征,CQCC系数是一种被认为可以取代梅尔倒谱系数(MFCC)的新特征,其结合了CQT和倒谱分析,提供了一种与人类感知更密切相关的时频分析方法。与传统的离散傅里叶变化(DFT)相比,CQCC系数倾向于在较低的频率捕获更多的语音信息,而在较高的频率捕获更多的时间信息,而这些信息在传统的时频分析中容易丢失,因此CQCC系数可以更为有效地捕获人工操作的痕迹,进而提高语音信息的准确性和算法的精准性。
(2)对CQCC系数进行倒谱均值方差归一化处理,从而提升算法的鲁棒性,用以适应不同语音环境。实际场景中,往往会因为场景中复杂因素(比如背景噪声)的影响,造成测试语音与训练语音发生不匹配的现象,最终导致回放语音检测算法的鲁棒性大幅度下降。为了提高检测算法的鲁棒性,引入倒谱均值及方差归一化用来消除乘性信道噪声在倒谱域造成的偏差和时域的卷积噪声,如信道失真,信道噪声对应于倒谱域的加性偏差。
(3)采用混合高斯模型对处理结果进行分类,通过对参数的不断迭代从而得到最优解,能够很好地刻画数据的概率密度分布,从而做到分类的精准度要求,也使得整个算法更为高效精准。
附图说明
图1为本发明优选实施例归一化常Q倒谱特征的回放语音检测方法的流程图;
图2.1为本发明优选实施例的原始语音与回放语音的CQCC系数的特征对比示意图;
图2.2为本发明优选实施例的原始语音与回放语音的归一化的CQCC系数的特征对比示意图;
图3为本发明优选实施例的本算法与传统算法的等错误率曲线示意图;
图4为本发明优选实施例的不同高斯核数下EER波动示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细描述。
参阅图1所示,本优选实施例提供一种归一化常Q倒谱特征的回放语音检测方法,具体包括以下步骤:
S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);
S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;
S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;
S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。
进一步地,步骤S1中,提取CQCC系数包括对语音信息X(n)做CQT变换得到XCQT(k),计算功率谱得到|XCQT(k)|2,进行对数变换得到log|XCQT(k)|2,进行均匀重采样得到log|XCQT(i)|2,进行DCT变换得到CQCC(p).
进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练得到语音模型,还包括使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行话和高斯模型估计。
进一步地,步骤S1中,提取所述语音信息X(n)的CQCC系数包括:
S1.1:对语音信息X(n)进行常Q变化(CQT),公式为
其中,k=1,2,…,K为序列CQ谱的频域下标,Nk为窗口长度,基函数ak *(n)为复数时频原子,与窗口大小有关,比如Hamming窗,
定义其中,fk为中心频率,fs为采样频率,fk=f0·2k/b,常量b表示时间分辨率和频率分辨率的权衡,f0为CQ谱中的最小频率,
定义带宽Bk=fk+1-fk=fk(21/b-1),定义常数则窗口长度
S1.2:对经过CQT的语音信息X(n)进行提取CQCC系数,公式为
其中,q为CQCC系数的下标,i=0,1,…,K-1是XCQ在线性分布所对应的下标。
进一步地,步骤S2中,对CQCC系数进行倒谱均值和方差归一化处理包括:
定义Xt为t时刻的K维倒谱特征向量,Xt(i)代表Xt的第i个分量,X={x1,x2,…,xt,…,xT}代表长度为T的语音段,则
其中,均值为μML
方差为σ,
进一步地,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练,使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行混合高斯模型估计包括:
设训练样本的特征向量为{x1,x2,x3,…,xN},其模型参数集的似然度其中,每个状态的概率密度函数bi(xn)为:其中R是特征向量的维数,函数bi(xn)是R维的高斯概率密度函数,具有依赖于状态的均值矢量ui和协方差均值∑i|;
根据期望最大化算法,计算使P(X|λk+1)≥P(X|λk)成立的一组最大λ值,最大期望值将所述最大期望值迭代直至收敛至局部最优解。
进一步地,步骤S6中,将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配的公式为:
其中,P(X|s=s0)表示待测语音归一化的CQCC系数与回放语音模型的匹配度,P(X|s=s1)表示待测语音归一化的CQCC系数与原始语音模型的匹配度。
为进一步说明本发明优选实施例方法的可行性和有效性,进行以下实验:
数据库:采用ASVspoof 2017用以评价所提出算法的性能。该数据库中,训练集共包含4724条语音,其中原始语音有2267条,回放语音有2457条;测试集共包含13306条语音,其中原始语音有1298条,回放语音有12008条。其中,测试集中的回放语音包含比训练集更复杂的场景,例如,不同的回放环境,不同的播放和偷录设备。所有的语音均以16位单声道的Wav格式存储,采样频率为16KHz。
实验参数设置:最大频率Fmax=FNYQ,其中FNYQ是奈奎斯特频率,大小为Fs/2,Fs为抽样频率;最小频率Fmin=Fmax/2oct,oct为一个可调参数,以此来确定Fmin,进而确定整个采样范围;采样周期d为16;CQCC系数的特征维度K取19,以确定高阶系数中是否包含对回放语音检测的有用附带信息。
实验过程:
(1)原始语音和回放语音的CQCC系数在归一化之前和归一化之后的特征维度对比
对比实验的结果如图2.1和图2.2所示:仅通过CQCC系数表征原始语音和回放语音的结果差异性不大,但经过倒谱均值和方差归一化处理后的CQCC系数可以很好地表征原始语音和回放语音的差异性,使得对两个语音的判定更容易,进一步表明经过倒谱均值和方差归一化处理后的CQCC系数可以更好地衡量原始语音和回放语音之间的差距。
(2)基于CQCC和基于MFCC算法的等错误概率对比
为显示本算法与传统算法的优越性,进行了对比实验,实验结果如图3所示:将归一化处理加载至基于CQCC的回放语音检测算法中,等错误概率从约23%下降到15%;加载至基于MFCC的回放语音检测算法中,等错误概率从约37%下降到17%。
(3)混合高斯模型(GMM)训练时不同高斯核数下EER的波动情况
考虑到混合高斯模型训练的过程具有一定的随机性,可能收敛于不同的局部最优解,很容易造成最终检测准确率的波动。因此,本实施例进行了50次重复实验,并统计了每次实验高斯核数的波动规律,如图4所示,其柱状图顶端的误差棒表示重复实验中EER波动的方差。首先,增加EER能一定程度上减少因训练造成的波动,但是效果不明显;其次,相同EER条件下,本实施例方案中的特征归一化策略能大幅度减少由于训练引起的算法性能波动。此外,由于归一化处理可以从一定程度上消除信道噪声在倒谱域造成的偏差和时域的卷积噪声,使得冗余的特征参数被处理优化,在使用不同的EER进行训练时,EER均有一定的下降。其中当使用的EER为512时,EER下降幅度最大,约为30%。上述实验结果表明对CQCC特征引入归一化处理可以使特征参数得到进一步优化,从而提高算法的检测性能。
(4)测试文本无关语音
考虑到目前典型的声纹认证系统往往是文本无关的,因此需要对文本无关的语音进行检测。测试数据集中的语音中共包含10条不同的英文短句,从中选择内容相同的语音分别进行测试,最终实验结果如表1所示。
表1不同语音内容EER
由实验结果可知,仅有2组语音(S02和S08)的EER高于平均水平15%,其余的EER均低于平均水平,且不同语音内容之间的波动较小。因此,可以认为本方案的算法在面对不同内容的语音时能保持稳定的表现,具有较高的鲁棒性,可用于文本无关的回放语音检测。
(5)测试不同回放设备语音
实际的声纹认证系统面对的回放语音可能是由不同的设备采集的,回放检测算法在面对不同的回放设备和偷录设备时能否保持稳定是衡量算法性能的重要指标。
表2交叉实验等错误率
从表中可以看出,在偷录设备相同时,回放设备的交叉对算法的性能影响较小,均可以获得较为准确的检测结果。在回放设备相同偷录设备交叉时,算法的表现不及仅回放设备交叉,这说明偷录设备的类型对回放语音的影响更大。当不同偷录设备,不同回放设备交叉时,检测的准确率波动较大,但仍在可接受的范围内。由上述实验结果表明,本方案所提出算法对回放和偷录设备具有较好的鲁棒性。
需要说明的是,本技术领域的普通技术人员应当认识到,以上的实施方式仅是用来说明本发明,而并非用作为对本发明的限定,只要在本发明的实质精神范围之内,对以上实施方式所作的适当改变和变化都落在本发明要求保护的范围之内。

Claims (7)

1.一种归一化常Q倒谱特征的回放语音检测方法,其特征在于包括以下步骤:
S1:提取原始语音和回放语音的语音信息X(n)的声学特征常Q倒谱系数(CQCC);
S2:对原始语音和回放语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S3:分别将原始语音和回放语音归一化的CQCC系数置于混合高斯模型(GMM)中进行训练,得到原始语音模型和回放语音模型;
S4:提取待测语音的语音信息X(n)的声学特征CQCC系数;
S5:对待测语音的CQCC系数进行倒谱均值和方差归一化处理,得到归一化的CQCC系数;
S6:将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配,并判断待测语音归一化的CQCC系数与回放语音模型的第一匹配度是否大于等于与原始语音模型的第二匹配度,若是,则为回放语音,若否,则不是回放语音。
2.根据权利要求1所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S1中,提取CQCC系数包括对语音信息X(n)做CQT变换得到XCQT(k),计算功率谱得到|XCQT(k)|2,进行对数变换得到log|XCQT(k)|2,进行均匀重采样得到log|XCQT(i)|2,进行DCT变换得到CQCC(p).
3.根据权利要求2所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练得到语音模型,还包括使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行话和高斯模型估计。
4.根据权利要求3所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S1中,提取所述语音信息X(n)的CQCC系数包括:
S1.1:对语音信息X(n)进行常Q变化(CQT),公式为
其中,k=1,2,…,K为序列CQ谱的频域下标,Nk为窗口长度,基函数ak *(n)为复数时频原子,定义
其中,fk为中心频率,fs为采样频率,fk=f0·2k/b
其中,常量b表示时间分辨率和频率分辨率的权衡,f0为CQ谱中的最小频率,
定义带宽Bk=fk+1-fk=fk(21/b-1),定义常数则窗口长度
S1.2:对经过CQT的语音信息X(n)进行提取CQCC系数,公式为
其中,q为CQCC系数的下标,i=0,1,…,K-1是XCQ在线性分布所对应的下标。
5.根据权利要求4所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S2中,对CQCC系数进行倒谱均值和方差归一化处理包括:
定义Xt为t时刻的K维倒谱特征向量,Xt(i)代表Xt的第i个分量,X={x1,x2,…,xt,…,xT}代表长度为T的语音段,则
其中,均值为μML方差为σ,
6.根据权利要求5所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S3中,将归一化的CQCC系数置于混合高斯模型中进行训练,使用混合高斯模型进行加权参数优化,并使用期望最大化算法进行混合高斯模型估计包括:
设训练样本的特征向量为{x1,x2,x3,…,xN},其模型参数集的似然度其中,
每个状态的概率密度函数bi(xn)为:
其中R是特征向量的维数,函数bi(xn)是R维的高斯概率密度函数,具有依赖于状态的均值矢量ui和协方差均值∑i|,计算使P(X|λk+1)≥P(X|λk)成立的一组最大λ值,最大期望值将所述最大期望值迭代直至收敛至局部最优解。
7.根据权利要求6所述的归一化常Q倒谱特征的回放语音检测方法,其特征在于,步骤S6中,将待测语音归一化的CQCC系数置于原始语音模型和回放语音模型中进行匹配的公式为:
其中,P(X|s=s0)表示待测语音归一化的CQCC系数与回放语音模型的匹配度,P(X|s=s1)表示待测语音归一化的CQCC系数与原始语音模型的匹配度。
CN201811451509.2A 2018-11-30 2018-11-30 一种归一化常q倒谱特征的回放语音检测方法 Active CN109243487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811451509.2A CN109243487B (zh) 2018-11-30 2018-11-30 一种归一化常q倒谱特征的回放语音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811451509.2A CN109243487B (zh) 2018-11-30 2018-11-30 一种归一化常q倒谱特征的回放语音检测方法

Publications (2)

Publication Number Publication Date
CN109243487A true CN109243487A (zh) 2019-01-18
CN109243487B CN109243487B (zh) 2022-12-27

Family

ID=65073847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811451509.2A Active CN109243487B (zh) 2018-11-30 2018-11-30 一种归一化常q倒谱特征的回放语音检测方法

Country Status (1)

Country Link
CN (1) CN109243487B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599118A (zh) * 2019-01-24 2019-04-09 宁波大学 一种鲁棒性的回放语音检测方法
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110459226A (zh) * 2019-08-19 2019-11-15 效生软件科技(上海)有限公司 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN117153190A (zh) * 2023-10-27 2023-12-01 广东技术师范大学 基于注意力机制组合特征的回放语音检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060178871A1 (en) * 2005-02-08 2006-08-10 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060178871A1 (en) * 2005-02-08 2006-08-10 Microsoft Corporation Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
US20180254046A1 (en) * 2017-03-03 2018-09-06 Pindrop Security, Inc. Method and apparatus for detecting spoofing conditions

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109599118A (zh) * 2019-01-24 2019-04-09 宁波大学 一种鲁棒性的回放语音检测方法
CN110428841B (zh) * 2019-07-16 2021-09-28 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110428841A (zh) * 2019-07-16 2019-11-08 河海大学 一种基于不定长均值的声纹动态特征提取方法
CN110415722A (zh) * 2019-07-25 2019-11-05 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110415722B (zh) * 2019-07-25 2021-10-08 北京得意音通技术有限责任公司 语音信号处理方法、存储介质、计算机程序和电子设备
CN110459226A (zh) * 2019-08-19 2019-11-15 效生软件科技(上海)有限公司 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN110797031A (zh) * 2019-09-19 2020-02-14 厦门快商通科技股份有限公司 语音变音检测方法、系统、移动终端及存储介质
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN112270931A (zh) * 2020-10-22 2021-01-26 江西师范大学 一种基于孪生卷积神经网络进行欺骗性语音检测的方法
CN112927694A (zh) * 2021-03-08 2021-06-08 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN112927694B (zh) * 2021-03-08 2022-09-13 中国地质大学(武汉) 一种基于融合声纹特征的语音指令合法性判别方法
CN117153190A (zh) * 2023-10-27 2023-12-01 广东技术师范大学 基于注意力机制组合特征的回放语音检测方法
CN117153190B (zh) * 2023-10-27 2024-01-19 广东技术师范大学 基于注意力机制组合特征的回放语音检测方法

Also Published As

Publication number Publication date
CN109243487B (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN109243487A (zh) 一种归一化常q倒谱特征的回放语音检测方法
Yu et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features
CN108986824B (zh) 一种回放语音检测方法
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Becker et al. Forensic speaker verification using formant features and Gaussian mixture models.
CN102968990B (zh) 说话人识别方法和系统
US20100332222A1 (en) Intelligent classification method of vocal signal
WO1998034216A2 (en) System and method for detecting a recorded voice
Baloul et al. Challenge-based speaker recognition for mobile authentication
CN1808567A (zh) 验证真人在场状态的声纹认证设备和其认证方法
Aljasem et al. Secure automatic speaker verification (SASV) system through sm-ALTP features and asymmetric bagging
CN103794207A (zh) 一种双模语音身份识别方法
Chen et al. Towards understanding and mitigating audio adversarial examples for speaker recognition
CN101887722A (zh) 快速声纹认证方法
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
Usman On the performance degradation of speaker recognition system due to variation in speech characteristics caused by physiological changes
Zilca Text-independent speaker verification using utterance level scoring and covariance modeling
Ye et al. Detection of replay attack based on normalized constant q cepstral feature
Sukor et al. Speaker identification system using MFCC procedure and noise reduction method
JPWO2020003413A1 (ja) 情報処理装置、制御方法、及びプログラム
Tandogan et al. Towards measuring uniqueness of human voice
Komlen et al. Text independent speaker recognition using LBG vector quantization
Tandogan et al. Estimating uniqueness of i-vector-based representation of human voice
Chakraborty et al. An improved approach to open set text-independent speaker identification (OSTI-SI)
Nosan et al. Descend-Delta-Mean Algorithm for Feature Extraction of Isolated THAI Digit Speech

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Lao Lingjie

Inventor after: Yan Diqun

Inventor after: Ye Yongchao

Inventor after: Lin Lang

Inventor before: Lao Lingjie

Inventor before: Ye Yongchao

Inventor before: Yan Diqun

Inventor before: Lin Lang

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240204

Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province

Patentee after: Huzhou Chuangguan Technology Co.,Ltd.

Country or region after: China

Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818

Patentee before: Ningbo University

Country or region before: China