CN108986824A - 一种回放语音检测方法 - Google Patents
一种回放语音检测方法 Download PDFInfo
- Publication number
- CN108986824A CN108986824A CN201810745299.1A CN201810745299A CN108986824A CN 108986824 A CN108986824 A CN 108986824A CN 201810745299 A CN201810745299 A CN 201810745299A CN 108986824 A CN108986824 A CN 108986824A
- Authority
- CN
- China
- Prior art keywords
- frame
- speech
- test
- samples
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 123
- 239000011159 matrix material Substances 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 36
- 230000003595 spectral effect Effects 0.000 claims description 48
- 238000000034 method Methods 0.000 claims description 44
- 238000010606 normalization Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 36
- 230000009466 transformation Effects 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 20
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 8
- 239000000654 additive Substances 0.000 claims description 7
- 230000000996 additive effect Effects 0.000 claims description 7
- 241000287196 Asthenes Species 0.000 claims description 6
- 239000012141 concentrate Substances 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012952 Resampling Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000005267 amalgamation Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明公开了一种回放语音检测方法,其在训练阶段,先获取语音数据库中的每个语音样本的第一变异系数向量和归一化第一倒谱特征矩阵、第二变异系数向量和归一化第二倒谱特征矩阵,作为四种特征;然后将所有正样本的四种特征分别输入到GMM模型中进行训练,得到四个正样本特征模型,同样获取四个负样本特征模型;在测试阶段,以相同方式获取待检测的语音的四种特征,将每种特征分别输入到对应的正样本特征模型和负样本特征模型中,获得四个似然比得分;根据四个似然比得分得到最终得分,通过比较最终得分与判定阈值,判定是否为回放语音;优点是其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低,且不仅仅局限于文本相关的声纹认证系统。
Description
技术领域
本发明涉及一种语音检测技术,尤其是涉及一种回放语音检测方法。
背景技术
在生物识别技术领域,声纹识别系统因安全性较高、获取较为方便,在生活领域、金融领域以及司法领域得到了广泛应用。声纹识别技术不断发展的同时,各种仿冒语音对声纹识别系统的攻击也日趋严峻。在过去的几年中,研究人员对仿冒语音的检测主要集中在合成语音和转换语音上,一定程度上忽视了回放语音对声纹识别系统的攻击。事实上,首先,由于回放语音是通过真实声音直接录音得到的,因此其比合成语音和转换语音更具有威胁性;其次,回放语音相较于其他仿冒语音获取更为方便,仅仅需要一部录音设备就可以完成回放语音的获取,并且不需要伪造者有较高的专业技能,更为仿冒者提供了便利,同时近些年高保真设备的普及化和便携化,更是极大地提升了回放语音对声纹识别系统的威胁。
对于回放语音检测,国内的相关研究工作相对较少。早期的研究工作由张利鹏等人通过对语音静音段建模从而提出了一种基于语音静音段的检测算法,通过对该算法的研究发现,尽管该算法对回放语音的检测有一定的性能,但是该算法中由于使用的静音段幅度较小从而容易受到背景噪声污染,因此该算法有一定的局限性。而王志峰等人通过探究回放语音产生的机理,通过分析不同设备引入的噪声差异,提出了一种基于信道模式噪声的录音回放检测算法,该算法尽管有很好的检测效果,但是其实验只采用了一种录音设备和回放设备,因此该算法的鲁棒性有待考究。此外,国外的研究诸如Shang和Stevenson等人利用语音产生的随机性提出了一种检测待测语音和合法语音在峰值图上的相似度的算法,该算法只能够应用于文本相关的声纹认证系统。在一种检测待测语音和合法语音在峰值图上的相似度的算法的基础上,Jakub Galka等人在峰值图特性上加入了各频率点的位置关系,进一步提升了声纹认证系统抗回放语音的性能,但是该算法依旧局限于文本相关的声纹认证系统。近年来,Todisco M和Delgado H等人在2016年提出了一种基于常Q变换的CQCC(Constant Q Cepstral Coefficients)特征,尽管其对回放语音的检测有一定的效果,但是检测准确率还有待提升。Ji Z等人使用多种组合特征以及集成分类器思想,将回放语音的检测的等错误概率降低到20%左右,但是该算法的复杂度极高。Lantian Li等人通过使用F-ratio方法分析真实语音和回放语音的差异,提出了I-MFCC方法用于回放语音检测,实验表明,这种特征尽管有一定的检测效果,但此特征的鲁棒性较差。
发明内容
本发明所要解决的技术问题是提供一种回放语音检测方法,其检测的等错误概率较低、鲁棒性较强、计算复杂度相对较低,且不仅仅局限于文本相关的声纹认证系统。
本发明解决上述技术问题所采用的技术方案为:一种回放语音检测方法,其特征在于包括以下步骤:
步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;
步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量,的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长,和的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数;
基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为其中,为列向量,的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长,和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame;
步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型;
步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为和及和其中,的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长,的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame;
步骤五:将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第二似然比得分;将分别输入到第三正样本特征模型和第三负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第三似然比得分;将分别输入到第四正样本特征模型和第四负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第四似然比得分;然后计算Ytest的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分,并将计算得到的平均分作为Ytest的最终得分;再比较Ytest的最终得分与设定的判定阈值,如果Ytest的最终得分大于或等于设定的判定阈值,则判定Ytest为真实语音,如果Ytest的最终得分小于设定的判定阈值,则判定Ytest为回放语音。
所述的步骤一中,获取每个真实语音对应的回放语音的过程中,涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种。
所述的步骤二中,的获取过程为:
A1)、对语音数据库中的第nsa个语音样本进行第一次分帧处理,将语音数据库中的第nsa个语音样本分成N1,frame帧,且帧长为L1,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L1,frame=256,512,1024;
A2)、在步骤A1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行短时傅里叶变换,得到语音数据库中的第nsa个语音样本中的每帧的傅里叶变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的傅里叶变换频谱系数矩阵,记为其中,短时傅里叶变换的采样点数与帧长一致,n1,frame为正整数,1≤n1,frame≤N1,frame,为列向量,的维数为L1,frame×1,的维数为L1,frame×N1,frame;
A3)、计算中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第一变异系数向量将中的第i1个元素记为 的值等于中的第i1行中的所有频谱系数的标准差除以中的第i1行中的所有频谱系数的均值;其中,i1为正整数,1≤i1≤L1,frame。
所述的步骤二中,的获取过程为:
B1)、对语音数据库中的第nsa个语音样本进行第二次分帧处理,将语音数据库中的第nsa个语音样本分成N2,frame帧,且帧长为L2,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关,B=96,64,32,B=96时L2,frame=863,B=64时L2,frame=575,B=32时L2,frame=287;
B2)、在步骤B1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行常数Q变换,得到语音数据库中的第nsa个语音样本中的每帧的Q变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n2,frame帧的Q变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的Q变换频谱系数矩阵,记为其中,常数Q变换的采样点数与帧长一致,n2,frame为正整数,1≤n2,frame≤N2,frame,为列向量,的维数为L2,frame×1,的维数为L2,frame×N2,frame;
B3)、计算中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第二变异系数向量将中的第i2个元素记为 的值等于中的第i2行中的所有频谱系数的标准差除以中的第i2行中的所有频谱系数的均值;其中,i2为正整数,1≤i2≤L2,frame。
所述的步骤五中的判定阈值的设定过程为:
1)选取一个包含有多个真实语音及每个真实语音对应的回放语音的测试语音集;
2)按照步骤二的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵;
3)按照步骤五的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的最终得分;然后从测试语音集中的所有真实语音和回放语音的最终得分中找出最小得分和最大得分,对应记为Smin和Smax;
4)令θ表示候选判定阈值,令Pfa(θ)表示错误接受率,令Pmiss(θ)表示错误拒绝率,令其中,Smin≤θ≤Smax,N1,total表示测试语音集中包含的回放语音的总个数,N1表示最终得分大于或等于θ的所有回放语音的总个数,N2,total表示测试语音集中包含的真实语音的总个数,N2表示最终得分小于θ的所有真实语音的总个数;
5)在区间[Smin,Smax]内以步长为0.01遍历θ,将满足|Pfa(θ)-Pmiss(θ)|≤0.05的最小的θ值作为判定阈值。
所述的步骤五中,计算Ytest的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Ytest的最终得分。
与现有技术相比,本发明的优点在于:
1)本发明方法在训练阶段使用了不同录制设备、不同回放设备和不同回放环境下的回放语音,录制设备和回放设备涵盖高保真设备和普通设备,回放环境包含安静环境和噪声环境,使得本发明方法可以应对各种各样的回放语音的攻击,鲁棒性更强。
2)本发明方法在训练阶段仅使用了GMM模型,且只需计算语音样本的四种特征即第一变异系数向量和第一倒谱特征矩阵及第二变异系数向量和第二倒谱特征矩阵,不仅只使用了一种分类器,而且特征数量少、特征获取过程简单,有效降低了计算复杂度,因此本发明方法更易被用户接受,更具有现实意义,也方便将本发明方法加载到实际的说话人识别中用于抵抗回放语音的攻击。
3)本发明方法使用两种时频变换,充分利用了频谱信息,此外提出的归一化倒谱特征充分地提取了频谱的低频区域信息,变异系数特征弥补了中高频的信息,使得本发明方法的等错误概率低,可降低到12%以内,检测性能好。
4)由于本发明方法利用的是说话人本身的声纹信息而不是说话人的语义信息,因此本发明方法不仅仅局限于文本相关的声纹认证系统。
附图说明
图1为本发明方法的总体实现框图;
图2为不同的回放语音与真实语音的第一变异系数向量中的变异系数的分布差异示意图;
图3为不同的回放语音与真实语音的第二变异系数向量中的变异系数的分布差异示意图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种回放语音检测方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,如取Nreal=2363,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%,如取Nback=2363,为使语音数据库中的正样本与负样本达到均衡,选择的负样本的个数不能远超于正样本的个数。
在本实施例中,步骤一中,获取每个真实语音对应的回放语音的过程中,涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种,因此每个真实语音对应的回放语音有多种不同组合,这些回放语音涉及到的录制设备、回放设备、回放环境至少有一种不同。
在此,直接采用ASV spoof 2017提供的训练集作为语音数据库,该训练集中有真实语音2363个,有回放语音2363个,回放语音涉及到的录制设备有8种、涉及到的回放设备有9种、涉及到的回放环境有6种,真实语音的语料是RedDots语料库中最常用的短语,说话人包含男女共18人,真实语音和回放语音的采样率为16KHz。
步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量,的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长,的获取采用现有技术,和的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数。
基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为其中,为列向量,的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长,的获取采用现有技术,和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame。
在本实施例中,步骤二中,的获取过程为:
A1)、对语音数据库中的第nsa个语音样本进行第一次分帧处理,将语音数据库中的第nsa个语音样本分成N1,frame帧,且帧长为L1,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L1,frame=256,512,1024,在本实施例中取L1,frame=512。
A2)、在步骤A1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行短时傅里叶变换,得到语音数据库中的第nsa个语音样本中的每帧的傅里叶变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的傅里叶变换频谱系数矩阵,记为其中,短时傅里叶变换的采样点数与帧长一致,n1,frame为正整数,1≤n1,frame≤N1,frame,为列向量,的维数为L1,frame×1,的维数为L1,frame×N1,frame。
A3)、计算中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第一变异系数向量将中的第i1个元素记为 的值等于中的第i1行中的所有频谱系数的标准差除以中的第i1行中的所有频谱系数的均值;其中,i1为正整数,1≤i1≤L1,frame。
在本实施例中,步骤二中,的获取过程为:
B1)、对语音数据库中的第nsa个语音样本进行第二次分帧处理,将语音数据库中的第nsa个语音样本分成N2,frame帧,且帧长为L2,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关,B=96,64,32,B=96时L2,frame=863,B=64时L2,frame=575,B=32时L2,frame=287,在本实施例中取B=96,即L2,frame=863。
B2)、在步骤B1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行常数Q变换,得到语音数据库中的第nsa个语音样本中的每帧的Q变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n2,frame帧的Q变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的Q变换频谱系数矩阵,记为其中,常数Q变换的采样点数与帧长一致,n2,frame为正整数,1≤n2,frame≤N2,frame,为列向量,的维数为L2,frame×1,的维数为L2,frame×N2,frame。
B3)、计算Freq'nsa中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第二变异系数向量将中的第i2个元素记为 的值等于中的第i2行中的所有频谱系数的标准差除以中的第i2行中的所有频谱系数的均值;其中,i2为正整数,1≤i2≤L2,frame。
在本实施例中,的获取过程为:获取的功率谱矩阵;然后取的功率谱矩阵中的每个元素的对数,得到对应的对数功率谱矩阵;接着对对应的对数功率谱矩阵进行插值重采样,得到对应的重采样后的频谱系数矩阵;再对对应的重采样后的频谱系数矩阵进行DCT变换,得到维数为L2,frame×N2,frame的系数矩阵;之后仅取系数矩阵中的每列的前30个系数,即仅取系数矩阵的前30行,构成维数为30×N2,frame的系数矩阵;最后为进一步表征语音样本的动态特性,将维数为30×N2,frame的系数矩阵及其一阶差分矩阵和二阶差分矩阵组成维数为90×N2,frame的系数矩阵,作为
步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型。
步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为和及和其中,的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长,的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame。
步骤五:将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第二似然比得分;将分别输入到第三正样本特征模型和第三负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第三似然比得分;将分别输入到第四正样本特征模型和第四负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第四似然比得分;然后计算Ytest的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分,并将计算得到的平均分作为Ytest的最终得分;再比较Ytest的最终得分与设定的判定阈值,如果Ytest的最终得分大于或等于设定的判定阈值,则判定Ytest为真实语音,如果Ytest的最终得分小于设定的判定阈值,则判定Ytest为回放语音。
在本实施例中,步骤五中的判定阈值的设定过程为:
1)选取一个包含有多个真实语音及每个真实语音对应的回放语音的测试语音集;
2)按照步骤二的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵;
3)按照步骤五的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的最终得分;然后从测试语音集中的所有真实语音和回放语音的最终得分中找出最小得分和最大得分,对应记为Smin和Smax;
4)令θ表示候选判定阈值,令Pfa(θ)表示错误接受率,令Pmiss(θ)表示错误拒绝率,令其中,Smin≤θ≤Smax,N1,total表示测试语音集中包含的回放语音的总个数,N1表示最终得分大于或等于θ的所有回放语音的总个数,N2,total表示测试语音集中包含的真实语音的总个数,N2表示最终得分小于θ的所有真实语音的总个数;
5)在区间[Smin,Smax]内以步长为0.01遍历θ,将满足|Pfa(θ)-Pmiss(θ)|≤0.05的最小的θ值作为判定阈值。
在本实施例中,步骤五中,计算Ytest的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Ytest的最终得分。
在此,直接采用ASV spoof 2017提供的评价集作为测试语音集,得到的判定阈值为0.38,不同的测试语音集得到的判定阈值不相同。
为了验证本发明方法的可行性和有效性,对本发明方法进行实验。
图2给出了ASV spoof 2017提供的训练集中的真实语音及不同录制设备、不同回放设备、不同回放环境下的三个回放语音各自的第一变异系数向量中的变异系数的分布情况,图3给出了ASV spoof 2017提供的训练集中的真实语音及不同录制设备、不同回放设备、不同回放环境下的三个回放语音各自的第二变异系数向量中的变异系数的分布情况。从图2中可以看出,不同的回放环境、不同的录制设备、不同的回放设备产生的回放语音的第一变异系数向量产生了不同程度的变化,其每个频率点的变异系数的值均小于真实语音的每个频率点的第一变异系数值;从图3中可以看出,不同的回放环境、不同的录制设备、不同的回放设备产生的回放语音的第二变异系数向量同样产生了不同程度的变化,每个回放语音的每个频率点的第二变异系数的值均小于真实语音的每个频率点的第二变异系数值。
一、基础特征的检测性能
六种特征独立的检测结果可验证特征的鲁棒性,对第一倒谱特征矩阵MFCC和第二倒谱特征矩阵CQCC使用倒谱均值方差归一化方法CMVN(Cepstral Mean and VarianceNormalization)去除信道不匹配和加性噪声干扰,将归一化后的第一倒谱特征矩阵记为MFCCCMVN,将归一化后的第二倒谱特征矩阵记为CQCCCMVN;将第一变异系数向量CVSTFT、第一倒谱特征矩阵MFCC、归一化后的第一倒谱特征矩阵MFCCCMVN、第二变异系数向量CVCQT、第二倒谱特征矩阵CQCC、归一化后的第二倒谱特征矩阵CQCCCMVN六种特征分别在ASV spoof 2017提供的训练集(Train数据集)、训练集+开发集(Train数据集+Dev数据集))两种数据集下进行训练,并使用ASV spoof 2017提供的评价集(Evaluation数据集)作为测试集进行测试,检测的结果如表1所列。
表1六种特征下的回放语音检测结果
表1中的EER表示在判定阈值等于0.38时的等错误概率。等错误概率的值越小表明算法的检测性能越好。从表1中可以看出,对于上述六种特征,使用训练集+开发集(Train数据集+Dev数据集)两个数据集共同作为训练集要比只是用训练集(Train数据集)一个数据集作为训练集要好。对于四种倒谱特征,归一化后的第一倒谱特征矩阵MFCCCMVN和第二倒谱特征矩阵CQCCCMVN要比归一化前的第一倒谱特征矩阵MFCC和第二倒谱特征矩阵CQCC要好;其次,第一变异系数特征向量和第二变异系数特征向量也表现出了良好性能。
二、多个特征融合的检测结果
在六种特征单独检测的实验中,MFCCCMVN和CQCCCMVN均表现出了良好的性能,其次CVSTFT和CVCQT也表现很好。为进一步降低检测的EER,将根据MFCCCMVN和CQCCCMVN及CVSTFT和CVCQT这四种特征得到的似然比得分分为六种情况进行融合,从而进一步的降低等错误概率。这六种特征融合的方式分别为:第一种方式是融合MFCCCMVN和CVSTFT两个特征;第二种方式是融合CQCCCMVN和CVCQT两个特征;第三种方式是融合MFCCCMVN和CQCCCMVN两个特征;第四种方式是融合MFCCCMVN、CQCCCMVN和CVSTFT三个特征;第五种方式是融合MFCCCMVN、CQCCCMVN和CVCQT三种特征;第六种方式是融合MFCCCMVN、CQCCCMVN、CVSTFT和CVCQT四种特征。每种融合方式中的具体似然比得分融合方法是将需要融合的几种特征的似然比得分首先利用现有技术最大值最小值归一化方法进行归一化,然后求取归一化后的几种特征的似然比得分的平均值作为融合后的得分。检测结果如表2所列。
表2等权重下的多特征融合的回放语音检测结果
从表2中可以看出,使用第四种特征融合方案,即MFCCCMVN、CQCCCMVN、CVSTFT三种特征进行融合检测效果最好,其检测EER为11.74%,因此本发明最后采用的融合方法是将MFCCCMVN、CQCCCMVN、CVSTFT三种特征进行融合。将这三种特征得到的似然比得分进行融合以后,再去和设定的判定阈值进行比较,然后判断是否是回放语音,如果融合的似然比得分大于或等于设定的判定阈值,就认为是真实语音,否则就认为是回放语音。
Claims (6)
1.一种回放语音检测方法,其特征在于包括以下步骤:
步骤一:选取Nreal个时长大于或等于1秒且各不相同的真实语音;然后获取每个真实语音对应的若干个回放语音;再将每个真实语音作为正样本,将从每个真实语音对应的所有回放语音中选择的至少1个回放语音作为负样本,由所有正样本和所有负样本构成语音数据库,语音数据库中的正样本的个数为Nreal个、负样本的个数为Nback个,即语音数据库中的语音样本的个数为Nreal+Nback;其中,Nreal≥500,Nreal≤Nback≤Nreal(1+pr),0≤pr≤13%;
步骤二:基于短时傅里叶变换获取语音数据库中的每个语音样本的第一变异系数向量和第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第一变异系数向量和第一倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第一倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第一倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第一倒谱特征矩阵记为其中,nsa为正整数,1≤nsa≤Nreal+Nback,为列向量,的维数为L1,frame×1,L1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧长,和的维数为13×N1,frame,N1,frame表示对语音数据库中的第nsa个语音样本进行第一次分帧处理后得到的帧的帧数;
基于常数Q变换获取语音数据库中的每个语音样本的第二变异系数向量和第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的第二变异系数向量和第二倒谱特征矩阵对应记为和然后采用倒谱均值方差归一化方法对语音数据库中的每个语音样本的第二倒谱特征矩阵进行去除信道不匹配和加性噪声干扰处理,得到语音数据库中的每个语音样本的归一化第二倒谱特征矩阵,将语音数据库中的第nsa个语音样本的归一化第二倒谱特征矩阵记为其中,为列向量,的维数为L2,frame×1,L2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧长,和的维数为90×N2,frame,N2,frame表示对语音数据库中的第nsa个语音样本进行第二次分帧处理后得到的帧的帧数,N2,frame≠N1,frame;
步骤三:将语音数据库中的所有正样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一正样本特征模型;将语音数据库中的所有正样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二正样本特征模型;将语音数据库中的所有正样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三正样本特征模型;将语音数据库中的所有正样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四正样本特征模型;同样,将语音数据库中的所有负样本的第一变异系数向量输入到GMM模型中进行训练,训练得到第一负样本特征模型;将语音数据库中的所有负样本的归一化第一倒谱特征矩阵输入到GMM模型中进行训练,训练得到第二负样本特征模型;将语音数据库中的所有负样本的第二变异系数向量输入到GMM模型中进行训练,训练得到第三负样本特征模型;将语音数据库中的所有负样本的归一化第二倒谱特征矩阵输入到GMM模型中进行训练,训练得到第四负样本特征模型;
步骤四:取一个待检测的语音,记为Ytest;然后按照步骤二的过程,以相同的方式获得Ytest的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵,对应记为和及和其中,的维数为Ltest,1,frame×1,Ltest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧长,的维数为13×Ntest,1,frame,Ntest,1,frame表示对Ytest进行第一次分帧处理后得到的帧的帧数,的维数为Ltest,2,frame×1,Ltest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧长,的维数为90×Ntest,2,frame,Ntest,2,frame表示对Ytest进行第二次分帧处理后得到的帧的帧数,Ntest,2,frame≠Ntest,1,frame;
步骤五:将分别输入到第一正样本特征模型和第一负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第一似然比得分;将分别输入到第二正样本特征模型和第二负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第二似然比得分;将分别输入到第三正样本特征模型和第三负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第三似然比得分;将分别输入到第四正样本特征模型和第四负样本特征模型中进行测试,各得到一个测试得分,并计算两个测试得分的差值作为Ytest的第四似然比得分;然后计算Ytest的第一似然比得分、第二似然比得分、第三似然比得分和第四似然比得分中的至少两个似然比得分的平均分,并将计算得到的平均分作为Ytest的最终得分;再比较Ytest的最终得分与设定的判定阈值,如果Ytest的最终得分大于或等于设定的判定阈值,则判定Ytest为真实语音,如果Ytest的最终得分小于设定的判定阈值,则判定Ytest为回放语音。
2.根据权利要求1所述的一种回放语音检测方法,其特征在于所述的步骤一中,获取每个真实语音对应的回放语音的过程中,涉及到的录制设备有多种、涉及到的回放设备有多种、涉及到的回放环境有多种。
3.根据权利要求1或2所述的一种回放语音检测方法,其特征在于所述的步骤二中,的获取过程为:
A1)、对语音数据库中的第nsa个语音样本进行第一次分帧处理,将语音数据库中的第nsa个语音样本分成N1,frame帧,且帧长为L1,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L1,frame=256,512,1024;
A2)、在步骤A1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行短时傅里叶变换,得到语音数据库中的第nsa个语音样本中的每帧的傅里叶变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n1,frame帧的傅里叶变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的傅里叶变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的傅里叶变换频谱系数矩阵,记为其中,短时傅里叶变换的采样点数与帧长一致,n1,frame为正整数,1≤n1,frame≤N1,frame,为列向量,的维数为L1,frame×1,的维数为L1,frame×N1,frame;
A3)、计算中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第一变异系数向量将中的第i1个元素记为的值等于中的第i1行中的所有频谱系数的标准差除以中的第i1行中的所有频谱系数的均值;其中,i1为正整数,1≤i1≤L1,frame。
4.根据权利要求3所述的一种回放语音检测方法,其特征在于所述的步骤二中,的获取过程为:
B1)、对语音数据库中的第nsa个语音样本进行第二次分帧处理,将语音数据库中的第nsa个语音样本分成N2,frame帧,且帧长为L2,frame,帧与帧之间的重叠为然后将语音数据库中的第nsa个语音样本中的每帧乘以汉宁窗,以增加帧与帧之间的连续性;其中,符号为向上取整运算符号,表示语音数据库中的第nsa个语音样本的采样点数,L2,frame的值与常数Q变换中的一个八度的频率范围内包含的谱线数B有关,B=96,64,32,B=96时L2,frame=863,B=64时L2,frame=575,B=32时L2,frame=287;
B2)、在步骤B1)的基础上,对语音数据库中的第nsa个语音样本中的每帧进行常数Q变换,得到语音数据库中的第nsa个语音样本中的每帧的Q变换频谱系数向量,将语音数据库中的第nsa个语音样本中的第n2,frame帧的Q变换频谱系数向量记为然后将语音数据库中的第nsa个语音样本中的所有帧的Q变换频谱系数向量组成语音数据库中的第nsa个语音样本对应的Q变换频谱系数矩阵,记为其中,常数Q变换的采样点数与帧长一致,n2,frame为正整数,1≤n2,frame≤N2,frame,为列向量,的维数为L2,frame×1,的维数为L2,frame×N2,frame;
B3)、计算中的每行中的所有频谱系数的均值和标准差;然后根据计算得到的所有均值和标准差,获取语音数据库中的第nsa个语音样本的第二变异系数向量将中的第i2个元素记为的值等于中的第i2行中的所有频谱系数的标准差除以中的第i2行中的所有频谱系数的均值;其中,i2为正整数,1≤i2≤L2,frame。
5.根据权利要求4所述的一种回放语音检测方法,其特征在于所述的步骤五中的判定阈值的设定过程为:
1)选取一个包含有多个真实语音及每个真实语音对应的回放语音的测试语音集;
2)按照步骤二的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的第一变异系数向量和归一化第一倒谱特征矩阵及第二变异系数向量和归一化第二倒谱特征矩阵;
3)按照步骤五的过程,以相同的方式获得测试语音集中的每个真实语音和每个回放语音的最终得分;然后从测试语音集中的所有真实语音和回放语音的最终得分中找出最小得分和最大得分,对应记为Smin和Smax;
4)令θ表示候选判定阈值,令Pfa(θ)表示错误接受率,令Pmiss(θ)表示错误拒绝率,令其中,Smin≤θ≤Smax,N1,total表示测试语音集中包含的回放语音的总个数,N1表示最终得分大于或等于θ的所有回放语音的总个数,N2,total表示测试语音集中包含的真实语音的总个数,N2表示最终得分小于θ的所有真实语音的总个数;
5)在区间[Smin,Smax]内以步长为0.01遍历θ,将满足|Pfa(θ)-Pmiss(θ)|≤0.05的最小的θ值作为判定阈值。
6.根据权利要求5所述的一种回放语音检测方法,其特征在于所述的步骤五中,计算Ytest的第一似然比得分、第二似然比得分和第四似然比得分的平均分作为Ytest的最终得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810745299.1A CN108986824B (zh) | 2018-07-09 | 2018-07-09 | 一种回放语音检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810745299.1A CN108986824B (zh) | 2018-07-09 | 2018-07-09 | 一种回放语音检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986824A true CN108986824A (zh) | 2018-12-11 |
CN108986824B CN108986824B (zh) | 2022-12-27 |
Family
ID=64536391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810745299.1A Active CN108986824B (zh) | 2018-07-09 | 2018-07-09 | 一种回放语音检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986824B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
CN109829503A (zh) * | 2019-02-12 | 2019-05-31 | 厦门美柚信息科技有限公司 | 一种密集恐惧图片判别方法、系统、设备及其存储介质 |
CN109935233A (zh) * | 2019-01-29 | 2019-06-25 | 天津大学 | 一种基于振幅和相位信息的录音攻击检测方法 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN110363231A (zh) * | 2019-06-27 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于半监督深度学习的异常识别方法、装置及存储介质 |
CN110706712A (zh) * | 2019-10-12 | 2020-01-17 | 四川虹微技术有限公司 | 家居环境下的录音重放检测方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN111899761A (zh) * | 2020-07-23 | 2020-11-06 | 深圳慕智科技有限公司 | 一种基于智能交通音频输入特征识别的模糊测试数据生成方法 |
WO2020238046A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
CN113488074A (zh) * | 2021-08-20 | 2021-10-08 | 四川大学 | 一种音频信号的长时变q时频转换算法及其应用 |
CN114783417A (zh) * | 2022-04-29 | 2022-07-22 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191636A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Adapting to adverse acoustic environment in speech processing using playback training data |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN105938716A (zh) * | 2016-03-30 | 2016-09-14 | 浙江大学 | 一种基于多精度拟合的样本复制语音自动检测方法 |
-
2018
- 2018-07-09 CN CN201810745299.1A patent/CN108986824B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030191636A1 (en) * | 2002-04-05 | 2003-10-09 | Guojun Zhou | Adapting to adverse acoustic environment in speech processing using playback training data |
CN105513598A (zh) * | 2016-01-14 | 2016-04-20 | 宁波大学 | 一种基于频域信息量分布的回放语音检测方法 |
CN105938716A (zh) * | 2016-03-30 | 2016-09-14 | 浙江大学 | 一种基于多精度拟合的样本复制语音自动检测方法 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
CN109935233A (zh) * | 2019-01-29 | 2019-06-25 | 天津大学 | 一种基于振幅和相位信息的录音攻击检测方法 |
CN109829503A (zh) * | 2019-02-12 | 2019-05-31 | 厦门美柚信息科技有限公司 | 一种密集恐惧图片判别方法、系统、设备及其存储介质 |
CN109994116B (zh) * | 2019-03-11 | 2021-01-19 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
CN109994116A (zh) * | 2019-03-11 | 2019-07-09 | 南京邮电大学 | 一种基于会议场景小样本条件下的声纹准确识别方法 |
WO2020238046A1 (zh) * | 2019-05-29 | 2020-12-03 | 平安科技(深圳)有限公司 | 人声智能检测方法、装置及计算机可读存储介质 |
CN110363231A (zh) * | 2019-06-27 | 2019-10-22 | 平安科技(深圳)有限公司 | 基于半监督深度学习的异常识别方法、装置及存储介质 |
CN110706712A (zh) * | 2019-10-12 | 2020-01-17 | 四川虹微技术有限公司 | 家居环境下的录音重放检测方法 |
CN110782877A (zh) * | 2019-11-19 | 2020-02-11 | 合肥工业大学 | 基于Fisher混合特征和神经网络的语音鉴别方法和系统 |
CN111899761A (zh) * | 2020-07-23 | 2020-11-06 | 深圳慕智科技有限公司 | 一种基于智能交通音频输入特征识别的模糊测试数据生成方法 |
CN113488074A (zh) * | 2021-08-20 | 2021-10-08 | 四川大学 | 一种音频信号的长时变q时频转换算法及其应用 |
CN113488074B (zh) * | 2021-08-20 | 2023-06-23 | 四川大学 | 一种用于检测合成语音的二维时频特征生成方法 |
CN114783417A (zh) * | 2022-04-29 | 2022-07-22 | 北京远鉴信息技术有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108986824B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986824A (zh) | 一种回放语音检测方法 | |
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
EP0822539B1 (en) | Two-staged cohort selection for speaker verification system | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN101923855A (zh) | 文本无关的声纹识别系统 | |
JPH08314491A (ja) | ミックスチャ分解識別による話者検証方法と装置 | |
Vyas | A Gaussian mixture model based speech recognition system using Matlab | |
CN109243487A (zh) | 一种归一化常q倒谱特征的回放语音检测方法 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
Soleymani et al. | Prosodic-enhanced siamese convolutional neural networks for cross-device text-independent speaker verification | |
Biagetti et al. | Speaker identification with short sequences of speech frames | |
Zheng et al. | When automatic voice disguise meets automatic speaker verification | |
CN110364168A (zh) | 一种基于环境感知的声纹识别方法及系统 | |
Dey et al. | End-to-end Text-dependent Speaker Verification Using Novel Distance Measures. | |
Tripathi et al. | Speaker recognition | |
Barai et al. | Closed-set speaker identification using VQ and GMM based models | |
Goh et al. | Robust computer voice recognition using improved MFCC algorithm | |
Sukor et al. | Speaker identification system using MFCC procedure and noise reduction method | |
Herrera-Camacho et al. | Design and testing of a corpus for forensic speaker recognition using MFCC, GMM and MLE | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
Ranjan | Speaker Recognition and Performance Comparison based on Machine Learning | |
Panda et al. | Study of speaker recognition systems | |
Sahidullah et al. | On the use of perceptual Line Spectral pairs Frequencies and higher-order residual moments for Speaker Identification | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Yang et al. | User verification based on customized sentence reading |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240124 Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province Patentee after: Huzhou Chuangguan Technology Co.,Ltd. Country or region after: China Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818 Patentee before: Ningbo University Country or region before: China |