CN106409298A - 一种声音重录攻击的识别方法 - Google Patents

一种声音重录攻击的识别方法 Download PDF

Info

Publication number
CN106409298A
CN106409298A CN201610889813.XA CN201610889813A CN106409298A CN 106409298 A CN106409298 A CN 106409298A CN 201610889813 A CN201610889813 A CN 201610889813A CN 106409298 A CN106409298 A CN 106409298A
Authority
CN
China
Prior art keywords
mfcc
sound
voice
vector
window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610889813.XA
Other languages
English (en)
Inventor
王泳
李山路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201610889813.XA priority Critical patent/CN106409298A/zh
Publication of CN106409298A publication Critical patent/CN106409298A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及多媒体信息安全领域,具体是涉及一种声音重录攻击的识别方法;其特征在于,主要包括以下步骤:首先,提取MFCC;其次,对语音片段x(n)分帧;第三,提取语音识别特征;第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。本发明技术方案在识别性能上能达到99.67%,能在大多数应用场合中成功识别重录声音。

Description

一种声音重录攻击的识别方法
技术领域
本发明涉及多媒体信息安全领域,具体是涉及一种声音重录攻击的识别方法。
背景技术
声音重录攻击是指事前录制好目标人物的语音片段,然后重播此片段以骗过说话人识别系统。现在有很多便捷的录音设备,例如手机、录音笔等,很方便就可以在目标人物不知情下将其声音录制下来。并且,由于录制的语音几乎仍包含说话人的所有最主要特征,而这些特征正是说话人识别系统的判断依据,当今的识别系统都无法抵抗这种攻击。因此,声音重录攻击对不少已投入使用的商业或其它应用场合的系统带来严重威胁,是亟待解决的安全问题。
发明内容
本发明针对现有技术的不足,提供一种声音重录攻击的识别方法;该方法能区分重录声音及原始声音,具有巨大的现实意义和广阔的应用场景。
本发明一种声音重录攻击的识别方法,主要包括以下步骤:
首先,提取MFCC;
其次,对语音片段x(n)分帧;
所述语音片段x(n)分帧分成N帧,则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC),获得3个L维向量,记x(n)第i帧的MFCC向量的第j个元素为vij,则x(n)所有帧的MFCC向量的第j个元素Vj可表示为
Vj={v1j,v2j,…,vNj},j=1,2,…,L (1)
第三,提取语音识别特征;
使用两种统计矩,即向量Vj的均值Ej和Vj与Vj′的相关系数Cjj′,即
Ej=E(Vj),j=1,2,…,L (2)
两种统计特征联合组成基于MFCC的统计特征向量,即
FMFCC=[E1,E2,…,EL,C12,C13,…,C(L-1)L] (4)
其中,FMFCC的维数为
L+1+2+…+(L-1)=L+L*(L-1)/2=(L2+L)/2,
对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量FΔMFCC和FΔΔMFCC,将FMFCC、FΔMFCC和FΔΔMFCC连在一起组成x(n)的特征向量F,即
F=[FMFCC,FΔMFCC,FΔΔMFCC] (5)
其中,F的维数为3*(L2+L)/2;F即为本发明采用的识别特征;
第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;
最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。所提的识别方法中使用支持向量机(SVM)作为分类方法,以公式(5)中的特征F作为SVM的输入。
作为上述方案的进一步改进,所述提取MFCC主要包括以下步骤:
首先,加窗和计算频谱,窗长度为N,
其中的MFCC采用了N=1024点的海明窗:
对源信号x(n)加窗后作FFT变换:
其次,Mel分段和对数变换,Mel分段为三角滤波,
加权窗口使用三角窗,其公式如下:
其中,km=f(m)·N/Fs,Fs为抽样频率,利用三角窗对FFT的能量谱加权后作对数变换:
再次,得出MFCC,
利用余弦反变换,即可得到Mel倒谱系数,即MFCC。
本发明的有益效果为:本发明技术方案在识别性能上能达到99.67%,能在大多数应用场合中成功识别重录声音。
附图说明
图1为本发明识别声音的流程图。
具体实施方式
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
参照图1,本发明实施例一种声音重录攻击的识别方法,主要包括以下步骤:
首先,提取MFCC;
其次,对语音片段x(n)分帧;
所述语音片段x(n)分帧分成N帧,则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC),获得3个L维向量,记x(n)第i帧的MFCC向量的第j个元素为vij,则x(n)所有帧的MFCC向量的第j个元素Vj可表示为
Vj={V1j,v2j,…,vNj},j=1,2,…,L (1)
第三,提取语音识别特征;
使用两种统计矩,即向量Vj的均值Ej和Vj与Vj′的相关系数Cjj′,即
Ej=E(Vj),j=1,2,…,L (2)
两种统计特征联合组成基于MFCC的统计特征向量,即
FMFCC=[E1,E2,…,EL,C12,C13,…,C(L-1)L] (4)
其中,FMFCC的维数为
L+1+2+…+(L-1)=L+L*(L-1)/2=(L2+L)/2,
对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量FΔMFCC和FΔΔMFCC,将FMFCC、FΔMFCC和FΔΔMFCC连在一起组成x(n)的特征向量F,即
F=[FMFCC,FΔMFCC,FΔΔMFCC] (5)
其中,F的维数为3*(L2+L)/2;F即为本发明采用的识别特征;
第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;
最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。
所提的识别方法中使用支持向量机(SVM)作为分类方法,以公式(5)中的特征F作为SVM的输入。
所述提取MFCC主要包括以下步骤:
首先,加窗和计算频谱,窗长度为N,
其中的MFCC采用了N=1024点的海明窗:
对源信号x(n)加窗后作FFT变换:
其次,Mel分段和对数变换,Mel分段为三角滤波,
加权窗口使用三角窗,其公式如下:
其中,km=f(m)·N/Fs,Fs为抽样频率,
利用三角窗对FFT的能量谱加权后作对数变换:
再次,得出MFCC,
利用余弦反变换,即可得到Mel倒谱系数,即MFCC。
现给出利用本发明方法所采用的语音库和一些实验结果。
原始语音库由3000段语音组成,每段语音时长2秒,抽样频率16kHz,量化精度16bits。对原始语音库播放并录制7次,由此获得7个录制语音库,它们分别包含3000段语音。7次录制的情况如表1语音库录制所示。
表1
考虑到实验分为训练及测试阶段,以上语音库需要划分为不同的子库作为不同用途。具体划分为:1)原始语音库分为S1、S2、S3三个子库,每个子库包含1000段互不相同的语音;2)Sn(n=1,2,3)对应的录制语音库记为Sn_k(k=1,2…,6,7)。
实验需要衡量录制环境、录音设备和录制距离对检测结果的影响,因此,考虑以下四种情况:
(1)不同录制环境对算法检测性能的影响。
利用原始语音库S1(作为正样本)与录制语音库S1_2、S1_5(作为负样本)分别训练出两个SVM分类器,剩余语音库作为测试,比较两个分类器的性能。其结果如表2所示,安静环境(S1+S1_2)和有噪声环境(S1+S1_5)下对算法检测性能的影响(正确率:%)。表2中,安静环境下的平均识别率达到了87.45%,而有噪声的环境下平均识别率为83.436%。
表2
(2)不同录制设备对算法检测性能的影响。
利用原始语音库S1(作为正样本)与录制语音库S1_1、S1_2(作为负样本)分别训练出两个SVM分类器,剩余的语音库用作测试,比较两个分类器的性能。其结果如表3所示,电脑录制设备(S1+S1_1)和智能手机录制(S1+S1_2)对算法检测性能的影响(正确率:%)。表3中,利用电脑设备录制的语音训练出来的分类器平均识别率为70.927%,而利用智能手机则达到了87.45%。可以看出,利用电脑录制的语音训练的分类器和利用智能手机录制的语音训练的分类器在识别用智能手机录制的语音库时,识别性能要低很多。也就是说,不同录制设备对识别性能有很大的影响。在安静环境下,利用电脑录制的语音训练的分类器能较好地检测出用智能手机录制的语音,但在有噪声的情况下,检测率也很低;相反,用智能手机录制的语音训练的分类器检测用电脑录制的语音检测率很低。
表3
(3)不同录制距离(20cm和40cm)对算法检测性能的影响。
本发明主要考虑安静及有噪两种环境下算法的检测性能。利用原始语音库S1(作为正样本)与录制语音库S1_2、S1_3(作为负样本)分别训练出两个SVM分类器,比较两个分类器的性能。其结果如表4所示,安静环境下,不同距离(20cm:S1+S1_2,40cm:S1+S1_3)对算法检测性能的影响(正确率:%)。表4中,用录制距离为20cm的语音训练出来的分类器的平均识别率为87.45%,而录制距离为40cm的情况下为89.127%。从平均识别率可以看出,在安静环境下,利用在40cm的距离录制的语音比在20cm录制的语音训练出来的分类器性能更好。
表4
利用原始语音库S1(作为正样本)与录制语音库S1_5、S1_6(作为负样本)分别训练出两个SVM分类器,比较两个分类器的性能。其结果如表5所示,有噪声环境下,不同距离(20cm:S1+S1_5,40cm:S1+S1_6)对算法检测性能的影响(正确率:%)。表5中,用录制距离为20cm的语音训练出来的分类器的平均识别率为83.436%,而录制距离为40cm的情况下为85.959%。从平均识别率可以看出,在有噪声的环境下,利用在40cm的距离录制的语音比在20cm录制的语音训练出来的分类器性能更好。
表5
(4)全局性能
全局性能即是在训练分类器时,综合考虑录音设备、录音距离及录音环境,利用原始语音库S1(作为正样本)与录制语音库S1_1、S1_2、S1_5(作为负样本)训练出SVM分类器,即负样本将录音设备、录音距离和录音环境都考虑在内。检测结果如表6所示,不同录音设备、录音距离和录音环境下对算法检测性能的影响(正确率:%)。表6中,平均识别率达到了99.67%。可以看出,在训练SVM分类器时,负样本中整体考虑录音设备、录音距离和录音环境的情况得到的分类器性能很好。
表6
本发明技术方案在识别性能上能达到99.67%,能在大多数应用场合中成功识别重录声音。
以上已将本发明做一详细说明,但显而易见,本领域的技术人员可以进行各种改变和改进,而不背离所附权利要求书所限定的本发明的范围。

Claims (2)

1.一种声音重录攻击的识别方法,其特征在于,主要包括以下步骤:
首先,提取MFCC;
其次,对语音片段x(n)分帧;
所述语音片段x(n)分帧分成N帧,则每帧分别提取前L维MFCC系数、前L维一次差分MFCC系数(ΔMFCC)和前L维二次差分MFCC系数(ΔΔMFCC),获得3个L维向量,记x(n)第i帧的MFCC向量的第j个元素为vij,则x(n)所有帧的MFCC向量的第j个元素Vj可表示为
Vj={v1j,v2j,…,vNj},j=1,2,…,L (1)
第三,提取语音识别特征;
使用两种统计矩,即向量Vj的均值Ej和Vj与Vj的相关系数Cjj,即
Ej=E(Vj),j=1,2,…,L (2)
C jj &prime; = cov ( V j , V j &prime; ) V A R ( V j ) V A R ( V j &prime; ) 1 &le; j < j &prime; &le; L - - - ( 3 )
两种统计特征联合组成基于MFCC的统计特征向量,即
FMFCC=[E1,E2,…,EL,C12,C13,…,C(L-1)L] (4)
其中,FMFCC的维数为L+1+2+…+(L-1)=L+L*(L-1)/2=(L2+L)/2,对ΔMFCC向量和ΔΔMFCC向量计算相同的统计特征向量FΔMFCC和FΔΔMFCC,将FMFCC、FΔMFCC和FΔΔMFCC连在一起组成x(n)的特征向量F,即
F=[FMFCC,FΔMFCC,FΔΔMFCC] (5)
其中,F的维数为3*(L2+L)/2;F即为本发明采用的识别特征;
第四,训练出SVM分类器;输入原始语音作为正例训练样本,输入录制语音作为反例训练样本,从正反例样本中提取特征F以训练出SVM分类器;
最后,测试识别;提取特征测试语音的特征F并输入SVM分类器进行判别。
2.根据权利要求1所述的一种声音重录攻击的识别方法,其特征在于,所述提取MFCC主要包括以下步骤:
首先,加窗和计算频谱,窗长度为N,
其中的MFCC采用了N=1024点的海明窗:
w ( n ) = 0.53836 - 0.46164 c o s ( 2 &pi; n N - 1 ) 0 &le; n < N - - - ( 6 )
对源信号x(n)加窗后作FFT变换:
F ( k ) = &Sigma; n = 0 N - 1 x ( n ) &CenterDot; w ( n ) &CenterDot; e - j 2 &pi; N &CenterDot; k &CenterDot; n 0 &le; n < N - - - ( 7 )
其次,Mel分段和对数变换,Mel分段为三角滤波,
加权窗口使用三角窗,其公式如下:
H m ( k ) = 0 k < k m - 1 k - k m - 1 k m - k m - 1 k m - 1 &le; k &le; k m k m + 1 - k k m + 1 - k m k m < k &le; k m + 1 0 k > k m + 1 - - - ( 8 )
其中,km=f(m)·N/Fs,Fs为抽样频率,利用三角窗对FFT的能量谱加权后作对数变换:
Y ( m ) = l o g &lsqb; &Sigma; k = 0 N - 1 | F ( k ) | 2 &CenterDot; H m ( k ) &rsqb; 1 &le; m &le; M - - - ( 9 )
再次,得出MFCC,
M F C C ( n ) = 1 M &Sigma; m = 1 M Y ( m ) c o s ( n ( m - 0.5 ) &pi; M ) 1 &le; m &le; M 0 &le; n &le; N - 1 - - - ( 10 )
利用余弦反变换,即可得到Mel倒谱系数,即MFCC。
CN201610889813.XA 2016-09-30 2016-09-30 一种声音重录攻击的识别方法 Pending CN106409298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610889813.XA CN106409298A (zh) 2016-09-30 2016-09-30 一种声音重录攻击的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610889813.XA CN106409298A (zh) 2016-09-30 2016-09-30 一种声音重录攻击的识别方法

Publications (1)

Publication Number Publication Date
CN106409298A true CN106409298A (zh) 2017-02-15

Family

ID=59229297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610889813.XA Pending CN106409298A (zh) 2016-09-30 2016-09-30 一种声音重录攻击的识别方法

Country Status (1)

Country Link
CN (1) CN106409298A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108281158A (zh) * 2018-01-12 2018-07-13 平安科技(深圳)有限公司 基于深度学习的语音活体检测方法、服务器及存储介质
CN109599117A (zh) * 2018-11-14 2019-04-09 厦门快商通信息技术有限公司 一种音频数据识别方法及人声语音防重放识别系统
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110060703A (zh) * 2018-01-19 2019-07-26 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN110459226A (zh) * 2019-08-19 2019-11-15 效生软件科技(上海)有限公司 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN111445904A (zh) * 2018-12-27 2020-07-24 北京奇虎科技有限公司 基于云端的语音控制方法、装置及电子设备
CN112634942A (zh) * 2020-12-28 2021-04-09 深圳大学 一种手机录音原始性的鉴定方法、存储介质及设备
CN113782005A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
EP3016314A1 (en) * 2014-10-28 2016-05-04 Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie A system and a method for detecting recorded biometric information
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436810A (zh) * 2011-10-26 2012-05-02 华南理工大学 一种基于信道模式噪声的录音回放攻击检测方法和系统
EP3016314A1 (en) * 2014-10-28 2016-05-04 Akademia Gorniczo-Hutnicza im. Stanislawa Staszica w Krakowie A system and a method for detecting recorded biometric information
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN105513598A (zh) * 2016-01-14 2016-04-20 宁波大学 一种基于频域信息量分布的回放语音检测方法
CN105938716A (zh) * 2016-03-30 2016-09-14 浙江大学 一种基于多精度拟合的样本复制语音自动检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HAOJUN WU 等: "Identification of Electronic Disguised Voices", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107507626B (zh) * 2017-07-07 2021-02-19 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107507626A (zh) * 2017-07-07 2017-12-22 宁波大学 一种基于语音频谱融合特征的手机来源识别方法
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN108039176A (zh) * 2018-01-11 2018-05-15 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108039176B (zh) * 2018-01-11 2021-06-18 广州势必可赢网络科技有限公司 一种防录音攻击的声纹认证方法、装置及门禁系统
CN108281158A (zh) * 2018-01-12 2018-07-13 平安科技(深圳)有限公司 基于深度学习的语音活体检测方法、服务器及存储介质
CN110060703A (zh) * 2018-01-19 2019-07-26 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN110060703B (zh) * 2018-01-19 2021-05-04 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN109599117A (zh) * 2018-11-14 2019-04-09 厦门快商通信息技术有限公司 一种音频数据识别方法及人声语音防重放识别系统
CN111445904A (zh) * 2018-12-27 2020-07-24 北京奇虎科技有限公司 基于云端的语音控制方法、装置及电子设备
CN109935233A (zh) * 2019-01-29 2019-06-25 天津大学 一种基于振幅和相位信息的录音攻击检测方法
CN110459226A (zh) * 2019-08-19 2019-11-15 效生软件科技(上海)有限公司 一种通过声纹引擎检测人声或机器音进行身份核验的方法
CN112634942A (zh) * 2020-12-28 2021-04-09 深圳大学 一种手机录音原始性的鉴定方法、存储介质及设备
CN112634942B (zh) * 2020-12-28 2022-05-17 深圳大学 一种手机录音原始性的鉴定方法、存储介质及设备
CN113782005A (zh) * 2021-01-18 2021-12-10 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备
CN113782005B (zh) * 2021-01-18 2024-03-01 北京沃东天骏信息技术有限公司 语音识别方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN106409298A (zh) 一种声音重录攻击的识别方法
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN105405439B (zh) 语音播放方法及装置
CN102968986B (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
Ellis et al. Classifying soundtracks with audio texture features
US20030231775A1 (en) Robust detection and classification of objects in audio using limited training data
CN102354496B (zh) 一种基于psm变调的语音识别及其还原方法及其装置
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
Zou et al. Cell phone verification from speech recordings using sparse representation
Ghahabi et al. A robust voice activity detection for real-time automatic speech recognition
Mahesha et al. LP-Hillbert transform based MFCC for effective discrimination of stuttering dysfluencies
CN116524939A (zh) 一种基于ecapa-tdnn的鸟鸣物种自动识别方法
CN110728991A (zh) 一种改进的录音设备识别算法
Sharma et al. Visual speech recognition using optical flow and hidden Markov model
Park et al. Voice Activity Detection in Noisy Environments Based on Double‐Combined Fourier Transform and Line Fitting
CN109920447A (zh) 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法
CN112992155A (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
Kalamani et al. Review of Speech Segmentation Algorithms for Speech Recognition
Wilkinghoff et al. Two-dimensional embeddings for low-resource keyword spotting based on dynamic time warping
Rouniyar et al. Channel response based multi-feature audio splicing forgery detection and localization
Muhammad et al. Environment Recognition for Digital Audio Forensics Using MPEG-7 and Mel Cepstral Features.
Ghonem et al. Classification of stuttering events using i-vector
Zeng et al. Adaptive context recognition based on audio signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170215