CN105702263A - 语音重放检测方法和装置 - Google Patents

语音重放检测方法和装置 Download PDF

Info

Publication number
CN105702263A
CN105702263A CN201610007359.0A CN201610007359A CN105702263A CN 105702263 A CN105702263 A CN 105702263A CN 201610007359 A CN201610007359 A CN 201610007359A CN 105702263 A CN105702263 A CN 105702263A
Authority
CN
China
Prior art keywords
voice
model
low
yield
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610007359.0A
Other languages
English (en)
Other versions
CN105702263B (zh
Inventor
郑方
李蓝天
邬晓钧
王小钢
刘乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING D-EAR TECHNOLOGIES Co Ltd
Tsinghua University
Original Assignee
BEIJING D-EAR TECHNOLOGIES Co Ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING D-EAR TECHNOLOGIES Co Ltd, Tsinghua University filed Critical BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority to CN201610007359.0A priority Critical patent/CN105702263B/zh
Publication of CN105702263A publication Critical patent/CN105702263A/zh
Application granted granted Critical
Publication of CN105702263B publication Critical patent/CN105702263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种语音重放检测方法和装置,包括:根据目标用户的预留训练语音建立用户信道模型;计算待识别语音在所述用户信道模型上的信任度打分;若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。从而解决了现有说话人识别技术中语音重放攻击的问题。

Description

语音重放检测方法和装置
技术领域
本申请涉及计算机信息服务技术领域,特别是涉及一种语音重放检测方法和装置。
背景技术
说话人识别技术,又称为声纹识别技术,主要是基于语音中说话人包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。
近几年来,随着互联网的飞速发展,语音作为一种非接触性信息载体,人们可以依靠各种移动终端设备,例如:手机、麦克风和IP电话等,随时随地的完成语音采集,并通过网络传输和后台服务器来实现人机交互和说话人身份识别。
随着移动互联网时代的到来,在给予人类方便快捷的同时,也带来了许多安全隐患。如图1所示,若说话人A的语音被企图闯入者预先窃取并录制,继而将录制的语音重新播放至说话人识别系统,说话人识别系统通常将难以区分,从而导致企图闯入者成功地以说话人A的录音闯入说话人A的账号,对说话人A的账号带来极大的安全隐患。
发明内容
本申请提供一种录音重放检测方法和装置,以解决说话人识别技术中语音重放的问题。
为了解决上述问题,本申请公开了一种语音重放检测方法,包括:
依据目标用户的预留训练语音建立用户信道模型;
计算待识别语音在所述用户信道模型上的信任度打分,获得待识别语音的信任度打分;
若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。
优选地,依据目标用户的预留训练语音建立用户信道模型的步骤包括:
提取目标用户的预留训练语音的低能量语音段;
若低能量语音段的时间长度小于设定阈值,则依据信道通用背景模型自适应获取用户信道模型;反之,则采用最大期望算法直接获取用户信道模型。
优选地,所述提取目标用户的预留训练语音的低能量语音段的步骤之前还包括:
计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定为低能量语音段。
优选地,依据信道通用背景模型自适应获取用户信道模型的步骤包括:
提取目标用户的预留训练语音的低能量段的多复合声学特征;
依据最大后验概率估计算法,利用所述低能量训练语音数据的多复合特征对所述信道通用背景模型进行模型自适应更新,得到用户信道模型。
优选地,所述提取所述低能量语音段的多复合声学特征的步骤包括:
提取低能量语音段的多类语音声学特征,并拼接成高维度声学特征;
使用主成分分析PCA对高维度声学特征进行处理,获得正交化的声学特征;
使用线性判别分析LDA对正交化后的声学特征进行处理,获得低维度声学特征,将所述低维度声学特征作为多复合声学特征。
优选地,训练所述信道通用背景模型的步骤包括:
获取系统开发集语音数据的多复合声学特征;
计算多复合声学特征中每一帧声学特征在信道通用背景模型上的后验概率;
通过最大期望算法计算模型参数的极值,使其在多复合声学特征上的总体概率最大;
通过最大期望算法反复迭代使模型参数不断更新,直到得到收敛的模型参数值,将所述收敛的模型参数值对应的模型作为信道通用背景模型。
优选地,计算待识别语音在目标用户信道模型上的信任度打分的步骤包括:
提取待识别语音的低能量段的多复合声学特征;
计算每一帧多复合声学特征在目标用户信道模型上的概率似然分;
计算全部概率似然分的平均值作为待识别语音的信任度打分。
为了解决上述问题,本申请还公开了一种语音重放检测装置,包括:
用户信道模块,用于依据目标用户的预留训练语音建立用户信道模型;
计算模块,用于计算待识别语音在目标用户信道模型上的信任度打分,获得待识别语音的信任度打分;
第一判断模块,用于若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。
优选地,用户信道模块包括:
第一提取模块,用于提取目标用户的预留训练语音的低能量语音段;
多复合声学特征模块,用于提取所述低能量语音段的多复合声学特征;
第二判断模块,用于若低能量语音段的时间长度小于设定阈值,则依据信道通用背景模型自适应获取用户信道模型;反之,则采用最大期望算法直接获取用户信道模型。
优选地,第一提取模块之前还包括:第三判断模块,用于计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定为低能量语音段。
与现有技术相比,本申请包括以下优点:
本申请通过目标用户的预留训练语音建立用户信道模型,依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定的阈值比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,,从而避免了闯入者重放攻击的问题。
附图说明
图1是本申请录音重放应用场景的示意图;
图2是本申请实施例一所述一种语音重放检测方法的流程图;
图3是本申请语音数据在录音前后的时域图;
图4是本申请语音数据在录音前后的频域图;
图5是本申请实施例二所述一种语音重放检测方法的流程图;
图6是本申请一种语音重放检测方法应用的实例;
图7是本申请实施例三所述一种语音重放检测装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图2,示出了本申请实施例一所述一种语音重放检测方法的流程图,具体包括:
步骤201:依据目标用户的预留训练语音建立用户信道模型。
预先获取目标用户的预留训练语音,根据获取的目标用户的预留训练语音建立用户信道模型。
可以通过从后台服务器或者目标用户的客户端获取预留训练语音,也可以采用其他方式获取预留训练语音,对此本申请不做具体限制。
步骤202:计算待识别语音在所述用户信道模型上的信任度打分。
本申请使用用户信道模型对用户端输入的待识别语音进行信任度打分,获取待识别语音的信任度打分,根据信任度打分判断输入的待识别语音是否存在重放。
待识别语音包括录音数据、模仿语音数据和合成语音数据等等,录音数据、模仿语音数据和合成语音数据均对应有说话人的真实语音数据。
从信号处理的角度来看,即使企图闯入者使用高保真的录音设备录音说话人的语音数据,由于说话人的真实语音数据在进入说话人识别系统之前必定经过一个相同的或不同的录音和放音系统,这两个额外的系统就会对真实语音数据带来额外的频谱损伤,所以得到的录音数据必定与真实语音数据存在差异,本申请从信号处理角度出发,分析了录音重放前后语音数据的变化过程。
参见图3其示出了针对同一条语音数据在录音前后的时域图,包括:录音前的语音数据的时域图301和录音后的语音数据的时域图302。其中,录音前的语音数据是指说话人发出的真实语音数据,可以称为真实语音数据,真实语音数据是指未经过录音、模仿和合成的语音数据。
从图3中可以看出,原语音数据经过录音重放后,整体信号强度减弱,能量幅值也降低,并且信号强度减弱程度并不稳定,有的地方减弱程度较大,有的地方减弱程度相对较小。
参见图4其示出了针对同一条语言数据在录音前后的频域图,包括:录音前的语音数据的频域图401和录音后的语音数据的频域图402,从图4可以看出语音数据经过录音重放后,频域分布变得平滑,响度降低。并且从整个频域包络线可以看出,录音重放前后信号频率分布也发生了变化,因此可以从信道特性和倒谱系数分析语音数据重放。
步骤203:信任度打分与预先设置的信任度打分阈值进行比较,若小于预设的信任度打分阈值,则执行步骤204,否则执行步骤205。
其中,信任度打分阈值的设定可以由本领域技术人员采用任意适当方式进行设定,如可以采用人工经验设定阈值,或者针对历史数据的差异值设定阈值,本申请对此不作限制。
步骤204:待识别语音存在重放,返回认证失败。
步骤205:待识别语音不存在重放,通过重放检测。
通过目标用户的预留训练语音建立用户信道模型,依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定的阈值比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,,从而避免了闯入者重放攻击的问题。
实施例二
参照图5,示出了本申请实施例二所述一种语音重放检测方法的流程图,具体包括:
步骤501:依据目标用户的预留训练语音建立用户信道模型。
步骤501包括以下子步骤:
子步骤5011:计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定训练语音段为低能量语音段。
子步骤5012:提取目标用户的预留训练语音段的低能量语音段。
对目标用户的预留训练语音进行提取获取预留训练语音的低能量语音段,采用基于短时能量算法检测得到满足条件的低能量语音段。
由于低能量语音段中含有噪音,因此需要在提取低能量语音段后进行去噪处理,目前较为流行的去噪方法有谱减法、RASTA滤波法、主分量分析法等。
语音段的一个短段的能量称为短时能量,第n段的短时能量用En表示,可以利用公式(1)得到En
E n = Σ n = - ∞ ∞ [ X ( m ) w ( n - m ) ] 2 - - - ( 1 )
其中,本窗短时能量序列En反映了语音振幅或能量随时间变化的规律,w(n)代表了固定数据窗,X(m)代表了语音窗长,根据公式(1)可以计算出语音段上一组En值。
根据本窗短时能量序列可以使用公式(2)得出整个语音段的平均短时能量。
将平均短时能量与当前窗的短时能量进行比较,若连续K窗都小于平均短时能量,则认为连续K窗语音段是低能量语音段,K一般取10-20,根据实际使用环境可以进行适当的选择。
子步骤5013:若低能量语音段的时间长度小于低能量语音段的设定阈值,则执行步骤5015,若低能量语音段的时间长度大于低能量语音段的设定阈值,则执行步骤5014。
步骤5014:则采用最大期望算法直接获取用户信道模型。
步骤5015:依据信道通用背景模型自适应获取用户信道模型。
信道通用背景模型(channeluniversalbackgroundmodel,简称CUBM)的训练一般需要利用大量的不同信道下的语音来建立一个稳定的信道通用背景模型,CUBM模型中的信道信息覆盖的情况越均匀广泛,其适用性越好。
其中,低能量语音段的设定阈值可以由本领域技术人员采用任意适当方式进行设定,如可以采用人工经验设定阈值,或者针对历史数据的差异值设定阈值,本申请对此不作限制。
在得到CUBM模型后,利用用户提供的预留训练语音在CUBM上自适应得到对应用户信道模型(channelspeakermodel,简称CSM),该CSM模型代表了用户提供预留训练语音所处的信道性质。
具体地,依据信道通用背景模型自适应获取用户信道模型的步骤包括:提取目标用户的预留训练语音的低能量段的多复合声学特征。
依据最大后验概率估计算法,利用所述低能量训练语音数据的多复合特征对所述信道通用背景模型进行模型自适应更新,得到用户信道模型。
采用最大后验概率估计算法(Maximumaposteriori,简称MPA)对CUBM信道无关模型,进行信道通用背景模型自适应更新,得到用户信道相关对应的信道模型CSM。CSM模型的估计是由用户信道训练数据的平均特性和CUBM模型先验信息的一个折中,即得到的用户信道CSM模型是当前用户信道数据的期望E(X)和CUBM先验均值的加权平均得到的结果,可表示为:
λCSM=αE(X)+(1-α)λCUBM
其中,α称为信道灵敏度,取值范围在0~1之间;显然,当α趋近于1时,用户信道CSM模型更趋向于当前用户信道数据;反之CSM模型更趋向于CUBM的先验知识。在实际应用中,α通常由用户信道语音数据量的大小决定。当用户信道数据充分时,α可取值偏大;反之α取值偏小,在自适应得到用户的CSM信道模型后,将所述用户信道模型存入录音信道模型库。
子步骤5012:所述提取所述低能量语音段的多复合声学特征的步骤包括以下子步骤:50121:提取低能量语音段的多类语音声学特征,并拼接成高维度声学特征。
50122:使用主成分分析PCA对高维度声学特征进行处理,获得正交化的声学特征。
PCA算法去除声学特征的相关性按照如下的方式进行:假设输入的数据集合X,X=(x1…..xn)中维度的声学特征均是在D维空间中变动的点,则需要从这个D维空间中寻找D个相互正交的基向量,作为空间的基底来表示当前空间。
为了求解正交的基向量集合,假设其为{ui,i=1,…,D},ui为第i个正交基向量,由于这个基向量集合是完备的,所以使用公式(8)对D维空间中的变动点xn表示为基向量的线性组合。
x n = Σ i = 1 D α n i u i - - - ( 8 )
运用拉格朗日乘子法对公式(8)进行运算,得到的对应求解为:
STui=λiui
其中,矩阵ST为对训练数据的协方差矩阵,使用公式(9)计算公式ST
S T = Σ n = 1 N ( x n - μ ) ( x n - μ ) T - - - ( 9 )
其中,μ数据集合X的平均值。
通过公式(9)计算出的对应的特征向量即为所需要的正交基向量组。
通过PCA算法可以进行数据降维,因此可以用PCA算法对多种声学特征进行正交化,定义正交化的投影矩阵为WPCA,那么经过PCA变化以后,高维度的声学特征特征向量X经过变换后输出为,且投影矩阵为:
其中,WT为正交化投影矩阵W的转置。
50123:使用线性判别分析LDA对正交化后的声学特征进行处理,获得低维度声学特征,将所述低维度声学特征作为多复合声学特征。
线性判别分析LDA利用了数据上的分类标签,能够在低维空间上寻找不同类别数据间的最大区分性,先对数据进行PCA变化可以有效避免LDA计算过程中的矩阵奇异问题。
n维空间Rn上处理后的高维度的声学特征训练集为X,其中,总的数据量为N个声学特征训,总的数据类为c类,对于其中第i类(i∈[1,c])的数据样本集Xi包含Ni个数据点,所以N1+N2+...+Nc=N,通过公式(10)可以求得第i类训练集的样本均值,通过公式(10)可以求得第i类训练集的总体样本的均值分:
μ i = 1 N Σ x ∈ X i x , 1 ≤ n ≤ N - - - ( 10 )
μ = 1 N Σ i = 1 N x i - - - ( 11 )
LDA的目标是使声学特征经过投影以后,相同类的数据内聚,类间的数据尽量远离,因此通过公式(12)计算各类的相同类内离散度SW和通过公式(13)计算不同类之间的类间离散度SB
S W = Σ i = 1 c Σ x k ∈ X i ( x k - μ i ) ( x k - μ i ) T - - - ( 12 )
S B = Σ i = 1 c N i ( μ i - μ ) ( μ i - μ ) T - - - ( 13 )
定义从Rn空间上向低维空间投影的矩阵为W,那么投影以后的类内离散度和类间离散度为:
S ~ W = W T S W W , S ~ B = W T S B W
所以LDA的优化准则就是类间离散度与类内离散度的比值的最大化,即:
W L D A = arg m a x | W T S B W | | W T S W W |
优选地,训练所述信道通用背景模型的步骤包括:
获取系统开发集语音数据的多复合声学特征。
计算多复合声学特征中每一帧声学特征在信道通用背景模型上的后验概率。
通过最大期望算法计算模型参数的极值,使其在多复合声学特征上的总体概率最大。
采用最大期望算法(ExpectationMaximization,简称EM),定义训练CUBM模型的语音数据的多复合信道特征集合为X,共有T帧,即,X=(x1,x2…xt..xT),xt是第t帧信道特征矢量,则定义CUBM模型的初始参数为λ,则特征集合X在该模型上的概率分布可表示为:
EM算法依据最大似然准则,通过不断迭代使得当前特征集X在该CUBM模型参数λ上的似然概率最大。即为
通过最大期望算法反复迭代使模型参数不断更新,直到得到收敛的模型参数值,将所述收敛的模型参数值对应的模型作为信道通用背景模型。
步骤502:计算待识别语音在所述用户信道模型上的信任度打分,获得待识别语音的信任度打分。
可以采用以下方式获得待识别语音的信任度打分:
使用录音信道模型库计算所述待识别语音的多复合声学特征的概率似然分,获得第一概率似然分;
使用信道通用背景模型计算所述待识别语音的多复合声学特征的概率似然分,获得第二概率似然分;
计算所述第一概率似然分与所述第二概率似然分的差值,若所述差值小于设定阈值,则待识别语音存在重放,反之,在待识别语音不存在重放。
或者
提取待识别语音的低能量段的多复合声学特征。
计算每一帧多复合声学特征在目标用户信道模型上的概率似然分。
计算全部概率似然分的平均值作为待识别语音信任度打分。
步骤503:若信任度打分与预先设置的信任度打分阈值进行比较,若小于预设的信任度打分阈值,则执行步骤504,否则执行步骤505。
其中,预先设置的信任度打分阈值的设定可以由本领域技术人员采用任意适当方式进行设定,如可以采用人工经验设定阈值,或者针对历史数据的差异值设定阈值,本申请对此不作限制。
步骤504:待识别语音存在重放,返回认证失败。
步骤505:待识别语音不存在重放,通过重放检测。
本实施例,通过目标用户的预留训练语音建立用户信道模型,依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定的阈值比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,从而避免了闯入者重放攻击的问题。为了本领域技术人员更好的理解本申请限定的技术方案,
参见图6所述本申请所述一种语音重放检测方法的应用的实例。
在实际应用中,本发明可作为说话人识别系统的前端,即增设了一个录音重放检测模块,具体如下图6所示:
在实际应用中,将依据目标用户的预留训练语音建立的用户信道模块以及根据信道通用背景模型自适应获取用户信道模型集成在目标用户的录音重放检测模块。在测试阶段,计算待识别语音在用户信道模型上的信任度打分,获取待识别语音的信任度打分,若所述信任度打分小于设定阈值,则认定待识别语音存在重放,直接将待识别语音拒绝;反之,待识别语音通过录音重放模块进入说话人识别系统,进行说话人的身份认证和识别。
基于上述方法实施例的说明,本申请还提供了相应的一种语音重放检测装置的实施例,来实现上述方法实施例所述的内容。
实施例三
参见图7,示出了本申请实施例三中的一种语音重放装置的结构框图,具体可以包括:用户信道模块701,用于根据目标用户的预留训练语音建立用户信道模型。
计算模块702,用于计算待识别语音在目标用户信道模型上的信任度打分。
第一判断模块703,用于若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。
优选地,用户信道模块包括:第一提取模块,用于提取目标用户的预留训练语音的低能量语音段。
多复合声学特征模块,用于提取所述低能量语音段的多复合声学特征。
第二判断模块,用于若低能量语音段的时间长度小于设定阈值,则根据信道通用背景模型自适应获取用户信道模型;反之,则采用最大期望算法直接获取用户信道模型。
优选地,第一提取模块之前还包括:第三判断模块,用于计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定为低能量语音段。
优选地,所述多复合声学特征模块包括:拼接模块,用于提取低能量语音段的多类语音声学特征,并拼接成高维度声学特征。
主成分分析模块,用于使用主成分分析PCA对高维度声学特征进行处理,获得正交化的声学特征。
线性判别分析模块,用于使用线性判别分析LDA对正交化后的声学特征进行处理,获得低维度声学特征,将所述低维度声学特征作为多复合声学特征。
优选地,第二判断模块,用于若低能量语音段的时间长度小于设定阈值,则根据信道通用背景模型自适应获取用户信道模型包括:
第二提取模块,用于第二判断模块,用于若低能量语音段的时间长度小于设定阈值,则根据信道通用背景模型自适应获取用户信道模型。
自适应模块,用于根据最大后验概率估计算法,利用所述低能量训练语音数据的多复合特征对所述信道通用背景模型进行模型自适应更新,得到用户信道模型。
优选地,所述训练所述信道通用背景模型包括:
开发集模块,用于获取系统开发集语音数据的多复合声学特征;
后验模块,用于计算多复合声学特征中每一帧声学特征在信道通用背景模型上的后验概率;
概率模块,用于通过最大期望算法计算模型参数的极值,使其在多复合声学特征上的总体概率最大;
更新模块,用于通过最大期望算法反复迭代使模型参数不断更新,直到得到收敛的模型参数值,将所述收敛的模型参数值对应的模型作为信道通用背景模型。
优选地,计算模块包括:
第三提取模块,用于提取待识别语音的低能量段的多复合声学特征;
概率似然分模块,用于计算每一帧多复合声学特征在目标用户信道模型上的概率似然分;
输出模块,用于计算全部概率似然分的平均值作为待识别语音的录信任度打分。
本实施例,通过目标用户的预留训练语音建立用户信道模型,依据用户信道模型计算待识别语音的信任度打分,将信任度打分与设定阈值的比较,若信任度打分小于设定阈值,则认定待识别语音存在重放,返回待识别语音认证失败,反之,则通过重放检测,即待识别语音认证成功,通过计算待识别语音在所述用户信道模型上的信任度打分,从而避免了闯入者重放攻击的问题。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
以上对本申请所提供的一种录音重放检测方法和装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种语音重放检测方法,其特征在于,包括:
依据目标用户的预留训练语音建立用户信道模型;
计算待识别语音在所述用户信道模型上的信任度打分,获得待识别语音的信任度打分;
若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。
2.根据权利要求1所述的方法,依据目标用户的预留训练语音建立用户信道模型的步骤包括:
提取目标用户的预留训练语音的低能量语音段;
若低能量语音段的时间长度小于设定阈值,则根据信道通用背景模型自适应获取用户信道模型;反之,则采用最大期望算法直接获取用户信道模型。
3.根据权利要求2所述的方法,其特征在于,所述提取目标用户的预留训练语音的低能量语音段的步骤之前还包括:
计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定为低能量语音段。
4.根据权利要求2所述的方法,其特征在于,依据信道通用背景模型自适应获取用户信道模型的步骤包括:
提取目标用户的预留训练语音的低能量语音段的多复合声学特征;
依据最大后验概率估计算法,利用所述低能量训练语音数据的多复合特征对所述信道通用背景模型进行模型自适应更新,得到用户信道模型。
5.根据权利要求4所述的方法,其特征在于,所述提取所述低能量语音段的多复合声学特征的步骤包括:
提取低能量语音段的多类语音声学特征,并拼接成高维度声学特征;
使用主成分分析PCA对高维度声学特征进行处理,获得正交化的声学特征;
使用线性判别分析LDA对正交化后的声学特征进行处理,获得低维度声学特征,将所述低维度声学特征作为多复合声学特征。
6.根据权利要求2所述的方法,其特征在于,训练所述信道通用背景模型的步骤包括:
获取系统开发集语音数据的多复合声学特征;
计算多复合声学特征中每一帧声学特征在信道通用背景模型上的后验概率;
通过最大期望算法计算模型参数的极值,使其在多复合声学特征上的总体概率最大;
通过最大期望算法反复迭代使模型参数不断更新,直到得到收敛的模型参数值,将所述收敛的模型参数值对应的模型作为信道通用背景模型。
7.根据权利要求1所述的方法,其特征在于,计算待识别语音在目标用户信道模型上的信任度打分的步骤包括:
提取待识别语音的低能量段的多复合声学特征;
计算每一帧多复合声学特征在目标用户信道模型上的概率似然分;
计算全部概率似然分的平均值作为待识别语音信任度打分。
8.一种语音重放检测装置,其特征在于,包括:
用户信道模块,用于依据目标用户的预留训练语音建立用户信道模型;
计算模块,用于计算待识别语音在目标用户信道模型上的信任度打分,获得待识别语音的信任度打分;
第一判断模块,用于若所述信任度打分小于设定阈值,则认定待识别语音存在重放,返回认证失败;反之,通过重放检测。
9.根据权利要求8所述的装置,用户信道模块包括:
第一提取模块,用于提取目标用户的预留训练语音的低能量语音段;
多复合声学特征模块,用于提取所述低能量语音段的多复合声学特征;
第二判断模块,用于若低能量语音段的时间长度小于设定阈值,则根据信道通用背景模型自适应获取用户信道模型;反之,则采用最大期望算法直接获取用户信道模型。
10.根据权利要求9所述的方法,其特征在于,第一提取模块之前还包括:
第三判断模块,用于计算当前预留训练语音段的采样值的平方和得到当前预留训练语音段的能量,若所述能量低于设定阈值,则认定为低能量语音段。
CN201610007359.0A 2016-01-06 2016-01-06 语音重放检测方法和装置 Active CN105702263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610007359.0A CN105702263B (zh) 2016-01-06 2016-01-06 语音重放检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610007359.0A CN105702263B (zh) 2016-01-06 2016-01-06 语音重放检测方法和装置

Publications (2)

Publication Number Publication Date
CN105702263A true CN105702263A (zh) 2016-06-22
CN105702263B CN105702263B (zh) 2019-08-30

Family

ID=56226168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610007359.0A Active CN105702263B (zh) 2016-01-06 2016-01-06 语音重放检测方法和装置

Country Status (1)

Country Link
CN (1) CN105702263B (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
CN107545028A (zh) * 2017-07-17 2018-01-05 宁波市智能制造产业研究院 一种数据处理方法、装置及电子设备
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN110414536A (zh) * 2019-07-17 2019-11-05 北京得意音通技术有限责任公司 数据特征提取方法、录音重放检测方法、存储介质和电子设备
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN110785809A (zh) * 2017-06-28 2020-02-11 思睿逻辑国际半导体有限公司 重放攻击的磁检测
CN111316668A (zh) * 2017-11-14 2020-06-19 思睿逻辑国际半导体有限公司 扬声器回放的检测
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN112116742A (zh) * 2020-08-07 2020-12-22 西安交通大学 融合用户多源发声特征的身份认证方法、存储介质及设备
US10984083B2 (en) 2017-07-07 2021-04-20 Cirrus Logic, Inc. Authentication of user using ear biometric data
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
US11017252B2 (en) 2017-10-13 2021-05-25 Cirrus Logic, Inc. Detection of liveness
US11023755B2 (en) 2017-10-13 2021-06-01 Cirrus Logic, Inc. Detection of liveness
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
US11042617B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11042616B2 (en) 2017-06-27 2021-06-22 Cirrus Logic, Inc. Detection of replay attack
US11042618B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
CN113035230A (zh) * 2021-03-12 2021-06-25 北京百度网讯科技有限公司 认证模型的训练方法、装置及电子设备
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11270707B2 (en) 2017-10-13 2022-03-08 Cirrus Logic, Inc. Analysing speech signals
US11276409B2 (en) 2017-11-14 2022-03-15 Cirrus Logic, Inc. Detection of replay attack
WO2022052965A1 (zh) * 2020-09-10 2022-03-17 达闼机器人有限公司 语音重放攻击检测方法、装置、介质、设备及程序产品
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
US11631402B2 (en) 2018-07-31 2023-04-18 Cirrus Logic, Inc. Detection of replay attack
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1194427A (zh) * 1997-03-26 1998-09-30 德国汤姆逊-布朗特公司 对设备进行语音操作遥控的方法和装置
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN1811916A (zh) * 2005-01-24 2006-08-02 乐金电子(惠州)有限公司 语音识别系统的发音验证方法
CN101594123A (zh) * 2009-06-26 2009-12-02 中国人民解放军信息工程大学 建立等效并联滤波器的方法、话音传输方法、装置及系统
CN101996675A (zh) * 2009-08-11 2011-03-30 福特全球技术公司 车辆系统声音重放的方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
JP2013140204A (ja) * 2011-12-28 2013-07-18 Rohm Co Ltd 音響装置
US20130253924A1 (en) * 2012-03-23 2013-09-26 Kabushiki Kaisha Toshiba Speech Conversation Support Apparatus, Method, and Program
CN103596209A (zh) * 2013-11-28 2014-02-19 哈尔滨工业大学 认知无线电通信系统中认知用户对授权用户基于能量感知的参数估计方法
CN104575579A (zh) * 2013-10-24 2015-04-29 拓集科技股份有限公司 语音管理方法及语音管理系统
CN104599678A (zh) * 2013-10-30 2015-05-06 语冠信息技术(上海)有限公司 口语发音评价系统及方法
CN104995676A (zh) * 2013-02-14 2015-10-21 杜比实验室特许公司 音频处理系统中的信号去相关
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1194427A (zh) * 1997-03-26 1998-09-30 德国汤姆逊-布朗特公司 对设备进行语音操作遥控的方法和装置
CN1811916A (zh) * 2005-01-24 2006-08-02 乐金电子(惠州)有限公司 语音识别系统的发音验证方法
CN1652206A (zh) * 2005-04-01 2005-08-10 郑方 一种声纹识别方法
CN101594123A (zh) * 2009-06-26 2009-12-02 中国人民解放军信息工程大学 建立等效并联滤波器的方法、话音传输方法、装置及系统
CN101996675A (zh) * 2009-08-11 2011-03-30 福特全球技术公司 车辆系统声音重放的方法
CN102024455A (zh) * 2009-09-10 2011-04-20 索尼株式会社 说话人识别系统及其方法
CN102231277A (zh) * 2011-06-29 2011-11-02 电子科技大学 基于声纹识别的移动终端隐私保护方法
JP2013140204A (ja) * 2011-12-28 2013-07-18 Rohm Co Ltd 音響装置
US20130253924A1 (en) * 2012-03-23 2013-09-26 Kabushiki Kaisha Toshiba Speech Conversation Support Apparatus, Method, and Program
CN102915731A (zh) * 2012-10-10 2013-02-06 百度在线网络技术(北京)有限公司 一种个性化的语音识别的方法及装置
CN104995676A (zh) * 2013-02-14 2015-10-21 杜比实验室特许公司 音频处理系统中的信号去相关
CN104575579A (zh) * 2013-10-24 2015-04-29 拓集科技股份有限公司 语音管理方法及语音管理系统
CN104599678A (zh) * 2013-10-30 2015-05-06 语冠信息技术(上海)有限公司 口语发音评价系统及方法
CN103596209A (zh) * 2013-11-28 2014-02-19 哈尔滨工业大学 认知无线电通信系统中认知用户对授权用户基于能量感知的参数估计方法
CN105118503A (zh) * 2015-07-13 2015-12-02 中山大学 一种音频翻录检测方法
CN105185372A (zh) * 2015-10-20 2015-12-23 百度在线网络技术(北京)有限公司 个性化多声学模型的训练方法、语音合成方法及装置

Cited By (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409298A (zh) * 2016-09-30 2017-02-15 广东技术师范学院 一种声音重录攻击的识别方法
CN106531172B (zh) * 2016-11-23 2019-06-14 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
CN106531172A (zh) * 2016-11-23 2017-03-22 湖北大学 基于环境噪声变化检测的说话人语音回放鉴别方法及系统
US11042616B2 (en) 2017-06-27 2021-06-22 Cirrus Logic, Inc. Detection of replay attack
US11164588B2 (en) 2017-06-28 2021-11-02 Cirrus Logic, Inc. Magnetic detection of replay attack
US11704397B2 (en) 2017-06-28 2023-07-18 Cirrus Logic, Inc. Detection of replay attack
CN110785809A (zh) * 2017-06-28 2020-02-11 思睿逻辑国际半导体有限公司 重放攻击的磁检测
US10984083B2 (en) 2017-07-07 2021-04-20 Cirrus Logic, Inc. Authentication of user using ear biometric data
US11829461B2 (en) 2017-07-07 2023-11-28 Cirrus Logic Inc. Methods, apparatus and systems for audio playback
US11714888B2 (en) 2017-07-07 2023-08-01 Cirrus Logic Inc. Methods, apparatus and systems for biometric processes
US11755701B2 (en) 2017-07-07 2023-09-12 Cirrus Logic Inc. Methods, apparatus and systems for authentication
US11042618B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
US11042617B2 (en) 2017-07-07 2021-06-22 Cirrus Logic, Inc. Methods, apparatus and systems for biometric processes
CN107545028A (zh) * 2017-07-17 2018-01-05 宁波市智能制造产业研究院 一种数据处理方法、装置及电子设备
US11017252B2 (en) 2017-10-13 2021-05-25 Cirrus Logic, Inc. Detection of liveness
US11270707B2 (en) 2017-10-13 2022-03-08 Cirrus Logic, Inc. Analysing speech signals
US11705135B2 (en) 2017-10-13 2023-07-18 Cirrus Logic, Inc. Detection of liveness
US11023755B2 (en) 2017-10-13 2021-06-01 Cirrus Logic, Inc. Detection of liveness
CN107886956A (zh) * 2017-11-13 2018-04-06 广州酷狗计算机科技有限公司 音频识别方法、装置及计算机存储介质
US11051117B2 (en) 2017-11-14 2021-06-29 Cirrus Logic, Inc. Detection of loudspeaker playback
CN111316668B (zh) * 2017-11-14 2021-09-28 思睿逻辑国际半导体有限公司 扬声器回放的检测
US11276409B2 (en) 2017-11-14 2022-03-15 Cirrus Logic, Inc. Detection of replay attack
CN111316668A (zh) * 2017-11-14 2020-06-19 思睿逻辑国际半导体有限公司 扬声器回放的检测
US11264037B2 (en) 2018-01-23 2022-03-01 Cirrus Logic, Inc. Speaker identification
US11735189B2 (en) 2018-01-23 2023-08-22 Cirrus Logic, Inc. Speaker identification
US11694695B2 (en) 2018-01-23 2023-07-04 Cirrus Logic, Inc. Speaker identification
US11475899B2 (en) 2018-01-23 2022-10-18 Cirrus Logic, Inc. Speaker identification
CN108364656B (zh) * 2018-03-08 2021-03-09 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
CN108364656A (zh) * 2018-03-08 2018-08-03 北京得意音通技术有限责任公司 一种用于语音重放检测的特征提取方法及装置
US11631402B2 (en) 2018-07-31 2023-04-18 Cirrus Logic, Inc. Detection of replay attack
US11748462B2 (en) 2018-08-31 2023-09-05 Cirrus Logic Inc. Biometric authentication
US11037574B2 (en) 2018-09-05 2021-06-15 Cirrus Logic, Inc. Speaker recognition and speaker change detection
CN111968620B (zh) * 2019-05-20 2024-05-28 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN111968620A (zh) * 2019-05-20 2020-11-20 北京声智科技有限公司 算法的测试方法、装置、电子设备及存储介质
CN110414536B (zh) * 2019-07-17 2022-03-25 北京得意音通技术有限责任公司 录音重放检测方法、存储介质和电子设备
CN110414536A (zh) * 2019-07-17 2019-11-05 北京得意音通技术有限责任公司 数据特征提取方法、录音重放检测方法、存储介质和电子设备
CN110706712A (zh) * 2019-10-12 2020-01-17 四川虹微技术有限公司 家居环境下的录音重放检测方法
CN111755014B (zh) * 2020-07-02 2022-06-03 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN111755014A (zh) * 2020-07-02 2020-10-09 四川长虹电器股份有限公司 一种领域自适应的录音重放攻击检测方法及系统
CN112116742A (zh) * 2020-08-07 2020-12-22 西安交通大学 融合用户多源发声特征的身份认证方法、存储介质及设备
WO2022052965A1 (zh) * 2020-09-10 2022-03-17 达闼机器人有限公司 语音重放攻击检测方法、装置、介质、设备及程序产品
CN112735381A (zh) * 2020-12-29 2021-04-30 四川虹微技术有限公司 一种模型更新方法及装置
CN113035230A (zh) * 2021-03-12 2021-06-25 北京百度网讯科技有限公司 认证模型的训练方法、装置及电子设备

Also Published As

Publication number Publication date
CN105702263B (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN105702263A (zh) 语音重放检测方法和装置
US10847171B2 (en) Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
CN105405439B (zh) 语音播放方法及装置
EP3479377B1 (en) Speech recognition
US20150199960A1 (en) I-Vector Based Clustering Training Data in Speech Recognition
US20200111481A1 (en) Speech recognition using neural networks
US7263485B2 (en) Robust detection and classification of objects in audio using limited training data
US9257121B2 (en) Device and method for pass-phrase modeling for speaker verification, and verification system
Ji et al. Ensemble Learning for Countermeasure of Audio Replay Spoofing Attack in ASVspoof2017.
US9218821B2 (en) Measuring content coherence and measuring similarity
CN108417201B (zh) 单信道多说话人身份识别方法及系统
US9595260B2 (en) Modeling device and method for speaker recognition, and speaker recognition system
CN112634935B (zh) 语音分离方法、装置、电子设备和可读存储介质
EP3486903A1 (en) Identity vector generating method, computer apparatus and computer readable storage medium
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
CN109346084A (zh) 基于深度堆栈自编码网络的说话人识别方法
CN111583906A (zh) 一种语音会话的角色识别方法、装置及终端
CN111312286A (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN107358947A (zh) 说话人重识别方法及系统
CN104732972A (zh) 一种基于分组统计的hmm声纹识别签到方法及系统
CN107274892A (zh) 说话人识别方法及装置
McLaren et al. Softsad: Integrated frame-based speech confidence for speaker recognition
US10063966B2 (en) Speech-processing apparatus and speech-processing method
Büyük Sentence‐HMM state‐based i‐vector/PLDA modelling for improved performance in text dependent single utterance speaker verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant