CN108364656A - 一种用于语音重放检测的特征提取方法及装置 - Google Patents

一种用于语音重放检测的特征提取方法及装置 Download PDF

Info

Publication number
CN108364656A
CN108364656A CN201810191512.9A CN201810191512A CN108364656A CN 108364656 A CN108364656 A CN 108364656A CN 201810191512 A CN201810191512 A CN 201810191512A CN 108364656 A CN108364656 A CN 108364656A
Authority
CN
China
Prior art keywords
voice signal
feature
regular
energy
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810191512.9A
Other languages
English (en)
Other versions
CN108364656B (zh
Inventor
郑方
李通旭
邬晓钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING D-EAR TECHNOLOGIES Co Ltd
Original Assignee
BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING D-EAR TECHNOLOGIES Co Ltd filed Critical BEIJING D-EAR TECHNOLOGIES Co Ltd
Priority to CN201810191512.9A priority Critical patent/CN108364656B/zh
Publication of CN108364656A publication Critical patent/CN108364656A/zh
Application granted granted Critical
Publication of CN108364656B publication Critical patent/CN108364656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种用于语音重放检测的特征提取方法及装置,该方法包括:对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5‑SFED(1.5Spectrum Fuse Energy Distribution)特征。本发明提高了语音重放检测的准确性。

Description

一种用于语音重放检测的特征提取方法及装置
技术领域
本发明涉及计算机信息服务技术领域,具体而言,涉及一种语音重放检测的特征提取方法及装置。
背景技术
说话人识别技术又称为声纹识别技术,主要是基于语音中说话人所包含的个性特征的信息,利用计算机以及各种信息识别技术,自动地实现说话人身份的确认。
近几年,随着互联网的飞速发展,语音作为一种非接触信息载体,人们可以依靠各种移动终端设备,例如:手机、麦克风和IP电话等,随时随地的完成语音采集,并通过网络传输和后台服务来实现人机交互和说话人识别。
互联网在给予人们方便快捷的同时,也带来了许多安全隐患。若说话人A的语音被企图闯入者预先窃取并录制,继而将录制的语音重新播放或经拼接处理后重新播放至说话人识别系统,说话人识别系统通常难以区分,从而导致企图闯入者成功地以说话人A的录音闯入说话人A的账号,进而对说话人A的账号带来了极大的安全隐患。
相关技术中,为了避免录音重放闯入,一种是建立用户信道模型,将用户与特定信道绑来进行语音重放检测。一种是辅以语音识别技术来进行语音重放检测。在进行语音检测的过程中,语音检测系统通过采用随机挑选的提示语句让待识别用户跟读,或者采用随机挑选的提示问题让待识别用户回答,并通过判断待识别用户跟读或者回答的内容是否与语音检测系统展示给待识别用户需要跟读或回答问题的内容是否一致,对待识别用户的身份进行验证。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
通过建立说话人信道模型的语音重放检测的方法,受到说话人和特定信道的限制,不能在未知用户身份或信道的情况下,获得好的语音重放检测效果,应用不具有普遍性。用语音识别技术来进行语音重放检测,当待识别用户口音严重或者有自己特殊发音习惯时,语音识别系统有可能不能正确识别出待识别用户发出的语音内容,不能进行更有效的特征提取,降低了身份验证的性能。
发明内容
有鉴于此,本发明的目的在于提供一种用于语音重放检测的特征提取方法及装置,能够准确的提取重放语音的特征,以提高说话人识别中的闯入者语音重放攻击检测的效率。
第一方面,本发明实施例提供了一种用于语音重放检测的特征提取方法,包括:
对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后语音信号的能量分布特征之前,还包括:
对所述语音信号进行语音活动检测,检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后语音信号的能量分布特征之前,还包括:
对去除静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱。
结合第一方面、第一方面的第一种可能的实施方式或第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征,包括:
对获取的语音信号进行采样,并按照语音信号的播放时间顺序将采样得到的语音采样值均匀分成不同的采样段;其中,每个采样段中分别包括多个语音采样值;
根据每个采样段中的多个语音采样值,分别计算各采样段的三阶累积量;
计算语音信号的所有采样段的三阶累积量的累积量平均值,将所述累积量平均值作为所述语音信号的三阶累积量估计值;
对所述语音信号的三阶累积量估计值进行双谱估计,得到所述语音信号的双谱特征;
对语音信号的双谱特征进行投影操作,得到语音信号的1.5维谱特征。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征,具体包括:
将所述语音信号的1.5维谱特征和规整后的能量分布特征采用线性叠加的方式进行特征融合,得到融合后的声学特征;
对所述融合后的声学特征进行降维度处理。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述方法还包括:利用如第一方面任一所述的方法分别获得训练样本中原始语音信号和重放语音信号的1.5SFED特征参数,构建二元分类器。
结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述方法,还包括:当获取用户新的语音信号时,对新的语音信号提取语音重放检测特征,然后基于所述二元分类器,检测该新的语音信号是否为重放语音。
第二方面,本发明实施例还提供了一种用于语音重放检测的特征提取装置,包括:
估计模块,用于对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
规整模块,用于采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
融合模块,用于对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述装置,还包括:检测模块,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对所述语音信号进行语音活动检测,检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述装置,还包括:滤波模块,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对去除静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱。
本发明实施例提供的一种用于语音重放检测的特征提取方法及装置,采用对获取的语音信号进行1.5维普估计,得到语音信号的1.5维普特征,然后采用弯折函数对语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;最终对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征,应用该SFED特征即可判断该语音信息是否是重放语音,该方法能够准确的对语音信号进行特征提取,进而提高语音重放检测的准确性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例中所提供的一种用于语音重放检测的特征提取方法的应用场景示意图;
图2示出了本发明一个实施例所提供一种用于语音重放检测的特征提取方法的流程图;
图3示出了本发明另一个实施例所提供一种用于语音重放检测的特征提取方法的流程图;
图4示出了本发明一个实施例所提供的一种提取1.5维普特征方法的流程示意图;
图5示出了本发明一个实施例所提供的一种用于语音重放检测的特征提取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在通过对说话人语音进行识别的过程中,不法分子可能会使用提前录制的语音进行重复播放以冒充用户本人进行语音识别;在现有技术中,进行语音重复播放检测时,一种是建立说话人信道模型,另一种是辅以语音识别技术来进行语音检测,通过建立说话人信道模型的语音重放检测的方法,受到说话人和特定信道的限制,不能在未知用户身份或信道的情况下,获得好的语音重放检测效果,应用不具有普遍性。用语音识别技术来进行语音重放检测,当待识别用户口音严重或者有自己特殊发音习惯时,语音识别系统不能有效地进行特征提取,进而导致不能正确识别出待识别用户发出的语音内容,降低了身份验证的性能;基于此,本发明实施例提供了一种语音重放检测的特征提取方法和装置,下面通过实施例进行描述。
语音重放过程相比直接进行语音采集的过程会多经过隐藏麦克风以及重放扬声器,所以语音重放过程会引入更多的噪音、混响和强的非线性特性(例如扬声器的互调失真和谐波失真等),同时由于扬声器的幅频特性(特别是移动终端的扬声器,由于受到尺寸大小和性能等限制,在低频段和高频段的幅频响应很差),语音重放过程中重放扬声器的幅频特性会对说话人语音频段能量的分布产生的影响,使得语音重放后语音频带能量分布与原始语音的频带能量分布产生差异,进而语音重放后得到的语音频带能量特征差异可以作为语音重放检测的重要依据。所以,在本发明中提出的方法中,在1.5维谱特征的基础上引入频带能量特征对用户语音进行更加全面的检测,以提高检测的准确性。
参见图1所示的防语音重放说话人识别场景示意图,语音重放检测作为本实施例提出的语音重放检测的特征提取方法的应用场景。
通过对训练数据中的原始语音和重放语音采用本发明提出的语音重放检测的特征提取方法训练二元分类器,将该二元分类器用于检测重放语音。
在获取待测语音后,经过语音重放检测,检测出该待测语音是原始语音还是重放语音。如果待测语音是重放语音,则预警有重放语音闯入;如果待测语音是原始语音,则进入说话人识别系统做后续处理,对说话人进行身份识别。
下面通过实施例来具体介绍上述的用于语音重放检测的特征提取方法。
参照图2所示,本实施例中提供了一种用语音重放检测的特征提取方法,该方法包括如下步骤:
S101、对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
语音信号中一般都包含有效语音段和静音段。在对说话人语音识别过程中,对语音信号进行预处理时通常会把语音信号中的静音段剪裁掉,然后把剪裁掉静音段后剩余的有效语音段进行重新拼接,然后进行后续处理。但是实际情况中,语音信号中的静音段也包含了该语音信号是否为重放语音的重要痕迹信息,剪裁掉静音段会导致语音重放检测性能的下降。为了提高检测性能,本实施例提出的语音重放检测的特征提取方法中:对上述语音信号进行1.5维谱估计时处理的语音信号,包括:有效语音段和静音段;即在对语音数据进行1.5维谱估计前,不进行语音活动检测(Voice Activity Detection,VAD),保留语音信号的静音段数据。
具体的,参照图4所示,上述对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征,包括如下步骤:
S1011、对获取的语音信号(该语音信号包括静音段数据)进行采样,并按照语音信号的播放时间顺序将采样得到的语音采样值均匀分成不同的采样段;其中,每个采样段中分别包括多个语音采样值;
S1012、根据每个采样段中的多个语音采样值,分别计算各采样段的三阶累积量;
S1013、计算语音信号的所有采样段的三阶累积量的累积量平均值,将所述累积量平均值作为所述语音信号的三阶累积量估计值;
S1014、对所述语音信号的三阶累积量估计值进行双谱估计,得到所述语音信号的双谱特征;
S1015、对上述语音信号的双谱特征进行投影操作,得到语音信号的1.5维谱特征。
在上述步骤S1011中,获取语音信号后,对获取的语音信号进行采样,根据预设的语音采样段时长,将采样后的录音数据分为不同的语音采样段。比如:语音采样段时长为1秒时,录音数据为12秒,那么录音重放检测装置就会以1秒时长为单位,将录音数据分为12个不同的语音采样段,每个语音采样段内包含有多个采样值。
各语音采样段分别包括的语音采样值的数量相同,均为预设数量。
在上述步骤S1012中,通过以下公式(1)计算各语音采样段的三阶累积量ci(k,l):
其中,i表示第几个语音采样段,K表示语音采样段的总个数,M1,M2的取值与预设的延迟量有关,M1和M2计算公式为以下公式(2):
其中,k和l分别表示预设的延迟量,M表示各语音采样段中语音采样值的数量,xi(n)表示第i个语音采样段,K表示语音采样段的数量。
在上述步骤S1013中,通过以下公式3计算三阶累积量估计
其中,L<M-1,表示二维窗函数;分别表示傅立叶变换的两个频率因子。
上述双谱特征是三阶累积量进行二维傅立叶变换后得到的结果。双谱特征的特点是维数高,若直接使用双谱特征进行说话人认证录音重放检测,会使检测计算量较大、计算耗时且检测效果较差。所以,为了提高检测效果且降低检测计算量,本实施例提出的方法中,对上述语音信号的双谱特征进行投影操作,得到语音信号的低维度的1.5维谱特征。
示例性地,若各语音采样段中任一语音采样段中的语音采样值为x(1),x(2),…x(τ1),…x(τ2),…x(M),其中,τ1∈[1,M],τ2∈[1,M],那么该语音采样段的三阶累积量为c3x12);取一组特殊的滞后τ1=τ2=τ,τ∈[1,M],对c3x12)进行傅立叶变换,也就是对双谱进行对角切片操作,得到低维度的1.5维普。
通过上述可以看出,应该是对各语音采样段的三阶累积量取一组特殊的滞后进行傅立叶变换,实现对录音数据的双谱特征进行降维操作,得到1.5维谱;在对用户进行录音重放检测时使用录音数据的1.5维谱特征,可以降低检测计算量且提高检测效果,有利于应用。
S102、采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
具体的,对所述语音信号进行语音活动检测(Voice Activity Detection,VAD),检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据,参照图3所示。
对上述去除了静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱。
利用一组三角窗滤波器对所述频谱进行滤波,得到能量分布函数,然后采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后语音信号的能量分布特征。
上述对语音信号进行预加重、分帧、加窗、快速傅里叶变换处理,快速傅里叶变换就是将时域语音信号变换到频域中,得到频域中的语音信号,即语音信号的频谱;用一组非线性分布的三角带通滤波器进行滤波,该组三角带通滤波器在“梅尔刻度”的频率上是平均分布的,得到原始频率下三角滤波器频带组的起始和截止频率;通过训练集实现原始频率到弯折频率在每个三角带通滤波器频带上的映射,通过训练集计算原始频率到弯折频率的映射函数;通过弯折函数分别计算各语音采样段所在频带的频带能量,得到能量分布函数;根据计算得到的各语音采样段所在不同频带的频带能量,得到上述语音信号的频带能量特征。
频率弯折函数是一个在频率空间的分段映射函数,通过移动三角频率箱的中心频率的位置得到每段弯折函数的边界。对于每段弯折函数通过训练数据实现原始频率到弯折频率的映射。通过分段映射的方式降低原始语音和重放语音不同录音重放设备、不同说话人和语音内容等变化因素带来的影响,提高了类间差异,降低了类内差异
上述,通过以下公式(5)对各语音采样段所在频带的频带能量E(b)进行分别计算:
其中,X(f)表示语音信号在第b个频带内的快速傅立叶变换,d表示第b个三角滤波器频带的带宽,g表示频带的个数(三角滤波器组个数)。
上述语音信号的频带能量特征FE可由以下公式(6)表示:
FE={E(1),E(2),…,E(g)} (6)
通过以上的描述可以看出,语音重放检测中的语音数据的频带能量特征就是由经过频率弯折后各语音采样段所在频带的频带能量所组成的数组。
S103、将上述提取的1.5维谱特征和规整后的分段能量特征采用线性叠加的方式进行特征融合,得到1.5SFED(1.5Spectrum Fuse Energy Distribution)特征。具体地,包括以下步骤(1)和步骤(2):
步骤(1)、将所述语音信号的1.5维谱特征和规整后的能量分布特征采用线性叠加的方式进行特征融合,得到融合后的声学特征;具体的,可以是对上述录音数据的1.5维谱特征与上述规整后的频带能量特征分别进行归一化处理;
步骤(2)、对所述融合后的声学特征进行降维度处理,得到1.5SFED(1.5SpectrumFuse Energy Distribution)特征。
本实施例中,可以使用主成分分析PCA对融合后的高维度的声学特征进行处理,获得正交化的声学特征;用线性判别分析LDA对正交化后的声学特征进行处理,获得低维度的1.5SFED特征。
本实施例中所提供的检测方法,基于双谱和能量谱的特征,充分利用了静音段和有效语音段信息,其可以达到更低的等错误概率,且检测性能不受时变因素影响。
在上述步骤(2)中,通过以下公式(7)对1.5SFED特征Fall进行表示:
Fall={F1.5,Fe} (7)
其中,Fall表示1.5SFED特征,F1.5表示归一化后的1.5维谱特征,Fe为归一化后的规整频带能量特征。
本实施例中,进一步的,利用上述方法分别获得训练样本中原始语音信号和重放语音信号的低纬度1.5SFED特征参数,构建二元分类器。
在进行语音重放检测时,当获取用户新的语音信号时,对新的语音信号提取语音重放检测特征,然后基于所述二元分类器,检测该新的语音信号是否为重放语音。
本发明的又一个实施例中,提供了一种用于语音重放检测的特征提取装置,参照图5所示,包括:
估计模块401,用于对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
规整模块402,用于采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
融合模块403,用于对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征。
上述装置,还包括:检测模块404,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对所述语音信号进行语音活动检测,检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据。
上述装置,还包括:滤波模块405,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对去除静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱;
利用一组三角窗滤波器对所述频谱进行滤波,得到能量分布函数。
本发明实施例所提供的进行用于语音重放检测的特征提取方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本发明实施例所提供的用于语音重放检测的特征提取的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种用于语音重放检测的特征提取方法,其特征在于,包括:
对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征。
2.根据权利要求1所述的方法,其特征在于,所述采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后语音信号的能量分布特征之前,还包括:
对所述语音信号进行语音活动检测,检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据。
3.根据权利要求2所述的方法,其特征在于,所述采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后语音信号的能量分布特征之前,还包括:
对去除静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱。
4.根据权利要求1-3任一所述的方法,其特征在于,所述对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征,包括:
对获取的语音信号进行采样,并按照语音信号的播放时间顺序将采样得到的语音采样值均匀分成不同的采样段;其中,每个采样段中分别包括多个语音采样值;
根据每个采样段中的多个语音采样值,分别计算各采样段的三阶累积量;
计算语音信号的所有采样段的三阶累积量的累积量平均值,将所述累积量平均值作为所述语音信号的三阶累积量估计值;
对所述语音信号的三阶累积量估计值进行双谱估计,得到所述语音信号的双谱特征;
对语音信号的双谱特征进行投影操作,得到语音信号的1.5维谱特征。
5.根据权力要求1所述的方法,其特征在于,所述对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征,具体包括:
将所述语音信号的1.5维谱特征和规整后的能量分布特征采用线性叠加的方式进行特征融合,得到融合后的声学特征;
对所述融合后的声学特征进行降维度处理。
6.根据权利要求1所述的方法,其特征在于,还包括:
利用如权利要求1-5任一所述的方法分别获得训练样本中原始语音信号和重放语音信号的1.5SFED特征参数,构建二元分类器。
7.根据权利要求6所述的方法,其特征在于,还包括:
当获取用户新的语音信号时,对新的语音信号提取语音重放检测特征,然后基于所述二元分类器,检测该新的语音信号是否为重放语音。
8.一种用于语音重放检测的特征提取装置,其特征在于,包括:
估计模块,用于对获取的语音信号进行1.5维谱估计,得到语音信号的1.5维谱特征;
规整模块,用于采用弯折函数对所述语音信号的频域空间的能量分布函数进行分段规整,得到规整后的语音信号的能量分布特征;
融合模块,用于对所述语音信号的1.5维谱特征和规整后的能量分布特征进行融合,得到1.5SFED特征。
9.根据权利要求8所述的装置,其特征在于,还包括:检测模块,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对所述语音信号进行语音活动检测,检测出所述语音信号的静音段数据,并去除所述语音信号的静音段数据。
10.根据权利要求9所述的装置,其特征在于,还包括:滤波模块,用于在采用弯折函数对所述语音信号的频域空间的能量进行分段规整,得到规整后语音信号的能量分布特征之前,对去除静音段数据的语音信号依次进行预加重、分帧、加窗、快速傅立叶变换处理,得到语音信号的频谱。
CN201810191512.9A 2018-03-08 2018-03-08 一种用于语音重放检测的特征提取方法及装置 Active CN108364656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810191512.9A CN108364656B (zh) 2018-03-08 2018-03-08 一种用于语音重放检测的特征提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810191512.9A CN108364656B (zh) 2018-03-08 2018-03-08 一种用于语音重放检测的特征提取方法及装置

Publications (2)

Publication Number Publication Date
CN108364656A true CN108364656A (zh) 2018-08-03
CN108364656B CN108364656B (zh) 2021-03-09

Family

ID=63003973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810191512.9A Active CN108364656B (zh) 2018-03-08 2018-03-08 一种用于语音重放检测的特征提取方法及装置

Country Status (1)

Country Link
CN (1) CN108364656B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414536A (zh) * 2019-07-17 2019-11-05 北京得意音通技术有限责任公司 数据特征提取方法、录音重放检测方法、存储介质和电子设备
CN111710327A (zh) * 2020-06-12 2020-09-25 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
CN112116742A (zh) * 2020-08-07 2020-12-22 西安交通大学 融合用户多源发声特征的身份认证方法、存储介质及设备
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备
CN115995231A (zh) * 2023-03-21 2023-04-21 北京探境科技有限公司 语音唤醒方法、装置、电子设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070131094A1 (en) * 2005-11-09 2007-06-14 Sony Deutschland Gmbh Music information retrieval using a 3d search algorithm
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
US20100049522A1 (en) * 2008-08-25 2010-02-25 Kabushiki Kaisha Toshiba Voice conversion apparatus and method and speech synthesis apparatus and method
CN101903941A (zh) * 2007-12-21 2010-12-01 沃福森微电子股份有限公司 具有低速率仿真的噪声消除系统
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
CN104794894A (zh) * 2015-01-29 2015-07-22 青岛智能产业技术研究院 一种汽车鸣笛噪声监视装置、系统及方法
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070131094A1 (en) * 2005-11-09 2007-06-14 Sony Deutschland Gmbh Music information retrieval using a 3d search algorithm
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
CN101903941A (zh) * 2007-12-21 2010-12-01 沃福森微电子股份有限公司 具有低速率仿真的噪声消除系统
US20100049522A1 (en) * 2008-08-25 2010-02-25 Kabushiki Kaisha Toshiba Voice conversion apparatus and method and speech synthesis apparatus and method
CN102194455A (zh) * 2010-03-17 2011-09-21 博石金(北京)信息技术有限公司 一种与说话内容无关的声纹鉴别认证方法
CN102592594A (zh) * 2012-04-06 2012-07-18 苏州思必驰信息科技有限公司 基于统计参数模型的增量式语音在线合成方法
CN104794894A (zh) * 2015-01-29 2015-07-22 青岛智能产业技术研究院 一种汽车鸣笛噪声监视装置、系统及方法
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TOM KO: ""Audio Augmentation for speech Recognition"", 《ISCA》 *
唐建: ""改进的二次1.5维谱估计在管道内检测中的应用"", 《上海交通大学学报》 *
姚棋: ""Alpha 稳定分布噪声下舰船识别分析"", 《信号处理》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414536A (zh) * 2019-07-17 2019-11-05 北京得意音通技术有限责任公司 数据特征提取方法、录音重放检测方法、存储介质和电子设备
CN110414536B (zh) * 2019-07-17 2022-03-25 北京得意音通技术有限责任公司 录音重放检测方法、存储介质和电子设备
WO2021164256A1 (zh) * 2020-02-17 2021-08-26 平安科技(深圳)有限公司 语音信号处理方法、装置及设备
CN111710327A (zh) * 2020-06-12 2020-09-25 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
CN112116742A (zh) * 2020-08-07 2020-12-22 西安交通大学 融合用户多源发声特征的身份认证方法、存储介质及设备
CN115995231A (zh) * 2023-03-21 2023-04-21 北京探境科技有限公司 语音唤醒方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN108364656B (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN108364656A (zh) 一种用于语音重放检测的特征提取方法及装置
CN108039176B (zh) 一种防录音攻击的声纹认证方法、装置及门禁系统
CN107274916B (zh) 基于声纹信息对音频/视频文件进行操作的方法及装置
CN109036436A (zh) 一种声纹数据库建立方法、声纹识别方法、装置及系统
CN107886943A (zh) 一种声纹识别方法及装置
Paul et al. Countermeasure to handle replay attacks in practical speaker verification systems
Schröder et al. Classification of human cough signals using spectro-temporal Gabor filterbank features
Das et al. Instantaneous phase and excitation source features for detection of replay attacks
WO2018129869A1 (zh) 声纹验证方法和装置
CN110767239A (zh) 一种基于深度学习的声纹识别方法、装置及设备
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
US10665248B2 (en) Device and method for classifying an acoustic environment
CN105513598A (zh) 一种基于频域信息量分布的回放语音检测方法
CN107274912B (zh) 一种手机录音的设备来源辨识方法
Patil et al. Energy Separation-Based Instantaneous Frequency Estimation for Cochlear Cepstral Feature for Replay Spoof Detection.
CN110232927A (zh) 说话人验证反欺骗方法和装置
CN108665901B (zh) 一种音素/音节提取方法及装置
CN108880815A (zh) 身份验证方法、装置和系统
Khoria et al. On significance of constant-Q transform for pop noise detection
Leonzio et al. Audio splicing detection and localization based on acquisition device traces
Lapidot et al. Effects of waveform pmf on anti-spoofing detection
Kurniawan et al. Statistical-based audio forensic on identical microphones
CN116434774A (zh) 语音识别方法及相关装置
Hajipour et al. Listening to sounds of silence for audio replay attack detection
CN112634942B (zh) 一种手机录音原始性的鉴定方法、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant