CN112581975B - 基于信号混叠和双声道相关性的超声波语音指令防御方法 - Google Patents
基于信号混叠和双声道相关性的超声波语音指令防御方法 Download PDFInfo
- Publication number
- CN112581975B CN112581975B CN202011460738.8A CN202011460738A CN112581975B CN 112581975 B CN112581975 B CN 112581975B CN 202011460738 A CN202011460738 A CN 202011460738A CN 112581975 B CN112581975 B CN 112581975B
- Authority
- CN
- China
- Prior art keywords
- signal
- audio
- aliasing
- frame
- attack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000007123 defense Effects 0.000 title description 7
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 125000000205 L-threonino group Chemical group [H]OC(=O)[C@@]([H])(N([H])[*])[C@](C([H])([H])[H])([H])O[H] 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000005236 sound signal Effects 0.000 claims description 2
- XCWPUUGSGHNIDZ-UHFFFAOYSA-N Oxypertine Chemical compound C1=2C=C(OC)C(OC)=CC=2NC(C)=C1CCN(CC1)CCN1C1=CC=CC=C1 XCWPUUGSGHNIDZ-UHFFFAOYSA-N 0.000 claims 1
- 239000012634 fragment Substances 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 6
- 238000001514 detection method Methods 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 239000000243 solution Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于信号混叠和双声道相关性的超声波语音指令防御方法,利用了部分录音设备录入超声波攻击信号时产生的混叠现象。检测录音音频是否存在混叠信号,即可判断该音频为合法音频还是攻击信号。此外,有些录音设备具有多个麦克风,利用超声波攻击信号在多个麦克风之间录音结果相关性的差异,也能区分攻击信号和合法录音;测试表明本发明上述方案的防御效果优于现有方案。
Description
技术领域
本发明涉及超声波语音指令防御技术领域,尤其涉及一种基于信号混叠和双声道相关性的超声波语音指令防御方法。
背景技术
随着语音技术的飞速发展,语音识别技术的应用场景越来越广泛。语音控制系统是集成了语音识别技术的一个系统,允许用户通过语音交互来控制系统,极大地简化了操作流程,提升了用户体验。
近几年来,研究者对麦克风的研究越来越深入。有学者提出了麦克风系统的非线性特性。当超声波信号被麦克风录入后,在麦克风系统内不是被线性放大,而会产生非线性项。基于该原理,语音信号经超声波调制并发射后,该精心设计过的超声波信号会被麦克风录入,并被麦克风系统内的功放等电子器件非线性放大,最终自解调还原出原始语音信号。也就是说基于麦克风的非线性特征,攻击者通过超声波信号注入的方式,能在人耳听不到声音的情况下,向语音控制系统注入攻击信号。这种攻击隐蔽性极强,危害极大。
现有超声波语音指令防御方法绝大多数现有文献都是在软件层面进行防御。
1)Yan等人提出了利用合法录音和超声波攻击信号录音在高频部分的特征差异来对音频进行分类的方法。但缺点是攻击者可以很容易地在高频部分添加信号,将攻击信号伪造成合法录音,导致分类系统错误分类。Roy等人分析了攻击信号的特点,提出了新的防御方法。该方法的思路是通过识别录音信号的幅度偏斜、50Hz以下的功率和信号的相关性这三个特征来综合判断录音信号是否含超声波攻击信号。但是He等人指出这三个特征来防御是有漏洞的,攻击者改进并重新设计攻击信号后,能“骗”过分类器,超声波攻击信号仍能够被分类为合法音频。为了解决这个问题,He等人提出了使用守卫信号的方法。信号发生器时刻向麦克风发射余弦守护信号,若存在超声波攻击,该余弦信号会将攻击信号映射到高频,形成特殊的频谱,文中提出的方法可以检测并移除攻击信号,进而实现防御攻击信号的目的。但是这种防御方法需要外部设备的辅助,在实际应用场景下这是不现实的。因此,提出一种更具有现实意义的,防御效果更好的超声波语音指令防御方法十分有必要。
发明内容
本发明的目的是提供一种基于信号混叠和双声道相关性的超声波语音指令防御方法,能够有效防御超声波语音指令。
本发明的目的是通过以下技术方案实现的:
一种基于信号混叠和双声道相关性的超声波语音指令防御方法,包括:
当采用双麦克风录音时,利用双声道的相关性,判断是否存在超声波语音指令攻击信号;若相关性低于设定的第一相关性阈值,则判定存在超声波语音指令攻击信号;若相关性大于或等于第一相关性阈值,则检测双声道中能量较强的声道是否存在混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号;
当采用单麦克风录音时,直接检测是否混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号。
由上述本发明提供的技术方案可以看出,利用了部分录音设备录入超声波攻击信号时产生的混叠现象。检测录音音频是否存在混叠信号,即可判断该音频为合法音频还是攻击信号。此外,有些录音设备具有多个麦克风,利用超声波攻击信号在多个麦克风之间录音结果相关性的差异,也能区分攻击信号和合法录音;测试表明本发明上述方案的防御效果优于现有方案。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于信号混叠和双声道相关性的超声波语音指令防御方法的流程图;
图2为本发明实施例提供的双麦克风相关性判断框架示意图;
图3为本发明实施例提供的混叠现象检测框架示意图;
图4为本发明实施例提供的典型的语音指令攻击音频帧的幅值谱;
图5为本发明实施例提供的寻找极大值的原理图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于信号混叠和双声道相关性的超声波语音指令防御方法,如图1所示,该方法主要包括:
当采用双麦克风录音时,利用双声道的相关性,判断是否存在超声波语音指令攻击信号。超声波攻击信号在两个麦克风上录音的差异,会导致两个声道间的相似性较低,当其低于设定的第一相关性阈值时,可以判断录音音频含有攻击信号,系统可以直接丢弃该音频;若相似性大于或者等于该第一相关性阈值,则检测双声道中能量较强的声道是否存在混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号。
当采用单麦克风录音时,直接检测是否混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号。
本发明实施例上述方案,考虑了录音时超声波信号会发生混叠的情况,因此,即便将攻击信号伪造成合法录音,或者重新设计攻击信号,依旧可以准确检测出攻击信号。
下面针对相关性检测、混叠现象检测的优选实施方案进行说明。
一、相关性检测。
如图2所示,为双麦克风相关性判断框架,通过相关性来检测录音音频是否存在超声波语音指令攻击信号。若不具有相关性或者相关性较弱,则直接丢弃该音频;否则,可以进入下一阶段的检测(即混叠现象检测)。
本发明实施例中,将两个麦克风录音的音频分别表示为x1[i],x2[i],1≤i≤L,L表示音频的总采样点数(即音频的维数),x1[i],x2[i]各自表示相应通道第i个采样点的音频信息,x1[i],x2[i]的第j帧对应的记为x1,j,x2,j,x1,j和x2,j可以表示为:
x1,j=[x1[1+jLint],x1[2+jLint],…,x1[Lf+jLint]]
x2,j=[x2[1+jLint],x2[2+jLint],…,x2[Lf+jLint]]
其中,相邻两帧间间隔的采样点数是Lint,帧长固定为Lf维,
下面分别计算x1,j和x2,j的平均能量E1,j和E2,j。以x1,j为例,平均能量的计算公式如下所示:
其中,x1,j[k]表示x1,j的第k维;E2,j的计算方法同理。若平均能量E1,j和E2,j均低于或等于设定的阈值Terengy,则表示第j帧是非语音片段,则滑动窗口直接后移,计算下一帧。
否则,表示第j帧含有语音信号,对x1,j和x2,j分别叠加窗函数,表示为:
其中窗函数w[k]可以是海明窗、汉宁窗等,其长度同样为Lf维。分别是对x1,j和x2,j叠加窗函数得到的结果。
之后,通过傅立叶变换分别求得和/>的幅值谱X1,j和X2,j,其中f表示频率索引,Lf为帧长的固定维度。
再计算X1,j和X2,j的皮尔逊相关系数r[j]:
在正常情况下,两个声道的录音结果具有高度相似性,即绝大多数正常录音的r[j]会大于第一相关性阈值Tdualmic(具体大小可根据实际情况设定)。而超声波语音指令攻击信号则不同。利用这一特征,判断如果r[j]>Tdualmic,则认为第j帧不存在超声波语音指令攻击信号,反之则存在超声波语音指令攻击信号。
所有音频帧都通过以上的方式进行判断,最终可以判断录音音频是否为攻击信号。判断方法如下。假设有Ndualattack帧含有攻击信号,Ndualall帧包含语音信号。当满足下面的计算公式时,认为该输入双声道音频为超声波语音指令攻击音频,该音频要被丢弃,禁止被送入语音控制系统等后续应用。
其中Tdualattack是提前设定的阈值。
二、混叠现象检测。
如图3所示,为混叠现象检测的框架,通过混叠现象检测可以判定录音音频是否存在超声波语音指令攻击信号。
本发明实施例中,将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频均表示为x1[i],1≤i≤L,取出第j帧x1,j,x1,j=[x1[1+jLint],x1[2+jLint],…,x1[Lf+jLint]],其中,Lf为帧长的固定维度;Lint是相邻两帧间间隔的采样点数。
取出第j帧x1,j后,为了确保该帧包含语音信号,先计算第j帧x1,j的平均能量E1,j;若平均能量E1,j低于或等于设定的阈值Terengy,则表示第j帧是非语音片段,滑动窗口直接后移,计算下一帧。
否则,说明第j帧含有语音信号,则对x1,j叠加窗函数:
其中,为对x1,j叠加窗函数得到的结果。
下一步通过傅立叶变换求得幅值谱
一个典型的语音指令攻击音频帧的幅值谱如图4所示。原始信号(即攻击信号)的幅值谱如图4点划线所示。经过麦克风系统内的功放后,原始信号和部分直流分量会自解调,形成超声波语音指令攻击基带信号,如图4中实线所示。此外,由于混叠的存在,中心频率为fori的攻击信号经过混叠后,会变为中心频率为falias的混叠信号。根据信号混叠的原理,fori和falias关于Fs/2对称,Fs为采样率。由于基带信号和混叠信号在频域上有较高的相似性,检测混叠信号与基带信号的相关性(判断方案可参见前文的介绍)即可判断超声波攻击信号是否存在。
基于上述原理,本发明实施例中,根据幅值谱X1,j,判断是否存在混叠信号:先扫描所有频率,检测是否存在cos(2πforit)对应的频谱极大值,其中,t表示时间。若不存在,则认为第j帧是合法的帧,不存在混叠现象;若存在极大值,说明存在余弦信号,则再检测该极大值对应的上下频带是否和基带信号相关,当相关性超过设定的第二相关性阈值,则认为第j帧存在混叠现象,反之不存在混叠现象。
如图5所示,提供了极大值的检测原理。先将分为Nsub个维数均为Lsub的子频带,每个子频带用公式表示为:
其中,n=1,2,…,Nsub。
每一个子频带为单位,判断子频带内是否存在极大值,判断公式为:
其中,λ是预设的常数,f表示频率索引;
在每个子频带内寻找所有满足判断公式的极大值f;若极大值不存在,则在相应子频带内无峰值;若存在唯一极大值,则记录该唯一极大值;若存在多个极大值,则选取最大的一个,作为相应子频带的极大值。为了避免子频带边界处存在极值而导致结果不准确,当所有子频带都判断完毕后,将每个子频带往后移动Lsub/2维(如图5底部第二行矩形所示),再次基于判断公式寻找极大值;只有当两轮计算结果均在同一频率f处计算出极大值,才认为频率f处存在极大值。如果检测出M个极大值,则得到对应的频率:
fmax=[f1,f2,…,fM],M≤Nsub
此后,对X1,j[f]低频处的基带信号与fi附近的频域求皮尔逊相关系数。若某个频率处二者的相关程度较高,则说明该帧存在混叠现象,包含超声波攻击信号。在图4所示的幅值谱中可以看出,混叠信号和基带攻击信号可能会有部分重叠。
为了更好地检测,按攻击信号的频率分为两类分别处理。对于中心频率为fori的攻击信号经过混叠后,会变为中心频率为falias的混叠信号,设定一般音频信号的频率不超过F(例如,4kHz)。
构造匹配模板:
Xtemplate=[X1,j[fthres],…,X1,j[2],X1,j[1],X1,j[1],X1,j[2],…,X1,j[fthres]]
其中,fthres是给定的数值;模板的每一项都是频域信息X1,j中的值,所构造的模板与攻击信号的特征相匹配;Xtemplate可以理解为取了一定带宽的基带信号,通过fthres来控制带宽的最高频率;
如果falias≥F,则表示基带信号与混叠信号不会重叠;计算匹配模板Xtemplate与[X1,j[fi-fthres],…,X1,j[fi-1],X1,j[fi],…,X1,j[fi+fthres-1]],fi∈fmax之间的皮尔逊相关系数。
如果falias<F,混叠信号的下边带和基带攻击信号极容易重叠,按上述方法求相关效果不好。针对这种情况,选取匹配模板Xtemplate的上边带[X1,j[1],X1,j[2],…,X1,j[fthres]],并计算与[X1,j[fi+1],…,X1,j[fi+fthres]]之间的皮尔逊相关系数;
在防御时,无法预知攻击信号的中心频率fori和对应的falias,则针对上述两种情况分别进行计算,并分别得到M个皮尔逊相关系数,任一个皮尔逊相关系数超过设定的第二相关性阈值Thighfre,则表示第j帧存在混叠现象,即含有超声波语音指令攻击信号。
对于每一帧都通过以上方案进行判断,最后,再综合判断;具体的:将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频中包含语音信号的帧数记为Nall,将存在混叠现象的帧数记为Nattack;
判断是否满足以下公式:
其中,Tattack为比例阈值;
若满足上述公式,则录音音频为超声波语音指令攻击音频,直接丢弃;否则,录音音频为合法音频,此时可以将录音音频输出至其他应用。
为了说明本发明实施例上述方案的效果,还与现有方案进行了测试实验。
实验中,接收端采用了三种录音设备:Huawei P9智能手机、Huawei nova 3i智能手机和麦克风阵列MIC-ARRAY,采样率均设定为48kHz。其中Huawei P9和Huawei nova3i录音音频为双声道。MIC-ARRAY录音为四声道,我们取其中一个声道,将该录音设备作为单麦克风录音设备进行测试。每台录音设备录音音频数是242。实验结果如表1至表3所示。
表1 Huawei P9智能手机的实验结果
表2 Huawei nova 3i智能手机的实验结果
表3 麦克风阵列MIC-ARRAY的实验结果
上述三个表格中,四个指标分别为准确率、精确率、召回率、F1值。第一行Baseline为参考,第二行为背景技术介绍的Yan等人的方案的结果,第三行为本发明上述方案的结果。可见,本发明上述方案的效果明显由于现有方案。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (6)
1.一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,包括:
当采用双麦克风录音时,利用双声道的相关性,判断是否存在超声波语音指令攻击信号;若相关性低于设定的第一相关性阈值,则判定存在超声波语音指令攻击信号;若相关性大于或等于第一相关性阈值,则检测双声道中能量较强的声道是否存在混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号;
当采用单麦克风录音时,直接检测是否混叠现象,若不存在混叠现象,则最判定为正常录音,否则,判定存在超声波语音指令攻击信号;
其中,所述利用双声道的相关性,判断是否存在超声波语音指令攻击信号的步骤包括:
将两个麦克风录音的音频分别表示为x1[i],x2[i],1≤i≤L,L表示音频的总采样点数,x1[i],x2[i]各自表示相应声道第i个采样点的音频信息,x1[i],x2[i]的第j帧对应的记为x1,j,x2,j;
分别计算x1,j和x2,j的平均能量E1,j和E2,j;
若平均能量E1,j和E2,j均低于或等于设定的阈值Terengy,则表示第j帧是非语音片段,则滑动窗口直接后移,计算下一帧;
否则,对x1,j和x2,j分别叠加窗函数,并通过傅立叶变换求得幅值谱X1,j和X2,j,其中,f表示频率索引,Lf为帧长的固定维度;再计算X1,j和X2,j的皮尔逊相关系数r[j];如果r[j]≥Tdualmic,则认为第j帧不存在超声波语音指令攻击信号,反之则存在超声波语音指令攻击信号;其中,Tdualmic为第一相关性阈值;叠加窗函数与皮尔逊相关系数的计算公式表示为:
其中,x1,j[k]、各自表示x1,j、x2,j的第k维;w[k]表示窗函数;/> 分别为对x1,j和x2,j叠加窗函数得到的结果。
2.根据权利要求1所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,
对所有音频帧都进行判断后,将存在超声波语音指令攻击信号的帧数记为Ndualattack,将包含语音信号的帧数记为Ndualall,如果满足下式,则认为双声道则录音音频为超声波语音指令攻击音频,直接丢弃:
其中,Tdualattack为设定的阈值。
3.根据权利要求1所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,检测是否存在混叠现象的步骤包括:
将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频均表示为x1[i],1≤i≤L,L表示音频的总采样点数,从中取出第j帧x1,j;
计算第j帧x1,j的平均能量E1,j;若平均能量E1,j低于或等于设定的阈值Terengy,则表示第j帧是非语音片段,则滑动窗口直接后移,计算下一帧;
否则,第j帧含有语音信号,对x1,j叠加窗函数,并通过傅立叶变换求得幅值谱其中,f表示维度,Lf为帧长的固定维度;再根据幅值谱X1,j,判断是否存在混叠信号:先扫描所有频率,检测是否存在cos(2πforit)对应的频谱极大值,其中,t表示时间,fori为表示攻击信号的中心频率;若不存在,则认为第j帧是合法的帧,不存在混叠现象;若存在极大值,说明存在余弦信号,则再检测该极大值对应的上下频带是否和基带信号相关,当相关性超过设定的第二相关性阈值,则认为第j帧存在混叠现象,反之不存在混叠现象。
4.根据权利要求3所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,检测是否存在cos(2πforit)对应的频谱极大值的步骤包括:
将分为Nsub个维数均为Lsub的子频带,每个子频带用公式表示为:
其中,n=1,2,…,Nsub;
每一个子频带为单位,判断子频带内是否存在极大值,判断公式为:
其中,λ是预设的常数,f表示频率索引;
在每个子频带内寻找所有满足判断公式的极大值f;若极大值不存在,则在相应子频带内无峰值;若存在唯一极大值,则记录该唯一极大值;若存在多个极大值,则选取最大的一个,作为相应子频带的极大值;
当所有子频带都判断完毕后,将每个子频带往后移动Lsub/2维,再次基于判断公式寻找极大值;只有当两轮计算结果均在同一频率f处算出极大值,才认为该频率f处存在极大值。
5.根据权利要求4所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,如果检测出M个极大值,则得到对应的频率:
fmax=[f1,f2,…,fM],M≤Nsub
对于中心频率为fori的攻击信号经过混叠后,会变为中心频率为falias的混叠信号,设定音频信号的频率不超过F;
构造匹配模板:
Xtemplate=[X1,j[fthres],…,X1,j[2],X1,j[1],X1,j[1],X1,j[2],…,X1,j[fthres]]
其中,fthres是给定的数值;
如果falias≥F,则表示基带信号与混叠信号不会重叠;计算匹配模板Xtemplate与[X1,j[fi-fthres],…,X1,j[fi-1],X1,j[fi],…,X1,j[fi+fthres-1]],fi∈fmax之间的皮尔逊相关系数;
如果falias<F,则选取匹配模板Xtemplate的上边带[X1,j[1],X1,j[2],…,X1,j[fthres]],并计算与[X1,j[fi+1],…,X1,j[fi+fthres]]之间的皮尔逊相关系数;
在防御时,无法预知攻击信号的中心频率fori和对应的falias,则针对上述两种情况分别进行计算,并分别得到M个皮尔逊相关系数,任一个皮尔逊相关系数超过设定的第二相关性阈值Thighfre,则表示第j帧存在混叠现象。
6.根据权利要求3或4所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法,其特征在于,
将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频中包含语音信号的帧数记为Nall,将存在混叠现象的帧数记为Nattack;
判断是否满足以下公式:
其中,Tattack为比例阈值;
若满足上述公式,则录音音频为超声波语音指令攻击音频,直接丢弃;否则,录音音频为合法音频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460738.8A CN112581975B (zh) | 2020-12-11 | 2020-12-11 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011460738.8A CN112581975B (zh) | 2020-12-11 | 2020-12-11 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112581975A CN112581975A (zh) | 2021-03-30 |
CN112581975B true CN112581975B (zh) | 2024-05-17 |
Family
ID=75131577
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011460738.8A Active CN112581975B (zh) | 2020-12-11 | 2020-12-11 | 基于信号混叠和双声道相关性的超声波语音指令防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112581975B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113300783A (zh) * | 2021-04-27 | 2021-08-24 | 厦门亿联网络技术股份有限公司 | 超声波传递数据方法、装置及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
EP2689419A1 (en) * | 2011-03-21 | 2014-01-29 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and arrangement for damping dominant frequencies in an audio signal |
US10079024B1 (en) * | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
CN108806702A (zh) * | 2018-07-20 | 2018-11-13 | 北京航空航天大学 | 针对超声波语音隐藏攻击的检测方法及装置 |
CN110299141A (zh) * | 2019-07-04 | 2019-10-01 | 苏州大学 | 一种声纹识别中录音回放攻击检测的声学特征提取方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111243600A (zh) * | 2020-01-10 | 2020-06-05 | 浙江大学 | 一种基于声场和场纹的语音欺骗攻击检测方法 |
CN111971532A (zh) * | 2018-04-24 | 2020-11-20 | 三菱电机株式会社 | 攻击检测装置、攻击检测方法及攻击检测程序 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10672416B2 (en) * | 2017-10-20 | 2020-06-02 | Board Of Trustees Of The University Of Illinois | Causing microphones to detect inaudible sounds and defense against inaudible attacks |
CN108172224B (zh) * | 2017-12-19 | 2019-08-27 | 浙江大学 | 基于机器学习的防御无声指令控制语音助手的方法 |
US10565978B2 (en) * | 2018-08-31 | 2020-02-18 | Intel Corporation | Ultrasonic attack prevention for speech enabled devices |
US10957341B2 (en) * | 2018-12-28 | 2021-03-23 | Intel Corporation | Ultrasonic attack detection employing deep learning |
-
2020
- 2020-12-11 CN CN202011460738.8A patent/CN112581975B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5701389A (en) * | 1995-01-31 | 1997-12-23 | Lucent Technologies, Inc. | Window switching based on interblock and intrablock frequency band energy |
EP2689419A1 (en) * | 2011-03-21 | 2014-01-29 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and arrangement for damping dominant frequencies in an audio signal |
US10079024B1 (en) * | 2016-08-19 | 2018-09-18 | Amazon Technologies, Inc. | Detecting replay attacks in voice-based authentication |
CN111971532A (zh) * | 2018-04-24 | 2020-11-20 | 三菱电机株式会社 | 攻击检测装置、攻击检测方法及攻击检测程序 |
CN108806702A (zh) * | 2018-07-20 | 2018-11-13 | 北京航空航天大学 | 针对超声波语音隐藏攻击的检测方法及装置 |
CN110299141A (zh) * | 2019-07-04 | 2019-10-01 | 苏州大学 | 一种声纹识别中录音回放攻击检测的声学特征提取方法 |
CN110444208A (zh) * | 2019-08-12 | 2019-11-12 | 浙江工业大学 | 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置 |
CN111243600A (zh) * | 2020-01-10 | 2020-06-05 | 浙江大学 | 一种基于声场和场纹的语音欺骗攻击检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112581975A (zh) | 2021-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8818806B2 (en) | Speech processing apparatus and speech processing method | |
CN101430882B (zh) | 一种抑制风噪声的方法及装置 | |
CN105989836B (zh) | 一种语音采集方法、装置及终端设备 | |
WO2015078121A1 (zh) | 音频信号质量检测方法及装置 | |
Maher | Overview of audio forensics | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
US11611581B2 (en) | Methods and devices for detecting a spoofing attack | |
CN112581975B (zh) | 基于信号混叠和双声道相关性的超声波语音指令防御方法 | |
CN111782861A (zh) | 一种杂音检测方法及装置、存储介质 | |
Khoria et al. | Significance of constant-q transform for voice liveness detection | |
CN112992153B (zh) | 音频处理方法、声纹识别方法、装置、计算机设备 | |
Narkhede et al. | Acoustic scene identification for audio authentication | |
CN112151038B (zh) | 语音重放攻击检测方法、装置、可读存储介质及电子设备 | |
Lim et al. | Classification of underwater transient signals using MFCC feature vector | |
Wang et al. | Low pass filtering and bandwidth extension for robust anti-spoofing countermeasure against codec variabilities | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 | |
CN101950564A (zh) | 一种远程数字化语音采集分析识别系统 | |
Tapkir et al. | Replay spoof detection using power function based features | |
Delgado et al. | Impact of bandwidth and channel variation on presentation attack detection for speaker verification | |
KR101382356B1 (ko) | 오디오파일의 위변조 검출장치 | |
Ye et al. | Detection of replay attack based on normalized constant q cepstral feature | |
Mills et al. | Replay attack detection based on voice and non-voice sections for speaker verification | |
EP3456067B1 (en) | Noise detection and noise reduction | |
Zhang et al. | Deep scattering spectra with deep neural networks for acoustic scene classification tasks | |
Gonzalez-Rodriguez et al. | An Audio Fingerprinting Approach to Replay Attack Detection on ASVSPOOF 2017 Challenge Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |