CN112581975B

CN112581975B - 基于信号混叠和双声道相关性的超声波语音指令防御方法

Info

Publication number: CN112581975B
Application number: CN202011460738.8A
Authority: CN
Inventors: 张卫明; 俞能海; 沈豪
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-11
Filing date: 2020-12-11
Publication date: 2024-05-17
Anticipated expiration: 2040-12-11
Also published as: CN112581975A

Abstract

本发明公开了一种基于信号混叠和双声道相关性的超声波语音指令防御方法，利用了部分录音设备录入超声波攻击信号时产生的混叠现象。检测录音音频是否存在混叠信号，即可判断该音频为合法音频还是攻击信号。此外，有些录音设备具有多个麦克风，利用超声波攻击信号在多个麦克风之间录音结果相关性的差异，也能区分攻击信号和合法录音；测试表明本发明上述方案的防御效果优于现有方案。

Description

基于信号混叠和双声道相关性的超声波语音指令防御方法

技术领域

本发明涉及超声波语音指令防御技术领域，尤其涉及一种基于信号混叠和双声道相关性的超声波语音指令防御方法。

背景技术

随着语音技术的飞速发展，语音识别技术的应用场景越来越广泛。语音控制系统是集成了语音识别技术的一个系统，允许用户通过语音交互来控制系统，极大地简化了操作流程，提升了用户体验。

近几年来，研究者对麦克风的研究越来越深入。有学者提出了麦克风系统的非线性特性。当超声波信号被麦克风录入后，在麦克风系统内不是被线性放大，而会产生非线性项。基于该原理，语音信号经超声波调制并发射后，该精心设计过的超声波信号会被麦克风录入，并被麦克风系统内的功放等电子器件非线性放大，最终自解调还原出原始语音信号。也就是说基于麦克风的非线性特征，攻击者通过超声波信号注入的方式，能在人耳听不到声音的情况下，向语音控制系统注入攻击信号。这种攻击隐蔽性极强，危害极大。

现有超声波语音指令防御方法绝大多数现有文献都是在软件层面进行防御。

1)Yan等人提出了利用合法录音和超声波攻击信号录音在高频部分的特征差异来对音频进行分类的方法。但缺点是攻击者可以很容易地在高频部分添加信号，将攻击信号伪造成合法录音，导致分类系统错误分类。Roy等人分析了攻击信号的特点，提出了新的防御方法。该方法的思路是通过识别录音信号的幅度偏斜、50Hz以下的功率和信号的相关性这三个特征来综合判断录音信号是否含超声波攻击信号。但是He等人指出这三个特征来防御是有漏洞的，攻击者改进并重新设计攻击信号后，能“骗”过分类器，超声波攻击信号仍能够被分类为合法音频。为了解决这个问题，He等人提出了使用守卫信号的方法。信号发生器时刻向麦克风发射余弦守护信号，若存在超声波攻击，该余弦信号会将攻击信号映射到高频，形成特殊的频谱，文中提出的方法可以检测并移除攻击信号，进而实现防御攻击信号的目的。但是这种防御方法需要外部设备的辅助，在实际应用场景下这是不现实的。因此，提出一种更具有现实意义的，防御效果更好的超声波语音指令防御方法十分有必要。

发明内容

本发明的目的是提供一种基于信号混叠和双声道相关性的超声波语音指令防御方法，能够有效防御超声波语音指令。

本发明的目的是通过以下技术方案实现的：

一种基于信号混叠和双声道相关性的超声波语音指令防御方法，包括：

当采用双麦克风录音时，利用双声道的相关性，判断是否存在超声波语音指令攻击信号；若相关性低于设定的第一相关性阈值，则判定存在超声波语音指令攻击信号；若相关性大于或等于第一相关性阈值，则检测双声道中能量较强的声道是否存在混叠现象，若不存在混叠现象，则最判定为正常录音，否则，判定存在超声波语音指令攻击信号；

当采用单麦克风录音时，直接检测是否混叠现象，若不存在混叠现象，则最判定为正常录音，否则，判定存在超声波语音指令攻击信号。

由上述本发明提供的技术方案可以看出，利用了部分录音设备录入超声波攻击信号时产生的混叠现象。检测录音音频是否存在混叠信号，即可判断该音频为合法音频还是攻击信号。此外，有些录音设备具有多个麦克风，利用超声波攻击信号在多个麦克风之间录音结果相关性的差异，也能区分攻击信号和合法录音；测试表明本发明上述方案的防御效果优于现有方案。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于信号混叠和双声道相关性的超声波语音指令防御方法的流程图；

图2为本发明实施例提供的双麦克风相关性判断框架示意图；

图3为本发明实施例提供的混叠现象检测框架示意图；

图4为本发明实施例提供的典型的语音指令攻击音频帧的幅值谱；

图5为本发明实施例提供的寻找极大值的原理图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于信号混叠和双声道相关性的超声波语音指令防御方法，如图1所示，该方法主要包括：

当采用双麦克风录音时，利用双声道的相关性，判断是否存在超声波语音指令攻击信号。超声波攻击信号在两个麦克风上录音的差异，会导致两个声道间的相似性较低，当其低于设定的第一相关性阈值时，可以判断录音音频含有攻击信号，系统可以直接丢弃该音频；若相似性大于或者等于该第一相关性阈值，则检测双声道中能量较强的声道是否存在混叠现象，若不存在混叠现象，则最判定为正常录音，否则，判定存在超声波语音指令攻击信号。

本发明实施例上述方案，考虑了录音时超声波信号会发生混叠的情况，因此，即便将攻击信号伪造成合法录音，或者重新设计攻击信号，依旧可以准确检测出攻击信号。

下面针对相关性检测、混叠现象检测的优选实施方案进行说明。

一、相关性检测。

如图2所示，为双麦克风相关性判断框架，通过相关性来检测录音音频是否存在超声波语音指令攻击信号。若不具有相关性或者相关性较弱，则直接丢弃该音频；否则，可以进入下一阶段的检测(即混叠现象检测)。

本发明实施例中，将两个麦克风录音的音频分别表示为x₁[i],x₂[i],1≤i≤L，L表示音频的总采样点数(即音频的维数)，x₁[i],x₂[i]各自表示相应通道第i个采样点的音频信息，x₁[i],x₂[i]的第j帧对应的记为x_1,j，x_2,j，x_1,j和x_2,j可以表示为：

x_1,j＝[x₁[1+jL_int],x₁[2+jL_int],…,x₁[L_f+jL_int]]

x_2,j＝[x₂[1+jL_int],x₂[2+jL_int],…,x₂[L_f+jL_int]]

其中，相邻两帧间间隔的采样点数是L_int，帧长固定为L_f维，

下面分别计算x_1,j和x_2,j的平均能量E_1,j和E_2,j。以x_1,j为例，平均能量的计算公式如下所示：

其中，x_1,j[k]表示x_1,j的第k维；E_2,j的计算方法同理。若平均能量E_1,j和E_2,j均低于或等于设定的阈值T_erengy，则表示第j帧是非语音片段，则滑动窗口直接后移，计算下一帧。

否则，表示第j帧含有语音信号，对x_1,j和x_2,j分别叠加窗函数，表示为：

其中窗函数w[k]可以是海明窗、汉宁窗等，其长度同样为L_f维。分别是对x_1,j和x_2,j叠加窗函数得到的结果。

之后，通过傅立叶变换分别求得和/>的幅值谱X_1,j和X_2,j，其中f表示频率索引，L_f为帧长的固定维度。

再计算X_1,j和X_2,j的皮尔逊相关系数r[j]：

在正常情况下，两个声道的录音结果具有高度相似性，即绝大多数正常录音的r[j]会大于第一相关性阈值T_dualmic(具体大小可根据实际情况设定)。而超声波语音指令攻击信号则不同。利用这一特征，判断如果r[j]＞T_dualmic，则认为第j帧不存在超声波语音指令攻击信号，反之则存在超声波语音指令攻击信号。

所有音频帧都通过以上的方式进行判断，最终可以判断录音音频是否为攻击信号。判断方法如下。假设有N_dualattack帧含有攻击信号，N_dualall帧包含语音信号。当满足下面的计算公式时，认为该输入双声道音频为超声波语音指令攻击音频，该音频要被丢弃，禁止被送入语音控制系统等后续应用。

其中T_dualattack是提前设定的阈值。

二、混叠现象检测。

如图3所示，为混叠现象检测的框架，通过混叠现象检测可以判定录音音频是否存在超声波语音指令攻击信号。

本发明实施例中，将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频均表示为x₁[i],1≤i≤L，取出第j帧x_1,j，x_1,j＝[x₁[1+jL_int],x₁[2+jL_int],…,x₁[L_f+jL_int]]，其中，L_f为帧长的固定维度；L_int是相邻两帧间间隔的采样点数。

取出第j帧x_1,j后，为了确保该帧包含语音信号，先计算第j帧x_1,j的平均能量E_1,j；若平均能量E_1,j低于或等于设定的阈值T_erengy，则表示第j帧是非语音片段，滑动窗口直接后移，计算下一帧。

否则，说明第j帧含有语音信号，则对x_1,j叠加窗函数：

其中，为对x_1,j叠加窗函数得到的结果。

下一步通过傅立叶变换求得幅值谱

一个典型的语音指令攻击音频帧的幅值谱如图4所示。原始信号(即攻击信号)的幅值谱如图4点划线所示。经过麦克风系统内的功放后，原始信号和部分直流分量会自解调，形成超声波语音指令攻击基带信号，如图4中实线所示。此外，由于混叠的存在，中心频率为f_ori的攻击信号经过混叠后，会变为中心频率为f_alias的混叠信号。根据信号混叠的原理，f_ori和f_alias关于F_s/2对称，F_s为采样率。由于基带信号和混叠信号在频域上有较高的相似性，检测混叠信号与基带信号的相关性(判断方案可参见前文的介绍)即可判断超声波攻击信号是否存在。

基于上述原理，本发明实施例中，根据幅值谱X_1,j，判断是否存在混叠信号：先扫描所有频率，检测是否存在cos(2πf_orit)对应的频谱极大值，其中，t表示时间。若不存在，则认为第j帧是合法的帧，不存在混叠现象；若存在极大值，说明存在余弦信号，则再检测该极大值对应的上下频带是否和基带信号相关，当相关性超过设定的第二相关性阈值，则认为第j帧存在混叠现象，反之不存在混叠现象。

如图5所示，提供了极大值的检测原理。先将分为N_sub个维数均为L_sub的子频带，每个子频带用公式表示为：

其中，n＝1,2,…,N_sub。

每一个子频带为单位，判断子频带内是否存在极大值，判断公式为：

其中，λ是预设的常数，f表示频率索引；

在每个子频带内寻找所有满足判断公式的极大值f；若极大值不存在，则在相应子频带内无峰值；若存在唯一极大值，则记录该唯一极大值；若存在多个极大值，则选取最大的一个，作为相应子频带的极大值。为了避免子频带边界处存在极值而导致结果不准确，当所有子频带都判断完毕后，将每个子频带往后移动L_sub/2维(如图5底部第二行矩形所示)，再次基于判断公式寻找极大值；只有当两轮计算结果均在同一频率f处计算出极大值，才认为频率f处存在极大值。如果检测出M个极大值，则得到对应的频率：

f_max＝[f₁,f₂,…,f_M],M≤N_sub

此后，对X_1,j[f]低频处的基带信号与f_i附近的频域求皮尔逊相关系数。若某个频率处二者的相关程度较高，则说明该帧存在混叠现象，包含超声波攻击信号。在图4所示的幅值谱中可以看出，混叠信号和基带攻击信号可能会有部分重叠。

为了更好地检测，按攻击信号的频率分为两类分别处理。对于中心频率为f_ori的攻击信号经过混叠后，会变为中心频率为f_alias的混叠信号，设定一般音频信号的频率不超过F(例如，4kHz)。

构造匹配模板：

X_template＝[X_1,j[f_thres],…,X_1,j[2],X_1,j[1],X_1,j[1],X_1,j[2],…,X_1,j[f_thres]]

其中，f_thres是给定的数值；模板的每一项都是频域信息X_1,j中的值，所构造的模板与攻击信号的特征相匹配；X_template可以理解为取了一定带宽的基带信号，通过f_thres来控制带宽的最高频率；

如果f_alias≥F，则表示基带信号与混叠信号不会重叠；计算匹配模板X_template与[X_1,j[f_i-f_thres],…,X_1,j[f_i-1],X_1,j[f_i],…,X_1,j[f_i+f_thres-1]],f_i∈f_max之间的皮尔逊相关系数。

如果f_alias＜F，混叠信号的下边带和基带攻击信号极容易重叠，按上述方法求相关效果不好。针对这种情况，选取匹配模板X_template的上边带[X_1,j[1],X_1,j[2],…,X_1,j[f_thres]]，并计算与[X_1,j[f_i+1],…,X_1,j[f_i+f_thres]]之间的皮尔逊相关系数；

在防御时，无法预知攻击信号的中心频率f_ori和对应的f_alias，则针对上述两种情况分别进行计算，并分别得到M个皮尔逊相关系数，任一个皮尔逊相关系数超过设定的第二相关性阈值T_highfre，则表示第j帧存在混叠现象，即含有超声波语音指令攻击信号。

对于每一帧都通过以上方案进行判断，最后，再综合判断；具体的：将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频中包含语音信号的帧数记为N_all，将存在混叠现象的帧数记为N_attack；

判断是否满足以下公式：

其中，T_attack为比例阈值；

若满足上述公式，则录音音频为超声波语音指令攻击音频，直接丢弃；否则，录音音频为合法音频，此时可以将录音音频输出至其他应用。

为了说明本发明实施例上述方案的效果，还与现有方案进行了测试实验。

实验中，接收端采用了三种录音设备：Huawei P9智能手机、Huawei nova 3i智能手机和麦克风阵列MIC-ARRAY，采样率均设定为48kHz。其中Huawei P9和Huawei nova3i录音音频为双声道。MIC-ARRAY录音为四声道，我们取其中一个声道，将该录音设备作为单麦克风录音设备进行测试。每台录音设备录音音频数是242。实验结果如表1至表3所示。

表1 Huawei P9智能手机的实验结果

表2 Huawei nova 3i智能手机的实验结果

表3 麦克风阵列MIC-ARRAY的实验结果

上述三个表格中，四个指标分别为准确率、精确率、召回率、F₁值。第一行Baseline为参考，第二行为背景技术介绍的Yan等人的方案的结果，第三行为本发明上述方案的结果。可见，本发明上述方案的效果明显由于现有方案。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，包括：

当采用单麦克风录音时，直接检测是否混叠现象，若不存在混叠现象，则最判定为正常录音，否则，判定存在超声波语音指令攻击信号；

其中，所述利用双声道的相关性，判断是否存在超声波语音指令攻击信号的步骤包括：

将两个麦克风录音的音频分别表示为x₁[i],x₂[i],1≤i≤L，L表示音频的总采样点数，x₁[i],x₂[i]各自表示相应声道第i个采样点的音频信息，x₁[i],x₂[i]的第j帧对应的记为x_1,j，x_2,j；

分别计算x_1,j和x_2,j的平均能量E_1,j和E_2,j；

若平均能量E_1,j和E_2,j均低于或等于设定的阈值T_erengy，则表示第j帧是非语音片段，则滑动窗口直接后移，计算下一帧；

否则，对x_1,j和x_2,j分别叠加窗函数，并通过傅立叶变换求得幅值谱X_1,j和X_2,j，其中，f表示频率索引，L_f为帧长的固定维度；再计算X_1,j和X_2,j的皮尔逊相关系数r[j]；如果r[j]≥T_dualmic，则认为第j帧不存在超声波语音指令攻击信号，反之则存在超声波语音指令攻击信号；其中，T_dualmic为第一相关性阈值；叠加窗函数与皮尔逊相关系数的计算公式表示为：

其中，x_1,j[k]、各自表示x_1,j、x_2,j的第k维；w[k]表示窗函数；/> 分别为对x_1,j和x_2,j叠加窗函数得到的结果。

2.根据权利要求1所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，

对所有音频帧都进行判断后，将存在超声波语音指令攻击信号的帧数记为N_dualattack，将包含语音信号的帧数记为N_dualall，如果满足下式，则认为双声道则录音音频为超声波语音指令攻击音频，直接丢弃：

其中，T_dualattack为设定的阈值。

3.根据权利要求1所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，检测是否存在混叠现象的步骤包括：

将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频均表示为x₁[i],1≤i≤L，L表示音频的总采样点数，从中取出第j帧x_1,j；

计算第j帧x_1,j的平均能量E_1,j；若平均能量E_1,j低于或等于设定的阈值T_erengy，则表示第j帧是非语音片段，则滑动窗口直接后移，计算下一帧；

否则，第j帧含有语音信号，对x_1,j叠加窗函数，并通过傅立叶变换求得幅值谱其中，f表示维度，L_f为帧长的固定维度；再根据幅值谱X_1,j，判断是否存在混叠信号：先扫描所有频率，检测是否存在cos(2πforit)对应的频谱极大值，其中，t表示时间，f_ori为表示攻击信号的中心频率；若不存在，则认为第j帧是合法的帧，不存在混叠现象；若存在极大值，说明存在余弦信号，则再检测该极大值对应的上下频带是否和基带信号相关，当相关性超过设定的第二相关性阈值，则认为第j帧存在混叠现象，反之不存在混叠现象。

4.根据权利要求3所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，检测是否存在cos(2πf_orit)对应的频谱极大值的步骤包括：

将分为N_sub个维数均为L_sub的子频带，每个子频带用公式表示为：

其中，n＝1,2,…,N_sub；

其中，λ是预设的常数，f表示频率索引；

在每个子频带内寻找所有满足判断公式的极大值f；若极大值不存在，则在相应子频带内无峰值；若存在唯一极大值，则记录该唯一极大值；若存在多个极大值，则选取最大的一个，作为相应子频带的极大值；

当所有子频带都判断完毕后，将每个子频带往后移动L_sub/2维，再次基于判断公式寻找极大值；只有当两轮计算结果均在同一频率f处算出极大值，才认为该频率f处存在极大值。

5.根据权利要求4所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，如果检测出M个极大值，则得到对应的频率：

f_max＝[f₁,f₂,…,f_M],M≤N_sub

对于中心频率为f_ori的攻击信号经过混叠后，会变为中心频率为f_alias的混叠信号，设定音频信号的频率不超过F；

构造匹配模板：

其中，f_thres是给定的数值；

如果f_alias≥F，则表示基带信号与混叠信号不会重叠；计算匹配模板X_template与[X_1,j[f_i-f_thres],…,X_1,j[f_i-1],X_1,j[f_i],…,X_1,j[f_i+f_thres-1]],f_i∈f_max之间的皮尔逊相关系数；

如果f_alias＜F，则选取匹配模板X_template的上边带[X_1,j[1],X_1,j[2],…,X_1,j[f_thres]]，并计算与[X_1,j[f_i+1],…,X_1,j[f_i+f_thres]]之间的皮尔逊相关系数；

在防御时，无法预知攻击信号的中心频率f_ori和对应的f_alias，则针对上述两种情况分别进行计算，并分别得到M个皮尔逊相关系数，任一个皮尔逊相关系数超过设定的第二相关性阈值T_highfre，则表示第j帧存在混叠现象。

6.根据权利要求3或4所述的一种基于信号混叠和双声道相关性的超声波语音指令防御方法，其特征在于，

将单麦克风录音的音频、以及双声道中能量较强的声道录音的音频中包含语音信号的帧数记为N_all，将存在混叠现象的帧数记为N_attack；

判断是否满足以下公式：

其中，T_attack为比例阈值；

若满足上述公式，则录音音频为超声波语音指令攻击音频，直接丢弃；否则，录音音频为合法音频。