CN112151038B

CN112151038B - 语音重放攻击检测方法、装置、可读存储介质及电子设备

Info

Publication number: CN112151038B
Application number: CN202010949579.1A
Authority: CN
Inventors: 李锐
Original assignee: Cloudminds Shanghai Robotics Co Ltd
Current assignee: Cloudminds Shanghai Robotics Co Ltd
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-12-16
Anticipated expiration: 2040-09-10
Also published as: WO2022052965A1; CN112151038A

Abstract

本公开涉及一种语音重放攻击检测方法、装置、可读存储介质及电子设备。该方法包括：获取麦克风阵列采集到的多通道语音信号；提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号；针对所述多通道信号中除第一通道信号之外的N个其他通道信号，确定所述其他通道信号与所述第一通道信号二者之间的相对延时谱，其中，所述第一通道信号为所述多通道信号中的任一通道信号，N为大于或等于1的正整数；根据所述相对延时谱，识别采集到的语音信号是否为重放攻击。本公开可以准确识别采集到的语音信号是真实语音还是重放攻击，以确保语音交互系统的安全。

Description

语音重放攻击检测方法、装置、可读存储介质及电子设备

技术领域

本公开涉及语音交互安全领域，具体地，涉及一种语音重放攻击检测方法、装置、可读存储介质及电子设备。

背景技术

随着以语音作为信息交互的智能设备的广泛应用，人类的声纹特征也逐渐成为一种重要的身份认证信息，与其他认证信息一样，声纹不可避免的会被不法分子窃取或仿冒。如果没有防范措施，则只需要偷录一段语音，就可以轻易通过认证系统。

为了提高语音交互的安全性，对获取的语音信息进行活体检测是必不可少的。然而在现有语音重放攻击检测方法中，主要以单麦信号为主，采用模板法和机器学习方法进行判别。由于偷录的语音信号本身就与用户的语音信号具有极高的相似度，所以此种方法的检测率并不高。

因此，如何识别采集到的语音是真实的语音还是重放的语音，已成为语音交互领域中一个需要解决的问题。

发明内容

本公开的目的是提供一种语音重放攻击检测方法、装置、可读存储介质及电子设备，以解决相关技术存在的问题。

为了实现上述目的，第一方面，本公开提供一种语音重放攻击检测方法，包括：

获取麦克风阵列采集到的多通道语音信号；

提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号；

针对所述多通道信号中除第一通道信号之外的N个其他通道信号，确定所述其他通道信号与所述第一通道信号二者之间的相对延时谱，其中，所述第一通道信号为所述多通道信号中的任一通道信号，N为大于或等于1的正整数；

根据所述相对延时谱，识别采集到的语音信号是否为重放攻击。

可选地，所述提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号，包括：

对第二通道语音信号进行语音激活检测，以检测出所述第二通道语音信号中的语音信号和非语音信号，其中，所述第二通道信号为所述多通道语音信号中的任一通道语音信号；

从所述第二通道语音信号中提取所述非语音信号；根据检测出的所述非语音信号在所述第二通道语音信号中的时间段，分别从除所述第二通道语音信号之外的其他通道语音信号中提取属于所述时间段的信号部分，作为该其他通道语音信号中的所述非语音信号。

可选地，所述根据所述相对延时谱，识别采集到的语音信号是否为重放攻击，包括：

在N＝1的情况下，确定所述相对延时谱中的最大峰值；

在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击。

在N＞1的情况下，分别确定每一所述相对延时谱中的最大峰值，以得到N个最大峰值；

根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击。

可选地，所述根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击，包括以下中的一者：

在所述N个最大峰值的平均值大于或等于所述预设阈值的情况下，识别采集到的语音信号为重放攻击；

在所述N个最大峰值的最大值大于或等于所述预设阈值的情况下，识别采集到的语音信号为重放攻击；

在所述N个最大峰值中大于或等于所述预设阈值的最大峰值的数量达到预设数量的情况下，识别采集到的语音信号为重放攻击。

第二方面，本公开提供了一种语音重放攻击检测的装置，所述装置包括：

获取模块，用于获取麦克风阵列采集到的多通道语音信号；

提取模块，用于提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号；

确定模块，用于针对所述多通道信号中除第一通道信号之外的N个其他通道信号，确定所述其他通道信号与所述第一通道信号二者之间的相对延时谱，其中，所述第一通道信号为所述多通道信号中的任一通道信号，N为大于或等于1的正整数；

识别模块，用于根据所述相对延时谱，识别采集到的语音信号是否为重放攻击。

可选地，所述提取模块包括：

语音激活检测子模块，用于对第二通道语音信号进行语音激活检测，以检测出所述第二通道语音信号中的语音信号和非语音信号，其中，所述第二通道信号为所述多通道语音信号中的任一通道语音信号；

第一提取子模块，用于从所述第二通道语音信号中提取所述非语音信号；

第二提取子模块，用于根据检测出的所述非语音信号在所述第二通道语音信号中的时间段，分别从除所述第二通道语音信号之外的其他通道语音信号中提取属于所述时间段的信号部分，作为该其他通道语音信号中的所述非语音信号。

可选地，所述识别模块包括：

第一识别子模块，用于在N＝1的情况下，确定所述相对延时谱中的最大峰值；在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击；

第二识别子模块，用于在N＞1的情况下，分别确定每一所述相对延时谱中的最大峰值，以得到N个最大峰值；根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击。

可选地，所述第二识别子模块用于通过以下方式中的一种来识别采集到的语音信号是否为重放攻击：在所述N个最大峰值的平均值大于或等于所述预设阈值的情况下，识别采集到的语音信号为重放攻击；在所述N个最大峰值的最大值大于或等于所述预设阈值的情况下，识别采集到的语音信号为重放攻击；在所述N个最大峰值中大于或等于所述预设阈值的最大峰值的数量达到预设数量的情况下，识别采集到的语音信号为重放攻击。

第三方面，本公开提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一方面提供的所述方法的步骤。

第四方面，本公开提供一种电子设备，包括：存储器，其上存储有计算机程序；处理器，用于执行所述存储器中的所述计算机程序，以实现本公开第一方面提供的所述方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：首先获取麦克风阵列采集到的多通道语音信号，之后提取该多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。接下来，针对多通道信号中除第一通道信号之外的N个其他通道信号，确定该其他通道信号与该第一通道信号二者之间的相对延时谱。最后，根据该相对延时谱，识别采集到的语音信号是否为重放攻击。在本公开中，发明人经过研究，发现了利用功放设备播放的语音信号中，其噪声具有较高的相关性，所以其相对延时谱会形成一个强峰。因此，通过对多通道信号的相对延时谱进行分析，可以准确地识别所采集到的语音信号是否为语音重放攻击。本公开提供的语音重放攻击检测方法可对各类功放设备的重放音频信号进行有效检测，具有较高和较稳定的检测性能。此外，该方法可以大大降低以语音信息作为身份验证的语音交互系统的安全风险，提高语音交互的安全性。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种语音重放攻击检测方法的流程图。

图2是根据一示例性实施例示出的真实语音中的语音和非语音部分相对应的相对延时谱的示意图。

图3是根据一示例性实施例示出的重放攻击中的语音和非语音部分相对应的相对延时谱的示意图。

图4是根据另一示例性实施例示出的一种语音重放攻击检测方法的流程图。

图5是根据另一示例性实施例示出的一种语音重放攻击检测方法的流程图。

图6是根据一示例性实施例示出的一种语音重放攻击检测装置的流程图。

图7是根据一示例性实施例示出的一种电子设备的框图。

图8是根据另一示例性实施例示出的一种电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

在语音交互技术领域中，重放攻击是指利用录音设备偷录目标用户的语音，再将其重新播放，冒充该目标用户通过系统认证，从而容易造成用户信息泄露、财产损失等问题。重放攻击是一种极易实现和成本低廉的攻击方法，极易被不法分子所利用。

相关的检测技术中，主要采用模板法和机器学习方法对语音信号的时频特征进行判别。其中，模板法是首先将语音信号进行模板训练，得到模板库，然后将待识别的语音信号以相同的规则处理完成后与模板库中数据进行对比，以识别该待识别的语音是真实语音还是重放攻击。机器学习方法是根据已知的真假语音数据来训练语音检测模型，然后将待识别的语音信号输入到该模型中进行分类判别，以识别该待识别的语音是真实语音还是重放攻击。

由于偷录的语音信号本身就与用户的真实语音信号具有极高的相似度，所以相关技术中的检测方法的检测率并不高。假如采用高保真功放设备播放偷录的语音，通过模板法可能无法分辨所采集信号的真假。而针对机器学习方法，又受到学习数据分布的影响，检测鲁棒性也较低，很难对训练数据分布外的信号进行有效检测。比如利用手机播放的语音所训练出的模型，可能不具有对便携式笔记本所播放的语音的鉴伪能力。换句话说，基于模板法和机器学习的检测方法往往是与仿冒语音的播放设备息息相关的，检测率低下，且通用性较差。

鉴于此，本公开提供了一种语音重放攻击检测的方法。基于重放语音中的噪声具有空间方向性这一特点，对重放语音进行识别。

图1是根据一示例性实施例示出的一种语音重放攻击检测方法的流程图。该方法可以例如应用于智能机器人、智能音箱等电子设备中。如图1所示，该方法可以包括S101至S104。

在S101中，获取麦克风阵列采集到的多通道语音信号。

在本实施例中，多通道语音信号可以通过M元麦克风阵列(M≥2)采集，其中，该麦克风阵列可以是任意形式的具有语音采集能力的装置，并且，该麦克风阵列可设置于例如智能机器人等的终端设备上，或者设置成独立装置。该麦克风阵列的排列结构可以是线性结构，也可以是环形结构，对此本公开不做限定。

在S102中，提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。

示例地，在M元麦克风阵列中，第i通道实际接收的语音信号表达式为：

M_i(t,f)＝H_i(f)S(t,f)+N_i(t,f)

第j通道实际接收的语音信号表达式为：

M_j(t,f)＝H_j(f)S(t,f)+N_j(t,f)

其中，M_i(t,f)代表第i通道实际接收的语音信号，M_j(t,f)代表第j通道实际接收的语音信号，S(t,f)代表声源信号，H_i(f)、H_j(f)分别代表第i通道和第j通道各自路径的传递函数，N_i(t,f)、N_j(t,f)分别代表第i通道实际接收的语音信号中的背景噪声以及第j通道实际接收的语音信号中的背景噪声。

在非语音信号段，即S＝0时，第i通道实际接收的语音信号表达式为：

M_i(t,f)＝N_i(t,f)

第j通道实际接收的语音信号表达式为：

M_j(t,f)＝N_j(t,f)

在语音信号段，由于麦克风阵列中的每个阵元接收到的语音信号都来自同一个声源，因此各通道语音信号之间存在很强的相关性。

在真实语音的情况下，在非语音信号段，由于背景噪声往往是散射型而没有方向性的，所以各通道的非语音段信号之间是不相关的，或者存在较弱的相关性。

在重放攻击的语音信号和用户真实的语音信号相似度极高的情况下，语音信号之间相关性很强，因此，通过语音部分很难识别重放攻击。

对于重放语音，将录音设备录制的单麦信号定义为：

M_p(t,f)＝H_p(f)S(t,f)+N_p(t,f)

其中，M_p(t,f)代表录制设备实际接收的语音信号，H_p(f)代表录制设备在其路径的传递函数，N_p(t,f)代表录制设备实际接收的语音信号中的背景噪声。

将此信号重新播放，在M元麦克风阵列中，第i通道实际接收的语音信号表达式为：

M_i(t,f)＝H′_i(f)(M_p(t,f)+N_e(t,f))+N_i(t,f)

第j通道实际接收的语音信号表达式为：

M_j(t,f)＝H′_j(f)(M_p(t,f)+N_e(t,f))+N_j(t,f)

其中，N_e(t,f)代表由功放设备所引起的噪声，比如电磁噪声， H′_i(f)、H′_j(f)代表分别代表第i通道和第j通道各自路径的传递函数。

在重放语音的非语音信号段，即S＝0时，第i通道实际接收语音信号表达式为：

M_i(t,f)＝H′_i(f)(N_p(t,f)+N_e(t,f))+N_i(t,f)

第j通道实际接收语音信号表达式为：

M_j(t,f)＝H′_j(f)(N_p(t,f)+N_e(t,f))+N_j(t,f)

由于在录音设备录制时单麦信号的背景噪声是随机没有方向性的，在此时，各通道的非语音信号是不具有相关性的；但是在功放设备重放语音时，功放设备变成了点声源。在没有语音信号的时候，N_p(t,f)和N_e(t,f)具有了空间方向性。尽管没有语音信号，但是N_p(t,f)和N_e(t,f)在两通道之间仍具有较高的相关性，所以可以利用重放噪声在非语音时间段的这一空间特性进行语音重放攻击检测。

在一种可能的实现方式中，对所获取到多通道语音信号，逐个进行语音激活检测，分别提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。

在S103中，针对所述多通道信号中除第一通道信号之外的N个其他通道信号，确定所述其他通道信号与所述第一通道信号二者之间的相对延时谱。

其中，所述第一通道信号为所述多通道信号中的任一通道信号，N为大于或等于1的正整数。

在该步骤中，可以首先从多通道信号中指定一通道信号，作为第一通道信号，或者，可以预先设置多通道信号中哪条通道信号作为第一通道信号，本公开对此不进行限定。该第一通道信号可以用作参考通道信号。之后，针对除第一通道信号之外的N个其他通道信号，逐一计算该其他通道信号与该第一通道信号二者之间的相对延时谱。示例地，若N＝1，则计算该其他通道信号与该第一通道信号二者之间的相对延时谱；若N＞1，则分别计算N个其他通道信号中的每一其他通道信号与该第一通道信号二者之间的相对延时谱。在本公开中，可以例如通过互相关算法来计算相对延时谱。示例地，互相关算法包括但不限于：广义互相关法(Generialized Cross-Correlation， GCC)，广义互相关-相位变换方法(Generialized Cross-Correlation-Phase Transform，GCC-PATH)，广义互相关-Roth加权法(Generialized Cross-Correlation-Roth，GCC-Roth)，广义互相关-平滑向相关变换法(GenerializedCross-Correlation-Smooth to correlation transform，GCC-SCOT)，广义互相关-Eckart滤波法(Generialized Cross-Correlation-Eckart， GCC-Eckart)，以及互功率谱相位法(Crosspower spectrum phase，CSP)等。

在S104中，根据所述相对延时谱，识别采集到的语音信号是否为重放攻击。

如上所述，在功放设备重放语音时，功放设备变成了点声源，其中，重放噪声在非语音时间段具有了空间方向性，其相对延时谱会形成一个强峰。因此，在一种可能的实现方式中，通过判断相对延时谱中是否出现强峰来识别采集到的语音是否为重放攻击。在判定相对延时谱中出现强峰的情况下，识别采集到的语音为重放攻击。

图2是根据一示例性实施例示出的真实语音中的语音和非语音部分相对应的相对延时谱的示意图；图3是根据一示例性实施例示出的重放攻击中的语音和非语音部分相对应的相对延时谱的示意图。

在语音信号段，参见图2中的(b)所示的相对延时谱和图3中的(d) 所示的相对延时谱，由于语音信号具有很强的相关性，所以两通道语音信号段的相对延时谱会形成很强的峰。

在非语音信号段，参见图2中的(a)所示的真实语音的相对延时谱，由于真实语音的背景噪声具有较弱的相关性，所以两通道非语音信号段的相对延时谱不会出现较强的峰。

而在重放语音的非语音信号段，参见图3中的(c)所示的重放攻击的相对延时谱，由于N_p(t,f)和N_e(t,f)具有较高的相关性，所以两通道非语音信号段的相对延时谱会出现较强的峰。

因此，可以通过判断相对延时谱中是否出现强峰来准确识别采集到的语音是否为重放攻击。

本公开的上述实施例提供的技术方案可以包括以下有益效果：首先获取麦克风阵列采集到的多通道语音信号，之后提取该多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。接下来，针对多通道信号中除第一通道信号之外的N个其他通道信号，确定该其他通道信号与该第一通道信号二者之间的相对延时谱。最后，根据该相对延时谱，识别采集到的语音信号是否为重放攻击。在本公开中，发明人经过研究，发现了利用功放设备播放的语音信号中，其噪声具有较高的相关性，所以其相对延时谱会形成一个强峰。因此，通过对多通道信号的相对延时谱进行分析，可以准确地识别所采集到的语音信号是否为语音重放攻击。本公开提供的语音重放攻击检测方法可对各类功放设备的重放音频信号进行有效检测，具有较高和较稳定的检测性能。此外，该方法可以大大降低以语音信息作为身份验证的语音交互系统的安全风险，提高语音交互的安全性。

图4是根据另一示例性实施例示出的一种语音重放攻击检测方法的流程图。如图4所示，在本公开另一种可能的实现方式中，S102可以进一步包括：

在S401中，对第二通道语音信号进行语音激活检测，以检测出所述第二通道语音信号中的语音信号和非语音信号，其中，所述第二通道信号为所述多通道语音信号中的任一通道语音信号；

在S402中，从所述第二通道语音信号中提取所述非语音信号；

在S403中，根据检测出的所述非语音信号在所述第二通道语音信号中的时间段，分别从除所述第二通道语音信号之外的其他通道语音信号中提取属于所述时间段的信号部分，作为该其他通道语音信号中的所述非语音信号。

示例地，在M元麦克风阵列中，当M＝2时，对两条通道中的其中一条通道的语音信号进行语音激活检测，得到该通道的非语音信号的时间段，例如，该时间段为T₁-T₂，之后，从该通道的语音信号中提取出T₁-T₂时间段内的信号部分，作为该通道语音信号中的非语音信号。然后，根据该时间段 T₁-T₂，提取另一条通道的语音信号中属于T₁-T₂时间段内的信号部分，所提取出的信号部分即作为该另一通道语音信号中的非语音信号。

示例地，在M元麦克风阵列中，当M＝6时，对六条通道中的其中一条通道的语音信号进行语音激活检测，得到该通道的非语音信号的时间段，例如，该时间段为T₁-T₂，之后，从该通道的语音信号中提取出T₁-T₂时间段内的信号部分，作为该通道语音信号中的非语音信号。然后，根据该时间段 T₁-T₂，分别提取剩下五条通道中每条通道的语音信号中属于T₁-T₂时间段内的信号部分，所提取出的信号部分即作为对应的通道语音信号中的非语音信号。

根据上述技术方案，可以不必对每一通道语音信号进行语音激活检测，而是只对其中一通道语音信号进行语音激活检测，检测方法的复杂度被大大降低。由于多通道语音信号中语音信号段和非语音信号段具有高度的相似性，因此，在对其中一个通道语音信号进行语音激活检测并得到非语音信号时段信息后，直接利用该时段信息，对其他通道语音信号仅在时间维度上进行信号提取，可以确保语音激活检测的准确率，同时大大提高检测效率。

图5是根据另一示例性实施例示出的一种语音重放攻击检测方法的流程图。如图5所示，在本公开另一种可能的实现方式中，S104可以进一步包括：

在S501中，在N＝1的情况下，确定所述相对延时谱中的最大峰值；

在S502中，在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击。

示例地，在N＝1的情况下，获取麦克风阵列中两条通道的语音信号，执行S102和S103，得到这两条语音通道的相对延时谱，之后，确定其最大峰值，记为P，若所述相对延时谱中的最大峰值P大于或等于预设阈值δ，则识别采集到的语音信号为重放攻击。

此外，如图5所示，S104可以进一步包括：

在S503中，在N＞1的情况下，分别确定每一所述相对延时谱中的最大峰值，以得到N个最大峰值；

在S504中，根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击。

示例地，在N＝5的情况下，获取麦克风阵列中六条通道的语音信号，执行S102和S103，得到五个相对延时谱，之后，逐一确定每个相对延时谱的最大峰值，分别记为P12、P13、P14、P15、P16。接下来，根据这五个最大峰值和预设阈值，来识别采集到的语音信号是否为重放攻击。

具体地，S504可以进一步包括以下中的一者：

其中，预设阈值可以为预先设置好的门限阈值，与实际麦克风阵列相关。

在一种可能的实现方式中，沿用上述例子，计算五个最大峰值P12、P13、 P14、P15、P16的平均值，记为P。若该平均值P大于或等于所述预设阈值δ，则识别采集到的语音信号为重放攻击。

在另一种可能的实现方式中，取五个最大峰值P12、P13、P14、P15、 P16中的最大值，记为P。若该最大值P大于或等于所述预设阈值δ，则识别采集到的语音信号为重放攻击。

在再一种可能的实现方式中，统计五个最大峰值P12、P13、P14、P15、 P16中达到预设阈值δ(即，大于或等于该预设阈值δ)的最大峰值的数量，记为B，若该数量B达到预设数量(即，大于或等于该预设数量)的情况下，则识别采集到的语音信号为重放攻击。

根据上述技术方案，利用功放设备播放语音信号时，其噪声具有较高的相关性，可以使相对延时谱形成一个强峰。因此，通过对多通道信号的相对延时谱进行分析，可以准确地识别所采集到的语音信号是否为语音重放攻击。将相对延时谱的最大峰值与预设阈值进行比较，可以清晰地从相对延时谱中分辨出峰值与预设阈值的关系，借此准确识别出相对延时谱中是否出现强峰，进而可以高效快捷地识别真实语音和重放攻击。

图6是根据一示例性实施例示出的一种语音重放攻击检测装置的框图。如图6所示，该装置可以包括获取模块601、提取模块602、确定模块603、识别模块604。

该获取模块601用于获取麦克风阵列采集到的多通道语音信号。

该提取模块602用于提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。

该确定模块603用于针对所述多通道信号中除第一通道信号之外的N个其他通道信号，确定所述其他通道信号与所述第一通道信号二者之间的相对延时谱，其中，所述第一通道信号为所述多通道信号中的任一通道信号，N 为大于或等于1的正整数。

该识别模块604用于根据所述相对延时谱，识别采集到的语音信号是否为重放攻击。

通过上述技术方案，首先获取麦克风阵列采集到的多通道语音信号，之后提取该多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号。接下来，针对多通道信号中除第一通道信号之外的N个其他通道信号，确定该其他通道信号与该第一通道信号二者之间的相对延时谱。最后，根据该相对延时谱，识别采集到的语音信号是否为重放攻击。在本公开中，发明人经过研究，发现了利用功放设备播放的语音信号中，其噪声具有较高的相关性，所以其相对延时谱会形成一个强峰。因此，通过对多通道信号的相对延时谱进行分析，可以准确地识别所采集到的语音信号是否为语音重放攻击。本公开提供的语音重放攻击检测方法可对各类功放设备的重放音频信号进行有效检测，具有较高和较稳定的检测性能。此外，该方法可以大大降低以语音信息作为身份验证的语音交互系统的安全风险，提高语音交互的安全性。

可选地，所述提取模块602可以包括：语音激活检测子模块，用于对第二通道语音信号进行语音激活检测，以检测出所述第二通道语音信号中的语音信号和非语音信号，其中，所述第二通道信号为所述多通道语音信号中的任一通道语音信号；第一提取子模块，用于从所述第二通道语音信号中提取所述非语音信号；第二提取子模块，用于根据检测出的所述非语音信号在所述第二通道语音信号中的时间段，分别从除所述第二通道语音信号之外的其他通道语音信号中提取属于所述时间段的信号部分，作为该其他通道语音信号中的所述非语音信号。

可选地，所述识别模块604可以包括：第一识别子模块，用于在N＝1 的情况下，确定所述相对延时谱中的最大峰值；在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击；第二识别子模块，用于在N＞1的情况下，分别确定每一所述相对延时谱中的最大峰值，以得到N个最大峰值；根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示，该电子设备700可以包括：处理器701，存储器702。该电子设备700 还可以包括多媒体组件703，输入/输出(I/O)接口704，以及通信组件705 中的一者或多者。

其中，处理器701用于控制该电子设备700的整体操作，以完成上述的语音重放攻击检测方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作，这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称 EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口704为处理701 和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备 700与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、 eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件705可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器 (DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的语音重放攻击检测方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音重放攻击检测方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器702，上述程序指令可由电子设备700的处理器701执行以完成上述的语音重放攻击检测方法。

图8是根据一示例性实施例示出的一种电子设备1900的框图。例如，电子设备1900可以被提供为一服务器。参照图8，电子设备1900包括处理器1922，其数量可以为一个或多个，以及存储器1932，用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器1922可以被配置为执行该计算机程序，以执行上述的语音重放攻击检测方法。

另外，电子设备1900还可以包括电源组件1926和通信组件1950，该电源组件1926可以被配置为执行电子设备1900的电源管理，该通信组件1950 可以被配置为实现电子设备1900的通信，例如，有线或无线通信。此外，该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统，例如WindowsServer^TM，Mac OS X^TM，Unix^TM，Linux^TM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的语音重放攻击检测方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器1932，上述程序指令可由电子设备1900的处理器1922执行以完成上述的语音重放攻击检测方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的语音重放攻击检测方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种语音重放攻击检测方法，其特征在于，包括：

获取麦克风阵列采集到的多通道语音信号，其中，所述多通道语音信号通过M元麦克风阵列采集，M≥2；

根据所述相对延时谱，识别采集到的语音信号是否为重放攻击；

其中，所述根据所述相对延时谱，识别采集到的语音信号是否为重放攻击，包括：

在N=1的情况下，确定所述相对延时谱中的最大峰值；

在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击；

2.根据权利要求1所述的方法，其特征在于，所述提取所述多通道语音信号中的非语音信号，以得到不包含语音信号的多通道信号，包括：

对第二通道语音信号进行语音激活检测，以检测出所述第二通道语音信号中的语音信号和非语音信号，其中，所述第二通道语音信号为所述多通道语音信号中的任一通道语音信号；

3.根据权利要求1所述的方法，其特征在于，所述根据所述N个最大峰值和预设阈值，识别采集到的语音信号是否为重放攻击，包括以下中的一者：

4.一种语音重放攻击检测装置，其特征在于，包括：

获取模块，用于获取麦克风阵列采集到的多通道语音信号，其中，所述多通道语音信号通过M元麦克风阵列采集，M≥2；

识别模块，用于根据所述相对延时谱，识别采集到的语音信号是否为重放攻击；

其中，所述识别模块包括：

第一识别子模块，用于在N=1的情况下，确定所述相对延时谱中的最大峰值；在所述最大峰值大于或等于预设阈值的情况下，识别采集到的语音信号为重放攻击；

5.根据权利要求4所述的装置，其特征在于，所述第二识别子模块用于通过以下方式中的一种来识别采集到的语音信号是否为重放攻击：

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-3中任一项所述方法的步骤。

7.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-3中任一项所述的步骤。