CN110277093A

CN110277093A - 音频信号的检测方法及装置

Info

Publication number: CN110277093A
Application number: CN201910696493.XA
Authority: CN
Inventors: 纪璇; 于蒙; 陈杰; 郑脊萌; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-09-24
Anticipated expiration: 2039-07-30
Also published as: CN110277093B

Abstract

本发明公开了一种音频信号的检测方法及装置。其中，该方法包括：获取采集到的目标音频信号；从目标音频信号中获取多个目标方向的波束信号；根据多个目标方向的波束信号和目标音频信号生成目标音频信号对应的音频特征；对音频特征进行唤醒词检测；在从音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，目标设备是在接收到目标唤醒词时启动的设备。该方法涉及人工智能的自然语言处理等技术。本发明解决了智能设备的唤醒率较低的技术问题。

Description

音频信号的检测方法及装置

技术领域

本发明涉及计算机领域，具体而言，涉及一种音频信号的检测方法及装置。

背景技术

在智能设备语音唤醒的技术领域，现有的唤醒方式通常是将生成的多路信号特征循环通过唤醒模型相当于要调用多次唤醒模型，计算量增加了多倍，而且会增加误唤醒的可能，导致唤醒率较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种音频信号的检测方法及装置，以至少解决智能设备的唤醒率较低的技术问题。

根据本发明实施例的一个方面，提供了一种音频信号的检测方法，包括：

获取采集到的目标音频信号；

从所述目标音频信号中获取多个目标方向的波束信号；

根据所述多个目标方向的波束信号和所述目标音频信号生成所述目标音频信号对应的音频特征；

对所述音频特征进行唤醒词检测；

在从所述音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，所述目标设备是在接收到目标唤醒词时启动的设备。

根据本发明实施例的另一方面，还提供了一种音频信号的检测装置，包括：

第一获取模块，用于获取采集到的目标音频信号；

第二获取模块，用于从所述目标音频信号中获取多个目标方向的波束信号；

生成模块，用于根据所述多个目标方向的波束信号和所述目标音频信号生成所述目标音频信号对应的音频特征；

检测模块，用于对所述音频特征进行唤醒词检测；

启动模块，用于在从所述音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，所述目标设备是在接收到目标唤醒词时启动的设备。

可选地，所述第一获取模块包括：

采集单元，用于通过所述目标设备上配置的麦克阵列采集多个音频信号，其中，所述麦克阵列包括多个麦克，所述多个麦克与所述多个音频信号一一对应；

合成单元，用于将所述多个音频信号合成为所述目标音频信号。

可选地，所述生成模块包括：

获取单元，用于从所述目标音频信号所包括的所述多个音频信号中获取一个音频信号；

生成单元，用于根据所述多个目标方向的波束信号和所述一个音频信号生成所述音频信号对应的音频特征。

根据本发明实施例的另一方面，还提供了一种智能语音交互设备，包括：处理器、麦克和传输装置，其中，

所述处理器分别与所述麦克和所述传输装置连接；

所述麦克用于采集目标音频信号，并将所述目标音频信号传输至所述处理器；

所述处理器用于获取采集到的所述目标音频信号；从所述目标音频信号中获取多个目标方向的波束信号；根据所述多个目标方向的波束信号和所述目标音频信号生成所述音频信号对应的音频特征；对所述音频特征进行唤醒词检测；并在从所述音频特征中检测到目标唤醒词的情况下，通过所述传输装置启动目标设备，其中，所述目标设备是在接收到目标唤醒词时启动的设备；

所述传输装置用于根据所述处理器的指示向所述目标设备发送用于启动所述目标设备的指令。

可选地，所述处理器用于：

根据所述多个目标方向的波束信号和所述目标音频信号的信噪比分别为所述多个目标方向的波束信号和所述目标音频信号分配权重，其中，所述多个目标方向的波束信号和所述目标音频信号中所述信噪比越高的信号所对应的权重越大；

将所述多个目标方向的波束信号和所述目标音频信号的加权和确定为所述音频特征。

可选地，所述多个目标方向包括K个目标方向，K为正整数，其中，所述处理器用于：

将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入attention层得到所述attention层输出的所述音频特征，其中，所述attention层用于为所述K+1路的输入信号分配权重并输出所述K+1路的输入信号的加权和，所述音频特征为所述K个目标方向的波束信号和所述目标音频信号的加权和；

其中，音频信号检测模型包括所述attention层，所述音频信号检测模型是使用从音频样本中获取的所述K个目标方向的波束样本和所述音频样本对初始音频信号检测模型进行训练得到的模型，所述音频样本是标注了所述目标唤醒词以及所述目标唤醒词所在方向的音频信号。

可选地，所述处理器用于：

将所述音频特征作为输入特征输入唤醒词检测子模型得到所述唤醒词检测子模型输出的检测结果，其中，所述唤醒词检测子模型用于在所述输入特征中检测所述目标唤醒词，所述音频信号检测模型包括所述attention层和所述唤醒词检测子模型。

可选地，所述处理器还用于：

在将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入attention层得到所述attention层输出的所述音频特征之前，将所述K个目标方向的波束样本和所述音频样本作为K+1路的输入信号输入初始attention层得到所述初始attention层输出的音频特征样本；

将所述音频特征样本作为输入特征输入初始唤醒词检测子模型得到所述初始唤醒词检测子模型输出的检测结果样本，其中，所述初始音频信号检测模型包括所述初始attention层和所述初始唤醒词检测子模型；

根据所述检测结果样本、所述音频样本所标注的所述目标唤醒词以及所述目标唤醒词所在方向以及目标损失函数确定所述音频样本对应的损失值；

根据所述损失值调整所述初始attention层的模型参数和所述初始唤醒词检测子模型的模型参数，直至所述音频样本对应的所述损失值小于目标损失值，得到包括所述attention层和所述唤醒词检测子模型的所述音频信号检测模型。

可选地，所述麦克包括麦克阵列，其中，所述麦克阵列包括多个麦克，所述多个麦克与所述多个音频信号一一对应；

所述麦克用于：通过配置的所述麦克阵列采集多个音频信号；

所述处理器用于：将所述多个音频信号合成为所述目标音频信号。

可选地，所述处理器用于：

从所述目标音频信号所包括的所述多个音频信号中获取一个音频信号；

根据所述多个目标方向的波束信号和所述一个音频信号生成所述音频信号对应的音频特征。

根据本发明实施例的另一方面，还提供了一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项中所述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行上述任一项中所述的方法。

在本发明实施例中，采用获取采集到的目标音频信号；从目标音频信号中获取多个目标方向的波束信号；根据多个目标方向的波束信号和目标音频信号生成目标音频信号对应的音频特征；对音频特征进行唤醒词检测；在从音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，目标设备是在接收到目标唤醒词时启动的设备的方式，将采集到的目标音频信号转换成多个目标方向的波束信号，通过多个目标方向的波束信号和目标音频信号来生成音频特征，对该音频特征进行唤醒词检测，从而控制目标设备的启动，多个固定目标方向的波束信号可以针对需要抑制的噪声方向设置零陷，能够有效抑制噪声，由于唤醒的方向不一定正好来自于多个目标方向，形成这多个目标方向的波束信号会对目标唤醒词所在方向的信号有一定的损失，因此通过补偿一路目标音频信号来弥补损失，从而实现了提高智能设备的唤醒率的技术效果，进而解决了智能设备的唤醒率较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的音频信号的检测方法的示意图；

图2是根据本发明实施例的一种可选的音频信号的检测方法的应用环境示意图一；

图3是根据本发明实施例的一种可选的音频信号的检测方法的应用环境示意图二；

图4是根据本发明可选的实施方式的一种可选的音频信号的检测方法的示意图一；

图5是根据本发明可选的实施方式的一种可选的音频信号的检测方法的示意图二；

图6是根据本发明可选的实施方式的一种可选的音频信号的检测方法的示意图三；

图7是根据本发明实施例的一种可选的音频信号的检测装置的示意图；

图8是根据本发明实施例的一种可选的智能语音交互设备的示意图；

图9是根据本发明可选的实施方式的一种可选的音频信号的检测系统的示意图；

图10是根据本发明实施例的一种可选的音频信号的检测方法的应用场景示意图一；

图11是根据本发明实施例的一种可选的音频信号的检测方法的应用场景示意图二；

图12是根据本发明实施例的一种可选的音频信号的检测方法的应用场景示意图三；

图13是根据本发明实施例的一种可选的音频信号的检测方法的应用场景示意图四；

图14是根据本发明实施例的一种可选的音频信号的检测方法的应用场景示意图五；以及

图15是根据本发明实施例的一种可选的电子装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本实施例中，利用人工智能技术对音频信号进行检测，对涉及到的技术术语解释如下：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明：

根据本发明实施例的一个方面，提供了一种音频信号的检测方法，如图1所示，该方法包括：

S102，获取采集到的目标音频信号；

S104，从目标音频信号中获取多个目标方向的波束信号；

S106，根据多个目标方向的波束信号和目标音频信号生成目标音频信号对应的音频特征；

S108，对音频特征进行唤醒词检测；

S110，在从音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，目标设备是在接收到目标唤醒词时启动的设备。

可选地，在本实施例中，上述音频信号的检测方法可以应用于如图2所示的目标设备202所构成的硬件环境中。如图2所示，目标设备202获取其采集到的目标音频信号，其中，该目标设备202是在接收到目标唤醒词时启动的设备，从目标音频信号中获取多个目标方向的波束信号，根据多个目标方向的波束信号和目标音频信号生成音频信号对应的音频特征，对音频特征进行唤醒词检测。目标设备202在从音频特征中检测到目标唤醒词的情况下，启动。

可选地，在本实施例中，上述音频信号的检测方法还可以应用于如图3所示的智能语音交互设备302和目标设备304所构成的硬件环境中。如图3所示，智能语音交互设备302获取其采集到的目标音频信号，从目标音频信号中获取多个目标方向的波束信号，根据多个目标方向的波束信号和目标音频信号生成音频信号对应的音频特征，对音频特征进行唤醒词检测，在从音频特征中检测到目标唤醒词的情况下，启动目标设备304，其中，该目标设备304是在接收到目标唤醒词时启动的设备。

可选地，在本实施例中，上述音频信号的检测方法可以但不限于应用于控制目标设备启动的场景中。其中，上述目标设备可以但不限于为各种类型的能够通过语音唤醒启动的设备，例如，智能音箱、智能手机等智能数码设备，智能手表等智能穿戴设备，智能冰箱等智能家居设备，智能平衡车等智能交通设备等。具体的，可以但不限于应用于在控制上述智能音箱启动的场景中，或还可以但不限于应用于在控制上述智能平衡车启动的场景中，以提高智能设备的唤醒率。上述仅是一种示例，本实施例中对此不做任何限定。

可选地，在本实施例中，可以但不限于通过配置的麦克来采集目标音频信号。配置的麦克可以包括一个或者多个。比如：可以是单麦克，或者是多麦克阵列。目标音频信号可以但不限于是由目标设备采集的，或者也可以是由独立于目标设备的用于进行音频信号检测的设备采集的。还可以是由目标设备采集目标音频信号再发送给用于进行音频信号检测的设备。

可选地，在本实施例中，目标唤醒词用于唤醒目标设备。比如：目标唤醒词可以为“比卡比啦”，当从采集到的目标音频信号中检测出“比卡比啦”时，启动目标设备，目标设备可以通过语音回复来表明目前正处于启动状态，也可以通过指示灯的亮度，颜色等信号来指示目前处于启动状态。

可选地，在本实施例中，多个目标方向的数量可以但不限于包括：2个，3个，4个，6个，10个等等。目标方向可以但不限于根据目标方向的数量进行设置，或者可以通过训练模型来自动确定。比如：目标方向可以但不限于包括：0度，90度，180度，270度。

可选地，在本实施例中，唤醒词检测的操作可以但不限于通过检测模型来执行，比如：关键词检出(KeyWord Spotting，简称为KWS)模型。

可选地，在本实施例中，在从音频特征中未检测到目标唤醒词的情况下，目标设备可以保持休眠状态或者待机状态。

在一个可选的实施方式中，如图4所示，目标设备是在接收到目标唤醒词(“比卡比卡”)时启动的智能音箱A。智能音箱A获取其麦克阵列采集到的目标音频信号，从目标音频信号中获取四个目标方向的波束信号，即0度方向的波束信号1，90度方向的波束信号2，180度方向的波束信号3，270度方向的波束信号4。智能音箱A根据波束信号1至4和目标音频信号生成音频信号对应的音频特征，对音频特征进行唤醒词检测，在从音频特征中检测到“比卡比卡”的情况下，启动智能音箱A。

可见，通过上述步骤，将采集到的目标音频信号转换成多个目标方向的波束信号，通过多个目标方向的波束信号和目标音频信号来生成音频特征，对该音频特征进行唤醒词检测，从而控制目标设备的启动，多个固定目标方向的波束信号可以针对需要抑制的噪声方向设置零陷，能够有效抑制噪声，由于唤醒的方向不一定正好来自于多个目标方向，形成这多个目标方向的波束信号会对目标唤醒词所在方向的信号有一定的损失，因此通过补偿一路目标音频信号来弥补损失，从而实现了提高智能设备的唤醒率的技术效果，进而解决了智能设备的唤醒率较低的技术问题。

作为一种可选的方案，根据多个目标方向的波束信号和目标音频信号生成音频信号对应的音频特征包括：

S1，根据多个目标方向的波束信号和目标音频信号的信噪比分别为多个目标方向的波束信号和目标音频信号分配权重，其中，多个目标方向的波束信号和目标音频信号中信噪比越高的信号所对应的权重越大；

S2，将多个目标方向的波束信号和目标音频信号的加权和确定为音频特征。

可选地，在本实施例中，可以根据信噪比来为各路信号分配权重，再将各路信号的加权和确定为音频特征进行唤醒词检测，从而挑选信噪比更高的信号。

在一个可选的实施方式中，以4个目标方向(0度，90度，180度，270度)为例，从目标音频信号中获取0度方向的波束信号1，90度方向的波束信号2，180度方向的波束信号3，270度方向的波束信号4。波束信号1的信噪比为P1，波束信号2的信噪比为P2，波束信号3的信噪比为P3，波束信号4的信噪比为P4，目标音频信号的信噪比为P5，其中，P2>P1>P3>P5>P4，则分别为上述5个信号分配的权重a1，a2，a3，a4和a5的大小关系可以为a2>a1>a3>a5>a4，那么音频特征＝a1×波束信号1+a2×波束信号2+a3×波束信号3+a4×波束信号4+a5×目标音频信号，其中，a1+a2+a3+a4+a5可以为1。

作为一种可选的方案，多个目标方向包括K个目标方向，K为正整数，其中，根据多个目标方向的波束信号和目标音频信号生成音频信号对应的音频特征包括：

S1，将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征，其中，attention层用于为K+1路的输入信号分配权重并输出K+1路的输入信号的加权和，音频特征为K个目标方向的波束信号和目标音频信号的加权和；

其中，音频信号检测模型包括attention层，音频信号检测模型是使用从音频样本中获取的K个目标方向的波束样本和音频样本对初始音频信号检测模型进行训练得到的模型，音频样本是标注了目标唤醒词以及目标唤醒词所在方向的音频信号。

可选地，在本实施例中，将K路目标方向的波束信号和1路目标音频信号作为attention层模型的输入信号，通过预先训练的attention层模型来自动生成音频特征。

例如：K路目标方向的波束信号加一路原始的麦克信号共K+1路信号[x₁,x₂,...,x_K+1]送入attention求得五路信号的权重α，公式如下：

e_i＝υ^T tanh(Wx_i+b)

其中，W是D×128，D是输入特征的大小，b是128维的偏移向量，υ是128维的向量。得到的音频特征可以表示为：

这样多通道的输入通过attention层可以映射成和单通道特征大小同样的输入。

作为一种可选的方案，对音频特征进行唤醒词检测包括：

S1，将音频特征作为输入特征输入唤醒词检测子模型得到唤醒词检测子模型输出的检测结果，其中，唤醒词检测子模型用于在输入特征中检测目标唤醒词，音频信号检测模型包括attention层和唤醒词检测子模型。

可选地，在本实施例中，唤醒词检测子模型可以但不限于为上述KWS神经网络模型，或者其他任何用于进行唤醒词检测的模型或者方式。

在一个可选的实施方式中，如图5所示，从采集到的目标音频信号中获取多个目标方向的波束信号(Beam1，Beam2，……，Beam K)。Beam1，Beam2，……，Beam K和一路麦克音频信号(Mic 1)输入Self-Attention层分别得到对应的权重attention权重(attentionweights)，对Beam1，Beam2，……，Beam K和Mic 1分别进行特征提取得到信号特征，根据信号特征和attention权重通过特征投影层(feature projection)得到一路音频特征，将音频特征输入唤醒检测层(KWS)，得到该目标音频信号对应的得分(Score)，通过唤醒决策层(Wake-Up Decision)确定是否检测到唤醒词。利用attention层结合用于进行唤醒词检测的KWS神经网络模型训练能在同样的误唤醒的情况下提升唤醒率。

作为一种可选的方案，在将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征之前，还包括：

S1，将K个目标方向的波束样本和音频样本作为K+1路的输入信号输入初始attention层得到初始attention层输出的音频特征样本；

S2，将音频特征样本作为输入特征输入初始唤醒词检测子模型得到初始唤醒词检测子模型输出的检测结果样本，其中，初始音频信号检测模型包括初始attention层和初始唤醒词检测子模型；

S3，根据检测结果样本、音频样本所标注的目标唤醒词以及目标唤醒词所在方向以及目标损失函数确定音频样本对应的损失值；

S4，根据损失值调整初始attention层的模型参数和初始唤醒词检测子模型的模型参数，直至音频样本对应的损失值小于目标损失值，得到包括attention层和唤醒词检测子模型的音频信号检测模型。

可选地，在本实施例中，利用样本对包括初始attention层和初始唤醒词检测子模型的初始音频信号检测模型中包括的模型参数进行训练，使得attention层能够自动为输入信号分配权重，唤醒词检测子模型能够自动对唤醒词进行检测。

作为一种可选的方案，获取目标设备采集到的音频信号包括：

S1，通过配置的麦克阵列采集多个音频信号，其中，麦克阵列包括多个麦克，多个麦克与多个音频信号一一对应；

S2，将多个音频信号合成为目标音频信号。

可选地，在本实施例中，用于进行音频信号检测的设备上可以但不限于配置有麦克阵列，麦克阵列中包括多个麦克，每个麦克能够采集到一个音频信号，得到多个音频信号，将多个音频信号进行合成，得到目标音频信号。

例如：如图6所示，目标设备上配置的麦克阵列包括6个麦克(mic1，mic2，mic3，mic4，mic5和mic6)。mic1，mic2，mic3，mic4，mic5和mic6分别采集到音频信号1，音频信号2，音频信号3，音频信号4，音频信号5，音频信号6。将音频信号1，音频信号2，音频信号3，音频信号4，音频信号5，音频信号6合成目标音频信号。

S1，从目标音频信号所包括的多个音频信号中获取一个音频信号；

S2，根据多个目标方向的波束信号和一个音频信号生成音频信号对应的音频特征。

可选地，在本实施例中，当目标音频信号是由包括多个麦克的麦克阵列采集时，用于生成音频特征的音频信号可以但不限于是多个麦克中的任意一个麦克采集的音频信号，或者，也可以是多个麦克中的一个指定的麦克采集的音频信号。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频信号的检测方法的音频信号的检测装置，如图7所示，该装置包括：

第一获取模块702，用于获取采集到的目标音频信号；

第二获取模块704，用于从目标音频信号中获取多个目标方向的波束信号；

生成模块706，用于根据多个目标方向的波束信号和目标音频信号生成目标音频信号对应的音频特征；

检测模块708，用于对音频特征进行唤醒词检测；

启动模块710，用于在从音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，目标设备是在接收到目标唤醒词时启动的设备。

可选地，生成模块包括：

分配单元，用于根据多个目标方向的波束信号和目标音频信号的信噪比分别为多个目标方向的波束信号和目标音频信号分配权重，其中，多个目标方向的波束信号和目标音频信号中信噪比越高的信号所对应的权重越大；

确定单元，用于将多个目标方向的波束信号和目标音频信号的加权和确定为音频特征。

可选地，多个目标方向包括K个目标方向，K为正整数，其中，生成模块包括：

第一输入单元，用于将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征，其中，attention层用于为K+1路的输入信号分配权重并输出K+1路的输入信号的加权和，音频特征为K个目标方向的波束信号和目标音频信号的加权和；

可选地，检测模块包括：

第二输入单元，用于将音频特征作为输入特征输入唤醒词检测子模型得到唤醒词检测子模型输出的检测结果，其中，唤醒词检测子模型用于在输入特征中检测目标唤醒词，音频信号检测模型包括attention层和唤醒词检测子模型。

可选地，上述装置还包括：

第一输入模块，用于在将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征之前，将K个目标方向的波束样本和音频样本作为K+1路的输入信号输入初始attention层得到初始attention层输出的音频特征样本；

第二输入模块，用于将音频特征样本作为输入特征输入初始唤醒词检测子模型得到初始唤醒词检测子模型输出的检测结果样本，其中，初始音频信号检测模型包括初始attention层和初始唤醒词检测子模型；

确定模块，用于根据检测结果样本、音频样本所标注的目标唤醒词以及目标唤醒词所在方向以及目标损失函数确定音频样本对应的损失值；

调整模块，用于根据损失值调整初始attention层的模型参数和初始唤醒词检测子模型的模型参数，直至音频样本对应的损失值小于目标损失值，得到包括attention层和唤醒词检测子模型的音频信号检测模型。

可选地，第一获取模块包括：

采集单元，用于通过配置的麦克阵列采集多个音频信号，其中，麦克阵列包括多个麦克，多个麦克与多个音频信号一一对应；

合成单元，用于将多个音频信号合成为目标音频信号。

可选地，生成模块包括：

获取单元，用于从目标音频信号所包括的多个音频信号中获取一个音频信号；

生成单元，用于根据多个目标方向的波束信号和一个音频信号生成音频信号对应的音频特征。

根据本发明实施例的另一个方面，还提供了一种用于实施上述音频信号的检测方法的智能语音交互设备，如图8所示，该设备包括：

处理器82、麦克84和传输装置86，其中，处理器82分别与麦克84和传输装置86连接；

麦克84用于采集目标音频信号，并将目标音频信号传输至处理器82；

处理器82用于获取采集到的目标音频信号；从目标音频信号中获取多个目标方向的波束信号；根据多个目标方向的波束信号和目标音频信号生成音频信号对应的音频特征；对音频特征进行唤醒词检测；并在从音频特征中检测到目标唤醒词的情况下，通过传输装置启动目标设备80，其中，目标设备80是在接收到目标唤醒词时启动的设备；

传输装置86用于根据处理器82的指示向目标设备80发送用于启动目标设备80的指令。

可选地，在本实施例中，上述目标唤醒词可以但不限于包括一个或者多个唤醒词，上述目标设备可以但不限于包括一个或者多个设备，一个或者多个唤醒词与一个或者多个设备一一对应。

在一个可选的实施方式中，以多个唤醒词与多个设备一一对应为例，如图9所示，区域中部署了一个智能语音交互设备M和多个目标设备(设备1、设备2和设备3)，其中，设备1的目标唤醒词是唤醒词A，设备2的目标唤醒词是唤醒词B，设备3的目标唤醒词是唤醒词C，智能语音交互设备M获取采集到的目标音频信号，并从目标音频信号中获取多个目标方向的波束信号，再根据多个目标方向的波束信号和目标音频信号生成目标音频信号对应的音频特征，对音频特征进行唤醒词检测，在从音频特征中检测到目标唤醒词为唤醒词B的情况下，启动设备2。

可选地，处理器用于：

根据多个目标方向的波束信号和目标音频信号的信噪比分别为多个目标方向的波束信号和目标音频信号分配权重，其中，多个目标方向的波束信号和目标音频信号中信噪比越高的信号所对应的权重越大；

将多个目标方向的波束信号和目标音频信号的加权和确定为音频特征。

可选地，多个目标方向包括K个目标方向，K为正整数，其中，处理器用于：

将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征，其中，attention层用于为K+1路的输入信号分配权重并输出K+1路的输入信号的加权和，音频特征为K个目标方向的波束信号和目标音频信号的加权和；

可选地，处理器用于：

将音频特征作为输入特征输入唤醒词检测子模型得到唤醒词检测子模型输出的检测结果，其中，唤醒词检测子模型用于在输入特征中检测目标唤醒词，音频信号检测模型包括attention层和唤醒词检测子模型。

可选地，处理器还用于：

在将K个目标方向的波束信号和目标音频信号作为K+1路的输入信号输入attention层得到attention层输出的音频特征之前，将K个目标方向的波束样本和音频样本作为K+1路的输入信号输入初始attention层得到初始attention层输出的音频特征样本；

将音频特征样本作为输入特征输入初始唤醒词检测子模型得到初始唤醒词检测子模型输出的检测结果样本，其中，初始音频信号检测模型包括初始attention层和初始唤醒词检测子模型；

根据检测结果样本、音频样本所标注的目标唤醒词以及目标唤醒词所在方向以及目标损失函数确定音频样本对应的损失值；

根据损失值调整初始attention层的模型参数和初始唤醒词检测子模型的模型参数，直至音频样本对应的损失值小于目标损失值，得到包括attention层和唤醒词检测子模型的音频信号检测模型。

可选地，麦克包括麦克阵列，其中，麦克阵列包括多个麦克，多个麦克与多个音频信号一一对应；

麦克用于：通过配置的麦克阵列采集多个音频信号；

处理器用于：将多个音频信号合成为目标音频信号。

可选地，处理器用于：

从目标音频信号所包括的多个音频信号中获取一个音频信号；

根据多个目标方向的波束信号和一个音频信号生成音频信号对应的音频特征。

本发明实施例的应用环境可以但不限于参照上述实施例中的应用环境，本实施例中对此不再赘述。本发明实施例提供了用于实施上述实时通信的连接方法的一种可选的具体应用示例。

作为一种可选的实施例，上述音频信号的检测方法可以但不限于应用于通过语音唤醒目标设备的场景中。在本场景中，使用固定波束设计，以生成指向4个方向，0度，90度，180度，270度的四路语音，联合1路mic语音信号，共五路信号作为多路唤醒模型的输入为例。通过构造的基于attention的端到端模型(多路唤醒模型)，使用上述4路固定波束加1路语音信号特征作为输入，通过attention层映射出一路新的特征送入唤醒词检测模型。

在本场景中，使用固定波束生成了4路语音信号，固定波束设计主要是通过差分阵设计生成，差分阵设计可以针对需要抑制的噪声方向设置零陷，从而更好的抑制噪声。比如唤醒词来自于0度附近的方向，通过指向0度的波束可以对0度方向以外的噪声进行抑制，将四路波束语音加1路mic语音信号作为attention层的输入，会加一路mic语音信号主要是因为唤醒的方向不一定正好来自于这四个方向，形成这四路的波束信号可能会对唤醒的方向的信号有一定的损失，因此通过补偿一路mic信号来弥补损失，通过唤醒词检测模型的反向回传，attention层能自动学习挑选信噪比更高的信号，通过差分阵做波束形成提供给attention层进行挑选组合，能在同样误唤醒的情况下提升唤醒率。

以麦克圆阵为例，如图10所示，固定波束设计其目标方向分别为0度，90度，180度，270度，如果目标方向为0度，则波束将在对角和两边设计零陷，即分别在90度，180度，270度。当目标方向为0度的时候，90度，180度，270度方向对信号的衰减分别大于20db，能有效的抑制方向性噪声或目标方向以外的声音。

波束信号使用yamip优化软件进行获取，假设麦克个数为M，损失函数为：CostFn＝wTgt’*R*wTgt，限制条件为：

Cnstrn＝[(TgtStrV’)*wTgt＝＝1；

(wTgt’)*(NullStrVopp*NullStrVopp’)*wTgt<＝10^(SideGain/10)；

(wTgt’)*(NullStrVLeft*NullStrVLeft’)*wTgt<＝10^(SideGain/10)；

(wTgt’)*(NullStrVRight*NullStrVRight’)*wTgt<＝10^(SideGain/10)；

(wTgt’)*wTgt<＝10^(WNG/10)]；

其中，wTgt是要优化的目标权重，长度为麦克个数M的矢量，R是扩散场噪声矩阵，矩阵大小为(M，M)，矩阵元素其中f为频率，c为声波速度。TgtStrV是目标方向导向矢量，即第一个限定条件保证目标方向的信号能正常通过，NullStrVLeft是目标方向左边设置的零陷NullStrVRight是目标方向右边设置的零陷NullStrVopp是目标方向对角设置的零陷SideGain是对零陷方向的衰减值，第二三四个限制条件是保证这三个方向不得衰减值要达到限定条件，最后一个限制条件是优化的权重的白噪不得超过限定值。通过数值计算和优化方法可以求出最优解。

通过上述过程，得到固定波束的权重以后可以求得K路方向的输出信号，这K路语音信号加一路原始的麦克信号共K+1路信号[x₁,x₂,...,x_K+1]送入attention层求得五路信号的权重α，公式如下：

e_i＝υ^T tanh(Wx_i+b)

其中W是D×128，D是输入特征的大小，b是128维的偏移向量，υ是128维的向量。最终多通道的输入是：

这样多通道的输入通过attention层可以映射成和单通道特征大小同样的输入。attention层结合kws神经网络训练能在同样的误唤醒的情况下提升唤醒率。

在本场景中，使用6mic圆阵，如图11至14所示，分别使用不同信噪比的仿真数据集和真实数据对不同的设备唤醒方法进行测试，1-mic是baseline的结果，1-beam-retrain是生成的4路波束循环送入单通道信号的唤醒模型，有一路唤醒即唤醒，4-mic-att是4路mic信号经过attention网络映射成一路信号送入唤醒模型，4-beam-1-mic-att是上述4路波束信号加1路mic信号经过attention网络映射成一路特征送入唤醒模型。从结果中可以看出在仿真数据集上，如图11所示，低信噪比-5db到0db的情况下，4-beam-1-mic-att比4-mic好很多，如图12所示，5db-15db信噪比的情况下，4-beam-1-mic-att也略好于4-mic，如图13所示，高信噪比的情况下这两种方式结果相当。如图14所示，在真实数据上4-beam-1-mic-att的方法是最好的。说明4-beam-1mic-att的方法更鲁棒。

根据本发明实施例的又一个方面，还提供了一种用于实施上述音频信号的检测的电子装置，如图15所示，该电子装置包括：一个或多个(图中仅示出一个)处理器1502、存储器1504、传感器1506、编码器1508以及传输装置1510，该存储器中存储有计算机程序，该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取采集到的目标音频信号；

S2，从所述目标音频信号中获取多个目标方向的波束信号；

S3，根据所述多个目标方向的波束信号和所述目标音频信号生成所述目标音频信号对应的音频特征；

S4，对所述音频特征进行唤醒词检测；

S5，在从所述音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，所述目标设备是在接收到目标唤醒词时启动的设备。

可选地，本领域普通技术人员可以理解，图15所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图15其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图15中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图15所示不同的配置。

其中，存储器1504可用于存储软件程序以及模块，如本发明实施例中的音频信号的检测方法和装置对应的程序指令/模块，处理器1502通过运行存储在存储器1504内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标组件的控制方法。存储器1504可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1504可进一步包括相对于处理器1502远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1510用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1510包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1510为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1504用于存储应用程序。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取采集到的目标音频信号；

S2，从所述目标音频信号中获取多个目标方向的波束信号；

S4，对所述音频特征进行唤醒词检测；

可选地，存储介质还被设置为存储用于执行上述实施例中的方法中所包括的步骤的计算机程序，本实施例中对此不再赘述。

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种音频信号的检测方法，其特征在于，包括：

获取采集到的目标音频信号；

从所述目标音频信号中获取多个目标方向的波束信号；

对所述音频特征进行唤醒词检测；

在从所述音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，所述目标设备是在接收到所述目标唤醒词时启动的设备。

2.根据权利要求1所述的方法，其特征在于，根据所述多个目标方向的波束信号和所述目标音频信号生成所述音频信号对应的音频特征包括：

3.根据权利要求1所述的方法，其特征在于，所述多个目标方向包括K个目标方向，K为正整数，其中，根据所述多个目标方向的波束信号和所述目标音频信号生成所述音频信号对应的音频特征包括：

4.根据权利要求3所述的方法，其特征在于，对所述音频特征进行唤醒词检测包括：

5.根据权利要求4所述的方法，其特征在于，在将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入attention层得到所述attention层输出的所述音频特征之前，所述方法还包括：

将所述K个目标方向的波束样本和所述音频样本作为K+1路的输入信号输入初始attention层得到所述初始attention层输出的音频特征样本；

6.根据权利要求1所述的方法，其特征在于，获取采集到的所述目标音频信号包括：

通过配置的麦克阵列采集多个音频信号，其中，所述麦克阵列包括多个麦克，所述多个麦克与所述多个音频信号一一对应；

将所述多个音频信号合成为所述目标音频信号。

7.根据权利要求6所述的方法，其特征在于，根据所述多个目标方向的波束信号和所述目标音频信号生成所述音频信号对应的音频特征包括：

8.一种音频信号的检测装置，其特征在于，包括：

第一获取模块，用于获取采集到的目标音频信号；

检测模块，用于对所述音频特征进行唤醒词检测；

启动模块，用于在从所述音频特征中检测到目标唤醒词的情况下，启动目标设备，其中，所述目标设备是在接收到所述目标唤醒词时启动的设备。

9.根据权利要求8所述的装置，其特征在于，所述生成模块包括：

分配单元，用于根据所述多个目标方向的波束信号和所述目标音频信号的信噪比分别为所述多个目标方向的波束信号和所述目标音频信号分配权重，其中，所述多个目标方向的波束信号和所述目标音频信号中所述信噪比越高的信号所对应的权重越大；

确定单元，用于将所述多个目标方向的波束信号和所述目标音频信号的加权和确定为所述音频特征。

10.根据权利要求8所述的装置，其特征在于，所述多个目标方向包括K个目标方向，K为正整数，其中，所述生成模块包括：

第一输入单元，用于将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入attention层得到所述attention层输出的所述音频特征，其中，所述attention层用于为所述K+1路的输入信号分配权重并输出所述K+1路的输入信号的加权和，所述音频特征为所述K个目标方向的波束信号和所述目标音频信号的加权和；

11.根据权利要求10所述的装置，其特征在于，所述检测模块包括：

第二输入单元，用于将所述音频特征作为输入特征输入唤醒词检测子模型得到所述唤醒词检测子模型输出的检测结果，其中，所述唤醒词检测子模型用于在所述输入特征中检测所述目标唤醒词，所述音频信号检测模型包括所述attention层和所述唤醒词检测子模型。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

第一输入模块，用于在将所述K个目标方向的波束信号和所述目标音频信号作为K+1路的输入信号输入attention层得到所述attention层输出的所述音频特征之前，将所述K个目标方向的波束样本和所述音频样本作为K+1路的输入信号输入初始attention层得到所述初始attention层输出的音频特征样本；

第二输入模块，用于将所述音频特征样本作为输入特征输入初始唤醒词检测子模型得到所述初始唤醒词检测子模型输出的检测结果样本，其中，所述初始音频信号检测模型包括所述初始attention层和所述初始唤醒词检测子模型；

确定模块，用于根据所述检测结果样本、所述音频样本所标注的所述目标唤醒词以及所述目标唤醒词所在方向以及目标损失函数确定所述音频样本对应的损失值；

调整模块，用于根据所述损失值调整所述初始attention层的模型参数和所述初始唤醒词检测子模型的模型参数，直至所述音频样本对应的所述损失值小于目标损失值，得到包括所述attention层和所述唤醒词检测子模型的所述音频信号检测模型。

13.一种智能语音交互设备，其特征在于，包括：处理器、麦克和传输装置，其中，

所述处理器分别与所述麦克和所述传输装置连接；

14.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

15.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。