CN110503969A

CN110503969A - 一种音频数据处理方法、装置及存储介质

Info

Publication number: CN110503969A
Application number: CN201910745472.2A
Authority: CN
Inventors: 高毅
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2019-11-26
Anticipated expiration: 2038-11-23
Also published as: US20210174812A1; US20230298594A1; EP3819903A4; US11710490B2; CN110503970B; EP3819903A1; WO2020103703A1; EP3819903B1; CN109599124B; CN110503969B; CN109599124A; CN110503970A

Abstract

本发明实施例公开一种音频数据处理方法、装置及存储介质，其中，该方法应用于人工智能领域，包括：获取环境空间中的多路音频数据，并基于多路音频数据得到语音数据集合，并在多个增强方向上分别生成语音数据集合对应的增强语音信息；将增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；获取增强语音信息中的语音频谱特征，并在语音频谱特征中获取目标音频方向上的语音频谱特征；基于目标匹配词对目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果。采用本发明，可以在提高语音控制的准确度的同时，有效地降低误识别率。

Description

一种音频数据处理方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种音频数据处理方法、装置及存储介质。

背景技术

随着科技的发展，智能语音设备逐渐被普及应用，在智能语音设备的实施过程中，语音命令与智能语音设备之间的语音交互是实现设备智能化的一项重要技术手段。在目前的智能语音设备的语音交互系统，在唤醒语及命令语的拾取过程中，不可避免地会受到外界环境噪音和其他人说话的干扰，如果干扰噪音过强，会严重影响语音交互系统的灵敏性，进而使得在设备唤醒的过程中会存在唤醒失灵或者误唤醒的现象，即无法确保设备唤醒的准确性。

发明内容

本发明实施例提供一种音频数据处理方法、装置及存储介质，可以在确保语音控制的准确度的同时，有效地降低误识别率。

本发明实施例一方面提供了一种音频数据处理方法，所述方法包括：

获取环境空间中的多路音频数据，并基于所述多路音频数据得到语音数据集合，并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息；

将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；

获取所述增强语音信息中的语音频谱特征，并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征；

基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

其中，所述获取环境空间中的多路音频数据，包括：

获取终端所处环境空间对应的麦克风阵列；所述麦克风阵列包含多个麦克风，以及各麦克风对应的阵列结构；

基于所述各麦克风的阵列结构采集所述环境空间中的音频信号；所述音频信号包含至少一个语音信号；

将所述各麦克风采集到的所述至少一个语音信号，分别确定为所述各麦克风对应的一路音频数据；一路音频数据为一个麦克风所采集到的所述至少一个语音信号。

其中，所述各麦克风对应的一路音频数据包含第一语音信号和第二语音信号；所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号，所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号；

所述基于所述多路音频数据得到语音数据集合，包括：

从所述麦克风阵列中的各麦克风中获取目标麦克风，并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据，作为目标音频数据；

使用回声消除器消除所述目标音频数据中的第二语音信号，并将消除第二语音信号后的目标音频数据确定为待增强语音数据；

当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时，得到与各路音频数据分别对应的待增强语音数据；

将各待增强语音数据分别添加到语音数据集合。

其中，所述在多个增强方向上分别生成所述语音数据集合对应的增强语音信息，包括：

从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向，并基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据；

基于噪声消除器和混响消除器，滤除所述方向性增强数据中所携带的环境噪音，并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息；

当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到所述语音数据集合在各增强方向上的增强语音信息。

其中，所述语音数据集合中的第一语音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号；所述第一用户为所述目标增强方向上的用户，且所述第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户；

所述基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据，包括：

基于波束形成器，增强所述语音数据集合中所述第一用户发出的声音子信号，并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增强后的第一语音信号；

将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。

其中，所述将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向，包括：

基于第一唤醒检测模型，获取每个增强方向上的增强语音信息中的语音隐藏特征；一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征；

基于目标匹配词对各语音隐藏特征进行语音识别，得到所述第一唤醒检测模型对应的语音识别结果；所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度；

根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。

其中，所述基于目标匹配词对各语音隐藏特征进行语音识别，得到所述第一唤醒检测模型对应的语音识别结果，包括：

基于所述第一唤醒检测模型，获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度；

将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联，得到所述第一唤醒检测模型对应的语音识别结果。

其中，所述每个增强语音信息中的语音频谱特征是由第二唤醒检测模型所提取到的；

所述基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果，包括：

从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征；

将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接，得到拼接向量特征；

将所述拼接向量特征输入所述第二唤醒检测模型，并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度，并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果；

若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值，则唤醒终端。

其中，所述方法还包括：

若所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值，则确定验证失败，并执行所述获取环境空间中的多路音频数据的步骤。

本发明实施例一方面提供了一种音频数据处理装置，所述音频数据处理装置包括：

语音采集模块，用于获取环境空间中的多路音频数据；

集合确定模块，用于基于所述多路音频数据得到语音数据集合；

语音增强模块，用于在多个增强方向上分别生成所述语音数据集合对应的增强语音信息；

音频方向确定模块，用于将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；

频谱获取模块，用于获取所述增强语音信息中的语音频谱特征，并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征；

语音验证模块，用于基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

其中，所述语音采集模块包括：

阵列获取单元，用于获取终端所处环境空间对应的麦克风阵列；所述麦克风阵列包含多个麦克风，以及各麦克风对应的阵列结构；

信号检测单元，用于基于所述各麦克风的阵列结构采集所述环境空间中的音频信号；所述音频信号包含至少一个语音信号；

数据确定单元，将所述各麦克风采集到的所述至少一个语音信号，分别确定为所述各麦克风对应的一路音频数据；一路音频数据为一个麦克风所采集到的所述至少一个语音信号。

所述集合确定模块包括：

目标语音确定单元，用于从所述麦克风阵列中的各麦克风中获取目标麦克风，并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据，作为目标音频数据；

回声消除单元，用于使用回声消除器消除所述目标音频数据中的第二语音信号，并将消除第二语音信号后的目标音频数据确定为待增强语音数据；

所述回声消除单元，还用于当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时，得到与各路音频数据分别对应的待增强语音数据；

语音添加单元，用于将各待增强语音数据分别添加到语音数据集合。

其中，所述语音增强模块，包括：

语音增强单元，用于从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向，并基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据；

噪音滤除单元，用于基于噪声消除器和混响消除器，滤除所述方向性增强数据中所携带的环境噪音，并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息；

增强信息确定单元，用于当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到所述语音数据集合在各增强方向上的增强语音信息。

其中，所述语音数据集合中的第一语音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号；所述第一用户为所述目标增强方向上的用户，且所述第二用户为所述多个增强方向中除所述标增强方向之外的增强方向上的用户；

所述语音增强单元，包括：

增强抑制子单元，用于基于波束形成器，增强所述语音数据集合中所述第一用户发出的声音子信号，并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增加后的第一语音信号；

数据确定子单元，用于将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。

其中，所述音频方向确定模块包括：

隐藏特征获取单元，用于基于第一唤醒检测模型，获取每个增强方向上的增强语音信息中的语音隐藏特征；一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征；

语音识别单元，用于基于目标匹配词对各语音隐藏特征进行语音识别，得到所述第一唤醒检测模型对应的语音识别结果；所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度；

方向确定单元，用于根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。

其中，所述语音识别单元，包括：

匹配度获取子单元，用于基于所述第一唤醒检测模型，获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度；

关联子单元，用于将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联，得到所述第一唤醒检测模型对应的语音识别结果。

所述语音验证模块包括：

第一获取单元，用于从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征；

特征拼接单元，用于将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接，得到拼接向量特征；

结果生成单元，用于将所述拼接向量特征输入所述第二唤醒检测模型，并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度，并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果；

唤醒单元，用于若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值，则唤醒终端。

其中，所述语音验证模块还包括：

通知单元，用于若所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值，则确定验证失败，并通知所述语音采集模块执行所述获取环境空间中的多路音频数据。

本发明实施例一方面提供了一种音频数据处理装置，包括：处理器、存储器以及网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供网络通讯功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行以下操作：

本发明实施例一方面提供了一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，当所述处理器执行所述程序指令时执行如本发明实施例一方面中的方法。

在本发明实施例中，终端可以获取环境空间中的多路音频数据，即该终端可以通过多个麦克风所构成的麦克风阵列将其所在环境空间中采集到的所有的音频信号，作为一个麦克风对应的一路音频数据，以得到多路音频数据；进一步地，该终端可以基于多路音频数据得到语音数据集合，以便于能够在多个增强方向上生成所述语音数据集合对应的增强语音信息，即可以在每个增强方向上都生成一路语音增强信息，以提高语音识别的准确率。换言之，该终端可以在各增强方向上分别对该语音数据集合中所包含的用户的声音信号进行语音增强处理，以滤除环境空间中的噪音干扰，并在不同增强方向上输出该用户的声音信号对应的增强语音信息，使得在多个增强方向上总有一个增强方向上的增强语音信息是携带目标匹配词的，进而可以增加匹配词的检出率，以提高控制的准确度。然后终端可以进一步将所得到的多个语音增强信息的语音隐藏特征与目标匹配词进行匹配，由于此时的多个语音增强信息中的每个语音增强信息都具有方向性，因此，该终端可以进一步将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向，即初步确定出该目标音频方向中存在目标匹配词；最后，终端可以进一步获取该目标音频方向上的增强语音信息中的语音频谱特征，并通过该目标音频方向上的语音隐藏特征和语音频谱特征进行二次语音验证，以便于能够准确地对该目标音频方向上是否存在用于控制终端的目标匹配词进行验证，以降低误控制率，进而提高语音控制的准确度，即通过进一步对确定方向上的语音频谱特征进行验证，可以有效地降低误识别率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络架构的结构示意图；

图2是本发明实施例提供的一种唤醒目标用户终端的示意图；

图3是本发明实施例提供的一种音频数据处理方法的流程示意图；

图4是本发明实施例提供的一种获取增强语音信息的示意图；

图5是本发明实施例提供的一种环境空间的示意图；

图6是本发明实施例提供的另一种环境空间的示意图；

图7是本发明实施例提供的一种确定目标音频方向的示意图；

图8是本发明实施例提供的一种获取目标验证结果的示意图；

图9是本发明实施例提供的一种级联验证系统的结构的示意图；

图10是本发明实施例提供的另一种音频数据处理方法的流程示意图；

图11是本发明实施例提供的一种音频数据处理装置的结构示意图；

图12是本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

其中，自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

请参见图1，是本发明实施例提供的一种网络架构的结构示意图。如图1所示，所述网络架构可以包括应用服务器2000以及用户终端集群；所述用户终端集群可以包括多个具有语音采集功能的用户终端，如图1所示，具体包括用户终端3000a、用户终端3000b、…、用户终端3000n；

如图1所示，所述用户终端3000a、用户终端3000b、…、用户终端3000n可以分别与所述应用服务器2000进行网络连接，所述多个用户终端可以通过某网络服务平台对应的应用服务器2000实现用户数据之间的交互。其中，所述网络服务平台可以为安装在任一用户终端中的音频应用所对应的音频网络平台，应当理解，所述任一用户终端中的音频应用可以为一个或多个，为便于理解，本发明实施例以所述音频应用为一个应用为例，以描述安装了该应用(该应用可以称之为目标应用)的用户终端与所述应用服务器2000之间进行数据交互的具体过程。其中，该目标应用中的音频数据可以称之为多媒体数据。

为便于理解，本发明实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端，例如，可以将图1所示的用户终端3000a作为所述目标用户终端。其中，所述目标用户终端可以包括智能手机、平板电脑、智能音箱、智能电视等具备语音采集功能的智能终端。因此，当该目标用户终端处于唤醒状态时，可以进一步接收用于播放多媒体数据的语音控制指令，并可以进一步将该语音控制指令发送给所述应用服务器2000，以使该应用服务器可以在鉴权通过时将该多媒体数据对应的播放地址返回给所述目标用户终端。

由此可见，对于本发明实施例中具有语音采集功能的每个用户终端而言，当各用户终端在不工作时，可以使其处于休眠状态或者待机状态。因此，当用户需要启动并使用某一用户终端时，则可以通过语音的方式与该用户终端进行人机交互，即该用户终端可以在确定出多路音频数据中存在匹配词与终端中所存储的目标匹配词匹配的情况下，可以实现对该用户终端的语音控制。比如，可以将上述休眠状态或者待机状态切换为唤醒状态(也可以称之为工作状态)，即每个用户终端可以在检测到自身的唤醒词被唤醒时，启动并进入工作状态。

其中，所述多路音频数据中的任意一路音频数据可以为集成于该用户终端中的语音采集装置(例如，麦克风阵列中的一个麦克风)所采集到的环境空间中的音频信号，该音频信号中可以包含该环境空间中的用户所发出的声音信号、环境空间中的各类噪音，终端自身所发出的声音信号等，即该音频信号可以包含至少一个语音信号。其中，该用户终端中所集成的语音采集装置的个数决定了终端所获取到的语音数据的路数。由此可见，一路音频数据可以包括终端所处环境空间中的所有音频信号，因此，一路音频数据中可以包括一个麦克风所采集到的该环境空间中的至少一个语音信号。

其中，所述至少一个语音信号可以包含第一语音信号和第二语音信号，其中，第一语音信号可以理解为位于该环境空间中的一个或多个用户所发出的声音信号，即该第一语音信号为麦克风阵列中相应麦克风所采集到的用户发出的声音信号。其中，第二语音信号可以理解为该用户终端自身所播放的声音被各麦克风所接收到的声音信号，即该第二语音信号为麦克风阵列中相应麦克风所采集到的终端发出的声音信号。

为便于理解，进一步地，请参见图2，是本发明实施例提供的一种唤醒目标用户终端的示意图。如图2所示，该目标用户终端可以为具有语音采集功能的智能音箱，即该智能音箱中可以携带上述具有语音采集功能的麦克风阵列，应当理解，该智能音箱中的麦克风阵列100可以为一组位于空间不同位置的全向麦克风按一定的形状规则布置后所形成的阵列，进一步地，可以参见图2所示的麦克风阵列100。如图2所示，该麦克风阵列可以包含N个麦克风，其中，N为大于等于2的整数。因此，当图2所示的用户需要唤醒该智能音箱时，该智能音箱中的麦克风阵列100(即上述N个麦克风)则可以用于接收图2所示的用户发出的声音信号(该声音信号中携带的唤醒词可以为“请开机”)，此外，当环境空间中存在噪音时，该麦克风阵列100中的各麦克风还可以用于接收该环境空间的噪音信号(该噪音信号也可以是一种声音信号)，因此，该目标用户终端可以将任一麦克风所采集到的用户发出声音信号和其他所有能采集到的信号称之为采集到的音频信号，进而得到相应麦克风所对应的一路音频数据。其中，每个麦克风所接收到的一路音频数据可以包含上述环境空间中所传播的第一语音信号，该第一语音信号可以包含上述用户所发出的声音信号和上述环境空间中的噪音信号(比如，环境噪音以及混响音等)。然后，图2所示的语音增强系统200可进一步接收麦克风阵列100中的各麦克风所发送的音频数据，并在该语音增强系统200中进一步将接收到的多路音频数据进行去噪处理，并将去噪后的多路音频数据进行组合，以便于可以在该语音增强系统200所指定的M(M为大于等于2的整数)个增强方向中的任一增强方向上得到一个语音增强信息，即该语音增强系统200可以将M个增强方向上的M个语音增强信息分别给到图2所示的多方向匹配词检测模型300，以判断上述M个增强方向上的语音增强信息中是否携带有目标匹配词(例如，唤醒词)。换言之，可以在该多方向匹配词检测模型300中得到每个增强语音信息中的语音隐藏特征与目标匹配词之间的匹配度，比如，可以得到M个匹配度，应当理解，一个匹配度与一个增强方向上的语音增强信息相关，因此，可以在这些匹配度中确定出最高匹配度，也可以称之为最大匹配度，并可以进一步将具有最高匹配度的增强语音信息所对应的增强方向确定为目标音频方向，并将确定出的目标音频方向给到图2所示的匹配词验证模型400，以使该匹配词验证模型400可以进一步基于目标匹配词对该目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，以得到目标验证结果；应当理解，该目标验证结果可以用于表征该目标音频方向上存在用于控制终端(例如，唤醒该智能音箱)的所述目标匹配词的概率。

应当理解，对于唤醒其他智能终端的唤醒方式的实现可一并参见上述用户唤醒智能音箱的唤醒过程，这里将不再继续进行赘述。应当理解，本发明实施例除了可以对该目标用户终端进行语音唤醒之外，还可以对该目标用户终进行语音控制，且对该目标用户终端进行语音控制的具体过程可一并参见上述图2所对应实施例中用户对智能音箱进行唤醒的具体过程，这里将不再继续进行赘述。

由此可见，本发明实施例通过采用麦克风阵列100进行音频信号的采集，可以尽可能地对环境空间中所存在的用户所发出的语音信号进行采集，从而可以确保所采集到的语音信号中能够尽可能地包含目标匹配词。此外，通过将包含目标匹配词的音频数据给到语音增强系统200，可以有效地去除音频数据中所携带的各类噪音，从而可以在多个增强方向上得到包含目标匹配词的语音增强信息，以确保识别的成功率。另外，通过多方向唤醒词检测模块300可以对目标用户终端(比如，智能音箱)中的多个增强方向上的语音增强信息进行匹配词检测，从而可以有效地提高目标匹配词的检出率。进一步地，通过匹配词验证模块400可以进一步对确定出的目标音频方向(即具有最高匹配度的语音增强信息对应的增强方向)上的语音增强信息进行二次验证，进而可以有效地压制误控制的现象，从而确定语音控制的准确度，并有效地降低误控制率。

其中，所述目标用户终端得到语音数据集合对应的增强语音信息、确定目标音频方向以及得到目标验证结果的具体过程，可以参见如下图3至图10所对应的实施例。

进一步地，请参见图3，是本发明实施例提供的一种音频数据处理方法的流程示意图。如图3所示，所述方法可以包含：

步骤S101，获取环境空间中的多路音频数据，并基于所述多路音频数据得到语音数据集合，并在多个增强方向上分别生成所述语音数据集合对应的增强语音信息；

具体的，目标用户终端可以获取该终端所处环境空间对应的麦克风阵列；所述麦克风阵列可以包含多个麦克风，以及各麦克风对应的阵列结构；进一步地，该目标用户终端可以基于所述各麦克风的阵列结构采集所述环境空间中的音频信号；所述音频信号包含至少一个语音信号；进一步地，该目标用户终端可以将所述各麦克风采集到的所述至少一个语音信号，分别确定为所述各麦克风对应的一路音频数据；应当理解，一路音频数据为一个麦克风所采集到的所述至少一个语音信号。然后，该目标用户终端可以进一步将多路音频数据添加到语音数据集合，以在多个增强方向上分别生成所述语音数据集合对应的增强语音信息。

其中，所述麦克风阵列可以为上述图2所对应实施例中的麦克风阵列100，即该麦克风阵列可以为一组位于空间不同位置的全向麦克风按一定的形状规则布置后所形成的阵列。因此，位于环境空间中的各个麦克风均可以用于对该环境空间中所传播的语音数据进行采集。该音频数据可以包含被每个麦克风所采集到的至少一个语音信号。比如，一个麦克风对应的一路音频数据可以包含第一语音信号和第二语音信号；其中，所述第一语音信号可以是所述麦克风阵列所采集到的用户发出的声音信号，所述第二语音信号可以是所述麦克风阵列所采集到的所述终端发出的声音信号。

可以理解的是，位于麦克风阵列中的每个麦克风均可以称之为一个阵元，各阵元之间的分布距离以及排布形式决定了各阵元所接收到音频信号的时延和强弱，比如，距离声源较近的麦克风可以先接收到音频信号，而距离声源较远的麦克风则会后接收到音频信号，其中，可以将每个麦克风所采集到的包含至少一个语音信号的音频信号称之为一路音频数据。此外，在日常生活中，各麦克风(即阵元)所采集的音频数据通常是带有不同噪音的，即各麦克风所采集到的音频数据可以理解为一种携带有至少一种噪音的“污染”语音，因此，为了可以从这些被“污染”的噪音中恢复出我们想要的干净的语音(例如，上述图2所对应实施例中用户发出的声音信号“请开机”)，则需要对各路音频数据进行增强处理，以确保可以在期望的增强方向上输出该干净的语音，即可以在设定的多个增强方向上生成相应的增强语音信息，以确保后续语音识别的准确性。

为便于理解，进一步地，请参见图4，是本发明实施例提供的一种获取增强语音信息的示意图。如图4所示，该麦克风阵列可以包含4个麦克风，且这四个麦克风可以分别位于该目标用户终端内的不同位置，以构成如图4所示的线性分布的麦克风阵列对应的阵列结构。该阵列结构可以集成在该目标用户终端中，以使该目标用户终端具备相应的语音采集功能。为便于理解，如图4所示的麦克风1、麦克风2、麦克风3和麦克风4可以等间距地分布在横轴X方向上的四个不同位置上，比如，麦克风1位于位置A处，麦克风2位于位置B处，麦克风3位于位置C处和麦克风4位于位置D处。如图4所示，这4个麦克风中的每个麦克风都可用于获取该环境空间中所传播的音频数据(该音频数据为上述携带多种噪音的“污染”语音)，以得到图4所示的四路音频数据(即音频数据A1，音频数据A2，音频数据A3和音频数据A4)。进一步的，这4个麦克风中的各麦克风均可以将得到的音频数据传送给图4所示的回声消除器，以消除各路音频数据中被各麦克风所采集到的终端自身所发出的声音信号。

为便于理解，本发明实施例以麦克风1所采集到的一路音频数据(即音频数据A1)作为目标音频数据为例，该目标音频数据中包含第一语音信号和第二语音信号为例，其中，第一语音信号是图4所示的麦克风阵列所采集到的用户发出的声音信号，第二语音信号是该麦克风阵列所采集到的该终端(即从目标用户终端的喇叭)发出的声音信号。当该麦克风1将该音频数据A1给到图4所示的回声消除器时，该回声消除器可以消除该音频数据A1中的第二语音信号，并将消除第二语音信号后的音频数据A1(即目标音频数据)确定为待增强语音数据，即可以得到图4所示的待增强语音数据B1。

应当理解，对于该麦克风阵列中的各个麦克风而言，各麦克风所采集到的音频数据中均会包含上述用户(例如，用户A)发出的声音信号(即第一语音信号)和该终端的喇叭所发出的声音信号(即第二语音信号)。因此，图4所示的音频数据A1中可以包含第一语音信号和第二语音信号，音频数据A2中可以包含第一语音信号和第二语音信号，音频数据A3中可以包含第一语音信号和第二语音信号，音频数据A4中也可以包含第一语音信号和第二语音信号。所以，在将这四路音频数据给到图4所示的回声消除器后，可以得到音频数据A1对应的待增强语音数据B1，音频数据A2对应的待增强语音数据B2，音频数据A3对应的待增强语音数据B3和音频数据A4对应的待增强语音数据B4。其中，所述回声消除器输出待增强语音数据B2、待增强语音数据B3和待增强语音数据B4的具体实现方式可以参见回声消除器输出上述待增强语音数据B1的具体实现过程，这里将不再继续进行赘述。进一步地，请参见表1，是本发明实施例提供的一种音频数据与待增强语音数据之间的映射关系表：

表1

麦克风阵列	麦克风1	麦克风2	麦克风3	麦克风4
					音频数据	A1＝(b1+c1)	A2＝(b2+c2)	A3＝(b3+c3)	A4＝(b4+c4)
待增强语音数据	B1	B2	B3	B4

如上述表1所示，b1、b2、b3、b4为该用户A发出的声音信号，这四个不同麦克风所采集到的该用户A所发出的声音信号可以称之为第一语音信号，且该第一语音信号在相应的音频数据中可以用b1、b2、b3、b4表示；c1、c2、c3、c4为该目标用户终端发出的声音信号，这四个不同麦克风所采集到的该目标用户终端所发出的声音信号可以称之为第二语音信号，且该第二语音信号在对应的音频数据中可以用c1、c2、c3、c4表示。换言之，音频数据A1中的b1为第一语音信号，c1为第二语音信号；若该目标用户终端将表1中的麦克风1所采集到的音频数据A1给到图4所示的回声消除器，则可以将消除第二语音信号(即c1)的音频数据A1确定为待增强语音数据，即可以得到表1所示的待增强语音数据B1，该待增强语音数据B1中包含麦克风1采集到的第一语音信号(即b1)。同理可得，音频数据A2中的b2为第一语音信号，c2为第二语音信号；若该目标用户终端将表1中的麦克风2所采集到的音频数据A2给到图4所示的回声消除器，则可以将消除第二语音信号(即c2)的音频数据A2确定为待增强语音数据，即可以得到表1所示的待增强语音数据B2，该待增强语音数据B2中包含麦克风2采集到的第一语音信号(即b2)。同理可得，音频数据A3中的b1为第一语音信号，c1为第二语音信号；若该目标用户终端将表1中的麦克风3所采集到的音频数据A3给到图4所示的回声消除器，则可以将消除第二语音信号(即c3)的音频数据A3确定为待增强语音数据，即可以得到表1所示的待增强语音数据B3，该待增强语音数据B3中包含麦克风1采集到的第一语音信号(即b3)。同理可得，音频数据A4中的b4为第一语音信号，c4为第二语音信号；若该目标用户终端将表1中的麦克风4所采集到的音频数据A4给到图4所示的回声消除器，则可以将消除第二语音信号(即c4)的音频数据A4确定为待增强语音数据，即可以得到表1所示的待增强语音数据B4，该待增强语音数据B4中包含麦克风1采集到的第一语音信号(即b4)。然后，该目标用户终端可以进一步将各待增强语音数据给到图4所示的波束形成器，以便于可以在该波束形成器进一步将这四路语音增强数据进行组合，从而可以在该波束形成器的多个增强方向上得到相应的增强语音信息。

可选地，该目标用户终端还可以在获取到上述4个待增强语音数据之后，进一步将这四个待增强语音数据添加到语音数据集合，该语音数据集合中可以包含上述各麦克风所采集到的该用户A的声音信号(即b1、b2、b3、b4)，以便于可以将该语音数据集合中的四个待增强语音数据一并给到图4所示的波束形成器，以使该波束形成器可以进一步将该语音数据集合中的这四个待增强语音数据按照不同的组合方式(即待增强语音数据B1、待增强语音数据B2、待增强语音数据B3、待增强语音数据B4)进行信号叠加，从而可以在该波束形成器的多个增强方向上得到相应的增强语音信息。

可以理解的是，该回声消除器可用于消除各路音频数据中被各麦克风所采集到的终端自身所发出的语音信号。因此，通过将滤除第二语音信号的各待增强语音数据给到所述波束形成器后，可以将各待增强语音数据进行叠加，以在多个增强方向上输出图4所对应实施例中的方向性增强数据D1、方向性增强数据D2、…、方向性增强数据D3。其中，输入该波束形成器的第一语音信号即为该语音数据集合中的第一语音信号(即各麦克风所采集到的该用户A的声音信号)。鉴于此，该语音数据集合中的第一语音信号可以理解为包含麦克风1所采集到的第一语音信号(即b1)，包含麦克风2所采集到的第一语音信号(即b2)，麦克风3所采集到的第一语音信号(即b3)和麦克风4所采集到的第一语音信号(即b4)。

又比如，以波束形成器的三个增强方向为例，可以得到这三个增强方向分别对应的方向性增强数据，例如：方向性增强数据D1、方向性增强数据D2、和方向性增强数据D3。其中，方向性增强数据D1＝第一语音信号b1*k11+第一语音信号b2*k21+第一语音信号b3*k31+第一语音信号b4*k41；其中k11，k21，k31，k41可以用于更改输入波束形成器的各待增强语音数据的相位和幅度。同理可得，方向性增强数据D2＝第一语音信号b1*k12+第一语音信号b2*k22+第一语音信号b3*k32+第一语音信号b4*k42；其中k12，k22，k32，k42可以用于更改输入波束形成器的各待增强语音数据的相位和幅度。方向性增强数据D3＝第一语音信号b1*k13+第一语音信号b2*k23+第一语音信号b3*k33+第一语音信号b4*k43；其中k13，k23，k33，k43可以用于更改该输入波束形成器的各待增强语音数据的相位和幅度。

其中，如图4所示，该波束形成器所输出的方向性增强数据的个数取决于该波束形成器的增强方向(即该波束形成器期望增强的方向)的个数。其中，可以理解的是：一个增强方向上可以输出一个方向性增强数据。

应当理解，该目标用户终端中的波束形成器可以在接收到该包含第一语音信号b1，第一语音信号b2，第一语音信号b3和第一语音信号b4语音数据集合时，将该语音数据集合中的第一语音信号b1，第一语音信号b2，第一语音信号b3和第一语音信号b4统称为该语音数据集合中的第一语音信号，从而可以在该波束形成器中增强所述语音数据集合中的第一语音信号，从而可以在该波束形成器的多个增强方向上分别生成该语音数据集合对应的增强语音信息，即可以得到图4所对应实施例中的增强语音信息E1、增强语音信息E2、…、增强语音信息E3，其中，增强语音信息E1、增强语音信息E2、…、增强语音信息E3可以统称为该语音数据集合所对应的增强语音信息。

可选地，该目标用户终端可以直接将该包含第一语音信号b1的待增强语音数据B1，包含第一语音信号b2的待增强语音数据B2，包含第一语音信号b3的待增强语音数据B3和包含第一语音信号b4的待增强语音数据B4给到图4所示的波束形成器，以便于可以在该波束形成器中所指定的波束方向上(即需要增强的方向)对该语音数据集合进行增强处理，从而可以在该波束形成器的多个增强方向上分别生成对应方向的增强语音信息，即可以得到图4所对应实施例中的增强语音信息E1、增强语音信息E2、…、增强语音信息E3，此时，可以将各个增强方向上的增强语音信息E1、增强语音信息E2、…、增强语音信息E3称之为增强语音信息。

进一步地，请参见图5，是本发明实施例提供的一种环境空间的示意图。该目标用户终端(智能机器人)可以处于图5所示的环境空间的坐标系中，即此时，该智能机器人处于该坐标系的XOY平面上。当用户(比如，用户A)需要唤醒该目标用户终端时，为了能够提高该用户所发出的声音信号中所携带的唤醒词的检测率，即为了能够检测到与终端中所存储的目标匹配词一致的唤醒词，需要在该目标用户终端中语音增强系统的多个增强方向(比如，ψ＝0度、90度和180度等期望增强的方向)上都生成上述语音数据集合对应的增强语音信息。换言之，为了提高唤醒词的检测率，需要在该语音增强系统的增强方向上预先生成与该语音数据集合中第一语音信号对应的方向性增强数据，即可以通过该语音增强系统中的波束形成器在0度、90度和180度等期望方向(即增强方向)上分别输出增强后的第一语音信号，并将该增强后的第一语音信号作为各增强方向上的方向性增强数据。应当理解，由于各增强方向上的方向性增强数据具有方向性，因此，如果用户所发出的声音信号是来自于0度附近方向，即在0度附近方向的用户说出了唤醒终端(即控制终端)的唤醒词，则该波束形成器会在0度方向上增强该用户所发出的声音信号，并抑制来自其他方向(比如，90度和180度方向)上的声音信号，从而可以在0度方向上得到增强后的第一语音信号，并将增强后的第一语音信号作为0度方向上的方向性增强数据(比如，上述图4所对应实施例中的D1)，且该方向性增强语音数据D1中是由上述第一语音信号b1，第一语音信号b2，第一语音信号b3和第一语音信号b4进行叠加后得到的；同理可得，如果用户所发出的声音信号是来自于90度附近方向，则会在90度方向上增强该用户所发出的声音信号，并抑制来自其他方向(比如，0度和180度方向)上的声音，从而可以在90度方向上得到增强后的第一语音信号，并将增强后的第一语音信号作为90度方向上的方向性增强数据(比如，上述图4所对应实施例中的D2)，且该方向性增强数据中是由上述第一语音信号b1，第一语音信号b2，第一语音信号b3和第一语音信号b4进行叠加后而得到的。同理可得，如果用户所发出的声音信号是来自于180度附近方向，则会在180度方向上增强该用户所发出的声音信号，并抑制来自其他方向(比如，0度和90度方向)上的声音，从而可以在180度方向上得到增强后的第一语音信号，并将增强后的第一语音信号作为180度方向上的方向性增强数据(比如，上述图4所对应实施例中的D3)，且该方向性增强数据D3是由上述第一语音信号b1，第一语音信号b2，第一语音信号b3和第一语音信号b4进行叠加后的而得到的。

进一步地，该目标客户终端可以对这三个方向上的方向性增强数据给到图4所示的噪声消除器和混响消除器，以滤除这些方向性增强数据中所携带的环境噪音，从而可以从这些被“污染”的噪音中恢复出我们想要的干净的语音，进而可以在多个增强方向上得到相应的增强语音信号(即可以得到对用户所发出的声音信号进行去噪处理后的增强语音信息E1，增强语音信息E2和增强语音信息E3)。可以理解的是，当说话人有可能从上述0度、90度、180度三个增强方向之中的某一个增强方向说出唤醒词的时候，可以在上述多个方向性增强数据分别对应的增强语音信息中找到，即存在至少有一个增强语音信息中所包含的匹配词(例如，唤醒词)是能够更容易地被上述多方向匹配词检测模型300所检测到。

其中，若该环境空间中所采集到的音频数据中仅包含一个用户所发出的声音信号，则基于上述图4所对应实施例中的波束形成器，可以在0度、90度和180度等指定方向上得到该用户对应的三个增强语音信息。

其中，基于所述多路音频数据得到所述语音数据集合的具体过程可以描述为：从所述麦克风阵列中的各麦克风中获取目标麦克风，并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据，作为目标音频数据；使用回声消除器消除所述目标音频数据中的第二语音信号，并将消除第二语音信号后的目标音频数据确定为待增强语音数据；当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时，得到与各路音频数据分别对应的待增强语音数据；进一步地，将各待增强语音数据添加到语音数据集合，以在多个增强方向上分别生成所述语音数据集合对应的增强语音信息。

可选地，由于上述语音数据集合中的第一语音信号为该麦克风阵列所采集到的用户发出的声音信号。因此，若该环境空间中包含多个用户发出的声音信号，则该语音数据集合中的第一语音信号可以包含该麦克风阵列所采集到的多个用户发出的声音信号。

为便于理解，进一步地，请参加图6，是本发明实施例提供的另一种环境空间的示意图。如图6所示，该环境空间中存在两个用户，且这两个用户分别位于该目标用户终端为中心的不同方向上，即用户B正位于以该目标用户终端为中心的X轴上(即ψ＝0度)，而用户A正位于以该目标用户终端为中心的Y轴(即ψ＝90度)上。假设在T时刻，用户A和用户B均在以该目标用户终端为中心的环境空间中发出了声音信号，则如图6所示的目标用户终端中的麦克风阵列(例如，上述图5所对应实施例中的麦克风阵列)可以采集到这两个用户所发出的声音信号，即按照上述图5所对应实施例中基于多路音频数据得到语音数据集合的具体实现过程可知，该目标用户终端所得到的语音数据集合中的第一语音信号会同时包含各麦克风所采集到的用户A和用户B发出的声音信号。进一步地，请参见表2，是本发明实施例提供的一种待增强语音数据与方向性增强数据之间的映射关系表：

表2

如上述表2所示，m1为该用户A所发出的声音信号，m2为该用户B所发出的声音信号，这四个不同麦克风所采集到的该用户A所发出的声音信号可以称之为用户A发出的声音子信号，且该用户A发出的声音子信号在对应的语音数据中可以用m1表示；同理，这四个不同麦克风所采集到的该用户B所发出的声音信号可以称之为用户B发出的声音子信号，且该用户B发出的声音子信号在对应的语音数据中可以用m2表示。换言之，若该目标用户终端将表2中的麦克风1所采集到的音频数据A1(A1＝(b1+c1))给到图4所示的回声消除器，则可以将消除第二语音信号(即c1)的音频数据A1确定为待增强语音数据，即可以得到表2所示的待增强语音数据B1，该待增强语音数据B1中包含麦克风1采集到的第一语音信号(即b1＝(m1+m2))，其中，语音子信号m1为用户A发出的声音子信号，语音子信号m2为用户B发出的声音子信号。同理可得，若该目标用户终端将表2中的麦克风2所采集到的音频数据A2(A2＝(b2+c2))给到图4所示的回声消除器，则可以将消除第二语音信号(即c2)的音频数据A2确定为待增强语音数据，即可以得到表2所示的待增强语音数据B2，该待增强语音数据B2中包含麦克风2采集到的第一语音信号(即b2＝(m1+m2))。同理可得，若该目标用户终端将表2中的麦克风3所采集到的音频数据A3(A3＝(b3+c3))给到图4所示的回声消除器，则可以将消除第二语音信号(即c3)的音频数据A3确定为待增强语音数据，即可以得到表2所示的待增强语音数据B3，该待增强语音数据B3中包含麦克风1采集到的第一语音信号(即b3＝(m1+m2))。同理可得，若该目标用户终端将表2中的麦克风4所采集到的音频数据A4(A4＝(b4+c4))给到图4所示的回声消除器，则可以将消除第二语音信号(即c4)的音频数据A4确定为待增强语音数据，即可以得到表2所示的待增强语音数据B4，该待增强语音数据B4中包含麦克风1采集到的第一语音信号(即b4＝(m1+m2))。然后，该目标用户终端可以进一步将表2所示的各待增强语音数据添加到上述表2中的语音数据集合C，并将该语音数据集合C中的各待增强语音数据一并给到波束形成器，以在该波束形成器的多个增强方向上分别生成该语音数据集合C对应的增强语音信息。换言之，表2所示的语音数据集合C中的第一语音信号可以包含用户A发出的声音子信号(即m1)和用户B发出的声音子信号(即m2)。

由于用户A位于ψ＝90度方向上，用户B位于ψ＝0度方向上，且该目标用户终端中的波束形成器可以在ψ＝0度、90度和180度等增强方向上生成该语音数据集合对应的增强语音信息，所以对于从这ψ＝0度、90度的增强方向上来的声源信号，该波束形成器在得到相应增强方向上的方向性增强数据的过程中，可以将目标增强方向上的声源信号进行增强处理，并同时抑制剩余增强方向上的声源信号；其中，所述剩余增强方向可以理解为上述波束形成器的多个增强方向中除所述目标增强方向之外的增强方向。因此，对于图6所述的目标用户终端而言，若需要在多个增强方向上生成该语音数据集合对应的增强语音信息，则可以从该波束形成器中多个增强方向中选择任一增强方向确定为目标增强方向，并基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。进一步地，该目标用户终端可以基于噪声消除器和混响消除器，滤除所述方向性增强数据中所携带的环境噪音，并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息；当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，可以得到所述语音数据集合在各增强方向上的增强语音信息，即上述表2所示的增强语音信息E1、增强语音信息E2、增强语音信息E3。

为便于理解，该目标用户终端可以将该波束形成器中ψ＝0度的增强方向确定为目标增强方向，并在该目标增强方向上将用户B确定为第一用户，并将用户A确定为第二用户，即该第一用户为目标增强方向上的用户，第二用户为多个增强方向中除该目标增强方向之外的增强方向上的用户；此时，该目标用户终端可以基于该波束形成器，增强语音数据集合中该第一用户发出的声音子信号，并在该目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增强后的第一语音信号，此时，该目标用户终端在该目标增强方向上所得到的增强后的第一语音信号可以理解为ψ＝0度方向上的方向性增强数据，例如，该为ψ＝0度方向上的方向性增强数据可以为上述表2中的方向性增强数据D1，即该方向性增强数据D1＝(待增强语音数据B1*k11+待增强语音数据B2*k21+待增强语音数据B3*k31+待增强语音数据B4*k41)，所以，此时，该方向性增强数据D1中所包含的用户B所发出的声音子信号的声音幅度较大，用户A所发出的声音子信号的声音幅度较小。同理可得，该目标用户终端可以将该波束形成器中ψ＝90度的增强方向确定为目标增强方向，并在该目标增强方向上将用户A确定为第一用户，并将用户B确定为第二用户，即该第一用户为目标增强方向上的用户，第二用户为多个增强方向中除该目标增强方向之外的增强方向上的用户；此时，该目标用户终端可以基于该波束形成器，增强语音数据集合中该第一用户发出的声音子信号，并在该目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增强后的第一语音信号。此时，该目标用户终端在该目标增强方向上所得到的增强后的第一语音信号可以理解为ψ＝90度方向上的方向性增强数据，例如，该为ψ＝90度方向上的方向性增强数据可以为上述表2中的方向性增强数据D2，即该方向性增强数据D2＝(待增强语音数据B1*k12+待增强语音数据B2*k22+待增强语音数据B3*k32+待增强语音数据B4*k42)，所以，此时该方向性增强数据D2中所包含的用户A所发出的声音子信号的声音幅度较大，用户B所发出的声音子信号的声音幅度较小。同理可得，该目标用户终端可以将该波束形成器中ψ＝180度的增强方向确定为目标增强方向，此时，该目标增强方向上不存在第一用户，即可以将用户A和用户B一并称之为第二用户，此时，该目标用户终端可以基于该波束形成器，在该目标增强方向上抑制用户A和用户B(即第二用户)发出的声音子信号所生成的干扰数据，以输出增强后的第一语音信号，此时，该目标用户终端在该目标增强方向上所得的增强后的第一语音信号可以理解为ψ＝180度方向上的方向性增强数据，例如，该为ψ＝180度方向上的方向性增强数据可以为上述表2中的方向性增强数据D3，即该方向性增强数据D3＝(待增强语音数据B1*k13+待增强语音数据B2*k23+待增强语音数据B3*k33+待增强语音数据B4*k43)，所以，此时该方向性增强数据D3中所包含的用户A和用户B所发出的声音子信号的声音幅度都较小。

由此可见，若该环境空间中包含多个用户所发出的声音信号，则可以基于上述图4所对应实施例中的波束形成器，分别在0度、90度和180度等指定方向(即增强方向)上得到相应的增强语音信息，即可以得到三个增强语音信息。这三个增强语音信息在对应的增强方向上所呈现出的声音的幅度(即振幅)不完全相同，也可以理解为音量的大小不完全相同。比如，当声源和增强方向在相同方向上时，则可以对用于控制终端的声音进行增强，而当声源和增强方向不在同一方向上时，则需要对用于控制终端中的声音进行抑制。

其中，基于波束形成器得到目标增强方向(即多个增强方向中的任意一个增强方向)上的方向性增强数据的具体过程可以描述为：目标用户终端可以基于波束形成器，增强语音数据集合中所述第一用户发出的声音子信号，并在所述目标增强方向上抑制所述第二用户发出的声音子信号(该第二用户所发出的声音子信号即为该目标增强方向上的干扰数据)，以输出增强后的第一语音信号；其中，第一用户为所述目标增强方向上的用户，且第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户；进一步地，该目标用户终端可以将所述增强后的第一语音信号作为目标增强方向上的方向性增强数据。

其中，如图4所示的波束形成器可以包括但不限于超方向波束形成器或者超心形波束形成器，也可以是其它基于MVDR(Minimum Variance Distortionless Response，最小方差无失真响应)或者MUSIC(multiple signal classification algorithm，矩阵特征空间分解)等算法的波束形成器。此外，图4所示的噪声消除器，用于抑制每个增强方向上的方向性增强数据中所携带的环境中的噪音，图4所示的混响消除器，用于消除该环境空间中房间等所造成的混响。

步骤S102，将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；

进一步地，该目标用户终端可以基于第一唤醒检测模型，获取每个增强语音信息中的语音隐藏特征；其中，一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息中的语音频谱特征进行特征提取处理后所得到的特征；进一步地，该目标用户终端可以基于目标匹配词对各语音隐藏特征进行语音识别，得到所述第一唤醒检测模型对应的语音识别结果；其中，所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度；进一步地，该目标用户终端可以根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。

为便于理解，进一步地，请参见图7，是本发明实施例提供的一种确定目标音频方向的示意图。如图7所示，该第一唤醒检测模型可以为上述图2所对应实施例中的多方向匹配词检测模型300，所述语音增强系统可以为上述图2所对应实施例中的语音增强系统200，且结合上述步骤S102中在多个增强方向上得到的增强语音信息，可以进一步将图7所示的语音增强系统所得到的增强语音信息E1、增强语音信息E2、…、增强语音信息E3给到相应的唤醒词检测器，以得到每个增强语音信息中的语音隐藏特征。如图7所示，该第一唤醒检测模型中的各唤醒词检测器(即唤醒词检测器1、唤醒词检测器2、…、唤醒词检测器3)可用于接收来自对应增强方向上的增强语音信息。其中，该第一唤醒检测模型中唤醒词检测器的个数取决于上述语音增强系统中增强方向的个数。因此，若图7所示的语音增强系统的增强方向分别为ψ＝0度、ψ＝90度、ψ＝180度，且该语音增强系统所输出的语音增强信息E1可以理解为0度方向上的方向性声音信号，语音增强信息E2可以理解为90度方向上的方向性声音信号、语音增强信息E3可以理解为180度方向上的方向性声音信号；则如图7所示的第一唤醒检测模型中的唤醒词检测器1可以用于接收来自ψ＝0度方向上的方向性声音信号(即接收语音增强信息E1)、该第一唤醒检测模型中的唤醒词检测器2可以用于接收来自ψ＝90度方向上的方向性声音信号(即接收语音增强信息E2)、该第一唤醒检测模型中的唤醒词检测器3可以用于接收来自ψ＝180度方向上的方向性声音信号(即接收语音增强信息E3)。

为便于理解，本发明实施例以将增强语音信息E1给到所述唤醒词检测器1为例，以阐述如何通过该唤醒词检测器1和分类器1得到该增强语音信息E1对应的匹配度P1。其中，基于该唤醒词检测器1可以获取到该增强语音信息E1中的语音频谱特征，从而可以进一步从该语音频谱特征中获取上述图7所示的语音隐藏特征1。

其中，可以理解的是，当该唤醒词检测器1所接收到的方向性声音信号(即增强语音信息E1)属于模拟信号时，该模拟信号中的声音的时域波形只能代表声音随时间变化的关系，不能很好的代表声音的特征，因此，必须将声音波形转换为声学特征向量，即可以理解为需要从该增强语音信息中获取语音频谱特征。其中，该语音频谱特征可以包括但不限于常用于语音识别中的MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)、Fbank(Mel-scale Filter Bank，梅尔标度滤波器组)、LPCC(Linear PredictiveCepstral Coding，线性预测倒谱系数)等特征。

其中，MFCC特征提取主要包含两个关键步骤：将该唤醒词检测器1接收到的增强语音信息E1通过傅里叶变换转化到梅尔频率，以得到该增强语音信息E1对应的信号频谱，再进一步对该信号频谱进行对数处理，以得到该信号频谱对应的对数谱，再进一步对该对数谱进行傅里叶反变换，即可以得到该对数谱对应的倒谱，从而可以对该转换后的倒谱进行倒谱分析，以得到该增强语音信息E1对应的MFCC特征。进一步地，可以基于该唤醒词检测器1从该MFCC特征中提取到上述语音隐藏特征1，进而可以将该语音隐藏特征1给到图7所示的分类器1，即该分类器1可以用于基于目标匹配词对应的多个属性类型特征对该语音隐藏特征1进行语音识别，得到所述第一唤醒检测模型中分类器1对应的语音识别结果；该语音识别结果中包含该增强方向(ψ＝0度方向)对应的语音隐藏特征1与目标匹配词之间的匹配度。

其中，由于MFCC特征对应的特征提取算法是基于倒谱的，且更符合人的听觉原理，因而，该MFCC特征提取算法是最普遍、最有效的声音特征提取算法。可选地，该目标用户终端还可以通过其他的声学特征向量的提取方法，得到上述语音隐藏特征1。比如，该目标用户终端在得到上述MFCC特征之后，还可以进一步通过隐马尔可夫模型或者神经网络模型获取该语音隐藏特征，可选地，该目标用户终端还可以通过隐马尔可夫模型或者神经网络模型来从该增强语音信息E1中获取图7所示的语音隐藏特征。

应当理解，该目标用户终端通过唤醒词检测器2和分类器2获取匹配度P2、…、通过唤醒检测器3和分类器3获取匹配度P3的具体过程可以参见上述图3所对应实施例中可参见本发明实施例中获取所述匹配度P1的具体实现过程，这里将不再继续进行赘述。其中，可以理解的是，唤醒词检测器1、唤醒词检测器2、…、唤醒词检测器3之间的各唤醒词检测器之间可以使用同一特征提取算法或者同一特征提取模型，以得到相应的语音隐藏特征。

进一步地，该目标用户终端可以基于该第一唤醒检测模型，获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度；并将第一唤醒检测模型所得到的匹配度与该第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联，得到所述第一唤醒检测模型对应的语音识别结果，该语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度；

可以理解的是，上述图4所对应实施例中，以该目标用户终端为中心的XOY平面上的水平角度(ψ)的取值范围可以为0-360度，因此，该语音增强系统中的增强方向可以为该取值范围中的任意一个角度，这里将不对增强方向所在的角度和增强方向的个数进行具体的限制。

为便于理解，本发明实施例以该语音增强系统中的增强方向为上述ψ＝0度、90度、180度这三个方向为例，则该目标用户终端可以在这三个增强方向上分别得到语音隐藏特征1与目标匹配词之间的匹配度P1(比如，0.95)、语音隐藏特征2与目标匹配词之间的匹配度P2(例如，0.85)、语音隐藏特征3与目标匹配词之间的匹配度P3(例如，0.5)。由于匹配度P1大于匹配度P2，且匹配度P2大于匹配度P3，因此，可以将匹配度P1确定为该第一唤醒检测模型所得到的最大匹配度(即上述图7所示的匹配度P)。由于该匹配度P1为ψ＝0度方向上的语音隐藏特征1与目标匹配词之间的匹配度，因此，该目标用户终端可以进一步根据该语音识别结果将与该目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。换言之，此时的目标音频方向为水平方向角ψ＝0度的方向。

可选地，在选择目标音频方向的过程中，可以理解的是，当有多个增强方向上的语音隐藏特征与目标匹配词之间的匹配度均大于该第一唤醒检测模型对应的匹配阈值时，则可以将大于该第一唤醒检测模型对应的匹配阈值的多个匹配度所对应的增强方向，作为候选的音频方向。此时，该目标用户终端可以从这几个候选的音频方向中选择出具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向，以便于后续可以仅针对该确定的目标音频方向上的语音特征(即拼接向量特征)来进一步对其进行特征验证，以加快特征验证的效率，并可以确保控制的准确度。

步骤S103，获取所述增强语音信息中的语音频谱特征，并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征；

具体地，该目标用户终端可以通过第二唤醒检测模型获取所述每个增强方向上的增强语音信息中的语音频谱特征，并将获取到的各个增强方向上的语音频谱特征进行存储处理，因此，该目标用户终端可以通过上述步骤S102所确定出的目标增强方向，进一步从该存储的多个语音频谱特征中选择出该目标增强方向上的语音频谱特征。

其中，所述第二唤醒检测模型获取所述语音频谱特征的具体过程可参见上述步骤S102中通过第一唤醒检测模型获取所述语音隐藏特征所对应的语音频谱特征的具体过程，这里将不再继续进行描述。为了提高语音频谱特征的获取效率，该第一唤醒检测模型和所述第二唤醒检测模型可以同步对上述图2所对应实施例中的该语音输出系统所输出的多个增强方向上的增强语音信息中的语音频谱特征进行提取，从而可以有效地提高后续特征验证的效率。

步骤S104，基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

具体地，该目标用户终端可以从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征，并基于该第二唤醒检测模型中的缓存器，获取该缓存区中所存储的目标音频方向上的语音频谱特征，并将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接，得到拼接向量特征；换言之，该目标用户终端可以将该目标音频方向上与第二唤醒检测模型对应的语音频谱特征和与第一唤醒检测模型对应的语音隐藏特征进行拼接，以得到该目标音频方向上的拼接向量特征。进一步地，该目标用户终端可以将所述拼接向量特征输入所述第二唤醒检测模型，并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度，并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果；若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值，则控制终端(例如，可以唤醒终端)。

为便于理解，进一步地，请参见图8，是本发明实施例提供的一种获取目标验证结果的示意图。如图8所示，该目标用户终端可以包含第一唤醒检测模型，该第一唤醒检测模型用于确定出最有可能包含目标匹配词的声源的方向，并将该方向确定为目标音频方向，换言之，该目标用户终端可以基于该第一唤醒检测模型将具有最高匹配度或最大匹配度的语音增强信息所对应的增强方向确定为目标音频方向。然后，该目标用户终端可以进一步从该第一唤醒检测模型中获取该目标音频方向对应的语音隐藏特征，比如，结合上述图7所对应实施例中确定出该目标音频方向为ψ＝0度的方向，从而可以将该ψ＝0度的方向上的语音隐藏特征1给到图8所示的缓存器。此外，图8所示的缓存器中还存在有该第二唤醒检测模型中的唤醒检测器1、唤醒检测器2、…、唤醒检测器3等检测器从各增强语音信息中所提取到的语音频谱特征。如图8所示，该目标用户终端可以基于该第二唤醒检测模型中的唤醒词检测器1从语音增强信息E1中提取出语音频谱特征1、基于该第二唤醒检测模型中的唤醒词检测器2从语音增强信息E2中提取出语音频谱特征2、…、基于该第二唤醒检测模型中的唤醒词检测器3从语音增强信息E3中提取出语音频谱特征3。然后该目标用户终端可以进一步将该语音频谱特征1、语音频谱特征2、…、语音频谱特征3一并存入图8所示的缓存器，以便于在基于第一唤醒检测模型确定出目标音频方向(即ψ＝0度的方向)后，可以直接从该缓存器中获取该ψ＝0度方向(目标音频方向)上的语音频谱特征1(由第二唤醒检测模型所提取到的声学向量特征)和语音隐藏特征1(存储在该缓存器中的由第一唤醒检测模型所提取到的声学向量特征)进行向量拼接，以得到图8所示的该目标增强方向上的拼接向量特征。最后，该目标用户终端可以进一步将该拼接向量特征给到第二唤醒检测模型中的分类器，以输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度(例如，0.86)，并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果；进一步地，若所述目标验证结果中的匹配度(0.86)大于或等于所述目标匹配词对应的匹配阈值(例如，0.7)，则可以控制终端。即该目标用户终端可以在进行完声学模型上的匹配和验证之后唤醒该目标用户终端。

其中，进一步地，请参见图9，是本发明实施例提供的一种级联验证系统的结构的示意图。通过将上述图8和图9进行整合，可以如图9所示的级联验证系统，其中，多方向语音增强模块100a即为上述图7所示的语音增强系统，为了提高后续语音验证的效率，多方向语音增强模块100a在得到各增强方向上的增强语音信息(例如，上述ψ＝0度方向上的语音增强信息E1)之后，可以进一步将这些得到的语音增强信息分别给到图9所示的多方向唤醒词检测模型200a和级联验证模块输入特征提取器400a，以便于可以同时在多方向唤醒词检测模型200a和级联验证模块输入特征提取器400a中，对各增强方向上的语音增强信息中的语音频谱特征进行提取。其中，多方向唤醒词检测模块200a即为上述图7所对应实施例中的第一唤醒检测模型，因此，多方向唤醒词检测模块200a可以在所提取到与各增强方向对应的语音频谱特征时，进一步在各语音频谱特征中获取语音隐藏特征(进一步地，可一并参见上述图7所示的获取语音隐藏特征的具体过程)，进而可以将获取到的语音隐藏特征给到相应的分类器，以得到上述图7所示的第一唤醒检测模型对应的语音识别结果，进而可以根据语音识别结果确定出目标音频方向，进而可以在图9所示的唤醒通道选择模块300a中选择出与该目标音频方向对应的通道作为唤醒通道，并启动该多方向唤醒词检测模块200a与唤醒级联验证模块600a之间的数据交互。可以理解的是，在图9所示的唤醒通道选择模块300a中，如果有多个通道对应的语音隐藏特征与目标匹配词之间的匹配度都大于该多方向唤醒词检测模块200a所设定的识别阈值，则可以在这些通道中将最大匹配度所对应的通道确定为唤醒通道。可选地，该目标用户终端还可以在这些通道中将最先计算出匹配度大于识别阈值的通道确定为唤醒通道。如图9所示，该目标用户终端在确定好唤醒通道之后，会将该目标唤醒方向上的匹配度给到唤醒级联验证模块600a，以便于后续将该目标唤醒方向上的拼接向量特征输入该唤醒级联验证模块600a时，可以基于该唤醒级联验证模块600a所输出的匹配度，判断出该目标唤醒方向上的拼接向量特征是否能足够表征用于控制终端的目标匹配词。其中，所述目标音频方向上的拼接向量特征是由级联验证模块输入特征缓存器500a中所存储的该方向上的语音频谱特征和该方向上的语音隐藏特征进行向量拼接后所得到的特征。其中，语音频谱特征为级联验证模块输入特征提取器400所提取到的特征；语音隐藏特征为多方向唤醒词检测模块200a所提取到的特征。其中，上述图8所对应实施例中的第二唤醒检测模型可以包含级联验证模块输入特征缓存器500a和唤醒级联验证模块600a以及级联验证模块输入特征缓存器500a。

由此可见，通过上述步骤S103中的第一唤醒检测模型，可以初步确定出该目标音频方向上存在目标匹配词，为了防止该第一唤醒检测模型存在误判的现象，可以进一步通过第二唤醒检测模型来验证该目标音频方向上的拼接向量特征是否能够足够表征该目标匹配词。如果该第二唤醒检测模型确定出该输入的拼接向量特征足够表征该目标匹配词，即由该第二唤醒检测模型所输出的目标验证结果中的匹配度大于或者等于所述目标匹配词对应的匹配阈值时，则可以确认检测到终端对应的唤醒词，否则，则认为没有检测到终端对应的唤醒词，从而可以有效地避免误唤醒的现象，以确保终端唤醒的准确度。

可选地，若所述目标用户终端确定出所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值，则确定验证失败，并通知所述语音采集模块执行所述获取环境空间中的多路音频数据。

比如，仍以上述图8所对应实施中该目标用户终端所输出的所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度为例，若此时该目标验证结果中的匹配度为0.65，且该第二唤醒检测模型所中的分类器所设定的匹配阈值为0.7，则该目标用户终端可以确定出该目标验证结果中的匹配度(0.65)小于所述目标匹配词对应的匹配阈值(例如，0.7)，并可以进一步确定对该目标增强方向上其实是不包含上述目标匹配词，也间接验证了上述第一唤醒检测模型存在误判的现象，从而可以在验证失败时，进一步重复执行上述步骤S101-步骤S104，以确保该目标用户终端可以准确、无误地对该终端进行唤醒处理。

进一步地，请参见图10，是本发明实施例提供的另一种音频数据处理方法的流程示意图。如图10所示，所述方法可以包括：

步骤S201，获取终端所处环境空间对应的麦克风阵列；

其中，所述麦克风阵列包含多个麦克风，以及各麦克风对应的阵列结构；

步骤S202，基于所述各麦克风的阵列结构采集所述环境空间中的音频信号；

其中，所述音频信号包含至少一个语音信号；

步骤S203，将所述各麦克风采集到的所述至少一个语音信号，分别确定为所述各麦克风对应的一路音频数据；

其中，一路音频数据为一个麦克风所采集到的所述至少一个语音信号。

其中，所述各麦克风对应的一路音频数据包含第一语音信号和第二语音信号；所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号，所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号。

步骤S204，从所述麦克风阵列中的各麦克风中获取目标麦克风，并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据，作为目标音频数据；

步骤S205，使用回声消除器消除所述目标音频数据中的第二语音信号，并将消除第二语音信号后的目标音频数据确定为待增强语音数据；

步骤S206，当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时，得到与各路音频数据分别对应的待增强语音数据；

步骤S207，将各待增强语音数据分别添加到语音数据集合。

步骤S208，从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向，并基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据；

步骤S209，基于噪声消除器和混响消除器，滤除所述方向性增强数据中所携带的环境噪音，并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息；

步骤S210，当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到所述语音数据集合在各增强方向上的增强语音信息。

其中，步骤S201-步骤S210的具体实现方式可以参见上述图3所对应实施例中对步骤S101的描述，这里将不再继续进行赘述。

步骤S211，将每个增强方向上的增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。

步骤S212，获取所述每个增强方向上的增强语音信息中的语音频谱特征，并在各语音频谱特征中获取所述目标音频方向上的语音频谱特征。

步骤S213，基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；

其中，所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

其中，步骤S211-步骤S213的具体实现方式可以参见上述图3所对应实施例中对步骤S102-步骤S104的描述，这里将不再继续进行赘述。

进一步地，请参见图11，是本发明实施例提供的一种音频数据处理装置的结构示意图，该音频数据处理装置1可以集成于上述图1所对应实施例中的目标用户终端。如图11所示，该音频数据处理装置1可以包括：语音采集模块10，集合确定模块20，语音增强模块30、音频方向确定模块40和频谱获取模块50和语音验证模块60；

语音采集模块10，用于获取环境空间中的多路音频数据；

其中，语音采集模块10包括：阵列获取单元101、信号检测单元102和数据确定单元103；

阵列获取单元101，用于获取终端所处环境空间对应的麦克风阵列；所述麦克风阵列包含多个麦克风，以及各麦克风对应的阵列结构；

信号检测单元102，用于基于所述各麦克风的阵列结构采集所述环境空间中的音频信号；所述音频信号包含至少一个语音信号；

数据确定单元103，将所述各麦克风采集到的所述至少一个语音信号，分别确定为所述各麦克风对应的一路音频数据；一路音频数据为一个麦克风所采集到的所述至少一个语音信号。

其中，所述阵列获取单元101、信号检测单元102和数据确定单元103的具体执行方式可参见上述图3所对应实施例中对步骤S101中获取各路音频数据的描述，这里将不再继续进行赘述。

集合确定模块20，用于基于所述多路音频数据得到语音数据集合；

所述集合确定模块20包括：目标语音确定单元201、回声消除单元202和语音添加单元203；

目标语音确定单元201，用于从所述麦克风阵列中的各麦克风中获取目标麦克风，并将所述目标麦克风对应的包含第一语音信号和第二语音信号的音频数据，作为目标音频数据；

回声消除单元202，用于使用回声消除器消除所述目标音频数据中的第二语音信号，并将消除第二语音信号后的目标音频数据确定为待增强语音数据；

所述回声消除单元202，还用于当所述麦克风阵列中的每个麦克风均被确定为目标麦克风时，得到与各路音频数据分别对应的待增强语音数据；

语音添加单元203，用于将各待增强语音数据分别添加到语音数据集合。

其中，所述目标语音确定单元201、回声消除单元202和语音添加单元203的具体执行方式可参见上述图3所对应实施例中对步骤S101中得到语音数据集合的描述，这里将不再继续进行赘述。

语音增强模块30，还用于在多个增强方向上分别生成所述语音数据集合对应的增强语音信息；

其中，所述语音增强模块30，包括：语音增强单元301、噪音滤除单元302和增强信息确定单元303；

语音增强单元301，用于从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向，并基于所述波束形成器增强所述语音数据集合中的第一语音信号，并将增强后的第一语音信号作为所述目标增强方向上的方向性增强数据；

所述语音增强单元301，包括：增强抑制子单元3011和数据确定子单元3012；

增强抑制子单元3011，用于基于波束形成器，增强所述组合语音信号中所述第一用户发出的声音子信号，并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增加后的第一语音信号；

数据确定子单元3012，用于将所述增强后的第一语音信号作为所述目标增强方向上的方向性增强数据。

其中，增强抑制子单元3011和数据确定子单元3012的具体执行方式可参见上述图3所对应实施例中对步骤S101中获取目标音频方向上的方向性增强数据的描述，这里将不再继续进行赘述。

噪音滤除单元302，用于基于噪声消除器和混响消除器，滤除所述方向性增强数据中所携带的环境噪音，并将滤除环境噪音后的方向性增强数据确定为所述语音数据集合对应的增强语音信息；

增强信息确定单元303，用于当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到所述语音数据集合在各增强方向上的增强语音信息。

其中，语音增强单元301,、噪音滤除单元302和增强信息确定单元303的具体执行方式可参见上述图3所对应实施例中对步骤S101中获取各增强语音信息的描述，这里将不再继续进行赘述。

音频方向确定模块40，用于将所述增强语音信息中的语音隐藏特征与目标匹配词进行匹配，并将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向；

其中，所述音频方向确定模块40包括：隐藏特征获取单元401、语音识别单元402和方向确定单元403；

隐藏特征获取单元401，用于基于第一唤醒检测模型，获取每个增强方向上的增强语音信息中的语音隐藏特征；一个语音隐藏特征为所述第一唤醒检测模型对一个增强语音信息的语音频谱特征进行特征提取处理后所得到的特征；

语音识别单元402，用于基于目标匹配词对各语音隐藏特征进行语音识别，得到所述第一唤醒检测模型对应的语音识别结果；所述语音识别结果中包含各增强方向对应的语音隐藏特征与目标匹配词之间的匹配度；

其中，所述语音识别单元402，包括：匹配度获取子单元4021和关联子单元4022；

匹配度获取子单元4021，用于基于所述第一唤醒检测模型，获取各语音隐藏特征与所述第一唤醒检测模型中多个唤醒特征之间的匹配度；

关联子单元4022，用于将所述第一唤醒检测模型所得到的匹配度与所述第一唤醒检测模型中多个唤醒特征对应的目标匹配词进行关联，得到所述第一唤醒检测模型对应的语音识别结果。

其中，所述匹配度获取子单元4021和关联子单元4022的具体执行方式可参见上述图3所对应实施例中对步骤S102中获取目标音频方向的描述，这里将不再继续进行赘述。

方向确定单元403，用于根据语音识别结果将与所述目标匹配词具有最高匹配度的增强语音信息对应的增强方向，确定为目标音频方向。

其中，所述隐藏特征获取单元401、语音识别单元402和方向确定单元403的具体执行方式可参见上述图3所对应实施例中对步骤S102中获取目标音频方向的描述，这里将不再继续进行赘述。

频谱获取模块50，用于获取所述增强语音信息中的语音频谱特征，并在所述语音频谱特征中获取所述目标音频方向上的语音频谱特征；

语音验证模块60，用于基于所述目标匹配词对所述目标音频方向上的语音隐藏特征和语音频谱特征进行语音验证，得到目标验证结果；所述目标验证结果用于表征所述目标音频方向上存在用于控制终端的所述目标匹配词的概率。

其中，所述增强语音信息中的语音频谱特征是由第二唤醒检测模型所提取到的；

所述语音验证模块60包括：第一获取单元601、特征拼接单元602、结果生成单元603和唤醒单元604；可选的，所述预约验证模块600还包括：通知单元605；

第一获取单元601，用于从所述第一唤醒检测模型中获取所述目标音频方向上的语音隐藏特征；

特征拼接单元602，用于将所述目标音频方向上的语音频谱特征和语音隐藏特征进行拼接，得到拼接向量特征；

结果生成单元603，用于将所述拼接向量特征输入所述第二唤醒检测模型，并输出所述拼接向量特征与所述第二唤醒检测模型中目标唤醒特征之间的匹配度，并根据所述第二唤醒检测模型所输出的匹配度生成目标验证结果；

唤醒单元604，用于若所述目标验证结果中的匹配度大于或等于所述目标匹配词对应的匹配阈值，则唤醒终端。

可选地，通知单元605，用于若所述目标验证结果中的匹配度小于所述目标匹配词对应的匹配阈值，则确定验证失败，并通知所述语音采集模块10执行所述获取环境空间中的多路音频数据。

其中，所述第一获取单元601、特征拼接单元602、结果生成单元603和唤醒单元604以及通知单元605的具体执行方式可参见上述图3所对应实施例中对步骤S104的描述，这里将不再继续进行赘述。

其中，所述语音采集模块10，集合确定模块20，语音增强模块30、音频方向确定模块40、频谱获取模块50和语音验证模块60的具体执行方式可参见上述图3所对应实施例中对步骤S101-步骤S104的描述，这里将不再继续进行赘述。

进一步地，请参见图12，是本发明实施例提供的另一种音频数据处理装置的结构示意图。如图12所示，所述音频数据处理装置1000可以应用于上述图1对应实施例中的目标用户终端，所述音频数据处理装置1000可以包括：处理器1001，网络接口1004和存储器1005，此外，所述终端1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图12所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

该1000中的网络接口1004可以接收环境空间中的用户发出的声音信号，且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图9所示的音频数据处理装置1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本发明实施例中所描述的音频数据处理装置1000可执行前文图3和图10所对应实施例中对所述音频数据处理方法的描述，也可执行前文图11所对应实施例中对所述音频数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本发明实施例还提供了一种计算机存储介质，且所述计算机存储介质中存储有前文提及的音频数据处理装置1所执行的计算机程序，且所述计算机程序包括程序指令，当所述处理器执行所述程序指令时，能够执行前文图3和图10所对应实施例中对所述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节，请参照本发明方法实施例的描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据；

通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合；

在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，将增强后的第一语音信号作为各增强方向上的方向性增强数据；一个增强方向对应一个方向性增强数据；

基于各增强方向上的方向性增强数据，确定所述语音数据集合对应的增强语音信息。

2.根据权利要求1所述的方法，其特征在于，所述通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据，包括：

获取终端所处环境空间对应的麦克风阵列；所述麦克风阵列中的麦克风为一组位于空间不同位置的全向麦克风；

基于所述麦克风阵列中的各全向麦克风所构成的阵列结构采集所述环境空间中的音频信号；所述音频信号包含第一语音信号和第二语音信号；

将所述各全向麦克风所采集到的包含第一语音信号和第二语音信号的音频信号，分别确定为所述各全向麦克风对应的一路音频数据；一路音频数据为一个全向麦克风所采集到的第一语音信号和第二语音信号。

3.根据权利要求2所述的方法，其特征在于，所述第一语音信号是所述麦克风阵列所采集到的用户发出的声音信号，所述第二语音信号是所述麦克风阵列所采集到的所述终端发出的声音信号；

所述通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合，包括：

从所述麦克风阵列中的各全向麦克风中获取目标全向麦克风，并将所述目标全向麦克风对应的包含所述用户发出的声音信号和所述终端发出的声音信号的音频数据，作为目标音频数据；

使用回声消除器消除所述目标音频数据中的所述终端发出的声音信号，并将消除所述终端发出的声音信号后的目标音频数据确定为待增强语音数据；

当所述麦克风阵列中的每个全向麦克风均被确定为目标全向麦克风时，得到与各路音频数据分别对应的待增强语音数据；每个待增强语音数据中均携带所述用户发出的声音信号；

将携带所述用户发出的声音信号的各待增强语音数据分别添加到语音数据集合。

4.根据权利要求3所述的方法，其特征在于，所述在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，以在所述波束形成器的多个增强方向上将增强后的第一语音信号确定为方向性增强数据，包括：

从波束形成器的多个增强方向中选择任一增强方向确定为目标增强方向；

在所述目标增强方向上对输入所述波束形成器的所述语音数据集合中的所述用户发出的声音信号进行叠加处理，并将叠加处理后的用户发出的声音信号作为所述目标增强方向上的方向性增强数据；

当所述多个增强方向中的每一个增强方向均被选择作为目标增强方向时，得到各增强方向上的方向性增强数据。

5.根据权利要求4所述的方法，其特征在于，所述基于各增强方向上的方向性增强数据，确定所述语音数据集合对应的增强语音信息，包括：

基于噪声消除器和混响消除器，滤除所述各增强方向上的方向性增强数据中所携带的环境噪音；

将滤除环境噪音后的各增强方向上的方向性增强数据确定为所述语音数据集合对应的增强语音信息。

6.根据权利要求4所述的方法，其特征在于，所述语音数据集合中的用户发出的声音信号包含第一用户发出的声音子信号和第二用户发出的声音子信号；所述第一用户为所述目标增强方向上的用户，且所述第二用户为所述多个增强方向中除所述目标增强方向之外的增强方向上的用户；

所述在所述目标增强方向上对输入所述波束形成器的所述语音数据集合中的所述用户发出的声音信号进行叠加处理，并将叠加处理后的用户发出的声音信号作为所述目标增强方向上的方向性增强数据，包括：

在所述目标增强方向上增强输入所述波束形成器的所述语音数据集合中的所述第一用户发出的声音子信号，并在所述目标增强方向上抑制所述第二用户发出的声音子信号所生成的干扰数据，以输出增强后的第一用户发出的声音子信号；

将所述增强后的第一用户发出的声音子信号作为所述目标增强方向上的方向性增强数据。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种音频数据处理装置，其特征在于，包括：

语音采集模块，用于通过麦克风阵列中的每个麦克风采集环境空间中所传播的音频信号，将所述每个麦克风所采集到的包含第一语音信号和第二语音信号的音频信号确定为一路音频数据；

集合确定模块，用于通过回声消除器消除每路音频数据中的第二语音信号，将消除第二语音信号后的每路音频数据确定为待增强语音数据，将各待增强语音数据分别添加到语音数据集合；

语音增强模块，用于在波束形成器的多个增强方向上对所述语音数据集合中的第一语音信号进行增强处理，将增强后的第一语音信号作为各增强方向上的方向性增强数据；一个增强方向对应一个方向性增强数据；

所述语音增强模块，还用于基于各增强方向上的方向性增强数据，确定所述语音数据集合对应的增强语音信息。

9.一种音频数据处理装置，其特征在于，包括：包括：处理器、存储器以及网络接口；

所述处理器与存储器、网络接口相连，其中，网络接口用于提供网络通讯功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行如权利要求1-7任一项所述的方法。