CN111833901A

CN111833901A - 音频处理方法、音频处理装置、系统及介质

Info

Publication number: CN111833901A
Application number: CN201910330715.6A
Authority: CN
Inventors: 刘鲁鹏
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2020-10-27
Anticipated expiration: 2039-04-23
Also published as: CN111833901B

Abstract

本公开提供了一种音频处理方法，包括：获得至少一路原始音频波束，获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率，获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率，在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。本公开还提供了一种音频处理装置、一种音频处理系统以及一种计算机可读存储介质。

Description

音频处理方法、音频处理装置、系统及介质

技术领域

本公开涉及计算机技术领域，更具体地，涉及一种音频处理方法、音频处理装置、系统及介质。

背景技术

随着智能家居、智能车辆、智能会议系统等智能终端的发展，作为智能终端入口的智能语音唤醒系统技术受到了越来越多的关注。语音识别模块是智能语音唤醒系统的重要组成部分，语音识别的准确性直接影响智能语音唤醒系统的用户体验。

然而，在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：语音识别的过程中会受到声源周围环境和声音传播媒介引入的干扰(比如回声、混响及干扰声源等)，这使得语音识别的准确性较低。

发明内容

有鉴于此，本公开提供了一种音频处理方法、音频处理装置、系统及介质。

本公开的一个方面提供了一种音频处理方法，包括：获得至少一路原始音频波束。获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率。其中，所述选取概率指示了候选音频波束与所述原始音频波束的声源所处方向相一致的概率。获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率。其中，关键词识别概率指示了候选音频波束中包含预设关键词的概率。在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。

根据本公开的实施例，所述音频处理方法还包括，将原始音频波束按照预设时间间隔分为多个音频段，原始音频波束的第一声学特征包括多个音频段的第一声学特征。

根据本公开的实施例，若所述原始音频波束的第一声学特征为多个，则对第一声学特征进行合并。

根据本公开的实施例，所述第一声学特征包括以下特征中的一个或多个：高频带能量、低频带能量、高频带信噪比、低频带信噪比。所述第二声学特征包括以下特征中的一个或多个：频谱、对数幅度谱、梅尔顿频率倒谱系数。

根据本公开的实施例，所述将原始音频波束的第一声学特征输入第一神经网络，确定至少一路候选音频波束和候选音频波束所对应的选取概率，包括：将原始音频波束的第一声学特征输入第一神经网络，确定原始音频波束对应的选取概率。将原始音频波束按照选取概率从大到小排序，确定前K路原始音频波束为候选音频波束，其中，K为正整数。

本公开的另一个方面提供了一种音频处理装置，包括：第一获得模块、第一确定模块、第二确定模块以及定位模块。其中，第一确定模块，用于获得至少一路原始音频波束。第一确定模块，用于获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率，选取概率指示了候选音频波束与原始音频波束的声源所处方向相一致的概率。第二确定模块，用于获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率，关键词识别概率指示了候选音频波束中包含预设关键词的概率。定位模块，用于在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。

根据本公开的实施例，所述音频处理装置还包括分割模块，用于将原始音频波束按照预设时间间隔分为多个音频段，原始音频波束的第一声学特征包括多个音频段的第一声学特征。

根据本公开的实施例，所述音频处理装置还包括合并模块，用于在原始音频波束的第一声学特征为多个的情况下，对第一声学特征进行合并。

根据本公开的实施例，所述第一确定模块包括：第一确定子模块以及第二确定子模块。第一确定子模块，用于将原始音频波束的第一声学特征输入第一神经网络，确定原始音频波束对应的选取概率。第二确定子模块，用于将原始音频波束按照选取概率从大到小排序，确定前K路原始音频波束为候选音频波束，其中，K为正整数。

本公开的另一方面提供了一种音频处理系统，包括一个或多个处理器。存储器，用于存储一个或多个计算机程序，其中，当一个或多个计算机程序被一个或多个处理器执行时，使得一个或多个处理器实现上述所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，通过获得至少一路原始音频波束；然后获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率；接着获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率；然后在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向，从而实现了对声源的定位。因此提高了声源定位的准确性，从而提高了语音识别的准确性。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的音频处理装置的应用场景；

图2示意性示出了根据本公开实施例的音频处理方法的流程图；

图3示意性示出了根据本公开实施例的波束方向示意图；

图4示意性示出了根据本公开的另一个实施例的音频处理方法的流程图；

图5示意性示出了根据本公开实施例的音频处理装置的框图；

图6示意性示出了根据本公开实施例的第一确定模块的框图；

图7示意性示出了根据本公开另一实施例的音频处理装置的框图；以及

图8示意性示出了根据本公开另一实施例的适用于实现音频处理方法的计算机系统的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供了一种音频处理方法以及能够应用该方法的音频处理装置和系统。该方法包括：获得至少一路原始音频波束，获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率，其中，所述选取概率指示了候选音频波束与所述原始音频波束的声源所处方向相一致的概率，获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率，其中，关键词识别概率指示了候选音频波束中包含预设关键词的概率，在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。

图1示意性示出了根据本公开的实施例的音频处理方法和装置的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，本公开的实施例的应用场景可以包括：拾音设备101和音频处理装置102。其中，拾音设备101用于收集声源发出的声音，例如可以为麦克风。音频处理装置102用于对拾音设备接收到的声音进行处理，从而实现对声源的定位，例如可以为安装有音频处理程序的台式计算机、膝上型便携计算机、平板电脑或智能手机。

需要说明的是，本公开实施例所提供的音频处理方法一般可以由音频处理装置102执行，相应地，本公开实施例所提供的音频处理装置一般可以设置于音频处理装置102中。

应该理解，图1中的拾音设备101和音频处理装置102的数目和类型仅仅是示意性的。根据实现需要，可以具有任意类型和数目的拾音设备和音频处理装置。

图2示意性示出了根据本公开的实施例的音频处理方法的流程图。

如图2所示，该方法包括操作S201～S204。

在操作S201，获得至少一路原始音频波束。

根据本公开的实施例，操作S201例如可以包括：使用拾音装置101拾取声源发出的声音，生成原始音频文件，并发送给音频处理装置102。音频处理装置102根据原始音频文件，应用相应的波束生成算法，生成M路原始音频波束，其中M为正整数，分别对应M个相对于拾音位置的不同方向。

根据本公开的实施例，采用麦克风阵列作为拾音装置拾取声源发出的声音，得到原始音频文件。通过最小方差无畸变失真响应(Minimum Variance DistortionlessResponse，MVDR)算法对原始音频文件进行波束生成。在示例中，可以生成8路波束，对应8个不同方向。各路波束的方向的定义如图3所示：以拾音位置为中心，将拾音位置周围360°平均分成8等份，每一等份为一个方向，例如0°至45°为方向1，45°至90°为方向2，90°至135°为方向2，方向4-8以此类推。

在另一些实施例中，还可以在麦克风阵列拾取声音的过程中进行回声消除(Acoustic Echo Cancellation，AEC)处理，以减少拾音过程中的回声干扰。

在操作S202，获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率。

其中，选取概率指示了候选音频波束与原始音频波束的声源所处方向相一致的概率。

根据本公开的实施例，操作S202例如可以通过如下方式实现。音频处理装置102将操作S201中得到的8路原始音频波束在固定的时间窗内均匀分割为N段，N为正整数，每个音频段记为：ΔT_i,j,i＝1,2,...,M,j＝1,2,...,N，其中，下标i表示第i路原始音频波束，下标j表示第j个音频段。

对于每一个音频段ΔT_i,j，提取其第一声学特征。其中，第一声学特征例如可以包括高频带能量HighFreqPower、低频带能量LowFreqPower、高频带信噪比HighFreqSNR、低频带信噪比LowFreqSNR。接着，将上述得到的ΔT_i,j的第一声学特征进行归一化处理，得到

之后，将各个原始音频波束的各个音频段的经过归一化处理的第一声学特征组成向量x：

将向量x输入第一神经网络，得到各路原始音频波束对应的方向与原始音频波束的声源所处方向相一致的概率，即各路的选取概率。

根据选取概率将所有原始音频波束按照从大到小的顺序排序，选取前K路，作为候选音频波束，其中K为正整数且小于原始音频波束的数量，例如在本示例中，原始音频波束的数量为8。

根据本公开的实施例，上述第一神经网络例如可以为深度神经网络(Deep NeuralNetwork，DNN)，其输入为向量x，输出为候选音频波束与原始音频波束的声源所处方向相一致的概率。

在一些实施例中，第一神经网络还可以为其他类型的神经网络，例如循环神经网络(Recurrent Neural Network，RNN)、卷积循环神经网络(Convolutional RecurrentNeural Network，CRNN)等。另外，第一神经网络也可以由隐马尔科夫模型(Hidden MarkovModel，HMM)替代执行上述操作。

在操作S203，获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率。

其中，关键词识别概率指示了所述候选音频波束中包含预设关键词的概率。候选音频波束的声学特征与关键词语音中的声学特征的相似度越高，则关键词识别概率越大。在一些实施例中，关键词可以为“开机”、“关机”、“播报天气”等语音指令。

根据本公开的实施例，操作S203例如可以包括，提取候选音频波束的第二声学特征。其中，第二声学特征例如可以包括频谱、对数幅度谱、梅尔顿频率倒谱系数(Mel-Frequency Cepstral Coefficients，MFCCs)。将候选音频波束的第二声学特征转换为特征向量输入第二神经网络，得到关键词识别概率。

根据本公开的实施例，上述第二神经网络为深度神经网络(Deep NeuralNetwork，DNN)，其输入为第二声学构成的特征向量，输出为候选音频波束含有关键词的概率。

在另一些实施例中，第二神经网络还可以为其他类型的神经网络，例如循环神经网络(Recurrent Neural Network，RNN)、卷积循环神经网络(Convolutional RecurrentNeural Network，CRNN)等。

需要说明的是，上述第一神经网络和第二神经网络的类型可以相同也可以不同，但是不论两者是否采用同一种类型，它们的参数都是不同的。

在操作S204，在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。

根据本公开的实施例，可以按照选取概率由大到小的顺序，对候选音频波束进行排序。然后选取关键词识别概率大于预定阈值的前P路候选音频波束。所述阈值用于区分音频波束中是否含有关键词，若音频波束的关键词识别概率大于该阈值，则认为该音频波束中含有关键词。最后，在所选的P路候选音频波束中，确定选取概率最大的候选音频波束的方向为原始音频声源的所在的方向。其中，P为正整数且小于等于候选音频波束的数量，例如在本示例中，候选音频波束的数量为K。所述预定阈值为判别候选音频波束是否含有关键词的门限，若候选音频波束的关键词识别概率大于预定阈值，则认为该候选音频波束中含有关键词。在本示例中，预定阈值的取值为50％。

综上所述，本公开实施例的音频处理方法通过第一神经网络对原始音频波束进行筛选得到候选音频波束，筛除了部分选取概率较低的音频波束，减少了后续操作所需处理的音频波束数量，从而减少了计算负担，有利于提高语音识别处理的效率。同时，通过第二神经网络确定候选音频波束中含有关键词的概率，从含有关键词的概率大于阈值的候选音频波束中选择与声源方向一致的概率最大的一路候选音频波束。最后将选择出的候选音频波束的方向确定为声源方向。声源方向即表明来自其他非声源方向上的音频波束包含声源声音成分的可能性较低，因此来自这些方向上的音频波束可以在语音识别的过程中被排除，随之也减少了产生自这些方向上的干扰，从而提高了语音识别的准确性。

图4示意性示出了根据本公开的另一个实施例的音频处理方法的流程图。

如图4所示，该方法例如可以应用于语音控制的场景中。在该应用场景中，用户的位置一般固定，并且发出的语音控制指令一般是一段连续的声音。该方法包括操作S401～S403。

在操作S401，拾取声源在多个不同时刻发出的声音。

根据本公开的实施例，操作S401例如可以包括，在t-a、t-2*a、……t-n*a时刻拾取声源发出的声音，生成原始音频文件。其中，t表示当前时刻，a表述时间间隔，n为正整数，t-n*a表示距离t时刻n个时间间隔之前的时刻。

在操作S402，通过执行上述操作S201～S204，确定多个不同时刻的声源方向。

根据本公开的实施例，操作S402例如可以包括，将t-a、t-2*a、……t-n*a时刻拾取并得到的原始音频文件分别通过操作S201～S204所述的音频处理过程，得到n个时刻的声源方向。

在操作S403，若多个不同时刻的声源方向一致，则执行相应的控制操作。

根据本公开的实施例，操作S403可以包括，判断操作S402中得到的n个声源方向是否一致。若n个声源方向均一致，则表示该声源的定位准确，执行相应的控制操作。若不一致，则表示声源的定位有误，拒绝执行相应的控制操作。

根据本公开的实施例，上述控制操作例如可以为启动特定设备或应用程序、关闭特定设备或应用程序、播放多媒体文件等。

综上所述，根据本公开的实施例的音频处理方法通过判断多个不同时刻的声源方向是否一致，筛除了至少部分不准确的声源定位结果，从而提高了语音识别的准确性。

图5示意性示出了根据本公开的实施例的音频处理装置500的框图。

如图5所示，音频处理装置500包括第一获得模块510、第一确定模块520、第二确定模块530以及定位模块540。该音频处理装置500可以执行上述各种方法。

具体地，第一获得模块510，用于获得至少一路原始音频波束。

第一确定模块520，用于获取原始音频波束的第一声学特征，并将第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对候选音频波束的选取概率，选取概率指示了候选音频波束与原始音频波束的声源所处方向相一致的概率。

第二确定模块530，用于获取候选音频波束的第二声学特征，并将第二声学特征输入第二神经网络，以确定关键词识别概率，关键词识别概率指示了候选音频波束中包含预设关键词的概率。

定位模块540，用于在关键词识别概率大于预定阈值的候选音频波束中，确定选取概率最高的候选音频波束的方向为声源方向。

根据本公开的实施例，第一获得模块510例如可以执行上文描述的操作S201，第一确定模块520例如可以执行上文描述的操作S202，第二确定模块530例如可以执行上文描述的操作S203，定位模块540例如可以执行上文描述的操作S204，在此不再赘述。

图6示意性示出了根据本公开实施例的第一确定模块520的框图。

根据本公开的实施例，如图6所示，第一确定模块520可以包括第一确定子模块521和第二确定子模块522。

具体地，第一确定子模块521，用于将原始音频波束的第一声学特征输入第一神经网络，确定原始音频波束对应的选取概率。

第二确定子模块522，用于将原始音频波束按照选取概率从大到小排序，确定前K路原始音频波束为候选音频波束，其中，K为正整数。

根据本公开的实施例，第一确定子模块521和第二确定子模块522例如可以用于执行操作S202，在此不再赘述。

图7示意性示出了根据本公开另一实施例的音频处理装置700的框图。

如图7所示，该音频处理装置700在前述实施例的基础上，还可以包括分割模块710以及/或者合并模块720。

具体地，分割模块710，用于将原始音频波束按照预设时间间隔分为多个音频段，原始音频波束的第一声学特征包括多个音频段的第一声学特征。

合并模块720，用于在原始音频波束的第一声学特征为多个的情况下，对第一声学特征进行合并。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一获得模块510、第一确定模块520、第一确定子模块521、第二确定子模块522、第二确定模块530、定位模块540、分割模块710以及合并模块720中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获得模块510、第一确定模块520、第一确定子模块521、第二确定子模块522、第二确定模块530、定位模块540、分割模块710以及合并模块720中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获得模块510、第一确定模块520、第一确定子模块521、第二确定子模块522、第二确定模块530、定位模块540、分割模块710以及合并模块720中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图8示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机系统的方框图。图8示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的计算机系统800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，系统800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

Claims

1.一种音频处理方法，包括：

获得至少一路原始音频波束；

获取所述原始音频波束的第一声学特征，并将所述第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对所述候选音频波束的选取概率，所述选取概率指示了所述候选音频波束与所述原始音频波束的声源所处方向相一致的概率；

获取所述候选音频波束的第二声学特征，并将所述第二声学特征输入第二神经网络，以确定关键词识别概率，所述关键词识别概率指示了所述候选音频波束中包含预设关键词的概率；以及

在所述关键词识别概率大于预定阈值的所述候选音频波束中，确定所述选取概率最高的所述候选音频波束的方向为声源方向。

2.根据权利要求1所述的方法，还包括：

将所述原始音频波束按照预设时间间隔分为多个音频段，所述原始音频波束的第一声学特征包括所述多个音频段的第一声学特征。

3.根据权利要求1所述的方法，其中，若所述原始音频波束的第一声学特征为多个，则对所述第一声学特征进行合并。

4.根据权利要求1所述的方法，其中，

所述第一声学特征包括以下特征中的一个或多个：高频带能量、低频带能量、高频带信噪比、低频带信噪比；

所述第二声学特征包括以下特征中的一个或多个：频谱、对数幅度谱、梅尔顿频率倒谱系数。

5.根据权利要求1至4中任一项所述的方法，其中，所述将所述原始音频波束的第一声学特征输入第一神经网络，确定至少一路候选音频波束和所述候选音频波束所对应的选取概率，包括：

将所述原始音频波束的第一声学特征输入第一神经网络，确定所述原始音频波束对应的选取概率；

将所述原始音频波束按照所述选取概率从大到小排序，确定前K路所述原始音频波束为所述候选音频波束，其中，K为正整数。

6.一种音频处理装置，包括：

第一获得模块，用于获得至少一路原始音频波束；

第一确定模块，用于获取所述原始音频波束的第一声学特征，并将所述第一声学特征输入第一神经网络，以确定至少一路候选音频波束和针对所述候选音频波束的选取概率，所述选取概率指示了所述候选音频波束与所述原始音频波束的声源所处方向相一致的概率；

第二确定模块，用于获取所述候选音频波束的第二声学特征，并将所述第二声学特征输入第二神经网络，以确定关键词识别概率，所述关键词识别概率指示了所述候选音频波束中包含预设关键词的概率；

定位模块，用于在所述关键词识别概率大于预定阈值的所述候选音频波束中，确定所述选取概率最高的所述候选音频波束的方向为声源方向。

7.根据权利要求6所述的装置，还包括：

分割模块，用于将所述原始音频波束按照预设时间间隔分为多个音频段，所述原始音频波束的第一声学特征包括所述多个音频段的第一声学特征。

8.根据权利要求6所述的装置，还包括：

合并模块，用于在所述原始音频波束的第一声学特征为多个的情况下，对所述第一声学特征进行合并。

9.根据权利要求6所述的装置，其中，

10.根据权利要求6至9中任一项所述的装置，其中，所述第一确定模块包括：

第一确定子模块，用于将所述原始音频波束的第一声学特征输入第一神经网络，确定所述原始音频波束对应的选取概率；

第二确定子模块，用于将所述原始音频波束按照所述选取概率从大到小排序，确定前K路所述原始音频波束为所述候选音频波束，其中，K为正整数。

11.一种音频处理系统，包括：

一个或多个处理器；

存储器，用于存储一个或多个计算机程序，

其中，当一个或多个计算机程序被一个或多个处理器执行时，使得一个或多个处理器实现权利要求1至5中任一项的方法。

12.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至5中任一项的方法。