CN110364166B

CN110364166B - 实现语音信号识别的电子设备

Info

Publication number: CN110364166B
Application number: CN201910744527.8A
Authority: CN
Inventors: 高毅; 郑脊萌; 于蒙; 罗敏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-06-28
Filing date: 2018-06-28
Publication date: 2022-10-28
Anticipated expiration: 2038-06-28
Also published as: JP2021515281A; CN110164446A; CN110164446B; WO2020001163A1; US11217229B2; EP3816995A1; JP7109852B2; US20200335088A1; EP3816995A4; CN110364166A

Abstract

本申请涉及一种实现语音信号识别的电子设备，包括：用于采集音频信号的麦克风阵列；与麦克风阵列连接的多个处理器；各处理器配对配置有波束形成器和语音识别模块，其中，各波束形成器，用于将音频信号在设定的多个不同目标方向分别进行波束成形处理，得到对应的多路波束信号；各语音识别模块，用于分别对配对的各波束形成器输出的波束信号进行语音识别，得到各路波束信号的语音识别结果；其中一个处理器配置有处理模块，用于根据各路波束信号的语音识别结果，确定音频信号的语音识别结果。该方法通过在不同目标方向进行波束成形处理，那么至少一个目标方向与语音信号产生方向接近，能够提高智能语音识别的准确度。

Description

实现语音信号识别的电子设备

本申请是于2018年06月28日提交中国专利局，申请号为201810689667.5，发明名称为“语音信号识别方法和装置、计算机设备和电子设备”的分案申请，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音技术领域，特别是涉及一种实现语音信号识别的电子设备。

背景技术

语音技术(Speech Technology)让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。智能语音交互技术能够通过语音命令实现人机交互，通过将智能语音交互技术植入传统的电子设备中，从而使电子设备具有人工智能的属性。这种具有智能语音交互功能的电子设备因为其人工智能的属性，越来越受到人们的喜欢。例如，亚马逊的Echo智能音箱在市场获得了巨大成功。

对于植入了语音交互技术的电子设备而言，准确地识别人类的语音命令是语音交互的基础。而人们使用电子设备的环境是不确定的，当处于较大环境噪声的情况下，如何降低环境噪声对语音识别的影响，提高电子设备的语音信号识别的准确率是人们亟待解决的问题。传统的解决这一问题的方法通常为首先通过麦克风阵列中所有麦克风拾取到的语音信号，确定声源的角度，并根据声源角度对语音进行指向性拾取，从而减少不相关噪声的干扰，提高电子设备的语音识别的准确性。

而这种方式受声源角度精确度的影响，当声源角度检测错误时，将导致语音识别的准确率降低。

发明内容

基于此，有必要针对识别准确度低的技术问题，提供一种实现语音信号识别的电子设备。

一种实现语音信号识别的电子设备，包括：

用于采集音频信号的麦克风阵列；

与所述麦克风阵列连接的多个处理器；各处理器配对配置有波束形成器和语音识别模块，其中，各波束形成器，用于将所述音频信号在设定的多个不同目标方向分别进行波束成形处理，得到对应的多路波束信号；各语音识别模块，用于分别对配对的各波束形成器输出的波束信号进行语音识别，得到各路波束信号的语音识别结果；

其中一个处理器配置有处理模块，用于根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

上述的实现语音信号识别方法的电子设备，通过对麦克风阵列采集的音频信号，在设定的多个不同目标方向进行波束成形处理，得到对应的多路波束信号，能够分别在不同目标方向进行声音增强处理后，清楚地提取各目标方向增强处理后的波束信号，即该方法无需考虑声源角度，通过在不同目标方向进行波束成形处理，那么至少一个目标方向与语音信号产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各波束信号进行语音识别，能够提高在该方向上对音频信号进行识别的准确度。

附图说明

图1为一个实施例中语音信号识别方法的流程示意图；

图2为一个实施例中麦克风阵列的示意图；

图3为一个实施例中在四个目标方向进行波束成形处理得到的波束信号的示意图；

图4为一个实施例中波束形成器与语音识别模型的交互示意图；

图5为一个实施例中语音识别模型的结构示意图；

图6为一个实施例中语音识别模型的神经网络节点检测到唤醒词时的信号示意图；

图7为一个实施例的麦克风阵列的示意图；

图8为另一个实施例的麦克风阵列的示意图；

图9为一个实施例中语音信号识别方法的步骤流程示意图；

图10为一个实施例中语音信号识别装置的结构框图；

图11为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

人工智能(Artificial Intelligence,AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音处理技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，语音成为未来最被看好的人机交互方式之一。本申请实施例提供的方案涉及人工智能领域的语音信号识别，具体通过如下实施例进行说明：

在一个实施例中，提供了一种语音信号识别方法。本实施例主要以该方法应用于语音识别设备为例进行说明。语音识别设备可以为植入了语音识别技术的电子设备，电子设备可以是能够实现人机语音交互的智能终端、智能家电或机器人等。如图1所示，该语音信号识别方法包括：

S102，接收麦克风阵列采集的音频信号。

麦克风阵列即麦克风的排列，由一定数量的麦克风组成。各麦克风采集电子设备所处环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将模拟声音信号转换为数字音频信号。不同排布方式的麦克风阵列，采集音频信号的效果不同。

例如，麦克风阵列可采用一维麦克风阵列，其阵元中心位于同一条直线上。根据相邻阵元间距是否相同，又可分为均匀线性阵列(Uniform Linear Array，ULA)和嵌套线性阵列。均匀线性阵列是最简单的阵列拓扑结构，其阵元之间距离相等、相位及灵敏度一致。嵌套线性阵列则可看成几组均匀线性阵列的叠加，是一类特殊的非均匀阵。线性阵列在水平方向上不能区分整个360度范围内的声源方向，而只能区分180度范围内的声源方向。这种麦克风阵列可适应于180度范围的应用环境，例如，电子设备靠墙或是其它设备，声音的来源为180度范围。

又例如，麦克风阵列可采用二维麦克风阵列，即平面麦克风阵列，其阵元中心分布在一个平面上。根据阵列的几何形状可分为等边三角形阵、T型阵、均匀圆阵、均匀方阵、同轴圆阵、圆形或矩形面阵等。平面阵列可以得到信号的水平方位角和垂直方位角信息。这种麦克风阵列可适应于360度范围的应用环境，例如，电子设备需要接收不同朝向的声音。

再例如，麦克风阵列可采用三维麦克风阵列，即立体麦克风阵列，其阵元中心分布在立体空间中。根据阵列的立体形状可分为四面体阵、正方体阵、长方体阵、球型阵等。立体阵列可以得到信号的水平方位角、垂直方位角和声源与麦克风阵列参考点距离这三维信息。

现以麦克风阵列为环形为例进行说明。一种实施例的环形麦克风阵列的示意图如图2所示，本实施例中用了6个物理麦克风，依次安放在方位角0度、60度、120度、180度、240度、300度，半径为R的圆周上组成一个环形麦克风阵列。每个麦克风采集环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将模拟声音信号转换为数字声音信号。环形麦克风阵列能够360度采集声音信号。

S104，将音频信号在设定的多个不同目标方向分别进行波束形成处理，得到对应的多个波束信号。

波束形成，是对麦克风阵列中各麦克风输出的音频信号进行时延或相位补偿、幅度加权处理，以形成指向特定方向的波束。例如，对麦克风阵列采集的声音在0度、90度、180度或270度进行波束形成，形成指向0度、90度、180度或270度方向的波束。

具体地，可采用波束形成器将音频信号在设定方向分别进行波束形成处理。波束形成器是基于特定麦克风阵列所设计的算法，它能够对特定的一个或者多个目标方向的声音信号进行增强，对非目标方向的声音信号进行抑制波束形成器可以是任何类型的能设定方向的波束形成器，包括但不限于超方向波束形成器、基于MVDR或者MUSIC算法的波束形成器。

本实施例中，设置有多个波束形成器，每个波束形成器在不同方向进行波束形成处理。具体地，多个麦克风的数字音频信号组成麦克风阵列信号送往多个波束形成器。各波束形成器对不同的设定方式的音频信号进行增强处理，对其它方向的音频信号进行抑制，越偏离设定角度方向的音频信号被抑制的越多，这样就能提取设定方向附近的音频信号。

一个实施例中，设置有四个波束形成器，分别在0度、90度、180度和270度对音频信号进行波束成形处理，对多个方向进行波束成形处理得到的多路波束信号的示意图如图3所示。可以理解的是，对于输入各波束形成器的音频信号，不限于采集该音频信号的麦克风阵列的排布方式。对于多目标方向分别进行波束成形处理而言，能够对目标方向的声音信号进行增强处理，降低其它方向的声音信号的干扰，因此，优选地，采集该音频信号的麦克风阵列至少具有两个不同方向的麦克风。

以利用图2所示的麦克风阵列采集音频信号为例，如图3所示，将多个麦克风的数字音频信号组成麦克风阵列信号，对0度方向的声音维持不变(0dB增益)，对60度和330度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对90度和270度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对0度方向的声音信号的增强，降低了其它方向的声音信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对90度方向的声音维持不变(0dB增益)，对30度和150度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对0度和180度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对90度方向的声音信号的增强，降低了其它方向的声音信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对180度方向的声音维持不变(0dB增益)，对120度和240度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对90度和270度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对180度方向的声音信号的增强，降低了其它方向的声音信号的干扰。

请继续参阅图3，将多个麦克风的数字音频信号组成麦克风阵列信号，对270度方向的声音维持不变(0dB增益)，对210度和330度方向的声音具有大于9dB的抑制效果(约-9dB增益)，对180度和0度方向的声音则具有超过20dB的抑制。线条越接近圆心则表示对该方向的声音抑制越多，从而实现了对270度方向的声音信号的增强，降低了其它方向的声音信号的干扰。

可以理解的是，为了实现其它目标方向声音信号的增强，在其它的实施例中，还可以设置更多或更少的波束形成器，以提取其它方向的声音增强的波束信号。通过对设定的多个不同目标方向分别进行波束成形处理，对于该波束形成器的波束信号而言，能够实现对目标方向的声音信号的增强，降低了其它方向的声音信号的干扰。而多路目标方向的声音信号中，至少有一路波束信号与发出语音信号的实际声音方向接近，即至少有一路波束信号能够反应语音信号的实际声音，同时降低了其它方向的噪声的干扰。

本实施例中，对于麦克风阵列采集的音频信号，无需鉴别声源方向，均在设定的多个不同方向进行波束成形处理。这样做的优点在于，能够得到多个设定目标方向的声音增强信号，其中必然有至少一个声音增强信号与实际语音信号产生方向接近，即至少一个声音增强信号能够反应实际的语音信号产生方向。对于该方向的波束形成器而言，对语音信号产生方向的音频信号进行了增强处理，对其它方向的音频信号进行抑制处理，能够增强语音信号产生方向对应角度的音频信号，即减少了其它方向音频信号，能够清楚地提取在该方向的音频信号，降低了其它方向的音频信号(包括噪声)的干扰。

S106，分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果。

本实施例中，对于每一路信号分别进行语音识别，由于对音频信号在设定的多个不同目标方向进行波束成形处理，得到多路波束信号，即对于一路波束信号而言，是对设定目标方向进行增强处理，非设定目标方向进行抑制处理得到，故而每一路波束信号反应不同方向的音频信号的声音增强信号，根据每个方向的音频信号的声音增强信号进行语音识别，对于包含人声的声音增强信号，能够提高语音识别的准确率。S108，根据各路波束信号的语音识别结果，确定音频信号的语音识别结果。

通过对每一路波束信号进行语音识别结果，能够提高在对应方向的声音信号的语音识别的准确率，根据各方向的声音信号的识别结果，能够得到多个方向的声音信号的识别结果，即结合各路声音增强后的语音识别结果，得到音频信号的语音识别结果。上述的语音信号识别方向，通过对麦克风阵列采集的音频信号，在设定的多个不同目标方向进行波束成形处理，得到对应的多路波束信号，能够分别在不同目标方向进行声音增强处理后，清楚地提取各目标方向增强处理后的波束信号，即该方法无需考虑声源角度，通过在不同目标方向进行波束成形处理，那么至少一个目标方向与语音信号产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各波束信号进行语音识别，能够提高在该方向上对音频信号进行识别的准确度。

在另一个实施例中，分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果，包括：将每路波束信号分别输入对应的语音识别模型，由各语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的语音识别结果。

具体地，语音识别模型使用神经网络模型预先训练得到。将每路波束信号对应的特征向量，例如能量和子带特征等，通过预先训练好的神经网络参数逐层计算，进行语音识别。

在另一个实施例中，设置有波束形成器数量对应的语音识别神经网络模型，即一个波束形成器与一个语音识别神经网络模型对应，如图4所示，具体地，将每路波束信号分别输入对应的语音识别模型，由各语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的语音识别结果。

本实施例中，通过设置与波束形成器数量对应的语音识别神经网络模型，对于各路波束信号并行进行语音识别，能够提高语音识别的效率。

具体地，一个波束形成器和一个语音识别模型配对运行在一个CPU上，即多对波束形成器和语音识别模型配对运行在多个CPU上，然后将语音识别模型的检测结果综合起来得到最终的检测结果。通过这种并行运算可以极大加快软件执行速度。

本实施例中，由不同的硬件计算单元来处理以分摊计算量，提高系统稳定性，并提高唤醒词检测响应速度。具体而言，N个波束形成器被分成M组，M<＝N,每一组由指定的硬件计算单元(例如DSP或CPU核)来执行计算。同理N个语音识别模型被分成M组，M<＝N,每一组由指定的硬件计算单元(例如DSP或CPU核)来执行计算。

本申请的语音信号识别方法可应用关键词检测。关键词检测(Spokenkeywordspotting或SpokenTermDetection)是语音识别领域的一个子领域，其目的是在语音信号中检测指定词语的所有出现位置。在具体的实施例中，可将关键词检测方法的应用到唤醒词检测领域。具体地，唤醒词是指设定的语音指令。当检测到唤醒词时，处于休眠或锁屏状态下的电子设备进入到等待指令状态。

具体地，语音识别结果包括关键词检测检测结果。根据各路波束信号的语音识别结果，确定音频信号的语音识别结果，包括：根据各路波束信号的关键词检测结果，确定音频信号的关键词检测结果。

具体地，各语音识别模型接收对应的波束形成器方向性的波束信号，并检测其中是否包含关键词信号，并将检测结果输出。以关键词包括4个字为例，如图5所示，将波束信号的特征向量(例如能量和子带特征等)，通过预先训练好的网络参数逐层计算各个节点的输出值，最后在输出层得到关键词检测结果。

在一个实施例中，检测结果可以为二元符号，例如，输出0表示没有检测到关键词，输出1表示检测到关键词。根据各路波束信号的关键词检测结果，确定音频信号的关键词检测结果，包括：当任意一路波束信号的关键词检测结果为检测到关键词时，确定音频信号的关键词检测结果为检测到关键词，即当多各语音识别模型中至少有一个语音识别模型检测到关键词时，确定检测到关键词。

关键词检测结果包括关键词检测概率；根据各路波束信号的关键词检测结果，确定音频信号的关键词检测结果，包括：当至少一路波束信号的关键词检测概率大于预设值时，确定音频信号的关键词检测结果为检测到关键词。

具体地，如图5所示，假设关键词是“你好小听”，该神经网络输出层具有5个节点，分别代表该段语音属于“你”“好”“小”“听”四个关键字以及非关键字的概率。具体地，如果在一段时间窗口Dw内出现了唤醒词，则神经网络的输出节点将出现类似图6所示信号，即可依次观察到“你”“好”“小”“听”四个关键字的概率增大。通过在该时间窗口中累积唤醒词中这四个关键字的概率即可判断是否出现关键词。

在一个实施例中，根据各路波束信号的关键词检测结果，确定音频信号的关键词检测结果，包括：将各路波束信号的关键词检测概率输入预先训练的分类器，根据分类器的输出确定音频信号是否包括关键词。

具体地，各语音识别模型输出各个方向唤醒词出现的概率，由一个分类器模块(包括但不限于神经网络，SVM、决策树等各种分类算法)来作出最终的检测判决。

在另一个实施例中，根据各路波束信号的语音识别结果，确定音频信号的语音识别结果，包括：计算各路波束信号的语音识别结果的语言学和/或声学得分；将最高得分的语音识别结果，确定音频信号的语音识别结果。

具体地，该语音信号识别方法可应用于连续或非连续语音识别领域，将多个波束形成器的输出同时送入多个语音识别模型，最终的识别结果采用具有最佳识别结果(例如最大的声学得分或者语言学得分或者两者的组合)的语音识别模型的输出。

在另一个实施例中，语音信号识别方法还包括：对语音识别设备所输出的音频信号导致的回声进行抑制处理。

具体地，对于包括音频播放功能的语音识别设备而言，例如，智能音箱。为避免自身播放声音对语音识别的干扰，可选的设置有回声消除模块，可以去除语音识别设备自身所播放声音被麦克风采集到的回声。该回声消除模块可以置于波束形成器之前或之后。当多方向波束形成器输出声音的声道数量小于麦克风数量时，将回声消除模块置于多方向波束形成器模块之后可以有效降低运算量。

在一个实施例中，回声消除器模块或者波束成形器的多路输出信号可以经过一个声道选择模块进一步减少输出声道数量，以降低后续多路唤醒词检测模块的运算量和内存消耗。

在一个实施例中，提供一种电子设备，包括：用于采集音频信号的麦克风阵列，所述麦克风阵列包括至少两层环形结构；

与所述麦克风阵列连接处理器，用于对所述声音信号进行处理；

存储有计算机程序的存储器；

封装所述麦克风阵列和所述处理器的壳体；

所述计算机程序被所述处理器执行时，使得所述处理器执行如上述各实施例的语音信号识别方法。

具体地，环形阵列中麦克风可以安放在标准的圆周上，也可以安放在椭圆形的圆周上；麦克风均匀分布在圆周上，也可以非均匀地安放在圆周上。环节结构的麦克风阵列能够360度地拾取声音信号，提高声源检测的方向，适用于远场环境。

在一个实施例中，各环形结构上设置至少三个麦克风。即，各环形结构上安放大于或等于三个麦克风构成多层环形阵列。环形阵列上的麦克风越多，理论上计算声源方向的精度越高，对目标方向的声音的增强质量越好。考虑到麦克风越多成本和计算复杂度越高，各环形结构上分别设置4个至8个麦克风。

在一个实施例中，为了降低声音检测的复杂度，各环形结构上的麦克风均匀设置。

在一个实施例中，各环形结构为同心圆，相相邻两个环形结构的麦克风分别设置在相同方向。即各环形结构上的麦克风分别设置在同一角度。如图7所示，以两个环形结构为例，每个环形结构上设置三个麦克风。内层麦克风和外层麦克风分别在0度，120度和240度设置有麦克风。多层环形结构的麦克风阵列增加了麦克风个数，使得阵列可以获得更好的指向性。

在一个实施例中，任意两个环形结构上的麦克风具有夹角。即，各环形结构上的麦克风错开设置。如图8所示，以两个环形结构为例，每个环形结构上设置三个麦克风。内层环形结构分别在0度，120度和240度设置有麦克风，外层环形结构分别在60度，180度和300度设置有麦克风。这种方式的麦克风阵列，麦克风相对位置获得更多的多样性，比如外层麦克风与内层麦克风之间的不同夹角，从而对某些方向的声源具有更好的检测和增强效果，麦克风分布更密集则增加了空间采样，对一些频率的声音信号具有更好的检测和增强效果。

在另一个实施例中，可以在环形阵列的圆心上安放麦克风设备形成麦克风阵列，在圆心上放置麦克风增加了麦克风个数，可以增强阵列的指向性，比如圆心的麦克风可以与圆周上的任意一个麦克风组合成一个具有两个麦克风的线性阵列，有利于检测声源方向。圆心的麦克风也可以与圆周上的多个麦克风组合成不同形状的麦克风子阵列，有利于检测不同方向/频率的信号。

本申请的语音信号识别方法，可应用于关键词检测，例如唤醒词检测，连续或非连续任意语音信号识别领域。下面，以语音信号识别方法应用于唤醒词检测为例，对语音信号识别方法进行说明。如图9所示，该方法包括以下步骤：

S902，接收麦克风阵列采集的音频信号。

其中，麦克风阵列的排布方式不限，例如，电子设备靠墙或是其它设备，声音的来源为180度范围的环境时，麦克风阵列可以为线性排布。又例如，电子设备需要接收不同朝向的声音，如360度范围的应用环境时，麦克风阵列可采用环形麦克风阵列，一种环形麦克风阵列的排布方式分别如图2、图7和图8所示。各麦克风采集电子设备所处环境声音的模拟信号，经过模数转换器、增益控制器、编解码器等音频采集设备将模拟声音信号转换为数字音频信号。

S904，将音频信号在设定的多个不同目标方向分别进行波束成形处理，得到对应的多路波束信号。

一个实施例中，设置有四个波束形成器，分别在0度、90度、180度和270度对音频信号进行波束成形处理，对多个方向进行波束成形处理得到的多路波束信号的示意图如图3所示。

S906，分别将每路波束信号输入语音识别模型，由语音识别模型并行对对应的波束信号进行语音识别，得到各路波束信号的唤醒词检测结果。

本实施例中，通过设置与波束形成器数量对应的语音识别神经网络模型，对于各路波束信号并行进行语音识别，能够提高唤醒词检测的效率。一个实施例的语音识别模型的结构如图5所示，各语音识别模型接收对应的波束形成器方向性的波束信号，并检测其中是否包含唤醒词信号，并将检测结果输出。以唤醒词包括4个字为例，如图5所示，将波束信号的特征向量(例如能量和子带特征等)，通过预先训练好的网络参数逐层计算各个节点的输出值，最后在输出层得到唤醒词或者唤醒词中的关键字的概率。如图5所示，假设唤醒词是“你好小听”，该神经网络输出层具有5个节点，分别代表该段语音属于“你”“好”“小”“听”四个关键字以及非关键字的概率。

S908，根据各路波束信号的唤醒词检测结果，得到音频信号的唤醒词检测结果。

具体地，根据各路波束信号的语音识别结果，得到唤醒词检测结果，可以是二元符号(例如输出0表示没有检测到唤醒词，输出1表示检测到唤醒词)，也可以是输出概率(例如概率值越大表示检测到唤醒词的概率越大)。具体地，当多各语音识别模型中至少有一个语音识别模型检测到唤醒词时，确定检测到唤醒词。如果语音识别模型的输出为唤醒词出现的概率，当有至少一个唤醒词检测器的输出概率大于预设值时，认为检测到唤醒词。或者，各语音识别模型输出各个方向唤醒词出现的概率，由一个分类器模块(包括但不限于神经网络，SVM、决策树等各种分类算法)来作出最终的检测判决，即将各路波束信号的唤醒词检测概率输入分类器，根据分类器的输出确定音频信号是否包括唤醒词。

上述的方法，采用麦克风阵列进行音频信号采集，通过多方向波束形成器对麦克风阵列信号进行滤波形成多个方向性增强信号，通过多个语音识别模型对方向性增强信号中的唤醒词进行监测，根据对多个语音识别模型输出的唤醒词检测结果进行综合得到最终判别结果。该方法无需考虑声源角度，通过在不同目标方向进行波束成形处理，那么至少一个目标方向与语音信号产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各波束信号进行唤醒词检测，能够提高在该方向上唤醒词检测的准确度。

一种语音信号识别装置，如图10所示，包括：

音频信号接收模块1001，用于接收麦克风阵列采集的音频信号；

波束形成器1002，用于将所述音频信号在设定的多个不同目标方向分别进行波束成形处理，得到对应的多路波束信号；

语音识别模块1003，用于分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果。

处理模块1004，用于根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

上述的语音信号识别装置，通过对麦克风阵列采集的音频信号，在设定的多个不同目标方向进行波束成形处理，得到对应的多路波束信号，能够分别在不同目标方向进行声音增强处理后，清楚地提取各目标方向增强处理后的波束信号，即该方法无需考虑声源角度，通过在不同目标方向进行波束成形处理，那么至少一个目标方向与语音信号产生方向接近，因而至少一个在目标方向进行增强后的波束信号是清楚地，因而根据各波束信号进行语音识别，能够提高在该方向上对音频信号进行识别的准确度。

在另一个实施例中，所述处理模块，用于根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果。

在另一个实施例中，自理模块，用于当任意一路波束信号的关键词检测结果为检测到关键词时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述关键词检测结果包括关键词检测概率；处理模块，用于当至少一路所述波束信号的关键词检测概率大于预设值时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，处理模块，用于将各路所述波束信号的关键词检测概率输入预先训练的分类器，根据所述分类器的输出确定所述音频信号是否包括关键词。

在另一个实施例中，处理模块，用于计算各路波束信号的语音识别结果的语言学和/或声学得分，将最高得分的语音识别结果，确定所述音频信号的语音识别结果。

在另一个实施例中，语音识别模块，用于将每路波束信号分别输入对应的语音识别模型，由各语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。

具体地，如图4所示，一个波束形成器与一个语音识别神经网络模型对应。所述声音识别模块，用于将每路波束信号分别输入对应的语音识别模型，由各语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。在另一个实施例中，语音信号识别装置回声消除模块，用于对语音识别设备所输出的音频信号导致的回声进行抑制处理。

其中，回声消除模块可置于波束形成器之前扣之后，当多方向波束形成器输出声音的声道数量小于麦克风数量时，将回声消除模块置于多方向波束形成器之后可以有效降低运算量。

在另一个实施例中，语音信号识别装置还包括声道选择模块，回声消除器模块或者波束成形器的多路输出信号可以经过一个声道选择模块进一步减少输出声道数量，以降低后续多路唤醒词检测模块的运算量和内存消耗。

图11示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是语音识别设备。如图11所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置、显示屏和麦克风阵列和音频输出设备。其中，麦克风阵列采集音频信号。存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音信号识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音信号识别方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。音频输出设备包括扬声器，用于播放声音。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音信号识别装置可以实现为一种计算机程序的形式，计算机程序可在如图11所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音信号识别装置的各个程序模块，比如，图10所示的音频信号接收模块、波束形成器和语音识别模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音信号识别方法中的步骤。

例如，图11所示的计算机设备可以通过如图10所示的语音信号识别装置中的音频信号接收模块执行接收麦克风阵列采集的音频信号的步骤。计算机设备可通过波束形成器执行将所述音频信号在设定的多个不同目标方向分别进行波束成形处理，得到对应的多路波束信号的步骤。计算机设备可通过语音识别模块执行根据各路所述波束信号进行语音识别的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

接收麦克风阵列采集的音频信号；

分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果；

根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果。

在另一个实施例中，所述语音识别结果包括关键词检测结果；所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果。

在另一个实施例中，所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：当任意一路波束信号的关键词检测结果为检测到关键词时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述关键词检测结果包括关键词检测概率；所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：当至少一路所述波束信号的关键词检测概率大于预设值时，确定所述音频信号的关键词检测结果为检测到关键词。

在另一个实施例中，所述根据各路波束信号的关键词检测结果，确定所述音频信号的关键词检测结果，包括：将各路所述波束信号的关键词检测概率输入预先训练的分类器，根据所述分类器的输出确定所述音频信号是否包括关键词。

在另一个实施例中，所述根据各路波束信号的语音识别结果，确定所述音频信号的语音识别结果，包括：计算各路波束信号的语音识别结果的语言学和/或声学得分；将最高得分的语音识别结果，确定所述音频信号的语音识别结果。

在另一个实施例中，所述分别对每路波束信号进行语音识别，得到各路波束信号的语音识别结果，包括：将每路波束信号分别输入对应的语音识别模型，由各语音识别模型并行对对应的所述波束信号进行语音识别，得到各路波束信号的语音识别结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种实现语音信号识别的电子设备，包括：

用于采集音频信号的麦克风阵列，所述麦克风阵列包括至少两层环形结构，任意两个环形结构上的麦克风具有夹角；

分别配对配置有波束形成器、语音识别模型和回声消除模块的多个处理器，所述麦克风阵列与所述多个处理器连接；其中，所述波束形成器、语音识别模型和回声消除模块的数量分别为4个，4个波束形成器被分成M组，M<＝4，每一组波束形成器由指定的CPU核来执行，4个语音识别模型分别被分成M组，M<＝4,每一组语音识别模型由指定CPU核来执行；

其中，所述波束形成器的数量小于所述麦克风阵列中的麦克风数量，各所述处理器上的各波束形成器的波束形成处理的方向不同，用于并行将所述音频信号在0度、90度、180度和270度分别进行波束成形处理，得到指向0度、90度、180度和270度的波束信号；

各回声消除模块，置于对应的所述波束形成器之后，各所述处理器上的各回声消除模块用于并行对配对的所述波束形成器输出的所述波束信号中的回声进行抑制处理；

各所述处理器上的各语音识别模型，用于分别并行对配对的各回声消除模块输出的波束信号进行语音识别，得到各路波束信号的唤醒词检测结果；其中一个处理器配置有处理模块，用于根据各路波束信号的唤醒词检测结果，确定所述音频信号的唤醒词检测结果，当检测到唤醒词时，处于休眠或锁屏状态下的所述电子设备被唤醒进入到等待指令状态。

2.根据权利要求1所述的电子设备，其特征在于，所述处理模块，用于当任意一路波束信号的唤醒词检测结果为检测到唤醒词时，确定所述音频信号的唤醒词检测结果为检测到唤醒词。

3.根据权利要求1所述的电子设备，其特征在于，所述唤醒词检测结果包括唤醒词检测概率；所述处理模块，用于当至少一路所述波束信号的唤醒词检测概率大于预设值时，确定所述音频信号的唤醒词检测结果为检测到唤醒词。

4.根据权利要求1所述的电子设备，其特征在于，所述唤醒词检测结果包括唤醒词检测概率，所述处理模块，用于将各路所述波束信号的唤醒词检测概率输入预先训练的分类器，根据所述分类器的输出确定所述音频信号是否包括关唤醒词。

5.根据权利要求1所述的电子设备，其特征在于，所述处理模块，用于计算各路波束信号的语音识别结果的语言学和/或声学得分，将最高得分的语音识别结果，确定所述音频信号的唤醒词检测结果。

6.根据权利要求1所述的电子设备，其特征在于，各环形结构上均匀设置有至少三个麦克风。

7.根据权利要求1所述的电子设备，其特征在于，各环形结构为同心圆。