CN110517677B

CN110517677B - 语音处理系统、方法、设备、语音识别系统及存储介质

Info

Publication number: CN110517677B
Application number: CN201910797459.1A
Authority: CN
Inventors: 郑脊萌; 黎韦伟; 刘二男
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2022-02-08
Anticipated expiration: 2039-08-27
Also published as: CN110517677A

Abstract

本申请公开了一种基于人工智能的语音处理系统，包括：声音采集模块，用于采集声音信号；空间谱分析模块，用于分析所述声音信号得到空间谱；语音标注模块，用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，向与其对应的自适应波束形成器发送所述标注结果；所述自适应波束形成器，用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到增强语音信号，所述增强语音信号用于语音识别。通过新增空间谱分析模块和语音标注模块，实现对声音信号中是否包含指定方向的语音进行标注，为波束形成器进行语音增强提供参考信息，以提高语音识别性能。本申请还公开了对应的方法、设备、语音识别系统及介质。

Description

语音处理系统、方法、设备、语音识别系统及存储介质

技术领域

本申请涉及语音处理技术领域，尤其涉及一种基于人工智能的语音处理系统、方法、设备、语音识别系统及计算机存储介质。

背景技术

随着智能音箱、智能汽车、智能电视等物联网产品的流行，人机之间的语音交互尤其是远场语音交互过程首先会用到语音唤醒。语音唤醒是指用户通过说出唤醒词来唤醒电子设备，使电子设备进入到等待语音指令的状态或使电子设备直接执行预定语音指令。

语音唤醒功能的性能主要依赖于唤醒词的检测性能，目前常见的提高唤醒词检测性能的解决方案主要是通过多方向的波束形成器产生多路针对多个不同方向的增强后的语音，这多路语音被送给多个独立的唤醒词检测模块，输出实时的唤醒词检测得分，最后由唤醒结果决策和方位角估计模块利用这些得分作出判决，并估计出当前唤醒词的到达方位角(Direction-Of-Arrival,DOA)，该到达方位角被送给用于为自动语音识别系统(Automatic Speech Recognition，ASR)产生增强语音信号的自适应波束形成器(AdaptiveBeamForming，ABF)即ASR-ABF，由ASR-ABF开始针对该DOA进行定向语音增强，增强后的语音送到用于为ASR产生语音片段的语音激活检测模块(Voice Activity Detection，VAD)即ASR-VAD，由ASR-VAD进行语音检测将语音切分成连续的语音片段，并送往自动语音识别系统ASR作识别。

目前这种解决方案中ASR-ABF对非稳态语音干扰噪声的抑制效果不佳，导致ASR-VAD对目标语言命令的起始和截止点的判断容易受到语音类干扰噪声的影响，进而导致送到云端的语音片段过短或过长，最终影响语音识别精度。

发明内容

本申请提供一种基于人工智能的语音处理系统，其基于空间谱对非稳态语音信号的方位进行判定，并基于判定结果控制自适应波束形成器的更新，提高其对非稳态干扰噪声的抑制能力，进而提高唤醒性能和识别性能，基于该系统切分的语音片段更精准，进一步提高识别性能和用户交互体验。本申请还提供一种基于人工智能的语音处理方法、语音处理设备、语音识别系统、介质及计算机程序产品。

本申请第一方面提供了一种基于人工智能的语音处理系统，所述系统包括：

声音采集模块，用于采集声音信号；

空间谱分析模块，用于分析所述声音信号得到空间谱；

语音标注模块，用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，向与其对应的自适应波束形成器发送所述标注结果；

所述自适应波束形成器，用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到增强语音信号，所述增强语音信号用于语音识别。

本申请第二方面提供一种基于人工智能的语音处理方法，所述方法包括：

采集声音信号；

分析所述声音信号得到空间谱；

根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果；

控制配置有所述给定方位角的自适应波束形成器根据所述标注结果更新自身系数并对所述声音信号进行增强得到增强语音信号，所述增强语音信号用于语音识别。

本申请第三方面提供一种基于人工智能的语音处理设备，包括：

处理器以及存储器，其中，

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请第二方面所述的语音处理方法。

本申请第四方面提供一种基于人工智能的语音识别系统，包括：

配置有如本申请第一方面所述的语音处理系统的终端设备和语音识别设备；

其中，所述终端设备和所述语音识别设备之间通过网络通信。

本申请第五方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述第二方面所述的语音处理方法。

本申请第六方面提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行上述第二方面所述的语音处理方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中提供了一种围绕空间谱分析模块为核心的语音处理系统，空间谱分析模块分析声音采集模块采集的声音信号得到空间谱，由语音标注模块根据空间谱标注声音信号中是否包含给定方位角附近的语音信号，然后将标注结果发送至对应的自适应波束形成器，使其根据标注结果更新自身系数，进而对声音信号进行增强得到增强语音信号，由于提高了对非稳态干扰噪声的抑制能力，因而提高了唤醒性能和识别性能。基于此，对语音信号进行切分能够得到更精准的片段，进一步提高了识别性能和用户交互体验。

附图说明

图1为本申请实施例中基于人工智能的语音处理系统的场景架构图；

图2为本申请实施例中基于人工智能的语音处理系统的结构示意图；

图3为本申请实施例中语音标注模块的结构示意图；

图4为本申请实施例中基于人工智能的语音处理系统的结构示意图；

图5为本申请实施例中基于人工智能的语音处理系统的结构示意图；

图6为本申请实施例中基于人工智能的语音处理系统的结构示意图；

图7为本申请实施例中基于人工智能的语音处理方法的流程图；

图8为本申请实施例中基于人工智能的语音处理方法的应用场景示意图；

图9为本申请实施例中基于人工智能的语音处理设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请涉及人工智能(Artificial Intelligence，AI)领域，下面对人工智能领域相关技术进行简单介绍。

所谓人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音处理技术Speech Technology主要包括自动语音识别技术ASR、语音合成技术(Text To Speech，TTS)以及声纹识别技术，本申请具体是针对ASR进行改进。针对ASR-ABF对非稳态语音干扰噪声的抑制效果不佳，导致ASR-VAD对目标语言命令的起始和截止点的判断容易受到语音类干扰噪声的影响，进而导致送到云端的语音片段过短或过长，最终影响语音识别精度的问题，本申请提供了一种围绕空间谱分析模块为核心的语音处理系统，该系统利用空间谱分析模块对声音信号进行分析得到空间谱，利用空间谱对声音信号是否包含给定方位角附近的语音信号进行标注，基于标注结果更新自适应波束形成器，从而抑制非稳态干扰噪声，提高了唤醒性能和识别性能。基于此，对语音信号进行切分能够得到更精准的片段，进一步提高了识别性能和用户交互体验。

上述语音处理系统可以部署在任意基于语音处理功能的设备中，该设备具体可以是终端，也可以是服务器。其中，终端可以是智能音箱、智能电视等家用终端设备，也可以是台式机等桌面终端设备以及平板电脑、手机等便携式移动终端设备，或者是智能汽车、车载终端设备、增强现实(Augmented Reality，AR)/虚拟现实(Virtual Reality，VR)终端设备等等。为了便于理解，后文以智能音箱进行示例性说明。

在实际应用时，本申请提供的基于AI的语音处理系统可以但不限于应用于如图1所示的应用环境中。

如图1所示，智能音箱100安装有语音采集系统，其能够采集周围的声音信号，该声音信号可以包括用户发出的语音信号及智能音箱100所在环境中存在的干扰噪声信号，智能音箱100分析采集的声音信号得到空间谱，并根据空间谱标注所述声音信号中是否包含给定方位角附近的语音信号，基于该标注结果可以更新自适应波束形成器的系数，从而抑制干扰噪声信号，对声音信号进行增强得到增强语音信号，将该增强语音信号用于语音识别，能够获得切分较为精准的语音片段，进而提高识别准确性，提供用户交互体验。

下面将结合具体实施例对本申请实施例提供的基于AI的语音处理系统进行详细介绍。

参见图2所示的语音处理系统的结构示意图，该语音处理系统200包括声音采集模块210、空间谱分析模块220、语音标注模块230和自适应波束形成器240，其中，声音采集模块210用于采集声音信号，空间谱分析模块220用于分析所述声音信号得到空间谱，语音标注模块230用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，向与其对应的自适应波束形成器发送所述标注结果，自适应波束形成器240用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到增强语音信号，所述增强语音信号用于语音识别。

其中，声音采集模块210具体可以是麦克风，包括单独的麦克风或者多个麦克风排列形成的麦克风阵列mic array。空间谱分析(Spatial Spectrum Analysis)模块220分析当前帧输入的语音信号的空间谱，该空间谱具体是指来自空间中各个方向的信号能量谱。

在具体实现时，空间谱分析模块220可以通过如下公式估计空间谱：

其中，

为预先设计的、频点f上的、指向

方向的空间滤波器系数，

(N×1的复数向量)，用于保留

方向的信号，最大程度抑制其他方向的信号，f₀和f₁是选定的用于估计空间谱的频率范围，S(n，f)是频点f处第n帧的信号快拍(signal snapshot)，具体如下：

其中，S_i(n，f)是第i个麦克风第n帧的短时傅立叶变换在频点f处的结果。

空间谱

被发送至语音标注模块230，语音标注模块230可以根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号。

在一些可能的实现方式中，语音标注模块230可以通过判断语音信号是否含有语音，以及基于所述空间谱确定出最强信号所在方位角是否与所述给定方位角相近实现语音标注。参见图3，语音标注模块230包括单声道语音检测(Single-Channel Voice ActivityDetector，SC-VAD)子模块、空间谱检测子模块和判断子模块，将声音信号mic array sigal输入SC-VAD子模块检测是否含有语音，将空间谱

输入空间谱检测子模块以便基于所述空间谱确定出最强信号所在方位角。

其中，SC-VAD子模块可以是基于信号能量进行语音检测，也可以是基于机器学习所得的神经网络模型，如深度神经网络(Deep Neural Networks，DNN)或者长短期记忆网络(long short term memory，LSTM)等模型进行语音检测，确定声音信号中是否包含语音。空间谱检测子模块则可以通过如下方式估计当前帧含有的信号中最强信号所在方位角：

判断子模块用于确定出所述声音信号中含有语音，且基于所述空间谱确定出最强信号所在方位角与所述给定方位角(即目标方位角θ)相近时，标注所述声音信号包含所述方位角附近的语音信号得到所述标注结果，确定出所述声音信号中没有语音时，或，基于所述空间谱确定出最强信号所在方位角与所述给定方位角不相近时，标注所述声音信号不包含所述方位角附近的语音信号得到所述标注结果。

当语音标注模块230标注得到的标注结果发送至对应的自适应滤波器时，该自适应滤波器可以根据标注结果更新自身系数，具体地，若标注结果指示当前帧中含有来自给定方位角θ附近方向的语音，则更新自适应滤波器的屏蔽矩阵Blocking Matrix或者转向向量Steering Vector，若标注结果指示当前帧中不包含来自给定方位角θ附近方向的语音，则更新自适应滤波器的取消权重Cancellation Weights或者协方差矩阵CovarianceMatrix，如此，自适应波束形成器便能有效地保留目标方位语音，同时极大程度地抑制其它方向而来的干扰噪声，实现语音增强输出增强语音信号。

由上可知，本申请实施例提供了一种围绕空间谱分析模块为核心的语音处理系统，空间谱分析模块分析声音采集模块采集的声音信号得到空间谱，由语音标注模块根据空间谱标注声音信号中是否包含给定方位角附近的语音信号，然后将标注结果发送至对应的自适应波束形成器，使其根据标注结果更新自身系数，进而对声音信号进行增强得到增强语音信号，由于提高了对非稳态干扰噪声的抑制能力，因而提高了唤醒性能和识别性能。基于此，对语音信号进行切分能够得到更精准的片段，进一步提高了识别性能和用户交互体验。

图2所示实施例提供的基于AI的语音处理系统可以应用于语音识别，具体为在自动语音识别滤波器ASR-ABF前端增加空间谱分析模块和语音标注模块，对ARS-ABF提供语音标注结果，提高ASR-ABF的对非稳态语音类干扰噪声的抑制性能，当然上述语音处理系统也可以应用于语音唤醒，具体为在关键词检测路径(Keyword Spotting Paths，KWS-Paths)前端增加空间谱分析和语音标注模块，对KWS-ABF提供语音标注结果，提高唤醒词检测性能。当然，在有些情况下，可以通过同时在ASR-ABF前端和KWS-ABF前端增加空间谱分析模块和语音标注模块，以提高唤醒词检测性能和语音识别性能。

下面结合附图对以上三种情况进行详细介绍。

参见4所示的基于AI的语音处理系统的结构示意图，在图2所示实施例基础上，所述语音处理系统还包括：唤醒结果决策和方位角估计模块280以及呈一一对应关系的N个波束形成器260和N个唤醒词检测模块270。其中，N为正整数。

其中，波束形成器260可以是固定波束形成器，也可以是自适应波束形成器。每个所述波束形成器260，用于对所述声音信号进行增强得到第一增强信号，并发送至与所述波束形成器对应的所述唤醒词检测模块270；每个所述唤醒词检测模块270，用于对所述增强语音信号进行唤醒词检测得到唤醒词检测得分，并向所述唤醒结果决策和方位角估计模块280发送所述唤醒词检测得分；所述唤醒结果决策和方位角估计模块280，用于当根据N个所述唤醒词检测模块各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向所述语音标注模块230和所述自适应波束形成器240发送所述到达方位角，对应地，语音标注模块230和自适应波束形成器240将所述到达方位角作为所述给定方位角。

接下来，请参见图5，在图2所示实施例基础上，所述语音标注模块230包括N个第一语音标注模块231；所述自适应波束形成器240包括N个第一自适应波束形成器241和一个第二自适应波束形成器242；其中，N个所述第一语音标注模块231与N个所述第一自适应波束形成器241一一对应，N取值为大于一的整数。

对应地，所述语音处理系统还包括：与N个所述第一自适应波束形成器241一一对应的N个唤醒词检测模块291、唤醒结果决策和方位角估计模块292。

每个所述第一语音标注模块231，用于根据所述空间谱标注所述声音信号中是否包含给定方位角(如图中θ₁至θ_N所示)附近的语音信号得到第一标注结果，向对应的所述第一自适应波束形成器241发送所述第一标注结果；每个所述第一自适应波束形成器241，用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到第一增强语音信号；每个所述唤醒词检测模块291，用于对所述第一增强语音信号进行唤醒词检测得到唤醒词检测得分，并向所述唤醒结果决策和方位角估计模块292发送所述唤醒词检测得分；所述唤醒结果决策和方位角估计模块292，用于当根据N个所述唤醒词检测模块291各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角DOA时，向第二自适应波束形成器242发送所述到达方位角；所述第二自适应波束形成器242，用于对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，其中，第二增强语音信号可以用于语音识别。

在图5所述实施例中，N的取值可以根据实际需要而设置，可以理解，在一定范围内，N的取值越大，方位角划分越密集，对应语音方位的定位也越准确，基于标注结果更新系数的自适应波束形成器对干扰噪声具有较好的抑制效果。作为一个示例，所述N取值为六，则六对所述第一语音标注模块231和所述第一自适应波束形成器241配置的给定方位角依次为0度，60度，120度、180度、240度和300度。

接下来，请参见图6，在图2所示基础上，所述语音标注模块230包括N个第一语音标注模块231和一个第二语音标注模块232，所述自适应波束形成器240包括N个第一自适应波束形成器241和一个第二自适应波束形成器242，N个所述第一语音标注模块231与N个所述第一自适应波束形成器241一一对应，N取值为大于一的整数。

每个所述第一语音标注模块231，用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到第一标注结果，向对应的所述第一自适应波束形成器241发送所述第一标注结果。

每个所述第一自适应波束形成器241，用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到第一增强语音信号，每个所述唤醒词检测模块291，用于对所述第一增强语音信号进行唤醒词检测得到唤醒词检测得分，并向所述唤醒结果决策和方位角估计模块292发送所述唤醒词检测得分，所述唤醒结果决策和方位角估计模块292，用于当根据N个所述唤醒词检测模块各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向所述第二语音标注模块和所述第二自适应波束形成器发送所述到达方位角。

所述第二语音标注模块232，用于根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到第二标注结果，向所述第二自适应波束形成器242发送所述第二标注结果；所述第二自适应波束形成器242，用于根据所述第二标注结果更新自身系数，对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，该第二增强语音信号可以用于语音识别。

在实际应用时，请参见图6，语音处理系统还包括语音激活检测模块293(即ASR-VAD模块)，第二自适应波束形成器242可以有效地保留目标方位语音，同时极大程度地抑制其它方向而来的干扰噪声，通过该第二自适应波束形成器242进行语音增强所得的第二增强语音信号还可以发送至ASR-VAD模块进行切分处理，并由ASR-VAD模块将切分后的语音片段发送至部署在云端的语音识别设备。

基于本申请实施例提供的语音处理系统，本申请实施例还提供了一种基于AI的语音处理方法，下面结合具体实施例对其进行详细介绍。

参见图7所示的基于AI的语音处理方法的流程图，该方法应用于语音处理设备，包括：

S701：采集声音信号。

具体地，语音处理设备具有声音采集模块，该声音采集模块包括麦克风阵列，语音处理设备可以通过上述麦克风阵列采集声音信号，以便基于该语音信号进行语音唤醒或语音识别。

S702：分析所述声音信号得到空间谱。

其中，空间谱具体是指来自空间各个方向的信号能量谱。基于此，语音处理设备可以通过对语音信号在各个方向的信号能量进行估计，以确定声音信号的空间谱，其具体实现可以参见上述公式(1)，在此不再赘述。

S703：根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果。

语音处理设备通过判断语音信号是否含有语音，以及基于所述空间谱确定出最强信号所在方位角是否与所述给定方位角相近实现语音标注。在具体实现时，语音处理设备可以基于信号能量进行语音检测，或者是基于机器学习所得的神经网络模型，如DNN或者LSTM等模型进行语音检测，确定声音信号中是否包含语音，并按照上述公式(3)估计当前帧含有的信号中最强信号所在方位角，将其与给定方位角进行比较，实现语音标注。

具体地，若确定出所述声音信号中含有语音，且基于所述空间谱确定出最强信号所在方位角与所述给定方位角(即目标方位角θ)相近时，标注所述声音信号包含所述方位角附近的语音信号得到所述标注结果，若确定出所述声音信号中没有语音时，或，基于所述空间谱确定出最强信号所在方位角与所述给定方位角不相近时，标注所述声音信号不包含所述方位角附近的语音信号得到所述标注结果。

S704：控制配置有所述给定方位角的自适应波束形成器根据所述标注结果更新自身系数并对所述声音信号进行增强得到增强语音信号，所述增强语音信号用于语音识别。

在实际应用时，自适应波束形成器可以采用不同的算法进行语音增强，作为一个示例，在语音唤醒场景中，KWS-ABF可以采用广义旁瓣抵消(General Sidelobe Canceller，GSC)算法，给定方位角为θ，当标注结果指示当前帧中含有来自θ附近方向的语音时，更新GSC的Blocking Matrix，当然，KWS-ABF也可以采用最小方差无失真响应(MinimumVariance Distortionless Response，MVDR)算法，对应地，当标注结果指示当前帧中含有来自θ附近方向的语音时，更新MVDR的Steering Vector。在上述示例中，若标注结果指示当前帧中不包含来自θ附近方向的语音时，更新GSC的Cancellation Weights或者MVDR中的Covariance Matrix。

由上可知，本申请实施例提供了一种基于AI的语音处理方法，其通过采集声音信号，对该声音信号进行分析得到空间谱，根据空间谱标注声音信号中是否包含给定方位角附近的语音信号得到标注结果，控制配置有所述给定方位角的自适应波束形成器根据所述标注结果更新自身系数并对所述声音信号进行增强得到增强语音信号，由于提高了对非稳态干扰噪声的抑制能力，因而提高了唤醒性能和识别性能。基于此，对语音信号进行切分能够得到更精准的片段，进一步提高了识别性能和用户交互体验。

在图7所示实施例中，基于AI的语音处理设备在进行语音标注时，可以并行标注提高标注效率，进而提高响应效率。具体地，针对N个不同的给定方位角，语音处理设备并行地根据所述空间谱标注所述声音信号中是否包含所述给定方位角附近的语音信号得到N个第一标注结果，其中，N为大于一的整数。

对应地，语音处理设备可以控制N个第一自适应波束形成器并行地根据各自的所述给定方位角对应的所述第一标注结果更新自身参数，对所述声音信号进行增强得到N个第一增强语音信号，针对N个所述第一增强语音信号并行地进行唤醒词检测处理得到N个唤醒词检测得分。

当语音处理设备根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，还向第二自适应波束形成器发送所述到达方位角，从而控制所述第二自适应波束形成器对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，该第二增强语音信号可以用于语音识别。

在一些可能的实现方式中，语音处理设备也可以控制N个波束形成器并行地对所述声音信号进行增强得到N个第一增强语音信号，针对N个所述第一增强语音信号并行地进行唤醒词检测处理得到N个唤醒词检测得分，当根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，将所述到达方位角作为所述给定方位角。

如此，在进行语音标注时，语音处理设备可以根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到标注结果，向配置有所述到达方位角的自适应波束形成器发送所述标注结果。

当然，语音处理设备可以针对N个不同的给定方位角，并行地根据所述空间谱标注所述声音信号中是否包含所述给定方位角附近的语音信号得到N个第一标注结果，控制N个第一自适应波束形成器并行地根据各自的所述给定方位角对应的所述第一标注结果更新自身参数，对所述声音信号进行增强得到N个第一增强语音信号。

语音处理设备还可以针对N个所述第一增强语音信号并行地进行唤醒词检测处理得到N个唤醒词检测得分，当根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到第二标注结果；控制所述第二自适应波束形成器对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，所述第二增强语音信号用于语音识别。

以上为本申请实施例提供的一种基于AI的语音处理系统和语音处理方法的一些具体实现方式，下面将结合智能音箱的应用场景对本申请的基于AI的语音处理方法进行介绍。

参见图8所示的基于AI的语音处理方法的应用场景示意图，该应用场景中包括智能音箱810和部署在云端的语音识别设备820，其中，该语音识别设备可以为独立服务器，也可以采用多个服务器形成的集群，服务器上配置有ASR系统以实现语音识别功能。

在该示例中，智能音箱810的唤醒词为“小A”。

该智能音箱810包括处于工作状态的麦克风阵列，该麦克风阵列可采集其附近区域的声音信号，当用户在其可采集区域内发出语音时，该语音可被麦克风采集并进行识别。

具体地，当用户发出流式语音“小A，您好。请为我播放《勇气》”时，智能音箱810可通过麦克风阵列采集该声音信号，接着智能音箱810对该语音信号进行分析得到对应的空间谱，基于该空间谱确定最强信号所在方位角，针对6个不同的给定方位角即0°、60°、120°、180°、240°以及300°，并行地根据空间谱标注声音信号是否包含给定方位角附近的语音信号得到6个第一标注结果。

具体地，智能音箱810将语音信号输入DNN模型检测声音信号是否包含语音，若声音信号中包含语音，且最强信号所在方位角与给定方位角相近，则标注该声音信号包含在给定方位角附近的语音，若声音中不包含信号或者最强信号所在方位角与给定方位角不相近，则标注该声音信号不包含在给定方位角附近的语音。

智能音箱810基于上述标注结果控制第一自适应波束形成器并行地更新自身参数，对所述声音信号进行语音增强，得到6个第一增强语音信号，针对6个第一增强语音信号并行进行唤醒词检测处理，得到N个唤醒词检测得分，当根据6个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，一方面可以唤醒智能音箱810的播放器，另一方面根据空间谱标注声音信号中是否包含到达方位角附近的语音信号，得到第二标注结果，控制第二自适应波束形成器对声音信号在到达方位角方向进行增强得到第二增强语音信号，该第二增强语音信号可以用于语音识别。

具体地，第二增强语音信号可以通过ASR-VAD进行切分得到语音片段，然后将语音识别片段送往云端的语音识别设备820，该云端的语音识别设备通过语音模型以及自然语言处理技术识别出语音片段所表达的语音，得到“播放勇气”的指令，返回给智能音箱，智能音箱响应于该指令，从音乐库中获取“勇气”对应的音频资源并播放该音频资源。

本申请实施例还提供了基于AI的语音处理设备，如图9所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括智能音箱、智能电视、智能汽车、手机、平板电脑、个人数字助理(英文全称：Personal Digital Assistant，英文缩写：PDA)、车载电脑等任意终端设备，以终端为手机为例：

图9示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图9，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文全称：wireless fidelity，英文缩写：WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图9中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图9对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoise Amplifier，英文缩写：LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System of Mobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivision Multiple Access,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：Short Messaging Service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(英文全称：LiquidCrystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-EmittingDiode，英文缩写：OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图9中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器961，传声器962可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器961，由扬声器961转换为声音信号输出；另一方面，传声器962将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；优选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，优选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器980还具有以下功能：

采集声音信号；

分析所述声音信号得到空间谱；

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行前述各个实施例所述的一种语音处理方法中的任意一种实施方式。

本申请实施例还提供一种包括指令的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例所述的一种语音处理方法中的任意一种实施方式。

本申请实施例还提供了一种基于AI的语音识别系统，该语音识别系统包括配置有如本申请实施例所述语音处理系统的终端设备和语音识别设备，该语音识别设备可以是部署在云端的语音识别设备，如由多个具有语音识别功能的服务器形成的集群。

其中，终端设备和语音识别设备之间通过网络通信，例如可以通过有线网络进行通信，以确保通信质量，降低失真程度，当然也可以通过无线网络如无线局域网、蓝牙等进行通信，如此可以提高便捷性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的语音处理系统，其特征在于，所述系统包括：

声音采集模块，用于采集声音信号；

空间谱分析模块，用于分析所述声音信号得到空间谱；

语音标注模块，用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，向与其对应的自适应波束形成器发送所述标注结果，以提高所述自适应波束形成器对非稳态语音类干扰噪声的抑制性能；

2.根据权利要求1所述语音处理系统，其特征在于，所述系统还包括：

唤醒结果决策和方位角估计模块以及呈一一对应关系的N个波束形成器和N个唤醒词检测模块；

每个所述波束形成器，用于对所述声音信号进行增强得到第一增强信号，并发送至与所述波束形成器对应的所述唤醒词检测模块；

每个所述唤醒词检测模块，用于对所述增强语音信号进行唤醒词检测得到唤醒词检测得分，并向所述唤醒结果决策和方位角估计模块发送所述唤醒词检测得分；

所述唤醒结果决策和方位角估计模块，用于当根据N个所述唤醒词检测模块各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向所述语音标注模块和所述自适应波束形成器发送所述到达方位角，

则所述语音标注模块和所述自适应波束形成器将所述到达方位角作为所述给定方位角。

3.根据权利要求1所述语音处理系统，其特征在于，

所述语音标注模块包括N个第一语音标注模块；

所述自适应波束形成器包括N个第一自适应波束形成器和一个第二自适应波束形成器；N个所述第一语音标注模块与N个所述第一自适应波束形成器一一对应，N取值为大于一的整数；则所述系统还包括：

与N个所述第一自适应波束形成器一一对应的N个唤醒词检测模块、唤醒结果决策和方位角估计模块；

每个所述第一语音标注模块，用于根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到第一标注结果，向对应的所述第一自适应波束形成器发送所述第一标注结果；

每个所述第一自适应波束形成器，用于根据所述标注结果更新自身系数，对所述声音信号进行增强得到第一增强语音信号；

每个所述唤醒词检测模块，用于对所述第一增强语音信号进行唤醒词检测得到唤醒词检测得分，并向唤醒结果决策和方位角估计模块发送所述唤醒词检测得分；

所述唤醒结果决策和方位角估计模块，用于当根据N个所述唤醒词检测模块各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向第二自适应波束形成器发送所述到达方位角；

所述第二自适应波束形成器，用于对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，所述第二增强语音信号用于语音识别。

4.根据权利要求1所述语音处理系统，其特征在于，

所述语音标注模块包括N个第一语音标注模块和一个第二语音标注模块；

所述自适应波束形成器包括N个第一自适应波束形成器和一个第二自适应波束形成器；N个所述第一语音标注模块与N个所述第一自适应波束形成器一一对应，N取值为大于一的整数；

则所述系统还包括：

每个所述唤醒词检测模块，用于对所述第一增强语音信号进行唤醒词检测得到唤醒词检测得分，并向所述唤醒结果决策和方位角估计模块发送所述唤醒词检测得分；

所述唤醒结果决策和方位角估计模块，用于当根据N个所述唤醒词检测模块各自发送的所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向所述第二语音标注模块和所述第二自适应波束形成器发送所述到达方位角；

所述第二语音标注模块，用于根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到第二标注结果，向所述第二自适应波束形成器发送所述第二标注结果；

所述第二自适应波束形成器，用于根据所述第二标注结果更新自身系数，对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，所述第二增强语音信号用于语音识别。

5.根据权利要求3或4所述系统，其特征在于，所述N取值为六，则六对所述第一语音标注模块和所述第一自适应波束形成器配置的给定方位角依次为0度，60度，120度、180度、240度和300度。

6.根据权利要求1至4中任一项所述的语音处理系统，其特征在于，所述语音标注模块，具体用于：

当确定出所述声音信号中含有语音，且基于所述空间谱确定出最强信号所在方位角与所述给定方位角相近时，标注所述声音信号包含所述方位角附近的语音信号得到所述标注结果；或者，

当确定出所述声音信号中没有语音时，或，基于所述空间谱确定出最强信号所在方位角与所述给定方位角不相近时，标注所述声音信号不包含所述方位角附近的语音信号得到所述标注结果。

7.根据权利要求6所述系统，其特征在于，所述语音标注模块，具体用于基于机器学习所得的神经网络模型对所述声音信号进行语音检测，确定所述声音信号中是否包含语音信号。

8.根据权利要求1至4或7中任一项所述系统，其特征在于，所述系统还包括：

语音激活检测模块，用于对与其连接的自适应波束形成器发送的增强语音信号进行切分处理，将切分后的语音片段发送至部署在云端的语音识别系统。

9.一种基于人工智能的语音处理方法，其特征在于，所述方法包括：

采集声音信号；

分析所述声音信号得到空间谱；

控制配置有所述给定方位角的自适应波束形成器根据所述标注结果更新自身系数并对所述声音信号进行增强得到增强语音信号，以提高所述自适应波束形成器对非稳态语音类干扰噪声的抑制性能，所述增强语音信号用于语音识别。

10.根据权利要求9所述的语音处理方法，其特征在于，所述根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，包括：

针对N个不同的给定方位角，并行地根据所述空间谱标注所述声音信号中是否包含所述给定方位角附近的语音信号得到N个第一标注结果，所述N为大于一的整数；

则所述控制配置有所述给定方位角的自适应波束形成器根据所述标注结果更新自身系数并对所述声音信号进行增强得到增强语音信号，包括：

控制N个第一自适应波束形成器并行地根据各自的所述给定方位角对应的所述第一标注结果更新自身参数，对所述声音信号进行增强得到N个第一增强语音信号；

则所述方法还包括：

针对N个所述第一增强语音信号并行地进行唤醒词检测处理得到N个唤醒词检测得分；

当根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，向第二自适应波束形成器发送所述到达方位角，控制所述第二自适应波束形成器对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，所述第二增强语音信号用于语音识别。

11.根据权利要求9所述的语音处理方法，其特征在于，所述方法还包括：

控制N个波束形成器并行地对所述声音信号进行增强得到N个第一增强语音信号；

当根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，将所述到达方位角作为所述给定方位角；

则所述根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，向配置有所述给定方位角的自适应波束形成器发送所述标注结果，包括：

根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到标注结果，向配置有所述到达方位角的自适应波束形成器发送所述标注结果。

12.根据权利要求9所述的语音处理方法，其特征在于，所述根据所述空间谱标注所述声音信号中是否包含给定方位角附近的语音信号得到标注结果，包括：

则所述方法还包括：

当根据N个所述唤醒词检测得分检测出唤醒词以及估计出唤醒词的到达方位角时，根据所述空间谱标注所述声音信号中是否包含所述到达方位角附近的语音信号得到第二标注结果；

控制第二自适应波束形成器对所述声音信号在所述到达方位角方向进行增强得到第二增强语音信号，所述第二增强语音信号用于语音识别。

13.一种基于人工智能的语音处理设备，其特征在于，包括：

处理器以及存储器，其中，

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求9至12任一项所述的语音处理方法。

14.一种基于人工智能的语音识别系统，其特征在于，包括：

配置有如权利要求1至8任一项所述语音处理系统的终端设备和语音识别设备；

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求9至12任一项所述的基于人工智能的语音处理方法。