CN110415718B

CN110415718B - 信号生成的方法、基于人工智能的语音识别方法及装置

Info

Publication number: CN110415718B
Application number: CN201910838669.0A
Authority: CN
Inventors: 郑脊萌; 刘二男; 黎韦伟; 陈联武
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-11-03
Anticipated expiration: 2039-09-05
Also published as: CN110415718A

Abstract

本申请公开了一信号生成的方法，该方法应用于人工智能领域，包括：当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，待估计角度在入射方位角范围内；根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量；根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；根据空间特征生成目标语音帧对应的目标控制信号。本申请还公开了一种基于人工智能的语音识别方法及装置。本申请能够分别确定来自各个待估计角度方向上的空间特征，基于空间特征生成相应的控制信号，提升控制信号的准确性和鲁棒性，提高前处理系统对语音信号增强的性能。

Description

信号生成的方法、基于人工智能的语音识别方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及信号生成的方法、基于人工智能的语音识别方法及装置。

背景技术

随着智能音箱等智能设备的流行，人机之间的语音交互频率越来越高，而远场语音交互作为一个重要的人机交互场景，受到了较大的关注。相对与近场语音来说，远场语音主要的技术难点在于对于多径反射、混响效应及背景噪音干扰的处理。

为了实现更好的远场语音交互性能，智能设备往往都装备有多麦克风阵列和前端语音处理系统。前端语音处理系统基于目标人声和干扰噪声来源方向不同的假设，往往会采用自适应波束形成算法来抑制干扰噪声，并增强目标人声。而自适应波束形成算法的性能又极其依赖外界向其提供的控制信号。目前，控制信号是通过单声道的话音激活检测(Voice Activity Detector，VAD)产生，即通过信号能量强弱或与人声模型的匹配程度区分输入信号为人声或非人声，如果判断为人声则默认为是目标人声。

然而，在智能家居的应用场景中往往会出现“鸡尾酒会”情形，即有多个人声或类人声噪声(例如电视噪声)同时出现，在这样的场景下，导致单声道VAD产生的控制信号准确度较低，而控制信号的准确性将极大影响前处理系统的整体性能，进而影响远场唤醒和识别性能。

发明内容

本申请实施例提供了一种信号生成的方法、基于人工智能的语音识别方法及装置，能够根据麦克风阵列获取到的语音输入信号，分别确定来自各个待估计角度方向上的空间特征，基于空间特征生成相应的控制信号，可以提升控制信号的准确性和鲁棒性，从而提高前处理系统对语音信号增强的性能。

有鉴于此，本申请第一方面提供一种信号生成的方法，包括：

当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据所述语音输入信号获取待估计角度对应的第一信号能量，其中，所述麦克风阵列包括多个麦克风，所述待估计角度在入射方位角范围内；

根据所述入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，所述至少一个固定波束形成器均指向所述待估计角度，所述入射方位角范围包括所述待估计角度；

根据所述第一信号能量以及所述第二信号能量，确定所述待估计角度对应的空间特征；

根据所述空间特征生成所述目标语音帧对应的目标控制信号，其中，所述目标控制信号用于估计语音的方向。

本申请第二方面提供一种基于人工智能的语音识别方法，包括：

根据所述空间特征生成所述目标语音帧对应的目标控制信号；

若所述目标控制信号为目标人声所对应的信号，则根据所述语音输入信号获取唤醒结果以及信号到达方向；

若所述唤醒结果表示唤醒成功，则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理。

本申请第三方面提供一种信号生成装置，包括：

获取模块，用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据所述语音输入信号获取待估计角度对应的第一信号能量，其中，所述麦克风阵列包括多个麦克风，所述待估计角度在入射方位角范围内；

确定模块，用于根据所述入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，所述至少一个固定波束形成器均指向所述待估计角度，所述入射方位角范围包括所述待估计角度；

所述确定模块，还用于根据所述获取模块获取的所述第一信号能量以及所述第二信号能量，确定所述待估计角度对应的空间特征；

生成模块，用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号，其中，所述目标控制信号用于估计语音的方向。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

所述获取模块，具体用于根据所述语音输入信号以及波束形成器系数，获取所述估计角度对应的第一信号能量，其中，所述波束形成器系数为固定波束形成器所对应的系数；

所述确定模块，具体用于根据所述入射方位角范围以及波束形成器系数，从固定波束形成器集合中获取N_θ个固定波束形成器，其中，所述固定波束形成器集合包括Q个固定波束形成器，所述Q为大于1的整数，所述N_θ为大于或等于1，且小于或等于所述Q的整数；

根据所述N_θ个固定波束形成器确定所述第二信号能量，其中，所述第二信号能量为所述N_θ个固定波束形成器所对应的信号能量最大值。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，所述空间特征为空间最低信噪比；

所述确定模块，具体用于采用如下方式计算所述待估计角度对应的空间特征：

其中，所述μ_min(n,θ)表示所述待估计角度对应的空间最低信噪比，所述θ表示所述待估计角度，所述n表示所述目标语音帧，所述p(n,θ)表示所述待估计角度所对应的第一信号能量，所述γ_θ,i表示指向所述待估计角度的第i个固定波束形成器，所述p(n,γ_θ,i)表示所述固定波束形成器γ_θ,i的信号能量，所述

表示从所述N_θ个固定波束形成器中确定的所述第二信号能量。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

所述获取模块，具体用于根据所述语音输入信号以及波束形成器系数，获取所述估计角度在频点上的第一信号能量，其中，所述波束形成器系数为固定波束形成器所对应的系数；

根据所述N_θ个固定波束形成器确定在频点上的第二信号能量，其中，所述第二信号能量为所述N_θ个固定波束形成器在频点上所对应的信号能量最大值。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，所述空间特征为空间最低信噪比；

其中，所述μ_min(n,θ,f)表示所述待估计角度在频点f上对应的空间最低信噪比，所述θ表示所述待估计角度，所述n表示所述目标语音帧，所述f表示所述频点，所述p(n,θ,f)表示所述待估计角度在频点f上所对应的第一信号能量，所述γ_θ,i表示指向所述待估计角度的第i个固定波束形成器，所述p(n,γ_θ,i,f)表示所述固定波束形成器γ_θ,i在频点f上的信号能量，所述

表示从所述N_θ个固定波束形成器中确定的在频点f上所述第二信号能量。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

根据所述N_θ个固定波束形成器确定所述第二信号能量，其中，所述第二信号能量为所述N_θ个固定波束形成器所对应的信号能量最小值。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，所述空间特征为空间零陷信噪比；

其中，所述μ_max(n,θ)表示所述待估计角度对应的空间最高信噪比，所述θ表示所述待估计角度，所述n表示所述目标语音帧，所述p(n,θ)表示所述待估计角度所对应的所述第一信号能量，所述γ_θ,i表示指向所述待估计角度的第i个固定波束形成器，所述p(n,γ_θ,i)表示所述固定波束形成器γ_θ,i的信号能量，所述

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

根据所述N_θ个固定波束形成器确定在频点上的第二信号能量，其中，所述第二信号能量为所述N_θ个固定波束形成器在频点上所对应的信号能量最小值。

在一种可能的设计中，在本申请实施例的第三方面的第八种实现方式中，所述空间特征为空间最高信噪比；

其中，所述μ_min(n,θ,f)表示所述待估计角度在频点f上对应的空间最高信噪比，所述θ表示所述待估计角度，所述n表示所述目标语音帧，所述f表示所述频点，所述p(n,θ,f)表示所述待估计角度在频点f上所对应的第一信号能量，所述γ_θ,i表示指向所述待估计角度的第i个固定波束形成器，所述p(n,γ_θ,i,f)表示所述固定波束形成器γ_θ,i在频点f上的信号能量，所述

在一种可能的设计中，在本申请实施例的第三方面的第九种实现方式中，

所述生成模块，具体用于若所述空间特征小于第一门限值，则生成所述目标语音帧对应的第一控制信号，其中，所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声，所述干扰噪声用于触发自适应波束形成器进行更新；

若所述空间特征大于第二门限值，则生成所述目标语音帧对应的第二控制信号，其中，所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声，所目标人声用于触发所述自适应波束形成器进行更新；

若所述空间特征大于或等于所述第一门限值，且小于或等于所述第二门限值，则生成所述目标语音帧对应的第三控制信号，其中，所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。

在一种可能的设计中，在本申请实施例的第三方面的第十种实现方式中，

所述生成模块，具体用于通过神经网络模型获取所述空间特征所对应的控制信号类型；

若所述控制信号类型为第一类型，则确定所述目标控制信号为第一控制信号，其中，所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声，所述干扰噪声用于触发自适应波束形成器进行更新；

若所述控制信号类型为第二类型，则确定所述目标控制信号为第二控制信号，其中，所述第二控制信号表示所述目标语音帧所对应的语音输入信号属于目标人声，所目标人声用于触发所述自适应波束形成器进行更新；

若所述控制信号类型为第三类型，则确定所述目标控制信号为第三控制信号，其中，所述第三控制信号表示所述目标语音帧所对应的语音输入信号属于待确定信号。

本申请第四方面提供一种语音识别装置，包括：

获取模块，用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据所述语音输入信号获取待估计角度对应的第一信号能量，其中，所述麦克风阵列包括多个麦克风；

所述确定模块，还用于根据获取模块获取的所述第一信号能量以及所述第二信号能量，确定所述待估计角度对应的空间特征；

生成模块，用于根据所述确定模块确定的所述空间特征生成所述目标语音帧对应的目标控制信号；

所述获取模块，还用于若所述生成模块生成的所述目标控制信号为目标人声所对应的信号，则根据所述语音输入信号获取唤醒结果以及信号到达方向；

识别模块，用于若所述唤醒结果表示唤醒成功，则根据所述获取模块获取的所述信号到达方向所对应的待识别语音信号进行语音识别处理。

本申请第五方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述空间特征生成所述目标语音帧对应的目标控制信号，其中，所述目标控制信号用于估计语音的方向；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请第六方面提供一种智能语音交互设备，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

若所述唤醒结果表示唤醒成功，则根据所述信号到达方向所对应的待识别语音信号进行语音识别处理；

本申请的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种信号生成的方法，当通过麦克风阵列获取目标语音帧对应的语音输入信号时，可以根据语音输入信号获取待估计角度对应的第一信号能量，然后根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，再根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征，最后根据空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向。通过上述方式，在“鸡尾酒会”情形中，能够根据麦克风阵列中每个麦克风所对应的待估计角度，分别确定来自各个待估计角度方向上的信号能量占全部入射信号能量的比例，基于空间特征生成相应的控制信号，可以提升控制信号的准确性和鲁棒性，从而提高前处理系统对语音信号增强的性能。

附图说明

图1为本申请实施例中语音识别系统的一个架构示意图；

图2为本申请实施例中基于鸡尾酒会场景的一个实施例示意图；

图3为本申请实施例中基于智能音箱的一个语音识别场景示意图；

图4为本申请实施例中基于智能电视的一个语音识别场景示意图；

图5为本申请实施例中基于智能机器人的一个语音识别场景示意图；

图6为本申请实施例中前处理系统的一个结构示意图；

图7为本申请实施例中控制信号生成系统的一个结构示意图；

图8为本申请实施例中信号生成的方法一个实施例示意图；

图9为本申请实施例中固定波束形成器的一个空间响应示意图；

图10为本申请实施例中控制信号生成系统的一个实施例示意图；

图11为本申请实施例中控制信号生成系统的另一个实施例示意图；

图12为本申请实施例中基于人工智能的语音识别方法一个实施例示意图；

图13为本申请实施例中信号生成装置的一个实施例示意图；

图14为本申请实施例中语音识别装置的一个实施例示意图；

图15为本申请实施例中终端设备的一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请提供的技术方案可以应用于基于人工智能(ArtificialIntelligence，AI)的语音交互场景，具体适用于远场语音交互场景。远场语音是融合了人工智能语音搜素的一项改变用户体验的功能，智能远场语音功能省略了“按下遥控语音键”这一程序，只需要坐在沙发上说出指令即可得到反馈。在智能远场语音交互上，如何在复杂的客厅环节中，轻松唤醒智能语音交互设备成为极为重要的目标。远场语音识别需要结合前端语音处理系统和后端语音处理系统去完成，一方面在前端语音处理系统使用麦克风阵列硬件，通过声源定位及自适应波束形成做语音增强，在前端语音处理系统完成远场拾音，并解决噪声、混响以及回声等带来的影响，结合人工智能算法，也就是后端语音处理系统的识别引擎，通过软硬件的复杂结合，让远场语音实现自然人机交互，让用户远距离即可实现与智能语音交互设备进行对话。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请基于人工智能技术进行语音识别，包含但不仅限于车联网、智能翻译、智能家居以及自动驾驶等领域的语音。本申请采用语音技术(Speech Technology)的关键技术，即自动语音识别技术(Automatic Speech Recognition，ASR)，此外，语音技术还包括语音合成技术(Text To Speech，TTS)以及声纹识别技术，让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。其中，语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高新技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别是人机交互的基础，主要解决让机器听清楚人说什么的难题。人工智能目前落地最成功的就是语音识别技术。

为了便于理解，本申请提出了一种语音识别的方法，该方法应用于图1所示的语音识别系统，请参阅图1，图1为本申请实施例中语音识别系统的一个架构示意图，如图所示，目前，智能语音交互设备包含但不仅限于笔记本电脑、平板电脑、掌上电脑、手机、个人电脑、智能机器人、智能电视以及智能音响。用户可以与智能语音交互设备进行“对话”，从而完成相应的指令。通常情况下，语音识别系统可以包括两个部分，即智能语音交互设备和服务器，由智能语音交互设备获取语音信号(包括将语音转化成电信号)，然后对语音信号处理(包括模数转换，降噪、增强以及端点检测等)，再到特征提取，比如提取梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征、感知线性预测(PerceptualLinear Prediction，PLP)特征或者批归一化(Batch Normalization，BN)特征等。智能语音交互设备可以将提取到的特征反馈至服务器，由服务器进行声学模型建模，或者进行语言学方面包括字典构造，或者进行语言模型建模等。通过建立的声学模型和语言模型就可以对输入的测试语音进行解码，得到相对应的文字。在识别的过程中，智能语音交互设备可以将采集到的语音特征发送给服务器，由服务器通过模型对该语音特征进行解码，得到相应的语音识别结果，将语音识别结果反馈给智能语音交互设备，从而使得智能语音交互设备能够响应于用户触发的语音。

对于一些处理能力较强的智能语音交互设备而言，可以在离线的状态下对语音进行识别，也就是说，可以不需要服务器的参与。类似的情况可能出现在“鸡尾酒会”场景，为了便于理解，请参阅图2，图2为本申请实施例中基于鸡尾酒会场景的一个实施例示意图，如图所示，当说话人数为两个或两个以上的时候，可能会出现“鸡尾酒会”场景，比如在智能家居的应用场景中，特别是用户家庭客厅场景，经常出现“鸡尾酒会”场景，即有多个人声或类人声噪声(例如电视噪声)同时出现。这种情况下的语音识别率会极大的降低。假设一个客厅里有两个人同时说话，即发言者A和发言者B，该客厅里存在两个智能语音交互设备，其中，智能语音交互设备A具有麦克风A，智能语音交互设备B具有麦克风B，于是在发言者A说话的时候，麦克风A和麦克风B均能采集到来自发言者A的声音，同样地，在发言者B说话的时候，麦克风A和麦克风B均能采集到来自发言者B的声音，因此，智能语音交互设备A和智能语音交互设备B需要响应来自不同发言者的语音。在本申请提供的技术方案中，智能语音交互设备A和智能语音交互设备B均能够找到根据指定的目标方位来区分哪些是发言者A的声音，哪些是发言者B的声音，哪些是干扰人声或干扰噪声，从而实现对于发言者语音的识别。

具体地，请参阅图3，图3为本申请实施例中基于智能音箱的一个语音识别场景示意图，如图所示，以客厅中包括智能音响的场景为例进行介绍，智能音响可以检测到一定范围内的声音，其中，发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内，发言者A、发言者C和发言者D同时说话，在实际情况中，发言者A和发言者D正在聊天，而发言者C正在向智能音响发出语音指令“请切换下一首歌曲”。智能音响具有麦克风阵列，通过该麦克风阵列可以采集到范围内的声音，于是检测到发言者A的声音、发言者C的声音和发言者D的声音。基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征，该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号，前处理系统根据目标控制信号确定待估计语音的方向，比如确定发言者C的语音是待估计语音，发言者A的语音和发言者D和语音属于干扰噪声，于是对发言者C的语音进行识别。

请参阅图4，图4为本申请实施例中基于智能电视的一个语音识别场景示意图，如图所示，以客厅中包括智能音响的场景为例进行介绍，智能音响可以检测到一定范围内的声音，其中，发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内，发言者A、发言者B、发言者C和发言者D同时说话，在实际情况中，发言者A、发言者B、发言者C和发言者D分别触发不同的语音指令，发言者A正在向智能音响发出语音指令“请切换下一个频道”，发言者B正在向智能音响发出语音指令“请切换上一个频道”，发言者C正在向智能音响发出语音指令“请关闭电源”，发言者D正在向智能音响发出语音指令“请将声音调小”。基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征，该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号，前处理系统根据目标控制信号确定待估计语音的方向，比如确定发言者A的语音是待估计语音，而发言者B的语音、发言者C的语音和发言者D和语音属于干扰噪声，于是响应于“请切换下一个频道”的指令，将智能电视切换至下一个频道。

请参阅图5，图5为本申请实施例中基于智能机器人的一个语音识别场景示意图，如图所示，以客厅中包括智能音响的场景为例进行介绍，智能音响可以检测到一定范围内的声音，其中，发言者A、发言者B、发言者C和发言者D均在这个范围内。在一个时间段内，发言者A和发言者C同时说话，在实际情况中，发言者A和发言者C分别触发不同的语音指令，发言者A正在向智能机器人发出语音指令“唱首歌吧”，发言者C正在向智能机器人发出语音指令“跳支舞吧”，基于前处理系统中的空间特征提取系统获取每个待估计角度所对应的空间特征，该空间特征包括空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比中的至少一项。根据空间特征生成目标语音帧对应的目标控制信号，前处理系统根据目标控制信号确定待估计语音的方向，比如确定发言者A的语音是待估计语音，发言者C的语音也是待估计语音，可以获取发言者A和发言者B分别与智能机器人之间的距离，以距离短者所触发的语音为准。或者，可以分别获取发言者A和发言者B触发语音的时间，以优先触发的语音为准。又或者，可以根据预先设定的指令优先级来选择优先被触发语音指令。

基于上述介绍，下面将对前处理系统的架构进行说明，请参阅图6，图6为本申请实施例中前处理系统的一个结构示意图，如图所示，前处理系统包括空间特征提取系统和控制信号生成系统，其中，空间特征提取系统又可以称为空间谱分析(Spatial SpectrumAnalysis)系统，用于分析当前帧语音输入信号的空间谱，空间谱是指来自空间中各个方向的信号能量，又可称为空间特征。控制信号生成系统根据空间特征提取系统分析得到的空间谱生成控制信号。基于当前帧的控制信号可以判断是否含有来自待估计角度θ附近的语音信号，该语音信号可以是非稳态信号。前处理系统还包括唤醒词检测自适应波束形成器(Keyword Searching Adaptive Beamformer，KWS-ABF)1至N，每个KWS-ABF对应一个待估计角度θ，自适应波束形成器语音产生KWS信号并传递给KWS模块，自适应波束形成器中的每一个的主瓣方向(即目标语音方向)记为θ_i。KWS模块即为唤醒词检测模块，前处理系统包括N个KWS模块，N个KWS模块相互独立，每个KWS模块对应一个KWS-ABF，且每个KWS模块会输出一个得分。比如，当检测到唤醒词时，得分为1，当未检测到唤醒词时，得分为0。或者，根据唤醒词的相似度生成对应的得分，相似度越高，得分也越高。可以理解的是，在实际应用中，还可以根据其他的方式生成相应的得分，此次仅为一个示意，不应理解为对本申请的限定。

前处理系统还包括唤醒结果决策和方位角估计模块，该模块可以利用多个KWS模块的得分，作出是否需要唤醒的判定，同时估计唤醒词信号的到达方向(Direction-Of-Arrival,DOA)。在确定存在唤醒词的情况下，自动语音识别自适应波束形成器(AutomaticSpeech Recognition Adaptive Beamformer，ASR-ABF)根据唤醒结果决策和方位角估计模块提供的DOA，定向增强该方向的语音，抑制来自其它方向的所有信号。ASR-ABF是用于产生送给ASR语音信号的ABF。

前处理系统将待识别的ASR语音信号传输至后处理系统中的自动语音识别语音活动检测(Automatic Speech Recognition Voice Activity Detection，ASR-VAD)模块，由ASR-VAD模块生成自动语音识别结果。

本申请主要提出了基于固定波束形成器(Fixed Beamformer)的空间特征设计(Spatial Feature Design)，这些空间特征能够用于产生对空间场景更好的分析结果，进而为自适应波束形成器提供更准确，且鲁棒性更好的控制信号。为了便于理解，请参阅图7，图7为本申请实施例中控制信号生成系统的一个结构示意图,，如图所示，麦克风阵列的信号被实时送入空间特征提取模块，空间特征提取模块用于产生一个或多个以帧为单位的空间特征，将提取出的至少一种空间特征发送至控制信号生成系统，针对每一个关心的待估计角度θ生成一个对应的控制信号流，用于控制自适应波束形成器的学习更新。比如，对于待估计角度θ₁而言生成一个对应的控制信号，对于待估计角度θ₂而言生成一个对应的控制信号，以此类推，对于待估计角度θ_N而言也会生成一个对应的控制信号。

能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方案涉及人工智能的语音识别等技术，具体通过如下实施例进行说明。

结合上述介绍，下面将对本申请中信号生成的方法进行介绍，请参阅图8，本申请实施例中信号生成的方法一个实施例包括：

101、当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，其中，麦克风阵列包括多个麦克风，待估计角度在入射方位角范围内；

本实施例中，信号生成装置通过麦克风阵列获取目标语音帧对应的语音输入信号，目标语音帧表示至少一帧语音，通常情况下可以对每帧语音生成控制信号。其中，该信号生成装置可以部署于终端设备上，比如智能机器人、智能音箱以及智能电视等。为了便于介绍，下面将以终端设备为例进行说明，然而这不应理解为对本申请的限定。

终端设备基于语音输入信号获取待估计角度对应的第一信号能量，具体地，该第一信号能量可以是对待估计角度得到的空间谱，空间谱是阵列信号处理的一个重要概念，空间谱表示信号在空间各个方向上的能量分布，如果能够估计出空间谱就可以得到信号源的DOA，因此，空间谱估计也可以称为DOA估计。可以理解的是，待估计角度在入射方位角范围内，假设入射方位角范围为0至180度，那么待估计角度就在0至180度之间。

102、根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，至少一个固定波束形成器均指向待估计角度，入射方位角范围包括待估计角度；

本实施例中，基于预先设计的入射方位角范围以及波束形成器系数，终端设备可以确定至少一个固定波束形成器所对应的第二信号能量。假设在频点范围内存在多个固定波束形成器，每个固定波束形成器的波束形成器系数表示为

即包括两个维度的信息，分别为频点和指向，

表示在频点f上指向入射方位角

的波束形成器系数，比如w(30,800)表示在频点为800赫兹上指向30度入射方位角的波束形成器系数。其中，

f∈[f₁,f₁]，

为入射方位角范围，给定待估计角度θ之后即可找到至少一个固定波束形成器γ_θ,1,γ_θ,2,…,γ_θ,Nθ，满足w(γ_θ，i，f)在待估计角度θ方向附件有足够低的增益，即具有足够强的抑制能力，其中，N_θ表示至少一个固定波束形成器的总数，通常情况下，N_θ与待估计角度θ有关。

具体地，假设入射方位角范围

为0至360度，每间隔10度存在一个固定波束形成器，因此可以有36个固定波束形成器，又假设待估计角度为20度，其中，36个固定波束形成器中有5个固定波束形成器的零陷指向20度，于是至少一个固定波束形成器就是5个固定波束形成器。根据5个固定波束形成器确定第二信号能量。可以理解的是，可以分别获取这5个固定波束形成器的信号能量，从中选择信号能量最大值，或者信号能量最小值作为第二信号能量。

103、根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；

本实施例中，终端设备根据第一信号能量以及第二信号能量，计算得到待估计角度对应的空间特征。

104、根据空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向。

本实施例中，终端设备根据确定的空间特征生成该目标语音帧所对应的目标控制信号，可以理解的是，假设总共有100帧语音，目标语音帧为第1帧语音，此时生成一个目标控制信号。接下来，终端设备会继续对第2帧语音进行分析，针对第2帧语音也会生成一个控制信号，以此类推，最后可以得到这100帧语音中每帧语音所对应的控制信号，基于每帧语音的控制信号，估计语音的DOA，从而定向增强该DOA方向上的语音，抑制其它方向上的所有信号。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第一个可选实施例中，根据语音输入信号获取待估计角度对应的第一信号能量，可以包括：

根据语音输入信号以及波束形成器系数，获取待估计角度对应的第一信号能量，其中，波束形成器系数为固定波束形成器所对应的系数；

根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，可以包括：

根据入射方位角范围以及波束形成器系数，从固定波束形成器集合中获取N_θ个固定波束形成器，其中，固定波束形成器集合包括Q个固定波束形成器，Q为大于1的整数，N_θ为大于或等于1，且小于或等于Q的整数；

根据N_θ个固定波束形成器确定第二信号能量，其中，第二信号能量为N_θ个固定波束形成器所对应的信号能量最大值。

本实施例中，介绍了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，具体地，针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间)，设计一个固定波束形成器，为了便于理解，请参阅图9，图9为本申请实施例中固定波束形成器的一个空间响应示意图，如图所示，该空间响应对应于固定波束形成器所对应的系数，即波束形成器系数表示为w(γ_θ,1,f)，旁瓣抑制增益可以为-10dB至-20dB，图9所示的横轴表示入射方位角，纵坐标表示波束形成器的增益响应。其中，该空间响应只能在部分麦克风阵列形状和部分频点上实现。在图9中，波束形成器系数w(γ_θ1,f)对待估计角度θ方向有足够低的增益。当信号从待估计角度θ方向附近射入时，w(γ_θ1,f)可以提供最大程度的抑制，即其输出可以几乎完全不含有待估计角度θ方向附近的信号能量。

具体地，假设入射方位角范围

为0至360度，每间隔10度存在一个固定波束形成器，因此可以有36个固定波束形成器，即Q为36，又假设待估计角度为20度，其中，36个固定波束形成器中有5个固定波束形成器的零陷指向20度，于是至少一个固定波束形成器就是5个固定波束形成器，即N_θ为5，根据5个固定波束形成器确定第二信号能量。可以理解的是，可以分别获取这5个固定波束形成器的信号能量，从中选择信号能量最大值作为第二信号能量。

其次，本申请实施例中，提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，考虑到固定波束形成器的零陷往往比较窄，尤其是与其主瓣宽度相比的情况，因此，第二信号能量能够较好的保留离待估计角度较近的干扰噪声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高本空间特征的空间分辨率。并且由于取的是信号能量最大值，所以可以较好的规避干扰噪声也落入波束形成器的零陷中的情况，因为这些数量的固定波束形成器的零陷几乎不可能完全重合。此外，本方案无需基于单个频点生成信号能量，而是结合各个频点得到信号能量，不但可以减少计算量，还能够提升信号能量的准确度。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第二个可选实施例中，空间特征为空间最低信噪比；

根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征，可以包括：

采用如下方式计算待估计角度对应的空间特征：

其中，μ_min(n,θ)表示待估计角度对应的空间最低信噪比，θ表示待估计角度，n表示目标语音帧，p(n,θ)表示待估计角度所对应的第一信号能量，γ_θ,i表示指向待估计角度的第i个固定波束形成器，p(n,γ_θ,i)表示固定波束形成器γ_θ,i的信号能量，

表示从N_θ个固定波束形成器中确定的第二信号能量。

本实施例中，介绍了一种计算空间最低信噪比的方式，终端设备计算空间最低信噪比的逻辑是，{p(n,γ_θ,i),i＝1,..,N_θ}中的每一项都不含有待估计角度θ方向的信号能量。类似图9所示的空间响应，固定波束形成器与其主瓣宽度相比的情况下，其零陷往往比较窄。因此，{p(n,γ_θ,i),i＝1,..,N_θ}可以较好的保留距离待估计角度θ较近的干扰声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高空间特征的空间分辨率。由于选取的是{p(n,γ_θ,i),i＝1,..,N_θ}集合中的最大值，可以较好的规避干扰噪声落入波束形成器系数为

的固定波束形成器的零陷，因为这N_θ个固定波束形成器的零陷几乎不可能完全重合。

待估计角度对应的空间最低信噪比μ_min(n,θ)，是衡量待估计角度θ附近信号能量与其他方向最强干扰噪声之间的比值，且因为前述零陷较窄的特性，因此，空间最低信噪比具有更高的空间分辨能力。

再次，本申请实施例中，提供一种计算空间最低信噪比的方式，通过上述方式，为方案的实现提供了具体可行的手段，从而提升方案的可操作性和可行性。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第三个可选实施例中，根据语音输入信号获取待估计角度对应的第一信号能量，可以包括：

根据语音输入信号以及波束形成器系数，获取待估计角度在频点上的第一信号能量，其中，波束形成器系数为固定波束形成器所对应的系数；

根据N_θ个固定波束形成器确定在频点上的第二信号能量，其中，第二信号能量为N_θ个固定波束形成器在频点上所对应的信号能量最大值。

本实施例中，介绍了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，具体地，针对给定的麦克风阵列和给定的扫描空间范围(通常可以设置为360度的空间)，设计一个固定波束形成器，请再次参阅图9对固定波束形成器的空间响应进行理解，此次不做赘述。

具体地，假设入射方位角范围

为0至360度，每间隔10度存在一个固定波束形成器，因此可以有36个固定波束形成器，即Q为36，又假设待估计角度为20度，其中，36个固定波束形成器中有5个固定波束形成器的零陷指向20度，于是至少一个固定波束形成器就是5个固定波束形成器，即N_θ为5，根据5个固定波束形成器确定第二信号能量。可以理解的是，可以分别获取这5个固定波束形成器在频点上的信号能量，从中选择在频点上信号能量最大值作为第二信号能量。

再次，本申请实施例中，提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，考虑到固定波束形成器的零陷往往比较窄，尤其是与其主瓣宽度相比的情况，因此，第二信号能量能够较好的保留离待估计角度较近的干扰噪声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高本空间特征的空间分辨率。并且由于取的是信号能量最大值，所以可以较好的规避干扰噪声也落入波束形成器的零陷中的情况，因为这些数量的固定波束形成器的零陷几乎不可能完全重合。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第四个可选实施例中，空间特征为空间最低信噪比；

采用如下方式计算待估计角度对应的空间特征：

其中，μ_min(n,θ,f)表示待估计角度在频点f上对应的空间最低信噪比，θ表示待估计角度，n表示目标语音帧，f表示频点，p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量，γ_θ,i表示指向待估计角度的第i个固定波束形成器，p(n,γ_θ,i,f)表示固定波束形成器γ_θ,i在频点f上的信号能量，

表示从N_θ个固定波束形成器中确定的在频点f上第二信号能量。

本实施例中，介绍了一种计算空间最低信噪比的方式，即给每一个频点f定义空间最低信噪比。终端设备计算在频点f上空间最低信噪比的逻辑是，{p(n,γ_θ,i,f),i＝1,..,N_θ}中的每一项都不含有待估计角度θ方向的信号能量。类似图9所示的空间响应，固定波束形成器与其主瓣宽度相比的情况下，其零陷往往比较窄。因此，{p(n,γ_θ,i,f),i＝1,..,N_θ}可以较好的保留在频点f上距离待估计角度θ较近的干扰声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高空间特征的空间分辨率。由于选取的是{p(n,γ_θ,i,f),i＝1,..,N_θ}集合中的最大值，可以较好的规避干扰噪声落入波束形成器系数为

待估计角度θ在频点f上的空间最低信噪比μ_min(n,θ,f)，是衡量待估计角度θ附近信号能量在频点f上与其他方向最强干扰噪声之间的比值，且因为前述零陷较窄的特性，因此，空间最低信噪比具有更高的空间分辨能力。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第五个可选实施例中，根据语音输入信号获取待估计角度对应的第一信号能量，可以包括：

根据N_θ个固定波束形成器确定第二信号能量，其中，第二信号能量为N_θ个固定波束形成器所对应的信号能量最小值。

具体地，假设入射方位角范围

为0至360度，每间隔10度存在一个固定波束形成器，因此可以有36个固定波束形成器，即Q为36，又假设待估计角度为20度，其中，36个固定波束形成器中有5个固定波束形成器的零陷指向20度，于是至少一个固定波束形成器就是5个固定波束形成器，即N_θ为5，根据5个固定波束形成器确定第二信号能量。可以理解的是，可以分别获取这5个固定波束形成器的信号能量，从中选择信号能量最小值作为第二信号能量。

其次，本申请实施例中，提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，考虑到固定波束形成器的零陷往往比较窄，尤其是与其主瓣宽度相比的情况，因此，第二信号能量能够较好的保留离待估计角度较近的干扰噪声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高本空间特征的空间分辨率。此外，本方案无需基于单个频点生成信号能量，而是结合各个频点得到信号能量，不但可以减少计算量，还能够提升信号能量的准确度。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第六个可选实施例中，空间特征为空间最高信噪比；

采用如下方式计算待估计角度对应的空间特征：

其中，μ_max(n,θ)表示待估计角度对应的空间最高信噪比，θ表示待估计角度，n表示目标语音帧，p(n,θ)表示待估计角度所对应的第一信号能量，γ_θ,i表示指向待估计角度的第i个固定波束形成器，p(n,γ_θ,i)表示固定波束形成器γ_θ,i的信号能量，

表示从N_θ个固定波束形成器中确定的第二信号能量。

本实施例中，介绍了一种计算空间最高信噪比的方式，终端设备计算空间最高信噪比的逻辑是，{p(n,γ_θ,i),i＝1,..,N_θ}中的每一项都不含有待估计角度θ方向的信号能量。类似图9所示的空间响应，固定波束形成器与其主瓣宽度相比的情况下，其零陷往往比较窄。因此，{p(n,γ_θ,i),i＝1,..,N_θ}可以较好的保留距离待估计角度θ较近的干扰声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高空间特征的空间分辨率。

空间最高信噪比μ_max(n,θ)衡量的是待估计角度θ附近的信号能量与最低能量方向的比值。当麦克风数量显著多于声源个数的时候，最低能量方向的空间谱估计值可以被近似认为是环境中的底噪强度(ambient noise)。因此，空间最高信噪比μ_max(n,θ)可以用于估计待估计角度对环境底噪的信噪比。

再次，本申请实施例中，提供一种计算空间最高信噪比的方式，通过上述方式，为方案的实现提供了具体可行的手段，从而提升方案的可操作性和可行性。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第七个可选实施例中，根据语音输入信号获取待估计角度对应的第一信号能量，可以包括：

根据N_θ个固定波束形成器确定在频点上的第二信号能量，其中，第二信号能量为N_θ个固定波束形成器在频点上所对应的信号能量最小值。

具体地，假设入射方位角范围

为0至360度，每间隔10度存在一个固定波束形成器，因此可以有36个固定波束形成器，即Q为36，又假设待估计角度为20度，其中，36个固定波束形成器中有5个固定波束形成器的零陷指向20度，于是至少一个固定波束形成器就是5个固定波束形成器，即N_θ为5，根据5个固定波束形成器确定第二信号能量。可以理解的是，可以分别获取这5个固定波束形成器在频点上的信号能量，从中选择在频点上信号能量最小值作为第二信号能量。

其次，本申请实施例中，提供了一种基于固定波束形成器获取第一信号能量和第二信号能量的方法，考虑到固定波束形成器的零陷往往比较窄，尤其是与其主瓣宽度相比的情况，因此，第二信号能量能够较好的保留离待估计角度较近的干扰噪声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高本空间特征的空间分辨率。此外。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第八个可选实施例中，空间特征为空间最高信噪比；

采用如下方式计算待估计角度对应的空间特征：

其中，μ_min(n,θ,f)表示待估计角度在频点f上对应的空间最高信噪比，θ表示待估计角度，n表示目标语音帧，f表示频点，p(n,θ,f)表示待估计角度在频点f上所对应的第一信号能量，γ_θ,i表示指向待估计角度的第i个固定波束形成器，p(n,γ_θ,i,f)表示固定波束形成器γ_θ,i在频点f上的信号能量，

本实施例中，介绍了另一种计算空间最高信噪比的方式，终端设备计算在频点f上空间最低信噪比的逻辑是，{p(n,γ_θ,i,f),i＝1,..,N_θ}中的每一项都不含有待估计角度θ方向的信号能量。类似图15所示的空间响应，固定波束形成器与其主瓣宽度相比的情况下，其零陷往往比较窄。因此，{p(n,γ_θ,i,f),i＝1,..,N_θ}可以较好的保留在频点f上距离待估计角度θ较近的干扰声的能量，即需要补偿一个旁瓣抑制损失，从而间接提高空间特征的空间分辨率。

空间最高信噪比μ_min(n,θ,f)衡量的是在频点f上待估计角度θ附近的信号能量与最低能量方向的比值。当麦克风数量显著多于声源个数的时候，最低能量方向的空间谱估计值可以被近似认为是环境中的底噪强度。因此，空间最高信噪比μ_min(n,θ,f)可以用于估计在频点f上待估计角度对环境底噪的信噪比。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第九个可选实施例中，根据空间特征生成目标语音帧对应的目标控制信号，可以包括：

若空间特征小于第一门限值，则生成目标语音帧对应的第一控制信号，其中，第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声，干扰噪声用于触发自适应波束形成器进行更新；

若空间特征大于第二门限值，则生成目标语音帧对应的第二控制信号，其中，第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声，所目标人声用于触发自适应波束形成器进行更新；

若空间特征大于或等于第一门限值，且小于或等于第二门限值，则生成目标语音帧对应的第三控制信号，其中，第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。

本实施例中，介绍了一种生成目标控制信号的方法，首先通过麦克风阵列获取语音输入信号，通过空间特征提取模块提取出至少一个空间特征，该空间特征包含但不仅限于空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比。空间特征提取模块可以提取每一个语音帧的信号，然后针对待估计角度对应的空间特征与门限值进行比较。

为了便于介绍，请参阅图10，图10为本申请实施例中控制信号生成系统的一个实施例示意图，如图所示，以目标语音帧为例进行说明，假设空间特征为空间最高信噪比，将该空间最高信噪比与第一门限值t_L进行比较，如果空间最高信噪比小于第一门限值t_L，那么生成第一控制信号L_N，并发出第一控制信号L_N，第一控制信号L_N表示该目标语音帧所对应的语音输入信号属于干扰噪声，采用第一控制信号L_N控制自适应波束形成器更新对噪声场的估计。

如果空间最高信噪比大于第二门限值t_H，那么生成第二控制信号L_S，并发出第二控制信号L_S，其中，第二门限值t_H大于第一门限值t_L，第二控制信号L_S表示该目标语音帧所对应的语音输入信号属于目标人声，采用第二控制信号L_S控制自适应波束形成器更新对目标人声的导向矢量估计。

如果空间最高信噪比大于或等于第一门限值t_L，且小于或等于第二门限值t_H，也就是介于第一门限值t_L和第二门限值t_H之间，那么生成第三控制信号L₀，第三控制信号L₀表示目标语音帧所对应的语音输入信号属于待确定信号，其中，待确定信号即不确定该目标语音帧的信号成分，于是控制自适应波束形成器不进行任何更新。

进一步地，本申请实施例中，提供了一种生成目标控制信号的方法，若空间特征小于第一门限值，则生成目标语音帧对应的第一控制信号，若空间特征大于第二门限值，则生成目标语音帧对应的第二控制信号，若空间特征大于或等于第一门限值，且小于或等于第二门限值，则生成目标语音帧对应的第三控制信号。通过上述方式，利用双门限值判断控制信号的具体类型，实现对控制信号的检测和判别，基于经验值确定的两个门限值能够更准确地判断控制信号的类型，从而提升方案的可行性。

可选地，在上述图8对应的各个实施例的基础上，本申请实施例提供的信号生成的方法第十个可选实施例中，根据空间特征生成目标语音帧对应的目标控制信号，可以包括：

通过神经网络模型获取空间特征所对应的控制信号类型；

若控制信号类型为第一类型，则确定目标控制信号为第一控制信号，其中，第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声，干扰噪声用于触发自适应波束形成器进行更新；

若控制信号类型为第二类型，则确定目标控制信号为第二控制信号，其中，第二控制信号表示目标语音帧所对应的语音输入信号属于目标人声，所目标人声用于触发自适应波束形成器进行更新；

若控制信号类型为第三类型，则确定目标控制信号为第三控制信号，其中，第三控制信号表示目标语音帧所对应的语音输入信号属于待确定信号。

本实施例中，介绍了另一种生成目标控制信号的方法，首先通过麦克风阵列获取语音输入信号，通过空间特征提取模块提取出至少一个空间特征，该空间特征包含但不仅限于空间能量占比、空间最低信噪比、空间最高信噪比以及空间零陷信噪比。空间特征提取模块可以提取每一个语音帧的信号，然后采用神经网络模型对空间特征所对应的控制信号类型进行预测。

为了便于介绍，请参阅图11，图11为本申请实施例中控制信号生成系统的另一个实施例示意图，如图所示，以目标语音帧为例进行说明，假设提取到的空间特征包括空间最高信噪比和空间最低信噪比，然后将空间最高信噪比和空间最低信噪比以语音帧为单位，同时输入至神经网络(Neural Network，NN)模型中，由神经网络模型输出层采用三个节点分别输出空间特征的控制信号类型，比如输出1或2或3，其中，“1”表示第一类型，即生成第一控制信号L_N，“2”表示第二类型，即生成第二控制信号L_S，“3”表示第三类型，即第三控制信号L₀。可以理解的是，该神经网络模型可以是三分类神经网络，针对每个语音帧仅输出一个控制信号类型，即只对应一个控制信号。

类似地，第一控制信号L_N表示该目标语音帧所对应的语音输入信号属于干扰噪声，第一控制信号L_N控制自适应波束形成器更新对噪声场的估计。第二控制信号L_S表示该目标语音帧所对应的语音输入信号属于目标人声，采用第二控制信号L_S控制自适应波束形成器更新对目标人声的导向矢量估计。第三控制信号L₀表示目标语音帧所对应的语音输入信号属于待确定信号，其中，待确定信号即不确定该目标语音帧的信号成分，于是控制自适应波束形成器不进行任何更新。

进一步地，本申请实施例中，提供了另一种生成目标控制信号的方法，通过神经网络模型获取空间特征所对应的控制信号类型，根据控制信号类型确定目标控制信号属于第一控制信号、第二控制信号还是第三控制信号。通过上述方式，利用神经网络模型能够更准确地估计控制信号的信号类型，从而提升控制信号生成的可靠性和可行性。

结合上述介绍，下面将对本申请中基于人工智能的语音识别方法进行介绍，请参阅图12，本申请实施例中基于人工智能的语音识别方法一个实施例包括：

201、当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，其中，麦克风阵列包括多个麦克风，入射方位角范围包括待估计角度；

202、根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，至少一个固定波束形成器均指向待估计角度，入射方位角范围包括待估计角度；

本实施例中，基于预先设计的入射方位角范围以及波束形成器系数，终端设备可以确定至少一个固定波束形成器所对应的第二信号能量。假设在频点[f₀，f₁]范围内存在多个固定波束形成器，每个固定波束形成器的波束形成器系数表示为

即包括两个维度的信息，分别为频点和指向，

表示在频点f上指向入射方位角

f∈[f₁,f₁]，

具体地，假设入射方位角范围

203、根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；

204、根据空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向；

205、若目标控制信号为目标人声所对应的信号，则根据语音输入信号获取唤醒结果以及信号到达方向；

本实施例中，终端设备判断目标控制信号是否属于目标人声，判断的方式包含但不仅限于上述实施例中介绍的双门限值判断的方式，以及神经网络模型的判断方式。在确定该目标控制信号为目标人声所对应的信号之后，终端设备可以基于语音输入信号检测对应的唤醒结果以及信号达到方向，其中，唤醒结果表示对终端设备的唤醒是否成功，信号到达方向表示DOA。

206、若唤醒结果表示唤醒成功，则根据信号到达方向所对应的待识别语音信号进行语音识别处理。

本实施例中，如果检测到唤醒结果为唤醒成功，则可以根据对信号到达方向所对应的待识别语音信号进行语音识别处理。具体地，唤醒检测可以是根据得分来判断的，比如预设的唤醒词为“小腾”，终端设备需要判断是否检测到该唤醒词“小腾”，检测到唤醒词后可以对待识别语音信号进行语音识别处理。

本申请实施例中，提供了一种语音识别的方法，当通过麦克风阵列获取目标语音帧对应的语音输入信号时，可以根据语音输入信号获取待估计角度对应的第一信号能量，然后根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，再根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征，最后根据空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向。通过上述方式，在“鸡尾酒会”情形中，能够根据麦克风阵列中每个麦克风所对应的待估计角度，分别确定来自各个待估计角度方向上的信号能量占全部入射信号能量的比例，基于空间特征生成相应的控制信号，可以提升控制信号的准确性和鲁棒性，从而提高前处理系统对语音信号增强的性能。

下面对本申请中的信号生成装置进行详细描述，请参阅图13，图13为本申请实施例中信号生成装置一个实施例示意图，信号生成装置30包括：

获取模块301，用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，其中，麦克风阵列包括多个麦克风，待估计角度在入射方位角范围内；

确定模块302，用于根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，至少一个固定波束形成器均指向待估计角度，入射方位角范围包括待估计角度；

确定模块302，还用于根据获取模块301获取的第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；

生成模块303，用于根据确定模块确定的空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的信号生成装置30的另一实施例中，

获取模块301，具体用于根据语音输入信号以及波束形成器系数，获取估计角度对应的第一信号能量，其中，波束形成器系数为固定波束形成器所对应的系数；

确定模块302，具体用于根据入射方位角范围以及波束形成器系数，从固定波束形成器集合中获取N_θ个固定波束形成器，其中，固定波束形成器集合包括Q个固定波束形成器，Q为大于1的整数，N_θ为大于或等于1，且小于或等于Q的整数；

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的信号生成装置30的另一实施例中，空间特征为空间最低信噪比；

确定模块302，具体用于采用如下方式计算待估计角度对应的空间特征：

表示从N_θ个固定波束形成器中确定的第二信号能量。

获取模块301，具体用于根据语音输入信号以及波束形成器系数，获取估计角度在频点上的第一信号能量，其中，波束形成器系数为固定波束形成器所对应的系数；

确定模块，具体用于采用如下方式计算待估计角度对应的空间特征：

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的信号生成装置30的另一实施例中，空间特征为空间零陷信噪比；

表示从N_θ个固定波束形成器中确定的第二信号能量。

可选地，在上述图13所对应的实施例的基础上，本申请实施例提供的信号生成装置30的另一实施例中，空间特征为空间最高信噪比；

生成模块303，具体用于若空间特征小于第一门限值，则生成目标语音帧对应的第一控制信号，其中，第一控制信号表示目标语音帧所对应的语音输入信号属于干扰噪声，干扰噪声用于触发自适应波束形成器进行更新；

生成模块303，具体用于通过神经网络模型获取空间特征所对应的控制信号类型；

下面对本申请中的语音识别装置进行详细描述，请参阅图14，图14为本申请实施例中语音识别装置一个实施例示意图，语音识别装置40包括：

获取模块401，用于当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，其中，麦克风阵列包括多个麦克风；

确定模块402，用于根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，至少一个固定波束形成器均指向待估计角度，入射方位角范围包括待估计角度；

确定模块402，还用于根据获取模块获取的第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；

生成模块403，用于根据确定模块402确定的空间特征生成目标语音帧对应的目标控制信号；

获取模块401，还用于若生成模块403生成的目标控制信号为目标人声所对应的信号，则根据语音输入信号获取唤醒结果以及信号到达方向；

识别模块404，用于若唤醒结果表示唤醒成功，则根据获取模块401获取的信号到达方向所对应的待识别语音信号进行语音识别处理。

本申请实施例还提供了另一种语音识别装置以及信号生成装置，如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(PersonalDigital Assistant，PDA)、销售终端设备(Point of Sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图15示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图15，手机包括：射频(Radio Frequency，RF)电路510、存储器520、输入单元530、显示单元540、传感器550、音频电路560、无线保真(wireless fidelity，WiFi)模块570、处理器580、以及电源590等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器580处理；另外，将设计上行的数据发送给基站。通常，RF电路510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器520可用于存储软件程序以及模块，处理器580通过运行存储在存储器520的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元530可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元530可包括触控面板531以及其他输入设备532。触控面板531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板531上或在触控面板531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器580，并能接收处理器580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板531。除了触控面板531，输入单元530还可以包括其他输入设备532。具体地，其他输入设备532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元540可包括显示面板541，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板541。进一步的，触控面板531可覆盖显示面板541，当触控面板531检测到在其上或附近的触摸操作后，传送给处理器580以确定触摸事件的类型，随后处理器580根据触摸事件的类型在显示面板541上提供相应的视觉输出。虽然在图15中，触控面板531与显示面板541是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板531与显示面板541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板541的亮度，接近传感器可在手机移动到耳边时，关闭显示面板541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路560、扬声器561，传声器562可提供用户与手机之间的音频接口。音频电路560可将接收到的音频数据转换后的电信号，传输到扬声器561，由扬声器561转换为声音信号输出；另一方面，传声器562将收集的声音信号转换为电信号，由音频电路560接收后转换为音频数据，再将音频数据输出处理器580处理后，经RF电路510以发送给比如另一手机，或者将音频数据输出至存储器520以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块570，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器580是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器520内的软件程序和/或模块，以及调用存储在存储器520内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器580可包括一个或多个处理单元；可选的，处理器580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器580中。

手机还包括给各个部件供电的电源590(比如电池)，可选的，电源可以通过电源管理系统与处理器580逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器580还具有以下功能：

当通过麦克风阵列获取目标语音帧对应的语音输入信号时，根据语音输入信号获取待估计角度对应的第一信号能量，其中，麦克风阵列包括多个麦克风，待估计角度在入射方位角范围内；

根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，至少一个固定波束形成器均指向待估计角度，入射方位角范围包括待估计角度；

根据第一信号能量以及第二信号能量，确定待估计角度对应的空间特征；

根据空间特征生成目标语音帧对应的目标控制信号，其中，目标控制信号用于估计语音的方向。

根据空间特征生成目标语音帧对应的目标控制信号；

若目标控制信号为目标人声所对应的信号，则根据语音输入信号获取唤醒结果以及信号到达方向；

若唤醒结果表示唤醒成功，则根据信号到达方向所对应的待识别语音信号进行语音识别处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信号生成的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述语音输入信号获取待估计角度对应的第一信号能量，包括：

根据所述语音输入信号以及波束形成器系数，获取所述估计角度对应的第一信号能量，其中，所述波束形成器系数为固定波束形成器所对应的系数；

所述根据所述入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，包括：

根据所述入射方位角范围以及波束形成器系数，从固定波束形成器集合中获取N_θ个固定波束形成器，其中，所述固定波束形成器集合包括Q个固定波束形成器，所述Q为大于1的整数，所述N_θ为大于或等于1，且小于或等于所述Q的整数；

3.根据权利要求2所述的方法，其特征在于，所述空间特征为空间最低信噪比；

所述根据所述第一信号能量以及所述第二信号能量，确定所述待估计角度对应的空间特征，包括：

采用如下方式计算所述待估计角度对应的空间特征：

4.根据权利要求1所述的方法，其特征在于，所述根据所述语音输入信号获取待估计角度对应的第一信号能量，包括：

根据所述语音输入信号以及波束形成器系数，获取所述估计角度在频点上的第一信号能量，其中，所述波束形成器系数为固定波束形成器所对应的系数；

5.根据权利要求4所述的方法，其特征在于，所述空间特征为空间最低信噪比；

采用如下方式计算所述待估计角度对应的空间特征：

6.根据权利要求1所述的方法，其特征在于，所述根据所述语音输入信号获取待估计角度对应的第一信号能量，包括：

7.根据权利要求6所述的方法，其特征在于，所述空间特征为空间最高信噪比；

采用如下方式计算所述待估计角度对应的空间特征：

8.根据权利要求1所述的方法，其特征在于，所述根据所述语音输入信号获取待估计角度对应的第一信号能量，包括：

9.根据权利要求4所述的方法，其特征在于，所述空间特征为空间最高信噪比；

采用如下方式计算所述待估计角度对应的空间特征：

其中，所述μ_max(n,θ,f)表示所述待估计角度在频点f上对应的空间最高信噪比，所述θ表示所述待估计角度，所述n表示所述目标语音帧，所述f表示所述频点，所述p(n,θ,f)表示所述待估计角度在频点f上所对应的第一信号能量，所述γ_θ,i表示指向所述待估计角度的第i个固定波束形成器，所述p(n,γ_θ,i,f)表示所述固定波束形成器γ_θ,i在频点f上的信号能量，所述

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据所述空间特征生成所述目标语音帧对应的目标控制信号，包括：

若所述空间特征小于第一门限值，则生成所述目标语音帧对应的第一控制信号，其中，所述第一控制信号表示所述目标语音帧所对应的语音输入信号属于干扰噪声，所述干扰噪声用于触发自适应波束形成器进行更新；

11.根据权利要求1至9中任一项所述的方法，其特征在于，所述根据所述空间特征生成所述目标语音帧对应的目标控制信号，包括：

通过神经网络模型获取所述空间特征所对应的控制信号类型；

12.一种基于人工智能的语音识别方法，其特征在于，包括：

13.一种信号生成装置，其特征在于，包括：

14.一种语音识别装置，其特征在于，包括：

确定模块，用于根据入射方位角范围以及波束形成器系数，确定至少一个固定波束形成器所对应的第二信号能量，其中，所述至少一个固定波束形成器均指向所述待估计角度，所述入射方位角范围包括所述待估计角度；

15.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机指令，所述计算机指令用于使计算机设备执行如权利要求1-11任一项所述的信号生成的方法的步骤，或，如权利要求12所述的基于人工智能的语音识别方法的步骤。