CN110223686A

CN110223686A - 语音识别方法、语音识别装置和电子设备

Info

Publication number: CN110223686A
Application number: CN201910475778.0A
Authority: CN
Inventors: 杨大业; 宋建华
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2019-09-10

Abstract

本公开提供了一种语音识别方法，包括：利用位置传感器获取声源位置信息；利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号；基于所述一个或多个声音信号，确定目标声音信号；以及，基于所述目标声音信号进行语音识别，得到语音识别结果。本公开还提供了一种语音识别装置和电子设备。

Description

语音识别方法、语音识别装置和电子设备

技术领域

本公开涉及一种语音识别方法、语音识别装置和电子设备。

背景技术

语音识别(Speech Recognition)技术的目标是以计算机自动将人类的语音内容转换为相应的文字，近年来，随着人工智能(AI)和深度学习领域的不断发展，语音识别的探索也获得了巨大的进步。

现有技术中，电子设备通常通过麦克风阵列进行声音信号的获取，再对获取到的声音信号进行语音识别。当处于高噪声、人多、嘈杂的环境中时，该方法所获取到的声音信号包含大量噪声，导致语音识别结果不准确。

发明内容

本公开的一个方面提供了一种语音识别方法，包括：利用位置传感器获取声源位置信息；利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号；基于所述一个或多个声音信号，确定目标声音信号；以及，基于所述目标声音信号进行语音识别，得到语音识别结果。

可选地，上述位置传感器为雷达传感器。所述利用位置传感器获取声源位置信息包括：利用所述雷达传感器在预定区域范围内扫描；基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体；以及，获取所识别的每个人体的头部位置信息。

可选地，上述基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体包括：根据回波信号的多普勒效应识别所述预定区域范围内存在的人体。上述获取所识别的每个人体的头部位置信息包括：对于所识别的任一人体，将与该人体对应的第一回波信号的强度分布特征输入至头部识别模型，经由所述头部识别模型确定与该人体的头部对应的第二回波信号；以及，将所述第二回波信号的反射位置信息作为该人体的头部位置信息，其中，所述头部识别模型是以多个与人体头部对应的第二回波信号的强度分布特征作为样本数据经过训练得到的。

可选地，上述位置传感器为飞行时间传感器。上述利用位置传感器获取声源位置信息包括：利用所述飞行时间传感器获取预定区域范围内的深度信息；以及，基于所述深度信息确定所述预定区域范围内存在的每个人体的头部位置信息。

可选地，上述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：对于任一声源位置信息，利用所述麦克风阵列基于波束赋形定向接收与该声源位置信息对应的位置发出的声音信号。

可选地，当获取到多个声源位置信息时，在所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号之前，所述方法还包括：基于预设规则从所述多个声源位置信息中确定一个目标声源位置信息；所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：利用所述麦克风阵列定向获取与所述目标声源位置信息对应的位置发出的声音信号。

可选地，当获取到多个声源位置信息时，所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：利用所述麦克风阵列分别定向获取与所述多个声源位置信息中的每个声源位置信息对应的位置发出的声音信号。上述基于所述一个或多个声音信号，确定目标声音信号包括：对于每个声音信号，提取该声音信号的声纹特征；以及，将所述该声音信号的声纹特征与预设声纹特征进行比对，如果一致，确定该声音信号是目标声音信号，如果不一致，确定该声音信息不是目标声音信号。

本公开的另一方面提供了一种语音识别装置，包括：第一获取模块、第二获取模块、第一确定模块、以及语音识别模块。第一获取模块用于利用位置传感器获取声源位置信息。第二获取模块用于利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号。第一确定模块用于基于所述一个或多个声音信号，确定目标声音信号。以及，语音识别模块用于基于所述目标声音信号进行语音识别，得到语音识别结果。

可选地，位置传感器为雷达传感器。第一获取模块包括：扫描子模块用于利用所述雷达传感器在预定区域范围内扫描。识别子模块用于基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体。以及，第一获取子模块用于获取所识别的每个人体的头部位置信息。

本公开的另一方面提供了一种电子设备，位置传感器、麦克风阵列、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的语音识别方法、装置和电子设备的应用场景；

图2示意性示出了根据本公开实施例的语音识别方法的流程图；

图3A示意性示出了根据本公开实施例的电子设备的示意图；

图3B示意性示出了根据本公开实施例的电子设备的语音识别方法的流程图；

图3C示意性示出了根据本公开另一实施例的电子设备的语音识别方法的流程图；

图4示意性示出了根据本公开实施例的语音识别装置的框图；

图5示意性示出了根据本公开另一实施例的语音识别装置的框图；以及

图6示意性示出了根据本公开的实施例的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供了一种语音识别方法、装置以及能够应用该方法的电子设备。该方法包括声源确定阶段，信号获取阶段、目标信号确定阶段以及语音识别阶段。在声源确定阶段，利用位置传感器获取声源位置信息，声源位置信息用于指示声源所在的方位。然后进入信号获取阶段，利用麦克风阵列定向获取来自于上述声源的一个或多个声音信号。然后进入目标信号确定阶段，基于获取到的一个或多个声音信号确定目标声音信号。最后进入语音识别阶段，基于所述目标声音信号进行语音识别，得到语音识别结果。

图1示意性示出了根据本公开实施例的语音识别方法、装置和电子设备的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，展示了电子设备110针对来自于用户120的声音信号进行语音识别的应用场景。

具体地，用户120发出声音，电子设备110通过麦克风阵列接收并采集相应的声音信号，利用深度神经网络(Deep Neural Networks，DNN)等方式对该声音信号进行识别，从而获得语音识别结果。语音识别是人机交互的基础，在正确进行语音识别的基础上，电子设备110可以根据语音识别结果执行相应的操作。例如，语音识别结果为“打开网页A”，则电子设备110可以根据该语音识别结果打开浏览器客户端，并在该浏览器客户端中打开网页A，以向用户120进行展示。进一步地，电子设备110还可以进行语义理解，根据语音识别结果向用户120进行相应的反馈。例如，语音识别结果为“明天天气如何”，电子设备110在查询天气信息后输出该天气信息的查询结果。

其中，电子设备110可以是如智能手机、个人计算机、智能手表、智能音箱等各种电子设备，在此不做限制。本例中电子设备110为个人计算机。

图2示意性示出了根据本公开实施例的语音识别方法的流程图。

如图2所示，该方法包括操作S201～S204：

在操作S201，利用位置传感器获取声源位置信息。

其中，在一个语音识别场景下，可以存在一个或多个声源，则利用位置传感器获取与该一个或多个声源对应的一个或多个声源位置信息。

在操作S202，利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号。

其中，如果操作S201仅获取到一个声源位置信息，本操作S202可以利用麦克风阵列定向获取该声源位置发出的声音信号，如果操作S201获取到多个声源位置信息，本操作S202可以利用麦克风阵列定向获取这多个声源位置中的部分或全部发出的声音信号。

在操作S203，基于所述一个或多个声音信号，确定目标声音信号。

在操作S204，基于所述目标声音信号进行语音识别，得到语音识别结果。

可见，图2所示的方法先利用位置传感器获取声源位置信息，再根据上述声源位置信息利用麦克风阵列定向获取来自于该声源的声音信号，从中确定出来自于声源的目标声音信号，对该目标声音信号进行语音识别得到语音识别结果。根据本公开实施例的语音识别方法相比于现有技术中直接利用麦克风阵列采集声音信号然后进行语音识别的方案，能够获得信噪比更高的声音信号，进而提升电子设备的语音识别效果。

在本公开的实施例中，上述位置传感器可以是雷达(Radar)传感器或者飞行时间(Time of Flight，ToF)传感器。在位置传感器为雷达传感器的情况下，上述利用位置传感器获取声源位置信息包括：利用所述雷达传感器在预定区域范围内扫描；基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体；以及，获取所识别的每个人体的头部位置信息。其中，雷达传感器是利用电磁波探测目标的设备，雷达传感器发出的调制信号在遇到障碍物后返回回波信号，回波信号会携带有所遇到的障碍物的特征信息，基于这些特征信息可以判断障碍物的形状，如果该形状为人体形状，根据人体形状特征可以进一步确定头部位置信息。

在位置传感器为飞行时间传感器的情况下，上述利用位置传感器获取声源位置信息包括：利用所述飞行时间传感器获取预定区域范围内的深度信息；以及，基于所述深度信息确定所述预定区域范围内存在的每个人体的头部位置信息。其中，飞行时间传感器发出经调制的近红外光，遇障碍物后反射，通过计算发射光和反射光的时间差货相位差，计算得到障碍物上的各点的距离信息，即深度信息，基于该深度信息可以确定障碍物的形状，进而可以确定预定区域范围内存在的每个人体的头部位置信息。

下面以位置传感器为雷达传感器为例，对根据本公开实施例的电子设备的语音识别方法进行展开说明。

图3A示意性示出了根据本公开实施例的电子设备的示意图。

如图3A所示，电子设备200为笔记本电脑，在其他实施例中，电子设备200可以是其他类型的电子设备，在此不做限制。电子设备200中配置有雷达传感器210和麦克风阵列220，根据本公开实施例的语音识别方法可以应用于该电子设备200。首先，利用雷达传感器210获取声源位置信息，本实施例将预定区域范围内存在的用户作为声源，用户的头部所在位置作为声源位置，相应用户发出的声音作为来自于该声源的声音信号。故需要利用雷达传感器210在预定区域范围内扫描，例如在预定的方位角和预定的俯仰角的范围内进行扫描，基于雷达传感器210的回波信号识别该预定区域范围内存在的人体；以及，获取所识别的每个人体的头部位置信息，该位置信息可以表示通过角坐标(如两个角度信息和一个距离信息)进行表示。其中，雷达传感器210在进行扫描时可以发出各种类型的雷达调制波，本例中，考虑到电子设备200对雷达传感器210的供电有限，可以优选调频连续波雷达。

具体地，上述基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体包括：根据回波信号的多普勒效应识别该预定区域范围内存在的人体。其中，人体具有移动、呼吸、心跳等微动特性，该微动特性会导致回波信号产生多普勒效应，因此根据回波信号的多普勒效应可以识别出障碍物是否为人体。由于人体不同部位的微动特性不同，导致回波信号的特征不同，故上述获取所识别的每个人体的头部位置信息包括：对于所识别的任一人体，将与该人体对应的第一回波信号的强度分布特征输入至头部识别模型，经由所述头部识别模型确定与该人体的头部对应的第二回波信号；以及，将所述第二回波信号的反射位置信息作为该人体的头部位置信息，其中，所述头部识别模型是以多个与人体头部对应的第二回波信号的强度分布特征作为样本数据经过训练得到的。

在利用雷达传感器210获取到声源位置信息后，接着利用麦克风阵列220定向获取一个或多个与上述声源位置信息对应的位置发出的一个或多个声音信号。具体地，该过程可以包括：对于任一声源位置信息，利用麦克风阵列220基于波束赋形(Beamforming)定向接收与该声源位置信息对应的位置发出的声音信号。可选地，对于远场(Far-field)声音信号，由于声源位置距离麦克风阵列220较远，声音信号采集难度较高，麦克风阵列220需要通成波束赋形方式来对准声源位置进行定向获取，具体可以通过时基偏移来提取远场声音信号，准确提取用户发出的语音命令。对于近场(Near-field)声音信号，由于声源位置距离麦克风阵列220较近，声音信号采集难度较低，麦克风阵列220可以通过波束赋形方式进行定向获取，也可以通过其他方式定向获取，在此不做限制。例如，可以将预定距离(如1米，可以根据需要进行设置)内的声源发出的声音信号认为是近场声音信号，近场声音信号呈一定角度传输，而远场声音信号一般被认为是近似于平行传输的。

下面通过图3B～3C对上述电子设备200进行语音识别的完整过程进行举例说明，其中，图3B示意性示出了根据本公开实施例的电子设备的语音识别方法的流程图，图3C示意性示出了根据本公开另一实施例的电子设备的语音识别方法的流程图。

在一个例子中，如图3B所示，开启电子设备的雷达传感器。具体地，可以是在开启电子设备的语音识别功能时同步开启雷达传感器，也可以是先开启麦克风阵列，在麦克风阵列检测到电子设备所在的当前环境中存在声音信号时，开启雷达传感器。然后利用雷达传感器检测人体目标，获取每个人体目标的头部位置信息。将人体目标作为声源，每个人体目标的头部位置表征一个声源位置。具体检测过程在上文中已说明，此处不再赘述。

如果获取到一个声源位置信息，则利用麦克风阵列定向采集与该声源位置信息对应的声源发出的声音信号，将该声音信号确定为目标声音信号。电子设备可以基于深度神经网络、卷积神经网络(Convolutional Neural Networks，CNN)、以及循环神经网络(Recurrent Neural Networks，RNN)等对该目标声音信号进行语音识别，得到语音识别结果。

如果获取到多个声源位置信息，在利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号之前，可以先基于预设规则从上述多个声源位置信息中确定一个目标声源位置信息。例如，可以根据多个声源位置信息确定其中处于最远距离、最近距离、处于中间位置、或者处于某特定位置的声源位置信息为目标声源位置信息。然后利用麦克风阵列定向获取与所述目标声源位置信息对应的位置发出的声音信号，将该声音信号作为目标声音信号。电子设备可以对该目标声音信号进行语音识别，得到语音识别结果。

在另一个例子中，还可以通过声纹比较的方式确定目标声音信号，如图3C所示，开启电子设备的雷达传感器。然后利用雷达传感器检测人体目标，获取每个人体目标的头部位置信息。将人体目标作为声源，每个人体目标的头部位置表征一个声源位置。如果获取到一个声源位置信息，则利用麦克风阵列定向采集与该声源位置信息对应的声源发出的声音信号，将该声音信号确定为目标声音信号。电子设备可以对该目标声音信号进行语音识别，得到语音识别结果。该过程在上文中已说明，此处不再赘述。

如果获取到多个声源位置信息时，利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号，具体可以包括：利用麦克风阵列分别定向获取与所述多个声源位置信息中的每个声源位置信息对应的位置发出的声音信号，即获取到多个声音信号，从中确定目标声音信号。可以是，对于每个声音信号，提取该声音信号的声纹特征；以及，将所述该声音信号的声纹特征与预设声纹特征进行比对，如果一致，确定该声音信号是目标声音信号，如果不一致，确定该声音信息不是目标声音信号。其中，预设声纹特征可以是预先存储的具有电子设备的使用权限的用户的声纹特征。在得到与预设声纹特征匹配的目标声音信号后，电子设备可以对该目标声音信号进行语音识别，得到语音识别结果。

可见，根据本公开实施例的电子设备的语音识别方法将雷达检测与麦克风阵列采集相结合，最大程度地利用了麦克风阵列的性能，可以实现动态语音高精度识别，尤其适用于高噪音、多人、嘈杂的场景，可以提供较佳的用户体验。

图4示意性示出了根据本公开实施例的语音识别装置的框图。

如图4所示，语音识别装置400包括：第一获取模块410、第二获取模块420、第一确定模块430、以及语音识别模块440。

第一获取模块410用于利用位置传感器获取声源位置信息。

第二获取模块420用于利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号。

第一确定模块430用于基于所述一个或多个声音信号，确定目标声音信号。

语音识别模块440用于基于所述目标声音信号进行语音识别，得到语音识别结果。

图5示意性示出了根据本公开另一实施例的语音识别装置的框图。

如图5所示，语音识别装置500包括：第一获取模块510、第二获取模块520、第一确定模块530、以及语音识别模块540。其中，第一获取模块510、第二获取模块520、第一确定模块530、以及语音识别模块540分别具有与第一获取模块410、第二获取模块420、第一确定模块430、以及语音识别模块440对应相同的功能，重复的部分不再赘述。

在本公开的一个实施例中，上述位置传感器为雷达传感器。第一获取模块510可以包括：扫描子模块511、识别子模块512、以及第一获取子模块513。

扫描子模块511用于利用所述雷达传感器在预定区域范围内扫描。识别子模块512用于基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体。以及，第一获取子模块513用于获取所识别的每个人体的头部位置信息。

在此基础上，作为本公开的一个可选实施例，识别子模块512具体用于根据回波信号的多普勒效应识别所述预定区域范围内存在的人体。第一获取子模块513具体用于：对于所识别的任一人体，将与该人体对应的第一回波信号的强度分布特征输入至头部识别模型，经由所述头部识别模型确定与该人体的头部对应的第二回波信号；以及，将所述第二回波信号的反射位置信息作为该人体的头部位置信息，其中，所述头部识别模型是以多个与人体头部对应的第二回波信号的强度分布特征作为样本数据经过训练得到的。

在本公开的一个实施例中，上述位置传感器为飞行时间传感器。第一获取模块510还可以包括：第二获取子模块514和第一确定子模块515。

第二获取子模块514用于利用所述飞行时间传感器获取预定区域范围内的深度信息；以及第一确定子模块515用于基于所述深度信息确定所述预定区域范围内存在的每个人体的头部位置信息。

在本公开的一个实施例中，第二获取模块520具体用于对于任一声源位置信息，利用所述麦克风阵列基于波束赋形定向接收与该声源位置信息对应的位置发出的声音信号。

在本公开的一个实施例中，语音识别装置500还包括第二确定模块550，用于当第一获取模块510获取到多个声源位置信息时，并且在第二获取模块520利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号之前，基于预设规则从所述多个声源位置信息中确定一个目标声源位置信息。则第二获取模块520具体用于利用所述麦克风阵列定向获取与所述目标声源位置信息对应的位置发出的声音信号。

在本公开的一个实施例中，当第一获取模块510获取到多个声源位置信息时，第二获取模块520具体用于利用所述麦克风阵列分别定向获取与所述多个声源位置信息中的每个声源位置信息对应的位置发出的声音信号。第一确定模块530包括：提取子模块531和比对子模块532。

提取子模块531用于对于每个声音信号，提取该声音信号的声纹特征。以及比对子模块532用于将所述该声音信号的声纹特征与预设声纹特征进行比对，如果一致，确定该声音信号是目标声音信号，如果不一致，确定该声音信息不是目标声音信号。

依据本公开的实施例，还提供了一种电子设备，包括：位置传感器、麦克风阵列、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时用于实现上述语音识别方法。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，第一获取模块510、第二获取模块520、第一确定模块530、语音识别模块540、和第二确定模块550中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，第一获取模块510、第二获取模块520、第一确定模块530、语音识别模块540、和第二确定模块550中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一获取模块510、第二获取模块520、第一确定模块530、语音识别模块540、和第二确定模块550中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图6示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图6示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600包括处理器610和计算机可读存储介质620。该电子设备600可以执行根据本公开实施例的方法。

具体地，处理器610例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器610还可以包括用于缓存用途的板载存储器。处理器610可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质620，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质620可以包括计算机程序621，该计算机程序621可以包括代码/计算机可执行指令，其在由处理器610执行时使得处理器610执行根据本公开实施例的方法或其任何变形。

计算机程序621可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序621中的代码可以包括一个或多个程序模块，例如包括621A、模块621B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器610执行时，使得处理器610可以执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，第一获取模块510、第二获取模块520、第一确定模块530、语音识别模块540、和第二确定模块550中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器610执行时，可以实现上文所述的数据处理方法。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种语音识别方法，包括：

利用位置传感器获取声源位置信息；

利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号；

基于所述一个或多个声音信号，确定目标声音信号；以及

基于所述目标声音信号进行语音识别，得到语音识别结果。

2.根据权利要求1所述的方法，其中：

所述位置传感器为雷达传感器；

所述利用位置传感器获取声源位置信息包括：

利用所述雷达传感器在预定区域范围内扫描；

基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体；以及

获取所识别的每个人体的头部位置信息。

3.根据权利要求2所述的方法，其中：

所述基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体包括：根据回波信号的多普勒效应识别所述预定区域范围内存在的人体；

所述获取所识别的每个人体的头部位置信息包括：

对于所识别的任一人体，将与该人体对应的第一回波信号的强度分布特征输入至头部识别模型，经由所述头部识别模型确定与该人体的头部对应的第二回波信号；以及

将所述第二回波信号的反射位置信息作为该人体的头部位置信息，其中，所述头部识别模型是以多个与人体头部对应的第二回波信号的强度分布特征作为样本数据经过训练得到的。

4.根据权利要求1所述的方法，其中：

所述位置传感器为飞行时间传感器；

所述利用位置传感器获取声源位置信息包括：

利用所述飞行时间传感器获取预定区域范围内的深度信息；以及

基于所述深度信息确定所述预定区域范围内存在的每个人体的头部位置信息。

5.根据权利要求1所述的方法，其中，所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：

对于任一声源位置信息，利用所述麦克风阵列基于波束赋形定向接收与该声源位置信息对应的位置发出的声音信号。

6.根据权利要求1所述的方法，其中：

当获取到多个声源位置信息时，在所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号之前，所述方法还包括：基于预设规则从所述多个声源位置信息中确定一个目标声源位置信息；

所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：利用所述麦克风阵列定向获取与所述目标声源位置信息对应的位置发出的声音信号。

7.根据权利要求1所述的方法，其中：

当获取到多个声源位置信息时，所述利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号包括：利用所述麦克风阵列分别定向获取与所述多个声源位置信息中的每个声源位置信息对应的位置发出的声音信号；

所述基于所述一个或多个声音信号，确定目标声音信号包括：

对于每个声音信号，提取该声音信号的声纹特征；以及

将所述该声音信号的声纹特征与预设声纹特征进行比对，如果一致，确定该声音信号是目标声音信号，如果不一致，确定该声音信息不是目标声音信号。

8.一种语音识别装置，包括：

第一获取模块，用于利用位置传感器获取声源位置信息；

第二获取模块，用于利用麦克风阵列定向获取一个或多个与所述声源位置信息对应的位置发出的一个或多个声音信号；

第一确定模块，用于基于所述一个或多个声音信号，确定目标声音信号；以及

语音识别模块，用于基于所述目标声音信号进行语音识别，得到语音识别结果。

9.根据权利要求8所述的装置，其中：

所述位置传感器为雷达传感器；

所述第一获取模块包括：

扫描子模块，用于利用所述雷达传感器在预定区域范围内扫描；

识别子模块，用于基于所述雷达传感器的回波信号识别所述预定区域范围内存在的人体；以及

第一获取子模块，用于获取所识别的每个人体的头部位置信息。

10.一种电子设备，包括：位置传感器、麦克风阵列、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时用于实现：

利用位置传感器获取声源位置信息；

基于所述一个或多个声音信号，确定目标声音信号；以及

基于所述目标声音信号进行语音识别，得到语音识别结果。