CN108877787A

CN108877787A - 语音识别方法、装置、服务器及存储介质

Info

Publication number: CN108877787A
Application number: CN201810714069.9A
Authority: CN
Inventors: 赵志文
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-23

Abstract

本发明公开了一种语音识别方法、装置、服务器及存储介质。该方法依据采集模块采集的语音信息确定声源距离以及候选声源方向；依据采集模块在候选声源方向采集的图像信息确定声源方向；依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先通过语音信息声源距离以及候选声源方向，再依据候选声源方向采集的图像信息确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

Description

语音识别方法、装置、服务器及存储介质

技术领域

本发明实施例涉及语音识别技术，尤其涉及一种语音识别方法、装置、服务器及存储介质。

背景技术

语音识别技术是指让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术在近场、高噪音情况下己经达到了很高的识别精度，但是在远场复杂环境语音识别时，由于音频采集装置采集信号的灵敏度高，周围一些干扰的声音也会被采集，使语音识别模块难于判断用户的意图，影响识别效果。

去除环境中因扬声器或者设备产生的噪声通常采用的方法是通过麦克风降噪和消除回声，但是麦克风降噪和消除回声的方法都存在精度不高，容易误伤目标语音的问题；尤其是环境中如果有多人说话声音的情况下，不能识别出发出指令者的声音，导致识别正确率低。

发明内容

本发明提供一种语音识别方法、装置、服务器及存储介质，以实现排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

第一方面，本发明实施例提供了一种语音识别方法，所述方法包括：

依据采集模块采集的语音信息确定声源距离以及候选声源方向；

依据采集模块在所述候选声源方向采集的图像信息确定声源方向；

依据声源方向和声源距离，对所述语音信息进行识别。

第二方面，本发明实施例还提供了一种语音识别装置，所述装置包括：声源确定模块，声源方向确定模块和识别模块；其中，

所述声源确定模块，用于依据采集模块采集的语音信息确定声源距离以及候选声源方向；

所述声源方向确定模块，用于依据采集模块在所述候选声源方向采集的图像信息确定声源方向；

所述识别模块，用于依据声源方向和声源距离，对所述语音信息进行识别。

第三方面，本发明实施例还提供了一种服务器，所述服务器包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如第一方面中任一所述的语音识别方法。

第四方面，本发明实施例还提供了一种存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如如第一方面中任一所述的语音识别方法。

本发明实施例依据采集模块采集的语音信息确定声源距离以及候选声源方向；依据采集模块在候选声源方向采集的图像信息确定声源方向；依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先通过语音信息声源距离以及候选声源方向，再依据候选声源方向采集的图像信息确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

附图说明

图1是本发明实施例一中的语音识别方法的流程图；

图2是本发明实施例二中的语音识别方法的流程图；

图3是本发明实施例三中的语音识别方法的流程图；

图4是本发明实施例四中的语音识别装置的结构示意图；

图5是本发明实施例五中的服务器结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的语音识别方法的流程图，本实施例可适用于识别语音的情况，该方法可以由语音识别装置来执行，如图1所示，该语音识别方法主要包括如下步骤：

S110、依据采集模块采集的语音信息确定声源距离以及候选声源方向。

该语音识别方法主要应用在远场复杂环境中，例如空调的语音控制，车载终端的语音控制以及工业生产中的语音控制等。

在本实施例中，采集模块包括语音采集模块和图像采集模块。语音采集模块用于采集语音信息。优选的，语音采集模块选择麦克风阵列。候选声源方位指的是声源相对于采集模块的方位范围。声源距离，指的是声源相对于采集模块的距离。

进一步的，依据采集模块采集的语音信息的语音信号电压值，计算得到语音信息的声源方位候选声源方向。依据采集模块采集的语音信息的语音信号之间的时间差，计算声源距离。

进一步的，语音采集模块用于采集语音信息之前还包括：开启设备或者终端的语音识别功能。具体的，可以通过设备或者终端上设置的物理按键开启语音识别功能，也可以通过与设备或者终端对应的遥控装置上的物理按键开启语音识别功能，还可以通过预设的手势动作或者人物面部识别等方法来开启语音识别功能。

S120、依据采集模块在候选声源方向采集的图像信息确定声源方向。

在本实施例中，采集模块包括语音采集模块和图像采集模块，图像采集模块用于采集图像信息。优选的，图像采集模块选择单目数字摄像头。在S110中确定候选声源方向之后，控制单元控制图像采集模块即单目数字摄像头旋转，使图像采集模块对准候选声源方向进行扫描或者拍摄，若是候选声源方向范围过大，图像采集单元一次扫描或者拍摄不能获取候选声源方向内的所有图像，可以使图像采集模块在候选声源方向内旋转并进行多次扫描或者拍摄，使图像采集模块可以采集到候选声源方向内所有物体或者人物的图像信息。

进一步的，在采集到候选声源方向内所有物体或者人物的图像信息中识别出人物面部信息以及嘴部特征；根据所述识别出人物面部信息以及嘴部特征确定声源方向。

S130、依据声源方向和声源距离，对语音信息进行识别。

在本实施例中，依据声源方向和声源距离，对语音信息进行识别，进一步优化为：对语音信息中在声源方向的语音信息部分进行音频放大处理，对除声源方向之外的其他语音信息部分进行音频衰减处理；依据声源距离对语音处理结果进行语音识别。

本发明实施例提供了一种语音识别方法，该方法依据采集模块采集的语音信息确定声源距离以及候选声源方向；依据采集模块在候选声源方向采集的图像信息确定声源方向；依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先通过语音信息声源距离以及候选声源方向，再依据候选声源方向采集的图像信息确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

实施例二

图2是本发明实施例二中的语音识别方法的流程图，本实施例在上述各实施例的基础上，优选是将依据采集模块采集的语音信息确定声源距离以及候选声源方向进一步优化为：依据语音信息到达至少三个麦克风的时间差和所述至少三个麦克风之间的几何关系，确定声源距离；依据至少三个麦克风采集的语音信息的语音信号电压值，确定候选声源方向。如图2所示，优化后的语音识别方法主要包括如下步骤：

S210、依据语音信息到达至少三个麦克风的时间差和所述至少三个麦克风之间的几何关系，确定声源距离。

在本实施例中，语音采集模块选择麦克风阵列。麦克风阵列至少三个麦克风。当麦克风阵列为三个麦克风时，三个麦克风呈三角形分布；当麦克风阵列为四个麦克风时，四个麦克风呈四角形或者菱形分布。优选的，本实施例中采用三个麦克风阵列，其中，三个麦克风呈三角形分布。

进一步的，在本实施例中，以三个麦克风阵列为例进行说明，声源距离的确定方法。三个麦克风阵列包括：第一麦克风、第二麦克风和第三麦克风。语音信息到达至少三个麦克风的时间差包括：第一麦克风接收语音信息与第三麦克风接收语音信息的第一时间差T1、第二麦克风接收语音信息与第三麦克风接收语音信息的第二时间差T2。三个麦克风之间的几何关系包括：第一麦克风和第二麦克风之间的第一距离D1、第二麦克风与第三麦克风之间的第二距离D2以及第一麦克风与第三麦克风之间的第三距离D3；声源距离包括：声源与第一麦克风之间的第一声源距离d1，声源与第二麦克风之间的第二声源距离d2，声源与第三麦克风之间的第三声源距离d3。其中，语音信息到达至少三个麦克风的时间差通过采集模块采集语音信号的时间进行计算得到，三个麦克风之间的几何关系存储在语音识别装置中，直接进行获取即可得到。

根据第一时间差T1、第二时间差T2、第一距离D1、第二距离D2和第三距离D3确定声源距离。

根据如下公式：

d1＝d3-T1×V_s

d2＝d3-T2×V_s

计算声源距离。

其中，V_s为声音在空气中的传播速度。p1＝(D3+d1+d3/2)，p2＝(D2+d2+d3/2)，p3＝(D1+d1+d2/2)，p4＝(D1+D2+D3/2)。将上述公式进行结合，即可求得声源与第三麦克风之间的第三声源距离d3，按照上述方式依次声源与第一麦克风之间的第一声源距离d1，声源与第二麦克风之间的第二声源距离d2。

需要说明的是，本实施例只是提供一种求声源与麦克风之间距离的方法，并非限定，也可以根据实际需求采用其他方法求取声源与麦克风之间距离。

S220、依据所述至少三个麦克风采集的语音信息的语音信号电压值，确定候选声源方向。

在本实施例中，根据语音信号电压值以及波束形成算法公式，计算至少三个麦克风采集的语音信息的语音信号总电压。其中，波束形成算法公式为：其中，U_a表示至少三个麦克风采集的语音信息的语音信号总电压，U_m表示第m个麦克风采集的语音信息的信号电压值，m表示第m个麦克风，d表示麦克风之间的距离，λ表示声波波长，n表示麦克风的数量，ω表示角速度，t表示时间，ωt表示角度。

根据至少三个麦克风采集的语音信息的语音信号总电压和公式：计算至少三个麦克风采集的语音信息的能量分布，并将能量分布最大的方向确定所述候选声源方向。

S230、依据采集模块在候选声源方向采集的图像信息确定声源方向。

S240、依据声源方向和声源距离，对语音信息进行识别。

本发明实施例提供了一种语音识别方法，该方法依据语音信息到达至少三个麦克风的时间差，计算至少三个麦克风采集的语音信息之间的相位差，根据语音信息之间的相位差和至少三个麦克风之间的几何关系，确定声源距离以及候选声源方向，依据采集模块在候选声源方向采集的图像信息确定声源方向，依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先依据语音信息到达至少三个麦克风的时间差，计算至少三个麦克风采集的语音信息之间的相位差，根据语音信息之间的相位差和至少三个麦克风之间的几何关系，确定声源距离以及候选声源方向，再依据候选声源方向采集的图像信息确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

实施例三

图3是本发明实施例三中的语音识别方法的流程图，本实施例在上述各实施例的基础上，优选是将依据所述采集模块在所述候选声源方向采集的图像信息确定声源方向，进一步优化为：通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征；根据识别出人物面部信息以及嘴部特征确定声源方向。如图3所示，优化后的语音识别方法主要包括如下步骤：

S310、依据采集模块采集的语音信息确定声源距离以及候选声源方向。

S320、通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征。

在本实施例中，在S210中确定候选声源方向之后，控制单元控制图像采集模块即单目数字摄像头旋转，使图像采集模块对准候选声源方向进行扫描或者拍摄，获取候选声源方向内的所有图像信息。

本实施例中提供一种深度神经网络模型的训练方法，在模型训练阶段，收集大量的人物面部信息以及嘴部特征，并将收集到的人物面部信息以及嘴部特征进行分类形成有效的人物面部信息数据集和嘴部特征数据集，将人物面部信息数据集和嘴部特征数据集进行对齐归一化处理形成训练数据集，将训练数据集带入深度神经网络模型中，利用有监督学习和反向传播算法，优化深度神经网络模型参数的权重，提高图像识别的准确度。

在候选声源方向采集的图像信息输入预先训练的深度神经网络模型，深度神经网络模型识别出图像信息中的人物面部信息以及嘴部特征。其中，图像信息可以是RGB格式的，也可以是YUV格式的。

将待识别的图像进行对齐处理，将对齐后的待识别图像输入到深度神经网络模型中，得到特征向量集合，将特征向量集合与人物面部信息库中的人物面部模型进行对比，输出最高相似度值，将最高相似度值与阈值进行比较，若最高相似度值大于阈值，则说明待识别图像中存在人脸。进一步的，提取人物面部信息中的嘴部特征向量，将嘴部特征向量与嘴部模型库中的嘴部模型进行对比，输出最高相似值，将最高相似度值与阈值进行比较，若最高相似度值大于阈值，则确定该嘴部特征为待识别的嘴部特征。

S330、根据所述识别出人物面部信息以及嘴部特征确定声源方向。

在本实施例中，根据识别出人物的面部信息以及嘴部特征确定人物的面部信息以及嘴部特征在整个图像信息中的方向，将人物的面部信息以及嘴部特征对应的方向确定为声源方向。

S340、依据声源方向和声源距离，对语音信息进行识别。

本发明实施例提供了一种语音识别方法，该方法依据采集模块采集的语音信息确定声源距离以及候选声源方向，通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征，根据所述识别出人物面部信息以及嘴部特征确定声源方向，依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先通过语音信息声源距离以及候选声源方向，再通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征，根据所述识别出人物面部信息以及嘴部特征确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

实施例四

图4是本发明实施例四中的语音识别装置的结构示意图，本实施例可适用于识别语音的情况，该装置的具体结构如下：声源确定模块410，声源方向确定模块420和识别模块430；其中，

声源确定模块410，用于依据采集模块采集的语音信息确定声源距离以及候选声源方向。

声源方向确定模块420，用于依据所述采集模块在所述候选声源方向采集的图像信息确定声源方向。

识别模块430，用于依据所述声源方向和所述声源距离，对所述语音信息进行识别。

进一步的，声源确定模块410包括：声源距离确定单元和候选声源方向确定单元；其中，

声源距离确定单元，用于依据所述语音信息到达至少三个麦克风的时间差和所述至少三个麦克风之间的几何关系，确定声源距离。

候选声源方向确定单元，用于依据所述至少三个麦克风采集的语音信息的语音信号电压值，确定所述候选声源方向。

进一步的，声源方向确定模块420包括：图像识别单元和声源方向确定单元；其中，

图像识别单元，用于通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征。

声源方向确定单元，用于根据所述识别出人物面部信息以及嘴部特征确定声源方向。

识别模块430包括：处理单元和识别单元；其中，

处理单元，用于对所述语音信息中在所述声源方向的语音信息部分进行音频放大处理，对除声源方向之外的其他语音信息部分进行音频衰减处理；

识别单元，用于依据所述声源距离对语音处理结果进行语音识别。

本发明实施例提供了一种语音识别装置，该装置依据采集模块采集的语音信息确定声源距离以及候选声源方向；依据采集模块在候选声源方向采集的图像信息确定声源方向；依据声源方向和声源距离，对语音信息进行识别。本发明实施例提供的技术方案先通过语音信息声源距离以及候选声源方向，再依据候选声源方向采集的图像信息确定声源方向；最后依据声源方向和声源距离，对语音信息进行识别，可以排除周围噪音的干扰，提高语音识别正确率，提升用户体验。

本发明实施例所提供的语音识别装置可执行本发明任意实施例所提供的语音识别方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本发明实施例五中的服务器结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器512的框图。图5显示的服务器512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，服务器512以通用计算设备的形式表现。服务器512的组件可以包括但不限于：一个或者多个处理器或者处理单元516，系统存储器528，连接不同系统组件(包括系统存储器528和处理单元516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务器512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)530和/或高速缓存存储器532。服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储器528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储器528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

服务器512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与服务器512交互的设备通信，和/或与使得该服务器512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器520通过总线518与设备/终端/服务器512的其它模块通信。应当明白，尽管图5中未示出，可以结合服务器512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元516通过运行存储在系统存储器528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音识别方法，该方法包括：

依据所述采集模块在所述候选声源方向采集的图像信息确定声源方向；

依据所述声源方向和所述声源距离，对所述语音信息进行识别。

实施例六

本发明实施例六还提供了一种存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如本发明实施例所提供的语音识别方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音识别方法，其特征在于，所述依据采集模块采集的语音信息确定声源距离以及候选声源方向，包括：

依据所述语音信息到达至少三个麦克风的时间差和所述至少三个麦克风之间的几何关系，确定声源距离；

依据所述至少三个麦克风采集的语音信息的语音信号电压值，确定所述候选声源方向。

3.根据权利要求1所述的语音识别方法，其特征在于，所述依据采集模块在所述候选声源方向采集的图像信息确定声源方向，包括：

通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征；

根据所述识别出人物面部信息以及嘴部特征确定声源方向。

4.根据权利要求1所述的语音识别方法，其特征在于，所述依据声源方向和声源距离，对所述语音信息进行识别，包括：

对所述语音信息中在所述声源方向的语音信息部分进行音频放大处理，对除声源方向之外的其他语音信息部分进行音频衰减处理；

依据所述声源距离对语音处理结果进行语音识别。

5.一种语音识别装置，其特征在于，所述装置包括：声源确定模块，声源方向确定模块和识别模块；其中，

所述声源方向确定模块，用于依据所述采集模块在所述候选声源方向采集的图像信息确定声源方向；

所述识别模块，用于依据所述声源方向和所述声源距离，对所述语音信息进行识别。

6.根据权利要求5所述的语音识别装置，其特征在于，所述声源确定模块包括：声源距离确定单元和候选声源方向确定单元；其中，

所述声源距离确定单元，用于依据所述语音信息到达至少三个麦克风的时间差和所述至少三个麦克风之间的几何关系，确定声源距离；

所述候选声源方向确定单元，用于依据所述至少三个麦克风采集的语音信息的语音信号电压值，确定所述候选声源方向。

7.根据权利要求5所述的语音识别装置，其特征在于，所述声源方向确定模块包括：图像识别单元和声源方向确定单元；其中，

所述图像识别单元，用于通过预先训练的深度神经网络模型在所述候选声源方向采集的图像信息中识别出人物面部信息以及嘴部特征；

所述声源方向确定单元，用于根据所述识别出人物面部信息以及嘴部特征确定声源方向。

8.根据权利要求5所述的语音识别装置，其特征在于，所述识别模块包括：处理单元和识别单元；其中，

所述处理单元，用于对所述语音信息中在所述声源方向的语音信息部分进行音频放大处理，对除声源方向之外的其他语音信息部分进行音频衰减处理；

所述识别单元，用于依据所述声源距离对语音处理结果进行语音识别。

9.一种服务器，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至4任一权利要求所述的语音识别方法。

10.一种存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行如权利要求1至4任一权利要求所述的语音识别方法。