CN107346661B

CN107346661B - 一种基于麦克风阵列的远距离虹膜跟踪与采集方法

Info

Publication number: CN107346661B
Application number: CN201710404985.8A
Authority: CN
Inventors: 李昕; 李明
Original assignee: Yiwo Artificial Intelligence Technology Jiangsu Co ltd
Current assignee: Iwo artificial intelligence technology (Jiangsu) Co., Ltd.
Priority date: 2017-06-01
Filing date: 2017-06-01
Publication date: 2020-06-12
Anticipated expiration: 2037-06-01
Also published as: CN107346661A

Abstract

本发明公开一种基于麦克风阵列的远距离虹膜跟踪与采集方法，包括：步骤1：麦克风阵列的声源定位模块根据分布在分布式麦克风阵列声音采集范围内用户语音启动，并实时跟踪及计算用户嘴巴在三维空间中的位置信息；步骤2：将所述位置信息传送至中央处理控制模块，如果位置信息在红外摄像机及云台的工作范围内，则所述中央处理控制模块控制红外摄像机的高速云台及变焦模块，对准用户的头部进行放大对焦拍摄，获取多幅用户头部的红外图像；步骤3：语音唤醒模块根据语音识别当前用户语音是否为约定的唤醒词，如不是，则为无效语音，忽略红外图像；如是，则为有效语音，将采集的所述红外图像用于虹膜识别。本发明准确性高，实用性强及验证速度快。

Description

一种基于麦克风阵列的远距离虹膜跟踪与采集方法

技术领域

本发明涉及一种远距离虹膜图像采集方法，更具体地，涉及一种基于分布式麦克风阵列的远距离虹膜跟踪与采集方法。

背景技术

虹膜识别是一种高准确性的无接触的生物特征识别技术，具有非常广阔的应用场景。微距离和近距离虹膜采集设备需要用户双眼凑近摄像机拍摄虹膜图片，限制了实际使用场景。随着摄像头技术的快速发展，大于1000万像素的摄像头已经被广泛使用，配合高速云台和变焦模块以及红外窄带滤光片，我们可以在1-10米范围内得到高质量的虹膜图片。与传统的微距离虹膜采集专用设备相比，这种远距离的基于红外摄像头模组的采集方法具有成本低，无需人凑近设备配合等特点。对于用户来说，只需要正面看一眼摄像头就可以使得虹膜图像被采集，大大的增强了准确性，实用性及验证速度。

但远距离虹膜图片采集的前提是知道用户的三维位置信息，用于控制云台和变焦模块拍摄图片。已有的方法有使用基于双目或多目摄像头算法的三维定位，也有使用深度摄像头的定位，也有使用红外检测模块来大致判定用户位置的方法，但这些方法都需要额外的增加硬件设备和相应的计算资源，且无法与现有的远场语音交互技术互通互联。

随着麦克风阵列技术及远场语音识别技术的成熟，越来越多的智能家居产品开始使用声纹识别来进行身份验证。用户可以在几米范围说出命令(如“芝麻开门”)，系统会自动被唤醒，通过语音识别模块理解用户的命令，同时利用文本相关的声纹识别方法来校验身份。由于语音信号既可以传递说话人声纹信息，也包含文本语义信息，因此基于唤醒词或动态口令(如随机数字串)的文本相关声纹识别是一个很好的活体检测手段。但是声纹识别的准确率相比指纹和虹膜来说还是要差一些，在一些环境下无法胜任高准确性的任务，如支付。

发明内容

本发明提出一种准确性高，实用性强及验证速度快的基于麦克风阵列的远距离虹膜跟踪与采集方法。

本发明的技术方案是这样实现的：

一种基于麦克风阵列的远距离虹膜跟踪与采集方法，包括中央处理控制模块，及与之相连的基于分布式麦克风阵列的语音唤醒模块及声源定位模块以及用于采集远距离虹膜图像的红外摄像头模块，云台及变焦模块，其特征在于，包括：

步骤1：麦克风阵列的声源定位模块根据分布在分布式麦克风阵列声音采集范围内用户语音启动，并实时跟踪及计算用户嘴巴在三维空间中的位置信息；

步骤2：将所述位置信息传送至中央处理控制模块，如果位置信息在红外摄像机及云台的工作范围内，则所述中央处理控制模块控制红外摄像机的高速云台及变焦模块，对准用户的头部进行放大对焦拍摄，获取多幅用户头部的红外图像；

步骤3：语音唤醒模块根据麦克风阵列输出的增强后的语音识别当前用户语音是否为约定的唤醒词，如不是，则为无效语音，忽略所述红外图像；如是，则为有效语音，将采集的所述红外图像用于虹膜识别。

本发明把基于麦克风阵列的声源定位技术和远场语音识别及声纹识别技术与虹膜图像的采集有机的结合在一起，创新性的提出利用现有语音交互设备中的麦克风阵列来捕捉说话人的位置信息，并联动控制红外摄像机的云台和变焦模块来动态的采集说话人的头部清晰图像，使得在远距离场景同时进行虹膜识别和声纹识别成为可能，并使用唤醒词识别模块来判断用户说的语音是否为约定好的虹膜采集关键词，减少了不必要的虚警，提高了鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一种基于麦克风阵列的远距离虹膜跟踪与采集方法的模块框图；

图2是单个麦克风阵列输出的平面和高度角度的示例；

图3是本发明中远距离虹膜采集方法的流程图；

图4是唤醒词判断流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参见图1至图4，一种基于麦克风阵列的远距离虹膜跟踪与采集方法，包括中央处理控制模块5，及与之相连的基于分布式麦克风阵列的语音唤醒模块1及声源定位模块2以及用于采集远距离虹膜图像的红外摄像头模块3，云台及变焦模块4，包括：

优选的，在执行步骤1时，所述分布式麦克风阵列为由M个(M>＝1)安装在不同位置的麦克风阵列组成，假设第i个麦克风阵列包含N_i个麦克风，则整个分布式麦克风阵列包含

个麦克风，其实时跟踪及计算用户嘴巴在三维空间中的位置信息具体过程为：

步骤101：对于第i个由N_i个麦克风组成的麦克风阵列，N_i≥4，且不能全部分布在同一个平面上；麦克风两两配对，组成n_i＝N_i×(N_i-1)/2对麦克风配对；针对每一个配对，计算每对麦克风通道语音的时间差τ_ij，j＝1，…，n_i；

步骤102：根据每对麦克风通道语音的时间差，利用

推算出α，其中d_ij为这两个麦克风之间的间距，而c为空气中的声速，一般为340米/秒；

步骤103：假设第j个麦克风配对中的两个麦克风的实际空间位置分别为M_j1(x_j1，y_j1，z_j1)和M_j2(x_j2，y_j2，z_j2)，则其夹角α与三维空间中声音源相对阵列坐标系的夹角θ和

的关系如下：

根据多个麦克风之间的两两配对，求平均或求最大值的方式获得相应的声音源的位置信息θ和

当系统中有多个分布式的麦克风阵列，则把每一个麦克风阵列获得的θ和

信息组合起来得到用户嘴巴在三维空间中的位置信息。

优选的，在执行步骤2时，所述云台和变焦模块根据麦克风阵列输出的位置信息的拍摄多幅人脸的图片，其中人眼部分的图片大小满足虹膜识别的要求，具体步骤为：

步骤201：根据分布式麦克风阵列声源定位模块传到中央控制单元的位置信息，判断声源坐标是否在预设的虹膜采集区域内，如是，进行步骤202；如不是，则为干扰信号，忽略该位置信息。

步骤202：中央控制单元控制红外摄像机的高速云台和变焦模块对准空间中的声源位置进行拍照；

步骤203：将采集的头部图片进行人脸检测及人眼检测，并提取出双眼的虹膜图像用以进行虹膜识别；如果照片清晰度低于预设值，由于无法准确提取人眼的图像，因此忽略该图像，继续处理下一张。

优选的，在执行步骤3时，其具体步骤为，步骤301：麦克风阵列采集得到的多通道语音经过回声抵消，去混响，波束集成，后滤波操作后，得到增强后的单通道语音，使用语音识别技术识别当前用户语音是否为约定的唤醒词，如不是，则为无效语音，忽略所述红外图像；如是，则为有效语音，将采集的所述红外图像用于后续的虹膜识别。

唤醒模块中的语音识别算法流程为，语音音频首先经过语音前端处理，再经过特征提取提取到有效信息，然后再将音频解码，解码处理包括声学模型、发音模型及语言模型，从而将语音转换成识别文本，再进行唤醒词的比对。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于麦克风阵列的远距离虹膜跟踪与采集方法，包括中央处理控制模块，及与之相连的基于分布式麦克风阵列的语音唤醒模块及声源定位模块以及用于采集远距离虹膜图像的红外摄像头模块，云台及变焦模块，其特征在于，包括：

在执行步骤1时，所述分布式麦克风阵列为由M个(M>＝1)安装在不同位置的麦克风阵列组成，假设第i个麦克风阵列包含N_i个麦克风，则整个分布式麦克风阵列包含

步骤102：根据每对麦克风通道语音的时间差，利用

推算出α，其中d_ij为这两个麦克风之间的间距，而c为空气中的声速；

步骤103：假设第j个麦克风配对中的两个麦克风的实际空间位置分别为

M_j1(x_j1，y_j1，z_j1)和M_j2(x_j2，y_j2，z_j2)，则其夹角α与三维空间中声音源相对阵列坐标系的夹角θ和

的关系如下：

信息组合起来得到用户嘴巴在三维空间中的位置信息；

步骤3：语音唤醒模块根据麦克风阵列输出的增强后的语音识别当前用户语音是否为约定的唤醒词，如不是，则为无效语音，忽略所述红外图像；如是，则为有效语音，将采集的所述红外图像用于后续的虹膜识别。

2.如权利要求1所述的一种基于麦克风阵列的远距离虹膜跟踪与采集方法，在执行步骤2时，所述云台和变焦模块根据麦克风阵列输出的位置信息的拍摄多幅人脸的图片，其中人眼部分的图片大小满足虹膜识别的要求，具体步骤为：

步骤201：根据分布式麦克风阵列声源定位模块传到中央控制单元的位置信息，判断声源坐标是否在预设的虹膜采集区域内，如是，进行步骤202；如不是，则为干扰信号，忽略该位置信息；

步骤203：将采集的头部图片进行人脸检测及人眼检测，并提取出双眼的虹膜图像用以进行虹膜识别；如果照片清晰度低于预设值，则忽略该图像，继续处理下一张。

3.如权利要求1所述的一种基于麦克风阵列的远距离虹膜跟踪与采集方法，在执行步骤3时，其具体步骤为：

步骤301：麦克风阵列采集得到的多通道语音经过回声抵消，去混响，波束集成，后滤波操作后，得到增强后的单通道语音，使用语音识别技术识别当前用户语音是否为约定的唤醒词，如不是，则为无效语音，忽略所述红外图像；

如是，则为有效语音，将采集的所述红外图像用于后续的虹膜识别。