CN106599866B

CN106599866B - 一种多维度用户身份识别方法

Info

Publication number: CN106599866B
Application number: CN201611195804.7A
Authority: CN
Inventors: 叶伟
Original assignee: Shanghai Perspicace Intelligence Technology Co ltd
Current assignee: Changzhou bailongzhi Technology Co.,Ltd.
Priority date: 2016-12-22
Filing date: 2016-12-22
Publication date: 2020-06-02
Anticipated expiration: 2036-12-22
Also published as: CN106599866A

Abstract

一种多维度用户身份识别方法，通过摄像头检测到拍摄范围内的人体，抓取人体面部特征，与样本库中预存的用户照片进行对比，计算出人脸匹配系数，初步判定拥有权限的用户是否存在拍摄范围内；使用麦克风接收用户语音，将音频模拟信号转换为数字序列，再将数字序列与样本库中预存的用户声纹进行对比，计算出声纹匹配系数，对人脸匹配系数与声纹识别匹配系数再次进行计算，计算出匹配程度，从而判断该用户是否拥有权限，当判断该用户拥有权限时，系统为用户进行建模，并对用户进行人体动态跟踪，与对用户进行人体跟踪计算出的位置进行匹配，当声音位置与图像位置相匹配时，判断该指令为拥有权限的用户发出，指令有效，从而执行指令。

Description

一种多维度用户身份识别方法

技术领域

本发明属于智能家居技术领域，特别涉及一种多维度用户身份识别方法。

背景技术

随着社会的不断发展及科技的进步，人们对智能生活的憧憬使得智能家居产品越来越多地出现在日常生活中。智能家电、智能安防产品确实能够为人们带来生活上的便利，然而目前的技术手段仍然无法有效解决用户的权限控制问题。传统的文字密码、指纹等，虽然安全性较高，但需要用户进行主动验证，受其输入形式的制约，仍然无法很好地应用在一些日常场景中。而人脸识别、声音识别等生物密码的形式，虽然能够被动辨识，但其辨识维度单一，无法满足复杂场景的需求。

多维度用户身份辨识系统的出现，能够解决当前智能家居系统对于用户身份辨识的难题。通过使用声音与图像多重维度交叉辨识，能够实现被动辨识、辨识成功率高、持续识别等特点，提升智能家居系统的安全性，真正保障使用者的个人隐私与人身安全。

发明内容

本发明的目的，是为智能家居的用户身份识别提供一种方法，通过对用户相貌识别和声纹识别判断用户身份，通过音源方位判定与人体移动追踪实现持续的用户身份识别。

一种多维度用户身份识别方法，用于识别判定对家居设备拥有控制权限的用户身份，该识别方法包括步骤：

对用户的相貌和声音进行采样入库，作为权限辨识的样本；

通过摄像头检测到拍摄范围内的人体，抓取人体面部特征，与样本库中预存的用户照片进行对比，计算出人脸匹配系数，初步判定拥有权限的用户是否存在拍摄范围内；

使用麦克风接收用户语音，通过对用户声音的采集、转换，将音频模拟信号转换为数字序列，再将数字序列与样本库中预存的用户声纹进行对比，计算出声纹匹配系数，对人脸匹配系数与声纹识别匹配系数再次进行计算，计算出匹配程度，从而判断该用户是否拥有权限，

当判断该用户拥有权限时，系统为用户进行建模，并对用户进行人体动态跟踪，同时使用麦克风阵列对用户发出的语音指令进行判断，计算出音源位置，与对用户进行人体跟踪计算出的位置进行匹配，当声音位置与图像位置相匹配时，判断该指令为拥有权限的用户发出，指令有效，从而执行指令。

与样本库中预存的用户照片进行对比，是人脸识别过程，具体步骤是：

需要获取权限的用户先通过摄像头拍摄自己的面部照片，照片存入样本库，作为对比样本；

在抓取了需要判定权限的用户图片后，首先将其与多个不同尺度和方向的Gabor滤波器卷积获得多分辨率的变换图像，然后将每个Gabor特征图谱划分成若干互不相交的局部空间区域，对每个区域提取局部邻域像素的亮度变化模式，并在每个局部空间区域内提取这些变化模式的空间区域直方图；

所有Gabor特征图谱的、所有区域的直方图串接为一高维特征直方图来编码人脸图像，并通过直方图之间的相似度匹配技术计算出匹配值。

与样本库中预存的用户声纹进行对比，计算出声纹匹配系数，是声纹识别过程，具体步骤包括：

将被识别的目标声音对象和声音样本进行比对，判断目标声音和样本的一致性，对样本音频和被识别声音信号进行量化，然后提取声音特征，通过对比特征的匹配比对得出计算结果，其中声音样本的获取的过程是，

需要获得权限的用户通过麦克风录入样本声音，即样本采样，将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值，采取二进制的方式，以8位或16位的方式来划分纵轴，在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小，随后对样本提取MFCC特征和LPC特征，

以同样方式对需要判断的声音进行采样并进行量化，并提取目标声音的MFCC特征和LPC特征，将目标声音特征与样本声音特征进行比对，根据其匹配程度计算出匹配值。

在获得人脸识别与声纹识别的匹配值之后，将两个匹配值分别加入参数进行计算，当计算结果大于预设的阈值时，判断目标用户与样本用户相匹配，该目标用户获得权限。

人体动态追踪的过程包括：

在确认了获得权限的用户之后，对用户进行建模，当用户进行移动时，会对用户进行持续的影像追踪，获取用户的实时位置；当识别出用户身份后，使用单个静止数字摄像机得到德尔灰度图像序列作为输入，对单用户或多用户的运动行为进行视频检测与跟踪，使用背景减除法(BackgroundSubtract ion)来计算当前人体运动行为和轨迹。

当完成用户人体检测与跟踪时，该用户在拍摄区域内的位置作为判定用户身份的条件之一。

进一步的，当检测环境中有人说话时，使用麦克风阵列拾取声音信号，通过对多路声音信号进行分析与处理，在空间域中定曲一个或多个声源的平面或空间坐标，即得到声源的位置，该位置作为判定用户身份的条件之一。

进一步的，用多维条件判定用户方位：

结合视频追踪用户方位和麦克风阵列判断音源方位两个条件，能够判断出发出指令的声音来源与拥有权限的用户所在位置是否一致，当两者所处方位一致时，则可判断该指令为拥有权限的用户所发出的。

本发明采用声纹识别、人脸识别、音源判断、人体追踪等技术手段，通过声音、图像等多种维度实现对用户身份进行识别，并通过声音和图像对识别获得权限的用户进行方位判断及动态追踪的技术方案，特别适用于智能家居中对于权限用户的身份识别

附图说明

图1是本发明中声纹识别的方法示意图。

图2是本发明中人体动态追踪方法示意图。

具体实施方式

以下结合附图，分别说明本发明中涉及的技术实现过程。

人脸识别：需要获取权限的用户先通过摄像头拍摄自己的面部照片，照片会存入样本库，作为对比样本。在抓取了需要判定权限的用户图像后，首先将其与多个不同尺度和方向的Gabor滤波器卷积(卷积结果称为Gabor特征图谱)获得多分辨率的变换图像。然后将每个Gabor特征图谱划分成若干互不相交的局部空间区域，对每个区域提取局部邻域像素的亮度变化模式，并在每个局部空间区域内提取这些变化模式的空间区域直方图，所有Gabor特征图谱的、所有区域的直方图串接为一高维特征直方图来编码人脸图像，并通过直方图之间的相似度匹配技术(如直方图交运算)计算出匹配值；

声纹识别：声纹识别是将被识别的目标声音对象和声音样本进行比对，判断目标声音和样本的一致性。需要现对样本音频和被识别声音信号进行量化，然后提取声音特征，最后通过对比特征的匹配比对得出计算结果。

需要获得权限的用户通过麦克风录入样本声音，即样本采样，将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。采取二进制的方式，以8位(b i t)或16位(b i t)的方式来划分纵轴，在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小。随后对样本提取MFCC特征和LPC特征，程序算法如图1所示。

人脸识别与声纹识别的多维度计算：在获得人脸识别与声纹识别的匹配值之后，将两个匹配值分别加入参数进行计算，当计算结果大于预设的阈值时，判断目标用户与样本用户相匹配，该目标用户获得权限。

人体动态追踪：人体动态追踪是在确认了获得权限的用户之后，对用户进行建模，当用户进行移动时，会对用户进行持续的影像追踪，获取用户的实时位置；当识别出用户身份后，使用单个静止数字摄像机得到德尔灰度图像序列作为输入，对单用户或多用户的运动行为进行视频检测与跟踪。检测与跟踪算法如图2所示。

声音追踪：麦克风声源定位技术是利用麦克风拾取语音信号,并用数字信号处理技术对其进行分析和处理,继而确定和跟踪声源的空间位置。传统的单个麦克风的拾音范围很有限,拾取信号的质量不高,而麦克风阵列具有去噪、声源定位和跟踪等功能,从而大大提高了语音信号处理质量。

当场景中有人说话时，使用麦克风阵列拾取声音信号，通过对多路声音信号进行分析与处理，在空间域中定曲一个或多个声源的平面或空间坐标，即得到声源的位置，该位置作为判定用户身份的另一个条件。

多维条件判定用户方位：结合视频追踪用户方位和麦克风阵列判断音源方位两个条件，能够判断出发出指令的声音来源与拥有权限的用户所在位置是否一致。当两者所处方位一致时，则可判断该指令为拥有权限的用户所发出的。

Claims

1.一种多维度用户身份识别方法，用于识别判定对家居设备拥有控制权限的用户身份，其特征在于，该识别方法包括步骤：

对用户的相貌和声音进行采样入库，作为权限辨识的样本；

当判断该用户拥有权限时，系统为用户进行建模，并对用户进行人体动态跟踪，同时使用麦克风阵列对用户发出的语音指令进行判断，计算出音源位置，与对用户进行人体跟踪计算出的位置进行匹配，当声音位置与图像位置相匹配时，判断该指令为拥有权限的用户发出，指令有效，从而执行指令，

其中，抓取人体面部特征，与样本库中预存的用户照片进行对比，是人脸识别过程，具体步骤是：

所有Gabor特征图谱的、所有区域的直方图串接为一高维特征直方图来编码人脸图像，并通过直方图之间的相似度匹配技术计算出匹配值，

其中，与样本库中预存的用户声纹进行对比，计算出声纹匹配系数，是声纹识别过程，具体步骤包括：

以同样方式对需要判断的声音进行采样并进行量化，并提取目标声音的MFCC特征和LPC特征，将目标声音特征与样本声音特征进行比对，根据其匹配程度计算出匹配值，

其中，在获得人脸识别与声纹识别的匹配值之后，将两个匹配值分别加入参数进行计算，当计算结果大于预设的阈值时，判断目标用户与样本用户相匹配，该目标用户获得权限，

其中，人体动态追踪的过程包括：

在确认了获得权限的用户之后，对用户进行建模，当用户进行移动时，会对用户进行持续的影像追踪，获取用户的实时位置；当识别出用户身份后，使用单个静止数字摄像机得到德尔灰度图像序列作为输入，对单用户或多用户的运动行为使用背景减除法(BackgroundSubtraction)进行视频检测与跟踪，

当完成用户人体检测与跟踪时，该用户在拍摄区域内的位置作为判定用户身份的条件之一，

当检测环境中有人说话时，使用麦克风阵列拾取声音信号，通过对多路声音信号进行分析与处理，在空间域中定曲一个或多个声源的平面或空间坐标，即得到声源的位置，该位置作为判定用户身份的条件之一，

其中，用多维条件判定用户方位：结合视频追踪用户方位和麦克风阵列判断音源方位两个条件，能够判断出发出指令的声音来源与拥有权限的用户所在位置是否一致，当两者所处方位一致时，则可判断该指令为拥有权限的用户所发出的。