CN117275129A

CN117275129A - 一种基于物联网的语音结合人脸识别的门禁系统

Info

Publication number: CN117275129A
Application number: CN202311418269.7A
Authority: CN
Inventors: 林志强
Original assignee: Zhejiang Huayi Iot Technology Co ltd
Current assignee: Zhejiang Huayi Iot Technology Co ltd
Priority date: 2023-10-29
Filing date: 2023-10-29
Publication date: 2023-12-22
Anticipated expiration: 2043-10-29
Also published as: CN117275129B

Abstract

本发明公开了一种基于物联网的语音结合人脸识别的门禁系统，属于数据处理技术领域，门禁系统包括：提取模块，用于提取待验证人员的图像特征；提取模块，还用于提取待验证人员的声纹特征；融合模块，用于对归一化处理后的图像特征与声纹特征进行特征融合，得到融合特征；验证模块，用于根据融合特征，通过卷积神经网络，对待验证人员的身份进行验证，得到身份可信度；当身份可信度小于第一预设可信度时，拒绝解锁门禁；当身份可信度介于第一预设可信度与第二预设可信度之间时，通过中心云端向管理端发送解锁请求，以根据管理端的指令决定是否解锁门禁；当身份可信度大于第二预设可信度时，直接解锁门禁，同时向中心云端发送访客记录。

Description

一种基于物联网的语音结合人脸识别的门禁系统

技术领域

本发明属于数据处理技术领域，具体涉及一种基于物联网的语音结合人脸识别的门禁系统。

背景技术

基于物联网的智能门禁系统作为一种安全管理和访问控制的技术，由于可以兼顾安全性与便捷性，得到了快速地发展。

然而当前的基于物联网的智能门禁系统实行计算与操作分离的构建方式，门禁系统采集到人脸图像或者语音数据之后，需要统一发给中心云端进行处理和计算，由中心云端根据处理结果决定是否解锁门禁。一方面，大量的原始数据在传输到中心云端过程中对于网络带宽与存储容量造成负担，当网络延迟或者网络不稳定时，门禁解锁会发生延迟，难以及时解锁，同时，在数据在传输过程中还可能被盗取，存在安全隐患。

并且，当前的智能门禁系统主要选取人脸识别或者声纹识别中的一种进行身份验证，即使同时具备两种功能，两种技术也是分别独立地进行验证，即根据采集人脸图像进行人脸识别，根据采集的语音数据进行声纹识别，独立地选取人脸识别或者声纹识别中的一种技术进行身份验证，容易发生漏检、误检的情况。

发明课程

为了解决门禁系统采集到人脸图像或者语音数据之后，需要统一发给中心云端进行处理和计算，由中心云端根据处理结果决定是否解锁门禁。一方面，大量的原始数据在传输到中心云端过程中对于网络带宽与存储容量造成负担，当网络延迟或者网络不稳定时，门禁解锁会发生延迟，难以及时解锁，同时，在数据在传输过程中还可能被盗取，存在安全隐患的技术问题，本发明提供一种基于物联网的语音结合人脸识别的门禁系统。

本发明提供了一种基于物联网的语音结合人脸识别的门禁系统，所述门禁系统作为边缘端与中心云端进行通信连接，多个所述边缘端与所述中心云端组成物联网，所述门禁系统包括：

获取模块，用于获取待验证人员的人脸图像；

提取模块，用于提取所述待验证人员的图像特征；

获取模块，还用于获取所述待验证人员的语音数据；

提取模块，还用于提取所述待验证人员的声纹特征；

归一化模块，用于对所述图像特征与所述声纹特征进行归一化处理；

融合模块，用于对归一化处理后的图像特征与声纹特征进行特征融合，得到融合特征；

验证模块，用于根据所述融合特征，通过卷积神经网络，对所述待验证人员的身份进行验证，得到身份可信度；

当所述身份可信度小于第一预设可信度时，拒绝解锁门禁；

当所述身份可信度介于所述第一预设可信度与第二预设可信度之间时，通过所述中心云端向管理端发送解锁请求，以根据所述管理端的指令决定是否解锁门禁；

当所述身份可信度大于所述第二预设可信度时，直接解锁门禁，同时向所述中心云端发送访客记录。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，在边缘端(门禁系统自身)中独立地进行身份验证，在采集人脸图像或者语音数据之后无需统一发给中心云端进行处理和计算，避免大量的原始数据在传输到中心云端过程中对于网络带宽与存储容量造成负担，保证解锁的及时性，同时，避免数据在传输过程中还可能被盗取，降低安全隐患。

(2)在本发明中，对于从人脸图像提取的图像特征以及从语音数据提取的声纹特征进行特征融合，之后根据多模态融合的特征，通过卷积神经网络，对所述待验证人员的身份进行验证，提升身份验证的准确性。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明提供的一种基于物联网的语音结合人脸识别的门禁系统的结构示意图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本文中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接。可以是机械连接，也可以是电连接。可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

另外，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在一个实施例中，参考说明书附图1，示出了本发明提供的一种基于物联网的语音结合人脸识别的门禁系统的结构示意图。

本发明提供的一种基于物联网的语音结合人脸识别的门禁系统10，门禁系统10作为边缘端与中心云端20进行通信连接，多个边缘端与中心云端20组成物联网。

需要说明的是，边缘端与中心云端的组合是经典的物联网架构，边缘端和中心云端通常是协同工作的。边缘端用于快速的本地数据处理和实时响应，减少数据传输和降低延迟，而中心云端用于更复杂的数据分析和长期存储，以及支持大规模应用。这种分布式计算架构允许物联网应用在不同的数据处理层次中平衡效率和性能。

门禁系统10包括：

获取模块101，用于获取待验证人员的人脸图像。

具体而言，可以通过摄像头获取待验证人员的人脸图像。

提取模块102，用于提取待验证人员的图像特征。

具体而言，可以通过Haar级联检测器、深度学习的卷积神经网络CNN来提取待验证人员的图像特征。

获取模块101，还用于获取待验证人员的语音数据。

具体而言，可以通过麦克风等录音设备获取待验证人员的人脸图像。

提取模块102，还用于提取待验证人员的声纹特征。

具体而言，可以提取短时能量、短时过零率、梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等声纹特征。

归一化模块103，用于对图像特征与声纹特征进行归一化处理。

其中，归一化处理是一种数据预处理技术，用于将数据调整为特定范围或分布，以便于机器学习、数据分析或其他数据处理任务。归一化的目标是消除数据中的尺度差异，确保不同特征或数据点之间具有可比性，从而提高模型的性能和稳定性。

融合模块104，用于对归一化处理后的图像特征与声纹特征进行特征融合，得到融合特征。

具体而言，可以采用直接拼接、加权拼接等方式进行特征融合。

验证模块105，用于根据融合特征，通过卷积神经网络，对待验证人员的身份进行验证，得到身份可信度。

其中，卷积神经网络(Convolutional Neural Network，CNN)是一种深度学习神经网络，专门设计用于处理和分析具有网格结构的数据，如图像和视频。

当身份可信度小于第一预设可信度时，拒绝解锁门禁。

当身份可信度介于第一预设可信度与第二预设可信度之间时，通过中心云端20向管理端30发送解锁请求，以根据管理端30的指令决定是否解锁门禁。

当身份可信度大于第二预设可信度时，直接解锁门禁，同时向中心云端20发送访客记录。

其中，本领域技术人员可以根据实际情况设置第一预设可信度与第二预设可信度的大小，本发明不做限定。

在本发明中，设定不同的身份可信度阈值可以根据不同的信任级别对待验证人员的身份进行更精细的控制。当身份可信度很低时，系统会拒绝解锁门禁，以减少未经授权的访问和欺骗的可能性，从而提高门禁系统的安全性。系统向管理端发送解锁请求。这允许管理员在需要时手动干预，以便根据具体情况和策略决定是否解锁门禁。这在特殊情况下或不确定情况下非常有用，例如系统无法自动做出决策时。当身份可信度较高时，系统可以直接解锁门禁并记录访客信息，这有助于建立详细的访客记录和审计轨迹。这对于后续的检查、审计和事件追踪非常重要，有助于维护系统的透明性和安全性。

与现有技术相比，本发明至少具有以下有益技术效果：

(1)在本发明中，在边缘端(门禁系统10自身)中独立地进行身份验证，在采集人脸图像或者语音数据之后无需统一发给中心云端20进行处理和计算，避免大量的原始数据在传输到中心云端20过程中对于网络带宽与存储容量造成负担，保证解锁的及时性，同时，避免数据在传输过程中还可能被盗取，降低安全隐患。

(2)在本发明中，对于从人脸图像提取的图像特征以及从语音数据提取的声纹特征进行特征融合，之后根据多模态融合的特征，通过卷积神经网络，对待验证人员的身份进行验证，提升身份验证的准确性。

在一种可能的实施方式中，提取模块102具体用于：

将人脸图像均分为K个图像区域。

其中，本领域技术人员可以根据实际情况设置图像区域分割数目K的大小，本发明不做限定。

需要说明的是，人脸识别的主要特征的划分依赖与五官的分布，人脸图像中的不同图像区域的纹理变化是不同，导致人脸图像中的不同图像区域对于人脸识别的影响程度是不同的。

构建各个图像区域的灰度直方图。

其中，灰度直方图(Gray Level Histogram)是图像处理中的一个常见工具，用于分析图像中像素灰度级别的分布情况。灰度直方图是一个表示不同灰度级别在图像中出现频率的图表，它显示了每个灰度级别的像素数目。通常，灰度级别从0(纯黑色)到255(纯白色)，这个范围通常用8位来表示。

根据灰度直方图，提取各个图像区域的图像特征，图像特征包括：对比度、逆方差、熵值、能量值和灰度平均值。

根据各个图像区域的逆方差，计算各个图像区域的权重系数：

其中，α_i表示第i图像区域的权重系数，H_i表示第i个图像区域的逆方差，i＝1，2，…，K，K表示图像区域的总数。

需要说明的是，逆方差能够反映图像纹理的同质性，度量图像纹理局部变化的多少。逆方差的值越小，则表示该区域图像的纹理变化丰富，逆方差的值越大，则说明该区域的图像纹理缺少变化，分布比较均匀。因此，可以依据逆方差来确定各个图像区域的权重系数，衡量各个图像区域对于人脸识别的贡献度，可以更好地突出具有区分度的局部特征，从而增强了人脸识别的性能。

根据每个图像区域的权重系数，计算人脸图像的图像特征向量：

B＝{b₁，b₂，…，b_m}

其中，B表示人脸图像的图像特征向量，b_j表示人脸图像的第j个图像特征，α_i表示第i图像区域的权重系数，b_ij表示第i个图图像区域的第j个图像特征值，i＝1，2，…，K，K表示图像区域的总数，j＝1，2，…，m，m表示图像特征的总数。

在本发明中，在提取整个人脸图像的图像特征向量的过程中，首先将整个人脸图像划分为多个图像区域，之后根据各个图像区域的权重系数对各个区域提取的图像特征进行加权求和，可以更准确地捕捉到不同区域的细节信息，提升整个人脸图像的图像特征向量的准确性，进而提高人脸识别的准确性。

在一种可能的实施方式中，对比度的计算方式为：

其中，con表示对比度，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率。

在一种可能的实施方式中，逆方差H的计算方式为：

其中，H表示逆方差，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率。

在一种可能的实施方式中，熵值的计算方式为：

其中，Ent表示熵值，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率。

在一种可能的实施方式中，能量值的计算方式为：

其中，Energy表示能量值，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率。

在一种可能的实施方式中，灰度平均值的计算方式为：

其中，mean表示灰度平均值，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率。

在一种可能的实施方式中，提取模块102具体用于：

提取语音数据中的语音段。

其中，一个语音数据中包括语音段与静音段，在进行声纹识别时，应当尽量去除掉静音段，仅对语音段进行声纹识别，可以提升声纹识别的准确性。

对语音段的频谱数据进行快速傅里叶变换，得到功率谱数据。

快速傅里叶变换(Fast Fourier Transform，FFT)是一种计算傅里叶变换的算法，用于将一个信号从时域转换为频域。

通过Mel滤波器对功率谱数据进行滤波，输出功率谱数据的对数能量E_m：

其中，N表示总频率，X(k)表示频率为k时的输入信号值，H_m(k)表示滤波器的频率响应。

其中，Mel滤波器是一种用于音频信号处理和语音处理的滤波器，主要用于声音特征提取，尤其是在声纹特征分析中广泛使用。Mel滤波器通常用于将声音信号从线性频谱域转换为Mel频谱域，以更好地模拟人类听觉系统的感知特性。

其中，对数能量(Log Energy)是一种声纹特征，通常用于语音处理和语音识别中，用于测量和表示语音信号在不同时间段内的能量水平。

其中，H_m(k)的表示式为：

其中，k表示线性频率轴上的频率，m表示滤波器的索引值，τ(m)表示第m个频带的频率。

需要说明的是，将功率谱数据转换为对数能量(log energy)可以提供一种更具有稳定性、与人耳感知更加一致以及更具鲁棒性的声纹特征表示。

对对数能量E_m进行离散余弦变换，得到MFCC系数：

其中，C_i表示第i个MFCC系数，m表示滤波器的索引值，M表示滤波器的数量。

对MFCC系数进行动态参数提取，得到语音数据的声纹特征向量：

D＝{d₁，d₂，…，d_n}

其中，D表示语音数据的声纹特征向量，d_i表示第i个声纹特征，i＝1，2，…，n，n表示声纹特征的总数，Q表示MFCC系数的阶数，T表示一阶导数的时间差，j表示一阶导数的时间差T的具体取值，j为1或2。

其中，通过计算一阶差分或更高阶差分，可以捕捉到特征在时间上的变化，提供了关于音素边界和语音运动的有用信息。

需要说明的是，通过对MFCC系数进行动态参数提取，可以获得更具有表达能力和鲁棒性的声纹特征表示，提高声纹识别的性能。动态参数提取是语音信号处理中常用的技术，常用的方法包括一阶差分、二阶差分和加速度等。

在一种可能的实施方式中，本发明提出了一种全新的语音段提取方法，提取模块102具体用于：

计算语音数据的短时过零率和短时能量。

其中，短时过零率表示在短时段内，信号的波形穿越零幅度的次数。

其中，短时能量表示在短时段内，信号的能量水平，用于测量信号的强度或能量。

需要说明的是，短时过零率反映信号在相邻时间窗口内经过零点的次数。语音段通常具有更高的过零率，因为声带振动会产生频繁的振荡，而静音段的信号变化较小，过零率较低。另外，语音段通常具有更高的瞬时能量，因为声音包含能量较高的频率分量，而静音段的能量较低。短时过零率和短时能量在语音信号的时域分析中提供了有用的线索，用于识别语音段的起点和终点。

根据短时过零率和短时能量，计算有声参数：

σ_i＝λZ_i+(1-λ)E_i

其中，σ_i表示第i帧语音信号的有声参数，Z_i表示第i帧语音信号的短时过零率，E_i表示第i帧语音信号的短时能量，λ表示短时过零率的权重系数。

其中，本领域技术人员可以根据实际情况设置短时过零率的权重系数λ的大小，本发明不做限定。

将有声参数值小于预设参数值的信号帧作为语音段的起点与终点，对语音数据中的语音段与静音段进行分割。

其中，本领域技术人员可以根据实际情况设置预设参数值的大小，本发明不做限定。

保留语音段，去除静音段。

在本发明中，综合短时过零率和短时能量计算有声参数，然后根据有声参数对语音信号进行分割，以提取出语音段并去除静音段，有助于提升语音段分割的准确性，提高语音活动检测的准确性，减小数据量，提高处理效率，降低计算成本，并提高语音识别等应用的性能。

在一种可能的实施方式中，短时过零率的计算方式为：

其中，Z_i表示第i帧语音信号的短时过零率，sgn()表示符号函数，x_i，j表示第i帧语音信号中第j个语音单元的的振幅，x_i，j-1表示第i帧语音信号中第j-1个语音单元的的振幅，j＝1，2，…，N_i，N_i表示第i帧语音信号中含有的语音单元的总数。

在一种可能的实施方式中，短时能量的计算方式为：

其中，E_i表示第i帧语音信号的短时能量，x_i，j表示第i帧语音信号中第j个语音单元的的振幅，j＝1，2，…，N_i，N_i表示第i帧语音信号中含有的语音单元的总数。

在一种可能的实施方式中，归一化模块103具体用于：

根据以下公式对图像特征与声纹特征进行归一化处理：

其中，x*表示归一化处理后的特征值，x表示归一化处理前的特征值，x_max表示特征值中的最大值，x_min表示特征值中的最小值。

在本发明中，将图像特征和声纹特征进行归一化处理的好处在于使它们在数值范围上具有一致性，通常是将它们映射到相似的尺度或范围内，有助于后续的特征融合。

在一种可能的实施方式中，融合模块104具体用于：

将m个归一化后的图像特征和n个归一化后的声纹特征，进行拼接，得到拼接特征向量：

X₀＝{x₁，…，x_m，x_m+1，…，x_m+n}

其中，X₀表示拼接特征向量，x₁，…，x_m分别表示m个归一化后的图像特征，x_m+1，…，x_m+n分别表示n个归一化后的声纹特征。

结合图像特征以及声纹特征的权重系数，得到融合特征向量：

X＝{β₁x₁，…，β_mx_m，β_m+1x_m+1，…，β_m+nx_m+n}

其中，X表示融合特征向量，β₁，…，β_m分别表示m个图像特征各自的权重系数，β_m+1，…，β_m+n分别表示n个声纹特征各自的权重系数。

其中，本领域技术人员可以根据实际情况设置各个特征权重的大小，本发明不做限定。

在本发明中，将不同类型的特征(图像特征和声纹特征)融合在一起可以提供更全面的信息，从而增强了身份验证系统的性能。并且使用权重系数可以控制不同特征对最终身份验证的贡献程度，允许根据应用的需求对特征进行动态调整，以获得最佳的性能。

以人脸识别准确率最高为目标，通过遗传算法，确定m个图像特征各自的权重系数β₁，…，β_m、n个声纹特征各自的权重系数β_m+1，…，β_m+n和图像区域分割数目K的最优解。

在本发明中，遗传算法可以搜索潜在的参数组合，以找到最大化人脸识别准确性的最佳解。通过调整权重系数和图像区域分割数目，系统可以优化识别性能。通过遗传算法，可以根据实际需求来调整权重系数和分割数目，以适应不同的应用场景。这使得系统更具灵活性，可以根据需求进行自定义配置。

在一种可能的实施方式中，本发明提出了一种全新的遗传算法，融合模块104具体用于：

初始化种群，初始种群Q₁中每个个体均代表一种可行解，可行解为m+n+1维向量，可行解表示为(β₁，…，β_m，β_m+1，…，β_m+n，K)。

计算初始种群Q₁中每个个体的适应度值：

其中，δ_i表示第i个个体的适应度值，η_i表示第i个个体的人脸识别准确率，k表示放缩参数，i＝1，2，…，n，n表示可行解的总数。

根据每个个体的适应度值，确定每个个体被选择的概率：

其中，p_i表示第i个个体被选择的概率。

按照每个个体被选择的概率，随机挑选个体予以保留，形成种群Q₂。

在本发明中，采用概率性的选择策略，随机挑选个体予以保留，形成新的种群，选择过程倾向于保留那些性能更好的个体，因为它们有更高的概率被选择，有助于引导算法向更优解的方向演化。同时，允许较差的个体有一定的概率被选择，这有助于维持种群中的多样性，允许更广泛的搜索，以保证算法不会过早收敛到局部最优解，最终找到更好的解决方案。

对种群Q₂进行交叉操作，从种群H₂中随机选择两个个体分别作为父体和母体，生成一个随机数，并将该随机数与交叉概率p_e比较大小，若随机数小于交叉概率p_e，则对父体和母体进行交叉操作产生新个体，以形成新的种群Q₃，新个体的产生方式如下：

z₁＝rand×y₁+(1-rand)×y₂

z₂＝rand×y₂+(1-rand)×y₁

其中，z₁、z₂表示新个体，y₁表示父体，y₂表示母体，rand表示0至1之间的随机数。

在本发明中，交叉操作引入了不同个体之间的遗传多样性，允许不同特征和结构的个体合并，产生新的组合。这可以提高搜索算法的多样性，有助于发现不同区域的解。通过不同的交叉操作，可以覆盖解空间的不同区域，从而提高找到全局最优解的机会。

对种群Q₃进行变异操作，从种群Q₃中随机选择一个个体作为父体，生成一个随机数，并将该随机数与变异概率p_m比较大小，若随机数小于变异概率p_m，则对父体进行变异操作产生新个体，以形成新的种群Q₄，新个体的产生方式如下：

其中，z₃表示新个体，y₃表示父体，y_max表示个体中的最大值，y_min个体中的最小值，rand表示0至1之间的随机数。

在本发明中，变异操作引入了新的多样性，通过微小的、随机的改变，有助于种群中的遗传多样性的维护。变异操作有助于在个体水平上对解决方案进行微调。即使已经找到了一个相对好的解决方案，变异操作也可以对其进行微小改进，进一步提高适应度。

重复上述步骤，进行迭代，直到达到预设迭代次数，输出适应度值最大的解作为最优解。

在本发明中，通过全新的遗传算法，利用遗传算法的全局搜索和自适应性特点，通过多次迭代和不断改进，有望找到适应度值最大的解，从而提高了身份验证的准确率。

在一种可能的实施方式中，卷积神经网络包括：输入层、卷积层、池化层、分类层和输出层，验证模块105具体用于：

将融合特征输入至输入层。

在卷积层中，对来自上一层的特征映射与卷积核进行卷积运算：

其中，表示第l层中第i个神经元的输出值，/>表示第l-1层中第i个神经元的输出值，/>表示第l层中第i个神经元的卷积核的权重，/>表示第l层中第i个神经元的偏置项，M_i表示最大神经元个数，f()表示激活函数。

在池化层中，对输入的特征映射进行下采样操作，进行池化处理：

其中，down表示下采样函数，表示第l层的池化层中第i个神经元的输出值，/>表示第l-1层中第i个神经元的输出值。

在分类层中，根据池化层的输出值，对待验证人员的身份进行验证，得到身份可信度：

其中，ρ表示分类层输出值，ρ也表示身份可信度，y表示池化层输出值，e表示自然对数。

在本发明中，通过卷积神经网络对待验证人员的身份进行验证，可以提升身份可信度计算的可信度，进而再根据身份可信度决定是否解锁门禁，提升了安全性。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述门禁系统作为边缘端与中心云端进行通信连接，多个所述边缘端与所述中心云端组成物联网，所述门禁系统包括：

获取模块，用于获取待验证人员的人脸图像；

提取模块，用于提取所述待验证人员的图像特征；

获取模块，还用于获取所述待验证人员的语音数据；

提取模块，还用于提取所述待验证人员的声纹特征；

当所述身份可信度小于第一预设可信度时，拒绝解锁门禁；

2.根据权利要求1所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述提取模块具体用于：

将所述人脸图像均分为K个图像区域；

构建各个图像区域的灰度直方图；

根据所述灰度直方图，提取各个图像区域的图像特征，所述图像特征包括：对比度、逆方差、熵值、能量值和灰度平均值；

其中，α_i表示第i图像区域的权重系数，H_i表示第i个图像区域的逆方差，i＝1，2，…，K，K表示图像区域的总数；

根据每个图像区域的权重系数，计算所述人脸图像的图像特征向量：

B＝{b₁，b₂，…，b_m}

3.根据权利要求2所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述对比度的计算方式为：

其中，con表示对比度，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率；

所述逆方差H的计算方式为：

其中，H表示逆方差，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率；

所述熵值的计算方式为：

其中，Ent表示熵值，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率；

所述能量值的计算方式为：

其中，Energy表示能量值，g表示灰度值，G表示灰度值g的取值范围，P(g)表示灰度值g在灰度直方图中的取值概率；

所述灰度平均值的计算方式为：

其中，mean表示灰度平均值，g表示灰度值，G表示灰度值g的取值范围，玳g)表示灰度值g在灰度直方图中的取值概率。

4.根据权利要求3所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述提取模块具体用于：

提取所述语音数据中的语音段；

对所述语音段的频谱数据进行快速傅里叶变换，得到功率谱数据；

通过Mel滤波器对所述功率谱数据进行滤波，输出所述功率谱数据的对数能量E_m：

其中，N表示总频率，X(k)表示频率为k时的输入信号值，H_m(k)表示滤波器的频率响应；

其中，H_m(k)的表示式为：

其中，k表示线性频率轴上的频率，m表示滤波器的索引值，τ(m)表示第m个频带的频率；

对所述对数能量E_m进行离散余弦变换，得到MFCC系数：

其中，C_i表示第i个MFCC系数，m表示滤波器的索引值，M表示滤波器的数量；

对所述MFCC系数进行动态参数提取，得到所述语音数据的声纹特征向量：

D＝{d₁，d₂，…，d_n}

5.根据权利要求4所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述提取模块具体用于：

计算所述语音数据的短时过零率和短时能量；

根据所述短时过零率和所述短时能量，计算有声参数：

σ_i＝λZ_i+(1-λ)E_i

其中，σ_i表示第i帧语音信号的有声参数，Z_i表示第i帧语音信号的短时过零率，E_i表示第i帧语音信号的短时能量，λ表示短时过零率的权重系数；

将所述有声参数值小于预设参数值的信号帧作为语音段的起点与终点，对所述语音数据中的语音段与静音段进行分割；

保留所述语音段，去除所述静音段。

6.根据权利要求5所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述短时过零率的计算方式为：

其中，Z_i表示第i帧语音信号的短时过零率，sgn()表示符号函数，x_i，j表示第i帧语音信号中第j个语音单元的的振幅，x_i，j-1表示第i帧语音信号中第j-1个语音单元的的振幅，j＝1，2，…，N_i，N_i表示第i帧语音信号中含有的语音单元的总数；

所述短时能量的计算方式为：

7.根据权利要求6所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述归一化模块具体用于：

根据以下公式对所述图像特征与所述声纹特征进行归一化处理：

8.根据权利要求7所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述融合模块具体用于：

X₀＝{x₁，…，x_m，x_m+1，…，x_m+n}

其中，X₀表示拼接特征向量，x₁，…，x_m分别表示m个归一化后的图像特征，x_m+1，…，x_m+n分别表示n个归一化后的声纹特征；

X＝{β₁x₁，…，β_mx_m，β_m+1x_m+1，…，β_m+nx_m+n}

其中，X表示融合特征向量，β₁，…，β_m分别表示m个图像特征各自的权重系数，β_m+1，…，β_m+n分别表示n个声纹特征各自的权重系数；

9.根据权利要求8所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述融合模块具体用于：

初始化种群，初始种群Q₁中每个个体均代表一种可行解，可行解为m+n+1维向量，可行解表示为(β₁，…，β_m，β_m+1，…，β_m+n，K)；

计算初始种群Q₁中每个个体的适应度值：

其中，δ_i表示第i个个体的适应度值，η_i表示第i个个体的人脸识别准确率，k表示放缩参数，i＝1，2，…，n，n表示可行解的总数；

根据每个个体的适应度值，确定每个个体被选择的概率：

其中，p_i表示第i个个体被选择的概率；

按照每个个体被选择的概率，随机挑选个体予以保留，形成种群Q₂；

z₁＝rand×y₁+(1-rand)×y₂

z₂＝rand×y₂+(1-rand)×y₁

其中，z₁、z₂表示新个体，y₁表示父体，y₂表示母体，rand表示0至1之间的随机数；

其中，z₃表示新个体，y₃表示父体，y_max表示个体中的最大值，y_min个体中的最小值，rand表示0至1之间的随机数；

10.根据权利要求9所述的基于物联网的语音结合人脸识别的门禁系统，其特征在于，所述卷积神经网络包括：输入层、卷积层、池化层、分类层和输出层，所述验证模块具体用于：

将融合特征输入至所述输入层；

在所述卷积层中，对来自上一层的特征映射与卷积核进行卷积运算：

其中，表示第l层中第i个神经元的输出值，/>表示第l-1层中第i个神经元的输出值，/>表示第l层中第i个神经元的卷积核的权重，/>表示第l层中第i个神经元的偏置项，M_i表示最大神经元个数，f()表示激活函数；

在所述池化层中，对输入的特征映射进行下采样操作，进行池化处理：

其中，down表示下采样函数，表示第l层的池化层中第i个神经元的输出值，/>表示第l-1层中第i个神经元的输出值；

在所述分类层中，根据池化层的输出值，对所述待验证人员的身份进行验证，得到身份可信度：