CN114445954B

CN114445954B - 一种带有声音和面部双重识别的门禁装置

Info

Publication number: CN114445954B
Application number: CN202210363845.1A
Authority: CN
Inventors: 官红英
Original assignee: Shenzhen Runjingyuan Information Technology Co ltd
Current assignee: Fuying Technology Shenzhen Co ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-06-21
Anticipated expiration: 2042-04-08
Also published as: CN114445954A

Abstract

本发明公开一种带有声音和面部双重识别的门禁装置，包括壳体，所述壳体一侧设置有电源接口和开关按键，所述壳体上侧设置有补光灯、光线传感器、摄像头、人体感应器、防护凸条、显示屏和收音孔，其中所述显示屏设置于壳体上侧中部，所述显示屏下侧设置有收音孔，所述显示屏两侧设置有防护凸条，所述显示屏上侧中部设置有摄像头，所述摄像头左侧依次设置有人体感应器和补光灯，所述摄像头右侧依次设置光线传感器和补光灯，所述壳体内部设置电池、无线模块、主控板和语音输入器，其中所述语音输入器设置于壳体内部下端，所述电池设置在所述语音输入器上方，并且所述电池上方左侧设置主控板。本发明能够实现声音和面部双重识别，提高了识别能力。

Description

一种带有声音和面部双重识别的门禁装置

技术领域

本发明涉及门禁技术领域，且更具体地涉及一种带有声音和面部双重识别的门禁装置。

背景技术

随着社会经济的高速发展，人们开始追求安全便捷的工作生活环境，智能设备随之迅速发展，门禁装置作为智能设备中的重要单元越来越得到重视。门禁装置是新型现代安全管理装置，它集微机自动识别技术和现代安全管理措施为一体，它涉及电子，机械，光学，计算机技术，通讯技术，生物技术等诸多新技术。它是解决出入口实现安全防范管理的有效措施。适用于各种场所，如银行、宾馆、机房、办公间、小区、工厂等，常见的门禁装置按识别方式可分为密码识别、非接触卡片识别、语音识别、指纹识别和面部识别等。

传统门禁装置一般只设置有一种识别方式，使得在一些情况下，如戴口罩时、手中拿满东西时等，单独的识别方式受到限制，无法很好的承担识别工作。这就需要一种兼容声音和面部数据信息识别的门禁装置。

发明内容

针对上述技术的不足，本发明公开一种带有声音和面部双重识别的门禁装置，能够实现声音和面部双重识别，提高了识别能力。

一种带有声音和面部双重识别的门禁装置，包括壳体，所述壳体一侧设置有电源接口和开关按键，所述壳体上侧设置有补光灯、光线传感器、摄像头、人体感应器、防护凸条、显示屏和收音孔，其中所述显示屏设置于壳体上侧中部，所述显示屏下侧设置有收音孔，所述显示屏两侧设置有防护凸条，所述显示屏上侧中部设置有摄像头，所述摄像头左侧依次设置有人体感应器和补光灯，所述摄像头右侧依次设置光线传感器和补光灯，所述壳体内部设置电池、无线模块、主控板和语音输入器，其中所述语音输入器设置于壳体内部下端，所述电池设置在所述语音输入器上方，并且所述电池上方左侧设置主控板，所述电池上方右侧设置有无线模块，其中所述电池与电源接口连接；其中所述主控板设置有主控模块，所述主控模块分别与光线传感器、开关按键、显示屏、摄像头、补光灯、人体感应器、电源接口、电池、无线模块和语音输入器控制连接。

作为本发明进一步的技术方案，所述补光灯为LED补光灯。

作为本发明进一步的技术方案，所述防护凸条突出壳体之外4mm-7mm之间。

作为本发明进一步的技术方案，所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片。

作为本发明进一步的技术方案，所述语音输入器为能够实现计算机算法模型的TMS320VC5402语音处理模块，其中所述语音输入器还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块，其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接，所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接，所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接，所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接。

作为本发明进一步的技术方案，所述语音输入器中的计算机算法模型为YOLO-V4算法模型，并且所述语音输入器实现语音的方法包括以下步骤：

步骤1、通过音频采集接口向语音流输入模块输入语音数据信息；

在本步骤中，通过设置多个音频采集接口实现语音输入器对声音信号的多数据通道采集，以提高数据采集能力；

步骤2、通过语音信息过滤模块对语音数据信息杂波进行过滤；

在本步骤中，通过语音信息过滤模块实现输入语音数据信息特征的初始化处理，实现语音信息的整个音频数据信息检测，主要包括静音检测、过渡段检测、语音段检测和语音结束检测；并且能够通过消除噪声和信道失真实现语音信息增强，将语音信号从时域转化到频域；

步骤3、对输入的语音数据信息进行信息特征提取，识别输入的语音数据信息；

在本步骤中，对语音数据信息提取时，通过对语音信号进行采样、反混叠滤波、语音增强和语音截取的方式实现特征信息提取，从语音信号波形中提取一组或几组描述语音信号特征的语音数据信息参数；

识别输入的语音数据信息包括语音信息匹配模块法实现不同语音信息的识别，语音信息匹配模块通过训练语料学习词与词之间的相互关系，来估计假设词序列的语言模型分数，即存在这种语音数据信息的参数，在构建的构建参考模式库内，实现语音特征参数和语音信息匹配，当时采集到的语音识别模块与数据库内的数据信息匹配时，在实现语音数据信息识别，当采集到的语音识别模块不与数据库内的数据信息匹配时，则未实现语音数据信息识别；

步骤4、通过计算机算法模型对输入的语音数据信息进行评估；所述计算机算法模型为YOLO-V4算法模型，具体方法为：

建出YOLO-V4算法模型，通过人工智能的方法实现不同声音信息的评估与分析；YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head，在实现多语音数据信息尺度预测时，采用3个不同的尺度特征模块进行预测，时频数据信息大小为原分辨率得1/32，剩余2个尺度分别为1/16，1/8，预测方法为检测框、目标评价、类别预测三种信息编码，检测框设置6个参数，目标评价设置2个参数，类别数位设置100，声音预测输出张量维度分别设置为y₁=13*13*255，y₂=26*26*255，y₃=52*52*255；

其中语音数据信息评估算法代码如下所示：

在分析过程中，分类器采用的是YOLO Head 分类器；并且所述YOLO Head 分类器YOLO Head 的数量为6个。

步骤5、将识别后的语音数据信息通过语音存储模块实现存储；

步骤6、通过语音输出模块实现数据信息的输出；

在本发明中，所述人体感应器为基于用户面部识别的感应模块，并且所述人体感应器包括主控MCU模块和分别与其连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。

作为本发明进一步的技术方案，所述人体感应器实现人脸识别的方法为：

（1）通过人脸识别单元获取用户数据信息，将采集到的人脸图像通过低通滤波器滤除无用数据信息，并对人脸图像进行切片处理，从而得到一系列尺寸变化的图像；

（2）将人脸匹配模块与原始模板进行图像进行对比，将人脸匹配模块的数据信息与其内设置的3倍率图像进行匹配，将综合部件模板与特征的匹配程度和最佳位置实现最终偏离，得到最佳的匹配结果，计算公式为：

（1）

（2）

在公式（1）-（2）中，其中

是人脸识别单元识别用户数据信息时获取的坐标点，其中

表示尺度层，S表示匹配度，

是待监测的人脸识别图像数据信息，J是不同部分模板与3倍率图像匹配度，

代表一个随机部分模板；E表示随机部分模板函数，

表示随机部分系数，b表示图像匹配度常数；

随机部分模板运行速度；

表示第

个随机部分模板运行速度；

（3）通过人脸匹配模块实现数据信息响应变换，其中人脸匹配模块匹配的公式为：

（3）

在公式（3）中，其中

表示人脸识别时，用户的实际位置与测量位置之间的偏离位置，

表示人脸识别过程第

个部分模板在尺度层

的最佳偏离位置；其中

代表相对于第

个部分模板的偏移量，公式（3）表示人脸识别待检测图像

在

偏移量处的匹配得分，则根据公式（3）可以输出人脸识别的评估结果；

表示人脸识别时，用户的实际位置与测量位置之间偏离位置的偏差参数；

表示人脸识别时, 第

个部分模板的偏移量和实际值存在的差别，

表示偏移量影响量；

（4）输出人脸识别数据信息。

积极有益效果

本发明能够实现声音和面部双重识别，自动化程度高，大大提高了门禁应用能力。进行面部识别的同时通过语音输入器采集被识别人员语音，以进行语音识别，实现声音和面部的双重识别，当双重识别中有一种方式通过时门禁装置发出开门指令。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明的立体图结构示意图；

图2为本发明的主视图的结构示意图；

图3为本发明的俯视图的结构示意图；

图4为本发明的左视图的结构示意图；

图5为本发明主控单元原理示意图；

图6为本发明语音识别模块原理示意图；

图7为本发明语音识别模块识别方法示意图；

图8为发明YOLO-V4算法模型；

图9为人体感应器原理示意图；

附图标识：

1-壳体；2-补光灯；3-光线传感器；4-摄像头；5-人体感应器；6-防护凸条；7-显示屏；8-电源接口；9-电池；10-无线模块；11-主控板；12-语音输入器；13-收音孔；14-开关按键。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1-图4所示，一种带有声音和面部双重识别的门禁装置，包括壳体1，所述壳体1一侧设置有电源接口8和开关按键14，所述壳体1上侧设置有补光灯2、光线传感器3、摄像头4、人体感应器5、防护凸条6、显示屏7和收音孔13，其中所述显示屏7设置于壳体1上侧中部，所述显示屏7下侧设置有收音孔13，所述显示屏两侧设置有防护凸条6，所述显示屏7上侧中部设置有摄像头4，所述摄像头4左侧依次设置有人体感应器5和补光灯2，所述摄像头4右侧依次设置光线传感器3和补光灯2，所述壳体1内部设置电池9、无线模块10、主控板11和语音输入器12，其中所述语音输入器12设置于壳体内部下端，所述电池9设置在所述语音输入器12上方，并且所述电池9上方左侧设置主控板11，所述电池9上方右侧设置有无线模块10，其中所述电池9与电源接口8连接；其中所述主控板11设置有主控模块，所述主控模块分别与光线传感器3、开关按键、显示屏、摄像头4、补光灯2、人体感应器5、电源接口8、电池9、无线模块10和语音输入器12控制连接。

在本发明中，所述补光灯2为LED补光灯。

在本发明中，所述防护凸条6突出壳体1之外4mm-7mm之间。

在具体实施例中，通过这种方式设置能够避免防护凸条6被外界卡住。

在具体实施例中，所述补光灯2设置于摄像头4两侧，使得人们在进行人脸识别时该范围可被充分照亮，从而提高面部识别速度；在具体实施例中，防护凸条6突出壳体1一定厚度，在大型物体与门禁装置发生碰撞时，可以起到一定间隔保护作用，从而避免门禁装置显示屏7表面被刮花。

本发明在工作时，通过开关按键14控制门禁装置的开关机，门禁装置开启后进入工作状态，通过人体感应器5判断门禁装置前方是否有人员，当门禁装置前方有人员出现时，通过光线传感器3判断是否需要开启补光灯2，同时，通过摄像头4工作进行画面摄取，以进行面部识别，并且通过显示屏7将摄像头4摄取内容显示；在进行面部识别的同时通过语音输入器12采集被识别人员语音，以进行语音识别，实现声音和面部的双重识别，当双重识别中有一种方式通过时门禁装置发出开门指令。

在本发明中，所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片。

在具体实施例中，如图5所示，主控模块的硬件部分采用S3C2440系列嵌入式S3C2440 ARM9型号芯片，在具体应用时间可以配备具有Web服务器的电脑、智能手机等，该芯片在具体工作时，采用 5V的电压，外部采用时钟频率为460.8kHz，数据输出含有19.2kHz式中的低有效载波检测信号，为无需外部调节和偏置，嵌入式处理器模块含有S3C2440微处理器、网络通信模块、存储、串口通信、电源、时钟等外围电路。在该系统的网络部分采用DM9000网卡芯片，具有自适应10/100M的PHY和4K DWORD值的SRAM，在功耗低的情况下，支持3.3V和5V的性能进程，并且还提供了介质五官接口，RJ-45接口，使用普通的网线就可以与该设备进行信息交互。

在本发明中，所述语音输入器12为能够实现计算机算法模型的TMS320VC5402语音处理模块，其中所述语音输入器12还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块，其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接，所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接，所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接，所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接。

在具体实施例中，该模块采用改进的哈佛结构，一条程序总线(PB)，三条数据总线(CB，DB，EB)和四条地址总线(PAB，CAB，DAB，EAB)，带有专用硬件逻辑CPU(40位算术逻辑单元(ALU)，包括1个40位桶形移位器和二个40位累加器；一个17×17乘法器和一个40位专用加法器，允许16位带或不带符号的乘法)，片内存储器(八个辅助寄存器及一个软件栈)，片内外专用的指令集，允许使用业界最先进的定点DSP C语言编译器。TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM，一个HPI(HostPortInteRFace)接口，二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort)，单周期指令执行时间10 ns，带有符合IEEE1149．1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC，它是一款集成ADC和DAC于一体的模拟接口电路，并且与DSP接口简单，性能高、功耗低，已成为当前语音处理的主流产品。16位数据结构，音频采样频率为2～22．05kHz，内含抗混叠滤波器和重构滤波器的模拟接口芯片，还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。在具体应用中，将TLC320AD50C与TMS320VC5402的硬件连接。

在本发明中，如图6-图7所示，所述语音输入器12 中的计算机算法模型为YOLO-V4算法模型，并且所述语音输入器12实现语音的方法包括以下步骤：

在本步骤中，通过设置多个音频采集接口实现语音输入器12对声音信号的多数据通道采集，以提高数据采集能力；

如图8所示，建出YOLO-V4算法模型，通过人工智能的方法实现不同声音信息的评估与分析；YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head，在实现多语音数据信息尺度预测时，采用3个不同的尺度特征模块进行预测，时频数据信息大小为原分辨率得1/32，剩余2个尺度分别为1/16，1/8，预测方法为检测框、目标评价、类别预测三种信息编码，检测框设置6个参数，目标评价设置2个参数，类别数位设置100，声音预测输出张量维度分别设置为y₁=13*13*255，y₂=26*26*255，y₃=52*52*255；

其中语音数据信息评估算法代码如下所示：

在上述算法代码中，通过输入时间、日期、次数、语音时长、频率、时阈、星期、月份等不同的数据信息实现待评估的语音数据信息评估。在评估时，分别将算法模型分为不同的大模块，比如头部、颈部等，通过这种方式实现分析数据信息的层次计算，在输入模型算法过程中，能够按一定的逻辑顺序实现数据局分析与计算。在分析过程中，分类器采用的是YOLO Head 分类器；并且所述YOLO Head 分类器YOLO Head 的数量为6个。

在上述实施例中，YOLO-V4算法模型能够对声音数据信息进行适当处理，对构成声音的主干网络、声音数据网络训练、在应用过程中采用的激活函数以及损失函数方面都比YOLO-V3算法模型得到最大程度的优化。

通过输入声音数据信息，对获取的数据信息进行卷积计算，必要时，在图中加入分类算法模型。在利用该算法进行评估时，相对于YOLO-V3算法模型，该模型通过增加CSPNet，将网络中的骨架网络由原来的Darknet-53变成了CSPDarknet-53。网络架构模型工作过程中，用户从声音数据集信息中获取故障数据集合，将YOLO-V4检测模型构建成数据网络模型，在该模型中加入聚类分析算法，则输出的网络结构可以为具有不同属性算法的声音数据模型。本发明采用9个聚类获得的先验框辅助坐标预测，并且9个不同尺度的anchorboxes评分为3组应用在3个不同的尺度特征图，即每个尺度特征图的单位网格利用anchorboxes预测3组信息。假设在获取的数据集合中有8952个声音数据信息，其中的数据信息包括声音故障信息和正常数据信息，在具体训练过程中需要对声音数据信息进行处理和精度识别。将YOLO-V4算法中数学含义以YOLO-V4网络结构的形式展现，在构建的网络结构中，其包括声音特征提取主网络、简并行过程（Simplified Parallel Process，SPP）模块、声音性能整合模块、聚类分类模块。

在本发明中，声音特征提取主网络采用的CSPDarknet53网络，该网络支撑的时阈大小608*608。该网络结构区别于常规技术中的YOLO-V3算法模型，能够输出四个或者四个以上的信息特征，能够提高声音目标的检索能力。

本发明采用的SPP模块具有四个以上的最大池化层，尺寸有1*1、6*6、9*9以及13*13，该算法还能够将不同池化的时阈信息进行不同程度的拼接，输出最佳池化特征时阈。

本发明采用的声音性能整合模块包含多个采样层、拼接层，采样层与拼接层错综布置，SPP模块采集到的数据信息被输送到错综布置的采样层与拼接层。最终将不同尺寸的时阈信息整理成相同规格的时阈信息，输出至聚类分类模块。

本发明中的聚类分类模块大于4，分类器采用的是YOLO Head 分类器，这些分类器通过级联的方式连接，能够提高分类的精度和能力。

本发明通过上述方法构建的YOLO-V4算法模型对接收到的声音数据信息集合进行信息训练，当训练输出的最佳权重文件输送至YOLO-V4算法，则构建出声音状态数据信息，为了提高训练数据的精度，在调整最佳权重文件时，可以通过不间断的迭代计算，使得声音状态评估达到最佳值。最终将分析后的声音数据信息输出，最终数据输出声音信息，数据信息以数据帧的方式出现。

步骤6、通过语音输出模块实现数据信息的输出；

在本发明中，如图8所示，所述人体感应器5为基于用户面部识别的感应模块，并且所述人体感应器5包括主控MCU模块和分别与其连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。

在本发明中，所述人体感应器5实现人脸识别的方法为：

（1）

（2）

在公式（1）-（2）中，其中

是人脸识别单元识别用户数据信息时获取的坐标点，其中

表示尺度层，S表示匹配度，

代表一个随机部分模板；E表示随机部分模板函数，

表示随机部分系数，b表示图像匹配度常数；

随机部分模板运行速度；

表示第

个随机部分模板运行速度；

（3）

在公式（3）中，其中

表示人脸识别过程第

个部分模板在尺度层

的最佳偏离位置；其中

代表相对于第

个部分模板的偏移量，公式（3）表示人脸识别待检测图像

在

表示人脸识别时, 第

个部分模板的偏移量和实际值存在的差别，

表示偏移量影响量；

（4）输出人脸识别数据信息。

综上所述，基于人的脸部特征，对输入的人脸图像或者视频流，首先判断其是否存在人脸，如果存在人脸，则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息，进一步提取每个人脸中所蕴涵的身份特征，并将其与已知的人脸进行对比，从而识别每个人脸的身份。

在进一步的实施例中，还可以采用特征脸方法实现人脸数据识别，利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术，该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基，以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时，看上去仍像人脸，所以这些特征向量被称为“特征脸”。

在进一步的实施例中，还可以从视频中提取特征，最后如果人脸存在则识别出人脸的身份。在视频监控、信息安全和出入控制等应用中，基于视频比基于静态图像更具优越性，因为 Bruce 等人和 Knight 等人已证明，当人脸被求反或倒转时，运动信息有助于（熟悉的）人脸的识别。虽然视频人脸识别是基于静态图像的人脸识别的直接扩展，但一般认为视频人脸识别算法需要同时用到空间和时间信息，这类方法直到近几年才开始受到重视并需要进一步的研究和发展。目前视频人脸识别还有很多困难和挑战，具体来说有以下几种：视频图像质量比较差：视频图像一般是在户外（或室内，但是采集条件比较差）获取的，通常没有用户的配合，所以视频人脸图像经常会有很大的光照和姿态变化。另外还可能会有遮挡和伪装。

通过上述实施例，能够快速实现人脸识别，本发明能够实现声音与面部的双重识别。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种带有声音和面部双重识别的门禁装置，包括壳体（1），所述壳体（1）一侧设置有电源接口（8）和开关按键（14），其特征在于：所述壳体（1）上侧设置有补光灯（2）、光线传感器（3）、摄像头（4）、人体感应器（5）、防护凸条（6）、显示屏（7）和收音孔（13），其中所述显示屏（7）设置于壳体（1）上侧中部，所述显示屏（7）下侧设置有收音孔（13），所述显示屏两侧设置有防护凸条（6），所述显示屏（7）上侧中部设置有摄像头（4），所述摄像头（4）左侧依次设置有人体感应器（5）和补光灯（2），所述摄像头（4）右侧依次设置光线传感器（3）和补光灯（2），所述壳体（1）内部设置电池（9）、无线模块（10）、主控板（11）和语音输入器（12），其中所述语音输入器（12）设置于壳体内部下端，所述电池（9）设置在所述语音输入器（12）上方，并且所述电池（9）上方左侧设置主控板（11），所述电池（9）上方右侧设置有无线模块（10），其中所述电池（9）与电源接口（8）连接；其中所述主控板（11）设置有主控模块，所述主控模块分别与光线传感器（3）、开关按键、显示屏、摄像头（4）、补光灯（2）、人体感应器（5）、电源接口（8）、电池（9）、无线模块（10）和语音输入器（12）控制连接；

所述补光灯（2）为LED补光灯；所述防护凸条（6）突出壳体（1）之外4mm-7mm之间；所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片；

所述语音输入器（12）为能够实现计算机算法模型的TMS320VC5402语音处理模块，其中所述语音输入器（12）还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块，其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接，所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接，所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接，所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接；

所述语音输入器（12）中的计算机算法模型为YOLO-V4算法模型；

所述语音输入器（12）实现语音的方法包括以下步骤：

在本步骤中，通过设置多个音频采集接口实现语音输入器（12）对声音信号的多数据通道采集，以提高数据采集能力；

建出YOLO-V4算法模型，通过人工智能方法实现不同声音信息的评估与分析；YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head，在实现多语音数据信息尺度预测时，采用3个不同的尺度特征模块进行预测，时频数据信息大小为原分辨率得1/32，剩余2个尺度分别为1/16，1/8，预测方法为检测框、目标评价、类别预测三种信息编码，检测框设置6个参数，目标评价设置2个参数，类别数位设置100，声音预测输出张量维度分别设置为y1=13*13*255，y2=26*26*255，y3=52*52*255；

步骤6、通过语音输出模块实现数据信息的输出。

2.根据权利要求1 所述的一种带有声音和面部双重识别的门禁装置，其特征在于：所述YOLO-V4算法模型采用的分类器是YOLO Head 分类器；并且所述YOLO Head 分类器YOLOHead 的数量为6个。

3.根据权利要求1所述的一种带有声音和面部双重识别的门禁装置，其特征在于：所述人体感应器（5）为基于用户面部识别的感应模块，并且所述人体感应器（5）包括主控MCU模块和分别与主控MCU模块连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。

4.根据权利要求3所述的一种带有声音和面部双重识别的门禁装置，其特征在于：所述人体感应器（5）实现人脸识别的方法为：

（2）将人脸匹配模块与原始模板进行图像进行对比，将人脸匹配模块的数据信息与所述人脸匹配模块内设置的3倍率图像进行匹配，将综合部件模板与特征的匹配程度和最佳位置实现最终偏离，得到最佳的匹配结果，计算公式为：