CN114445954B - 一种带有声音和面部双重识别的门禁装置 - Google Patents
一种带有声音和面部双重识别的门禁装置 Download PDFInfo
- Publication number
- CN114445954B CN114445954B CN202210363845.1A CN202210363845A CN114445954B CN 114445954 B CN114445954 B CN 114445954B CN 202210363845 A CN202210363845 A CN 202210363845A CN 114445954 B CN114445954 B CN 114445954B
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- data information
- information
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000009977 dual effect Effects 0.000 title claims abstract description 18
- 230000001815 facial effect Effects 0.000 title claims description 9
- 230000001502 supplementing effect Effects 0.000 claims abstract description 10
- 230000001681 protective effect Effects 0.000 claims abstract description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 41
- 238000001914 filtration Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 23
- 238000011156 evaluation Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 239000013589 supplement Substances 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种带有声音和面部双重识别的门禁装置,包括壳体,所述壳体一侧设置有电源接口和开关按键,所述壳体上侧设置有补光灯、光线传感器、摄像头、人体感应器、防护凸条、显示屏和收音孔,其中所述显示屏设置于壳体上侧中部,所述显示屏下侧设置有收音孔,所述显示屏两侧设置有防护凸条,所述显示屏上侧中部设置有摄像头,所述摄像头左侧依次设置有人体感应器和补光灯,所述摄像头右侧依次设置光线传感器和补光灯,所述壳体内部设置电池、无线模块、主控板和语音输入器,其中所述语音输入器设置于壳体内部下端,所述电池设置在所述语音输入器上方,并且所述电池上方左侧设置主控板。本发明能够实现声音和面部双重识别,提高了识别能力。
Description
技术领域
本发明涉及门禁技术领域,且更具体地涉及一种带有声音和面部双重识别的门禁装置。
背景技术
随着社会经济的高速发展,人们开始追求安全便捷的工作生活环境,智能设备随之迅速发展,门禁装置作为智能设备中的重要单元越来越得到重视。门禁装置是新型现代安全管理装置,它集微机自动识别技术和现代安全管理措施为一体,它涉及电子,机械,光学,计算机技术,通讯技术,生物技术等诸多新技术。它是解决出入口实现安全防范管理的有效措施。适用于各种场所,如银行、宾馆、机房、办公间、小区、工厂等,常见的门禁装置按识别方式可分为密码识别、非接触卡片识别、语音识别、指纹识别和面部识别等。
传统门禁装置一般只设置有一种识别方式,使得在一些情况下,如戴口罩时、手中拿满东西时等,单独的识别方式受到限制,无法很好的承担识别工作。这就需要一种兼容声音和面部数据信息识别的门禁装置。
发明内容
针对上述技术的不足,本发明公开一种带有声音和面部双重识别的门禁装置,能够实现声音和面部双重识别,提高了识别能力。
一种带有声音和面部双重识别的门禁装置,包括壳体,所述壳体一侧设置有电源接口和开关按键,所述壳体上侧设置有补光灯、光线传感器、摄像头、人体感应器、防护凸条、显示屏和收音孔,其中所述显示屏设置于壳体上侧中部,所述显示屏下侧设置有收音孔,所述显示屏两侧设置有防护凸条,所述显示屏上侧中部设置有摄像头,所述摄像头左侧依次设置有人体感应器和补光灯,所述摄像头右侧依次设置光线传感器和补光灯,所述壳体内部设置电池、无线模块、主控板和语音输入器,其中所述语音输入器设置于壳体内部下端,所述电池设置在所述语音输入器上方,并且所述电池上方左侧设置主控板,所述电池上方右侧设置有无线模块,其中所述电池与电源接口连接;其中所述主控板设置有主控模块,所述主控模块分别与光线传感器、开关按键、显示屏、摄像头、补光灯、人体感应器、电源接口、电池、无线模块和语音输入器控制连接。
作为本发明进一步的技术方案,所述补光灯为LED补光灯。
作为本发明进一步的技术方案,所述防护凸条突出壳体之外4mm-7mm之间。
作为本发明进一步的技术方案,所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片。
作为本发明进一步的技术方案,所述语音输入器为能够实现计算机算法模型的TMS320VC5402语音处理模块,其中所述语音输入器还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块,其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接,所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接,所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接,所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接。
作为本发明进一步的技术方案,所述语音输入器 中的计算机算法模型为YOLO-V4算法模型,并且所述语音输入器实现语音的方法包括以下步骤:
步骤1、通过音频采集接口向语音流输入模块输入语音数据信息;
在本步骤中,通过设置多个音频采集接口实现语音输入器对声音信号的多数据通道采集,以提高数据采集能力;
步骤2、通过语音信息过滤模块对语音数据信息杂波进行过滤;
在本步骤中,通过语音信息过滤模块实现输入语音数据信息特征的初始化处理,实现语音信息的整个音频数据信息检测,主要包括静音检测、过渡段检测、语音段检测和语音结束检测;并且能够通过消除噪声和信道失真实现语音信息增强,将语音信号从时域转化到频域;
步骤3、对输入的语音数据信息进行信息特征提取,识别输入的语音数据信息;
在本步骤中,对语音数据信息提取时,通过对语音信号进行采样、反混叠滤波、语音增强和语音截取的方式实现特征信息提取,从语音信号波形中提取一组或几组描述语音信号特征的语音数据信息参数;
识别输入的语音数据信息包括语音信息匹配模块法实现不同语音信息的识别,语音信息匹配模块通过训练语料学习词与词之间的相互关系,来估计假设词序列的语言模型分数,即存在这种语音数据信息的参数,在构建的构建参考模式库内,实现语音特征参数和语音信息匹配,当时采集到的语音识别模块与数据库内的数据信息匹配时,在实现语音数据信息识别,当采集到的语音识别模块不与数据库内的数据信息匹配时,则未实现语音数据信息识别;
步骤4、通过计算机算法模型对输入的语音数据信息进行评估;所述计算机算法模型为YOLO-V4算法模型,具体方法为:
建出YOLO-V4算法模型,通过人工智能的方法实现不同声音信息的评估与分析;YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head,在实现多语音数据信息尺度预测时,采用3个不同的尺度特征模块进行预测,时频数据信息大小为原分辨率得1/32,剩余2个尺度分别为1/16,1/8,预测方法为检测框、目标评价、类别预测三种信息编码,检测框设置6个参数,目标评价设置2个参数,类别数位设置100,声音预测输出张量维度分别设置为y1=13*13*255,y2=26*26*255,y3=52*52*255;
其中语音数据信息评估算法代码如下所示:
在分析过程中,分类器采用的是YOLO Head 分类器;并且所述YOLO Head 分类器YOLO Head 的数量为6个。
步骤5、将识别后的语音数据信息通过语音存储模块实现存储;
步骤6、通过语音输出模块实现数据信息的输出;
在本发明中,所述人体感应器为基于用户面部识别的感应模块,并且所述人体感应器包括主控MCU模块和分别与其连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。
作为本发明进一步的技术方案,所述人体感应器实现人脸识别的方法为:
(1)通过人脸识别单元获取用户数据信息,将采集到的人脸图像通过低通滤波器滤除无用数据信息,并对人脸图像进行切片处理,从而得到一系列尺寸变化的图像;
(2)将人脸匹配模块与原始模板进行图像进行对比,将人脸匹配模块的数据信息与其内设置的3倍率图像进行匹配,将综合部件模板与特征的匹配程度和最佳位置实现最终偏离,得到最佳的匹配结果,计算公式为:
在公式(1)-(2)中,其中是人脸识别单元识别用户数据信息时获取的坐标点,其中表示尺度层,S表示匹配度,是待监测的人脸识别图像数据信息,J是不同部分模板与3倍率图像匹配度,代表一个随机部分模板;E表示随机部分模板函数,表示随机部分系数,b表示图像匹配度常数;随机部分模板运行速度;表示第个随机部分模板运行速度;
(3)通过人脸匹配模块实现数据信息响应变换,其中人脸匹配模块匹配的公式为:
在公式(3)中,其中表示人脸识别时,用户的实际位置与测量位置之间的偏离位置,表示人脸识别过程第个部分模板在尺度层的最佳偏离位置;其中代表相对于第个部分模板的偏移量,公式(3)表示人脸识别待检测图像在偏移量处的匹配得分,则根据公式(3)可以输出人脸识别的评估结果;表示人脸识别时,用户的实际位置与测量位置之间偏离位置的偏差参数;表示人脸识别时, 第个部分模板的偏移量和实际值存在的差别,表示偏移量影响量;
(4)输出人脸识别数据信息。
积极有益效果
本发明能够实现声音和面部双重识别,自动化程度高,大大提高了门禁应用能力。进行面部识别的同时通过语音输入器采集被识别人员语音,以进行语音识别,实现声音和面部的双重识别,当双重识别中有一种方式通过时门禁装置发出开门指令。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图,其中:
图1为本发明的立体图结构示意图;
图2为本发明的主视图的结构示意图;
图3为本发明的俯视图的结构示意图;
图4为本发明的左视图的结构示意图;
图5为本发明主控单元原理示意图;
图6为本发明语音识别模块原理示意图;
图7为本发明语音识别模块识别方法示意图;
图8为发明YOLO-V4算法模型;
图9为人体感应器原理示意图;
附图标识:
1-壳体;2-补光灯;3-光线传感器;4-摄像头;5-人体感应器;6-防护凸条;7-显示屏;8-电源接口;9-电池;10-无线模块;11-主控板;12-语音输入器;13-收音孔;14-开关按键。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1-图4所示,一种带有声音和面部双重识别的门禁装置,包括壳体1,所述壳体1一侧设置有电源接口8和开关按键14,所述壳体1上侧设置有补光灯2、光线传感器3、摄像头4、人体感应器5、防护凸条6、显示屏7和收音孔13,其中所述显示屏7设置于壳体1上侧中部,所述显示屏7下侧设置有收音孔13,所述显示屏两侧设置有防护凸条6,所述显示屏7上侧中部设置有摄像头4,所述摄像头4左侧依次设置有人体感应器5和补光灯2,所述摄像头4右侧依次设置光线传感器3和补光灯2,所述壳体1内部设置电池9、无线模块10、主控板11和语音输入器12,其中所述语音输入器12设置于壳体内部下端,所述电池9设置在所述语音输入器12上方,并且所述电池9上方左侧设置主控板11,所述电池9上方右侧设置有无线模块10,其中所述电池9与电源接口8连接;其中所述主控板11设置有主控模块,所述主控模块分别与光线传感器3、开关按键、显示屏、摄像头4、补光灯2、人体感应器5、电源接口8、电池9、无线模块10和语音输入器12控制连接。
在本发明中,所述补光灯2为LED补光灯。
在本发明中,所述防护凸条6突出壳体1之外4mm-7mm之间。
在具体实施例中,通过这种方式设置能够避免防护凸条6被外界卡住。
在具体实施例中,所述补光灯2设置于摄像头4两侧,使得人们在进行人脸识别时该范围可被充分照亮,从而提高面部识别速度;在具体实施例中,防护凸条6突出壳体1一定厚度,在大型物体与门禁装置发生碰撞时,可以起到一定间隔保护作用,从而避免门禁装置显示屏7表面被刮花。
本发明在工作时,通过开关按键14控制门禁装置的开关机,门禁装置开启后进入工作状态,通过人体感应器5判断门禁装置前方是否有人员,当门禁装置前方有人员出现时,通过光线传感器3判断是否需要开启补光灯2,同时,通过摄像头4工作进行画面摄取,以进行面部识别,并且通过显示屏7将摄像头4摄取内容显示;在进行面部识别的同时通过语音输入器12采集被识别人员语音,以进行语音识别,实现声音和面部的双重识别,当双重识别中有一种方式通过时门禁装置发出开门指令。
在本发明中,所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片。
在具体实施例中,如图5所示,主控模块的硬件部分采用S3C2440系列嵌入式S3C2440 ARM9型号芯片,在具体应用时间可以配备具有Web服务器的电脑、智能手机等,该芯片在具体工作时,采用 5V的电压,外部采用时钟频率为460.8kHz,数据输出含有19.2kHz式中的低有效载波检测信号,为无需外部调节和偏置, 嵌入式处理器模块含有S3C2440微处理器、网络通信模块、存储、串口通信、电源、时钟等外围电路。在该系统的网络部分采用DM9000网卡芯片,具有自适应10/100M的PHY和4K DWORD值的SRAM,在功耗低的情况下,支持3.3V和5V的性能进程,并且还提供了介质五官接口,RJ-45接口,使用普通的网线就可以与该设备进行信息交互。
在本发明中,所述语音输入器12为能够实现计算机算法模型的TMS320VC5402语音处理模块,其中所述语音输入器12还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块,其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接,所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接,所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接,所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接。
在具体实施例中,该模块采用改进的哈佛结构,一条程序总线(PB),三条数据总线(CB,DB,EB)和四条地址总线(PAB,CAB,DAB,EAB),带有专用硬件逻辑CPU(40位算术逻辑单元(ALU),包括1个40位桶形移位器和二个40位累加器;一个17×17乘法器和一个40位专用加法器,允许16位带或不带符号的乘法),片内存储器(八个辅助寄存器及一个软件栈),片内外专用的指令集,允许使用业界最先进的定点DSP C语言编译器。TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInteRFace)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。在具体应用中,将TLC320AD50C与TMS320VC5402的硬件连接。
在本发明中,如图6-图7所示,所述语音输入器12 中的计算机算法模型为YOLO-V4算法模型,并且所述语音输入器12实现语音的方法包括以下步骤:
步骤1、通过音频采集接口向语音流输入模块输入语音数据信息;
在本步骤中,通过设置多个音频采集接口实现语音输入器12对声音信号的多数据通道采集,以提高数据采集能力;
步骤2、通过语音信息过滤模块对语音数据信息杂波进行过滤;
在本步骤中,通过语音信息过滤模块实现输入语音数据信息特征的初始化处理,实现语音信息的整个音频数据信息检测,主要包括静音检测、过渡段检测、语音段检测和语音结束检测;并且能够通过消除噪声和信道失真实现语音信息增强,将语音信号从时域转化到频域;
步骤3、对输入的语音数据信息进行信息特征提取,识别输入的语音数据信息;
在本步骤中,对语音数据信息提取时,通过对语音信号进行采样、反混叠滤波、语音增强和语音截取的方式实现特征信息提取,从语音信号波形中提取一组或几组描述语音信号特征的语音数据信息参数;
识别输入的语音数据信息包括语音信息匹配模块法实现不同语音信息的识别,语音信息匹配模块通过训练语料学习词与词之间的相互关系,来估计假设词序列的语言模型分数,即存在这种语音数据信息的参数,在构建的构建参考模式库内,实现语音特征参数和语音信息匹配,当时采集到的语音识别模块与数据库内的数据信息匹配时,在实现语音数据信息识别,当采集到的语音识别模块不与数据库内的数据信息匹配时,则未实现语音数据信息识别;
步骤4、通过计算机算法模型对输入的语音数据信息进行评估;所述计算机算法模型为YOLO-V4算法模型,具体方法为:
如图8所示,建出YOLO-V4算法模型,通过人工智能的方法实现不同声音信息的评估与分析;YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head,在实现多语音数据信息尺度预测时,采用3个不同的尺度特征模块进行预测,时频数据信息大小为原分辨率得1/32,剩余2个尺度分别为1/16,1/8,预测方法为检测框、目标评价、类别预测三种信息编码,检测框设置6个参数,目标评价设置2个参数,类别数位设置100,声音预测输出张量维度分别设置为y1=13*13*255,y2=26*26*255,y3=52*52*255;
其中语音数据信息评估算法代码如下所示:
在上述算法代码中,通过输入时间、日期、次数、语音时长、频率、时阈、星期、月份等不同的数据信息实现待评估的语音数据信息评估。在评估时,分别将算法模型分为不同的大模块,比如头部、颈部等,通过这种方式实现分析数据信息的层次计算,在输入模型算法过程中,能够按一定的逻辑顺序实现数据局分析与计算。在分析过程中,分类器采用的是YOLO Head 分类器;并且所述YOLO Head 分类器YOLO Head 的数量为6个。
在上述实施例中,YOLO-V4算法模型能够对声音数据信息进行适当处理,对构成声音的主干网络、声音数据网络训练、在应用过程中采用的激活函数以及损失函数方面都比YOLO-V3算法模型得到最大程度的优化。
通过输入声音数据信息,对获取的数据信息进行卷积计算,必要时,在图中加入分类算法模型。在利用该算法进行评估时,相对于YOLO-V3算法模型,该模型通过增加CSPNet,将网络中的骨架网络由原来的Darknet-53变成了CSPDarknet-53。网络架构模型工作过程中,用户从声音数据集信息中获取故障数据集合,将YOLO-V4检测模型构建成数据网络模型,在该模型中加入聚类分析算法,则输出的网络结构可以为具有不同属性算法的声音数据模型。本发明采用9个聚类获得的先验框辅助坐标预测,并且9个不同尺度的anchorboxes评分为3组应用在3个不同的尺度特征图,即每个尺度特征图的单位网格利用anchorboxes预测3组信息。假设在获取的数据集合中有8952个声音数据信息,其中的数据信息包括声音故障信息和正常数据信息,在具体训练过程中需要对声音数据信息进行处理和精度识别。将YOLO-V4算法中数学含义以YOLO-V4网络结构的形式展现,在构建的网络结构中,其包括声音特征提取主网络、简并行过程(Simplified Parallel Process,SPP)模块、声音性能整合模块、聚类分类模块。
在本发明中,声音特征提取主网络采用的CSPDarknet53网络,该网络支撑的时阈大小608*608。该网络结构区别于常规技术中的YOLO-V3算法模型,能够输出四个或者四个以上的信息特征,能够提高声音目标的检索能力。
本发明采用的SPP模块具有四个以上的最大池化层,尺寸有1*1、6*6、9*9以及13*13,该算法还能够将不同池化的时阈信息进行不同程度的拼接,输出最佳池化特征时阈。
本发明采用的声音性能整合模块包含多个采样层、拼接层,采样层与拼接层错综布置,SPP模块采集到的数据信息被输送到错综布置的采样层与拼接层。最终将不同尺寸的时阈信息整理成相同规格的时阈信息,输出至聚类分类模块。
本发明中的聚类分类模块大于4,分类器采用的是YOLO Head 分类器,这些分类器通过级联的方式连接,能够提高分类的精度和能力。
本发明通过上述方法构建的YOLO-V4算法模型对接收到的声音数据信息集合进行信息训练,当训练输出的最佳权重文件输送至YOLO-V4算法,则构建出声音状态数据信息,为了提高训练数据的精度,在调整最佳权重文件时,可以通过不间断的迭代计算,使得声音状态评估达到最佳值。最终将分析后的声音数据信息输出,最终数据输出声音信息,数据信息以数据帧的方式出现。
步骤5、将识别后的语音数据信息通过语音存储模块实现存储;
步骤6、通过语音输出模块实现数据信息的输出;
在本发明中,如图8所示,所述人体感应器5为基于用户面部识别的感应模块,并且所述人体感应器5包括主控MCU模块和分别与其连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。
在本发明中,所述人体感应器5实现人脸识别的方法为:
(1)通过人脸识别单元获取用户数据信息,将采集到的人脸图像通过低通滤波器滤除无用数据信息,并对人脸图像进行切片处理,从而得到一系列尺寸变化的图像;
(2)将人脸匹配模块与原始模板进行图像进行对比,将人脸匹配模块的数据信息与其内设置的3倍率图像进行匹配,将综合部件模板与特征的匹配程度和最佳位置实现最终偏离,得到最佳的匹配结果,计算公式为:
在公式(1)-(2)中,其中是人脸识别单元识别用户数据信息时获取的坐标点,其中表示尺度层,S表示匹配度,是待监测的人脸识别图像数据信息,J是不同部分模板与3倍率图像匹配度,代表一个随机部分模板;E表示随机部分模板函数,表示随机部分系数,b表示图像匹配度常数;随机部分模板运行速度;表示第个随机部分模板运行速度;
(3)通过人脸匹配模块实现数据信息响应变换,其中人脸匹配模块匹配的公式为:
在公式(3)中,其中表示人脸识别时,用户的实际位置与测量位置之间的偏离位置,表示人脸识别过程第个部分模板在尺度层的最佳偏离位置;其中代表相对于第个部分模板的偏移量,公式(3)表示人脸识别待检测图像在偏移量处的匹配得分,则根据公式(3)可以输出人脸识别的评估结果;表示人脸识别时,用户的实际位置与测量位置之间偏离位置的偏差参数;表示人脸识别时, 第个部分模板的偏移量和实际值存在的差别,表示偏移量影响量;
(4)输出人脸识别数据信息。
综上所述,基于人的脸部特征,对输入的人脸图像或者视频流,首先判断其是否存在人脸,如果存在人脸,则进一步的给出每个脸的位置、大小和各个主要面部器官的位置信息。并依据这些信息,进一步提取每个人脸中所蕴涵的身份特征,并将其与已知的人脸进行对比,从而识别每个人脸的身份。
在进一步的实施例中,还可以采用特征脸方法实现人脸数据识别,利用主分量分析进行降维和提取特征。主分量分析是一种应用十分广泛的数据降维技术,该方法选择与原数据协方差矩阵前几个最大特征值对应的特征向量构成一组基,以达到最佳表征原数据的目的。因为由主分量分析提取的特征向量返回成图像时,看上去仍像人脸,所以这些特征向量被称为“特征脸”。
在进一步的实施例中,还可以从视频中提取特征,最后如果人脸存在则识别出人脸的身份。在视频监控、信息安全和出入控制等应用中,基于视频比基于静态图像更具优越性,因为 Bruce 等人和 Knight 等人已证明,当人脸被求反或倒转时,运动信息有助于(熟悉的)人脸的识别。虽然视频人脸识别是基于静态图像的人脸识别的直接扩展,但一般认为视频人脸识别算法需要同时用到空间和时间信息,这类方法直到近几年才开始受到重视并需要进一步的研究和发展。目前视频人脸识别还有很多困难和挑战,具体来说有以下几种:视频图像质量比较差:视频图像一般是在户外(或室内,但是采集条件比较差)获取的,通常没有用户的配合,所以视频人脸图像经常会有很大的光照和姿态变化。另外还可能会有遮挡和伪装。
通过上述实施例,能够快速实现人脸识别,本发明能够实现声音与面部的双重识别。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些具体实施方式仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
Claims (4)
1.一种带有声音和面部双重识别的门禁装置,包括壳体(1),所述壳体(1)一侧设置有电源接口(8)和开关按键(14),其特征在于:所述壳体(1)上侧设置有补光灯(2)、光线传感器(3)、摄像头(4)、人体感应器(5)、防护凸条(6)、显示屏(7)和收音孔(13),其中所述显示屏(7)设置于壳体(1)上侧中部,所述显示屏(7)下侧设置有收音孔(13),所述显示屏两侧设置有防护凸条(6),所述显示屏(7)上侧中部设置有摄像头(4),所述摄像头(4)左侧依次设置有人体感应器(5)和补光灯(2),所述摄像头(4)右侧依次设置光线传感器(3)和补光灯(2),所述壳体(1)内部设置电池(9)、无线模块(10)、主控板(11)和语音输入器(12),其中所述语音输入器(12)设置于壳体内部下端,所述电池(9)设置在所述语音输入器(12)上方,并且所述电池(9)上方左侧设置主控板(11),所述电池(9)上方右侧设置有无线模块(10),其中所述电池(9)与电源接口(8)连接;其中所述主控板(11)设置有主控模块,所述主控模块分别与光线传感器(3)、开关按键、显示屏、摄像头(4)、补光灯(2)、人体感应器(5)、电源接口(8)、电池(9)、无线模块(10)和语音输入器(12)控制连接;
所述补光灯(2)为LED补光灯;所述防护凸条(6)突出壳体(1)之外4mm-7mm之间;所述主控模块包括基于S3C2440系列嵌入式S3C2440 ARM9型号芯片;
所述语音输入器(12)为能够实现计算机算法模型的TMS320VC5402语音处理模块,其中所述语音输入器(12)还设置有音频采集接口、语音流输入模块、语音信息过滤模块、语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块,其中所述音频采集接口的输出接口与所述语音流输入模块的输入端连接,所述语音流输入模块的输出端与所述语音信息过滤模块的输入端连接,所述语音信息过滤模块的输出端与所述语音信息提取模块的输入端连接,所述TMS320VC5402语音处理模块分别与语音信息提取模块、计算机算法模型、语音存储模块和语音输出模块连接;
所述语音输入器(12)中的计算机算法模型为YOLO-V4算法模型;
所述语音输入器(12)实现语音的方法包括以下步骤:
步骤1、通过音频采集接口向语音流输入模块输入语音数据信息;
在本步骤中,通过设置多个音频采集接口实现语音输入器(12)对声音信号的多数据通道采集,以提高数据采集能力;
步骤2、通过语音信息过滤模块对语音数据信息杂波进行过滤;
在本步骤中,通过语音信息过滤模块实现输入语音数据信息特征的初始化处理,实现语音信息的整个音频数据信息检测,主要包括静音检测、过渡段检测、语音段检测和语音结束检测;并且能够通过消除噪声和信道失真实现语音信息增强,将语音信号从时域转化到频域;
步骤3、对输入的语音数据信息进行信息特征提取,识别输入的语音数据信息;
在本步骤中,对语音数据信息提取时,通过对语音信号进行采样、反混叠滤波、语音增强和语音截取的方式实现特征信息提取,从语音信号波形中提取一组或几组描述语音信号特征的语音数据信息参数;
识别输入的语音数据信息包括语音信息匹配模块法实现不同语音信息的识别,语音信息匹配模块通过训练语料学习词与词之间的相互关系,来估计假设词序列的语言模型分数,即存在这种语音数据信息的参数,在构建的构建参考模式库内,实现语音特征参数和语音信息匹配,当时采集到的语音识别模块与数据库内的数据信息匹配时,在实现语音数据信息识别,当采集到的语音识别模块不与数据库内的数据信息匹配时,则未实现语音数据信息识别;
步骤4、通过计算机算法模型对输入的语音数据信息进行评估;所述计算机算法模型为YOLO-V4算法模型,具体方法为:
建出YOLO-V4算法模型,通过人工智能方法实现不同声音信息的评估与分析;YOLO-V4算法模型架构的形式为CSPDarknet53+PAnet-SPP+Yolov3 head,在实现多语音数据信息尺度预测时,采用3个不同的尺度特征模块进行预测,时频数据信息大小为原分辨率得1/32,剩余2个尺度分别为1/16,1/8,预测方法为检测框、目标评价、类别预测三种信息编码,检测框设置6个参数,目标评价设置2个参数,类别数位设置100,声音预测输出张量维度分别设置为y1=13*13*255,y2=26*26*255,y3=52*52*255;
步骤5、将识别后的语音数据信息通过语音存储模块实现存储;
步骤6、通过语音输出模块实现数据信息的输出。
2.根据权利要求1 所述的一种带有声音和面部双重识别的门禁装置,其特征在于:所述YOLO-V4算法模型采用的分类器是YOLO Head 分类器;并且所述YOLO Head 分类器YOLOHead 的数量为6个。
3.根据权利要求1所述的一种带有声音和面部双重识别的门禁装置,其特征在于:所述人体感应器(5)为基于用户面部识别的感应模块,并且所述人体感应器(5)包括主控MCU模块和分别与主控MCU模块连接的人脸识别单元、人脸数据信息提取模块、人脸匹配模块、数据存储模块、数据查询模块和数据显示模块。
4.根据权利要求3所述的一种带有声音和面部双重识别的门禁装置,其特征在于:所述人体感应器(5)实现人脸识别的方法为:
(1)通过人脸识别单元获取用户数据信息,将采集到的人脸图像通过低通滤波器滤除无用数据信息,并对人脸图像进行切片处理,从而得到一系列尺寸变化的图像;
(2)将人脸匹配模块与原始模板进行图像进行对比,将人脸匹配模块的数据信息与所述人脸匹配模块内设置的3倍率图像进行匹配,将综合部件模板与特征的匹配程度和最佳位置实现最终偏离,得到最佳的匹配结果,计算公式为:
在公式(1)-(2)中,其中是人脸识别单元识别用户数据信息时获取的坐标点,其中表示尺度层,S表示匹配度,是待监测的人脸识别图像数据信息,J是不同部分模板与3倍率图像匹配度,代表一个随机部分模板;E表示随机部分模板函数,表示随机部分系数,b表示图像匹配度常数;随机部分模板运行速度;表示第个随机部分模板运行速度;
(3)通过人脸匹配模块实现数据信息响应变换,其中人脸匹配模块匹配的公式为:
在公式(3)中,其中表示人脸识别时,用户的实际位置与测量位置之间的偏离位置,表示人脸识别过程第个部分模板在尺度层的最佳偏离位置;其中代表相对于第个部分模板的偏移量,公式(3)表示人脸识别待检测图像在偏移量处的匹配得分,则根据公式(3)可以输出人脸识别的评估结果;表示人脸识别时,用户的实际位置与测量位置之间偏离位置的偏差参数;表示人脸识别时, 第个部分模板的偏移量和实际值存在的差别,表示偏移量影响量;
(4)输出人脸识别数据信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363845.1A CN114445954B (zh) | 2022-04-08 | 2022-04-08 | 一种带有声音和面部双重识别的门禁装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210363845.1A CN114445954B (zh) | 2022-04-08 | 2022-04-08 | 一种带有声音和面部双重识别的门禁装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114445954A CN114445954A (zh) | 2022-05-06 |
CN114445954B true CN114445954B (zh) | 2022-06-21 |
Family
ID=81359842
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210363845.1A Active CN114445954B (zh) | 2022-04-08 | 2022-04-08 | 一种带有声音和面部双重识别的门禁装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445954B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115083417A (zh) * | 2022-06-11 | 2022-09-20 | 南京龙垣信息科技有限公司 | 一种基于语音识别技术的智能安防系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330437A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 基于卷积神经网络目标实时检测模型的特征提取方法 |
CN109345540A (zh) * | 2018-09-15 | 2019-02-15 | 北京市商汤科技开发有限公司 | 一种图像处理方法、电子设备及存储介质 |
CN208689638U (zh) * | 2018-07-13 | 2019-04-02 | 北京工业职业技术学院 | 身份认证装置和智能门禁系统 |
CN111541777A (zh) * | 2020-05-25 | 2020-08-14 | 阮继盛 | 一种基于yolo算法的语音辅助盲人识物系统 |
CN213601277U (zh) * | 2020-12-01 | 2021-07-02 | 湖南众智君赢科技有限公司 | 一种智能声纹识别门禁终端及系统 |
-
2022
- 2022-04-08 CN CN202210363845.1A patent/CN114445954B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107330437A (zh) * | 2017-07-03 | 2017-11-07 | 贵州大学 | 基于卷积神经网络目标实时检测模型的特征提取方法 |
CN208689638U (zh) * | 2018-07-13 | 2019-04-02 | 北京工业职业技术学院 | 身份认证装置和智能门禁系统 |
CN109345540A (zh) * | 2018-09-15 | 2019-02-15 | 北京市商汤科技开发有限公司 | 一种图像处理方法、电子设备及存储介质 |
CN111541777A (zh) * | 2020-05-25 | 2020-08-14 | 阮继盛 | 一种基于yolo算法的语音辅助盲人识物系统 |
CN213601277U (zh) * | 2020-12-01 | 2021-07-02 | 湖南众智君赢科技有限公司 | 一种智能声纹识别门禁终端及系统 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的目标检测算法研究;金鑫;《中国优秀硕士学位论文全文数据库信息科技辑》;20220115;I138-1982 * |
Also Published As
Publication number | Publication date |
---|---|
CN114445954A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mahmood et al. | WHITE STAG model: Wise human interaction tracking and estimation (WHITE) using spatio-temporal and angular-geometric (STAG) descriptors | |
Theocharides et al. | Embedded hardware face detection | |
Lin et al. | Spatially eigen-weighted Hausdorff distances for human face recognition | |
Boussaad et al. | Deep-learning based descriptors in application to aging problem in face recognition | |
CN109522835A (zh) | 基于智能机器人的儿童读物阅读与交互方法及系统 | |
CN105427421A (zh) | 基于人脸识别的门禁控制方法 | |
Santhalingam et al. | Sign language recognition analysis using multimodal data | |
US11250243B2 (en) | Person search system based on multiple deep learning models | |
CN108804453A (zh) | 一种视音频识别方法及装置 | |
Fang et al. | Dynamic gesture recognition using inertial sensors-based data gloves | |
CN114445954B (zh) | 一种带有声音和面部双重识别的门禁装置 | |
CN110968235B (zh) | 信号处理装置及相关产品 | |
JP2004054957A (ja) | データ分布を表現する方法、データ要素を表現する方法、データ要素の記述子、照会データ要素を照合または分類する方法、その方法を実行するように設定した装置、コンピュータプログラム並びにコンピュータ読み取り可能な記憶媒体 | |
Thom et al. | Facial attribute recognition: A survey | |
CN112613480A (zh) | 一种人脸识别方法、系统、电子设备及存储介质 | |
Kumar et al. | A novel method for visually impaired using object recognition | |
Rathi et al. | Development of full duplex intelligent communication system for deaf and dumb people | |
CN112149599B (zh) | 表情追踪方法、装置、存储介质和电子设备 | |
Pang et al. | F-DR Net: Face detection and recognition in One Net | |
Ye | Masked face detection via a novel framework | |
Shatnawi et al. | The impact of the number of eigen-faces on the face recognition accuracy using different distance measures | |
Bora et al. | ISL gesture recognition using multiple feature fusion | |
Afdhal et al. | Emotion recognition using the shapes of the wrinkles | |
Jain et al. | Ensembled Neural Network for Static Hand Gesture Recognition | |
Xu et al. | Isolated Word Sign Language Recognition Based on Improved SKResNet‐TCN Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230524 Address after: 518000 Floor 6, Building 6, No. 41, Hongyin Road, Loucun Community, Xinhu Street, Guangming District, Shenzhen, Guangdong Patentee after: Fuying Technology (Shenzhen) Co.,Ltd. Address before: 518102 U6, Junxiang U8 Intelligent Manufacturing Industrial Park, guxing community, Xixiang street, Bao'an District, Shenzhen, Guangdong Province Building 7 239 Patentee before: Shenzhen runjingyuan Information Technology Co.,Ltd. |