CN112735014A - 基于人脸识别的可视化对讲方法和系统 - Google Patents
基于人脸识别的可视化对讲方法和系统 Download PDFInfo
- Publication number
- CN112735014A CN112735014A CN202011559486.4A CN202011559486A CN112735014A CN 112735014 A CN112735014 A CN 112735014A CN 202011559486 A CN202011559486 A CN 202011559486A CN 112735014 A CN112735014 A CN 112735014A
- Authority
- CN
- China
- Prior art keywords
- target object
- semantic
- voice signal
- signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 132
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 66
- 230000004044 response Effects 0.000 claims abstract description 39
- 230000006854 communication Effects 0.000 claims abstract description 32
- 230000003993 interaction Effects 0.000 claims abstract description 28
- 238000004891 communication Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 230000001815 facial effect Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000001914 filtration Methods 0.000 claims description 12
- 238000010191 image analysis Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000001755 vocal effect Effects 0.000 claims description 6
- 239000000126 substance Substances 0.000 claims description 3
- 230000006870 function Effects 0.000 description 14
- 230000009286 beneficial effect Effects 0.000 description 9
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/183—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source
- H04N7/186—Video door telephones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了基于人脸识别的可视化对讲方法和系统,其通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
Description
技术领域
本发明涉及人脸识别的技术领域,特别涉及基于人脸识别的可视化对讲方法和系统。
背景技术
目前,住宅小区或者办公大厦等场所都安装有视频监控/通话设备,通过该视频监控/通话设备对该场所进行访客视频监控和通话,以此实现与访客进行可视化对讲和对访客提供适应性的相应反馈响应,从而对访客进行放行准入控制。但是,这种方式只能在同一时间对单一访客进行可视化对讲,并且其不会对访客的身份信息进行认证,这不仅降低了与访客进行可视化对讲的效率,并且还需要增加额外的人力物力来与访客进行可视化对讲互动,这不利于提高与访客进行可视化对讲互动的自动化和智能化程度,同时还大大地降低了可视化对讲互动的可靠性和效率。
发明内容
针对现有技术存在的缺陷,本发明提供基于人脸识别的可视化对讲方法和系统,其通过对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息,并根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理,再对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作;可见,该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
本发明提供基于人脸识别的可视化对讲方法,其特征在于,其包括如下步骤:
步骤S1,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;
步骤S2,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;
步骤S3,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作;
进一步,在所述步骤S1中,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息具体包括:
步骤S101,对所述目标对象的脸部区域进行多角度方位拍摄,以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像,并对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于所述目标对象的三维脸部图像;
步骤S102,从所述三维脸部图像中提取得到相应的脸部五官轮廓信息,并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定所述目标对象的身份信息;
进一步,在所述步骤S2中,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理具体包括:
步骤S201,根据所述身份信息,确定所述目标对象是否为预设合法可视化通话对象,若是,则向所述目标对象提供触控交互模式的可视化通话服务,若否,则终止与所述目标对象进行任何信息交互;
步骤S202,在提供所述触摸交互模式的可视化通话服务过程中,采集来自所述目标对象的语音信号;
步骤S203,对所述语音信号进行卡尔曼滤波处理,以此去除所述语音信号中的背景噪声成分;
进一步,在所述步骤S3中,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作具体包括:
步骤S301,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分;
步骤S302,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
步骤S303,根据所述语义信息,从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令,并根据所述控制命令,向所述目标对象提供相应的应答语音和/或门禁开启权限。
进一步,在所述步骤S301中,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分具体包括:
利用下面公式(1),预处理后的所述语音信号以及所述目标对象的声纹特征,提取只关于所述目标对象的语音信号,
Si,M=Si×u[Si-min(S)]×u[max(S)-Si] (1)
在上述公式(1)中,Si,M表示只关于所述目标对象的语音信号中第i帧信号幅值,Si表示预处理后的所述语音信号中第i帧信号幅值,min(S)表示所述目标对象的声纹特征中最小的信号幅值,max(S)表示所述目标对象的声纹特征中最大的信号幅值,u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1,当括号内的值小于0时阶跃函数的函数值为0;
将所述预处理后的所述语音信号中的每一帧信号均利用上述公式(1)进行处理,从而得到只关于所述目标对象的语音信号,并且只关于所述目标对象的语音信号的第a帧信号幅值记为Sa,M;
以及,
在所述步骤S302中,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息具体包括:
第一、利用下面公式(2),将所述目标对象的语音信号进行语义分割,得到所述目标对象的语音信号每一帧的归类情况,
在上述公式(2)中,Ii表示所述只关于所述目标对象的语音信号中第i帧信号属于分割后的语音信号中的第Ii类语义信号,Sa,M表示只关于所述目标对象的语音信号中第a帧信号幅值,Sa-1,M表示只关于所述目标对象的语音信号中第a-1帧信号幅值,δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1,当括号内的值不等于0时单位冲激函数的函数值为0;
第二、根据分割后的目标对象的语音信号每一类信号的帧频个数与所述语义识别库中的语义语音信号的帧频个数进行比对,将所述语义识别库中的语义语音信号的帧频个数与分割后的目标对象的语音信号每一类信号的帧频个数相等的语义语音信号进行提取并记做 表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值;
再利用下面公式(3),根据所述目标对象的语音信号每一帧的归类情况,将分割后的目标对象的语音信号与所述语义识别库中的语义语音信号进行比对,得到所述分割后的目标对象的语音信号所对应的语义信息
在上述公式(3)中,KI表示分割后的目标对象的语音信号中第I类语义信号属于所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号所对应的语义信息,表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值,表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值,m表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的语义语音信号的个数,n表示分割后的目标对象的语音信号中第I类语义信号的帧频个数;
将所述目标对象的语音信号按照类别从小到大的顺序进行步骤A3的操作,直至每一类的所述目标对象的语音信号都得到相应的语义信息,然后按照类别从小到大的顺序对相应的语义信息进行拼接,最终得到只关于所述目标对象的语音信号的语义信息。
本发明还提供基于人脸识别的可视化对讲系统,其特征在于,其包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块;其中,
所述目标对象拍摄模块用于对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像;
所述脸部图像分析处理模块用于对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;
所述可视化通话模式调整模块用于根据所述身份信息,确定与所述目标对象进行可视化通话的模式;
所述语音信号采集与预处理模块用于在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;
所述反馈响应操作模块用于对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作;
进一步,所述目标对象拍摄模块对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像具体包括:
对所述目标对象的脸部区域进行多角度方位拍摄,以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像;
以及,
所述脸部图像分析处理模块对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息具体包括:
对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于所述目标对象的三维脸部图像;
再从所述三维脸部图像中提取得到相应的脸部五官轮廓信息,并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定所述目标对象的身份信息;
进一步,所述可视化通话模式调整模块根据所述身份信息,确定与所述目标对象进行可视化通话的模式具体包括:
根据所述身份信息,确定所述目标对象是否为预设合法可视化通话对象,若是,则向所述目标对象提供触控交互模式的可视化通话服务,若否,则终止与所述目标对象进行任何信息交互;
以及,
所述语音信号采集与预处理模块在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理具体包括:
在提供所述触摸交互模式的可视化通话服务过程中,采集来自所述目标对象的语音信号;
并对所述语音信号进行卡尔曼滤波处理,以此去除所述语音信号中的背景噪声成分;
进一步,所述反馈响应操作模块对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作具体包括:
根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分;
再对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
最后根据所述语义信息,从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令,并根据所述控制命令,向所述目标对象提供相应的应答语音和/或门禁开启权限。
相比于现有技术,该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息,并根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理,再对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作;可见,该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的基于人脸识别的可视化对讲方法的流程示意图。
图2为本发明提供的基于人脸识别的可视化对讲系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,为本发明实施例提供的基于人脸识别的可视化对讲方法的流程示意图。该基于人脸识别的可视化对讲方法包括如下步骤:
步骤S1,对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息;
步骤S2,根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理;
步骤S3,对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作。
上述技术方案的有益效果为:该基于人脸识别的可视化对讲方法通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
优选地,在该步骤S1中,对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息具体包括:
步骤S101,对该目标对象的脸部区域进行多角度方位拍摄,以此获取关于该目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像,并对该上侧脸部区域图像、该下侧脸部区域图像、该左侧脸部区域图像和该右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于该目标对象的三维脸部图像;
步骤S102,从该三维脸部图像中提取得到相应的脸部五官轮廓信息,并将该脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定该目标对象的身份信息。
上述技术方案的有益效果为:通过对该目标对象的脸部区域进行多角度方位拍摄,能够对目标对象的脸部区域进行全面覆盖拍摄,以此最大限度地获得与该目标对象的脸部轮廓状态相匹配的三维脸部图像,这样确保后续提取得到相应的脸部五官轮廓信息的可靠性,从而提高该目标对象的身份信息的准确性。
优选地,在该步骤S2中,根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理具体包括:
步骤S201,根据该身份信息,确定该目标对象是否为预设合法可视化通话对象,若是,则向该目标对象提供触控交互模式的可视化通话服务,若否,则终止与该目标对象进行任何信息交互;
步骤S202,在提供该触摸交互模式的可视化通话服务过程中,采集来自该目标对象的语音信号;
步骤S203,对该语音信号进行卡尔曼滤波处理,以此去除该语音信号中的背景噪声成分。
上述技术方案的有益效果为:通过根据该身份信息确定该目标对象是否为预设合法可视化通话对象,只有在该目标对象为预设合法可视化通话对象的情况下提供触控交互模式的可视化通话服务,从而提高对该目标对象进行可视化对讲的灵活性和便捷性;此外,通过在提供该触摸交互模式的可视化通话服务过程中,采集来自该目标对象的语音信号,能够最大限度保证该语音信号采集的准确性。
优选地,在该步骤S3中,对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作具体包括:
步骤S301,根据该目标对象的声纹特征,从预处理后的该语音信号,提取只关于该目标对象的语音信号成分;
步骤S302,对只关于该目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
步骤S303,根据该语义信息,从预设控制命令语义数据库中确定与该语义信息相匹配的控制命令,并根据该控制命令,向该目标对象提供相应的应答语音和/或门禁开启权限。
上述技术方案的有益效果为:通过根据该目标对象的声纹特征,从预处理后的该语音信号,提取只关于该目标对象的语音信号成分,能够确保对该目标对象的语音语义进行高效的语义识别处理,从而准确地得到该目标对象的真实语义含义,以便于后续有针对性地提供相应的应答语音和/或门禁开启权限。
优选地,在该步骤S301中,根据该目标对象的声纹特征,从预处理后的该语音信号,提取只关于该目标对象的语音信号成分具体包括:
利用下面公式(1),预处理后的该语音信号以及该目标对象的声纹特征,提取只关于该目标对象的语音信号,
Si,M=Si×u[Si-min(S)]×u[max(S)-Si] (1)
在上述公式(1)中,Si,M表示只关于该目标对象的语音信号中第i帧信号幅值,Si表示预处理后的该语音信号中第i帧信号幅值,min(S)表示该目标对象的声纹特征中最小的信号幅值,max(S)表示该目标对象的声纹特征中最大的信号幅值,u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1,当括号内的值小于0时阶跃函数的函数值为0;
将该预处理后的该语音信号中的每一帧信号均利用上述公式(1)进行处理,从而得到只关于该目标对象的语音信号,并且只关于该目标对象的语音信号的第a帧信号幅值记为Sa,M;
以及,
在该步骤S302中,对只关于该目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息具体包括:
第一、利用下面公式(2),将该目标对象的语音信号进行语义分割,得到该目标对象的语音信号每一帧的归类情况,
在上述公式(2)中,Ii表示该只关于该目标对象的语音信号中第i帧信号属于分割后的语音信号中的第Ii类语义信号,Sa,M表示只关于该目标对象的语音信号中第a帧信号幅值,Sa-1,M表示只关于该目标对象的语音信号中第a-1帧信号幅值,δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1,当括号内的值不等于0时单位冲激函数的函数值为0;
第二、根据分割后的目标对象的语音信号每一类信号的帧频个数与该语义识别库中的语义语音信号的帧频个数进行比对,将该语义识别库中的语义语音信号的帧频个数与分割后的目标对象的语音信号每一类信号的帧频个数相等的语义语音信号进行提取并记做 表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值;
再利用下面公式(3),根据该目标对象的语音信号每一帧的归类情况,将分割后的目标对象的语音信号与该语义识别库中的语义语音信号进行比对,得到该分割后的目标对象的语音信号所对应的语义信息
在上述公式(3)中,KI表示分割后的目标对象的语音信号中第I类语义信号属于该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号所对应的语义信息,表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值,表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值,m表示该语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的语义语音信号的个数,n表示分割后的目标对象的语音信号中第I类语义信号的帧频个数;
将该目标对象的语音信号按照类别从小到大的顺序进行步骤A3的操作,直至每一类的该目标对象的语音信号都得到相应的语义信息,然后按照类别从小到大的顺序对相应的语义信息进行拼接,最终得到只关于该目标对象的语音信号的语义信息。
上述技术方案的有益效果为:利用公式(1)根据预处理后的语音信号以及目标对象的声纹特征,提取只关于目标对象的语音信号,从而将目标对象的语音信号准确的剥离提取出来,保证了系统安全的可靠性;然后利用公式(2)将目标对象的语音信号进行语义分割,得到目标对象的语音信号每一帧的归类情况;从而将目标对象的语音信号分割成不同类别的语音信号,方便后续的语义识别;最后利用公式(3)根据目标对象的语音信号每一帧的归类情况,将分割后的目标对象的语音信号与语义识别库中的语义语音信号进行比对,得到分割后的目标对象的语音信号所对应的语义信息;上述过程通过分割对比得到语义信息的方式缩短了语义识别时间提高了系统的效率,并且增大了语义识别的准确性。
参阅图2,为本发明实施例提供的基于人脸识别的可视化对讲系统的结构示意图。该基于人脸识别的可视化对讲系统包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块;其中,
该目标对象拍摄模块用于对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像;
该脸部图像分析处理模块用于对该脸部图像进行分析处理,以此确定该目标对象的身份信息;
该可视化通话模式调整模块用于根据该身份信息,确定与该目标对象进行可视化通话的模式;
该语音信号采集与预处理模块用于在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理;
该反馈响应操作模块用于对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作。
上述技术方案的有益效果为:该基于人脸识别的可视化对讲系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
优选地,该目标对象拍摄模块对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像具体包括:
对该目标对象的脸部区域进行多角度方位拍摄,以此获取关于该目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像;
以及,
该脸部图像分析处理模块对该脸部图像进行分析处理,以此确定该目标对象的身份信息具体包括:
对该上侧脸部区域图像、该下侧脸部区域图像、该左侧脸部区域图像和该右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于该目标对象的三维脸部图像;
再从该三维脸部图像中提取得到相应的脸部五官轮廓信息,并将该脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定该目标对象的身份信息。
上述技术方案的有益效果为:通过对该目标对象的脸部区域进行多角度方位拍摄,能够对目标对象的脸部区域进行全面覆盖拍摄,以此最大限度地获得与该目标对象的脸部轮廓状态相匹配的三维脸部图像,这样确保后续提取得到相应的脸部五官轮廓信息的可靠性,从而提高该目标对象的身份信息的准确性。
优选地,该可视化通话模式调整模块根据该身份信息,确定与该目标对象进行可视化通话的模式具体包括:
根据该身份信息,确定该目标对象是否为预设合法可视化通话对象,若是,则向该目标对象提供触控交互模式的可视化通话服务,若否,则终止与该目标对象进行任何信息交互;
以及,
该语音信号采集与预处理模块在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理具体包括:
在提供该触摸交互模式的可视化通话服务过程中,采集来自该目标对象的语音信号;
并对该语音信号进行卡尔曼滤波处理,以此去除该语音信号中的背景噪声成分。
上述技术方案的有益效果为:通过根据该身份信息确定该目标对象是否为预设合法可视化通话对象,只有在该目标对象为预设合法可视化通话对象的情况下提供触控交互模式的可视化通话服务,从而提高对该目标对象进行可视化对讲的灵活性和便捷性;此外,通过在提供该触摸交互模式的可视化通话服务过程中,采集来自该目标对象的语音信号,能够最大限度保证该语音信号采集的准确性。
优选地,该反馈响应操作模块对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作具体包括:
根据该目标对象的声纹特征,从预处理后的该语音信号,提取只关于该目标对象的语音信号成分;
再对只关于该目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
最后根据该语义信息,从预设控制命令语义数据库中确定与该语义信息相匹配的控制命令,并根据该控制命令,向该目标对象提供相应的应答语音和/或门禁开启权限。
上述技术方案的有益效果为:通过根据该目标对象的声纹特征,从预处理后的该语音信号,提取只关于该目标对象的语音信号成分,能够确保对该目标对象的语音语义进行高效的语义识别处理,从而准确地得到该目标对象的真实语义含义,以便于后续有针对性地提供相应的应答语音和/或门禁开启权限。
从上述实施例的内容可知,该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部区域进行拍摄,以此获取关于该目标对象的脸部图像,并对该脸部图像进行分析处理,以此确定该目标对象的身份信息,并根据该身份信息,确定与该目标对象进行可视化通话的模式,在该可视化通话的过程中采集来自该目标对象的语音信号,并对该语音信号进行预处理,再对预处理后的该语音信号进行分析处理,并根据该分析处理的结果,进行相应的反馈响应操作;可见,该基于人脸识别的可视化对讲方法和系统通过对目标对象的脸部图像进行分析处理而得到该目标对象的身份信息,并根据该身份信息确定与该目标对象进行可视化通话的模式,同时在可视化通话的过程中采集来自目标对象的语音信号,最后对该语音信号进行分析处理来为目标对象提供相应的反馈响应操作,这样能够提高与目标对象进行可视化对讲的效率和可靠性,以及改善改善与目标对象进行可视化对讲互动的自动化和智能化程度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.基于人脸识别的可视化对讲方法,其特征在于,其包括如下步骤:
步骤S1,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;
步骤S2,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;
步骤S3,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作。
2.如权利要求1所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S1中,对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像,并对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息具体包括:
步骤S101,对所述目标对象的脸部区域进行多角度方位拍摄,以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像,并对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于所述目标对象的三维脸部图像;
步骤S102,从所述三维脸部图像中提取得到相应的脸部五官轮廓信息,并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定所述目标对象的身份信息。
3.如权利要求2所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S2中,根据所述身份信息,确定与所述目标对象进行可视化通话的模式,在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理具体包括:
步骤S201,根据所述身份信息,确定所述目标对象是否为预设合法可视化通话对象,若是,则向所述目标对象提供触控交互模式的可视化通话服务,若否,则终止与所述目标对象进行任何信息交互;
步骤S202,在提供所述触摸交互模式的可视化通话服务过程中,采集来自所述目标对象的语音信号;
步骤S203,对所述语音信号进行卡尔曼滤波处理,以此去除所述语音信号中的背景噪声成分。
4.如权利要求3所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S3中,对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作具体包括:
步骤S301,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分;
步骤S302,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
步骤S303,根据所述语义信息,从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令,并根据所述控制命令,向所述目标对象提供相应的应答语音和/或门禁开启权限。
5.如权利要求4所述的基于人脸识别的可视化对讲方法,其特征在于:在所述步骤S301中,根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分具体包括:
利用下面公式(1),预处理后的所述语音信号以及所述目标对象的声纹特征,提取只关于所述目标对象的语音信号,
Si,M=Si×u[Si-min(S)]×u[max(S)-Si] (1)
在上述公式(1)中,Si,M表示只关于所述目标对象的语音信号中第i帧信号幅值,Si表示预处理后的所述语音信号中第i帧信号幅值,min(S)表示所述目标对象的声纹特征中最小的信号幅值,max(S)表示所述目标对象的声纹特征中最大的信号幅值,u[]表示阶跃函数、当括号内的值大于等于0时阶跃函数的函数值为1,当括号内的值小于0时阶跃函数的函数值为0;
将所述预处理后的所述语音信号中的每一帧信号均利用上述公式(1)进行处理,从而得到只关于所述目标对象的语音信号,并且只关于所述目标对象的语音信号的第a帧信号幅值记为Sa,M;
以及,
在所述步骤S302中,对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息具体包括:
第一、利用下面公式(2),将所述目标对象的语音信号进行语义分割,得到所述目标对象的语音信号每一帧的归类情况,
在上述公式(2)中,Ii表示所述只关于所述目标对象的语音信号中第i帧信号属于分割后的语音信号中的第Ii类语义信号,Sa,M表示只关于所述目标对象的语音信号中第a帧信号幅值,Sa-1,M表示只关于所述目标对象的语音信号中第a-1帧信号幅值,δ()表示单位冲激函数、当括号内的值等于0时单位冲激函数的函数值为1,当括号内的值不等于0时单位冲激函数的函数值为0;
第二、根据分割后的目标对象的语音信号每一类信号的帧频个数与所述语义识别库中的语义语音信号的帧频个数进行比对,将所述语义识别库中的语义语音信号的帧频个数与分割后的目标对象的语音信号每一类信号的帧频个数相等的语义语音信号进行提取并记做 表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值;
再利用下面公式(3),根据所述目标对象的语音信号每一帧的归类情况,将分割后的目标对象的语音信号与所述语义识别库中的语义语音信号进行比对,得到所述分割后的目标对象的语音信号所对应的语义信息
在上述公式(3)中,KI表示分割后的目标对象的语音信号中第I类语义信号属于所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号所对应的语义信息,表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的第K个语义语音信号的第j帧信号幅值,表示分割后的目标对象的语音信号中第I类语义信号中的第j帧信号幅值,m表示所述语义识别库中与分割后的目标对象的语音信号中第I类语义信号的帧频个数相等的语义语音信号的个数,n表示分割后的目标对象的语音信号中第I类语义信号的帧频个数;
将所述目标对象的语音信号按照类别从小到大的顺序进行步骤A3的操作,直至每一类的所述目标对象的语音信号都得到相应的语义信息,然后按照类别从小到大的顺序对相应的语义信息进行拼接,最终得到只关于所述目标对象的语音信号的语义信息。
6.基于人脸识别的可视化对讲系统,其特征在于,其包括目标对象拍摄模块、脸部图像分析处理模块、可视化通话模式调整模块、语音信号采集与预处理模块和反馈响应操作模块;其中,
所述目标对象拍摄模块用于对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像;
所述脸部图像分析处理模块用于对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息;
所述可视化通话模式调整模块用于根据所述身份信息,确定与所述目标对象进行可视化通话的模式;
所述语音信号采集与预处理模块用于在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理;
所述反馈响应操作模块用于对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作。
7.如权利要求6所述的基于人脸识别的可视化对讲系统,其特征在于:
所述目标对象拍摄模块对目标对象的脸部区域进行拍摄,以此获取关于所述目标对象的脸部图像具体包括:
对所述目标对象的脸部区域进行多角度方位拍摄,以此获取关于所述目标对象的上侧脸部区域图像、下侧脸部区域图像、左侧脸部区域图像和右侧脸部区域图像;
以及,
所述脸部图像分析处理模块对所述脸部图像进行分析处理,以此确定所述目标对象的身份信息具体包括:
对所述上侧脸部区域图像、所述下侧脸部区域图像、所述左侧脸部区域图像和所述右侧脸部区域图像进行图像背景噪声滤波处理和拼接处理,从而获得关于所述目标对象的三维脸部图像;
再从所述三维脸部图像中提取得到相应的脸部五官轮廓信息,并将所述脸部五官轮廓信息与预设人脸五官轮廓数据库进行比对,以此确定所述目标对象的身份信息。
8.如权利要求7所述的基于人脸识别的可视化对讲系统,其特征在于:
所述可视化通话模式调整模块根据所述身份信息,确定与所述目标对象进行可视化通话的模式具体包括:
根据所述身份信息,确定所述目标对象是否为预设合法可视化通话对象,若是,则向所述目标对象提供触控交互模式的可视化通话服务,若否,则终止与所述目标对象进行任何信息交互;
以及,
所述语音信号采集与预处理模块在所述可视化通话的过程中采集来自所述目标对象的语音信号,并对所述语音信号进行预处理具体包括:
在提供所述触摸交互模式的可视化通话服务过程中,采集来自所述目标对象的语音信号;
并对所述语音信号进行卡尔曼滤波处理,以此去除所述语音信号中的背景噪声成分。
9.如权利要求8所述的基于人脸识别的可视化对讲系统,其特征在于:
所述反馈响应操作模块对预处理后的所述语音信号进行分析处理,并根据所述分析处理的结果,进行相应的反馈响应操作具体包括:
根据所述目标对象的声纹特征,从预处理后的所述语音信号,提取只关于所述目标对象的语音信号成分;
再对只关于所述目标对象的语音信号成分进行语义识别处理,以此得到相应的语义信息;
最后根据所述语义信息,从预设控制命令语义数据库中确定与所述语义信息相匹配的控制命令,并根据所述控制命令,向所述目标对象提供相应的应答语音和/或门禁开启权限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559486.4A CN112735014A (zh) | 2020-12-25 | 2020-12-25 | 基于人脸识别的可视化对讲方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011559486.4A CN112735014A (zh) | 2020-12-25 | 2020-12-25 | 基于人脸识别的可视化对讲方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735014A true CN112735014A (zh) | 2021-04-30 |
Family
ID=75615986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011559486.4A Pending CN112735014A (zh) | 2020-12-25 | 2020-12-25 | 基于人脸识别的可视化对讲方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735014A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281223A (zh) * | 2013-05-15 | 2013-09-04 | 五邑大学 | 一种现代化的智能家居安防系统 |
CN106097495A (zh) * | 2016-06-03 | 2016-11-09 | 赵树龙 | 一种智能声控声纹人脸认证门禁控制系统及方法 |
CN106375641A (zh) * | 2016-08-31 | 2017-02-01 | 深圳博科智能科技有限公司 | 一种入户视频对讲机器人及入户视频对讲控制方法 |
CN108154579A (zh) * | 2017-12-22 | 2018-06-12 | 深圳市天和荣科技有限公司 | 一种能与访客交互的智能门禁系统以及交互方法 |
CN112001360A (zh) * | 2020-09-09 | 2020-11-27 | 深圳中神电子科技有限公司 | 一种基于智能调节的人脸识别监控系统 |
-
2020
- 2020-12-25 CN CN202011559486.4A patent/CN112735014A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103281223A (zh) * | 2013-05-15 | 2013-09-04 | 五邑大学 | 一种现代化的智能家居安防系统 |
CN106097495A (zh) * | 2016-06-03 | 2016-11-09 | 赵树龙 | 一种智能声控声纹人脸认证门禁控制系统及方法 |
CN106375641A (zh) * | 2016-08-31 | 2017-02-01 | 深圳博科智能科技有限公司 | 一种入户视频对讲机器人及入户视频对讲控制方法 |
CN108154579A (zh) * | 2017-12-22 | 2018-06-12 | 深圳市天和荣科技有限公司 | 一种能与访客交互的智能门禁系统以及交互方法 |
CN112001360A (zh) * | 2020-09-09 | 2020-11-27 | 深圳中神电子科技有限公司 | 一种基于智能调节的人脸识别监控系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5412738A (en) | Recognition system, particularly for recognising people | |
CN104361276B (zh) | 一种多模态生物特征身份认证方法及系统 | |
CN111881726B (zh) | 一种活体检测方法、装置及存储介质 | |
CN112149638B (zh) | 基于多模态生物特征的人员身份识别系统构建及使用方法 | |
CN111429935B (zh) | 一种语音话者分离方法和装置 | |
CN112735473B (zh) | 基于声音识别无人机的方法及系统 | |
CN106601230B (zh) | 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统 | |
CN106709402A (zh) | 基于音型像特征的真人活体身份验证方法 | |
CN110750152B (zh) | 一种基于唇部动作的人机交互方法和系统 | |
CN107257161A (zh) | 一种基于状态识别算法的变电站刀闸遥控辅助校核方法及系统 | |
CN104269172A (zh) | 基于视频定位的语音控制方法和系统 | |
CN110956965A (zh) | 一种基于声纹识别的个性化智能家居安全控制系统及方法 | |
CN112634561A (zh) | 基于图像识别的安全报警方法和系统 | |
CN109243492A (zh) | 一种语音情感识别系统及识别方法 | |
CN109614881A (zh) | 可自适应调节阈值的生物识别认证方法、设备及存储设备 | |
CN111341350A (zh) | 人机交互控制方法、系统、智能机器人及存储介质 | |
CN103778917A (zh) | 一种在电话满意度调查中检测身份冒充的系统与方法 | |
CN111477226B (zh) | 控制方法、智能设备和存储介质 | |
CN112735014A (zh) | 基于人脸识别的可视化对讲方法和系统 | |
CN110415707B (zh) | 一种基于语音特征融合和gmm的说话人识别方法 | |
CN110892412A (zh) | 脸部辨识系统、脸部辨识方法及脸部辨识程序 | |
CN112132865A (zh) | 人员识别方法及系统 | |
CN115100701A (zh) | 一种基于人工智能技术的会议发言人身份识别方法 | |
EP3613040B1 (en) | Speaker recognition method and system | |
CN110136710A (zh) | 人工耳蜗控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210430 |