CN116259095A - 一种基于计算机的识别系统及方法 - Google Patents
一种基于计算机的识别系统及方法 Download PDFInfo
- Publication number
- CN116259095A CN116259095A CN202310338112.7A CN202310338112A CN116259095A CN 116259095 A CN116259095 A CN 116259095A CN 202310338112 A CN202310338112 A CN 202310338112A CN 116259095 A CN116259095 A CN 116259095A
- Authority
- CN
- China
- Prior art keywords
- data
- image
- voice
- module
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000007405 data analysis Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000011176 pooling Methods 0.000 description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/70—Multimodal biometrics, e.g. combining information from different biometric modalities
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C9/00—Individual registration on entry or exit
- G07C9/30—Individual registration on entry or exit not involving the use of a pass
- G07C9/32—Individual registration on entry or exit not involving the use of a pass in combination with an identity check
- G07C9/37—Individual registration on entry or exit not involving the use of a pass in combination with an identity check using biometric data, e.g. fingerprints, iris scans or voice recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于计算机的识别系统及方法,涉及语音图像识别技术领域,包括数据采集模块、数据处理模块、数据分析模块、执行模块、报警模块和数据库,通过数据采集模块采集语音数据和图像数据,然后数据处理模块对语音数据和图像数据进行标记处理,然后将标记处理计算后的声音音色和图像数据利用数据分析模块进行分析,先对声音音色进行分析,符合判别标准后对图像数据进行分析计算,若都符合判别标准,则可将门打开,其中不符合判别标准的都需重新进行采集,并进行报警提示,实现了利用语音识别和图像识别相结合的方式对门禁进行控制的功能。
Description
技术领域
本发明涉及语音图像识别技术领域,具体的是一种基于计算机的识别系统及方法。
背景技术
随着商业大厦、智慧社区的规模化发展,越来越多的出入口控制场所选择部署智能门禁控制管理系统,以期实现高效率、高安全的通行权限管理。智慧门禁机是安装在门附近的建筑物面上,用于人身份识别,并控制门被打开或关闭的设备,是智能门禁控制管理系统的重要组成部分之一。
随着科技的发展,计算机的语音和图像识别系统被越来越多的应用到门禁系统里面,现有的门禁系统内的安全性方面做的不够好,为此,现在提供一种基于计算机的识别系统及方法。
发明内容
为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于计算机的识别系统及方法,能够利用语音识别和图像识别相结合的方式对门禁进行控制,提高安全性。
本发明的目的可以通过以下技术方案实现:一种基于计算机的识别系统,包括:
数据采集模块:用于采集语音数据和图像数据,并且将采集到的语音数据和图像数据发送至数据处理模块进行处理;
数据处理模块:用于对语音数据和图像数据进行特征提取,并且将特征提取后的语音数据和图像数据进行标记,其中,语音数据特征提取为:声音音色,声音分贝和声音速度;图像数据特征提取为:图像人脸特征点数和图像人脸整体轮廓数据;
利用标记后的语音数据计算得出语音判定指数,并将语音判定指数与设定的语音判定指数阈值进行判别,若不符合判别标准,则发送重新采集信号至数据采集模块,数据采集模块对声音数据进行重新采集,若符合判别标准,则将声音音色和图像数据发送至数据分析模块进行分析;
数据分析模块:用于采集数据库内的音色参数集,并且将得到的声音音色与音色参数集进行特征匹配,若匹配失败,则发送重新采集信号至数据采集模块,数据采集模块对声音数据进行再次采集,并且发送报警信号至报警模块,报警模块通过报警提示工作人员用户为无录入成员,若匹配成功,则再对图像数据进行分析;
若图像人脸特征点数小于三,则未达到判别标准,发送重新采集信号至数据采集模块,数据采集模块对图像数据进行重新采集,若图像人脸特征点数大于等于三,则达到判别标准,利用图像人脸特征点数和图像人脸整体轮廓数据计算得出图像判定系数,并将图像判定系数与设定的标准图像判定系数计算得出图像比例系数,与设定的图像比例系数阈值相比较,若图像比例系数大于等于图像比例系数阈值,则说明此用户与录入过人脸的用户相匹配,数据分析模块发送开门信号至执行模块,执行模块将门打开允许用户进入,若图像比例系数小于图像比例系数阈值,则说明此用户为录入过人脸,发送报警信号至报警模块,报警模块通过报警对工作人员进行提示;
报警模块:用于在接收到报警信号时进行报警;
执行模块:用于在接受到执行信号时将门打开;
数据库:用于采集并存储音色参数集。
优选地,所述数据采集模块包括语音采集单元、图像采集单元和预处理单元,所述语音采集单元用于采集语音数据,并发送至预处理单元进行预处理,所述图像采集单元用于采集图像数据,并发送至预处理单元进行预处理,所述预处理单元用于对语音数据和图像数据进行预处理。
优选地,所述语音采集单元为模拟拾音器,从而能够采集模拟声音信号,所述图像采集单元为摄像头.
优选地,所述报警模块为蜂鸣报警器。
优选地,所述数据处理模块的处理过程包括以下步骤:
对声音音色,声音分贝和声音速度进行标记,将声音音色标记为Ysi、声音分贝标记为Fbi、声音速度标记为Sdi;
所述数据处理模块对图像人脸特征点数和图像人脸整体轮廓数据进行标记,将图像人脸特征点数标记为Tzi,图像人脸整体轮廓数据标记为Lki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
将计算得出的语音判定指数Ypi与设定的语音判定指数阈值Yp0相比较,若则说明采集的语音数据符合判别标准,数据处理模块将声音音色Ysi发送至数据分析模块进行分析,若Ypi<Yp0或/>则说明采集的语音数据不符合判别标准,数据处理模块发送重新采集信号至数据采集模块,数据采集模块对语音数据进行再次采集。
优选地,所述数据分析模块的分析过程包括以下步骤:
获取数据库内存储的音色参数集Ysjm,利用声音音色Ysi与音色参数集Ysjm进行特征匹配,若声音音色Ysi匹配成功,则数据分析模块再对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行数据分析,若声音音色Ysi匹配失败,则数据分析模块发送重新采集信号至数据采集模块进行重新采集,且发送报警信号至报警模块,报警模块通过报警对工作人员提示此人员为无录入成员;
对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行分析,若Tzi<3,则则数据分析模块发送重新采集信号至数据采集模块进行重新采集;
设定标准图像判定系数Tx0,并且与计算得出的图像判定系数Txi利用公式得出图像比例系数Bli,式中/>为预设比例系数,将图像比例系数Bli与设定的图像比例系数阈值Bl0相比较,若Bli≥Bl0,则说明此用户与录入过人脸的用户相匹配,数据分析模块发送开门信号至执行模块,执行模块将门打开允许用户进入,若Bli<Bl0,则说明此用户之前未录入人脸,数据分析模块发送报警信号至报警模块,报警模块通过报警对工作人员进行提示。
优选地,所述音色参数集Ysjm={Ysj1、Ysj2、Ysj3、...、Ysjt},其中m为录入用户音色标号,t为录入用户总数。
优选地,所述音色参数集Ysjm的获取过程如下:
通过数据库内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝参数和声音速度参数;
将声音信息与音色映射模型相结合,获取并存储声音音色参数,然后将所有获取得到的声音音色参数进行整合形成音色参数集,需要进行说明的是,所述音色映射模型基于人工智能模型进行训练。
优选地,基于人工智能模型来对音色映射模型进行训练,过程如下:
通过服务器整合并获取标准训练数据,其中,标准训练数据包括声音信息和声音音色参数;
通过标准训练数据对人工智能模型进行训练,获取并存储音色映射模型;其中,人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
优选地,一种基于计算机的识别方法,方法包括以下步骤:
接收语音数据和图像数据,并对语音数据和图像数据分别进行特征提取,对特征提取后的语音数据和图像数据分别进行标记;
其中,对语音数据特征提取后包括:声音音色,声音分贝和声音速度;对图像数据特征提取后包括:图像人脸特征点数和图像人脸整体轮廓数据;
利用标记后的语音数据计算得出语音判定指数,并与设定的语音判定系数阈值相比较,若不符合判别标准则对语音数据进行再次采集,若符合判别标准则再对声音音色进行分析;
若声音音色与存储的音色参数集特征匹配失败,则需对语音数据再次采集,并报警提示工作人员为非录入用户,若声音音色与存储的音色参数集特征相匹配成功,则对标记后的图像数据进行分析;
若图像数据内的图像人脸特征点数小于三个,则重新对图像数据进行采集,若图像数据内的图像人脸特征点数不小于三个,则利用图像数据计算得出图像判定系数;
将图像判定系数与设定的标准图像判定系数计算得出图像比例系数,且将图像比例系数与设定的图像比例系数阈值相比较,若图像比例系数大于等于图像比例系数阈值,则将门打开,若图像比例系数小于图像比例系数阈值,则报警提示工作人员为非录入用户。
本发明的有益效果:
本发明在使用的过程中,能够实现利用语音识别和图像识别相结合的方式对门禁进行控制的功能,提高一定的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明原理结构示意图;
图2是本发明流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,一种基于计算机的识别系统,包括:
数据采集模块、数据处理模块、数据分析模块、执行模块、报警模块和数据库;
所述数据采集模块用于采集语音数据和图像数据,并且将采集到的语音数据和图像数据发送至数据处理模块进行处理;
需要进一步进行说明的是,在具体实施过程中,所述数据采集模块包括语音采集单元、图像采集单元和预处理单元,所述语音采集单元用于采集语音数据,并发送至预处理单元进行预处理,所述图像采集单元用于采集图像数据,并发送至预处理单元进行预处理,所述预处理单元用于对语音数据和图像数据进行预处理,需要进一步进行说明的是,所述预处理单元对语音数据利用数字拾音器,采用模数转换的方法,将模拟声音信号转换为数字声音信号,从而能够方便进行处理,所述预处理单元对图像数据进行预处理的过程为对图像进行灰度处理;在本实施例中,所述语音采集单元为模拟拾音器,从而能够采集模拟声音信号,所述图像采集单元为摄像头。
需要说明的是,所述拾音器分为数字拾音器和模拟拾音器,数字拾音器就是通过数字信号处理系统将模拟的音频信号转换成数字信号并进行相应的数字信号处理的声音传感设备。模拟拾音器就只是用一般的模拟电路放大咪头采集到的声音。拾音器有三线制和四线制之分;三线制拾音器一般红色代表电源正极,白色代表音频正极,黑色代表信号及电源的负极(公共地)。四线制拾音器一般红色代表电源正极,白色代表音频正极,音频负极和电源负极是分开来。拾音器产品通常分为有源和无源两种类型;按性能分有声乐吉他和监控用拾音器。
所述数据处理模块用于在接收到数据采集模块发送的语音数据和图像数据后,进行数据处理,具体的,数据处理模块的处理过程包括以下步骤:
需要说明的是,所述数据处理模块对语音数据进行特征提取,包括:声音音色,声音分贝和声音速度;
所述数据处理模块对图像数据进行特征提取,包括:图像人脸特征点数和图像人脸整体轮廓数据;
所述数据处理模块对声音音色,声音分贝和声音速度进行标记,将声音音色标记为Ysi、声音分贝标记为Fbi、声音速度标记为Sdi;
所述数据处理模块对图像人脸特征点数和图像人脸整体轮廓数据进行标记,将图像人脸特征点数标记为Tzi,图像人脸整体轮廓数据标记为Lki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
需要进一步进行说明的是,在具体实施过程中,声音分贝反映语音数据的响度,声音音色反映语音数据的类别,声音速度反映语音数据的传播速度,图像人脸特征点最多包括鼻子、眼睛、耳朵和嘴巴四个特征点位置,可用于通过图像人脸特征点数进行判断,图像人脸整体轮廓数据为人脸整体的轮廓线条程度;
将计算得出的语音判定指数Ypi与设定的语音判定指数阈值Yp0相比较,若则说明采集的语音数据符合判别标准,数据处理模块将声音音色Ysi发送至数据分析模块进行分析,若Ypi<Yp0或/>则说明采集的语音数据不符合判别标准,数据处理模块发送重新采集信号至数据采集模块,数据采集模块对语音数据进行再次采集;
将声音音色Ysi、图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki发送至数据分析模块进行分析,所述数据分析模块在接收到数据处理模块发送的声音音色Ysi、图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki后,进行数据分析,具体的,数据分析模块的分析过程包括以下步骤:
通过数据分析模块内的采集单元获取数据库内存储的音色参数集Ysjm,利用声音音色Ysi与音色参数集Ysjm进行特征匹配,若声音音色Ysi匹配成功,则数据分析模块再对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行数据分析,若声音音色Ysi匹配失败,则数据分析模块发送重新采集信号至数据采集模块进行重新采集,且发送报警信号至报警模块,报警模块通过报警对工作人员提示此人员为无录入成员,在本实施例中,所述报警模块为蜂鸣报警器;
需要进一步进行说明的是,在具体实施过程中,所述音色参数集Ysjm={Ysj1、Ysj2、Ysj3、...、Ysjt},其中m为录入用户音色标号,t为录入用户总数;
对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行分析,若Tzi<3,则说明此图像数据的人脸特征点的数目未达到能够进行判定的标准,则数据分析模块发送重新采集信号至数据采集模块进行重新采集;
设定标准图像判定系数Tx0,并且与计算得出的图像判定系数Txi利用公式得出图像比例系数Bli,式中/>为预设比例系数,将图像比例系数Bli与设定的图像比例系数阈值Bl0相比较,若Bli≥Bl0,则说明此用户与录入过人脸的用户相匹配,数据分析模块发送开门信号至执行模块,执行模块将门打开允许用户进入,若Bli<Bl0,则说明此用户之前未录入人脸,数据分析模块发送报警信号至报警模块,报警模块通过报警对工作人员进行提示;
需要进一步进行说明的是,在具体实施过程中,图像的人脸特征包括鼻子、眼睛、耳朵和嘴巴四个特征点位置,若采集的图像人脸特征点数达到或超过三个,则说明此图像数据达到了能够进行判别的程度,若为超过三个,则说明此图像数据未到达能够进行判别的程度,所以需要重新进行采集;
需要进行说明的是,数据库内存储的音色参数集Ysjm的获取过程如下:
通过数据库内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝参数和声音速度参数;
将声音信息与音色映射模型相结合,获取并存储声音音色参数,然后将所有获取得到的声音音色参数进行整合形成音色参数集,需要进行说明的是,所述音色映射模型基于人工智能模型进行训练;
需要进一步进行说明的是,在具体实施过程中,基于人工智能模型来对音色映射模型进行训练,具体过程为:
通过服务器整合并获取标准训练数据,其中,标准训练数据包括声音信息和声音音色参数;
通过标准训练数据对人工智能模型进行训练,获取并存储音色映射模型;其中,人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
需要进一步进行说明的是,在具体实施过程中,所述人工智能模型用于训练音色映射模型,所述音色映射模型用于生成用户音色参数。
需要进一步进行说明的是,所述深度卷积神经网络模型是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks),是深度学习(deeplearning)的代表算法之一,卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类,卷积是一种线性运算,需要将一组权重与输入相乘,以生成称为滤波器的二维权重数组。如果调整滤波器以检测输入中的特定特征类型,则在整个输入图像中重复使用该滤波器可以发现图像中任意位置的特征,结构包括:输入层:卷积神经网络的输入层可以处理多维数据,常见地,一维卷积神经网络的输入层接收一维或二维数组,其中一维数组通常为时间或频谱采样;二维数组可能包含多个通道;二维卷积神经网络的输入层接收二维或三维数组;三维卷积神经网络的输入层接收四维数组[16]。由于卷积神经网络在计算机视觉领域应用较广,因此许多研究在介绍其结构时预先假设了三维输入数据,即平面上的二维像素点和RGB通道。与其它神经网络算法类似,由于使用梯度下降算法进行学习,卷积神经网络的输入特征需要进行标准化处理。具体地,在将学习数据输入卷积神经网络前,需在通道或时间/频率维对输入数据进行归一化。
隐含层:卷积神经网络的隐含层包含卷积层、池化层和全连接层3类常见构筑,在一些更为现代的算法中可能有Inception模块、残差块(residual block)等复杂构筑。在常见构筑中,卷积层和池化层为卷积神经网络特有。卷积层中的卷积核包含权重系数,而池化层不包含权重系数,因此在文献中,池化层可能不被认为是独立的层。以LeNet-5为例,3类常见构筑在隐含层中的顺序通常为:输入-卷积层-池化层-全连接层-输出。
所述RBF神经网络模型又称为径向基神经网络模型,是一种三层前向网络,第一层为由信号源节点组成的输入层,第二层为隐层,隐单元数视问题需要而定,隐单元的变换函数为非负非线性的函数RBF(径向基函数),第三层为输出层,输出层是对隐层神经元输出的线性组合,RBF神经网络模型的基本思想是:用RBF作为隐单元的基构成隐含层空间,这样就可以将输入矢量直接映射到隐空间,而不需要通过权连接。当RBF的中心点确定以后,这种映射关系也就确定了。而隐含层空间到输出空间的映射是线性的,即网络的输出是隐单元输出的线性加权和,此处的权即为网络可调参数。其中,隐含层的作用是把向量从低维度的映射到高维度的,这样低维度线性不可分的情况到高维度就可以变得线性可分了,主要就是核函数的思想。这样,网络由输入到输出的映射是非线性的,而网络输出对可调参数而言却又是线性的。网络的权就可由线性方程组直接解出,从而大大加快学习速度并避免局部极小问题。
如图2所示,一种基于计算机的识别方法,包括以下步骤:
接收语音数据和图像数据,并对语音数据和图像数据分别进行特征提取,对特征提取后的语音数据和图像数据分别进行标记;
其中,对语音数据特征提取后包括:声音音色,声音分贝和声音速度;对图像数据特征提取后包括:图像人脸特征点数和图像人脸整体轮廓数据;
利用标记后的语音数据计算得出语音判定指数,并与设定的语音判定系数阈值相比较,若不符合判别标准则对语音数据进行再次采集,若符合判别标准则再对声音音色进行分析;
若声音音色与存储的音色参数集特征匹配失败,则需对语音数据再次采集,并报警提示工作人员为非录入用户,若声音音色与存储的音色参数集特征相匹配成功,则对标记后的图像数据进行分析;
若图像数据内的图像人脸特征点数小于三个,则重新对图像数据进行采集,若图像数据内的图像人脸特征点数不小于三个,则利用图像数据计算得出图像判定系数;
将图像判定系数与设定的标准图像判定系数计算得出图像比例系数,且将图像比例系数与设定的图像比例系数阈值相比较,若图像比例系数大于等于图像比例系数阈值,则将门打开,若图像比例系数小于图像比例系数阈值,则报警提示工作人员为非录入用户。
在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解,本公开不受上述实施例的限制,上述实施例和说明书中描述的只是说明本公开的原理,在不脱离本公开精神和范围的前提下,本公开还会有各种变化和改进,这些变化和改进都落入要求保护的本公开范围内容。
Claims (10)
1.一种基于计算机的识别系统,其特征在于,包括:
数据采集模块:用于采集语音数据和图像数据,并且将采集到的语音数据和图像数据发送至数据处理模块进行处理;
数据处理模块:用于对语音数据和图像数据进行特征提取,并且将特征提取后的语音数据和图像数据进行标记,其中,语音数据特征提取为:声音音色,声音分贝和声音速度;图像数据特征提取为:图像人脸特征点数和图像人脸整体轮廓数据;
利用标记后的语音数据计算得出语音判定指数,并将语音判定指数与设定的语音判定指数阈值进行判别,若不符合判别标准,则发送重新采集信号至数据采集模块,数据采集模块对声音数据进行重新采集,若符合判别标准,则将声音音色和图像数据发送至数据分析模块进行分析;
数据分析模块:用于采集数据库内的音色参数集,并且将得到的声音音色与音色参数集进行特征匹配,若匹配失败,则发送重新采集信号至数据采集模块,数据采集模块对声音数据进行再次采集,并且发送报警信号至报警模块,报警模块通过报警提示工作人员用户为无录入成员,若匹配成功,则再对图像数据进行分析;
若图像人脸特征点数小于三,则未达到判别标准,发送重新采集信号至数据采集模块,数据采集模块对图像数据进行重新采集,若图像人脸特征点数大于等于三,则达到判别标准,利用图像人脸特征点数和图像人脸整体轮廓数据计算得出图像判定系数,并将图像判定系数与设定的标准图像判定系数计算得出图像比例系数,与设定的图像比例系数阈值相比较,若图像比例系数大于等于图像比例系数阈值,则说明此用户与录入过人脸的用户相匹配,数据分析模块发送开门信号至执行模块,执行模块将门打开允许用户进入,若图像比例系数小于图像比例系数阈值,则说明此用户为录入过人脸,发送报警信号至报警模块,报警模块通过报警对工作人员进行提示;
报警模块:用于在接收到报警信号时进行报警;
执行模块:用于在接受到执行信号时将门打开;
数据库:用于采集并存储音色参数集。
2.根据权利要求1所述的一种基于计算机的识别系统,其特征在于,所述数据采集模块包括语音采集单元、图像采集单元和预处理单元,所述语音采集单元用于采集语音数据,并发送至预处理单元进行预处理,所述图像采集单元用于采集图像数据,并发送至预处理单元进行预处理,所述预处理单元用于对语音数据和图像数据进行预处理。
3.根据权利要求2所述的一种基于计算机的识别系统,其特征在于,所述语音采集单元为模拟拾音器,从而能够采集模拟声音信号,所述图像采集单元为摄像头。
4.根据权利要求1所述的一种基于计算机的识别系统,其特征在于,所述报警模块为蜂鸣报警器。
5.根据权利要求1所述的一种基于计算机的识别系统,其特征在于,所述数据处理模块的处理过程包括以下步骤:
对声音音色,声音分贝和声音速度进行标记,将声音音色标记为Ysi、声音分贝标记为Fbi、声音速度标记为Sdi;
所述数据处理模块对图像人脸特征点数和图像人脸整体轮廓数据进行标记,将图像人脸特征点数标记为Tzi,图像人脸整体轮廓数据标记为Lki,其中,i为采集次数标号,且i=1、2、3、...、n,n为采集次数总数;
6.根据权利要求1所述的一种基于计算机的识别系统,其特征在于,所述数据分析模块的分析过程包括以下步骤:
获取数据库内存储的音色参数集Ysjm,利用声音音色Ysi与音色参数集Ysjm进行特征匹配,若声音音色Ysi匹配成功,则数据分析模块再对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行数据分析,若声音音色Ysi匹配失败,则数据分析模块发送重新采集信号至数据采集模块进行重新采集,且发送报警信号至报警模块,报警模块通过报警对工作人员提示此人员为无录入成员;
对图像人脸特征点数Tzi和图像人脸整体轮廓数据Lki进行分析,若Tzi<3,则则数据分析模块发送重新采集信号至数据采集模块进行重新采集;
7.根据权利要求6所述的一种基于计算机的识别系统,其特征在于,所述音色参数集Ysjm={Ysj1、Ysj2、Ysj3、...、Ysjt},其中m为录入用户音色标号,t为录入用户总数。
8.根据权利要求7所述的一种基于计算机的识别系统,其特征在于,所述音色参数集Ysjm的获取过程如下:
通过数据库内的数据采集终端来对用户的声音信息进行录入,其中,用户的声音信息包括声音分贝参数和声音速度参数;
将声音信息与音色映射模型相结合,获取并存储声音音色参数,然后将所有获取得到的声音音色参数进行整合形成音色参数集,需要进行说明的是,所述音色映射模型基于人工智能模型进行训练。
9.根据权利要求8所述的一种基于计算机的识别系统,其特征在于,基于人工智能模型来对音色映射模型进行训练,过程如下:
通过服务器整合并获取标准训练数据,其中,标准训练数据包括声音信息和声音音色参数;
通过标准训练数据对人工智能模型进行训练,获取并存储音色映射模型;其中,人工智能模型包括深度卷积神经网络模型和RBF神经网络模型。
10.一种基于计算机的识别方法,其特征在于,方法包括以下步骤:
接收语音数据和图像数据,并对语音数据和图像数据分别进行特征提取,对特征提取后的语音数据和图像数据分别进行标记;
其中,对语音数据特征提取后包括:声音音色,声音分贝和声音速度;对图像数据特征提取后包括:图像人脸特征点数和图像人脸整体轮廓数据;
利用标记后的语音数据计算得出语音判定指数,并与设定的语音判定系数阈值相比较,若不符合判别标准则对语音数据进行再次采集,若符合判别标准则再对声音音色进行分析;
若声音音色与存储的音色参数集特征匹配失败,则需对语音数据再次采集,并报警提示工作人员为非录入用户,若声音音色与存储的音色参数集特征相匹配成功,则对标记后的图像数据进行分析;
若图像数据内的图像人脸特征点数小于三个,则重新对图像数据进行采集,若图像数据内的图像人脸特征点数不小于三个,则利用图像数据计算得出图像判定系数;
将图像判定系数与设定的标准图像判定系数计算得出图像比例系数,且将图像比例系数与设定的图像比例系数阈值相比较,若图像比例系数大于等于图像比例系数阈值,则将门打开,若图像比例系数小于图像比例系数阈值,则报警提示工作人员为非录入用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338112.7A CN116259095A (zh) | 2023-03-31 | 2023-03-31 | 一种基于计算机的识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310338112.7A CN116259095A (zh) | 2023-03-31 | 2023-03-31 | 一种基于计算机的识别系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116259095A true CN116259095A (zh) | 2023-06-13 |
Family
ID=86679459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310338112.7A Pending CN116259095A (zh) | 2023-03-31 | 2023-03-31 | 一种基于计算机的识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116259095A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018113526A1 (zh) * | 2016-12-20 | 2018-06-28 | 四川长虹电器股份有限公司 | 基于人脸识别和声纹识别的交互式认证系统及方法 |
CN108682064A (zh) * | 2018-05-14 | 2018-10-19 | 广东汇泰龙科技有限公司 | 一种基于语音识别和人脸识别的开锁方法及系统 |
WO2019205369A1 (zh) * | 2018-04-28 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
CN111311809A (zh) * | 2020-02-21 | 2020-06-19 | 南京理工大学 | 基于多生物特征融合的智能化门禁系统 |
CN111960200A (zh) * | 2020-08-14 | 2020-11-20 | 安徽迅立达电梯有限公司 | 一种基于语音识别和面部识别的居民楼电梯控制系统 |
CN112562150A (zh) * | 2020-11-23 | 2021-03-26 | 深圳华颐智能系统有限公司 | 一种基于人脸识别的学生公寓管理方法、装置、系统及介质 |
CN113112664A (zh) * | 2021-02-23 | 2021-07-13 | 广州李博士科技研究有限公司 | 一种人脸识别立式门禁设备 |
CN113807246A (zh) * | 2021-09-16 | 2021-12-17 | 平安普惠企业管理有限公司 | 人脸识别方法、装置、设备及存储介质 |
-
2023
- 2023-03-31 CN CN202310338112.7A patent/CN116259095A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018113526A1 (zh) * | 2016-12-20 | 2018-06-28 | 四川长虹电器股份有限公司 | 基于人脸识别和声纹识别的交互式认证系统及方法 |
WO2019205369A1 (zh) * | 2018-04-28 | 2019-10-31 | 平安科技(深圳)有限公司 | 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质 |
CN108682064A (zh) * | 2018-05-14 | 2018-10-19 | 广东汇泰龙科技有限公司 | 一种基于语音识别和人脸识别的开锁方法及系统 |
CN111311809A (zh) * | 2020-02-21 | 2020-06-19 | 南京理工大学 | 基于多生物特征融合的智能化门禁系统 |
CN111960200A (zh) * | 2020-08-14 | 2020-11-20 | 安徽迅立达电梯有限公司 | 一种基于语音识别和面部识别的居民楼电梯控制系统 |
CN112562150A (zh) * | 2020-11-23 | 2021-03-26 | 深圳华颐智能系统有限公司 | 一种基于人脸识别的学生公寓管理方法、装置、系统及介质 |
CN113112664A (zh) * | 2021-02-23 | 2021-07-13 | 广州李博士科技研究有限公司 | 一种人脸识别立式门禁设备 |
CN113807246A (zh) * | 2021-09-16 | 2021-12-17 | 平安普惠企业管理有限公司 | 人脸识别方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105022835B (zh) | 一种群智感知大数据公共安全识别方法及系统 | |
US5412738A (en) | Recognition system, particularly for recognising people | |
CN112149638B (zh) | 基于多模态生物特征的人员身份识别系统构建及使用方法 | |
CN116189681B (zh) | 一种智能语音交互系统及方法 | |
WO2019153404A1 (zh) | 智能教室语音控制系统 | |
EP0629996A2 (en) | Automated intelligent monitoring system | |
CN113221673B (zh) | 基于多尺度特征聚集的说话人认证方法及系统 | |
CN109447199A (zh) | 一种基于脚步信息的多模态罪犯识别方法及系统 | |
CN113823293A (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN114022726A (zh) | 一种基于胶囊网络的人员车辆监控方法及系统 | |
CN113707175B (zh) | 基于特征分解分类器与自适应后处理的声学事件检测系统 | |
CN111091840A (zh) | 一种建立性别识别模型的方法及性别识别方法 | |
CN118015808A (zh) | 一种智能安防监控方法及系统 | |
CN117762372A (zh) | 一种多模态人机交互系统 | |
CN111582195B (zh) | 一种汉语唇语单音节识别分类器构建方法 | |
CN110580915B (zh) | 基于可穿戴式设备的声源目标识别系统 | |
CN110555929B (zh) | 一种实验室门禁验证系统与验证方法 | |
CN116259095A (zh) | 一种基于计算机的识别系统及方法 | |
KR101208678B1 (ko) | 다중 생체정보를 이용하는 점진적 개인인증 시스템 및 방법 | |
CN111862991A (zh) | 一种婴儿哭声的识别方法及系统 | |
CN111824879B (zh) | 智能语音无接触梯控方法、系统及存储介质 | |
CN114003883A (zh) | 一种便携式的数字化身份验证设备及身份验证方法 | |
CN113591619A (zh) | 一种基于录像视频的人脸识别核验装置及其核验方法 | |
CN112215064A (zh) | 一种用于公共安全防范的人脸识别方法及系统 | |
CN112735400A (zh) | 一种语音识别智能传感器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |