CN112289306B - 一种基于人体特征的未成年人识别的方法及装置 - Google Patents

一种基于人体特征的未成年人识别的方法及装置 Download PDF

Info

Publication number
CN112289306B
CN112289306B CN202011290920.3A CN202011290920A CN112289306B CN 112289306 B CN112289306 B CN 112289306B CN 202011290920 A CN202011290920 A CN 202011290920A CN 112289306 B CN112289306 B CN 112289306B
Authority
CN
China
Prior art keywords
feature vector
vector
feature
face image
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011290920.3A
Other languages
English (en)
Other versions
CN112289306A (zh
Inventor
高朋
汪俊
李索恒
张志齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yitu Technology Co ltd
Original Assignee
Shanghai Yitu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yitu Technology Co ltd filed Critical Shanghai Yitu Technology Co ltd
Priority to CN202011290920.3A priority Critical patent/CN112289306B/zh
Publication of CN112289306A publication Critical patent/CN112289306A/zh
Application granted granted Critical
Publication of CN112289306B publication Critical patent/CN112289306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Collating Specific Patterns (AREA)

Abstract

本公开涉及计算机技术,特别涉及一种基于人体特征的未成年人识别的方法及装置,用以提高设备对未成年人的识别正确率,该方法为:终端设备收集目标人体的人脸图像信息和语音信息,并对其进行特征提取之后,将提取到的各个特征向量送入相应的向量处理模型之中,得到转化之后的各个特征向量,再将转化后的各个特征向量进行合并,获得判断向量,最终基于所述判断向量,对未成年人进行识别。这样,通过了多种人体特征的输入,使得终端设备在各种条件下均可工作,进一步的,通过对各个特征向量的转化,避免了单一的识别条件导致的识别错误的情况发生,使得最终结果正确性得到保证,以及通过将特征向量合并,完成对多个特征向量的分析,提高了工作效率。

Description

一种基于人体特征的未成年人识别的方法及装置
技术领域
本公开涉及人工智能领域,特别涉及一种基于人体特征的未成年人识别的方法及装置。
背景技术
日常生活中,在很多场景下都需要对未成年人进行识别。例如:游乐园中仅限未成年人游玩的设施的入口处,公交、地铁或其他交通工具的检票处,网吧、酒吧等禁止未成年人出入的场所的入口处等等,都需要设立对未成年进行识别的设备。
相关技术下,对未成年人的识别,采用如下方法:设备对待检测人员的面部图像进行采集,分析采集到的脸部图像,进而判断被待检测人员是否成年。
但是,利用面部图像分析被检测人员是否未成年的识别正确率并不理想,主要是由于以下几点:
1、识别手法过于单一,必须采集图像信息,否则便无法判断;
2、识别依据过于单一,仅仅依靠图像信息进行判断,未考虑到不同个体之间的差异,若存在长相偏老的未成年人或长相偏幼的成年人,则不能成功识别;
因此,需要设计一种基于人体特征的未成年人识别的方法及装置,以克服上述缺陷。
发明内容
本公开提供一种基于人体特征的未成年人识别的方法及装置,用以提高设备对未成年人的识别正确率。
本发明提供的具体技术方案如下:
第一方面,一种基于人体特征的未成年人识别方法,包括:
接收输入的目标人体的人脸图像信息和语音信息;
分别对所述人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量;
分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量;
对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量;
基于所述判断向量,获得最终的未成年人识别结果。
可选的,分别对所述人脸图像信息,以及所述语音信息进行特征提取,获得相应的各个特征向量,包括:
对所述人脸图像信息,采用以下任意一种方式或任意组合,进行特征提取,获得特征提取后的第一人脸图像特征向量:
对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量;
对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
可选的,分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量,包括:
分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商;
基于所述商计算所述各个特征向量的权重占比;
基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
可选的,对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量,包括以下任意一种方式:
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量;
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
可选的,基于所述判断向量,获得最终的未成年人识别结果,包括以下任意一种方式:
将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果;
将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
第二方面,一种基于人体特征的未成年人识别装置,包括:
接收单元,用于接收输入的目标人体的人脸图像信息和语音信息;
第一处理单元,用于分别对所述人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量;
第二处理单元,用于分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量;
第三处理单元,用于对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量;
第四处理单元,用于基于所述判断向量,获得最终的未成年人识别结果。
可选的,分别对所述人脸图像信息,以及所述语音信息进行特征提取,获得相应的各个特征向量,所述第一处理单元用于:
对所述人脸图像信息,采用以下任意一种方式或任意组合,进行特征提取,获得特征提取后的第一人脸图像特征向量:
对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量;
对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
可选的,分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量,所述第二处理单元用于:
分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商;
基于所述商计算所述各个特征向量的权重占比;
基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
可选的,对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量,所述第三处理单元用于以下任意一种方式:
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量;
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
可选的,基于所述判断向量,获得最终的未成年人识别结果,所述第四处理单元用于以下任意一种方式:
将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果;
将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
第三方面,一种基于人体特征的未成年人识别装置,包括:
存储器,用于存储可执行计算机程序;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如第一方面中任一项所述的方法。
第四方面,一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如第一方面中任一项所述的方法。
本公开实施例中,终端设备收集目标人体的人脸图像信息和语音信息,并对其进行特征提取之后,将提取到的各个特征向量送入相应的向量处理模型之中,得到转化之后的各个特征向量,再将转化后的各个特征向量进行合并,获得判断向量,最终基于所述判断向量,对未成年人进行识别。这样,通过了多种人体特征的输入,避免了由于识别手法单一,导致识别条件严苛的问题,使得终端设备在各种条件下均可工作,进一步的,通过对各个特征向量的转化,可以得到各个特征向量的权重占比,避免了单一的识别条件导致的识别错误的情况发生,使得最终的结果正确性得到保证,以及通过将特征向量合并,简化了识别过程,可以通过一步操作,完成对多个特征向量的分析,极大地提高了工作效率。
附图说明
图1为本公开实施例中基于人体特征的未成年人识别的流程示意图;
图2为本公开实施例中提取人体信息的示意图;
图3为本公开实施例中将人体信息转化为人体特征向量的示意图;
图4为本公开实施例中终端设备的逻辑架构示意图;
图5为本公开实施例中终端设备的实体架构示意图。
具体实施方式
为了解决现有技术下未成年人识别准确率低的问题,本公开实施例中,终端设备收集目标人体的人脸图像信息和语音信息,并对其进行特征提取之后,将提取到的各个特征向量送入相应的向量处理模型之中,得到转化之后的各个特征向量,再将转化后的各个特征向量进行合并,获得判断向量,最终基于所述判断向量,对未成年人进行识别。
下面结合附图对本公开优选的实施方式作出进一步详细说明。
参阅图1所示,本公开实施例中,终端设备基于人体特征识别未成年人的详细流程如下:
步骤100:终端设备接收输入的目标人体的人脸图像信息和语音信息。
具体的,终端设备可以接收通过摄像或拍照设备输入的人脸图像信息,以及接收通过麦克风输入的语音信息。
实际应用中,参阅图2所示,假设有一待检测人员A,则终端设备通过摄像头和麦克风分别采集所述待检测人员A的人脸图像信息和语音信息。
步骤110:终端设备分别对获得的人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量。
具体的,对于人脸特征信息的采集,包括但不限于以下方法:
A、终端设备对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量。
B、终端设备采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量。
实际应用中,参阅图3所示,终端设备将从待检测人员A上采集到的人脸图像信息,输入到对应的前馈神经网络模型中进行特征提取,获得特征提取后的第一人脸图像特征向量[a1,a2,a3,……,an],其中,n表示所述人脸图像特征的维度,所述维度可以根据具体使用场景的不同进行调整,a1,a2,a3,……,an均为浮点数。
进一步的,终端设备采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量。
实际应用中,参阅图3所示,终端设备将从待检测人员A上采集到的语音信息,输入到对应的视觉几何模型中进行特征提取,获得特征提取后的第一声纹特征向量[b1,b2,b3,……,bn],其中,n表示所述声纹特征的维度,所述维度可以根据具体使用场景的不同进行调整,b1,b2,b3,……,bn均为浮点数。
进一步的,终端设备对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
实际应用中,参阅图3所示,终端设备首先将从待检测人员A上采集到的语音信息进行切片处理,之后将切片之后的语音信息,输入到对应的径向基函数模型中进行特征提取,获得特征提取后的第一语音内容特征向量[c1,c2,c3,……,cn],其中,n表示所述语音内容信息特征的维度,所述维度可以根据具体使用场景的不同进行调整,c1,c2,c3,……,cn均为浮点数。
其中,对于语音信息的特征提取,不仅限于上述记录的方法,还可以采用其他的基于深度神经网络构建的模型进行特征提取,在此不在赘述。
步骤120:终端设备分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
具体的,终端设备在获得所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量后,首先分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商,进而基于所述商计算所述各个特征向量的权重占比,最终基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
实际应用中,假设所述第一人脸图像特征向量F0=[x1,x2,x3……],第一声纹特征向量为P0=[y1,y2,y3……],第一语音内容特征向量为T0=[z1,z2,z3……]。
首先,按照如下公式,计算得到平均值average:
再根据所述平均值和如下公式计算标准差delta:
其中t为集合(x1,x2,x3……,y1,y2,y3……,z1,z2,z3……)中元素。
基于得到的标准差和平均值对F0,P0,T0中每个元素按照如下公式进行标准化:
再设置一个维度为(512×512)维的辅助矩阵W,按照如下公式,将各个特征向量转化为过渡向量:
alpha P=P0*W
alpha T=T0*W
alpha F=F0*W
基于得到的过渡向量,按照如下公式,最终得到相应的第二人脸图像特征向量F1,第二声纹特征向量P1,第二语音内容特征向量T1。
P1=multiply(alpha P,P0)
T1=multiply(alpha T,T0)
F1=multiply(alpha F,F0)
其中,multiply(矩阵A,矩阵B),表示将括号内的矩阵按位相乘。
步骤130:终端设备对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量。
具体的,终端设备对向量的合并,包括但不限于以下方法:
1)终端设备将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量。
2)终端设备将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
实际应用中,假设第二人脸图像特征向量为F1,所述第二声纹特征向量P1,所述第二语音内容特征向量T1,若采用直接合并的方法,则可以按照如下公式得到判断向量V:
V=[F1,P1,T1]
若采用按权重占比进行叠加的方法,且假设第二人脸图像特征向量权重占比为alpha,第二声纹特征向量权重占比为beta,第二语音内容特征向量权重占比为gamma,则可以按照如下公式得到判断向量V:
V=alpha×F1+beta×P1+gamma×T1
步骤140:终端设备基于所述判断向量,获得最终的未成年人识别结果。
具体的,获得未成年人识别结果,包括但不限于以下方法:
1、终端设备将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果。
2、终端设备将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
实际应用中,假设基于被检测人员A输入的人脸图像信息和语音信息得到的判断向量为V1,基于被检测人员B输入的人脸图像信息和语音信息得到的判断向量为V2,将判断向量V1和V2送入支持向量机中,对应V1得的结果为1,对应V2得到的结果为0,进而输出识别结果,被检测人员A为未成年人,被检测人员B为成年人。
又例如,在嘈杂的环境中有一被检测男性C,终端设备通过摄像头捕捉到所述被侦测男性C具有青春痘人脸面部图像,基于所述人脸面部图像信息,进行特征提取,得到对应的第一人脸图像特征向量FC0=[a1,a2,a3],再基于所述第一人脸图像特征向量FC0,得到第二人脸图像特征向量FC1。
终端设备通过麦克风收集到语音信息,从中提取到第一声纹特征向量PC0=[b1,b2,b3],再基于所述第一声纹特征向量PC0,得到第二声纹特征向量FC1。
终端设备通过麦克风收集到语音信息,从中提取到包含有“初中,作业,游戏”等关键字的语音内容信息特征向量TC0=[c1,c2,c3],再基于所述第一语音内容信息特征向量TC0,得到第二语音内容信息特征向量TC1。
最终,终端设备将FC1,PC1,TC1合并终转化为判断向量V3,将所述判断向量V3输入到支持向量机中,输出结果:男性C为未成年人。
基于同一发明构思,参阅图4所示,本公开实施例提供一种人体姿态识别的装置(如,一种终端设备),包括:
接收单元401,用于接收输入的目标人体的人脸图像信息和语音信息;
第一处理单元402,用于分别对所述人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量;
第二处理单元403,用于分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量;
第三处理单元404,用于对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量;
第四处理单元405,用于基于所述判断向量,获得最终的未成年人识别结果。
可选的,分别对所述人脸图像信息,以及所述语音信息进行特征提取,获得相应的各个特征向量,所述第一处理单元402用于:
对所述人脸图像信息,采用以下任意一种方式或任意组合,进行特征提取,获得特征提取后的第一人脸图像特征向量:
对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量;
对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
可选的,分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量,所述第二处理单元403用于:
分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商;
基于所述商计算所述各个特征向量的权重占比;
基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
可选的,对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量,所述第三处理单元404用于以下任意一种方式:
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量;
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
可选的,基于所述判断向量,获得最终的未成年人识别结果,所述第四处理单元405用于以下任意一种方式:
将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果;
将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
基于同一发明构思,参阅图5所示,本公开实施例提供一种终端设备,包括:
存储器501,用于存储可执行计算机程序;
处理器502,用于读取并执行所述存储器中存储的可执行指令,以实现上述各个实施例中终端设备执行的任意一种方法。
基于同一发明构思,本公开实施例提供一种计算机可读存储介质,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行上述各个实施例中终端设备执行的任意一种方法。
综上所述,本公开实施例中,终端设备收集目标人体的人脸图像信息和语音信息,并对其进行特征提取之后,将提取到的各个特征向量送入相应的向量处理模型之中,得到转化之后的各个特征向量,再将转化后的各个特征向量进行合并,获得判断向量,最终基于所述判断向量,对未成年人进行识别。这样,通过了多种人体特征的输入,避免了由于识别手法单一,导致识别条件严苛的问题,使得终端设备在各种条件下均可工作,进一步的,通过对各个特征向量的转化,可以得到各个特征向量的权重占比,避免了单一的识别条件导致的识别错误的情况发生,使得最终的结果正确性得到保证,以及通过将特征向量合并,简化了识别过程,可以通过一步操作,完成对多个特征向量的分析,极大地提高了工作效率。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。
显然,本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样,倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内,则本公开也意图包含这些改动和变型在内。

Claims (10)

1.一种基于人体特征的未成年人识别方法,其特征在于,包括:
接收输入的目标人体的人脸图像信息和语音信息;
分别对所述人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量;
分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量;
对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量;
基于所述判断向量,获得最终的未成年人识别结果;
分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量,第二处理单元用于:
分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商;
基于所述商计算所述各个特征向量的权重占比;
基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
2.如权利要求1所述的方法,其特征在于,分别对所述人脸图像信息,以及所述语音信息进行特征提取,获得相应的各个特征向量,包括:
对所述人脸图像信息,采用以下任意一种方式或任意组合,进行特征提取,获得特征提取后的第一人脸图像特征向量:
对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量;
对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
3.如权利要求1所述的方法,其特征在于,对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量,包括以下任意一种方式:
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量;
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
4.如权利要求1所述的方法,其特征在于,基于所述判断向量,获得最终的未成年人识别结果,包括以下任意一种方式:
将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果;
将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
5.一种基于人体特征的未成年人识别装置,其特征在于,包括:
接收单元,用于接收输入的目标人体的人脸图像信息和语音信息;
第一处理单元,用于分别对所述人脸图像信息和所述语音信息进行特征提取,获得相应的各个特征向量,其中,所述人脸图像信息经特征提取后得到第一人脸图像特征向量,所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量;
第二处理单元,用于分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量;
第三处理单元,用于对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量;
第四处理单元,用于基于所述判断向量,获得最终的未成年人识别结果;
分别将所述各个特征向量输入到预设的注意力模型中,获得所述各个特征向量的权重占比,以及基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量转换为相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量,所述第二处理单元用于:
分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差,基于获得的各个平均值的差以及标准差,获得所述各个平均值的差与所述各个特征向量的标准差的商;
基于所述商计算所述各个特征向量的权重占比;
基于所述各个特征向量的权重占比,分别将所述第一人脸图像特征向量,所述第一声纹特征向量,所述第一语音内容特征向量,与预设的辅助矩阵相乘,得到相应的第二人脸图像特征向量,第二声纹特征向量,第二语音内容特征向量。
6.如权利要求5所述的装置,其特征在于,分别对所述人脸图像信息,以及所述语音信息进行特征提取,获得相应的各个特征向量,所述第一处理单元用于:
对所述人脸图像信息,采用以下任意一种方式或任意组合,进行特征提取,获得特征提取后的第一人脸图像特征向量:
对所述人脸图像信息进行人脸关键点检测,基于检测结果进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用前馈神经网络模型对所述人脸图像信息进行特征提取,获得特征提取后的第一人脸图像特征向量;
采用视觉几何模型对所述语音信息进行特征提取,获得特征提取后的第一声纹特征向量;
对所述语音信息切片后,采用径向基函数模型,对所述切片后的语音信息进行特征提取,获得特征提取后的第一语音内容特征向量。
7.如权利要求5所述的装置,其特征在于,对所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行向量合并,得到合并后的判断向量,所述第三处理单元用于以下任意一种方式:
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量进行合并,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量合并后的判断向量;
将所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比进行叠加,得到所述第二人脸图像特征向量,所述第二声纹特征向量,所述第二语音内容特征向量按照权重占比叠加后的判断向量。
8.如权利要求5所述的装置,其特征在于,基于所述判断向量,获得最终的未成年人识别结果,所述第四处理单元用于以下任意一种方式:
将所述判断向量送入支持向量机中,基于所述支持向量机的输出结果,获得最终的未成年人识别结果;
将所述判断向量送入霍普菲尔网络模型中,基于所述模型的输出结果,获得最终的未成年人识别结果。
9.一种人体姿态识别的装置,其特征在于,包括:
存储器,用于存储可执行计算机程序;
处理器,用于读取并执行所述存储器中存储的可执行指令,以实现如权利要求1-4任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,当所述存储介质中的指令由处理器执行时,使得所述处理器能够执行如权利要求1-4任一项所述的方法。
CN202011290920.3A 2020-11-18 2020-11-18 一种基于人体特征的未成年人识别的方法及装置 Active CN112289306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011290920.3A CN112289306B (zh) 2020-11-18 2020-11-18 一种基于人体特征的未成年人识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011290920.3A CN112289306B (zh) 2020-11-18 2020-11-18 一种基于人体特征的未成年人识别的方法及装置

Publications (2)

Publication Number Publication Date
CN112289306A CN112289306A (zh) 2021-01-29
CN112289306B true CN112289306B (zh) 2024-03-26

Family

ID=74399612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011290920.3A Active CN112289306B (zh) 2020-11-18 2020-11-18 一种基于人体特征的未成年人识别的方法及装置

Country Status (1)

Country Link
CN (1) CN112289306B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065132A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 다중 생체 정보를 이용한 개인 등록 및 인증 시스템과 그방법
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
CN108460365A (zh) * 2018-03-27 2018-08-28 百度在线网络技术(北京)有限公司 身份认证方法和装置
CN109977860A (zh) * 2019-03-25 2019-07-05 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN111523389A (zh) * 2020-03-25 2020-08-11 中国平安人寿保险股份有限公司 情绪智能识别方法、装置、电子设备及存储介质
CN111709004A (zh) * 2020-08-19 2020-09-25 北京远鉴信息技术有限公司 一种身份认证方法、装置、电子设备及可读存储介质
CN111753271A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于ai识别的开户身份验证方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030113002A1 (en) * 2001-12-18 2003-06-19 Koninklijke Philips Electronics N.V. Identification of people using video and audio eigen features

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065132A (ko) * 2003-12-24 2005-06-29 한국전자통신연구원 다중 생체 정보를 이용한 개인 등록 및 인증 시스템과 그방법
KR20090055426A (ko) * 2007-11-28 2009-06-02 중앙대학교 산학협력단 특징 융합 기반 감정인식 방법 및 시스템
CN106096642A (zh) * 2016-06-07 2016-11-09 南京邮电大学 基于鉴别局部保持投影的多模态情感特征融合方法
CN108460365A (zh) * 2018-03-27 2018-08-28 百度在线网络技术(北京)有限公司 身份认证方法和装置
CN108446674A (zh) * 2018-04-28 2018-08-24 平安科技(深圳)有限公司 电子装置、基于人脸图像与声纹信息的身份识别方法及存储介质
CN109977860A (zh) * 2019-03-25 2019-07-05 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
WO2020192113A1 (zh) * 2019-03-25 2020-10-01 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN111460889A (zh) * 2020-02-27 2020-07-28 平安科技(深圳)有限公司 一种基于语音及图像特征的异常行为识别方法、装置及设备
CN111523389A (zh) * 2020-03-25 2020-08-11 中国平安人寿保险股份有限公司 情绪智能识别方法、装置、电子设备及存储介质
CN111753271A (zh) * 2020-06-28 2020-10-09 深圳壹账通智能科技有限公司 基于ai识别的开户身份验证方法、装置、设备及介质
CN111709004A (zh) * 2020-08-19 2020-09-25 北京远鉴信息技术有限公司 一种身份认证方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112289306A (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
JP6161257B2 (ja) イベント検出装置及びその方法、動作認識装置及びその方法、プログラム
JP4273359B2 (ja) 年齢推定システム及び年齢推定方法
JP2019121374A (ja) 表情認識方法、オブジェクト認識方法、表情認識装置及び表情トレーニング方法
JP2008152789A (ja) 顔映像の類似度の算出方法及び装置とこれを利用した顔映像の検索方法及び装置、並びに顔合成方法
CN110222607B (zh) 人脸关键点检测的方法、装置及系统
WO2019167784A1 (ja) 位置特定装置、位置特定方法及びコンピュータプログラム
CN110705584A (zh) 情绪识别方法、装置、计算机装置及存储介质
CN105913014A (zh) 基于身份证芯片照片和视频的身份鉴定方法及系统
CN112148997B (zh) 一种用于灾害事件检测的多模态对抗模型的训练方法和装置
CN114627412A (zh) 基于误差重构实现无监督深度伪造视频检测处理的方法、装置、处理器及其计算机存储介质
Al-Nima et al. A new approach to predicting physical biometrics from behavioural biometrics
CN112289306B (zh) 一种基于人体特征的未成年人识别的方法及装置
JP5445062B2 (ja) 情報処理装置及び情報処理プログラム
EP1768064A1 (en) Data checking method, data checking device, and data checking program
CN111428670B (zh) 人脸检测方法、装置、存储介质及设备
JPH10261083A (ja) 個人同定装置及び個人同定方法
CN113158866A (zh) 一种基于注意力机制与数据不平衡的跨年龄人脸识别方法
CN112613341A (zh) 训练方法及装置、指纹识别方法及装置、电子设备
US20230401894A1 (en) Behavior estimation device, behavior estimation method, and recording medium
Rachman et al. Face Liveness Detection Using CNN for Face Verification on Medical Robot
Wong et al. A brain-inspired model for recognizing human emotional states from facial expression
Perochon et al. Unsupervised Action Segmentation of Untrimmed Egocentric Videos
CN115439725B (zh) 一种多人实时编辑的处理方法与装置
JP2012226616A (ja) パターン認識装置、パターン認識方法及びプログラム
CN115909513A (zh) 活体检测方法以及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant