CN112289306B

CN112289306B - 一种基于人体特征的未成年人识别的方法及装置

Info

Publication number: CN112289306B
Application number: CN202011290920.3A
Authority: CN
Inventors: 高朋; 汪俊; 李索恒; 张志齐
Original assignee: Shanghai Yitu Technology Co ltd
Current assignee: Shanghai Yitu Technology Co ltd
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2024-03-26
Anticipated expiration: 2040-11-18
Also published as: CN112289306A

Abstract

本公开涉及计算机技术，特别涉及一种基于人体特征的未成年人识别的方法及装置，用以提高设备对未成年人的识别正确率，该方法为：终端设备收集目标人体的人脸图像信息和语音信息，并对其进行特征提取之后，将提取到的各个特征向量送入相应的向量处理模型之中，得到转化之后的各个特征向量，再将转化后的各个特征向量进行合并，获得判断向量，最终基于所述判断向量，对未成年人进行识别。这样，通过了多种人体特征的输入，使得终端设备在各种条件下均可工作，进一步的，通过对各个特征向量的转化，避免了单一的识别条件导致的识别错误的情况发生，使得最终结果正确性得到保证，以及通过将特征向量合并，完成对多个特征向量的分析，提高了工作效率。

Description

一种基于人体特征的未成年人识别的方法及装置

技术领域

本公开涉及人工智能领域，特别涉及一种基于人体特征的未成年人识别的方法及装置。

背景技术

日常生活中，在很多场景下都需要对未成年人进行识别。例如：游乐园中仅限未成年人游玩的设施的入口处，公交、地铁或其他交通工具的检票处，网吧、酒吧等禁止未成年人出入的场所的入口处等等，都需要设立对未成年进行识别的设备。

相关技术下，对未成年人的识别，采用如下方法：设备对待检测人员的面部图像进行采集，分析采集到的脸部图像，进而判断被待检测人员是否成年。

但是，利用面部图像分析被检测人员是否未成年的识别正确率并不理想，主要是由于以下几点：

1、识别手法过于单一，必须采集图像信息，否则便无法判断；

2、识别依据过于单一，仅仅依靠图像信息进行判断，未考虑到不同个体之间的差异，若存在长相偏老的未成年人或长相偏幼的成年人，则不能成功识别；

因此，需要设计一种基于人体特征的未成年人识别的方法及装置，以克服上述缺陷。

发明内容

本公开提供一种基于人体特征的未成年人识别的方法及装置，用以提高设备对未成年人的识别正确率。

本发明提供的具体技术方案如下：

第一方面，一种基于人体特征的未成年人识别方法，包括：

接收输入的目标人体的人脸图像信息和语音信息；

分别对所述人脸图像信息和所述语音信息进行特征提取，获得相应的各个特征向量，其中，所述人脸图像信息经特征提取后得到第一人脸图像特征向量，所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量；

分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量；

对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量；

基于所述判断向量，获得最终的未成年人识别结果。

可选的，分别对所述人脸图像信息，以及所述语音信息进行特征提取，获得相应的各个特征向量，包括：

对所述人脸图像信息，采用以下任意一种方式或任意组合，进行特征提取，获得特征提取后的第一人脸图像特征向量：

对所述人脸图像信息进行人脸关键点检测，基于检测结果进行特征提取，获得特征提取后的第一人脸图像特征向量；

采用前馈神经网络模型对所述人脸图像信息进行特征提取，获得特征提取后的第一人脸图像特征向量；

采用视觉几何模型对所述语音信息进行特征提取，获得特征提取后的第一声纹特征向量；

对所述语音信息切片后，采用径向基函数模型，对所述切片后的语音信息进行特征提取，获得特征提取后的第一语音内容特征向量。

可选的，分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量，包括：

分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差，基于获得的各个平均值的差以及标准差，获得所述各个平均值的差与所述各个特征向量的标准差的商；

基于所述商计算所述各个特征向量的权重占比；

基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量，与预设的辅助矩阵相乘，得到相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量。

可选的，对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量，包括以下任意一种方式：

将所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行合并，得到所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量合并后的判断向量；

将所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量按照权重占比进行叠加，得到所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量按照权重占比叠加后的判断向量。

可选的，基于所述判断向量，获得最终的未成年人识别结果，包括以下任意一种方式：

将所述判断向量送入支持向量机中，基于所述支持向量机的输出结果，获得最终的未成年人识别结果；

将所述判断向量送入霍普菲尔网络模型中，基于所述模型的输出结果，获得最终的未成年人识别结果。

第二方面，一种基于人体特征的未成年人识别装置，包括：

接收单元，用于接收输入的目标人体的人脸图像信息和语音信息；

第一处理单元，用于分别对所述人脸图像信息和所述语音信息进行特征提取，获得相应的各个特征向量，其中，所述人脸图像信息经特征提取后得到第一人脸图像特征向量，所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量；

第二处理单元，用于分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量；

第三处理单元，用于对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量；

第四处理单元，用于基于所述判断向量，获得最终的未成年人识别结果。

可选的，分别对所述人脸图像信息，以及所述语音信息进行特征提取，获得相应的各个特征向量，所述第一处理单元用于：

可选的，分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量，所述第二处理单元用于：

基于所述商计算所述各个特征向量的权重占比；

可选的，对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量，所述第三处理单元用于以下任意一种方式：

可选的，基于所述判断向量，获得最终的未成年人识别结果，所述第四处理单元用于以下任意一种方式：

第三方面，一种基于人体特征的未成年人识别装置，包括：

存储器，用于存储可执行计算机程序；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如第一方面中任一项所述的方法。

第四方面，一种计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得所述处理器能够执行如第一方面中任一项所述的方法。

本公开实施例中，终端设备收集目标人体的人脸图像信息和语音信息，并对其进行特征提取之后，将提取到的各个特征向量送入相应的向量处理模型之中，得到转化之后的各个特征向量，再将转化后的各个特征向量进行合并，获得判断向量，最终基于所述判断向量，对未成年人进行识别。这样，通过了多种人体特征的输入，避免了由于识别手法单一，导致识别条件严苛的问题，使得终端设备在各种条件下均可工作，进一步的，通过对各个特征向量的转化，可以得到各个特征向量的权重占比，避免了单一的识别条件导致的识别错误的情况发生，使得最终的结果正确性得到保证，以及通过将特征向量合并，简化了识别过程，可以通过一步操作，完成对多个特征向量的分析，极大地提高了工作效率。

附图说明

图1为本公开实施例中基于人体特征的未成年人识别的流程示意图；

图2为本公开实施例中提取人体信息的示意图；

图3为本公开实施例中将人体信息转化为人体特征向量的示意图；

图4为本公开实施例中终端设备的逻辑架构示意图；

图5为本公开实施例中终端设备的实体架构示意图。

具体实施方式

为了解决现有技术下未成年人识别准确率低的问题，本公开实施例中，终端设备收集目标人体的人脸图像信息和语音信息，并对其进行特征提取之后，将提取到的各个特征向量送入相应的向量处理模型之中，得到转化之后的各个特征向量，再将转化后的各个特征向量进行合并，获得判断向量，最终基于所述判断向量，对未成年人进行识别。

下面结合附图对本公开优选的实施方式作出进一步详细说明。

参阅图1所示，本公开实施例中，终端设备基于人体特征识别未成年人的详细流程如下：

步骤100：终端设备接收输入的目标人体的人脸图像信息和语音信息。

具体的，终端设备可以接收通过摄像或拍照设备输入的人脸图像信息，以及接收通过麦克风输入的语音信息。

实际应用中，参阅图2所示，假设有一待检测人员A，则终端设备通过摄像头和麦克风分别采集所述待检测人员A的人脸图像信息和语音信息。

步骤110：终端设备分别对获得的人脸图像信息和所述语音信息进行特征提取，获得相应的各个特征向量，其中，所述人脸图像信息经特征提取后得到第一人脸图像特征向量，所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量。

具体的，对于人脸特征信息的采集，包括但不限于以下方法：

A、终端设备对所述人脸图像信息进行人脸关键点检测，基于检测结果进行特征提取，获得特征提取后的第一人脸图像特征向量。

B、终端设备采用前馈神经网络模型对所述人脸图像信息进行特征提取，获得特征提取后的第一人脸图像特征向量。

实际应用中，参阅图3所示，终端设备将从待检测人员A上采集到的人脸图像信息，输入到对应的前馈神经网络模型中进行特征提取，获得特征提取后的第一人脸图像特征向量[a₁，a₂，a₃，……，a_n]，其中，n表示所述人脸图像特征的维度，所述维度可以根据具体使用场景的不同进行调整，a₁，a₂，a₃，……，a_n均为浮点数。

进一步的，终端设备采用视觉几何模型对所述语音信息进行特征提取，获得特征提取后的第一声纹特征向量。

实际应用中，参阅图3所示，终端设备将从待检测人员A上采集到的语音信息，输入到对应的视觉几何模型中进行特征提取，获得特征提取后的第一声纹特征向量[b₁，b₂，b₃，……，b_n]，其中，n表示所述声纹特征的维度，所述维度可以根据具体使用场景的不同进行调整，b₁，b₂，b₃，……，b_n均为浮点数。

进一步的，终端设备对所述语音信息切片后，采用径向基函数模型，对所述切片后的语音信息进行特征提取，获得特征提取后的第一语音内容特征向量。

实际应用中，参阅图3所示，终端设备首先将从待检测人员A上采集到的语音信息进行切片处理，之后将切片之后的语音信息，输入到对应的径向基函数模型中进行特征提取，获得特征提取后的第一语音内容特征向量[c₁，c₂，c₃，……，c_n]，其中，n表示所述语音内容信息特征的维度，所述维度可以根据具体使用场景的不同进行调整，c₁，c₂，c₃，……，c_n均为浮点数。

其中，对于语音信息的特征提取，不仅限于上述记录的方法，还可以采用其他的基于深度神经网络构建的模型进行特征提取，在此不在赘述。

步骤120：终端设备分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量。

具体的，终端设备在获得所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量后，首先分别获得所述各个特征向量与所述特征向量的平均值的差以及标准差，基于获得的各个平均值的差以及标准差，获得所述各个平均值的差与所述各个特征向量的标准差的商，进而基于所述商计算所述各个特征向量的权重占比，最终基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量，与预设的辅助矩阵相乘，得到相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量。

实际应用中，假设所述第一人脸图像特征向量F0＝[x1，x2，x3……]，第一声纹特征向量为P0＝[y1，y2，y3……]，第一语音内容特征向量为T0＝[z1，z2，z3……]。

首先，按照如下公式，计算得到平均值average：

再根据所述平均值和如下公式计算标准差delta：

其中t为集合(x1，x2，x3……，y1，y2，y3……，z1，z2，z3……)中元素。

基于得到的标准差和平均值对F0，P0，T0中每个元素按照如下公式进行标准化：

再设置一个维度为(512×512)维的辅助矩阵W，按照如下公式，将各个特征向量转化为过渡向量：

alpha P＝P0*W

alpha T＝T0*W

alpha F＝F0*W

基于得到的过渡向量，按照如下公式，最终得到相应的第二人脸图像特征向量F1，第二声纹特征向量P1，第二语音内容特征向量T1。

P1＝multiply(alpha P，P0)

T1＝multiply(alpha T，T0)

F1＝multiply(alpha F，F0)

其中，multiply(矩阵A，矩阵B)，表示将括号内的矩阵按位相乘。

步骤130：终端设备对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量。

具体的，终端设备对向量的合并，包括但不限于以下方法：

1)终端设备将所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行合并，得到所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量合并后的判断向量。

2)终端设备将所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量按照权重占比进行叠加，得到所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量按照权重占比叠加后的判断向量。

实际应用中，假设第二人脸图像特征向量为F1，所述第二声纹特征向量P1，所述第二语音内容特征向量T1，若采用直接合并的方法，则可以按照如下公式得到判断向量V：

V＝[F1，P1，T1]

若采用按权重占比进行叠加的方法，且假设第二人脸图像特征向量权重占比为alpha，第二声纹特征向量权重占比为beta，第二语音内容特征向量权重占比为gamma，则可以按照如下公式得到判断向量V：

V＝alpha×F1+beta×P1+gamma×T1

步骤140：终端设备基于所述判断向量，获得最终的未成年人识别结果。

具体的，获得未成年人识别结果，包括但不限于以下方法：

1、终端设备将所述判断向量送入支持向量机中，基于所述支持向量机的输出结果，获得最终的未成年人识别结果。

2、终端设备将所述判断向量送入霍普菲尔网络模型中，基于所述模型的输出结果，获得最终的未成年人识别结果。

实际应用中，假设基于被检测人员A输入的人脸图像信息和语音信息得到的判断向量为V1，基于被检测人员B输入的人脸图像信息和语音信息得到的判断向量为V2，将判断向量V1和V2送入支持向量机中，对应V1得的结果为1，对应V2得到的结果为0，进而输出识别结果，被检测人员A为未成年人，被检测人员B为成年人。

又例如，在嘈杂的环境中有一被检测男性C，终端设备通过摄像头捕捉到所述被侦测男性C具有青春痘人脸面部图像，基于所述人脸面部图像信息，进行特征提取，得到对应的第一人脸图像特征向量FC0＝[a₁，a₂，a₃]，再基于所述第一人脸图像特征向量FC0，得到第二人脸图像特征向量FC1。

终端设备通过麦克风收集到语音信息，从中提取到第一声纹特征向量PC0＝[b₁，b₂，b₃]，再基于所述第一声纹特征向量PC0，得到第二声纹特征向量FC1。

终端设备通过麦克风收集到语音信息，从中提取到包含有“初中，作业，游戏”等关键字的语音内容信息特征向量TC0＝[c₁，c₂，c₃]，再基于所述第一语音内容信息特征向量TC0，得到第二语音内容信息特征向量TC1。

最终，终端设备将FC1，PC1，TC1合并终转化为判断向量V3，将所述判断向量V3输入到支持向量机中，输出结果：男性C为未成年人。

基于同一发明构思，参阅图4所示，本公开实施例提供一种人体姿态识别的装置(如，一种终端设备)，包括：

接收单元401，用于接收输入的目标人体的人脸图像信息和语音信息；

第一处理单元402，用于分别对所述人脸图像信息和所述语音信息进行特征提取，获得相应的各个特征向量，其中，所述人脸图像信息经特征提取后得到第一人脸图像特征向量，所述语音信息经特征提取后分别得到对应的第一声纹特征向量以及第一语音内容特征向量；

第二处理单元403，用于分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量；

第三处理单元404，用于对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量；

第四处理单元405，用于基于所述判断向量，获得最终的未成年人识别结果。

可选的，分别对所述人脸图像信息，以及所述语音信息进行特征提取，获得相应的各个特征向量，所述第一处理单元402用于：

可选的，分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量，所述第二处理单元403用于：

基于所述商计算所述各个特征向量的权重占比；

可选的，对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量，所述第三处理单元404用于以下任意一种方式：

可选的，基于所述判断向量，获得最终的未成年人识别结果，所述第四处理单元405用于以下任意一种方式：

基于同一发明构思，参阅图5所示，本公开实施例提供一种终端设备，包括：

存储器501，用于存储可执行计算机程序；

处理器502，用于读取并执行所述存储器中存储的可执行指令，以实现上述各个实施例中终端设备执行的任意一种方法。

基于同一发明构思，本公开实施例提供一种计算机可读存储介质，当所述存储介质中的指令由处理器执行时，使得所述处理器能够执行上述各个实施例中终端设备执行的任意一种方法。

综上所述，本公开实施例中，终端设备收集目标人体的人脸图像信息和语音信息，并对其进行特征提取之后，将提取到的各个特征向量送入相应的向量处理模型之中，得到转化之后的各个特征向量，再将转化后的各个特征向量进行合并，获得判断向量，最终基于所述判断向量，对未成年人进行识别。这样，通过了多种人体特征的输入，避免了由于识别手法单一，导致识别条件严苛的问题，使得终端设备在各种条件下均可工作，进一步的，通过对各个特征向量的转化，可以得到各个特征向量的权重占比，避免了单一的识别条件导致的识别错误的情况发生，使得最终的结果正确性得到保证，以及通过将特征向量合并，简化了识别过程，可以通过一步操作，完成对多个特征向量的分析，极大地提高了工作效率。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本公开的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本公开范围的所有变更和修改。

显然，本领域的技术人员可以对本公开实施例进行各种改动和变型而不脱离本公开实施例的精神和范围。这样，倘若本公开实施例的这些修改和变型属于本公开权利要求及其等同技术的范围之内，则本公开也意图包含这些改动和变型在内。

Claims

1.一种基于人体特征的未成年人识别方法，其特征在于，包括：

接收输入的目标人体的人脸图像信息和语音信息；

基于所述判断向量，获得最终的未成年人识别结果；

分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量，第二处理单元用于：

基于所述商计算所述各个特征向量的权重占比；

2.如权利要求1所述的方法，其特征在于，分别对所述人脸图像信息，以及所述语音信息进行特征提取，获得相应的各个特征向量，包括：

3.如权利要求1所述的方法，其特征在于，对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量，包括以下任意一种方式：

4.如权利要求1所述的方法，其特征在于，基于所述判断向量，获得最终的未成年人识别结果，包括以下任意一种方式：

5.一种基于人体特征的未成年人识别装置，其特征在于，包括：

第四处理单元，用于基于所述判断向量，获得最终的未成年人识别结果；

分别将所述各个特征向量输入到预设的注意力模型中，获得所述各个特征向量的权重占比，以及基于所述各个特征向量的权重占比，分别将所述第一人脸图像特征向量，所述第一声纹特征向量，所述第一语音内容特征向量转换为相应的第二人脸图像特征向量，第二声纹特征向量，第二语音内容特征向量，所述第二处理单元用于：

基于所述商计算所述各个特征向量的权重占比；

6.如权利要求5所述的装置，其特征在于，分别对所述人脸图像信息，以及所述语音信息进行特征提取，获得相应的各个特征向量，所述第一处理单元用于：

7.如权利要求5所述的装置，其特征在于，对所述第二人脸图像特征向量，所述第二声纹特征向量，所述第二语音内容特征向量进行向量合并，得到合并后的判断向量，所述第三处理单元用于以下任意一种方式：

8.如权利要求5所述的装置，其特征在于，基于所述判断向量，获得最终的未成年人识别结果，所述第四处理单元用于以下任意一种方式：

9.一种人体姿态识别的装置，其特征在于，包括：

存储器，用于存储可执行计算机程序；

处理器，用于读取并执行所述存储器中存储的可执行指令，以实现如权利要求1－4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由处理器执行时，使得所述处理器能够执行如权利要求1－4任一项所述的方法。