CN115862597A

CN115862597A - 人物类型的确定方法、装置、电子设备和存储介质

Info

Publication number: CN115862597A
Application number: CN202210694116.4A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Nanjing Horizon Integrated Circuit Co ltd
Current assignee: Nanjing Horizon Integrated Circuit Co ltd
Priority date: 2022-06-17
Filing date: 2022-06-17
Publication date: 2023-03-28

Abstract

本公开实施例公开了一种人物类型的确定方法、装置、电子设备和存储介质，其中，方法包括：获取目标空间中的第一图像数据和第一语音数据；基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值；基于所述第一语音数据，确定所述目标人物所属的目标年龄段；基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型。本公开实施例可以分别通过目标空间的图像和语音对人物的年龄进行预测，融合两种预测结果，确定人物类型，有效提高人物类型预测结果的准确性，解决了现有技术仅基于图像数据容易受环境影响导致预测结果不够准确等问题。

Description

人物类型的确定方法、装置、电子设备和存储介质

技术领域

本公开涉及人工智能技术，尤其是一种人物类型的确定方法、装置、电子设备和存储介质。

背景技术

在车辆智能座舱场景中，对车辆座舱内的用户进行人物属性(或称人物类型，比如儿童、老人等)感知，并基于感知结果进行相关的信息推送或安全提醒，可以很好地提升用户驾驶舒适度和安全性，从而提升用户体验。现有技术中，对于人物类型的感知通常是基于座舱内的图像数据实现，感知结果容易受用户被遮挡或角度不合适等环境因素的影响，导致感知结果不够准确。

发明内容

为了解决上述感知结果不够准确等技术问题，提出了本公开。本公开的实施例提供了一种人物类型的确定方法、装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种人物类型的确定方法，包括：获取目标空间中的第一图像数据和第一语音数据；基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值；基于所述第一语音数据，确定所述目标人物所属的目标年龄段；基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型。

根据本公开实施例的另一个方面，提供了一种人物类型的确定装置，包括：第一获取模块，用于获取目标空间中的第一图像数据和第一语音数据；第一处理模块，用于基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值；第二处理模块，用于基于所述第一语音数据，确定所述目标人物所属的目标年龄段；第三处理模块，用于基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的人物类型的确定方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的人物类型的确定方法。

基于本公开上述实施例提供的人物类型的确定方法、装置、电子设备和存储介质，可以分别通过目标空间的图像和语音对人物的年龄进行预测，融合两种预测结果，确定人物类型，有效提高人物类型预测结果的准确性，解决了现有技术仅基于图像数据容易受环境影响导致预测结果不够准确等问题。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供的人物类型的确定方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的人物类型的确定方法的流程示意图；

图3是本公开另一示例性实施例提供的人物类型的确定方法的流程示意图；

图4是本公开一示例性实施例提供的步骤202的流程示意图；

图5是本公开一示例性实施例提供的步骤20221的流程示意图；

图6是本公开再一示例性实施例提供的人物类型的确定方法的流程示意图；

图7是本公开一示例性实施例提供的第一语音数据的获取流程示意图；

图8是本公开一示例性实施例提供的人物类型的确定装置的结构示意图；

图9是本公开一示例性实施例提供的第三处理模块504的结构示意图；

图10是本公开一示例性实施例提供的第一处理模块502的结构示意图；

图11是本公开一示例性实施例提供的第一确定单元5021的结构示意图；

图12是本公开一示例性实施例提供的第二确定单元5022的结构示意图；

图13是本公开另一示例性实施例提供的人物类型的确定装置的结构示意图；

图14是本公开一示例性实施例提供的第二处理模块503的结构示意图；

图15是本公开一示例性实施例提供的第一获取模块501的结构示意图；

图16是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，在车辆智能座舱场景中，对车辆座舱内的用户进行人物属性(或称人物类型，比如儿童、老人等)感知，并基于感知结果进行相关的信息推送或安全提醒，可以很好地提升用户驾驶舒适度和安全性，从而提升用户体验。现有技术中，对于人物类型的感知通常是基于座舱内的图像数据实现，感知结果容易受用户被遮挡或角度不合适等环境因素的影响，导致感知结果不够准确。

示例性概述

图1是本公开提供的人物类型的确定方法的一个示例性的应用场景。在车辆智能座舱场景中，座舱作为目标空间，可以通过设置在座舱内的摄像头采集座舱内的第一图像数据，通过设置在座舱内的麦克风等语音采集设备采集座舱内的第一语音数据，利用本公开的人物类型的确定方法，可以基于第一图像数据确定座舱中的目标人物的目标年龄值，基于第一语音数据确定目标人物所属的目标年龄段，进而综合目标年龄值和目标年龄段，确定目标人物所属的目标类型，类型可以包括儿童、青年、中年、老年等类型，具体可以根据实际需求设置。比如确定出目标人物所属的目标类型为儿童，可以进行针对儿童的安全提醒，以提升用户体验。由于本公开综合了图像和语音，用于人物类型的确定，可以有效提高人物类型结果的准确性，解决了现有技术识别人物类型不够准确等问题。

本公开的人物类型的确定方法，不限于车辆智能座舱的应用场景，还可以适用于其他空间中的人物类型的确定，比如游戏室，具体可以根据实际需求设置。

示例性方法

图2是本公开一示例性实施例提供的人物类型的确定方法的流程示意图。本实施例可应用在电子设备上，具体比如车载计算平台上，如图2所示，包括如下步骤：

步骤201，获取目标空间中的第一图像数据和第一语音数据。

其中，目标空间可以是任意可能的空间，比如车辆座舱、飞机座舱、游戏室，等等，具体不做限定。第一图像数据可以通过设置在目标空间中的图像采集设备采集获得，图像采集设备可以为任意可实施的摄像头，比如单目摄像头、双目摄像头、多目摄像头、深度摄像头，等等，具体不做限定。第一语音数据可以通过设置在目标空间中的语音采集设备采集获得，语音采集设备可以为任意可实施的设备，比如麦克风，具体不做限定。

步骤202，基于第一图像数据，确定目标空间中的目标人物的目标年龄值。

其中，目标人物可以是通过第一图像数据检测到的目标空间中的一个或多个人物，目标人物的目标年龄值可以通过第一图像数据中检测到的目标人物的人脸图像预测获得，具体来说，可以先通过第一图像数据进行人脸目标检测，获得第一图像数据中包含的各人脸图像，进而基于人脸图像及预先训练获得的年龄预测模型，获得各人脸图像分别对应的年龄值，进而确定出目标人物的目标年龄值。

步骤203，基于第一语音数据，确定目标人物所属的目标年龄段。

其中，可以根据实际需求进行年龄段划分，比如(0-6]岁、(6-12]岁、(12-60]岁、(60-100]岁，等等，具体年龄段划分方式不做限定。目标年龄段可以通过第一语音数据及预先训练获得的年龄段分类模型确定，年龄分类模型可以采用任意可实施的分类模型，比如基于RNN(Recurrent Neural Network，循环神经网络)的分类模型、基于LSTM(Long Short-Term Memory，长短期记忆)的分类模型、基于Transformer的分类模型，等等，本公开不做限定。

步骤204，基于目标年龄值和目标年龄段，确定目标人物所属的目标类型。

其中，可以根据实际需求划分人物的类型，比如类型可以包括儿童、青年、成年、中年、老年，等等，具体可以根据实际需求设置。并可以为不同的类型设置对应的年龄范围。比如，(0-6]岁对应儿童类型、(6-12]岁对应青年类型、(12-60]岁对应其他类型、(60-100]岁对应老年类型，等等。具体类型划分方式不做限定。结合由图像数据获得的目标年龄值和由语音数据获得的目标年龄段，确定出目标人物所属的目标类型，比如当目标年龄值属于目标年龄段，可以确定出目标类型为目标年龄段所对应的类型。当目标年龄值不属于目标年龄段，可以将目标年龄值所属年龄范围的类型作为目标类型，还可以进一步采取其他方式对目标人物的年龄进行预测，比如采用与预测上述目标年龄值不同的模型再进行预测，获得另一个目标年龄值，综合两个模型的目标年龄值与目标年龄段，确定出目标人物的目标类型，还可以是综合多帧的目标人物的人脸图像的目标年龄值的预测结果，确定出目标人物的目标类型，等等，以进一步提高目标类型的准确性。具体可以根据实际需求设置。

本实施例提供的人物类型的确定方法，可以分别通过目标空间的图像和语音对人物的年龄进行预测，融合两种预测结果，确定人物类型，有效提高人物类型预测结果的准确性，解决了现有技术仅基于图像数据容易受环境影响导致预测结果不够准确等问题。

图3是本公开另一示例性实施例提供的人物类型的确定方法的流程示意图。

在一个可选示例中，步骤204的基于目标年龄值和目标年龄段，确定目标人物所属的目标类型，包括：

步骤2041，响应于目标年龄值属于目标年龄段，将目标年龄段对应的人物类型作为目标类型。

其中，年龄段的划分设置为与人物类型具有对应关系，比如年龄段(0-6]岁、(6-12]岁和(12-100]岁，对应的人物类型分别为儿童、青年、成年，具体可以根据实际需求设置。目标年龄值属于目标年龄段表示基于图像数据的年龄预测结果和基于语音数据的年龄预测结果一致，因此，结合两者确定的目标人物的目标类型更加准确。

步骤2042，响应于目标年龄值不属于目标年龄段，获取目标人物的多帧图像数据。

其中，目标年龄值不属于目标年龄段表示基于图像数据的年龄预测结果和基于语音数据的年龄预测结果不一致，由于语音数据可能受噪声影响，图像数据可能受视角或其他环境因素影响，导致预测结果不一致，这种情况下，为了进一步保证目标人物的目标类型确定结果的准确性，可以从摄像头拍摄的图像数据中获取多帧图像数据，从多帧图像数据中提取目标人物的多帧人脸图像，作为目标人物的多帧图像数据，多帧图像数据可以为至少两帧图像数据，具体可以根据实际需求设置。

步骤2043，基于多帧图像数据，确定各帧分别对应的目标人物的第一年龄值。

具体的，对获取到的目标人物的多帧图像数据，分别进行年龄值预测，获得各帧分别对应的第一年龄值，具体预测原理与上述目标年龄值类似，在此不再赘述。

步骤2044，基于各帧分别对应的第一年龄值，确定目标人物的第二年龄值。

具体的，综合多帧图像数据预测获得的目标人物的多个第一年龄值，确定出目标人物的最终预测结果的第二年龄值，具体从多个第一年龄值确定出第二年龄值的规则可以根据实际需求设置，比如，可以将多个第一年龄值求均值作为第二年龄值，还可以将多个第一年龄值中重复次数最多的第一年龄值作为第二年龄值，还可以是将多个第一年龄值中去除最大值和最小值后再求均值作为第二年龄值，等等。具体不做限定。

步骤2045，基于第二年龄值，确定目标人物所属的目标类型。

具体的，在确定了第二年龄值，则可以基于第二年龄值确定目标人物所属的目标类型，比如将第二年龄值所属的年龄段对应的人物类型作为目标类型。

可选地，还可以综合第二年龄值、及前述的目标年龄值和目标年龄段来确定目标人物的目标类型，比如进一步判断第二年龄值与目标年龄段是否一致，若一致，将目标年龄段对应的人物类型作为目标类型，若不一致，判断第二年龄值与目标年龄值是否属于同一人物类型对应的年龄段，若是，表示第二年龄值与目标年龄值一致，则可以将第二年龄值与目标年龄值所属年龄段对应的人物类型作为目标类型。若第二年龄值既不与目标年龄段一致，也不与目标年龄值属于同一年龄段，则可以进一步采用其他预测方式进行确认，具体可以根据实际需求设置。

本公开通过在目标年龄值与目标年龄段不一致时，获取目标人物的多帧图像数据进一步确定目标人物的年龄，从而进一步提高确定人物类型的准确性。

在一个可选示例中，步骤202的基于第一图像数据，确定目标空间中的目标人物的目标年龄值，包括：

步骤2021，基于第一图像数据，确定第一图像数据中包括的目标人物的第一人脸图像。

其中，第一人脸图像可以基于人脸检测实现，具体可以根据实际需求设置，本实施例不做限定。

步骤2022，基于第一人脸图像，确定目标人物的目标年龄值。

其中，目标年龄值可以基于预先训练获得的年龄预测模型实现，具体可以根据实际需求设置，本实施例不做限定。

图4是本公开一示例性实施例提供的步骤202的流程示意图。

在一个可选示例中，步骤2021的基于第一图像数据，确定第一图像数据中包括的目标人物的第一人脸图像，包括：

步骤20211，基于第一图像数据、及预先训练获得的人脸检测模型，确定人脸检测结果，人脸检测结果包括检测到的人脸框位置信息。

其中，人脸检测模型可以采用任意可实施的检测模型，比如基于深度学习的人脸检测模型，具体不做限定。通过人脸检测，获得第一图像数据中包括的人脸框位置信息，比如人脸矩形框的4个角点的像素坐标。

步骤20212，基于第一图像数据和人脸检测结果，确定目标人物的第一人脸图像。

具体的，在获得第一图像数据中包括的人脸框位置信息后，可以基于人脸框位置信息从第一图像数据中提取出各人脸框对应的人脸图像，作为目标人物的第一人脸图像。

本公开通过人脸检测获得目标人物的人脸图像，以用于目标人物的年龄预测，保证年龄预测结果的准确性。

在一个可选示例中，步骤2022的基于第一人脸图像，确定目标人物的目标年龄值，包括：

步骤20221，基于第一人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果，年龄预测结果包括预设维度的年龄概率分布向量。

其中，年龄预测模型可以采用任意可实施的检测模型，比如基于深度学习的检测模型，具体可以根据实际需求设置。预设维度可以根据实际需求设置，比如设置为85、90、95、100，等等。年龄预测结果包括预设维度的年龄概率分布向量，可选地，每一维度可以表示一个分类，该维度的概率表示第一人脸图像属于该分类的概率。可选地，每一维度可以表示一个二分类，该维度的概率表示第一人脸图像对应的预测年龄大于或等于该维度对应的年龄的概率。具体可以根据实际需求设置。

示例性的，预设维度为85维，分别对应年龄1-85岁。

步骤20222，基于年龄预测结果，确定目标人物的目标年龄值。

具体的，对于年龄预测结果的预设维度中每一维度表示一个分类，该维度的概率表示第一人脸图像属于该分类的概率的情况，可以将预设维度中概率值最大的分类对应的年龄作为目标年龄值。对于年龄预测结果的预设维度中，每一维度可以表示一个二分类，该维度的概率表示第一人脸图像对应的预测年龄大于或等于该维度对应的年龄的概率的情况，可以将预设维度中概率值大于预设阈值的数量作为目标年龄值。具体可以根据实际需求设置，本公开不做限定。

在一个可选示例中，年龄概率分布向量包括第一人脸图像的年龄大于或等于各年龄值的概率；步骤20222的基于年龄预测结果，确定目标人物的目标年龄值，包括：基于年龄预测结果，确定预设维度中概率值大于预设阈值的第一数量；将第一数量作为目标年龄值。

其中，预设阈值可以根据实际需求设置，比如设置为0.5。示例性的，目标年龄值通过以下公式获得：

其中，N表示预设维度的维度数量，I表示第一人脸图像，f_k(I)表示第一人脸图像对应的预设维度的第k维度的概率值，1[f_k(I)>0.5]表示当f_k(I)>0.5时，作为1参与加和运算。

示例性的，预设维度以85维为例，对于一个第一人脸图像，预测获得85维的年龄概率分布向量P＝[p1,p2,…,p85]，pi＝f_i(I)(i＝1,2,…,85)表示该第一人脸图像对应的预测年龄大于或等于年龄值i的概率。以第一人脸图像对应的真实年龄为20岁为例，年龄预测结果中，由于20岁大于1岁，p1为接近1的概率值，比如p1＝0.9，同理，p2-p20均为接近1的概率值，由于20岁小于21-85岁，因此p21-p85为接近0的概率值，比如0.1、0.2。据此，可以确定出85维中概率值大于预设阈值的第一数量，比如大于0.5的第一数量，如上，p1-p20均为大于0.5的概率值，p21-p85均为小于0.5的概率值，则确定出第一数量为20，确定第一人脸图像对应的目标年龄值为20。

年龄预测模型的训练过程可以包括：获取训练图像数据及对应的标签数据，训练图像数据包括多个训练人脸图像，标签数据包括各训练人脸图像对应的预设维度的概率标签，每一维度的概率标签可以为0或1，具体根据训练人脸图像的真实年龄与该维度对应年龄的大小关系确定，比如训练人脸图像对应的真实年龄(比如5岁)大于或等于该维度对应的年龄(比如1岁维度)，则该维度对应的概率标签为1，否则为0；基于概率标签监督年龄预测模型的训练，基于预设损失函数确定损失，进而基于损失调整网络参数，直至损失收敛，从而获得训练好的年龄预测模型。具体训练过程不再赘述。

在一个可选示例中，步骤20221的基于第一人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果，包括：对第一人脸图像进行归一化处理，获得归一化的第二人脸图像；基于第二人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果。

其中，为了使训练过程快速收敛，获得年龄预测模型，对训练人脸图像进行归一化处理，相应地，在预测阶段，需要对第一人脸图像进行归一化处理，获得归一化的第二人脸图像。具体归一化方式可以根据实际需求设置，本公开不做限定。

比如，通过以下方式进行归一化：

其中，x表示第一人脸图像中的像素值，x′表示归一化后的像素值，通过该归一化方式可以将第一人脸图像中的像素值归一化到(-1,1)区间。

可选地，还可以将第一人脸图像中的像素值归一化到(0,1)区间。

本公开通过对第一人脸图像进行归一化处理，可以在训练过程中有效提高模型收敛速度，使模型快速收敛，提高训练效率。

图5是本公开一示例性实施例提供的步骤20221的流程示意图。

在一个可选示例中，步骤20221的基于第一人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果，包括：

步骤202211，基于第一人脸图像、及预先训练获得的关键点检测模型，确定目标人物的脸部关键点坐标信息。

其中，关键点检测模型可以采用任意可实施的检测模型，比如基于卷积神经网络的关键点检测模型。基于卷积神经网络的关键点检测模型的网络结构可以采用基于ResNet(Deep Residual Network，深度残差网络)系列的关键点检测网络、基于DenseNet(Denselyconnected convolutional networks，密集连接的卷积网络)的关键点检测网络、基于MobileNetV2的关键点检测网络，等等，具体不做限定。脸部关键点可以包括两个眼睛、鼻子、两个嘴角5个关键点，具体可以根据实际需求设置。脸部关键点坐标信息是指脸部各关键点的像素坐标。

步骤202212，基于脸部关键点坐标信息对第一人脸图像进行人脸矫正，获得矫正后的第三人脸图像。

其中，矫正可以通过仿射变换进行矫正，将第一人脸图像的脸部关键点矫正到标准姿态面部的位置。具体来说，可以根据脸部关键点坐标信息确定各关键点的位置相对关系，比如两眼关键点连线在图像中为倾斜的，表示第一人脸图像的人脸是歪着头的，需要进行矫正，再比如第一人脸图像的人脸是侧脸，缺少一部分脸部信息，需要进行矫正，进而通过放射变换将第一人脸图像矫正为标准正脸的第三人脸图像，以进一步提高后续年龄预测结果的准确性。

步骤202213，基于第三人脸图像、及年龄预测模型，确定年龄预测结果。

其中，基于第三人脸图像的具体预测原理参见前述基于第一人脸图像的预测内容，在此不再赘述。

本公开通过对人脸图像进行人脸矫正，进一步提高年龄预测结果的准确性。

图6是本公开再一示例性实施例提供的人物类型的确定方法的流程示意图。

在一个可选示例中，在步骤202的基于第一图像数据，确定目标空间中的目标人物的目标年龄值之前，本公开的方法还包括：

步骤301，基于第一图像数据，确定目标人物的遮挡属性。

其中，目标人物的遮挡属性可以包括遮挡和未遮挡两种属性，目标人物的遮挡属性可以通过预先训练获得的遮挡属性分类模型确定，遮挡属性分类模型可以采用任意可实施的分类模型，具体可以根据实际需求设置。

相应的，在本公开的方法还包括：

步骤205，响应于目标人物的遮挡属性为遮挡，基于目标年龄段，确定目标人物所属的目标类型。

其中，由于目标人物被遮挡，基于图像预测获得的目标年龄值不准确或者无法预测到目标年龄值，因此，这种情况下，可以不再执行步骤202，直接基于步骤203获得的目标年龄段确定目标人物所属的目标类型，解决现有技术仅基于图像无法确定被遮挡人物的类型的问题。

步骤202包括：

步骤2021a，响应于目标人物的遮挡属性为未遮挡，基于第一图像数据，确定目标空间中的目标人物的目标年龄值。

具体的，当确定目标人物未遮挡时，再进行目标人物的目标年龄值的预测流程。

在实际应用中，可以是先基于第一图像数据进行人脸检测，获得目标人物的第一人脸图像，基于第一人脸图像确定目标人物的遮挡属性，响应于目标人物的遮挡属性为未遮挡，基于第一人脸图像，确定目标人物的年龄值；响应于目标人物的遮挡属性为遮挡，基于目标年龄段，确定目标人物所属的目标类型。

本公开通过先判断目标人物的遮挡属性，当目标人物被遮挡时，可以直接基于语音数据预测的目标年龄段确定目标人物的目标类型，无需执行基于图像数据的预测流程，减少不必要的数据处理，提高数据处理效率。

在一个可选示例中，还可以基于语音数据预测出视觉盲区的人物类型，提高通用性，能够覆盖更加全面的场景，解决现有技术基于图像无法识别视觉盲区的人物类型等问题。比如，通过图像并未识别出有儿童的目标人物，而通过声音识别出有儿童，则可能该儿童处于视觉盲区，可以基于语音识别的儿童目标人物，进行针对儿童的安全提醒或信息推送等，具体可以根据实际需求设置。

在一个可选示例中，步骤203的基于第一语音数据，确定目标人物所属的目标年龄段，包括：

步骤2031，基于预设转换规则，将第一语音数据转换为第一音频数据。

其中，预设转换规则可以根据实际需求设置，比如将第一语音数据转换为采样率为16kHZ的音频数据，作为第一音频数据，具体转换方式不做限定。

步骤2032，将第一音频数据进行标准化处理，获得第二音频数据。

其中，标准化处理是指对第一音频数据进行音量统一处理，将第一音频数据的各部分音频进行音量统一，得到音量统一的第二音频数据。具体标准化处理方式不做限定。

步骤2033，基于第二音频数据，确定梅尔频谱图序列。

具体的，可以通过快速傅里叶变换及其他可能的方式对第二音频数据进行处理，获得梅尔频谱图序列，具体原理不再赘述。

步骤2034，基于梅尔频谱图序列、及预先训练获得的年龄段分类模型，确定目标人物所属的目标年龄段。

其中，年龄段分类模型可以包括语义特征提取部分和分类器部分，具体网络结构可以根据实际需求设置。其中，语义特征提取部分用于对梅尔频谱图序列进行语义特征提取，得到语义特征信息，分类器部分对语义特征信息针对不同年龄范围进行分类，获得分类结果，基于分类结果获得目标年龄段。

本公开通过对第一语音数据进行音频化，并进行标准化处理，可以进一步提高预测获得的目标年龄段的准确性。

图7是本公开一示例性实施例提供的第一语音数据的获取流程示意图。

在一个可选示例中，步骤201中的获取第一语音数据，包括：

步骤20121，基于第一图像数据，确定目标人物在目标空间中的第一位置。

其中，第一位置可以基于采集第一图像数据的摄像头的拍摄范围与实际空间位置的对应关系确定，当摄像头安装好后，其拍摄区域固定，图像中不同区域对应目标空间中的不同位置，因此可以基于第一图像数据确定目标人物在目标空间中的第一位置。

步骤20122，基于第一位置，获取第一位置对应的方位的语音数据作为第一语音数据。

具体的，为了保证语音数据预测年龄与图像预测年龄的目标人物的一致性，可以基于目标人物在目标空间的第一位置，获取该第一位置对应方位的语音数据作为第一语音数据，进而可以准确地获得与第一图像数据的目标人物对应的语音，进一步提高目标人物的目标类型的准确性。

在实际应用中，某一方位的语音数据可以通过设置在相应方位的语音采集设备采集获得。比如在车辆座舱中，可以在主驾、副驾、及后排的左右两侧分别设置麦克风，当第一图像数据的目标人物为后排左侧人物时，可以获取后排左侧麦克风采集的语音数据作为第一语音数据。

在实际应用中，还可以针对不同区域分别设置摄像头和麦克风，从而可以同时获取同一区域对应的目标人物的第一图像数据和第一语音数据，进一步提高目标人物的目标类型的准确性。比如设置监控主驾人物的摄像头和主驾麦克风、副驾摄像头和副驾麦克风、后排左侧摄像头和对应的麦克风、后排右侧摄像头和对应的麦克风，等等，具体可以根据实际需求设置。

在实际应用中，对于第一语音数据，还可以通过声纹识别，识别出目标空间中不同目标人物的语音数据，进而基于不同目标人物的语音数据预测各目标人物的目标年龄段，当基于第一图像数据确定的目标年龄值，与各目标年龄段中的一个目标年龄段一致时，可以将该目标年龄段对应的人物类型作为目标年龄值对应的目标人物的目标类型。

本公开各实施例或各可选示例可以单独实施，也可以在不冲突的情况下以任意组合方式结合实施。

本公开实施例提供的任一种人物类型的确定方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种人物类型的确定方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种人物类型的确定方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的人物类型的确定装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图8所示的装置包括：第一获取模块501、第一处理模块502、第二处理模块503和第三处理模块504。

第一获取模块501，用于获取目标空间中的第一图像数据和第一语音数据；第一处理模块502，用于基于第一获取模块501获取的第一图像数据，确定目标空间中的目标人物的目标年龄值；第二处理模块503，用于基于第一获取模块501获取的第一语音数据，确定目标人物所属的目标年龄段；第三处理模块504，用于基于第一处理模块502获得的目标年龄值和第二处理模块503获得的目标年龄段，确定目标人物所属的目标类型。

图9是本公开一示例性实施例提供的第三处理模块504的结构示意图。

在一个可选示例中，第三处理模块504包括：第一处理单元5041，用于响应于目标年龄值属于目标年龄段，将目标年龄段对应的人物类型作为目标类型。

在一个可选示例中，第三处理模块504还包括：第二处理单元5042、第三处理单元5043、第四处理单元5044和第五处理单元5045。

第二处理单元5042，用于响应于目标年龄值不属于目标年龄段，获取目标人物的多帧图像数据；第三处理单元5043，用于基于多帧图像数据，确定各帧分别对应的目标人物的第一年龄值；第四处理单元5044，用于基于各帧分别对应的第一年龄值，确定目标人物的第二年龄值；第五处理单元5045，用于基于第二年龄值，确定目标人物所属的目标类型。

图10是本公开一示例性实施例提供的第一处理模块502的结构示意图。

在一个可选示例中，第一处理模块502包括：第一确定单元5021和第二确定单元5022。

第一确定单元5021，用于基于第一图像数据，确定第一图像数据中包括的目标人物的第一人脸图像；第二确定单元5022，用于基于第一人脸图像，确定目标人物的目标年龄值。

图11是本公开一示例性实施例提供的第一确定单元5021的结构示意图。

在一个可选示例中，第一确定单元5021包括：第一处理子单元50211和第二处理子单元50212。

第一处理子单元50211，用于基于第一图像数据、及预先训练获得的人脸检测模型，确定人脸检测结果，人脸检测结果包括检测到的人脸框位置信息；第二处理子单元50212，用于基于第一图像数据和人脸检测结果，确定目标人物的第一人脸图像。

图12是本公开一示例性实施例提供的第二确定单元5022的结构示意图。

在一个可选示例中，第二确定单元5022包括：第三处理子单元50221和第四处理子单元50222。

第三处理子单元50221，用于基于第一人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果，年龄预测结果包括预设维度的年龄概率分布向量；第四处理子单元50222，用于基于年龄预测结果，确定目标人物的目标年龄值。

在一个可选示例中，年龄概率分布向量包括第一人脸图像的年龄大于或等于各年龄值的概率；第四处理子单元50222具体用于：基于年龄预测结果，确定预设维度中概率值大于预设阈值的第一数量；将第一数量作为目标年龄值。

在一个可选示例中，第三处理子单元50221具体用于：对第一人脸图像进行归一化处理，获得归一化的第二人脸图像；基于第二人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果。

在一个可选示例中，第三处理子单元50221具体用于：基于第一人脸图像、及预先训练获得的关键点检测模型，确定目标人物的脸部关键点坐标信息；基于脸部关键点坐标信息对第一人脸图像进行人脸矫正，获得矫正后的第三人脸图像；基于第三人脸图像、及年龄预测模型，确定年龄预测结果。

图13是本公开另一示例性实施例提供的人物类型的确定装置的结构示意图。

在一个可选示例中，本公开的装置还包括：第四处理模块601，用于基于第一图像数据，确定目标人物的遮挡属性；第五处理模块602，用于响应于目标人物的遮挡属性为遮挡，基于目标年龄段，确定目标人物所属的目标类型。

图14是本公开一示例性实施例提供的第二处理模块503的结构示意图。

在一个可选示例中，第二处理模块503包括：第六处理单元5031、第七处理单元5032、第八处理单元5033和第九处理单元5034。

第六处理单元5031，用于基于预设转换规则，将第一语音数据转换为第一音频数据；第七处理单元5032，用于将第一音频数据进行标准化处理，获得第二音频数据；第八处理单元5033，用于基于第二音频数据，确定梅尔频谱图序列；第九处理单元5034，用于基于梅尔频谱图序列、及预先训练获得的年龄段分类模型，确定目标人物所属的目标年龄段。

图15是本公开一示例性实施例提供的第一获取模块501的结构示意图。

在一个可选示例中，第一获取模块501包括：第一获取单元5011、第三确定单元5012和第二获取单元5013。

第一获取单元5011，用于获取目标空间中的第一图像数据；第三确定单元5012，用于基于第一图像数据，确定目标人物在目标空间中的第一位置；第二获取单元5013，用于基于第一位置，获取第一位置对应的方位的语音数据作为第一语音数据。

示例性电子设备

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的人物类型的确定方法。

图16是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图16中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种人物类型的确定方法，包括：

获取目标空间中的第一图像数据和第一语音数据；

基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值；

基于所述第一语音数据，确定所述目标人物所属的目标年龄段；

基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型。

2.根据权利要求1所述的方法，其中，所述基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型，包括：

响应于所述目标年龄值属于所述目标年龄段，将所述目标年龄段对应的人物类型作为所述目标类型。

3.根据权利要求1所述的方法，其中，所述基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型，包括：

响应于所述目标年龄值不属于所述目标年龄段，获取所述目标人物的多帧图像数据；

基于所述多帧图像数据，确定各帧分别对应的所述目标人物的第一年龄值；

基于各帧分别对应的所述第一年龄值，确定所述目标人物的第二年龄值；

基于所述第二年龄值，确定所述目标人物所属的所述目标类型。

4.根据权利要求1所述的方法，其中，所述基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值，包括：

基于所述第一图像数据，确定所述第一图像数据中包括的所述目标人物的第一人脸图像；

基于所述第一人脸图像，确定所述目标人物的所述目标年龄值。

5.根据权利要求4所述的方法，其中，所述基于所述第一人脸图像，确定所述目标人物的所述目标年龄值，包括：

基于所述第一人脸图像、及预先训练获得的年龄预测模型，确定年龄预测结果，所述年龄预测结果包括预设维度的年龄概率分布向量；

基于所述年龄预测结果，确定所述目标人物的所述目标年龄值。

6.根据权利要求5所述的方法，其中，所述年龄概率分布向量包括所述第一人脸图像的年龄大于或等于各年龄值的概率；

所述基于所述年龄预测结果，确定所述目标人物的所述目标年龄值，包括：

基于所述年龄预测结果，确定所述预设维度中概率值大于预设阈值的第一数量；

将所述第一数量作为所述目标年龄值。

7.根据权利要求1所述的方法，在基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值之前，还包括：

基于所述第一图像数据，确定所述目标人物的遮挡属性；

所述方法还包括：

响应于所述目标人物的遮挡属性为遮挡，基于所述目标年龄段，确定所述目标人物所属的目标类型。

8.根据权利要求1所述的方法，其中，所述基于所述第一语音数据，确定所述目标人物所属的目标年龄段，包括：

基于预设转换规则，将所述第一语音数据转换为第一音频数据；

将所述第一音频数据进行标准化处理，获得第二音频数据；

基于所述第二音频数据，确定梅尔频谱图序列；

基于所述梅尔频谱图序列、及预先训练获得的年龄段分类模型，确定所述目标人物所属的所述目标年龄段。

9.根据权利要求1所述的方法，其中，获取第一语音数据，包括：

基于所述第一图像数据，确定所述目标人物在所述目标空间中的第一位置；

基于所述第一位置，获取所述第一位置对应的方位的语音数据作为所述第一语音数据。

10.一种人物类型的确定装置，包括：

第一获取模块，用于获取目标空间中的第一图像数据和第一语音数据；

第一处理模块，用于基于所述第一图像数据，确定所述目标空间中的目标人物的目标年龄值；

第二处理模块，用于基于所述第一语音数据，确定所述目标人物所属的目标年龄段；

第三处理模块，用于基于所述目标年龄值和所述目标年龄段，确定所述目标人物所属的目标类型。

11.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的人物类型的确定方法。

12.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的人物类型的确定方法。