CN113348463A

CN113348463A - 一种信息处理方法及装置

Info

Publication number: CN113348463A
Application number: CN202180001104.2A
Authority: CN
Inventors: 刘杨
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-09-03
Anticipated expiration: 2041-04-26
Also published as: CN113348463B; EP4322053A1; US20240054765A1; EP4322053A4; WO2022226723A1

Abstract

本申请公开了一种信息处理方法，可以应用于例如车辆、手持终端等计算机中，车辆例如为智能汽车、智能网联汽车上，该方法用于实现视觉认知过程，该方法包括：获取图像，将图像输入特征提取模型，从特征提取模型中获取第一特征图。之后，将第一特征图输入第一语义识别模型，从第一语义识别模型获取第一目标语义信息。通过将用于视觉认知过程拆分为两个机器学习模型实现，便于对视觉认知过程进行优化，提高视觉认知的准确性，进而提高视觉任务的准确性。

Description

一种信息处理方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种信息处理方法及装置。

背景技术

计算机视觉是人工智能领域的一个重要分支，是指计算机能够代替人眼和大脑对环境和其中的刺激(或称对象)进行视觉认知，例如计算机识别人的手部姿态所表达的语义信息。基于视觉认知的结果，计算机能够执行视觉任务，例如，通过获取和处理驾驶员的图像，计算机能够识别驾驶员是否正在饮水，基于该识别结果，计算机能够在驾驶员饮水时，播放语音信息“注意行车安全哦”。

计算机执行视觉任务的准确性取决于视觉认知的准确性。然而，由于用于实现计算机视觉的视觉系统的复杂度一般较高，对视觉系统进行调整或优化的成本较高，不利于对视觉系统进行持续优化，进而影响了视觉任务的准确执行。

发明内容

本申请实施例提供了一种信息处理方法及装置，用于对获取的图像执行可感知的视觉认知过程，便于对该视觉认知过程进行调整或优化，从而有利于对视觉系统进行持续优化，进而提高计算机执行视觉任务的准确性。

下面对本申请实施例方法和装置进行分别介绍。

第一方面，本申请实施例提供一种信息处理方法，该方法可以应用于第一设备，第一设备能够根据目标对象的图像来识别目标对象的形貌所表达的语义信息。

具体的，第一设备设置有特征提取模型和语义识别模型，这两个模型均是通过机器学习方法训练得到的。其中，特征提取模型的输入为图像，特征提取模型用于根据输入的图像提取目标对象的特征图，提取的特征图用于描述目标对象对应于相应图像的形貌。在一种可能的实现方式中，例如通过对该特征图进行可视化处理(如渲染)等操作能够得到包括目标对象的图像或视频帧，该图像或视频帧中目标对象的形貌为该特征图所描述的形貌。语义识别模型的输入为目标对象的特征图，语义识别模型用于根据输入的特征图确定语义信息，语义信息为特征图描述的形貌所表达的含义，例如，正在打哈欠。可选的，语义识别模型用于为视觉任务提供语义信息，考虑到第一设备可以为多个视觉任务提供语义信息，将第一方面涉及的语义识别模型称作第一语义识别模型，将其输出的语义信息称作第一语义信息，将第一语义信息所服务的视觉任务称作第一视觉任务。

基于上述两个模型，第一设备可以执行如下视觉认知过程。

首先，第一设备可以获取图像。该图像所描述的对象包括目标对象，可选的，还可以包括目标对象以外的其他对象(称作背景)。假设目标对象为人，图像中人以外的其他对象(例如沙发，电视，墙壁等)为背景。该图像能够捕获目标对象的特定形貌。

第一设备获取到图像后，将该图像输入特征提取模型，从特征提取模型中获取对应于该图像的第一特征图。该第一特征图为特征提取模型根据输入的该图像提取的目标对象的特征图。第一特征图用于描述目标对象的第一形貌。在一种可能的实现方式中，通过对该第一特征图进行可视化处理(如渲染)等操作能够得到包括目标对象的图像或视频帧，该图像或视频帧中目标对象的形貌为该特征图所描述的第一形貌。例如，假设人在拍照时正在打哈欠，那么，将拍照得到的图像输入特征提取模型后，提取的第一特征图用于描述人正在打哈欠的姿势。

第一设备获取到第一特征图后，将第一特征图输入第一语义识别模型，从第一语义识别模型中获取第一目标语义信息。第一目标语义信息为从输入第一语义识别模型的第一特征图中识别到的语义信息。第一目标语义信息用于描述第一形貌所表达的含义。例如，假设第一特征图用于描述人正在打哈欠的姿势，那么第一目标语义信息可以表示：目标对象正在打哈欠。

基于本申请实施例第一方面提供的技术方案，第一设备在对获取的图像执行视觉认知过程中，先从图像中学习得到第一特征图，第一特征图用于描述目标对象的第一形貌，之后从第一特征图中学习得到第一目标语义信息。和现有视觉认知过程直接从图像中学习得到语义信息不同，本申请实施例所执行的视觉认知过程能够在获取图像后在得到第一目标语义信息之前，获取描述第一形貌的第一特征图，有利于提高视觉认知过程的可感知程度，便于对该视觉认知过程进行调整或优化，从而有利于对视觉系统进行持续优化，进而提高计算机执行视觉任务的准确性。

例如，当第一语义识别模型输出的第一目标语义信息错误时，维护人员可以通过查看特征提取模型输出的第一特征图来快速定位问题。若第一特征图能够准确的描述目标对象的第一形貌，那么维护人员能够快速将问题定位到第一语义识别模型。若第一特征图无法准确的描述目标对象的第一形貌，那么维护人员能够快速将问题定位到特征提取模型。定位到问题所在的模型，有利于降低维护人员对相应问题的修复成本，有利于持续优化视觉认知的准确性，进而提高计算机执行视觉任务的准确性。

可选的，本申请实施例所提到的特征提取的过程，可以理解为对输入的图像进行视觉处理的过程。例如特征提取模型提取到的特征图可以包括如下至少一种特征图：对输入的图像进行低层视觉处理得到的初始简图，对输入的图像进行中层视觉处理后得到的本征图像，和对输入的图像进行高层视觉处理后得到的三维模型。

特征图与输入的图像相比，可选的，其对应的点云中点的数目可以小于图像对应的点云中点的数目，例如初始简图或本征图像对应的点云中点的数目可能小于图像对应的点云中点的数目。或者，可选的，其对应的点云中点的数目可以大于图像对应的点云中点的数目，例如三维模型对应的点云中点的数目可能大于图像对应的点云中点的数目。

可选地，结合上述第一方面，在第一方面的第一种可能的实现方式中，特征提取模型的训练过程与第一语义识别模型的训练过程是彼此独立的。

在一种可能的实现方式中，特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立可以理解为，在更新特征提取模型的权重时，第一语义识别模型中的权重不变，反之亦然。

在一种可能的实现方式中，特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立可以理解为，特征提取模型与第一语义识别模型为分别采用不同的样本训练得到的。

在一种可能的实现方式中，特征提取模型和第一语义识别模型所采用的的样本携带有标签。在一种可能的实现方式中，特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立可以理解为，特征提取模型与第一语义识别模型的训练过程分别采用的样本携带不同类型的标签，例如，训练特征提取模型的样本携带的标签能够经过可视化处理得到图像或视频帧，训练第一语义识别模型的样本携带的标签为目标对象的形貌所能表达的含义，无法经过可视化处理得到图像或视频帧。

基于特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立，本申请实施例方案能够实现的一种可能的有益效果包括：通过对特征提取模型进行优化，有利于提高从特征提取模型获取的第一特征图的准确性(例如第一特征图能够更加准确的描述第一形貌)，第一语义识别模型对准确性更高的第一特征图进行语义识别，有利于提高从第一语义识别模型中获取的第一目标语义信息的准确性。

基于特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立，本申请实施例方案能够实现的另一种可能的有益效果包括：当视觉认知结果准确性较低时，可以根据第一特征图对特征提取模型或第一语义识别模型进行优化，而无需对整个视觉系统进行优化，有利于降低对视觉系统的优化成本。例如，当问题定位到第一语义识别模型时，只需对第一语义识别模型进行训练即可。当问题定位到特征提取模型时，只需对特征提取模型进行训练即可。有利于降低对视觉系统的训练成本，进而有利于持续优化视觉认知的准确性。

本申请实施例不限定特征提取模型和第一语义识别模型的结构或类型。在一种可能的实现方式中，特征提取模型对应于一个或多个机器学习模型(例如神经网络模型)。在一种可能的实现方式中，第一语义识别模型对应于一个或多个机器学习模型(例如神经网络模型)。在一种可能的实现方式中，特征提取模型和第一语义模型可以集成在同一个机器学习模型(例如神经网络模型)中。在一种可能的实现方式中，特征提取模型对应于一个神经网络模型中的一个或多个网络层。在一种可能的实现方式中，第一语义识别模型对应于一个神经网络模型中的一个或多个网络层。

可选地，结合上述第一方面或第一种可能的实现方式，在第一方面的第二种可能的实现方式中，第一设备将图像输入特征提取模型后，特征提取模型根据该图像利用参数化模型拟合该目标对象，得到拟合目标对象的三维模型，第一特征图包括该三维模型的信息。

可选的，三维模型为高层视觉处理的结果，基于三维模型的信息，有利于第一语义识别模型输出更加准确的语义信息。

可选地，结合上述第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，三维模型的信息包括该三维模型中各网格顶点的信息，或者，包括各拟合参数的信息，该拟合参数的信息用于根据该参数化模型确定该三维模型，或者，包括部分网格顶点的信息和部分拟合参数的信息。

可选的，结合上述第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，第一语义识别模型可以获取参数化模型的信息，并根据该第一目标特征和该参数化模型确定第一目标语义信息，有利于减少第一语义识别模型的输入数据量。

可选的，结合上述第一方面或第一方面的第一种至第三种可能的实现方式中任意一种可能的实现方式，在第一方面的第五种可能的实现方式中，第一设备还可以为第一视觉任务以外的其他视觉任务提供语义信息，将该视觉任务称作第二视觉任务。将为第二视觉任务提供语义信息的语义识别模型称作第二语义识别模型，将其输出的语义信息称作第二语义信息。关于第二语义识别模型的理解可以参考前述第一方面对语义识别模型的介绍，此处不再赘述。

若第二视觉任务是基于对上述目标对象的视觉认知所执行的任务，现有技术中，由于视觉认知过程直接从获取的图像中学习得到语义信息，因此，若计算机需要执行N个视觉任务，那么计算机就至少需要N个相互独立的视觉认知过程来执行该N个视觉任务。其中，N为正整数。该N个视觉认知过程中不同的视觉认知过程可能需要对相同图像中的相同目标对象进行视觉认知。将这样的不同视觉认知过程称作彼此关联的视觉认知过程。彼此关联的多个视觉认知过程一般存在相同的图像处理过程(例如前文所述的低层视觉处理过程，具体的例如对目标对象的语义分割过程)。本申请实施例将这种相同的图像处理过程称作冗余过程，冗余过程的存在浪费了计算机的资源。随着视觉任务数目的不断增加，彼此关联的视觉认知过程的数目也随之增加，大量的冗余过程将浪费计算机更多资源，降低计算机性能。

为解决上述问题，可选的，结合上述第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，第一设备将图像输入特征提取模型之后，该第一设备从该特征提取模型获取对应于该图像的第二特征图，该第二特征图为特征提取模型根据输入的该图像提取的目标对象的特征图。该第二特征图描述目标对象的第二形貌。在一种可能的实现方式中，例如通过对该第二特征图进行可视化处理(如渲染)等操作能够得到包括目标对象的图像或视频帧，该图像或视频帧中目标对象的形貌为该特征图所描述的第二形貌。该第二特征图为特征提取模型从获取的图像中学习到的特征图。该第一设备将该第二特征图输入第二语义识别模型，该第二语义识别模型用于根据输入的该特征图确定第二语义信息。该第一设备从该第二语义识别模型获取第二目标语义信息。该第二目标语义信息为第二语义识别模型根据输入的第二特征图提取确定的语义信息，该第二目标语义信息描述该第二形貌所表达的含义。

本申请实施例中，第一设备利用特征提取模型对获取的图像进行图像处理，得到第一语义识别模型所需的输入信息(即第一特征图)和第二语义识别模型所需的输入信息(即第二特征图)。之后，利用第一语义识别模型继续对第一特征图进行处理得到第一目标语义信息，利用第二语义识别模型继续对第二特征图进行处理得到第二目标语义信息。可见，第一设备通过从特征提取模型中获取第一语义识别模型所需的第一特征图和第二语义识别模型所需的第二特征图，有利于减少第一目标语义信息对应的视觉认知过程(称作第一视觉认知过程)和第二目标语义信息对应的视觉认知过程(称作第二视觉认知过程)之间的冗余过程，进而有利于节约第一设备的资源，进而有利于提高第一设备的视觉认知性能。

在一种可能的实现方式中，本申请实施例涉及的设备的资源可以例如为设备的计算资源、存储资源和网络资源等资源中的一种或多种资源。

第二特征图与第一特征图可以相同，也可以不同。当二者相同时，第一形貌与第二形貌相同，并且，步骤“该第一设备从该特征提取模型获取第二特征图”可以不重复执行。第一特征图和第二特征图不同，可以指，第一特征图和第二特征图对应的视觉处理层级不同。例如，若第一语义识别模型根据二维图像便可以确定第一目标语义信息，而第二语义识别模型需要根据三维图像确定第二目标语义信息，那么第一特征图可以为经过低层视觉处理得到的特征图，第二特征图可以为依次经过低层视觉处理和中层视觉处理得到的特征图，或者第二特征图为依次经过低层视觉处理、中层视觉处理和高层视觉处理得到的特征图。若第一特征图和第二特征图不同，第一形貌和第二形貌也可以不同。

可选的，第一目标语义信息和第二目标语义信息不同。即使第一形貌和第二形貌相同，但是，由于第一目标语义信息和第二目标语义信息服务的视觉任务不同，因此，从相同形貌“理解”到的含义可能不同。例如，若第一视觉任务为在驾驶员打哈欠时进行提醒，第二视觉任务为在驾驶员张嘴时进行声音内容检测，那么，对于驾驶员打哈欠的姿势，第一语义识别模型得到的第一目标语义信息可以为“驾驶员在打哈欠”，而第二语义识别模型得到的第二目标语义信息可以为“驾驶员张嘴了”。

可选的，结合上述第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，该第一语义识别模型的训练过程和该第二语义识别模型的训练过程彼此独立。训练过程彼此独立可以理解为，在更新第一语义识别模型的权重时，第二语义识别模型中的权重不变，反之亦然。

可选的，结合上述第一方面或第一方面的第一种至第七种可能的实现方式中任意一种可能的实现方式，在第一方面的第八种可能的实现方式中，第一设备可以根据该第一目标语义信息执行第一视觉任务，或者，根据第一目标语义信息向第二设备发送第一消息，该第一消息指示第二设备执行第一视觉任务。

可选的，结合上述第一方面的第七种可能的实现方式，在第一方面的第九种可能的实现方式中，第一设备可以根据该第二目标语义信息执行第二视觉任务，或者，根据第二目标语义信息向第二设备发送第二消息，该第二消息指示第二设备执行第二视觉任务。

将第一设备根据该第一目标语义信息执行第一视觉任务，并且根据该第二目标语义信息执行第二视觉任务称作情况1。下面对情况1进行说明。

本申请实施例不限定第一视觉任务和第二视觉任务之间的先后执行顺序。

可选的，第一视觉任务和第二视觉任务不同可以体现在，第一视觉任务和第二视觉任务属于如下任务类型中的不同任务类型：行为识别、人体姿势估计、场景理解、语义分割、目标检测和图像分类。

或者，可选的，第一视觉任务和第二视觉任务不同可以体现在，在执行第一视觉任务和第二视觉任务的过程中输出的信息类型不同，信息类型包括但不限于：语音信息，图像，控制信息。或者，当信息类型相同时，信息的内容不同，例如输出不同的语音信息或图像，或者输出的控制信息用于控制不同的设备。

将第一设备根据第一目标语义信息向第二设备发送第一消息，并且根据第二目标语义信息向第二设备发送第二消息称作情况2。对情况2的理解可以参考上述对情况1的介绍，此处不再赘述。

结合上述第一方面或第一方面的第一种至第九种可能的实现方式，在第一方面的第十种可能的实现方式中，该图像来自车载传感器的传感信息。

结合上述第一方面的第十种可能的实现方式，在第一方面的第十一种可能的实现方式中，该传感器包括如下至少一种传感器：雷达，红外探测器，深度相机，全彩相机，和鱼眼相机。其中，雷达包括超声波雷达，微波雷达，和激光测距仪等。

结合上述第一方面或第一方面的第一种至第十一种可能的实现方式，在第一方面的第十二种可能的实现方式中，该目标对象包括人，或车，或道路场景。

结合上述第一方面或第一方面的第一种至第十二种可能的实现方式，在第一方面的第十三种可能的实现方式中，第一设备为车辆。可选的，该图像为该车辆上的传感器系统获取到的。

结合上述第一方面或第一方面的第一种至第十三种可能的实现方式，在第一方面的第十四种可能的实现方式中，本申请实施例用于支持第二设备(例如车辆)中的视觉任务。例如，可选的，第一设备为服务器或云侧设备，车辆上的传感器获取到图像后，发送给第一设备，第一设备根据图像得到第一目标语义信息后，将第一目标语义信息发送给车辆，指示车辆根据该第一目标语义信息执行第一视觉任务。

本申请实施例还提供一种图像处理方法，该方法包括：获取目标对象的图像，根据图像和预设的目标对象的参数化模型，获取目标对象基于参数化模型的模型参数，模型参数用于指示目标对象的三维模型，根据模型参数获取图像的第一语义信息。

可选的，根据图像和预设的目标对象的参数化模型，获取目标对象基于参数化模型的模型参数，具体包括：基于预设的人体参数化模型和初始参数获取第一三维模型；根据第一三维模型进行渲染，获取与目标对象的图像拟合后的误差值；获取模型参数，基于模型参数的三维模型进行渲染得到的图像与目标对象的图像的误差小于预设阈值。

可选的，图像包括RGB图像和深度图像；根据图像和预设的目标对象的参数化模型，获取图像基于参数化模型的模型参数，具体包括：获取RGB图像中目标对象的二维关键点；根据RGB图像和深度图像，获取目标对象的三维点云；基于二维关键点和三维点云，获取目标对象的三维关键点；根据三维关键点和参数化模型进行拟合，获取模型参数。

可选的，根据模型参数获取图像的第一语义信息具体包括：将模型参数输入预设的深度学习网络模型进行分类，获取第一语义信息。

可选的，该方法还包括：根据模型参数获取图像的第二语义信息，第二语义信息。

可选的，目标对象包括第一目标对象和第二目标对象，第一目标对象为人，或车，或道路场景中的一个，第二目标对象为人，或车，或道路场景中的一个，第一目标对象与第二目标对象不同；模型参数包括第一目标对象的第一模型参数和第二目标对象的第二模型参数；根据模型参数获取图像的第一语义信息具体包括：根据第一模型参数和第二模型参数获取第一语义信息。可选的，目标对象包括人，或车，或道路场景。可选的，图像包括以下至少一种：RGB图像、灰度图像或深度图像。

第二方面，本申请实施例提供一种信息处理装置，该信息处理装置可以是第一方面所提到的第一设备，或者是第一设备中的装置，或者是能够和第一设备匹配使用的装置。一种设计中，该信息处理装置可以包括执行第一方面或第一方面中任意一种可能的实现方式所描述的方法/操作/步骤/动作所一一对应的模块，该模块可以是硬件电路，也可以是以软件形式存在的模块，也可以是硬件电路结合软件实现的模块。例如，该信息处理遮罩包括存储单元和处理单元，该存储单元用于存储程序指令，该处理单元用于执行该存储单元中的指令(或称计算机程序指令或功能程序或程序代码)，以实现上述第一方面或第一方面的任意一种可能的实现方式所描述的方法。

在一种可能的设计中，第三方面，本申请实施例提供一种信息处理装置，该信息处理装置包括图像获取模块，特征提取模块和语义识别模块。该图像获取模块用于获取图像。该特征提取模块用于将该图像获取模块获取到的该图像输入特征提取模型，该特征提取模型用于根据输入的图像提取目标对象的特征图。该特征提取模块还用于从该特征提取模型获取对应于该图像的第一特征图，该第一特征图为特征提取模型根据输入的该图像提取的目标对象的特征图，该第一特征图描述该目标对象的第一形貌。该语义识别模块用于将该特征提取模块获取到的该第一特征图输入第一语义识别模型，该第一语义识别模型用于根据输入的该特征图确定第一语义信息。该语义识别模块还用于从该第一语义识别模型获取对应于该图像的第一目标语义信息，该第一目标语义信息为第一语义识别模型根据输入的该第一特征图确定的语义信息，该第一目标语义信息描述该第一形貌所表达的含义。

基于第三方面，在第三方面的第一种可能的实现方式中，该特征提取模型的训练过程与该第一语义识别模型的训练过程彼此独立。

基于第三方面或第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，该第一特征图包括三维模型的信息，该三维模型为该特征提取模型根据该图像利用参数化模型拟合该目标对象确定的。

基于第三方面的第二种可能的实现方式，在第三方面的第三种可能的实现方式中，三维模型的信息包括该三维模型中网格顶点的信息，和/或，拟合参数的信息，该拟合参数的信息用于根据该参数化模型确定该三维模型。

基于第三方面或第三方面的第一种至第三种可能的实现方式中任意一种可能的实现方式，在第三方面的第四种可能的实现方式中，该特征提取模块还用于，在将该图像输入特征提取模型之后，从该特征提取模型获取对应于该图像的第二特征图，该第二特征图为特征提取模型根据输入的该图像提取的目标对象的特征图，该第二特征图描述该第二形貌。该语义识别模块还用于，将该特征提取模块获取到的第二特征图输入第二语义识别模型，该第二语义识别模型用于根据输入的该特征图确定第二语义信息。之后，从该第二语义识别模型获取对应于该第二特征图的第二目标语义信息，该第二目标语义信息描述该第二形貌所表达的含义。

基于第三方面的第四种可能的实现方式，在第三方面的第五种可能的实现方式中，该第一语义识别模型的训练过程和该第二语义识别模型的训练过程彼此独立。

基于第三方面或第三方面的第一种至第五种可能的实现方式中任意一种可能的实现方式，在第三方面的第六种可能的实现方式中，该信息处理装置还包括任务执行模块，该任务执行模块用于根据该第一目标语义信息执行第一视觉任务。

基于第三方面的第五种和第六种可能的实现方式，在第三方面的第七种可能的实现方式中，该任务执行模块还用于根据该第二目标语义信息执行第二视觉任务。

基于第三方面或第三方面的第一种至第五种可能的实现方式中任意一种可能的实现方式，在第三方面的第八种可能的实现方式中，该信息处理装置还包括通信模块，该通信模块用于向第二设备发送第一消息，该第一消息指示第二设备执行第一视觉任务。

基于第三方面的第五种和第八种可能的实现方式，在第三方面的第九种可能的实现方式中，该通信模块还用于向第二设备发送第二消息，该第二消息指示第二设备执行第二视觉任务。

基于第三方面或第三方面的第一种至第九种可能的实现方式中任意一种可能的实现方式，在第三方面的第十种可能的实现方式中，该图像为车辆上的传感器得到的。

基于第三方面的第十种可能的实现方式，在第三方面的第十一种可能的实现方式中，该传感器包括如下至少一种传感器：雷达，红外探测器，深度相机，全彩相机，和鱼眼相机。

基于第三方面或第三方面的第一种至第十一种可能的实现方式中任意一种可能的实现方式，在第三方面的第十二种可能的实现方式中，该目标对象包括人，或车，或道路场景。

第四方面，本申请实施例提供一种计算设备，该计算设备包括处理器和存储器，该处理器和该存储器耦合，该处理器执行该存储器中存储的指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)时，能够执行第一设备在第一方面或第一方面的任意一种可能的实现方式中所执行的方法。

可选的，这些指令存储在该计算设备外部的存储器中。当这些指令被该计算设备的处理器译码并执行时，该计算设备内部的存储器中临时存放上述指令的部分或全部内容。可选的，这些指令的部分内容存储在该计算设备外部的存储器中，这些指令的其他部分内容存储在该计算设备内部的存储器中。在一种可能的实现方式中，该计算设备可以为服务器或服务器中的装置(例如软件或硬件或软硬结合实现的装置)。或者，在一种可能的实现方式中，该计算设备可以是终端或终端中的装置(例如软件或硬件或软硬结合实现的装置)。在一种可能的实现方式中，该计算设备可以指计算机设备。

基于第四方面，在一种可能的设计中，该计算设备还可以包括传感器系统，该传感器系统用于获取图像，可选的，计算设备在执行第一方面或第一方面的任意一种可能的实现方式中所介绍的方法时，通过该传感器系统获取图像。可选的，该计算设备可以为车载终端或车载终端中的装置，或者为手持终端或手持终端中的装置等。

基于第四方面，在一种可能的设计中，该计算设备还可以包括通信接口。

基于计算设备包括通信接口，可选的，该计算设备的处理器利用该通信接口获取来自第二设备的图像。可选的，该第二设备可以包括传感器系统，以获取图像。可选的，该第二设备可以为终端，例如车载终端或手持终端等。

基于计算设备包括通信接口，可选的，该计算设备的处理器利用该通信接口向第二设备发送消息，该消息为根据第一方面或第一方面的任意一种可能的实现方式中提到的第一目标语义信息生成的，以指示第二设备执行第一视觉任务。或者，可选的，该消息为根据第一方面的第六种可能的实现方式中提到的第二目标语义信息生成的，以指示第二设备执行第二视觉任务。

本申请第五方面提供了一种芯片系统，该芯片系统包括处理器和接口电路，该处理器通过该接口电路与存储器耦合，该处理器用于执行该存储器中的指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)，以实现上述第一方面或第一方面的任意一种可能的实现方式所描述的方法。该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

本申请第六方面提供一种计算机可读存储介质，该计算机可读存储介质中存储了指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)，这些指令在计算设备上运行时，使得计算设备执行如本申请实施例第一方面或第一方面的任意一种可能的实现方式中的方法。在一种可能的实现方式中，该计算设备可以指计算机设备。

本申请第七方面提供一种计算机程序产品，该计算机程序产品包含的指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)被计算设备执行时，以实现如本申请实施例第一方面或第一方面的任意一种可能的实现方式中的方法。在一种可能的实现方式中，该计算设备可以指计算机设备。

以上通过第一方面和第一方面的各个实现方式介绍了本申请实施例方法，并且，通过第二方面至第六方面以及第二方面至第六方面中的各个实现方式介绍了本申请实施例装置。下面分别介绍本申请实施例方法和装置的有益效果。

本申请实施例提供的信息处理方法能够对获取的图像执行视觉认知过程，以得到第一目标语义信息。和现有技术直接从图像中学习得到语义信息视觉认知过程不同，基于本申请实施例方法，第一设备在对获取的图像执行视觉认知的过程中，第一设备先从图像中学习得到第一特征图，第一特征图用于描述目标对象的第一形貌，之后从第一特征图中学习得到第一目标语义信息。本申请实施例方法通过获取第一特征图，有利于提高第一视觉认知过程的可感知程度，便于对该第一视觉认知过程进行调整或优化，从而有利于对视觉系统进行持续优化，进而提高计算机执行视觉任务的准确性。视觉认知过程视觉认知过程视觉认知过程视觉认知过程

在一种可能的实现方式中，第一设备利用机器学习方法训练的特征提取模型来从图像中获取第一特征图，利用机器学习方法训练的第一语义识别模型来从第一特征图中获取第一目标语义信息。在一种可能的实现方式中，该特征提取模型的训练过程与该第一语义识别模型的训练过程是彼此独立的。

基于特征提取模型的训练过程与第一语义识别模型的训练过程彼此独立，本申请实施例方案能够实现的另一种可能的有益效果包括：当视觉认知结果准确性较低时，可以根据第一特征图对特征提取模型或第一语义识别模型进行优化，而无需对整个视觉系统进行优化，有利于降低对视觉系统的优化成本。例如，若第一特征图能够准确的描述第一形貌，可以通过优化第一语义识别模型来提高视觉认知结果的准确性。若第一特征图无法准确的描述第一形貌，可以通过优化特征提取模型来提高视觉认知结果的准确性。有利于实现不对整个视觉系统进行优化便能提高视觉认知结果的准确性，从而有利于降低视觉系统的优化成本。

可选的，第一设备从该特征提取模型获取的第一特征图为三维模型的信息，三维模型为高层视觉处理的结果，能够更加准确的描述目标对象的第一形貌，第一设备将三维模型的信息输入第一语义识别模型，有利于降低第一语义识别模型的复杂度，提高第一语义识别模型输出的第一目标语义信息的准确性。

可选的，第一设备将获取的图像输入特征提取模型后，还可以从该特征提取模型中获取对应于该图像的第二特征图，第一设备可以将第二特征图输入第二语义识别模型，从第二语义识别模型中获取对应于该第二特征图的第二目标语义信息。和现有技术中彼此关联的多个视觉认知过程(参考前文相关介绍)均是从图像中直接得到语义信息相比，本申请实施例中，第一设备通过从特征提取模型中获取第一语义识别模型所需的第一特征图和第二语义识别模型所需的第二特征图，有利于减少第一目标语义信息对应的视觉认知过程和第二目标语义信息对应的视觉认知过程之间的冗余过程，进而有利于节约第一设备的资源，进而有利于提高第一设备的视觉认知性能。

可选的，第一设备可以根据该第一目标语义信息执行第一视觉任务。通过由同一设备执行第一视觉认知过程和第一视觉任务，有利于根据第一视觉任务的执行效果对第一视觉认知过程进行在线反馈，有利于及时对第一视觉认知过程进行优化。

可选的，第一设备可以根据该第二目标语义信息执行第二视觉任务。通过由同一设备执行第二视觉认知过程和第二视觉任务，有利于根据第二视觉任务的执行效果对第二视觉认知过程进行在线反馈，有利于及时对第二视觉认知过程进行优化。

可选的，该图像来自车载传感器的传感信息，有利于车辆实现视觉认知的功能，从而有利于车辆执行视觉任务，提高车辆的智能化。

可选的，该传感器包括至少两种类型的传感器，有利于丰富第一设备对目标对象的视觉认知，从而有利于提高获取到的语义信息的准确性。

以上对本申请实施例方法的有益效果进行举例分析。由于本申请实施例提供的各装置可用于执行前述对应的实施例方法，因此本申请各装置实施例所能获得到的技术效果可参考前述对应的方法实施例所获得的技术效果，此处不再赘述。

附图说明

图1A示出了车辆一种可能的外观；

图1B示出了图1A所示车辆获取的车外物体的一种可能的图像；

图1C以驾驶员的视角描绘了车辆内部和外部的局部外观；

图1D示出了图1A所示车辆获取的车辆内部的一种可能的图像；

图2示出了一种用于完成安全驾驶监督任务的电路结构；

图3示出了一种用于完成座椅调整任务的电路结构；

图4示出了本申请实施例用于完成视觉任务一种可能的电路结构；

图5A本申请实施例提供的信息处理方法一种可能的步骤；

图5B、图5C、图5D、图5E、图5F和图5G分别示出了本申请特征提取模型可能得到的特征图；

图6A和图6B分别示出了本申请实施例一种可能的特征提取方法；

图6C和图6D分别示出了本申请实施例另一种可能的特征提取方法；

图7A示出了现有技术中为两个视觉任务提供语义信息所进行的信息处理过程；

图7B示出了本申请实施例用于完成视觉任务另一种可能的电路结构；

图7C示出了本申请实施例中为两个视觉任务提供语义信息所进行的信息处理过程；

图8示出了本申请实施例提供的信息处理方法另一种可能的步骤；

图9示出了本申请实施例提供的计算设备一种可能的结构；

图10示出了本申请实施例提供的信息处理装置一种可能的结构。

具体实施方式

下面，首先对本申请实施例的应用背景进行介绍。

计算机视觉是人工智能领域的一个重要分支，主要是指计算机能够代替人眼和大脑对环境和其中的刺激(或称对象)进行视觉认知(或称可视化分析)。视觉认知的结果可以为语义信息。语义信息是信息的表现形式之一，指能够消除事物不确定性的有一定意义的信息，可以借助自然语言去领会和解释。

本申请实施例中，图像的语义信息指图像可以呈现的信息，计算机视觉系统可以将像素级图像转换为语义信息，例如，语义信息可以为人的姿势或手部的动作等。图像的语义信息可以应用于例如智能座舱等智能设备中，为智能设备执行的视觉任务等提供参考。

视觉任务是基于对目标对象的视觉认知结果(即语义信息)所执行的任务，如人机交互任务等。这里所说的目标对象可以对应于人或物体，并且，本申请实施例不限定目标对象对应于完整的人或物体。例如，目标对象可以为人的局部，例如人的手部或头部等。又例如，目标对象可以为物体的局部，例如车辆的尾灯或车牌等。

下面结合表1，以车辆为例，介绍计算机执行的视觉任务以及各视觉任务分别基于的语义信息。应理解，本申请实施例除了可以应用于智能车领域，还可以应用于例如智能终端或智能家居等其他领域。

表1

下面示例性介绍视觉任务的实现方法。

计算机可以通过任务执行系统来执行例如表1所示的视觉任务，具体的，该任务执行系统用于获取目标对象的形貌所表达的语义信息，并且根据获取到的语义信息来执行视觉任务。示例性的，该任务执行系统可以预设有语义信息与动作的对应关系，获取到语义信息后，匹配到指示该语义信息的对应关系，执行该对应关系指示的动作，从而实现所需执行的视觉任务。

以计算机为图1A所示的车辆a为例，假设车辆a利用如图2所示的任务执行系统21来执行表1中的安全驾驶监督任务，可选的，任务执行系统21预设对应关系1和对应关系2。其中，对应关系1指示的语义信息为：驾驶员在打哈欠，对应关系1指示的动作为：播放内容为“不要疲劳驾驶哦”的语音。其中，对应关系2指示的语义信息为：驾驶员未打哈欠，对应关系2指示的动作为：继续获取语义信息。

继续以计算机为图1A所示的车辆a为例，假设车辆a利用如图3所示的任务执行系统31来执行表1中的座椅调整任务，可选的，任务执行系统31预设对应关系3和对应关系4。其中，对应关系3指示的语义信息为：驾驶员是张三，对应关系3指示的动作为：按照张三对应的座椅参数调整驾驶位的座位。其中对应关系4指示的语义信息为：驾驶员不是张三，对应关系4指示的动作为：不对驾驶位的座位进行调整。

为了使得任务执行系统正确执行视觉任务，例如参考表1中的安全驾驶监督任务，在驾驶员打哈欠时车辆a播放语音“不要疲劳驾驶哦”，计算机可以通过传感器系统获取图像，通过视觉系统对该图像进行视觉认知输出正确的语义信息。接下来举例介绍该图像获取和视觉认知过程，并且对“正确的语义信息”进行定义。

以图1A所示的车辆a为例，车辆a能够通过车辆上的传感器系统获取图像。例如，车辆a通过图1A所示的相机11获取车辆a前方的图像，如图1B所示。在图1B中，假设车辆b的左车灯闪烁，并且，交通信号灯c的最上方的红灯亮。例如，图1C以驾驶员的视角描绘了车辆a内部和外部的局部外观。参考图1C，车辆a能够通过车辆a内部的相机12获取车内的图像，获取到的图像例如图1D所示。图1D中，驾驶员的身份为张三，并且驾驶员正在打哈欠。

之后，视觉系统能够获取上述传感器系统获取到的图像，并且对该图像进行视觉认知后，输出服务的视觉任务所需的语义信息。

以表1中的安全驾驶监督任务为例，假设图2所示的视觉系统23用于从传感器系统22(例如图1C中的相机12)获取如图1D所示的图像，并向任务执行系统21输出语义信息，例如，驾驶员在打哈欠。图2所示的任务执行系统21获取到视觉系统23输出的语义信息后，例如可以匹配到前文介绍的对应关系1，进而通过车辆a上的喇叭13播放内容为“不要疲劳驾驶哦”的语音，如图1C所示。

以表1中的座椅调整任务为例，假设图3所示的视觉系统33用于从传感器系统32(例如图1C中的相机12)获取如图1D所示的图像，并向任务执行系统31输出语义信息，例如，驾驶员是张三。图3所示的任务执行系统31获取到视觉系统33输出的语义信息后，匹配到对应关系3，进而按照张三对应的座椅参数调整驾驶位的座位。

通过以上示例可以想到表1中其他视觉任务的实现方法。例如，为了实现表1中的变道提醒任务，服务于该任务的视觉系统可以获取例如图1B所示的图像，以该图像中的车辆b作为目标对象进行视觉认知，并向用于执行该视觉任务的任务执行系统输出语义信息。或者，为了实现表1中的交通信号灯提醒任务，服务于该任务的视觉系统可以获取例如图1B所示的图像，以该图像中的交通信号灯c作为目标对象进行视觉认知，并向用于执行该视觉任务的任务执行系统输出语义信息。

上述视觉任务的执行过程所涉及的多个系统中，视觉系统所执行的任务的复杂度通常最高。下面对视觉系统进行进一步介绍。

视觉系统用于执行视觉认知过程，一般利用机器学习模型来实现，该机器学习模型用于模拟人脑的视觉认知行为。不同人对同一图像的视觉认知结果可能不同，同一个人在不同情况下对同一图像的视觉认知结果也可能不同。例如，继续基于图1C所示的图像，假设多个人(分别称作甲、乙和丙)看到图1D，甲的视觉认知结果可能为：驾驶员在打哈欠，乙的视觉认知结果可能为：驾驶员是张三，丙的视觉认知结果可能为：车内空间很大。

可见，一个图像可能表达多种语义信息，对于该多种语义信息中的每个语义信息，其一般与视觉认知选取的目标对象和视觉认知的场景等一种或多种因素相关。对于训练好的视觉系统，该视觉系统输出的语义信息可能为该多种语义信息中的一种，并且，该视觉系统输出的语义信息是正确的。

在一种可能的实现方式中，语义信息是否正确的判断标准，与视觉系统获取的图像和所服务的视觉任务决定。可选的，视觉系统输出的语义信息是否正确主要取决于，任务执行系统获取到该语义信息后是否能够正确的执行视觉任务。在任务执行系统功能正常的情况下，若任务执行系统获取到语义信息后能够正确的执行视觉任务，那么可以认为视觉系统输出的语义信息正确，否则，若任务执行系统获取到语义信息后未能正确的执行视觉任务，那么可以认为视觉系统输出的语义信息不正确。

本申请实施例中，将正确的语义信息称作目的语义信息。假设视觉系统获取的图像如图1D所示，图像中人的身份为张三，那么，对于服务于表1所示的安全驾驶监督任务的视觉系统而言，语义信息“驾驶员未打哈欠”为目的语义信息，而对于服务于表1所示的座椅调整任务而言，语义信息“驾驶员为张三”为目的语义信息。

上述视觉任务实现过程所涉及的多个系统中，视觉系统(例如图2对应的视觉系统23或图3对应的视觉系统33)所执行的任务的复杂度最高。现有技术中，视觉系统通常直接从获取的图像中学习得到语义信息。例如，现有视觉系统通常采用一个神经网络实现，该神经网络一般采用有监督的深度学习方法训练得到。该训练过程所采用的样本为带有标签的图像，该图像描述了目标对象的形貌，该图像的标签为用户根据该视觉系统所服务的视觉任务确定的目的语义信息。

由于视觉系统所执行的任务的复杂度较高，该神经网络一般比较庞大，涉及大量的参数。但是现有视觉系统用一个端到端的神经网络来实现，整个视觉认知过程相当于一个黑盒，视觉系统的训练过程是难以被感知的，因此现有视觉系统的训练成本较高，制约了计算机视觉的发展，对计算机执行视觉任务造成阻碍。

为解决上述技术问题，本申请实施例提供一种信息处理方法，该方法可以应用于第一设备，基于该方法，第一设备能够对获取的图像执行视觉认知过程。和现有视觉认知过程直接从图像中学习得到语义信息不同，第一设备在对获取的图像执行视觉认知过程中，先从图像中学习得到第一特征图，第一特征图用于描述目标对象的第一形貌，之后从第一特征图中学习得到第一目标语义信息，有利于提高视觉认知过程的可感知程度，便于对该视觉认知过程进行调整或优化，从而有利于对视觉系统进行持续优化，进而提高计算机执行视觉任务的准确性。

接下来结合图4和图5A继续介绍本申请实施例提供的信息处理方法。该第一设备为能够执行本申请实施例方法的任意一种设备，本申请实施例不限定第一设备为物理设备或虚拟设备，也不限定第一设备的形态，例如第一设备可以为图1A所示的车辆a，或者为智能终端(如手机)，或者为智能机器人，或者为芯片等。为了便于理解，本申请实施例以第一设备为车辆a为例进行介绍。

考虑到第一设备可能用于执行多个视觉任务，为了便于区分，将该多个视觉任务中的一个视觉任务称作第一视觉任务，用于执行第一视觉任务的电路结构如图4所示，将服务于第一视觉任务的第一视觉系统43所需输出的目的语义信息称作第一目的语义信息。与图2或图3所示的电路结构相似的，图4中的传感器系统42、第一视觉系统43和第一任务执行系统41可以分别参考前述应用背景的相关描述进行理解。和图2或图3不同的，图4所示的第一视觉系统43至少包括特征提取模型431和第一语义识别模型432。后文将结合图5A对应的实施例步骤来进一步描述图4所示的各个系统，此处暂时不对图4所示的各个系统进行展开介绍。

下面，首先结合图4和图5A对本申请实施例信息处理方法进行具体介绍。参考图5A，本申请信息处理方法一种可能的实施例包括步骤501至步骤505。

501.获取图像；

第一设备可以获取图像。在一种可能的实现方式中，该图像可以以数据的格式存储，例如以便携式网络图形(portable network graphics，PNG)格式或图形交换文件(drawing exchange file，DXF)格式或联合图像专家组(joint photographic expertsgroup，JPEG)格式等存储。

在一种可能的实现方式中，第一设备获取的该图像来自于传感器(例如车载传感器)的传感信息。示例性的，该传感器的类型包括雷达，深度相机，全彩相机，鱼眼相机和红外探测器中的至少一种。其中，例如，雷达为毫米波雷达，毫米波雷达可以用于目标物体位置的获取与变化跟踪，来自该毫米波雷达的传感信息的图像为点云数据，该点云数据描述目标对象上采样点的信息，采样点的信息至少包括采样点的位置。其中，例如，该深度相机可以指飞行时间测距法(time of flight，TOF)相机，来自该TOF相机的传感信息的图像为灰度图像，该灰度图像中每个像素利用像素值的大小来携带深度信息，该深度信息表征的是拍摄物体针对脉冲光反射所耗费的时间。其中，例如，该全彩相机为红绿蓝(red greenblue，RGB)相机，来自该RGB相机的传感信息的图像为RGB图像，RGB图像中每个像素利用像素值的大小来携带RGB信息，该RGB信息表征的是拍摄物体反射周围环境光的色彩。

第一设备获取的该图像可以指单张图像，例如图1B或图1D所示的图像。或者，该图像可以指多张图像，例如连续的多个视频帧。对于该图像指多张图像的情况，可选的，该多张图像对应的传感信息可以为同一个传感器获取的，或者可选的，该多张图像为多个传感器分别获取的。该多个传感器的类型相同，例如均为雷达，或者，该多个传感器的类型至少为两种，例如该多个传感器包括深度相机和全彩相机。

可选的，该图像是对车载传感器(图1A所示的相机11或图1C所示的相机12)获取的传感信息进行预处理后得到的。在一种可能的实现方式中，该图像可以是该车载传感器对该传感信息进行预处理后得到的。或者，在一种可能的实现方式中，该图像可以是该第一设备对该传感信息进行预处理后得到的。或者，在一种可能的实现方式中，该图像可以是先经过该车载传感器预处理，再经过该第一设备的处理器预处理后得到的。可选的，对该传感信息的预处理可以包括如下操作中的一种或多种操作：数字化、几何变换、归一化、平滑、去噪、复原、拼接和增强等。本申请实施例不限定第一设备一定对图像进行预处理。

502.将图像输入特征提取模型；

503.从特征提取模型获取对应于该图像的第一特征图；

车辆a中预先设置有如图4所示的特征提取模型431，该特征提取模型431用于对输入的图像进行特征提取，得到目标对象的特征图。对图像进行特征提取的过程，可以理解为对图像进行视觉处理的过程，例如包括如下过程中的一种或多种：对输入的图像进行低层视觉处理，对输入的图像进行中层视觉处理，和对输入的图像进行高层视觉处理。相应的，特征提取模型431得到的特征图例包括相应视觉处理后得到的图像，例如包括如下图像中的一种或多种：对输入的图像进行低层视觉处理得到的初始简图，对输入的图像进行中层视觉处理后得到的本征图像，和对输入的图像进行高层视觉处理后得到的三维模型。

示例性的，假设输入特征提取模型431的图像如图1D所示，目标对象为人的头部。可选的，特征提取模型431得到的特征图可以包括初始简图，例如，该初始简图可以为如图5B所示的蒙版(或称遮罩)或图5C所示的二维(two dimensional，2D)关键点。或者，可选的，特征提取模型431得到的特征图可以包括本征图像，例如，该本征图像可以为图5D所示的在三维(three dimensional，3D)坐标系中的点云或图5E所示的在3D坐标系中的3D关键点。或者，可选的，特征提取模型431得到的特征图可以包括3D模型(或称3D模型表示)，例如图5F所示的人的头部模型。

特征图和语义信息相比，可选的，特征图用于描述目标对象的形貌，语义信息用于描述目标对象的形貌所表达的含义。在一种可能的实现方式中，目标对象的特征图可以指示为目标对象上的点云的信息。点云为多个点的集合，点云的信息包括集合中各点的信息，可选的，每个点的信息至少包括该点的位置信息，此外还可以包括该点的亮度或RGB值等。该点的位置信息可以为某个2D坐标系中的坐标，或者为某个3D坐标系中的坐标。例如，图5B至图5F所示的特征图均能够指示头部上的点云的信息，而语义信息(例如驾驶员在打哈欠)不能指示头部上的点云的信息。或者，在一种可能的实现方式中，目标对象的特征图可以为用于确定该目标对象上的点云的特征参数，例如，目标对象的特征图可以为参数化模型的模型参数，根据该模型参数和该参数化模型，可以确定如图5F所示的3D模型。

特征提取模型431得到的特征图与输入特征提取模型431的图像相比，可选的，特征图对应的点云中点的数目可以小于输入的图像对应的点云中点的数目，例如初始简图或本征图像对应的点云中点的数目可能小于输入的图像对应的点云中点的数目。或者，可选的，特征图对应的点云中点的数目可以大于输入的图像对应的点云中点的数目，例如三维模型对应的点云中点的数目可能大于输入的图像对应的点云中点的数目。

特征提取模型431可能得到一个或多个特征图，该一个或多个特征图中存在第一特征图，下面介绍第一特征图的特点。可选的，将第一特征图输入图4所示的第一语义识别模型432后，第一语义识别模型432能够输出第一目的语义信息。在一种可能的实现方式中，第一特征图为基于对输入的图像中的目标对象进行语义分割得到的特征图，例如图5B至图5F。或者，可选的，第一特征图能够描述目标对象的第一形貌，本申请实施例不限定第一形貌为输入的图像所描述的全部形貌，但是，该第一形貌至少能够表达第一目的语义信息。下面对第一形貌进行举例介绍。

假设第一视觉任务为表1中的安全驾驶监督任务，特征提取模型431获取如图1D所示的图像，那么第一目的语义信息为：驾驶员在打哈欠。该第一形貌需要能够表达该语义信息。假设特征提取模型431获取如图1D所示的图像后，提取到图5B至图5F所示的五张特征图。图5B描述了人的头部的边缘轮廓，未能描述该边缘轮廓内的特征，例如未能描述人的五官，因此，图5B所描述的人的头部的形貌无法表达第一目的语义信息(即驾驶员在打哈欠)。图5E仅描述了人的眼部和鼻子的形貌，未能描述人的嘴巴，因此，图5E所描述的人的头部的形貌也无法表达第一目的语义信息(即驾驶员在打哈欠)。图5C、图5D和图5F均描述了人的眼部和嘴巴的形貌，图5C、图5D和图5F所描述的人的头部的形貌能够表达第一目的语义信息(即驾驶员在打哈欠)，因此，图5C、图5D和图5F中的一个或多个特征图可以被选作第一特征图。

假设第一视觉任务为表1中的座椅调整任务，特征提取模型431获取如图1D所示的图像，那么第一目的语义信息为：驾驶员为张三。该第一形貌需要能够表达该语义信息。假设特征提取模型431获取如图1D所示的图像后，提取到图5B至图5F所示的五张特征图。图5B、图5C和图5E所描述的人的头部的形貌均无法表达第一目的语义信息(即驾驶员为张三)，而图5D和图5F所描述的人的头部的形貌能够表达第一目的语义信息(即驾驶员为张三)，因此，图5D和/或图5F可以被选作第一特征图。

关于选择第一特征图的考虑因素，除了考虑所选的第一特征图所描述的形貌是否能够表达第一目的语义信息，在一种可能的实现方式中，还可以考虑所选的第一特征图对视觉系统的复杂度和对视觉系统的准确性的影响。可选的，所选的第一特征图不仅有利于降低视觉系统43的复杂度，还有利于提高视觉系统43输出的语义信息的准确性。

继续以表1中的安全驾驶监督任务为例，图5C、图5D和图5F中任意一个特征图所描述的形貌均能够表达第一目的语义信息，作为示例，各个特征图作为第一特征图对视觉系统一种可能的影响参见表2，在实际应用中，可以根据表2选择第一特征图。

表2

表1示出的各视觉任务对应的目标对象仅作为示例，在实际应用中，可以选择其他对象作为目标对象。关于选择目标对象的考虑因素，首先需要考虑所选的目标对象的形貌是否能够表达第一目的语义信息。例如，以表1所示的安全驾驶监督任务为例，特征提取模型431对应的目标对象还可以为输入的图像中人的各个部位，以输入的图像如图1D所示为例，特征提取模型431得到的特征图可能如图5G所示。而当特征提取模型431选择的目标对象仅为人的眼部或手部时，特征提取模型431得到的目标对象的特征图将无法表达第一目的语义信息。

关于选择目标对象的考虑因素，除了考虑所选的目标对象的形貌是否能够表达第一目的语义信息，在一种可能的实现方式中，还可以考虑所选的目标对象对视觉系统43的复杂度和对视觉系统43的准确性的影响。例如，继续以表1所示的安全驾驶监督任务为例，将人的所有部位作为目标对象相比，将人的头部作为目标对象时，视觉系统43的复杂度更低，并且视觉系统43的准确性差异不大。因此，为了降低视觉系统43的复杂度，节约计算资源，对于服务于安全驾驶监督任务的特征提取模型431，可以选择人的头部作为目标对象。

特征提取模型431对图像进行特征提取的具体过程还可以进一步参考后文(例如图6A至图6D对应的实施例)的相关描述，此处暂不继续展开描述。

504.将第一特征图输入第一语义识别模型；

505.从第一语义识别模型获取对应于第一特征图的第一目标语义信息；

车辆a中还预先设置有如图4所示的第一语义识别模型432，第一语义识别模型432用于根据输入的特征图确定第一语义信息。第一语义信息描述目标对象的形貌所表达的含义，该形貌为输入的特征图所描述的目标对象的形貌。该第一语义信息用于执行第一视觉任务。

可选的，和图像或特征图相比，第一语义信息不再是目标对象的点云信息，而是通过把目标对象的特征图和目标对象所在的场景和预先学习的概念建立连接(或称语义连接)得到的，是视觉认知的结果。对于不同的视觉任务，针对目标对象的同一形貌可能得到不同的语义信息。因此，服务于不同视觉任务的语义识别模型，针对同一特征图可能得到不同的语义信息。

作为举例，若目标对象为人或人的某个部位，第一语义信息可以用于指示人的姿势或动作或手势或视线分区等。关于第一语义信息的其他介绍可以参考前文对语义信息的描述，此处不再赘述。

本申请实施例中，车辆a获取到第一特征图后，可以将第一特征图输入第一语义识别模型。本申请实施例中，车辆将第一特征图输入第一语义识别模型后，可以获取第一语义识别模型输出的第一目标语义信息。

第一目标语义信息为第一语义识别模型根据输入的第一特征图确定的语义信息，用于描述第一形貌所表达的含义。继续参考表1中的安全驾驶监督任务，假设第一特征图为图5F所示的3D模型，第一目标语义信息可以为：驾驶员正在打哈欠。

在一种可能的实现方式中，车辆a还可以执行如下步骤506。

506.根据第一目标语义信息执行第一视觉任务。

可选的，车辆a获取第一目标语义信息之后，可以根据第一目标语义信息执行第一视觉任务。例如，参考图4，车辆a可以将第一目标语义信息输入第一任务执行系统41，该第一任务执行系统41根据第一目标语义信息执行第一视觉任务。例如，该第一任务执行系统41可以预设有语义信息与动作的对应关系，获取到第一目标语义信息后，匹配到指示该第一目标语义信息的对应关系，执行该对应关系指示的动作，从而实现所需执行的视觉任务。可选的，第一任务执行系统41执行第一视觉任务的示例可以参考前文应用背景中对任务执行系统21或任务执行系统31的介绍，此处不再赘述。

基于上述步骤501至步骤505所述的方法，第一设备在对获取的图像执行视觉认知过程中，先从图像中学习得到第一特征图，第一特征图用于描述目标对象的第一形貌，之后从第一特征图中学习得到第一目标语义信息。和现有视觉认知过程直接从图像中学习得到语义信息不同，本申请实施例所执行的视觉认知过程能够在获取图像后在得到第一目标语义信息之前，获取描述第一形貌的第一特征图，有利于提高视觉认知过程的可感知程度，便于对该视觉认知过程进行调整或优化，从而有利于对视觉系统进行持续优化，进而提高计算机执行视觉任务的准确性。

例如，假设第一语义识别模型432输出的第一目标语义信息不是输入的图像对应的第一目的语义信息，即输出的语义信息错误，那么，维护人员可以通过分析特征提取模型431的输出结果来快速定位问题。例如，若输入特征提取模型431的图像描述了驾驶员打哈欠时的头部形貌，而第一语义识别模型432输出的第一目标语义信息未表示驾驶员正在打哈欠，那么可以通过分析第一特征图是否准确的描述了第一形貌来定位问题。若第一特征图描述的第一形貌能够表达出驾驶员正在打哈欠，那么可以将问题定位在第一语义识别模型432。若第一特征图描述的第一形貌无法表达出驾驶员正在打哈欠，那么可以将问题定位在特征提取模型431。

本申请实施例不限定特征提取模型431对应于一个机器学习模型。在一种可能的实现方式中，特征提取模型431可以对应于两个或两个以上通过机器学习方法训练得到的模型。在一种可能的实现方式中，特征提取模型431对应的机器学习模型可以为神经网络模型。或者，在一种可能的实现方式中，特征提取模型431对应于一个神经网络模型中的一个或多个网络层。

相似的，本申请实施例不限定第一语义识别模型432仅对应于一个机器学习模型。在一种可能的实现方式中，第一语义识别模型432可以对应于两个或两个以上通过机器学习方法训练得到的模型。在一种可能的实现方式中，特征提取模型431对应的机器学习模型可以为神经网络模型。或者，在一种可能的实现方式中，第一语义识别模型432对应于一个神经网络模型中的一个或多个网络层。

在一种可能的实现方式中，图4所示的特征提取模型431和第一语义识别模型432的训练过程是彼此独立的。继续参考图4，图4中第一训练系统44用于训练特征提取模型431，第二训练系统45用于训练第一语义识别模型432。具体的，特征提取模型431为第一训练设备443根据第一数据库442中的样本训练得到的，第一语义识别模型432为第二训练设备452根据第二数据库451中的样本训练得到的。

需要说明的是，特征提取模型431和第一语义识别模型432的训练过程彼此独立，并未限定特征提取模型431和第一语义识别模型432一定对应于不同的机器学习模型。在一种可能的实现方式中，特征提取模型431和第一语义识别模型432可以集成在同一个机器学习模型(例如神经网络模型)中。

下面对第一训练系统44进行介绍。

第一数据库442中的样本为数据采集设备441采集的，该数据采集设备441用于获取图像，例如可以为图4所示的传感器系统42。

可选地，特征提取模型431为在线训练得到的。例如，继续参考图4，第一数据库442和第一训练设备443设置在车辆a中，车辆a可以根据采集到的图像训练特征提取模型431，并利用训练好的特征提取模型431执行图4对应的方法实施例。

或者，可选的，特征提取模型431为离线训练得到。例如，继续参考图4，第一数据库442和第一训练设备443设置在车辆a以外的其他设备中，例如设置在用于训练模型的服务器中，该服务器将训练好的特征提取模型431(或模型参数)下发至车辆a中。

可选的，第一训练设备443的训练标准可以为：针对第一视觉任务，特征提取模型431得到的第一特征图所表达的语义信息为样本对应的目的语义信息。第一训练设备443的训练标准可以参考前文应用背景中关于“正确的语义信息”的描述，此处不再赘述。

下面对第二训练系统45进行介绍。

第二数据库451中的样本为特征图。在一种可能的实现方式中，如图4所示，第二数据库451中的样本来自第一训练设备443，具体的，为特征提取模型431在训练过程中生成的特征图。

可选的，第一语义识别模型432为在线训练得到的，或者为离线训练得到的。在这两种场景下对第二训练系统45内的结构的设置可以分别参考前述对第一训练系统44的相应介绍，此处不再赘述。

上述步骤502和步骤503介绍了特征提取模型431能够对图像进行特征提取，下面示例性介绍特征提取的过程。

为了提高语义信息的准确性，在一种可能的实现方式中，特征提取过程包括三维模型的重建过程。作为举例，特征提取模型431可以按照如下三个阶段来对图像进行特征提取。

阶段一：获得表示图像中变化和结构的初始简图(primal sketch)。该初始简图包括检测灰度的变化、表示和分析局部的几何结构、以及检测照明的效应等处理。

阶段二：对初始简图进行一系列运算得到能反映可见表面几何特征的本征图像。该本征图像又可以称为二维半(2.5Dimension，意味着部分的，不完整的三维信息描述)简图。本征表象从原始的图像中去掉了许多的多义性，是纯粹地表示了物体表面的特征，其中包括光照、反射率、方向、距离等。根据本征图像表示的这些信息可以可靠地把图像分成有明确含义的区域(这称为分割)，从而可得到比线条、区域、形状等更为高层的描述。

阶段三：对本征图像进行进一步处理，依靠和应用领域有关的先验知识来构成对物体的完整的三维(three dimensional，3D)描述。例如，特征提取模型利用参数化模型(parametric model)拟合目标对象，以得到目标对象的模型。

在一种可能的实现方式中，不同的目标对象对应于不同的参数化模型，特征提取模型431选用的参数化模型为目标对象对应的参数化模型。下面以目标对象为人体的不同部位为例，介绍几个常用的参数化模型。例如，若目标对象为人的躯干，那么选用的参数化模型可以为有皮肤的多人线性模型(skinned multi-person linear model，SMPL)，该模型是一种线性的可微分的人体模型，通过85维向量(隐变量z)生成6023个顶点的人体网格(mesh)。例如，若目标对象为人的头部，那么选用的参数化模型可以为有关节的人脸与表情模型(faces learned with an articulated model and expressions，FLAME)，FLAME是一种人脸表情参数化表示模型，利用该参数化模型得到模型可以体现人头部的形状、表情、姿态和外观(或称皮肤纹理)。例如，若目标对象为人的手部，那么选用的参数化模型可以为有关节和柔性形变的手部模型(hand model with articulated and non-rigiddeformations，MANO)，MANO是一个手部模型，能够表达丰富精细的手指姿态，适用于识别指尖级手势。

上面介绍了几种人体的参数化模型，下面结合图6A至图6D分别介绍特征提取模型431利用参数化模型重建人的头部模型和手部模型的过程。

参考图6A和图6B，特征提取模型431重建人的头部模型的方法包括步骤601A至步骤606A。

601A.获取RGB图像和深度图像；

RGB图像可以参考图1B或图1D所示的图像进行理解。

602A.基于RGB图像检测人脸的2D关键点；

例如，特征提取模型可以基于RGB图像检测出人脸的68个关键点，之后从68个关键点中选取五官的51个二维(two dimensional，2D)关键点。

2D关键点可以参考图5C所示的图像进行理解。

603A.对RGB图像进行语义分割，得到人脸的遮罩；

人脸的遮罩可以参考图5B所示的图像进行理解。

604A.根据人脸的遮罩，深度图像以及传感器标定信息，得到人脸的3D点云；

RGB图像和深度图像分别为全彩相机和深度相机获取的，传感器标定信息用于将该全彩相机和深度相机标定至同一三维坐标系(称作目标坐标系)中。人脸的3D点云可以参考图5D所示的图像进行理解。

605A.基于人脸的2D关键点、3D点云以及传感器标定信息得到人脸的3D关键点；

人脸的3D关键点可以参考图5E所示的图像进行理解。

606A.根据人脸的3D关键点和参数化模型的3D关键点确定拟合的头部模型。

拟合的头部模型可以参考图5F所示的图像进行理解。

例如，特征提取模型431以人脸的采样3D关键点与参数化模型的3D关键点之间的差异构造损失函数，通过调整参数化模型中的拟合参数来最小化损失函数的值，从而得到拟合的头部模型。之后可以用可微分编程的方法，优化模型参数，进一步拟合点云。

通过图6A对应的实施例所得到的头部模型，其3D关键点的平均误差可以低于2毫米，其网格顶点的平均误差可以控制在3.3毫米。准确的头部模型有利于提高语义识别模型识别头部的语义信息的准确性。

参考图6C和图6D，特征提取模型431重建人的手部模型的方法包括步骤601C至步骤606C。

601C.获取RGB图像和深度图像；

602C.基于RGB图像检测人手的2D关键点；

603C.对RGB图像进行语义分割，得到人手的遮罩；

604C.根据人手的遮罩、深度图像以及传感器标定信息，得到人手的3D点云；

RGB图像和深度图像分别为全彩相机和深度相机获取的，传感器标定信息用于将该全彩相机和深度相机标定至同一三维坐标系(称作目标坐标系)中。

605C.基于人手的2D关键点、3D点云的信息以及传感器标定信息，得到人手的3D关键点；

606C.根据人手的3D关键点和参数化模型的3D关键点确定拟合的手部模型。

例如，特征提取模型431以人手的采样3D关键点与参数化模型的3D关键点之间的差异构造损失函数，通过调整参数化模型中的拟合参数来最小化损失函数的值，从而得到拟合的手部模型。之后可以用可微分编程的方法，优化模型参数，进一步拟合点云。

通过图6C和图6D对应的实施例所得到的手部模型，其3D关键点的平均误差可以低于3.7毫米，其网格顶点的平均误差可以控制在5.0毫米。准确的手部模型有利于提高语义识别模型识别手部的语义信息的准确性。

以上，结合图6A至图6D分别介绍了特征提取模型431利用参数化模型拟合人的头部和手部的过程。特征提取模型431在根据图像利用参数化模型(parametric model)拟合目标对象的过程中得到的特征图，可以为目标对象的模型的信息。该模型的信息用于确定该目标对象的模型。示例性的，该模型的信息为该模型的点云信息，例如为该模型中各网格顶点的信息。或者，该模型的信息为拟合参数的信息，例如SMPL模型中的隐变量z的信息。可选的，第一语义识别模型432可以根据该拟合参数的信息和该参数化模型确定目标对象的模型。

从上述几个视觉任务可以看出，多个视觉任务可能基于对同一目标对象的视觉认知，只是服务于该多个视觉任务的视觉认知过程的目的语义信息不同。将基于对同一目标对象的视觉认知所执行的不同视觉任务称作关联视觉任务，将服务于关联视觉任务的不同视觉认知过程称作彼此关联的视觉认知过程。接下来以表1所示的视觉任务为例举例介绍几种关联视觉任务。表1中的安全驾驶监督任务和座椅调整任务均是基于对人的头部的认知，二者的目的语义信息分别参考表1中语义信息的内容理解，在本申请实施例中可以被称作关联视觉任务。表1中的车辆启动任务和档位切换任务均是基于对人的手部的认知，二者的目的语义信息分别参考表1中语义信息的内容理解，在本申请实施例中可以被称作关联视觉任务。

上面提到多个视觉任务可能基于对同一目标对象的视觉认知，下面对“同一目标对象”进行解释。目标对象是特征提取模型进行特征提取时所针对的对象。假设特征提取模型提取的特征图包括构建的3D模型。对于图6A对应的特征提取模型，其目标对象为人的头部。对于图6C对应的特征提取模型，其目标对象为人的手部。对于构建人体的3D模型的特征提取模型，目标对象为完整的人体，包括人的头部和人的手部。即使两个视觉任务所基于的人体部位不重合(例如分别为人的头部和手部)，若特征提取模型所针对的目标对象(例如完整的人体)包括两个视觉任务所基于的人体部位，那么也可以将这两个视觉任务认为是关联视觉任务。例如，安全驾驶监督任务基于的目标对象为人的头部，而车辆启动任务基于的目标对象为人的手部，但是若特征提取模型所针对的目标对象包括人的头部和手部，那么安全驾驶监督任务和车辆启动任务也可以被称作关联视觉任务。

由于现有视觉认知过程直接从获取的图像中学习得到语义信息，因此服务于不同视觉任务的视觉认知过程为相互独立的。从电路结构的角度，继续参考图2和图3，若计算机能够执行安全驾驶监督任务和座椅调整任务，那么计算机需要至少设置两个视觉系统(图2所示的视觉系统23和图3所示的视觉系统33)。从视觉认知过程的角度，参考图7A，图7A中的箭头7a代表为第一视觉任务提供语义信息的机器学习模型1，图7A中的箭头7b代表为第二视觉任务提供语义信息的机器学习模型2。机器学习模型1和机器学习模型2需要对相同的图像依次进行阶段一，阶段二和阶段三的特征提取，分别得到目标对象的初始简图、本征图像和3D描述(或3D模型)。之后机器学习模型1和机器学习模型2根据提取的3D模型和各自的视觉任务需要，分别识别到第一视觉任务所需的第一目标语义信息和第二视觉任务所需的第二目标语义信息。

从上面的分析不难看出，现有的关联视觉任务对应的视觉认知过程需要进行重复的图像处理过程，本申请实施例将这种重复的图像处理过程称作冗余过程。冗余过程的存在浪费了浪费计算机的资源。

本申请在前文提供的实施例已经对视觉认知过程进行拆分，在此基础上，为了解决上述关联视觉任务所带来的冗余问题，本申请实施例还提出，使特征提取模型参与彼此关联的多个视觉认知过程。假设第一视觉任务和第二视觉任务为关联视觉任务，服务于第一视觉任务的第一视觉认知过程和服务于第二视觉任务的第二视觉认知过程为彼此关联的视觉认知过程。对于相同图像，第一视觉任务和第二视觉任务所需的目的语义信息分别为第一目的语义信息和第二目的语义信息。

从电路结构的角度，图7B所示的电路结构可以用于执行第一视觉任务和第二视觉任务。其中，传感器系统71用于获取目标对象的图像。特征提取模型72用于对传感器系统71获取的图像进行特征提取，得到第一特征图和第二特征图。第一语义识别模型731用于对第一特征图进行语义识别，得到第一目标语义信息。第二语义识别模型732用于对第二特征图进行语义识别，得到第二目标语义信息。第一任务执行系统741用于根据第一目标语义信息执行第一视觉任务，第二任务执行系统742用于根据第二目标语义信息执行第二视觉任务。可见，服务于第一视觉任务的第一视觉系统和服务于第二视觉任务的第二视觉系统共用传感器系统71和特征提取模型72。图7B中的各个系统或模型可以参考前文(例如图4和图5A对应的实施例)进行理解，此处不再赘述。例如，传感器系统71可以参考图4和图5A对应的实施例所涉及的传感器系统42进行理解，特征提取模型72可以参考图4和图5A对应的实施例所涉及的特征提取模型431进行理解，第一语义识别模型731或第二语义识别模型732可以参考图4和图5A对应的实施例所涉及的第一语义识别模型432进行理解，第一任务执行系统741和第二任务执行系统742可以参考图4和图5A对应的实施例所涉及的第一任务执行系统41进行理解。

通过比较图2和图3所示的电路结构和图7B所示的电路结构可以看出，本申请实施例提供的方法有利于减少彼此关联的视觉认知过程之间的冗余过程，节约第一设备的资源。

从视觉认知过程的角度，参考图7C，箭头7c代表第一视觉认知过程和第二视觉认知过程的共用的处理过程，例如对应于如图7B所示的特征提取模型72所执行的处理过程。箭头7d代表第一视觉认知过程在箭头7c代表的处理过程之后所执行的处理过程，例如对应于如图7B所示的第一语义识别模型731所执行的处理过程。箭头7e代表第二视觉认知过程在箭头7c代表的处理过程之后所执行的处理过程，例如对应于如图7B所示的第二语义识别模型732所执行的处理过程。

通过对图7A和图7C进行比较不难看出，本申请实施例提供的方法有利于减少彼此关联的视觉认知过程的冗余过程，有利于节约第一设备的资源。

基于图7B和图7C对应的描述，下面结合图8介绍本申请信息处理方法另一种可能的实施例，以解决上述关联视觉任务所带来的冗余问题。图8对应的方法实施例步骤中涉及的各个系统或模型可以参考图7B所示的相应系统或模型进行理解。

参考图8，本申请信息处理方法另一种可能的实现方式包括步骤801至步骤808。与图4和图5A相似的，该方法可以应用于第一设备，对第一设备的描述可以参考图4和图5A对应的相应描述，此处不再赘述。

801.获取图像；

802.将图像输入特征提取模型；

803.从特征提取模型获取对应于该图像的第一特征图；

804.将第一特征图输入第一语义识别模型；

805.从第一语义识别模型获取对应于第一特征图的第一目标语义信息；

步骤801至步骤805可以分别参考图5A对应的实施例中的步骤501至步骤505进行理解，此处不再赘述。

806.从特征提取模型获取对应于该图像的第二特征图；

步骤806可以参考图5A对应的实施例中步骤503的描述进行理解。下面重点介绍第一特征图和第二特征图之间的关联与差异。

在一种可能的实现方式，第一特征图和第二特征图可以相同，那么第一特征图所描述的目标对象的第一形貌和第二特征图所描述的目标对象的第二形貌相同。但是由于第一视觉任务和第二视觉任务不同，因此，第一目标语义信息和第二目标语义信息可能不同。

或者，在一种可能的实现方式中，第一特征图和第二特征图可以不相同，那么第一形貌与第二形貌可能不同。例如第一视觉任务为安全驾驶监督任务，第二视觉任务为座椅调整任务，假设图像所描述的形貌包括驾驶员的发型、眼部特征、鼻子特征、脸型、口型以及嘴唇颜色等，第一特征图能够描述上述形貌中的眼部特征和口型，第二特征图能够描述上述形貌中的眼部特征、口型、脸型和鼻子特征。

本申请实施例不限定步骤806与步骤803或步骤804或步骤805之间的时序先后顺序，只要步骤806在步骤802之后执行即可。

807.将第二特征图输入第二语义识别模型；

808.从第二语义识别模型获取对应于第二特征图的第二目标语义信息；

步骤807和步骤808可以分别参考图5A对应的实施例中步骤504和步骤505的描述进行理解。虽然第一语义识别模型和第二语义识别模型的输入信息均来自于同一特征提取模型(例如图7B所示的特征提取模型72)，但是，由于第一语义识别模型和第二语义识别模型分别服务于第一视觉任务和第二视觉任务，因此，二者之间也存在一些差异。下面重点介绍第一语义识别模型(例如图7B所示的第一语义识别模型731)和第二语义识别模型(例如图7B所示的第二语义识别模型732)之间的差异。

可选的，二者的差异可能表现在，第二语义识别模型的训练过程与第一语义识别模型的训练过程是彼此独立的，例如，关于训练过程彼此独立的理解可以参考图4和图5A对应的实施例中关于特征提取模型431与第一语义识别模型432的训练过程彼此独立的解释，此处不再赘述。

需要说明的是，第二语义识别模型的训练过程与第一语义识别模型的训练过程彼此独立，并未限定第二语义识别模型的训练过程与第一语义识别模型一定对应于不同的机器学习模型。在一种可能的实现方式中，第二语义识别模型的训练过程与第一语义识别模型可以集成在同一个机器学习模型(例如神经网络模型)中。

或者，可选的，这种差异可能表现在，第二语义识别模型所服务的第一视觉任务与第一语义识别模型所服务的第二视觉任务不同。例如，第二视觉任务与第一视觉任务不同分别为表1中的任意两个视觉任务，只要特征提取模型的目标对象包括两个视觉任务所基于的对象即可。例如，若特征提取模型的目标对象为人的头部，那么第一视觉任务分别为表1中的安全驾驶监督任务和座椅调整任务。若特征提取模型的目标对象为图像中人的所有部位，那么那么第一视觉任务分别为表1中安全驾驶监督任务、座椅调整任务、车辆启动任务和档位切换任务中的任意两个不同任务。可选的，第一视觉任务和第二视觉任务不同可以体现在，第一视觉任务和第二视觉任务属于如下任务类型中的不同任务类型：行为识别、人体姿势估计、场景理解、语义分割、目标检测和图像分类。或者，可选的，第一视觉任务和第二视觉任务不同可以体现在，在执行第一视觉任务和第二视觉任务的过程中输出的信息类型不同，信息类型包括但不限于：语音信息，图像，控制信息。或者，当信息类型相同时，信息的内容不同，例如输出不同的语音信息或图像，或者输出的控制信息用于控制不同的设备。

或者，可选的，这种差异可能表现在，针对相同的图像，输入的第一特征图和第二特征图不同，第一特征图和第二特征图不同，可以指，第一特征图和第二特征图对应的视觉处理层级不同。例如，若第一语义识别模型根据二维图像便可以确定第一目标语义信息，而第二语义识别模型需要根据三维图像确定第二目标语义信息，那么第一特征图可以为经过低层视觉处理得到的特征图，例如图5B和图5C所示的特征图，第二特征图可以为经过中层或高层视觉处理得到的特征图，例如图5D至图5F所示的特征图。

或者，这种差异可能表现在，第一特征图与第二特征图相同，但是，第一目标语义信息和第二目标语义信息不同，例如参考表1中的车辆启动任务和档位切换任务，对于相同的手部姿势，第一目标语义信息表示“OK”，第二目标语义信息表示“数字为2”。

通过上面的描述可知，第二特征图与第一特征图可以相同，也可以不同。当第一特征图和第二特征图相同时，第一形貌与第二形貌相同，并且，可选的，步骤803和步骤806可以择一执行。若第一特征图和第二特征图不同，第一形貌和第二形貌也可以不同。

可选的，第一设备还可以执行如下步骤809和步骤810。

809.根据第一目标语义信息执行第一视觉任务；

810.根据第二目标语义信息执行第二视觉任务。

步骤809和步骤810可以参考图5A对应的实施例中的步骤506进行理解。

需要说明的是，本申请实施例不限定第一设备仅根据第一目标语义信息便能够执行第一视觉任务，第一设备还可以根据其他信息(例如其他语义识别模型输出的语义信息)执行第一视觉任务。相似的，本申请实施例不限定第一设备仅根据第二目标语义信息便能够执行第二视觉任务，第一设备还可以根据其他信息(例如其他语义识别模型输出的语义信息)执行第二视觉任务。

本申请实施例不限定第二语义识别模型仅对应于一个机器学习模型。在一种可能的实现方式中，第二语义识别模型可以对应于两个或两个以上通过机器学习方法训练得到的模型。在一种可能的实现方式中，第二语义识别模型对应的机器学习模型可以为神经网络模型。或者，在一种可能的实现方式中，第二语义识别模型对应于一个神经网络模型中的一个或多个网络层。

在一种可能的实现方式中，图2所示的结构或图3所示的结构或图4所示的结构或图7B所示的结构可以设置在同一物理实体(例如)中。以上介绍了第一设备执行的信息处理方法。在一种可能的实现方式中，第一设备可以将得到的语义信息(例如第一目标语义信息和/或第二目标语义信息)发送给其他设备(称作第二设备)，指示第二设备根据接收到的语义信息执行视觉任务，例如根据第一目标语义信息执行第一视觉任务，或者，根据第二目标语义信息执行第二视觉任务，或者，根据第一目标语义信息执行第一视觉任务并且根据第二目标语义信息执行第二视觉任务。在一种可能的实现方式中，第一设备获取的图像为第二设备获取的。

以图5A或图8对应的实施例中涉及的第一设备为服务器为例，以第二设备为图1A或图1C所示的车辆a为例，服务器输出的语义信息可以用于支持其他设备执行视觉任务。例如，车辆a上的相机11和/或相机12获取到图像后，将图像发送给该服务器，该服务器执行图5A所示的步骤501至步骤505，得到第一目标语义信息后，将第一目标语义信息发送给车辆a，指示车辆a根据该第一目标语义信息执行第一视觉任务。或者，例如，车辆a上的相机11和/或相机12获取到图像后，将图像发送给该服务器，该服务器执行图8所示的步骤801至步骤808。该服务器得到第一目标语义信息后，将第一目标语义信息发送给车辆a，指示车辆a根据该第一目标语义信息执行第一视觉任务。该服务器得到第二目标语义信息后，将第二目标语义信息发送给车辆a，指示车辆a根据该第二目标语义信息执行第二视觉任务。

以上介绍了本申请实施例方法，下面对本申请实施例提供的装置进行介绍。

本申请实施例提供一种计算设备。图9是本申请实施例计算设备9一种可能的结构示意图。参阅图9，该计算设备9包括处理器901和存储器902。

处理器901可以是一个或多个CPU，该CPU可以是单核CPU，也可以是多核CPU。

存储器902包括但不限于是随机存取存储器(random access memory，RAM)、只读存储器(Read only Memory，ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，EPROM或者快闪存储器)、快闪存储器、或光存储器等。存储器902中保存有指令，或计算机可读指令，或操作系统和程序指令的代码，或计算机程序指令，或功能程序。可选的，该存储器902可以为非易失性存储器或易失性存储器。

可选的，该计算设备9还包括传感器系统903，该传感器系统903可包括用于获取图像的若干个传感器。例如，传感器系统903可包括雷达、红外探测器以及相机。该相机可以包括全彩相机和/或深度相机。

可选的，该计算设备9还包括通信接口904，通信接口904可以是有线接口，例如光纤分布式数据接口(Fiber Distributed Data Interface，FDDI)、千兆以太网(GigabitEthernet，GE)接口；通信接口904也可以是无线接口。通信接口904用于接收来自于内部网络和/或外部网络的网络数据。

可选地，数据处理装置还包括总线905，上述处理器901、存储器902通常通过总线905相互连接，也可以采用其他方式相互连接。

可选地，数据处理装置还包括输出接口906，该输出接口906与输出设备连接，用于通过输出设备向用户输出语音或图像等。输出设备包括但不限于显示器、打印机和扬声器等。

处理器901通过读取并执行存储器902中保存的程序指令，以使计算设备9执行上述方法实施例中第一设备执行的方法。例如，处理器901读取并执行存储器902保存的程序指令，以使计算设备9执行上述图5A所示的实施例中的步骤501至步骤506、或者图6A所示的实施例中的步骤601A至步骤606A、或者图6C所示的实施例中的步骤601C至步骤606C、或者图8所示实施例中的步骤801至步骤810。处理器901读取并执行保存的程序指令以使计算设备9执行上述步骤的更多细节请参阅前面各个方法实施例中的相应描述，在这里不再重复。

可选的，这些指令存储在该计算设备外部的存储器中。当这些指令被该计算设备9的处理器901译码并执行时，该计算设备9内部的存储器902中临时存放上述指令的部分或全部内容。可选的，这些指令的部分内容存储在该计算设备9外部的存储器中，这些指令的其他部分内容存储在该计算设备9内部的存储器902中。

在一种可能的实现方式中，该计算设备可以指计算机设备。在一种可能的实现方式中，该计算设备9可以为服务器或服务器中的装置或与服务器搭配使用的装置，或者为终端或终端中的装置或与终端搭配使用的装置。在一种可能的实现方式中，该终端可以为例如手持终端或各种类型的机器人或车载终端。在一种可能的实现方式中，该手持终端可以为例如手机或笔记本电脑或平板电脑或智能手环。在一种可能的实现方式中，该机器人可以为例如货运机器人、探测机器人、扫地机器人或其他类型的机器人等。在一种可能的实现方式中，该车载终端可以指车辆整机系统或车机或车载电脑等。

本申请实施例还提供一种芯片系统，包括处理器和接口电路，该处理器用于通过该接口电路与存储器耦合，该处理器用于运行指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)，从而实现本申请上述任意一个方法实施例提供的方法。

一个示例中，该处理器可执行存储器存储的指令，以使该芯片系统执行上述任一方法实施例。可选地，该存储器可以为该芯片系统内的存储单元，如寄存器、缓存等，或者，该存储器可以是计算设备内的位于该芯片系统外部的存储器，如只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)等。可选的，该存储器可以为非易失性存储器或易失性存储器。可选的，该处理器，可以是一个通用中央处理器(CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制上述任一方法实施例的程序执行的集成电路。

本申请实施例提供一种信息处理装置。该信息处理装置可以是本申请实施例方法所提到的第一设备，或者是第一设备中的装置，或者是能够和第一设备匹配使用的装置。在一种可能的实现方式中，该信息处理装置可以包括执行图5A或图6A或图6C或图8所示方法的模块，该模块可以是硬件电路，也可以是以软件形式存在的模块，也可以是硬件电路结合软件实现的模块。

图10是本申请实施例信息处理装置10一种可能的结构示意图。参阅图10，该信息处理装置10包括图像获取模块1001，特征提取模块1002和第一语义识别模块1003。可选的，该信息处理装置10还包括第一任务执行模块1004。可选的，该信息处理装置10还包括第二语义识别模块1005。可选的该信息处理装置10还包括第二任务执行模块1006。

其中，该图像获取模块1001用于执行图5A所示实施例中的步骤501，该特征提取模块1002用于执行图5A所示实施例中的步骤502和步骤503，第一语义识别模块1003用于执行图5A所示实施例中的步骤504和步骤505，该第一任务执行模块1004用于执行图5A所示实施例中的步骤506。

或者，该特征提取模块1002用于执行图6A所示实施例中的步骤601A至步骤606A。

或者，该特征提取模块1002用于执行图6C所示实施例中的步骤601C至步骤606C。

或者，该图像获取模块1001用于执行图8所示实施例中的步骤801，该特征提取模块1002用于执行图8所示实施例中的步骤802和步骤803和步骤806，第一语义识别模块1003用于执行图8所示实施例中的步骤804和步骤805，第二语义识别模块1005用于执行图8该实施例中的步骤807和步骤808，该第一任务执行模块1004用于执行图8所示实施例中的步骤809，该第二任务执行模块1006用于执行图8所示实施例中的步骤810。

在一种可能的实现方式中，该信息处理装置10还可以包括通信模块(图10中未示出)，该通信模块用于根据第一语义识别模块1003获取的第一目标语义信息生成第一消息，并将第一消息发送给第二设备，指示第二设备执行第一视觉任务。在一种可能的实现方式中，该通信模块(图10中未示出)还用于根据第二语义识别模块1005获取的第二目标语义信息生成第二消息，并将第二消息发送给第二设备，指示第二设备执行第二视觉任务。

图10所描述的信息处理装置10对模块的划分仅仅是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。信息处理装置中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

图10中的模块既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。例如，采用软件实现时，图10中的各个模块可以由图9中的处理器901读取存储器902中存储的程序代码后，生成的软件功能模块来实现。图10中的模块也可以由图9中的不同硬件分别实现，例如，该图像获取模块1001可以用传感器系统903来实现，或者用通信接口904来实现，通信模块(图10中未示出)由图9中的通信接口904实现，特征提取模块1002和第一语义识别模块1003和第一任务执行模块1004和第二语义识别模块1005和第二任务执行模块1006由图9中处理器901中的部分处理资源(例如多核处理器中的其他核)，或者采用现场可编程门阵列(field－programmable gate array，FPGA)、或协处理器等可编程器件来完成。显然上述功能模块也可以采用软件硬件相结合的方式来实现，例如图像获取模块1001由传感器系统903实现，而特征提取模块1002和第一语义识别模块1003和第一任务执行模块1004和第二语义识别模块1005和第二任务执行模块1006是由处理器901读取存储器902中存储的程序指令后生成的软件功能模块。

本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。

本领域普通技术人员将会理解，当使用软件实现本申请实施例的各个方面、或各个方面的可能实现方式时，上述各个方面、或各个方面的可能实现方式可以全部或部分地以计算机程序产品的形式实现。计算机程序产品是指存储在计算机可读介质中的指令(或计算机可读指令或计算机程序指令或功能程序或程序代码)。在计算机上加载和执行这些指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包括但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合。如计算机可读存储介质为随机存取存储器(random access memory，RAM)、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasableprogrammable read only memory，EPROM)或便携式只读存储器(compact disc read-onlymemory，CD-ROM)。

本申请的说明书和权利要求书及上述附图中的术语“第一”、第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。本申请实施例中出现的术语“多个”指两个或两个以上。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样，倘若本申请的这些修改和变型属于本发明权利要求的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取图像；

将所述图像输入特征提取模型，所述特征提取模型用于根据输入的图像提取目标对象的特征图；

从所述特征提取模型获取对应于所述图像的第一特征图，所述第一特征图描述所述目标对象的第一形貌；

将所述第一特征图输入第一语义识别模型，所述第一语义识别模型用于根据输入的特征图确定第一语义信息；

从所述第一语义识别模型获取对应于所述第一特征图的第一目标语义信息，所述第一目标语义信息描述所述第一形貌所表达的含义。

2.根据权利要求1所述的方法，其特征在于，所述特征提取模型的训练过程与所述第一语义识别模型的训练过程彼此独立。

3.根据权利要求2所述的方法，其特征在于，所述第一特征图包括三维模型的信息，所述三维模型为所述特征提取模型根据所述图像利用参数化模型拟合所述目标对象确定的。

4.根据权利要求3所述的方法，其特征在于，所述三维模型的信息包括所述三维模型中网格顶点的信息，和/或，拟合参数的信息，所述拟合参数的信息用于根据所述参数化模型确定所述三维模型。

5.根据权利要求1至4中任一项所述的方法，其特征在于，在所述将所述图像输入特征提取模型之后，所述方法还包括：

从所述特征提取模型获取对应于所述图像的第二特征图，所述第二特征图描述所述目标对象的第二形貌；

将所述第二特征图输入第二语义识别模型，所述第二语义识别模型用于根据输入的所述特征图确定第二语义信息；

从所述第二语义识别模型获取对应于所述图像的第二目标语义信息，所述第二目标语义信息描述所述第二形貌所表达的含义。

6.根据权利要求5所述的方法，其特征在于，所述第一语义识别模型的训练过程和所述第二语义识别模型的训练过程彼此独立。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述第一目标语义信息执行第一视觉任务；

根据所述第二目标语义信息执行第二视觉任务。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述图像来自于车载传感器的传感信息。

9.根据权利要求8所述的方法，其特征在于，所述车载传感器包括如下至少一种传感器：

雷达，红外探测器，深度相机，全彩相机，和鱼眼相机。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述目标对象包括人，或车，或道路场景。

11.一种信息处理装置，其特征在于，包括图像获取模块，特征提取模块和语义识别模块；

所述图像获取模块用于获取图像；

所述特征提取模块用于将所述图像获取模块获取到的所述图像输入特征提取模型，所述特征提取模型用于根据输入的图像提取目标对象的特征图；

所述特征提取模块还用于从所述特征提取模型获取对应于所述图像的第一特征图，所述第一特征图描述所述目标对象的第一形貌；

所述语义识别模块用于将所述特征提取模块获取到的所述第一特征图输入第一语义识别模型，所述第一语义识别模型用于根据输入的所述特征图确定第一语义信息；

所述语义识别模块还用于从所述第一语义识别模型获取对应于所述第一特征图的第一目标语义信息，所述第一目标语义信息描述所述第一形貌所表达的含义。

12.一种计算设备，其特征在于，包括处理器和存储器，所述存储器和所述处理器耦合，所述处理器用于执行权利要求1至10中任一项所述的方法。

13.根据权利要求12所述的计算设备，其特征在于，所述计算设备还包括传感器系统，所述传感器系统用于获取图像。

14.根据权利要求12所述的计算设备，其特征在于，所述计算设备还包括通信接口，所述处理器利用所述通信接口获取图像。

15.根据权利要求12至14中任一项所述的计算设备，其特征在于，所述计算设备为一种终端。

16.一种芯片系统，其特征在于，包括处理器和接口电路，所述处理器通过所述接口电路与存储器耦合，所述处理器用于执行计算机程序或指令，以实现如权利要求1至10中任一项所述的方法。

17.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质中存储了程序代码，所述程序代码被终端或终端中的处理器执行时，以实现如权利要求1至10任一所述的方法。

18.一种计算机程序产品，其特征在于：

所述计算机程序产品包含的程序代码被终端中的处理器执行时，以实现如权利要求1至10任一所述的方法。