CN112257617A

CN112257617A - 多模态目标识别方法和系统

Info

Publication number: CN112257617A
Application number: CN202011155537.7A
Authority: CN
Inventors: 郑丹丹
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-10-26
Filing date: 2020-10-26
Publication date: 2021-01-22
Anticipated expiration: 2040-10-26
Also published as: CN112257617B

Abstract

本公开提供了一种多模态目标识别方法，包括：在多对象场景中对每个对象进行多模态跟踪，以获取每个对象在各个模态下的模态信息；关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集；在所述多对象场景中选择目标；基于所选目标确定所述目标的模态信息集；在所述目标的模态信息集中选择可用的模态信息；以及基于所述可用的模态信息识别所述目标。

Description

多模态目标识别方法和系统

技术领域

本公开主要涉及目标识别，尤其涉及多模态下的目标识别。

背景技术

线下刷脸支付的摄像头，为了极高的安全性，基本上都采用2D+3D或者2D+IR+3D的多模态摄像头。常规的方案一般选择在2D上做检测，基于2D脸的大小进行选脸，或者结合人脸检测框对应的平均深度值计算人脸检测框在空间的位置进行选脸。

但是各个模态对各自环境的适应能力不同，只依赖2D摄像头进行主要的检测和选脸逻辑，使得在极端光线等情况下3D或者IR模态能够检测到人脸，但是2D模态检测失败，也不能继续进行人脸识别的全链路，对全链路通过率造成了很大的伤害。

在其它场景中，例如危险人物追踪或儿童失踪、高价值货物丢失等的场景，同样需要在关键地点实现不受光线或遮挡影响的目标识别。

因此，本领域需要在极端光线条件下或者目标受到遮挡的情况下，仍然能够进行目标识别的方法和系统。

发明内容

为解决上述技术问题，本公开提供了一种在极端光线条件下或者目标受到遮挡的情况下，仍然能够进行目标识别的方案。

在本公开一实施例中，提供了一种多模态目标识别方法，包括：在多对象场景中对每个对象进行多模态跟踪，以获取每个对象在各个模态下的模态信息；关联对象在各个模态下的模态信息以形成对象的模态信息集；在多对象场景中选择目标；基于所选目标确定目标的模态信息集；在目标的模态信息集中选择可用的模态信息；以及基于可用的模态信息识别目标。

在本公开另一实施例中，模态信息包括：RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。

在本公开又一实施例中，关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括：在模态信息是图像的情况下，采用图像哈希技术进行关联映射。

在本公开另一实施例中，关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括：在多对象场景是密集场景的情况下，采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。

在本公开又一实施例中，在多对象场景中选择目标包括基于空间位置来选择目标。

在本公开另一实施例中，在多对象场景中选择目标包括基于场景选择目标。

在本公开又一实施例中，在目标的模态信息集中选择可用的模态信息包括选择具备区分度的模态信息。

在本公开另一实施例中，在目标的模态信息集中选择可用的模态信息包括根据不同的场景选择不同的模态信息。

在本公开一实施例中，提供了一种多模态目标识别系统，包括：模态信息收集模块，用于：在多对象场景中对每个对象进行多模态跟踪，以获取每个对象在各个模态下的模态信息；关联对象在各个模态下的模态信息以形成对象的模态信息集；目标选择模块，用于：在多对象场景中选择目标；基于所选目标确定目标的模态信息集；以及目标识别模块，用于：在目标的模态信息集中选择可用的模态信息；基于可用的模态信息识别目标。

在本公开又一实施例中，模态信息收集模块关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括：在模态信息是图像的情况下，模态信息收集模块采用图像哈希技术进行关联映射。

在本公开另一实施例中，模态信息收集模块关联对象在各个模态下的模态信息以形成对象的模态信息集进一步包括：在多对象场景是密集场景的情况下，模态信息收集模块采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。

在本公开又一实施例中，目标选择模块在多对象场景中选择目标包括目标选择模块基于空间位置来选择目标。

在本公开另一实施例中，目标选择模块在多对象场景中选择目标包括目标选择模块基于场景来选择目标。

在本公开又一实施例中，目标识别模块在目标的模态信息集中选择可用的模态信息包括目标识别模块选择具备区分度的模态信息。

在本公开另一实施例中，目标识别模块在目标的模态信息集中选择可用的模态信息包括目标识别模块根据不同的场景选择不同的模态信息。

在本公开一实施例中，提供了一种存储有指令的计算机可读存储介质，当这些指令被执行时使得机器执行如前所述的方法。

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

附图说明

本公开的以上发明内容以及下面的具体实施方式在结合附图阅读时会得到更好的理解。需要说明的是，附图仅作为所请求保护的发明的示例。在附图中，相同的附图标记代表相同或类似的元素。

图1是示出多模态摄像头应用于线下刷脸支付场景的示图；

图2是示出根据本公开一实施例的多模态目标识别方法的流程图；

图3是示出根据本公开一实施例的多模态目标识别框架的实现的示图；

图4是示出根据本公开一实施例的采用包括RGB二维模态和IR模态的双目摄像机的多模态目标识别方法的流程图；

图5是示出根据本公开一实施例的多模态目标识别系统的框图。

具体实施方式

为使得本公开的上述目的、特征和优点能更加明显易懂，以下结合附图对本公开的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但是本公开还可以采用其它不同于在此描述的其它方式来实施，因此本公开不受下文公开的具体实施例的限制。

本文中的模态指的是信息的来源或者形式。举例而言，人有触觉、听觉、视觉、嗅觉；而信息的媒介有语音、视频、文字等；还有多种多样的传感器，比如雷达、红外、加速度计等。以上种种都称为模态。同时模态也可有更宽泛的定义，例如，将两种不同的语言当作两种模态，甚至在两种不同情况下采集到的数据集也可认为是两种模态。

多模态相机(包括摄像机)可融合单目摄像头、3D摄像头(例如，3D结构光、TOF飞行时间、双目立体视觉识别)、RGB摄像头和红外摄像头等各种摄像头，采集的是2D+3D或者2D+IR+3D等的多模态信息。采用多模态相机进行物体识别、行为识别、场景建模的相关应用越来越多。

普通的彩色相机拍摄到的图片能看到相机视角内的所有物体并记录下来，但是其所记录的数据不包含这些物体到相机的距离。仅仅能通过图像的语义分析可判断哪些物体比较远、哪些比较近，但是并没有确切的数据。而多模态相机则解决了该问题，通过深度相机获取到的数据，能准确知道图像中每个点离摄像头的距离，再加上该点在2D图像中的(x,y)坐标，就能获取图像中每个点的三维空间坐标。通过三维坐标就能还原真实场景，实现场景建模等应用。

在线下刷脸支付的场景中，为了极高的安全性，通常会使用多模态相机。常规的方案一般选择在2D上做检测，基于2D脸的大小进行选脸；或者结合人脸检测框对应的平均深度值计算人脸检测框在空间的位置来进行选脸。但是这些方案实际上依赖2D摄像头进行主要的检测和选脸逻辑，从而导致在极端光线(导致过暗或过曝)或目标受遮挡(佩戴诸如帽子、眼镜、口罩等遮挡物)等情况下3D或者IR模态能够检测到人脸，但是由于2D模态检测失败而无法继续进行人脸识别的全链路，从而较大地降低了全链路通过率。

因此，本领域需要能够实现在极端光线条件下或者目标受到遮挡的情况下仍然能够进行目标识别的方案。

下文将基于附图具体描述根据本公开各个实施例的多模态目标识别方法和系统。

图1是示出多模态相机应用于线下刷脸支付场景的示图。刷脸支付已广泛应用于餐饮零售等商业场景。在超市支付场景中，顾客可以在结算台进行自助结算收银，就算手捧商品而腾不出手支付，也可以通过刷脸支付直接完成支付，从而解放双手、十分便捷。

然而，在光照不足(举例而言，晚间突发停电使得光照不足)或者支付者脸部受到遮挡(举例而言，支付者佩戴口罩或者在人流密集时脸部被遮挡)的情况下，RGB摄像头将无法捕捉到足以进行人脸识别的2D图像。此时，有必要不局限于在2D的基础上做检测且基于2D脸的大小进行选脸。

本公开的技术方案将通过基于多模态相机采集多模态信息，在可用的模态信息的基础上进行选脸和人脸采集，从而避免在极端光线条件下或者目标受到遮挡的情况下无法进行目标识别。

图2是示出根据本公开一实施例的多模态目标识别方法200的流程图。

在202，在多对象场景中对每个对象进行多模态跟踪，以获取该对象在各个模态下的模态信息。

可以理解，在人脸支付场景中，在摄像头视野范围内，可能有多个人脸，但是在某一个时刻实际上参与刷脸付识别的通常只有一个人。同一视野范围内不同对象的人脸图像通过摄像头采集得到，比如静态图像、动态图像、不同的位置、不同表情等。当采集对象在设备的拍摄范围内时，采集设备会自动搜索并拍摄人脸图像。在此情形中，需要对该视野范围内的多个对象分别进行跟踪，获取每个对象的不同模态信息。

在多对象跟踪的过程中，可采用不同的对象跟踪方法，并且由于对象在场景中是移动的，因此转化为对象和轨迹的跟踪。由此可以：学习多次检测之间的特征相似性，比如计算不同检测的距离函数，相同目标的检测距离小，不同目标的检测距离大，从而构造关于检测距离的代价函数；也可以设计二类分类代价，使相同目标的检测特征匹配类型为1，而不同目标的检测特征匹配类型为0，从而学习并输出(0,1]之间的检测匹配度；进一步地，如果考虑已有轨迹与检测之间的匹配或者轨迹之间的匹配，采用深度学习方法可以用于设计并计算轨迹之间的匹配相似度。本领域技术人员可知悉，可依场景可采用不同的对象跟踪方法。以下将参照图3具体描述多对象的多模态跟踪。

在本公开一实施例中，采用的多模态相机可采集到的模态信息包括2D RGB模态信息、3D模态信息以及IR红外线模态信息。在不同的光照条件或不同的对象脸部遮挡的情况下，可用的模态信息可依情形而不同。

举例而言，在正常光照条件且所关注对象的脸部无遮挡的情况下，通常2D RGB模态信息、3D模态信息以及IR红外线模态信息均为可用。此时，针对所关注对象所获取的模态信息将为2D RGB模态信息、3D模态信息和IR红外线模态信息。

作为另一示例，在光照条件不足或者所关注对象的脸部有遮挡的情况下，通常IR红外线模态信息为可用。此时，针对所关注对象所获取的模态信息将为IR红外线模态信息。

本领域技术人员可以理解，随着技术的进步，多模态信息的采集可不断纳入新技术，即采用新的模态信息采集技术来获取新的模态信息。

在204，关联该对象在各个模态下的模态信息以形成该对象的模态信息集。

各个对象在各个模态下的模态信息实际上涉及的是匹配关联问题。在本公开一实施例中，需要将一个对象的2D RGB模态信息、3D模态信息和IR红外线模态信息匹配并关联成该对象的模态信息集。在多对象的多模态信息跟踪过程中，模态信息针对某一对象的匹配关联过程是学习检测结果的特征并优化匹配相似度或者距离度量的过程。

在本公开一实施例中，将基于对象的表观特征、运动特征、以及交互模式特征来学习不同模态信息的相似度。当相似度达判断标准(例如，阈值等等)时，这些模态信息被形成为相关对象的模态信息集。举例而言，在本实施例中，对象1的模态信息集可表示为(PersonalInfo1,RGB rect,IR rect)。以下将参照图3具体描述多模态信息关联。

本领域技术人员可以理解，多模态信息的关联方法可依场景进行不同的选择，并且同样可不断纳入新技术。

在206，在该多对象场景中选择目标。

在不同应用场景中，可按需选择目标。在选择目标之前，通常需要对相关的多模态信息进行预处理。例如，以模态信息为图片作为示例，预处理包括人脸对准、人脸图像的光线补偿，灰度变换、直方图均衡化、归一化、几何校正、中值滤波、以及锐化等等。

在线下刷脸支付场景中，可按照空间位置来在多对象场景中选择目标，比如，按照对象距摄像头中心的x,y,z位置来选择。在本公开一实施例中，基于对象距摄像头中心的x,y,z位置，选择对象1为目标。

在208，基于所选目标确定该目标的模态信息集。

在本公开一实施例中，基于所选目标为对象1，确定其模态信息集为(PersonalInfo1,RGB rect,IR rect)。

在210，在该目标的模态信息集中选择可用的模态信息。

对所确定的目标的模态信息集中的模态信息进行质量判断。可用的模态信息在不同的场景中有所不同，但需要满足后续的人脸识别的质量要求，亦即可供最终区分并确定该目标的身份信息。

在212，基于该可用的模态信息识别该目标。

在可用模态信息的基础上，对目标进行识别并获取该目标的身份信息。

以上的多模态目标识别方法降低了对某一模态的依赖性，能够在不利于该模态信息采集的情况下利用其它的模态信息来进行目标识别，而无需进行复杂的信息融合计算。由于本公开的多模态目标识别方法可以完成独立模态解耦，因此即使遮挡2D摄像头、或者遮挡3D摄像头，也能完成采集和人脸识别链路。

图3是示出根据本公开一实施例的多模态目标识别框架的实现的示图。

在302，进行多模态信息跟踪。在多对象跟踪的过程中，包括有多模态检测、多模态跟踪和多人脸batch。

首先，对摄像机视野中的多个对象进行检测。以模态信息为图片作为示例。在此过程中，针对每个对象，在每种模态中检测并定位图片中该对象的人脸，从而返回人脸框坐标。多模态检测可采用GPU来进行。

其次，在多数应用场景中，多个对象往往处于运动状态。在线下刷脸支付场景中，多个对象在选购商品时会走动、查看商品、与他人互动等等。由此可能需要对这些对象进行多模态跟踪，从而采集到一系列的模态信息(例如，图像帧)。多模态跟踪也可采用GPU来进行。

然后，针对所采集到的模态信息，选择多人脸batch。在采用GPU进行多模态检测和跟踪的情形中，选择batch size(批次大小)是为了确定每个GPU一次批处理多少个模态信息(例如，图像帧)。

在304，进行多模态信息关联。在302获取到的多模态信息要进行分类，即诸如多模态人脸框的多模态信息要分别关联到摄像机视野中的多个对象，并且这些诸如多模态人脸框的多模态信息要针对某一对象构成多模态信息集。这样的分类和信息集的构建应当基于静态的多模态信息和对象轨迹两者。

首先，要对静态的多模态信息进行关联匹配。

在本公开一实施例中，图片被用作为模态信息，并且采用图像哈希技术来确定各个图片中对象的多模态人脸框的相似性。

在本公开一实施例中，图像帧被用作为模态信息，场景中存在密集共处的多个对象，此时采用区域交并比(IOU)和非极大值抑制(NMS)技术来确定各个图像帧中对象的多模态人脸框的相似性。

更进一步地，在分类过程中，要考虑所采集到的多模态信息与对象轨迹的匹配关联，这是因为：第一，在多个对象处于运动状态的场景中，会有对象消失在摄像机视野中，也会有新的对象进入摄像机视野。也就是说，检测结果中可能出现新的对象，也可能不包括已有的对象轨迹。第二，多对象跟踪中的对象轨迹频繁发生变化。第三，多对象跟踪场景下的检测结果会混杂一些错误的检测(false-alarm)，而由于背景以及对象之间的交互，跟踪中的对象检测可能出现模态信息不对齐、多个检测对应同一对象、以及一个检测覆盖了多个对象等问题。

由此，仍然以模态信息为图片作为示例，需要根据每一帧图像中对象的检测结果，匹配已有的对象轨迹；对于新出现的对象，需要生成新的对象；对于已经离开摄像机视野的对象，需要终止其轨迹的跟踪。在这一过程中，对象与检测的匹配可以看作为对象的重识别，例如，当跟踪多个对象时，把已有轨迹的对象图像集合看作为图像库(gallery)，而检测图像看作为查询图像(query)，检测与轨迹的匹配关联过程可以看作由查询图像检索图像库的过程。基于此，根据当前检测，可学习与已有轨迹的匹配关系，其中合适的匹配度量决定了匹配的正确性。

在多模态信息基于静态的多模态信息和对象轨迹分别关联到摄像机视野中的多个对象之后，还需要进行信息集与对象的关联。举例而言，单个对象的信息集可被构建为(PersonalInfo1,RGB rect,IR rect)。

在306，针对各个对象的多模态信息集，进行多模态信息选择。

首先，将各个对象的多模态信息集进行归一化。在本公开一实施例中，可根据模态分辨率来归一化。接着，按场景选择要关注的目标。在本公开一实施例中，可根据空间位置来选择。然后，对所选目标的多模态信息集中的各个模态信息进行质量判断，从而获取可用于进行后续身份识别的模态信息。

在308，基于所选目标的可用模态信息，进行活体识别。在可用模态信息的基础上进行活体识别或身份识别可采用适当的技术来实现，在此不做赘述。

图4是示出根据本公开一实施例的采用包括RGB二维模态和IR模态的双目摄像机的多模态目标识别方法的流程图。在图4中，采用的为双目相机，包括两个模态，即RGB二维模态和IR模态。所讨论的模态信息为图像。

在403，通过多模态检测完成各自检测的框，其中多模态检测完成两个模态中同一个人脸的关联映射。由此，获取了三个对象的模态信息集，分别为(PersonalInfo1,RGBrect,IR rect),(PersonalInfo2,RGB rect,IR rect),(PersonalInfo3,IR rect)。

在405，不同模态的图像根据该模态摄像头的分辨率归一化。

在407，根据空间位置信息进行脸的选择，即基于距摄像头中心的x y z位置来选脸。在本公开一实施例中，在线下刷脸支付的场景中，通常选择正对摄像头近距离的对象的脸。在摄像头以特定角度设置的情况下，可按该角度选择支付者的脸。

在409，假设在407选到IR3的脸，则根据脸和人的对应关系检索到对应的PersonInfo3。

在411，对PersonInfo3所有的模态人脸进行质量判断，例如quality函数判断。

在413，确定并选择质量较佳、可用于进行后续身份识别的模态图像，以便于进入活体和识别环节。

图5是示出根据本公开一实施例的多模态目标识别系统500的框图。

该多模态目标识别系统500包括模态信息收集模块502、目标选择模块504以及目标识别模块506。

模态信息收集模块502用于：在多对象场景中对每个对象进行多模态跟踪，以获取每个对象在各个模态下的模态信息，以及关联该对象在各个模态下的模态信息以形成该对象的模态信息集。

可以理解，在人脸支付场景中，在摄像头视野范围内，可能有多个人脸，但是在某一个时刻实际上参与刷脸付识别的通常只有一个人。同一视野范围内不同对象的模态信息(例如，人脸图像)通过摄像头采集得到，比如静态图像、动态图像、不同的位置、不同表情等。当采集对象在设备的拍摄范围内时，模态信息收集模块502会自动搜索并采集模态信息(例如，拍摄人脸图像)。在此情形中，需要对该视野范围内的多个对象分别进行跟踪，获取每个对象的不同模态信息。

模态信息收集模块502要针对所获取到的多模态信息进行分类，即诸如多模态人脸框的多模态信息要分别关联到摄像机视野中的多个对象，并且这些诸如多模态人脸框的多模态信息要针对某一对象构成多模态信息集。模态信息收集模块502进行这样的分类和信息集的构建应当基于静态的多模态信息和对象轨迹两者。

在多模态信息基于静态的多模态信息和对象轨迹分别关联到摄像机视野中的多个对象之后，模态信息收集模块502还需要进行信息集与对象的关联。

目标选择模块504用于：在该多对象场景中选择目标，以及基于所选目标确定该目标的模态信息集。目标选择模块504先将各个对象的多模态信息集进行归一化，接着按场景选择要关注的目标。

目标识别模块506用于：在该目标的模态信息集中选择可用的模态信息，以及基于该可用的模态信息识别该目标。目标识别模块506对所选目标的多模态信息集中的各个模态信息进行质量判断，从而获取可用于进行后续身份识别的模态信息。然后目标识别模块506基于该可用的模态信息选择适当的识别方法来进行目标识别。

以上的多模态目标识别系统降低了对某一模态的依赖性，能够在不利于该模态信息采集的情况下利用其它的模态信息来进行目标识别，而无需进行复杂的信息融合计算。由于本公开的多模态目标识别系统可以完成独立模态解耦，因此即使遮挡2D摄像头、或者遮挡3D摄像头，也能完成采集和人脸识别链路。

以上描述的多模态目标识别方法和系统的各个步骤和模块可以用硬件、软件、或其组合来实现。如果在硬件中实现，结合本发明描述的各种说明性步骤、模块、以及电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其他可编程逻辑组件、硬件组件、或其任何组合来实现或执行。通用处理器可以是处理器、微处理器、控制器、微控制器、或状态机等。如果在软件中实现，则结合本发明描述的各种说明性步骤、模块可以作为一条或多条指令或代码存储在计算机可读介质上或进行传送。实现本发明的各种操作的软件模块可驻留在存储介质中，如RAM、闪存、ROM、EPROM、EEPROM、寄存器、硬盘、可移动盘、CD-ROM、云存储等。存储介质可耦合到处理器以使得该处理器能从/向该存储介质读写信息，并执行相应的程序模块以实现本发明的各个步骤。而且，基于软件的实施例可以通过适当的通信手段被上载、下载或远程地访问。这种适当的通信手段包括例如互联网、万维网、内联网、软件应用、电缆(包括光纤电缆)、磁通信、电磁通信(包括RF、微波和红外通信)、电子通信或者其他这样的通信手段。

还应注意，这些实施例可能是作为被描绘为流程图、流图、结构图、或框图的过程来描述的。尽管流程图可能会把诸操作描述为顺序过程，但是这些操作中有许多操作能够并行或并发地执行。另外，这些操作的次序可被重新安排。

所公开的方法、装置和系统不应以任何方式被限制。相反，本发明涵盖各种所公开的实施例(单独和彼此的各种组合和子组合)的所有新颖和非显而易见的特征和方面。所公开的方法、装置和系统不限于任何具体方面或特征或它们的组合，所公开的任何实施例也不要求存在任一个或多个具体优点或者解决特定或所有技术问题。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多更改，这些均落在本发明的保护范围之内。

Claims

1.一种多模态目标识别方法，包括：

在多对象场景中对每个对象进行多模态跟踪，以获取所述对象在各个模态下的模态信息；

关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集；

在所述多对象场景中选择目标；

基于所选目标确定所述目标的模态信息集；

在所述目标的模态信息集中选择可用的模态信息；以及

基于所述可用的模态信息识别所述目标。

2.如权利要求1所述的方法，所述模态信息包括：RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。

3.如权利要求1所述的方法，关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括：在所述模态信息是图像的情况下，采用图像哈希技术进行关联映射。

4.如权利要求1所述的方法，关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括：在所述多对象场景是密集场景的情况下，采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。

5.如权利要求1所述的方法，在所述多对象场景中选择目标包括基于空间位置来选择所述目标。

6.如权利要求1所述的方法，在所述多对象场景中选择目标包括基于场景选择所述目标。

7.如权利要求1所述的方法，在所述目标的模态信息集中选择可用的模态信息包括选择具备区分度的模态信息。

8.如权利要求1所述的方法，在所述目标的模态信息集中选择可用的模态信息包括根据不同的场景选择不同的模态信息。

9.一种多模态目标识别系统，包括：

模态信息收集模块，用于：

在多对象场景中对每个对象进行多模态跟踪，以获取每个对象在各个模态下的模态信息；

目标选择模块，用于：

在所述多对象场景中选择目标；

基于所选目标确定所述目标的模态信息集；以及

目标识别模块，用于：

在所述目标的模态信息集中选择可用的模态信息；

基于所述可用的模态信息识别所述目标。

10.如权利要求9所述的系统，所述模态信息包括：RGB图像、IR图像、3D图像、视频帧、声音、姿态、指纹、脉搏波。

11.如权利要求9所述的系统，所述模态信息收集模块关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括：在所述模态信息是图像的情况下，所述模态信息收集模块采用图像哈希技术进行关联映射。

12.如权利要求9所述的系统，所述模态信息收集模块关联所述对象在各个模态下的模态信息以形成所述对象的模态信息集进一步包括：在所述多对象场景是密集场景的情况下，所述模态信息收集模块采用区域交并比(IOU)和非极大值抑制(NMS)进行关联映射。

13.如权利要求9所述的系统，所述目标选择模块在所述多对象场景中选择目标包括所述目标选择模块基于空间位置来选择所述目标。

14.如权利要求9所述的系统，所述目标选择模块在所述多对象场景中选择目标包括所述目标选择模块基于场景来选择所述目标。

15.如权利要求9所述的系统，所述目标识别模块在所述目标的模态信息集中选择可用的模态信息包括所述目标识别模块选择具备区分度的模态信息。

16.如权利要求9所述的系统，所述目标识别模块在所述目标的模态信息集中选择可用的模态信息包括所述目标识别模块根据不同的场景选择不同的模态信息。

17.一种存储有指令的计算机可读存储介质，当所述指令被执行时使得机器执行如权利要求1-8中任一项所述的方法。