CN114357263A

CN114357263A - 目标对象的多模态信息的处理方法、装置及存储介质

Info

Publication number: CN114357263A
Application number: CN202111510906.4A
Authority: CN
Inventors: 刘俊龙; 陈冲; 申晨; 沈旭; 黄建强
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-10
Filing date: 2021-12-10
Publication date: 2022-04-15

Abstract

本发明公开了一种目标对象的多模态信息的处理方法、装置及存储介质。其中，该方法包括：获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。本发明解决了相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

Description

目标对象的多模态信息的处理方法、装置及存储介质

技术领域

本发明涉及计算机领域，具体而言，涉及一种目标对象的多模态信息的处理方法、装置及存储介质。

背景技术

随着云计算和移动互联网的发展，不同的平台每时每刻都在产生海量的数据，这些数据是缺失多模态的，不同的对象含有不同的模态数据，不同的模态具有非常不同的属性，利用多模态之间的互补性，剔除模态间的冗余性，从而学习到更好的特征属性显得很重要。聚类是其中一个重要的应用。如城市每时每刻都在产生的大规模行人、机动车、非机动车的抓拍照片以及视频，对这些对象实施在线聚类可以获取对象的移动轨迹、活动范围、社交区域等重要信息。再比如移动手机拍摄上传大规模短视频数据，通过获取视频的内容或图像、声音、文本等多模态信息进行在线聚类，可用于同类视频聚类、检索等应用场景。再比如人们在社交网络上的表达方式变得越来越丰富，可以通过图文、视频等表达自己的情绪和观点，利用图片、视频、文本等多模态信息进行社交网络动态内容聚类和动态情绪聚类等，向用户推荐同类动态。再比如越来越多的购物平台都提供搜索服务，购物平台中不同商家对同一类物品有视频、图片、文字、价格等不同的描述，通过多模态聚类将不同商家的同类物品聚类在一起，可以给用户提供视频、图片、文字相结合的搜索服务。

相关技术中，目前使用的缺失多模态聚类方法主要是基于矩阵分解策略、基于谱聚类的方法、基于多核学习的方法、基于对比学习的方法等，难以简单、高效地进行多模态聚类。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种目标对象的多模态信息的处理方法、装置及存储介质，以至少解决相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理方法，包括：获取多个目标对象在多模态下的多模态信息，其中，所述多模态信息包括：任意一个目标对象在每种模态下的度量距离；基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

可选地，基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，包括：基于任意两个目标对象的多模态信息，提取所述任意两个目标对象的度量距离，其中，所述度量距离包括如下至少之一：欧式距离和空间距离；采集贝叶斯公式和条件独立等式，对所述任意两个目标对象的度量距离进行计算，得到所述任意两个目标对象之间的后验匹配概率。

可选地，基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果包括：从所述多个目标对象中确定至少两个待聚类的目标对象，并统计待聚类的目标对象的数量，其中，所述待聚类的目标对象标记有聚类标签；基于所述待聚类的目标对象的后验匹配概率，对所述待聚类的目标对象进行概率聚类，生成所述聚类结果。

可选地，基于所述待聚类的目标对象的后验匹配概率，对所述待聚类的目标对象进行概率聚类，生成所述聚类结果，包括：根据所述待聚类的目标对象的后验匹配概率，构建每个待聚类的目标对象的K近邻对象，并初始化每个待聚类的目标对象为单独的类别；遍历每个待聚类的目标对象，将每个待聚类的目标对象归类为原类别，并将对应的K近邻对象的所属类别里的最大似然概率损失函数归类为最低类别；如果遍历每个待聚类的目标对象结束，将归类后的结果汇总为所述聚类结果。

可选地，构建每个待聚类的目标对象的K近邻对象，包括：按照每个待聚类的目标对象与其他目标对象之间的后验匹配概率，对每个待聚类的目标对象进行排序，提取后验匹配概率最大的K个对象作为所述K近邻对象。

可选地，所述方法还包括：基于联合概率密度函数，对所述待聚类的目标对象的聚类标签进行分析，确定所述概率聚类的概率损失。

可选地，所述方法还包括：如果所述目标对象的一个或多个模态下的模态信息存在数据缺失，基于所述聚类结果对存在所述数据损失的模态信息进行补充。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理方法，包括：获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸模态和地理模态的情况，所述多模态信息至少包括：人脸相似度和空间距离；基于所述人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理方法，包括：获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，所述多模态信息至少包括：人脸相似度和人体相似度；基于所述人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理装置，包括：第一获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，所述多模态信息包括：任意一个目标对象在每种模态下的度量距离；第一计算模块，用于基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；第一聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理装置，包括：第二获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸模态和地理模态的情况，所述多模态信息至少包括：人脸相似度和空间距离；第二计算模块，用于基于所述人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；第二聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

根据本发明实施例的一个方面，提供了一种目标对象的多模态信息的处理装置，包括：第三获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，所述多模态信息至少包括：人脸相似度和人体相似度；第三计算模块，用于基于所述人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；第三聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

根据本发明实施例的一个方面，提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的目标对象的多模态信息的处理方法。

根据本发明实施例的一个方面，提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的目标对象的多模态信息的处理方法。

在本发明实施例中，通过获取多个目标对象在多模态下的多模态信息，以基于该多模态信息，计算得到任意两个目标对象之间的后验匹配概率，进而能够基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。因为聚类结果是依据任意两个目标对象之间的后验匹配概率得到的，后验匹配概率是依据多模态信息得到的，因而能够依据更全面的信息得到后验匹配概率，进而解决了相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了一种用于实现目标对象的多模态信息的处理方法的移动设备的硬件结构框图；

图2是根据本发明实施例1的目标对象的多模态信息的处理方法一的流程图；

图3是根据本发明实施例1的目标对象的多模态信息的处理方法二的流程图；

图4是根据本发明实施例1的目标对象的多模态信息的处理方法三的流程图；

图5是本发明可选实施方式提供的异质双模态后验匹配概率计算的示意图；

图6是本发明可选实施方式提供的同质双模态后验匹配概率计算的示意图；

图7是本发明可选实施方式提供的概率聚类的示意图；

图8是根据本发明实施例2提供的目标对象的多模态信息的处理装置一的结构框图；

图9是根据本发明实施例3提供的目标对象的多模态信息的处理装置二的结构框图；

图10是根据本发明实施例4提供的目标对象的多模态信息的处理装置三的结构框图；

图11是根据本发明实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

模态：每一种信息的来源或者形式都可以称为一种模态。例如，人有触觉、听觉、视觉、嗅觉、味觉等；信息的媒介有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。在城市大脑场景，人员的多模态，包含人体特征/步态特征/人脸特征等视觉信息，属性信息，时间空间等地理信息，视频检测跟踪ID等元信息。在电商场景，商品的多模态，包含图片特征/文字表示，商品类别，销量/评价等信息。

聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。

多模态聚类：对拥有多元模态信息的对象进行聚类。在城市大脑的场景，即将同一人/同一车/同一非机动车的所有出现抓拍汇集到一个类别。在电商场景，即将不同店铺的销售商品按照商品唯一性维度汇集到同一类。

缺失多模态：多元模态对象的集合中部分对象的某个或者多个模态的数据缺失。例如，在城市大脑场景，视频流存在检测跟踪信息，图片流则不存在检测跟踪信息，部分非机动车无关联人体。

欧式距离：指在欧几里得空间中两点之间的距离，本方案中用于计算某两个对象之间的某一个模态的特征向量之间的欧式距离。

特征向量：对图片计算的一维数组，通常两个图片的相似度可以通过两者的特征向量计算欧式距离得到。

余弦相似度：通过计算两个向量的夹角余弦值来评估他们的相似度，本方案中用于计算某两个对象之间的某一个模态的特征数据之间的相似度。

匹配概率：一对(两个)对象属于同一个聚类类别的概率。

指示函数：字母I代表指示函数，I(True)＝1，I(False)＝0。

检测跟踪ID：在视频解析中对目标进行多帧跟踪，存在检测跟踪ID标识在视频中对象一段时间内的唯一性，存在模型判断误差，导致相邻时间内不同对象的ID发生调换，大部分情形可以推断检测跟踪ID相同则图片大概率为同一对象。

贝叶斯定理：

条件独立：如果P(X,Y|Z)＝P(X|Z)P(Y|Z)，或等价地P(X|Y,Z)＝P(X|Z)，则称事件X，Y对于给定事件Z是条件独立的，也就是说，当Z发生时，X发生与否与Y发生与否是无关的。在该方案中，多模态之间需要满足对给定类别标签和限定场景条件独立。例如，人脸特征距离/人体特征距离给定是否同一人满足条件独立；人脸人体特征距离/空间距离给定是否同一人满足条件独立；但检测跟踪ID/空间距离ID给定是否同一人不满足条件独立，因为检测跟踪ID相同时空间距离非常接近，故在引入检测跟踪ID的模态时，要限定为同一时空范围内。在相邻时空范围内，检测跟踪ID与空间距离给定是否同一人满足条件独立。

实施例1

根据本发明实施例，还提供了一种目标对象的多模态信息的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现目标对象的多模态信息的处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的目标对象的多模态信息的处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的目标对象的多模态信息的处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请提供了如图2所示的目标对象的多模态信息的处理方法一。图2是根据本发明实施例1的目标对象的多模态信息的处理方法一的流程图，如图2所示，该方法包括如下步骤：

步骤S202，获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；

步骤S204，基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；

步骤S206，基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

通过上述步骤，通过获取多个目标对象在多模态下的多模态信息，以基于该多模态信息，计算得到任意两个目标对象之间的后验匹配概率，进而能够基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。因为聚类结果是依据任意两个目标对象之间的后验匹配概率得到的，后验匹配概率是依据多模态信息得到的，因而能够依据更全面的信息得到后验匹配概率，进而解决了相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

需要说明的是，上述目标对象为待聚类的对象，即待分类的对象。模态指的是任意一种信息的来源或者形式，多模态信息指的即是多种信息的来源或者形式包括的信息。度量距离可以包括欧式距离，空间距离等，后续可以用于计算某两个对象之间的某一个模态的相似性。

作为一种可选的实施例，获取多个目标对象在多模态下的多模态信息。多模态信息包括：任意一个目标对象在每种模态下的度量距离，各模态度量距离条件独立。需要说明的是，根据场景的不同，多模态信息不应相同，例如，在城市大脑场景，目标对象为人的情况下，获取的目标对象在多模态下的多模态信息为人体特征/步态特征/人脸特征等视觉信息，属性信息，时间空间等地理信息，视频检测跟踪ID等元信息，上述多种信息可以称为多种模态，多模态信息包括在上述多种模态下的度量距离。在电商场景，目标对象为商品的情况下，获取的目标对象在多模态下的多模态信息，包含图片特征/文字表示，商品类别，销量/评价等信息，上述多种信息可以称为多种模态，多模态信息包括在上述多种模态下的度量距离。通过获取多个目标对象在多模态下的多模态信息，能够基于多模态信息，对不同模态之间的重要性进行有效的评估。

作为一种可选的实施例，基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率。其中，任意两个目标对象之间的后验匹配概率可以是基于多模态信息中包括的任意两个目标对象在每种模态下的度量距离得到的。在具体的计算过程中，可以通过如下方式：基于任意两个目标对象的多模态信息，提取任意两个目标对象的度量距离；采集贝叶斯公式和条件独立等式，对任意两个目标对象的度量距离进行计算，得到任意两个目标对象之间的后验匹配概率。通过使用贝叶斯公式和条件独立性质计算多模态的后验匹配概率，即计算两个对象属于同一类的概率，因为模态间满足给定类别和场景条件独立，因此，实现了对任意多模态的匹配概率计算。且采用上述方法，代替了相关技术中使用的纯欧式距离或者余弦相似度。使用多模态计算后的匹配概率较欧式距离或者余弦相似度更为充分，聚类准确度和召回率明显提升。另外，使用贝叶斯公式和条件独立性质计算的过程中，支持计算的对象对某个或者多个模态数据缺失，在充分利用待聚类对象完整的多模态信息的同时，还关注了不同模态之间的重要性。

作为一种可选的实施例，基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。在具体生成聚类结果的过程中，可以采用如下方式：从多个目标对象中确定至少两个待聚类的目标对象，并统计待聚类的目标对象的数量，其中，待聚类的目标对象标记有聚类标签；基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果。通过计算待聚类的目标对象的后验匹配概率，实现对待聚类的目标对象的概率聚类。因为是获取多个目标对象在多模态下的多模态信息，以对大量的多模态信息进行处理，以得到后验匹配概率进而生成聚类结果。本申请能够处理模态数据很多的情况，相比于相关技术中的对比学习方法，不能处理模态数量很多的情况，具有显著的进步。

作为一种可选的实施例，基于联合概率密度函数，对待聚类的目标对象的聚类标签进行分析，确定概率聚类的概率损失。需要说明的是，因为概率损失是对待聚类的目标对象的聚类标签进行分析得到的，即是通过待聚类的目标对象所标记的聚类标签得到的，因此，在确定概率聚类的概率损失时，在多个目标对象中存在两个待聚类的目标对象时，可以仅计算两个目标对象所属一个类别时的概率损失，极大减少了计算成本。

作为一种可选的实施例，基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果的过程中，还可以包括如下步骤：根据待聚类的目标对象的后验匹配概率，构建每个待聚类的目标对象的K近邻对象，并初始化每个待聚类的目标对象为单独的类别；遍历每个待聚类的目标对象，将每个待聚类的目标对象归类为原类别，并将对应的K近邻对象的所属类别里的最大似然概率损失函数归类为最低类别；如果遍历每个待聚类的目标对象结束，将归类后的结果汇总为聚类结果。其中，在构建每个待聚类的目标对象的K近邻对象时，可以按照每个待聚类的目标对象与其他目标对象之间的后验匹配概率，对每个待聚类的目标对象进行排序，提取后验匹配概率最大的K个对象作为K近邻对象。即上述过程为，根据后验匹配概率构建每个对象的K近邻对象，K近邻对象为按照该对象与其他对象之间的后验匹配概率从大到小排序，取后验匹配概率最大的K个对象,K<＝m，初始化每一个对象为单独的类别，遍历每一个对象，各个对象调整为原类别和K近邻对象所属类别里使最大似然概率损失函数最低的类别，重复遍历步骤直至无更新，概率聚类结束，将归类后的结果汇总为聚类结果。通过上述步骤，能够实现概率聚类，将传统概率聚类需要考虑所有对象间的匹配概率，减少为可以只需要计算归属于同一类的对象间的匹配概率，将概率聚类的时间复杂度从O(N^2)降为O(NK)，提高了聚类效率。

作为一种可选的实施例，如果目标对象的一个或多个模态下的模态信息存在数据缺失，基于聚类结果对存在数据损失的模态信息进行补充。通过关注的不同模态之间的关系，能够预测缺失数据的相似度，进而能够对存在数据损失的模态信息进行补充。

本申请还提供了如图3所示的目标对象的多模态信息的处理方法二。图3是根据本发明实施例1的目标对象的多模态信息的处理方法二的流程图，如图3所示，该方法包括如下步骤：

步骤S302，获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸模态和地理模态的情况，多模态信息至少包括：人脸相似度和空间距离；

步骤S304，基于人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；

步骤S306，基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

通过上述步骤，通过获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸模态和地理模态的情况，多模态信息至少包括：人脸相似度和空间距离，以基于该多模态信息，计算得到任意两个目标对象之间的后验匹配概率，进而能够基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。因为聚类结果是依据任意两个目标对象之间的后验匹配概率得到的，后验匹配概率是依据多模态信息得到的，因而能够依据更全面的信息得到后验匹配概率，进而解决了相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

本申请还提供了如图4所示的目标对象的多模态信息的处理方法三。图4是根据本发明实施例1的目标对象的多模态信息的处理方法三的流程图，如图4所示，该方法包括如下步骤：

步骤S402，获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，多模态信息至少包括：人脸相似度和人体相似度；

步骤S404，基于人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；

步骤S406，基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

通过上述步骤，通过获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，多模态信息至少包括：人脸相似度和人体相似度，以基于该多模态信息，计算得到任意两个目标对象之间的后验匹配概率，进而能够基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。因为聚类结果是依据任意两个目标对象之间的后验匹配概率得到的，后验匹配概率是依据多模态信息得到的，因而能够依据更全面的信息得到后验匹配概率，进而解决了相关技术的聚类方法中，难以高效、准确地实现对象聚类的技术问题。

基于上述实施例及可选实施例，提供一种可选实施方式，下面具体说明。

在本发明可选实施方式中，提供了一种基于概率聚类的任意多模态聚类方法，采用多模态后验匹配概率计算和匹配概率最大似然聚类进行多模态对象的聚类，解决了传统聚类方法不能处理弱模态数据、不能处理缺失数据、时间复杂度高等问题。

本发明可选实施方式中提供的方法可广泛应用于多模态聚类场景，例如城市大规模行人、机动车、非机动车的在线聚类，大规模短视频在线聚类，社交平台发布动态实时聚类，购物平台商品分类等应用场景。下面对本发明可选实施方式进行详细说明。

图5是本发明可选实施方式提供的异质双模态后验匹配概率计算的示意图，如图5所示。在人脸聚类场景，通常有些人脸存在地理信息，图片同时存在人脸特征/地理信息时，可以计算在根据人脸特征向量的欧式距离(与余弦相似度负相关)和空间距离下的后验匹配概率，可以通过贝叶斯公式和条件独立等式推导为原子分布。在标注数据上统计原子分布后，得到各种人脸相似度/空间距离组合下的后验概率如图5中人脸+时空后验概率的部分所示，纯人脸相似度的后验匹配概率如图5中纯人脸后验概率的部分所示。空间距离的加入对纯人脸匹配概率的影响如图5中后验概率差值对比图的部分所示，可以看到在人脸相似度不高/空间距离近的时候，地理信息的加入会提高匹配概率；而人脸相似度不高/空间距离远的时候，空间信息的加入会降低匹配概率；人脸相似度很高时，无论空间距离远近，匹配概率基本不变(接近于1.0)。

其中，如图5所示的概率计算方式如下：

图6是本发明可选实施方式提供的同质双模态后验匹配概率计算的示意图，如图6所示。在人体聚类场景，通常有些人体存在关联人脸，图片同时存在人脸/人体特征时，可以计算在根据人脸/人体的特征向量的欧式距离(与余弦相似度负相关)下的后验匹配概率，可以通过贝叶斯公式和条件独立等式推导为原子分布。在标注数据上统计原子分布后，得到各种人脸/人体相似度组合下的后验概率如图6中人脸人体关联后验概率的部分所示，纯人脸相似度的后验匹配概率如图6中纯人脸关联后验概率的部分所示。人体信息的加入对纯人脸匹配概率的影响如图6中后验概率差值对比图的部分所示，可以看到在人脸相似度不高/人体相似度高的时候，人体信息的加入会提高匹配概率；而两者相似度都不高的时候，人体信息的加入会降低匹配概率；人脸相似度很高时，无论人体相似度高低，匹配概率基本不变(接近于1.0)。

其中，如图6所示的概率计算方式如下：

图7是本发明可选实施方式提供的概率聚类的示意图，图中实心圆和空心圆形状的对象代表两个类别，对象之间的数值代表对象之间的相似度，由圆形、椭圆形、三角形圈出来的集合代表可能的聚类结果。由图7可知，根据上述方法，使用多模态的匹配概率后，即模态1+模态2的聚类准确度更高。

(一)下面对多模态后验匹配概率计算过程进行详细介绍：

定义d_k为第k个模态的度量距离(各模态度量距离条件独立)，e_ij指示对象i和对象j是否属于同一个类别。使用贝叶斯概率和条件独立计算后验匹配概率。

以两个模态为例，计算如下：

以三个模态为例，计算如下：

推广到任意模态，计算如下：

如上述，任意模态的后验匹配概率形式只包含P(d_k|e_ij＝0/1)和P(e_ij＝0/1|d_k)。从待聚类对象的数据中取部分标注样本，取部分标注样本进行核密度估计求解P(d_k|e_ij＝0/1)，使用单调回归训练求解P(e_ij＝0/1|d_k)。

至此，任意模态的两个对象之间的后验匹配概率可以通过上述公式进行求解，代替单一模态的度量距离。

对于检测跟踪ID，在同一点位/邻近时间的情形下，引入检测跟踪ID距离信息：d_track＝0(若两图片检测跟踪ID相同)/1(检测跟踪ID不同)，P(e_ij|d_track＝0/1)可以根据检测跟踪的可靠性进行估计。

(二)下面对概率聚类进行详细介绍：

概率聚类的大致步骤如下：第一步，通过部分单模型(如特征向量)召回Top m相似对象，利用多模态后验匹配概率计算目标对象与Top m之间的后验匹配概率，根据后验匹配概率构建每个对象的K近邻对象(按照该对象与其他对象之间的后验匹配概率从大到小排序，取后验匹配概率最大的K个对象,K<＝m)，初始化每一个对象为单独的类别；第二步，遍历每一个对象，各个对象调整为原类别和K近邻对象所属类别里使最大似然概率损失函数最低的类别；第三步，重复第二步直至无更新，概率聚类结束。

概率聚类的计算过程如下：定义π：[z₁，z₂，...，z_n]为聚类标签，其中n为待聚类对象样本数量，z_i为第i个对象的聚类标签。定义联合概率密度函数如下：

其中I为指示函数，指示两个标签是否为同一标签，Ω为归一化函数。最大似然概率定义如下：

由最大自然概率定义，概率聚类损失函数定义如下：

loss＝-logP(X|π)＝-∑_i，jI(z_i＝z_j)(logP(e_ij＝1)-logP(e_ij＝0))+const；

需要说明的是，多模态对象间相似度的计算，还可以训练机器学习模型，输入为两者的多模态信息或各模态相似度信息，缺失模态信息进行特殊标记，输出为匹配概率，适用传统机器学习方法或神经网络进行预测。

本发明可选实施方式提供的概率聚类方法解决了传统概率聚类方法中，计算两两对象之间所有的相似度的问题。在优化过程中优化如下述的损失函数定义，将计算复杂度从损失函数定义1的O(N^2)降到损失函数定义2的O(NK)。

在损失函数定义2中，本发明可选实施方式把两两之间的关系分成类间和类内两部分，将所有两两之间的不属于同一类的概率乘积拆分到常数项内，得到损失函数定义，只需要计算类内两两对象之间的匹配概率。

定义π:[z₁，z₂，...，z_n]为聚类所属类别id结果

定义联合概率密度：

I为指示函数

通过最大似然概率：

损失函数定义1：

令{A₁，A₂，...，A_k}为π分割得到的K类，则loss可以改写为：

损失函数定义2：

通过上述可选实施方式，可以达到以下有益效果：

(1)本发明可选实施方式实现了对任意多模态的，数据可缺失的对象进行聚类。

(2)本发明可选实施方式可广泛应用于多模态聚类场景，例如城市大规模行人、机动车、非机动车的在线聚类，大规模短视频在线聚类，社交平台发布动态实时聚类，购物平台商品分类等应用场景。

(3)本发明可选实施方式根据对象的多模态信息，使用贝叶斯概率和条件独立计算待聚类对象之间的后验匹配概率，即计算两个对象属于同一类的概率，代替主流方法使用的纯欧式距离或者余弦相似度。使用多模态计算后的匹配概率较欧式距离或者余弦相似度更为充分，聚类准确度和召回率明显提升。

(4)本发明可选实施方式使用后验匹配概率构建KNN图，使用最大似然聚类时，在最大似然概率损失函数定义中，仅需要计算类内两个对象所属一个类别时的概率损失，将概率聚类算法的复杂度从O(N^2)降为O(NK)，相比于相关技术中的方案(N^2计算复杂度)大大较少了运行时间，提高了效率，同时支持大数据聚类。

(5)本发明可选实施方式利用多模态信息计算后验匹配概率，由任意模态的后验匹配概率计算公式可见，公式支持计算的对象对某个或者多个模态数据缺失，能够充分利用待聚类对象完整的多模态信息，同时关注了不同模态之间的重要性。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的目标对象的多模态信息的处理方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述目标对象的多模态信息的处理方法一的装置，图8是根据本发明实施例2提供的目标对象的多模态信息的处理装置一的结构框图，如图8所示，该装置包括：第一获取模块802，第一计算模块804和第一聚类模块806，下面对该装置进行说明。

第一获取模块802，用于获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；第一计算模块804，连接于上述第一获取模块802，用于基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；第一聚类模块806，连接于上述第一计算模块804，用于基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

此处需要说明的是，上述第一获取模块802，第一计算模块804和第一聚类模块806，对应于实施例1中的步骤S202至步骤S206，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中。

实施例3

根据本发明实施例，还提供了一种用于实施上述目标对象的多模态信息的处理方法二的装置，图9是根据本发明实施例3提供的目标对象的多模态信息的处理装置二的结构框图，如图9所示，该装置包括：第二获取模块902，第二计算模块904和第二聚类模块906，下面对该装置进行说明。

第二获取模块902，用于获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸模态和地理模态的情况，多模态信息至少包括：人脸相似度和空间距离；第二计算模块904，连接于上述第二获取模块902，用于基于人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；第二聚类模块906，连接于上述第二计算模块904，用于基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

此处需要说明的是，上述第二获取模块902，第二计算模块904和第二聚类模块906，对应于实施例1中的步骤S302至步骤S306，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中。

实施例4

根据本发明实施例，还提供了一种用于实施上述目标对象的多模态信息的处理方法三的装置，图10是根据本发明实施例4提供的目标对象的多模态信息的处理装置三的结构框图，如图10所示，该装置包括：第三获取模块1002，第三计算模块1004和第三聚类模块1006，下面对该装置进行说明。

第三获取模块1002，用于获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，多模态信息至少包括：人脸相似度和人体相似度；第三计算模块1004，连接于上述第三获取模块1002，用于基于人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；第三聚类模块1006，连接于上述第三计算模块1004，用于基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

此处需要说明的是，上述第三获取模块1002，第三计算模块1004和第三聚类模块1006，对应于实施例1中的步骤S402至步骤S406，多个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例一提供的计算机终端中。

实施例5

本发明的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行应用程序的目标对象的多模态信息的处理方法中以下步骤的程序代码：获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

可选地，图11是根据本发明实施例的一种计算机终端的结构框图。如图11所示，该计算机终端可以包括：一个或多个(图中仅示出一个)处理器111、存储器112、以及其他模块。

其中，存储器可用于存储软件程序以及模块，如本发明实施例中的目标对象的多模态信息的处理检测方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的目标对象的多模态信息的处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

可选的，上述处理器还可以执行如下步骤的程序代码：基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，包括：基于任意两个目标对象的多模态信息，提取任意两个目标对象的度量距离，其中，度量距离包括如下至少之一：欧式距离和空间距离；采集贝叶斯公式和条件独立等式，对任意两个目标对象的度量距离进行计算，得到任意两个目标对象之间的后验匹配概率。

可选的，上述处理器还可以执行如下步骤的程序代码：基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果包括：从多个目标对象中确定至少两个待聚类的目标对象，并统计待聚类的目标对象的数量，其中，待聚类的目标对象标记有聚类标签；基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果。

可选的，上述处理器还可以执行如下步骤的程序代码：基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果，包括：根据待聚类的目标对象的后验匹配概率，构建每个待聚类的目标对象的K近邻对象，并初始化每个待聚类的目标对象为单独的类别；遍历每个待聚类的目标对象，将每个待聚类的目标对象归类为原类别，并将对应的K近邻对象的所属类别里的最大似然概率损失函数归类为最低类别；如果遍历每个待聚类的目标对象结束，将归类后的结果汇总为聚类结果。

可选的，上述处理器还可以执行如下步骤的程序代码：构建每个待聚类的目标对象的K近邻对象，包括：按照每个待聚类的目标对象与其他目标对象之间的后验匹配概率，对每个待聚类的目标对象进行排序，提取后验匹配概率最大的K个对象作为K近邻对象。

可选的，上述处理器还可以执行如下步骤的程序代码：方法还包括：基于联合概率密度函数，对待聚类的目标对象的聚类标签进行分析，确定概率聚类的概率损失。

可选的，上述处理器还可以执行如下步骤的程序代码：方法还包括：如果目标对象的一个或多个模态下的模态信息存在数据缺失，基于聚类结果对存在数据损失的模态信息进行补充。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸模态和地理模态的情况，多模态信息至少包括：人脸相似度和空间距离；基于人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，多模态信息至少包括：人脸相似度和人体相似度；基于人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

本领域普通技术人员可以理解，图11所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如，计算机终端11还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图11所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的目标对象的多模态信息的处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取多个目标对象在多模态下的多模态信息，其中，多模态信息包括：任意一个目标对象在每种模态下的度量距离；基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于多模态信息，计算得到任意两个目标对象之间的后验匹配概率，包括：基于任意两个目标对象的多模态信息，提取任意两个目标对象的度量距离，其中，度量距离包括如下至少之一：欧式距离和空间距离；采集贝叶斯公式和条件独立等式，对任意两个目标对象的度量距离进行计算，得到任意两个目标对象之间的后验匹配概率。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果包括：从多个目标对象中确定至少两个待聚类的目标对象，并统计待聚类的目标对象的数量，其中，待聚类的目标对象标记有聚类标签；基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于待聚类的目标对象的后验匹配概率，对待聚类的目标对象进行概率聚类，生成聚类结果，包括：根据待聚类的目标对象的后验匹配概率，构建每个待聚类的目标对象的K近邻对象，并初始化每个待聚类的目标对象为单独的类别；遍历每个待聚类的目标对象，将每个待聚类的目标对象归类为原类别，并将对应的K近邻对象的所属类别里的最大似然概率损失函数归类为最低类别；如果遍历每个待聚类的目标对象结束，将归类后的结果汇总为聚类结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：构建每个待聚类的目标对象的K近邻对象，包括：按照每个待聚类的目标对象与其他目标对象之间的后验匹配概率，对每个待聚类的目标对象进行排序，提取后验匹配概率最大的K个对象作为K近邻对象。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：基于联合概率密度函数，对待聚类的目标对象的聚类标签进行分析，确定概率聚类的概率损失。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：如果目标对象的一个或多个模态下的模态信息存在数据缺失，基于聚类结果对存在数据损失的模态信息进行补充。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸模态和地理模态的情况，多模态信息至少包括：人脸相似度和空间距离；基于人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：方法还包括：获取多个目标对象在多模态下的多模态信息，其中，在多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，多模态信息至少包括：人脸相似度和人体相似度；基于人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，目标对象为待聚类的对象；基于任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种目标对象的多模态信息的处理方法，其特征在于，包括：

获取多个目标对象在多模态下的多模态信息，其中，所述多模态信息包括：任意一个目标对象在每种模态下的度量距离；

基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

2.根据权利要求1所述的方法，其特征在于，基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，包括：

基于任意两个目标对象的多模态信息，提取所述任意两个目标对象的度量距离，其中，所述度量距离包括如下至少之一：欧式距离和空间距离；

采集贝叶斯公式和条件独立等式，对所述任意两个目标对象的度量距离进行计算，得到所述任意两个目标对象之间的后验匹配概率。

3.根据权利要求1或2所述的方法，其特征在于，基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果包括：

从所述多个目标对象中确定至少两个待聚类的目标对象，并统计待聚类的目标对象的数量，其中，所述待聚类的目标对象标记有聚类标签；

基于所述待聚类的目标对象的后验匹配概率，对所述待聚类的目标对象进行概率聚类，生成所述聚类结果。

4.根据权利要求3所述的方法，其特征在于，基于所述待聚类的目标对象的后验匹配概率，对所述待聚类的目标对象进行概率聚类，生成所述聚类结果，包括：

根据所述待聚类的目标对象的后验匹配概率，构建每个待聚类的目标对象的K近邻对象，并初始化每个待聚类的目标对象为单独的类别；

遍历每个待聚类的目标对象，将每个待聚类的目标对象归类为原类别，并将对应的K近邻对象的所属类别里的最大似然概率损失函数归类为最低类别；

如果遍历每个待聚类的目标对象结束，将归类后的结果汇总为所述聚类结果。

5.根据权利要求4所述的方法，其特征在于，构建每个待聚类的目标对象的K近邻对象，包括：按照每个待聚类的目标对象与其他目标对象之间的后验匹配概率，对每个待聚类的目标对象进行排序，提取后验匹配概率最大的K个对象作为所述K近邻对象。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

基于联合概率密度函数，对所述待聚类的目标对象的聚类标签进行分析，确定所述概率聚类的概率损失。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：如果所述目标对象的一个或多个模态下的模态信息存在数据缺失，基于所述聚类结果对存在所述数据损失的模态信息进行补充。

8.一种目标对象的多模态信息的处理方法，其特征在于，包括：

获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸模态和地理模态的情况，所述多模态信息至少包括：人脸相似度和空间距离；

基于所述人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

9.一种目标对象的多模态信息的处理方法，其特征在于，包括：

获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，所述多模态信息至少包括：人脸相似度和人体相似度；

基于所述人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

10.一种目标对象的多模态信息的处理装置，其特征在于，包括：

第一获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，所述多模态信息包括：任意一个目标对象在每种模态下的度量距离；

第一计算模块，用于基于所述多模态信息，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

第一聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

11.一种目标对象的多模态信息的处理装置，其特征在于，包括：

第二获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸模态和地理模态的情况，所述多模态信息至少包括：人脸相似度和空间距离；

第二计算模块，用于基于所述人脸相似度和空间距离，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

第二聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

12.一种目标对象的多模态信息的处理装置，其特征在于，包括：

第三获取模块，用于获取多个目标对象在多模态下的多模态信息，其中，在所述多模态为任意一个目标对象的人脸特征模态和人体特征模态的情况，所述多模态信息至少包括：人脸相似度和人体相似度；

第三计算模块，用于基于所述人脸相似度和人体相似度，计算得到任意两个目标对象之间的后验匹配概率，其中，所述目标对象为待聚类的对象；

第三聚类模块，用于基于所述任意两个目标对象之间的后验匹配概率，对所有的目标对象进行多模态对象的聚类，生成聚类结果。

13.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至9中任意一项所述的目标对象的多模态信息的处理方法。

14.一种计算机设备，其特征在于，包括：存储器和处理器，

所述存储器存储有计算机程序；

所述处理器，用于执行所述存储器中存储的计算机程序，所述计算机程序运行时使得所述处理器执行权利要求1至9中任意一项所述的目标对象的多模态信息的处理方法。