CN112256899A

CN112256899A - 图像重排序方法、相关设备及计算机可读存储介质

Info

Publication number: CN112256899A
Application number: CN202011012034.4A
Authority: CN
Inventors: 郝磊; 许松岑; 李炜棉
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2021-01-22
Anticipated expiration: 2040-09-23
Also published as: CN114969417B; CN112256899B; CN114969417A

Abstract

本申请涉及人工智能领域中计算机视觉技术中的图像检索领域，提供了一种图像重排序方法、相关设备及计算机可读存储介质，该方法包括：获取待查询图像；提取待查询图像的图像特征，并根据图像特征在图像数据库中进行检索，得到初始检索结果；将初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；将第二图像特征重新映射到图像特征空间，将第二文本特征重新映射到文本特征空间，得到每张图像各自对应的融合图像特征和融合文本特征；基于每张图像各自对应的融合图像特征和/或融合文本特征对初始检索结果进行重排，得到最终检索结果。实施本申请，可以提高检索结果的准确性。

Description

图像重排序方法、相关设备及计算机可读存储介质

技术领域

本申请涉及图像检索领域，尤其涉及一种图像重排序方法、相关设备及计算机可读存储介质。

背景技术

简单的来说，图像重排序就是来用图像包含的特征信息对图像搜索引擎返回的结果进行重新排序，得到更加令用户满意的搜索结果。一般来说，图像的特征信息包括图像的文本特征和图像的视觉特征。每一种特征可以称之为一个模态。

目前，图像重排序算法可以分为三类：基于分类的图像重排序、基于聚类的图像重排序以及基于图模型的图像重排序。以基于分类的图像重排序为例，在基于分类的算法中，假设搜索引擎返回的搜索结果中，排名靠前的图像是与查询有关的，而排名靠后的图像与查询不相关。算法利用这些图像作为训练样本，训练一个二分类器来判定一副图像是否与查询相关，然后，利用图像分类概率作为图像的排序分数对图像进行重新排序。基于聚类的算法通过聚类来挖掘与查询相关或不相关图像的一些潜在的模式，然后，利用这些潜在的模式进行重新排序。基于图模型的算法将图像集合构造成一个图，图的节点是每幅图像，节点之间的边衡量图像的相似性。然后利用一些链接分析技术来进行图像排序。

上述图像排序算法通常只考虑图像单一模态，容易带来排序结果不准确的问题。因此，如何提高排序结果的准确性是亟需解决的技术问题。

发明内容

本申请提供了一种图像重排序方法、相关设备及计算机可读存储介质，可以提高检索结果的准确性。

第一方面，提供了一种图像重排序方法，该方法可以包括如下步骤：首先，获取待查询图像；其次，可以通过图像特征提取网络提取上述待查询图像的图像特征，并根据该图像特征在图像数据库中进行检索，得到初始检索结果；其中，初始检索结果可以包括N张图像；这N图像按特征相似度从高到低进行排列；且N张中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息的第一文本特征；N为大于0的整数；第一图像特征为处于图像特征空间中的特征；第一文本特征为处于文本特征空间中的特征；然后，将初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；这里，第二图像特征和第二文本特征与不同模态间的其他特征具有近邻关系；之后，将第二图像特征重新映射到上述图像特征空间，得到每张图像对应的融合图像特征；将第二文本特征映射重新映射到上述文本特征空间，得到每张图像各自对应的融合文本特征，例如，融合图像特征包括一部分图像特征(例如，第三图像特征)和一部分文本特征(例如，第三文本特征)，在融合图像特征中第三图像特征的占比高于第三文本特征的占比；融合文本特征包括一部分图像特征(例如，第四图像特征)和一部分文本特征(例如，第四文本特征)，在融合文本特征中第四文本特征的占比高于第四图像特征的占比；进一步地，上述融合图像特征的表现形态可以使得融合图像特征与同一模态内的其他图像特征具有近邻关系；上述融合文本特征的表现形态可以使得融合文本特征与同一模态内的其他文本特征具有近邻关系；最后，基于每张图像各自对应的融合图像特征和/或融合文本特征对初始检索结果进行重新排序，得到最终检索结果。

实施本申请实施例，由于获取的第二图像特征和第二文本特征在目标特征空间中考虑了模态间的近邻关系，获取的融合图像特征和融合文本特征在原空间中可以保持近邻关系，从而基于每张图像各自对应的融合图像特征和融合文本特征对初始检索结果进行重新排序时，可以提高检索结果的准确性。现有技术中，在用户对最终检索结果不满意的情况下，往往需要计算机设备进行多次检索，才能得到准确性高的检索结果，这一实现方式需要消耗设备大量的资源，例如，计算资源。本申请与现有技术相比，由于检索结果的准确性很高，无需计算机设备进行多次检索，可以减少计算机设备的资源消耗。

在一种可能的实现方式中，基于每张图像各自对应的融合图像特征和融合文本特征对初始检索结果进行重新排序的实现过程可以包括：首先，在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离，这里，N+1张图像包括待查询图像和初始检索结果中的N张图像；然后，基于确定好的距离确定N+1张图像中每张图像各自对应的K互近邻关系，K互近邻关系用于表征图像a为图像b的K近邻且图像b也为图像a的K近邻；之后，根据K互近邻关系计算待查询图像与初始检索结果中每张图像之间的杰卡德Jaccard距离；其中，杰卡德距离是用来衡量两个集合差异性的一种指标，它是杰卡德相似系数的补集，被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccardsimilarity coefficient)，也称杰卡德指数(Jaccard Index)，是用来衡量两个集合相似度的一种指标。最后，根据Jaccard距离对初始检索结果进行重新排序。实施本申请实施例，对每张图像来说，均包含对应的融合图像特征和融合文本特征，融合图像特征和融合文本特征是对同一副图像所包含的内容的呈现，在确定两两图像之间的距离时，可以根据两两图像各自包含的融合图像特征和融合文本特征来确定，从而可以基于确定的距离对初始检索结果进行重新排序，可以提高排序结果的准确性，避免最终检索结果中出现不理想的检索结果。

在一种可能的实现方式中，针对N+1张图像中的第i图像和第j图像；其中，第i图像包括融合图像特征X和融合文本特征Y；第j图像包括融合图像特征P和融合文本特征Q；根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离的实现过程可以包括：首先，根据融合图像特征X和融合图像特征P确定第一距离；根据融合文本特征Y和融合文本特征Q确定第二距离；根据融合图像特征X和融合文本特征Q确定第三距离；根据融合文本特征Y和融合图像特征P确定第四距离；然后，根据第一距离、第二距离、第三距离和第四距离确定第i图像与第j图像之间的距离。

在一种可能的实现方式，第一距离和第二距离用于表征第i图像与第j图像在同一模态内的距离；第三距离和第四距离用于表征第i图像和第j图像在不同模态间的距离。这一实现方式，由于在确定两两图像之间的距离时，充分考虑了两两图像在同一模态内的距离以及两两图像在不同模态间的距离，相较于现有技术而言，可以提高检索结果的准确性，此外，可以避免计算机设备进行多次检索，从而可以减少计算机设备的资源消耗。

在一种可能的实现方式中，基于每张图像各自对应的融合图像特征对初始检索结果进行重新排序的实现过程可以包括：首先，依次获取待查询图像对应的融合图像特征与初始检索结果中每张图像各自对应的融合图像特征之间的相似度；其次，根据确定好的相似度对初始检索结果进行重新排序。实施本申请实施例，可以根据待查询图像对应的融合图像特征与初始检索结果中每张图像各自对应的融合图像特征之间的相似度对初始检索结果进行重新排序，可以提高排序结果的准确性，避免最终检索结果中出现不理想的检索结果。

在一种可能的实现方式中，基于每张图像各自对应的融合文本特征对初始检索结果进行重新排序的实现过程可以包括：首先，依次获取待查询图像对应的融合文本特征与初始检索结果中每张图像各自对应的融合文本特征之间的相似度；然后，根据确定好的相似度对初始检索结果进行重新排序。实施本申请实施例，可以根据待查询图像对应的融合文本特征与初始检索结果中每张图像各自对应的融合文本特征之间的相似度对初始检索结果进行重新排序，可以提高排序结果的准确性，避免最终检索结果中出现不理想的检索结果。

在一种可能的实现方式中，在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离之前，该方法还可以包括如下步骤：将初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到待查询图像对应的融合文本特征；L为大于0且小于N的整数。在本申请中，对待查询图像来说，待查询图像只有对应的图像特征，没有对应的文本特征，通过这一实现方式，将初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，可以获取到待查询图像的文本特征，为后续计算两两图像之间的距离提供了便利。

第二方面，本申请实施例提供了一种图像重排序装置，该装置可以包括：获取图像单元，用于获取待查询图像；第一检索单元，用于提取待查询图像的图像特征，并根据图像特征在图像数据库中进行检索，得到初始检索结果；其中，初始检索结果包含N张图像；N张图像按特征相似度从高到低进行排列；所述N张图像中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息的第一文本特征；所述N为大于0的整数；所述第一图像特征为处于图像特征空间中的特征；所述第一文本特征为处于文本特征空间中的特征；第一特征映射单元，用于将初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；第二特征映射单元，用于将所述第二图像特征重新映射到所述图像特征空间，得到每张图像各自对应的融合图像特征；将所述第二文本特征重新映射到所述文本特征空间，得到每张图像各自对应的融合文本特征；融合图像特征与同一模态内的其他图像特征具有近邻关系；融合文本特征与同一模态内的其他文本特征具有近邻关系；一种特征类型用于表征一种模态；第二检索单元，用于基于每张图像各自对应的融合图像特征和/或融合文本特征对初始检索结果进行重新排序，得到最终检索结果。

在一种可能的实现方式中，所述融合图像特征包括第三图像特征和第三文本特征，在所述融合图像特征中，所述第三图像特征的占比高于所述第三文本特征的占比；所述融合文本特征包含第四图像特征和第四文本特征，在所述融合文本特征中，所述第四文本特征的占比高于所述第四图像特征的占比。

在一种可能的实现方式中，第二检索单元包括距离计算单元和重排序单元，其中，距离计算单元，用于在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离；N+1张图像包括待查询图像和初始检索结果中的N张图像；重排序单元，用于基于确定好的所述距离确定所述N+1张图像中每张图像各自对应的K互近邻关系，所述K互近邻关系用于表征图像a为图像b的K近邻且所述图像b也为所述图像a的K近邻；根据所述K互近邻关系计算所述待查询图像与所述初始检索结果中每张图像之间的杰卡德Jaccard距离；根据所述Jaccard距离对所述初始检索结果进行重新排序。

在一种可能的实现方式中，针对N+1张图像中的第i图像和第j图像；其中，第i图像包括融合图像特征X和融合文本特征Y；第j图像包括融合图像特征P和融合文本特征Q；距离计算单元具体用于：根据融合图像特征X和融合图像特征P确定第一距离；根据融合文本特征Y和融合文本特征Q确定第二距离；根据融合图像特征X和融合文本特征Q确定第三距离；根据融合文本特征Y和融合图像特征P确定第四距离；根据第一距离、第二距离、第三距离和第四距离确定第i图像与第j图像之间的距离。

在一种可能的实现方式中，所述第一距离和所述第二距离用于表征所述第i图像与所述第j图像在同一模态内的距离；所述第三距离和所述第四距离用于表征所述第i图像和所述第j图像在不同模态间的距离。

在一种可能的实现方式中，第二检索单元包括特征相似度计算单元和重排序单元，其中，特征相似度计算单元，用于依次获取待查询图像对应的融合图像特征与初始检索结果中每张图像各自对应的融合图像特征之间的相似度；重排序单元，用于根据确定好的相似度对初始检索结果进行重新排序。

在一种可能的实现方式中，第二检索单元包括特征相似度计算单元和重排序单元，其中，特征相似度计算单元，用于依次获取待查询图像对应的融合文本特征与初始检索结果中每张图像各自对应的融合文本特征之间的相似度；重排序单元，用于根据确定好的相似度对初始检索结果进行重新排序。

在一种可能的实现方式中，装置还包括：特征提取单元，用于将初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到待查询图像对应的融合文本特征；L为大于0且小于N的整数。

第三方面，本申请实施例还提供一种图像重排序设备，该图像重排序设备可以包括存储器和处理器，所述存储器用于存储支持设备执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

第五方面，本申请实施例还提供了一种计算机程序，所述计算机程序包括计算机软件指令，所述计算机软件指令当被计算机执行时使所述计算机执行如第一方面所述的任一种协同工作方法。

附图说明

图1a为本申请实施例提供的一种第一应用场景的示意图；

图1b为本申请实施例提供的一种第二应用场景的示意图；

图2a为本申请实施例提供的一种多模态融合模型20的结构示意图；

图2b为本申请实施例提供的一种Resnet50模型的结构示意图；

图3a为本申请实施例提供的一种图像重排序方法的流程示意图；

图3b为本申请实施例提供的一种获取初始检索结果的示意图；

图3c为本申请实施例提供的一种获取最终检索结果的示意图；

图3d为本申请实施例提供的一种检索示意图；

图4为本申请实施例提供的一种图像重排序装置40的结构示意图；

图5为本申请实施例提供的一种图像重排序设备50的结构示意图。

具体实施方式

下面结合附图对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区分不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一些列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。需要说明的是，本申请实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方法不应被解释为比其他实施例或设计方案更优地或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。在本申请实施例中，“A和/或B”表示A和B，A或B两个含义。“A，和/或B，和/或C”表示A、B、C中的任一个，或者，表示A、B、C中的任两个，或者，表示A和B和C。

为了便于更好的理解本申请描述的技术方案，下面先解释本申请实施例所涉及的相关术语：

(1)相同物体图像检索

在本申请实施例中，相同物体图像检索，是指查询图像中的某一物体，从图像数据库中找出包含该物体的图像。例如，给定一副“蒙娜丽莎”的图像，相同物体图像检索的目标是从图像数据库中检索出包含有“蒙娜丽莎”人物的图像。具体地，在经过相似性度量排序后这些包含有“蒙娜丽莎”人物的图像尽可能的排在检索结果的前面。

(2)相同类别图像检索

在本申请实施例中，相同类别图像检索，又称相似物体图像检索，是指从图像数据库中查找出与给定查询图像属于同一个类别的图像。

(3)图像重排序

在本申请实施例中，图像重排序就是来用图像包含的特征信息对图像搜索引擎返回的结果进行重新排序，得到更加令用户满意的搜索结果。

为了便于更好的理解本申请，下面介绍几个本申请所描述的方法可以应用的应用场景：

第一应用场景：相似图像检索

如图1a所示，电子设备的显示界面上显示有多个应用程序，当用户针对“浏览器”应用程序201执行了一次触控操作(例如，点击操作、按压操作、滑动操作等)，电子设备显示浏览器应用程序201的搜索框(例如，如图1a中b部分所示)。用户在浏览器应用程序的搜索框中输入了“蒙娜丽莎图像”，电子设备在图像数据库中根据特征相似度检索出包含有“蒙娜丽莎”人物的图像，得到初始检索结果。由于初始检索结果中的每张图像往往都包含有第一图像特征和第一文本特征，通过本申请描述的方法，通过多模态融合模型20可以获得每张图像对应的融合图像特征和融合文本特征，其中，融合图像特征包括第三图像特征和第三文本特征，在该融合图像特征中第三图像特征的占比高于第三文本特征的占比，从而可以使得融合图像特征与同一模态内的其他图像特征具有近邻关系；融合文本特征包括第四图像特征和第四文本特征，在该融合文本特征中第四文本特征的占比高于第四图像特征的占比，从而可以使得融合文本特征与同一模态内的其他文本特征具有近邻关系。之后，基于图像融合特征和/或融合文本特征对初始检索结果进行重新排序，返回更符合用户预期的最终检索结果，例如，如图1a中c部分所示的蒙娜丽莎图像。

第二应用场景：商品检索

如图1b所示，电子设备的显示界面上显示多个应用程序，用户打开照相机(例如，如图1b中a部分所示，用户对照相机应用程序执行了一次触控操作)，通过照相机对目标物品(例如，华为手机nova7)进行拍照(例如，如图1b中b部分所示)，以根据目标物品进行检索。电子设备根据特征相似度检索出与目标物品相似的商品，得到初始检索结果。由于初始检索结果中的每张图像往往都包含有第一图像特征和第一文本特征，通过本申请描述的方法，通过多模态融合模型20可以获得每张图像对应的融合图像特征和融合文本特征，其中，融合图像特征包括第三图像特征和第三文本特征，在该融合图像特征中第三图像特征的占比高于第三文本特征的占比，从而可以使得融合图像特征与同一模态内的其他图像特征具有近邻关系；融合文本特征包括第四图像特征和第四文本特征，在该融合文本特征中第四文本特征的占比高于第四图像特征的占比，从而可以使得融合文本特征与同一模态内的其他文本特征具有近邻关系。之后，基于图像融合特征和/或融合文本特征对初始检索结果进行重新排序，返回更符合用户预期的最终检索结果，例如，如图1b中c部分所示手机商品的链接。

下面相详细描述本申请涉及的多模态融合模型的具体结构。如图2a所示，多模态融合模型20包括图像特征提取网络210、文本特征提取网络220、编码器230、图像特征解码器240和文本特征解码器250。

其中，图像特征提取网络210用于提取输入图像的图像特征，得到第一图像特征；其中，第一图像特征为处于图像特征空间中的特征；文本特征提取网络220用于提取输入文本的文本特征，得到第一文本特征；其中，第一文本特征为处于文本特征空间中的特征。然后，将上述第一图像特征和第一文本特征输入至同一个编码器230中。编码器230用于将上述第一图像特征和第一文本特征映射到同一个目标特征空间中，分别得到第二图像特征和第二文本特征。示例性地，编码器230为参数共享的结构。之后，通过图像特征解码器240将第二图像特征重新映射到图像特征空间中，得到融合图像特征；其中，融合图像特征包括第三图像特征和第三文本特征，在该融合图像特征中第三图像特征的占比高于第三文本特征的占比，从而可以使得融合图像特征与同一模态内的其他图像特征具有近邻关系。通过文本特征解码器250将第二文本特征重新映射到文本特征空间中，得到融合文本特征；其中，融合文本特征包括第四图像特征和第四文本特征，在该融合文本特征中第四文本特征的占比高于第四图像特征的占比，从而可以使得融合文本特征与同一模态内的其他文本特征具有近邻关系。这里，图像特征解码器240和文本特征解码器250均为全连接层结构。通过多模态融合模型20模型获取到的融合图像特征和/或融合文本特征可以用来对初始检索结果进行重新排序，以得到最终检索结果。

示例性地，图像特征提取网络210可以为Resnet50模型，文本特征提取网络220可以为Word2Vec模型。下面分别对其进行阐述：

(1)Resnet50模型

具体来说，Resnet50模型可以基于卷积神经网络构建，包含多个卷积层和多个池化层。如图2b所示，Resnet50模型可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素，这取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。不同的权重矩阵可以用来提取图像中不同的特征，例如一个权重矩阵用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪点进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络进行正确的预测。

当卷积神经网络有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层，在如图2b中所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。

具体来说，池化层，用于对数据进行采样，降低数据的数量。例如，以数据为图像数据为例，在图像处理过程中，通过池化层，可以减少图像的空间大小。一般情况下，池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

(2)Word2Vec模型

具体来说，Word2Vec模型，是一群用来产生词向量的相关模型。训练完成之后，Word2Vec模型可以用来映射每个词到一个向量，可用来表示词对词之间的关系，该向量为神经网络中的隐藏层。

需要说明的是，上述描述的多模态融合模型20仅作为一种示例，在具体的应用中，多模态融合模型20还可以以其他网络模型的形式存在，此处不多加限定。

下面详细描述本申请实施例涉及的方法。图3a为本申请实施例提供的一种图像重排序方法的流程示意图，该方法可以在计算机设备中实现，该方法可以包括但不限于如下步骤：

步骤S301、获取待查询图像。

在本申请实施例中，用户可以向计算机设备上传一个待查询图像，计算机设备可以获取到该待查询图像。需要说明的是，待查询图像可以是单个图像，也可以是从一段视频中提取的一个视频帧等。

步骤S302、提取待查询图像的图像特征，并根据图像特征在图像数据库中进行检索，得到初始检索结果；其中，初始检索结果包含N张图像；N张图像按特征相似度从高到低进行排列；N张图像中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息(例如，文字)的第一文本特征；N为大于0的整数。

在本申请实施例中，在计算机设备中可以预先建立一个图像数据库，在图像数据库中存储有大量的样本图像和每个样本图像对应的结构信息(例如，第一图像特征和第一文本特征)。例如，可以从benchmark(基准点)图片库的COREL中选取由十大类主题构成的1000张图像作为样本图像。通过样本图像和每个样本图像的结构信息，可以将大量的样本图像组建成一个有组织、结构化的图像数据库。

在本申请实施例中，在构建上述图像数据库时，可以通过图像特征提取网络210提取图像的图像特征，得到第一图像特征；可以通过文本特征提取网络220提取图像中的文本特征，得到第一文本特征。

当计算机设备获取到用户输入的待查询图像之后，如图3b所示，可以提取该待查询图像的图像特征，并分别计算该图像特征与图像数据库中每个图像各自对应的第一图像特征之间的相似度，从而可以根据特征相似度得到初始检索结果。在该初始检索结果中包含有N张图像，这N张图像按特征相似度从高到低进行排列。这里，N为大于0的整数。那么，在得到初始检索结果之后，如图3c所示，可以对上述初始检索结果做进一步地处理，以得到最终的检索结果。需要说明的是，上述第一图像特征为处于图像特征空间中的特征；上述第一文本特征为处于文本特征空间中的特征。

步骤S303、将初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征。

在本申请实施例中，可以通过编码器230将初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征。

如前所述，对图像S来说，其包含第一图像特征i和第一文本特征c(也就是说，对一个图像来说，第一图像特征i和第一文本特征c为该图像内容的呈现)，采用余弦距离计算第一图像特征i和第一文本特征c之间的相似度s(i,c)，这也意味着，对图像S来说，除上述第一图像特征i和第一文本特征c之外，在图像数据库中还存在着有非对应的图像特征以及非对应的文本特征。

为了保证第一图像特征和第一文本特征之间的相似性，在编码器230中采用损失函数进行约束，该损失函数可以表示为：

其中，s(i,c)表示第一图像特征i与对应的第一文本特征c之间的余弦相似度，s(i,c^～)表示第一图像特征i与非对应的第一文本特征c之间的余弦相似度，s(i^～,c)表示非对应的第一图像特征i与第一文本特征c之间的余弦相似度。

在该损失函数中，采用了三元组损失方法，通过增大匹配的第一图像特征i与对应的第一文本特征c之间的相似性，缩小不匹配的第一图像特征i与非对应第一文本特征c之间的相似性以及缩小不匹配的非对应第一图像特征i与第一文本特征c之间的相似性，来约束第一图像特征i与第一文本特征c之间的一致性。

由于上述约束，可以使得第二图像特征与不同模态间的其他特征保持近邻关系，还可以使得第二文本特征与不同模态间的其他特征保持近邻关系。

步骤S304、将第二图像特征重新映射到图像特征空间，得到每张图像各自对应的融合图像特征；将第二文本特征重新映射到文本特征空间，得到每张图像各自对应的融合文本特征；融合图像特征与同一模态内的其他图像特征保持近邻关系；融合文本特征与同一模态内的其他文本特征保持近邻关系。

在本申请实施例中，为了使得输出的融合图像特征和融合文本特征能够融合多模态的信息，在图像特征解码器240以及文本特征解码器250中使用均方误差(Mean-SquareError,MSE)损失函数进行约束，具体地，该损失函数可以表示为：

S^～＝βS_i+(1-β)S_c,β∈[0,1]

L＝mse_loss(S^～,output)

其中，β表示权重系数，S_i表示原空间中的图像特征，S_c表示原空间中的文本特征；在图像特征解码器240中，output为图像特征解码器240的输出；在文本特征解码器250中，output为文本特征解码器250的输出。

在本申请实施例中，通过图像特征解码器240将第二图像特征重新映射到图像特征空间中，得到融合图像特征；其中，融合图像特征包括第三图像特征和第三文本特征，在该融合图像特征中第三图像特征的占比高于第三文本特征的占比，从而可以使得融合图像特征与同一模态内的其他图像特征具有近邻关系。通过文本特征解码器250将第二文本特征映射到原先的特征空间中，得到融合文本特征；其中，融合文本特征包括第四图像特征和第四文本特征，在该融合文本特征中第四文本特征的占比高于第四图像特征的占比，从而可以使得融合文本特征与同一模态内的其他文本特征具有近邻关系。

在本申请中，一种特征类型用于表征一种模态。例如，图像的融合图像特征代表了图像的一种模态。又例如，图像的融合文本特征代表了图像的一种模态。

步骤S305、基于每张图像各自对应的融合图像特征和/或融合文本特征对初始检索结果进行重新排序，得到最终检索结果。

在一些实施例中，基于每张图像各自对应的融合图像特征对初始检索结果进行重新排序，得到最终检索结果的实现过程可以包括：首先，依次获取待查询图像与初始检索结果中每张图像之间的融合图像特征相似度；然后，根据确定好的融合图像特征相似度对初始检索结果进行重新排序，得到最终检索结果。例如，初始检索结果中包含5张图像，分别为图像1、图像2、图像3、图像4和图像5，其中，待查询图像对应的融合图像特征与图像1对应的融合图像特征之间的相似度为0.8，待查询图像对应的融合图像特征与图像2对应的融合图像特征之间的相似度为0.5，待查询图像对应的融合图像特征与图像3对应的融合图像特征之间的相似度为0.9，待查询图像对应的融合图像特征与图像4对应的融合图像特征之间的相似度为0.85，待查询图像对应的融合图像特征与图像5对应的融合图像特征之间的相似度为0.7，在这种情况下，根据确定好的融合图像特征相似度对初始检索结果进行重新排序，重新排序得到的最终检索结果可以为：图像3、图像4、图像1、图5和图像2。

在一些实施例中，基于每张图像各自对应的融合文本特征对初始检索结果进行重新排序，得到最终检索结果的实现过程可以包括：首先，依次获取待查询图像与初始检索结果中每张图像之间的融合文本特征相似度；然后，根据确定好的融合文本特征相似度对初始检索结果进行重新排序，得到最终检索结果。例如，初始检索结果中包含5张图像，分别为图像1、图像2、图像3、图像4和图像5，其中，待查询图像对应的融合文本特征与图像1对应的融合文本特征之间的相似度为0.8，待查询图像对应的融合文本特征与图像2对应的融合文本特征之间的相似度为0.85，待查询图像对应的融合文本特征与图像3对应的融合文本特征之间的相似度为0.9，待查询图像对应的融合文本特征与图像4对应的融合文本特征之间的相似度为0.75，待查询图像对应的融合文本特征与图像5对应的融合文本特征之间的相似度为0.7，在这种情况下，根据确定好的融合文本特征相似度对初始检索结果进行重新排序，重新排序得到的最终检索结果可以为：图像3、图像2、图像1、图4和图像5。

在一些实施例中，基于每张图像各自对应的融合图像特征和融合文本特征进行重新排序，得到最终检索结果的实现过程可以包括：首先，在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离，这里，N+1张图像包括待查询图像和初始检索结果中的N张图像，例如，针对N+1张图像中的第i图像和第j图像；其中，第i图像包括融合图像特征X和融合文本特征Y；第j图像包括融合图像特征P和融合文本特征Q；在计算第i图像和第j图像之间的距离时，首先，根据融合图像特征X和融合图像特征P确定第一距离；根据融合文本特征Y和融合文本特征Q确定第二距离；根据融合图像特征X和融合文本特征Q确定第三距离；根据融合文本特征Y和融合图像特征P确定第四距离；然后，根据第一距离、第二距离、第三距离和第四距离确定第i图像与第j图像之间的距离。

具体地，可以根据第一公式计算第i图像和第j图像之间的距离：

D(i,j)＝w*d1+w*d2+(1-w)*d3+(1-w)*d4

其中，w是权重系数，d1表示第i图像的融合图像特征X和第j图像的融合图像特征P之间的距离，用于表征第i图像与所述第j图像在同一模态内的距离(该距离可以反映第i图像与第j图像的在同一模态内的相似性)；d2表示第i图像的融合文本特征Y和第j图像融合文本特征Q之间的距离，用于表征第i图像与所述第j图像在同一模态内的距离(该距离可以反映第i图像与第j图像在同一模态内的相似性)；d3表示第i图像的融合图像特征X与第j图像融合文本特征Q之间的距离，用于表征第i图像与所述第j图像在不同模态间的距离(该距离可以反映第i图像与第j图像在不同模态间的相似性)；d4表示第i图像的融合文本特征Y与第j图像的融合图像特征P之间的距离，用于表征第i图像与所述第j图像在不同模态间的距离(该距离可以反映第i图像与第j图像在不同模态间的相似性)。

然后，基于上述确定好的距离对初始检索结果进行重新排序。

通过该方法，可以得到待查询图像分别与初始检索结果中每张图像之间的距离，例如，初始检索结果中包含5张图像，分别为图像1、图像2、图像3、图像4和图像5，其中，待查询图像与图像1之间的距离为0.7，待查询图像与图像2之间的距离为0.8，待查询图像与图像3之间的距离为0.85，待查询图像与图像4之间的距离为0.6，待查询图像与图像5之间的距离为0.4。那么，在这种情况下，可以根据待查询图像与初始检索结果中每张图像之间的距离进行重新排序，重新排序得到的最终检索结果可以为：图像3、图像2、图像1、图4和图像5。

可以理解的是，通过该方法，除了可以得到待查询图像与初始检索结果中每张图像之间的距离之外，还可以得到初始检索结果中任意两两图像之间的距离，例如，初始检索结果中包括图像1和图像2。通过本申请描述的方法，对待查询图像来说，可以得到待查询图像与图像1之间的距离，待查询图像与图像2之间的距离；对图像1来说，可以得到待查询图像与图像1之间的距离，图像1与图像2之间的距离；对图像2来说，可以得到待查询图像与图像2之间的距离，图像1与图像2之间的距离。那么，在这种情况下，基于确定好的距离可以确定N+1张图像中每张图像各自对应的K互近邻关系，该K互近邻关系用于表征图像a为图像b的K近邻且图像b也为图像a的K近邻；之后，根据K互近邻关系计算待查询图像与初始检索结果中每张图像之间的杰卡德Jaccard距离。例如，在N+1张图像中，对图像两两间的关系进行编码，该编码方式可以如下所示：

其中，d(p，g_i)表示图像p与图像g_i之间的距离。

在通过上述编码方式对图像进行编码之后，根据如下公式计算待查询图像与初始检索结果中每张图像之间的Jaccard距离，例如，该公式可以表示为：

其中，d_J(p,g_i)表示图像p与图像g_i之间的Jaccard距离；

表示图像p与图像g_i之间的距离；

表示图像g_j与图像g_i之间的距离。

具体来说，杰卡德距离是用来衡量两个集合差异性的一种指标，它是杰卡德相似系数的补集，被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similaritycoefficient)，也称杰卡德指数(Jaccard Index)，是用来衡量两个集合相似度的一种指标。

那么，在得到Jaccard距离之后，可以根据Jaccard距离对初始检索结果进行重新排序。例如，初始检索结果中包含5张图像，分别为图像1、图像2、图像3、图像4和图像5，其中，待查询图像与图像1之间的Jaccard距离为0.8，待查询图像与图像2之间的Jaccard距离为0.85，待查询图像与图像2之间的Jaccard距离为0.9，待查询图像与图像2之间的Jaccard距离为0.75，待查询图像与图像2之间的Jaccard距离为0.7，在这种情况下，根据确定好的Jaccard距离对初始检索结果进行重新排序，重新排序得到的最终检索结果可以为：图像3、图像2、图像1、图4和图像5。如图3d所示，当通过待查询图像的图像特征在图像数据库中进行检索时，得到的初始检索结果中包含多个不满足要求的图像(例如，图示中红色框标记的图像)，通过本申请描述的方法，对上述初始检索结果进行重新排序，可以剔除上述不满足要求的图像，得到满足用户预期的最终检索结果。

需要说明的是，在N+1张图像中，对初始检索结果中的N张图像来说，通过多模态融合模型20可以获取到初始检索结果中每张图像各自对应的融合图像特征和融合文本特征；对待查询图像来说，可以通过多模态融合模型20中的图像特征提取网络210提取待查询图像对应的图像特征，进而得到相应的融合图像特征，也即：在这个过程中，并未获取到待查询图像对应的融合文本特征。现有技术中，可以提取待查询图像的文本特征，并将提取到的文本特征作为待查询图像对应的融合文本特征，这一实现方式容易带来降低最终检索结果的准确性的问题。基于此，相较于上述现有技术而言，本申请还提供了一种确定待查询图像的融合文本特征的方法，具体地，计算机设备可以将初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到待查询图像对应的融合文本特征，其中，L为大于0小于N的整数。例如，L＝3；又例如，L＝2。通过这一实现方式，可以提高最终检索结果的准确性。

为了更好的说明本申请提出的方法可以提高最终检索结果的准确性，分别获取现有模型(该模型利用图像特征单一模态数据进行重排序)与本申请提出的多模态融合模型20在公开数据集NUS-WIDE上的测试结果，例如，该测试结果可以如表1所示：

模型	测试结果
		现有模型	77.45％
多模态融合模型	79.24％

表1

由表1可以知道的是，多模态融合模型的测试结果要优于现有模型。

实施本申请实施例，由于获取的第二图像特征和第二文本特征在目标特征空间中考虑了模态间的近邻关系，获取的融合图像特征和融合文本特征在原空间中可以保持近邻关系，从而基于每张图像各自对应的融合图像特征和融合文本特征对初始检索结果进行重新排序时，可以提高检索结果的准确性。现有技术中，在用户对最终检索结果不满意的情况下，往往需要计算机设备进行多次检索，才能得到准确性高的检索结果，这一实现方式需要消耗设备大量的资源，例如，计算资源。再者，本申请与现有技术相比，由于检索结果的准确性跟高，无需计算机设备进行多次检索，可以减少计算机设备的资源消耗。

上文图1a-图3d详细描述了本申请实施例涉及的图像重排序方法，下面结合附图介绍本申请实施例涉及的装置。

图4为本申请实施例中一种图像重排序装置40的结构示意图。图4所示的图像重排序装置40可以包括：

获取图像单元400，用于获取待查询图像；

第一检索单元402，用于提取所述待查询图像的图像特征，并根据所述图像特征在图像数据库中进行检索，得到初始检索结果；其中，所述初始检索结果包含N张图像；所述N张图像按特征相似度从高到低进行排列；所述N张图像中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息的第一文本特征；所述N为大于0的整数；所述第一图像特征为处于图像特征空间中的特征；所述第一文本特征为处于文本特征空间中的特征；

第一特征映射单元404，用于将所述初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；

第二特征映射单元406，用于将所述第二图像特征重新映射到所述图像特征空间，得到每张图像各自对应的融合图像特征；将所述第二文本特征重新映射到所述文本特征空间，得到每张图像各自对应的融合文本特征；所述融合图像特征与同一模态内的其他图像特征具有近邻关系；所述融合文本特征与同一模态内的其他文本特征具有近邻关系；一种特征类型用于表征一种模态；

第二检索单元408，用于基于所述每张图像各自对应的融合图像特征和/或融合文本特征对所述初始检索结果进行重新排序，得到最终检索结果。

在一种可能的实现方式中，所述第二检索单元408包括距离计算单元4081和重排序单元4082，其中，

所述距离计算单元4081，用于在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离；所述N+1张图像包括所述待查询图像和所述初始检索结果中的N张图像；

所述重排序单元4082，用于基于确定好的所述距离确定所述N+1张图像中每张图像各自对应的K互近邻关系，所述K互近邻关系用于表征图像a为图像b的K近邻且所述图像b也为所述图像a的K近邻；根据所述K互近邻关系计算所述待查询图像与所述初始检索结果中每张图像之间的杰卡德Jaccard距离；根据所述Jaccard距离对所述初始检索结果进行重新排序。

在一种可能的实现方式中，针对所述N+1张图像中的第i图像和第j图像；其中，所述第i图像包括融合图像特征X和融合文本特征Y；所述第j图像包括融合图像特征P和融合文本特征Q；所述距离计算单元4081具体用于：

根据所述融合图像特征X和所述融合图像特征P确定第一距离；

根据所述融合文本特征Y和所述融合文本特征Q确定第二距离；

根据所述融合图像特征X和所述融合文本特征Q确定第三距离；

根据所述融合文本特征Y和所述融合图像特征P确定第四距离；

根据所述第一距离、所述第二距离、所述第三距离和所述第四距离确定所述第i图像与所述第j图像之间的距离。

在一种可能的实现方式中，所述第二检索单元408包括特征相似度计算单元和重排序单元，其中，

所述特征相似度计算单元，用于依次获取待查询图像对应的融合图像特征与初始检索结果中每张图像各自对应的融合图像特征之间的相似度；

所述重排序单元，用于根据确定好的所述相似度对初始检索结果进行重新排序。

所述特征相似度计算单元，用于依次获取待查询图像对应的融合文本特征与初始检索结果中每张图像各自对应的融合文本特征之间的相似度；

在一种可能的实现方式中，所述装置还可以包括：

特征提取单元4010，用于将所述初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到所述待查询图像对应的融合文本特征；所述L为大于0且小于N的整数。

本申请实施例中，各个的单元的具体实现可以参见上述实施例中的相关描述，此处不再赘述。

如图5所示，本申请实施例提供的一种图像重排序设备50，该图像重排序设备可以包括处理器501、存储器502、通信总线503和通信接口504，处理器501通过通信总线连接存储器502和通信接口503。

处理器501可以采用通用的中央处理器(Central Processing Unit，CPU)，微处理器，应用专用集成电路(Application Specific Integrated Circuit，ASIC)，图形处理器(Graphics Processing Unit，GPU)、神经网络处理器(Network Processing Unit，NPU)或者一个或多个集成电路，用于执行相关程序，以执行本申请方法实施例的所描述的图像重排序方法。

处理器501还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的图像重排序方法的各个步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501还可以是通用处理器、数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field ProgrammableGate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器501，处理器501读取存储器502中的信息，结合其硬件执行本申请方法实施例的图像重排序方法。

存储器502可以是只读存储器(Read Only Memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(Random Access Memory，RAM)。存储器502可以存储程序和数据，例如本申请实施例中图像重排序方法的程序等。当存储器501中存储的程序被处理器502执行时，处理器501和通信接口504用于执行本申请实施例的图像重排序方法的各个步骤。

例如，本申请实施例中用于实现本申请实施例中图像重排序方法的程序等。

通信接口504使用例如但不限于收发器一类的收发装置，来实现图像重排序设备500与其他设备或通信网络之间的通信。

可选地，该图像重排序设备还可以包括人工智能处理器505，人工智能处理器505可以是神经网络处理器(Network Processing Unit，NPU)，张量处理器(TensorProcessing Unit，TPU)，或者图形处理器(Graphics Processing Unit，GPU)等一切适合用于大规模异或运算处理的处理器。人工智能处理器505可以作为协处理器挂载到主CPU(Host CPU)上，由主CPU为其分配任务。人工智能处理器505可以实现上述图像重排序方法中涉及的一种或多种运算。例如，以NPU为例，NPU的核心部分为运算电路，通过控制器控制运算电路提取存储器502中的矩阵数据并进行乘加运算。

处理器501用于调用存储器中的数据和程序代码，执行：

获取待查询图像；

提取所述待查询图像的图像特征，并根据所述图像特征在图像数据库中进行检索，得到初始检索结果；其中，所述初始检索结果包含N张图像；所述N张图像按特征相似度从高到低进行排列；所述N张图像中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息的第一文本特征；所述N为大于0的整数；所述第一图像特征为处于图像特征空间中的特征；所述第一文本特征为处于文本特征空间中的特征；

将所述初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；

将所述第二图像特征重新映射到所述图像特征空间，得到每张图像各自对应的融合图像特征；将所述第二文本特征重新映射到所述文本特征空间，得到每张图像各自对应的融合文本特征；所述融合图像特征与同一模态内的其他图像特征具有近邻关系；所述融合文本特征与同一模态内的其他文本特征具有近邻关系；一种特征类型用于表征一种模态；

基于所述每张图像各自对应的融合图像特征和/或融合文本特征对所述初始检索结果进行重新排序，得到最终检索结果。

其中，所述融合图像特征包括第三图像特征和第三文本特征，在所述融合图像特征中，所述第三图像特征的占比高于所述第三文本特征的占比；所述融合文本特征包含第四图像特征和第四文本特征，在所述融合文本特征中，所述第四文本特征的占比高于所述第四图像特征的占比。

其中，所述处理器501所述每张图像各自对应的融合图像特征和融合文本特征对所述初始检索结果进行重新排序，可以包括：

在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离；所述N+1张图像包括所述待查询图像和所述初始检索结果中的N张图像；

基于确定好的所述距离确定所述N+1张图像中每张图像各自对应的K互近邻关系，所述K互近邻关系用于表征图像a为图像b的K近邻且所述图像b也为所述图像a的K近邻；

根据所述K互近邻关系计算所述待查询图像与所述初始检索结果中每张图像之间的杰卡德Jaccard距离；

根据所述Jaccard距离对所述初始检索结果进行重新排序。

其中，针对所述N+1张图像中的第i图像和第j图像；其中，所述第i图像包括融合图像特征X和融合文本特征Y；所述第j图像包括融合图像特征P和融合文本特征Q；所述处理器501根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离，可以包括：

其中，所述第一距离和所述第二距离用于表征所述第i图像与所述第j图像在同一模态内的距离；所述第三距离和所述第四距离用于表征所述第i图像和所述第j图像在不同模态间的距离。

其中，所述处理器501基于所述每张图像各自对应的融合图像特征对所述初始检索结果进行重新排序，可以包括：

依次获取待查询图像对应的融合图像特征与初始检索结果中每张图像各自对应的融合图像特征之间的相似度；

根据确定好的所述相似度对初始检索结果进行重新排序。

其中，所述处理器501基于所述每张图像各自对应的融合文本特征对所述初始检索结果进行重新排序，可以包括：

依次获取待查询图像对应的融合文本特征与初始检索结果中每张图像各自对应的融合文本特征之间的相似度；

根据确定好的所述相似度对初始检索结果进行重新排序。

其中，所述在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离之前，所述处理器501还可以用于：

将所述初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到所述待查询图像对应的融合文本特征；所述L为大于0且小于N的整数。

应理解，各个器件的实现还可以对应参照上述图像重排序方法实施例中的相应描述，本申请实施例不再赘述。

本申请实施例还提供了一种计算机存储介质，该计算机可读存储介质中存储有指令，当其在计算机或处理器上运行时，使得计算机或处理器执行上述任一个实施例所述方法中的一个或多个步骤。上述装置的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在所述计算机可读取存储介质中，基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机产品存储在计算机可读存储介质中。

上述计算机可读存储介质可以是前述实施例所述的设备的内部存储单元，例如硬盘或内存。上述计算机可读存储介质也可以是上述设备的外部存储设备，例如配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，上述计算机可读存储介质还可以既包括上述设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可通过计算机程序来指令相关的硬件来完成，该计算机的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。

可以理解，本领域普通技术人员可以意识到，结合本申请各个实施例中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域技术人员能够领会，结合本申请各个实施例中公开描述的各种说明性逻辑框、模块和算法步骤所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，那么各种说明性逻辑框、模块、和步骤描述的功能可作为一或多个指令或代码在计算机可读媒体上存储或传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体，或包括任何促进将计算机程序从一处传送到另一处的媒体(例如，根据通信协议)的通信媒体。以此方式，计算机可读媒体大体上可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本申请中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像重排序方法，其特征在于，包括：

获取待查询图像；

2.如权利要求1所述的方法，其特征在于，所述融合图像特征包括第三图像特征和第三文本特征，在所述融合图像特征中，所述第三图像特征的占比高于所述第三文本特征的占比；所述融合文本特征包含第四图像特征和第四文本特征，在所述融合文本特征中，所述第四文本特征的占比高于所述第四图像特征的占比。

3.如权利要求1或2所述的方法，其特征在于，所述基于所述每张图像各自对应的融合图像特征和融合文本特征对所述初始检索结果进行重新排序，包括：

根据所述Jaccard距离对所述初始检索结果进行重新排序。

4.如权利要求3所述的方法，其特征在于，针对所述N+1张图像中的第i图像和第j图像；其中，所述第i图像包括融合图像特征X和融合文本特征Y；所述第j图像包括融合图像特征P和融合文本特征Q；所述根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离，包括：

5.如权利要求4所述的方法，其特征在于，所述第一距离和所述第二距离用于表征所述第i图像与所述第j图像在同一模态内的距离；所述第三距离和所述第四距离用于表征所述第i图像和所述第j图像在不同模态间的距离。

6.如权利要求1所述的方法，其特征在于，所述基于所述每张图像各自对应的融合图像特征对所述初始检索结果进行重新排序，包括：

根据确定好的所述相似度对初始检索结果进行重新排序。

7.如权利要求1所述的方法，其特征在于，所述基于所述每张图像各自对应的融合文本特征对所述初始检索结果进行重新排序，包括：

根据确定好的所述相似度对初始检索结果进行重新排序。

8.如权利要求1或2所述的方法，其特征在于，所述在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离之前，还包括：

9.一种图像重排序装置，其特征在于，包括：

获取图像单元，用于获取待查询图像；

第一检索单元，用于提取所述待查询图像的图像特征，并根据所述图像特征在图像数据库中进行检索，得到初始检索结果；其中，所述初始检索结果包含N张图像；所述N张图像按特征相似度从高到低进行排列；所述N张图像中的每张图像各自包括用于表征图像的颜色、纹理、形状和空间关系的第一图像特征和用于表征图像的文本信息的第一文本特征；所述N为大于0的整数；所述第一图像特征为处于图像特征空间中的特征；所述第一文本特征为处于文本特征空间中的特征；

第一特征映射单元，用于将所述初始检索结果中每张图像各自对应的第一图像特征和第一文本特征映射到同一目标特征空间中，得到第二图像特征和第二文本特征；

第二特征映射单元，用于将所述第二图像特征重新映射到所述图像特征空间，得到每张图像各自对应的融合图像特征；将所述第二文本特征重新映射到所述文本特征空间，得到每张图像各自对应的融合文本特征；所述融合图像特征与同一模态内的其他图像特征具有近邻关系；所述融合文本特征与同一模态内的其他文本特征具有近邻关系；一种特征类型用于表征一种模态；

第二检索单元，用于基于所述每张图像各自对应的融合图像特征和/或融合文本特征对所述初始检索结果进行重新排序，得到最终检索结果。

10.如权利要求9所述的装置，其特征在于，所述融合图像特征包括第三图像特征和第三文本特征，在所述融合图像特征中，所述第三图像特征的占比高于所述第三文本特征的占比；所述融合文本特征包含第四图像特征和第四文本特征，在所述融合文本特征中，所述第四文本特征的占比高于所述第四图像特征的占比。

11.如权利要求9或10所述的装置，其特征在于，所述第二检索单元包括距离计算单元和重排序单元，其中，

所述距离计算单元，用于在N+1张图像中，根据两两图像各自包含的融合图像特征与融合文本特征确定两两图像之间的距离；所述N+1张图像包括所述待查询图像和所述初始检索结果中的N张图像；

所述重排序单元，用于基于确定好的所述距离确定所述N+1张图像中每张图像各自对应的K互近邻关系，所述K互近邻关系用于表征图像a为图像b的K近邻且所述图像b也为所述图像a的K近邻；根据所述K互近邻关系计算所述待查询图像与所述初始检索结果中每张图像之间的杰卡德Jaccard距离；根据所述Jaccard距离对所述初始检索结果进行重新排序。

12.如权利要求11所述的装置，其特征在于，针对所述N+1张图像中的第i图像和第j图像；其中，所述第i图像包括融合图像特征X和融合文本特征Y；所述第j图像包括融合图像特征P和融合文本特征Q；所述距离计算单元具体用于：

13.如权利要求12所述的装置，其特征在于，所述第一距离和所述第二距离用于表征所述第i图像与所述第j图像在同一模态内的距离；所述第三距离和所述第四距离用于表征所述第i图像和所述第j图像在不同模态间的距离。

14.如权利要求9所述的装置，其特征在于，所述第二检索单元包括特征相似度计算单元和重排序单元，其中，

15.如权利要求9所述的装置，其特征在于，所述第二检索单元包括特征相似度计算单元和重排序单元，其中，

16.如权利要求9或10所述的装置，其特征在于，所述装置还包括：

特征提取单元，用于将所述初始检索结果中前L个图像各自对应的第一文本特征进行加权平均，得到所述待查询图像对应的融合文本特征；所述L为大于0且小于N的整数。

17.一种图像重排序设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-8任一项所述的方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。