CN112015922B

CN112015922B - 多媒体文件的检索方法、装置、设备及存储介质

Info

Publication number: CN112015922B
Application number: CN202010869798.9A
Authority: CN
Inventors: 张存义; 袁勇; 刘岸; 丁冬; 张金帅
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-09-26
Anticipated expiration: 2040-08-26
Also published as: CN112015922A

Abstract

本公开关于一种多媒体文件的检索方法、装置、设备及存储介质，在获取第一多媒体文件后，从预设类别中，查询第一多媒体文件所属的类别，作为候选类，获取第一参数和第二参数，依据预设的第一规则和参数，获取第一多媒体文件与候选类中的多媒体文件之间的距离，依据第一多媒体文件与候选类中的多媒体文件之间的距离，从候选类中，选择第一多媒体文件的检索结果。因为第一参数和第二参数均为在获取距离之前预先得到的参数，因此，能够避免实时计算，提高距离计算的速度，又因为第一规则由第一多媒体文件与候选类中的多媒体文件之间的距离计算规则转换得到，所以，还能够保证距离的准确性，提高检索的性能。

Description

多媒体文件的检索方法、装置、设备及存储介质

技术领域

本公开涉及信息检索技术领域，尤其涉及一种多媒体文件的检索方法、装置、设备及存储介质。

背景技术

随着近年深度学习的快速发展，行为、文本、多媒体等向量化成为一大趋势，现有的检索技术，例如检索多媒体文件的相似文件，可以使用近似最近邻(ApproximateNearest Neighbor，ANN)的查询技术实现，即在已存储的多媒体文件转换成的编码向量中，查找与待检索的多媒体文件转换的向量最相似的编码向量。

因此，提高ANN的查询性能(如准确度、速度和成本的至少一项)，以提高检索性能(如准确度、速度和成本的至少一项)，成为目前亟待解决的问题。

发明内容

本公开提供一种多媒体文件的检索方法、装置、设备及存储介质，以至少解决提高多媒体文件的检索性能的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体文件的检索方法，包括：

在获取第一多媒体文件后，从预设类别中，查询所述第一多媒体文件所属的类别，作为候选类；

获取参数，所述参数包括：预先计算得到的第一参数和第二参数，所述第一参数为所述第一多媒体文件与所述候选类的距离，所述第二参数依据所述候选类的特征量和所述候选类中的多媒体文件得到；

依据预设的第一规则和所述参数，获取所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，所述第一规则由所述第一多媒体文件与所述候选类中的多媒体文件之间的距离计算规则转换得到；

依据所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，从所述候选类中的多媒体文件中，选择所述第一多媒体文件的检索结果。

可选的，所述候选类的特征量包括：

所述候选类的转换矩阵、残差均值和类中心。

可选的，所述参数还包括：

第三参数和第四参数；

所述第三参数依据所述第一多媒体文件、所述转换矩阵和目标多媒体文件得到；所述目标多媒体文件为所述候选类中的多媒体文件中的任一多媒体文件；

所述第四参数依据所述第一多媒体文件、所述转换矩阵和所述残差均值得到。

可选的，所述第三参数的获取过程包括：

通过查询预设的第一对应关系，将与所述目标多媒体文件对应的第一计算结果作为所述第三参数，所述第一对应关系用于指示：所述第一计算结果与所述候选类中的多媒体文件的对应关系，与所述目标多媒体文件对应的所述第一计算结果，至少依据所述第一多媒体文件、所述目标多媒体文件和所述转换矩阵确定。

可选的，还包括：

若所述第一对应关系中不存在所述目标多媒体文件对应的所述第一计算结果，计算所述目标多媒体文件对应的所述第一计算结果作为所述第三参数，并将所述目标多媒体文件对应的所述第一计算结果加入所述第一对应关系。

可选的，所述第四参数的获取过程包括：

通过查询预设的第二对应关系，将与所述目标多媒体文件所属的所述预设类的所述残差均值对应的第二计算结果作为所述第四参数；所述第二对应关系用于指示：所述第二计算结果与所述候选类的残差均值的对应关系，与所述目标多媒体文件所属的所述候选类的所述残差均值对应的所述第二计算结果，依据所述第一多媒体文件、所述转换矩阵与所述残差均值确定。

可选的，还包括：

若所述第二对应关系中不存在所述目标多媒体文件所属的所述预设类对应的所述第二计算结果，计算所述目标多媒体文件所属的所述预设类对应的所述第二计算结果作为所述第四参数，并将所述目标多媒体文件所属的所述预设类对应的所述第二计算结果，加入所述第二对应关系。

可选的，多个所述预设类共用一个转换矩阵。

可选的，还包括：

响应于接收到待索引的多媒体文件，确定类中心与向量的距离最近的所述预设类别为目标类别；所述向量为所述待索引的多媒体文件转换得到的向量；

获取第一差值，所述第一差值为所述向量与所述目标类别的类中心的差值；

计算第二差值，所述第二差值为所述第一差值与所述目标类别的残差均值之差；

计算第三差值，所述第三差值为所述第二差值与所述目标类别的转换矩阵的乘积；

对所述第三差值进行编码，得到所述向量的残差编码向量；

将所述残差编码向量加入所述目标类别。

根据本公开实施例的第二方面，提供一种多媒体文件的检索装置，包括：

查询单元，被配置为在获取第一多媒体文件后，从预设类别中，查询所述第一多媒体文件所属的类别，作为候选类；

第一获取单元，被配置为获取参数，所述参数包括：预先计算得到的第一参数和第二参数，所述第一参数为所述第一多媒体文件与所述候选类的距离，所述第二参数依据所述候选类的特征量和所述候选类中的多媒体文件得到；

第二获取单元，被配置为依据预设的第一规则和所述参数，获取所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，所述第一规则由所述第一多媒体文件与所述候选类中的多媒体文件之间的距离计算规则转换得到；

选择单元，被配置为依据所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，从所述候选类中的多媒体文件中，选择所述第一多媒体文件的检索结果。

根据本公开实施例的第三方面，提供一种多媒体文件的检索设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现第一方面公开的多媒体文件的检索方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由多媒体文件的检索设备的处理器执行时，使得多媒体文件的检索设备能够执行第一方面公开的多媒体文件的检索方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品在由多媒体文件的检索设备的处理器执行时，使得所述多媒体文件的检索设备能够执行如上的多媒体文件的检索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开的多媒体文件的检索方法，在获取第一多媒体文件后，从预设类别中，查询第一多媒体文件所属的类别，作为候选类，获取第一参数和第二参数，依据预设的第一规则和参数(包括第一参数和第二参数)，获取第一多媒体文件与候选类中的多媒体文件之间的距离，依据第一多媒体文件与候选类中的多媒体文件之间的距离，从候选类中，选择第一多媒体文件的检索结果。因为第一参数为第一多媒体文件与候选类的距离，所以，第一参数可以在确定候选类时得到，在获取距离时无需重复计算，又因为第二参数依据候选类的特征量和候选类中的多媒体文件得到，而与第一多媒体文件无关，所以，可以预先确定第二参数。可见，第一参数和第二参数均为在获取距离之前预先得到的参数，因此，能够避免实时计算，所以，能够提高距离计算的速度，又因为第一规则由第一多媒体文件与候选类中的多媒体文件之间的距离计算规则转换得到，所以，除了为提高距离的计算速度奠定理论基础外，还能够保证距离的准确性，从而在提高计算速度的前提下，不会降低结果的准确性，从而提高检索的性能。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种多媒体文件的检索方法的流程图；

图2是根据一示例性实施例示出的另一种多媒体文件的检索方法的流程图；

图3是根据一示例性实施例示出的另一种多媒体文件的检索方法的流程图；

图4是根据一示例性实施例示出的多媒体文件的检索方法与现有算法的性能对比图；

图5是根据一示例性实施例示出的一种多媒体文件的检索装置的框图；

图6是根据一示例性实施例示出的一种多媒体文件的检索设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的多媒体文件的检索方案涉及检索服务的提供端，其中，检索服务的提供端可以依据待检索的多媒体文件，从已存储的多媒体文件中，检索到与待检索的多媒体文件相似的多媒体文件。

多媒体文件可以包括但不限于：视频文件和音频文件等。例如，在接收到用户输入的图片后，从数据库中已有的图片中，检索与用户输入的图片最相似的图片，并输出检索到的图片。

检索服务的提供端可以是服务器，例如检索引擎的后台检索服务器，还可以是用户终端，如手机、IPAD、笔记本、台式电脑等。

图1是根据一示例性实施例示出的一种媒体文件的检索方法的流程图，如图1所示，包括以下步骤：

S101：在获取第一多媒体文件后，从预设类别中，确定第一多媒体文件所属的类别，作为候选类。

其中，第一多媒体文件(如用户输入的图片)为待检索的多媒体文件。

本实施例中，预设类别可以为预先将已获取的多媒体文件进行分类，形成的类别。对多媒体文件的分类的具体手段，可以参见现有技术，例如，对多媒体文件进行聚类，得到各个类别。

通常，各个类别具有类中心，进一步的，为了节省存储空间，各个类别包括的向量，以编码形式(简称为残差编码向量)存储，在此情况下，各个类别还具有残差均值(各个残差编码向量与编码前的向量的差值的均值)。进一步的，为了减小残差编码向量与向量之间的误差，还可以使用旋转矩阵优化类中心。

本实施例中，可以依据第一多媒体文件转换得到的向量(简称为第一向量)与各个类别的类中心的距离，确定第一多媒体文件所属的类别。将多媒体文件转换为向量的具体手段，可以参见现有技术。

可选的，可以将与第一向量的距离最近的类中心指示(或所属)的类别，作为第一多媒体文件所属的类别。或者，可选的，为了提高检索结果的准确性，可以选出第一多媒体文件所属的多个类别，例如，按照距离值从小到大进行排序，将排序中的前10个对应的类别，均作为第一多媒体文件所属的类别，其中，任意一个距离对应的类别为，与第一向量产生该距离的类中心所属的类别。

S102：获取参数。

本实施例中，参数包括预先计算得到的第一参数和第二参数。其中，第一参数为第一多媒体文件与候选类的距离，第二参数依据候选类的特征量和候选类中的多媒体文件得到。

从上述查询候选类的方式可知，第一参数可以通过计算第一多媒体文件与候选类的类中心的距离得到。

本实施例中，将候选类的类中心、转换矩阵、和残差均值，统称为候选类的特征量。第二参数的具体计算方式，将结合以下步骤进行详细说明。

S103：依据预设的第一规则和参数，获取第一多媒体文件与候选类中的多媒体文件之间的距离。

本步骤中，需要计算一个或多个候选类中的每个多媒体文件，与第一多媒体文件的距离。需要说明的是，本实施例中，创新性地将欧氏距离进行转换，得到新的距离计算规则，使得作为距离计算依据的参数可以预先获取，以提高计算速度。

具体的，由欧氏距离转换得到新的距离计算规则(简称为第一规则)的推导过程如下：

假设第一向量为x，任意一个预设类别中的任意一个多媒体文件转换得到的向量(以下简称为目标索引向量)为y，该预设类别的类中心为y_center，残差均值为r_mean，转换矩阵为R，索引向量y的残差编码值为y_r-encode，y_r-encode恢复后的向量y表示为y_recover，则y_recover可表示为：

y_recover＝R^T*y_r-encode+r_mean+y_center

x与y的欧式距离近似等于x与y_recover的欧氏距离，进行如下转换：

d＝||x-y||²≈||x-y_recover||²＝||x-(R^T*y_r-encode+r_mean+y_center)||²

＝||R*(x-r_mean-y_center)-y_r-encode||²

＝||x-y_center||²+||R*r_mean+y_r-encode||²+2*(R*y_center|(R*r_mean+y_r-encode))-2*(R*x|y_r-encode)-2*(R*x|R*r_mean)，

令，t1＝||x-y_center||²，t2＝||R*r_mean+y_r-encode||²+2*(R*y_center|(R*r_mean+y_r-encode))，t3＝2*(R*x|y_r-encode)，t4＝2*(R*x|R*r_mean)，则上式变为:

d≈t1+t2-t3-t4。

由此可见，第一多媒体文件与目标索引向量之间的距离，由欧氏距离转换为四个参数的运算结果。

其中，第一参数t1为第一向量与目标索引向量所属的候选类的类中心的距离。因为在S101中，已经得到这个数值，所以，S102中，可以直接使用，如S102中直接获取，而无需重复计算。

第二参数t2依据目标索引向量，以及目标索引向量所属的候选类的转换矩阵、残差均值和类中心确定，因为目标索引向量，以及目标索引向量所属的候选类的转换矩阵、残差均值和类中心均与第一向量无关，因此，可以在获得预设类别之后，即计算获取第二参数。在计算d时，只需查询已经获取的第二参数即可，如S102中直接获取。

第三数值t3依据第一向量、目标索引向量和目标索引向量所属的候选类的转换矩阵确定。第四数值t4依据第一向量、目标索引向量所属的候选类的转换矩阵和残差均值确定。可见，第三参数依据第一多媒体文件、候选类的转换矩阵和目标多媒体文件得到。第四数值依据第一多媒体文件、候选类的转换矩阵和残差均值得到。

本实施例中，可以使用上述距离公式，依次计算第一向量与各个候选类中的各个索引向量之间的距离。

S104：依据第一多媒体文件与候选类中的多媒体文件之间的距离，从候选类中的多媒体文件中，选择第一多媒体文件的检索结果。

依据距离选择检索结果的具体方式可以有多种：可选的，可以将候选类中与第一向量的距离最小的索引向量对应的多媒体文件，作为检索结果，或者，可选的，可以将距离小于预设阈值的索引向量对应的多媒体文件，作为检索结果。

图1所示的流程中，将候选类中的多媒体文件与待检索的多媒体文件之间的欧式距离，转换为多个参数的运算结果，其中，第一参数和第二参数可以预先获得，即在计算距离之前获得，在计算距离时，可以直接查询使用，因此，避免了部分实时运算过程，所以，能够提高运算速度，以及减小实时运算占用的资源，从而提升检索性能。并且，因为新的距离计算规则通过欧式距离计算规则转换得到，所以，并没有降低计算精度。

可以理解的是，上述第一规则中的第三参数和第四参数，均与第一向量有关，因此，可以在计算距离时，实时计算。但为了进一步提升检索的性能，还可以采用以下实施例中所述的方法获取第三参数和第四参数。

图2为是根据另一示例性实施例示出的一种多媒体文件的检索方法的流程图，如图2所示，包括以下步骤：

S201：将第一多媒体文件转换得到第一向量。

S202：计算第一向量与各个预设类别的类中心的距离。

可选的，距离可以使用欧式距离。

S203：依据距离，确定第一多媒体文件所属的候选类。

S204：分别计算各个候选类中的各个索引向量，与第一向量的距离。

具体的，将候选类中的任意一个索引向量称为目标索引向量，计算第一向量与目标索引向量的过程包括以下步骤：

S2041：获取S201中计算的第一向量与目标索引向量所属的候选类的类中心的距离，作为第一参数。

S2042：获取预先计算得到第二参数。具体的，可以在获得预设类别后计算得到各个预设类别的第二参数。

S2043：通过查询预设的第一对应关系，将与目标索引向量对应的第一计算结果作为第三参数。

其中，第一对应关系用于指示第一计算结果与索引向量的对应关系。目标索引向量对应的第一计算结果依据目标索引向量、第一向量和目标索引向量所属的预设类的转换矩阵确定，即第一计算结果的计算公式为上述t3的计算公式。

第一对应关系的获取方式包括以下几种：

1、如前所述，索引向量可以使用编码的形式，存储在预设类别中。基于编码的离散和范围有限(例如，编码值归一化至0-255范围内)的特性，所有的编码结果是可以穷举的，即所有索引向量的编码(残差编码向量)是可以预先获知的。所以，在获得第一向量后，即可依次将所有预设类中的所有残差编码向量作为目标向量，使用t3的计算公式，得到第一向量与各个残差编码向量确定的第一计算结果，并存储各个编码与第一计算结果的对应关系。可选的，可以使用表格存储第一对应关系，得到第一对应关系查询表。

在此情况下，可以在S201-S2043之间，使用与S202-S2042并行的方式，获取第一对应关系。在S204需要计算各个候选类下的索引向量与第一向量的距离时，可以直接查表获得各个索引向量对应的第三数值，无需实时计算。并且，方式1可以实现全部预设类共用一个第一对应关系查询表。

2、在预设类的数量很多的情况下，如果一个预设类均计算一个第一对应关系查询，则可能后续需要查询的第一对应关系查询表的数量过多，而导致查表的工作量过大。例如，假设上一步骤中，确定出第一向量的N个候选类，如果每个候选类均对应一个第一对应关系查询表，则要查询N个第一对应关系查询表。

因此，可以部分预设类共用一个第一对应关系查询表，例如，每3个预设类共用一个第一对应关系查询表。具体的，不同预设类使用的码本不同，所以，相同码本的预设类共用一个第一对应关系查询表，以减少查表工作量。

或者，因为编码方式是预知的，所以，可以将使用相同编码方式(例如使用相同码本)的预设类的所有残差编码向量进行穷举，形成一个共用的第一对应关系查询表，以减少查表工作量。

部分预设类共用第一对应关系查询表的情况下，还可以建立预设类与第一对应关系查询表的对应关系。多个预设类共享第一对应关系查询表的情况下，能够减少查表的计算量。例如，预设类1、2、3和4共享一个第一对应关系查询表，预设类5、6、7和8共享一个第一对应关系查询表，如果确定出的N个候选类为1、2、3、4、5，不共享第一对应关系查询表的情况下，需要查询5次距离表，而共享的情况下，仅需要查询2次。

在此情况下，可以在S201-S2043之间，使用与S202-S2042并行的方式，获取第一对应关系。在S204需要计算各个预设类下的向量与第一向量的距离时，可以直接查表获得各个向量对应的第三参数，无需实时计算。

3、方式1和方式2均需要分出并行的计算资源，但在计算资源紧张的情况下，还可以，将S2043中计算得到的第一计算结果与目标索引向量的对应关系，存储至第一对应关系查询表，以便后续相同向量对应的第三参数的查询。

在此情况下，如果S2043为首次检索过程中的首次查询第一对应关系，则因为第一对应关系为空，则查询不到第三参数，跳转执行S2045。

如果S2043为非首次检索过程中的查询第一对应关系，则因为第一对应关系不为空，所以，有可能能够查询到第三参数，也有可能查询不到第三参数，跳转执行S2045。

方式3能够节省计算资源，并且随着检索次数的增加，第一对应关系越完善，实现检索次数越多，检索性能越好的效果。

在方式3下，也可以将第一对应关系分别存储为多个查询表，以保证较快的查询速度。

S2044：通过查询预设的第二对应关系，将与目标索引向量所属的候选类的残差均值对应的第二计算结果作为第四参数。

第二对应关系用于指示：第二计算结果与候选类的残差均值的对应关系。目标索引向量所属的候选类的残差均值对应的第二计算结果，依据目标索引向量所属的候选类的残差均值、目标索引向量所属的预设类的转换矩阵与第一向量确定，即使用上述t4的计算公式得到。

第二对应关系的获取方式与第一对应关系的获取方式类似，包括以下几种：

1、预先获取所有残差均值对应的第二计算结果，形成第二对应关系，可选的，形成第二对应关系查询表。

2、预先获取多个第二对应关系，即部分候选类公用残差均值，进一步共用一个第二对应关系查询表。

方式1和2，可以在S201-S2044之间，使用与S202-S2043并行的方式执行。

3、将S2044中计算得到的第二计算结果与残差均值的对应关系，存储至第二对应关系查询表。在此情况下，在第二对应关系查询表中不存在目标索引向量所属的预设类的残差均值的情况下，跳转执行S2046。

S2045：计算与目标索引向量对应的第一计算结果作为第三参数，并将计算得到的第一计算结果加入第一对应关系。

S2046：计算与目标索引向量所属的预设类的残差均值对应的第二计算结果作为第四参数，并将计算得到的第二计算结果加入第二对应关系。

S205：依据距离，确定检索结果。

图2所示的流程，除了第一参数和第二参数为预先获取的参数之外，第三参数和第四参数，可以通过查表获取，与实时计算相比，至少候选类中，已经被查询过的残差编码向量对应的第三参数，以及相同的残差均值对应的第四参数，能够通过查表获取，所以，能够进一步提高检索的性能。

图3是根据另一示例性实施例示出的一种多媒体文件的检索方法的流程图，与上述实施例相比，重点说明将索引向量加入预设类别的方式(即向量的索引过程)。如图3所示，包括以下步骤：

S301：使用通用正交多分类倒排索引(Generalized Non-Orthogonal InvertedMulti-Index，GNO-IMI)算法，对已获取的多媒体文件进行分类，得到各个倒排链。

GNO-IMI算法使用两级聚类将已获取的多媒体文件的分类，假设第一次聚类得到K个一级类中心，每个一级类中心再分别通过第二次聚类各得到K个二级类中心，故能一共生成K*K＝K²个二级类中心，再将每个二级类中心下的向量进行乘积量化，由此得到K²个倒排链(即预设类别，倒排链为一种数据结构)。倒排链下的各个向量为乘积量化得到的向量(即前述索引向量)，各个索引向量的一级类中心记为y_center，残差均值记为r_mean。

需要说明的是，以上仅为GNO-IMI算法的简介，GNO-IMI算法的具体实现过程，可以参见现有技术，这里不再赘述。

S302：使用多倒排本地优化乘积量化(Multi-Locally Optimized ProductQuantization，Multi-LOPQ)算法，对各个倒排链进行本地乘积量化(Locally OptimizedProductQuantization，LOPQ)。

Multi-LOPQ算法为：使用旋转矩阵R，作用于各个倒排链进行乘积量化时使用的码本，并依次迭代R和聚类，使得各个向量编码最终的量化损失最小。以上仅为Multi-LOPQ算法的简介，Multi-LOPQ算法的具体实现过程，可以参见现有技术，这里不再赘述。

需要说明的是，本实施例中，并不能简单地将Multi-LOPQ算法，直接对K²个倒排链均进行优化，理由为：如果对K²个倒排链都进行LOPQ，假设K＝2048，K²则为4194304，数值巨大，所以进行K²次LOPQ的资源耗费巨大。

因此，本实施例中，仅对倒排链的K个1级类中心进行LOPQ，一级类中心下的K个2级类中心共用一个优化后的一级类中心和R，于是将优化次数降为K次，节省了大量的资源，同时因为由1级类中心衍生出的K个2级类中心具有相同的分布特性，故仅对1级类中心进行优化，也能达到减少量化误差的效果。

S303：响应于接收到待索引的多媒体文件，将待索引的多媒体文件的向量(简称为第二向量)，加入待索引的多媒体文件所属的倒排链。

待索引的多媒体文件为，待增加入倒排链的多媒体文件。

具体的，S303包括以下过程：

S3031：确定类中心与第二向量的距离最近的倒排链为第二向量所属的类别，简称为目标类别(或倒排链)。

S3032：获取第一差值，第一差值为第二向量与目标类别的类中心的差值。

因为S3031中已经计算各个类中心与第二向量的距离(及差值)，因此，该步骤可以直接从上述步骤的计算结果中获取。

S3033：计算第二差值，第二差值为第一差值与目标类别的残差均值之差。

S3034：计算第三差值，第三差值为第二差值与目标类别的R的乘积。

S3035：对第三差值进行编码，得到第二向量的编码向量。

S3036：将编码向量加入目标类别。

S301-S303可以看作预处理过程，即倒排链的获取过程。其中，S302为倒排链的初始形成步骤，S303为倒排链的更新步骤，也可以看作已获取的多媒体文件的索引过程(即将已获取的多媒体文件划分至类别中)。

S304：在接收到待检索的多媒体文件后，将待检索的多媒体文件转换为第一向量。

S305：依据第一向量与各个倒排链的类中心的距离，确定待检索多媒体文件所属的候选倒排链。

具体地，可以对第一向量与各个倒排链的类中心的距离按照从小到大进行排序，并将具有产生前N个距离的类中心的倒排链，作为候选倒排链。

S306：分别计算各个候选倒排链中的各个向量，与第一向量的距离。

距离的计算方式如前实施例所述，这里不再赘述。

S307：将距离较小的前M个向量对应的多媒体文件，作为待检索的多媒体文件的检索结果。

本实施例中，N和M均为不小于1的整数，且N和M的值可以依据需求预先设置。

通常，在检索时为增大召回准确率会在N_total＝K²个倒排链中选择N_top个候选倒排链，并遍历计算候选倒排链中的各个向量与待检索的多媒体文件的向量之间的欧式距离，选出欧氏距离最近的topk个向量返回作为候选检索结果。N_top的值会随着倒排链数目的增大而线性变大，当N_total膨胀到百万级时，N_top随之增大至几百甚至上千，如不做工程优化意味着需要实时计算N_top个倒排链的距离表，这是一个时间复杂度非常高的操作，成为百万级倒排链系统的最大瓶颈。而本实施例中，为解决此问题，设计了一套工程优化方法，即通过欧式距离公式等价变换将原有欧式距离计算拆分分解为多个预计算值和共用计算值的运算结果，大大降低实时计算量级的同时，并没有造成任何精度损失。

图4为本实施例所述的方法与现有的检索算法的性能比较：

本实施例所述的方法和现有的算法均使用公开数据集SIFT1B，使用R@10评价指标，在单查询耗时相同(横轴＝10ms/query为例)的情况下，相比现有的检索算法：即第一现有检索算法:faiss库中倒排残差优化非对称距离计算算法(Faiss OIVF-D-ADC)(K＝8192)、第二现有检索算法：faiss中多维倒排残差优化非对称距离计算算法(FaissOMulti-D-ADC)(K＝4096)、和第三现有检索算法：faiss中多维倒排残差优化非对称距离计算-汉明距离剪枝算法(Faiss OMulti-D-ADC ht)(K＝4096)，本案提出的方法，有13pp的提升。

图5是根据一示例性实施例示出的一种多媒体文件的检索装置框图。参照图5，该装置包括查询单元101，第一获取单元102、第二获取单元103和选择单元104。

查询单元101，被配置为在获取第一多媒体文件后，从预设类别中，查询所述第一多媒体文件所属的类别，作为候选类。

第一获取单元102，被配置为获取参数，所述参数包括：预先计算得到的第一参数和第二参数，所述第一参数为所述第一多媒体文件与所述候选类的距离，所述第二参数依据所述候选类的特征量和所述候选类中的多媒体文件得到。

第二获取单元103，被配置为依据预设的第一规则和所述参数，获取所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，所述第一规则由所述第一多媒体文件与所述候选类中的多媒体文件之间的距离计算规则转换得到。

选择单元104，被配置为依据所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，从所述候选类中的多媒体文件中，选择所述第一多媒体文件的检索结果。

可选的，所述候选类的特征量包括：所述候选类的转换矩阵、残差均值和类中心。所述参数还包括：第三参数和第四参数。

在此情况下，可选的，第一获取单元102还被配置为：通过查询预设的第一对应关系，将与所述目标多媒体文件对应的第一计算结果作为所述第三参数，所述第一对应关系用于指示：所述第一计算结果与所述候选类中的多媒体文件的对应关系，与所述目标多媒体文件对应的所述第一计算结果，至少依据所述第一多媒体文件、所述目标多媒体文件和所述转换矩阵确定。以及，通过查询预设的第二对应关系，将与所述目标多媒体文件所属的所述预设类的所述残差均值对应的第二计算结果作为所述第四参数；所述第二对应关系用于指示：所述第二计算结果与所述候选类的残差均值的对应关系，与所述目标多媒体文件所属的所述候选类的所述残差均值对应的所述第二计算结果，依据所述第一多媒体文件、所述转换矩阵与所述残差均值确定。

进一步的，第一获取单元102还被配置为：若所述第一对应关系中不存在所述目标多媒体文件对应的所述第一计算结果，计算所述目标多媒体文件对应的所述第一计算结果作为所述第三参数，并将所述目标多媒体文件对应的所述第一计算结果加入所述第一对应关系。若所述第二对应关系中不存在所述目标多媒体文件所属的所述预设类对应的所述第二计算结果，计算所述目标多媒体文件所属的所述预设类对应的所述第二计算结果作为所述第四参数，并将所述目标多媒体文件所属的所述预设类对应的所述第二计算结果，加入所述第二对应关系。

可选的，所述装置还可以包括索引单元(图中未画出)，被配置为响应于接收到待索引的多媒体文件，确定类中心与向量的距离最近的所述预设类别为目标类别；所述向量为所述待索引的多媒体文件转换得到的向量；获取第一差值，所述第一差值为所述向量与所述目标类别的类中心的差值；计算第二差值，所述第二差值为所述第一差值与所述目标类别的残差均值之差；计算第三差值，所述第三差值为所述第二差值与所述目标类别的转换矩阵的乘积；对所述第三差值进行编码，得到所述向量的残差编码向量；将所述残差编码向量加入所述目标类别。

关于上述实施例中的多媒体文件的检索装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述实施例所述的多媒体文件的检索装置，具有较高的检索性能。

上述实施例公开的多媒体文件的检索装置，可以应用于多媒体文件检索设备，如手机、电脑、服务器等。可选的，图6示出了视频处理设备的硬件结构框图，参照图6，多媒体文件的检索设备的硬件结构可以包括：处理器1，通信接口2，存储器3和通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有可执行指令，处理器可调用存储器存储的指令，所述指令用于：

可选的，所述候选类的特征量包括：

所述候选类的转换矩阵、残差均值和类中心。

可选的，所述参数还包括：

第三参数和第四参数；

可选的，所述第三参数的获取过程包括：

可选的，还包括：

可选的，所述第四参数的获取过程包括：

可选的，还包括：

可选的，多个所述预设类共用一个转换矩阵。

可选的，还包括：

对所述第三差值进行编码，得到所述向量的残差编码向量；

将所述残差编码向量加入所述目标类别。

可选的，所述指令的细化功能和扩展功能可参照上文描述。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器3，上述指令可由多媒体文件的检索设备的处理器1执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体文件的检索方法，其特征在于，包括：

获取参数，所述参数包括：预先计算得到的第一参数和第二参数，所述第一参数为所述第一多媒体文件转换得到的向量与所述候选类的类中心的距离，所述第二参数依据所述候选类的特征量和所述候选类中的多媒体文件得到；

依据预设的第一规则和所述参数，获取所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，所述第一规则通过将所述第一多媒体文件转换得到的向量x与所述候选类中的多媒体文件转换得到的向量y之间的欧式距离，近似等于所述第一多媒体文件转换得到的向量x与恢复向量y_recover之间的欧式距离转换得到，其中，y_recover=R^T*y_r-encode +r_mean+ y_center，R^T为所述候选类的转换矩阵R的转置矩阵，y_r-encode为y的残差编码值， y_center为所述候选类的类中心， r_mean为所述候选类的残差均值；

2.根据权利要求1所述的方法，其特征在于，所述候选类的特征量包括：

所述候选类的转换矩阵、残差均值和类中心。

3.根据权利要求2所述的方法，其特征在于，所述参数还包括：

第三参数和第四参数；

4.根据权利要求3所述的方法，其特征在于，所述第三参数的获取过程包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求3所述的方法，其特征在于，所述第四参数的获取过程包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求1-7任一项所述的方法，其特征在于，多个所述预设类共用一个转换矩阵。

9.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

对所述第三差值进行编码，得到所述向量的残差编码向量；

将所述残差编码向量加入所述目标类别。

10.一种多媒体文件的检索装置，其特征在于，包括：

第一获取单元，被配置为获取参数，所述参数包括：预先计算得到的第一参数和第二参数，所述第一参数为所述第一多媒体文件转换得到的向量与所述候选类的类中心的距离，所述第二参数依据所述候选类的特征量和所述候选类中的多媒体文件得到；

第二获取单元，被配置为依据预设的第一规则和所述参数，获取所述第一多媒体文件与所述候选类中的多媒体文件之间的距离，所述第一规则通过将所述第一多媒体文件转换得到的向量x与所述候选类中的多媒体文件转换得到的向量y之间的欧式距离，近似等于所述第一多媒体文件转换得到的向量x与恢复向量y_recover之间的欧式距离转换得到，其中，y_recover=R^T*y_r-encode +r_mean + y_center，R^T为所述候选类的转换矩阵R的转置矩阵，y_r-encode为y的残差编码值， y_center为所述候选类的类中心， r_mean为所述候选类的残差均值；

11.根据权利要求10所述的装置，其特征在于，所述候选类的特征量包括：

所述候选类的转换矩阵、残差均值和类中心。

12.根据权利要求11所述的装置，其特征在于，所述参数还包括：

第三参数和第四参数；

13.根据权利要求12所述的装置，其特征在于，所述第一获取单元，还被配置为：

14.根据权利要求13所述的装置，其特征在于，所述第一获取单元，还被配置为：

15.根据权利要求12所述的装置，其特征在于，所述第一获取单元，还被配置为：

16.根据权利要求15所述的装置，其特征在于，所述第一获取单元，还被配置为：

17.根据权利要求10-16任一项所述的装置，其特征在于，多个所述预设类共用一个转换矩阵。

18.根据权利要求10-16任一项所述的装置，其特征在于，还包括：

索引单元，被配置为响应于接收到待索引的多媒体文件，确定类中心与向量的距离最近的所述预设类别为目标类别；所述向量为所述待索引的多媒体文件转换得到的向量；获取第一差值，所述第一差值为所述向量与所述目标类别的类中心的差值；计算第二差值，所述第二差值为所述第一差值与所述目标类别的残差均值之差；计算第三差值，所述第三差值为所述第二差值与所述目标类别的转换矩阵的乘积；对所述第三差值进行编码，得到所述向量的残差编码向量；将所述残差编码向量加入所述目标类别。

19.一种多媒体文件的检索设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-9任一项所述的多媒体文件的检索方法。

20.一种存储介质，当所述存储介质中的指令由多媒体文件的检索设备的处理器执行时，使得多媒体文件的检索设备能够执行如权利要求1-9任一项所述的多媒体文件的检索方法。