CN113918598A - 一种乘积量化搜索方法、装置、终端和存储介质 - Google Patents
一种乘积量化搜索方法、装置、终端和存储介质 Download PDFInfo
- Publication number
- CN113918598A CN113918598A CN202111229216.1A CN202111229216A CN113918598A CN 113918598 A CN113918598 A CN 113918598A CN 202111229216 A CN202111229216 A CN 202111229216A CN 113918598 A CN113918598 A CN 113918598A
- Authority
- CN
- China
- Prior art keywords
- dimensional
- feature
- low
- euclidean distance
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
- G06F16/24549—Run-time optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于计算机技术领域,提供了一种乘积量化搜索方法、装置、终端和存储介质。其中,上述乘积量化搜索方法具体包括:将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;利用所述参考低维特征确定多个聚类中心;获取目标对象的目标特征;利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。本申请的实施例能够提高乘积量化搜索的精度。
Description
技术领域
本申请属于计算机技术领域,尤其涉及一种乘积量化搜索方法、装置、终端和存储介质。
背景技术
近似乘积量化搜索算法的主要目标是在确定的相似度量准则下,从包含大量数据特征向量的数据库中检索出与给定查询对象最为相似的多条数据特征向量。近似乘积量化搜索是信息检索的基础,在各种搜索引擎及推荐系统中有着非常广泛的应用。如何在硬件成本有限的条件下,快速准确的实现近似乘积量化搜索一直是信息检索领域的一个研究热点。
基于乘积量化(Product Quantization,PQ)的搜索算法是当前应用非常广泛的一类算法。PQ搜索算法是将高维特征拆分为多个低维的子特征,然后利用聚类算法对每段子特征进行量化,进而使高维的浮点类型特征向量被量化为低维的整型数据,从而显著的减少了计算不同特征向量之间相似度时需要的运算开销,以此提升搜索速度。得益于方法简单及易于部署等特点,基于PQ算法的各类检索算法当前已经被广泛的应用到一些实用场景中。
但是,直接从高维浮点型数据量化到低维整型数据将造成较多信息的丢失,进而导致搜索的精度降低。
发明内容
本申请实施例提供一种乘积量化搜索方法、装置、终端和存储介质,可以在提高乘积量化搜索的精度。
本申请实施例第一方面提供一种乘积量化搜索方法,包括:
将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
利用所述参考低维特征确定多个聚类中心;
获取目标对象的目标特征;
利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。
在本申请的一些实施方式中,所述高维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,所述低维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离;所述特征压缩网络的损失函数为基于所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值,以及与所述高维欧氏距离关联的权重值得到的函数,其中,所述权重值的取值和与其关联的高维欧氏距离的大小相关。
在本申请的一些实施方式中,所述特征压缩网络包括残差模块和多个主干模块;所述将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,包括:将所述参考高维特征输入所述残差模块,得到所述残差模块输出的第一特征;将所述参考高维特征输入所述多个主干模块中的第一个主干模块,得到所述第一个主干模块输出的第二特征,并将所述第二特征输入所述多个主干模块中的第二个主干模块,直至得到多个主干模块中最后一个主干模块输出的第三特征,其中,所述第一特征和所述第三特征的维度相同;将所述第一特征与所述第三特征相加,得到所述参考低维特征。
本申请实施例第二方面提供的一种乘积量化搜索装置,包括:
特征压缩单元,用于将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
聚类单元,用于利用所述参考低维特征确定多个聚类中心;
特征获取单元,用于获取目标对象的目标特征;
乘积量化搜索单元,用于利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。
本申请实施例第三方面提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本申请实施例第五方面提供了一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行时实现方法的步骤。
本申请的实施方式中,通过将参考对象的参考高维特征输入特征压缩网络中,得到由特征压缩网络输出的参考低维特征,并利用参考低维特征确定多个聚类中心,然后,获取目标对象的目标特征,并利用目标特征和多个聚类中心进行乘积量化搜索,得到与目标对象距离最近的参考对象,由于特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数,利用训练好的特征压缩网络对参考高维特征进行降维,能够避免直接将高维特征拆分为多个低维的子特征导致的特征之间相邻关系信息丢失的问题,进而提高搜索精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种乘积量化搜索方法的实现流程示意图;
图2是本申请实施例提供的特征压缩网络的结构示意图;
图3是本申请实施例提供的步骤S101的具体实现流程示意图;
图4是本申请实施例提供的一种乘积量化搜索装置的结构示意图;
图5是本申请实施例提供的终端的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护。
PQ搜索算法需要将高维特征拆分为多个低维的子特征,然后利用聚类算法对每段子特征进行量化,但这种方式将造成较多信息的丢失,导致后续的搜索过程精度降低。
因此,本申请提出了一种乘积量化搜索方法,首先基于样本对象的高维近邻关系和样本对象的低维近邻关系得到的损失函数训练得到特征压缩网络,并利用训练好的特征压缩网络对参考高维特征进行降维,能够避免直接将高维特征拆分为多个低维的子特征导致的特征之间相邻关系信息丢失的问题,进而提高搜索精度。
为了说明本申请的技术方案,下面通过具体实施例来进行说明。
图1示出了本申请实施例提供的一种乘积量化搜索方法的实现流程示意图,该方法可以应用于终端上,该终端可以为电脑、手机、可穿戴设备、车载设备、增强现实/虚拟现实设备、机顶盒、服务器、卫星无线设备等智能设备,可适用于需提高乘积量化搜索的精度的情形。
具体的,上述乘积量化搜索方法可以包括以下步骤S101至步骤S104。
步骤S101,将参考对象的参考高维特征输入特征压缩网络中,得到由特征压缩网络输出的参考低维特征。
其中,参考对象是指数据库中用于与目标对象进行比较的对象,参考对象的类型可以根据实际情况进行调整,一般可以为图像等。
具体的,特征提取算法和特征压缩网络的网络结构可以根据实际情况进行设置。而特征压缩网络的损失函数为基于样本对象的高维近邻关系和样本对象的低维近邻关系得到的函数。
其中,样本对象是用于训练特征压缩网络的对象。高维近邻关系是指样本对象中每两个样本对象分别关联的样本高维特征之间的近邻关系,低维近邻关系是指样本对象的中每两个样本对象分别关联的样本低维特征之间的近邻关系。
也就是说,本申请可以利用与样本对象的近邻关系相关的损失函数,对待训练的特征压缩网络进行训练,直至特征压缩网络收敛,得到训练好的特征压缩网络。
需要说明的是,本申请对模型训练所使用的算法不进行限制,例如可以采用梯度下降算法实现。
常规的损失函数一般是基于样本高维特征与样本低维特征之间的误差建立的函数,而在本申请的实施方式中,基于高维近邻关系和低维近邻关系构建损失函数,相较于通过常规的降维算法进行降维,或者通过利用常规的损失函数训练得到的特征压缩网络进行降维,可以使样本低维特征保持一定的近邻关系信息,又由于最近邻搜索算法的搜索过程是利用特征间的近邻关系实现的,因此,采用本申请提供的方法提高了压缩过程中近邻关系的完整性,进而提高了搜索的精度。
需要说明的是,本申请对特征压缩的比例d1/d2不进行限制,实际应用中特征压缩的比例d1/d2可以为2、4、8等。
步骤S102,利用参考低维特征确定多个聚类中心。
在本申请的实施方式中,每一个聚类中心可以表征参考低维特征的一种类型,进而表征某个对象的特性。
通过将每个参考对象与聚类中心进行比较,可以得到与每个参考对象关联的聚类中心的索引值,例如当某个参考对象的参考低维特征与标识号为10的聚类中心距离最近,则可以存储该标识号作为该参考对象的索引值,进而实现从浮点型数据量化到整型数据。
在本申请的一些实施方式中,终端可以对多个参考低维特征进行聚类,得到多个聚类中心。其中,聚类的过程可以通过K-Means聚类算法或其他聚类算法实现。
步骤S103,获取目标对象的目标特征。
具体的,目标对象是指待查询对象,其类型与参考对象和样本对象的类型相同。上述目标特征可以指目标对象的目标低维特征。
步骤S104,利用目标特征和多个聚类中心进行乘积量化搜索,得到与目标对象距离最近的参考对象。
在本申请的一些实施方式中,终端可以利用目标特征和与每个参考低维特征关联的聚类中心,确定目标特征与每个参考低维特征之间的距离,并将距离最小的参考低维特征对应的参考对象作为与目标对象距离最近的参考对象。
具体的,终端可以先计算目标特征与每个聚类中心之间的距离,接着,依据与每个参考低维特征关联的索引值,确定与每个参考低维特征关联的聚类中心,进而,终端可以将目标特征与某个参考低维特征关联的聚类中心之间的距离作为目标特征与该参考低维特征之间的距离。由于距离越小说明两个特征之间越相似,因此,终端可以将距离最小的参考低维特征对应的参考对象作为与目标对象距离最近的参考对象。
以目标对象为目标图像为例,当需要进行目标图像的场景识别时,可以提取目标图像的目标特征,再计算目标特征与每个聚类中心之间的距离,接着,依据与每个参考低维特征关联的索引值,确定与每个参考低维特征关联的聚类中心,进而,终端可以将目标特征与某个参考低维特征关联的聚类中心之间的距离作为目标特征与该参考低维特征之间的距离,并将距离最小的参考低维特征对应的参考对象作为与目标对象距离最近的参考对象,此时,终端便可以将目标图像所属的场景确定为与目标图像距离最近的参考图像所属的场景。
本申请的实施方式中,通过将参考对象的参考高维特征输入特征压缩网络中,得到由特征压缩网络输出的参考低维特征,并利用参考低维特征确定多个聚类中心,然后,获取目标对象的目标特征,并利用目标特征和多个聚类中心进行乘积量化搜索,得到与目标对象距离最近的参考对象,由于特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数,利用训练好的特征压缩网络对参考高维特征进行降维,能够避免直接将高维特征拆分为多个低维的子特征导致的特征之间相邻关系信息丢失的问题,进而提高搜索精度。
在本申请的一些实施方式中,终端可以构建图2所示的特征压缩网络。具体的,特征压缩网络中可以包括残差模块和多个主干模块。
相应的,上述步骤S101可以包括以下步骤S301至步骤S303。
步骤S301,将参考高维特征输入残差模块,得到残差模块输出的第一特征。
步骤S302,将参考高维特征输入多个主干模块中的第一个主干模块,得到第一个主干模块输出的第二特征,并将第二特征输入多个主干模块中的第二个主干模块,直至得到多个主干模块中最后一个主干模块输出的第三特征。
具体的,上述多个主干模块的数量H可以根据实际情况进行调整,一般可以为5至10。
在本申请的一些实施方式中,上述多个主干模块中的前H-1个主干模块可以采用相同的结构,均包含一个线性映射函数(Linear),一个ReLU(Rectified Linear Units)激活函数,以及一个批标准化(Batch normalization,BN)层,用于对参考高维特征进行降维。上述多个主干模块中的第H个主干模块可以包含一个线性映射函数(Linear),用于输出维度为d2的第三特征。可见,第一特征和第三特征的维度相同。
需要说明的是,每个主干模块的线性映射函数的形式可以为f(x)=W2x,参数d3为输入特征的维度,d4为输出特征的维度。前H-1个主干模块的输出特征的维度依次为其中,且也就是说,终端可以通过在前H-1个主干模块中的任意一个主干模块完成将参考高维特征降维到d2的维度。
具体的,终端可以将参考高维特征输入到第一个主干模块,由第一个主干模块通过线性映射函数将参考高维特征映射为维度为的特征,利用ReLU激活函数对该维度为的特征进行激活,并利用BN层进行归一化处理,得到维度的输出特征(也即前述第二特征)。然后,终端继续将维度的输出特征输入到第二个主干模块,以此类推,直至终端将维度为的输出特征输入到第H-1个主干模块,由第H-1个主干模块输出维度为的输出特征,并由第H个主干模块通过线性映射函数将维度为的输出特征映射为第三特征。
步骤S303,将第一特征与第三特征相加,得到参考低维特征。
在本申请的实施方式中,通过将第一特征与第三特征相加,可以得到维度为d2的参考低维特征。
本申请的实施方式中,不是直接将主干模块的输出值作为模型输出值,而是将主干模块输出的第三特征与残差模块输出的第一特征相加,避免了模型的输出值过分偏离实际的特征值,提高了特征压缩网络的收敛速度。
在完成对特征压缩网络的构建之后,终端可以利用基于样本对象的高维近邻关系和样本对象的低维近邻关系得到的损失函数,对特征压缩网络进行训练。
其中,上述高维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,上述低维近邻关系为多个样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离。
相应的,特征压缩网络的损失函数为基于高维欧氏距离和与高维欧氏距离对应的低维欧氏距离之间的误差值,以及与高维欧氏距离关联的权重值得到的函数。
在本申请的一些实施方式中,权重值的取值和与其关联的高维欧氏距离的大小相关。
具体的,损失函数的损失值loss的计算过程可以包括:计算高维欧氏距离和与高维欧氏距离对应的低维欧氏距离之间的误差值然后,计算与高维欧氏距离关联的权重值ωij,并利用每个权重值对每个误差值进行加权相加,得到累加值接着,将得到的累加值和样本对象的总数量的平方值m2相除,得到损失函数的损失值loss。也即,损失函数的损失值
其中,m表示样本对象的总数量,表示高维欧氏距离,xi表示与第i个样本对象关联的样本高维特征,xj表示与第j个样本对象关联的样本高维特征,表示低维欧氏距离,yi表示与第i个样本对象关联的样本低维特征,yj表示与第j个样本对象关联的样本低维特征。
在本申请的一些实施方式中,与高维欧氏距离关联的权重值ωij的计算过程可以包括:获取第一超参数α和第二超参数β,并计算各个高维欧氏距离的平均值mean;利用第一超参数α、第二超参数β和平均值mean确定互不相交的多个区间范围;然后,根据高维欧氏距离在多个区间范围中所处的目标区间范围,确定与高维欧氏距离关联的权重值。
其中,第一超参数α大于第二超参数β;α和β的具体取值可以根据实际情况设,实际应用中,α可以设置为2,β可以设置为0.01。
上述多个区间范围可以具体包括第一区间范围、第二区间范围和第三区间范围,其中,第二区间内范围的数值均小于第一区间范围内的数值,且均大于第三区间范围内的数值。
在一些实施方式中,第一区间范围可以指小于或等于若高维欧氏距离位于第一区间范围内,则终端可以计算高维欧氏距离和平均值之商的自然对数值的相反数并将第一超参数α和该相反数之间的最小值作为与高维欧氏距离关联的权重值。
在另一些实施方式中,第三区间范围可以指大于若高维欧氏距离位于第三区间范围内,则终端可以计算高维欧氏距离和平均值之商的自然对数值的相反数并将第二超参数β和该相反数之间的最大值作为与高维欧氏距离关联的权重值。
也即,与高维欧氏距离关联的权重值
在本申请的实施方式中,利用上述权重公式与损失函数进行特征压缩网络的训练,可以使高维欧氏距离小的特征之间高维近邻关系与低维近邻关系的精度更高,也即,将高维欧氏距离越小的两个参考高维特征输入至训练好的特征压缩网络后,得到的两个参考低维特征之间近邻关系信息将更完整。而乘积量化搜索算法的目的就是搜索与目标特征距离最近的特征,因此,这种方式可以使距离较近的特征之间相邻关系信息更加完整,进而进一步提高搜索精度。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为根据本申请,某些步骤可以采用其它顺序进行。
如图4所示为本申请实施例提供的一种乘积量化搜索装置400的结构示意图,所述乘积量化搜索装置400配置于终端上。
具体的,所述乘积量化搜索装置400可以包括:
特征压缩单元401,用于将参考对象的参考高维特征输入特征压缩网络中,得到由特征压缩网络输出的参考低维特征,特征压缩网络的损失函数为基于样本对象的高维近邻关系和样本对象的低维近邻关系得到的函数;
聚类单元402,用于利用参考低维特征确定多个聚类中心;
特征获取单元403,用于获取目标对象的目标特征;
乘积量化搜索单元404,用于利用目标特征和多个聚类中心进行乘积量化搜索,得到与目标对象距离最近的参考对象。
在本申请的一些实施方式中,上述高维近邻关系为多个样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,上述低维近邻关系为多个样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离;上述特征压缩网络的损失函数为基于高维欧氏距离和与高维欧氏距离对应的低维欧氏距离之间的误差值,以及与高维欧氏距离关联的权重值得到的函数,其中,权重值的取值和与其关联的高维欧氏距离的大小相关。
在本申请的一些实施方式中,上述损失函数的损失值的计算过程,包括:计算所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值;计算与所述高维欧氏距离关联的权重值,并利用每个所述权重值对每个所述误差值进行加权相加,得到累加值;将所述累加值和所述样本对象的总数量的平方值相除,得到所述损失函数的损失值。
在本申请的一些实施方式中,上述权重值的计算过程,包括:获取第一超参数和第二超参数,所述第一超参数大于所述第二超参数;计算各个所述高维欧氏距离的平均值;利用所述第一超参数、所述第二超参数和所述平均值确定互不相交的多个区间范围;根据所述高维欧氏距离在所述多个区间范围中所处的目标区间范围,确定与所述高维欧氏距离关联的权重值。
在本申请的一些实施方式中,上述特征压缩网络包括残差模块和多个主干模块;上述特征压缩单元401还可以具体用于:将参考高维特征输入残差模块,得到残差模块输出的第一特征;将参考高维特征输入多个主干模块中的第一个主干模块,得到第一个主干模块输出的第二特征,并将第二特征输入多个主干模块中的第二个主干模块,直至得到多个主干模块中最后一个主干模块输出的第三特征,其中,第一特征和第三特征的维度相同;将第一特征与第三特征相加,得到参考低维特征。
在本申请的一些实施方式中,上述聚类单元402还可以具体用于:对多个参考低维特征进行聚类,得到多个聚类中心。
在本申请的一些实施方式中,上述乘积量化搜索单元404还可以具体用于:利用目标特征和与每个参考低维特征关联的聚类中心,确定目标特征与每个参考低维特征之间的距离;将距离最小的参考低维特征对应的参考对象作为与目标对象距离最近的参考对象。
需要说明的是,为描述的方便和简洁,上述乘积量化搜索装置400的具体工作过程,可以参考图1至图3所述方法的对应过程,在此不再赘述。
如图5所示,为本申请实施例提供的一种终端的示意图。该终端5可以包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如乘积量化搜索程序。所述处理器50执行所述计算机程序52时实现上述各个乘积量化搜索方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示的特征压缩单元401、聚类单元402、特征获取单元403和乘积量化搜索单元404。
所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端中的执行过程。
例如,所述计算机程序可以被分割成:特征压缩单元、聚类单元、特征获取单元和乘积量化搜索单元。
各单元具体功能如下:特征压缩单元,用于将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;聚类单元,用于利用所述参考低维特征确定多个聚类中心;特征获取单元,用于获取目标对象的目标特征;乘积量化搜索单元,用于利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。
所述终端可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端的示例,并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端的内部存储单元,例如终端的硬盘或内存。所述存储器51也可以是所述终端的外部存储设备,例如所述终端上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对各个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种乘积量化搜索方法,其特征在于,包括:
将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
利用所述参考低维特征确定多个聚类中心;
获取目标对象的目标特征;
利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。
2.如权利要求1所述的乘积量化搜索方法,其特征在于,所述高维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本高维特征之间的高维欧氏距离,所述低维近邻关系为多个所述样本对象中每两个样本对象分别关联的样本低维特征之间的低维欧氏距离;
所述特征压缩网络的损失函数为基于所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值,以及与所述高维欧氏距离关联的权重值得到的函数,其中,所述权重值的取值和与其关联的高维欧氏距离的大小相关。
3.如权利要求2所述的乘积量化搜索方法,其特征在于,所述损失函数的损失值的计算过程,包括:
计算所述高维欧氏距离和与所述高维欧氏距离对应的低维欧氏距离之间的误差值;
计算与所述高维欧氏距离关联的权重值,并利用每个所述权重值对每个所述误差值进行加权相加,得到累加值;
将所述累加值和所述样本对象的总数量的平方值相除,得到所述损失函数的损失值。
4.如权利要求2或3所述的乘积量化搜索方法,其特征在于,所述权重值的计算过程,包括:
获取第一超参数和第二超参数,所述第一超参数大于所述第二超参数;
计算各个所述高维欧氏距离的平均值;
利用所述第一超参数、所述第二超参数和所述平均值确定互不相交的多个区间范围;
根据所述高维欧氏距离在所述多个区间范围中所处的目标区间范围,确定与所述高维欧氏距离关联的权重值。
5.如权利要求1至3任意一项所述的乘积量化搜索方法,其特征在于,所述特征压缩网络包括残差模块和多个主干模块;
所述将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,包括:
将所述参考高维特征输入所述残差模块,得到所述残差模块输出的第一特征;
将所述参考高维特征输入所述多个主干模块中的第一个主干模块,得到所述第一个主干模块输出的第二特征,并将所述第二特征输入所述多个主干模块中的第二个主干模块,直至得到多个主干模块中最后一个主干模块输出的第三特征,其中,所述第一特征和所述第三特征的维度相同;
将所述第一特征与所述第三特征相加,得到所述参考低维特征。
6.如权利要求1至3任意一项所述的乘积量化搜索方法,其特征在于,所述利用所述参考低维特征确定多个聚类中心,包括:
对多个所述参考低维特征进行聚类,得到多个聚类中心。
7.如权利要求1至3任意一项所述的乘积量化搜索方法,其特征在于,所述利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象,包括:
利用所述目标特征和与每个所述参考低维特征关联的聚类中心,确定所述目标特征与每个所述参考低维特征之间的距离;
将所述距离最小的参考低维特征对应的参考对象作为与所述目标对象距离最近的参考对象。
8.一种乘积量化搜索装置,其特征在于,包括:
特征压缩单元,用于将参考对象的参考高维特征输入特征压缩网络中,得到由所述特征压缩网络输出的参考低维特征,所述特征压缩网络的损失函数为基于样本对象的高维近邻关系和所述样本对象的低维近邻关系得到的函数;
聚类单元,用于利用所述参考低维特征确定多个聚类中心;
特征获取单元,用于获取目标对象的目标特征;
乘积量化搜索单元,用于利用所述目标特征和所述多个聚类中心进行乘积量化搜索,得到与所述目标对象距离最近的参考对象。
9.一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229216.1A CN113918598A (zh) | 2021-10-21 | 2021-10-21 | 一种乘积量化搜索方法、装置、终端和存储介质 |
PCT/CN2022/099855 WO2023065697A1 (zh) | 2021-10-21 | 2022-06-20 | 一种乘积量化搜索方法、装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229216.1A CN113918598A (zh) | 2021-10-21 | 2021-10-21 | 一种乘积量化搜索方法、装置、终端和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113918598A true CN113918598A (zh) | 2022-01-11 |
Family
ID=79242273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111229216.1A Pending CN113918598A (zh) | 2021-10-21 | 2021-10-21 | 一种乘积量化搜索方法、装置、终端和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113918598A (zh) |
WO (1) | WO2023065697A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023065697A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳云天励飞技术股份有限公司 | 一种乘积量化搜索方法、装置、终端和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037913B (zh) * | 2023-10-07 | 2024-01-26 | 之江实验室 | 一种蛋白质多序列比对方法、装置、存储介质及电子设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4215386B2 (ja) * | 2000-12-15 | 2009-01-28 | 三菱電機株式会社 | 類似オブジェクト検索方法及び類似オブジェクト検索装置 |
CN101334786B (zh) * | 2008-08-01 | 2010-11-17 | 浙江大学 | 一种基于规则邻域的数据降维方法 |
CN111177438B (zh) * | 2018-11-12 | 2023-05-12 | 深圳云天励飞技术有限公司 | 图像特征值的搜索方法、装置、电子设备及存储介质 |
CN109740660A (zh) * | 2018-12-27 | 2019-05-10 | 深圳云天励飞技术有限公司 | 图像处理方法及装置 |
CN112560635B (zh) * | 2020-12-10 | 2024-03-26 | 深圳云天励飞技术股份有限公司 | 人脸匹配加速方法、装置、电子设备及存储介质 |
CN113918598A (zh) * | 2021-10-21 | 2022-01-11 | 深圳云天励飞技术股份有限公司 | 一种乘积量化搜索方法、装置、终端和存储介质 |
-
2021
- 2021-10-21 CN CN202111229216.1A patent/CN113918598A/zh active Pending
-
2022
- 2022-06-20 WO PCT/CN2022/099855 patent/WO2023065697A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023065697A1 (zh) * | 2021-10-21 | 2023-04-27 | 深圳云天励飞技术股份有限公司 | 一种乘积量化搜索方法、装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023065697A1 (zh) | 2023-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jégou et al. | On the burstiness of visual elements | |
JP5926291B2 (ja) | 類似画像を識別する方法および装置 | |
US20210012153A1 (en) | Image processing method and apparatus, electronic device, and storage medium | |
CN113918598A (zh) | 一种乘积量化搜索方法、装置、终端和存储介质 | |
US9940366B2 (en) | Image search device, image search method, program, and computer-readable storage medium | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
WO2023108995A1 (zh) | 向量相似度计算方法、装置、设备及存储介质 | |
CN111915015A (zh) | 一种异常值检测方法、装置、终端设备及存储介质 | |
CN114782686A (zh) | 一种图像分割方法、装置、终端设备及存储介质 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN114241585A (zh) | 一种跨年龄人脸识别模型训练方法、识别方法及装置 | |
CN113743650B (zh) | 电力负荷预测方法、装置、设备与存储介质 | |
CN116310462B (zh) | 一种基于秩约束自表示的图像聚类方法及装置 | |
CN113868291A (zh) | 一种最近邻搜索方法、装置、终端和存储介质 | |
CN112149747A (zh) | 一种基于改良Ghost3D模块和协方差池化的高光谱图像分类方法 | |
CN115081542B (zh) | 子空间聚类方法、终端设备及计算机可读存储介质 | |
CN110765291A (zh) | 检索方法、装置及电子设备 | |
CN116089660A (zh) | 一种监测系统的数据存储方法 | |
CN110134813B (zh) | 图像检索方法、图像检索装置及终端设备 | |
CN111782812A (zh) | K-Means文本聚类方法、装置及终端设备 | |
CN116777727B (zh) | 存算一体芯片、图像处理方法、电子设备及存储介质 | |
KR20020011529A (ko) | 주파수 평면 분할 특징값과 저니크 변환을 이용한 영상의특징추출 방법/장치 및 그를 이용한 영상 검색 방법 및 장치 | |
US20240119269A1 (en) | Dynamic sparsity-based acceleration of neural networks | |
US20240028895A1 (en) | Switchable one-sided sparsity acceleration | |
CN110942014B (zh) | 人脸识别快速检索方法、装置、服务器及存储装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |