CN111274265B - 基于多种检索方式融合检索的方法和装置 - Google Patents

基于多种检索方式融合检索的方法和装置 Download PDF

Info

Publication number
CN111274265B
CN111274265B CN202010062528.7A CN202010062528A CN111274265B CN 111274265 B CN111274265 B CN 111274265B CN 202010062528 A CN202010062528 A CN 202010062528A CN 111274265 B CN111274265 B CN 111274265B
Authority
CN
China
Prior art keywords
candidate
retrieval
target
vector
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010062528.7A
Other languages
English (en)
Other versions
CN111274265A (zh
Inventor
李涛
杨文�
魏宏
方概
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010062528.7A priority Critical patent/CN111274265B/zh
Publication of CN111274265A publication Critical patent/CN111274265A/zh
Application granted granted Critical
Publication of CN111274265B publication Critical patent/CN111274265B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/535Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Abstract

本说明书实施例提供一种基于多种检索方式融合检索的方法和装置,方法包括:获取目标检索对象对应的目标检索向量和过滤条件;根据目标检索向量,从数据库的备选检索对象集中召回距离目标检索向量最近的第一数目个第一候选对象,第一数目为预先设定的;根据过滤条件,按照条件过滤方式从第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将第二数目添加到累积数目;若累积数目小于预设阈值,则将第一数目个第一候选对象从备选检索对象集中排除,以更新备选检索对象集,并再次从更新的备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于预设阈值。能够兼顾检索性能和返回结果数量。

Description

基于多种检索方式融合检索的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及基于多种检索方式融合检索的方法和装置。
背景技术
当前存在着大量的检索场景,如电子支付平台的线下刷脸支付时对人脸图像的检索、电子商务平台的商品图片检索等。为了达到最佳的检索性能,常常需要基于多种检索方式融合检索。
现有技术中基于多种检索方式融合检索时,通常先进行向量检索,然后基于其他条件对向量检索的结果进行过滤,这样会带来向量检索的结果大量被过滤,导致不满足返回结果数量,甚至返回为空的结果。
因此,希望能有改进的方案,能够基于多种检索方式融合检索时兼顾检索性能和返回结果数量。
发明内容
本说明书一个或多个实施例描述了一种基于多种检索方式融合检索的方法和装置,能够基于多种检索方式融合检索时兼顾检索性能和返回结果数量。
第一方面,提供了一种基于多种检索方式融合检索的方法,方法包括:
获取目标检索对象对应的目标检索向量和过滤条件;
根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。
在一种可能的实施方式中,所述方法还包括:
若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。
在一种可能的实施方式中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:
通过近似最近邻(approximate nearest neighbor,ANN)向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象。
在一种可能的实施方式中,所述从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:
根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;
在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。
在一种可能的实施方式中,所述目标检索对象包括:图片或文本。
在一种可能的实施方式中,所述目标检索对象为人脸图片;
所述过滤条件包括:
人脸图片对应用户的地域条件。
在一种可能的实施方式中,所述目标检索对象为商品图片;
所述过滤条件包括:
商品图片对应商品的商品类型条件。
在一种可能的实施方式中,所述目标检索对象为文本;
所述过滤条件包括:
文本包含的关键词条件。
第二方面,提供了一种基于多种检索方式融合检索的装置,装置包括:
获取单元,用于获取目标检索对象对应的目标检索向量和过滤条件;
第一检索单元,用于根据所述获取单元获取的目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
第二检索单元,用于根据所述获取单元获取的过滤条件,按照条件过滤方式从所述第一检索单元得到的第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
迭代单元,用于若所述累积数目小于预设阈值,则将所述第一检索单元得到的第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次通过所述第一检索单元从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到所述第二检索单元筛选出的候选对象的累积数目大于或等于所述预设阈值。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取目标检索对象对应的目标检索向量和过滤条件;然后根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;接着根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;最后若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。由上可见,本说明书实施例,不是通过一次向量检索和条件过滤得到最终的检索结果,而是通过迭代查询的方式,从而能够兼顾检索性能和返回结果数量。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的基于多种检索方式融合检索的方法流程图;
图3示出根据一个实施例的基于多种检索方式融合检索的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及基于多种检索方式融合检索,具体地,涉及向量检索方式和普通查询检索方式的融合检索。其中,向量检索方式:根据输入向量,在待检索向量中查询最相似的前k个向量的过程,是近似最近邻(approximate nearest neighbor,ANN)领域重要的技术,在图片搜索、文本搜索、推荐场景大量应用。普通查询检索方式(即条件过滤方式):指的是结构化数据的检索,如文本匹配、数值范围检索等。参照图1,针对目标检索对象先进行向量检索,从数据库中召回第一数目个候选对象,然后基于普通查询对第一数目个候选对象进行过滤,得到第二数目个候选对象,第二数目可能与第一数目之间的差距过大,甚至第二数目为0。因此通常很难预先设定第一数目的数值,以使第二数目大于或等于预设阈值,并且,如果第一数目的数值设置的过大,会使得向量检索时的运算量过大,检索性能欠佳。
本说明书实施例采用了迭代查询的方案,结合高效的向量检索算法,解决了多查询难题的同时兼顾了性能。
图2示出根据一个实施例的基于多种检索方式融合检索的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中基于多种检索方式融合检索的方法包括以下步骤:步骤21,获取目标检索对象对应的目标检索向量和过滤条件;步骤22,根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;步骤23,根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;步骤24,若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取目标检索对象对应的目标检索向量和过滤条件。可以理解的是,该目标检索向量可以是一个多维向量,目标检索对象和数据库中的各候选对象被映射到同一多维空间中;该过滤条件可以仅包括一项条件或者多项条件的组合。
在一个示例中,所述目标检索对象包括:图片或文本。
在一个示例中,所述目标检索对象为人脸图片;所述过滤条件包括:人脸图片对应用户的地域条件。例如,该地域条件可以限定为用户所在的城市。该示例具体可以应用于电子支付平台的线下刷脸支付时对人脸图像的检索。
在一个示例中,所述目标检索对象为商品图片;所述过滤条件包括:商品图片对应商品的商品类型条件。例如,该商品类型条件可以限定为商品类目。该示例具体可以应用于电子商务平台的商品图片检索。
在一个示例中,所述目标检索对象为文本;所述过滤条件包括:文本包含的关键词条件。该示例具体可以应用于机器人客服针对用户问句的知识点召回。
然后在步骤22,根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的。可以理解的是,上述备选检索对象集可以包括数据库中的全部候选对象,或者仅包括数据库中的部分候选对象。
本说明书实施例中,上述数据库可以支持结构化查询语言(structured querylanguage,SQL),并具备高可用性、高扩展性等特点。
在一个示例中,通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象。可以理解的是,面对庞大的数据量以及数据库中高维的数据信息,ANN向量检索方式能够获得理想的检索效果与可接受的检索时间。
ANN向量检索方式具体的还包括多种更为具体的检索方式,典型地,利用数据量增大后数据之间会形成簇状聚集分布的特性,通过对数据分析聚类的方法对数据库中的数据进行分类或编码,对于目标数据根据其数据特征预测其所属的数据类别,返回类别中的部分或全部作为检索结果。
在一个示例中,具体的可以基于分层的(hierarchcal navigable small world,HNSW)向量检索算法。
在一个示例中,根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。
接着在步骤23,根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目。可以理解的是,第二数目小于第一数目,且可能为0。
本说明书实施例,条件过滤方式具体可以进行多条件组合检索,例如,检索条件:条件1and条件2or条件3。
最后在步骤24,若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。可以理解的是,步骤24的执行过程中包括对步骤22和步骤23的循环迭代,若首次执行步骤22和步骤23后累积数目大于或等于预设阈值,则不存在对步骤22和步骤23的循环迭代。
在一个示例中,所述方法还包括:若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。
通过本说明书实施例提供的方法,首先获取目标检索对象对应的目标检索向量和过滤条件;然后根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;接着根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;最后若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。由上可见,本说明书实施例,不是通过一次向量检索和条件过滤得到最终的检索结果,而是通过迭代查询的方式,从而能够兼顾检索性能和返回结果数量。
本说明书实施例中,可以通过检索函数实现向量查询,在检索函数调用开始时,如果是首次调用,会创建用于保存结果的优先队列,然后从向量索引中拿到最相近的K个结果放入到优先队列中并返回。如果不是首次调用,会从优先队列中取出所有记录并返回,用于其他条件的过滤。如果过滤后没有满足需要的数量,会再次进入检索函数入口进行查询,直到满足数量要求为止。迭代查询可以保证结果数量、过滤条件和向量距离排序多条件同时满足。
本说明书实施例相对于其他解决方案有明显的优势。一种其他解决方案为,单纯扩大向量检索的召回数量,以防止过滤后少结果或者空结果,这种方案首先没有解决根本问题,还是会存在少结果或者空结果情况,至少降低了概率;其次,加大向量检索召回数量会大大降低检索性能。另一种其他解决方案为,根据普通检索条件对数据先行拆分,也就是先通过普通查询条件定位到要查询的向量索引,然后进行查询,这样解决了事后过滤带来的问题。但是这种方案适合单纯的较大类别查询场景,可以合理的进行数据先行查分,但是对于复杂查询场景,基本无法进行数据查分,即使可以查分也会是十分庞大的数据量,已经失去了索引的意义。
根据另一方面的实施例,还提供一种基于多种检索方式融合检索的装置,该装置用于执行本说明书实施例提供的基于多种检索方式融合检索的方法。图3示出根据一个实施例的基于多种检索方式融合检索的装置的示意性框图。如图3所示,该装置300包括:
获取单元31,用于获取目标检索对象对应的目标检索向量和过滤条件;
第一检索单元32,用于根据所述获取单元31获取的目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
第二检索单元33,用于根据所述获取单元31获取的过滤条件,按照条件过滤方式从所述第一检索单元32得到的第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
迭代单元34,用于若所述累积数目小于预设阈值,则将所述第一检索单元32得到的第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次通过所述第一检索单元32从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到所述第二检索单元33筛选出的候选对象的累积数目大于或等于所述预设阈值。
可选地,作为一个实施例,所述装置还包括:
输出单元,用于若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。
可选地,作为一个实施例,所述第一检索单元32,具体用于通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象。
可选地,作为一个实施例,所述第一检索单元32,具体用于:
根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;
在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。
可选地,作为一个实施例,所述目标检索对象包括:图片或文本。
可选地,作为一个实施例,所述目标检索对象为人脸图片;
所述过滤条件包括:
人脸图片对应用户的地域条件。
可选地,作为一个实施例,所述目标检索对象为商品图片;
所述过滤条件包括:
商品图片对应商品的商品类型条件。
可选地,作为一个实施例,所述目标检索对象为文本;
所述过滤条件包括:
文本包含的关键词条件。
通过本说明书实施例提供的装置,首先获取单元31获取目标检索对象对应的目标检索向量和过滤条件;然后第一检索单元32根据所述目标检索向量,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;接着第二检索单元33根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;最后迭代单元34若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值。由上可见,本说明书实施例,不是通过一次向量检索和条件过滤得到最终的检索结果,而是通过迭代查询的方式,从而能够兼顾检索性能和返回结果数量。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (14)

1.一种基于多种检索方式融合检索的方法,所述方法包括:
获取目标检索对象对应的目标检索向量和过滤条件;
根据所述目标检索向量,通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
根据所述过滤条件,按照条件过滤方式从所述第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
若所述累积数目小于预设阈值,则将所述第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到筛选出的候选对象的累积数目大于或等于所述预设阈值;
其中,所述通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,包括:
根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;
在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。
2.如权利要求1所述的方法,其中,所述方法还包括:
若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。
3.如权利要求1所述的方法,其中,所述目标检索对象包括:图片或文本。
4.如权利要求1所述的方法,其中,所述目标检索对象为人脸图片;
所述过滤条件包括:
人脸图片对应用户的地域条件。
5.如权利要求1所述的方法,其中,所述目标检索对象为商品图片;
所述过滤条件包括:
商品图片对应商品的商品类型条件。
6.如权利要求1所述的方法,其中,所述目标检索对象为文本;
所述过滤条件包括:
文本包含的关键词条件。
7.一种基于多种检索方式融合检索的装置,所述装置包括:
获取单元,用于获取目标检索对象对应的目标检索向量和过滤条件;
第一检索单元,用于根据所述获取单元获取的目标检索向量,通过近似最近邻ANN向量检索方式,从数据库的备选检索对象集中召回距离所述目标检索向量最近的第一数目个第一候选对象,所述第一数目为预先设定的;
第二检索单元,用于根据所述获取单元获取的过滤条件,按照条件过滤方式从所述第一检索单元得到的第一数目个第一候选对象中筛选出第二数目个第一候选对象,并将所述第二数目添加到累积数目;
迭代单元,用于若所述累积数目小于预设阈值,则将所述第一检索单元得到的第一数目个第一候选对象从所述备选检索对象集中排除,以更新所述备选检索对象集,并再次通过所述第一检索单元从更新的所述备选检索对象集中召回排序在前的第一数目个第二候选对象,直到所述第二检索单元筛选出的候选对象的累积数目大于或等于所述预设阈值;
其中,所述第一检索单元,具体用于:
根据所述目标检索向量,从数据库的备选检索对象集中选择第一数目个初始候选对象放入优先队列中;所述优先队列中与所述目标检索向量距离最远的初始候选对象为第一初始候选对象;所述第一初始候选对象与所述目标检索向量之间的距离为第一距离;
在所述第一初始候选对象的各邻居中,寻找与所述目标检索向量之间的距离小于所述第一距离的替换候选对象,用所述替换候选对象替换所述优先队列中的所述第一初始候选对象,再基于替换后的优先队列寻找替换候选对象,直到无法寻找到所述替换候选对象,将所述优先队列中的各候选对象作为距离所述目标检索向量最近的第一数目个第一候选对象。
8.如权利要求7所述的装置,其中,所述装置还包括:
输出单元,用于若所述累积数目大于或等于所述预设阈值,则输出筛选出的所述累积数目的候选对象作为所述目标检索对象对应的检索结果。
9.如权利要求7所述的装置,其中,所述目标检索对象包括:图片或文本。
10.如权利要求7所述的装置,其中,所述目标检索对象为人脸图片;
所述过滤条件包括:
人脸图片对应用户的地域条件。
11.如权利要求7所述的装置,其中,所述目标检索对象为商品图片;
所述过滤条件包括:
商品图片对应商品的商品类型条件。
12.如权利要求7所述的装置,其中,所述目标检索对象为文本;
所述过滤条件包括:
文本包含的关键词条件。
13.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6中任一项的所述的方法。
14.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项的所述的方法。
CN202010062528.7A 2020-01-19 2020-01-19 基于多种检索方式融合检索的方法和装置 Active CN111274265B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062528.7A CN111274265B (zh) 2020-01-19 2020-01-19 基于多种检索方式融合检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062528.7A CN111274265B (zh) 2020-01-19 2020-01-19 基于多种检索方式融合检索的方法和装置

Publications (2)

Publication Number Publication Date
CN111274265A CN111274265A (zh) 2020-06-12
CN111274265B true CN111274265B (zh) 2023-09-19

Family

ID=71003480

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062528.7A Active CN111274265B (zh) 2020-01-19 2020-01-19 基于多种检索方式融合检索的方法和装置

Country Status (1)

Country Link
CN (1) CN111274265B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257020A (ja) * 2006-03-20 2007-10-04 Biomatics Inc 生物学的な配列情報の検索装置、検索方法および検索プログラム
KR20080111212A (ko) * 2007-06-18 2008-12-23 서강대학교산학협력단 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN108664526A (zh) * 2017-04-01 2018-10-16 华为技术有限公司 检索的方法和设备
CN110413848A (zh) * 2019-07-19 2019-11-05 上海赜睿信息科技有限公司 一种数据检索方法、电子设备和计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110320464A1 (en) * 2009-04-06 2011-12-29 Mitsubishi Electric Corporation Retrieval device
US10210180B2 (en) * 2015-12-04 2019-02-19 Intel Corporation Hybrid nearest neighbor search tree with hashing table

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007257020A (ja) * 2006-03-20 2007-10-04 Biomatics Inc 生物学的な配列情報の検索装置、検索方法および検索プログラム
KR20080111212A (ko) * 2007-06-18 2008-12-23 서강대학교산학협력단 연관 피드백을 포함한 내용 기반 멀티미디어 검색 방법
CN108664526A (zh) * 2017-04-01 2018-10-16 华为技术有限公司 检索的方法和设备
CN107491518A (zh) * 2017-08-15 2017-12-19 北京百度网讯科技有限公司 一种搜索召回方法和装置、服务器、存储介质
CN110413848A (zh) * 2019-07-19 2019-11-05 上海赜睿信息科技有限公司 一种数据检索方法、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN111274265A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
EP3709184B1 (en) Sample set processing method and apparatus, and sample querying method and apparatus
Garcia-Fidalgo et al. Hierarchical place recognition for topological mapping
US6754675B2 (en) Image retrieval system
CN109033101B (zh) 标签推荐方法及装置
US20070094226A1 (en) Modular intelligent multimedia analysis system
CN109871464B (zh) 一种基于ucl语义标引的视频推荐方法与装置
CN110188210B (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及系统
KR20120053211A (ko) 멀티미디어 데이터 검색 방법, 장치 및 패턴인식 방법
CN109359188B (zh) 一种组件编排方法和系统
CN112328891A (zh) 训练搜索模型的方法、搜索目标对象的方法及其装置
CN113641896A (zh) 一种模型训练以及推荐概率预测方法及装置
CN111859004A (zh) 检索图像的获取方法、装置、设备及可读存储介质
KR20220070482A (ko) 이미지 증분 클러스터링 방법, 장치, 전자 기기, 저장 매체 및 프로그램 제품
CN103324641B (zh) 信息记录推荐方法和装置
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN112052251B (zh) 目标数据更新方法和相关装置、设备及存储介质
CN111274265B (zh) 基于多种检索方式融合检索的方法和装置
CN110209895B (zh) 向量检索方法、装置和设备
CN115687676A (zh) 信息检索方法、终端及计算机可读存储介质
Chen et al. Ranked window query retrieval over video repositories
CN112162986B (zh) 一种并行top-k范围skyline查询方法和系统
JP2017504091A (ja) 連続画像処理
CN115146103A (zh) 图像检索方法、装置、计算机设备、存储介质和程序产品
US20200097595A1 (en) Augmenting project data with searchable metadata for facilitating project queries
KR20200101643A (ko) 인공지능 기반의 유사 디자인 검색 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant