CN111597295A - 一种分布式相似句对的检索方法及装置 - Google Patents

一种分布式相似句对的检索方法及装置 Download PDF

Info

Publication number
CN111597295A
CN111597295A CN201910126747.4A CN201910126747A CN111597295A CN 111597295 A CN111597295 A CN 111597295A CN 201910126747 A CN201910126747 A CN 201910126747A CN 111597295 A CN111597295 A CN 111597295A
Authority
CN
China
Prior art keywords
text
recall
retrieval
partition
texts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910126747.4A
Other languages
English (en)
Inventor
田伟伟
董健
颜水成
卢禹锟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201910126747.4A priority Critical patent/CN111597295A/zh
Publication of CN111597295A publication Critical patent/CN111597295A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分布式相似句对的检索方法及装置,该方法包括:获取检索文本和来自文本候选集中的待检索的召回文本,然后分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值,进而依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区,最后确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。由此,本发明实施例通过依据键值对检索文本和召回文本进行分布式分区,并使得同一分区内的检索文本和召回文本的键值相同,由于键值相同的文本的特征向量是相似的,因此在分区内进行文本的检索可以有效地缩小文本的检索范围。

Description

一种分布式相似句对的检索方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种分布式相似句对的检索方法及装置。
背景技术
现有技术中,从海量的文本数据中检索出语义相似的文本具有广泛的应用,比如可以应用在人机交互、搜索等场景中,可以用于亿级query特征向量对亿级网页title特征向量做相似性召回。但是,该项技术一直是相关领域中的一个技术难点。
传统的检索方式是直接计算出特征向量之间的点积距离或者欧式距离并做排序,例如在搜索场景中,用户的搜索是一个短文本query,待检索的全量的网页对应的网页列表中包含相应的title,若要利用query召回出最相似的title,现有技术通常是将query和所有的title做匹配,即直接将query的特征向量和title的特征向量做点积(矩阵乘矩阵),但是,这种检索方式比较适应于单机且网页数据量有限的场景,而并不适合处理海量数据。目前采用局部敏感哈希(LSH,Locality Sensitive Hashing)虽然可以更快的对检索结果进行召回,但是计算过程仍然不适用分布式的全量召回。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的分布式相似句对的检索方法及装置。
依据本发明一方面,提供了一种分布式相似句对的检索方法,包括:
获取检索文本和来自文本候选集中的待检索的召回文本;
分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
可选地,获取检索文本和来自文本候选集中的待检索的召回文本,包括:
基于用户输入的搜索query获取所述检索文本;
调用包含待检索的召回文本的文本候选集,从所述文本候选集中获取召回文本。
可选地,基于特征向量计算所述检索文本和所述召回文本各自对应的键值,包括:
采用目标哈希函数对所述检索文本和所述召回文本的特征向量分别进行量化计算,以得到相应的哈希值;
利用计算得到的哈希值分别作为所述检索文本和召回文本的键值。
可选地,基于特征向量计算所述检索文本和所述召回文本各自对应的键值之前,还包括:
调取预置的哈希函数集合;
从调取的所述哈希函数集合中获取所述目标哈希函数。
可选地,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
若所述检索文本包含多个,分别确定各检索文本所属分区;
将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点;
各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
可选地,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
确定所述检索文本所属分区,计算所述检索文本与其所属分区内的召回文本的相似度值;
从所述召回文本中选取相似度值大于预设相似度值的召回文本。
可选地,从所述召回文本中选取相似度值大于预设相似度值的召回文本之后,还包括:
按照相似度值的大小对选取的召回文本进行排序;
选取排名前N的召回文本,将所述排名前N的召回文本作为所述检索文本的相似句对检索结果,其中,N为正整数。
依据本发明另一方面,还提供了一种分布式相似句对的检索装置,包括:
第一获取模块,适于获取检索文本和来自文本候选集中的待检索的召回文本;
计算模块,适于分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
分区模块,适于依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
检索模块,适于确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
可选地,所述第一获取模块还适于:
基于用户输入的搜索query获取所述检索文本;
调用包含待检索的召回文本的文本候选集,从所述文本候选集中获取召回文本。
可选地,所述计算模块还适于:
采用目标哈希函数对所述检索文本和所述召回文本的特征向量分别进行量化计算,以得到相应的哈希值;
利用计算得到的哈希值分别作为所述检索文本和召回文本的键值。
可选地,还包括:
调取模块,适于在所述计算模块基于特征向量计算所述检索文本和所述召回文本各自对应的键值之前,调取预置的哈希函数集合;
第二获取模块,适于从调取的所述哈希函数集合中获取所述目标哈希函数。
可选地,所述检索模块还适于:
若所述检索文本包含多个,分别确定各检索文本所属分区;
将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点;
各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
可选地,所述检索模块还适于:
确定所述检索文本所属分区,计算所述检索文本与其所属分区内的召回文本的相似度值;
从所述召回文本中选取相似度值大于预设相似度值的召回文本。
可选地,还包括:
排序模块,适于在所述检索模块从所述召回文本中选取相似度值大于预设相似度值的召回文本之后,按照相似度值的大小对选取的召回文本进行排序;
选取模块,适于选取排名前N的召回文本,将所述排名前N的召回文本作为所述检索文本的相似句对检索结果,其中,N为正整数。
依据本发明再一方面,还提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行上文任意实施例中的分布式相似句对的检索方法。
依据本发明又一方面,还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行上文任意实施例中的分布式相似句对的检索方法。
在本发明实施例中,在进行相似句对的检索过程中可以先获取检索文本和来自文本候选集中的待检索的召回文本,然后分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值,进而依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区,最后确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。由此,本发明实施例通过依据键值对检索文本和召回文本进行分布式分区,并使得同一分区内的检索文本和召回文本的键值相同,由于键值相同的文本的特征向量是相似的,因此在分区内进行文本的检索可以有效地缩小文本的检索范围,即缩小了文本的召回空间,进而在后续可以更加快速地检索到与检索文本相似的召回文本。进一步地,不同分区内的检索文本在检索过程中可以互不干涉,并行的利用各分区内的检索文本检索与其同一分区中的召回文本,既提高了检索文本的检索效率,又节约了检索文本的检索时间。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的分布式相似句对的检索方法的流程示意图;
图2示出了根据本发明一个实施例的分布式相似句对的检索过程的示意图;
图3示出了根据本发明一个实施例的分布式相似句对的检索装置的结构示意图;
图4示出了根据本发明另一个实施例的分布式相似句对的检索装置的结构示意图;
图5示出了根据本发明再一个实施例的分布式相似句对的检索装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为解决上述技术问题,本发明实施例提供了一种分布式相似句对的检索方法。图1示出了根据本发明一个实施例的分布式相似句对的检索方法的流程示意图。参见图1,该方法至少包括步骤S102至步骤S108。
步骤S102,获取检索文本和来自文本候选集中的待检索的召回文本。
步骤S104,分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值。
步骤S106,依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区。
步骤S108,确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
在本发明实施例中,在进行相似句对的检索过程中可以先获取检索文本和来自文本候选集中的待检索的召回文本,然后分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值,进而依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区,最后确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。由此,本发明实施例通过依据键值对检索文本和召回文本进行分布式分区,并使得同一分区内的检索文本和召回文本的键值相同,由于键值相同的文本的特征向量是相似的,因此在分区内进行文本的检索可以有效地缩小文本的检索范围,即缩小了文本的召回空间,进而在后续可以更加快速地检索到与检索文本相似的召回文本。
进一步地,不同分区内的检索文本在检索过程中可以互不干涉,并行的利用各分区内的检索文本检索与其同一分区中的召回文本,既提高了检索文本的检索效率,又节约了检索文本的检索时间。
参见上文步骤S102,在本发明一实施例中,在获取检索文本和来自文本候选集中的待检索的召回文本时,具体可以基于用户输入的搜索query来获取相应的检索文本,并且,通过调用包含待检索的召回文本的文本候选集,以从文本候选集中获取召回文本。该实施例中,若在搜索的一个场景中,文本候选集中包含的待检索的召回文本可以为多个全量的网页,且所有网页的网页标题title形成网页列表,此时,需要基于文本候选集中的网页title召回出与检索文本最相似的网页title。
参见上文步骤S104,在本发明一实施例中,可以采用目标哈希函数对检索文本和召回文本的特征向量分别进行量化计算,从而计算得到相应的哈希值,此时将计算得到的哈希值分别作为检索文本和召回文本的键值。
这里对特征向量进行量化计算实际上是将特征向量投影量化到相应的哈希值,大体上较为相似的检索文本和召回文本经过量化得到的哈希值通常是相同的,而完全不相似的检索文本和召回文本经过量化得到的哈希值通常是不同的。例如,一个检索文本的特征向量vq0量化得到的哈希值为K0,一个召回文本的特征向量vc0量化得到的哈希值为K0,另一个召回文本的特征向量vc1量化得到的哈希值为K1,其中,K0和K1对应不同的哈希值。通过文本的哈希值可知,特征向量vq0对应的检索文本与特征向量vc0对应的召回文本具有一定的相似性,而特征向量vq0对应的检索文本与特征向量vc1对应的召回文本不可能具有相似。
该实施例中,目标哈希函数可以来自于包含有多个哈希函数的哈希函数集合(例如,哈希函数集合中包含有一百或三百或其他数量的哈希函数),因此在采用目标哈希函数计算检索文本和召回文本各自对应的键值之前,需要先调取预置的哈希函数集合,然后从调取的哈希函数集合中获取目标哈希函数。
参见上文步骤S106,在本发明一实施例中,在上文步骤S104计算得到检索文本和召回文本各自对应的键值之后,还可以依据键值对检索文本和召回文本进行分布式分区,在分区时将键值相同的检索文本和召回文本划分在同一分区内。
例如,结合上文实施例,若采用计算得到的哈希值分别作为检索文本和召回文本的键值,且K0和K1对应不同的哈希值,那么可以依据key值对检索文本和召回文本进行分区。具体的,可以将对应的哈希值为K0的检索文本和召回文本划分为同一分区,即将特征向量vq0对应的检索文本与特征向量vc0对应的召回文本划分为同一分区。将对应的哈希值为K1的检索文本和召回文本划分为同一分区,即将特征向量vc1对应的召回文本自己划分为一个分区。当然,上述举例仅仅是示意性的,这对本申请并不造成任何限定。
参见上文步骤S108,在本发明一实施例中,当确定了检索文本的所属分区之后,可以在检索文本所属分区内检索与其相似的召回文本,若检索文本包含有多个,则可以分别确定各检索文本所属的分区。然后,将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点,进而由各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
例如,一个分布式系统中包含有三个计算节点,分别为partition0节点、partition1节点、partition2节点。检索文本包含有三个,分别为检索文本1、检索文本2和检索文本3,且各检索文本分别被划分在不同的分区,那么可以将各分区内的检索文本和召回文本分别发送至分布式系统的三个计算节点。假设将检索文本1和其所属分区内的召回文本发送至partition0节点,检索文本2和其所属分区内的召回文本发送至partition1节点,检索文本3和其所属分区内的召回文本发送至partition2节点,那么这三个计算节点可以并行的执行对检索文本的检索操作,且各检索文本的检索范围为各自所属的分区,从而有效地缩小了检索文本的检索范围,提高了检索文本的检索效率。
通过上文介绍,本发明方案实际上采取的是分布式的基于局部敏感哈希的相似性召回的方式来实现分布式相似句对的检索。
继续参见上文步骤S108,在本发明一实施例中,当确定检索文本所属分区之后,在检索文本所属分区内检索与其相似的召回文本时,可以通过计算检索文本与其所属分区内的召回文本的相似度值的方式进行召回文本的检索,从而从召回文本中选取出相似度值大于预设相似度值的召回文本。这里,预设相似度值可以是合理的任意相似度值,本发明实施例对此不做具体的限定。
进一步地,为了使检索结果更加准确,使得检索出的召回文本与检索文本最为接近,在从召回文本中选取相似度值大于预设相似度值的召回文本之后,还可以按照相似度值的大小对选取的召回文本进行排序,例如对选取的召回文本按照相似度值由大到小的顺序进行排序,从而选取排名前N的召回文本,并将排名前N的召回文本作为检索文本的相似句对检索结果,其中,N为正整数。
为了更加清楚地体现本发明实施例内容,现以图2所示实施例对本发明方案进行介绍。
图2所示实施例中,query作为检索文本,candidate作为文本候选集中的召回文本,且两者均包含了多个。首先,基于query和candidate提取各自对应的特征向量,Vq表示query对应的特征向量,Vc表示candidate对应的特征向量。该实施例中,为了对每个特征向量进行唯一的标识,还可以为每个特征向量分配相应的id值。
然后,采用哈希函数集合中的目标哈希函数对Vq和Vc进行量化计算,得到相应的key值(键值),其中,一个Vq量化得到k0值,一个Vc也量化得到k0值,另外一个Vc量化得到k1值。该实施例中,为了使键值和特征向量之间的关系更为清晰明了且方便后续对文本的区分,还可以将量化得到的键值以key-value键值对的形式进行保存,key为键值,value为key对应的特征向量。
进而,依据键值key对检索文本和召回文本进行分布式分区,该实施例依据键值将检索文本和召回文本分成了三个分区,也即依据键值将检索文本和召回文本所对应的特征向量分成了三个分区,其中,第一个分区中的query和candidate各自的特征向量所对应的键值均为k0,第二个分区中的query和candidate各自的特征向量所对应的键值均为k1,第三个分区中的query和candidate各自的特征向量所对应的键值均为k2。
进而,将不同分区中的检索文本和召回文本分别发送至分布式系统中的不同计算节点上,例如,将第一分区中的文本发送至partition0计算节点,将第二分区中的文本发送至partition1计算节点,将第三分区中的文本发送至partition2计算节点。
最后,在各个计算节点上利用检索文本检索与其相似的召回文本,得到的相似性召回结果。
基于同一发明构思,本发明实施例还提供了一种分布式相似句对的检索装置。图3示出了根据本发明一个实施例的分布式相似句对的检索装置的结构示意图。参见图3,分布式相似句对的检索装置300至少包括第一获取模块310、计算模块320、分区模块330以及检索模块340。
现介绍本发明实施例的分布式相似句对的检索装置300的各组成或器件的功能以及各部分间的连接关系:
第一获取模块310,适于获取检索文本和来自文本候选集中的待检索的召回文本;
计算模块320,与第一获取模块310耦合,适于分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值;
分区模块330,与计算模块320耦合,适于依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
检索模块340,与分区模块330耦合,适于确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
在本发明一实施例中,第一获取模块310还适于,基于用户输入的搜索query获取检索文本,调用包含待检索的召回文本的文本候选集,从文本候选集中获取召回文本。
本发明实施例还提供了另一种分布式相似句对的检索装置。图4示出了根据本发明另一个实施例的分布式相似句对的检索装置的结构示意图。参见图4,分布式相似句对的检索装置300除了包括上述各个模块之外,还可以包括调取模块350、第二获取模块360。
调取模块350,适于在计算模块320基于特征向量计算检索文本和召回文本各自对应的键值之前,调取预置的哈希函数集合。
第二获取模块360,与计算模块320和调取模块350耦合,适于从调取的哈希函数集合中获取目标哈希函数。
在本发明一实施例中,计算模块320还适于,采用目标哈希函数对检索文本和召回文本的特征向量分别进行量化计算,以得到相应的哈希值,利用计算得到的哈希值分别作为检索文本和召回文本的键值。
在本发明一实施例中,检索模块340还适于,若检索文本包含多个,分别确定各检索文本所属分区,将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点,各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
在本发明一实施例中,检索模块340还适于,确定检索文本所属分区,计算检索文本与其所属分区内的召回文本的相似度值,从召回文本中选取相似度值大于预设相似度值的召回文本。
本发明实施例还提供了再一种分布式相似句对的检索装置。图5示出了根据本发明再一个实施例的分布式相似句对的检索装置的结构示意图。参见图5,分布式相似句对的检索装置300除了包括上述各个模块之外,还可以包括排序模块370和选取模块380。
排序模块370,与检索模块340耦合,适于在检索模块340从召回文本中选取相似度值大于预设相似度值的召回文本之后,按照相似度值的大小对选取的召回文本进行排序。
选取模块380,与排序模块370耦合,适于选取排名前N的召回文本,将排名前N的召回文本作为检索文本的相似句对检索结果,其中,N为正整数。
依据本发明再一方面,还提供了一种计算机存储介质,计算机存储介质存储有计算机程序代码,当计算机程序代码在计算设备上运行时,导致计算设备执行上文任意实施例中的分布式相似句对的检索方法。
依据本发明又一方面,还提供了一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当计算机程序代码被处理器运行时,导致计算设备执行上文任意实施例中的分布式相似句对的检索方法。
根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到如下有益效果:
在本发明实施例中,在进行相似句对的检索过程中可以先获取检索文本和来自文本候选集中的待检索的召回文本,然后分别提取检索文本和召回文本的特征向量,基于特征向量计算检索文本和召回文本各自对应的键值,进而依据键值对检索文本和召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区,最后确定检索文本所属分区,并在其所属分区内检索与其相似的召回文本。由此,本发明实施例通过依据键值对检索文本和召回文本进行分布式分区,并使得同一分区内的检索文本和召回文本的键值相同,由于键值相同的文本的特征向量是相似的,因此在分区内进行文本的检索可以有效地缩小文本的检索范围,即缩小了文本的召回空间,进而在后续可以更加快速地检索到与检索文本相似的召回文本。进一步地,不同分区内的检索文本在检索过程中可以互不干涉,并行的利用各分区内的检索文本检索与其同一分区中的召回文本,既提高了检索文本的检索效率,又节约了检索文本的检索时间。
所属领域的技术人员可以清楚地了解到,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,为简洁起见,在此不另赘述。
另外,在本发明各个实施例中的各功能单元可以物理上相互独立,也可以两个或两个以上功能单元集成在一起,还可以全部功能单元都集成在一个处理单元中。上述集成的功能单元既可以采用硬件的形式实现,也可以采用软件或者固件的形式实现。
本领域普通技术人员可以理解:所述集成的功能单元如果以软件的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,其包括若干指令,用以使得一台计算设备(例如个人计算机,服务器,或者网络设备等)在运行所述指令时执行本发明各实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM),磁碟或者光盘等各种可以存储程序代码的介质。
或者,实现前述方法实施例的全部或部分步骤可以通过程序指令相关的硬件(诸如个人计算机,服务器,或者网络设备等的计算设备)来完成,所述程序指令可以存储于一计算机可读取存储介质中,当所述程序指令被计算设备的处理器执行时,所述计算设备执行本发明各实施例所述方法的全部或部分步骤。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:在本发明的精神和原则之内,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案脱离本发明的保护范围。
本发明实施例提供了A1、一种分布式相似句对的检索方法,包括:
获取检索文本和来自文本候选集中的待检索的召回文本;
分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
A2、根据A1所述的方法,其中,获取检索文本和来自文本候选集中的待检索的召回文本,包括:
基于用户输入的搜索query获取所述检索文本;
调用包含待检索的召回文本的文本候选集,从所述文本候选集中获取召回文本。
A3、根据A1或A2所述的方法,其中,基于特征向量计算所述检索文本和所述召回文本各自对应的键值,包括:
采用目标哈希函数对所述检索文本和所述召回文本的特征向量分别进行量化计算,以得到相应的哈希值;
利用计算得到的哈希值分别作为所述检索文本和召回文本的键值。
A4、根据A3所述的方法,其中,基于特征向量计算所述检索文本和所述召回文本各自对应的键值之前,还包括:
调取预置的哈希函数集合;
从调取的所述哈希函数集合中获取所述目标哈希函数。
A5、根据A1或A2所述的方法,其中,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
若所述检索文本包含多个,分别确定各检索文本所属分区;
将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点;
各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
A6、根据A1或A2所述的方法,其中,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
确定所述检索文本所属分区,计算所述检索文本与其所属分区内的召回文本的相似度值;
从所述召回文本中选取相似度值大于预设相似度值的召回文本。
A7、根据A6所述的方法,其中,从所述召回文本中选取相似度值大于预设相似度值的召回文本之后,还包括:
按照相似度值的大小对选取的召回文本进行排序;
选取排名前N的召回文本,将所述排名前N的召回文本作为所述检索文本的相似句对检索结果,其中,N为正整数。
B8、一种分布式相似句对的检索装置,包括:
第一获取模块,适于获取检索文本和来自文本候选集中的待检索的召回文本;
计算模块,适于分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
分区模块,适于依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
检索模块,适于确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
B9、根据B8所述的装置,其中,所述第一获取模块还适于:
基于用户输入的搜索query获取所述检索文本;
调用包含待检索的召回文本的文本候选集,从所述文本候选集中获取召回文本。
B10、根据B8或B9所述的装置,其中,所述计算模块还适于:
采用目标哈希函数对所述检索文本和所述召回文本的特征向量分别进行量化计算,以得到相应的哈希值;
利用计算得到的哈希值分别作为所述检索文本和召回文本的键值。
B11、根据B10所述的装置,其中,还包括:
调取模块,适于在所述计算模块基于特征向量计算所述检索文本和所述召回文本各自对应的键值之前,调取预置的哈希函数集合;
第二获取模块,适于从调取的所述哈希函数集合中获取所述目标哈希函数。
B12、根据B8或B9所述的装置,其中,所述检索模块还适于:
若所述检索文本包含多个,分别确定各检索文本所属分区;
将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点;
各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
B13、根据B8或B9所述的装置,其中,所述检索模块还适于:
确定所述检索文本所属分区,计算所述检索文本与其所属分区内的召回文本的相似度值;
从所述召回文本中选取相似度值大于预设相似度值的召回文本。
B14、根据B13所述的装置,其中,还包括:
排序模块,适于在所述检索模块从所述召回文本中选取相似度值大于预设相似度值的召回文本之后,按照相似度值的大小对选取的召回文本进行排序;
选取模块,适于选取排名前N的召回文本,将所述排名前N的召回文本作为所述检索文本的相似句对检索结果,其中,N为正整数。
C15、一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行A1-A7任一项所述的分布式相似句对的检索方法。
D16、一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行A1-A7任一项所述的分布式相似句对的检索方法。

Claims (10)

1.一种分布式相似句对的检索方法,包括:
获取检索文本和来自文本候选集中的待检索的召回文本;
分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
2.根据权利要求1所述的方法,其中,获取检索文本和来自文本候选集中的待检索的召回文本,包括:
基于用户输入的搜索query获取所述检索文本;
调用包含待检索的召回文本的文本候选集,从所述文本候选集中获取召回文本。
3.根据权利要求1或2所述的方法,其中,基于特征向量计算所述检索文本和所述召回文本各自对应的键值,包括:
采用目标哈希函数对所述检索文本和所述召回文本的特征向量分别进行量化计算,以得到相应的哈希值;
利用计算得到的哈希值分别作为所述检索文本和召回文本的键值。
4.根据权利要求3所述的方法,其中,基于特征向量计算所述检索文本和所述召回文本各自对应的键值之前,还包括:
调取预置的哈希函数集合;
从调取的所述哈希函数集合中获取所述目标哈希函数。
5.根据权利要求1或2所述的方法,其中,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
若所述检索文本包含多个,分别确定各检索文本所属分区;
将确定后的不同分区包含的检索文本和召回文本分别发送至不同计算节点;
各个计算节点从接收到的召回文本中检索与接收的检索文本相似的召回文本。
6.根据权利要求1或2所述的方法,其中,确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本,包括:
确定所述检索文本所属分区,计算所述检索文本与其所属分区内的召回文本的相似度值;
从所述召回文本中选取相似度值大于预设相似度值的召回文本。
7.根据权利要求6所述的方法,其中,从所述召回文本中选取相似度值大于预设相似度值的召回文本之后,还包括:
按照相似度值的大小对选取的召回文本进行排序;
选取排名前N的召回文本,将所述排名前N的召回文本作为所述检索文本的相似句对检索结果,其中,N为正整数。
8.一种分布式相似句对的检索装置,包括:
第一获取模块,适于获取检索文本和来自文本候选集中的待检索的召回文本;
计算模块,适于分别提取所述检索文本和所述召回文本的特征向量,基于特征向量计算所述检索文本和所述召回文本各自对应的键值;
分区模块,适于依据所述键值对所述检索文本和所述召回文本进行分布式分区,以使键值相同的检索文本和召回文本划分为同一分区;
检索模块,适于确定所述检索文本所属分区,并在其所属分区内检索与其相似的召回文本。
9.一种计算机存储介质,所述计算机存储介质存储有计算机程序代码,当所述计算机程序代码在计算设备上运行时,导致所述计算设备执行权利要求1-7任一项所述的分布式相似句对的检索方法。
10.一种计算设备,包括:处理器;存储有计算机程序代码的存储器;当所述计算机程序代码被所述处理器运行时,导致所述计算设备执行权利要求1-7任一项所述的分布式相似句对的检索方法。
CN201910126747.4A 2019-02-20 2019-02-20 一种分布式相似句对的检索方法及装置 Pending CN111597295A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910126747.4A CN111597295A (zh) 2019-02-20 2019-02-20 一种分布式相似句对的检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910126747.4A CN111597295A (zh) 2019-02-20 2019-02-20 一种分布式相似句对的检索方法及装置

Publications (1)

Publication Number Publication Date
CN111597295A true CN111597295A (zh) 2020-08-28

Family

ID=72181297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910126747.4A Pending CN111597295A (zh) 2019-02-20 2019-02-20 一种分布式相似句对的检索方法及装置

Country Status (1)

Country Link
CN (1) CN111597295A (zh)

Similar Documents

Publication Publication Date Title
RU2686590C1 (ru) Способ и устройство для сравнения схожих элементов высокоразмерных признаков изображений
CN106547871B (zh) 基于神经网络的搜索结果的召回方法和装置
US9460117B2 (en) Image searching
CN111324784B (zh) 一种字符串处理方法及装置
CN106874292B (zh) 话题处理方法及装置
CN105045781B (zh) 查询词相似度计算方法及装置、查询词搜索方法及装置
EP3401802A1 (en) Webpage training method and device, and search intention identification method and device
US20160275178A1 (en) Method and apparatus for search
CN108268617B (zh) 用户意图确定方法及装置
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN108446316B (zh) 联想词的推荐方法、装置、电子设备及存储介质
CN108241613A (zh) 一种提取关键词的方法及设备
CN109508391B (zh) 基于知识图谱的输入预测方法、装置和电子设备
WO2010061537A1 (ja) 検索装置、検索方法、及びプログラムが格納された記録媒体
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN116028618B (zh) 文本处理、文本检索方法、装置、电子设备及存储介质
CN110750615A (zh) 文本重复性判定方法和装置、电子设备和存储介质
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN111651596A (zh) 一种文本聚类的方法、装置、服务器及存储介质
US8370363B2 (en) Hybrid neighborhood graph search for scalable visual indexing
CN111737461B (zh) 文本的处理方法、装置、电子设备及计算机可读存储介质
CN110209895B (zh) 向量检索方法、装置和设备
CN110633379B (zh) 一种基于gpu并行运算的以图搜图系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination