CN112131373A - 信息搜索方法、装置、电子设备及可读存储介质 - Google Patents

信息搜索方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112131373A
CN112131373A CN201910556313.8A CN201910556313A CN112131373A CN 112131373 A CN112131373 A CN 112131373A CN 201910556313 A CN201910556313 A CN 201910556313A CN 112131373 A CN112131373 A CN 112131373A
Authority
CN
China
Prior art keywords
particle
fragment
search results
determining
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910556313.8A
Other languages
English (en)
Inventor
朱志新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910556313.8A priority Critical patent/CN112131373A/zh
Publication of CN112131373A publication Critical patent/CN112131373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]

Abstract

本申请提供一种信息搜索方法、装置、电子设备及可读存储介质,该方法包括:根据接收到的搜索语句确定搜索结果文档集;确定所述搜索结果文档集各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果;其中,所述各分片中目标搜索结果的数量的总和与待返回的搜索结果的数量一致;按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。该方法可以在保证算法准确率的情况下,提高算法输出效率。

Description

信息搜索方法、装置、电子设备及可读存储介质
技术领域
本申请涉及大数据技术,尤其涉及一种信息搜索方法、装置、电子设备及可读存储介质。
背景技术
随着互联网数据不断增长,数据规模指数级上升,搜索结果排序结果不够准确、大文档集实时搜索速度慢已成为各搜索引擎共同面临的问题,如何高效、准确地从海量信息中搜索出最为相关有用的信息成为搜索引擎的热门研究方向。
发明内容
有鉴于此,本申请提供一种信息搜索方法、装置、电子设备及可读存储介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种信息搜索方法,包括:
根据接收到的搜索语句确定搜索结果文档集;
确定各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果;其中,所述各分片中目标搜索结果的数量的总和为待返回的搜索结果的数量与所述搜索结果文档集中的文档数量二者之中的较小值;
按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。
根据本申请实施例的第二方面,提供一种信息搜索装置,包括:
接收单元,用于接收搜索语句;
第一确定单元,用于根据所述接收单元接收到的搜索语句确定搜索结果文档集;
第二确定单元,用于还确定各分片中目标搜索结果的数量;其中,所述各分片中目标搜索结果的数量的总和为待返回的搜索结果的数量与所述搜索结果文档集中的文档数量二者之中的较小值;
第三确定单元,用于基于粒子群优化算法确定各分片中的目标搜索结果;
输出单元,用于按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述信息搜索方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述信息搜索方法。
本申请实施例的信息搜索方法,通过根据接收到的搜索语句确定搜索结果文档集并确定各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果,进而按照各分片的目标搜索结果的适应度值由高到低的顺序输出各分片的目标搜索结果,在保证信息搜索的准确性的情况下,提高了信息搜索的效率,减少了信息搜索的时间开销。
附图说明
图1是本申请一示例性实施例示出的一种信息搜索方法的流程示意图;
图2是本申请一示例性实施例示出的一种基于动态自适应的粒子群优化的Lucene搜索算法实现流程示意图;
图3是本申请一示例性实施例示出的一种信息搜索装置的结构示意图;
图4是本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种信息搜索方法的流程示意图,如图1所示,该信息搜索方法可以包括:
步骤S100、根据接收到的搜索语句确定搜索结果文档集。
本申请实施例中,当需要进行信息搜索时,可以向搜索引擎输入搜索语句,通过搜索引擎确定与搜索语句匹配的搜索结果文档集,其具体实现可以参见各种不同类型的搜索引擎的相关技术实现,本申请实施例将在下文中结合具体实例进行说明,在此不做赘述。
步骤S110、确定各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果。
步骤S120、按照各分片的目标搜索结果的适应度值由高到低的顺序输出各分片的目标搜索结果。
本申请实施例中,对数据库中全部文档进行分片的具体实现可以参见现有相关技术中的相关描述,本申请实施例在此不做赘述。
本申请实施例中,考虑到当搜索词项多并且搜索结果文档集较大(如搜索结果文档集中的文档数量超过指定数量)时,由于目标向量的维度过高,其计算速度会明显下降,因此,会存在着搜索收敛速度较慢,以及可能会收敛到一个局部最优值的问题。
此外,考虑到现有信息搜索方案中,对数据库中全部文档进行分片之后,需要分别遍历各分片中的全部文档,分别在各分片中确定最优的N(N为待返回的搜索结果的数量)个搜索结果,并对各个分片的搜索结果(N*分片数)进行归并以得到返回给搜索请求方的N个搜索结果,其效率过低,时间开销过大。
本申请实施例中,根据搜索结果文档集在各分片中的分布情况,将待返回的搜索结果分配到对应的分片,即分片中搜索结果(本文中称为目标搜索结果)的数量的总和为待返回的搜索结果的数量(即N)。
需要说明的是,在本申请实施例中,以搜索结果文档集中的文档数量大于待返回的搜索结果的数量为例。
对于搜索结果文档集中的文档数量小于等于待返回的搜索结果的数量的情况,需要将待返回的搜索结果的数量更新为搜索结果文档集中的文档数量,即最终返回的搜索结果的数量(即各分片中目标搜索结果文档的数量总和)为待返回的搜索结果的数量与搜索结果文档集中的文档数量二者之中的较小值,其具体实现在此不做赘述。
本申请实施例中,确定了各分片中目标搜索结果的数量之后,可以基于粒子群优化算法确定各分片中的目标搜索结果,并按照各分片的目标搜索结果的适应度值由高到低的顺序输出各分片的目标搜索结果。
示例性的,目标搜索结果的适应度值可以为目标搜索结果的评分,如Lucene中的score(q,dk)。
可见,在图1所示方法流程中,通过将待返回结果分配到各分片,减少了各分片中需要确定的搜索结果的数量;通过基于粒子群优化算法分别在各分片中确定目标搜索结果,避免了对各分片中的文档进行遍历,并保证了信息搜索的准确性,即通过本申请实施例提供的信息搜索方法,在保证信息搜索的准确性的情况下,提高了信息搜索的效率,减少了信息搜索的时间开销。
作为一种可能的实施方式,上述确定搜索结果文档集各分片中目标搜索结果的数量,包括:
根据搜索结果文档集在各分片中的分布情况,按比例分配各分片中目标搜索结果的数量。
示例性的,为了提高各分片中分片的目标搜索结果的数量的合理性,可以根据各分片中包括的搜索结果文档集中的文档的数量,按比例分配各分片中目标搜索结果的数量。
举例来说,对于任一分片,可以通过以下公式确定该分片中目标搜索结果的数量:
Figure BDA0002106981990000051
其中,ShardPopNum是为该分片中的目标搜索结果的数量,ShardDNum为该分片中包括的搜索结果文档集中的文档的数量,DNum为全部分片中包括的搜索结果文档集中的文档的数量的总和,popNum为各分片中目标搜索结果的数量的总和(本文中以其值与待返回的搜索结果的数量一致为例)。
例如,假设数据库中共有100万个文档,均分为5个分片(假设依次为分片1~5,每个分片中20万个文档),搜索结果文档集中共有1万个文档,分别分布在分片2~4中(假设依次为2000个、3000个和5000个,即分片2~4中搜索结果文档集中的文档的数量依次为2000个、3000个和5000个),待返回的结果的数量为10,则按照上述策略可知,由于分片1和分片5中不存在搜索结果文档集中的文档,因此,分片1和分片5中不分配目标搜索结果(即目标搜索结果的数量为0),分片2~4中包括的搜索结果文档集中的文档的数量占全部分片中包括的搜索结果文档集中的文档的数量的总和(即10000)的比例依次为20%、30%和50%,因此,分片2~4中目标搜索结果的数量占待返回的结果的数量(10)的比例也依次为20%、30%和50%,即分片2~4中目标搜索结果的数量依次为2个、3个和5个。
作为一种可能的实施方式,上述基于粒子群优化算法确定各分片中的目标搜索结果,包括:
对于任一分片,对该分片中的粒子采用均匀分布的方式进行初始化;其中,各分片中的粒子数量与各分片中目标搜索结果的数量一致;
根据该分片中粒子的个体极值以及该分片的全局极值确定粒子速度;
根据粒子速度更新粒子位置,并判断是否满足停止条件;
若满足停止条件,则将位置更新后的粒子确定为该分片中的目标搜索结果;
若不满足停止条件,则根据位置更新后的粒子的个体极值以及该分片的全局极值确定更新后的粒子速度,根据更新后的粒子速度再次更新粒子位置,直至满足停止条件。
示例性的,当基于粒子群优化算法确定各分片中的目标搜索结果时,为了保证初始粒子尽可能均匀地分布在搜索结果文档集,各分片均采用均匀分布的方式对该分片中的粒子进行随机初始化。
举例来说,对于任一分片,可以按照以下公式确定该分片中各粒子的初始位置:
Figure BDA0002106981990000071
其中,initPopulationi是该分片中第i个粒子在搜索结果文档集中文档位置编号,ShardDNum是该分片中包括的搜索结果文档集中的文档的数量,ShardPopNum是该分片中目标搜索结果的数量(即该分片中的粒子数量),rand()是0到1之间的随机数。
需要说明的是,对于不存在目标搜索结果文档集中的文档的分片,由于目标搜索结果的数量为0(即粒子的数量为0),可以不进行粒子的相关处理,本申请实施例后续不再复述。
示例性的,完成上述粒子的初始化之后,可以确定该分片中各粒子的适应度值,根据各粒子的适应度值确定该分片中各粒子的个体极值以及该分片的全局极值,并根据该分片各粒子的个体极值以及该分片的全局极值,确定该分片中各粒子的速度(本文中称为粒子速度),进而,根据所确定的各粒子的粒子速度更新各粒子的位置(本文中称为粒子位置)。
完成粒子位置的更新之后,可以判断是否满足停止条件,例如,当前迭代次数是否达到最大迭代次数,若达到,则确定满足停止条件;否则,确定不满足停止条件。
示例性的,若满足停止条件,则可以将位置更新后的粒子确定为该分片中的目标搜索结果;
若不满足停止条件,则可以重新计算位置更新后的粒子的适应度值,更新粒子的个体极值以及分片的全局极值,并根据更新后的粒子的个体极值以及分片的全局极值进行粒子速度更新,进而根据更新后的粒子速度再次更新粒子位置,直至满足停止条件。
在一个示例中,上述根据粒子速度更新粒子位置,包括:
根据所确定的粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置。
示例性的,考虑到解空间各个维度的取值范围是有限、离散、非连续的,在求解该向量空间最优化问题时,传统粒子群优化算法,经过迭代计算生成的粒子的位置很有可能不在搜索结果文档集中,因此,可以对传统粒子群优化算法进行优化,结合K最近邻算法(K-NearestNeighbor,简称KNN)以及邻域搜索算法(Neighborhood Search,简称NS)进行粒子位置更新。
作为一种粒子,上述根据粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置,可以包括:
根据该分片中包括的搜索结果文档集中的文档的数量、粒子数量、当前迭代次数以及最大迭代次数确定该分片对应的K值;
对于该分片中的任一粒子,从该分片中未搜索的文档中选取K个与该粒子的欧几里得距离最小的文档,并将该K个文档标记为已搜索;
将该K个文档中适应度值最高的文档的位置确定为更新后的粒子位置。
示例性的,为了提高KNN算法中K的合理性,对于任一分片,可以根据该分片中包括的搜索结果文档集中的文档的数量、粒子数量、当前迭代次数以及最大迭代次数(最大迭代次数可以根据搜索结果文档集中的文档数量确定)确定该分片对应的K值。
对于该分片中的任一粒子,可以计算该粒子与该分片中各未搜索的文档的欧几里得距离,并从该分片中未搜索的文档中选取K个与该粒子的欧几里得距离最小的文档,并该K个文档中适应度值最高的文档的位置确定为更新后的粒子位置。
需要说明的是,被选中的K个文档需要标记为已搜索,且粒子初始化时选中的文档也需要标记为已搜索。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,以基于动态自适应的粒子群优化的Lucene搜索算法实现为例。
在该实施例中,考虑到Lucene中评分公式的计算可以通过向量空间最优化理论进行求解,并且在面对海量数据搜索,搜索词项多、搜索结果文档集大的时候,存在着搜索收敛速度较慢,以及可能会收敛到一个局部最优值的问题,因此,可以将基于全局搜索的粒子群优化算法应用于该向量空间最优化问题的求解中。
此外,考虑到解空间各个维度的取值范围是有限、离散、非连续的,在求解该向量空间最优化问题时,传统粒子群优化算法,经过迭代计算生成的粒子的位置很有可能不在离散向量空间(即搜索结果文档集)中,因此,可以对传统粒子群优化算法进行优化,结合KNN算法以及NS算法,每轮迭代完后,对于各分片中的粒子,对各粒子单独进行KNN计算该粒子与所属分片中K个未搜索过的欧几里得距离最小的文档,将K个文档按照适应度函数的数值由大到小排序,之后,将该粒子移动到这K个文档中适应度函数最高的文档上,并将这K个文档标记为已搜索。
示例性的,KNN算法中的K值根据分片中包括的搜索结果文档集中的文档的数量ShardDNum、分片中的粒子的个数ShardPopNum、当前迭代次数Iter、最大迭代次数MaxIter结合高斯分布自适应动态调整。
例如,可以按照以下公式实现K值的自适应动态调整:
Figure BDA0002106981990000091
Figure BDA0002106981990000092
在该实施例中,请参见图2,基于动态自适应的粒子群优化的Lucene搜索算法实现流程如下:
1、接收搜索语句(假设为q),通过Luence布尔模型BM得到搜索结果文档集(假设为D);
其中,Luence搜索过程(即根据搜索语句得到搜索结果文档集)的具体实现可以参见现有技术中的相关描述,本申请实施例在此不做赘述。
2、根据搜索结果文档集D,将Lucene的评分公式作为适应度函数,结合改进粒子群优化算法寻优:
2.1、根据搜索结果文档集D的文档数量(docNum)确定初始粒子总数(popNum)以及最大迭代次数(MaxIter);
2.2、根据每个分片中包括的搜索结果文档集D中的文档的数量,按比例分配粒子,每个分片中粒子采用均匀分布的方式进行初始化操作;
其中,粒子的个数popNum根据待返回的搜索结果的数量限制(Limit,也可以称为N),以及搜索结果文档集D中文档数目docNum自适应动态调整,即:
Figure BDA0002106981990000101
确定好粒子个数后,根据每个分片中包括的搜索结果文档集D中的文档的数量,按比例分配粒子,即:
Figure BDA0002106981990000102
其中,ShardPopNum是为该分片中的目标搜索结果的数量,ShardDNum为该分片中的包括的搜索结果文档集中的文档的数量,DNum为全部分片中的搜索结果文档集中的文档的数量的总和,popNum为各分片中目标搜索结果的数量(即粒子的数量)的总和。
各分片中按照以下公式确定该分片中各粒子的初始位置:
Figure BDA0002106981990000103
其中,一个粒子对应一个文档,对于搜索结果文档集D中的任一文档dk,将其如下m维向量形式作为粒子:
V(dk)=[wk,1,wk,2,wk,3,…,wk,m]
其中,分量wk,m代表第m个词项tm在文档dk中的权重,k为文档集D中文档dk的索引序号,m代表词项t的个数。词项权重wk,m的数值反映了词项tm在文档dk中的重要程度,词项权重wk,m由TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文本频率)计算公式求得
2.3、根据适应度函数score(q,dk)计算所有粒子的适应度值;
其中,适应度函数即为Lucene评分函数。
2.4、对于任一分区,根据该分区内各粒子的适应度值确定各粒子的个体极值(本文中称为
Figure BDA0002106981990000111
)以及各分片的全局极值(本文中称为
Figure BDA0002106981990000112
);
2.5、根据
Figure BDA0002106981990000113
Figure BDA0002106981990000114
计算粒子速度(本文中称为
Figure BDA0002106981990000115
);
其中,粒子速度
Figure BDA0002106981990000116
可以按照以下公式进行更新:
Figure BDA0002106981990000117
Figure BDA0002106981990000118
Vmin=-Vmax
Figure BDA0002106981990000119
Figure BDA00021069819900001110
其中,
Figure BDA00021069819900001111
是第i个粒子第j个维度上的速度(第一个公式等号右边的
Figure BDA00021069819900001112
初始化为0),w是惯性权重,
Figure BDA00021069819900001113
是第i个粒子第j个维度上的位置,
Figure BDA00021069819900001114
是个体极值,
Figure BDA00021069819900001115
是全局极值,c1、c2是学习因子,Vmax、Vmin分别对应第i个粒子第j个维度上的移动距离的最大、最小值,
Figure BDA00021069819900001116
分别对应搜索结果文档集D中第j个维度上的最大值、最小值。
示例性的,学习因子c1、c2均为2,惯性权重w为0.5。
需要说明的是,在该实施例中,若按照
Figure BDA0002106981990000121
更新的粒子的位置未落在离散向量空间(即未落在搜索结果文档集D)中,则可以按照步骤2.6中的方式进行粒子位置的微调。
2.6、结合KNN算法以及NS算法,根据粒子速度来更新粒子位置:
2.6.1、对于任一分片,根据该分片中包括的搜索结果文档集中的文档的数量ShardDNum、粒子数量ShardPopNum、当前迭代次数Iter、最大迭代次数MaxIter,结合高斯分布动态调整该分片对应的K值;
2.6.2、对于该分片中的任一粒子,从该分片中未搜索的搜索结果文档集D中的文档中选取K个与该粒子欧几里得距离最小的文档;
2.6.3、标记这K个文档为已搜索;
2.6.4、将该粒子移动到这K个文档中适应度值最高的文档的位置;
2.7、判断是否满足停止条件,即是否达到最大迭代次数MaxIter;若是,则输出最终粒子;否则,转至步骤2.3;
3、将最终粒子按照适应度值由高到低的顺序输出。
本申请实施例中,通过根据接收到的搜索语句确定搜索结果文档集并确定各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果,进而按照各分片的目标搜索结果的适应度值由高到低的顺序输出各分片的目标搜索结果,在保证信息搜索的准确性的情况下,提高了信息搜索的效率,减少了信息搜索的时间开销。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图3,为本申请实施例提供的一种信息搜索装置的结构示意图,如图3所示,该信息搜索装置可以包括:
接收单元310,用于接收搜索语句;
第一确定单元320,用于根据所述接收单元接收到的搜索语句确定搜索结果文档集;
第二确定单元330,用于还确定各分片中目标搜索结果的数量;其中,所述各分片中目标搜索结果的数量的总和为待返回的搜索结果的数量与所述搜索结果文档集中的文档数量二者之中的较小值;
第三确定单元340,用于基于粒子群优化算法确定各分片中的目标搜索结果;
输出单元350,用于按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。
在一种可选的实施方式中,所述第二确定单元330,具体用于根据所述搜索结果文档集在各分片中的分布情况,按比例分配所述各分片中目标搜索结果的数量。
在一种可选的实施方式中,所述第三确定单元340,具体用于对于任一分片,对该分片中的粒子采用均匀分布的方式进行初始化;其中,各分片中的粒子数量与各分片中目标搜索结果的数量一致;
根据该分片中粒子的个体极值以及该分片的全局极值确定粒子速度;
根据所述粒子速度更新粒子位置,并判断是否满足停止条件;
若满足停止条件,则将位置更新后的粒子确定为该分片中的目标搜索结果;
若不满足停止条件,则根据位置更新后的粒子的个体极值以及该分片的全局极值确定更新后的粒子速度,根据更新后的粒子速度再次更新粒子位置,直至满足停止条件。
在一种可选的实施方式中,所述第三确定单元340,具体用于根据所述粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置。
在一种可选的实施方式中,所述第三确定单元340,具体用于根据该分片中包括的搜索结果文档集中的文档的数量、粒子数量、当前迭代次数以及最大迭代次数确定该分片对应的K值;
对于该分片中的任一粒子,从该分片中未搜索的文档中选取K个与该粒子的欧几里得距离最小的文档,并将该K个文档标记为已搜索;
将该K个文档中适应度值最高的文档的位置确定为更新后的粒子位置。
请参见图4,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可以包括处理器401、通信接口402、存储器403和通信总线404。处理器401、通信接口402以及存储器403通过通信总线404完成相互间的通信。其中,存储器403上存放有计算机程序;处理器401可以通过执行存储器403上所存放的程序,执行上文描述的信息搜索方法。
本文中提到的存储器403可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,存储器402可以是:RAM(Radom AccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
本申请实施例还提供了一种存储有计算机程序的机器可读存储介质,例如图4中的存储器403,所述计算机程序可由图4所示电子设备中的处理器401执行以实现上文描述的信息搜索方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (12)

1.一种信息搜索方法,其特征在于,包括:
根据接收到的搜索语句确定搜索结果文档集;
确定各分片中目标搜索结果的数量,并基于粒子群优化算法确定各分片中的目标搜索结果;其中,所述各分片中目标搜索结果的数量的总和为待返回的搜索结果的数量与所述搜索结果文档集中的文档数量二者之中的较小值;
按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述确定各分片中目标搜索结果的数量,包括:
根据所述搜索结果文档集在所述各分片中的分布情况,按比例分配所述各分片中目标搜索结果的数量。
3.根据权利要求1所述的方法,其特征在于,所述基于粒子群优化算法确定各分片中的目标搜索结果,包括:
对于任一分片,对该分片中的粒子采用均匀分布的方式进行初始化;其中,各分片中的粒子数量与各分片中目标搜索结果的数量一致;
根据该分片中粒子的个体极值以及该分片的全局极值确定粒子速度;
根据所述粒子速度更新粒子位置,并判断是否满足停止条件;
若满足停止条件,则将位置更新后的粒子确定为该分片中的目标搜索结果;
若不满足停止条件,则根据位置更新后的粒子的个体极值以及该分片的全局极值确定更新后的粒子速度,根据更新后的粒子速度再次更新粒子位置,直至满足停止条件。
4.根据权利要求3所述的方法,其特征在于,所述根据所述粒子速度更新粒子位置,包括:
根据所述粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置。
5.根据权利要求4所述的方法,其特征在于,所述根据所述粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置,包括:
根据该分片中包括的所述搜索结果文档集中的文档的数量、粒子数量、当前迭代次数以及最大迭代次数确定该分片对应的K值;
对于该分片中的任一粒子,从该分片中未搜索的文档中选取K个与该粒子的欧几里得距离最小的文档,并将该K个文档标记为已搜索;
将该K个文档中适应度值最高的文档的位置确定为更新后的粒子位置。
6.一种信息搜索装置,其特征在于,包括:
接收单元,用于接收搜索语句;
第一确定单元,用于根据所述接收单元接收到的搜索语句确定搜索结果文档集;
第二确定单元,用于还确定各分片中目标搜索结果的数量;其中,所述各分片中目标搜索结果的数量的总和为待返回的搜索结果的数量与所述搜索结果文档集中的文档数量二者之中的较小值;
第三确定单元,用于基于粒子群优化算法确定各分片中的目标搜索结果;
输出单元,用于按照所述各分片的目标搜索结果的适应度值由高到低的顺序输出所述各分片的目标搜索结果。
7.根据权利要求6所述的装置,其特征在于,
所述第二确定单元,具体用于根据所述搜索结果文档集在所述各分片中的分布情况,按比例分配所述各分片中目标搜索结果的数量。
8.根据权利要求6所述的装置,其特征在于,
所述第三确定单元,具体用于对于任一分片,对该分片中的粒子采用均匀分布的方式进行初始化;其中,各分片中的粒子数量与各分片中目标搜索结果的数量一致;
根据该分片中粒子的个体极值以及该分片的全局极值确定粒子速度;
根据所述粒子速度更新粒子位置,并判断是否满足停止条件;
若满足停止条件,则将位置更新后的粒子确定为该分片中的目标搜索结果;
若不满足停止条件,则根据位置更新后的粒子的个体极值以及该分片的全局极值确定更新后的粒子速度,根据更新后的粒子速度再次更新粒子位置,直至满足停止条件。
9.根据权利要求8所述的装置,其特征在于,
所述第三确定单元,具体用于根据所述粒子速度,基于K最邻近算法以及邻域搜索算法,更新粒子位置。
10.根据权利要求9所述的装置,其特征在于,
所述第三确定单元,具体用于根据该分片中包括的所述搜索结果文档集中的文档的数量、粒子数量、当前迭代次数以及最大迭代次数确定该分片对应的K值;
对于该分片中的任一粒子,从该分片中未搜索的文档中选取K个与该粒子的欧几里得距离最小的文档,并将该K个文档标记为已搜索;
将该K个文档中适应度值最高的文档的位置确定为更新后的粒子位置。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一项所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法步骤。
CN201910556313.8A 2019-06-25 2019-06-25 信息搜索方法、装置、电子设备及可读存储介质 Pending CN112131373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556313.8A CN112131373A (zh) 2019-06-25 2019-06-25 信息搜索方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556313.8A CN112131373A (zh) 2019-06-25 2019-06-25 信息搜索方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112131373A true CN112131373A (zh) 2020-12-25

Family

ID=73849801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556313.8A Pending CN112131373A (zh) 2019-06-25 2019-06-25 信息搜索方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112131373A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455619A (zh) * 2013-09-12 2013-12-18 焦点科技股份有限公司 一种基于Lucene分片结构的打分处理方法及系统
CN103646178A (zh) * 2013-12-18 2014-03-19 中国石油大学(华东) 一种基于改进引力搜索算法的多目标优化方法
CN108446357A (zh) * 2018-03-12 2018-08-24 浙江大学 一种基于二维地理位置的海量数据空间范围查询方法
US20180260716A1 (en) * 2015-11-25 2018-09-13 Alibaba Group Holding Limited Weight-coefficient-based hybrid information recommendation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455619A (zh) * 2013-09-12 2013-12-18 焦点科技股份有限公司 一种基于Lucene分片结构的打分处理方法及系统
CN103646178A (zh) * 2013-12-18 2014-03-19 中国石油大学(华东) 一种基于改进引力搜索算法的多目标优化方法
US20180260716A1 (en) * 2015-11-25 2018-09-13 Alibaba Group Holding Limited Weight-coefficient-based hybrid information recommendation
CN108446357A (zh) * 2018-03-12 2018-08-24 浙江大学 一种基于二维地理位置的海量数据空间范围查询方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XUESONG YAN 等: "Intelligent inversion method for pre-stack seismic big data based on MapReduce", COMPUTERS & GEOSCIENCES *
童亚拉 等: "基于自适应混沌粒子群的Web搜索结果聚类研究", 微电子学与计算机, no. 01 *
谢兴生 等: "利用粒子群算法优化多源检索融合结果的方法", 模式识别与人工智能, vol. 25, no. 03, pages 527 - 533 *

Similar Documents

Publication Publication Date Title
CN110503192B (zh) 资源有效的神经架构
US8108374B2 (en) Optimization framework for tuning ranking engine
US8010535B2 (en) Optimization of discontinuous rank metrics
WO2018039011A1 (en) Asychronous training of machine learning model
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN105740386B (zh) 基于排序集成的论文搜索方法及装置
Aghazadeh et al. Mission: Ultra large-scale feature selection using count-sketches
CN112368697A (zh) 经由对偶分解评估损失函数或损失函数的梯度的系统和方法
CN110032650B (zh) 一种训练样本数据的生成方法、装置及电子设备
CN111966495B (zh) 数据处理方法和装置
CN113313229A (zh) 模型压缩中对稀疏率的贝叶斯优化
WO2018144534A1 (en) Hardware-based machine learning acceleration
US20240061889A1 (en) Systems and Methods for Weighted Quantization
US7734633B2 (en) Listwise ranking
WO2016170561A1 (en) An information processing system and an information processing method for semantic enrichment of text
Rogozhnikov et al. Infiniteboost: building infinite ensembles with gradient descent
CN113743566A (zh) 产品拆卸序列优化方法、装置、计算机设备和存储介质
US20160189026A1 (en) Running Time Prediction Algorithm for WAND Queries
CN114154615A (zh) 基于硬件性能的神经架构搜索方法和设备
CN112131373A (zh) 信息搜索方法、装置、电子设备及可读存储介质
CN110837845A (zh) 一种基于改进网格搜索算法的svm参数优化方法
Zhai A note on the expectation-maximization (em) algorithm
Du et al. Combining quantum-behaved PSO and K2 algorithm for enhancing gene network construction
Harde et al. Design and implementation of ACO feature selection algorithm for data stream mining
CN115310709A (zh) 一种基于粒子群算法的电力工程项目信息优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination