CN116069990A

CN116069990A - 检索数据的方法、装置及存储介质

Info

Publication number: CN116069990A
Application number: CN202310002612.3A
Authority: CN
Inventors: 彭小明; 王高飞; 姚凌晓
Original assignee: Shenzhen Huawei Cloud Computing Technology Co ltd
Current assignee: Shenzhen Huawei Cloud Computing Technology Co ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-05-05

Abstract

本申请公开了一种检索数据的方法、装置及存储介质，属于通信领域。所述方法包括：接收检索请求，所述检索请求包括n个第一特征向量，所述n个第一特征向量是待检索的第一非结构化数据的特征向量，n为大于或等于1的整数；基于n获取第一检索算法，所述第一检索算法是采用所述n个第一特征向量检索数据的性能满足第一条件的检索算法；基于所述n个第一特征向量，通过所述第一检索算法在第一对应关系中检索至少一个第二非结构化数据，所述第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。本申请能够提高检索数据的效率。

Description

检索数据的方法、装置及存储介质

技术领域

本申请涉及通信领域，特别涉及一种检索数据的方法、装置及存储介质。

背景技术

随着互联网环境越来越复杂，数据除了包括文本类型的结构化数据之外，还包括图片、视频、用户行为日志等非结构化数据。在服务端可以保存大量的数据，用户可以在服务端保存的大量数据中检索用户所需要的数据。

对于结构化数据，可以采用传统的基于文本类型的检测方式在服务端保存的结构化数据中检索用户所需要的数据。对于非结构化数据，传统的基于文本类型的检测方式已无法适用，相关技术采用其他的检索方式在服务端保存的非结构化数据中检索用户所需要的数据。

但是，相关技术采用的用于检索非结构化数据的检索方式的性能差，导致检索数据的效率低下。

发明内容

本申请提供了一种检索数据的方法、装置及存储介质，以提高检索数据的效率。所述技术方案如下：

第一方面，本申请提供了一种检索数据的方法，在所述方法中，接收检索请求，该检索请求包括n个第一特征向量，该n个第一特征向量是待检索的第一非结构化数据的特征向量，n为大于或等于1的整数。基于n获取第一检索算法，第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法。基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据，第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。

由于获取的第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法，基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据，从而可以提高检索数据的效率。

在一种可能的实施方式中，基于n获取第一运行参数，第一运行参数是第一检索算法检索数据的性能满足第一条件时所采用的运行参数。基于该n个第一特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据。由于第一运行参数是第一检索算法检索数据的性能满足第一条件时所采用的运行参数，这样基于该n个第一特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据，提高检索数据的效率。

在另一种可能的实施方式中，基于n和第二对应关系获取第一检索算法和第一运行参数，第二对应关系包括n、第一检索算法和第一运行参数。如此，可以获取到检索数据的性能满足第一条件的第一检索算法和第一检索算法在检索数据的性能满足第一条件时的第一运行参数。

在另一种可能的实施方式中，获取第三非结构化数据的n个第三特征向量。基于n个第三特征向量获取多个检索算法中的每个检索算法检索数据的性能。关联n和第一检索算法，第一检索算法是该多个检索算法中检索数据的性能满足第一条件的检索算法，这样在检索数据时，能够基于n快速地获取到第一检索算法，提高检索数据的性能。

在另一种可能的实施方式中，基于n个第三特征向量，通过第一检索算法在第一对应关系中检索数据，得到第一检索算法检索数据的性能。第一检索算法是该多个检索算法中的一个，如此可以得到每个检索算法检索数据的性能。

在另一种可能的实施方式中，获取多个运行参数；基于n个第三特征向量，获取第一检索算法采用多个运行参数中的每个运行参数检索数据的性能。关联n、第一运行参数和第一检索算法，第一运行参数是第一检索算法在检索数据的性能最佳时所采用的运行参数。这样在检索数据时，能够基于n快速地获取到第一检索算法和第一运行参数，提高检索数据的性能。

在另一种可能的实施方式中，基于n个第三特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索数据，得到第一检索算法采用第一运行参数检索数据的性能。该多个运行参数包括第一运行参数，如此可以得到第一检索算法采用多个运行参数中的每个运行参数检索数据的性能。

在另一种可能的实施方式中，第一运行参数包括如下一个或多个，第一检索算法使用的资源块的数目、资源块包括的线程数目或资源块使用的共享内存大小。

第二方面，本申请提供了一种检索数据的装置，用于执行第一方面或第一方面的任意一种可能的实现方式中的方法。具体地，所述装置包括用于执行第一方面或第一方面的任意一种可能的实现方式中的方法的单元。

第三方面，本申请提供了一种检索数据的装置，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序，使得所述装置实现第一方面或第一方面的任意一种可能的实现方式中的方法。

第四方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括在计算机可读存储介质中存储的计算机程序，并且所述计算程序通过处理器进行加载来实现上述第一方面或第一方面任意可能的实现方式的方法。

第五方面，本申请提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序通过计算机进行加载来执行上述第一方面或第一方面任意可能的实现方式的方法。

第六方面，本申请提供了一种芯片，包括存储器和处理器，存储器用于存储计算机指令，处理器用于从存储器中调用并运行该计算机指令，以执行上述第一方面或第一方面任意可能的实现方式的方法。

附图说明

图1是本申请实施例提供的一种网络架构示意图；

图2是本申请实施例提供的另一种网络架构示意图；

图3是本申请实施例提供的一种建立第二对应关系的方法流程图；

图4是本申请实施例提供的一种资源块检索数据的示意图；

图5是本申请实施例提供的一种检索数据的方法流程图；

图6是本申请实施例提供的一种检索数据的装置结构示意图；

图7是本申请实施例提供的一种检索设备的结构示意图。

具体实施方式

下面将结合附图对本申请实施方式作进一步地详细描述。

非结构化数据可以为图片、视频、音频或用户行为日志等，非结构化数据检索技术已广泛应用于不同技术领域。例如，在图片搜索引擎中可以使用非结构化数据检索技术来检索图片。再例如，在音乐网站中可以基于一段音频使用非结构化数据检索技术来检索该段音频属于的歌曲。

参见图1，本申请实施例提供了一种网络架构100，该网络架构100用于实现非结构化数据检索技术。该网络架构100包括多个第一设备101和多个检索集群102，每个第一设备101与每个检索集群102通信。

对于该多个第一设备101中的任一个第一设备101，该第一设备101接收来自用户的第一检索请求，第一检索请求包括待检索的第一非结构化数据。该第一设备101基于第一非结构化数据获取n个第一特征向量，n为大于或等于1的整数，每个第一特征向量包括第一非结构化数据的D个特征，D为大于1的整数，每个第一特征向量不同。该第一设备101向每个检索集群102发送第二检索请求，第二检索请求包括该n个第一特征向量。

对于任一个检索集群102，该检索集群102包括第一对应关系1021和至少一个检索设备1022，第一对应关系1021用于保存第二非结构化特征数据与第二非结构化特征数据的第二特征向量之间的对应关系。

对于第一对应关系1021中的任一条记录，该记录包括一个第二非结构化数据和该第二非结构化数据的第二特征向量，该第二非结构化数据的第二特征向量包括该第二非结构化数据的D个特征。该检索集群102中的每个检索设备1022可以访问第一对应关系1021。每个检索集群102中的第一对应关系不同，且每个检索集群102中的第一对应关系之间没有交集。

对于任一个检索集群102，该检索集群102中的一个检索设备1022用于在该检索集群102中的第一对应关系1021中检索第二非结构化数据。对于该检索集群102中的其他检索设备，其他检索设备用于对该检索设备1022进行容灾。即在该检索设备1022故障时，其他检索设备用于在该检索集群102中的第一对应关系1021中检索第二非结构化数据。

对于任一个检索集群102，第一设备101向该检索集群102中的一个检索设备1022发送第二检索请求。该检索设备1022接收第二检索请求，基于第二检索请求包括的n个第一特征向量，在该检索集群102包括的第一对应关系1021中检索出K个第二非结构化数据，K为大于或等于1的整数。该检索设备1022向该第一设备101发送第二检索响应，第二检索响应包括该K个第二非结构化数据和该K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离。

其中，在该检索集群102的第一对应关系1021中，该K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离最小。某个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离越小表示该第二非结构化数据的第二特征向量与该n个第一特征向量之间越相似；反之，该第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离越大表示该第二非结构化数据的第二特征向量与该n个第一特征向量之间的差异越大。

该第一设备101接收每个检索集群102中的检索设备1022发送第二检索响应，每个检索集群102中的检索设备1022发送的第二检索响应均包括K个第二非结构化数据和该K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离。其中，该第一设备101共接收到Q*K个第二非结构化数据和该Q*K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离，Q为该网络架构100包括的检索集群102的个数，*为乘法运算。

第一设备101从该Q*K个第二非结构化数据中，选择第二特征向量与该n个第一特征向量之间的距离最小的L个第二非结构化数据，L为大于或等于1且小于或等于K的整数，向用户发送第一检索响应，第一检索响应包括该L个第二非结构化数据。

对于任一个检索集群102中的检索设备1022，检索设备1022包括多个检索算法。对于任一个检索算法，该检索算法用于采用至少一个第一特征向量在该检索集群102的第一对应关系1021中检索第二非结构化数据。

任意两个检索算法在检索数据的性能满足第一条件时采用的第一特征向量的数目可能不同。例如，有的检索算法可能在采用x个第一特征向量在该检索集群102的第一对应关系1021中检索第二非结构化数据的性能满足第一条件，x为大于或等于1的整数。有的检索算法可能在采用y个第一特征向量在该检索集群102的第一对应关系1021中检索第二非结构化数据的性能满足第一条件，y为大于或等于1的整数，且x不等于y。

在一些实施例中，第一条件可能是性能最佳，也就是说，任意两个检索算法在检索数据的性能最佳时采用的第一特征向量的数目可能不同。或者，第一条件可能是检索数据的性能超过性能阈值，也就是说，任意两个检索算法在检索数据的性能超过性能阈值时采用的第一特征向量的数目可能不同。

因此，为了提高检索数据的效率，对于该检索集群102中接收到第二检索请求的检索设备1022，由于第二检索请求包括n个第一特征向量，所以该检索设备1022基于n获取第一检索算法，该多个检索算法包括第一检索算法，且第一检索算法是在采用n个第一特征向量检索数据时的性能满足第一条件的检索算法。该检索设备1022基于该n个第一特征向量，通过第一检索算法在该检索集群102的第一对应关系1021中检索K个第二非结构化数据，可以提高检索该K个第二非结构化数据的效率。

在一些实施例中，该检索设备1022可能包括第二对应关系，第二对应关系用于保存第一特征向量的数目和检索算法的对应关系。第二对应关系中的任一条记录包括一个数目和一个检索算法，该条记录用于表示该检索算法在采用该数目个第一特征向量检索数据时的性能满足第一条件。这样，该检索设备1022在接收到第二检索请求时，基于n，从第一对应关系中获取对应的检索算法作为第一检索算法。

对于任一个检索算法，该检索算法基于运行参数在该检索集群102的第一对应关系1021中检索第二非结构化数据，该检索算法采用不同的运行参数检索数据的性能不同。

在一些实施例中，第二对应关系用于保存第一特征向量的数目、运行参数和检索算法的对应关系。第二对应关系中的任一条记录包括一个数目、一个运行参数和一个检索算法，该条记录用于表示该检索算法在采用该数目个第一特征向量和该一个运行参数检索数据时的性能满足第一条件。

这样，该检索设备1022在接收到第二检索请求时，基于n，从第二对应关系中获取对应的检索算法作为第一检索算法以及获取对应的运行参数作为第一运行参数。第一检索算法是在采用n个第一特征向量检索数据时的性能满足第一条件的检索算法。第一运行参数是第一检索算法在检索数据的性能第一条件时采用的运行参数。该检索设备1022基于该n个第一特征向量和第一运行参数，通过第一检索算法在该检索集群102的第一对应关系1021中检索K个第二非结构化数据，可以提高检索该K个第二非结构化数据的效率。

在一些实施例中，参见图2，该网络架构100还包括均衡设备103，均衡设备103可以与该多个第一设备101中的每个第一设备101通信。

均衡设备101用于接收来自用户的第一检索请求，基于负载均衡策略从该多个第一设备101中选择一个第一设备101，向选择的第一设备101发送第一检索请求。

在一些实施例中，第一运行参数包括如下一个或多个，第一检索算法使用的资源块的数目“block”、该资源块包括的线程数目“thread”或该资源块使用的共享内存大小“memory”等。

第一检索算法使用的资源块的数目“block”大于或等于1，即第一检索算法使用到至少一个资源块，第一检索算法需要使用至少一个资源块来检索数据，每个资源块包括至少一个线程，且每个资源块包括的线程数目均等于“thread”。每个资源块中的线程可以读写共享内存，该共享内存的大小等于“memory”。

参见图3，本申请实施例提供了一种建立第二对应关系的方法300，所述方法300应用于图1或图2所示的网络架构100，所述方法300的执行主体可以为该网络架构100中的检索设备。所述方法300包括如下步骤301至步骤304的流程。

步骤301：检索设备获取待检测的第三非结构化数据的m个第三特征向量，每个第三特征向量包括第三非结构化数据的D个特征。

D又可称为第三特征向量的维度。

m可以是从大于或等于1且小于或等于M的数值范围内选择一个整数，M为大于1整数。可选地，M为16、32或64等数值。

在步骤301中，检测设备可以采用多种方式获取到第三非结构化数据的m个第三特征向量。接下来列举了两种方式，该两种方式分别为方式一和方式二。

方式一，检索设备获取待检测的第三非结构化数据，将第三非结构化数据输入到特征向量获取模型，使特征向量获取模型基于第三非结构化数据获取第三非结构化数据的m个第三特征向量，获取特征向量获取模型输出的第三非结构化数据的m个第三特征向量。

在一些实施例中，第三非结构化数据是检索设备生成的数据，或者，第三非结构化数据是检索设备从网络中下载的数据等。

方式二，检索设备接收检索请求，该检索请求包括第三非结构化数据的m个第三特征向量。

在一些实施例中，该检索请求是检索设备接收的来自任一个第一设备发送的检索请求。

步骤302：检索设备基于该m个第三特征向量，获取目标检索算法分别采用多个运行参数中的每个运行参数检索数据的性能，目标检索算法是多个检索算法中的任一个检索算法。

该多个检索算法中的每个检索算法在检索数据所使用的特征向量的维度均等于D。可选地，该多个检索算法是事先设置的检索算法。

在一些实施例中，检索设备包括第三对应关系，第三对应关系用于保存特征向量的维度和检索算法的对应关系。第三对应关系中的任一条记录包括一个维度和多个检索算法，该多个检索算法中的每个检索算法检索数据时所使用的特征向量的维度等于该记录包括的维度。

在一些实施例中，在执行步骤302之前，可以先基于第三特征向量的维度D，从第三对应关系中获取对应的多个检索算法，从该多个检索算法中选择一个检索算法作为目标检索算法。

在步骤302中，检索设备获取多个运行参数，从该多个运行参数中选择一个运行参数作为目标运行参数，基于该m个第三特征向量和目标运行参数，通过目标检索算法在第一对应关系中检索数据，得到目标检索算法采用目标运行参数检索数据的性能。然后，对于该多个运行参数中的其他运行参数，按上述对目标运行参数的处理方式对其他运行参数进行处理，得到目标检索算法采用目标运行参数检索数据的性能。如此，得到目标检索算法采用每个运行参数检索数据的性能。

在一些实施例中，检索设备可能枚举出多个运行参数，每个运行参数包括资源块的数目“block”、该资源块包括的线程数目“thread”和/或该资源块使用的共享内存大小“memory”等。

例如，参见下表1，假设检索设备枚举出如表1所示的多个运行参数，表1中的每行记录为一个运行参数。可选地，检索设备在枚举资源块的数目“block”时，枚举的每个“block”可能是16的倍数，例如，参见下表1所示，枚举的资源块的数目“block”可以为16、32或64等值。

检索设备在枚举每个资源块包括的线程数目“thread”时，枚举的每个“thread”可能是16的倍数，例如，参见下表1所示，枚举的每个资源块包括的线程数目“thread”可以为16、32、64或128等值。

检索设备在枚举资源块包括的各线程能够使用的共享内存大小“memory”时，枚举的每个“memory”可能是16的倍数，例如，参见下表1所示，枚举的每个“memory”可以为16k、32k或64k等值。

表1

序号	资源块的数目“block”	线程数目“thread”	共享内存大小“memory”
				1	16	16	16k
2	16	32	16k
				3	16	64	16k
4	16	128	16k
				5	32	16	32k
6	32	32	32k
				7	32	64	32k
8	32	128	32k
				9	64	16	64k
10	64	32	64k
				11	64	64	64k
12	64	128	64k
				……	……	……	……

在一些实施例中，目标检索算法采用目标运行参数检索数据的性能包括目标检索算法采用目标运行参数检索数据所需要的时延等。可选地，在实现时，

检索设备基于该m个第三特征向量和目标运行参数，通过目标检索算法计算第一对应关系中的每个第二非结构化数据的第二特征向量与该m个第三特征向量之间的距离，从第一对应关系中选择与该m个第三特征向量之间的距离最小的K个第二非结构化数据。该K个第二非结构化数据是检索设备检索出的数据，检索设备对采用该m个第三特征向量和目标运行参数检索出该K个第二非结构化数据的过程进行计时，得到目标检索算法采用目标运行参数检索数据所需要的时延。

在一些实施例中，检索设备包括图形处理器(graphics processing unit，GPU)，GPU包括至少一个智能媒体卡(smart media，SM)。

在一些实施例中，目标运行参数包括资源块的数目“block1”、资源块包括的线程数目“thread1”和/或资源块使用的共享内存大小“memory1”等。检索设备检索该K个第二非结构化数据的过程为：

检索设备基于目标运行参数分配“block1”个资源块以及为每个资源块分配共享内存。其中，该“block1”个资源块中的每个资源块包括“thread1”个线程，为每个资源块分配的共享内存的大小等于“memory1”。对于“block1”个资源块中的每个资源块，每个资源块对应第一对应关系中的部分记录，且每个资源块对应的记录不同。对于任一个资源块，该资源块中的线程用于目标检索算法，使得资源块中的线程能够计算该m个第三特征向量与该资源块对应的每条记录中的第二非结构化数据的第二特征向量之间的距离，该资源块对应的共享内存用于保存该资源块中的线程计算的距离。这样每个资源块中的线程计算的距离是该m个第三特征向量分别与第一对应关系中的每个第二非结构化数据的第二特征向量之间的距离。检索设备从第一对应关系中选择第二特征向量与该m个第三特征向量之间的距离最小的K个第二非结构化数据。

例如，参见图4，假设目标运行参数中的资源块的数目“block”等于4，检索设备分配4个资源块，分别为资源块A，资源块B，资源块C和资源块D。资源块A对应第一对应关系中的第0-31行的记录，第128-159行的记录、第256-278行的记录、……。资源块B对应第一对应关系中的第32-63行的记录，第160-191行的记录、第288-319行的记录、……。资源块C对应第一对应关系中的第64-95行的记录，第192-223行的记录、第320-351行的记录、……。资源块D对应第一对应关系中的第96-127行的记录，第224-255行的记录、第352-383行的记录、……。这样资源块A，资源块B，资源块C和资源块D可以并行计算距离，从而提高检索数据的效率。

在一些实施例中，对于任一个资源块，该资源块中的线程运行在检索设备的GPU的SM上。可选地，对于GPU中的任一个SM，该SM可以运行一个或多个资源块中的线程，从而有效利用了GPU的多SM的并行架构，提高了检索数据的效率。

步骤303：检索设备获取目标检索算法的第一运行参数和检索数据的最佳性能，第一运行参数是该多个运行参数中的目标检索算法在检索数据的性能最佳时所采用的运行参数。

由于检索设备已获取到目标检索算法采用每个运行参数检索数据的性能，因此检索设备从每个运行参数对应的检索数据的性能中选择最佳性能，将该最佳性能对应的运行参数为目标检索算法的第一运行参数。

目标检索算法是该多个检索算法中的一个检索算法，对于该多个检索算法中的其他每个检索算法，将其他每个检索算法分别作为目标检索算法并分别执行上述步骤302和步骤303的操作，这样得到该多个检索算法中的每个检索算法的第一运行参数和检索数据的最佳性能。然后执行步骤304。

步骤304：检索设备从该多个检索算法中选择检索数据的最佳性能满足第一条件的检索算法作为第一检索算法，将m，第一检索算法和第一检索算法的第一运行参数对应保存在第二对应关系中。

在步骤304中，检索设备从该多个检索算法中选择检索数据的最佳性能最优的检索算法作为第一检索算法，或者，从该多个检索算法中选择检索数据的最佳性能超过性能阈值的检索算法作为第一检索算法。

对于大于或等于1且小于或等于M的数值范围，从该数值范围中未选择的整数中选择一个整数作为m，然后按回执行上述步骤301-304的过程。在该数据范围中的每个整数均被选择后，第二对应关系中保存有该数值范围中的每个整数对应的第一检索算法和第一运行参数。

在一些实施例中，在步骤304中，检索设备也可能将m和第一检索算法对应保存在第二对应关系中。

在本申请实施例中，检索设备选择一个整数m，获取m个第三特征向量，基于该m个第三特征向量获取多个检索算法中的每个检索算法检索数据的最佳性能，从该多个检索算法中选择检索数据的最佳性能满足第一条件的检索算法作为第一检索算法，将m和第一检索算法对应保存在第二对应关系中。这样在检索设备接收包括n个特征向量的检索请求时，基于n从第二对应关系中获取采用该n特征向量检索数据的性能满足第一条件的第一检索算法，使第一检索算法来检索数据，可以提高检索数据的效率。

参见图5，本申请实施例提供了一种检索数据的方法500，所述方法500应用于图1或图2所示的网络架构100。所述方法500包括如下步骤501至步骤509的流程。

步骤501：均衡设备接收第一检索请求，第一检索请求包括待检索的第一非结构化数据。

用户需要使用第一非结构化数据检索数据时，可以使用终端设备向均衡设备发送第一检索请求，第一检索请求包括第一非结构化数据。

第一非结构化数据可能是图片、视频、音频或用户日志等数据。

步骤502：均衡设备向第一设备发送第一检索请求。

在步骤502中，均衡设备基于负载均衡策略从多个第一设备中选择一个第一设备，向选择的第一设备发送第一检索请求。

步骤503：第一设备接收第一检索请求，基于第一检索请求包括的第一非结构化数据获取n个第一特征向量，n为大于或等于1的整数。

该n个第一特征向量中的每个第一特征向量包括第一非结构化数据的D个特征。

在步骤503中，第一设备接收第一检索请求，将第一检索请求包括的第一非结构化数据输入到特征向量获取模型，使特征向量获取模型基于第一非结构化数据获取第一非结构化数据的n个第一特征向量，获取特征向量获取模型输出的第一非结构化数据的n个第一特征向量。

步骤504：第一设备向Q个检索集群中的每个检索集群发送第二检索请求，第二检索请求包括该n个第一特征向量，Q为大于1的整数。

在一些实施例中，终端设备向均衡设备发送的第一检索请求可能包括第一非结构化数据的n个第一特征向量。所以步骤503是一个可选的步骤，在第一检索请求包括该n个第一特征向量时，第一设备接收第一检索请求后，便向每个检索集群发送第二检索请求，第二检索请求包括该n个第一特征向量。

对于该Q个检索集群中的任一个检索集群，该检索集群包括至少一个检索设备，该检索集群中存在一个检索设备为主设备，该检索集群中除主设备之外的检索设备用于对该主设备进行容灾。该检索集群中身份为主设备的检索设备会接收到第二检索请求，也就是说，任一个检索集群中存在一个检索设备会执行如下步骤505的操作。

步骤505：检索设备接收第二检索请求，基于n获取第一检索算法，第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法。

在一些实施例中，检索设备还可以基于n获取第一运行参数，第一运行参数是第一检索算法检索数据的性能最佳时所采用的运行参数。

在步骤505中，基于n，从第二对应关系获取与该n对应的第一检索算法和第一运行参数。

由于第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法，表示第一检索算法是采用该n个第一特征向量检索数据的性能最佳的检索算法，或者，表示第一检索算法是采用该n个第一特征向量检索数据的超过性能阈值的检索算法。这样通过第一检索算法来检索数据，可以大幅提高检索数据的效率。

其中，第二对应关系可能是采用图3所示方法300建立的。

步骤506：检索设备基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索K个第二非结构化数据。

其中，第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。该检索设备所在的检索集群包括第一对应关系，该第一对应关系可以被该检索集群中的每个检索设备共享。

在步骤506中，检索设备基于该n个第一特征向量和第一对应关系中的每个第二非结构化数据的第二特征向量，通过第一检索算法计算第一对应关系中的每个第二非结构化数据的第二特征向量和该n个第一特征向量之间的距离。从第一对应关系中选择第二特征向量与该n个第一特征向量之间的距离最小的K个第二非结构化数据。

在步骤506中，检索设备还可能基于该n个第一特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索K个第二非结构化数据。

第一运行参数包括如下一个或多个，第一检索算法使用的资源块的数目“block2”、资源块包括的线程数目“thread2”或资源块使用的共享内存大小“memory2”。

在步骤506中，检索设备基于第一运行参数分配“block2”个资源块以及为每个资源块分配共享内存。其中，该“block2”个资源块中的每个资源块包括“thread2”个线程，为每个资源块分配的共享内存的大小等于“memory2”。对于“block2”个资源块中的每个资源块，每个资源块对应第一对应关系中的部分记录，且每个资源块对应的记录不同。对于任一个资源块，该资源块中的线程用于运行第一检索算法，使得该资源块中的线程能够计算该资源块对应的每条记录中的第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离，该资源块对应的共享内存用于保存该资源块中的线程计算的距离。这样每个资源块中的线程计算的距离是该n个第一特征向量分别与第一对应关系中的每个第二非结构化数据的第二特征向量之间的距离。检索设备从第一对应关系中选择第二特征向量与该n个第三特征向量之间的距离最小的K个第二非结构化数据。

步骤507：检索设备向第一设备发送第二检索响应，第二检索响应包括该K个第二非结构化数据。

在一些实施例中，第二检索响应还可能包括该K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离。

对于该Q个检索集群中的每个检索集群中的检索设备在检索出K个第二非结构化数据时，便向第一设备发送第二检索响应。

步骤508：第一设备接收该Q个检索集群中的每个检索集群中的检索设备发送第二检索响应，从该Q个第二检索响应包括的第二非结构化数据中选择L个第二非结构化数据，L为大于或等于1且小于或等于K的整数。

在步骤508中，第一设备共接收到Q个第二检索响应，每个第二检索响应包括K个第二非结构化数据，该n个第一特征向量与该K个第二非结构化数据中的每个第二非结构化数据的第二特征向量之间的距离。所以第一设备共接收到Q*K个第二非结构化数据和该Q*K个第二非结构化数据中的每个第二非结构化数据的第二特征向量与该n个第一特征向量之间的距离。第一设备从该Q*K个第二非结构化数据中，选择第二特征向量与该n个第一特征向量之间的距离最小的L个第二非结构化数据。

步骤509：第一设备发送第一检索响应，第一检索响应包括该L个第二非结构化数据。

在步骤509中，第一设备向用户对应的终端设备发送第一检索响应，第一检索响应包括该L个第二非结构化数据。

对于上述特征向量获取模型，该特征向量获取模型是基于至少一个训练样本训练得到的，该至少一个训练样本中的每个训练样本包括一个非结构化数据和至少一个特征向量，该至少一个特征向量中的每个特征向量包括该非结构化数据的D个特征。

在一些实施例中，训练特征向量获取模型的过程包括如下(1)-(3)的操作。

(1)：基于待训练特征向量获取模型和每个训练样本中的非结构化数据，获取每个训练样本对应的至少一个特征向量。

对于每个训练样本，该训练样本对应的至少一个特征向量是待训练特征向量获取模型对该训练样本中的非结构化数据进行处理后输出的特征向量。

待训练流量类型识别模型包括卷积神经网络、随机森林算法、逻辑回归算法或支持向量机(support vector machine，SVM)等。

在操作(1)中，将每个训练样本中的非结构化数据输入到待训练特征向量获取模型中，使待训练特征向量获取模型基于每个训练样本中的非结构化数据分别获取每个训练样本对应的至少一个特征风和日丽，获取待训练特征向量获取模块输出的每个训练样本对应的至少一个特征向量。

(2)：基于每个训练样本中的至少一个特征向量和每个训练样本对应的至少一个特征向量，通过损失函数计算损失值，基于该损失值调整待训练特征向量获取模型的参数。

(3)：在确定继续对待训练特征向量获取模型进行训练时，返回操作(1)，在确定不继续对待训练特征向量获取模型进行训练时，将待训练特征向量获取模型作为特征向量获取模型。

在一些实施例中，当对待训练特征向量获取模型进行训练的次数达到指定次数时，确定不继续对待训练特征向量获取模型进行训练。或者，

使用多个校验样本获取待训练特征向量获取模型获取特征向量的正确率，在该正确率超过指定正确率阈值，确定不继续对待训练特征向量获取模型进行训练。在实现时：

获取多个校验样本，每个校验样本包括非结构化数据和至少一个特征向量。基于每个校验样本中的非结构化数据和待训练特征向量获取模型，获取每个校验样本对应的一个特征向量。基于每个校验样本中的至少一个特征向量和每个校验样本对应的至少一个特征向量，计算获取特征向量的正确率。在该正确率未超过指定正确率阈值，确定继续对待训练特征向量获取模型进行训练，在该正确率超过指定正确率阈值，确定不继续对待训练特征向量获取模型进行训练。

在本申请实施例中，检索设备接收第二检索请求，第二检索请求包括待检索的第一非结构化数据的n个第一特征向量，基于n获取采用该n个第一特征向量检索数据的性能满足第一条件的第一检索算法。这样基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索K个第二非结构化数据，从而提高检索数据的效率。

参见图6，本申请实施例提供了一种检索数据的装置600，所述装置600可以部署在图1或图2所示的网络架构100中的检索设备上，或者，所述装置600可以部署在图3所述方法300或图5所述方法500中的检索设备上。所述装置600包括：

接收单元601，用于接收检索请求，该检索请求包括n个第一特征向量，该n个第一特征向量是待检索的第一非结构化数据的特征向量，n为大于或等于1的整数；

处理单元602，用于基于n获取第一检索算法，第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法；

处理单元602，还用于基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据，第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。

可选地，接收单元601接收检索请求的详细实现过程参见图5所示方法500的步骤505的相关内容，在此不再详细说明。

可选地，处理单元602获取第一检索算法的详细实现过程参见图5所示方法500的步骤505的相关内容，在此不再详细说明。

可选地，处理单元602检索至少一个第二非结构化数据的详细实现过程参见图5所示方法500的步骤506的相关内容，在此不再详细说明。

可选地，处理单元602，用于：

基于n获取第一运行参数，第一运行参数是第一检索算法检索数据的性能满足第一条件时所采用的运行参数；

基于n个第一特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据。

可选地，处理单元602获取第一运行参数的详细实现过程参见图5所示方法500的步骤505的相关内容，在此不再详细说明。

可选地，处理单元602基于n个第一特征向量和第一运行参数，检索至少一个第二非结构化数据的详细实现过程参见图5所示方法500的步骤506的相关内容，在此不再详细说明。

可选地，处理单元602，用于基于n和第二对应关系获取第一检索算法和第一运行参数，第二对应关系包括n、第一检索算法和第一运行参数。

可选地，处理单元602基于n和第二对应关系获取第一检索算法和第一运行参数的详细实现过程参见图5所示方法500的步骤505的相关内容，在此不再详细说明。

可选地，处理单元602，还用于：

获取第三非结构化数据的n个第三特征向量；

基于该n个第三特征向量获取多个检索算法中的每个检索算法检索数据的性能；

关联n和第一检索算法，第一检索算法是该多个检索算法中检索数据的性能满足第一条件的检索算法。

可选地，处理单元602获取n个第三特征向量的详细实现过程参见图3所示方法300的步骤301的相关内容，在此不再详细说明。

可选地，处理单元602获取每个检索算法检索数据的性能的详细实现过程参见图3所示方法300的步骤302的相关内容，在此不再详细说明。

可选地，处理单元602关联n和第一检索算法的详细实现过程参见图3所示方法300的步骤304的相关内容，在此不再详细说明。

可选地，处理单元602，用于基于n个第三特征向量，通过第一检索算法在第一对应关系中检索数据，得到第一检索算法检索数据的性能。

可选地，处理单元602基于n个第三特征向量得到第一检索算法检索数据的性能的详细实现过程参见图3所示方法300的步骤303的相关内容，在此不再详细说明。

可选地，处理单元602，还用于：

获取多个运行参数；

基于n个第三特征向量，获取第一检索算法采用多个运行参数中的每个运行参数检索数据的性能；

关联n、第一运行参数和第一检索算法，第一运行参数是第一检索算法在检索数据的性能最佳时所采用的运行参数。

可选地，处理单元602获取多个运行参数的详细实现过程参见图3所示方法300的步骤302的相关内容，在此不再详细说明。

可选地，处理单元602获取第一检索算法采用多个运行参数中的每个运行参数检索数据的性能的详细实现过程参见图3所示方法300的步骤302的相关内容，在此不再详细说明。

可选地，处理单元602关联n、第一运行参数和第一检索算法的详细实现过程参见图3所示方法300的步骤304的相关内容，在此不再详细说明。

可选地，处理单元602，用于基于n个第三特征向量和第一运行参数，通过第一检索算法在第一对应关系中检索数据，得到第一检索算法采用第一运行参数检索数据的性能。

可选地，处理单元602基于n个第三特征向量和第一运行参数得到第一检索算法采用第一运行参数检索数据的性能的详细实现过程参见图3所示方法300的步骤302的相关内容，在此不再详细说明。

可选地，第一运行参数包括如下一个或多个，第一检索算法使用的资源块的数目、该资源块包括的线程数目或该资源块使用的共享内存大小。

在本申请实施例中，处理单元基于n获取第一检索算法，第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法。基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据。由于处理单元获取的第一检索算法是采用该n个第一特征向量检索数据的性能满足第一条件的检索算法，基于该n个第一特征向量，通过第一检索算法在第一对应关系中检索至少一个第二非结构化数据，从而可以提高检索数据的效率。

参见图7，本申请实施例提供了一种检索设备700，所述检索设备700可以是图1或图2所示的网络架构100中的检索设备，或者，所述检索设备700可以是图3所述方法300或图5所述方法500中的检索设备。所述检索设备700包括至少一个处理器701，内部连接702，存储器703以及至少一个收发器704。

该检索设备700是一种硬件结构的装置。

在一些实施例中，可以用于实现图6所述的装置600中的功能模块。例如，本领域技术人员可以想到图6所示的装置600中的处理单元602可以通过该至少一个处理器701调用存储器703中的代码来实现，图6所示的装置600中的接收单元601可以通过该至少一个收发器704来实现。

可选的，上述处理器701可以是一个通用中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。

上述内部连接702可包括一通路，在上述组件之间传送信息。可选的，内部连接702为单板或总线等。

上述收发器704，用于与其他节点或通信网络通信。

上述存储器703可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器可以是独立存在，通过总线与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器703用于存储执行本申请方案的应用程序代码，并由处理器701来控制执行。处理器701用于执行存储器703中存储的应用程序代码，以及配合至少一个收发器704，从而使得该检索设备700实现本专利方法中的功能。

在具体实现中，作为一种实施例，处理器701可以包括一个或多个CPU，例如图7中的CPU0和CPU1。

在具体实现中，作为一种实施例，该检索设备700可以包括多个处理器，例如图7中的处理器701和处理器707。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种检索数据的方法，其特征在于，所述方法包括：

接收检索请求，所述检索请求包括n个第一特征向量，所述n个第一特征向量是待检索的第一非结构化数据的特征向量，n为大于或等于1的整数；

基于n获取第一检索算法，所述第一检索算法是采用所述n个第一特征向量检索数据的性能满足第一条件的检索算法；

基于所述n个第一特征向量，通过所述第一检索算法在第一对应关系中检索至少一个第二非结构化数据，所述第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

基于n获取第一运行参数，所述第一运行参数是所述第一检索算法检索数据的性能满足所述第一条件时所采用的运行参数；

所述基于所述n个第一特征向量，通过所述第一检索算法在第一对应关系中检索至少一个非结构化数据，包括：

基于所述n个第一特征向量和所述第一运行参数，通过所述第一检索算法在所述第一对应关系中检索所述至少一个第二非结构化数据。

3.如权利要求1或2所述的方法，其特征在于，所述基于n获取所述第一检索算法和所述第一运行参数，包括：

基于n和第二对应关系获取所述第一检索算法和所述第一运行参数，所述第二对应关系包括n、所述第一检索算法和所述第一运行参数。

4.如权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

获取第三非结构化数据的n个第三特征向量；

基于所述n个第三特征向量获取多个检索算法中的每个检索算法检索数据的性能；

关联n和所述第一检索算法，所述第一检索算法是所述多个检索算法中检索数据的性能满足所述第一条件的检索算法。

5.如权利要求4所述的方法，其特征在于，所述基于所述n个第二特征向量获取多个检索算法中的每个检索算法检索数据的性能，包括：

基于所述n个第三特征向量，通过所述第一检索算法在所述第一对应关系中检索数据，得到所述第一检索算法检索数据的性能。

6.如权利要求4或5所述的方法，其特征在于，所述方法还包括：

获取多个运行参数；

基于所述n个第三特征向量，获取所述第一检索算法采用所述多个运行参数中的每个运行参数检索数据的性能；

关联n、第一运行参数和所述第一检索算法，所述第一运行参数是所述第一检索算法在检索数据的性能最佳时所采用的运行参数。

7.如权利要求6所述的方法，其特征在于，所述基于所述n个第三特征向量，获取所述第一检索算法采用所述多个运行参数中的每个运行参数检索数据的性能，包括：

基于所述n个第三特征向量和所述第一运行参数，通过所述第一检索算法在所述第一对应关系中检索数据，得到所述第一检索算法采用所述第一运行参数检索数据的性能。

8.如权利要求2、3、6或7所述的方法，其特征在于，所述第一运行参数包括如下一个或多个，所述第一检索算法使用的资源块的数目、所述资源块包括的线程数目或所述资源块使用的共享内存大小。

9.一种检索数据的装置，其特征在于，所述装置包括：

接收单元，用于接收检索请求，所述检索请求包括n个第一特征向量，所述n个第一特征向量是待检索的第一非结构化数据的特征向量，n为大于或等于1的整数；

处理单元，用于基于n获取第一检索算法，所述第一检索算法是采用所述n个第一特征向量检索数据的性能满足第一条件的检索算法；

所述处理单元，还用于基于所述n个第一特征向量，通过所述第一检索算法在第一对应关系中检索至少一个第二非结构化数据，所述第一对应关系用于保存第二非结构化数据与第二非结构化数据的第二特征向量之间的对应关系。

10.如权利要求9所述的装置，其特征在于，所述处理单元，用于：

11.如权利要求9或10所述的装置，其特征在于，所述处理单元，用于基于n和第二对应关系获取所述第一检索算法和所述第一运行参数，所述第二对应关系包括n、所述第一检索算法和所述第一运行参数。

12.如权利要求9-11任一项所述的装置，其特征在于，所述处理单元，还用于：

获取第三非结构化数据的n个第三特征向量；

13.如权利要求12所述的装置，其特征在于，所述处理单元，用于基于所述n个第三特征向量，通过所述第一检索算法在所述第一对应关系中检索数据，得到所述第一检索算法检索数据的性能。

14.如权利要求12或13所述的装置，其特征在于，所述处理单元，还用于：

获取多个运行参数；

15.如权利要求14所述的装置，其特征在于，所述处理单元，用于基于所述n个第三特征向量和所述第一运行参数，通过所述第一检索算法在所述第一对应关系中检索数据，得到所述第一检索算法采用所述第一运行参数检索数据的性能。

16.如权利要求10、11、14或15所述的装置，其特征在于，所述第一运行参数包括如下一个或多个，所述第一检索算法使用的资源块的数目、所述资源块包括的线程数目或所述资源块使用的共享内存大小。

17.一种检索数据的装置，其特征在于，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序，使得所述装置实现如权利要求1-8任一项所述的方法。

18.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的方法。

19.一种计算机程序产品，其包括计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-8任一项所述的方法。