CN111125417B

CN111125417B - 一种数据搜索方法、装置、电子设备及存储介质

Info

Publication number: CN111125417B
Application number: CN201911390529.8A
Authority: CN
Inventors: 武绍旭
Original assignee: Shenzhen Intellifusion Technologies Co Ltd
Current assignee: Shenzhen Intellifusion Technologies Co Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-03-31
Anticipated expiration: 2039-12-30
Also published as: CN111125417A

Abstract

本发明涉及数据处理技术领域，提供一种数据搜索方法、装置、电子设备及存储介质，方法包括：获取图像数据，将所述图像数据存储到数据库中；筛选满足第一预设条件的原始特征值，提取所述原始特征值的第一短特征值，根据预设的数据类型优先级将所述第一短特征值加载到GPU的显存中，并建立数据类型‑数据量映射表；获取待搜索数据，若所述待搜索数据的数据类型存在所述数据类型‑数据量映射表，则提取所述待搜索数据的第二短特征值与所述第一短特征值进行比对，得到比对列表；选取所述比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。本发明实施例能够加快数据比对的速度，从而提高数据搜索的效率。

Description

一种数据搜索方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据搜索方法、装置、电子设备及存储介质。

背景技术

传统的图像搜索，在图像的录入过程中，是将所有的图像不加区分的加载到存储区，在进行图像搜索时，是通过图像的原始数据进行搜索。而图像的原始数据的数据量较大，通过图像的原始数据进行搜索会导致响应速度慢，结合不加区分的对数据进行存储，会对已录入的所有图像数据都进行遍历，从而会让图像搜索的响应速度变得更慢，进而影响数据搜索的效率。可见，现有技术中，对于数据搜索，存在响应速度慢、搜索效率低的问题。

发明内容

本发明实施例提供一种数据搜索方法，能够提高数据搜索的效率。

第一方面，本发明实施例提供一种数据搜索方法，所述方法包括以下步骤：

获取图像数据，将所述图像数据存储到数据库中，所述图像数据包括数据类型以及原始特征值；

筛选满足第一预设条件的原始特征值，提取所述原始特征值的第一短特征值，根据预设的数据类型优先级将所述第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表；

获取待搜索数据，判断所述待搜索数据的数据类型是否存在所述数据类型-数据量映射表，若存在，则提取所述待搜索数据的第二短特征值，在所述GPU的显存中对所述第二短特征值与所述第一短特征值进行比对，得到比对列表；

选取所述比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

第二方面，本发明实施例还提供一种数据搜索装置，包括：

获取模块，用于获取图像数据，将所述图像数据存储到数据库中，所述图像数据包括数据类型、数据量以及原始特征值；

加载模块，用于筛选满足第一预设条件的原始特征值，提取所述原始特征值的第一短特征值，根据预设的数据类型优先级将所述第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表；

判断模块，用于获取待搜索数据，判断所述待搜索数据的数据类型是否存在所述数据类型-数据量映射表，若存在，则提取所述待搜索数据的第二短特征值，在所述GPU的显存中对所述第二短特征值与所述第一短特征值进行比对，得到比对列表；

选取模块，用于选取所述比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

第三方面，本发明实施例还提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现所述实施例提供的数据搜索方法中的步骤。

第四方面，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述实施例提供的数据搜索方法中的步骤。

在本发明实施例中，通过将图像数据预先存储到数据库中，并在数据库中将满足第一预设条件的原始特征值的第一短特征值进行提取，然后根据数据类型优先级将第一短特征值加载到GPU的显存中，同时建立数据类型-数据量映射表，当有待搜索数据访问时，通过将待搜索数据的数据类型与数据类型-数据量映射表进行比对，若识别出待搜索数据的数据类型存在数据类型-数据量映射表中，则确定数据搜索在GPU的显存中进行，并且提取待搜索数据的第二特征值与存储在GPU的显存中的第一短特征值进行比对，这样，通过直接判断待搜索数据的数据类型是否存在数据类型-数据量映射表中，可以快速判断具有相同数据类型的第一短特征值是否存在于GPU的显存中，无需对数据库中所有的图像数据都进行遍历；而且短特征值具有长度短、运算量小的特点，通过提取短特征值进行数据比对的方式，可以加快数据比对的速度，从而提高数据搜索的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据搜索方法的流程图；

图2是本发明实施例提供的另一种数据搜索方法的流程图；

图3是本发明实施例提供的另一种数据搜索方法的流程图；

图4是本发明实施例提供的一种数据搜索装置的结构示意图；

图5是本发明实施例提供的另一种数据搜索装置的结构示意图；

图6是本发明实施例提供的另一种数据搜索装置的结构示意图；

图7是本发明实施例提供的另一种数据搜索装置的结构示意图；

图8是本发明实施例提供的另一种数据搜索装置的结构示意图；

图9是本发明实施例提供的另一种数据搜索装置的结构示意图；

图10是本发明实施例提供的另一种数据搜索装置的结构示意图；

图11是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，图1是本发明实施例提供的一种数据搜索方法的流程图，该数据搜索方法包括以下步骤：

101、获取图像数据，将图像数据存储到数据库中，图像数据包括数据类型以及原始特征值。

在本实施例中，上述数据搜索方法可以运用于人像数据搜索，且上述数据搜索方法运行于其上的电子设备可以通过有线连接方式或者无线连接方式获取图像数据，当用户通过电子设备发出数据请求后，可以对数据请求进行解析，提取数据请求中包含的数据类型、数据量、数据的原始特征值等信息。上述无线连接方式可以包括但不限于3G/4G连接、WiFi(Wireless-Fidelity)连接、蓝牙连接、WiMAX(Worldwide Interoperability forMicrowave Access)连接、Zigbee(低功耗局域网协议，又称紫峰协议)连接、UWB(ultrawideband)连接、以及其他现在已知或将来开发的无线连接方式。

需要说明的是，上述电子设备可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

其中，在进行海量的数据检索计算之前，需要获取图像数据。图像数据可以是自动获取的数据，也可以是人工输入的数据。图像数据可以是未经处理的原始图像数据，图像数据的数据类型可以有多种，例如：人脸数据、人体数据、黑名单数据、白名单数据等等。可以根据数据类型对图像数据进行区分，避免让所有不同数据类型的图像数据均保存在数据库的同一个存储区(数据表)，当然，在数据库中可以设置有多个存储区。上述的数据量可以表示图像数据的数据大小，例如：A数据类型的数据量有600Mkbty，B数据类型的数据量有1000Mkbty。上述的数据库可以专门用于存储上述的图像数据。上述的原始特征值可以是指提取图像数据中的特定信息而形成的固定或者变长的半结构化数据，具有精度高、长度长、运算量大的特点。

102、筛选满足第一预设条件的原始特征值，提取原始特征值的第一短特征值，根据预设的数据类型优先级将第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表。

其中，第一预设条件可以作为判断是需要在数据库中进行冷搜索，还是需要在GPU的显卡中进行热搜索的阈值条件，对数据量进行限制。数据类型优先级可以表示对数据类型进行有序的分级，从优先级中可以将优先级高的数据类型优先加载到GPU的显存中，优先级低的数据类型可以加载到数据库中，预设的数据类型优先级可以包括高优先级(priorityLev＝1)、中优先级(priorityLev＝2)、低优先级(priorityLev＝3)。当然还可以有其它形式的优先级设置方式，在本发明中不做限定。当满足第一预设条件后，便可以调用GPU接口，根据数据类型优先级对数据库中原始特征值的第一短特征值进行提取。不满足第一预设条件时，则可以直接在数据库中根据原始特征值进行数据搜索，无需提取第一短特征值。相对于上述的原始特征值而言，第一短特征值具有精度有损，长度短，运算量小的特点。同一个图像数据，其图像数据、图像数据的原始特征值、以及原始特征值的第一短特征值具有相同的数据类型。

上述的冷搜索不需要预热过程，可以直接在数据库中进行数据搜索计算。但由于数据库中的图像数据是直接保存在磁盘空间，而磁盘IO的限制，在数据搜索过程中从磁盘空间读取原始特征值时会产生一定的时延，只适用于小数据量，所以会将不满足第一预设条件的图像数据存储在数据库中直接进行数据搜索。上述的热搜索在启动数据搜索前，有一个预热过程，需要将搜索的目标库数据(基于原始特征值提取的第一短特征值)从磁盘空间中通过调用GPU接口进行读取，并加载到GPU的显存中，然后直接在GPU的显存中进行比对搜索。热搜索由于直接在GPU的显存中检索，少了数据读取与搬移的时延，针对数据量大的数据搜索其搜索性能高。

考虑到GPU的显存资源成本高，可以将上述的数据类型-数据量映射表mapType2INdex建立在CPU(中央服务器)的内存中供随时查询，在据数据类型-数据量映射表中，存储有GPU的显存中第一短特征值的数据类型以及该数据类型在GPU的显存中的数据量。当判断是否需要进行热搜索时，会预先根据数据类型-数据量映射表对数据类型以及数据量进行判断，能否启动热搜索。

103、获取待搜索数据，判断待搜索数据的数据类型是否存在数据类型-数据量映射表，若存在，则提取待搜索数据的第二短特征值，在GPU的显存中对第二短特征值与第一短特征值进行比对，得到比对列表。

其中，待搜索数据可以是指用户通过电子设备发出的数据请求中所包含的数据，对该数据请求进行解析可以获取到待搜索数据。待搜索数据中同样会包括数据类型、待搜索原始特征值，以及待搜索原始特征值的第二短特征值。获取到待搜索数据后，可以提取待搜索数据的数据类型，判断待搜索数据的数据类型是否存在上述的数据类型-数据量映射表中。若存在，则表示待搜索数据可以在GPU的显存中进行搜索计算。通过提取出待搜索数据的待搜索原始特征值，并调用GPU接口提取待搜索原始特征值的第二短特征值，启动热搜索，将第二短特征值与预先获取到的图像数据中提取出来的第一短特征值进行比对，该比对可以是进行相似度比对。通过比对后可以得到一个比对列表，在比对列表中可以包括多个不同的第一短特征值、第二短特征值、以及多个不同的第一短特征值分别与第二短特征值之间的相似度，例如：人脸A与人脸B的相似度为30％、人脸A与人脸C的相似度为50％、人脸A与人脸D的相似度为70％等。

对于不存在的情况下，则可以在数据库中直接提取待搜索数据的待搜索原始特征值与原始特征值进行搜索计算。

104、选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

上述的第二预设条件可以是针对比对列表中的第一短特征值进行再一次筛选的筛选条件，该筛选条件可以包括相似度值的大小、预设提取的第一短特征值的数量等。筛选出满足上述第二预设条件的第一短特征值后，便可以在数据库中提取出与该第一短特征值对应的图像数据作为目标搜索数据，并将该目标搜索数据返回到用户发出数据请求的电子设备一端，作为数据请求的搜索结果进行响应，上述从比对列表中筛选出的第一短特征值可以是一批数据。

作为一种可能的实施例方式，在提取出原始特征值的第一短特征值后，还可以将提取到的第一短特征值更新到数据库中，便于后续若检索到已经更新在数据库中的第一短特征值时，可以直接比对，不用调用GPU接口进行提出，降低计算量，加快计算速度。

在本发明实施例中，通过将图像数据预先存储到数据库中，并在数据库中将满足第一预设条件的原始特征值的第一短特征值进行提取，然后根据数据类型的优先级将第一短特征值加载到GPU的显存中，同时建立数据类型-数据量映射表，当有待搜索数据访问时，通过将待搜索数据的数据类型与数据类型-数据量映射表进行比对，若识别出待搜索数据的数据类型存在数据类型-数据量映射表中，则确定数据搜索在GPU的显存中进行，并且提取待搜索数据的第二特征值与存储在GPU的显存中的第一短特征值进行比对。这样，直接通过判断待搜索数据的数据类型是否存在数据类型-数据量映射表中，可以快速判断具有相同数据类型的第一短特征值是否存在于GPU的显存中，无需对数据库中所有的图像数据都进行遍历；而且短特征值具有长度短、运算量小的特点，通过提取短特征值进行数据比对的方式，可以加快数据比对的速度，从而提高数据搜索的效率。

如图2所示，图2是本发明实施例提供的另一种方法流程图，包括以下步骤：

201、获取图像数据，将图像数据存储到数据库中。

202、对数据库中图像数据的数据类型进行判断，将数据类型相同的图像数据进行类聚，以得到相同数据类型的图像数据。

其中，基于数据类型的不同，可以将相同数据类型的图像数据进行类聚，将零散的图像数据根据数据类型的不同汇聚成同一数据类型的大类，例如：将所有数据类型为a的图像数据汇聚为一类，将所有数据类型为b的图像数据汇聚为一类，将所有数据类型为c的图像数据汇聚为一类。在数据库中，可以设置有多个存储区，用于对分类后的图像数据分别进行存储。其存储的方式可以是根据录入的图像数据的数据类型进行依次分类存储，当数据库中所有的存储区都存储有图像数据后，可以选择不再进行数据录入。若同一个存储区已被同一种数据类型的图像数据占满，则该种图像数据后续录入时可以查找数据库中其它未存满的存储区，例如:当前录入的图像数据的数据类型为B，而存储区b已经存满，则会依序查找其余存储区，若存储区c有足够的存储区，则将图像数据的数据类型为B存储在c存储区中。当然，上述的存储方式只是本发明实施例中的部分存储方式，在本发明中对存储方式不做限定。

203、统计相同数据类型的图像数据的数据量，判断数据量是否达到预设数据量阈值。

其中，上述的预设数据量阈值hotColdThrehold可以作为上述的第一预设条件，用于判断该进行冷搜索还是热搜索，且上述的hotColdThrehold可配置，可通过实际评估得到。

在启动预热以及数据录入过程中，可以维护一张表mapType2Num，用于实时计数目前数据库中高优先级及中优先级(priorityLev<3)数据类型所对应的数据量。可以通过启动一个定时器线程，遍历mapType2Num，获取所有数据量amount≥hotColdThrehold的数据类型，然后从数据库中依次扫描所得到的数据类型，并读取该数据类型对应的原始特征值，对得到的原始特征值按数据类型归类，保存在容器mapType2Data中，并对容器mapType2Data中的原始特征值按数据类型进行排序，排序的原则可以是：将priorityLev＝1(高优先级)的数据类型排在该容器靠前的位置，然后将剩下priorityLev＝2(中优先级)的数据类型在priorityLev＝1的数据类型位置后按对应的历史请求频率timesPerHour由高到低排序。

204、若数据量达到预设数据量阈值，则调用GPU接口从原始特征值中提取第一短特征值，并根据预设的数据类型优先级将第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表。

其中，当图像数据的数据量达到预设数据量阈值hotColdThrehold时，便可以调用GPU接口从该图像数据的原始特征值中提取出第一短特征值，将提取出来的第一短特征值加载到GPU的显存中进行存储。

加载到GPU中的第一短特征值的数据类型以及数据量可以通过维护一张mapType2INdex(数据类型-数据量映射表)，在mapType2INdex中存储有第一短特征值的数据类型以及数据量。在步骤203中，得到排序后的mapType2Data容器后，可以对mapType2Data容器进行遍历，依次读取一个数据类型及其对应的原始特征值，并且可以根据mapType2INdex来查询当前的数据类型是否可以加载到GPU的显存中，若当前的数据类型可以加载到GPU的显存，则直接调用GPU接口进行第一短特征值提取及加载，并把该数据类型及对应的原始特征值从mapType2Data容器中删除。

205、获取待搜索数据，判断待搜索数据的数据类型是否存在数据类型-数据量映射表，若存在，则提取待搜索数据的第二短特征值，在GPU的显存中对第二短特征值与第一短特征值进行比对，得到比对列表。

206、选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

可选的，上述步骤204的步骤包括：

采集预加载到GPU的显存中的数据类型的种类。

其中，数据类型优先级可以预先设置，因不同的数据类型其应用场景的不同，可将数据类型按其查询时延的要求划分为不同的优先等级。在本发明实施例中，优先级设置为3个等级，priorityLev＝1、2、3，分别代表高优先级、中优先级、低优先级，例如：对于重点人员布控库(静态库)，其保存的大多是涉抢、盗嫌疑分子相关人脸及身份信息，对该数据类型的图像数据设置为高优先级，即对应的priorityLev＝1；对于车辆、非机动车关联数据类型来说，其查询时延要求可以相对较低，设置为低优先级priorityLev＝3；对于其它查询时延要求介于这两种之间的数据类型，可以设置为中优先级priorityLev＝2。在实际应用中，高优先级的数据类型和低优先级的数据类型都是少数，大多数的数据类型都属于中优先级。上述不同数据类型与其对应的优先级的映射关系可以由一个表mapType2Priority来定义，可根据数据类型type进行查询，得到与数据类型对应的priorityLev。

其中，剩余存储数据类型可以是指GPU的显存中可容纳的数据类型的种类，若GPU的显存中还没有加载有第一短特征值，则剩余存储数据类型的种类为最大。上述对预加载到GPU的显存中的第一短特征值的数据类型进行采集，可以统计总共有多少种数据类型。

若数据类型的种类超过GPU的显存中剩余存储数据类型的种类，则识别数据类型的种类的数据类型优先级。

其中，可以限定剩余存储数据类型最多可以存储的数据类型种类，也即是最大热数据类型种类maxHotTypeNum，maxHotTypeNum可以根据GPU的显卡资源的大小来定。例如：以Tesla P4 GPU显卡为例，若服务器为单卡配置，有效显存大小为7600MkBty左右，若图像数据的数据类型共有a、b、c三种，其大小依次分别为2000MkBty、3000MkBty、2500MkBty，则可以设定maxHotTypeNum＝3。限定最大热数据类型种类maxHotTypeNum可以提高GPU资源利用率，减少数据类型计算空间对GPU资源的占用。上述数据类型的种类超过GPU的显存中剩余存储数据类型的种类，可以表示需要加载到GPU的显存中的图像数据的数据类型过多，会导致GPU的显存空间不足。因此，需要根据数据类型优先级对预加载到GPU的显存中的数据类型进行排序，优先级越高可以表示数据类型越重要，这样便可以优先对优先级高的数据类型加载到GPU的显存中。

根据数据类型优先级，有序的筛选数据类型优先级在前、且满足剩余存储数据类型的种类的热数据类型，并选取热数据类型对应的第一短特征值加载到GPU的显存中。

其中，热数据类型可以是能够加载到GPU的显存中进行数据搜索的数据类型，此外，对于直接在数据库中进行数据搜索的数据类型可以叫做冷数据类型。可以预先设置能够加载到GPU的显存中的数据类型为高优先级以及中等优先级，对于低优先级的图像数据，可以直接选择进行冷搜索。上述筛选数据类型优先级排序在前、且满足剩余存储数据类型的第一短特征值可以是指被选中加载到GPU的显存中的第一短特征值既满足优先级的限制，数据类型的种类也不会超过剩余存储数据类型，例如：当前需要加载到GPU的显存中的数据类型共有10种，高优先级的有a、b，中优先级的有c、d、e，低优先级的有f、g、h、i、j，而GPU的显存中maxHotTypeNum为5种，因此，筛选加载到GPU的显存中的第一短特征值对应的数据类型为a、b，以及c、d、e。

可选的，上述步骤204的步骤还包括：

根据数据类型优先级，检测是否存在多个同等优先级的热数据类型。

其中，同等优先级的热数据类型可以表示同属于高优先级，或者同属于中优先级，例如：数据类型a、b同为高优先级，数据类型c、d、e同属于中优先级等。

若存在多个同等优先级的热数据类型，则提取同等优先级的热数据类型对应的历史请求频率。

其中，历史请求频率可以表示某个第一短特征值在此次搜索之前，单位时间内的请求次数。历史请求频率可以通过先统计每种数据类型的被请求的次数，再计算出对应的历史请求频率timesPerHour，其计算方法为：历史请求频率＝请求的次数/运行时长(单位小时)，并维护到表mapType2Times中，例如：1小时之内，A数据类型被请求了20次。因此，可以通过维护一张表mapType2Times，实时统计当前每种数据类型所被查询的请求频率。当然，上述的单位时间的具体时长可以自定义设置。

其中，当识别到同一个优先级存在多种热数据类型时，若要从其中选取出更具有代表性的热数据类型，则可以对同等级的热数据类型的历史请求频率进行统计，上述历史请求频率可以通过上述mapType2Times得到。例如：最大热数据类型种类maxHotTypeNum为5，当前有6个同优先等级的热数据类型都满足了预设数据量阈值，其中，高优先级的热数据类型个数为2，中优先级的热数据类型个数为4，4+2>5，即可加载到GPU的显存中的第一短特征值可以从中优先级中选取3种热数据类型的第一短特征值进行加载，具体选取哪3种热数据类型可以根据历史请求频率而定。

对历史请求频率进行排序，根据历史请求频率有序将第一短特征值加载到GPU的显存中，直到GPU的显存中的热数据类型的种类达到预设的最大热数据类型种类。

对同等级的热数据类型对应的第一短特征值的历史请求频率进行统计后，可以对所有的第一短特征值的历史请求频率从高至低进行排序，然后按照顺序将提取出来的第一短特征值加载到GPU的显存中。当GPU的显存中容纳不下更多的热数据类型，表示热数据类型已达到maxHotTypeNum，此时可以暂停继续录入。

可选的，本方法还可以包括：

统计GPU的显存中的热数据类型的种类，判断热数据类型的种类是否达到预设的最大热数据类型种类。

其中，判断GPU的显存中的热数据类型的种类是否达到预设的最大热数据类型种类maxHotTypeNum，可以便于判断是否可以继续录入新的第一短特征值，或者是否需要对GPU的显存进行数据更新或删除等。

若热数据类型的种类达到预设的最大热数据类型种类，则检测GPU的显存中每种热数据类型对应的第一短特征值的历史请求频率。

若热数据类型的种类达到预设的最大热数据类型种类maxHotTypeNum，则可以对GPU的显存中的每个热数据类型的第一短特征值的历史请求频率进行检测，因为热数据类型的个数是有限的，不能超过maxHotTypeNum，如果当前GPU的显存中热数据类型个数hotTypeNum＝maxHotTypeNum，则此时不能加载新的中优先级及以上的热数据类型到GPU的显存中，因此，可以选择对GPU的显存的数据进行更新。

根据热数据类型优先级，有序判断第一短特征值的历史请求频率是否低于最低请求频率阈值。

其中，若此时热数据类型hotTypeNum中存在中优先级数据类型，且使用频率很低，会导致GPU资源被闲置。因此需要一种机制将该数据类型清理出GPU显存，替换为更高优先级、或更高使用频率的热数据类型，则这时就需要实时监测每个中优先等级的热数据类型对应的历史请求频率timesPerHour。获取到每个中优先级的热数据类型对应的历史请求频率timesPerHour后，可以与预设的最低请求频率阈值进行比较，这样，能够筛选出部分低于最低请求频率阈值的热数据类型，这部分热数据类型对应的第一短特征值在GPU的显存中相当于闲置数据，会导致GPU的显存使用率降低，因此，可以对该部分第一短特征值进行更新。

若第一短特征值的历史请求频率低于最低请求频率阈值，则将热数据类型对应的第一短特征值进行删除。

具体的，可以定义一个coldDataTimer定时器，用于周期性监测所有中优先级(priorityLev＝＝2)的热数据类型对应的第一短特征值的状态(历史请求频率timesPerHour)。同时定义两个门限timesPerHourMaxThreHold(最大历史请求频率)和timesPerHourMinThreHold(最小历史请求频率)，且timesPerHourMaxThreHold>timesPerHourMinThreHold。当coldDataTimer启动后，会周期性对中优先级的热数据类型按其对应的历史请求频率timesPerHourtimes进行排序，如果存在一个热数据类型type1(priorityLev1＝＝2)，其对应的第一短特征值的历史搜索频率为timesPerHourtimes1，且在热数据类型中等级最低，并且对应的timesPerHourtimes1<timesPerHourMinThreHold；同时在数据库中，存在一个冷数据类型type2(没有启动GPU的显存进行搜索)，且满足priorityLev2＝2，且timesPerHourtimes2≥timesPerHourMaxThreHold；则type1类型数据被制冷，即将其第一短特征值从GPU的显存中整体删除(同一种类型数据是一个数据块，按数据块删除，会减少耗时)，然后将type1数据类型从mapType2INdex表中删除；同时，在没有高优先级的热数据类型录入的情况下，若冷数据类型type2的数据量满足预设数据量阈值，且满足上述限定的条件(tyLev2＝2，且timesPerHourtimes2≥timesPerHourMaxThreHold)，则可以将数据类型type2制热，调用GPU接口提取该数据类型对应的原始特征值的第一短特征值，加载到GPU的显存中。为了避免数据类型冷热搜索模式频繁切换，该定时器启动周期可采用较长的周期，例如：以小时为单位。这样，可以实现GPU的显存的数据更替，将历史请求频率低的数据进行删除，替换为更高优先级、或更高历史请求频率的热数据类型，有利于提高GPU的显存中数据的利用率。

在本发明实施例中，通过对图像数据的数据类型进行类聚，统计每种数据类型的数据量，根据判断每种数据的数据量是否达到预设数据量阈值的方式，选择是否调用GPU接口提取图像数据的原始特征值对应的第一短特征值，以数据量为第一预设条件实现分类搜索。且根据数据类型优先级，将优先级高的热数据类型对应的第一短特征值优先加载到GPU的显存中，直到加载到GPU的显存中的热数据类型达到预设的最大数据类型时，则停止继续加载，而对于加载时同时存在多个相同等级的热数据类型，通过统计相同等级的热数据类型的历史请求频率，优先将历史请求频率高的热数据类型进行加载，这样，在海量图像数据都需要加载到GPU的显存中的情况下，通过将数据类型的优先级以及热数据类型的历史请求频率作为限制条件，对海量图像数据进行筛选，可以将数据类型的优先级高、历史请求频率大的数据类型优先加载到GPU的显存中，后续再GPU的显存进行数据比对时，可以提供更快的计算速度，以提高数据搜索的效率。

如图3所示，图3为本发明实施提供的另一种数据搜索方法的流程图，具体包括以下步骤：

301、获取图像数据，将图像数据存储到数据库中。

302、筛选满足第一预设条件的原始特征值，提取原始特征值的第一短特征值，根据预设的数据类型优先级将第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表。

303、获取待搜索数据，判断待搜索数据的数据类型是否存在数据类型-数据量映射表，若存在，则提取待搜索数据的待搜索原始特征值，从待搜索原始特征值中提取第二短特征值。

304、查找GPU的显存中与第二短特征值对应的第一短特征值。

其中，当接收到待检索数据请求时，可以对待检索数据请求进行解析，获取其包含的待搜索原始特征值，然后再从原始特征值中提取出第二短特征值。通过调用GPU接口将第二短特征值加载到GPU的显存中，在GPU的显存中进行遍历，查找与第二短特征值对应的第一短特征值。

305、计算第一短特征值与第二短特征值的相似度值，根据相似度值生成比对列表。

进行遍历后可以得到第二短特征值与多个第一特征值之间的相速度值，可以是对两者的数据类型、版本等多个维度进行比较，并且可以根据第一短特征值、第二短特征值以及各自对应的相似度值生成比对列表，相似度列表中可以包括相似度值最高的topN个第一短特征值，且可以是根据相似度高低完成排序的列表。

306、选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

可选的，第二预设条件包括预设的相似度阈值，上述步骤305包括：

根据比对列表，判断多个第一短特征值与第二短特征值的相似度值中是否有达到预设的相似度阈值。

其中，得到比对列表后，可以对比对列表中的相似度值进行筛选，依次将每个相似度值与预设的相似度阈值进行大小比较，例如：第一短特征值与第二短特征值的相似度为80，预设的相似度阈值为85，则表示第一短特征值与第二短特征值的相似度值中未达到预设的相似度阈值。此种情况，可以放弃该第一短特征值。

若相似度值中有达到预设的相似度阈值，则提取相似度值达到预设的相似度阈值的第一短特征值对应的图像数据作为目标搜索数据。

对于相似度值达到预设的相似度阈值，则可以提取该相似度值对应的第一短特征值的图像数据作为目标搜索数据，例如：第一短特征值与第二短特征值的相似度为80，预设的相似度阈值为75，则表示第一短特征值与第二短特征值的相似度值中达到预设的相似度阈值，该第一短特征值的图像数据将作为目标搜索数据返回到用户发出数据请求的一端进行响应。最终得到的目标搜索数据可以是一批图像数据。

在本发明实施例中，在接收到待搜索数据后，在判断出待搜索数据的数据类型存在数据类型-数据量映射表中时，通过提取出第二短特征值，在GPU的显存中查找相同数据类型的第一短特征值进行相似度计算，生成比对列表，并提取比对列表中相似度值达到相似度阈值的第一短特征值，将相似度达到相似度阈值的第一短特征值对应的图像数据作为目标搜索数据。因短特征值具有长度短、运算量小的特点，通过提取短特征值进行数据比对的方式，可以加快数据比对的速度；且对相似度值进行计算，筛选满足相似度阈值的第一短特征值，对相似度值不满足要求的第一短特征值进行筛除，这样，得到的目标检索数据的准确度更高。

如图4所示，图4是本发明实施例提供的一种数据搜索装置的结构示意图，数据搜索装置400包括：

获取模块401，用于获取图像数据，将图像数据存储到数据库中，图像数据包括数据类型以及原始特征值；

加载模块402，用于筛选满足第一预设条件的原始特征值，提取原始特征值的第一短特征值，根据预设的数据类型优先级将第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表；

判断模块403，用于获取待搜索数据，判断待搜索数据的数据类型是否存在数据类型-数据量映射表，若存在，则提取待搜索数据的第二短特征值，在GPU的显存中对第二短特征值与第一短特征值进行比对，得到比对列表；

选取模块404，用于选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

可选的，第一预设条件包括预设数据类型以及预设数据量阈值，如图5所示，图5是本发明实施例提供的另一种数据搜索装置的结构示意图，加载模块402包括：

第一判断单元4021，用于对数据库中图像数据的数据类型进行判断，将数据类型相同的图像数据进行类聚，以得到相同数据类型的图像数据；

统计单元4022，用于统计相同数据类型的图像数据的数据量，判断数据量是否达到预设数据量阈值；

第一提取单元4023，用于若数据量达到预设数据量阈值，则调用GPU接口从原始特征值中提取第一短特征值，并根据预设的数据类型优先级将第一短特征值加载到GPU的显存中。

可选的，如图6所示，图6是本发明实施例提供的另一种数据搜索装置的结构示意图，第一提取单元4023包括：

采集子单元40231，用于采集预加载到GPU的显存中的数据类型的种类；

判断子单元40232，用于若数据类型的种类超过GPU的显存中剩余存储数据类型的种类，则识别数据类型的种类的数据类型优先级；

筛选子单元40233，用于根据数据类型优先级，有序的筛选数据类型优先级排序在前、且满足剩余存储数据类型的种类的热数据类型，并选取热数据类型对应的第一短特征值加载到GPU的显存中。

可选的，如图7所示，图7是本发明实施例提供的另一种数据搜索装置的结构示意图，第一提取单元4023还包括：

检测子单元40234，用于根据数据类型优先级，检测是否存在多个同等优先级的热数据类型；

提取子单元40235，用于若存在多个同等优先级的热数据类型，则提取同等优先级的热数据类型对应的历史请求频率；

加载子单元40236，用于对历史请求频率进行排序，根据历史请求频率有序将第一短特征值加载到GPU的显存中，直到GPU的显存中的热数据类型的种类达到预设的最大热数据类型种类。

可选的，如图8所示，图8是本发明实施例提供的另一种数据搜索装置的结构示意图，装置400还包括：

统计模块405，用于统计GPU的显存中的热数据类型的种类，判断热数据类型的种类是否达到预设的最大热数据类型种类；

检测模块406，用于若热数据类型的种类达到预设的最大热数据类型种类，则检测GPU的显存中每种热数据类型对应的第一短特征值的历史请求频率；

上述判断模块403还用于根据数据类型优先级，有序判断热数据类型的历史请求频率是否低于最低请求频率阈值；

删除模块407，用于若热数据类型的历史请求频率低于最低请求频率阈值，则将热数据类型对应的第一短特征值进行删除。

可选的，如图9所示，图9是本发明实施例提供的另一种数据搜索装置的结构示意图，选取模块404包括：

第二提取单元4041，用于提取待搜索数据的待搜索原始特征值，从待搜索原始特征值中提取第二短特征值；

查找单元4042，用于查找GPU的显存中与第二短特征值对应的第一短特征值；

计算单元4043，用于计算第一短特征值与第二短特征值的相似度值，根据相似度值生成比对列表。

可选的，第二预设条件包括预设的相似度阈值，如图10所示，图10是本发明实施例提供的另一种数据搜索装置的结构示意图，选取模块404还包括：

第二判断单元4044，用于根据比对列表，判断多个第一短特征值与第二短特征值的相似度值中是否有达到预设的相似度阈值；

提取单元4045，用于若相似度值中有达到预设的相似度阈值，则提取相似度值达到预设的相似度阈值的第一短特征值对应的图像数据作为目标搜索数据。

本发明实施例提供的数据搜索装置能够实现上述方法实施例中数据搜索方法实现的各个过程且可以达到相同的有益效果，为避免重复，这里不再赘述。

如图11所示，图11是本发明实施例提供的一种电子设备的结构示意图，该电子设备1100包括：存储器1102、处理器1101、网络接口1103及存储在存储器1102上并可在处理器1101上运行的计算机程序，处理器1101执行计算机程序时实现实施例提供的数据搜索方法中的步骤。

具体的，处理器1101用于执行以下步骤：

获取图像数据，将图像数据存储到数据库中，图像数据包括数据类型以及原始特征值；

筛选满足第一预设条件的原始特征值，提取原始特征值的第一短特征值，根据预设的数据类型优先级将第一短特征值加载到GPU的显存中，并建立数据类型-数据量映射表；

获取待搜索数据，判断待搜索数据的数据类型是否存在数据类型-数据量映射表，若存在，则提取待搜索数据的第二短特征值，在GPU的显存中对第二短特征值与第一短特征值进行比对，得到比对列表；

选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据。

可选的，第一预设条件包括预设数据类型以及预设数据量阈值，处理器1101执行的筛选满足第一预设条件的原始特征值，提取原始特征值的第一短特征值，根据预设的数据类型优先级将第一短特征值加载到GPU的显存中的步骤包括：

对数据库中图像数据的数据类型进行判断，将数据类型相同的图像数据进行类聚，以得到相同数据类型的图像数据；

统计相同数据类型的图像数据的数据量，判断数据量是否达到预设数据量阈值；

若数据量达到预设数据量阈值，则调用GPU接口从原始特征值中提取第一短特征值，并根据预设的数据类型优先级将第一短特征值加载到GPU的显存中。

可选的，处理器1101执行的根据预设的数据类型优先级将第一短特征值加载到GPU的显存中的步骤包括：

采集预加载到GPU的显存中的数据类型的种类；

若数据类型的种类超过GPU的显存中剩余存储数据类型的种类，则识别数据类型的种类的数据类型优先级；

根据数据类型优先级，有序的筛选数据类型优先级排序在前、且满足剩余存储数据类型的种类的热数据类型，并选取热数据类型对应的第一短特征值加载到GPU的显存中。

可选的，处理器1101执行的将第一短特征值加载到GPU的显存中的步骤还包括：

根据数据类型优先级，检测是否存在多个同等优先级的热数据类型；

若存在多个同等优先级的热数据类型，则提取同等优先级的热数据类型对应的历史请求频率；

可选的，处理器1101还用于执行：

统计GPU的显存中的热数据类型的种类，判断热数据类型的种类是否达到预设的最大热数据类型种类；

若热数据类型的种类达到预设的最大热数据类型种类，则检测GPU的显存中每种热数据类型对应的第一短特征值的历史请求频率；

根据数据类型优先级，有序判断热数据类型的历史请求频率是否低于最低请求频率阈值；

若热数据类型的历史请求频率低于最低请求频率阈值，则将热数据类型对应的第一短特征值进行删除。

可选的，处理器1101执行的提取待搜索数据的第二短特征值，在GPU的显存中对第二短特征值与第一短特征值进行比对，得到比对列表的步骤包括：

提取待搜索数据的待搜索原始特征值，从待搜索原始特征值中提取第二短特征值；

查找GPU的显存中与第二短特征值对应的第一短特征值；

计算第一短特征值与第二短特征值的相似度值，根据相似度值生成比对列表。

可选的，第二预设条件包括预设的相似度阈值，处理器1101执行的选取比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据的步骤包括：

根据比对列表，判断多个第一短特征值与第二短特征值的相似度值中是否有达到预设的相似度阈值；

本发明实施例提供的一种电子设备1100能够实现数据搜索方法实施例中的各个实施方式，以及相应有益效果，为避免重复，这里不再赘述。

需要指出的是，图中仅示出了具有组件的1101-1103，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的电子设备1100是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

电子设备1100可以是桌上型计算机、笔记本及掌上电脑等计算设备。电子设备1100可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

存储器1102至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器1102可以是电子设备1100的内部存储单元，例如该电子设备1100的硬盘或内存。在另一些实施例中，存储器1102也可以是电子设备1100的外部存储设备，例如该电子设备1100上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器1102还可以既包括电子设备1100的内部存储单元也包括其外部存储设备。本实施例中，存储器1102通常用于存储安装于电子设备1100的操作系统和各类应用软件，例如数据搜索方法的程序代码等。此外，存储器1102还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器1101在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器1101通常用于控制电子设备1100的总体操作。本实施例中，处理器1101用于运行存储器1102中存储的程序代码或者处理数据，例如运行数据搜索方法的程序代码。

网络接口1103可包括无线网络接口或有线网络接口，该网络接口1103通常用于在电子设备1100与其他电子设备之间建立通信连接。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器1101执行时实现实施例提供的数据搜索方法中的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如各方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器1102(Random Access Memory，简称RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种数据搜索方法，其特征在于，包括以下步骤：

2.如权利要求1所述的数据搜索方法，其特征在于，所述第一预设条件包括预设数据类型以及预设数据量阈值，所述筛选满足第一预设条件的原始特征值，提取所述原始特征值的第一短特征值，根据预设的数据类型优先级将所述第一短特征值加载到GPU的显存中的步骤包括：

对所述数据库中所述图像数据的数据类型进行判断，将数据类型相同的图像数据进行类聚，以得到相同数据类型的图像数据；

统计所述相同数据类型的图像数据的数据量，判断所述数据量是否达到所述预设数据量阈值；

若所述数据量达到预设数据量阈值，则调用GPU接口从所述原始特征值中提取所述第一短特征值，并根据所述预设的数据类型优先级将所述第一短特征值加载到所述GPU的显存中。

3.如权利要求2所述的数据搜索方法，其特征在于，所述根据预设的数据类型优先级将所述第一短特征值加载到所述GPU的显存中的步骤包括：

采集预加载到所述GPU的显存中的数据类型的种类；

若所述数据类型的种类超过所述GPU的显存中剩余存储数据类型的种类，则识别所述数据类型的种类的数据类型优先级；

根据所述数据类型优先级，有序的筛选数据类型优先级排序在前、且满足所述剩余存储数据类型的种类的热数据类型，并选取所述热数据类型对应的第一短特征值加载到GPU的显存中。

4.如权利要求3所述的数据搜索方法，其特征在于，所述将所述第一短特征值加载到所述GPU的显存中的步骤还包括：

根据所述数据类型优先级，检测是否存在多个同等优先级的所述热数据类型；

若存在所述多个同等优先级的所述热数据类型，则提取所述同等优先级的热数据类型对应的历史请求频率；

对所述历史请求频率进行排序，根据所述历史请求频率有序将所述第一短特征值加载到所述GPU的显存中，直到所述GPU的显存中的热数据类型的种类达到预设的最大热数据类型种类。

5.如权利要求3所述的数据搜索方法，其特征在于，所述方法还包括步骤：

统计所述GPU的显存中的热数据类型的种类，判断所述热数据类型的种类是否达到预设的最大热数据类型种类；

若所述热数据类型的种类达到预设的最大热数据类型种类，则检测所述GPU的显存中每种热数据类型对应的第一短特征值的历史请求频率；

根据所述数据类型优先级，有序判断所述热数据类型的历史请求频率是否低于最低请求频率阈值；

若所述热数据类型的历史请求频率低于所述最低请求频率阈值，则将所述热数据类型对应的第一短特征值进行删除。

6.如权利要求1所述的数据搜索方法，其特征在于，所述提取所述待搜索数据的第二短特征值，在所述GPU的显存中对所述第二短特征值与所述第一短特征值进行比对，得到比对列表的步骤包括：

提取所述待搜索数据的待搜索原始特征值，从所述待搜索原始特征值中提取所述第二短特征值；

查找所述GPU的显存中与所述第二短特征值对应的第一短特征值；

计算所述第一短特征值与所述第二短特征值的相似度值，根据所述相似度值生成所述比对列表。

7.如权利要求6所述的数据搜索方法，其特征在于，所述第二预设条件包括预设的相似度阈值，所述选取所述比对列表中满足预设第二预设条件的第一短特征值对应的图像数据作为目标搜索数据的步骤包括：

根据所述比对列表，判断多个所述第一短特征值与所述第二短特征值的相似度值中是否有达到所述预设的相似度阈值；

若所述相似度值中有达到所述预设的相似度阈值，则提取所述相似度值达到所述预设的相似度阈值的第一短特征值对应的图像数据作为目标搜索数据。

8.一种数据搜索装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据搜索方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据搜索方法中的步骤。