CN115455061A

CN115455061A - 一种基于异构计算的用户特征快速检索方法

Info

Publication number: CN115455061A
Application number: CN202211416854.9A
Authority: CN
Inventors: 张殷; 唐琪; 李国伟; 王俊波; 武利会; 蒋维; 刘益军; 范心明; 李新; 董镝; 宋安琪; 王智娇; 刘少辉; 吴焯军; 章涛; 刘昊; 梁年柏; 刘崧; 黄静; 陈邦发
Original assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Current assignee: Foshan Power Supply Bureau of Guangdong Power Grid Corp
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2022-12-09
Anticipated expiration: 2042-11-14
Also published as: CN115455061B

Abstract

本发明涉及大数据检索技术领域，公开了一种基于异构计算的用户特征快速检索方法，其通过对待检索数据进行缓存，将缓存的待检索数据转换成对应的特征向量，获取检索库中的数据向量，将数据向量与特征向量分配至多个线程中，将每个线程分配得到的数据向量与特征向量加载至CPU缓存，为每个线程分配一个堆，将所述数据向量与特征向量进行相似度检索，根据数据向量的数量确定检索模式，将检索的数据向量结果赋值到对应的线程的堆上，合并每个线程的堆，得到最终的检索结果，从而利用CPU缓存优势以及GPU高效计算优势，协调异构资源之间通讯和计算的平衡，提高了异构特性数据检索速度和效率，降低了计算资源浪费。

Description

一种基于异构计算的用户特征快速检索方法

技术领域

本发明涉及大数据检索技术领域，尤其涉及一种基于异构计算的用户特征快速检索方法。

背景技术

随着电网智能化水平的提升，电网中投入了越来越多智能测量设备，存积了大量复杂的负荷数据，这对电力负荷量测数据进行聚类分析显得尤为重要，它是我们整个电力系统电力建模，需求侧管理，乃至整体规划等工作的基石，对电力系统安全，经济，稳定运行具有重大意义。

因此，需要对大量复杂的负荷数据进行处理，挖掘其中的有效信息为电网正常运行提供支撑。电网系统规划、负荷预测、需求侧管理、分时电价、负荷建模等问题的前期处理都需要以负荷聚类为基础。对用户侧的负荷聚类分析可以提取出用户的用电习惯及用电模式，精确把握用户用电规律，从而优化电力调度，调控整个电网的运行。

目前的用户负荷特征检索技术主要采用CPU处理器通过多线程并行计算，比如使用并行计算框架OpenMpi等，而在新型电力系统中，针对异构计算环境下的大数据高纬度用户特征向量检索，并没有考虑到计算资源异构特性，也未针对异构特性进行高效的检索优化，导致检索速度慢，效率低，计算资源浪费严重。

发明内容

本发明提供了一种基于异构计算的用户特征快速检索方法，解决了异构特性数据检索速度慢，效率低，计算资源浪费严重的技术问题。

有鉴于此，本发明提供了一种基于异构计算的用户特征快速检索方法，包括以下步骤：

对待检索数据进行缓存，当缓存的待检索数据的数量或缓存时间达到预定的要求时，则将缓存的待检索数据转换成对应的特征向量；

获取检索库中的数据向量，将多个所述数据向量与特征向量分配至多个线程中，将每个线程分配得到的所述数据向量与特征向量加载至CPU缓存；

为每个线程分配一个堆，将所述数据向量与特征向量进行相似度检索，并根据所述数据向量的数量确定检索模式，其中，若数据向量的数量大于预设的数量时，则检索模式为使用GPU进行检索，若数据向量的数量不大于预设的数量时，则检索模式为使用CPU和GPU进行协同检索，并将检索的数据向量结果赋值到对应的线程的堆上；

赋值完成后，合并每个线程的堆，得到最终的检索结果。

优选地，对待检索数据进行缓存，当缓存的待检索数据的数量或缓存时间达到预定的要求时，则将缓存的待检索数据转换成对应的特征向量的步骤具体包括：

当收到检索请求时，依次对待检索数据进行缓存；

统计放入缓存中的待检索数据的数量，并开启定时器开始计时；

当定时器到达预设时长时，则停止将待检索数据放入缓存，将缓存的待检索数据转换成对应的特征向量；

或，当缓存中待检索数据的数量达到预设的数量阈值时，停止将待检索数据放入缓存，将缓存的待检索数据转换成对应的特征向量。

优选地，本方法还包括：

在线程创建过程中，通过下式计算特征向量的批处理大小为：

s =[L3 cache size – P/c * sizeof(float)] / [d * sizeof(float)]

式中，s表示批处理大小，L3 cache size为CPU三级缓存大小，sizeof(float)为float类型的数据占用的字节数，P为检索库中的数据向量的数量，c为预设的线程数，d为特征向量的维度。

优选地，获取检索库中的数据向量，将多个所述数据向量与特征向量分配至多个线程中，将每个线程分配得到的所述数据向量与特征向量加载至CPU缓存的步骤具体包括：

获取检索库中的数据向量，根据预设的线程数量分别对所述数据向量与特征向量进行切片，并将切片结果分配至多个线程中，将每个线程分配得到的所述数据向量与特征向量加载至CPU三级缓存。

优选地，使用GPU进行检索的步骤具体包括：

将所述数据向量与特征向量传输到GPU内存中，通过GPU利用余弦相似度计算特征向量与所有数据向量的第一相似度，比较特征向量与所有数据向量的第一相似度的大小，按照第一相似度的大小对所有数据向量进行降序排列，提取前k个数据向量作为聚类中心；

通过GPU利用余弦相似度计算每个聚类中心与所有数据向量的第二相似度，按照第二相似度的大小对所有数据向量进行降序排列，取前v个数据向量作为相应的聚类中心的邻近数据向量；

通过GPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度，比较特征向量与所有邻近数据向量的第三相似度的大小，获得第三相似度的大小最高的邻近数据向量作为检索的数据向量结果。

优选地，使用CPU和GPU进行协同检索的步骤具体包括：

将多个所述聚类中心返回至CPU，通过CPU利用余弦相似度计算每个聚类中心与所有数据向量的第二相似度，按照第二相似度的大小对所有数据向量进行降序排列，取前v个数据向量作为相应的聚类中心的邻近数据向量；

通过CPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度，比较特征向量与所有邻近数据向量的第三相似度的大小，获得第三相似度的大小最高的邻近数据向量作为检索的数据向量结果。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过对待检索数据进行缓存，将缓存的待检索数据转换成对应的特征向量，获取检索库中的数据向量，将数据向量与特征向量分配至多个线程中，将每个线程分配得到的数据向量与特征向量加载至CPU缓存，为每个线程分配一个堆，将所述数据向量与特征向量进行相似度检索，根据数据向量的数量确定检索模式，将检索的数据向量结果赋值到对应的线程的堆上，合并每个线程的堆，得到最终的检索结果，从而利用CPU缓存优势以及GPU高效计算优势，协调异构资源之间通讯和计算的平衡，提高了异构特性数据检索速度和效率，降低了计算资源浪费。

附图说明

图1为本发明实施例提供的一种基于异构计算的用户特征快速检索方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供的一种基于异构计算的用户特征快速检索方法，包括以下步骤：

S1、对待检索数据进行缓存，当缓存的待检索数据的数量或缓存时间达到预定的要求时，则将缓存的待检索数据转换成对应的特征向量。

可以理解的是，为了提高检索效率，缓解存储压力，可以对缓存数据的数量进行限定。

S2、获取检索库中的数据向量，将多个数据向量与特征向量分配至多个线程中，将每个线程分配得到的数据向量与特征向量加载至CPU缓存。

S3、为每个线程分配一个堆，将数据向量与特征向量进行相似度检索，并根据数据向量的数量确定检索模式，其中，若数据向量的数量大于预设的数量时，则检索模式为使用GPU进行检索，若数据向量的数量不大于预设的数量时，则检索模式为使用CPU和GPU进行协同检索，并将检索的数据向量结果赋值到对应的线程的堆上；

S4、赋值完成后，合并每个线程的堆，得到最终的检索结果。

可以理解的是，由于每个线程只是子结果，需要进行合并每个线程的堆得到总结果。

需要说明的是，考虑到异构计算的特性，本实施例协调CPU与GPU之间的计算负载分配，由于考虑到异构资源之间昂贵的数据移动，查询批大小足够大时，GPU的性能才优于CPU，这是因为更多的查询由于搜索相同的数据，使得工作负载更加计算密集，当查询批大小足够大时，GPU的性能才优于CPU。否则，昂贵的数据搬运工作将抵消GPU计算优势。

当检索的数据向量到达阈值，则将数据搬运到GPU上高速计算，如果没到达阈值，则使用CPU和GPU进行协同检索。

由于I/O随机性，数据访问更加分散，不同的查询不一定访问连续的存储空间，而且数据量小，相对小的计算量会导致数据搬运代价更高。

本实施例提供了一种基于异构计算的用户特征快速检索方法，通过对待检索数据进行缓存，将缓存的待检索数据转换成对应的特征向量，获取检索库中的数据向量，将数据向量与特征向量分配至多个线程中，将每个线程分配得到的数据向量与特征向量加载至CPU缓存，为每个线程分配一个堆，将数据向量与特征向量进行相似度检索，根据数据向量的数量确定检索模式，将检索的数据向量结果赋值到对应的线程的堆上，合并每个线程的堆，得到最终的检索结果，从而利用CPU缓存优势以及GPU高效计算优势，协调异构资源之间通讯和计算的平衡，提高了异构特性数据检索速度和效率，降低了计算资源浪费。

在一个具体实施例中，步骤S1具体包括：

S101、当收到检索请求时，依次对待检索数据进行缓存；

S102、统计放入缓存中的待检索数据的数量，并开启定时器开始计时；

S103、当定时器到达预设时长时，则停止将待检索数据放入缓存，将缓存的待检索数据转换成对应的特征向量；

其中，预设的数量阈值可以为64、82等，不做限定。

同时，将缓存的待检索数据转换成对应的特征向量即对缓存的待检索数据进行向量化，其向量化的技术手段采用现有技术手段。

在一个具体实施例中，本方法还包括：

s =[L3 cache size – P/c * sizeof(float)] / [d * sizeof(float)]

其中，通过计算待检索向量批处理大小，使得每个线程的特征向量与数据向量的容量的可适配CPU缓存容量，同时，缓存中特征向量的批处理大小s与每个线程的特征向量和数据向量大小相关，处理大小s的大小需要保证在保证最大程度利用CPU缓存大小，缓存容量减去数据向量占用容量为特征向量的可占用空间。

在一个具体实施例中，步骤S2具体包括：

S201、获取检索库中的数据向量，根据预设的线程数量分别对数据向量与特征向量进行切片，并将切片结果分配至多个线程中，将每个线程分配得到的数据向量与特征向量加载至CPU三级缓存。

需要说明的是，在实际应用过程中，可以尽可能地重用访问的数据特征向量和待检索数据(进行检索计算，以最小化CPU缓存未命中概率，尤其是通过优化以减少三级缓存未命中概率，因为访问内存的代价很高，而且三级缓存大小（通常为64M）比一级/二级缓存大得多。

其中，线程数量可以由用户自行配置或者设置为计算机核数。

在一个具体实施例中，使用GPU进行检索的步骤具体包括：

S31、将数据向量与特征向量传输到GPU内存中，通过GPU利用余弦相似度计算特征向量与所有数据向量的第一相似度，比较特征向量与所有数据向量的第一相似度的大小，按照第一相似度的大小对所有数据向量进行降序排列，提取前k个数据向量作为聚类中心；

S32、通过GPU利用余弦相似度计算每个聚类中心与所有数据向量的第二相似度，按照第二相似度的大小对所有数据向量进行降序排列，取前v个数据向量作为相应的聚类中心的邻近数据向量；

S33、通过GPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度，比较特征向量与所有邻近数据向量的第三相似度的大小，获得第三相似度的大小最高的邻近数据向量作为检索的数据向量结果。

在一个具体实施例中，使用CPU和GPU进行协同检索的步骤具体包括：

S34、将数据向量与特征向量传输到GPU内存中，通过GPU利用余弦相似度计算特征向量与所有数据向量的第一相似度，比较特征向量与所有数据向量的第一相似度的大小，按照第一相似度的大小对所有数据向量进行降序排列，提取前k个数据向量作为聚类中心；

S35、将多个聚类中心返回至CPU，通过CPU利用余弦相似度计算每个聚类中心与所有数据向量的第二相似度，按照第二相似度的大小对所有数据向量进行降序排列，取前v个数据向量作为相应的聚类中心的邻近数据向量；

S36、通过CPU利用余弦相似度计算特征向量与所有邻近数据向量的第三相似度，比较特征向量与所有邻近数据向量的第三相似度的大小，获得第三相似度的大小最高的邻近数据向量作为检索的数据向量结果。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于异构计算的用户特征快速检索方法，其特征在于，包括以下步骤：

赋值完成后，合并每个线程的堆，得到最终的检索结果。

2.根据权利要求1所述的基于异构计算的用户特征快速检索方法，其特征在于，对待检索数据进行缓存，当缓存的待检索数据的数量或缓存时间达到预定的要求时，则将缓存的待检索数据转换成对应的特征向量的步骤具体包括：

当收到检索请求时，依次对待检索数据进行缓存；

3.根据权利要求1所述的基于异构计算的用户特征快速检索方法，其特征在于，还包括：

s =[L3 cache size – P/c * sizeof(float)] / [d * sizeof(float)]

4.根据权利要求1所述的基于异构计算的用户特征快速检索方法，其特征在于，获取检索库中的数据向量，将多个所述数据向量与特征向量分配至多个线程中，将每个线程分配得到的所述数据向量与特征向量加载至CPU缓存的步骤具体包括：

5.根据权利要求1所述的基于异构计算的用户特征快速检索方法，其特征在于，使用GPU进行检索的步骤具体包括：

6.根据权利要求1所述的基于异构计算的用户特征快速检索方法，其特征在于，使用CPU和GPU进行协同检索的步骤具体包括：