CN112364009A

CN112364009A - 一种用于检索目标对象相似数据的方法

Info

Publication number: CN112364009A
Application number: CN202011396952.1A
Authority: CN
Inventors: 彭敬舒
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-02-12

Abstract

本发明公开了一种用于检索目标对象相似数据的方法，通过采用抽样降维与构建离散特征等方法对在大量数据中寻找相似数据，使得算法的效率提高了数十倍到数百倍，解决了寻找相似数据耗时过多的问题，使得能够在大量数据中快速地寻找相似数据。

Description

一种用于检索目标对象相似数据的方法

技术领域

本发明涉及大数据技术领域，尤其涉及一种用于检索目标对象相似数据的方法。

背景技术

在很多场景下，需要从候选的数据中计算出与目标数据相似的一条或者多条数据，比如推荐场景里面的计算物品或者用户的相似度。当候选数据量小、单条数据维度不高的时候，可以遍历每条候选数据，按照相似度公式计算其与目标数据的相似度，并按照相似度从高到低对候选数据进行排序，最终选择出需要的数据。但是当候选数据量大、单条数据维度高(比如数百维甚至更高)的时候，如果再按照现有的方法进行计算，那么计算量很大，一是因为数据维度变高后导致计算两条数据的相似度的计算量增加，二是因为候选数据量变大后需要计算的相似度次数随之增加。如果能够解决好以上两个问题，那么能够明显的降低该问题的复杂度，最终降低寻找相似数据所耗费的时间。

发明内容

本发明的目的就在于为了解决在数据维度高、候选数据量大的场景下获取与目标数据相似的数据耗时过多的问题而提供一种用于检索目标对象相似数据的方法；在大量数据中寻找与目标数据相似的一条或者多条数据的应用场景很多，比如推荐场景中的寻找相似用户或者相似物品，或者其他一些特定的应用场景。

本发明通过以下技术方案来实现上述目的：

一种用于检索目标对象相似数据的方法，包括以下步骤：

步骤1，数据准备与清洗

获取源数据，并对数据进行预处理，包括清洗、缺失值填充、重组装；

步骤2，抽样降维

从步骤1得到的数据中抽取相应维度的数据以降维，抽取时保持数据的分布不变；

步骤3，离散特征构建

利用步骤1得到的数据构建分布特征，包括平均值、方差、中位数、极差、众数、峰度、偏度；

步骤4，初次筛选

给定目标数据，用步骤3的数据和合适的计算公式计算出该目标数据与每个目标数据的分布特征的距离，并按从小到大的次序筛选出前K个数据作为精细筛选的候选数据；

步骤5，精细筛选

利用步骤4得到的K个候选数据，从步骤2中获取相应的K条降维后的数据，最后选定合适的计算公式，用这K条数据依次计算出与目标地区的相似度，并按从小到大的顺序进行排列，排位越靠前的地区，与目标的数据越相似。

进一步方案为，所述步骤1中，通过构建出数据的少量分布特征，利用少量分布特征快速过滤掉大量不相似的数据，最后再从剩余的少量候选数据中用降维后的数据进行准确计算，筛选出最终符合条件的数据。

进一步方案为，数据分布特征包括：反应集中趋势的均值、中位数、众数，反应离散程度的极差、四分位差、方差、标准差等、反应分布形状的偏态与峰度。

本发明的有益效果在于：

本发明的一种用于检索目标对象相似数据的方法，通过采用抽样降维与构建离散特征等方法对在大量数据中寻找相似数据，使得算法的效率提高了数十倍到数百倍，解决了寻找相似数据耗时过多的问题，使得能够在大量数据中快速地寻找相似数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为查找相似数据步骤示意图；

图2为目标数据与查询得到的相似及非相似数据对比。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在任一实施例中，如图1所示，本发明的一种用于检索目标对象相似数据的方法，包括以下步骤：

步骤1，数据准备与清洗

步骤2，抽样降维

步骤3，离散特征构建

步骤4，初次筛选

步骤5，精细筛选

所述步骤1中，通过构建出数据的少量分布特征，利用少量分布特征快速过滤掉大量不相似的数据，最后再从剩余的少量候选数据中用降维后的数据进行准确计算，筛选出最终符合条件的数据。数据分布特征包括：反应集中趋势的均值、中位数、众数，反应离散程度的极差、四分位差、方差、标准差等、反应分布形状的偏态与峰度。

在一个具体实施例中，如图1-2所示，本发明的一种用于检索目标对象相似数据的方法，为方便起见，假设应用场景为从大量地区中寻找与目标地区气候相似的地区，该场景中一个地区的数据有365维度，采集了数万个地区的某一年的天气数据，采用欧式距离来度量两个地区的气候相似程度，距离越小，表明两个地区的气候越相似。经多次实验，如果采用普通方法，经多次实验，大概需要50s左右，主要原因为单条数据的维度过高，二是候选数据量过大。

一、单条数据维度过高的问题解决

由于单条数据的维度很高(一年365天就有365个维度)，因此计算两条数据的相似度的时候耗时过多，为了解决该问题，需要对数据进行降维处理，以降低计算量。为了防止数据的分布发生不可预测的变化，此处采用抽样的方式进行降维，可以抽取每月固定的天数，如抽取每月的1 5 10 15 20 25月末，则可以降低为84维度，注意数据抽取后保留的维度要适中，如果保留的数据维度太高则不能达到降低计算数据量的目的，保留太少则会导致数据失真。

二、候选数据量过大的问题解决

从大量候选数据中计算出与目标数据(最)相似的数据，如果依次与每条候选数据按照相似度公式(如余弦相似度)进行相似度计算，那么即使降维后，相似度的数据量也非常大，最终导致结果非常耗时，因此得寻找其他办法解决此问题，其思路如下：如果两条数据的形状很不一样，我们从肉眼能够立刻判断出来，并不需要用相似度计算公式进行精确计算，只有当两条数据比较相似肉眼难以判断的时候才需要用公式进行精确计算，那么我们可以借鉴这一点筛选掉大量不相似的数据。只需要提前构建出数据的少量分布特征，利用少量分布特征快速过滤掉大量不相似的数据，最后再从剩余的少量候选数据中用降维后的数据进行准确计算，筛选出最终符合条件的数据。之所以能用数据的分布特征快速过滤掉不符合条件的数据，是因为数据的分布特征相似是整条曲线相似的必要条件，也就是说如果两条曲线的分布特征都不相似，那么整条曲线的形状肯定不相似，没有再进行精确计算的必要了。而根据少量的分布特征进行过滤的代价要比用高纬度的数据精确计算的代价小得多，因此可以利用数据的分布特征快速过滤掉绝大部分明显不相似的数据，然后再进行精确计算，找出最相似的数据，达到最终目的。

常见的数据分布特征有多种，比如反应集中趋势的均值、中位数、众数，反应离散程度的极差、四分位差、方差、标准差等、反应分布形状的偏态与峰度等，我们可以从中选出适合具体应用场景的一个或者多个特征进行构造，也可以根据应用场景构建自己的(分布)特征，在寻找相似气候地区这个应用场景下，采用了气温均值、方差、中位数、极差四个分布特征作为构造的特征。

具体实施步骤如下：

(1)数据准备与清洗

从气象网站爬取相关数据，并进行数据的清洗、缺失值填充、重组装，最终数据的维度是365维。

地区	2019/1/1	2019/1/2	2019/1/3	…	2019/12/29	2019/12/30	2019/12/31
								道县	2	5	5	…	20	17	0
获嘉	2	3	4	…	12	5	0
								高台	-5	-4	-6	…	-2	4	5
宝兴	2	3	3	…	11	13	12
								八里罕	-5	-4	0	…	-4	-13	-6
复兴	1	3	3	…	9	1	0
								…	…	…	…	…	…	…	…

(2)抽样降维

从步骤(1)得到的数据中抽取每月1号、5号、10号、15号、20号、25号、月末数据，共计保留84个维度。

地区	2019/1/1	2019/1/5	2019/1/10	…	2019/12/20	2019/12/25	2019/12/31
								道县	2	7	5	…	8	13	0
获嘉	2	2	4	…	6	5	0
								高台	-5	-1	0	…	2	-3	5
宝兴	2	7	4	…	6	7	12
								八里罕	-5	-5	5	…	-2	-2	-6
复兴	1	2	4	…	7	2	0
								…	…	…	…	…	…	…	…

(3)离散特征构建

利用步骤(1)得到的数据构建分布特征，平均值、方差、中位数、极差：

最后构造好的数据如下：

地区	平均数	方差	中位数	极差
					道县	23.1	9.72	25	38
获嘉	20.79	10.68	22	41
					高台	16.92	11.59	19	42
宝兴	18.1	7.86	19	32
					八里罕	15.25	12.33	17	49
复兴	20.46	11.13	22	41
					…	…	…	…	…

(4)初次筛选

给定目标地区，用步骤(3)的数据和欧式距离计算出该地区与每个地区的分布特征的距离，并按从小到大的次序筛选出前100个地区作为精细筛选的候选地区。

(5)精细筛选

利用步骤(4)得到的100个候选地区，从步骤(2)中获取相应的100条降维后的数据，最后用这100条数据依次计算出与目标地区的欧式距离，并按从小到大的顺序进行排列，排位越靠前的地区，与目标的数据越相似。

根据以上描述，本发明的方案可以归纳为首先对数据进行抽样降维，然后选择现有的或者自定义的特征对数据构建分布特征，之后使用构建好的分布特征进行少量运算后过滤掉大量不符合条件的数据、保留少量符合条件的数据，最后从少量数据中按照相似度公式进行精确计算，最终找出与目标数据相似的一条或者多条数据。采用优化后的算法，经多次实验，一次查询时间能控制在1S以内，效率大概提高了约50倍。需要注意的是，提高效率的倍数和相似度计算公式密切相关，相似度计算公式的时间复杂度越高，本发明提高的效率越高。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种用于检索目标对象相似数据的方法，其特征在于，包括以下步骤：

步骤1，数据准备与清洗

步骤2，抽样降维

步骤3，离散特征构建

步骤4，初次筛选

步骤5，精细筛选

2.如权利要求1所述的一种用于检索目标对象相似数据的方法，其特征在于，所述步骤1中，通过构建出数据的少量分布特征，利用少量分布特征快速过滤掉大量不相似的数据，最后再从剩余的少量候选数据中用降维后的数据进行准确计算，筛选出最终符合条件的数据。

3.如权利要求2所述的一种用于检索目标对象相似数据的方法，其特征在于，数据分布特征包括：反应集中趋势的均值、中位数、众数，反应离散程度的极差、四分位差、方差、标准差等、反应分布形状的偏态与峰度。