CN107203608B

CN107203608B - 一种基于二值对比密度的高效数据模式挖掘方法

Info

Publication number: CN107203608B
Application number: CN201710349313.1A
Authority: CN
Inventors: 张炜; 操晓春
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2020-05-22
Anticipated expiration: 2037-05-17
Also published as: CN107203608A

Abstract

本发明公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为：1)将待挖掘数据转化成二值码，并将所述二值码作为正集合P；选取一作为该待挖掘数据对比的背景数据集，并将其转换后的二值码作为负集合N；2)构建适用于二值码的核函数K_b(d)，用于计算每一对二值码的汉明距离小于或等于d的概率；3)根据优化目标，得到该待挖掘数据的模式

本发明能有效挖掘更具区分度的数据模式，且在不损失精度的前提下，本发明比现有算法快50倍，节省30～60倍内存。

Description

一种基于二值对比密度的高效数据模式挖掘方法

技术领域

本发明属于数据挖掘领域，提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。

背景技术

模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如，从社交网站上抓取的大量图像)，首要的问题就是，“数据集中都有些什么样的模式？这个数据集与其他‘常见的’数据集有什么区别？”，本发明的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下，模式挖掘变得越来越重要，因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下，支持大数据的高效数据挖掘显得尤为重要。

本发明在此背景下，主要完成了三个目标。第一，发现数据集中有代表性的模式，能充分代表目标数据集中大量出现的内容。第二，发现的模式要有一定的区分度，不能和其它数据集太过相似，因为区分度低的模式很难表征目标数据集。第三，针对大数据背景，设计高效数据表达和高效数据挖掘算法，以支撑海量大数据的高效处理。以视觉模式挖掘为例，给定某个社交网站上的图片集，需要找到出现频率高，且能区别于其它网站数据的图片模式。

在模式挖掘中，已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题：一个是可扩展性，难以适用于大规模数据集(比如千万、亿级数据集)；另一个问题在于所发现的模式的区分度不高。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本发明基于对比密度的二值均值偏移算法大大提高了模式挖掘效率，一方面，计算和存储的瓶颈(可扩展性问题)会因为采用了本发明的二值化挖掘算法得到解决，另一方面，通过基于对比密度的模式搜索来抑制没有代表性的模式。

通常情况下，特征空间中的模式通常对应于出现频率高的常见模式，例如在视觉数据挖掘中，天空、草地、人像等随处可见。但是，高频内容并不能直接作为一个数据集的有效模式，因为高频模式并不具有较强区分度。本发明通过与另一组背景分布进行对比，找出有代表性且有区分度的模式。本发明为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法，其流程如图1所示，其主要步骤如下：

(1)把数据转化成二值码

本发明的目标是用具有存贮与计算优势的二值码最大可能地近似数据，最小化二值化后续计算过程中的精度损失。因此，采用迭代量化算法(ITQ)，把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B，以此来最小化精度损失。

(2)构建适用于二值码的二项核函数

令B＝{b₁,b₂,...,b_n}是嵌入在k维二值空间{-1,1}^k中的X的相应二值码，其中b_i是由ITQ产生，假定二值码均匀分布在{-1,1}^k中，两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本发明提出一个核函数K_b(d)来加权具有不同汉明距离的二值码，具体如下：

这里z是确定K_b(d)为有效核函数的归一化因子，

为从k个元素中取出i个元素的组合数(即从k个元素中选出i个元素子集的个数)，外括号中的部分等于Bin(k,1/2)的累积分布函数CDF(d)。这个核函数K_b(d)具有明确的意义：两个随机二值码的汉明距离小于或等于自然数d的概率。

(3)迭代优化模式估计

本发明将目标数据集对应的二值码作为正集合P，将另一个随机构建的背景数据集对应的二值码作为对比的负集合N。正负集合之间的密度比更能反应正集合中的代表模式，因为它抑制了大量存在于负集合中的模式。在二值空间中，本发明将一些点作为前景(P)，其他点被认为是背景(N)。本发明引入对比密度比

其中p()表示概率密度函数，b为二值码。因此，优化目标可以表示如下：

这里||·||表示L₂范数，h_i为第i个数据的带宽参数(用自适应均值漂移算法进行初始化)。对于b的二值约束，保证只在汉明超立方体的顶点之间偏移估计。这里用对比密度在p⁺和p^-之间进行对比，并且引入了一个补偿因子λ，以避免分母中出现除零。因此，一个模式必须频繁地在正集合中出现，同时在负集合中比较少见。

本发明通过迭代均值偏移来更新估计。核函数G_b＝-K_b′的均值偏移等于核函数K_b和估计的密度上的梯度上升，这里K_b′表示K_b的导数。本发明通过以下方式更新估计

直到收敛(收敛进行赋值：

为最终确定的数据模式)：

其中

这里P_b，N_b分别定义为集合P，N中b的邻域。根据l_S,H、f_S,H的下标S，H值决定H()选用是K_b或G_b；根据l_S,H、f_S,H的下标S值决定b_i属于是P_b或N_b。

与现有技术相比，本发明的积极效果为：

1.在不损失精度的前提下，本发明比现有算法快50倍，节省30～60倍内存。

2.本发明能有效挖掘更具区分度的数据模式。

附图说明

图1为对比二值均值偏移算法流程框架图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实现本发明的一种具体实施方式如下，基于二值对比密度的高效数据挖掘方法：

1)采用迭代量化算法ITQ，把目标数据集转化为二值码集合P，把对比数据集转化成二值码集合N；

2)初始化模式

为P中某个二值码；

3)为集合{P∪N}建立一个多索引哈希表M；

4)在索引M中搜索

的近邻，构建P_b和N_b；

5)按照公式(4)迭代

直至收敛或达到最大迭代次数T；

6)输出模式