CN107203608A - 一种基于二值对比密度的高效数据模式挖掘方法 - Google Patents
一种基于二值对比密度的高效数据模式挖掘方法 Download PDFInfo
- Publication number
- CN107203608A CN107203608A CN201710349313.1A CN201710349313A CN107203608A CN 107203608 A CN107203608 A CN 107203608A CN 201710349313 A CN201710349313 A CN 201710349313A CN 107203608 A CN107203608 A CN 107203608A
- Authority
- CN
- China
- Prior art keywords
- data
- value code
- value
- excavated
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标,得到该待挖掘数据的模式本发明能有效挖掘更具区分度的数据模式,且在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。
Description
技术领域
本发明属于数据挖掘领域,提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
背景技术
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如,从社交网站上抓取的大量图像),首要的问题就是,“数据集中都有些什么样的模式?这个数据集与其他‘常见的’数据集有什么区别?”,本发明的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下,模式挖掘变得越来越重要,因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下,支持大数据的高效数据挖掘显得尤为重要。
本发明在此背景下,主要完成了三个目标。第一,发现数据集中有代表性的模式,能充分代表目标数据集中大量出现的内容。第二,发现的模式要有一定的区分度,不能和其它数据集太过相似,因为区分度低的模式很难表征目标数据集。第三,针对大数据背景,设计高效数据表达和高效数据挖掘算法,以支撑海量大数据的高效处理。以视觉模式挖掘为例,给定某个社交网站上的图片集,需要找到出现频率高,且能区别于其它网站数据的图片模式。
在模式挖掘中,已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题:一个是可扩展性,难以适用于大规模数据集(比如千万、亿级数据集);另一个问题在于所发现的模式的区分度不高。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本发明基于对比密度的二值均值偏移算法大大提高了模式挖掘效率,一方面,计算和存储的瓶颈(可扩展性问题)会因为采用了本发明的二值化挖掘算法得到解决,另一方面,通过基于对比密度的模式搜索来抑制没有代表性的模式。
通常情况下,特征空间中的模式通常对应于出现频率高的常见模式,例如在视觉数据挖掘中,天空、草地、人像等随处可见。但是,高频内容并不能直接作为一个数据集的有效模式,因为高频模式并不具有较强区分度。本发明通过与另一组背景分布进行对比,找出有代表性且有区分度的模式。本发明为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法,其流程如图1所示,其主要步骤如下:
(1)把数据转化成二值码
本发明的目标是用具有存贮与计算优势的二值码最大可能地近似数据,最小化二值化后续计算过程中的精度损失。因此,采用迭代量化算法(ITQ),把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B,以此来最小化精度损失。
(2)构建适用于二值码的二项核函数
令B={b1,b2,...,bn}是嵌入在k维二值空间{-1,1}k中的X的相应二值码,其中bi是由ITQ产生,假定二值码均匀分布在{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本发明提出一个核函数Kb(d)来加权具有不同汉明距离的二值码,具体如下:
这里z是确定Kb(d)为有效核函数的归一化因子,为从k个元素中取出i个元素的组合数(即从k个元素中选出i个元素子集的个数),外括号中的部分等于Bin(k,1/2)的累积分布函数CDF(d)。这个核函数Kb(d)具有明确的意义:两个随机二值码的汉明距离小于或等于自然数d的概率。
(3)迭代优化模式估计
本发明将目标数据集对应的二值码作为正集合P,将另一个随机构建的背景数据集对应的二值码作为对比的负集合N。正负集合之间的密度比更能反应正集合中的代表模式,因为它抑制了大量存在于负集合中的模式。在二值空间中,本发明将一些点作为前景(P),其他点被认为是背景(N)。本发明引入对比密度比其中p()表示概率密度函数,b为二值码。因此,优化目标可以表示如下:
这里||·||表示L2范数,hi为第i个数据的带宽参数(用自适应均值漂移算法进行初始化)。对于b的二值约束,保证只在汉明超立方体的顶点之间偏移估计。这里用对比密度在p+和p-之间进行对比,并且引入了一个补偿因子λ,以避免分母中出现除零。因此,一个模式必须频繁地在正集合中出现,同时在负集合中比较少见。
本发明通过迭代均值偏移来更新估计。核函数Gb=-Kb′的均值偏移等于核函数Kb和估计的密度上的梯度上升,这里Kb′表示Kb的导数。本发明通过以下方式更新估计直到收敛(收敛进行赋值: 为最终确定的数据模式):
其中
这里Pb,Nb分别定义为集合P,N中b的邻域。根据lS,H、fS,H的下标S,H值决定H()选用是Kb或Gb;根据lS,H、fS,H的下标S值决定bi属于是Pb或Nb。
与现有技术相比,本发明的积极效果为:
1.在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。
2.本发明能有效挖掘更具区分度的数据模式。
附图说明
图1为对比二值均值偏移算法流程框架图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实现本发明的一种具体实施方式如下,基于二值对比密度的高效数据挖掘方法:
1)采用迭代量化算法ITQ,把目标数据集转化为二值码集合P,把对比数据集转化成二值码集合N;
2)初始化模式为P中某个二值码;
3)为集合{P∪N}建立一个多索引哈希表M;
4)在索引M中搜索的近邻,构建Pb和Nb;
5)按照公式(4)迭代直至收敛或达到最大迭代次数T;
6)输出模式
Claims (7)
1.一种基于二值对比密度的高效数据模式挖掘方法,其步骤为:
1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;
2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;
3)根据优化目标s.t.,b,bi∈{-1,+1}k,得到该待挖掘数据的模式其中,为二值码b的对比密度比,||·||表示L2范数,hi为二值码bi对应数据的带宽参数,λ为补偿因子。
2.如权利要求1所述的方法,其特征在于,所述二值码嵌入在k维二值空间{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。
3.如权利要求2所述的方法,其特征在于,所述核函数为其中,z是确定Kb(d)为有效核函数的归一化因子,为从k个元素中取出i个元素的组合数。
4.如权利要求1或2或3所述的方法,其特征在于,得到该待挖掘数据的模式的方法为:
首先初始化模式为正集合P中的一个二值码;然后在正集合P中搜索的近邻构建集合Pb,在负集合N中搜索的近邻构建Nb;然后按照公式
迭代计算直至收敛或达到最大迭代次数T;然后令输出该待挖掘数据的模式其中,S∈{Pb,Nb},H∈{Kb,Gb};核函数Gb=-Kb′,Kb′为Kb的导数。
5.如权利要求1或2或3所述的方法,其特征在于,为集合{P∪N}建立一索引M;在索引M中搜索的近邻,构建Pb和Nb。
6.如权利要求5所述的方法,其特征在于,所述索引M为一多索引哈希表。
7.如权利要求1或2或3所述的方法,其特征在于,采用迭代量化算法将所述待挖掘数据转化成二值码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349313.1A CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349313.1A CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107203608A true CN107203608A (zh) | 2017-09-26 |
CN107203608B CN107203608B (zh) | 2020-05-22 |
Family
ID=59905712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710349313.1A Expired - Fee Related CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107203608B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593846A (zh) * | 2013-11-22 | 2014-02-19 | 长沙理工大学 | 一种图像间共同视觉模式挖掘方法 |
US20140095548A1 (en) * | 2012-09-28 | 2014-04-03 | Emc Corporation | Interactive visual data mining for increasing classification accuracy |
CN104868990A (zh) * | 2015-04-15 | 2015-08-26 | 成都信息工程学院 | 一种针对sm4密码算法轮输出的模板攻击方法 |
CN105069173A (zh) * | 2015-09-10 | 2015-11-18 | 天津中科智能识别产业技术研究院有限公司 | 基于有监督的拓扑保持哈希的快速图像检索方法 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
-
2017
- 2017-05-17 CN CN201710349313.1A patent/CN107203608B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140095548A1 (en) * | 2012-09-28 | 2014-04-03 | Emc Corporation | Interactive visual data mining for increasing classification accuracy |
CN103593846A (zh) * | 2013-11-22 | 2014-02-19 | 长沙理工大学 | 一种图像间共同视觉模式挖掘方法 |
CN104868990A (zh) * | 2015-04-15 | 2015-08-26 | 成都信息工程学院 | 一种针对sm4密码算法轮输出的模板攻击方法 |
CN105069173A (zh) * | 2015-09-10 | 2015-11-18 | 天津中科智能识别产业技术研究院有限公司 | 基于有监督的拓扑保持哈希的快速图像检索方法 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
Non-Patent Citations (1)
Title |
---|
朱杰 等: "利用颜色进行层次模式挖掘的图像分类方法", 《计算机科学与探索》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107203608B (zh) | 2020-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | Stochastic generative hashing | |
CN107766555B (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
CN104123375B (zh) | 数据搜索方法及系统 | |
CN109284411B (zh) | 一种基于有监督超图离散化图像二值编码方法 | |
CN109829066B (zh) | 基于分层结构的局部敏感哈希图像索引方法 | |
CN113761221B (zh) | 基于图神经网络的知识图谱实体对齐方法 | |
Leng et al. | Hashing for distributed data | |
CN104899326A (zh) | 一种基于二进制多索引哈希技术的图像检索方法 | |
CN107180079B (zh) | 基于卷积神经网络以及树与哈希结合索引的图像检索方法 | |
CN105589908A (zh) | 用于事务集合的关联规则计算方法 | |
Chen et al. | A High-precision Duplicate Image Deduplication Approach. | |
An et al. | Quarter-point product quantization for approximate nearest neighbor search | |
Qi et al. | A multiscale convolutional gragh network using only structural information for entity alignment | |
Wang et al. | Fast feature matching based on r‐nearest k‐means searching | |
CN107203608A (zh) | 一种基于二值对比密度的高效数据模式挖掘方法 | |
CN110097112B (zh) | 一种基于重构图的图学习模型 | |
CN116467685A (zh) | 一种可逆数据库水印的嵌入和提取方法 | |
Yang et al. | Supervised deep quantization for efficient image search | |
Su et al. | Online adaptive supervised hashing for large-scale cross-modal retrieval | |
Liang et al. | Fine-grained Cross-media Representation Learning with Deep Quantization Attention Network | |
Papadimitriou et al. | Parameter-free spatial data mining using MDL | |
Zhai et al. | Deep product quantization for large-scale image retrieval | |
Zhou et al. | Balance the loss: Improving deep hash via loss weighting and semantic preserving | |
Li et al. | MeshFormer: High‐resolution Mesh Segmentation with Graph Transformer | |
CN110609914B (zh) | 一种基于快速类别更新的在线哈希学习图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200522 |
|
CF01 | Termination of patent right due to non-payment of annual fee |