CN107203608B - 一种基于二值对比密度的高效数据模式挖掘方法 - Google Patents
一种基于二值对比密度的高效数据模式挖掘方法 Download PDFInfo
- Publication number
- CN107203608B CN107203608B CN201710349313.1A CN201710349313A CN107203608B CN 107203608 B CN107203608 B CN 107203608B CN 201710349313 A CN201710349313 A CN 201710349313A CN 107203608 B CN107203608 B CN 107203608B
- Authority
- CN
- China
- Prior art keywords
- binary
- data
- binary code
- visual data
- kernel function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
技术领域
本发明属于数据挖掘领域,提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
背景技术
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如,从社交网站上抓取的大量图像),首要的问题就是,“数据集中都有些什么样的模式?这个数据集与其他‘常见的’数据集有什么区别?”,本发明的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下,模式挖掘变得越来越重要,因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下,支持大数据的高效数据挖掘显得尤为重要。
本发明在此背景下,主要完成了三个目标。第一,发现数据集中有代表性的模式,能充分代表目标数据集中大量出现的内容。第二,发现的模式要有一定的区分度,不能和其它数据集太过相似,因为区分度低的模式很难表征目标数据集。第三,针对大数据背景,设计高效数据表达和高效数据挖掘算法,以支撑海量大数据的高效处理。以视觉模式挖掘为例,给定某个社交网站上的图片集,需要找到出现频率高,且能区别于其它网站数据的图片模式。
在模式挖掘中,已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题:一个是可扩展性,难以适用于大规模数据集(比如千万、亿级数据集);另一个问题在于所发现的模式的区分度不高。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本发明基于对比密度的二值均值偏移算法大大提高了模式挖掘效率,一方面,计算和存储的瓶颈(可扩展性问题)会因为采用了本发明的二值化挖掘算法得到解决,另一方面,通过基于对比密度的模式搜索来抑制没有代表性的模式。
通常情况下,特征空间中的模式通常对应于出现频率高的常见模式,例如在视觉数据挖掘中,天空、草地、人像等随处可见。但是,高频内容并不能直接作为一个数据集的有效模式,因为高频模式并不具有较强区分度。本发明通过与另一组背景分布进行对比,找出有代表性且有区分度的模式。本发明为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法,其流程如图1所示,其主要步骤如下:
(1)把数据转化成二值码
本发明的目标是用具有存贮与计算优势的二值码最大可能地近似数据,最小化二值化后续计算过程中的精度损失。因此,采用迭代量化算法(ITQ),把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B,以此来最小化精度损失。
(2)构建适用于二值码的二项核函数
令B={b1,b2,...,bn}是嵌入在k维二值空间{-1,1}k中的X的相应二值码,其中bi是由ITQ产生,假定二值码均匀分布在{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本发明提出一个核函数Kb(d)来加权具有不同汉明距离的二值码,具体如下:
这里z是确定Kb(d)为有效核函数的归一化因子,为从k个元素中取出i个元素的组合数(即从k个元素中选出i个元素子集的个数),外括号中的部分等于Bin(k,1/2)的累积分布函数CDF(d)。这个核函数Kb(d)具有明确的意义:两个随机二值码的汉明距离小于或等于自然数d的概率。
(3)迭代优化模式估计
本发明将目标数据集对应的二值码作为正集合P,将另一个随机构建的背景数据集对应的二值码作为对比的负集合N。正负集合之间的密度比更能反应正集合中的代表模式,因为它抑制了大量存在于负集合中的模式。在二值空间中,本发明将一些点作为前景(P),其他点被认为是背景(N)。本发明引入对比密度比其中p()表示概率密度函数,b为二值码。因此,优化目标可以表示如下:
这里||·||表示L2范数,hi为第i个数据的带宽参数(用自适应均值漂移算法进行初始化)。对于b的二值约束,保证只在汉明超立方体的顶点之间偏移估计。这里用对比密度在p+和p-之间进行对比,并且引入了一个补偿因子λ,以避免分母中出现除零。因此,一个模式必须频繁地在正集合中出现,同时在负集合中比较少见。
本发明通过迭代均值偏移来更新估计。核函数Gb=-Kb′的均值偏移等于核函数Kb和估计的密度上的梯度上升,这里Kb′表示Kb的导数。本发明通过以下方式更新估计直到收敛(收敛进行赋值: 为最终确定的数据模式):
其中
这里Pb,Nb分别定义为集合P,N中b的邻域。根据lS,H、fS,H的下标S,H值决定H()选用是Kb或Gb;根据lS,H、fS,H的下标S值决定bi属于是Pb或Nb。
与现有技术相比,本发明的积极效果为:
1.在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。
2.本发明能有效挖掘更具区分度的数据模式。
附图说明
图1为对比二值均值偏移算法流程框架图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实现本发明的一种具体实施方式如下,基于二值对比密度的高效数据挖掘方法:
1)采用迭代量化算法ITQ,把目标数据集转化为二值码集合P,把对比数据集转化成二值码集合N;
3)为集合{P∪N}建立一个多索引哈希表M;
Claims (7)
2.如权利要求1所述的方法,其特征在于,所述二值码嵌入在k维二值空间{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。
6.如权利要求5所述的方法,其特征在于,所述索引M为一多索引哈希表。
7.如权利要求1或2或3所述的方法,其特征在于,采用迭代量化算法将所述视觉数据转化成二值码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349313.1A CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349313.1A CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107203608A CN107203608A (zh) | 2017-09-26 |
CN107203608B true CN107203608B (zh) | 2020-05-22 |
Family
ID=59905712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710349313.1A Expired - Fee Related CN107203608B (zh) | 2017-05-17 | 2017-05-17 | 一种基于二值对比密度的高效数据模式挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107203608B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593846A (zh) * | 2013-11-22 | 2014-02-19 | 长沙理工大学 | 一种图像间共同视觉模式挖掘方法 |
CN105069173A (zh) * | 2015-09-10 | 2015-11-18 | 天津中科智能识别产业技术研究院有限公司 | 基于有监督的拓扑保持哈希的快速图像检索方法 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8996583B2 (en) * | 2012-09-28 | 2015-03-31 | Emc Corporation | Interactive visual data mining for increasing classification accuracy |
CN104868990B (zh) * | 2015-04-15 | 2018-04-06 | 成都信息工程学院 | 一种针对sm4密码算法轮输出的模板攻击方法 |
-
2017
- 2017-05-17 CN CN201710349313.1A patent/CN107203608B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593846A (zh) * | 2013-11-22 | 2014-02-19 | 长沙理工大学 | 一种图像间共同视觉模式挖掘方法 |
CN105069173A (zh) * | 2015-09-10 | 2015-11-18 | 天津中科智能识别产业技术研究院有限公司 | 基于有监督的拓扑保持哈希的快速图像检索方法 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
Non-Patent Citations (2)
Title |
---|
刘尚旺 等.基于视觉显著性检测的图像分类方法.《计算机应用》.2015,第35卷(第9期),第2629-2635页. * |
王萍 等.基于交比不变性约束的快速随机抽样一致性算法.《天津大学学报》.2011,第44卷(第2期),第184-188页. * |
Also Published As
Publication number | Publication date |
---|---|
CN107203608A (zh) | 2017-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Efficient non-local contrastive attention for image super-resolution | |
CN106570141B (zh) | 近似重复图像检测方法 | |
US8571306B2 (en) | Coding of feature location information | |
US8457400B2 (en) | Patch-based texture histogram coding for fast image similarity search | |
CN107766555B (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
He et al. | K-nearest neighbors hashing | |
CN108595710B (zh) | 一种快速的海量图片去重方法 | |
CN104123375B (zh) | 数据搜索方法及系统 | |
CN109829066B (zh) | 基于分层结构的局部敏感哈希图像索引方法 | |
CN110362964B (zh) | 一种基于多直方图修改的高容量可逆信息隐藏方法 | |
WO2018103179A1 (zh) | 一种基于稀疏表示的近似重复图像检测方法 | |
Chen et al. | A High-precision Duplicate Image Deduplication Approach. | |
CN114996493A (zh) | 一种基于数据清除消冗的电力场景图像数据筛选方法 | |
Wang et al. | Fast feature matching based on r‐nearest k‐means searching | |
CN107203608B (zh) | 一种基于二值对比密度的高效数据模式挖掘方法 | |
Liu et al. | Video copy detection by conducting fast searching of inverted files | |
Wang et al. | Improving feature matching strategies for efficient image retrieval | |
Nie et al. | Key-frame based robust video hashing using isometric feature mapping | |
Ma et al. | BCH–LSH: a new scheme of locality‐sensitive hashing | |
Wang et al. | Spatial descriptor embedding for near-duplicate image retrieval | |
Zhao et al. | Partial-duplicate image retrieval based on HSV colour space for coverless information hiding | |
Zhu et al. | Boosted cross-domain dictionary learning for visual categorization | |
Sun et al. | Hash length prediction for video hashing | |
Wang et al. | Anchor graph structure fusion hashing for cross-modal similarity search | |
CN110609914B (zh) | 一种基于快速类别更新的在线哈希学习图像检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200522 |
|
CF01 | Termination of patent right due to non-payment of annual fee |