CN107203608B - 一种基于二值对比密度的高效数据模式挖掘方法 - Google Patents

一种基于二值对比密度的高效数据模式挖掘方法 Download PDF

Info

Publication number
CN107203608B
CN107203608B CN201710349313.1A CN201710349313A CN107203608B CN 107203608 B CN107203608 B CN 107203608B CN 201710349313 A CN201710349313 A CN 201710349313A CN 107203608 B CN107203608 B CN 107203608B
Authority
CN
China
Prior art keywords
binary
data
binary code
visual data
kernel function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710349313.1A
Other languages
English (en)
Other versions
CN107203608A (zh
Inventor
张炜
操晓春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201710349313.1A priority Critical patent/CN107203608B/zh
Publication of CN107203608A publication Critical patent/CN107203608A/zh
Application granted granted Critical
Publication of CN107203608B publication Critical patent/CN107203608B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于二值对比密度的高效数据模式挖掘方法。本方法为:1)将待挖掘数据转化成二值码,并将所述二值码作为正集合P;选取一作为该待挖掘数据对比的背景数据集,并将其转换后的二值码作为负集合N;2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;3)根据优化目标,得到该待挖掘数据的模式
Figure DDA0001297351670000011
本发明能有效挖掘更具区分度的数据模式,且在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。

Description

一种基于二值对比密度的高效数据模式挖掘方法
技术领域
本发明属于数据挖掘领域,提出一种针对大规模数据集的基于二值对比密度的高效数据模式挖掘方法。
背景技术
模式发现是大数据分析中最根本的问题之一。给定一个大规模无标注数据集合(例如,从社交网站上抓取的大量图像),首要的问题就是,“数据集中都有些什么样的模式?这个数据集与其他‘常见的’数据集有什么区别?”,本发明的模式发现旨在无监督地快速找到具有代表性和区分度的模式。在大数据的背景下,模式挖掘变得越来越重要,因为它提供了表征大型数据集的有效方法。在目前社交媒体网站图片、视频等多媒体内容爆炸式增长的情况下,支持大数据的高效数据挖掘显得尤为重要。
本发明在此背景下,主要完成了三个目标。第一,发现数据集中有代表性的模式,能充分代表目标数据集中大量出现的内容。第二,发现的模式要有一定的区分度,不能和其它数据集太过相似,因为区分度低的模式很难表征目标数据集。第三,针对大数据背景,设计高效数据表达和高效数据挖掘算法,以支撑海量大数据的高效处理。以视觉模式挖掘为例,给定某个社交网站上的图片集,需要找到出现频率高,且能区别于其它网站数据的图片模式。
在模式挖掘中,已有技术主要是基于欧几里德空间聚类。这些技术存在两个根本问题:一个是可扩展性,难以适用于大规模数据集(比如千万、亿级数据集);另一个问题在于所发现的模式的区分度不高。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种基于二值对比密度的高效数据模式挖掘方法。本发明基于对比密度的二值均值偏移算法大大提高了模式挖掘效率,一方面,计算和存储的瓶颈(可扩展性问题)会因为采用了本发明的二值化挖掘算法得到解决,另一方面,通过基于对比密度的模式搜索来抑制没有代表性的模式。
通常情况下,特征空间中的模式通常对应于出现频率高的常见模式,例如在视觉数据挖掘中,天空、草地、人像等随处可见。但是,高频内容并不能直接作为一个数据集的有效模式,因为高频模式并不具有较强区分度。本发明通过与另一组背景分布进行对比,找出有代表性且有区分度的模式。本发明为高扩展性模式挖掘提出了一种二值模式搜索算法——基于对比密度的二值均值偏移算法,其流程如图1所示,其主要步骤如下:
(1)把数据转化成二值码
本发明的目标是用具有存贮与计算优势的二值码最大可能地近似数据,最小化二值化后续计算过程中的精度损失。因此,采用迭代量化算法(ITQ),把待挖掘数据转化成二值码。通过旋转矩阵R把数据X转化为二值码B,以此来最小化精度损失。
Figure BDA0001297351650000021
(2)构建适用于二值码的二项核函数
令B={b1,b2,...,bn}是嵌入在k维二值空间{-1,1}k中的X的相应二值码,其中bi是由ITQ产生,假定二值码均匀分布在{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。据此本发明提出一个核函数Kb(d)来加权具有不同汉明距离的二值码,具体如下:
Figure BDA0001297351650000022
这里z是确定Kb(d)为有效核函数的归一化因子,
Figure BDA0001297351650000023
为从k个元素中取出i个元素的组合数(即从k个元素中选出i个元素子集的个数),外括号中的部分等于Bin(k,1/2)的累积分布函数CDF(d)。这个核函数Kb(d)具有明确的意义:两个随机二值码的汉明距离小于或等于自然数d的概率。
(3)迭代优化模式估计
本发明将目标数据集对应的二值码作为正集合P,将另一个随机构建的背景数据集对应的二值码作为对比的负集合N。正负集合之间的密度比更能反应正集合中的代表模式,因为它抑制了大量存在于负集合中的模式。在二值空间中,本发明将一些点作为前景(P),其他点被认为是背景(N)。本发明引入对比密度比
Figure BDA0001297351650000024
其中p()表示概率密度函数,b为二值码。因此,优化目标可以表示如下:
Figure BDA0001297351650000025
这里||·||表示L2范数,hi为第i个数据的带宽参数(用自适应均值漂移算法进行初始化)。对于b的二值约束,保证只在汉明超立方体的顶点之间偏移估计。这里用对比密度在p+和p-之间进行对比,并且引入了一个补偿因子λ,以避免分母中出现除零。因此,一个模式必须频繁地在正集合中出现,同时在负集合中比较少见。
本发明通过迭代均值偏移来更新估计。核函数Gb=-Kb′的均值偏移等于核函数Kb和估计的密度上的梯度上升,这里Kb′表示Kb的导数。本发明通过以下方式更新估计
Figure BDA0001297351650000031
直到收敛(收敛进行赋值:
Figure BDA0001297351650000032
Figure BDA0001297351650000033
为最终确定的数据模式):
Figure BDA0001297351650000034
其中
Figure BDA0001297351650000035
这里Pb,Nb分别定义为集合P,N中b的邻域。根据lS,H、fS,H的下标S,H值决定H()选用是Kb或Gb;根据lS,H、fS,H的下标S值决定bi属于是Pb或Nb
与现有技术相比,本发明的积极效果为:
1.在不损失精度的前提下,本发明比现有算法快50倍,节省30~60倍内存。
2.本发明能有效挖掘更具区分度的数据模式。
附图说明
图1为对比二值均值偏移算法流程框架图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实现本发明的一种具体实施方式如下,基于二值对比密度的高效数据挖掘方法:
1)采用迭代量化算法ITQ,把目标数据集转化为二值码集合P,把对比数据集转化成二值码集合N;
2)初始化模式
Figure BDA0001297351650000036
为P中某个二值码;
3)为集合{P∪N}建立一个多索引哈希表M;
4)在索引M中搜索
Figure BDA0001297351650000041
的近邻,构建Pb和Nb
5)按照公式(4)迭代
Figure BDA0001297351650000042
直至收敛或达到最大迭代次数T;
6)输出模式
Figure BDA0001297351650000043

Claims (7)

1.一种基于二值对比密度的高效数据模式挖掘方法,其步骤为:
1)将待挖掘的视觉数据转化成二值码,并将所述二值码作为正集合P;选取一作为该视觉数据对比的背景数据集,并将其转换后的二值码作为负集合N;其中所述视觉数据为图片或视频数据;
2)构建适用于二值码的核函数Kb(d),用于计算每一对二值码的汉明距离小于或等于d的概率;
3)根据优化目标
Figure FDA0002332807200000011
s.t.,b,bi∈{-1,+1}k,得到该待挖掘的视觉数据的模式
Figure FDA0002332807200000012
其中,
Figure FDA0002332807200000013
为二值码b的对比密度比,||·||表示L2范数,hi为二值码bi对应视觉数据的带宽参数,λ为补偿因子。
2.如权利要求1所述的方法,其特征在于,所述二值码嵌入在k维二值空间{-1,1}k中,两个随机二值码之间的汉明距离服从二项分布Bin(k,1/2)。
3.如权利要求2所述的方法,其特征在于,所述核函数为
Figure FDA0002332807200000014
其中,z是确定Kb(d)为有效核函数的归一化因子,
Figure FDA0002332807200000015
为从k个元素中取出i个元素的组合数。
4.如权利要求1或2或3所述的方法,其特征在于,得到该视觉数据的模式
Figure FDA0002332807200000016
的方法为:首先初始化模式
Figure FDA0002332807200000017
为正集合P中的一个二值码;然后在正集合P中搜索
Figure FDA0002332807200000018
的近邻构建集合Pb,在负集合N中搜索
Figure FDA0002332807200000019
的近邻构建Nb;然后按照公式
Figure FDA00023328072000000110
迭代计算
Figure FDA00023328072000000111
直至收敛或达到最大迭代次数T;然后令
Figure FDA00023328072000000112
输出该视觉数据的模式
Figure FDA00023328072000000113
其中,
Figure FDA00023328072000000114
H∈{Kb,Gb};核函数Gb=-Kb′,Kb′为Kb的导数。
5.如权利要求1或2或3所述的方法,其特征在于,为集合{P∪N}建立一索引M;在索引M中搜索
Figure FDA0002332807200000021
的近邻,构建Pb和Nb
6.如权利要求5所述的方法,其特征在于,所述索引M为一多索引哈希表。
7.如权利要求1或2或3所述的方法,其特征在于,采用迭代量化算法将所述视觉数据转化成二值码。
CN201710349313.1A 2017-05-17 2017-05-17 一种基于二值对比密度的高效数据模式挖掘方法 Expired - Fee Related CN107203608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710349313.1A CN107203608B (zh) 2017-05-17 2017-05-17 一种基于二值对比密度的高效数据模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710349313.1A CN107203608B (zh) 2017-05-17 2017-05-17 一种基于二值对比密度的高效数据模式挖掘方法

Publications (2)

Publication Number Publication Date
CN107203608A CN107203608A (zh) 2017-09-26
CN107203608B true CN107203608B (zh) 2020-05-22

Family

ID=59905712

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710349313.1A Expired - Fee Related CN107203608B (zh) 2017-05-17 2017-05-17 一种基于二值对比密度的高效数据模式挖掘方法

Country Status (1)

Country Link
CN (1) CN107203608B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593846A (zh) * 2013-11-22 2014-02-19 长沙理工大学 一种图像间共同视觉模式挖掘方法
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8996583B2 (en) * 2012-09-28 2015-03-31 Emc Corporation Interactive visual data mining for increasing classification accuracy
CN104868990B (zh) * 2015-04-15 2018-04-06 成都信息工程学院 一种针对sm4密码算法轮输出的模板攻击方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593846A (zh) * 2013-11-22 2014-02-19 长沙理工大学 一种图像间共同视觉模式挖掘方法
CN105069173A (zh) * 2015-09-10 2015-11-18 天津中科智能识别产业技术研究院有限公司 基于有监督的拓扑保持哈希的快速图像检索方法
CN106547738A (zh) * 2016-11-02 2017-03-29 北京亿美软通科技有限公司 一种基于文本挖掘的金融类逾期短信智能判别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘尚旺 等.基于视觉显著性检测的图像分类方法.《计算机应用》.2015,第35卷(第9期),第2629-2635页. *
王萍 等.基于交比不变性约束的快速随机抽样一致性算法.《天津大学学报》.2011,第44卷(第2期),第184-188页. *

Also Published As

Publication number Publication date
CN107203608A (zh) 2017-09-26

Similar Documents

Publication Publication Date Title
Xia et al. Efficient non-local contrastive attention for image super-resolution
CN106570141B (zh) 近似重复图像检测方法
US8571306B2 (en) Coding of feature location information
US8457400B2 (en) Patch-based texture histogram coding for fast image similarity search
CN107766555B (zh) 基于软约束无监督型跨模态哈希的图像检索方法
He et al. K-nearest neighbors hashing
CN108595710B (zh) 一种快速的海量图片去重方法
CN104123375B (zh) 数据搜索方法及系统
CN109829066B (zh) 基于分层结构的局部敏感哈希图像索引方法
CN110362964B (zh) 一种基于多直方图修改的高容量可逆信息隐藏方法
WO2018103179A1 (zh) 一种基于稀疏表示的近似重复图像检测方法
Chen et al. A High-precision Duplicate Image Deduplication Approach.
CN114996493A (zh) 一种基于数据清除消冗的电力场景图像数据筛选方法
Wang et al. Fast feature matching based on r‐nearest k‐means searching
CN107203608B (zh) 一种基于二值对比密度的高效数据模式挖掘方法
Liu et al. Video copy detection by conducting fast searching of inverted files
Wang et al. Improving feature matching strategies for efficient image retrieval
Nie et al. Key-frame based robust video hashing using isometric feature mapping
Ma et al. BCH–LSH: a new scheme of locality‐sensitive hashing
Wang et al. Spatial descriptor embedding for near-duplicate image retrieval
Zhao et al. Partial-duplicate image retrieval based on HSV colour space for coverless information hiding
Zhu et al. Boosted cross-domain dictionary learning for visual categorization
Sun et al. Hash length prediction for video hashing
Wang et al. Anchor graph structure fusion hashing for cross-modal similarity search
CN110609914B (zh) 一种基于快速类别更新的在线哈希学习图像检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200522

CF01 Termination of patent right due to non-payment of annual fee