CN112329717A - 一种面向海量数据相似度检测的指纹高速缓存方法 - Google Patents

一种面向海量数据相似度检测的指纹高速缓存方法 Download PDF

Info

Publication number
CN112329717A
CN112329717A CN202011342650.6A CN202011342650A CN112329717A CN 112329717 A CN112329717 A CN 112329717A CN 202011342650 A CN202011342650 A CN 202011342650A CN 112329717 A CN112329717 A CN 112329717A
Authority
CN
China
Prior art keywords
fingerprint
new
new data
caching
fingerprints
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011342650.6A
Other languages
English (en)
Other versions
CN112329717B (zh
Inventor
付松龄
丁滟
黄辰林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Hunan Normal University
Original Assignee
National University of Defense Technology
Hunan Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology, Hunan Normal University filed Critical National University of Defense Technology
Priority to CN202011342650.6A priority Critical patent/CN112329717B/zh
Publication of CN112329717A publication Critical patent/CN112329717A/zh
Application granted granted Critical
Publication of CN112329717B publication Critical patent/CN112329717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/12Fingerprints or palmprints
    • G06V40/13Sensors therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Collating Specific Patterns (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种面向海量数据相似度检测的指纹高速缓存方法,步骤包括:S01.配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,下层指纹包括将数据指纹聚类形成的多个指纹簇,上层指纹包括各指纹簇的聚类中心;步骤S02.当接收到新数据指纹时,查找目的聚类中心,根据新数据指纹与目的聚类中心中最近指纹之间的距离判断是否存在相似的指纹,如果不存在转入步骤S03;步骤S03.将新数据指纹作为新的聚类中心缓存至一级缓存中,或缓存至二级缓存中对应的指纹簇中。本发明能够适用于海量数据实现指纹相似度检测以及缓存,且具有实现方法简单、缓存效率高且灵活性强等优点。

Description

一种面向海量数据相似度检测的指纹高速缓存方法
技术领域
本发明涉及海量数据指纹缓存技术领域,尤其涉及一种面向海量数据相似度检测的指纹高速缓存方法。
背景技术
在数据存储与共享平台中会面临大量的数据版权归属识别等问题,如考虑如下应用场景:用户A独立撰写一份文档上传到数据共享平台中,其他用户均可自由下载该文档;用户B下载该文档后做了少量修改(甚至如仅仅增加或删除一个空格),当用户B将修改后的文档上传到系统中时,系统需要识别新文档的所有权归属于哪个用户。当数据量急剧增大时,相应的需要进行大量的所有权归属识别操作,因而对于面向海量数据的存储及共享平台而言,要实现数据版权保护是一个具有挑战性的难题。
数据相似度检测是实现数据版权保护的一项关键技术。目前数据相似度检测通常是先采用特定算法生成能反应数据具体内容的指纹信息,比如局部敏感hash算法simhash、top k最长句子签名算法等;然后使用距离算法(如海明距离算法、欧氏距离算法和夹角余弦算法等)计算指纹之间的距离,并以距离的远近作为数据是否相似的判断依据,指纹距离越近则所对应的数据越相似,反之,指纹距离越远则所对应的数据越不同。
现有技术中采用上述数据相似度检测方法实现数据版权保护的具体步骤如下:
第一步:用户上传新数据。
第二部:系统调用特定算法生成能反映新数据具体内容的指纹。
第三步:获取系统中已有的所有指纹,计算第二步生成的指纹与系统已有的每一个指纹之间的距离:如果系统中已经存在距离较近的指纹,则认为新上传的数据与已有数据是相似的,判定该数据是数据版权不合法;反之,如果系统中不存在距离较近的指纹,则认为新上传的数据版权合法。
但是采用上述数据相似度检测方法,需要执行大量的指纹距离计算,如上述方法中的第三步,需要一一计算新指纹与系统所有指纹的距离,使得检测效率较低,尤其是当面对海量数据的检测时,会大大降低检测效率。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种实现方法简单、缓存效率高且灵活的面向海量数据相似度检测的指纹高速缓存方法,能够大大提高数据相似度检测的效率。
为解决上述技术问题,本发明提出的技术方案为:
一种面向海量数据相似度检测的指纹高速缓存方法,步骤包括:
步骤S01.两级缓存配置:配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,所述下层指纹包括将数据指纹聚类形成的多个指纹簇,所述上层指纹包括各所述指纹簇的聚类中心;
步骤S02.相似度检测:当接收到新数据指纹时,从所述一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心,并从各目的聚类中心中查找与所述新数据指纹距离最近的聚类中心以及最近的数据指纹,得到最近聚类中心以及最近指纹;根据所述新数据指纹与所述最近指纹之间的距离判断是否存在与所述新数据指纹相似的指纹,如果判断为不存在转入步骤S03;
步骤S03.指纹缓存:根据所述新数据指纹与所述最近聚类中心之间的距离,将新数据指纹作为新的聚类中心缓存至所述一级缓存中,或将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。
进一步的:所述步骤S02中,具体查找与新数据指纹距离小于R+T的所有聚类中心,得到所述目的聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,若新数据指纹与所有聚类中心之间的距离di均满足di>R+T,则判定为不存在所述相似的指纹,所述步骤S03中将新数据指纹作为新的聚类中心缓存至所述一级缓存中。
进一步的:所述步骤S02中,若新数据指纹与所述最近指纹之间的距离dmin2满足dmin2>T,判断为不存在所述相似的指纹,否则判断为存在所述相似的指纹。
进一步的:所述步骤S03中,具体若新数据指纹与所述最近聚类中心之间的距离dmin1满足dmin1>R,R为聚类半径,则将新数据指纹作为新的聚类中心缓存至所述一级缓存中,否则将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。
进一步的:聚类半径R与所述距离阈值T配置为满足R>2T。
进一步的:所述步骤S02的具体步骤包括:
所述步骤S02的具体步骤包括:
步骤S201.接收新数据指纹fnew,计算新数据指纹fnew与所述一级缓存中每个聚类中心Ci之间的距离di
步骤S202.获取步骤S201计算得到的距离di中小于R+T的所有聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,得到所有目的聚类中心,若所有的距离di均满足di>R+T,则转入步骤S03以将新数据指纹fnew作为新的聚类中心缓存至所述一级缓存中;
步骤S203.分别计算新数据指纹fnew与各目的聚类中心之间的距离,查找出与新数据指纹fnew距离最近的聚类中心,得到所述最近聚类中心Cj,并分别计算新数据指纹fnew与各目的聚类中心中所有数据指纹之间的距离,查找到与新数据指纹fnew距离最近的数据指纹,得到最近指纹;判断新数据指纹fnew与所述最近指纹之间的距离dmin2大小,若dmin2>T转入步骤S03,否则返回步骤S201以接收新数据指纹进行缓存。
进一步的:所述步骤S01中还包括初始化所述一级缓存、二级缓存为空步骤。
进一步的:所述步骤S01后、步骤S02前,还包括初始缓存步骤,具体步骤包括:当需要缓存的新数据指纹为初始第一个指纹时,直接将所述新数据指纹作为第一个聚类中心缓存在所述一级缓存中,当再次接收到数据指纹时,转入执行步骤S02。
与现有技术相比,本发明的优点在于:
1、本发明通过将数据指纹按照两级缓存的方式进行缓存,仅需直接将新数据指纹与上层指纹中的各聚类中心进行比较,先筛选出与新数据指纹距离在指定范围内的所有聚类中心,再从筛选出的聚类中心中查找与新数据指纹距离最近的指纹,以判断是否存在相似指纹,如果不存在相似指纹根据与最近聚类中心之间的距离将新数据指纹缓存至一级缓存或二级缓存中,无需将新数据指纹一一与所有的指纹进行比较即可实现指纹相似度检测,可以避免大量的计算,从而能够实现数据指纹的高速缓存,尤其适用于海量数据相似度的检测中,可以使得大规模数据指纹的相似度检测工作能高效完成。
2、本发明通过采用先筛选出距离在一定范围内的聚类中心,再从筛选出的聚类中心中查找最近指纹的方式,相比于直接使用单一聚类中心进行比较的方式,可以在减少数据计算量的同时,确保指纹相似度比较的精度,避免使用单一聚类中心比较造成的误差。
3、本发明考虑相似度检测的特性,结合“聚类”方式实现指纹缓存,通过判断新数据指纹的距离将新数据指纹不断作为聚类中心添加或作为二级缓存添加,聚类半径以及聚类中心均是固定不变的,无需如传统聚类方式不断的执行迭代计算,可以大大减少计算复杂度,同时满足指纹相似度高效检测的需求。
4、本发明进一步通过判断新数据指纹与各聚类中心之间的距离与距离阈值、聚类半径之间的大小关系,确定缓存中是否可能存在与新数据指纹相似的指纹,在可能存在时,进一步依据新数据指纹与最近聚类中心间的最近距离,最终确定是否存在相似指纹,如果不存在相似指纹,直接新数据指纹作为新的聚类中心缓存至一级缓存中,或直接缓存至二级缓存中以最近聚类中心为中心的指纹簇中,可以快速、准确的实现各类型数据指纹的相似度检测以及缓存,可满足各类海量数据相似度检测及高效缓存的需求。
附图说明
图1是本实施例面向海量数据相似度检测的指纹高速缓存方法的实现流程示意图。
图2是本实施例构建二级缓存的原理示意图。
图3是本发明具体应用实施例中实现指纹缓存的详细流程示意图。
具体实施方式
以下结合说明书附图和具体优选的实施例对本发明作进一步描述,但并不因此而限制本发明的保护范围。
如图1所示,本实施例面向海量数据相似度检测的指纹高速缓存方法的步骤包括:
步骤S01.两级缓存配置:配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,所述下层指纹包括将数据指纹聚类形成的多个指纹簇,所述上层指纹包括各所述指纹簇的聚类中心;
步骤S02.相似度检测:当接收到新数据指纹时,从一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心,并从各目的聚类中心中查找与新数据指纹距离最近的聚类中心以及最近的数据指纹,得到最近聚类中心以及最近指纹;根据新数据指纹与所述最近指纹之间的距离判断是否存在与新数据指纹相似的指纹,如果判断为不存在转入步骤S03;
步骤S03.指纹缓存:根据新数据指纹与最近聚类中心之间的距离,将新数据指纹作为新的聚类中心缓存至所述一级缓存中,或将新数据指纹缓存至二级缓存中对应最近聚类中心的指纹簇中。
传统的聚类算法需要周期性把所有数据进行重新划分实现聚类,聚类个数和聚类中心均会动态发生改变。本实施例考虑相似度检测的特性,借鉴“聚类”的概念,结合固定聚类半径、聚类中心的“聚类”方式实现指纹缓存,通过将数据指纹按照两级缓存的方式进行缓存,上层指纹存储各聚类中心,下层指纹存储各个数据指纹聚类形成的指纹簇,存储新数据指纹时,仅需直接将新数据指纹与上层指纹中的各聚类中心进行比较,先筛选出与新数据指纹距离在指定范围内的所有聚类中心,再从筛选出的聚类中心中查找与新数据指纹距离最近的指纹,以判断是否存在相似指纹,如果不存在相似指纹根据与最近指纹之间的距离将新数据指纹缓存至一级缓存或二级缓存中,无需将新数据指纹一一与所有的指纹进行比较即可实现指纹相似度检测,也无需如传统聚类方式需要反复的迭代计算,可以避免大量的计算,从而能够实现数据指纹的高速缓存,尤其适用于海量数据相似度的检测中,可以使得大规模数据指纹的相似度检测工作能高效完成。
本实施例上述方法中,通过采用先筛选出距离在一定范围内的聚类中心,再从筛选出的聚类中心中查找最近指纹的方式,相比于直接使用单一聚类中心进行比较的方式,可以在减少数据计算量的同时,确保指纹相似度比较的精度,避免使用单一聚类中心比较造成的误差。
本实施例将海量数据指纹分为两层进行管理,如图2所示,具体包括:
下层指纹:将数据指纹聚类形成多个指纹簇,统一缓存到二级缓存。具体将低于预设距离阈值的数据指纹聚集为一个聚类,每个聚类对应为一个指纹簇,聚类内部的指纹即为下层指纹。如图2中的黑色虚线框表示即为聚类,内部的每个黑色实线圆圈代表一个指纹。
上层指纹:下层指纹的每个聚类有一个聚类中心,将所有的聚类中心聚集在一起统一缓存到一级缓存中,形成上层指纹。如图2中上层指纹中每个实线圆圈对应表示一个聚类中心。
当接收到新数据指纹时,依据上述特定的两层指纹缓存方式,只需将新数据指纹先与上层指纹中各个聚类中心进行比较,可快速查找出距离在指定范围内的目的聚类中心,从而依据目的聚类中心即可快速、准确的判断出是否存在相似指纹,大大提高相似度检测的效率。
本实施例步骤S01中还包括初始化一级缓存、二级缓存为空步骤,即一级缓存、二级缓存初始化为空。
本实施例中步骤S01后、步骤S02前,还包括初始缓存步骤,具体步骤包括:当需要缓存的新数据指纹为初始第一个指纹时,直接将新数据指纹作为第一个聚类中心缓存在一级缓存中,当再次接收到数据指纹时,转入执行步骤S02。基于两层缓存结构按照上述步骤实现指纹相似度检测以及缓存。
假设系统已有n个上层指纹,即n个聚类,聚类中心分别为{C1,C2,…Cn},每个聚类中又包含若干下层指纹;在接收到新数据指纹后则依次进行以下两部分:1)按步骤S02对新数据指纹fnew与系统已有指纹进行相似度检测;2)如果在系统中没有检测到与新指纹相似的指纹,则按步骤S03将新指纹添加到系统中。
本实施例步骤S02中,具体查找与新数据指纹距离小于R+T的所有聚类中心,得到目的聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,若新数据指纹与所有聚类中心之间的距离di均满足di>R+T,则判定为不存在相似的指纹,步骤S03中将新数据指纹作为新的聚类中心缓存至一级缓存中。即若新数据指纹与目的聚类中心之间的距离dj超过了聚类半径R与距离阈值T之和,则表明新数据指纹与目的聚类中心中的任意下层指纹之间的距离将均超过距离阈值T,可判定当前缓存中不存在与新数据指纹相似的指纹,直接将新数据指纹作为新的聚类中心缓存至一级缓存中。
若两个指纹之间的距离小于阈值T,则认为这两个指纹是相似的,也即这两个指纹所对应的原始数据是相似的。上述距离阈值T和聚类半径R均可根据实际需求设置,具体可配置满足R>2T。
本实施例步骤S02中,若新数据指纹与最近指纹之间的距离dmin2满足dmin2>T,判断为不存在相似的指纹,否则判断为存在相似的指纹。即若新数据指纹与目的聚类中心中所有指纹之间的距离均超过距离阈值T,则可以确定不存在与新数据指纹相似的指纹。
在具体应用实施例中,步骤S02的具体步骤包括:
步骤S02的具体步骤包括:
步骤S201.接收新数据指纹fnew,计算新数据指纹fnew与一级缓存中每个聚类中心Ci之间的距离di
步骤S202.获取步骤S201计算得到的距离di中小于R+T的所有聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,得到所有目的聚类中心,若所有的距离di均满足di>R+T,则转入步骤S03以将新数据指纹fnew作为新的聚类中心缓存至一级缓存中;
步骤S203.分别计算新数据指纹fnew与各目的聚类中心之间的距离,查找出与新数据指纹fnew距离最近的聚类中心,得到最近聚类中心Cj,并分别计算新数据指纹fnew与各目的聚类中心中所有数据指纹之间的距离,查找到与新数据指纹fnew距离最近的数据指纹,得到最近指纹;判断新数据指纹fnew与最近指纹之间的距离dmin2大小,若dmin2>T转入步骤S03,否则返回步骤S201以接收新数据指纹进行缓存。
本实施例步骤S03中,具体若新数据指纹与最近聚类中心之间的距离dmin1满足dmin1>R,R为聚类半径,则将新数据指纹作为新的聚类中心缓存至一级缓存中,否则将新数据指纹缓存至二级缓存中对应最近聚类中心所在的指纹簇中。当步骤S02判断到不存在与新数据指纹相似的指纹后,若新数据指纹与所有目的聚类中心的最近距离较大(大于R),则表明与目的聚类中心的差别较大,需要为新数据指纹创建新的聚类中心,若距离较小(<=R),则表明新数据指纹属于某个目的聚类中心,则可以直接缓存至二级缓存中以最近聚类中心为中心的指纹簇中。
本实施例上述步骤,通过判断新数据指纹与各聚类中心之间的距离di与R+T之间的大小关系,确定缓存中是否可能存在与新数据指纹相似的指纹,如果确定不存在,则直接将新数据指纹作为新的聚类中心缓存至一级缓存中,如果可能存在,则进一步依据新数据指纹与目的聚类中心内各数据指纹间最近距离dmin2最终确定是否存在相似指纹,如果不存在相似指纹且与最近聚类中心的指纹距离较大,则直接新数据指纹作为新的聚类中心缓存至一级缓存中,如果不存在相似指纹且与最近聚类中心距离较小,则直接缓存至二级缓存中对应最近聚类中心的指纹簇中,可以快速、准确的实现各类型数据指纹的相似度检测以及缓存,满足各类海量数据相似度检测及高效缓存的需求。
以下以在具体应用实施例中采用本发明上述方法实现海量数据指纹缓存为例对本发明进行进一步说明。
如图3所示,本实施例实现海量数据指纹缓存的详细步骤为:
步骤1:设置距离阈值T和聚类半径R。
步骤2:配置两级缓存,并将一级缓存和二级缓存均初始化为空。
步骤3:将接收到的第1个新数据指纹加入一级缓存中,直接作为第一个聚类的中心,对于第2个以及之后接收到的新数据指纹,首先执行下述步骤4的相似度检测,若新数据指纹与缓存中某已有指纹之间的距离小于阈值T,则返回失败,否则执行下述步骤5的指纹缓存;构建形成n个上层指纹,即n个聚类,聚类中心分别为{C1,C2,…Cn},每个聚类中又包含若干下层指纹;
步骤4:相似度检测
步骤4.1.接收新数据指纹fnew,计算新数据指纹fnew与一级缓存中每一个上层指纹Ci之间的距离di,得到{d1,d2,…dn}。
步骤4.2.在{d1,d2,…dn}中查找满足小于R+T的所有距离di,假设共k个,分别为{dj1,dj2,…djk},对应的聚类中心分别为{Cj1,Cj2,…Cjk},并求出{dj1,dj2,…djk}的最小值为dmin1,dmin1对应的聚类中心为Cj
步骤4.3.如果k等于0,即距离di均满足>R+T,则中止检测操作,返回“无相似指纹”的结果,转入步骤5。
步骤4.4.在分别以{Cj1,Cj2,…Cjk}为中心的各个聚类中,假设共有m个下层指纹,计算新数据指纹fnew与每一个下层指纹fc之间的距离dc,得到{dc1,dc2,…dcm}。
步骤4.5.求{dc1,dc2,…dcm}的最小值dmin2,假设所得的dmin2=dck,dck是新指纹fnew与已有指纹fck之间的距离,如果dmin2<=T,则返回“存在相似指纹fck”的结果,返回步骤4.1;反之如果dmin2>T,则返回“不存在相似指纹”的结果,转入步骤5。
步骤5:指纹缓存
判断最小值dmin1,如果dmin1>R,则将fnew作为上层指纹缓存到一级缓存中;如果dmin1<=R,则在二级缓存中,将fnew加入到以为dmin1对应的以Cj为中心的聚类中;将新指纹同步保存到存储系统中永久保存。
上述只是本发明的较佳实施例,并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明。因此,凡是未脱离本发明技术方案的内容,依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均应落在本发明技术方案保护的范围内。

Claims (8)

1.一种面向海量数据相似度检测的指纹高速缓存方法,其特征在于,步骤包括:
步骤S01.两级缓存配置:配置两级缓存,其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹,所述下层指纹包括将数据指纹聚类形成的多个指纹簇,所述上层指纹包括各所述指纹簇的聚类中心;
步骤S02.相似度检测:当接收到新数据指纹时,从所述一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心,并从各目的聚类中心中查找与所述新数据指纹距离最近的聚类中心以及最近的数据指纹,得到最近聚类中心以及最近指纹;根据所述新数据指纹与所述最近指纹之间的距离判断是否存在与所述新数据指纹相似的指纹,如果判断为不存在转入步骤S03;
步骤S03.指纹缓存:根据所述新数据指纹与所述最近聚类中心之间的距离,将新数据指纹作为新的聚类中心缓存至所述一级缓存中,或将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。
2.根据权利要求1所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于,所述步骤S02中,具体查找与新数据指纹距离小于R+T的所有聚类中心,得到所述目的聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,若新数据指纹与所有聚类中心之间的距离di均满足di>R+T,则判定为不存在所述相似的指纹,所述步骤S03中将新数据指纹作为新的聚类中心缓存至所述一级缓存中。
3.根据权利要求2所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于,所述步骤S02中,若新数据指纹与所述最近指纹之间的距离dmin2满足dmin2>T,判断为不存在所述相似的指纹,否则判断为存在所述相似的指纹。
4.根据权利要求1所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于,所述步骤S03中,具体若新数据指纹与所述最近聚类中心之间的距离dmin1满足dmin1>R,R为聚类半径,则将新数据指纹作为新的聚类中心缓存至所述一级缓存中,否则将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。
5.根据权利要求2~4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于:聚类半径R与距离阈值T配置为满足R>2T。
6.根据权利要求1~4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于,所述步骤S02的具体步骤包括:
步骤S201.接收新数据指纹fnew,计算新数据指纹fnew与所述一级缓存中每个聚类中心Ci之间的距离di
步骤S202.获取步骤S201计算得到的距离di中小于R+T的所有聚类中心,其中R为聚类半径,T为用于判定两个数据指纹之间是否相似的距离阈值,得到所有目的聚类中心,若所有的距离di均满足di>R+T,则转入步骤S03以将新数据指纹fnew作为新的聚类中心缓存至所述一级缓存中;
步骤S203.分别计算新数据指纹fnew与各目的聚类中心之间的距离,查找出与新数据指纹fnew距离最近的聚类中心,得到所述最近聚类中心Cj,并分别计算新数据指纹fnew与各目的聚类中心中所有数据指纹之间的距离,查找到与新数据指纹fnew距离最近的数据指纹,得到最近指纹;判断新数据指纹fnew与所述最近指纹之间的距离dmin2大小,若dmin2>T转入步骤S03,否则返回步骤S201以接收新数据指纹进行缓存。
7.根据权利要求1~4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于:所述步骤S01中还包括初始化所述一级缓存、二级缓存为空步骤。
8.根据权利要求1~4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法,其特征在于,所述步骤S01后、步骤S02前,还包括初始缓存步骤,具体步骤包括:当需要缓存的新数据指纹为初始第一个指纹时,直接将所述新数据指纹作为第一个聚类中心缓存在所述一级缓存中,当再次接收到数据指纹时转入执行步骤S02。
CN202011342650.6A 2020-11-25 2020-11-25 一种面向海量数据相似度检测的指纹高速缓存方法 Active CN112329717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011342650.6A CN112329717B (zh) 2020-11-25 2020-11-25 一种面向海量数据相似度检测的指纹高速缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011342650.6A CN112329717B (zh) 2020-11-25 2020-11-25 一种面向海量数据相似度检测的指纹高速缓存方法

Publications (2)

Publication Number Publication Date
CN112329717A true CN112329717A (zh) 2021-02-05
CN112329717B CN112329717B (zh) 2023-08-01

Family

ID=74308847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011342650.6A Active CN112329717B (zh) 2020-11-25 2020-11-25 一种面向海量数据相似度检测的指纹高速缓存方法

Country Status (1)

Country Link
CN (1) CN112329717B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
CN106126681A (zh) * 2016-06-29 2016-11-16 泰华智慧产业集团股份有限公司 一种增量式流式数据聚类方法及系统
CN106557777A (zh) * 2016-10-17 2017-04-05 中国互联网络信息中心 一种基于SimHash改进的Kmeans聚类方法
CN107515931A (zh) * 2017-08-28 2017-12-26 华中科技大学 一种基于聚类的重复数据检测方法
CN108804661A (zh) * 2018-06-06 2018-11-13 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
US10534674B1 (en) * 2018-07-11 2020-01-14 EMC IP Holding Company, LLC Scalable, persistent, high performance and crash resilient metadata microservice
WO2020119053A1 (zh) * 2018-12-11 2020-06-18 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832182A (en) * 1996-04-24 1998-11-03 Wisconsin Alumni Research Foundation Method and system for data clustering for very large databases
CN106126681A (zh) * 2016-06-29 2016-11-16 泰华智慧产业集团股份有限公司 一种增量式流式数据聚类方法及系统
CN106557777A (zh) * 2016-10-17 2017-04-05 中国互联网络信息中心 一种基于SimHash改进的Kmeans聚类方法
CN107515931A (zh) * 2017-08-28 2017-12-26 华中科技大学 一种基于聚类的重复数据检测方法
CN108804661A (zh) * 2018-06-06 2018-11-13 湘潭大学 一种云存储系统中基于模糊聚类的重复数据删除方法
US10534674B1 (en) * 2018-07-11 2020-01-14 EMC IP Holding Company, LLC Scalable, persistent, high performance and crash resilient metadata microservice
WO2020119053A1 (zh) * 2018-12-11 2020-06-18 平安科技(深圳)有限公司 一种图片聚类方法、装置、存储介质及终端设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SONGLING FU,ET AL.: "Developing the Cloud-integrate data replication framework in decentralized online social networks", 《JOURNAL OR COMPUTER & SYSTEM SCIENCE 》, vol. 82, no. 1, pages 113 - 129, XP029289324, DOI: 10.1016/j.jcss.2015.06.010 *
余光华;: "一种大规模网络数据缓存方法的改进", 西安工程大学学报, no. 04, pages 504 - 509 *
叶晨;张延园;: "一种海量存储系统二级缓存的设计与实现", 计算机与现代化, no. 12, pages 52 - 55 *

Also Published As

Publication number Publication date
CN112329717B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
CN106407311B (zh) 获取搜索结果的方法和装置
Cao et al. Graph-based discriminative learning for location recognition
US9053386B2 (en) Method and apparatus of identifying similar images
CN106570141B (zh) 近似重复图像检测方法
US20100088342A1 (en) Incremental feature indexing for scalable location recognition
US9009029B1 (en) Semantic hashing in entity resolution
US9298757B1 (en) Determining similarity of linguistic objects
CN106295670B (zh) 数据处理方法及数据处理装置
Gao et al. Selective hashing: Closing the gap between radius search and k-nn search
US11550913B2 (en) System and method for performing an antivirus scan using file level deduplication
CN110941754A (zh) 基于增强学习生成向量最近邻搜索策略
Moia et al. Similarity digest search: A survey and comparative analysis of strategies to perform known file filtering using approximate matching
CN113448510A (zh) 存储的装置及其方法
CN112948613B (zh) 图像增量聚类方法、系统、介质及装置
CN113821630B (zh) 一种数据聚类的方法和装置
US11487876B1 (en) Robust whitelisting of legitimate files using similarity score and suspiciousness score
CN112329717B (zh) 一种面向海量数据相似度检测的指纹高速缓存方法
JP6008785B2 (ja) データベースにおけるデータ処理方法、データ・クエリ方法ならびに対応するデバイスおよびデータ・クエリ・デバイス
JP2018132626A (ja) 音声認識システム、音声認識サーバ、端末装置、及び語句管理方法
Kubat et al. A reduction technique for nearest-neighbor classification: Small groups of examples
US8775746B2 (en) Information processing system and method
Higuchi et al. Fast filtering for nearest neighbor search by sketch enumeration without using matching
Gusev et al. Evolution of a web-scale near duplicate image detection system
Chawathe Effective whitelisting for filesystem forensics
Zhou et al. HDKV: supporting efficient high‐dimensional similarity search in key‐value stores

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant