CN112329717A

CN112329717A - 一种面向海量数据相似度检测的指纹高速缓存方法

Info

Publication number: CN112329717A
Application number: CN202011342650.6A
Authority: CN
Inventors: 付松龄; 丁滟; 黄辰林
Original assignee: National University of Defense Technology; Hunan Normal University
Current assignee: National University of Defense Technology; Hunan Normal University
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-05
Anticipated expiration: 2040-11-25
Also published as: CN112329717B

Abstract

本发明公开一种面向海量数据相似度检测的指纹高速缓存方法，步骤包括：S01.配置两级缓存，其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹，下层指纹包括将数据指纹聚类形成的多个指纹簇，上层指纹包括各指纹簇的聚类中心；步骤S02.当接收到新数据指纹时，查找目的聚类中心，根据新数据指纹与目的聚类中心中最近指纹之间的距离判断是否存在相似的指纹，如果不存在转入步骤S03；步骤S03.将新数据指纹作为新的聚类中心缓存至一级缓存中，或缓存至二级缓存中对应的指纹簇中。本发明能够适用于海量数据实现指纹相似度检测以及缓存，且具有实现方法简单、缓存效率高且灵活性强等优点。

Description

一种面向海量数据相似度检测的指纹高速缓存方法

技术领域

本发明涉及海量数据指纹缓存技术领域，尤其涉及一种面向海量数据相似度检测的指纹高速缓存方法。

背景技术

在数据存储与共享平台中会面临大量的数据版权归属识别等问题，如考虑如下应用场景：用户A独立撰写一份文档上传到数据共享平台中，其他用户均可自由下载该文档；用户B下载该文档后做了少量修改(甚至如仅仅增加或删除一个空格)，当用户B将修改后的文档上传到系统中时，系统需要识别新文档的所有权归属于哪个用户。当数据量急剧增大时，相应的需要进行大量的所有权归属识别操作，因而对于面向海量数据的存储及共享平台而言，要实现数据版权保护是一个具有挑战性的难题。

数据相似度检测是实现数据版权保护的一项关键技术。目前数据相似度检测通常是先采用特定算法生成能反应数据具体内容的指纹信息，比如局部敏感hash算法simhash、top k最长句子签名算法等；然后使用距离算法(如海明距离算法、欧氏距离算法和夹角余弦算法等)计算指纹之间的距离，并以距离的远近作为数据是否相似的判断依据，指纹距离越近则所对应的数据越相似，反之，指纹距离越远则所对应的数据越不同。

现有技术中采用上述数据相似度检测方法实现数据版权保护的具体步骤如下：

第一步：用户上传新数据。

第二部：系统调用特定算法生成能反映新数据具体内容的指纹。

第三步：获取系统中已有的所有指纹，计算第二步生成的指纹与系统已有的每一个指纹之间的距离：如果系统中已经存在距离较近的指纹，则认为新上传的数据与已有数据是相似的，判定该数据是数据版权不合法；反之，如果系统中不存在距离较近的指纹，则认为新上传的数据版权合法。

但是采用上述数据相似度检测方法，需要执行大量的指纹距离计算，如上述方法中的第三步，需要一一计算新指纹与系统所有指纹的距离，使得检测效率较低，尤其是当面对海量数据的检测时，会大大降低检测效率。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种实现方法简单、缓存效率高且灵活的面向海量数据相似度检测的指纹高速缓存方法，能够大大提高数据相似度检测的效率。

为解决上述技术问题，本发明提出的技术方案为：

一种面向海量数据相似度检测的指纹高速缓存方法，步骤包括：

步骤S01.两级缓存配置：配置两级缓存，其中一级缓存用于缓存上层指纹、二级缓存用于缓存下层指纹，所述下层指纹包括将数据指纹聚类形成的多个指纹簇，所述上层指纹包括各所述指纹簇的聚类中心；

步骤S02.相似度检测：当接收到新数据指纹时，从所述一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心，并从各目的聚类中心中查找与所述新数据指纹距离最近的聚类中心以及最近的数据指纹，得到最近聚类中心以及最近指纹；根据所述新数据指纹与所述最近指纹之间的距离判断是否存在与所述新数据指纹相似的指纹，如果判断为不存在转入步骤S03；

步骤S03.指纹缓存：根据所述新数据指纹与所述最近聚类中心之间的距离，将新数据指纹作为新的聚类中心缓存至所述一级缓存中，或将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。

进一步的：所述步骤S02中，具体查找与新数据指纹距离小于R+T的所有聚类中心，得到所述目的聚类中心，其中R为聚类半径，T为用于判定两个数据指纹之间是否相似的距离阈值，若新数据指纹与所有聚类中心之间的距离d_i均满足d_i>R+T，则判定为不存在所述相似的指纹，所述步骤S03中将新数据指纹作为新的聚类中心缓存至所述一级缓存中。

进一步的：所述步骤S02中，若新数据指纹与所述最近指纹之间的距离d_min2满足d_min2>T，判断为不存在所述相似的指纹，否则判断为存在所述相似的指纹。

进一步的：所述步骤S03中，具体若新数据指纹与所述最近聚类中心之间的距离d_min1满足d_min1>R，R为聚类半径，则将新数据指纹作为新的聚类中心缓存至所述一级缓存中，否则将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。

进一步的：聚类半径R与所述距离阈值T配置为满足R>2T。

进一步的：所述步骤S02的具体步骤包括：

所述步骤S02的具体步骤包括：

步骤S201.接收新数据指纹f_new，计算新数据指纹f_new与所述一级缓存中每个聚类中心C_i之间的距离d_i；

步骤S202.获取步骤S201计算得到的距离d_i中小于R+T的所有聚类中心，其中R为聚类半径，T为用于判定两个数据指纹之间是否相似的距离阈值，得到所有目的聚类中心，若所有的距离d_i均满足d_i>R+T，则转入步骤S03以将新数据指纹f_new作为新的聚类中心缓存至所述一级缓存中；

步骤S203.分别计算新数据指纹f_new与各目的聚类中心之间的距离，查找出与新数据指纹f_new距离最近的聚类中心，得到所述最近聚类中心C_j，并分别计算新数据指纹f_new与各目的聚类中心中所有数据指纹之间的距离，查找到与新数据指纹f_new距离最近的数据指纹，得到最近指纹；判断新数据指纹f_new与所述最近指纹之间的距离d_min2大小，若d_min2>T转入步骤S03，否则返回步骤S201以接收新数据指纹进行缓存。

进一步的：所述步骤S01中还包括初始化所述一级缓存、二级缓存为空步骤。

进一步的：所述步骤S01后、步骤S02前，还包括初始缓存步骤，具体步骤包括：当需要缓存的新数据指纹为初始第一个指纹时，直接将所述新数据指纹作为第一个聚类中心缓存在所述一级缓存中，当再次接收到数据指纹时，转入执行步骤S02。

与现有技术相比，本发明的优点在于：

1、本发明通过将数据指纹按照两级缓存的方式进行缓存，仅需直接将新数据指纹与上层指纹中的各聚类中心进行比较，先筛选出与新数据指纹距离在指定范围内的所有聚类中心，再从筛选出的聚类中心中查找与新数据指纹距离最近的指纹，以判断是否存在相似指纹，如果不存在相似指纹根据与最近聚类中心之间的距离将新数据指纹缓存至一级缓存或二级缓存中，无需将新数据指纹一一与所有的指纹进行比较即可实现指纹相似度检测，可以避免大量的计算，从而能够实现数据指纹的高速缓存，尤其适用于海量数据相似度的检测中，可以使得大规模数据指纹的相似度检测工作能高效完成。

2、本发明通过采用先筛选出距离在一定范围内的聚类中心，再从筛选出的聚类中心中查找最近指纹的方式，相比于直接使用单一聚类中心进行比较的方式，可以在减少数据计算量的同时，确保指纹相似度比较的精度，避免使用单一聚类中心比较造成的误差。

3、本发明考虑相似度检测的特性，结合“聚类”方式实现指纹缓存，通过判断新数据指纹的距离将新数据指纹不断作为聚类中心添加或作为二级缓存添加，聚类半径以及聚类中心均是固定不变的，无需如传统聚类方式不断的执行迭代计算，可以大大减少计算复杂度，同时满足指纹相似度高效检测的需求。

4、本发明进一步通过判断新数据指纹与各聚类中心之间的距离与距离阈值、聚类半径之间的大小关系，确定缓存中是否可能存在与新数据指纹相似的指纹，在可能存在时，进一步依据新数据指纹与最近聚类中心间的最近距离，最终确定是否存在相似指纹，如果不存在相似指纹，直接新数据指纹作为新的聚类中心缓存至一级缓存中，或直接缓存至二级缓存中以最近聚类中心为中心的指纹簇中，可以快速、准确的实现各类型数据指纹的相似度检测以及缓存，可满足各类海量数据相似度检测及高效缓存的需求。

附图说明

图1是本实施例面向海量数据相似度检测的指纹高速缓存方法的实现流程示意图。

图2是本实施例构建二级缓存的原理示意图。

图3是本发明具体应用实施例中实现指纹缓存的详细流程示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例面向海量数据相似度检测的指纹高速缓存方法的步骤包括：

步骤S02.相似度检测：当接收到新数据指纹时，从一级缓存中查找与新数据指纹距离在指定范围内的目的聚类中心，并从各目的聚类中心中查找与新数据指纹距离最近的聚类中心以及最近的数据指纹，得到最近聚类中心以及最近指纹；根据新数据指纹与所述最近指纹之间的距离判断是否存在与新数据指纹相似的指纹，如果判断为不存在转入步骤S03；

步骤S03.指纹缓存：根据新数据指纹与最近聚类中心之间的距离，将新数据指纹作为新的聚类中心缓存至所述一级缓存中，或将新数据指纹缓存至二级缓存中对应最近聚类中心的指纹簇中。

传统的聚类算法需要周期性把所有数据进行重新划分实现聚类，聚类个数和聚类中心均会动态发生改变。本实施例考虑相似度检测的特性，借鉴“聚类”的概念，结合固定聚类半径、聚类中心的“聚类”方式实现指纹缓存，通过将数据指纹按照两级缓存的方式进行缓存，上层指纹存储各聚类中心，下层指纹存储各个数据指纹聚类形成的指纹簇，存储新数据指纹时，仅需直接将新数据指纹与上层指纹中的各聚类中心进行比较，先筛选出与新数据指纹距离在指定范围内的所有聚类中心，再从筛选出的聚类中心中查找与新数据指纹距离最近的指纹，以判断是否存在相似指纹，如果不存在相似指纹根据与最近指纹之间的距离将新数据指纹缓存至一级缓存或二级缓存中，无需将新数据指纹一一与所有的指纹进行比较即可实现指纹相似度检测，也无需如传统聚类方式需要反复的迭代计算，可以避免大量的计算，从而能够实现数据指纹的高速缓存，尤其适用于海量数据相似度的检测中，可以使得大规模数据指纹的相似度检测工作能高效完成。

本实施例上述方法中，通过采用先筛选出距离在一定范围内的聚类中心，再从筛选出的聚类中心中查找最近指纹的方式，相比于直接使用单一聚类中心进行比较的方式，可以在减少数据计算量的同时，确保指纹相似度比较的精度，避免使用单一聚类中心比较造成的误差。

本实施例将海量数据指纹分为两层进行管理，如图2所示，具体包括：

下层指纹：将数据指纹聚类形成多个指纹簇，统一缓存到二级缓存。具体将低于预设距离阈值的数据指纹聚集为一个聚类，每个聚类对应为一个指纹簇，聚类内部的指纹即为下层指纹。如图2中的黑色虚线框表示即为聚类，内部的每个黑色实线圆圈代表一个指纹。

上层指纹：下层指纹的每个聚类有一个聚类中心，将所有的聚类中心聚集在一起统一缓存到一级缓存中，形成上层指纹。如图2中上层指纹中每个实线圆圈对应表示一个聚类中心。

当接收到新数据指纹时，依据上述特定的两层指纹缓存方式，只需将新数据指纹先与上层指纹中各个聚类中心进行比较，可快速查找出距离在指定范围内的目的聚类中心，从而依据目的聚类中心即可快速、准确的判断出是否存在相似指纹，大大提高相似度检测的效率。

本实施例步骤S01中还包括初始化一级缓存、二级缓存为空步骤，即一级缓存、二级缓存初始化为空。

本实施例中步骤S01后、步骤S02前，还包括初始缓存步骤，具体步骤包括：当需要缓存的新数据指纹为初始第一个指纹时，直接将新数据指纹作为第一个聚类中心缓存在一级缓存中，当再次接收到数据指纹时，转入执行步骤S02。基于两层缓存结构按照上述步骤实现指纹相似度检测以及缓存。

假设系统已有n个上层指纹，即n个聚类，聚类中心分别为{C₁,C₂,…C_n}，每个聚类中又包含若干下层指纹；在接收到新数据指纹后则依次进行以下两部分：1)按步骤S02对新数据指纹f_new与系统已有指纹进行相似度检测；2)如果在系统中没有检测到与新指纹相似的指纹，则按步骤S03将新指纹添加到系统中。

本实施例步骤S02中，具体查找与新数据指纹距离小于R+T的所有聚类中心，得到目的聚类中心，其中R为聚类半径，T为用于判定两个数据指纹之间是否相似的距离阈值，若新数据指纹与所有聚类中心之间的距离d_i均满足d_i>R+T，则判定为不存在相似的指纹，步骤S03中将新数据指纹作为新的聚类中心缓存至一级缓存中。即若新数据指纹与目的聚类中心之间的距离d_j超过了聚类半径R与距离阈值T之和，则表明新数据指纹与目的聚类中心中的任意下层指纹之间的距离将均超过距离阈值T，可判定当前缓存中不存在与新数据指纹相似的指纹，直接将新数据指纹作为新的聚类中心缓存至一级缓存中。

若两个指纹之间的距离小于阈值T，则认为这两个指纹是相似的，也即这两个指纹所对应的原始数据是相似的。上述距离阈值T和聚类半径R均可根据实际需求设置，具体可配置满足R>2T。

本实施例步骤S02中，若新数据指纹与最近指纹之间的距离d_min2满足d_min2>T，判断为不存在相似的指纹，否则判断为存在相似的指纹。即若新数据指纹与目的聚类中心中所有指纹之间的距离均超过距离阈值T，则可以确定不存在与新数据指纹相似的指纹。

在具体应用实施例中，步骤S02的具体步骤包括：

步骤S02的具体步骤包括：

步骤S201.接收新数据指纹f_new，计算新数据指纹f_new与一级缓存中每个聚类中心C_i之间的距离d_i；

步骤S202.获取步骤S201计算得到的距离d_i中小于R+T的所有聚类中心，其中R为聚类半径，T为用于判定两个数据指纹之间是否相似的距离阈值，得到所有目的聚类中心，若所有的距离d_i均满足d_i>R+T，则转入步骤S03以将新数据指纹f_new作为新的聚类中心缓存至一级缓存中；

步骤S203.分别计算新数据指纹f_new与各目的聚类中心之间的距离，查找出与新数据指纹f_new距离最近的聚类中心，得到最近聚类中心C_j，并分别计算新数据指纹f_new与各目的聚类中心中所有数据指纹之间的距离，查找到与新数据指纹f_new距离最近的数据指纹，得到最近指纹；判断新数据指纹f_new与最近指纹之间的距离d_min2大小，若d_min2>T转入步骤S03，否则返回步骤S201以接收新数据指纹进行缓存。

本实施例步骤S03中，具体若新数据指纹与最近聚类中心之间的距离d_min1满足d_min1>R，R为聚类半径，则将新数据指纹作为新的聚类中心缓存至一级缓存中，否则将新数据指纹缓存至二级缓存中对应最近聚类中心所在的指纹簇中。当步骤S02判断到不存在与新数据指纹相似的指纹后，若新数据指纹与所有目的聚类中心的最近距离较大(大于R)，则表明与目的聚类中心的差别较大，需要为新数据指纹创建新的聚类中心，若距离较小(<＝R)，则表明新数据指纹属于某个目的聚类中心，则可以直接缓存至二级缓存中以最近聚类中心为中心的指纹簇中。

本实施例上述步骤，通过判断新数据指纹与各聚类中心之间的距离d_i与R+T之间的大小关系，确定缓存中是否可能存在与新数据指纹相似的指纹，如果确定不存在，则直接将新数据指纹作为新的聚类中心缓存至一级缓存中，如果可能存在，则进一步依据新数据指纹与目的聚类中心内各数据指纹间最近距离d_min2最终确定是否存在相似指纹，如果不存在相似指纹且与最近聚类中心的指纹距离较大，则直接新数据指纹作为新的聚类中心缓存至一级缓存中，如果不存在相似指纹且与最近聚类中心距离较小，则直接缓存至二级缓存中对应最近聚类中心的指纹簇中，可以快速、准确的实现各类型数据指纹的相似度检测以及缓存，满足各类海量数据相似度检测及高效缓存的需求。

以下以在具体应用实施例中采用本发明上述方法实现海量数据指纹缓存为例对本发明进行进一步说明。

如图3所示，本实施例实现海量数据指纹缓存的详细步骤为：

步骤1：设置距离阈值T和聚类半径R。

步骤2：配置两级缓存，并将一级缓存和二级缓存均初始化为空。

步骤3：将接收到的第1个新数据指纹加入一级缓存中，直接作为第一个聚类的中心，对于第2个以及之后接收到的新数据指纹，首先执行下述步骤4的相似度检测，若新数据指纹与缓存中某已有指纹之间的距离小于阈值T，则返回失败，否则执行下述步骤5的指纹缓存；构建形成n个上层指纹，即n个聚类，聚类中心分别为{C₁,C₂,…C_n}，每个聚类中又包含若干下层指纹；

步骤4：相似度检测

步骤4.1.接收新数据指纹f_new，计算新数据指纹f_new与一级缓存中每一个上层指纹C_i之间的距离d_i，得到{d₁,d₂,…d_n}。

步骤4.2.在{d₁,d₂,…d_n}中查找满足小于R+T的所有距离d_i，假设共k个，分别为{d_j1,d_j2,…d_jk}，对应的聚类中心分别为{C_j1,C_j2,…C_jk}，并求出{d_j1,d_j2,…d_jk}的最小值为d_min1，d_min1对应的聚类中心为C_j。

步骤4.3.如果k等于0，即距离d_i均满足>R+T，则中止检测操作，返回“无相似指纹”的结果，转入步骤5。

步骤4.4.在分别以{C_j1,C_j2,…C_jk}为中心的各个聚类中，假设共有m个下层指纹，计算新数据指纹f_new与每一个下层指纹f_c之间的距离d_c，得到{d_c1,d_c2,…d_cm}。

步骤4.5.求{d_c1,d_c2,…d_cm}的最小值d_min2，假设所得的d_min2＝d_ck，d_ck是新指纹f_new与已有指纹f_ck之间的距离，如果d_min2<＝T，则返回“存在相似指纹f_ck”的结果，返回步骤4.1；反之如果d_min2>T，则返回“不存在相似指纹”的结果，转入步骤5。

步骤5：指纹缓存

判断最小值d_min1，如果d_min1>R，则将f_new作为上层指纹缓存到一级缓存中；如果d_min1<＝R，则在二级缓存中，将f_new加入到以为d_min1对应的以C_j为中心的聚类中；将新指纹同步保存到存储系统中永久保存。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种面向海量数据相似度检测的指纹高速缓存方法，其特征在于，步骤包括：

2.根据权利要求1所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于，所述步骤S02中，具体查找与新数据指纹距离小于R+T的所有聚类中心，得到所述目的聚类中心，其中R为聚类半径，T为用于判定两个数据指纹之间是否相似的距离阈值，若新数据指纹与所有聚类中心之间的距离d_i均满足d_i>R+T，则判定为不存在所述相似的指纹，所述步骤S03中将新数据指纹作为新的聚类中心缓存至所述一级缓存中。

3.根据权利要求2所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于，所述步骤S02中，若新数据指纹与所述最近指纹之间的距离d_min2满足d_min2>T，判断为不存在所述相似的指纹，否则判断为存在所述相似的指纹。

4.根据权利要求1所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于，所述步骤S03中，具体若新数据指纹与所述最近聚类中心之间的距离d_min1满足d_min1>R，R为聚类半径，则将新数据指纹作为新的聚类中心缓存至所述一级缓存中，否则将新数据指纹缓存至所述二级缓存中对应所述最近聚类中心的指纹簇中。

5.根据权利要求2～4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于：聚类半径R与距离阈值T配置为满足R>2T。

6.根据权利要求1～4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于，所述步骤S02的具体步骤包括：

7.根据权利要求1～4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于：所述步骤S01中还包括初始化所述一级缓存、二级缓存为空步骤。

8.根据权利要求1～4中任意一项所述的面向海量数据相似度检测的指纹高速缓存方法，其特征在于，所述步骤S01后、步骤S02前，还包括初始缓存步骤，具体步骤包括：当需要缓存的新数据指纹为初始第一个指纹时，直接将所述新数据指纹作为第一个聚类中心缓存在所述一级缓存中，当再次接收到数据指纹时转入执行步骤S02。