CN112836009A - 一种支持隐私保护的论文查重方法及系统 - Google Patents

一种支持隐私保护的论文查重方法及系统 Download PDF

Info

Publication number
CN112836009A
CN112836009A CN202110192294.2A CN202110192294A CN112836009A CN 112836009 A CN112836009 A CN 112836009A CN 202110192294 A CN202110192294 A CN 202110192294A CN 112836009 A CN112836009 A CN 112836009A
Authority
CN
China
Prior art keywords
data
query
node
hamming distance
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110192294.2A
Other languages
English (en)
Other versions
CN112836009B (zh
Inventor
赵梦妮
李睿
朱泽轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202110192294.2A priority Critical patent/CN112836009B/zh
Publication of CN112836009A publication Critical patent/CN112836009A/zh
Application granted granted Critical
Publication of CN112836009B publication Critical patent/CN112836009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种支持隐私保护的论文查重方法及系统,首先将文本数据转化成二进制字符串,进而转化为汉明距离范围查询问题;本发明提出了将汉明距离转化为数值范围查询的基础方法,同时此方法也产生了假阳率;为了进一步优化假阳率,本发明提出了优化方法,分别为多基准查询,多切分查询,分类查询以及联合子字符串查询;将数值范围检索和关键字检索转化为联合关键字检索,生成关键字信息,进而转化为布尔检索;最后,构建安全高效索引用于查询者检索。在进行汉明距离检索时,只需要生成相应的查询信息,再基于安全索引进行检索,并将结果返回给查询用户。本发明的方法简单,高效快捷,支持静态汉明距离检索,保护了用户论文信息的隐私性。

Description

一种支持隐私保护的论文查重方法及系统
技术领域
本发明属于网络安全技术领域,尤其涉及一种支持隐私保护的论文查重方法及系统。
背景技术
论文查重是当下非常普遍的需求,论文查重系统也非常多,但是当下许多论文查重网站没有做到对论文的隐私保护,不能保证学术成果的隐私性,一旦数据被泄露,将会造成个人成果的损失,同时也助长了剽窃他人成果的不良之风,所以该严重问题有待被解决。同时汉明距离也被广泛应用到许多领域,例如临近重复检测和模式识别,汉明距离检索问题也因此得到了很多关注。在现有的技术中,还没有基于汉明距离的高效安全的范围检索算法,与本发明最接近的研究是Ren等人在2009年提出的基于编辑距离的相似关键字检索,但其方法是采用枚举的方式,存在存储空间开销大,查询关键字长度有限,范围有限的问题。如何做到在进行高效的论文查重的同时保护数据的隐私性是当下研究的难点问题之一。
综上所述,现有技术存在的问题是:无法同时保证论文查重的隐私性与高效性。难点在于:大量论文数据汇聚在一起进行查询的时候,如何能保证论文数据的安全隐私性;另一方面,在大型数据库背景下,如何做到高效的检索。已有的技术一方面是算法的安全性不够,容易泄露一些数据信息,另一方面算法计算在大规模数据量的情况下很难做到高效检索。
发明内容
针对现有技术存在的问题,本发明提供了一种支持隐私保护的论文查重方法。
本发明是这样实现的,一种支持隐私保护的论文查重方法对存储在数据库中的数据进行预处理,本发明提出了将汉明距离转化为数值范围查询的基础方法,同时此方法也产生了假阳率;为了进一步优化假阳率,本发明提出了四种优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法;然后将数值范围检索转化为联合关键字检索,生成关键字信息,进而转化为布尔检索;最后,构建安全高效索引用于查询者检索。在进行汉明距离检索时,只需要生成相应的查询信息,再基于安全索引进行检索,并将结果返回给用户。
一种支持隐私保护的论文查重方法,包括以下步骤:
S1预处理待检索数据,将文本数据转化为二进制字符串;
S2获取待检索数据与数据库中任一数据的汉明距离,通过汉明距离,生成关键字信息集合,具体包括:
S21将汉明距离转化为数值范围,并优化假阳率,然后通过数值范围生成第一关键字信息;
S22将汉明距离转化为联合关键字,生成第二关键字信息;
S23通过第一关键字信息和第二关键字信息,生成关键字信息集合;
S3构建基于平衡二叉树的安全索引,其中,每个节点均使用布隆过滤器;
S4通过关键字信息集合,基于安全索引进行检索,并输出检索结果。
进一步的,在步骤S2中,将汉明距离转化为数值范围的具体步骤包括:
记二进制信息数据集为S={s1,s2,···,sn},其中,n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,sij=0或者sij=1,其中1≤j≤f,j表示二进制字符串的位下标,sij表示二进制字符串si的第j位;
预设汉明距离查询阈值r,给定两个字符串si和sq,其中,si为数据库中的任一条数据,sq为待检索数据;
对于满足HD(si,sq)≤r的数据si,加入一个基准字符串sp,则满足|HD(si,sp)-HD(sq,sp)|≤r,其中,sp是随机的一个长度为f的基准字符串;HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素;
|HD(si,sp)-HD(sq,sp)|≤r,可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
进一步的,在步骤S2中,优化假阳率的方法包括多基准查询法,具体包括:
对于满足HD(si,sq)≤r的数据si,加入m个基准字符串
Figure BDA0002944957210000031
则会产生m个范围条件:
Figure BDA0002944957210000032
其中,1≤i≤n,1≤j≤m;
同时满足该m个范围条件时,HD(si,sq)≤r。
进一步的,在步骤S2中,优化假阳率的方法包括多切分查询法,具体包括:
将字符串si、sq、sp均切c次;
得到
Figure BDA0002944957210000033
其中,si j为si切分后的子字符串,sp j为sp切分后的子字符串,sq j为sq切分后的子字符串;
并且,c越大,
Figure BDA0002944957210000034
越趋近于HD(si,sq),存在
Figure BDA0002944957210000035
得到限制条件:
Figure BDA0002944957210000036
将限制条件转化为范围条件:
Figure BDA0002944957210000037
Figure BDA0002944957210000038
其中,xj∈{0,1},集合
Figure BDA0002944957210000039
Figure BDA00029449572100000310
共有2c个元素;
得到2c个范围条件:
Figure BDA00029449572100000311
Figure BDA00029449572100000312
同时满足2c个范围条件时,HD(si,sq)≤r。
进一步的,在步骤S2中,优化假阳率的方法还包括分类查询法,具体包括:
预设汉明距离查询阈值r和类包含率pc
根据类包含率设定类范围条件:[HDbegin,HDend],类范围条件满足
Figure BDA0002944957210000041
其中,pd是数据集中任意两条字符串的汉明距离为d的概率;
每个类都存在一个基准字符串sp,类中的任一元素si都满足范围条件:HD(si,sp)∈[HDbegin-r,HDend+r];
每个待检索数据sq选择符合条件的类时满足范围条件:HD(sq,sp)∈[HDbegin,HDend];
产生类的范围条件:HD(si,sp)∈[HDbegin,HDend]。
进一步的,在步骤S2中,通过数值范围生成关键字信息的步骤具体包括:
根据条件HD(si,sp)∈[HDbegin-r,HDend+r],每个数据si找到符合条件的所有类;
生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)];
得到数值范围条件后,将数值范围条件转化为关键字条件,枚举出每个数值范围条件中的值,生成关键字集合
Figure BDA0002944957210000042
此关键字集合作为字符串si的索引元素;
待检索数据sq,根据条件HD(sq,sp)∈[HDbegin,HDend]遍历最小类集合,从选择的类中随机选择一个类,生成关键字
Figure BDA0002944957210000043
此关键字集合作为字符串sq的查询元素。
进一步的,在步骤S2中,将汉明距离转化为联合关键字的步骤具体包括:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r;
如果HD(si,sq)≤r,则字符串si和sq之间至多有r个位置不同;这r个位置至多分布在r个子字符串中,那么字符串si和sq生成的e个子字符串中至少有e-r个子字符串是完全相同的;
每个数据si根据组合原理生成
Figure BDA0002944957210000051
个联合子字符串集合
Figure BDA0002944957210000052
此关键字集合作为字符串si的索引元素;
待检索数据sq根据组合原理生成
Figure BDA0002944957210000053
个联合子字符串集合
Figure BDA0002944957210000054
此关键字集合作为字符串sq的查询元素。
进一步的,构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器,具体包括:
将n个数形成的关键字集合
Figure BDA0002944957210000055
通过伪随机哈希方程SHA1将关键字映射到一个布隆过滤器中,此布隆过滤器作为根节点;
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点;
然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
进一步的,通过关键字信息集合,基于安全索引进行检索,并输出检索结果,具体包括:
获取关键字集合
Figure BDA0002944957210000056
基于安全索引进行查询,从根节点开始;
如果存在
Figure BDA0002944957210000057
Figure BDA0002944957210000058
那么所述根节点中存在符合查询条件的数据;
然后分别对所述根节点的左右孩子节点进行查询;
如果不满足
Figure BDA0002944957210000059
Figure BDA00029449572100000510
则该节点以及以该节点为父节点的所有数据都不满足条件,这个节点以后的路径被剪枝;
如果满足
Figure BDA00029449572100000511
Figure BDA00029449572100000512
那么继续查询该节点的左右孩子节点,直到查询到叶子节点,将该叶子节点中存储的有关信息取出加入到结果集中;
以此类推,直到没有路径可走,则输出结果集。
本发明的另一目的在于提供一种支持隐私保护的论文查重系统,包括:
安全索引模块,基于平衡二叉树,每个节点使用布隆过滤器;
预处理模块,用于对待检索数据进行预处理;
转化模块,用于将汉明距离转化为数值范围和联合关键字;
生成模块,根据数值范围和联合关键字生成关键字信息;
检索模块;
输出模块,输出检索结果。
本发明的优点及积极效果为:为了保护数据的隐私性,将汉明距离范围查询转化为关键字检索,既避开了直接进行汉明距离范围查询问题,同时也保护了数据的隐私性。本文中提出的多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法这四种优化方法可以极大的降低假阳率,大大的提高正确率。本文中运用的布隆过滤器可以快速安全的进行布尔检索,极大的提高了查询效率,同时,平衡二叉树型的索引结构可以充分发挥高效的检索效果,检索时间复杂度为O(|R|log n),R为结果集合。最后,本方法可以抵抗选择性明文攻击,有效地保护了文档信息的隐私与安全。
附图说明
图1是本发明方法在不同数据集下的平均假阳率,参数r=5,f=128。
图2是本发明方法在不同数据集下的平均查询时间,参数r=5,f=128。
图3是本发明方法在不同数据集下的构建索引的大小,参数r=5,f=128。
图4是本发明方法在不同数据集下的构建索引的时间,参数r=5,f=128。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
本发明实施例提供的支持隐私保护的论文查重方法包括以下步骤:
S101:使用多基准方法、多切分方法、分类法和联合子字符串法生成对应的关键字信息;
S102:使用关键字信息构建安全索引;
S103:用户在进行汉明距离检索时,生成对应的查询信息,基于索引执行检索步骤,最终把结果返回给用户。
本发明实施例提供的支持隐私保护的论文查重方法具体包括以下步骤:
记二进制信息数据集为S={s1,s2,···,sn},n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,1≤j≤f,sij=0或者sij=1。
将汉明距离范围查询转化为数值范围查询。预先设定一个汉明距离查询阈值r,给定两个字符串si和sq,如果存在HD(si,sq)≤r,若加入一个基准字符串sp,则一定存在|HD(si,sp)-HD(sq,sp)|≤r,其中sp是随机的一个长度为f的基准字符串,si为数据所有者提供的数据库中的任一条数据,sq为查询字符串;
反之可推得,如果存在|HD(si,sp)-HD(sq,sp)|>r,则一定存在HD(si,sq)>r。所以,此方法需关注满足|HD(si,sp)-HD(sq,sp)|≤r条件的数据,HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素。该条件可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
但是满足该条件的数据不一定存在HD(si,sq)≤r,因此,所述方法存在假阳性。
基于基础方法存在假阳性,本发明提出了四种假阳率优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法,具体如下:
多基准查询法:
在基础方法中每个数据si只有一个限制条件|HD(si,sp)-HD(sq,sp)|≤r,如果有多个限制条件,需要同时满足多个条件,那么就会提升正确率,因此本发明提出多基准查询法,同时产生多个基准字符串,则会产生多个范围条件。
如果存在m个基准字符串
Figure BDA0002944957210000081
则会产生m个范围条件:HD(sq,spj)∈[HD(si,spj)-r,HD(si,spj)+r],其中1≤i≤n,1≤j≤m,需要同时满足该m个范围条件,才可认为HD(si,sq)≤r;
多切分查询法:
经过证明分析可得|HD(si,sp)-HD(sq,sp)|≤HD(si,sq),则如果|HD(si,sp)-HD(sq,sp)|越接近HD(si,sq),则限制条件|HD(si,sp)-HD(sq,sp)|≤r越接近直接限制条件HD(si,sq)≤r,将会提升判断的正确率,因此本发明提出了多切分查询法。
将字符串均切c次,则可得到关系式
Figure BDA0002944957210000082
Figure BDA0002944957210000083
其中si j为si切分后的子字符串,sp j为sp切分后的子字符串,sq j为sq切分后的子字符串。并且c越大,
Figure BDA0002944957210000084
Figure BDA0002944957210000085
越趋近于HD(si,sq),存在
Figure BDA0002944957210000086
Figure BDA0002944957210000087
则可产生一个限制条件:
Figure BDA0002944957210000088
接下来,将该限制条件转化为范围条件,
Figure BDA0002944957210000089
Figure BDA00029449572100000810
其中xj∈{0,1};
集合
Figure BDA00029449572100000811
共有2c个元素,则可产生2c个范围条件:
Figure BDA00029449572100000812
Figure BDA0002944957210000091
需要同时满足该2c个范围条件,才可认为HD(si,sq)≤r;
本发明提出既可以优化假阳率又可以提高筛选效率的分类查询法。
给定预先设定的两个值,查询阈值r,以及类包含率pc,根据类包含率设定一个类范围条件:[HDbegin,HDend],该范围条件满足
Figure BDA0002944957210000092
其中pd是数据集中任意两条字符串的汉明距离为d的概率。
每个类都存在一个基准sp,类中的元素si都满足一个范围条件:HD(si,sp)∈[HDbegin-r,HDend+r],每一个查询sq选择符合条件的类时需满足一个范围条件:HD(sq,sp)∈[HDbegin,HDend],产生类的范围条件如下:HD(si,sp)∈[HDbegin,HDend]。
产生类过程如下所述,从首个数据开始,作为第一条基准,即产生了第一个类,判断第二条数据是否满足范围条件HD(si,sp)∈[HDbegin,HDend],若满足该条件,则继续判断第三条数据是否满足第一个类的条件,若不满足,则第二条数据作为第二个基准,即产生了第二个类,以此类推,即可产生该数据集最小类集合,
此方法可根据多基准方法和多切分方法进行进一步扩展,每个类中可含有多个基准,即含有多个范围条件。
数据集中的每个数据si都遍历一次最小类集合,根据条件HD(si,sp)∈[HDbegin-r,HDend+r]找到符合条件的所有类,每个数据会找到不止一个类。
每个数据根据选中的这些类,每个类都生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)],将范围条件转化位关键字条件,枚举出每个范围条件中的值,生成关键字集合CRsi
给定一个查询数据sq同样根据条件HD(sq,sp)∈[HDbegin,HDend]遍历最小类集合,从选择的类中随机选择一个类,生成关键字
Figure BDA0002944957210000093
联合子字符串查询法:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r,如果HD(si,sq)≤r,那么字符串si和sq之间至多有r个位置不同,这r个位置至多分布在r个子字符串中,那么字符串si和sq生成的e个子字符串中至少有e-r个子字符串是完全相同的。
每个数据si根据组合原理生成
Figure BDA0002944957210000101
个联合子字符串集合
Figure BDA0002944957210000102
给定一个查询数据sq根据组合原理生成
Figure BDA0002944957210000103
个联合子字符串集合
Figure BDA0002944957210000104
构建隐私保护索引:构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器。将n个数形成的关键字集合
Figure BDA0002944957210000105
通过伪随机哈希方程SHA1将关键字映射到一个布隆过滤器中,此布隆过滤器作为根节点;
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点,然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
执行查询:给定一个查询字符串sq,查询字符串sq生成查询关键字集合
Figure BDA0002944957210000106
基于安全索引进行查询,从根节点开始,如果存在
Figure BDA0002944957210000107
Figure BDA0002944957210000108
那么就可以说明该节点中存在符合查询条件的数据,然后分别对左右孩子节点进行查询,如果两个条件有一个不满足,则说明该节点以及以该节点为父节点的所有数据都不满足条件,那么这个节点以后的路径就被剪枝,如果两个条件都满足,那么继续查询左右孩子节点,直到查询到叶子节点,则将该叶子节点中存储的有关信息取出加入到结果集中,以此类推,直到没有路径可走,则返回结果集给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种支持隐私保护的论文查重方法,其特征在于,包括以下步骤:
S1预处理待检索数据,将文本数据转化为二进制字符串;
S2获取待检索数据与数据库中任一数据的汉明距离,通过汉明距离,生成关键字信息集合,具体包括:
S21将汉明距离转化为数值范围,并优化假阳率,然后通过数值范围生成第一关键字信息;
S22将汉明距离转化为联合关键字,生成第二关键字信息;
S23通过第一关键字信息和第二关键字信息,生成关键字信息集合;
S3构建基于平衡二叉树的安全索引,其中,每个节点均使用布隆过滤器;
S4通过关键字信息集合,基于安全索引进行检索,并输出检索结果。
2.如权利要求1所述的论文查重方法,其特征在于,在步骤S2中,将汉明距离转化为数值范围的具体步骤包括:
记二进制信息数据集为S={s1,s2,…,sn},其中,n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,sij=0或者sij=1,其中1≤j≤f,j表示二进制字符串的位下标,sij表示二进制字符串si的第j位;
预设汉明距离查询阈值r,给定两个字符串si和sq,其中,si为数据库中的任一条数据,sq为待检索数据;
对于满足HD(si,sq)≤r的数据si,加入一个基准字符串sp,则满足|HD(si,sp)-HD(sq,sp)|≤r,其中,sp是随机的一个长度为f的基准字符串;HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素;
|HD(si,sp)-HD(sq,sp)|≤r,可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
3.如权利要求2所述的论文查重方法,其特征在于,在步骤S2中,优化假阳率的方法包括多基准查询法,具体包括:
对于满足HD(si,sq)≤r的数据si,加入m个基准字符串
Figure FDA0002944957200000021
则会产生m个范围条件:
Figure FDA0002944957200000022
其中,1≤i≤n,1≤j≤m;
同时满足该m个范围条件时,HD(si,sq)≤r。
4.如权利要求2所述的论文查重方法,其特征在于,在步骤S2中,优化假阳率的方法包括多切分查询法,具体包括:
将字符串si、sq、sp均切c次;
得到
Figure FDA0002944957200000023
其中,si j为si切分后的子字符串,sp j为sp切分后的子字符串,sq j为sq切分后的子字符串;
并且,c越大,
Figure FDA0002944957200000024
越趋近于HD(si,sq),存在
Figure FDA0002944957200000025
得到限制条件:
Figure FDA0002944957200000026
将限制条件转化为范围条件:
Figure FDA0002944957200000027
Figure FDA0002944957200000028
其中,xj∈{0,1},集合
Figure FDA0002944957200000029
Figure FDA00029449572000000210
共有2c个元素;
得到2c个范围条件:
Figure FDA00029449572000000211
Figure FDA00029449572000000212
同时满足2c个范围条件时,HD(si,sq)≤r。
5.如权利要求3或4任一所述的论文查重方法,其特征在于,在步骤S2中,优化假阳率的方法还包括分类查询法,具体包括:
预设汉明距离查询阈值r和类包含率pc
根据类包含率设定类范围条件:[HDbegin,HDend],类范围条件满足
Figure FDA0002944957200000031
其中,pd是数据集中任意两条字符串的汉明距离为d的概率;
每个类都存在一个基准字符串sp,类中的任一元素si都满足范围条件:HD(si,sp)∈[HDbegin-r,HDend+r];
每个待检索数据sq选择符合条件的类时满足范围条件:HD(sq,sp)∈[HDbegin,HDend];
产生类的范围条件:HD(si,sp)∈[HDbegin,HDend]。
6.如权利要求5所述的论文查重方法,其特征在于,在步骤S2中,通过数值范围生成关键字信息的步骤具体包括:
根据条件HD(si,sp)∈[HDbegin-r,HDend+r],每个数据si找到符合条件的所有类;
生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)];
得到数值范围条件后,将数值范围条件转化为关键字条件,枚举出每个数值范围条件中的值,生成关键字集合
Figure FDA0002944957200000032
此关键字集合作为字符串si的索引元素;
待检索数据sq,根据条件HD(sq,sp)∈[HDbegin,HDend]遍历最小类集合,从选择的类中随机选择一个类,生成关键字
Figure FDA0002944957200000033
此关键字集合作为字符串sq的查询元素。
7.如权利要求6所述的论文查重方法,其特征在于,在步骤S2中,将汉明距离转化为联合关键字的步骤具体包括:
将每个数据的f位按照预先随机产生的位置细合生成新的e个子字符串,其中e>r;
如果HD(si,sq)≤r,则字符串si和sq之间至多有r个位置不同;这r个位置至多分布在r个子字符串中,那么字符串si和sq生成的e个子字符串中至少有e-r个子字符串是完全相同的;
每个数据si根据组合原理生成
Figure FDA0002944957200000041
个联合子字符串集合
Figure FDA0002944957200000042
此关键字集合作为字符串si的索引元素;
待检索数据sq根据组合原理生成
Figure FDA0002944957200000043
个联合子字符串集合
Figure FDA0002944957200000044
此关键字集合作为字符串sq的查询元素。
8.如权利要求7所述的论文查重方法,其特征在于,构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器,具体包括:
将n个数形成的关键字集合
Figure FDA0002944957200000045
通过伪随机哈希方程SHA1将关键字映射到一个布隆过滤器中,此布隆过滤器作为根节点;
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点;
然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
9.如权利要求8所述的论文查重方法,其特征在于,通过关键字信息集合,基于安全索引进行检索,并输出检索结果,具体包括:
获取关键字集合
Figure FDA0002944957200000046
基于安全索引进行查询,从根节点开始;
如果存在
Figure FDA0002944957200000047
Figure FDA0002944957200000048
那么所述根节点中存在符合查询条件的数据;
然后分别对所述根节点的左右孩子节点进行查询;
如果不满足
Figure FDA0002944957200000051
Figure FDA0002944957200000052
则该节点以及以该节点为父节点的所有数据都不满足条件,这个节点以后的路径被剪枝;
如果满足
Figure FDA0002944957200000053
Figure FDA0002944957200000054
那么继续查询该节点的左右孩子节点,直到查询到叶子节点,将该叶子节点中存储的有关信息取出加入到结果集中;
以此类推,直到没有路径可走,则输出结果集。
10.一种支持隐私保护的论文查重系统,其特征在于,包括:
安全索引模块,基于平衡二叉树,每个节点使用布隆过滤器;
预处理模块,用于对待检索数据进行预处理;
转化模块,用于将汉明距离转化为数值范围和联合关键字;
生成模块,根据数值范围和联合关键字生成关键字信息;
检索模块;
输出模块,输出检索结果。
CN202110192294.2A 2021-02-19 2021-02-19 一种支持隐私保护的论文查重方法及系统 Active CN112836009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110192294.2A CN112836009B (zh) 2021-02-19 2021-02-19 一种支持隐私保护的论文查重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110192294.2A CN112836009B (zh) 2021-02-19 2021-02-19 一种支持隐私保护的论文查重方法及系统

Publications (2)

Publication Number Publication Date
CN112836009A true CN112836009A (zh) 2021-05-25
CN112836009B CN112836009B (zh) 2021-10-29

Family

ID=75933884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110192294.2A Active CN112836009B (zh) 2021-02-19 2021-02-19 一种支持隐私保护的论文查重方法及系统

Country Status (1)

Country Link
CN (1) CN112836009B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313135A (zh) * 2023-08-02 2023-12-29 东莞理工学院 一种基于属性划分的可高效重构的个人隐私保护方法
CN117763106A (zh) * 2023-12-11 2024-03-26 中国科学院文献情报中心 一种文献查重的方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218423A (zh) * 2013-04-02 2013-07-24 中国科学院信息工程研究所 数据查询方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
US20170322930A1 (en) * 2016-05-07 2017-11-09 Jacob Michael Drew Document based query and information retrieval systems and methods
US20180358027A1 (en) * 2017-06-08 2018-12-13 The Nielsen Company (Us), Llc Methods and apparatus for audio signature generation and matching
CN110176984A (zh) * 2019-05-28 2019-08-27 创意信息技术股份有限公司 一种用于安全字符串模式匹配的数据结构构造及匹配方法
CN110737912A (zh) * 2018-09-26 2020-01-31 杨思琦 一种基于同态加密的论文查重方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218423A (zh) * 2013-04-02 2013-07-24 中国科学院信息工程研究所 数据查询方法及装置
CN105786799A (zh) * 2016-03-21 2016-07-20 成都寻道科技有限公司 网络文章原创性判定方法
US20170322930A1 (en) * 2016-05-07 2017-11-09 Jacob Michael Drew Document based query and information retrieval systems and methods
US20180358027A1 (en) * 2017-06-08 2018-12-13 The Nielsen Company (Us), Llc Methods and apparatus for audio signature generation and matching
CN110737912A (zh) * 2018-09-26 2020-01-31 杨思琦 一种基于同态加密的论文查重方法
CN110176984A (zh) * 2019-05-28 2019-08-27 创意信息技术股份有限公司 一种用于安全字符串模式匹配的数据结构构造及匹配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIN LI ET AL: "Enabling Efficient Fuzzy Keyword Search over Encrypted Data in Cloud Computing", 《HTTPS://EPRINT.IACR.ORG/2009/593.PDF》 *
刘慧婷等: "基于分割的字符串相似性查找算法", 《计算机科学与探讨》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313135A (zh) * 2023-08-02 2023-12-29 东莞理工学院 一种基于属性划分的可高效重构的个人隐私保护方法
CN117313135B (zh) * 2023-08-02 2024-04-16 东莞理工学院 一种基于属性划分的可高效重构的个人隐私保护方法
CN117763106A (zh) * 2023-12-11 2024-03-26 中国科学院文献情报中心 一种文献查重的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112836009B (zh) 2021-10-29

Similar Documents

Publication Publication Date Title
CN108712366B (zh) 云环境中支持词形词义模糊检索的可搜索加密方法及系统
US20080319941A1 (en) Method and apparatus for document clustering and document sketching
CN101859323B (zh) 密文全文检索系统
CN112836009B (zh) 一种支持隐私保护的论文查重方法及系统
CN107273467A (zh) 一种支持可搜索加密的安全索引结构及其构造方法
Kardes et al. Graph-based approaches for organization entity resolution in mapreduce
Vatsalan et al. Sorted nearest neighborhood clustering for efficient private blocking
CN116579001A (zh) 一种基于区块链的多关键字可搜索加密方法
CN108563732A (zh) 一种云网络中面向加密云数据多关键词匹配排序搜索方法
Ranbaduge et al. Tree based scalable indexing for multi-party privacy-preserving record linkage
Bijral et al. Efficient fuzzy search engine with B-tree search mechanism
Hingston Using finite state automata for sequence mining
Wang et al. Fault-tolerant Verifiable Keyword Symmetric Searchable Encryption in Hybrid Cloud.
CN102855292A (zh) 密文全文检索系统的安全覆盖网构建方法及对应的全文检索方法
Yadav et al. Wavelet tree based hybrid geo-textual indexing technique for geographical search
Pal et al. Efficient search on encrypted data using bloom filter
Azman Efficient identity matching using static pruning q-gram indexing approach
Kimmett et al. Fuzzy joins in mapreduce: Edit and jaccard distance
Huang et al. Efficient fuzzy keyword search over encrypted medical and health data in hybrid cloud
Cao et al. A novel fuzzy search approach over encrypted data with improved accuracy and efficiency
Manoharan Euclidean Distance Based Similarity Measurement and Ensuing Ranking Scheme for Document Search from Outsourced Cloud Data
Wei et al. Verifiable multi-keyword fuzzy search over encrypted data in the cloud
Zhou et al. Effective approach for an extended p-skyline query
Li et al. Large-scale documents reduction based on domain ontology and E2LSH
Abdul Majeed et al. Retrieving encrypted query from encrypted database depending on symmetric encrypted cipher system method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant