CN112836009A - 一种支持隐私保护的论文查重方法及系统 - Google Patents
一种支持隐私保护的论文查重方法及系统 Download PDFInfo
- Publication number
- CN112836009A CN112836009A CN202110192294.2A CN202110192294A CN112836009A CN 112836009 A CN112836009 A CN 112836009A CN 202110192294 A CN202110192294 A CN 202110192294A CN 112836009 A CN112836009 A CN 112836009A
- Authority
- CN
- China
- Prior art keywords
- data
- query
- node
- hamming distance
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种支持隐私保护的论文查重方法及系统,首先将文本数据转化成二进制字符串,进而转化为汉明距离范围查询问题;本发明提出了将汉明距离转化为数值范围查询的基础方法,同时此方法也产生了假阳率;为了进一步优化假阳率,本发明提出了优化方法,分别为多基准查询,多切分查询,分类查询以及联合子字符串查询;将数值范围检索和关键字检索转化为联合关键字检索,生成关键字信息,进而转化为布尔检索;最后,构建安全高效索引用于查询者检索。在进行汉明距离检索时,只需要生成相应的查询信息,再基于安全索引进行检索,并将结果返回给查询用户。本发明的方法简单,高效快捷,支持静态汉明距离检索,保护了用户论文信息的隐私性。
Description
技术领域
本发明属于网络安全技术领域,尤其涉及一种支持隐私保护的论文查重方法及系统。
背景技术
论文查重是当下非常普遍的需求,论文查重系统也非常多,但是当下许多论文查重网站没有做到对论文的隐私保护,不能保证学术成果的隐私性,一旦数据被泄露,将会造成个人成果的损失,同时也助长了剽窃他人成果的不良之风,所以该严重问题有待被解决。同时汉明距离也被广泛应用到许多领域,例如临近重复检测和模式识别,汉明距离检索问题也因此得到了很多关注。在现有的技术中,还没有基于汉明距离的高效安全的范围检索算法,与本发明最接近的研究是Ren等人在2009年提出的基于编辑距离的相似关键字检索,但其方法是采用枚举的方式,存在存储空间开销大,查询关键字长度有限,范围有限的问题。如何做到在进行高效的论文查重的同时保护数据的隐私性是当下研究的难点问题之一。
综上所述,现有技术存在的问题是:无法同时保证论文查重的隐私性与高效性。难点在于:大量论文数据汇聚在一起进行查询的时候,如何能保证论文数据的安全隐私性;另一方面,在大型数据库背景下,如何做到高效的检索。已有的技术一方面是算法的安全性不够,容易泄露一些数据信息,另一方面算法计算在大规模数据量的情况下很难做到高效检索。
发明内容
针对现有技术存在的问题,本发明提供了一种支持隐私保护的论文查重方法。
本发明是这样实现的,一种支持隐私保护的论文查重方法对存储在数据库中的数据进行预处理,本发明提出了将汉明距离转化为数值范围查询的基础方法,同时此方法也产生了假阳率;为了进一步优化假阳率,本发明提出了四种优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法;然后将数值范围检索转化为联合关键字检索,生成关键字信息,进而转化为布尔检索;最后,构建安全高效索引用于查询者检索。在进行汉明距离检索时,只需要生成相应的查询信息,再基于安全索引进行检索,并将结果返回给用户。
一种支持隐私保护的论文查重方法,包括以下步骤:
S1预处理待检索数据,将文本数据转化为二进制字符串;
S2获取待检索数据与数据库中任一数据的汉明距离,通过汉明距离,生成关键字信息集合,具体包括:
S21将汉明距离转化为数值范围,并优化假阳率,然后通过数值范围生成第一关键字信息;
S22将汉明距离转化为联合关键字,生成第二关键字信息;
S23通过第一关键字信息和第二关键字信息,生成关键字信息集合;
S3构建基于平衡二叉树的安全索引,其中,每个节点均使用布隆过滤器;
S4通过关键字信息集合,基于安全索引进行检索,并输出检索结果。
进一步的,在步骤S2中,将汉明距离转化为数值范围的具体步骤包括:
记二进制信息数据集为S={s1,s2,···,sn},其中,n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,sij=0或者sij=1,其中1≤j≤f,j表示二进制字符串的位下标,sij表示二进制字符串si的第j位;
预设汉明距离查询阈值r,给定两个字符串si和sq,其中,si为数据库中的任一条数据,sq为待检索数据;
对于满足HD(si,sq)≤r的数据si,加入一个基准字符串sp,则满足|HD(si,sp)-HD(sq,sp)|≤r,其中,sp是随机的一个长度为f的基准字符串;HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素;
|HD(si,sp)-HD(sq,sp)|≤r,可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
进一步的,在步骤S2中,优化假阳率的方法包括多基准查询法,具体包括:
同时满足该m个范围条件时,HD(si,sq)≤r。
进一步的,在步骤S2中,优化假阳率的方法包括多切分查询法,具体包括:
将字符串si、sq、sp均切c次;
同时满足2c个范围条件时,HD(si,sq)≤r。
进一步的,在步骤S2中,优化假阳率的方法还包括分类查询法,具体包括:
预设汉明距离查询阈值r和类包含率pc;
其中,pd是数据集中任意两条字符串的汉明距离为d的概率;
每个类都存在一个基准字符串sp,类中的任一元素si都满足范围条件:HD(si,sp)∈[HDbegin-r,HDend+r];
每个待检索数据sq选择符合条件的类时满足范围条件:HD(sq,sp)∈[HDbegin,HDend];
产生类的范围条件:HD(si,sp)∈[HDbegin,HDend]。
进一步的,在步骤S2中,通过数值范围生成关键字信息的步骤具体包括:
根据条件HD(si,sp)∈[HDbegin-r,HDend+r],每个数据si找到符合条件的所有类;
生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)];
进一步的,在步骤S2中,将汉明距离转化为联合关键字的步骤具体包括:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r;
如果HD(si,sq)≤r,则字符串si和sq之间至多有r个位置不同;这r个位置至多分布在r个子字符串中,那么字符串si和sq生成的e个子字符串中至少有e-r个子字符串是完全相同的;
进一步的,构建基于平衡二叉树的安全索引,每个节点使用布隆过滤器,具体包括:
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点;
然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
进一步的,通过关键字信息集合,基于安全索引进行检索,并输出检索结果,具体包括:
然后分别对所述根节点的左右孩子节点进行查询;
以此类推,直到没有路径可走,则输出结果集。
本发明的另一目的在于提供一种支持隐私保护的论文查重系统,包括:
安全索引模块,基于平衡二叉树,每个节点使用布隆过滤器;
预处理模块,用于对待检索数据进行预处理;
转化模块,用于将汉明距离转化为数值范围和联合关键字;
生成模块,根据数值范围和联合关键字生成关键字信息;
检索模块;
输出模块,输出检索结果。
本发明的优点及积极效果为:为了保护数据的隐私性,将汉明距离范围查询转化为关键字检索,既避开了直接进行汉明距离范围查询问题,同时也保护了数据的隐私性。本文中提出的多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法这四种优化方法可以极大的降低假阳率,大大的提高正确率。本文中运用的布隆过滤器可以快速安全的进行布尔检索,极大的提高了查询效率,同时,平衡二叉树型的索引结构可以充分发挥高效的检索效果,检索时间复杂度为O(|R|log n),R为结果集合。最后,本方法可以抵抗选择性明文攻击,有效地保护了文档信息的隐私与安全。
附图说明
图1是本发明方法在不同数据集下的平均假阳率,参数r=5,f=128。
图2是本发明方法在不同数据集下的平均查询时间,参数r=5,f=128。
图3是本发明方法在不同数据集下的构建索引的大小,参数r=5,f=128。
图4是本发明方法在不同数据集下的构建索引的时间,参数r=5,f=128。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图对本发明的应用原理作详细的描述。
本发明实施例提供的支持隐私保护的论文查重方法包括以下步骤:
S101:使用多基准方法、多切分方法、分类法和联合子字符串法生成对应的关键字信息;
S102:使用关键字信息构建安全索引;
S103:用户在进行汉明距离检索时,生成对应的查询信息,基于索引执行检索步骤,最终把结果返回给用户。
本发明实施例提供的支持隐私保护的论文查重方法具体包括以下步骤:
记二进制信息数据集为S={s1,s2,···,sn},n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,1≤j≤f,sij=0或者sij=1。
将汉明距离范围查询转化为数值范围查询。预先设定一个汉明距离查询阈值r,给定两个字符串si和sq,如果存在HD(si,sq)≤r,若加入一个基准字符串sp,则一定存在|HD(si,sp)-HD(sq,sp)|≤r,其中sp是随机的一个长度为f的基准字符串,si为数据所有者提供的数据库中的任一条数据,sq为查询字符串;
反之可推得,如果存在|HD(si,sp)-HD(sq,sp)|>r,则一定存在HD(si,sq)>r。所以,此方法需关注满足|HD(si,sp)-HD(sq,sp)|≤r条件的数据,HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素。该条件可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
但是满足该条件的数据不一定存在HD(si,sq)≤r,因此,所述方法存在假阳性。
基于基础方法存在假阳性,本发明提出了四种假阳率优化方法,分别为多基准查询法,多切分查询法,分类查询法以及联合子字符串查询法,具体如下:
多基准查询法:
在基础方法中每个数据si只有一个限制条件|HD(si,sp)-HD(sq,sp)|≤r,如果有多个限制条件,需要同时满足多个条件,那么就会提升正确率,因此本发明提出多基准查询法,同时产生多个基准字符串,则会产生多个范围条件。
如果存在m个基准字符串则会产生m个范围条件:HD(sq,spj)∈[HD(si,spj)-r,HD(si,spj)+r],其中1≤i≤n,1≤j≤m,需要同时满足该m个范围条件,才可认为HD(si,sq)≤r;
多切分查询法:
经过证明分析可得|HD(si,sp)-HD(sq,sp)|≤HD(si,sq),则如果|HD(si,sp)-HD(sq,sp)|越接近HD(si,sq),则限制条件|HD(si,sp)-HD(sq,sp)|≤r越接近直接限制条件HD(si,sq)≤r,将会提升判断的正确率,因此本发明提出了多切分查询法。
需要同时满足该2c个范围条件,才可认为HD(si,sq)≤r;
本发明提出既可以优化假阳率又可以提高筛选效率的分类查询法。
每个类都存在一个基准sp,类中的元素si都满足一个范围条件:HD(si,sp)∈[HDbegin-r,HDend+r],每一个查询sq选择符合条件的类时需满足一个范围条件:HD(sq,sp)∈[HDbegin,HDend],产生类的范围条件如下:HD(si,sp)∈[HDbegin,HDend]。
产生类过程如下所述,从首个数据开始,作为第一条基准,即产生了第一个类,判断第二条数据是否满足范围条件HD(si,sp)∈[HDbegin,HDend],若满足该条件,则继续判断第三条数据是否满足第一个类的条件,若不满足,则第二条数据作为第二个基准,即产生了第二个类,以此类推,即可产生该数据集最小类集合,
此方法可根据多基准方法和多切分方法进行进一步扩展,每个类中可含有多个基准,即含有多个范围条件。
数据集中的每个数据si都遍历一次最小类集合,根据条件HD(si,sp)∈[HDbegin-r,HDend+r]找到符合条件的所有类,每个数据会找到不止一个类。
每个数据根据选中的这些类,每个类都生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)],将范围条件转化位关键字条件,枚举出每个范围条件中的值,生成关键字集合CRsi;
联合子字符串查询法:
将每个数据的f位按照预先随机产生的位置组合生成新的e个子字符串,其中e>r,如果HD(si,sq)≤r,那么字符串si和sq之间至多有r个位置不同,这r个位置至多分布在r个子字符串中,那么字符串si和sq生成的e个子字符串中至少有e-r个子字符串是完全相同的。
然后将n个数一分为二,一半数据的关键字信息映射到一个新的布隆过滤器中,一半数据的关键字信息映射到另一个新的布隆过滤器中,这两个新的布隆过滤器作为根节点的左节点和右节点,然后分别以这两个新的布隆过滤器作为新的基点,再生成以这两个布隆过滤器为父节点的左右孩子节点,以此类推,直到每个布隆过滤器中只存储一个数的关键字信息,则该布隆过滤器就作为叶子节点。
执行查询:给定一个查询字符串sq,查询字符串sq生成查询关键字集合基于安全索引进行查询,从根节点开始,如果存在和那么就可以说明该节点中存在符合查询条件的数据,然后分别对左右孩子节点进行查询,如果两个条件有一个不满足,则说明该节点以及以该节点为父节点的所有数据都不满足条件,那么这个节点以后的路径就被剪枝,如果两个条件都满足,那么继续查询左右孩子节点,直到查询到叶子节点,则将该叶子节点中存储的有关信息取出加入到结果集中,以此类推,直到没有路径可走,则返回结果集给用户。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种支持隐私保护的论文查重方法,其特征在于,包括以下步骤:
S1预处理待检索数据,将文本数据转化为二进制字符串;
S2获取待检索数据与数据库中任一数据的汉明距离,通过汉明距离,生成关键字信息集合,具体包括:
S21将汉明距离转化为数值范围,并优化假阳率,然后通过数值范围生成第一关键字信息;
S22将汉明距离转化为联合关键字,生成第二关键字信息;
S23通过第一关键字信息和第二关键字信息,生成关键字信息集合;
S3构建基于平衡二叉树的安全索引,其中,每个节点均使用布隆过滤器;
S4通过关键字信息集合,基于安全索引进行检索,并输出检索结果。
2.如权利要求1所述的论文查重方法,其特征在于,在步骤S2中,将汉明距离转化为数值范围的具体步骤包括:
记二进制信息数据集为S={s1,s2,…,sn},其中,n为数据的个数,si为一个长度为f的二进制字符串,且对任意的1≤i≤n,sij=0或者sij=1,其中1≤j≤f,j表示二进制字符串的位下标,sij表示二进制字符串si的第j位;
预设汉明距离查询阈值r,给定两个字符串si和sq,其中,si为数据库中的任一条数据,sq为待检索数据;
对于满足HD(si,sq)≤r的数据si,加入一个基准字符串sp,则满足|HD(si,sp)-HD(sq,sp)|≤r,其中,sp是随机的一个长度为f的基准字符串;HD(si,sp)作为si的索引元素,HD(sq,sp)作为sq的检索元素;
|HD(si,sp)-HD(sq,sp)|≤r,可转化为数值范围条件:HD(sq,sp)∈[HD(si,sp)-r,HD(si,sp)+r]。
6.如权利要求5所述的论文查重方法,其特征在于,在步骤S2中,通过数值范围生成关键字信息的步骤具体包括:
根据条件HD(si,sp)∈[HDbegin-r,HDend+r],每个数据si找到符合条件的所有类;
生成数值范围条件:HD(sq,sp)∈[max(HDbegin,HD(si,sp)-r),min(HDend,HD(si,sp)+r)];
10.一种支持隐私保护的论文查重系统,其特征在于,包括:
安全索引模块,基于平衡二叉树,每个节点使用布隆过滤器;
预处理模块,用于对待检索数据进行预处理;
转化模块,用于将汉明距离转化为数值范围和联合关键字;
生成模块,根据数值范围和联合关键字生成关键字信息;
检索模块;
输出模块,输出检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192294.2A CN112836009B (zh) | 2021-02-19 | 2021-02-19 | 一种支持隐私保护的论文查重方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110192294.2A CN112836009B (zh) | 2021-02-19 | 2021-02-19 | 一种支持隐私保护的论文查重方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112836009A true CN112836009A (zh) | 2021-05-25 |
CN112836009B CN112836009B (zh) | 2021-10-29 |
Family
ID=75933884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110192294.2A Active CN112836009B (zh) | 2021-02-19 | 2021-02-19 | 一种支持隐私保护的论文查重方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112836009B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313135A (zh) * | 2023-08-02 | 2023-12-29 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
CN117763106A (zh) * | 2023-12-11 | 2024-03-26 | 中国科学院文献情报中心 | 一种文献查重的方法、装置、存储介质及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218423A (zh) * | 2013-04-02 | 2013-07-24 | 中国科学院信息工程研究所 | 数据查询方法及装置 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
US20170322930A1 (en) * | 2016-05-07 | 2017-11-09 | Jacob Michael Drew | Document based query and information retrieval systems and methods |
US20180358027A1 (en) * | 2017-06-08 | 2018-12-13 | The Nielsen Company (Us), Llc | Methods and apparatus for audio signature generation and matching |
CN110176984A (zh) * | 2019-05-28 | 2019-08-27 | 创意信息技术股份有限公司 | 一种用于安全字符串模式匹配的数据结构构造及匹配方法 |
CN110737912A (zh) * | 2018-09-26 | 2020-01-31 | 杨思琦 | 一种基于同态加密的论文查重方法 |
-
2021
- 2021-02-19 CN CN202110192294.2A patent/CN112836009B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218423A (zh) * | 2013-04-02 | 2013-07-24 | 中国科学院信息工程研究所 | 数据查询方法及装置 |
CN105786799A (zh) * | 2016-03-21 | 2016-07-20 | 成都寻道科技有限公司 | 网络文章原创性判定方法 |
US20170322930A1 (en) * | 2016-05-07 | 2017-11-09 | Jacob Michael Drew | Document based query and information retrieval systems and methods |
US20180358027A1 (en) * | 2017-06-08 | 2018-12-13 | The Nielsen Company (Us), Llc | Methods and apparatus for audio signature generation and matching |
CN110737912A (zh) * | 2018-09-26 | 2020-01-31 | 杨思琦 | 一种基于同态加密的论文查重方法 |
CN110176984A (zh) * | 2019-05-28 | 2019-08-27 | 创意信息技术股份有限公司 | 一种用于安全字符串模式匹配的数据结构构造及匹配方法 |
Non-Patent Citations (2)
Title |
---|
JIN LI ET AL: "Enabling Efficient Fuzzy Keyword Search over Encrypted Data in Cloud Computing", 《HTTPS://EPRINT.IACR.ORG/2009/593.PDF》 * |
刘慧婷等: "基于分割的字符串相似性查找算法", 《计算机科学与探讨》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313135A (zh) * | 2023-08-02 | 2023-12-29 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
CN117313135B (zh) * | 2023-08-02 | 2024-04-16 | 东莞理工学院 | 一种基于属性划分的可高效重构的个人隐私保护方法 |
CN117763106A (zh) * | 2023-12-11 | 2024-03-26 | 中国科学院文献情报中心 | 一种文献查重的方法、装置、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112836009B (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108712366B (zh) | 云环境中支持词形词义模糊检索的可搜索加密方法及系统 | |
US20080319941A1 (en) | Method and apparatus for document clustering and document sketching | |
CN101859323B (zh) | 密文全文检索系统 | |
CN112836009B (zh) | 一种支持隐私保护的论文查重方法及系统 | |
CN107273467A (zh) | 一种支持可搜索加密的安全索引结构及其构造方法 | |
Kardes et al. | Graph-based approaches for organization entity resolution in mapreduce | |
Vatsalan et al. | Sorted nearest neighborhood clustering for efficient private blocking | |
CN116579001A (zh) | 一种基于区块链的多关键字可搜索加密方法 | |
CN108563732A (zh) | 一种云网络中面向加密云数据多关键词匹配排序搜索方法 | |
Ranbaduge et al. | Tree based scalable indexing for multi-party privacy-preserving record linkage | |
Bijral et al. | Efficient fuzzy search engine with B-tree search mechanism | |
Hingston | Using finite state automata for sequence mining | |
Wang et al. | Fault-tolerant Verifiable Keyword Symmetric Searchable Encryption in Hybrid Cloud. | |
CN102855292A (zh) | 密文全文检索系统的安全覆盖网构建方法及对应的全文检索方法 | |
Yadav et al. | Wavelet tree based hybrid geo-textual indexing technique for geographical search | |
Pal et al. | Efficient search on encrypted data using bloom filter | |
Azman | Efficient identity matching using static pruning q-gram indexing approach | |
Kimmett et al. | Fuzzy joins in mapreduce: Edit and jaccard distance | |
Huang et al. | Efficient fuzzy keyword search over encrypted medical and health data in hybrid cloud | |
Cao et al. | A novel fuzzy search approach over encrypted data with improved accuracy and efficiency | |
Manoharan | Euclidean Distance Based Similarity Measurement and Ensuing Ranking Scheme for Document Search from Outsourced Cloud Data | |
Wei et al. | Verifiable multi-keyword fuzzy search over encrypted data in the cloud | |
Zhou et al. | Effective approach for an extended p-skyline query | |
Li et al. | Large-scale documents reduction based on domain ontology and E2LSH | |
Abdul Majeed et al. | Retrieving encrypted query from encrypted database depending on symmetric encrypted cipher system method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |