CN113642038A - 一种可搜索加密方法、装置、设备及存储介质 - Google Patents

一种可搜索加密方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113642038A
CN113642038A CN202110907992.6A CN202110907992A CN113642038A CN 113642038 A CN113642038 A CN 113642038A CN 202110907992 A CN202110907992 A CN 202110907992A CN 113642038 A CN113642038 A CN 113642038A
Authority
CN
China
Prior art keywords
document data
keyword
idf
cloud server
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110907992.6A
Other languages
English (en)
Other versions
CN113642038B (zh
Inventor
杨涛
范渊
吴卓群
王欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202110907992.6A priority Critical patent/CN113642038B/zh
Publication of CN113642038A publication Critical patent/CN113642038A/zh
Application granted granted Critical
Publication of CN113642038B publication Critical patent/CN113642038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0428Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the data content is protected, e.g. by encrypting or encapsulating the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本申请公开了一种可搜索加密方法、装置、设备及存储介质,包括:用户端利用TF‑IDF算法对文档数据进行处理得到关键词,根据TF‑IDF值对关键词进行排序,得到关键词集合及TF‑IDF值集合;用户端利用关键词集合及TF‑IDF值集合构建安全索引,将加密后的文档数据和安全索引发送至云端服务器;云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部安全索引中确定出包含待检索关键词的目标安全索引及加密目标文档数据;云端服务器分别从各个目标安全索引的TF‑IDF值集合中提取与待检索关键词对应的TF‑IDF值,根据提取到的TF‑IDF值对加密目标文档数据排序,确定返回的加密目标文档数据。能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。

Description

一种可搜索加密方法、装置、设备及存储介质
技术领域
本发明涉及计算机技术领域,特别涉及一种可搜索加密方法、装置、设备及存储介质。
背景技术
随着互联网技术的不断发展与普及,日常产生的数据越来越多,为减少本地计算成本和终端存储开销,用户更倾向于将自己的数据外包给拥有强计算能力和大容量的远程云存储服务器。虽然云服务给人们带来了诸多便利,但也存在着一定的风险。用户将数据以明文形式存储在远端云服务器中,其中可能包含一些例如照片、简历、工作文件、个人身份财产信息等敏感数据。由于无法对远端存储数据进行保护控制且云存储服务器可能会遭受云端管理员窥视和攻击者攻击的风险,因此数据安全和用户隐私性就受到了威胁。例如较为轰动的“iCloud”明星隐私照片泄露,AWS S3存储桶权限设置失当导致至少220万道琼斯公司客户信息半公开,使得免费AWS账户都可以访问里面内容。同年7月,Verizon公司超过1400万用户个人资料因第三方供应商云服务器安全配置不当遭到外泄,数据所属的云储备被配置为允许公开访问并可完全下载。同年9月,因承包商问题,导致美国陆军及NSA情报平台绝密文件暴露在Amazon S3服务器上。
传统的解决方法是将文档加密后外包存储至云服务器,当要使用时再将其下载解密并搜索相关内容。但这样的做法会因为下载较多无用文件而造成巨大的网络时延,同时将加密文件下载解密搜索也浪费了大量的本地CPU资源。云服务器具有强大的计算能力,因此人们更倾向于将密钥发送给云服务器在云服务器上完成解密检索功能,并查询到的内容返回至用户端,但由于云服务器具有“诚实且好奇”的特性,仍然存在隐私遭到泄露的可能。因此,如何在保证数据安全的情况下提高检索效率及精确度是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种可搜索加密方法、装置、设备及存储介质,能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。其具体方案如下:
本申请的第一方面提供了一种可搜索加密方法,包括:
用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;
所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;
所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;
所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
可选的,所述根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合,包括:
根据TF-IDF值对所述关键词进行排序,从排序后的所述关键词中筛选出TF-IDF值大于第一预设阈值的所述关键词,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;
相应的,所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,包括:
所述用户端利用对称加密密钥对所述关键词集合进行加密,并利用加密关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引;其中,所述对称加密密钥为对所述文档数据进行对称加密的密钥。
可选的,所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据之前,还包括:
所述用户端获取待检索关键词,通过WordNet方式对所述待检索关键词进行语义扩展,得到与所述待检索关键词对应的近义词集合,并分别计算所述近义词集合中每个近义词与所述待检测关键词的相似度,得到与所述近义词集合对应的相似度集合,以及利用所述近义词集合及所述相似度集合生成与所述待检索关键词对应的检索陷门。
可选的,所述利用所述近义词集合及所述相似度集合生成与所述待检索关键词对应的检索陷门,包括:
从所述近义词集合中筛选出相似度大于第二预设阈值的所述近义词,以得到筛选近义词集合及筛选相似度集合;
利用所述对称加密密钥对所述筛选近义词集合进行加密,并利用加密筛选近义词集合及所述筛选相似度集合生成与所述待检索关键词对应的检索陷门。
可选的,所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据,包括:
所述云端服务器从所述检索陷门中提取出加密筛选近义词集合及从各个所述安全索引中提取加密关键词集合,利用布隆过滤器分别对提取到的各个加密关键词集合及加密筛选近义词集合进行处理,得到加密筛选近义词集合中的目标近义词对应的目标安全索引及相应的加密目标文档数据;其中,所述目标近义词为至少在一个所述云端服务器存储的所述安全索引中存在的近义词。
可选的,所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据,包括:
所述云端服务器从各个所述目标近义词的各个所述目标安全索引的所述TF-IDF值集合中提取与该目标近义词对应的TF-IDF值及从所述检索陷门的筛选相似度集合中提取与该目标近义词对应的相似度,并根据提取到的全部TF-IDF值及相应的相似度对全部所述加密目标文档数据进行排序,以确定返回至所述用户端的所述加密目标文档数据。
可选的,所述可搜索加密方法,还包括:
所述云端服务器将确定返回至所述用户端的所述加密目标文档数据返回至所述用户端;
所述用户端利用所述对称加密密钥对接收到的加密目标文档数据进行解密。
本申请的第二方面提供了一种可搜索加密装置,包括:
关键词信息获取模块,用户端用于利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;;
安全索引构建模块,所述用户端用于利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;
检索模块,所述云端服务器用于利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;
数据返回模块,所述云端服务器用于分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
本申请的第三方面提供了一种电子设备,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现前述可搜索加密方法。
本申请的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现前述可搜索加密方法。
本申请中,先由用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;然后所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;接着所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;最后所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。可见,本申请用户端利用TF-IDF算法构建包含关键词集合及相应的TF-IDF值集合的安全索引,并将文档数据加密后与安全索引一同存储至云服务器。在进行检索时,云端服务器基于利用检索陷门筛选出的包含所述待检索关键词的目标安全索引中的TF-IDF值对加密目标文档数据进行排序。能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种可搜索加密方法流程图;
图2为本申请提供的一种具体的可搜索加密方法流程图;
图3为本申请提供的一种具体的可搜索加密方法示意图;
图4为本申请提供的一种用户端上传及查找文档数据的界面示意图;
图5为本申请提供的一种云端服务器监听用户端请求的代码实现结果;
图6为本申请提供的一种基于WordNet方式的近义词拓示意图;
图7为本申请提供的一种具体的布隆过滤器示意图;
图8为本申请提供的一种可搜索加密装置结构示意图;
图9为本申请提供的一种可搜索加密电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的云服务器中的数据大多以明文形式存储,当云服务器遭到攻击可能造成用户存储的数据泄露,且用户在对存储数据进行检索时速度较慢。针对上述技术缺陷,本申请提供一种可搜索加密方案,用户端利用TF-IDF算法构建包含关键词集合及相应的TF-IDF值集合的安全索引,并将文档数据加密后与安全索引一同存储至云服务器。在进行检索时,云端服务器基于利用检索陷门筛选出的包含所述待检索关键词的目标安全索引中的TF-IDF值对加密目标文档数据进行排序。能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。
图1为本申请实施例提供的一种可搜索加密方法流程图。参见图1所示,该可搜索加密方法包括:
S11:用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合。
S12:所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器。
本实施例中,步骤S11和步骤S12为系统的初始阶段,在用户端进行安全索引生成及密文上传。首先用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合。然后所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器。具体的,所述用户端根据TF-IDF值对所述关键词进行排序,从排序后的所述关键词中筛选出TF-IDF值大于第一预设阈值的所述关键词,以得到所述文档数据的关键词集合及相应的TF-IDF值集合。相应的,所述用户端利用对称加密密钥对所述关键词集合进行加密,并利用加密关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引。其中,所述对称加密密钥为对所述文档数据进行对称加密的密钥,为数据拥有者在用户端使用keyGen()方法,根据当前系统时间随机生成一个128bit的对称密钥。将文档和关键词索引通过对称加密后变成密文数据,发送至云服务器端以密文形式进行存储。基于AES算法的安全性,云服务器在不知道对称密钥的情况下,是无法对数据进行解密的。
本实施例中,用户所要上传到云端的文档进行关键词提取并根据TF-IDF算法计算每个词语在全文所占权重按照一定阈值内进行排序选取形成关键词集合。用户端提取文档中的所有单词,并计算每个单词的词频TF和逆文件频率IDF,计算TF-IDF=TF*IDF,按照TF-IDF的值对文档中提取的单词进行排序,选取前σ个单词作为关键词集合W={w1,w2,...,wσ},并将关键词的TF-IDF值生成与关键词集合相对应的TF-IDF集合T={t1,t2,...,tσ}。使用AES算法的对称密钥R对明文文档数据M进行加密生成相应的密文数据C。再使用R对关键词集合W={w1,w2,...,wσ}进行加密生成相应的密文关键词数据S={HM(w1),HM(w2),...,HM(wσ)},结合TF-IDF集合生成安全索引index={{HM(w1),HM(w2),...,HM(wσ)},{t1,t2,...,tσ}},最后将生成的密文和安全索引index上传至云服务端。
S13:所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据。
本实施例中,所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据。需要说明的是,在所述云端服务器进行检索前,在进行搜索前需要通过RSA算法来对用户身份进行鉴别,当用户身份通过验证后,将数据拥有者的AES R通过RSA加密后发送给要进行搜索操作的用户。之后授权用户使用自己的RSA私钥进行解密得到R,以使得所述用户端最终使用R解密密文数据,得到明文文档数据。
S14:所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
本实施例中,所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。也即根据TF-IDF值对检索结果进行排序,向用户返回与待检索关键词相似度最高的前几个文档数据。最终,所述云端服务器将确定返回至所述用户端的所述加密目标文档数据返回至所述用户端,所述用户端利用所述对称加密密钥对接收到的加密目标文档数据进行解密。
可见,本申请实施例先由用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;然后所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;接着所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;最后所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。本申请实施例用户端利用TF-IDF算法构建包含关键词集合及相应的TF-IDF值集合的安全索引,并将文档数据加密后与安全索引一同存储至云服务器。在进行检索时,云端服务器基于利用检索陷门筛选出的包含所述待检索关键词的目标安全索引中的TF-IDF值对加密目标文档数据进行排序。能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。
图2和图3分别为本申请实施例提供的一种具体的可搜索加密方法流程图及示意图。参见图2和图3所示,该可搜索加密方法包括:
S21:用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合。
S22:所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器。
本实施例中,关于上述步骤S21和步骤S22的具体过程,可以参考前述实施例中公开的相应内容,在此不再进行赘述。
S23:所述用户端获取待检索关键词,通过WordNet方式对所述待检索关键词进行语义扩展,得到与所述待检索关键词对应的近义词集合,并分别计算所述近义词集合中每个近义词与所述待检测关键词的相似度,得到与所述近义词集合对应的相似度集合。
S24:所述用户端从所述近义词集合中筛选出相似度大于第二预设阈值的所述近义词,以得到筛选近义词集合及筛选相似度集合,利用对称加密密钥对所述筛选近义词集合进行加密,并利用加密筛选近义词集合及所述筛选相似度集合生成与所述待检索关键词对应的检索陷门。
本实施例中,步骤S23和步骤S24为检索陷门的生成过程,该过程引入基于WordNet语义扩展方法,根据用户输入关键词在密文中所占权重对搜索结果节形排序,为用户提供更舒适的搜索结果。具体来说,用户在用户端处输入所要查询的关键词,例如用户可以在图4所示的上传及查找文档数据的界面进行输入,云服务器监听用户端的检索请求,代码实现如图5所示。
用户端在获取到输入关键词,首先使用WordNet进行语义扩展得到相似词集合。WordNet主要包含有动词、名词、形容词、副词四种词性,用户输入的关键词可能归属与这四种词性的一种或多种。根据用户输入的关键词扩展出相应的近义词集合O={k,o1,o2,...,on},其拓展过程如图6所示。然后计算扩展后的近义词集合中O={o1,o2,...,on}的近义词与所输入关键词的相似度,通过如下函数来实现:zi=sim(k,oi)=2*IC(F(k)∩F(wi))/IC(F(k))+IC(F(oi))。最终得到一个相似度集合并将其排序Z={z1,z2,...,zn},同时选取相似度最大的前ω个近义词组成新的近义词集合O={o1,o2,...,oω}和新的相似度集合Z={z1,z2,...,zω}。利用数据拥护者的对称加密密钥R对近义词集合O={o1,o2,...,oω}加密后生成HM(O)={HM(o1),HM(o2),...,HM(oω)}。然后和相似度集合Z={z1,z2,...,zω}组成陷门Trapdoor={HM(O),Z}并上传至云服务器进行搜索。上述过程,用户在需要检索数据时,所生成的陷门也是通过AES算法进行加密的。这样的存储加密密文方案,即使云服务器被黑客攻陷或被云管理员窃取存储数据,在得到密文的情况下也是无法解密得到明文数据,有效保护了在云服务器上数据的存储安全,为用户提供了一个高隐私性的存储环境。
S25:所述云端服务器从所述检索陷门中提取出加密筛选近义词集合及从各个所述安全索引中提取加密关键词集合,利用布隆过滤器分别对提取到的各个加密关键词集合及加密筛选近义词集合进行处理,得到加密筛选近义词集合中的目标近义词对应的目标安全索引及相应的加密目标文档数据;其中,所述目标近义词为至少在一个所述云端服务器存储的所述安全索引中存在的近义词。
S26:所述云端服务器从各个所述目标近义词的各个所述目标安全索引的所述TF-IDF值集合中提取与该目标近义词对应的TF-IDF值及从所述检索陷门的筛选相似度集合中提取与该目标近义词对应的相似度,并根据提取到的全部TF-IDF值及相应的相似度对全部所述加密目标文档数据进行排序,以确定返回至所述用户端的所述加密目标文档数据。
本实施例中,为提升检索效率,在数据检索时引入了布隆过滤器来加快数据的检索效率。布隆过滤器的优点是空间效率和查询时间都远远超过一般的算法,布隆过滤器存储空间和插入、查询时间都是常数。另外,散列函数相互之间没有关系,方便由硬件并行实现。所述云端服务器首先从接收到的检索陷门Trapdoor={HM(O),Z}中提取出加密筛选近义词集合HM(O)={HM(o1),HM(o2),...,HM(oω)},再从数据库中提取出全部安全索引中加密后关键词集合S={HM(w1),HM(w2),...,HM(wσ)},组成检索集合I={S1,S2,...,Sn}。然后遍历检索集I={S1,S2,...,Sn},提取出加密后关键词集合S={HM(w1),HM(w2),...,HM(wσ)}。接着利用布隆过滤器算法初始化一个n Bit长度的数组List,并将每个比特位初始化为0。选择三种字符串hash算法BKDRHash、APHash、DJBHash来对S={HM(w1),HM(w2),...,HM(wσ)}集合中的每个元素进行hash,并将运算结果随机映射到数组List中,将映射到的数组相应位置的值设为1。通过遍历近义词集合HM(O)={HM(o1),HM(o2),...,HM(oω)},提取出集合中的HM(oi),进行BKDRHash、APHash、DJBHash三种哈希运算,并将结果映射到布隆过滤器相应位置,重复直至近义词集合遍历完。若三个位置的数值都为1,则证明该文档数据大概率存在此关键词,若返回位置存在大于等于1个数值为0的位置,则证明该关键词不存在于该文档,上述布隆过滤器大致过程如图7所示。
在此基础上,将每个目标近义词对应的安全索引中的TD-IDF值和该目标近义词在检索陷门中相应的相似度值相乘得到STI=ti*zi,得到与该目标近义词对应的集合Order={(C1,STI1),(C2,STI2),...,(Cn,STIn)}。直到遍历完检索索引I={S1,S2,...,Sn}。将所有目标近义词的集合Order以sim-TD-IDF的值从大到小进行排序,根据排序选取所需文档数据返回值至用户端。
可见,本申请实施例通过引入关键词基于WordNet相似词拓展及关键词相似度计算,同时使用布隆过滤器、TF-IDF值计算来对密文进行模糊检索并对检索结果进行排序,极大提高了支持排序的模糊关键词可搜索加密的检索效率,可以快速返回所要检索的结果为用户提供更好的使用感受。同时为用户提供一个大容量、高安全性、可搜索的、兼顾数据安全和密文可搜索性的云服务器存储环境。
参见图8所示,本申请实施例还相应公开了一种可搜索加密装置,包括:
关键词信息获取模块11,用户端用于利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;;
安全索引构建模块12,所述用户端用于利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;
检索模块13,所述云端服务器用于利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;
数据返回模块14,所述云端服务器用于分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
可见,本申请实施例先由用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;然后所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;接着所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;最后所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。本申请实施例用户端利用TF-IDF算法构建包含关键词集合及相应的TF-IDF值集合的安全索引,并将文档数据加密后与安全索引一同存储至云服务器。在进行检索时,云端服务器基于利用检索陷门筛选出的包含所述待检索关键词的目标安全索引中的TF-IDF值对加密目标文档数据进行排序。能够根据待检索关键词搜索密文且支持利用语义权重进行密文排序,提高检索精度。
在一些具体实施例中,所述可搜索加密装置还包括:
陷门生成模块,所述用户端用于获取待检索关键词,通过WordNet方式对所述待检索关键词进行语义扩展,得到与所述待检索关键词对应的近义词集合,并分别计算所述近义词集合中每个近义词与所述待检测关键词的相似度,得到与所述近义词集合对应的相似度集合,以及利用所述近义词集合及所述相似度集合生成与所述待检索关键词对应的检索陷门;
解密模块,用于所述云端服务器将确定返回至所述用户端的所述加密目标文档数据返回至所述用户端;所述用户端利用所述对称加密密钥对接收到的加密目标文档数据进行解密。
进一步的,本申请实施例还提供了一种电子设备。图9是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图9为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的可搜索加密方法中的相关步骤。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222及数据223等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,以实现处理器21对存储器22中海量数据223的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的可搜索加密方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223可以包括电子设备20收集到的文档数据。
进一步的,本申请实施例还公开了一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器加载并执行时,实现前述任一实施例公开的可搜索加密方法步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个…”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的可搜索加密方法、装置、设备及存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种可搜索加密方法,其特征在于,包括:
用户端利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;
所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;
所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;
所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
2.根据权利要求1所述的可搜索加密方法,其特征在于,所述根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合,包括:
根据TF-IDF值对所述关键词进行排序,从排序后的所述关键词中筛选出TF-IDF值大于第一预设阈值的所述关键词,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;
相应的,所述用户端利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,包括:
所述用户端利用对称加密密钥对所述关键词集合进行加密,并利用加密关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引;其中,所述对称加密密钥为对所述文档数据进行对称加密的密钥。
3.根据权利要求2所述的可搜索加密方法,其特征在于,所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据之前,还包括:
所述用户端获取待检索关键词,通过WordNet方式对所述待检索关键词进行语义扩展,得到与所述待检索关键词对应的近义词集合,并分别计算所述近义词集合中每个近义词与所述待检测关键词的相似度,得到与所述近义词集合对应的相似度集合,以及利用所述近义词集合及所述相似度集合生成与所述待检索关键词对应的检索陷门。
4.根据权利要求3所述的可搜索加密方法,其特征在于,所述利用所述近义词集合及所述相似度集合生成与所述待检索关键词对应的检索陷门,包括:
从所述近义词集合中筛选出相似度大于第二预设阈值的所述近义词,以得到筛选近义词集合及筛选相似度集合;
利用所述对称加密密钥对所述筛选近义词集合进行加密,并利用加密筛选近义词集合及所述筛选相似度集合生成与所述待检索关键词对应的检索陷门。
5.根据权利要求4所述的可搜索加密方法,其特征在于,所述云端服务器利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据,包括:
所述云端服务器从所述检索陷门中提取出加密筛选近义词集合及从各个所述安全索引中提取加密关键词集合,利用布隆过滤器分别对提取到的各个加密关键词集合及加密筛选近义词集合进行处理,得到加密筛选近义词集合中的目标近义词对应的目标安全索引及相应的加密目标文档数据;其中,所述目标近义词为至少在一个所述云端服务器存储的所述安全索引中存在的近义词。
6.根据权利要求5所述的可搜索加密方法,其特征在于,所述云端服务器分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据,包括:
所述云端服务器从各个所述目标近义词的各个所述目标安全索引的所述TF-IDF值集合中提取与该目标近义词对应的TF-IDF值及从所述检索陷门的筛选相似度集合中提取与该目标近义词对应的相似度,并根据提取到的全部TF-IDF值及相应的相似度对全部所述加密目标文档数据进行排序,以确定返回至所述用户端的所述加密目标文档数据。
7.根据权利要求1至6任一项所述的可搜索加密方法,其特征在于,还包括:
所述云端服务器将确定返回至所述用户端的所述加密目标文档数据返回至所述用户端;
所述用户端利用所述对称加密密钥对接收到的加密目标文档数据进行解密。
8.一种可搜索加密装置,其特征在于,包括:
关键词信息获取模块,用户端用于利用TF-IDF算法对文档数据进行处理得到相应的关键词,根据TF-IDF值对所述关键词进行排序,以得到所述文档数据的关键词集合及相应的TF-IDF值集合;
安全索引构建模块,所述用户端用于利用所述关键词集合及所述TF-IDF值集合构建所述文档数据的安全索引,并将加密后的文档数据和所述安全索引发送至云端服务器;
检索模块,所述云端服务器用于利用与待检索关键词对应的检索陷门从自身存储的全部所述安全索引中确定出包含所述待检索关键词的目标安全索引及相应的加密目标文档数据;
数据返回模块,所述云端服务器用于分别从各个所述目标安全索引的所述TF-IDF值集合中提取与所述待检索关键词对应的TF-IDF值,并根据提取到的全部TF-IDF值对全部加密目标文档数据进行排序,以确定返回至所述用户端的加密目标文档数据。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;其中所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的可搜索加密方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1至7任一项所述的可搜索加密方法。
CN202110907992.6A 2021-08-09 2021-08-09 一种可搜索加密方法、装置、设备及存储介质 Active CN113642038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110907992.6A CN113642038B (zh) 2021-08-09 2021-08-09 一种可搜索加密方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110907992.6A CN113642038B (zh) 2021-08-09 2021-08-09 一种可搜索加密方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113642038A true CN113642038A (zh) 2021-11-12
CN113642038B CN113642038B (zh) 2024-02-13

Family

ID=78420241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907992.6A Active CN113642038B (zh) 2021-08-09 2021-08-09 一种可搜索加密方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113642038B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661793A (zh) * 2022-03-25 2022-06-24 奇安信科技集团股份有限公司 模糊查询方法、装置、电子设备及存储介质
CN115238689A (zh) * 2022-09-21 2022-10-25 南京中孚信息技术有限公司 分词分句索引处理方法、文档检索方法、设备及存储介质
CN117375801A (zh) * 2023-12-08 2024-01-09 贵州大学 基于sm9的指定服务器可搜索加密方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN108712366A (zh) * 2018-03-27 2018-10-26 西安电子科技大学 云环境中支持词形词义模糊检索的可搜索加密方法及系统
CN109471964A (zh) * 2018-10-23 2019-03-15 哈尔滨工程大学 一种基于同义词集的模糊多关键词可搜索加密方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN108712366A (zh) * 2018-03-27 2018-10-26 西安电子科技大学 云环境中支持词形词义模糊检索的可搜索加密方法及系统
CN109471964A (zh) * 2018-10-23 2019-03-15 哈尔滨工程大学 一种基于同义词集的模糊多关键词可搜索加密方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114661793A (zh) * 2022-03-25 2022-06-24 奇安信科技集团股份有限公司 模糊查询方法、装置、电子设备及存储介质
CN115238689A (zh) * 2022-09-21 2022-10-25 南京中孚信息技术有限公司 分词分句索引处理方法、文档检索方法、设备及存储介质
CN115238689B (zh) * 2022-09-21 2022-12-06 南京中孚信息技术有限公司 分词分句索引处理方法、文档检索方法、设备及存储介质
CN117375801A (zh) * 2023-12-08 2024-01-09 贵州大学 基于sm9的指定服务器可搜索加密方法
CN117375801B (zh) * 2023-12-08 2024-03-26 贵州大学 基于sm9的指定服务器可搜索加密方法

Also Published As

Publication number Publication date
CN113642038B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN113642038B (zh) 一种可搜索加密方法、装置、设备及存储介质
CN111026788B (zh) 一种混合云中基于同态加密的多关键词密文排序检索方法
Awad et al. Chaotic searchable encryption for mobile cloud storage
CN104765848A (zh) 混合云存储中支持结果高效排序的对称可搜索加密方法
CN103955537A (zh) 一种语义模糊可搜索加密云盘设计方法及系统
CN109471964A (zh) 一种基于同义词集的模糊多关键词可搜索加密方法
CN110110550B (zh) 一种支持云存储的可搜索加密方法及系统
Handa et al. A cluster based multi-keyword search on outsourced encrypted cloud data
CN115757676A (zh) 模糊可搜索加密方法、装置及电子设备
CN110727951B (zh) 具有隐私保护的轻量级外包文件多关键词检索方法及系统
CN107294701B (zh) 具有高效密钥管理的多维密文区间查询装置及查询方法
Zheng et al. Symmetric searchable encryption scheme that supports phrase search
KR101232385B1 (ko) 대칭키 기반의 암호 생성 및 검색 방법과 그 시스템
Jivane Time efficient privacy-preserving multi-keyword ranked search over encrypted cloud data
Suthar et al. Encryscation: An secure approach for data security using encryption and obfuscation techniques for iaas and daas services in cloud environment
Wang et al. Fault-tolerant Verifiable Keyword Symmetric Searchable Encryption in Hybrid Cloud.
Wang et al. Public key encryption with fuzzy matching
Kozak et al. Efficiency and security in similarity cloud services
Handa et al. An efficient approach for secure information retrieval on cloud
CN111966778B (zh) 一种基于关键词分组倒排索引的多关键词密文排序检索方法
Handa et al. An efficient cluster-based multi-keyword search on encrypted cloud data
CN113609077A (zh) 一种文件检索方法、系统、存储介质及设备
Kamini et al. Encrypted multi-keyword ranked search supporting gram based search technique
Sude et al. Authenticated CRF based improved ranked multi-keyword search for multi-owner model in cloud computing
Niaz et al. Forward secure searchable symmetric encryption

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant