CN112966018B - 基于混合云的模糊检索方法 - Google Patents
基于混合云的模糊检索方法 Download PDFInfo
- Publication number
- CN112966018B CN112966018B CN202110236706.8A CN202110236706A CN112966018B CN 112966018 B CN112966018 B CN 112966018B CN 202110236706 A CN202110236706 A CN 202110236706A CN 112966018 B CN112966018 B CN 112966018B
- Authority
- CN
- China
- Prior art keywords
- alternative
- keyword
- cloud server
- fuzzy
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
Abstract
本公开提供一种基于混合云的模糊检索方法,其中,混合云包括公有云服务器和私有云服务器。本公开通过利用包含公有云服务器和私有云服务器的混合云,兼备了公有云服务器较好的计算能力、存储能力和私有云服务器较好的私密性和稳定性,通过对备选关键词先进行过滤后再次进行验证,从而得到较为精确的模糊词集,有效减少了误判和漏判,同时对检索得到的文件进行了规则排序,使检索得到的文件更能满足用户的需求。
Description
技术领域
本公开涉及云计算与安全信息检索技术领域,尤其涉及一种基于混合云的模糊检索方法。
背景技术
模糊检索,指的是可以容忍误拼和格式不一致的检索。即用户在输入检索词时,如英文单词,可能由于记忆出错或者按错键盘,出现某个或多个字符拼写错误的情况,这时将没有相应的词条和用户检索匹配,从而用户不能获得想要的结果。同样,用户也可能由于输入的查询词与词条中词的格式不一致(如输入词为名词,词条词为动词)而得不到想要的检索结果。用模糊检索可以将拼写错误的检索词进行纠正,找到一些用户可能真正想输入的候选关键词,并将其对应的检索结果返回。模糊词由系统的管理界面根据相似度判定准则和用户输入的相似度阈值配置。例如,用编辑距离作为相似度判定准则,当用户输入的检索词被误拼为“combuter”,输入的相似度阈值为1时,包含“computer”的网页同样会出现在检索结果中。这里的模糊词是用户通过“检索管理”中的“相似度判定准则”来配置的。用户在检索页面中输入任何一个词检索和需求的相似度阈值时,只要选中“模糊检索”复选框,则包含该查询词的所有相似词信息也都被检索出来。
使用模糊检索也可以通过检索关键字的相似词,以提高检索的精确性。当检索目标不是很明确的时候,就可以模糊检索。对于用户的每次检索往往会返回多个相关的文件,为了使用户能尽快找到想要的文件,需要对返回的文件进行排序。相关的模糊检索方案不支持排序操作或者在排序时只依据关键词在文件中的权重进行排序,显然不能满足用户的需求。
发明内容
有鉴于此,本公开的目的在于提出一种基于混合云的模糊检索方法。
基于上述目的,本公开提供了一种基于混合云的模糊检索方法,其中,所述混合云包括公有云服务器和私有云服务器;所述方法包括:
所述公有云服务器获取模糊关键词查询陷门;
所述公有云服务器根据所述模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,所述公有云服务器将所述验证集发送至所述私有云服务器;
所述私有云服务器对所述验证集进行验证,得到模糊关键词集,并将所述模糊关键词集发送至所述公有云服务器;
所述公有云服务器根据所述模糊关键词集,查询得到多个备选文件,并将多个所述备选文件发送至所述私有云服务器;
所述私有云服务器对多个所述备选文件进行排序,输出排序后的多个所述备选文件。
从上面所述可以看出,本公开提供的基于混合云的模糊检索方法,通过利用包含公有云服务器和私有云服务器的混合云,兼备了公有云服务器较好的计算能力、存储能力和私有云服务器较好的私密性和稳定性,通过对备选关键词先进行过滤后再次进行验证,从而得到较为精确的模糊词集,有效减少了误判和漏判,同时对检索得到的文件进行了规则排序,使检索得到的文件更能满足用户的需求。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的基于混合云的模糊检索方法的一种流程示意图;
图2为本公开实施例提供的模糊关键词查询陷门生成方法的一种流程示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
模糊检索,指的是可以容忍误拼和格式不一致的检索。即用户在输入检索词时,如英文单词,可能由于记忆出错或者按错键盘,出现某个或多个字符拼写错误的情况,这时将没有相应的词条和用户检索匹配,从而用户不能获得想要的结果。同样,用户也可能由于输入的查询词与词条中词的格式不一致(如输入词为名词,词条词为动词)而得不到想要的检索结果。用模糊检索可以将拼写错误的检索词进行纠正,找到一些用户可能真正想输入的候选关键词,并将其对应的检索结果返回。模糊词由系统的管理界面根据相似度判定准则和用户输入的相似度阈值配置。例如,用编辑距离作为相似度判定准则,当用户输入的检索词被误拼为“combuter”,输入的相似度阈值为1时,包含“computer”的网页同样会出现在检索结果中。这里的模糊词是用户通过“检索管理”中的“相似度判定准则”来配置的。用户在检索页面中输入任何一个词检索和需求的相似度阈值时,只要选中“模糊检索”复选框,则包含该查询词的所有相似词信息也都被检索出来。使用模糊检索也可以通过检索关键字的相似词,以提高检索的精确性。当检索目标不是很明确的时候,就可以模糊检索。
相关的模糊检索方案通常只能支持给定的相似度阈值内的模糊检索,不能实现对任意大的相似度阈值的检索。相关的基于通配符的方法的模糊检索方案将所有在预设的相似度阈值内的模糊关键词一一列举出来并将其放入索引中作为精确关键词对待,这种方法会引起相当大的存储代价,存储代价会随着相似度阈值的增大呈线性增长。采用基于布隆过滤器和局部敏感哈希函数的方法可以取得常量级的索引大小,即存储代价不会随着相似度阈值的增长而变化,但由于布隆过滤器和局部敏感哈希函数本身的性质,会导致检索结果存在误判和漏判,且误判和漏判率会随着相似度阈值的增长而增大。
对于用户的每次查询往往会返回多个相关的文件,为了使用户能尽快找到想要的文件,需要对返回的文件进行排序。相关的模糊检索方案不支持排序操作或者在排序时只依据关键词在文件中的权重进行排序。发明人发现,在模糊检索场景中,关键词与对应的查询词之间还存在词形相似度,这一衡量标准应在排序时考虑进去。
因此,相关的模糊检索中只支持有限的查询相似度阈值,模糊检索中查询结果会出现误判和漏判,以及对查询结果的排序结果不够精确,不能满足用户的需求。
图1为本公开实施例提供的基于混合云的模糊检索方法的一种流程示意图,其中,混合云包括公有云服务器和私有云服务器。
公有云服务器是指利用高速互联网的传输能力,将数据的处理过程从个人计算机或服务器转移到大型的云计算中心,并将计算能力、存储能力以服务的方式为用户提供,用户能够像使用电力、自来水等公用设施一样使用计算能力,并按使用量进行计费。在一种可能的实施方式中,公有云服务器可以是例如阿里云、腾讯云、天翼云和华为云等。
私有云服务器是指利用局域网稳定而又私密的传输通道,将数据的处理过程从个人终端计算机转移到局域网内的数据中心,用户能够共享和弹性使用计算能力。在一种可能的实施方式中,私有云服务器可以是例如禹龙云服务器和广达云服务器等。
公有云服务器具有计算能力强大和存储能力强大等优势,私有云服务器由于是用户在组织内部使用的云计算服务器,其具有私密性好和稳定性好等优势,本公开结合使用公有云服务器和私有云服务器以组成混合云,兼备了强大的计算能力、存储能力和较好的私密性、稳定性。
基于混合云的模糊检索方法,包括:
S110、公有云服务器获取模糊关键词查询陷门。
在一些实施例中,模糊关键词查询陷门由用户本地即客户端生成,发送至公有云服务器。
例如:假设用户有一个词q,用户想要根据词q检索得到一些相关文件,相关文件中包含词q和/或与词q在一定程度上相似的词。为了方便表述,称上述场景中的“词q”为查询词q,“一定程度上相似”为相似度阈值,“与词q在一定程度上相似的词”为模糊关键词,“相关文件”为备选文件。
其中,查询词与相似度阈值共同表征了用户的检索需求。模糊关键词查询陷门由相似度阈值和加密的查询词生成。参考图2,在一些实施例中,生成模糊关键词查询陷门的方法,具体包括:
S210、获取查询词和相似度阈值。
S220、将查询词转化得到查询词一元向量和查询词字符向量。
S230、对查询词一元向量和查询词字符向量进行加密,得到加密的查询词一元向量和加密的查询词字符向量。
S240、利用加密的查询词一元向量、加密的查询词字符向量和相似度阈值构建得到模糊关键词查询陷门。
可选的,S210具体包括:
在一些实施例中,客户端提供用户输入查询词与相似度阈值的窗口,可选的,用户可以直接输入查询词和相似度阈值,用户也可以选择预设的查询词和相似度阈值,本公开对于相似度阈值的取值范围没有限制,用户可以定义任意范围的相似度阈值。本公开能够有效实现在任意相似度阈值内的模糊关键词检索,取消了对阈值的限制,这种情况下,存储代价和检索精确度不会受相似度阈值的影响。
可选的,S220具体包括:
将一个词转化为一元向量,例如将查询词q转化为u维的查询词一元向量Uq,查询词一元向量Uq的向量形式为{0,1}u。具体的,转化方法如下:首先根据预设的数据集选取一个u维的一元元素集,一元元素集里包含所有可能出现在关键词中的字符数字和符号。例如,选取的一元元素集为U={a1,a2,…ak,b1,…},包含26*k个英文字母,30个常见的数字和符号,k=10,u=290。如对于查询词lecture,先提取出它的一元元素为:{l1,e1,c1,t1,u1,r1,e2},e2表示e这个字符在单词中第二次出现。然后将这些一元元素和一元元素集U中的元素进行匹配,如果对应的一元元素存在在一元元素集中,则相应的位置值为1,否则为0。这样一个关键词就转化成了一个长为u的,每个维度的元素为0或1的一元向量。
将一个词转化为字符向量,例如将查询词q转化为L维的查询词字符向量Cq。具体的,转化方法如下:首先将查询词q转化为一个中间向量Iq,如对于查询词lecture,对应的中间向量为Iq=(l,e,c,t,u,r,e),再转化为查询词字符向量为Cq=(*…*||δq||Iq)。其中,*为预先选取的一个虚拟字符,δq为预先选取的一个虚假字符串。*的作用是将添加了虚假向量δq以后的向量维度扩充到L,即对于向量Cq,里面*的数目为L-len(δq)-len(Iq)。
可选的,S230具体包括:
客户端向数据拥有者请求授权检索数据和访问数据的权利,包括请求生成模糊关键词查询陷门所需的密钥。
对于查询词转化得到的查询词一元向量和查询词字符向量,利用该密钥对其进行加密,以用于生成模糊关键词查询陷门。
可选的,S240具体包括:
例如,模糊关键词查询陷门表示为TQ={U* q,C* q,d}。其中,TQ为模糊关键词查询陷门,U* q为查询词一元向量Uq的加密形式,C* q为查询词字符向量Cq的加密形式,d为相似度阈值。
S120、公有云服务器根据模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,并将验证集发送至私有云服务器。
在一些实施例中,备选关键词由客户端发送至公有云服务器。
客户端拥有包括大量文件的数据库,为了节约本地存储资源并利用公有云强大的计算能力和存储能力,客户端会将数据库中的信息发送到公有云服务器。在一些实施例中,客户端从数据库中提取关键词对文件建立索引,对每个文件,有一个对应的权重向量,向量的每一维为该文件中的每个关键词在该文件中的权重。将所有的关键词均作为备选关键词。
也就是说,在客户端得到了备选关键词、各备选关键词在文件中的权重和每个文件对应的权重向量。将备选关键词、各备选关键词在文件中的权重和每个文件对应的权重向量发送至公有云服务器。为了提高查询效率,在公有云服务器中,建立关于关键词的二叉树即索引树,在索引树的叶子节点中存储的是备选关键词及其在文件中的权重信息。在本公开中,公有云服务器只能得到文件的权重向量,而不能得到文件本身,保证了文件的隐私和安全。
为了进一步保护数据隐私,客户端会对备选关键词进行加密操作后再将加密的关键词信息上传到公有云服务器。在一些实施例中,客户端对备选关键词进行加密处理,具体包括:
对于每个备选关键词,
将该备选关键词转化得到备选关键词一元向量和备选关键词字符向量;
对备选关键词一元向量和备选关键词字符向量进行加密,得到加密的备选关键词一元向量和加密的备选关键词字符向量。
客户端将加密后的备选关键词信息发送至公有云服务器。
可选的,S120具体包括:
对于每个备选关键词,
公有云服务器响应于确定该备选关键词对应的加密的备选关键词一元向量与加密的查询词一元向量的内积在相似度阈值内,将该备选关键词加入到验证集中。
例如,过滤规则为U*·U* q≤d,其中,U*表示加密的备选关键词一元向量,U* q表示加密的查询词一元向量,d表示一元向量相似度阈值。
在加密一元向量时,为了安全性考虑会引入随机数,导致计算得到的内积要比实际的内积大,计算时引入的内积误差,则:
过滤规则为U*·U* q≤d+t,其中,U*表示加密的备选关键词一元向量,U* q表示加密的查询词一元向量,d表示一元向量相似度阈值,t表示内积误差。
公有云服务器获取到模糊关键词查询陷门后,利用上述的过滤规则,用深度优先检索算法对索引树进行检索,判断每一个备选关键词对应的加密的备选关键词一元向量与加密的查询词一元向量的内积是否在相似度阈值内,得到满足过滤规则的备选关键词组成验证集。
在一些实施例中,公有云服务器利用加密的查询词字符向量和加密的备选关键词字符向量构建编辑距离矩阵,具体包括:
构建的编辑距离矩阵的形式为:矩阵中的每个元素为对应的加密的备选关键词字符向量中的元素和加密的查询词字符向量中的元素相除,并做一个幂指数运算,指数运算的指数为随机选取的随机数。
例如,编辑距离矩阵中的元素为M*[k][t]=(C* wi[k]/C* q[t])rkt;其中,M*[k][t]为矩阵M*中第k行第t列的元素;C* wi[k]为加密的备选关键词字符向量C*wi中的第k个元素;C* q[t]为加密的查询词字符向量C*q中的第t个元素;rkt为随机数。
公有云服务器将编辑距离矩阵发送至私有云服务器。
S130、私有云服务器对验证集进行验证,得到模糊关键词集,并将模糊关键词集发送至公有云服务器。
可选的,S130具体包括:
对于验证集中的每个备选关键词,
私有云服务器响应于确定该备选关键词对应的加密的备选关键词字符向量与加密的查询词字符向量的编辑距离在预设的编辑距离阈值内,将该备选关键词作为模糊关键词并加入到模糊关键词集中。
私有云服务器对编辑距离矩阵中的元素进行解密,根据编辑距离算法计算验证集中的所有备选关键词与查询词的编辑距离,根据预设的编辑距离阈值得到模糊关键词集。
可选的,用编辑距离来衡量两个词之间的相似度。编辑距离,是指两个字符串之间,由一个转变成另一个所需要的最少编辑操作次数。允许3种编辑操作,包括:将一个字符替换成另一个字符,插入一个字符或者删除一个字符。
对于查询词q,其对应的查询词字符向量为Cq=(*…*||δq||Iq);对于备选关键词w,其对应的备选关键词字符向量为Cw=(*…*||δw||Iw)。*为预先选取的一个虚拟字符,δq为预先选取的一个虚假字符串。δw满足ed(δw,δq)≤d’,ed为编辑距离函数,d’为预先选取的一个虚假编辑距离,*的作用是将添加了虚假向量δq/δw以后的向量维度扩充到L,即对于向量Cq,里面*的数目为L-len(δq)-len(Iq)。
简化的,用ed(w,q)表示备选关键词w和查询词q的编辑距离,私有云服务器计算出验证集中的所有备选关键词与查询词的编辑距离,如果得到的编辑距离小于预设的编辑距离阈值,则说明关键词w和查询词q的编辑距离小于预设的编辑距离阈值,即认为备选关键词w是查询词q的模糊关键词。将所有的模糊关键词放到一个集合中得到模糊关键词集。
本公开使得在混合云服务器的合作下可以在密文下计算出两个词的编辑距离从而得到精确的模糊词集,有效减少误判和漏判的情况出现。
S140、公有云服务器根据模糊关键词集,查询得到多个备选文件,并将多个备选文件发送至私有云服务器。
可选的,包含模糊关键词集中的模糊关键词的文件即为备选文件。
可选的,公有云查询得到的备选文件,是备选文件对应的权重向量,不是备选文件本体。所以,私有云服务器得到的也仅是文件对应的权重向量,不能看到文件本体,保证了文件的私密性和安全性,文件本体只能在客户端看到。
S150、私有云服务器对多个备选文件进行排序,输出排序后的多个备选文件。
可选的,S150具体包括:
对于每个备选文件,
对于该备选文件中的每个模糊关键词,
计算该模糊关键词与查询词的词形相似度,
获取该模糊关键词在备选文件中的权重,
根据词形相似度和权重计算该模糊关键词的得分,
根据该备选文件中的所有模糊关键词的得分计算该备选文件的得分;
根据每个备选文件的得分,对多个备选文件进行排序。
其中,词形相似度KSwi,q的计算公式如下:
KSwi,q=1-ed(wi,q)/max{len(wi),len(q)};
其中,KSwi,q为模糊关键词wi和查询词q的词形相似度;ed(wi,q)为模糊关键词wi和查询词q的编辑距离;max为最大值函数;len为返回文本字符串中的字符数的函数。
根据该备选文件对应的权重向量,即可得到该模糊关键词在该备选文件中的权重。可选的,权重是在客户端处理数据阶段计算好的,其中,权重WSwi,fi的计算公式如下:
WSwi,fi=(1+ln Nfiwi)*ln(1+n/Nwi);
其中,WSwi,fi为模糊关键词wi在备选文件fi中的权重;Nfi w为模糊关键词wi出现在文件fi中的频率;n为总文件数目;Nwi为包含模糊关键词wi的文件数目;ln为自然对数函数。
权重向量得分是用普遍采用的tf-idf公式计算得到的,tf为词频即一个词在一个文件中出现的频数,idf为逆文档频率,即包含这个词的文件数目比上总文件数目。
备选文件的得分的计算公式(双因子排序函数)如下:
其中,RSfi为备选文件fi的得分,KSwi,q为模糊关键词wi和查询词q的词形相似度得分,WSwi,fi表示模糊关键词wi在备选文件fi中的权重得分。
根据每个备选文件的得分,对多个备选文件进行排序。
可选的,私有云服务器输出排序后的多个备选文件到客户端,私有云输出的排序后的多个备选文件,为多个备选文件对应的权重向量,根据客户端记录的该权重向量和文件的对应关系,客户端即可查到备选文件的明文本身,可在客户端进行查阅。
本公开能够有效实现在任意相似度阈值内的模糊关键词检索,取消了对阈值的限制,且存储代价和检索精确度不会受相似度阈值的影响。本公开使得在混合云服务器的合作下可以在密文下计算出两个词的编辑距离从而得到精确的模糊词集,不会有误判和漏判的情况出现。本公开采用双因子排序方法,结合关键词权重和词形相似度两个得分对检索结果进行排序,使得排序结果更为合理,符合模糊词检索的场景。
需要说明的是,本公开实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
需要说明的是,本公开的实施例还可以以下方式进一步描述:
一种基于混合云的模糊检索方法,其中,所述混合云包括公有云服务器和私有云服务器;所述方法包括:
所述公有云服务器获取模糊关键词查询陷门;
所述公有云服务器根据所述模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,并将所述验证集发送至所述私有云服务器;
所述私有云服务器对所述验证集进行验证,得到模糊关键词集,并将所述模糊关键词集发送至所述公有云服务器;
所述公有云服务器根据所述模糊关键词集,查询得到多个备选文件,并将多个所述备选文件发送至所述私有云服务器;
所述私有云服务器对多个所述备选文件进行排序,输出排序后的多个所述备选文件。
可选的,其中,还包括:
获取查询词和相似度阈值;
将所述查询词转化得到查询词一元向量和查询词字符向量;
对所述查询词一元向量和查询词字符向量进行加密,得到加密的查询词一元向量和加密的查询词字符向量;
利用所述加密的查询词一元向量、加密的查询词字符向量和所述相似度阈值构建得到所述模糊关键词查询陷门。
可选的,其中,还包括:
对于每个所述备选关键词,
将该备选关键词转化得到备选关键词一元向量和备选关键词字符向量;
对所述备选关键词一元向量和备选关键词字符向量进行加密,得到加密的备选关键词一元向量和加密的备选关键词字符向量。
可选的,其中,所述公有云服务器根据所述模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,包括:
对于每个所述备选关键词,
所述公有云服务器响应于确定该备选关键词对应的所述加密的备选关键词一元向量与所述加密的查询词一元向量的内积在所述相似度阈值内,所述公有云服务器该备选关键词加入到所述验证集中。
可选的,其中,所述将所述验证集发送至所述私有云服务器,包括:
所述公有云服务器利用所述加密的备选关键词字符向量和所述加密的查询词字符向量构建得到编辑距离矩阵,并发送至所述私有云服务器。
可选的,其中,所述私有云服务器对所述验证集进行验证,得到模糊关键词集,包括:
对于所述验证集中的每个所述备选关键词,
所述私有云服务器响应于确定该备选关键词对应的所述加密的备选关键词字符向量与所述加密的查询词字符向量的编辑距离在预设的编辑距离阈值内,将该备选关键词作为模糊关键词并加入到所述模糊关键词集中。
可选的,其中,所述私有云服务器对多个所述备选文件进行排序,输出排序后的多个所述备选文件,包括:
对于每个所述备选文件,
对于该备选文件中的每个所述模糊关键词,
计算该模糊关键词与所述查询词的词形相似度,
获取该模糊关键词在该备选文件中的权重,
根据所述词形相似度和权重计算该模糊关键词的得分,
根据该备选文件中的所有所述模糊关键词的得分计算该备选文件的得分;
根据每个所述备选文件的得分,对多个所述备选文件进行排序。
可选的,其中,所述计算该备选关键词在该备选文件中的权重,包括:
利用tf-idf算法计算该备选关键词在该备选文件中的所述权重。
可选的,其中,多个所述备选关键词以二叉树的形式存储,所述二叉树的每一个叶子节点中存储一个所述备选关键词。
可选的,其中,还包括:
对于每个所述备选文件,提取所述备选关键词构建一个权重向量,其中,所述权重向量的每一维为每个备选关键词在该备选文件中的权重。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.一种基于混合云的模糊检索方法,其中,所述混合云包括公有云服务器和私有云服务器;所述方法,包括:
所述公有云服务器获取模糊关键词查询陷门;其中,所述模糊关键词查询陷门的构建方法,包括:获取查询词和相似度阈值;将所述查询词转化得到查询词一元向量和查询词字符向量;对所述查询词一元向量和查询词字符向量进行加密,得到加密的查询词一元向量和加密的查询词字符向量;利用所述加密的查询词一元向量、加密的查询词字符向量和所述相似度阈值构建得到所述模糊关键词查询陷门;
所述公有云服务器根据所述模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,所述公有云服务器将所述验证集发送至所述私有云服务器;
所述私有云服务器对所述验证集进行验证,得到模糊关键词集,并将所述模糊关键词集发送至所述公有云服务器;
所述公有云服务器根据所述模糊关键词集,查询得到多个备选文件,并将多个所述备选文件发送至所述私有云服务器;
所述私有云服务器对多个所述备选文件进行排序,输出排序后的多个所述备选文件。
2.根据权利要求1所述的方法,其中,还包括:
对于每个所述备选关键词,
将该备选关键词转化得到备选关键词一元向量和备选关键词字符向量;
对所述备选关键词一元向量和备选关键词字符向量进行加密,得到加密的备选关键词一元向量和加密的备选关键词字符向量。
3.根据权利要求2所述的方法,其中,所述公有云服务器根据所述模糊关键词查询陷门,对多个备选关键词进行过滤,得到验证集,包括:
对于每个所述备选关键词,
所述公有云服务器响应于确定该备选关键词对应的所述加密的备选关键词一元向量与所述加密的查询词一元向量的内积在所述相似度阈值内,将该备选关键词加入到所述验证集中。
4.根据权利要求2所述的方法,其中,所述公有云服务器将所述验证集发送至所述私有云服务器,包括:
所述公有云服务器利用所述加密的备选关键词字符向量和所述加密的查询词字符向量构建得到编辑距离矩阵,并发送至所述私有云服务器。
5.根据权利要求2所述的方法,其中,所述私有云服务器对所述验证集进行验证,得到模糊关键词集,包括:
对于所述验证集中的每个所述备选关键词,
所述私有云服务器响应于确定该备选关键词对应的所述加密的备选关键词字符向量与所述加密的查询词字符向量的编辑距离在预设的编辑距离阈值内,将该备选关键词作为模糊关键词并加入到所述模糊关键词集中。
6.根据权利要求5所述的方法,其中,所述私有云服务器对多个所述备选文件进行排序,输出排序后的多个所述备选文件,包括:
对于每个所述备选文件,
对于该备选文件中的每个所述模糊关键词,
计算该模糊关键词与所述查询词的词形相似度,
获取该模糊关键词在该备选文件中的权重,
根据所述词形相似度和权重计算该模糊关键词的得分,
根据该备选文件中的所有所述模糊关键词的得分计算该备选文件的得分;
根据每个所述备选文件的得分,对多个所述备选文件进行排序。
7.根据权利要求6所述的方法,其中,所述计算该备选关键词在该备选文件中的权重,包括:
利用tf-idf算法计算该备选关键词在该备选文件中的所述权重。
8.根据权利要求1所述的方法,其中,多个所述备选关键词以二叉树的形式存储,所述二叉树的每一个叶子节点中存储一个所述备选关键词。
9.根据权利要求1所述的方法,其中,还包括:
对于每个所述备选文件,提取所述备选关键词构建一个权重向量,其中,所述权重向量的每一维为每个备选关键词在该备选文件中的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236706.8A CN112966018B (zh) | 2021-03-03 | 2021-03-03 | 基于混合云的模糊检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110236706.8A CN112966018B (zh) | 2021-03-03 | 2021-03-03 | 基于混合云的模糊检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966018A CN112966018A (zh) | 2021-06-15 |
CN112966018B true CN112966018B (zh) | 2022-04-01 |
Family
ID=76276909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110236706.8A Active CN112966018B (zh) | 2021-03-03 | 2021-03-03 | 基于混合云的模糊检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966018B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955537A (zh) * | 2014-05-16 | 2014-07-30 | 福州大学 | 一种语义模糊可搜索加密云盘设计方法及系统 |
CN105681280A (zh) * | 2015-12-29 | 2016-06-15 | 西安电子科技大学 | 一种云环境中基于中文的可搜索加密方法 |
CN106326360A (zh) * | 2016-08-10 | 2017-01-11 | 武汉科技大学 | 一种云环境中密文数据的模糊多关键词检索方法 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN111026788A (zh) * | 2019-11-04 | 2020-04-17 | 武汉科技大学 | 一种混合云中基于同态加密的多关键词密文排序检索方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9600542B2 (en) * | 2014-06-27 | 2017-03-21 | Sap Se | Fuzzy substring search |
CN108334612B (zh) * | 2018-02-07 | 2022-03-29 | 华南理工大学 | 一种针对密文域的形近汉字全文模糊检索方法 |
-
2021
- 2021-03-03 CN CN202110236706.8A patent/CN112966018B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103955537A (zh) * | 2014-05-16 | 2014-07-30 | 福州大学 | 一种语义模糊可搜索加密云盘设计方法及系统 |
CN105681280A (zh) * | 2015-12-29 | 2016-06-15 | 西安电子科技大学 | 一种云环境中基于中文的可搜索加密方法 |
CN106326360A (zh) * | 2016-08-10 | 2017-01-11 | 武汉科技大学 | 一种云环境中密文数据的模糊多关键词检索方法 |
CN106951411A (zh) * | 2017-03-24 | 2017-07-14 | 福州大学 | 一种云计算中保护数据隐私的快速多关键词语义排序搜索方法 |
CN111026788A (zh) * | 2019-11-04 | 2020-04-17 | 武汉科技大学 | 一种混合云中基于同态加密的多关键词密文排序检索方法 |
Non-Patent Citations (1)
Title |
---|
云计算中模糊可搜索加密方案的研究;王剑锋;《中国优秀硕士毕业论文集》;20141231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112966018A (zh) | 2021-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Enabling central keyword-based semantic extension search over encrypted outsourced data | |
WO2020119063A1 (zh) | 专家知识推荐方法、装置、计算机设备及存储介质 | |
EP2336908B1 (en) | Search device, search method and search program using open search engine | |
CN108363689B (zh) | 面向混合云的隐私保护多关键词Top-k密文检索方法及系统 | |
CN109063509A (zh) | 一种基于关键词语义排序的可搜索加密方法 | |
CN110909160A (zh) | 正则表达式生成方法、服务器及计算机可读存储介质 | |
AU2015324282B2 (en) | Protected indexing and querying of large sets of textual data | |
CN115314295B (zh) | 一种基于区块链的可搜索加密技术方法 | |
WO2019108793A1 (en) | Recommender methods and systems for patent processing | |
US10025784B2 (en) | Similarity determination apparatus, similarity determination method, and computer-readable recording medium | |
US20180276244A1 (en) | Method and system for searching for similar images that is nearly independent of the scale of the collection of images | |
CN109255244B (zh) | 数据加密方法及其装置、数据加密检索系统 | |
CN115757676A (zh) | 模糊可搜索加密方法、装置及电子设备 | |
CN110727951B (zh) | 具有隐私保护的轻量级外包文件多关键词检索方法及系统 | |
Li et al. | Multi-keyword fuzzy search over encrypted cloud storage data | |
Raghavendra et al. | IGSK: index generation on split keyword for search over cloud data | |
CN107193916B (zh) | 一种个性化多样化查询推荐方法及系统 | |
Shao et al. | Privacy-aware document ranking with neural signals | |
Shin et al. | General-use unsupervised keyword extraction model for keyword analysis | |
CN112966018B (zh) | 基于混合云的模糊检索方法 | |
CN116644146A (zh) | 一种文档搜索方法、装置、系统、电子设备及存储介质 | |
CN114398660A (zh) | 一种基于Word2vec和ASPE的高效模糊可搜索加密方法 | |
Zhao et al. | Privacy-preserving personalized search over encrypted cloud data supporting multi-keyword ranking | |
CN103902687A (zh) | 一种搜索结果的生成方法及装置 | |
Xue et al. | Cuckoo-filter based privacy-aware search over encrypted cloud data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |