CN114398660A - 一种基于Word2vec和ASPE的高效模糊可搜索加密方法 - Google Patents

一种基于Word2vec和ASPE的高效模糊可搜索加密方法 Download PDF

Info

Publication number
CN114398660A
CN114398660A CN202111432262.1A CN202111432262A CN114398660A CN 114398660 A CN114398660 A CN 114398660A CN 202111432262 A CN202111432262 A CN 202111432262A CN 114398660 A CN114398660 A CN 114398660A
Authority
CN
China
Prior art keywords
matrix
aspe
word2vec
algorithm
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111432262.1A
Other languages
English (en)
Inventor
姚燕青
袁玉霦
翟征德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111432262.1A priority Critical patent/CN114398660A/zh
Publication of CN114398660A publication Critical patent/CN114398660A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于Word2vec和ASPE的高效模糊可搜索加密方法,该方法主要应用密态信息模糊搜索领域。该算法首先借助Word2vec生成同义词相关系数,再将系数与关键字矩阵相结合,利用扩展后的ASPE算法得到用户的陷门矩阵。将利用扩展后的ASPE算法生成的文件索引矩阵与陷门矩阵进行哈达玛乘积操作得到文件相关性排序,最后用户通过密钥解密文件得到最终明文。通过实验仿真表明,该算法不仅能有效隐藏明文信息,保护了用户的前向隐私与后向隐私,而且大大改善传统算法计算量大且占用大量存储空间的缺陷,极高地提升了模糊搜索效率。

Description

一种基于Word2vec和ASPE的高效模糊可搜索加密方法
技术领域
本发明涉及机器学习与可搜索加密领域,具体的涉及一种搜索加密方法。
背景技术
随着大数据和云计算的快速发展,越来越多的用户选择将大量电子文档数据外包到云中进行安全存储和处理。电子文档的隐私保护是外包云服务中的一个关键问题。解决这一潜在威胁的简单方法是加密后上传电子文档,并根据用户需要下载和解密它们。但是当文档被转换成基于密文的形式时,它们并没有保留原来的特征。用户和云服务器都无法快速区分哪些文档是用户需要的密文形式。可搜索加密可以在保证文档的隐私性和安全性的同时,为文件搜索提供了有效的解决方案。
传统的搜索技术都是基于明文的搜索技术,即不论是搜索网站用户提供的关键字信息或者服务器数据库系统中的数据,都是以明文结构形式进行的。这也就导致了非常严重的个人信息泄露,由于任何的恶意网站服务器都能够窃取查询用户的检索关键字、搜索结果等信息,从而严重危害了个人的信息安全和隐私权。可搜索加密技术就为了破解这种困难,提出了基于密文实现搜索查询信息的基本方法,在这个模型下,可以利用密码学的基本技术,来保证信息使用者的私密信息和生命安全。
可搜索加密,就是在加密的情况下实现查询搜索功能。目前许多文档都存储在远程服务器,并且当有需求的时候需要能够搜索文档文以实现文件增、删、改。但有的时候一些文档信息内容又不想被服务器知道,就必须对文件加密处理,怎样将加密文档保存在远程服务器设备上,同时又能够在保密的情况下进行查询搜索和文档编辑,就是可搜索加密的研究内容。
发明内容
本发明的目的是提供基于一种基于Word2vec和ASPE的高效模糊可搜索加密方法。
为了实现上述目的,采用以下技术方案:
一种基于Word2vec和ASPE的高效模糊可搜索加密方法,包括训练阶段、索引阶段、陷门阶段、加密阶段和匹配阶段,在训练阶段,通过计算词向量间的空间距离来表示词语间的语义相似度。
训练阶段,设置搜索陷门中对应关键字元素位置为1,其余为0;另外,如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′,那么使用训练后的关键词模型,数据拥有者在训练过的关键词模型中找到一个与w′最相似的关键词wi,wi为关键词模型中第i个关键词;关键词w′到wi的相似度得分sci,即词向量间的空间距离,计算如下:
sci=sim(w′,wi)
然后,数据用户使用wi·sci来代替w′来构建搜索陷门矩阵Q=[qij]m×n,m×n为矩阵的维度,即m行n列,qij为矩阵Q中的第i行第j列的元素。
索引阶段,数据拥有者的密钥设置为sk=(S,M1,M2),一个m×n随机矩阵S=[sij]m×n和两个n×n随机矩阵M1,M2用于加密文件,sij∈{0,1},sij为矩阵S中的第i行第j列的元素,其中m×n是所有关键字的数量,n要比m大得多;数据拥有者使用提取的关键字构建关键字矩阵W,即W=[wij]m×n,wij为单个文件关键字向量,矩阵W中的第i行第j列的元素;
数据拥有者使用矩阵S将文件v的关键字矩阵wv划分为矩阵Ia=[aij]m×n和矩阵Ib=[bij]m×n,基于密钥S中的每一个Sij做如下划分:如果sij=1,令r为随机数,
Figure BDA0003380652570000031
如果sij=0,令aij=bij=wij
陷门阶段,数据用户使用矩阵S划分搜索矩阵Q=[qij]m×n到矩阵Qa=[xij]m×n和矩阵Qb=[yij]m×n,qij为单个查询关键字向量,基于密钥S中的每一个Sij做如下划分:如果sij=1,令aij=bij=qij;如果sij=0,令r为随机数,
Figure BDA0003380652570000032
如果sij=0,令aij=bij=qij
加密阶段,利用哈达玛乘积将ASPE方案从一维扩展到多维运算。
加密阶段,利用哈达玛乘积将ASPE方案从一维扩展到多维运算的过程如下:
使用哈达玛乘积和ASPE方案来构建公式如下:
针对密钥为
Figure BDA0003380652570000033
文件v的索引为
Figure BDA0003380652570000034
索引加密算法EI如下:
Figure BDA0003380652570000035
针对密钥
Figure BDA0003380652570000036
陷门
Figure BDA0003380652570000037
陷门加密算法EQ如下:
Figure BDA0003380652570000038
匹配过程的算法如下:
Figure BDA0003380652570000039
因此,矩阵(IvM)*(M-1QT)T的所有元素的总和计算为
Figure BDA00033806525700000310
Figure BDA00033806525700000311
数据拥有者利用密钥S,并使用扩展后的ASPE加密方案EI将文件v的索引矩阵{Ia,Ib}加密为Indexv={I′a,I′b},其中I′a=EI(Ia,M1)=IaM1,I′b=EI(Ib,M2)=IbM2
数据用户利用密钥S,并使用扩展后的ASPE加密方案EQ将查询Q的陷门矩阵{Qa,Qb}加密为TDQ={Q′a,Q′b},其中
Figure BDA0003380652570000041
Figure BDA0003380652570000042
匹配阶段,云服务器通过扩展后的ASPE方案匹配算法获取匹配文件:
Figure BDA0003380652570000043
设w*Q的元素为[wijqij]m×n,云服务器计算矩阵w*Q的所有元素之和如下:
Figure BDA0003380652570000044
计算索引与搜索陷门之间的Tanimoto系数:
Figure BDA0003380652570000045
最后,云服务器根据Tanimoto系数值从大到小排序,并选择与数据用户相关度最高的文件。
本发明的优势在于:
1.利用Word2vec机器学习技术实现了可搜索加密的语义模糊搜索功能。通过计算词向量间的空间距离来表示词语间的语义相似度,因此可搜索加密方案能够具有很好的语义特性。
2.将ASPE进行多维扩展从而保证安全性的同时可以减少不必要的存储空间,从而可以提升搜索效率,进一步得到更广泛的应用。
附图说明
图1为两种方案不同关键字数量时的搜索准确率;
图2为两种方案的搜索时间比较图;
图3为两种方案的高文档数量下单搜索时间成本比较图;
图4为传统意义上的Word2vec生成的词向量。
具体实施方式
下面结合附图和具体实施例对本发明的实施例做详细的介绍。
本发明提出了一种基于Word2vec和ASPE的高效模糊可搜索加密方法,该方法主要应用于云服务器电子文档加密场景。该算法主要内容如下:为了实现模糊搜索功能,数据所有者使用所有文件作为Word2vec的输入来训练语义相关模型并为索引关键字生成关键字向量。随后数据所有者采用非对称向量积保持加密算法(ASPE)对文件索引进行加密。
在本发明中,为基于多关键字的模糊可搜索加密设计系统模型,主要涉及三个角色:数据所有者、云服务器和数据用户。
数据所有者:该实体拥有所有文件的明文。为了保证安全并降低存储成本,数据所有者将所有文件加密并存储到云服务器中。为了实现对加密文件的模糊搜索,数据所有者提取关键字并生成文档作为Word2vec算法的输入,然后创建关键字向量。
云服务器:云服务器作为外包服务器,负责存储来自所有数据所有者的大量加密文件数据,并进行加密搜索。在系统模型中,云服务器是诚实且好奇的,即半诚实的。执行搜索操作并返回结果将是诚实的,同时它会窥探存储在内部的信息和来自数据用户的查询向量。
数据用户:数据用户向云服务器发送请求查询操作,对匹配的密文进行解密,得到实际搜索到的明文数据。
Word2vec模型是神经网络在NLP领域应用的典型代表,该模型是以无监督方式从海量文本语料中学习富含语义信息的低维词向量的语言模型。通过将单词从原数据空间映射到新的空间,从高维转化为低维,使得同义词在新空间内距离相近,从而可以通过计算空间距离来表示语义相似度。Word2vec模型中,每个词都可以用神经网络中的分布权重来抽象表示。
在图4中,Word2vec使用词汇表中的词来表示三维数据,即Royalty、Masculinity和Ability。比如king的词向量设置为(0.99,0.94,0.78)。可以得到,词向量之间的关系评估为
Figure BDA0003380652570000061
具体来说,Word2vec通常采用哈夫曼树,其中哈夫曼树被定义为由权重构造的二叉树。哈夫曼树中底部的每个叶子节点代表一个单词,有且仅有一条唯一的从根节点到叶子节点的路径,根节点即为该单词通过求和再取平均之后的词向量。Word2vec模型中采用逻辑回归的数学方法,向左孩子的边编码为1,向右孩子的边编码为0。通过使用Sigmoid函数来判断路径中的前进方向应该选左还是选右。
第二种采用的技术是非对称向量积保持加密算法(Asymmetric Scalar-Product-Preserving Encryption,ASPE)近年来,随着数据挖掘领域的迅猛发展,分类器是一种非常重要的对样本进行分类的方法。但是在实验过程中,测试对象的某个特征,不一定能找到与之刚好符合的训练对象。也可能会出现某个测试对象的特征同时对应多个训练对象,导致可以被分到不同的类,为了解决以上这些问题,K最邻近分类算法(K-NearestNeighbor,kNN)诞生了。
一种支持kNN的方法是使用距离保持变换来加密数据点,以便加密后任意两个加密点之间的距离与对应原始点之间的距离相同。但是这种转换在实践中并不安全。如果攻击者可以访问距离保持变换加密的数据库并且知道普通数据库中的几个点,他就可以完全恢复原始数据。因此本发明选择对非对称向量积保持加密算法(Asymmetric Scalar-Product-Preserving Encryption,ASPE)进行扩展,同时支持安全准确的kNN查询计算,来实现基于关键字的密文检索。
ASPE是一种向量加密机制。令EQ为查询向量的加密算法,EI为索引向量的加密算法。索引向量的密文I′i和查询向量的密文Q′创建如下:
I′i=EI(Ii,M)=IiM
Q′=EQ(Q,M)=M-1QT
其中M作为密钥。ASPE方案可以保持I向量和Q向量的点积为
I′i·Q′=IiM·M-1QT=Ii·QT
本发明由五个阶段组成,每个阶段中有相应的算法,描述如下。
(1)训练:在训练阶段,数据所有者训练Word2vec模型并为每个文件创建关键字向量。
(2)索引:数据拥有者构建关键字矩阵,生成秘密文件索引。
(3)陷门:数据拥有者将对称密钥通过安全信道发送给数据用户,数据用户将搜索请求作为输入,生成搜索陷门。
(4)加密:数据拥有者对索引加密,数据用户对陷门加密。
(5)匹配:在匹配搜索阶段,云服务器调用该算法对加密文件进行搜索,将最相似的密文发送给数据用户。
具体过程如下:
(1)训练算法过程:
为了满足用户的复杂语义搜索需求,数据拥有者通过Word2vec神经网络训练文件集合,并使用tf×idf替换算法中哈夫曼树的权重,从而获得有关一词多义或是多词一义的表达信息。
基于Word2vec的训练算法的具体步骤如下。首先基于输入语料,根据词频来建立哈夫曼树,随机初始化每个树节点参数,以及初始化词向量。之后梯度上升训练每一个样本w。假设上下文大小为2c,步长为a,第一步需要求解样本w上下文平均向量:
Figure BDA0003380652570000081
通过对每一个xw通过最大似然的方式对Sigmoid求积的函数进行优化:
Figure BDA0003380652570000082
Figure BDA0003380652570000083
Figure BDA0003380652570000084
sum=sum+Gradx
最后对于上下文中的每个x进行更新:xi=xi+sum,xi为第i个样本的上下文平均向量。若梯度收敛则此向量结束,否则重复迭代直到收敛。
数据用户根据个人喜好或工作需求,通过安全信道向数据拥有者提出申请。数据拥有者对用户的身份进行认证和对用户的权限进行判断,通过后数据用户生成搜索陷门。即设置搜索陷门中对应关键字元素位置为1,其余为0。其次还会遇到一种特殊情况,如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′,那么使用训练后的关键词模型,数据拥有者可以在训练过的关键词模型中找到一个与w′最相似的关键词wi,wi为关键词模型中第i个关键词。关键词w′到wi的相似度得分sci计算如下:
sci=sim(w′,wi)=w′·wi
然后,数据用户使用wi·sci来代替w′来构建搜索陷门矩阵Q=[qij]m×n,m×n为矩阵的维度,即m行n列,qij为矩阵Q中的第i行第j列的元素。
(2)索引算法
由数据拥有者运行。数据拥有者的密钥设置为sk=(S,M1,M2),一个m×n随机矩阵S=[sij]m×n(sij∈{0,1},sij为矩阵S中的第i行第j列的元素)和两个n×n随机矩阵M1,M2用于加密文件,其中m×n是所有关键字的数量,n要比m大得多。数据拥有者使用提取的关键字构建关键字矩阵W,即W=[wij]m×n,wij为单个文件关键字向量,矩阵W中的第i行第j列的元素。
数据拥有者使用矩阵S将文件v的关键字矩阵wv划分为矩阵Ia=[aij]m×n和矩阵Ib=[bij]m×n,基于密钥S中的每一个Sij做如下划分:如果sij=1,令r为随机数,
Figure BDA0003380652570000091
如果sij=0,令aij=bij=wij
(3)陷门算法
数据用户使用矩阵S划分搜索矩阵Q=[qij]m×n(qij为单个查询关键字向量)到矩阵Qa=[xij]m×n和矩阵Qb=[yij]m×n,基于密钥S中的每一个Sij做如下划分:如果sij=1,令aij=bij=qij;如果sij=0,令r为随机数,
Figure BDA0003380652570000092
Figure BDA0003380652570000093
如果sij=0,令aij=bij=qij
(4)加密算法
非对称向量积保持加密算法(Asymmetric Scalar-Product-PreservingEncryption,ASPE)是一种向量加密机制。令EQ为查询向量的加密算法,EI为索引向量的加密算法。索引向量的密文I′i和查询向量的密文Q′创建如下:
I′i=EI(Ii,M)=IiM
Q′=EQ(Q,M)=M-1QT
其中M作为密钥。ASPE方案可以保持I向量和Q向量的点积为
I′i·Q′=IiM·M-1QT=Ii·QT
因为ASPE支持安全准确的kNN查询计算,同时针对数据拥有者文件中若需要存储更多的关键字数量,那么将索引从一维向量到多维矩阵的转换占用空间更小。所以本发明中利用哈达玛乘积将ASPE方案从一维扩展到多维,从而可以支持更广泛的应用。扩展方式如下。
在本发明中,索引和查询被编码成两个m×n矩阵,即
Figure BDA0003380652570000101
Figure BDA0003380652570000102
通过使用哈达玛乘积和ASPE方案来构建公式如下:
针对密钥为
Figure BDA0003380652570000103
文件v的索引为
Figure BDA0003380652570000104
索引加密算法EI如下:
Figure BDA0003380652570000105
针对密钥
Figure BDA0003380652570000106
陷门
Figure BDA0003380652570000107
陷门加密算法EQ如下:
Figure BDA0003380652570000108
匹配过程的算法如下:
Figure BDA0003380652570000109
因此,矩阵(IvM)*(M-1QT)T的所有元素的总和计算为
Figure BDA00033806525700001010
本发明的算法设计在保证哈达玛乘积与ASPE方案组合的正确性的基础上,将ASPE方案从一维扩展到多维,从而可以降低存储空间占用成本和通信成本,显著提高计算效率。
数据拥有者利用密钥S,并使用扩展后的ASPE加密方案EI将文件v的索引矩阵{Ia,Ib}加密为Indexv={I′a,I′b},其中I′a=EI(Ia,M1)=IaM1,I′b=EI(Ib,M2)=IbM2
数据用户利用密钥S,并使用扩展后的ASPE加密方案EQ将查询Q的陷门矩阵{Qa,Qb}加密为TDQ={Q′a,Q′b},其中
Figure BDA0003380652570000111
Figure BDA0003380652570000112
(5)匹配算法过程
数据用户为了搜索文件,首先向数据拥有者提出请求,再向云服务器发送一个搜索陷门。由于文件索引和搜索陷门都有加密形式,云服务器在匹配过程中不会泄露文件和查询信息。云服务器通过本发明中扩展后的ASPE方案匹配算法获取匹配文件:
Figure BDA0003380652570000113
设w*Q的元素为[wijqij]m×n,云服务器计算矩阵w*Q的所有元素之和如下:
Figure BDA0003380652570000114
Tanimoto系数又称为广义的Jaccard相关系数。设A和B为两个样本向量,Tanimoto系数表达式为:
Figure BDA0003380652570000115
向量中的每一位代表了可以对样本进行衡量的一个维度,但是不再对取值做出限制。A·B表示向量点积,
Figure BDA0003380652570000121
表示向量的模。
本发明中通过计算索引与搜索陷门之间的Tanimoto系数:
Figure BDA0003380652570000122
最后,云服务器根据Tanimoto系数值从大到小排序,并选择与数据用户相关度最高的文件。
本发明的优点在于:
1)更高的模糊搜索准确率:
如图1所示,基于Word2vec训练算法的可搜索加密方案可以达到较高的精度,在语义模糊搜索方面展现了优越的性能表现。
2)更快的搜索效率:
考虑到原始的ASPE方案,假设关键字的数量为n,这意味着该方案需要执行O(n2)次点乘运算和O(n-1)次加法运算。本发明中通过通过对ASPE方案进行改进,如图2所示,搜索过程只需要O(n)次点乘运算和O(n-1)次加法运算,进一步提高了搜索的效率。
原始ASPE方案中查询和匹配时间都与文件数量成线性关系,本发明中通过对ASPE方案进行改进,极大得降低了高文档数量下搜索时间所需成本,如图3所示,提高了搜索能力。
3)降低了通信成本:
扩展后的ASPE方案针对更多的关键字数量,从一维向量到多维矩阵的转换使得文件的索引占用空间更小。显然,这种方法可以显著提高计算效率并降低通信成本。

Claims (7)

1.一种基于Word2vec和ASPE的高效模糊可搜索加密方法,包括训练阶段、索引阶段、陷门阶段、加密阶段和匹配阶段,其特征在于,训练阶段,通过计算词向量间的空间距离来表示词语间的语义相似度。
2.如权利要求1所述的于基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:训练阶段,设置搜索陷门中对应关键字元素位置为1,其余为0;另外,如果数据用户的申请中出现了不在数据拥有者的关键字列表中的词w′,那么使用训练后的关键词模型,数据拥有者在训练过的关键词模型中找到一个与w′最相似的关键词wi,wi为关键词模型中第i个关键词;关键词w′到wi的相似度得分sci,即词向量间的空间距离,计算如下:
sci=sim(w′,wi)
然后,数据用户使用wi·sci来代替w′来构建搜索陷门矩阵Q=[qij]m×n,m×n为矩阵的维度,即m行n列,qij为矩阵Q中的第i行第j列的元素。
3.如权利要求1所述的基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:索引阶段,数据拥有者的密钥设置为sk=(S,M1,M2),一个m×n随机矩阵S=[sij]m×n和两个n×n随机矩阵M1,M2用于加密文件,sij∈{0,1},sij为矩阵S中的第i行第j列的元素,其中m×n是所有关键字的数量,n要比m大得多;数据拥有者使用提取的关键字构建关键字矩阵W,即W=[wij]m×n,wij为单个文件关键字向量,矩阵W中的第i行第j列的元素;
数据拥有者使用矩阵S将文件v的关键字矩阵wv划分为矩阵Ia=[aij]m×n和矩阵Ib=[bij]m×n,基于密钥S中的每一个Sij做如下划分:如果sij=1,令r为随机数,
Figure FDA0003380652560000011
如果sij=0,令aij=bij=wij
4.如权利要求1所述的基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:陷门阶段,数据用户使用矩阵S划分搜索矩阵Q=[qij]m×n到矩阵Qa=[xij]m×n和矩阵Qb=[yij]m×n,qij为单个查询关键字向量,基于密钥S中的每一个Sij做如下划分:如果sij=1,令aij=bij=qij;如果sij=0,令r为随机数,
Figure FDA0003380652560000021
如果sij=0,令aij=bij=qij
5.如权利要求1所述的基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:加密阶段,利用哈达玛乘积将ASPE方案从一维扩展到多维运算。
6.如权利要求5所述的基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:加密阶段,利用哈达玛乘积将ASPE方案从一维扩展到多维运算的过程如下:
使用哈达玛乘积和ASPE方案来构建公式如下:
针对密钥为
Figure FDA0003380652560000022
文件v的索引为
Figure FDA0003380652560000023
索引加密算法EI如下:
Figure FDA0003380652560000024
针对密钥
Figure FDA0003380652560000025
陷门
Figure FDA0003380652560000026
陷门加密算法EQ如下:
Figure FDA0003380652560000027
匹配过程的算法如下:
Figure FDA0003380652560000028
因此,矩阵(IvM)*(M-1QT)T的所有元素的总和计算为
Figure FDA0003380652560000029
Figure FDA00033806525600000210
数据拥有者利用密钥S,并使用扩展后的ASPE加密方案EI将文件v的索引矩阵{Ia,Ib}加密为Indexv={I′a,I′b},其中I′b=EI(Ia,M1)=IaM1,I′b=EI(Ib,M2)=IbM2
数据用户利用密钥S,并使用扩展后的ASPE加密方案EQ将查询Q的陷门矩阵{Qa,Qb}加密为TDQ={Q′a,Q′b},其中
Figure FDA0003380652560000031
Figure FDA0003380652560000032
7.如权利要求6所述的基于Word2vec和ASPE的高效模糊可搜索加密方法,其特征在于:匹配阶段,云服务器通过扩展后的ASPE方案匹配算法获取匹配文件:
Figure FDA0003380652560000033
设w*Q的元素为[wijqij]m×n,云服务器计算矩阵w*Q的所有元素之和如下:
Figure FDA0003380652560000034
计算索引与搜索陷门之间的Tanimoto系数:
Figure FDA0003380652560000035
最后,云服务器根据Tanimoto系数值从大到小排序,并选择与数据用户相关度最高的文件。
CN202111432262.1A 2021-11-29 2021-11-29 一种基于Word2vec和ASPE的高效模糊可搜索加密方法 Pending CN114398660A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111432262.1A CN114398660A (zh) 2021-11-29 2021-11-29 一种基于Word2vec和ASPE的高效模糊可搜索加密方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111432262.1A CN114398660A (zh) 2021-11-29 2021-11-29 一种基于Word2vec和ASPE的高效模糊可搜索加密方法

Publications (1)

Publication Number Publication Date
CN114398660A true CN114398660A (zh) 2022-04-26

Family

ID=81225473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111432262.1A Pending CN114398660A (zh) 2021-11-29 2021-11-29 一种基于Word2vec和ASPE的高效模糊可搜索加密方法

Country Status (1)

Country Link
CN (1) CN114398660A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668886A (zh) * 2024-01-25 2024-03-08 南通云链通信息科技有限公司 一种小程序开发数据的安全存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190121873A1 (en) * 2017-10-24 2019-04-25 University Of Louisiana At Lafayette Architecture for semantic search over encrypted data in the cloud
CN111835731A (zh) * 2020-06-19 2020-10-27 北京航空航天大学 新型抗文件注入攻击的动态对称可搜索加密方法和装置
CN112257455A (zh) * 2020-10-21 2021-01-22 西安电子科技大学 一种语义理解的密文空间关键字检索方法及系统
CN113132345A (zh) * 2021-03-04 2021-07-16 北京航空航天大学 具有可搜索功能的代理隐私集合求交方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190121873A1 (en) * 2017-10-24 2019-04-25 University Of Louisiana At Lafayette Architecture for semantic search over encrypted data in the cloud
CN111835731A (zh) * 2020-06-19 2020-10-27 北京航空航天大学 新型抗文件注入攻击的动态对称可搜索加密方法和装置
CN112257455A (zh) * 2020-10-21 2021-01-22 西安电子科技大学 一种语义理解的密文空间关键字检索方法及系统
CN113132345A (zh) * 2021-03-04 2021-07-16 北京航空航天大学 具有可搜索功能的代理隐私集合求交方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
方忠进;周舒;夏志华;: "基于关键词的加密云数据模糊搜索策略研究", 计算机科学, vol. 42, no. 3, 15 March 2015 (2015-03-15), pages 136 - 139 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117668886A (zh) * 2024-01-25 2024-03-08 南通云链通信息科技有限公司 一种小程序开发数据的安全存储方法
CN117668886B (zh) * 2024-01-25 2024-04-12 南通云链通信息科技有限公司 一种小程序开发数据的安全存储方法

Similar Documents

Publication Publication Date Title
Zhang et al. SE-PPFM: A searchable encryption scheme supporting privacy-preserving fuzzy multikeyword in cloud systems
CN108388807B (zh) 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法
Sood et al. Probabilistic near-duplicate detection using simhash
CN109885640B (zh) 一种基于α叉索引树的多关键词密文排序检索方法
CN112257455B (zh) 一种语义理解的密文空间关键字检索方法及系统
CN109992978B (zh) 信息的传输方法、装置及存储介质
Wang et al. Towards efficient privacy-preserving encrypted image search in cloud computing
Damie et al. A highly accurate {Query-Recovery} attack against searchable encryption using {Non-Indexed} documents
CN111552849A (zh) 可搜索加密方法、系统、存储介质、车载网、智能电网
CN109885650B (zh) 一种外包云环境隐私保护密文排序检索方法
CN110727951B (zh) 具有隐私保护的轻量级外包文件多关键词检索方法及系统
Chen et al. A hierarchical clustering method for big data oriented ciphertext search
Hu et al. Efficient wildcard search over encrypted data
CN111177787B (zh) 多数据拥有者环境中基于属性的连接关键字搜索方法
CN111859421A (zh) 一种基于词向量的多关键字密文存储、检索方法及系统
CN111427998A (zh) 一种云数据多关键字扩展权值的安全密文查询方法
CN110222012B (zh) 单一用户环境下基于细粒度排序的数据密文查询方法
CN114398660A (zh) 一种基于Word2vec和ASPE的高效模糊可搜索加密方法
Liang et al. Secure and efficient image retrieval over encrypted cloud data
Wang et al. Enabling efficient approximate nearest neighbor search for outsourced database in cloud computing
CN112966086A (zh) 一种基于位置敏感哈希函数的可验证模糊搜索方法
Zhao et al. Privacy-preserving personalized search over encrypted cloud data supporting multi-keyword ranking
Mayan et al. Semantic based multi lexical ranking technique for an effective search in protected cloud
CN112836005B (zh) 一种基于pca的密文排序搜索方法及系统
CN113158245A (zh) 一种文档搜索的方法、系统、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination