CN112257455B - 一种语义理解的密文空间关键字检索方法及系统 - Google Patents

一种语义理解的密文空间关键字检索方法及系统 Download PDF

Info

Publication number
CN112257455B
CN112257455B CN202011135390.5A CN202011135390A CN112257455B CN 112257455 B CN112257455 B CN 112257455B CN 202011135390 A CN202011135390 A CN 202011135390A CN 112257455 B CN112257455 B CN 112257455B
Authority
CN
China
Prior art keywords
probability distribution
query
vector
text
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011135390.5A
Other languages
English (en)
Other versions
CN112257455A (zh
Inventor
马建峰
李佳忆
苗银宾
杨帆
李颖莹
马卓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202011135390.5A priority Critical patent/CN112257455B/zh
Publication of CN112257455A publication Critical patent/CN112257455A/zh
Application granted granted Critical
Publication of CN112257455B publication Critical patent/CN112257455B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语义理解的空间关键字密文检索方法及系统,包括密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块。通过提取空间对象和用户查询的语义特征,使用户可以在密文上查询到符合自己查询意图并且距离近的空间对象。此发明采用的密文索引构建方式提高了密文空间关键字检索的精度,同时满足了用户针对距离和文本的查询需求。此外,本方案的密文查询算法在保证了空间对象数据以及用户检索信息的安全性和隐私性的同时提高了查询效率。

Description

一种语义理解的密文空间关键字检索方法及系统
技术领域
本发明涉及可搜索加密技术领域,具体为一种语义理解的密文空间关键字检索方法及系统。
背景技术
空间关键字检索涉及大量的空间对象数据,其查询过程需要耗费大量计算开销。此时,数据拥有者往往选择将空间对象数据外包至云服务器,让云服务器来进行存储和计算。然而,由于数据拥有者丧失了对外包数据的直接控制,数据安全性和隐私性无法得到保障。尤其是空间对象数据中包含位置坐标等敏感信息,对空间对象数据进行加密必不可少。
传统的空间关键字查询算法只针对明文数据,用户无法直接查询云服务器中存储的密文数据。其次,传统的空间关键字查询算法也无法提取用户检索的关键字的语义信息,导致无法获取用户查询意图,查询精确度不高。
钱志虎在其发表的论文“基于语义理解的空间关键字查询”(苏州大学.2018)中提出了一种基于语义理解的空间关键字查询方法。该方法在传统的空间关键字查询基础上加入了对空间对象文本描述的语义信息提取。其具体方法为,针对文本语义,利用隐含狄利克雷分布主题模型(LDA模型)提取文本语义特征。但该方法只支持明文查询,无法保护数据拥有者的隐私。
西安电子科技大学在其申请的专利文献“单一用户环境下基于细粒度排序的数据密文查询方法”中公开了一种单一用户环境下基于细粒度排序的数据密文查询方法,该方法存在的不足之处是:无法提取数据使用者查询中的语义信息,导致搜索准确率受限。且该方案中的文档索引是与字典同样长度的向量。其维数较大,导致计算开销大,查询效率低。
发明内容
针对现有技术中存在的问题,本发明提供一种语义理解的密文空间关键字检索方法,该方法在利用可搜索加密算法和自然语言处理模型,实现对密文空间对象文本和距离的混合查询,提高查询精度和效率。
本发明是通过以下技术方案来实现:
一种语义理解的密文空间关键字检索方法,包括以下步骤:
步骤1、生成AES密钥,以及可搜索加密算法密钥;
步骤2、提取空间对象文本描述的文本-主题概率分布向量,以及每个词语在主题上的词语-主题概率分布向量,根据文本-主题概率分布向量确定出文本集-主题概率分布向量,根据文本-主题概率分布向量和词语-主题概率分布向量确定词语在文本集上的词语-文本集概率分布向量;
步骤3、根据空间对象的文本-主题概率分布向量和对应空间位置坐标,给每个空间对象构建明文索引,并对明文索引进行加密,形成密文索引;
步骤4、根据步骤2中得到的文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句中关键字的查询-主题概率分布向量,将数据使用者的空间位置坐标与查询-主题概率分布向量结合生成查询向量,采用可搜索加密算法密钥对查询向量进行加密,得到查询陷门;
步骤5、根据查询陷门和密文索引确定空间对象与查询语句之间的混合相似度并排序,将排序靠前的k个密文索引对应的空间对象的加密数据发送给数据使用者,数据使用者利用AES密钥对其解密。
优选的,步骤2利用自然语言处理模型提取每个空间对象的文本描述在各个主题上的文本-主题概率分布向量VD,以及每个词语在各个主题上的词语-主题概率分布向量VK
优选的,步骤2中确定词语-文本集概率分布向量的方法如下:
数据拥有者将所有对象文本描述的文本-主题概率分布向量VD相加并除以对象个数,获取反映各个主题在文本集出现的文本集-主题概率分布向量Pt
数据拥有者根据文本集-主题概率分布向量Pt以及每个词语的词语-主题概率分布向量VK,计算各个词语在文本集中出现的词语-文本集概率分布向量Pω
优选的,步骤3中构建密文索引的方法如下:
将空间对象位置坐标添加在文本-主题概率分布向量后面并进行合并形成明文索引Di,对明文索引的维度进行扩充,采用可搜索加密算法密钥SK对扩充后的明文索引/>进行加密,从而得到空间对象的密文索引Ii
优选的,所述扩充后的明文索引加密时,首先对其进行分割,然后对分割得到的和/>分别进行加密;
分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第j位为0,都置为/>若S的第j位为1,/>和/>置为两个随机数,其和为/>
加密过程如下:用可搜索加密算法密钥SK中的{M1,M2}分别点乘得到每个空间对象oi的密文索引/>
优选的,步骤4中所述查询语句中关键字的查询-主题概率分布向量Qw的确定方法如下:
其中,Pt为文本集-主题概率分布向量;Pw为词语-文本集概率分布向量;MK是词语-主题概率分布矩阵,Qd为查询关键字集合,|Qd|为查询关键词个数;o符号为向量间的哈达玛积。
优选的,步骤4中所述查询向量Q的加密方法如下,
首选对查询向量Q的维度进行扩充,得到扩充后的查询向量然后对查询向量/>进行分割得到分割后的查询向量/>和/>最后对分别对分割的查询向量进行加密,得到查询陷门;
分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第i位为1,都置为/>若S的第i位为0,/>和/>置为两个随机数,其和为/>
加密过程如下:用可搜索加密算法密钥SK中的{M1,M2}分别点乘得到查询陷门/>
优选的,步骤5中混合相似度的计算方法如下:
其中:为查询陷门;/>为第i个空间对象的密文索引;M1和M2为可搜索加密算法密钥SK中的两个可逆矩阵。
等于查询语句中的关键字和第i个空间对象的语义相关度,(||λi||2-2λiλq+||λq||)等于数据使用者查询位置和空间对象坐标的欧氏距离的平方,δ为查询权重。
优选的,所述密文数据,采用AES密钥对各个空间对象的名称、地理位置坐标和文本描述数据进行AES加密形成加密数据。
一种语义理解的密文空间关键字检索方法的系统,包括密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块;
密钥模块,用于数据拥有者生成AES密钥和可搜索加密算法密钥,并将可搜索加密算法密钥发送至数据使用者;
语义信息提取模块,利用自然语言处理模型提取每个空间对象文本在各个主题下出现的文本-主题概率分布向量,以及每个词语在各个主题上出现的词语-主题概率分布向量,并根据文本-主题概率分布向量计算出文本集-主题概率分布向量,再根据文本集-主题概率分布向量和词语-主题概率分布向量确定各个词语在文本集中出现的词语-文本集概率分布向量;
加密索引构建模块,用于数据拥有者根据空间对象的文本-主题概率分布向量和空间位置坐标为每个空间对象构建明文索引,并利用可搜索加密算法对明文索引进行加密,同时将每个空间对象的数据进行AES加密,最后将加密形成的密文索引和密文数据发送给云服务器;
陷门生成模块,用于数据使用者根据文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句的查询-主题概率分布向量Qw,将数据使用者的空间位置坐标与查询-主题概率分布向量Qw结合生成查询向量Q,采用可搜索加密算法的密钥对查询向量进行加密,得到查询陷门,并将其发送给云服务器;
查询模块,用于云服务器对查询陷门和各个空间对象的密文索引进行混合相似度计算并进行排序,将排序前k个对象的加密文件发送给数据使用者。与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的一种语义理解的密文空间关键字检索方法,根据空间对象的文本-主题概率分布向量和对应空间位置坐标利用可搜索加密算法构建密文索引,保证空间对象文本描述和位置坐标的安全性和隐私性,将数据使用者的空间位置坐标与查询-主题概率分布向量结合生成查询向量,并对其加密生成查询陷门,从而保护查询信息。整体方案达到了外包数据隐私保护的要求,采用文本的主题概率分布构建空间对象索引,与现有技术基于字典实现关键字密文检索相比,具有计算开销小,查询准确率高且支持语义感知的优点。通过提取空间对象文本描述和用户查询语句的语义特征,使用户可以在密文上查询到符合自己查询意图并且距离近的空间对象,提高了密文空间关键字检索的效率,保证了空间文本数据以及用户检索信息的安全性和隐私性,并提高了查询效率。
附图说明
图1为本发明检索方法的流程图;
图2为本发明空间对象索引生成流程图;
图3为本发明查询陷门生成流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
参阅图1,一种语义理解的密文空间关键字检索方法,包括以下步骤:
步骤1、数据拥有者生成AES密钥skAES和可搜索加密算法密钥SK,数据拥有者将可搜索加密算法密钥发送至数据使用者;
AES密钥skAES用于对空间对象进行AES加密,可搜索加密算法密钥SK用于建立密文索引和查询陷门。
可搜索加密算法密钥SK包含随机生成的二进制向量S、可逆矩阵M1,M2。其中,向量S长度为n+4,M1与M2均为(n+4)×(n+4)方阵。
步骤2、数据拥有者采用属于自然语言处理模型的LDA主题模型来提取空间对象文本描述中的语义特征,得到每个空间对象文本描述对应的文本-主题概率分布向量VD,以及每个词语在各个主题上的词语-主题概率分布向量VK,并根据主题概率分布向量VD得到文本集-主题分布向量Pt,根据Pt和词语概率分布向量VK共同确定各个词语在文本集中出现的词语-文本集概率分布向量Pω
参阅图2,具体过程如下:
S2.1数据拥有者对每个空间对象的文本描述进行预处理,首先将文本中标点符号、特殊字符以及无含义词去除,再对单词进行词干提取,最后将文本描述向量化;
S2.2数据拥有者将预处理后的文本用于训练LDA(LatentDirichletAllocation)主题模型,LDA主题模型输出每个空间对象的文本描述在各个主题上的概率分布向量(文本-主题概率分布向量)VD,以及每个词语在各个主题上的概率分布向量(词语-主题概率分布向量)VK,VD和Vk为n维;
S2.3数据拥有者以文本-主题概率分布向量VD为行向量构成文本-主题概率分布矩阵MD,以词语-主题概率分布向量VK为行向量构成词语-主题概率分布矩阵MK
S2.4数据拥有者将所有对象文本描述的主题概率分布向量VD相加并除以对象个数,获取反映每个主题在文本集出现的概率向量(文本集-主题概率分布向量)Pt
S2.5数据拥有者根据主题在文本集出现的概率向量Pt以及词语-主题概率分布矩阵MK,计算各个词语在文本集中出现的概率向量(词语-文本集概率分布向量)Pω
Pω=Pt·MK T
步骤3、根据空间对象的文本-主题概率分布向量VD和空间位置坐标λ=(x,y)为每个空间对象构建明文索引,并利用可搜索加密算法密钥对索引进行分割、加密。
具体的,将空间对象位置坐标添加在主题概率分布向量VD后面并进行合并形成明文索引,对合并后的向量进行扩充至n+4维,采用可搜索加密算法密钥SK对扩充后的向量进行加密,从而得到空间对象的密文索引。
具体过程如下(以第i个空间对象为例):
S3.1数据拥有者将第i个空间对象oi对应的文本-主题概率分布向量与其空间位置坐标λi=(x,y)合并为向量/>并将其作为空间对象的明文索引;
S3.2对明文索引Di的维度进行扩充,即在Di末尾依次添加-0.5||λi||2和1,扩充后向量记为
S3.3数据拥有者利用可搜索加密算法密钥SK将空间对象的数据向量进行分割并加密,为其生成一个密文索引。
分割规则如下:若S的第j位为0,和/>都置为/>若S的第j位为1,/>和/>置为两个和为/>的随机数。
加密过程如下:数据拥有者用可搜索加密算法密钥SK中的{M1,M2}分别加密得到每个空间对象oi的密文索引/>
S3.5数据拥有者利用AES密钥对各个空间对象的名称、地理位置坐标和文本描述数据进行AES加密,形成加密数据;
S3.6数据拥有者将加密数据和密文索引上传到云服务器上。
S3.7数据拥有者将词语-主题概率分布向量、文本集-主题概率分布向量以及词语-文本集概率分布向量发送至数据使用者,作为后续计算中的辅助向量。
步骤4、数据使用者利用LDA主题模型的训练结果(即辅助向量)提取查询语句中的语义特征,得到查询语句中关键字在各个主题上的出现的概率向量(查询-主题概率分布向量)Qw,将使用者的坐标与查询-主题概率分布向量Qw结合生成查询向量Q,采用可搜索加密算法密钥SK对查询向量进行加密,得到查询陷门。
参阅图3,具体过程如下:
S4.1根据词语在文本集上的词语-文本集概率分布向量Pω计算查询语句中关键字的查询-主题概率分布向量Qw
其中,Pt为文本集-主题概率分布向量;Pw为词语-文本集概率分布向量;MK是词语-主题概率分布矩阵;Qd为查询关键字集合,|Qd|为查询关键词个数;o符号为计算向量间的哈达玛积(Hadamard product)。
S4.2数据使用者将关键字的查询-主题概率分布向量Qw与查询点的地理位置坐标λq=(xq,yq)结合,生成查询向量Q;
S4.3数据使用者将查询向量Q扩展至n+4维,扩展后的查询向量记为其中/>的第n+3位为1,第n+4位为-0.5||λq||2
S4.4数据使用者根据自身查询偏好(侧重空间距离或侧重文本相似度)设定查询权重δ,从而调整查询结果。
S4.5数据使用者利用可搜索加密算法的密钥SK中的二进制向量S将查询向量分割为两个n+4维的随机向量/>
其分割规则如下:若S的第j位为1,和/>都置为/>若S的第j位为0,和/>置为两个随机数,其和为/>
S4.6数据使用者用可搜索加密算法的密钥SK中的可逆矩阵{M1,M2}对随机向量进行加密,得到陷门/>并将生成的陷门T发送至云服务器。
步骤5、云服务器将空间对象的密文索引与查询陷门进行内积计算,并把计算结果最大的k个密文索引对应的空间对象的加密数据发送给数据使用者。具体来说,云服务器根据查询陷门T和密文索引I确定空间对象与查询语句之间的混合相似度,并按照从大到小对各个密文索引的混合相似度进行排序,将排名的前k个密文索引对应的空间对象加密数据返回给数据使用者,数据使用者利用AES密钥skAES对接收到的k个密文数据进行解密,得到对应的空间对象明文信息,即空间对象的名称、地理位置以及文本描述。其中,
计算索引混合相似度的计算公式如下:
其中,代表查询语句中的关键字和第i个空间对象的语义相关度,(||λi||2-2λiλq+||λq||)代表数据使用者查询位置和空间对象坐标的欧氏距离的平方。在经过权重δ调整后,云服务器得到用户查询与空间对象的混合相关度。
一种语义理解的密文空间关键字检索系统,包括依次连接的密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块。
密钥模块,数据拥有者生成AES密钥skAES和可搜索加密算法密钥SK;数据拥有者将可搜索加密算法密钥发送至数据使用者。
语义信息提取模块,利用自然语言处理模型提取每个空间对象文本在各个主题下出现的概率(文本-主题概率分布向量)VD,以及每个词语在各个主题上出现概率(词语-主题概率分布向量)VK。并根据文本-主题概率分布向量计算出文本集-主题概率分布向量Pt。根据Pt和VK计算各个词语在文本集中出现的概率向量(词语-文本集概率分布向量)Pω
加密索引构建模块,用于数据拥有者根据空间对象的文本-主题概率分布向量和空间位置坐标为每个空间对象构建明文索引,并利用可搜索加密算法对明文索引进行加密,同时将每个空间对象的数据进行AES加密,最后将加密形成的密文索引和密文数据发送给云服务器;
陷门生成模块,用于数据使用者根据文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句的查询-主题概率分布向量Qw,将数据使用者的空间位置坐标与查询-主题概率分布向量Qw结合生成查询向量Q,采用可搜索加密算法的密钥对查询向量进行加密,得到查询陷门,并将其发送给云服务器;
查询模块,用于云服务器在查询模块中使用查询陷门对空间对象的密文索引进行混合相似度计算,在对相似度进行排序后,将前k个对象的加密文件发送给数据使用者,由数据使用者对接收到的密文数据进行解密。
本发明提供的一种语义理解的密文空间关键字检索方法,数据拥有者在将对空间数据及其索引外包至云服务器之前,对其进行加密,保证空间对象文本描述和位置坐标的安全性和隐私性。数据使用者在发送查询语句之前通过加密生成查询陷门,从而保护查询信息。整体方案达到了外包数据隐私保护的要求。
其次,本发明利用LDA主题模型提取空间对象和查询语句中的语义信息,并将语义信息与位置坐标结合,获取支持混合查询的空间对象的密文索引和查询陷门,返回给用户符合其查询意图且靠近其位置的空间对象。采用主题概率分布构建空间对象的密文索引,与现有技术基于字典实现关键字密文检索相比,具有计算开销小,查询效率高、支持语义感知的优点。
本发明可用于在云存储背景下用户对云服务器中的空间对象的密文索引进行具有语义感知功能的混合查询,同时满足用户针对距离和文本的查询需求,在保护数据安全性和隐私性的情况下,返回的结果可以在完全符合用户的搜索意图和靠近用户所在位置上进行调节。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (6)

1.一种语义理解的密文空间关键字检索方法,其特征在于,包括以下步骤:
步骤1、生成AES密钥,以及可搜索加密算法密钥;
步骤2、提取空间对象文本描述的文本-主题概率分布向量,以及每个词语在主题上的词语-主题概率分布向量,根据文本-主题概率分布向量确定出文本集-主题概率分布向量,根据文本-主题概率分布向量和词语-主题概率分布向量确定词语在文本集上的词语-文本集概率分布向量;
步骤3、根据空间对象的文本-主题概率分布向量和对应空间位置坐标,给每个空间对象构建明文索引,并对明文索引进行加密,形成密文索引;
所述构建密文索引的方法如下:
将空间对象位置坐标添加在文本-主题概率分布向量VDi后面并进行合并形成明文索引Di,对明文索引的维度进行扩充,采用可搜索加密算法密钥SK对扩充后的明文索引进行加密,从而得到空间对象的密文索引Ii
所述扩充后的明文索引加密时,首先对其进行分割,然后对分割得到的/>和/>分别进行加密;
分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第j位为0,和/>都置为/>若S的第j位为1,/>和/>置为两个随机数,其和为/>
加密过程如下:用可搜索加密算法密钥SK中的{M1,M2}分别点乘得到每个空间对象oi的密文索引/>
步骤4、根据步骤2中得到的文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句中关键字的查询-主题概率分布向量,将数据使用者的空间位置坐标与查询-主题概率分布向量结合生成查询向量,采用可搜索加密算法密钥对查询向量进行加密,得到查询陷门;
所述查询语句中关键字的查询-主题概率分布向量Qw的确定方法如下:
其中,Pt为文本集-主题概率分布向量;Pw为词语-文本集概率分布向量;MK是词语-主题概率分布矩阵,Qd为查询关键字集合,|Qd|为查询关键词个数;符号为向量间的哈达玛积;
所述查询向量Q的加密方法如下:
首先对查询向量Q的维度进行扩充,得到扩充后的查询向量然后对查询向量/>进行分割得到分割后的查询向量/>和/>对分割的查询向量进行加密,得到查询陷门;
分割规则如下:若可搜索加密算法密钥SK中的二进制向量S的第i位为1,和/>都置为/>若S的第i位为0,/>和/>置为两个随机数,其和为/>
加密过程如下:用可搜索加密算法密钥SK中的{M1,M2}分别点乘得到查询陷门/>
步骤5、根据查询陷门和密文索引确定空间对象与查询语句之间的混合相似度并排序,将排序靠前的k个密文索引对应的空间对象的加密数据发送给数据使用者,数据使用者利用AES密钥对其解密。
2.根据权利要求1所述的一种语义理解的密文空间关键字检索方法,其特征在于,步骤2利用自然语言处理模型提取每个空间对象的文本描述在各个主题上的文本-主题概率分布向量VD,以及每个词语在各个主题上的词语-主题概率分布向量VK
3.根据权利要求1所述的一种语义理解的密文空间关键字检索方法,其特征在于,步骤2中确定词语-文本集概率分布向量的方法如下:
数据拥有者将所有对象文本描述的文本-主题概率分布向量VD相加并除以对象个数,获取反映各个主题在文本集出现的文本集-主题概率分布向量Pt
数据拥有者根据文本集-主题概率分布向量Pt以及每个词语的词语-主题概率分布向量VK,计算各个词语在文本集中出现的词语-文本集概率分布向量Pω
4.根据权利要求1所述的一种语义理解的密文空间关键字检索方法,其特征在于,步骤5中混合相似度的计算方法如下:
其中:为查询陷门;/>为第i个空间对象的密文索引;M1和M2为可搜索加密算法密钥SK中的两个可逆矩阵;
VDiQ等于查询语句中的关键字和第i个空间对象的语义相关度,(||λi||2-2λiλq+||λq||)等于数据使用者查询位置和空间对象坐标的欧氏距离的平方,δ为查询权重。
5.根据权利要求1所述的一种语义理解的密文空间关键字检索方法,其特征在于,密文数据,采用AES密钥对各个空间对象的名称、地理位置坐标和文本描述数据进行AES加密形成加密数据。
6.一种权利要求1-5任一项所述的一种语义理解的密文空间关键字检索方法的系统,其特征在于,包括密钥模块、语义信息提取模块、加密索引构建模块、陷门生成模块和查询模块;
密钥模块,用于数据拥有者生成AES密钥和可搜索加密算法密钥,并将可搜索加密算法密钥发送至数据使用者;
语义信息提取模块,利用自然语言处理模型提取每个空间对象文本在各个主题下出现的文本-主题概率分布向量,以及每个词语在各个主题上出现的词语-主题概率分布向量,并根据文本-主题概率分布向量计算出文本集-主题概率分布向量,再根据文本集-主题概率分布向量和词语-主题概率分布向量确定各个词语在文本集中出现的词语-文本集概率分布向量;
加密索引构建模块,用于数据拥有者根据空间对象的文本-主题概率分布向量和空间位置坐标为每个空间对象构建明文索引,并利用可搜索加密算法对明文索引进行加密,同时将每个空间对象的数据进行AES加密,最后将加密形成的密文索引和密文数据发送给云服务器;
陷门生成模块,用于数据使用者根据文本集-主题概率分布向量、词语-主题概率分布向量以及词语-文本集概率分布向量,提取查询语句的查询-主题概率分布向量Qw,将数据使用者的空间位置坐标与查询-主题概率分布向量Qw结合生成查询向量Q,采用可搜索加密算法的密钥对查询向量进行加密,得到查询陷门,并将其发送给云服务器;
查询模块,用于云服务器对查询陷门和各个空间对象的密文索引进行混合相似度计算并进行排序,将排序前k个对象的加密文件发送给数据使用者。
CN202011135390.5A 2020-10-21 2020-10-21 一种语义理解的密文空间关键字检索方法及系统 Active CN112257455B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011135390.5A CN112257455B (zh) 2020-10-21 2020-10-21 一种语义理解的密文空间关键字检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011135390.5A CN112257455B (zh) 2020-10-21 2020-10-21 一种语义理解的密文空间关键字检索方法及系统

Publications (2)

Publication Number Publication Date
CN112257455A CN112257455A (zh) 2021-01-22
CN112257455B true CN112257455B (zh) 2024-04-30

Family

ID=74264582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011135390.5A Active CN112257455B (zh) 2020-10-21 2020-10-21 一种语义理解的密文空间关键字检索方法及系统

Country Status (1)

Country Link
CN (1) CN112257455B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254743B (zh) * 2021-05-31 2022-12-09 西安电子科技大学 一种车联网中动态空间数据的安全语义感知搜索方法
CN113434895B (zh) * 2021-08-27 2021-11-23 平安科技(深圳)有限公司 文本解密方法、装置、设备及存储介质
CN113987144A (zh) * 2021-10-18 2022-01-28 深圳前海微众银行股份有限公司 一种空间文本的查询方法及装置
CN114398660A (zh) * 2021-11-29 2022-04-26 北京航空航天大学 一种基于Word2vec和ASPE的高效模糊可搜索加密方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
CN105743888A (zh) * 2016-01-22 2016-07-06 河南理工大学 一种基于关键字搜索的代理重加密方案
CN106326360A (zh) * 2016-08-10 2017-01-11 武汉科技大学 一种云环境中密文数据的模糊多关键词检索方法
US9679155B1 (en) * 2015-06-12 2017-06-13 Skyhigh Networks, Inc. Prefix search in encrypted text
CN108228849A (zh) * 2018-01-10 2018-06-29 浙江理工大学 云网络中基于类别分组索引的密文排序搜索方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
CN109063509A (zh) * 2018-08-07 2018-12-21 上海海事大学 一种基于关键词语义排序的可搜索加密方法
CN109271485A (zh) * 2018-09-19 2019-01-25 南京邮电大学 一种支持语义的云环境加密文档排序检索方法
CN109471964A (zh) * 2018-10-23 2019-03-15 哈尔滨工程大学 一种基于同义词集的模糊多关键词可搜索加密方法
CN109739945A (zh) * 2018-12-13 2019-05-10 南京邮电大学 一种基于混合索引的多关键词密文排序检索方法
CN109992995A (zh) * 2019-03-05 2019-07-09 华南理工大学 一种支持位置保护和查询隐私的可搜索加密方法
CN110222012A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 单一用户环境下基于细粒度排序的数据密文查询方法
CN110222081A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 多用户环境下基于细粒度排序的数据密文查询方法
CN110727951A (zh) * 2019-10-14 2020-01-24 桂林电子科技大学 具有隐私保护的轻量级外包文件多关键词检索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9760637B2 (en) * 2015-09-11 2017-09-12 Skyhigh Networks, Inc. Wildcard search in encrypted text using order preserving encryption

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
US9679155B1 (en) * 2015-06-12 2017-06-13 Skyhigh Networks, Inc. Prefix search in encrypted text
CN105743888A (zh) * 2016-01-22 2016-07-06 河南理工大学 一种基于关键字搜索的代理重加密方案
CN106326360A (zh) * 2016-08-10 2017-01-11 武汉科技大学 一种云环境中密文数据的模糊多关键词检索方法
CN108228849A (zh) * 2018-01-10 2018-06-29 浙江理工大学 云网络中基于类别分组索引的密文排序搜索方法
CN108647529A (zh) * 2018-05-09 2018-10-12 上海海事大学 一种基于语义的多关键词排序搜索隐私保护系统及方法
CN109063509A (zh) * 2018-08-07 2018-12-21 上海海事大学 一种基于关键词语义排序的可搜索加密方法
CN109271485A (zh) * 2018-09-19 2019-01-25 南京邮电大学 一种支持语义的云环境加密文档排序检索方法
CN109471964A (zh) * 2018-10-23 2019-03-15 哈尔滨工程大学 一种基于同义词集的模糊多关键词可搜索加密方法
CN109739945A (zh) * 2018-12-13 2019-05-10 南京邮电大学 一种基于混合索引的多关键词密文排序检索方法
CN109992995A (zh) * 2019-03-05 2019-07-09 华南理工大学 一种支持位置保护和查询隐私的可搜索加密方法
CN110222012A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 单一用户环境下基于细粒度排序的数据密文查询方法
CN110222081A (zh) * 2019-06-08 2019-09-10 西安电子科技大学 多用户环境下基于细粒度排序的数据密文查询方法
CN110727951A (zh) * 2019-10-14 2020-01-24 桂林电子科技大学 具有隐私保护的轻量级外包文件多关键词检索方法及系统

Also Published As

Publication number Publication date
CN112257455A (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN112257455B (zh) 一种语义理解的密文空间关键字检索方法及系统
CN107220343B (zh) 基于局部敏感哈希的中文多关键词模糊排序密文搜索方法
CN108712366B (zh) 云环境中支持词形词义模糊检索的可搜索加密方法及系统
CN112765306B (zh) 智能问答方法、装置、计算机设备和存储介质
Zhang et al. SE-PPFM: A searchable encryption scheme supporting privacy-preserving fuzzy multikeyword in cloud systems
CN108647529A (zh) 一种基于语义的多关键词排序搜索隐私保护系统及方法
CN111797409B (zh) 一种大数据中文文本无载体信息隐藏方法
CN109992995B (zh) 一种支持位置保护和查询隐私的可搜索加密方法
CN108363689B (zh) 面向混合云的隐私保护多关键词Top-k密文检索方法及系统
CN109992978B (zh) 信息的传输方法、装置及存储介质
CN108171071B (zh) 一种面向云计算的多关键字可排序密文检索方法
CN109739945B (zh) 一种基于混合索引的多关键词密文排序检索方法
CN109255244B (zh) 数据加密方法及其装置、数据加密检索系统
CN105404677A (zh) 一种基于树形结构的检索方法
CN107273467A (zh) 一种支持可搜索加密的安全索引结构及其构造方法
CN111859421A (zh) 一种基于词向量的多关键字密文存储、检索方法及系统
Long et al. Coverless information hiding method based on web text
Raghavendra et al. MSSS: most significant single-keyword search over encrypted cloud data
CN116881739B (zh) 一种面向空间关键字相似性的密文安全检索方法
CN109165520B (zh) 数据加密方法及其装置、数据加密检索系统
CN109271485B (zh) 一种支持语义的云环境加密文档排序检索方法
CN111966778B (zh) 一种基于关键词分组倒排索引的多关键词密文排序检索方法
CN114398660A (zh) 一种基于Word2vec和ASPE的高效模糊可搜索加密方法
CN105426490A (zh) 一种基于树形结构的索引方法
CN114528370A (zh) 动态多关键字模糊排序搜索方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant