CN102034049A - 海量数据压缩加密存储及检索系统及其使用方法 - Google Patents

海量数据压缩加密存储及检索系统及其使用方法 Download PDF

Info

Publication number
CN102034049A
CN102034049A CN2010106126255A CN201010612625A CN102034049A CN 102034049 A CN102034049 A CN 102034049A CN 2010106126255 A CN2010106126255 A CN 2010106126255A CN 201010612625 A CN201010612625 A CN 201010612625A CN 102034049 A CN102034049 A CN 102034049A
Authority
CN
China
Prior art keywords
document
text
compression
index
encrypt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010106126255A
Other languages
English (en)
Other versions
CN102034049B (zh
Inventor
路松峰
吴志杰
赵友桥
胥永康
赵华
张钰
王坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY
Huazhong University of Science and Technology
Original Assignee
COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY, Huazhong University of Science and Technology filed Critical COMPUTER APPLICATION INST CHINA ENGINEERING PHYSICS ACADEMY
Priority to CN2010106126255A priority Critical patent/CN102034049B/zh
Publication of CN102034049A publication Critical patent/CN102034049A/zh
Application granted granted Critical
Publication of CN102034049B publication Critical patent/CN102034049B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Storage Device Security (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供了海量数据压缩加密存储及检索系统及其使用方法,包括:文档结构化处理模块,用于对原始文档进行统一格式化处理;数据压缩与加密模块,用于对格式化处理后的文档、原始文档和索引结构进行压缩和加密存储;压缩密文检索模块,用于对压缩和加密存储的文档进行检索;管理工具,用于对系统进行管理;文档结构化处理模块运行在客户端的计算机上,数据压缩与加密模块和压缩密文检索模块运行在服务器端的计算机上,管理工具运行在管理控制台的计算机上。本发明将压缩和加密技术有机地结合起来,在不解压不解密待检文件的情况下能有效地进行密文的检索。

Description

海量数据压缩加密存储及检索系统及其使用方法
技术领域
本发明属于计算机信息安全领域,具体涉及电子文档压缩加密存储和压缩密文数据安全检索方法。
背景技术
随着信息技术的发展,各个单位已经累积了前所未有数量级的办公、科研和生产数据,其中部分是涉密数据。如何有效安全地存储并在网络上传输这些海量涉密数据以及如何从这些海量数据中安全且快速找到所需的信息都是用户面临的难题。
现有的电子文档安全技术和产品,一般借用操作系统的文件管理机制,采用单纯的文件加密方式来提供安全保障。一般采用文件格式转换、文件夹加密、外设及网络协议等技术,少数采用了内核透明的技术;大部分只支持特定格式的文件,不支持所有格式文件的加密。这些产品和技术无法有效地对大数据量的涉密文档进行管理。
文档压缩加密存储的技术基础是数据压缩与数据加密,而数据压缩和数据加密技术已比较成熟,而困难在于如何高效安全的查询和访问这些压缩加密的数据。支持压缩的查询和密文检索技术是本发明的背景技术。
支持查询的压缩要求在不解压的状态下对压缩数据进行高效检索,目前支持查询的压缩算法大多是针对Huffman、算术编码、Ziv-Lempel(LZ77、LZ78、LZW等)和BWT算法的改进。压缩算法在压缩、解压缩和查询时依赖的是编码字“字典”(例如Huffman树),字典实际就是压缩查询的索引结构。压缩查询利用字典找到查询词与压缩查询词的对应关系,进而在压缩数据中顺序搜索。但压缩数据被加密后,数据分布规律将被打乱,原来的查询方法将难以凑效。
加密是保证数据安全的重要手段。在密文数据中,如何安全快速定位相关数据非常重要,密文检索的主要技术是通过对文本中的关键词建立安全索引,从而实施快速查询。通过对文档中的每个字建立密文索引可以提高密文检索效率,但建立全文索引带来的存储开销将会把文档压缩的效果抵消。为解决现有密文索引占用空间太大的缺点,加利福利亚大学提出用序列加密方法对文本数据进行加密处理,无需解密就可直接对加密文本搜索关键词的方法。其不采用索引表,不足之处在于检索时需要对整个密文文档进行顺序搜索。斯坦福大学的E.J.Goh等人提出了一种过滤哈希编码的索引方案,可有效降低索引占用空间,但其使用的Bloom过滤器会导致错误结果的产生,可能会使用户查询到一些不包含查询关键词的额外文档,不适合高安全的应用。密文检索技术已经得到了很大发展,但迄今的研究都是基于非压缩数据的。
数据压缩和查询依赖编码字“字典”数据结构,而密文检索依赖密文索引数据结构,如果不把它们有机融合,则需要同时保持两个数据结构,这将导致存储空间增大且管理困难。由于压缩算法采用基于“位”压缩的思想,而密文索引是以“词”为基础来进行查询的,这为它们的融合带来困难。此外,即使用户对文档少量数据的访问也必须对整个文档进行脱密和解压,造成整个系统效率低下,并显著增加网络负担。
目前把压缩和加密技术相结合的研究很少,而且仅有的研究也仅仅是把二者串行起来进行实施,缺乏有机融合机制。
发明内容
本发明所要解决的技术问题是:提供一种海量数据压缩加密存储及检索系统及其使用方法,本发明将压缩和加密技术有机地结合起来,在不解压不解密待检文件的情况下能有效地进行密文的检索。
本发明所采用的技术方案:海量数据压缩加密存储及检索系统,包括:
文档结构化处理模块,用于对原始文档进行统一格式化处理;
数据压缩与加密模块,用于对格式化处理后的文档、原始文档和索引结构进行压缩和加密存储;
压缩密文检索模块,用于对压缩和加密存储的文档进行检索;
管理工具,用于对系统进行管理;
文档结构化处理模块运行在客户端的计算机上,数据压缩与加密模块和压缩密文检索模块运行在服务器端的计算机上,管理工具运行在管理控制台的计算机上。
所述的海量数据压缩加密存储及检索系统,文档结构化处理模块包括文本抽取及文档结构化处理子模块、语义分词子模块和XML文档生成子模块;
文本抽取及文档结构化处理子模块对包含文本信息的文档进行文本抽取,对不包含文本的文档或者结构化信息不完整的文本文档进行结构化信息以及其他信息填充;
语义分词子模块对通过文本抽取及文档结构化处理子模块获取的所有信息进行语义分词,获取压缩加密索引的基础信息;
XML文档生成子模块对通过文本抽取及文档结构化处理子模块获取的所有信息进行统一格式化,生成XML文档。
所述的海量数据压缩加密存储及检索系统,数据压缩与加密模块包括XML文档压缩与加密子模块、原文档压缩与加密子模块和索引压缩与加密子模块。
所述的海量数据压缩加密存储及检索系统,管理工具包括安全管理工具、系统管理工具和文档管理工具;
安全管理工具包括审计服务、密钥服务、访问控制服务;
文档管理工具包括文档的备份与还原、文档信息统计和文档销毁;
系统管理工具包括系统用户管理、部门机构管理、系统初始化。
海量数据压缩加密存储及检索系统的使用方法,包括:
S1)对原始文档进行归档,并对其进行压缩、加密、存储、分词、建索引的处理;
S2)对存储的已压缩密文,根据需求依据其索引结构直接进行检索。
所述的海量数据压缩加密存储及检索系统的使用方法,步骤S1包括:
S101)对文档分类,根据文档的类别进行不同的处理,对包含文本的文档则提取其文本内容,对不包含文本的文档或者结构化信息不完整的文本文档进行结构化信息以及其他信息填充;
S102)获取文档的结构化信息,把结构化信息和文本内容合并后获得供索引使用的XML文档;
S103)对结构化信息和文本信息进行语义分词,生成相应的索引,构建完整索引词典;
S104)根据索引词典对步骤S102所得XML文档建立索引;
S105)分别对S102所得XML文档、S104所得索引和原始文档进行压缩和加密;
S106)利用数据存储服务对压缩加密后的文件进行散列存储。
所述的海量数据压缩加密存储及检索系统的使用方法,步骤S2包括:
S201)用户或应用程序发起查询请求,安全管理工具的访问控制服务向查询请求注入应用系统的查询权限;
S202)查询消息通过语义分词子模块进行解析,分解出用户输入信息的关键字组合以及查询命令;
S203)将关键字组合和用户的密钥经过运算后得到查询陷门;
S204)将步骤S202的查询命令和S203的查询陷门,利用压缩密文检索模块对文档进行定位;
S205)若未找到匹配文件,直接结束查询过程;若检索到单个匹配文件,则进入步骤S207;若检索到多个匹配文件,则进入下一步;
S206)根据排序规则,将相似度较大的文档排在前面,相似度较小的文档排在后面;
S207)返回只包含用户权限范围内的文档信息;
S208)若用户不查看原始文档或无查看权限(用户权限级别不高于文档密级),直接结束;若用户提出查看文档请求且有相应权限,则系统再到压缩密文文档集中查找相应的文档信息,返回用户进行解密解压缩操作。
所述的海量数据压缩加密存储及检索系统的使用方法,步骤S104所建立的索引结构基于后缀数组,包括压缩加密后缀数组(图2中的CSA)、描述文本要检索的区间信息数组(图2中的IA),和辅助支持在区间上进行查询的索引结构(图2中的A);步骤S204的检索定位过程为首先在压缩加密后缀数组中进行检索,获得模式在所有文本位置出现的位置区间。而后递归地在该区间上利用索引寻找允许模式长度的最大值,并与需匹配的模式长度进行比较,直到比较的允许模式长度小于需匹配的模式长度为止。
所述的海量数据压缩加密存储及检索系统的使用方法,步骤S203建立陷门的方法为:
首先根据步骤S202的m个关键词K1、K2…Km组成关键词列表Kset={K1,K2,…,Km},构建关于未知数x的方程
f(x)=(x-H(K1))(x-H(K2))...(x-H(Km))=amxm+am-1xm-1+...+a1x+a0
其中方程f(x)具有m个根为H(Km),H(Km-1),…,H(K1),H是循环群G{0,1}*
Figure BDA0000041620230000031
的哈希函数,q是循环群G的阶数,根据方程f(x)可求出a0、a1…am的具体值;
然后利用密钥sk={b0,b1,…,bn,c0,c1,…,cn,d},对每一个i∈[0,m],计算
Figure BDA0000041620230000042
其中
Figure BDA0000041620230000043
Figure BDA0000041620230000044
αi∈Zq,βi∈Zq,d∈Zq,i∈[0,n],e∈{Zq,sk,a0,a1,…,am},Zq为所有正整数,g为G的一个生成元,n为文档关键词的最大期望值;
最后构造出的陷门为{T10,T11,…,T1m,T20,T21,…,T2m,e,d}。
所述的海量数据压缩加密存储及检索系统的使用方法,压缩密文索引结构的后缀数组CSA在压缩加密前为多个关键字列表集合,其中每个关键字K形式为:K[Xk1(Sk1,i1,Sk1,i2,…,),Xk2(Sk2,i1,Sk2,i2,…,),…,Xkn(Skn,i1,Skn,i2,…,),],其中Xki表示文档Xki包含有关键字K,对于包含文本内容的文档Xki,Ski,i1,Ski,i2,…表示了关键词在文档中出现的分片信息,对于不包含文本内容的文档,Ski,i1,Ski,i2,…为空,i=1、2…n,n为文档数。
本发明的优点:本发明提供基于短文或多个关键字析取和合取组合的压缩密文的全文检索。本发明屏蔽文件格式细节,支持所有格式文件的压缩加密和检索。本发明对加密算法透明。本发明为可独立使用,亦提供了对应用系统的接口,应用系统可直接调用本发明的技术成果。
附图说明
图1是本发明的整体结构图;其中图中的各个模块如下:1:明文文档;2:结构化信息;3:结构化的明文文档;4:XML文档;5:压缩密文XML文档;6:压缩加密管理服务;7:原文件;8:压缩密文原文件;9:压缩密文文档;10:数据存储服务;11:压缩密文检索服务;12:索引管理服务;13:索引词典;14:压缩密文索引;15:组件;16:应用程序;17:检索服务;18:访问控制权限规则;19:安全管理;20:审计服务。
图2是压缩密文索引结构;
图3是压缩密文索引结构中存储索引信息的原始逻辑结构;
图4是本发明的功能结构图;
图5是文档压缩加密存储流程;
图6是文档检索流程。
具体实施方式
海量数据压缩加密存储及检索系统对海量涉密电子文档提供统一的压缩加密存储处理流程,同时提供一种安全访问这些压缩密文数据的快速检索方法。本发明提供如下技术:一、设计了把压缩编码字典和密文索引相结合的压缩密文索引结构模型;二、利用设计的索引结构,把压缩和加密过程有机地融合在一起,进行统一压缩加密和存储处理;三、设计并实现了一种无需脱密和解压即可进行压缩密文检索的方法。通过对明文数据进行文本抽取和结构化处理获得统一的XML格式文本文件,利用语义分词获得索引信息,对XML文件利用设计的压缩密文索引结构进行压缩加密,对原文档采用自适应压缩加密存储。检索客户端或应用程序发起检索请求时,由压缩密文索引服务提供安全检索,进而由压缩加密管理服务和数据存储服务提供最终的结果数据。系统具有加密算法可配置和适合所有格式的电子文档的特点。
本发明把压缩与加密技术进行了有机结合,提供对任意格式电子文档的统一的压缩加密处理流程。提供全程不解压和不脱密的基于短文或多个关键字析取和合取组合的压缩密文的快速全文检索技术。其整体结构如图1所示。结构化信息:指文档的基本信息,包括文档标题、关键词列表,摘要,作者、密级。压缩加密管理服务:利用压缩密文索引提供对系统内的XML文档和原文档的压缩和加密功能。索引管理服务:对系统的索引进行生成和管理,包括索引构造、索引变更、索引删除功能。组件:是系统提供的一种供外部应用程序访问系统内部功能的接口。用途:用户在输入关键字后,系统在不解压不解密待检文件的情况下能有效地进行密文的检索,并返回用户所要的结果。
本发明建立如图2所示的压缩和加密统一的索引结构。该索引结构由三部分构成:压缩加密后缀数组CSA;描述文本要检索的区间信息的数组IA;辅助支持在区间上进行查询的索引结构A。该索引结构具有极低的空间开销,达到压缩算法理论上的空间下限nHk(D)+0(n log|∑|)(这里D表示文档,n表示文档的长度,∑为文档的字符表,nHk(D)表示文档D的k阶经验熵),并具有极高的检索效率。检索过程为:1)在压缩后缀数组CSA中进行检索,获得模式在所有文本位置出现的位置区间[s,e](这里s和e表示区间的起始和结束位置)。2)在该区间上利用索引IA进行RMQ(Range Minimum Queries)查询,寻找该区间上允许模式长度的最大值的位置i。3)将A[i](辅助索引结构中的第i个字符)与需匹配的模式长度m进行比较。若A[i]>m,则将CSA[i]放入模式匹配结果位置集合Occ,并递归的在区间[s,i-1][i+1,e]上执行RMQ查询。直到比较的允许模式长度小于需匹配的模式长度为止。CSA未压缩前的内部结构如图3所示。为多个关键字列表集合,其中每个关键字K形式为:
Figure BDA0000041620230000051
Figure BDA0000041620230000052
其中
Figure BDA0000041620230000053
表示第i个文档
Figure BDA0000041620230000054
包含有关键字K,对于包含文本内容的文档
Figure BDA0000041620230000055
…表示了关键词在文档中出现的分片信息。对于不包含文本内容的文档,
Figure BDA0000041620230000056
…为空。如图3所示,以关键词K1和文档
Figure BDA0000041620230000057
为例,相应索引结构包括:文档
Figure BDA0000041620230000058
对应包括文件头属性、文件属性、原文件存储地址、压缩加密属性、扩展属性、文件安全摘要信息,然后是XML文本体属性、
Figure BDA0000041620230000059
所对应的文件段1、
Figure BDA00000416202300000510
所对应的文件段2……。原文件存储地址对应原文档
Figure BDA00000416202300000511
而文档是不包含文本信息的文档。
本发明在处理电子文档时,利用原始文档的文本或者结构化信息建立供检索使用的XML文档,其原始文档和检索文档分离的机制,使得检索过程可以基于统一的XML文本文件,屏蔽了各种原始文件的格式差异,从而加速了检索算法的搜索速度。
本发明利用自有的压缩密文索引结构,指导原始文档和XML文档的压缩和加密处理,为提高文档的安全性,把压缩加密处理后的文档采用分片散列后存储到已经散列的存储路径地址中。
系统采用多级密钥方法,主密钥保存在密钥装置内,主密钥产生XML文件加密、原文件加密、索引三个二级密钥。对XML文件加密时,由XML文件加密二级密钥生成当前文件加密密钥,加密完成后用XML文件加密二级密钥加密文件加密密钥,然后把加密后的文件和加密后的文件密钥合成一体,再散列存储。原文件的密钥策略与XML文件密钥策略相同。索引二级密钥生成索引加密密钥和检索密钥,索引加密密钥在系统内公开,检索密钥sk在检索用户之间共享。密钥的产生、保存及更换均由硬件加密卡完成,从而保证密钥的安全。
本发明提供安全的抗统计分析的密文检索方法,保证在整个检索过程中不解压不脱密。安全检索算法基于提出的索引结构,当终端用户发起检索请求时,对用户输入的原始信息进行文本分析,然后形成关键词列表Kset={K1,K2,…,Km},构建方程
f(x)=(x-H(K1))(x-H(K2))...(x-H(Km))=amxm+am-1xm-1+...+a1x+a0
其中方程f(x)具有m个根为H(Km),H(Km-1),…,H(K1),H是循环群G{0,1}*
Figure BDA0000041620230000061
的哈希函数,q是循环群G的阶数,根据方程f(x)可得到a0、a1…am
然后利用检索密钥sk={b0,b1,…,bn,c0,c1,…,cn,d},对每一个i∈[0,m],计算 其中
Figure BDA0000041620230000064
Figure BDA0000041620230000065
αi∈Zq,βi∈Zq,d∈Zq,i∈[0,n],e∈{Zq,sk,a0,a1,…,am},Zq为所有正整数,g为G的一个生成元。
从而构造出陷门{T10,T11,…,T1m,T20,T21,…,T2m,e,d},利用陷门和索引结构的压缩密文索引进行特定的运算,进而即可获取包含这些关键字的文档集合。
本发明包括文档结构化处理服务,数据压缩与加密服务,压缩密文的安全检索服务和管理工具。文档结构化处理服务提供对原始文档的统一格式化处理,对包含文本信息的文档进行文本抽取,对不包含文本的文档或者结构化信息不完整的文本文档进行结构化信息以及其他信息填充;把获取的文本进行语义分词从而获取压缩加密索引的基础信息,对上述文本信息进行统一格式化,形成XML文档。数据压缩与加密服务首先根据文档结构化处理服务阶段获取的信息建立压缩和加密相结合的索引,利用索引对XML文档进行压缩加密,对源文档和索引本身也进行压缩加密,然后利用独立的存储结构把压缩加密后的数据进行保存。压缩密文的安全检索服务提供对客户端或应用程序的透明的安全检索服务,检索全程不解压不脱密。管理工具是提供给管理人员进行进行管理系统的一组工具的集合,包括安全管理、系统管理和文档管理工具。其中安全管理包括审计服务、密钥服务、访问控制服务;文档管理包括文档的备份与还原、文档统计和文档销毁;系统管理包括系统用户管理、机构管理、系统初始化。如图4所示。
以下结合实施例对本发明具体说明。
本发明的主要设计思想是利用提出的压缩密文索引结构把压缩所需要的字典和密文检索所需要的索引结构有机结合在一起,提供统一的压缩加密流程。利用从原始文件中提取的文本信息或者获得的结构化信息来获取索引内容,从而屏蔽原始文件的不同格式带来的处理困难。利用密钥信息来构造自己陷门,再通过陷门来进行压缩密文检索,从而避免了采用简单的压缩密文匹配来检索带来的安全漏洞。本发明还包括散列存储、身份认证、访问控制、审计服务等安全措施,进一步提升系统的安全性。
具体实施时包括两个步骤,1)文档归档,及压缩加密存储处理;2)数据检索。
明文文档在归档前要进行一系列复杂的处理,包括数据格式化、文本抽取、压缩加密处理以及对文档建立索引等,如图5所示。(1)首先对文档分类,根据文档的类别进行不同的处理,对包含文本的文档则提取其文本内容。然后通过预定的接口或者其他输入途径获取文档的格式化信息(包括标题、摘要、作者、密级、关键词列表),把格式化信息和文本内容合并后获得供索引使用的XML文档;同时还要对格式化信息和文本信息进行语义分词,分词有两个目的:第一是为了获得数据分布特征,方便对数据进行压缩加密,第二是为了提取词汇表建立索引。(2)通过词汇表对XML文档建立索引。在建立索引时,为减少索引空间,将对那些对查询无帮助的词汇(例如:对于标点符号、副词、助词等)不建立索引。(3)根据提取的词汇表XML文档进行压缩和加密。(4)对索引进行压缩和加密。(5)对原文件进行压缩加密。(6)利用数据存储服务对压缩加密后的文件进行散列存储。本发明在文档分类后将产生一个分类特征集合保存各个已分类的文档特征信息,用来指导新增文档的分类;关键词提取后经过分类和压缩加密处理,进入分类特征集合进行特征比较以对特征集合进行更新,若找到相似的文档类,则对该类文档的特征进行更新,否则新建一个文档分类,并建立该分类的特征信息。根据文档分类信息,压缩加密后的明文文档被保存在分类的压缩密文文档集中的合适位置。
数据检索的流程图如图6所示。当用户或应用程序发起查询请求时,访问控制单元首先向查询请求注入应用系统的查询权限,查询消息通过语义分词和查询消息解析单元,分解出用户输入信息的关键字组合以及查询命令,关键字组合和用户的检索密钥经过运算后得到一个查询陷门,连同查询命令一起进入索引单元,利用压缩密文索引对文档定位。如果有多个文档包含有用户查询的关键字信息,则根据排序规则,把相似度最大的文档排在最前面;返回的结果中只包含用户权限范围内的文档信息。根据返回的定位结果和用户后续的浏览命令,系统再到压缩密文文档集中查找相应的文档信息,最后返回用户进行解密解压缩操作。整个检索过程在压缩加密状态下进行,不包含任何的解压解密操作,保证检索过程的高安全性。
在海量数据压缩加密系统中,文档的存储、传输和处理均完全以压缩加密状态进行,整个检索过程保持不解压不脱密,只有返回给上层应用时,才将压缩密文文档提交硬件加密卡进行解密解压操作,最大限度地降低了统计攻击的风险,保证了词汇表、索引和数据的安全性。

Claims (10)

1.海量数据压缩加密存储及检索系统,其特征在于包括:
文档结构化处理模块,用于对原始文档进行统一格式化处理;
数据压缩与加密模块,用于对格式化处理后的文档、原始文档和索引结构进行压缩和加密存储;
压缩密文检索模块,用于对压缩和加密存储的文档进行检索;
管理工具,用于对系统进行管理;
文档结构化处理模块运行在客户端的计算机上,数据压缩与加密模块和压缩密文检索模块运行在服务器端的计算机上,管理工具运行在管理控制台的计算机上。
2.根据权利要求1所述的系统,其特征在于:
文档结构化处理模块包括文本抽取及文档结构化处理子模块、语义分词子模块和XML文档生成子模块;
文本抽取及文档结构化处理子模块对包含文本信息的文档进行文本抽取,对不包含文本的文档或者结构化信息不完整的文本文档进行结构化信息以及其他信息填充;
语义分词子模块对通过文本抽取及文档结构化处理子模块获取的所有信息进行语义分词,获取压缩加密索引的基础信息;
XML文档生成子模块对通过文本抽取及文档结构化处理子模块获取的所有信息进行统一格式化,生成XML文档。
3.根据权利要求1所述的系统,其特征在于:
数据压缩与加密模块包括XML文档压缩与加密子模块、原文档压缩与加密子模块和索引压缩与加密子模块。
4.根据权利要求1所述的系统,其特征在于:
管理工具包括安全管理工具、系统管理工具和文档管理工具;
安全管理工具包括审计服务、密钥服务、访问控制服务;
文档管理工具包括文档的备份与还原、文档信息统计和文档销毁;
系统管理工具包括系统用户管理、部门机构管理、系统初始化。
5.海量数据压缩加密存储及检索系统的使用方法,其特征在于包括:
S1)对原始文档进行归档,并对其进行压缩、加密、存储、分词、建索引的处理;
S2)对存储的已压缩密文,根据需求依据其索引结构直接进行检索。
6.根据权利要求5所述的使用方法,其特征在于步骤S1包括:
S101)对文档分类,根据文档的类别进行不同的处理,对包含文本的文档则提取其文本内容,对不包含文本的文档或者结构化信息不完整的文本文档进行结构化信息以及其他信息填充;
S102)获取文档的结构化信息,把结构化信息和文本内容合并后获得供索引使用的XML文档;
S103)对结构化信息和文本信息进行语义分词,生成相应的索引,构建完整索引词典;
S104)根据索引词典对步骤S102所得XML文档建立索引;
S105)分别对S102所得XML文档、S104所得索引和原始文档进行压缩和加密;
S106)利用数据存储服务对压缩加密后的文件进行散列存储。
7.根据权利要求5所述的使用方法,其特征在于步骤S2包括:
S201)用户或应用程序发起查询请求,安全管理工具的访问控制服务向查询请求注入应用系统的查询权限;
S202)查询消息通过语义分词子模块进行解析,分解出用户输入信息的关键字组合以及查询命令;
S203)将关键字组合和用户的密钥经过运算后得到查询陷门;
S204)将步骤S202的查询命令和S203的查询陷门,利用压缩密文检索模块对文档进行定位;
S205)若未找到匹配文件,直接结束查询过程;若检索到单个匹配文件,则进入步骤S207;若检索到多个匹配文件,则进入下一步;
S206)根据排序规则,将相似度较大的文档排在前面,相似度较小的文档排在后面;
S207)返回只包含用户权限范围内的文档信息;
S208)若用户不查看原始文档或无查看权限,直接结束;若用户提出查看文档请求且有相应权限,则系统再到压缩密文文档集中查找相应的文档信息,返回用户进行解密解压缩操作。
8.根据权利要求6或7所述的使用方法,其特征在于:步骤S104所建立的索引结构基于后缀数组,包括压缩加密后缀数组、描述文本要检索的区间信息数组,和辅助支持在区间上进行查询的索引结构;步骤S204的检索定位过程为首先在压缩加密后缀数组中进行检索,获得模式在所有文本位置出现的位置区间。而后递归地在该区间上利用索引寻找允许模式长度的最大值,并与需匹配的模式长度进行比较,直到比较的允许模式长度小于需匹配的模式长度为止。
9.根据权利要求7所述的系统的使用方法,其特征在于:步骤S203建立陷门的方法为:
首先根据步骤S202的m个关键词K1、K2…Km组成关键词列表Kset={K1,K2,…,Km},构建关于未知数x的方程
f(x)=(x-H(K1))(x-H(K2))...(x-H(Km))=amxm+am-1xm-1+...+a1x+a0
其中方程f(x)具有m个根为H(Km),H(Km-1),…,H(K1),H是循环群G{0,1}*的哈希函数,q是循环群G的阶数,根据方程f(x)可求出a0、a1…am的具体值;
然后利用密钥sk={b0,b1,…,bn,c0,c1,…,cn,d},对每一个i∈[0,m],计算
Figure FDA0000041620220000022
其中
Figure FDA0000041620220000024
Figure FDA0000041620220000025
αi∈Zq,βi∈Zq,d∈Zq,i∈[0,n],e∈{Zq,sk,a0,a1,…,am},Zq为所有正整数,g为G的一个生成元,n为文档关键词的最大期望值;
最后构造出的陷门为{T10,T11,…,T1m,T20,T21,…,T2m,e,d}。
10.根据权利要求8所述的使用方法,其特征在于:
压缩密文索引结构的后缀数组CSA在压缩加密前为多个关键字列表集合,其中每个关键字K形式为:K[Xk1(Sk1,i1,Sk1,i2,…,),Xk2(Sk2,i1,Sk2,i2,…,),…,Xkn(Skn,i1,Skn,i2,…,),],其中Xki表示文档Xki包含有关键字K,对于包含文本内容的文档Xki,Ski,i1,Ski,i2,…表示了关键词在文档中出现的分片信息,对于不包含文本内容的文档,Ski,i1,Ski,i2,…为空,i=1、2…n,n为文档数。
CN2010106126255A 2010-12-30 2010-12-30 海量数据压缩加密存储及检索系统及其使用方法 Expired - Fee Related CN102034049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010106126255A CN102034049B (zh) 2010-12-30 2010-12-30 海量数据压缩加密存储及检索系统及其使用方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010106126255A CN102034049B (zh) 2010-12-30 2010-12-30 海量数据压缩加密存储及检索系统及其使用方法

Publications (2)

Publication Number Publication Date
CN102034049A true CN102034049A (zh) 2011-04-27
CN102034049B CN102034049B (zh) 2013-05-01

Family

ID=43886929

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010106126255A Expired - Fee Related CN102034049B (zh) 2010-12-30 2010-12-30 海量数据压缩加密存储及检索系统及其使用方法

Country Status (1)

Country Link
CN (1) CN102034049B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024035A (zh) * 2012-12-11 2013-04-03 上海交通大学 基于移动云平台的安全节能的加密搜索方法
CN103177218A (zh) * 2013-03-04 2013-06-26 广州市中崎商业机器有限公司 一种基于电子收款机的流水记录的压缩加密方法
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN103955500A (zh) * 2014-04-22 2014-07-30 广州杰赛科技股份有限公司 基于云存储的海量文档数据信息结构化展示方法及系统
CN104052740A (zh) * 2014-05-22 2014-09-17 西安理工大学 云存储中可验证的基于词典的可搜索加密方法
CN105426348A (zh) * 2015-10-22 2016-03-23 江苏国泰新点软件有限公司 一种可扩展标记语言xml文件的生成方法、装置和系统
CN106295389A (zh) * 2015-06-04 2017-01-04 宏达国际电子股份有限公司 屏幕内容加密方法及使用此方法的电子装置
CN107622212A (zh) * 2017-10-13 2018-01-23 上海海事大学 一种基于双陷门的混合密文检索方法
CN108062406A (zh) * 2017-12-28 2018-05-22 中国联合网络通信集团有限公司 索引文件的构建方法及装置、检索方法和服务器
CN108519964A (zh) * 2018-03-09 2018-09-11 中国工程物理研究院计算机应用研究所 将XML Schema文档转换为Java代码的方法
CN108881152A (zh) * 2018-04-20 2018-11-23 南京搜文信息技术有限公司 一种同时支持析取与合取关键词查询的公钥加密方法
CN109740362A (zh) * 2019-01-03 2019-05-10 中国科学院软件研究所 一种基于熵编码的密文索引生成与检索方法及系统
CN111930697A (zh) * 2020-07-09 2020-11-13 北京皮尔布莱尼软件有限公司 一种基于3d信息的数据传输方法、计算设备及系统
WO2021051563A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 目标数据归档方法、装置、电子设备及计算机非易失性可读存储介质
CN113626856A (zh) * 2021-07-20 2021-11-09 慕贝尔汽车部件(太仓)有限公司 员工档案管理方法、装置和网络侧服务端
CN115048432A (zh) * 2022-08-02 2022-09-13 西南石油大学 基于布隆过滤器的模糊关键词公共审计方法
CN115688141A (zh) * 2022-11-07 2023-02-03 东莞理工学院 一种个人信息拆分脱敏存储与重构方法及系统
CN115842621A (zh) * 2023-02-21 2023-03-24 安徽汇迈信息科技有限公司 一种基于大数据与云边协同的智慧医疗系统
CN115858220A (zh) * 2022-12-15 2023-03-28 中电金信软件有限公司 一种错误码共享方法、系统、计算机设备及可读存储介质
CN117953175A (zh) * 2024-03-26 2024-04-30 湖南速子文化科技有限公司 一种虚拟世界数据模型的构建方法、系统、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008041810A1 (en) * 2006-10-04 2008-04-10 Eglobal Systems Co. Method for indexing encrypted column
CN101593196A (zh) * 2008-05-30 2009-12-02 日电(中国)有限公司 用于快速密文检索的方法、装置和系统
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008041810A1 (en) * 2006-10-04 2008-04-10 Eglobal Systems Co. Method for indexing encrypted column
CN101593196A (zh) * 2008-05-30 2009-12-02 日电(中国)有限公司 用于快速密文检索的方法、装置和系统
CN101859323A (zh) * 2010-05-31 2010-10-13 广西大学 密文全文检索系统

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103024035B (zh) * 2012-12-11 2015-04-15 上海交通大学 基于移动云平台的安全节能的加密搜索方法
CN103024035A (zh) * 2012-12-11 2013-04-03 上海交通大学 基于移动云平台的安全节能的加密搜索方法
CN103177218A (zh) * 2013-03-04 2013-06-26 广州市中崎商业机器有限公司 一种基于电子收款机的流水记录的压缩加密方法
CN103177218B (zh) * 2013-03-04 2015-07-29 广州市中崎商业机器有限公司 一种基于电子收款机的流水记录的压缩加密方法
CN103955500A (zh) * 2014-04-22 2014-07-30 广州杰赛科技股份有限公司 基于云存储的海量文档数据信息结构化展示方法及系统
CN103955537A (zh) * 2014-05-16 2014-07-30 福州大学 一种语义模糊可搜索加密云盘设计方法及系统
CN104052740A (zh) * 2014-05-22 2014-09-17 西安理工大学 云存储中可验证的基于词典的可搜索加密方法
CN106295389A (zh) * 2015-06-04 2017-01-04 宏达国际电子股份有限公司 屏幕内容加密方法及使用此方法的电子装置
CN105426348A (zh) * 2015-10-22 2016-03-23 江苏国泰新点软件有限公司 一种可扩展标记语言xml文件的生成方法、装置和系统
CN105426348B (zh) * 2015-10-22 2018-05-25 江苏国泰新点软件有限公司 一种可扩展标记语言xml文件的生成方法、装置和系统
CN107622212A (zh) * 2017-10-13 2018-01-23 上海海事大学 一种基于双陷门的混合密文检索方法
CN108062406A (zh) * 2017-12-28 2018-05-22 中国联合网络通信集团有限公司 索引文件的构建方法及装置、检索方法和服务器
CN108519964A (zh) * 2018-03-09 2018-09-11 中国工程物理研究院计算机应用研究所 将XML Schema文档转换为Java代码的方法
CN108881152A (zh) * 2018-04-20 2018-11-23 南京搜文信息技术有限公司 一种同时支持析取与合取关键词查询的公钥加密方法
CN109740362A (zh) * 2019-01-03 2019-05-10 中国科学院软件研究所 一种基于熵编码的密文索引生成与检索方法及系统
WO2021051563A1 (zh) * 2019-09-17 2021-03-25 平安科技(深圳)有限公司 目标数据归档方法、装置、电子设备及计算机非易失性可读存储介质
CN111930697B (zh) * 2020-07-09 2023-09-19 北京皮尔布莱尼软件有限公司 一种基于3d信息的数据传输方法、计算设备及系统
CN111930697A (zh) * 2020-07-09 2020-11-13 北京皮尔布莱尼软件有限公司 一种基于3d信息的数据传输方法、计算设备及系统
CN113626856A (zh) * 2021-07-20 2021-11-09 慕贝尔汽车部件(太仓)有限公司 员工档案管理方法、装置和网络侧服务端
CN113626856B (zh) * 2021-07-20 2024-03-08 慕贝尔汽车部件(太仓)有限公司 员工档案管理方法、装置和网络侧服务端
CN115048432A (zh) * 2022-08-02 2022-09-13 西南石油大学 基于布隆过滤器的模糊关键词公共审计方法
CN115048432B (zh) * 2022-08-02 2024-04-26 西南石油大学 基于布隆过滤器的模糊关键词公共审计方法
CN115688141A (zh) * 2022-11-07 2023-02-03 东莞理工学院 一种个人信息拆分脱敏存储与重构方法及系统
CN115688141B (zh) * 2022-11-07 2024-05-28 东莞理工学院 一种个人信息拆分脱敏存储与重构方法及系统
CN115858220A (zh) * 2022-12-15 2023-03-28 中电金信软件有限公司 一种错误码共享方法、系统、计算机设备及可读存储介质
CN115842621B (zh) * 2023-02-21 2023-04-18 安徽汇迈信息科技有限公司 一种基于大数据与云边协同的智慧医疗系统
CN115842621A (zh) * 2023-02-21 2023-03-24 安徽汇迈信息科技有限公司 一种基于大数据与云边协同的智慧医疗系统
CN117953175A (zh) * 2024-03-26 2024-04-30 湖南速子文化科技有限公司 一种虚拟世界数据模型的构建方法、系统、设备及介质
CN117953175B (zh) * 2024-03-26 2024-06-11 湖南速子文化科技有限公司 一种虚拟世界数据模型的构建方法、系统、设备及介质

Also Published As

Publication number Publication date
CN102034049B (zh) 2013-05-01

Similar Documents

Publication Publication Date Title
CN102034049B (zh) 海量数据压缩加密存储及检索系统及其使用方法
US11709948B1 (en) Systems and methods for generation of secure indexes for cryptographically-secure queries
WO2019153813A1 (zh) 一种针对密文域的形近汉字全文模糊检索方法
EP3012754B1 (en) Searchable symmetric encryption processing system
US9349023B2 (en) Database encryption system, method, and program
CN105678189B (zh) 加密数据文件存储和检索系统及方法
US10984052B2 (en) System and method for multiple-character wildcard search over encrypted data
CN102024054A (zh) 一种面向密文云存储的文档检索方法与系统
CN106610995B (zh) 一种创建密文索引的方法、装置及系统
US12008116B2 (en) Device and method for increasing the security of a database
CN106407447A (zh) 一种加密云数据下基于Simhash的模糊排序搜索方法
CN108363689B (zh) 面向混合云的隐私保护多关键词Top-k密文检索方法及系统
CN103955537A (zh) 一种语义模糊可搜索加密云盘设计方法及系统
KR101476039B1 (ko) 데이터베이스 암호화 방법 및 이의 실시간 검색 방법
CN107622212A (zh) 一种基于双陷门的混合密文检索方法
US9946720B1 (en) Searching data files using a key map
CN103970889A (zh) 一种中英文关键词模糊搜索的安全云盘
CN103607420A (zh) 面向云存储的安全电子医疗系统
CN103425933A (zh) 一种多数据源的数据同态加密转存方法
US20230144072A1 (en) Data storage server and client devices for securely storing data
CN110110550A (zh) 一种支持云存储的可搜索加密方法及系统
CN115757676A (zh) 模糊可搜索加密方法、装置及电子设备
CN104794243B (zh) 基于文件名的第三方密文检索方法
EP2775420A1 (en) Semantic search over encrypted data
US11405192B2 (en) Searchable symmetric encryption system and method of processing inverted index

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130501

Termination date: 20131230