CN112702379A - 大数据安全之全密态检索研究 - Google Patents

大数据安全之全密态检索研究 Download PDF

Info

Publication number
CN112702379A
CN112702379A CN202010841426.5A CN202010841426A CN112702379A CN 112702379 A CN112702379 A CN 112702379A CN 202010841426 A CN202010841426 A CN 202010841426A CN 112702379 A CN112702379 A CN 112702379A
Authority
CN
China
Prior art keywords
file
retrieval
server
encryption
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010841426.5A
Other languages
English (en)
Inventor
李彦江
孙晓梅
于东生
周龙
王金波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weiling Qingdao Network Security Research Institute Co ltd
CETC 30 Research Institute
Original Assignee
Weiling Qingdao Network Security Research Institute Co ltd
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weiling Qingdao Network Security Research Institute Co ltd, CETC 30 Research Institute filed Critical Weiling Qingdao Network Security Research Institute Co ltd
Priority to CN202010841426.5A priority Critical patent/CN112702379A/zh
Publication of CN112702379A publication Critical patent/CN112702379A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/104Grouping of entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/105Multiple levels of security
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Automation & Control Theory (AREA)
  • Storage Device Security (AREA)

Abstract

大数据安全之全密态检索研究是一款旨在解决企业内部机密文件被非法盗取、传输过程被抓包,敏感文件的安全存储等问题的高安全性文件存储软件。能够实现文件安全存储、文件传输信道加密、文档全密文检索、图片检索、文件共享、权限分级访问等功能。主要分为客户端和服务端,通过信道加密交互,进行文件加密及检索服务(包括文档检索、图片检索);服务端存储文件的密文索引,检索在服务器进行,数据存储服务器仅存储加密文件。这样就杜绝了数据服务器对用户的隐私扫描和检测。数据存储服务器支持私有云OpenStack和FTP服务器。

Description

大数据安全之全密态检索研究
技术领域
一款旨在解决大数据安全领域,对文档在加密情况下实施全密态检索的一款软件产品。本软件是一款实现了文件安全存储、文件传输信道加密、文件分角色共享、权限分级访问、文档全密文检索等功能的高安全性文档处理软件,有效解决了企业内部机密文件被非法盗取、文件传输过程被截获抓包等问题,从而完美实现了对敏感文档的安全存储和对加密文档的安全检索。
背景技术
随着云盘的普及,越来越多的用户会选择用它来存储数据;一般情况下,任何连接服务端的客户端上的所有操作,都可被服务端记录;所有上传的文档,也都对服务端透明,即使许多云盘都有了加密功能;对云盘的搜索记录也会被记录的清清楚楚;所以,隐私保护问题变得越来越突出。虽然用户可以自己加密后,再上传至云盘,但随着文件数量的增多,秘钥管理和存储也就成了问题。同时,被加密的数据内容不能进行检索。这些问题,影响着越来越多的正在使用云盘和想要使用云盘的人。
针对以上问题,设计了大数据安全之全密态检索研究,它能将文档用私钥加密后上传,并建立对应的密文索引,确保了文件的安全性;检索时也将检索内容用私钥加密,并对照密文索引进行检索,确保了检索内容的保密性。
发明内容
一、产品构成
主要由三部分构成:纬领文档全密态检索客户端、纬领文档全密态检索服务端和纬领文档全密态检索数据服务器。
纬领文档全密态检索客户端作为面向普通用户以及管理员用户使用的前端程序,通过与用户直接进行交互,实现文件安全上传和下载、文档全密文检索、文档在线修改、图片检索、文件共享、权限分级访问和用户一键式管理(管理员用户)等功能。
纬领文档全密态检索服务端作为支撑客户端正常运行的根本所在,可根据用户请求向客户端发送文件索引等信息,支撑客户端的检索和所有文件操作的正常响应。其中文件操作包括文件上传、下载、检索、删除、重命名、分享等。
纬领文档全密态检索数据服务器是存放文件的具体地址,文件全部是以密文形式保存,是检索发生的场所,检索过程当中密文全程不解密,确保了文件的安全性。
二、功能组成
纬领文档全密态检索软件所提供的高安全性主要由三大技术进行支撑,包含文件安全存储、信道加密和文档全密文检索。另外,还提供图片检索、文件共享、权限分级访问和用户一键式管理等功能。
文件安全存储
用户将需要加密存储的文件上传后,软件在客户端会自动将文件内容通过独有的加密技术转换成密文文件,将密文发送至指定的数据存储服务器;用户通过服务端生成的文件元信息对上传的文件进行查找,用户查看已上传文件时需要结合元信息以及密钥进行解密后方可查看,避免了通过未知手段获取源文件后导致信息泄露的可能性;考虑到部分不可抗因素的存在,客户端将以密文的形式在用户本机进行密文备份,当数据服务器出现问题时,敏感文件依旧不会丢失或损坏;切实实现了对文件存储的三重保护机制。
信道加密
为保证传输过程的安全可靠性,在软件使用过程当中,文件存储以及下载时的通信信道需要进行加密处理,纬领文档全密文检索软件通过对信道进行加密,防止了恶意抓包等中间人攻击行为。
文档全密文检索
当文件过多需要进行查找时,本软件可提供文档全密文检索功能。就目前主流的检索功能而言,大多数能够实现文件内容检索的软件都无法实现对加密文件的检索,即便能够实现对加密文件内容的检索,在检索过程当中往往需事先对加密文件进行解密,这样便存在了安全隐患;攻击者可在文件解密的过程当中截获明文,从而导致文件加密存储的安全性也得不到保障。纬领文档全密文检索软件能够对文件在密文的状态下进行检索,对检索关键词也进行了加密,整个过程当中不出现明文,攻击者即使获取到文件也无法使用,从根本上消除了加密文件检索时存在的隐患问题。
图片检索
纬领文档全密文检索软件可实现图片模糊匹配检索功能,提交待检索图片后,将在文档提取的图片以及独立图片文件中检索相似图片,便于客户查找图片文件和包含图片的文档。
文件共享
纬领文档全密文检索软件可实现文件共享功能,为保证文件共享过程的安全性,软件采用通过共享文件元信息的方式进行实现。服务端通过将元信息保存至被分享人目录下,实现了无需源文件传输的文件分享,被分享用户只需向服务端发送下载请求,通过文件元信息在数据存储服务器查找到对应文件后便可对文件进行下载。
权限分级访问
纬领文档全密文检索软件引入了组织架构的概念,通过结合企业的分级组织结构,划拨用户个人权限,实现了高权限用户可查看指定部门下的低权限用户文件。简化了工作汇报流程并提高了汇报过程中文件的安全保密性,清晰了工作汇报流程,降低了管理成本,提升了整体工作效率。
附图说明
无 。
具体实施方式
本系统分为客户端和服务端:
客户端和服务端通过信道加密交互,进行文件加密及检索服务(包括文档检索、图片检索);服务端存储文件的密文索引,检索在服务器进行,数据存储服务器仅存储加密文件。这样就杜绝了数据服务器对用户的隐私扫描和检测。数据存储服务器支持私有云OpenStack和FTP服务器。
一、客户端技术实现
客户端通过与服务端和云盘交互,可以实现用户登陆、文件加密上传和下载以及文档、图片的检索等功能。文档检索通过输入关键词来进行搜索,图片检索需要选择图片来进行搜索;其主要技术实现有以下几个方面:
1、文档内容提取
本系统主要针对以下三种文档:pdf、office文档(word、excel、ppt)和txt;内容的提取包括文本提取和图片提取,主要是通过调用python脚本来实现的。
(1)Pdf内容提取
利用pyton模块PyMuPDF来进行内容及图片的提取;PyMuPDF是一个轻量级的PDF和XPS查看器;通过它,可以提取出pdf里的文本内容及图片。
(2)Office文档内提取
Doc/xls/ppt是office2007以前的扩展名;Docx/xlsx/pptx是office2007版本之后的扩展名,是基于xml文件格式的 ,x即xml;
利用python脚本只能提取xml格式的office文档;不是xml格式的文档,需要通过win32com来转成xml格式的文档,然后再通过python脚本提取;
除了Xlsx通过Qt第三方库QXlsx来提取之外,其他xml格式的文档均是通过python脚本来提取;用到的python模块包括python-docx、python-pptx。
(3)根据不同编码格式提取Txt内容
Txt文件有不同的编码格式,例如UTF-8、GBK、UTF-16等;本系统可对这三种编码的txt文档进行编码自动识别、并对内容进行编码转换,以获取正确的内容。
2、对文本内容进行分词,并建立密文索引
(1)利用“结巴分词”对文本内容进行分词
“结巴”中文分词:做最好的 Python 中文分词组件,它是国内完全开源的一套分词系统;jieba支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
本系统结巴分词采取的是搜索引擎模式。
Jieba有各种语言版本,java,python,C++,C,本系统采用的是C版本。
基本字典jieba.dict.utf8可以根据需求更改;可以在用户字典user.dict.utf8中添加自定义词。
(2)主要代码
(3)建立密文索引
分词完成后,再去掉断点词,剩余的词就是文档的关键词索引。对关键词加密,就生成了该文档的密文索引。
3、对上传的图片文件及文档中的图片建索引
通过感知哈希算法,对图片进行建索引。
感知哈希算法对每一张图片生成一个64比特“指纹”,通过比较两张图片的指纹,来判断他们的相似度,是否属于同一张图片、或相似图片。
Qt支持的图片格式有supportedImageList: ("bmp", "cur", "dds", "gif", "icns", "ico", "jpeg", "jpg", "pbm", "pgm", "png", "ppm", "svg", "svgz", "tga", "tif", "tiff", "wbmp", "webp", "xbm", "xpm"),这些图片都可以进行索引、检索。
4、建立文件元信息
文件元信息保存在服务器,包含以下几个方面:文件名,文件大小,创建时间,修改时间,文件唯一ID,文件hash,加密秘钥,存储位置,共享信息等。
数据格式采用Json结构,方便网络传输。一个完整的元信息如下:
{
"AfileID": "2_20181206114127874",
"Ctime": "2018-08-30 08:40:41",
"Mtime": "2018-12-06 11:41:28",
"en_file_hash": "725E29CAC3FBDC70C3311D091CE04ED2",
"en_key": "KSO+hOFs1q5SkEnx8bvp67Om2zyHDD6ZJF4NHAa3R94=",
"filename": "log.txt",
"sharedinfo": {
"part": [
"二处三科"
],
"user": [
"23"
]
},
"sourcefile_length": "98809",
"where": "user2/2"
}
通过从服务器获取的文件元信息可以把文件信息显示给用户,可以获取文件的加密秘钥进行解密,可以把文件共享给其他用户;
5、检索
文本检索时,首先对用户的输入进行分词,提取不超过15个关键词,加密上传给服务端;服务端安进行检索后按照一定标准返回检索到的文件元信息列表。
图片检索时,用户需要选择一张图片,程序计算其哈希值,上传至服务端;然后返回相似的图片列表和包含相似图片的文档列表;
6、本系统用到的加解密函数及秘钥设置
所有的加解密,均调用Openssl库里的函数来实现。
(1)文件加解密:采用高强度加密算法,确保保密性;
用AES cbc模式进行文件加密,秘钥采用256bit随机数;采用PKCS5进行填充,解密时自动去除。
(2)文件加密秘钥在服务端加密存储,确保秘钥安全;
文件加密秘钥通过AES固定秘钥进行加密;固定秘钥不是明文存放的,而是通过rand()函数和变换得来;前后部分存在不同数组里,保证秘钥不是存在连续的内存里。
(3)关键字加密和用户口令加密:使用不可恢复的单向哈希计算,保护用户隐私;
利用HMAC_sha256进行关键字和用户口令加密,其秘钥均为64字节随机数;
(4)信道加密:使用RC4信道加密,保证传输安全;
利用RC4进行信道加密,秘钥为256字节随机数;
(5)文件hash
利用MD5对文件进行hash;
(6)本系统用到的加解密函数列表
7、组织架构自主建立修改
可以自主建立本单位组织架构,并可以灵活修改。
8、数据存储服务器
数据存储服务器支持OpenStack私有云盘和FTP服务器;通过服务端设置,客户端自适应进行相应的数据存储。数据存储服务包括登录、上传、下载、删除等操作。
目前OpenStack 3.8.2,身份认证采用api V3版本。
FTP服务器采用经典开源的FileZilla Sever,传输速度、安全性方面都非常优秀。
9、用户管理
用户分为超级管理员、管理员和普通用户三种;超级管理员可以添加修改管理员和普通用户,管理员可以添加修改普通用户。
(1)规定用户名和口令输入要求
用户名:只能用大小字母、数字以及下划线;
口令:要求数字、字母、特殊字符(_~@#$^)任意两种组合以上;
在用户名和口令输入框里均做了限定,只能输入他们要求的字符;输入其他字符则无效。
(2)对口令进行hash后,传输认证;
(3)导出、导入用户列表
可以导出当前用户列表至excel文档;也可以按一定的excel格式导入新的用户列表,默认口令为“123456”。
二、移动端技术实现
1、文档全密文检索
(1)采用MongoDB、倒排表方式实现密关键词的存储和快速检索
优点:检索速度快,便于插入和删除
缺点:关键词第一次匹配查找受mongoDB查询速度的制约
1)MongoDB中倒排表存储关键词格式
文件ID由“用户名+文件名”组成。
2)客户端上传密索引文件时,读取文件名和文件内容密关键词
检索时,根据关键词匹配得到所有包含该关键词的文件名
3)客户端上传密索引文件时,同时更新密索引数据库和文件名密索引文件库,采用mongoDB进行存储
(2)共享文件和权限文件的判断:
文件元信息采用json结构
A.服务端主要对其中的“sharedinfo”字段进行共享判断:
函数 int inshare(char *jsonline, char *username, char *partname)
实现当前用户或其所在部门是否可共享当前文档的查询。
B.服务端根据文件的“userpart”字段,结合用户的“权限”字段,进行权限判断。
(3)多关键词检索结果输出判断标准
采用结构数组变量统计文件命中关键词的个数
KF keyf[200];
目前是按照文件命中关键词个数大于一半的标准进行输出,并按文件更新时间倒序输出。
2、用户鉴权及信息管理
(1)采用MySQL数据库实现对用户信息的存储和管理
用户密码在数据库中加密存储。
(2)普通用户匹配用户名口令后,可根据权限对文档进行浏览、文档和图片检索、下载、在线编辑存储、分享、修改文件及文件夹名称、删除等操作。
(3)管理员用户匹配用户名口令后,可对用户信息数据库进行浏览、创建、修改、删除操作。
3、图片检索
(1)采用MongoDB存储图片hash并进行检索
(2)图片hash值比对,目前以汉明距离在10以内作为判断标准,认为符合相似图片。
A.用户上传图片时,以hash值为关键字,记录一条信息;
B.用户检索图片时,比对库中所有hash,对符合相似图片的记录,输出该记录中去重后的所有文件ID;对输出的文件ID,通过文件元信息数据库中的用户权限、分享信息、用户所在单位等,判断是否推送给该用户
4、在线用户统计
(1)使用mongoDB,每秒对在线人数进行统计,如果发生变化,则记入数据库。
采用ISODate格式记录时间,实时记录用户总数及在线人数;
(2)在服务端运行界面,提供在线人数实时监听统计和每月按日统计峰值在线人数图表:
A.实时监听
B.每月统计
5、流量统计
(1)使用mongoDB,每分钟对上传和下载流量分别进行统计,如果不为0,则记入数据库。
(2)在服务端运行界面,显示上传和下载流量实时监听数据,也可选填日期显示某日流量按分钟统计图;
6、信道加密传输
采用openssl的rc4加密函数
7、多线程响应用户请求
(1)服务端目前测试可响应1000个用户的并发请求;
(2)为每个登陆请求创建一个线程进行后续处理;
(3)为每个线程建立MongoDB图片表、文件元信息表、关键字倒排表连接;
8、服务端激活授权策略
(1)授权设备绑定
提取主机MAC地址、主机名、所有硬盘序列号,进行MD5后作为机器码
(2)授权使用时间
授权使用时间可以设定天数或无限使用。
在验证授权时间是否超时时,按照以下顺序判断:
A.如果连接了因特网,则访问百度主页,在返回信息中提取时间,与激活码时间进行比对;
B.如果没有连接因特网,则提取本机时间,与激活码时间进行比对;
C.服务端运行过程中,对运行时长进行记录,如果运行时长超过授权时间,测判断为授权已到期;
(3)生产激活码
将授权使用天数转换为秒,并扩展为16字节,与机器码连接,进行AES加密,结果作为激活码。
9、消息通知
有两种情况,将向相关用户发送消息通知:
(1)管理员修改了相关用户的用户资料;
(2)其他用户向相关用户共享了文件;
技术实现:
(1)上述两种情况发生时,服务端以相关用户的用户名为文件名,产生消息文件:
(2)推送消息
用户登陆后,每10秒向服务端发送心跳包,服务端接收到心跳包后检索消息文件,如果有该用户的消息文件,则向客户端推送,并删除消息文件。
10、存储设置的选择、验证及向客户端推送
服务端运行前对存储配置进行设置,可选择数据存储服务器(ftp)和云盘
(1)选择ftp服务器,则对用户输入的IP地址、端口、用户名、口令进行登录ftp服务器验证,不能成功登陆则中止服务端运行;
(2)若选择云盘存储,则对用户输入的IP地址、用户名、口令进行云盘登陆验证,不能成功登陆则中止服务端运行;
(3)客户端登陆服务端程序时,向客户端推送存储服务器IP地址、端口、用户名、口令,客户端程序不对存储服务器信息进行存储;
11、服务端编译使用到的外部库、头文件或源码:
(1)MySQL, 用于调用mysql函数操作数据库
头文件,包含mysql/include64
库文件:64位libmysql.lib、64位libmysql.dll
(2)Openssl, 用于实现MD5、RC4、AES等密码算法
头文件:openssl_win64\inc32
库文件:64位libeay32.lib、libeay32.dll、ssleay32.dll
(3)Jsoncpp, 用于json格式数据的操作
头文件:jsoncpp-master\include
库文件:64位json_vc71_libmt.lib
(4)Mongo-c-driver,用于调用函数对mongoDB进行操作
头文件:mongo-c-driver\include\libbson-1.0
mongo-c-driver\include\libmongoc-1.0
库文件:64位mongoc-1.0.lib、bson-1.0.lib、libmongoc-1.0.dll、libbson-1.0.dll
(5)ftp,用于调用函数与ftp服务器进行数据交换
包括:ftp.h、ftp.cpp
(6)hight-speed-charting
导入了这个工具的全部源码ChartCtrl,用于mfc下统计图表的实现
修改了两个类的代码,用于对纵坐标加箭头和单位
CChartAxisLabel类、CChartAxis类
(7)libcurl,用于提交http请求,实现云盘服务器配置验证
头文件:curl\
库文件:64位、release版libcurl.lib、libssh2.lib、及libcurl.dll、libssh2.dll、zlib.dll
9、服务端运行的基础环境:
(1)操作系统:Win7及以上64位windows简体中文操作系统
(2)内存 8G及以上
(3)硬盘 1T及以上(视使用用户量及文件存储量而定)
(4)网络 百兆及以上
(5)服务端有独立IP地址
服务端所需的mysql数据库、mongoDB数据库,以及依赖的库文件,在安装包里均已打包,无需提前安装。(mysql为5.7版本64位,mongoDB为4.20版本64位)。

Claims (8)

1.大数据安全之全密态检索系统分为客户端和服务端,两者通过信道加密交互,进行文件加密及检索服务(包括文档检索、图片检索);服务端存储文件的密文索引,检索在服务器进行,数据存储服务器仅存储加密文件。这样就杜绝了数据服务器对用户的隐私扫描和检测。数据存储服务器支持私有云OpenStack和FTP服务器。
2.根据权利要求1所述的客户端技术实现,是通过与服务端和云盘交互,可以实现用户登陆、文件加密上传和下载以及文档、图片的检索等功能。文档检索通过输入关键词来进行搜索,图片检索需要选择图片来进行搜索。服务端主要有用户管理、密文检索、图片检索、文件管理、分享、权限分级、在线人数统计、流量统计、信道加密传输、多线程响应用户请求、服务端激活授权策略等功能。
3.根据权利要求2所述的客户端对文件进行加密及检索服务中文档内容提取,主要针对以下三种文档:pdf、office文档(word、excel、ppt)和txt;内容的提取包括文本提取和图片提取,主要是通过调用python脚本来实现的。
4.根据权利要求1和2所述的客户端对文本内容进行分词,并建立密文索引。是利用“结巴分词”;“结巴”中文分词:做最好的 Python 中文分词组件,它是国内完全开源的一套分词系统;jieba支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
5.根据权利要求4所述的系统结巴分词采取的是搜索引擎模式;Jieba有各种语言版本,java,python,C++,C,本系统采用的是C版本;基本字典jieba.dict.utf8可以根据需求更改;可以在用户字典user.dict.utf8中添加自定义词。
6.根据权利要求1和2所述的客户端对上传的图片文件及文档中的图片建索引。是通过感知哈希算法。感知哈希算法对每一张图片生成一个64比特“指纹”,通过比较两张图片的指纹,来判断他们的相似度,是否属于同一张图片、或相似图片。Qt支持的图片格式有supportedImageList: ("bmp", "cur", "dds", "gif", "icns", "ico", "jpeg", "jpg", "pbm", "pgm", "png", "ppm", "svg", "svgz", "tga", "tif", "tiff", "wbmp", "webp", "xbm", "xpm"),这些图片都可以进行索引、检索。
7.根据权利要求1和2所述的客户端对系统用到的加解密函数及秘钥设置:
(1)文件加解密:采用高强度加密算法,确保保密性;用AES cbc模式进行文件加密,秘钥采用256bit随机数;采用PKCS5进行填充,解密时自动去除。
(2)文件加密秘钥在服务端加密存储,确保秘钥安全;文件加密秘钥通过AES固定秘钥进行加密;固定秘钥不是明文存放的,而是通过rand()函数和变换得来;前后部分存在不同数组里,保证秘钥不是存在连续的内存里。
(3)关键字加密和用户口令加密:使用不可恢复的单向哈希计算,保护用户隐私;利用HMAC_sha256进行关键字和用户口令加密,其秘钥均为64字节随机数;
(4)信道加密:使用RC4信道加密,保证传输安全;利用RC4进行信道加密,秘钥为256字节随机数;
(5)文件hash:利用MD5对文件进行hash;
(6)以上所述的所有的加解密,均调用Openssl库里的函数来实现。
8.根据权利要求1和2所述的服务端文档全密态检索采用MongoDB、倒排表方式实现密关键词的存储和快速检索,优点在于检索速度快,便于插入和删除;共享文件和权限文件的判断;多关键词检索结果输出判断标准。
CN202010841426.5A 2020-08-20 2020-08-20 大数据安全之全密态检索研究 Pending CN112702379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841426.5A CN112702379A (zh) 2020-08-20 2020-08-20 大数据安全之全密态检索研究

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841426.5A CN112702379A (zh) 2020-08-20 2020-08-20 大数据安全之全密态检索研究

Publications (1)

Publication Number Publication Date
CN112702379A true CN112702379A (zh) 2021-04-23

Family

ID=75506871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841426.5A Pending CN112702379A (zh) 2020-08-20 2020-08-20 大数据安全之全密态检索研究

Country Status (1)

Country Link
CN (1) CN112702379A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312911A (zh) * 2021-05-26 2021-08-27 上海晏鼠计算机技术股份有限公司 一种基于大纲的自动授权与文段智能创作方法
CN113595831A (zh) * 2021-08-02 2021-11-02 中国工商银行股份有限公司 流量信息测试方法、装置及系统
CN115033925A (zh) * 2022-08-11 2022-09-09 三未信安科技股份有限公司 一种数据库安全检索方法
CN116432242A (zh) * 2023-06-13 2023-07-14 江西通友科技有限公司 一种加密电子文档的访问管理方法及管理系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629924A (zh) * 2012-03-30 2012-08-08 上海交通大学 一种多服务器环境下的隐私信息检索方法
CN104023085A (zh) * 2014-06-25 2014-09-03 武汉大学 一种基于增量同步的安全云存储系统
CN105678189A (zh) * 2016-01-15 2016-06-15 上海海事大学 加密数据文件存储和检索系统及方法
CN106203171A (zh) * 2016-06-03 2016-12-07 中国电子科技网络信息安全有限公司 大数据平台安全索引系统及方法
CN108628867A (zh) * 2017-03-16 2018-10-09 北京科瑞云安信息技术有限公司 面向云存储的多关键词密文检索方法和系统
CN111475662A (zh) * 2020-04-03 2020-07-31 南京云吾时信息科技有限公司 一种图形数据库后台检索系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629924A (zh) * 2012-03-30 2012-08-08 上海交通大学 一种多服务器环境下的隐私信息检索方法
CN104023085A (zh) * 2014-06-25 2014-09-03 武汉大学 一种基于增量同步的安全云存储系统
CN105678189A (zh) * 2016-01-15 2016-06-15 上海海事大学 加密数据文件存储和检索系统及方法
CN106203171A (zh) * 2016-06-03 2016-12-07 中国电子科技网络信息安全有限公司 大数据平台安全索引系统及方法
CN108628867A (zh) * 2017-03-16 2018-10-09 北京科瑞云安信息技术有限公司 面向云存储的多关键词密文检索方法和系统
CN111475662A (zh) * 2020-04-03 2020-07-31 南京云吾时信息科技有限公司 一种图形数据库后台检索系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312911A (zh) * 2021-05-26 2021-08-27 上海晏鼠计算机技术股份有限公司 一种基于大纲的自动授权与文段智能创作方法
CN113312911B (zh) * 2021-05-26 2022-07-12 上海晏鼠计算机技术股份有限公司 一种基于大纲的自动授权与文段智能创作方法
CN113595831A (zh) * 2021-08-02 2021-11-02 中国工商银行股份有限公司 流量信息测试方法、装置及系统
CN113595831B (zh) * 2021-08-02 2024-01-30 中国工商银行股份有限公司 流量信息测试方法、装置及系统
CN115033925A (zh) * 2022-08-11 2022-09-09 三未信安科技股份有限公司 一种数据库安全检索方法
CN115033925B (zh) * 2022-08-11 2022-10-28 三未信安科技股份有限公司 一种数据库安全检索方法
CN116432242A (zh) * 2023-06-13 2023-07-14 江西通友科技有限公司 一种加密电子文档的访问管理方法及管理系统
CN116432242B (zh) * 2023-06-13 2023-08-29 江西通友科技有限公司 一种加密电子文档的访问管理方法及管理系统

Similar Documents

Publication Publication Date Title
US20210099287A1 (en) Cryptographic key generation for logically sharded data stores
CA3066678C (en) Processing data queries in a logically sharded data store
US9811547B2 (en) Client computer for updating a database stored on a server via a network
CN112702379A (zh) 大数据安全之全密态检索研究
US20140101438A1 (en) Structure preserving database encryption method and system
US11652642B2 (en) Digital data locker system providing enhanced security and protection for data storage and retrieval
US11329817B2 (en) Protecting data using controlled corruption in computer networks
CA3065767C (en) Cryptographic key generation for logically sharded data stores
KR20090031079A (ko) 암호화된 문서의 근사 스트링 매칭 방법, 이를 기록한기록매체 및 그 시스템
WO2018080857A1 (en) Systems and methods for creating, storing, and analyzing secure data
US20240028758A1 (en) Secured Search for Ready-Made Search Software
Aashmi et al. Ranked key search and efficient retrieval of grand data on cloud computing
Surrah Multi Keyword Retrieval On Secured Cloud
WO2024147078A2 (en) Self-extracting archive for data protection
WO2023052845A2 (en) Protecting data using controlled corruption in computer networks
CN118194312A (zh) 一种基于量子随机数信标的档案加密存储方法
Thota et al. Induri & Raghavendra Kune
Nithya et al. Information Leakage Prevention and Efficiency Enhancement of Search over Enciphered Cloud Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210423

WD01 Invention patent application deemed withdrawn after publication