CN110990518A - 一种智能电网非结构化数据安全方法 - Google Patents
一种智能电网非结构化数据安全方法 Download PDFInfo
- Publication number
- CN110990518A CN110990518A CN201910999493.7A CN201910999493A CN110990518A CN 110990518 A CN110990518 A CN 110990518A CN 201910999493 A CN201910999493 A CN 201910999493A CN 110990518 A CN110990518 A CN 110990518A
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured data
- algorithm
- clustering
- utilizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000011160 research Methods 0.000 abstract description 2
- 238000013138 pruning Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及电网非结构化数据安全技术研究方法,特别是指非结构化数据数据加密和解密方法;采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
Description
技术领域
本发明涉及电网非结构化数据安全技术研究方法,特别是指非结构化数据数据加密和解密方法。
背景技术
各种新技术的引入以及电网的开放性和交互性和网络通讯更加复杂,增加了电网内部的安全风险。非结构化数据安全在电力企业中变得非常重要,虽然在结构化数据加密方面取得了进步,但是在非结构化数加密和解密处理还有一定的差距,通过中科院ICTCLA分词技术和开源hadoop体系结构中的HDFS文件系统以及HBASE等开源技术对非结构化数据进行分词和存储,引入多层聚类的多分类SVM算法和线性同态加密算法,提高了非结构化数据的安全性,同时兼顾检索效率。
发明内容
本发明是一种智能电网非结构化数据安全方法,提出线性同态加密方法。引入多层聚类 svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密,运用k近邻算法实现查询效率的提高。
系统采用hadoop搭建分布集群,作为云存储平台,存储密文文档,密文索引采用倒排的索引方式,由于apache hadoop是基于java的平台,基于平台更好的兼容性,实验环境的分词算法使用中科院ICTCLA分词算是,使用java语言来实现密文全文检索。并对hadoop集群进行了相应的配置。实验环境是两台部署hadoop的Linux服务器。为了描述方便,其中非结构化加密数据在甲服务器上,另外一台相互协作的服务器称作乙。
非结构化数据按照多层次聚类SVM算法流程进行聚类(聚类的目的为密文检索做准备,目的是方便找出最短距离),然后把聚类后的数据进行加密,其中加密的数据包括在聚类过程中产生的新数据和原数据以及用户提交的查询数据。数据加密的索引项在甲服务器上,数据解密的密钥在乙服务器上,甲与乙配合处理检索内容查询和数据,最终返回查询结果(参见图1)。该算法将所有数据分成m份,设k值设为m,这样聚类后的数据就会产生m份,对于每一份数据,再依次分裂成m份,直到叶子节点不再满足分裂要求则停止,对数据数量的最大值和最小值做限制和规定。当节点中数据数量大于最大值,则节点可以继续分裂。若分裂后数据数量小于预定的值,则将该节点与其同时分裂产生的另外节点进行合并。若节点内的数据数量小于最大预定值,并大于最小预定值,则该节点为叶子末端节点。采用以上规则进行剪枝,剪枝的过程中去掉不满足结果的数据,提高检索效率。
在整个查询过程中用户只进行一次操作,将数据聚类、加密的数据以及将加密用的公钥发送甲。甲服务器上存储的是非结构化加密数据,可以得知甲服务器上的数据无法被解析,即使知道查询数据相对最短距离时也无法获得密钥,达到安全保护的目的。乙服务器作用将数据解密,解密后的数据是经过甲处理过的数据,这些数据在解密后在其原有数据的基础上都加入了随机值,这样乙即使拥有随机值,但也无法还原原始数据值,从而使原数据得到保护。甲只需要把处理方式发送给用户,随机生成的数据以及原始真实数据是如何加入随机值的等。用户在收到这些信息以后,就可以确定哪些数据是符合要求,以及下一步如何还原出真实数据,乙在最后解密距离是甲加入扰动值以后的距离,这样可以减少乙接触到关于数据间距离的信息。
通过对基于线性的同态加密算法进行实验分析。通过对比RSA/DSA密钥试验效果,在保证安全性的同时,提高了同态加密方法的计算效率。在该组实验中密钥长度为296bits,k=8,数据数量为10000个测试文档,可以得出非结构化数据加密和检索有显著的优势,查询效率较高。先按照多层聚类SVM的方法对要数据进行聚类,接着对关键字和非结构化数据进行加密,加密算法使用改进的线性加密算法,保证了数据的安全性,利用k近邻算算法实现检索效率的提高。
本发明的有益效果为:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本发明是一种智能电网非结构化数据安全方法,提出线性同态加密方法。引入多层聚类svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密,运用k 近邻算法实现查询效率的提高。
系统采用hadoop搭建分布集群,作为云存储平台,存储密文文档,密文索引采用倒排的索引方式,由于apache hadoop是基于java的平台,基于平台更好的兼容性,实验环境的分词算法使用中科院ICTCLA分词算是,使用java语言来实现密文全文检索。并对hadoop集群进行了相应的配置。实验环境是两台部署hadoop的Linux服务器。为了描述方便,其中非结构化加密数据在甲服务器上,另外一台相互协作的服务器称作乙。
非结构化数据按照多层次聚类SVM算法流程进行聚类(聚类的目的为密文检索做准备,目的是方便找出最短距离),然后把聚类后的数据进行加密,其中加密的数据包括在聚类过程中产生的新数据和原数据以及用户提交的查询数据。数据加密的索引项在甲服务器上,数据解密的密钥在乙服务器上,甲与乙配合处理检索内容查询和数据,最终返回查询结果(参见图1)。该算法将所有数据分成m份,设k值设为m,这样聚类后的数据就会产生m份,对于每一份数据,再依次分裂成m份,直到叶子节点不再满足分裂要求则停止,对数据数量的最大值和最小值做限制和规定。当节点中数据数量大于最大值,则节点可以继续分裂。若分裂后数据数量小于预定的值,则将该节点与其同时分裂产生的另外节点进行合并。若节点内的数据数量小于最大预定值,并大于最小预定值,则该节点为叶子末端节点。采用以上规则进行剪枝,剪枝的过程中去掉不满足结果的数据,提高检索效率。
在整个查询过程中用户只进行一次操作,将数据聚类、加密的数据以及将加密用的公钥发送甲。甲服务器上存储的是非结构化加密数据,可以得知甲服务器上的数据无法被解析,即使知道查询数据相对最短距离时也无法获得密钥,达到安全保护的目的。乙服务器作用将数据解密,解密后的数据是经过甲处理过的数据,这些数据在解密后在其原有数据的基础上都加入了随机值,这样乙即使拥有随机值,但也无法还原原始数据值,从而使原数据得到保护。甲只需要把处理方式发送给用户,随机生成的数据以及原始真实数据是如何加入随机值的等。用户在收到这些信息以后,就可以确定哪些数据是符合要求,以及下一步如何还原出真实数据,乙在最后解密距离是甲加入扰动值以后的距离,这样可以减少乙接触到关于数据间距离的信息。
通过对基于线性的同态加密算法进行实验分析。通过对比RSA/DSA密钥试验效果,在保证安全性的同时,提高了同态加密方法的计算效率。在该组实验中密钥长度为296bits,k=8,数据数量为10000个测试文档,可以得出非结构化数据加密和检索有显著的优势,查询效率较高。先按照多层聚类SVM的方法对要数据进行聚类,接着对关键字和非结构化数据进行加密,加密算法使用改进的线性加密算法,保证了数据的安全性,利用k近邻算算法实现检索效率的提高。
该安全方法计算效率表:
由此可见:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
Claims (5)
1.一种智能电网非结构化数据安全方法,其特征在于:非结构化数据数据加密和解密。
2.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:结合了中科院ICTCLA分词技术和开源hadoop体系结构中的HDFS文件系统。
3.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密。
4.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
5.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:提出线性同态加密方法,引入多层聚类svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910999493.7A CN110990518A (zh) | 2019-10-18 | 2019-10-18 | 一种智能电网非结构化数据安全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910999493.7A CN110990518A (zh) | 2019-10-18 | 2019-10-18 | 一种智能电网非结构化数据安全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990518A true CN110990518A (zh) | 2020-04-10 |
Family
ID=70082177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910999493.7A Pending CN110990518A (zh) | 2019-10-18 | 2019-10-18 | 一种智能电网非结构化数据安全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990518A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218322A (zh) * | 2021-12-13 | 2022-03-22 | 深圳市电子商务安全证书管理有限公司 | 基于密文传输的数据展示方法、装置、设备及介质 |
CN117395162A (zh) * | 2023-12-12 | 2024-01-12 | 中孚信息股份有限公司 | 利用加密流量识别操作系统的方法、系统、设备及介质 |
-
2019
- 2019-10-18 CN CN201910999493.7A patent/CN110990518A/zh active Pending
Non-Patent Citations (1)
Title |
---|
王林 等: "智能电网非结构化数据安全技术研究", 《中国科技纵横》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114218322A (zh) * | 2021-12-13 | 2022-03-22 | 深圳市电子商务安全证书管理有限公司 | 基于密文传输的数据展示方法、装置、设备及介质 |
CN117395162A (zh) * | 2023-12-12 | 2024-01-12 | 中孚信息股份有限公司 | 利用加密流量识别操作系统的方法、系统、设备及介质 |
CN117395162B (zh) * | 2023-12-12 | 2024-02-23 | 中孚信息股份有限公司 | 利用加密流量识别操作系统的方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108388807B (zh) | 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法 | |
Chen et al. | An efficient privacy-preserving ranked keyword search method | |
CN105678189B (zh) | 加密数据文件存储和检索系统及方法 | |
US9197613B2 (en) | Document processing method and system | |
CN111026788B (zh) | 一种混合云中基于同态加密的多关键词密文排序检索方法 | |
Rashid et al. | A secure data deduplication framework for cloud environments | |
JP7020780B2 (ja) | サーバ装置、データ検索システム、検索方法および検索プログラム | |
CN109739945B (zh) | 一种基于混合索引的多关键词密文排序检索方法 | |
US11829503B2 (en) | Term-based encrypted retrieval privacy | |
Shekokar et al. | Implementation of fuzzy keyword search over encrypted data in cloud computing | |
CN110990518A (zh) | 一种智能电网非结构化数据安全方法 | |
Peng et al. | LS-RQ: A lightweight and forward-secure range query on geographically encrypted data | |
Li et al. | Multi-keyword fuzzy search over encrypted cloud storage data | |
Zhang et al. | Efficient searchable symmetric encryption supporting dynamic multikeyword ranked search | |
Zheng et al. | An efficient multikeyword fuzzy ciphertext retrieval scheme based on distributed transmission for Internet of Things | |
Schnell | Privacy-preserving record linkage and privacy-preserving blocking for large files with cryptographic keys using multibit trees | |
Santos et al. | Performance analysis of data fragmentation techniques on a cloud server | |
Balakrishnan et al. | Extensibility of File Set Over Encoded Cloud Data Through Empowered Fine Grained Multi Keyword Search | |
Schnell | Efficient private record linkage of very large datasets | |
Fouly et al. | Developing an Efficient Secure Query Processing Algorithm for Unstructured Data on Encrypted Databases | |
Balamurugan et al. | Multi-Keyword Graded Exploration in Encrypted Cloud Data for Industries Based on Rc4+ and Forest | |
Mahajan et al. | Clustering based efficient privacy preserving multi keyword search over encrypted data | |
US11977657B1 (en) | Method and system for confidential repository searching and retrieval | |
CN107423341A (zh) | 一种密文全文搜索系统 | |
Gawade et al. | Secure Data Storage and Efficient Data Retrieval Over Cloud Using Sensitive Hashing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |