CN110990518A - 一种智能电网非结构化数据安全方法 - Google Patents

一种智能电网非结构化数据安全方法 Download PDF

Info

Publication number
CN110990518A
CN110990518A CN201910999493.7A CN201910999493A CN110990518A CN 110990518 A CN110990518 A CN 110990518A CN 201910999493 A CN201910999493 A CN 201910999493A CN 110990518 A CN110990518 A CN 110990518A
Authority
CN
China
Prior art keywords
data
unstructured data
algorithm
clustering
utilizing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910999493.7A
Other languages
English (en)
Inventor
王林
何映军
吕垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201910999493.7A priority Critical patent/CN110990518A/zh
Publication of CN110990518A publication Critical patent/CN110990518A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及电网非结构化数据安全技术研究方法,特别是指非结构化数据数据加密和解密方法;采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。

Description

一种智能电网非结构化数据安全方法
技术领域
本发明涉及电网非结构化数据安全技术研究方法,特别是指非结构化数据数据加密和解密方法。
背景技术
各种新技术的引入以及电网的开放性和交互性和网络通讯更加复杂,增加了电网内部的安全风险。非结构化数据安全在电力企业中变得非常重要,虽然在结构化数据加密方面取得了进步,但是在非结构化数加密和解密处理还有一定的差距,通过中科院ICTCLA分词技术和开源hadoop体系结构中的HDFS文件系统以及HBASE等开源技术对非结构化数据进行分词和存储,引入多层聚类的多分类SVM算法和线性同态加密算法,提高了非结构化数据的安全性,同时兼顾检索效率。
发明内容
本发明是一种智能电网非结构化数据安全方法,提出线性同态加密方法。引入多层聚类 svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密,运用k近邻算法实现查询效率的提高。
系统采用hadoop搭建分布集群,作为云存储平台,存储密文文档,密文索引采用倒排的索引方式,由于apache hadoop是基于java的平台,基于平台更好的兼容性,实验环境的分词算法使用中科院ICTCLA分词算是,使用java语言来实现密文全文检索。并对hadoop集群进行了相应的配置。实验环境是两台部署hadoop的Linux服务器。为了描述方便,其中非结构化加密数据在甲服务器上,另外一台相互协作的服务器称作乙。
非结构化数据按照多层次聚类SVM算法流程进行聚类(聚类的目的为密文检索做准备,目的是方便找出最短距离),然后把聚类后的数据进行加密,其中加密的数据包括在聚类过程中产生的新数据和原数据以及用户提交的查询数据。数据加密的索引项在甲服务器上,数据解密的密钥在乙服务器上,甲与乙配合处理检索内容查询和数据,最终返回查询结果(参见图1)。该算法将所有数据分成m份,设k值设为m,这样聚类后的数据就会产生m份,对于每一份数据,再依次分裂成m份,直到叶子节点不再满足分裂要求则停止,对数据数量的最大值和最小值做限制和规定。当节点中数据数量大于最大值,则节点可以继续分裂。若分裂后数据数量小于预定的值,则将该节点与其同时分裂产生的另外节点进行合并。若节点内的数据数量小于最大预定值,并大于最小预定值,则该节点为叶子末端节点。采用以上规则进行剪枝,剪枝的过程中去掉不满足结果的数据,提高检索效率。
在整个查询过程中用户只进行一次操作,将数据聚类、加密的数据以及将加密用的公钥发送甲。甲服务器上存储的是非结构化加密数据,可以得知甲服务器上的数据无法被解析,即使知道查询数据相对最短距离时也无法获得密钥,达到安全保护的目的。乙服务器作用将数据解密,解密后的数据是经过甲处理过的数据,这些数据在解密后在其原有数据的基础上都加入了随机值,这样乙即使拥有随机值,但也无法还原原始数据值,从而使原数据得到保护。甲只需要把处理方式发送给用户,随机生成的数据以及原始真实数据是如何加入随机值的等。用户在收到这些信息以后,就可以确定哪些数据是符合要求,以及下一步如何还原出真实数据,乙在最后解密距离是甲加入扰动值以后的距离,这样可以减少乙接触到关于数据间距离的信息。
通过对基于线性的同态加密算法进行实验分析。通过对比RSA/DSA密钥试验效果,在保证安全性的同时,提高了同态加密方法的计算效率。在该组实验中密钥长度为296bits,k=8,数据数量为10000个测试文档,可以得出非结构化数据加密和检索有显著的优势,查询效率较高。先按照多层聚类SVM的方法对要数据进行聚类,接着对关键字和非结构化数据进行加密,加密算法使用改进的线性加密算法,保证了数据的安全性,利用k近邻算算法实现检索效率的提高。
本发明的有益效果为:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
附图说明
图1为本发明的原理示意图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步说明:
如图1所示,本发明是一种智能电网非结构化数据安全方法,提出线性同态加密方法。引入多层聚类svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密,运用k 近邻算法实现查询效率的提高。
系统采用hadoop搭建分布集群,作为云存储平台,存储密文文档,密文索引采用倒排的索引方式,由于apache hadoop是基于java的平台,基于平台更好的兼容性,实验环境的分词算法使用中科院ICTCLA分词算是,使用java语言来实现密文全文检索。并对hadoop集群进行了相应的配置。实验环境是两台部署hadoop的Linux服务器。为了描述方便,其中非结构化加密数据在甲服务器上,另外一台相互协作的服务器称作乙。
非结构化数据按照多层次聚类SVM算法流程进行聚类(聚类的目的为密文检索做准备,目的是方便找出最短距离),然后把聚类后的数据进行加密,其中加密的数据包括在聚类过程中产生的新数据和原数据以及用户提交的查询数据。数据加密的索引项在甲服务器上,数据解密的密钥在乙服务器上,甲与乙配合处理检索内容查询和数据,最终返回查询结果(参见图1)。该算法将所有数据分成m份,设k值设为m,这样聚类后的数据就会产生m份,对于每一份数据,再依次分裂成m份,直到叶子节点不再满足分裂要求则停止,对数据数量的最大值和最小值做限制和规定。当节点中数据数量大于最大值,则节点可以继续分裂。若分裂后数据数量小于预定的值,则将该节点与其同时分裂产生的另外节点进行合并。若节点内的数据数量小于最大预定值,并大于最小预定值,则该节点为叶子末端节点。采用以上规则进行剪枝,剪枝的过程中去掉不满足结果的数据,提高检索效率。
在整个查询过程中用户只进行一次操作,将数据聚类、加密的数据以及将加密用的公钥发送甲。甲服务器上存储的是非结构化加密数据,可以得知甲服务器上的数据无法被解析,即使知道查询数据相对最短距离时也无法获得密钥,达到安全保护的目的。乙服务器作用将数据解密,解密后的数据是经过甲处理过的数据,这些数据在解密后在其原有数据的基础上都加入了随机值,这样乙即使拥有随机值,但也无法还原原始数据值,从而使原数据得到保护。甲只需要把处理方式发送给用户,随机生成的数据以及原始真实数据是如何加入随机值的等。用户在收到这些信息以后,就可以确定哪些数据是符合要求,以及下一步如何还原出真实数据,乙在最后解密距离是甲加入扰动值以后的距离,这样可以减少乙接触到关于数据间距离的信息。
通过对基于线性的同态加密算法进行实验分析。通过对比RSA/DSA密钥试验效果,在保证安全性的同时,提高了同态加密方法的计算效率。在该组实验中密钥长度为296bits,k=8,数据数量为10000个测试文档,可以得出非结构化数据加密和检索有显著的优势,查询效率较高。先按照多层聚类SVM的方法对要数据进行聚类,接着对关键字和非结构化数据进行加密,加密算法使用改进的线性加密算法,保证了数据的安全性,利用k近邻算算法实现检索效率的提高。
该安全方法计算效率表:
Figure RE-GDA0002398248460000031
由此可见:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密,利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。

Claims (5)

1.一种智能电网非结构化数据安全方法,其特征在于:非结构化数据数据加密和解密。
2.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:结合了中科院ICTCLA分词技术和开源hadoop体系结构中的HDFS文件系统。
3.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:采用多层聚类的多分类SVM方法对数据进行聚类,利用线性同态加密算法对非结构化数据进行加密。
4.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:利用HBASE对非结构化数据进行列式存储,运用k近邻查询算法实现查询效率的提高。
5.根据专利要求1所述的智能电网非结构化数据安全方法,其特征在于:提出线性同态加密方法,引入多层聚类svm算法先对数据聚类,利用改进的同态加密算法对数据的进行加密。
CN201910999493.7A 2019-10-18 2019-10-18 一种智能电网非结构化数据安全方法 Pending CN110990518A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910999493.7A CN110990518A (zh) 2019-10-18 2019-10-18 一种智能电网非结构化数据安全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910999493.7A CN110990518A (zh) 2019-10-18 2019-10-18 一种智能电网非结构化数据安全方法

Publications (1)

Publication Number Publication Date
CN110990518A true CN110990518A (zh) 2020-04-10

Family

ID=70082177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910999493.7A Pending CN110990518A (zh) 2019-10-18 2019-10-18 一种智能电网非结构化数据安全方法

Country Status (1)

Country Link
CN (1) CN110990518A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218322A (zh) * 2021-12-13 2022-03-22 深圳市电子商务安全证书管理有限公司 基于密文传输的数据展示方法、装置、设备及介质
CN117395162A (zh) * 2023-12-12 2024-01-12 中孚信息股份有限公司 利用加密流量识别操作系统的方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王林 等: "智能电网非结构化数据安全技术研究", 《中国科技纵横》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114218322A (zh) * 2021-12-13 2022-03-22 深圳市电子商务安全证书管理有限公司 基于密文传输的数据展示方法、装置、设备及介质
CN117395162A (zh) * 2023-12-12 2024-01-12 中孚信息股份有限公司 利用加密流量识别操作系统的方法、系统、设备及介质
CN117395162B (zh) * 2023-12-12 2024-02-23 中孚信息股份有限公司 利用加密流量识别操作系统的方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN108388807B (zh) 一种支持偏好搜索和逻辑搜索的高效可验证的多关键字排序可搜索加密方法
Chen et al. An efficient privacy-preserving ranked keyword search method
CN105678189B (zh) 加密数据文件存储和检索系统及方法
US9197613B2 (en) Document processing method and system
CN111026788B (zh) 一种混合云中基于同态加密的多关键词密文排序检索方法
Rashid et al. A secure data deduplication framework for cloud environments
JP7020780B2 (ja) サーバ装置、データ検索システム、検索方法および検索プログラム
CN109739945B (zh) 一种基于混合索引的多关键词密文排序检索方法
US11829503B2 (en) Term-based encrypted retrieval privacy
Shekokar et al. Implementation of fuzzy keyword search over encrypted data in cloud computing
CN110990518A (zh) 一种智能电网非结构化数据安全方法
Peng et al. LS-RQ: A lightweight and forward-secure range query on geographically encrypted data
Li et al. Multi-keyword fuzzy search over encrypted cloud storage data
Zhang et al. Efficient searchable symmetric encryption supporting dynamic multikeyword ranked search
Zheng et al. An efficient multikeyword fuzzy ciphertext retrieval scheme based on distributed transmission for Internet of Things
Schnell Privacy-preserving record linkage and privacy-preserving blocking for large files with cryptographic keys using multibit trees
Santos et al. Performance analysis of data fragmentation techniques on a cloud server
Balakrishnan et al. Extensibility of File Set Over Encoded Cloud Data Through Empowered Fine Grained Multi Keyword Search
Schnell Efficient private record linkage of very large datasets
Fouly et al. Developing an Efficient Secure Query Processing Algorithm for Unstructured Data on Encrypted Databases
Balamurugan et al. Multi-Keyword Graded Exploration in Encrypted Cloud Data for Industries Based on Rc4+ and Forest
Mahajan et al. Clustering based efficient privacy preserving multi keyword search over encrypted data
US11977657B1 (en) Method and system for confidential repository searching and retrieval
CN107423341A (zh) 一种密文全文搜索系统
Gawade et al. Secure Data Storage and Efficient Data Retrieval Over Cloud Using Sensitive Hashing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410

RJ01 Rejection of invention patent application after publication