CN117272353A - 一种数据加密存储保护系统及方法 - Google Patents
一种数据加密存储保护系统及方法 Download PDFInfo
- Publication number
- CN117272353A CN117272353A CN202311559425.1A CN202311559425A CN117272353A CN 117272353 A CN117272353 A CN 117272353A CN 202311559425 A CN202311559425 A CN 202311559425A CN 117272353 A CN117272353 A CN 117272353A
- Authority
- CN
- China
- Prior art keywords
- keyword
- data
- attribute
- attribute data
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 16
- 238000012545 processing Methods 0.000 claims abstract description 5
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 6
- 241000122205 Chamaeleonidae Species 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及数据处理领域,具体涉及一种数据加密存储保护系统及方法,包括:获取待加密数据;获取各用户各属性数据的关键词集合;将待加密数据任意两个不同的关键词组成目标关键词集合;根据各目标关键词集合及各用户各属性数据的关键词集合得到各关键词的契合序列独特系数;根据各用户各属性数据各关键词在属性数据中出现的频率得到各关键词的关键词独特系数;根据各用户各属性各关键词的契合序列独特系数和关键词独特系数得到各属性数据的属性内容独特指数;根据各属性数据的属性内容独特指数构建各用户的用户角色树进行聚类得到明文初始状态矩阵,利用AES算法完成数据加密存储保护。本发明提高了数据加密存储的安全性。
Description
技术领域
本申请涉及数据加密技术领域,具体涉及一种数据加密存储保护系统及方法。
背景技术
现在各行各业产生的数据信息规模庞大,数据存储已经从纸张存储转变为电子存储,其中,在进行电子存储数据时往往涉及到一些私密、重要的信息数据,如个人重要信息数据、企业重要业务数据等,需要对这些数据进行保护,而且为了保护设备、硬件丢失或者被盗时存储数据的安全,对于存储在计算机硬盘等电子存储上的数据往往需要进行加密处理。
数据加密是一种将原始数据(明文)通过使用密码算法来转化为不可读形式(密文)的过程,加密存储可以防止未经授权的访问者查看或使用保密数据,只有授权的用户才能解密和访问数据,保护了数据的私密性;而且加密存储还可以防止数据被篡改,当攻击者未经授权修改了加密数据,用户解密后的数据与原始数据不匹配,从而提醒用户数据可能已被篡改。在如今的数字化世界中,加密存储已经成为一项不可或缺的安全措施。
传统的数据加密算法如AES加密算法采用分组密码的方式,具有高效、便于实现的特点,但是传统AES加密算法采用从历史数据选择128bits的明文分组的方式,获取明文初始矩阵,此时明文初始矩阵中的相邻字节之间的关联度较大,存在数据加密存储安全性较低的问题。
综上所述,本发明提出一种数据加密存储保护系统及方法,通过获取待加密数据,对各用户各属性数据中的关键词出现的频率与其他关键词之间的契合程度进行分析,构建各属性数据的属性内容独特指数,从而构建各用户的用户角色树,通过聚类算法完成各用户数据加密存储保护。
发明内容
为了解决上述技术问题,本发明提供一种数据加密存储保护系统及方法,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种数据加密存储保护方法,该方法包括以下步骤:
获取待加密数据,待加密数据包括各用户各属性数据;
对各用户各属性数据进行分词处理及筛选得到各用户各属性数据的关键词集合;将待加密数据中的所有关键词组成综合关键词集合,将综合关键词集合中任意两个不同的关键词组成目标关键词集合;对于各目标关键词集合,根据目标关键词集合及各用户各属性数据的关键词集合得到目标关键词集合的关键词语义相似因子;根据目标关键词集合的关键词语义相似因子得到目标关键词集合的关键词语义契合优异指数;根据所有目标关键词集合的关键词语义契合优异指数得到待加密数据中各关键词的契合序列;
对于各用户各属性数据各关键词,根据关键词在属性数据中出现的频率得到关键词的关键词独特系数;根据关键词的契合序列及关键词语义契合优异指数得到关键词的契合序列独特系数;根据关键词的契合序列独特系数和关键词独特系数得到待加密数据各属性数据的属性内容独特指数;
根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树,对各用户的用户角色树进行聚类得到明文初始状态矩阵,利用AES算法完成数据加密存储保护。
优选的,所述根据目标关键词集合及各用户各属性数据的关键词集合得到目标关键词集合的关键词语义相似因子,包括:
对于各用户各属性数据,当属性数据的关键词集合被包含于目标关键词集合,则将属性数据的关键词匹配结果标记为1,否则标记为0;
获取属性数据的关键词匹配权重;
计算属性数据的关键词匹配结果与关键词匹配权重的乘积,将所有用户所有属性数据的所述乘积的和值作为目标关键词集合的关键词语义相似因子。
优选的,所述获取属性数据的关键词匹配权重,包括:
获取目标关键词集合中两个关键词在属性数据的关键词集合中出现的频率;遍历属性数据中所有关键词出现的频率之和;
将目标关键词集合中两个关键词的所述频率的和值与所述频率之和的比值作为属性数据的关键词匹配权重。
优选的,所述根据目标关键词集合的关键词语义相似因子得到目标关键词集合的关键词语义契合优异指数,包括:
获取所有目标关键词集合中的最大关键词语义相似因子;计算目标关键词集合的关键词语义相似因子与所述最大关键词语义相似因子的比值;
将目标关键词集合中两个关键词的归一化Google距离的相反数作为以自然常数为底数的指数函数的指数,将所述指数函数与所述比值的乘积作为目标关键词集合的关键词语义契合优异指数。
优选的,所述根据所有目标关键词集合的关键词语义契合优异指数得到待加密数据中各关键词的契合序列,包括:
对于待加密数据中各关键词,将关键词所在所有目标关键词集合中的关键词语义契合优异指数的归一化值采用阈值分割算法得到分割阈值,将关键词语义契合优异指数的归一化值大于分割阈值的目标关键词集合中除关键词外的另一个关键词作为关键词的契合关键词,将所有契合关键词与所对应的关键词语义契合优异指数的归一化值组成各二元组;
将所有所述二元组组成关键词的契合序列。
优选的,所述根据关键词在属性数据中出现的频率得到关键词的关键词独特系数,包括:
获取关键词所在属性数据中出现的频率;
将所有用户在相同属性数据种类中出现的关键词的频率和值作为第一和值;将所有用户在相同属性数据种类中具有最大频率关键词的最大频率和值作为第二和值;
将所述频率与所述第二和值的乘积结果和所述第一和值的比值作为关键词的关键词独特系数。
优选的,所述根据关键词的契合序列及关键词语义契合优异指数得到关键词的契合序列独特系数,包括:
计算关键词与关键词的契合序列中各契合关键词的契合关键词独特系数;
将关键词的契合序列中所有契合关键词的契合关键词独特系数与关键词语义契合优异指数的乘积的均值作为关键词的契合序列独特系数。
优选的,所述计算关键词与关键词的契合序列中各契合关键词的契合关键词独特系数,包括:
对于关键词的契合序列中各契合关键词,获取契合关键词在所有用户相同属性数据种类中出现的频率和值作为第三和值;
将关键词所在属性数据中出现的频率与所述第二和值的乘积结果和所述第三和值的比值作为契合关键词的契合关键词独特系数。
优选的,所述根据关键词的契合序列独特系数和关键词独特系数得到待加密数据各属性数据的属性内容独特指数,包括:
对于待加密数据各属性数据,将所有用户的属性数据中的所有关键词的契合序列独特系数与关键词独特系数之和的和值作为属性数据的属性内容独特指数。
第二方面,本发明实施例还提供了一种数据加密存储保护系统,该系统包括待加密数据采集模块、各属性数据的属性内容独特指数提取模块以及各用户数据加密存储保护模块,其中:
待加密数据采集模块,获取待加密数据,待加密数据包括各用户各属性数据;
各属性数据的属性内容独特指数提取模块,将各用户各属性数据分解为关键词,基于不同关键词之间的语义相似性,构建关键词语义契合优异指数,结合不同用户相同属性下关键词之间的关系,综合构建待加密数据中各属性数据的属性内容独特指数;
各用户数据加密存储保护模块,根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树并进行聚类,构建待加密数据的明文初始状态矩阵,完成对用户数据的加密存储保护。
本发明至少具有如下有益效果:
本发明基于各个用户属性提取关键词之间的特征,结合归一化Google距离,构建关键词语义契合优异指数,有益效果在于使关键词之间的关键词语义契合优异指数不仅可以反映待加密数据之间的关键词语义契合程度,也可以反映网络上关键词之间的语义的契合程度,提高了准确度;
根据各个用户属性提取关键词出现的频率,结合关键词语义契合优异指数,综合构建属性内容独特指数,避免当两个关键词语义契合程度较大,可以相互替换时,直接采用关键字进行属性内容独特性判断,可能会导致计算结果与实际误差较大的情况,基于用户内具有不同属性内容独特指数之间的关系,构建用户角色树,采用Chameleon聚类算法实现对用户数据的聚类,降低相邻字节之间的关联度,得到明文初始状态矩阵,有益效果在于避免传统算法直接从历史数据选择128bits的明文分组,所得明文初始矩阵中相邻字节之间的关联度较大,存在数据加密存储安全性较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一种数据加密存储保护方法的步骤流程图;
图2为待加密数据中各属性数据的属性内容独特指数的提取示意图;
图3为各用户的用户角色树示意图;
图4为本发明一种数据加密存储保护系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种数据加密存储保护系统及方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种数据加密存储保护系统及方法的具体方案。
本发明一个实施例提供的一种数据加密存储保护系统及方法。
具体的,提供了如下的一种数据加密存储保护方法,请参阅图1,该方法包括以下步骤:
步骤S001,获取待加密数据并进行预处理。
本实施例通过数据加密技术对数据的存储过程进行加密保护。首先,从系统数据库中获取本实施例需要进行加密保护的用户属性数据,记为待加密数据,其中用户为个人、企业等,属性为用户的标签,如企业用户的研发文档属性,企业用户的战略规划属性等,这些数据往往都具有较高的私密性、安全性,在数据存储时应该采用加密存储的方式,保护原始数据的私密性和完整性,同时为了避免数据获取过程中由于传输等情况产生的误差,对获取数据进行数据清洗。其中,数据清洗为公知技术,本实施例不再赘述。
至此,可通过上述方法获取得到待加密数据,便于接下来对待加密数据进行分析,完成数据加密存储保护。
步骤S002,将各用户各属性数据分解为关键词,基于不同关键词之间的语义相似性,构建关键词语义契合优异指数,结合不同用户相同属性下关键词之间的关系,综合构建待加密数据中各属性数据的属性内容独特指数。
不同用户的不同属性之间可能具有较大的差异,他们之间的私密性也可能不尽相同。其中一些属性内容对于不同用户之间可能具有较大的相似性,如每家企业的注册地,对于所有用户而言,这些数据差异较小,且都是用户私密性较低的数据,进行存储时如果被丢失或攻击,对用户信息安全的影响较小。但是,对于其他一些属性,不同的用户可能具有差异较大的数据内容,如用户企业a1、用户企业a2都具有一个研发文档的属性,但是两家用户企业的经营范围、市场定位等都不同,具有不同的研发文档数据内容,每个用户在这种属性对应的数据往往具有较大的差异,属性数据较为独特,私密性较高,在进行存储时如果被丢失或攻击,对用户信息安全的影响较大。
在电子存储时代对于数据存储的成本较低,电子存储中几十个字符和几千个字符的存储成本相差不大,而且随着信息化发展,单个属性内的数据量越来越大,如果直接进行对比,计算量较大,而且计算结果存在较大的误差。比如词汇“提倡”和“建议”,直接比较会存在字符之间较大的差异,但是实际上两者具有相似的语义,在属性内容中通常可以相互替换。
根据各用户各属性数据,通过采用编程语言(如python等)使用jieba分词库对各用户各属性数据进行分词处理,并统计各用户各属性数据中不同词汇出现的频率,按照各用户各属性数据中各词汇出现的频率从大到小的顺序进行排序,将排序结果前20%的词汇作为代表各用户各属性数据的关键词。将上述所得所有的待加密数据中所有不同关键词的集合,记为综合关键词集合,将综合关键词集合中的任意两个不同关键词,分别设为关键词、/>,关键词/>、/>组成目标关键词集合/>。
对于目标关键词集合,如果其中一个用户的一个属性数据中同时存在目标关键词集合中的两个关键词,则根据属性数据中大都为同类型的数据特点,则该目标关键词集合中的两个关键词具有较大的匹配结果,即两个关键词较为相似。基于此,通过对各用户各属性数据中的关键词集合与各目标关键词集合的匹配情况进行分析,得到各目标关键词集合的关键词匹配结果,本实施例针对第i个用户第j条属性数据中的关键词集合以及包含关键词、/>的目标关键词集合为例进行分析:
其中,是目标关键词集合/>和第i个用户第j条属性数据的关键词集合/>的关键词匹配结果,/>是关键词/>、/>组成的目标关键词集合,/>是第i个用户第j条属性的关键词集合,/>表示目标关键词集合/>包含于或等于关键词集合/>。
当用户属性关键词集合中含有目标关键词集合,即,说明集合/>、/>匹配成功,则关键词匹配结果设为1,即/>,说明目标关键词集合中的关键词/>、/>在同一属性内较为相似。
当对目标关键词集合中的两个关键词已经得到了关键词匹配结果,即这两个关键词如果存在于用户属性数据的关键词集合中,则需要进一步判断这两个关键词存在在用户属性数据的关键词集合中出现的频率,从而确定目标关键词集合出现的权重,更好地表征该目标关键词集合对于该用户属性数据的关键词集合的匹配程度。
其中,是目标关键词集合/>和第i个用户第j条属性数据的关键词集合/>的关键词匹配权重,/>表示关键词/>在关键词集合/>中出现的频率,/>表示关键词/>在关键词集合/>中出现的频率,/>表示关键词集合/>中第k个关键词出现的频率,/>表示关键词集合/>中关键词的个数。
当目标关键词在用户属性数据中出现的次数越多,即越大,说明目标关键词集合/>与该用户属性数据的关键词集合/>匹配的效果越好,匹配的准确性越高,则关键词匹配权重/>越大,进一步对于已经匹配到的目标关键词集合确定其匹配权重,用于接下来对关键词的匹配情况进行评价。
结合上述计算得到的各用户各属性数据的关键词匹配结果和关键词匹配权重,将所有用户所有属性数据的关键词匹配情况进行计算,可以得到各目标关键词集合对于待加密数据中是否为常见的关键词集合,通过这种方法可以便于接下来对各用户各属性数据内容中的独特程度进行判别,从而有针对性的进行数据加密过程。
其中,是目标关键词集合的关键词语义相似因子,/>是待加密数据中用户的个数,/>是第i个用户中属性的个数,/>是目标关键词集合/>和第i个用户第j条属性数据的关键词集合/>的关键词匹配结果,/>是目标关键词集合/>和第i个用户第j条属性数据的关键词集合/>的关键词匹配权重。
目标关键词集合与待加密数据中各个用户各个属性的关键词集合匹配结果越好,同时匹配结果的权重越大,即越大,说明关键词/>是待加密数据中可能具有相似的语义,是一种较为常见的关键词集合,经常在数据内容中一起使用,具有越大的语义相似性,则关键词语义相似因子/>越大。
在自然语言意义上具有相同或类似含义的关键词,如词汇“提倡”和“建议”,在Google搜索引擎中往往在同一个网页出现,即这些具有相同或类似含义的关键词往往在Google距离单元倾向于“紧密”,而有不同含义的关键词则往往Google距离较远。
因此,获取关键词、/>之间的归一化Google距离/>,如果关键词/>、/>总是同时出现,则关键词/>、/>的/>距离越接近于0,如果关键词/>、/>从未同时出现在相同的网页上,则关键词/>、/>的/>距离越接近于无穷。基于上述分析,结合目标关键词集合的关键词语义契合优异指数,可得目标关键词集合的关键词语义契合优异指数:
其中,是目标关键词集合之间的关键词语义契合优异指数,/>为以自然常数e为底数的指数函数,/>是关键词/>之间的归一化Google距离,/>是目标关键词集合的关键词语义相似因子,/>是所有关键词组合中最大的关键词语义相似因子。
目标关键词集合在待加密数据中具有越大的语义相似性,即越大,说明关键词/>集合在待加密数据用户属性中的语义越相似、越契合,语义契合的程度越高,则关键词语义契合优异指数/>越大,同时若关键词/>集合在网页上经常一起出现,即/>越小,说明关键词/>集合对应的Google距离单元越倾向于“紧密”,符合人们的认知,在日常使用中往往具有较高的语义契合度,语义契合程度越高,则关键词语义契合优异指数/>越大。
至此,得到待加密数据中任意两个关键词之间的关键词语义契合优异指数,将所有的目标关键词集合的关键词语义契合优异指数进行归一化,则任意两个关键词之间的关键词语义契合优异指数越大,相应的归一化结果越接近于1,两个关键词之间的语义越相似、契合。
以关键词r为例,得到关键词r与其他所有关键词之间的目标关键词集合的归一化后的关键词语义契合优异指数,按照数值的大小从小到大进行排序,采用大津法阈值分割算法对所述排序结果进行分割,获取关键词r的关键词语义契合优异指数分割阈值,将序列中所有关键词语义契合优异指数高于分割阈值的关键词以及关键词语义契合优异指数组成各二元组,将关键词r所有的二元组组成关键词的契合序列,记为,序列的总个数为,契合序列中的所有关键词都与关键词r具有较高的相似、契合程度。
相同的属性,不同的用户可能具有差异极大的数据内容,如果各个用户在这种属性对应的数据都具有较大的差异,则这个类型的属性数据较为独特,私密性较高,在进行存储时如果被丢失或攻击,对用户信息安全的影响较大。
根据相同属性下,不同用户所得的属性内容,若一个属性数据中经常出现“提倡”,另一个而经常出现“建议”,此时两个关键词语义极为契合,不结合两者的关键词语义契合优异指数,直接采用相同关键字进行属性内容独特性判断,可能会导致计算结果与实际误差较大的情况。基于上述分析,结合关键词语义契合优异指数,联合构建各用户各属性数据各关键词的关键词独特系数:
其中,是第i个用户第j个属性数据中第k个关键词的关键词独特系数,/>表示第i个用户第j个属性数据中第k个关键词/>在该属性数据中出现的频率,/>是待加密数据中用户的个数,/>表示第i个用户第j个属性数据中所有关键词中的出现的最大频率,/>是为了防止用户属性数据中没有关键词/>从而消除分母为0的情况,其中,/>为第一和值,/>为第二和值。
当关键词在该属性数据中出现的频率越高,即/>越大,说明关键词/>越能代表该属性数据整体的数据内容,同时当关键词/>在其他用户的j属性数据内容中出现频率越低,即/>越大,说明关键词/>与其它数据内容主题差异越大,关键词/>在不同用户的j属性数据内容中越具有独特性,则关键词/>的关键词独特系数/>越大。
上述关键词的关键词独特系数/>是从关键词在其所述属性数据内容以及在不同用户相同属性数据种类的内容中根据出现关键词的频率来得到关键词的独特程度;接下来针对关键词在各自的契合序列即在关键词所在的所有目标关键词集合中与用户属性数据内容的相似、契合程度的基础上评价关键词的独特程度。
首先,对于各用户各属性数据各关键词的契合序列中各契合关键词进行分析,得到第i个用户第j个属性中第k个关键词对应的契合序列中第/>个契合关键词的契合关键词独特系数:
其中,是第i个用户第j个属性中第k个关键词对应的契合序列/>中第/>个契合关键词的契合关键词独特系数,/>表示第i个用户第j个属性数据中第k个关键词在该属性数据中出现的频率,/>是待加密数据中用户的个数,/>表示第i个用户第j个属性数据中所有关键词中的出现的最大频率,/>是为了防止用户属性数据中没有关键词从而消除分母为0的情况,/>表示第k个关键词对应的契合序列/>中第/>个契合关键词,/>表示契合关键词/>在第i个用户第j个属性数据中出现的频率,其中,为第二和值,/>为第三和值。
与关键词具有高度语义契合的关键词/>出现频率越高,即/>越大,说明关键词/>越能代表整体的数据内容,同时契合关键词/>在其他用户的第j个属性数据内容中出现频率越低,即/>越大,说明契合关键词/>与其它数据内容主题差异越大,契合关键词/>在不同用户的j属性数据内容中越具有独特性,则契合关键词独特系数/>越大。
结合上述计算得到的第i个用户第j个属性中第k个关键词对应的契合序列中第/>个契合关键词的契合关键词独特系数,将第i个用户第j个属性中第k个关键词对应的契合序列中所有契合关键词结合起来,同时借助各关键词的契合序列中的契合关键词的关键词语义契合优异指数,从而完成对第i个用户第j个属性中第k个关键词的契合序列独特系数。
其中,是第i个用户第j个属性中第k个关键词对应的契合序列/>的契合序列独特系数,/>是关键词/>的契合序列/>中所有契合关键词的个数,/>是关键词/>之间的关键词语义契合优异指数,/>是第i个用户第j个属性中第k个关键词对应的契合序列/>中第/>个契合关键词的契合关键词独特系数。
关键词与契合关键词/>之间的语义契合程度越大,即/>越大,说明采用契合关键词/>越能代表关键词/>,所得计算结果越准确,同时关键词/>的契合关键词也在不同用户的j属性数据内容中出现的频率越少,即/>越大,说明与关键词/>的其它高度语义契合关键词/>也与其它属性内容主题具有较大的差异,越具有独特性,则关键词的整体契合序列在不同用户的j属性数据内容中都具有越高的独特性,即契合序列独特系数/>越大。
根据上述计算,可以得到各用户各属性数据各关键词在其出现的频率以及同其他关键词之间的相似、契合程度的关键词独特系数和契合序列独特系数,这两个层面可以共同表征各关键词的独特程度。因此,结合这两种层面,对待加密数据中各属性数据的属性内容独特指数进行计算,从而得到各属性数据对于用户来说是否具备较大的差异性即是否需要增加权重对其进行加密保护。对第j个属性数据的属性内容独特指数进行计算:
其中,是待加密数据中第j个属性数据的属性内容独特指数,/>是待加密数据中用户的个数,/>是第i个用户第j个属性中关键词的个数,/>为归一化函数,/>是第i个用户第j个属性数据中第k个关键词的关键词独特系数,/>是第i个用户第j个属性中第k个关键词对应的契合序列/>的契合序列独特系数。
关键词在不同用户的第j个属性数据内容中越具有独特性,即/>越大,说明采用关键字/>直接计算属性内容独特性,所得第j个属性的内容区别越大,越独特,同时关键词/>的整体契合序列在第j个属性数据内容中也具有越高的独特性,即/>越大,说明采用关键字/>具有高度语义契合的关键字计算属性内容独特性,所得第j个属性的内容区别也越大,越独特,则不同用户的j属性内容区别越大,越独特,即属性内容独特指数/>越大。
其中,待加密数据中各属性数据的属性内容独特指数的提取示意图如图2所示。
步骤S003,根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树,将各用户角色树作为初始子簇,采用Chameleon聚类算法实现对用户数据的聚类过程,从而构建待加密数据的明文初始状态矩阵,完成对用户数据的加密存储保护。
至此,得到待加密数据中每种属性数据对应的属性内容独特指数,属性内容独特指数考虑相同属性下不同的用户可能会具有不同的内容,同时结合关键词之间的关键词语义契合优异指数,避免直接采用相同关键字进行属性内容独特性判断,存在较大误差的问题,提高后续加密明文初始矩阵的准确性。
通过利用每种属性数据对应的属性内容独特指数,将每个用户的待加密数据构建用户角色树,如图3所示,其中将用户具有不同的属性内容独特指数的属性数据作为用户角色树的节点,按照用户不同属性数据对应的属性内容独特指数,从大到小进行排列,根据用户的排列结果分别将不同属性数据依次放入用户角色树的不同节点中,将用户属性内容独特指数最大的属性数据放入根节点中,将用户属性内容独特指数最小的属性数据放入叶子节点中,如果两种属性对应的属性内容独特指数相同,则将属性内容数据量较多的放入左节点,属性内容数据量较少的放入右节点中。
将所有的用户角色树作为初始子簇,采用Chameleon聚类算法,将具有相似用户角色树的用户数据聚为一类,输入是所有用户的用户角色树,输出为w类用户角色树的用户簇。其中,Chameleon聚类算法为公知技术,本实施例不再赘述。
以w=4为例,聚类共得到4个用户簇,对每个用户簇中的用户数据随机选择4个8bits的连续数据,再根据AES加密算法,将分别从4个用户簇中随机抽取的长度为128bits的用户数据组成明文初始状态矩阵S。
基于上述所得待加密数据的明文初始状态矩阵S,根据AES加密算法流程进行操作,可以实现对数据的加密存储保护。其中,AES加密算法为公知技术,本实施例不再赘述。
至此,通过以上步骤,完成对数据加密存储保护。
请参阅图4,其示出了本发明一个实施例提供的一种数据加密存储保护系统的结构框图,该系统包括以下模块:
待加密数据采集模块,获取待加密数据,待加密数据包括各用户各属性数据;
各属性数据的属性内容独特指数提取模块,将各用户各属性数据分解为关键词,基于不同关键词之间的语义相似性,构建关键词语义契合优异指数,结合不同用户相同属性下关键词之间的关系,综合构建待加密数据中各属性数据的属性内容独特指数;
各用户数据加密存储保护模块,根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树并进行聚类,构建待加密数据的明文初始状态矩阵,完成对用户数据的加密存储保护。
综上所述,本发明实施例提出一种数据加密存储保护系统及方法,通过获取待加密数据,对各用户各属性数据中的关键词出现的频率与其他关键词之间的契合程度进行分析,构建各属性数据的属性内容独特指数,从而构建各用户的用户角色树,通过聚类算法完成各用户数据加密存储保护。
本发明实施例基于各个用户属性提取关键词之间的特征,结合归一化Google距离,构建关键词语义契合优异指数,有益效果在于使关键词之间的关键词语义契合优异指数不仅可以反映待加密数据之间的关键词语义契合程度,也可以反映网络上关键词之间的语义的契合程度,提高了准确度;
根据各个用户属性提取关键词出现的频率,结合关键词语义契合优异指数,综合构建属性内容独特指数,避免当两个关键词语义契合程度较大,可以相互替换时,直接采用关键字进行属性内容独特性判断,可能会导致计算结果与实际误差较大的情况,基于用户内具有不同属性内容独特指数之间的关系,构建用户角色树,采用Chameleon聚类算法实现对用户数据的聚类,降低相邻字节之间的关联度,得到明文初始状态矩阵,有益效果在于避免传统算法直接从历史数据选择128bits的明文分组,所得明文初始矩阵中相邻字节之间的关联度较大,存在数据加密存储安全性较低的问题。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据加密存储保护方法,其特征在于,该方法包括以下步骤:
获取待加密数据,待加密数据包括各用户各属性数据;
对各用户各属性数据进行分词处理及筛选得到各用户各属性数据的关键词集合;将待加密数据中的所有关键词组成综合关键词集合,将综合关键词集合中任意两个不同的关键词组成目标关键词集合;对于各目标关键词集合,根据目标关键词集合及各用户各属性数据的关键词集合得到目标关键词集合的关键词语义相似因子;根据目标关键词集合的关键词语义相似因子得到目标关键词集合的关键词语义契合优异指数;根据所有目标关键词集合的关键词语义契合优异指数得到待加密数据中各关键词的契合序列;
对于各用户各属性数据各关键词,根据关键词在属性数据中出现的频率得到关键词的关键词独特系数;根据关键词的契合序列及关键词语义契合优异指数得到关键词的契合序列独特系数;根据关键词的契合序列独特系数和关键词独特系数得到待加密数据各属性数据的属性内容独特指数;
根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树,对各用户的用户角色树进行聚类得到明文初始状态矩阵,利用AES算法完成数据加密存储保护。
2.如权利要求1所述的一种数据加密存储保护方法,其特征在于,所述根据目标关键词集合及各用户各属性数据的关键词集合得到目标关键词集合的关键词语义相似因子,包括:
对于各用户各属性数据,当属性数据的关键词集合被包含于目标关键词集合,则将属性数据的关键词匹配结果标记为1,否则标记为0;
获取属性数据的关键词匹配权重;
计算属性数据的关键词匹配结果与关键词匹配权重的乘积,将所有用户所有属性数据的所述乘积的和值作为目标关键词集合的关键词语义相似因子。
3.如权利要求2所述的一种数据加密存储保护方法,其特征在于,所述获取属性数据的关键词匹配权重,包括:
获取目标关键词集合中两个关键词在属性数据的关键词集合中出现的频率;遍历属性数据中所有关键词出现的频率之和;
将目标关键词集合中两个关键词的所述频率的和值与所述频率之和的比值作为属性数据的关键词匹配权重。
4.如权利要求2所述的一种数据加密存储保护方法,其特征在于,所述根据目标关键词集合的关键词语义相似因子得到目标关键词集合的关键词语义契合优异指数,包括:
获取所有目标关键词集合中的最大关键词语义相似因子;计算目标关键词集合的关键词语义相似因子与所述最大关键词语义相似因子的比值;
将目标关键词集合中两个关键词的归一化Google距离的相反数作为以自然常数为底数的指数函数的指数,将所述指数函数与所述比值的乘积作为目标关键词集合的关键词语义契合优异指数。
5.如权利要求4所述的一种数据加密存储保护方法,其特征在于,所述根据所有目标关键词集合的关键词语义契合优异指数得到待加密数据中各关键词的契合序列,包括:
对于待加密数据中各关键词,将关键词所在所有目标关键词集合中的关键词语义契合优异指数的归一化值采用阈值分割算法得到分割阈值,将关键词语义契合优异指数的归一化值大于分割阈值的目标关键词集合中除关键词外的另一个关键词作为关键词的契合关键词,将所有契合关键词与所对应的关键词语义契合优异指数的归一化值组成各二元组;
将所有所述二元组组成关键词的契合序列。
6.如权利要求1所述的一种数据加密存储保护方法,其特征在于,所述根据关键词在属性数据中出现的频率得到关键词的关键词独特系数,包括:
获取关键词所在属性数据中出现的频率;
将所有用户在相同属性数据种类中出现的关键词的频率和值作为第一和值;将所有用户在相同属性数据种类中具有最大频率关键词的最大频率和值作为第二和值;
将所述频率与所述第二和值的乘积结果和所述第一和值的比值作为关键词的关键词独特系数。
7.如权利要求6所述的一种数据加密存储保护方法,其特征在于,所述根据关键词的契合序列及关键词语义契合优异指数得到关键词的契合序列独特系数,包括:
计算关键词与关键词的契合序列中各契合关键词的契合关键词独特系数;
将关键词的契合序列中所有契合关键词的契合关键词独特系数与关键词语义契合优异指数的乘积的均值作为关键词的契合序列独特系数。
8.如权利要求7所述的一种数据加密存储保护方法,其特征在于,所述计算关键词与关键词的契合序列中各契合关键词的契合关键词独特系数,包括:
对于关键词的契合序列中各契合关键词,获取契合关键词在所有用户相同属性数据种类中出现的频率和值作为第三和值;
将关键词所在属性数据中出现的频率与所述第二和值的乘积结果和所述第三和值的比值作为契合关键词的契合关键词独特系数。
9.如权利要求1所述的一种数据加密存储保护方法,其特征在于,所述根据关键词的契合序列独特系数和关键词独特系数得到待加密数据各属性数据的属性内容独特指数,包括:
对于待加密数据各属性数据,将所有用户的属性数据中的所有关键词的契合序列独特系数与关键词独特系数之和的和值作为属性数据的属性内容独特指数。
10.一种数据加密存储保护系统,其特征在于,该系统包括以下模块:
待加密数据采集模块,获取待加密数据,待加密数据包括各用户各属性数据;
各属性数据的属性内容独特指数提取模块,将各用户各属性数据分解为关键词,基于不同关键词之间的语义相似性,构建关键词语义契合优异指数,结合不同用户相同属性下关键词之间的关系,综合构建待加密数据中各属性数据的属性内容独特指数;
各用户数据加密存储保护模块,根据待加密数据中各属性数据的属性内容独特指数构建各用户的用户角色树并进行聚类,构建待加密数据的明文初始状态矩阵,完成对用户数据的加密存储保护。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559425.1A CN117272353B (zh) | 2023-11-22 | 2023-11-22 | 一种数据加密存储保护系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311559425.1A CN117272353B (zh) | 2023-11-22 | 2023-11-22 | 一种数据加密存储保护系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117272353A true CN117272353A (zh) | 2023-12-22 |
CN117272353B CN117272353B (zh) | 2024-01-30 |
Family
ID=89218155
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311559425.1A Active CN117272353B (zh) | 2023-11-22 | 2023-11-22 | 一种数据加密存储保护系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117272353B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN113987593A (zh) * | 2021-12-28 | 2022-01-28 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN114330335A (zh) * | 2020-10-10 | 2022-04-12 | 中国移动通信有限公司研究院 | 关键词抽取方法、装置、设备及存储介质 |
CN116136908A (zh) * | 2023-04-14 | 2023-05-19 | 北京萤火保科技有限公司 | 基于大数据的保险用户信息安全存储方法 |
CN116936135A (zh) * | 2023-09-19 | 2023-10-24 | 北京珺安惠尔健康科技有限公司 | 基于nlp技术的医疗大健康数据采集分析方法 |
CN117057349A (zh) * | 2023-07-11 | 2023-11-14 | 中新宽维传媒科技有限公司 | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 |
-
2023
- 2023-11-22 CN CN202311559425.1A patent/CN117272353B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200081977A1 (en) * | 2017-10-20 | 2020-03-12 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN111767713A (zh) * | 2020-05-09 | 2020-10-13 | 北京奇艺世纪科技有限公司 | 关键词的提取方法、装置、电子设备及存储介质 |
CN114330335A (zh) * | 2020-10-10 | 2022-04-12 | 中国移动通信有限公司研究院 | 关键词抽取方法、装置、设备及存储介质 |
CN113987593A (zh) * | 2021-12-28 | 2022-01-28 | 北京妙医佳健康科技集团有限公司 | 一种数据处理方法 |
CN116136908A (zh) * | 2023-04-14 | 2023-05-19 | 北京萤火保科技有限公司 | 基于大数据的保险用户信息安全存储方法 |
CN117057349A (zh) * | 2023-07-11 | 2023-11-14 | 中新宽维传媒科技有限公司 | 新闻文本关键词抽取方法、装置、计算机设备和存储介质 |
CN116936135A (zh) * | 2023-09-19 | 2023-10-24 | 北京珺安惠尔健康科技有限公司 | 基于nlp技术的医疗大健康数据采集分析方法 |
Non-Patent Citations (1)
Title |
---|
王小林;朱磊;邰伟鹏;: "基于扩充词汇链改进的关键词提取算法", 苏州科技大学学报(自然科学版), no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN117272353B (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vatsalan et al. | Privacy-preserving record linkage for big data: Current approaches and research challenges | |
US9858426B2 (en) | Computer-implemented system and method for automatically identifying attributes for anonymization | |
Gkoulalas-Divanis et al. | Modern privacy-preserving record linkage techniques: An overview | |
Vatsalan et al. | A taxonomy of privacy-preserving record linkage techniques | |
Haq et al. | Insider threat detection based on NLP word embedding and machine learning | |
Christen et al. | Pattern-mining based cryptanalysis of Bloom filters for privacy-preserving record linkage | |
Vatsalan et al. | Efficient two-party private blocking based on sorted nearest neighborhood clustering | |
Karakasidis et al. | Scalable blocking for privacy preserving record linkage | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
Gupta et al. | A learning oriented DLP system based on classification model | |
Zainab et al. | Sensitive and private data analysis: A systematic review | |
CN116595587B (zh) | 一种基于保密业务的文档隐写方法及文档管理方法 | |
Hussain et al. | A novel method for preserving privacy in big-data mining | |
Karakasidis et al. | Advances in privacy preserving record linkage | |
CN117272353B (zh) | 一种数据加密存储保护系统及方法 | |
Schnell | Privacy Preserving Record Linkage in the Context of a National Statistical Institute | |
Yao et al. | SNN-PPRL: A secure record matching scheme based on siamese neural network | |
Huang et al. | Efficient privacy-preserving content-based image retrieval in the cloud | |
Guo et al. | A privacy preserving Markov model for sequence classification | |
XIONG et al. | Searchable Encryption Scheme for Large Data Sets in Cloud Storage Environment. | |
Ranbaduge | A scalable blocking framework for multidatabase privacy-preserving record linkage | |
Satheesh Kumar et al. | Content-based video retrieval based on security using enhanced video retrieval system with region-based neural network (EVRS-RNN) and K-Means classification | |
Bonomi et al. | A review of privacy preserving mechanisms for record linkage | |
Kabwe et al. | Identity attributes metric modelling based on mathematical distance metrics models | |
CN112883207B (zh) | 一种基于特征融合的高安全生物哈希密文语音检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |