CN116070248A - 一种用于保证电力数据安全的数据处理系统及方法 - Google Patents
一种用于保证电力数据安全的数据处理系统及方法 Download PDFInfo
- Publication number
- CN116070248A CN116070248A CN202310206229.XA CN202310206229A CN116070248A CN 116070248 A CN116070248 A CN 116070248A CN 202310206229 A CN202310206229 A CN 202310206229A CN 116070248 A CN116070248 A CN 116070248A
- Authority
- CN
- China
- Prior art keywords
- data
- semantic
- sensitive
- subsets
- mapping
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013507 mapping Methods 0.000 claims abstract description 35
- 238000000586 desensitisation Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000003672 processing method Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000013506 data mapping Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 241000287196 Asthenes Species 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 3
- 230000005611 electricity Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种用于保证电力数据安全的数据处理系统及方法,涉及数据处理技术领域,将电力数据集分解成字段内容和标签两列,对电力数据集进行分类,得到文字数据子集、非文字数据子集;对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;在文字数据子集中提取出中心词,采用语义相似度规则形成多个语义子集;对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;对映射后的敏感数据进行加密处理;将加密后的敏感数据上传至数据处理中心,实现了能进行数据的自动识别,有效保护敏感数据。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于保证电力数据安全的数据处理系统及方法。
背景技术
伴随着智能电网的迅速发展,对敏感数据的保护要求也越来越高,如何在数据交换、共享和使用过程中精确定位、充分脱敏,是当前实现数据安全使用的关键性问题。就当前存在的问题,现有技术采用传统的烟囱式架构搭建数据的中间库,但是该数据中间库在数据使用监管方面存在薄弱点,对数据脱敏存在数据安全隐患;大数据使用面向HBase的脱敏技术,并结合权限算法完成脱敏任务。然而该方法计算步骤复杂,需要耗费大量时间,大大降低了电力数据的传输速率,大数据脱敏效果较差。
电力数据挖掘前景广阔,对于电网企业发展而言,电力数据真切地辅助企业在优质服务、高效运营等方面向数字化、智能化转型发展。例如:智能用电分析等,可以辅助电网合理调配电力供给、优化用电方案;通过对终端智能设备采集、传输的数据进行分析,可以帮助企业优化成本,分析用户用电特性,为居民设计能效方案,提升客户综合服务体验。然而,基于现有计算机网络的电力网络自动化系统因其网络安防系统固有的缺陷,易受到外部的网络攻击,系统主从站之间传输的应用数据存在被攻击者窃听、篡改与伪造的安全风险。
发明内容
为了解决上述技术问题,本发明提出了一种用于保证电力数据安全的数据处理方法,包括如下步骤:
S1、将电力数据集分解成字段内容和标签两列,按照标签列对电力数据集进行分类,得到文字数据子集、非文字数据子集;
S2、对所述非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;
S3、在所述文字数据子集中提取出中心词,按照语义相似度形成多个语义子集;
S4、对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;
S5、对映射后的敏感数据进行加密处理;
S6、将加密后的敏感数据上传至数据处理中心。
进一步地,步骤S3包括如下步骤:
S32、通过滤除技术删除集合X中的噪声数据,输出语义集合S;
进一步地,步骤S4包括如下步骤:
S41、获取不同语义子集的字段内容,采用敏感词聚类算法匹配敏感信息;
对m个语义子集的字段内容执行敏感词聚类算法,基于K个敏感词,计算m个语义子集的字段内容的中心语义与敏感词的距离的平方和d,公式为:
S42、基于聚类结果进行不同脱敏规则的映射。
进一步地,步骤S42中,
映射后的敏感数据的加密后的密文C为:
本发明还提出了一种用于保证电力数据安全的数据处理系统,用于实现用于保证电力数据安全的数据处理方法,包括:数据库,标签单元,分类单元,语义子集形成单元,脱敏单元,加密单元和数据处理中心;
所述数据库,用于存储电力数据;
所述标签单元,用于将电力数据集分解成字段内容和标签两列,按照标签列对电力数据集进行分类,得到文字数据子集、非文字数据子集;
所述分类单元,用于对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;
所述语义子集形成单元,用于在文字数据子集中提取出中心词,按照语义相似度形成多个语义子集;
脱敏单元,用于对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;
所述加密单元,用于对映射后的敏感数据进行加密处理;
所述数据处理中心接收加密后的敏感数据和非文字数据子集分类后的数据。
进一步地,所述脱敏单元包括匹配模块及映射模块,所述匹配模块用于获取不同语义子集的字段内容,采用敏感词聚类算法匹配敏感信息;所述映射模块用于基于聚类结果进行不同脱敏规则的映射。
相比于现有技术,本发明具有如下有益技术效果:
将电力数据集分解成字段内容和标签两列,对电力数据集进行分类,得到文字数据子集、非文字数据子集;对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;在文字数据子集中提取出中心词,按照语义相似度形成多个语义子集;对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;对映射后的敏感数据进行加密处理;将加密后的敏感数据上传至数据处理中心,实现了能进行数据的自动识别,有效保护敏感数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的用于保证电力数据安全的数据处理方法的流程示意图。
图2为本发明的按照语义相似度形成多个语义子集的步骤流程图。
图3为本发明的用于保证电力数据安全的数据处理系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本发明的具体实施例附图中,为了更好、更清楚的描述系统中的各元件的工作原理,表现所述装置中各部分的连接关系,只是明显区分了各元件之间的相对位置关系,并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。
如图1所示,为本发明的用于保证电力数据安全的数据处理方法的流程示意图,包括如下步骤:
S1、将电力数据集分解成字段内容和标签两列,按照标签列对电力数据集进行分类,得到文字数据子集、非文字数据子集。
将电力数据集分解成字段内容和标签两列,提取电力数据集中每个字段的具体内容,并为其打上对应的类型标签,包括:文字数据标签、非文字数据标签,根据不同类型标签,对电力数据集进行分类,得到文字数据子集、非文字数据子集。
S2:对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心。
提取非文字数据子集的自定义特征,对特征进行归一化处理,将处理好的数据输入到随机森林中进行分类,得到多个子类集合,输出结果包括:字母数据、符号数据和数字串数据。自定义特征包括是否包含大写字母、是否包含特殊字符以及数字串的长度。
S3、在文字数据子集中提取出中心词,按照语义相似度形成多个独立的语义子集,如图2所示,具体包括如下步骤:
S32、数据预处理,将重复的、有噪声特征的数据通过滤除技术删除,输出语义集合S;
S4、对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则,根据不同的脱敏规则对不同语义子集的数据进行脱敏处理,得到脱敏后的文字数据子集。
S41、获取不同语义子集的字段内容,采用敏感词聚类算法匹配敏感信息。
对m个语义子集的字段内容执行敏感词聚类算法,基于K个敏感词,计算m个语义子集的字段内容的中心语义与敏感词的距离的平方和d,公式为:
基于计算得到的聚类中心距离平方和,将敏感词聚类算法应用于不同语义子集的字段内容的敏感信息匹配中,在敏感信息匹配过程中,首先要确定原始字段内容,然后选取敏感词,最后用敏感词聚类算法进行距离的平方和d的数值计算。如果这个值是常数,说明聚类算法在迭代过程中并不是最优的,需要通过更新聚类中心来重复迭代过程,根据上述聚类结果,构建敏感信息匹配系统,通过该系统实现数据高效敏感信息匹配。
S42、基于聚类结果进行不同脱敏规则的映射。具体步骤如下:
S5、对映射后的敏感数据进行加密处理。
映射后的敏感数据的加密后的密文C为:
电力数据系统的敏感数据解密过程是加密的逆变换,计算公式如下:
S6、将加密后的敏感数据上传至数据处理中心。
如图3所示,为本发明的用于保证电力数据安全的数据处理系统的结构示意图,包括:数据库,标签单元,分类单元,语义子集形成单元,脱敏单元,加密单元和数据处理中心。
数据库,用于存储电力数据;
标签单元,用于将电力数据集分解成字段内容和标签两列,对电力数据集进行分类,得到文字数据子集、非文字数据子集;
分类单元,用于对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;
语义子集形成单元,用于在文字数据子集中提取出中心词,采用语义相似度规则形成多个语义子集;
脱敏单元,用于对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;
加密单元,用于对映射后的敏感数据进行加密处理;
所述数据处理中心接收加密后的敏感数据和非文字数据子集分类后的数据。
脱敏单元包括匹配模块及映射模块,匹配模块用于获取不同语义子集的字段内容匹配敏感信息;映射模块用于基于敏感信息的匹配结果,映射不同脱敏规则。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种用于保证电力数据安全的数据处理方法,其特征在于,包括如下步骤:
S1、将电力数据集分解成字段内容和标签两列,按照标签列对电力数据集进行分类,得到文字数据子集、非文字数据子集;
S2、对所述非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;
S3、在所述文字数据子集中提取出中心词,按照语义相似度形成多个语义子集;
S4、对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;
S5、对映射后的敏感数据进行加密处理;
S6、将加密后的敏感数据上传至数据处理中心。
6.一种用于保证电力数据安全的数据处理系统,用于实现如权利要求1-5任意一项所述的用于保证电力数据安全的数据处理方法,其特征在于,包括:数据库,标签单元,分类单元,语义子集形成单元,脱敏单元,加密单元和数据处理中心;
所述数据库,用于存储电力数据;
所述标签单元,用于将电力数据集分解成字段内容和标签两列,按照标签列对电力数据集进行分类,得到文字数据子集、非文字数据子集;
所述分类单元,用于对非文字数据子集进行分类,得到字母数据、符号数据和数字串数据,并上传至数据处理中心;
所述语义子集形成单元,用于在文字数据子集中提取出中心词,按照语义相似度形成多个语义子集;
脱敏单元,用于对不同语义子集的字段内容匹配敏感信息,映射到不同的脱敏规则;
所述加密单元,用于对映射后的敏感数据进行加密处理;
所述数据处理中心接收加密后的敏感数据和非文字数据子集分类后的数据。
7.根据权利要求6所述的用于保证电力数据安全的数据处理系统,其特征在于,所述脱敏单元包括匹配模块及映射模块,所述匹配模块用于获取不同语义子集的字段内容,采用敏感词聚类算法匹配敏感信息;所述映射模块用于基于聚类结果进行不同脱敏规则的映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206229.XA CN116070248B (zh) | 2023-03-07 | 2023-03-07 | 一种用于保证电力数据安全的数据处理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206229.XA CN116070248B (zh) | 2023-03-07 | 2023-03-07 | 一种用于保证电力数据安全的数据处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116070248A true CN116070248A (zh) | 2023-05-05 |
CN116070248B CN116070248B (zh) | 2023-06-09 |
Family
ID=86182105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206229.XA Active CN116070248B (zh) | 2023-03-07 | 2023-03-07 | 一种用于保证电力数据安全的数据处理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116070248B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116633545A (zh) * | 2023-07-25 | 2023-08-22 | 江苏华鹏智能仪表科技股份有限公司 | 电表信息采集终端及采集方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958158A (zh) * | 2017-10-27 | 2018-04-24 | 国网辽宁省电力有限公司 | 一种大数据平台的动态数据脱敏方法及系统 |
CN110210242A (zh) * | 2019-04-25 | 2019-09-06 | 深圳壹账通智能科技有限公司 | 一种数据脱敏的方法、装置、存储介质及计算机设备 |
CN110610196A (zh) * | 2019-08-14 | 2019-12-24 | 平安科技(深圳)有限公司 | 脱敏方法、系统、计算机设备和计算机可读存储介质 |
CN113268768A (zh) * | 2021-05-24 | 2021-08-17 | 平安普惠企业管理有限公司 | 一种敏感数据的脱敏方法、装置、设备及介质 |
CN114117498A (zh) * | 2021-12-01 | 2022-03-01 | 恒安嘉新(北京)科技股份公司 | 脱敏数据的实现方法、装置、系统、设备及存储介质 |
CN114239029A (zh) * | 2021-12-20 | 2022-03-25 | 中国平安财产保险股份有限公司 | 系统日志安全处理方法、装置、设备及存储介质 |
-
2023
- 2023-03-07 CN CN202310206229.XA patent/CN116070248B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958158A (zh) * | 2017-10-27 | 2018-04-24 | 国网辽宁省电力有限公司 | 一种大数据平台的动态数据脱敏方法及系统 |
CN110210242A (zh) * | 2019-04-25 | 2019-09-06 | 深圳壹账通智能科技有限公司 | 一种数据脱敏的方法、装置、存储介质及计算机设备 |
CN110610196A (zh) * | 2019-08-14 | 2019-12-24 | 平安科技(深圳)有限公司 | 脱敏方法、系统、计算机设备和计算机可读存储介质 |
CN113268768A (zh) * | 2021-05-24 | 2021-08-17 | 平安普惠企业管理有限公司 | 一种敏感数据的脱敏方法、装置、设备及介质 |
CN114117498A (zh) * | 2021-12-01 | 2022-03-01 | 恒安嘉新(北京)科技股份公司 | 脱敏数据的实现方法、装置、系统、设备及存储介质 |
CN114239029A (zh) * | 2021-12-20 | 2022-03-25 | 中国平安财产保险股份有限公司 | 系统日志安全处理方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116633545A (zh) * | 2023-07-25 | 2023-08-22 | 江苏华鹏智能仪表科技股份有限公司 | 电表信息采集终端及采集方法 |
CN116633545B (zh) * | 2023-07-25 | 2023-11-14 | 江苏华鹏智能仪表科技股份有限公司 | 电表信息采集终端及采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116070248B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885698A (zh) | 一种知识图谱构建方法及装置、电子设备 | |
CN109284371B (zh) | 反欺诈方法、电子装置及计算机可读存储介质 | |
CN111143838B (zh) | 数据库用户异常行为检测方法 | |
Huang et al. | Isolated Handwritten Pashto Character Recognition Using a K‐NN Classification Tool based on Zoning and HOG Feature Extraction Techniques | |
WO2021175021A1 (zh) | 产品推送方法、装置、计算机设备和存储介质 | |
CN111489105B (zh) | 一种企业风险识别方法、装置及设备 | |
CN116070248B (zh) | 一种用于保证电力数据安全的数据处理系统及方法 | |
Zhang et al. | A Robust k‐Means Clustering Algorithm Based on Observation Point Mechanism | |
Birzhandi et al. | Reduction of training data using parallel hyperplane for support vector machine | |
CN114398477A (zh) | 基于知识图谱的政策推荐方法及其相关设备 | |
Wang et al. | Semantic annotation for places in LBSN through graph embedding | |
CN115730087A (zh) | 基于知识图谱的矛盾纠纷分析和预警方法及其应用 | |
Qin et al. | An encrypted image retrieval method based on SimHash in cloud computing | |
CN115632839A (zh) | 一种智慧校园环境网络监管方法和系统 | |
Pan et al. | Improved CNN‐Based Hashing for Encrypted Image Retrieval | |
CN117574436B (zh) | 一种基于张量的大数据隐私安全防护方法 | |
Shen et al. | Equiangular basis vectors | |
Shiomoto | Network intrusion detection system based on an adversarial auto-encoder with few labeled training samples | |
Wanjau et al. | Network intrusion detection systems: A systematic literature review of hybrid deep learning approaches | |
CN113657443B (zh) | 一种基于soinn网络的在线物联网设备识别方法 | |
Zou et al. | Creating ensemble classifiers with information entropy diversity measure | |
Lee et al. | Bag‐of‐binary‐features for fast image representation | |
Zhang et al. | Detection of android malicious family based on manifest information | |
Dong et al. | Trimmed sparse coding for robust face recognition | |
CN117349889B (zh) | 一种基于云计算的安全数据的访问控制方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |