CN116432208B - 工业互联网数据的安全管理方法、装置、服务器及系统 - Google Patents
工业互联网数据的安全管理方法、装置、服务器及系统 Download PDFInfo
- Publication number
- CN116432208B CN116432208B CN202310670716.1A CN202310670716A CN116432208B CN 116432208 B CN116432208 B CN 116432208B CN 202310670716 A CN202310670716 A CN 202310670716A CN 116432208 B CN116432208 B CN 116432208B
- Authority
- CN
- China
- Prior art keywords
- file
- unstructured
- sensitive
- structured
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007726 management method Methods 0.000 title abstract description 24
- 239000000523 sample Substances 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 33
- 230000035945 sensitivity Effects 0.000 claims description 41
- 238000000586 desensitisation Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 5
- 238000013523 data management Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 6
- 238000012790 confirmation Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/70—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
- G06F21/71—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
- G06F21/72—Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information in cryptographic circuits
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/105—Multiple levels of security
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据管理技术领域,特别涉及一种工业互联网数据的安全管理方法、装置、服务器及系统。其中,方法应用于服务器,包括:与目标数据库连接,以获取结构化文件;与设置在各目标终端的探针进行加密连接,以利用探针从各目标终端采集非结构化文件;对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件的敏感特征;基于预先确定的分类规则,对结构化文件和非结构化文件进行分类;基于敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果。本方案,不仅可以提高管理效率,还可以提高安全性。
Description
技术领域
本发明实施例涉及数据管理技术领域,特别涉及一种工业互联网数据的安全管理方法、装置、服务器及系统。
背景技术
随着我国工业互联网平台建设和应用走向深入,原本分散存储的个人信息数据、金融数据、生产经营数据等逐渐向平台集中汇聚,数据的规模和复杂性不断增加,数据的安全管控也日益成为一项重要任务。
然而,现有的工业互联网数据的安全管理方法很多过程需要大量的人力参与,不仅费时费力,而且安全性较低。
因此,亟需一种新的工业互联网数据的安全管理方法。
发明内容
为了解决现有的工业互联网数据的安全管理方法不仅费时费力,而且安全性较低的问题,本发明实施例提供了一种工业互联网数据的安全管理方法、装置、服务器及系统。
第一方面,本发明实施例提供了一种工业互联网数据的安全管理方法,应用于服务器,方法包括:
与目标数据库连接,以获取结构化文件;
与设置在各目标终端的探针进行加密连接,以利用所述探针从各目标终端采集非结构化文件;其中,所述探针与所述目标终端为一一对应关系;
对所述结构化文件和所述非结构化文件进行特征提取,以确定所述结构化文件和所述非结构化文件的敏感特征;
基于预先确定的分类规则,对所述结构化文件和所述非结构化文件进行分类;
基于所述敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果。
第二方面,本发明实施例还提供了一种工业互联网数据的安全管理装置,设置于服务器,包括:
第一连接单元,用于与目标数据库连接,以获取结构化文件;
第二连接单元,用于与设置在各目标终端的探针进行加密连接,以利用所述探针从各目标终端采集非结构化文件;其中,所述探针与所述目标终端为一一对应关系;
识别单元,用于对所述结构化文件和所述非结构化文件进行特征提取,以确定所述结构化文件和所述非结构化文件的敏感特征;
分类单元,用于基于预先确定的分类规则,对所述结构化文件和所述非结构化文件进行分类;
分级单元,用于基于所述敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
脱敏单元,用于对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果。
第三方面,本发明实施例还提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
第四方面,本发明实施例还提供了一种工业互联网数据的安全管理系统,包括各目标终端和如第三方面所述的服务器,所述目标终端分别与所述服务器进行通讯。
本发明实施例提供了一种工业互联网数据的安全管理方法、装置、服务器及系统,首先,服务器分别与目标数据库和设置在各目标终端的探针进行连接,以获取结构化文件和非结构化文件,然后,通过对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件中的敏感特征,同时,可以对结构化文件和非结构化文件进行分类,那么,基于分类结果和敏感特征,就可以对每个类别中的结构化文件和非结构化文件进行敏感分级,最后,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果,以此得到更为准确、客观的数据安全级别,不仅可以提高工业互联网数据的安全管理的效率,还可以提高对工业互联网数据管理的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种工业互联网数据的安全管理方法的流程图;
图2是本发明一实施例提供的一种计算设备的硬件架构图;
图3是本发明一实施例提供的一种工业互联网数据的安全管理装置结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如前所述,数据的分类分级作为数据安全管控的前提和基础,关系到了数据是否因为错误分级而引发数据泄露等风险。现有的工业互联网数据的安全管理方法中的分类分级需要人为处理,不仅费时费力,而且安全性较低。
为了解决上述技术问题,发明人可以考虑对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件的敏感特征;同时,基于预先确定的分类规则,对结构化文件和非结构化文件进行分类;那么,基于敏感特征和分类结果,可以对每一个结构化文件和非结构化文件进行敏感分级,可以得出更为准确、客观的数据安全级别,解决当前工业互联网数据面临的分类和分级费时、费力且不够严格的问题,以提高工业互联网数据的安全管控水平。
下面描述以上构思的具体实现方式。
请参考图1,本发明实施例提供了一种工业互联网数据的安全管理方法,应用于服务器,该方法包括:
步骤100,与目标数据库连接,以获取结构化文件;
步骤102,与设置在各目标终端的探针进行加密连接,以利用探针从各目标终端采集非结构化文件;其中,探针与目标终端为一一对应关系;
步骤104,对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件的敏感特征;
步骤106,基于预先确定的分类规则,对结构化文件和非结构化文件进行分类;
步骤108,基于敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
步骤110,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果。
本发明实施例中,首先,服务器分别与目标数据库和设置在各目标终端的探针进行连接,以获取结构化文件和非结构化文件,然后,通过对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件中的敏感特征,同时,可以对结构化文件和非结构化文件进行分类,那么,基于分类结果和敏感特征,就可以对每个类别中的结构化文件和非结构化文件进行敏感分级,最后,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果,以此得到更为准确、客观的数据安全级别,不仅可以提高工业互联网数据的安全管理的效率,还可以提高对工业互联网数据管理的安全性。
针对步骤100:
目标数据库可以为通用数据库、国产数据库和大数据数据库等,服务器连接目标数据库,然后使用SQL语句进行结构化文件抽取,每个结构化文件包含表名称,表描述,总行数,总列数,元组内容等。
针对步骤102:
非结构化数据包含doc/docx、xls/xlsx、pttx/pptx、pdf和txt等常见数据类型。首先在每个目标终端上需要设置探针,用于对目标终端的非结构化文件扫描,然后基于探针配置和服务器配置,进行探针的认证并建立加密传输隧道,探针基于服务器的指令对目标终端进行扫描过滤,提取非结构化文件采集上报。
在一些实施方式中,步骤102可以包括如下步骤S1-S3:
步骤S1,当接收到配置于目标终端的探针的连接请求时,服务器与对应的探针建立安全加密连接;其中,探针与目标终端为一一对应关系,探针用于采集对应目标终端的非结构化文件;
步骤S2,针对预设的每一个采集周期,均执行:获取每一个探针在当前采集周期上报的文件信息列表;其中,文件信息列表含有各非结构化文件的指纹信息;指纹信息用于表征对应的非结构化文件是否发生变化;
步骤S3,基于指纹信息和文件信息列表,利用探针从对应目标终端获取非结构化文件。
针对步骤S1:
根据企业内网拓扑结构,用户需将探针安装到内网中各目标终端上,探针支持Windows和Linux操作系统部署。用户需配置服务器的IP地址、端口号以及文件扫描相关的模式和日志信息。扫描模式分为正常模式、黑名单模式和白名单模式。正常模式为扫描系统全盘;黑名单模式为扫描黑名单以外的文件;白名单模式为扫描白名单内的文件。
服务器设有白名单,用于过滤非法请求,只有在白名单内的探针IP(即目标终端IP)才能请求与服务器建立连接,用户可设置单独IP和IP段。服务器还具有定时器功能,定时向探针下发指令以获取目标终端中非结构化文件的最新变动情况。
在一些实施方式中,步骤S1可以包括:
针对每一个发送连接请求的探针,均执行:
判断当前探针IP是否在服务器预设的白名单中;
若不在,则拒绝连接;若在,则判断服务器当前已经连接的探针IP中是否存在当前探针IP;
若存在,则拒绝连接;若不存在,则向当前探针发起身份确认指令,使当前探针返回其身份ID;
若返回的身份ID不为空,则直接建立安全加密连接;若为空,则在服务器的界面显示当前探针的连接请求,以根据用户指令判断是否建立安全加密连接;
若用户确定建立,则建立安全加密连接,并创建身份ID下发至当前探针。
在本实施例中,当探针IP在服务器预设的白名单中时,需要判断探针IP是否已经处于连接状态,只有确认当前探针IP没有已连接才可以进行身份确认,这样可以防止同一探针多次重复连接,可以节省时间;然而,由于探针IP(即目标终端IP)为动态IP,在重新连接时,探针IP可能和首次连接的IP不同,因此,为了服务器可以正确识别探针的身份,在探针首次需要与服务器连接时,服务器会下发一个身份ID给该探针,那么在下次重连时,服务器下发身份确认指令,探针会返回其身份ID,便于服务器识别该探针。因此,在当前探针返回的身份ID不为空时,说明当前探针之前已经与服务器连接过,那么就可以直接与服务器建立SSL/TLS连接;在当前探针返回的身份ID为空时,说明当前探针为首次连接,那么需要用户确认当前探针是否可以与服务器连接,若用户选择不连接,那么就拒绝当前探针的连接请求,若用户选择建立,就可以建立SSL/TLS连接,并且服务器会创建身份ID下发至当前探针。可见,通过建立白名单、验证身份ID,可以提高服务器与探针连接的有效性。
在一些实施方式中,服务器与探针的网络通信基于TCP通信协议和目标传输协议;
目标传输协议的头部结构包括2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度。
在本实施例中,为了提高保密性,服务器与探针的网络通信不仅基于TCP通信协议,还基于本发明提供的目标传输协议。目标传输协议的头部结构总共分为6个部分,分别为2位版本号、1位数据类型、1位数据源状态、3位保留字段、8位接口类型和32位数据长度。本实施例中,服务器与探针的网络通信信息,需要利用目标传输协议来进行解析,若发生数据泄露,黑客无法解析出网络通信信息的内容,可以大大提高保密性和安全性。
在一些实施方式中,接口类型包括服务端主动请求接口和终端主动推送接口;
服务端主动请求接口包括用于向探针发起身份确认指令的第一接口、用于获取探针采集的文件信息列表的第二接口、用于获取非结构化文件的第三接口。
在本实施例中,第一接口用于本步骤S1中的身份确认,第二接口用于步骤S2中的文件信息列表传输,第三接口用于步骤S3中的获取非结构化文件。
可以理解,服务端主动请求接口还可以包括用于通知目标终端新增或删除数据源的第四接口、用于通知目标终端更新密钥的第五接口;终端主动推送接口可以包括用于目标终端主动推送数据源更新或新增的第六接口和用于目标终端主动推送数据源连接状态的第七接口。
在一些实施方式中,服务器与探针是通过如下方式进行网络通信的:
基于TCP通信协议,接收每一个TCP报文;
针对每一个TCP报文,均执行:
基于当前TCP报文中的目标传输协议头,从当前TCP报文中获取目标传输协议的版本号,以获取目标传输协议的解析规则;
获取当前TCP报文的数据类型,以判断当前TCP报文为指令还是非结构化文件;
当当前TCP报文的数据类型为非结构化文件时,确定接口为第三接口,并获取当前TCP报文的数据长度,以利用第三接口根据数据长度,下载当前TCP报文中所携带的非结构化文件数据;
当当前TCP报文的数据类型为指令时,获取当前TCP报文的接口类型和数据长度,以利用对应接口根据数据长度执行对应指令。
在本实施例中,服务器与探针的每一次通信,服务器或探针都会基于目标传输协议解析报文。具体地,基于TCP通信协议,接收每一个TCP报文,针对每一个TCP报文,均会按照目标传输协议头,从TCP报文中截取并识别解析本次通信信息所需的版本号、本次通信信息的数据类型、数据源状态、所需的接口类型和通信信息的数据长度,以使服务器和探针根据解析的内容进行下一步操作。
针对步骤S2:
在本步骤中,探针首次与服务端建立连接后,会利用第二接口下发拉取目标终端文件信息列表的指令,探针扫描配置要求的文件信息,记录文件路径、文件类型、指纹信息等信息,生成文件信息列表,并将文件信息列表返回给服务器,并且探针在首次扫描结束后,会监控该目标终端中非结构化文件的变化情况,新增和修改时指纹信息会发生改变,那么在下一个采集周期服务端下发拉取目标终端文件信息列表的指令后,探针会重新生成新的文件信息列表上报给服务器,且文件信息列表含有各非结构化文件的指纹信息。
针对步骤S3:
在一些实施方式中,步骤S3可以包括:
判断当前采集周期的文件信息列表中是否存在新增的非结构化文件;
若存在,则利用探针从对应目标终端获取新增的非结构化文件;
判断文件信息列表中剩余的每一个非结构化文件,在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同;
若相同,则当前采集周期不获取该非结构化文件;
若不同,则利用探针从对应目标终端获取该非结构化文件。
在本实施例中,服务器可以遍历当前采集周期的文件信息列表和上一采集周期的文件信息列表,当存在新增的非结构化文件,则利用探针从对应目标终端获取新增的非结构化文件内容;并且判断文件信息列表中剩余的每一个非结构化文件,在当前采集周期的指纹信息与上一个采集周期的指纹信息是否相同,当不同时,代表该非结构化文件产生了变动,那么可以利用探针从对应目标终端获取该非结构化文件,当相同时,代表该非结构化文件未产生变动,那么就不需要再拉取该非结构化文件的内容,避免重复检测,这样可以提高服务器采集非结构化文件的效率。
针对步骤104:
在一些实施方式中,步骤104可以包括:
利用敏感特征库对结构化文件进行特征匹配,确定结构化文件中的敏感特征;
利用自然语言算法和敏感特征库,对非结构化文件进行特征提取,确定出每一个非结构化文件的敏感特征。
在本发明实施例中,敏感特征库包括每一种敏感特征的识别规则、基础敏感值以及与其他敏感特征的相关性系数;识别规则为关键字、后缀、标签、来源、正则表达式、AI智能识别中的一种或多种。以根据识别规则对结构化文件的表名、表描述、表字段、表字段描述、元组内容等进行特征提取;根据识别规则对非结构化文件的文件路径、文件名称、文件类型、文件内容等进行特征提取。通过对结构化文件和非结构化文件的特征提取,得到敏感特征。
针对步骤106:
在一些实施方式中,步骤100中获取的结构化文件和非结构化文件含有领域标签;
步骤106可以包括:
基于领域标签,对结构化文件和非结构化文件进行一级分类;
确定每个一级类别的分类规则,并基于分类规则对对应一级类别中的非结构化文件和结构化文件进行识别,以对每个一级类别中的非结构化文件和结构化文件进行二级分类。
在本实施例中,领域标签包括研发域数据、生产域数据、运维域数据和外部域数据,根据结构化文件和非结构化文件的领域标签,可以得到结构化文件和非结构化文件的一级分类结果。一级分类可创建多级分类。根据数据分类分级标准中所关联的维度,例如主体对象、所属部门、所属行业、数据特征、数据体量对每个一级类别中的非结构化文件和结构化文件进行二级分类。其中,分类规则支持关键字,后缀,标签,来源,正则表达式,AI智能识别等规则及其组合方式。例如来自研发域的一个.dwg结尾的文件,在基于后缀名的规则匹配后,最终分类为研发域-研发设计图纸文档。
针对步骤108:
在一些实施方式中,步骤108可以包括:
针对每一个二级类别中的每一个非结构化文件和每一个结构化文件,均执行:
基于当前二级类别中当前文件所命中的各种敏感特征的基础敏感值、各种敏感特征的数量和各种敏感特征之间的相关性系数,计算当前文件的敏感度;
获取当前二级类别的分级阈值;
基于当前文件的敏感度和当前二级类别的分级阈值,对当前文件进行敏感分级。
在一些实施方式中,每一个文件的敏感度是通过如下公式计算的:
式中,为敏感度,/>为设定参数,下标1...n代表各种敏感特征,n为当前文件的敏感特征的种类数量,/>为敏感特征的基础敏感值,/>为每种敏感特征命中的数量,为各种敏感特征之间的相关性系数。
在本实施例中,采用对数函数log,是为了弱化相同敏感特征命中多次,对最终的计算结果急速上升的问题。实际生活中也是,数量变大对结果是有正增益,但是增加效果会越来越小。
假定k=1,每种敏感特征的权重为w=1,每两种敏感特征之间的相关性系数为p=1。
1)当只命中了一种敏感特征且数量为1时,敏感度为
2)当只命中了一种敏感特征且数量为2时,敏感度为
3)当只命中了一种敏感特征且数量为10时,敏感度为
可以看出,本计算公式采用对数函数log可以弱化相同敏感特征命中多次,对最终的计算结果急速增加的问题。
另外,采用各种敏感特征之间的相关性系数p,是为了强化不同种敏感特征同时命中,对最终计算结果的影响。实际生活中也是,多个敏感特性同时命中时,不应该是简单的累加,而是增加效果应该会有明显的增大(正增益)或者减小(负增益)。
假定k=1,每种敏感特征的权重为w=1,每两种敏感特征之间的相关性系数为p=1,每种敏特征值命中的数量x=1。
1)当只命中了一种敏感特征,如姓名且数量为1时,敏感度为
2)当命中了2种敏感特征,如姓名和身份证,且数量都为1,p1,2表示姓名、身份证的相关性,敏感度为
3)当命中了3种敏感特征,如姓名、身份证和地址,且数量为1,p1,2表示姓名、身份证的相关性,p1,3表示姓名、地址的相关性,p2,3表示身份证、地址的相关性,结果为
可以看出,本计算公式采用各种敏感特征之间的相关性系数p,可以根据命中的敏感特征之间的相关性,对该文件的敏感度产生正增益或负增益,相较于简单的累加,会产生明显的增大效果或者减小效果。
在本实施例中,由于不同一级类别和二级类别的重要性不同,例如:研发域的一个文件中只有一个电话号码这一个敏感特征,外部域的一个文件也是这种情况,那么在计算敏感度时,由于电话号码这一敏感特征的基础敏感值相同,敏感度的计算不会考虑类别的因素,那么导致研发域的这一个文件和外部域这个文件会拥有相同的敏感度,但其实研发域的电话号码相较于外部域的电话号码会更为重要,更为敏感一些,因此每个二级类别的分级阈值是可以不同的,根据该二级类别所属的一级类别和该二级类别的重要性综合考虑,来设置每个二级类别的分级阈值。
那么,针对每个二级类别的分级阈值,可以对对应二级类别的结构化文件和非结构化文件进行敏感分级。举例来说,若当前二级类别的分级阈值为一级(一般)敏感阈值为[0,0.4],二级(重要)敏感阈值为[0.4,1],三级(核心)敏感阈值为[1,+],那么敏感度位于对应区间的文件划分至对应的敏感分级中。因此,本实施例能够更加科学合理地评估数据的敏感程度,提高分类和分级的准确性和实用性。
针对步骤110:
在一些实施方式中,步骤“对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理”,可以包括:
确定每种敏感特征的脱敏规则;其中,脱敏规则包括脱敏方式和作用字符;
基于脱敏规则,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理。
在本实施例中,可以使用通配符或其他字符替换敏感特征,或者使用模糊化算法来减少敏感特征的识别性,例如身份证号或电话号码,脱敏规则可以为使用通配符替换中间的7位或8位数字。
根据脱敏规则,对结构化文件和非结构化文件进行脱敏处理,防止数据外泄。将脱敏后结构化文件和非结构化文件存入对外数据库,方便外部人员对查看分类分级情况。
如图2、图3所示,本发明实施例提供了一种工业互联网数据的安全管理装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图2所示,为本发明实施例提供的一种工业互联网数据的安全管理装置所在计算设备的一种硬件架构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的计算设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图3所示,作为一个逻辑意义上的装置,是通过其所在计算设备的CPU将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种工业互联网数据的安全管理装置,设置于服务器,包括:
第一连接单元301,用于与目标数据库连接,以获取结构化文件;
第二连接单元302,用于与设置在各目标终端的探针进行加密连接,以利用探针从各目标终端采集非结构化文件;其中,探针与目标终端为一一对应关系;
识别单元303,用于对结构化文件和非结构化文件进行特征提取,以确定结构化文件和非结构化文件的敏感特征;
分类单元304,用于基于预先确定的分类规则,对结构化文件和非结构化文件进行分类;
分级单元305,用于基于敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
脱敏单元306,用于对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果。
本发明一个实施例中,识别单元303用于执行:
利用敏感特征库对结构化文件进行特征匹配,确定结构化文件中的敏感特征;
利用自然语言算法和敏感特征库,对非结构化文件进行特征提取,确定出每一个非结构化文件的敏感特征。
本发明一个实施例中,第一连接单元301中结构化文件和非结构化文件含有领域标签,分类单元304用于执行:
基于领域标签,对结构化文件和非结构化文件进行一级分类;
确定每个一级类别的分类规则,并基于分类规则对对应一级类别中的非结构化文件和结构化文件进行识别,以对每个一级类别中的非结构化文件和结构化文件进行二级分类。
本发明一个实施例中,识别单元303中的敏感特征库包括每一种敏感特征的识别规则、基础敏感值以及与其他敏感特征的相关性系数;识别规则为关键字、后缀、标签、来源、正则表达式、AI智能识别中的一种或多种。
本发明一个实施例中,分级单元305用于执行:
针对每一个二级类别中的每一个非结构化文件和每一个结构化文件,均执行:
基于当前二级类别中当前文件所命中的各种敏感特征的基础敏感值、各种敏感特征的数量和各种敏感特征之间的相关性系数,计算当前文件的敏感度;
获取当前二级类别的分级阈值;
基于当前文件的敏感度和当前二级类别的分级阈值,对当前文件进行敏感分级。
本发明一个实施例中,分级单元305中每一个文件的敏感度是通过如下公式计算的:
式中,为敏感度,/>为设定参数,下标1...n代表各种敏感特征,n为当前文件的敏感特征的种类数量,/>为敏感特征的基础敏感值,/>为每种敏感特征命中的数量,为各种敏感特征之间的相关性系数。
本发明一个实施例中,脱敏单元306用于执行:
确定每种敏感特征的脱敏规则;其中,脱敏规则包括脱敏方式和作用字符;
基于脱敏规则,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理。
可以理解的是,本发明实施例示意的结构并不构成对一种工业互联网数据的安全管理装置的具体限定。在本发明的另一些实施例中,一种工业互联网数据的安全管理装置可以包括比图示更多或者更少的部件单元,或者组合某些部件单元,或者拆分某些部件单元,或者不同的部件单元布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例还提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种工业互联网数据的安全管理方法。
本发明实施例还提供了一种工业互联网数据的安全管理系统,包括各目标终端和如本发明任一实施例中的服务器,所述目标终端分别与所述服务器进行通讯。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (5)
1.一种工业互联网数据的安全管理方法,其特征在于,应用于服务器,所述方法包括:
与目标数据库连接,以获取结构化文件;
与设置在各目标终端的探针进行加密连接,以利用所述探针从各目标终端采集非结构化文件;其中,所述探针与所述目标终端为一一对应关系;
对所述结构化文件和所述非结构化文件进行特征提取,以确定所述结构化文件和所述非结构化文件的敏感特征;
基于预先确定的分类规则,对所述结构化文件和所述非结构化文件进行分类;
基于所述敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果;
所述对所述结构化文件和所述非结构化文件进行特征提取,以确定所述结构化文件和所述非结构化文件的敏感特征,包括:
利用敏感特征库对所述结构化文件进行特征匹配,确定所述结构化文件中的敏感特征;
利用自然语言算法和敏感特征库,对所述非结构化文件进行特征提取,确定出每一个非结构化文件的敏感特征;
所述结构化文件和所述非结构化文件含有领域标签;
所述基于预先确定的分类规则,对所述结构化文件和所述非结构化文件进行分类,包括:
基于所述领域标签,对所述结构化文件和所述非结构化文件进行一级分类;
确定每个一级类别的分类规则,并基于所述分类规则对对应一级类别中的非结构化文件和结构化文件进行识别,以对每个一级类别中的非结构化文件和结构化文件进行二级分类;
所述敏感特征库包括每一种敏感特征的识别规则、基础敏感值以及与其他敏感特征的相关性系数;所述识别规则为关键字、后缀、标签、来源、正则表达式、AI智能识别中的一种或多种;
所述基于所述敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级,包括:
针对每一个二级类别中的每一个非结构化文件和每一个结构化文件,均执行:
基于当前二级类别中当前文件所命中的各种敏感特征的基础敏感值、各种敏感特征的数量和各种敏感特征之间的相关性系数,计算当前文件的敏感度;
获取当前二级类别的分级阈值;
基于当前文件的敏感度和当前二级类别的分级阈值,对当前文件进行敏感分级;
每一个文件的敏感度是通过如下公式计算的:
式中,为敏感度,/>为设定参数,下标1...n代表各种敏感特征,n为当前文件的敏感特征的种类数量,/>为敏感特征的基础敏感值,/>为每种敏感特征命中的数量,/>为各种敏感特征之间的相关性系数。
2.根据权利要求1所述的方法,其特征在于,所述对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,包括:
确定每种敏感特征的脱敏规则;其中,所述脱敏规则包括脱敏方式和作用字符;
基于所述脱敏规则,对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理。
3.一种工业互联网数据的安全管理装置,其特征在于,设置于服务器,所述装置包括:
第一连接单元,用于与目标数据库连接,以获取结构化文件;
第二连接单元,用于与设置在各目标终端的探针进行加密连接,以利用所述探针从各目标终端采集非结构化文件;其中,所述探针与所述目标终端为一一对应关系;
识别单元,用于对所述结构化文件和所述非结构化文件进行特征提取,以确定所述结构化文件和所述非结构化文件的敏感特征;
分类单元,用于基于预先确定的分类规则,对所述结构化文件和所述非结构化文件进行分类;
分级单元,用于基于所述敏感特征和分类结果,对每一个结构化文件和非结构化文件进行敏感分级;
脱敏单元,用于对每一个结构化文件和非结构化文件中的敏感特征进行脱敏处理,得到分类分级结果;
所述识别单元用于执行:
利用敏感特征库对结构化文件进行特征匹配,确定结构化文件中的敏感特征;
利用自然语言算法和敏感特征库,对非结构化文件进行特征提取,确定出每一个非结构化文件的敏感特征;
所述第一连接单元中结构化文件和非结构化文件含有领域标签,所述分类单元用于执行:
基于领域标签,对结构化文件和非结构化文件进行一级分类;
确定每个一级类别的分类规则,并基于分类规则对对应一级类别中的非结构化文件和结构化文件进行识别,以对每个一级类别中的非结构化文件和结构化文件进行二级分类;
所述识别单元中的敏感特征库包括每一种敏感特征的识别规则、基础敏感值以及与其他敏感特征的相关性系数;识别规则为关键字、后缀、标签、来源、正则表达式、AI智能识别中的一种或多种;
所述分级单元用于执行:
针对每一个二级类别中的每一个非结构化文件和每一个结构化文件,均执行:
基于当前二级类别中当前文件所命中的各种敏感特征的基础敏感值、各种敏感特征的数量和各种敏感特征之间的相关性系数,计算当前文件的敏感度;
获取当前二级类别的分级阈值;
基于当前文件的敏感度和当前二级类别的分级阈值,对当前文件进行敏感分级;
所述分级单元中每一个文件的敏感度是通过如下公式计算的:
式中,为敏感度,/>为设定参数,下标1...n代表各种敏感特征,n为当前文件的敏感特征的种类数量,/>为敏感特征的基础敏感值,/>为每种敏感特征命中的数量,/>为各种敏感特征之间的相关性系数。
4.一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1或2所述的方法。
5.一种工业互联网数据的安全管理系统,其特征在于,包括各目标终端和如权利要求4所述的服务器,所述目标终端分别与所述服务器进行通讯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670716.1A CN116432208B (zh) | 2023-06-08 | 2023-06-08 | 工业互联网数据的安全管理方法、装置、服务器及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310670716.1A CN116432208B (zh) | 2023-06-08 | 2023-06-08 | 工业互联网数据的安全管理方法、装置、服务器及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432208A CN116432208A (zh) | 2023-07-14 |
CN116432208B true CN116432208B (zh) | 2023-09-05 |
Family
ID=87091017
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310670716.1A Active CN116432208B (zh) | 2023-06-08 | 2023-06-08 | 工业互联网数据的安全管理方法、装置、服务器及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432208B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542011A (zh) * | 2018-12-05 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种多源异构监测数据的标准化采集系统 |
CN110134719A (zh) * | 2019-05-17 | 2019-08-16 | 贵州大学 | 一种结构化数据敏感属性的识别与分类分级方法 |
CN110866108A (zh) * | 2019-11-20 | 2020-03-06 | 满江(上海)软件科技有限公司 | 一种敏感数据检测系统及其检测方法 |
CN115512810A (zh) * | 2022-11-17 | 2022-12-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种医学影像数据的数据治理方法及系统 |
CN115618371A (zh) * | 2022-07-11 | 2023-01-17 | 上海期货信息技术有限公司 | 一种非文本数据的脱敏方法、装置及存储介质 |
CN115718792A (zh) * | 2022-10-18 | 2023-02-28 | 国网山东省电力公司信息通信公司 | 一种基于自然语义处理和深度学习的敏感信息提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11113259B2 (en) * | 2017-08-02 | 2021-09-07 | Tata Consultancy Services Limited | Method and system for analyzing unstructured data for compliance enforcement |
-
2023
- 2023-06-08 CN CN202310670716.1A patent/CN116432208B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109542011A (zh) * | 2018-12-05 | 2019-03-29 | 国网江西省电力有限公司信息通信分公司 | 一种多源异构监测数据的标准化采集系统 |
CN110134719A (zh) * | 2019-05-17 | 2019-08-16 | 贵州大学 | 一种结构化数据敏感属性的识别与分类分级方法 |
CN110866108A (zh) * | 2019-11-20 | 2020-03-06 | 满江(上海)软件科技有限公司 | 一种敏感数据检测系统及其检测方法 |
CN115618371A (zh) * | 2022-07-11 | 2023-01-17 | 上海期货信息技术有限公司 | 一种非文本数据的脱敏方法、装置及存储介质 |
CN115718792A (zh) * | 2022-10-18 | 2023-02-28 | 国网山东省电力公司信息通信公司 | 一种基于自然语义处理和深度学习的敏感信息提取方法 |
CN115512810A (zh) * | 2022-11-17 | 2022-12-23 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种医学影像数据的数据治理方法及系统 |
Non-Patent Citations (1)
Title |
---|
Deep Learning Based Sensitive Data Detection;Peng Chong;< IEEE Xplore>;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116432208A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103679031B (zh) | 一种文件病毒免疫的方法和装置 | |
CN108881263B (zh) | 一种网络攻击结果检测方法及系统 | |
CN108200054A (zh) | 一种基于dns解析的恶意域名检测方法及装置 | |
CN106557695A (zh) | 一种恶意应用检测方法和系统 | |
CN113609261A (zh) | 基于网络信息安全的知识图谱的漏洞信息挖掘方法和装置 | |
CN113242218A (zh) | 一种网络安全监控方法及系统 | |
CN116938600B (zh) | 威胁事件的分析方法、电子设备及存储介质 | |
CN113901441A (zh) | 一种用户异常请求检测方法、装置、设备及存储介质 | |
CN113032824A (zh) | 基于数据库流量日志的低频数据泄漏检测方法及系统 | |
CN110233848B (zh) | 一种资产态势分析方法及装置 | |
CN116432208B (zh) | 工业互联网数据的安全管理方法、装置、服务器及系统 | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN115080827A (zh) | 一种敏感数据处理方法及装置 | |
CN116432240B (zh) | 内网终端敏感数据的检测方法、装置、服务器及系统 | |
CN115361219A (zh) | 日志文件的处理方法、电子设备及存储介质 | |
CN114662111A (zh) | 一种恶意代码软件基因同源性分析方法 | |
CN113691524A (zh) | 一种告警信息处理方法、系统、电子设备及存储介质 | |
CN113037555A (zh) | 风险事件标记方法、风险事件标记装置和电子设备 | |
CN111934949A (zh) | 一种基于数据库注入测试的安全测试系统 | |
CN114531307B (zh) | 主动防御网关的api模型构建与防御方法及系统 | |
CN114978674B (zh) | 一种爬虫识别增强的方法及装置、存储介质及电子设备 | |
CN117633319B (zh) | 数据库自动化响应方法、装置、计算机设备及存储介质 | |
CN117834311B (zh) | 一种用于网络安全的恶意行为识别系统 | |
CN111832024B (zh) | 一种大数据安全防护方法及系统 | |
CN113986956B (zh) | 数据异常查询分析方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |