CN115238286A - 一种数据防护方法、装置、计算机设备及存储介质 - Google Patents
一种数据防护方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115238286A CN115238286A CN202210817526.3A CN202210817526A CN115238286A CN 115238286 A CN115238286 A CN 115238286A CN 202210817526 A CN202210817526 A CN 202210817526A CN 115238286 A CN115238286 A CN 115238286A
- Authority
- CN
- China
- Prior art keywords
- data
- sensitive
- data file
- type
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/64—Protecting data integrity, e.g. using checksums, certificates or signatures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Automation & Control Theory (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种数据防护方法、装置、计算机设备及存储介质,所述方法包括:从预设数据库中获取待防护的数据文件;利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;按照所述防护措施对所述数据文件进行安全防护;根据所述敏感级别设置用于访问所述数据文件的安全访问级别;本发明准确详尽地识别出数据文件中的敏感数据,并对敏感数据进行安全防护以保护数据文件的安全性。
Description
技术领域
本发明涉及安全防护技术领域,特别涉及一种数据防护方法、装置、计算机设备及存储介质。
背景技术
随着公司业务增加,业务数据体量增大,在记录业务数据的数据文件中会存在大量敏感数据,如客户信息、交易数据、账号密码等,此时欲对包含敏感数据的数据文件进行安全防护,来防止出现因敏感数据泄露而造成财产损失的情况,而在现有技术中,大量使用传统的关键词匹配的方式来识别数据文件中的敏感数据,无法解决数据格式不统一、关键词识别不精准的问题,难以准确详尽的识别出数据文件中的全部敏感数据,进而因为对数据文件的安全防护不全面而容易造成敏感数据泄露,危害数据财产安全。
因此,如何高效准确地识别出数据文件中的敏感数据并为数据文件进行安全防护成为了亟待解决的技术问题。
发明内容
本发明的目的在于提供一种数据防护方法、装置、计算机设备及存储介质,本发明通过识别出数据文件中的敏感数据,并对敏感数据进行安全防护,以保护数据文件的安全性。
根据本发明的一个方面,提供了一种数据防护方法,该方法包括如下步骤:
从预设数据库中获取待防护的数据文件;
利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
按照所述防护措施对所述数据文件进行安全防护;
根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
可选的,在所述利用预设识别规则从所述数据文件中识别出敏感数据之前,所述方法还包括:
确定出所述数据文件中数据的数据类型;其中,所述数据类型包括:图片类型、视频类型、文本类型;
当所述数据文件中存在图片类型的数据时,使用OCR识别算法将所述图片类型的数据转化为文本类型的数据;
当所述数据文件中存在视频类型的数据时,按照预设时间间隔定期截取所述视频格式的数据中的视频帧,并使用OCR识别算法将所述视频帧转化为文本类型的数据。
可选的,所述利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类,具体包括:
从所述数据文件中所有文本类型的数据中识别出文字,并对识别出的所有文字进行分词处理以得到多个词语;
依次遍历各个词语,判断当前遍历到的词语是否属于任一预设敏感词集,若是,则将当前遍历到的词语设置为敏感数据,并根据当前遍历到的词语所属的预设敏感词集确定出所述敏感数据的敏感种类;其中,一个预设敏感词集对应一个敏感种类,且一个预设敏感词集包括多个具有相同语义的敏感词。
可选的,所述利用预设识别规则从所述数据文件中识别出敏感数据,具体包括:
从所述数据文件中所有文本类型的数据中识别出字符串;
将所述字符串与预设的多个正则表达式逐个进行匹配;其中,一个正则表达式对应一个敏感种类,且所述正则表达式用于判断字符串是否为设定敏感种类的敏感数据;
当存在与所述字符串匹配成功的正则表达式时,将所述字符串设置为敏感数据,并根据匹配成功的正则表达式确定所述字符串的敏感种类。
可选的,所述按照所述防护措施对所述数据文件进行安全防护,具体包括:
当所述敏感数据为词语时,根据包含在所述防护措施中的密钥对所述数据文件进行加密处理,并将所述密钥存储至所述数据库;和/或,
当所述敏感数据为字符串时,先将所述敏感数据作为原始脱敏数据存储至所述数据库,再根据包含在所述防护措施中的脱敏算法对所述敏感数据进行脱敏处理。
可选的,在所述根据所述敏感级别设置用于访问所述数据文件的安全访问级别之后,所述方法还包括:
接收由访问对象发送的用于访问所述数据文件的访问请求;其中,所述访问请求包括:所述访问对象的访问权限级别;
在所述访问权限级别高于所述安全访问级别的情况下,判断在所述数据库中是否存在与所述数据文件对应的密钥;
若是,则将所述密钥发送至所述访问对象,以供所述访问对象利用所述密钥对所述数据文件进行解密操作;
判断在所述数据库中是否存在与所述数据文件对应的脱敏数据,若是,则将所述脱敏数据发送至所述访问对象,以供所述访问对象利用所述脱敏数据还原所述数据文件。
可选的,在所述使用备份的敏感数据还原所述数据文件中经脱敏处理后的敏感数据之后,所述方法还包括:
获取所述访问对象的身份ID;
当监测到所述访问对象对解密后的数据文件进行数据增加、数据删除或数据修改时,根据所述访问对象的身份ID和当前时间戳生成数字签名,并将所述数字签名添加在解密后的数据文件的尾部。
为了实现上述目的,本发明还提供一种数据防护方法的装置,该装置具体包括以下组成部分:
文件模块,用于从预设数据库中获取待防护的数据文件;
识别模块,用于利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
获取模块,用于从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
防护模块,用于按照所述防护措施对所述数据文件进行安全防护;
级别模块,用于根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
为了实现上述目的,本发明还提供一种计算机设备,该计算机设备具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述介绍的数据防护方法的步骤。
为了实现上述目的,本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述介绍的数据防护方法的步骤。
本发明提供的数据防护方法、装置、计算机设备及存储介质,通过使用预设识别规则识别数据文件中的全部敏感数据,可以快速、准确地查找定位数据文件中的全部敏感数据,细化了识别敏感数据的粒度,提高了识别数据文件中敏感数据的完整性;按照与敏感数据的敏感种类对应的防护措施,对包含敏感数据的数据文件进行安全防护,实现了敏感数据和防护措施的一一对应,具有针对性地保护数据文件中的敏感数据不被泄露或篡改,增强了对数据文件的保护力度,保证了数据文件在访问、传输、修改等过程中的安全性和可追溯性。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实例一提供的数据防护方法的一种可选的流程示意图;
图2为实例二提供的数据防护装置的一种可选的程序模块示意图;
图3为实例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种数据防护方法,如图1所示,该方法具体包括以下步骤:
步骤S101:从预设数据库中获取待防护的数据文件。
其中,数据库中存在大量用于记载业务数据的数据文件,业务数据包括客户基本资料、身份验证信息、业务交易信息等,业务数据中部分数据为敏感数据,敏感数据是指泄漏后可能会给企业或个人带来危害的数据,敏感数据主要包括客户资料、技术资料、个人信息等高价值数据,所以需要对数据库中的数据文件进行安全防护,以避免敏感数据泄露而对企业或个人带来损失。
进一步的,在所述步骤S101之后,还包括以下步骤:
步骤A1:确定出所述数据文件中数据的数据类型;其中,所述数据类型包括:图片类型、视频类型、文本类型。
具体的,所述图片类型包括JPEG、BMP、PNG等格式的图片类型的数据,视频类型包括MPEG、AVI、WMV等格式的视频类型的数据。
步骤A2:当所述数据文件中存在图片类型的数据时,使用OCR识别算法将所述图片类型的数据转化为文本类型的数据。
其中,所述OCR(Optical Character Recognition,光学字符识别)用于将图像采集装置采集到的图片进行光学字符检测,通过字符识别的方式获取图片类型的数据中的文本类型的数据。
步骤A3:当所述数据文件中存在视频类型的数据时,按照预设时间间隔定期截取所述视频格式的数据中的视频帧,并使用OCR识别算法将所述视频帧转化为文本类型的数据。
其中,在按照预设时间间隔定期截取视频格式的数据中的视频帧后,通过比对相邻两张视频帧的相似度,将相似度超过预设值的第二张视频帧删除,以保证识别出的文本类型的数据无重复。
在本实施例中,随着数据文件中数据类型的多样化和复杂化,传统的关键词识别法无法对除纯文字类型以外的数据文件进行敏感数据识别,所以需要预先对数据文件进行预处理以得到数据均为文本类型的数据文件,以便后续对数据文件进行敏感数据识别。
步骤S102:利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类。
其中,所述敏感种类是指同一种类的敏感数据,例如,身份证号、护照号、IP地址、工作单位、家庭住址等均为一个敏感种类,敏感数据是指敏感种类的真实信息,敏感种类与敏感数据对应,例如,敏感种类为“家庭住址”,敏感数据为“北京市西城区XXX街道”。
所述预设识别规则是针对数据文件中文本类型的不同数据分别设置的用于识别敏感数据的识别规则,数据文件中文本类型的数据包含文字和字符串,文字为中文文字数据,例如:工作单位、家庭住址等敏感种类的敏感数据;字符串为数字、字母、符号中一种或多种字符组合而成的数据,例如:身份证号、护照号、IP地址等敏感种类的敏感数据。
优选的,针对文字设置了敏感词集识别规则,针对字符串设置了正则表达式识别规则。
具体的,从数据文件中识别文字的敏感词集识别规则包括以下步骤:
步骤B1:从所述数据文件中所有文本类型的数据中识别出文字,并对识别出的所有文字进行分词处理以得到多个词语。
优选的,使用Jieba算法对所有进行分词。
步骤B2:依次遍历各个词语,判断当前遍历到的词语是否属于任一预设敏感词集,若是,则将当前遍历到的词语设置为敏感数据,并根据当前遍历到的词语所属的预设敏感词集确定出所述敏感数据的敏感种类;其中,一个预设敏感词集对应一个敏感种类,且一个预设敏感词集包括多个具有相同语义的敏感词。
其中,所述预设敏感词集是基于词典为每个敏感种类为文字类型的敏感数据生成的包含多个相同或相似语义的敏感词的集合。
进一步的,从数据文件中识别字符串的正则表达式识别规则包括以下步骤:
步骤C1:从所述数据文件中所有文本类型的数据中识别出字符串。
步骤C2:将所述字符串与预设的多个正则表达式逐个进行匹配;其中,一个正则表达式对应一个敏感种类,且所述正则表达式用于判断字符串是否为设定敏感种类的敏感数据。
具体的,本实施例中的正则表达式是由人工经过构建得到的,正则表达式可以是单个的字符、字符集合、字符范围、字符间的选择或者所有这些组件的任意组合。将数据文件中的字符串作为正则表达式中的变量,并判断该变量是否符合该正则表达式规定的逻辑,一个正则表达式对应一个敏感种类。例如:若要判断任一字符串是否符合“手机号”这一敏感种类,则需要预先设置与“手机号”这一敏感种类的敏感数据对应的正则表达式,如下“^1([358][0-9]|4[579]|66|7[0135678]|9[89])[0-9]{8}$”,该正则表达式用于判断该字符串是否为11位数字,该字符串的前三位数字是否为规定的运营商,该字符串中间四位数字是否为预设的区域号,后四位数字是否为预设的顺序号,若该字符串符合上述正则表达式的规定,则判定该字符串与上述正则表达式匹配成功,同时该字符串为手机号。
步骤C3:当存在与所述字符串匹配成功的正则表达式时,将所述字符串设置为敏感数据,并根据匹配成功的正则表达式确定所述字符串的敏感种类。
值得注意的是,预设识别规则包含对数据文件中的文字进行敏感数据识别的规则,参考步骤B1-步骤B2,以及对数据文件中的字符串进行敏感数据识别的规则,参考步骤C1-步骤C3。
在本实施例中,首先对数据文件中的数据按照文字和字符串两种类型进行分类,然后对数据文件中的文字进行敏感数据识别是通过将文字进行分词,并对分词结果进行清洗、清除无效词后,对得到的词语按照敏感词集识别规则进行敏感词识别;在对数据文件中的字符串进行敏感数据识别是通过预设的正则表达式。通过划分数据文件中不同类型的文本数据,并对应使用不同的识别规则,更细粒度的实现对数据文件中敏感数据的识别,提高了识别敏感数据的准确性和广泛性。
步骤S103:从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别。
其中,按照敏感数据的重要程度和数据价值,可以将敏感数据分为四个敏感级别,分别是:极敏感级、敏感级、较敏感级和低敏感级。同时,为每一敏感种类的敏感数据均设置了对应的防护措施。对于不同敏感种类的敏感数据可实施对应的防护措施以保护包含敏感数据的数据文件的安全性。
步骤S104:按照所述防护措施对所述数据文件进行安全防护。
其中,所述防护措施包括字符串脱敏、文件加密、签名验签等,且可以按照上述防护措施中的一种或多种措施对数据文件进行安全防护,在本实施例中不做限定。
具体的,所述步骤S104包括以下步骤:
步骤D1:当所述敏感数据为词语时,根据包含在所述防护措施中的密钥对所述数据文件进行加密处理,并将所述密钥存储至所述数据库。
其中,当数据文件中存在词语类型的敏感数据时,说明该数据文件涉及与该词语对应的详细资料,此时需要根据与词语的敏感级别对应的加密算法对数据文件进行加密。加密处理包括使用对称加密算法DES、3DES、AES等,或使用非对称加密算法可选择RES、ECC等,对于记录不同敏感级别的敏感数据的数据文件,选择对应的加密算法或混合加密顺发对该数据文件进行加密,以保障数据文件的安全性。此外,具体的加密过程属于公知常识在此不做赘述。
步骤D2:当所述敏感数据为字符串时,先将所述敏感数据作为原始脱敏数据存储至所述数据库,再根据包含在所述防护措施中的脱敏算法对所述敏感数据进行脱敏处理。
其中,所述脱敏算法是针对预设敏感种类的敏感数据按照替换、混淆、遮挡等方式进行脱敏。具体的,替换,是指将数据文件中的敏感数据替换为随机数,以银行账户为例,可以把后4位的数字进行随机数替换;混淆,是指将数据文件中发现的敏感数据,用同样数据特征的数据进行混淆,以身份证为例,可以把8位的出生日期,直接用相同特征的错误日期进行混淆;遮挡,是指将数据文件中发现的敏感数据用特定的符号进行遮挡,以手机号为例,可以用“*”遮挡中间的4位。
此外,在进行脱敏处理前,将待脱敏的敏感数据在数据库中进行备份,以便后续访问数据文件时,可以通过获取未脱敏的原始脱敏数据来恢复数据文件的完整性。
在本实施例中,通过对包含敏感数据的数据文件使用字符串脱敏、文件加密、签名验签等防护措施进行安全防护,针对不同敏感种类的敏感数据设置了对应的防护措施,分级进行安全防护,增强了对敏感数据进行安全防护的针对性和指向性,避免了对所有包含敏感数据的数据文件均进行统一加密处理造成的资源浪费情况,此外,在数据库中备份原始脱敏数据,可以在保证数据文件的完整性的同时极大限度的提高了数据文件的安全性。
步骤S105:根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
具体的,所述步骤S105包括以下步骤:
步骤E1:根据从所述数据文件中识别出的所有敏感数据的敏感级别,将最高敏感级别设置为用于访问所述数据文件的安全访问级别。
其中,将数据文件的最高敏感级别与安全访问级别进行绑定,避免安全访问级别低于数据文件的最高敏感级别的访问对象对数据文件进行访问的情况。
进一步的,在所述步骤S105之后,所述方法还包括:
步骤F1:接收由访问对象发送的用于访问所述数据文件的访问请求;其中,所述访问请求包括:所述访问对象的访问权限级别。
步骤F2:在所述访问权限级别高于所述安全访问级别的情况下,判断在所述数据库中是否存在与所述数据文件对应的密钥。
步骤F3:若是,则将所述密钥发送至所述访问对象,以供所述访问对象利用所述密钥对所述数据文件进行解密操作。
步骤F4:判断在所述数据库中是否存在与所述数据文件对应的脱敏数据,若是,则将所述脱敏数据发送至所述访问对象,以供所述访问对象利用所述脱敏数据还原所述数据文件。
更进一步的,在所述使用备份的敏感数据还原所述数据文件中经脱敏处理后的敏感数据之后,所述方法还包括:
步骤G1:获取所述访问对象的身份ID。
步骤G2:当监测到所述访问对象对解密后的数据文件进行数据增加、数据删除或数据修改时,根据所述访问对象的身份ID和当前时间戳生成数字签名,并将所述数字签名添加在解密后的数据文件的尾部。
在本实施例中,通过为数据文件设置安全访问级别和当访问对方访问数据文件后在数据文件尾部添加数字签名这两种防护措施,对数据文件进行安全防护,一方面可以避免访问对象越级访问敏感级别高的数据文件而造成数据文件泄露等情况,另一方面通过数字签名可以迅速定位访问过数据文件的访问人员,以防在数据文件损坏的情况下及时追溯责任。
在本实施例中,通过使用预设识别规则识别数据文件中的全部敏感数据,可以快速、准确地查找定位数据文件中的全部敏感数据,细化了识别敏感数据的粒度,提高了识别数据文件中敏感数据的完整性;按照与敏感数据的敏感种类对应的防护措施,对包含敏感数据的数据文件进行安全防护,实现了敏感数据和防护措施的一一对应,具有针对性地保护数据文件中的敏感数据不被泄露或篡改,增强了对数据文件的保护力度,保证了数据文件在访问、传输、修改等过程中的安全性和可追溯性。
实施例二
基于上述实施例一中提供的数据防护方法,本实施例中提供一种数据防护装置,具体地,图2示出了该数据防护装置的可选的程序模块示意图,该数据防护装置被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合描述数据防护装置在存储介质中的执行过程,以下描述将具体介绍本实施例各程序模块的功能。
如图2所示,所述数据防护装置,具体包括以下组成部分:
文件模块201,用于从预设数据库中获取待防护的数据文件;
识别模块202,用于利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
获取模块203,用于从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
防护模块204,用于按照所述防护措施对所述数据文件进行安全防护;
级别模块205,用于根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
其中,所述识别模块202,具体用于:
确定出所述数据文件中数据的数据类型;其中,所述数据类型包括:图片类型、视频类型、文本类型;当所述数据文件中存在图片类型的数据时,使用OCR识别算法将所述图片类型的数据转化为文本类型的数据;当所述数据文件中存在视频类型的数据时,按照预设时间间隔定期截取所述视频格式的数据中的视频帧,并使用OCR识别算法将所述视频帧转化为文本类型的数据。
具体的,所述识别模块202,还用于:
从所述数据文件中所有文本类型的数据中识别出文字,并对识别出的所有文字进行分词处理以得到多个词语;依次遍历各个词语,判断当前遍历到的词语是否属于任一预设敏感词集,若是,则将当前遍历到的词语设置为敏感数据,并根据当前遍历到的词语所属的预设敏感词集确定出所述敏感数据的敏感种类;其中,一个预设敏感词集对应一个敏感种类,且一个预设敏感词集包括多个具有相同语义的敏感词。
进一步的,所述识别模块202,还用于:
从所述数据文件中所有文本类型的数据中识别出字符串;将所述字符串与预设的多个正则表达式逐个进行匹配;其中,一个正则表达式对应一个敏感种类,且所述正则表达式用于判断字符串是否为设定敏感种类的敏感数据;当存在与所述字符串匹配成功的正则表达式时,将所述字符串设置为敏感数据,并根据匹配成功的正则表达式确定所述字符串的敏感种类。
具体的,所述防护模块204,具体用于:
当所述敏感数据为词语时,根据包含在所述防护措施中的密钥对所述数据文件进行加密处理,并将所述密钥存储至所述数据库;和/或,当所述敏感数据为字符串时,先将所述敏感数据作为原始脱敏数据存储至所述数据库,再根据包含在所述防护措施中的脱敏算法对所述敏感数据进行脱敏处理。
进一步的,所述防护模块204,还用于:
接收由访问对象发送的用于访问所述数据文件的访问请求;其中,所述访问请求包括:所述访问对象的访问权限级别;在所述访问权限级别高于所述安全访问级别的情况下,判断在所述数据库中是否存在与所述数据文件对应的密钥;若是,则将所述密钥发送至所述访问对象,以供所述访问对象利用所述密钥对所述数据文件进行解密操作;判断在所述数据库中是否存在与所述数据文件对应的脱敏数据,若是,则将所述脱敏数据发送至所述访问对象,以供所述访问对象利用所述脱敏数据还原所述数据文件。
此外,所述防护模块204,还用于:
获取所述访问对象的身份ID;当监测到所述访问对象对解密后的数据文件进行数据增加、数据删除或数据修改时,根据所述访问对象的身份ID和当前时间戳生成数字签名,并将所述数字签名添加在解密后的数据文件的尾部。
更进一步的,所述级别模块205,具体用于:
根据从所述数据文件中识别出的所有敏感数据的敏感级别,将最高敏感级别设置为用于访问所述数据文件的安全访问级别。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备30至少包括但不限于:可通过系统总线相互通信连接的存储器301、处理器302。需要指出的是,图3仅示出了具有组件301-302的计算机设备30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器301(即存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器301可以是计算机设备30的内部存储单元,例如该计算机设备30的硬盘或内存。在另一些实施例中,存储器301也可以是计算机设备30的外部存储设备,例如该计算机设备30上配备的插接式硬盘,智能存储卡(SmartMediaCard,SMC),安全数字(SecureDigital,SD)卡,闪存卡(FlashCard)等。当然,存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中,存储器301通常用于存储安装于计算机设备30的操作系统和各类应用软件。此外,存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器302在一些实施例中可以是中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。
具体的,在本实施例中,处理器302用于执行存储器301中存储的数据防护方法的程序,所述数据防护方法的程序被执行时实现如下步骤:
从预设数据库中获取待防护的数据文件;
利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
按照所述防护措施对所述数据文件进行安全防护;
根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
从预设数据库中获取待防护的数据文件;
利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
按照所述防护措施对所述数据文件进行安全防护;
根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
上述方法步骤的具体实施例过程可参见实施例一,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种数据防护方法,其特征在于,所述方法包括:
从预设数据库中获取待防护的数据文件;
利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
按照所述防护措施对所述数据文件进行安全防护;
根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
2.根据权利要求1所述的数据防护方法,其特征在于,在所述利用预设识别规则从所述数据文件中识别出敏感数据之前,所述方法还包括:
确定出所述数据文件中数据的数据类型;其中,所述数据类型包括:图片类型、视频类型、文本类型;
当所述数据文件中存在图片类型的数据时,使用OCR识别算法将所述图片类型的数据转化为文本类型的数据;
当所述数据文件中存在视频类型的数据时,按照预设时间间隔定期截取所述视频格式的数据中的视频帧,并使用OCR识别算法将所述视频帧转化为文本类型的数据。
3.根据权利要求2所述的数据防护方法,其特征在于,所述利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类,具体包括:
从所述数据文件中所有文本类型的数据中识别出文字,并对识别出的所有文字进行分词处理以得到多个词语;
依次遍历各个词语,判断当前遍历到的词语是否属于任一预设敏感词集,若是,则将当前遍历到的词语设置为敏感数据,并根据当前遍历到的词语所属的预设敏感词集确定出所述敏感数据的敏感种类;其中,一个预设敏感词集对应一个敏感种类,且一个预设敏感词集包括多个具有相同语义的敏感词。
4.根据权利要求3所述的数据防护方法,其特征在于,所述利用预设识别规则从所述数据文件中识别出敏感数据,具体包括:
从所述数据文件中所有文本类型的数据中识别出字符串;
将所述字符串与预设的多个正则表达式逐个进行匹配;其中,一个正则表达式对应一个敏感种类,且所述正则表达式用于判断字符串是否为设定敏感种类的敏感数据;
当存在与所述字符串匹配成功的正则表达式时,将所述字符串设置为敏感数据,并根据匹配成功的正则表达式确定所述字符串的敏感种类。
5.根据权利要求4所述的数据防护方法,其特征在于,所述按照所述防护措施对所述数据文件进行安全防护,具体包括:
当所述敏感数据为词语时,根据包含在所述防护措施中的密钥对所述数据文件进行加密处理,并将所述密钥存储至所述数据库;和/或,
当所述敏感数据为字符串时,先将所述敏感数据作为原始脱敏数据存储至所述数据库,再根据包含在所述防护措施中的脱敏算法对所述敏感数据进行脱敏处理。
6.根据权利要求5所述的数据防护方法,其特征在于,在所述根据所述敏感级别设置用于访问所述数据文件的安全访问级别之后,所述方法还包括:
接收由访问对象发送的用于访问所述数据文件的访问请求;其中,所述访问请求包括:所述访问对象的访问权限级别;
在所述访问权限级别高于所述安全访问级别的情况下,判断在所述数据库中是否存在与所述数据文件对应的密钥;
若是,则将所述密钥发送至所述访问对象,以供所述访问对象利用所述密钥对所述数据文件进行解密操作;
判断在所述数据库中是否存在与所述数据文件对应的脱敏数据,若是,则将所述脱敏数据发送至所述访问对象,以供所述访问对象利用所述脱敏数据还原所述数据文件。
7.根据权利要求6所述的数据防护方法,其特征在于,在所述使用备份的敏感数据还原所述数据文件中经脱敏处理后的敏感数据之后,所述方法还包括:
获取所述访问对象的身份ID;
当监测到所述访问对象对解密后的数据文件进行数据增加、数据删除或数据修改时,根据所述访问对象的身份ID和当前时间戳生成数字签名,并将所述数字签名添加在解密后的数据文件的尾部。
8.一种数据防护装置,其特征在于,所述装置包括:
文件模块,用于从预设数据库中获取待防护的数据文件;
识别模块,用于利用预设识别规则从所述数据文件中识别出敏感数据,并确定出所述敏感数据的敏感种类;
获取模块,用于从预设敏感数据表中获取与所述敏感数据的敏感种类对应的防护措施和敏感级别;
防护模块,用于按照所述防护措施对所述数据文件进行安全防护;
级别模块,用于根据所述敏感级别设置用于访问所述数据文件的安全访问级别。
9.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210817526.3A CN115238286A (zh) | 2022-07-12 | 2022-07-12 | 一种数据防护方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210817526.3A CN115238286A (zh) | 2022-07-12 | 2022-07-12 | 一种数据防护方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115238286A true CN115238286A (zh) | 2022-10-25 |
Family
ID=83673758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210817526.3A Pending CN115238286A (zh) | 2022-07-12 | 2022-07-12 | 一种数据防护方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238286A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115618398A (zh) * | 2022-12-20 | 2023-01-17 | 吉林省信息技术研究所 | 一种网络数据库用户信息加密系统及方法 |
CN115906170A (zh) * | 2022-12-02 | 2023-04-04 | 杨磊 | 应用于存储集群的安全防护方法及ai系统 |
CN116112228A (zh) * | 2022-12-28 | 2023-05-12 | 北京明朝万达科技股份有限公司 | 一种https数据包发送方法、装置、电子设备及可读介质 |
CN116383861A (zh) * | 2023-06-07 | 2023-07-04 | 上海飞斯信息科技有限公司 | 基于用户数据保护的计算机安全处理系统 |
CN116723042A (zh) * | 2023-07-12 | 2023-09-08 | 北汽蓝谷信息技术有限公司 | 一种数据包的安全保护方法及系统 |
-
2022
- 2022-07-12 CN CN202210817526.3A patent/CN115238286A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115906170A (zh) * | 2022-12-02 | 2023-04-04 | 杨磊 | 应用于存储集群的安全防护方法及ai系统 |
CN115906170B (zh) * | 2022-12-02 | 2023-12-15 | 北京金安道大数据科技有限公司 | 应用于存储集群的安全防护方法及ai系统 |
CN115618398A (zh) * | 2022-12-20 | 2023-01-17 | 吉林省信息技术研究所 | 一种网络数据库用户信息加密系统及方法 |
CN116112228A (zh) * | 2022-12-28 | 2023-05-12 | 北京明朝万达科技股份有限公司 | 一种https数据包发送方法、装置、电子设备及可读介质 |
CN116383861A (zh) * | 2023-06-07 | 2023-07-04 | 上海飞斯信息科技有限公司 | 基于用户数据保护的计算机安全处理系统 |
CN116383861B (zh) * | 2023-06-07 | 2023-08-18 | 上海飞斯信息科技有限公司 | 基于用户数据保护的计算机安全处理系统 |
CN116723042A (zh) * | 2023-07-12 | 2023-09-08 | 北汽蓝谷信息技术有限公司 | 一种数据包的安全保护方法及系统 |
CN116723042B (zh) * | 2023-07-12 | 2024-01-26 | 北汽蓝谷信息技术有限公司 | 一种数据包的安全保护方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826111B (zh) | 测试监管方法、装置、设备及存储介质 | |
CN115238286A (zh) | 一种数据防护方法、装置、计算机设备及存储介质 | |
US9654510B1 (en) | Match signature recognition for detecting false positive incidents and improving post-incident remediation | |
CN112217835B (zh) | 报文数据的处理方法、装置、服务器和终端设备 | |
US20090292930A1 (en) | System, method and apparatus for assuring authenticity and permissible use of electronic documents | |
US10878126B1 (en) | Batch tokenization service | |
CN115380288B (zh) | 用于对数据进行安全分类和令牌化的方法和计算机可读介质 | |
US10536276B2 (en) | Associating identical fields encrypted with different keys | |
US20230098507A1 (en) | De-tokenization patterns and solutions | |
CN113127915A (zh) | 数据加密脱敏方法、装置、电子设备及存储介质 | |
CN115795538A (zh) | 脱敏文档的反脱敏方法、装置、计算机设备和存储介质 | |
Fu et al. | Data correlation‐based analysis methods for automatic memory forensic | |
CN111639179A (zh) | 一种银行前端查询系统批量客户信息隐私控制方法和装置 | |
CN114626079A (zh) | 基于用户权限的文件查看方法、装置、设备及存储介质 | |
CN111881480A (zh) | 隐私数据加密方法、装置、计算机设备及存储介质 | |
CN109729076B (zh) | 数据脱敏、逆脱敏方法及装置、存储介质、终端 | |
CN112328975A (zh) | 一种产品软件授权管理方法、终端设备及介质 | |
CN111783119A (zh) | 表单数据安全控制方法、装置、电子设备及存储介质 | |
CN115600201A (zh) | 一种电网系统软件的用户账户信息安全处理方法 | |
CN115571533A (zh) | 保密档案存放管理方法、装置、设备及可读存储介质 | |
CN115001767A (zh) | 基于国密加密卡的服务调用的方法、装置、设备及介质 | |
CN115081017A (zh) | 一种大字段数据调用方法和系统 | |
US20240232422A1 (en) | De-Tokenization Patterns And Solutions | |
CN116308434B (zh) | 一种保险欺诈识别方法及系统 | |
CN116450745B (zh) | 基于多设备的笔记文件操作方法、系统和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |