CN110928931B - 敏感数据的处理方法及装置、电子设备、存储介质 - Google Patents
敏感数据的处理方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110928931B CN110928931B CN202010094979.9A CN202010094979A CN110928931B CN 110928931 B CN110928931 B CN 110928931B CN 202010094979 A CN202010094979 A CN 202010094979A CN 110928931 B CN110928931 B CN 110928931B
- Authority
- CN
- China
- Prior art keywords
- sensitive data
- data
- format
- sensitive
- safety protection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Artificial Intelligence (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种敏感数据的处理方法及装置、电子设备、计算机可读存储介质。敏感数据的处理方法包括:接收各种格式的源数据;根据预设的敏感数据挖掘算法对源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;通过数据属性分析算法对敏感数据进行属性分析,以划分出敏感数据的类型和重要等级;根据类型和重要等级选择匹配的安全保护措施,以将敏感数据进行安全保护,最后将经过安全保护后的数据进行保存。本发明的敏感数据处理方法首先确定数据的属性,然后根据属性选择匹配的敏感处理方法,使得敏感处理方法与数据本身的性质更为贴合,提高了敏感处理的准确性,从而提高了数据的安全性。
Description
技术领域
本发明涉及通信技术领域,尤其是涉及一种敏感数据的处理方法及装置、电子设备、计算机可读存储介质。
背景技术
随着信息时代的快速发展,数据的安全性越来越被人重视。在多个领域中,通常需要对敏感数据进行处理,以保证数据的安全。
传统的敏感数据处理方式需要预先知道传入的是什么数据,并且传入的数据是结构化的数据,在已知数据组成的情况下,预先定义好哪些字段属于敏感数据,哪些不属于敏感数。对筛选出的敏感数据通常只用较为单一的方式来处理。由此,现有技术的敏感数据处理方法过于简单,一旦被人攻破处理规则就很容易造成数据的安全性问题。
发明内容
本发明主要解决的技术问题是提供一种敏感数据的处理方法及装置、电子设备、计算机可读存储介质,能够根据敏感数据的属性选择匹配的安全保护措施,使得敏感数据的处理更为安全。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种敏感数据的处理方法,所述敏感数据的处理方法包括:接收各种格式的源数据;根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;将经过安全保护后的数据进行保存。
可选的,所述根据预设的敏感数据挖掘算法对所述源数据进行敏感分析之前包括:
对所述源数据进行格式识别;
所述根据预设的敏感数据挖掘算法对所述源数据进行敏感分析的步骤包括:
根据所述源数据的格式从预设的数据库中查询对应的敏感数据挖掘算法;
对所述源数据进行分词识别,并根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析,以提取出所述敏感数据。
可选的,每个敏感数据挖掘算法都预先设定其相同敏感词和相似敏感词;
根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析包括:
将所述分词与每一个所述相同敏感词以及相似敏感词进行一一匹配,若匹配成功,则确定所述分词为敏感数据,若匹配均失败,则确定所述分词为非敏感数据。
可选的,所述对所述敏感数据进行属性分析包括:
提取所述敏感数据中的关键词,将所述关键词与预设的类型关键词进行匹配,并将匹配成功的类型关键词对应的类型作为所述敏感数据的类型;
根据所述敏感数据的类型确定所述敏感数据的重要等级。
可选的,所述方法还包括:
预先设定不同类型和不同等级的安全保护措施,其中,每种类型对应设置了多个安全保护措施,每个类型下的不同等级对应一个安全保护措施;
所述根据所述类型和重要等级选择匹配的安全保护措施包括:
根据所述类型筛选出匹配的多个安全保护措施;
根据所述重要等级从筛选出的多个安全保护措施中进一步筛选出目标的安全保护措施。
可选的,所述安全保护措施包括混淆、替换、掩码屏蔽、加密、摘要、签名验签。
可选的,所述方法还包括:
对经过安全保护后的数据进行正确度分析,若分析为正确,则保留该敏感数据挖掘算法以及安全保护措施,若分析为错误,则修正该敏感数据挖掘算法以及安全保护措施。
为解决上述技术问题,本发明采用的另一个技术方案是:提供一种敏感数据的处理装置,所述处理装置包括:
接收模块,用于接收各种格式的源数据;
提取模块,用于根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;
分析模块,用于对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;
安全保护模块,用于根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;
存储模块,用户将经过安全保护后的数据进行保存。
为解决上述技术问题,本发明采用的又一个技术方案是:提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有计算机程序用于所述处理器执行前文所述的方法。
为解决上述技术问题,本发明采用的又一个技术方案是:提供所述计算机可读存储介质存储有计算机程序用于处理器执行前文所述的方法。
本发明的有益效果是:区别于现有技术的情况,本发明提供一种敏感数据的处理方法及装置、电子设备、计算机可读存储介质,接收各种格式的源数据;根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据;对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;将经过安全保护后的数据进行保存。
因此,本发明的敏感数据处理方法首先确定数据的属性,然后根据属性选择匹配的安全保护措施,使得安全保护措施与数据本身的性质更为贴合,提高了敏感处理的准确性,从而提高了数据的安全性。
附图说明
图1是本发明实施例提供的一种敏感数据的处理方法的一流程示意图;
图2是本发明实施例提供的一种敏感数据的处理方法的另一流程示意图;
图3是本发明实施例提供的一种敏感数据的处理方法的又一流程示意图;
图4是本发明实施例提供的一种敏感数据的处理装置的结构示意图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。需要说明的是,本发明中的实施例、实施方式及其技术特征在不冲突的情况下可以相互组合,且本发明中的步骤顺序仅用于举例,在不冲突的情况下,不对其具体顺序做限制。
请参阅图1,图1图1是本发明实施例提供的一种敏感数据的处理方法的流程示意图。如图1所示,本实施例的敏感数据的处理方法包括以下步骤:
步骤S1:接收各种格式的源数据。
其中,源数据的格式可以包括文本格式、图片格式、视频格式等。
本步骤中,主要是接收应用系统产生的源数据。具体接收方式可通过有线连接的方式进行接收,也可以通过无线通信连接的方式进行接收。
步骤S2:根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据。
敏感数据的提取是敏感数据处理的基础。在提取敏感数据之前进一步对源数据的格式进行识别。
在实际应用中,为了更好的区分源数据的格式,通常会在数据的相关属性中通过一种格式标志来表示。
其中一种常见的方案是通过源数据的文件后缀名来作为格式标志来识别源数据的格式。具体而言,首先读取源数据对应的文件后缀名。根据将读取的文件后缀名和预先设定的文件后缀名与格式之间的关系去识别出对应的格式。
但是随着文件的格式的多样化和复杂化,仅仅通过识别文件后缀名来确认对应的数据格式会显得不够严谨客观。因此,本申请实施例进一步提供了另外一种格式识别方法:通过读取文件的文件头标识来识别对应的格式。
以图片作为例子进行阐述。各种格式的图片文件头标识如下:
1.JPEG
- 文件头标识 (2 bytes): $ff, $d8 (SOI) (JPEG 文件标识)
- 文件结束标识 (2 bytes): $ff, $d9 (EOI)
2.TGA
- 未压缩的前5字节 00 00 02 00 00
- RLE压缩的前5字节 00 00 10 00 00
3.PNG
- 文件头标识 (8 bytes) 89 50 4E 47 0D 0A 1A 0A
4.GIF
- 文件头标识 (6 bytes) 47 49 46 38 39(37) 61
G I F 8 9 (7) a
5.BMP
- 文件头标识 (2 bytes) 42 4D
B M
6.PCX
- 文件头标识 (1 bytes) 0A
7.TIFF
- 文件头标识 (2 bytes) 4D 4D 或 49 49
8.ICO
- 文件头标识 (8 bytes) 00 00 01 00 01 00 20 20
9.CUR
- 文件头标识 (8 bytes) 00 00 02 00 01 00 20 20
10.IFF
- 文件头标识 (4 bytes) 46 4F 52 4D
F O R M
11.ANI
- 文件头标识 (4 bytes) 52 49 46 46
R I F F
基于以上各图片格式的标识,举例几种格式的识别:
JPEG格式的图片只需要比对文件头的$ff, $d8这两个字符,而不用读取最后的两个结束标识了。TGA,ICO,CUR只需比对第三个与第五个字符即可。PNG比对[89][50]这两个字符。GIF比对[47][49][46]与第五个字符。
也就是说,读取到以上的标识后就可以判断出对应的格式了。
在识别出源数据的格式后,进一步借助于源数据的格式进行敏感数据提取。请进一步参阅图2,本步骤具体可以通过以下子步骤实现:
步骤S21:根据所述源数据的格式从预设的数据库中查询对应的敏感数据挖掘算法。
考虑到每种格式的敏感数据的类型不一样,例如本文格式主要是以文字进行显示,而图片格式主要是以图片的形式进行显示,视频格式的源数据主要是以视频帧的格式进行显示。不同的显示方式决定了其敏感处理的方式也不一样。因此,本实施例预先在数据库中存储所有格式对应的敏感数据挖掘算法。
例如,若是文字格式的源数据,则对应的敏感数据挖掘算法可包括直接读取对应的文字信息;若是图片格式的源数据,对应的敏感数据挖掘算法可包括先通过OCR(OpticalCharacter Recognition,光学字符识别)识别出图片中的文字信息,然后再对识别出的文字信息进行整理;若是视频格式的源数据,则可先截取视频中的视频帧,然后通过OCR识别截取的视频帧中的文字信息,进而进行整理。
应理解,上述列举的敏感数据挖掘算法仅仅是举例介绍,其不应该限定为本申请所要保护的所有敏感数据挖掘算法,其他的敏感数据挖掘算法也在本申请的保护范围之内。
步骤S22:对所述源数据进行分词识别,并根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析,以提取出所述敏感数据。
中文分词的基本方法可以分为基于语法规则的方法、基于词典的方法和基于统计的方法。
基于语法规则的分词法基本思想是在分词的同时进行句法、语义分析,利用句法信息和语义信息来进行词性标注,以解决分词歧义现象。因为现有的语法知识、语法规则十分笼统、复杂,基于语法和规则的分词法所能达到的精确度远远还不能令人满意,目前这种分词系统应用较少。
基于词典的方法中,可以进一步分为最大匹配法、最大概率法、最短路径法等。最大匹配法指的是按照一定顺序选取字符串中的若干个字当做一个词,去字典中查找。根据扫描方式可细分为:正向最大匹配、反向最大匹配、双向最大匹配、最小切分。最大概率法指的是一个待切分的汉字串可能包含多种分词结果,将其中概率最大的那个作为该字串的分词结果。最短路径法指的是在词图上选择一条词数最少的路径。
基于统计的分词法的基本原理是根据字符串在语料库中出现的统计频率来决定其是否构成词。词是字的组合,相邻的字出现的次数越多,就越有可能构成一个词。因此字与字相邻共吸纳的频率或概率能够较好的翻译它们成为词的可信度。常用的方法有HMM(隐马尔科夫模型),MAXENT(最大熵模型),MEMM(最大熵隐马尔科夫模型),CRF(条件随机场)。
对源数据进行分词后得到多个分词结果,然后对该些分词结果进行敏感分析。具体而言,每个敏感数据挖掘算法都预先设定其相同敏感词和相似敏感词;
本步骤具体为:将所述分词与每一个所述相同敏感词以及相似敏感词进行一一匹配,若匹配成功,则确定所述分词为敏感数据,若匹配均失败,则确定所述分词为非敏感数据。
步骤S3:对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级。
本步骤通过数据属性分析算法来进行属性分析具体为:首先提取所述敏感数据中的关键词,将所述关键词与预设的类型关键词进行匹配,并将匹配成功的类型关键词对应的类型作为所述敏感数据的类型,然后根据所述敏感数据的类型确定所述敏感数据的重要等级。
在敏感数据的属性分析阶段时,会根据预先定义好的划分规则对敏感数据进行分类,例如该数据类别有“个人身份信息”、“金融信息”、“隐私信息”等,还会根据设定好的规则对敏感数据划定重要等级。
步骤S4:根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护。
首先预先设定不同类型和不同等级的脱敏方法,其中,每种类型对应设置了多个安全保护措施,每个类型下的不同等级对应一个安全保护措施。
本步骤具体可以包括以下子步骤:
步骤S41:根据所述类型筛选出匹配的多个安全保护措施;
步骤S42:根据所述重要等级从筛选出的多个安全保护措施中进一步筛选出目标的安全保护措施。
在对敏感数据进行安全保护后,进一步对安全保护后的数据进行正确度分析,若分析为正确的敏感处理,则继续保留该敏感数据挖掘算法以及安全保护措施,若分析为错误的敏感处理,则修正该敏感数据挖掘算法以及安全保护措施,并将修正后的敏感数据挖掘算法以及安全保护措施保存在所述数据库中。
具体而言,可以将进行安全保护后的数据进行人工检查,对识别结果和处理结果做质量评估,对识别结果与处理结果进行纠正并标识,然后自动的去优化敏感数据处理方法,并优化敏感数据的数据库。
可选的,安全保护措施包括但不限制于混淆、替换、掩码屏蔽、加密(例如RSA、DES、3DES等加密算法)、摘要(例如HASH、SM3等)、签名验签。
步骤S5:将经安全保护后的数据存储到数据库中。当需要提取所述该些数据时,对所述该些数据进行还原、验证等处理后输出。
综上所述,本发明的敏感数据处理方法可以首先确定数据的属性,然后根据属性选择匹配的脱敏方法,使得敏感处理方法与数据本身的性质更为贴合,提高了敏感处理的准确性,从而提高了数据的安全性。
本申请还提供了一种敏感数据的处理装置,用于前文所述的方法中。具体请参阅图4,所述处理装置40包括:
接收模块41,用于接收各种格式的源数据;
提取模块42,用于根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;
分析模块43,用于对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;
安全保护模块44,用于根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;
存储模块45,用于将经过安全保护后的数据进行保存。
可选的, 提取模块42进一步对所述源数据进行格式识别。
提取模块42进一步根据所述源数据的格式从预设的数据库中查询对应的敏感数据分析规则;
对所述源数据进行分词识别,并根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析,以提取出所述敏感数据。
可选的,每个敏感数据挖掘算法都预先设定其相同敏感词和相似敏感词;
提取模块42将所述分词与每一个所述相同敏感词以及相似敏感词进行一一匹配,若匹配成功,则确定所述分词为敏感数据,若匹配均失败,则确定所述分词为非敏感数据。
可选的,分析模块43提取所述敏感数据中的关键词,将所述关键词与预设的类型关键词进行匹配,并将匹配成功的类型关键词对应的类型作为所述敏感数据的类型,并根据所述敏感数据的类型确定所述敏感数据的重要等级。
可选的,还包括设置模块,预先设定不同类型和不同等级的安全保护措施,其中,每种类型对应设置了多个安全保护措施,每个类型下的不同等级对应一个安全保护措施。
可选的,安全保护模块44进一步根据所述类型筛选出匹配的多个安全保护措施,并根据所述重要等级从筛选出的多个安全保护措施中进一步筛选出目标的脱敏方法。
可选的,进一步包括分析模块,用于对经过安全保护后的数据进行正确度分析,若分析为正确,则保留该敏感数据挖掘算法以及安全保护措施,若分析为错误,则修正该敏感数据挖掘算法以及安全保护措施。
可选的,当需要提取所述经过安全保护后的数据时,对所述经过安全保护后的数据还原、验证等操作后输出。
下面参考图5来描述根据本发明的这种实施例的电子设备800。图5显示的电子设备800仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。电子设备800可为前文所述的主设备或者从设备。
如图4所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。例如,所述处理单元810可以执行如图2中所示的步骤S1:接收各种格式的源数据;步骤S2:根据预设的敏感数据挖掘算法对对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;步骤S3:对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;步骤S4:根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;步骤S5:将经过安全保护后的数据进行保存将经过安全保护后的数据进行保存。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备870(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施例的方法。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其他实施例。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限。
Claims (8)
1.一种敏感数据的处理方法,其特征在于,所述敏感数据的处理方法包括:
接收各种格式的源数据;
根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;
对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;
根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;
将经过安全保护后的数据进行保存;
其中,所述根据预设的敏感数据挖掘算法对所述源数据进行敏感分析之前包括:
通过读取文件的文件头标识来对所述源数据进行格式识别,所述源数据包括文本格式、图片格式以及视频格式;
所述根据预设的敏感数据挖掘算法对所述源数据进行敏感分析的步骤包括:
根据所述源数据的格式从预设的数据库中查询对应的敏感数据挖掘算法;
对所述源数据进行分词识别,并根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析,以提取出所述敏感数据;
其中,图片文件的文件头标识包括:
1. JPEG格式的文件头标识包括2个字节: ff以及 d8,文件结束标识包括2个字节: ff以及d9;
2. 未压缩的TGA格式的文件头标识的前5个字节为00、00、02、00以及00,RLE压缩的TGA格式的文件头标识的前5个字节为00、00、10、00以及00;
3. PNG格式的文件头标识包括8个字节:89、50、4E、47、0D、0A、1A以及0A;
4. GIF格式的文件头标识包括6个字节:47、49、46、38、39以及61;
5. ICO格式的文件头标识包括8个字节:00、00、01、00、01、00、20以及20
6. CUR格式的文件头标识包括8个字节:00、00、02、00、01、00、20以及20;
在所述源数据的格式为图片格式时,通过读取文件的文件头标识来对所述源数据进行格式识别的步骤包括:
通过文件头的第一个字节ff和第二个字节d8的字符来识别JPEG格式的图片,通过比对文件头的第三个字节与第五个字节来识别TGA格式、ICO格式以及CUR格式的图片,通过比对第一个字节89以及第二个字节50来识别PNG格式的图片,通过比对第一个字节47、第二个字节49以及第三个字节46与第五个字节39来识别GIF格式的图片;
其中,所述方法还包括:
对经过安全保护后的数据进行正确度分析,若分析为正确,则保留该敏感数据挖掘算法以及安全保护措施,若分析为错误,则修正该敏感数据挖掘算法以及安全保护措施。
2.根据权利要求1所述的方法,其特征在于,每个敏感数据挖掘算法都预先设定其相同敏感词和相似敏感词;
根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析包括:
将所述分词与每一个所述相同敏感词以及相似敏感词进行一一匹配,若匹配成功,则确定所述分词为敏感数据,若匹配均失败,则确定所述分词为非敏感数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述敏感数据进行属性分析包括:
提取所述敏感数据中的关键词,将所述关键词与预设的类型关键词进行匹配,并将匹配成功的类型关键词对应的类型作为所述敏感数据的类型;
根据所述敏感数据的类型确定所述敏感数据的重要等级。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
预先设定不同类型和不同等级的安全保护措施,其中,每种类型对应设置了多个安全保护措施,每个类型下的不同等级对应一个安全保护措施;
所述根据所述类型和重要等级选择匹配的安全保护措施包括:
根据所述类型筛选出匹配的多个安全保护措施;
根据所述重要等级从筛选出的多个安全保护措施中进一步筛选出目标的安全保护措施。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述安全保护措施包括混淆、替换、掩码屏蔽、加密、摘要、签名验签。
6.一种敏感数据的处理装置,其特征在于,所述处理装置包括:
接收模块,用于接收各种格式的源数据;
提取模块,用于根据预设的敏感数据挖掘算法对所述源数据进行敏感分析,提取出敏感数据,其中,所述敏感数据包括结构化敏感数据和非结构化敏感数据;
分析模块,用于对所述敏感数据进行属性分析,以划分出所述敏感数据的类型和重要等级;
安全保护模块,用于根据所述类型和重要等级选择匹配的安全保护措施,以将所述敏感数据进行安全保护;
存储模块,用于将经过安全保护后的数据进行保存;
其中,所述提取模块进一步通过读取文件的文件头标识来对所述源数据进行格式识别,所述源数据包括文本格式、图片格式以及视频格式,根据所述源数据的格式从预设的数据库中查询对应的敏感数据分析规则,对所述源数据进行分词识别,并根据查询到的敏感数据挖掘算法对识别出的分词进行敏感分析,以提取出所述敏感数据;
其中,图片文件的文件头标识包括:
1. JPEG格式的文件头标识包括2个字节: ff以及 d8,文件结束标识包括2个字节: ff以及d9;
2. 未压缩的TGA格式的文件头标识的前5个字节为00、00、02、00以及00,RLE压缩的TGA格式的文件头标识的前5个字节为00、00、10、00以及00;
3. PNG格式的文件头标识包括8个字节:89、50、4E、47、0D、0A、1A以及0A;
4. GIF格式的文件头标识包括6个字节:47、49、 46、38、39以及61;
5. ICO格式的文件头标识包括8个字节:00、00、01、00、01、00、20以及20
6. CUR格式的文件头标识包括8个字节:00、00、02、00、01、00、20以及20;
在所述源数据的格式为图片格式时,通过读取文件的文件头标识来对所述源数据进行格式识别的步骤包括:
通过文件头的第一个字节ff和第二个字节d8的字符来识别JPEG格式的图片,通过比对文件头的第三个字节与第五个字节来识别TGA格式、ICO格式以及CUR格式的图片,通过比对第一个字节89以及第二个字节50来识别PNG格式的图片,通过比对第一个字节47、第二个字节49以及第三个字节46与第五个字节39来识别GIF格式的图片;
其中,所述处理装置还包括:
分析模块,用于对经过安全保护后的数据进行正确度分析,若分析为正确,则保留该敏感数据挖掘算法以及安全保护措施,若分析为错误,则修正该敏感数据挖掘算法以及安全保护措施。
7.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有计算机程序用于所述处理器执行所述权利要求1-5任一项中所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序用于处理器执行所述权利要求1-5任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094979.9A CN110928931B (zh) | 2020-02-17 | 2020-02-17 | 敏感数据的处理方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010094979.9A CN110928931B (zh) | 2020-02-17 | 2020-02-17 | 敏感数据的处理方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928931A CN110928931A (zh) | 2020-03-27 |
CN110928931B true CN110928931B (zh) | 2020-06-30 |
Family
ID=69854433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010094979.9A Active CN110928931B (zh) | 2020-02-17 | 2020-02-17 | 敏感数据的处理方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928931B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113496035A (zh) * | 2020-04-08 | 2021-10-12 | 阿里巴巴集团控股有限公司 | 信息、笔记信息、代码检测方法、设备及存储介质 |
CN112052676B (zh) * | 2020-08-31 | 2021-09-07 | 国网山东省电力公司荣成市供电公司 | 一种文本内容的处理方法、计算机设备及存储介质 |
CN113434365B (zh) * | 2021-06-28 | 2022-11-25 | 平安银行股份有限公司 | 数据特征监控方法、装置、电子设备及存储介质 |
CN113742774B (zh) * | 2021-09-03 | 2024-02-09 | 北京字跳网络技术有限公司 | 数据处理方法、装置、可读介质及电子设备 |
CN114265967B (zh) * | 2022-03-01 | 2022-05-27 | 中国光大银行股份有限公司 | 一种敏感数据安全等级标注方法及装置 |
CN114884742B (zh) * | 2022-06-02 | 2024-03-29 | 深圳市斑点猫软件有限公司 | 一种基于隐私计算技术的业务数据共享方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688662A (zh) * | 2019-09-16 | 2020-01-14 | 威富通科技有限公司 | 一种敏感数据脱敏及逆脱敏方法、电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232290A (zh) * | 2018-03-05 | 2019-09-13 | 中兴通讯股份有限公司 | 日志脱敏方法、服务器及存储介质 |
CN108776762B (zh) * | 2018-06-08 | 2022-01-28 | 北京中电普华信息技术有限公司 | 一种数据脱敏的处理方法及装置 |
CN110188565A (zh) * | 2019-04-17 | 2019-08-30 | 平安科技(深圳)有限公司 | 数据脱敏方法、装置、计算机设备及存储介质 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
-
2020
- 2020-02-17 CN CN202010094979.9A patent/CN110928931B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110688662A (zh) * | 2019-09-16 | 2020-01-14 | 威富通科技有限公司 | 一种敏感数据脱敏及逆脱敏方法、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110928931A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110928931B (zh) | 敏感数据的处理方法及装置、电子设备、存储介质 | |
US10621988B2 (en) | System and method for speech to text translation using cores of a natural liquid architecture system | |
CN111581976A (zh) | 医学术语的标准化方法、装置、计算机设备及存储介质 | |
CN108229481B (zh) | 屏幕内容分析方法、装置、计算设备及存储介质 | |
CN111177367B (zh) | 案件分类方法、分类模型训练方法及相关产品 | |
CN114556328A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN109299227B (zh) | 基于语音识别的信息查询方法和装置 | |
CN110580308A (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN111639156B (zh) | 一种基于层级标签的查询方法、装置,设备及存储介质 | |
KR20180104899A (ko) | 신조어 자동 인식을 위한 언어 분석에 기반한 온라인 문맥 광고 지능화 장치 및 그 방법 | |
CN110705235A (zh) | 业务办理的信息录入方法、装置、存储介质及电子设备 | |
CN112988753A (zh) | 一种数据搜索方法和装置 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN113961768B (zh) | 敏感词检测方法、装置、计算机设备和存储介质 | |
CN107943881B (zh) | 题库生成方法、服务器及计算机可读存储介质 | |
CN112883721B (zh) | 基于bert预训练模型的新词识别方法和装置 | |
CN110472121B (zh) | 名片信息搜索方法、装置、电子设备以及计算机可读存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN110688558A (zh) | 网页搜索的方法、装置、电子设备和存储介质 | |
CN112307183B (zh) | 搜索数据识别方法、装置、电子设备以及计算机存储介质 | |
CN115034194A (zh) | 一种摘要生成方法及相关装置 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN111368083A (zh) | 基于意图混淆的文本分类方法、装置、设备及存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
CN112784596A (zh) | 一种识别敏感词的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 518000 1401, building a, Fenghuang Zhigu, No. 50, tiezi Road, Gongle community, Xixiang street, Bao'an District, Shenzhen, Guangdong Province Patentee after: Shenzhen Qiji Technology Co.,Ltd. Address before: 518000 6702, building 7, block 6, block a, Ma Bu community, Xixiang street, Bao'an District, Shenzhen City, Guangdong Province Patentee before: SHENZHEN QIJI TECHNOLOGY SERVICE Co.,Ltd. |
|
CP03 | Change of name, title or address |