CN104331414A - 基于数据块的敏感数据过滤的方法和系统 - Google Patents

基于数据块的敏感数据过滤的方法和系统 Download PDF

Info

Publication number
CN104331414A
CN104331414A CN201410510353.6A CN201410510353A CN104331414A CN 104331414 A CN104331414 A CN 104331414A CN 201410510353 A CN201410510353 A CN 201410510353A CN 104331414 A CN104331414 A CN 104331414A
Authority
CN
China
Prior art keywords
data
condition code
sensitive
sensitive data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410510353.6A
Other languages
English (en)
Inventor
杨耀敏
赵君翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yun Chao Artery Science And Technology Ltd
Original Assignee
Beijing Yun Chao Artery Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yun Chao Artery Science And Technology Ltd filed Critical Beijing Yun Chao Artery Science And Technology Ltd
Priority to CN201410510353.6A priority Critical patent/CN104331414A/zh
Publication of CN104331414A publication Critical patent/CN104331414A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种基于数据块的敏感数据过滤的方法和系统,涉及数据安全领域。本发明提供的技术方案,通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,并禁止用户继续访问,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本发明可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。

Description

基于数据块的敏感数据过滤的方法和系统
技术领域
本发明涉及数据安全领域,尤其涉及一种基于数据块的敏感数据过滤的方法和系统。
背景技术
随着计算机办公的普遍应用,数据安全在各领域中都变得越来越重要,尤其是对于一些保密性强的行业,如果机密性资料外泄,则可能带来严重的后果,甚至带来巨大的损失。
目前,对敏感数据进行敏感词过滤是数据安全领域中常用的一种方法。这种方法需要读取数据流,并对数据流进行解析,读取解析后的数据内容,通过检索数据中的敏感词,判断解析出的数据是否为敏感数据。
由于无法对压缩文件进行解析,所以上述方法不能对压缩文件进行敏感数据过滤,从而使压缩文件具有泄密风险。
发明内容
本发明的目的在于提供一种基于数据块的敏感数据过滤的方法和系统,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
本发明实施例一方面提供了一种基于数据块的敏感数据过滤的方法,该方法包括如下步骤:
S1,基于数据块,计算敏感数据特征码,构建敏感数据特征码库;
S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤S1中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码;
S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计;
S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;当与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量未达到所述设定的阈值时,重复步骤S2-S4,直到用户访问行为结束;
S5,若所述用户访问的数据是敏感数据,则禁止用户继续访问数据。
进一步地,步骤S5中,所述禁止用户继续访问数据之前还包括步骤,显示警告信息。
其中,所述显示警告信息,具体采用弹出提示框的方式。
进一步地,步骤S5中,所述禁止用户继续访问数据的同时或之后还包括步骤,记录并存储用户访问行为,并将所述用户访问数据的行为信息发送至管理员。
其中,所述将所述用户访问数据的行为信息发送至管理员,具体采用发送邮件的方式。
具体地,所述数据块根据所述敏感数据的大小进行划分。
优选地,所述数据块的大小为4kb。
其中,步骤S1中所述计算敏感数据特征码,具体为,计算敏感数据的MD5值。
其中,步骤S5中,所述禁止用户继续访问数据,具体采用锁定计算机的方式。
本发明实施例的另一个方面提供了一种基于数据块的敏感数据过滤的系统,该系统包括:
特征码计算模块:用于基于数据块,计算敏感数据特征码和计算用户访问的数据的特征码;
敏感数据特征码库:用于存储敏感数据特征码;
数据监控模块:用于监控用户访问的数据;
数据比对模块:用于将所述用户访问的数据的特征码与所述敏感数据特征码库比对;还用于比较与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量和设定的阈值。
本发明的有益效果是:通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,并禁止用户继续访问,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本发明实施例提供的基于数据块的敏感数据过滤的方法和系统,可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。
附图说明
图1是本发明实施例提供的基于数据块的敏感数据过滤的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于数据块的敏感数据过滤的方法,包括如下步骤:
S1,基于数据块,计算敏感数据特征码,构建敏感数据特征码库。
其中,所述数据块根据所述敏感数据的大小进行划分。假如敏感数据是些小文件,比如都是些1兆的小文件,则划分的数据块就可以小一些,反之如果敏感数据是比较大的文件,比如都是几百兆的大文件,则划分的数据块就可以大一些。因为,数据块越小,对应的特征码越多,进行数据过滤时准确率就会越高,越不容易出错,但是,数据块越小,计算特征码的次数越多,则系统的效率越低。所以在划分数据块时,可以参考敏感数据的文件大小。
本发明实施例中,所述数据块的大小为4kb。对于大多数的敏感数据而言,可以既保证过滤的精确度,也可以保证计算的效率。
另外,本发明实施例中,步骤S1中所述计算敏感数据特征码,具体为,计算敏感数据的MD5值。
由于MD5计算时,将整个文件当作一个大文本信息,通过其不可逆的字符串变换算法,产生一个唯一的MD5信息摘要,即MD5值。所以,对于一个文件,只存在一个MD5值,如果该文件进行了任意的变动,MD5值都会发生变化,故对数据进行MD5计算,得到的MD5值作为数据对应的特征码会更加准确。
在本发明实施例中,以MD5值作为敏感数据的数据块对应的特征码,可以准确的标记这些数据块,从而在数据过滤时,可以实现被访问数据是否为敏感数据的准确的判定,而不会出现误判或错判的情况。
如本领域普通技术人员可以理解的,还可以采用其他的本领域常用的特征码和计算特征码的方法。
S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤S1中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码。
本发明实施例中,为了在敏感数据的特征码库中检索用户访问的数据的特征码相同的敏感数据特征码,判定该特征码对应的用户访问数据的数据块是否为敏感数据块,所以在计算用户访问数据的特征码时,采用与敏感数据特征码相同的计算方法和相同的特征码。
在本发明实施例中,当步骤S1中的敏感数据特征码为MD5值时,步骤S2中的用户访问的数据的特征码也为MD5值,该MD5值的计算方法也同步骤S1中的计算MD5值的方法。
S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计;
S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;当与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量未达到所述设定的阈值时,重复步骤S2-S4,直到访问行为结束;
其中,阈值的设定可以根据敏感数据的安全级别、被访问的次数等参数进行设定。本发明实施例中,设定的阈值为5。即规定用户访问的数据的特征码累计超过5个敏感数据特征码时,即可以判定用户访问的数据为敏感数据,当用户累积访问的数据的特征码累计未超过5个敏感数据特征码时,即可以判定用户访问的数据为非敏感数据,则继续进行数据过滤,直到用户访问行为结束。
S5,若所述用户访问的数据是敏感数据,则禁止用户继续访问数据。
其中,所述禁止用户继续访问数据,具体可以采用锁定计算机的方式。这种方式操作简单,实现比较容易。
在实际使用过程中,在用户的电脑上安装软件,该软件监控用户的访问行为,一旦软件监控到用户访问数据的行为,则启动敏感数据过滤方法,用户访问数据进行的同时,对访问的数据按照数据块计算特征码,当发现与敏感数据特征码相同的访问数据的特征码时,则判定该特征码对应的数据块为敏感数据块,当与敏感数据特征码相同的访问数据的特征码的数量达到提前设定的阈值时,则判定这些特征码对应的数据块所在的数据为敏感数据。从而实现敏感数据的过滤。由于该敏感数据过滤的过程是同访问行为同时进行的,所以可以及时的发现被访问的数据是否为敏感数据,从而保证了对敏感数据的及时过滤,不存在泄密的风险。
在本发明的一个实施例中,基于数据块的敏感数据过滤的方法,步骤S5中,所述禁止用户继续访问数据之前还包括步骤,显示警告信息。
其中,警告信息可以采用弹出提示框的方式,在警告提示框中写注明警告的内容。通过显示警告信息,可以提示用户尽快结束对该数据的访问行为。
如本领域普通技术人员可以理解的,还可以采用其他的形式,显示警告信息,以提示用户所访问的数据为敏感数据。
在本发明的一个实施例中,基于数据块的敏感数据过滤的方法,步骤S5中,所述禁止用户继续访问数据的同时或之后还包括步骤,记录并存储用户访问行为,并将所述用户访问数据的行为信息发送至管理员。
其中,管理员是对用户进行监督管理的人员。通过将用户访问敏感数据的行为信息发送至管理员,可以让管理员对用户行为进行了解和掌握,同时也能对用户进行一个警示作用。
本发明的实施例中,具体可以采用发送邮件的方式将所述用户访问数据的行为信息发送至管理员。如本领域普通技术人员可以理解的,还可以采用其他的常用技术手段将所述用户访问数据的行为信息发送至管理员。
本发明实施例提供了一种基于数据块的敏感数据过滤的系统,包括
特征码计算模块:用于基于数据块,计算敏感数据特征码和计算用户访问的数据的特征码;
敏感数据特征码库:用于存储敏感数据特征码;
数据监控模块:用于监控用户访问的数据;
数据比对模块:用于将所述用户访问的数据的特征码与所述敏感数据特征码库比对;还用于比较与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量和设定的阈值。
该系统可以用于基于数据块的敏感数据的过滤。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明通过将数据划分成数据块,基于数据块,计算敏感数据的特征码和用户访问的数据的特征码,并对两种特征码进行比较,当与敏感数据的特征码相同的用户访问的数据的特征码的数量达到设定的阈值时,则可以判定用户访问的数据即为敏感数据,从而实现敏感数据的保护。由于各种格式的文件都可以划分成一定大小的数据块,都可以计算数据块对应的特征码,因此,本发明实施例提供的基于数据块的敏感数据过滤的方法和系统,可以实现对各种格式的文件进行敏感数据数据的过滤,保证所有格式的文件都不具有泄密风险。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种基于数据块的敏感数据过滤的方法,其特征在于,包括如下步骤:
S1,基于数据块,计算敏感数据特征码,构建敏感数据特征码库;
S2,监控用户访问数据的行为,监控到用户访问数据的行为时,按照步骤S1中所述计算敏感数据特征码的方法,计算用户访问的数据的特征码;
S3,将所述用户访问的数据的特征码与所述敏感数据特征码库比对,获得与所述敏感数据特征码相同的所述用户访问的数据的特征码,并存储累计;
S4,当步骤S3中获得与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量达到设定的阈值时,可以判定所述用户访问的数据是敏感数据;当与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量未达到所述设定的阈值时,重复步骤S2-S4,直到用户访问行为结束;
S5,若所述用户访问的数据是敏感数据,则禁止用户继续访问数据。
2.根据权利要求1所述的基于数据块的敏感数据过滤的方法,其特征在于,步骤S5中,所述禁止用户继续访问数据之前还包括步骤,显示警告信息。
3.根据权利要求2所述的基于数据块的敏感数据过滤的方法,其特征在于,所述显示警告信息,具体采用弹出提示框的方式。
4.根据权利要求1所述的基于数据块的敏感数据过滤的方法,其特征在于,步骤S5中,所述禁止用户继续访问数据的同时或之后还包括步骤,记录并存储用户访问行为,并将所述用户访问数据的行为信息发送至管理员。
5.根据权利要求4所述的基于数据块的敏感数据过滤的方法,其特征在于,所述将所述用户访问数据的行为信息发送至管理员,具体采用发送邮件的方式。
6.根据权利要求1所述的基于数据块的敏感数据过滤的方法,其特征在于,所述数据块根据所述敏感数据的大小进行划分。
7.根据权利要求6所述的基于数据块的敏感数据过滤的方法,其特征在于,所述数据块的大小为4kb。
8.根据权利要求1所述的基于数据块的敏感数据过滤的方法,其特征在于,步骤S1中所述计算敏感数据特征码,具体为,计算敏感数据的MD5值。
9.根据权利要求1所述的基于数据块的敏感数据过滤的方法,其特征在于,步骤S5中,所述禁止用户继续访问数据,具体采用锁定计算机的方式。
10.一种基于数据块的敏感数据过滤的系统,其特征在于,包括
特征码计算模块:用于基于数据块,计算敏感数据特征码和计算用户访问的数据的特征码;
敏感数据特征码库:用于存储敏感数据特征码;
数据监控模块:用于监控用户访问的数据;
数据比对模块:用于将所述用户访问的数据的特征码与所述敏感数据特征码库比对;还用于比较与所述敏感数据特征码相同的所述用户访问的数据的特征码的数量和设定的阈值。
CN201410510353.6A 2014-09-28 2014-09-28 基于数据块的敏感数据过滤的方法和系统 Pending CN104331414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410510353.6A CN104331414A (zh) 2014-09-28 2014-09-28 基于数据块的敏感数据过滤的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410510353.6A CN104331414A (zh) 2014-09-28 2014-09-28 基于数据块的敏感数据过滤的方法和系统

Publications (1)

Publication Number Publication Date
CN104331414A true CN104331414A (zh) 2015-02-04

Family

ID=52406141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410510353.6A Pending CN104331414A (zh) 2014-09-28 2014-09-28 基于数据块的敏感数据过滤的方法和系统

Country Status (1)

Country Link
CN (1) CN104331414A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902243A (zh) * 2019-03-04 2019-06-18 广州博士信息技术研究院有限公司 一种带有初次筛选功能的数据过滤挖掘方法
CN112580092A (zh) * 2020-12-07 2021-03-30 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法
CN102930553A (zh) * 2011-08-10 2013-02-13 中国移动通信集团上海有限公司 不良视频内容识别方法及装置
CN103077163A (zh) * 2012-12-24 2013-05-01 华为技术有限公司 数据预处理方法、装置及系统
US20130185797A1 (en) * 2010-08-18 2013-07-18 Qizhi Software (Beijing) Company Limited Whitelist-based inspection method for malicious process
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN101996180A (zh) * 2009-08-12 2011-03-30 升东网络科技发展(上海)有限公司 图片审核过滤系统及方法
US20130185797A1 (en) * 2010-08-18 2013-07-18 Qizhi Software (Beijing) Company Limited Whitelist-based inspection method for malicious process
CN102930553A (zh) * 2011-08-10 2013-02-13 中国移动通信集团上海有限公司 不良视频内容识别方法及装置
CN103077163A (zh) * 2012-12-24 2013-05-01 华为技术有限公司 数据预处理方法、装置及系统
CN103678602A (zh) * 2013-12-16 2014-03-26 昆明理工大学 一种含敏感度计算的网页过滤方法
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902243A (zh) * 2019-03-04 2019-06-18 广州博士信息技术研究院有限公司 一种带有初次筛选功能的数据过滤挖掘方法
CN112580092A (zh) * 2020-12-07 2021-03-30 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置
CN112580092B (zh) * 2020-12-07 2023-03-24 北京明朝万达科技股份有限公司 一种敏感文件识别方法及装置

Similar Documents

Publication Publication Date Title
CN103019887B (zh) 数据备份方法及装置
US9952850B2 (en) Automated firmware update with rollback in a data storage system
CN104281533B (zh) 一种存储数据的方法及装置
CN106484761B (zh) 用于改进储存日志的方法和系统
CN108268354A (zh) 数据安全监控方法、后台服务器、终端及系统
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN107609027B (zh) 设置文件防删除标志位和防止误删除文件的方法及装置
CN106909482A (zh) 一种固态硬盘寿命检测的方法及装置
CN105573859A (zh) 一种数据库的数据恢复方法和设备
CN104750826B (zh) 一种结构化数据资源元数据自动甄别与动态注册方法
CN104778123A (zh) 一种检测系统性能的方法及装置
CN105224600A (zh) 一种样本相似度的检测方法及装置
CN106897342A (zh) 一种数据校验方法和设备
WO2021073241A1 (zh) 一种基于磁盘存储的数据读取方法、装置及设备
CN104504116A (zh) 一种实时数据库的存储方法
CN112800483A (zh) 基于区块链的数据源完整性检测方法及系统及装置及介质
CN106301979B (zh) 检测异常渠道的方法和系统
CN102609644A (zh) 一种文件保护方法
EP2811410A1 (en) Monitoring record management method and device
CN104331414A (zh) 基于数据块的敏感数据过滤的方法和系统
CN107515807B (zh) 一种存储监控数据的方法及装置
CN114924914A (zh) 磁盘分区表信息备份、恢复方法及系统
CN114527721A (zh) 聚pvc改性电缆粒料在线生产监控方法、系统及云平台
CN109344163B (zh) 一种数据校验方法、装置和计算机可读介质
CN114155906A (zh) 一种数据块修复方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150204