CN113051601A - 敏感数据识别方法、装置、设备和介质 - Google Patents

敏感数据识别方法、装置、设备和介质 Download PDF

Info

Publication number
CN113051601A
CN113051601A CN201911380558.6A CN201911380558A CN113051601A CN 113051601 A CN113051601 A CN 113051601A CN 201911380558 A CN201911380558 A CN 201911380558A CN 113051601 A CN113051601 A CN 113051601A
Authority
CN
China
Prior art keywords
data
confirmed
visitor
sensitive
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911380558.6A
Other languages
English (en)
Other versions
CN113051601B (zh
Inventor
王茜
敖锦蓉
代建东
丁雪莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911380558.6A priority Critical patent/CN113051601B/zh
Publication of CN113051601A publication Critical patent/CN113051601A/zh
Application granted granted Critical
Publication of CN113051601B publication Critical patent/CN113051601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种敏感数据识别方法、装置、设备和介质。该方法包括:获取用户对目标文件的文件扫描请求;对文件扫描请求进行解析,以得到场景信息和扫描信息;基于扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏参数;对于每类待确认数据,基于第一敏感参数以及待确认数据对应的第二敏感参数,计算待确认数据对应的敏感度;对于每类待确认数据,若待确认数据对应的敏感度小于预设目标敏感度阈值,则确定待确认数据为敏感数据,目标敏感度阈值是与场景信息关联且与待确认数据对应的阈值。根据本发明实施例,能够实现根据用户的应用场景需求对数据进行个性化敏感数据识别。

Description

敏感数据识别方法、装置、设备和介质
技术领域
本发明涉及数据业务领域,尤其涉及一种敏感数据识别方法、装置、设备和介质。
背景技术
随着业务支撑系统的发展,其业务运营数据的安全保护也越发重要,因此数据的脱敏保护也成为当前安全工作的重中之重。
目前的敏感数据识别方法为:预先指定。例如,用户指定身份证信息为敏感信息,则当文档中出现身份证信息时,均会识别为敏感数据,进行脱敏处理。
目前的脱敏方法中,敏感数据是固定的。但是,不同用户对敏感数据的需求是不同的。在现有技术中,无法根据用户获取数据的目的不同,动态识别敏感数据。
发明内容
本发明实施例提供一种敏感数据识别方法、装置、设备和介质,实现了根据用户的应用场景需求对数据进行个性化敏感数据识别。
第一方面,本发明实施例提供一种敏感数据识别方法,包括:
获取用户对目标文件的文件扫描请求;
对所述文件扫描请求进行解析,以得到场景信息和扫描信息,所述场景信息用于表征所述用户的身份;
基于所述扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,所述每类待确认数据是基于预设敏感数据扫描规则对所述目标文件中扫描得到的;
对于每类所述待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,计算所述待确认数据对应的敏感度;
对于每类所述待确认数据,若所述待确认数据对应的敏感度小于预设目标敏感度阈值,则确定所述待确认数据为敏感数据,所述目标敏感度阈值是与所述场景信息关联且与所述待确认数据对应的阈值。
在一个实施例中,所述扫描信息包括预设时间段内目标文件夹的访问总次数B1、所述目标文件夹在所述预设时间段内被第一访问者访问的次数B2、所述目标文件夹在所述预设时间段内被第二访问者访问的次数B3、所述目标文件夹在所述预设时间段内被第三访问者访问的次数B4和所述目标文件夹在所述预设时间段内被第四访问者访问的次数B5;其中,所述目标文件夹为所述目标文件所在文件夹。
其中,所述第一访问者是对所述目标文件夹具有修改权限和删除权限的访问者;所述第二访问者是对所述目标文件夹仅有删除权限的访问者;所述第三访问者是对所述目标文件夹仅有修改权限的访问者;所述第四访问者是对所述目标文件夹仅有读取权限的访问者。
在一个实施例中,利用下面的表达式来确定所述第一敏感参数A1:A1=B1*B2+0.75*B3+0.5*B4+0.25*B5。
在一个实施例中,所述待确认数据对应的第二敏感参数包括所述待确认数据在所述目标文件中出现的次数C1和每类所述待确认数据在所述目标文件中出现的总次数C2。
在一个实施例中,所述对于所述每类待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,确定所述待确认数据对应的敏感度,包括:
对于所述每类待确认数据,利用下面的表达式计算所述待确认数据对应的敏感度P:
P=A1*C1/C2
其中,A1为所述第一敏感参数。
在一个实施例中,敏感数据识别方法还包括:
基于每类敏感数据关联的级别,按照级别从高到低的顺序,展示每类所述敏感数据。
第二方面,本发明实施例提供一种敏感数据识别装置,包括:
扫描请求获取模块,用于获取用户对目标文件的文件扫描请求;
第一确定模块,用于对所述文件扫描请求进行解析,以得到场景信息和扫描信息,所述场景信息用于表征所述用户的身份;
第二确定模块,用于基于所述扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,所述每类待确认数据是基于预设敏感数据扫描规则对所述目标文件中扫描得到的;
计算模块,用于对于每类所述待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,计算所述待确认数据对应的敏感度;
第三确定模块,用于对于每类所述待确认数据,若所述待确认数据对应的敏感度小于预设目标敏感度阈值,则确定所述待确认数据为敏感数据,所述目标敏感度阈值是与所述场景信息关联且与所述待确认数据对应的阈值。
在一个实施例中,所述扫描信息包括预设时间段内目标文件夹的访问总次数B1、所述目标文件夹在所述预设时间段内被第一访问者访问的次数B2、所述目标文件夹在所述预设时间段内被第二访问者访问的次数B3、所述目标文件夹在所述预设时间段内被第三访问者访问的次数B4和所述目标文件夹在所述预设时间段内被第四访问者访问的次数B5;其中,所述目标文件夹为所述目标文件所在文件夹;
其中,所述第一访问者是对所述目标文件夹具有修改权限和删除权限的访问者;所述第二访问者是对所述目标文件夹仅有删除权限的访问者;所述第三访问者是对所述目标文件夹仅有修改权限的访问者;所述第四访问者是对所述目标文件夹仅有读取权限的访问者。
在一个实施例中,所述第二确定模块利用下面的表达式来确定所述第一敏感参数A1:A1=B1*B2+0.75*B3+0.5*B4+0.25*B5。
在一个实施例中,所述待确认数据对应的第二敏感参数包括所述待确认数据在所述目标文件中出现的次数C1和每类所述待确认数据在所述目标文件中出现的总次数C2。
在一个实施例中,所述计算模块用于:
对于所述每类待确认数据,利用下面的表达式计算所述待确认数据对应的敏感度P:
P=A1*C1/C2
其中,A1为所述第一敏感参数。
第三方面,本发明实施例提供一种敏感数据识别设备,包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如本发明实施例提供的敏感数据识别方法。
第四方面,本发明实施例提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如本发明实施例提供的敏感数据识别方法。
在本发明的实施例中,通过为待确认数据设置与场景信息关联且与该数据对应的敏感度阈值,同时考虑了扫描信息和场景信息,实现了在不同场景下根据用户的需求对敏感数据的个性化识别,提高了用户的良好体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出本发明实施例提供的敏感数据识别方法的流程示意图;
图2是示出本发明实施例提供的敏感数据识别装置的结构示意图;
图3示出了根据本发明实施例的敏感数据识别设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出根据本发明实施例提供的敏感数据识别方法的流程图。如图1所示,本发明实施例中敏感数据识别方法100包括以下步骤:
S110,获取用户对目标文件的文件扫描请求。
S120,对文件扫描请求进行解析,以得到场景信息和扫描信息,场景信息用于表征用户的身份。
S130,基于扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,每类待确认数据是基于预设敏感数据扫描规则对目标文件中扫描得到的。
S140,对于每类待确认数据,基于第一敏感参数以及待确认数据对应的第二敏感参数,计算待确认数据对应的敏感度。
S150,对于每类待确认数据,若待确认数据对应的敏感度小于预设目标敏感度阈值,则确定待确认数据为敏感数据,目标敏感度阈值是与场景信息关联且与待确认数据对应的阈值。
在本发明的实施例中,通过为待确认数据设置与场景信息关联且与该数据对应的敏感度阈值,同时考虑了数据角度和用户角度,即扫描信息和场景信息,实现了在不同场景下根据用户的需求对敏感数据的个性化识别,提高了用户的良好体验。
在本发明的实施例中,在S120中,场景信息从用户的角度反映本次的扫描需求。场景信息用于表征用户的身份。例如,若用户为移动集团公司,希望获取到真实的银行卡号,则不需要对银行卡号进行脱敏处理。但是,对于一些其他专业公司,则需要对银行卡号进行脱敏处理。
也就是说,在不同的场景下,对于同一类数据,对于不同的用户而言,对该数据的脱敏需求不同。因此,针对不同的场景信息,对于不同类型的数据可以设置不同的敏感度阈值。例如,在移动集团公司获取银行卡号的场景下,则对银行卡号的敏感度阈值可以设置的低一些,以不将银行卡号识别为敏感数据,即不对银行卡号进行脱敏处理。
其中,扫描信息可以从文件的角度反映本次的扫描需求,扫描信息包括的每个扫描内容所在的存储位置,而存储位置反映了文件的业务属性等。例如,文件存储在名为log的文件夹下,那么该文件的业务属性为日志文件。
例如,扫描D:\网络\log\A.doc文件。其中获取的文件可以为word文档,也可以为txt文档,还可以为Excel文档,还可以为其他文档。
在获取文件扫描请求后,会将文件目录进行拆分,去除根目录,得到文件所在目录路径。例如,log-网络。
当获取目标文件所在目录路径之后,对目标文件进行扫描,以获取目标文件的扫描信息。在一些实施例中,扫描信息包括在预设时间段内与目标文件相关的访问信息。例如,对目标文件的访问频次,访问目标文件的访问者的权限信息等信息。其中,访问者的权限可以为对文件的读取权限、对文件的修改权限以及对文件的删除权限。
在一些实施例中,扫描信息包括预设时间段内目标文件夹的访问总次数B1、目标文件夹在预设时间段内被第一访问者访问的次数B2、目标文件夹在预设时间段内被第二访问者访问的次数B3、目标文件夹在预设时间段内被第三访问者访问的次数B4和目标文件夹在预设时间段内被第四访问者访问的次数B5。其中,目标文件夹为目标文件所在文件夹。
需要说明的是,对目标文件夹的访问包括对目标文件夹下任一文件的访问。也就是说,预设时间段内对目标文件夹的访问总次数包括预设时间段内目标文件夹下被访问的每个文件的访问次数之和。
其中,第一访问者是对目标文件夹具有修改权限和删除权限的访问者。第二访问者是对目标文件夹仅有删除权限的访问者。第三访问者是对目标文件夹仅有修改权限的访问者。第四访问者是对目标文件夹仅有读取权限的访问者。
在S130中,可以利用下面的表达式来确定第一敏感参数A1:
A1=B1*B2+0.75*B3+0.5*B4+0.25*B5 (1)
在S120中,对目标文件的扫描还包括利用预设敏感数据扫描规则对目标文件扫描,得到多类待确认数据。
在一些实施例中,待确认数据的类型包括但不限于以下至少之一:身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址、用户名、密码、联系人、订单、账单等数据。
在一些实施例中,预设敏感数据扫描规则包括对每类待确认数据的扫描规则。
作为一个示例,比如身份证这号码类规则性非常明显的数据,可以按身份证的扫描规则来匹配。若某个数据与身份证的扫描规则相匹配,则认为该数据属于身份证号类数据。
作为另一个示例,比如手机号码这类数据,由于手机号码的某个区间段都是特定的值,比如前三位是号码段。通过将所有可能的号码段放到字典表里去,然后通过字典表判断是否满足手机号码类数据的要求,以识别手机号码类数据。
对于不具有规则性的数据,可以利用关键词匹配规则或其他预设规则去扫描待确认数据。
在本发明的实施例中,可以利用关键词匹配算法、模糊识别算法等不同的算法实现对预设类型数据的扫描。
在利用预设敏感数据规则扫描待确认数据时,若目标文件的数据量过大,则可以利用一定的数据抽取规则,从目标文件中抽取部分数据。然后利用预设敏感数据规则对从目标文件中抽取的部分数据进行扫描,以得到多类待确认数据。在利用预设敏感数据规则对目标文件扫描时,统计每类待确认数据在目标文件中出现的次数。
在本发明的实施例中,待确认数据对应的第二敏感参数包括待确认数据在目标文件中出现的次数C1和每类待确认数据在目标文件中出现的总次数C2。即C2等于每类待确认数据对应的C1之和。
需要说明的,对于每类待确认数据,该类待确认数据包括属于该类型的每个数据。例如,对于身份证号码类待确认数据,该类待确认数据包括目标文件中出现的每个身份证号码。
对于每类待确认数据,该类待确认数据在目标文件中出现的次数包括该类待确认数据中的每个数据在目标文件中出现的次数之和。例如,对于身份证号码类待确认数据,该类待确认数据在目标文件中出现的次数包括目标文件中的每个身份证号码在目标文件中出现的次数之和。
在S140中,对于每类待确认数据,待确认数据对应的敏感度P利用下面的表达式进行计算:
P=A1*C1/C2 (2)
其中,A1为第一敏感参数。
在本发明的实施例中,对于不同的场景信息,该场景信息下每类待确认数据对应的敏感度阈值可以相同,也可以不同。
对于同一类型的待确认数据,该类型的待确认数据在不同场景信息下的敏感度阈值可以不同。
通过在不同的应用场景需求下,为每类待确认数据设置不同的敏感度阈值,可以实现针对不同用户的应用场景需求对数据进行个性化脱敏,提高了对数据脱敏的精准度,以及提高了用户的良好体验。
在本发明的一些实施例中,为了便于用户观看目标文件中敏感数据的分布,本发明实施例提供的敏感数据识别方法还包括基于每个敏感数据关联的级别,按照级别从高到低的顺序,展示每个敏感数据。
在本发明的实施例中,可以预先给不同类型的敏感数据定义不同的级别。此级别是按敏感程度分的。
例如,用户定义用户数据比企业数据更敏感,则涉及用户的数据级别比涉及企业的数据级别高。
再例如,用户定义:身份数据比服务数据更敏感,则涉及身份的数据级别比涉及服务的数据级别高。
因此,用户身份的数据、如身份证号码、用户名、密码等数据为最高级别。用户服务的数据,如日志、联系人、好友等数据为次高级别。服务衍生数据,如订单,账单等数据为低级别。
通过按照每类敏感数据关联的级别,按照从高到低的顺序,展示每类敏感数据,可以使用户清楚地看到一些级别较高的敏感数据。
需要说明的是,对于每个被扫描过的目标文件,可以按照每个文件中敏感数据级别的分布情况进行展示。这样可以清楚的知道一些级别高的敏感数据集中在哪些文件中,这样那类文件就需要重点检查关注,防止数据泄露。
在一些实施例中,可以按照扫描后的敏感数据按照预先定义的级别按照图表进行展示,展示所有被扫描的文件的分布情况,从而对敏感级别高的数据所在文件进行重点关注,防止此类数据的泄露。
图2示出了根据本发明一实施例提供的敏感数据识别装置的结构示意图。如图2所示,敏感数据识别装置200包括:
扫描请求获取模块210,用于获取用户对目标文件的文件扫描请求。
第一确定模块220,用于对文件扫描请求进行解析,以得到场景信息和扫描信息,场景信息用于表征用户的身份。
第二确定模块230,用于基于扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,每类待确认数据是基于预设敏感数据扫描规则对目标文件中扫描得到的。
计算模块240,用于对于每类待确认数据,基于第一敏感参数以及待确认数据对应的第二敏感参数,计算待确认数据对应的敏感度。
第三确定模块250,用于对于每类待确认数据,若待确认数据对应的敏感度小于预设目标敏感度阈值,则确定待确认数据为敏感数据,目标敏感度阈值是与场景信息关联且与待确认数据对应的阈值。
在一个实施例中,扫描信息包括预设时间段内目标文件夹的访问总次数B1、目标文件夹在预设时间段内被第一访问者访问的次数B2、目标文件夹在预设时间段内被第二访问者访问的次数B3、目标文件夹在预设时间段内被第三访问者访问的次数B4和目标文件夹在预设时间段内被第四访问者访问的次数B5;其中,目标文件夹为目标文件所在文件夹;
其中,第一访问者是对目标文件夹具有修改权限和删除权限的访问者;第二访问者是对目标文件夹仅有删除权限的访问者;第三访问者是对目标文件夹仅有修改权限的访问者;第四访问者是对目标文件夹仅有读取权限的访问者。
在一个实施例中,利用下面的表达式(1)来确定第一敏感参数A1。
在一个实施例中,待确认数据对应的第二敏感参数包括待确认数据在目标文件中出现的次数C1和每类待确认数据在目标文件中出现的总次数C2。
在一个实施例中,对于每类待确认数据,基于第一敏感参数以及待确认数据对应的第二敏感参数,确定待确认数据对应的敏感度,包括:
对于每类待确认数据,利用表达式(2)计算待确认数据对应的敏感度P。
在一个实施例中,敏感数据识别装置200还包括展示模块,用于:
基于每个敏感数据关联的级别,按照级别从高到低的顺序,展示每个敏感数据。
根据本发明实施例的敏感数据识别装置的其他细节与以上结合图2描述的根据本发明实施例的方法类似,在此不再赘述。
结合图1至图2描述的根据本发明实施例的敏感数据识别方法和装置可以由敏感数据识别设备来实现。图3是示出根据发明实施例的敏感数据识别设备的硬件结构300示意图。
如图3所示,本实施例中的敏感数据识别设备300包括:处理器301、存储器302、通信接口303和总线310,其中,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括HDD、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在敏感数据识别设备300的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
通信接口303,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将敏感数据识别设备300的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
也就是说,图3所示的敏感数据识别设备300可以被实现为包括:处理器301、存储器302、通信接口303和总线310。处理器301、存储器302和通信接口303通过总线310连接并完成相互间的通信。存储器302用于存储程序代码;处理器301通过读取存储器302中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行本发明任一实施例中的敏感数据识别方法,从而实现结合图1至图2描述的敏感数据识别方法和装置。
本发明实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的敏感数据识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (13)

1.一种敏感数据识别方法,其特征在于,所述方法包括:
获取用户对目标文件的文件扫描请求;
对所述文件扫描请求进行解析,以得到场景信息和扫描信息,所述场景信息用于表征所述用户的身份;
基于所述扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,所述每类待确认数据是基于预设敏感数据扫描规则对所述目标文件中扫描得到的;
对于每类所述待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,计算所述待确认数据对应的敏感度;
对于每类所述待确认数据,若所述待确认数据对应的敏感度小于预设目标敏感度阈值,则确定所述待确认数据为敏感数据,所述目标敏感度阈值是与所述场景信息关联且与所述待确认数据对应的阈值。
2.根据权利要求1所述的方法,其特征在于,所述扫描信息包括预设时间段内目标文件夹的访问总次数B1、所述目标文件夹在所述预设时间段内被第一访问者访问的次数B2、所述目标文件夹在所述预设时间段内被第二访问者访问的次数B3、所述目标文件夹在所述预设时间段内被第三访问者访问的次数B4和所述目标文件夹在所述预设时间段内被第四访问者访问的次数B5;其中,所述目标文件夹为所述目标文件所在文件夹;
其中,所述第一访问者是对所述目标文件夹具有修改权限和删除权限的访问者;所述第二访问者是对所述目标文件夹仅有删除权限的访问者;所述第三访问者是对所述目标文件夹仅有修改权限的访问者;所述第四访问者是对所述目标文件夹仅有读取权限的访问者。
3.根据权利要求2所述的方法,其特征在于,利用下面的表达式来确定所述第一敏感参数A1:A1=B1*B2+0.75*B3+0.5*B4+0.25*B5。
4.根据权利要求1所述的方法,其特征在于,所述待确认数据对应的第二敏感参数包括所述待确认数据在所述目标文件中出现的次数C1和每类所述待确认数据在所述目标文件中出现的总次数C2。
5.根据权利要求4所述的方法,其特征在于,所述对于所述每类待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,确定所述待确认数据对应的敏感度,包括:
对于所述每类待确认数据,利用下面的表达式计算所述待确认数据对应的敏感度P:
P=A1*C1/C2
其中,A1为所述第一敏感参数。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于每类敏感数据关联的级别,按照级别从高到低的顺序,展示每类所述敏感数据。
7.一种敏感数据识别装置,其特征在于,所述装置包括:
扫描请求获取模块,用于获取用户对目标文件的文件扫描请求;
第一确定模块,用于对所述文件扫描请求进行解析,以得到场景信息和扫描信息,所述场景信息用于表征所述用户的身份;
第二确定模块,用于基于所述扫描信息,确定第一敏感参数和每类待确认数据对应的第二敏感参数,所述每类待确认数据是基于预设敏感数据扫描规则对所述目标文件中扫描得到的;
计算模块,用于对于每类所述待确认数据,基于所述第一敏感参数以及所述待确认数据对应的第二敏感参数,计算所述待确认数据对应的敏感度;
第三确定模块,用于对于每类所述待确认数据,若所述待确认数据对应的敏感度小于预设目标敏感度阈值,则确定所述待确认数据为敏感数据,所述目标敏感度阈值是与所述场景信息关联且与所述待确认数据对应的阈值。
8.根据权利要求7所述的装置,其特征在于,所述扫描信息包括预设时间段内目标文件夹的访问总次数B1、所述目标文件夹在所述预设时间段内被第一访问者访问的次数B2、所述目标文件夹在所述预设时间段内被第二访问者访问的次数B3、所述目标文件夹在所述预设时间段内被第三访问者访问的次数B4和所述目标文件夹在所述预设时间段内被第四访问者访问的次数B5;其中,所述目标文件夹为所述目标文件所在文件夹;
其中,所述第一访问者是对所述目标文件夹具有修改权限和删除权限的访问者;所述第二访问者是对所述目标文件夹仅有删除权限的访问者;所述第三访问者是对所述目标文件夹仅有修改权限的访问者;所述第四访问者是对所述目标文件夹仅有读取权限的访问者。
9.根据权利要求8所述的装置,其特征在于,所述第二确定模块利用下面的表达式来确定所述第一敏感参数A1:A1=B1*B2+0.75*B3+0.5*B4+0.25*B5。
10.根据权利要求7所述的装置,其特征在于,所述待确认数据对应的第二敏感参数包括所述待确认数据在所述目标文件中出现的次数C1和每类所述待确认数据在所述目标文件中出现的总次数C2。
11.根据权利要求10所述的装置,其特征在于,所述计算模块用于:
对于所述每类待确认数据,利用下面的表达式计算所述待确认数据对应的敏感度P:
P=A1*C1/C2
其中,A1为所述第一敏感参数。
12.一种敏感数据识别设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的敏感数据识别方法。
13.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的敏感数据识别方法。
CN201911380558.6A 2019-12-27 2019-12-27 敏感数据识别方法、装置、设备和介质 Active CN113051601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911380558.6A CN113051601B (zh) 2019-12-27 2019-12-27 敏感数据识别方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911380558.6A CN113051601B (zh) 2019-12-27 2019-12-27 敏感数据识别方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN113051601A true CN113051601A (zh) 2021-06-29
CN113051601B CN113051601B (zh) 2024-05-03

Family

ID=76506880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911380558.6A Active CN113051601B (zh) 2019-12-27 2019-12-27 敏感数据识别方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113051601B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022262447A1 (en) * 2021-06-17 2022-12-22 Huawei Technologies Co.,Ltd. Method and system for detecting sensitive data
CN116663040A (zh) * 2023-07-24 2023-08-29 天津卓朗昆仑云软件技术有限公司 敏感数据的扫描方法、装置、电子设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN103430518A (zh) * 2011-03-18 2013-12-04 国际商业机器公司 用于管理与移动设备的数据交换的系统和方法
CN106407843A (zh) * 2016-10-17 2017-02-15 深圳中兴网信科技有限公司 数据脱敏方法和数据脱敏装置
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN108629195A (zh) * 2017-03-21 2018-10-09 北京京东尚科信息技术有限公司 一种数据处理的方法、装置、电子设备和计算机存储介质
CN109800600A (zh) * 2019-01-23 2019-05-24 中国海洋大学 面向保密需求的海洋大数据敏感度评估系统及防范方法
WO2019114766A1 (zh) * 2017-12-14 2019-06-20 中兴通讯股份有限公司 一种数据脱敏方法、服务器、终端及计算机可读存储介质
CN109977690A (zh) * 2017-12-28 2019-07-05 中国移动通信集团陕西有限公司 一种数据处理方法、装置和介质
CN110019377A (zh) * 2017-12-14 2019-07-16 中国移动通信集团山西有限公司 动态脱敏方法、装置、设备及介质
CN110110543A (zh) * 2019-03-14 2019-08-09 深圳壹账通智能科技有限公司 数据处理方法、装置、服务器及存储介质
CN110232290A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 日志脱敏方法、服务器及存储介质
CN110414222A (zh) * 2019-06-18 2019-11-05 北京邮电大学 一种基于组件关联的应用隐私泄露问题检测方法和装置
CN110489990A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种敏感数据处理方法、装置、电子设备及存储介质
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103430518A (zh) * 2011-03-18 2013-12-04 国际商业机器公司 用于管理与移动设备的数据交换的系统和方法
US20130167192A1 (en) * 2011-12-27 2013-06-27 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
CN106407843A (zh) * 2016-10-17 2017-02-15 深圳中兴网信科技有限公司 数据脱敏方法和数据脱敏装置
CN108629195A (zh) * 2017-03-21 2018-10-09 北京京东尚科信息技术有限公司 一种数据处理的方法、装置、电子设备和计算机存储介质
CN110019377A (zh) * 2017-12-14 2019-07-16 中国移动通信集团山西有限公司 动态脱敏方法、装置、设备及介质
WO2019114766A1 (zh) * 2017-12-14 2019-06-20 中兴通讯股份有限公司 一种数据脱敏方法、服务器、终端及计算机可读存储介质
CN109977690A (zh) * 2017-12-28 2019-07-05 中国移动通信集团陕西有限公司 一种数据处理方法、装置和介质
CN110232290A (zh) * 2018-03-05 2019-09-13 中兴通讯股份有限公司 日志脱敏方法、服务器及存储介质
CN108563961A (zh) * 2018-04-13 2018-09-21 中国民航信息网络股份有限公司 数据脱敏平台敏感数据识别方法、装置、设备及介质
CN110489990A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种敏感数据处理方法、装置、电子设备及存储介质
CN109800600A (zh) * 2019-01-23 2019-05-24 中国海洋大学 面向保密需求的海洋大数据敏感度评估系统及防范方法
CN110110543A (zh) * 2019-03-14 2019-08-09 深圳壹账通智能科技有限公司 数据处理方法、装置、服务器及存储介质
CN110414222A (zh) * 2019-06-18 2019-11-05 北京邮电大学 一种基于组件关联的应用隐私泄露问题检测方法和装置
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张伊璇;何泾沙;赵斌;朱娜斐;: "一个基于博弈理论的隐私保护模型", 计算机学报, no. 03 *
陈志辉;吴敏敏;: "面向大数据的非结构化数据安全保障技术研究", 延边大学学报(自然科学版), no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022262447A1 (en) * 2021-06-17 2022-12-22 Huawei Technologies Co.,Ltd. Method and system for detecting sensitive data
US11687534B2 (en) 2021-06-17 2023-06-27 Huawei Technologies Co., Ltd. Method and system for detecting sensitive data
CN116663040A (zh) * 2023-07-24 2023-08-29 天津卓朗昆仑云软件技术有限公司 敏感数据的扫描方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113051601B (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
CN107450708B (zh) 解锁控制方法及相关产品
CN107026831B (zh) 一种身份识别方法和装置
CA2859135C (en) System and methods for spam detection using frequency spectra of character strings
CN106909811B (zh) 用户标识处理的方法和装置
US11429698B2 (en) Method and apparatus for identity authentication, server and computer readable medium
CN110046196A (zh) 标识关联方法及装置、电子设备
CN114297448B (zh) 基于智慧防疫大数据识别的证照申办方法、系统及介质
US20160360401A1 (en) Fingerprint based communication terminal and method, server and method thereof
CN113051601B (zh) 敏感数据识别方法、装置、设备和介质
CN113553583A (zh) 信息系统资产安全风险评估方法与装置
CN111542043B (zh) 变更手机号码的业务请求的识别方法及装置
CN108234454A (zh) 一种身份认证方法、服务器及客户端设备
CN110992155A (zh) 竞标入围处理方法及相关产品
CN117609992A (zh) 一种数据泄密检测方法、装置及存储介质
EP3451611B1 (en) Method and apparatus for setting mobile device identifier
CN117252429A (zh) 风险用户的识别方法、装置、存储介质及电子设备
CN110661913B (zh) 一种用户排序方法、装置及电子设备
CN110728585A (zh) 核保方法、装置、设备及存储介质
CN114817518B (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN114710468A (zh) 一种域名生成和识别方法、装置、设备及介质
CN114139547A (zh) 知识融合方法、装置、设备、系统及介质
CN111428251B (zh) 数据处理方法和装置
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN117742626B (zh) 一种多因素认证的云打印机访问控制方法以及相关装置
CN108924126B (zh) 骗保用户终端的鉴别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant