CN113282931A - 一种风险评估方法、装置、设备及介质 - Google Patents

一种风险评估方法、装置、设备及介质 Download PDF

Info

Publication number
CN113282931A
CN113282931A CN202110544359.5A CN202110544359A CN113282931A CN 113282931 A CN113282931 A CN 113282931A CN 202110544359 A CN202110544359 A CN 202110544359A CN 113282931 A CN113282931 A CN 113282931A
Authority
CN
China
Prior art keywords
data
information
risk
determining
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110544359.5A
Other languages
English (en)
Inventor
牟黎明
张宏
王豪
郑彬
陈磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhou Lvmeng Chengdu Technology Co ltd
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Original Assignee
Shenzhou Lvmeng Chengdu Technology Co ltd
Nsfocus Technologies Inc
Nsfocus Technologies Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhou Lvmeng Chengdu Technology Co ltd, Nsfocus Technologies Inc, Nsfocus Technologies Group Co Ltd filed Critical Shenzhou Lvmeng Chengdu Technology Co ltd
Priority to CN202110544359.5A priority Critical patent/CN113282931A/zh
Publication of CN113282931A publication Critical patent/CN113282931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • G06F21/577Assessing vulnerabilities and evaluating computer system security
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Storage Device Security (AREA)

Abstract

一种风险评估方法、装置、设备及介质,用以解决现有技术无法精准评估数据风险的问题。该方法包括:根据第一数据的第一信息确定其风险值,其中第一数据包括数据列表中的m0列数据,第一信息用于描述第一数据中
Figure DDA0003073026750000011
组数据分别的重复程度;根据第一数据的风险值确定数据列表的风险等级。采用该方法,可对第一数据进行分组,并根据每组数据的重复程度确定第一数据的风险值,进一步根据风险值确定第一数据的风险等级提,能够提高数据发现评估的准确性。

Description

一种风险评估方法、装置、设备及介质
技术领域
本申请涉及数据安全领域,尤其涉及一种风险评估方法、装置、设备及介质。
背景技术
目前,信息发布环节中的个人隐私信息保护问题一直存在。由于对于数据使用的脱敏方式不尽相同,没有一个统一的脱敏方法和脱敏标准,这就导致对于不同的数据源,不能确保脱敏后的数据是否足以达到保护用户隐私的效果,因此需要设计一套可以量化出数据风险的办法。
在现有技术中,风险评估方案大致有如下几种:
基于前后对比分析的方案,是首先替换标识符信息,即脱敏处理,再使用脱敏数据集去分析一些有用数据,同时对原数据也做同样的分析,然后把2个结果进行对比,得出风险级别。基于预设规则的方案,首先在系统内置好各类可能是准标识符属性的值,如性别(包括男或女)、地址(包括、国籍、省份或市等),出生日期(包括、年、月或日)或民族等。系统内置好这种属性的取值集合;然后对脱敏后的数据使用此数据集合来统计,统计含有这些信息的数据条数,根据数据条数来确定数据的风险级别。
以上两种方案一种是基于源数据对脱敏前后数据进行对比分析,该方案没有一个定量的分析结果且强依赖于源数据,如果无法访问到源数据,这种方式就不能评估,限制性较强。另一种则是基于预设规则的方案,该方案对所有的信息一概而论,不加区别,没有考虑到数据要关联到对应的人或事后才有敏感之分,单独的数据是没有敏感之说的,故该方案过于保守,不够精确。
因此,目前的风险评估方案不能精确地量化数据风险。
发明内容
本申请提供了一种风险评估方法、装置、设备及介质,更加精确地衡量数据列表的风险等级。
第一方面,本申请提供了一种风险评估方法,包括:
根据第一数据的第一信息确定所述第一数据的风险值,所述第一数据包括数据列表中的m0列数据,所述第一信息用于描述所述第一数据中
Figure BDA0003073026730000021
组数据分别的重复程度,其中,所述第一数据的任意一组数据包括所述第一数据中的t列数据,t是1、2……m0中的一个,m0和t为正整数,其中,第一数据包括标识符数据和/或准标识符数据;
根据所述第一数据的风险值确定所述数据列表的风险等级。
基于该方法,在确定数据列表的风险等级过程中考虑了数据列表中第一数据的列的重复程度量化数据风险值,根据第一数据的风险值确定的数据列表的风险等级能更充分的体现数据列表的风险程度,因此能够更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述根据第一数据的第一信息确定所述第一数据的风险值,包括:
根据所述第一信息和设定值确定任一组数据的第二信息,所述第二信息的大小与所述设定值的大小呈正相关,且所述第二信息的大小与所述第一信息的大小呈负相关;
根据至少两组数据的第二信息确定所述风险值。
基于该实现方式,能够根据第一信息和设定值确定任一组数据的第二信息,以根据至少两组数据的第二信息更加精确地量化第一数据的风险值,因此可以更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述设定值与最高风险等级对应的风险值有关。
基于该实现方式,能够确定更加适合的设定值来进一步精确地量化第一数据的风险值,以更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述根据至少两组数据的第二信息确定所述风险值,包括:
根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,所述第三信息的大小与m0的大小呈负相关;所述第三信息的大小与所述第二信息的大小成正相关。
根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,所述任一组数据的第四信息根据所述任一组数据对应的t确定。
基于该实现方式,能够根据第二信息和m0确定任一组数据的第三信息,并根据第三信息和第四信息更加精确地量化第一数据的风险值,因此可以更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,包括:
根据所述任一组数据的第二信息、所述第四信息和第五信息,确定所述第三信息,所述第五信息根据m0和所述任一组数据对应的t确定。
基于该实现方式,能够精确确定第三信息,以更加精确地量化第一数据的风险值,因此可以更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,包括:
根据所述设定值对所述至少两组数据中每组数据分别的所述第三信息进行归一化;
根据归一化后的所述第三信息和所述第四信息确定所述风险值。
基于该实现方式,可进一步提高根据第三信息和第四信息量化第一数据的风险值时的精确度,因此可以更加精确地衡量数据列表的风险等级。
在一种可能的实现方式中,所述根据所述第一数据的风险值确定所述数据列表的风险等级,包括:
根据第一对应关系确定所述第一数据的风险值对应的风险等级,所述第一对应关系包括风险值与风险等级之间的对应关系。
基于该实现方式,可提高根据第一数据的风险值确定数据列表的风险等级时的效率。
第二方面,基于与第一方面同样的发明构思,本申请实施例提供了一种风险评估装置,所述风险评估装置可以包括用于实现上述第一方面任一种可能实现的方式,有益效果可以参见第一方面,此处不再赘述。该风险评估装置包括:
风险值确定模块,用于根据第一数据的第一信息确定所述第一数据的风险值,所述第一数据包括数据列表中的m0列数据,所述第一信息用于描述所述第一数据中
Figure BDA0003073026730000041
组数据分别的重复程度,其中,所述第一数据的任意一组数据包括所述第一数据中的t列数据,t是1、2……m0中的一个,其中,第一数据包括标识符数据和/或准标识符数据;
风险等级确定模块,用于根据所述第一数据的风险值确定所述数据列表的风险等级。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述第一信息和设定值确定任一组数据的第二信息,所述第二信息的大小与所述设定值的大小呈正相关,且所述第二信息的大小与所述第一信息的大小呈负相关;
根据至少两组数据的第二信息确定所述风险值。
在一种可能的实现方式中,所述设定值与最高风险等级对应的风险值有关。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,所述第三信息的大小与m0的大小呈负相关;所述第三信息的大小与所述第二信息的大小成正相关。
根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,所述任一组数据的第四信息根据所述任一组数据对应的t确定。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述任一组数据的第二信息、所述第四信息和第五信息,确定所述第三信息,所述第五信息根据m0和所述任一组数据对应的t确定。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述设定值对所述至少两组数据中每组数据分别的所述第三信息进行归一化;
根据归一化后的所述第三信息和所述第四信息确定所述风险值。
在一种可能的实现方式中,风险等级确定模块具体用于:
根据第一对应关系确定所述第一数据的风险值对应的风险等级,所述第一对应关系包括风险值与风险等级之间的对应关系。
第三方面,本申请提供了一种电子设备,所述电子设备包括处理器和存储器。存储器用于存储计算机执行指令,处理器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面或第一方面任一种可能实现方式中方法的操作步骤。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行第一方面或第一方面任一种可能实现方式中方法的操作步骤。
另外,第二方面至第四方面的有益效果可以参见如第一方面所述的有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据列表;
图2为本实施例提供的一种风险评估方法的流程示意图;
图3为本实施例提供的一种风险评估装置的结构示意图;
图4为本实施例提供的另一种风险评估装置的结构示意图;
图5为本实施例提供的另一种风险评估装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了更加精确地量化数据风险,衡量数据的隐私程度,本申请实施例提供了一种风险评估方法、装置、设备及介质,在确定数据列表的风险等级过程中,考虑了数据列表中第一数据的列的重复程度量化数据风险值,根据第一数据的风险值确定的数据列表的风险等级能更充分的体现数据列表的风险程度,因此能够更加精确地衡量数据列表的风险等级。
如图1所示为一种可能的数据列表。可见,图1所示的数据列表可包括以下四种数据类型(或属性)的数据:标识符(identifier,I)属性、准标识符(quasi-identification,Q)属性、敏感属性(sensitive-attribute,SA)、非敏感属性(insensitive-attribute,ISA)。应理解,图1只是对数据列表可能的一种举例,在实际使用中,数据列表可以包括以上四种数据类型的数据中的任意一种或多种,根据需求还可包括其他的数据类型,本申请不具体限定。本申请中,可将标识符属性的数据简称为标识符数据,将准标识符属性的数据简称为准标识符数据。
其中,数据类型的确定方法可包括:
(1)在系统中内置匹配规则算法。根据算法自动对输入的数据进行分类,匹配规则根据《信息安全技术-个人信息去标识指南》中的定义进行设置。其中,标识符是指数据中一个或多个属性,可以实现对个人的信息主体的唯一识别,标识符例如是身份证号码,姓名,驾驶证号码等。准标识符,是数据中的属性,结合其它属性(如标识符或其他准标识符)可唯一识别个人信息主体,准标识符例如是性别、出生日期或年龄;敏感属性,是数据集中需要特别保护的属性,在潜在的重标识攻击期间需要防止其值与任何一个个人信息主体相关联,敏感属性例如是电话号码,疾病,家庭住址;非敏感属性,不用保护,公开后没有任何危险的数据,非敏感属性例如是数据表的标识等。
(2)安全专家对系统中匹配不准确的属性进行人工调整。
图2为本申请实施例提供的一种风险评估过程示意图,该过程包括以下步骤:
S101:根据第一数据的第一信息确定第一数据的风险值,其中,第一数据包括数据列表中的m0列数据。其中,第一信息用于描述第一数据中
Figure BDA0003073026730000071
组数据分别的重复程度。第一数据的任意一组数据(或称分组)包括第一数据中的t列数据,t是1、2……m0中的一个,第一数据包括标识符数据和/或准标识符数据。本申请中,一组数据可由t列数据组成,可称t为一组数据的维度。
结合本申请可能的数据列表,第一数据包括图1中的标识符列和/或准标识符列中的m0列数据。第一数据可表示为
Figure BDA0003073026730000072
以m0大于或等于2为例,第一数据的
Figure BDA0003073026730000073
组数据可以是将上述m0列数据进行排列组合后得到的多组数据。
结合图1,如果第一数据为标识符,即包括姓名列和身份证号码列中的数据。此时m0=2,也就是说,第一数据共有
Figure BDA0003073026730000074
组,其中,{姓名}为第一组数据,{身份证号码}为第二组数据,{姓名,身份证号码}为第三组数据。可见,第一组数据和第二组数据的维度是1,第三组数据的维度是2。
应理解,本申请中{a}表示数据列表中a列的数据,{a,b}表示数据列表中a列和b列数据的集合。
第一信息可以是每组数据重复程度信息。可选的,第i组数据的第一信息可以是第i组数据中非重复数据条数占全部数据条数的比例。例如,第一信息可以描述为
Figure BDA0003073026730000075
其中,Ti是第i组数据包括的总数据条数,Ti′第i组数据包括的总数据条数中不重复的数据条数。
仍以第一数据为图1所示的标识符为例,第一信息可以是{姓名}、{身份证号码}和{姓名,身份证号码}分别的重复程度信息的集合。其中,{姓名}、{身份证号码}和{姓名,身份证号码}分别的重复程度可表示为
Figure BDA0003073026730000081
Figure BDA0003073026730000082
其中,以第一组为例,T1是第一组包括的总数据条数,即T1是姓名列包含的数据个数,图1中应为10000;T′1是第一组包括的总数据条数中不重复的数据条数,即T′1是姓名列包含的不重复的姓名的数量。
Figure BDA0003073026730000083
Figure BDA0003073026730000084
可参照
Figure BDA0003073026730000085
确定。需要注意的是,对于类似{姓名,身份证号码}的包括多列每列的集合组数据,确定组数据中不重复的数据时需要考虑每列数据是否均重复。比如,图1中姓名列包括2个“张三”但每个“张三”的身份证号码均不同,则不认为包括“张三”的数据条数包括重复的数据条数。如果2个“张三”的身份证号码相同,则认为包括1个重复的数据条数。
可选的,在确定第一数据的多组数据分别的第一信息后,可根据第一信息的平均值或最大值确定第一数据的风险值。例如,风险值与第一信息的平均值或最大值成负相关。
同理,如果第一数据是准标识符,确定第一数据的风险值的方法可参照标确定标识符的风险值的方法,不再赘述。
S102:根据第一数据的风险值确定数据列表的风险等级。
示例性的,可以根据标识符数据的风险值和/或准标识符数据的风险值确定风险等级。也可以根据数据列表中的全部数据类型的风险值确定数据列表的风险等级。
在实际操作过程中,该过程包括但不限于根据数据列表的风险值来定义风险映射表。在具体应用时,该映射表还可以有其他表现形式,不具体限定。
其中,确定风险映射表的过程主要是根据数据的敏感程度来进行风险等级的定义。比如有10000条记录的数据列表,如果该数据列表用于存储国家机密人员的信息,那么泄漏一条就是高风险。但如果数据列表存储的是已知的公众人物,且已被公开过信息的人员的信息,那么泄漏1000条都可算低风险。所以在确定风险映射表时,可由安全专家根据数据的敏感级别进行风险等级映射表的设置。
如表1所示,表中用X1、X2和X3代表风险等级对应的风险值区间的边界数值。
风险值区间 0-X1 X1-X2 X2-X3 X3-100
风险等级 低风险 中等风险 较高风险 高风险
表1
如果数据的敏感级别较高,则X1、X2和X3的取值可以较小,则数据列表更大可能被评为较高的风险等级。如果数据的敏感级别较低,则X1、X2和X3的取值可以较大,则数据列表更大可能被评为较低的风险等级。
基于图2所示方法,本申请实施例中根据第一数据的数据列的重复程度确定第一数据的风险值,可以通过该风险值确定数据列表的风险等级,相比现有技术可以更加精确地量化数据列表的风险。
可选的,在S101中,可以根据第一信息和设定值确定任意一组数据的第二信息,第二信息的大小与设定值的大小呈正相关,且第二信息的大小与第一信息的大小呈负相关,之后根据至少两组数据的第二信息确定风险值。因此,进一步实现风险值的精确量化。
仍以图1为例,第二信息可以是根据设定值和每组数据的第一信息确定的,比如,以上第一组数据的第二信息可以是一个由设定值和第一信息整合的函数。
示例性的,第i组数据的第一信息、设定值和第二信息之间满足:
Figure BDA0003073026730000091
其中,vi是第i组数据的第二信息,i=1,
Figure BDA0003073026730000092
S是设定值。
可选的,设定值可以是与最高风险等级对应的风险值有关的值或一个固定值。
例如,设定值可以与风险映射表中最高风险等级对应的风险值有关,也可以是其他值。
如表1所示,即为一种可能的风险映射表。设定值可以是[X3,100]中的一个值;也可以是与X3和/或100有关的一个值;还可以是根据具体数据列表的敏感级别指定的一个固定值,比如,敏感级别越高,则设定值越小。
在一种可能的示例中,上述风险值可以是至少两组数据的第二信息中的最大值,例如是全部组数据分别的第二信息中的最大值。
进一步的,因为标识符数据可以实现对个人的信息主体的唯一识别,信息隐私程度较高,所以若第一数据包括标识符数据,则第一数据的风险值可直接输出为各组数据的第二信息中的最大值。也就是说,风险值与第二信息之间满足:
Figure BDA0003073026730000101
其中,R是第一数据的风险值。
在另一种可能的示例中,还可以根据任意一组数据的第二信息和m0确定该组数据的第三信息,其中,第三信息的大小与m0的大小呈负相关,第三信息的大小与该组数据的第二信息的大小成正相关;之后根据至少两组数据分别的第三信息和第四信息确定风险值,其中,任意一组数据的第四信息根据该组数据的维度t确定,以进一步提高准标识符风险值的量化精度。
示例性的,第i组数据的第四信息与该组数据的维度之间满足:
fi=e-t, (公式3)
其中,fi是第i组数据的第四信息,i=1,
Figure BDA0003073026730000102
对于任意一组数据,t是1、2……m0中的一个。
以第一数据时准标识符为例,结合图1,准标识符数据包括的各组数据和第四信息之间的对应关系如表2所示:
Figure BDA0003073026730000111
表2
其中,fi是第i组数据的第四信息。由于本表中的第一数据为图1所示的准标识符数据,故表中m0的值为3,
Figure BDA0003073026730000112
的值为7。根据公式3可知,第一数据的任意一组的维度与该组数据的第四信息的值呈正相关。
进一步的,还可以根据任一组数据的第二信息、第四信息和第五信息,确定第三信息,其中,任意一组数据的第五信息根据m0和该组数据的维度t确定。
示例性的,第i组数据的第五信息、该组数据的维度t和m0满足:
Figure BDA0003073026730000113
其中,Li是第i组数据的第五信息,i=1,
Figure BDA0003073026730000114
仍以第一数据时准标识符为例,结合图1,准标识符数据包括的各组数据与第五信息之间的对应关系表示为表3:
Figure BDA0003073026730000115
表3
其中,Li是第i组数据的第五信息。由于本表中的第一数据为图1所示的准标识符数据,故表中m0的值为3,
Figure BDA0003073026730000116
的值为7。根据公式4可知,第一数据的任意一组数据的维度的值与该组数据的第五信息的值呈负相关。
示例性的,第i组数据的第三信息、第二信息、第四信息和第五信息之间满足:
Ri=Proi×Di, (公式5)
其中,Ri是第i组数据的第三信息,i=1,
Figure BDA0003073026730000121
Proi=fi×vi, (公式6)
其中,vi是第二信息,fi是第四信息。
Di=Li×vi, (公式7)
其中,vi是第二信息,Li是第五信息。
因此,以上公式5可简化为:
Figure BDA0003073026730000122
根据公式8可知,第三信息与第二信息和m0有关。
可选的,根据至少两组数据分别的第三信息和第四信息确定风险值,包括:
根据设定值对至少两组数据中每组数据分别的第三信息进行归一化;
根据归一化后的第三信息和第四信息确定风险值。
示例性的,上述对第一数据的任意一组数据的第三信息进行归一化处理,其值可以是由第三信息和设定值确定的,第三信息、第四信息和归一化后的第三信息之间可能满足:
Figure BDA0003073026730000123
其中,R′i是第i组数据归一化后的风险值,i=1,
Figure BDA0003073026730000124
示例性的,归一化后的第三信息、第四数据和风险值的之间满足:
Figure BDA0003073026730000125
其中,R′为第一数据的风险值;R′i是第i组数据归一化后的第三信息;fi是第i组数据的第四信息。
可选的,基于上述操作,根据第一数据的风险值确定其风险等级,包括:
根据第一对应关系确定第一数据的风险值对应的风险等级,第一对应关系包括风险值与风险等级之间的对应关系。
示例性的,表1即为一种可以体现第一对应关系的风险映射表,其中,X1、X2、X3可以是给定的一个标准;参考第一对应关系,将第一数据的风险值R′与风险映射表中的风险值区间对照,得到对应的风险等级。
例如,根据以上方法,在确定图1所示的标识符的风险值后,可根据标识符的风险值查找表1确定对应的风险等级作为数据列表的风险等级。或者,在确定图1所示的准标识符的风险值后,可根据准标识符的风险值查找表1确定对应的风险等级作为数据列表的风险等级。再或者,可在确定图1所示的标识符的风险值,根据准标识符的风险值查找表1确定对应的风险等级,以及确定图1所示的准标识符的风险值后,根据准标识符的风险值查找表1确定对应的风险等级,将查表确定的更高的风险等级作为数据列表的风险等级。
可选的,标识符的风险值可根据公式2确定,准标识符的风险值可根据公式10确定。
基于与上述风险评估方法的同一构思,如图3所示,本申请提供了一种具有风险评估功能的装置200。装置200能够执行上述方法中风险评估系统执行的各个步骤,为了避免重复,此处不再详述。装置200包括:风险值确认模块201、风险等级确认模块202。
风险值确定模块,用于根据第一数据的第一信息确定所述第一数据的风险值,所述第一数据包括数据列表中的m0列数据,所述第一信息用于描述所述第一数据中
Figure BDA0003073026730000131
组数据分别的重复程度,其中,所述第一数据的任意一组数据包括所述第一数据中的t列数据,t是1、2……m0中的一个,其中,第一数据包括标识符数据和/或准标识符数据;
风险等级确定模块,用于根据所述第一数据的风险值确定所述数据列表的风险等级。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述第一信息和设定值确定任一组数据的第二信息,所述第二信息的大小与所述设定值的大小呈正相关,且所述第二信息的大小与所述第一信息的大小呈负相关;
根据至少两组数据的第二信息确定所述风险值。
在一种可能的实现方式中,所述设定值与最高风险等级对应的风险值有关。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,所述第三信息的大小与m0的大小呈负相关;所述第三信息的大小与所述第二信息的大小成正相关。
根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,所述任一组数据的第四信息根据所述任一组数据对应的t确定。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述任一组数据的第二信息、所述第四信息和第五信息,确定所述第三信息,所述第五信息根据m0和所述任一组数据对应的t确定。
在一种可能的实现方式中,风险值确定模块具体用于:
根据所述设定值对所述至少两组数据中每组数据分别的所述第三信息进行归一化;
根据归一化后的所述第三信息和所述第四信息确定所述风险值。
在一种可能的实现方式中,风险等级确定模块具体用于:
根据第一对应关系确定所述第一数据的风险值对应的风险等级,所述第一对应关系包括风险值与风险等级之间的对应关系。
图4示出了本申请实施例提供的一种风险评估系统对应的电子设备结构示意图。
本申请实施例中的电子设备可包括处理器301是电子设备的控制中心,可以利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器302内的指令以及调用存储在存储器302内的数据。可选的,处理器301可包括一个或多个处理单元,处理器301可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。在一些实施例中,处理器301和存储器302可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
处理器301可以是通用处理器,例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的风险评估系统台所执行的步骤可以直接由硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
在本申请实施例中,存储器302存储有可被至少一个处理器301执行的指令,至少一个处理器301通过执行存储器302存储的指令,可以用于执行前述风险评估系统所执行的步骤。
存储器302作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器302可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器302是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本申请实施例中的存储器302还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本申请实施例中,该电子设备300还可以包括通信接口303,该通信接口303例如是网口,电子设备可以通过该通信接口303传输数据,例如接收网络设备的风险值。
应理解,可通过图4所示电子设备300实现图3所示装置200。例如,由图4所示处理器301实现图3所示的风险值确定模块201和/或风险等级确定模块202,或者说,由处理器301执行图3所示的风险值确定模块201和/或风险等级确定模块202所执行的步骤。
另外如图5所示,本申请实施例提供的另一种装置可包括预处理模块、标识符风险评估模块、准标识符风险评估模块和总风险评估模块。
其中,预处理模块用于根据系统中内置匹配规则算法将待评估的数据集进行属性标注,同时对匹配不准确的数据属性进行人工标注,分别标注为标识符、准标识符、敏感属性、非敏感属性,系统根据标注的属性自动进行分类处理,例如,把同一类别的属性加入一个列表。标识符风险评估模块用于对标识符数据进行风险评估,确定标识符数据的风险值,如果风险值对应的风险等级为高风险,则直接返回数据列表的风险等级评估结果为高风险;如果风险值对应的风险等级为低风险(或者,风险值对应的风险等级不是高风险),则继续对准标识符数据进行评估。准标识符评估模块用于对准标识符数据进行风险评估,首先自动对准标识符数据进行排列组合,获得数据分组,然后分别计算出每个分组的第三信息,对其进行归一化处理并综合确定准标识符数据的风险值。总风险评估模块用于根据标识符数据的风险值和准标识符数据的风险值评估数据列表的风险等级,并给出评定结果。
基于相同的发明构思,本申请实施例还提供一种计算机可读存储介质,其中可存储有指令,当该指令在计算机上运行时,使得计算机执行上述方法实施例提供的操作步骤。该计算机可读存储介质可以是图4所示的存储器302。
由于本申请实施例中文件服务器获取到了扫描设备的脚本文件,可以通过该脚本文件确定保存的文件的目标文件类型,在确定该文件的校验值,并在确定扫描设备中不保存校验值后,根据预先保存的敏感文件识别规则,确定文件是否为敏感文件。从而实现了文件服务器能够基于扫描设备发送的脚本文件,确定该文件是否为敏感文件,降低敏感文件泄露的风险。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种风险评估方法,其特征在于,所述方法包括:
根据第一数据的第一信息确定所述第一数据的风险值,所述第一数据包括数据列表中的m0列数据,所述第一信息用于描述所述第一数据中
Figure FDA0003073026720000011
组数据分别的重复程度,其中,所述第一数据的任意一组数据包括所述第一数据中的t列数据,t是1、2……m0中的一个,m0和t为正整数,其中,第一数据包括标识符数据和/或准标识符数据;
根据所述第一数据的风险值确定所述数据列表的风险等级。
2.如权利要求1所述的方法,其特征在于,所述根据第一数据的第一信息确定所述第一数据的风险值,包括:
根据所述第一信息和设定值确定任意一组数据的第二信息,所述第二信息的大小与所述设定值的大小呈正相关,且所述第二信息的大小与所述第一信息的大小呈负相关;
根据至少两组数据的第二信息确定所述风险值。
3.如权利要求2所述的方法,其特征在于,所述设定值与最高风险等级对应的风险值有关。
4.如权利要求2所述的方法,其特征在于,所述根据至少两组数据的第二信息确定所述风险值,包括:
根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,所述第三信息的大小与m0的大小呈负相关,所述第三信息的大小与所述第二信息的大小成正相关;
根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,所述任一组数据的第四信息根据所述任一组数据对应的t确定。
5.如权利要求4所述的方法,其特征在于,所述根据所述至少两组数据中任一组数据的第二信息和m0确定所述任一组数据的第三信息,包括:
根据所述任一组数据的第二信息、所述第四信息和第五信息,确定所述第三信息,所述第五信息根据m0和所述任一组数据对应的t确定。
6.如权利要求4所述的方法,其特征在于,所述根据所述至少两组数据分别的第三信息和第四信息确定所述风险值,包括:
根据所述设定值对所述至少两组数据中每组数据分别的所述第三信息进行归一化;
根据归一化后的所述第三信息和所述第四信息确定所述风险值。
7.如权利要求1-6中任一所述的方法,其特征在于,所述根据所述第一数据的风险值确定所述数据列表的风险等级,包括:
根据第一对应关系确定所述第一数据的风险值对应的风险等级,所述第一对应关系包括风险值与风险等级之间的对应关系。
8.一种风险识别装置,其特征在于,所述装置包括:
风险值确定模块,用于根据第一数据的第一信息确定所述第一数据的风险值,所述第一数据包括数据列表中的m0列数据,所述第一信息用于描述所述第一数据中
Figure FDA0003073026720000021
组数据分别的重复程度,其中,所述第一数据的任意一组数据包括所述第一数据中的t列数据,t是1、2……m0中的一个,其中,第一数据包括标识符数据和/或准标识符数据;
风险等级确定模块,用于根据所述第一数据的风险值确定所述数据列表的风险等级。
9.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7中任一所述方法的步骤。
CN202110544359.5A 2021-05-19 2021-05-19 一种风险评估方法、装置、设备及介质 Pending CN113282931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110544359.5A CN113282931A (zh) 2021-05-19 2021-05-19 一种风险评估方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110544359.5A CN113282931A (zh) 2021-05-19 2021-05-19 一种风险评估方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113282931A true CN113282931A (zh) 2021-08-20

Family

ID=77279906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110544359.5A Pending CN113282931A (zh) 2021-05-19 2021-05-19 一种风险评估方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113282931A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492435A (zh) * 2019-01-10 2019-03-19 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
CN110502924A (zh) * 2019-08-23 2019-11-26 恩亿科(北京)数据科技有限公司 一种数据脱敏方法、数据脱敏装置及可读存储介质
WO2020192007A1 (zh) * 2019-03-28 2020-10-01 平安科技(深圳)有限公司 数据脱敏方法和相关装置
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492435A (zh) * 2019-01-10 2019-03-19 贵州财经大学 基于数据开放共享的隐私泄露风险评估方法、装置及系统
WO2020192007A1 (zh) * 2019-03-28 2020-10-01 平安科技(深圳)有限公司 数据脱敏方法和相关装置
CN110502924A (zh) * 2019-08-23 2019-11-26 恩亿科(北京)数据科技有限公司 一种数据脱敏方法、数据脱敏装置及可读存储介质
CN111737750A (zh) * 2020-06-30 2020-10-02 绿盟科技集团股份有限公司 一种数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈磊 等: "基于信息熵的数据集重标识风险评估方法", 世界信息安全大会, 31 December 2020 (2020-12-31), pages 1 - 7 *

Similar Documents

Publication Publication Date Title
CN110222170B (zh) 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN112541745B (zh) 用户行为数据分析方法、装置、电子设备及可读存储介质
CN111523678B (zh) 业务的处理方法、装置、设备及存储介质
US20190228183A1 (en) Method and apparatus for de-identification of personal information
CN109271611B (zh) 一种数据校验方法、装置及电子设备
CN110245714B (zh) 图像识别方法、装置及电子设备
CN112560453A (zh) 语音信息校验方法、装置、电子设备及介质
CN113642030B (zh) 敏感数据多层识别方法
US20210279367A1 (en) System and method for objective quantification and mitigation of privacy risk
US11972023B2 (en) Compatible anonymization of data sets of different sources
CN114265740A (zh) 错误信息处理方法、装置、设备及存储介质
CN116189215A (zh) 自动审核方法、装置、电子设备及存储介质
CN117540390A (zh) 数据评估方法、装置和服务器
CN111402068B (zh) 基于大数据的保费数据分析方法、装置及存储介质
CN113157671A (zh) 一种数据监控方法及装置
CN117132317A (zh) 数据处理方法、装置、设备、介质及产品
CN111275071A (zh) 预测模型训练、预测方法、装置及电子设备
CN113282931A (zh) 一种风险评估方法、装置、设备及介质
CN114238280B (zh) 构建金融敏感信息标准库的方法、装置及电子设备
CN117172851A (zh) 一种互联网广告效果的评估方法、装置及电子设备
CN115544976A (zh) 招标报名信息处理方法、装置和系统
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN111966935B (zh) 信息预加载方法、装置、计算机设备和存储介质
CN110765118B (zh) 一种数据的修订方法、修订装置及可读存储介质
CN113642309B (zh) 数据对比方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination