CN113065126B - 基于分布式数据沙盒的个人信息合规的方法和装置 - Google Patents

基于分布式数据沙盒的个人信息合规的方法和装置 Download PDF

Info

Publication number
CN113065126B
CN113065126B CN202110616687.1A CN202110616687A CN113065126B CN 113065126 B CN113065126 B CN 113065126B CN 202110616687 A CN202110616687 A CN 202110616687A CN 113065126 B CN113065126 B CN 113065126B
Authority
CN
China
Prior art keywords
personal information
data
compliance
sandbox
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110616687.1A
Other languages
English (en)
Other versions
CN113065126A (zh
Inventor
王文宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shuanhang Technology Co ltd
Original Assignee
Beijing Shuanhang Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shuanhang Technology Co ltd filed Critical Beijing Shuanhang Technology Co ltd
Priority to CN202110616687.1A priority Critical patent/CN113065126B/zh
Publication of CN113065126A publication Critical patent/CN113065126A/zh
Application granted granted Critical
Publication of CN113065126B publication Critical patent/CN113065126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于分布式数据沙盒的个人信息合规的方法和装置。管理员通过人工智能对大数据进行一级分类,从大数据中获得归属于个人信息类的数据并建立个人信息类的数据特征。通过人工智能分析和分布式数据沙盒对个人信息类的数据进行个人信息类的详细数据特征分析,快速从大规模的多类型的大数据中获得详细个人信息类的数据特征。进一步地,通过分布式数据沙盒和管理员所掌握的详细个人信息的数据特征,可进一步完成大数据的个人信息的合规,包括个人信息的分布合规、个人信息的共享计算合规。本申请解决了大数据相关技术中个人信息合规所要求的分布、共享计算的技术问题。

Description

基于分布式数据沙盒的个人信息合规的方法和装置
技术领域
本申请涉及信息安全领域,具体而言,涉及一种基于分布式数据沙盒的个人信息合规的方法和装置。
背景技术
在大数据中,数据具有规模大、多样性、响应速度要求高以及数据价值量高的特征。在当今大数据广泛应用、个人信息合规成为各方关注的重点的背景下,如何让个人信息在发挥数据价值的前提下保证合规是非常关键的。
传统安全手段重在边界防护或者静态存储防护,没有对大数据特性下的个人信息合规,企业管理者要获得大数据的价值的同时,保障个人信息合规,并没有有效的手段。
针对上述的问题,目前尚未提出有效的解决思路。
发明内容
本申请实施例提供了一种基于分布式数据沙盒的个人信息合规的方法和装置,以至少解决相关技术中不能对大数据中的个人信息合规的技术问题。
根据本申请实施例的一个方面,提供了一种基于分布式数据沙盒的个人信息合规的方法,包括:
1)通过人工智能技术对大数据进行一级分类,一级分类是从包含多种分类的大数据中,提取归属于个人信息类的数据(即在一堆各种各样的数据中,有的数据属于个人信息,有的数据属于企业商业信息等。一级分类即从概念上,做了一个分类,个人信息类,就是这里说的个人信息类的数据),并对个人信息类的数据建立个人信息类的数据特征。其中,个人信息类的数据特征,不包含个人信息的原始数据或属性,个人信息类的数据特征只有分布式数据沙盒用于个人信息的合规分析,除分布式数据沙盒以外的任意组件均无法通过个人信息类的数据特征推演出个人信息类的原始数据或属性;
2)通过分布式数据沙盒,以个人信息类的数据为依据,对个人信息类的数据进行详细个人信息类的数据特征分析,将大数据中归属于个人信息类的数据,进行分布式的快速的数据特征分析,获得所有的详细个人信息数据特征(即详细个人信息类的数据特征)。其中,分布式数据沙盒所获得的所有的详细个人信息数据特征,是通过对详细个人信息原始数据的人工智能分析所提取的数据特征,不包含个人信息的原始数据或属性。详细个人信息数据特征,只有分布式数据沙盒可用于进一步的个人信息合规处理,除分布式数据沙盒外的任意组件均无法通过信息个人信息类的数据特征推演出个人信息类的原始数据或属性;
3)根据个人信息类的数据特征与详细个人信息类的数据特征,获得大数据中个人信息的合规分布基线和个人信息的实际分布,个人信息的实际分布包括个人信息类的数据的详情、合规存储详情、违规存储详情;
4)通过分布式数据沙盒,获得大数据中的个人信息共享计算合规。计算用户具有使用大数据中的个人信息进行计算的权限,计算过程在数据沙盒(即分布式数据沙盒)中完成,计算完成后,所获得的计算结果需要基于个人信息的合规分布基线对计算结果进行合规检查。检查结果未涉及个人信息的个体特征,允许计算用户从数据沙盒导出计算结果,反之,计算用户应将计算结果交付到分布式数据沙盒做进一步的人工智能处理,消除个人信息的个体特征后,从分布式数据沙盒中导出新的计算结果;
5)多类型的大数据,包括结构化数据、半结构化数据和非结构化数据;大数据的形态可以是数据流、数据片段和各种文档;
6)详细个人信息类的数据特征,包括以下属性的个人信息数据特征:标识个人基本属性的数据特征、标识个人家庭属性的数据特征、标识个人生物特性的数据特征、标识个人网络属性的数据特征、标识个人财产属性的数据特征以及标识个人社会关系属性的数据特征。
可选地,个人信息类的数据特征和详细个人信息类的数据特征,是由人工智能分析获得的特征,特征是个人信息的表现,但不可见个人信息的原始数据或属性。
可选地,分布式的快速的数据特征分析,获得所有的详细个人信息数据特征是通过动态启用数据沙盒方式自动完成。分布式数据沙盒自动探测大数据中个人信息类的数据总体量,依据总体量的量级启用多个分布式数据沙盒,同时对大数据中的详细个人信息数据特征进行获取。
可选地,分布式数据沙盒,是从同一操作系统环境或不同操作系统环境中建立的虚拟的安全计算空间域,分为一级数据沙盒和二级分布式数据沙盒。其中不同的二级分布式数据沙盒的安全空间域之间是互相隔离(如物理隔离)的,二级分布式数据沙盒可与一级数据沙盒进行数据交换。二级分布式数据沙盒获得的结果统一提交至一级数据沙盒,一级数据沙盒经过数据汇聚后输出总结果。
可选地,个人信息的合规分布基线是通过对大数据中整体的数据分布进行人工智能分析,自动建立个人信息的合规分布基线。个人信息的合规分布基线,用于进一步识别个人信息的违规存储分布,以及个人信息的共享计算合规。
可选地,个人信息类的数据的详情包括个人信息类的总量(以字节计)、详细个人信息类的数据特征的总量(各属性以记录数计,同时以字节计)、个人信息类的数据与详细个人信息类的数据特征的关联映射关系。
可选地,个人信息类的合规存储详情是依据包括合规存储的个人信息类的总量(以字节计)、合规存储的详细个人信息类的数据特征的总量(各属性以记录数计,同时以字节计)、个人信息类的数据与合规存储的详细个人信息类的数据特征的关联映射关系。
可选地,个人信息类的违规存储详情包括违规存储的个人信息类的总量(以字节计)、违规存储的详细个人信息类的数据特征的总量(各属性以记录数计,同时以字节计)、个人信息类的数据与违规存储的详细个人信息类的数据特征的关联映射关系。
根据本申请实施例的另一方面,还提供了一种基于分布式数据沙盒的个人信息合规装置,包括:人工智能分析模块,用于对大数据中的个人信息类的数据特征、详细个人信息的数据特征进行分析,与分布式数据沙盒模块协作,获得个人信息类的分布;分布式数据沙盒模块,用于根据大数据的个人信息类的数据特征、详细个人信息类的数据特征为个人信息共享计算合规动态的建立双层多个分布式数据沙盒,进行同步的数据处理;个人信息交互模块,用于展示个人信息类的分布状态以及个人信息共享计算的处理结果。
根据本申请实施例的另一方面,还提供了一种基于分布式数据沙盒的个人信息合规系统,包括:人工智能分析子系统,用于对大数据、大数据中的个人信息类的数据特征、详细个人信息类的数据特征进行人工智能分析,与分布式数据沙盒模块协作,获得详细个人信息的分布;个人信息合规处理子系统,用于个人信息合规的快速的分布式处理;个人信息合规交互平台,用于展示个人信息类的分布状态以及个人信息共享计算的结果。
采用本申请的技术方案,可实现如下效果:
第一,在人工智能分析子系统中,管理员通过人工智能分析子系统对大数据和大数据中的个人信息类进行自动的分析和择取,获得个人信息类的数据特征、详细个人信息类的数据特征并对数据特征进行进一步的分析;第二,在个人信息合规处理子系统中,建立个人信息类的总体、违规等分布;第三,在个人信息合规处理子系统中,对计算用户发起的个人信息计算请求进行快速响应,并对计算结果的合规输出进行合规检查;第四,对在个人信息合规交互平台中,展示个人信息类的分布状态以及个人信息共享计算的处理结果。
通过这些合规技术,一方面保证企业管理者控制个人信息的合规;另一方面用户在使用个人信息时,不影响用户的业务,在保证个人信息合规的同时,让用户继续使用数据创造价值。和相关技术相比,本申请的优势在于:
本申请基于人工智能分析,可帮助企业从大量数据中识别个人信息的数据特征,自动进行分类以及识别详细个人信息的数据特征、建立个人信息的合规分布式基线和个人信息的详细分布。个人信息的分类、详细个人信息的数据特征的识别涵盖对结构化数据、半结构化数据、非结构化数据的人工智能分析,数据形态可以是数据流、数据片段和各种文档。计算用户使用大数据中的个人信息数据,能够让计算用户快速获得个人信息相关的合规的结果。本申请在识别个人信息类数据、详细个人信息数据方面实现智能化,极大的方便管理者有针对性的关注个人信息;在个人信息的识别方面,支持所有格式的数据的识别,真正形成详细个人信息的数据特征,解决企业对个人信息的合规问题,帮助管理者掌握个人信息的总体状态,并让计算用户获得快速的个人信息处理诉求。可以解决相关技术中不能实现个人信息合规的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于分布式数据沙盒的个人信息合规系统的示意图;
图2是根据本申请实施例的一种可选的人工智能分析个人信息数据特征的流程图;
图3是根据本申请实施例的一种可选的分布式数据沙盒动态启用的流程图;
图4是根据本申请实施例的一种可选的个人信息违规分布处理的流程图;以及,
图5是根据本申请实施例的一种可选的个人信息共享计算合规处理的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
发明人经过对相关技术进行分析认识到:随着数字化转型的推进,企业需要充分发挥数据自身的价值,包括个人信息自身的价值发挥,相应的,数据的使用频率大大提升,业务范围扩大化,同时,大数据本身具有数据量大、数据多样、数据价值高度汇集的特点,让大数据中的个人信息既创造价值,又保证个人信息的合规显得尤为重要,这也成为企业管理者亟需解决的问题。尤其是包含个人信息的数据,这些个人相关数据是否合规,企业管理者如果一直没有掌控方法,这对企业发展是极大的考验。针对个人信息合规,各企业采取了不同的措施,主要可分为三类:
1)不清楚哪些数据是个人信息的数据,为了保证个人信息的合规,先将个人信息封存起来,不给员工使用,这种措施下,企业数据本身的价值得不到利用,对于企业来讲是严重的成本消耗,数据只有使用才能发挥价值,封存数据对企业来讲不是长久之计;2)为了发挥个人信息的价值,不关注个人信息的合规,直接让员工使用数据,这种措施下,企业对个人信息失去掌控,而目前个人信息合规是立法的要求;3)尝试从传统的安全手段中选择合规方法,如上所述,传统的安全手段不能完成个人信息的合规,企业管理者找不到合适的方法实现业务上的诉求,因此,基于分布式数据沙盒的个人信息合规,是传统企业和数字化转型企业获得个人信息在合规的前提下创造价值的重要手段。
基于数据量大、数据格式多样、数据内容丰富以及数据价值高的特点,决定了大数据中个人信息合规具有其特殊性。相关技术中,对大数据个人信息合规,具有以下局限性:
1)通过人工识别哪些是个人信息类的数据,这对少量数据可行,但数据量大,人工无法完成;2)借助通过正则表达式等常规手段识别个人信息,这对内容简单的数据可行,但数据内容多、丰富,这种方法的可靠性没有保障;3)个人信息本身具有多样性,通过人工建立各种属性的个人信息之间的关联,是无法完成的;4)个人信息相关的数据比较分散,管理者很难掌控这个个人信息在哪里;5)大数据中蕴含很高的价值,在共享给用户计算分析时,需要保证在个人信息合规的前提下使用,不可直接共享;6)大数据中个人信息量巨大,获得计算结果是很耗时的工作,而且计算结果是否保证输出结果是符合个人信息合规的要求,是未知的。
本申请在保证个人信息合规的前提下,让企业可以快速的获得个人信息的价值利用。对个人信息的识别、关联,是由人工智能自动完成,不需要用户手动参与。本申请对所有结构化数据、半结构化数据、非结构化数据进行分析和映射,数据形态涵盖数据流、数据片段和各种文档。本申请在实现个人信息合规的同时,让用户充分的发挥数据的价值。
如图1所示,为基于分布式数据沙盒的个人信息合规系统中组成单元示意图。本申请提供了一种基于分布式数据沙盒的个人信息合规系统,包括:
个人信息合规交互平台包括:一级个人信息类展示单元:用于展示个人信息类的一级分类统计;详细个人信息的数据特征展示单元:用于展示详细个人信息的数据特征;个人信息分布展示单元:用于展示个人信息类的分布,包括总体分布、合规分布和违规分布;个人信息共享计算交互单元:用于计算用户向管理员发起共享计算的请求,并对请求完成后的处理结果进行查看或确认、输出。
人工智能分析子系统包括:一级个人信息类数据特征分析单元:由管理员发起分析一类个人信息类的任务,将大数据中属于个人信息类的数据进行统计,获得一级个人信息类的数据特征;详细个人信息类数据特征分析单元:管理员将一级个人信息类的数据作为依据,发起分析详细个人信息类数据特征的任务,获得详细个人信息类数据特征,不管数据本身是结构化数据、半结构化数据还是非结构化数据,不管形态是数据流、数据片段和各种文档,详细个人信息类数据特征分析单元都能通过人工智能分析获得数据特征。
个人信息合规处理子系统包括:个人信息分布处理单元:当管理员发起个人信息分布处理任务时,自动分析大数据中个人信息的分布总况、合规分布详情、违规分布详情等,并将处理结果传至个人信息合规交互单元;个人信息合规计算单元:当计算用户使用个人信息的数据进行计算时,个人信息不需要交付给计算用户的前提下,让计算用户获得计算输出。
将个人信息合规交互平台、人工智能分析子系统、个人信息合规处理子系统分别安装在不同的计算机中。其中,个人信息合规交互平台安装到中心计算机上由管理员控制,人工智能分析子系统、个人信息合规处理子系统安装到用户计算中心计算机中。下面详细说明基于分布式数据沙盒的个人信息合规系统的工作方法。
第一,自动获取个人信息类数据特征。
管理员通过人工智能分析子系统和个人信息合规处理子系统,获得一级个人信息类数据特征、详细个人信息类数据特征。如图2所示,工作方法步骤如下:
步骤201,管理员启动人工智能分析子系统的分析任务。
步骤202,通过个人信息合规处理子系统和个人信息合规处理子系统,自动获得大数据中的一级个人信息类的数据特征。
步骤203,管理员再次启动人工智能分析子系统的分析任务。
步骤204,通过人工智能分析子系统和个人信息合规处理子系统,自动依据一级个人信息类的数据,获得详细个人信息类数据特征。
获得详细个人信息数据特征是通过动态启用数据沙盒方式自动完成,如图3所示:
步骤301,一级分布式数据沙盒自动计算个人信息数据。
步骤302,根据个人信息数据量自动启动多个二级分布式数据沙盒。
步骤303,一级分布式数据沙盒自动计算详细个人信息数据。
步骤304,根据详细个人信息数据自动启动多个二级分布式数据沙盒。
步骤305,提取已有数据的数据特征。
第二,个人信息违规分布。
用户的目标数据是个人信息,人工智能分析子系统和个人信息合规处理子系统对个人信息违规分布进行自动分析。个人信息数据可以是结构化数据、半结构化数据、非结构化数据;个人信息数据形态可以是数据流、数据片段和各种文档。如图4所示的个人信息违规分布处理流程:
步骤401,建立个人信息数据分布的基线。
步骤402,获取个人信息数据的总分布。
步骤403,计算当前个人信息数据的合规分布。
步骤404,综合上述信息,通过人工智能子系统自动分析计算当前个人信息数据的违规分布。
第四,个人信息共享计算合规。
计算用户通过个人信息合规处理子系统进行个人信息的计算。如图5所示的共享计算合规处理流程:
步骤501,计算用户通过个人信息合规处理子系统,获得大数据中的个人信息数据。
步骤502,计算用户启动计算过程。
步骤503,通过个人信息合规处理子系统执行计算过程并生成计算结果。
步骤504,通过个人信息合规处理子系统再次检查计算结果是否合规,如果合规执行步骤505,否则执行步骤503。
步骤505,允许计算用户导出计算结果。
步骤506,计算用户获得计算结果。
根据本申请实施例的另一个方面,还提供了一种用于实施上述方法的装置。该装置可以包括:人工智能分析模块,用于对大数据中的个人信息类的数据特征、详细个人信息的数据特征进行分析,与分布式数据沙盒模块协作,获得详细个人信息的数据特征及个人信息类的分布;分布式数据沙盒模块,用于根据大数据的个人信息类的数据量、详细个人信息类的数据特征量、个人信息共享计算合规动态的建立双层多个分布式数据沙盒,进行同步的数据处理;个人信息交互模块,用于展示个人信息类的分布状态以及个人信息共享计算的处理结果。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (6)

1.一种基于分布式数据沙盒的个人信息合规的方法,用于在保证个人信息合规的前提下,让企业快速的获得个人信息的价值利用,其特征在于,包括:
通过人工智能技术对大数据进行一级分类,以获得归属于个人信息类的数据,并从所述个人信息类的数据中提取归属于个人信息类的数据特征;
通过人工智能分析和分布式数据沙盒对所述个人信息类的数据进行二级分类,以获得详细个人信息类的数据特征,包括:通过所述分布式数据沙盒自动探测大数据中所述个人信息类的数据的总体量,依据总体量的量级启用多个分布式数据沙盒,以同时对大数据中的所述详细个人信息类的数据特征进行提取;其中,所述分布式数据沙盒是从同一操作系统环境或不同操作系统环境中建立的虚拟的安全计算空间域,所述分布式数据沙盒分为一级分布式数据沙盒和二级分布式数据沙盒,不同的二级分布式数据沙盒的安全空间域之间是互相隔离的,二级分布式数据沙盒可与一级分布式数据沙盒进行数据交换,二级分布式数据沙盒获得的结果统一提交至一级分布式 数据沙盒,由一级分布式 数据沙盒经过数据汇聚后输出总结果;
其中,所述个人信息类的数据特征不包含个人信息的原始数据或属性、仅用于所述分布式数据沙盒进行所述大数据的个人信息的合规分析,除所述分布式数据沙盒以外的组件均无法通过所述个人信息类的数据特征推演出个人信息类的原始数据或属性;所述分布式数据沙盒所获得的所有的所述详细个人信息类的数据特征不包含个人信息的原始数据或属性、仅用于所述分布式数据沙盒进行个人信息合规处理,除所述分布式数据沙盒以外的组件均无法通过所述详细个人信息类的数据特征推演出个人信息类的原始数据或属性;
通过所述分布式数据沙盒所掌握的所述个人信息类的数据特征和所述详细个人信息类的数据特征,完成所述大数据的个人信息的合规,所述个人信息的合规包括个人信息的分布合规和个人信息的共享计算合规;
所述通过所述分布式数据沙盒所掌握的所述个人信息类的数据特征和详细个人信息的数据特征,完成所述大数据的个人信息的合规包括:
根据所述个人信息类的数据特征和所述详细个人信息类的数据特征,获得所述大数据中个人信息的合规分布基线和个人信息的实际分布,个人信息的实际分布包括所述个人信息类的数据的详情、合规存储详情以及违规存储详情;
通过所述分布式数据沙盒,获得大数据中的个人信息共享计算合规,用户具有使用大数据中的个人信息进行计算的权限,计算过程在所述分布式数据沙盒中完成,计算完成后,利用基于个人信息的合规分布基线对计算结果进行合规检查,若检查结果表明结算结果未涉及个人信息的个体特征,则允许用户直接从所述分布式数据沙盒中导出计算结果,若检查结果表明结算结果涉及个人信息的个体特征,则由所述分布式数据沙盒做进一步地人工智能处理,以消除个人信息的个体特征后,从所述分布式数据沙盒中导出新的计算结果;
所述个人信息的合规分布基线是通过对大数据中整体的数据分布进行人工智能分析后自动建立的、用于识别个人信息的违规存储分布和个人信息的共享计算合规。
2.根据权利要求1所述的方法,其特征在于,所述大数据包含多种分类的大数据,所述多种分类的大数据包括结构化数据、半结构化数据以及非结构化数据;所述大数据的形态包括数据流、数据片段以及各种格式的文档。
3.根据权利要求1所述的方法,其特征在于,
所述详细个人信息类的数据特征包括以下属性的个人信息数据特征:标识个人基本属性的数据特征、标识个人家庭属性的数据特征、标识个人生物特性的数据特征、标识个人网络属性的数据特征、标识个人财产属性的数据特征以及标识个人社会关系属性的数据特征;
所述个人信息类的数据特征和所述详细个人信息类的数据特征,是由人工智能分析获得的特征、是个人信息的表现、但不可见个人信息的原始数据或属性。
4.根据权利要求1所述的方法,其特征在于,
所述个人信息类的数据的详情包括个人信息类的数据总量、所述详细个人信息类的数据特征的总量以及所述个人信息类的数据与所述详细个人信息类的数据特征的关联映射关系。
5.根据权利要求1所述的方法,其特征在于,
所述个人信息类的合规存储详情包括合规存储的个人信息类的数据总量、合规存储的所述详细个人信息类的数据特征的总量以及合规存储的所述个人信息类的数据与所述详细个人信息类的数据特征的关联映射关系;
所述个人信息类的违规存储详情包括违规存储的个人信息类的数据总量、违规存储的所述详细个人信息类的数据特征的总量以及违规存储的所述个人信息类的数据与所述详细个人信息类的数据特征的关联映射关系。
6.一种基于分布式数据沙盒的个人信息合规的装置,用于在保证个人信息合规的前提下,让企业快速的获得个人信息的价值利用,其特征在于,包括:
人工智能分析模块,用于对大数据中的个人信息类的数据特征、详细个人信息类的数据特征进行分析,与分布式数据沙盒模块协作,获得详细个人信息的分布;
分布式数据沙盒模块,用于根据大数据的个人信息类的数据量、详细个人信息类的数据特征量、个人信息共享计算合规的建立双层多个分布式数据沙盒,进行同步的数据处理;通过所述分布式数据沙盒自动探测大数据中所述个人信息类的数据的总体量,依据总体量的量级启用多个分布式数据沙盒,以同时对大数据中的所述详细个人信息类的数据特征进行提取;其中,所述分布式数据沙盒是从同一操作系统环境或不同操作系统环境中建立的虚拟的安全计算空间域,所述分布式数据沙盒分为一级分布式数据沙盒和二级分布式数据沙盒,不同的二级分布式数据沙盒的安全空间域之间是互相隔离的,二级分布式数据沙盒可与一级分布式数据沙盒进行数据交换,二级分布式数据沙盒获得的结果统一提交至一级分布式 数据沙盒,由一级分布式 数据沙盒经过数据汇聚后输出总结果;
其中,所述个人信息类的数据特征不包含个人信息的原始数据或属性、仅用于所述分布式数据沙盒进行所述大数据的个人信息的合规分析,除所述分布式数据沙盒以外的组件均无法通过所述个人信息类的数据特征推演出个人信息类的原始数据或属性;所述分布式数据沙盒所获得的所有的所述详细个人信息类的数据特征不包含个人信息的原始数据或属性、仅用于所述分布式数据沙盒进行个人信息合规处理,除所述分布式数据沙盒以外的组件均无法通过所述详细个人信息类的数据特征推演出个人信息类的原始数据或属性;
个人信息交互模块,用于展示个人信息类的分布状态以及个人信息共享计算的处理结果,通过所述分布式数据沙盒所掌握的所述个人信息类的数据特征和所述详细个人信息类的数据特征,完成所述大数据的个人信息的合规,所述个人信息的合规包括个人信息的分布合规和个人信息的共享计算合规;
所述通过所述分布式数据沙盒所掌握的所述个人信息类的数据特征和详细个人信息的数据特征,完成所述大数据的个人信息的合规包括:
根据所述个人信息类的数据特征和所述详细个人信息类的数据特征,获得所述大数据中个人信息的合规分布基线和个人信息的实际分布,个人信息的实际分布包括所述个人信息类的数据的详情、合规存储详情以及违规存储详情;
通过所述分布式数据沙盒,获得大数据中的个人信息共享计算合规,用户具有使用大数据中的个人信息进行计算的权限,计算过程在所述分布式数据沙盒中完成,计算完成后,利用基于个人信息的合规分布基线对计算结果进行合规检查,若检查结果表明结算结果未涉及个人信息的个体特征,则允许用户直接从所述分布式数据沙盒中导出计算结果,若检查结果表明结算结果涉及个人信息的个体特征,则由所述分布式数据沙盒做进一步地人工智能处理,以消除个人信息的个体特征后,从所述分布式数据沙盒中导出新的计算结果;
所述个人信息的合规分布基线是通过对大数据中整体的数据分布进行人工智能分析后自动建立的、用于识别个人信息的违规存储分布和个人信息的共享计算合规。
CN202110616687.1A 2021-06-03 2021-06-03 基于分布式数据沙盒的个人信息合规的方法和装置 Active CN113065126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110616687.1A CN113065126B (zh) 2021-06-03 2021-06-03 基于分布式数据沙盒的个人信息合规的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110616687.1A CN113065126B (zh) 2021-06-03 2021-06-03 基于分布式数据沙盒的个人信息合规的方法和装置

Publications (2)

Publication Number Publication Date
CN113065126A CN113065126A (zh) 2021-07-02
CN113065126B true CN113065126B (zh) 2022-05-27

Family

ID=76568549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110616687.1A Active CN113065126B (zh) 2021-06-03 2021-06-03 基于分布式数据沙盒的个人信息合规的方法和装置

Country Status (1)

Country Link
CN (1) CN113065126B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115617927B (zh) * 2022-11-08 2023-05-02 北京数安行科技有限公司 大数据价值的安全计量方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858170A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 沙盒组件、数据异常监控方法、设备和存储介质
CN112199506A (zh) * 2020-11-10 2021-01-08 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备
CN112347502A (zh) * 2019-08-07 2021-02-09 陈善席 一种信息处理的方法与系统
CN112800473A (zh) * 2021-03-17 2021-05-14 好人生(上海)健康科技有限公司 一种基于大数据安全屋的数据处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT3204858T (pt) * 2014-10-07 2020-11-20 Optum Inc Sistema em rede altamente seguro e métodos para armazenamento, processamento e transmissão de informações pessoais sensíveis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110858170A (zh) * 2018-08-23 2020-03-03 阿里巴巴集团控股有限公司 沙盒组件、数据异常监控方法、设备和存储介质
CN112347502A (zh) * 2019-08-07 2021-02-09 陈善席 一种信息处理的方法与系统
CN112199506A (zh) * 2020-11-10 2021-01-08 支付宝(杭州)信息技术有限公司 一种应用程序的信息检测方法、装置及设备
CN112800473A (zh) * 2021-03-17 2021-05-14 好人生(上海)健康科技有限公司 一种基于大数据安全屋的数据处理方法

Also Published As

Publication number Publication date
CN113065126A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
US11916920B2 (en) Account access security using a distributed ledger and/or a distributed file system
WO2021077642A1 (zh) 一种基于异构图嵌入的网络空间安全威胁检测方法及系统
TWI804575B (zh) 確定高風險用戶的方法及裝置、電腦可讀儲存媒體、和計算設備
CN104956376B (zh) 虚拟化环境中应用和设备控制的方法和技术
CN103166989B (zh) 面向云计算的资源使用计量方法和系统
WO2019223142A1 (zh) 应用程序测试方法、装置、计算机设备及存储介质
CN107169361A (zh) 一种数据泄露的检测方法及系统
Pichan et al. Towards a practical cloud forensics logging framework
CN111090615A (zh) 混合资产的分析处理方法、装置、电子设备及存储介质
CN111727433A (zh) 基于客户机侧基于本地差分隐私的数据的用于软件优化的远程检验分析
CN105122230A (zh) 跟踪作为服务
CN107870988A (zh) 一种信息核查方法、终端设备及存储介质
CN113111951A (zh) 数据处理方法以及装置
CN113065126B (zh) 基于分布式数据沙盒的个人信息合规的方法和装置
CN111639355A (zh) 一种数据安全管理方法和系统
US9740601B2 (en) Globalization testing management service configuration
WO2024169388A1 (zh) 基于stride模型的安全需求生成方法、装置、电子设备及介质
US9767011B2 (en) Globalization testing management using a set of globalization testing operations
US11893132B2 (en) Discovery of personal data in machine learning models
Hemdan et al. CFIM: toward building new cloud forensics investigation model
CN104753758B (zh) 一种信息属性识别方法及装置
CN108038381A (zh) 一种密钥安全性检测方法及系统
CN110427293A (zh) 应用处理方法、装置、设备和介质
CN107294766B (zh) 一种集中管控的方法及系统
US20210209067A1 (en) Network activity identification and characterization based on characteristic active directory (ad) event segments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant