CN114564741A - 基于匿名化分析的大数据隐私保护方法及大数据处理设备 - Google Patents

基于匿名化分析的大数据隐私保护方法及大数据处理设备 Download PDF

Info

Publication number
CN114564741A
CN114564741A CN202210139326.7A CN202210139326A CN114564741A CN 114564741 A CN114564741 A CN 114564741A CN 202210139326 A CN202210139326 A CN 202210139326A CN 114564741 A CN114564741 A CN 114564741A
Authority
CN
China
Prior art keywords
data
privacy
user behavior
information
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210139326.7A
Other languages
English (en)
Inventor
陈笑男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210139326.7A priority Critical patent/CN114564741A/zh
Publication of CN114564741A publication Critical patent/CN114564741A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于匿名化分析的大数据隐私保护方法及大数据处理设备,从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,并从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,最后通过对隐私标签序列进行匿名化预分析得到匿名化预分析结果,以根据所述匿名化预分析结果,得到与所述隐私数据处理规则对应的匿名化处理指示,并根据所述匿名化处理指示对所述隐私数据信息进行匿名化处理得到第二数据安全等级的目标数据信息,进而实现针对所述目标数据信息的大数据隐私保护。

Description

基于匿名化分析的大数据隐私保护方法及大数据处理设备
本申请是申请号为202110175876.X、申请日为2021年02月06日、发明名称为“针对大数据隐私保护的数据处理方法及大数据处理设备”的发明专利申请的分案申请。
技术领域
本发明涉及大数据技术领域,具体而言,涉及一种针对大数据隐私保护的数据处理方法及大数据处理设备。
背景技术
随着计算机科学及信息技术的不断发展,大数据逐渐成为政府、企业、个人等主题争相开发利用的一种高价值资源。随着大数据技术的发展,数据的挖掘、整合、交易显得越来越便利。然而,在大数据的广泛应用的背景下,数据隐私泄露成为各主体关注的重要课题。互联网时代,数字化进一步增加了数据隐私泄露的可能性。因此,在大数据给这个时代带来无限价值的同时,如何有效的避免个场景下的隐私非正常泄露,是目前行业内急需解决的重要技术问题。
发明内容
基于现有设计的不足,本发明实施例提供一种针对大数据隐私保护的数据处理方法,应用于大数据处理设备,包括:
从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,每个所述用户行为数据区块包括针对至少一次用户行为进行数据采集得到的数据内容;
从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息;
将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,所述第二数据安全等级用于实现针对所述目标数据信息的大数据隐私保护。
本发明提供的实施例中,所述从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,包括:
将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识;
从识别出的各个数据片段的数据属性标识中匹配所述目标类型数据在多个用户行为数据区块中的数据属性标识。
本发明提供的实施例中,将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识,包括:
将所述用户行为数据集合输入至预先训练得到的第一隐私数据识别模型,以由所述第一隐私数据识别模型的特征向量转化层将所述用户行为数据集合中的每一用户行为数据区块进行特征向量转化得到第一数据描述矩阵,并由所述第一隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识;
所述特征向量转化层用于执行以下至少一种特征向量转化:特征表示映射处理、属性与内容分割处理、属性特征标准化处理,所述特征向量转化层包括目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
本发明提供的实施例中,所述将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,包括:
采用预先设定的数据转化方式将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵;所述预先设定的数据转化方式至少包括属性映射与内容哈希,其中,所述属性映射与内容哈希包括将各数据片段的数据属性映射到预设的向量对应表中的向量表示以及将各数据片段的数据内容进行内容哈希运算后与所述对应的向量表示进行对应存储;
将各第一数据描述矩阵输入至预先训练得到的第二隐私数据识别模型,由所述第二隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识。
本发明提供的实施例中,所述数据属性标识包括:目标类型数据中预设数据信息的数据类型标签、及指示目标类型数据对应的隐私类型的隐私类型标签;
所述从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,包括:
针对每一所述用户行为数据区块,依据所述目标类型数据在该用户行为数据区块的数据属性标识中的数据类型标签与隐私类型标签进行数据获取时对应的数据提取范围,根据所述数据提取范围在该用户行为数据区块中获取类型标签为预设类型标签的数据片段,将获取出的数据片段确定为待处理数据信息;或者
针对每一所述用户行为数据区块,根据所述目标类型数据在该用户行为数据区块中的数据属性标识中的数据类型标签在该用户行为数据区块中遍历匹配类型标签为隐私类型标签的数据片段;采用标签映射的方式将获取出的数据片段从不同的隐私类型标签映射至目标类型标签,将标签映射后的数据片段对应的数据信息确定为待处理数据信息。
本发明提供的实施例中,将各个第一数据安全等级的待处理数据信息进行隐私数据处理得到第二数据安全等级的目标数据信息,包括:
将每一待处理数据信息进行向量表示得到第二数据描述矩阵,将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,所述隐私数据处理包括以下处理方式的其中至少一种:差分隐私处理、隐私多样化处理、隐私匿名化处理;或者
将各待处理数据信息输入至预先训练得到的第三隐私数据识别模型,以由所述第三隐私数据识别模型的特征向量转化层将输入的每一待处理数据信息进行特征向量转化得到第二数据描述矩阵,由所述第三隐私数据识别模型的矩阵数据标记层将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,并由所述第三隐私数据识别模型的矩阵数据隐私处理层将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息; 其中,所述特征向量转化层用于执行以下至少一种特征向量转化:特征表示映射处理、属性与内容分割处理、属性特征标准化处理,所述特征向量转化层包括目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
本发明提供的实施例中,所述将每一待处理数据信息进行向量表示得到第二数据描述矩阵,包括:
采用预先设定的数据转化方式将每一待处理数据信息进行向量表示得到第二数据描述矩阵;所述预先设定的数据转化方式至少包括属性映射与内容哈希;
所述对所述目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,包括:
将各第二数据描述矩阵输入至预先训练得到的第四隐私数据识别模型,以由所述第四隐私数据识别模型的矩阵数据标记层将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,并由所述第三隐私数据识别模型的矩阵数据隐私处理层将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息。
本发明提供的实施例中,所述将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,包括:
将所述第三数据描述矩阵进行矩阵融合得到融合数据矩阵,并通过至少一个数据隐私处理单元对融合数据矩阵进行隐私数据处理得到所述目标数据信息;或者
按照预设的映射关系将所述第三数据描述矩阵中的每一数据元素映射到指定数据存储区间中,将映射后得到的指定数据存储区间作为所述目标数据信息,所述指定数据存储区间的数据占用空间大于各数据标记后的数据信息的数据占用空间; 或者
提取所述第三数据描述矩阵中具有相同类别的数据描述属性的数据元素的位置信息,根据各所述位置信息对各所述位置信息对应的数据元素进行隐私数据处理得到所述目标数据信息;或者
将所述第三数据描述矩阵分别按照所述第一数据安全等级对应的数据安全策略进行数据安全处理,并将数据安全处理后的各第三数据描述矩阵进行差分隐私处理、隐私多样化处理、或隐私匿名化处理得到所述目标数据信息; 或者
将所述第三数据描述矩阵进行差分隐私处理、隐私多样化处理、或隐私匿名化处理得到参考数据信息,然后将所述参考数据信息按照所述第一数据安全等级对应的数据安全策略进行数据安全处理得到所述目标数据信息。
本发明提供的实施例中,所述将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,包括:
根据各个第一数据安全等级的待处理数据信息,获取各待处理数据信息对应中的局部隐私标签序列和全局隐私标签序列;所述局部隐私标签序列可以包括所述待处理数据信息中的各个用户数据区块中的数据片段分别对应的局部隐私标签,一个局部隐私标签可对应一个用户数据区块的数据;
基于所述待处理数据信息对应的局部隐私标签序列和全局隐私标签序列之间的序列相关性系数,对所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,将匿名化预分析存在异常的全局隐私标签确定为待匹配全局隐私标签,根据所述匿名化预分析结果中无异常的全局隐私标签对应的数据信息与所述待匹配全局隐私标签对应的数据信息之间的信息相关性系数,确定与所述待匹配全局隐私标签相匹配的匿名化需求信息;
根据与所述待匹配全局隐私标签相匹配的匿名化需求信息对所述待匹配全局隐私标签进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,得到与所述隐私数据处理规则对应的匿名化处理指示,并根据所述匿名化处理指示对所述隐私数据信息进行匿名化处理得到所述目标数据信息;
其中,所述获取待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列,包括:
根据各个第一数据安全等级的待处理数据信息,获取所述待处理数据信息对应的隐私数据信息中的至少两个局部隐私标签和至少两个全局隐私标签;
获取所述至少两个局部隐私标签之间的局部隐私标签相关性系数和局部隐私标签特征差异,获取所述至少两个全局隐私标签之间的全局隐私标签相关性系数和全局隐私标签特征差异;
根据所述局部隐私标签相关性系数和所述局部隐私标签特征差异,对所述至少两个局部隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列;一个局部隐私标签序列包括至少一个局部隐私标签;根据所述全局隐私标签相关性系数和所述全局隐私标签特征差异,对所述至少两个全局隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的全局隐私标签序列;一个全局隐私标签序列包括至少一个全局隐私标签。
本发明还提供一种大数据处理设备,包括包括处理器、机器可读存储介质,所述机器可读存储介质和所述处理器连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以实现上述针对大数据隐私保护的数据处理方法。
综上所述,本发明实施例提供的针对大数据隐私保护的数据处理方法及大数据处理设备,从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,然后从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,最后将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,如此可以实现针对所述目标数据信息的大数据隐私保护。此外,通过引入隐私数据识别模型以及数据描述矩阵等智能的数据处理工具,可以是提高隐私数据的识别准确率,可以提升大数据隐私保护的准确性。同时,通过不同维度的数据分析,实现不同隐私数据的分层次处理,可以使用不同场合的隐私防护需求,提升用户体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,针对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明实施例提供的针对大数据隐私保护的数据处理方法的流程示意图。
图2是图1中步骤S10的子步骤流程示意图。
图3是图1中步骤S30的子步骤流程示意图。
图4是本发明实施例提供的大数据处理设备的示意图。
图5是图4中的大数据处理装置的功能模块示意图。
具体实施方式
这里将详细地对本发明的示例性实施例进行说明。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的各个实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或各个可能组合。
下面将结合附图对本发明的实施例进行详细的描述。
请参阅图1,图1是本发明实施例提供的针对大数据隐私保护的数据处理方法的流程示意图。本实施例中,所述方法可以由大数据处理设备实现,所述大数据处理设备可以是具有大数据处理及分析能力的计算机、服务器、计算机集群、服务器集群、云服务器、云数据平台等设备,但不限于此。所述数据处理方法包括下述的步骤S10-步骤S30所述的步骤,具体描述如下。
步骤S10,从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识。本实施例中,每个所述用户行为数据区块包括针对至少一次用户行为进行数据采集得到的数据内容。
步骤S20,从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息。
步骤S30,将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,所述第二数据安全等级用于实现针对所述目标数据信息的大数据隐私保护。
详细地,本实施例中在上述步骤所述的第一数据安全等级和第二数据安全等级可以是预先设定的针对待处理数据信息的隐私状态信息进行标识的数据等级类型,其主要用于标识处于不同隐私状态下的数据。例如,本实施例中,第一数据安全等级可以是代表原始采集未通过隐私处理或隐私保护的原始数据信息或者是经过了一定的隐私处理但仍未达到本发明实施例所需要达到的隐私等级的数据,所述第二数据安全等级代表通过本发明实施例的隐私处理或隐私保护之后的数据信息。举例而言,本发明实施例中,所述第二数据安全等级高于第一数据安全等级,隐私等级越高,表面数据信息中的隐私信息得到的隐私保护越好。所述第一数据安全等级的用户行为数据集合可以是由大数据处理设备或者是与大数据处理设备相连接或相互通信的其他数据采集设备对用户使用相关应用客户端产生的用户行为数据进行的大数据采集而得到的用户行为数据组成。
所述数据属性标识可以是不同的数据片段自身携带的用于表示数据相关特征(如用户账户ID、用户性别、用户年龄、用户所在地等)的标识信息。所述数据片段可以是对一次用户行为进行数据采集得到的数据而构成的数据段,也可以是一个数据采集周期内对用户行为进行数据采集得到的数据而构成的数据段,或者也可以是一定时间内采集的用户行为数据按照设定的数据片段划分规则对所述用户行为数据进行数据划分而得到的数据段,此处不具体限定。各数据片段可以具有相同的数据大小(例如具有相同的字节空间)也可以具有不同的数据大小(例如具有不同的字节空间)。
所述按照设定的隐私处理规则进行的隐私数据处理可以是对各数据片段中的隐私数据进行识别,对识别到的隐私数据按照设定的隐私处理方式(例如差分隐私处理、隐私匿名化处理、大数据脱敏处理等)进行的数据处理方式。
下面将结合具体的实施例方式对上述相关步骤的具体实现方法进行详细的阐述。
在上述步骤S10中,从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,一种可替代的具体实现方式包括下述的子步骤S101-S103,具体描述如下。
子步骤S101,将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵。
详细地,本实施例中,每一个用户行为数据区块可以是用于存储对一次用户行为进行数据采集得到的数据的存储空间,也可以是用于存储一个数据采集周期内对用户行为进行数据采集得到的数据的存储空间,或者也可以是用于存储一定时间内采集的用户行为数据的存储空间,此处不具体进行限定,所述用户行为数据区块本实施例可以理解为一个数据存储单元或数据存储区段。
此外,本实施例中,可以将所述用户行为数据集合输入至预先训练得到的第一隐私数据识别模型,以由所述第一隐私数据识别模型的特征向量转化层将所述用户行为数据集合中的每一用户行为数据区块进行特征向量转化得到所述第一数据描述矩阵。所述特征向量转化层用于可以通过特征表示映射处理、属性与内容分割处理、属性特征标准化处理等特征向量转化方法实现对所述用户行为数据区块的特征向量转化,所述特征向量转化层包括目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。所述特征表示映射处理例如可以是,将数据片段中的个数据的属性按照设定的映射关系进行向量映射,得到相应的向量表示。所述属性与内容分割处理例如可以是,将各数据片段对应的数据内容与数据属性进行分割,然后将属性和数据分别进行向量表示,通过特征向量矩阵的方式对各数据片段的数据内容进行表示即可得到所述特征向量矩阵。所述属性特征标准化处理例如可以是,对各数据片段对应的数据内容的数据属性按照设定的统一编码规则或标准编码规则编码到一个标准的特征描述区间,进而得到所述特征向量矩阵。
子步骤S102,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识。
详细地,本实施例中,可以由所述第一隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识。
子步骤S103,从识别出的各个数据片段的数据属性标识中匹配所述目标类型数据在多个用户行为数据区块中的数据属性标识。
如此,通过以上所述的方法,可以得到具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识。该目标类型数据是感兴趣的目标类型数据,例如是希望得到隐私处理的数据。
目标类型数据在用户行为数据区块中的数据属性标识,可以包括:目标类型数据的特征点在用户行为数据区块中的数据类型标签、及目标类型数据在用户行为数据区块中的类型标签;或者,目标类型数据检出框的起始点和终点的数据类型标签等等。数据属性标识具体并不限定,只要是能够定位用户行为数据区块中的目标类型数据即可。
本实施例中,目标类型数据可以是预先设定的需要进行隐私保护的数据,具体的类型不限,例如可以是表征用户身份等隐私信息的数据类型,如账户、姓名、性别、年龄、收入等。举例而言,本实施例也可以先进行数据预处理将第一数据安全等级的用户行为数据区块进行转化,转化为常用的可进行目标识别的数据,再进行目标识别;也可以直接对第一数据安全等级的用户行为数据区块进行目标识别,得到数据属性标识,具体实现方式不限。
此外,上述步骤S101和步骤S102中,将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,另一种可替代的实现方式如下:
首先,采用预先设定的数据转化方式将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵;
然后,将各第一数据描述矩阵输入至预先训练得到的第二隐私数据识别模型,由所述第二隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识。
本实施例中,所述预先设定的数据转化方式可以包括属性映射与内容哈希。其中,所述属性映射与内容哈希包括将各数据片段的数据属性映射到预设的向量对应表中的向量表示,然后将各数据片段的数据内容进行内容哈希运算后与所述对应的向量表示进行对应存储。
进一步地,本实施例中,所述数据属性标识可以包括:目标类型数据中的预设数据信息的数据类型标签、及指示目标类型数据对应的隐私类型的隐私类型标签。所述目标类型数据中的预设数据信息例如可以是具有隐私或敏感数据的信息,如与用户的账户信息、姓名、性别、年龄、收入等等有关的信息。
基于上述内容,上述步骤S20中,从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,具体的实现方法可以是一下两种实现方法中的一种任意一种。
第一种:针对每一所述用户行为数据区块,依据所述目标类型数据在该用户行为数据区块的数据属性标识中的数据类型标签与隐私类型标签进行数据获取时对应的数据提取范围,根据所述数据提取范围在该用户行为数据区块中获取类型标签为预设类型标签的数据片段,将获取出的数据片段确定为待处理数据信息。举例而言,所述数据提取范围可以是根据所述数据属性表示在所述用户型数据区块中进行数据匹配进而查询到的用于存储相应的数据的存储区间。
第二种:针对每一所述用户行为数据区块,根据所述目标类型数据在该用户行为数据区块中的数据属性标识中的数据类型标签在该用户行为数据区块中遍历匹配类型标签为隐私类型标签的数据片段;然后,采用标签映射的方式将获取出的数据片段从不同的隐私类型标签映射至目标类型标签,将标签映射后的数据片段对应的数据信息确定为待处理数据信息。例如,本实施例中,举例而言,所述隐私类别标签包括账户信息标签、收入信息标签、地理位置信息标签等各种属于隐私类型的标签,然后可以将该等标签统一映射到一个预设的统一类型标签,如一级隐私信息标签、二级隐私信息标签、三级隐私信息标签等。不同的级别的隐私信息标签可能代表不同的隐私级别,级别越高表示需要的隐私保护等级就越高。如此,后续可以根据所述目标类型标签的等级后续有针对性的对相应的隐私数据进行隐私处理。例如,针对最高级别的隐私标签,可以将相应的隐私数据直接删除,针对次高级别的隐私标签可以将相应的隐私数据采用设定的代码进行替换等,具体不做限定。
进一步地,在本实施例中,在上述步骤S30中,将各个第一数据安全等级的待处理数据信息进行隐私数据处理得到第二数据安全等级的目标数据信息,具体可以通过以下方案一和方案二中的任意一种实现,描述如下。
方案一:
将每一待处理数据信息进行向量表示得到第二数据描述矩阵,将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵;
将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,所述隐私数据处理包括差分隐私处理、隐私多样化处理、隐私匿名化处理中的其中任意一种或多种的组合。本实施例中,举例而言,可以对相应的进行了数据标记的数据描述进行隐私处理,如对标记部分的数据描述进行大数据脱敏、隐私差分、隐私数据加密,例如大数据脱敏可以是对标记部分的数据描述采用预设的描述信息进行替代,从而保留相应地数据区块的前提下,使得整个采集的大数据也可以供后期的分析所使用。如此,通过数据标记后的数据描述,可以找到与需要进行隐私处理的相应数据描述对应的数据内容,然后对该相应的数据内容进行隐私数据处理。
方案二:
将各待处理数据信息输入至预先训练得到的第三隐私数据识别模型,以由所述第三隐私数据识别模型的特征向量转化层将输入的每一待处理数据信息进行特征向量转化得到第二数据描述矩阵;
由所述第三隐私数据识别模型的矩阵数据标记层将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵;
由所述第三隐私数据识别模型的矩阵数据隐私处理层将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息; 其中,所述特征向量转化层用于执行以下至少一种特征向量转化:特征表示映射处理、属性与内容分割处理、属性特征标准化处理,所述特征向量转化层包括目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
进一步地,本实施中,上述将每一待处理数据信息进行向量表示得到第二数据描述矩阵,一种实现方式可以是:采用预先设定的数据转化方式将每一待处理数据信息进行向量表示得到第二数据描述矩阵;所述预先设定的数据转化方式至少包括属性映射与内容哈希。
基于此,所述所述目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,一种可实现的方式可以是:
将各第二数据描述矩阵输入至预先训练得到的第四隐私数据识别模型,以由所述第四隐私数据识别模型的矩阵数据标记层将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,并由所述第三隐私数据识别模型的矩阵数据隐私处理层将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息。如此,第四隐私数据识别模型可以是预先采用数据描述矩阵样本进行模型训练而得到的深度学习模型,可以用于对数据描述矩阵中的各数据描述进行数据标记,例如对隐私数据采用相应的数据标记方式进行标记,对非隐私数据采用不同与隐私数据的其他数据标记方式进行标记,如此后续可以有针对性的对包括相应的数据标记的第三数据描述矩阵中的相关隐私数据的数据描述进行隐私数据处理,实现本发明实施例的大数据隐私保护的目的。
基于上述内容,将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,具体的实现方式可以是以下(1)-(4)所述的方式中的其中任意一种。
(1)将各所述第三数据描述矩阵进行矩阵融合得到融合数据矩阵,并通过至少一个数据隐私处理单元对融合数据矩阵进行隐私数据处理得到所述目标数据信息。本实例中,每个用户行为数据区块中的数据可以对应得到一个第三数据描述矩阵,为了方面数据的统一处理,可以将各第三数据描述矩阵通过矩阵融合的方式得到一个融合数据矩阵,以方便后续直接对该融合数据矩阵统一进行隐私数据处理,无需单独的对多个矩阵进行处理。
(2)按照预设的映射关系将所述第三数据描述矩阵中的每一数据元素映射到指定数据存储区间中,将映射后得到的指定数据存储区间作为所述目标数据信息,所述指定数据存储区间的数据占用空间大于各数据标记后的数据信息的数据占用空间。本实施例中,举例而言,所述指定数据存储区间可以包括分别用于存储隐私数据的隐私数据存储区间以及用于存储非隐私数据的非隐私数据存储区间,可以将所述第三数据描述矩阵中的无隐私数据标记的非隐私数据元素映射到所述非隐私数据存储区间,将有隐私数据标记的隐私数据元素映射到所述隐私数据存储区间,所述非隐私数据存储区间和隐私数据存储区间的数据访问权限不同,例如所述非隐私数据存储区间的数据访问权限低于隐私数据存储区间的数据访问权限,如此实现了第三数据表述矩阵中的隐私数据处理,达到大数据隐私保护的目的。
(3)提取所述第三数据描述矩阵中具有相同类别的数据描述属性的数据元素的位置信息,根据各所述位置信息对各所述位置信息对应的数据元素进行隐私数据处理得到所述目标数据信息。本实施例中,可以根据相同各类别(隐私类别)的数据描述属性定位相应的数据元素位置信息,然后针对相应的位置信息对相应的数据元素进行隐私数据处理,例如针对隐私数据元素的位置信息处的数据读取权限进行升级处理或者针对该位置信息处的数据进行隐私差分处理等。
(4)将所述第三数据描述矩阵分别按照所述第一数据安全等级对应的数据安全策略进行数据安全处理,并将数据安全处理后的各第三数据描述矩阵进行差分隐私处理、隐私多样化处理、或隐私匿名化处理得到所述目标数据信息。如此,可以先对各所述第三数据描述矩阵分别按照第一数据安全等级对应的数据安全策略进行数据安全处理(如基于大数据的公钥加密、基于用户属性的数据安全访问控制等),然后再对第三数据描述矩阵中有关的隐私数据进行差分隐私处理、隐私多样化处理、或隐私匿名化处理等隐私处理,实现隐私数据的保护,继而得到具有第二数据安全等级的目标数据信息。
(5)将所述第三数据描述矩阵进行差分隐私处理、隐私多样化处理、或隐私匿名化处理得到参考数据信息,然后将所述参考数据信息按照所述第一数据安全等级对应的数据安全策略进行数据安全处理得到所述目标数据信息。如此,可以先对第三数据描述矩阵中有关的隐私数据进行差分隐私处理、隐私多样化处理、或隐私匿名化处理等隐私处理,实现隐私数据的保护,然后再分别按照第一数据安全等级对应的数据安全策略对各所述第三数据描述矩阵进行数据安全处理(如基于大数据的公钥加密、基于用户属性的数据安全访问控制等),继而得到具有第二数据安全等级的目标数据信息。
进一步地,本发明实施例中,上述的隐私数据处理方式可以是针对特定数据的隐私数据匿名化处理,基于这种方式,参阅图3所示,上述步骤S30中,将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,另一中可替代的实施方式包括下述的子步骤S301-S305,具体描述如下。
子步骤S301,根据各个第一数据安全等级的待处理数据信息,获取各待处理数据信息对应中的局部隐私标签序列和全局隐私标签序列。本实施例中,所述局部隐私标签序列可以包括所述待处理数据信息中的各个用户数据区块中的数据片段分别对应的局部隐私标签,一个局部隐私标签可对应一个用户数据区块的数据。所述全局隐私标签用于代表每个待处理数据信息整体的隐私标识。举例而言,本实施例中,可以将各待处理数据信息输入预先训练的隐私数据标签模型中进行隐私数据识别,即可输出得到各待处理数据信息分别对应的局部隐私标签序列和全局隐私标签序列。
子步骤S302,基于所述待处理数据信息对应的局部隐私标签序列和全局隐私标签序列之间的序列相关性系数,对所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列进行匿名化预分析,得到匿名化预分析结果。例如,匿名化预分析可以是将局部隐私标签序列中的各个局部隐私标签分别与对应的全局隐私标签进行相关性匹配,将与全局隐私标签匹配度作为匿名化预分析结果。比如,全局隐私标签代表高级别隐私等级,匹配度可以包括高匹配度、中匹配度、低匹配度,其中高匹配度和中匹配度对应的隐私数据需要在后续进行相对应的匿名化处理。
子步骤S303,根据所述匿名化预分析结果,将匿名化预分析存在异常的全局隐私标签确定为待匹配全局隐私标签,根据所述匿名化预分析结果中无异常的全局隐私标签对应的数据信息与所述待匹配全局隐私标签对应的数据信息之间的信息相关性系数,确定与所述待匹配全局隐私标签相匹配的匿名化需求信息。本实施例中,匿名化预分析存在异常可以是指其中某个全局隐私标签在匿名化预分析中出现反常的分析结果,例如因为该全局隐私标签的隐私标签位缺失导致预分析过程中无法与对应的局部隐私标签进行预分析匹配,如此可以根据无异常的全局隐私标签对应的数据信息与所述待匹配全局隐私标签对应的数据信息之间的信息相关性系数,确定对应的匿名化需求信息,例如可以将相关性系数最高的无异常的全局隐私标签对应的匿名化需求信息作为该待匹配全局隐私标签对应的匿名化需求信息。所述匿名化需求信息可以与所述相关性系数最高的无异常的全局隐私标签相对应。
子步骤S304,根据与所述待匹配全局隐私标签相匹配的匿名化需求信息对所述待匹配全局隐私标签进行匿名化预分析。此处的匿名化预分析过程可以参照步骤S302的方式,此处不在赘述。
子步骤S305,根据上述子步骤S302和S304得到的匿名化预分析结果,得到与所述隐私数据处理规则对应的匿名化处理指示,并根据所述匿名化处理指示对所述隐私数据信息进行匿名化处理得到所述目标数据信息。例如所述匿名化处理指示可以是表示具体的匿名化处理方法的指示,如K-匿名化、i-多样化、数据脱敏、隐私差分、隐私删除、隐私替代等,具体不做限定。例如,不同的匿名化处理指示代表隐私处理的重要性,不同的重要性对应不同的匿名化处理方式,例如最高等级的匿名化处理指示可以直接将相应的隐私数据直接删除,次高等级的可以通过将隐私数据使用预设的匿名化数据替代,或者采用差分隐私、数据脱敏等方法对隐私数据进行隐私处理。如此,可以通过对隐私标签序列的分析得到相应的隐私数据的重要性信息对相应的隐私数据进行分级处理,进而实现不同等级的隐私数据匿名化处理方法,以满足不同场景的需求。
其中,上述步骤(1)中,所述获取待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列,具体的方式包括:
根据各个第一数据安全等级的待处理数据信息,获取所述待处理数据信息对应的隐私数据信息中的至少两个局部隐私标签和至少两个全局隐私标签;
获取所述至少两个局部隐私标签之间的局部隐私标签相关性系数和局部隐私标签特征差异,获取所述至少两个全局隐私标签之间的全局隐私标签相关性系数和全局隐私标签特征差异;
根据所述局部隐私标签相关性系数和所述局部隐私标签特征差异,对所述至少两个局部隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列;一个局部隐私标签序列包括至少一个局部隐私标签;根据所述全局隐私标签相关性系数和所述全局隐私标签特征差异,对所述至少两个全局隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的全局隐私标签序列;一个全局隐私标签序列包括至少一个全局隐私标签。
此外,举例而言,所述基于所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列之间的序列相关性系数,对所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列进行匿名化预分析,得到匿名化预分析结果,包括:
将所述待处理数据信息对应的隐私数据信息中的全局隐私标签序列确定为待分析全局隐私标签序列,将所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列确定为待分析局部隐私标签序列;所述待分析全局隐私标签序列中的全局隐私标签是从预先建立的针对所述待处理数据信息对应的隐私数据信息的隐私标签索引表中所获取的;
获取所述隐私标签索引表中的局部隐私标签,根据所述隐私标签索引表中的局部隐私标签与所述待分析局部隐私标签序列中的局部隐私标签之间的隐私标签相关性系数,确定所述待分析全局隐私标签序列与所述待分析局部隐私标签序列之间的所述序列相关性系数;当所述序列相关性系数不小于相关性系数阈值时,对所述待分析全局隐私标签序列和所述待分析局部隐私标签序列进行匿名化预分析,得到所述匿名化预分析结果。如此,当所述序列相关性系数不小于相关性系数阈值时,说明对应的全局隐私标签序列不会出现匿名化预分析异常,可以进行匿名化预分析,此时再进行匿名化的预分析处理。
请参阅图4所示,是本发明实施例提供的大数据处理设备1的示意图。本实施例中,所述大数据处理设备1用于实现本发明实施例提供的针对大数据隐私保护的数据处理方法。本实施例中,所述大数据处理设备1可以包括数据处理装置10、机器可读存储介质11和处理器12。
可替代地,所述机器可读存储介质11可以由处理器12通过总线接口来访问。机器可读存储介质11也可以集成到处理器12中,例如,可以是高速缓存和/或通用寄存器。
处理器12是大数据处理设备1的控制中心,利用各种接口和线路连接整个大数据处理设备1的各个部分,通过运行或执行存储在机器可读存储介质11内的软件程序和/或模块,以及调用存储在机器可读存储介质11内的数据,执行该大数据处理设备1的各种功能和处理数据,从而对大数据处理设备1进行整体控制。可选地,处理器12可包括一个或多个处理核心。例如,处理器12可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
其中,处理器12可以是一个通用的中央处理器(Central Processing Unit,CPU),微处理器,特定应用集成电路(Application-Specific Integrated Circuit,ASIC)等。机器可读存储介质11可以是ROM或可存储静态信息和指令的其它类型的静态存储设备,RAM或者可存储信息和指令的其它类型的动态存储设备等,但不限于此。机器可读存储介质11可以是独立存在,通过通信总线与处理器12相连接。机器可读存储介质11也可以和处理器集成在一起。其中,机器可读存储介质11用于存储执行本申请方案的机器可执行指令。处理器12用于执行机器可读存储介质11中存储的机器可执行指令,以实现本发明提供的方法。
请参阅图5所示,是所述数据处理装置10的功能模块示意图。所述数据处理装置10包括多个软件功能模块,该等软件功能模块对应的机器可执行程序或指令可以存储于所述机器可读存储介质中,并由所述处理器12执行,以实现本发明所述的针对大数据隐私保护的数据处理方法。详细地,所述数据处理装置10可以包括属性标识获取模块101、数据片段获取模块102、以及隐私数据处理模块103。下面将对上述各模块进行详细的介绍。
所述属性标识获取模块101,用于从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,每个所述用户行为数据区块包括针对至少一次用户行为进行数据采集得到的数据内容。
所述数据片段获取模块102,用于从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息。
所述隐私数据处理模块103,用于将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,所述第二数据安全等级用于实现针对所述目标数据信息的大数据隐私保护。
详细地,所述属性标识获取模块101从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,具体的实现方式包括:
将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识;
从识别出的各个数据片段的数据属性标识中匹配所述目标类型数据在多个用户行为数据区块中的数据属性标识。
详细地,所述属性标识获取模块101,将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,具体的实现方式包括:
将所述用户行为数据集合输入至预先训练得到的第一隐私数据识别模型,以由所述第一隐私数据识别模型的特征向量转化层将所述用户行为数据集合中的每一用户行为数据区块进行特征向量转化得到第一数据描述矩阵,并由所述第一隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识;
所述特征向量转化层用于执行以下至少一种特征向量转化:特征表示映射处理、属性与内容分割处理、属性特征标准化处理,所述特征向量转化层至少包括一个目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
详细地,所述属性标识获取模块101,将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,另一种具体的实现方式包括:
采用预先设定的数据转化方式将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵;所述预先设定的数据转化方式至少包括属性映射与内容哈希,其中,所述属性映射与内容哈希包括将各数据片段的数据属性映射到预设的向量对应表中的向量表示以及将各数据片段的数据内容进行内容哈希运算后与所述对应的向量表示进行对应存储;
将各第一数据描述矩阵输入至预先训练得到的第二隐私数据识别模型,由所述第二隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识。
进一步地,所述数据属性标识包括:目标类型数据中预设数据信息的数据类型标签、及指示目标类型数据对应的隐私类型的隐私类型标签。基于此,所述数据片段获取模块102,从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,一种具体的实现方式:
针对每一所述用户行为数据区块,依据所述目标类型数据在该用户行为数据区块的数据属性标识中的数据类型标签与隐私类型标签进行数据获取时对应的数据提取范围,根据所述数据提取范围在该用户行为数据区块中获取类型标签为预设类型标签的数据片段,将获取出的数据片段确定为待处理数据信息;或者
针对每一所述用户行为数据区块,根据所述目标类型数据在该用户行为数据区块中的数据属性标识中的数据类型标签在该用户行为数据区块中遍历匹配类型标签为隐私类型标签的数据片段;采用标签映射的方式将获取出的数据片段从不同的隐私类型标签映射至目标类型标签,将标签映射后的数据片段对应的数据信息确定为待处理数据信息。
详细地,所述隐私数据处理模块103,将各个第一数据安全等级的待处理数据信息进行隐私数据处理得到第二数据安全等级的目标数据信息,可以通过以下任意一种方式实现:
将每一待处理数据信息进行向量表示得到第二数据描述矩阵,将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息,所述隐私数据处理包括以下处理方式的其中至少一种:差分隐私处理、隐私多样化处理、隐私匿名化处理;或者
将各待处理数据信息输入至预先训练得到的第三隐私数据识别模型,以由所述第三隐私数据识别模型的特征向量转化层将输入的每一待处理数据信息进行特征向量转化得到第二数据描述矩阵,由所述第三隐私数据识别模型的矩阵数据标记层将目标类型数据在各第二数据描述矩阵中的对应数据描述进行数据标记得到数据标记后的第三数据描述矩阵,并由所述第三隐私数据识别模型的矩阵数据隐私处理层将各第三数据描述矩阵进行隐私数据处理得到所述目标数据信息; 其中,所述特征向量转化层通过特征表示映射处理、属性与内容分割处理、或属性特征标准化处理实现特征向量转化,所述特征向量转化层包括目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
进一步地,在另一种可替代的实现方式中,所述隐私数据处理模块103,将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,具体的实现方式包括:
根据各个第一数据安全等级的待处理数据信息,获取各待处理数据信息对应中的局部隐私标签序列和全局隐私标签序列;所述局部隐私标签序列可以包括所述待处理数据信息中的各个用户数据区块中的数据片段分别对应的局部隐私标签,一个局部隐私标签可对应一个用户数据区块的数据;
基于所述待处理数据信息对应的局部隐私标签序列和全局隐私标签序列之间的序列相关性系数,对所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,将匿名化预分析存在异常的全局隐私标签确定为待匹配全局隐私标签,根据所述匿名化预分析结果中无异常的全局隐私标签对应的数据信息与所述待匹配全局隐私标签对应的数据信息之间的信息相关性系数,确定与所述待匹配全局隐私标签相匹配的匿名化需求信息;
根据与所述待匹配全局隐私标签相匹配的匿名化需求信息对所述待匹配全局隐私标签进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,得到与所述隐私数据处理规则对应的匿名化处理指示,并根据所述匿名化处理指示对所述隐私数据信息进行匿名化处理得到所述目标数据信息。
其中,所述获取待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列,具体的实现方式包括:
根据各个第一数据安全等级的待处理数据信息,获取所述待处理数据信息对应的隐私数据信息中的至少两个局部隐私标签和至少两个全局隐私标签;
获取所述至少两个局部隐私标签之间的局部隐私标签相关性系数和局部隐私标签特征差异,获取所述至少两个全局隐私标签之间的全局隐私标签相关性系数和全局隐私标签特征差异;
根据所述局部隐私标签相关性系数和所述局部隐私标签特征差异,对所述至少两个局部隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列;一个局部隐私标签序列包括至少一个局部隐私标签;根据所述全局隐私标签相关性系数和所述全局隐私标签特征差异,对所述至少两个全局隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的全局隐私标签序列;一个全局隐私标签序列包括至少一个全局隐私标签。
此外,应当说明的是,上述的属性标识获取模块101、数据片段获取模块102、以及隐私数据处理模块103等功能模块可分别用于执行图1所示的步骤S10至步骤S30,关于该等模块的更多内容可以参照对应的步骤的描述,此处不再一一完整赘述。
综上所述,本发明实施例提供的针对大数据隐私保护的数据处理方法及大数据处理设备,从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识,然后从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,最后将各个第一数据安全等级的待处理数据信息按照预设的隐私数据处理规则进行隐私数据处理得到第二数据安全等级的目标数据信息,如此可以实现针对所述目标数据信息的大数据隐私保护。此外,通过引入隐私数据识别模型以及数据描述矩阵等智能的数据处理工具,可以是提高隐私数据的识别准确率,可以提升大数据隐私保护的准确性。同时,通过不同维度的数据分析,实现不同隐私数据的分层次处理,可以使用不同场合的隐私防护需求,提升用户体验。
以上所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本发明的实施例的详细描述并非旨在限制本发明的保护范围,而仅仅是表示本发明的选定实施例。因此,本发明的保护范围应以权利要求的保护范围为准。此外,基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的各个其它实施例,都应属于本发明保护的范围。

Claims (7)

1.基于匿名化分析的大数据隐私保护方法,其特征在于,应用于大数据处理设备,所述方法包括:
从第一数据安全等级的用户行为数据集合中获取具有相同类别的数据描述属性的目标类型数据在所述用户行为数据集合的多个用户行为数据区块中的数据属性标识;
从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息;
根据各个第一数据安全等级的待处理数据信息,获取各待处理数据信息中对应的局部隐私标签序列和全局隐私标签序列;所述局部隐私标签序列可以包括所述待处理数据信息中的各个用户数据区块中的数据片段分别对应的局部隐私标签,一个局部隐私标签可对应一个用户数据区块的数据;
基于所述待处理数据信息对应的局部隐私标签序列和全局隐私标签序列之间的序列相关性系数,对所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列和全局隐私标签序列进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,将匿名化预分析存在异常的全局隐私标签确定为待匹配全局隐私标签,根据所述匿名化预分析结果中无异常的全局隐私标签对应的数据信息与所述待匹配全局隐私标签对应的数据信息之间的信息相关性系数,确定与所述待匹配全局隐私标签相匹配的匿名化需求信息;
根据与所述待匹配全局隐私标签相匹配的匿名化需求信息对所述待匹配全局隐私标签进行匿名化预分析,得到匿名化预分析结果;
根据所述匿名化预分析结果,得到与隐私数据处理规则对应的匿名化处理指示,并根据所述匿名化处理指示对所述隐私数据信息进行匿名化处理得到第二数据安全等级的目标数据信息;
其中,所述目标类型数据在用户行为数据区块中的数据属性标识包括所述目标类型数据的特征点在用户行为数据区块中的数据类型标签、及所述目标类型数据在用户行为数据区块中的类型标签;所述第一数据安全等级和第二数据安全等级是预先设定的针对待处理数据信息的隐私状态信息进行标识的数据等级类型,所述第二数据安全等级高于第一数据安全等级。
2.如权利要求1所述的方法,其特征在于,所述从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息包括:
将第一数据安全等级的用户行为数据集合中的每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识;
从识别出的各个数据片段的数据属性标识中匹配具有相同类别的数据描述属性的目标类型数据在多个用户行为数据区块中的数据属性标识;
从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个第一数据安全等级的待处理数据信息。
3.如权利要求2所述的方法,其特征在于,所述将第一数据安全等级的用户行为数据集合中的每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,包括:
将所述用户行为数据集合输入至预先训练得到的第一隐私数据识别模型,以由所述第一隐私数据识别模型的特征向量转化层将所述用户行为数据集合中的每一用户行为数据区块进行特征向量转化得到第一数据描述矩阵,并由所述第一隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识;
所述特征向量转化层用于执行以下至少一种特征向量转化:特征表示映射处理、属性与内容分割处理、属性特征标准化处理,所述特征向量转化层至少包括一个目标属性提取层,所述目标属性提取层的属性提取内核进行数据提取的数据颗粒度为所述用户行为数据区块的数据存储方式的至少一个最小数据区块对应的数据大小。
4.如权利要求2所述的方法,其特征在于,所述将第一数据安全等级的用户行为数据集合中的每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵,对各第一数据描述矩阵进行数据属性识别,获得所述用户行为数据集合中各用户行为数据区块中的各数据片段的数据属性标识,包括:
采用预先设定的数据转化方式将所述用户行为数据集合中每一用户行为数据区块的各数据片段进行向量表示得到第一数据描述矩阵;所述预先设定的数据转化方式至少包括属性映射与内容哈希,其中,所述属性映射与内容哈希包括将各数据片段的数据属性映射到预设的向量对应表中的向量表示以及将各数据片段的数据内容进行内容哈希运算后与所述对应的向量表示进行对应存储;
将各第一数据描述矩阵输入至预先训练得到的第二隐私数据识别模型,由所述第二隐私数据识别模型的属性提取层对各第一数据描述矩阵进行数据属性识别,得到目标类型数据在用户行为数据集合各用户行为数据区块中的各数据片段的数据属性标识。
5.如权利要求2所述的方法,其特征在于, 所述数据属性标识包括:目标类型数据中预设数据信息的数据类型标签、及指示目标类型数据对应的隐私类型的隐私类型标签;
所述从各用户行为数据区块中分别获取各数据属性标识对应的数据片段,得到多个待处理数据信息,包括:
针对每一所述用户行为数据区块,依据所述目标类型数据在该用户行为数据区块的数据属性标识中的数据类型标签与隐私类型标签进行数据获取时对应的数据提取范围,根据所述数据提取范围在该用户行为数据区块中获取类型标签为预设类型标签的数据片段,将获取出的数据片段确定为待处理数据信息;或者
针对每一所述用户行为数据区块,根据所述目标类型数据在该用户行为数据区块中的数据属性标识中的数据类型标签在该用户行为数据区块中遍历匹配类型标签为隐私类型标签的数据片段;采用标签映射的方式将获取出的数据片段从不同的隐私类型标签映射至目标类型标签,将标签映射后的数据片段对应的数据信息确定为待处理数据信息。
6.如权利要求1-5任意一项所述的方法,其特征在于,所述获取各待处理数据信息中对应的局部隐私标签序列和全局隐私标签序列,包括:
根据各个第一数据安全等级的待处理数据信息,获取所述待处理数据信息对应的隐私数据信息中的至少两个局部隐私标签和至少两个全局隐私标签;
获取所述至少两个局部隐私标签之间的局部隐私标签相关性系数和局部隐私标签特征差异,获取所述至少两个全局隐私标签之间的全局隐私标签相关性系数和全局隐私标签特征差异;
根据所述局部隐私标签相关性系数和所述局部隐私标签特征差异,对所述至少两个局部隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的局部隐私标签序列;一个局部隐私标签序列包括至少一个局部隐私标签;根据所述全局隐私标签相关性系数和所述全局隐私标签特征差异,对所述至少两个全局隐私标签进行排列,得到所述待处理数据信息对应的隐私数据信息中的全局隐私标签序列;一个全局隐私标签序列包括至少一个全局隐私标签。
7.一种大数据处理设备,其特征在于,包括包括处理器、机器可读存储介质,所述机器可读存储介质和所述处理器连接,所述机器可读存储介质用于存储程序、指令或代码,所述处理器用于执行所述机器可读存储介质中的程序、指令或代码,以实现权利要求1-6任意一项所述的方法。
CN202210139326.7A 2021-02-06 2021-02-06 基于匿名化分析的大数据隐私保护方法及大数据处理设备 Withdrawn CN114564741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210139326.7A CN114564741A (zh) 2021-02-06 2021-02-06 基于匿名化分析的大数据隐私保护方法及大数据处理设备

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210139326.7A CN114564741A (zh) 2021-02-06 2021-02-06 基于匿名化分析的大数据隐私保护方法及大数据处理设备
CN202110175876.XA CN112818398B (zh) 2021-02-06 2021-02-06 针对大数据隐私保护的数据处理方法及大数据处理设备

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN202110175876.XA Division CN112818398B (zh) 2021-02-06 2021-02-06 针对大数据隐私保护的数据处理方法及大数据处理设备

Publications (1)

Publication Number Publication Date
CN114564741A true CN114564741A (zh) 2022-05-31

Family

ID=75864454

Family Applications (3)

Application Number Title Priority Date Filing Date
CN202110175876.XA Active CN112818398B (zh) 2021-02-06 2021-02-06 针对大数据隐私保护的数据处理方法及大数据处理设备
CN202210139315.9A Withdrawn CN114564740A (zh) 2021-02-06 2021-02-06 大数据匿名化处理方法及大数据处理设备
CN202210139326.7A Withdrawn CN114564741A (zh) 2021-02-06 2021-02-06 基于匿名化分析的大数据隐私保护方法及大数据处理设备

Family Applications Before (2)

Application Number Title Priority Date Filing Date
CN202110175876.XA Active CN112818398B (zh) 2021-02-06 2021-02-06 针对大数据隐私保护的数据处理方法及大数据处理设备
CN202210139315.9A Withdrawn CN114564740A (zh) 2021-02-06 2021-02-06 大数据匿名化处理方法及大数据处理设备

Country Status (1)

Country Link
CN (3) CN112818398B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849133B (zh) * 2021-09-29 2023-09-12 珠海格力电器股份有限公司 隐私数据的处理方法、装置、电子设备及存储介质
US11593521B1 (en) 2022-02-04 2023-02-28 Snowflake Inc. Tag-based application of masking policy
CN115456101B (zh) * 2022-09-23 2023-09-12 上海豹云网络信息服务有限公司 一种基于数据中台的数据安全传输方法及系统
CN116436704B (zh) * 2023-06-13 2023-08-18 深存科技(无锡)有限公司 面向用户隐私数据的数据处理方法和数据处理设备
CN116842562B (zh) * 2023-06-30 2024-03-15 煋辰数梦(杭州)科技有限公司 基于隐私计算技术的大数据安全平台
CN117786739A (zh) * 2023-12-19 2024-03-29 国网青海省电力公司信息通信公司 数据处理方法、服务器及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101175190B1 (ko) * 2008-11-19 2012-08-20 한국전자통신연구원 데이터의 프라이버시를 보호하기 위한 회전 기반 변환 방법및 장치
CN105046601A (zh) * 2015-07-09 2015-11-11 传成文化传媒(上海)有限公司 用户数据处理方法和系统
CN106529329A (zh) * 2016-10-11 2017-03-22 中国电子科技网络信息安全有限公司 一种用于大数据的脱敏系统及脱敏方法

Also Published As

Publication number Publication date
CN112818398B (zh) 2022-04-01
CN114564740A (zh) 2022-05-31
CN112818398A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112818398B (zh) 针对大数据隐私保护的数据处理方法及大数据处理设备
JP2014029732A (ja) 画像の検索および読み出しに関する基準を用いて画像内容の描写を生成する方法
CN109933502B (zh) 电子装置、用户操作记录的处理方法和存储介质
CN111756522A (zh) 数据处理方法及系统
CN114550076A (zh) 区域异常行为监控方法、装置、设备及存储介质
CN115238286A (zh) 一种数据防护方法、装置、计算机设备及存储介质
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN113642025A (zh) 接口数据处理方法、装置、设备及存储介质
CN112732693B (zh) 智能化物联网数据采集方法、装置、设备及存储介质
CN114356712B (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN111368128B (zh) 目标图片的识别方法、装置和计算机可读存储介质
CN112464180A (zh) 页面截图外发管控方法、系统、电子设备及存储介质
CN117313159A (zh) 一种数据处理方法、装置、设备以及存储介质
CN116089541B (zh) 一种海量不动产登记数据异常识别方法
CN111429110A (zh) 门店标准化审核方法、装置、设备及存储介质
CN114528908B (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN116318860A (zh) 一种用于网络安全设备的智能控制方法
CN113888760A (zh) 基于软件应用的违规信息监控方法、装置、设备及介质
CN113868503A (zh) 商品图片合规检测的方法、装置、设备和存储介质
CN114693955A (zh) 比对图像相似度的方法与装置及电子设备
CN117112846B (zh) 一种多信息源证照信息管理方法、系统及介质
CN113988176B (zh) 样本标注方法和装置
CN115048543B (zh) 图像相似判断方法、图像搜索方法及设备
CN115695054B (zh) 基于机器学习的waf拦截页面识别的方法、装置及相关组件
CN118509433A (zh) 基于云服务平台下的数据隐私保护方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220531