CN108763961B

CN108763961B - 一种基于大数据的隐私数据分级方法和装置

Info

Publication number: CN108763961B
Application number: CN201810565726.8A
Authority: CN
Inventors: 刘晓鹏; 张志群; 刘智国; 朱广宇; 杨丰源; 孙浩楠; 李建忠; 赵云龙; 唐球; 卢凯; 陈波; 秦媛媛; 张松清; 张宏斌; 于增明
Original assignee: 6th Research Institute of China Electronics Corp
Current assignee: 6th Research Institute of China Electronics Corp
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2020-05-22
Anticipated expiration: 2038-06-04
Also published as: CN108763961A

Abstract

本申请提供了一种基于大数据的隐私数据分级方法和装置，用于解决现有技术中对隐私数据的分类遗漏和分级不准，也无法快速感知公众对隐私数据敏感度的变化，导致隐私数据泄露影响信息安全的问题。所述方法包括：由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的所述关键词生成高频词集合；基于所述高频词集合确定所述待处理隐私数据的隐私分类；基于采集的大数据中已分类和分级的所述隐私数据中，词频在第二预设阈值之上的所述关键词建立高频词矩阵；以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的隐私分级。

Description

一种基于大数据的隐私数据分级方法和装置

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种基于大数据的隐私数据分级方法和装置。

背景技术

随着互联网和大数据技术的发展，隐私数据安全已经成为时下人们最为关注的问题之一。数据传递的日益便捷化，能够方便生活之外，还能够创造巨大生产价值，但是，出同样由于数据传递的便捷，数据中的隐私数据在传递过程中也可能带来私密信息泄露，存在安全隐患。因此，隐私数据的保护越来越受到人们重视，而基于大数据的隐私数据的分类分级技术是隐私保护的关键技术之一。

当前对隐私数据保护的研究，主要集中于对隐私属性及其分类的研究和基本分类或分级后的隐私数据保护的研究，而对隐私数据分类分级的手段，还基本停留在人工设定隐私数据的种类或等级。由于隐私数据的复杂性，人工分类分级存在不能及时响应，认识的局限性以及偏差，容易导致分类遗漏和分级不准，也无法快速感知公众对隐私数据敏感度的变化，导致一些已经不再敏感或某些因突发事件而敏感度急升的信息，不能自适应的调整隐私数据的分类分级，造成数据不能充分变现，以上因素都可能导致隐私数据泄露等信息安全事故。

发明内容

有鉴于此，本申请的目的在于提供一种基于大数据的隐私数据分级方法和装置，用于解决现在技术中对隐私数据的分类遗漏和分级不准，也无法快速感知公众对隐私数据敏感度的变化，导致隐私数据泄露影响信息安全的问题。

第一方面，本申请实施例提供了一种基于大数据的隐私数据分级方法，包括：

由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的所述关键词生成高频词集合；

基于所述高频词集合确定所述待处理隐私数据的隐私分类；

基于采集的大数据中已分类和分级的所述隐私数据中，词频在第二预设阈值之上的所述关键词建立高频词矩阵；

以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的隐私分级。

可选的，所述由所述待处理隐私数据中提取多个高频的所述关键词，取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合，包括：

通过词频TF技术由所述待处理隐私数据中提取多个高频的所述关键词；

通过逆文件频率IDF技术由提取到的所述关键词中，取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合。

可选的，所述基于所述高频词集合确定所述待处理隐私数据的隐私分类，包括：

采取朴素贝叶斯方法将所述高频词集合中的所述关键词作为属性对所述待处理隐私数据进行分类，确定所述待处理隐私数据的所述隐私分类。

可选的，所述基于采集的大数据中已分类和分级的所述隐私数据中，词频在第二预设阈值之上的所述关键词建立高频词矩阵，包括：

根据词频在所述第二预设阈值之上的所述关键词建立高频词词库；

以所述高频词词库中的每一个所述关键词为例元素，以所述隐私数据为行元素建立所述高频词矩阵；

所述高频词矩阵的矩阵元素为所在行的所述隐私数据是否包含所述矩阵元素所在列的所述关键词，若是则所述矩阵元素为1，若否则所述矩阵元素为0。

可选的，所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的所述隐私分级，包括：

采取支持向量机方法，以所述高频词矩阵中的所述矩阵元素作为输入，结合所述待处理隐私数据的所述隐私分类和所述高频词矩阵中的所述隐私数据所述隐私分类的对应关系，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的所述隐私分级。

本申请实施例中，通过大数据进行整理和统计，以已分类和已分级的所述隐私数据作为基础，建立所述高频词矩阵，从而对感知的所述待处理隐私数据进行自适应分类分级，减少分类遗漏和提高分级准确度，从而提高信息安全度。

第二方面，本申请实施例提供一种基于大数据的隐私数据分级装置，包括：

关键词提取模块，用于由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的所述关键词生成高频词集合；

分类模块，用于基于所述高频词集合确定所述待处理隐私数据的隐私分类；

矩阵模块，用于基于采集的大数据中已分类和分级的所述隐私数据中，词频在第二预设阈值之上的所述关键词建立高频词矩阵；

分级模块，用于以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的隐私分级。

可选的，所述关键词提取模块，具体用于：

可选的，所述分类模块，具体用于：

可选的，所述矩阵模块，具体用于：

可选的，所述分级模块，具体用于：

本申请实施例中，通过所述矩阵模块大数据进行整理和统计，以已分类和已分级的所述隐私数据作为基础，建立所述高频词矩阵，从而对所述关键词提取模块感知的所述待处理隐私数据，通过所述分类模块和所述分级模块进行自适应分类分级，减少分类遗漏和提高分级准确度，从而提高信息安全度。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于大数据的隐私数据分级方法的流程图；

图2为本申请实施例提供的对隐私数据分类和分级后定期抽取数据属性更新的流程图；

图3为本申请实施例提提供一种基于大数据的隐私数据分级装置的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所述，本申请实施例提供了一种基于大数据的隐私数据分级方法，包括：

101，由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的关键词生成高频词集合。

102，基于高频词集合确定待处理隐私数据的隐私分类。

103，基于采集的大数据中已分类和分级的隐私数据中，词频在第二预设阈值之上的关键词建立高频词矩阵。

104，以高频词矩阵和待处理隐私数据的隐私分类，对待处理隐私数据进行分级处理，得到待处理隐私数据的隐私分级。

可选的，步骤101中，由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的关键词生成高频词集合，可以通过如下具体方式实现，包括：

通过词频(Term Frequency，TF)技术由待处理隐私数据中提取多个高频的关键词；

通过逆文件频率(Inverse Document Frequency，IDF)技术由提取到的关键词中，取词频在第一预设阈值之上的关键词生成高频词集合。

对TF技术和IDF技术说明如下：

TF技术是用于信息检索与数据挖掘的加权技术，以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，从而确定关键词。

在待处理隐私数据里，TF是对词数(term count)的归一化。在待处理隐私数据d_j中，词语t_i的重要性可表示为tf_i，j，如公式(1)所示：

其中，n_i，j是词语t_i在待处理隐私数据d_j中的出现次数，∑_kn_k，j是在待处理隐私数据d_j中出现的所有字词次数之和。

IDF技术是一个词语普遍重要性的度量，某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到，该对数值如公式(2)所示：

其中，j是待处理隐私数据d_j的条数；|D|是语料库中的文件总数，语料库指经科学取样和加工的大规模电子文本库；|{j：t_i∈d_j}|是包含词语t_i的数据条数，如果该词语不在语料库中，就会导致被除数为零，因此一般情况下使用1+|{j：t_i∈d_j}|。

由上，词语t_i的词频tfidf_ij可以采用公式(3)得到：

tfidf_ij＝tf_i，j×id_fi (3)

取待处理隐私数据d_j中词频在第一预设阈值之上的关键词生成高频词集合。当然可以按照排名取关键词，例如词频排在前10的关键词生成高频词集合，或者取词频排在前20的关键词生成高频词集合，在此不做限制。

可选的，步骤102中，基于高频词集合确定待处理隐私数据的隐私分类，可以通过如下具体方式实现，包括：

采取朴素贝叶斯方法将高频词集合中的关键词作为属性对待处理隐私数据进行分类，确定待处理隐私数据的隐私分类。

朴素贝叶斯方法是基于贝叶斯定理与特征条件独立假设的分类方法，在此不再赘述。

可选的，步骤103中，基于采集的大数据中已分类和分级的隐私数据中，词频在第二预设阈值之上的关键词建立高频词矩阵，可以通过如下具体方式实现，包括：

根据词频在第二预设阈值之上的关键词建立高频词词库；

以高频词词库中的每一个关键词为例元素，以隐私数据为行元素建立高频词矩阵；

高频词矩阵的矩阵元素为所在行的隐私数据是否包含矩阵元素所在列的关键词，若是则矩阵元素为1，若否则矩阵元素为0。

可选的，步骤104中，以高频词矩阵和待处理隐私数据的隐私分类，对待处理隐私数据进行分级处理，得到待处理隐私数据的隐私分级，可以通过如下具体方式实现，包括：

采取支持向量机方法，以高频词矩阵中的矩阵元素作为输入，结合待处理隐私数据的隐私分类和高频词矩阵中的隐私数据隐私分类的对应关系，对待处理隐私数据进行分级处理，得到待处理隐私数据的隐私分级。

需要说明的是，结合图1所示，提供图2所示的数据处理的流程示意图，在图2中对于待处理隐私数据进行分类和分级后，可添加的隐私数据库中，并定期的抽取数据属性更新，从而为后续的数据分类和分级提供依据。例如，步骤201，根据大数据对待处理隐私数据进行隐私分类；步骤202，根据大数据对待处理隐私数据进行隐私分级；步骤203，将分类和分级后的待处理隐私数据添加到隐私数据库中；步骤204，定期的抽取数据属性更新。当然，在具体实施时，可能会存在多种具体实施情况，在此不再一一列举。

本申请实施例中，通过大数据进行整理和统计，以已分类和已分级的隐私数据作为基础，建立高频词矩阵，从而对感知的待处理隐私数据进行自适应分类分级，减少分类遗漏和提高分级准确度，从而提高信息安全度。

如图3所示，本申请实施例提供一种基于大数据的隐私数据分级装置，包括：

关键词提取模块301，用于由待处理隐私数据中提取多个高频的关键词，取词频在第一预设阈值之上的关键词生成高频词集合；

分类模块302，用于基于高频词集合确定待处理隐私数据的隐私分类；

矩阵模块303，用于基于采集的大数据中已分类和分级的隐私数据中，词频在第二预设阈值之上的关键词建立高频词矩阵；

分级模块304，用于以高频词矩阵和待处理隐私数据的隐私分类，对待处理隐私数据进行分级处理，得到待处理隐私数据的隐私分级。

可选的，关键词提取模块301，具体用于：

通过词频TF技术由待处理隐私数据中提取多个高频的关键词；

通过逆文件频率IDF技术由提取到的关键词中，取词频在第一预设阈值之上的关键词生成高频词集合。

可选的，分类模块302，具体用于：

可选的，矩阵模块303，具体用于：

根据词频在第二预设阈值之上的关键词建立高频词词库；

可选的，分级模块304，具体用于：

本申请实施例中，通过矩阵模块303大数据进行整理和统计，以已分类和已分级的隐私数据作为基础，建立高频词矩阵，从而对关键词提取模块301感知的待处理隐私数据，通过分类模块302和分级模块304进行自适应分类分级，减少分类遗漏和提高分级准确度，从而提高信息安全度。

在本申请所提供的实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于大数据的隐私数据分级方法，其特征在于，包括：

基于所述高频词集合确定所述待处理隐私数据的隐私分类；

以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的隐私分级；

所述基于采集的大数据中已分类和分级的所述隐私数据中，词频在第二预设阈值之上的所述关键词建立高频词矩阵，包括：

以所述高频词词库中的每一个所述关键词为列元素，以所述隐私数据为行元素建立所述高频词矩阵；

2.根据权利要求1所述的方法，其特征在于，所述由所述待处理隐私数据中提取多个高频的所述关键词，取词频在所述第一预设阈值之上的所述关键词生成所述高频词集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述高频词集合确定所述待处理隐私数据的隐私分类，包括：

4.根据权利要求1所述的方法，其特征在于，所述以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的所述隐私分级，包括：

5.一种基于大数据的隐私数据分级装置，其特征在于，包括：

分级模块，用于以所述高频词矩阵和所述待处理隐私数据的所述隐私分类，对所述待处理隐私数据进行分级处理，得到所述待处理隐私数据的隐私分级；

所述矩阵模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述关键词提取模块，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述分类模块，具体用于：

8.根据权利要求5所述的装置，其特征在于，所述分级模块，具体用于：