CN109766715A

CN109766715A - 一种面向大数据环境隐私信息防泄露自动识别方法及系统

Info

Publication number: CN109766715A
Application number: CN201811581970.XA
Authority: CN
Inventors: 杨玉龙
Original assignee: Guizhou Aerospace Institute of Measuring and Testing Technology
Current assignee: Guizhou Aerospace Institute of Measuring and Testing Technology
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2019-05-17
Anticipated expiration: 2038-12-24
Also published as: CN109766715B

Abstract

本公开涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统，所述方法包括：筛选关键词、判定关键词自动提取；根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。本发明实现简单，针对数据采集或数据流通的输出口面临海量数据的情况，极大程度减少隐私信息判定模块判定数据量，提升了隐私信息的判定准确率；实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率；实现了关键词列表与分类器的及时更新，进一步提升了隐私信息筛选的召回率和判定准确率。

Description

一种面向大数据环境隐私信息防泄露自动识别方法及系统

技术领域

本发明涉及一种面向大数据环境隐私信息防泄露自动识别方法及系统。

背景技术

目前，随着政府数据开放共享进程的日益加快以及大数据在政务、交通、旅游等领域的广泛应用，政府、企业等数据提供者面临隐私信息泄露的严峻问题和挑战。可以说，隐私信息泄露已经成为制约大数据开放共享的瓶颈，并进一步限制了大数据产业的发展。

为保障政务、交通、旅游等领域数据开放共享进程中，用户隐私不被泄露，国家出台了一系列信息安全相关的法律法规，例如“网络安全法”、“保密法”、“中华人民共和国政府信息公开条例”，这就要求数据在开放共享的过程中必须符合特定的条件，必须保证用户的隐私信息不被泄露。因此，要实现数据的开放共享，发挥数据资源的价值，又要保证用户的隐私信息安全，是目前信息安全技术领域具有挑战性的问题。

目前，面向大数据环境的隐私信息保护多采用访问控制、数据脱敏、密码技术三种方式：

(1)访问控制：采用基于属性的访问控制技术，根据用户属性限制对隐私数据的访问，访问非授权用户访问隐私信息。该方法通过降低数据开放共享程度来保护用户隐私，限制了数据资源价值的挖掘。

(2)数据脱敏：多采用置换、关键字提取等方式对隐私信息进行处理，在处理的同时数据存在一定程度的失真，难以分析挖掘出数据资源潜在的价值；采用自然语言处理技术、机器学习技术实现数据脱敏，可自动完善关键词库，保障隐私信息安全，但同样存在数据置换导致的数据失真问题，且计算效率低。

(3)密码技术：采用同态加密技术对数据进行加密处理，保障数据流通过程中的隐私信息安全。该方法可保证用户隐私不被泄露，但计算的效率低，开销大；采用差分隐私、k-匿名等算法对开放共享的数据进行处理，保障隐私信息不被泄露。该方法能保证数据的真实性，但存在开放共享数据中信息的丢失，限制了数据资源价值的挖掘。

综上所述：存在的问题：

(1)已有的隐私数据保护方法大都是针对结构化数据，对于非结构化数据(如文本数据)很少涉及。

(2)采用数据脱敏技术保护用户隐私安全，均存在一定程度的数据失真，且未考虑计算效率问题。

(3)已有的隐私数据保护方法大都是直接对隐私数据进行处理，但是并未考虑到如何发现隐私信息，如何提高隐私信息的识别率。

发明内容

本发明所要解决的技术问题在于提供一种面向大数据环境隐私信息防泄露自动识别方法及系统，解决目前数据开放共享面临的隐私信息泄露问题，保障数据流通中隐私信息安全。

为解决上述技术问题，本发明采用的技术方案是：一种面向大数据环境隐私信息防泄露自动识别方法，其特征在于，包括：

筛选关键词、判定关键词自动提取；

根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；

对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。

本发明的另一目的在于提供一种面向大数据环境隐私信息防泄露自动识别系统，其特征在于，包括：

关键词提取模块，用于筛选关键词、判定关键词自动提取；

初步筛选模块：用于根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；

隐私信息判定模块：用于对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。

与现有技术相比，本发明具有以下有益的技术效果：

实现简单，包括：筛选关键词、判定关键词自动提取；根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。针对数据采集或数据流通的输出口面临海量数据的情况，通过采用两层结构设计，在初步筛选模块可快速过滤掉肯定无隐私信息的内容，极大程度减少隐私信息判定模块判定数据量，提升了隐私信息的判定准确率；在筛选关键词、判定关键词生成阶段与隐私信息判定模块均采用了语义分析、机器学习、主题提取技术，实现了文本关键词的自动提取和隐私信息的深度分析、判定高准确率；在隐私信息判定模块设计了反馈机制，实现了关键词列表与分类器的及时更新，进一步提升了隐私信息筛选的召回率和判定准确率。

附图说明

图1为本发明面向大数据环境的隐私信息防泄露自动识别系统结构示意图；

图2是本发明隐私信息关键词提取模块工作流程图；

图3是本发明隐私信息判定模块反馈机制工作流程图。

具体实施方式

下面通过具体实施方案对本发明作进一步详细描述，但这些实施实例仅在于举例说明，并不对本发明的范围进行限定。

请参照图1至图3，本发明的一种面向大数据环境隐私信息防泄露自动识别方法，其特征在于，包括：筛选关键词、判定关键词自动提取；根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。

在一个实施例中，所述筛选关键词、判定关键词自动提取的步骤包括：根据实践经验、专家论证，完善指定领域的词典，形成领域词典；对指定领域人工标定的样本进行预处理，应用领域词典，对文本进行分词；提取文档主题，形成“主题”—“关键词”模型，以此训练分类器，生成筛选关键词、判定关键词。

在一个实施例中，所述提取文档主题采用LDA主题提取算法。

在一个实施例中，所述根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入的步骤包括：将采集获得的数据或参与数据流通的数据作为输入，传输至初步筛选模块；将输入数据与筛选关键词匹配，过滤掉跟隐私完全无关内容。

在一个实施例中，进一步包括：存储筛选掉的数据。

在一个实施例中，所述对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果的步骤还包括：提取输入文档主题，获取“主题”—“关键词”概率路径，与所述“主题”—“关键词”模型匹配，确定输入数据是否含有隐私信息。

在一个实施例中，所述提取输入文档主题采用LDA主题提取算法。

在一个实施例中，进一步包括：存储判定为不含隐私信息的输入数据。

在一个实施例中，进一步包括：对判定的隐私信息进行人工标定。

本发明还提供一种面向大数据环境隐私信息防泄露自动识别系统，包括：关键词提取模块，用于筛选关键词、判定关键词自动提取；初步筛选模块：用于根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入；隐私信息判定模块：用于对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果。

在一个实施例中，所述面向大数据环境的隐私信息防泄露自动识别系统，实现方法中采用两级结构，提升了隐私信息判定的准确率；采用语义分析、机器学习、主题提取技术，实现了隐私信息的自动识别，所述的实现方法包括以下步骤：

步骤1：根据指定领域数据特点，提供人工标定的样本，通过关键词提取模块形成筛选关键词、判定关键词；

步骤2：将采集获得的数据或参与数据流通的数据作为输入，通过初步筛选模块过滤掉跟隐私完全无关，可以肯定无隐私信息的内容；

步骤3：存储筛选掉的数据，以备数据流通；

步骤4：将初步筛选后的数据作为输入，传输至隐私信息判定模块；

步骤5：通过隐私信息判定模块，对筛选后的数据进行深度的内容分析，给出判定结果；

步骤6：存储判定为不含隐私信息的输入数据，以备数据流通；

步骤7：对判定的隐私信息进行人工标定，以此进一步更新步骤1中关键词列表，训练步骤1中分类器。

步骤1所述的根据指定领域数据特点，提供人工标定的样本，通过关键词提取模块形成筛选关键词、判定关键词，包括以下步骤：

步骤1.1：根据实践经验、专家论证，完善指定领域的词典，形成领域词典；

步骤1.2：对指定领域人工标定的样本进行预处理，应用领域词典，对文本进行分词；

步骤1.3：采用LDA主题提取算法提取文档主题，形成“主题”—“关键词”模型，以此训练分类器，生成筛选关键词、判定关键词。

步骤2所述将采集获得的数据或参与数据流通的数据作为输入，通过初步筛选模块过滤掉跟隐私完全无关，可以肯定无隐私信息的内容，包括以下步骤：

步骤2.1：将采集获得的数据或参与数据流通的数据作为输入，传输至初步筛选模块；

步骤2.2：在初步筛选模块，将输入数据与筛选关键词匹配，过滤掉跟隐私完全无关，可以肯定无隐私信息的内容；

步骤2.3：将初步筛选后的数据作为输入，传输至隐私信息判定模块。

步骤5所述通过隐私信息判定模块，对筛选后的数据进行深度的内容分析，给出判定结果，包括以下步骤：

步骤5.1：隐私信息判定模块接收到初步筛选模块输入的数据；

步骤5.2：在隐私信息判定模块，采用LDA主题提取算法提取输入文档主题，获取“主题”—“关键词”概率路径，与步骤1.3所述“主题”—“关键词”模型匹配，确定输入数据是否含有隐私信息；

步骤5.3：对隐私信息进行人工标定，反馈给步骤1.3，以此进一步更新关键词列表，训练分类器。

作为具体的实施例，所述的实现方法包括以下步骤：

步骤1：根据指定领域数据特点，提供人工标定的样本，通过关键词提取模块形成筛选关键词、判定关键词，也包括以下步骤：

步骤1.3：采用LDA主题提取算法提取文档主题，形成“主题”—“关键词”模型，以此训练分类器，生成筛选关键词、判定关键词；

步骤2：将采集获得的数据或参与数据流通的数据作为输入，通过初步筛选模块过滤掉跟隐私完全无关，可以肯定无隐私信息的内容，也包括以下步骤：

步骤2.3：将初步筛选后的数据作为输入，传输至隐私信息判定模块；

步骤3：存储筛选掉的数据，以备数据流通；

步骤5：通过隐私信息判定模块，对筛选后的数据进行深度的内容分析，给出判定结果，也包括以下步骤：

步骤5.3：对隐私信息进行人工标定，反馈给步骤1.3，以此进一步更新关键词列表，训练分类器；

本发明实现了以下有益的技术效果：

本发明虽然已选取较好实施例公开如上，但并不用于限定本发明。显然，这里无需也无法对所有实施方式予以穷举。任何本领域研究人员在不脱离本发明的精神和范围内，都可采用上述公开实施例中的设计方式和内容对本发明的研究方案进行变动和修改，因此，凡是未脱离本发明方案的内容，依据本发明的研究实质对上述实施例所作的任何简单修改，参数变化及修饰，均属于本发明方案的保护范围。

Claims

1.一种面向大数据环境隐私信息防泄露自动识别方法，其特征在于，包括：

筛选关键词、判定关键词自动提取；

2.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，所述筛选关键词、判定关键词自动提取的步骤包括：

根据实践经验、专家论证，完善指定领域的词典，形成领域词典；

对指定领域人工标定的样本进行预处理，应用领域词典，对文本进行分词；

提取文档主题，形成“主题”—“关键词”模型，以此训练分类器，生成筛选关键词、判定关键词。

3.根据权利要求2所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，所述提取文档主题采用LDA主题提取算法。

4.根据权利要求1所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，所述根据提取的关键词，过滤掉肯定无隐私信息的内容，为隐私信息判定模块提供输入的步骤包括：

将采集获得的数据或参与数据流通的数据作为输入，传输至初步筛选模块；

将输入数据与筛选关键词匹配，过滤掉跟隐私完全无关内容。

5.根据权利要求2所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，进一步包括：存储筛选掉的数据。

6.根据权利要求5所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，所述对初步筛选后的数据进行深度的内容分析，对隐私信息进行判定，给出判定结果的步骤还包括：

提取输入文档主题，获取“主题”—“关键词”概率路径，与所述“主题”—“关键词”模型匹配，确定输入数据是否含有隐私信息。

7.根据权利要求6所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，所述提取输入文档主题采用LDA主题提取算法。

8.根据权利要求7所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，进一步包括：存储判定为不含隐私信息的输入数据。

9.根据权利要求8所述的面向大数据环境隐私信息防泄露自动识别方法，其特征在于，进一步包括：对判定的隐私信息进行人工标定。

10.一种面向大数据环境隐私信息防泄露自动识别系统，其特征在于，包括：

关键词提取模块，用于筛选关键词、判定关键词自动提取；