CN115292510A

CN115292510A - 面向gdpr的隐私政策合规性检测方法

Info

Publication number: CN115292510A
Application number: CN202210799884.6A
Authority: CN
Inventors: 邱卫东; 李昕; 唐鹏; 郭捷; 王杨德
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2022-07-06
Filing date: 2022-07-06
Publication date: 2022-11-04

Abstract

一种面向GDPR的隐私政策合规性检测方法，将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知识图谱，并通过该知识图谱标注收集到的层级结构的隐私政策，形成面向GDPR的隐私政策语料库；再通过面向GDPR的隐私政策合规性检测模型，能够对隐私政策中的文本预测是否属于GDPR中的某项条款。本发明实现全面覆盖GDPR的隐私政策的智能分析及合规性检测，为在线服务、app等互联网服务提供面向GDPR的隐私政策合规性建议和检测支撑。

Description

面向GDPR的隐私政策合规性检测方法

技术领域

本发明涉及的是一种机器学习应用领域的技术，具体是一种基于知识图谱及机器学习的面向《通用数据保护条例》(GDPR)的隐私政策合规性检测方法。

背景技术

现有隐私政策合规检测方法通常对隐私政策中的单句或者段落进行合规性检测，利用词嵌入方法将隐私政策中的句子转换为向量，再通过机器学习或者深度学习方法进行合规性分类。但是目前的方法未考虑隐私政策中句子或者段落的上下文特征，同时合规性检测未能完全覆盖GDPR相关要求。

发明内容

本发明针对现有技术无法检测面向GDPR的隐私政策中条目的类别的不足，提出一种面向GDPR的隐私政策合规性检测方法，实现全面覆盖GDPR的隐私政策的智能分析及合规性检测，为在线服务、app等互联网服务提供面向GDPR的隐私政策合规性建议和检测支撑。

本发明是通过以下技术方案实现的：

本发明涉及一种面向GDPR的隐私政策合规性检测方法，包括以下步骤：

步骤1)知识图谱构建：将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知识图谱，并通过该知识图谱标注收集到的层级结构的隐私政策，形成面向GDPR的隐私政策语料库。

所述的知识图谱由一个包含三级节点的图构成，包括18个一级节点、39个二级节点以及38个三级节点，每一个节点都对应GDPR中的一个要求条款，该知识图谱总结GDPR对于隐私政策的一般要求。

所述的语料库包括150个从在线服务网站中收集到的隐私政策，该语料库中的隐私政策具有层级结构，即包含多级标题和段落文本信息。

步骤2)构建合规性检测分类器，对GDPR知识图谱中的每一条要求，使用语料库中的相关数据构建数据集，提取包含上下文信息的特征作为输入训练相应的分类器，完成GDPR知识图谱中每一条要求的检测分类器，最终构成面向GDPR的隐私政策合规性检测模型，能够对隐私政策中的文本预测是否属于GDPR中的某项条款。

所述的合规性检测分类器为random forest模型，包括：标题分类器和段落分类器，分别对隐私政策的标题和散文段落进行合规性检测。

技术效果

本发明完成面向GDPR的隐私政策合规性分析，覆盖GDPR对隐私政策的各项要求，基于机器学习的分类器达到良好稳定的效果。

附图说明

图1为本发明的总体架构图；

图2为本发明构建的知识图谱；

图3为本发明的合规性检测分类器构建流程。

具体实施方式

如图1所示，为本实例涉及的一种面向GDPR的隐私政策合规性智能检测方法，包括：知识图谱构建和合规性检测分类器构建，其中：知识图谱构建总结并抽象出GDPR对于隐私政策的一般要求，构建三级结构的知识图谱，共包含95个GDPR的主题标签，并利用该知识图谱标注150个层级结构的隐私政策，形成面向GDPR的隐私政策语料库；合规性检测分类器是根据语料库中每个隐私政策包含的标题和段落文本，分别训练知识图谱中每一个节点的标题分类器和段落分类器，最后构成隐私政策的合规性检测模型。

所述方法具体包括以下步骤：

步骤一、知识图谱构建；针对GDPR的一般要求，抽象出三级结构的知识图谱，并根据知识图谱对收集到的隐私政策数据进行手工标注，形成隐私政策语料库，具体包括：

步骤1.1)知识图谱一级节点提取；GDPR共包含99章，对数据管辖区域、数据主体权利、数据跨境传输等作出明确要求，根据这些要求，提取18个一级节点，包括数据控制方、数据主体权利、数据类别、数据来源等。

步骤1.2)知识图谱二级节点提取；在上述一级节点下，根据GDPR对部分一级节点的进一步要求，如数据主体权利中明确需要包含知情权、遗忘权、删除权等等，提取这些要求并抽象成二级节点，并链接到知识图谱中相应的一级节点之后。二级节点包括：DATASUBJECT RIGHT下的INFORMATION、ACCESS、WITHDRAWCONSENT等。

步骤1.3)知识图谱三级节点提取；在上述二级节点下，根据GDPR对部分二级节点的进一步要求，如数据控制方联系方式的电话号码、数据控制方身份证明的注册号等，提取这些要求并抽象成三级节点，并链接到知识图谱中对应的二级节点之后。三级节点包括：CONTROLER.IDENTITY下的REGISTERNUMBER等。

步骤1.4)语料库构建；上述步骤构建如图2所示的三级结构的知识图谱，根据该知识图谱中的节点标签，对收集到的150个在线服务的隐私政策进行标注，标注的内容包括隐私政策中的标题以及段落文本，最终形成面向GDPR的隐私政策语料库。

步骤二、合规性检测分类器构建：使用步骤一构建的隐私政策语料库训练隐私政策合规性检测模型，该模型包括文本分类器和段落分类器，能够为隐私政策中的标题或者段落文本提供一个或多个知识图谱中的GDPR主题标签，从而完成对隐私政策的合规性检测。

步骤2.1)标题分类器；根据知识图谱中的每一个节点，训练相应的标题二分类器，分类器的输入为标题相应的特征，输出为该标题是否为知识图谱中该节点的要求。

所述的标题分类器中输入为标题相应的特征，包括标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量。其中标题的父节点标签矩阵特征为隐私政策网页中当前标题所在节点的父节点的标签，标题的兄弟节点标签矩阵为隐私政策网页中当前标题所在节点的兄弟节点的标签，通常当父节点涉及到某个GDPR条款的时候，并且其兄弟节点也涉及到该GDPR条款或者子条款，那么当前这个节点大概率会是相应的GDPR条款，例如当前节点的父节点的标签是数据主体权利，其兄弟节点的标签是数据主体权利下面的删除权，那么当前节点大概率也是属于数据主体权利的，因此使用标题的父节点标签以及标题的兄弟节点标签作为标题的两个特征，而每个节点都可能存在多个标签，因此父节点标签和兄弟节点标签都以矩阵的形式作为输入；其中句向量特征是采用词嵌入的方法将标题文本转换为向量，本发明中用预训练的Glove模型计算标题中每个单词的词嵌入，通过对所有词嵌入取平均值来得到标题句子的嵌入表示，作为标题的句向量特征。

所述的标题分类器中采用随机森林(Random Forest)算法构建分类器，分类器的输入为标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量三个特征，分类器的参数包括：随机种子数为50，树深度为5。针对知识图谱中的每一个节点，构建一个标题分类器，使用语料库中隐私政策中标签为该节点的标题和随机选取标签为其它节点的标题构建该节点的数据集，按照4:1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练，最终知识图谱中部分节点的标题分类器结果如下表所示。

GDPR条款	P	R	F1
				CONTROLLER.CONTACT	0.99	0.95	0.97
DATA_SUBJECT_right	0.98	0.85	0.91
				DATA_SUBJECT_right.ACCESS	0.99	0.84	0.91
DATA_SUBJECT_right.RECTIFICATION	0.94	0.89	0.91
				DATA_SUBJECT_right.RESTRICTION	0.99	0.83	0.90
DATA_SUBJECT_right.ERASURE	0.99	0.88	0.93
				DATA_SUBJECT_right.OBJECT	1	1	1
UNKNOWN	0.91	0.79	0.84

表中精确率(precision)，表示在被所有预测为正的样本中实际为正样本的概率；召回率(recall)，表示在实际为正的样本中被预测为正样本的概率；

步骤2.2)段落分类器；根据知识图谱中的每一个节点，训练相应的段落二分类器，分类器的输入为段落相应的特征，输出为该段落是否为知识图谱中该节点的要求。

所述的段落分类器中输入为段落相应的特征，包括段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵。其中段落的父节点标签矩阵、段落的兄弟节点标签矩阵以及段落的句向量特征与标题的特征计算方法一致，段落的父节点标签矩阵为隐私政策网页中当前段落所在节点的父节点的标签，段落的兄弟节点标签矩阵为隐私政策网页中当前段落所在节点的兄弟节点的标签，句向量用预训练的Glove模型计算段落中每个单词的词嵌入，通过对所有词嵌入取平均值来得到段落句子的嵌入表示，作为段落的句向量特征。相较于标题，段落通常是一个长文本，包含较多冗余信息，因此为减少段落中的冗余信息给分类器带来的影响，在段落分类器的输入特征中添加段落的关键词标签矩阵特征，通过构建一个包含知识图谱里面所有节点的关键词列表，用这个作为段落文本关键词的搜索依据，在段落文本中进行搜索，如果段落文本含有相应的关键词，将段落打上相应的标签，最后形成一个段落的关键词标签矩阵。

所述的段落分类器中采用随机森林算法构建分类器，分类器的输入为段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵四个特征，分类器的参数包括：随机种子数为50，树深度为5。针对知识图谱中的每一个节点，构建一个段落分类器，使用语料库中隐私政策中标签为该节点的段落和随机选取标签为其它节点的段落构建该节点的数据集，按照4：1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练，最终知识图谱中部分节点的段落分类器结果如下表所示。

GDPR条款	P	R	F1
				CONTROLLER	0.99	0.80	0.87
CONTROLLER.IDENTITY	0.99	0.76	0.84
				CONTROLLER.CONTACT	0.95	0.82	0.87
DPO.CONTACT	0.99	0.83	0.90
				DATA_SUBJECT_right	0.99	0.76	0.84
DATA_SUBJECT_right.INFORMATION	0.95	0.79	0.85
				DATA_SUBJECT_right.ACCESS	0.99	0.77	0.84
DATA_SUBJECT_right.RECTIFICATION	0.98	0.80	0.87
				UNKNOW	0.98	0.79	0.86

本实施例从Alexa排名网站中自动爬取排名靠前的150个在线服务网站的隐私政策，并对隐私政策进行层级结构的重建和还原，并150个隐私政策交给标注人员进行标注。

本实施例招募三名专业的标注人员对收集到的150个隐私政策中的标题和段落进行标注。为控制标注质量，首先由具有法律背景的专业人员对标注人员进行培训，并提供相应的例子，训练结束后，由3名标注员进行独立标注，在所有标注员对所有隐私政策标注完成之后，将所有的标注结果合并，如果3个标注员其中有2人及以上对于同一标题或者段落给出相同的标签，那么该标签作为句子的最终标签，否则对该标题或者句子进行讨论，直到达成共识，最后由具有法律背景的专业人员对所有的标注结果进行验收。

从标题分类器及段落分类器的结果可以看到，本发明提出的隐私政策合规性检测模型对于GDPR的合规性检测具有较好的效果，大部分分类器的精确率能够达到90％以上。

与现有技术相比，本方法利用隐私政策文本中的上下文特征构建分类器，提升隐私政策合规性检测模型的准确率，整体解决面向GDPR的隐私政策合规性检测问题，与现有技术相比，本发明提出一个更加完善的多级结构的GDPR知识图谱，并通过该知识图谱标记收集到的具有层级结构的隐私政策，形成面向GDPR的隐私政策语料库，使用该语料库完成隐私政策的合规性检测模型训练，为各在线服务、app等互联网服务的隐私政策面向GDPR的合规检测提供支撑，为用户选择合法合规的互联网服务提供建议，具有较强的实用价值；同时本发明的方法可以扩展到面向其它国家制定的法律法规的隐私政策合规性检测中，灵活性强。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种面向GDPR的隐私政策合规性智能检测方法，其特征在于，包括以下步骤：

步骤1)知识图谱构建：将GDPR中对于隐私政策的要求抽象形成一个三级结构的GDPR知识图谱，并通过该知识图谱标注收集到的层级结构的隐私政策，形成面向GDPR的隐私政策语料库；

步骤2)构建合规性检测分类器：对GDPR知识图谱中的每一条要求，使用语料库中的相关数据构建数据集，提取包含上下文信息的特征作为输入训练相应的分类器，完成GDPR知识图谱中每一条要求的检测分类器，最终构成面向GDPR的隐私政策合规性检测模型，能够对隐私政策中的文本预测是否属于GDPR中的某项条款。

2.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的知识图谱由一个包含三级节点的图构成，包括18个一级节点、39个二级节点以及38个三级节点，每一个节点都对应GDPR中的一个要求条款，该知识图谱总结GDPR对于隐私政策的一般要求；步骤1)中的语料库包括150个从在线服务网站中收集到的隐私政策，该语料库中的隐私政策具有层级结构，即包含多级标题和段落文本信息。

3.根据权利要求1所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的分类器为随机森林(Random Forest)模型，包括标题分类器和段落分类器，分别对隐私政策的标题和散文段落进行合规性检测，分类器的输入为标题及段落的相关特征，标题特征包括：标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量，段落特征包括：段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵。

4.根据权利要求1～3中任一所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的步骤1，具体包括：

步骤1.1)知识图谱一级节点提取；GDPR共包含99章，对数据管辖区域、数据主体权利、数据跨境传输等作出明确要求，根据这些要求，提取18个一级节点，包括数据控制方、数据主体权利、数据类别、数据来源；

步骤1.2)知识图谱二级节点提取；在上述一级节点下，根据GDPR对部分一级节点的进一步要求，如数据主体权利中明确需要包含知情权、遗忘权、删除权等等，提取这些要求并抽象成二级节点，并链接到知识图谱中相应的一级节点之后；二级节点包括：DATA SUBJECTRIGHT下的INFORMATION、ACCESS、WITHDRAW CONSENT；

步骤1.3)知识图谱三级节点提取；在上述二级节点下，根据GDPR对部分二级节点的进一步要求，如数据控制方联系方式的电话号码、数据控制方身份证明的注册号等，提取这些要求并抽象成三级节点，并链接到知识图谱中对应的二级节点之后；三级节点包括：CONTROLER.IDENTITY下的REGISTER NUMBER；

步骤1.4)语料库构建；上述步骤构建三级结构的知识图谱，根据该知识图谱中的节点标签，对收集到的150个在线服务的隐私政策进行标注，标注的内容包括隐私政策中的标题以及段落文本，最终形成面向GDPR的隐私政策语料库。

5.根据权利要求1～3中任一所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的步骤2，具体包括：

步骤2.1)标题分类器；根据知识图谱中的每一个节点，训练相应的标题二分类器，分类器的输入为标题相应的特征，输出为该标题是否为知识图谱中该节点的要求；

步骤2.2)段落分类器；根据知识图谱中的每一个节点，训练相应的段落二分类器，分类器的输入为段落相应的特征，输出为该段落是否为知识图谱中该节点的要求；

所述的标题分类器中输入为标题相应的特征，包括标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量；其中标题的父节点标签矩阵特征为隐私政策网页中当前标题所在节点的父节点的标签，标题的兄弟节点标签矩阵为隐私政策网页中当前标题所在节点的兄弟节点的标签，通常当父节点涉及到某个GDPR条款的时候，并且其兄弟节点也涉及到该GDPR条款或者子条款，那么当前这个节点大概率会是相应的GDPR条款，例如当前节点的父节点的标签是数据主体权利，其兄弟节点的标签是数据主体权利下面的删除权，那么当前节点大概率也是属于数据主体权利的，因此使用标题的父节点标签以及标题的兄弟节点标签作为标题的两个特征，而每个节点都可能存在多个标签，因此父节点标签和兄弟节点标签都以矩阵的形式作为输入；其中句向量特征是采用词嵌入的方法将标题文本转换为向量，通过采用预训练的Glove模型计算标题中每个单词的词嵌入，通过对所有词嵌入取平均值来得到标题句子的嵌入表示，作为标题的句向量特征；

所述的段落分类器中输入为段落相应的特征，包括段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵；其中段落的父节点标签矩阵、段落的兄弟节点标签矩阵以及段落的句向量特征与标题的特征计算方法一致，段落的父节点标签矩阵为隐私政策网页中当前段落所在节点的父节点的标签，段落的兄弟节点标签矩阵为隐私政策网页中当前段落所在节点的兄弟节点的标签，句向量用预训练的Glove模型计算段落中每个单词的词嵌入，通过对所有词嵌入取平均值来得到段落句子的嵌入表示，作为段落的句向量特征；相较于标题，段落通常是一个长文本，包含较多冗余信息，因此为减少段落中的冗余信息给分类器带来的影响，在段落分类器的输入特征中添加段落的关键词标签矩阵特征，通过构建一个包含知识图谱里面所有节点的关键词列表，用这个作为段落文本关键词的搜索依据，在段落文本中进行搜索，如果段落文本含有相应的关键词，将段落打上相应的标签，最后形成一个段落的关键词标签矩阵。

6.根据权利要求5所述面向GDPR的隐私政策合规性智能检测方法，其特征是，所述的标题分类器中采用随机森林算法构建分类器，分类器的输入为标题的父节点标签矩阵、标题的兄弟节点标签矩阵以及标题的句向量三个特征，分类器的参数包括：随机种子数为50，树深度为5，针对知识图谱中的每一个节点，构建一个标题分类器，使用语料库中隐私政策中标签为该节点的标题和随机选取标签为其它节点的标题构建该节点的数据集，按照4:1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练；

所述的段落分类器中采用随机森林算法构建分类器，分类器的输入为段落的父节点标签矩阵、段落的兄弟节点标签矩阵、段落的句向量以及段落的关键词标签矩阵四个特征，分类器的参数包括：随机种子数为50，树深度为5；针对知识图谱中的每一个节点，构建一个段落分类器，使用语料库中隐私政策中标签为该节点的段落和随机选取标签为其它节点的段落构建该节点的数据集，按照4：1划分训练集和测试集，采用5折交叉验证方法进行分类器的训练。