CN118035712B

CN118035712B - 一种基于nlp的数据收集合规识别方法

Info

Publication number: CN118035712B
Application number: CN202410442552.1A
Authority: CN
Inventors: 董士风; 林传文; 王佐成; 滕越; 吴光周; 田聪聪; 崔海鹰
Original assignee: Data Space Research Institute
Current assignee: Data Space Research Institute
Priority date: 2024-04-12
Filing date: 2024-04-12
Publication date: 2024-06-21
Anticipated expiration: 2044-04-12
Also published as: CN118035712A

Abstract

本发明公开了一种基于NLP的数据收集合规识别方法，包括S1、构建La‑NLP模型，并对La‑NLP模型进行预训练；S2、调用经过预训练的La‑NLP模型对相关法律法规文本数据进行训练理解并生成合规要求；S3、获取待评估数据，使用基于La‑NLP模型对待评估数据进行处理，得到文本信息单元；S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐，分析待评估数据的合规性；S5、根据分析结果评估数据合规，得到数据合规以及不合规部分的总结报告。本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。

Description

一种基于NLP的数据收集合规识别方法

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于NLP的数据收集合规识别方法。

背景技术

数据合规是数据管理的基本保障，对数据资产的全生命周期管理起到基础性支持作用。然而，在数据合规的判断过程中，如果依靠人工检查给定的收集数据是否符合相关法律法规，需要花费大量的时间和精力。而且目前的数据合规体系还未建立完善，对于数据管理没有健全风险识别和预警机制，难以准确掌握生产经营中的合规风险。最后，实际业务中因行业、数据应用场景的不同，而且数据合规实务的合规依据更新较快，数据合规理论研究远远滞后于数据合规实务的发展。因此，如何提供一种基于NLP的数据收集合规识别方法是本领域技术人员亟需解决的问题。

发明内容

本发明的一个目的在于提出一种基于NLP的数据收集合规识别方法，本发明解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。

根据本发明实施例的一种基于NLP的数据收集合规识别方法，包括如下方法步骤：

S1、构建La-NLP模型，并对La-NLP模型进行预训练；

S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求；

S3、获取待评估数据，使用基于La-NLP模型对待评估数据进行处理，得到文本信息单元；

S4、将文本信息单元生成的相应语义框架表示与合规要求的表示进行对齐，分析待评估数据的合规性；

S5、根据分析结果评估数据合规，得到数据合规以及不合规部分的总结报告。

可选的，所述La-NLP模型构建具体包括：

调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成规则库。在La-NLP模型中，为了解决在编码过程中的范围偏离问题，使用层次注意力机制替代传统注意力机制。具体实现是通过设计了一个注意力掩码应用到传统注意力操作上，层次注意力机制可以表示如下：

；

其中，C代表注意力掩码，代表哈达玛乘积，Q代表查询，K代表键，V代表值，表示特征维度；

所述注意力掩码C通过计算相邻注意力分数确定，相邻注意力分数代表相邻La- NLP模型输入基本单元的范围趋势，对于任何相邻La-NLP模型输入基本单元，相邻注意力分数计算如下：

；

其中,表示查询矩阵，表示键矩阵，表示两个相邻模型输入基本单元，表示超参数作为缩放因子；

和重复更新，将相邻亲和分数通过计算和的归一化结果的平均值得到：

；

其中，Softmax表示Softmax归一化函数；

设定添加一个约束，约束随着网络深入，相邻亲和分数为增加趋势，第层中的亲和分数计算如下：

；

其中，表示网络的第I-1层，表示相邻亲和分数；

对给定输入基本单元对，注意力掩码矩阵C的元素计算如下：

。

计算得到的注意力掩码矩阵C由所有注意头共享，并逐步更新。许多在语义和空间上相似的输入基本单元逐渐合并形成不同的聚类，这些不同的聚类被视为不同条文内容的范围。

可选的，所述La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范围，将法律条文范围和规则库之间的对齐，视为最优传输问题，利用最优传输模块进行对法律条文范围和规则库之间的相互引导。

可选的，所述S2具体包括：

最优传输问题在传输之前给定初始状态，传输后的最终状态以及单位成本函数，表示从中第i位置到中第j位置的单位传输成本，制定一个传输计划使总传输成本最小化，每个元素表示从传输到的量，总传输成本计算如下：

；

其中，表示初始状态i位置，表示传输位置j位置，表示从传输到的量，对于编码器获得的法律条文范围预测和规则库预测，利用最优传输模块度量法律条文范围预测和规则库预测之间的距离，法律条文范围预测和规则库预测的传输成本计算如下：

；

其中，表示单位成本函数，第i个法律条文范围预测，表示第j个规则预测；

利用余弦相似度定义单位成本函数，随着和之间的余弦相似度增加，对应的单位成本变低：

；

其中，表示和之间的余弦相似度值；

通过La-NLP模型对法律法规进行解析，提取出规则和要素，将规则和要素编码成一种被计算机理解的形式，并总结出规则库；

与法律专家合作从相关法律法规要求中提取n个合规要求，n个合规要求分为四个类别包括个元数据要求、个关于数据处理者义务的要求、个关于数据控制者权利的要求以及个关于数据控制者义务的要求，根据法律专家的反馈，四个类别有个是强制性要求，个是可选要求，根据合规要求建立人工库；

将规则库和人工库的合规要求进行人工合并得到完整合规要求。

可选的，所述规则库中包括对于法律法规中的条款，将复合语句分解为简单要求，定义为第一规则库，对于行业报告中的合规要求，定义为第二规则库。

可选的，所述强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息，基于关键信息进行合规性检查，所述可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的，当数据违反强制性要求时判定为不合规，在数据违反可选要求时会产生警告。

可选的，所述S3具体包括：

S31、获取待评估数据，使用La-NLP模型对输入的待评估数据进行解析和预处理；

S32、创建基于合规要求的语义框架为基础语义框架，用于表征合规要求中每个要求的信息内容，在待评估数据的文本部分上生成NLP注释，基础语义框架包括人物、权限和动作；

S33、基于基础语义框架的表示方法，自动生成输入的待评估数据生成基于语义框架的表示：

确定语句中的语义角色；

使用语义角色动作生成谓词，并使用剩余的语义角色生成论证；

使用La-NLP模型进行语义角色标注的结果，La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语。

S34、根据生成的语义框架的表示得到文本信息单元。

可选的，所述S33具体包括：

S331、给定语句中的语义角色，利用训练过的La-NLP模型进行注释，所述注释包括同义词理解适应文本中应用的不同措辞；

S332、当识别出一个语义角色，对标记分配给的文本范围进行界定，使用文本块分块产生的自然语言处理注释找到其所在的完整短语；

S333、输入的数据文本中的每个语句都被分割成一组短语，每组短语都有一个语义角色标签；

S334、短语构成对语句的基于语义框架的表示。

可选的，所述S4具体包括：

S41、使用基于合规要求和基于输入数据文本中创建的文本信息单元检查输入数据的合规性：

将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示进行对奇比较，并计算匹配程度的分数，通过将规则库的表示和文本信息单元的语义框架表示进行对比，验证数据的合规性；

S42、解析对齐分析结果，得到待评估数据对应的每个文本信息单元的合规属性。

可选的，所述S5具体包括根据分析结果来评估数据合规，生成一个数据合规以及不合规部分的详细总结报告，在输入数据文本级别上做出合规决策，在待评估数据中，如果至少有一条语句满足要求，在输入数据文本中将该要求标记为满足，否则，要求将被标记为违反，当至少一个强制要求被违反时，将视为不合规，当违反可选要求时，会有一个警告，所有的待评估数据内容都会被标记，生成总结报告。

本发明的有益效果是：

本发明考虑了在数据合规的判断过程中，人工检查给定的收集数据是否合规需要耗时费力的问题，一方面理解和识别相关法律法规的合规性要求，并在收集数据中验证这些要求。而且法律文本由于术语多、句式复杂增加了额外的复杂性，可能导致误解，因此，提出了一种自动化的解决方案来检查给定的数据是否符合相关法律法规，解决了现有技术存在的数据合规识别准确率低、效率低以及实用性低的问题。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提出的一种基于NLP的数据收集合规识别方法的流程图。

具体实施方式

现在结合附图对本发明作进一步详细的说明。这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成。

参考图1，一种基于NLP的数据收集合规识别方法，包括如下方法步骤：

S1、构建La-NLP模型，并对La-NLP模型进行预训练；

本实施方式中，La-NLP模型构建具体包括：

在La-NLP模型中应用层次注意力机制：

；

注意力掩码C通过计算相邻注意力分数确定，相邻注意力分数代表相邻La-NLP模型输入基本单元的范围趋势，对于任何相邻La-NLP模型输入基本单元，相邻注意力分数计算如下：

；

其中，Softmax表示Softmax归一化函数；

；

其中，表示网络的第I-1层，表示相邻亲和分数；

对给定输入基本单元对，注意力掩码矩阵C的元素计算如下：

。

本实施方式中，La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范围，将法律条文范围和规则库之间的对齐，视为最优传输问题，利用最优传输模块进行对法律条文范围和规则库之间的相互引导。S2、调用经过预训练的La-NLP模型对相关法律法规文本数据进行训练理解并生成合规要求；

本实施方式中，S2具体包括：

；

其中，表示和之间的余弦相似度值；

本实施方式中，规则库中包括对于法律法规中的条款，将复合语句分解为简单要求，定义为第一规则库，对于行业报告中的合规要求，定义为第二规则库。

本实施方式中，强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息，基于关键信息进行合规性检查，可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的，当数据违反强制性要求时判定为不合规，在数据违反可选要求时会产生警告。

本实施方式中，S3具体包括：

确定语句中的语义角色；

S34、根据生成的语义框架的表示得到文本信息单元。

本实施方式中，S4具体包括：

本实施方式中，S5具体包括根据分析结果来评估数据合规，生成一个数据合规以及不合规部分的详细总结报告，在输入数据文本级别上做出合规决策，在待评估数据中，如果至少有一条语句满足要求，在输入数据文本中将该要求标记为满足，否则，要求将被标记为违反，当至少一个强制要求被违反时，将视为不合规，当违反可选要求时，会有一个警告，所有的待评估数据内容都会被标记，生成总结报告。

实施例1：

实施例子背景：

设想一家名为“xxxx”的互联网公司，主要业务是提供个性化的在线内容推荐服务。公司拥有大量用户行为数据、内容数据以及交互数据。在用户使用企业产品时，企业同时也在收集和处理数据，这时会接触到大量的个人信息，如果没有合法合规地进行收集和处理数据等相关行为，大概率会侵犯到个人信息权甚至是个人隐私，从而对个人信息保护产生极大的危害。企业进行数据合规是在承担个人信息保护的社会责任，也是履行自己必要的适格处理个人信息的企业责任。

步骤一：调用预先训练的NLP模型对相关法律法规理解生成规则库；

需要调用预先训练的NLP模型来理解相关的法律法规，并生成一个规则库。这个规则库将包含与数据合规相关的法律要求、隐私政策、行业标准等信息。通过使用NLP模型，自动化地从法律法规文本中提取关键规则和要素，并将其编码成计算机可理解的形式。

步骤二：获取待评估数据，使用基于NLP模型的文本特征提取算法对待评估数据进行处理，得到文本信息单元；

xxxx互联网公司在提供个性化的在线内容推荐服务过程中会收集大量的用户行为数据、内容数据以及交互数据。为了进行数据合规审查，需要获取这些待评估数据，并使用NLP文本特征提取算法对其进行处理。这个处理过程可以包括分词、去除停用词、词性标注等步骤，以便更好地理解文本内容。处理后的数据将被分成文本信息单元，这些单元可以是句子、段落或其他合适的文本单位，以便后续的分析和对齐。

步骤三：通过将文本信息单元生成的相应语义框架表示与规则库的表示进行对齐来分析待评估数据的合规性；

在这一步骤中，使用生成的规则库和待评估数据中的文本信息单元进行对齐。这可以通过计算文本信息单元的语义框架表示（如使用BERT模型提取的特征表示）和规则库中规则的语义表示之间的相似度来实现。

通过比较语义框架表示和规则库的对齐程度，可以分析待评估数据的合规性。如果一个文本信息单元与规则库中的规则高度对齐，那么可以认为该数据在合规方面是符合要求的。相反，如果不符合规则库中的规则，那么该数据可能存在合规问题。

步骤四：最后，根据对待评估数据的分析结果来评估数据的合规性。根据对齐程度和规则库中的规则，我们可以确定数据的合规程度，并生成数据合规以及不合规部分的总结报告。

这份报告将提供详细的分析结果，包括哪些数据符合合规要求，哪些数据存在不合规问题，哪些数据存在警告合规问题，以确保xxxx互联网公司在数据收集和处理过程中遵守相关的法律法规和隐私政策，保护用户的个人信息和隐私权。通过执行以上步骤，xxxx互联网公司可以进行数据合规审查，并履行其个人信息保护的社会责任，确保合法合规地处理个人信息，为用户提供安全可靠的服务。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于NLP的数据收集合规识别方法，其特征在于，包括如下方法步骤：

S1、构建La-NLP模型，并对La-NLP模型进行预训练；

所述S3具体包括：

确定语句中的语义角色；

使用La-NLP模型进行语义角色标注的结果，La-NLP模型处理语义角色标记工具为输入数据中文本内容的每个语句分解为使用与要求中相似的语义角色标记的有意义的短语；

所述S33具体包括：

S334、短语构成对语句的基于语义框架的表示；

S34、根据生成的语义框架的表示得到文本信息单元；

所述S4具体包括：

将基于合规要求的语义框架表示与输入数据文本中每个语句的语义框架表示进行对齐比较，并计算匹配程度的分数，通过将规则库的表示和文本信息单元的语义框架表示进行对比，验证数据的合规性；

S42、解析对齐分析结果，得到待评估数据对应的每个文本信息单元的合规属性；

S5、根据分析结果评估数据合规，得到数据合规以及不合规部分的总结报告；

所述S5具体包括根据分析结果来评估数据合规，生成一个数据合规以及不合规部分的详细总结报告，在输入数据文本级别上做出合规决策，在待评估数据中，如果至少有一条语句满足要求，在输入数据文本中将该要求标记为满足，否则，要求将被标记为违反，当至少一个强制要求被违反时，将视为不合规，当违反可选要求/>时，会有一个警告，所有的待评估数据内容都会被标记，生成总结报告；

所述La-NLP模型构建具体包括：

在La-NLP模型中应用层次注意力机制：

；

其中，C代表注意力掩码，代表哈达玛乘积，Q代表查询，K代表键，V代表值，/>表示特征维度；

所述注意力掩码C通过计算相邻注意力分数确定，相邻注意力分数代表相邻La-NLP模型输入基本单元的范围趋势，对于任何相邻La-NLP模型输入基本单元，相邻注意力分数/>计算如下：

；

其中,表示查询矩阵，/>表示键矩阵，/>表示两个相邻模型输入基本单元，/>表示超参数作为缩放因子；

和/>重复更新，将相邻亲和分数/>通过计算/>和/>的归一化结果的平均值得到：

；

其中，Softmax表示Softmax归一化函数；

设定添加一个约束，约束随着网络深入，相邻亲和分数为增加趋势，第层中的亲和分数/>计算如下：

；

其中，表示网络的第I-1层，/>表示相邻亲和分数；

对给定输入基本单元对，注意力掩码矩阵C的元素/>计算如下：

;

所述S2具体包括最优传输问题在传输之前给定初始状态，传输后的最终状态/>以及单位成本函数/>，表示从/>中第i位置到/>中第j位置的单位传输成本，制定一个传输计划/>使总传输成本/>最小化，每个元素/>表示从/>传输到/>的量，总传输成本/>计算如下：

；

其中，表示初始状态i位置，/>表示传输位置j位置，/>表示从/>传输到/>的量，对于编码器获得的法律条文范围预测/>和规则库/>预测/>，利用最优传输模块度量法律条文范围预测/>和规则库/>预测/>之间的距离，法律条文范围预测/>和规则库/>预测的传输成本/>计算如下：

；

其中，表示单位成本函数，/>第i个法律条文范围预测，/>表示第j个规则预测；

利用余弦相似度定义单位成本函数，随着/>和/>之间的余弦相似度增加，对应的单位成本变低：

；

其中，表示/>和/>之间的余弦相似度值；

与法律专家合作从相关法律法规要求中提取n个合规要求，n个合规要求分为四个类别包括个元数据要求、/>个关于数据处理者义务的要求、/>个关于数据控制者权利的要求以及/>个关于数据控制者义务的要求，根据法律专家的反馈，四个类别有/>个是强制性要求，/>个是可选要求，根据合规要求建立人工库/>；

将规则库和人工库/>的合规要求进行人工合并得到完整合规要求/>。

2.根据权利要求1所述的一种基于NLP的数据收集合规识别方法，其特征在于，所述La-NLP模型使用层次注意力机制划分文本中的每个法律条文的范围，将法律条文范围和规则库之间的对齐，视为最优传输问题，利用最优传输模块进行对法律条文范围和规则库/>之间的相互引导。

3.根据权利要求2所述的一种基于NLP的数据收集合规识别方法，其特征在于，所述规则库中包括对于法律法规中的条款，将复合语句分解为简单要求，定义为第一规则库/>，对于行业报告中的合规要求，定义为第二规则库/>。

4.根据权利要求3所述的一种基于NLP的数据收集合规识别方法，其特征在于，所述强制性要求为有关数据控制者和处理者的身份隐私信息的关键信息，基于关键信息进行合规性检查，所述可选要求为根据法律专家的意见以及行业报告、专家学者实践中推导出的，当数据违反强制性要求时判定为不合规，在数据违反可选要求时会产生警告。