CN116108167A

CN116108167A - 一种结合知识图谱的个人敏感信息分类分级方法

Info

Publication number: CN116108167A
Application number: CN202211411070.7A
Authority: CN
Inventors: 杨浩淼; 卢锐恒; 白雪珺; 汪小芬; 李经纬; 薛冬昀; 葛孟雨; 李佳晟; 王宇; 张晓磊; 向坤兰; 黄大彬; 陈沫
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-05-12

Abstract

本发明涉及信息化技术领域，提供了一种结合知识图谱的个人敏感信息分类分级方法。目的在于解决现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现，忽略了多场景数据分类分级的实现的问题。主要方案包括对包含个人信息的文本数据进行实体抽取和关系抽取，得到实体的集合与关系的集合；根据实体与关系的集合先构建个人信息知识图谱；对每个实体进行特征提取，得到每个实体对应的一个特征向量；对特征向量进行聚类，得到实体的聚类结果；将聚类结果的每一类别进行安全级别分级，得到敏感级别信息；将敏感级别信息与个人信息知识图谱相关联，得到个人敏感信息分类分级知识图谱。当新场景到来时，利用多知识图谱融合技术进行增量地更新。

Description

一种结合知识图谱的个人敏感信息分类分级方法

技术领域

本发明涉及信息化技术领域，提供了一种结合知识图谱的个人敏感信息分类分级方法。

背景技术

近年来，随着互联网、大数据、人工智能等技术的不断发展，人们在分享海量信息所带来的红利的同时，也饱受个人敏感信息泄露带来的困扰。为了保护个人敏感信息的安全，相关法律纷纷颁布实施，来加强个人数据资源安全保护，建立大数据安全管理制度，实行数据资源分类分级管理，保障安全高效可信应用。例如，《个人信息保护法》制定了严格的个人信息使用标准，对个人敏感数据的采集、使用、存储等均做出了明确要求，并规定建立个人敏感数据保护合规制度体系，成立特定机构进行监督、监管和治理，保证公开、公平、公正的规则。《中华人民共和国数据安全法》第二十一条明确指出，国家建立数据分类分级保护制度，根据数据在经济社会发展中的重要程度，以及一旦遭到篡改、破坏、泄露或者非法获取、非法利用，对国家安全、公共利益或者个人、组织合法权益造成的危害程度，对数据实行分类分级保护。

然而，尽管国家颁布了相关法律，分类分级方法的具体实施仍遇到多个问题。

(1)如今各种网络应用，如社交平台、电商平台以及网约车平台等充斥着大量的个人敏感信息，个人敏感信息涉及场景较广，如何在多场景下完成分类分级是一个尚未解决的难题。2022年10月14日颁布的14项网安国家标准仅针对单个场景进行保护，例如，人脸信息场景、声纹信息场景、基因信息场景等，并没有考虑多场景情形。这是因为个人敏感信息涉及场景较广，不可能简单地将所有的场景数据汇集在一起进行分类分级，往往需要根据当前现实情况，选择部分场景数据进行分类分级。但是当原有场景分类分级实现完成后，如果有新场景出现，则难以将后续新场景数据加入到原有场景的分类分级结构中。因此，如何通过增量方式将新场景数据扩展到原有场景分类分级结构中去，这是一个首先需要解决的挑战。

(2)在多场景情况下，需要考虑多场景之间的关联性。例如，同一个人在多个场景出现，需要将其在不同场景出现时的属性关联到这同一个人上。因此，多场景的关联性也是需要解决的挑战。

(3)随着大数据、人工智能以及物联网的迅速发展，如何对海量异构数据进行有效的存储，并保证数据检索效率也是一个难题。

(4)一般的分类分级方法采用关系数据库保存结果(这个也是没有与知识图谱结合的必然)，针对单个场景进行分类分级，如果在A场景下已经完成了分类分级，又单独在B场景下完成了分类分级，那么就有2个数据库表来存储两个场景的分类分级结果，然后现如今需要结合在A、B两个场景下的分类分级，因为A、B场景不同，考虑的实体的属性自然不同，那么同时存储两个场景的分类分级结果时，需要重新对数据库表进行设计，然后重新对数据进行存储。重新设计数据库表和重新将数据整合到一张表中耗时耗力，当场景较多时或者当个人数据较多时，效率开销会更大。然后知识图谱的多知识图谱融合技术，存储结构无需改变，扩展即可，简单高效，所以具有分类分级的可扩展性。

针对第一个问题，现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现，忽略了多场景数据分类分级的实现。针对第二个问题，现有方法没有考虑多场景关联性。针对第三、四个问题，现有数据规模大、增长速度快，而许多分类分级方案仍然使用关系型数据库。如今关系型数据库难以承担海量非结构化数据的存储，并且当数据库较大时，关系运算如笛卡尔积将导致大量的时间开销，使得数据检索的效率急剧降低。言而总之，还没有能很好解决如上四个问题的方案，虽然有部分研究一定程度上触及了上述问题，但考虑仍然不完善，很难给出一个整体的解决方法。

因此，我们提出了一种新的结合知识图谱的个人敏感信息分类分级方法。该方法考虑了现实多场景的分类分级，当新场景出现时，利用多知识图谱组合技术完成新场景融合，实现多场景的可扩展性；它利用多知识图谱融合与知识推理技术解决多场景关联性问题；同时该方法也能够更好地适用于大规模数据的分类分级结果的存储与检索，利用知识图谱的图数据库来存储海量异构数据，并实现高效查询。

发明内容

本发明的目的在于解决现有的个人敏感信息分类分级方法往往仅考虑了单个场景的实现，忽略了多场景数据分类分级的实现的问题。

为了解决上述技术问题，本发明采用以下技术手段：

一种结合知识图谱的个人敏感信息分类分级方法，包括以下步骤：

步骤1、对包含个人信息的文本数据进行实体抽取和关系抽取，得到一般实体的集合与关系的集合；

步骤2、根据一般实体与关系的集合先构建个人信息知识图谱；

步骤3、对步骤1中的每个一般实体进行特征提取，得到每个一般实体对应的一个特征向量；

步骤4、对特征向量进行聚类，得到一般实体的聚类结果；

步骤5、将步骤4的聚类结果的每一类别进行安全级别分级，得到敏感级别信息，敏感级别信息中的每一个级别对应一个级别实体；

步骤6、将敏感级别信息与个人信息知识图谱相关联，得到个人敏感信息分类分级知识图谱。

步骤7、当新场景到来时，利用多知识图谱融合技术进行增量地更新。

上述技术方案中，步骤7具体包括以下步骤：

步骤1、新场景使用步骤1-6进行个人敏感信息分类分级知识图谱的构建，得到新场景的个人敏感信息分类分级知识图谱；

步骤2、进行实体对齐，找到新场景中与原有场景中指代相同的实体，所述实体包括一般实体和级别实体；

步骤3、进行知识图谱融合，

若新场景中的实体a已存在于原有场景中，则在新场景中找到与a直接关联的实体A_n得到实体集合A，选择实体集合A中的存在于新场景而没有存在于原有场景的实体A’_n，将实体A’_n创建于原有场景中并与实体a进行直接关联；

若新场景中实体b未存在原有场景中，则在原有场景中创建新实体b，并在新场景中找到与b直接关联的实体B_n得到集合B，选择实体集合B中仅存在于新场景而没有存在于原有场景的实体B’_n，将实体B’_n创建于原有场景中并与实体b进行直接关联，完成了增量更新，在原有个人敏感信息分类分级场景中融合了新场景的信息。

上述技术方案中，还包括知识推理步骤，当完成增量的更新后，采用知识推理技术，对知识图谱中的实体进行关联，判断关联后的实体是否具有属性值，如没有属性值，将相关联的实体的属性值赋值给没有属性值的实体。

上述技术方案中，知识推理步骤具体包括如下步骤：

在图谱中利用路径进行训练，得到一个多分类器，用来推断缺少属性值的实体的属性值，具体包括如下步骤：

1.针对单个实体与其他实体关系生成并选择路径集合，使用深度优先搜索来完成；

2.计算每个路径的特征值P(s→t；π_j)，该特征值为概率值来表示，表示从实体s出发，通过路径π_j到达实体结点t的概率；

3.根据路径的特征值，训练分类器，当训练好分类器后，即可将该分类器用于推理两个实体存在目标关系的可能性。

分类器表示起始结点s和结束结点t之间存在的关系：

上式中，π_j是一条权重为θ_j的路径，P是路径π_j的概率值的大小，p_l是连接s和t的所有路径的集合。

这个算法本身是用来判断两个实体间是否存在某种关系，利用这个算法，我可以在张三与已有的职业实体之间进行推理，假设分类器已经训练好了。

那么我可以进行判断：

“张三”和“医生”之间是否具有关联，得到一个打分；

“张三”和“教师”之间是否具有关联，得到打分；

“张三”和“律师”之间是否具有关联…

最终分类器根据分数推理出张三最可能的职业是“xxx”。

此外，如果少量新实体加入知识图谱时，在尚不知道实体的分类情况下，也可以利用这种知识图谱推理技术，快速对实体与级别的关系进行推理，将实体进行快速分级。

上述技术方案中，如果数量小于阈值的新的一般实体加入知识图谱时，在尚不知道一般实体的分类情况下，利用知识图谱推理技术，快速对新加入的一般实体与原本存在的级别实体的关系进行推理，将实体进行快速分级。

因为本发明采用上述技术手段，因此具备以下有益效果：

(1)是个人敏感信息涉及的多场景问题，目前大部分分类分级方案没有考虑多场景的结合的可扩展性问题，当一个新场景到来时，如何加入已有的分类分级体系。我们的方法利用了知识图谱来完成个人敏感信息分类分级，并以知识图谱的形式进行个人敏感信息分类分级结果的保留，知识图谱具有很高的扩展性，当新场景的个人敏感信息数据到来时，无需改变已有的知识图谱结构，利用多知识图谱组合的技术可以高效地完成新场景的融合，使得我们的方案具有很高的可扩展性。

(2)当个人敏感信息涉及大量场景时，存在多场景下的关联性问题，例如，同一实体在多个场景出现，需要将其存在于每个场景中的关系关联到这同一实体上。我们的分类分级方案能够解决多场景下的关联性问题，先利用知识图谱融合技术完成知识图谱的融合，将多个场景下的实体关联起来，再利用知识推理技术，完善实体之间的关联性。

(3)是分类分级数据存储方式与检索效率的问题，当大量数据存储时，使用关系型数据库存储，其对数据的检索可能将导致开销巨大的关系运算，我们将个人敏感信息分类分级的结果以知识图谱的形式进行存储，知识图谱的结果形式将非常适配使用图数据库来进行存储大规模异构数据，利用图数据库高效的关系查询性能，将极大幅度提高检索效率。

(4)知识推理部分使用了基于图结构的推理算法，利用推理可以进行属性的补全和快速的分级，即可以进行潜在属性的推理和快速的分级。对于多场景关联性问题，先构建总个人敏感信息知识图谱，增量融合以快速关联得到已有的属性，再在全局个人敏感信息分类分级知识图谱中挖掘潜在属性，将潜在属性补全即可解决多场景关联性问题。

附图说明

图1为一种结合知识图谱的个人敏感信息分类分级方法流程；

图2为个人信息知识图谱示例；

图3为实体聚类结果示例；

图4为个人敏感信息分类分级知识图谱示例。

具体实施方式

以下将对本发明的实施例给出详细的说明。尽管本发明将结合一些具体实施方式进行阐述和说明，但需要注意的是本发明并不仅仅只局限于这些实施方式。相反，对本发明进行的修改或者等同替换，均应涵盖在本发明的权利要求范围当中。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员将理解，没有这些具体细节，本发明同样可以实施。

我们提出了一种结合知识图谱的个人敏感信息分类分级方法。该方法的总体流程如图1所示。

假设我们具有文本数据1，2…m，以公民个人信息为例，第一步，我们对文本数据进行实体抽取和关系抽取，得到实体的集合与关系的集合。第二步，根据实体与关系的集合先构建个人信息知识图谱。假设我们可以从文本中得到实体“张三”，其手机号“12345678910”，其身份证号“510000000000000107”，其住址“A市B区C街道1号”，其银行卡号“1234-5678-1011-1213”，其年龄“30岁”，则当以张三为中心时，构建的个人信息知识图谱展现如图2所示。

第三步，我们对实体进行特征提取，对每个实体都提取得到一个特征向量。

第四步，我们对特征向量进行聚类，得到实体的聚类结果(我们这里以聚类方法举例，实际也可以使用有监督学习技术或者半监督学习技术进行实施类别划分)。得到的结果如图3所示，我们将表示意义相近的实体聚集在一起。

第五步，确定安全级别数量，划分级别的依据，并针对类别进行具体分级。对于安全级别的数量、划分级别的依据，可以参考相关的法律法规，例如，《网络安全标准实践指南-网络数据分类分级指引》中建议分级规则如下：

表1分级规则示例

当类别较少时，可以利用纯人工的方式进行具体分级，根据当前具体应用场景，可以进行分级，假设在该场景的一种合理的分级案例如下：

4级	类别2
		3级	类别5、类别4
2级	类别1
		1级	类别3

表2分级案例

当类别较多时，可以使用人工+智能的方式进行分级，具体的做法是，先利用人工的经验判断，对部分类别进行级别划分，再利用深度学习技术，通过学习已有的级别划分对未划分级别的类别进行级别预测。

第六步，我们将敏感级别信息与个人信息知识图谱相关联，得到个人敏感信息分类分级知识图谱。具体做法是在个人信息知识图谱中添加级别实体，并根据分级结果，将级别实体与所属其级别的所有实体进行直接关联。图4是一种合理的个人敏感信息分类分级知识图谱构建完成时，以人名为中心时图谱展现方式。

新场景到来时的增量更新方法：

在单个场景的个人敏感信息分类分级知识图谱完成后，当新场景到来时，我们可以利用多知识图谱融合技术进行增量地更新。一种可供参考的方法如下：

步骤1、我们对新场景使用我们的方法进行个人敏感信息分类分级知识图谱的构建，得到新场景的个人敏感信息分类分级知识图谱。

步骤2、我们进行实体对齐，找到新场景中与原有场景中指代相同的实体。

步骤3、我们进行知识图谱融合，若新场景中的实体a已存在于原有场景中，则在新场景中找到与a直接关联的实体，选择这些实体中存在于新场景而没有存在于原有场景的，将这些实体创建于原有场景中并与a进行直接关联；若新场景中实体b未存在原有场景中，则在原有场景中创建新实体b，并在新场景中找到与b直接关联的实体，选择这些实体中存在于新场景而没有存在于原有场景的，将这些实体创建于原有场景中并与b进行直接关联。通过以上步骤我们就完成了增量更新，在原有个人敏感信息分类分级场景中融合了新场景的信息。

解决多场景下关联性问题：

当个人敏感信息涉及大量场景时，存在多场景下的关联性问题，即同一个人在多个场景出现，需要将其在不同场景出现时的属性关联到这同一个人上。可以利用多知识图谱融合技术和知识推理技术来解决这个问题，例如，以张三为例，一种具体实施方法如下：

步骤1、我们为每个场景创建该场景下的个人敏感信息知识图谱，得到场景1的张三敏感信息知识图谱1、场景2的张三敏感信息知识图谱2……

步骤2、我们以增量的形式进行知识图谱的融合，得到总个人敏感信息知识图谱。

步骤3、我们在总个人敏感信息知识图谱上利用知识推理技术，完善实体之间的关联性。

解决多场景下关联性问题：

步骤2、我们以增量的形式进行知识图谱的融合，得到总个人敏感信息知识图谱，这样就得到了张三在不同场景出现时的已知属性。

步骤3、我们推理张三在不同场景出现时的潜在属性，我们在全局个人敏感信息分类分级知识图谱上利用知识推理技术来实现。举个具体的例子，假设张三的职业属性值空缺，而其他人具有职业属性值，我们可以在图谱中利用路径进行训练，得到一个多分类器，来推断张三具有的职业。

具体来说，我们将训练一个分数，来表示起始结点s和结束结点t之间是否存在某种关系：

上式中，π_j是一条权重为θ_j的路径，P是路径π_j的概率值的大小，p_l是连接s和t的所有路径的集合；

1.针对单个实体与其他实体关系生成并选择路径集合，使用深度优先搜索来完成。

3.根据训练样例的特征值，为目标关系训练分类器。当训练好分类器后，即可将该分类器用于推理两个实体之间是否存在目标关系。

于是我们就可以推断张三与某个职业实体之间是否存在关系，推断出张三的职业。

那么我可以进行判断：

“张三”和“医生”之间是否具有关联，得到一个打分；

“张三”和“教师”之间是否具有关联，得到打分；

“张三”和“律师”之间是否具有关联…

最终分类器根据分数推理出张三最可能的职业是“xxx”。

简单地说，首先通过以上方式进行训练得到实体与级别之间的分类器，然后将新实体输入到分类器中，即可得到与新实体最关联的级别。例如，判断“指纹”与“级别1”是否存在关联，得到一个分数；判断“指纹”与“级别2”是否存在关联，得到一个分数；判断“指纹”与“级别3”是否存在关联，得到一个分数；判断“指纹”与“级别4”是否存在关联，得到一个分数；最终将“指纹”与分数最高的级别关联。

本发明列举了如下参考文献：

[1]中国人大网.中华人民共和国个人信息保护法[EB/OL].http://www.npc.gov.cn/npc/c30834/202108/a8c4e3672c74491a80b53a172bb753fe.shtml，2021-08-20

[2]中国人大网.中华人民共和国数据安全法[EB/OL].http://www.npc.gov.cn/npc/c30834/202106/7c9af12f51334a73b56d7938f99a788a.shtml，2021-06-10

[3]中国网.四部门联合发文明确39种常见类型App的必要个人信息范围[EB/OL].https://baijiahao.baidu.com/s？id＝1694910769977570489&wfr＝spider&for＝pc，2021-03-22

[4]全国信息安全标准化技术委员会.14项网络安全国家标准获批发布[EB/OL].2022-10-19

[5]何维群.基于分类分级的个人信息保护[J].信息安全与通信保密，2021(10)：107-114.

[6]李竞，齐国强，俞刚.儿童医疗数据智能分类分级体系研究与设计[J].电子技术与软件工程，2022(15)：228-231.

[7]卢洪.基于深度学习聚类算法的城市数据分类分级方法[J].工业技术创新，2021，08(04)：73-78.DOI：10.14103/j.issn.2095-8412.2021.08.012.

上述文献[5]基于分类分级的个人信息保护：该方案构造了一种分类分级相关的个人信息保护技术架构，其中分类分级部分从个人信息的微数据，具体包括微数据的每条(行)记录、微数据记录中的每个字段(列)以及由微数据组合成的数据表作为个人信息分类分级对象来进行分类分级。与[5]相比，我们的方法分类分级对象为运用实体抽取技术抽取的实体，我们不需要预先构建结构化信息数据库，显然从数据来源中提取出结构化信息数据库将更加复杂，且成本更高，我们的方法也不以结构化信息数据来源作为前提，使得我们的方法更加灵活，泛用性更好；[5]中的方法虽然考虑到了数据多场景的情况，但也没有考虑如何通过增量的方式达到分类分级新场景的扩展问题，当新场景来临时，[5]需要重新设计数据表存储方式，再对之前所有的数据加上新数据重新进行分类分级，分类分级新场景扩展开销巨大，而我们的方法可以利用多知识图谱组合的技术高效地完成新场景的融合；[5]中也没有考虑多场景之间的关联性问题，我们的方案可以结合多知识图谱融合技术与知识推理技术发现多场景数据之间的关联性；当数据规模巨大时，[5]中的方案仅依靠人工打标将难以实施，我们的方法也提供了一种人工+智能的分类分级思路；[5]中的方案没有考虑分类分级完成后的结果存储与检索效率问题，我们的方案提出的知识图谱对这些分类分级结果的存储和查询提供了一种好的解决方案。

文献[6]儿童医疗数据智能分类分级体系研究与设计：该方案设计了一种智能分类分级方法，通过规则定义、数据资源目录建设等过程，研发儿童医疗数据智能分类分级系统。与[6]相比，[6]需要对儿童数据进行格式化处理再进行分类分级而我们的方案无需格式化预处理前提，更加灵活效率也更高；[6]仍然没有考虑数据多场景的增量情况，例如当[6]收集了3个场景的儿童医院信息，完成分类分级后，若要求加入第4个场景的儿童医院信息，将导致[6]中的方案全过程重新进行分类分级，而我们的方案针对多场景的扩展性更强，可以利用多知识图谱组合的技术高效地完成新场景的融合；[6]中的方案也没有考虑分类分级完成后的结果存储与检索效率问题，我们的方案提出的知识图谱对这些分类分级结果的存储和查询提供了一种好的解决方案。

文献[7]基于深度学习聚类算法的城市数据分类分级方法：该方法提出了一种基于深度学习的聚类算法的城市数据分类分级方法。与[7]相比，[7]方法在模型上线后，也具有场景增量困难的问题，增加新场景的数据意味着模型的重新训练，成本开销较高；[7]方法同样没有考虑分类分级完成后的结果存储与检索效率问题。

Claims

1.一种结合知识图谱的个人敏感信息分类分级方法，其特征在于，包括以下步骤：

步骤4、对特征向量进行聚类，得到一般实体的聚类结果；

2.根据权利要求1所述的一种结合知识图谱的个人敏感信息分类分级方法，其特征在于，步骤7具体包括以下步骤：

步骤3、进行知识图谱融合，

若新场景中的实体a已存在于原有场景中，则在新场景中找到与a直接关联的实体An得到实体集合A，选择实体集合A中的存在于新场景而没有存在于原有场景的实体A’n，将实体A’n创建于原有场景中并与实体a进行直接关联；

若新场景中实体b未存在原有场景中，则在原有场景中创建新实体b，并在新场景中找到与b直接关联的实体Bn得到集合B，选择实体集合B中仅存在于新场景而没有存在于原有场景的实体B’n，将实体B’n创建于原有场景中并与实体b进行直接关联，完成了增量更新，在原有个人敏感信息分类分级场景中融合了新场景的信息。

3.根据权利要求1所述的一种结合知识图谱的个人敏感信息分类分级方法，其特征在于，还包括知识推理步骤，当完成增量的更新后，采用知识推理技术，对知识图谱中的实体进行关联，判断关联后的实体是否具有属性值，如没有属性值，将相关联的实体的属性值赋值给没有属性值的实体。

4.根据权利要求3所述的增量的一种结合知识图谱的个人敏感信息分类分级方法，其特征在于，知识推理步骤具体包括如下步骤：

4.1.针对单个实体与其他实体关系生成并选择路径集合，使用深度优先搜索来完成；

4.2.计算每个路径的特征值P(s→t；π_j)，该特征值为概率值来表示，表示从实体s出发，通过路径π_j到达实体结点t的概率；

4.3.根据路径的特征值，训练分类器，当训练好分类器后，即可将该分类器用于推理两个实体存在目标关系的可能性。

分类器表示起始结点s和结束结点t之间存在的关系：

5.根据权利要求1所述的增量的一种结合知识图谱的个人敏感信息分类分级方法，其特征在于，如果数量小于阈值的新的一般实体加入知识图谱时，在尚不知道一般实体的分类情况下，利用知识图谱推理技术，快速对新加入的一般实体与原本存在的级别实体的关系进行推理，将实体进行快速分级。