CN114911908A

CN114911908A - 管网数据安全管理的方法及装置

Info

Publication number: CN114911908A
Application number: CN202210616956.9A
Authority: CN
Inventors: 任武; 杨宝龙; 张新建; 李莉; 吴志强; 李明菲
Original assignee: China Oil and Gas Pipeline Network Corp
Current assignee: China Oil and Gas Pipeline Network Corp
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-16

Abstract

本申请公开了一种管网数据安全管理的方法及装置，属于油气储运领域。该方法包括采集管网历史数据；对管网历史数据进行分类以得到分类数据；根据分级规则对分类数据进行定级，以得到分类分级数据；根据分类分级数据构建数据安全图谱概念模型；初始化数据安全图谱概念模型，以得到数据安全图谱；按照预设条件更新并维护数据安全图谱。本申请通过构建自动化分类分级规则和模型，可以有效地对管理制度、岗位职责、保障措施等进行针对性的数据安全设计。并且通过对数据安全图谱进行动态更新维护，可以保障数据资产的保密性、完整性、真实性和可用性。

Description

管网数据安全管理的方法及装置

技术领域

本申请涉及油气储运领域，具体地涉及一种管网数据安全管理的方法及装置。

背景技术

数据是企业的核心资产，也是影响网络安全等级保护制度中定级、关键信息基础设施认定的重要因素。企业因数据篡改、泄露而造成的数据安全事件越来越频繁，其造成了重大影响。与此同时，新技术所产生的数据集中、技术漏洞而导致的数据安全风险却与日俱增。

现有数据安全技术普遍缺少针对前期企业自身数据进行高效灵活的安全分类分级技术和产品，更多还是依靠传统专家人工评审方式，效率低下，且缺少灵活性。在金融、互联网、电商等领域形成的部分数据分类分级模板，可以进行有针对性的自动发现和识别，但是其建立在静态专家规则库上，且数据分类分级目标识别较为单一，更多的是强调对金融价值、个人隐私等的保护，无法在复杂度高、数据异构且多源的工业领域套用。覆盖面窄、灵活性低，且缺少针对企业暗数据风险识别和工业数据自动辅助判定的分类分级方法。

油气管道运营企业在数字化转型过程中，面对数据安全治理，还存在列不足：

1)管网企业自身数据安全合规监管能力不足。不同职能系统的数据通常是孤立的，不能清晰知道企业数据资产，尤其是敏感数据资产的准确流动路径。一旦被非法获取或篡改，会影响管网正常运行，甚至国家安全。目前管网企业数字化建设中更多关注网络平台层面安全，尚未针对数据资产本身建立数据安全管理体系，数据安全分类分级管控技术能力欠缺。

2)缺少企业全面关联的数据安全防护视图。管道企业业务环境复杂，面对数据安全风险点多的现状，企业大多都是针对某个业务方向的数据进行单点防御，缺少数据共享和风险联防，无法形成全面纵深防御。数据攻击者有可能绕过单个业务防御点，从其他位置渗透突破，数据存在安全隐患。

3)无法适应智慧管网数据采集新技术。随着工业互联网新技术发展，管道智能感知IoT边缘采集端大幅增加，5G网络将传感器、控制器连接起来。各种设备数量的增加，使得数据的多元异构现象更为突出。专业数据采集大多由第三方人员和机构完成，带来技术便利性的同时，也存在极高的数据泄露和篡改风险，急需对数据进行自动分类分级识别，从而对各数据项采集源头人员、设备和机构，尤其是第三方厂商，实施相适应的监管策略和技术约束。

4)限制数据价值充分发挥。因为缺少灵活机动的数据安全分类分级方法和系统，管网企业无法及时调整和应对敏感数据资产监管场景的变化需求，往往因为安全防护需求限制，非密网络上的用户无法使用来自涉密网络的非密数据，导致数据价值沉没，无法发挥数据生产要素的业务驱动力。管网业务场景复杂，数据拥有方、使用方和管理方分离，数据安全管理各自为政，为管网内外部数据共享设置了层层障碍。

因此，现有技术中对于管网数据的管理存在一定的安全风险。

发明内容

本申请的目的是提供一种管网数据安全管理的方法及装置，用以解决现有技术中对于管网数据的管理存在安全风险的问题。

为了实现上述目的，本申请第一方面提供一种管网数据安全管理的方法，其特征在于，包括：

采集管网历史数据；

对管网历史数据进行分类以得到分类数据；

根据分级规则对分类数据进行定级，以得到分类分级数据；

根据分类分级数据构建数据安全图谱概念模型；

初始化数据安全图谱概念模型，以得到数据安全图谱；

按照预设条件更新并维护数据安全图谱。

在本申请实施例中，采集管网历史数据包括以下中的至少一者：

从信息系统和数据库中提取管网历史数据；

获取人工录入的管网历史数据；

批量导入数据导入模板的管网历史数据。

在本申请实施例中，对管网历史数据进行分类以得到分类数据包括：

对管网历史数据对应的数据资产目录进行梳理；

设置分类维度和分类标签；

根据分类维度和分类标签对数据资产目录中的管网数据进行分类，以得到分类数据。

在本申请实施例中，根据分级规则对分类数据进行定级，以得到分类分级数据包括：

获取分级级别；

将分类数据进行安全域的划分以得到分类分级矩阵；

根据分类分级矩阵，对每个分类数据进行定级以得到分类分级数据。

在本申请实施例中，分类分级数据构建数据安全图谱概念模型包括：

根据分类分级数据确定数据安全图谱概念模型的本体；

提取本体中的实体、关系和属性之间的关系；

根据实体、关系和属性构建数据安全图谱概念模型。

在本申请实施例中，初始化数据安全图谱概念模型，以得到数据安全图谱包括：

将管网实例数据导入数据安全图谱概念模型，以得到初始化数据安全图谱；

根据管网实例数据对初始化数据安全图谱进行质量验证，以得到数据安全图谱。

在本申请实施例中，将管网实例数据导入数据安全图谱概念模型，以得到初始化数据安全图谱包括：

根据数据安全图谱概念模型确定图数据库；

建立数据导入接口和规则；

通过数据导入接口将管网实例数据按照规则导入至图数据库，以得到初始化安全图谱。

在本申请实施例中，根据管网实例数据对初始化数据安全图谱进行质量验证包括：

获取管网实例数据的实体、关系和属性；

在实例数据的实体、关系和属性是否存在不一致的情况下，对异常管网示例数据进行标准化处理。

在本申请实施例中，按照预设条件更新并维护数据安全图谱包括以下中的至少一者：

分类变更维护、分级变更维护、规则变更维护、概念图谱维护、模型库维护以及实例维护。

在本申请的第二方面，还提供一种用于管网数据安全管理的装置，其特征在于，装置包括：

数据采集模块，被配置成采集管网历史数据；

数据分类模块，被配置成对管网历史数据进行分类以得到分类数据；

数据分级模块，被配置成根据分级规则对分类数据进行定级，以得到分类分级数据；

模型构建模块，被配置成根据分类分级数据构建数据安全图谱概念模型；

初始化模块，被配置成初始化数据安全图谱概念模型，以得到数据安全图谱；

更新维护模块，被配置成按照预设条件更新并维护数据安全图谱。

通过上述技术方案，通过采集管网历史数据，对管网历史数据进行分类以得到分类数据，根据分级规则对分类数据进行定级，以得到分类分级数据，根据分类分级数据构建数据安全图谱概念模型，初始化数据安全图谱概念模型，以得到数据安全图谱；再按照预设条件更新并维护数据安全图谱。这样，通过构建自动化分类分级规则和模型，可以有效地对管理制度、岗位职责、保障措施等进行针对性的数据安全设计。并且通过对数据安全图谱进行动态更新维护，可以保障数据资产的保密性、完整性、真实性和可用性。

本申请实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本申请实施例，但并不构成对本申请实施例的限制。在附图中：

图1是示意性示出了根据本申请实施例的提供的管网数据安全管理的方法及装置的流程示意图；

图2是示意性示出了根据本申请实施例的提供的管网数据安全管理的方法及装置的结构示意图；

图3是示意性示出了根据本申请实施例的提供的数据分级分类的流程示意图；

图4是示意性示出了根据本申请实施例的提供的管道业务数据分类分级的结构示意图；

图5是示意性示出了根据本申请实施例的提供的数据图谱概念模型的结构示意图；

图6是示意性示出了根据本申请实施例的提供的数据安全分类分级卡的示意图。

具体实施方式

以下结合附图对本申请实施例的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本申请实施例，并不用于限制本申请实施例。

需要说明，若本申请实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示) 下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本申请实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1示意性示出了根据本申请实施例的一种管网数据安全管理的方法的流程示意图。如图1所示，本申请实施例提供一种管网数据安全管理的方法，该方法可以包括下列步骤：

步骤101、采集管网历史数据。

在本申请实施例中，采集管网历史数据应充分依赖已有的数据架构进行，按照业务范围和边界，从信息系统和数据库中提取人工录入的管网历史数据，建立数据资源目录。这样，能够保障数据的完整性、真实性和准确性。采集管网历史数据可以包括但不限于以下几种方式：从信息系统和数据库中提取管网历史数据；获取人工录入的管网历史数据；批量导入数据导入模板的管网历史数据。

步骤102、对管网历史数据进行分类以得到分类数据；

在本申请实施例中，管网历史数据是管网系统历史存储的数据，分类数据是按照分类维度和标签，对数据资产目录中的管网历史数据分类后的数据。处理器在对管网历史数据进行采集后，会进行数据资产目录的梳理，查缺补漏。再结合分类原则和业务需求，设置分类维度和标签，对数据资产目录中的管网历史数据进行分类以得到分类数据。这样，可以根据多个视角和维度对数据进行分类，将具有相同属性或特征进行分类，从而可以使得数据更加清晰。

步骤103、根据分级规则对分类数据进行定级，以得到分类分级数据；

在本申请实施例中，分类分级数据是按照分级原则，对分类数据进行分级后的数据。处理器可以根据数据的敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度，按照分类分级原则和专家评审及智能辅助等方法进行定义，以对分类数据进行分级，从而得到分类分级数据。在一个示例中，处理器可以结合分类分级原则和需求，设置分级级别。再细化分类规则，进行数据安全与划分，绘制数据分类分级矩阵。最后按照数据分类分级矩阵，完成对每个数据项的定级标识操作。这样，可以使得数据在分类分级基础上更加清晰。

步骤104、根据分类分级数据构建数据安全图谱概念模型；

在本申请实施例中，构建数据图谱的目标是将数据项、数据项之间的关系、数据项属性特征等从复杂多样的数据源中抽取出来。数据图谱用“实体”来表达图里的节点、用“关系”来表达图里的“边”。在一个实例中，对管道数据图谱而言，实体多指的具体的数据对象，如“管道”、“设施”、“单位”、“岗位”、“流程”等；关系则用来表达上述不同实体之间的某种联系，如“包含于”、“隶属于”、“等价于”、“负责/被管辖”、“上/下流程”等；实体和关系拥有各自的属性，如“运行参数、状态特征、起止时间、工作地点、事件描述”等。

安全图谱概念模型的构建过程包括：处理器根据分类分级数据确定数据安全图谱概念模型的本体，再提取本体中的实体、关系和属性之间的关系，最后根据实体、关系和属性构建数据安全图谱概念模型。

步骤105、初始化数据安全图谱概念模型，以得到数据安全图谱；

在本申请实施例中，数据图谱的初始化过程，主要是完成对数据分类分级图谱概念模型的数据项导入，以及对构建的概念图谱进行验证和优化完善。通过设计、建立管道数据分类分级图数据库、建立数据导入接口和规则完成数据导入。再进行图谱质量验证，对不符合规范的数据进行标准化处理。

在一个示例中，将管网实例数据导入数据安全图谱概念模型，以得到初始化数据安全图谱，再根据管网实例数据对初始化数据安全图谱进行质量验证，以得到数据安全图谱。

步骤106、按照预设条件更新并维护数据安全图谱。

在本申请实施例中，预设条件包括但不限于：分类发生变化、分级发生变化、规则发生变化、概念图谱发生变化、模型库发生变化以及实例发生变化。因此，对于数据安全图谱的维护包括以下中的至少一者：分类变更维护、分级变更维护、规则变更维护、概念图谱维护、模型库维护以及实例维护。通过动态维护使得数据安全图谱能够得到更新，数据的完整性、真实性更强。

在本申请实施例中，步骤101、采集管网历史数据可以包括：

从信息系统和数据库中提取管网历史数据；

获取人工录入的管网历史数据；

批量导入数据导入模板的管网历史数据。

在本申请实施例中，采集管网历史数据之前可以先对需要进行数据分类分级的管道企业进行业务调研和需求分析，可通过高层访谈、现场调研、与业务负责人对接等方式实现，主要完成三方面确认：第一、确定业务范围和数据边界。目标是定义数据采集对象，确保本方法数据采集对象是可收敛的。第二、确定分类分级原则。目标是为后续分类分级规则建立判定依据。第三、现状分析及需求远景。目标是明确数据分类分级管控规则颗粒度和数据标签。在一个实施例中，管道数据分类分级识别原则可参照如下原则：安全性：从国家安全、行业要求、企业资产、经济运行、社会稳定、公共健康、个人利益等不同角度识别；共享性：规范数据开发利用，促进数据安全有序流动；动态性：当数据用途、风险环境、敏感程度、共享方式、法律规范等发生变化时，应及时更新规则，动态调整分类分级。

在本申请实施例中，管网数据采集范围包括但不限于下列种类。第一、企业内外部组织机构、人员信息、公共物资编码等基础数据。例如企业组织应包括管道上游供应商企业、下游用户单位、监管机构、外部检测商、设备物资厂商等。第二、企业各业务域的已有的主数据、参考数据、元数据、基础数据等。该部分数据是管道的业务核心数据，以结构化和半结构化为主，一般都有专岗维护管理，质量较高，应重点采集。第三、管道业务架构、业务作业流程文件、业务标准规范、设计图纸等。此类数据以非结构化数据为主。第四、管网各业务运行过程及信息系统数据，包括物联网传感器接入流式数据。该部分数据的体量大，数据格式复杂多样，可以通过建立数据索引和数据接口来进行采集。如管道生产管理系统、管道调度系统、管道完整性管理系统、储气库管理系统、LNG管理系统、管道数据湖、管网主数据管理系统等。这样，能够保障数据的完整性和真实性。

在本申请实施例中，步骤102、对管网历史数据进行分类以得到分类数据可以包括：

对管网历史数据对应的数据资产目录进行梳理；

设置分类维度和分类标签；

具体地，在数据采集完成后，进行数据资产目录梳理，查缺补漏。对于每个管道业务主题域的数据目录而言，主要有两种梳理思路：第一、从业务流程出发“自上而下式”进行：重点梳理企业业务价值链，各种业务场景，端到端的业务流程、子流程、活动等。第二、从业务系统角度“自下而上式”进行：盘点已有业务系统中的数据项，并根据数据流，建立并挂接到已有的目录树中。现实中，两种方式往往是同时进行，相向而行，最终构建管道储运企业整体的数据资产目录。

数据梳理过程需要抓住两个重点：第一、数据角色确认：梳理确认数据流转过程中各个角色，如数据的生产者、拥有者、使用者、监管者。数据划分清晰且合理，理清各部门、各小组、各参与人在数据全生命周期各流程中所承担的角色。第二、暗数据发现：为避免遗漏企业暗数据，梳理过程中还应该确保各个数据项均涵盖在数据资产目录中，包括所有影子数据和原生数据。

数据分类应结合分类分级原则和业务需求，设置分类维度和标签，对资产目录进行数据分类。数据分类可以根据需要从多个视角和维度进行，总体可分为业务管理和数据管理两个角度。数据分类可依据下列原则：每种分类维度或角度的分类规则应简单清晰，易于标签化；分类规则宜相对静态稳定，不宜频繁变更；分类因角度目的不同，会存在交叉和重叠，新增数据分类需求建议以标签形式添加。

在一个实例中，针对管道资产完整性业务数据进行分类，分类的维度可包括：内外部维度：将数据区分为内部数据外部数据。内部数据指管道企业内部业务产生的数据，外部数据需要参照或购买的外部辅助决策数据；数据结构维度：区分为结构化、半结构化、非结构化三类；数据更新维度：静态数据、动态数据；数据业务域维度：根据按照管道业务领域，可划分为“设计建设”、“运营调度”等业务域；数据对象维度：可将数据区分为“管道”“场站”等；数据业务目标维度：不同的组织、业务场景，数据分类目标不同，为满足企业不同的业务需要，需建立多套数据分类体系。

在本申请实施例中，步骤103、根据分级规则对分类数据进行定级，以得到分类分级数据可以包括：

获取分级级别；

将分类数据进行安全域的划分以得到分类分级矩阵；

具体地，数据分级根据数据敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度，按照分类分级原则和专家评审及智能辅助等方法进行定义。

首先，结合分类分级原则和需求，设置分级级别。敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度，按照分类分级原则和专家评审及智能辅助等方法进行定义。在一个实施例中，将数据按照数据敏感程度或泄漏后造成的危害及受影响的程度划分成3-4个等级，如表1所示。再根据管道企业自身特定需求、合规性要求或业务需求，调整更细粒度的级别。

表1

其次，细化分类规则，进行数据安全域划分，绘制数据分类分级矩阵。在分级原则的基础上，生成分级判定规则。在一个实施例中，可以将敏感程度、危害程度、受众对象按照分级水平，相对应的区分为不同级别。为了后续在知识图谱中直观区分，可以设定不同级别的安全域，用不同的颜色标记区分。如表2所示，可以对四级分级水平，划分为四个数据安全区，依次用绿、蓝、黄、红四种颜色标识，敏感程度逐次升高，警示的级别也相应升高。若系统中出现数据异常跨区流转，可触发不同程度的警告。在第二步分类维度的基础上，交叉分类和分级，区分不同的分类维度，根据标识规则，初步生成分类分级矩阵。

表2

	分类维度1	分类维度2	分类维度3	分类维度4
					Ⅰ级绿区
Ⅱ级蓝区
					Ⅲ级黄区
Ⅳ级红区

最后，按照数据分类分级矩阵，完成对每个数据项的定级标识操作。分类分级方法主要有三种，即人工、自动、混合。人工方式由专人，尤其是业务专家，依据分级规范，结合数据项的元数据描述，对数据项内容进行分级评估，进行识别标记。自动方式是根据预训练得到的模型，或基于机器学习、 NLP技术的语义和知识分析，生成自动分类分级模型，实现数据目录智能化、自动化。混合方式，是以上两种方式的综合，在人为定义规则体系的基础上，实施自动分类分级，在提高效率的同时，提高分级的准确度。

在本申请实施例中，步骤104、根据分类分级数据构建数据安全图谱概念模型可以包括：

根据分类分级数据确定数据安全图谱概念模型的本体；

提取本体中的实体、关系和属性之间的关系；

根据实体、关系和属性构建数据安全图谱概念模型。

具体地，构建数据图谱的目标是将数据项、数据项之间的关系、数据项属性特征等从复杂多样的数据源中抽取出来。数据图谱用“实体”来表达图里的节点、用“关系”来表达图里的“边”。对管道数据图谱而言，实体多指的具体的数据对象，如“管道”、“设施”、“单位”、“岗位”、“流程”等；关系则用来表达上述不同实体之间的某种联系，如“包含于”、“隶属于”、“等价于”、“负责/被管辖”、“上/下流程”等；实体和关系拥有各自的属性，如“运行参数、状态特征、起止时间、工作地点、事件描述”等。

图谱构建过程是对分类分级数据进行初步图谱模型建模本体设计，构建互联的数据概念图谱。本阶段的重点分析对象是管道主数据和元数据，充分参照管道主数据、元数据等数据治理成果，从业务或者管理角度提炼、抽取分类好的数据项及关系。如管道企业尚未进行数据治理，则首次管道数据图谱的构建，应在数据分类分级基础上，依赖整理好的结构化数据分类清单进行。同时公共知识部分应尽可能参考、调用公开、开源的知识本体体系。分析其中的概念实体、关系和属性，通过映射到预先定义的数据概念图谱中，来快速的冷启动。再利用人工和自动化抽取技术从半结构化和文本中提取结构化信息，通过机器学习和自然语言识别算法等来提取非结构化数据的内容信息，进一步优化补全知识图谱。

对于管道数据安全分类分级目标而言，在实体、关系、属性的设计时还应该重点考虑下列问题和关注点：企业存在哪些敏感数据，应关注数据实体业务如业务域、业务流程、活动、事件；企业敏感数据流转、存于何处，应关注数据实体及位置属性：设备、系统、地点；谁是这些数据的管理者、拥有者或使用者，应关注数据对象实体：部门、人员、用户；数据对企业有哪些价值和风险，应关注数据关系、分类分级属性：数据项元数据、分类标签、分级标签等；数据什么时候被创建、访问、修改和删除，应关注数据实体、数据关系及时间属性：创建时间、版本、有效期等；如何发现和控制敏感数据泄露、销毁、不当访问、篡改，应关注数据实体、异常关系：非法访问、未知访问、异常终止等。

构建数据图谱时需理清数据项之间的关系。管道数据项之间的关系可分为技术、业务、规则三个层面的关系：技术方面，如血缘关系(表级别血缘关系是建立源表、源字段与目标表、目标字段间的映射关系)、时空关系、逻辑语义关系等；业务关系：如业务包含关系、组织层级关系、业务流转关系(如流出节点、汇聚节点、流入节点)、实施对象关系等；规则关系：如约束关系，授权关系，越级关系等。

在本申请实施例中，步骤105、初始化数据安全图谱概念模型，以得到数据安全图谱可以包括：

具体地，数据图谱的初始化过程，主要是完成对数据分类分级图谱概念模型的数据项导入，以及对构建的概念图谱进行验证和优化完善。

数据导入可分为两个步骤：第一、设计、建立管道数据分类分级图数据库。参照构建图谱时定义好的概念图谱节点、关系和属性等，设计图数据库的框架，存放初始化导入的数据节点、关系和属性。并基于图数据库对导入的图谱数据进行分析和查询。第二、建立数据导入接口和规则。对于大量的管道运行和信息系统数据，建立数据接口工具，从源数据库读取数据进入图数据库。根据数据的更新性、实时性等，区分为动态数据和静态数据，设置数据周期导入和质量过滤规则。

图谱质量验证结合概念图谱实例化过程，对输入的数据实体、关系、属性之间存在的冲突和不一致进行优化和完善，对不符合规范的数据进行标准化处理。从多源异构数据中获取的管道数据,在进行实体类型定义、关系抽取和属性标注时存在很大的主观性，存在大量的数据冗余和逻辑不一致性问题。构建数据图谱时，借助实体链接、本体对齐、实体匹配、属性空间化等技术进行知识融合。消除实体、关系、属性等指称项与事实对象之间的歧义, 形成高质量数据图谱库。

主要对数据进行下列两种处理：数据标准化：在导入图数据库前,应进行数据归一化处理，对属性和标签范围进行约束、清洗，规范数据图谱的语义表达。数据实体匹配对齐：使用数据融合技术将多源数据中的实体或概念映射到统一的命名空间中，然后通过语义相似度计算和实体相似度计算记录实体链接，经过专家验证,进行概念、属性、实例层次的语义对齐。在一个实施例中，“输送介质”属性需设定为“原油、成品油(汽油、柴油、航空煤油等)、天然气、液化石油气、水、二氧化碳、氢、其它”，2月份不会超过 29天，设定标准时间为八位日期形式，设置标准条件可以有效抑制噪声数据的进入。

在本申请实施例中，步骤106、按照预设条件更新并维护数据安全图谱概念模型可以包括：

具体地，分类变更维护指基于分类维度自身的调整以及分类维度体系的变更，分类颗粒度太细或太粗，会导致实际使用过程中无法满足需求，达不到数据安全监管的效果；分级变更维护指为满足提升数据安全分级精细化管理水平而进一步细化分级级别；规则变更维护指因调整业务需求、敏感程度发生改变而导致的数据安全规则变更，如升级、降级、新增等；概念图谱维护指对概念图模型中的实体、属性、关系等进行更新、调整，使其更好的适应数据分类分级需求；模型库维护指对数据捕获、关系抽取、表格识别、类型判定、语义生成、标签生成等自动化算法模型、工具进行更新维护；实例维护指对实例进行版本和定期的更新维护。如因以上更新维护，或者关联数据源发生更新时，触发数据知识图谱重新实例化。

图2示意性示出了根据本申请实施例的一种管网数据安全管理的装置的结构示意图，如图2所示，本申请实施例提供一种管网数据安全管理的装置，可以包括：

数据采集模块201，被配置成采集管网历史数据，以得到管网历史数据；

数据分类模块202，被配置成对管网历史数据进行分类，以得到分类数据；

数据分级模块203，被配置成根据分级规则对分类数据进行定级，以得到分类分级数据；

模型构建模块204，被配置成根据分类分级数据构建数据安全图谱概念模型；

初始化模块205，被配置成初始化数据安全图谱概念模型，以得到数据安全图谱。

更新维护模块206，被配置成按照预设条件，更新并维护数据安全图谱。

在本申请实施例中，需要通过数据采集模块201来进行数据采集。采集管网历史数据应充分依赖已有的数据架构进行，按照业务范围和边界，从信息系统和数据库中提取人工录入的管网历史数据，建立数据资源目录。这样，能够保障数据的完整性、真实性和准确性。采集管网历史数据可以包括但不限于以下几种方式：从信息系统和数据库中提取管网历史数据；获取人工录入的管网历史数据；批量导入数据导入模板的管网历史数据。

在本申请实施例中，管网历史数据是管网系统历史存储的数据，分类数据是按照分类维度和标签，对数据资产目录中的管网历史数据分类后的数据。处理器在对管网历史数据进行采集后，会进行数据资产目录的梳理，查缺补漏。再需要通过数据分类模块202结合分类原则和业务需求，设置分类维度和标签，对数据资产目录中的管网历史数据进行分类以得到分类数据。这样，可以根据多个视角和维度对数据进行分类，将具有相同属性或特征进行分类，从而可以使得数据更加清晰。

在本申请实施例中，利用数据分级模块203对分类数据进行分级。分类分级数据是按照分级原则，对分类数据进行分级后的数据。处理器可以根据数据的敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度，按照分类分级原则和专家评审及智能辅助等方法进行定义，以对分类数据进行分级，从而得到分类分级数据。在一个示例中，处理器可以结合分类分级原则和需求，设置分级级别。再细化分类规则，进行数据安全与划分，绘制数据分类分级矩阵。最后按照数据分类分级矩阵，完成对每个数据项的定级标识操作。这样，可以使得数据在分类分级基础上更加清晰。

在本申请实施例中，构建数据图谱的目标是将数据项、数据项之间的关系、数据项属性特征等从复杂多样的数据源中抽取出来。数据图谱用“实体”来表达图里的节点、用“关系”来表达图里的“边”。在一个实例中，对管道数据图谱而言，实体多指的具体的数据对象，如“管道”、“设施”、“单位”、“岗位”、“流程”等；关系则用来表达上述不同实体之间的某种联系，如“包含于”、“隶属于”、“等价于”、“负责/被管辖”、“上/下流程”等；实体和关系拥有各自的属性，如“运行参数、状态特征、起止时间、工作地点、事件描述”等。利用模型构建模块204根据分类分级数据确定数据安全图谱概念模型的本体，再提取本体中的实体、关系和属性之间的关系，最后根据实体、关系和属性构建数据安全图谱概念模型。

在本申请实施例中，数据图谱的初始化过程，主要是通过初始化模块205 完成对数据分类分级图谱概念模型的数据项导入，以及对构建的概念图谱进行验证和优化完善。通过设计、建立管道数据分类分级图数据库、建立数据导入接口和规则完成数据导入。再进行图谱质量验证，对不符合规范的数据进行标准化处理。在一个示例中，初始化模块205将管网实例数据导入数据安全图谱概念模型，以得到初始化数据安全图谱，再根据管网实例数据对初始化数据安全图谱进行质量验证，以得到数据安全图谱。

在本申请实施例中，通过更新维护模块206，按照预设条件更新并维护数据安全图谱。预设条件：分类发生变化、分级发生变化、规则发生变化、概念图谱发生变化、模型库发生变化以及实例发生变化。因此，对于数据安全图谱的维护包括以下中的至少一者：分类变更维护、分级变更维护、规则变更维护、概念图谱维护、模型库维护以及实例维护。通过动态维护使得数据安全图谱能够得到更新，数据的完整性、真实性更强。

数据采集模块201是数据安全分类分级的数据采集管理和数据输入模块。该模块包括自动提取工具201.1、人工录入工具201.2、模板导入工具201.3 三类数据采集接口或工具。目标是将尽可能全面的将需要进行安全分类分级的数据项输入进分类分级平台进行管理。其中自动提取工具201.1主要完成从各信息系统和数据库中数据项自动提取；人工录入工具201.2主要通过人工录入方式进行数据项采集和内容更新干预；模板导入工具201.3主要依据提前设置的数据导入模板进行数据项的批量导入。

数据分级模块203负责对采集到的数据进行分级处理，并按应用需求输出分级结果至知识库203.3，其分类依据由模型库203.1、规则库203.2等提供。该模块结合人工梳理形成的规则库，以及自动化判别模型，共同完成对数据采集模块所采集的数据项的分类分级，并将结果形成知识库，以知识图谱方式为知识应用模块提供知识输入。该模块的详细流程示意如图3所示。

模型库203.1存放为完成数据安全分类分级所建立的自动化判定模型或分类器。模型根据所属技术可以分为两类，即统计决策模型和机器学习模型。统计决策模型偏重于基于统计规律分析学习产生的自动判定方法，机器学习模型侧重于基于深度学习所涉及的图像识别、自然语言处理、语音识别等人工智能算法。规则库203.2存放由人工依据分类分级原则，讨论、细化而来的数据安全分类分级识别规则。规则经确认后，再经过编程固化，可以转入模型库提供自动判定。知识库203.3存放经过分类分级后的数据安全知识，以及供知识应用的全量知识图谱数据。为提高查询速度，全量、定制分类分级数据以图数据库方式进行存储；详细索引、链接、参考及过程数据可根据需要存放在图数据库或其他数据库中，提供数据扩展查询；原始数据可单独存储，通过数据采集接口进行钻取调用。

在一个实施例中，增量数据301指待分类分级的输入数据，可以是结构、非结构化或半结构化数据。经过数据预处理模块302对输入数据进行数据清洗、转换、格式化、标记和提取等处理，提取为表单303、关系304、分词 305、标签306等数据分类分级要素。这些数据分类分级要素在规则库307 和模型库308的指导下，通过人工和自动的方式，转化为节点309、边310 和属性311，进行知识图谱构建，并进一步数据后处理312进行质量验证，最终输出到知识库313中。

在一个实例中，以管道资产完整性数据安全分类分级方法为例。

管道资产在设计、建设、运行、维护、废弃的每个阶段都会产生大量的数据。这些数据常常仅在某一部门内，或者某个流程内进行监管，缺少跨部门、跨阶段、全视图的精细监管，数据存在泄漏和丢失风险，数据价值无法体现，也无法进行有效的数据安全风险防范。为此，构建管道资产完整性数据的安全分类分级，为管道全生命周期数据安全奠定基础。其实现过程如下：

1、准备阶段。

调研管道储运企业，理清管道资产完整性管理业务对象、业务边界、数据管理需求。为后续采集到的资产完整性管理不同阶段数据，指定一套统一可行的数据分类分级原则，同时确定数据分类的最小粒度。

如储运企业通过调研准备，依据其企业实际情况、管道资产规模、数据安全风险程度和数字化水平等，确立了“合规为主，兼顾重点。充分共享，精准防范”的数据安全原则，并根据此原则，初步设定数据图谱构建过程中的实体、关系等业务边界和颗粒度。

2、数据采集梳理阶段。

管网资产完整性业务数据采集清单参考如下：

管道企业主数据、基础数据、元数据、参考数据等已有的数据治理项目产生的数据成果。尤其是企业组织结构、人员岗位数据、物资编码数据、业务主管理数据等。

管道、场站、储气库、LNG等管道储运主体资产设施的基础数据。例如管道基础数据应包括管道类型、管道名称、行政位置、输送介质、直径壁厚、设计输量、当前输量、棺材、防腐层类型、阴极保护类型、投产日期、施工日期、站场数量、穿跨越数量、中心线走向等。

上述主体资产设施扩展数据，如GIS数据、管道周边影像数据、管线站场二三维模型、管理范围、历史数字化恢复数据等。

管道场站附属设施(如桩)、动力设备、通信设备、采集设备、作业机械、应急物资、电气设备、计量设备、特种装备等设备设施台账数据。

管道运行数据，如智能感知、维护工程、管道保护、管道防汛、应急演习等运行台账数据。

完整性管理业务数据：如高后果区识别与评价、风险评价、内外检测评价、缺陷数据、防腐数据、气象地灾水文数据等。

在此基础上进行数据分类和梳理，结合完整性管理规范标准和要求，对每类数据的数据角色进行识别，标记每个数据项的生产者、拥有者、使用者、监管者等岗位角色。同时依据完整性管理业务作业文件和流程，理清每类业务流程中各个环节中各数据流转岗位之间的工作流关系。

数据分类环节，可以根据常见的数据分类体系，结合业务特定需求来定义。常见的分类维度可参照如下：

内外部维度：将数据区分为内部数据、外部数据。内部数据指管道企业内部业务产生的数据，如管道基础数据、企业组织机构目录、业务交易数据、流程作业规范等。外部数据需要参照或购买的外部辅助决策数据，如气象水文数据、地理空间数据、社会经济数据等。

数据结构维度：区分为结构化、半结构化、非结构化三类。

数据更新维度：静态数据、动态数据等。

数据业务域维度：根据如按照管道业务领域，如可划分为“设计建设”、“运营调度”、“资产运维”、“科技研发”、“辅助支撑”等业务域。

数据对象维度：可将数据区分为“管道”、“场站”、“储气库”、“LNG”、“人员”、“设备”、“事件”、“状态”、“环境”、“场所”等

数据业务目标维度：不同的组织、业务场景，数据分类目标不同，为满足企业不同的业务需要，可能需要建立多套数据分类体系，如根据地理行政级别、业务流程标记等。

3、数据分级和安全域划分。

按照分类分级原则，设置资产完整性数据的分级依据。如表3所示：

表3

数据分级	敏感程度	危害程度	受众对象	标记区域
					Ⅰ级	公开	无影响	大众	绿区
Ⅱ级	敏感	低	企业内部	蓝区
					Ⅲ级	受控	中	受控部门	黄区
Ⅳ级	禁止	高	保密部门	红区

再进一步，绘制分类分级矩阵，如表4所示：

表4

针对特定维度，如需进一步细化到岗位角色，可以绘制数据分类分级图，在图中标记相应业务所在的区域位置。如图4所示。

为达到精准防范的目标，还可以将不同数据安全分区，也可以绘制数据安全防护措施矩阵，梳理出非敏感、低风险、权限明确的数据，通过加密脱敏等方式，形成数据资产，释放到数据交易市场，最大限度的释放数据价值，同时兼顾数据安全和隐私。如表5所示。

表5

4、分类分级概念数据图谱构建。

参照本发明说明第四步的方法，构建概念数据图谱。

结合管网资产完整性业务，初步构建概念图谱如图5所示。其中包括的实体如“设施”、“设备”、“部门”、“岗位”、“流程”等；关系如“包含于”、“隶属于”、“等价于”、“负责/被管辖”、“上/下流程”等；部分自相关关系未标示出。实体、关系拥有各自的属性或标签，如“数据分类、数据分级、业务域、起止时间、工作地点、事件描述”等。图中每个节点标识一个概念实体，概念实体自身还拥有包含、隶属等关系。属性或标签可以按照数据分类，数据分级或业务域等进行梳理。

5、数据图谱实例化和质量检查。

为分类分级概念图谱中的每个实体设计相应的知识卡片或采集模板，便于图数据库的数据导入和数据接口设计。例如“数据项”实体的属性及关系相关模板设计如表6所示。

表6

对概念图谱的实体、属性、关系等参照第2步中的分类维度来进行梳理和实例化，如数据项实体可以按业务域维度实例化为多种分类实体。同时，为提高数据图谱的准确性，对实例化后的实体、关系、属性进行质量提升和优化，如标准化约束、冲突和不一致的匹配、对齐和融合。

6、数据图谱的更新和维护。

在实例化的基础上，持续迭代，对数据图谱进行更新维护。重点关注两个方面的维护：

增量数据更新：随着管网资产完整性业务调整，对新增业务进行重新调研，对新增的数据源重新进行分类分级分析和识别。识别分类分级矩阵，并更新数据图谱。

模板和规则的调整更新：数据价值、敏感程度、法律法规要求等发生改变后，对应的分类分级规则应同步进行变更，并重新进行数据图谱的全局更新，标记图谱更新前后版本的升级、降级等对应情况，加以重点关注。

在另一个实例中，以管网涉外数据安全监管平台为例。

管道建设、设计、移交、监管过程中，不可避免地要与外部企业、单位、部门等进行数据的交互。如何确保涉外数据的安全移交，构建数据图谱和数据安全监管平台，摸清待移交数据的来源、分类分级信息，并设计适当的数据安全防护措施，是重要的技术保障。平台构建实施过程简述如下：

1、梳理管道“建、运、维、废”全生命周期中所涉及到涉外业务相关的内外部数据需求。涉外业务包括外部单位向管道储运企业内部移交的管道业务相关数据，也包括管道储运企业与外部单位分享或提交的管道业务数据。不涉及国家保密法中要求的保密数据。

2、结合业务需求进行数据采集、梳理、分类和分级。采集到的涉外原始数据存入涉外数据监管平台的原始数据库中，并做好数据调取记录。

3、设计并构建管网内外部数据流转的数据图谱，理清数据项、部门、业务、岗位、设施、设备、事件等实体之间的关系，并关联数据属性。进行数据导入接口开发。

4、梳理好的数据图谱分类分级关联数据，依照分类分级规则将数据导入图数据库。对图数据库中的图谱进行过滤和对齐，确保数据图谱数据质量。该部分数据作为分类分级知识，输入到知识库中。

5、提取分类分级规则，并利用人工智能，基于机器学习和自然语言处理算法构建自动分类分级模型。规则、模型分别存放到模型库和知识库中。

6、开发数据分类分级引擎，其流程是通过调用规则库和模型库中的分类分级算法工具，实现对增量数据的自动化初步分类分级，在人工审核后，提交到分类分级知识库。并触发知识库的增量更新维护功能。

7、设计知识应用模块，可以提供基于分类分级知识库中的分类分级数据图谱可视化展示、图表报告生成、智能查询、决策支持等知识相关应用。

8、扩展平台功能，如挂接数据安防系统，针对特定分类分级数据，审核通过后，触发相应级别的脱敏处理和加密处理，并发送提交到数据接收方单位人员。

9、完善平台功能：如数据采集方面增加数据导入模板，人工录入接口等；提供用户管理，权限控制、系统安全、数据备份等信息系统管理功能。

在一个实施例中，以知识应用示例，为便于数据各方及时查询某个数据或报告的分类分级信息，以及相关数据分级防护要求。可由该监管平台对每个涉外提交的数据生成电子的分类分级二维码，或者纸质文档分类分级卡，如图6所示，该二维码直接指向该数据在涉外管道分类分级数据安全监管平台中的知识卡片页面(通过url链接访问)，通过扫码可以打开监控平台查询该数据项的详细分类分级信息，进一步通过数据分类分级图谱进行详情分析，多维度钻取查询。如进行数据流转途径、分类分级信息、访问记录和范围、数据安防措施要求等信息查询，并可通过登录监管平台反馈问题或提交异常报告。

基于以上具体实例，本申请至少有如下技术效果：通过构建自动化分类分级规则和模型，可以有效地对管理制度、岗位职责、保障措施等进行针对性的数据安全设计。并且通过对数据安全图谱进行动态更新维护，可以保障数据资产的保密性、完整性、真实性和可用性。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种管网数据安全管理的方法，其特征在于，包括：

采集管网历史数据；

对所述管网历史数据进行分类以得到分类数据；

根据分级规则对所述分类数据进行定级，以得到分类分级数据；

根据所述分类分级数据构建数据安全图谱概念模型；

初始化所述数据安全图谱概念模型，以得到数据安全图谱；

按照预设条件更新并维护所述数据安全图谱。

2.根据权利要求1所述的方法，其特征在于，所述采集管网历史数据包括以下中的至少一者：

从信息系统和数据库中提取管网历史数据；

获取人工录入的管网历史数据；

批量导入数据导入模板的管网历史数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述管网历史数据进行分类以得到分类数据包括：

对所述管网历史数据对应的数据资产目录进行梳理；

设置分类维度和分类标签；

根据所述分类维度和所述分类标签对所述数据资产目录中的管网数据进行分类，以得到分类数据。

4.根据权利要求1所述的方法，其特征在于，所述根据分级规则对所述分类数据进行定级，以得到分类分级数据包括：

获取分级级别；

将所述分类数据进行安全域的划分以得到分类分级矩阵；

根据所述分类分级矩阵，对每个分类数据进行定级以得到分类分级数据。

5.根据权利要求1所述的方法，其特征在于，所述根据所述分类分级数据构建数据安全图谱概念模型包括：

根据所述分类分级数据确定所述数据安全图谱概念模型的本体；

提取所述本体中的实体、关系和属性之间的关系；

根据所述实体、关系和属性构建所述数据安全图谱概念模型。

6.根据权利要求1所述的方法，其特征在于，所述初始化所述数据安全图谱概念模型，以得到数据安全图谱包括：

将管网实例数据导入所述数据安全图谱概念模型，以得到初始化数据安全图谱；

根据所述管网实例数据对所述初始化数据安全图谱进行质量验证，以得到所述数据安全图谱。

7.根据权利要求6所述的方法，其特征在于，所述将管网实例数据导入所述数据安全图谱概念模型，以得到初始化数据安全图谱包括：

根据所述数据安全图谱概念模型确定图数据库；

建立数据导入接口和规则；

通过数据导入接口将管网实例数据按照规则导入至所述图数据库，以得到所述初始化安全图谱。

8.根据权利要求7所述的方法，其特征在于，所述根据所述管网实例数据对所述初始化数据安全图谱进行质量验证包括：

获取所述管网实例数据的实体、关系和属性；

在所述实例数据的实体、关系和属性是否存在不一致的情况下，对异常管网示例数据进行标准化处理。

9.根据权利要求1所述的方法，其特征在于，所述按照预设条件更新并维护所述数据安全图谱包括以下中的至少一者：

10.一种管网数据安全管理的装置，其特征在于，所述装置包括：

数据采集模块，被配置成采集管网历史数据；

数据分类模块，被配置成对所述管网历史数据进行分类以得到分类数据；

数据分级模块，被配置成根据分级规则对所述分类数据进行定级，以得到分类分级数据；

模型构建模块，被配置成根据所述分类分级数据构建数据安全图谱概念模型；

初始化模块，被配置成初始化所述数据安全图谱概念模型，以得到数据安全图谱；

更新维护模块，被配置成按照预设条件更新并维护所述数据安全图谱。