CN112527796B

CN112527796B - 数据表处理方法、装置及计算机可读存储介质

Info

Publication number: CN112527796B
Application number: CN202011454964.5A
Authority: CN
Inventors: 叶荣伟; 徐世权; 蒋熠; 周雪
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2023-07-21
Anticipated expiration: 2040-12-10
Also published as: CN112527796A

Abstract

本发明公开了一种数据表处理方法，包括：识别所述数据库中的各种数据表的表信息；基于所述表信息确定所述各种数据表之间的派生关系；根据所述数据表之间的派生关系对数据表进行回溯追踪；及通过所述回溯追踪的结果构建父系血缘家谱结构。本发明还提供一种数据表处理装置及计算机可读存储介质。本发明提供的数据表处理方法，能够克服现有的数据血缘追踪模型的上述缺陷，实现数据泄露点到数据源点的逆向追踪，且追踪能力不受限于特定的业务场景、流转路径。

Description

数据表处理方法、装置及计算机可读存储介质

技术领域

本发明实施例涉及软件开发技术领域，特别涉及一种数据表处理方法、装置及计算机可读存储介质。

背景技术

随着数字经济和新兴技术的发展，数据分析和融合的业务价值日益提升。同时，数据泄露安全事件层出不穷。为实现数据在不同业务实体间自由流动的安全控制，实现数据安全事件发生后能及时溯源数据源头、定位数据责任者，便需要实现多源、异构网络环境下跨业务的数据全路径追踪溯源能力。

目前主要的数据溯源方法包括数据水印技术和数据血缘追踪技术。数据血缘技术根据数据的转移、复制过程产生的链路，记载了数据使用过程中的历史记录，可根据数据血缘回溯数据的起源和处理这些数据的中间环节乃至处理过程，以及追踪数据在使用中的演化过程。当数据发生异常或泄露时，可通过数据血缘追踪到数据源头，定位数据异常或泄露责任，降低数据安全控制风险水平。数据的自由流转和多次加工，是数据需要追踪的原因，也是数据追踪的难点所在。

现有的数据血缘追踪技术中，首先是进行SQL语句解析，提取执行字段，并分析执行字段间的层级关系，形成一个树结构。其次是构建执行计划树，并利用执行计划树中的二叉节点确定字段间的血缘关系。现有技术的方案中二叉节点的父节点及其两个子节点分别代表不同层级的执行字段，彼此之间通过二叉节点的树结构体现父子血缘关系。那么针对所述至少一个二叉节点中的每个二叉子节点，执行块划分，则每个二叉父节点均可对应两个查询执行块。通过对整个执行计划树从根节点到叶子节点按上述方式构建父子层级血缘关联关系，则通过多层递归可以获得上述多个查询字段之间的数据血缘关系，形成执行字段间树状血缘关系。然后，基于这种字段间的血缘关系，可以进一步形成业务表间的血缘关系。图1为现有技术中的数据血缘追踪模型，如图1所示，通过分析基于Table A、B、C加工建立Table F的SQL查询语句的解析，可以建立表A与表F，表B与表F，表C与表F间的血缘关系，表间的血缘关系通过查询字段的血缘关系实现关联。通过血缘关系递归，建立了表与表X间的血缘关系。这个表间血缘关系的应用作用是当发现表X中存有异常数据时，可以通过字段血缘关系记录追踪到表I、表J、表I及表J等多种情况，并递归追踪到第一级数据源。比如表X的异常字段来源于表I，然后追踪到表G、表C，并最终定位异常数据来源。

现有技术中的数据血缘追踪模型存在以下缺点：

第一，现有技术中的数据血缘追踪模型限定在简单的业务模式下的表间追溯能力。第二，这个模型是基于SQL语句的解析，一方面提供了系统部署落地的成本，但是另一方面限制了技术应用的场景。第三，血缘的多源性带来的复杂性。

发明内容

本发明实施方式的目的在于提供一种数据表处理方法，能够克服现有的数据血缘追踪模型的上述缺陷，实现数据泄露点到数据源点的逆向追踪，且追踪能力不受限于特定的业务场景、流转路径。

为解决上述技术问题，本发明的实施方式提供了一种数据表处理方法，所述方法包括：识别所述数据库中的各种数据表的表信息；基于所述表信息确定所述各种数据表之间的派生关系；根据所述数据表之间的派生关系对数据表进行回溯追踪；及通过所述回溯追踪的结果构建父系血缘家谱结构。

本发明的实施方式还提供了一种数据表处理装置，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的数据表处理方法的步骤。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述数据表处理方法的步骤。

本发明实施方式相对于现有技术而言，采用数据表粒度的派生关系识别算法，根据所述数据表之间的派生关系对数据表进行回溯追踪，通过所述回溯追踪的结果构建父系血缘家谱结构，可适用于异构的软件、多场景流转的环境，不受限于特定的业务场景、流转路径及SQL语句预先的假设条件，避免采用字段间强相关性分析以及SQL语句的提取和分析条件限制。

优选地，所述识别所述数据库中的各种数据表的表信息的步骤包括：通过敏感数据识别工具登陆存储所述数据库的服务器，并进行全盘扫描；根据扫描结果获取数据表元数据并抽样提取所述数据表的记录内容；对元数据进行数据识别获取所述字段类型；基于所述记录内容判断所述记录内容对应数据表的业务属性及安全数据。

优选地，所述表信息包括字段类型、业务属性和安全属性，所述基于所述表信息确定所述各种数据表之间的派生关系的步骤包括：获取所述数据表之间的数据流转信息；根据所述字段类型、所述业务属性和所述安全属性以及所述数据表之间的数据流转信息判断所述数据表之间的派生关系。

优选地，所述根据所述数据表之间的派生关系对数据表进行回溯追踪的步骤具体包括：根据所述字段类型、所述业务属性和所述安全属性对任意两个具有所述派生关系的所述数据表进行相似性计算；将所述相似性计算结果最大的且具有所述派生关系的两个数据表作为回溯节点。这样，基于字段、内容、安全数据构建N维向量并计算向量间的相似度，从多源数据中选举最相似父表，避免多代血缘溯源后目标对象数量不具有实际处理意义。

优选地，通过所述回溯追踪的结果构建父系血缘家谱结构的步骤包括：确定各个所述回溯节点的数据表之间的派生关系；基于各个所述回溯节点的数据表之前的派生关系构建父系血缘家谱结构。

优选地，还包括：明确发生数据泄露的数据表在所述父系血缘家谱结构中的节点位置；根据所述节点位置确定家谱回溯轨迹；判断所述家谱回溯轨迹上节点上的数据表是否存在非法派生事件；若存在，则判断所述家谱回溯轨迹上的存在非法派生事件的数据表为数据泄露源头。

优选地，还包括：明确与所述数据泄露源头的数据表具有派生关系的其他数据表；将所述其他数据表构成的数据表集合确定为数据泄露影响范围集合。这样，基于数据父系血缘家谱，可在完善了现有血缘追踪定位后，可进一步补充评估数据泄露对其他数据表的风险影响能力。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。

图1是现有技术中的数据血缘追踪模型；

图2是根据本发明第一实施方式的数据表处理方法的流程示意图；

图3是根据本发明第一实施方式的父系血缘家谱回溯应用场景示意图；

图4是根据本发明第一实施方式的确定数据泄露影响范围集合示意图；

图5是根据本发明第二实施方式的数据表处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明的第一实施方式涉及一种数据表处理方法，应用于数据库。本实施方式的核心在于，采用数据表粒度的派生关系识别算法，根据所述数据表之间的派生关系对数据表进行回溯追踪，通过所述回溯追踪的结果构建父系血缘家谱结构，可适用于异构的软件、多场景流转的环境，不受限于特定的业务场景及SQL语句预先的假设条件，避免采用字段间强相关性分析以及SQL语句的提取和分析条件限制。下面对本实施方式的数据表处理方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。本实施方式中的数据表处理方法的流程示意图如图2所示，该方法应用于数据表处理装置。

在本实施方式中，根据不同的需求，图2所示的流程图中的步骤的执行顺序可以改变，某些步骤可以省略。

步骤S101：识别所述数据库中的各种数据表的表信息。

具体地，所述表信息包括字段类型、业务属性和安全属性。本实施例中，通过下述方式识别所述数据库中的各种数据表的表信息：

通过敏感数据识别工具登陆存储所述数据库的服务器，并进行全盘扫描；根据扫描结果获取数据表元数据并抽样提取所述数据表的记录内容；对元数据进行数据识别获取所述字段类型；基于所述记录内容判断所述记录内容对应数据表的业务属性及安全数据。

具体地，通过正则、关键字、字符串模式等方法识别数据表中的字段，通过抽样提取的数据表记录内容预判其所属业务系统类型及业务数据类型，根据表字段、业务属性和敏感数据分类分级定义规则判断表的分类、分级业务属性。

步骤S102：基于所述表信息确定所述各种数据表之间的派生关系。

本实施例中，获取所述数据表之间的数据流转信息；根据所述字段类型、所述业务属性和所述安全属性以及所述数据表之间的数据流转信息判断所述数据表之间的派生关系。

具体地，不同业务系统、异构存储介质中的数据表基于各自的字段类型、业务属性及安全属性进行关联分析。对不同数据表间，存在相似敏感字段、相同或相近业务属性、存在相同数据分类及相近数据敏感分级的表，标记可疑派生关系。其中，派生关系是借助于面向对象程序语言中的类派生概念，指一个数据表从另一个数据表继承主要的字段、业务属性和安全属性。对标记为可疑派生关系的数据表，结合数据表之间的数据流转信息进行分析，确定数据表间是否存在派生关系。本实施例中，数据表之间的数据流转信息可通过分析数据表间访问、转移等过程中的日志、流量信息进行获取。

步骤S103：根据所述数据表之间的派生关系对数据表进行回溯追踪。

本实施例中，所述根据所述数据表之间的派生关系对数据表进行回溯追踪的步骤具体包括：根据所述字段类型、所述业务属性和所述安全属性对任意两个具有所述派生关系的所述数据表进行相似性计算；将所述相似性计算结果最大的且具有所述派生关系的两个数据表作为回溯节点。

本实施例中，在字段、内容、安全属性3个维度综合计算每张父表与子表的相似度，并取最大值，如公式一：X＝MAX_k＝1..n{x_k}，进一步地，采用Tanimoto系数算法计算表间的相似度，具体地：将表X和表Y按要比较相似度的属性表达为一个N维变量，变量分别对表的字段属性、业务属性、安全属性进行标识，本实施例中，为实现量化计算，预先对字段数据、业务数据及安全属性数据进行算术折算，表示相应实数。其中实数的排序无意义，同一维实数间的差值绝对值反应其在该属性的差异性，不同维度属性间实数无比较意义。则Tanimoto相似度系数计算如下：

其中，X＝[x₁,x₂…,x_n]，Y＝[y₁,y₂…y_n]。

本实施例中，基于字段、内容、安全数据构建N维向量并计算向量间的相似度，从多源数据中选举最相似父表，避免多代血缘溯源后目标对象的数量不具有实际处理意义。

步骤S104：通过所述回溯追踪的结果构建父系血缘家谱结构。

具体地，通过所述回溯追踪的结果构建父系血缘家谱结构的步骤包括：确定各个所述回溯节点的数据表之间的派生关系；基于各个所述回溯节点的数据表之前的派生关系构建父系血缘家谱结构。

进一步地，本实施例中，数据库还明确发生数据泄露的数据表在所述父系血缘家谱结构中的节点位置；根据所述节点位置确定家谱回溯轨迹；判断所述家谱回溯轨迹上节点上的数据表是否存在非法派生事件；若存在，则判断所述家谱回溯轨迹上的存在非法派生事件的数据表为数据泄露源头。

进一步地，本实施例中，基于数据父系血缘家谱，可在完善了现有血缘追踪定位后，进一步补充评估数据泄露对其他数据表的风险影响能力。

具体地，数据库明确与所述数据泄露源头的数据表具有派生关系的其他数据表；将所述其他数据表构成的数据表集合确定为数据泄露影响范围集合。

在发生数据安全泄露事件时，首先，根据泄露的数据表信息回溯其血缘祖先，排查数据泄露源头(数据泄露源头不一定是数据父系血缘家谱的第一代节点)。举个例子，图3是本实施方式的父系血缘家谱回溯应用场景示意图。

其中，表I发生数据安全泄露事件，通过数据父系血缘家谱图回溯，建立了表I—表D—表B—表A的溯源血缘轨迹，其中表B派生出表D、表E、表F三张表，且表D属于非法派生而得。因此，在这种场景下，数据泄露风险溯源定位到表B，其责任定位为表B到表D派生关系的创建者，而不是事实上的血缘祖先(根节点)表A。

其次，发生数据安全泄露后，还需要评估这种泄露造成的影响。一般而言，数据泄露影响主要包括相似度较高的数据表，特别是业务属性、字段内容、安全属性均相关的对象。父系血缘家谱图便是基于表间的业务属性、字段内容、安全属性的相似度进行最优选举的，因此可以基于父系血缘家谱进行数据泄露范围的评估，图4是本实施方式的确定数据泄露影响范围集合示意图。在定位数据泄露源头的情况下，以此数据表为源的数据父系血缘表涉及的数据表子树，均为数据泄露受影响范围。而这个追踪能力在父系血缘家谱图下是很容易实现的。同时，这种影响程度还需要基于表间的血缘距离进行定义，其基本原则是血缘距离越近，影响越大。

与现有技术相比，本发明实施方式，采用数据表粒度的派生关系识别算法，可适用于异构的软件、多场景流转的环境，不受限于特定的业务场景及SQL语句预先的假设条件，避免采用字段间强相关性分析以及SQL语句的提取和分析条件限制。基于字段、内容、安全数据构建N维向量并计算向量间的相似度，从多源数据中选举最相似父表，避免多代血缘溯源后目标对象数量不具有实际处理意义，另外，基于数据父系血缘家谱，可在完善了现有血缘追踪定位后，进一步补充评估数据泄露对其他数据表的风险影响能力。

上面各种方法的步骤划分，只是为了描述清楚，并不对步骤执行的先后顺序进行限定，而且实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第二实施方式涉及一种数据表处理装置，如图5所示，包括至少一个处理器301；以及，与至少一个处理器301通信连接的存储器302；其中，存储器302存储有可被至少一个处理器301执行的指令，指令被至少一个处理器301执行，以使至少一个处理器301能够执行步骤：

识别所述数据库中的各种数据表的表信息；基于所述表信息确定所述各种数据表之间的派生关系；根据所述数据表之间的派生关系对数据表进行回溯追踪；及通过所述回溯追踪的结果构建父系血缘家谱结构。

其中，处理器301和存储器302采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器301。

处理器301负责管理总线和通常的处理，还可以提供各种功能，包括定时、外围接口、电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现步骤：

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种数据表处理方法，应用于数据库，其特征在于，包括：

识别所述数据库中的各种数据表的表信息；其中，所述表信息包括字段类型、业务属性和安全属性；

基于所述表信息确定所述各种数据表之间的派生关系；

根据所述数据表之间的派生关系对数据表进行回溯追踪；及

通过所述回溯追踪的结果构建父系血缘家谱结构；

所述识别所述数据库中的各种数据表的表信息的步骤包括：

通过敏感数据识别工具登陆存储所述数据库的服务器，并进行全盘扫描；

根据扫描结果获取数据表元数据并抽样提取所述数据表的记录内容；

对元数据进行数据识别获取所述字段类型；

基于所述记录内容判断所述记录内容对应数据表的业务属性及安全属性。

2.如权利要求1所述的数据表处理方法，其特征在于，所述基于所述表信息确定所述各种数据表之间的派生关系的步骤包括：

获取所述数据表之间的数据流转信息；

根据所述字段类型、所述业务属性和所述安全属性以及所述数据表之间的数据流转信息判断所述数据表之间的派生关系。

3.如权利要求1所述的数据表处理方法，其特征在于，所述根据所述数据表之间的派生关系对数据表进行回溯追踪的步骤具体包括：

根据所述字段类型、所述业务属性和所述安全属性对任意两个具有所述派生关系的所述数据表进行相似性计算；

将所述相似性计算结果最大的且具有所述派生关系的两个数据表作为回溯节点。

4.如权利要求3所述的数据表处理方法，其特征在于，通过所述回溯追踪的结果构建父系血缘家谱结构的步骤包括：

确定各个所述回溯节点的数据表之间的派生关系；

基于各个所述回溯节点的数据表之前的派生关系构建父系血缘家谱结构。

5.如权利要求1所述的数据表处理方法，其特征在于，还包括：

明确发生数据泄露的数据表在所述父系血缘家谱结构中的节点位置；

根据所述节点位置确定家谱回溯轨迹；

判断所述家谱回溯轨迹上节点上的数据表是否存在非法派生事件；

若存在，则判断所述家谱回溯轨迹上的存在非法派生事件的数据表为数据泄露源头。

6.如权利要求5所述的数据表处理方法，其特征在于，还包括：

明确与所述数据泄露源头的数据表具有派生关系的其他数据表；

将所述其他数据表构成的数据表集合确定为数据泄露影响范围集合。

7.一种数据表处理装置，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行步骤：

识别数据库中的各种数据表的表信息；其中，所述表信息包括字段类型、业务属性和安全属性；

基于所述表信息确定所述各种数据表之间的派生关系；

根据所述数据表之间的派生关系对数据表进行回溯追踪；及

通过所述回溯追踪的结果构建父系血缘家谱结构；

所述识别所述数据库中的各种数据表的表信息的步骤包括：

对元数据进行数据识别获取所述字段类型；

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据表处理方法的步骤。