CN111859447A

CN111859447A - 一种带隐私保护的Spark工作流调度方法及系统

Info

Publication number: CN111859447A
Application number: CN202010630182.6A
Authority: CN
Inventors: 顾海花; 张霞; 孙仁鹏; 傅婧
Original assignee: Nanjing College of Information Technology
Current assignee: Nanjing College of Information Technology
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2020-10-30

Abstract

本发明公开了属于Spark大数据处理技术领域的一种带隐私保护的Spark工作流调度方法及系统，能够将带有隐私性的数据放在指定的数据中心进行处理，满足了隐私保护的需求，同时提高了整个Spark工作流的处理效率，减少了执行时间。根据隐私性规则将输入数据分为隐私数据和普通数据；再以分区为单位进行隐私性标记，分为隐私分区和普通分区；将普通分区作为输入的Spark就绪任务调度到普通数据中心处理，得到第一输出数据；将隐私分区作为输入的Spark就绪任务调度到隐私数据中心处理，得到第二输出数据；判断第一输出数据和第二输出数据是最终结果还是中间结果，若是中间结果则重新进行隐私性确认、标记、分区，直至所有Spark就绪队列中的Spark就绪任务全部处理完成。

Description

一种带隐私保护的Spark工作流调度方法及系统

技术领域

本发明属于Spark大数据处理技术领域，具体涉及一种带隐私保护的Spark工作流调度方法及系统。

背景技术

Spark是基于并行计算技术的较新的分布式计算框架，Spark的内核使用一种称为RDDs(弹性分布式数据集)的数据结构来对分布式数据提供统一的视图。然而，RDDs中表示的数据可能导致应用程序处理的隐私数据泄漏，且Spark默认的两种调度策略FIFO和FAIR都无法对隐私数据进行有效保护。这使得在一些输入数据带有少量隐私保护要求，且处理结果能够分享给外界的场景中，Spark框架无法灵活地处理。一个Spark应用通常包含一组有偏序关系的作业，一个作业中又能划分为一组有偏序关系的阶段，拓扑关系有嵌套的层次结构，所以整个Spark应用任务的拓扑排序组合数量相当大，很难得到一个目标为最小化完工时间的最佳序列。

目前用于数据安全和隐私保护的三种主要技术有数据加密技术、数据匿名化方法和数据分片技术，对数据进行加密是一种传统的数据保护技术，可以用于数据加密存储与数据加密处理。但是对数据进行加密解密操作，将不可避免的导致计算开销的增大，且如果密钥泄露，将导致数据的隐私和安全性得不到保障。匿名化技术主要采用隐藏和泛化等方法用于对要公开发布的信息进行隐私保护。数据分割是一种基于分割敏感数据的保护技术，包含垂直分割和水平分割两种。

发明内容

为解决现有技术中的不足，本发明提供一种带隐私保护的Spark工作流调度方法及系统，能够将带有隐私性的数据放在指定的数据中心进行处理，满足了隐私保护的需求，同时提高了整个Spark工作流的处理效率，减少了执行时间。

为达到上述目的，本发明所采用的技术方案是：一种带隐私保护的Spark工作流调度方法，包括：a、根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；b、将隐私数据和普通数据以分区为单位进行隐私性标记，含有隐私数据的分区标记为隐私分区，其余分区为普通分区；c、将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理，得到第一输出数据；将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理，得到第二输出数据；d、判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束；若是中间结果则将其作为输入数据，重复进行步骤a~c，直至所有Spark就绪队列中的Spark就绪任务全部处理完成，则流程结束。

进一步地，在所述步骤a中，输入数据按照多列和/或多个值确定是否具有隐私性，以行为单位进行隐私性标记，具体为：将包含指定列或者指定列中指定值的行标记为隐私数据，标记过后的数据应为，有行标记的那一行数据为隐私数据，没有行标记的数据为普通数据。

进一步地，在所述步骤b中，根据行数据的隐私性优化Spark分区器，使得带有标记的行数据集中到指定分区中；以分区为单位进行隐私性标记，即在Spark内核中数据表示为RDD的数据结构，对RDD进行分区操作时，如果该数据分区中的行数据包含行标记，则将此分区标记为隐私分区；如果该数据分区中的所有数据都不包含行标记，则此分区不做标记，为普通分区。

进一步地，所述最终结果不具有隐私性。

进一步地，所述普通数据中心仅能处理普通数据；所述隐私数据中心既可以处理隐私数据又可以处理普通数据。

一种带隐私保护的Spark工作流调度系统，包括：第一模块，用于根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；第二模块，用于将隐私数据和普通数据以分区为单位进行隐私性标记，含有隐私数据的分区标记为隐私分区，其余分区为普通分区；第三模块，用于将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理，得到第一输出数据；将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理，得到第二输出数据；第四模块，用于判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束；若是中间结果则将其作为输入数据，传输给第一模块，直至所有Spark就绪队列中的Spark就绪任务全部处理完成，则流程结束。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被计算机执行时，实现前述的方法。

与现有技术相比，本发明所达到的有益效果：本发明通过用户定义的隐私性规则将输入数据中符合条件的数据标记为隐私数据，并将隐私数据调度到指定的隐私数据中心与普通数据分开处理，满足了隐私保护的需求，适用于隐私数据在整体输入数据中占比很小且输出结果不含隐私性的场景中，在给定的资源条件下，提高了整个Spark工作流的处理效率，减少了执行时间。

附图说明

图1是本发明实施例提供的一种带隐私保护的Spark工作流架构图；

图2是本发明实施例中隐私数据在Spark工作流中的分布示意图；

图3是本发明实施中带隐私保护的Spark工作流调度的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

一种带隐私保护的Spark工作流调度方法，包括：根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；将隐私数据和普通数据以分区为单位进行隐私性标记，含有隐私数据的分区标记为隐私分区，其余分区为普通分区；将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理，得到第一输出数据；将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理，得到第二输出数据；判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束；若是中间结果则将其作为输入数据，重复进行步骤a~c，直至所有Spark就绪队列中的Spark就绪任务全部处理完成，则流程结束。

如图1所示，本实施例实现大数据环境下Spark工作流调度方法，架构图如图1所示，一个Spark应用包含一组Job（J₁，J₂，···，J_n），Job之间具有偏序关系，可以用DAG图描述，同时Job中包含多个也可以描述成DAG图的有偏序关系的Stage，一个Stage中包含可以并行执行的多个Task，总的来说，一个Job中的Task可以记为：T={T₁,T₂，…，T_n}。一个Spark集群中可包含多个数据中心Data Center，记为：DC={DC₁，DC₂，…，DC_m}，每个数据中心可包含多个节点。

当用户提供的输入数据包含有部分隐私数据时，其中的隐私数据和普通数据在Spark工作流中的分布如图2所示。

某疾病控制中心需要基于病人的得病情况、目前状况、生活习惯等，按类别对病人可能会得的疾病做出预测，例如，之前得过某些疾病，并保持某些生活习惯，则会有患上某些疾病的可能。如图3所示，当给定了数据中心及节点资源时，Spark工作流调度的具体步骤如下：

步骤s301，用户先指定某一个数据中心DC_p为专门处理隐私数据的隐私数据中心，其余为普通数据中心，普通数据中心仅能处理普通数据；隐私数据中心既可以处理隐私数据又可以处理普通数据；

步骤s302，根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；隐私性规则由用户根据应用环境进行确定，指定包含某些列或这些列为某些具体值，则这些数据确定为隐私数据，如用户姓名列及疾病列中的某些特殊疾病等；

步骤s303，确定了数据的隐私性后，对隐私数据按行标记隐私，即某一用户患病记录中，如果该用户患的病为隐私疾病，则对该行记录加上TAG_l标记；将包含指定列或者指定列中指定值的行标记为隐私数据，标记过后的数据应为，有行标记的那一行数据为隐私数据，没有行标记的数据为普通数据；

步骤s304，根据行数据的隐私性优化 Spark分区器，使得带有标记的行数据集中到指定分区中，指定分区至少有一个并尽量少，分区是作为Spark工作流中任务的输入；对分区进行隐私性标记，如该分区中包含行标记的记录，即病人患隐私疾病的记录，则将整个分区标记为隐私分区，对该分区加上TAG_P标记，即在Spark内核中数据表示为RDD的数据结构，对RDD进行分区操作时，如果该数据分区中的行数据包含行标记，则将此分区标记为隐私分区；如果该数据分区中的所有数据都不包含行标记，则此分区不做标记，为普通分区；

步骤s305，判断Spark就绪队列中是否还有Spark就绪任务，如果有，转到步骤s306；如果没有，转到步骤s309；

步骤s306，依次判断队列中的任务的输入分区是否包含TAG_p标记，如果是，则转步骤s308；否则转步骤s307；

步骤s307，该数据分区即相应的任务T_i能调度到Spark集群中的任意数据中心DC_j上的节点执行，并生成相应的第一输出数据；

步骤s308，该数据分区即相应的任务T_k只能调度到DC_p上的节点执行，并生成相应的第二输出数据；

考虑数据的隐私性来优化Shuffle操作，并判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束，最终结果不具有隐私性；若是中间结果则将其作为输入数据，返回步骤s302，重新进行隐私性确认、标记、分区；

步骤s309，判断所有Spark就绪队列中的Spark就绪任务是否都已完成，如果是则流程结束；如果否，则返回步骤s305继续等待就绪队列中生成新的任务。

本实施例通过用户定义的隐私性规则将输入数据中符合条件的数据标记为隐私数据，并将Spark任务根据其输入数据的隐私性要求调度到给定的资源上执行与普通数据分开处理，使该调度在满足用户的隐私性的约束下，实现了优化执行时间的目的，保证了Spark应用的服务质量；适用于隐私数据在整体输入数据中占比很小且输出结果不含隐私性的场景中，在给定的资源条件下，提高了整个Spark工作流的处理效率，减少了执行时间。

本实施例遵循了“不可移动数据”的思想，将根据隐私性规则判断之后的Spark任务流中隐私数据进行特别处理，缩短了拓扑排序复杂的Spark工作流的完成时间；“不可移动数据”或者“固定数据”表示某些数据不能离开一定的管辖范围，其移动性受到了限制，不能由一个数据中心移动到另一个数据中心。这里的移动性包含两个方面：数据的传输和复制。不可移动的数据只能分配给指定的数据中心，则依赖这部分数据作为输入的任务也必须在该数据中心执行，成为“不可移动任务”，且“不可移动任务”所依赖的输入数据也分配到该数据中心。本实施例将不可移动数据的概念引入Spark框架中，以便在特定的数据中心对隐私数据进行处理，满足用户保护数据隐私性的要求。

实施例二：

基于实施例一所述的一种带隐私保护的Spark工作流调度方法，本实施例提供一种带隐私保护的Spark工作流调度系统，包括：

第一模块，用于根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；

第二模块，用于将隐私数据和普通数据以分区为单位进行隐私性标记，含有隐私数据的分区标记为隐私分区，其余分区为普通分区；

第三模块，用于将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理，得到第一输出数据；将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理，得到第二输出数据；

第四模块，用于判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束；若是中间结果则将其作为输入数据，传输给第一模块，直至所有Spark就绪队列中的Spark就绪任务全部处理完成，则流程结束。

实施例三：

基于实施例一所述的一种带隐私保护的Spark工作流调度方法，本实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该程序被计算机执行时，实现实施例一所述的方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种带隐私保护的Spark工作流调度方法，其特征是，包括：

a、根据隐私性规则对输入数据进行判断和标记，将符合隐私性规则的输入数据标记为隐私数据，其余数据为普通数据；

b、将隐私数据和普通数据以分区为单位进行隐私性标记，含有隐私数据的分区标记为隐私分区，其余分区为普通分区；

c、将普通分区和需要以普通分区作为输入的Spark就绪任务调度到Spark集群中的普通数据中心的节点上处理，得到第一输出数据；将隐私分区和需要以隐私分区作为输入的Spark就绪任务调度到Spark集群中指定的隐私数据中心的节点上处理，得到第二输出数据；

d、判断第一输出数据和第二输出数据是最终结果还是中间结果，若是最终结果则对应的工作流的流程结束；若是中间结果则将其作为输入数据，重复进行步骤a~c，直至所有Spark就绪队列中的Spark就绪任务全部处理完成，则流程结束。

2.根据权利要求1所述的带隐私保护的Spark工作流调度方法，其特征是，在所述步骤a中，输入数据按照多列和/或多个值确定是否具有隐私性，以行为单位进行隐私性标记，具体为：将包含指定列或者指定列中指定值的行标记为隐私数据，标记过后的数据应为，有行标记的那一行数据为隐私数据，没有行标记的数据为普通数据。

3.根据权利要求1所述的带隐私保护的Spark工作流调度方法，其特征是，在所述步骤b中，根据行数据的隐私性优化Spark分区器，使得带有标记的行数据集中到指定分区中；以分区为单位进行隐私性标记，即在Spark内核中数据表示为RDD的数据结构，对RDD进行分区操作时，如果该数据分区中的行数据包含行标记，则将此分区标记为隐私分区；如果该数据分区中的所有数据都不包含行标记，则此分区不做标记，为普通分区。

4. 根据权利要求1所述的带隐私保护的Spark工作流调度方法，其特征是，所述最终结果不具有隐私性。

5.根据权利要求1所述的带隐私保护的Spark工作流调度方法，其特征是，所述普通数据中心仅能处理普通数据；所述隐私数据中心既可以处理隐私数据又可以处理普通数据。

6.一种带隐私保护的Spark工作流调度系统，其特征是，包括：

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被计算机执行时，实现权力要求1~5所述的方法。