CN111259275A

CN111259275A - 一种数据追踪方法、设备及存储介质

Info

Publication number: CN111259275A
Application number: CN201811467098.6A
Authority: CN
Inventors: 陈艳军; 崔捷; 袁小杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2020-06-09
Anticipated expiration: 2038-12-03
Also published as: CN111259275B

Abstract

本申请实施例提供一种数据追踪方法、设备及存储介质，其中，所述方法包括：确定数据集中的待追踪数据，并获取所述待追踪数据对应的调用信息；从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路；根据所述至少一条调用链路，生成所述待追踪数据对应的数据流动拓扑。在本申请实施例中，基于待追踪数据对应的调用信息，可提取出待追踪数据对应的至少一条调用链路，并可基于待追踪数据对应的至少一条调用链路，生成待追踪数据的数据流动拓扑。因此，在数据追踪过程中无需入侵应用，便可从数据源头出发，自动追踪单个数据的流动过程，这可有效提高数据追踪的效率、准确度及细粒度。

Description

一种数据追踪方法、设备及存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种数据追踪方法、设备及存储介质。

背景技术

在数据防泄漏和隐私保护等安全业务场景中，了解敏感数据的流动情况，对制定数据风险防控策略以及科学地评估隐私保护合规状况等，起着至关重要的作用。

目前，业界在对敏感数据追踪时，主要依赖人工梳理业务系统，手工统计敏感数据的流动情况。然而，这种人工梳理的方式将耗费大量的人力物力，且梳理出的结果的准确性并不高。

发明内容

本申请的多个方面提供一种数据追踪方法、设备及存储机制，用以提高数据追踪的效率和准确性。

本申请实施例提供一种数据追踪方法，包括：

确定数据集中的待追踪数据，并获取所述待追踪数据对应的调用信息；

从所述待追踪数据的调用信息中提取所述待追踪数据对应的至少一条调用链路；

根据所述至少一条调用链路，生成所述待追踪数据对应的数据流动拓扑。

本申请实施例还提供一种计算设备，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

所述处理器与所述存储器耦合，用于执行所述一条或多条计算机指令，以用于：

本申请实施例还提供一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行前述的数据追踪方法。

在本申请实施例中，基于待追踪数据对应的调用信息，可提取出待追踪数据对应的至少一条调用链路，并可基于待追踪数据对应的至少一条调用链路，生成待追踪数据的数据流动拓扑。因此，在数据追踪过程中无需入侵应用，便可从数据源头出发，自动追踪单个数据的流动过程，这可有效提高数据追踪的效率、准确度及细粒度。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请一实施例提供的数据追踪方法的流程示意图；

图2a为本申请一实施例提供的待追踪数据对应的一条调用链路的示意图；

图2b为本申请一实施例提供的待追踪数据对应的另一条调用链路的示意图；

图3为本申请一实施例提供的待追踪数据对应的一条归并链路的示意图；

图4为本申请一实施例提供的一种数据流动拓扑的示意图；

图5为本申请一实施例提供的另一种数据流动拓扑的示意图；

图6为本申请一实施例提供的又一种数据流动拓扑的示意图；

图7为本申请另一实施例提供的一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，业界在对敏感数据追踪时，主要依赖人工梳理业务系统，手工统计敏感数据的流动情况。然而，这种人工梳理的方式将耗费大量的人力物力，且梳理出的结果的准确性并不高。在本申请的一些实施例中：可基于待追踪数据对应的调用信息，可提取出待追踪数据对应的至少一条调用链路，并可基于待追踪数据对应的至少一条调用链路，生成待追踪数据的数据流动拓扑。因此，在数据追踪过程中无需入侵应用，便可从数据源头出发，自动追踪单个数据的流动过程，这可有效提高数据追踪的效率、准确度及细粒度。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本申请一实施例提供的数据追踪方法的流程示意图。如图1所示，该方法包括：

100、确定数据集中的待追踪数据，并获取待追踪数据对应的调用信息；

101、从待追踪数据的调用信息中提取待追踪数据对应的至少一条调用链路；

102、根据至少一条调用链路，生成待追踪数据对应的数据流动拓扑。

本实施例提供的数据追踪方法可应用于各种需要对数据进行追踪的场景中，例如，数据防泄漏、隐私保护等安全业务场景中，本实施例对此不作限定。

其中，本实施例中的数据集可以是单个数据方所拥有的全部或部分数据，当然，还可以是根据其它追踪需求确定的数据范围，本实施例对此不作限定。另外，数据集中的数据可存储在数据库(Database，DB)或开放数据处理服务(Open Data Processing Service,ODPS)等静态数据存储单元中，据此，可按照数据结构来对数据集中的数据进行组织、存储和管理。数据集的数据结构包括但不限于数据表名称、数据表描述、数据字段名称、数据字段描述等等。

基于数据集的数据结构，本实施例中，可根据追踪需求，利用数据识别手段从数据集中定位出待追踪数据所在的数据字段、数据表和/或数据库。例如，可根据追踪需求中设定的敏感字段，从数据集中定位出敏感数据所在的数据字段、数据表和/或数据库，以将敏感数据作为待追踪数据。从而，可根据本实施例提供的数据追踪方法实现对敏感数据的追踪。当然，本实施例中，待追踪数据并不局限于敏感数据，待追踪数据还可以是其它需要追踪的数据，本实施例对此不作限定。

在确定出数据集中的待追踪数据后，还可根据上述定位出的待追踪数据所在的数据字段、数据表和/或数据库来获取待追踪数据对应的调用信息。在一些实际应用中，可在用户发起对数据集的访问请求时，采集该访问请求中各应用和/或服务的调用信息，并可将针对待追踪数据所在的数据字段、数据表和/或数据库的访问请求中各应用和/或服务的调用信息，作为待追踪数据对应的调用信息。据此，待追踪数据对应的调用信息中可包括访问请求的标识信息、参与访问待追踪数据的各应用和/或服务的描述信息、访问过程中各应用和/或服务之间的调用关系、出口URL、数据源等等，其中，出口URL是指承载针对数据集的访问请求的URL。当然，待追踪数据对应的调用信息中还可包含其它信息，本实施例并不限于此。

其中，可采用埋点的方式，通过在公共组件如RPC或者公共的通讯框架SOFARPC等注入代码，以采集访问请求中各应用和/或服务的调用信息。另外，可在访问请求发起时生成一个全局唯一的追踪Trace ID作为访问请求的标识信息，并通过该Trace ID将该访问过程中各应用和/或服务进行统一标识，从而对不同的访问过程进行区分。这使得采集访问请求中各应用和/或服务的调用信息的操作无需侵入应用，整个采集过程中应用无感知。

据此，可从待追踪数据的调用信息中提取待追踪数据对应的至少一条调用链路。承接上例，可根据待追踪数据的调用信息中的至少一个Trace ID，将对应于同一Trace ID的应用和/或服务进行串接，并结合数据源和出口URL，组成至少一条调用链路。对于每条调用链路，可至少包括数据源、访问请求中的各应用和/或服务、出口URL等。因此，调用链路可反映出数据的流动过程，从而为数据追踪提供追踪依据。

根据提取出的至少一条调用链路，可生成待追踪数据对应的数据流动拓扑。针对数据集中的任意数据，本实施例提供的数据追踪方法均可实现数据追踪，并生成数据流动拓扑。因此，本实施例中，还可基于对数据集中多个数据的追踪结果，将各数据对应的数据流动拓扑进行结合，以生成数据集对应的数据流动拓扑。基于数据集对应的数据流动拓扑，可以可视化的方式展示出数据集中相关数据的流动过程，这使得数据方可方便地、直观地查看其数据集中的相关数据流动情况。进而可为制定数据风险防控策略以及科学地评估隐私保护合规状况提供可靠的依据。

在实施例中，基于待追踪数据对应的调用信息，可提取出待追踪数据对应的至少一条调用链路，并可基于待追踪数据对应的至少一条调用链路，生成待追踪数据的数据流动拓扑。因此，在数据追踪过程中无需入侵应用，便可从数据源头出发，自动追踪单个数据的流动过程，这可有效提高数据追踪的效率、准确度及细粒度。

在上述或下述实施例中，可按照调用链路中各链路节点之间的调用顺序，对至少一条调用链路进行归并，以获得至少一条归并链路；根据至少一条归并链路，生成待追踪数据对应的数据流动拓扑。

本实施例中，调用链路可包含至少一个链路节点，链路节点可对应数据源、出口URL或访问请求中的应用或服务。图2a为本申请一实施例提供的待追踪数据对应的一条调用链路的示意图。如图2a所示，该调用链路包含4个链路节点，分别对应待追踪数据所在的DB1、应用1、应用2和URL1。图2b为本申请一实施例提供的待追踪数据对应的另一条调用链路的示意图。如图2b所示，该调用链路包含5个链路节点，分别对应待追踪数据所在的DB1、应用1、应用3和URL2。

图2a和图2b为待追踪数据对应的两条示例性的调用链路。参考图2a和图2b可知，各调用链路之间可能存在相同的调用过程片段，本实施例可按照调用链路中各链路节点之间的调用顺序，将待追踪数据对应的各调用链路之间存在的相同的调用过程片段进行归并。

在一些实际应用中，可按照调用链路中各链路节点之间的调用顺序，从各个调用链路中的首个链路节点所在的链路位置开始，将各调用链路中处于相同链路位置上且具有相同的在前链路节点的链路节点归并，以获得待追踪数据对应的至少一条归并链路。图3为本申请一实施例提供的待追踪数据对应的一条归并链路的示意图。其中，图3中示出的正是将图2a和图2b中的调用链路进行归并后获得的归并链路。根据图2a和图2b示出的两条调用链路可知，两条调用链路中，“数据库1-应用1”这一调用过程片段是相同的，因此，可将这一调用过程片段进行归并，最终将获得如图3所示的归并链路。同理，可对待追踪数据对应的所有调用链路进行归并，以获得待追踪数据对应的至少一条归并链路。

据此，可根据待追踪数据对应的至少一条归并链路，生成更佳精简的数据流动拓扑，从而在进行数据流动拓扑的可视化展示时，获得更佳的展示效果。

进一步，对于待追踪数据对应的至少一条调用链路中进行归并的那些调用过程片段来说，其被归并的次数越多，说明在待追踪数据的访问过程中，那些调用过程片段的执行次数越多，相应地，其发生风险的系数也就越高。因此，本实施例中，还可根据至少一条归并链路中各链路节点对应的归并次数，确定至少一条归并链路各自对应的防控权重，防控权重用于表征在对归并链路进行风险防控时所需的关注度；将防控权重以可视化的方式加入待追踪数据对应的数据流动拓扑中。

图4为本申请一实施例提供的一种数据流动拓扑的示意图。如图4所示，对于图3中所述的归并链路，将图3中被归并过1次的“数据库1-应用1”这一调用过程阶段对应的线条加粗，从而与其它未归并过的链路节点区分开，这样，可更加直观地展示出该归并链路的防控权重。当然，除了图4中采用的线条加粗的可视化方式，还可采用其它可视化方式展示归并链路的防控权重。例如，使用不同的颜色体现不同的防控权重，或者通过展示防控权重值来体现不同的防控权重，等等，本实施例对此不作限定。

考虑到待追踪数据对应的至少一条调用链路的调用结果存在不确定性，本实施例中，还可确定至少一条归并链路中包含的各出口URL；基于各出口URL接收到的来自数据集的数据，从至少一条归并链路中识别出可信调用链路；根据可信调用链路生成待追踪数据对应的数据流动拓扑。据此，本实施例中，可从待追踪数据对应的至少一条归并链路中识别出可信的调用链路，并基于可信的调用链路生成数据流动拓扑。其中，如上文所述，归并链路中包含的各出口URL是指承载针对数据集的访问请求的URL。例如，图4示出的归并链路中，URL1和URL2为出口URL。

本实施例中，可信调用链路表征着在该调用链路中待追踪数据发生了实际透出。例如，图4示出的位于图右部的归并链路中包含两条调用链路，若确定“数据库1-应用1-应用2-URL1”这一调用链路为可信调用链路，则表征着待追踪数据成功从URL1对应的web页面或API透出。

其中，识别出可信调用链路的过程至少可采用以下两种实现方式。

在一种实现方式中，可根据待追踪数据对应的数据字段，从待追踪数据对应的至少一个归并链路中的各出口URL中，识别出其接收到的来自数据集的数据中包含与数据字段匹配的数据的目标出口URL；将至少一个归并链路中的目标出口URL所在的调用链路确定为可信调用链路。

在本实现方式中，可根据待追踪数据对应的数据字段，对待追踪数据对应的至少一个归并链路中包含的各出口URL各自接收到的来自数据集的数据进行数据字段识别。在一个实际应用中，可对各出口URL各自接收到的来自数据集的数据进行指定频率的采样，并对采样获得的样本数据进行数据字段识别，当在某出口URL对应的样本数据中识别到待追踪数据定的数据字段时，则可将该出口URL确定为目标出口ULR。

据此，目标出口URL对应的web页面或API即为待追踪数据的实际透出出口。相应地，待追踪数据对应的至少一个归并链路中的目标出口URL所在的调用链路即为待追踪数据实际发生透出的调用链路。因此，可将待追踪数据对应的至少一个归并链路中的目标出口URL所在的调用链路确定为可信调用链路。

在另一种实现方式中，可基于数据集对应的数据出口URL集，根据至少一条归并链路中包含的各出口URL及待追踪数据对应的数据字段，检索数据出口URL集，其中，数据出口URL集中包含数据字段以及一个数据字段对应的一个或多个出口URL；若在数据出口URL集中检索到符合条件的目标出口URL，则将至少一条归并链路中目标出口URL所在的调用链路，确定为可信调用链路。

本实现方式中，可预先创建数据集对应的数据出口URL集，数据出口URL集的预先创建过程将在后文中详述。本实现方式中，可以【待追踪数据对应的数据字段，出口URL】为匹配条件，检索数据出口URL集，当在数据出口URL集中检索到符合该匹配条件的出口URL时，则将检索到的出口URL确定为目标出口URL。

其中，数据出口URL集为从数据集的全部出口URL中筛选出的实际发生了预设数据字段的数据透出的出口URL的集合。据此，检索到的目标出口URL对应的web页面或API即为待追踪数据的实际透出出口。相应地，待追踪数据对应的至少一个归并链路中的目标出口URL所在的调用链路即为待追踪数据实际发生透出的调用链路。因此，可将待追踪数据对应的至少一个归并链路中的目标出口URL所在的调用链路确定为可信调用链路。

本实现方式中，可预先创建数据集对应的数据出口URL集。

在一个实际应用中，可基于数据集包含的一个或多个数据字段，对数据集对应的一个或多个出口URL所接收到的数据进行数据字段识别；根据识别结果，建立各数据字段与一个或多个出口URL之间的对应关系；根据数据集包含的一个或多个数据字段以及各数据字段与一个或多个出口URL之间的对应关系，生成数据集对应的数据出口URL集。

其中，数据集包含的一个或多个数据字段可以根据不同的追踪需求进行选择。例如，可从数据集包含的所有数据字段中选出需要追踪的敏感字段，并对数据集对应的一个或多个出口URL所接收到的数据进行敏感字段识别。当然，还可选择其它类型的数据字段，并基于选出的数据字段执行数据字段识别操作，在此不做限定。

根据预设出的一个或多个数据字段，可对数据集的所有出口URL各自接收到的来自数据集的数据进行数据字段识别，其中，数据字段识别的过程可参考上一种实现方式中的相关描述，在此不再赘述。经过对数据集的所有出口URL各自接收到的来自数据集的数据进行数据字段识别后，可从数据集的所有出口URL中筛选出实际发生了预设数据字段的数据透出的出口URL，并将这些出口URL形成集合，以获得数据集对应的数据出口URL集。可选地，数据出口URL集中的记录格式可以为【数据字段，出口URL】，从而可在上述确定可信调用链路的过程中方便地进行检索数据出口URL集的操作。

至此，可从待追踪数据对应的至少一个归并链路中确定出可信调用链路，并可基于可信调用链路生成待追踪数据的数据流动拓扑。值得说明的是，本实施例中确定可信调用链路的操作并不局限于上述两种实现方式，还可采用其它方式确定出可信调用链路。

本实施例中，在从待追踪数据对应的至少一个归并链路中确定出可信调用链路后，还可将待追踪数据对应的至少一个归并链路中可信调用链路之外的其它调用链路确定为非可信调用链路。

在一种实际应用中，可将非可信调用链路从归并链路中删除，并可基于可信调用链路生成待追踪数据的数据流动拓扑，据此产生的数据流动拓扑中将仅包含可信调用链路。

在另一种实际应用中，基于上文所述的确定可信调用链路的过程可知，若采用数据采样的方式判断出口URL是否实际发生待追踪数据透出时，由于数据采样频率的局限性，可能出现误判。例如，某出口URL实际接收到了待追踪数据，但数据采样时待追踪数据并未被采样到，这就导致针对该出口URL的判断结果将为未发生待追踪数据透出，这种情况下就出现了误判。基于此，可将非可信调用链路保留在归并链路中，并可对至少一条归并链路中的可信调用链路和非可信调用链路打标，以获得待追踪数据对应的数据流动拓扑。据此产生的数据流动拓扑中将包含可信调用链路及非可信调用链路。

图5为本申请一实施例提供的另一种数据流动拓扑的示意图。图5所示的正是基于本实际应用提供的数据流动拓扑生成方式而获得的数据流动拓扑。如图5所示，本实际应用中获得的数据流动拓扑中，将包含待追踪数据对应的至少一条归并链路，以及至少一条归并链路中各调用链路对应的是否可信的标记。

为了提高待追踪数据的追踪过程的完整性，本实施例中，还可基于数据集对应的数据入口URL集，根据待追踪数据对应的数据字段，检索数据入口URL集，以获得待追踪数据对应的一个或多个入口URL；其中，数据入口URL集中包含数据字段以及一个数据字段对应的一个或多个入口URL；根据待追踪数据对应的一个或多个入口URL以及待追踪数据对应的至少一条归并链路中包含的各出口URL，确定待追踪数据的流动方向；将流动方向以可视化的方式加入待追踪数据对应的数据流动拓扑中。

其中，与数据集的出口URL相对的，数据集的入口URL是指承载针对数据集的写入请求的URL。例如，若用户通过第一web页面将数据写入数据集，则第一web页面对应的URL可作为数据集的入口URL；而若用户通过第二web页面访问数据集中的数据，则第二web页面对应的URL可作为数据集的出口URL。

本实施例中，可预先创建数据集对应的数据入口URL集。在一个实际应用中，可基于数据集包含的一个或多个数据字段，对数据集对应的一个或多个入口URL所输出的数据进行数据字段识别；根据识别结果，建立各数据字段与一个或多个入口URL之间的对应关系；根据数据集包含的一个或多个数据字段以及各数据字段与一个或多个入口URL之间的对应关系，生成数据集对应的数据入口URL集。其中，数据入口URL集的创建过程可参考数据出口URL集的创建过程，在此不再赘述。据此，数据入口URL集也可采用【数据字段，入口URL】的形式。

基于预先创建的数据入口URL集，可根据待追踪数据对应的数据字段，检索数据入口URL集，从而可确定出待追踪数据对应的一个或多个入口URL，且可将入口URL加入至待追踪数据的数据流动拓扑中，以呈现待追踪数据的来源。

进一步，本实施例中，还可根据待追踪数据对应的一个或多个入口URL以及一个或多个出口URL，确定出待追踪数据的流动方向。图6为本申请一实施例提供的又一种数据流动拓扑的示意图。图6所示的正是加入了本实施例提供入口URL以及流动方向后所呈现的数据流动拓扑。如图6所示，数据流动方向以箭头的可视化方式展示在数据流动拓扑中，当然，本实施例并不限于箭头这一种可视化方式，还可采用其它的可视化方式来展示待追踪数据的流动方向，在此不再穷举。

在上述或下述实施例中，可基于预设的一个或多个敏感字段，对数据集进行敏感字段识别；根据识别结果，输出数据集中包含的各敏感字段对应的敏感数据的静态分布信息，静态分布信息用于记录各敏感字段对应的敏感数据所属的数据表；将数据集中包含的各敏感字段对应的敏感数据作为待追踪数据。

本实施例中，可根据追踪需求，预先设定一个或多个敏感字段，敏感字段可以是电话号码、身份证号码等等涉及敏感信息的字段，而敏感字段对应的敏感数据即为电话号码的具体数据、身份证号码的具体数据。正如上文所述，可按照数据结构来对数据集中的数据进行组织、存储和管理，因此，基于预先设定的一个或多个敏感字段对数据集进行敏感字段识别，即可确定出数据集中包含的各敏感字段对应的敏感数据的静态分布信息，也即是，确定出数据集中那些数据表中包含敏感数据。在一些实际应用中，静态分布信息中可以列表的形式记录包含敏感数据的数据表。

本实施例中，将敏感字段对应的敏感数据作为待追踪数据，但应当理解的是，本实施例不限于对敏感数据的数据追踪，本实施例可实现对任何类型数据的数据追踪，针对不同的追踪需求，设定不同的数据字段来输出静态分布信息即可，而后，可基于静态分布信息中记录的数据表展开对相关数据的数据追踪。

据此，针对静态分布信息中的每一个包含待追踪数据的数据表，可获取该数据表对应的调用信息，并将该数据表的调用信息作为该数据表包含的待追踪数据的调用信息。基于此，可实现对待追踪数据的数据追踪。

为了进一步细化数据流动拓扑中呈现的信息，本实施例中，还可基于静态分布信息，将待追踪数据所属的数据表的描述信息加入待追踪数据对应的数据流动拓扑中。

在一些实际应用中，可将待追踪数据所属的数据表的描述信息以可视化的方式加入到待追踪数据对应的数据流动拓扑中。图7为本申请一实施例提供的又一种数据流动拓扑的示意图。图7正是将待追踪数据所属的数据表的描述信息加入其数据流动拓扑中效果示意图，如图7所示，待追踪数据所属的数据表的描述信息可视化地呈现在数据源对应的链路节点位置，从而可直观地展示出待追踪数据所属的数据表，以更好地展现待追踪数据的源头。

以下将以电话号码作为待追踪数据对本申请提供的数据追踪方法进行描述。

当以电话号码作为敏感数据执行数据追踪时，可根据电话号码的敏感字段对数据集进行敏感字段识别，从而确定出数据集中哪些数据表中包含电话号码，并将这些数据表记录在静态分布信息中。以静态分布信息中的其中一个数据表为例，可获取该数据表对应的至少一条RPC调用链路，并对该数据表对应的至少一条RPC调用链路进行归并，以获得该数据表对应的归并链路，并可将该数据表对应的归并链路作为电话号码这一敏感数据对应的归并链路。据此，综合静态分布信息中各数据表对应的归并链路可获得电话号码这一敏感数据对应的归并链路。之后，可采用数据字段识别方式判断各归并链路中的各出口URL是否成功接收到电话号码，若判断结果为是，则说明电话号码这一敏感数据从相应的出口URL对应的web页面或API透出，据此，可从各出口URL中筛选出发生了电话号码透出的目标出口URL，并将目标出口URL所在的调用链路标记为可信调用链路，以及将未接收到电话号码的出口URL所在的调用链路标记为非可信调用链路。

另外，还可将电话号码所在的数据表，以及电话号码的入口URL、电话号码的流动方向等信息加入电话号码对应的数据流动拓扑中。

需要说明的是，上述实施例所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤101至步骤102的执行主体可以为设备A；又比如，步骤100和102的执行主体可以为设备A，步骤101的执行主体可以为设备B；等等。

另外，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如100、101等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的页面、信息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图7为本申请另一实施例提供的一种计算设备的结构示意图。如图7所示，该计算设备包括：存储器70和处理器71。

存储器70，用于存储计算机程序，并可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器70可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器71，与存储器70耦合，用于执行存储器70中的计算机程序，以用于：

确定数据集中的待追踪数据，并获取待追踪数据对应的调用信息；

从待追踪数据的调用信息中提取待追踪数据对应的至少一条调用链路；

根据至少一条调用链路，生成待追踪数据对应的数据流动拓扑。

在一可选实施例中，处理器71在根据至少一条调用链路，生成待追踪数据对应的数据流动拓扑时，用于：

按照调用链路中各链路节点之间的调用顺序，对至少一条调用链路进行归并，以获得至少一条归并链路；

根据至少一条归并链路，生成待追踪数据对应的数据流动拓扑。

在一可选实施例中，处理器71在根据至少一条归并链路，生成待追踪数据对应的数据流动拓扑时，用于：

确定至少一条归并链路中包含的各出口URL，出口URL是指承载针对数据集的访问请求的URL；

基于各出口URL接收到的来自数据集的数据，从至少一条归并链路中识别出可信调用链路；

根据可信调用链路生成待追踪数据对应的数据流动拓扑。

在一可选实施例中，处理器71在基于各出口URL接收到的来自数据集的数据，从至少一条归并链路中识别出可信调用链路时，用于：

根据待追踪数据对应的数据字段，从各出口URL中识别出其接收到的来自数据集的数据中包含与数据字段匹配的数据的目标出口URL；

将至少一个归并链路中目标出口URL所在的调用链路确定为可信调用链路。

在一可选实施例中，处理器71在基于至少一条归并链路中包含的各出口URL各自接收到的数据，从至少一条归并链路中确定出至少一条可信调用链路时，用于：

基于数据集对应的数据出口URL集，根据至少一条归并链路中包含的各出口URL及待追踪数据对应的数据字段，检索数据出口URL集，其中，数据出口URL集中包含数据字段以及一个数据字段对应的一个或多个出口URL；

若在数据出口URL集中检索到符合条件的目标出口URL，则将至少一条归并链路中目标出口URL所在的调用链路，确定为可信调用链路。

在一可选实施例中，处理器71在检索数据出口URL集之前，还用于：

基于数据集包含的一个或多个数据字段，对数据集对应的一个或多个出口URL所接收到的数据进行数据字段识别；

根据识别结果，建立各数据字段与一个或多个出口URL之间的对应关系；

根据数据集包含的一个或多个数据字段以及各数据字段与一个或多个出口URL之间的对应关系，生成数据集对应的数据出口URL集。

在一可选实施例中，处理器71还用于：

基于数据集对应的数据入口URL集，根据待追踪数据对应的数据字段，检索数据入口URL集，以获得待追踪数据对应的一个或多个入口URL；其中，数据入口URL集中包含数据字段以及一个数据字段对应的一个或多个入口URL，入口URL是指承载针对数据集的写入请求的URL；

根据待追踪数据对应的一个或多个入口URL以及待追踪数据对应的至少一条归并链路中包含的各出口URL，确定待追踪数据的流动方向；

将流动方向以可视化的方式加入待追踪数据对应的数据流动拓扑中。

在一可选实施例中，处理器71在基于数据集对应的数据入口URL集，根据待追踪数据对应的数据字段，检索数据入口URL集之前，还用于：

基于数据集包含的一个或多个数据字段，对数据集对应的一个或多个入口URL所输出的数据进行数据字段识别；

根据识别结果，建立各数据字段与一个或多个入口URL之间的对应关系；

根据数据集包含的一个或多个数据字段以及各数据字段与一个或多个入口URL之间的对应关系，生成数据集对应的数据入口URL集。

在一可选实施例中，处理器71在根据可信调用链路生成待追踪数据对应的数据流动拓扑时，用于：

将至少一条归并链路中可信调用链路之外的其它调用链路，作为非可信调用链路；

对至少一条归并链路中的可信调用链路和非可信调用链路打标，以获得待追踪数据对应的数据流动拓扑。

在一可选实施例中，处理器71在按照调用链路中各链路节点之间的调用顺序，对至少一条调用链路进行归并，以获得至少一条归并链路时，用于：

按照调用链路中各链路节点之间的调用顺序，从各个调用链路中的首个链路节点所在的链路位置开始，将各调用链路中处于相同链路位置上且具有相同的在前链路节点的链路节点归并，以获得至少一条归并链路。

在一可选实施例中，处理器71还用于：

根据至少一条归并链路中各链路节点对应的归并次数，确定至少一条归并链路各自对应的防控权重，防控权重用于表征在对归并链路进行风险防控时所需的关注度；

将防控权重以可视化的方式加入待追踪数据对应的数据流动拓扑中。

在一可选实施例中，处理器71在确定数据集中的待追踪数据时，用于：

基于预设的一个或多个敏感字段，对数据集进行敏感字段识别；

根据识别结果，输出数据集中包含的各敏感字段对应的敏感数据的静态分布信息，静态分布信息用于记录各敏感字段对应的敏感数据所属的数据表；

将数据集中包含的各敏感字段对应的敏感数据作为待追踪数据；

获取待追踪数据对应的调用信息，包括：

根据静态分布信息，确定待追踪数据所属的数据表；

获取待追踪数据所属的数据表对应的调用信息，作为待追踪数据对应的调用信息。

在一可选实施例中，处理器71还用于：

基于静态分布信息，将待追踪数据所属的数据表的描述信息加入待追踪数据对应的数据流动拓扑中。

进一步，如图7所示，该计算设备还包括：通信组件72、显示器73、电源组件74等其它组件。图7中仅示意性给出部分组件，并不意味着计算设备只包括图7所示组件。

其中，通信组件72被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件可基于近场通信(NFC)技术、射频识别(RFID)技术、红外数据协会(IrDA)技术、超宽带(UWB)技术、蓝牙(BT)技术或其它技术来实现，以促进短程通信。

其中，显示器73包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

其中，电源组件74，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

相应地，本申请实施例还提供一种存储有计算机程序的计算机可读存储介质，计算机程序被执行时能够实现上述方法实施例中可由计算设备执行的各步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据追踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一条调用链路，生成所述待追踪数据对应的数据流动拓扑，包括：

按照调用链路中各链路节点之间的调用顺序，对所述至少一条调用链路进行归并，以获得至少一条归并链路；

根据所述至少一条归并链路，生成所述待追踪数据对应的数据流动拓扑。

3.根据权利要求2所述的方法，其特征在于，所述根据所述至少一条归并链路，生成所述待追踪数据对应的数据流动拓扑，包括：

确定所述至少一条归并链路中包含的各出口URL，所述出口URL是指承载针对所述数据集的访问请求的URL；

基于所述各出口URL接收到的来自所述数据集的数据，从所述至少一条归并链路中识别出可信调用链路；

根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑。

4.根据权利要求3所述的方法，其特征在于，所述基于所述各出口URL接收到的来自所述数据集的数据，从所述至少一条归并链路中识别出可信调用链路，包括：

根据所述待追踪数据对应的数据字段，从各出口URL中识别出其接收到的来自所述数据集的数据中包含与所述数据字段匹配的数据的目标出口URL；

将所述至少一个归并链路中所述目标出口URL所在的调用链路确定为可信调用链路。

5.根据权利要求3所述的方法，其特征在于，所述基于所述至少一条归并链路中包含的各出口URL各自接收到的数据，从所述至少一条归并链路中确定出至少一条可信调用链路，包括：

基于所述数据集对应的数据出口URL集，根据所述至少一条归并链路中包含的各出口URL及所述待追踪数据对应的数据字段，检索所述数据出口URL集，其中，所述数据出口URL集中包含数据字段以及一个数据字段对应的一个或多个出口URL；

若在所述数据出口URL集中检索到符合条件的目标出口URL，则将所述至少一条归并链路中目标出口URL所在的调用链路，确定为可信调用链路。

6.根据权利要求5所述的方法，其特征在于，所述检索所述数据出口URL集之前，还包括：

基于所述数据集包含的一个或多个数据字段，对所述数据集对应的一个或多个出口URL所接收到的数据进行数据字段识别；

根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个出口URL之间的对应关系，生成所述数据集对应的数据出口URL集。

7.根据权利要求6所述的方法，其特征在于，还包括：

基于所述数据集对应的数据入口URL集，根据所述待追踪数据对应的数据字段，检索所述数据入口URL集，以获得所述待追踪数据对应的一个或多个入口URL；其中，所述数据入口URL集中包含数据字段以及一个数据字段对应的一个或多个入口URL，所述入口URL是指承载针对所述数据集的写入请求的URL；

根据所述待追踪数据对应的一个或多个入口URL以及所述待追踪数据对应的所述至少一条归并链路中包含的各出口URL，确定所述待追踪数据的流动方向；

将所述流动方向以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。

8.根据权利要求7所述的方法，其特征在于，在所述基于所述数据集对应的数据入口URL集，根据所述待追踪数据对应的数据字段，检索所述数据入口URL集之前，还包括：

基于所述数据集包含的一个或多个数据字段，对所述数据集对应的一个或多个入口URL所输出的数据进行数据字段识别；

根据所述数据集包含的一个或多个数据字段以及各数据字段与一个或多个入口URL之间的对应关系，生成所述数据集对应的数据入口URL集。

9.根据权利要求3所述的方法，其特征在于，根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑，包括：

将所述至少一条归并链路中可信调用链路之外的其它调用链路，作为非可信调用链路；

对所述至少一条归并链路中的可信调用链路和非可信调用链路打标，以获得所述待追踪数据对应的数据流动拓扑。

10.根据权利要求2所述的方法，其特征在于，所述按照调用链路中各链路节点之间的调用顺序，对所述至少一条调用链路进行归并，以获得至少一条归并链路，包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

根据所述至少一条归并链路中各链路节点对应的归并次数，确定所述至少一条归并链路各自对应的防控权重，所述防控权重用于表征在对所述归并链路进行风险防控时所需的关注度；

将所述防控权重以可视化的方式加入所述待追踪数据对应的数据流动拓扑中。

12.根据权利要求1所述的方法，其特征在于，所述确定数据集中的待追踪数据，包括：

基于预设的一个或多个敏感字段，对所述数据集进行敏感字段识别；

根据识别结果，输出所述数据集中包含的各敏感字段对应的敏感数据的静态分布信息，所述静态分布信息用于记录各敏感字段对应的敏感数据所属的数据表；

将所述数据集中包含的各敏感字段对应的敏感数据作为所述待追踪数据；

所述获取所述待追踪数据对应的调用信息，包括：

根据所述静态分布信息，确定所述待追踪数据所属的数据表；

获取所述待追踪数据所属的数据表对应的调用信息，作为所述待追踪数据对应的调用信息。

13.根据权利要求12所述的方法，其特征在于，还包括：

基于所述静态分布信息，将所述待追踪数据所属的数据表的描述信息加入所述待追踪数据对应的数据流动拓扑中。

14.一种计算设备，其特征在于，包括存储器和处理器；

所述存储器用于存储一条或多条计算机指令；

15.根据权利要求14所述的设备，其特征在于，所述处理器在根据所述至少一条调用链路，生成所述待追踪数据对应的数据流动拓扑时，用于：

16.根据权利要求15所述的设备，其特征在于，所述处理器在根据所述至少一条归并链路，生成所述待追踪数据对应的数据流动拓扑时，用于：

17.根据权利要求16所述的设备，其特征在于，所述处理器在基于所述各出口URL接收到的来自所述数据集的数据，从所述至少一条归并链路中识别出可信调用链路时，用于：

18.根据权利要求16所述的设备，其特征在于，所述处理器在基于所述至少一条归并链路中包含的各出口URL各自接收到的数据，从所述至少一条归并链路中确定出至少一条可信调用链路时，用于：

19.根据权利要求18所述的设备，其特征在于，所述处理器在检索所述数据出口URL集之前，还用于：

20.根据权利要求19所述的设备，其特征在于，所述处理器还用于：

21.根据权利要求20所述的设备，其特征在于，所述处理器在所述基于所述数据集对应的数据入口URL集，根据所述待追踪数据对应的数据字段，检索所述数据入口URL集之前，还用于：

22.根据权利要求16所述的设备，其特征在于，所述处理器在根据所述可信调用链路生成所述待追踪数据对应的数据流动拓扑时，用于：

23.根据权利要求15所述的设备，其特征在于，所述处理器在按照调用链路中各链路节点之间的调用顺序，对所述至少一条调用链路进行归并，以获得至少一条归并链路时，用于：

24.根据权利要求23所述的设备，其特征在于，所述处理器还用于：

25.根据权利要求14所述的设备，其特征在于，所述处理器在确定数据集中的待追踪数据时，用于：

所述获取所述待追踪数据对应的调用信息，包括：

26.根据权利要求25所述的设备，其特征在于，所述处理器还用于：

27.一种存储计算机指令的计算机可读存储介质，其特征在于，当所述计算机指令被一个或多个处理器执行时，致使所述一个或多个处理器执行权利要求1～13任一项所述的数据追踪方法。