CN110809764B

CN110809764B - 一种用于评估数据泄漏风险的方法、装置、非暂时性计算机可读介质

Info

Publication number: CN110809764B
Application number: CN201880015014.7A
Authority: CN
Inventors: 刘吟
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2018-06-05
Filing date: 2018-06-05
Publication date: 2023-10-13
Anticipated expiration: 2038-06-05
Also published as: JP6845344B2; CN110809764A; US20210117564A1; US11308232B2; WO2019236060A1; EP3596648B1; JP2020525870A; EP3596648A1; KR102500778B1; KR20210006435A

Abstract

用于评估计算环境中的数据泄漏风险的系统、设备、方法和其他技术。计算系统接收一方的交互数据和查询数据。所述系统确定在所述交互数据中表示的维度组合，并且针对在所述查询数据中描述的每个查询而标识出现在查询的结果中的每个维度组合。所述系统针对每个维度组合生成查询成员标签，其中所述查询成员标签标识其维度组合出现在查询的结果中的每个查询。所述系统针对每个唯一查询成员标签确定在所述交互数据中、与具有与查询成员标签相对应的维度组合的任何交互相关联的实体的数量的计数。系统基于针对一个或多个唯一查询成员标签的所述计数来评估一方的数据泄漏风险。

Description

一种用于评估数据泄漏风险的方法、装置、非暂时性计算机可读介质

技术领域

本文档通常描述用于评估计算环境中的数据泄漏风险的技术。

背景技术

数据系统可以接收查询并提供聚合的查询结果，使得结果数据中描述的关于个人的特定信息不被透露。然而，可能尝试攻击者在其中发出具有不同查询参数的多个查询并通过对结果数据的分析来推断关于特定个人的信息的差分(differential)查询攻击。一些系统向结果数据添加统计噪声，以阻止差分查询攻击。

发明内容

本文档通常描述用于评估计算环境中的数据泄漏风险的基于计算机的技术(例如，系统、设备、方法和其他技术)。本文描述的系统、设备和技术包括使用有效的过程来执行对已经由信息请求者发出的查询的初始过滤，以标识可能由信息请求者包含(involve)在差分查询攻击中的查询子集。在执行初始过滤过程之后，例如可以使用相对全面的过程来确认查询子集是否已经导致实际数据泄漏。可以使用附加技术来将合适的控制应用于由信息请求者提交的查询，从而保护用户数据隐私。

本文公开的主题的一些实施方式包括计算机实施的方法。该方法包括由计算系统接收一方的交互数据。所述交互数据可以描述已经在该方和多个实体之间发生的交互集合。所述交互数据可以进一步针对每个交互而标识(i)交互的一个或多个维度的值，以及(ii)参与和该方的交互的多个实体中的一个实体的实体标识符。系统接收该方的查询数据。所述查询数据可以描述由该方针对已经在该方和多个实体之间发生的所述交互集合而发出的多个查询。系统确定多个维度组合，每个维度组合与在所述交互数据中表示的一个或多个维度的值的不同组合相对应。系统针对在所述查询数据中描述的多个查询中的每个查询而标识来自多个维度组合的、出现在查询的结果中的每个维度组合。系统针对所述多个维度组合中的每个维度组合生成查询成员标签，其中所述查询成员标签标识来自多个查询的、其维度组合出现在查询的结果中的每个查询。系统针对每个唯一查询成员标签确定在所述交互数据中、与具有与所述查询成员标签相对应的维度组合的任何交互相关联的实体的数量的计数。系统基于针对一个或多个唯一查询成员标签的所述计数来评估该方的数据泄漏风险。

这些和其他实施方式可以可选地包括以下特征中的一个或多个。

接收该方的所述交互数据可以包括接收该方已知的转换交互数据，所述交互集合包括已经在多个实体和该方的一个或多个网络资产(web property)之间发生的转换交互。可以从该方接收所述转换交互数据。

接收该方的交互数据可以包括接收该方未知的非转换交互数据，所述交互集合包括已经在多个实体和一个或多个第三方网络资产之间发生的非转换交互。可以从通知项提供系统接收所述非转换交互数据。

由所述计算系统确定的多个维度组合可以仅包括该方已知的转换交互值。

出现在查询的相同结果中的两个或更多个不同维度组合可以具有相同的查询成员标签。

评估该方的数据泄漏风险可以包括确定任何唯一查询成员标签的实体的数量的计数是否低于可标识阈值。

在基于评估一方的数据泄漏风险来标识与给定查询成员标签相对应的潜在数据泄漏之后，可以执行对在给定查询成员标签中标识的查询的组合的差分查询分析，以确定是否发生了实际数据泄漏。

响应于确定所述实际数据泄漏已经发生，可以执行一个或多个安全动作。一个或多个安全动作可以包括限制由该方发出的进一步查询。一个或多个安全动作可以由所述计算系统自动执行。一个或多个安全动作可以在接收到来自所述计算系统的管理员的输入之后被执行。

本文公开的主题的一些实施方式包括其上存储有指令的一个或多个计算机可读介质(例如，非暂时性介质)，其中该指令在由一个或多个处理器执行时使得处理器执行本文公开的任何方法的操作。在一些实施方式中，计算设备包括一个或多个处理器以及一个或多个计算机可读介质。

贯穿本文档描述的系统、设备、程序产品和过程在一些实例中可以提供以下优点中的一个或多个。可以检测差分查询攻击，而无需向查询结果添加统计噪声，其导致结果不准确。轻量级过程可以用来标识可能被包含在差分查询攻击中的所发出的查询的子集，并且全面的过程然后可以用来确认查询子集是否已经导致实际数据泄漏，从而节省计算资源，同时执行更快的查询分析。可以标识潜在的恶意信息请求者，并且可以应用合适的控制，从而保护用户数据隐私。

在附图和下面的描述中阐述一个或多个实施例的细节。从说明书和附图并且从权利要求中，其他特征和优点将是显而易见的。

附图说明

图1是用于评估计算环境中的数据泄漏风险的示例系统的框图。

图2是用于评估计算环境中的数据泄漏风险的示例技术的流程图。

图3示出了示例查询结果。

图4示出了交互数据的示例。

图5A-图5B示出了交互数据的示例查询视图。

图6示出了维度组合数据的示例。

图7示出了匹配维度组合数据的示例。

图8示出了查询成员标签数据的示例。

图9示出了查询成员标签的实体关联数据的示例。

图10是可以用来实施本文档中描述的系统和方法的示例计算设备的框图。

各个附图中的相同参考符号指示相同元件。

具体实施方式

本文档通常描述用于评估计算环境中的数据泄漏风险的系统、设备和技术。例如，信息请求者可以向资源交互跟踪系统提交查询，以获得关于已经针对通过计算机网络(例如，本地网络、互联网或另一种类的网络)可用的各种数字资源(例如，网页、文档、媒体内容或其他种类的资源)而执行的交互(例如，查看、点击或其他种类的交互)的信息。响应于查询，系统可以提供关于交互的聚合信息，例如以保护已经执行交互的个人的隐私。信息请求者可能已经知道交互中的一些，诸如涉及访问由信息请求者管理的资源的交互。信息请求者可能不知道交互中的一些，诸如涉及访问不由信息请求者管理的资源的交互。在尝试得到这样的未知交互信息时，例如，信息请求者可以执行差分查询攻击，该差分查询攻击可以包括提交隔离小的个人分组的多个不同查询，分析查询结果之间的差异，以及基于分析来推断小的个人分组(或特定个人)的信息。

通常，由于查询结果可能返回聚合与许多不同数字资源执行许多不同交互的许多不同个人的信息的许多行，评估由差分查询攻击导致的数据泄漏风险可能涉及大量计算资源(例如，存储器和存储空间)，并且可能需要大量时间。因此，比较查询差异以发现潜在的差分查询攻击通常从计算方面来讲是昂贵的。本文描述的系统、设备和技术包括使用相对轻量级过程来执行已经由信息请求者发出的查询的初始过滤，以标识可能被包含在差分查询攻击中的查询子集。在执行初始过滤过程之后，使用相对全面的过程来确认查询子集是否已经导致实际数据泄漏。因此，可以节省计算资源，同时执行更快的查询分析。可以标识潜在的恶意信息请求者，并且可以将合适的控制应用于由信息请求者提交的查询，从而保护用户数据隐私。

图1是用于评估计算环境中的数据泄漏风险的示例系统100的框图。例如，系统100可以与资源交互跟踪系统(未示出)相关联(或是其一部分)。简而言之，系统100包括例如接收并存储一方的、描述该方(例如，组织)和各种实体(例如，互联网用户)之间的交互的交互数据120的交互信息数据存储102。系统100还包括例如接收并存储与由一方发出的用于交互的查询相关的查询数据122的查询信息数据存储106。通常，系统100可以使用差分查询分析器(过滤器)108来执行轻量级过程以标识潜在数据泄漏128，然后可以使用全面的差分查询分析器110来确定是否发生了经确认的数据泄漏130。经确认的数据泄漏信息可以存储在数据泄漏信息数据存储中，以用于执行各种安全动作，诸如提供数据泄漏警报、强制执行查询限制、以及其他适当的动作。针对本文的附加附图和描述更详细地描述由系统100执行的操作。

图2是用于评估计算环境中的数据泄漏风险的示例技术200的流程图。示例技术可以由各种适当的系统中的任何一个执行，诸如系统100(在图1中示出)。

一方的交互数据被接收(202)。参考图1，例如，交互数据120由系统100接收，以用于由交互信息数据存储102存储。交互数据120例如可以描述已经在一方和多个实体之间发生的交互集合。

在一些实施方式中，已经在一方和多个实体之间发生的交互集合可以包括已经在实体和一方的一个或多个网络资产(例如，网站)之间发生的交互。例如，多个实体可以包括互联网用户，并且一方可以是具有诸如网站的互联网呈现(internet presence)的组织。用户可以浏览组织的网站，并且可以执行各种交互，为了描述一些示例，诸如与网站上包括的各种页面、内容和/或产品进行交互。通常，一方和多个实体之间的这些种类的用户交互是一方已知的，并且可以被称为转换交互。在一些实施方式中，被包括在交互数据120中的转换交互数据可以由一方提供给系统100。

在一些实施方式中，已经在一方和多个实体之间发生的交互集合可以包括已经在实体和不由一方维护的一个或多个第三方网络资产(例如，网站)之间发生的交互。例如，一方和多个实体之间的这些种类的用户交互可能是一方未知的，并且可以被称为非转换(例如，私有)交互。例如，通知项(例如，信息小部件、网站链接、广告或向用户通知一方的网站上可用的内容的其他项)可以由一方提供以用于在各种第三方网站上呈现，并且可以包括可以引导用户在一方的网站上执行转换交互的信息。当用户与通知项交互时(例如，用户查看信息小部件、点击网站链接或执行另一种类的交互)，例如，与非转换(例如，私有)用户交互数据相关的信息可以由提供通知项以用于由第三方网站(未示出)呈现的通知项提供系统跟踪，并且用户可以导航到和/或可以被指引到其中可能发生转换交互(例如，一方已知的交互)的一方的网站。然而，与发起转换交互的非转换(例如，私有)交互相关联的离散信息可能不由通知项提供系统提供给一方，以维护用户隐私。例如，向一方提供将特定第三方网站上的活动链接到特定用户的信息可能不恰当。在一些实施方式中，交互数据120中表示的非转换(例如，私有)数据可以由通知项提供系统提供给系统100。

针对每个交互，交互数据可以标识交互的一个或多个维度的值，并且可以包括参与和一方的交互的多个实体中的一个实体的实体标识符。例如，交互数据120可以包括属于一方已知的用户动作的数据(例如，转换交互)和属于一方未知的用户动作的数据(例如，非转换或私有交互)。针对每个转换(例如，已知)交互，例如，交互数据120可以包括交互维度的值，诸如交互的类型(例如，查看、评论、转发、购买或另一交互类型)、交互发生的日期/时间、交互发生时用户所处的位置(例如，国家、州、城市或另一位置)、用于执行交互的设备类型(例如，移动式、台式或另一设备类型)、执行交互的用户的标识符和/或与交互有关的其他适当类型的信息。针对每个非转换(例如，私有)交互，例如，交互数据120可以包括交互维度的值，诸如包括通知项的第三方网站、与通知项的用户交互发生的日期/时间、发生交互时用户所处的位置(例如，国家、州、城市或另一位置)、用于执行交互的设备类型(例如，移动式、台式或另一设备类型)、执行交互的用户的标识符和/或与交互有关的其他适当类型的信息

一方的查询数据被接收(204)。再次参考图1，例如，查询数据122由系统100的查询成员生成器104接收，并且由查询信息数据存储106存储以用以进一步分析。查询数据122例如可以描述由一方针对已经在一方和多个实体之间发生的交互集合而发出的多个查询。例如，多个查询可以包括已经由一方发出的用于确定哪种类型的转换交互(例如，一方已知的交互)通常可以归属(attribute)于哪种类型的非转换交互(例如，一方未知的和/或私有的交互)的查询。一方可以例如随时间发出各种查询，其中每种查询指定查询的时间范围、与一个或多个交互(例如，转换交互和/或非转换交互)有关的主要维度的集合、以及一个或多个聚合维度，以包括在查询结果中。在一些实施方式中，所存储的查询数据(例如，包括查询维度和查询结果)的量可以被限定为与有限数量的先前发出的查询相关联的查询数据。例如，根据系统100的数据存储能力或策略，查询信息数据存储106可以存储与最近由一方发出的适当数量(例如，10、100、1000或另一数量)的查询相关联的查询数据。

现在参考图3，示出了示例查询结果300。查询结果300例如包括针对指定时间范围(例如，2018年1月1日-2018年1月31日的转换时间段)的主要非转换维度302(例如，包括特定通知项的第三方网站)、主要非转换维度304(例如，由用户用于与通知项交互的设备)、转换维度306(例如，由用户用于执行由与通知项的交互引起的转换交互的设备)、转换维度308(例如，用于执行转换交互的设备的位置)和聚合维度310(例如，针对主要维度302-308的每个唯一组合的转换交互的聚合数量)。通过提供充分聚合的维度值，例如，查询结果300可以向一方提供将转换(例如，已知)维度值归属于非转换(例如，未知或私有)维度值的一般信息，而不允许一方将非转换维度值链接到任何特定用户标识符。然而，例如，一些方可能想要学习属于他们的网站用户的非转换(例如，未知或私有)交互信息，并且可能在尝试发现这样的未知或私有信息时使用利用转换(例如，已知)交互信息的各种技术(例如，差分查询攻击)。下面针对图4和图5A-图5B描述示例性差分查询攻击

现在参考图4，示出了交互数据400的示例。例如，交互数据400(例如，类似于图1中示出的交互数据120)描述了已经在特定时间跨度(例如，三日)内在一方(例如，维护网站的组织)和多个实体(例如，用户1-5)之间发生的交互集合，包括一方已知的交互和一方未知的交互。在本示例中，针对在各种实体(例如，用户)和一方之间发生的每个转换交互，交互数据400包括一方已知的转换标识符402、转换日404和用户标识符406。在一些实施方式中，可以使用签名值来存储用户标识符406，使得标识数据保持私有。本示例中的交互数据400还包括引用引起每个转换交互的非转换(例如，私有)交互的数据，特别是向用户提供一方的网站的通知项的第三方网站的第三方网站标识符408，该第三方网站对一方来说是未知的。

如本示例所示，转换C1表示由用户1在第1日进行的转换交互(之前是与站点A的非转换交互)，转换C2表示由用户2在第1日进行的转换交互(之前是与站点B的非转换交互)，转换C3表示由用户3在第2日进行的转换交互(之前是与站点A的非转换交互)，转换C4表示由用户4在第3日进行的转换交互(之前是与站点A的非转换交互)，并且转换C5表示由用户5在第3日进行的转换交互(之前是与站点B的非转换交互)。尽管在本示例中，一方知道每个用户的各种转换交互，但是一方并不直接知道可能已经引起转换交互的非转换(例如，私有)交互，诸如用户可能已经与哪些第三方网站交互、交互发生的日期/时间、交互发生时用户位于何处、以及用于执行交互的设备的类型。为了尝试发现这样的未知或私有信息，例如，一方可以发出具有不同查询参数的两个或更多个查询，目的是标识最小交互集合，使得与最小交互集合相关联的用户数量低于可标识阈值(例如，2个用户、10个用户、50个用户或另一合适的值)。

现在参考图5A-图5B，分别从系统100的角度和一方的角度示出了交互数据400(在图4中示出)的查询视图500和查询视图550。查询视图500和查询视图550(例如，类似于或基于图1所示的查询数据122)例如可以包括各种所发出的查询的转换交互数据(例如，已知数据)和非转换交互数据(例如，未知或私有数据)的视图。在本示例中，查询F返回与第1日和第2日内发生的转换相关联的交互数据，查询G返回与第2日和第3日内发生的转换相关联的交互数据，并且查询H返回与第1日、第2日和第3日内发生的转换相关联的交互数据。

如图5A所示，例如，针对每个所发出的查询，系统100可以被提供有交互数据400的、包括转换交互维度和非转换交互维度的数据值的相对全面的查询视图500。查询F例如指定转换日1和转换日2并返回交互数据，其中该交互数据指示在指定日内发生的转换C1和转换C3可以归属于与第三方站点A相关联的非转换交互，并且转换C2可以归属于与第三方站点B相关联的非转换交互。查询G例如指定转换日2和转换日3并返回交互数据，其中该交互数据指示在指定日内发生的转换C3和转换C4可以归属于与第三方站点A相关联的非转换交互，并且转换C5可以归属于与第三方站点B相关联的非转换交互。查询H例如指定转换日1、转换日2和转换日3并返回交互数据，其中该交互数据指示在指定日内发生的转换C1、转换C3和转换C4可以归属于与第三方站点A相关联的非转换交互，并且转换C2和转换C5可以归属于与第三方站点B相关联的非转换交互。

如图5B所示，例如，针对每个所发出的查询，一方可以被提供有包括转换交互维度的数据值和与非转换交互维度相对应的聚合数据值的交互数据400的相对有限的查询视图550。查询F例如指定转换日1和转换日2并返回交互数据，其中该交互数据指示转换C1、转换C2和转换C3在指定日内发生，以及在转换的总数中，转换中的两个可以归属于与第三方站点A相关联的非转换交互，并且转换中的一个可以归属于与第三方站点B相关联的非转换交互。查询G例如指定转换日2和转换日3并返回交互数据，其中该交互数据指示转换C3、转换C4和转换C5在指定日内发生，以及在转换的总数中，转换中的两个可以归属于与第三方站点A相关联的非转换交互，并且转换中的一个可以归属于与第三方站点B相关联的非转换交互。查询H例如指定转换日1、转换日2和转换日3并返回交互数据，其中该交互数据指示转换C1、转换C2、转换C3、转换C4和转换C5在指定日内发生，以及在转换的总数中，转换中的三个可以归属于与第三方站点A相关联的非转换交互，并且转换中的两个可以归属于与第三方站点B相关联的非转换交互。

例如，尽管已经通过查询F、查询G和查询H向一方提供了与非转换交互维度相对应的聚合的计数值，但是一方可能在尝试发现特定用户的离散的非转换交互维度值时利用它已经具有的与转换交互有关的信息。如图4和图5A-图5B所示，例如，一方具有转换交互数据，其中该转换交互数据指示转换C1由用户1在第1日执行，转换C2由用户2在第1日执行，转换C3由用户3在第2日执行，转换C4由用户4在第3日执行，并且转换C5由用户5在第3日执行——但是一方不具有与哪些特定用户执行了可能已经引起转换交互的哪些特定非转换交互(例如，与第三方站点A和第三方站点B的交互)相关的离散信息。在尝试发现离散的非转换交互数据时，例如，一方可以执行其中添加查询F结果和查询G结果然后减去查询H结果的差分查询攻击。在本示例中，一方根据查询F和查询G的添加结果而知道，与站点A发生了总共四次非转换交互，并且与站点B发生了总共两次非转换交互。根据查询H的结果(其基于跨越查询F和查询G的时间范围的时间范围)，与站点A发生了三次非转换交互，并且与站点B发生了两次非转换交互。通过执行((查询F+查询G)–查询H)，例如，一方可以确定在第2日，与站点A发生了一次非转换交互(四减三)，并且与站点B发生了零次非转换交互(二减二)。一方还具有指示由用户3进行的转换C3在第2日发生。因此，在本示例中，一方可以推断用户3执行了与站点B的非转换交互——这样的推断表示数据泄漏风险。

为了评估被提供给一方的查询结果的数据泄漏风险，例如，系统100(如图1所示)可以确定是否已经发生了差分查询攻击。通常，对由一方发出的所有查询执行蛮力分析可能从计算方面来讲是昂贵的，并且可能消耗大量的存储空间。为了节省系统处理和存储资源并执行更快的数据分析，例如，系统100可以执行用于(例如，通过确定由标识单个用户或小的用户集合的一方发出的查询子集)标识潜在数据泄漏的相对便宜的技术，然后可以执行蛮力分析以确认数据泄漏是否是实际数据攻击的一部分。此外，系统100还可以执行用于防止进一步攻击的措施，如下面更详细描述的。

再次参考图2，多个维度组合被确定(206)。通常，维度组合表示一方可以标识转换交互集合的最小单元。每个维度组合例如可以与在交互数据120(在图1中示出)中表示的一个或多个转换维度(例如，一方已知的维度)的值的不同组合相对应。例如，如果交互数据120要包括转换维度集合的值(例如，包括转换日、转换类型、转换设备类型和转换位置)，则每个维度组合将是指定在转换维度的交互数据中出现的转换交互值的不同组合的元组(例如，四元组)。

现在参考图6，例如，示出了维度组合数据600的示例。例如，维度组合数据600可以基于交互数据400(在图4中所示)，并且可以针对在各种实体和一方之间发生的每个转换交互而包括维度组合602和与执行转换交互的实体(例如，用户)相对应的用户ID 604，其中该维度组合602包括交互数据中的一个或多个转换交互值。在本示例中，给定交互数据400中表示的转换交互集合(例如，转换交互C1、转换交互C2、转换交互C3、转换交互C4和转换交互C5)，包括转换日1的转换交互值的维度组合与包括用户1和用户2的用户集相关联，包括转换日2的转换交互值的维度组合与包括用户3的用户集相关联，并且包括第3日的转换交互值的维度组合与包括用户4和用户5的用户集相关联。本示例中的每个维度组合602包括单个转换维度(例如，转换日)，然而维度组合的其他示例可以包括多个转换维度。

再次参考图2，针对在查询数据中描述的多个查询中的每个查询，来自多个维度组合的、出现在查询的结果中的每个维度组合被标识(208)。例如，根据查询数据122，系统100(在图1中示出)可以标识出现在针对查询F、查询G和查询H(在图5B中示出)中的一个或多个的先前被提供给一方的查询结果(例如，一个或多个结果行)中的来自多个维度组合602(在图6中示出)的每个维度组合。如图1所示，例如，已经针对被包括在查询数据122中的每个查询结果行而标识的维度组合匹配可以由查询成员生成器104从交互信息数据存储102接收，作为匹配维度组合数据124。

现在参考图7，示出了匹配维度组合数据700的示例。例如，匹配维度组合数据700(例如，类似于在图1中示出的匹配维度组合数据124)可以针对先前由一方发出的每个查询702(例如，在图5B中示出的查询F、查询G和查询H)指定由查询返回的一个或多个查询结果行704、以及被包括在查询结果行中的一个或多个匹配维度组合706。在本示例中，查询F已经返回了查询结果行1和查询结果行2(例如，包括与站点A的非转换交互的聚合的第一行和包括与站点B的非转换交互的聚合的第二行)，并且已经将维度组合第1日和第2日包括在查询结果中。查询G例如已经返回了查询结果行1和查询结果行2，并且已经将维度组合第2日和第3日包括在查询结果中。查询H例如已经返回了查询结果行1和查询结果行2，并且已经将维度组合第1日、第2日和第3日包括在查询结果中。

针对多个维度组合中的每个维度组合，查询成员标签被生成(210)。例如，查询成员生成器104(在图1中示出)可以确定被包括在接收到的匹配维度组合数据124中的每一个维度组合的查询成员数据126。维度组合的查询成员标签可以标识来自多个查询的、其维度组合出现在查询的结果中的每个查询。例如，针对出现在先前由一方发出的查询F、查询G和查询H(在图5B中示出)中的一个或多个查询的结果中的每个维度组合，查询成员生成器104可以生成指定维度组合和所发出的查询中的一个或多个之间的关联的标签。在一些实施方式中，可以存储查询成员标签数据以用于进一步处理和分析。例如，查询成员数据126可以由交互信息数据存储102和/或查询信息数据存储106存储，并且可以被访问以用于针对未来所发出的查询进行分析。

现在参考图8，示出了查询成员标签数据800的示例。例如，查询成员标签数据800可以针对出现在查询F、查询G和查询H中的一个或多个查询的结果中的每个维度组合802指定查询成员标签804，其中该查询成员标签804指定哪些特定查询已经在其查询结果值中返回了维度组合。在一些实施方式中，查询成员标签可以包括表示维度组合在查询集合的每个结果行中的存在的一系列值(例如，0和1)。例如，值1可以指示维度组合与特定查询结果行匹配(例如，存在于特定查询结果行中)，并且值0可以指示维度组合与特定查询结果行不匹配(例如，不存在于特定查询结果行中)。在本示例中，如由查询成员标签(1，0，1)所指定的，维度值第1日已经出现在查询F的查询结果中(例如，在行1和行2中)，没有出现在查询G的查询结果中，并且已经出现在查询H的查询结果中(例如，行1和行2中)。如查询成员标签(1，1，1)所指定的，维度值第2日例如已经出现在查询F的查询结果中(例如，行1和行2中)、查询G的查询结果中(例如，行1和行2中)和查询H的查询结果中(例如，行1和行2中)。如查询成员标签(0，1，1)所指定的，维度值第3日例如没有出现在查询F的查询结果中，但是已经出现在查询G的查询结果中(例如，行1和行2中)和查询H的查询结果中(例如，行1和行2中)。在其他示例中，如果维度组合在相同的查询和相同的查询行中匹配，则不同的维度组合可以具有相同的查询成员标签。

针对每个唯一查询成员标签，实体的数量的计数被确定，实体在交互数据中与具有与查询成员标签相对应的维度组合的任何交互相关联(212)。如图1所示，例如，查询成员生成器104可以向交互信息数据存储102提供查询成员数据126，并且系统100可以使用差分查询分析器(过滤器)108，基于由交互信息数据存储102存储的交互数据120和由查询信息数据存储106存储的查询数据122来分析查询成员数据126。例如，差分查询分析器(过滤器)108可以对查询成员标签数据800中共享相同的成员标签804(在图8中示出)的任何维度组合802进行分组，并且可以针对每个成员标签确定与交互数据400(如图4所示)中的其对应维度组合相关联的实体标识符(例如，用户ID)集合。

现在参考图9，示出了用于查询成员标签的实体关联数据900的示例。例如，实体关联数据900可以针对每个查询成员标签902(例如，类似于在图8中示出的查询成员标签804)指定与成员标签相对应的一个或多个维度组合904、以及在交互数据400(在图4中示出)中与包括与一个或多个维度组合相对应的交互值的交互相关联的用户ID集合906。在本示例中，查询成员标签(1，0，1)与在交互数据400中与包括用户1和用户2的用户标识符集合相关联的维度组合第1日相对应。查询成员标签(1，1，1)例如与在交互数据400中与包括用户3的用户标识符集合相关联的维度组合第2日相对应。查询成员标签(0，1，1)例如与在交互数据中与包括用户4和用户5的用户标识符集合相关联的维度组合第3日相对应。

再次参考图2，基于针对一个或多个唯一查询成员标签的计数来评估一方的数据泄漏风险(214)。例如，差分查询分析器(过滤器)108(在图1中示出)可以针对每个查询成员标签902(在图9中示出)确定与查询成员标签相关联的实体(例如，用户标识符)集合的计数，并且确定任何查询成员标签是否与低于可标识阈值(例如，2个实体、10个实体、50个实体或另一合适的值)的实体计数相关联。当评估数据泄漏风险时，例如，可以确定实体计数而不是转换交互计数，因为每个转换可以与多于一次非转换交互相关联。在本示例中，查询成员标签(1，0，1)与实体计数二(例如，包括用户1和用户2)相关联，查询成员标签(1，1，1)与实体计数一(例如，包括用户3)相关联，并且查询成员标签(0，1，1)与实体计数二(例如，包括用户4和用户5)相关联。例如，如果所有查询成员标签902与不小于阈值实体计数值相关联，则差分查询分析器(过滤器)108可以确定没有发生查询攻击。然而，考虑两个实体的阈值，例如，差分查询分析器(过滤器)108可以标识仅与一个实体相关联因此低于阈值实体计数值的查询成员标签(1，1，1)的潜在数据泄漏128。

在确定发生了潜在数据泄漏之后，例如，系统100(在图1中示出)可以使用全面的差分查询分析器110来针对由与潜在数据泄漏128相关联的查询成员标签指示的一个或多个查询执行进一步分析。例如，全面的差分查询分析器110可以响应于标识出潜在数据泄漏128而自动地将相对全面的分析过程应用于一个或多个查询，或者可以向系统管理员提供与潜在数据泄漏128相关的信息，并且然后响应于接收到来自系统管理员的输入而应用全面的分析过程。在本示例中，查询成员标签(1，1，1)指示潜在数据泄漏128可以归属于已经由一方发出的、在标签中表示的查询(例如，在图5B中示出的查询F、查询G和查询H)的一个或多个组合。因此，在本示例中，全面的差分查询分析器110可以执行所选择的蛮力分析，其中该蛮力分析计算先前已经由一方发出并且已经存储在查询信息数据存储106中的查询的有关子集的各种XOR(异或)组合。例如，可以计算查询的有关子集的2查询(2-query)XOR组合，然后可以计算3查询(3-query)XOR组合，等等，直到发现表示经确认的数据泄漏130的查询组合。

在本示例中，由全面的差分查询分析器110选择查询F(QF)、查询G(QG)和查询H(QH)以用于可以根据以下示例而进行的蛮力分析：

1.

2.

3.

4.

在确认已经发生了实际数据泄漏之后，例如，全面的差分查询分析器110(在图1中示出)可以向数据泄漏信息数据存储112提供与经确认的数据泄漏130相关联的信息以用于存储。例如，与经确认的数据泄漏130相关联的信息可以包括发出导致经确认的数据泄漏130的查询集合的一方的标识符、与所发出的查询的集合中的每个查询相关联的时间戳、其数据已经被泄漏的实体的列表、以及已经被泄漏的非转换(例如，私有)交互维度的列表。为了确定已经被泄漏的非转换交互维度，例如，全面的差分查询分析器110可以寻找所发出的查询的非转换交互维度的交集。在本示例中，数据泄漏信息数据存储112可以存储包括发出查询F、查询G和查询H的一方、查询中的每一个的时间戳，以及对于用户3非转换交互数据(例如，浏览的第三方网站站点A)已经被泄漏的信息。

在一些实施方式中，可以由系统100响应于确认已经发生了数据泄漏而执行一个或多个安全动作。例如，安全动作可以自动执行，或者可以在接收到来自系统管理员的输入后执行。例如，数据泄漏报告系统(未示出)可以参考数据泄漏信息数据存储112并生成提供与经确认的数据泄漏130相关联的信息的警报。作为另一示例，数据泄漏防止系统(未示出)可以标识可能的恶意方(例如，已经发出指示数据攻击的查询的各方)，并且可以限制由一方进一步发出的查询。例如，数据泄漏防止系统可以限制可以由一方出于报告目的而选择的维度，限制由一方出于报告目的而选择的时间范围，或者强制执行另一合适的查询参数限制，使得可能不由一方执行未来的差分查询攻击。可以由系统100响应于标识到一方的重复数据攻击而执行的另一可能的动作是防止一方发出进一步的查询。

图10是可以作为客户端或服务器或多个服务器而用来实施本文档中描述的系统和方法的计算设备1000、计算设备1050的框图。计算设备1000旨在表示各种形式的数字计算机，诸如膝上型计算机、台式计算机、工作站、个人数字助理、服务器、刀片服务器、大型机和其他适当的计算机。计算设备1050旨在表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能手机和其他类似的计算设备。另外，计算设备1000或计算设备1050可以包括通用串行总线(Universal Serial Bus，USB)闪存驱动器。USB闪存驱动器可以存储操作系统和其他应用。USB闪存驱动器可以包括输入/输出组件，诸如可以被插入到另一计算设备的USB端口中的无线发射器或USB连接器。这里示出的组件、它们的连接和关系、以及它们的功能仅仅意味着是示例性的，并不意味着限定本文档中描述和/或要求保护的实施方式。

计算设备1000包括处理器1002、存储器1004、存储设备1006、连接到存储器1004和高速扩展端口1010的高速接口1008、以及连接到低速总线1014和存储设备1006的低速接口1012。组件1002、组件1004、组件1006、组件1008、组件1010和组件1012中的每一个使用各种总线而互连，并且可以安装在公共主板上或者以其他适当的方式安装。处理器1002可以处理用于在计算设备1000内执行的指令，包括存储在存储器1004中或存储设备1006上的、用以在诸如耦合到高速接口1008的显示器1016的外部输入/输出设备上显示GUI的图形信息的指令。在其他实施方式中，可以适当地使用多个处理器和/或多个总线，以及多个存储器和多种类型的存储器。此外，可以连接多个计算设备1000，其中每个设备(例如，作为服务器组、一组刀片服务器、或多处理器系统)提供必要操作的部分。

存储器1004在计算设备1000内存储信息。在一个实施方式中，存储器1004是易失性存储单元或多个易失性存储单元。在另一实施方式中，存储器1004是非易失性存储单元或多个非易失性存储单元。存储器1004也可以是另一种形式的计算机可读介质，诸如磁盘或光盘。

存储设备1006能够为计算设备1000提供大容量存储。在一个实施方式中，存储设备1006可以是或包含计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备、闪存存储器或其他类似的固态存储设备、或者包括存储区域网络中的设备或其他配置的设备阵列。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含指令，其中该指令在被执行时执行一种或多种方法，诸如上述方法。信息载体是计算机或机器可读介质，诸如存储器1004、存储设备1006、或处理器1002上的存储器。

高速控制器1008管理计算设备1000的超宽带(bandwidth-intensive)操作，而低速控制器1012管理较低的超宽带操作。这样的功能分配仅仅是示例性的。在一个实施方式中，高速控制器1008被耦合到存储器1004、显示器1016(例如，通过图形处理器或加速器)、以及可以容纳各种扩展卡(未示出)的高速扩展端口1010。在实施方式中，低速控制器1012被耦合到存储设备1006和低速扩展端口1014。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器而耦合到一个或多个输入/输出设备，诸如键盘、定点设备、扫描仪、或诸如交换机或路由器的网络设备。

计算设备1000可以以多种不同的形式而实施，如图所示。例如，它可以被实施为标准服务器1020，或者在一组这样的服务器中被多次实施。它也可以被实施为机架式服务器系统1024的一部分。此外，它可以在诸如膝上型计算机1022的个人计算机中被实施。可替换地，来自计算设备1000的组件可以与诸如计算设备1050的移动设备(未示出)中的其他组件组合。这样的设备中的每一个可以包含计算设备1000、计算设备1050中的一个或多个，并且整个系统可以由彼此通信的多个计算设备1000、计算设备1050组成。

计算设备1050包括处理器1052、存储器1064、诸如显示器1054的输入/输出设备、通信接口1066和收发器1068、以及其他组件。计算设备1050还可以被提供有诸如微驱动器或其他设备的存储设备，以提供附加存储。组件1052、组件1064、组件1054、组件1066和组件1068中的每一个使用各种总线而互连，并且该组件中的几个组件可以安装在公共主板上或者以其他适当的方式安装。

处理器1052可以执行计算设备1050内的指令，包括存储在存储器1064中的指令。处理器可以被实施为包括单独的和多个模拟和数字处理器的芯片的芯片组。此外，处理器可以使用多种架构中的任何一种而实施。例如，处理器1010可以是CISC(ComplexInstruction Set Computer，复杂指令集计算机)处理器、RISC(Reduced Instruction SetComputer，精简指令集计算机)处理器或MISC(Minimal Instruction Set Computer，最小指令集计算机)处理器。处理器可以提供例如计算设备1050的其他组件的协调，诸如对用户接口、由计算设备1050运行的应用以及通过计算设备1050的无线通信的控制。

处理器1052可以通过耦合到显示器1054的控制接口1058和显示接口1056与用户通信。显示器1054可以是例如TFT(Thin-Film-Transistor Liquid Crystal Display，薄膜晶体管液晶显示器)显示器或OLED(Organic Light Emitting Diode，有机发光二极管)显示器、或其他适当的显示技术。显示接口1056可以包括用于驱动显示器1054以向用户呈现图形和其他信息的适当电路。控制接口1058可以从用户接收命令，并且转换它们以用于提交给处理器1052。此外，可以在与处理器1052通信时提供外部接口1062，以使得计算设备1050能够与其他设备进行近区通信。外部接口1062可以例如在一些实施方式中提供有线通信或者在其他实施方式中提供无线通信，并且也可以使用多个接口。

存储器1064在计算设备1050内存储信息。存储器1064可以被实施为计算机可读介质或多个计算机可读介质中的一个或多个、易失性存储单元或多个易失性存储单元、或者非易失性存储单元或多个非易失性存储单元。扩展存储器1074也可以被提供并通过可以包括例如SIMM(Single In Line Memory Module，单线存储器模块)卡接口的扩展接口1072而连接到计算设备1050。这样的扩展存储器1074可以为计算设备1050提供额外存储空间，或者也可以为计算设备1050存储应用或其他信息。具体地，扩展存储器1074可以包括用以实现或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器1074可以被提供作为计算设备1050的安全模块，并且可以用允许安全使用计算设备1050的指令而编程。此外，可以经由SIMM卡提供安全应用以及附加信息，诸如以不可破解的方式在SIMM卡上放置标识信息。

存储器可以包括例如闪存存储器和/或NVRAM存储器，如下面所讨论的。在一个实施方式中，计算机程序产品有形地体现在信息载体中。计算机程序产品包含指令，其中该指令在被执行时执行一种或多种方法，诸如上述方法。信息载体是计算机或机器可读介质，诸如存储器1064、扩展存储器1074、或处理器1052上的存储器，其可以例如通过收发器1068或外部接口1062而接收。

计算设备1050可以通过在必要时可以包括数字信号处理电路的通信接口1066进行无线通信。通信接口1066可以提供诸如GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等的各种模式或协议下的通信。这样通信可以例如通过射频收发器1068发生。此外，短程通信可以诸如使用蓝牙、WiFi或其他这样的收发器(未示出)而发生。此外，GPS(Global Positioning System，全球定位系统)接收器模块1070可以向计算设备1050提供可以由计算设备1050上运行的应用适当地使用的附加的导航相关和位置相关的无线数据。

计算设备1050还可以使用可以从用户接收口头信息并将其转换为可用的数字信息的音频编解码器1060进行可听(audibly)通信。音频编解码器1060同样可以诸如通过例如在计算设备1050的听筒中的扬声器来为用户生成可听声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括记录的声音(例如，语音消息、音乐文件等)，并且还可以包括由在计算设备1050上运行的应用生成的声音。

计算设备1050可以以多种不同的形式而实施，如图所示。例如，它可以被实施为蜂窝电话1080。它也可以被实施为智能手机1082、个人数字助理或其他类似的移动设备的一部分。

这里描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(Application Specific Integrated Circuit，专用集成电路)、计算机硬件、固件、软件、和/或其组合中实现。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，其中该可编程系统包括可以是专用或通用的至少一个可编程处理器，其中该可编程处理器被耦合以从存储系统、至少一个输入设备和至少一个输出设备接收数据和指令，并且向存储系统、至少一个输入设备和至少一个输出设备发送数据和指令。

这些计算机程序(也已知为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令，并且可以以高级过程和/或面向对象的编程语言和/或以汇编/机器语言而实施。如本文所使用的，术语“计算机可读介质”是指用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(Programmable Logic Device，PLD))，包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用来向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，这里描述的系统和技术可以在计算机上实施，其中该计算机具有用于向用户显示信息的显示设备(例如，CRT(Cathode Ray Tube，阴极射线管)或LCD(Liquid Crystal Display，液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和定点设备(例如，鼠标或轨迹球)。其他种类的设备也可以用来提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感觉反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以以任何形式接收来自用户的输入，包括声学、言语或触觉输入。

这里描述的系统和技术可以在计算系统中实施，其中该计算系统包括后端组件(例如，作为数据服务器)，或者包括中间件组件(例如，应用服务器)，或者包括前端组件(例如，用户可以通过其与这里描述的系统和技术的实施方式进行交互的、具有图形用户接口或网络浏览器的客户端计算机)，或者这样的后端组件、中间件组件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)而互连。通信网络的示例包括局域网(Local Area Network，“LAN”)、广域网(Wide Area Network，“WAN”)、对等网络(具有自组织或静态成员)、网格计算基础设施和互联网。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且一般通过通信网络进行交互。客户端和服务器的关系借助于在各个计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。

尽管上面已经详细描述了一些实施方式，但是其他修改也是可能的。此外，可以使用用于执行本文档中描述的系统和方法的其他机制。此外，图中描绘的逻辑流程不需要所示的特定次序、或顺序次序来实现期望的结果。可以从所描述的流程提供其他步骤或者可以从所描述的流程消除步骤，并且可以向所描述的系统添加或者从所描述的系统移除其他组件。因此，其他实施方式也在所附权利要求的范围内。

Claims

1.一种计算机实施的方法，包括：

由计算系统接收一方的交互数据，其中所述交互数据描述已经在该方和多个实体之间发生的交互集合，并且所述交互数据进一步针对每个交互而标识(i)交互的一个或多个维度的值，以及(ii)参与和该方的交互的多个实体中的一个实体的实体标识符；

由所述计算系统接收该方的查询数据，其中所述查询数据描述由该方针对已经在该方和多个实体之间发生的所述交互集合而发出的多个查询；

由所述计算系统确定多个维度组合，每个维度组合与在所述交互数据中表示的一个或多个维度的值的不同组合相对应；

由所述计算系统针对在所述查询数据中描述的所述多个查询中的每个查询而标识来自所述多个维度组合的、出现在查询的结果中的每个维度组合；

由所述计算系统针对所述多个维度组合中的每个维度组合生成查询成员标签，其中所述查询成员标签标识来自所述多个查询的、其维度组合出现在查询的结果中的每个查询；

由所述计算系统针对每个唯一查询成员标签确定在所述交互数据中、与具有与所述查询成员标签相对应的维度组合的任何交互相关联的实体的数量的计数；以及

基于针对一个或多个唯一查询成员标签的所述计数来评估该方的数据泄漏风险。

2.根据权利要求1所述的计算机实施的方法，其中，接收该方的所述交互数据包括接收该方已知的转换交互数据，所述交互集合包括已经在多个实体和该方的一个或多个网络资产之间发生的转换交互。

3.根据权利要求2所述的计算机实施的方法，其中，所述转换交互数据是从该方接收的。

4.根据权利要求1所述的计算机实施的方法，其中，接收该方的所述交互数据包括接收该方未知的非转换交互数据，所述交互集合包括已经在多个实体和一个或多个第三方网络资产之间发生的非转换交互。

5.根据权利要求4所述的计算机实施的方法，其中，所述非转换交互数据是从通知项提供系统接收的。

6.根据权利要求1所述的计算机实施的方法，其中，由所述计算系统确定的所述多个维度组合仅包括该方已知的转换交互数据。

7.根据权利要求1所述的计算机实施的方法，其中，出现在相同的查询的结果中的两个或更多个不同维度组合具有相同的查询成员标签。

8.根据权利要求1所述的计算机实施的方法，其中，评估该方的数据泄漏风险包括确定任何所述唯一查询成员标签的实体的数量的计数是否低于可标识阈值。

9.根据权利要求1所述的计算机实施的方法，进一步包括：

在基于评估该方的数据泄漏风险来标识与给定查询成员标签相对应的潜在数据泄漏之后，执行对在给定查询成员标签中标识的查询的组合的差分查询分析，以确定是否发生了实际数据泄漏。

10.根据权利要求9所述的计算机实施的方法，进一步包括响应于确定所述实际数据泄漏已经发生，执行一个或多个安全动作。

11.根据权利要求10所述的计算机实施的方法，其中，所述一个或多个安全动作包括限制由该方发出的进一步查询。

12.根据权利要求10或11所述的计算机实施的方法，其中，所述一个或多个安全动作是由所述计算系统自动执行的。

13.根据权利要求10或11所述的计算机实施的方法，其中，所述一个或多个安全动作是在接收到来自所述计算系统的管理员的输入之后执行的。

14.一个或多个其上存储有指令的非暂时性计算机可读介质，所述指令在由计算设备的一个或多个处理器执行时使得一个或多个处理器执行操作，所述操作包括：

由所述计算系统针对在查询数据中描述的多个查询中的每个查询而标识来自多个维度组合的、出现在查询的结果中的每个维度组合；

由所述计算系统针对多个维度组合中的每个维度组合生成查询成员标签，其中所述查询成员标签标识来自多个查询的、其维度组合出现在查询的结果中的每个查询；

15.一种电子装置，所述电子装置被配置为执行根据权利要求1至13中任一项所述的方法。