CN110431551A

CN110431551A - 具有主成分分析的混合数据指纹

Info

Publication number: CN110431551A
Application number: CN201780086812.4A
Authority: CN
Inventors: 马丁·罗斯; 梁芷苓·克里斯蒂娜; 迈克尔·安德森
Original assignee: Chain Rui Co Ltd
Current assignee: Chain Rui Co Ltd
Priority date: 2016-12-22
Filing date: 2017-11-20
Publication date: 2019-11-08
Also published as: EP3559822A1; WO2018118314A1; CA3047930A1; US11157657B2; US20190377905A1; WO2018118314A8; JP2020502695A; EP3559822A4

Abstract

主成分分析被应用于数据集以对数据集加指纹或将该数据集与可能已从该数据集中找到的数据所构建的“野生文件”进行比较。主成分分析允许将用于比较的数据减少到数据集的简约经压缩的签名。变量之间具有不同模式的数据集将具有不同的主成分模式。可以计算野生文件中变量(或其相关子集)的主成分，并将其与数据提供者的参考文件中的相同变量的主成分进行统计比较以提供分数。这构成了文件的可用于标识和与来自其他文件的类似定义的模式进行比较的唯一且经压缩的签名。

Description

具有主成分分析的混合数据指纹

技术领域

本发明的领域是数据隐私、基于内容的零水印方法和数据认证。

背景技术

专有数据文件(例如，类型.csv、.sql、.txt和其他的文件)或者JSON或XML数据馈送中的文本数据的故意或无意泄漏代表了企业收益损失的显著且潜在的破坏性来源。现有解决方案可用于减轻数据驻留在企业防火墙后时的损失。安全的HTTP或SSL协议等解决方案降低了数据(无论是文件还是数据馈送)离开防火墙并穿越互联网到合法接收者(受信任的第三方或TTP)时的损失风险。存在其他解决方案：一旦在原始源(数据所有者)的防火墙之外使用它们，就断言并记录文件所有权。这些数据水印和指纹解决方案是合需的，因为它们在法律渎职的情况下提供了所有权的证据。如前所述，用于恢复损害的法律规程的存在应该充当不良行为者的威慑物，不良行为者会为了他们自己的利益而占用和自由地使用这些数据，包括将其出售给他人。

数据水印和数据指纹构成了用于展示数据文件所有权的两类规程。这两种办法并不总是相互排斥，但获得一般的区分。文件水印涉及对数据作出改变(通常是微小的)以创建难以被用户识别的唯一模式。根据指定的规则来更改数字(连续)变量的最低有效数位是一个简单的示例。创建数据文件的指纹不涉及对数据的变更；相反，该数据的特性被用于创建可在事实之后被识别的签名。简单的指纹可以在文件中的变量的统计表征上来预测。更复杂的指纹可以基于多变量分析，该分析定义了数据集中的变量之间的协方差结构以允许将其与其他文件区分开来。因为指纹在技术上是水印的子集或替代，所以指纹方法也被称为基于内容的零水印技术。虽然它们基于数据文件的内容，但它们不涉及数据的任何更改，因此引用“零”水印。

与音频、视频、静止图像、甚至其他文本材料(诸如书、期刊或类似出版物)相比，数据表(文本和数值的行乘列排列)或其文本馈送等效物对水印或指纹提出了独特的挑战。在最简单的水平处，图像中的一些像素可能无法被识别，并且被巧妙地改变以创建构成唯一标识符的水印。因此，文件可以通过原始水印来与同一图像的其他类似略微改变的版本区分开来。视频和音频文件提供了甚至更多的水印插入机会，这是因为它们巨大的位深和重复性。在重复的视频帧中改变几个像素是相对容易的，或者修改视频帧的序列以创建唯一且可识别的水印是甚至更难以察觉和更复杂的。可以在时域和频域两者中使用音频文件来执行类似的操作以嵌入标识水印或以其他方式按人类听觉不可察觉的方式来改变信号。实际上，只有水印创建者才能标识它。通过明智地使用单词之间的间距、改变样式和句法，可以在书、期刊和其他文本材料上使用各种技术来产生无法识别的水印。先前在文献中已广泛地描述了这些规程。

主成分分析(PCA)和相关技术(诸如独立成分分析和多维缩放)已在取证和民用应用中被应用于人类指纹的生物医学分析。在指纹取证中，这些技术被应用于由局部脊不连续、脊末梢和分叉引起的广泛接受的指纹特征类。已示出用于指纹分析的主成分分析办法来提供与原始的未压缩的数据类似的性能，但具有减少的计算量。这些办法已被用于认证和识别两者。

主成分分析的另一个主要应用在于来自化学成分数据集的指纹生物现象。示例包括各种油源(例如，油轮)和从溢油获得的样品的化学签名。这些应用找到从GC-MS(气相色谱分析-质谱分析法)色谱图获得的数据的前几个主成分，该前几个主成分允许快速且客观的指纹规程，从而更全面地使用数据，因为大量变量集之间的共变被压缩成较小的正交分量集。PCA也已被用于定义猪粪中的微生物群落，诸如来自孕猪与育肥猪的浆料之间的差异。这些发现表明，PCA与其他数种技术的结合的应用可被用于准确地监视不同的代谢活跃人群。

在另一示例中，已经应用PCA技术来分析从昂贵的酒精饮料(例如，龙舌兰酒、伏特加酒、威士忌酒、朗姆酒、干邑白兰地等)的液体色谱串联质谱分析法产生的化学数据集。它被用于标识标记化合物(酸、糖和多酚)并且区分不同的样品。目标是使用标记化合物来认证酒精饮料，并标识欺诈性掺假。

所有这些生物标记物研究中的共同主题是PCA被用于分析数据集以实现所存在的变异性的紧凑、正交和简约的表示(签名)。不同数据集的紧凑的数据签名随后被用于出于比较认证和识别目的的调查/取证感测。

富文本数据分析的另一个领域侧重于统计或计算方法所支持的作者身份识别。这些已被应用于电子文本，诸如电子邮件、在线论坛、博客、源代码、文献等。已经从文本表示和文本分类两者的角度调查了用于识别作者身份的自动化办法的最新进展。首先调查样式标记(包括词汇、字符、句法和语义特征)，然后是仅在特定语言或文本域中可定义的因应用而异的属性。词汇和字符特征将文本视为单词标记或字符的序列。词汇特征通常比字符特征更复杂。句法和语义特征需要更深入的语言分析。虽然调查了各种特征选择和提取方法，但是这些技术都不包括将多变量统计用于数据减少和正交化目的。

发明内容

本发明落入指纹类别，因为它是基于内容的并且不涉及数据改变。取而代之的是，它使用数据集中的变量或者相关变量的子集的线性组合来定义数据的内部结构和存在的主导共变模式。这些变量的线性组合(称为主成分或因子)表示数据集的简约压缩签名。变量之间具有不同模式的数据集将具有不同的主成分模式。可以计算泄漏的数据子集或“野生文件”中的变量(或其相关子集)的主成分，并将其与数据提供者的参考文件或关于该事项的任何参考文件中的相同变量的主成分进行统计比较。这构成了文件的可用于标识和与来自其他文件的类似定义的模式进行比较的唯一且经压缩的签名。

该方法将PCA应用于在不同尺度上测量的数据。首先，定义变量和测量尺度，因为它们是理解所提议办法的基础。然后将PCA应用于在多个尺度上分类地和连续地测量的变量，这代表用于(诸如与消费者和商业有关的)指纹数据文件的特定方法。然后可以理解，PCA办法固有地抵抗窃取数据者所使用的常见攻击向量，诸如数据变换和数据转置。

如在本发明的各种实施例中呈现的PCA的应用导致在确定特定野生文件是否实际上是来自数据所有者数据集的泄漏数据时必须比较的极小的数据集。这极大地降低了计算复杂度。由于通常采用的文件类型的巨大尺寸，因此使用任何合理可用的计算资源来对整个文件执行此类比较是不切实际的。问题源于这些文件可能具有数亿条记录的事实，并且每条记录可能具有超过一千个字段；此外，可能需要将每个野生文件与数千个数据所有者数据集进行比较以确定(如果存在的话)哪个数据集表示野生文件所泄漏的文件。因此，使用诸如字符串匹配之类的常规机制的计算工作量非常高，并且甚至在处理开始之前就需要大量的预处理来转换数据。因此，在对于商业来说合理的时间量内在标准的计算设备上以常规方式来执行这些计算是不可能的，其中这些文件每月或甚至更频繁地改变着；由于在先前的比较运行完成之前的更新，这些文件将已经在变化。另一方面，PCA办法生成所选择的主成分的统计相关性，并且在统计值之间执行比较，而不是比较每个单元中的值，从而显著减少了处理时间。作为结果，该PCA办法解决了先前在实际商业环境中无法解决的问题，并且提供了可以使用标准商业计算机器来实现的针对问题的计算上高效的解决方案。

本发明的这些和其他特征、目标及优点将通过结合如以下描述的附图考虑以下对各实施例和所附权利要求书的详细描述而变得更好理解：

附图说明

图1是根据本发明的实施例描绘特定示例中由15个主成分占据的方差量的条形图；这些维度(主成分)在x轴上示出，而各自所解释的方差量在y轴上给出。

图2是根据本发明的一个实施例描绘在前两个变异性维度(即，前两个主成分)上根据各个观测的分数的各个观测的分布的散点图；该两个不同的点云表示由前两个特征向量的质量所定义的两个个体群，该前两个特征向量表示数据集中方差的约三分之一。

图3是根据本发明的实施例描绘投影到分析的二维平面中的经变换的一组数据提供者数据集变量的向量图；较长的向量示出了更好地适合(即，与其更高度相关)该二维模型的变量，而较短的向量同样示出了不适合该二维模型的变量。

图4是根据本发明的实施例将用于定性变量的平方负载描绘为变量和主成分之间的相关率的示图。

图5是根据本发明的实施例描绘前两个正交的变异性维度的定性变量的映射的示图。

图6是根据本发明的实施例描绘使用PCA混合数据流的两个数据集之间的相似性分析和评分的数据流程图。

图7是根据本发明的实施例的PCA指纹系统的基础设施和架构图。

具体实施方式

在更详细地描述本发明之前，应当理解，本发明不限于所描述的特定实施例和实现，并且在描述特定实施例和实现时所使用的术语仅用于描述那些特定实施例和实现的目的，而并不旨在进行限制，因为本发明的范围将仅通过权利要求书限定。

以下描述了在不同尺度上测量的数据的主成分的方法。首先，定义变量和测量尺度，因为它们是理解所提议办法的基础。其次，描述在连续尺度上测量的变量的传统主成分分析，因为它提供了本发明各种实施例的一般分析取向。第三，根据本发明的实施例，在多个尺度上分类且连续地测量的变量的主成分分析表示用于(诸如涉及消费者和商业的)指纹数据文件的特定方法。第四，使用来自该类型的实际文件的较小的地理人口统计变量集来呈现示例。

变量

变量被定义为可测量的实体，其可以自由地假定预定的值集中的任一者。建模中使用的数据是测量值本身。理论上可以假定在两个给定值之间的无限大且不可数的值范围中的任一者的变量是连续变量；离散变量可以假定有限的值范围，即，它可以具有与整数一样多的值。花钱；年龄；观众倾向(例如，购买特定产品的可能性)；和居住长度是连续变量的示例，而性别和子女的存在/不存在是离散变量。

测量是根据某一规则集对观察到的现象指派类别或分数的过程。然而，并不总是清楚的是，测量不仅仅包括涉及数字的过程。现象也可以被分类为类型或相对于彼此来排名。测量的一个重要方面是使用可操作地定义的过程来进行观察，该过程产生尽可能有效的可再现的结果。

用于对现象指派名称或数字的规则确定了测量水平，其中不同的规则与不同的测量水平相关联。变量的测量水平确定了可以使用哪些方法来对其进行分析，并最终影响可以从研究其分布所得出的推断类型。测量水平也很大程度上影响了可用于描绘变量的空间结构的地图类型。本文应用以下四种基本的测量水平：标称、序数、区间和比率。每个水平比其前一者更严格地定义，并且每个水平比其前一者包含更多信息。

最低水平是标称尺度。值被指派给标记或命名该现象的不同类别。唯一的要求是该类别是包含性的，即，所有对象必须属于一类别；并且它们是互斥的，即，任何对象都不能属于一个以上类别。因此，在标称尺度上测量的变量被认为是离散的。例如，性别被编码为男性、女性或未知。每条记录都具有这些属性中的一者，但不是两者或三者。标称尺度不对类别的排序或类别之间的距离做出假定。标称尺度限制了变量可以如何被用于统计操作和制图处理。然而，在某些情况下，可以对这些值进行计数以形成频率分布，并且如果它们在空间上被参考，则可以对它们的坐标执行数学运算。

当类之间存在隐含的关系时，存在序数测量水平，并且可以根据某个标准来对它们进行一致地排名(排序)。序数尺度是不对称和可传递的。不对称意味着：如果类别A大于类别B，那么B不能大于A。可传递意味着：如果A大于B并且B大于C，则A大于C。在序数尺度上测量的变量被认为是离散的。例如，假定使用以下五个类别在序数尺度上记录男性年龄：1(18-24)、2(25-34)、3(35-44)、4(45-54)、5(55-64)、6(65-74)和7(75+)。可以使用该变量来解说序数尺度的不对称和可传递特性。例如，排名2指示大于排名1的年龄，并且1永远不能指示大于2的年龄；因此，该尺度是不对称的。该尺度是可传递的，因为排名2指示大于1的年龄，3指示大于2的年龄，并且因此排名3也大于排名1。

如果这些类别是有序的，并且它们之间的距离是使用固定和相等的单位来定义的，则测量水平是区间的。区间尺度缺少零点；因此，它可被用于测量差异，但不是绝对量。例如，80°F不是40°F的两倍热，因为华氏尺度上的0是任意点。只有当现象本身建立零点时，诸如“两倍多”之类的比较才能具有任何意义。在区间尺度上测量的变量被认为是连续的。

比率尺度具有区间尺度的属性，但还具有固有的零点。此类尺度的定义属性是：无论测量单位如何，任何两个测量值对于彼此都具有相同的比率。例如，如果从点A到点B的行驶距离是1英里，并且从B到点C的距离是2英里，则在该两种情形中AB与BC距离的比率都是1：2。区间和比率数据通常一起处理，因为它们经常可以按相同的方式在算术和统计上操纵。

尽管可能已经在一个水平处收集了数据，但是将它们转换为较低水平以进行分析或图形表示是可能的并且通常是方便的。然而，通常不允许的是将在较低尺度处收集的数据视为其已在较高尺度处被测量。例如，很容易将区间和比率数据转换为序数数据，但不建议对序数分数进行求和。这已成为将PCA应用于具有在混合尺度上测量的变量的数据集的基本困难。如果一个人以美元获得零售支出，则可以通过在原始尺度上建立切割点来容易地将其转换为序数测量尺度。例如，零可被指派为排名1，位于2和100之间的值可被指派为排名2，101-200的值可被给予排名3，并且201-300的值可被指派为排名4，等等。

除了测量水平的属性之外，大多数变量还具有维度属性。在数据集中，我们希望变量是在相关性的意义上独立或彼此正交的维度的测量。理想地，变量只是一个理论维度的测量；在实践中，通常情形并非如此。在大多数数据集中，变量之间存在各种强度的相关性。例如，收入通常与年龄、教育水平、房屋价值、净资产、居住长度、房屋所有权、居住长度、以及尺度范围从街区到城市和国家的地理因素相关。现实世界不一定是正交的。

当数据集包含测量相同维度的变量时，它们可能会显著地相互关联(即，它们呈现多重共线性)。这些相关关系以及它们在数据集之间如何不同是我们在建立如本文所述的基于内容的零水印中所利用的。作为主成分或因子分析的统计技术可被用于将许多变量中包含的信息减少到几个复合变量，并且不需要考虑所有原始变量。在此意义下，引入了精确的描述经济性。

连续变量的主成分和因子分析

在许多分析情况中，对每个记录的区间和比率尺度变量集进行测量。通常这些变量测量地理人口统计或心理变异性的某个方面。

理想地，每个变量仅代表变异性的一个维度，并且这是诸如多元回归、逻辑回归和判别函数分析之类的统计规程的假设之一。遗憾的是，变量并不总是彼此不相关的，这意味着一个变量的值可能部分地是另一个变量的函数。主成分分析是一种可用于创建新的变量集的数据转换技术，这些变量是原始变量的线性组合。转换原始数据以便使用相同数目的变量但按以下方式来描述相同量的变异性：

1.第一轴(原始变量的线性组合)占尽可能多的总方差；

2.第二轴占尽可能多的剩余方差，而与第一轴不相关；并且

3.第三轴占尽可能多的剩余方差，而与前两个轴不相关，等等。

当一组变量之间存在显著的相关性时，通常几个轴(或主成分)占总方差的很大百分比，而较大数目的轴占较小量的方差。这些仅占少量方差的小轴通常在进一步分析中被丢弃。因此，研究者已将p个相关变量的初始数据集转换为m个不相关变量的数据集，该m个不相关变量的数据集解释了大多数方差，其中m通常远小于p。

创建该新的变量(或“主成分”)集具有若干优点。第一个优点是这些变量彼此不相关，即，每个变量均测量单独的变异性维度。这是满足预测建模假设的一种方式，即独立变量之间不存在显著的线性关系。主成分的第二个优点是原始数据集中的大量方差由较小的变量集来解释，从而引入了在任何科学分析中通常期望的简约性。通过检查原始变量和主成分之间的关系，通常可以按照原始变量来解读主成分的含义。

然而，当PCA被用作数据转换技术时，关注的焦点在于由主成分上的各个记录所展现的分数。每种情形(诸如个人)将在每个主成分上具有得分，该得分定义原始变量之间的变异性的某个方面。这些分数可以代替原始变量的值而被用于后续的统计分析。需要与存在的变量一样多的主成分以便再现所有原始变量之间的互相关。如果消除了占相对小量的方差的主成分，则已经获得了对原始数据的更简约的描述，但是获得其的代价是可能丧失再现原始变量之间的互相关的能力。还应注意的是，PCA利用了关于每个变量的所有信息，尽管给定变量上的观察得分的某些变化可能是唯一的，并且可归因于与该集中的其他变量无关的事物。

当从分析中消除该唯一的方差时，我们可能能够更好地解释变量之间的关系。在主成分分析中，所产生的变量的新的线性组合彼此不相关，并且每个相继的主成分比其前一者占更少的方差。如果研究者怀疑确定数据结构的真实因子几乎同等重要，则因子分析技术可能比PCA更合适。然而，必须提到的是，许多作者认为主成分分析是一种形式的因子分析，并经常将其用作此类研究中的第一步。

术语因子分析是指校正主成分分析的一个或多个缺点的技术族。所有因子模型的共同点是将唯一方差从变量之间共同保持的方差中显式分离出来，并且假设观察到的变量之间的相关性是由较小的“潜在”变量集所生成的。根据对潜在变量性质的预先设想，可能必须提前指定每个变量的共同性(即，与其他变量共同保持的百分比方差)。通过采用因子分析而非主成分分析，研究人员获得了从相对较小数目的因子再现变量之间的互相关的原始模式的能力。丢失的是原始变量上的情形的分数与各种因子上的分数之间的直接关系。

几乎所有形式的因子分析的另一个缺失是解决方案的唯一性。给定的因子结构仅表示原始互相关的描述。除非施加附加的约束，否则可以通过采用相同数目的因子的任何其他参考框架来描述相关模式。大多数因子分析方法采用某种类型的任意约束来获得初步因子结构，并且随后旋转该参考框架直到找到接近某个预先指定的标准集的因子解决方案。在许多预测建模情况中，其中我们只期望将数据直接转换为新的未校正变量集，PCA就可以充分完成这项任务。当研究人员有兴趣获得对一组变量之间的关系的更好解释时，则更复杂的因子分析类型通常是合适的。无论何种情形，因子分析是应谨慎使用并理解的一种复杂形式的多变量统计。给定主成分和因子分析之间的这种关系，我们在本发明中关注于前者，因为它是原始数据的更直接的变换。

混合数据的主成分分析

大多数营销数据集包含在多个尺度上测量的变量。在个人和家庭层面，他们测量地理、人口、社会经济和心理变量。虽然表示了所有测量尺度，但大多数变量都是分类的。在此示例中，我们使用小数据集来演示在表示多个测量尺度的数据上执行PCA的过程(本文称为PCAmix函数)。该分析使用PCAmix函数进行混合数据的PCA，该函数已在R统计系统(www.r-project.org)中提供。它包括标准的主成分分析和MCA(多重对应分析)功能。

PCAmix方法包括以下三个步骤：

1.处理数据；

2.执行广义奇异值分解(GSVD)；以及

3.为主成分上的每个观测创建分数。

以下表1中所示的示例通过对一个数据集应用PCA来解说PCA如何起作用。相同的规程可被应用于多个数据集，但使用小样本数据集来进行解说。作为第一步的一部分，我们从较大的数据提供商数据集中选择若干变量以用于此分析示例。下表中的第一个行项是与实际变量名称(每行的第二项)相关联的标签(每行的第三项)的缩写形式。缩写形式被用于分析和标绘，因为实际的变量名称(例如IB7602)相当于无信息，并且标签本身太长。然后创建了若干矩阵以用于GSVD步骤。

·PSX，IB1270Personicx集群(Personicx集群范围为1-70，并且它是多重离散分类(mdc)变量)。

·Gender，CDI性别-mdc变量，其值为男性、女性和未知。

·NumChild，IB7602子女数-整数变量。

·HOR，IB7606房主/承租人-二进制变量。

·LOR，IB7607LOR-LOR-居住年限是一个整数变量。

·Marriage，IB7609婚姻状况-单身或已婚。

·PChild，IB7622子女的存在-是或否。

·PAdult，IB7628家庭(HH)中有成人-是或否。

·HHInc，IB7641HH收入-序数尺度的分类变量。

·Ed1，IB7650第一人的教育-多个离散的类别。

·HMVd，IB8463国内市场价值十分位数–具有十个类别的序数。

表1

这是一个数据集；每个观测都是个体，并且各列是变量。第一变量(列)是Conslink，一个唯一的个体标识符。该数据集包含分类和数字变量的混合。可以把它想象成水平地(并排)分成两个，n行和p₁列的数字矩阵X₁(在以下表2中示出)以及n行和p₂列的分类矩阵X₂(在以下表3中示出)，其中“NA”指示缺失值：

表2

表3

设m为X₂中的类别总数。然后进行如下处理。

步骤1

构建维度n行×(p₁+m)列的数值数据矩阵Z＝(Z₁|Z₂)，其中

Z₁＝X₁的标准化版本

Z₂＝X₂的水平的居中指示符矩阵

构造行权重的对角矩阵N，其中n行按1/n来加权。

建立列权重的对角矩阵M，其中

第一p₁列按1来加权。

最后m列按n/n_s来加权，其中n_s是具有水平s的观测的数目。

总方差是p₁+m-p₂。

步骤2

PCAmix方法的第二个主要步骤涉及使用度量N和M来执行Z的GSVD(广义奇异值分解)，其给出：

Z＝UDV^t，其中

D＝diag(sqrt(l₁),…,sqrt(l_r))是ZMZ^tN和Z^tNZM的奇异值的r×r对角矩阵，并且r是Z的秩；

U＝ZMZ^tN的前r个特征向量的n×r矩阵，所以U^tNU＝ll_r；

V＝Z^tNZM的前r个特征向量的p×r矩阵，所以V^tMV＝ll_r。

每个主成分f_α都是X＝(X₁|G)的列的线性组合，其中X₁是数值数据矩阵，并且G是矩阵X₂的水平的指示符矩阵：

其中：

对于j＝1,…,p1

对于j＝p₁+1,…,p₁+m

表4给出了与每个维度(dim)(特征向量)相关联的特征值、由该特征向量所解释的数据集中的方差比例、以及由这些特征向量所解释的累积方差。

表4

可以看出，表4示出第一个特征向量(或变异性维度)几乎占方差的五分之一、第二个特征向量占超过百分之十、等等。仅这两个特征向量几乎占数据集中的方差的三分之一。这表明可以使用减少的主成分集来提供数据集的简约、紧凑表示，实质上是压缩的签名。在各种实施例中，仅保留那些占方差的显著部分的特征向量。在各种实施方案中，“显著”部分可以超过10％、超过25％或更高的值。图1图形化地示出了这15个主成分(维度)。

步骤3

PCAmix方法中的第三个主要步骤涉及为行和列计算因子分数。行的因子分数集是F＝UD。这些因子分数也被称为主成分分数。列的因子分数集是A＝MVD。在标准PCA中，A＝VD。主成分1至4的前六个观测的分数如表5中所示，并且前两个维度(即，主成分1和2)散布标绘在图2中。

表5

变量j的c_ja对成分a的贡献是：

c_ja＝aja²＝平方相关，如果变量j是数字，以及

c_ja＝sum s l_j(n/n_s)(a_sa ²)＝相关率，如果变量j是分类。以下表6给出了五个原始变量和主要成分1-4之间的非标准负载(相关性)。例如，IB7602，子女数(NumChild)与dim2最相关，与diml的相关程度稍小，与dim3的相关程度轻微，但不随dim4而变。

表6

前两个主成分的相关性如图3中所示。PCA双标图示出投影到该分析的二维平面中的经变换的一组数据提供者数据集变量。较长的向量示出了更适合(即，更高度地与其相关的)二维模型的变量。它们中的较大成分位于标绘的平面中。相反，较短的向量也示出了不适合二维模型的变量。它们倾向于较少位于该标绘中和离该标绘较远；因此它们在图中的投影较短。结果表明，例如，IB7602，子女数，由前两个特征向量很好地表示。相反，IB8463，国内市场价值十分位数，在前两个特征向量中表现(相关)不佳。较短的向量长度及其与右上象限和右下象限中的其他变量的关系表明它更好地由更高阶维度来表示。事实上，表6示出IB8463与dim3的相关性最高。

表7提供了前四个维度(或主成分)的一些变量的平方负载。该矩阵的元素只是表6中其各自值的平方。

表7

如表7中所示的前两个维度的负载被绘制在图4中。定性变量的平方负载是变量和主成分之间的相关率。对于定量(数值)变量，它们是变量和主成分之间的平方相关。例如，IB7622，子女的存在，与前两个主成分密切相关。IB7609，婚姻状况，与第一主成分高度相关，并且与第二主成分几乎正交(不相关)。IB7628，家庭中有成人，与第二主成分甚至更加正交，并且与第一主成分高度相关

图5提供了定性变量到变异性的前两个正交维度的映射。例如，在右上象限中，IB7622＝Y，子女的存在＝是，紧密映射到IB7609＝A，婚姻状态＝A，即已婚。在最左上象限，房主/承租人＝承租人，最接近映射到Marriage＝B，即单身，以及教育＝4，高中后职业/技术培训。可以针对其他定性变量的水平进行类似的推断。以下表8示出了相对于前四个特征向量的定性变量水平的值。前两个维度的值对应于图5的标绘上的坐标。

表8

PCAmix在标识数据集的相似性中的应用

图6是描绘将在前一部分中所描述的PCA系统和方法用于标识两个数据集之间的相似性的数据流程图。采用四个主要的子例程来执行该计算：记录匹配子例程110；子集选择处理例程120；PCAmix数据分析子例程200；和分数生成子例程300。虽然所解说的示例仅比较两个数据集，但是该机制可被应用于多个数据集，潜在地并行应用于多个处理器或多处理器系统上，以便进一步提高计算效率。在并行处理环境中，野生文件可以同时与多个数据所有者数据集进行比较，因为子例程沿着并行线程运行，潜在地这些线程同与野生文件进行比较以确定是否存在匹配的数据所有者数据集一样多。

系统的输入是数据所有者数据集10和野生文件20。在文件日期确定步骤100，野生文件20经受改变出生日期(DOB)指纹以确定其日期的年和月。用于执行该步骤的过程被公开在国际专利申请No.PCT/US2017/017007，题为“Change Fingerprinting for DatabaseTables,Text Files,and Data Feeds(改变数据库表、文本文件和数据馈送的指纹)”中，其全部内容通过引用纳入于此。这一步骤的目的是双重的。首先，它可以通过将可能匹配的可能的数据所有者数据集的总体限制为仅匹配在文件日期确定步骤100处所确定的日期的那些数据集来减少该总体。其次，它可以调整野生文件20中的日期，以便它们匹配潜在匹配的数据所有者数据集中的当前日期；由于自从野生文件20被泄漏起流逝的时间，这些日期可能过时，如果野生文件20被简单地馈送到该系统而没有在文件日期确定步骤100处调整日期，则这可能导致错误的否定匹配结果。

在子例程110(记录匹配)处，针对步骤100中所标识的月/年，将野生文件20中的各个记录与数据所有者数据集10匹配。这确定了可以被选择用于后续分析的数据所有者数据子集。移动至子例程120(子集选择过程)，为每个数据集选择一组精简的变量(可能是最重要的变量或者为匹配来自野生文件20的变量集所需要的变量)。

最重要的变量是在许多排序上存在的那些具有高填充率(低缺失值)的变量。高填充率数据字段的示例可以包括例如姓和名、地址和婚姻状况。替换地，从数据所有者数据集10中所选择的变量可以由也存在于野生文件20中的变量来指示。然后选择观测的小样本，因为较小的子集足以代表数亿个观测。数据所有者数据集10的百分之一的随机样本足以定义协方差结构。结果是数据所有者子集130和野生文件子集140。

在子例程200(PCAmix数据分析)处，执行PCA。以上提供了关于从数据子集产生特征值和特征向量的在PCAMix数据分析子例程200处执行的计算的技术细节。分别为数据所有者子集130和野生文件子集140生成特征值的向量作为数据所有者子集特征值210和野生文件子集特征值220。这给出了特征值、由相关的特征向量所解释的方差量、以及所解释的累积方差。如果原始变量之间存在相关性，则这些特征值将示出减少的特征向量集占数据集中的大部分方差，而占少量方差的那些特征向量在后续分析中可以被丢弃或忽略。分别为数据所有者子集130和野生文件子集140生成特征向量矩阵作为数据所有者子集特征向量230和野生文件特征向量240。这些矩阵是用于数据集的压缩签名，或者更确切地是它所基于的变量子集。存在与原始变量一样多的特征向量。每个特征向量是具有作为原始变量的权重的元素的向量。权重指示特定变量在不同特征向量中的重要性。如果数据集相同，则特征向量矩阵将是相同的。如果它们不相同，则两个特征向量矩阵将不同。

在子例程300(分数生成)处，为数据所有者子集130和野生文件子集140产生特征向量分数的矩阵。正如每个观测都具有原始变量的值一样，它们也具有每个特征向量的分数。相似度分数400是来自比较数据所有者子集130和野生文件子集140的特征值的输出。如果两个分析是在相同的观测和变量上执行的，那么在文件相同的情况下，特征值应该或多或少相同。若否，则表明结果可能基于不同的个体(观测)和变量。另外，比较两个特征向量。如果两个分析是在相同的观测和变量上执行的，那么特征向量应该是相同的。如果基于不同的观察子集但是相同的变量，则最重要的特征向量(即，占大多数方差的那些特征向量)应该高度相似。如果分析基于相同的个体和相同的变量，并且特定的特征向量中的一些元素不同，则这表明一些字段可能源自不同的源。对于共同的个体集，如果文件是同一个，则数据所有者子集130和野生文件子集140之间的主成分分数的相关性应该是1.00或接近1.00。也就是说，数据所有者子集130与野生文件子集140的主成分1之间的相关性应为1，数据所有者子集130与野生文件子集140的主成分2之间的相关性应为1，依此类推其余最重要的主成分。如果不是1或非常接近1，则它们不应展现出统计学上显著的差异。如果数据所有者子集130具有来自其他数据所有者的大型代表性文件，则可以使用上述PCAmix规程来将野生文件与它们中的每一者进行匹配。如同样在以上所提及的，该处理可以并行执行，因为系统中有许多并行处理线程可用。

尽管图6的过程是在旨在从数据所有者数据集10和野生文件20两者产生指纹并且随后确定它们之间是否存在匹配的配置中示出的，但是可以稍微改变该过程以便简单地提供用于数据所有者数据集10的指纹。在该配置中，不使用野生文件20，并且因此文件日期确定100和记录匹配110不是处理的一部分。子集选择过程子例程120接收数据所有者数据集10作为其唯一的输入并且仅产生数据所有者子集130。PCAmix数据分析子例程130仅接收数据所有者子集130作为其输入，并且仅产生数据所有者子集特征值210和数据所有者子集特征值230。跳过分数生成子例程300，这是因为不存在有意义的方式来计算单个文件的分数，而只有两个文件之间的比较。可能期望离线地或在与野生文件20执行任何比较之前以此方式对数据所有者数据集10执行加指纹，作为一旦呈现野生文件20以进行调查就进一步加速必要计算的方式。

转至图7，示出了用于实现图6的数据流的硬件系统。来自野生文件(对应于图6的野生文件子集140)的DOB匹配记录的子集540被输入到执行本文描述的分析的服务器530。在该示例中，将野生文件20与仅来自三个潜在源X-Z的数据集进行比较，X-Z对应于客户端X数据存储高速缓存500、客户端Y数据存储高速缓存510和客户端Z数据存储高速缓存520。然而，应当注意，系统可能能够与任何数目的数据所有者数据集10执行比较，并且在实际示例中，可能存在数百或者甚至数千个此类比较。如上所述计算每次比较的特征向量，并且这三个客户端中的每一者的结果是指示野生文件20是否是从每个特定客户端所维护的数据导出的分数。如果特定数据所有者数据集10的分数特别强于任何其他数据所有者数据集10的分数，则这是野生文件20实际上源自该数据所有者数据集10的强指示符。

从前述内容将领会，与简单地完全比较数据所有者数据集10和野生文件20相比，本文描述的系统和方法的实现将导致巨大的计算效率。首先，该方法可以对数据样本(甚至是总数据的1％或更少)进行操作。考虑到用于消费者目的的典型文件可能具有1.5到3.5亿个不同的记录，每个记录具有数百或数千个数据字段，可以理解缩放的效率。在这种大小的文件上执行任何类型的多变量分析在计算上是不切实际的，因为无法在使结果有意义的时间帧内得到该结果。另一方面，对减小到该大小的1％的文件计算协方差矩阵意味着计算时间减少了100倍。另外，不使用来自数据集的样本的每个变量(字段)，并且可以从填充良好的最流行的变量集来创建经压缩的签名。例如，典型的文件可以具有1500个变量(即，每个记录的字段)，但实际上这些文件是稀疏矩阵。来自文件的许多最常选择的变量(诸如性别、年龄、收入、婚姻状况、房主/承租人、以及子女数)可以很好地被填充，即，它们几乎没有缺失的观测。其他变量(诸如标记高度集中的兴趣(例如，针织、徒步旅行或特定运动)的变量)可能具有小于10％的填充率，通常小于5％。使用50个变量而不是1500个变量来创建签名将考虑集减少95％以上。结合源自仅使用可用记录的1％样本的减少，并且考虑到PCAmix过程产生的非常小的比较足迹，可以看出计算效率的增加是巨大的，从而允许在商业计算环境中找到的现实计算设备上在商业上可行的时间帧内执行必要的计算。总之，该过程的应用将实际上无法解决的问题转化为在商业上有意义的时间帧内易于解决的问题。

除非以其他方式说明，否则本文中所使用的所有技术和科学术语具有如本发明所属的本领域的普通技术人员共同理解的相同含义。虽然类似于或等同于本文所描述的方法或材料的任何方法和材料可在实践或测试本发明时使用，本文中描述了有限数目的示例性的方法和/或材料。本领域的那些技术人员将领会，更多的修改是可能的，而不背离本文中的发明概念。

本文中使用的所有术语应当以与上下文一致的尽可能最宽的方式来解释。当本文中使用编组时，该组中的所有个体成员以及该组中所有可能的组合和子组合均旨在被个体地包括。当在此说明范围时，该范围旨在包括该范围内的所有子区域和单个点。本文中引用的所有参考都被通过援引纳入在此到不存在与本说明书的公开不一致的程度。

本发明已参考某些优选和替换实施例来描述，这些实施例旨在仅为示例性的而非旨在限制如所附权利要求书中阐述的本发明的整个范围。

Claims

1.一种用于确定野生文件是否从数据所有者数据集泄漏的装置，其中所述数据所有者数据集和所述野生文件各自包括多个记录，每个记录包括多个字段，所述装置包括：

a.子集选择子例程，其中所述子集选择子例程被配置成接收数据所有者数据集和经日期调整的野生文件，并且创建数据所有者子集和野生文件子集，其中所述数据所有者子集和所述野生文件子集分别包含与所述数据所有者数据集和所述野生文件相比减少的记录数；

b.PCAmix数据分析子例程，其中所述PCAmix数据分析子例程被配置成接收所述数据所有者子集和所述野生文件子集，并且产生一组数据所有者子集特征值、一组数据所有者子集特征向量、一组野生文件子集特征值、以及一组野生文件子集特征向量；以及

c.分数生成子例程，其中所述分数生成子例程被配置成接收所述数据所有者子集特征值、所述数据所有者子集特征向量、所述野生文件子集特征值、和所述野生文件子集特征向量，以产生指示所述野生文件源自所述数据所有者数据集的可能性的相似性分数。

2.如权利要求1所述的装置，其特征在于，进一步包括：文件日期确定子例程，其被配置成分析所述野生文件并调整所述野生文件中的日期以计及自从所述野生文件被泄漏起所流逝的时间，以便产生经日期调整的野生文件。

3.如权利要求2所述的装置，其特征在于，进一步包括：记录匹配例程，其被配置成接收所述经日期调整的野生文件和所述数据所有者数据集，并在所述经日期调整的野生文件和所述数据所有者数据集之间产生一组匹配的记录。

4.如权利要求1所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：构建数值数据矩阵、从来自所述数值数据矩阵的行权重构造的第一对角矩阵、以及从来自所述数值数据矩阵的列权重构造的第二对角矩阵。

5.如权利要求4所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：使用来自所述第一和第二对角矩阵的度量来对所述数值数据矩阵执行广义奇异值分解，以产生所述数据集所有者子集特征向量和所述野生文件子集特征向量。

6.如权利要求5所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：消除除了占方差的显著部分的那些数据集所有者子集特征向量和野生文件子集特征向量之外的所有数据集所有者子集特征向量和野生文件子集特征向量。

7.如权利要求6所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：消除除了占方差的至少百分之十的那些数据集所有者子集特征向量和野生文件子集特征向量之外的所有数据集所有者子集特征向量和野生文件子集特征向量。

8.一种用于为数据所有者数据集创建指纹的装置，其中所述数据所有者数据集包括多个记录，每个记录包括多个字段，所述装置包括：

a.子集选择子例程，其中所述子集选择子例程被配置成接收数据所有者数据集并从所述数据所有者数据集创建数据所有者子集，其中所述数据所有者子集包含与所述数据所有者数据集相比减少数目的记录；以及

b.PCAmix数据分析子例程，其中所述PCAmix数据分析子例程被配置成接收所述数据所有者子集并产生一组数据所有者子集特征值和一组数据所有者子集特征向量、一组野生文件特征值。

9.如权利要求8所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：构建数值数据矩阵、从来自所述数值数据矩阵的一组行权重构造的第一对角矩阵、以及从来自所述数值数据矩阵的一组列权重构造的第二对角矩阵。

10.如权利要求9所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：使用来自所述第一和第二对角矩阵的一组度量来对所述数值数据矩阵执行广义奇异值分解，以产生所述数据集所有者子集特征向量。

11.如权利要求10所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：消除除了占方差的显著部分的那些数据集所有者子集特征向量之外的所有数据集所有者子集特征向量。

12.如权利要求11所述的装置，其特征在于，所述PCAmix数据分析子例程被进一步配置成：消除除了占方差的至少百分之十的那些数据集所有者子集特征向量之外的所有数据集所有者子集特征向量。

13.一种用于对数据所有者数据集加指纹的方法，其中所述数据集包括多个记录，每个记录包括多个字段，所述方法包括以下所述步骤：

a.从所述数据集中选择所述记录的子集以产生数据所有者子集；

b.将主成分分析应用于所述数据所有者子集以产生数据所有者子集特征值的矩阵和数据所有者子集特征向量的矩阵；以及

c.分析所述特征向量以产生一组分数，所述分数定义所述数据所有者子集的主成分上的观察值。

14.如权利要求13所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：构建数值数据矩阵、从来自所述数值数据矩阵的一组行权重构造的第一对角矩阵、以及从来自所述数值数据矩阵的一组列权重构造的第二对角矩阵的步骤。

15.如权利要求14所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：使用来自所述第一和第二对角矩阵的一组度量来对所述数值数据矩阵执行广义奇异值分解以产生所述数据集所有者子集特征向量的步骤。

16.如权利要求15所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：移除除了占方差的显著部分的那些数据集所有者子集特征向量之外的所有数据集所有者子集特征向量的步骤。

17.如权利要求16所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：移除除了占方差的至少百分之十的那些数据集所有者子集特征向量之外的所有数据集所有者子集特征向量的步骤。

18.一种用于确定野生文件是否源自数据所有者数据集的方法，其中所述数据所有者数据集和所述野生文件各自包括多个记录，每个记录包括多个字段，所述方法包括以下步骤：

a.从所述数据所有者数据集中提取所述记录的子集以产生数据所有者子集；

b.从所述野生文件中提取对应于所述数据所有者子集中的记录的记录子集以产生野生文件子集；

c.将主成分分析应用于所述数据所有者子集以产生一组数据所有者子集特征值和数据所有者子集特征向量的矩阵；

d.将主成分分析应用于所述野生文件子集以产生一组野生文件子集特征值和野生文件子集特征向量的矩阵；

e.相对于对应的野生文件子集特征向量来分析每个数据所有者子集特征向量以产生相似性分数。

19.如权利要求18所述的方法，其特征在于，进一步包括：在从所述野生文件中选择所述记录的子集的步骤之前确定所述野生文件的文件日期的步骤。

20.如权利要求18所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：构建数值数据矩阵、从来自所述数值数据矩阵的行权重构造的第一对角矩阵、以及从来自所述数值数据矩阵的列权重构造的第二对角矩阵的步骤。

21.如权利要求20所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：使用来自所述第一和第二对角矩阵的度量来对所述数值数据矩阵执行广义奇异值分解以产生所述数据集所有者子集特征向量和所述野生文件子集特征向量的步骤。

22.如权利要求21所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：消除除了占方差的显著部分的那些数据集所有者子集特征向量和野生文件子集特征向量之外的所有数据集所有者子集特征向量和野生文件子集特征向量的步骤。

23.如权利要求22所述的方法，其特征在于，将主成分分析应用于所述数据所有者子集的步骤进一步包括：消除除了占方差的至少百分之十的那些数据集所有者子集特征向量和野生文件子集特征向量之外的所有数据集所有者子集特征向量和野生文件子集特征向量的步骤。