CN110741368A - 标识泄漏的数据并将过错指定到涉嫌泄密者的系统和方法 - Google Patents
标识泄漏的数据并将过错指定到涉嫌泄密者的系统和方法 Download PDFInfo
- Publication number
- CN110741368A CN110741368A CN201880032328.8A CN201880032328A CN110741368A CN 110741368 A CN110741368 A CN 110741368A CN 201880032328 A CN201880032328 A CN 201880032328A CN 110741368 A CN110741368 A CN 110741368A
- Authority
- CN
- China
- Prior art keywords
- recipient
- file
- suspected
- data
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000001010 compromised effect Effects 0.000 title description 3
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 201000007023 Thrombotic Thrombocytopenic Purpura Diseases 0.000 claims description 17
- 238000004458 analytical method Methods 0.000 claims description 7
- 150000003839 salts Chemical class 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 238000000513 principal component analysis Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/126—Applying verification of the received information the source of the received data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25808—Management of client data
- H04N21/2585—Generation of a revocation list, e.g. of client devices involved in piracy acts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/258—Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
- H04N21/25866—Management of end-user data
- H04N21/25891—Management of end-user data being end-user preferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/835—Generation of protective data, e.g. certificates
- H04N21/8358—Generation of protective data, e.g. certificates involving watermark
Abstract
一种通过多个层进行的用于标识泄漏数据文件并将过错指定给一个或多个涉嫌泄漏者的系统和方法。在第一层处,发生初步水印检测。数据被插入到数据的子集以确定与涉嫌泄漏的文件中的数据的相关性。然后基于匹配的比特的数量对所得的过错可能性进行加权。在第二层处,执行另一搜索过程以检测附加的与盐有关的模式。然后为涉嫌泄漏的数据文件的每个检测到的接收者标识符计算过错评分,并对这些接收者的相对过错进行加权。在第三层处,将涉嫌泄漏的文件中数据的统计分布与参考文件中相应数据的统计分布进行比较。在此层完成后,跨这些层中的每一层计算过错评分的平均值。
Description
技术领域
本发明的领域是对数据所有权的验证,以确定数据是否已被不适当地复制或使用,并且如果是这样,则标识不适当地复制或使用该数据的当事方。
背景技术
本背景部分中提到的参考不被承认是相对于本发明的现有技术。
数据泄漏可被定义为除所有者或授权用户以外的某人对数据的偷用。到2019年,数据泄漏被估计为是一个涉及数万亿美元的问题。数据泄漏解决方案目前每年造成约10亿美元的销售损失,它在某些类型的数据方面已经存在了一段时间。已存在一旦图形、视频、音频或文档(即,文本或pdf)数据实际上以明文形式暴露在所有者的防火墙之外,就断言该数据的所有权的解决方案。各组织使用众所周知的这些水印识别解决方案来保护它们的知识产权(IP)不被盗用。这些水印识别解决方案允许数据所有者追讨无执照使用的损害赔偿,因为他们可在法庭上将水印用作所有权和版权侵权的证据。此类法律救济存在的事实威慑了希望获得并随后在未经所有者许可的情况下使用这些受版权保护的材料的个人或团体。
遗憾的是,无论在使用时是以明文还是以加密方式传输,文本和数据库文件的数据泄漏仍然是未解决的问题。消费者数据的所有者(“数据所有者”)经常将其数据给予、租赁、或销售给被信任为仅按合法方式、遵守合同要求或数据处置规定(诸如金融服务中的B条例或地方、州或联邦政府制定的隐私法)使用该数据的个体或组织(“受信第三方”或即“TTP”)。该数据通常作为一系列数据库表(例如,.sql格式)、文本文件(例如,.csv、.txt、.xls、.doc或.rtp格式)、或作为实时数据馈送(例如,XML或JSON)来被传送。尽管如此,还是经常发生数据所有者的数据泄漏(被泄漏的文件在本文中被定义为“被泄漏的子集(LeakedSubset)”)到在没有正当许可或甚至非法的情况下要么故意要么无意地使用该数据的其他人(“不良行为者(Bad Actors)”)的手中。这可能因为以下而发生,例如:TTP故意发布数据并且其本身就是不良行为者;TTP的员工故意或意外地发布数据;或数据所有者的员工本身故意或无意地泄漏数据。
本发明的发明人认为,理想的过错指定模型将通过跟踪数据集中唯一属性的分发历史、和标识潜在的过错TTP、以及确定它们泄露该数据的可能性来起作用。提供这种类型的现有技术方法无法解决的以下优点的过错评分方法是被期望的:标识数据的原始接收者的能力;标识数据文件中专有属性的能力;以及标识将数据原始分发到初始TTP的日期的能力。
发明内容
在某些实现中,本发明涉及一种实现上文提出的目标的过错指定模型和评分方法。首先,它具有数据隐私和安全性的业务功能。“野生文件”可被定义成可能包含非法分发的专有数据的先前未知来源的记录列表。此文件可能是从各种各样的来源发现的。“历史属性的参考数据库”然后被采用,其是属性、元数据和值的存档积存。此数据库为来自此过错指定服务的所有用户的数据而存在。本发明利用了一种唯一地分层集成的数据标识技术,该技术对总体累积的过错指定评分做出加权贡献。它适用于销售或以其他方式分发专有数据的企业。本发明因此使组织能够标识并断言已经有意或无意地以明文(即,未加密)的方式在其防火墙外部被分发的文本数据的所有权,并为盗用该数据的各方指定过错。
过错指定系统和方法会生成特定TTP实际上是非法分发数据的不良行为者或使得不良行为者能够非法地分发数据的统计可能性。当存在从数据所有者接收数据的数千个TTP时,指定过错可能很困难。水印识别和指纹识别在理想情况下将针对泄漏者的身份获得100%的确定性。如果被正确地完成,则水印识别或指纹识别将排除大多数TTP,并且只留下一些潜在的可能嫌疑者,他们中的每一者都具有作为泄漏源的不同的统计可能性。本发明的某些实现中的过错指定服务是以最大化每一方之间的统计“距离”的方式设计的,使得常常发现一个TTP显著地更可能是泄漏源而非其他TTP。过错指定系统被设计成多层信息检测系统,该多层信息检测系统捕捉数据集中的特有模式,并将这些模式的沿袭追溯到数据的初始接收者。过错指定系统涉及若干层数据分析,每一层数据分析对所有已标识的潜在不良行为者的总体过错评分做出加权贡献。
在某些实现中,本发明在多层中操作。在诸个体层中,每个层都提供与源数据相关的数据的不同特征的新信息。在各交互层中,每个层都有助于最小化可能的过错方或接收者ID的数量。数据中的一些属性比其他属性在过错评分中的权重更大。
本发明的这些和其他特征、目标及优点将通过结合如以下描述的附图考虑以下对优选实施例和所附权利要求书的详细描述而变得更好理解。
附图说明
图1是示出在使用本发明的实施例的示例中的比特观察计数的图。
图2是使用本发明的一实施例的用于匹配数据文件中各属性的卡方拟合优度检验(chi-square goodness of fit test)的应用的图示。
图3是示出在使用本发明的实施例的示例中将野生文件数据与参考数据进行比较的示意图。
图4是示出了在使用本发明的实施例的示例中的统计简档评估期间的加权和非加权属性的一组表。
图5是本发明的一实施例的数据流程图。
具体实施方式
除非以其他方式说明,否则本文中所使用的所有技术和科学术语具有如本发明所属的本领域的普通技术人员共同理解的相同含义。虽然类似于或等同于本文所描述的方法或材料的任何方法和材料可在实践或测试本发明时使用,本文中描述了有限数目的示例性的方法和/或材料。本领域的那些技术人员将领会,更多的修改是可能的,而不背离本文中的发明概念。虽然水印和指纹识别采用分层的方式进行数据保护,但过错检测并不依赖于特定层的存在。野生文件可以被检测为在一个或多个层中带有任意级别的过错。
作为防止数据泄露的第一道防线,采用了因客户而异的水印识别机制。首先,各唯一的接收者ID被生成,并且每个唯一的接收者ID被随机地指派给数据库中的每个客户端。接收者ID的长度可以是任何长度,只要长度足以保证唯一性即可。
层1,水印检测,按以下方式进行。加盐是将唯一性数据(盐)插入数据的子集,使得在该数据被泄漏的情况下,被包含在该数据子集中的数据可被标识回数据所有者的机制。盐与此因接收者而异的ID关联。一旦接收到可疑的野生文件,通过启动搜索协议来检查盐,该搜索协议会为接收者ID中的每个比特位置(“比特位置(Bit Position)”)生成一组与0和1(“比特值(Bit Value)”)相关联的计数(“比特计数(Bit Count)”)。预定义的启发式方法(诸如但不限于80-20启发式方法)被应用以基于与每个比特值相关联的计数来确定应向比特位置指定0、1还是未知。也就是说,如果给定比特位置的计数中有百分之80或更大比例与该比特值相关联,则向比特值指定1或0(“百分比比特值(Percent Bit Value)”)。在任何比特都不具有计数的百分之80的任何比特位置中,它被认为是未知的(“检测到的比特”)。图1提供了应用于11个比特位置的此方法的说明性示例。
检测到的接收者ID将具有可变数量的恢复比特。如果接收者ID被检测到少于10比特,则该接收者ID不被包括在接收者ID池中,因为随机匹配多达10比特的可能性大约是0.1%。因此,如果在水印检测层期间将接收者ID视为“已恢复”,则数据所有者对其首次将相关数据分发给的客户的置信度大于99.9%。在水印检测阶段期间检测到的接收者ID构成涉嫌过错TTP的初始池。
在初始水印检测(层1)之后,过错的可能性是100除以检测到的接收者ID的数量。然后基于与检测到的接收者ID中匹配的比特的数量有关的信息对该值进行加权。例如,如果在盐中检测到3个接收者ID,则向每个接收者ID指派的初始过错评分为33。然后,通过在检测期间与接收者ID匹配的比特的数量相关联的系数对该值进行加权。作为检测准则,所有接收者ID至少匹配11比特,但是随着比特的数量的增加,匹配11比特以上的概率将大大降低。基于分组(bin)的加权度量被应用,其中11至20比特匹配的接收者ID通过特定值(例如1.1)加权,21至30比特匹配的ID通过不同值(例如1.35)加权,并且具有30以上匹配比特的ID通过第三值(例如1.55)加权。考虑到过错评分权重与比特匹配率紧密相关,在层1处理结束时,具有更多匹配的比特的接收者ID被指派更高的过错评分。例如,在由三个检测到的接收者ID组成的池中,在层1(初始水印检测)结束时,如果一个接收者ID有12比特匹配,则它将得到36.3的加权过错评分,具有25比特匹配的接收者ID将得到45的加权过错评分,并且具有35比特匹配的接收者ID将得到51的加权过错评分。
转到层2(高级水印检测),开始另一个搜索过程,以检测在分发给客户之前嵌入到数据中的附加的与盐相关的模式。用于搜索过程的方法与初始水印检测过程中的方法相同,但被应用于其他数据值,并且它产生与图1所描述的类型相同的比特字符串。比特字符串与层1中使用的相同的接收者ID池相匹配。通过匹配到相同的接收者ID池并因此匹配客户数据链接,层2增加了涉嫌不良行为的TTP的池。
在高级水印检测(层2)之后,为每个检测到的接收者ID计算过错评分。在层1和层2两者中包含了相同的接收者ID的情况下,层2会增加过错的可能性,并因此增加与那些接收者ID相关联的TTP的过错评分。换言之,重复的接收者ID会根据其在接收者ID池中出现的频率被加权。例如,如果在层2结束时在接收者ID池中再添加2个ID,并且它们与在层1中具有25和30比特匹配的两个ID相同,则这些接收者ID的基本过错评分是40,而对于在池中只表示一次的接收者ID而言,基本过错评分是20。使用与上文描述的相同的示例加权度量(1.1、1.35和1.55)和相同数量的接收者ID比特(40)将权重分解为过错评分,对于25和30比特匹配的接收者ID,层2之后的三个接收者ID所得的过错评分分别为54和62。在此情形下,具有12匹配比特的接收者ID的过错评分为44。
在高级水印检测之后,应用第三层分析,其中将野生文件中数据的统计分布与参考数据库中相应数据内的分布进行比较。这在本文中被称为层3统计简档检测。得自层2的接收者ID池被用作涉嫌不良行为的TTP的列表。使用被包含在野生文件中的信息,可标识该数据必然是在其中分发的日期范围。
层3中的统计简档检测方法如下:
1)将野生文件中的记录和与涉嫌接收者ID文件相关联的每个涉嫌TTP中的记录进行匹配,其中野生文件中有可用的个人标识信息(例如,姓名和地址)。仅对相匹配的记录进行进一步的评估(在步骤4中)。在层1和层2未产生任何涉嫌接收者ID的情况下,系统将使用公司的主数据文件(数据所有者集(Data Owner Set))对层3指纹进行检测。
2)采用了许多匹配机制,包括但不限于每个野生文件列数据的元特征(诸如值类型、值数量、值名称和填充率等)用于与参考数据库中的属性匹配(见图2)。
3)卡方(χ2)拟合优度分析被用于将野生文件的每一列与具有匹配元特征的参考文件中的每一属性进行比较。卡方拟合优度分析是一种统计测试,其可被用于确定数据集中的各类别是否以相同的方式分布,并因此假定其来自相同的“总体”,或者在此情况下表示相同的属性。在此上下文中,所得的χ2统计的p值小于.05表明野生文件属性95%可能与TTP接收者文件中的属性相同。在此示例中,这被视为属性匹配,并且TTP接收者文件属性被添加到待进一步比较的数据对象子集中。在本发明的替换实施例中可采用不同的p值截止。比较过程在遍历野生文件中的每个属性上并跨所有潜在的源文件来迭代,从而针对分发给接收者ID池中的每个涉嫌不良行为者的数据产生与野生文件的一组共同属性。图2是χ2拟合优度分析如何被用于将野生文件中的属性与TTP接收者文件中的属性进行匹配的示例。
4)TTP接收者文件中匹配记录和匹配属性的子集(如图3所示)经受进一步过错评估分析。如图3所示,将野生文件的每个单元格中的数据与接收者供应商文件的每个记录和属性匹配的单元格中的数据进行比较。
5)对于每个潜在的不良行为者,获得一个值,该值表示对于每个涉嫌不良行为者而言野生文件中的在每个源文件中统计上匹配的列数、野生文件中的经由每个源文件中的名称和地址匹配的行数,以及野生文件中的与源文件中的单元格具有相同值的单元格数。然后,通过将匹配行数乘以匹配列数来计算可能的单元格匹配的总数,并然后计算匹配的单元格值的数量。
6)然后,通过因属性而异的因子对相匹配的单元格值的数量进行加权,该因属性而异的因子与关于属性/列分布频率、专有状态和独特属性特征的历史信息紧密相关。此信息被存储在属性参考数据库中。属性权重范围从0到1,其中0被指派给相对更频繁分布的属性(诸如“年龄”或“性别”),而1被指派给例如很少分布或包含显式地链接到已知的专有数据的头部或值标签的属性。在针对单个属性的层3过错评分计算期间,基于属性的权重(对于频率较低的属性而言大于1)与单元格匹配的总数相乘。类似地,具有专有头部名称或值标签的属性的权重大于1。以此方式,从一些属性中检测出的数据比其他属性对过错评分增加更多的权重。
例如,在图3中,跨4个文件(1个野生文件和3个接收者文件)表示了六个不同的属性:“Driver(司机)”、“Yogi(瑜伽)”、“Parent(父母)”、“Sex(性别)”、“Age(年龄)”和“Techie(科技迷)”。这些属性中的三个(“Driver”、“Yogi”和“Parent”)存在于野生文件中,并因此是评估接收者文件的过错的重要因素。与“yogi”属性相比,“driver”和“parent”属性更频繁地指派给TTP。因此,在此上下文中,确定为来自“yogi”属性的数据(在层3中)比确定为“driver’”和“parent”属性的数据在过错评分中的权重更大。图4描绘了根据图3的情形构建的经属性加权的过错评分计算。
层4指纹识别的过错指定机制PCAMix被记录如下。国际专利申请号PCT/US2017/062612公开了一种用于执行PCAMix指纹识别的方法,其标题为“Mixed DataFingerprinting with Principal Components Analysis(基于主成分分析的混合数据指纹识别)”。
野生文件与涉嫌接收者ID文件相关联的每个涉嫌TTP中的那些文件一起处理,其中野生文件中有可用的个人标识信息(例如,姓名和地址)。仅对匹配记录进行进一步的评估。在层1和层2未产生任何涉嫌接收者ID的情况下,该系统将使用公司的主数据文件(数据所有者集(Data Owner Set))对层4指纹进行检测。数据所有者集将被用作示例以例示下文的过错评分计算。
1)产生数据所有者集和野生文件的特征值向量分别作为数据所有者特征值和野生文件特征值。这给出了特征值、由相关联的特征向量所解释的差异量、以及所解释的累积差异。如果原始变量之间存在相关性,则特征值将示出精简的特征向量集占数据集中的大部分差异,而占少量差异的那些特征向量集在后续分析可以被丢弃或忽略。分别为数据所有者和野生文件生成特征向量矩阵作为数据所有者特征向量和野生文件特征向量。这些矩阵是用于数据集的压缩签名,或者更确切地是它所基于的变量子集。存在与原始变量一样多的特征向量。每个特征向量是具有作为原始变量的权重的元素的向量。权重指示特定变量在不同特征向量中的重要性。如果数据集相同,则特征向量矩阵将是相同的。如果它们不相同,则两个特征向量矩阵将不同。
2)下一步骤是评分生成。特征向量评分的矩阵是针对数据所有者集合和野生文件生成的。正如每个观测值都具有原始变量的值一样,它们也具有每个特征向量的评分。相似度评分是来自比较数据所有者集合和野生文件的特征值的输出。如果这两个分析都是在相同的观测值和变量上进行的,那么如果文件相同,则特征值应该或多或少相同。在此情况下,层4的评分为1。
3)如果不是1或非常接近1,它们不应展现出统计学上显著的差异。在此情况下,当特征值等于或大于0.8时,我们将根据特征值进行评分。也就是说,如果特征值是0.85,则评分将是0.85。当特征值小于0.8时,则层4的评分为0。
在最终评估层之后,针对每个接收者文件或数据所有者集,我们跨所有层(各层已被检测出评分)计算过错评分的平均值。然后,基于预先确定的接收者风险简档评分对该值进行最终加权。风险简档评分是整数值范围(例如1到
4),并代表将数据分发给TTP公司的风险。风险简档评分是通过对与公司财务和/或信用记录、运营习惯以及为与向公司分发有价值数据相关联的潜在责任做出贡献的附加特征相关的若干因素的分析得出的。最低简档评分(即1)与最高级别的可信赖度或最低风险相关联,最高数值评分(即4)表明公司具有低水平的可信赖度或最高风险。风险评分为1的公司或没有记录信息的公司在最后一层过错指定后不会获得附加的加权。风险评分为4的公司在最后一层过错指定后获得最重的加权。在所有情况下,如果风险评分大于1,则风险简档权重将增加给定TPP接收者的过错评分。
此过错指定过程的输出是涉嫌过错的TTP的列表,每个TTP具有代表泄露相关文件的相对过错潜在性的过错评分。图5描绘了通过过错评估模型的信息流以及贯穿过错评估过程的各层的过错评分权重调整。如果在层1和层2中检测到多个接收者ID,则累积过错评分也被用于对TTP之间的相对过错潜在性进行排序。
现在参考图5以总体上描述该过程,层1处的水印检测发生在框12处,其中所输入的改变指纹检测10作为输入。比特匹配率权重计算14如图1的示例中所示并且如上文所描述的进行计算。处理前进到层2处的高级水印检测,这发生在框22处,使用如上所描述地计算的单独的比特匹配权重16和接收者ID频率权重18。可以注意到,接收者ID是从包括所有单独的接收者文件24的接收者文件数据库20中提取的。在框26处,移至统计简档指纹检测层3,接收者文件数据库20是此处理的输入,属性参考数据库30也是此处理的输入。属性参考数据库30被用于建立属性频率权重28。移至框38处的PCAMix指纹层4,将匹配的个体记录和匹配的属性输入到此处理。PCAMix特征值评分40被接收作为输入,功能如上文所描述的。过程然后移至附加权重因素,其在框32处获得总体过错评分。这里的各输入包括接收者简档评分数据库36以及来自先前层的平均过错评分;接收者简档评分数据库36被用于计算接收者合法性权重34。输出是来自框32处的总体过错评分层的总体过错评分。
本文中使用的所有术语应当以与上下文一致的尽可能最宽的方式来解释。当本文中使用编组时,该组中的所有个体成员以及该组中所有可能的组合和子组合均旨在被个体地包括。当在此说明范围时,该范围旨在包括该范围内的所有子区域和单个点。本文中引用的所有参考都被通过援引纳入在此到不存在与本说明书的公开不一致的程度。
本发明已参考某些优选和替换实施例来描述,这些实施例旨在仅为示例性的而非旨在限制如所附权利要求书中阐述的本发明的整个范围。
Claims (19)
1.一种测量关于涉嫌泄漏的野生文件的过错的方法,包括以下步骤:
a.对所述野生文件中的多个盐中的一者执行第一搜索,其中每个盐与接收者ID相关联,每个接收者ID进而与接收者数据文件相关联,所述第一搜索得到一组比特计数,每个比特计数包括所述接收者ID中的每个比特位置的比特值;
b.对每个比特位置应用预定的启发式方法来为每个比特值指定一个启发式值,以确定涉嫌过错的受信第三方(TTP)的第一计算;
c.将每个涉嫌过错的TTP的过错可能性除以涉嫌过错的TTP的数量;
d.通过与在检测期间与所述接收者ID匹配的比特的数量相关联的因子对每个涉嫌过错的TTP的过错可能性进行加权以产生第一过错评分;
e.对所述野生文件中的多个盐中的一者应用第二搜索;
f.针对与检测到的接收者ID相关联的每个接收者文件,计算所述涉嫌泄漏的野生文件的第二过错评分;
g.在所述第一和第二搜索两者后增加检测到的接收者ID的权重;
h.将所述涉嫌泄漏的野生文件中的数据的统计分布与对应于所检测到的接收者ID的接收者文件进行比较,以产生第三过错评分;
i.将使用主成分分析的混合数据指纹识别应用于所述野生文件,以产生第四过错评分;
j.通过平均先前计算得到的第一、第二、第三和第四过错评分来计算最终的过错评分。
2.如权利要求1所述的方法,其特征在于,所述预定的启发式方法是80-20启发式方法。
3.如权利要求2所述的方法,其特征在于,所述启发式方法的值选自由1、0和未知组成的集合。
4.如权利要求3所述的方法,其特征在于,如果所恢复的比特值的数量小于最小比特值,则不将所恢复的比特值包括在与涉嫌已泄漏的接收者文件相关联的接收者ID的池中。
5.如权利要求4所述的方法,其特征在于,通过与在检测期间与所述接收者ID匹配的比特的数量相关联的因子对每个涉嫌过错的TTP的过错可能性进行加权的步骤包括应用基于分组的加权度量。
6.如权利要求5所述的方法,其特征在于,所述基于分组的加权度量对于总计11至20匹配的接收者ID而言是第一特定值,对于总计21至30匹配的接收者ID而言是第二特定值以及对于总计超过30匹配的ID是第三特定值。
7.如权利要求5所述的方法,其特征在于,将用于所述第一和第二搜索两者的所述基于分组的加权度量加在一起以创建总的基于分组的加权度量。
8.如权利要求1所述的方法,其特征在于,将所述涉嫌泄漏的文件中的数据的统计分布与对应于所检测到的接收者ID的文件进行比较的步骤进一步包括标识数据范围的步骤,其中被分发到所述涉嫌泄漏的文件中的数据必定来自所述数据范围。
9.如权利要求8所述的方法,其特征在于,将所述涉嫌泄漏的文件中的数据的统计分布与对应于所检测到的接收者ID的文件进行比较的步骤包括将与检测到的接收者ID相对应的文件中的记录字段同所述涉嫌泄漏的文件中的记录进行比较,并为任何不匹配的文件消除与任何检测到的接收者ID相对应的接收者文件的步骤。
10.如权利要求9所述的方法,其特征在于,将所述涉嫌泄漏的文件中的数据的统计分布与对应于所检测到的接收者ID的文件进行比较的步骤包括在与所检测到的接收者ID对应的接收者文件和所述涉嫌泄漏的野生文件之间进行元特征匹配的步骤。
11.如权利要求10所述的方法,其特征在于,所述元特征包括值类型、值数量、值名称和填充率中的至少一者。
12.如权利要求10所述的方法,其特征在于,将所述涉嫌泄漏的文件中的数据的统计分布与对应于所检测到的接收者ID的文件进行比较的步骤包括对与具有匹配元特征的每一接收者ID相对应的参考文件中的至少一个属性执行卡方拟合优度分析。
13.如权利要求12所述的方法,其特征在于,进一步包括对所述涉嫌泄漏的野生文件和与匹配的接收者ID相对应的接收者文件之间的属性匹配的单元格中的值进行比较以获得匹配的列的数目的步骤。
14.如权利要求13所述的方法,其特征在于,进一步包括通过将匹配的列的总数乘以匹配的行的数量来计算可能的单元格匹配的总数以产生匹配的单元格值的数量的步骤。
15.如权利要求14所述的方法,其特征在于,进一步包括通过与历史信息紧密相关的因属性而异的因子来对所述匹配单元格值中的每一个进行加权的步骤。
16.如权利要求15所述的方法,其特征在于,所述历史信息包括属性/列分布频率、专有状态和独特属性特征中的至少一者。
17.如权利要求1所述的方法,其特征在于,所述最终过错评分基于预定的接收者风险简档评分被加权。
18.如权利要求17所述的方法,其特征在于,所述预定的接收者风险简档评分包括整数值范围。
19.如权利要求18所述的方法,其特征在于,所述预定的接收者风险简档评分的所述整数值范围是从多个因素中得出的,所述多个因素包括接收者的公司财务和/或信用记录、运营习惯以及为与分发数据相关联的潜在责任做出贡献的附加特征中的一者或多者。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762472853P | 2017-03-17 | 2017-03-17 | |
US62/472,853 | 2017-03-17 | ||
PCT/US2018/021853 WO2018169802A1 (en) | 2017-03-17 | 2018-03-09 | System and method for identifying leaked data and assigning guilt to a suspected leaker |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110741368A true CN110741368A (zh) | 2020-01-31 |
Family
ID=63523328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880032328.8A Pending CN110741368A (zh) | 2017-03-17 | 2018-03-09 | 标识泄漏的数据并将过错指定到涉嫌泄密者的系统和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11350147B2 (zh) |
EP (1) | EP3596632A1 (zh) |
JP (1) | JP7046970B2 (zh) |
CN (1) | CN110741368A (zh) |
CA (1) | CA3056601A1 (zh) |
WO (1) | WO2018169802A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3398051A4 (en) * | 2015-12-31 | 2019-07-03 | LiveRamp, Inc. | SALTING TEXT IN DATABASE TABLES, TEXT FILES, AND DATA DROPS |
JP7404662B2 (ja) * | 2019-06-03 | 2023-12-26 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150073981A1 (en) * | 2014-10-28 | 2015-03-12 | Brighterion, Inc. | Data breach detection |
CN104850783A (zh) * | 2015-04-30 | 2015-08-19 | 中国人民解放军国防科学技术大学 | 一种基于哈希特征矩阵的恶意软件云检测方法及系统 |
CN105745903A (zh) * | 2013-09-13 | 2016-07-06 | 安客诚 | 用于使离线数据在线同时保护消费者隐私的装置和方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7751596B2 (en) * | 1996-11-12 | 2010-07-06 | Digimarc Corporation | Methods and arrangements employing digital content items |
US7770016B2 (en) * | 1999-07-29 | 2010-08-03 | Intertrust Technologies Corporation | Systems and methods for watermarking software and other media |
JP4042100B2 (ja) * | 2002-04-23 | 2008-02-06 | 日本電信電話株式会社 | コンテンツ探索情報管理システムと方法およびコンテンツ探索方法ならびにプログラム |
JP2006140944A (ja) * | 2004-11-15 | 2006-06-01 | Hitachi Ltd | 情報埋め込み装置、方法、システムおよび利用者端末 |
JP2008171131A (ja) * | 2007-01-10 | 2008-07-24 | Nippon Hoso Kyokai <Nhk> | フィンガープリント検出装置及びそのプログラム |
US9319417B2 (en) * | 2012-06-28 | 2016-04-19 | Fortinet, Inc. | Data leak protection |
US9300676B2 (en) * | 2013-03-15 | 2016-03-29 | Socure Inc. | Risk assessment using social networking data |
US10521566B2 (en) * | 2016-05-12 | 2019-12-31 | Markany Inc. | Method and apparatus of DRM systems for protecting enterprise confidentiality |
-
2018
- 2018-03-09 CA CA3056601A patent/CA3056601A1/en not_active Abandoned
- 2018-03-09 US US16/494,022 patent/US11350147B2/en active Active
- 2018-03-09 CN CN201880032328.8A patent/CN110741368A/zh active Pending
- 2018-03-09 EP EP18767996.4A patent/EP3596632A1/en not_active Withdrawn
- 2018-03-09 JP JP2019550566A patent/JP7046970B2/ja active Active
- 2018-03-09 WO PCT/US2018/021853 patent/WO2018169802A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105745903A (zh) * | 2013-09-13 | 2016-07-06 | 安客诚 | 用于使离线数据在线同时保护消费者隐私的装置和方法 |
US20150073981A1 (en) * | 2014-10-28 | 2015-03-12 | Brighterion, Inc. | Data breach detection |
CN104850783A (zh) * | 2015-04-30 | 2015-08-19 | 中国人民解放军国防科学技术大学 | 一种基于哈希特征矩阵的恶意软件云检测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CA3056601A1 (en) | 2018-09-20 |
US11350147B2 (en) | 2022-05-31 |
JP2020512630A (ja) | 2020-04-23 |
WO2018169802A1 (en) | 2018-09-20 |
US20200092595A1 (en) | 2020-03-19 |
JP7046970B2 (ja) | 2022-04-04 |
EP3596632A1 (en) | 2020-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9785989B2 (en) | Determining a characteristic group | |
US8311907B2 (en) | System and method for detecting fraudulent transactions | |
US10769290B2 (en) | Systems and methods for fraud detection via interactive link analysis | |
US9385868B2 (en) | Methods and systems for testing performance of biometric authentication systems | |
US20100293090A1 (en) | Systems, methods, and apparatus for determining fraud probability scores and identity health scores | |
GB2513720A (en) | Computer-implemented systems and methods for comparing and associating objects | |
US11568028B2 (en) | Data watermarking and fingerprinting system and method | |
CN110245487B (zh) | 账号风险的识别方法及装置 | |
US11003747B2 (en) | Salting text in database tables, text files, and data feeds | |
CN110059981B (zh) | 信任度评估方法、装置及终端设备 | |
US7774320B1 (en) | Verifying integrity of file system data structures | |
US20200272765A1 (en) | Method and apparatus for detecting label data leakage channel | |
Zou et al. | A belief propagation approach for detecting shilling attacks in collaborative filtering | |
CN110741368A (zh) | 标识泄漏的数据并将过错指定到涉嫌泄密者的系统和方法 | |
CN111835781B (zh) | 一种基于失陷主机发现同源攻击的主机的方法及系统 | |
AU2012334801A1 (en) | A method of analysing data | |
US9521164B1 (en) | Computerized system and method for detecting fraudulent or malicious enterprises | |
DeCann et al. | Modelling errors in a biometric re‐identification system | |
CN110990810B (zh) | 一种用户操作数据处理方法、装置、设备及存储介质 | |
CN113918435A (zh) | 一种应用程序风险等级的确定方法、装置以及存储介质 | |
CN110636082B (zh) | 一种入侵检测方法及装置 | |
CN110457600B (zh) | 查找目标群体的方法、装置、存储介质和计算机设备 | |
CN111970272A (zh) | 一种apt攻击操作识别方法 | |
US20210194923A1 (en) | Automated social media-related brand protection | |
CN115484036A (zh) | 异常用户检测方法及其装置、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40013578 Country of ref document: HK |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200131 |
|
WD01 | Invention patent application deemed withdrawn after publication |