CN107113183A - 大数据的受控共享的系统和方法 - Google Patents

大数据的受控共享的系统和方法 Download PDF

Info

Publication number
CN107113183A
CN107113183A CN201580061092.7A CN201580061092A CN107113183A CN 107113183 A CN107113183 A CN 107113183A CN 201580061092 A CN201580061092 A CN 201580061092A CN 107113183 A CN107113183 A CN 107113183A
Authority
CN
China
Prior art keywords
data
request
conversion
metadata provider
policy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201580061092.7A
Other languages
English (en)
Other versions
CN107113183B (zh
Inventor
马林·利佐尤
马克·施滕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenobi bit limited liability company
Original Assignee
马林·利佐尤
马克·施滕
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 马林·利佐尤, 马克·施滕 filed Critical 马林·利佐尤
Publication of CN107113183A publication Critical patent/CN107113183A/zh
Application granted granted Critical
Publication of CN107113183B publication Critical patent/CN107113183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6254Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供用于受控数据共享的方法和系统。根据一个实例,数据提供商限定一个或多个数据策略并且允许访问给一个或多个数据消费者的数据。每个数据消费者提交包括两个阶段的分析任务(作业):数据转换和数据挖掘。所述数据提供商验证数据根据所述数据策略被转换(例如,匿名化)。在验证后,允许所述数据消费者对所述数据挖掘阶段结果进行访问。数据提供商和数据消费者的生态系统可通过使用允许在灵活、安全的环境中发现和共享的web服务而松散耦合。

Description

大数据的受控共享的系统和方法
技术领域
本发明的领域是数据代理、数据共享和访问控制,并且具体地是隐私控制。
技术背景
以下描述包括可用于理解本发明的信息。并不承认本文提供的任何信息都是现有技术,或与目前要求保护的本发明有关,或并不承认明确地或隐含地引用的任何公布是现有技术。
今天,我们正生活在大数据时代,其中自2010年以来世界上90%的数据已经存在。许多大数据应用程序通过数据提供商与分析提供商之间的协作来开发。例如,IBM报告说当分析住院患者数据时,死亡率降低。同样,名为Shoppycat的服务基于用户朋友的爱好和兴趣向社交网络用户推荐零售产品。所有这些实例都需要在数据提供商与数据消费者应用程序之间进行集成。为了促进数据提供商与数据消费者之间的生态系统,需要大型数据提供商开发用于使得能够访问其数据的安全机制。
研究人员试图解决大数据的隐私保护问题。因此,存在许多用于数据匿名化的技术。由于非结构化或半结构化的大量数据,所以在大数据背景下符合性变得更加复杂。此外,数据所有者可能不具有关于存储在其服务器上的数据的敏感性的足够知识。同样,大数据可以具有大体积和高速度,并且因为典型的分析需求不需要所有数据,这意味着对所有现有数据进行结构化和匿名化可能导致低效的资源使用。
为了从大数据提取价值,数据提供商通常在许多数据消费者之间共享数据。这样,数据共享成为大数据平台的重要特征。然而,隐私是阻碍组织实施数据共享解决方案的障碍。同样,数据所有者传统上负责在向第三方释放数据之前准备数据。为了释放而准备数据是复杂的任务并且可能成为另一个障碍。本文中的所有公布都以引用的方式并入本文,所述引用的程度就如同已明确且个别地指示将各个别公布或专利申请以引用的方式并入本文一般。在并入的参考文献中术语的定义或使用与本文中提供的这个术语的定义不一致或相矛盾时,以本文中提供的这个术语的定义为准并且参考文献中的这个术语的定义不再适用。
在一些实施方案中,用于描述和要求本发明的某些实施方案的表示成分、特性(诸如浓度、反应条件等)的量的数值在一些情况下应理解为被术语“约”修饰。因此,在一些实施方案中,在书面描述和权利要求书中阐述的数值参数是可以随特定的实施方案设法获得的希望特性而变化的近似值。在一些实施方案中,应根据报道的有效数字的数目并且通过应用一般的舍入技术来解释数值参数。虽然阐述本发明的一些实施方案的广泛的范围的数值范围和参数是近似值,但是在特定的实例中阐述的数值尽可能精确地被报告。在本发明的一些实施方案中提供的数值可含有由在它们的相应试验测量中见到的标准偏差必然产生的某些误差。
除非上下文另有明确指示,如在本文的描述和随后的整个权利要求中所使用的“一个(a)”、“一种(an)”和“所述”的含义包含复数个参照对象。此外,除非上下文另有明确指示,如本文的描述中所使用的“在……中”的含义包含“在……中”和“在……上”。
本文中列举的数值范围仅仅希望作为单独提及落入范围中的每个独立数值的简写方法。除非本文另外指明,否则每个单独数值均并入在本说明书中,如同本文单独列举每个单独数值一样。可按任何适合的顺序来执行本文所述的全部方法,除非本文另外指明或上下文明显矛盾。使用相对于本文中的某些实施方案提供的任何和所有实例或示例性语言(例如,“诸如”)的目的仅仅是希望更好地阐明本发明而不对另外要求的本发明施加限制。说明书中的任何语言都不应解读为指示任何未要求保护的要素是实施本发明所必需的。
本文公开的本发明的替代要素或实施方案的分组不应解读为是限制性的。每个组的成员可单独地提及并要求保护,或以与所述组的其他成员或本文中出现的其他要素的任何组合形式提及并要求保护。出于便利性和/或可专利性的原因,一组的一个或多个成员可包括在一个组中或从一个组中删掉。当出现任何此类包括或删除时,本说明书在本文中应被认为包含所修改的组,因此满足所附权利要求书中使用的所有马库什(Markush)组的书面说明。
因此,仍然需要一种系统,其允许对大数据进行受控访问,允许根据需要转换数据并且减轻数据共享的一些障碍。
附图说明
通过以下优选实施方案的详细描述连同附图,本发明主题的各种目的、特征、方面和优点将变得更加明显,在附图中类似的数字代表类似的部件。
图1是根据本说明书的实例的用于数据的受控共享的系统的框图;
图2是根据图1的本说明书的示例性方法的操作中的系统的时序图;并且
图3是根据本说明书的实例的数据提供商侧和数据消费者侧运行时功能的流程图。
具体实施方式
贯穿以下讨论,将关于服务器、服务、接口、引擎、模块、客户端、对等体、门户、平台或由计算装置形成的其他系统进行多次参考。应当理解,此类术语的使用被认为表示具有至少一个处理器(例如,ASIC、FPGA、DSP、x86、ARM、ColdFire、GPU、多核处理器等)的一个或多个计算装置,所述至少一个处理器被配置来执行存储在计算机可读有形非暂时性介质(例如,硬盘驱动器、固态驱动器、RAM、闪存、ROM等)上的软件指令。例如,服务器可包括一个或多个计算机,所述一个或多个计算机以满足所描述的角色、职责或功能的方式操作为web服务器、数据库服务器或其他类型的计算机服务器。应当进一步理解,所公开的算法、过程、方法或其他类型的指令集可体现为包括非暂时性有形计算机可读介质的计算机程序产品,所述非暂时性有形计算机可读介质存储致使处理器执行所公开步骤的指令。各种服务器、系统、数据库或接口可使用标准化协议或算法来交换数据,所述标准化协议或算法可能基于HTTP、HTTPS、AES、公共-私人密钥交换、web服务APIs、已知的金融查询协议或其他电子信息交换方法。可在分组交换网络、互联网、LAN、WAN、VPN或其他类型的分组交换网络上进行数据交换。
应当理解,本发明主题的系统和方法提供各种技术效果,包括提供数据访问和分析功能,而不需要复制、镜像处理或传输大型数据源以供客户端使用。
以下讨论提供本发明主题的许多示例性实施方案。尽管每个实施方案表示发明元素的单个组合,但是本发明主题被认为包括所公开元素的所有可能组合。因此,如果一个实施方案包括元素A、B和C,并且第二实施方案包括元素B和D,那么即使没有明确公开,本发明主题也被认为包括A、B、C或D的其他剩余组合。
如本文所使用的并且除非上下文另有规定,术语“耦合到”旨在包括直接耦合(其中彼此耦合的两个元件彼此接触)和间接耦合(其中至少一个附加元件位于两个元件之间)。因此,同义地使用术语“耦合到”和“与……耦合”。
如应用于受控数据共享的本发明主题的各方面在本发明人的论文“Toward anEcosystem for Precision Sharing of Segmented Big Data”、“Enabling a EnhancedData-as-a-Service Ecosystem”和“A runtime sharing mechanism for Big Dataplatforms”中、以及在美国专利公开号US 2015-0288669A1中进行描述,以上所有以引用的方式整体并入本文。
术语“大数据”通常用于描述具有相对大尺寸和复杂度的数据集合,以使得在给定计算能力(例如,可用的数据库管理工具和处理能力)的情况下,难以在合理时间内分析并处理数据。因此,取决于处理实体处理数据的能力,术语“大数据”可指以千兆字节、太字节、千兆兆字节、百亿亿字节或更大字节来测量的数据集合。如本文所使用的并且除非上下文另有规定,术语“大数据”旨在是指存储在一个或多个存储位置中的数据集合,并且可包括具有任何大小的数据集合。因此,除非上下文另有规定,否则本文中术语“大数据”的使用并不旨在将本发明主题的适用性限制于:特定数据大小范围、数据大小最小值、数据大小最大值、或特定量数据复杂性、或者可扩展成数字数据、文本数据、图像数据、音频数据、视频数据等的数据类型。
本发明主题可使用任何合适的数据库或其他数据集合管理技术来实现。例如,本发明主题可在诸如一般基于Hadoop的技术、MapReduce、HBase、Pig、Hive、Storm、Spark等的平台上实现。
在本说明书中,提供用于受控数据共享的方法和系统。根据公开技术的在不同数据消费者之间的数据共享可免除数据提供商对数据进行转换或匿名化的任务。根据一个实例,数据提供商限定一个或多个数据隐私策略并且允许访问到一名或多名数据消费者(也称为“最终用户”或“分析者”)的数据。每个数据消费者提交包括至少两个阶段的分析任务(作业):数据匿名化和数据挖掘。在一个实例中,作业在靠近实际数据源的数据提供商的基础设施上进行,从而减少了网络瓶颈,同时在数据提供商的前提下允许保持数据。数据提供商验证数据被根据隐私策略转换或匿名化。在验证后,允许数据消费者对数据挖掘阶段结果进行访问。可通过使用允许在灵活、安全的环境中发现和共享的web服务来将数据提供商和数据消费者的生态系统松散耦合。
图1提供本说明书的示例性生态系统100的概况。生态系统100包括一个或多个电子装置108(在图1中示出单个电子装置108-a)(例如,用户或数据分析员通过其访问系统)、数据提供商服务器102、以及一个或多个数据消费者服务器104(再次,图1中示出单个数据消费者服务器104-a)。在其他实例中,生态系统100还可包括在电子装置108、数据消费者服务器104与数据提供商服务器102之间的一个或多个转售商(未示出)。
在各实施方案中,生态系统100可包括多于一个数据提供商服务器102,所述数据提供商服务器102可通信地连接到任何数据消费者服务器104和/或电子装置108。因此,电子装置108的用户接口可通过数据消费者服务器104访问由数据提供商服务器102提供的数据。
生态系统100的每个部件(即电子装置108、数据提供商服务器102、数据消费者服务器104等)可通过一个或多个数据交换网络(例如,互联网、蜂窝网、以太网、LAN、WAN、VPN、有线、无线、近程、远程等)彼此通信耦合。
数据提供商服务器102可包括被编程来执行数据提供商的功能的一个或多个计算装置,所述功能包括从数据消费者服务器104(例如,通过电子装置108)接收数据挖掘请求,以及使结果返回对应的数据消费者服务器104和/或电子装置108。因此,数据提供商服务器102可包括:至少一个处理器;存储计算机可读指令的至少一个非暂时性计算机可读存储介质(例如,RAM、ROM、闪存驱动器、固态存储器、硬盘驱动器、光学介质等),所述计算机可读指令致使处理器执行本发明主题的功能和过程;以及通信接口,所述通信接口使得数据提供商服务器102能够执行与电子装置108和/或数据消费者服务器104的数据交换。数据提供商服务器102用来执行其功能的计算机可读指令可以是数据库管理系统指令,所述数据库管理系统指令允许数据提供商服务器102访问、检索所请求的信息并且向授权方呈现所请求的信息、访问控制功能等。数据提供商服务器102可包括输入/输出接口(例如,键盘、鼠标、触摸屏、显示器、声音输出装置、麦克风、传感器等),所述输入/输出接口允许管理员或其他授权用户将信息输入到数据提供商102装置并且从数据提供商102装置接收输出。用作数据提供商服务器102的合适计算装置的实例可包括服务器计算机、台式计算机、膝上型计算机、平板电脑、平板手机、智能电话等。
数据提供商服务器102可包括电子装置108和数据消费者服务器104可访问的数据库(例如,数据集合)。数据集合可存储在以上描述的至少一个非暂时性计算机可读存储介质中,或者存储在数据提供商服务器102的处理器可访问的单独的非暂时性计算机可读介质中。在各实施方案中,数据提供商服务器102可与数据集合本身分开(例如,由不同的管理实体进行管理)。在这些情况下,数据提供商服务器102可存储数据集合副本,可从源数据集合以足够的频率更新所述数据副本以便被认为是“当前的”(例如,通过定期安排,通过来自源数据集合的“推送”更新等)。因此,操作数据提供商服务器102的实体或管理员可以被认为是负责接受和进行查询作业的实体,而不管数据的实际所有权。
数据提供商服务器102的管理员或其他成员可评估其数据(例如,大数据),并且决定所述数据的哪些部分在某种程度上可访问。例如,所述确定可关于将要在组织外部、在组织内部的各种商业单元中等可用的数据部分。所述部分的大小和范围可完全事先确定,或者可基于由数据消费者服务器104(例如,通过电子装置108)提供的信息在运行时确定。物理数据的这些逻辑分区在本文中称为数据源。建立数据的受限子集以用于访问有助于数据提供商服务器102的数据访问控制、分段和转换/抽象化。
为了使数据(通过电子装置108)对于用户和数据消费者服务器104是可用的,数据提供商服务器102限定其数据源和访问向量。数据提供商服务器102还可通过web服务API来提供关于所有可用数据源的信息(例如,提供什么数据、哪个“提供商接口”、输入数据的格式和数据类型、数据的近似大小、成本定义等)。通过此API能够进行用户与数据源的交互。在各实施方案中,可将web服务指定为是跨所有提供商标准化的,从而允许容易集成。
通过电子装置108访问的用户接口可实现规定的“提供商接口”,并且根据一个实例,将它们的编译代码连同任何所需参数一起提交给提供商的web服务。在其他实例中,交互式用户接口可在一个实例中使用布尔逻辑来通过用户输入填充数据字段,以使得能够存储、检索和输入作业或请求。数据分析员可通过用户接口监视其作业状态或者通过同一个web服务来检索结果。用户接口可运行其自身客户端以用于与web服务通信,或者使用通过软件即服务(SaaS)配送模型提供的客户端,在所述软件即服务(SaaS)配送模型中通过面向客户端的用户接口来提交并监视作业,其中在幕后处理实际通信。
电子装置108的用户接口可包括一个或多个计算装置,所述一个或多个计算装置使得用户或数据分析员能够通过创建和提交查询作业来访问来自数据消费者服务器104和/或数据提供商服务器102的数据。电子装置108可包括:至少一个处理器;至少一个非暂时性计算机可读存储介质(例如,RAM、ROM、闪存驱动器、固态存储器、硬盘驱动器、光学介质等),所述非暂时性计算机可读存储介质存储致使处理器执行本发明主题的功能和过程的计算机可读指令;以及通信接口,所述通信接口使得电子装置108能够执行与数据提供商服务器102和数据消费者服务器104的数据交换。电子装置108还包括输入/输出接口(例如,键盘、鼠标、触摸屏、显示器、声音输出装置、麦克风、传感器等),所述输入/输出接口允许用户/数据分析员通过电子装置108将信息输入到系统100中并且从系统100接收输出。用作电子装置108的合适计算装置的实例可包括服务器、台式计算机、膝上型计算机、平板电脑、平板手机、智能手机、智能手表或其他可穿戴设备、“瘦”客户端、“胖”客户端等。
为了访问或从数据提供商服务器102获得数据,电子装置108可创建查询作业并且将其(取决于生态系统100的布局,直接地或通过数据消费者服务器104)提交给数据提供商102。
仍参考图1,将理解的是,大数据系统100(生态系统)对数据分析工作负荷实施隐私策略。系统包括图1所示的负责提供大数据平台和数据的数据提供商服务器102。一个或多个数据消费者服务器104开发数据挖掘请求,并将其提交给数据提供商服务器102。由数据消费者服务器104执行的典型大数据分析过程包括数据准备阶段。数据准备阶段的一个目标是为数据挖掘请求准备数据。在此阶段期间,对输入数据进行预处理以便提取元组(例如,其中原始数据是未结构化的),以减少噪声并处理缺失值(数据净化),随后移除不相关或冗余属性(相关性分析),并且最后对数据进行概括或标准化(数据转换)。
根据本说明书的实例,数据准备阶段被扩展成包括转换(匿名化)步骤。在此步骤中,数据消费者服务器104提供针对分析工作负荷定制的匿名化。
为了防止数据外泄和强制执行隐私,数据提供商服务器102可监视数据消费者服务器104是否符合其隐私策略。数据提供商服务器102监视匿名化过程。数据消费者服务器104以特定领域语言(DSL)提供作为单独过程/作业的准备功能或过程。DSL有助于降低隐私合规验证过程的复杂性。当数据消费者服务器104使用DSL来限定数据准备功能时,它还指定提取的事实的模式。换言之,对于每个属性,数据消费者服务器104将指定其语义,诸如城市、姓名、SIN等。模式定义可类似于关系数据库模式,并且被限定用于数据净化阶段的输出。可在没有实际进行作业的情况下通过执行静态分析来针对符合性检查以DSL表达的数据准备作业。在静态分析未检测到外泄的情况下,数据提供商服务器102随后可对实际数据进行DSL转换,以检测其是否致使违反隐私策略。数据提供商服务器102还负责验证模式与强调(underline)数据相符合。下面参照预处理器模块112讨论DSL的关键特性。
为了降低自动私有策略验证过程无法捕获私人信息泄露的风险,数据准备功能可首先在包含所有先前识别的私有信息的数据子集(测试数据集)上运行。在测试数据集上检测到故障的情况下,可拒绝数据挖掘请求或者可部署进一步的错误处理技术。
由于隐私合规的验证可与数据挖掘请求的执行并行完成,并且因为大数据作业通常运行很长时间,所以验证过程未必在整个过程中引入显著延迟。
此外,数据挖掘作业通常需要混合来自不同源的数据。在这种情况下,需要创建若干数据准备作业。数据提供商服务器102可顺序地验证每个数据准备过程。这种策略可使数据集免受链接攻击,即使其增加了复杂性。
数据提供商服务器102的主要部件包括:REST API 110、预处理器模块112、验证器模块114、作业控制器模块116、包括一个或多个数据库120-a、120-b等的大数据平台118、数据上下文策略模块122和数据共享服务模块124。
REST API 110是允许数据消费者服务器104将分析作业与对应的数据准备作业一起提交的“restful”API。数据消费者服务器104可使用REST API 110来跟踪作业进度并且获取数据挖掘请求的结果。在一个实例中,REST API 110是大数据平台118的唯一接入点。
预处理器模块112负责使用以DSL语言程序或其他合适程序定义的转换来将原始数据转换为匿名化数据。可在验证器模块114(以下更详细讨论)使用静态分析验证DSL并且增加转换以包括补充信息之后,调用预处理器模块112。在转换过程期间,预处理器模块112将所产生的数据集(包括补充数据)发送到验证器模块114,并且随后发送到数据挖掘请求。
预处理器模块112是数据解析器和过滤部件。预处理器模块112的输入是非结构化数据流和使用DSL指定的转换。输出是元组流。当一次通过的数据足以实现隐私保护时,那么预处理器模块112可遵循流式传输范例。当使用流式传输时,典型的数据流是读取一个输入记录,对其进行解析,对其进行转换,并且并行地向验证者模块114发送所有中间记录和最终记录。在此过程不足以满足隐私目标的情况下,可能需要第二传递数据。
预处理器模块112满足数据消费者服务器104的数据准备需求的能力取决于DSL的灵活性和表达性。同时,为了使验证器模块114有效地评估给定数据转换的正确性并且限制可能攻击的向量(诸如加密数据或通过网络发送数据),语言应该是简单和受限的。根据本说明书的一个实例,已识别针对DSL语言的以下要求:1)指定转换的每个阶段(诸如数据解析、匿名化等)的开始和结束的能力;2)指定提取的元组的模式以及指定将如何对元组进行匿名化的能力;3)以程序化方式指定验证器模块114所需的附加信息的能力;以及4)包括用于简化匿名化过程的高级抽象化。DSL语言作为用于限定模式的混合声明样式,以及用于指定如何从非结构化数据提取信息和从非结构化数据提取什么信息的程序样式。
验证器模块114执行DSL程序的静态分析,以验证DSL转换产生与数据上下文策略相符的数据集。取决于基础策略,验证器模块114可修改DSL程序来附加额外转换以遵守策略。验证器模块114还负责验证DSL正确地限定从输入数据集提取的事实。验证器模块114以流式传输和成批数据处理样式运行,并且可与数据挖掘请求并行运行。
作业控制器模块116负责协调数据提供商服务器102的不同部件。作业控制器模块116还负责监视作业执行、安排预处理器模块112上的数据处理任务的执行、以及在完成数据准备过程时安排验证任务。作业控制器模块116还将来自预处理器模块112的输出数据馈送到对应的数据挖掘请求。此外,作业控制器模块116负责安排测试数据集上的数据准备处理,以用于验证隐私策略。为了实现这一点,以下更详细地描述的,作业控制器模块116可具有与数据共享服务模块124的套绑集成。
大数据平台118提供对存储数据的访问和对分布式处理的访问。例如,Hadoop生态系统是大数据平台的流行实例。
数据上下文策略模块122是一种服务,所述服务管理关于特定数据类型(例如,SIN、姓名、地址、年龄等)的隐私和访问策略,并且可专用于数据提供商的属性或群组设置。例如,访问策略可能需要数据消费者仅可访问城市和电影。或者,数据挖掘请求应当符合10-匿名。在一个实例中,XCAML 4是用于定义此类数据上下文策略的灵活方法。数据提供商服务器102可被配置来要求使用数据共享设施的附加访问控制策略。许多数据共享策略包含在本说明书的范围内。
数据共享服务模块124负责启用对共享什么数据的细粒度控制。数据共享服务模块124使得分析任务能够在共同位于或靠近数据提供商服务器102的基础设施上进行。数据共享服务模块124还提供用于授权和认证数据消费者服务器104的服务。用于分段数据的精确共享的工具是数据共享服务模块124的一个实例(在于2014年4月7日提交的美国临时申请号61/976,206中公开,所述专利申请通过引用以其整体并入本文)。
数据提供商服务器102自动存储所有提交的DSL转换以用于将来审核。此外,由于DSL转换包含关于数据消费者服务器104所需的提取数据的类型的信息的事实,所以批准的DSL转换可用于构造并改进测试数据集。以下进一步详细讨论构造测试数据集。
为了防止对敏感数据的未授权访问,可部署安全保护来防止第三方代码(诸如数据挖掘作业或数据准备过程)由数据提供商服务器102使用例如网络通信信道来接收。
验证器模块114负责验证DSL和数据集两者与数据提供商服务器102策略的符合性。根据本说明书的一个实例,数据提供商服务器102具有用于解决违反策略的两种方式。第一种方式是在发现第一次违反时取消作业。由于大量数据并且因为并非所有策略都需要取消,所以这种方法可能并非在所有情况下都是实用的。在某些情况下,用于过滤违反策略的数据的替代性方法可能是更实用的。本发明的系统可适应针对一般策略违反的两种方法。
验证器模块114包括一个或多个独立部件,诸如DSL验证器和增强器、模式验证器和匿名化验证器。
DSL验证器和增强器是试图发现不符合数据提供商策略的静态分析器。此外,此部件负责修改转换脚本以便包括用于允许验证隐私策略的其他信息和步骤。
模式验证器验证数据符合每个转换步骤(诸如解析、过滤、泛化)上的模式。模式验证器可以是验证器模块114的一部分或预处理器模块112的一部分(在这种情境下,在数据清理步骤之后立即发生验证)。当模式验证器模块包括在预处理器模块112中时,网络流量减少。这还允许过滤不符合模式的数据字段。由于模式验证器检查实际数据是否符合特定要求的数据类型,所以数据提供商服务器102可以开发用于验证这一点的规则。可使用开源数据库(诸如WorDnet、Freebase等)来开发许多验证规则。由于模式验证器可能需要用于数据与模式之间的验证的大量时间,为了避免延迟,模式验证器可以在预处理器模块112外部运行。
匿名化验证器可以被部署为单独过程或者预处理器模块112的最终步骤的一部分。匿名化验证器执行以下动作:1)确保来自数据准备过程的数据解析步骤(从非结构化数据/半结构化数据提取元组)未修改原始数据。这种测试减轻某种重新映射/编码攻击,其中私人数据可使用非私人数据来编码;2)验证所构造的数据集是否满足数据提供商的隐私策略。这种测试取决于所需的匿名化方法。例如,在k-匿名的情况下,测试验证包含在匿名化数据集中的用于每个人的元组无法与其元组也出现在匿名化数据集中的至少k-1个个体区分开。当数据挖掘请求消耗来自不同数据源的数据时,那么验证器模块114可以基于从不同源提取的信息的构成来验证匿名化。因此,此生态系统可以与其他类似的生态系统联合使用。
用于防止私人信息泄漏的附加任选步骤是评估测试数据集上的数据准备过程。在这种评估期间,验证器模块114可以检查私人信息的任何部分是否出现在构造的元组的元素中。根据一个实例,数据消费者服务器104有义务指定将要提取的所有个人信息。为了验证这一点并且确保转换过程是正确的,系统100可以在作为原始数据集的子集的测试数据集上运行数据准备过程连同验证过程。对于每个测试数据集,存在包括关于个人识别字段和已知属性及其类型的信息的元数据。当验证器模块114具有在预处理之后构造的元数据和数据集时,所述验证器模块114可以更好地验证匿名化以及数据消费者服务器104是否正确地指定可识别信息和模式与数据集之间的相关性。
应当理解,所公开的实例引入灵活性和数据挖掘效率。转换或匿名化步骤可以是分散的,以使得数据消费者(最终用户或分析员)仅需要具有关于期望数据结构的足够信息,并且知道如何对数据集进行匿名化并仍获得有意义的结果。数据生产者验证由数据消费者提出的预处理和匿名化是否符合隐私策略或其他策略。
所公开的技术还可避免在授予对数据消费者的访问之前构造特别的、匿名化的数据集。因为不需要生成存储密集或过期的数据集,所以这可以改善存储利用率,并且可以简化匿名化数据集的维护(诸如与更新数据的同步化以及未使用数据的匿名化数据集的构造)。所公开的技术还可以提供在运行时或按需创建匿名化数据集,并且仅用于数据消费者针对特定分析任务所需的数据。
根据所公开的实例,数据提供商将包括匿名化功能的数据预处理委派给数据消费者。数据提供商的责任是在数据消费者被授权访问数据挖掘请求的结果之前,验证数据被预处理并且充分匿名化。一般来说,因为匿名化在计算上可能是昂贵的,所以在向第三方委派匿名化时,数据提供商更愿意共享数据。例如,构造具有最小抑制信息的k-匿名数据集是一个NP困难问题,然而验证数据是k-匿名是一个琐碎和多项式的问题。
应当理解,k-匿名是可用于根据本说明书中公开的方法和系统的数据匿名化的技术的实例。在不脱离本说明书范围的情况下,相同的方法可以与不同的匿名化技术一起使用。术语“匿名化”的使用通常是指从数据集移除或保护个人可识别信息的过程。
类似地,匿名化是可根据本说明书中公开的方法和系统使用的转换的实例。本说明书不限于数据集的匿名化,并且应当理解,术语“转换”的使用可扩展到数据的任何过滤、变换或其他转化。
图2提供由数据消费者服务器104(例如,通过电子装置108)生成的数据挖掘请求(分析或查询作业400,图2中未示出)的说明性实例。在200处,通过由数据提供商服务器102提供的REST API 110创建查询作业,并将其转发到作业控制器模块116。查询作业400由两部分组成:转换部分401和分析部分402。在204处,作业控制器模块116分析转换部分401,并且随后查询数据上下文策略模块122。在206处,数据上下文策略模块122以上下文策略来响应。在208处,作业控制器模块116随后将转换部分401和上下文策略传递到验证器模块114。验证器模块验证转换部分401符合上下文策略,并且在一个实例中增强转换以便符合上下文策略。随后将增强的转换返回作业控制器模块116,所述作业控制器模块116随后将所述增强的转换转发到预处理器模块112。在214处,预处理器模块112转换数据,并且需要来自数据共享服务模块124的数据流。在216处,将流返回作业控制器模块116,在222处,所述作业控制器模块116通过请求提交分析部分402。数据共享服务模块124开始处理分析部分402,并且在224处将作业跟踪器id返回REST API 110。数据消费者服务器104现在可在226处通过请求来查询分析部分402的进展,并且可在228处通过输出URL恢复状态。最后,当数据共享服务模块完成处理分析作业(402)时,所述数据共享服务模块在232处关闭数据流,并且在234处验证匿名化之后,在240处将结果返回客户端。
图3中示出流程图,所述流程图示出受控数据共享的所公开方法的实例。此方法可通过由例如数据提供商服务器102和/或数据消费者服务器104的处理器执行的应用或软件来执行。所述方法可包含比所示出和/或描述的附加的或更少的过程,并且可以以不同的顺序执行。可由至少一个处理器执行以用于执行所述方法的计算机可读代码可存储在计算机可读存储介质(诸如非暂时性计算机可读介质)中。
参考图3,方法300在305处开始,并且在310处,数据消费者服务器104生成数据挖掘请求。在315处,数据消费者服务器104生成数据转换请求。在320处,数据提供商服务器102通过网络接收请求,并且在325处,验证数据转换请求与数据策略(诸如匿名化策略)一致。如果在330处数据提供商服务器102批准数据转换请求,那么在335处,根据已经针对数据策略验证的经验证的数据转换函数来处理数据挖掘请求。在340处,验证数据挖掘请求的结果(已经根据数据策略转换的来自大数据平台118的数据)并且/或者将其提供给数据消费者服务器104。如果未批准请求或者验证失败,那么在345处,错误处理例程可向数据消费者服务器104提供反馈或其他响应。在350处,所述方法结束。
在步骤340处显示电子装置108的输出,并且可以以表格、文本、图形、条形、图表、地图和其他视觉格式来呈现电子装置108的输出。输出可包括这些视觉元素中的一个或多个,并且可以是交互式的。例如,在电子装置108的触摸屏(或其他显示器)上的与数据集结果相关联的位置处进行触摸(或点击)可以致使执行分类或过滤功能。响应于触摸事件,可动态地更新电子装置108的显示器。在此方面,根据一个实例,在一个位置处进行触摸可以动态地更新连接到与所述触摸(或点击)相关联的元素的所有元素(无论是通过分类、过滤等)。
有经验的读者将理解,本说明书的示例性生态系统100可适于捕获并跟踪由访问系统的用户或数据分析员在电子装置108处进行的用户交互或事件。此类事件可扩展到数据消费并且可包括与每个事件或交互相关的分析数据,诸如访问的内容源、应用的匿名化技术、日期和时间信息、位置信息、内容信息、用户装置标识符等。可以以指定间隔、或者在发生阈值数量的事件时和/或在其他时间定期地捕获并监视与使用会话相关的信息。根据一个实例,与使用会话相关的信息可由数据提供商服务器102存储。
一个或多个计算机的系统可以被配置来借助于在系统上安装软件、固件、硬件或其组合来执行特定操作或动作,所述软件、固件、硬件或其组合在操作中致使系统执行动作。一个或多个计算机程序可被配置来借助于包括指令来执行特定操作或动作,所述指令在由数据处理设备执行时致使设备执行动作。一个大体方面包括一种方法,所述方法包括以下步骤:在包括第一处理器、第一存储器和第一网络接口装置的数据消费者服务器处。所述方法还包括生成数据挖掘请求。所述方法还包括根据数据策略生成与数据挖掘请求相关联的数据转换请求。所述方法还包括:在数据提供商服务器处,通过网络接收数据挖掘请求和数据转换请求;针对数据策略验证数据转换请求;响应于验证来批准数据挖掘请求;以及当批准数据挖掘请求时,在数据消费者服务器处响应于数据挖掘请求而从数据源接收数据,并且根据数据转换请求来转换所接收的数据,所述数据提供商服务器包括第二处理器、第二存储器和第二网络接口装置,所述数据提供商服务器维护数据源并且通过网络连接到数据消费者服务器。此方面的其他实施方案包括将对应的计算机系统、设备和计算机程序记录在一个或多个计算机存储装置上,所述一个或多个计算机存储装置各自被配置来执行所述方法的动作。
实现方式可包括以下特征中的一个或多个。所述方法还包括以下步骤:在包括处理器、存储器、网络接口和显示器的电子装置处,响应于数据挖掘请求来接收数据;响应于数据挖掘请求来基于数据生成结果视图;以及在显示器上提供结果视图。所述方法,其中数据源包括非结构化数据,并且提供数据的步骤还包括以下步骤:预处理数据以便提取元组、对数据进行数据净化以便减少噪声并处理缺失值、从数据移除不相关和冗余的属性、对数据进行标准化、以及根据数据策略来转换数据。所述方法,其中数据策略是匿名化功能,并且转换步骤在运行时处执行。生成数据转换请求可包括使用DSL模式来限定转换函数。验证可包括分析DSL以验证转换产生与数据策略相符的数据集。所描述的技术的实现方式可包括硬件、方法或过程、或者计算机可访问介质上的计算机软件。生成数据挖掘请求可包括:在电子装置上提供用于创建、标记和检索所存储的数据挖掘请求的用户接口;从用户接口接收输入;通过输入填充数据挖掘请求。所存储的数据挖掘请求可以是响应于所存储的数据挖掘请求而与数据分开存储的模板数据挖掘请求。
根据一个实例,所述方法可包括以下步骤:在电子装置的用户接口处接收与事件相关联的数据,并且将与事件相关联的数据存储在由数据提供商服务器维护的分析数据存储装置处。此外,根据另一实例,结果视图可包括一个或多个视觉交互元素,诸如图表、图形和地图。根据此实例,所述方法可包括:接收与视觉交互元素相关联的输入、应用过滤功能和/或分类功能、以及在显示器上动态更新结果视图。
一个大体方面包括存储指令的至少一个非暂时性计算机可读存储介质,所述指令在由至少一个处理器执行时,致使至少一个处理器:通过网络接收数据挖掘请求和数据转换请求;针对数据策略验证数据转换请求;响应于验证,批准数据挖掘请求;以及当批准数据挖掘请求时,响应于数据挖掘请求从数据源提供数据,以用于根据数据转换请求来进行转换。此方面的其他实施方案包括将对应的计算机系统、设备和计算机程序记录在一个或多个计算机存储装置上,所述一个或多个计算机存储装置各自被配置来执行所述方法的动作。
对于本领域技术人员显而易见的是,在不脱离本文的发明概念的情况下,除了已描述的那些之外的更多修改是可能的。因此,除了以所附权利要求的精神之外,本发明主题不受限制。此外,在解释说明书和权利要求书时,所有术语应当以与上下文一致的最广泛的可能方式来解释。具体地,术语“包括”和“包含”应被解释为:是指各元件、各部件或非排他方式的各步骤,指示可能存在或被利用的所标记的元件、部件或步骤,或者与没有标记的其他元件、部件或步骤的组合。在说明书权利要求是指选自由A、B、C……和N组成的组中的某物的至少一个时,文本应当被解释为仅需要来自所述组的一个元素,而不是A加N、或B加N等。
权利要求书(按照条约第19条的修改)
1.一种方法,其包括以下步骤:
在包括第一处理器、第一存储器和第一网络接口装置的数据消费者服务器处,
生成数据挖掘请求;
根据数据策略生成与所述数据挖掘请求相关联的数据转换请求;
在包括第二处理器、第二存储器和第二网络接口装置的数据提供商服务器处,
通过所述网络接收所述数据挖掘请求和所述数据转换请求;
针对所述数据策略验证所述数据转换请求;
响应于所述验证,批准所述数据挖掘请求;以及
当批准所述数据挖掘请求时,在所述数据消费者服务器处:
根据所述数据转换请求转换来自所述数据源的数据;以及
响应于所述数据挖掘请求,使能够访问所述转换的数据。
2.如权利要求1所述的方法,其还包括以下步骤:
在包括处理器、存储器、网络接口和显示器的电子装置处,
响应于所述数据挖掘请求,访问所述转换的数据;
响应于所述数据挖掘请求来基于所述转换的数据生成结果视图;以及
在所述显示器上提供所述结果视图。
3.如权利要求1所述的方法,其中所述数据源包括非结构化数据,并且所述转换数据步骤还包括以下步骤:
预处理所述数据以便提取元组;
对所述数据进行数据净化以便减少噪声并处理缺失值;
从所述数据移除不相关和冗余的属性;
对所述数据进行标准化;以及
根据所述数据策略来转换所述数据。
4.如权利要求3所述的方法,其中所述数据策略是匿名化功能,并且所述转换步骤在运行时处执行。
5.如权利要求1所述的方法,其中所述生成数据转换请求还包括以下步骤:
使用DSL模式限定转换函数;并且
其中所述验证包括以下步骤:
分析所述DSL模式以便验证所述转换产生与所述数据策略相符的数据集。
6.如权利要求1所述的方法,其中生成所述数据挖掘请求包括:
在电子装置上提供用于创建、标记和检索存储的数据挖掘请求的用户接口;
从所述用户接口接收输入;
通过所述输入填充所述数据挖掘请求。
7.如权利要求6所述的方法,其中所述存储的数据挖掘请求是响应于所述存储的数据挖掘请求而与数据分开存储的模板数据挖掘请求。
8.如权利要求6所述的方法,其还包括以下步骤:
在所述电子装置的所述用户接口处接收与事件相关联的数据;
将与事件相关联的所述数据存储在由所述数据提供商服务器维护的分析数据存储装置处。
9.如权利要求2所述的方法,其中所述结果视图包括选自图表、图形和地图的一个或多个视觉交互元素,所述方法还包括以下步骤:
接收与所述视觉交互元素相关联的输入;
应用选自以下各项之一的功能:过滤功能和分类功能;以及
在所述显示器上动态更新所述结果视图。
10.至少一种存储指令的非瞬时性计算机可读存储介质,所述指令在由至少一个处理器执行时致使所述至少一个处理器:
通过网络接收数据挖掘请求和数据转换请求;
针对数据策略验证所述数据转换请求;
响应于所述验证,批准所述数据挖掘请求;以及
当批准所述数据挖掘请求时,响应于所述数据挖掘请求从所述数据源提供数据,以用于根据所述数据转换请求来通过数据消费者服务器进行转换。
11.如权利要求1所述的方法,其中所述数据挖掘请求包括编译代码。
12.如权利要求1所述的方法,其中所述转换基于使用DSL指定用于调整所述数据源的一个或多个数据字段的转换。
13.如权利要求12所述的方法,其中所述转换用于从所述数据源移除个人可识别信息。

Claims (10)

1.一种方法,其包括以下步骤:
在包括第一处理器、第一存储器和第一网络接口装置的数据消费者服务器处,
生成数据挖掘请求;
根据数据策略生成与所述数据挖掘请求相关联的数据转换请求;
在包括第二处理器、第二存储器和第二网络接口装置的、维护数据源并且通过网络连接到所述数据消费者服务器的数据提供商服务器处,
通过所述网络接收所述数据挖掘请求和所述数据转换请求;
针对所述数据策略验证所述数据转换请求;
响应于所述验证,批准所述数据挖掘请求;以及
当批准所述数据挖掘请求时,在所述数据消费者服务器处:
响应于所述数据挖掘请求从所述数据源接收数据;
根据所述数据转换请求来转换所述接收的数据。
2.如权利要求1所述的方法,其还包括以下步骤:
在包括处理器、存储器、网络接口和显示器的电子装置处,
响应于所述数据挖掘请求来接收所述数据;
响应于所述数据挖掘请求来基于所述数据生成结果视图;以及
在所述显示器上提供所述结果视图。
3.如权利要求1所述的方法,其中所述数据源包括非结构化数据,并且所述转换数据步骤还包括以下步骤:
预处理所述数据以便提取元组;
对所述数据进行数据净化以便减少噪声并处理缺失值;
从所述数据移除不相关和冗余的属性;
对所述数据进行标准化;以及
根据所述数据策略来转换所述数据。
4.如权利要求3所述的方法,其中所述数据策略是匿名化功能,并且所述转换步骤在运行时执行。
5.如权利要求1所述的方法,其中所述生成数据转换请求还包括以下步骤:
使用DSL模式限定转换函数;并且
其中所述验证包括以下步骤:
分析所述DSL模式以便验证所述转换产生与所述数据策略相符的数据集。
6.如权利要求1所述的方法,其中生成所述数据挖掘请求包括:
在电子装置上提供用于创建、标记和检索存储的数据挖掘请求的用户接口;
从所述用户接口接收输入;
通过所述输入填充所述数据挖掘请求。
7.如权利要求6所述的方法,其中所述存储的数据挖掘请求是响应于所述存储的数据挖掘请求而与数据分开存储的模板数据挖掘请求。
8.如权利要求6所述的方法,其还包括以下步骤:
在所述电子装置的所述用户接口处接收与事件相关联的数据;
将与事件相关联的所述数据存储在由所述数据提供商服务器维护的分析数据存储装置处。
9.如权利要求2所述的方法,其中所述结果视图包括选自图表、图形和地图的一个或多个视觉交互元素,所述方法还包括以下步骤:
接收与所述视觉交互元素相关联的输入;
应用选自以下各项之一的功能:过滤功能和分类功能;以及
在所述显示器上动态更新所述结果视图。
10.至少一种存储指令的非瞬时性计算机可读存储介质,所述指令在由至少一个处理器执行时致使所述至少一个处理器:
通过网络接收数据挖掘请求和数据转换请求;
针对数据策略验证所述数据转换请求;
响应于所述验证,批准所述数据挖掘请求;以及
当批准所述数据挖掘请求时,响应于所述数据挖掘请求从所述数据源提供数据,以用于根据所述数据转换请求来进行转换。
CN201580061092.7A 2014-11-14 2015-11-13 大数据的受控共享的系统和方法 Active CN107113183B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462080226P 2014-11-14 2014-11-14
US62/080,226 2014-11-14
PCT/CA2015/051182 WO2016074094A1 (en) 2014-11-14 2015-11-13 Systems and methods of controlled sharing of big data

Publications (2)

Publication Number Publication Date
CN107113183A true CN107113183A (zh) 2017-08-29
CN107113183B CN107113183B (zh) 2021-08-10

Family

ID=55953512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580061092.7A Active CN107113183B (zh) 2014-11-14 2015-11-13 大数据的受控共享的系统和方法

Country Status (5)

Country Link
US (1) US20180293283A1 (zh)
EP (1) EP3219051A4 (zh)
CN (1) CN107113183B (zh)
CA (1) CA2931041C (zh)
WO (1) WO2016074094A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011714A (zh) * 2017-11-30 2018-05-08 公安部第三研究所 基于密码学运算实现数据对象主体标识的保护方法及系统
TWI673615B (zh) * 2018-01-24 2019-10-01 中華電信股份有限公司 用於智慧營運中心之資料檢核系統與方法
WO2020248149A1 (en) * 2019-06-12 2020-12-17 Alibaba Group Holding Limited Data sharing and data analytics implementing local differential privacy
CN113268517A (zh) * 2020-02-14 2021-08-17 中电长城网际系统应用有限公司 数据分析方法和装置、电子设备、可读介质
CN113435891A (zh) * 2021-08-25 2021-09-24 环球数科集团有限公司 一种基于区块链的可信数据颗粒化共享系统
CN113906405A (zh) * 2019-06-14 2022-01-07 惠普发展公司,有限责任合伙企业 修改数据项
CN117556289A (zh) * 2024-01-12 2024-02-13 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095262A1 (en) 2014-01-17 2019-03-28 Renée BUNNELL System and methods for determining character strength via application programming interface
CN109388662B (zh) * 2017-08-02 2021-05-25 创新先进技术有限公司 一种基于共享数据的模型训练方法及装置
US11106820B2 (en) 2018-03-19 2021-08-31 International Business Machines Corporation Data anonymization
US11074238B2 (en) * 2018-05-14 2021-07-27 Sap Se Real-time anonymization
CN110366722A (zh) 2018-10-17 2019-10-22 阿里巴巴集团控股有限公司 不利用可信初始化器的秘密共享
US11093642B2 (en) 2019-01-03 2021-08-17 International Business Machines Corporation Push down policy enforcement
US11562134B2 (en) * 2019-04-02 2023-01-24 Genpact Luxembourg S.à r.l. II Method and system for advanced document redaction
CN111031123B (zh) * 2019-12-10 2022-06-03 中盈优创资讯科技有限公司 Spark任务的提交方法、系统、客户端及服务端
CN112214546A (zh) * 2020-09-24 2021-01-12 交控科技股份有限公司 轨道交通数据共享系统、方法、电子设备及存储介质
GB202020155D0 (en) * 2020-12-18 2021-02-03 Palantir Technologies Inc Enforcing data security constraints in a data pipeline

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865573B1 (en) * 2001-07-27 2005-03-08 Oracle International Corporation Data mining application programming interface
CN101282251A (zh) * 2008-05-08 2008-10-08 中国科学院计算技术研究所 一种应用层协议识别特征挖掘方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
CN103092316A (zh) * 2013-01-22 2013-05-08 浪潮电子信息产业股份有限公司 一种基于数据挖掘的服务器功耗管理系统
CN103218288A (zh) * 2011-12-08 2013-07-24 Sap股份公司 信息验证
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN103745383A (zh) * 2013-12-27 2014-04-23 北京集奥聚合科技有限公司 基于运营商数据实现重定向服务的方法和系统
US20140200988A1 (en) * 2013-01-15 2014-07-17 Datorama Technologies, Ltd. System and method for normalizing campaign data gathered from a plurality of advertising platforms

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7904471B2 (en) * 2007-08-09 2011-03-08 International Business Machines Corporation Method, apparatus and computer program product for preserving privacy in data mining
WO2010135316A1 (en) * 2009-05-18 2010-11-25 Telcordia Technologies, Inc. A privacy architecture for distributed data mining based on zero-knowledge collections of databases
US9552334B1 (en) * 2011-05-10 2017-01-24 Myplanit Inc. Geotemporal web and mobile service system and methods
US8928591B2 (en) * 2011-06-30 2015-01-06 Google Inc. Techniques for providing a user interface having bi-directional writing tools
EP2839391A4 (en) * 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US10268775B2 (en) * 2012-09-17 2019-04-23 Nokia Technologies Oy Method and apparatus for accessing and displaying private user information
US9460311B2 (en) * 2013-06-26 2016-10-04 Sap Se Method and system for on-the-fly anonymization on in-memory databases
WO2015002695A1 (en) * 2013-07-05 2015-01-08 Evernote Corporation Selective data transformation and access for secure cloud analytics
US9589043B2 (en) * 2013-08-01 2017-03-07 Actiance, Inc. Unified context-aware content archive system
US10037582B2 (en) * 2013-08-08 2018-07-31 Walmart Apollo, Llc Personal merchandise cataloguing system with item tracking and social network functionality
US20150112700A1 (en) * 2013-10-17 2015-04-23 General Electric Company Systems and methods to provide a kpi dashboard and answer high value questions
GB2524074A (en) * 2014-03-14 2015-09-16 Ibm Processing data sets in a big data repository
US9697469B2 (en) * 2014-08-13 2017-07-04 Andrew McMahon Method and system for generating and aggregating models based on disparate data from insurance, financial services, and public industries

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6865573B1 (en) * 2001-07-27 2005-03-08 Oracle International Corporation Data mining application programming interface
CN101282251A (zh) * 2008-05-08 2008-10-08 中国科学院计算技术研究所 一种应用层协议识别特征挖掘方法
CN102567396A (zh) * 2010-12-30 2012-07-11 中国移动通信集团公司 一种基于云计算的数据挖掘方法、系统及装置
CN103218288A (zh) * 2011-12-08 2013-07-24 Sap股份公司 信息验证
US20140200988A1 (en) * 2013-01-15 2014-07-17 Datorama Technologies, Ltd. System and method for normalizing campaign data gathered from a plurality of advertising platforms
CN103092316A (zh) * 2013-01-22 2013-05-08 浪潮电子信息产业股份有限公司 一种基于数据挖掘的服务器功耗管理系统
CN103605749A (zh) * 2013-11-20 2014-02-26 同济大学 一种基于多参数干扰的隐私保护关联规则数据挖掘方法
CN103745383A (zh) * 2013-12-27 2014-04-23 北京集奥聚合科技有限公司 基于运营商数据实现重定向服务的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MAHTAB ARAFATI,ET AL: "D-Mash: A Framework for Privacy-Preserving Data-as-a-Service Mashups", 《2014 IEEE INTERNATIONAL CONFERENCE ON CLOUD COMPUTING》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108011714A (zh) * 2017-11-30 2018-05-08 公安部第三研究所 基于密码学运算实现数据对象主体标识的保护方法及系统
CN108011714B (zh) * 2017-11-30 2020-10-02 公安部第三研究所 基于密码学运算实现数据对象主体标识的保护方法及系统
TWI673615B (zh) * 2018-01-24 2019-10-01 中華電信股份有限公司 用於智慧營運中心之資料檢核系統與方法
WO2020248149A1 (en) * 2019-06-12 2020-12-17 Alibaba Group Holding Limited Data sharing and data analytics implementing local differential privacy
CN113841148A (zh) * 2019-06-12 2021-12-24 阿里巴巴集团控股有限公司 实现局部差分隐私的数据共享和数据分析
CN113906405A (zh) * 2019-06-14 2022-01-07 惠普发展公司,有限责任合伙企业 修改数据项
CN113268517A (zh) * 2020-02-14 2021-08-17 中电长城网际系统应用有限公司 数据分析方法和装置、电子设备、可读介质
CN113268517B (zh) * 2020-02-14 2024-04-02 中电长城网际系统应用有限公司 数据分析方法和装置、电子设备、可读介质
CN113435891A (zh) * 2021-08-25 2021-09-24 环球数科集团有限公司 一种基于区块链的可信数据颗粒化共享系统
CN117556289A (zh) * 2024-01-12 2024-02-13 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统
CN117556289B (zh) * 2024-01-12 2024-04-16 山东杰出人才发展集团有限公司 一种基于数据挖掘的企业数字化智能运营方法及系统

Also Published As

Publication number Publication date
CN107113183B (zh) 2021-08-10
EP3219051A4 (en) 2018-05-23
US20180293283A1 (en) 2018-10-11
CA2931041A1 (en) 2016-05-19
WO2016074094A1 (en) 2016-05-19
CA2931041C (en) 2017-03-28
EP3219051A1 (en) 2017-09-20

Similar Documents

Publication Publication Date Title
CN107113183A (zh) 大数据的受控共享的系统和方法
US10691505B2 (en) Software bot conflict-resolution service agent
CN114514732B (zh) 用于区块链dag结构的共识协议的方法、计算系统和可读介质
CN107111702B (zh) 协同环境中针对数据丢失防护的访问阻止
AU2014237406B2 (en) Method and apparatus for substitution scheme for anonymizing personally identifiable information
CN104704472B (zh) 防止侧信道攻击的系统、方法和装置
Dupuis et al. An analysis of the use of amazon’s mechanical turk for survey research in the cloud
Abiodun et al. Data provenance for cloud forensic investigations, security, challenges, solutions and future perspectives: A survey
US11563727B2 (en) Multi-factor authentication for non-internet applications
Ikuesan et al. Digital forensic readiness framework based on behavioral-biometrics for user attribution
WO2023005862A1 (zh) 数据治理装置、方法、计算机设备及存储介质
US20210104326A1 (en) Detecting prescription drug abuse using a distributed ledger and machine learning
Sun et al. Defining security requirements with the common criteria: Applications, adoptions, and challenges
Layton et al. Automating open source intelligence: algorithms for OSINT
WO2022061162A1 (en) Data analytics privacy platform with quantified re-identification risk
Vadlamudi et al. Analysis on digital forensics challenges and anti-forensics techniques in cloud computing
Malik et al. Blockchain-based digital chain of custody multimedia evidence preservation framework for internet-of-things
Chenli et al. Provnet: Networked blockchain for decentralized secure provenance
Kamal et al. Forensics chain for evidence preservation system: An evidence preservation forensics framework for internet of things‐based smart city security using blockchain
Patnaik et al. SLR: from saltzer and schroeder to 2021… 47 years of research on the development and validation of security API recommendations
AlShawi Applying data mining techniques to improve information security in the cloud: a single cache system approach
Baror et al. Functional Architectural Design of a Digital Forensic Readiness Cybercrime Language as a Service
Edwards et al. On Exploring the Sub-domain of Artificial Intelligence (AI) Model Forensics
Horan Open-Source Intelligence Investigations: Development and Application of Efficient Tools
US20240073229A1 (en) Real time behavioral alert processing in computing environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20171206

Address after: Ontario

Applicant after: Kenobi bit limited liability company

Address before: Ontario

Applicant before: Marin Lizou

Applicant before: Mark Sten

GR01 Patent grant
GR01 Patent grant