CN102301376A

CN102301376A - 双盲隐私安全分布式数据挖掘协议

Info

Publication number: CN102301376A
Application number: CN2009801552266A
Authority: CN
Inventors: 阿萨夫·埃文海姆
Original assignee: Crossix Solutions Inc
Current assignee: Veeva systems
Priority date: 2008-12-23
Filing date: 2009-12-21
Publication date: 2011-12-28
Anticipated expiration: 2029-12-21
Also published as: CN102301376B; EP2368209A4; EP2368209B1; US20090150362A1; CA2745951C; AU2009332566B2; EP2368209A2; WO2010073214A2; CA2745951A1; WO2010073214A3; US8577933B2; AU2009332566A1

Abstract

本发明公开了一种双盲隐私安全的分布式数据挖掘协议，介于集合器、具有隐私敏感信息的数据用户实体、和具有隐私敏感信息的数据源实体之间。其中所述集合器不具有访问数据用户实体或数据源多个实体的隐私敏感信息的权限。所述集合器制定一项查询后将查询发送至数据用户实体，其中不涉及隐私敏感信息。所述数据用户实体生成满足查询条件的具体实例的列表，并直接地或通过集合器加密并发送列表至多个数据源实体。所述多个数据源实体对照事务数据匹配列表，去识别化匹配的结果，并将它们发送至集合器。所述集合器合并来自多个数据源实体的结果并将合并的结果发送至数据用户实体。在数据用户实体和多个数据源实体具有对集合器不可见和不可使用的隐私敏感信息的情况下，实现了隐私安全的数据挖掘。

Description

双盲隐私安全分布式数据挖掘协议

相关申请的交叉引用：

本申请是2006年8月2日提出的申请号为10/597,631、名称为隐私保护数据挖掘协议的申请的部分继续申请案（“CIP”）。所述专利所公开的内容及其整个文档夹（包括所有引用和参考的现有技术）均可参考纳入到目前申请之中，如同完全在本文中陈述一样。

技术领域

一般地，本发明涉及在分布式数据系统中的数据隐私和数据使用―其通常属于不同的所有者。特别地，本发明涉及在协调数据权限的同时保护了数据的隐私并实现了对隐私敏感数据特征的有用简化。

背景技术

数据库协作、数据权限和数据使用的领域本身就是矛盾的，鉴于隐私保护的法定权利在某些情形下限制了技术功能的使用同时却在另一些情形下许可了这些相同的技术功能。简单地说，例如分类、检索、合并和布尔逻辑运算等函数的使用是数据库操作的精华—除非其中某个数据库字段或几个字段的组合可能导致个人身份识别。

可识别的数据可能并不来自一个字段、也可能并不是那么明确。例如，一份已完成的关于美国人口调查数据的研究表明美国全体居民中的87％可仅基于出生日期、性别和邮政编码被唯一识别。同时也存在能够基于对外公共数据库（例如包括出生日期、性别和邮政编码的选民登记）再识别某些人的问题。总而言之，真正的问题在于记录标准的唯一性而并不必定是特定字段。需要关注的是，数据提供者将他们的信息产品绑定至伪装的身份信息采集中，或相反地集合记录或“裁剪”这些数据以创造更多“相同”记录（例如，仅报告邮政编码的前三位或仅报告出生年份）——因此，在一定概率上，人们不可能知道某人是否存在于最终统计报告的某一类别中或任何关于他的具体细节，即使这份报告中某人的信息被明确标记、定量表述并被直截了当地描绘。

许多领域中的努力关注到这种数据的隐私矛盾性阻止了人们充分利用这些信息——特别是用于那些并不关注任何特定的个人的应用。例如，例如医师诊所、实验室、医院和建康维护组织（HMOs）的医疗保健机构保存了包括针对每一特定病人和每一特定医生的大量医疗记录。美国1996年的健康保险流通与责任法案（HIPAA）和其它类似的法律阻止了HMOs和医疗保健提供者完全透明地分享数据——鉴于个人隐私必须被保护。（可参考附图1和2以获得进一步的细节）然而，在不关注具体个人的情况下，制药公司能在许多技术和商业方面改善它们的运作——如果他们被给予无限制的访问HMO源数据的权利。类似的数据不透明性存在于银行和保险公司之间、销售商和信用卡公司之间、人口统计局和其它的政府机构之间（例如税务机构、公共健康系统，等）。

仅作为示例，HIPAA关于去识别化的相关条款声明：164.514条款其它有关保护的健康信息的使用和披露的要求。

(a)标准：受保护的健康信息的去识别化。无法识别个人身份的健康信息、和没有合理根据相信其中的信息可以被用于识别个人身份的健康信息不属于个人可识别的健康信息。

(b)履行说明：对保护的健康信息去识别化的要求。在下述情况下而且只在下述情况下，一个适用的实体可确定健康信息不属于个人身份可识别的健康信息：

(1)借助通用的统计和科学原则和方法以提出信息非个人可识别的具有适当知识和经验的人：（ⅰ）应用这种原则和方法，确定该信息可单独、或与其它合法获取的信息联合使用的风险非常小，由预期参与者识别出为该信息主题的个人；以及（ⅱ）引证证明这种确定的方法和分析的结果；或

(2)（ⅰ）以下个人身份，或亲属、雇主或个人家庭成员的身份，被移除：（A）姓名；（B）小于洲的所有地理分区，包括街道地址、城市、郡、选区、邮政编码、和它们的全球编码，除可能根据来自人口统计局的目前公开的合法数据的邮政编码的初始三位数：（1）该初始三位数组合出的所有邮政编码形成的地理单元包含超过两万人；以及（2）将包含两万及以下人的所有地理单元的邮政编码的初始三位数变为000。（C）直接涉及个人日期的所有日期要素（除年份外），包括出生日期、入学日期、解除义务日期、死亡日期；以及超过89的所有年龄和表明这种年龄的所有日期要素（包括年份），除这种年龄和要素可被集合至年龄90或更老的单个类别；（D）电话号码；（E）传真号码；（F）电子邮件地址；（G）社保号码；（H）病历档案号；（I）健康计划受益人号码；（J）账号；（K）证书/许可号；（L）车辆识别和序列号，包括车牌号；（M）装置识别和序列号；（N）环球资源定位器网络（URLs）；（O）互联网协议（IP）地址号；（P）生物特征识别，包括指纹和声纹；（Q）全脸摄影图像和任何类似的图像；以及（R）其它任何唯一识别号码、特征、或编码；以及（ⅱ）该隐蔽的实体不需具有该信息可单独、或与其它合法获取的信息联合使用以确定该信息主题的个人的实际知识。

此外，特别地关于医疗保健相关信息系统的非限制性示例——值得注意一些额外的背景因素：

（A）医疗健康上涨的成本——医疗保健费用与利用正以令人担忧的、空前的速度增长。2000年，美国人在医疗保健上花费了1.3万亿美元。超过了在食物、住房、汽车或国防上的花费。根据保险服务中心，截至到2010年，医疗保健支出将翻番至2.6万亿美元——国民生产总值的15.9％。由许多造成成本显着增长的原因。对付这种挑战是一个热点政治、社会和道德问题，获得赞同的是，医疗保健信息可被用来引导至医疗保健资源更加有效力和有效率的使用。

（B）医疗保健中数据的角色——适当的医疗保健数据的分析可用于广泛范围的应用，包括：改进医疗保健提供的效力、安全性和效率的方式的辨别；以理解风险因素和医疗选择的回顾性群体研究；公共健康和流行病研究；对医疗保健过失和公司问题的理解，以及对医疗保健专业人员和用户（医疗保健市场）之间医疗保健创新交流方式效力的理解；许多这种应用有助于更好更多的有效的医疗保健系统。

（C）健康事务数据源——医疗保健就医资料、事务数据和医学数据被多个医疗保健机构创建、储存和传达。医疗保健提供者频繁地初始化大量数据，例如他们的诊断、执行临床试验、执行医疗流程、以及开药治疗。临床信息要素也存在于实验室、药房、HMO 和其它医疗保健支付者，以及例如交流中心和PBM的一些其它服务机构。健康事务数据在美国被例如HIPAA的隐私标准保护。通过对病人身份适当地去识别化，在医疗保健系统的许多领域中。数据用于生成这些数据的机构内的内部应用或外部引用。

（D）集合的去识别化数据，医师级别——在制药行业，数据通常直接用于制药公司的促销。典型地，药房数据集被集合至医师（或开方者）级别并包括共享和卷数据（Total Rx和New Rx或TRx和NRx）。在生成所述资料组时，原始可识别的和完整的数据被去识别化、并被集合，因此，“较低分辨率”的数据可用作输出，换句话说，原始资料组的一部分被遗弃并不再用于分析。

（E）纵向病人级别数据——第二级别的数据现也可用于医药领域。其被频繁地称为匿名（或去识别化）病人级别数据，这些数据集随着时间链接同一人的一些记录，因此提供了对用户和医师更好的理解。这些资料组从不包括可识别的病人信息，一些时候也缺乏医师身份。在生成这些数据集时，原始可识别的和完整的数据被去识别化、并被集合，因此，“较低分辨率”的数据可用作输出，换句话说，原始资料组的一部分被遗弃并不再用于分析。另外，有时某些方法，例如单向散列加密，可用于随时间和跨数据集识别相同的实体。链接或匹配同一人或实体的记录的恒定单向散列的使用可能具有在以下方面的许多缺陷：下游再识别的风险（例如，通往单向散列和一组个人信息的入口可能允许个人加密身份的生成，因而允许再识别），以及显着地降低了匹配和/或链接容量。

（F）直接面向用户，作为趋势的DTC（Direct-to-Customer，直接面向用户）——特别地，制药行业（某些时候或是医疗装置制造商），直接与用户交流以驱动其对多种医疗条件和具体产品的认识。直接面向用户市场自1997年FDA释放其在这种行为上的限制后得到显着的发展。DTC主动行为通过一对一的对话从广告延伸至更加具有目的性的主动行为。一些主动行为特别地针对某特定药物的使用者以鼓励他们正确地、或按照处方地、和用于长期条件地使用产品，鼓励使用者长时间的（持续性）使用该药物。DTC促销行为是本文定义的健康计划的示例。

（G）作为主要健康问题的服从治疗（服从性）——许多医疗保健的利益相关者理解到加强对医生开方的药物治疗的服从性的需求。世界卫生组织公布了名为“服从长期的治疗：行为的证据”（“Adherence to Long-Term Therapies: Evidence for Action”）的研究。作为该研究报告的引言中的一部分，WHO（世界卫生组织）指出——服从治疗是治疗成功的主要决定因素。贫乏的服从性削弱了最佳的临床效果，并因此减少了健康系统的整体效力。“药物不会有用如果你不使用它们”——药物不会有效如果病人并不遵从指示的疗法，在发达国家的患有慢性病的病人中只有50％服从治疗建议。提高服从性是对所有医疗保健的利益相关者有益地、需要更多改进的改进之一。多个精细的健康计划，如本文中定义的，由多位赞助者以提高服从性为目的而发起。

（H）健康计划和采集数据的本质；介入和可能合并的类型——存在着许多不同类型的健康计划，同样的，存在着许多对赞助和给出这些计划感兴趣的不同实体。基于赞助者（政府、HMO、雇主、制药公司等等）目的可不同。健康计划可具有以下目的：提高产品认知、获取新的用户、鼓励病人服从药物治疗规则、扩展全面的诊断市场、提高医疗保健结果，提高生活质量、减少医疗保健系统的全面成本等等。其它非医药制造商赞助的健康计划可包括公共健康努力或疾病/护理管理，以及其它由医疗保健协会、付款人和其它人发起的健康促进计划。

（I）当数据存在隐私问题时，目标用户计划测量的不充足性——测量用户健康计划的效果的挑战愈发显着，尤其是当健康计划赞助者没有他们管理下的目标群体的全部医疗保健信息。通往数据和隐私的入口被限制，赞助组织不得不用非常有限的方法评价他们努力的结果。如在本部分之前所描述的，HIPAA设置了对个人健康信息和现有的去识别化方法的大量限制，可能致使用于测量健康计划效果的信息无用。自然地，由于受限制的测量能力，极少的资源被赞助者用于实施有价值的健康计划，例如服从性计划。

（J）健康计划的“软”测量，行为或自我报告测量——作为以上提及的限制的结果，用于评价健康计划和市场计划、影响用户/病人群体的子集的现有方法包括例如病人调查问卷的自我报告数据，或例如发送至用户的信息的数量的行为测量等等。其它途径包括：（ⅰ）消费者被定期调查的消费者样本（ⅱ）区域的或相反专注的主动行为可以被区域性分析测量（ⅲ）其它的用以推断病人行为的相当复杂和受到限制的方法。

现在，在这些和无数其它（关于非健康系统）例子中，如果数据隐私限制被移除，这可以被理解将发生许多有用的改进——鉴于记录可以根据姓名和/或ID被对准——因此向研究者以充分地更高分辨率呈现真实的描写。然而，如果这种合并被允许，将有无数的机会违背法律和法规侵害个人隐私——导致许多个人停止向他们的HMO和医疗保健提供者、人口统计局提供精确信息，和/或停止使用他们的信用卡等等。因此，此领域长久以来就需要一种协议，该协议允许更高分辨率的查询和隐私敏感数据的操作，同时保护个人隐私。此外，朝着在维护隐私的同时更好的使用数据的方向前进是合理的。

关键定义：

数据源实体——生成、获取或储存（例如在医疗保健行业）包括可识别的个人健康信息的医疗和就医数据的机构。包括医师办公室、医院、实验室和其它医疗保健提供者；药房；和HMOs、MCOs、自我保险雇主、保险公司、PBMs和其它类似实体。还包括就医交流中心和任何其它HIPAA定义的“适用实体”。在概念上，该源实体包括在隐私协议（例如HIPAA商业伙伴协议）下为源实体以卖主运作的其它实体。此外，还有非医疗保健数据源实体——例如信用卡公司、征信所、保险公司、银行、人口调查局、社会服务机构、执法机构、或类似的，所有这些实体分享作为其中包括个人可识别数据的无数数据的采集者和维护者的普通功能。

数据用户实体——愿意获取分析性服务的机构，该服务用于答复市场化、可操作性、质量，（例如）健康结果或关于特定（例如）健康计划、主动行为、子集或全部市场等的其它商业相关问题。数据用户实体对战略和战术上的分析感兴趣以帮助他们优化他们的资源投入以实现他们的目的。其例子可以为政府、研究者、产品和服务（例如）医疗保健公司等。特别地在医疗保健领域，详细的群体信息在公共健康趋势的鉴别、回顾性健康结果、临床研究和发展、医疗过失和其它有价值的医疗保健应用上扮演着卓越的角色。

数据始发实体——生成、获取或储存个人可识别的信息（“始发信息”）的机构，从其中可生成满足查询单个或多个条件的实例的列表。当然，查询涉及数据用户实体愿意答复的问题。数据始发实体可包括医疗保健机构，比如医师办公室、医院、实验室和其它医疗保健提供者、药房、 HMOs、MCOs、自我保险雇主、保险公司、PBMs、就医交流中心和其它这种实体。数据始发实体也可包括在隐私协议下为数据源实体以卖主运作的其它实体。还包括非医疗保健数据始发实体，例如信用卡公司、征信所、MSOs、有线电视公司、保险公司、银行、人口调查局、社会服务机构、执法机构、或类似的，所有这些实体分担作为其中包括个人可识别数据的无数数据的采集者和维护者的普通功能。数据始发实体可以与数据源实体相同（例如，数据用户实体可访问适当始发信息的时候），或这两个实体不同（例如，数据用户实体不能访问适当始发信息的时候）。

非医疗保健数据始发实体的一个例子是有限电视公司具有家庭有线盒频道设定、日常帐单信息和广告清单的详细记录。该有线公司信息揭露了在特定时间特定家庭观看了什么电视节目或其它娱乐内容，并通过这种信息推断出该特定家庭可能被什么广告影响。这种始发信息可用于处理例如但不限于的以下查询，“在数据A和数据B之间有机会观看商业广告X的所有家庭”。这种查询的目的在于将广告曝光量和交易购买信息联系到一起，从而答复数据用户实体（可能是医疗保健公司、消费品公司等）的关于多少观看了特定广告的家庭最终购买了广告的产品或服务的问题。

交叉（Crossix）——包括根据其任何实施例的即时协议—及其衍生用途的表达（参考附图4和5的优选实施例细节）

健康计划——一个计划（用作本发明优选实施例的具体示例），其影响全部潜在群体的子集。

一般说来病人、用户、或医疗保健专业人员愿意选择参与这种计划，如果发起机构不被HIPAA覆盖，发起机构会遵守其已公布的隐私政策。一般说来健康计划获取个人识别信息。健康计划可包括用于示例的服从性计划或可包括鼓励用户拨打免费号码或登陆网站以获得进一步信息的广播广告元素（例如电视商业广告）。在电话中心或网站，一些用户信息被频繁地获取。

在健康计划中被获取的典型的可识别数据—包括以下字段的一些组合或类似于此的字段：名；姓；出生日期或出生年份；邮政编码；详细地址；电话号码；传真号码；电子邮件；处方医生姓名、地址或其它标识符；医疗条件或处方药；性别；社会保险。注意：数据可变性的讨论——个人数据频繁的改变。（参考关于此的讨论，美国专利号6,397,224和SearchSoftware- -America的“Math,Myth & Magic of Name Search & Matching”）这些数据的子集共同地作为具有高可能性的的唯一标识符服务。例如，出生日期和电话号码可共同作为唯一标识符服务。数据源实体信息结构（典型的医疗保健相关标识符）可包括上述全部或部分字段外加唯一成员ID。（注意，参考美国专利号5,544,044；美国专利号5,835,897和美国专利号6,370,511以获得医疗保健数据结构的详细描述）。

本发明的优点、目的和益处

人类工程学方面：本发明的优选实施例允许对“源实体”的原始数据的分析在其原始的和最细节的形式（高分辨率数据）下进行，包括对当前处理的所有隐私敏感数据的完全访问，同时维护现有隐私限制至集合处理器。此外，高分辨率分析可在多个不同“源实体”上执行，每个实体都可维持其隐私限制，但在一定条件下该数据可被集合处理器集合到一起以提供更加全面的分析。

多个不同实施例将在下文中描述，其中大部分涉及具有通往单个或多个数据实体的信息的路径的集合处理器。然而，在下文描述的另一实施例中，其集合处理器并不具有通往单个/多个数据用户实体或单个/多个数据源实体的完全路径——由于单个/多个数据用户实体和单个/多个数据源实体的信息都是隐私敏感的且不能与集合处理器共享。但在后一实施例中，集合处理器具有通往查询的匹配和去识别化的结果的路径，因此集合处理器可分析那些结果并将最终分析结果发送至单个/多个数据用户实体。该后一实施例，可被认为是“双盲”实施例，由于单个/多个实数据用户体（和/或单个/多个数据始发实体）的隐私敏感信息和单个/多个数据源实体的隐私敏感信息对集合处理器都是不可见的，其在单个/多个数据用户实体（和/或单个/多个数据始发实体）的信息是敏感的，甚至不能暴露给集合器的情况下具有优势。

经济方面：本发明的优选实施例允许对当前存在于“源实体”处理器中数据的潜在价值的增加一个数量级上的利用，其间仅增加了“集合”处理器名义上的花费。此外，“集合”处理器上的花费对于为位于“源实体”处理器的隐私敏感数据定义和提供访问路径是非常重要的。

技术方面：本发明的优选实施例主要地由软件包组成，每一软件包参予不同的数据处理机器，软件包与其各自机器或通过网络连接至该机器的机器上的数据库包交互。软件包采用标准数据通信设施（例如，互联网，VPN等）彼此互相连接。因此，从技术的角度来讲，本发明的实施例是准常见软件模型的卷积——可在当今数据复杂环境下直接执行。

发明内容

本发明涉及隐私安全数据挖掘协议，其实施例明显地满足了前述的长期需求。这种协议在社会电脑的交互中特别有用，其允许具有实际存在的需求和经济效益的更高分辨率的查询和隐私敏感数据的处理，但其同时不允许个人隐私被侵害。

涉及隐私保护数据挖掘协议的本发明的实施例，（参考图3）在一个安全的“集合”数据处理器300和至少一个安全的“源实体”数据处理器350之间运行,其中所述“集合”器和“源实体”处理器通过电子数据通信拓扑结构399交互，该协议包括以下步骤：

(A) “集合”处理器一侧：

（ⅰ）从一个用户界面——接受315一个对照多个预定属性的查询并随后形成参数列表，

（ⅱ）通过拓扑——传输320参数列表至每一“源实体”处理器，

（ⅲ）通过拓扑——从每一“源实体”处理器接收325各自的文件；

（ⅳ）集合330多个文件至数据仓库，

（ⅴ）采用参数列表，从数据仓库中提取335查询的有关数据，

（ⅵ）聚集340所提取的数据，以及

（ⅶ）至用户界面——报告345所聚集的提取数据，以及

(B) 每一个至少一个的“源实体”处理器中的一侧：

（ⅰ）累积355数据项，其中一些数据项具有隐私敏感微数据，

（ⅱ）采用多个预定属性组织360数据项，

（ⅲ）通过拓扑——自“集合”处理器接收365参数列表，

（ⅳ）根据参数列表通过“嚼碎”所述数据项以形成370文件，

（ⅴ）过滤375文件中其具体项目少于隐私敏感事务数据中预订项目数的部分，

（ⅶ）通过拓扑——传输380文件至“集合”处理器。

参考附图4,4A（附图4的概念上更加详细的视图），以及附图5，让我们来检查每一子步骤并解释其完成了什么，及其它们是如何共同地根据前述的长期需求实现了改进。

隐私保护数据挖掘协议的实施例在，一个安全的“集合”处理器——其是中心数据处理机器——和至少一个安全的“源实体”数据处理器——其是各自包括具有例如姓名、身份证号码、或其它类似的隐私识别数据的记录的其它的数据处理器，之间运行。在本发明之前，仅存在“源实体”机器采用隐私识别字段为内部用途查询这些记录的实践，例如将个人的多条记录看作一个单独的单元等。然而，这通常在法律上是被禁止的，因为“源实体”共享和/或出售包括隐私敏感字段，或那些关联至其它数据的致使隐私敏感标识符被“猜出”的其它字段。因此，“源实体”数据采集者环绕更大的族变量来压缩他们的数据成为惯例，例如通过年龄组或州籍或性别。但这种实践通过将他们的身份融入至其它人所构成的全体中从而保留了个体隐私，也同时阻止了外部研究者从 “源实体”的数据中获利。

现在，“集合”和“源实体”处理器通过电子数据-通信拓扑——例如互联网，或虚拟回路等类似的交互；这些都消除了集中处理器的需求。相反，处理器可保持为分布式地布置，就像当今世界中的情况。

总结至此，这种协议采用数据通信设备以使一个中心集合处理器与至少一个源实体处理器进行交互。每一源实体处理器具有各自的隐私敏感数据内容以及其它方面的数据内容。

现在，根据这种协议，在“集合”处理器（A）一侧，存在七个子步骤。首先，“（A-ⅰ）自用户界面——接收对照多个预定属性的查询和用其形成参数列表”的子步骤建立集合器作为查询的焦点，其中查询可包括源实体不能透露至“外人”的有问题的隐私-敏感信息。本质上，在本发明的内容中，列表的参数可包括披露身份的细节——其可能甚至无法通过具有名义上的隐私阈值的普通标准，和/或更广的变量——其可能通过正常，严格，或具有绝对隐私阈值的普通标准。

这些披露身份的详情可以是类似姓名、个人身份号码或如果用于披露用户身份将违背隐私保护的简单数据的组合。本发明的方法的进一步应用的重要之处在于，这些披露身份的细节是查询处理中的足够大的列表的一部分，从而查询结果将呈现充分的统计分布以保护该结果的“逆向工程”返回至最初查询列表中的任何个体。例如，本发明的方法能询问Tom、Dick、Harry的状态，和个体的进一步聚集——以及从查询中获得结果——只要这些结果的统计特性并不允许结果细节具有返回至个体的关联。因此，可能存在的是，查询包括10,000个人ID的列表，结果显示出这些个体属于具有60%可能性的群体A、具有25%可能性的群体B、以及具有剩下的15%可能性的群体C-E中的一组。相应地，传输参数列表可包括传输足够大的含有身份披露细节的列表。

简单地说，集合器可接收包括许多身份详情（例如，姓名的列表、或一起能允许身份辨识的几个字段的组合的列表）的查询——人们并不期望在任何隐私保护方式中这种类型的查询得到应答。该子步骤必需将假设关于数据（用户想知道的关系）的模型库转换至根据被集合器和源实体共同接受的共享的可变定义的形式语言查询短语。参数列表可包括将被分析的总体的定义，例如通过地域、年龄或其它属性。本发明的协议最新颖的特征之一在于参数列表甚至可通过姓名或ID或类似的项目将特定的个体包括在内。在群体定义中个体的数量大到足够将关于个体的个人信息的最终结论稀释至群体（姓名的）数据的“大海”中是必要的。根据某些特定实施例，全部或部分参数列表被加密。

接下来，“（A-ⅱ）通过拓扑，传输参数列表至每一“源实体”处理器”的子步骤发送制定的查询——以任何被集合器和每个各自的源实体共同接受的格式。可能发生的是，集合器用短语描述制定的查询至一些源实体比至其它源实体困难——这可能就是最实际的实施例。其后是“（A-ⅲ）通过拓扑，从每一“源实体”处理器接收各自文件”的子步骤，据此集合器从每一源实体接收一些答复（或空值答复）；然而，（如我们将从本发明的协议的源实体一侧理解到的）当问题包括要求根据隐私敏感数据方面的源实体关联数据的参数，答复被压缩至一种无身份识别的表现形式。

例如，在一个不寻常的假设的测试中，查询要求将具有特定建康问题和接受特定治疗的病人按照他们的高级主治医师分类。为了答复该查询，源实体必须比较具有相同病人姓名和IDs 的记录和姓名和ID专业医师记录。然而，答复是比较于多个病人数据的数据族将高级医师归为一类的表格。根据该例的这个表格，一个药物公司用户可以自多个HMO源实体记录中找出该公司的疗法的主要市场对象--高级医师或初级医师，或两者。简单地说，查询测试了关于病人属性的可能的假设——这种查询对制药公司具有有趣的经济暗示。

接下来，“（A-ⅳ）集合多个文件至数据仓库”进一步保护了隐私，通过将单个源实体的响应捆绑至一个大的源实体的去识别化的数据收集，并同时将来自多个分散和不同的数据源的结果传送出去。因此，“(A-ⅴ)采用参数列表，从数据仓库中提取查询的有关数据”的子步骤允许用于获取数据仓库的所有相关数据至单一的临时集合，所述单一的临时集合包括来自一个或多个源实体查询-回答循环的回答和可能来自源实体或其它实体的普通报告中的其它数据。现在，在“(A-ⅵ)聚集所提取的数据”的子步骤中，支持或拒绝查询条件的所有数据的浓缩图片被总结到一起，最后进入“(A-ⅶ)至用户界面——报告所聚集的提取”的子步骤。

此外，（B）在至少一个“源实体”处理器的每一个处理器一侧，最先的两个子步骤要求普通的操作——例如“（B-ⅰ）累积数据项，其中一些数据项具有隐私敏感微数据，(B-ⅱ)采用多个预定属性组织数据项”。其后，子步骤（B-ⅲ）通过拓扑——自“集合”处理器接收参数列表使得源实体开始参与入由用户发起的、正在被集合器管理的“工程”中。

由此处，接下来的“（B-ⅳ）子步骤根据参数列表的数据项通过“嚼碎合并”形成文件，引起每个各自的源实体执行必要的内在数据库查询、以及执行必要的临时数据-内在关系的关联和构造，以获知对通过集合器发送出的起始用户查询的本地答复。如果参数列表包括姓名或ID或其它类似的特定个体，“嚼碎合并”可包含通过“模糊逻辑”的姓名匹配算法或者其它带有源实体数据库姓名的参数列表所定义的群体姓名匹配算法，除前述定义的其它步骤之外。完成之后，“(B-ⅴ) 过滤文件中其具体项目少于隐私敏感事务数据中预订项目数的部分”消除了答复中的可能允许用户通过某些数据属性猜出个人身份的部分——这是因为数据属性属于个体或属于非常小的成员群体。这个步骤是必要的——因为其消除了源实体和集合器之间关系的信任程度。凭着良心，源实体具有保护其数据集合中个体身份的职责。简单地说，本发明的内容中，过滤是实施“源实体”级别上的隐私阈值的同义词。在HIPAA例子中，统计学家制定的标准设定允许的字段和需要的数值级别以界定 “去识别化”的结果。最后，为完成协议，还剩下根据本领域已知的方法实现（B-ⅵ）通过拓扑——传输文件至“集合”处理器的子步骤。

回顾用户、集合器、和源实体之间的关系，可注意到，用户被允许使用短语查询，其可能导致源实体执行要求个人身份的具体数据的数据库功能——但其并不导致身份信息本身在超出源实体权限外被揭露。第二，集合器可收集并汇编来自多个数据集合（源实体）的身份保护报告，并将它们汇编入一份单独的报告，因此潜在地大大增加了从集合器报告提取至用户的结论的统计意义。此外，可能来自单个源实体的全部或者大部分结果的每一揭露的方面都被保护。举例，了解到一个HMO的医师完全不同于其它HMO的医师的看法可能在政治上是非常敏感的——通过采用集合器可将这种特性向用户方隐藏。

根据本发明的第一优选实施例，聚集所提取的信息包括过滤出所提取的信息中其具体项目少于隐私敏感事务数据中预订项目数的部分。根据此实施例的一个首选的变种，所述过滤出来的提取信息的具体项目少于预定数量数据项的部分包括从所述列表、序列号、数据仓库中实例的百分比、平均值外数据实例和标准偏差单元的预定数目的和中挑选出来的特定数目。

根据本发明的第二优选实施例，集合所提取的信息包括过滤出的所提取信息的一部分，从而仅保留了无身份信息的微数据或无身份信息的集合数据。

根据本发明的第三优选实施例，接收查询包括执行对照预定源实体数据总体模型的隐私核查的预处理。

根据本发明的第四优选实施例，“合并”数据项包括加入具有共同或相似微数据细节（举例，具有例如别名、前缀、后缀等的变型的相似的姓名）的数据项。

根据本发明的第五优选实施例，从集合、提取、聚集、累计、组织和合并的子步骤的列表中选出至少一个子步骤包括模糊匹配。

根据本发明的第六优选实施例，（在源实体处理器一侧）过滤出的其具体细节少于微数据特定的数据项的预定数量的部分包括从列表、普通数目、数据仓库中实例的百分比、在加上和/或减去标准偏差单元的预定数目后的平均值或中位数外的数据实例量中选择所述预定的数量。

根据本发明的第七优选实施例，接收查询包括将查询转换至标准查询——其能够产生所聚集的提取信息的联合报告。本文中，优选的是，使用直接将查询的各方面链接到报告的各方面的标示语言——鉴于各个公司将采纳该协议以生成大体上实时的“证明”是可预期的。

本发明的附属实施例涉及（参考图6）可被机器读取的程序存储器装置600，其实质地体现可被机器执行以完成用于隐私保护数据挖掘协议中“集合器”数据处理器功能的方法步骤的程序，这种方法步骤包括：从一个用户界面——接受610对照多个预定属性的查询和使用其构成620参数列表，通过电子数据通信拓扑——传输630参数列表至至少一个“源实体”处理器，通过所述通信拓扑，从每一“源实体”处理器接收640各自的文件，集合650多个文件至数据仓库，采用参数列表，从数据仓库中提取660查询的有关数据，聚集670所提取的数据，以及至用户界面——报告680所聚集的提取的数据。

本发明的其它附属实施例涉及（参考图7）可被机器读取的程序存储器装置700，其实质地体现可被机器执行以完成用于隐私保护数据挖掘协议中安全“源实体”数据处理器功能的方法步骤的程序，这种方法步骤包括：累积710数据项，其中一些数据项具有隐私敏感微数据，采用多个预定属性组织720数据项，通过电子数据通信拓扑——自“集合”处理器接收730参数列表, 根据参数列表的数据项通过“嚼碎合并”形成740文件，过滤出750文件的一部分，该部分具有具有细节少于微数据特有数据项的预定数量的特征，以及通过拓扑——传输760文件至“集合”处理器。

尽管有上述实施例，本发明的通用实施例（参考图8）涉及隐私保护的数据挖掘协议800,大体上如本文之前描述和解释的，其特征在于其首先具有至少一个相互独立的安全的“源实体”数据处理器810并各自根据参数列表通过“嚼碎合并”数据项形成820文件，然后分别过滤出830文件的一部分，该部分具有具体细节少于微数据特有数据项的预定数量的特征；第二，其具有安全的“集合”数据处理器850集合860多个文件至数据仓库。此外，本协议的其它变型实施例是双向的——意味着“源实体”和“集合”处理器之间的基础关系是反转的和/或可逆的！

因此，本发明的隐私保护的数据挖掘协议的基础实施例在安全的“集合”数据处理器和至少一个安全的“源实体”数据处理器之间运行的总结是正确的。“集合”器和“源实体”处理器通过电子数据通讯拓扑交互。该协议包括数据通信协调步骤：至少一个相互独立的安全“源实体”数据处理器分别根据所述参数列表通过“嚼碎合并”数据项形成文件，随后各自过滤文件中具体细节少于微数据特有数据项的预定数量的部分；以及安全的“集合”数据处理器集合多个文件至数据仓库。

本发明协议的实施例可适用于许多具有保持距离型数据权利关系的领域，包括（举例）存在于医疗保健提供商、药房、PBM 或建康维护组织（HMO）和制药公司之间的关系；电子贸易和市场调研之间的关系；人口统计局和其它政府机构之间的关系；审计员和独立采购/服务组织之间的关系；以及其它类似的关系。

本发明隐私保护数据挖掘协议的进一步的实施是值得注意的，这些实施例是能够实现临时数据合并的实施例。简单地说，这些实施例允许数据项与普通实体有关的链接。举例，一个个体曾是第一医疗保健费用保证计划中的正式成员、随后成为第二医疗保健费用保证计划中的成员。如果数据源小心地采用普通加密的“密钥”加密每条记录的身份识别部分，并进一步延伸所述数据处理路径时，将相关记录链接到与普通个体而不会危及该个体的身份识别记录成为可能。当然，应当特别注意实体执行链接时不能获得密钥和解密功能；获知这些方面可能导致违反个人隐私保护。（注意：美国专利号6397224考虑到采用持有第三方密钥以尊重个人隐私的某些方面——虽然这并不利于在多个数据记录之间实现匿名链接）。

现在重新参考附图3和8（以及对它们各自程序存储器装置细节上必要的修改），我们可以理解到其存在着能促进个人识别的加密合/或个人数据的合并的多个地方。通过非限制性地举例，在“集合”处理器一侧，在这些子步骤中可实现加密和/或合并：接收各自的文件，或集合多个文件；或在“源实体”处理器一侧，在这些子步骤中可实现加密和/或合并：组织数据项，形成文件，或滤出文件的一部分。

因此，存在着至少两种不同的情况，自数据源的数据在分析后已集合后返回，以及第二选择：数据在微级别（每一个人的数据）上透露，但用于匹配群体的个人识别信息被一个唯一的加密密钥替代，例如单向散列或高级加密标准（AES）或类似的。这种兼容的对识别微级别数据的加密保留了获知两条记录属于同一身份的能力，但也保留了该个人身份识别的隐私。每一种情况都有可行的选项，各自具有不同的优点或缺点。

根据这种能够实现临时数据合并的实施例的优选变型例，在数据集合器级别上将相关的微观数据链接到同一身份上能力被保留——尽管这些记录来自两个不同的数据源。

大体上，在每一数据源上执行姓名匹配以识别某一身份的所有记录（例如Jane Doe）。在这种识别匹配中，结果可能是同一人的个人身份标识符的几个组合——例如（Jane Doe，（波士顿），建康计划ID 1234）和（Jane Doe，（纽约,N.Y.），建康计划ID 5678）可能会都出现在一个单一的数据源内。由于姓名匹配优选包括“模糊逻辑”，数据源中的软件将找出两者。当数据源透露数据至数据集合器，个人ID 将被加密——但采用与所有数据源中相同的密钥——该密钥优选为不被交叉协议操作者获知，而仅被一个例如托管代理人的可信第三方获知。现在假定第二数据源也具有针对（Jane Doe，（纽约,N.Y.），建康计划ID 5678）的数据。

在数据集合器上，从每一数据源上接收数据，并且需要知道具有Jane Doe的变化的实例与第二数据源的另一个实例是相同。解决这一问题的方法是不仅加密多个单一的ID——因而在由第一数据源所透露的数据中——我们能获得所有两个密钥和医疗保健数据（WXYZ（密钥1），ABCD（密钥2），其它去识别化的医疗保健数据），并从第二数据源获得（WXYZ，其它去识别化的医疗保健数据）。由于我们加密了能够唯一识别个人的几个密钥，我们可将他们的医疗保健记录链接用于更完备的分析。例如，如果某个人在某药房履行了处方，被另一雇主雇用（因此接收了一个新的建康计划ID），但仍使用相同的药房，最终搬迁至另一城市；然后，采用该合并实施例，能够分析出该个人在他的药物治疗履行处方上的服从和坚持（该个人的重要的医疗保健论据）——但该个人的身份不被分析者获知。

因此，对本领域普通人员来说，前述提及的能够实现临时数据合并的实施例及类似的本质上是对微观数据的各种嵌入加密策略和其各自的潜在优势的阐述是显而易见的——全部在本发明隐私保护的数据挖掘协议的内容中。

注意事项

本文在一定程度上详细描述了本发明，但对于通晓本领域的技术人员来说，在不背离本发明精神和范围下可以实施各种修正和改变是很显而易见的，如下文中所要求的。

举例，优选地，要求数据传输（或至少一个文件的传输）的步骤和每个各自相关的要求数据接收（或该至少一个文件的接收）的步骤可包括各自的加密和解密进程——不论如何，在他的具体监管环境中这种安全方面的本性和质量都可以被系统管理者很好地理解。然而，通常优选地是，包括一定程度的数据传输安全措施。（服从于该原则，发生在运行本协议的处理器中的程序应当是安全的——或者是被证明是安全的等等。）

在有关本协议应用的另一实施例中，可以预期到可在迄今为止严格区分的实体之间实现隐私保护的无数的例子，这些实体（“查询关系”）——例如设法理解一个社会问题的通用特性（如记录在无数的私人数据银行中）而不需要个体或群体授权搜索的制药公司和HMO（建康维护组织），市场调研和信用卡公司，政府机构和人口统计局，执法机构。因此，可预期的是，至少两个电子数据提供者中的至少一个从下述列表中选择：数据源实体，数据用户实体，建康计划，药物制造商/经销商，公共建康校准者/监视者；信用卡局，市场调研组织，银行财团，人口统计局，政府机构，或类似的机构。

进一步地，涉及“参数列表”（在本协议中形成并传输的）中至少一个预定的最低数量的群体（被姓名或ID，地址，电话号码，生日，电子邮箱或类似的或上述的组合识别的）的内含物——这些个体可能是人或合法的实体或机动车或电脑或具有序列号的工业产品或法律注册号码或许可号码或类似的实体。重新考虑前述的优选加密的各个方面，无疑地需要强烈建议不管选择的加密的常规级别，包括有“多个个人”的参数列表应当机油更高级别的加密。然而，在每一“查询关系”中，存在着可应用的不同的法律标准——例如，在美国的医疗保健中，临时的双方之间的结果应当是根据HIPAA（1996年的健康保险流通与责任法案）去识别化的没有微观数据特有的内容的数据，或大体上等同于可证明在统计学上难以处理的数据。

因此，在描述本发明时，根据当前被接受的数据处理原理和法律隐私模型来呈现本发明的具体实施例。这些原理和模型服从于量化（可计算的）和质化（人文的）变化。通常，由于基本成分组件的表现的革新，或者由于这些组件之间新的转化的构思，或者由于对这些组件或它们的转换的新的解释，这些变化得以发生。因此，注意到本发明在其实施例中涉及到具体技术的现实化是重要的。相应地，涉及到这些实施例的基于原理或模型的解释，以向本领域的技术人员或技术团队教导这些实施例如何可大体地在实际中实现为目的来呈现。对于这些实施例的改变或等同实施例不会被拒绝，也不会影响它们的实现。

本发明的进一步的实施例参照附图9和10。在该实施例中，集合处理器不具有访问数据用户实体（和/或数据始发实体）或数据源实体的权限。该实施例可被认为是“双盲”的，因为数据用户实体上的隐私敏感信息以及数据源实体上的隐私敏感信息对于集合处理器来说都是不可见的。但是，集合处理器具有通往被匹配的和去识别化的查询结果的路径，因此，集合处理器可以分析这些结果并将最终分析结果发送至单个或多个数据用户实体。与此相反，其它实施例可被认为是“单盲”的，因为数据源实体上的隐私敏感信息对于集合处理器来说是不可见的，但集合处理器具有访问数据用户实体（和/或数据始发实体）上的信息的权限，即使这些信息具有隐私敏感性。

该双盲实施例用于数据用户实体（和/或数据始发实体）上的信息是敏感的，以至于集合器不应当接触这些信息的情形。这种情形的一个典型的示例是：数据用户实体是具有家庭有线盒频道设定、日常帐单信息和广告清单（例如，在哪个时间、那个频道上播出的哪些广告）的详细记录（可能是瞬间的）的有线电视公司。换句话说，有线电视公司的信息揭露了一个特定的家庭在一个特定的时间观看了什么电视节目或其它娱乐内容，通过这些信息可以推断出该特定的家庭被哪些广告影响。有线电视公司的信息是隐私敏感、并不能透露至集合器的，这是因为其包括了姓氏、用户住址、或其它识别标记以及有关该家庭可能并不希望被其它人得知的节目观看习惯的信息。确实，有线电视公司可能也希望将具体家庭的观看习惯保留为隐私，以避免该有线电视公司未能保护其客户隐私的负面名声。

潜在地具有不能被透露至集合器的隐私敏感信息的数据用户实体的其它示例包括信用卡公司、航空公司、汽车出租公司、出版商和在线媒体公司，以及例如药房、医院和管理医疗组织等医疗保健公司。当医疗保健公司作为数据用户实体，对保护其隐私信息甚至不能对集合器公开的需求特别严格，这是因为包括HIPAA在内的各种法律法规要求完全的隐私。

数据用户实体上的信息可能是隐私敏感的其它原因是其可能甚至不是数据用户实体自身的信息。相反，该信息可以是该数据用户实体从第三方处获得，而该第三方要求该信息被保留为隐私。或者，这种“源信息”可以对该数据用户实体完全不可用，相反，其可以由与该数据用户实体并不连接的第三方的数据始发实体提供。后一种情形将在附图11和12中示出，由以下情形为例说明：数据用户实体是希望特定商业问题被答复的制药公司。制药公司没有通往源信息的途径，源信息替代地由第三方提供——例如一个有线电视公司——具有可以产生满足查询条件的具体实例的列表的适当的信息。在这种情形下，数据用户实体未参与程序前端的列表产生过程。然而，数据用户实体当然仍从程序后端的集合器接收分析结果，因而数据用户实体的商业问题得以答复。

同样可以理解的是，上述讨论的情形，其中数据用户实体不具有通往任一或全部源信息的途径，至少一些源信息替代地由第三方提供——“数据始发实体”——具有可以产生满足查询条件的具体实例的列表的适当的信息，也可存在于本文描述的单盲实施例中。也可以这么说，其中独立的数据始发实体（非数据用户实体）供应源信息的情形可存在于源信息可与集合器共享的情况下，也可存在于源信息不可与集合器共享的情况下。

附图说明

为了更好地理解本发明以及了解其如何在实践中被实现，本说明书接合附图通过以非限制性示例的方式描述了包括优选实施例在内的本发明的具体实施例。此外，参阅附图以及接下来的描述，可以更加全面地理解本发明及本发明的优点，其中相同的附图标记识别相同的特征，其中：

附图1和2示出本领域先前方法的流程示意图；

附图3和8示出本协议各个实施例的示意图；

附图4、4A和5示出本协议优选实施例的细节；

附图6和7示出其中分别储存有本协议的部分的程序存储器装置的示意图；

附图9和10是示出了本发明的双盲实施例的流程示意图，其中集合处理器不具有访问数据用户实体或数据源实体的信息的权限——但，集合处理器具有访问被匹配的和去识别化的查询结果的权限；

图11和12是示出了本发明附加的双盲实施例的流程示意图，其中源信息由替代数据用户实体的数据始发实体提供。

具体实施方式

应当注意：仅为了简单起见——以本领域普通技术人员能够领会本协议的特性为目的，详细的范例（非限制性）来自医疗保健工业。做出这个选择的另一个原因是服从HIPAA（1996年的健康保险流通与责任法案）的规定是个难以解决的问题，此问题已被充分记录以供作为衡量本发明的效果的客观的度量标准使用。因此，本示例涉及采用本发明所提出的协议的实施例作为保护参与者隐私的同时分析健康计划的计算机执行方法。（涉及医疗保健信息系统的具体背景信息在背景技术章节的后部分中得以介绍。）

简单地说，此实施例是计算机执行的用于分析健康计划——以辅助计划规划师，例如来自医药制造商或其它建康促进管理者的市场管理者，通过与实验对照组进行比较，来评价一大组被特定建康计划所影响的参与者的集合行为。对特定计划的影响的评价可通过描绘出参与者集合的客观建康事务数据（药物、治疗、诊断、实验等）的资料来完成，并通过与一个合理定义的对照组比较来对该建康计划的各种效果做出结论，其间遵从现有的并处于发展阶段的隐私标准或法律，例如HIPAA。

客观建康事务数据归属于例如医疗服务提供者（医生、医院、实验室等）的医疗保健机构和建康计划（管理医疗计划、HMO，PPO，保险公司、医药福利管理者、自助雇主、州和联邦政府医疗福利计划等）范围内。这些结构被一套隐私标准、规则和例如HIPAA的法规所指导，因此在其包括可识别的个人建康信息的医疗保健信息的使用上存在一些限制。

在使用本协议的一个实施例中：（背景：）制造治疗多发性硬化症的医药产品的制药公司建立了几个建康计划以鼓励该药品的用户持续并正确地服用药品。这种建康计划包括配备了护士的电话中心计划，这些护士能够回答进行中的问题并在如何正确使用药品上培训用户，还包括建康管理工具和可访问最新疾病信息的网站计划。这些医药建康计划被推销至药品的用户，这些用户随后选择加入了该计划成为参与者。每个计划的参与者在其它事物中允许医药制造商在总体上分析他们的数据。该制造商建康计划的一些参与者属于集合建康事务的各种医疗保健机构，建康事务由用户在他们的进行中的医疗保健服务和产品消费中产生。该建康事务数据包括诊断数据、治疗数据、药物数据以及有时是例如是实验数据的临床数据以及其它建康数据。

本协议方法的应用包括必要的、充足的和可选择的操作——根据当前非限制性示例的“现实”；这些操作包括：在电话中心计划和网站计划中提取参与者的列表（姓名、地址和其它适用的可识别信息）；提供对照组的定义。例如，消费了制造商产品、但没有参与电话中心计划或网站计划的所有用户；然后提供需要的分析定义。例如，对该医药产品的持续使用的数学定义，或消费的医疗保健的全部费用，或住院治疗的费用，等。一些分析可能会相当地复杂，采用其它程序和专利方法，例如ETG（e.g.美国专利号5835897和6370511B1）；（可选的）采用任何工业级别加密方法加密该列表；将参与者的列表一起发送至在处理的时候能够解密该列表的查询机器（可选的）以将数据解密至存储建康事务的一个或多个医疗保健机构。医疗保健计划倾向于相互排斥，这意味着如果一个成员属于任一计划，该成员典型地仅属于该计划或在同一相似时间有可能仅从一个建康计划消费相似服务。因此，可以使用这种算法——通过与多个建康计划重复同一程序；然后简单地对所有建康计划的结果进行求和。

对每一建康计划：查询机器允许“模糊匹配”算法以将医药建康计划中的参与者和医疗保健机构的建康事务进行匹配；对所有匹配的用户，查询机器运行分析他们的建康事务数据以确定所要求分析的结论（例如使用医药产品的持续性）。查询机器运行对未匹配但满足对照组定义的所有用户的对照组分析（例如，医药产品的用户）；将结果集合至以下组：仅参与电话中心计划的参与者，仅参与网站计划的参与者，既参与了电话中心计划、又参与了网站计划的参与者，对照组（例如，没有参与电话中心计划或网站计划的医药产品的所有用户）。

对每一组提供以下结果：组的姓名，与医疗保健机构建康事务数据匹配的参与者的百分比，以及所有匹配成员的统计结果（例如平均持续率）；查询机器在保证了用户个人隐私的情况下确定出每一计划中参与者的数量和匹配的参与者的百分比是否超过一个级别（基于统计学的定义）。如果没有，查询机器回应以下：组名“由于隐私保护而未被分析。请尝试定义更大的用户组”；查询机器的每一建康计划的输出被集合起来以提供一份可与医药制造商共享的总输出。

在不揭露可识别身份的个人建康信息的情况下，基于客观建康事务数据，本协议方法提供有价值的建康计划的总体评价。当下使用的大多数方法都是基于价值的“软测量”，例如行为测量（登记的人、互动的数目，等）和/或自我报告数据（参与者填写调查获其它关于他们行为的问卷）。基于建康事务的客观测量可以成为用于测量这种行为的黄金标准。

大多数现行的医疗保健的分析服务都是基于其中病人级别建康事务被去识别化、随后被集合并处理的模型。无疑地通过这个过程，包含有最大量信息的高分辨率的原始数据被减少至更低分辨率的数据以保护隐私和其它可能存在利益关系的内容。许多公司，包括IMS Health、SDI（之前是Verispan，Quintiles和McKesson的合资企业）、Pharmetrics、Dendrite、Wolters Kluwer Health和其它公司都采用这种模型。这种现行的建康分析模型可提供医师级别行为和去识别化的病人级别行为以及两者合适的组合。然而，在这种模型在分析纵向的病人行为和在一些情况下将其匹配至已知的开药者（例如医师）上非常有效时，其无法与仅影响市场的一个子集的用户建康计划建立链接（除非该计划与一个限制的区域有着很好的关联或覆盖了一个已知的医师群）。人们无法查询或分析不再处于较低分辨率数据组中的参量。因此，现行的医疗保健模型不能提供通过参与建康计划的用户的预定义列表来集合一组病人行为的能力。这仅仅是被本协议所解决的现行医疗保健分析模型的诸多限制中的一个示例。

为了本协议的上述应用正确有效，需要访问合并的建康事务数据，该数据：（A）足够大以提供满足地址隐私考虑的足够级别和能够实现统计学分析；和（B）代表尽可能多的共同市场（区域、人口统计资料、人口类型和保险类型）分布的近似值或允许基于先前获知的参数的统计关联。例如，如果数据源，在此为特定的建康计划，包括适当地分布于国家的15M人口，而且除了该特定的建康计划具有喜欢某一特定的医药产品的处方集，在其它每方面都具有代表性，可以基于处方集的国家范围的分析的使用统计分析来“修正”这种偏爱。

回顾了背景章节中的医疗保健相关信息系统的背景因素后，大体上，本协议实施例（Crossix方法）是一种能够基于建康事务数据分析实现一个或多个建康计划的统计测量和多个建康计划合并后的混合效果的方法，同时遵守了数据源实体隐私法规和数据用户实体隐私权。

相比之下，建康分析的“传统”模型的一个示例需要去识别化的病人级别或医师级别数据的集合，而此集合仅实现了中心分析模型（参考附图1和2）。这种被现行医疗保健分析公司（例如IMS Health、Wolters Kluwer Health（之前是NDC建康）以及SDI（之前是Verispan）使用的通常方法基于以下步骤：（A）去识别化和集合——病人数据是去识别化的（一些数据被移除或集合到一起），以及在医师级别上代表性地报告数据。一些情况下，数据组包括纵向去识别化病人级别数据（例如Verispan和Dendrite）（B）从不同的源采集——从多个医疗保健机构采集数据至数据仓库（C）分析——制作出联合数据报告和定制研究论文。

本Crossix“方法”基于一个逆顺序：（A）分析——医疗保健机构（例如建康计划）运行一接收需要的分析、和集合级别以及分析需要的可识别的病人或医师的适当的列表为输入的分析软件。该分析在原始的、几乎完整的数据组上执行；（B）去识别化和集合——一旦姓名匹配、分析完成，数据被集合，且如果需要则执行去识别化；（C）从各种源中采集——组合来自多个机构的分析回应以发送所要求的分析。

现在参见附图9，双盲实施例在图中得以标示，在不具有访问一个或多个数据用户实体910上的任何隐私敏感数据的权限的情况下，集合器900，对于该创新的系统通过用户界面，制定了一个查询。（为了清晰地图解此过程，数据用户实体910显示为一个盒子，而不是将每一数据用户实体显示为独立的盒子——但应当理解可存在一个或多个数据用户实体。）在数据用户实体910是有线电视公司的情况下，一个示例性的查询可以是“在数据A和数据B之间有可能观看商业广告X的家庭”。这种查询的目的是将电视广告收视人数和事务购买信息链接到一起——以了解，例如，多少观看了特定广告的家庭后来购买了该广告的产品或服务。

集合器900发送查询至一个或多个数据用户实体910，数据用户实体910通过使用它们的数据产生满足查询条件的具体实例的列表处理该查询。在示例的情况下，该列表可包含在数据A和数据B之间观看了广告X的具体家庭信息。多个数据用户实体910可加密该列表，并可采用任何合适的加密方法，加密方法包括但不限于适于源实体的对称密钥，公开-隐私加密密钥，应用于支持基于多值匹配的多个识别域的组合和其它类似组合的单向散列密钥，或可选地选择不加密列表。数据用户实体910随后发送它们加密的或未加密的列表直接至一个或多个数据源实体920，用于匹配事务数据，例如购买数据。（为了清晰地图解此过程，数据源实体910显示为一个盒子，而不是将每一数据源实体显示为独立的盒子——但应当理解可存在一个或多个数据源实体。）可选的，数据用户实体910可以通过集合器900发送它们加密的列表，这种情况下集合器900转送该列表至数据源实体920。在该后一种情况中，由于集合器900不具有能解密信息的解密密钥，列表上的信息被保护为机密。

采用类似于在单盲实施例中描述的匹配逻辑完成匹配，而不需要数据源实体920提供通往特定数据用户实体的隐私敏感信息的路径。换句话说，数据源实体可在从多个数据用户实体910接收的加密数据上执行匹配（在附图5示例的数据合并模块使用解密密钥的情况下），或在从数据用户实体910接收的未加密数据上执行匹配（在附图5示例的数据合并模块不需使用解密密钥的情况下）。

匹配后，采用类似于早先在单盲实施例中描述的方法和系统将匹配的个人数据（结果）去识别化，并回送至集合器900。集合器900合并来自数据源实体920的结果至一份合并的最终分析结果，采用类似于早先在单盲实施例中描述的方法和系统，并将该最终分析结果发送至一个或多个数据用户实体910。

附图10示出了另一双盲实施例，其中代替产生查询的集合器900，由数据用户实体910产生查询，并采用其隐私敏感信息制定出满足查询条件的具体实例（例如家庭）的列表。如在附图9实施例中所描述的，数据用户实体910在将其直接送至数据源实体920之前可以多种方式加密列表，或者可不加密地将列表送至多个数据源实体920。可选地，数据用户实体910可通过集合器900发送其加密的列表，这种情况下集合器900将列表转发至数据源实体920。因此，在该实施例中，集合器900并不参与在过程的前端产生列表，但仍能将来自数据源实体920的结果结合至一个合并的最终分析结果并将该结果提供至数据用户实体910。

附图11示出类似于附图9的另一双盲实施例，不同的是一个独立的数据始发实体930提供源信息，因而集合器900将查询发送至数据始发实体930而不是发送至数据用户实体910。数据始发实体930采用其信息生成满足查询条件的具体实例的列表，可选地使用包括本文先前描述的任何合适的加密方法加密列表，并将列表发送至数据源实体920，或者直接或者通过集合器900。（如附图9所示，全部数据始发实体930显示为一个盒子，而不是将每一数据始发实体显示为独立的盒子。）和附图9实施例相一致的本实施例的其它方面包括——例如，在过程的末端，数据用户实体910仍从集合器900接收最终分析结果。

附图12示出类似于附图10的另一双盲实施例，不同的是代替数据用户实体910由一个独立的数据始发实体930提供源信息。数据始发实体930也制定查询，使用其信息以生成满足查询条件的具体实例的列表，可选地加密列表，并将列表发送至数据源实体920，或者直接或者通过集合器900。（如附图10所示，数据始发实体930显示为一个盒子，而不是将每一数据始发实体显示为独立的盒子。）和附图10实施例相一致的本实施例的其它方面包括——例如，在过程的末端，数据用户实体910仍从集合器900接收最终分析结果。

最后的注意事项：首先，应当领会到本发明的实施例作为一个整体涉及所述协议，并单独涉及在“集合”处理器和“源实体”处理器上运行的各自方面；本发明还涉及允许在两方处理器上执行协议描述的步骤的电脑可读软件的具体配置，以及涉及其中具有任何编码的所述软件的存储媒介；其中该存储媒介包括物理媒介——例如磁或光盘，只读内存或类似的，和虚拟媒介——例如可下载执行代码数据传导或类似的。最后，虽然通过包括有实施本发明的优选模型的具体实施例描述了本发明，但本领域技术人员可以领会在落入权利要求书陈述的本发明的精神和范围内可对上述所描述的系统和技术实施多种变形和置换。

Claims

1.一种挖掘隐私敏感数据的方法，其特征在于：包括以下步骤：

a)用至少一个条件制定一项查询，

b)对照所述查询中的至少一个条件比较隐私敏感数据始集，并在所述隐私敏感数据始集中生成满足所述至少一个条件的的具体实例的列表，

c)通过一个电子数据通信拓扑，将所述列表传输至具有隐私敏感事务数据的至少一个数据源实体，

d)由所述至少一个数据源实体，用所述隐私敏感事务数据中相应的项目匹配所述列表上的具体实例，

e)由上述至少一个数据源实体，对匹配的具体实例和所述隐私敏感事务数据中的相应项目去除身份识别，

f)由所述至少一个数据源实体，将包含上述去除身份识别的、匹配的具体实例和所述隐私敏感事务数据中相应的项目的至少一份文件电子地传输至集合器，

g)由所述集合器，将至少一份文件合并至一份响应上述查询的综合结果。

2.根据权利要求1所述的方法，其特征在于：该方法还包括由所述集合器将所述综合结果电子传输至具有所述隐私敏感数据始集的至少一个数据用户实体的步骤。

3.根据权利要求1所述的方法，其特征在于：由所述集合器执行制定所述查询的步骤，以及由具有所述隐私敏感数据始集的至少一个数据用户实体执行生成所述列表的步骤，所述数据用户实体从所述集合器接收所述查询。

4.根据权利要求3的方法，其特征在于：其中由所述至少一个数据用户实体将所述列表直接地传输至所述至少一个数据源实体。

5.根据权利要求3所述的方法，其特征在于：由所述至少一个数据用户实体将所述列表传输至所述集合器，所述集合器将所述列表转送至所述至少一个数据源实体。

6.根据权利要求1所述的方法，其特征在于：由具有所述隐私敏感数据始集的至少一个数据用户实体执行制定所述查询和生成所述列表的步骤。

7.根据权利要求6所述的方法，其特征在于：由所述至少一个数据用户实体将所述列表直接地传输至所述至少一个数据源实体。

8.根据权利要求6所述的方法，其特征在于：由所述至少一个数据用户实体将所述列表传输至所述集合器，所述集合器将所述列表转送至所述至少一个数据源实体。

9.根据权利要求1所述的方法，其特征在于：由所述集合器执行制定所述查询的步骤，由具有所述隐私敏感数据始集的至少一个数据始发实体执行生成上述列表的步骤，所述数据始发实体从所述集合器接收所述查询。

10.根据权利要求9所述的方法，其特征在于：由所述至少一个数据始发实体将所述列表直接地传输至所述至少一个数据源实体。

11.根据权利要求9所述的方法，其特征在于：由所述至少一个数据始发实体将所述列表传输至所述集合器，以及所述集合器将所述列表转送至所述至少一个数据源实体。

12.根据权利要求1所述的方法，其特征在于：由具有所述隐私敏感数据始集的至少一个数据始发实体执行制定所述查询和生成所述列表的步骤。

13.根据权利要求12所述的方法，其特征在于：由所述至少一个数据始发实体将所述列表直接地传输至所述至少一个数据源实体。

14.根据权利要求12所述的方法，其特征在于：由所述至少一个数据始发实体将所述列表传输至所述集合器，所述集合器将所述列表转送至所述至少一个数据源实体。

15.根据权利要求1所述的方法，其特征在于：所述列表在被发送至所述至少一个数据源实体之前被加密。

16.根据权利要求1所述的方法，其特征在于：所述列表包括足够大数量的披露身份的细节。

17.根据权利要求1所述的方法，其特征在于：其中合并至少一份文件的步骤包括过滤至少一份其具体项目少于隐私敏感事务数据中预订项目数的文件部分。

18.根据权利要求1所述的方法，其特征在于：其中制定一项查询的步骤a包括执行对照预定的源实体数据全体模型的隐私核查预处理。

19.根据权利要求1所述的方法，其特征在于：其中所述比较、生成、匹配、去除识别和合并的步骤b、d、e和g中的至少一个步骤包含模糊匹配。

20.根据权利要求1所述的方法，其特征在于：其中制定一项查询的步骤a包括将该查询转换至一项标准化查询，以能产生响应该查询的综合结果的一份联合报告。