CN115461761A

CN115461761A - 基于判定树的同态加密数据推理

Info

Publication number: CN115461761A
Application number: CN202180030525.8A
Authority: CN
Inventors: K.萨帕特瓦; N.拉塔; K.尚穆加姆; K.南达库马; S.潘坎蒂; R.瓦库林
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-04-30
Filing date: 2021-04-09
Publication date: 2022-12-09
Also published as: JP2023523392A; US11764941B2; US20210344478A1; EP4143748A1; WO2021219342A1

Abstract

一种用于决策树(DT)模型上的同态推理的方法、设备和计算机程序产品。代替对决策树进行基于HE的推理，而是对作为代理的神经网络(NN)执行推理。为此，神经网络被训练来学习DT决策边界，优选地不使用原始DT模型数据训练点。在训练期间，将随机数据集合应用于DT，并且记录期望的输出。该随机数据集合和预期输出然后用于训练神经网络，使得神经网络的输出匹配从将原始数据集应用于DT所预期的输出。优选地，神经网络具有低深度，仅仅几层。使用浅层神经网络上的HE推理完成决策树上的基于HE的推理。后者在计算上是高效的并且在不需要自举的情况下即可进行。

Description

基于判定树的同态加密数据推理

技术领域

本发明涉及使用完全同态加密操作来促进对加密数据的推理。

背景技术

“决策树”是许多应用的常见决策支持模型。决策树(DT)是一种类似流程图的节点结构，其中每个内部节点表示对属性的测试，每个分支表示测试的结果，并且每个叶节点表示类标签(在计算所有属性之后做出的决策)。从根到叶的路径表示分类规则。决策树可以在数据集上训练并且产生相应的回归输出。

存在用于训练这种类型的决策树的许多场景，回归模型所需的数据是敏感，诸如当模型属于某个组织但不能在外部被共享时。例如，信用卡交易信息信用卡公司可以获得，但普通用户不可以。类似地，与患者相关的医疗保健数据医院可获得，但是对于研究人员来说，不可以在上述数据中寻找了解癌症进展的模式。此外，隐私顾虑(诸如新的欧洲数据隐私法规GDPR)可能限制数据的可用性。当竞争对手想要提取他们的数据来构建准确的模型时(例如不同的银行拥有与交易相关的数据并想要构建欺诈检测模型)，也会出现类似的情况。限制数据的可用性可以防止以其他方式有用的模型被使用，或使它们的性能降级。

为了解决这些隐私顾虑，现有技术中已知提供机器学习即服务(MLaaS)解决方案，其中，这种类型的训练模型托管在云服务器上，并且托管云服务器作为服务允许用户在该模型上运行推理查询。该概念有时被称为隐私保护推理，其目标是其为用户提供一种安全的方式来维护模型返回的评分点数据的隐私，同时也使得云提供者能够例如出于专有、监管或其他原因而保护模型的隐私。示例使用情况包括：医院训练模型(例如，预测疾病的可能性)，同时期望提供具有由于数据敏感性的严格隐私约束的评分服务；以及金融信用评分公司训练信用风险模型并提供评分服务，同样由于法律或管理要求而具有严格的隐私约束。为此，这些类型的解决方案实现了称为全同态加密(FHE)的高级加密技术，该技术提供了一种方法来启用对客户端数据进行安全计算，而无需在模型中对其进行解密，同时保持模型本身的保密性。

虽然同态加密提供了显著的优点，但是基于决策树的模型不适于使用FHE技术来有效地处理。出现这个问题(在FHE上下文中)，是因为在模型节点执行的基本运算是两个值的比较，并且这种比较(当使用FHE执行时)是非线性运算(例如，使用sigmoid函数f(x)＝1/(1+e-x))。因此，比较是模糊的，并且进一步因为缩放因子是不均匀的，所以缩放是困难的。照此，在完全同态加密方案中实现这些分支计算是不切实际的，因此在决策树上提供基于FHE的推理仍然是一个挑战。

发明内容

本发明的实施例解决了这个问题。本文的方法不是对DT模型本身进行同态推理，而是用经过特殊训练的低深度神经网络(NN)代替DT模型，然后对神经网络进行同态推理。以此方式，神经网络是DT模型的代表或代理，并且避免了通常由针对DT模型的推理所要求的不可靠的分支计算。

为此，并且根据本发明的实施例，神经网络被训练以学习DT树的决策边界。此操作由DT模型拥有者以明文(明码文本)方式执行，并且优选地在不使用用于DT模型本身的原始数据训练点的情况下完成神经网络训练。在这个训练阶段中，将随机数据集合应用于DT，并且获得它们的预期输出(来自应用树)。随机数据集的分布特性(例如，最小值和最大值、特征均值和方差等)与原始数据集的分布特征相匹配。然后使用该随机数据集和它们的期望输出来训练神经网络，使得神经网络的输出与将原始数据集应用于DT时所期望的输出相匹配。优选地，神经网络具有低深度(例如，小于约三(3)层)并且因此在本文中有时被称为“浅的”。一旦经过训练，代替直接针对DT的推理，推理将针对浅层神经网络执行。换言之，决策树上基于HE的推理是使用浅层神经网络上的HE推理完成的浅层神经网络。后者在计算上是高效的并且在不需要自举即可进行。

前述内容概述了本主题的一些更相关的特征。这些特征应被解释为仅是说明性的。许多其他有益的结果可以通过以不同方式应用所披露的主题或通过修改如将描述的主题来获得。

附图说明

为了更完整地理解本发明及其优点，现在参考结合附图进行的以下描述，其中：

图1描述了可以实现说明性实施例的示例性方面的分布式数据处理环境的示例性框图；

图2是可以实现说明性实施例的示例性方面的数据处理系统的示例性框图；

图3示出了其中可实现所公开的主题的示例性云计算架构；

图4是其中可以实现本公开的技术的代表性机器学习即服务(MLaaS)操作环境；

图5描述了本公开的技术，其中训练低深度神经网络以学习感兴趣的决策树的决策边界，从而使得NN能够用作针对决策树的HE-推理的代理；

图6是描绘根据本公开包括用于相对于决策树进行基于隐私保护HE的推理的系统的高级函数集的框图；以及

图7描绘了本公开的技术如何被扩展以促进针对决策树的集合的隐私保护同态推理。

具体实施方式

现在参考附图并且具体参见图1-2，提供了可以实现本公开的说明性实施例的数据处理环境的示例图。应当理解，图1-2仅仅是示例性的，并不旨在断言或暗示对所公开的主题的各方面或实施例实现的环境的任何限制。在不脱离本发明的范围的情况下，可以对所描绘的环境做出许多修改。

客户端-服务器技术

现在参考附图，图1描绘了其中可以实施说明性实施例的方面的示范性分布式数据处理系统的图形表示。分布式数据处理系统100可以包括可以在其中实现说明性实施例的方面的计算机网络。分布式数据处理系统100包含至少一个网络102，网络102是用于在分布式数据处理系统100内连接在一起的不同设备和计算机之间提供通信链路的介质。网络102可以包括诸如有线、无线通信链路或光纤电缆之类的连接。

在所描绘的示例中，服务器104和服务器106与存储单元108一起连接到网络102。此外，客户端110、112和114也连接到网络102。这些客户端110、112和114可以是例如个人计算机、网络计算机等。在所描绘的示例中，服务器104向客户端110、112和114提供诸如引导文件、操作系统映像和应用之类的数据。在所描绘的示例中，客户端110、112和114是服务器104的客户端。分布式数据处理系统100可以包括附加的服务器、客户端和未示出的其他设备。

在所描绘的示例中，分布式数据处理系统100是具有网络102的互联网，网络102表示使用传输控制协议/互联网协议(TCP/IP)协议组来彼此通信的网络和网关的全球集合。互联网的核心是主节点或主计算机之间的高速数据通信线路的主干，由数千个用于路由数据和消息的商业、政府、教育和其他计算机系统组成。当然，分布式数据处理系统100还可被实现为包括多个不同类型的网络，诸如例如内联网、局域网(LAN)、广域网(WAN)等。如上所述，图1旨在作为示例，而不是作为对公开的主题的不同实施例的架构限制，并且因此，在图1中示出的特定元件不应当被认为是关于其中可以实现本发明的说明性实施例的环境的限制。

现在参考图2，示出了可以实现说明性实施例的各方面的示例性数据处理系统的框图。数据处理系统200是计算机(例如图1中的客户端110)的示例，实施本公开的说明性实施例的处理的计算机可用代码或指令可以位于其中。

现在参考图2，示出了可以实现说明性实施例的数据处理系统的框图。数据处理系统200是计算机(诸如图1中的服务器104或客户端110)的示例，对于说明性实施例，实施过程的计算机可用程序代码或指令可以位于其中。在这个说明性的示例中，数据处理系统200包括通信结构202，其提供处理器单元204、内存206、永久性存储器208、通信单元210、输入/输出(I/O)单元212和显示器214之间的通信。

处理器单元204用于执行可以被加载到存储器206中的软件的指令。处理器单元204可以是一个或多个处理器的集合，或者可以是多处理器核心，这取决于特定的实施方式。进一步，处理器单元204可以使用一个或多个异构处理器系统来实现，在所述异构处理器系统中，主处理器与次级处理器存在于单个芯片上。作为另一说明性实例，处理器单元204可为包含多个相同类型的处理器的对称多处理器(SMP)系统。

存储器206和永久性存储器208是存储设备的示例。存储设备是能够临时地和/或永久地存储信息的任何硬件。在这些示例中，存储器206可以是例如随机存取存储器或任何其他合适的易失性或非易失性存储设备。永久性存储器208可以采取各种形式，这取决于特定的实施方式。例如，永久存储器208可包含一个或多个组件或装置。例如，永久存储器208可以是硬盘驱动器、闪存、可重写光盘、可重写磁带或上述的一些组合。由永久存储器208使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于永久性存储器208。

在这些示例中，通信单元210提供与其他数据处理系统或设备的通信。在这些示例中，通信单元210是网络接口卡。通信单元210可通过使用物理和无线通信链路中的任一者或两者提供通信。

输入/输出单元212允许与可以连接到数据处理系统200的其他设备进行数据的输入和输出。例如，输入/输出单元212可以为通过键盘和鼠标的用户输入提供连接。此外，输入/输出单元212可以将输出发送到打印机。显示器214提供向用户显示信息的机制。

用于操作系统和应用或程序的指令位于永久存储器208上。这些指令可被加载到存储器206中以供处理器单元204执行。处理器单元204可以使用计算机实施的指令来执行不同实施例的过程，这些指令可以位于存储器(例如存储器206)中。这些指令被称为可以由处理器单元204中的处理器读取和执行的程序代码、计算机可用程序代码或计算机可读程序代码。不同实施例中的程序代码可实施在不同的物理或有形计算机可读介质上，诸如存储器206或永久性存储器208。

程序代码216以功能形式位于选择性可移除的计算机可读介质218上，并且可被加载到或转移到数据处理系统200以供处理器单元204执行。在这些示例中，程序代码216和计算机可读介质218形成计算机程序产品220。在一个示例中，计算机可读介质218可以是有形的形式，诸如，插入或放置在驱动器或作为永久性存储器208的一部分的其他设备中的光盘或磁盘，用于转移到存储设备上，诸如，作为永久性存储器208的一部分的硬盘驱动器。在有形的形式中，计算机可读介质218还可以采取永久性存储器的形式，诸如连接到数据处理系统200的硬盘驱动器、拇指驱动器或闪存。计算机可读介质218的有形形式也被称为计算机可记录存储介质。在一些实例中，计算机可记录媒质218可能不是可移除的。

可替代地，程序代码216可以通过到通信单元210的通信链路和/或通过到输入/输出单元212的连接从计算机可读介质218传输到数据处理系统200。在说明性实例中，通信链路和/或连接可以是物理或无线的。计算机可读介质还可采取非有形介质的形式，诸如包含程序代码的通信链路或无线传输。为数据处理系统200示出的不同组件不意味着对可以实现不同实施例的方式提供架构限制。不同的说明性实施例可以在数据处理系统中实现，该数据系统包括除了或代替为数据处理系统200示出的那些组件。图2所示的其它组件可以不同于所示的说明性示例。作为一个示例，数据处理系统200中的存储设备是可以存储数据的任何硬件装置。存储器206、永久性存储器208以及计算机可读介质218是有形形式的存储设备的示例。

在另一示例中，总线系统可用于实现通信结构202，并且可包括一个或多个总线，诸如系统总线或输入/输出总线。当然，可以使用在附接到总线系统的不同组件或设备之间提供数据传送的任何合适类型的架构来实现总线系统。此外，通信单元可包括用于发送和接收数据的一个或多个设备，诸如调制解调器或网络适配器。进一步，存储器可以是例如存储器206或诸如在可能存在于通信结构202中的接口和存储器控制器集线器中发现的高速缓存。

能够以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言一诸如JavaTM、Smalltalk、C++、C#、Objective-C等，还包括常规的过程式程序设计语言。程序代码可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。

本领域普通技术人员将理解，图1-2中的硬件可以取决于实现方式而变化。除了或代替在图1-2中描述的硬件，可以使用其他内部硬件或外围设备，诸如闪存、等效非易失性存储器或光盘驱动器等。此外，说明性实施例的过程可应用于多处理器数据处理系统，而不是前述SMP系统，而不脱离公开的主题的范围。

如将看到的，本文所述的技术可在诸如图1所示的标准客户端-服务器范例内协同操作，其中客户端机器与在一组一个或多个机器上执行的互联网可访问的基于网络的门户通信。终端用户操作能够访问门户并与门户交互的互联网可连接设备(例如，台式计算机、笔记本计算机、启用互联网的移动设备等)。通常，每个客户端或服务器机器是诸如图2所示的包括硬件和软件的数据处理系统，并且这些实体通过诸如互联网、内联网、外联网、专用网络或任何其他通信介质或链路的网络彼此通信。数据处理系统通常包括一个或多个处理器、操作系统、一个或多个应用和一个或多个实用程序。数据处理系统上的应用提供对Web服务的本地支持，包括但不限于对HTTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(W3C)获得；关于HTTP和XML的进一步信息可从互联网工程任务组(IETF)获得。假定熟悉这些标准。

云计算模型

新兴的信息技术(IT)交付模型是云计算，通过该云计算，共享资源、软件和信息通过互联网按需提供给计算机和其他设备。云计算可以显著地降低IT成本和复杂度，同时改进工作负荷优化和服务交付。通过这种方法，应用实例可被托管并且可从通过HTTP上的常规Web浏览器可访问的基于互联网的资源获得。示例应用可以是提供一组公共消息收发功能(诸如电子邮件、日历、联系人管理和即时消息收发)的应用。用户然后将通过互联网直接访问该服务。使用该服务，企业会将其电子邮件、日历和/或协作基础结构置于云中，并且终端用户将使用适当的客户端来访问他或她的电子邮件，或执行日历操作。

云计算资源通常容纳在运行一个或多个网络应用的大型服务器群中，通常使用虚拟化架构，其中，应用在映射到数据中心设施中的物理服务器上的虚拟服务器或所谓的“虚拟机”(VM)内部运行。虚拟机通常在管理程序的顶部运行，管理程序是向虚拟机分配物理资源的控制程序。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与服务的提供商的交互来快速供应和释放。这个云模型可以包括至少五个特征、至少三个服务模型和至少四个部署模型，所有这些都如在日期为2009年10月7日的Peter Mell和Tim Grance的“Draft NIST Working Definitionof Cloud Computing”中更具体地描述和定义的。

具体地，以下是典型的特征：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人工交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉，因为消费者通常不具有对所提供的资源的确切位置的控制或了解，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型通常如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型通常如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构被若干组织共享并支持共享了关注(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业组可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，集中于无状态、低耦合、模块性和语义互操作性。云计算的核心是包括互连节点网络的基础设施。代表性的云计算节点如以上图2所示。具体地，在云计算节点中，存在计算机系统/服务器，其可与许多其他通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括以上系统或设备中的任一个的分布式云计算环境等。计算机系统/服务器可以在由计算机系统执行的诸如程序模块之类的计算机系统可执行指令的一般上下文中描述。一般而言，程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统/服务器可以在分布式云计算环境中实践，其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。

现在参见图3，通过附加的背景，示出了由云计算环境提供的一组功能抽象层。应提前理解，图3中所示的组件、层和功能仅旨在是说明性的，并且本发明的实施例不限于此。

如所描述，提供以下层和对应功能：

硬件和软件层300包括硬件和软件组件。硬件组件的实例包括大型机，在一个示例中为

系统；基于RISC(精简指令集计算机)架构的服务器，在一个示例中为IBM

系统；IBM

系统；IBM

系统；存储装置；网络和网络组件。软件组件的示例包括网络应用服务器软件，在一个示例中为IBM

应用服务器软件；以及数据库软件，在一个示例中为IBM

数据库软件。(IBM，zSeries，pSeries，xSeries，BladeCenter，WebSphere和DB2是在全球许多司法辖区中注册的国际商业机器公司的商标)。

虚拟化层302提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器；虚拟存储；虚拟网络，包括虚拟专用网络；虚拟应用和操作系统；以及虚拟客户端。

在一个示例中，管理层304可以提供以下描述的功能。资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务水平管理提供云计算资源分配和管理，使得满足所需的服务水平。服务水平协议(SLA)规划和履行提供云计算资源的预安排和采购，根据该SLA预期该云计算资源的未来要求。

工作负载层306提供云计算环境可被利用的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航；软件开发和生命周期管理；虚拟教室教育递送；数据分析处理；事务处理；私有云中的企业特定功能；以及根据本公开内容，用于对同态加密的数据308进行隐私保护同态推理的技术。

提前理解的是，虽然本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，所公开的技术的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。这些包括独立计算环境(例如，场所内桌面机器)、基于客户端-服务器的架构等。

因此，代表性云计算环境具有一组高级功能组件，其包括前端身份管理器、业务支持服务(BSS)功能组件、操作支持服务(OSS)功能组件和计算云组件。身份管理器负责与请求客户端交互以提供身份管理，并且该组件可以用一个或多个已知系统来实现，诸如可从纽约Armonk的IBM公司获得的Tivoli联合身份管理器(TFIM)。在适当的情况下，TFIM可以用于向其他云组件提供联合单个登录(F-SSO)。业务支持服务组件提供某些管理功能，例如计费支持。操作支持服务组件被用于提供对其他云组件(诸如虚拟机(VM)实例)的供应和管理。云组件表示主计算资源，所述主计算资源通常是用于执行目标应用的多个虚拟机实例，所述目标应用可用于经由云访问。一个或多个数据库用于存储目录、日志和其他工作数据。所有这些部件(包括前端身份管理器)位于云“内”，但这不是必需的。在替代实施例中，可以在云外部操作身份管理器。服务提供者也可以在云外部操作。

一些云基于非传统IP网络。由此，例如，云可以基于双层基于CLOS的网络，该网络具有使用MAC地址的散列的特殊单层IP路由。本文描述的技术可在这样的非传统云中使用。

概括地，云计算基础设施提供包括经由网络连接的主机(例如，服务器或类似物理机计算设备)和一个或多个管理服务器的虚拟机托管环境。通常，每个物理服务器适于使用诸如VMware ESX/ESXi的虚拟化技术来动态地提供一个或多个虚拟机。多个VM可被放置到单个主机中并共享主机的CPU、存储器和其他资源，从而增加组织的数据中心的利用。除了其他任务之外，管理服务器监视基础结构并根据需要自动操纵VM放置，例如通过在主机之间移动虚拟机。

在非限制性实现方式中，代表性平台技术是但不限于具有VMware vSphere4.1Update1和5.0的IBM System

服务器。

上述商业实现并非旨在被限制，而是仅仅是云计算环境中支持的且与认知服务交互的客户端应用的一个代表性实施例。

同态加密

同态加密(HE)是一种加密形式，它允许对密文执行计算，从而生成加密结果，该加密结果在解密时与对明文执行的操作的结果相匹配。同态加密方案是允许在不对数据进行解密的情况下对数据执行计算的密码系统。同态加密支持为任何所需功能构建程序，这些功能可以在加密输入上运行以产生结果加密。。因为这样的程序永远不需要解密它的输入，所以它可以在不泄露它的输入和内部状态的情况下由不信任方运行。同态加密可以是部分同态的、一些同态的或完全同态的。部分同态加密(PHE)方案关于仅一种类型的操作(例如，加法或乘法)是同态的。一些同态加密器(SWHE)相对于多个操作(例如，加法和乘法)支持同态操作，但不是所有操作。全同态加密FHE支持无限数量的密文同态操作，比PHE和SWHE更强大。用于实现同态加密的工具包是已知的。公知的工具包是HE1ib，其是实现基于随机梯度下降(SGD)的神经网络训练的开源项目。Helib的当前版本支持使用单独位的加密的二进制表示中的任意数的加法和乘法运算。

代表性的HE协议实现可以基于一个或多个加密协议，包括但不限于未填充的RSA、El-Gamal、Benaloh、Paillier等。如将描述的，本公开的技术不需要任何特定的HE实现。

使用同态加密的机器学习即服务

现在参考图4，描述了用于本文中的技术的基本操作环境。如图所示，在典型的ML即服务场景中，经训练的模型400被托管在如上所述的云计算基础设施404中的云服务器402上。经训练的模型400可以被展示为云404上的应用编程接口(API)。在操作中，作为服务，托管云服务器402允许用户在模型400上运行推理查询。通常，用户与客户端机器406相关联，并且客户端和服务器被配置为根据先前描述的客户端-服务器模型来操作。跨客户端-服务器操作环境实施同态加密(HE)协议，使得云在用户(客户端)维持由模型返回的评分数据点的隐私的同时保护模型的隐私。在典型的请求-响应工作流中，客户端406向云服务器402发送加密的查询408(例如，数据点)，云服务器402应用模型，然后返回响应410。该响应包括加密的推理结果。以此方式，可以安全地评估隐私保护推理问题。

虽然上述方法很好地保护了请求用户和托管模型的云提供商的各自隐私利益，但是这种类型的推理对于基于决策树的模型来说计算效率低下。

无自举的对同态加密数据的基于决策树的推理

以上内容作为背景，现在描述本公开的技术。如上所述，当所讨论的模型是决策树(或决策树集合)时，基于HE的推理效率低下。为了解决这种低效率问题，并且代替对DT模型本身执行同态推理，本文的方法用专门训练的神经网络(NN)代替DT模型，并且然后在神经网络上执行同态推理。以此方式，神经网络是DT模型的代表或代理，并且避免了推理DT模型时通常遇到的计算效率低下(即，不可靠的分支计算)。

为此，并且根据本公开内容，神经网络被训练以学习DT树(或每个这样的树是要被建模的树的整体)的决策边界。优选地，由DT模型拥有者以明文(明文)执行此操作，并且在不使用用于DT模型本身的原始数据训练点的情况下完成训练。在这个训练阶段中，将随机数据集合(但具有与原始训练数据(针对树)的分布特性相匹配的分布特性)应用于DT，并且获得它们的预期输出(来自应用树)。然后使用该随机数据集和它们的期望输出来训练神经网络，使得神经网络的输出与将原始数据集应用于DT时预期的输出相匹配。优选地，神经网络具有低深度(例如，小于约三(3)层)，尽管使用特定数量的层不是必需的。具有低深度的神经网络的概念在本文中有时被称为“浅的”。一旦训练了这种类型的神经网络，而不是直接针对DT进行推理，然后对浅层神经网络执行推理。因此，在图4的上下文中，“经训练的模型”400实际上是与决策树(或决策树整体)相对的浅层神经网络。对NN的基于HE的推论在计算上更加高效，并且无需自举即可进行。

图5描绘了本公开的用于构建和训练浅层神经网络的基本技术，该浅层神经网络被用作感兴趣的决策树(或树集合)的代表或代理。如所描绘的，经训练的决策树500表示感兴趣的模型。它是在数据集上训练的，该数据集在本文中有时被称为原始数据集。更正式地，该模型是在数据集D上的经训练的决策树回归模型DT。还示出了输出，该输出是优选地以以下方式学习DT的决策边界的“浅”神经网络502。第一步，计算随机训练数据集D’。随机训练集具有类似于D的域，例如，对于D和D′,最小和最大特征值是相近的。更一般地，决策树500用原始数据集D的相关训练数据统计(借助于预训练)进行注释。训练数据统计可以变化，但是通常包括每个特征的最小值和最大值、均值、方差等。训练数据统计的特定性质和类型可以改变，并且假设数据生成器(如下所述)可用于使用注释的训练数据统计来随机生成数据集D′。第二步，将数据集D′应用于决策树。优选地，在明文空间(即，明文)中执行对D′的这种决策树推理，并且产生相应的回归输出

此后，并且在第三步中，在数据集D′上以

为目标训练浅层神经网络N。在训练之后，然后使用N来执行推理以便回答针对DT上的测试点x的加密推理查询，即如下：Enc(DT)(Enc(x))≈Enc(N)(Enc(x))。然后，将加密的推理结果返回到请求客户端，以完成评估。

因此，根据所描述的技术，训练浅层神经网络(NN)以学习树的决策边界。优选地，该训练由模型所有者以明文方式完成，并且不使用原始训练数据点。以此方式，随后通过对神经网络执行同态推理来近似树的同态评估。这种评估是高效的，因为网络优选地是浅层的(例如，输入层、输出层、和两个(2)隐藏层)，并且其可以在没有自举的情况下完成。以这种方式，该技术避免了如果需要对决策树本身中的非线性比较进行HE推理，则否则将需要进行不可靠的分支计算。作为副产品，并且由于不需要缩放，与推理决策树本身相关的缩放问题也得到了解决。

图6描绘了实现上述功能的代表性计算系统的框图。在典型的实现中，这些组件在云计算基础设施中实现，例如作为在一个或多个处理器上执行的计算机软件(无论是物理的还是虚拟的)。如图所示，系统600包括数据生成器602、非私有决策树评估器604、网络设计器606、网络训练器608、网络加密器610和私有评估器612。这些组件中的一个或多个可以彼此组合，并且上述命名法不旨在受到限制。数据生成器602具有使用来自用于预训练决策树的原始数据集的带注释的训练数据统计随机生成随机数据集D’的主要功能。非私有决策树评估器604计算决策树上(或此类的树集合的每个决策树上)的随机数据集的预测输出。网络设计器606构造决策树的神经网络N(或集体模型中的每个决策树的NN)。网络训练器608使用随机生成的数据集和对应的预测输出^Y(也是决策树)来训练神经网络N(或集体模型中的每个这样的NN)。如上所述，网络训练器608训练浅层神经网络以学习决策树(或决策树集合中的每个决策树)的决策边界。网络加密器610对每个N执行同态加密。在该过程中，网络加密器610使用客户端的公钥对浅层网络加密。最后，私有评估器612在一个或多个用户提供的HE数据点上对网络N执行同态推理，并且将加密结果(加密预测)返回给用户。

不旨在限制，优选地对随机生成的数据清晰地训练浅层神经网络以学习感兴趣的决策树的决策边界。对两个隐藏层N的HE推理是一个代表性但非限制性的实施例，因为这样的推理是使用HE1ib有效地完成的，再一次不需要自举。实验分析表明，在样本回归数据集上，HE推理误差在非专用对应物的2-3％内，并且根据总体中决策树的数目和所使用的NN的复杂性，分摊运行时间在每点50-300毫秒的范围内。

图7描述了决策树集合的基于决策树的模型的代表性实施例。基于决策树集合的回归量具有各种已知类型，包括但不限于自适应提升回归量、随机森林回归量和梯度提升回归量。在该实施例中，存在树集合700，其中每个树具有相关联的浅层神经网络702，如之前所描述的。更正式地，并且给定训练的树集合Edt＝(DT1，DT2，…，DTk)，使用单个树方法来获得树集合(DT1，DT2，…，DTk)的神经网集合Enn＝(N1，N2，…，Nk)的输出，然后提供一个推理作为对单个树推理的聚合，例如，用于梯度提升：Enc(E_dt)(Enc(x))≈Enc(E_nn)(Enc(x))＝∑_{i是[k]的一员}Enc(N_i)(Enc(x))。上面的方程并不是一个通用的解决方案，因为不同的集成方法聚合了不同的特征，例如自适应提升(中值)、随机森林(平均值)等等。

本公开的技术提供显著优点。如已经描述的，本文中的方法提供了一种对预先训练的决策树(具体地，基于集成决策树的回归模型)以高效计算的方式提供隐私保护推理的方式。该方法利用训练一个浅层神经网络的概念，该网络学习树的决策边界，然后通过对神经网络执行同态推理来近似树的同态评估。因为神经网络上的HE推理是有效的，所以这里的方法不需要自举。

尽管上述方法优选地假设完整训练数据的可用性，但这不是必需的，因为该技术也可以在决策模型已经可用而没有完整训练数据或仅有限训练数据可用的使用情况中实现。决策树可以是预先存在且可用的，或者它可从其他来源访问。如上所述，用于训练原始决策树的训练数据可能不可用(全部或部分)。创建用于训练神经网络的数据集的任务应当适应这些不同的场景。绝对随机性是非生产性的和低效率的，因为大多数结果标记可能是负面的(并且因此不是有用的)。为了限制这一点，并且已经描述，用于NN训练的合成数据集应当模拟原始数据分布。通常，分布的一阶近似基于原始数据的均值和方差。如前所述，其他统计(例如，最小、最大)是原始训练数据的另一个最小描述符，以至少在决策树中预期的特征范围内指导合成数据的生成。不限制前述内容的情况下，也可以使用在过程中生成有意义标签的任何其他统计技术。

如所描述的，实现这一方法的计算系统通常在软件中实现，例如作为由一个或多个硬件处理器执行的一组计算机程序指令。系统中的特定工具或组件可以包括任何数量的程序、进程、执行线程等，以及适当的接口和数据库，以支持工具或组件使用或创建的数据。该工具或组件可以使用基于网络的前端、通过命令行等来配置或管理。该工具或组件可以包括一个或多个功能，这些功能以编程方式实现，或通过应用程序编程接口(API)或任何方便的请求-响应协议与其他计算实体或软件系统互操作。

本文中对一个或多个商业产品或服务的任何引用是示例性的，不应被视为限制所公开的技术，其可在具有一般特征的任何系统、设备、器具(或更一般地，机器)上实现和已描述的操作功能。

如上所述，该主题的一个优选实现方式是即服务，但是这也不是限制。基于HE的推论可以完全在现场或在独立操作环境中执行。如先前所指出的，并且没有限制，主题可以在云部署平台系统或设备内或与云部署平台系统或设备相关联地实现，或者使用任何其他类型的部署系统、产品、设备、程序或过程来实现。如已经描述的，模型构建或推理系统功能可以作为独立功能来提供，或者它可以利用来自其他产品和服务的功能。

可以实施该技术的代表性云应用平台包括但不限于任何云支持的应用框架、产品或服务。

概括地，在此的技术可以被实施为管理解决方案、服务、产品、器具、设备、进程、程序、执行线程等。通常，所述技术以软件实施，作为在硬件处理元件中执行的一个或多个计算机程序，结合存储在一个或多个数据源(诸如问题数据库)中的数据。所描述的一些或所有处理步骤可以是自动化的并且与其他系统相关联地自主地操作。自动化可以是完全的或部分的，并且操作(完全或部分)可以是同步的或异步的、基于需求的、或以其他方式的。

上述这些部件通常各自实现为软件，即，实现为在一个或多个硬件处理器中执行的一组计算机程序指令。组件被示出为不同的，但是这不是必需的，因为组件也可以整体或部分地彼此集成。所述组件中的一个或多个可在专用位置中执行或彼此远离地执行。组件中的一个或多个可以具有一起执行以提供功能的子组件。由于此处的功能(或其任何方面)可以在其他或系统中实现，所以不要求生成器服务的特定功能由如上所述的特定组件执行。

工具和响应功能可以与安全分析系统或服务交互或互操作。

如已经描述的，以上所描述的功能可以被实现为独立方法，例如，由一个或多个硬件处理器执行的一个或多个基于软件的功能，或者它可以作为托管服务(包括作为经由SOAP/XML接口的web服务)可用。本文描述的特定硬件和软件实现细节仅用于说明性目的并不旨在限制所描述的主题的范围。

更一般地，所公开主题的上下文中的计算设备均是包括硬件和软件的数据处理系统(诸如图2中所示)，并且这些实体通过诸如互联网、内联网、外联网、专用网络或任何其他通信介质或链路的网络彼此通信。数据处理系统上的应用提供对Web和其他已知服务和协议的本机支持，包括但不限于对HTTP、FTP、SMTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从负责开发和维护这些标准的万维网联盟(W3C)获得；关于HTTP、FTP、SMTP和XML的进一步信息可从互联网工程任务组(IETF)获得。

如所指出的，并且除了基于云的环境之外，本文所描述的技术可以在包括简单n层架构、web门户、联合系统等等的不同服务器侧架构中或者结合不同服务器侧架构来实现。

更一般地，本文描述的主题可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在优选实施例中，敏感数据检测服务(或其任何组件)在软件中实现，该软件包括但不限于固件、常驻软件、微代码等。此外，下载和删除界面和功能可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式，该计算机可用或计算机可读介质提供用于由计算机或任何指令执行系统使用或结合计算机或任何指令执行系统使用的程序代码。为了本描述的目的，计算机可用或计算机可读介质可以是可包含或存储供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何装置。该介质可以是电子、磁性、光学、电磁、红外或半导体系统(或装置或设备)。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前实例包括致密盘-只读存储器(CD-ROM)、致密盘-读/写(CD-R/W)和DVD。计算机可读介质是有形的、非暂时性物质。

计算机程序产品可以是具有用于实现所描述的功能中的一个或多个的程序指令(或程序代码)的产品。那些指令或代码可在通过网络从远程数据处理系统下载之后存储在数据处理系统中的计算机可读存储介质中。或者，这些指令或代码可存储在服务器数据处理系统中的计算机可读存储介质中，且适于经由网络下载到远程数据处理系统以供在远程系统内的计算机可读存储介质中使用。

在代表性实施例中，所述技术在专用计算平台中实现，优选地在由一个或多个处理器执行的软件中实现。软件被维护在与一个或多个处理器相关联的一个或多个数据存储或存储器中，并且软件可以被实现为一个或多个计算机程序。总的来说，该专用硬件和软件包括上述功能。

虽然以上描述了由本发明的某些实施例执行的操作的特定顺序，但应理解，这样的顺序是示例性的，因为替代实施例可以不同顺序执行操作、组合某些操作、重叠某些操作等。说明书中对给定实施例的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不必包括该特定特征、结构或特性。

最后，虽然已经单独地描述了系统的给定组件，但是本领域普通技术人员将理解，一些功能可以在给定指令、程序序列、代码部分等中组合或共享。

进一步，FHE仅是代表性的加密协议，并且不旨在限制。

此外，虽然推理优选地使用HE协议发生，但使用替代神经网络代替实际决策树本身(用于模型评估)的本文中的方法可以与期望被保留的其他多方安全计算技术和测试点、模型或两者的隐私一起使用。

在此的技术提供对另一技术或技术领域(即，基于HE的推荐工具和系统、和结合或暴露此类技术的基于云的系统)的改进，以及对HE系统和方法的计算效率的改进。

决策树正用于的特定使用情况或应用不限制本公开。

Claims

1.一种用于针对基于决策树的模型来保护隐私的同态推理的计算机实现的方法，包括：

训练神经网络模型以学习决策树的一个或多个决策边界，所述神经网络模型具有低深度并且在无需访问用于训练决策树的原始数据集的情况下被训练；以及

代替决策树对低深度神经网络模型执行同态推理。

2.根据权利要求1所述的方法，其中，训练神经网络模型包括：

将随机数据集合应用于所述决策树，所述随机数据集合匹配所述原始数据集的分布特性，并且通过应用所述随机数据集合获得对应的回归输出；以及

使用所述随机数据集合和所述回归输出来训练所述神经网络模型；

其中，在训练之后，来自经训练的神经网络模型的输出与预期通过将所述原始数据集应用于所述决策树中获得的输出基本匹配。

3.根据权利要求2所述的方法，其中，所述分布特性包括训练统计量。

4.根据权利要求3所述的方法，其中，所述训练统计量是以下之一：最小值和最大值、以及特征均值和方差。

5.根据前述权利要求中任一项所述的方法，其中，基于决策树的模型是决策树的集合。

6.根据权利要求5所述的方法，其中，所述集合是以下之一：自适应提升回归量、随机森林回归量和梯度提升回归量。

7.根据前述权利要求中任一项所述的方法，其中，所述同态推理包括：

利用客户端的公钥对所述神经网络模型进行加密；

在云计算环境中托管加密的神经网络模型；

从所述客户端接收加密的推理查询；

将加密的神经网络模型应用于加密的推理查询而不解密查询；以及

向所述客户端返回加密结果。

8.一种设备，包括：

处理器；

计算机存储器，所述计算机存储器保存由所述处理器执行的计算机程序指令，所述计算机程序指令被配置成用于提供针对基于决策树的模型的隐私保护同态推理，所述计算机程序指令被配置成用于：

代替决策树对低深度神经网络模型执行同态推理。

9.根据权利要求8所述的设备，其中，被配置为训练所述神经网络模型的所述计算机程序指令进一步被配置为：

将随机数据集合应用于所述决策树，所述随机数据集合匹配所述原始数据集的分布特性，并且通过应用所述随机数据集合来获得对应的回归输出；以及

10.根据权利要求9所述的设备，其中，所述分布特性包括训练统计量。

11.根据权利要求10所述的设备，其中，所述训练统计量是以下之一：最小特征值和最大特征值，以及特征均值和方差。

12.根据权利要求8至11中任一项所述的设备，其中，基于决策树的模型是决策树的集合。

13.根据权利要求12所述的设备，其中，所述集合是以下之一：自适应提升回归量、随机森林回归量和梯度提升回归量。

14.根据权利要求8至13中任一项所述的设备，其中，所述处理器和所述计算机存储器位于云计算环境中，并且被配置为执行同态推理的所述计算机程序指令进一步被配置为：

利用客户端的公钥对所述神经网络模型进行加密；

从所述客户端接收加密的推理查询；

向所述客户端返回加密结果。

15.一种在数据处理系统中使用的计算机程序产品，所述计算机程序产品用于提供关于基于决策树的模型的隐私保护同态推理，所述计算机程序产品保持计算机程序指令，所述计算机程序指令在由所述数据处理系统执行时被配置为：

代替决策树对低深度神经网络模型执行同态推理。

16.根据权利要求15所述的计算机程序产品，其中，被配置为训练所述神经网络模型的所述计算机程序指令进一步被配置为：

将随机数据集合应用于所述决策树，所述随机数据集合匹配所述原始数据集的分布特性，并且通过应用所述随机数据集合获得相应的回归输出；以及

17.根据权利要求16所述的计算机程序产品，其中，所述分布特性包括训练统计量。

18.根据权利要求17所述的计算机程序产品，其中，所述训练统计量是以下之一：最小特征值和最大特征值、以及特征均值。

19.根据权利要求15至18中任一项所述的计算机程序产品，其中，基于决策树的模型是决策树的集合。

20.根据权利要求19所述的计算机程序产品，其中，所述集合是以下之一：自适应提升回归量、随机森林回归量和梯度提升回归量。

21.根据权利要求15至20中任一项所述的计算机程序产品，其中，所述数据处理系统位于云计算环境中，并且被配置为执行同态推理的所述计算机程序指令进一步被配置为：

利用客户端的公钥对所述神经网络模型进行加密；

从所述客户端接收加密的推理查询；

向所述客户端返回加密结果。

22.一种来自云计算基础设施的机器学习即服务的方法，包括：

提供神经网络，所述神经网络被构建为用于基于决策树的回归模型的代理，所述神经网络已经使用数据集以及通过将所述数据集应用于模型而生成的相应预测输出来训练，所述数据集由与训练数据相关联的一个或多个分布特性来界定；

用客户端的公钥对所述神经网络进行加密；

响应于接收加密的推理查询，并且在不解密所述加密的推密查询的情况下，将所述神经网络应用于所述加密的推理查询，以生成加密的响应；以及

向所述客户端返回所述加密的响应。

23.根据权利要求22所述的方法，其中，所述基于决策树的回归模型是决策树的集合。

24.根据权利要求23所述的方法，其中，所述集合是以下中的一个：自适应提升回归量、随机森林回归量和梯度提升回归量。

25.根据权利要求22所述的方法，其中，所述神经网络是一种浅层神经网络，其具有输入层、输出层并且≤三(3)个隐藏层。