CN109299131A - 一种支持可信计算的spark查询方法及系统 - Google Patents

一种支持可信计算的spark查询方法及系统 Download PDF

Info

Publication number
CN109299131A
CN109299131A CN201811352881.8A CN201811352881A CN109299131A CN 109299131 A CN109299131 A CN 109299131A CN 201811352881 A CN201811352881 A CN 201811352881A CN 109299131 A CN109299131 A CN 109299131A
Authority
CN
China
Prior art keywords
spark
operator
logic
plan
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811352881.8A
Other languages
English (en)
Other versions
CN109299131B (zh
Inventor
冯智
张宇
段然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811352881.8A priority Critical patent/CN109299131B/zh
Publication of CN109299131A publication Critical patent/CN109299131A/zh
Priority to US16/600,717 priority patent/US11120018B2/en
Priority to EP19203004.7A priority patent/EP3654201A1/en
Application granted granted Critical
Publication of CN109299131B publication Critical patent/CN109299131B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/121Restricting unauthorised execution of programs
    • G06F21/123Restricting unauthorised execution of programs by using dedicated hardware, e.g. dongles, smart cards, cryptographic processors, global positioning systems [GPS] devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/53Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by executing in a restricted environment, e.g. sandbox or secure virtual machine
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/71Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information
    • G06F21/76Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer to assure secure computing or processing of information in application-specific integrated circuits [ASIC] or field-programmable devices, e.g. field-programmable gate arrays [FPGA] or programmable logic devices [PLD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Fuzzy Systems (AREA)
  • Computing Systems (AREA)
  • Technology Law (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Remote Sensing (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种支持可信计算的spark查询方法及系统,所述方法包括接收用户输入的SQL查询语句;对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;将所述物理计划中的算子采用SGX API重新实现,生成执行代码;调用enc lave可信环境实现对所述算子的可信计算,执行所述执行代码。通过本发明,在通过spark架构并行处理查询请求的同时,保证了计算过程中数据的安全。并且,spark接口为用户提供了易用性更高的服务,对用户友好。

Description

一种支持可信计算的spark查询方法及系统
【技术领域】
本发明涉及计算机应用技术,特别涉及一种支持可信计算的spark查询方法及系统。
【背景技术】
近年来,随着互联网、物联网、智能终端设备的普及与应用,数据产生的速度越来越快,体量也越来越大,为了提供TB级别大数据的查询,主要采用spark架构来大规模并行处理数据。其中,Spark是加州大学伯克利分校的AMP实验室所开源的类Hadoop MapReduce的通用并行框架。
但是,现有技术中,spark查询中底层的算子安全性是没有任何保证的,运行过程中dump内存(获取内存镜像)即可拿到计算中的数据,无法保证计算的安全性。
【发明内容】
本申请的多个方面提供了基于可信计算的spark查询方法、系统、设备及存储介质,能够实现spark查询中计算的安全性。
本发明的一方面,提供一种基于可信计算的spark查询方法,包括:
接收用户输入的SQL查询语句;对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;将所述物理计划中的算子采用SGX API重新实现,生成执行代码;调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述接收用户输入的SQL查询语句包括:
spark调度服务器接收用户通过spark客户端输入的以SQL描述的查询语句。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成包括:
由SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划;
由Catalyst分析器结合数据字典(catalog)进行绑定,生成解析的逻辑计划;
由Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
使用Spark Planner将优化的逻辑计划转换成物理计划。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,将所述物理计划中的算子采用SGX API重新实现包括:
定位并提取所述物理计划中算子;
将所提取的算子采用SGX API进行重新实现,生成执行代码;
对所述执行代码对应的数据文件进行切分并打包。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述执行代码对应的数据文件进行切分并打包包括:
根据enclave可信环境中内存配置的堆的大小设定切分的数据块大小,打包为protobuf格式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码包括:
向spark节点服务器发送所述执行代码,以便所述spark节点服务器执行所述执行代码;
调用enclave可信环境进行SGX远程认证;
调用enclave可信环境计算所述重新实现的算子,根据计算结果执行spark操作。
本发明的另一方面,提供一种基于可信计算的spark查询系统,包括:
接收模块,用于接收用户输入的SQL查询语句;Spark转换模块,用于对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;SGX转换模块,用于将所述物理计划中的算子采用SGX API重新实现,生成执行代码;可信计算调用模块,用于调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述接收模块具体用于:
接收用户通过spark客户端输入的以SQL描述的查询语句。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述Spark转换模块具体用于:
调用SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划;
调用Catalyst分析器结合数据字典(catalog)进行绑定,生成解析的逻辑计划;
调用Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
调用Spark Planner将优化的逻辑计划转换成物理计划。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述SGX转换模块具体用于:
定位并提取所述物理计划中算子;
将所提取的算子采用SGX API进行重新实现,生成执行代码;
对所述执行代码对应的数据文件进行切分并打包。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,对所述执行代码对应的数据文件进行切分并打包包括:
根据enclave可信环境中内存配置的堆的大小设定切分的数据块大小,打包为protobuf格式。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述可信计算调用模块具体用于:
向spark节点服务器发送所述执行代码,以便所述spark节点服务器执行所述执行代码;
调用enclave可信环境进行SGX远程认证;
调用enclave可信环境计算所述重新实现的算子,根据计算结果执行spark操作。
本发明的另一方面,提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
本发明的另一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,能够实现spark查询中计算的安全性。
【附图说明】
图1为本发明一些实施例所述基于可信计算的spark查询方法的流程图;
图2为本发明一些实施例所述基于可信计算的spark查询系统的结构图;
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。
【具体实施方式】
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本申请保护的范围。
图1为本发明基于可信计算的spark查询方法的流程图,如图1所示,包括以下步骤:
步骤S11、接收用户输入的SQL查询语句;
步骤S12、对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;
步骤S13、将所述物理计划中的算子采用SGX API重新实现,生成执行代码;
步骤S14、调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
所述方法由spark调度服务器或某一节点服务器执行。所述spark调度服务器用于运行spark master进程,即spark主进程,接收客户端的查询请求,并控制节点服务器进行查询计算操作。其中,Spark是加州大学伯克利分校的AMP实验室所开源的类HadoopMapReduce的通用并行框架。
在步骤S11的一种优选实现方式中,
优选地,所述客户端可以向spark集群中的某一个节点服务器或spark调度服务器发送查询请求。所述查询请求为用户通过所述客户端输入的以SQL(Structured QueryLanguage,结构化查询语言)描述的查询语句。
在步骤S12的一种优选实现方式中,
对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划;包括以下子步骤:
子步骤S121、由SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划(未提取Schema信息);
sales中列的类型,甚至列名是否有效,在查询表sale元数据之前这些都是未知的。如果不知道它的类型或没有将它匹配到输入表(或别名)时,那么该属性称为未解析。Spark SQL使用Catalyst规则和记录所有表元数据的Catalog对象来解析这些属性。构建具有未绑定属性和数据类型的“未解析的逻辑计划”树后,然后执行以下规则:
1、从Catalog中查找名称关系
2、将命名属性(如col)映射到操作符的子项
3、将那些属性引用相同的值给它们一个唯一的ID(随后遇到如col=col时可以进行优化)
4、通过表达式传递和强制类型:例如,我们无法知道1+col的返回类型,直到解析出col并将其子表达式转换为兼容类型。
其中,catalyst是一种解析器引擎。
子步骤S122、由Catalyst分析器结合数据字典(catalog)进行绑定,生成解析的逻辑计划,过程中Schema Catalog要提取Schema信息;
子步骤S123、由Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
在逻辑优化阶段,逻辑计划应用了标准的基于规则的优化。(基于成本的优化通过规则生成多个计划,然后计算其成本来执行。)这些优化包括常量折叠、谓词下推、项目裁剪、空值传播、布尔表达式简化以及其他规则。
子步骤S124、与Spark Planner交互,应用策略(strategy)到plan计划,使用SparkPlanner将优化的逻辑计划转换成物理计划。
在物理计划阶段,Spark SQL使用逻辑计划生成一个或多个物理计划,这个过程采用了匹配Spark执行引擎的物理运算符。然后使用成本模型选择计划。
在步骤S13的一种优选实现方式中,
将所述物理计划中的算子采用SGX API重新实现,生成执行代码;
在现有的spark集群中,生成物理计划后,调用next函数,生成可执行的物理计划。其中,所述可执行的物理计划为Java字节码,用于在每台机器上运行。
在本实施例中,为了保证数据在解析成内存中数据结构的第一步是安全的,以spark的算子拓展的方式,采用SGX API重新实现,性能保证不降低。即,在生成可执行的计划之前对所述物理计划进行截获,实现Catalyst扩展,将物理计划的算子转换成protobuf格式定义的计算符号。SGX(Intel Software Guard Extensions,英特尔软件防护扩展)可以在计算平台上提供一个可信的空间,保障用户关键代码和数据的机密性和完整性。API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。
优选地,包括以下子步骤:
子步骤S131、提取所述物理计划对应的jar包,定位并提取其中的format类,即算子。
其中,所述算子包括:join、project、filter、agg、sort等操作。
优选地,由于用于计算的数据是加密的二进制格式的密文文件,因此需要实现利用spark读取所述密文文件的方式。Spark中的API提供了可拓展的实现自定义读取的方式,eg:sqlContext.read.format("com.databricks.spark.csv")为对csv格式读取的扩展类。
优选地,提取format类指的是定义读取密文格式的类。
子步骤S132、将所提取的算子采用SGX API进行重新实现,生成执行代码。
优选地,将重新实现的算子编译为.so文件。通过采用SGX库重新实现spark底层算子,以便实现基于SGX的远程认证。
子步骤S133、对所述执行代码对应的数据文件进行切分并打包。
优选地,重新实现的算子一般很小,仅为oin、project、filter、agg,sort算子。而数据块由数据类型(列meta的定义)、数据、整个数据块大小字节数组成。目前采用protobuf格式打包实现。
由于在可信环境enclave中,保证每次放入计算的数据块的大小不超过enclave内存配置的堆的大小。
优选地,所述protobuf格式可跨语言,支持多种开发语言可以读取解析,防止数据格式多次转换导致性能下降。
在步骤S14的一种优选实现方式中,
调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
优选地,包括以下子步骤:
子步骤S141、向节点服务器发送所述执行代码,以便所述节点服务器执行所述执行代码。
子步骤S142、调用enclave可信环境进行SGX远程认证,保证可信硬件安全远程计算。
优选地,所述远程认证为所述节点服务器提供的enclave和不在所述节点服务器上的第三方之间的认证过程;一般地,远程认证需要一个Quoting Enclave(QE),此QuotingEnclave(QE)通过使用另一个特殊密钥Provisioning Key对encalve生成的REPORT进行签名验证(本地验证),并将其转换为QUOTE(远程验证)。具体步骤如下:
1.enclave通知应用程序,需要在位于平台外部的某个位置加密。此时,应用程序与服务器建立安全通信,服务器对此请求进行回应,以认证正在执行的enclave没有被篡改,并且它执行的平台是合法的;
2.该应用程序为其enclave提供Quoting Enclave标识和认证请求;
3.enclave产生一个包括认证回应和临时公钥的清单,该公钥将在稍后被用于保护服务器和enclave之间的通信。而生成的哈希,则包含在EREPORT指令的用户数据部分中。该指令为Quoting Enclave生成一个报告,将清单与enclave关联起来,此时,enclave将REPORT发送给应用程序;
4.应用程序将REPORT发送到Quoting Enclave进行验证和签名;
5.Quoting Enclave使用EGETKEY指令检索其报告密钥并验证REPORT,它会创建QUOTE结构,并在将其提供给应用程序之前使用其Provisioning Key对其进行签名;
6.应用程序将QUOTE和关联的清单发送到服务器进行验证;
7.服务器使用Intel提供的认证服务来验证QUOTE签名,然后,使用QUOTE用户数据中的哈希检查清单完整性。以确保清单包含对认证的预期响应。
通过上述步骤,把远程认证过程变为一种spark的执行任务,让每个spark节点服务器第一步的执行自然的变为远程认证,从而无需生硬的异步实现,插入到原有的spark执行过程中。
子步骤S143、调用enclave可信环境计算所述算子,根据计算结果执行spark操作。
优选地,调用enclave可信环境执行所述执行代码,所述执行代码中的算子仅在在enclave解密后进行计算,计算结果从enclave输出时会进行加密。Enclave是CPU的处理内存中硬件隔离的一个区域,应用可以在此允许处理极度机密的细节,比如加密密钥、密码、用户数据等。
优选地,每次放入计算的数据块的大小不超过enclave内存配置的堆的大小。
通过上述操作,在spark并行处理数据的过程中,实现了基于SGX的远程认证及安全计算。
优选地,所述节点服务器将所述执行代码的执行结果返回给spark调度服务器,由所述spark调度服务器根据执行结果生成查询结果,并将所述查询结果发送给所述客户端。
通过本实施例,在通过spark架构并行处理查询请求的同时,保证了计算过程中数据的安全。并且,spark接口为用户提供了易用性更高的服务,对用户友好。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图2为本发明基于可信计算的spark查询系统的结构图,如图2所示,包括:
接收模块21,用于接收用户输入的SQL查询语句;
Spark转换模块22,用于对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;
SGX转换模块23,用于将所述物理计划中的算子采用SGX API重新实现,生成执行代码;
可信计算调用模块24,用于调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
在接收模块21的一种优选实现方式中,
优选地,spark客户端可以向spark集群中的某一个节点服务器或spark调度服务器发送查询请求。所述接收模块21接收所述查询请求,其中,所述查询请求为用户通过所述客户端输入的以SQL描述的查询语句。
在Spark转换模块22的一种优选实现方式中,
所述Spark转换模块22用于对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划;具体的:
调用SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划(未提取Schema信息);
sales中列的类型,甚至列名是否有效,在查询表sale元数据之前这些都是未知的。如果不知道它的类型或没有将它匹配到输入表(或别名)时,那么该属性称为未解析。Spark SQL使用Catalyst规则和记录所有表元数据的Catalog对象来解析这些属性。构建具有未绑定属性和数据类型的“未解析的逻辑计划”树后,然后执行以下规则:
1、从Catalog中查找名称关系
2、将命名属性(如col)映射到操作符的子项
3、将那些属性引用相同的值给它们一个唯一的ID(随后遇到如col=col时可以进行优化)
4、通过表达式传递和强制类型:例如,我们无法知道1+col的返回类型,直到解析出col并将其子表达式转换为兼容类型。
调用Catalyst分析器结合数据字典(catalog)进行绑定,生成解析的逻辑计划,过程中Schema Catalog要提取Schema信息;
调用Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
在逻辑优化阶段,逻辑计划应用了标准的基于规则的优化。(基于成本的优化通过规则生成多个计划,然后计算其成本来执行。)这些优化包括常量折叠、谓词下推、项目裁剪、空值传播、布尔表达式简化以及其他规则。
与Spark Planner交互,应用策略(strategy)到plan,调用Spark Planner将优化的逻辑计划转换成物理计划。
在物理计划阶段,Spark SQL使用逻辑计划生成一个或多个物理计划,这个过程采用了匹配Spark执行引擎的物理运算符。然后使用成本模型选择计划。
在SGX转换模块23的一种优选实现方式中,
所述SGX转换模块23将所述物理计划中的算子采用SGX API重新实现,生成执行代码;
在现有的spark集群中,生成物理计划后,调用next函数,生成可执行的物理计划。其中,所述可执行的物理计划为Java字节码,用于在每台机器上运行。
在本实施例中,为了保证数据在解析成内存中数据结构的第一步是安全的,以spark的算子拓展的方式,采用SGX API重新实现,性能保证不降低。即,在生成可执行的计划之前对所述物理计划进行截获,实现Catalyst扩展,将物理计划的算子转换成protobuf格式定义的计算符号。
优选地,所述SGX转换模块23具体用于:
提取所述物理计划对应的jar包,定位并提取其中的format类,即算子。
其中,所述算子包括:join、project、filter、agg、sort等操作。
优选地,由于用于计算的数据是加密的二进制格式的密文文件,因此需要实现利用spark读取所述密文文件的方式。Spark中的API提供了可拓展的实现自定义读取的方式,eg:sqlContext.read.format("com.databricks.spark.csv")为对csv格式读取的扩展类。
优选地,提取format类指的是定义读取密文格式的类。
将所提取的算子采用SGX API进行重新实现,生成执行代码。
优选地,将重新实现的算子编译为.so文件。通过采用SGX库重新实现spark底层算子,以便实现基于SGX的远程认证。
对所述执行代码对应的数据文件进行切分并打包。
优选地,重新实现的算子一般很小,仅为oin、project、filter、agg,sort算子。而数据块由数据类型(列meta的定义)、数据、整个数据块大小字节数组成。目前采用protobuf格式打包实现。
由于在可信环境enclave中,保证每次放入计算的数据块的大小不超过enclave内存配置的堆的大小。
优选地,所述protobuf格式可跨语言,支持多种开发语言可以读取解析,防止数据格式多次转换导致性能下降。
在可信计算调用模块24的一种优选实现方式中,
所述可信计算调用模块24调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
优选地,所述SGX转换模块24具体用于:
向节点服务器发送所述执行代码,以便所述节点服务器执行所述执行代码。
调用enclave可信环境进行SGX远程认证,保证可信硬件安全远程计算。
优选地,所述远程认证为所述节点服务器提供的enclave和不在所述节点服务器上的第三方之间的认证过程;一般地,远程认证需要一个Quoting Enclave(QE),此QuotingEnclave(QE)通过使用另一个特殊密钥Provisioning Key对encalve生成的REPORT进行签名验证(本地验证),并将其转换为QUOTE(远程验证)。具体步骤如下:
1.enclave通知应用程序,需要在位于平台外部的某个位置加密。此时,应用程序与服务器建立安全通信,服务器对此请求进行回应,以认证正在执行的enclave没有被篡改,并且它执行的平台是合法的;
2.该应用程序为其enclave提供Quoting Enclave标识和认证请求;
3.enclave产生一个包括认证回应和临时公钥的清单,该公钥将在稍后被用于保护服务器和enclave之间的通信。而生成的哈希,则包含在EREPORT指令的用户数据部分中。该指令为Quoting Enclave生成一个报告,将清单与enclave关联起来,此时,enclave将REPORT发送给应用程序;
4.应用程序将REPORT发送到Quoting Enclave进行验证和签名;
5.Quoting Enclave使用EGETKEY指令检索其报告密钥并验证REPORT,它会创建QUOTE结构,并在将其提供给应用程序之前使用其Provisioning Key对其进行签名;
6.应用程序将QUOTE和关联的清单发送到服务器进行验证;
7.服务器使用Intel提供的认证服务来验证QUOTE签名,然后,使用QUOTE用户数据中的哈希检查清单完整性。以确保清单包含对认证的预期响应。
通过上述步骤,把远程认证过程变为一种spark的执行任务,让每个spark节点服务器第一步的执行自然的变为远程认证,从而无需生硬的异步实现,插入到原有的spark执行过程中。
调用enclave可信环境计算所述算子,根据计算结果执行spark操作。
优选地,调用enclave可信环境执行所述执行代码,所述执行代码中的算子仅在在enclave解密后进行计算,计算结果从enclave输出时会进行加密。Enclave是CPU的处理内存中硬件隔离的一个区域,应用可以在此允许处理极度机密的细节,比如加密密钥、密码、用户数据等。
优选地,每次放入计算的数据块的大小不超过enclave内存配置的堆的大小。
通过上述操作,在spark并行处理数据的过程中,实现了基于SGX的远程认证及安全计算。
优选地,所述节点服务器将所述执行代码的执行结果返回给spark调度服务器,由所述spark调度服务器根据执行结果生成查询结果,并将所述查询结果发送给所述客户端。
通过本实施例,在通过spark架构并行处理查询请求的同时,保证了计算过程中数据的安全。并且,spark接口为用户提供了易用性更高的服务,对用户友好。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的终端和服务器的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
图3示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图3显示的计算机系统/服务器012仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于:一个或者多个处理器或者处理器016,系统存储器028,连接不同系统组件(包括系统存储器028和处理器016)的总线018。
总线018表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器028可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统034可以用于读写不可移动的、非易失性磁介质(图3未显示,通常称为“硬盘驱动器”)。尽管图3中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块042的程序/实用工具040,可以存储在例如存储器028中,这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信,在本发明中,计算机系统/服务器012与外部雷达设备进行通信,还可与一个或者多个使得发声者能与该计算机系统/服务器012交互的设备通信,和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口022进行。并且,计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图3所示,网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白,尽管图3中未示出,可以结合计算机系统/服务器012使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器016通过运行存储在系统存储器028中的程序,从而执行本发明所描述的实施例中的功能和/或方法。
上述的计算机程序可以设置于计算机存储介质中,即该计算机存储介质被编码有计算机程序,该程序在被一个或多个计算机执行时,使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。
随着时间、技术的发展,介质含义越来越广泛,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在发声者计算机上执行、部分地在发声者计算机上执行、作为一个独立的软件包执行、部分在发声者计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到发声者计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理器中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种基于可信计算的spark查询方法,其特征在于,包括:
接收用户输入的SQL查询语句;
对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;
将所述物理计划中的算子采用SGX API英特尔软件防护扩展应用程序编程接口重新实现,生成执行代码;
调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的SQL查询语句包括:
spark调度服务器接收用户通过spark客户端输入的以SQL描述的查询语句。
3.根据权利要求1所述的方法,其特征在于,对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成包括:
由SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划;
由Catalyst分析器结合数据字典进行绑定,生成解析的逻辑计划;
由Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
使用Spark Planner将优化的逻辑计划转换成物理计划。
4.根据权利要求1所述的方法,其特征在于,将所述物理计划中的算子采用SGX API重新实现包括:
定位并提取所述物理计划中算子;
将所提取的算子采用SGX API进行重新实现,生成执行代码;
对所述执行代码对应的数据文件进行切分并打包。
5.根据权利要求4所述的方法,其特征在于,对所述执行代码对应的数据文件进行切分并打包包括:
根据enclave可信环境中内存配置的堆的大小设定切分的数据块大小,打包为protobuf格式。
6.根据权利要求1所述的方法,其特征在于,调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码包括:
向spark节点服务器发送所述执行代码,以便所述spark节点服务器执行所述执行代码;
调用enclave可信环境进行SGX远程认证;
调用enclave可信环境计算所述重新实现的算子,根据计算结果执行spark操作。
7.一种基于可信计算的spark查询系统,其特征在于,包括:
接收模块,用于接收用户输入的SQL查询语句;
Spark转换模块,用于对所述SQL查询语句进行解析、逻辑计划分析、逻辑计划优化、物理计划生成;
SGX转换模块,用于将所述物理计划中的算子采用SGX API英特尔软件防护扩展应用程序编程接口重新实现,生成执行代码;
可信计算调用模块,用于调用enclave可信环境实现对所述算子的可信计算,执行所述执行代码。
8.根据权利要求7所述的系统,其特征在于,所述接收模块具体用于:
接收用户通过spark客户端输入的以SQL描述的查询语句。
9.根据权利要求7所述的系统,其特征在于,所述Spark转换模块具体用于:
调用SQL解析器对所述SQL查询语句进行解析,生成未解析的逻辑计划;
调用Catalyst分析器结合数据字典进行绑定,生成解析的逻辑计划;
调用Catalyst优化器对解析的逻辑计划进行优化,按照优化规则得到优化的逻辑计划;
调用Spark Planner将优化的逻辑计划转换成物理计划。
10.根据权利要求7所述的系统,其特征在于,所述SGX转换模块具体用于:
定位并提取所述物理计划中算子;
将所提取的算子采用SGX API进行重新实现,生成执行代码;
对所述执行代码对应的数据文件进行切分并打包。
11.根据权利要求10所述的系统,其特征在于,对所述执行代码对应的数据文件进行切分并打包包括:
根据enclave可信环境中内存配置的堆的大小设定切分的数据块大小,打包为protobuf格式。
12.根据权利要求7所述的系统,其特征在于,所述可信计算调用模块具体用于:
向spark节点服务器发送所述执行代码,以便所述spark节点服务器执行所述执行代码;
调用enclave可信环境进行SGX远程认证;
调用enclave可信环境计算所述重新实现的算子,根据计算结果执行spark操作。
13.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~6中任一项所述的方法。
CN201811352881.8A 2018-11-14 2018-11-14 一种支持可信计算的spark查询方法及系统 Active CN109299131B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201811352881.8A CN109299131B (zh) 2018-11-14 2018-11-14 一种支持可信计算的spark查询方法及系统
US16/600,717 US11120018B2 (en) 2018-11-14 2019-10-14 Spark query method and system supporting trusted computing
EP19203004.7A EP3654201A1 (en) 2018-11-14 2019-10-14 Spark query method and system supporting trusted computing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811352881.8A CN109299131B (zh) 2018-11-14 2018-11-14 一种支持可信计算的spark查询方法及系统

Publications (2)

Publication Number Publication Date
CN109299131A true CN109299131A (zh) 2019-02-01
CN109299131B CN109299131B (zh) 2020-05-29

Family

ID=65143020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811352881.8A Active CN109299131B (zh) 2018-11-14 2018-11-14 一种支持可信计算的spark查询方法及系统

Country Status (3)

Country Link
US (1) US11120018B2 (zh)
EP (1) EP3654201A1 (zh)
CN (1) CN109299131B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597850A (zh) * 2019-08-20 2019-12-20 北京东方国信科技股份有限公司 一种提高数据库查询响应速度的常量优化方法
CN111104417A (zh) * 2019-12-05 2020-05-05 苏宁云计算有限公司 SparkSql外部数据源装置器、实现方法及系统
CN115378703A (zh) * 2022-08-22 2022-11-22 北京冲量在线科技有限公司 基于可信执行环境与Spark的安全可信数据处理系统
WO2023045295A1 (zh) * 2021-09-27 2023-03-30 北京沃东天骏信息技术有限公司 数据倾斜处理方法、设备、存储介质及程序产品
CN116821174A (zh) * 2023-07-17 2023-09-29 深圳计算科学研究院 一种基于逻辑数据块的数据查询方法及其装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000734A (zh) * 2020-08-04 2020-11-27 中国建设银行股份有限公司 一种大数据处理方法和装置
CN112149801B (zh) * 2020-09-08 2024-05-28 北京工业大学 一种gan神经网络可信执行方法及装置
CN113760489B (zh) * 2020-09-21 2024-05-17 北京沃东天骏信息技术有限公司 一种资源配置方法和装置
CN112988782B (zh) * 2021-02-18 2022-08-30 新华三大数据技术有限公司 Hive支持交互式查询的方法、装置及存储介质
CN113297212A (zh) * 2021-04-28 2021-08-24 上海淇玥信息技术有限公司 一种基于物化视图的Spark查询方法、装置及电子设备
CN113704296A (zh) * 2021-08-03 2021-11-26 浪潮云信息技术股份公司 一种基于Spark SQL的计算下推查询优化方法
CN113810382B (zh) * 2021-08-24 2023-07-11 东北大学秦皇岛分校 一种用于抵御sgx侧信道攻击的密文加载方法
CN113868230B (zh) * 2021-10-20 2024-06-04 重庆邮电大学 一种基于Spark计算框架的大表连接优化方法
CN116932575B (zh) * 2023-09-12 2023-12-15 长城证券股份有限公司 基于Spark的跨数据源操作方法、设备及存储介质
CN116975126B (zh) * 2023-09-25 2023-12-19 恒生电子股份有限公司 数据查询方法、装置、计算设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法
CN106063189A (zh) * 2014-03-28 2016-10-26 英特尔公司 用于使用一个或多个策略处置器促进多因子认证策略实施的系统和方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法
CN107506659A (zh) * 2017-07-27 2017-12-22 西安电子科技大学 一种基于sgx的通用数据库的数据保护系统及方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004002044A2 (en) * 2002-02-01 2003-12-31 John Fairweather A system for exchanging binary data
US8954418B2 (en) * 2010-05-14 2015-02-10 Sap Se Performing complex operations in a database using a semantic layer
US8935232B2 (en) * 2010-06-04 2015-01-13 Yale University Query execution systems and methods
US8589375B2 (en) * 2011-01-31 2013-11-19 Splunk Inc. Real time searching and reporting
US20120239681A1 (en) * 2011-03-14 2012-09-20 Splunk Inc. Scalable interactive display of distributed data
US8682925B1 (en) * 2013-01-31 2014-03-25 Splunk Inc. Distributed high performance analytics store
US8682886B2 (en) * 2012-05-18 2014-03-25 Splunk Inc. Report acceleration using intermediate summaries of events
US8788525B2 (en) * 2012-09-07 2014-07-22 Splunk Inc. Data model for machine data for semantic search
US11023443B2 (en) * 2015-02-13 2021-06-01 Teradata Us, Inc. Collaborative planning for accelerating analytic queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106063189A (zh) * 2014-03-28 2016-10-26 英特尔公司 用于使用一个或多个策略处置器促进多因子认证策略实施的系统和方法
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法
CN107122443A (zh) * 2017-04-24 2017-09-01 中国科学院软件研究所 一种基于Spark SQL的分布式全文检索系统及方法
CN107506659A (zh) * 2017-07-27 2017-12-22 西安电子科技大学 一种基于sgx的通用数据库的数据保护系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田洪亮: "云环境下数据库机密性保护技术研究综述", 《计算机学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597850A (zh) * 2019-08-20 2019-12-20 北京东方国信科技股份有限公司 一种提高数据库查询响应速度的常量优化方法
CN111104417A (zh) * 2019-12-05 2020-05-05 苏宁云计算有限公司 SparkSql外部数据源装置器、实现方法及系统
WO2023045295A1 (zh) * 2021-09-27 2023-03-30 北京沃东天骏信息技术有限公司 数据倾斜处理方法、设备、存储介质及程序产品
CN115378703A (zh) * 2022-08-22 2022-11-22 北京冲量在线科技有限公司 基于可信执行环境与Spark的安全可信数据处理系统
CN116821174A (zh) * 2023-07-17 2023-09-29 深圳计算科学研究院 一种基于逻辑数据块的数据查询方法及其装置

Also Published As

Publication number Publication date
US20200151170A1 (en) 2020-05-14
EP3654201A1 (en) 2020-05-20
CN109299131B (zh) 2020-05-29
US11120018B2 (en) 2021-09-14

Similar Documents

Publication Publication Date Title
CN109299131A (zh) 一种支持可信计算的spark查询方法及系统
US10719567B2 (en) Database query processing on encrypted data
CN107408135B (zh) 用于对加密数据进行查询处理的数据库服务器和客户端
US20240045877A1 (en) Facilitating queries of encrypted sensitive data via encrypted variant data objects
US9824233B2 (en) Posixly secure open and access files by inode number
KR20210133289A (ko) 블록체인 네트워크에서 데이터 추출
EP3278263B1 (en) Computing on encrypted data using deferred evaluation
US8595839B2 (en) Selecting one of a plurality of scanner nodes to perform scan operations for an interface node receiving a file request
US11082219B2 (en) Detection and protection of data in API calls
WO2021204082A1 (en) Deduplication of encrypted data using multiple keys
CN111598575A (zh) 业务流程控制方法、装置、电子设备和可读存储介质
WO2023236756A1 (zh) 多租户的数据分库方法、程序产品及电子设备
CN110968899B (zh) 一种基于区块链的数据分块确认方法、装置、设备和介质
CN114428661A (zh) 一种镜像管理方法及装置
KR101909268B1 (ko) Rapi 기반 프로파일링 정보를 공유하기 위한 시스템 및 그 방법
EP3716124A1 (en) System and method of transmitting confidential data
KR20220141058A (ko) 데이터 관리 방법과 이를 수행하기 위한 컴퓨팅 장치
CN112948860B (zh) 数据处理方法、相关节点及介质
US11909720B2 (en) Secure remote support of systems deployed in a private network
US20230222228A1 (en) Database hierarchical encryption for hybrid-cloud environment
CN117083611A (zh) 检测多云环境中存储系统和量子密钥分发之间的数据损坏

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant