CN112424765A - 用于用户定义的函数的容器框架 - Google Patents
用于用户定义的函数的容器框架 Download PDFInfo
- Publication number
- CN112424765A CN112424765A CN201880095563.XA CN201880095563A CN112424765A CN 112424765 A CN112424765 A CN 112424765A CN 201880095563 A CN201880095563 A CN 201880095563A CN 112424765 A CN112424765 A CN 112424765A
- Authority
- CN
- China
- Prior art keywords
- user
- container
- query
- containers
- defined function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006870 function Effects 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 claims abstract description 76
- 230000008569 process Effects 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 11
- 230000002085 persistent effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
- G06F16/2448—Query languages for particular applications; for extensibility, e.g. user defined types
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5077—Logical partitioning of resources; Management or configuration of virtualized resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5011—Pool
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/503—Resource availability
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
用于处理容器中用户定义的函数的方法、系统和在计算机存储介质上编码的计算机程序。一个示例系统接收以主查询语言编写的查询,该查询调用用户定义的函数。系统分配主段主机以处理用主查询语言编写的查询部分,并分配第一容器以处理对用户定义函数的调用。主段主机向第一容器提供用户定义函数以及对用户定义函数的调用中的一个或更多个参数。第一容器执行用户定义函数。主段主机接收由第一容器计算的对用户定义函数的调用的初始结果。主段主机使用初始结果计算查询的最终结果。主段主机响应于接收到查询,提供查询的最终结果。
Description
背景技术
本说明书涉及数据库系统。
数据库将数据组织到具有列和行的表中。唯一键标识每个表中的每一行。特定行代表特定实体的实例,并且该行中的列存储归属于该实例的值。通过在两个表之一中包含用于链接行的唯一键的列,可以将一个表中的行链接到另一表中的行。
数据库可以划分为多个段(segment)。通过相应的段实例查询段,这些段实例是由称为段节点的物理或虚拟计算节点执行的计算机程序。每个段节点都有自己的存储和处理能力。在主机的指导下,每个段实例都可以处理来自客户端的查询的一部分。主机可以收集来自每个段实例的结果,并将最终结果返回给客户端。
用户可以用查询语言编写数据库查询。查询语言是计算机编程语言,其可用于创建和更新数据库以及从这些数据库中检索和操纵数据。查询语言通常包括一组定义的操作以支持此功能。通常,特定数据库的段实例专门配置为以特定查询语言处理查询。本说明书将这些特定查询语言称为主(primary)查询语言。
除了使用主查询语言中的预定义操作外,数据库用户还可以创建和使用以主查询语言编写的自定义函数。一些数据库还可以处理包含以辅助编程语言编写的函数的查询,这些辅助编程语言是与那些数据库的主查询语言不同的编程语言。本说明书将此类自定义函数和以辅助编程语言编写的函数称为用户定义的函数。尽管某些数据库可以处理用户定义的函数,但是这样做可能会效率低下。即,相对于执行以主查询语言编写的查询,执行用户定义的函数会消耗不成比例的计算资源量,例如内存或处理能力,这会破坏其他用户的数据库的正常操作。此外,用户定义的函数可能尚未经过全面测试,并且可能包含会禁用数据库或破坏数据的恶意代码。
发明内容
本说明书描述了在云计算平台上实现的分布式数据库系统,该系统可以处理隔离容器中的用户定义的函数。容器是通过操作系统级虚拟化实现的隔离的用户空间实例。容器共享托管容器的各个计算系统的计算资源,例如内存或处理能力。计算系统可以动态调整容器之间的计算资源分配。
数据库系统可以从客户端设备接收查询。该查询可以用主查询语言编写,该语言支持对可能以其他编程语言编写的用户定义的函数的调用。如果查询完全用主查询语言编写,并且不包含对用户定义的函数的调用,则由一个或更多个主段主机(primary segmenthost)实现的一个或更多个段实例可以完整地处理查询。主段主机可以是物理或虚拟计算节点。例如,主段主机可以是物理计算机、虚拟机、容器或这三者的某种组合。
如果查询包括对用户定义的函数的调用,则系统可以分配一个或更多个容器以处理用户定义的函数。本说明书将这些分配的容器称为UDF容器。
UDF容器与主段主机不同。即,UDF容器不是主段主机,并且主段主机不是也不实现UDF容器。系统可以例如通过向UDF容器分配单独的计算资源以将UDF容器与主段主机隔离。
系统可以专门配置UDF容器以处理用户定义的函数。例如,系统可以将每个UDF容器配置为具有库(library),该库以辅助编程语言定义操作,以该辅助编程语言编写用户定义的函数。这样的库可以促进用户定义的函数的有效执行。
系统分配并初始化UDF容器后,系统可以指示主段主机向UDF容器提供用户定义的函数以及一个或更多个数据库段。然后,UDF容器可以处理用户定义的函数,例如,通过从数据库段中检索特定数据。当用户定义的函数执行完成时,UDF容器可以将结果提供给主段主机。此后,主段主机可以将结果转发到发送查询的客户端设备。
本说明书中描述的主题可以在特定实施例中实现,以实现以下优点中的一个或更多个。与在主段主机上相比,本文描述的系统可以在隔离的UDF容器中更有效、更安全地处理用户定义的函数。
用户定义的函数通常会低效地使用计算资源。这是因为数据库系统通常被优化为处理以特定查询语言编写的查询。在具有单独计算资源的隔离的UDF容器中执行用户定义的函数可确保用户定义的函数不会使用数据库的所有计算资源。这减少了过载事件的发生,过载事件会影响查询速度和一致性。
UDF容器还可以包含以辅助编程语言定义操作的库。这允许系统处理具有对用这些辅助编程语言编写的用户定义的函数的调用的查询,而无需重新配置数据库的段实例,也无需将以辅助编程语言定义的操作转换为主查询语言的语句,这是时间密集的过程。
用户定义的函数还可包含恶意代码或漏洞代码,这些代码可能会使数据库瘫痪或破坏其数据。该系统可以通过在无法访问主段主机上的段实例或数据库段的隔离的UDF容器中执行用户定义的函数来减轻恶意代码的风险。因此,恶意代码不会干扰数据库的正常操作。由于UDF容器与数据库系统隔离,因此它们还阻止用户定义的函数访问未经授权的文件系统。
本说明书的主题的一个或更多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书、本主题的其他特征,方面和优点将变得显而易见。
附图说明
图1是示例云计算平台的图。
图2是示例容器池的图。
图3是用于在隔离的容器中执行用户定义的函数的示例过程的流程图。
在各个附图中,相同的附图编号和名称表示相同的元件。
具体实施方式
图1是示例云计算平台100的图。云计算平台100提供可以实现分布式数据库的计算资源和服务,包括物理计算机、虚拟机、容器和软件。
包括客户端设备102的客户端设备可以通过有线或无线网络104访问在云计算平台100上实现的数据库。网络104可以是局域网(LAN),其在有限区域(例如住宅、学校、实验室或办公楼)中连接计算机。局域网包括以太网和Wi-Fi网络。该网络也可以是更大的网络,包括广域网(WAN)或因特网。客户端设备102可以创建、更新或查询数据库。
云计算平台100包括一个或更多个主段主机110a-110n。主段主机110a-110n是实现数据库的一个或更多个段实例的计算资源,例如物理计算机、虚拟机、容器或这些的某种组合。在一些实现中,每个主段主机是托管多个容器的物理计算机或虚拟机。在这样的实现中,每个容器实现数据库的相应段实例。在本说明书中,这些容器称为主容器。
如上所述,容器是通过操作系统级虚拟化实现的隔离的用户空间实例。容器共享各自计算系统的计算资源。计算系统可以动态调整容器之间的计算资源分配,并且可以将不同级别的计算资源分配给在同一台物理计算机上运行的不同容器。
主容器负责实现处理用主查询语言编写的查询的段实例。
云计算平台100还包括可以处理用户定义的函数的一个或更多个UDF容器120a-120m。用户定义的函数是由用主查询语言编写的查询调用的函数,并且是其定义由用户输入指定的函数。换句话说,用户定义的函数不是主查询语言的内置函数。可以使用以不同的辅助编程语言的语句来定义用户定义的函数。UDF容器120a-120m提供隔离的计算环境,在其中安全地处理这种用户定义的函数。
UDF容器120a-120m可以具有以辅助编程语言定义操作的库。这些库有助于高效处理以那些辅助编程语言编写的用户定义的函数。协调器130(将在下面更详细地描述)还可以将额外的计算资源分配给UDF容器120a-120m,而无需减少分配给主容器的计算资源的量。
云计算平台100还包括协调器130。协调器130可以从客户端设备接收查询,创建查询计划并管理主段主机110a-110n和UDF容器120a-120m。
当协调器130从客户端设备102接收到查询时,协调器130根据主程序132创建分布式查询计划。主程序132定义应如何处理数据库查询。主程序132还可以定义在主段主机110a-110n上托管的不同主容器之间应该如何分配资源。协调器130将查询计划发送到段主机110a-110n。如果查询完全用主查询语言编写,则段实例可以完全地处理查询计划。
如果查询而是包括对以辅助编程语言编写的用户定义的函数的调用,则协调器130可以另外分配一个或更多个UDF容器以处理对该用户定义的函数的调用。通常,协调器130响应于来自实现数据库的段实例的一个或更多个主容器的请求而分配UDF容器。段实例可以基于查询中的一个或更多个标识符来识别查询包括用户定义的函数。响应于该请求,协调器130分配一个或更多个UDF容器以处理用户定义的函数。在一些实现方式中,协调器130为作出请求的每个主容器分配一个UDF容器。在其他实现方式中,协调器为每个用户定义的函数分配一个UDF容器,或者为用户定义的函数中的每个任务分配一个UDF容器。在协调器130分配并初始化UDF容器之后,主容器可以将用户定义的函数以及处理用户定义的函数所需的任何数据库段传递给UDF容器。然后,UDF容器可以处理用户定义的函数。
例如,系统可以接收以Python编程语言编写的查询,其包含以下函数:
defsquared(s):
return s*s
sqlContext.udf.register(squaredWithPython,squared)
此函数是用户定义的函数,因为它不是主查询语言中的内置函数。相反,用户必须使用辅助编程语言Python编写和定义函数。段实例可以基于该函数是用辅助编程语言编写的(如在代码的最后一行中所指示的)事实,或者基于显式注册为用户定义的函数的事实,将该函数分类为用户定义的函数。此后,实现段实例的主容器可以请求协调器130提供UDF容器,在其中处理用户定义的函数。然后,协调器130可以分配一个或更多个UDF容器,这些容器被配置为处理用Python编写的用户定义的函数。
协调器130还包括调度器134。调度器134可以选择主段主机以托管未调度的段实例。为此,调度器134可以跟踪每个主段主机的资源利用,以确保不调度超过可用计算资源的工作量。调度器134还可以基于在主程序132中定义的策略指令(directive)来选择用于主容器的计算资源分配。协调器130可以与主段主机通信以执行那些资源分配决定。例如,协调器130可以指示主段主机创建或删除容器,或者修改容器之间的计算资源分配。
协调器130还包括池管理器136。池管理器136可以管理可被用作UDF容器的容器池。当协调器130接收到来自主容器的请求时,池管理器136可以将可用容器提升为活动UDF容器。池管理器136执行与调度器134相似的功能,但是用于UDF容器而不是主容器。
云计算平台100还包括永久性存储器140。永久性存储器140可以存储数据库段的备份副本,从而确保数据库的高可用性。永久性存储器140还可以将数据库数据的配置存储在数据库的主段主机110a-110n中。换句话说,永久性存储器140可以指定哪些段主机存储哪些数据库段。更具体地说,它可以指定哪些容器执行哪些段实例。段主机中数据配置的改变反映在永久性存储器140中。例如,某些段实例可以在主段主机之间或在容器之间交换。这样的改变将反映在永久性存储器140中。永久性存储器140可以类似地存储UDF容器120a-120m的配置。永久性存储器140还可以在UDF容器失效(fail)的情况下存储用户定义的函数。如果分配的UDF容器确实失效,则协调器130可以分配新的UDF容器来替换它。
永久性存储器140可以被实现为提供高可用性存储器的一个或更多个RAID阵列。RAID阵列由多个独立的存储磁盘组成,这些磁盘提供读和/或写速度、冗余和增加的存储空间的某种组合。
图2是示例性容器池200的图。容器池200包括一个或更多个可用容器210a-210n。可用容器210a-210n并不主动处理用户定义的函数。
如果协调器130从主容器(例如主容器230)接收到处理用户定义的函数的请求,则协调器130可以检查容器池200以查看其是否具有任何可用的容器。如果是这样,则协调器130可以将可用的UDF容器(例如UDF容器220)分配给作出请求的主容器(步骤A)。主容器和分配的UDF容器可以连接(步骤B),并且主容器可以将用户定义的函数和数据库数据提供给UDF容器,以便UDF容器可以处理用户定义的函数。尽管图2仅描绘了单个主容器和单个UDF容器,但是可以为请求处理用户定义的函数的每个主容器执行该过程。
协调器130可以根据需要在可用容器和分配的UDF容器之间重新分配计算资源,例如内存和处理能力。例如,与向分配的UDF容器相比,协调器130可以向可用容器分配更少的计算资源。当协调器130分配可用容器时,它可以向该分配的容器分配附加的计算资源。在某些情况下,分配的UDF容器可能需要附加的计算资源。在这种情况下,协调器130可以销毁可用容器,并将计算资源从销毁的容器重新分配给分配的UDF容器。如果例如分配的UDF容器和可用容器的计算资源利用并未超过限制,则协调器130还可以向容器池200添加其他容器。
在UDF容器220处理了用户定义的函数并将结果提供给主容器230之后,协调器130可以停用UDF容器220并将其添加回容器池200(步骤C)。
协调器130可以在分布式数据库系统接收到查询之前初始化多个UDF容器,以减少主容器请求UDF容器时的延迟。
图3是用于在一个或更多个隔离的UDF容器中执行用户定义的函数的示例过程300的流程图。为了方便起见,该过程将被描述为由云计算平台上的分布式数据库系统执行,或者由分布式数据库系统的一个或更多个组件执行。分布式数据库系统包括参考图1描述的组件。
系统接收以主查询语言编写的查询(310)。该查询包括对用户定义的函数的调用。用户定义的函数不是以主查询语言明确定义的函数,而是由用户编写并定义的函数。用户定义的函数可以由与编写查询所用的主查询语言不同的辅助编程语言来定义。
系统分配一个或更多个主段主机以处理用主查询语言编写的查询的一个或更多个部分(320)。在一些实现方式中,主段主机是主容器。在这样的实现中,每个主容器都实现了段实例,该段实例可以处理查询的一部分。
系统还分配一个或更多个UDF容器以处理对用户定义的函数的调用(330)。通常,系统响应于来自一个或更多个主容器的请求而分配一个或更多个UDF容器,该一个或更多个主容器接收了包括用户定义的函数的查询的部分。系统可以将UDF容器分配给作出请求的每个主容器。
分配UDF容器以处理对用户定义的函数的调用可涉及从可用容器池中选择UDF容器。特别是,分配UDF容器以处理对用户定义的函数的调用可涉及识别和选择专门配置为处理采用编写用户定义的函数所采用的辅助编程语言的函数的容器。例如,如果用户定义的函数是用Python编写的,则系统可以分配配置为包括Python库的UDF容器,这将有助于促进用户定义的函数的执行。
分配的UDF容器与主段主机上的主容器隔离。即,UDF容器不与主容器共享计算资源。
主段主机将用户定义的函数以及对用户定义的函数的调用中的一个或更多个参数(argument)提供给UDF容器(340)。对用户定义的函数的调用中的参数可以包括用户定义的函数将在其上运行的数据库段。
UDF容器使用对用户定义的函数的调用中的参数来执行用户定义的函数,例如,使用调用中的数据库段(350)。当UDF容器执行用户定义的函数时,主段主机实现的段实例会处理查询的其他部分,例如,以主查询语言编写且不包括用户定义的函数的查询的部分。
在UDF容器处理了用户定义的函数之后,主段主机接收由UDF容器计算的对用户定义的函数的调用的初始结果(360)。主段主机使用初始结果来计算查询的最终结果(370),并响应于接收到查询来提供查询的最终结果(380)。
向主段主机提供执行对用户定义的函数的调用的初始结果后,系统可以将UDF容器释放到可用容器池中。
本说明书中描述的主题的实施例可以实现为一个或更多个计算机程序,即,在有形的非暂时性存储介质上编码的计算机程序指令的一个或更多个模块,以由数据处理装置执行或控制数据处理装置的操作。替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如,机器生成的电、光或电磁信号,其被生成以对信息进行编码以传输到合适的接收器装置,以由数据处理装置执行。该计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问内存设备或它们中的一个或更多个的组合或者是其一部分。计算机存储介质不是传播的信号。
术语“数据处理装置”涵盖用于处理数据的所有种类的装置、设备和机器,例如包括可编程处理器,计算机或多个处理器或计算机。数据处理装置可以包括专用逻辑电路,例如FPGA(现场可编程门阵列)、ASIC(专用集成电路)或GPU(图形处理单元)。除了硬件之外,该装置还可以包括为计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统或它们中的一个或更多个的组合的代码。
可以以任何形式的编程语言(包括编译或解释性语言,或声明性或程序性语言)来编写计算机程序,也可以将其称为或描述为程序、软件、软件应用程序、应用程序、模块、软件模块、引擎、脚本或代码;并且可以以任何形式进行部署,包括作为独立程序或作为模块、组件、引擎、子例程或其他适合在计算环境中执行的单元,该环境可以包括通过一个或更多个位置中的数据通信网络互连的一个或更多个计算机。
计算机程序可以但不必对应于文件系统中的文件。计算机程序可以存储在保存其他程序或数据的文件的部分中,例如存储在标记语言文档中的一个或更多个脚本,专用于所讨论程序的单个文件中,或多个协调文件中,例如,存储一个或更多个模块、子程序或代码部分的文件。
本说明书中描述的过程和逻辑流程可以由执行一个或更多个计算机程序以通过对输入数据进行操作并生成输出来执行操作的一个或更多个计算机来执行。所述过程和逻辑流程还可通过专用逻辑电路(例如,FPGA,ASIC或GPU)或通过专用逻辑电路和一个或更多个编程计算机的组合来执行。
适用于执行计算机程序的计算机可以基于通用或专用微处理器或两者,或者基于任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的中央处理单元和用于存储指令和数据的一个或更多个内存设备。中央处理单元和内存可以由专用逻辑电路补充或并入专用逻辑电路中。
通常,计算机还将包括或可操作地耦合以从一个或更多个大容量存储设备接收数据或将数据传输到一个或更多个大容量存储设备。大容量存储设备可以是,例如磁盘、磁光盘或光盘、或固态驱动器。但是,计算机不必具有此类设备。此外,计算机可以被嵌入到另一个设备中,例如,移动电话,个人数字助理(PDA),移动音频或视频播放器,游戏机,全球定位系统(GPS)接收器或便携式存储设备,例如通用串行总线(USB)闪存驱动器,仅举几例。
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有显示设备例如LCD(液晶显示器)监视器的计算机上实现或配置为与该计算机通信,以将信息显示给用户,并且用户可以通过输入设备(例如键盘和指示设备,例如鼠标、轨迹球或触摸板)向计算机提供输入。其他种类的设备也可以用于提供与用户的交互。例如,提供给用户的反馈可以是任何形式的感觉反馈,例如视觉反馈、听觉反馈或触觉反馈;并且可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。另外,计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户进行交互。例如,通过响应于从网络浏览器接收的请求,将网页发送到用户设备上的网络浏览器,或者与用户设备(例如智能手机或电子平板)上运行的应用程序进行交互。而且,计算机可以通过将文本消息或其他形式的消息发送到个人设备(例如,运行消息收发应用程序的智能手机)并从用户接收响应消息来与用户交互。
本说明书中描述的主题的实施例可以在包括后端组件,例如,作为数据服务器,或包括中间件组件(例如,应用服务器),或包括前端组件的计算系统中实现,例如具有图形用户界面的客户端计算机,Web浏览器或应用程序,用户可通过该应用程序与本说明书中描述的主题的实现进行交互,或者一种或多种此类后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如,通信网络)互连。通信网络的示例包括局域网(LAN)和广域网(WAN),例如因特网。
该计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离,并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在相应计算机上运行并彼此具有客户端-服务器关系的计算机程序产生的。在一些实施例中,服务器例如为了向与作为客户端的设备交互的用户显示数据并从其接收用户输入的目的,向用户设备发送数据(例如HTML页面)。可以在服务器处从设备接收在用户设备处生成的数据,例如,用户交互的结果。
除了上述实施例之外,以下实施例也是创新的:
实施例1是一种方法,包括:
由安装在云计算平台上的分布式数据库系统接收以主查询语言编写的查询,其中所述查询调用用户定义的函数;
分配所述云计算平台上托管的一个或更多个主段主机以处理以所述主查询语言编写的所述查询的一个或更多个部分;
分配一个或更多个第一容器以处理对所述查询中用户定义的函数的调用;
由所述一个或更多个主段主机将所述用户定义的函数以及对所述用户定义的函数的调用中的一个或更多个参数提供给被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器;
由被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器,使用所述用户定义的函数中的所述调用的所述参数来执行所述用户定义的函数;
由所述一个或更多个主段主机接收由所述一个或更多个第一容器计算的对所述用户定义的函数的所述调用的初始结果;
由所述一个或更多个主段主机使用对所述用户定义的函数的所述调用的所述初始结果计算所述查询的最终结果;以及
响应于接收到所述查询,提供所述查询的所述最终结果。
实施例2是实施例1所述的方法,其中,分配所述第一容器以处理对所述用户定义的函数的所述调用包括:
从可用容器池中选择所述第一容器。
实施例3是实施例2所述的方法,还包括:
在向所述主段主机提供执行对所述用户定义的函数的所述调用的初始结果后,将所述第一容器释放到所述可用容器池中。
实施例4是实施例2-3任一项所述的方法,还包括:
当所述第一容器的资源利用超过限制时,从所述可用容器池中移除相应的容器;以及
将资源从所述被移除的容器重新分配到所述第一容器。
实施例5是实施例2-4任一项所述的方法,其中,在所述分布式数据库系统接收到所述查询之前,初始化所述可用容器池中的一个或更多个容器。
实施例6是实施例2-5任一项所述的方法,还包括:
当所述第一容器和可用容器的资源利用并未超过限制时,将容器添加到所述可用容器池中。
实施例7是实施例1-6任一项所述的方法,还包括:
如果所述第一容器之一失效,则将所述用户定义的函数和数据库段存储在永久性存储器中。
实施例8是实施例1-7任一项所述的方法,还包括:
分配新容器以替换失效的第一容器。
实施例9是实施例1-8任一项所述的方法,其中,所述第一容器不与所述主段主机共享计算资源。
实施例10是实施例1-9任一项所述的方法,其中,所述用户定义的函数是用与所述主查询语言不同的辅助编程语言编写的。
实施例11是实施例10所述的方法,其中,分配所述一个或更多个第一容器以处理对所述用户定义的函数的所述调用包括识别被配置为以所述辅助编程语言处理函数的一个或更多个第一容器。
实施例12是一种系统,包括:一个或更多个计算机和一个或更多个存储设备,该存储设备存储指令,这些指令在由一个或更多个计算机执行时,使一个或更多个计算机执行实施例1-11任一项所述的方法。
实施例13是一种或更多种计算机存储介质,其存储指令,该指令在由一个或更多个计算机执行时,使一个或更多个计算机执行实施例1-11任一项所述的方法。
尽管本说明书包含许多具体的实现细节,但是这些细节不应解释为对任何发明的范围或所要求保护的范围或可以要求保护的范围的限制,而应视为对特定发明的特定实施例特定的特征的描述。在单独的实施例的上下文中在本说明书中描述的某些特征也可以在单个实施例中组合实现。相反,在单个实施例的上下文中描述的各种特征也可以分别在多个实施例中或以任何合适的子组合来实现。而且,尽管以上可以将特征描述为以某些组合起作用并且甚至最初是这样主张的,但是在某些情况下,可以从该组合中切除所要求保护的组合的一个或更多个特征,并且权利要求可以针对子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作并且在权利要求中对其进行了记载,但是这不应被理解为要求以所示的特定顺序或以连续的顺序执行这样的操作,或执行所有示出的操作以达到理想的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中都需要这种分离,并且应当理解,所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。
已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如,权利要求中记载的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例,附图中描绘的过程不一定需要所示的特定顺序或连续顺序来实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。
Claims (23)
1.一种系统,包括:
一个或更多个计算机和一个或更多个存储设备,所述存储设备存储指令,所述指令在由所述一个或更多个计算机执行时,使所述一个或更多个计算机执行操作,所述操作包括:
由安装在云计算平台上的分布式数据库系统接收以主查询语言编写的查询,其中所述查询调用用户定义的函数;
分配所述云计算平台上的一个或更多个主段主机以处理以所述主查询语言编写的所述查询的一个或更多个部分;
分配一个或更多个第一容器以处理对所述查询中用户定义的函数的调用;
由所述一个或更多个主段主机向被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器提供所述用户定义的函数以及对所述用户定义的函数的调用中的一个或更多个参数;
由被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器,使用所述用户定义的函数中的所述调用的所述参数来执行所述用户定义的函数;
由所述一个或更多个主段主机接收由所述一个或更多个第一容器计算的对所述用户定义的函数的所述调用的初始结果;
由所述一个或更多个主段主机使用对所述用户定义的函数的所述调用的所述初始结果计算所述查询的最终结果;以及
响应于接收到所述查询,提供所述查询的所述最终结果。
2.根据权利要求1所述的系统,其中,分配所述第一容器以处理对所述用户定义的函数的所述调用包括:
从可用容器池中选择所述第一容器。
3.根据权利要求2所述的系统,其中,所述操作还包括:
在向所述主段主机提供执行对所述用户定义的函数的所述调用的初始结果后,将所述第一容器释放到所述可用容器池中。
4.根据权利要求2所述的系统,其中,所述操作还包括:
当所述第一容器的资源利用超过限制时,从所述可用容器池中移除相应的容器;以及
将资源从所述被移除的容器重新分配到所述第一容器。
5.根据权利要求2所述的系统,其中,在所述分布式数据库系统接收所述查询之前,初始化所述可用容器池中的一个或更多个容器。
6.根据权利要求2所述的系统,其中,所述操作还包括:
当所述第一容器和可用容器的资源利用并未超过限制时,将容器添加到所述可用容器池中。
7.根据权利要求1所述的系统,其中,所述操作还包括:
如果所述第一容器之一失效,则将所述用户定义的函数和数据库段存储在永久性存储器中。
8.根据权利要求1所述的系统,其中,所述操作还包括:
分配新容器以替换失效的第一容器。
9.根据权利要求1所述的系统,其中,所述第一容器不与所述主段主机共享计算资源。
10.根据权利要求1所述的系统,其中,所述用户定义的函数是用与所述主查询语言不同的辅助编程语言编写的。
11.根据权利要求10所述的系统,其中,分配所述一个或更多个第一容器以处理对所述用户定义的函数的所述调用包括:识别被配置为以所述辅助编程语言处理函数的一个或更多个第一容器。
12.一种方法,包括:
由安装在云计算平台上的分布式数据库系统接收以主查询语言编写的查询,其中所述查询调用用户定义的函数;
分配所述云计算平台上的一个或更多个主段主机以处理以所述主查询语言编写的所述查询的一个或更多个部分;
分配一个或更多个第一容器以处理对所述查询中用户定义的函数的调用;
由所述一个或更多个主段主机向被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器提供所述用户定义的函数以及对所述用户定义的函数的调用中的一个或更多个参数;
由被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器,使用所述用户定义的函数中的所述调用的所述参数来执行所述用户定义的函数;
由所述一个或更多个主段主机接收由所述一个或更多个第一容器计算的对所述用户定义的函数的所述调用的初始结果;
由所述一个或更多个主段主机使用对所述用户定义的函数的所述调用的所述初始结果计算所述查询的最终结果;以及
响应于接收到所述查询,提供所述查询的所述最终结果。
13.根据权利要求12所述的方法,其中,分配所述第一容器以处理对所述用户定义的函数的所述调用包括:
从可用容器池中选择所述第一容器。
14.根据权利要求13所述的方法,还包括:
在向所述主段主机提供执行对所述用户定义的函数的所述调用的初始结果后,将所述第一容器释放到所述可用容器池中。
15.根据权利要求13所述的方法,还包括:
当所述第一容器的资源利用超过限制时,从所述可用容器池中移除相应的容器;以及
将资源从所述被移除的容器重新分配到所述第一容器。
16.根据权利要求13所述的方法,其中,在所述分布式数据库系统接收到所述查询之前,初始化所述可用容器池中的一个或更多个容器。
17.根据权利要求13所述的方法,还包括:
当所述第一容器和可用容器的资源利用并未超过限制时,将容器添加到所述可用容器池中。
18.根据权利要求12所述的方法,还包括:
如果所述第一容器之一失效,则将所述用户定义的函数和数据库段存储在永久性存储器中。
19.根据权利要求12所述的方法,还包括:
分配新容器以替换失效的第一容器。
20.根据权利要求12所述的方法,其中,所述第一容器不与所述主段主机共享计算资源。
21.根据权利要求12所述的方法,其中,所述用户定义的函数是用与所述主查询语言不同的辅助编程语言编写的。
22.根据权利要求21所述的方法,其中,分配所述一个或更多个第一容器以处理对所述用户定义的函数的所述调用包括识别被配置为以所述辅助编程语言处理函数的一个或更多个第一容器。
23.一种或多种非暂时性计算机存储介质,其存储指令,所述指令在由一个或更多个计算机执行时,使所述一个或更多个计算机执行操作,所述操作包括:
由安装在云计算平台上的分布式数据库系统接收以主查询语言编写的查询,其中所述查询调用用户定义的函数;
分配所述云计算平台上的一个或更多个主段主机以处理以所述主查询语言编写的所述查询的一个或更多个部分;
分配一个或更多个第一容器以处理对所述查询中用户定义的函数的调用;
由所述一个或更多个主段主机向被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器提供所述用户定义的函数以及对所述用户定义的函数的调用中的一个或更多个参数;
由被分配以处理对所述用户定义的函数的所述调用的所述一个或更多个第一容器,使用所述用户定义的函数中的所述调用的所述参数来执行所述用户定义的函数;
由所述一个或更多个主段主机接收由所述一个或更多个第一容器计算的对所述用户定义的函数的所述调用的初始结果;
由所述一个或更多个主段主机使用对所述用户定义的函数的所述调用的所述初始结果计算所述查询的最终结果;以及
响应于接收到所述查询,提供所述查询的所述最终结果。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2018/096362 WO2020014939A1 (en) | 2018-07-20 | 2018-07-20 | Container framework for user-defined functions |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112424765A true CN112424765A (zh) | 2021-02-26 |
CN112424765B CN112424765B (zh) | 2024-09-10 |
Family
ID=69163817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880095563.XA Active CN112424765B (zh) | 2018-07-20 | 2018-07-20 | 用于用户定义的函数的容器框架 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210303371A1 (zh) |
CN (1) | CN112424765B (zh) |
WO (1) | WO2020014939A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269547A (zh) * | 2021-05-31 | 2021-08-17 | 中国农业银行股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113504904A (zh) * | 2021-07-26 | 2021-10-15 | 中国平安人寿保险股份有限公司 | 用户定义函数实现方法、装置、计算机设备和存储介质 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11048815B2 (en) * | 2018-08-06 | 2021-06-29 | Snowflake Inc. | Secure data sharing in a multi-tenant database system |
GB2611695A (en) * | 2020-07-14 | 2023-04-12 | Affinio Inc | Method and system for secure distributed software-service |
US11347485B1 (en) | 2021-06-07 | 2022-05-31 | Snowflake Inc. | Secure, scalable, table-valued functions in a cloud database |
US11409864B1 (en) * | 2021-06-07 | 2022-08-09 | Snowflake Inc. | Tracing supervisor for UDFs in a database system |
US11461080B1 (en) * | 2021-06-07 | 2022-10-04 | Snowflake Inc. | Inline compilation of user defined functions |
WO2023097703A1 (en) * | 2021-12-03 | 2023-06-08 | Huawei Cloud Computing Technologies Co., Ltd. | A storage server forsecure and performant execution of user code in a data center storage |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739398A (zh) * | 2008-11-11 | 2010-06-16 | 山东省标准化研究院 | 分布式数据库多连接查询优化算法 |
US20120130963A1 (en) * | 2010-11-24 | 2012-05-24 | Teradata Us, Inc. | User defined function database processing |
US20150149745A1 (en) * | 2013-11-25 | 2015-05-28 | Markus Eble | Parallelization with controlled data sharing |
CN106062739A (zh) * | 2013-11-12 | 2016-10-26 | 皮沃塔尔软件公司 | 动态流计算拓扑 |
US20170371703A1 (en) * | 2016-06-28 | 2017-12-28 | Amazon Technologies, Inc. | Asynchronous task management in an on-demand network code execution environment |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7996387B2 (en) * | 2007-07-27 | 2011-08-09 | Oracle International Corporation | Techniques for extending user-defined indexes with auxiliary properties |
US9355145B2 (en) * | 2011-01-25 | 2016-05-31 | Hewlett Packard Enterprise Development Lp | User defined function classification in analytical data processing systems |
US11216454B1 (en) * | 2011-12-19 | 2022-01-04 | Actian Sub Iii, Inc. | User defined functions for database query languages based on call-back functions |
CN103502940B (zh) * | 2011-12-21 | 2017-12-12 | 华为技术有限公司 | 一种分布式系统中处理事务的方法、相关设备及系统 |
US20150269234A1 (en) * | 2014-03-19 | 2015-09-24 | Hewlett-Packard Development Company, L.P. | User Defined Functions Including Requests for Analytics by External Analytic Engines |
US11099841B2 (en) * | 2014-06-26 | 2021-08-24 | Sap Se | Annotations for parallelization of user-defined functions with flexible partitioning |
GB201517416D0 (en) * | 2015-10-02 | 2015-11-18 | Ibm | Task-execution in a DBMS using stored procedures |
US10771584B2 (en) * | 2017-11-30 | 2020-09-08 | Cisco Technology, Inc. | Provisioning using pre-fetched data in serverless computing environments |
-
2018
- 2018-07-20 CN CN201880095563.XA patent/CN112424765B/zh active Active
- 2018-07-20 WO PCT/CN2018/096362 patent/WO2020014939A1/en unknown
- 2018-07-20 US US17/261,842 patent/US20210303371A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101739398A (zh) * | 2008-11-11 | 2010-06-16 | 山东省标准化研究院 | 分布式数据库多连接查询优化算法 |
US20120130963A1 (en) * | 2010-11-24 | 2012-05-24 | Teradata Us, Inc. | User defined function database processing |
CN106062739A (zh) * | 2013-11-12 | 2016-10-26 | 皮沃塔尔软件公司 | 动态流计算拓扑 |
US20150149745A1 (en) * | 2013-11-25 | 2015-05-28 | Markus Eble | Parallelization with controlled data sharing |
US20170371703A1 (en) * | 2016-06-28 | 2017-12-28 | Amazon Technologies, Inc. | Asynchronous task management in an on-demand network code execution environment |
Non-Patent Citations (1)
Title |
---|
MICHAEL GODFREY等: "Secure and portable database extensibility", SIGMOD RECORD,ACM, vol. 27, no. 2, pages 394 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113269547A (zh) * | 2021-05-31 | 2021-08-17 | 中国农业银行股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113269547B (zh) * | 2021-05-31 | 2024-05-31 | 中国农业银行股份有限公司 | 数据处理方法、装置、电子设备和存储介质 |
CN113504904A (zh) * | 2021-07-26 | 2021-10-15 | 中国平安人寿保险股份有限公司 | 用户定义函数实现方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20210303371A1 (en) | 2021-09-30 |
EP3803622A1 (en) | 2021-04-14 |
CN112424765B (zh) | 2024-09-10 |
WO2020014939A1 (en) | 2020-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112424765B (zh) | 用于用户定义的函数的容器框架 | |
US11593149B2 (en) | Unified resource management for containers and virtual machines | |
US11275622B2 (en) | Utilizing accelerators to accelerate data analytic workloads in disaggregated systems | |
US10505791B2 (en) | System and method to handle events using historical data in serverless systems | |
US9665154B2 (en) | Subsystem-level power management in a multi-node virtual machine environment | |
KR20060120406A (ko) | 서버 최적화 방법과 시스템 및 컴퓨터 판독 가능한 저장매체 | |
US9916215B2 (en) | System and method for selectively utilizing memory available in a redundant host in a cluster for virtual machines | |
US11169846B2 (en) | System and method for managing tasks and task workload items between address spaces and logical partitions | |
US20140372790A1 (en) | System and method for assigning memory available for high availability failover to virtual machines | |
US9063918B2 (en) | Determining a virtual interrupt source number from a physical interrupt source number | |
US20120239814A1 (en) | Clustered computer environment partition resolution | |
US20200396306A1 (en) | Apparatuses and methods for a distributed message service in a virtualized computing system | |
JP2021099879A (ja) | 開発マシン操作タスクの処理方法、電子機器、コンピュータ可読記憶媒体及びコンピュータプログラム | |
US9800484B2 (en) | Optimizing resource utilization in a networked computing environment | |
US12073258B2 (en) | Configuration map based sharding for containers in a machine learning serving infrastructure | |
US9755986B1 (en) | Techniques for tightly-integrating an enterprise storage array into a distributed virtualized computing environment | |
US11442763B2 (en) | Virtual machine deployment system using configurable communication couplings | |
US10901864B2 (en) | Light-weight mirror container | |
US11263098B2 (en) | Database segment load balancer | |
US11567841B1 (en) | Database system | |
US10963311B2 (en) | Techniques and architectures for protection of efficiently allocated under-utilized resources | |
US9176910B2 (en) | Sending a next request to a resource before a completion interrupt for a previous request | |
KR102466231B1 (ko) | 오케스트레이터 환경에서의 프로세스 마이그레이션을 위한 컨테이너 관리 장치 및 관리 방법 | |
KR102480731B1 (ko) | 클라우드 컴퓨팅의 다중 노드 환경을 위한 배치 스케줄링 장치 및 배치 스케줄링 방법 | |
US20200133369A1 (en) | Managing power request during cluster operations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Country or region after: U.S.A. Address after: California, USA Applicant after: Pivotal Software, Inc. Address before: California, USA Applicant before: PIVOTAL SOFTWARE, Inc. Country or region before: U.S.A. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |