CN117076057A - 一种ai服务请求调度的方法、装置、设备及介质 - Google Patents
一种ai服务请求调度的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN117076057A CN117076057A CN202311348107.0A CN202311348107A CN117076057A CN 117076057 A CN117076057 A CN 117076057A CN 202311348107 A CN202311348107 A CN 202311348107A CN 117076057 A CN117076057 A CN 117076057A
- Authority
- CN
- China
- Prior art keywords
- node
- target
- gateway
- scheduling
- resource scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000013468 resource allocation Methods 0.000 claims abstract description 11
- 238000007726 management method Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 30
- 238000012544 monitoring process Methods 0.000 claims description 22
- 230000008859 change Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/4557—Distribution of virtual machine instances; Migration and load balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45595—Network integration; Enabling network access in virtual machine instances
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请提供一种AI服务请求调度的方法、装置、设备及介质,涉及目标识别技术领域,用于解决现有的AI服务请求调度技术中出现的低资源利用率和低响应等问题。该方法包括:调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;在所述目标AI网关与所述目标节点中的AI应用之间建立websocket长连接;调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点。
Description
技术领域
本申请涉及资源调度技术领域,提供一种AI服务请求调度的方法、装置、设备及介质。
背景技术
随着人工智能(AI,Artificial Intelligence)的快速发展,越来越多的企业和组织开始使用“AI服务”来提高业务效率、优化决策和改进用户体验,其中,AI服务包括图像识别、自然语言处理和预测分析等。但是,随着AI服务的增加,为确保AI服务的高可用性、高性能和安全性,对处理和调度这些AI服务请求提出了更高的要求。
然而,在现有的AI服务请求调度技术中,需要投入较高的成本来购买和维护大规模的计算和存储设备,需要处理密集型的计算任务,需要与多个AI服务微服务进行交互等功能,需要较多的计算时间,需要更多的服务器资源来应对请求量的增加,涉及敏感信息和数据,涉及多个微服务和复杂的网络结构,会依赖一些第三方技术和工具,且这些技术和工具的稳定性和可靠性可能不尽相同,因此,在现有技术中,便会出现成本高、效率低、结构复杂、速度慢、管理维护困难以及技术不稳定等问题。
发明内容
本申请提供一种AI服务请求调度的方法、装置、设备及介质,用于解决现有的AI服务请求调度技术中出现的低资源利用率和低响应等问题。
一方面,提供一种AI服务请求调度的方法,所述方法包括:
调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;
根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;
在所述目标AI网关与所述目标节点中的AI应用之间建立websocket长连接;
调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点。
可选的,在调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点之后,所述方法还包括:
调用所述AI应用对所述资源调度请求进行解析,生成资源调度任务;
调用所述AI应用对所述资源调度任务进行处理,获得调度处理结果。
可选的,在调用所述AI应用对所述资源调度任务进行处理,获得调度处理结果之后,所述方法还包括:
调用所述AI应用将所述调度处理结果反馈给所述目标AI网关;
调用所述目标AI网关将所述调度处理结果反馈给所述Nginx服务器;
调用所述Nginx服务器将所述调度处理结果反馈给所述AI业务系统。
可选的,在根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点之前,所述方法还包括:
调用节点管理平台通过监控平台获取所述算力集群中各个节点的节点信息;
调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息。
可选的,所述调用节点管理平台通过监控平台获取所述算力集群中各个节点的节点信息的步骤,包括:
根据数据缓存或预加载机制,调用节点管理平台通过监控平台从数据库中获取算力集群中各个节点的节点信息。
可选的,在调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息之后,所述方法还包括:
若监控平台监控到存在节点下线,或监控到存在节点资源配置发生变化,则调用所述节点管理平台向所述目标AI网关发送节点变化通知;
根据所述节点变化通知,调用所述目标AI网关获取相应的节点实时更新信息。
可选的,在调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息之后,所述方法还包括:
若监控平台监控到存在节点出现故障,则调用所述节点管理平台向所述目标AI网关发送节点切换通知;
根据所述节点切换通知,调用所述目标AI网关进行节点自动切换。
一方面,提供一种AI服务请求调度的装置,所述装置包括:
请求发送单元,用于调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;
节点确定单元,用于根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;
连接建立单元,用于在所述目标AI网关与所述目标节点中的AI应用之间建立websocket长连接;
请求分配单元,用于调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点。
一方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种方法。
一方面,提供一种计算机存储介质,其上存储有计算机程序指令,该计算机程序指令被处理器执行时实现上述任一种方法。
与现有技术相比,本申请的有益效果为:
在本申请实施例中,当AI服务请求调度时,首先,可以调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;然后,可以根据预设的负载均衡算法与算力集群中各个节点的节点信息,来调用目标AI网关确定进行资源调度的目标节点;其中,各个节点均采用AidLux融合操作系统,且节点信息包括节点状态、资源配置以及负载情况;接下来,可以在目标AI网关与目标节点中的AI应用之间建立websocket长连接;最后,可以调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点。因此,在本申请实施例中,由于是根据预设的负载均衡算法与算力集群中各个节点的节点信息,来调用目标AI网关确定进行资源调度的目标节点,即,可以通过一个目标AI网关来解决AI服务请求调度,因此,可以智能地将资源调度请求分配给处于空闲或低负载状态的节点,从而,实现计算资源的高效利用。此外,由于可以调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点,因此,可以快速地将资源调度请求分发到目标节点上,进而,减少请求的排队等待时间,以快速获得响应,提高用户体验。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的AI服务请求调度的整体架构示意图;
图3为本申请实施例提供的AI服务请求调度的方法的一种流程示意图;
图4为本申请实施例提供的AI服务请求调度的装置的一种示意图。
图中标记:10-AI服务请求调度的设备,101-处理器,102-存储器,103-I/O接口,104-数据库,40-AI服务请求调度的装置,401-请求发送单元,402-节点确定单元,403-连接建立单元,404-请求分配单元,405-结果获得单元,406-结果反馈单元,407-节点信息获取单元,408-节点切换单元。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
随着人工智能的快速发展,越来越多的企业和组织开始使用“AI服务”来提高业务效率、优化决策和改进用户体验,其中,AI服务包括图像识别、自然语言处理和预测分析等。但是,随着AI服务的增加,为确保AI服务的高可用性、高性能和安全性,对处理和调度这些AI服务请求提出了更高的要求。
然而,在现有的AI服务请求调度技术中,存在着以下几个缺点:第一,由于AI服务通常需要大量计算资源和存储资源来处理复杂的任务,因此,在实现AI服务请求调度的网关时,需要投入较高的成本来购买和维护大规模的计算和存储设备;第二,由于AI服务的处理通常是密集型的计算任务,特别是对于大规模的数据集和复杂的模型,因此,导致处理时间较长,整体效率较低;第三,由于AI服务请求调度网关需要与多个AI服务微服务进行交互,并负责请求的路由和负载均衡等功能,因此,导致结构较为复杂,需要更复杂的设计和管理;第四,由于AI服务的处理通常需要较多的计算时间,因此,导致整体的响应速度可能相对较慢,不适用于实时性要求较高的场景;第五,随着AI服务的不断增加,网关便会面临可伸缩性问题,特别是在高并发情况下,就需要更多的服务器资源来应对请求量的增加;第六,由于AI服务可能会涉及敏感信息和数据,因此,在网关层需要加强安全认证和授权机制,以保护AI服务的安全性;第七,由于涉及多个微服务和复杂的网络结构,因此,对于AI服务请求调度网关的管理和维护较为困难,需要更多的人力和资源投入;第八,由于在实现AI服务请求调度网关时,会依赖一些第三方技术和工具,且这些技术和工具的稳定性和可靠性可能不尽相同,因此,会对系统的稳定性和可用性产生影响。
基于此,本申请实施例提供一种AI服务请求调度的方法,在该方法中,首先,可以调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;然后,可以根据预设的负载均衡算法与算力集群中各个节点的节点信息,来调用目标AI网关确定进行资源调度的目标节点;其中,各个节点均采用AidLux融合操作系统,且节点信息包括节点状态、资源配置以及负载情况;接下来,可以在目标AI网关与目标节点中的AI应用之间建立websocket长连接;最后,可以调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点。因此,在本申请实施例中,由于是根据预设的负载均衡算法与算力集群中各个节点的节点信息,来调用目标AI网关确定进行资源调度的目标节点,即,可以通过一个目标AI网关来解决AI服务请求调度,因此,可以智能地将资源调度请求分配给处于空闲或低负载状态的节点,从而,实现计算资源的高效利用。此外,由于可以调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点,因此,可以快速地将资源调度请求分发到目标节点上,进而,减少请求的排队等待时间,以快速获得响应,提高用户体验。
在介绍完本申请实施例的设计思想之后,下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍,需要说明的是,以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中,可以根据实际需要灵活地应用本申请实施例提供的技术方案。
如图1所示,为本申请实施例提供的一种应用场景示意图。该应用场景中可以包括AI服务请求调度的设备10。
其中,AI服务请求调度的设备10可以用于进行AI服务请求调度,例如,可以为个人计算机(Personal Computer,PC)、服务器与手提电脑等。AI服务请求调度的设备10可包括一个或者多个处理器101、存储器102、I/O接口103以及数据库104。具体的,处理器101可以为中央处理单元(central processing unit,CPU),或者为数字处理单元等等。存储器102可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器102也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器102是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器102可以是上述存储器的组合。存储器102中可以存储本申请实施例提供的AI服务请求调度的方法的部分程序指令,这些程序指令被处理器101执行时能够用以实现本申请实施例提供的AI服务请求调度的方法的步骤,以解决现有的AI服务请求调度技术中出现的低资源利用率和低响应等问题。数据库104可以用于存储本申请实施例提供的方案中涉及到的资源调度请求、预设的负载均衡算法、算力集群中各个节点的节点信息和调度处理结果等数据。
在本申请实施例中,AI服务请求调度的设备10可以通过I/O接口103获取AI业务系统发送的资源调度请求,然后,AI服务请求调度的设备10的处理器101会按照存储器102中本申请实施例提供的AI服务请求调度的方法的程序指令来解决现有的AI服务请求调度技术中出现的低资源利用率和低响应等问题。此外,还可以将资源调度请求、预设的负载均衡算法、算力集群中各个节点的节点信息和调度处理结果等数据存储于数据库104中。
如图2所示,为本申请实施例提供的一种AI服务请求调度的整体架构示意图,具体的,该整体架构中包括AI业务系统、Nginx服务器、AI网关、算力集群、节点管理平台、监控平台以及数据库。其中,算力集群为分布式集群,例如,在北京、成都等地分别布置的资源管理器(RM,Resource Manager),且,每一个RM中可以包括多个AidLux融合操作系统,每一个AidLux融合操作系统中包括一个Oracle管理代理(OMA,Oracle Management Agent)和一个AI应用。
在实际应用中,RM可以在节点管理平台上进行注册,监控平台可以对每一个RM进行的监控,以获得算力集群中各个节点(AidLux融合操作系统)的节点信息,且还可以将监控所得的各种数据存储至数据库中,其中,数据库可以为Kafka数据库以及Redis服务数据库等等。此外,AI网关在获取算力集群中各个节点的节点信息时,具体可以通过节点管理平台从监控平台中获取。在实际应用中,可以存在多种不同的节点管理平台供选择,且,可以根据具体需求和实际情况来选择最适合的节点管理平台。
进而,如图2所示,当AI业务系统向Nginx服务器发送资源调度请求之后,Nginx服务器可以作为中转设备,将该资源调度请求中转给AI网关,然后,AI网关便会根据预设的负载均衡算法与算力集群中各个节点的节点信息,来确定出进行资源调度的目标节点,进而,AI网关便会与目标节点中的AI应用之间建立websocket长连接,基于此,AI网关便可通过websocket长连接来将资源调度请求分配给目标节点,从而,目标节点便可以根据资源调度请求进行相应的资源调度。
当然,本申请实施例提供的方法并不限用于图1所示的应用场景中,还可以用于其他可能的应用场景,本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述,在此先不过多赘述。下面,将结合附图对本申请实施例的方法进行介绍。
如图3所示,为本申请实施例提供的AI服务请求调度的方法的一种流程示意图,该方法可以通过图1中的AI服务请求调度的设备10来执行,具体的,该方法的流程介绍如下。
步骤301:调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求。
在本申请实施例中,可以为各个AI网关设置不同的优先级,以及具体可以包含有多种类型的AI网关,例如,工业物联网智能网关以及智能家庭网关等,且资源调度请求中可以包含资源调度的实际应用场景(工业场景、家庭场景等)。进而,在调用目标AI网关,来通过Nginx服务器接收AI业务系统发送的资源调度请求时,具体便可以根据AI网关的优先级和资源调度请求中包含的资源调度的实际应用场景,来确定该目标AI网关。
步骤302:根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用目标AI网关确定进行资源调度的目标节点。
在本申请实施例中,如图2所示,算力集群中各个节点均采用可以AidLux融合操作系统,且节点信息可以包括节点状态、资源配置以及负载情况等。
进而,在实际应用中,首先,可以根据资源调度请求中包含资源调度的应用场景来选择最合适的预设的负载均衡算法,例如,轮询算法、加权轮询算法以及最少连接算法等。然后,在确定要进行资源调度的目标节点时,便可以直接根据确定出的预设的负载均衡算法与算力集群中各个节点的节点信息,来调用目标AI网关确定进行资源调度的目标节点。其中,该目标节点可以为处于空闲或低负载状态的节点。
步骤303:在目标AI网关与目标节点中的AI应用之间建立websocket长连接。
在本申请实施例中,为了减少资源浪费和节约时间,可以在目标AI网关与目标节点中的AI应用之间建立websocket长连接,以省去较多的TCP建立和关闭的操作,从而,降低请求的延迟,实现更快速的响应,便于后续的通信和数据传输。
当然,在本申请实施例中,还可以根据具体的业务需求和性能要求,来考虑使用短连接或者其他通信协议。
步骤304:调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点。
在本申请实施例中,在建立了websocket长连接之后,便可以直接调用目标AI网关,来通过websocket长连接将资源调度请求分配给目标节点。
进而,通过上述方式,目标AI网关便能够实时管理算力集群的节点信息,并根据负载均衡算法合理分配请求到不同的节点上,从而,实现AI服务请求的调度功能,以有效地提高AI服务的效率和性能,并具备较好的可伸缩性和稳定性。
在一种可能的实施方式中,为了完成资源调度,在将资源调度请求分配给目标节点之后,便可以直接调用目标节点中的AI应用来对资源调度请求进行解析,从而,生成资源调度任务。进而,便可以根据实际情况,调用AI应用中的不同AI算法,来对资源调度任务进行处理,以获得调度处理结果。
在一种可能的实施方式中,为了使用户获知资源调度的情况,在获得调度处理结果之后,首先,可以调用AI应用将调度处理结果反馈给目标AI网关;然后,可以调用目标AI网关将调度处理结果反馈给Nginx服务器;最后,可以调用Nginx服务器将调度处理结果反馈给AI业务系统,以完成资源调度的整个请求-响应的过程。
在一种可能的实施方式中,为了保证节点信息的实时性,以及对节点信息的综合管理,在本申请实施例中,在调用目标AI网关确定进行资源调度的目标节点之前,还可以调用节点管理平台,来通过监控平台获取算力集群中各个节点的节点信息;进而,便可以调用目标AI网关,来从节点管理平台中获取算力集群中各个节点的节点信息。
在一种可能的实施方式中,为了提高数据读取的速度和效率,以加速AI算法的处理过程,在本申请实施例中,针对特定的AI应用场景,可以根据数据缓存或预加载机制,调用节点管理平台,来通过监控平台从数据库中获取算力集群中各个节点的节点信息。
在一种可能的实施方式中,为了能够实时监测节点的状态,在本申请实施例中,若监控平台监控到存在节点下线,或监控到存在节点资源配置发生变化(某个节点出现故障),则可以调用节点管理平台,来向目标AI网关发送节点变化通知;进而,根据该节点变化通知,可以调用目标AI网关,来获取相应的节点实时更新信息。
在一种可能的实施方式中,为了实现高可用性和容错性的机制(保证系统的稳定性和可靠性),例如,节点故障时的自动切换和恢复,在本申请实施例中,若监控平台监控到存在节点出现故障,则可以调用节点管理平台,来向目标AI网关发送节点切换通知;进而,根据该节点切换通知,便可以调用目标AI网关来进行节点自动切换,即,当某个节点出现故障或下线时,资源调度请求可以被转发到其他健康的节点,以提高系统的稳定性和可靠性,进而,实现系统在面对节点故障时能够自动调整,避免单点故障的影响。
在一种可能的实施方中,在本申请实施例中,可以根据需求选择合适的安全认证和授权方式,如基于Token的认证、OAuth等,来确保AI服务的安全性。
综上所述,本申请的技术方案具体包含有以下几个优点:
1、由于通过预设的负载均衡算法,资源调度请求可以智能地被分配给处于空闲或低负载状态的节点,因此,可以避免出现某些节点过度负载而导致性能下降的情况,从而,提高整个系统的资源利用率。
2、由于通过预设的负载均衡算法,能够快速将资源调度请求分发到可用的节点上,因此,减少了请求的排队等待时间,降低了整体的请求响应时间,进而,用户在使用AI服务时能够更快地获得响应,以提高了用户体验。
3、由于通过预设的负载均衡算法,能够实时监测节点的状态,且当某个节点出现故障或下线时,资源调度请求可以被转发到其他健康的节点,即,系统在面对节点故障时能够自动调整,因此,可以避免单点故障的影响,以提高系统的稳定性和可靠性。
4、由于通过预设的负载均衡算法,可以支持横向扩展,即,在系统负载增加时可以通过添加更多节点来扩展系统的处理能力,而无需对现有系统进行修改,因此,可以使得系统具有良好的可扩展性,能够适应业务的增长和变化。
基于同一发明构思,本申请实施例提供一种AI服务请求调度的装置40,如图4所示,该AI服务请求调度的装置40包括:
请求发送单元401,用于调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;
节点确定单元402,用于根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;
连接建立单元403,用于在目标AI网关与目标节点中的AI应用之间建立websocket长连接;
请求分配单元404,用于调用目标AI网关通过websocket长连接将资源调度请求分配给目标节点。
可选的,AI服务请求调度的装置40还包括结果获得单元405,该结果获得单元405,用于:
调用AI应用对资源调度请求进行解析,生成资源调度任务;
调用AI应用对资源调度任务进行处理,获得调度处理结果。
可选的,AI服务请求调度的装置40还包括结果反馈单元406,该结果反馈单元406,用于:
调用AI应用将调度处理结果反馈给目标AI网关;
调用目标AI网关将调度处理结果反馈给Nginx服务器;
调用Nginx服务器将调度处理结果反馈给AI业务系统。
可选的,AI服务请求调度的装置40还包括节点信息获取单元407,该节点信息获取单元407,用于:
调用节点管理平台通过监控平台获取算力集群中各个节点的节点信息;
调用目标AI网关从节点管理平台中获取算力集群中各个节点的节点信息。
可选的,该节点信息获取单元407,还用于:
根据数据缓存或预加载机制,调用节点管理平台通过监控平台从数据库中获取算力集群中各个节点的节点信息。
可选的,该节点信息获取单元407,还用于:
若监控平台监控到存在节点下线,或监控到存在节点资源配置发生变化,则调用节点管理平台向目标AI网关发送节点变化通知;
根据节点变化通知,调用目标AI网关获取相应的节点实时更新信息。
可选的,AI服务请求调度的装置40还包括节点切换单元408,该节点切换单元408,用于:
若监控平台监控到存在节点出现故障,则调用节点管理平台向目标AI网关发送节点切换通知;
根据节点切换通知,调用目标AI网关进行节点自动切换。
该AI服务请求调度的装置40可以用于执行图3所示的实施例中AI服务请求调度的装置所执行的方法,因此,对于该AI服务请求调度的装置40的各功能模块所能够实现的功能等可参考图3所示的实施例的描述,不多赘述。
在一些可能的实施方式中,本申请提供的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤,例如,所述计算机设备可以执行如图3所示的实施例中AI服务请求调度的装置所执行的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种AI服务请求调度的方法,其特征在于,所述方法包括:
调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;
根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;
在所述目标AI网关与所述目标节点中的AI应用之间建立websocket长连接;
调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点。
2.如权利要求1所述的方法,其特征在于,在调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点之后,所述方法还包括:
调用所述AI应用对所述资源调度请求进行解析,生成资源调度任务;
调用所述AI应用对所述资源调度任务进行处理,获得调度处理结果。
3.如权利要求2所述的方法,其特征在于,在调用所述AI应用对所述资源调度任务进行处理,获得调度处理结果之后,所述方法还包括:
调用所述AI应用将所述调度处理结果反馈给所述目标AI网关;
调用所述目标AI网关将所述调度处理结果反馈给所述Nginx服务器;
调用所述Nginx服务器将所述调度处理结果反馈给所述AI业务系统。
4.如权利要求1所述的方法,其特征在于,在根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点之前,所述方法还包括:
调用节点管理平台通过监控平台获取所述算力集群中各个节点的节点信息;
调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息。
5.如权利要求4所述的方法,其特征在于,所述调用节点管理平台通过监控平台获取所述算力集群中各个节点的节点信息的步骤,包括:
根据数据缓存或预加载机制,调用节点管理平台通过监控平台从数据库中获取算力集群中各个节点的节点信息。
6.如权利要求4所述的方法,其特征在于,在调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息之后,所述方法还包括:
若监控平台监控到存在节点下线,或监控到存在节点资源配置发生变化,则调用所述节点管理平台向所述目标AI网关发送节点变化通知;
根据所述节点变化通知,调用所述目标AI网关获取相应的节点实时更新信息。
7.如权利要求4所述的方法,其特征在于,在调用所述目标AI网关从所述节点管理平台中获取所述算力集群中各个节点的节点信息之后,所述方法还包括:
若监控平台监控到存在节点出现故障,则调用所述节点管理平台向所述目标AI网关发送节点切换通知;
根据所述节点切换通知,调用所述目标AI网关进行节点自动切换。
8.一种AI服务请求调度的装置,其特征在于,所述装置包括:
请求发送单元,用于调用目标AI网关通过Nginx服务器接收AI业务系统发送的资源调度请求;
节点确定单元,用于根据预设的负载均衡算法与算力集群中各个节点的节点信息,调用所述目标AI网关确定进行资源调度的目标节点;其中,所述各个节点均采用AidLux融合操作系统,且所述节点信息包括节点状态、资源配置以及负载情况;
连接建立单元,用于在所述目标AI网关与所述目标节点中的AI应用之间建立websocket长连接;
请求分配单元,用于调用所述目标AI网关通过所述websocket长连接将所述资源调度请求分配给所述目标节点。
9.一种电子设备,其特征在于,所述设备包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-7中任一所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348107.0A CN117076057B (zh) | 2023-10-18 | 2023-10-18 | 一种ai服务请求调度的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348107.0A CN117076057B (zh) | 2023-10-18 | 2023-10-18 | 一种ai服务请求调度的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117076057A true CN117076057A (zh) | 2023-11-17 |
CN117076057B CN117076057B (zh) | 2024-01-26 |
Family
ID=88715767
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348107.0A Active CN117076057B (zh) | 2023-10-18 | 2023-10-18 | 一种ai服务请求调度的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076057B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104023068A (zh) * | 2014-06-13 | 2014-09-03 | 北京信诺瑞得软件系统有限公司 | 一种负载均衡中实现被动模式弹性计算资源调度的方法 |
US20190258781A1 (en) * | 2011-10-11 | 2019-08-22 | Citrix Systems, Inc. | Secure Execution of Enterprise Applications on Mobile Devices |
US20200220746A1 (en) * | 2017-08-28 | 2020-07-09 | Luminati Networks Ltd. | System and Method for Improving Content Fetching by Selecting Tunnel Devices |
CN112422610A (zh) * | 2020-09-11 | 2021-02-26 | 深圳市证通电子股份有限公司 | 一种基于分布式对象存储的智能网关方法和系统 |
US20220158979A1 (en) * | 2019-04-02 | 2022-05-19 | Bright Data Ltd. | System and method for managing non-direct url fetching service |
CN114625520A (zh) * | 2022-05-16 | 2022-06-14 | 中博信息技术研究院有限公司 | 一种基于限流的分布式任务调度网关调度方法 |
CN114710496A (zh) * | 2022-04-24 | 2022-07-05 | 中国工商银行股份有限公司 | 一种多节点负载均衡方法及装置 |
CN114710499A (zh) * | 2022-03-30 | 2022-07-05 | 重庆川仪自动化股份有限公司 | 基于算力路由的边缘计算网关负载均衡方法、装置及介质 |
CN115051978A (zh) * | 2022-08-15 | 2022-09-13 | 广东采日能源科技有限公司 | 设备监控实现方法及系统 |
US20230007677A1 (en) * | 2015-10-31 | 2023-01-05 | Parallel Wireless, Inc. | Elastic Scheduling |
CN115633093A (zh) * | 2022-10-24 | 2023-01-20 | 平安银行股份有限公司 | 资源获取方法、装置、计算机设备及计算机可读存储介质 |
-
2023
- 2023-10-18 CN CN202311348107.0A patent/CN117076057B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190258781A1 (en) * | 2011-10-11 | 2019-08-22 | Citrix Systems, Inc. | Secure Execution of Enterprise Applications on Mobile Devices |
CN104023068A (zh) * | 2014-06-13 | 2014-09-03 | 北京信诺瑞得软件系统有限公司 | 一种负载均衡中实现被动模式弹性计算资源调度的方法 |
US20230007677A1 (en) * | 2015-10-31 | 2023-01-05 | Parallel Wireless, Inc. | Elastic Scheduling |
US20200220746A1 (en) * | 2017-08-28 | 2020-07-09 | Luminati Networks Ltd. | System and Method for Improving Content Fetching by Selecting Tunnel Devices |
US20220158979A1 (en) * | 2019-04-02 | 2022-05-19 | Bright Data Ltd. | System and method for managing non-direct url fetching service |
CN112422610A (zh) * | 2020-09-11 | 2021-02-26 | 深圳市证通电子股份有限公司 | 一种基于分布式对象存储的智能网关方法和系统 |
CN114710499A (zh) * | 2022-03-30 | 2022-07-05 | 重庆川仪自动化股份有限公司 | 基于算力路由的边缘计算网关负载均衡方法、装置及介质 |
CN114710496A (zh) * | 2022-04-24 | 2022-07-05 | 中国工商银行股份有限公司 | 一种多节点负载均衡方法及装置 |
CN114625520A (zh) * | 2022-05-16 | 2022-06-14 | 中博信息技术研究院有限公司 | 一种基于限流的分布式任务调度网关调度方法 |
CN115051978A (zh) * | 2022-08-15 | 2022-09-13 | 广东采日能源科技有限公司 | 设备监控实现方法及系统 |
CN115633093A (zh) * | 2022-10-24 | 2023-01-20 | 平安银行股份有限公司 | 资源获取方法、装置、计算机设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
BJARNE JOHANSSON等: "Kubernetes Orchestration of High Availability Distributed Control Systems", 《2022 IEEE INTERNATIONAL CONFERENCE ON INDUSTRIAL TECHNOLOGY (ICIT)》, pages 1 - 8 * |
刘保帅: "大规模边缘计算设备资源调度管理研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 139 - 145 * |
Also Published As
Publication number | Publication date |
---|---|
CN117076057B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107087019B (zh) | 一种基于端云协同计算架构的任务调度方法及装置 | |
CN113448721A (zh) | 算力处理的网络系统及算力处理方法 | |
CN108632365B (zh) | 服务资源调整方法、相关装置和设备 | |
CN115328663B (zh) | 基于PaaS平台进行资源调度的方法、装置、设备和存储介质 | |
CN101262498B (zh) | 一种分布式调用消息的方法和装置 | |
CN110430068A (zh) | 一种特征工程编排方法及装置 | |
CN115297008B (zh) | 基于智算网络的协同训练方法、装置、终端及存储介质 | |
CN111597043A (zh) | 一种全场景边缘计算方法、装置及系统 | |
CN111200606A (zh) | 深度学习模型任务处理方法、系统、服务器及存储介质 | |
CN113703997A (zh) | 集成多种消息代理的双向异步通信中间件系统及实现方法 | |
CN112104679B (zh) | 处理超文本传输协议请求的方法、装置、设备和介质 | |
CN111510493A (zh) | 分布式数据传输方法及装置 | |
WO2022257247A1 (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN114546646A (zh) | 处理方法和处理装置 | |
CN112286698A (zh) | 远程过程调用方法、装置以及远程过程调用执行方法 | |
CN116402318B (zh) | 面向配电网的多级算力资源分配方法、装置及网络架构 | |
WO2021063026A1 (zh) | 一种推理服务网络化的方法及装置 | |
CN117076057B (zh) | 一种ai服务请求调度的方法、装置、设备及介质 | |
CN111190731A (zh) | 基于权重的集群任务调度系统 | |
CN108667920B (zh) | 一种雾计算环境业务流量加速系统及其业务流量加速方法 | |
CN116192849A (zh) | 一种异构加速板卡计算方法、装置、设备及介质 | |
CN113965563B (zh) | 基于模型的业务处理方法及装置、服务器 | |
EP4187814A1 (en) | Data processing method and device | |
CN115499432A (zh) | 家庭终端算力资源管理系统及算力资源调度方法 | |
CN115250276A (zh) | 分布式系统及数据处理的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |