CN111506367B - 多集群式人工智能在线服务方法及系统 - Google Patents

多集群式人工智能在线服务方法及系统 Download PDF

Info

Publication number
CN111506367B
CN111506367B CN202010310086.3A CN202010310086A CN111506367B CN 111506367 B CN111506367 B CN 111506367B CN 202010310086 A CN202010310086 A CN 202010310086A CN 111506367 B CN111506367 B CN 111506367B
Authority
CN
China
Prior art keywords
job
target
cluster
service
target job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010310086.3A
Other languages
English (en)
Other versions
CN111506367A (zh
Inventor
谢冬鸣
林健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongyun Ruilian Wuhan Computing Technology Co ltd
Original Assignee
Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongyun Ruilian Wuhan Computing Technology Co ltd filed Critical Dongyun Ruilian Wuhan Computing Technology Co ltd
Priority to CN202010310086.3A priority Critical patent/CN111506367B/zh
Publication of CN111506367A publication Critical patent/CN111506367A/zh
Application granted granted Critical
Publication of CN111506367B publication Critical patent/CN111506367B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/448Execution paradigms, e.g. implementations of programming paradigms
    • G06F9/4482Procedural
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种多集群式人工智能在线服务方法及系统,所述方法通过获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问。

Description

多集群式人工智能在线服务方法及系统
技术领域
本发明涉及分布式系统领域,尤其涉及一种多集群式人工智能在线服务方法及系统。
背景技术
近年来,人工智能技术高速发展,并已被诸多行业广泛应用;以在线服务方式提供人工智能技术,是技术落地和支撑应用的重要途径;人工智能服务的在线服务方式既包括公有云、私有云、混合云等云计算模式,也包括传统的局域网内自建服务模式。
在多集群环境下运行人工智能在线服务有明确的业务需求;然而,人工智能业务及多集群式在线服务环境各自的特点又为这类服务的高效、安全实现带来了一些问题:人工智能在线服务需要支持批处理和微服务两大类作业运行模式,以及非实时web界面交互、实时web界面交互、编程访问API等多种交互模式;不同交互模式具有各自的技术特点,它们对服务软件架构及通信组件的需求也各不相同;在多集群服务软件设计时,难以通过一套简单的机制统一管理;而且,在多集群环境下,各个集群的网络之间通常不能自由访问,而要受到一定的规则约束,包括入出站IP范围约束、协议约束、端口约束、连接持久性约束等;并且,混合云相比一般的多集群环境,还涉及到其他的跨管理域的安全性问题以及多套用户认证机制共存问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种多集群式人工智能在线服务方法及系统,旨在解决现有技术中人工智能作业类型多,与外部交互模式的差异大,且存在权限约束,设计复杂的技术问题。
为实现上述目的,本发明提供一种多集群式人工智能在线服务方法,所述多集群式人工智能在线服务方法包括以下步骤:
获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;
根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;
在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈。
优选地,所述获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式,包括:
获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息;
响应于所述状态查询信息和所述运行日志查询信息,接收从本地业务系统获得的所述目标作业的作业运行模式。
优选地,所述获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息,包括:
获取用户提交的目标作业请求及目标作业;
响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录;
根据所述目标文件存储目录获取所述目标作业对应的状态查询信息和运行日志查询信息。
优选地,所述获取用户提交的目标作业请求及目标作业的步骤之后,所述多集群式人工智能在线服务方法还包括:
获取所述目标作业请求对应的用户信息,通过预设身份认证组件对所述用户信息进行身份认证;
在身份认证通过时,允许执行响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录的步骤;
在身份认证未通过时,禁止响应所述目标作业请求,并反馈认证失败信息。
优选地,所述根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器,包括:
在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器;
在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器。
优选地,所述在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,包括:
在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户。
优选地,所述在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈之前,所述多集群式人工智能在线服务方法还包括:
根据预设转发规则或动态转发规则将所述目标作业转发至所述目标作业集群。
此外,为实现上述目的,本发明还提供一种多集群式人工智能在线服务系统,所述多集群式人工智能在线服务系统包括:
分析模块,用于获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;
组件确定模块,用于根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;
执行模块,用于在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈。
优选地,所述组件确定模块,包括:
批处理组件模块,用于在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器;
微服务组件模块,用于在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器。
优选地,所述执行模块,包括:
批处理执行模块,用于在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
微服务执行模块,用于在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户。
本发明提出的多集群式人工智能在线服务方法,通过获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问。
附图说明
图1为本发明多集群式人工智能在线服务方法第一实施例的流程示意图;
图2为本发明多集群式人工智能在线服务方法第二实施例的流程示意图;
图3为本发明多集群式人工智能在线服务方法第三实施例的流程示意图;
图4为本发明多集群式人工智能在线服务系统第一实施例的功能模块图;
图5为本发明多集群式人工智能在线服务方法的作业集群架构示意图。
图6为本发明多集群式人工智能在线服务方法的服务集群架构示意图。
图7为本发明多集群式人工智能在线服务方法的中央网关架构示意图。
图8为本发明多集群式人工智能在线服务方法的作业集群运行示意图。
图9为本发明多集群式人工智能在线服务方法的日志组件示意图。
图10为本发明多集群式人工智能在线服务方法的代理转发组件示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的解决方案主要是:本发明通过获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问,解决了现有技术中人工智能作业类型多,与外部交互模式的差异大,且存在权限约束,设计复杂的技术问题。
参照图1,图1为本发明多集群式人工智能在线服务方法第一实施例的流程示意图。
在第一实施例中,所述多集群式人工智能在线服务方法包括以下步骤:
步骤S10、获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式。
需要说明的是,所述目标作业请求用户通过全球广域网(World Wide Web,web)界面或者应用程序接口(Application Programming Interface,API)向服务集群发起作业请求,一般的,所述目标作业请求包含该作业的所属用户信息及作业信息;对所述目标作业进行分析,能够确定所述目标作业的作业运行模式。
在具体实现中,本实施例的执行主体为服务集群,其用来管理用户提交的作业元数据及生命周期,即实现人工智能在线服务系统的逻辑功能;所述目标作业可以是深度学习作业,其中,深度学习的应用场景主要涉及的计算业务包括训练、推理、开发环境调测以及可视化等等,所以,深度学习作业的作业类型主要包括训练作业、开发环境调测作业、可视化作业和推理作业等等;其中,训练作业可以是单机或分布式的,分布式的实现方式可以有多种;对于分布式的训练作业,其运行方式被实现为多种调度模式,通常需要按照某种策略进行批量启动及运行,训练结束所有的任务退出,作业自动结束;而对于其他的作业类型如推理、开发环境调测以及可视化等,通常不以批量的形式运行,且运行时长由用户手动控制,此类服务需要长时间运行,并在运行期间通过web页面或者API的形式为客户提供服务,此类作业通常称之为微服务作业。
步骤S20、根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器。
需要说明的是,不同的作业运行模式对应所述目标作业不同的目标作业集群以及不同的组件或容器;根据所述作业运行模式可以确定合适的作业运行系统,即合适的作业集群,通过适配对应的网关组件或容器能够实现针对性的部署人工智能在线服务,实现跨集群的安全访问。
步骤S30、在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈。
可以理解的是,确定了所述目标作业集群和所述目标网关组件或目标容器后,可以在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,一般是反馈到用户终端,使用户实时了解作业处理情况,在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明。
在具体实现中,服务集群根据用户的目标作业请求携带的作业信息,从自身的业务系统中查询得到目标作业所在的目标作业集群,将目标作业请求通过中央网关继续转发至该目标作业集群;目标作业集群在接收到该目标作业请求时,统一将目标作业请求发送至目标作业集群中的代理转发组件,代理转发组件根据请求中的作业信息和用户信息,向身份服务组件发送认证确认请求,获取到确认信息之后将请求根据转发规则转发至相应的作业容器或者日志组件。
进一步地,所述步骤S30之前,所述多集群式人工智能在线服务方法还包括:
根据预设转发规则或动态转发规则将所述目标作业转发至所述目标作业集群。
需要说明的是,所述预设转发规则为预先设置的转发规则,所述动态转发规则为服务集群通过API创建的动态规则,或者根据用户的请求即时创建规则;通过所述预设转发规则和所述动态转发规则可以将所述目标作业转发至正确的目的服务;根据外部人工智能微服务请求,将接收到的请求转发至相对目标作业集群。
在具体实现中,一般通过代理转发组件预先设定了部分转发规则,同时接收服务集群通过API创建的动态规则,或者根据用户的请求即时创建规则;此类动态规则对应到该作业集群中运行的各批处理作业或者微服务。当该代理转发组件接收到具体的作业请求时,先根据作业请求中的作业和用户信息,向身份认证服务进行身份验证,在用户身份验证通过后,根据其拥有的规则找到匹配的作业容器或日志组件,将请求进行转发。
本实施例通过上述方案,通过获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问。
进一步地,图2为本发明多集群式人工智能在线服务方法第二实施例的流程示意图,如图2所示,基于第一实施例提出本发明多集群式人工智能在线服务方法第二实施例,在本实施例中,所述步骤S10包括以下步骤:
步骤S11、获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息。
可以理解的是,通过对所述目标作业进行分析,可以获得所述目标作业对应的状态查询信息和运行日志查询信息,所述状态查询信息为查询到的反映所述目标作业的接口状态信息,在各类基于超文本传输协议(HyperText Transfer Protocol,HTTP)协议的交互接口中,有些是有状态的,有些是无状态的;有些具有幂等性,有些没有幂等性;有些可以随意添加各类用户认证机制,有些只有设计透明的用户认证机制才能避免影响原有协议工作;各类作业均会产生日志,所述运行日志查询信息为查询到的所述目标作业运行时产生的或历史记录日志信息。进一步地,所述步骤S11包括以下步骤:
获取用户提交的目标作业请求及目标作业;
响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录;
根据所述目标文件存储目录获取所述目标作业对应的状态查询信息和运行日志查询信息。
应当理解的是,通过响应于所述目标作业请求,可以在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录,从而获取与所述目标作业对应的状态查询信息和运行日志查询信息;所述预设日志存储服务文件系统中预先存储有为不同作业分配的文件存储目录,在接收服务集群对人工智能作业日志相关请求时,能正确获取底层的日志内容并响应。
进一步地,所述步骤获取用户提交的目标作业请求及目标作业之后,所述多集群式人工智能在线服务方法还包括:
获取所述目标作业请求对应的用户信息,通过预设身份认证组件对所述用户信息进行身份认证;
在身份认证通过时,允许执行响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录的步骤;
在身份认证未通过时,禁止响应所述目标作业请求,并反馈认证失败信息。
需要说明的是,所述目标作业请求中存储有作业对应的用户信息,在实际操作中,所述目标作业请求的作业语义能够与对应的用户身份信息进行绑定,所述预设身份认证组件可以部署在服务器集群中,也可以部署在内部作业集群中,还可以单独部署,本实施例对此不加以限制;获取所述目标作业请求对应的用户信息,通过预设身份认证组件对所述用户信息进行身份认证;认证的方式是可以通过用户信息进行权限鉴定,身份认证通过则继续执行后续步骤,未通过则禁止响应所述目标作业请求,并反馈认证失败信息,所述认证失败信息可以反馈至服务端即服务集群,也可以反馈至用户设备端,当然还可以反馈至其他终端,本实施例对此不加以限制。
在具体实现中,所述用户信息一般从HTTP请求中解析出来,身份认证服务以HTTP协议中Header或者Cookie的数据作为身份认证的来源信息;当然也可以是其他来源信息作为身份认证的依据,本实施例对此不加以限制;身份认证服务可以为Java开发的Rest服务,以Pod的形式运行在以Kubernetes为实现的服务集群上;其可以是其他开发语言开发的服务组件,也可以单独运行在作业集群和服务集群之外。其主要功能包括:为服务集群提供身份认证功能,用户通过Web界面或者API向服务集群发起请求时,为其提供登陆功能和后续身份合法性认证能力;在作业集群接收到作业请求之后,根据请求中的用户信息,向身份认证服务进行查询,进行身份信息的真伪判定,确保用户合法且不是伪造。
步骤S12、响应于所述状态查询信息和所述运行日志查询信息,接收从本地业务系统获得的所述目标作业的作业运行模式。
在具体实现中,所述作业运行模式一般在提交作业时已经确定,在本地业务系统中存储有相应的作业运行模式,即在自身的业务系统中可以查询到,响应于所述状态查询信息和所述运行日志查询信息,接收从本地业务系统获得的所述目标作业的作业运行模式;一般的,作业运行模式有两种不同的类型:一是以模型训练和批量推理为代表的批处理类作业,二是以实时推理、调测工具和可视化工具为代表的微服务类作业;批处理作业类似于经典的高性能计算或大数据处理作业,一般通过批处理作业调度器管理和执行,具有与具体业务相关的、有限的生命周期;后者类似于经典的web服务或平台即服务(Platform-as-a-Service,PaaS)层API服务,一般通过微服务调度器管理和执行,具有无状态的、可无限延伸的生命周期。
本实施例通过上述方案,通过获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息;响应于所述状态查询信息和所述运行日志查询信息,接收从本地业务系统获得的所述目标作业的作业运行模式,能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问。
进一步地,图3为本发明多集群式人工智能在线服务方法第二实施例的流程示意图,如图3所示,基于第一实施例提出本发明多集群式人工智能在线服务方法第三实施例,在本实施例中,所述步骤S20包括以下步骤:
步骤S21、在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器。
需要说明的是,在处于批处理作业模式时,需要部署一个日志网关组件;进行日志收集和查询服务,所述运行批处理作业的作业集群能够提供批处理作业真正的计算资源和其他运行时环境;提供对批处理作业的调度能力,不同于对微服务类型作业的调度,批处理作业需要具备专业群调度能力;提供或者访问日志存储的分布式文件系统;将接收到的批处理作业调度至合适的资源节点运行;根据服务集群发过来的日志请求,通过作业集群中的日志服务组件,正确返回对应作业的日志响应;其典型的群调度能力包括“单进程”、“多进程分布式”、“PS-Worker分布式”和“MPI分布式”等;如果作业集群需要支持人工智能批处理作业,需要至少支持上述典型群调度能力中的一种或多种。
步骤S22、在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器。
可以理解的是,在处于微服务作业模式时,需要部署一个代理转发组件,一般的场景为Rest推理类服务,或者web类的开发环境,服务集群中包含一个代理转发组件,亦可称之为中央网关,对微服务类型的请求或者对批处理作业的日志请求,此代理转发组件可以透明的将用户的请求转发至各个作业集群,并获取结果;根据服务集群发过来的作业请求,通过代理转发组件转发至合适的批处理作业或者微服务作业容器。
相应地,所述步骤S30包括以下步骤:
在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户。
应当理解的是,不同的作业运行模式对应不同的目标作业处理方式,在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业;在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业;能够实现在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明。
本实施例通过上述方案,通过在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器;在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器;能够在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明;并在人工智能在线服务中便捷高效地接入外部集群资源,实现了跨集群的安全访问。
基于上述多集群式人工智能在线服务方法的实施例,本发明进一步提供一种多集群式人工智能在线服务系统。
参照图4,图4为本发明多集群式人工智能在线服务系统第一实施例的功能模块图。
本发明多集群式人工智能在线服务系统第一实施例中,该多集群式人工智能在线服务系统包括:
分析模块10,用于获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式。
需要说明的是,所述目标作业请求用户通过全球广域网(World Wide Web,web)界面或者应用程序接口(Application Programming Interface,API)向服务集群发起作业请求,一般的,所述目标作业请求包含该作业的所属用户信息及作业信息;对所述目标作业进行分析,能够确定所述目标作业的作业运行模式。
在具体实现中,本实施例的执行主体为服务集群,其用来管理用户提交的作业元数据及生命周期,即实现人工智能在线服务系统的逻辑功能;所述目标作业可以是深度学习作业,其中,深度学习的应用场景主要涉及的计算业务包括训练、推理、开发环境调测以及可视化等等,所以,深度学习作业的作业类型主要包括训练作业、开发环境调测作业、可视化作业和推理作业等等;其中,训练作业可以是单机或分布式的,分布式的实现方式可以有多种;对于分布式的训练作业,其运行方式被实现为多种调度模式,通常需要按照某种策略进行批量启动及运行,训练结束所有的任务退出,作业自动结束;而对于其他的作业类型如推理、开发环境调测以及可视化等,通常不以批量的形式运行,且运行时长由用户手动控制,此类服务需要长时间运行,并在运行期间通过web页面或者API的形式为客户提供服务,此类作业通常称之为微服务作业。
组件确定模块20,用于根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器。
需要说明的是,不同的作业运行模式对应所述目标作业不同的目标作业集群以及不同的组件或容器;根据所述作业运行模式可以确定合适的作业运行系统,即合适的作业集群,通过适配对应的网关组件或容器能够实现针对性的部署人工智能在线服务,实现跨集群的安全访问。
进一步地,所述组件确定模块20包括:
批处理组件模块,用于在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器。
微服务组件模块,用于在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器。
可以理解的是,在处于批处理作业模式时,需要部署一个日志网关组件;进行日志收集和查询服务,所述运行批处理作业的作业集群能够提供批处理作业真正的计算资源和其他运行时环境;提供对批处理作业的调度能力,不同于对微服务类型作业的调度,批处理作业需要具备专业群调度能力;提供或者访问日志存储的分布式文件系统;将接收到的批处理作业调度至合适的资源节点运行;根据服务集群发过来的日志请求,通过作业集群中的日志服务组件,正确返回对应作业的日志响应;其典型的群调度能力包括“单进程”、“多进程分布式”、“PS-Worker分布式”和“MPI分布式”等;如果作业集群需要支持人工智能批处理作业,需要至少支持上述典型群调度能力中的一种或多种。
应当理解的是,在处于微服务作业模式时,需要部署一个代理转发组件,一般的场景为Rest推理类服务,或者web类的开发环境,服务集群中包含一个代理转发组件,亦可称之为中央网关,对微服务类型的请求或者对批处理作业的日志请求,此代理转发组件可以透明的将用户的请求转发至各个作业集群,并获取结果;根据服务集群发过来的作业请求,通过代理转发组件转发至合适的批处理作业或者微服务作业容器。
执行模块30,用于在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈。
可以理解的是,确定了所述目标作业集群和所述目标网关组件或目标容器后,可以在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,一般是反馈到用户终端,使用户实时了解作业处理情况,在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明。
在具体实现中,服务集群根据用户的目标作业请求携带的作业信息,从自身的业务系统中查询得到目标作业所在的目标作业集群,将目标作业请求通过中央网关继续转发至该目标作业集群;目标作业集群在接收到该目标作业请求时,统一将目标作业请求发送至目标作业集群中的代理转发组件,代理转发组件根据请求中的作业信息和用户信息,向身份服务组件发送认证确认请求,获取到确认信息之后将请求根据转发规则转发至相应的作业容器或者日志组件。
进一步地,所述执行模块30包括:
批处理执行模块,用于在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
微服务执行模块,用于在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户。
应当理解的是,不同的作业运行模式对应不同的目标作业处理方式,在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业;在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业;能够实现在因安全等各种需求而规划的多集群部署环境中部署人工智能在线服务,并对最终用户透明。
其中,多集群式人工智能在线服务系统的各个功能模块实现的步骤可参照本发明多集群式人工智能在线服务方法的各个实施例,此处不再赘述。
基于上述多集群式人工智能在线服务方法的实施例,本发明实施例还提出一种多集群式人工智能在线服务方法的作业集群架构示意图,图5为本发明多集群式人工智能在线服务方法的作业集群架构示意图。
参照图5,人工智能批处理作业经由服务集群统一管理后可调度至不同的作业集群运行;用户在访问人工智能微服务作业时,请求也统一通过服务集群网关进行转发代理,其多个作业集群对用户来讲是透明的;此种架构方式的作用之一是可以解决服务集群和作业集群的网络规划问题,在实际场景中多个作业集群可以处于企业的多个子网,各个作业集群可以实现网络间相互隔离以及数据与业务的隔离。
基于本发明实施例设计,本人工智能在线服务系统在运行时可以动态添加新的作业集群,新的作业集群注册至服务集群之后服务集群即可把后续人工智能作业提交至新增的作业集群之上;以此可以实现资源的动态扩容,在作业量增大现有计算资源不足时可以使用新的作业集群来进行资源的扩展。同时新的集群资源可以租用公有云资源,同原有集群资源一起组成混合云,一起协同工作。
并且,服务集群同多个作业集群的通信方式限定在服务集群的中央网关同作业集群的代理转发组件之间,通信链路单一。在实际实施中,各个集群可以各自实施独立的网络约束,然后在服务集群的中央网关同作业集群的代理转发组件上去验证和满足这些网络约束,以此可以保证多集群之间通信的安全性。
相应地,本发明实施例还提出一种多集群式人工智能在线服务方法的服务集群架构示意图,图6为本发明多集群式人工智能在线服务方法的服务集群架构示意图。
参照图6,服务集群中部署着人工智能在线服务系统中所需要的功能组件,主要完成系统所需要的业务能力;其主要能力包括:
提供对终端用户服务入口;提供用户管理批处理作业或者微服务作业生命周期的功能;将用户提交的人工智能作业,转发至合适的后端作业集群运行;接收用户对已有批处理作业或者微服务的请求信息,进行业务判断,查询出作业所在的作业集群,将请求转发至该作业集群;接收到作业的日志请求时,进行业务判断,查询出作业所在的作业集群,将请求转发至该作业集群;在实际操作中,服务集群运行在Kubernetes之上,服务集群中的各个业务组件以Docker容器形式运行于其上,Kubernetes提供了一系列服务抽象来保证服务集群中众多业务组件能够以高可用的形式稳定运行。
相应地,本发明实施例还提出一种多集群式人工智能在线服务方法的中央网关架构示意图,图7为本发明多集群式人工智能在线服务方法的中央网关架构示意图。
参照图7,在实际操作中,中央网关组件使用Spring Cloud Gateway开发,以Pod的形式运行在以Kubernetes为实现的服务集群上;中央网关组件在接收到用户请求时,先进行逻辑判断,判断该请求是否需要转发至作业集群;如是,先根据作业请求中的作业和用户信息,向身份认证服务进行身份验证,在用户身份验证通过后,通过查询业务组件,获取该作业所在作业集群信息,将请求进行代理转发至实际的作业集群,获取相应后再响应给终端用户;此过程全程对终端用户透明,终端用户感受不到独立作业集群的存在。
相应地,本发明实施例还提出一种多集群式人工智能在线服务方法的作业集群运行示意图,图8为本发明多集群式人工智能在线服务方法的作业集群运行示意图。
参照图8,作业集群是以Kubernetes容器编排服务实现的;在实施例中,人工智能作业任务采用Docker容器的方式运行,作业基础镜像采用Docker镜像;Kubernetes使用开源的容器管理软件Docker作为创建和管理容器的平台软件;Docker容器运行在多个计算节点上,一个计算节点可以运行多个容器;用户的人工智能作业对应的应用程序在Docker容器中运行,用户可以通过作业容器暴露的接口访问来容器内的资源;作业集群批处理作业调度器可使用能够运行于Kubernetes之上的开源调度组件,只需要其能提供高性能任务调度引擎,能够稳定高效地调度本系统中多种人工智能批处理作业即可;作业集群以Kubernetes REST API的形式对外提供服务,供服务集群中的业务组件通过REST API的形式提交人工智能批处理作业;作业集群在收到请求后,根据作业元数据信息中的调度信息将作业分配给调度器进行调度运行。
相应地,本发明实施例还提出一种多集群式人工智能在线服务方法的日志组件示意图,图9为本发明多集群式人工智能在线服务方法的日志组件示意图。
参照图9,在实际操作中,作业集群需要的日志存储文件系统为网络文件系统(Network File System,NFS);存储系统保存作业日志文件,因为NFS具有在分布式系统中全局可访问的单一存储空间,便于批处理作业进行多节点的日志写入;NFS以Kubernetes中的持久化卷Persistent Volumes的形式挂载至人工智能作业运行的Docker容器中,透明地为人工智能作业提供日志存储文件系统;同时此NFS服务也被系统中的日志组件读取,用于服务终端用户的日志请求。
日志组件为使用Golang开发的Rest服务,以Pod的形式运行在以Kubernetes为实现的作业集群上;日志组件读取实施例中部署的网络文件系统NFS,查询获取到具体的人工智能作业的日志文件内容,返回给用户。
在实际操作中,可以以TensorFlow分布式训练这类批处理作业为例来说明日志组件工作流程。假定用户user1运行了一个包括1个PS任务进程和2个worker任务进程的批处理作业,假定此作业名为job1。该批处理作业在作业集群被调度运行后,将日志文件系统NFS中创建形如'/user1/job1/'的日志文件夹,在此文件夹下写入'ps1.log','worker1.log'和'worker2.log'三个作业日志;以用户user1要查看job1的日志为例,当日志组件接收到'user1'要查看'job1'的'ps1'容器的日志请求时,日志组件从请求参数中得到'user1'、'job1'和'ps1'三个参数信息,然后从日志存储文件系统NFS中查找到'/user1/job1/ps1.log',然后将这个日志文件的内容返回给用户。
相应地,本发明实施例还提出一种多集群式人工智能在线服务方法的代理转发组件示意图,图10为本发明多集群式人工智能在线服务方法的代理转发组件示意图。
参照图10,作业集群的代理转发组件使用Spring Cloud Gateway开发,以Pod的形式运行在以Kubernetes为实现的作业集群上,并以HTTPS协议的方式代理所有发送至作业集群的作业请求。本申请实施例的代理转发组件预先设定了部分转发规则,同时接收服务集群通过API创建的动态规则,或者根据用户的请求即时创建规则;此类动态规则对应到该作业集群中运行的各批处理作业或者微服务。当该代理转发组件接收到具体的作业请求时,先根据作业请求中的作业和用户信息,向身份认证服务进行身份验证,在用户身份验证通过后,根据其拥有的规则找到匹配的作业容器或日志组件,将请求进行转发。
图10中的上图表示从服务集群发送至作业集群的微服务作业请求在本申请实施例的作业集群代理转发组件中的工作流程,该工作流程为:作业集群代理转发组件接收到服务集群发送的微服务作业的请求;从接收到的HTTP请求中解析出用户身份信息;将解析出的身份信息发送至本申请实施例中部署的身份认证服务,获取身份验证信息,如果身份验证失败,流程结束,返回失败信息给服务集群;如果身份验证成功,继续后续流程;根据请求中的路由信息,查询内部已有的路由规则,找到匹配的微服务作业的路由将请求转发给的微服务作业容器;微服务作业容器返回结果给作业集群代理转发组件;将微服务作业返回的响应返回给服务集群。
图10中的下图表示从服务集群发送至作业集群的人工智能作业日志请求在本申请实施例的作业集群代理转发组件中的工作流程,该工作流程为:作业集群代理转发组件接收到服务集群发送的作业日志的请求;从接收到的HTTP请求中解析出用户身份信息;将解析出的身份信息发送至本申请实施例中部署的身份认证服务,获取身份验证信息,如果身份验证失败,流程结束,返回失败信息给服务集群;如果身份验证成功,继续后续流程;根据请求中的路由信息,匹配到预置的日志组件路由信息;将请求转发给步骤4中获取到的日志组件;日志组件容器返回结果给作业集群代理转发组件;将日志组件返回的响应返回给服务集群。
运行批处理作业的作业集群运行微服务作业的作业集群运行批处理作业的作业集群运行微服务作业的作业集群
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种多集群式人工智能在线服务方法,其特征在于,所述多集群式人工智能在线服务方法包括:
获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;
根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;
在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈;
其中,所述根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器,包括:
在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器;
在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器;
其中,所述在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈,包括:
在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
其中,所述目标作业集群以Kubernetes容器编排服务实现。
2.如权利要求1所述的多集群式人工智能在线服务方法,其特征在于,所述获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式,包括:
获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息;
响应于所述状态查询信息和所述运行日志查询信息,接收从本地业务系统获得的所述目标作业的作业运行模式。
3.如权利要求2所述的多集群式人工智能在线服务方法,其特征在于,所述获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,获得所述目标作业对应的状态查询信息和运行日志查询信息,包括:
获取用户提交的目标作业请求及目标作业;
响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录;
根据所述目标文件存储目录获取所述目标作业对应的状态查询信息和运行日志查询信息。
4.如权利要求3所述的多集群式人工智能在线服务方法,其特征在于,所述获取用户提交的目标作业请求及目标作业的步骤之后,所述多集群式人工智能在线服务方法还包括:
获取所述目标作业请求对应的用户信息,通过预设身份认证组件对所述用户信息进行身份认证;
在身份认证通过时,允许执行响应于所述目标作业请求在预设日志存储服务文件系统中查询与所述目标作业对应的目标文件存储目录的步骤;
在身份认证未通过时,禁止响应所述目标作业请求,并反馈认证失败信息。
5.如权利要求1-4中任一项所述的多集群式人工智能在线服务方法,其特征在于,所述在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈之前,所述多集群式人工智能在线服务方法还包括:
根据预设转发规则或动态转发规则将所述目标作业转发至所述目标作业集群。
6.一种多集群式人工智能在线服务系统,其特征在于,所述多集群式人工智能在线服务系统包括:
分析模块,用于获取用户提交的目标作业请求及目标作业,对所述目标作业进行分析,确定所述目标作业的作业运行模式;
组件确定模块,用于根据所述作业运行模式确定所述目标作业对应的目标作业集群,以及执行所述目标作业需要的目标网关组件或目标容器;
执行模块,用于在所述目标作业集群中通过所述目标网关组件或目标容器执行所述目标作业,获得处理结果并进行反馈;
所述组件确定模块,包括:
批处理组件模块,用于在所述作业运行模式为批处理作业模式时,确定所述目标作业对应的目标作业集群为运行批处理作业的作业集群,以及执行所述目标作业需要的目标网关组件为日志网关组件,或目标容器为批处理作业容器;
微服务组件模块,用于在所述作业运行模式为微服务作业模式时,确定所述目标作业对应的目标作业集群为运行微服务作业的作业集群,以及执行所述目标作业需要的目标网关组件为代理转发组件,或目标容器为微服务作业容器;
所述执行模块,包括:
批处理执行模块,用于在所述运行批处理作业的作业集群中通过所述日志网关组件或所述批处理作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
微服务执行模块,用于在所述运行微服务作业的作业集群中通过所述代理转发组件或所述微服务作业容器处理所述目标作业,获得处理结果,并将所述处理结果反馈至终端用户;
所述组件确定模块,还用于所述目标作业集群运行在Kubernetes之上,所述目标网关组件或所述目标容器以Docker容器形式运行于Kubernetes之上。
CN202010310086.3A 2020-04-20 2020-04-20 多集群式人工智能在线服务方法及系统 Active CN111506367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010310086.3A CN111506367B (zh) 2020-04-20 2020-04-20 多集群式人工智能在线服务方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010310086.3A CN111506367B (zh) 2020-04-20 2020-04-20 多集群式人工智能在线服务方法及系统

Publications (2)

Publication Number Publication Date
CN111506367A CN111506367A (zh) 2020-08-07
CN111506367B true CN111506367B (zh) 2023-09-22

Family

ID=71877741

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010310086.3A Active CN111506367B (zh) 2020-04-20 2020-04-20 多集群式人工智能在线服务方法及系统

Country Status (1)

Country Link
CN (1) CN111506367B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111736827B (zh) * 2020-08-25 2020-12-01 长沙慧码至一信息科技有限公司 一种云原生开发组件系统
CN112733892A (zh) * 2020-12-28 2021-04-30 北京聚云科技有限公司 一种用于模型训练的数据交互方法及装置
CN113010377A (zh) * 2021-03-03 2021-06-22 中国工商银行股份有限公司 一种作业的运行日志的采集方法及装置
CN114143313B (zh) * 2021-11-30 2024-03-19 招商局金融科技有限公司 基于云原生的集群通信装置、方法及相关设备
CN114296880A (zh) * 2021-12-30 2022-04-08 天翼物联科技有限公司 基于大规模集群的服务请求处理方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
US10430233B1 (en) * 2015-06-26 2019-10-01 Emc Corporation Scheduling computational tasks among multiple classes of storage resources based on job classification
US10452441B1 (en) * 2018-10-15 2019-10-22 Accenture Global Solutions Limited Determining an allocation of computing resources for a job
CN110636103A (zh) * 2019-07-22 2019-12-31 中山大学 一种多异构集群作业统一调度方法及api接口

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474495B2 (en) * 2018-01-08 2019-11-12 Accenture Global Solutions Limited Utilizing an artificial intelligence model determined for a target domain based on a dataset associated with a source domain

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430233B1 (en) * 2015-06-26 2019-10-01 Emc Corporation Scheduling computational tasks among multiple classes of storage resources based on job classification
CN107943555A (zh) * 2017-10-17 2018-04-20 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
US10452441B1 (en) * 2018-10-15 2019-10-22 Accenture Global Solutions Limited Determining an allocation of computing resources for a job
CN109933306A (zh) * 2019-02-11 2019-06-25 山东大学 混合计算框架生成、数据处理方法、装置及混合计算框架
CN110636103A (zh) * 2019-07-22 2019-12-31 中山大学 一种多异构集群作业统一调度方法及api接口

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡雅鹏 ; 丁维龙 ; 王桂玲 ; .一种面向异构大数据计算框架的监控及调度服务.计算机科学.2018,(06),第67-71,95页. *

Also Published As

Publication number Publication date
CN111506367A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111506367B (zh) 多集群式人工智能在线服务方法及系统
US9081835B2 (en) Edge deployed database proxy driver
US10715388B2 (en) Using a container orchestration service for dynamic routing
US20060048157A1 (en) Dynamic grid job distribution from any resource within a grid environment
CN108282489B (zh) 一种漏洞扫描方法、服务端及系统
US7065526B2 (en) Scalable database management system
CN111567010B (zh) 用于管理opc ua服务器容量的方法、系统和存储介质
KR101497167B1 (ko) 분산 운영 시스템에서의 외부 하드웨어 기기의 관리
JP7461471B2 (ja) クロス・クラウド・オペレーションのためのクラウド・サービス
Elmroth et al. An interoperable, standards-based Grid resource broker and job submission service
CN113037891B (zh) 边缘计算系统中有状态应用的访问方法、装置及电子设备
US20220131816A1 (en) Virtual agent portal integration of two frameworks
CN110661780A (zh) 一种基于saas应用的无线城市数据共享方法与系统
Costa et al. Large-scale volunteer computing over the Internet
CN113391878A (zh) 远程访问方法、装置、系统和存储介质
US20170195426A1 (en) Maintaining session across plural providing devices
KR102338652B1 (ko) 멀티 클라우드 환경에서 템플릿을 이용한 자동 디플로이 방법
US11258860B2 (en) System and method for bot detection and classification
Chandramohan et al. FEWSS—Framework to evaluate the service suitability and privacy in a distributed web service environment
US20210377718A1 (en) Pattern affinity for discovery
CN107818122A (zh) 一种代理组件、搜索管理方法及搜索管理系统
WO2020190968A1 (en) Action determination for case management
Kissel Janus: Lightweight Container Orchestration for High-performance Data Sharing
US11522943B1 (en) System and method for deferring data retrieval
CN110287434B (zh) 网站处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant