CN116415683A - 机器学习任务的服务绑定方法和装置 - Google Patents
机器学习任务的服务绑定方法和装置 Download PDFInfo
- Publication number
- CN116415683A CN116415683A CN202111672693.5A CN202111672693A CN116415683A CN 116415683 A CN116415683 A CN 116415683A CN 202111672693 A CN202111672693 A CN 202111672693A CN 116415683 A CN116415683 A CN 116415683A
- Authority
- CN
- China
- Prior art keywords
- service
- state
- machine learning
- operator
- learning task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000036541 health Effects 0.000 claims abstract description 64
- 230000008569 process Effects 0.000 claims abstract description 12
- 238000012544 monitoring process Methods 0.000 claims description 29
- 230000003862 health status Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 16
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000007689 inspection Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 10
- 230000001960 triggered effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000010076 replication Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000013024 troubleshooting Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
公开一种机器学习任务的服务绑定方法和装置,所述服务绑定方法包括:获取所述机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据,其中,所述机器学习任务包括多个服务阶段,每个服务阶段包括多个服务能力算子;基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态;基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态;基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。该服务绑定方法能够实现机器学习任务各个阶段的服务绑定。
Description
技术领域
本公开总体说来涉及机器学习领域,更具体地讲,涉及一种机器学习任务的服务绑定方法和装置。
背景技术
机器学习运维(MLOps)定义的机器学习全生命周期,从数据工作流(datapipeline)到模型训练(model training),从模型训练到模型服务(model serving),从模型训练到模型监控(model monitoring),各个部分现在大多都是独立的,或者说是割裂的。由于一方面各个部分是割裂的,另一方面各个部分之间彼此又有联系,所以一旦某个部分出现问题,就会给优化模型、迭代模型和排查问题等任务带来巨大的挑战。
发明内容
本公开提供一种机器学习任务的服务绑定方法和装置,用于至少解决上述问题,也可不解决上述问题。
根据本公开的一方面,提供一种机器学习任务的服务绑定方法,所述服务绑定方法包括:获取所述机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据,其中,所述机器学习任务包括多个服务阶段,每个服务阶段包括多个服务能力算子;基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态;基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态;基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
可选地,所述服务信息数据包括标准指标数据和业务指标数据中的至少一个,其中,所述标准指标数据表示在各个机器学习任务中通用的指标性数据,所述业务指标数据表示在特定的机器学习任务中使用的指标性数据。
可选地,所述第二状态检查规则包括默认检查规则和备用检查规则,其中,所述按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态,包括:按照所述默认检查规则确定每个服务阶段的第二健康状态;当所述默认检查规则失效时,将所述第二状态检查规则由所述默认检查规则切换至所述备用检查规则,并按照备用检查规则确定每个服务阶段的第二健康状态。
可选地,所述第一健康状态和第二健康状态包括运行状态、成功状态、失败状态和警告状态中的至少一个,其中,所述运行状态表示当前节点正在运行中的状态,所述成功状态表示当前节点已完成运行的状态,所述失败状态表示当前节点运行失败的状态,所述警告状态表示当前节点运行异常的状态,其中,所述当前节点包括当前服务能力算子和当前服务阶段中的至少一个。
可选地,所述服务绑定方法还包括:通过用户界面,将所述运行状态表示为第一符号,将所述成功状态表示为第二符号,将所述失败状态表示为第三符号,以及将所述警告状态表示为第四符号,从而对每个服务能力算子的第一健康状态和每个服务阶段的第二健康状态进行展示。
可选地,基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个,包括:基于所述多个服务阶段中的至少一个服务阶段的第二健康状态是警告状态或失败状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
可选地,所述机器学习任务的服务阶段包括数据工作流阶段、模型训练阶段、模型服务阶段和模型监控阶段中的至少一个。
可选地,所述模型监控阶段的服务能力算子包括流量复制算子,其中,所述流量复制算子用于抓取所述模型服务阶段的在线实时流量数据的流量特征。
可选地,所述模型监控阶段的服务能力算子还包括数据漂移算子和模型漂移算子中的至少一个,其中,所述数据漂移算子用于通过所述流量特征判断是否发生数据漂移,以及所述模型漂移算子用于通过所述流量特征判断是否发生模型漂移。
可选地,基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个,包括:当所述模型监控阶段的第二健康状态是失败状态,并且所述数据漂移算子判断出发生数据漂移时,触发报警操作和所述模型服务阶段的A/B流量分配操作中的至少一个。
可选地,基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个,包括:当所述模型监控阶段的第二健康状态是失败状态,并且所述模型漂移算子判断出发生模型漂移时,触发报警操作和所述模型训练阶段的模型重新训练操作中的至少一个。
根据本公开的另一方面,提供一种机器学习任务的服务绑定装置,所述服务绑定装置包括:数据获取单元,被配置为:获取所述机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据,其中,所述机器学习任务包括多个服务阶段,每个服务阶段包括多个服务能力算子;第一检查单元,被配置为:基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态;第二检查单元,被配置为:基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态;操作触发单元,被配置为:基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
可选地,所述服务信息数据包括标准指标数据和业务指标数据中的至少一个,其中,所述标准指标数据表示在各个机器学习任务中通用的指标性数据,所述业务指标数据表示在特定的机器学习任务中使用的指标性数据。
可选地,所述第二状态检查规则包括默认检查规则和备用检查规则,其中,所述第二检查单元被配置为:按照所述默认检查规则确定每个服务阶段的第二健康状态;当所述默认检查规则失效时,将所述第二状态检查规则由所述默认检查规则切换至所述备用检查规则,并按照备用检查规则确定每个服务阶段的第二健康状态。
可选地,所述第一健康状态和第二健康状态包括运行状态、成功状态、失败状态和警告状态中的至少一个,其中,所述运行状态表示当前节点正在运行中的状态,所述成功状态表示当前节点已完成运行的状态,所述失败状态表示当前节点运行失败的状态,所述警告状态表示当前节点运行异常的状态,其中,所述当前节点包括当前服务能力算子和当前服务阶段中的至少一个。
可选地,所述服务绑定装置还包括:状态展示单元,被配置为:通过用户界面,将所述运行状态表示为第一符号,将所述成功状态表示为第二符号,将所述失败状态表示为第三符号,以及将所述警告状态表示为第四符号,从而对每个服务能力算子的第一健康状态和每个服务阶段的第二健康状态进行展示。
可选地,所述操作触发单元被配置为:基于所述多个服务阶段中的至少一个服务阶段的第二健康状态是警告状态或失败状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
可选地,所述机器学习任务的服务阶段包括数据工作流阶段、模型训练阶段、模型服务阶段和模型监控阶段中的至少一个。
可选地,所述模型监控阶段的服务能力算子包括流量复制算子,其中,所述流量复制算子用于抓取所述模型服务阶段的在线实时流量数据的流量特征。
可选地,所述模型监控阶段的服务能力算子还包括数据漂移算子和模型漂移算子中的至少一个,其中,所述数据漂移算子用于通过所述流量特征判断是否发生数据漂移,以及所述模型漂移算子用于通过所述流量特征判断是否发生模型漂移。
可选地,所述操作触发单元被配置为:当所述模型监控阶段的第二健康状态是失败状态,并且所述数据漂移算子判断出发生数据漂移时,触发报警操作和所述模型服务阶段的A/B流量分配操作中的至少一个。
可选地,所述操作触发单元被配置为:当所述模型监控阶段的第二健康状态是失败状态,并且所述模型漂移算子判断出发生模型漂移时,触发报警操作和所述模型训练阶段的模型重新训练操作中的至少一个。
根据本公开的另一方面,提供一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的机器学习任务的服务绑定方法。
根据本公开的另一方面,提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如上所述的机器学习任务的服务绑定方法。
根据本公开示例性实施例的机器学习任务的服务绑定方法和装置可以通过Kubernetes提供的Operator技术,将机器学习任务的各个部分定义为各个阶段(stage),并结合事件驱动(Event Driver)将数据处理、模型训练、模型服务和模型监控全链路连接起来,能够在拥有机器学习任务全流程信息的基础上,实现各个阶段的服务绑定,给优化模型、迭代模型和排查问题等任务带来了便利。
将在接下来的描述中部分阐述本公开总体构思另外的方面和/或优点,还有一部分通过描述将是清楚的,或者可以经过本公开总体构思的实施而得知。
附图说明
通过结合附图,从实施例的下面描述中,本公开这些和/或其它方面及优点将会变得清楚,并且更易于理解,其中:
图1是示出根据本公开示例性实施例的机器学习任务的服务绑定方法的流程图;
图2是示出根据本公开示例性实施例的机器学习任务的服务绑定方法的用户界面演示图;
图3是示出根据本公开示例性实施例的机器学习任务的服务绑定装置的框图。
具体实施方式
提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本发明的实施例的全面理解。包括各种特定细节以帮助理解,但这些细节仅被视为是示例性的。因此,本领域的普通技术人员将认识到在不脱离本发明的范围和精神的情况下,可对描述于此的实施例进行各种改变和修改。此外,为了清楚和简洁,省略对公知的功能和结构的描述。
在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情况:(1)执行步骤一;(2)执行步骤二;(3)执行步骤一和步骤二。
根据本公开示例性实施例的机器学习任务的服务绑定方法和装置可以通过Kubernetes提供的Operator技术,将机器学习任务的各个部分定义为各个阶段(stage),并结合事件驱动(Event Driver)将数据工作流、模型训练、模型服务和模型监控全链路连接起来,从而拥有机器学习任务全流程的信息,同时给优化模型、迭代模型和排查问题等任务带来了便利。这里,数据工作流可以表示数据的自动化流水线处理服务。
下面参照图1至图3详细描述根据本公开示例性实施例的机器学习任务的服务绑定方法和装置。
图1是示出根据本公开示例性实施例的机器学习任务的服务绑定方法的流程图。根据本公开示例性实施例的机器学习任务的服务绑定方法可以在具有足够运算能力的计算装置中实现。
参照图1,在步骤S101中,可获取机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据。这里,机器学习任务可包括多个服务阶段,每个服务阶段可包括多个服务能力算子。进一步地,服务阶段的数量和服务能力算子的数量可由本领域技术人员根据当前机器学习任务的实际情况来确定。
根据本公开的示例性实施例,服务信息数据可包括标准指标数据和业务指标数据中的至少一个。这里,标准指标数据可表示在各个机器学习任务中通用的指标性数据,业务指标数据可表示在特定的机器学习任务中使用的指标性数据。进一步地,特定的机器学习任务可以是回归任务、分类任务、聚类任务或者降维任务等,标准指标数据和业务指标数据可由本领域技术人员根据统一的标准规范来进行配置。
接下来,在步骤S102中,可基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态。作为示例,服务能力算子可记录整个计算过程的服务信息数据,在计算完成之后,这些服务信息数据可包括指示计算是否正常完成的数据,然后可基于这些服务信息数据,并按照预先设置的第一状态检查规则确定相应服务能力算子的第一健康状态。这里,第一状态检查规则可由本领域技术人员根据实际情况来设置。
接下来,在步骤S103中,可基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态。作为示例,如上所述,每个服务阶段可包括多个服务能力算子,针对某个服务阶段,某些服务能力算子计算失败或者计算过程异常不影响该服务阶段的整体状态,换言之,某些服务能力算子计算失败或者计算过程异常不影响结果,因此可通过配置第二状态检查规则来排除这些服务能力算子的第一健康状态对其所属服务阶段的第二健康状态的影响。
根据本公开的示例性实施例,第二状态检查规则可包括默认检查规则和备用检查规则。在此基础上,可按照默认检查规则确定每个服务阶段的第二健康状态,当默认检查规则失效时,可将第二状态检查规则由默认检查规则切换至备用检查规则,并按照备用检查规则确定每个服务阶段的第二健康状态。这里,默认检查规则和备用检查规则可由本领域技术人员根据实际情况来设置。
根据本公开的示例性实施例,第一健康状态和第二健康状态可包括运行状态、成功状态、失败状态和警告状态中的至少一个。这里,运行状态可表示当前节点正在运行中的状态,成功状态可表示当前节点已完成运行的状态,失败状态可表示当前节点运行失败的状态,警告状态可表示当前节点运行异常(例如负载高或者监控指标偏移等)的状态。进一步地,当前节点可包括当前服务能力算子和当前服务阶段中的至少一个。作为示例,针对第一健康状态,当前节点可以是当前服务能力算子;而针对第二健康状态,当前节点可以是当前服务阶段。
根据本公开的示例性实施例,可通过用户界面(User Interface,UI),将运行状态表示为第一符号,将成功状态表示为第二符号,将失败状态表示为第三符号,以及将警告状态表示为第四符号,从而对每个服务能力算子的第一健康状态和每个服务阶段的第二健康状态进行展示。这里,可通过第一符号、第二符号、第三符号和第四符号对不同类型的第二健康状态进行区分。
接下来,在步骤S104中,可基于多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。这里,可基于多个服务阶段中的至少一个服务阶段的第二健康状态是警告状态或失败状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。进一步地,可通过触发报警操作对机器学习任务的运维人员发出警示信息,从而使运维人员能够及时对出现的问题进行人工干预,也可通过触发相应服务阶段的服务操作对出现的问题进行自动处理。更进一步地,服务操作可包括模型重新训练操作或者A/B流量分配操作,但不限于此,服务操作的具体操作内容可由本领域技术人员根据各个服务阶段的实际配置来进行设置。
根据本公开的示例性实施例,机器学习任务的服务阶段可包括数据工作流阶段、模型训练阶段、模型服务阶段和模型监控阶段中的至少一个。这里,模型监控阶段的服务能力算子可包括流量复制算子。进一步地,流量复制算子可用于抓取模型服务阶段的在线实时流量数据的流量特征。作为示例,模型监控阶段的服务能力算子还可包括数据漂移算子和模型漂移算子中的至少一个。这里,数据漂移算子可用于通过流量特征判断是否发生数据漂移,以及模型漂移算子可用于通过流量特征判断是否发生模型漂移。进一步地,数据漂移可表示数据的统计属性随着时间变化而发生变化的情况,模型漂移可表示模型随着时间推移变得不稳定而导致预测结果不断出错的情况。更进一步地,数据漂移算子判断是否发生数据漂移的计算方式和模型漂移算子判断是否发生模型漂移的计算方式,可由本领域技术人员根据当前机器学习任务所训练的具体模型来进行设置。
根据本公开的示例性实施例,当模型监控阶段的第二健康状态是失败状态,并且数据漂移算子判断出发生数据漂移时,可触发报警操作和模型服务阶段的A/B流量分配操作中的至少一个。
根据本公开的示例性实施例,当模型监控阶段的第二健康状态是失败状态,并且模型漂移算子判断出发生模型漂移时,触发报警操作和模型训练阶段的模型重新训练操作中的至少一个。下面参照图2详细描述根据本公开示例性实施例的机器学习任务的服务绑定方法的用户界面展示效果。
图2是示出根据本公开示例性实施例的机器学习任务的服务绑定方法的用户界面演示图。
参照图2,作为示例,图示用户界面中的机器学习任务的全流程包括如图所示的数据、模型、服务和监控四个服务阶段,各个服务阶段的每个服务能力算子记录整个计算过程的服务信息数据,并通过Kubernetes提供的Operator技术统计服务信息数据,从而确定各个服务能力算子和各个服务阶段的健康状态。具体地讲,图示数据阶段和模型阶段对应的符号表示成功状态,服务阶段对应的符号表示警告状态,以及监控阶段对应的符号表示失败状态,可通过各个服务阶段的第二健康状态,判断机器学习任务的整体运行情况。另外,图示监控阶段包括模型服务算子、流量复制算子、特征提取算子、特征存储(feature_store)算子、数据漂移算子和模型漂移算子,通过鼠标选中模型服务算子之后,还可展示该算子的详细信息(例如服务信息数据);上述每个服务能力算子的第一健康状态都是成功状态,并且基于上述服务能力算子,可抓取服务阶段的在线实时流量数据的数据特征,然后计算是否发生数据漂移或者模型漂移,当发生漂移时可根据操作触发规则触发报警或者模型重新训练等操作。
图3是示出根据本公开示例性实施例的机器学习任务的服务绑定装置的框图。根据本公开示例性实施例的机器学习任务的服务绑定装置可以在具有足够运算能力的计算装置中实现。
参照图3,根据本公开示例性实施例的机器学习任务的服务绑定装置300可包括数据获取单元301、第一检查单元302、第二检查单元303和操作触发单元304。
数据获取单元301可获取机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据。如上所述,机器学习任务可包括多个服务阶段,每个服务阶段可包括多个服务能力算子。
根据本公开的示例性实施例,服务信息数据可包括标准指标数据和业务指标数据中的至少一个。这里,标准指标数据可表示在各个机器学习任务中通用的指标性数据,业务指标数据可表示在特定的机器学习任务中使用的指标性数据。
第一检查单元302可基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态。
第二检查单元303可基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态。
根据本公开的示例性实施例,第二状态检查规则可包括默认检查规则和备用检查规则。在此基础上,第二检查单元303可按照默认检查规则确定每个服务阶段的第二健康状态,当默认检查规则失效时,将第二状态检查规则由默认检查规则切换至备用检查规则,并按照备用检查规则确定每个服务阶段的第二健康状态。
根据本公开的示例性实施例,第一健康状态和第二健康状态可包括运行状态、成功状态、失败状态和警告状态中的至少一个。如上所述,运行状态可表示当前节点正在运行中的状态,成功状态可表示当前节点已完成运行的状态,失败状态可表示当前节点运行失败的状态,警告状态可表示当前节点运行异常的状态。这里,当前节点可包括当前服务能力算子和当前服务阶段中的至少一个。
根据本公开的示例性实施例,服务绑定装置300还可包括状态展示单元,状态展示单元可通过用户界面,将运行状态表示为第一符号,将成功状态表示为第二符号,将失败状态表示为第三符号,以及将警告状态表示为第四符号,从而对每个服务能力算子的第一健康状态和每个服务阶段的第二健康状态进行展示。
操作触发单元304可基于多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
根据本公开的示例性实施例,操作触发单元304可基于多个服务阶段中的至少一个服务阶段的第二健康状态是警告状态或失败状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
根据本公开的示例性实施例,机器学习任务的服务阶段可包括数据处理阶段、模型训练阶段、模型服务阶段和模型监控阶段中的至少一个。如上所述,模型监控阶段的服务能力算子可包括流量复制算子。这里,流量复制算子可用于抓取模型服务阶段的在线实时流量数据的流量特征。进一步地,模型监控阶段的服务能力算子还可包括数据漂移算子和模型漂移算子中的至少一个。更进一步地,数据漂移算子可用于通过流量特征判断是否发生数据漂移,以及模型漂移算子可用于通过流量特征判断是否发生模型漂移。
根据本公开的示例性实施例,当模型监控阶段的第二健康状态是失败状态,并且数据漂移算子判断出发生数据漂移时,操作触发单元304可触发报警操作和模型服务阶段的A/B流量分配操作中的至少一个。
根据本公开的示例性实施例,当模型监控阶段的第二健康状态是失败状态,并且模型漂移算子判断出发生模型漂移时,操作触发单元304可触发报警操作和模型训练阶段的模型重新训练操作中的至少一个。
根据本公开示例性实施例的机器学习任务的服务绑定方法和装置可以通过Kubernetes提供的Operator技术,将机器学习任务的各个部分定义为各个阶段(stage),并结合事件驱动(Event Driver)将数据处理、模型训练、模型服务和模型监控全链路连接起来,能够在拥有机器学习任务全流程信息的基础上,实现各个阶段的服务绑定,给优化模型、迭代模型和排查问题等任务带来了便利。
以上已参照图1至图3描述了根据本公开示例性实施例的机器学习任务的服务绑定方法和装置。
图3所示出的机器学习任务的服务绑定装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如,各个单元可对应于专用的集成电路,也可对应于纯粹的软件代码,还可对应于软件与硬件相结合的模块。此外,各个单元所实现的一个或多个功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统一执行。
此外,参照图1所描述的机器学习任务的服务绑定方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如,根据本公开的示例性实施例,可提供存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行根据本公开的机器学习任务的服务绑定方法。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1进行相关方法的描述过程中提及,因此这里为了避免重复将不再进行赘述。
应注意,根据本公开示例性实施例的机器学习任务的服务绑定装置中的各个单元可完全依赖计算机程序的运行来实现相应的功能,即,各个单元在计算机程序的功能架构中与各步骤相应,使得整个系统通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图3所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本公开的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当计算机可执行指令集合被处理器执行时,执行根据本公开示例性实施例的机器学习任务的服务绑定方法。
具体说来,计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本公开示例性实施例的机器学习任务的服务绑定方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本公开示例性实施例的机器学习任务的服务绑定方法可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
因此,参照图1所描述的机器学习任务的服务绑定方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。
根据本公开的示例性实施例,至少一个计算装置是根据本公开示例性实施例的用于执行机器学习任务的服务绑定方法的计算装置,存储装置中存储有计算机可执行指令集合,当计算机可执行指令集合被至少一个计算装置执行时,执行参照图1所描述的机器学习任务的服务绑定方法。
以上描述了本公开的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本公开的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种机器学习任务的服务绑定方法,其中,所述服务绑定方法包括:
获取所述机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据,其中,所述机器学习任务包括多个服务阶段,每个服务阶段包括多个服务能力算子;
基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态;
基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态;
基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
2.如权利要求1所述的服务绑定方法,其中,所述服务信息数据包括标准指标数据和业务指标数据中的至少一个,其中,所述标准指标数据表示在各个机器学习任务中通用的指标性数据,所述业务指标数据表示在特定的机器学习任务中使用的指标性数据。
3.如权利要求1所述的服务绑定方法,其中,所述第二状态检查规则包括默认检查规则和备用检查规则,其中,所述按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态,包括:
按照所述默认检查规则确定每个服务阶段的第二健康状态;
当所述默认检查规则失效时,将所述第二状态检查规则由所述默认检查规则切换至所述备用检查规则,并按照备用检查规则确定每个服务阶段的第二健康状态。
4.如权利要求1所述的服务绑定方法,其中,所述第一健康状态和第二健康状态包括运行状态、成功状态、失败状态和警告状态中的至少一个,其中,所述运行状态表示当前节点正在运行中的状态,所述成功状态表示当前节点已完成运行的状态,所述失败状态表示当前节点运行失败的状态,所述警告状态表示当前节点运行异常的状态,其中,所述当前节点包括当前服务能力算子和当前服务阶段中的至少一个。
5.如权利要求4所述的服务绑定方法,其中,所述服务绑定方法还包括:
通过用户界面,将所述运行状态表示为第一符号,将所述成功状态表示为第二符号,将所述失败状态表示为第三符号,以及将所述警告状态表示为第四符号,从而对每个服务能力算子的第一健康状态和每个服务阶段的第二健康状态进行展示。
6.如权利要求4所述的服务绑定方法,其中,基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个,包括:
基于所述多个服务阶段中的至少一个服务阶段的第二健康状态是警告状态或失败状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
7.如权利要求4所述的服务绑定方法,其中,所述机器学习任务的服务阶段包括数据工作流阶段、模型训练阶段、模型服务阶段和模型监控阶段中的至少一个。
8.一种机器学习任务的服务绑定装置,其中,所述服务绑定装置包括:
数据获取单元,被配置为:获取所述机器学习任务的每个服务能力算子在运算过程中生成的服务信息数据,其中,所述机器学习任务包括多个服务阶段,每个服务阶段包括多个服务能力算子;
第一检查单元,被配置为:基于每个服务能力算子生成的服务信息数据,按照预先设置的第一状态检查规则确定每个服务能力算子的第一健康状态;
第二检查单元,被配置为:基于每个服务能力算子的第一健康状态,按照预先设置的第二状态检查规则确定每个服务阶段的第二健康状态;
操作触发单元,被配置为:基于所述多个服务阶段中的至少一个服务阶段的第二健康状态,按照预先设置的操作触发规则触发报警操作和相应服务阶段的服务操作中的至少一个。
9.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的机器学习任务的服务绑定方法。
10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1至7中的任一权利要求所述的机器学习任务的服务绑定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111672693.5A CN116415683A (zh) | 2021-12-31 | 2021-12-31 | 机器学习任务的服务绑定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111672693.5A CN116415683A (zh) | 2021-12-31 | 2021-12-31 | 机器学习任务的服务绑定方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116415683A true CN116415683A (zh) | 2023-07-11 |
Family
ID=87056855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111672693.5A Pending CN116415683A (zh) | 2021-12-31 | 2021-12-31 | 机器学习任务的服务绑定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116415683A (zh) |
-
2021
- 2021-12-31 CN CN202111672693.5A patent/CN116415683A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109313739B (zh) | 用于提供工作流程的可视化的系统和方法 | |
US20200092180A1 (en) | Methods and systems for microservices observability automation | |
CN107660289B (zh) | 自动网络控制 | |
EP2584465A1 (en) | Methods and reconfigurable systems to incorporate customized executable code within a condition based health maintenance system without recompiling base code | |
US9817742B2 (en) | Detecting hardware and software problems in remote systems | |
US20190068467A1 (en) | Cloud Network Stability | |
CN111858254B (zh) | 数据的处理方法、装置、计算设备和介质 | |
CN113312153B (zh) | 一种集群部署方法、装置、电子设备及存储介质 | |
WO2019061364A1 (zh) | 故障分析方法及相关设备 | |
CN112631887A (zh) | 异常检测方法、装置、电子设备和计算机可读存储介质 | |
CN106663041A (zh) | 从系统故障恢复基于云的服务的易用性 | |
JP2012080181A (ja) | 障害情報管理方法および障害情報管理プログラム | |
CN109271270A (zh) | 存储系统中底层硬件的故障排除方法、系统及相关装置 | |
CN116415683A (zh) | 机器学习任务的服务绑定方法和装置 | |
CN110750423A (zh) | 机器学习平台的运维方法和运维系统 | |
US10878690B2 (en) | Unified status and alarm management for operations, monitoring, and maintenance of legacy and modern control systems from common user interface | |
EP3473035B1 (en) | Application resilience system and method thereof for applications deployed on a cloud platform | |
CN113778763B (zh) | 一种三方接口服务故障智能切换方法及系统 | |
JP3622719B2 (ja) | 障害情報表示システム | |
US10545493B2 (en) | Enhanced service procedures using force measurement | |
JP2019032709A (ja) | 分散システム | |
US20220391277A1 (en) | Computing cluster health reporting engine | |
US11593191B2 (en) | Systems and methods for self-healing and/or failure analysis of information handling system storage | |
JP6896035B2 (ja) | 監視システム、監視SaaS提供装置、管理装置、及びプログラム | |
CN114978891B (zh) | 网络设备bios配置的处理方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |