CN116938616B - 一种针对ai云计算资源的计费监管系统 - Google Patents

一种针对ai云计算资源的计费监管系统 Download PDF

Info

Publication number
CN116938616B
CN116938616B CN202311206107.7A CN202311206107A CN116938616B CN 116938616 B CN116938616 B CN 116938616B CN 202311206107 A CN202311206107 A CN 202311206107A CN 116938616 B CN116938616 B CN 116938616B
Authority
CN
China
Prior art keywords
test
charging
task
test task
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311206107.7A
Other languages
English (en)
Other versions
CN116938616A (zh
Inventor
吕超星
丁鹏
吴清忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Original Assignee
Beijing Wanjie Data Technology Co ltd Wuhan Branch
Beijing Wanjie Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wanjie Data Technology Co ltd Wuhan Branch, Beijing Wanjie Data Technology Co ltd filed Critical Beijing Wanjie Data Technology Co ltd Wuhan Branch
Priority to CN202311206107.7A priority Critical patent/CN116938616B/zh
Publication of CN116938616A publication Critical patent/CN116938616A/zh
Application granted granted Critical
Publication of CN116938616B publication Critical patent/CN116938616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/14Charging, metering or billing arrangements for data wireline or wireless communications
    • H04L12/1403Architecture for metering, charging or billing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种针对AI云计算资源的计费监管系统,涉及计算资源管理领域。本发明通过构建计费系统来实现针对不同计费规则的计费管理,能实现灵活复杂的混合计费规则;通过测试系统能实现AI云计算仿真测试,根据测试需求灵活生成对应的测试任务并定向植入至对应硬件与软件资源中;通过监管系统能实现对异常计费的感知,通过结合计费任务和测试任务能实现异常计费定位,并在第一时间进行异常计费报警并发送异常计费来源通知技术人员进行排查,从而保证计费系统的平稳运行。

Description

一种针对AI云计算资源的计费监管系统
技术领域
本发明涉及计算资源管理领域,尤其涉及一种针对AI云计算资源的计费监管系统。
背景技术
云计算(cloud computing)是分布式计算的一种,用于向用户提供针对性服务,并在向用户提供服务时,按照一定的计费规则向用户收取服务费用;常见的计费规则包括用量计费规则、用时计费规则和混合计费规则;其中,用量计费规则按照用户的硬件/软件使用量进行“费随量增”计费;用时计费规则按照用户的硬件/软件使用量进行“费随时增”计费;混合计费规则按照多种计费逻辑实现按需“费随需增”计费。
AI云计算则是多业务混合场景,会同时涉猎计算、存储、宽带等服务,计费系统复杂多变;现有的做法是仅向用户提供“按时整租”服务,即对固定硬件设施进行计时收费;这种服务方式计费规则简单,但是也限制了AI模型训练的扩展性。为了满足AI模型训练的扩展性需求,越来越多的厂商采用了更加灵活的混合计费规则,以实现“用多少付多少”的效果;并在结算时向用户提供收费明细,以达到公开透明的效果。
但是,AI云计算会涉及多计费规则和多计费项,混合计费规则复杂度呈几何式增长,很容易出现计费错误/计费不准的情况;为了保障客户利益,获取客户信任;我们需要对计费系统进行有效监管,并及时发现排查计费异常。
因此,有必要提供一种针对AI云计算资源的计费监管系统来解决上述技术问题。
发明内容
为解决上述技术问题,本发明提供的一种针对AI云计算资源的计费监管系统,包括计费系统、测试系统和监管系统;其中,
所述计费系统包括计费规则库、计费感知单元、计费生成单元和计费管理单元;所述计费感知单元分别部署在AI云计算系统的各硬件资源与软件资源上,并用于采集各硬件与软件的资源使用情况;所述计费规则库用于存储计费所需的计费规则算子并供以调用;所述计费生成单元用于根据各硬件与软件的资源使用情况,选择对应计费规则算子并计算出对应支付费用;所述计费管理单元用于对计费任务进行跟踪管理,并汇总计费任务对应各支付费用,得到计费任务的总支付费用;
所述测试系统包括测试任务用例库、测试任务生成单元、测试任务植入单元和测试任务管理单元;其中,所述测试任务用例库用于存储进行AI云计算仿真测试所需的测试任务和用例描述;所述测试任务生成单元根据设置的测试类型调用对应的测试任务,并根据用例描述设置测试任务参数,得到实际测试任务;所述测试任务植入单元用于将实际测试任务注入至对应硬件与软件资源中;所述测试任务管理单元用于对测试任务的执行状况进行跟踪管理,并汇总测试任务执行时所产生的各支付费用,得到测试任务的总支付费用;
所述监管系统包括异常计费感知单元、异常计费定位单元和异常计费报警单元;其中,所述异常计费感知单元通过对测试任务和计费任务的总支付费用进行分析对比,判断是否发生异常计费;所述异常计费定位单元用于在发生异常计费时,对异常计费来源进行识别定位;所述异常计费报警单元用于在发生异常计费时,进行异常计费报警并发送异常计费来源通知技术人员进行排查。
作为更进一步的解决方案,所述计费规则库包括按量计费规则、按次计费规则和按时计费规则对应的计费规则算子;所述计费感知单元包括计时器、计量器和计次器,并分别部署在各硬件资源与软件资源的计费节点上;其中,所述硬件与软件的资源使用情况包括使用次数、使用时间和使用用量;所述硬件资源包括GPU卡、CPU芯片、RAM内存、存储硬盘和网卡设备;所述软件资源包括授权软件和API接口。
作为更进一步的解决方案,所述计费生成单元根据预设的计费规则算子对各计费节点的资源使用情况进行费用计算,得到对应支付费用;其中,包括硬件资源支付费用和软件资源支付费用;所述计费管理单元将各计费任务与用户进行绑定与跟踪,汇总计费任务对应产生的硬件资源支付费用和软件资源支付费用,得到该用户使用AI云计算资源所需支付的总支付费用。
作为更进一步的解决方案,所述AI云计算仿真测试所需的测试任务包括CPU计算测试任务、GPU计算测试任务、硬盘存储测试任务、内存存储测试任务、宽带占用测试任务、API访问测试任务和软件调用测试任务;所述测试任务参数包括任务用量参数、触发时间参数和执行次数参数;其中,所述任务用量参数包括CPU计算用量、GPU计算用量、硬盘存储用量、内存存储用量、宽带占用用量、API访问用量和软件调用用量。
作为更进一步的解决方案,所述测试任务管理单元根据设置的测试类型和测试模式,调用对应测试任务生成单元和测试任务植入单元完成测试任务的生成和部署;所述测试类型包括独立测试和伴随测试;其中,当设置为独立测试时:则在未执行计费任务时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源上;当设置为伴随测试时:则在执行计费任务的同时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源,并伴随计费任务一同执行;所述测试模式包括整体测试和局部测试;其中,当设置为整体测试时:则通过测试任务生成单元对AI云计算仿真测试所需的所有测试任务均对应生成至少一次;当设置为局部测试时:则通过测试任务生成单元对AI云计算仿真测试所需的各测试任务选择一个或多个进行生成。
作为更进一步的解决方案,所述异常计费感知单元判断AI云计算系统中是否存在测试任务,若存在测试任务则获取测试任务的测试类型、测试模式和测试任务参数,并根据测试模式触发对应步骤;其中,
当测试模式为独立测试时:按照测试类型获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,并与测试任务参数进行对比;若资源使用情况和测试任务参数匹配则进行下一步,否则判断为发生异常计费;在计费规则库中选取待测试的计费规则算子,测试任务管理单元将测试任务参数输入至计费规则算子中计算测试支付费用;将测试支付费用和对应的标准支付费用进行对比;若两者不匹配,则判断为发生异常计费;其中,测试任务为基准测试任务且预先测定基准测试任务对应的标准支付费;
当测试模式为伴随测试时:获取与测试任务同时执行的计费任务,并在计费规则库中查询计费任务所使用的计费规则算子;按照测试类型获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况;测试任务管理单元通过计费生成单元采集测试任务执行时所产生的测试支付费用;测试任务管理单元将测试任务参数输入至计费规则算子中计算标准支付费用;若测试支付费用和标准支付费用不匹配时,则判断为发生异常计费;其中,测试任务所设定的测试任务参数与计费任务对应的资源使用情况呈预设比例系数。
作为更进一步的解决方案,所述异常计费定位单元通过如下步骤定位异常计费:
获取发生异常计费时的测试模式;当发生异常计费时的测试模式为独立测试时,则进行独立测试定位;当发生异常计费时的测试模式为伴随测试时,则先触发执行独立测试;且有:当独立测试定位发现异常计费,则进行独立测试定位并等待异常计费排除后,再执行伴随测试定位;当独立测试定位未发现异常计费,则直接执行伴随测试定位。
作为更进一步的解决方案,独立测试定位:若计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,与测试任务对应的测试任务参数不匹配时;则定位为计费感知单元异常,并输出计费感知单元编号;若测试支付费用和对应的标准支付费用两者不匹配,则定位为计费规则算子异常,并输出计费规则算子编号;其中,计费感知单元异常包括计时异常、计量异常和计次异常;伴随测试定位:将计费任务对应各支付费用与测试任务执行时所产生的各支付费用进行对比,若不相匹配,则挑选出不匹配项并定位为计费生成单元异常;若匹配,则将计费任务的总支付费用和计费任务的总支付费用进行对比,并找出在汇总时重复计费、遗漏计费和/或错误计费的支付费用。
与相关技术相比较,本发明提供的一种针对AI云计算资源的计费监管系统具有如下有益效果:
本发明通过构建计费系统来实现针对不同计费规则的计费管理,能实现灵活复杂的混合计费规则;通过测试系统能实现AI云计算仿真测试,根据测试需求灵活生成对应的测试任务并定向植入至对应硬件与软件资源中;通过监管系统能实现对异常计费的感知,通过结合计费任务和测试任务能实现异常计费定位,并在第一时间进行异常计费报警并发送异常计费来源通知技术人员进行排查,从而保证计费系统的平稳运行。
附图说明
图1为本发明提供的一种针对AI云计算资源的计费监管系统的较佳示意图;
图2为本发明提供的一种异常计费感知单元判断异常步骤图;
图3为本发明提供的现有技术示意图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
如图1所示,本实施例提供的一种针对AI云计算资源的计费监管系统,包括计费系统、测试系统和监管系统;其中,
所述计费系统包括计费规则库、计费感知单元、计费生成单元和计费管理单元;所述计费感知单元分别部署在AI云计算系统的各硬件资源与软件资源上,并用于采集各硬件与软件的资源使用情况;所述计费规则库用于存储计费所需的计费规则算子并供以调用;所述计费生成单元用于根据各硬件与软件的资源使用情况,选择对应计费规则算子并计算出对应支付费用;所述计费管理单元用于对计费任务进行跟踪管理,并汇总计费任务对应各支付费用,得到计费任务的总支付费用;
所述测试系统包括测试任务用例库、测试任务生成单元、测试任务植入单元和测试任务管理单元;其中,所述测试任务用例库用于存储进行AI云计算仿真测试所需的测试任务和用例描述;所述测试任务生成单元根据设置的测试类型调用对应的测试任务,并根据用例描述设置测试任务参数,得到实际测试任务;所述测试任务植入单元用于将实际测试任务注入至对应硬件与软件资源中;所述测试任务管理单元用于对测试任务的执行状况进行跟踪管理,并汇总测试任务执行时所产生的各支付费用,得到测试任务的总支付费用;
所述监管系统包括异常计费感知单元、异常计费定位单元和异常计费报警单元;其中,所述异常计费感知单元通过对测试任务和计费任务的总支付费用进行分析对比,判断是否发生异常计费;所述异常计费定位单元用于在发生异常计费时,对异常计费来源进行识别定位;所述异常计费报警单元用于在发生异常计费时,进行异常计费报警并发送异常计费来源通知技术人员进行排查。
需要说明的是:如图3是我们现在采用的“按时整租”服务,选择该服务的原因是因为在进行AI云计算时,会涉及到存储、计算、网络等多方面的服务,采用“按时整租”则能规避针对在进行计费系统设计时的复杂问题,仅需用户在选定硬件配置后,按照使用时间计费即可。但是,该方案在硬件扩展时存在一定问题,现有通过资源池化技术能增加其扩展性,但是,对应的计费系统也更为复杂。
复杂的计费系统难免出现一些BUG或者问题,导致计费错误从而致使用户和公司利益均受到损害;所以,构建一种针对AI云计算资源的计费监管系统是非常有必要的,能保障计费系统平稳运行。
为此,本实施例通过构建计费系统来实现针对不同计费规则的计费管理,能实现灵活复杂的混合计费规则;通过测试系统能实现AI云计算仿真测试,根据测试需求灵活生成对应的测试任务并定向植入至对应硬件与软件资源中;通过监管系统能实现对异常计费的感知,通过结合计费任务和测试任务能实现异常计费定位,并在第一时间进行异常计费报警并发送异常计费来源通知技术人员进行排查,从而保证计费系统的平稳运行。
作为更进一步的解决方案,所述计费规则库包括按量计费规则、按次计费规则和按时计费规则对应的计费规则算子;所述计费感知单元包括计时器、计量器和计次器,并分别部署在各硬件资源与软件资源的计费节点上;其中,所述硬件与软件的资源使用情况包括使用次数、使用时间和使用用量;所述硬件资源包括GPU卡、CPU芯片、RAM内存、存储硬盘和网卡设备;所述软件资源包括授权软件和API接口。
作为更进一步的解决方案,所述计费生成单元根据预设的计费规则算子对各计费节点的资源使用情况进行费用计算,得到对应支付费用;其中,包括硬件资源支付费用和软件资源支付费用;所述计费管理单元将各计费任务与用户进行绑定与跟踪,汇总计费任务对应产生的硬件资源支付费用和软件资源支付费用,得到该用户使用AI云计算资源所需支付的总支付费用。
需要说明的是:在进行AI云计算训练时,需要涉及到各个软件及硬件资源的使用,若是欲构建“费随需增”灵活的计费系统时,便涉及到多资源监测计费;为此,我们在各个计费节点部署计费感知单元,通过计时器、计量器和计次器对各硬件和软件资源的使用情况进行感知,并结合对应的计费规则算子(如按次计费的计费规则算子,则获取计次器数据进行计算),从而得到对应的支付费用,汇总各计费节点的支付费用,便能得到总支付费用。
作为更进一步的解决方案,所述AI云计算仿真测试所需的测试任务包括CPU计算测试任务、GPU计算测试任务、硬盘存储测试任务、内存存储测试任务、宽带占用测试任务、API访问测试任务和软件调用测试任务;所述测试任务参数包括任务用量参数、触发时间参数和执行次数参数;其中,所述任务用量参数包括CPU计算用量、GPU计算用量、硬盘存储用量、内存存储用量、宽带占用用量、API访问用量和软件调用用量。
需要说明的是:测试任务是用于模拟真实的AI云计算对软件和硬件资源的占用情况,可以根据需求进行配置,将配置好的测试任务植入至对应的软件和硬件资源中,便能通过计费系统采集到执行测试任务的各支付费用,而测试任务的各项占用情况是可以通过测试任务参数进行定量控制调节的,利用这一点并结合后续的各项数据获取与判定,便能实现对计费系统是否有计费异常的判断。
作为更进一步的解决方案,所述测试任务管理单元根据设置的测试类型和测试模式,调用对应测试任务生成单元和测试任务植入单元完成测试任务的生成和部署;所述测试类型包括独立测试和伴随测试;其中,当设置为独立测试时:则在未执行计费任务时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源上;当设置为伴随测试时:则在执行计费任务的同时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源,并伴随计费任务一同执行;所述测试模式包括整体测试和局部测试;其中,当设置为整体测试时:则通过测试任务生成单元对AI云计算仿真测试所需的所有测试任务均对应生成至少一次;当设置为局部测试时:则通过测试任务生成单元对AI云计算仿真测试所需的各测试任务选择一个或多个进行生成。
需要说明的是:在测试类型中,独立测试即在AI云计算资源处于空闲状态时,主动让其执行对应测试任务,以达到准确获取测试任务对应的专项数据,能对计费规则算子和计费感知单元进行准确感知,避免其余业务干扰;伴随测试则是在AI云计算资源正在处理正常任务时,并正常执行计费任务时,将测试任务一同伴随执行,在该测试类型下,能感知真实业务场景下出现的异常和BUG。在测试模式中,整体测试则是对当期系统中所执行的所有业务类型都进行仿真,以此来检查系统的整体情况;局部测试则是快速对某一部分进行AI云计算仿真测试,从而针对性监测某些情况。
如图2所示,作为更进一步的解决方案,所述异常计费感知单元判断AI云计算系统中是否存在测试任务,若存在测试任务则获取测试任务的测试类型、测试模式和测试任务参数,并根据测试模式触发对应步骤;其中,
当测试模式为独立测试时:按照测试类型获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,并与测试任务参数进行对比;若资源使用情况和测试任务参数匹配则进行下一步,否则判断为发生异常计费;在计费规则库中选取待测试的计费规则算子,测试任务管理单元将测试任务参数输入至计费规则算子中计算测试支付费用;将测试支付费用和对应的标准支付费用进行对比;若两者不匹配,则判断为发生异常计费;其中,测试任务为基准测试任务且预先测定基准测试任务对应的标准支付费;
当测试模式为伴随测试时:获取与测试任务同时执行的计费任务,并在计费规则库中查询计费任务所使用的计费规则算子;按照测试类型获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况;测试任务管理单元通过计费生成单元采集测试任务执行时所产生的测试支付费用;测试任务管理单元将测试任务参数输入至计费规则算子中计算标准支付费用;若测试支付费用和标准支付费用不匹配时,则判断为发生异常计费;其中,测试任务所设定的测试任务参数与计费任务对应的资源使用情况呈预设比例系数。
需要说明的是:在进行独立测试时,由于各硬件和软件资源的占用情况只受到测试任务的影响,并且测试任务所产生的实际占用情况是能通过对测试任务参数进行定量调整确定;因此,我们通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,并与测试任务参数,即可判断计费感知单元是否能准确采集各硬件和软件资源的占用情况;进一步,我们在计费感知单元没有问题的情况下,再判断计费规则算子是否能准确计算,由于测试任务是可以设定测试任务参数的,所以我们能设置一些基准测试任务(如:设置计数10次为基准),并预先测定这些基准测试任务对应各个计费规则算子的标准支付费,再通过标准支付费和测试支付费用进行对比,便能判断该算子是否符合预期,是否被篡改或者发生BUG。
在进行伴随测试时,主要是验证各计费生成单元所计算得到的测试支付费用与测试任务管理单元将测试任务参数输入至计费规则算子中计算标准支付费用是否匹配,两者在数值上应该是相匹配的,如不匹配则是对应的计费生成单元计算存在错误,需要进行异常排查;将测试任务所设定的测试任务参数与计费任务对应的资源使用情况呈预设比例系数,所以最终得到的测试任务支付费用和计费任务的支付费用也是呈预设比例系数,否则,计费任务则存在计费异常。设置伴随测试主要是有些BUG和异常仅会在真实的业务场景下触发,如在汇总时总是将某一项重复计费,所以需要伴随计费任务设置测试任务。
作为更进一步的解决方案,所述异常计费定位单元通过如下步骤定位异常计费:
获取发生异常计费时的测试模式;当发生异常计费时的测试模式为独立测试时,则进行独立测试定位;当发生异常计费时的测试模式为伴随测试时,则先触发执行独立测试;且有:当独立测试定位发现异常计费,则进行独立测试定位并等待异常计费排除后,再执行伴随测试定位;当独立测试定位未发现异常计费,则直接执行伴随测试定位。
需要说明的是:通过各硬件与软件资源都处于使用状态,所以最为常见的测试模式是伴随测试,可以跟随真实的计费任务一同进行,若是发现异常时,则第一时间暂停当前各任务,并进行独立测试,以得到最为准确的结果,并且独立测试能首先从底层确定计费感知单元是否有问题,若是这层有问题,则后续都有问题;这层没问题,我们再进一步判断计费规则算子是否能准确计算,这层没问题,我们才能进行计费生成单元计算错误的判断,然后更进一步再对费用统计阶段进行判断,若是测试任务支付费用和计费任务的支付费用也是呈预设比例系数,则说明各费用上报没有问题,问题出现在费用汇总阶段,这个阶段常见的问题便是重复计费、遗漏计费和/或错误计费的支付费用。
作为更进一步的解决方案,独立测试定位:若计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,与测试任务对应的测试任务参数不匹配时;则定位为计费感知单元异常,并输出计费感知单元编号;若测试支付费用和对应的标准支付费用两者不匹配,则定位为计费规则算子异常,并输出计费规则算子编号;其中,计费感知单元异常包括计时异常、计量异常和计次异常;伴随测试定位:将计费任务对应各支付费用与测试任务执行时所产生的各支付费用进行对比,若不相匹配,则挑选出不匹配项并定位为计费生成单元异常;若匹配,则将计费任务的总支付费用和计费任务的总支付费用进行对比,并找出在汇总时重复计费、遗漏计费和/或错误计费的支付费用。
需要说明的是:不同阶段异常,对应着不同层次问题,在异常发生时,我们从底层开始进行测试,就能定位到对应的异常环节,通过层层递进的判断策略,便能确定并排查所有异常来源,从而指导我们排除异常计费,且全过程均能实现自动化执行,保证计费系统平稳正常运行。
以上仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种针对AI云计算资源的计费监管系统,其特征在于,包括计费系统、测试系统和监管系统;其中,
所述计费系统包括计费规则库、计费感知单元、计费生成单元和计费管理单元;所述计费感知单元分别部署在AI云计算系统的各硬件资源与软件资源上,并用于采集各硬件与软件的资源使用情况;所述计费规则库用于存储计费所需的计费规则算子并供以调用;所述计费生成单元用于根据各硬件与软件的资源使用情况,选择对应计费规则算子并计算出对应支付费用;所述计费管理单元用于对计费任务进行跟踪管理,并汇总计费任务对应各支付费用,得到计费任务的总支付费用;
所述测试系统包括测试任务用例库、测试任务生成单元、测试任务植入单元和测试任务管理单元;其中,所述测试任务用例库用于存储进行AI云计算仿真测试所需的测试任务和用例描述;所述测试任务生成单元根据设置的测试类型调用对应的测试任务,并根据用例描述设置测试任务参数,得到实际测试任务;所述测试任务植入单元用于将实际测试任务注入至对应硬件与软件资源中;所述测试任务管理单元用于对测试任务的执行状况进行跟踪管理,并汇总测试任务执行时所产生的各支付费用,得到测试任务的总支付费用;
所述监管系统包括异常计费感知单元、异常计费定位单元和异常计费报警单元;其中,所述异常计费感知单元通过对测试任务和计费任务的总支付费用进行分析对比,判断是否发生异常计费;所述异常计费定位单元用于在发生异常计费时,对异常计费来源进行识别定位;所述异常计费报警单元用于在发生异常计费时,进行异常计费报警并发送异常计费来源通知技术人员进行排查。
2.根据权利要求1所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述计费规则库包括按量计费规则、按次计费规则和按时计费规则对应的计费规则算子;所述计费感知单元包括计时器、计量器和计次器,并分别部署在各硬件资源与软件资源的计费节点上;其中,所述硬件与软件的资源使用情况包括使用次数、使用时间和使用用量;所述硬件资源包括GPU卡、CPU芯片、RAM内存、存储硬盘和网卡设备;所述软件资源包括授权软件和API接口。
3.根据权利要求2所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述计费生成单元根据预设的计费规则算子对各计费节点的资源使用情况进行费用计算,得到对应支付费用;其中,包括硬件资源支付费用和软件资源支付费用;所述计费管理单元将各计费任务与用户进行绑定与跟踪,汇总计费任务对应产生的硬件资源支付费用和软件资源支付费用,得到该用户使用AI云计算资源所需支付的总支付费用。
4.根据权利要求3所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述AI云计算仿真测试所需的测试任务包括CPU计算测试任务、GPU计算测试任务、硬盘存储测试任务、内存存储测试任务、宽带占用测试任务、API访问测试任务和软件调用测试任务;所述测试任务参数包括任务用量参数、触发时间参数和执行次数参数;其中,所述任务用量参数包括CPU计算用量、GPU计算用量、硬盘存储用量、内存存储用量、宽带占用用量、API访问用量和软件调用用量。
5.根据权利要求4所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述测试任务管理单元根据设置的测试类型和测试模式,调用对应测试任务生成单元和测试任务植入单元完成测试任务的生成和部署;所述测试类型包括独立测试和伴随测试;其中,当设置为独立测试时:则在未执行计费任务时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源上;当设置为伴随测试时:则在执行计费任务的同时通过测试任务植入单元将测试任务注入至对应硬件资源与软件资源,并伴随计费任务一同执行;所述测试模式包括整体测试和局部测试;其中,当设置为整体测试时:则通过测试任务生成单元对AI云计算仿真测试所需的所有测试任务均对应生成至少一次;当设置为局部测试时:则通过测试任务生成单元对AI云计算仿真测试所需的各测试任务选择一个或多个进行生成。
6.根据权利要求5所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述异常计费感知单元判断AI云计算系统中是否存在测试任务,若存在测试任务则获取测试任务的测试类型、测试模式和测试任务参数,并根据测试模式触发对应步骤;其中,
当测试类型为独立测试时:按照测试模式获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,并与测试任务参数进行对比;若资源使用情况和测试任务参数匹配则进行下一步,否则判断为发生异常计费;在计费规则库中选取待测试的计费规则算子,测试任务管理单元将测试任务参数输入至计费规则算子中计算测试支付费用;将测试支付费用和对应的标准支付费用进行对比;若两者不匹配,则判断为发生异常计费;其中,测试任务为基准测试任务且预先测定基准测试任务对应的标准支付费用;
当测试类型为伴随测试时:获取与测试任务同时执行的计费任务,并在计费规则库中查询计费任务所使用的计费规则算子;按照测试模式获取注入至局部/整体的所有测试任务,通过计费感知单元采集测试任务对应产生硬件与软件的资源使用情况;测试任务管理单元通过计费生成单元采集测试任务执行时所产生的测试支付费用;测试任务管理单元将测试任务参数输入至计费规则算子中计算标准支付费用;若测试支付费用和标准支付费用不匹配时,则判断为发生异常计费;其中,测试任务所设定的测试任务参数与计费任务对应的资源使用情况呈预设比例系数。
7.根据权利要求6所述的一种针对AI云计算资源的计费监管系统,其特征在于,所述异常计费定位单元通过如下步骤定位异常计费:
获取发生异常计费时的测试模式;当发生异常计费时的测试类型为独立测试时,则进行独立测试定位;当发生异常计费时的测试类型为伴随测试时,则先触发执行独立测试;且有:当独立测试定位发现异常计费,则进行独立测试定位并等待异常计费排除后,再执行伴随测试定位;当独立测试定位未发现异常计费,则直接执行伴随测试定位。
8.根据权利要求7所述的一种针对AI云计算资源的计费监管系统,其特征在于,独立测试定位:若计费感知单元采集测试任务对应产生硬件与软件的资源使用情况,与测试任务对应的测试任务参数不匹配时;则定位为计费感知单元异常,并输出计费感知单元编号;若测试支付费用和对应的标准支付费用两者不匹配,则定位为计费规则算子异常,并输出计费规则算子编号;其中,计费感知单元异常包括计时异常、计量异常和计次异常;伴随测试定位:将计费任务对应各支付费用与测试任务执行时所产生的各支付费用进行对比,若不相匹配,则挑选出不匹配项并定位为计费生成单元异常;若匹配,则将计费任务的总支付费用和测试任务的总支付费用进行对比,并找出在汇总时重复计费、遗漏计费和/或错误计费的支付费用。
CN202311206107.7A 2023-09-19 2023-09-19 一种针对ai云计算资源的计费监管系统 Active CN116938616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311206107.7A CN116938616B (zh) 2023-09-19 2023-09-19 一种针对ai云计算资源的计费监管系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311206107.7A CN116938616B (zh) 2023-09-19 2023-09-19 一种针对ai云计算资源的计费监管系统

Publications (2)

Publication Number Publication Date
CN116938616A CN116938616A (zh) 2023-10-24
CN116938616B true CN116938616B (zh) 2023-11-21

Family

ID=88388310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311206107.7A Active CN116938616B (zh) 2023-09-19 2023-09-19 一种针对ai云计算资源的计费监管系统

Country Status (1)

Country Link
CN (1) CN116938616B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553677A (zh) * 2015-12-04 2016-05-04 中国移动通信集团广东有限公司 一种计费校验稽核系统
CN110706010A (zh) * 2018-07-09 2020-01-17 北京京东尚科信息技术有限公司 计费模型监控方法及其系统、计算机系统及计算机可读介质
CN111651345A (zh) * 2020-04-13 2020-09-11 优刻得科技股份有限公司 一种系统测试方法、装置及电子设备
CN115269411A (zh) * 2022-07-28 2022-11-01 天翼云科技有限公司 一种业务测试方法、装置、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785983B2 (en) * 2012-06-13 2017-10-10 Opera Solutions U.S.A., Llc System and method for detecting billing errors using predictive modeling

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105553677A (zh) * 2015-12-04 2016-05-04 中国移动通信集团广东有限公司 一种计费校验稽核系统
CN110706010A (zh) * 2018-07-09 2020-01-17 北京京东尚科信息技术有限公司 计费模型监控方法及其系统、计算机系统及计算机可读介质
CN111651345A (zh) * 2020-04-13 2020-09-11 优刻得科技股份有限公司 一种系统测试方法、装置及电子设备
CN115269411A (zh) * 2022-07-28 2022-11-01 天翼云科技有限公司 一种业务测试方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN116938616A (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
Filieri et al. Reliability analysis of component-based systems with multiple failure modes
CN109960488A (zh) App全周期监控方法、装置、计算机设备及存储介质
CN109783260A (zh) 智能it全流程运维方法、装置、设备及可读存储介质
CN107181607A (zh) 一种基于端到端的应用系统故障定位方法及装置
Zhang et al. {K-Scope}: Online Performance Tracking for Dynamic Cloud Applications
CN110262959A (zh) 底层服务压力测试方法、装置、电子设备及存储介质
CN116938616B (zh) 一种针对ai云计算资源的计费监管系统
Baran et al. Load estimation for load monitoring at distribution substations
CN110488188A (zh) 基于动态阈值的机组三维健康量化评价方法
CN114610615A (zh) 项目测试处理方法、装置、设备及存储介质
CN109634851A (zh) 一种系统级实时获取被测程序内部运行数据的方法
CN110971478A (zh) 云平台服务性能的压测方法、装置及计算设备
CN109274533A (zh) 一种基于规则引擎的Web服务故障的定位装置和方法
Lee et al. Software reliability prediction for open source software adoption systems based on early lifecycle measurements
US20180234324A1 (en) Evaluation of network condition
Oppermann et al. Anomaly Detection Approaches for Secure Cloud Reference Architectures in Legal Metrology.
KR20180035515A (ko) 스마트 단말기용 클라이언트 및 서버의 성능 검증 방법
Ogston et al. Agentscope: Multi-agent systems development in focus
CN114676012A (zh) 一种服务链路监控方法、装置、电子设备及存储介质
CN110361687A (zh) 一种电力计量系统故障测试方法
CN107885075A (zh) 一种对过程控制智能整定的检测方法及系统
Chua et al. Metamorphic testing for reliability in system of systems
CN116132121B (zh) 一种特征识别性能分析的方法
CN110278125A (zh) 一种云计算资源弹性测评方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant