CN112561070A

CN112561070A - 通信业务服务提供方法、装置、基站、服务器及存储介质

Info

Publication number: CN112561070A
Application number: CN201910919597.2A
Authority: CN
Inventors: 刘梅红
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2021-03-26

Abstract

本发明实施例提供一种通信业务服务提供方法、装置、基站、服务器及存储介质，基站通过其自身上部署的机器学习模型为通信业务提供推理服务，在某些实施过程中，由于机器学习模型本身对数据处理的优势，提升了网络运行的效率，并且，机器学习模型的应用在某些方面代替了人工处理，节约了成本。

Description

通信业务服务提供方法、装置、基站、服务器及存储介质

技术领域

本发明实施例涉及但不限于通信领域，具体而言，涉及但不限于通信业务服务提供方法、装置、基站、服务器及存储介质。

背景技术

在CT(COMMUNICATION TECHONOLOGY，指通信产业)领域，随着业务量的爆发式增长，通信网络面对庞大的业务量以及海量的数据负载，因此，网络的运维面临巨大的挑战，运维效率低。

同时，网络运维人工参与度较高，不仅降低了网络优化效率，还增加了网络运维的成本。

发明内容

本发明实施例提供的通信业务服务提供方法、装置、基站、服务器及存储介质，主要解决的技术问题是相关技术中，网络运维人工参与度较高，降低了网络优化效率，增加了网络运维成本的问题。

为解决上述技术问题，本发明实施例提供一种通信业务服务提供方法，包括：基站通过其自身上部署的机器学习模型为通信业务提供推理服务。

本发明实施例还提供一种通信业务服务提供装置，通信业务服务提供装置包括：服务模块，用于通过机器学习模型为通信业务提供服务

本发明实施例还提供一种机器学习模型提供装置，所述机器学习模型提供装置包括：存储模块，用于存储机器学习模型，以供通信业务服务提供装置获取所述机器学习模型，所述机器学习模型用于为通信业务提供服务

本发明实施例还提供一种基站,所述基站包括：第一处理器、第一存储器及第一通信总线；

所述第一通信总线用于实现第一处理器和第一存储器之间的连接通信；

所述第一处理器用于执行第一存储器中存储的一个或者多个程序，以实现如上述通信业务服务提供方法中基站侧的步骤。

本发明实施例还提供一种服务器，所述服务器包括：第二处理器、第二存储器及第二通信总线；

所述第二通信总线用于实现第二处理器和第二存储器之间的连接通信；

所述第二处理器用于执行第二存储器中存储的一个或者多个程序，以实现上述通信业务服务提供方法中OMC侧的步骤。

本发明实施例还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述通信业务服务提供方法中基站侧或OMC侧的步骤。

本发明的有益效果是：

根据本发明实施例提供的通信业务服务提供方法、装置、基站、服务器及存储介质，基站通过其自身上部署的机器学习模型为通信业务提供推理服务，在某些实施过程中，由于基站通过机器学习模型为通信业务提供推理服务，由于机器学习模型本身对数据处理的优势，提升了网络运行的效率，并且，机器学习模型的应用在某些方面代替了人工处理，节约了成本。

本发明其他特征和相应的有益效果在说明书的后面部分进行阐述说明，且应当理解，至少部分有益效果从本发明说明书中的记载变的显而易见。

附图说明

图1为本发明实施例一的通信业务服务提供方法流程图；

图2为本发明实施例一的模型下载过程流程图；

图3为本发明实施例一的OMC对基站的控制过程流程图；

图4为本发明实施例一的模型回退过程流程图；

图5为本发明实施例一的模型回退过程OMC与基站交互示意图；

图6为本发明实施例一的模型版本升级过程流程图；

图7为本发明实施例一的模型版本升级过程OMC与基站交互示意图；

图8为本发明实施例一的一种可选的Serving SDK的系统架构图；

图9为本发明实施例二的通信业务服务提供方法流程图；

图10为本发明实施例二的多模型协作示意图；

图11为本发明实施例二的一种可选的Serving的系统架构图；

图12为本发明实施例四的基站结构示意图；

图13为本发明实施例四的服务器结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例一：

为了解决现有网络运维成本高、效率低的问题，本发明实施例提出了一种通信业务服务提供方法，请参见图1，包括：

S101、基站通过其自身上部署的机器学习模型为通信业务提供推理服务。

本发明实施例中，在基站上部署机器学习模型，基站通过机器学习模型为通信业务提供推理服务。也就是说，本发明实施例中，将机器学习模型应用于通信方面，例如，应用于网络的规划与优化等场景，其中，基站可以通过机器学习模型为通信业务提供以下服务中的至少一种：站点健康检查服务、故障预测服务、基站规划服务、射频规划服务、流量预测服务、负载预测服务、KPI(Key Performance Indication，关键性能指标)预测服务、覆盖优化服务、参数优化服务、设备节能服务等。也就是说，本发明实施例中，可以将机器学习模型应用于站点健康检查、故障预测、基站规划、射频规划、流量预测、负载预测、KPI预测、覆盖优化、参数优化、设备节能等方面。其中，机器学习模型可以提供REST类型或RPC类型的推理服务。

本发明实施例中，机器学习模型可以是基于Keras，TensorFlow，PyTorch，Caffe，MxNet中至少一种机器学习模型运行框架设计的机器学习模型。

本发明实施例中，在基站通过其自身上部署的机器学习模型为通信业务提供推理服务之前，基站还需要下载并部署机器学习模型。在部署机器学习模型时，基站可以在独立微服务中部署机器学习模型。或者，由于基站上的计算资源是有限的，在时延、功耗等方面更为苛刻，因此，为了追求性能最大化，可以将机器学习模型与通信业务部署在同一微服务中，这样，通信业务可以通过函数调用，直接实现模型的推理请求。

本发明实施例中，OMC(Operation and Maintenance Center，操作维护中心)中存储有训练完成的机器学习模型，基站可以从OMC处去下载机器学习模型。也就是说，本发明实施例中，会将离线训练好的机器学习模型上传至OMC处，以供基站进行下载。应当理解的是，本发明实施例中，可以基于通信业务的需求，基于Keras，TensorFlow，PyTorch，Caffe，MxNet等机器学习模型运行框架中的至少一种设计机器学习模型的网络结构，并接入训练数据集，完成机器学习模型的训练，训练好的机器学习模型可以更加方便地导出到编译优化工具链中，经过模型剪枝、层融合、降低精度等模型优化后，发布一个优化后的、二进制式的机器学习模型，并将其上传至OMC中。其中，OMC可以将机器学习模型存储在MODEL STORE(模型仓库)中。

可以理解的是，不同基站，其硬件环境不同，支持的机器学习模型的运行时(runtime，运行时环境)不同，其中，对于机器学习模型的运行时，其包括但不限于硬件运行环境和/或机器学习模型运行框架，硬件运行环境可以是GPU(Graphics Processing Unit，图形处理器)、CPU(Central Processing Unit，中央处理器)等硬件。例如，对于某些基站，其只包括CPU，则该基站上无法运行只支持GPU运行时的机器学习模型。为了保证不同基站可以下载到与自身支持的运行时匹配的机器学习模型，本发明实施例中，针对同一种机器学习模型，可以在OMC中发布至少两种类型的机器学习模型，其中，不同类型的机器学习模型，其支持的运行时不同，也就是说，假设两个机器学习模型的运行框架不同，则其类型不同，假设两个机器学习模型支持的硬件运行环境不同，则其类型不同，假设两个机器学习模型的机器学习模型运行框架和支持的硬件运行环境均不相同，则其类型不同。这样，基站可以从至少两种类型的机器学习模型中下载与自身支持的运行时匹配的机器学习模型。例如，基站可以从至少两种类型的镜像包中下载与自身硬件环境匹配的镜像包。

例如，针对同一种机器学习模型，在OMC中可以发布以下三种类型的机器学习模型：

机器学习模型一：支持CPU，TensorFlow运行时；

机器学习模型二：支持CPU，OpenVINO运行时；

机器学习模型三：支持GPU，TensorRT运行时。

对于某一基站，假设其只包括CPU，其支持的运行时如下：

-serving-tf-cpu:1.0:支持CPU，TensorFlow运行时；

-serving-openvino-cpu:2.0：支持CPU，OpenVINO运行时；

-serving-tf-openvino-cpu:1.0：支持CPU，TensorFlow或OpenVINO运行时。

因此，该基站可以下载与自身支持的运行时匹配的机器学习模型一和/或机器学习模型二。

又例如，参见下文，OMC中的MODEL STORE发布了一个名为resnet50的模型，分别拥有两个版本，并且在每个版本中，针对不同的硬件架构部署了两个不同的模型。

其中，config.pbtxt是一个关于模型元数据的配置信息，包括模型的输入输出，推理超参配置，硬件架构对应的模型配置等，参见下文，其为一种的config.pbtxt的示例。

其中，基站从OMC处下载机器学习模型的过程可以参见图2所示，包括：

S201、OMC向基站发送模型下载指令。

OMC可以向其管理的基站发送模型下载指令。

S202、基站从OMC处下载机器学习模型。

基站在接收到OMC发送的模型下载指令后，基于SSH(Secure Shell，安全外壳协议)、HTTPS(Hypertext Transfer Protocol Secure，超文本传输安全协议)、FTPS(FileTransfer Protocol，文件传输协议)等中的至少一种从OMC处下载机器学习模型。基站在下载机器学习模型后，若下载成功，还可以通知OMC下载成功；若下载失败，通知OMC下载失败，OMC尝试断点续传，恢复下载过程。

基站在下载机器学习模型后，需要激活并加载该机器学习模型，以完成在基站上的部署。其中，激活是指使能机器学习模型，加载是指反序列化模型以实现加载。并且，机器学习模型在部署在基站后，若有新版本的机器学习模型，则基站可以对机器学习模型的版本进行升级。或者，机器学习模型在部署在基站后，若需要回退到指定版本的机器学习模型，则基站可以将自身部署的机器学习模型的版本回退到指定版本。

本发明实施例中，基站上机器学习模型的激活、加载、版本升级、版本回退等，可以由OMC进行控制。例如，参见图3所示，OMC对基站上机器学习模型的控制过程包括：

S301、OMC向基站发送模型控制指令。

本发明实施例中，模型控制指令包括但不限于以下控制指令中的至少一种：激活指令、加载指令、版本升级指令、回退指令。

S302、基站根据模型控制指令对机器学习模型进行控制。

基站在接收到OMC发送的模型控制指令后，根据模型控制指令对机器学习模型进行控制。模型控制指令包括激活指令、加载指令、版本升级指令、回退指令中的至少一种，基站根据激活指令对机器学习模型进行激活，根据加载指令对机器学习模型进行加载，根据版本升级指令对机器学习模型的版本进行升级，根据回退指令将机器学习模型的版本回退至指定版本。

例如，参见图4所示，机器学习模型的回退过程包括：

S401、OMC向基站发送回退指令。

本发明实施例中，回退指令可以包括回退策略，回退策略中包括需要回退至哪一历史版本的版本号。

S402、基站根据回退指令将机器学习模型的版本回退至指定版本。

本发明实施例中，基站在接收到回退指令后，卸载基站中当前版本的机器学习模型，同时，根据回退策略中的版本号自动加载该版本号对应的历史版本机器学习模型，并反序列化该历史版本机器学习模型，构建推理运行上下文，从而使得该历史版本的机器学习模型可以提供REST类型或RPC类型的推理服务。

参见图5所示，此处以从V2版本回退到V1版本为例进行说明，包括：

S501、OMC向基站下发RollbackModel(V1)。

OMC向基站下发包括V1版本的模型回退指令。

S502、基站OnBoarding V1&Stop V2。

基站加载V1版本的机器学习模型，停止V2版本的机器学习模型。

S503、基站Servable V1。

基站通过V1版本的机器学习模型提供推理服务。

参见图6所示，机器学习模型的版本升级过程包括：

S601、OMC向基站发送版本升级指令。

本发明实施例中，在有新版本的机器学习模型时，OMC可以向基站发送版本升级指令，版本升级指令中可以包括版本升级的控制策略，例如，可以包括待升级的版本号。

S602、基站根据版本升级指令对机器学习模型的版本进行升级。

基站在接收到版本升级指令后，下载新版本的机器学习模型，并激活、加载该新版本的机器学习模型，同时，卸载旧版本的机器学习模型。

参加图7所示，此处以从V1版本升级至V2版本为例进行说明。

S701、OMC向基站发送UpgradeModel(V2)。

OMC向基站发送下载V2版本的机器学习模型的指令。

S702、基站OnBoarding V2&Stop V1。

基站加载V2版本的机器学习模型，停止V1版本的机器学习模型。

S703、基站Servable V2。

基站通过V2版本的机器学习模型提供推理服务。

本发明实施例中，基站也可以轮询OMC中的机器学习模型，自动发现新版本的机器学习模型。例如，在机器学习模型存储在MODEL STORE中时，基站可以通过轮询OMC中的MODEL STORE，以发现新版本的机器学习模型。基站在发现新版本的机器学习模型后，可以根据自身的业务情况、网络状态等，自行决定下载、激活、加载该新版本的机器学习模型的时机。

本发明实施例中，基站上可以设置机器学习模型的Serving SDK(SoftwareDevelopment Kit，软件开发工具包)，用于对基站上部署的机器学习模型进行管理。其中，Serving SDK具备模型上载、模型升级、模型调度、模型推理、模型监控、运行时隔离等功能中的至少一个。

本发明实施例中，Serving SDK包括API(Application Programming Interface，应用程序编程接口)，用于接收针对机器学习模型的控制信息，并根据控制信息进行相应的反馈，也就是说，用户可以通过Serving SDK的API对基站上的机器学习模型进行控制。其中，API可以是基于C语言的API或基于C++语言的API。本发明实施例中，控制信息可以是查询指令，也就是说用户可以通过API查询基站上部署的机器学习模型，各机器学习模型的运行状态等。控制信息也可以是针对机器学习模型的定制方案，即可以通过API扩展针对机器学习模型的定制方案，其中，定制方案包括但不限于针对机器学习模型的功能的扩展、多模型协作策略、Runtime(运行时)等，也就是说，本发明实施例中，用户可以通过API对机器学习模型进行开发和定制。

例如，参见图8所示，图8为Serving SDK的一种系统架构图，Serving SDK中包括C++API，用于接收用户的控制信息，其还包括模型管理(ModelManager)、模型调度(Scheduler)、ModelStore(模型存储)的功能，Serving SDK还封装了不同的运行时(Runtime)，例如，CPU或GPU，TensorFlow运行时；CPU，OpenVINO运行时；CPU，ML运行时；以及device、custom(定制的)运行时，其中device和custom可以由用户进行设置，即用户可以根据具体的硬件架构，实现自定义的推理运行时环境。本发明实施例中，基站中的Serving(微服务，例如，部署了机器学习模型的微服务)可以通过调用Serving SDK来实现对机器学习模型进行管理。当然，在其他示例中，也可以根据实际情况，选择Caffe，PyTorch的运行时环境。

需要说明的是，本发明实施例中，基站上可以部署一个机器学习模型，或部署至少两个机器学习模型。在基站上部署至少两个机器学习模型时，基站上的机器学习模型可以独立完成推理服务，或者，基站上的机器学习模型也可以互相协作完成推理服务。其中，基站可以根据多模型协作策略从基站上部署的至少两个机器学习模型中调用至少两个机器学习模型进行协作，为通信业务提供推理服务。

本发明实施例中，多模型协作策略可以设置在机器学习模型中，也就是说，在机器学习模型的算法中设置多模型协作策略，这样，在机器学习模型运行过程中，基于该多模型协作策略自动调用相关的机器学习模型进行协作，完成推理服务。例如，在基于TensorFlow的机器学习模型中，使用控制OP(Operation，机器学习算子)将多模型协作策略设置在机器学习模型的算法中，例如通过Switch，Merge，Enter，Leave，Next，完成类似高级语言中if-else，while，for的控制流程，在训练时，可独立地训练各个机器学习模型，在部署时，包括控制OP在内的机器学习模型能够被反序列化，包括控制OP在内的机器学习模型在推理时执行控制OP，从而调用其他相关机器学习模型进行协作推理。

或者，基站可以通过Serving SDK中的API接收多模型协作策略，也就是说，用户可以通过API接口来控制基站上的至少两个机器学习模型进行协作。其中，多模型协作策略可以是命令式协作策略，例如使用原生C++编辑多模型协作策略，控制多个机器学习模型的协作；或者，多模型协作策略可以是声明式协作策略，即使用Serving SDK提供的DSL(DomainSpecified Language，领域专用语言)，构造多模型的编排器，从而调动至少两个机器学习模型进行协作，其中，DSL调度最基本的单位为一个SchedAction。每个SchedAction可表现为数据预处理，或子模型的推理。其中，协作方式包括但不限于：顺序执行，分支执行，迭代执行。

本发明实施例提供的通信业务服务提供方法，基站通过其自身上部署的机器学习模型为通信业务提供推理服务，在某些实施过程中，由于基站通过机器学习模型为通信业务提供推理服务，由于机器学习模型本身对数据处理的优势，提升了网络运行的效率，同时，机器学习模型的应用在某些方面代替了人工处理，节约了成本，并且，基站在手机数据之后可以直接基于机器学习模型进行推理，完成相应的决策，相比基站将收集的数据发送给高层网络(例如OMC)进行决策的方案而言，不仅可以降低时延，还提高了数据的安全性。

实施例二：

为了更好的理解本发明，本发明实施例结合更加具体的示例进行说明。参见图9所示，图9为本发明实施例提供的通信业务服务提供方法的流程图，包括：

S901、OMC向基站下发模型下载指令。

本发明实施例中，OMC的MODEL STORE中存储有基于各种通信业务需求训练完成的机器学习模型，各机器学习模型以二进制的形式发布，对于同一种机器学习模型，包括至少两种类型的机器学习模型，不同类型的机器学习模型支持的运行时不同，运行时包括机器学习模型模型运行框架和硬件运行环境。需要说明的是，机器学习模型的运行框架包括但不限于以下中的至少一种：Keras，TensorFlow，PyTorch，Caffe，MxNet。硬件运行环境包括但不限于GPU、CPU等。

例如，针对同一种机器学习模型，在OMC中可以发布以下四种类型的机器学习模型：

机器学习模型1.0:支持CPU，TensorFlow运行时；

机器学习模型1.1：支持CPU，openvino运行时；

机器学习模型1.2：支持GPU，TensorrT运行时；

机器学习模型1.3：支持CPU，TensorFlow或OpenVINO运行时。

S902、基站从OMC中下载机器学习模型。

本发明实施例中，基站在接收到模型下载指令后，基于HTTPS从OMC处下载与自身支持的运行时匹配的机器学习模型。

例如，假设基站中只封装了CPU，TensorFlow运行时，则基站下载机器学习模型1.0。

S903、基站部署机器学习模型。

本发明实施例中，基站在下载机器学习模型的镜像包后，部署该机器学习模型，即激活该机器学习模型，反序列化该机器学习模型，构建该机器学习模型推理运行的上下文。基站可以在独立微服务中部署机器学习模型，也可以将通信业务与机器学习模型部署在同一微服务中。

S904、基站基于机器学习模型为通信业务提供推理服务。

其中，基站可以基于机器学习模型为通信业务提供REST类型或RPC类型的推理服务。

基站在提供推理服务时，可以基于多模型协作策略调用基站上部署的至少两个机器学习模型协作完成推理服务，其中，多模型协作策略可以通过ServingSDK的API来接收。例如，参见图10所示，基于Serving SDK，构建多模型协作的推理运行时，其中，多个模型(Multiple Models)中的第1个模型(model 1)用于前置和后置的数据处理，在TensorFlow、CPU运行时中运行；第2个模型(model 2)在满足特定的条件后才可以启动推理，它在Tensorrt、CPU运行时中运行；第3个模型(model 3)循环执行n次，在OpenVINO、CPU运行时中运行；第4个模型(model 4)在满足特定条件下，在自定义运行框架(Custom)、CPU运行时中运行，用于后置的数据预处理，最后输出推理的结果。

S905、基站轮询OMC的MODEL STORE以发现新版本的机器学习模型。

基站可以定时轮询OMC的MODEL STORE，来发现是否有新版本的机器学习模型。

S906、基站自行决定下载、激活、加载新版本的机器学习模型的时机。

基站在发现新版本的机器学习模型后，根据业务情况自行决定模型下载、激活、加载新版本的机器学习模型的时机，从而完成新、旧版本的切换，从而最大化保障无线业务的连续服务和影响。

本发明实施例中，基站还可以在接收到OMC发送的回退指令时，将机器学习模型的版本回退至指定版本。

本发明实施例中，上述通信业务服务提供方法中基站侧的步骤可以由基站中的微服务执行，机器学习模型部署在该微服务中，例如，参见图11所示，图11为基站中的一个Serving的架构图，其包括HTTP服务(HTTP Server)，该Serving基于HTTP Server从OMC中下载与自身支持的运行时(Runtime)匹配的机器学习模型，并基于ModelManager(模型管理)对机器学习模型进行管理，例如下载、激活、加载机器学习模型，ModelManager还可以通过轮询OMC的MODEL STORE，来发现是否有新版本的机器学习模型；Serving还可以通过RPCServer基于机器学习模型为通信业务提供RPC类型的推理服务。本发明实施例中，可以基于基站的硬件架构在Serving中预先封装多个不同的Runtime，也就是说Serving可以支持多种不同的运行时，需要说明的是，支持不同运行时，实际上为发布不同镜像的Serving。例如，图11中，Serving中封装了CPU/GPU、TensorFlow运行时，GPU、TensorrT运行时，CPU、OpenVINO运行时。本发明实施例中，Serving的运行时可以由用户进行设置，例如，图11中，Serving中的device、custom运行时可以由用户设置，即device、custom可以由用户进行设置，即用户可以根据具体的硬件架构，实现自定义的推理运行时环境。

实施例三

本发明实施例在实施例一、实施例二的基础上提供了一种通信业务服务提供装置，包括服务模块，用于通过机器学习模型为通信业务提供服务

本发明实施例中，将机器学习模型应用于通信方面，例如，应用于网络的规划与优化等场景，其中，可以通过机器学习模型为通信业务提供以下服务中的至少一种：站点健康检查服务、故障预测服务、基站规划服务、射频规划服务、流量预测服务、负载预测服务、KPI(Key Performance Indication，关键性能指标)预测服务、覆盖优化服务、参数优化服务、设备节能服务等。也就是说，本发明实施例中，可以将机器学习模型应用于站点健康检查、故障预测、基站规划、射频规划、流量预测、负载预测、KPI预测、覆盖优化、参数优化、设备节能等方面。其中，机器学习模型可以提供REST类型或RPC类型的推理服务。

本发明实施例中，在通过机器学习模型为通信业务提供推理服务之前，基站还需要下载并部署机器学习模型。在部署机器学习模型时，可以在独立微服务中部署机器学习模型。或者，计算资源是有限的，在时延、功耗等方面更为苛刻，因此，为了追求性能最大化，可以将机器学习模型与通信业务部署在同一微服务中，这样，通信业务可以通过函数调用，直接实现模型的推理请求。

本发明实施例中，在实施例一、实施例二的基础上还提供一种机器学习模型提供装置，包括存储模块，用于存储机器学习模型，以供通信业务服务提供装置获取机器学习模型。其中，该机器学习模型提供装置可以是OMC。

存储模块中存储有训练完成的机器学习模型，其中，机器学习模型可以以二进制的形式发布在存储模块中，通信业务服务提供装置可以从机器学习模型提供装置处去下载机器学习模型。也就是说，本发明实施例中，会将离线训练好的机器学习模型上传至机器学习模型提供装置处，以供通信业务服务提供装置进行下载。应当理解的是，本发明实施例中，可以基于通信业务的需求，基于Keras，TensorFlow，PyTorch，Caffe，MxNet等机器学习模型运行框架中的至少一种设计机器学习模型的网络结构，并接入训练数据集，完成机器学习模型的训练，训练好的机器学习模型可以更加方便地导出到编译优化工具链中，经过模型剪枝、层融合、降低精度等模型优化后，发布一个优化后的、二进制式的机器学习模型，并将其上传至机器学习模型提供装置中。其中，机器学习模型提供装置可以将机器学习模型存储在MODEL STORE(模型仓库)中。

可以理解的是，不同通信业务服务提供装置，其硬件环境不同，支持的机器学习模型的运行时(runtime，运行时环境)不同，其中，对于机器学习模型的运行时，其包括但不限于硬件运行环境和/或机器学习模型运行框架，硬件运行环境可以是GPU(GraphicsProcessing Unit，图形处理器)、CPU(CentralProcessing Unit，中央处理器)等硬件。例如，对于某些通信业务服务提供装置，其只包括CPU，则该通信业务服务提供装置上无法运行只支持GPU运行时的机器学习模型。为了保证不同通信业务服务提供装置可以下载到与自身支持的运行时匹配的机器学习模型，本发明实施例中，针对同一种机器学习模型，可以在机器学习模型提供装置中发布至少两种类型的机器学习模型，其中，不同类型的机器学习模型，其支持的运行时不同，也就是说，假设两个机器学习模型的运行框架不同，则其类型不同，假设两个机器学习模型支持的硬件运行环境不同，则其类型不同，假设两个机器学习模型的机器学习模型运行框架和支持的硬件运行环境均不相同，则其类型不同。这样，通信业务服务提供装置可以从至少两种类型的机器学习模型中下载与自身匹配的机器学习模型。例如，通信业务服务提供装置可以从至少两种类型的机器学习模型中下载与自身硬件环境匹配的机器学习模型。

其中，通信业务服务提供装置从机器学习模型提供装置处下载机器学习模型的过程可以包括：机器学习模型提供装置向通信业务服务提供装置发送模型下载指令，通信业务服务提供装置在接收到机器学习模型提供装置发送的模型下载指令后，从机器学习模型提供装置处下载机器学习模型。通信业务服务提供装置可以基于SSH、HTTPS、FTPS等中的至少一种从机器学习模型提供装置处下载机器学习模型。通信业务服务提供装置在下载机器学习模型后，若下载成功，还可以通知机器学习模型提供装置下载成功；若下载失败，通知机器学习模型提供装置下载失败，机器学习模型提供装置尝试断点续传，恢复下载过程。

通信业务服务提供装置在下载机器学习模型后，需要激活并加载该机器学习模型，以完成在通信业务服务提供装置上的部署。其中，激活是指使能机器学习模型，加载是指反序列化模型以实现加载。并且，机器学习模型在部署在通信业务服务提供装置后，若有新版本的机器学习模型，则通信业务服务提供装置可以对机器学习模型的版本进行升级。或者，机器学习模型在部署在通信业务服务提供装置后，若需要回退到指定版本的机器学习模型，则通信业务服务提供装置可以将自身部署的机器学习模型的版本回退到指定版本。

本发明实施例中，通信业务服务提供装置上机器学习模型的激活、加载、版本升级、版本回退等，可以由机器学习模型提供装置进行控制。例如，机器学习模型提供装置对通信业务服务提供装置上机器学习模型的控制过程包括：机器学习模型提供装置向通信业务服务提供装置发送模型控制指令，通信业务服务提供装置在接收到机器学习模型提供装置发送的模型控制指令后，根据模型控制指令对机器学习模型进行控制。本发明实施例中，模型控制指令包括但不限于以下控制指令中的至少一种：激活指令、加载指令、版本升级指令、回退指令，通信业务服务提供装置根据激活指令对机器学习模型进行激活，根据加载指令对机器学习模型进行加载，根据版本升级指令对机器学习模型的版本进行升级，根据回退指令将机器学习模型的版本回退至指定版本。

本发明实施例中，通信业务服务提供装置也可以轮询机器学习模型提供装置中的机器学习模型，自动发现新版本的机器学习模型。例如，在机器学习模型存储在MODELSTORE中时，通信业务服务提供装置可以通过轮询机器学习模型提供装置中的MODELSTORE，以发现新版本的机器学习模型。通信业务服务提供装置在发现新版本的机器学习模型后，可以根据自身的业务情况、网络状态等，自行决定下载、激活、加载该新版本的机器学习模型的时机。

本发明实施例中，通信业务服务提供装置上可以设置机器学习模型的ServingSDK(Software Development Kit，软件开发工具包)，用于对通信业务服务提供装置上部署的机器学习模型进行管理。其中，Serving SDK具备模型上载、模型升级、模型调度、模型推理、模型监控、运行时隔离等功能中的至少一个。

本发明实施例中，Serving SDK包括API，用于接收针对机器学习模型的控制信息，并根据控制信息进行相应的反馈，也就是说，用户可以通过Serving SDK的API对通信业务服务提供装置上的机器学习模型进行控制。其中，API可以是基于C语言的API或基于C++语言的API。本发明实施例中，控制信息可以是查询指令，也就是说用户可以通过API查询通信业务服务提供装置上部署的机器学习模型，各机器学习模型的运行状态等。控制信息也可以是针对机器学习模型的定制方案，即可以通过API扩展针对机器学习模型的定制方案，其中，定制方案包括但不限于针对机器学习模型的功能的扩展、多模型协作策略、Runtime(运行时)等，也就是说，本发明实施例中，用户可以通过API对机器学习模型进行开发和定制。

本发明实施例中，通信业务服务提供装置中的Serving(微服务)可以通过调用Serving SDK来实现对机器学习模型进行管理。

需要说明的是，本发明实施例中，通信业务服务提供装置上可以部署一个机器学习模型，或部署至少两个机器学习模型。在通信业务服务提供装置上部署至少两个机器学习模型时，通信业务服务提供装置上的机器学习模型可以独立完成推理服务，或者，通信业务服务提供装置上的机器学习模型也可以互相协作完成推理服务。其中，通信业务服务提供装置可以根据多模型协作策略从通信业务服务提供装置上部署的至少两个机器学习模型中调用至少两个机器学习模型进行协作，为通信业务提供推理服务。

或者，通信业务服务提供装置可以通过Serving SDK中的API接收多模型协作策略，也就是说，用户可以通过API接口来控制通信业务服务提供装置上的至少两个机器学习模型进行协作。其中，多模型协作策略可以是命令式协作策略，即使用原生C++编辑多模型协作策略，控制多个机器学习模型的协作；或者，多模型协作策略可以是声明式协作策略，即使用Serving SDK提供的DSL，构造多模型的编排器，从而调动至少两个机器学习模型进行协作，其中，DSL调度最基本的单位为一个SchedAction。每个SchedAction可表现为数据预处理，或子模型的推理。其中，协作方式包括但不限于：顺序执行，分支执行，迭代执行。

本发明实施例提供的通信业务服务提供装置、机器学习模型提供装置，通信业务服务提供装置通过其自身上部署的机器学习模型为通信业务提供推理服务，在某些实施过程中，由于通信业务服务提供装置通过机器学习模型为通信业务提供推理服务，由于机器学习模型本身对数据处理的优势，提升了网络运行的效率，同时，机器学习模型的应用在某些方面代替了人工处理，节约了成本，并且，通信业务服务提供装置在手机数据之后可以直接基于机器学习模型进行推理，完成相应的决策，相比通信业务服务提供装置将收集的数据发送给高层网络(例如机器学习模型提供装置)进行决策的方案而言，不仅可以降低时延，还提高了数据的安全性。

实施例四：

本发明实施例提供了一种基站，基站包括第一处理器1201、第一存储器1202及第一通信总线1203；

第一通信总线1203用于实现第一处理器1201和第一存储器1202之间的连接通信；

第一处理器1201用于执行第一存储器1202中存储的一个或者多个程序，以实现上述实施例一和实施例二中的通信业务服务提供方法中基站侧的步骤。

本发明实施例提供了一种服务器，该服务器可以是OMC服务器，服务器包括：第二处理器1301、第二存储器1302及第二通信总线1303；

第二通信总线1303用于实现第二处理器1301和第二存储器1302之间的连接通信；

第二处理器1301用于执行第二存储器1302中存储的一个或者多个程序，以实现上述实施例一和实施例二中的通信业务服务提供方法中OMC侧的步骤。

本实施例还提供了一种存储介质，用于存储一个或者多个计算机程序，其存储的一个或者多个计算机程序可被处理器执行，以实现上述实施例一和实施例二中的通信业务服务提供方法中基站侧或OMC侧的至少一个步骤。

本发明实施例中的存储介质包括用于存储信息(诸如计算机可读指令、数据结构、计算机程序模块或其他数据)的任何方法或技术中实施的易失性或非易失性、可移除或不可移除的介质。存储介质包括但不限于RAM(Random Access Memory，随机存取存储器),ROM(Read-Only Memory，只读存储器),EEPROM(Electrically Erasable Programmable readonly memory，带电可擦可编程只读存储器)、闪存或其他存储器技术、CD-ROM(CompactDisc Read-Only Memory，光盘只读存储器)，数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。

本发明实施例提供的基站、服务器、存储介质，基站通过其自身上部署的机器学习模型为通信业务提供推理服务，在某些实施过程中，由于基站通过机器学习模型为通信业务提供推理服务，由于机器学习模型本身对数据处理的优势，提升了网络运行的效率，同时，机器学习模型的应用在某些方面代替了人工处理，节约了成本，并且，基站在手机数据之后可以直接基于机器学习模型进行推理，完成相应的决策，相比基站将收集的数据发送给高层网络(例如OMC)进行决策的方案而言，不仅可以降低时延，还提高了数据的安全性。

可见，本领域的技术人员应该明白，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件(可以用计算装置可执行的计算机程序代码来实现)、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。

此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、计算机程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种通信业务服务提供方法，包括：基站通过其自身上部署的机器学习模型为通信业务提供推理服务。

2.如权利要求1所述的通信业务服务提供方法，其特征在于，所述机器学习模型用于为通信业务提供以下服务中的至少一种：站点健康检查服务、故障预测服务、基站规划服务、射频规划服务、流量预测服务、负载预测服务、关键性能指标KPI预测服务、覆盖优化服务、参数优化服务、设备节能服务。

3.如权利要求1所述的通信业务服务提供方法，其特征在于，所述机器学习模型包括基于Keras，TensorFlow，PyTorch，Caffe，MxNet中至少一种机器学习模型运行框架设计的机器学习模型。

4.如权利要求1所述的通信业务服务提供方法，其特征在于，所述基站在独立微服务中部署所述机器学习模型。

5.如权利要求1所述的通信业务服务提供方法，其特征在于，所述基站将所述机器学习模型与通信业务部署在同一微服务中。

6.如权利要求1所述的通信业务服务提供方法，其特征在于，所述基站通过机器学习模型的服务软件开发工具包Serving SDK中的应用程序编程接口API扩展针对所述机器学习模型的定制方案。

7.如权利要求1所述的通信业务服务提供方法，其特征在于，所述基站上部署有至少两个机器学习模型；

所述基站根据多模型协作策略从其部署的机器学习模型中调用至少两个机器学习模型进行协作，为通信业务提供服务。

8.如权利要求7所述的通信业务服务提供方法，其特征在于，所述多模型协作策略设置在所述机器学习模型中。

9.如权利要求7所述的通信业务服务提供方法，其特征在于，还包括：

所述基站通过API接收所述多模型协作策略。

10.如权利要求9所述的通信业务服务提供方法，其特征在于，所述多模型协作策略包括命令式多模型协作策略或声明式多模型协作策略。

11.如权利要求1-10任一项所述的通信业务服务提供方法，其特征在于，所述基站通过其自身上部署的机器学习模型为通信业务提供推理服务之前，还包括：

所述基站下载机器学习模型并在自身上部署机器学习模型。

12.如权利要求11所述的通信业务服务提供方法，其特征在于，操作维护中心OMC中存储有机器学习模型；

所述基站下载机器学习模型包括：

所述基站从所述OMC处下载机器学习模型。

13.如权利要求12所述的通信业务服务提供方法，其特征在于，针对同一种机器学习模型，所述OMC中包括至少两种类型的机器学习模型，不同类型的机器学习模型所支持的运行时不同；

所述基站从所述OMC处下载机器学习模型包括：

所述基站从所述OMC处下载与所述基站支持的运行时匹配的机器学习模型。

14.如权利要求12所述的通信业务服务提供方法，其特征在于，所述基站从所述OMC处下载机器学习模型包括：

所述基站在接收到所述OMC发送的模型下载指令后，从所述OMC处下载机器学习模型。

15.如权利要求12所述的通信业务服务提供方法，其特征在于，还包括：

所述OMC向所述基站发送模型控制指令；

所述基站在接收到所述模型控制指令后，根据所述模型控制指令对所述机器学习模型进行控制。

16.如权利要求15所述的通信业务服务提供方法，其特征在于，所述模型控制指令包括激活指令、加载指令、版本升级指令、回退指令中的至少一种；

所述根据所述模型控制指令对所述机器学习模型进行控制包括以下方式中的至少一种：

根据所述激活指令对所述机器学习模型进行激活；

根据所述加载指令对所述机器学习模型进行加载；

根据所述版本升级指令对所述机器学习模型的版本进行升级；

根据所述回退指令将所述机器学习模型的版本回退至指定版本。

17.如权利要求12所述的通信业务服务提供方法，其特征在于，所述OMC中包括模型仓库MODEL STORE，所述MODEL STORE用于存储机器学习模型；

所述基站通过轮询所述MODEL STORE发现新版本的机器学习模型。

18.如权利要求17所述的通信业务服务提供方法，其特征在于，所述基站在发现新版本的机器学习模型后，还包括：

所述基站自行决定下载、激活、加载所述新版本的机器学习模型的时机。

19.一种通信业务服务提供装置，所述通信业务服务提供装置包括：服务模块，用于通过机器学习模型为通信业务提供服务。

20.一种机器学习模型提供装置，所述机器学习模型提供装置包括：存储模块，用于存储机器学习模型，以供通信业务服务提供装置获取所述机器学习模型，所述机器学习模型用于为通信业务提供服务。

21.一种基站，所述基站包括：第一处理器、第一存储器及第一通信总线；

所述第一处理器用于执行第一存储器中存储的一个或者多个程序，以实现如权利要求1至18中任一项所述的通信业务服务提供方法中基站侧的步骤。

22.一种服务器，所述服务器包括：第二处理器、第二存储器及第二通信总线；

所述第二处理器用于执行第二存储器中存储的一个或者多个程序，以实现如权利要求12-18中任一项所述的通信业务服务提供方法中OMC侧的步骤。

23.一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1至18中任一项所述的通信业务服务提供方法中基站侧的步骤，或如权利要求12至18中任一项所述的通信业务服务提供方法中OMC侧的步骤。