CN113391883A

CN113391883A - 应用于城市大脑的ai模型推理系统及方法

Info

Publication number: CN113391883A
Application number: CN202110945836.9A
Authority: CN
Inventors: 韩继实; 李浩浩; 何彬; 梅一多; 王静宇; 王辉
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-09-14

Abstract

本发明是关于应用于城市大脑的AI模型推理系统及方法。该方法包括：对AI模型推理过程中对资源使用情况进行实时监控，当发现资源超过了预定的阈值时，自动进行熔断，以保证服务的可用性；根据历史数据来预测推理服务动态扩缩容的比例；对不同厂商提供的不同AI模型进行容器化部署；提供推理任务的基础算力；根据推理服务使用率的变化，按照预测的扩缩容的比例对资源进行扩缩容。本发明提供的方案，通过AI算法对场景服务的历史数据进行训练，实现对不同时段，不同并发情况下的数据的预测，动态的调整服务扩缩容比例，减少人为参与，能够提高整体的服务能力，完善“城市大脑”的AI建设，推动智慧城市的发展。

Description

应用于城市大脑的AI模型推理系统及方法

技术领域

本发明涉及人工智能领域，尤其涉及应用于城市大脑的AI模型推理系统及方法。

背景技术

智慧城市是把信息技术与城市建设融合在一起，将城市信息化推向更高阶段。它基于互联网、云计算、大数据、物联网、移动互联网等工具和方法，感测、分析、整合城市运行核心系统的各项关键信息，有助于缓解“大城市病”，实现信息化、工业化与城镇化深度融合，提高城镇化质量，实现精细化和动态管理，并提升城市管理成效和改善市民生活质量。

城市大脑是互联网大脑架构与智慧城市建设结合的产物，是城市级的类脑复杂智能巨系统，在智慧城市发展形成城市神经系统的同时，城市神经元网络和城市云反射弧将是城市大脑建设的重点。城市大脑的作用是提高城市的运行效率，解决城市运行中面临的复杂问题，更好的满足城市各成员的不同需求。人工智能计算处理中心是城市大脑的重要组成部分，是支撑“城市大脑”长期高效运行的基础，是“城市大脑”的基础算法分析平台，同时也是“城市大脑”持续演进的核心引擎。

当前城市大脑中，建立了AI推理系统，汇集了众多第三方厂商，如某不同厂商提供了渣土车识别模型，他们可以上传自己的算法模型。各厂商提供AI模型后，即可部署发布成推理服务为业务做支撑，在推理服务运行过程中，如果发生突发事件，推理请求激增，导致算力在短时间无法支撑，会引起系统不能及时响应。针对这一问题，传统的方式是用户预先设置阈值来实现资源的自动扩缩容，这种方式是根据当前指标和期望指标来计算扩缩比例，需要用户不断去调整扩展比例，会浪费大量的人力，增加运维成本，效率极其低下，并且，如果操作出现失误，会引起严重后果。

发明内容

为克服相关技术中存在的问题，本发明提供应用于城市大脑的AI模型推理系统及方法。

根据本发明实施例的第一方面，提供应用于城市大脑的AI模型推理系统，包括：

算力监控模块，用于对AI模型推理过程中对资源使用情况进行实时监控，当发现资源超过了预定的阈值时，自动进行熔断，以保证服务的可用性；

智能预测模块，用于根据历史数据来预测推理服务动态扩缩容的比例；

模型部署模块，用于对不同厂商提供的不同AI模型进行容器化部署；

模型推理模块，用于提供推理任务的基础算力；

自动扩缩容模块，用于根据推理服务使用率的变化，按照所述智能预测模块预测的扩缩容的比例对资源进行扩缩容。

进一步，所述对资源使用情况进行实时监控，具体包括：

对CPU负载、内存负载、磁盘负载、网络流量和GPU负载进行实时监控。

进一步，所述模型可采用基于时间序列预测方法ARIMA线性模型或特征工程LSTM模型。

进一步，所述智能预测模块，具体用于：通过对历史数据进行训练，监督学习数据，预测峰值对模型进行调整，根据不同情况来自动调整推理服务扩缩容比例。

进一步，所述自动扩缩容模块，具体用于：

当推理请求超出了硬件资源的处理能力时，按照所述智能预测模块预先设定的扩容策略，自动调整计算资源配比，对计算集群进行水平扩容，以应对流量高峰；当流量降低时，按照所述智能预测模块预测的缩容比例，对AI模型进行水平缩容，回收不必要的资源，以达到合理利用资源的目的。

进一步，该系统还包括：

异构算力模块，用于提供不同厂商GPU设备，以及一键部署不同类型的模型。

进一步，该系统还包括：

用户隔离模块，用于通过Docker容器技术，将多用户存储、网络、计算资源隔离。

根据本发明实施例的第二方面，提供应用于城市大脑的AI模型推理方法，包括：

对AI模型推理过程中对资源使用情况进行实时监控，当发现资源超过了预定的阈值时，自动进行熔断，以保证服务的可用性；

根据历史数据来预测推理服务动态扩缩容的比例；

对不同厂商提供的不同AI模型进行容器化部署；

提供推理任务的基础算力；

根据推理服务使用率的变化，按照预测的扩缩容的比例对资源进行扩缩容。

根据本发明实施例的第三方面，提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

根据本发明实施例的第四方面，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

通过AI算法对场景服务的历史数据进行训练，实现对不同时段，不同并发情况下的数据的预测，动态的调整服务扩缩容比例，减少人为参与，能够提高整体的服务能力，完善“城市大脑”的AI建设，推动智慧城市的发展。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1是根据本发明一示例性实施例示出的推理系统业务流程图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

本发明提供了AI模型的部署和推理系统，为用户提供了统一应用接口,所述系统具有资源监控、算力弹性伸缩、自我修复、负载均衡、自动发布、自动回滚，模型管理、模型推理、场景管理等全栈AI能力，适用于不同厂商提供的AI应用模型，支持CPU、Nvidia\寒武纪等各种各样的异构硬件，为“城市大市”提供了巨大算力。

以下结合附图详细描述本发明实施例的技术方案。

本发明实施例提供的应用于城市大脑的AI模型推理系统，包括：

算力监控模块，用于对AI模型推理过程中对资源使用情况进行实时监控，当发现资源超过了预定的阈值时，自动进行熔断，以保证服务的可用性。

具体的，如图1所示，当系统接收到用户请求时，会调动资源进行AI模型推理，在此过程中，此模块对必要资源的使用情况进行实时监控，例如对CPU负载、内存负载、磁盘负载、网络流量和GPU负载等进行实时监控，一旦发现资源超过了预定的阈值，系统会自动进行熔断，以保证服务的可用性。

具体的，此模块是根据历史数据（时间段、流量峰值）来预测推理服务动态扩缩容的比例。模型可采用基于时间序列预测方法ARIMA线性模型、特征工程LSTM模型，通过对历史进行训练，监督学习数据，预测峰值对模型进行调整，根据不同情况来自动调整推理服务扩缩容比例。

具体的，此模块是对不同厂商提供的不同AI模型进行容器化部署，包括封装底层环境，自动适配GPU型号，选择合适的显卡等，以达到效果最优化。

模型推理模块，用于提供推理任务的基础算力。

具体的，此模块主要采用CPU/GPU计算节来提供推理任务的基础算力，通过容器化技术封装训练任务，采用容器技术的好处是可以将运行环境完全隔离，不同任务之间不会产生软件冲突，支持接受外部HTTP请求。

该模块还支持多模型加权计算，衡量多个模型的计算结果，保证推理结果的准确性和可信度，降低误判断。

模型推理服务还支持灰度发布，保证新模型与旧模型之间平滑过度，保证线上推理服务的高可靠性。

该模块还可兼容多种深度学习框架推理服务，适应企业多样化应用场景，无缝对接自研或外购AI模型。

具体的，当推理请求超出了硬件资源的处理能力时，按照智能预测模块预先设定的扩容策略，自动调整计算资源配比，对计算集群进行水平扩容，以应对流量高峰；当流量降低时，按照所述智能预测模块预测的缩容比例，对AI模型进行水平缩容，回收不必要的资源，以达到合理利用资源的目的。

本发明实施例提供的应用于城市大脑的AI模型推理系统，通过实时监控，及时了解推理过程中资源的使用，并且通过预测模型实现不同时段、不同峰值依据历史数据预测最佳扩容比例，并通过自动修改配置文件实现自动更新扩缩容比例，当机器负载压力过高时，按照预测的扩容比例来进行资源扩容，实现自动扩充部署节点，保证AI模型的高可用。

本发明提供的系统在“城市大脑”的建设和应用中，用于AI场景模型推理，推理服务是容器化的微服务软件，其提供的微服务可以让使用者通过AIP，在一个或多个GPU设备上，使用TensorFlow等框架进行推理，模型推理时可自动根据请求数量调节硬件资源。

例如，“城市大脑”的摄像头监控，在早高峰时段，并发高，数据量过大，通过ARIMA线性模型、LSTM特征工程模型算法，自动修改阈值比例，当推理服务使用率达到50%时进行自动扩缩容，当夜晚时段，并发数降低，但数据量缩小的情况下，通过ARIMA线性模型、LSTM特征工程模型算法，自动修改阈值比例，控制推理服务使用率达到90%时进行自动扩缩容，以应对处理请求激增的情况。

可选地，在该实施例中，该系统还包括：

异构算力模块，用于提供不同厂商GPU设备，以及一键部署不同类型的模型，从而充分利用硬件计算资源，为用户提供最佳推理服务。

具体的，由于各厂商提供的模型和支持的算力设备都有差异，现有技术中，对不同厂商提供的模型很难统一部署管理，提供的在线服务无法支撑大量设备的接入，针对这一问题，本发明实施例提供了异构硬件支持和异构推理部署，实现资源统一管理，对各厂商均可提供适合的硬件算力支持，同时支持异构部署和异构负载策略，即对同一场景支持不同厂商提供的AI模型同时提供在线服务。

用户隔离模块，用于通过Docker容器技术，将多用户存储、网络、计算资源隔离，具有安全可靠的特性。

本发明实施例提供应用于城市大脑的AI模型推理方法，包括：

根据历史数据来预测推理服务动态扩缩容的比例；

对不同厂商提供的不同AI模型进行容器化部署；

提供推理任务的基础算力；

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

根据本发明的方法可以实现为一种计算设备，包括存储器和处理器。

处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括各种类型的存储单元，例如系统内存、只读存储器（ROM）和永久存储装置。其中，ROM可以存储处理器或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置（例如磁或光盘、闪存）作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备（例如软盘、光驱）。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片（DRAM，SRAM，SDRAM，闪存，可编程只读存储器），磁盘和/或光盘也可以采用。在一些实施方式中，存储器可以包括可读和/或写的可移除的存储设备，例如激光唱片（CD）、只读数字多功能光盘（例如DVD-ROM，双层DVD-ROM）、只读蓝光光盘、超密度光盘、闪存卡（例如SD卡、min SD卡、Micro-SD卡等等）、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器上存储有可执行代码，当可执行代码被处理器处理时，可以使处理器执行上文述及的方法中的部分或全部。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质（或计算机可读存储介质、或机器可读存储介质），其上存储有可执行代码（或计算机程序、或计算机指令代码），当所述可执行代码（或计算机程序、或计算机指令代码）被电子设备（或计算设备、服务器等）的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.应用于城市大脑的AI模型推理系统，其特征在于，包括：

模型推理模块，用于提供推理任务的基础算力；

2.根据权利要求1所述的系统，其特征在于，所述对资源使用情况进行实时监控，具体包括：

3.根据权利要求1所述的系统，其特征在于，所述模型可采用基于时间序列预测方法ARIMA线性模型或特征工程LSTM模型。

4.根据权利要求1所述的系统，其特征在于，所述智能预测模块，具体用于：通过对历史数据进行训练，监督学习数据，预测峰值对模型进行调整，根据不同情况来自动调整推理服务扩缩容比例。

5.根据权利要求1所述的系统，其特征在于，所述自动扩缩容模块，具体用于：

6.根据权利要求1所述的系统，其特征在于，还包括：

7.根据权利要求1所述的系统，其特征在于，还包括：

8.应用于城市大脑的AI模型推理方法，其特征在于，包括：

根据历史数据来预测推理服务动态扩缩容的比例；

对不同厂商提供的不同AI模型进行容器化部署；

提供推理任务的基础算力；

9.一种终端设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求8中任一项所述的方法。

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求8中任一项所述的方法。