CN114707646A

CN114707646A - 基于远程推理的分布式人工智能实践平台

Info

Publication number: CN114707646A
Application number: CN202210093053.7A
Authority: CN
Inventors: 郝家胜; 汪洋; 陶珉; 王培丞; 彭知南
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-07-05
Anticipated expiration: 2042-01-26
Also published as: CN114707646B

Abstract

本发明公开了一种基于远程推理的分布式人工智能实践平台，将人工智能模型划分为预处理组件、后处理组件和推理组件，将预处理组件和后处理组件运行在应用端，将推理组件运行在布置于神经网络计算设备上的模型端，多个应用端复用一个模型端的推理组件，或多个应用端通过集成服务器复用多个模型端的推理组件，实现了人工智能模型的推理。本发明通过将人工智能应用和神经网络计算设备进行分离，实现神经网络算力资源的远程复用，在降低人工智能实践平台构建成本的同时，还可提高教学实践的灵活性，从而提高人工智能教学质量。

Description

基于远程推理的分布式人工智能实践平台

技术领域

本发明属于人工智能教学技术领域，更为具体地讲，涉及一种基于远程推理的分布式人工智能实践平台。

背景技术

当前，《深度学习》相关课程作为人工智能相关专业的核心课程之一，国内教学效果还存在较大差距，难以提升课程深度和难度。近年来，诸多高校也已开设深度学习类课程，但国内相关文献表明，该类课程在内容定位、教学手段、实践教学等方面还存在明显不足，特别是难以开展具体的实践环节，仅仅停留在课堂学习的一知半解状态，导致教学内容还难以跟上前沿新进展。

机器学习课程实践难以开展的主要原因之一是缺乏可行的实践平台。业界流行的深度学习框架繁多复杂，且需要中大型GPU(Graphics Processing Unit，图形处理器)服务器等昂贵设备支持，学校一般不具备实际条件。市场上提供的商用教学实践平台服务，由软件公司构建并提供服务，成本高且实践项目受限于提供商，难以灵活满足教学需要。

传统的人工智能实践模式下，将深度学习推理应用完整地运行与GPU或Altas200DK等深度神经网络计算设备，因此受限于物理连接，造成对物理计算资源的依赖，实践软件环境配置复杂，且实践平台构建成本居高不下、利用率极其低下，无法构建复杂度较高的实践项目，难以满足人工智能教学实践需要。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于远程推理的分布式人工智能实践平台，通过将人工智能应用和神经网络计算设备进行分离，实现神经网络算力资源的远程复用，在降低人工智能实践平台构建成本的同时，还可提高教学实践的灵活性，从而提高人工智能教学质量。

为了实现上述发明目的，本发明基于远程推理的分布式人工智能实践平台包括N个应用端，N个远程代理模块和1个模型端，其中：

应用端布置在CPU通用计算设备上，用于运行人工智能模型的预处理组件和后处理组件；应用端接收用户配置的人工智能模型信息和人工智能模型输入数据，由人工智能模型的预处理组件对输入数据进行预处理，根据需要选择编码器对输入数据进行编码，将编码后的输入数据连同人工智能模型信息一起生成推理请求，将推理请求通过对应的远程代理模块发送至模型端；应用端接收从模型端返回的编码后的推理结果，进行解码后由人工智能模型的后处理组件对解码后的推理结果进行后处理，将得到的推理结果对用户进行输出；

远程代理模块用于实现对应的应用端和模型端之间的通信，完成编码后的输入数据和编码后的推理结果的传输；

模型端布置在神经网络计算设备上，用于运行人工智能模型的推理组件，完成人工智能模型的推理；模型端从应用端接收推理请求，提取出编码后的输入数据和人工智能模型信息，根据人工智能模型信息确定所需调用的人工智能模型的推理组件，将编码后的输入数据进行解码，根据所调用人工智能模型推理组件规定的输入格式对解码后的输入数据进行预处理，然后输入所调用的推理组件进行推理得到推理结果，将推理结果按照所调用人工智能模型推理组件规定的输出格式进行后处理，将得到的推理结果进行编码后通过对应的远程代理模块返回至推理请求对应的应用端。

本发明还提供了另一种基于远程推理的分布式人工智能实践平台，包括N 个应用端，N个远程代理模块，1个集群服务器和M个模型端，其中：

远程代理模块用于实现对应的应用端和集群服务器之间的通信，完成编码后的输入数据和编码后的推理结果的传输；

集群服务器用于监控M个模型端的运行情况，根据应用端上传的推理请求中的人工智能模型信息，将推理请求分配至可用的模型端，接收从模型端返回的编码后的推理结果并通过远程代理模块传输至推理请求对应的应用端；

模型端布置在神经网络计算设备上，用于运行人工智能模型的推理组件，完成人工智能模型的推理；模型端从集群服务器接收推理请求，提取出编码后的输入数据和人工智能模型信息，根据人工智能模型信息确定所需调用的人工智能模型的推理组件，将编码后的输入数据进行解码，根据所调用人工智能模型推理组件规定的输入格式对解码后的输入数据进行预处理，然后输入所调用的人工智能模型推理组件进行推理得到推理结果，将推理结果按照所调用人工智能模型推理组件规定的输出格式进行后处理，将得到的推理结果进行编码后返回至集群服务器。

本发明基于远程推理的分布式人工智能实践平台，将人工智能模型划分为预处理组件、后处理组件和推理组件，将预处理组件和后处理组件运行在应用端，将推理组件运行在布置于神经网络计算设备上的模型端，多个应用端复用一个模型端的推理组件，或多个应用端通过集成服务器复用多个模型端的推理组件，实现了人工智能模型的推理。

本发明具有以下有益效果：

1)本发明实现了人工智能应用和神经网络计算设备的分离，解决了人工智能实践项目对神经网络算力的物理依赖问题，可实现神经网络算力资源的远程复用，提升了资源利用效率，大大降低人工智能实践平台构建成本。

2)本发明直接在应用层面将人工智能应用划分为两部分，分别运行在应用端和模型端，可以实现较为灵活多变的输入数据预处理和推理结果后处理，在进行人工智能模型调整时更便捷，从而支持复杂的创新实践项目，提高教学质量；

3)本发明中应用端和模型端/集成服务器的通信采用远程代理模块实现，在具体实现时，可将远程代理模块进行抽象封装，使得应用端和模型端的开发更加简单；

4)本发明在具体实现中，可采用继承与重写通用推理模型Inference Model 实现预处理组件和后处理组件，采用继承与重写通用推理模型GPU/NPU Model 实现推理组件，简化了应用端和模型端的开发过程，并使得后续模型调整更为便捷

附图说明

图1是本发明的远程推理框架图；

图2是本发明基于远程推理的分布式人工智能实践平台的第一种具体实施方式结构图；

图3是本发明基于远程推理的分布式人工智能实践平台的第二种具体实施方式结构图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

为了更好地说明本发明的技术方案，首先对本发明所基于的远程推理框架进行简要说明。图1是本发明的远程推理框架图。如图1所示，本发明将人工智能实践项目分为两端：模型端和应用端，将人工智能模型在应用层面上划分为2个部分，一部分为包含预处理(preprocess)组件和后处理(postprocess) 组件的应用端模型，一部分为包含推理组件(通常为神经网络)的模型端模型，一般来说，预处理和后处理相对复杂度较低，运行在应用端，推理组件复杂度较高，运行在由神经网络计算设备承载的模型端。应用端将数据预处理后进行编码后传输到模型端，然后对模型端返回的模型端模型推理出的结果进行解码，并继续后处理完成应用功能；模型端接收应用端上传的数据，进行解码后作为人工智能模型的输入数据，将模型端模型推理的结果进行编码后返回到应用端。

在本发明的远程推理框架中，模型端运行在GPU等神经网络计算设备上，仅仅处理人工智能的神经网络模型的推理计算，输入数据来自应用端，输出结果发送给应用端；应用端运行于CPU通用计算设备，负责数据的采集、预处理，并发送给远程的模型端进行推理，接收返回的结果做复杂的后处理。应用端不再与神经网络算力资源捆绑，因而使得人工智能实践平台的实践环境大为简化，且可进行复杂灵活的输入输出和后处理，支持复杂的创新实践项目。

实施例1

图2是本发明基于远程推理的分布式人工智能实践平台的第一种具体实施方式结构图。如图2所示，本发明基于远程推理的分布式人工智能实践平台包括N个应用端21，N个远程代理模块22和1个模型端23。下面分别对各个组成部件进行详细说明。

应用端21布置在CPU通用计算设备上，用于运行人工智能模型的预处理组件和后处理组件。应用端21接收用户配置的人工智能模型信息和人工智能模型输入数据，由人工智能模型的预处理组件对输入数据进行预处理，根据需要选择编码器对输入数据进行编码，将编码后的输入数据连同人工智能模型信息一起生成推理请求，将推理请求通过对应的远程代理模块22发送至模型端23。应用端21接收从模型端23返回的编码后的推理结果，进行解码后由人工智能模型的后处理组件对解码后的推理结果进行后处理，将得到的推理结果对用户进行输出。

本实施例中人工智能模型中的预处理组件和后处理组件是继承与重写通用推理模型Inference Model这一父类所构建的模型子类，应该尽可能包含人工智能模型中的预处理步骤和后处理步骤，以减少模型端23的处理任务，使模型端 23更加专注于模型推理任务，提高模型推理效率。就输入数据编码而言，编码的具体方式可以根据需要进行选择，例如直接字节编码、jpeg编码或png编码等。

远程代理模块22用于实现对应的应用端21和模型端23之间的通信，完成编码后的输入数据和编码后的推理结果的传输。通过远程代理模块22，可以隐藏具体网络通信的细节过程，简化教学实践的复杂性。在实际应用中，远程代理模块22可以采用ZmqRemote、HttpRemote等远程代理实现，例如本实施例中使用ZMQ的REQ模式提供代理服务。可根据实践环境中端口的可用性来选择具体代理方式使用。当应用端21调用该远程代理模块22，远程代理模块22便将应用端21提供的输入数据发送到模型端23，等待模型端23的侦听并接受。当模型端23将推理结果回传，远程代理模块22再将回收的推理结果返还给对应的应用端21。

模型端23布置在神经网络计算设备上，例如GPU(图形处理器)、NPU(嵌入式神经网络处理器)，用于运行人工智能模型的推理组件，完成人工智能模型的推理。模型端23从应用端21接收推理请求，提取出编码后的输入数据和人工智能模型信息，根据人工智能模型信息确定所需调用的人工智能模型的推理组件，将编码后的输入数据进行解码，根据所调用人工智能模型推理组件规定的输入格式对解码后的输入数据进行预处理，然后输入所调用的推理组件进行推理得到推理结果，将推理结果按照所调用人工智能模型推理组件规定的输出格式进行后处理，将得到的推理结果进行编码后通过对应的远程代理模块22返回至推理请求对应的应用端21。

与应用端21类似，本实施例中模型端23的推理组件是通过继承与重写通用推理模型GPU/NPU Model这一父类所构建的模型子类，所包含的即为人工智能模型中除预处理组件和后处理组合以外的部分，主要是神经网络等。通用推理模型GPU/NPU Model这一父类可以实现实际神经网络计算设备的硬件资源管理和模型推理功能，使得特定模型服务的开发变得更加简单高效，专注于特定模型本身，而不是硬件资源的调度。在实际应用时，可以通过简单配置就可以在模型端23运行多个人工智能模型的推理组件，进一步提高资源利用率。

下面以一个具体实例，说明本发明中基于远程推理的分布式人工智能实践平台的第一种具体实施方式的工作流程。本实施例中以个人windows电脑作为应用端21，共计10个应用端21，基于华为昇腾310芯片的Atlas200DK作为模型端23，人工智能模型为风格迁移模型。本实施例中基于远程推理的分布式人工智能实践平台的工作流程如下：

S101：在10台个人电脑上运行风格迁移模型的预处理组件和后组件处理，在Atlas200DK上运行风格迁移模型的推理组件，假设推理组件运行在5551号端口，则10台个人电脑分别通过对应的远程代理模块22连接Atlas200DK的 5551号端口。

S102：10台个人电脑分别接收10个用户对风格迁移模型的输入数据，输入数据可以是图片，视频或者摄像头的实时数据流，然后由预处理组件对输入数据进行预处理。在风格迁移模型中，输入数据的预处理一般包括图像尺寸裁剪、颜色变换等图像处理，根据实际需要设置即可。

S103：个人电脑分别对预处理后的输入数据进行编码操作，在风格迁移应用中，由于输入数据是图像格式，所以在编码时将数据进行图片格式转换，本实施例中调用OpenCV的imencode方法进行图像数据格式的压缩编码。将编码后的输入数据和人工智能模型信息(即所涉及模型为风格迁移模型的相关信息) 一起生成推理请求，然后通过远程代理模块22传输给Atlas200DK。

S104：Atlas200DK接收到推理请求，提取出编码后的输入数据和人工智能模型信息，确定所需调用的是风格迁移模型，然后对编码后的输入数据先进行解码操作，即将数据转换成图像格式，从网络传输数据中恢复出图像，然后按照风格迁移模型的输入格式将图片转换为NCHW格式，再送入风格迁移模型的推理组件进行推理工作。

S105：在风格迁移模型的推理组件推理结束，Atlas200DK上对推理结果进行一定的后处理，主要是对图片进行尺寸变换以及将图片转换为NHWC格式，再对后处理得到的推理结果进行编码，此处同样采用将数据进行图像数据格式压缩的编码方式，将编码后的推理结果通过远程代理模块22回传给对应个人电脑。

S106：个人电脑在接收到Atlas200DK的编码后的推理结果后，首先进行解码，将数据转换成图像格式，即从网络传输数据中恢复出图像，再由后处理组件进行一定后处理工作后进行输出，用于展示、存储或集成到其他应用。

根据以上描述可知，本发明基于远程推理的分布式人工智能实践平台的第一种具体实施方式实现了较为昂贵的神经网络计算物理设备与人工智能应用的分离，可提供单机版一对多服务，即多个应用端使用一个模型端。在实际应用中，还可以在一个模型端上通过不同的端口运行不同的推理组件服务，极大地提高了设备利用率，从而服务更多学生，并降低了耦合性使得更易于开展实践。此外，通过人工智能模型预处理组件、后处理组件和推理组件的划分，可以采用底层高度抽象与封装的代码来实现各个组件，使得无论应用端还是模型端的开发都更加简单高效。

实施例2

在实施例1中只有一个模型端，当人工智能实践平台参与人数较多时，推理效率不足，因此本发明还提出一种包含多个模型端的人工智能实践平台。图3 是本发明基于远程推理的分布式人工智能实践平台的第二种具体实施方式结构图。如图3所示，本发明基于远程推理的分布式人工智能实践平台包括N个应用端31，N个远程代理模块32，1个集群服务器33和M个模型端34。下面分别对各个组成部件进行详细说明。

应用端31布置在CPU通用计算设备上，用于运行人工智能模型的预处理组件和后处理组件。应用端31接收用户配置的人工智能模型信息和人工智能模型输入数据，由人工智能模型的预处理组件对输入数据进行预处理，根据需要选择编码器对输入数据进行编码，将编码后的输入数据连同人工智能模型信息一起生成推理请求，将推理请求通过对应的远程代理模块32发送至模型端34。应用端31接收从模型端34返回的编码后的推理结果，进行解码后由人工智能模型的后处理组件对解码后的推理结果进行后处理，将得到的推理结果对用户进行输出。本实施例中应用端31的具体实现方式与实施例1中的应用端21相同。

远程代理模块32用于实现对应的应用端31和集群服务器33之间的通信，完成编码后的输入数据和编码后的推理结果的传输。本实施例中远程代理模块 32的具体实现方式与实施例1中的远程代理模块22相同。

集群服务器33用于监控M个模型端34的运行情况，根据应用端31上传的推理请求中的人工智能模型信息，将推理请求分配至可用的模型端34，接收从模型端34返回的编码后的推理结果并通过远程代理模块32传输至推理请求对应的应用端31。本实施例中，集群服务器33采用Zmq技术构建，通过broker 代理机制实现。

模型端34布置在神经网络计算设备上，用于运行人工智能模型的推理组件，完成人工智能模型的推理。模型端34从集群服务器33接收推理请求，提取出编码后的输入数据和人工智能模型信息，根据人工智能模型信息确定所需调用的人工智能模型的推理组件，将编码后的输入数据进行解码，根据所调用人工智能模型推理组件规定的输入格式对解码后的输入数据进行预处理，然后输入所调用的人工智能模型推理组件进行推理得到推理结果，将推理结果按照所调用人工智能模型推理组件规定的输出格式进行后处理，将得到的推理结果进行编码后返回至集群服务器33。本实施例中模型端34的具体实现方式与实施例1 中的模型端33相同。

为了使集群服务器33和模型端34之间的传输效率更高，本实施例中在模型端34采用Tcp技术构建模型推理客户端，主动连接集群服务器33，下拉推理请求，完成推理后上传推理结果。

下面以一个具体实例，说明本发明中基于远程推理的分布式人工智能实践平台的第二种具体实施方式的工作流程。本实施例中以个人windows电脑作为应用端31，共计10个应用端31，基于华为昇腾310芯片的Atlas200DK作为模型端34，共计5个模型端34，以树莓派作为集群服务器33，人工智能模型为风格迁移模型。本实施例中基于远程推理的分布式人工智能实践平台的工作流程如下：

S201：在树莓派上运行集群服务器软件。

S202：在10台个人电脑上运行风格迁移模型的预处理组件和后组件处理，，在5台Atlas200DK上都运行风格迁移模型的推理组件，假设推理组件服务都运行在5551号端口。

S203：10台个人电脑通过远程代理模块32接入树莓派。

S204：10台个人电脑分别接收10个用户对风格迁移模型的输入数据，然后由预处理组件对输入数据进行预处理。

S205：个人电脑分别对预处理后的输入数据进行编码操作，将编码后的输入数据和人工智能模型信息一起生成推理请求，通过远程代理模块32传输给树莓派。

S206：树莓派将接受到的数据通过broker代理机制自动分布式地将推理请求发送给可用的Atlas200DK。

S207：Atlas200DK接收到推理请求，提取出编码后的输入数据和人工智能模型信息，确定所需调用的是风格迁移模型的推理组件，然后对编码后的输入数据先进行解码操作，然后按照风格迁移模型推理组件的输入格式将图片转换为NCHW格式，再送入风格迁移模型推理组件进行推理工作。

S208：在风格迁移模型推理组件推理结束后，Atlas200DK上对推理结果进行一定的后处理，主要是对图片进行尺寸变换以及将图片转换为NHWC格式，再对后处理得到的推理结果进行编码，将编码后的推理结果回传至树莓派。

S209：树莓派接收到模型端34回传的编码后的推理结果，再将它回传给对应的个人电脑。

S210：个人电脑在接收到编码后的推理结果后，首先进行解码，再由后处理组件进行一定的后处理工作后进行输出，用于展示、存储或集成到其他应用。

根据以上描述可知，本发明基于远程推理的分布式人工智能实践平台的第二种具体实施方式和第一种具体实施方式相比，引入了集群服务器33，将模型端34设置分布式集群，进一步复用有限的昂贵物理计算设备，提供多机版远程推理服务，即多个模型端34分布运行，每个模型端34又可以同时提供不同地模型服务，因此可服务大量学生同时开展实践，大幅降低设备集群的成本，同时大幅提升单个深度学习应用的推理效率，提升实践应用的体验性。在实际课堂教学实践中发现，10台Atlas200DK即可满足60余人同时使用，一些模型应用还可也可实现近乎实时地效果，极大地提高了实践的效果，提高了人工智能教学质量。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于远程推理的分布式人工智能实践平台，其特征在于，包括N个应用端，N个远程代理模块和1个模型端，其中：

应用端布置在CPU通用计算设备上，用于运行人工智能模型的预处理组件和后处理组件；应用端接收用户配置的人工智能模型信息和人工智能模型输入数据，由人工智能模型的预理组件对输入数据进行预处理，根据需要选择编码器对输入数据进行编码，将编码后的输入数据连同人工智能模型信息一起生成推理请求，将推理请求通过对应的远程代理模块发送至模型端；应用端接收从模型端返回的编码后的推理结果，进行解码后由人工智能模型的后处理组件对解码后的推理结果进行后处理，将得到的推理结果对用户进行输出；

2.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述应用端人工智能模型中的预处理组件和后处理组件是通过继承与重写通用推理模型Inference Model这一父类所构建的模型子类。

3.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述模型端人工智能模型中的推理组件是通过继承与重写通用推理模型GPU/NPU Model这一父类所构建的模型子类。

4.一种基于远程推理的分布式人工智能实践平台，其特征在于，包括N个应用端，N个远程代理模块，1个集群服务器和M个模型端，其中：

5.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述应用端人工智能模型中的预处理组件和后处理组件是通过继承与重写通用推理模型Inference Model这一父类所构建的模型子类。

6.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述集成服务器采用Zmq技术构建，通过broker代理机制实现。

7.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述模型端人工智能模型中的推理组件是通过继承与重写通用推理模型GPU/NPU Model这一父类所构建的模型子类。

8.根据权利要求1所述的分布式人工智能实践平台，其特征在于，所述模型端采用Tcp技术构建模型推理客户端，主动连接集群服务器，下拉推理请求，完成推理后上传推理结果。