CN113377355A

CN113377355A - 一种人工智能强化学习服务系统

Info

Publication number: CN113377355A
Application number: CN202110630010.3A
Authority: CN
Inventors: 孙远成; 黄文清
Original assignee: Shenzhen City Ufield Technology Service Co ltd
Current assignee: Shenzhen City Ufield Technology Service Co ltd
Priority date: 2021-06-07
Filing date: 2021-06-07
Publication date: 2021-09-10

Abstract

本发明公开了一种人工智能强化学习服务系统，具体涉及强化学习开发平台领域，包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层；所述接口访问层是云服务消费者的接入层，能够让强化学习研究者自助式的管理其云计算环境；所述服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分；三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境；平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式，封装在虚拟化容器中，为每个使用平台的用户开辟独立的试验环境。本发明提供数据的可视化图像，能够边写代码边调试预览，实时查看效果，供研究者分析、验证算法。

Description

一种人工智能强化学习服务系统

技术领域

本发明涉及强化学习开发技术领域，更具体地说，本发明涉及一种人工智能强化学习服务系统。

背景技术

机器学习是以研究模拟人类学习行为，在获取知识后经过学习产生新的知识为研究目标，是人工智能的核心问题之一。基于数据的机器学习是现代智能技术中的重要方法之一，研究从观测数据(样本)出发寻找规律获取知识，利用这些规律与知识，通过一定的学习模式对未来数据或无法观测的数据进行预测。机器学习根据学习模式可以分类为监督学习、无监督学习和强化学习等。强化学习的目标是学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价为最佳。

目前，由于服务器端缺少可视化的开发工具，无法实时观测到强化学习智能体环境模拟，难以快速开发和验证代码。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种人工智能强化学习服务系统，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种人工智能强化学习服务系统，包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层；

所述接口访问层是云服务消费者的接入层，能够让强化学习研究者自助式的管理其云计算环境；

所述服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分；三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境；平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式，封装在虚拟化容器中，为每个使用平台的用户开辟独立的试验环境；

所述功能层提供数据业务处理的功能；

所述存储层提供数据存储功能；

所述整理层对用户提供的算法代码进行整理；

所述模型层运行用户提供的算法代码；

所述缓冲层提供用户算法代码运行过程所需的数据缓冲。

进一步的，所述接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块。

进一步的，所述基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。

进一步的，所述云端开发及调试环境模块包括开发工具和交互工具，所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具；所述交互工具包括Tensorboard、视频播放器和云端模拟器。

进一步的，所述在线IDE为基于浏览器的集成式开发环境，内置了Python的语言环境，边写代码边调试预览，实时查看效果；用户通过所述在线IDE创建Project的代码程序，进行在线开发、调试操作；

所述JupyterNotebook采用容器化部署，为用户提供交互式的强化学习编程环境；客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能；

所述Tensorboard采用容器化部署，实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能；平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具，方便用户展示训练过程中绘制的图像、网络结构；

所述视频播放器采用基于OSS服务的视频播放服务器，实现将物理引擎渲染生成的视频的点播服务；平台将算法输出的视频输出至前端集成开发环境中，供研究者分析、验证算法；在线模拟器提供了可视化和交互功能，体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能。

进一步的，所述虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口。

进一步的，所述功能层包括功能模块、数据清理模块和数据整理模块；

功能模块，提供用户交互所需的应用功能；

数据清理模块，用于对用户算法代码运行过程所需的数据进行清理，包括删除冗余数据、填写缺失值、光滑噪声数据；

数据整理模块，用于对用户算法代码运行过程所需的数据的格式进行统一化处理。

进一步的，所述整理层包括算法整理模块和版本缓冲模块；

算法整理模块，用于对用户提供的算法代码进行规范化整理操作；

版本缓冲模块，提供算法整理模块操作过程中的版本回退功能，并在算法整理模块操作完成后将最后一个版本的用户算法代码发送至服务层。

进一步的，所述模型层包括环境模型模块和策略模型模块；

环境模型模块，用于从整理层取得用户算法代码，运行用户算法代码中强化学习算法的环境模型；

策略模型模块，用于从整理层取得用户算法代码，运行用户算法代码中强化学习算法的策略模型。

进一步的，所述缓冲层包括缓冲数据库和参数数据库；

缓冲数据库提供对模型层运行时的用户算法代码运行过程所需的数据缓冲，并在模型层运行结束后将数据发送至存储层；

参数数据库提供对模型层运行时的用户算法代码运行过程算法参数缓冲，并在模型层运行结束后将数据发送至服务层。

本发明的技术效果和优点：

与现有技术相比，本发明实现算法、强化学习环境共享，达到模拟环境的高可用性，提供数据的可视化图像，能够边写代码边调试预览，实时查看效果，供研究者分析、验证算法。

附图说明

图1为本发明的整体结构框图。

图2为本发明接口访问层的结构框图。

图3为本发明服务层的结构框图。

图4为本发明功能层的结构框图。

图5为本发明整理层的结构框图。

图6为本发明模型层的结构框图。

图7为本发明缓冲层的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如附图1-7所示的一种人工智能强化学习服务系统，包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层；

接口访问层是云服务消费者的接入层，能够让强化学习研究者自助式的管理其云计算环境；

接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块；

服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分；三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境；平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式，封装在虚拟化容器中，为每个使用平台的用户开辟独立的试验环境；

基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享；

云端开发及调试环境模块包括开发工具和交互工具，开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具；交互工具包括Tensorboard、视频播放器和云端模拟器；

在线IDE为基于浏览器的集成式开发环境，内置了Python的语言环境，边写代码边调试预览，实时查看效果；用户通过在线IDE创建Project的代码程序，进行在线开发、调试操作；

JupyterNotebook采用容器化部署，为用户提供交互式的强化学习编程环境；客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能；

Tensorboard采用容器化部署，实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能；平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具，方便用户展示训练过程中绘制的图像、网络结构；

视频播放器采用基于OSS服务的视频播放服务器，实现将物理引擎渲染生成的视频的点播服务；平台将算法输出的视频输出至前端集成开发环境中，供研究者分析、验证算法；在线模拟器提供了可视化和交互功能，体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能；

虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口；

功能层提供数据业务处理的功能；

功能层包括功能模块、数据清理模块和数据整理模块；

功能模块，提供用户交互所需的应用功能；

数据整理模块，用于对用户算法代码运行过程所需的数据的格式进行统一化处理；

存储层提供数据存储功能；

整理层对用户提供的算法代码进行整理；

整理层包括算法整理模块和版本缓冲模块；

版本缓冲模块，提供算法整理模块操作过程中的版本回退功能，并在算法整理模块操作完成后将最后一个版本的用户算法代码发送至服务层；

模型层运行用户提供的算法代码；

模型层包括环境模型模块和策略模型模块；

策略模型模块，用于从整理层取得用户算法代码，运行用户算法代码中强化学习算法的策略模型；

缓冲层提供用户算法代码运行过程所需的数据缓冲；

缓冲层包括缓冲数据库和参数数据库；

最后应说明的几点是：首先，在本申请的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变，则相对位置关系可能发生改变；

其次：本发明公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计，在不冲突情况下，本发明同一实施例及不同实施例可以相互组合；

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种人工智能强化学习服务系统，其特征在于：包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层；

所述功能层提供数据业务处理的功能；

所述存储层提供数据存储功能；

所述整理层对用户提供的算法代码进行整理；

所述模型层运行用户提供的算法代码；

所述缓冲层提供用户算法代码运行过程所需的数据缓冲。

2.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块。

3.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。

4.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述云端开发及调试环境模块包括开发工具和交互工具，所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具；所述交互工具包括Tensorboard、视频播放器和云端模拟器。

5.根据权利要求4所述的一种人工智能强化学习服务系统，其特征在于：所述在线IDE为基于浏览器的集成式开发环境，内置了Python的语言环境，边写代码边调试预览，实时查看效果；用户通过所述在线IDE创建Project的代码程序，进行在线开发、调试操作；

6.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口。

7.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述功能层包括功能模块、数据清理模块和数据整理模块；

功能模块，提供用户交互所需的应用功能；

8.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述整理层包括算法整理模块和版本缓冲模块；

9.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述模型层包括环境模型模块和策略模型模块；

10.根据权利要求1所述的一种人工智能强化学习服务系统，其特征在于：所述缓冲层包括缓冲数据库和参数数据库；