CN113377355A - 一种人工智能强化学习服务系统 - Google Patents

一种人工智能强化学习服务系统 Download PDF

Info

Publication number
CN113377355A
CN113377355A CN202110630010.3A CN202110630010A CN113377355A CN 113377355 A CN113377355 A CN 113377355A CN 202110630010 A CN202110630010 A CN 202110630010A CN 113377355 A CN113377355 A CN 113377355A
Authority
CN
China
Prior art keywords
layer
module
user
algorithm
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110630010.3A
Other languages
English (en)
Inventor
孙远成
黄文清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen City Ufield Technology Service Co ltd
Original Assignee
Shenzhen City Ufield Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen City Ufield Technology Service Co ltd filed Critical Shenzhen City Ufield Technology Service Co ltd
Priority to CN202110630010.3A priority Critical patent/CN113377355A/zh
Publication of CN113377355A publication Critical patent/CN113377355A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/31Programming languages or programming paradigms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding
    • G06F8/447Target code generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种人工智能强化学习服务系统,具体涉及强化学习开发平台领域,包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层;所述接口访问层是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境;所述服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境。本发明提供数据的可视化图像,能够边写代码边调试预览,实时查看效果,供研究者分析、验证算法。

Description

一种人工智能强化学习服务系统
技术领域
本发明涉及强化学习开发技术领域,更具体地说,本发明涉及一种人工智能强化学习服务系统。
背景技术
机器学习是以研究模拟人类学习行为,在获取知识后经过学习产生新的知识为研究目标,是人工智能的核心问题之一。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律获取知识,利用这些规律与知识,通过一定的学习模式对未来数据或无法观测的数据进行预测。机器学习根据学习模式可以分类为监督学习、无监督学习和强化学习等。强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。
目前,由于服务器端缺少可视化的开发工具,无法实时观测到强化学习智能体环境模拟,难以快速开发和验证代码。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种人工智能强化学习服务系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种人工智能强化学习服务系统,包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层;
所述接口访问层是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境;
所述服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;
所述功能层提供数据业务处理的功能;
所述存储层提供数据存储功能;
所述整理层对用户提供的算法代码进行整理;
所述模型层运行用户提供的算法代码;
所述缓冲层提供用户算法代码运行过程所需的数据缓冲。
进一步的,所述接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块。
进一步的,所述基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。
进一步的,所述云端开发及调试环境模块包括开发工具和交互工具,所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具;所述交互工具包括Tensorboard、视频播放器和云端模拟器。
进一步的,所述在线IDE为基于浏览器的集成式开发环境,内置了Python的语言环境,边写代码边调试预览,实时查看效果;用户通过所述在线IDE创建Project的代码程序,进行在线开发、调试操作;
所述JupyterNotebook采用容器化部署,为用户提供交互式的强化学习编程环境;客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能;
所述Tensorboard采用容器化部署,实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能;平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具,方便用户展示训练过程中绘制的图像、网络结构;
所述视频播放器采用基于OSS服务的视频播放服务器,实现将物理引擎渲染生成的视频的点播服务;平台将算法输出的视频输出至前端集成开发环境中,供研究者分析、验证算法;在线模拟器提供了可视化和交互功能,体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能。
进一步的,所述虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口。
进一步的,所述功能层包括功能模块、数据清理模块和数据整理模块;
功能模块,提供用户交互所需的应用功能;
数据清理模块,用于对用户算法代码运行过程所需的数据进行清理,包括删除冗余数据、填写缺失值、光滑噪声数据;
数据整理模块,用于对用户算法代码运行过程所需的数据的格式进行统一化处理。
进一步的,所述整理层包括算法整理模块和版本缓冲模块;
算法整理模块,用于对用户提供的算法代码进行规范化整理操作;
版本缓冲模块,提供算法整理模块操作过程中的版本回退功能,并在算法整理模块操作完成后将最后一个版本的用户算法代码发送至服务层。
进一步的,所述模型层包括环境模型模块和策略模型模块;
环境模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的环境模型;
策略模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的策略模型。
进一步的,所述缓冲层包括缓冲数据库和参数数据库;
缓冲数据库提供对模型层运行时的用户算法代码运行过程所需的数据缓冲,并在模型层运行结束后将数据发送至存储层;
参数数据库提供对模型层运行时的用户算法代码运行过程算法参数缓冲,并在模型层运行结束后将数据发送至服务层。
本发明的技术效果和优点:
与现有技术相比,本发明实现算法、强化学习环境共享,达到模拟环境的高可用性,提供数据的可视化图像,能够边写代码边调试预览,实时查看效果,供研究者分析、验证算法。
附图说明
图1为本发明的整体结构框图。
图2为本发明接口访问层的结构框图。
图3为本发明服务层的结构框图。
图4为本发明功能层的结构框图。
图5为本发明整理层的结构框图。
图6为本发明模型层的结构框图。
图7为本发明缓冲层的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如附图1-7所示的一种人工智能强化学习服务系统,包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层;
接口访问层是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境;
接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块;
服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;
基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享;
云端开发及调试环境模块包括开发工具和交互工具,开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具;交互工具包括Tensorboard、视频播放器和云端模拟器;
在线IDE为基于浏览器的集成式开发环境,内置了Python的语言环境,边写代码边调试预览,实时查看效果;用户通过在线IDE创建Project的代码程序,进行在线开发、调试操作;
JupyterNotebook采用容器化部署,为用户提供交互式的强化学习编程环境;客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能;
Tensorboard采用容器化部署,实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能;平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具,方便用户展示训练过程中绘制的图像、网络结构;
视频播放器采用基于OSS服务的视频播放服务器,实现将物理引擎渲染生成的视频的点播服务;平台将算法输出的视频输出至前端集成开发环境中,供研究者分析、验证算法;在线模拟器提供了可视化和交互功能,体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能;
虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口;
功能层提供数据业务处理的功能;
功能层包括功能模块、数据清理模块和数据整理模块;
功能模块,提供用户交互所需的应用功能;
数据清理模块,用于对用户算法代码运行过程所需的数据进行清理,包括删除冗余数据、填写缺失值、光滑噪声数据;
数据整理模块,用于对用户算法代码运行过程所需的数据的格式进行统一化处理;
存储层提供数据存储功能;
整理层对用户提供的算法代码进行整理;
整理层包括算法整理模块和版本缓冲模块;
算法整理模块,用于对用户提供的算法代码进行规范化整理操作;
版本缓冲模块,提供算法整理模块操作过程中的版本回退功能,并在算法整理模块操作完成后将最后一个版本的用户算法代码发送至服务层;
模型层运行用户提供的算法代码;
模型层包括环境模型模块和策略模型模块;
环境模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的环境模型;
策略模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的策略模型;
缓冲层提供用户算法代码运行过程所需的数据缓冲;
缓冲层包括缓冲数据库和参数数据库;
缓冲数据库提供对模型层运行时的用户算法代码运行过程所需的数据缓冲,并在模型层运行结束后将数据发送至存储层;
参数数据库提供对模型层运行时的用户算法代码运行过程算法参数缓冲,并在模型层运行结束后将数据发送至服务层。
最后应说明的几点是:首先,在本申请的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;
其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种人工智能强化学习服务系统,其特征在于:包括接口访问层、服务层、功能层、存储层、整理层、模型层和缓冲层;
所述接口访问层是云服务消费者的接入层,能够让强化学习研究者自助式的管理其云计算环境;
所述服务层包括基于Project的封装和管理模块、云端开发及调试环境模块、虚拟开发环境接口模块三部分;三者自上而下为领域研究者提供各种通用或者自定义的云端研究环境;平台将强化学习研究涉及的数据、算法以及研究环境以Project的形式,封装在虚拟化容器中,为每个使用平台的用户开辟独立的试验环境;
所述功能层提供数据业务处理的功能;
所述存储层提供数据存储功能;
所述整理层对用户提供的算法代码进行整理;
所述模型层运行用户提供的算法代码;
所述缓冲层提供用户算法代码运行过程所需的数据缓冲。
2.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述接口访问层的应用包括用户注册模块、用户登录模块以及用户认证模块。
3.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述基于Project的封装和管理模块主要完成Project的创建、Project复制、Project编辑、Project删除以及Project分享。
4.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述云端开发及调试环境模块包括开发工具和交互工具,所述开发工具包括在线IDE、JupyterNotebook、云主机在线Shell工具;所述交互工具包括Tensorboard、视频播放器和云端模拟器。
5.根据权利要求4所述的一种人工智能强化学习服务系统,其特征在于:所述在线IDE为基于浏览器的集成式开发环境,内置了Python的语言环境,边写代码边调试预览,实时查看效果;用户通过所述在线IDE创建Project的代码程序,进行在线开发、调试操作;
所述JupyterNotebook采用容器化部署,为用户提供交互式的强化学习编程环境;客户端部分负责笔记代码的运行、存储和输出等功能,并通过markdown语法进行标记,以JSON格式发送给容器存储,容器负责存取笔记代码、调用编译内核功能;
所述Tensorboard采用容器化部署,实现展示Tensorflow在运行过程中的计算图、各种指标随着时间的变化趋势以及训练中使用到的数据信息的功能;平台提供TensorBoard作为在训练大规模神经网络时将复杂的运算过程可视化的工具,方便用户展示训练过程中绘制的图像、网络结构;
所述视频播放器采用基于OSS服务的视频播放服务器,实现将物理引擎渲染生成的视频的点播服务;平台将算法输出的视频输出至前端集成开发环境中,供研究者分析、验证算法;在线模拟器提供了可视化和交互功能,体现在智能体环境的渲染显示、训练损失函数曲线的展示以及基于web端的实时交互功能。
6.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述虚拟开发环境接口模块包括工具后台管理接口、虚拟机服务心跳接口和数据同步接口。
7.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述功能层包括功能模块、数据清理模块和数据整理模块;
功能模块,提供用户交互所需的应用功能;
数据清理模块,用于对用户算法代码运行过程所需的数据进行清理,包括删除冗余数据、填写缺失值、光滑噪声数据;
数据整理模块,用于对用户算法代码运行过程所需的数据的格式进行统一化处理。
8.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述整理层包括算法整理模块和版本缓冲模块;
算法整理模块,用于对用户提供的算法代码进行规范化整理操作;
版本缓冲模块,提供算法整理模块操作过程中的版本回退功能,并在算法整理模块操作完成后将最后一个版本的用户算法代码发送至服务层。
9.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述模型层包括环境模型模块和策略模型模块;
环境模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的环境模型;
策略模型模块,用于从整理层取得用户算法代码,运行用户算法代码中强化学习算法的策略模型。
10.根据权利要求1所述的一种人工智能强化学习服务系统,其特征在于:所述缓冲层包括缓冲数据库和参数数据库;
缓冲数据库提供对模型层运行时的用户算法代码运行过程所需的数据缓冲,并在模型层运行结束后将数据发送至存储层;
参数数据库提供对模型层运行时的用户算法代码运行过程算法参数缓冲,并在模型层运行结束后将数据发送至服务层。
CN202110630010.3A 2021-06-07 2021-06-07 一种人工智能强化学习服务系统 Pending CN113377355A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110630010.3A CN113377355A (zh) 2021-06-07 2021-06-07 一种人工智能强化学习服务系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110630010.3A CN113377355A (zh) 2021-06-07 2021-06-07 一种人工智能强化学习服务系统

Publications (1)

Publication Number Publication Date
CN113377355A true CN113377355A (zh) 2021-09-10

Family

ID=77576197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110630010.3A Pending CN113377355A (zh) 2021-06-07 2021-06-07 一种人工智能强化学习服务系统

Country Status (1)

Country Link
CN (1) CN113377355A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114088A (zh) * 2023-10-17 2023-11-24 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846184A (zh) * 2017-02-15 2017-06-13 武汉青禾科技有限公司 一种智慧会展互动平台
CN108629717A (zh) * 2018-07-02 2018-10-09 芜湖通全电子电器科技创业有限公司 一种基于计算机网络技术的企业技术培训系统和方法
CN109739845A (zh) * 2018-12-26 2019-05-10 贵州商学院 一种基于强化学习的大数据服务系统
CN111427549A (zh) * 2020-03-30 2020-07-17 中国科学院计算机网络信息中心 一种人工智能强化学习服务平台

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106846184A (zh) * 2017-02-15 2017-06-13 武汉青禾科技有限公司 一种智慧会展互动平台
CN108629717A (zh) * 2018-07-02 2018-10-09 芜湖通全电子电器科技创业有限公司 一种基于计算机网络技术的企业技术培训系统和方法
CN109739845A (zh) * 2018-12-26 2019-05-10 贵州商学院 一种基于强化学习的大数据服务系统
CN111427549A (zh) * 2020-03-30 2020-07-17 中国科学院计算机网络信息中心 一种人工智能强化学习服务平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114088A (zh) * 2023-10-17 2023-11-24 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台
CN117114088B (zh) * 2023-10-17 2024-01-19 安徽大学 一种基于统一ai框架的深度强化学习智能决策平台

Similar Documents

Publication Publication Date Title
US11113585B1 (en) Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation
CN111427549B (zh) 一种人工智能强化学习服务平台
US11494607B1 (en) Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation
US10402731B1 (en) Machine learning for computer generated objects and/or applications
CN105739983B (zh) 脚本程序编辑装置及其实现方法
CN108280026A (zh) 自动化测试方法及装置、存储介质、电子设备
CN109284473A (zh) 在线教学课件的编辑和生成方法以及系统
CN111325664B (zh) 风格迁移方法、装置、存储介质及电子设备
CN112836064A (zh) 知识图谱补全方法、装置、存储介质及电子设备
Liao et al. Skeleton-free pose transfer for stylized 3d characters
US11126405B1 (en) Utilizing augmented reality and artificial intelligence to automatically generate code for a robot
US20230177755A1 (en) Predicting facial expressions using character motion states
CN114385150B (zh) 基于智能引擎的低代码开发方法
CN113377355A (zh) 一种人工智能强化学习服务系统
Nardone et al. Video game bad smells: What they are and how developers perceive them
CN112748953B (zh) 基于神经网络模型的数据处理方法、装置及电子设备
Poulakos et al. Towards an accessible interface for story world building
CN112755534B (zh) 一种数据处理方法、装置和存储介质
CN113592986B (zh) 基于神经网络的动作生成方法、装置及计算设备
Friedrich Animation in Relational Information Visualization
CN111868682B (zh) 用于异构数据的可扩展变换处理单元
Sterling Intelligent systems: concepts and applications
Wondimu et al. Check for updates Anthropomorphic Human-Robot Interaction Framework: Attention Based Approach
Kłodkowski et al. Simulating human motion using Motion Model Units–example implementation and usage
Giacalone Digital Twin and Machine Learning solutions for the Manufacturing Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination