CN114416126B

CN114416126B - 一种智能推荐训练服务基于Dolphinscheduler的部署方法

Info

Publication number: CN114416126B
Application number: CN202210114666.4A
Authority: CN
Inventors: 何静; 顾秀颖; 张英鹏; 刘大全
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2024-05-24
Anticipated expiration: 2042-01-30
Also published as: CN114416126A

Abstract

本发明公开了一种智能推荐训练服务基于Dolphinscheduler的部署方法，包括S1、部署Dolphinscheduler调度系统，安装基础软件并部署Dolphinscheduler调度系统的前后端，配置Dolphinscheduler调度系统相关联的基础软件配置，并调通Dolphinscheduler调度系统；S2、打包python虚拟环境和智能推荐训练服务，将智能推荐训练服务所依赖的python依赖包打包进python虚拟环境,以供智能推荐训练服务运行时调用，并将智能推荐训练服务的代码文件、脚本文件及相关文件打包，以供智能推荐训练服务运行；S3、运行Dolphinscheduler调度系统，并在Dolphinscheduler调度系统的前端配置智能推荐训练服务运行方案，配置完成后运行智能推荐训练服务并监控其执行情况。本发明简单，效率较高，且可靠可行，使用后将大大缩短部署项目的时间，实用性强。

Description

一种智能推荐训练服务基于Dolphinscheduler的部署方法

技术领域

本发明属于机器学习技术领域，更具体涉及一种智能推荐训练服务基于Dolphinscheduler的部署方法。

背景技术

目前现有的智能推荐训练服务主要部署在无调度系统的台式集群环境上，需要手动配置训练环境。然而这样的环境需要集群化部署，很复杂，而且容易出现单点故障，还不支持多租户，在机器学习领域和大数据平台业务上使用不够灵活，任务太多会卡死服务器，而且也只能看到任务状态，无法可视化和轻松监控服务和集群环境的各项指标。

发明内容

为解决上述问题，本发明提供了一种智能推荐训练服务基于Dolphinscheduler的部署方法，能相对轻松部署集群化环境，而且 Dolphinscheduler自身也能够一键轻松部署，而且去中心化，还支持多租户，任务使用队列机制，任务多也不会造成服务器机器卡死，而且还支持可视化操作，支持暂停和恢复等多项操作，还可监控服务和集群环境的内存、cpu等各项指标。

为了解决上述技术问题，本发明采用的技术方案是这样的：一种智能推荐训练服务基于Dolphinscheduler的部署方法，包括如下步骤：

S1、部署Dolphinscheduler调度系统，安装基础软件并部署Dolphinscheduler调度系统的前后端，配置Dolphinscheduler调度系统相关联的基础软件配置，并调通Dolphinscheduler调度系统；

S2、打包python虚拟环境和智能推荐训练服务，将智能推荐训练服务所依赖的python依赖包打包进python虚拟环境,以供智能推荐训练服务运行时调用，并将智能推荐训练服务的代码文件、脚本文件及相关文件打包，以供智能推荐训练服务运行；

S3、运行Dolphinscheduler调度系统，并在Dolphinscheduler调度系统的前端配置智能推荐训练服务运行方案，配置完成后运行智能推荐训练服务并监控其执行情况。

作为优化，所述Dolphinscheduler调度系统的部署包括以下步骤，

S101、设置多台服务器,所述服务器中包括一台UI兼Api服务器、两台Master服务器、三台work服务器，并在每台服务器上均安装基础软件；

S102、在master服务器上创建多个部署用户，并设置所有部署用户具有sudo权限且相互免密；

S103、创建mysql数据库用于存放Dolphinscheduler元数据并初始化该数据库；

S104、修改Dolphinscheduler环境变量；

S105、修改Dolphinscheduler部署配置文件；

S106、运行部署脚本；

S107、部署用户创建租户并设置租户权限，所述租户用于在Dolphinscheduler调度系统的前端配置所述智能推荐服务运行方案。

作为优化，所述打包python虚拟环境和智能推荐训练服务包括以下步骤，

S201、通过Anaconda创建虚拟环境并安装智能推荐训练服务所需要的python库文件,并压缩成压缩文件包，以供智能推荐训练服务调用；

S202、打包智能推荐训练服务自身的公共服务压缩文件包；

S203、进入智能推荐训练服务场景目录并通过zip命名生成工程压缩文件包。

作为优化，所述在DolphinScheduler前端配置智能推荐训练服务运行方案包括以下步骤，

S301、进入DolphinScheduler调度系统前端，在其资源中心上传S2打包的文件；

S302、在智能推荐训练服务管理处配置工作流；

S303、上线工作流。

作为优化，所述配置工作流包括创建项目、定义和配置工作流，编辑工作流，编辑调度任务脚本，添加资源，编辑工作流执行定时任务中的一种或多种。

作为优化，所述工作流上线后，DolphinScheduler调度系统定期执行定时任务或者临时任务，查看运行日志，并监控cpu和内存的消耗情况。

与现有技术相比，本发明具有如下优点：

本发明通过安装基础软件后一键自动化部署Dolphinscheduler调度系统前后端，配置好Dolphinscheduler调度系统关联的基础软件配置，调通Dolphinscheduler调度系统。将智能推荐训练服务所依赖的python依赖包一并打包进python虚拟环境,供智能推荐训练服务运行调用。打包智能推荐训练服务,将智能推荐训练服务代码文件和脚本文件等打包供智能推荐训练服务运行。运行Dolphinscheduler调度系统，并在Dolphinscheduler前端配置智能推荐训练服务运行方案，配置完成后运行智能推荐训练服务并监控项目执行情况。

本发明能够一键轻松部署，而且去中心化，还支持多租户，任务使用队列机制，任务多也不会造成服务器机器卡死，而且还支持可视化操作，支持暂停、恢复、任务定时、查看运行日志等多项操作，还可监控服务和集群环境的内存、cpu等各项指标。

本方法简单，效率较高，且可靠可行，使用后将大大缩短部署项目的时间，实用性强。

附图说明

图1为本发明的架构图；

图2为本发明的智能推荐训练服务流程图。

具体实施方式

下面将结合附图及实施例对本发明作进一步说明。

实施例：参见图1-图2，

一种智能推荐训练服务基于Dolphinscheduler的部署方法，包括如下步骤：

S1、部署Dolphinscheduler调度系统，安装基础软件并部署Dolphinscheduler调度系统的前后端，配置Dolphinscheduler调度系统相关联的基础软件配置，并调通Dolphinscheduler调度系统。

所述Dolphinscheduler调度系统的部署包括以下步骤，

S101、设置6台服务器,所述服务器中包括一台UI兼Api服务器、两台Master服务器、三台work服务器，并在每台服务器上均安装基础软件，所述基础软件包括mysql (5.5+)、JDK (1.8+)、ZooKeeper(3.4.6+)、Hadoop(2.6+)、Hive(1.2.1)、Spark(1.x,2.x)等。

S104、修改Dolphinscheduler环境变量conf/env/.dolphinscheduler_env.sh；

S105、修改Dolphinscheduler部署配置文件conf/config/install_config.conf、conf/alert.properties和install.sh；

S106、运行部署脚本install.sh。后端服务启动后共有五个进程：MasterServer、workServer、ApiServer、LoggerServer和AlertServer。

S2、打包python虚拟环境和智能推荐训练服务，将智能推荐训练服务所依赖的python依赖包打包进python虚拟环境,以供智能推荐训练服务运行时调用，并将智能推荐训练服务的代码文件、脚本文件及相关文件打包，以供智能推荐训练服务运行。

所述打包python虚拟环境和智能推荐训练服务包括以下步骤，

S201、通过Anaconda创建虚拟环境并安装智能推荐训练服务所需要的python库文件,并压缩成压缩文件包venv3.6.zip，以供智能推荐训练服务调用；

S202、通过setup.py打包智能推荐训练服务自身的公共服务压缩文件包serving_base.egg；

S203、进入智能推荐训练服务场景目录并通过zip命名生成工程压缩文件包scene.zip。

所述在DolphinScheduler前端配置智能推荐训练服务运行方案包括以下步骤，

S301、进入DolphinScheduler调度系统前端，在其资源中心上传S2打包的文件，包括工程压缩文件：scene.zip、Python虚拟环境：venv3.6.zip、Serving_base文件：serving_base.egg、主程序文件：train_main_scene.py、Hdfs配置文件：hdfs_cli.cfg等；

S302、在智能推荐训练服务管理处创建项目、定义和配置工作流，编辑工作流，编辑调度任务脚本，添加资源，编辑工作流执行定时任务。

调度任务脚本其他参数说明：

$Spark/bin/spark2-submit \

--master yarn \

--deploy-mode cluster \ #cluster部署方式

--archives ./venv3.6.zip \ #python虚拟环境

--conf spark.pyspark.python=./venv3.6.zip/venv3.6/bin/python \

--py-files scene1.zip,serving_base-1.0-py3.5.egg \ #python代码文件

--files ./hdfs_cli.cfg \ #其余配置环境

--num-executors 6 \

--executor-cores 6 \

--executor-memory 5G \

--driver-memory 4G \

train_main_scene.py \ #服务入口

--其他配置参数。

其中，为了保证驱动器和执行器的python环境一致，只需指定spark.pyspark.python参数配置即可：

conf spark.pyspark.python=./venv3.6.zip/venv3.6/bin/python。

调度任务脚本参数可根据具体的项目进行灵活配置。

S303、上线工作流。如图2所示，DolphinScheduler调度系统会定期执行定时任务或者临时任务（Train server），查看运行日志，并在监控中心查看cpu和内存的消耗情况。

不需要使用运营商网络：本发明中使用了无线传输数据技术，只需要车载终端开启WIFI热点然后移动终端连接车载终端的WIFI热点，或者车载终端和移动终端连接同一WIFI。这样方式的文件传输是不需要车载终端和移动终端的运营商网络的。

本发明是基于当前环境下车载终端和移动终端设备都有WIFI和WIFI热点的功能前提下，只需要在车载终端上搭建一个WEB服务器，使用HTTP协议在车机和移动终端间传输文件。也正是基于这一技术方案，本发明才有了安全性高、传输速率快、操作步骤简单等优势。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.一种智能推荐训练服务基于Dolphinscheduler的部署方法，其特征在于，包括如下步骤：

S3、运行Dolphinscheduler调度系统，并在Dolphinscheduler调度系统的前端配置智能推荐训练服务运行方案，配置完成后运行智能推荐训练服务并监控其执行情况；

其中，步骤S1中，所述Dolphinscheduler调度系统的部署包括以下步骤，

S104、修改Dolphinscheduler环境变量；

S105、修改Dolphinscheduler部署配置文件；

S106、运行部署脚本；

S107、部署用户创建租户并设置租户权限，所述租户用于在Dolphinscheduler调度系统的前端配置智能推荐训练服务运行方案。

2.根据权利要求1所述的一种智能推荐训练服务基于Dolphinscheduler的部署方法，其特征在于，所述打包python虚拟环境和智能推荐训练服务包括以下步骤，

S202、打包智能推荐训练服务自身的公共服务压缩文件包；

3.根据权利要求1所述的一种智能推荐训练服务基于Dolphinscheduler的部署方法，其特征在于，所述在DolphinScheduler前端配置智能推荐训练服务运行方案包括以下步骤，

S302、在智能推荐训练服务管理处配置工作流；

S303、上线工作流。

4.根据权利要求3所述的一种智能推荐训练服务基于Dolphinscheduler的部署方法，其特征在于，所述配置工作流包括创建项目、定义和配置工作流，编辑工作流，编辑调度任务脚本，添加资源，编辑工作流执行定时任务中的一种或多种。

5.根据权利要求4所述的一种智能推荐训练服务基于Dolphinscheduler的部署方法，其特征在于，所述工作流上线后，DolphinScheduler调度系统定期执行定时任务或者临时任务，查看运行日志，并监控cpu和内存的消耗情况。