CN111273901A

CN111273901A - 一种可快捷上线部署的机器学习模型的文件格式及部署方法

Info

Publication number: CN111273901A
Application number: CN202010064418.4A
Authority: CN
Inventors: 唐迪佳; 李白; 虞帮水
Original assignee: Zhejiang Bangsun Technology Co ltd
Current assignee: Zhejiang Bangsun Technology Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12
Anticipated expiration: 2040-01-20
Also published as: CN111273901B

Abstract

本发明公开了一种可快捷上线部署的机器学习模型的文件格式及部署方法，该格式主要包括：a)数据定义：对初始数据进行抽象定义；b)特征定义：将机器学习过程中的特征工程抽象成可重复实现的特定的数据结构；c)方法：通过编程语言编写处理逻辑；d)资源包：方法中所需要的第三方依赖；e)模型逻辑：Predictive Model Markup Language。本发明提供便捷的特征工程调整操作，继而可快速训练生成模型，从而实现模型快捷部署上线；具有模型更新周期短，热数据使用率高，资源使用量少等有点。

Description

一种可快捷上线部署的机器学习模型的文件格式及部署方法

技术领域

本发明涉及机器学习领域，尤其涉及一种可快捷上线部署的机器学习模型文件格式及部署方法。

背景技术

机器学习模型文件是指经过机器学习算法训练后得到的机器学习模型，将机器学习模型持久化到文件系统上的文件，称为机器学习模型文件，它可用于预测分析使用，而用于描述机器学习模型文件及其相关文件，统称为机器学习模型文件格式。

一般机器学习流程主要分为数据处理、特征工程、模型训练、模型生成、模型预测，实际生产环境中一般采用，离线批式环境下进行模型训练得出模型后上线到平台，使用流式或批式场景下的数据进行模型预测。最终将模型预测得到的结果应用于实际业务场景中。其中特征工程是机器学习流程中的重中之中，也是耗时最多，逻辑最复杂的部分。机器学习界流传着一句话:“数据和特征决定了机器学习算法的上限，而模型和算法只是不断逼近这个上限而已”。从中可知特征工程的重要性，在此本发明主要也在特征工程部分。

常规机器学习流程的模型导出只能导出机器学习模型逻辑部分，这使得在线上进行模型预测时，还需要将离线训练的特征工程逻辑在在线预测环境再重新实现一遍并手动进行特征匹配后才能正常进行预测(如图1所示)。

由于在离线环境和在线预测环境下对特征工程所使用的技术是不同的，如图2所示，在离线训练环境通常会使用批式计算引擎，例如：Spark、MapReduce等，而在线预测环境会使用Spark Stream、Storm、Flink等。所以在人工迁移环节，需要使用不同的技术完成相同特征工程逻辑的开发、然后经过测试，才能完成上线。这个人工迁移的过程往往是非常耗时的，相当于最复杂的特征工程部分重复做了两遍(如图2所示)。如果模型的上线周期过长，就会到导致模型上线后的效果会变差，对于时效性要求比较高的功能，模型效果更是微乎其微，甚至出现误导情况。

在现有的技术下，不论PMML、pkl等模型文件格式均存在这个缺点，无法将训练环境的全部特征工程逻辑包含在模型文件中。

这里特征工程过程除了包括二值化、标准化、归一化、one-hot等，还包括数据预处理、特征计算等过程，比如从身份证中截取出生日期、计算过去3小时累计交易金额。

PMML由于是通用的模型格式，所以会丧失特殊模型的特殊优化，对于特征工程部分的计算，PMML对特征工程对支持有限，线上、线下可以单独实现，PMML文件只负责模型部分，这样既可以做丰富的特征工程，也实现了模型的共用。

pkl格式由于是python自己的模型的格式，所以可以包含所有的特征工程中数据预处理，但是无法包含所有的特征计算过程，例如计算过去3小时累计交易金额，因为python无法支持在线预测环境中流式数据的计算。

发明内容

本发明目的在于针对现有技术的不足，提出一套新的可快捷上线部署机器学习模型文件格式(Model Archive以下简称MAR)，可大幅缩短模型部署上线周期、减少特征工程部分的耗时、提高逻辑重用率、减小特征匹配失误率，主要通过复用特征工程部分的逻辑来模型上线部署的周期，将特征工程逻辑与模型同步上线，既可减少线上特征工程部分的开发，还可减少人工特征匹配带来的失误产生。

本发明的目的是通过以下技术方案来实现的：一种可快捷上线部署的机器学习模型的文件格式，该格式主要包括：

a)数据定义：对初始数据进行抽象定义；

b)特征定义：将机器学习过程中的特征工程抽象成可重复实现的特定的数据结构；

c)方法：通过编程语言编写处理逻辑；

d)资源包：方法中所需要的第三方依赖；

e)模型逻辑：PMML(Predictive Model Markup Language)。

进一步地，所述的数据定义中的初始数据是数据挖掘人员从数据采集人员手中得到并经过异常值处理、缺失值填充等处理之后的数据，进行数据挖掘时对数据的所有操作均基于初始数据。

进一步地，所述对初始数据进行抽象定义具体为：使用初始数据的字段信息来抽象表示整个数据，并使用JSON格式字符信息描述，所述字段信息包括：字段名称、类型和备注；数据定义过程中需要定义关联主键，用来明确数据的关联关系。

进一步地，所述的特征定义主要分为两部分：

a)特征变量：特征变量基于数据抽象定义基础上，对数据按定义逻辑进行计算得出特征，所述定义逻辑使用JSON格式字符信息进行描述。可以根据该定义将特征同时转换成批式计算引擎可执行的SQL脚本和流式处理引擎可以执行的流式脚本，实现特征既可以在流式环境下运行也可在批式环境运行。

b)特征：根据使用场景分为静态特征与动态特征。

所述静态特征为针对的场景不需要进行特征计算，但初始数据仍需要保留到后续流程中计算或解释说明的特征，该特征包括样本标签值或特征说明描述字段等；

所述动态特征为引用特征变量，可以对特征变量进行二次特征计算得出新的特征结果，可以通过格式中的c)方法按照编写的处理逻辑对特征变量或静态特征进行处理。

进一步地，所述c)方法中，编程语言为Java、Scala和Python等。

进一步地，所述方法与资源包，根据批式计算引擎或流式处理引擎做相应的适配。具体为：所述的方法与资源包无法在不同的计算引擎中直接使用，需要根据不同的场景做不同的转化适配。

进一步地，所述抽象后的特征工程输入到模型逻辑中对机器学习模型进行训练，生成模型文件。

进一步地，特征定义的数据结构随着机器学习模型同时生成，即特征工程随着模型同步到生产环境，可减少由于信息传递而导致信息失真的可能性；根据特征定义分析进行快速智能的特征匹配，减少出错率、提高模型上线速度。

进一步地，所述的文件格式的部署方法包括以下步骤：

步骤1：根据原始数据抽取数据定义；具体为把原始数据的字段信息抽取出来用来代指该原始数据；

步骤2：根据特征工程完成特征定义；

步骤3：根据步骤1的数据定义和步骤2的特征定义进行特征计算；

步骤4：根据步骤3的计算结果生成模型逻辑，加载模型逻辑到应用平台上，完成模型部署；

步骤5：平台可使用模型逻辑进行模型预测，得到模型预测结果。

本发明的有益效果：

1、简化机器学习流程需要做两次特征工程操作，只需导入MAR即可完成特征工程同步，操作更加简便；

2、线上预测与离线训练使用同样定义的特征工程，减小人工迁移带来的误差，使模型更加精确；

3、缩短模型上线的时间周期，数据产生的模型快速对热数据进行应用，减小模型效果滞后，充分利用热数据；

4、由本发明将特征工程步骤抽象化成特定的数据结构，对于重复性特征可快速批量实现，减少人工操作；

5、本发明使用的技术实现方式灵活，发明中模型符合标准PMML规范可使用在各种平台，也可在各种平台实现；方法的实现也可使用多种语言实现(如：Java、Scala、Python…)。

附图说明

图1为传统机器学习模型离线训练和在线预测流程图；

图2为传统机器学习在上线过程中需要把离线特征工程人工同步到线上环境；

图3为使用可快捷上线部署的机器学习模型的离线训练和在线预测流程图；

图4为描述从数据定义与特征定义到特征宽表的流程；

图5为本发明的实现方案之一在大数据平台上特征宽表具体计算逻辑；

图6为一种可快捷上线部署的机器学习模型文件的具体文件结构。

具体实施方式

为使本发明的目的，解决的问题及带来的优势更加清晰的展示，将实现本发明等方案结合附图，按主要流程逐步清晰完整的描述以便加深理解。当然所描述的流程是本发明的部分主要逻辑流程，而不是完整的流程。此描述的流程也是本发明的实现方案之一，也可以使用各种不同的配置来实现本发明，本文旨在解释本发明，不能理解为对本发明的限制。如图3 所示，本发明提供的一种可快捷上线部署的机器学习模型文件格式及部署方法，以下统一称为MAR，通过具体流程图，表示实现本发明的主逻辑功能。除主要逻辑外其他技术实现均只做简单说明。

本实现方案的基础环境如下：

Hadoop 2.5.6；

Spark2.3.0；

JDK8；

特征工程的主要的目的是为模型输入质量好的特征宽表。如图4所示，按照MAR格式可以得到相应的特征宽表，也是机器学习流程中特征工程部分在平台的实现逻辑，本流程图描述出MAR对特征结构和数据进行基本提取，将特征工程逻辑处理部分抽象到MAR中的特征定义与数据定义，应用平台只需要按特征定义与数据定义中思维方式进行实现开发，即可实现模型快速上线部署。

如图3所示，数据挖掘人员从数据采集人员手中拿到经过简单处理过的数据(如：异常值处理、缺失值填充等)，该数据针对挖掘人员来说是原始数据，本发明中初始数据皆指该数据，以交易流水数据为例描述本发明。

数据定义是把原始数据的表字段信息抽取出来用来代指该原始数据，简要格式如下：

在实际机器学习流程中原始数据一般均是多张数据表相互关联进行计算，各数据之间的关联关系也反应着业务逻辑关系(如：同用户下三小时内的交易流水，就需要用户数据与交易流水数据通过userId进行关联才能计算出结果)。数据定义中为反映这种关系增加关联主键概念，即将fields中关联的字段设置为主键称为关联主键，使用："isPrimary":true来标注。在本实现中默认使字段名相同且为关联主键的字段进行关联。

特征定义通过将数据定义中的fields参与特征计算来抽象特征工程，特征定义根据计算方式分为动态特征与静态特征。

静态特征主要指不需要进行计算的特征值(例如：标签值)，将该部分特征值单独提取出，可以避免不必要的数据进入计算引擎计算，达到减少资源浪费的目的，静态特征表示格式如下：

动态特征是通过计算得出的特征，计算范围为同表内，若需要多个数据共同计算则根据数据定义中定义的关联主键进行关联，将数据关联到一张表后，再进行计算，根据特征定义配置的格式，特征定义会把每次特征计算逻辑使用json格式序列化保存下来，动态特征表示格式如下：

该特征定义计算的是某账号过去30天平均交易金额，其中DD97YZtj1ovM.userId是数据定义中的关联主键，平均值计算标识为avg，avg是Spark内置的算子,Spark中也可通过继承 UserDefinedAggregateFunction自定义算子，过滤标条件为isNotNull(DD97YZtj1ovM.stat1)，其中isNotNull是本发明机器学习模型文件格式中的方法，在Mar中格式如下：

该方法中使用到的第三方依赖则是资源包，一些复杂大量、重复的处理逻辑也可放置在该资源包中，后续与方法同步加载到计算环境中供计算引擎调用。

特征定义所描述的特征计算逻辑，如图5所示，动态特征进行语义解析，S1：语义解析可以同时解析成S2：批式引擎处理脚本和S3：流式引擎可以处理的脚本的信息，一般批式脚本为对应的SQL，通过上述的特征定义可转换成的SQL格式：

1.SELECT*,

2.AVG(CAST(DD97YZtj1ovM.transAmt AS DOUBLE),isNotNull(DD97YZtj1ovM.stat1))

3.OVER(PARTITION BY DD97YZtj1ovM.usr_id ORDER BYDD97YZtj1ovM.transTime RANGE BETWEEN 2592000PRECEDING AND-1FOLLOWING)ASavgNumber

4.FROM DD97YZtj1ovM

上述SQL脚本符合SparkWindowsSQL格式其中AVG，isNotNull对应特征定义中的calc ->oper和filter中的值是属于方法定义的函数的标识字符，如图5中S4运行时，Spark(批式计算引擎)会把这些函数及函数依赖的第三方资源(如图6中-lib中的jar包)加载到环境中，这样Spark环境中可以使用该SQL脚本进行计算。

在本实现方案中functions使用Java编程语言进行实现，在Spark中Java函数是不能直接使用的，由于spark只支持UDF函数注册，计算均运行在JVM环境中进行，Java函数需要运行做一下处理后才能正常运行；

1.将方法中使用到的资源加载到环境中；

2.并对方法进行解析，提取出方法主体；方法入参，方法的返回值；

3.使用类加载器ClassLoader对方法进行加载，将函数加载到JVM中；

4.通过方法入参自动适配对应的UDF注册函数，保证类加载的方法名与注册方法名相同；

5.装配好的UDF函数注册到spark，即可以通过相同的方法名进行匹配。

注册成功之后，spark运行时会按照设function中的逻辑进行计算。图5中S4表示将资源包和方法加载到计算引擎中使用，计算引擎的环境中存在对应的方法及相关第三方依赖，从而使用该方法运行逻辑。

通过以上过程计算引擎中环境所需的资源已准备完成，然后提交计算任务到大数据集群中，即可在大数据环境进行分布式计算，任务运行到结果即为机器学习训练模型需要的特征宽表。训练模型可以选择Spark MLib进行生成模型，也可以使用python进行建模。得到的模型即为MAR中的模型逻辑保存在MAR的model目录中。MAR即本次机器学习流程使用到的特征定义，数据定义，模型逻辑，方法，资源包，如图6所示，MAR文件结构，assets.json中包含数据定义，特征定义，方法等数据结构，lib中保存对应方法使用的资源包。

结合图3和图5将生成好的MAR加载到对应的线上平台，平台可根据MAR中的数据定义和特征定义完整还原出离线建模时的特征工程逻辑无缝对接模型进行模型预测。

上述实施例用来解释说明本发明，而不是对本发明进行限制，对于本领域技术人员，不限于本申请所述对示范性实施案例对细节，不脱离本发明构思的前提下，可以有多种实现方式，还可作出变形和改进。在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种可快捷上线部署的机器学习模型的文件格式，其特征在于，该格式主要包括：

a)数据定义：对初始数据进行抽象定义；

c)方法：通过编程语言编写处理逻辑；

d)资源包：方法中所需要的第三方依赖；

e)模型逻辑：PMML(Predictive Model Markup Language)。

2.如权利要求1所述的文件格式，其特征在于，所述的数据定义中的初始数据是数据挖掘人员从数据采集人员手中得到并经过异常值处理、缺失值填充等处理之后的数据，进行数据挖掘时对数据的所有操作均基于初始数据。

3.如权利要求1所述的文件格式，其特征在于，所述对初始数据进行抽象定义具体为：使用初始数据的字段信息来抽象表示整个数据，并使用JSON格式字符信息描述，所述字段信息包括：字段名称、类型和备注；数据定义过程中需要定义关联主键，用来明确数据的关联关系。

4.如权利要求1所述的文件格式，其特征在于，所述的特征定义主要分为两部分：

b)特征：根据使用场景分为静态特征与动态特征。

5.如权利要求1所述的文件格式，其特征在于，所述c)方法中，编程语言为Java、Scala和Python等。

6.如权利要求1所述的文件格式，其特征在于，所述方法与资源包，根据批式计算引擎或流式处理引擎做相应的适配。具体为：所述的方法与资源包无法在不同的计算引擎中直接使用，需要根据不同的场景做不同的转化适配。

7.如权利要求1所述的文件格式，其特征在于，所述抽象后的特征工程输入到模型逻辑中对机器学习模型进行训练，生成模型文件。

8.如权利要求1所述的文件格式，其特征在于，特征定义的数据结构随着机器学习模型同时生成，即特征工程随着模型同步到生产环境，可减少由于信息传递而导致信息失真的可能性；根据特征定义分析进行快速智能的特征匹配，减少出错率、提高模型上线速度。

9.如权利要求1所述的文件格式的部署方法，其特征在于，该方法包括以下步骤：步骤1：根据原始数据抽取数据定义；具体为把原始数据的字段信息抽取出来用来代指该原始数据；

步骤2：根据特征工程完成特征定义；