CN114968329B - 一种自定义模型全流程管理方法 - Google Patents

一种自定义模型全流程管理方法 Download PDF

Info

Publication number
CN114968329B
CN114968329B CN202210429981.6A CN202210429981A CN114968329B CN 114968329 B CN114968329 B CN 114968329B CN 202210429981 A CN202210429981 A CN 202210429981A CN 114968329 B CN114968329 B CN 114968329B
Authority
CN
China
Prior art keywords
model
custom
algorithm
input
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210429981.6A
Other languages
English (en)
Other versions
CN114968329A (zh
Inventor
柴磊
郑先军
陈茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Original Assignee
Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd filed Critical Shenzhen Magic Digital Intelligent Artificial Intelligence Co ltd
Priority to CN202210429981.6A priority Critical patent/CN114968329B/zh
Publication of CN114968329A publication Critical patent/CN114968329A/zh
Application granted granted Critical
Publication of CN114968329B publication Critical patent/CN114968329B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/71Version control; Configuration management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/76Adapting program code to run in a different environment; Porting

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Stored Programmes (AREA)

Abstract

本发明属于计算机及人工智能技术领域,公开了一种自定义模型全流程管理方法,对要接入的自定义模型进行在模型接入标准文件的定义下的统一技术接入标准;根据输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容对自定义模型描述;根据模型接入标准文件,实现自定义模型运行前,运行中,运行后的全流程管理。本发明采用的自定义模型接入规范在技术接入标准上适配了现有常见的算法模型类型,使得不同的自定义模型能够在同一平台进行集中管理;同时引入了可自定义的流程管理办法对接入的自定义模型进行统一管理。对算法模型从研发到上线等流程使用提供完整的可自定义流程管理技术。

Description

一种自定义模型全流程管理方法
技术领域
本发明属于计算机及人工智能技术领域,尤其涉及一种自定义模型全流程管理方法。
背景技术
目前,在大数据和人工智能的发展中,算法模型的研发是各自独立分散的,研发人员使用的研究环境也各不相同,研究环境可以分为操作系统、编程语言和工具包等;操作系统包含WINDOWS、LINUX等;编程语言包含JAVA、BASIC等;工具包包含Fresh IDE Portable等;为了使得这些研发的算法模型能够快速地对外提供使用,以及对这些研发的算法模型进行有效的管理是非常重要的。由各个不同研究人员研发的算法模型,称为自定义的算法模型。
现有算法模型的研发是独立分散,研发环境也是各不相同,模型投入使用的环境和研发的环境难以有效管理,导致对分散的算法模型,缺少提供统一的集中式平台管理,对模型缺少流程上的管理。
发明内容
针对现有技术存在的问题,本发明提供了一种自定义模型全流程管理方法。
本发明是这样实现的,一种自定义模型全流程管理方法,包括:
对要接入的自定义模型进行在模型接入标准文件的定义下的统一技术接入标准;
模型接入标准文件包含模型配置、输入和输出、算法模型类型、运行环境、监控算子、重训练方法、算法模型文件和算法模型依赖开发包描述信息;
根据输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容对自定义模型描述;
根据输入特征参数,对输入特征工程处理;
根据算法模型类型和模型接入标准文件里描述的运行环境,支持离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境,包含但不限于python包,java包的依赖开发包;
运行环境为模型运行所依赖的环境,包括需要构建的语言环境、依赖版本、及相关依赖包的安装方式,不限于语言及版本、操作系统、数据库系统、中间件、接口软件、可能的性能监控与分析软件环境及配置要求;
根据模型接入标准文件,实现自定义模型运行前,运行中,运行后的全流程管理。
可选的,具体包括以下步骤:
获取自定义模型的技术标准和模型接入标准文件的技术标准,所述技术标准为:输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型;
准备模型接入标准文件里描述的自定义模型运行环境,准备离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境,包括不限于python包和java包的依赖开发包;
设置监控算子,支持自定义算子,采用对算法模型的稳定性的监控的算子对算法模型性能指标评估的算子;
运行自定义模型;
根据模型接入标准文件的技术标准,输入自定义模型的输入特征参数;
采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工;
输出进行特征加工的自定义模型的输出结果,对输出结果进行监控,达到监控条件,监控算子自动计算出监控数据;
通过对自定义模型的监控和模型接入标准文件里的描述,对自定义模型是否需要重训练进行判断是否要执行重训练。
可选的,所述模型配置包含模型基本信息配置及模型具体信息配置;
所述输入和输出包含:特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型;
所述算法类型包括:二分类算法模型、多分类算法模型、回归算法模型和聚类算法模型;
运行环境为模型运行所依赖的环境,包括需要构建的语言环境、依赖版本、及相关依赖包的安装方式,不限于语言及版本、操作系统、数据库系统、中间件、接口软件、可能的性能监控与分析软件环境及配置要求;
所述监控算子包括:模型算法训练脚本库、模型算法计算脚本库以及模型算法管理后台;所述模型算法训练脚本库包括多个python格式的所述模型算法训练脚本文件,所述模型算法训练脚本库被配置为提供自定义模型算法的训练框架,进行所述模型训练和所述生成模型文件;所述模型算法计算脚本库包括多个python格式的所述模型算法计算脚本文件,所述模型算法计算脚本库被配置为提供模型计算算法,进行所述自定义模型计算、所述自定义模型指标评估和所述模型运行指标监控;所述模型算法管理后台被配置为进行所述自定义模型选择;
所述重训练方法通过机器学习数据输入特征与输出目标之间的映射,通过优化目标函数进行映射的学习,根据训练数据的分布和规模不同,算法模型需要对新数据进行重新训练,得到更优的算法模型,自定义模型重训练,根据训练数据进行重新迭代训练出新模型。
可选的,支持接入的自定义模型包括:(1)第三方开源模型,包括自定义评价指标sklearn、开源机器学习库pytorch、软件库tensorflow、梯度提升机lightgbm和极端梯度提升机xgboost;(2)预测模型标记语言PMML;(3)通用python模型,即使用python语言研发的算法模型;(4)通用java模型,即使用java语言研发的算法模型;(5)深度学习模型。
可选的,输出进行特征加工的自定义模型的输出结果进行监控设置,监控的内容包括:性能评估指标包括但不限于auc、ks、psi、csi、iv、t检验、卡方检验模型及变量监控指标,以及算法模型评估的自定义指标。
可选的,自定义模型接入规范包含特征工程,在自定义模型的输入设置有归一化、异常值修正特征加工的功能。
可选的,将自定义模型的输入特征参数进行归一化处理得到与模型接入标准文件的技术标准描述的模型的输入特征参数,具体包括:
采用不同的归一化自定义模型,分别对自定义模型的输入特征参数进行归一化处理,获得与所述自定义模型的输入特征参数对应的多组备选归一化自定义模型的输入特征参数的特征;
确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化输入特征参数的第一权重值;根据不同的归一化自定义模型,确定与所述自定义模型的输入特征参数的特征对应的多个第一特征向量;根据所述多个第一特征向量之间的相关性,确定相关性矩阵;确定每个第一特征向量对应的转置向量;将第一特征向量和所述转置向量两两相乘,获得所述相关性矩阵;
根据所述相关性矩阵,确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化自定义模型的所述第一权重值;
根据所述多组备选归一化自定义模型的输入特征参数的特征和所述不同的归一化自定义模型的所述第一权重值,确定与所述自定义模型的输入特征参数对应的模型的输入特征参数。
可选的,采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工包括特征工程对输入特征参数的标准化处理,具体包括:
确定与模型接入标准文件相对应的自定义模型的输入特征参数,所述自定义模型的输入特征参数包括具有非模型接入标准文件的输入特征参数的第一集合和具有模型接入标准文件的输入特征参数的第二集合;
将所述输入参数的第一集合的非模型接入标准文件的输入特征参数进行标准化以创建标准化输入特征参数;
标准化处理之后的输入特征参数根据不同类型进行分别处理,进行特征加工;
配置为采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工的输出结果。
可选的,采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工,包括自定义模型的输入特征参数的异常值修正,具体包括:
在获取自定义模型的异常值数据集后,选择相应的自定义模型的异常值数据集进行异常值识别;异常值数据集包含:垂直特异性、库克距离值或杠杆值;
采用基于负荷水平映射的加权均值法对异常值进行修正,修正垂直特异性、库克距离值或杠杆值。
可选的,异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差;二是同时影响X和Y的异常值,对应探测该类异常的指标为库克距离COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。
结合上述的所有技术方案,本发明所具备的优点及积极效果为:本发明采用的自定义模型接入规范在技术接入标准上适配了现有常见的算法模型类型,使得不同的自定义模型能够在同一平台进行集中管理;同时引入了可自定义的流程管理办法对接入的自定义模型进行统一管理。本发明提出了能够支持自定义模型能够在统一技术标准规范下运行的方法,对算法模型从研发到上线等流程使用提供完整的可自定义流程管理技术。
通过本发明提出的统一技术接入标准,能够解决现有不同的自定义模型环境上带来的管理问题,对后续算法模型的投入使用提供了标准的模型使用流程规范,使得对研发人员研发的模型在管理上带来更多的简单便利。本发明根据包含输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容的技术标准,实现了对自定义模型的技术标准的转换,使其能够得出适用于模型接入标准文件的自定义模型的接入规范标准,提高了不同自定义模型接入的速度,免去了因技术标准的不同无法实现自定义模型运行的问题,为实现自定义模型的运行提供了保障。
本发明可以采用不同的归一化自定义模型,分别对输入自定义模型的输入特征参数进行归一化处理,从而得到与模型接入标准文件的技术标准对应的多组备选归一化自定义模型的输入特征参数;根据所述多组备选归一化自定义模型的输入特征参数的特征和所述不同的归一化自定义模型的所述第一权重值最终确定与自模型接入标准文件的技术标准对应的目标归一化自定义模型的输入特征参数,从而实现了根据自定义模型的输入特征参数,自适应性地确定不同的归一化自定义模型的第一权重值的目的,提高了归一化算法的灵活性。本发明实现简便,可用性高,在实际应用时可以替换各种神经网络中的任意归一化层,易于实现与优化。
本发明对自定义模型的输入特征参数进行标准化处理,与模型接入标准文件相对应,自定义模型接入规范包含特征工程;保持了自定义模型原有输入和输出,不会因为技术接入标准的影响而发生改变;本发明制定模型接入标准文件,便于自定义模型输入特征参数的标准处理,为算法模型从研发到上线等流程使用提供完整的可自定义流程管理提供了基础保障。
本发明对自定义模型的输入特征参数异常值进行检测,检测出异常值,实现了特征加工的功能,例如:一般模型的输入都会有诸如归一化、异常值修正等对特征加工;与现有技术的不同在于,本发明在自定义模型管理是包含特征加工的功能。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的自定义模型全流程管理方法的流程图。
图2是本发明实施例提供的对自定义的模型提供统一的技术接入标准示意图。
图3是本发明实施例提供的特征工程示意图。
图4是本发明实施例提供的预测结果监控示意图。
图5是本发明实施例提供的采用标准的自定义模型接入规范示意图。
图6是本发明实施例提供的可视化编辑的自定义管理流程图。
图7是本发明实施例提供的自定义模型全流程管理方法的具体实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1:
如图1所示,本发明实施例提供的自定义模型全流程管理方法包括以下步骤:
S101:对要接入的自定义模型进行在模型接入标准文件的定义下的统一技术接入标准;模型接入标准文件包含模型配置、输入和输出、算法模型类型、运行环境、监控算子、重训练方法、算法模型文件和算法模型依赖开发包等描述信息;
S102:根据输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容对自定义模型描述;
S103:根据输入特征参数,对输入特征工程处理;
S104:根据算法模型类型和模型接入标准文件里描述的运行环境,支持离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境,比如python包和java包等依赖开发包;
S105:根据模型接入标准文件,实现自定义模型运行前,运行中,运行后的全流程管理。
算法模型文件中包括查询算法模型数据、项目的索引与项目的标识之间的映射关系,所述查询算法模型数据用于表示查询算法模型;模型配置包含模型基本信息配置及模型具体信息配置;输入和输出包含:特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型。所述算法类型包括:二分类算法模型、多分类算法模型、回归算法模型和聚类算法模型。
本发明包含但不限于python包,java包的依赖开发包。
如图2所示,本发明实施例提供的自定义模型全流程管理方法对自定义的模型提供统一的技术接入标准;自定义模型通过自定义模型接入规范处理,然后导入模型管理。本发明支持接入的自定义模型主要有:(1)第三方开源模型,包括自定义评价指标sklearn、开源机器学习库pytorch、软件库tensorflow、梯度提升机lightgbm和极端梯度提升机xgboost;(2)预测模型标记语言PMML;(3)通用python模型,即使用python语言研发的算法模型;(4)通用java模型,即使用java语言研发的算法模型;(5)深度学习模型。算法类型包括:二分类算法模型、多分类算法模型、回归算法模型和聚类算法模型。
如图3所示,本发明实现了原有算法模型的输入和输出,自定义模型接入规范包含特征工程;自定义模型保持了原有输入和输出,不会因为技术接入标准的影响而发生改变;对自定义模型输入支持特征工程,在自定义模型的输入设置有特征加工的功能,例如:一般模型的输入都会有诸如归一化、异常值修正等对特征加工;与现有技术的不同在于,本发明在自定义模型管理是包含特征加工的。
如图4所示,本发明在算法模型的运行,得到预测结果,进行输出,对预测结果进行监控设置,监控的内容包括:性能评估指标包括但不限于auc、ks、psi、csi、iv、t检验、卡方检验等模型及变量监控指标,以及算法模型评估的自定义指标。
本发明支持了原有自定义模型的运行环境。运行环境为模型运行所依赖的环境,包括需要构建的语言环境、依赖版本、及相关依赖包的安装方式,不限于语言及版本、操作系统、数据库系统、中间件、接口软件、可能的性能监控与分析软件环境及配置要求;运行环境包括对系统所依赖于运行的硬件,包括操作系统、数据库系统、中间件、接口软件、可能的性能监控与分析等软件环境及配置要求。
如图5所示,本发明采用标准的自定义模型接入规范,能运行研发人员的自定义模型。如图6所示,另外,本发明还提供带有可视化编辑的自定义管理流程,在流程关联上需要管理的算法模型。
本发明采用的自定义模型接入规范在技术接入标准上适配了现有常见的算法模型类型,使得不同的自定义模型能够在同一平台进行集中管理;同时引入了可自定义的流程管理办法对接入的自定义模型进行统一管理。本发明提出了能够支持自定义模型能够在统一技术标准规范下运行的方法,对算法模型从研发到上线等流程使用提供完整的可自定义流程管理技术。
实施例2:
如图7所示,在实施例1的基础上,本发明实施例提供的自定义模型全流程管理方法具体包括以下步骤:
S701:获取自定义模型的技术标准和模型接入标准文件的技术标准,所述技术标准为:输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型;
S702:准备模型接入标准文件里描述的自定义模型运行环境;准备离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境,比如python包,java包等依赖开发包;
S703:设置监控算子,支持自定义算子,比如对算法模型的稳定性的监控的算子对算法模型性能指标评估的算子;
S704:运行自定义模型;
S705:根据模型接入标准文件的技术标准,输入自定义模型的输入特征参数;
S706:采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工;
S707:输出进行特征加工的自定义模型的输出结果,对输出结果进行监控,达到监控条件,监控算子自动计算出监控数据;
S708:通过对自定义模型的监控和模型接入标准文件里的描述,对自定义模型是否需要重训练进行判断是否要执行重训练。
所述监控算子包括:模型算法训练脚本库、模型算法计算脚本库以及模型算法管理后台;所述模型算法训练脚本库包括多个python格式的所述模型算法训练脚本文件,所述模型算法训练脚本库被配置为提供自定义模型算法的训练框架,进行所述模型训练和所述生成模型文件;
所述模型算法计算脚本库包括多个python格式的所述模型算法计算脚本文件,所述模型算法计算脚本库被配置为提供模型计算算法,进行所述自定义模型计算、所述自定义模型指标评估和所述模型运行指标监控;
所述模型算法管理后台被配置为进行所述自定义模型选择。
所述算法模型的重训练包括:通过机器学习数据输入特征与输出目标之间的映射,通过优化目标函数进行映射的学习,根据训练数据的分布和规模不同,算法模型需要对新数据进行重新训练,得到更优的算法模型,自定义模型重训练,根据训练数据进行重新迭代训练出新模型。
通过本发明提出的统一技术接入标准,能够解决现有不同的自定义模型环境上带来的管理问题,对后续算法模型的投入使用提供了标准的模型使用流程规范,使得对研发人员研发的模型在管理上带来更多的简单便利。本发明根据包含输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容的技术标准,实现了对自定义模型的技术标准的转换,使其能够得出适用于模型接入标准文件的自定义模型的接入规范标准,提高了不同自定义模型接入的速度,免去了因技术标准的不同无法实现自定义模型运行的问题,为实现自定义模型的运行提供了保障。
实施例3:
在实施例2的基础上,本发明实施例提供的根据模型接入标准文件的技术标准,输入自定义模型的输入特征参数,将自定义模型的输入特征参数进行归一化处理得到与模型接入标准文件的技术标准描述的模型的输入特征参数,具体包括:
采用不同的归一化自定义模型,分别对自定义模型的输入特征参数进行归一化处理,获得与所述自定义模型的输入特征参数对应的多组备选归一化自定义模型的输入特征参数的特征;
确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化输入特征参数的第一权重值;根据不同的归一化自定义模型,确定与所述自定义模型的输入特征参数的特征对应的多个第一特征向量;根据所述多个第一特征向量之间的相关性,确定相关性矩阵;确定每个第一特征向量对应的转置向量;将第一特征向量和所述转置向量两两相乘,获得所述相关性矩阵;
根据所述相关性矩阵,确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化自定义模型的所述第一权重值;
根据所述多组备选归一化自定义模型的输入特征参数的特征和所述不同的归一化自定义模型的所述第一权重值,确定与所述自定义模型的输入特征参数对应的模型的输入特征参数。
本发明可以采用不同的归一化自定义模型,分别对输入自定义模型的输入特征参数进行归一化处理,从而得到与模型接入标准文件的技术标准对应的多组备选归一化自定义模型的输入特征参数;根据所述多组备选归一化自定义模型的输入特征参数的特征和所述不同的归一化自定义模型的所述第一权重值最终确定与自模型接入标准文件的技术标准对应的目标归一化自定义模型的输入特征参数,从而实现了根据自定义模型的输入特征参数,自适应性地确定不同的归一化自定义模型的第一权重值的目的,提高了归一化算法的灵活性。本发明实现简便,可用性高,在实际应用时可以替换各种神经网络中的任意归一化层,易于实现与优化。
实施例4:
在实施例2的基础上,本发明实施例提供的采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工包括特征工程对输入特征参数的标准化处理,具体包括:
确定与模型接入标准文件相对应的自定义模型的输入特征参数,所述自定义模型的输入特征参数包括具有非模型接入标准文件的输入特征参数的第一集合和具有模型接入标准文件的输入特征参数的第二集合;
将所述输入参数的第一集合的非模型接入标准文件的输入特征参数进行标准化以创建标准化输入特征参数;
标准化处理之后的输入特征参数根据不同类型进行分别处理,进行特征加工;
配置为采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工的输出结果;
本发明对自定义模型的输入特征参数进行标准化处理,与模型接入标准文件相对应,自定义模型接入规范包含特征工程;保持了自定义模型原有输入和输出,不会因为技术接入标准的影响而发生改变;本发明制定模型接入标准文件,便于自定义模型输入特征参数的标准处理,为算法模型从研发到上线等流程使用提供完整的可自定义流程管理提供了基础保障。
实施例5:
在实施例4的基础上,本发明实施例提供的采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工,包括自定义模型的输入特征参数的异常值修正,具体包括:
在获取自定义模型的异常值数据集后,选择相应的自定义模型的异常值数据集进行异常值识别;异常值数据集包含:垂直特异性、库克距离值或杠杆值;
采用基于负荷水平映射的加权均值法对异常值进行修正,修正垂直特异性、库克距离值或杠杆值。
在本发明实施例中,异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测该类异常的指标为标准化残差(学生化残差也可以);二是同时影响X和Y的异常值,对应探测该类异常的指标为库克距离COOK值,三是影响水平方向的X的异常值,叫杠杆值,对应探测该类型异常的指标为杠杆率。
本发明对自定义模型的输入特征参数异常值进行检测,检测出异常值,实现了特征加工的功能,例如:一般模型的输入都会有诸如归一化、异常值修正等对特征加工;与现有技术的不同在于,本发明在自定义模型管理是包含特征加工的功能。
实施例6:
在实施例2的基础上,本发明实施例提供的监控算子自动计算出监控数据进行可视化的监控数据的图像处理过程包括:
通过对所得到的监控数据的图像f0(x,y)进行分析处理,得出监控数据的图像的特征P,调用二维小波变换模块对监控数据的图像f0(x,y)进行二维小波变换,得到:
Figure GDA0003741564260000131
其中,f0 0(m,n)为f0(x,y)变换后的低频分量,f0 1(m,n)为f0(x,y)变换后的水平高频分量,f0 2(m,n)为f0(x,y)变换后的垂直高频分量,f0 3(m,n)为f0(x,y)变换后的对角线高频分量,为f0(x,y)变换后的垂直高频分量,
Figure GDA0003741564260000141
为尺度函数,为f0 0(m,n)相应的小波;
Figure GDA0003741564260000142
为尺度函数,为f0 1(m,n)相应的小波;
Figure GDA0003741564260000143
为尺度函数,为f0 2(m,n)相应的小波;
Figure GDA0003741564260000144
为尺度函数,为f0 3(m,n)相应的小波;x和m均为监控数据的图像的横向坐标,y和n均为监控数据的图像的纵向坐标;将经二维小波变换后的低频分量变换到对数空间,并使用k种不同的高斯滤波系数Fk(x,y)与对数空间中的低频小波系数I(x,y)进行卷积计算,得到:
Figure GDA0003741564260000145
其中,k为高斯滤波系数的种类数;对卷积计算所得结果gk(x,y)与对数空间中的低频小波系数I(x,y)的偏差进行加权平均计算,得到:
Figure GDA0003741564260000146
其中,N为不小于3的自然数;对调用加权平均计算模块中所得到的加权平均结果R(x,y)进行灰度值线性拉伸,得到:R′(x,y)=G×R(x,y)+offset,
Figure GDA0003741564260000147
其中,R′(x,y)为图像小波系数的变换输出值,R″(x,y)为均值方差归一化后用来显示的灰度值,G为增益系数,offset为R′(x,y)的偏移量,rmin为修正后图像小波系数中的最小值,rmax为修正后图像小波系数中的最大值。
本发明的图像处理速度快,实用性强,能够很好地满足实际应用的需求。避免了采集一些无效的图像数据,有效节省了电源电量,提高了图像数据的传输速率。本发明实现了预测结果的可视化,对预测结果进行监控设置并实现了可视化。同时,通过对监控数据的图像处理提高了自定义模型结果的可视化的准确度,实现了自定义模型全流程管理的可视化监控。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明较优的具体的实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种自定义模型全流程管理方法,其特征在于,包括:
对要接入的自定义模型进行在模型接入标准文件的定义下的统一技术接入标准;
模型接入标准文件包含模型配置、输入和输出、算法模型类型、运行环境、监控算子、重训练方法、算法模型文件和算法模型依赖开发包描述信息;
根据输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型内容对自定义模型描述;
根据输入特征参数,对输入特征工程处理;
根据算法模型类型和模型接入标准文件里描述的运行环境,支持离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境,包含python包,java包的依赖开发包;
运行环境为模型运行所依赖的环境,包括需要构建的语言环境、依赖版本、及相关依赖包的安装方式,包括语言及版本、操作系统、数据库系统、中间件、接口软件、性能监控与分析软件环境及配置要求;
根据模型接入标准文件,实现自定义模型运行前,运行中,运行后的全流程管理;
所述的自定义模型全流程管理方法具体包括以下步骤:
获取自定义模型的技术标准和模型接入标准文件的技术标准,所述技术标准为:输入特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型;
准备模型接入标准文件里描述的自定义模型运行环境,准备离线的算法模型依赖开发包,离线的算法模型依赖开发包支持自定义模型的运行,支持在线的算法模型依赖开发包,支持联网下载算法模型依赖开发包到运行环境;
设置监控算子,支持自定义算子,采用对算法模型的稳定性的监控的算子对算法模型性能指标评估的算子;
运行自定义模型;
根据模型接入标准文件的技术标准,输入自定义模型的输入特征参数;
采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工;
输出进行特征加工的自定义模型的输出结果,对输出结果进行监控,达到监控条件,监控算子自动计算出监控数据;
通过对自定义模型的监控和模型接入标准文件里的描述,对自定义模型是否需要重训练进行判断是否要执行重训练。
2.如权利要求1所述的自定义模型全流程管理方法,其特征在于,所述模型配置包含模型基本信息配置及模型具体信息配置;
所述输入和输出包含:特征参数、输出结果、运行环境、特征工程、监控算子、重训练方法和适配算法模型类型;
所述适配算法模型类型包括:二分类算法模型、多分类算法模型、回归算法模型和聚类算法模型;
运行环境为模型运行所依赖的环境,包括需要构建的语言环境、依赖版本、及相关依赖包的安装方式,包括语言及版本、操作系统、数据库系统、中间件、接口软件、性能监控与分析软件环境及配置要求;
所述监控算子包括:模型算法训练脚本库、模型算法计算脚本库以及模型算法管理后台;所述模型算法训练脚本库包括多个python格式的所述模型算法训练脚本文件,所述模型算法训练脚本库被配置为提供自定义模型算法的训练框架,进行所述模型训练和生成模型文件;所述模型算法计算脚本库包括多个python格式的所述模型算法计算脚本文件,所述模型算法计算脚本库被配置为提供模型计算算法,进行所述自定义模型计算、所述自定义模型指标评估和所述模型运行指标监控;所述模型算法管理后台被配置为进行所述自定义模型选择;
所述重训练方法通过机器学习数据输入特征与输出目标之间的映射,通过优化目标函数进行映射的学习,根据训练数据的分布和规模不同,算法模型需要对新数据进行重新训练,得到更优的算法模型,自定义模型重训练,根据训练数据进行重新迭代训练出新模型。
3.如权利要求1所述的自定义模型全流程管理方法,其特征在于,支持接入的自定义模型包括:(1)第三方开源模型,包括自定义评价指标sklearn、开源机器学习库pytorch、软件库tensorflow、梯度提升机lightgbm和极端梯度提升机xgboost;(2)预测模型标记语言PMML;(3)通用python模型,即使用python语言研发的算法模型;(4)通用java模型,即使用java语言研发的算法模型;(5)深度学习模型。
4.如权利要求1所述的自定义模型全流程管理方法,其特征在于,输出进行特征加工的自定义模型的输出结果进行监控设置,监控的内容包括:性能评估指标包括但不限于auc、ks、psi、csi、iv、t检验、卡方检验模型及变量监控指标,以及算法模型评估的自定义指标。
5.如权利要求1所述的自定义模型全流程管理方法,其特征在于,自定义模型接入规范包含特征工程,在自定义模型的输入设置有归一化、异常值修正特征加工的功能。
6.如权利要求1所述的自定义模型全流程管理方法,其特征在于,将自定义模型的输入特征参数进行归一化处理得到与模型接入标准文件的技术标准描述的模型的输入特征参数,具体包括:
采用不同的归一化自定义模型,分别对自定义模型的输入特征参数进行归一化处理,获得与所述自定义模型的输入特征参数对应的多组备选归一化自定义模型的输入特征参数的特征;
确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化输入特征参数的第一权重值;根据不同的归一化自定义模型,确定与所述自定义模型的输入特征参数的特征对应的多个第一特征向量;根据所述多个第一特征向量之间的相关性,确定相关性矩阵;确定每个第一特征向量对应的转置向量;将第一特征向量和所述转置向量两两相乘,获得所述相关性矩阵;
根据所述相关性矩阵,确定与所述自定义模型的输入特征参数的特征对应的所述不同的归一化自定义模型的所述第一权重值;
根据所述多组备选归一化自定义模型的输入特征参数的特征和所述不同的归一化自定义模型的所述第一权重值,确定与所述自定义模型的输入特征参数对应的模型的输入特征参数。
7.如权利要求1所述的自定义模型全流程管理方法,其特征在于,采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工包括特征工程对输入特征参数的标准化处理,具体包括:
确定与模型接入标准文件相对应的自定义模型的输入特征参数,所述自定义模型的输入特征参数包括具有非模型接入标准文件的输入特征参数的第一集合和具有模型接入标准文件的输入特征参数的第二集合;
将所述输入参数的第一集合的非模型接入标准文件的输入特征参数进行标准化以创建标准化输入特征参数;
标准化处理之后的输入特征参数根据不同类型进行分别处理,进行特征加工;
配置为采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工的输出结果。
8.如权利要求1所述的自定义模型全流程管理方法,其特征在于,采用模型接入标准文件里面的特征工程对输入特征参数进行特征加工,包括自定义模型的输入特征参数的异常值修正,具体包括:
在获取自定义模型的异常值数据集后,选择相应的自定义模型的异常值数据集进行异常值识别;异常值数据集包含:垂直特异性、库克距离值或杠杆值;
采用基于负荷水平映射的加权均值法对异常值进行修正,修正垂直特异性、库克距离值或杠杆值。
9.如权利要求8所述的自定义模型全流程管理方法,其特征在于,异常值有三种类型,一是影响垂直方向Y的异常值,叫垂直特异性,对应探测垂直特异性的指标为标准化残差;二是同时影响X和Y的异常值,对应探测影响X和Y的异常值的指标为库克距离COOK值,三是影响水平方向X的异常值,叫杠杆值,对应探测杠杆值异常的指标为杠杆率。
CN202210429981.6A 2022-04-22 2022-04-22 一种自定义模型全流程管理方法 Active CN114968329B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210429981.6A CN114968329B (zh) 2022-04-22 2022-04-22 一种自定义模型全流程管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210429981.6A CN114968329B (zh) 2022-04-22 2022-04-22 一种自定义模型全流程管理方法

Publications (2)

Publication Number Publication Date
CN114968329A CN114968329A (zh) 2022-08-30
CN114968329B true CN114968329B (zh) 2022-12-20

Family

ID=82978397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210429981.6A Active CN114968329B (zh) 2022-04-22 2022-04-22 一种自定义模型全流程管理方法

Country Status (1)

Country Link
CN (1) CN114968329B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881885A (zh) * 2020-08-17 2020-11-03 安徽南瑞继远电网技术有限公司 一种开放式的电力ai应用平台
CN113094621A (zh) * 2021-04-23 2021-07-09 中南大学 一种网络舆情云平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10606566B2 (en) * 2017-06-03 2020-03-31 Apple Inc. Integration of learning models into a software development system
US11941494B2 (en) * 2019-05-13 2024-03-26 Adobe Inc. Notebook interface for authoring enterprise machine learning models
US11263003B1 (en) * 2020-12-15 2022-03-01 Kyndryl, Inc. Intelligent versioning of machine learning models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881885A (zh) * 2020-08-17 2020-11-03 安徽南瑞继远电网技术有限公司 一种开放式的电力ai应用平台
CN113094621A (zh) * 2021-04-23 2021-07-09 中南大学 一种网络舆情云平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
云制造资源虚拟化研究;任磊等;《计算机集成制造系统》;20110315;第17卷(第03期);第511-518页 *

Also Published As

Publication number Publication date
CN114968329A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US11995518B2 (en) Machine learning model understanding as-a-service
CN115412455B (zh) 一种基于时间序列的服务器多性能指标异常检测方法及装置
CN110377472B (zh) 定位芯片运行错误的方法及装置
CN109934226A (zh) 关键区域确定方法、装置及计算机可读存储介质
Cheng et al. Tuning configuration of apache spark on public clouds by combining multi-objective optimization and performance prediction model
CN116384244A (zh) 一种基于物理增强神经网络的电磁场预测方法
Huang et al. Learning a continuous and reconstructible latent space for hardware accelerator design
CN114968329B (zh) 一种自定义模型全流程管理方法
CN113486580B (zh) 在役风电机组高精度数值建模方法、服务端及存储介质
CN112684396B (zh) 电能表运行误差监测模型的数据预处理方法及系统
CN113591998A (zh) 分类模型的训练和使用方法、装置、设备以及存储介质
CN113448821B (zh) 一种识别工程缺陷的方法和装置
CN116166967B (zh) 基于元学习与残差网络的数据处理方法、设备和存储介质
CN109918237B (zh) 异常网络层确定方法及相关产品
Xiong et al. Combining the Multi‐Genetic Algorithm and Support Vector Machine for Fault Diagnosis of Bearings
CN116266109A (zh) 为程序合成训练模型的方法和装置
Azad et al. qLEET: visualizing loss landscapes, expressibility, entangling power and training trajectories for parameterized quantum circuits
JP2023537766A (ja) 自動化されたデータサイエンスプロセスのためのシステム及び方法
Gerndt et al. A multi-aspect online tuning framework for HPC applications
US11978185B1 (en) System and methods for color gamut normalization for pathology slides
Dao et al. Boosting Offline Optimizers with Surrogate Sensitivity
CN113447813B (zh) 海上风力发电机组的故障诊断方法及设备
Yu et al. KPCA-based visual fault diagnosis for nonlinear industrial process
CN116128882B (zh) 基于不平衡数据集的电机轴承故障诊断方法、设备及介质
Lazukhin et al. Investigation and Development of Recursive Neural Networks for the Analysis of Industrial Processes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant