CN113110833A - 机器学习模型可视化建模方法、装置、设备及存储介质 - Google Patents

机器学习模型可视化建模方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113110833A
CN113110833A CN202110409984.9A CN202110409984A CN113110833A CN 113110833 A CN113110833 A CN 113110833A CN 202110409984 A CN202110409984 A CN 202110409984A CN 113110833 A CN113110833 A CN 113110833A
Authority
CN
China
Prior art keywords
modeling
model
machine learning
component
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110409984.9A
Other languages
English (en)
Inventor
王小东
吕文勇
廖浩
沈诗豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu New Hope Finance Information Co Ltd
Original Assignee
Chengdu New Hope Finance Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu New Hope Finance Information Co Ltd filed Critical Chengdu New Hope Finance Information Co Ltd
Priority to CN202110409984.9A priority Critical patent/CN113110833A/zh
Publication of CN113110833A publication Critical patent/CN113110833A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/35Creation or generation of source code model driven

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请提供一种机器学习模型可视化建模方法、装置、设备及存储介质,涉及机器学习技术领域。所述方法包括:在建模组件中确定所建机器学习模型对应的多个指定建模组件;修改动态表单展示的多个指定建模组件的组件参数,以确定每个指定建模组件的参数设置;确定多个指定建模组件之间的连接关系,基于连接关系生成有向无环图;基于训练数据和有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得机器学习模型。则用户只需要关注建模流程和调整参数便可完成模型的开发,提高了机器学习建模自动化程度和可视化程度,从而提高了其效率和简便性。

Description

机器学习模型可视化建模方法、装置、设备及存储介质
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种机器学习模型可视化建模方法、装置、设备及存储介质。
背景技术
得益于人工智能(Artificial Intelligence,AI)的快速发展,各行各业都在基于AI技术提升自己的生产效率和业务转换率,将一些大量重复性的劳动基于AI算法应用取代,随着应用场景的不断细化,模型的开发速度赶不上需求。
算法开发是一个高门槛的技术,需要有一定的算法理论知识,也需要有一定的代码能力,还得熟悉算法编程语言和一些算法开发框架,既能做算法理论突破,还能落地。由于开发难度大,同时AI人才也稀少,但是应用场景多,所以需要一种快速开发算法模型的工具,降低开发算法的门槛,提升开发算法的效率。
目前市面上有一些算法建模系统,但大都是软件,需要安装,使用起来繁琐,集成的算法很有限,一些新的机器学习算法并没有集成进来,模型训练的过程无法可视化,训练每一步的结果也无法直接展示。也有一些建模系统是某一个领域的定制化,或者是把一些简单的建模流程进行了自动化,自动化的程度很低,不具有普适性。
发明内容
有鉴于此,本申请实施例的目的在于提供一种机器学习模型可视化建模方法、装置、设备及存储介质,以改善现有技术中存在的机器学习建模自动化程度和可视化程度低的问题。
本申请实施例提供了一种机器学习模型可视化建模方法,所述方法包括:在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;修改动态表单展示的所述多个指定建模组件的组件参数,以确定所述多个指定建模组件中的每个指定建模组件的参数设置;确定所述多个指定建模组件之间的连接关系,基于已完成参数设置的所述多个指定建模组件之间的所述连接关系生成有向无环图;基于训练数据和所述有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得所述机器学习模型。
在上述实现方式中,通过建模组件集成机器学习算法,并通过动态表单实现组件参数修改,用户只需要关注建模流程和调整参数便可完成模型的开发,提高了机器学习建模自动化程度和可视化程度,从而提高了其效率和简便性。
可选地,在所述在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件之前,所述方法还包括:将机器模型建模的相关功能函数确定为建模组件,所述相关功能函数包括数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数中的至少一种;基于所述动态表单设置每个所述建模组件的组件参数的形式;确定每个所述建模组件的所述组件参数之间的联动性;通过Vue.js,基于所述组件参数的形式和所述联动性实现所述每个所述建模组件的动态表单加载。
在上述实现方式中,将机器学习模型中常用的数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数封装为建模组件,并设置其参数为动态表单模式加载,从而使用户能够基于具体需求选取对应功能的建模组件,并通过动态表单简便地进行建模组件的参数配置,从而提高了机器学习模型的建模效率和简便性。
可选地,所述基于动态表单设置每个所述建模组件的组件参数的形式,包括:将每个所述建模组件的组件参数划分为字段设置、参数设置和执行调优;分别通过一个所述动态表单展示所述字段设置、所述参数设置和所述执行调优对应的参数格式,所述参数格式由一个或多个标签组成,每个标签包括标签文本提示和标签类型。
在上述实现方式中,通过字段设置、参数设置和执行调优对建模组件的组件参数进行展示,且通过不同标签展示不同的参数格式,从而更加直观地向用户展示出具体参数详情,同时易于用户进行操作。
可选地,在所述基于训练数据和所述有向无环图对应的模型流图进行模型训练之前,所述方法还包括:获取所述训练数据。
在上述实现方式中,训练数据的获取处理是模型训练的必要步骤,为后续模型训练作为基础。
可选地,所述获取所述训练数据,包括:获取用户上传的待处理训练数据;对所述待处理训练数据进行数据集管理处理;对数据集管理处理后的所述待处理训练数据进行标注,以获得所述训练数据。
在上述实现方式中,通过对用户上传数据的数据集管理和标注,保证了训练数据的训练可用性,从而提高了训练生成模型的准确性。
可选地,所述基于训练数据和所述有向无环图对应的模型流图进行模型训练,包括:根据所述有向无环图配置的所述模型流图,生成节点和边的关系,所述节点包括建模组件的名称和参数设置,所述边的关系包括节点和节点之间的连接关系;按照所述有向无环图中的节点顺序,依次执行每个节点对应的相关功能函数方法,以基于所述训练数据进行模型训练。
在上述实现方式中,基于有向无环图中各建模组件对应的节点之间的关系进行模型的模型流图配置,然后按照节点顺序进行功能函数方法的执行从而完成模型训练,实现了机器学习模型训练的自动化和可视化。
可选地,所述方法还包括:使用训练获得的所述机器学习模型对验证样本进行推理,以获得推理结果;基于所述推理结果计算真正类率、假正类率、真负类率和假负类率;通过echarts基于所述真正类率、所述假正类率、所述真负类率和所述假负类率进行曲线渲染并在所述前端显示页面展示所述曲线,所述曲线包括KS曲线、ROC曲线和/或PR曲线;通过tooltip.js对所述前端显示页面被选取的数据指标进行数值展示,并采用画散点图能力对所述数据指标的曲线进行渲染并显示。
在上述实现方式中,将模型的常用评估手段在前端显示页面进行显示,便于查看模型的阈值、指标值等,同时能够对具体的值进行细节化显示而不是仅仅输出曲线图形,从而提高了模型评估数据的可视化程度。
本申请实施例还提供了一种机器学习模型可视化建模装置,所述装置包括:建模组件确定模块,用于在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;参数修改模块,用于修改动态表单展示的所述多个指定建模组件的组件参数,以确定所述多个指定建模组件中的每个指定建模组件的参数设置;有向无环图生成模块,用于确定所述多个指定建模组件之间的连接关系,基于已完成参数设置的所述多个指定建模组件之间的所述连接关系生成有向无环图;模型训练模块,用于基于训练数据和所述有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得所述机器学习模型。
在上述实现方式中,通过建模组件集成机器学习算法,并通过动态表单实现组件参数修改,用户只需要关注建模流程和调整参数便可完成模型的开发,提高了机器学习建模自动化程度和可视化程度,从而提高了其效率和简便性。
可选地,所述机器学习模型可视化建模装置还包括:建模组件封装模块,用于将机器模型建模的相关功能函数确定为建模组件,所述相关功能函数包括数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数中的至少一种;基于所述动态表单设置每个所述建模组件的组件参数的形式;确定每个所述建模组件的所述组件参数之间的联动性;通过Vue.js,基于所述组件参数的形式和所述联动性实现所述每个所述建模组件的动态表单加载。
在上述实现方式中,将机器学习模型中常用的数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数封装为建模组件,并设置其参数为动态表单模式加载,从而使用户能够基于具体需求选取对应功能的建模组件,并通过动态表单简便地进行建模组件的参数配置,从而提高了机器学习模型的建模效率和简便性。
可选地,所述建模组件封装模块具体用于:将每个所述建模组件的组件参数划分为字段设置、参数设置和执行调优;分别通过一个所述动态表单展示所述字段设置、所述参数设置和所述执行调优对应的参数格式,所述参数格式由一个或多个标签组成,每个标签包括标签文本提示和标签类型。
在上述实现方式中,通过字段设置、参数设置和执行调优对建模组件的组件参数进行展示,且通过不同标签展示不同的参数格式,从而更加直观地向用户展示出具体参数详情,同时易于用户进行操作。
可选地,所述机器学习模型可视化建模装置还包括:训练数据获取模块,用于获取所述训练数据。
在上述实现方式中,训练数据的获取处理是模型训练的必要步骤,为后续模型训练作为基础。
可选地,所述训练数据获取模块具体用于:获取用户上传的待处理训练数据;对所述待处理训练数据进行数据集管理处理;对数据集管理处理后的所述待处理训练数据进行标注,以获得所述训练数据。
在上述实现方式中,通过对用户上传数据的数据集管理和标注,保证了训练数据的训练可用性,从而提高了训练生成模型的准确性。
可选地,所述模型训练模块具体用于:根据所述有向无环图配置的所述模型流图,生成节点和边的关系,所述节点包括建模组件的名称和参数设置,所述边的关系包括节点和节点之间的连接关系;按照所述有向无环图中的节点顺序,依次执行每个节点对应的相关功能函数方法,以基于所述训练数据进行模型训练。
在上述实现方式中,基于有向无环图中各建模组件对应的节点之间的关系进行模型的模型流图配置,然后按照节点顺序进行功能函数方法的执行从而完成模型训练,实现了机器学习模型训练的自动化和可视化。
可选地,所述机器学习模型可视化建模装置还包括:模型评估模块,用于使用训练获得的所述机器学习模型对验证样本进行推理,以获得推理结果;基于所述推理结果计算真正类率、假正类率、真负类率和假负类率;通过echarts基于所述真正类率、所述假正类率、所述真负类率和所述假负类率进行曲线渲染并在所述前端显示页面展示所述曲线,所述曲线包括KS曲线、ROC曲线和/或PR曲线;通过tooltip.js对所述前端显示页面被选取的数据指标进行数值展示,并采用画散点图能力对所述数据指标的曲线进行渲染并显示。
在上述实现方式中,将模型的常用评估手段在前端显示页面进行显示,便于查看模型的阈值、指标值等,同时能够对具体的值进行细节化显示而不是仅仅输出曲线图形,从而提高了模型评估数据的可视化程度。
本申请实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行上述任一实现方式中的步骤。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述任一实现方式中的步骤。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种训练数据获取步骤的流程示意图。
图2为本申请实施例提供的一种建模组件封装步骤的流程示意图。
图3为本申请实施例提供的一种建模组件的组件参数的显示示意图。
图4为本申请实施例提供的一种机器学习模型可视化建模方法的流程示意图。
图5为本申请实施例提供的一种建模组件选择区域和建模编辑区域的显示示意图。
图6为本申请实施例提供的一种机器学习模型可视化建模装置的模块示意图。
图标:20-机器学习模型可视化建模装置;21-建模组件确定模块;22-参数修改模块;23-有向无环图生成模块;24-模型训练模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
本申请提供了一种机器学习模型可视化建模方法,请参考图1,图1为本申请实施例提供的一种机器学习模型可视化建模方法的流程示意图,该机器学习模型可视化建模方法的具体步骤可以如下:
首先,训练数据的获取和处理是机器学习模型训练的基础,本实施例中可以对用户上传的数据进行数据集管理和标注,请参考图1,图1为本申请实施例提供的一种训练数据获取步骤的流程示意图,该训练数据获取步骤可以如下:
步骤S111:获取用户上传的待处理训练数据。
可选地,该待处理训练数据可以是结构化的数据,也可以是非结构化的文本,图像,语音,视频等数据。
步骤S112:对待处理训练数据进行数据集管理处理。
可选地,本实施例中可以是基于MySQL(关系型数据库管理系统)或者OSS(ObjectStorage Service,对象存储)等数据库软件进行数据集管理,例如通过MySQL存储结构化的数据,通过OSS存储结构化和非结构化的数据。
其中,MySQL中可以导入表,字段,和数据,也可以从Csv或者Excel把数据根据一定格式导入到数据库中。OSS中可以存储结构化的Csv/Excel数据、图片数据、文本数据或者语音数据,基于目录进行数据管理,可自定义OSS的目录结构,一个用户进入OSS默认根据其用户名,创建一个OSS目录。
步骤S113:对数据集管理处理后的待处理训练数据进行标注,以获得训练数据。
建模依赖的数据可以是结构化的数据,也可以是非结构化的文本,图像,语音,视频等数据,如果数据进行了标注,则不需要对数据进行标注,如果数据未标注,则需要对数据进行标注,标注时根据数据类型不同,其标注实现的逻辑也不同。
对于图像类的标注,可以用多边形功能进行某一个物体的标注,也可以对整幅图进行标注,也可以对图像中的文本等进行标注。对于语音的标注,可以选择一段语音,标注其对应的汉字,或者标注其语音的分类等,对于视频的标注,可以对视频选择一段子视频进行类别的标注等,对于结构化数据的标注,可以为某一行标注一个类别等。
应当理解的是,在进行建模组件的选取之前,需要对机器模型建模的相关功能函数进行封装以获得可用的建模组件,请参考图2,图2为本申请实施例提供的一种建模组件封装步骤的流程示意图,该建模组件封装步骤具体可以如下:
步骤S114:将机器模型建模的相关功能函数确定为建模组件。
上述相关功能函数包括数据预处理、统计分析、机器学习、强化学习、文本分析、金融板块和网络分析的功能函数中的至少一种,有的组件是终结组件,有的组件是开始组件,对各种建模组件进行分类。
步骤S115:基于动态表单设置每个建模组件的组件参数的形式。
请参考图3,图3为本申请实施例提供的一种建模组件的组件参数的显示示意图。
可选地,组件参数的形式可以被抽象为字段设置、参数设置和执行调优三种格式。
建模组件不同,其需要调节的参数不同,则其参数的格式和数量也不同。本实施例分别通过一个动态表单展示一个建模组件中的字段设置、参数设置和执行调优对应的参数格式,每个参数格式由一个或多个标签组成,每个标签包括标签文本提示和标签类型。
具体地,每个标签的文本提示和标签类型具体格式如下:id表示每一个标签的id号,name表示标签的名字,value为标签的值,type表示标签的类型(例如select标签、input标签、labelColSelect标签、checkbox标签等),placeholder为占位符,tooltip为标签提示,longTooltip为长文本标签提示,options表示标签是否是选择按钮,groupName是标签的分组名,tabId为组件参数的标识,sequence为每个组件参数排序的位置序号,isRequired表示标签是否必须,isIndented表示标签标识,isDisabled表示标签是否失效,defaultValue标签的默认值。
示例性地,其代码表现形式可以如下:
Figure BDA0003022543310000091
Figure BDA0003022543310000101
Figure BDA0003022543310000111
步骤S116:确定每个建模组件的组件参数之间的联动性。
例如选择了模型类型后,有的标签就需要隐藏或者显示,这个通过建立组件参数中的标签id之间的联动性实现,如下所示,id是标识一组联动关系,fromId是起始标签id,toId表示目的标签id,value表示值是否显示,relation表示标签之间的联动是显示还是隐藏。
示例性地,其代码表现形式可以如下:
{
"id":11120,
"fromId":2011,
"toId":1493,
"value":"true",
"relation":"show"
}
步骤S117:通过Vue.js,基于组件参数的形式和联动性实现每个建模组件的动态表单加载。
具体地,本实施例可以通过formData这个外部传入的对象来对数据进行统一的设置与读取,其代码示例为:<dynamic-form:field-map="fieldMap":form-data="formData"/>。然后用dynamic-form加载动态表单。则如果对建模组件参数的展示样式进行修改,则直接修改json结构就可以快速完成修改。
接下来可以执行机器学习模型可视化建模方法中的主要流程步骤,请参考图4,图4为本申请实施例提供的一种机器学习模型可视化建模方法的流程示意图,其具体可以步骤如下:
步骤S12:在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件。
可选地,本实施例中对建模组件的选取在前端显示页面的显示可以如图5所示,左侧为建模组件选择区域,用户通过点击、拖拽等操作将指定建模组件选取并移动至右侧的有向无环图显示区域即建模编辑区域中,即可完成指定建模组件的确定。
步骤S14:修改动态表单展示的多个指定建模组件的组件参数,以确定多个指定建模组件中的每个指定建模组件的参数设置。
可选地,本实施例中对组件参数在前端显示页面的显示可以如图2所示,该基于动态表单的组件参数可以显示在上述有向无环图显示区域的右侧,作为参数配置区域。
下面以开发评分卡为例对建模组件的配置过程进行说明,评分卡的建模过程主要有:训练数据读取、数据划分、数据分箱、评分卡训练、评分卡测试和模型评估,则其建模组件的配置过程具体可以如下:
步骤a.在建模组件选择区域的数据读取组件里,选取一个读数据表组件拖拽至建模编辑区域,在右边的参数配置区域选择表存储路径,这个数据路径是数据集管理页面建立的数据,以读数据表组件主要读取建模需要的数据。
步骤b.在建模组件选择区域的数据预处理组件里,选取一个拆分组件拖拽至建模编辑区域,在右边的参数配置区域里,配置拆分方式和拆分比例,把步骤a和步骤b选取的建模组件用箭头链接。
其中,数据拆分组件主要是对数据集进行划分,用于训练、测试、验证,或者计算模型稳定性等。
步骤c.在建模组件选择区域的数据预处理组件里,选取一个分箱组件拖拽至建模编辑区域,在参数配置区域的字段设置里选择字段列、标签列和分箱参数配置,在参数设置里配置分箱格式和分箱方式等,把步骤b和步骤c选取的建模组件用箭头链接。
其中,数据分箱组件主要是对数据进行分箱操作,可以自定义分箱,手动分箱也可以自动分箱等。
步骤d.在建模组件选择区域的数据预处理组件里,选取一个样本稳定性评估组件拖拽至建模编辑区域,在参数配置区域的字段设置里配置评估的字段,把步骤b和步骤d选取的建模组件用箭头链接,把步骤c和步骤d选取的建模组件用箭头进行链接。
其中,样本稳定性评估组件主要是对数据做PSI(Population Stability Index,群体稳定性指标)稳定性判定和模型稳定性评估。
步骤e.在建模组件选择区域的机器学习组件里,选取一个评分卡模型组件拖拽至建模编辑区域,在参数配置区域的字段设置里选择标签列盒填写标签值等,在参数设置里选择模型算法类型、特征工程方法、特征选择方法和分数转换等,把步骤b和步骤e选取的建模组件用箭头进行链接,把步骤c和步骤e选取的建模组件用箭头进行链接。
其中,评分卡模型组件主要是用于训练评分卡模型,使用一些算法和特征工程等。
步骤f.在建模组件选择区域的模型评估组件里,选取一个评分卡预测组件拖拽至建模编辑区域,在参数配置区域的字段设置里选择标签列,把步骤e和步骤f选取的建模组件用箭头进行链接。
其中,评分卡预测组件主要是把预测数据,验证数据作用于训练出的模型进行预测,确定模型的预测能力和识别能力。
步骤g.在建模组件选择区域的模型评估组件里,选取一个二分类评估组件拖拽至建模编辑区域,在参数配置区域的字段设置里,配置分数列列名、标签列、正样本标签值、KS和PR等分频指标的桶数、分组列明等,把步骤f和步骤g选取的建模组件进行链接。
其中,二分类评估组件主要是对评估模型好坏的各项指标进行可视化显示。
应当理解的是,上述步骤a至步骤g的评分卡模型的开发流程是一种示例,在用户对模型有其他需求时,可以通过对建模组件的选取、拖拽以及参数配置灵活进行。
步骤S16:确定多个指定建模组件之间的连接关系,基于已完成参数设置的多个指定建模组件之间的连接关系生成有向无环图。
具体地,步骤S16包括如下子步骤:
步骤S161:根据有向无环图配置的模型流图,生成节点和边的关系。
节点包括建模组件的名称和参数设置,边的关系包括节点和节点之间的连接关系。
步骤S162:按照有向无环图中的节点顺序,依次确定每个节点对应的相关功能函数方法。
可选地,节点的结构可以如下:uuid表示节点的唯一标识,codeName表示节点名,originAlgoName表示节点方法名,originInstanceId表示节点实例ID,posX和posY表示节点在屏幕的位置,isModel表示是不是模型节点,params是节点的参数。
步骤S18:基于训练数据和有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得机器学习模型。
应当理解的是,本实施例中可以将步骤S161和步骤S162执行的步骤归入步骤S18的模型训练流程中,也可以是步骤S18仅仅是按照有向无环图中的节点顺序,依次执行每个节点对应的相关功能函数方法,以输入训练数据进行模型训练。
具体地,对于节点中的每一个方法,如果originAlgoName是读取数据,则组装params参数,调用originAlgoName对应的方法读取数据,如果是数据预处理方法,则进行数据预处理方法的调用,依次类推。该节点执行的代码示例可以如下:
Figure BDA0003022543310000151
可选地,本实施例还可以对每个节点的计算过程,进行日志打印;如果是方法调用,则打印方法调用的关键步骤;如果是数据读取,则打印记录数据的前100行;如果是算法调用,则记录算法的执行过程;日志的格式按照节点的uuid进行记录,这样可以根据uuid进行日志查找。则可完成模型训练过程的记录,方便进行可视化操作。
可选地,本实施例可以采用G6图可视化引擎的动态边功能对模型训练的过程前端显示页面进行可视化显示,例如显示当前执行流程的建模组件或节点。具体地,对有向无环图的边加入特效,让箭头一直动态运动,从而直观的看到训练到哪一个环节。
其中,G6是一个简单、易用、完备的图可视化引擎,它在高定制能力的基础上,提供了一系列设计优雅、便于使用的图可视化解决方案。能帮助开发者搭建属于自己的图分析应用或是图编辑器应用。基于G6可新增或自定义组件节点,节点之间连线简单,方便易用,开发算法保障图无环路,节点和节点的边上可配置分支条件,可配置属性和样式。
进一步地,本实施例的机器学习模型可视化建模方法在机器学习模型建立后,还可以对其进行模型评估。
模型的评估主要是对模型的性能、预测能力、稳定性、泛化能力、模型效果和模型好坏等进行理论上的评估,评估的指标有ROC(受试者工作特征曲线),KS(洛伦兹曲线),PR(精确度和召回率)等,常见的模型评估最多就是输出一个曲线图片,能看到大概值,不能鼠标放上去看到具体的值,也并没有显示到前端,评估曲线看起不直观。
可选地,本实施例中的模型评估步骤可以如下:
步骤S191:使用训练获得的机器学习模型对验证样本进行推理,以获得推理结果。
步骤S192:基于推理结果计算真正类率、假正类率、真负类率和假负类率。
可选地,本实施例中可以采用Python计算出真正类率、假正类率、真负类率和假负类率的值,并写成接口返回数据。
步骤S193:通过echarts基于真正类率、假正类率、真负类率和假负类率进行曲线渲染并在前端显示页面展示曲线,曲线包括KS曲线、ROC曲线和/或PR曲线。
真正类率即True Positive Rate(TPR),基于TPR,PR曲线表示预测为正类并且实际是正类的实例的个数占总体中正实例的比例,因此也称为灵敏度Sensitivity。
假正类率即False Positive Rate(FPR),表示预测为正类并且实际是负类的实例的个数占总体中所有负类的比例,因此也称之为特异度。
真负类率即True Negative Rate(TNR),表示预测为负类并且实际是负类的实例的个数占总体中负实例的比例,因此也称为specific。
假负类率即False Negative Rate(FNR),表示预测为负类并且实际为正例的个数占总体中的所有正类的个数。
步骤S194:通过tooltip.js对前端显示页面被选取的数据指标进行数值展示,并采用画散点图能力对数据指标的曲线进行渲染并显示。
为了配合本实施例提供的上述机器学习模型可视化建模方法,本申请实施例还提供了一种机器学习模型可视化建模装置20,请参考图6,图6为本申请实施例提供的一种机器学习模型可视化建模装置的模块示意图。
机器学习模型可视化建模装置20包括:
建模组件确定模块21,用于在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;
参数修改模块22,用于修改动态表单展示的多个指定建模组件的组件参数,以确定多个指定建模组件中的每个指定建模组件的参数设置;
有向无环图生成模块23,用于确定多个指定建模组件之间的连接关系,基于已完成参数设置的多个指定建模组件之间的连接关系生成有向无环图;
模型训练模块24,用于基于训练数据和有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得机器学习模型。
可选地,机器学习模型可视化建模装置20还包括:建模组件封装模块,用于将机器模型建模的相关功能函数确定为建模组件,相关功能函数包括数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数中的至少一种;基于动态表单设置每个建模组件的组件参数的形式;确定每个建模组件的组件参数之间的联动性;通过Vue.js,基于组件参数的形式和联动性实现每个建模组件的动态表单加载。
可选地,建模组件封装模块具体用于:将每个建模组件的组件参数划分为字段设置、参数设置和执行调优;分别通过一个动态表单展示字段设置、参数设置和执行调优对应的参数格式,参数格式由一个或多个标签组成,每个标签包括标签文本提示和标签类型。
可选地,机器学习模型可视化建模装置20还包括:训练数据获取模块,用于获取训练数据。
可选地,训练数据获取模块具体用于:获取用户上传的待处理训练数据;对待处理训练数据进行数据集管理处理;对数据集管理处理后的待处理训练数据进行标注,以获得训练数据。
可选地,模型训练模块24具体用于:根据有向无环图配置的模型流图,生成节点和边的关系,节点包括建模组件的名称和参数设置,边的关系包括节点和节点之间的连接关系;按照有向无环图中的节点顺序,依次执行每个节点对应的相关功能函数方法,以基于训练数据进行模型训练。
可选地,机器学习模型可视化建模装置20还包括:模型评估模块,用于使用训练获得的机器学习模型对验证样本进行推理,以获得推理结果;基于推理结果计算真正类率、假正类率、真负类率和假负类率;通过echarts基于真正类率、假正类率、真负类率和假负类率进行曲线渲染并在前端显示页面展示曲线,曲线包括KS曲线、ROC曲线和/或PR曲线;通过tooltip.js对前端显示页面被选取的数据指标进行数值展示,并采用画散点图能力对数据指标的曲线进行渲染并显示。
本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器读取并运行所述程序指令时,执行本实施例提供的机器学习模型可视化建模方法中任一项所述方法中的步骤。
应当理解是,该电子设备可以是个人电脑(Personal Computer,PC)、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等具有逻辑计算功能的电子设备。
本申请实施例还提供了一种可读取存储介质,所述可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行机器学习模型可视化建模方法中的步骤。
综上所述,本申请实施例提供了一种机器学习模型可视化建模方法、装置、设备及存储介质,所述方法包括:在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;修改动态表单展示的所述多个指定建模组件的组件参数,以确定所述多个指定建模组件中的每个指定建模组件的参数设置;确定所述多个指定建模组件之间的连接关系,基于已完成参数设置的所述多个指定建模组件之间的所述连接关系生成有向无环图;基于训练数据和所述有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得所述机器学习模型。
在上述实现方式中,通过建模组件集成机器学习算法,并通过动态表单实现组件参数修改,用户只需要关注建模流程和调整参数便可完成模型的开发,让用户像搭积木一样快速建立一个算法模型,不用编写代码,只需要进行组件的编排和组件参数的配置即可,交互性较好,同时模型训练的过程可视化,可以看到每一步的训练结果,并对模型的评估指标进行了前端可视化,鼠标移动上去便可以看到指标结果和阈值等,大大方便了用户进行算法开发,降低了模型开发的门槛,提升了建模的效率,可用于任何领域的建模,用户只需要熟悉建模流程便可完成一个模型的开发。从而提高了机器学习建模自动化程度和可视化程度,从而提高了其效率和简便性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行区块数据存储方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RanDom Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种机器学习模型可视化建模方法,其特征在于,所述方法包括:
在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;
修改动态表单展示的所述多个指定建模组件的组件参数,以确定所述多个指定建模组件中的每个指定建模组件的参数设置;
确定所述多个指定建模组件之间的连接关系,基于已完成参数设置的所述多个指定建模组件之间的所述连接关系生成有向无环图;
基于训练数据和所述有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得所述机器学习模型。
2.根据权利要求1所述的方法,其特征在于,在所述在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件之前,所述方法还包括:
将机器模型建模的相关功能函数确定为建模组件,所述相关功能函数包括数据预处理、统计分析、机器学习、强化学习、文本分析和网络分析的功能函数中的至少一种;
基于所述动态表单设置每个所述建模组件的组件参数的形式;
确定每个所述建模组件的所述组件参数之间的联动性;
通过Vue.js,基于所述组件参数的形式和所述联动性实现所述每个所述建模组件的动态表单加载。
3.根据权利要求2所述的方法,其特征在于,所述基于所述动态表单设置每个所述建模组件的组件参数的形式,包括:
将每个所述建模组件的组件参数划分为字段设置、参数设置和执行调优;
分别通过一个所述动态表单展示所述字段设置、所述参数设置和所述执行调优对应的参数格式,所述参数格式由一个或多个标签组成,每个标签包括标签文本提示和标签类型。
4.根据权利要求1所述的方法,其特征在于,在所述基于训练数据和所述有向无环图对应的模型流图进行模型训练之前,所述方法还包括:
获取所述训练数据。
5.根据权利要求4所述的方法,其特征在于,所述获取所述训练数据,包括:
获取用户上传的待处理训练数据;
对所述待处理训练数据进行数据集管理处理;
对数据集管理处理后的所述待处理训练数据进行标注,以获得所述训练数据。
6.根据权利要求1所述的方法,其特征在于,所述基于训练数据和所述有向无环图对应的模型流图进行模型训练,包括:
根据所述有向无环图配置的所述模型流图,生成节点和边的关系,所述节点包括建模组件的名称和参数设置,所述边的关系包括节点和节点之间的连接关系;
按照所述有向无环图中的节点顺序,依次执行每个节点对应的相关功能函数方法,以基于所述训练数据进行模型训练。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用训练获得的所述机器学习模型对验证样本进行推理,以获得推理结果;
基于所述推理结果计算真正类率、假正类率、真负类率和假负类率;
通过echarts基于所述真正类率、所述假正类率、所述真负类率和所述假负类率进行曲线渲染并在所述前端显示页面展示所述曲线,所述曲线包括KS曲线、ROC曲线和/或PR曲线;
通过tooltip.js对所述前端显示页面被选取的数据指标进行数值展示,并采用画散点图能力对所述数据指标的曲线进行渲染并显示。
8.一种机器学习模型可视化建模装置,其特征在于,所述装置包括:
建模组件确定模块,用于在预设的建模组件中确定当前所建机器学习模型对应的多个指定建模组件;
参数修改模块,用于修改动态表单展示的所述多个指定建模组件的组件参数,以确定所述多个指定建模组件中的每个指定建模组件的参数设置;
有向无环图生成模块,用于确定所述多个指定建模组件之间的连接关系,基于已完成参数设置的所述多个指定建模组件之间的所述连接关系生成有向无环图;
模型训练模块,用于基于训练数据和所述有向无环图对应的模型流图进行模型训练,并在前端显示页面基于图可视化引擎标示当前执行训练的指定建模组件,以获得所述机器学习模型。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器中存储有程序指令,所述处理器运行所述程序指令时,执行权利要求1-7中任一项所述方法中的步骤。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器运行时,执行权利要求1-7任一项所述方法中的步骤。
CN202110409984.9A 2021-04-15 2021-04-15 机器学习模型可视化建模方法、装置、设备及存储介质 Pending CN113110833A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110409984.9A CN113110833A (zh) 2021-04-15 2021-04-15 机器学习模型可视化建模方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110409984.9A CN113110833A (zh) 2021-04-15 2021-04-15 机器学习模型可视化建模方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113110833A true CN113110833A (zh) 2021-07-13

Family

ID=76717724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110409984.9A Pending CN113110833A (zh) 2021-04-15 2021-04-15 机器学习模型可视化建模方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113110833A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721895A (zh) * 2021-11-02 2021-11-30 树根互联股份有限公司 应用建模方法、系统、装置、计算机设备及可读存储介质
CN114266324A (zh) * 2021-12-30 2022-04-01 智慧眼科技股份有限公司 模型可视化建模方法、装置、计算机设备及存储介质
CN114546365A (zh) * 2022-04-27 2022-05-27 北京寄云鼎城科技有限公司 一种流程可视化的建模方法、服务器、计算机系统及介质
CN115545401A (zh) * 2022-08-26 2022-12-30 广州市规划和自然资源自动化中心(广州市基础地理信息中心) 基于可视化指标模型配置的城市体检评估方法、系统及计算机设备
WO2023115570A1 (zh) * 2021-12-24 2023-06-29 深圳晶泰科技有限公司 机器学习模型的管理方法、装置、计算机设备及存储介质
CN116756232A (zh) * 2023-08-17 2023-09-15 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统
WO2024051853A1 (zh) * 2022-09-09 2024-03-14 第四范式(北京)技术有限公司 建模方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3239835A1 (en) * 2016-04-29 2017-11-01 Accenture Global Solutions Limited System architecture with visual modeling tool for designing and deploying complex models to distributed computing clusters
CN108985155A (zh) * 2018-06-06 2018-12-11 平安科技(深圳)有限公司 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质
CN110991649A (zh) * 2019-10-28 2020-04-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 深度学习模型搭建方法、装置、设备和存储介质
CN111310936A (zh) * 2020-04-15 2020-06-19 光际科技(上海)有限公司 机器学习训练的构建方法、平台、装置、设备及存储介质
CN112001442A (zh) * 2020-08-24 2020-11-27 北京达佳互联信息技术有限公司 特征检测方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3239835A1 (en) * 2016-04-29 2017-11-01 Accenture Global Solutions Limited System architecture with visual modeling tool for designing and deploying complex models to distributed computing clusters
CN108985155A (zh) * 2018-06-06 2018-12-11 平安科技(深圳)有限公司 嘴巴模型训练方法、嘴巴识别方法、装置、设备及介质
CN110991649A (zh) * 2019-10-28 2020-04-10 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 深度学习模型搭建方法、装置、设备和存储介质
CN111310936A (zh) * 2020-04-15 2020-06-19 光际科技(上海)有限公司 机器学习训练的构建方法、平台、装置、设备及存储介质
CN112001442A (zh) * 2020-08-24 2020-11-27 北京达佳互联信息技术有限公司 特征检测方法、装置、计算机设备及存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721895A (zh) * 2021-11-02 2021-11-30 树根互联股份有限公司 应用建模方法、系统、装置、计算机设备及可读存储介质
CN113721895B (zh) * 2021-11-02 2022-03-29 树根互联股份有限公司 应用建模方法、系统、装置、计算机设备及可读存储介质
WO2023115570A1 (zh) * 2021-12-24 2023-06-29 深圳晶泰科技有限公司 机器学习模型的管理方法、装置、计算机设备及存储介质
CN114266324A (zh) * 2021-12-30 2022-04-01 智慧眼科技股份有限公司 模型可视化建模方法、装置、计算机设备及存储介质
CN114546365A (zh) * 2022-04-27 2022-05-27 北京寄云鼎城科技有限公司 一种流程可视化的建模方法、服务器、计算机系统及介质
CN114546365B (zh) * 2022-04-27 2022-07-26 北京寄云鼎城科技有限公司 一种流程可视化的建模方法、服务器、计算机系统及介质
CN115545401A (zh) * 2022-08-26 2022-12-30 广州市规划和自然资源自动化中心(广州市基础地理信息中心) 基于可视化指标模型配置的城市体检评估方法、系统及计算机设备
WO2024051853A1 (zh) * 2022-09-09 2024-03-14 第四范式(北京)技术有限公司 建模方法、装置、设备及介质
CN116756232A (zh) * 2023-08-17 2023-09-15 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统
CN116756232B (zh) * 2023-08-17 2023-11-24 杭州比智科技有限公司 一种智能生成动态网络图的数据可视化方法及系统

Similar Documents

Publication Publication Date Title
CN113110833A (zh) 机器学习模型可视化建模方法、装置、设备及存储介质
CN106951925B (zh) 数据处理方法、装置、服务器及系统
JP4368336B2 (ja) カテゴリ設定支援方法及び装置
EP4170520A1 (en) Method and device for constructing knowledge graph, computer device, and storage medium
CN111191125A (zh) 一种基于标签化的数据分析方法
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN109426415B (zh) 一种生成级联选择器的方法及装置
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
CN109542737A (zh) 平台告警处理方法、装置、电子装置及存储介质
CN110569429A (zh) 一种内容选择模型的生成方法、装置和设备
CN115203338A (zh) 一种标签及标签实例推荐方法
CN110688844A (zh) 一种文本标注方法及装置
CN117851575A (zh) 一种大语言模型问答优化方法、装置、电子设备及存储介质
CN114093509A (zh) 信息处理方法、装置和系统
CN111435367A (zh) 知识图谱的构建方法、系统、设备及存储介质
CN111652658A (zh) 画像融合方法、装置、电子设备及计算机可读存储介质
CN115185797A (zh) 视觉算法模型的测试方法、系统、电子设备及存储介质
CN117077679B (zh) 命名实体识别方法和装置
CN111683280B (zh) 视频处理方法、装置及电子设备
CN117454877A (zh) 一种Word文档的解析方法、设备及介质
CN117573955A (zh) 一种基于大语言能力的自动题解生成方法及装置
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN114258541A (zh) 数据合并方法、装置、电子设备及存储介质
CN115759048A (zh) 一种剧本文本处理方法及装置
US20230297880A1 (en) Cognitive advisory agent

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination