CN111240662B - 一种基于任务可视化拖拽的spark机器学习系统及学习方法 - Google Patents

一种基于任务可视化拖拽的spark机器学习系统及学习方法 Download PDF

Info

Publication number
CN111240662B
CN111240662B CN202010059133.1A CN202010059133A CN111240662B CN 111240662 B CN111240662 B CN 111240662B CN 202010059133 A CN202010059133 A CN 202010059133A CN 111240662 B CN111240662 B CN 111240662B
Authority
CN
China
Prior art keywords
component
data
machine learning
flow
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010059133.1A
Other languages
English (en)
Other versions
CN111240662A (zh
Inventor
张文华
段飞虎
印东敏
马学冬
冯自强
张宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Tongfang Knowledge Network Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd, Tongfang Knowledge Network Beijing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN202010059133.1A priority Critical patent/CN111240662B/zh
Publication of CN111240662A publication Critical patent/CN111240662A/zh
Application granted granted Critical
Publication of CN111240662B publication Critical patent/CN111240662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/30Creation or generation of source code
    • G06F8/34Graphical or visual programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于任务可视化拖拽的spark机器学习系统及方法,该系统包括流程设计器、流程解析器与流程调度器;所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。

Description

一种基于任务可视化拖拽的spark机器学习系统及学习方法
技术领域
本发明涉及机器学习、数据挖掘、流程控制技术领域,尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。
背景技术
随着数据的积累以及数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力往外输出,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,未来随着算法和计算能力的发展,机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。
现有的机器学习模型的构建流程较为复杂,需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载,而且学习成本也比较高,每个模块都需要编码和调试,对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。
本发明的目的通过以下的技术方案来实现:
一种基于任务可视化拖拽的spark机器学习系统,包括:包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
一种基于任务可视化拖拽的spark机器学习方法,包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本系统提供了可视化拖拽的spark机器学习组件,可以针对具体的业务,拖拽组件,构建数据处理流程,系统一键安装,高效易用,大幅度降低了企业引入数据挖掘系统的成本。能够帮助银行、电商、餐饮、证券公司快速寻找潜在的客户群体,实现最大化营销效果,能够建立高效的分析预警模型,降低企业风险。
附图说明
图1是基于任务可视化拖拽的spark机器学习系统结构图;
图2是基于任务可视化拖拽的spark机器学习方法流程图;
图3是组件连接图;
图4是每个组件的信息图;
图5是机器学习可视化效果图;
图6是处理后的可视化效果图;
图7是基于任务可视化的机器学习任务流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于任务可视化拖拽的spark机器学习系统结构,包括流程设计器、流程解析器与流程调度器;所述流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
上述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
产品的架构分为数据源,监控和运维管理系统,可视化展示系统,监控和运维管理系统包括了数据接入系统,建模和ETL、数据处理平台、在线分析平台,可视化展示包括了web页面展示、app展示,用户管理平台包括了用户权限控制、分组控制、模板管理。
如图2所示本实施例还提供了一种基于任务可视化拖拽的spark机器学习方法,该方法包括以下步骤:
步骤10将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
步骤20解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
步骤30解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
数据源组件的作用是供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据、实时数据,可以接受公共数据源的直接导入,包括天气数据、人口分布数据、房地产数据,而且支持第三方接口进行直接对接,提供百度、360搜索、搜狗搜索、友盟的接口对接,另外对于业务数据库例如Mysql、Oracle、SqlServer的对接,支持自定义API对接,例如日志数据、业务数据、大数据文件,支持人工数据对接,包括excel文件、csv文件。
数据预处理组件包括排序组件,用于选择特定属性列进行自定义排序,筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;重命名组件,可以对属性列进行重命名。机器学习算法组件包括了机器学习中常用到的分类、聚类、回归、关联算法,其中包括了KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类、LDA、线性回归、保序回归、曲线回归、决策树回归、随机森林回归、梯度提升树回归等算法组件。保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。图3为各组件连接图。
对于各个组件在数据库中的配置如表1所示,AnalyseComponentName列表示的是组件名,AnalyseComponentCode表示组件的类型,SparkTaskName则表示的是组件的全类名,AnalyseComponentImg表示的是可视化界面中组件的背景图片。
表1
本实施例根据用户的需求可以对公共数据进行采集,或者对数据库进行同步,将数据库中的信息作为模型训练的数据,也可以提供接口供用户自定义API进行调用,同时为了简化用户的操作,提供了文本在线上传,可以将用户自己收集好的数据直接上传进行分析。
用户可以根据自己的业务需求进行建模和ETL,最终按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表,同时本系统提供了分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储,而且包括了在线分析系统,可以在线自助分析,运营报表,数据异常告警,最终将处理的结果给用户展现在可视化的界面上,用户可以选择折线图、柱状图、饼状图对学习结果进行分析。
任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图,得到spark可执行算子队列,以及每个算子的输入和输出数据,流程图中的某个组件的输出作为后一个组件的输入,每个组件将处理结果保存在hdfs上,路径是流程图id,文件名是该组件的id,由于流程图id和组件id是唯一不重复的,所以能保证数据传输的准确性。
实现spark任务按照用户拖拽的流程执行需要设计一套任务调度算法,当用户构建好机器学习流程图后,调度算法对各个组件信息进行处理,获取每个组件的上一个节点和下一个节点,并根据节点的属性找出数据源节点,如果该节点是数据源节点,则将用户选择的数据文件或者数据库数据加载到内存中,然后上传到hdfs,路径是流程图id和数据源组件id拼接的唯一路径,然后将该路径作为下一个组件的参数作为输入,下一个组件则从这个hdfs路径下读取数据。如果组件类型是spark机器学习组件,那么就会判断组件的source组件和target组件,在任务调度的过程中,保证该组件的前一个节点执行结束后该组件才能开始执行,保证该组件执行结束后将结果数据保存在内存或者hdfs后将路径传递给下一个组件。任务流程图的组件允许过程中将运行的状态信息传递给消息队列RabbitMQ,前端界面再将运行状态信息时刻反馈给操作者,让用户能时刻监控各个组件的运行状态。
由于机器学习系统的数据文件是用户上传的,所以难以保证数据文件都是大文件,针对这种情况设计了一套解决小文件存储的技术。Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块,DataNode将数据文件拆分成多个block,每个block大小是128M,NameNode用于存储文件元数据信息,也就是描述文件的特征系统数据,包括访问权限,文件拥有者以及文件数据块的分布信息等,每个文件的元数据对象都占用了约150byte的空间,如果存储了1亿个小文件就给NameNode带来20G的内存消耗,所以解决海量小文件的存储问题对于提高系统性能有很大的帮助。
本发明将spark机器学习算法封装成了可视化、可拖拽的组件,操作者可以根据自己的业务需求定制数据分析流程,用户将需要的组件拖拽到面板,再将其按照数据的处理流程连线,然后选择数据源或者上传数据文件,再调节spark机器学习算法的属性参数即可,设置完毕后点击保存、运行,然后就可以时刻查看组件的运行状态,操作者如果将发送邮件组件也拖拽到流程图中,并设置好了接收邮箱,那么任务执行结束时会以邮件的形式通知用户。整个流程操作简便,操作者只需要在可视化界面中修改数据挖掘的参数就可以修改算法的参数,最终得到较好的训练结果。
本发明的组件之间传递的参数是通过JSON格式传递的,作为一种轻量级的数据交换格式,JSON具有良好的可读和便于快速编写的特点,而且支持在多个平台上自由切换,兼容性高,完全独立于语言文本格式。本发明将任务流程图和组件的上下位关系通过解析算法最终以xml文件的格式进行传递,xml作为一款标记性语言,用于标记电子文件,定义数据类型。
本发明各个组件的参数以JSON格式解析,配置信息如下:
{
"elasticNetParam":0.2,
"aggregationDepth":5,
"maxIter":100,
"regParam":0.01,
"threshold":0.5
}
elasticNetParam、aggregationDepth、maxIter、regParam、threshold分别是用户在前端可视化界面设置的弹性网络参数、聚合深度、最大迭代次数、正则化参数、阈值等参数,数据挖掘组件将接收到的参数解析并使用。
{
"spark-b3ff68a4-19a5-4bde-af1f-fb05b4749a6a":"distributeRole"
}
这组json数据是该组件souce组件的id信息和类型信息。
{
"batch_id":"7b9e20d6-9134-177f-fd11-1dec5b7bfe76",
"cp_name":"L1/2稀疏迭代分类",
"output_path":"/DataAnalyse/1453/output",
"input_path":"/DataAnalyse/1453/input",
"node_id":"spark-8d78bcbf-57bf-456d-9f31-ed7e9c47d3e4",
"is_output":"false"
}
batch_id代表整个流程图的id,cp_name是该组件的名字,output_path和input_path分别是组件的组件的数据源目录和处理结果输出目录,node_id是该组件的id值,is_output用于设置是否需要将该组件的处理结果保存到输出目录中。
为了将用户构建的流程图中的组件按顺序执行,本发明将组件的上下序关系写入了xml文件,如图4所示,其中包括了每个组件的详细信息,包括了组件名,运行模式(本地模式或者集群模式),程序文件全类名,jar包名,给该组件分配的硬件资源(内存、cpu core),参数信息,jar包所在路径,target组件的id等信息。
为了方便用户对机器学习算法的参数进行修改,最终得到最优的模型和结果,本系统给用户提供了可视化的参数输入界面,方便对每一个算法的每一个参数进行设置,可视化效果如图5所示。
为了方便用户对文本数据进行处理,本系统加入了实体识别、关系抽取、属性抽取等组件,允许用户从文本数据中抽取实体和关系,最终通过知识图谱组件将抽取出来的结果保存起来,处理的可视化效果如图6所示。
基于任务可视化的机器学习任务流程图如图7所示,截图为系统截图,系统中网格虚线为了实现各组件对其参照线。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (2)

1.一种基于任务可视化拖拽的spark机器学习系统,其特征在于,所述系统包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练;
用户根据自己的业务需求进行建模和ETL,按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表,同时提供分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储,且包括在线分析系统,可在线自助分析,运营报表及数据异常告警,最终将处理的结果给用户展现在可视化的界面上,用户可选择折线图、柱状图、饼状图对学习结果进行分析;
任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图,得到spark可执行算子队列,以及每个算子的输入和输出数据,流程图中的某个组件的输出作为后一个组件的输入,每个组件将处理结果保存在hdfs上,路径是流程图id,文件名是该组件的id;
实现spark任务按照用户拖拽的流程执行设计任务调度算法,当用户构建好机器学习流程图后,调度算法对各个组件信息进行处理,获取每个组件的上一个节点和下一个节点,并根据节点的属性找出数据源节点,如果该节点是数据源节点,则将用户选择的数据文件或者数据库数据加载到内存中,然后上传到hdfs,路径是流程图id和数据源组件id拼接的唯一路径,然后将该路径作为下一个组件的参数作为输入,下一个组件则从这个hdfs路径下读取数据;如果组件类型是spark机器学习组件,那么就会判断组件的source组件和target组件;
Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块,DataNode将数据文件拆分成多个block,每个block大小是128M,NameNode用于存储文件元数据信息,即描述文件的特征系统数据,包括访问权限,文件拥有者以及文件数据块的分布信息;
所述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
2.一种基于任务可视化拖拽的spark机器学习方法,其特征在于,所述方法包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练;
用户根据自己的业务需求进行建模和ETL,按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表,同时提供分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储,且包括在线分析系统,可在线自助分析,运营报表及数据异常告警,最终将处理的结果给用户展现在可视化的界面上,用户可选择折线图、柱状图、饼状图对学习结果进行分析;
任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图,得到spark可执行算子队列,以及每个算子的输入和输出数据,流程图中的某个组件的输出作为后一个组件的输入,每个组件将处理结果保存在hdfs上,路径是流程图id,文件名是该组件的id;
实现spark任务按照用户拖拽的流程执行设计任务调度算法,当用户构建好机器学习流程图后,调度算法对各个组件信息进行处理,获取每个组件的上一个节点和下一个节点,并根据节点的属性找出数据源节点,如果该节点是数据源节点,则将用户选择的数据文件或者数据库数据加载到内存中,然后上传到hdfs,路径是流程图id和数据源组件id拼接的唯一路径,然后将该路径作为下一个组件的参数作为输入,下一个组件则从这个hdfs路径下读取数据;如果组件类型是spark机器学习组件,那么就会判断组件的source组件和target组件;
Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块,DataNode将数据文件拆分成多个block,每个block大小是128M,NameNode用于存储文件元数据信息,即描述文件的特征系统数据,包括访问权限,文件拥有者以及文件数据块的分布信息;
所述步骤A中:
数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件;
所述排序组件,用于选择特定属性列进行自定义排序;
筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;
设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;
数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;
空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;
重命名组件,可以对属性列进行重命名;
所述分类包括KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类;
所述回归包括线性回归、保序回归、曲线回归、决策树回归、随机森林回归与梯度提升树回归。
CN202010059133.1A 2020-01-16 2020-01-16 一种基于任务可视化拖拽的spark机器学习系统及学习方法 Active CN111240662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010059133.1A CN111240662B (zh) 2020-01-16 2020-01-16 一种基于任务可视化拖拽的spark机器学习系统及学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010059133.1A CN111240662B (zh) 2020-01-16 2020-01-16 一种基于任务可视化拖拽的spark机器学习系统及学习方法

Publications (2)

Publication Number Publication Date
CN111240662A CN111240662A (zh) 2020-06-05
CN111240662B true CN111240662B (zh) 2024-01-09

Family

ID=70876406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010059133.1A Active CN111240662B (zh) 2020-01-16 2020-01-16 一种基于任务可视化拖拽的spark机器学习系统及学习方法

Country Status (1)

Country Link
CN (1) CN111240662B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI638807B (zh) * 2009-04-28 2018-10-21 環球展覽公司 具有甲基-d3取代之銥錯合物
CN111914014A (zh) * 2020-08-17 2020-11-10 深圳市联恒星科技有限公司 一种大数据平台及其应用
CN111966478B (zh) * 2020-08-18 2024-02-20 北京百度网讯科技有限公司 自定义任务排序方法和设备、电子设备和介质
CN112000326A (zh) * 2020-08-20 2020-11-27 第四范式(北京)技术有限公司 一种服务提供方法、装置、电子设备及存储介质
CN112331348B (zh) * 2020-10-21 2021-06-25 北京医准智能科技有限公司 集标注、数据、项目管理和无编程化建模的分析方法和系统
CN112328220A (zh) * 2020-11-06 2021-02-05 江苏云坤信息科技有限公司 基于拖拽编排方式的流式数据处理系统及其处理方法
CN113010220A (zh) * 2020-11-30 2021-06-22 云智慧(北京)科技有限公司 一种组件式的数据处理方法和系统
CN112445477A (zh) * 2020-12-09 2021-03-05 浙江源创建筑智能科技有限公司 一种基于Vue的组件可视化系统及方法
CN112558931B (zh) * 2020-12-09 2022-07-19 中国电子科技集团公司第二十八研究所 一种面向用户工作流模式的智能模型构建及运行方法
CN112860655B (zh) * 2020-12-10 2024-01-30 南京三眼精灵信息技术有限公司 可视化知识模型构建方法及装置
CN113342489A (zh) * 2021-05-25 2021-09-03 上海商汤智能科技有限公司 任务处理方法及装置、电子设备和存储介质
CN113468261B (zh) * 2021-06-24 2022-04-01 苏州琅润达检测科技有限公司 基于图形编辑引擎构建物联网实体关系的方法和系统
CN114063868A (zh) * 2021-11-18 2022-02-18 神州数码系统集成服务有限公司 一种ai拖拽建模系统、方法、计算机设备及应用
CN114386615A (zh) * 2021-12-03 2022-04-22 北京北明数科信息技术有限公司 基于可视化拖拉的机器学习分析方法、系统、设备及介质
CN114266324B (zh) * 2021-12-30 2023-04-07 智慧眼科技股份有限公司 模型可视化建模方法、装置、计算机设备及存储介质
CN115454595A (zh) * 2022-09-01 2022-12-09 广州南方智能技术有限公司 一种算法程序的自动化调度系统、方法及存储介质
CN115981622A (zh) * 2022-12-19 2023-04-18 广东若铂智能机器人有限公司 一种可视化编程装置及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169575A (zh) * 2017-06-27 2017-09-15 北京天机数测数据科技有限公司 一种可视化机器学习训练模型的建模系统和方法
CN107423823A (zh) * 2017-08-11 2017-12-01 成都优易数据有限公司 一种基于r语言的机器学习建模平台架构设计方法
CN107944565A (zh) * 2017-11-24 2018-04-20 江苏润和软件股份有限公司 一种面向云计算的基于定制化组件的流式机器学习方法与软件系统
CN108510081A (zh) * 2018-03-23 2018-09-07 北京京东尚科信息技术有限公司 机器学习方法和平台
CN108665071A (zh) * 2017-03-27 2018-10-16 苏宁云商集团股份有限公司 一种交互式机器学习实验展示方法及系统
CN108874395A (zh) * 2018-05-22 2018-11-23 四川创意信息技术股份有限公司 一种组件化流处理过程中的硬编译方法及装置
KR20180125273A (ko) * 2017-05-15 2018-11-23 한국항공우주연구원 기계학습 장치 및 방법
CN109948804A (zh) * 2019-03-15 2019-06-28 北京清瞳时代科技有限公司 跨平台拖拽式深度学习建模与训练方法及装置
CN110209486A (zh) * 2019-06-06 2019-09-06 南威软件股份有限公司 基于界面的spark任务流程构建方法和计算机可读存储介质
CN110309203A (zh) * 2019-07-02 2019-10-08 成都数之联科技有限公司 一种基于大数据的交互式和自定义数据建模系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9846752B2 (en) * 2006-02-14 2017-12-19 Power Analytics Corporation System and methods for intuitive modeling of complex networks in a digital environment
US10331495B2 (en) * 2016-02-05 2019-06-25 Sas Institute Inc. Generation of directed acyclic graphs from task routines
US10789547B2 (en) * 2016-03-14 2020-09-29 Business Objects Software Ltd. Predictive modeling optimization
US11586463B2 (en) * 2018-04-17 2023-02-21 Oracle International Corporation Automated process flow learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665071A (zh) * 2017-03-27 2018-10-16 苏宁云商集团股份有限公司 一种交互式机器学习实验展示方法及系统
KR20180125273A (ko) * 2017-05-15 2018-11-23 한국항공우주연구원 기계학습 장치 및 방법
CN107169575A (zh) * 2017-06-27 2017-09-15 北京天机数测数据科技有限公司 一种可视化机器学习训练模型的建模系统和方法
CN107423823A (zh) * 2017-08-11 2017-12-01 成都优易数据有限公司 一种基于r语言的机器学习建模平台架构设计方法
CN107944565A (zh) * 2017-11-24 2018-04-20 江苏润和软件股份有限公司 一种面向云计算的基于定制化组件的流式机器学习方法与软件系统
CN108510081A (zh) * 2018-03-23 2018-09-07 北京京东尚科信息技术有限公司 机器学习方法和平台
CN108874395A (zh) * 2018-05-22 2018-11-23 四川创意信息技术股份有限公司 一种组件化流处理过程中的硬编译方法及装置
CN109948804A (zh) * 2019-03-15 2019-06-28 北京清瞳时代科技有限公司 跨平台拖拽式深度学习建模与训练方法及装置
CN110209486A (zh) * 2019-06-06 2019-09-06 南威软件股份有限公司 基于界面的spark任务流程构建方法和计算机可读存储介质
CN110309203A (zh) * 2019-07-02 2019-10-08 成都数之联科技有限公司 一种基于大数据的交互式和自定义数据建模系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
Distributed Big Data Mining Platform for Smart Grid;Zhixiang Wang 等;《2018 IEEE International Conference on Big Data (Big Data)》;2345-2354 *
Hadoop与Spark应用场景研究;冯兴杰 等;《计算机应用研究》;第35卷(第9期);2561-2566 *
基于Spark的流程化机器学习分析方法;赵玲玲 等;《计算机系统应用》;第25卷(第12期);162-168 *
基于Web的领域知识图谱构建平台的研究与实现;王宁;《中国优秀硕士学位论文全文数据库 信息科技辑》(第8期);I138-1452 *
熊赟 等.《大数据挖掘》.上海科学技术出版社,2016,18-19. *
钟华等.科学大数据智能分析软件的现状与趋势.《中国科学院院刊》.2018,第33卷(第8期),812-817. *

Also Published As

Publication number Publication date
CN111240662A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111240662B (zh) 一种基于任务可视化拖拽的spark机器学习系统及学习方法
US11847574B2 (en) Systems and methods for enriching modeling tools and infrastructure with semantics
US10025813B1 (en) Distributed data transformation system
US20220044133A1 (en) Detection of anomalous data using machine learning
CN112558931B (zh) 一种面向用户工作流模式的智能模型构建及运行方法
US11645548B1 (en) Automated cloud data and technology solution delivery using machine learning and artificial intelligence modeling
US20230316111A1 (en) Interpretation of machine leaning results using feature analysis
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
CN110968620A (zh) 一种敏捷数据分析方法
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
WO2023227012A1 (zh) 产品数据处理方法、装置及存储介质
US20210390564A1 (en) Automated third-party data evaluation for modeling system
US9141686B2 (en) Risk analysis using unstructured data
CN112507098B (zh) 问题处理方法、装置、电子设备、存储介质及程序产品
CN115269704B (zh) 一种多元异构农业数据管理系统
CN110677271A (zh) 基于elk的大数据告警方法、装置、设备及存储介质
Shrivastava et al. Graph mining framework for finding and visualizing substructures using graph database
Prajapati et al. An Exploration on Big Data Analytical Techniques: A Review
Lakzaei et al. LOSS-GAT: Label Propagation and One-Class Semi-Supervised Graph Attention Network for Fake News Detection
CN117473081A (zh) 文本管理方法、装置、计算机设备和存储介质
Li et al. Simulation of big data mixed attribute feature detection for power system intelligent operation and maintenance based on improved random forest algorithm
CN117520141A (zh) 基于人工智能的脚本推荐方法、装置、设备及存储介质
Ma et al. Research and exploration of the key elements of food safety data analysis system based on the food safety traceability system
CN114219025A (zh) 一种资产回收率分类方法、装置、设备及存储介质
CN115829763A (zh) 数据报送方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant