CN111240662A - 一种基于任务可视化拖拽的spark机器学习系统及学习方法 - Google Patents
一种基于任务可视化拖拽的spark机器学习系统及学习方法 Download PDFInfo
- Publication number
- CN111240662A CN111240662A CN202010059133.1A CN202010059133A CN111240662A CN 111240662 A CN111240662 A CN 111240662A CN 202010059133 A CN202010059133 A CN 202010059133A CN 111240662 A CN111240662 A CN 111240662A
- Authority
- CN
- China
- Prior art keywords
- data
- component
- machine learning
- flow
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 title claims abstract description 28
- 230000000007 visual effect Effects 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 16
- 238000012800 visualization Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 7
- 238000013506 data mapping Methods 0.000 claims description 5
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012417 linear regression Methods 0.000 claims description 2
- 238000007477 logistic regression Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 210000001503 joint Anatomy 0.000 description 5
- 238000007418 data mining Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/34—Graphical or visual programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于任务可视化拖拽的spark机器学习系统及方法,该系统包括流程设计器、流程解析器与流程调度器;所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
Description
技术领域
本发明涉及机器学习、数据挖掘、流程控制技术领域,尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。
背景技术
随着数据的积累以及数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力往外输出,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,未来随着算法和计算能力的发展,机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。
现有的机器学习模型的构建流程较为复杂,需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载,而且学习成本也比较高,每个模块都需要编码和调试,对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。
本发明的目的通过以下的技术方案来实现:
一种基于任务可视化拖拽的spark机器学习系统,包括:包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
一种基于任务可视化拖拽的spark机器学习方法,包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本系统提供了可视化拖拽的spark机器学习组件,可以针对具体的业务,拖拽组件,构建数据处理流程,系统一键安装,高效易用,大幅度降低了企业引入数据挖掘系统的成本。能够帮助银行、电商、餐饮、证券公司快速寻找潜在的客户群体,实现最大化营销效果,能够建立高效的分析预警模型,降低企业风险。
附图说明
图1是基于任务可视化拖拽的spark机器学习系统结构图;
图2是基于任务可视化拖拽的spark机器学习方法流程图;
图3是组件连接图;
图4是每个组件的信息图;
图5是机器学习可视化效果图;
图6是处理后的可视化效果图;
图7是基于任务可视化的机器学习任务流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于任务可视化拖拽的spark机器学习系统结构,包括流程设计器、流程解析器与流程调度器;所述流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
上述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
产品的架构分为数据源,监控和运维管理系统,可视化展示系统,监控和运维管理系统包括了数据接入系统,建模和ETL、数据处理平台、在线分析平台,可视化展示包括了web页面展示、app展示,用户管理平台包括了用户权限控制、分组控制、模板管理。
如图2所示本实施例还提供了一种基于任务可视化拖拽的spark机器学习方法,该方法包括以下步骤:
步骤10将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
步骤20解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
步骤30解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
数据源组件的作用是供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据、实时数据,可以接受公共数据源的直接导入,包括天气数据、人口分布数据、房地产数据,而且支持第三方接口进行直接对接,提供百度、360搜索、搜狗搜索、友盟的接口对接,另外对于业务数据库例如Mysql、Oracle、SqlServer的对接,支持自定义API对接,例如日志数据、业务数据、大数据文件,支持人工数据对接,包括excel文件、csv文件。
数据预处理组件包括排序组件,用于选择特定属性列进行自定义排序,筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;重命名组件,可以对属性列进行重命名。机器学习算法组件包括了机器学习中常用到的分类、聚类、回归、关联算法,其中包括了KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类、LDA、线性回归、保序回归、曲线回归、决策树回归、随机森林回归、梯度提升树回归等算法组件。保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。图3为各组件连接图。
对于各个组件在数据库中的配置如表1所示,AnalyseComponentName列表示的是组件名,AnalyseComponentCode表示组件的类型,SparkTaskName则表示的是组件的全类名,AnalyseComponentImg表示的是可视化界面中组件的背景图片。
表1
本实施例根据用户的需求可以对公共数据进行采集,或者对数据库进行同步,将数据库中的信息作为模型训练的数据,也可以提供接口供用户自定义API进行调用,同时为了简化用户的操作,提供了文本在线上传,可以将用户自己收集好的数据直接上传进行分析。
用户可以根据自己的业务需求进行建模和ETL,最终按照设置的业务进行任务调度、ETL、关联合表、追加合表、聚合表、SQL合表,同时本系统提供了分布式存储、高级计算、SQL计算、分布式计算的数据分析与存储,而且包括了在线分析系统,可以在线自助分析,运营报表,数据异常告警,最终将处理的结果给用户展现在可视化的界面上,用户可以选择折线图、柱状图、饼状图对学习结果进行分析。
任务的解析流程是将用户构建的可视化的机器学习流程图通过拓扑排序算法解析出任务执行的有向无环图,得到spark可执行算子队列,以及每个算子的输入和输出数据,流程图中的某个组件的输出作为后一个组件的输入,每个组件将处理结果保存在hdfs上,路径是流程图id,文件名是该组件的id,由于流程图id和组件id是唯一不重复的,所以能保证数据传输的准确性。
实现spark任务按照用户拖拽的流程执行需要设计一套任务调度算法,当用户构建好机器学习流程图后,调度算法对各个组件信息进行处理,获取每个组件的上一个节点和下一个节点,并根据节点的属性找出数据源节点,如果该节点是数据源节点,则将用户选择的数据文件或者数据库数据加载到内存中,然后上传到hdfs,路径是流程图id和数据源组件id拼接的唯一路径,然后将该路径作为下一个组件的参数作为输入,下一个组件则从这个hdfs路径下读取数据。如果组件类型是spark机器学习组件,那么就会判断组件的source组件和target组件,在任务调度的过程中,保证该组件的前一个节点执行结束后该组件才能开始执行,保证该组件执行结束后将结果数据保存在内存或者hdfs后将路径传递给下一个组件。任务流程图的组件允许过程中将运行的状态信息传递给消息队列RabbitMQ,前端界面再将运行状态信息时刻反馈给操作者,让用户能时刻监控各个组件的运行状态。
由于机器学习系统的数据文件是用户上传的,所以难以保证数据文件都是大文件,针对这种情况设计了一套解决小文件存储的技术。Hdfs分布式文件存储系统主要分为NameNode和DataNode两个模块,DataNode将数据文件拆分成多个block,每个block大小是128M,NameNode用于存储文件元数据信息,也就是描述文件的特征系统数据,包括访问权限,文件拥有者以及文件数据块的分布信息等,每个文件的元数据对象都占用了约150byte的空间,如果存储了1亿个小文件就给NameNode带来20G的内存消耗,所以解决海量小文件的存储问题对于提高系统性能有很大的帮助。
本发明将spark机器学习算法封装成了可视化、可拖拽的组件,操作者可以根据自己的业务需求定制数据分析流程,用户将需要的组件拖拽到面板,再将其按照数据的处理流程连线,然后选择数据源或者上传数据文件,再调节spark机器学习算法的属性参数即可,设置完毕后点击保存、运行,然后就可以时刻查看组件的运行状态,操作者如果将发送邮件组件也拖拽到流程图中,并设置好了接收邮箱,那么任务执行结束时会以邮件的形式通知用户。整个流程操作简便,操作者只需要在可视化界面中修改数据挖掘的参数就可以修改算法的参数,最终得到较好的训练结果。
本发明的组件之间传递的参数是通过JSON格式传递的,作为一种轻量级的数据交换格式,JSON具有良好的可读和便于快速编写的特点,而且支持在多个平台上自由切换,兼容性高,完全独立于语言文本格式。本发明将任务流程图和组件的上下位关系通过解析算法最终以xml文件的格式进行传递,xml作为一款标记性语言,用于标记电子文件,定义数据类型。
本发明各个组件的参数以JSON格式解析,配置信息如下:
{
"elasticNetParam":0.2,
"aggregationDepth":5,
"maxIter":100,
"regParam":0.01,
"threshold":0.5
}
elasticNetParam、aggregationDepth、maxIter、regParam、threshold分别是用户在前端可视化界面设置的弹性网络参数、聚合深度、最大迭代次数、正则化参数、阈值等参数,数据挖掘组件将接收到的参数解析并使用。
{
"spark-b3ff68a4-19a5-4bde-af1f-fb05b4749a6a":"distributeRole"
}
这组json数据是该组件souce组件的id信息和类型信息。
{
"batch_id":"7b9e20d6-9134-177f-fd11-1dec5b7bfe76",
"cp_name":"L1/2稀疏迭代分类",
"output_path":"/DataAnalyse/1453/output",
"input_path":"/DataAnalyse/1453/input",
"node_id":"spark-8d78bcbf-57bf-456d-9f31-ed7e9c47d3e4",
"is_output":"false"
}
batch_id代表整个流程图的id,cp_name是该组件的名字,output_path和input_path分别是组件的组件的数据源目录和处理结果输出目录,node_id是该组件的id值,is_output用于设置是否需要将该组件的处理结果保存到输出目录中。
为了将用户构建的流程图中的组件按顺序执行,本发明将组件的上下序关系写入了xml文件,如图4所示,其中包括了每个组件的详细信息,包括了组件名,运行模式(本地模式或者集群模式),程序文件全类名,jar包名,给该组件分配的硬件资源(内存、cpu core),参数信息,jar包所在路径,target组件的id等信息。
为了方便用户对机器学习算法的参数进行修改,最终得到最优的模型和结果,本系统给用户提供了可视化的参数输入界面,方便对每一个算法的每一个参数进行设置,可视化效果如图5所示。
为了方便用户对文本数据进行处理,本系统加入了实体识别、关系抽取、属性抽取等组件,允许用户从文本数据中抽取实体和关系,最终通过知识图谱组件将抽取出来的结果保存起来,处理的可视化效果如图6所示。
基于任务可视化的机器学习任务流程图如图7所示,截图为系统截图,系统中网格虚线为了实现各组件对其参照线。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (6)
1.一种基于任务可视化拖拽的spark机器学习系统,其特征在于,所述系统包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
2.如权利要求1所述的基于任务可视化拖拽的spark机器学习系统,其特征在于,所述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
3.一种基于任务可视化拖拽的spark机器学习方法,其特征在于,所述方法包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
4.如权利要求1所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,所述步骤A中:
数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
5.如权利要求4所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,所述
排序组件,用于选择特定属性列进行自定义排序;
筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;
设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;
数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;
空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;
重命名组件,可以对属性列进行重命名。
6.如权利要求4所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,
所述分类包括KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类;
所述回归包括线性回归、保序回归、曲线回归、决策树回归、随机森林回归与梯度提升树回归。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010059133.1A CN111240662B (zh) | 2020-01-16 | 2020-01-16 | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010059133.1A CN111240662B (zh) | 2020-01-16 | 2020-01-16 | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111240662A true CN111240662A (zh) | 2020-06-05 |
CN111240662B CN111240662B (zh) | 2024-01-09 |
Family
ID=70876406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010059133.1A Active CN111240662B (zh) | 2020-01-16 | 2020-01-16 | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111240662B (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110818742A (zh) * | 2009-04-28 | 2020-02-21 | 通用显示公司 | 具有甲基-d3取代的铱配合物 |
CN111914014A (zh) * | 2020-08-17 | 2020-11-10 | 深圳市联恒星科技有限公司 | 一种大数据平台及其应用 |
CN111966478A (zh) * | 2020-08-18 | 2020-11-20 | 北京百度网讯科技有限公司 | 自定义任务排序方法和设备、电子设备和介质 |
CN112000326A (zh) * | 2020-08-20 | 2020-11-27 | 第四范式(北京)技术有限公司 | 一种服务提供方法、装置、电子设备及存储介质 |
CN112331348A (zh) * | 2020-10-21 | 2021-02-05 | 北京医准智能科技有限公司 | 集标注、数据、项目管理和无编程化建模的分析方法和系统 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN112445477A (zh) * | 2020-12-09 | 2021-03-05 | 浙江源创建筑智能科技有限公司 | 一种基于Vue的组件可视化系统及方法 |
CN112558931A (zh) * | 2020-12-09 | 2021-03-26 | 中国电子科技集团公司第二十八研究所 | 一种面向用户工作流模式的智能模型构建及运行方法 |
CN112860655A (zh) * | 2020-12-10 | 2021-05-28 | 南京三眼精灵信息技术有限公司 | 可视化知识模型构建方法及装置 |
CN113010220A (zh) * | 2020-11-30 | 2021-06-22 | 云智慧(北京)科技有限公司 | 一种组件式的数据处理方法和系统 |
CN113342489A (zh) * | 2021-05-25 | 2021-09-03 | 上海商汤智能科技有限公司 | 任务处理方法及装置、电子设备和存储介质 |
CN113468261A (zh) * | 2021-06-24 | 2021-10-01 | 苏州琅润达检测科技有限公司 | 基于图形编辑引擎构建物联网实体关系的方法和系统 |
CN113780568A (zh) * | 2020-06-09 | 2021-12-10 | 子长科技(北京)有限公司 | 自动模型训练框架、设备、存储介质 |
CN113779231A (zh) * | 2020-06-09 | 2021-12-10 | 中科云谷科技有限公司 | 基于知识图谱的大数据可视化分析方法、装置及设备 |
CN114063868A (zh) * | 2021-11-18 | 2022-02-18 | 神州数码系统集成服务有限公司 | 一种ai拖拽建模系统、方法、计算机设备及应用 |
CN114266324A (zh) * | 2021-12-30 | 2022-04-01 | 智慧眼科技股份有限公司 | 模型可视化建模方法、装置、计算机设备及存储介质 |
CN114386615A (zh) * | 2021-12-03 | 2022-04-22 | 北京北明数科信息技术有限公司 | 基于可视化拖拉的机器学习分析方法、系统、设备及介质 |
CN115454595A (zh) * | 2022-09-01 | 2022-12-09 | 广州南方智能技术有限公司 | 一种算法程序的自动化调度系统、方法及存储介质 |
CN115981622A (zh) * | 2022-12-19 | 2023-04-18 | 广东若铂智能机器人有限公司 | 一种可视化编程装置及方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160196375A1 (en) * | 2006-02-14 | 2016-07-07 | Power Analytics Corporation | System And Methods For Intuitive Modeling Of Complex Networks In A Digital Environment |
US20170262769A1 (en) * | 2016-03-14 | 2017-09-14 | Business Objects Software Ltd. | Predictive modeling optimization |
CN107169575A (zh) * | 2017-06-27 | 2017-09-15 | 北京天机数测数据科技有限公司 | 一种可视化机器学习训练模型的建模系统和方法 |
CN107423823A (zh) * | 2017-08-11 | 2017-12-01 | 成都优易数据有限公司 | 一种基于r语言的机器学习建模平台架构设计方法 |
CN107944565A (zh) * | 2017-11-24 | 2018-04-20 | 江苏润和软件股份有限公司 | 一种面向云计算的基于定制化组件的流式机器学习方法与软件系统 |
US20180181446A1 (en) * | 2016-02-05 | 2018-06-28 | Sas Institute Inc. | Generation of directed acyclic graphs from task routines |
CN108510081A (zh) * | 2018-03-23 | 2018-09-07 | 北京京东尚科信息技术有限公司 | 机器学习方法和平台 |
CN108665071A (zh) * | 2017-03-27 | 2018-10-16 | 苏宁云商集团股份有限公司 | 一种交互式机器学习实验展示方法及系统 |
CN108874395A (zh) * | 2018-05-22 | 2018-11-23 | 四川创意信息技术股份有限公司 | 一种组件化流处理过程中的硬编译方法及装置 |
KR20180125273A (ko) * | 2017-05-15 | 2018-11-23 | 한국항공우주연구원 | 기계학습 장치 및 방법 |
CN109948804A (zh) * | 2019-03-15 | 2019-06-28 | 北京清瞳时代科技有限公司 | 跨平台拖拽式深度学习建模与训练方法及装置 |
CN110209486A (zh) * | 2019-06-06 | 2019-09-06 | 南威软件股份有限公司 | 基于界面的spark任务流程构建方法和计算机可读存储介质 |
CN110309203A (zh) * | 2019-07-02 | 2019-10-08 | 成都数之联科技有限公司 | 一种基于大数据的交互式和自定义数据建模系统 |
US20190317803A1 (en) * | 2018-04-17 | 2019-10-17 | Oracle International Corporation | Automated Process Flow Learning |
-
2020
- 2020-01-16 CN CN202010059133.1A patent/CN111240662B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160196375A1 (en) * | 2006-02-14 | 2016-07-07 | Power Analytics Corporation | System And Methods For Intuitive Modeling Of Complex Networks In A Digital Environment |
US20180181446A1 (en) * | 2016-02-05 | 2018-06-28 | Sas Institute Inc. | Generation of directed acyclic graphs from task routines |
US20170262769A1 (en) * | 2016-03-14 | 2017-09-14 | Business Objects Software Ltd. | Predictive modeling optimization |
CN108665071A (zh) * | 2017-03-27 | 2018-10-16 | 苏宁云商集团股份有限公司 | 一种交互式机器学习实验展示方法及系统 |
KR20180125273A (ko) * | 2017-05-15 | 2018-11-23 | 한국항공우주연구원 | 기계학습 장치 및 방법 |
CN107169575A (zh) * | 2017-06-27 | 2017-09-15 | 北京天机数测数据科技有限公司 | 一种可视化机器学习训练模型的建模系统和方法 |
CN107423823A (zh) * | 2017-08-11 | 2017-12-01 | 成都优易数据有限公司 | 一种基于r语言的机器学习建模平台架构设计方法 |
CN107944565A (zh) * | 2017-11-24 | 2018-04-20 | 江苏润和软件股份有限公司 | 一种面向云计算的基于定制化组件的流式机器学习方法与软件系统 |
CN108510081A (zh) * | 2018-03-23 | 2018-09-07 | 北京京东尚科信息技术有限公司 | 机器学习方法和平台 |
US20190317803A1 (en) * | 2018-04-17 | 2019-10-17 | Oracle International Corporation | Automated Process Flow Learning |
CN108874395A (zh) * | 2018-05-22 | 2018-11-23 | 四川创意信息技术股份有限公司 | 一种组件化流处理过程中的硬编译方法及装置 |
CN109948804A (zh) * | 2019-03-15 | 2019-06-28 | 北京清瞳时代科技有限公司 | 跨平台拖拽式深度学习建模与训练方法及装置 |
CN110209486A (zh) * | 2019-06-06 | 2019-09-06 | 南威软件股份有限公司 | 基于界面的spark任务流程构建方法和计算机可读存储介质 |
CN110309203A (zh) * | 2019-07-02 | 2019-10-08 | 成都数之联科技有限公司 | 一种基于大数据的交互式和自定义数据建模系统 |
Non-Patent Citations (6)
Title |
---|
ZHIXIANG WANG 等: "Distributed Big Data Mining Platform for Smart Grid", 《2018 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》, pages 2345 - 2354 * |
冯兴杰 等: "Hadoop与Spark应用场景研究", 《计算机应用研究》, vol. 35, no. 9, pages 2561 - 2566 * |
熊赟 等: "《大数据挖掘》", 上海科学技术出版社, pages: 18 - 19 * |
王宁: "基于Web的领域知识图谱构建平台的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 8, pages 138 - 1452 * |
赵玲玲 等: "基于Spark的流程化机器学习分析方法", 《计算机系统应用》, vol. 25, no. 12, pages 162 - 168 * |
钟华等: "科学大数据智能分析软件的现状与趋势", vol. 33, no. 8, pages 812 - 817 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110818742A (zh) * | 2009-04-28 | 2020-02-21 | 通用显示公司 | 具有甲基-d3取代的铱配合物 |
CN113779231B (zh) * | 2020-06-09 | 2024-04-26 | 中科云谷科技有限公司 | 基于知识图谱的大数据可视化分析方法、装置及设备 |
CN113780568B (zh) * | 2020-06-09 | 2024-05-14 | 子长科技(北京)有限公司 | 自动模型训练系统、设备、存储介质 |
CN113779231A (zh) * | 2020-06-09 | 2021-12-10 | 中科云谷科技有限公司 | 基于知识图谱的大数据可视化分析方法、装置及设备 |
CN113780568A (zh) * | 2020-06-09 | 2021-12-10 | 子长科技(北京)有限公司 | 自动模型训练框架、设备、存储介质 |
CN111914014A (zh) * | 2020-08-17 | 2020-11-10 | 深圳市联恒星科技有限公司 | 一种大数据平台及其应用 |
CN111966478A (zh) * | 2020-08-18 | 2020-11-20 | 北京百度网讯科技有限公司 | 自定义任务排序方法和设备、电子设备和介质 |
CN111966478B (zh) * | 2020-08-18 | 2024-02-20 | 北京百度网讯科技有限公司 | 自定义任务排序方法和设备、电子设备和介质 |
CN112000326A (zh) * | 2020-08-20 | 2020-11-27 | 第四范式(北京)技术有限公司 | 一种服务提供方法、装置、电子设备及存储介质 |
CN112331348A (zh) * | 2020-10-21 | 2021-02-05 | 北京医准智能科技有限公司 | 集标注、数据、项目管理和无编程化建模的分析方法和系统 |
CN112331348B (zh) * | 2020-10-21 | 2021-06-25 | 北京医准智能科技有限公司 | 集标注、数据、项目管理和无编程化建模的分析方法和系统 |
CN112328220A (zh) * | 2020-11-06 | 2021-02-05 | 江苏云坤信息科技有限公司 | 基于拖拽编排方式的流式数据处理系统及其处理方法 |
CN113010220A (zh) * | 2020-11-30 | 2021-06-22 | 云智慧(北京)科技有限公司 | 一种组件式的数据处理方法和系统 |
CN112558931A (zh) * | 2020-12-09 | 2021-03-26 | 中国电子科技集团公司第二十八研究所 | 一种面向用户工作流模式的智能模型构建及运行方法 |
CN112445477A (zh) * | 2020-12-09 | 2021-03-05 | 浙江源创建筑智能科技有限公司 | 一种基于Vue的组件可视化系统及方法 |
CN112860655A (zh) * | 2020-12-10 | 2021-05-28 | 南京三眼精灵信息技术有限公司 | 可视化知识模型构建方法及装置 |
CN112860655B (zh) * | 2020-12-10 | 2024-01-30 | 南京三眼精灵信息技术有限公司 | 可视化知识模型构建方法及装置 |
CN113342489A (zh) * | 2021-05-25 | 2021-09-03 | 上海商汤智能科技有限公司 | 任务处理方法及装置、电子设备和存储介质 |
WO2022247112A1 (zh) * | 2021-05-25 | 2022-12-01 | 上海商汤智能科技有限公司 | 任务处理方法、装置、设备、存储介质、计算机程序及程序产品 |
CN113468261A (zh) * | 2021-06-24 | 2021-10-01 | 苏州琅润达检测科技有限公司 | 基于图形编辑引擎构建物联网实体关系的方法和系统 |
CN113468261B (zh) * | 2021-06-24 | 2022-04-01 | 苏州琅润达检测科技有限公司 | 基于图形编辑引擎构建物联网实体关系的方法和系统 |
CN114063868A (zh) * | 2021-11-18 | 2022-02-18 | 神州数码系统集成服务有限公司 | 一种ai拖拽建模系统、方法、计算机设备及应用 |
CN114386615A (zh) * | 2021-12-03 | 2022-04-22 | 北京北明数科信息技术有限公司 | 基于可视化拖拉的机器学习分析方法、系统、设备及介质 |
CN114266324A (zh) * | 2021-12-30 | 2022-04-01 | 智慧眼科技股份有限公司 | 模型可视化建模方法、装置、计算机设备及存储介质 |
CN115454595A (zh) * | 2022-09-01 | 2022-12-09 | 广州南方智能技术有限公司 | 一种算法程序的自动化调度系统、方法及存储介质 |
CN115981622A (zh) * | 2022-12-19 | 2023-04-18 | 广东若铂智能机器人有限公司 | 一种可视化编程装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111240662B (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111240662B (zh) | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 | |
EP4195112A1 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
US20220044133A1 (en) | Detection of anomalous data using machine learning | |
US9646262B2 (en) | Data intelligence using machine learning | |
Begoli et al. | Design principles for effective knowledge discovery from big data | |
JP2023166448A (ja) | 統計プロファイリングおよびリファレンススキーママッチングによるオントロジー帰納のためのシステムおよび方法 | |
CN112558931B (zh) | 一种面向用户工作流模式的智能模型构建及运行方法 | |
US10191968B2 (en) | Automated data analysis | |
US11989667B2 (en) | Interpretation of machine leaning results using feature analysis | |
CN112181960A (zh) | 一种基于AIOps的智能运维框架系统 | |
CN110851667A (zh) | 一种多源头大量数据的整合分析方法及工具 | |
WO2023227012A1 (zh) | 产品数据处理方法、装置及存储介质 | |
US10824606B1 (en) | Standardizing values of a dataset | |
CN117592450A (zh) | 基于员工信息整合的全景档案生成方法及系统 | |
CN109523031B (zh) | 一种用于深度分析的大数据智能机器学习系统 | |
CN114281494A (zh) | 数据全生命周期管理方法、系统、终端设备及存储介质 | |
US20130218893A1 (en) | Executing in-database data mining processes | |
JP2018198044A (ja) | 複数イベント・パターン・クエリーを生成するための装置および方法 | |
CN115269862A (zh) | 一种基于知识图谱的电力问答与可视化系统 | |
CN115269704B (zh) | 一种多元异构农业数据管理系统 | |
CN103577560A (zh) | 一种输入数据库操作指令的方法和装置 | |
US20240220876A1 (en) | Artificial intelligence (ai) based data product provisioning | |
Sneha et al. | Big Data Analysis and Machine Learning for Green Computing: Concepts and Applications | |
Ahuja et al. | Data: Its Nature and Modern Data Analytical Tools | |
CN110019109B (zh) | 用于处理数据仓库数据的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |