CN117171238A - 一种大数据算法平台和数据挖掘方法 - Google Patents

一种大数据算法平台和数据挖掘方法 Download PDF

Info

Publication number
CN117171238A
CN117171238A CN202311446349.3A CN202311446349A CN117171238A CN 117171238 A CN117171238 A CN 117171238A CN 202311446349 A CN202311446349 A CN 202311446349A CN 117171238 A CN117171238 A CN 117171238A
Authority
CN
China
Prior art keywords
data
algorithm
flow chart
task flow
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311446349.3A
Other languages
English (en)
Other versions
CN117171238B (zh
Inventor
代文静
田楷
陈立名
曹彬
胡江洪
杨剑远
晏文仲
黄金
方超群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fitow Tianjin Detection Technology Co Ltd
Original Assignee
Fitow Tianjin Detection Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fitow Tianjin Detection Technology Co Ltd filed Critical Fitow Tianjin Detection Technology Co Ltd
Priority to CN202311446349.3A priority Critical patent/CN117171238B/zh
Publication of CN117171238A publication Critical patent/CN117171238A/zh
Application granted granted Critical
Publication of CN117171238B publication Critical patent/CN117171238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种大数据算法平台和数据挖掘方法,涉及数据处理技术领域,包括数据源管理模块、数据挖掘模块和数据可视化模块;数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对目标数据库中待处理数据进行删改查操作;数据挖掘模块,用于在接收到用配置信息和算法组件组合指令后,基于配置信息配置待组合算法组件,基于算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于任务流程图对待处理数据进行数据挖掘,以生成输出数据;数据可视化模块,用于基于用户导入的数据生成可视化图表。应用本发明提供的大数据算法平台能够便捷和高效的进行数据处理。

Description

一种大数据算法平台和数据挖掘方法
技术领域
本发明属于数据处理技术领域,具体是涉及一种大数据算法平台和数据挖掘方法。
背景技术
在现代数据驱动的世界中,有效地管理和处理大规模结构化数据变得至关重要。在利用这些数据进行数据挖掘时,通常需要相关人员具备一定的数据挖掘基础,或者将任务外包给其他专业服务。为了更有效地利用这些数据,特别是对于非技术用户,提供高度灵活的数据处理能力变得尤为关键,其中包括数据管理、数据处理和可视化展示。
目前,市面上存在许多用于数据处理开源工具,但是这些工具的功能单一。例如,Apache NiFi工具,主要用于自动化处理和传输数据流,但是缺乏高级任务调度和数据可视化功能,因此需要额外的工具来实现完整的任务流程调度和数据可视化展示。ApacheAirflow工具,用于构建复杂的工作流程用于调度和管理数据处理任务,但是它不包含数据源管理和数据可视化模块。由此不利于用户高效、便捷地进行数据处理,而且上述工具要求用户具备一定的技术知识,学习成本过高。
发明内容
本发明的目的在于满足实际需求,提供一种大数据算法平台和数据挖掘方法,该大数据算法平台能够便捷和高效的进行数据处理。
第一方面,本发明提供了一种大数据算法平台,包括数据源管理模块、数据挖掘模块和数据可视化模块;其中,所述数据挖掘模块预先封装若干种实现数据处理的算法组件;
所述数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对所述目标数据库中待处理数据进行更新、查看和删除;
所述数据挖掘模块,用于在接收到用户输入的待组合算法组件的配置信息和算法组件组合指令后,基于所述配置信息配置所述待组合算法组件,基于所述算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于所述任务流程图对所述待处理数据进行数据挖掘,以生成输出数据;
所述数据可视化模块,用于将输出数据与选取的图标进行对接,生成可视化图表。
优选地,所述数据源管理模块,还用于将所述待处理数据上传至目标数据库中后,构建该待处理数据与该目标数据库的唯一标识之间的对应关系。
优选地,所述数据挖掘模块中的每一算法组件对应一个注册模块;每一注册模块,用于将对应的算法组件进行注册处理,生成实例化对象;
所述大数据算法平台的后端解析前端下发的待组合算法组件和算法组件组合指令后,根据任务流节点和执行顺序构建对应的实例化对象;基于所述实例化对象和调用顺序生成可执行文件,以使得所述数据挖掘模块基于所述可执行文件进行数据挖掘。
优选地,所述注册模块中包括build方法和registry方法,所述build方法用于基于配置文件获取实例化对象,所述registry方法用于维护字符串与实例化对象之间的对应关系;所述注册模块具体用于:
将对应的算法组件进行注册处理,映射为目标字符串;基于所述对应关系,将所述目标字符串映射为对应的实例化对象。
优选地,所述数据挖掘模块还包括任务调度子模块;
所述任务调度子模块,用于接收用户输入的任务调度规则;根据所述任务调度规则,利用所述任务流程图对所述待处理数据进行数据处理,以得到输出数据,其中,所述任务调度规则包括:任务开始时刻、任务结束时刻和任务执行周期。
优选地,所述数据挖掘模块还包括任务流程图版本管理子模块,用于在接收到用户输入的查询指令后,查询历史任务流程图;其中,所述任务流程图为有向无环图;
所述数据可视化模块,具体用于根据用户导入的静态数据生成静态可视化图表;或者,根据用户导入的各个历史任务流程图生成的动态数据,生成动态可视化图表。
优选地,所述算法组件包括:数据源组件、数据预处理组件、机器学习组件、数据统计组件、功能算法组件和深度学习组件。
优选地,其特征在于,所述数据源管理模块、数据挖掘模块和数据可视化模块基于开源的大数据处理框架或任务流管理框架构建。
第二方面,本发明还提供了一种数据挖掘方法,基于上述第一方面任一项所述的大数据算法平台,完成如下步骤:
接收到新建任务流程图指令后,基于用户输入的任务调度规则,新建空白的目标任务流程图,其中,所述任务调度规则包括:任务流程图的开始执行时刻、任务流程图的结束执行时刻和任务流程图的执行周期;
判断接收的用户指令是新建目标算法指令还是完成创建指令;
若接收的用户指令是新建目标算法指令,则在所述目标任务流程图增加目标算法组件,作为所述目标任务流程图的节点;基于用户输入的配置信息配置所述目标算法组件;基于用户输入的算法组件组合指令,连接所述目标任务流程图中的各个节点;返回执行所述判断接收的用户指令是新建目标算法指令还是完成创建指令的步骤;
若接收的用户指令是完成创建指令,则结束对所述目标任务流程图的构建;
基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,利用所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据。
优选地,所述基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据,包括:
判断是否接收到用户输入的立即运行指令;
若未接收到用户输入的立即运行指令,则基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据;
若接收到用户输入的立即运行指令,则立即运行所述目标任务流程图;若所述目标任务流程图运行成功,则显示输出数据;若所述目标任务流程图运行失败,则输出所述目标任务流程图中各个目标算法组件的运行状态和运行日志。
与现有技术相比,本申请具有的优点和积极效果是:
本发明提供的大数据算法平台包括数据源管理模块、数据挖掘模块和数据可视化模块。数据源管理模块能够获取并管理待处理数据;数据挖掘模块能够通过算法组件构建任务流程图并基于任务流程图对待处理数据进行数据分析,无需编写复杂的代码,进而可以便捷地进行数据挖掘分析;数据可视化模块能够将输出数据可视化显示,以方便用户可以根据可视化图表进行数据分析。因此,大数据平台提供了一个全面的数据挖掘解决方案,用户可以仅利用大数据平台便能够完成整个数据分析流程,无需使用其他工具,进而能够便捷和高效的进行数据处理。
附图说明
图1为本发明实施例提供的一种大数据算法平台的结构示意图;
图2为本发明实施例提供的一种数据源管理模块的结构示意图;
图3为本发明实施例提供的第一种大数据算法平台的应用界面的示意图;
图4为本发明实施例提供的第二种大数据算法平台的应用界面的示意图;
图5为本发明实施例提供的第三种大数据算法平台的应用界面的示意图;
图6为本发明实施例提供的一种利用大数据算法平台进行数据分析的流程示意图;
图7为本发明实施例提供的第四种大数据算法平台的应用界面的示意图;
图8为本发明实施例提供的一种利用大数据算法平台进行可视化分析的流程示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明创造的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明创造中的具体含义。
第一实施例,参见图1,图1为本发明实施例提供的一种大数据算法平台的结构示意图。大数据算法平台包括数据源管理模块、数据挖掘模块和数据可视化模块。
数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对目标数据库中待处理数据进行更新、查看和删除。
一种实现方式中,参阅图2,图2为本发明实施例提供的一种数据源管理模块的结构示意图。数据源管理模块可以包括数据库管理子模块和文件管理子模块。数据库管理子模块可以包括新建数据库、数据库表查看、更新数据库信息、删除数据库功能。其中,本发明实施例提供的大数据算法平台可以支持的数据库类型包括:MySQL、PostgreSQL、IBMDatabase2、Sqlite和Microsoft SQL Server。
文件管理子模块包括上传文件、查看文件、更新文件、删除文件等功能。作为一个示例,用户可以对文件数据源进行管理,也就是执行上传文件、查看文件、更新文件、删除文件等管理操作,文件数据源管理字段包含数据源名称、文件描述、文件名称、文件类型等字段。
例如,请参阅图3,图3为本发明实施例提供的第一种大数据算法平台的应用界面的示意图。图3中的最后一行示出了待处理数据和目标数据库,目标数据库类型为MySQL、待处理数据为mssql server test、目标数据库名称为EVODetection_FTY20009,目标数据库地址为10.10.1.21,目标数据库端口号为1433。另外,图3还示出了操作选项栏,即可以对待处理数据进行更新、查看和删除等操作。
需要说明的是,本发明实施例提供大数据算法平台对待处理数据的类型和应用场景不作限定,待处理数据可以是结构化数据,也可是非结构化数据。待处理数据可以是车企行业、互联网行业等应用场景下产生的数据。
数据挖掘模块,用于在接收到用户输入的待组合算法组件的配置信息和算法组件组合指令后,基于配置信息配置待组合算法组件,基于算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于任务流程图对待处理数据进行数据挖掘,以得到输出数据。
其中,数据挖掘模块预先封装多种能够实现数据处理的算法组件。本发明的实施例中,算法组件包括:数据源组件、数据预处理组件、机器学习组件、数据统计组件、功能算法组件和深度学习组件。
具体的,数据挖掘模块预先封装多种能够实现数据处理的算法组件,例如可以包括:数据源组件、数据预处理组件、机器学习组件、数据统计组件、功能算法组件和深度学习组件。用户需要预先向数据挖掘模块输入待组合算法组件的配置信息,数据挖掘模块基于配置信息对待组合算法组件的参数进行配置,才可以基于算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图,并基于任务流程图对待处理数据进行数据挖掘,以得到输出数据,此处的输出数据是表格类型的结构化数据,即最终输出数据是一个表格数据,会分页进行查看显示。
本发明实施例包括数据源组件、数据预处理组件、机器学习组件、数据统计组件、功能算法组件和深度学习组件等算法组件,每一种算法组件表示一种算法类型,每一种算法类型又包括多种算子。例如,数据预处理组件包括联合算子、连表和数据切片等算法,机器学习组件包括特征筛选、KNN和线性回归等算法。用户可以点击机器学习组件,然后再拖拽机器学习组件下的朴素贝叶斯算法,配置该算法对应的参数,数据挖掘模块接收到上述配置信息之后,便可以基于配置信息对机器学习组件中朴素贝叶斯算法的参数进行配置。
基于算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图。其中,任务流程图可以是有向无环图结构,也就是说各个待组合算法组件为任务流程图的节点,算法组件组合指令用于指示各个节点的连接方向。有向无环图结构的任务流程图可以管理复杂的任务流程。
例如,请参阅图4,预先配置好SQL数据源、时间计算、批次偏移和批次统计等算法组件,用户可以通过鼠标点击算法间连线的起始点和终结点向该任务图输入算法组合指令,比如:SQL数据源算法组件指向时间计算算法组件、SQL数据源算法组件指向批次偏移算法组件等组合指令,进而数据挖掘模块可以根据上述算法组件组合指令构建如图4所示的任务流程图。
构建好的任务流程图能够表示一个完整的数据处理流程,进而可以利用任务流程图对待处理数据进行数据处理,以得到输出数据。
由此看出,本发明提供的大数据算法平台可以直接提供给用户算法组件功能,不需要用户自己书写代码,降低了学习成本,使得平台适用于更加广泛的用户群体,即包括技术用户和非技术人员,为数据挖掘任务的执行提供了更高的可访问性和可用性。
数据可视化模块,用于将输出数据与选取的图标进行对接,生成可视化图表。
具体的,数据可视化模块可以提供多种图表格式,用于将输出数据在大屏上可视化显示。
上述数据源管理模块、数据挖掘模块和数据可视化模块都可以基于开源的大数据处理框架或任务流管理框架构建,例如,数据挖掘模块和数据可视化模块可以基于大数据处理框架Apache Spark构建,数据可视化模块基于任务流管理框架Apache Airflow构建。
作为一个示例,数据可视化模块预先对Echarts库中的图表进行了封装,由此用户无需深入了解底层技术,即可轻松创建个性化的可视化图表,提高了可视化设计的便捷性和效率。本发明提供的大数据算法平台支持的图表格式包括:柱状图、饼图、折线图、雷达图、漏斗图、热力图、水球图等。
由以上可知,本发明提供的大数据算法平台包括数据源管理模块、数据挖掘模块和数据可视化模块。数据源管理模块能够获取并管理待处理数据;数据挖掘模块能够通过算法组件构建任务流程图并基于任务流程图对待处理数据进行数据分析,无需编写复杂的代码,进而可以便捷地进行数据挖掘分析;数据可视化模块能够将输出数据可视化显示,以方便用户可以根据可视化图表进行数据分析。因此,大数据平台提供了一个全面的数据挖掘解决方案,用户可以仅利用大数据平台便可以完成整个数据分析流程,无需使用其他工具,进而能够便捷和高效的进行数据处理。
另外,数据挖掘模块预先封装多种能够实现数据处理的算法组件,基于算法组件,用户不需要自己书写代码,降低了学习成本,使得平台适用于更加广泛的用户群体,即包括技术用户和非技术人员,为数据挖掘任务的执行提供了更高的可访问性和可用性。
第二实施例,数据源管理模块,还用于将待处理数据上传至目标数据库中后,构建该待处理数据与该目标数据库的唯一标识之间的对应关系。
具体的,数据源管理模块中创建的每一个数据库都有一个唯一标识,通过构建上述对应关系,便可以通过对应关系得知待处理数据属于哪一数据库,进而为用户更为灵活和全面的数据管理功能。
在本实施例中,大数据算法平台使用Airflow的Connection模块,将用户新建的待处理数据存储在Airflow的数据库的connections表中。通过对应的Airflow provider包中的Hooks,利用唯一标识的数据库ID(Connection ID)与待处理数据建立对应,从而实现对数据的读取操作。
第三实施例,数据挖掘模块还包括任务调度子模块,用于接收用户输入的任务调度规则。其中,任务调度规则包括:任务开始时刻、任务结束时刻和任务执行周期。设置任务调度规则是允许用户设定规则之后程序自动调用,达到定期运行新数据的目的。
根据任务调度规则,利用任务流程图对待处理数据进行数据处理,以得到输出数据。
例如,用户可以将任务调度规则设置为:任务开始时刻为9:00,任务结束时刻为11:00,任务执行周期30分钟。当时间到达9:00时,大数据算法平台会自动利用构建好的任务流程图对待处理数据进行数据处理,并且每隔30分钟执行一次,直到11:00结束。
在具体实现中,请参阅图5,图5为本发明实施例提供的第三种大数据算法平台的应用界面的示意图。用户可以点击新建任务流程图,显示界面会弹出模型名称、模型描述、标签、任务开始时刻、任务结束时刻和表示任务执行周期的调度时间。其中,任务开始时刻、任务结束时刻和调度时间为上述任务调度规则,用户输入任务调度规则之后便可以构建任务流程图。成功构建任务流程图之后,数据挖掘模块可以根据用户输入的任务调度规则,当到达任务开始时刻时进行数据挖掘并且每隔调度时间执行一次,直到到达任务结束时刻结束。
因此,本发明实施例提供的大数据算法平台具备定制化任务流程调度的能力,用户可以根据自身需求灵活设置任务调度规则,包括定时、定期等多种调度方式,进而大数据算法平台可以根据任务调度规则灵活地进行数据处理。
需要说明的是,用户前端拖拽算法节点和算法节点之间的连接指令时,大数据算法平台的后端同时会构建可运行的dag Python文件,该dag Python文件存储于airflow所需的/dags目录下,进而airflow可以基于dag Python文件进行任务流的调度计算。
具体的,数据挖掘模块中的每一算法组件对应一个注册模块;每一注册模块,用于将对应的算法组件进行注册处理,生成实例化对象。在进行上述过程中,需要采用注册机制进行算法组件封装和管理。注册模块通过注册机制将一个算法组件映射为一个字符串,从而根据给定的字符串找到对应的函数或类并进行实例化。通过注册机制对算法组件进行封装需要三个基础步骤:
1、创建build方法,build方法可以根据配置文件中的type字段获取实例化对象。
2、创建一个registry,registry用于映射某个字符串到要实例化的对象中,即key-value的映射,因此registry维护了一个全局的key-value对,其中key代表着字符串,value代表着可实例化的对象名。
3、使用声明好的registry来管理映射的算法模块。
注册模块将数据挖掘模块中的每个算法组件注册为一个Registry module,并通过Registry类下的register_module()来封装并注册对应算法组件下的算子。在算子注册完成之后,可以通过配置文件来创建对应的可实例化对象,即build方法会读取配置文件(通常为一个字典),然后实例化符合配置文件中type字段的对象。大数据算法平台的后端解析前端下发的算法组件和算法之间连接规则的配置文件的过程中,首先将配置参数传给注册方法的构造函数,从而实例化对应的注册算法组件;然后基于实例化对象和算法组件间调用顺序生成可运行的Airflow dag Python文件并将其置于airflow所需的/dags目录下,任务流的调度计算将交由airflow运行。
由以上可知,本实施例中的注册模块能够将算法组件构建对应的实例化对象,然后基于实例化对象和调用顺序生成可执行文件,以使得数据挖掘模块能够基于可执行文件进行数据挖掘。由此,工作人员无需编写复杂的代码便可以快捷地进行数据挖掘分析。
第四实施例,数据挖掘模块还包括任务流程图版本管理子模块,用于在接收到用户输入的查询指令后,查询历史任务流程图。即用户可以输入查询指令后,便能够追踪和恢复以前的任务流程版本。这种任务流程图版本管理机制为用户提供了更多的灵活性和可控性,使其能够更加方便地进行数据挖掘任务的管理和优化。
第五实施例,数据可视化模块,具体用于根据用户导入的静态数据生成静态可视化图表;或者,根据用户导入的各个历史任务流程图生成的动态数据,生成动态可视化图表。
也就是说,生成可视化图表的数据来源可以是静态数据或动态数据,其中,静态数据可以是存储在数据库中的待处理数据,也可以是利用任务流程图对待处理数据进行数据挖掘生成的输出数据。动态数据可以是利用历史任务流程图生成的输出数据。
由以上可以得知,数据可视化模块通过利用静态数据生成静态可视化图表,用户可以清晰直接的获取当前版本的数据的相关信息,数据可视化模块通过利用动态数据生成动态可视化图表,用户可以清晰直接的获取各个版本的数据的相关信息,以及各个版本的数据的变化情况,为用户提供的更加全面的数据管理分析功能。
本发明实施例还提供一种数据挖掘方法,包括以下步骤:
步骤1、接收到新建任务流程图指令后,基于用户输入的任务调度规则,新建空白的目标任务流程图。
其中,任务调度规则包括:任务流程图的开始执行时刻、任务流程图的结束执行时刻和任务流程图的执行周期。
步骤2、判断接收的用户指令是新建目标算法指令还是完成创建指令。
若接收的用户指令是新建算法指令,则执行步骤3,若接收的用户指令是完成创建指令,则执行步骤4。
步骤3、在目标任务流程图增加目标算法组件,作为目标任务流程图的节点;基于用户输入的配置信息配置目标算法组件;基于用户输入的算法组件组合指令,连接目标任务流程图中的各个节点。在执行步骤3之后,重新返回执行步骤2。
步骤4、若接收的用户指令是完成创建指令,则结束对目标任务流程图的构建。
例如,若接收到新建数据源指令,则在目标任务流程图增加数据源算法组件,然后为数据源算法组件配置参数,由于目标任务流程图只有一个节点,不需要进行组合,返回执行判断接收的用户指令是新建目标算法指令还是完成创建指令。若接收到新建数据预处理指令,则在目标任务流程图增加数据预处理算法组件,并为数据预处理算法组件配置参数,基于用户输入的算法组件组合指令,连接目标任务流程图中的数据源算法组件和数据预处理算法组件,然后返回执行判断接收的用户指令是新建目标算法指令还是完成创建指令。若接收到的用户指令是完成创建指令,则结束对目标任务流程图的构建。
另外需要说明的是,用户新建空白的目标任务流程图之后,可能由于没有完整的构建思路等原因,直接向大数据算法平台输入完成创建指令,进而大数据算法平台接收到完成创建指令之后,结束对目标任务流程图的构建并保存空白的目标任务流程图。
步骤5、基于任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,利用目标任务流程图对待处理数据进行数据挖掘,以获取输出数据。
例如,若任务调度规则规定的开始执行时刻为9:00,结束执行时刻为11:00,执行周期30分钟。当时间到达9:00时,大数据算法平台会自动利用构建好的目标任务流程图对待处理数据进行数据处理,并且每隔30分钟执行一次,直到11:00结束。
由以上可知,本发明实施例提供的数据挖掘方法是利用算法组件构建任务流程图,利用流程图对待处理数据进行数据挖掘,以获取输出数据。基于算法组件,用户不需要自己书写代码,降低了学习成本,使得平台适用于更加广泛的用户群体,即包括技术用户和非技术人员,为数据挖掘任务的执行提供了更高的可访问性和可用性。
在上述实施例的基础上,在构建目标任务流程图之后,可以判断是否接收到用户输入的立即运行指令。
若未接收到用户输入的立即运行指令,则基于任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,运行目标任务流程图对待处理数据进行数据挖掘,以获取输出数据。
若接收到用户输入的立即运行指令,则立即运行目标任务流程图;若目标任务流程图运行成功,则显示输出数据;若目标任务流程图运行失败,则输出目标任务流程图中各个目标算法组件的运行状态和运行日志。
具体的,用户可以输入立即运行指令以使得目标任务流程图立即运行。当目标任务流程图运行失败时,用户可以查看任务流程图中各个算法组件的运行状态和运行日志,以获取运行失败的算法组件,并重新配置运行失败的算法组件的参数。
下面将本发明提供的大数据算法平台应用于车企数据管理应用,车企数据管理应用用于对车企的零件数量、料边延展性等生产数据进行管理和分析,通过实例说明用户利用数据挖掘模块进行数据分析的流程以及利用数据可视化模块进行可视化分析的流程。请参阅图6,图6为本发明实施例提供的一种利用大数据算法平台进行数据分析的流程示意图。
步骤601、新建任务流程图,并输入任务流程图信息。
具体的,请参阅图5,任务流程图信息可以包括模型名称、模型描述、标签、任务开始时刻、任务结束时刻、任务执行周期等信息,其中,任务开始时刻、任务结束时刻、任务执行周期为任务调度规则,任务执行周期以天、小时和分钟为单位设定执行任务。
用户输入任务流程图信息之后,大数据算法平台显示任务流程图信息创建界面,在任务流程图信息创建界面中,用户可以选择是否新建算法组件,若用户选择新建算法组件,则需要执行步骤602-步骤603。
步骤602、新增算法组件节点。
步骤603、配置新增算法组件节点的参数。
步骤604、组合新增算法组件节点。
具体的,用户可以通过点击的方式或者通过拖拽的方式新增算法组件节点,并配置新增算法组件节点的参数。每一算法组件为任务流程中的一个节点,用户对各个新增算法组件节点进行有向连接。
作为一个示例,用户首先配置数据源,请参阅7,图7仅示例性的给出了MySql数据源、POSTGRE数据源、sklearn数据集、sql和SQL数据源,本发明实施例中的数据源组件还可以包括其他类型的数据源,这里不做限定。用户首先可以将数据源组件中的SQL数据源组件拖拽至任务流程中,然后输入待处理数据、数据库名称、数据库类型、描述、地址、端口等参数配置信息,其中,待处理数据为车企的零件数量、料边延展性等生产数据,以使得数据挖掘模块对车企生产数据进行挖掘分析。用户可以继续将功能算法组件中的批次偏移组件拖拽至任务流程中,并为批次偏移配置参数,然后将SQL数据源组件指向批次偏移组件。用户重复上述流程直至完成任务流程图的创建。
用户创建任务流程图之后,可以退出任务流程图,进而结束数据挖掘流程,也可以立即运行新创建的任务流程图。若立即运行任务流程图,则任务流程图可能执行成功,也可能执行失败。若执行成功,则用户可以查看任务流程图的运行结果,若执行失败,则用户可以查看任务流程图中各个算法组件的运行状态和运行日志,以获取运行失败的算法组件,并重新配置运行失败的算法组件的参数。
下面通过实例说明用户利用数据可视化模块进行数据可视化的流程。请参阅图8,图8为本发明实施例提供的一种利用大数据算法平台进行可视化分析的流程示意图。用户可以通过以下步骤生成可视化图表。
步骤801、用户新建可视化大屏。用户后续步骤生成的可视化图表可以通过该可视化大屏展示给用户。
步骤802、用户输入名称。
步骤803、用户进入可视化设计界面。
步骤804、用户新建图表。即用户可以点击新建图表跳转到建立图表界面。在建立图表界面中,若用户新建图表,则可以执行步骤805-步骤806,否则执行步骤807。
步骤805、用户新增图表。
具体的,可以在图表界面的左侧示出了用户可以新增的图表,如柱状图、饼图、折线图以及地图等,用户可以通过点击或拖拽的方式新增图表。
步骤806、用户配置新增图表。
具体的,用户可以为新增图表配置格式、动画、数据信息等参数,其中,通过图表界面的右侧的页面配置可以为新增图表配置图表的格式和动画,同时也可以根据数据配置为新增图表配置数据信息,数据信息包括动态数据和静态数据。
步骤807、用户完成可视化大屏构建。
具体的,用户新建图表完成之后,便可以在新建的可视化大屏中展示新建的图表。通过上述流程可知,本发明提供的大数据算法平台支持零代码、拖拽式的数据分析任务流构建和可视化展示构建,提高了可视化设计的便捷性和效率。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种大数据算法平台,其特征在于,包括数据源管理模块、数据挖掘模块和数据可视化模块;其中,所述数据挖掘模块预先封装若干种实现数据处理的算法组件;
所述数据源管理模块,用于实现数据库的增删改查操作;将接收到的待处理数据上传至目标数据库中,以及对所述目标数据库中待处理数据进行更新、查看和删除;
所述数据挖掘模块,用于在接收到用户输入的待组合算法组件的配置信息和算法组件组合指令后,基于所述配置信息配置所述待组合算法组件,基于所述算法组件组合指令对配置好的待组合算法组件进行组合,构建任务流程图;基于所述任务流程图对所述待处理数据进行数据挖掘,以生成输出数据;
所述数据可视化模块,用于将输出数据与选取的图标进行对接,生成可视化图表。
2.根据权利要求1所述的大数据算法平台,其特征在于,所述数据源管理模块,还用于将所述待处理数据上传至目标数据库中后,构建该待处理数据与该目标数据库的唯一标识之间的对应关系。
3.根据权利要求1所述大数据算法平台,其特征在于,所述数据挖掘模块中的每一算法组件对应一个注册模块;每一注册模块,用于将对应的算法组件进行注册处理,生成实例化对象;
所述大数据算法平台的后端解析前端下发的待组合算法组件和算法组件组合指令后,根据任务流节点和执行顺序构建对应的实例化对象;基于所述实例化对象和调用顺序生成可执行文件,以使得所述数据挖掘模块基于所述可执行文件进行数据挖掘。
4.根据权利要求3所述大数据算法平台,其特征在于,所述注册模块中包括build方法和registry方法,所述build方法用于基于配置文件获取实例化对象,所述registry方法用于维护字符串与实例化对象之间的对应关系;所述注册模块具体用于:
将对应的算法组件进行注册处理,映射为目标字符串;基于所述对应关系,将所述目标字符串映射为对应的实例化对象。
5.根据权利要求1所述的大数据算法平台,其特征在于,所述数据挖掘模块还包括任务调度子模块;
所述任务调度子模块,用于接收用户输入的任务调度规则;根据所述任务调度规则,利用所述任务流程图对所述待处理数据进行数据处理,以得到输出数据,其中,所述任务调度规则包括:任务开始时刻、任务结束时刻和任务执行周期。
6.根据权利要求1所述的大数据算法平台,其特征在于,所述数据挖掘模块还包括任务流程图版本管理子模块,用于在接收到用户输入的查询指令后,查询历史任务流程图;其中,所述任务流程图为有向无环图;
所述数据可视化模块,具体用于根据用户导入的静态数据生成静态可视化图表;或者,根据用户导入的各个历史任务流程图生成的动态数据,生成动态可视化图表。
7.根据权利要求1所述的大数据算法平台,其特征在于,所述算法组件包括:数据源组件、数据预处理组件、机器学习组件、数据统计组件、功能算法组件和深度学习组件。
8.根据权利要求1所述的大数据算法平台,其特征在于,所述数据源管理模块、数据挖掘模块和数据可视化模块基于开源的大数据处理框架或任务流管理框架构建。
9.一种数据挖掘方法,其特征在于,基于权利要求1-8中任一项所述的大数据算法平台,完成如下步骤:
接收到新建任务流程图指令后,基于用户输入的任务调度规则,新建空白的目标任务流程图,其中,所述任务调度规则包括:任务流程图的开始执行时刻、任务流程图的结束执行时刻和任务流程图的执行周期;
判断接收的用户指令是新建目标算法指令还是完成创建指令;
若接收的用户指令是新建目标算法指令,则在所述目标任务流程图增加目标算法组件,作为所述目标任务流程图的节点;基于用户输入的配置信息配置所述目标算法组件;基于用户输入的算法组件组合指令,连接所述目标任务流程图中的各个节点;返回执行所述判断接收的用户指令是新建目标算法指令还是完成创建指令的步骤;
若接收的用户指令是完成创建指令,则结束对所述目标任务流程图的构建;
基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,利用所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据。
10.根据权利要求9所述的数据挖掘方法,其特征在于,所述基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据,包括:
判断是否接收到用户输入的立即运行指令;
若未接收到用户输入的立即运行指令,则基于所述任务调度规则规定的开始执行时刻、结束执行时刻和执行周期,运行所述目标任务流程图对待处理数据进行数据挖掘,以获取输出数据;
若接收到用户输入的立即运行指令,则立即运行所述目标任务流程图;若所述目标任务流程图运行成功,则显示输出数据;若所述目标任务流程图运行失败,则输出所述目标任务流程图中各个目标算法组件的运行状态和运行日志。
CN202311446349.3A 2023-11-02 2023-11-02 一种大数据算法平台和数据挖掘方法 Active CN117171238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311446349.3A CN117171238B (zh) 2023-11-02 2023-11-02 一种大数据算法平台和数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311446349.3A CN117171238B (zh) 2023-11-02 2023-11-02 一种大数据算法平台和数据挖掘方法

Publications (2)

Publication Number Publication Date
CN117171238A true CN117171238A (zh) 2023-12-05
CN117171238B CN117171238B (zh) 2024-02-23

Family

ID=88941581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311446349.3A Active CN117171238B (zh) 2023-11-02 2023-11-02 一种大数据算法平台和数据挖掘方法

Country Status (1)

Country Link
CN (1) CN117171238B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130060523A (ko) * 2011-11-30 2013-06-10 에스케이플래닛 주식회사 데이터 마이닝 프로세스 자동화 시스템, 방법 및 그에 대한 기록매체
CN104054075A (zh) * 2011-12-06 2014-09-17 派赛普申合伙公司 文本挖掘、分析和输出系统
US20190121807A1 (en) * 2016-06-19 2019-04-25 Data.World, Inc. Computerized tools to develop and manage data-driven projects collaboratively via a networked computing platform and collaborative datasets
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN111984692A (zh) * 2020-02-28 2020-11-24 合肥力拓云计算科技有限公司 基于工业大数据的化工数据分析系统
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112667735A (zh) * 2020-12-23 2021-04-16 武汉烽火众智数字技术有限责任公司 一种基于大数据的可视化模型建立分析系统和方法
CN112835570A (zh) * 2021-03-15 2021-05-25 深圳中科西力数字科技有限公司 一种基于机器学习的可视化数学建模方法和系统
CN114896477A (zh) * 2022-06-08 2022-08-12 徐州医科大学 一种支持多种语言算法的数据挖掘安全可视化系统及方法
CN114925045A (zh) * 2022-04-11 2022-08-19 杭州半云科技有限公司 大数据集成和管理的PaaS平台
CN115878686A (zh) * 2022-09-02 2023-03-31 安徽云层智能科技有限公司 一种数据挖掘系统及方法
CN115934680A (zh) * 2022-12-23 2023-04-07 乐元素科技(北京)股份有限公司 一站式大数据分析处理系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130060523A (ko) * 2011-11-30 2013-06-10 에스케이플래닛 주식회사 데이터 마이닝 프로세스 자동화 시스템, 방법 및 그에 대한 기록매체
CN104054075A (zh) * 2011-12-06 2014-09-17 派赛普申合伙公司 文本挖掘、分析和输出系统
US20190121807A1 (en) * 2016-06-19 2019-04-25 Data.World, Inc. Computerized tools to develop and manage data-driven projects collaboratively via a networked computing platform and collaborative datasets
CN110909039A (zh) * 2019-10-25 2020-03-24 北京华如科技股份有限公司 一种基于拖拽式流程的大数据挖掘工具及方法
CN111984692A (zh) * 2020-02-28 2020-11-24 合肥力拓云计算科技有限公司 基于工业大数据的化工数据分析系统
CN112667735A (zh) * 2020-12-23 2021-04-16 武汉烽火众智数字技术有限责任公司 一种基于大数据的可视化模型建立分析系统和方法
CN112540975A (zh) * 2020-12-29 2021-03-23 中科院计算技术研究所大数据研究院 一种基于petri网的多源异构数据质量检测方法
CN112835570A (zh) * 2021-03-15 2021-05-25 深圳中科西力数字科技有限公司 一种基于机器学习的可视化数学建模方法和系统
CN114925045A (zh) * 2022-04-11 2022-08-19 杭州半云科技有限公司 大数据集成和管理的PaaS平台
CN114896477A (zh) * 2022-06-08 2022-08-12 徐州医科大学 一种支持多种语言算法的数据挖掘安全可视化系统及方法
CN115878686A (zh) * 2022-09-02 2023-03-31 安徽云层智能科技有限公司 一种数据挖掘系统及方法
CN115934680A (zh) * 2022-12-23 2023-04-07 乐元素科技(北京)股份有限公司 一站式大数据分析处理系统

Also Published As

Publication number Publication date
CN117171238B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
Saks JavaScript Frameworks: Angular vs React vs Vue.
CN104732306B (zh) 一种业务应用系统的快速开发系统及方法
US8341593B2 (en) Integrated development framework for composite applications
US10514910B2 (en) Automatically mapping data while designing process flows
US7159209B1 (en) Inter-application validation tool for use in enterprise architecture modeling
US20140310053A1 (en) Method and systems for providing business process suggestions and recommendations utilizing a business process modeler
WO2005043356A2 (en) Methods and systems for automated data processing
CN112558967A (zh) 页面自动生成方法、装置、电子设备和存储介质
Harzenetter et al. Automated generation of management workflows for applications based on deployment models
CN111782181A (zh) 代码生成方法、装置、电子设备以及存储介质
Wiesmayr et al. Assessing the usefulness of a visual programming IDE for large-scale automation software
CN111382314A (zh) 一种实现异构系统业务集成灵活配置的方法
CN117171238B (zh) 一种大数据算法平台和数据挖掘方法
US20150378784A1 (en) Work flow level job input/output
US20090024552A1 (en) Unified development guidelines
CN112181409A (zh) 一种应用构建方法、应用渲染方法及装置
CN115525321A (zh) 分布式任务生成方法、装置、设备及存储介质
US11762363B2 (en) Graph display device, graph display method, and recording medium
Bernard et al. Supporting efficient test automation using lightweight MBT
JPH1069379A (ja) 図的プログラミング方法
CN109062556A (zh) 一种多返回值的函数编程系统
Charalambous et al. Extension of pipe2 to support coloured generalised stochastic petri nets
CN113722341B (zh) 一种运营数据处理方法及相关装置
JP2012256141A (ja) 操作支援方法及び計算機
Riegger Test-based feature management for agile product lines

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant