CN113780570A - 基于结构化查询语言语句实现机器学习的方法及装置 - Google Patents

基于结构化查询语言语句实现机器学习的方法及装置 Download PDF

Info

Publication number
CN113780570A
CN113780570A CN202110902021.2A CN202110902021A CN113780570A CN 113780570 A CN113780570 A CN 113780570A CN 202110902021 A CN202110902021 A CN 202110902021A CN 113780570 A CN113780570 A CN 113780570A
Authority
CN
China
Prior art keywords
task
target
machine learning
flow information
query language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110902021.2A
Other languages
English (en)
Inventor
史宁宁
户蕾蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Big Data Technologies Co Ltd
Original Assignee
New H3C Big Data Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Big Data Technologies Co Ltd filed Critical New H3C Big Data Technologies Co Ltd
Priority to CN202110902021.2A priority Critical patent/CN113780570A/zh
Publication of CN113780570A publication Critical patent/CN113780570A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/24569Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于结构化查询语言语句实现机器学习的方法及装置。方法包括:获取目标机器学习任务对应的结构化查询语言语句;对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息;基于目标关键信息,生成目标机器学习任务的任务流程信息;向目标计算服务框架发送任务流程信息,以使目标计算服务框架获取任务流程信息所需的任务要素,并根据任务要素以及任务流程信息执行目标机器学习任务。本申请根据从SQL语句中识别出的目标关键信息生成机器学习任务对应的任务流程信息,并将任务流程信息发送至计算服务框架,实现了在Hive中根据SQL语句自动执行机器学习任务。

Description

基于结构化查询语言语句实现机器学习的方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于结构化查询语言语句实现机器学习的方法及装置。
背景技术
Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上,并提供简单的sql查询功能,可以将sql语句转换为MapReduce或Spark任务进行运行,使得查询和分析方便。
在实现本发明的过程中,发明人发现,当前在Hive中无法直接通过SQL语句执行机器学习任务,Hive仅仅支持基本的SQL查询、过滤、分组、排序、关联等基本功能。当需要调用机器学习算法时,都需要开发人员需要学习Spark代码开发方式,并进行相应的部署,最终导致机器学习的效率较低。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种基于结构化查询语言语句实现机器学习的方法及装置。
根据本申请实施例的一个方面,提供了一种基于结构化查询语言语句实现机器学习的方法,应用于服务器,所述方法包括:
获取目标机器学习任务对应的结构化查询语言语句;
对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息;
基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息;
向目标计算服务框架发送所述任务流程信息,以使所述目标计算服务框架获取所述任务流程信息所需的任务要素,并根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
进一步地,所述对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息,包括:
获取用于进行语法识别的识别项;
基于所述识别项对所述结构化查询语言语句进行语法识别,确定所述结构化查询语言语句中与所述识别项匹配的目标关键信息。
进一步地,所述目标关键信息包括:算法名称、第一表名称以及第二表名称,所述第一表名称用于表示数据提取表,所述第二表名称用于表示数据存储表。
进一步地,所述基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息,包括:
获取初始逻辑树,其中,所述初始逻辑树中包括多个初始流程节点;
确定所述初始流程节点的属性信息;
将与所述属性信息相匹配的目标关键信息写入所述初始流程节点,得到目标流程节点;
基于所述目标流程节点生成目标逻辑树,并基于所述目标逻辑树得到所述任务流程信息。
进一步地,所述基于所述目标逻辑树得到所述任务流程信息,包括:
确定所述目标计算服务框架对应的目标接口;
调用所述目标接口,将所述目标逻辑树中的目标流程节点转换为指定文件格式的所述任务流程信息,其中,所述指定格式为所述目标计算服务框架所支持的文件格式。
根据本申请实施例的再一个方面,还提供了一种基于结构化查询语言语句实现机器学习的方法,应用于目标计算服务框架,所述方法包括:
接收服务器发送的任务流程信息,其中,所述任务流程信息是所述服务器根据目标机器学习任务对应结构化查询语言语句中的目标关键信息得到的;
获取所述任务流程信息所需的任务要素;
根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
进一步地,所述目标关键信息包括:算法名称、第一表名称以及第二表名称,所述第一表名称为数据提取表的表名称,所述第二表名称为数据存储表的表名称;
所述获取所述任务流程信息所需的任务要素,包括:
获取所述算法名称对应的算法模型;
根据所述第一表名称获取所述数据提取表,以及第二表名称获取数据存储表;
将所述算法模型、数据提取表以及数据存储表确定为所述任务要素。
进一步地,所述根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务,包括:
利用所述数据提取表中的数据对所述算法模型进行训练,得到训练后的算法模型,并将训练后算法模型以及所述算法模型在训练过程中的训练数据存储至所述数据存储表;
或,
利用所述算法模型对所述数据提取表中的数据进行预测,得到预测结果,并将所述预测结果存储至所述数据存储表。
根据本申请实施例的另一方面,还提供了一种基于结构化查询语言语句实现机器学习的装置,包括:
获取模块,用于获取目标机器学习任务对应的结构化查询语言语句;
识别模块,用于对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息;
生成模块,用于基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息;
发送模块,用于向目标计算服务框架发送所述任务流程信息,以使所述目标计算服务框架获取所述任务流程信息所需的任务要素,并根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
根据本申请实施例的另一方面,还提供了基于结构化查询语言语句实现机器学习的装置,包括:
接收模块,用于接收服务器发送的任务流程信息,其中,所述任务流程信息是所述服务器根据目标机器学习任务对应的结构化查询语言语句得到的;
获取模块,用于获取所述任务流程信息相应的任务要素;
执行模块,用于根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,程序运行时执行上述的步骤。
根据本申请实施例的另一方面,还提供了一种电子装置,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:存储器,用于存放计算机程序;处理器,用于通过运行存储器上所存放的程序来执行上述方法中的步骤。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述方法中的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请提供的方法,能够根据从SQL语句中识别出的目标关键信息生成任务流程信息,并将任务流程信息发送至计算服务框架,实现了在Hive中根据SQL语句自动执行机器学习任务,解决了在Hive中无法直接通过SQL语句执行机器学习任务的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的方法的流程图;
图2为本申请实施例提供的一种语法树的结构示意图;
图3为本申请另一实施例提供的一种基于结构化查询语言语句实现机器学习的方法的流程图;
图4为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的装置的框图;
图5为本申请另一实施例提供的一种基于结构化查询语言语句实现机器学习的装置的框图;
图6为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的系统的框图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个类似的实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本申请实施例提供了一种基于结构化查询语言语句实现机器学习的方法及装置。本发明实施例所提供的方法可以应用于任意需要的电子设备,例如,可以为服务器、终端等电子设备,在此不做具体限定,为描述方便,后续简称为电子设备。
根据本申请实施例的一方面,提供了一种基于结构化查询语言语句实现机器学习的方法的方法实施例,图1为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的方法的流程图,如图1所示,该方法包括:
步骤S11,获取目标机器学习任务对应的结构化查询语言语句。
本申请实施例中服务器可以是Hive sever,其中,Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上,并提供简单的SQL查询功能,可以将SQL语句转换为Map Reduce或Spark任务进行运行,使得快速度的进行查询和分析。
基于此,本申请在Hive Sever服务器侧提供了一种基于结构化查询语言语句实现机器学习的方法,主要用于对目标机器学习任务对应的结构化查询语言语句进行语法识别,其中,目标机器学习任务可以是模型训练任务也可以是模型预测任务。
在本申请实施例中,在获取目标机器学习任务对应的结构化查询语言语句之前,方法还包括:获取结构化查询语言语句,对结构化查询语言语句进行初步检测,在结构化查询语言语句中携带机器学习任务标识的情况下,将结构化查询语言语句确定为待执行目标机器学习任务对应的结构化查询语言语句。其中,结构化查询语言语句可以由客户端发送的,机器学习任务标识包括:TRAIN(训练)以及PREDICT(预测)。
作为一个示例,当目标机器学习任务为模型训练任务的情况下,其对应的结构化查询语言语句为:
TRAIN Train_Table TO Train_Result_Table USING KMeans OPTIONS(“MaxIter”=”20”,“K”=”2”);
该语句表示使用KMeans语法对表Train_Table中数据进行训练,并将训练得到的模型数据写入Train_Result_Table表,该KMeans算法训练时指定参数为:优化算法求解的最大迭代次数MaxIter为20;聚类K值等于2。
或者,当目标机器学习任务为模型训练任务的情况下,其对应的结构化查询语言语句为:
PREDICT Train_Result_Table FROM Train_Table TO Predict_Result_TableUsing KMeansPrediction;
该语句表示使用KMeansPrediction算法,采用训练模型Train_Result_Table对Train_Table表中数据进行预测,并将预测结果写入Predict_Result_Table表。
步骤S12,对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息。
在本申请实施例中,步骤S12,对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息,包括以下步骤A1-A2:
步骤A1,获取用于进行语法识别的识别项。
在本申请实施例中,为了能够精准的对结构化查询语言语进行识别,在进行识别之前,获取初始抽象语法树,初始抽象语法树中包括多个识别项。
作为一个示例,如图2所示,当结构化查询语言语句为训练语句的情况下,识别项包括:Train、To、Where、Using以及Option。其中,Train用于表示训练,其后一般伴随数据提取表的表名称,To用于表示将训练结果写入哪个数据表,其后一般伴随数据存储表的表名称,Where用于标识过滤条件,Using用于表示使用的算法名称,Option用于表示训练参数。
或者,当结构化查询语言语句为训练语句的情况下,识别项包括:Predict、From、To以及Using,其中,Predict用于表示预测,其后一般伴随训练好的模型的名称,From用于表示数据源,其后一般伴随数据提取表的表名称,To用于表示将训练结果写入哪个数据表,Using用于表示使用的算法名称。
步骤A2,基于识别项对结构化查询语言语句进行语法识别,确定结构化查询语言语句中与识别项匹配的目标关键信息。
在本申请实施例中,通过抽象语法树中的识别项对结构化查询语言语句进行语法进行识别,从结构化查询语言语句中获取每个识别项匹配的目标关键信息,并将得到的目标关键信息写入初始抽象语法树,并将其作为初始抽象语法树中每个识别项的子节点,以形成完整的抽象语法树。目标关键信息至少包括:算法名称、第一表名称以及第二表名称,第一表名称用于表示数据提取表,第二表名称用于表示数据存储表。
步骤S13,基于目标关键信息,生成目标机器学习任务的任务流程信息。
在本申请实施例中,步骤S13,基于目标关键信息,生成目标机器学习任务的任务流程信息,包括以下步骤B1-B4:
步骤B1,获取初始逻辑树,其中,初始逻辑树中包括多个初始流程节点。
步骤B2,确定初始流程节点的属性信息。
在本申请实施例中,在本申请实施例中,每个初始流程节点中携带不同的算子,可以根据算子的功能确定初始流程节点的属性信息。例如:初始流程节点A中包括过滤算子,因此初始流程节点A的属性为过滤。初始流程节点B中包括查询算子,因此初始流程节点A的属性为查询。
步骤B3,将与属性信息相匹配的目标关键信息写入初始流程节点,得到目标流程节点。
在本申请实施例中,将目标关键信息与属性信息进行匹配,并将与属性信息匹配的目标关键信息写入初始流程节点,得到目标流程节点。
如上述实施例,将目标关键信息中的过滤条件写入初始流程节点A,将目标关键信息中的数据提取表的表名称写入初始流程节点B等等。
步骤B4,基于目标流程节点生成目标逻辑树,并基于目标逻辑树得到任务流程信息。
在本申请实施例中,在基于目标流程节点生成目标逻辑树的过程中,还可以对多个目标流程流程节点进行优化,具体的优化过程包括:确定各个目标流程节点的权重,权重用于表示各个目标流程节点的任务量的多少,然后将权重小于预设阈值(目标流程节点的任务量小于预设任务量),且两个相邻的至少两个目标流程节点进行合并,如果合并后得到的流程节点的新权重值仍小于预设阈值,则确定合并成功。最后基于合并成功后的目标流程节点得到目标逻辑树。
在本申请实施例中,通过对目标流程节点进行合并,能够减少目标计算服务框架的工作量,提高机器学习的效率。
在本申请实施例中,基于目标逻辑树得到任务流程信息,包括以下步骤C1-C2:
步骤C1,确定目标计算服务框架对应的目标接口。
步骤C2,调用目标接口,将目标逻辑树中的目标流程节点转换为指定文件格式的任务流程信息,其中,指定格式为目标计算服务框架所支持的文件格式。
在本申请实施例中,首先通过反射方法,获取spark MLlib对应的目标接口,然后调用目标接口,从目标流程节点中解析出算法名称、表名称等信息,并将上述信息按照指定文件格式进行转换,得到目标计算服务框架能够执行的任务流程信息。
作为一个示例,目标接口执行的转换过程如下:
mlAlgorClass=Class.forName(<算法对应的类名>)
mlAlgorObj=mlAlgorClass.newInstance()
method_fit=mlAlgorClass.getMethod("fit",classOf[DataFrame])//使用fit方法执行预测算法
model=method_fit.invoke(mlAlgorObj,df)。
步骤S14,向目标计算服务框架发送任务流程信息,以使目标计算服务框架获取任务流程信息所需的任务要素,并根据任务要素以及任务流程信息执行目标机器学习任务。
在本申请实施例中,将任务流程信息发送至目标计算服务框架后,目标计算服务框架按照任务流程信息调用相应的任务要素(例如:按照算法名称调用相应的算法模型,按照表名称调用数据提取表或者数据存储表等等),并根据任务要素以及任务流程信息执行目标机器学习任务。
本申请实施例在服务器侧部署的方法,能够自动根据从SQL语句中识别出的目标关键信息生成任务流程信息,并将任务流程信息发送至目标计算服务框架,实现了基于SQL语句自动执行机器学习任务,自动解决了目前在Hive中无法直接通过SQL语句执行机器学习任务的问题。
如图3所示,根据本申请实施例的再一个方面,还提供了一种基于结构化查询语言语句实现机器学习的方法,应用于目标计算服务框架,方法包括:
步骤S21,接收服务器发送的任务流程信息,其中,任务流程信息是服务器根据目标机器学习任务对应结构化查询语言语句中的目标关键信息得到的。
在本申请实施例中,目标关键信息至少包括:算法名称、第一表名称以及第二表名称,第一表名称用于表示数据提取表,第二表名称用于表示数据存储表。
在本申请实施例中,目标计算服务框架为Spark框架,Spark框架包括:集群资源管理服务(Cluster Manager)和运行作业任务的结点(Worker Node),然后就是每个应用的任务控制结点Driver和每个机器节点上有具体任务的执行进程(Executor)。
需要说明的是,Spark使用了内存内运算技术,能在数据尚未写入硬盘时即在内存内分析运算。Spark在内存内运行程序的运算速度能做到比Map Reduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。Spark允许用户将数据加载至集群内存,并多次对其进行查询,非常适合用于执行机器学习任务。
步骤S22,获取任务流程信息所需的任务要素。
在本申请实施例中,步骤S22,获取任务流程信息所需的任务要素,包括以下步骤D1-D3:
步骤D1,获取算法名称对应的算法模型。
步骤D2,根据第一表名称获取数据提取表,以及第二表名称获取数据存储表。
步骤D3,将算法模型、数据提取表以及数据存储表确定为任务要素。
在本申请实施例中,直接从任务流程信息中确定目标关键信息(即算法名称、第一表名称、第二表名称等等),然后根据目标关键信息获取相应的任务要素,任务要素包括:算法模型、数据提取表以及数据存储表。目标机器学习任务是模型训练任务时,任务要素还包括:过滤条件、训练参数等等。
在本申请实施例中,算法模型可以按照算法类型进行存储,算法类型包括聚类算法、分类算法、回归算法、协同过滤算法等等。每一种算法类型包括多个算法模型,例如:分类算法包括的模型有KNN算法模型,ANN算法模型等等。
步骤S23,根据任务要素以及任务流程信息执行目标机器学习任务。
在本申请实施例中,步骤S23,根据任务要素以及任务流程信息执行目标机器学习任务,包括:利用数据提取表中的数据对算法模型进行训练,得到训练后的算法模型,并将训练后算法模型以及算法模型在训练过程中的训练数据存储至数据存储表。
作为一个示例,按照过滤条件从表Train_Table(数据提取表)中获取训练数据,使用训练数据对K-Means算法对应的算法模型进行训练,得到训练后的算法模型,将训练后的算法模型进行存储,同时将训练过程中产生的数据存储至数据存储表。
在本申请实施例中,步骤S23,根据任务要素以及任务流程信息执行目标机器学习任务,还包括:利用算法模型对数据提取表中的数据进行预测,得到预测结果,并将预测结果存储至数据存储表。
作为一个示例,采用训练模型Train_Result_Table对Train_Table表(数据提取表)中的数据进行预测,并将预测结果写入Predict_Result_Table表(数据存储表)。
图4为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示,该装置包括:
获取模块41,用于获取目标机器学习任务对应的结构化查询语言语句;
识别模块42,用于对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息;
生成模块43,用于基于目标关键信息,生成目标机器学习任务的任务流程信息;
发送模块44,用于向目标计算服务框架发送任务流程信息,以使目标计算服务框架获取任务流程信息所需的任务要素,并根据任务要素以及任务流程信息执行目标机器学习任务。
在本申请实施例中,识别模块42,用于在本申请实施例中,对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息,包括:获取用于进行语法识别的识别项;基于识别项对结构化查询语言语句进行语法识别,确定结构化查询语言语句中与识别项匹配的目标关键信息。
在本申请实施例中,目标关键信息包括:算法名称、第一表名称以及第二表名称,第一表名称为数据提取表的表名称,第二表名称为数据存储表的表名称。
在本申请实施例中,生成模块43,包括:
获取子模块,用于获取初始逻辑树,其中,初始逻辑树中包括多个初始流程节点;
确定子模块,用于确定初始流程节点的属性信息;
写入子模块,用于将与属性信息相匹配的目标关键信息写入初始流程节点,得到目标流程节点;
生成子模块,用于基于目标流程节点生成目标逻辑树,并基于目标逻辑树得到任务流程信息。
在本申请实施例中,生成子模块,用于确定目标计算服务框架对应的目标接口;调用目标接口,将目标逻辑树中的目标流程节点转换为指定文件格式的任务流程信息,其中,指定格式为目标计算服务框架所支持的文件格式。
图5为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,该装置包括:
接收模块51,用于接收服务器发送的任务流程信息,其中,任务流程信息是服务器根据目标机器学习任务对应的结构化查询语言语句得到的;
获取模块52,用于获取任务流程信息相应的任务要素;
执行模块53,用于根据任务要素以及任务流程信息执行目标机器学习任务。
在本申请实施例中,目标关键信息包括:算法名称、第一表名称以及第二表名称,第一表名称为数据提取表的表名称,第二表名称为数据存储表的表名称;
获取模块52,用于获取算法名称对应的算法模型;根据第一表名称获取数据提取表,以及第二表名称获取数据存储表;将算法模型、数据提取表以及数据存储表确定为任务要素。
在本申请实施例中,执行模块53,用于利用数据提取表中的数据对算法模型进行训练,得到训练后的算法模型,并将训练后算法模型以及算法模型在训练过程中的训练数据存储至数据存储表;
或,执行模块53,用于利用算法模型对数据提取表中的数据进行预测,得到预测结果,并将预测结果存储至数据存储表。
图6为本申请实施例提供的一种基于结构化查询语言语句实现机器学习的系统的框图,如图6所示,该系统包括客户端61、服务器62以及目标计算服务框架63。
客户端61,用于获取结构化查询语言语句,并将结构化查询语言语句发送至服务器62。
服务器62,用于对结构化查询语言语句进行检测,在结构化查询语言语句携带机器学习任务标识的情况下,将结构化查询语言语句确定为待执行目标机器学习任务对应的结构化查询语言语句,对结构化查询语言语句进行语法识别,确定目标机器学习任务的至少一个目标关键信息;基于目标关键信息,生成目标机器学习任务的任务流程信息;向目标计算服务框架63发送任务流程信息。
目标计算服务框架63,用于获取任务流程信息所需的任务要素,并根据任务要素以及任务流程信息执行目标机器学习任务。
本申请实施例还提供一种电子设备,如图7所示,电子设备可以包括:处理器1501、通信接口1502、存储器1503和通信总线1504,其中,处理器1501,通信接口1502,存储器1503通过通信总线1504完成相互间的通信。
存储器1503,用于存放计算机程序;
处理器1501,用于执行存储器1503上所存放的计算机程序时,实现上述实施例的步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种基于结构化查询语言语句实现机器学习的方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的一种基于结构化查询语言语句实现机器学习的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk)等。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种基于结构化查询语言语句实现机器学习的方法,其特征在于,应用于服务器,所述方法包括:
获取目标机器学习任务对应的结构化查询语言语句;
对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息;
基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息;
向目标计算服务框架发送所述任务流程信息,以使所述目标计算服务框架获取所述任务流程信息所需的任务要素,并根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
2.根据权利要求1所述的方法,其特征在于,所述对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息,包括:
获取用于进行语法识别的识别项;
基于所述识别项对所述结构化查询语言语句进行语法识别,确定所述结构化查询语言语句中与所述识别项匹配的目标关键信息。
3.根据权利要求1所述的方法,其特征在于,所述目标关键信息包括:算法名称、第一表名称以及第二表名称,所述第一表名称用于表示数据提取表,所述第二表名称用于表示数据存储表。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息,包括:
获取初始逻辑树,其中,所述初始逻辑树中包括多个初始流程节点;
确定所述初始流程节点的属性信息;
将与所述属性信息相匹配的目标关键信息写入所述初始流程节点,得到目标流程节点;
基于所述目标流程节点生成目标逻辑树,并基于所述目标逻辑树得到所述任务流程信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标逻辑树得到所述任务流程信息,包括:
确定所述目标计算服务框架对应的目标接口;
调用所述目标接口,将所述目标逻辑树中的目标流程节点转换为指定文件格式的所述任务流程信息,其中,所述指定格式为所述目标计算服务框架所支持的文件格式。
6.一种基于结构化查询语言语句实现机器学习的方法,其特征在于,应用于目标计算服务框架,所述方法包括:
接收服务器发送的任务流程信息,其中,所述任务流程信息是所述服务器根据目标机器学习任务对应结构化查询语言语句中的目标关键信息得到的;
获取所述任务流程信息所需的任务要素;
根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
7.根据权利要求6所述的方法,其特征在于,所述目标关键信息包括:算法名称、第一表名称以及第二表名称,所述第一表名称为数据提取表的表名称,所述第二表名称为数据存储表的表名称;
所述获取所述任务流程信息所需的任务要素,包括:
获取所述算法名称对应的算法模型;
根据所述第一表名称获取所述数据提取表,以及第二表名称获取数据存储表;
将所述算法模型、数据提取表以及数据存储表确定为所述任务要素。
8.根据权利要求7所述的方法,其特征在于,所述根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务,包括:
利用所述数据提取表中的数据对所述算法模型进行训练,得到训练后的算法模型,并将训练后算法模型以及所述算法模型在训练过程中的训练数据存储至所述数据存储表;
或,
利用所述算法模型对所述数据提取表中的数据进行预测,得到预测结果,并将所述预测结果存储至所述数据存储表。
9.一种基于结构化查询语言语句实现机器学习的装置,其特征在于,包括:
获取模块,用于获取目标机器学习任务对应的结构化查询语言语句;
识别模块,用于对所述结构化查询语言语句进行语法识别,确定所述目标机器学习任务的至少一个目标关键信息;
生成模块,用于基于所述目标关键信息,生成所述目标机器学习任务的任务流程信息;
发送模块,用于向目标计算服务框架发送所述任务流程信息,以使所述目标计算服务框架获取所述任务流程信息所需的任务要素,并根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
10.一种基于结构化查询语言语句实现机器学习的装置,其特征在于,包括:
接收模块,用于接收服务器发送的任务流程信息,其中,所述任务流程信息是所述服务器根据目标机器学习任务对应的结构化查询语言语句得到的;
获取模块,用于获取所述任务流程信息相应的任务要素;
执行模块,用于根据所述任务要素以及所述任务流程信息执行所述目标机器学习任务。
11.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至8中任一项所述的方法步骤。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;其中:
存储器,用于存放计算机程序;
处理器,用于通过运行存储器上所存放的程序来执行权利要求1-8中任一项所述的方法步骤。
CN202110902021.2A 2021-08-06 2021-08-06 基于结构化查询语言语句实现机器学习的方法及装置 Pending CN113780570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110902021.2A CN113780570A (zh) 2021-08-06 2021-08-06 基于结构化查询语言语句实现机器学习的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110902021.2A CN113780570A (zh) 2021-08-06 2021-08-06 基于结构化查询语言语句实现机器学习的方法及装置

Publications (1)

Publication Number Publication Date
CN113780570A true CN113780570A (zh) 2021-12-10

Family

ID=78836978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110902021.2A Pending CN113780570A (zh) 2021-08-06 2021-08-06 基于结构化查询语言语句实现机器学习的方法及装置

Country Status (1)

Country Link
CN (1) CN113780570A (zh)

Similar Documents

Publication Publication Date Title
US20190087490A1 (en) Text classification method and apparatus
US7730007B2 (en) IT event data classifier configured to label messages if message identifiers map directly to classification categories or parse for feature extraction if message identifiers do not map directly to classification categories
CN108984155B (zh) 数据处理流程设定方法和装置
US11568057B2 (en) Systems and methods for triaging software vulnerabilities
KR101965277B1 (ko) 하이퍼그래프 데이터 분석 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
US20170011114A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
JP2023545625A (ja) ソフトウェアの脆弱性のトリアージのためのシステムおよび方法
Shah et al. Towards benchmarking feature type inference for automl platforms
CN113051362A (zh) 数据的查询方法、装置和服务器
CN112328489A (zh) 测试用例生成方法、装置、终端设备和存储介质
CN110532056A (zh) 一种应用于用户界面中的控件识别方法及装置
CN107871055B (zh) 一种数据分析方法和装置
KR20210063882A (ko) 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
US11625630B2 (en) Identifying intent in dialog data through variant assessment
CN112256517B (zh) 基于lstm-dssm的虚拟化平台的日志分析方法及装置
CN113343248A (zh) 一种漏洞识别方法、装置、设备和存储介质
CN111221888A (zh) 大数据分析系统及方法
KR20220074574A (ko) 지식 그래프 기반 라이브스트림 실시간 채팅 내용 분석 방법 및 그 장치
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
KR20210063875A (ko) 마케팅 정보 분석 서비스 제공을 위한 프로그램 및 기록매체
EP4270239A1 (en) Supervised machine learning method for matching unsupervised data
CN113780570A (zh) 基于结构化查询语言语句实现机器学习的方法及装置
CN105677827B (zh) 一种表单的获取方法及装置
JP2010072876A (ja) ルール作成プログラム、ルール作成方法及びルール作成装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination