CN109657247B

CN109657247B - 机器学习的自定义语法实现方法及装置

Info

Publication number: CN109657247B
Application number: CN201811566818.4A
Authority: CN
Inventors: 郭庆; 宋怀明; 谢莹莹; 蒋丹东
Original assignee: Zhongke Shuguang International Information Industry Co ltd
Current assignee: Zhongke Shuguang International Information Industry Co ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2023-05-23
Anticipated expiration: 2038-12-19
Also published as: CN109657247A

Abstract

本发明提供一种机器学习的自定义语法实现方法及装置。所述方法包括：对自定义语法进行词法分析和语法分析，转换为抽象语法树；基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划；基于所述逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划；基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试。本发明能够降低机器学习的使用门槛，减少编码以及用户的开发成本。

Description

机器学习的自定义语法实现方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种机器学习的自定义语法实现方法及装置。

背景技术

机器学习是人工智能的一个分支，在近30多年已发展为一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习算法是一类从数据中自动分析获得规律、并利用规律对未知数据进行预测的算法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈等领域。

常用的机器学习算法需要学习特定的编程语言、特定的编译器，并进行复杂的编码实现，对于研究人员的编码能力要求较高，需要花费较高的时间成本学习相关计算机知识。

发明内容

本发明提供的机器学习的自定义语法实现方法及装置，能够降低机器学习的使用门槛，减少编码以及用户的开发成本。

第一方面，本发明提供一种机器学习的自定义语法实现方法，包括：

对自定义语法进行词法分析和语法分析，转换为抽象语法树；

基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划；

基于所述逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划；

基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试。

可选地，所述基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划包括：对抽象语法树进行分析，通过自定义的反射规则，使用Java虚拟机反射功能，构建语法的逻辑执行计划。

可选地，所述词法分析为：将字符序列转换为标记序列。

可选地，所述语法分析为：根据给定的形式文法对由单词序列构成的输入文本进行分析并确定语法结构。

第二方面，本发明提供一种机器学习的自定义语法实现装置，包括：

转换单元，用于对自定义语法进行词法分析和语法分析，转换为抽象语法树；

第一构建单元，用于基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划；

第二构建单元，用于基于所述逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划；

计算单元，用于基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试。

可选地，所述第一构建单元，用于对抽象语法树进行分析，通过自定义的反射规则，使用Java虚拟机反射功能，构建语法的逻辑执行计划

可选地，所述词法分析为：将字符序列转换为标记序列。

本发明实施例提供的机器学习的自定义语法实现方法及装置，通过自定义一种新的语法，涵盖机器学习常用算法，用户只需输入几条语句，就能实现大部分机器学习算法的构建、训练及结果分析，从而能够降低机器学习的使用门槛，减少编码以及研究人员的学习和开发成本。

附图说明

图1为本发明实施例提供的机器学习的自定义语法实现方法的流程图；

图2为本发明实施例提供的机器学习的自定义语法实现方法的执行框图；

图3为本发明实施例提供的机器学习的自定义语法实现装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种机器学习的自定义语法实现方法，如图1所示，所述方法包括：

S11、对自定义语法进行词法分析和语法分析，转换为抽象语法树。

S12、基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划。

S13、基于所述逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划。

S14、基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试。

其中，所述反射机制可以为Java反射机制，但不仅限于此。

所述机器学习库可以为spark相关机器学习库，但不仅限于此。

本发明实施例提供的机器学习的自定义语法实现方法，通过自定义一种新的语法，涵盖机器学习常用算法，用户只需输入几条语句，就能实现大部分机器学习算法的构建、训练及结果分析，从而能够降低机器学习的使用门槛，减少编码以及研究人员的学习和开发成本。

下面对本发明实施例机器学习的自定义语法实现方法进行详细说明。

如图2所示，本方案通过对自定义语法进行词法分析、语法分析，转换为抽象语法树。基于抽象语法树进行语义分析，构建语法的逻辑计划，参考数据的分布情况，构建分布式的物理执行计划，并通过Java反射原理调用spark相关机器学习库，通过分布式内存计算，进行模型的训练及测试。

其中，所述词法分析为计算机科学中将字符序列转换为标记(token)序列的过程。

所述语法分析为根据某种给定的形式文法对由单词序列(如英语单词序列)构成的输入文本进行分析并确定其语法结构的一种过程。

所述抽象语法树是一种语法分析常用的树形结构，常用于存储语法分析的结果。

自定义语法的使用流程较为简单，首先用户需要指定需要操作的数据集，然后指定相应的机器学习算法，对数据进行训练，也可以将原始数据分为测试集和训练集，通过训练数据集训练模型，并通过测试集测试模型的效果。

本方案基于Antlr4进行词法及语法分析，自定义语法结构如下：

所述基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划具体为：对抽象语法树进行分析，通过自定义的反射规则，使用JVM(Java Virtual Machine，Java虚拟机)反射功能，构建语法的逻辑执行计划。反射规则如下所示，通过以下结构的配置文件可以将自定义语法树中的节点反射为机器学习库(例如spark mlib)中的功能函数：

-

func.name:PCA

func.path:"org.apache.spark.ml.feature.PCA"

func.args:

-

arg.spark.funcName:setInputCol

arg.ausname:inputCol

arg.nullable:false

arg.type:"java.lang.String"

-

arg.spark.funcName:setOutputCol

arg.ausname:outputCol

arg.nullable:false

arg.type:"java.lang.String"

-

arg.spark.funcName:setK

arg.nullable:false

arg.ausname:k

arg.type:int

本方案基于逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划，保证计算在内存中高效地执行。

本方案相比Scikit-learn的优势很明显，省去了大量的编码，基于底层的分布式内存计算平台，支持海量数据的训练及测试；相比spark mlib，自定义语法更为简练，不需要用户对分布式计算进行干预，减少了用户开发成本。

本发明实施例还提供一种机器学习的自定义语法实现装置，如图3所示，所述装置包括：

转换单元11，用于对自定义语法进行词法分析和语法分析，转换为抽象语法树；

第一构建单元12，用于基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划；

第二构建单元13，用于基于所述逻辑执行计划，参考数据的分布情况，构建分布式的物理执行计划；

计算单元14，用于基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试。

可选地，所述第一构建单元12，用于对抽象语法树进行分析，通过自定义的反射规则，使用Java虚拟机反射功能，构建语法的逻辑执行计划

可选地，所述词法分析为：将字符序列转换为标记序列。

本发明实施例提供的机器学习的自定义语法实现装置，通过自定义一种新的语法，涵盖机器学习常用算法，用户只需输入几条语句，就能实现大部分机器学习算法的构建、训练及结果分析，从而能够降低机器学习的使用门槛，减少编码以及研究人员的学习和开发成本。

本实施例的装置，可以用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种机器学习的自定义语法实现方法，其特征在于，包括：

基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试；

其中，所述基于所述抽象语法树进行语义分析，构建语法的逻辑执行计划包括：对抽象语法树进行分析，通过自定义的反射规则，使用Java虚拟机反射功能，构建语法的逻辑执行计划。

2.根据权利要求1所述的方法，其特征在于，所述词法分析为：将字符序列转换为标记序列。

3.根据权利要求1所述的方法，其特征在于，所述语法分析为：根据给定的形式文法对由单词序列构成的输入文本进行分析并确定语法结构。

4.一种机器学习的自定义语法实现装置，其特征在于，包括：

计算单元，用于基于所述分布式的物理执行计划，通过反射机制调用相关机器学习库，通过分布式内存计算，进行模型的训练及测试；

其中，所述第一构建单元，用于对抽象语法树进行分析，通过自定义的反射规则，使用Java虚拟机反射功能，构建语法的逻辑执行计划。

5.根据权利要求4所述的装置，其特征在于，所述词法分析为：将字符序列转换为标记序列。