CN104317582A

CN104317582A - 一种基于机器学习特征的符号回归gp算法

Info

Publication number: CN104317582A
Application number: CN201410551116.4A
Authority: CN
Inventors: 王斌
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2014-10-17
Filing date: 2014-10-17
Publication date: 2015-01-28

Abstract

本发明提供一种基于机器学习特征的符号回归GP算法，Weka的数据存储方式，可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件；大多数的表格数据或者数据库数据可以导出为CSV格式的数据，这种数据是一系列由冒号分离的数据项值；导出完毕后，将文件在文本编辑器中打开，在文件中增加一些属性：将数据集的名字加入到relation标签中，用attribute增加属性信息，数据信息加入到data之后，然后保存。本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法，找出一种新的判断个体相似度的算法，并将其应用到基因规划之中。

Description

一种基于机器学习特征的符号回归GP算法

技术领域

本发明具体地说是一种基于机器学习特征的符号回归GP算法。

背景技术

回归（Regression）过程主要研究和解决的问题是识别和分析出隐藏在实验数据中的数学关系。工业工程和科学研究的工作概括起来就是通过这些实验数据和回归的方法，获取某个实验过程的公式或者模型，再应用到实际中去。

有很多方法和工具可以帮助科研工作者来获取这种逆向工程的符号模型，但在大多数情况，它们都被限制在线性系统之中，或者仅可以使用几种确定模型的非线性系统，像人工神经网络这种无参数的方法也可以在不用预先定义模型的前提下为非线性系统建模，但是它们却不能清晰的展示目标系统的内部结构。

相对于这些方法，符号回归（Symbolic Regression）的优点就是可以不用依赖先验的知识或者模型来为非线性系统建立符号模型。符号回归基于进化算法，它的主要目标就是利用进化方法综合出尽可能好的解决用户自定义问题的方法（数学公式，计算机程序，逻辑表达式等）。

到目前为止，符号回归有三种主要的实现方式：

第一种是基因规划（Genetic Programming–GP），符号回归是基因规划众多应用领域中很重要的一种，通过它可以找到令人满意的函数，这种方法也正是本文重点讨论和研究的内容。

第二种是语法进化（Grammar Evolution），它和基因规划思想一致，都是通过判定适应度来获取目标函数，不同的是语法进化将基因操作符应用到整数的字符串上面，这些字符串通过一定的语法对应于一段程序（即基因规划中的个体）。语法进化的一大优点就是通过这种对应关系简化了不同语言和结构之间的搜索过程。

第三种是分析式规划（Analytic Programming），它的灵感来自于两个已经存在的方法：Hilbert空间和基因规划。分析式编程主要采用并结合了基因规划的进化式的产生符号系统的思想和Hilbert函数空间中通过查找过程构建结果函数的思想。

机器学习（Machine Learning–ML），按照Arthur Samuel（1959）给出的定义：机器学习是一个不用特意编程而使计算机具有学习能力的研究方向。它是人工智能的一个重要分支，主要研究和构建可以从数据中发现知识模型的系统。例如一个机器学习系统可以通过预先的电子邮件的训练而成为识别垃圾邮件的工具，在前期的学习之后，它可以被用来将接受的电子邮件分类为垃圾邮件或者非垃圾邮件。

机器学习的核心问题是如何处理表示和泛化。数据实例以及从数据实例中学习得到的函数方程式是所有机器学习系统的重要部分，而泛化指的是学习后的系统可以应用在以后的数据处理之中。一般认为机器学习的学习类别有三种：有指导的学习（Supervised Learning）、无指导的学习（Unsupervised Learning）和半指导的学习（Semi-Supervised Learning）。机器学习有很广泛和成功的应用，根据预先对字符集的识别训练而可以自动识别光学字符的过程是一种比较典型的应用。

发明内容

本发明的目的是克服现有技术中存在的不足，提供一种基于机器学习特征的符号回归GP算法，本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法，找出一种新的判断个体相似度的算法，并将其应用到基因规划之中。

本发明的技术方案是按以下方式实现的，其结构Weka的数据存储方式，本系统的本地数据存储方式是属性-关系格式的文件；可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件；大多数的表格数据或者数据库数据可以导出为CSV格式的数据，这种数据是一系列由冒号分离的数据项值；导出完毕后，将文件在文本编辑器中打开，在文件中增加一些属性：将数据集的名字加入到relation标签中，用attribute增加属性信息，数据信息加入到data之后，然后保存；除了这样转换为ARFF文件，预处理部分也可以直接读取CSV文件；

现在通过选择文件按钮打开一个数据文件并加载数据，数据加载完毕后，就可以进行后面的工作。

本发明的优点是：

本发明的一种基于机器学习特征的符号回归GP算法和现有技术相比，在此系统中，首先根据实验数据集和机器学习的算法回归出公式来，并运用相同的数据集和基因规划的算法给出其符号回归出的公式，然后将两者的共同结果都呈现给工程人员供其选择使用。论文以后的工作包括将机器学习中的评估方法加入到系统中，以帮助使用人员进行选择。

具体实施方式

下面对本发明的一种基于机器学习特征的符号回归GP算法作以下详细说明。

本发明的一种基于机器学习特征的符号回归GP算法，实验数据可以通过表格文件或者数据库给出。借鉴Weka的数据存储方式，本系统的本地数据存储方式是属性-关系格式（Attribute-relation file format- ARFF）的文件。可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件。大多数的表格数据或者数据库数据可以导出为CSV（Comma-separated value）格式的数据，这种数据是一系列由冒号分离的数据项值。导出完毕后，将文件在文本编辑器中打开，在文件中增加一些属性：将数据集的名字加入到relation标签中，用attribute增加属性信息，数据信息加入到data之后，然后保存。除了这样转换为ARFF文件，预处理部分也可以直接读取CSV文件。

现在通过选择文件按钮打开一个数据文件并加载数据，数据加载完毕后，就可以进行后面的工作。例如加载test.arff文件，里面是预先设计的实验数据。当数据加载完毕，数据集的属性和对数据的简单统计都会被显示出来。

本发明的一种基于机器学习特征的符号回归GP算法其加工制作非常简单方便，按照说明书所示即可。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于机器学习特征的符号回归GP算法，其特征在于Weka的数据存储方式，本系统的本地数据存储方式是属性-关系格式的文件；可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件；大多数的表格数据或者数据库数据可以导出为CSV格式的数据，这种数据是一系列由冒号分离的数据项值；导出完毕后，将文件在文本编辑器中打开，在文件中增加一些属性：将数据集的名字加入到relation标签中，用attribute增加属性信息，数据信息加入到data之后，然后保存；除了这样转换为ARFF文件，预处理部分也可以直接读取CSV文件；