CN104317582A - 一种基于机器学习特征的符号回归gp算法 - Google Patents

一种基于机器学习特征的符号回归gp算法 Download PDF

Info

Publication number
CN104317582A
CN104317582A CN201410551116.4A CN201410551116A CN104317582A CN 104317582 A CN104317582 A CN 104317582A CN 201410551116 A CN201410551116 A CN 201410551116A CN 104317582 A CN104317582 A CN 104317582A
Authority
CN
China
Prior art keywords
data
file
algorithm
machine learning
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410551116.4A
Other languages
English (en)
Inventor
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201410551116.4A priority Critical patent/CN104317582A/zh
Publication of CN104317582A publication Critical patent/CN104317582A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于机器学习特征的符号回归GP算法,Weka的数据存储方式,可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存。本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一种新的判断个体相似度的算法,并将其应用到基因规划之中。

Description

一种基于机器学习特征的符号回归GP算法
技术领域
本发明具体地说是一种基于机器学习特征的符号回归GP算法。
背景技术
回归(Regression)过程主要研究和解决的问题是识别和分析出隐藏在实验数据中的数学关系。工业工程和科学研究的工作概括起来就是通过这些实验数据和回归的方法,获取某个实验过程的公式或者模型,再应用到实际中去。
有很多方法和工具可以帮助科研工作者来获取这种逆向工程的符号模型,但在大多数情况,它们都被限制在线性系统之中,或者仅可以使用几种确定模型的非线性系统,像人工神经网络这种无参数的方法也可以在不用预先定义模型的前提下为非线性系统建模,但是它们却不能清晰的展示目标系统的内部结构。
相对于这些方法,符号回归(Symbolic Regression)的优点就是可以不用依赖先验的知识或者模型来为非线性系统建立符号模型。符号回归基于进化算法,它的主要目标就是利用进化方法综合出尽可能好的解决用户自定义问题的方法(数学公式,计算机程序,逻辑表达式等)。
到目前为止,符号回归有三种主要的实现方式:
第一种是基因规划(Genetic Programming–GP),符号回归是基因规划众多应用领域中很重要的一种,通过它可以找到令人满意的函数,这种方法也正是本文重点讨论和研究的内容。
第二种是语法进化(Grammar Evolution),它和基因规划思想一致,都是通过判定适应度来获取目标函数,不同的是语法进化将基因操作符应用到整数的字符串上面,这些字符串通过一定的语法对应于一段程序(即基因规划中的个体)。语法进化的一大优点就是通过这种对应关系简化了不同语言和结构之间的搜索过程。
第三种是分析式规划(Analytic Programming),它的灵感来自于两个已经存在的方法:Hilbert空间和基因规划。分析式编程主要采用并结合了基因规划的进化式的产生符号系统的思想和Hilbert函数空间中通过查找过程构建结果函数的思想。
机器学习(Machine Learning–ML),按照Arthur Samuel(1959)给出的定义:机器学习是一个不用特意编程而使计算机具有学习能力的研究方向。它是人工智能的一个重要分支,主要研究和构建可以从数据中发现知识模型的系统。例如一个机器学习系统可以通过预先的电子邮件的训练而成为识别垃圾邮件的工具,在前期的学习之后,它可以被用来将接受的电子邮件分类为垃圾邮件或者非垃圾邮件。
机器学习的核心问题是如何处理表示和泛化。数据实例以及从数据实例中学习得到的函数方程式是所有机器学习系统的重要部分,而泛化指的是学习后的系统可以应用在以后的数据处理之中。一般认为机器学习的学习类别有三种:有指导的学习(Supervised Learning)、无指导的学习(Unsupervised Learning)和半指导的学习(Semi-Supervised Learning)。机器学习有很广泛和成功的应用,根据预先对字符集的识别训练而可以自动识别光学字符的过程是一种比较典型的应用。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于机器学习特征的符号回归GP算法,本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一种新的判断个体相似度的算法,并将其应用到基因规划之中。
本发明的技术方案是按以下方式实现的,其结构Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式的文件;可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存;除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件;
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。
本发明的优点是:
本发明的一种基于机器学习特征的符号回归GP算法和现有技术相比,在此系统中,首先根据实验数据集和机器学习的算法回归出公式来,并运用相同的数据集和基因规划的算法给出其符号回归出的公式,然后将两者的共同结果都呈现给工程人员供其选择使用。论文以后的工作包括将机器学习中的评估方法加入到系统中,以帮助使用人员进行选择。
具体实施方式
下面对本发明的一种基于机器学习特征的符号回归GP算法作以下详细说明。
本发明的一种基于机器学习特征的符号回归GP算法,实验数据可以通过表格文件或者数据库给出。借鉴Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式(Attribute-relation file format- ARFF)的文件。可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件。大多数的表格数据或者数据库数据可以导出为CSV(Comma-separated value)格式的数据,这种数据是一系列由冒号分离的数据项值。导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存。除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件。
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。例如加载test.arff文件,里面是预先设计的实验数据。当数据加载完毕,数据集的属性和对数据的简单统计都会被显示出来。
本发明的一种基于机器学习特征的符号回归GP算法其加工制作非常简单方便,按照说明书所示即可。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种基于机器学习特征的符号回归GP算法,其特征在于Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式的文件;可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存;除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件;
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。
CN201410551116.4A 2014-10-17 2014-10-17 一种基于机器学习特征的符号回归gp算法 Pending CN104317582A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410551116.4A CN104317582A (zh) 2014-10-17 2014-10-17 一种基于机器学习特征的符号回归gp算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410551116.4A CN104317582A (zh) 2014-10-17 2014-10-17 一种基于机器学习特征的符号回归gp算法

Publications (1)

Publication Number Publication Date
CN104317582A true CN104317582A (zh) 2015-01-28

Family

ID=52372817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410551116.4A Pending CN104317582A (zh) 2014-10-17 2014-10-17 一种基于机器学习特征的符号回归gp算法

Country Status (1)

Country Link
CN (1) CN104317582A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861885A (zh) * 2017-11-07 2018-03-30 浪潮软件股份有限公司 一种数据传输方法及传输装置
CN108535707A (zh) * 2018-03-30 2018-09-14 北京润科通用技术有限公司 一种雷达性能预测模型建立方法及装置
CN117252306A (zh) * 2023-10-11 2023-12-19 中央民族大学 一种基因编辑能力指数计算方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107861885A (zh) * 2017-11-07 2018-03-30 浪潮软件股份有限公司 一种数据传输方法及传输装置
CN108535707A (zh) * 2018-03-30 2018-09-14 北京润科通用技术有限公司 一种雷达性能预测模型建立方法及装置
CN117252306A (zh) * 2023-10-11 2023-12-19 中央民族大学 一种基因编辑能力指数计算方法
CN117252306B (zh) * 2023-10-11 2024-02-27 中央民族大学 一种基因编辑能力指数计算方法

Similar Documents

Publication Publication Date Title
Dhinakaran et al. App review analysis via active learning: reducing supervision effort without compromising classification accuracy
Richter et al. A multi-dimensional comparison of toolkits for machine learning with big data
US9262506B2 (en) Generating mappings between a plurality of taxonomies
Nyamawe et al. Automated recommendation of software refactorings based on feature requests
KR20210023452A (ko) 속성 단위 리뷰 분석 장치 및 방법
Agrawal et al. Using data mining classifier for predicting student’s performance in UG level
Dhakate et al. Preprocessing and Classification in WEKA using different classifiers
CN104317582A (zh) 一种基于机器学习特征的符号回归gp算法
Galkin et al. Identifying web tables: Supporting a neglected type of content on the web
Krenn et al. Predicting the Future of AI with AI: High-quality link prediction in an exponentially growing knowledge network
Wang et al. Exploring semantics of software artifacts to improve requirements traceability recovery: a hybrid approach
US11829386B2 (en) Identifying anonymized resume corpus data pertaining to the same individual
Shrivastava et al. Implementation of Apriori algorithm using WEKA
Eken et al. Predicting defects with latent and semantic features from commit logs in an industrial setting
Patil Concept-based classification of software defect reports
Awad et al. Analyzing customer reviews on social media via applying association rule
Khurana et al. A Survey on Semantics in Automated Data Science
Oh et al. Automatic identification of drug-induced liver injury literature using natural language processing and machine learning methods
Khan et al. Non Functional Requirements Identification and Classification Using Transfer Learning Model
US20220253593A1 (en) Summary creation method, summary creation system, and summary creation program
Netisopakul et al. The state of knowledge extraction from text for thai language
Oli et al. Automated assessment of quality of Jupyter Notebooks using artificial intelligence and big code
Kumar et al. RAPID PSO BASED FEATURES SELECTION FOR CLASSIFICATION.
Böttcher et al. Detecting transitions in manual tasks from wearables: An unsupervised labeling approach
Bano et al. Partial context similarity of gene/proteins in leukemia using context rank based hierarchical clustering algorithm.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150128