CN104317582A - 一种基于机器学习特征的符号回归gp算法 - Google Patents
一种基于机器学习特征的符号回归gp算法 Download PDFInfo
- Publication number
- CN104317582A CN104317582A CN201410551116.4A CN201410551116A CN104317582A CN 104317582 A CN104317582 A CN 104317582A CN 201410551116 A CN201410551116 A CN 201410551116A CN 104317582 A CN104317582 A CN 104317582A
- Authority
- CN
- China
- Prior art keywords
- data
- file
- algorithm
- machine learning
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 238000010801 machine learning Methods 0.000 title claims abstract description 21
- 230000002068 genetic effect Effects 0.000 title abstract description 3
- 241000288113 Gallirallus australis Species 0.000 claims abstract description 4
- 238000013500 data storage Methods 0.000 claims abstract description 4
- 238000000034 method Methods 0.000 claims description 17
- 230000008676 import Effects 0.000 claims description 4
- 210000001072 colon Anatomy 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 abstract 1
- 108090000623 proteins and genes Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供一种基于机器学习特征的符号回归GP算法,Weka的数据存储方式,可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存。本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一种新的判断个体相似度的算法,并将其应用到基因规划之中。
Description
技术领域
本发明具体地说是一种基于机器学习特征的符号回归GP算法。
背景技术
回归(Regression)过程主要研究和解决的问题是识别和分析出隐藏在实验数据中的数学关系。工业工程和科学研究的工作概括起来就是通过这些实验数据和回归的方法,获取某个实验过程的公式或者模型,再应用到实际中去。
有很多方法和工具可以帮助科研工作者来获取这种逆向工程的符号模型,但在大多数情况,它们都被限制在线性系统之中,或者仅可以使用几种确定模型的非线性系统,像人工神经网络这种无参数的方法也可以在不用预先定义模型的前提下为非线性系统建模,但是它们却不能清晰的展示目标系统的内部结构。
相对于这些方法,符号回归(Symbolic Regression)的优点就是可以不用依赖先验的知识或者模型来为非线性系统建立符号模型。符号回归基于进化算法,它的主要目标就是利用进化方法综合出尽可能好的解决用户自定义问题的方法(数学公式,计算机程序,逻辑表达式等)。
到目前为止,符号回归有三种主要的实现方式:
第一种是基因规划(Genetic Programming–GP),符号回归是基因规划众多应用领域中很重要的一种,通过它可以找到令人满意的函数,这种方法也正是本文重点讨论和研究的内容。
第二种是语法进化(Grammar Evolution),它和基因规划思想一致,都是通过判定适应度来获取目标函数,不同的是语法进化将基因操作符应用到整数的字符串上面,这些字符串通过一定的语法对应于一段程序(即基因规划中的个体)。语法进化的一大优点就是通过这种对应关系简化了不同语言和结构之间的搜索过程。
第三种是分析式规划(Analytic Programming),它的灵感来自于两个已经存在的方法:Hilbert空间和基因规划。分析式编程主要采用并结合了基因规划的进化式的产生符号系统的思想和Hilbert函数空间中通过查找过程构建结果函数的思想。
机器学习(Machine Learning–ML),按照Arthur Samuel(1959)给出的定义:机器学习是一个不用特意编程而使计算机具有学习能力的研究方向。它是人工智能的一个重要分支,主要研究和构建可以从数据中发现知识模型的系统。例如一个机器学习系统可以通过预先的电子邮件的训练而成为识别垃圾邮件的工具,在前期的学习之后,它可以被用来将接受的电子邮件分类为垃圾邮件或者非垃圾邮件。
机器学习的核心问题是如何处理表示和泛化。数据实例以及从数据实例中学习得到的函数方程式是所有机器学习系统的重要部分,而泛化指的是学习后的系统可以应用在以后的数据处理之中。一般认为机器学习的学习类别有三种:有指导的学习(Supervised Learning)、无指导的学习(Unsupervised Learning)和半指导的学习(Semi-Supervised Learning)。机器学习有很广泛和成功的应用,根据预先对字符集的识别训练而可以自动识别光学字符的过程是一种比较典型的应用。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于机器学习特征的符号回归GP算法,本发明结合树向集合的转换算法、集合相似度算法、最小哈希和局部敏感哈希算法,找出一种新的判断个体相似度的算法,并将其应用到基因规划之中。
本发明的技术方案是按以下方式实现的,其结构Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式的文件;可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存;除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件;
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。
本发明的优点是:
本发明的一种基于机器学习特征的符号回归GP算法和现有技术相比,在此系统中,首先根据实验数据集和机器学习的算法回归出公式来,并运用相同的数据集和基因规划的算法给出其符号回归出的公式,然后将两者的共同结果都呈现给工程人员供其选择使用。论文以后的工作包括将机器学习中的评估方法加入到系统中,以帮助使用人员进行选择。
具体实施方式
下面对本发明的一种基于机器学习特征的符号回归GP算法作以下详细说明。
本发明的一种基于机器学习特征的符号回归GP算法,实验数据可以通过表格文件或者数据库给出。借鉴Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式(Attribute-relation file format- ARFF)的文件。可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件。大多数的表格数据或者数据库数据可以导出为CSV(Comma-separated value)格式的数据,这种数据是一系列由冒号分离的数据项值。导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存。除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件。
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。例如加载test.arff文件,里面是预先设计的实验数据。当数据加载完毕,数据集的属性和对数据的简单统计都会被显示出来。
本发明的一种基于机器学习特征的符号回归GP算法其加工制作非常简单方便,按照说明书所示即可。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种基于机器学习特征的符号回归GP算法,其特征在于Weka的数据存储方式,本系统的本地数据存储方式是属性-关系格式的文件;可以轻易的将表格数据或者数据库数据转换为ARFF格式的数据文件;大多数的表格数据或者数据库数据可以导出为CSV格式的数据,这种数据是一系列由冒号分离的数据项值;导出完毕后,将文件在文本编辑器中打开,在文件中增加一些属性:将数据集的名字加入到relation标签中,用attribute增加属性信息,数据信息加入到data之后,然后保存;除了这样转换为ARFF文件,预处理部分也可以直接读取CSV文件;
现在通过选择文件按钮打开一个数据文件并加载数据,数据加载完毕后,就可以进行后面的工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410551116.4A CN104317582A (zh) | 2014-10-17 | 2014-10-17 | 一种基于机器学习特征的符号回归gp算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410551116.4A CN104317582A (zh) | 2014-10-17 | 2014-10-17 | 一种基于机器学习特征的符号回归gp算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104317582A true CN104317582A (zh) | 2015-01-28 |
Family
ID=52372817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410551116.4A Pending CN104317582A (zh) | 2014-10-17 | 2014-10-17 | 一种基于机器学习特征的符号回归gp算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104317582A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861885A (zh) * | 2017-11-07 | 2018-03-30 | 浪潮软件股份有限公司 | 一种数据传输方法及传输装置 |
CN108535707A (zh) * | 2018-03-30 | 2018-09-14 | 北京润科通用技术有限公司 | 一种雷达性能预测模型建立方法及装置 |
CN117252306A (zh) * | 2023-10-11 | 2023-12-19 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
-
2014
- 2014-10-17 CN CN201410551116.4A patent/CN104317582A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107861885A (zh) * | 2017-11-07 | 2018-03-30 | 浪潮软件股份有限公司 | 一种数据传输方法及传输装置 |
CN108535707A (zh) * | 2018-03-30 | 2018-09-14 | 北京润科通用技术有限公司 | 一种雷达性能预测模型建立方法及装置 |
CN117252306A (zh) * | 2023-10-11 | 2023-12-19 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
CN117252306B (zh) * | 2023-10-11 | 2024-02-27 | 中央民族大学 | 一种基因编辑能力指数计算方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dhinakaran et al. | App review analysis via active learning: reducing supervision effort without compromising classification accuracy | |
Richter et al. | A multi-dimensional comparison of toolkits for machine learning with big data | |
US9262506B2 (en) | Generating mappings between a plurality of taxonomies | |
Nyamawe et al. | Automated recommendation of software refactorings based on feature requests | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
Agrawal et al. | Using data mining classifier for predicting student’s performance in UG level | |
Dhakate et al. | Preprocessing and Classification in WEKA using different classifiers | |
CN104317582A (zh) | 一种基于机器学习特征的符号回归gp算法 | |
Galkin et al. | Identifying web tables: Supporting a neglected type of content on the web | |
Krenn et al. | Predicting the Future of AI with AI: High-quality link prediction in an exponentially growing knowledge network | |
Wang et al. | Exploring semantics of software artifacts to improve requirements traceability recovery: a hybrid approach | |
US11829386B2 (en) | Identifying anonymized resume corpus data pertaining to the same individual | |
Shrivastava et al. | Implementation of Apriori algorithm using WEKA | |
Eken et al. | Predicting defects with latent and semantic features from commit logs in an industrial setting | |
Patil | Concept-based classification of software defect reports | |
Awad et al. | Analyzing customer reviews on social media via applying association rule | |
Khurana et al. | A Survey on Semantics in Automated Data Science | |
Oh et al. | Automatic identification of drug-induced liver injury literature using natural language processing and machine learning methods | |
Khan et al. | Non Functional Requirements Identification and Classification Using Transfer Learning Model | |
US20220253593A1 (en) | Summary creation method, summary creation system, and summary creation program | |
Netisopakul et al. | The state of knowledge extraction from text for thai language | |
Oli et al. | Automated assessment of quality of Jupyter Notebooks using artificial intelligence and big code | |
Kumar et al. | RAPID PSO BASED FEATURES SELECTION FOR CLASSIFICATION. | |
Böttcher et al. | Detecting transitions in manual tasks from wearables: An unsupervised labeling approach | |
Bano et al. | Partial context similarity of gene/proteins in leukemia using context rank based hierarchical clustering algorithm. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150128 |