CN102473247B - 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 - Google Patents

用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 Download PDF

Info

Publication number
CN102473247B
CN102473247B CN201080029509.9A CN201080029509A CN102473247B CN 102473247 B CN102473247 B CN 102473247B CN 201080029509 A CN201080029509 A CN 201080029509A CN 102473247 B CN102473247 B CN 102473247B
Authority
CN
China
Prior art keywords
algorithm
feature
plant
data set
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201080029509.9A
Other languages
English (en)
Other versions
CN102473247A (zh
Inventor
D.卡拉维洛
R.帕特尔
R.佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Corteva Agriscience LLC
Original Assignee
Dow AgroSciences LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=42685709&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN102473247(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Dow AgroSciences LLC filed Critical Dow AgroSciences LLC
Publication of CN102473247A publication Critical patent/CN102473247A/zh
Application granted granted Critical
Publication of CN102473247B publication Critical patent/CN102473247B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • AHUMAN NECESSITIES
    • A01AGRICULTURE; FORESTRY; ANIMAL HUSBANDRY; HUNTING; TRAPPING; FISHING
    • A01HNEW PLANTS OR NON-TRANSGENIC PROCESSES FOR OBTAINING THEM; PLANT REPRODUCTION BY TISSUE CULTURE TECHNIQUES
    • A01H1/00Processes for modifying genotypes ; Plants characterised by associated natural traits
    • A01H1/04Processes of selection involving genotypic or phenotypic markers; Methods of using phenotypic markers for selection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Abstract

本公开涉及使用一种或多种关联规则挖掘算法来挖掘含有由至少一种基于植物或动物的分子遗传标志物创建的特征的数据集,发现关联规则和使用由这些关联规则创建的特征来分类或预测。

Description

用于在包含分子遗传标志物的植物和动物数据集中挖掘关联 规则,继而利用由这些关联规则创建的特征进行分类或预测 的机器学习方法的应用
优先权声明
本申请基于2009年6月30日在美国专利和商标局提交的临时申请61/221,804要求优先权,在此将其全部公开内容引入作为参考。
技术领域
本公开涉及一种或多种关联规则挖掘算法(association rule miningalgorithm)的用途,用于挖掘含有由至少一种基于植物或动物的分子遗传标志物创建的特征的数据集(data set),发现关联规则,以及利用由这些关联规则创建的特征用于分类或预测。
背景技术
植物和动物改良的一个主要目标是获得新的栽培种,该新的栽培种在所期望的目标特征方面优异,所期望的目标特征例如产率、谷物油含量(grain oil content)、疾病抗性以及对非生物胁迫的抗性。
传统的植物和动物改良的方法是基于动物或植物的表型,或它们的后代的表型来选择单个的植物或动物。随后,可以对选择的个体进行,例如进一步测试或使其成为未来世代的亲本。对于一些育种项目在产生针对特定个体的表型之前或当针对该个体仅获得了少量表型记录时拥有对其特性的预测是有益的。
仅倚靠表型选择的植物和动物改良方法的一些关键限制在于成本和产生这些数据的速度,并且环境(例如,温度、管理、土壤条件、日光、灌溉条件)对于目标特征的表达存在强烈影响。
近来,分子遗传标志物的发展开启了在使用植物或动物的表型、环境信息和其它类型的特征之外,使用植物或动物的基于DNA的特征来完成多种任务的可能性。
针对这种类型的数据集的数据分析方法的一些重要的考虑在于挖掘历史数据的能力,对于多重共线性具有鲁棒性(to be robust to multicollinearity)的能力,以及说明(account for)包括在这些数据集中的特征之间的相互作用(例如,受环境相互作用影响的基因型和上位效应(epistatic effect))的能力。挖掘历史数据的能力避免了对用于数据分析的高度结构化数据(highly structured data)的需求。需要来自有计划的实验的高度结构化数据的方法通常在人力资源、经费和时间方面是资源密集型的。在经济上重要的植物和动物中大量最为重要的性状的表达受到强烈的环境影响,这要求这样的实验是大型的、经谨慎设计并且受到谨慎控制的。多重共线性限制是指如下情况:其中两种或更多种特征(或特征子集(feature subset))彼此成线性关系。多重共线性可能会导致精确性较低的评价,该评价是对于特征(或特征子集)对目标特征的影响的评价,并且从而导致有偏向的预测。
基于挖掘关联规则的框架(framework)并利用由这些规则创建的特征来改善预测或分类对于解决上述三方面的考虑是适当的。用于分类或预测的优选方法是机器学习方法(machine learning method)。因此,可以将关联规则用于对一个或多个目标特征的分类或预测。
在本公开中描述的方法是倚靠执行一种或多种基于机器学习的关联规则挖掘算法来挖掘含有至少一种植物或动物分子遗传标志物的数据集,基于所发现的关联规则来创建特征,并使用这些特征用于目标特征的分类或预测。
发明内容
在实施方式中,公开如下方法:所述方法挖掘含有由至少一种基于植物的分子遗传标志物创建的特征的数据集以发现至少一种关联规则,以及随后使用由这些关联规则创建的特征来进行分类或预测。这些方法中的一些适合用于以含有植物和动物特征的数据集来进行的分类或预测。
在实施方式中,挖掘具有由至少一种基于植物的分子遗传标志物创建的至少一种特征的数据集,以发现至少一种关联规则,并利用由这些关联规则创建的特征来分类或预测一种或多种目标特征的步骤包括:
(a)探测关联规则;
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)使用至少一种利用步骤(b)中创建的特征而创建的特征,针对一种或多种目标特征的模型开发(model development);
(d)从数据集中的特征中选择特征的子集;以及
(e)使用自组织映射(self-organizing maps)(参见Teuvo Kohonen(2000),Self-Organizing Map,Springer,第三版),从空间和时间的关联探测关联规则。
在实施方式中,公开了挖掘具有一种或多种特征的数据集的方法,其中所述方法包括使用至少一种基于植物的分子标志物以发现至少一种关联规则,并利用由这些关联规则创建的特征来进行分类或预测,该方法包括以下步骤:(a)探测关联规则,(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;(c)从数据集中的特征中选择特征的子集。
在实施方式中,将关联规则挖掘算法用于使用一种或多种机器学习算法的分类或预测,所述机器学习算法选自:特征评估算法(feature evaluation algorithm)、特征子集选择算法(feature subset selection algorithm)、贝叶斯网络(Bayesian network)(参见Cheng和Greiner(1999),Comparing Bayesian network classifiers.ProceedingsUAI,pp.101-107.)、基于实例的算法(instance-based algorithm)、支持向量机(supportvector machine)(参见例如Shevade等人(1999),Improvements to SMO Algorithm forSVM Regression.Technical Report CD-99-16,Control Division Dept of Mechanicaland Production Engineering,National University of Singapore;Smola等人(1998).ATutorial on Support Vector Regression.NeuroCOLT2 Technical Report Series-NC2-TR-1998-030;SchOlkopf(1998).SVMs-a practical consequence of learningtheory.IEEE Intelligent Systems.IEEE Intelligent Systems 13.4:18-21;Boser等人(1992),A Training Algorithm for Optimal Margin Classifiers V144-52;以及Burges(1998),A tutorial on support vector machines for pattern recognition.DataMining and Knowledge Discovery 2(1998):121-67)、投票算法(vote algorithm)、代价敏感分类器(cost-sensitive classifier)、叠加算法(stacking algorithm)、分类规则(classification rule)和决策树算法(decision tree algorithm)(参见Witten和Frank(2005),Data Mining:Practical machine learning Tools and Techniques.MorganKaufmann,San Francisco,第二版)。
适合的关联规则挖掘算法包括但不限于:APriori算法(参见Witten和Frank(2005),Data Mining:Practical machine learning Tools and Techniques.MorganKaufmann,San Francisco,Second Edition)、FP-growth算法、可以处理大量特征的关联规则挖掘算法、巨模式挖掘算法(colossal pattern mining algorithm)、直接判别模式挖掘算法(direct discriminative pattern mining algorithm)、决策树(decision tree)、粗糙集(rough set)(参见Zdzislaw Pawlak (1992),Rough Sets:Theoretical Aspects ofReasoning About Data.Kluwer Academic Print on Demand)和自组织映射(SOM)算法。
在实施方式中,处理大量特征的适合的关联规则挖掘算法包括但不限于:CLOSET+(参见Wang等人(2003),CLOSET+:Searching for best strategies for mining frequentclosed itemsets,ACM SIGKDD 2003,pp.236-245)、CHARM(参见Zaki等人(2002),CHARM:Anefficient algorithm for closed itemset mining,SIAM 2002,pp.457-473)、CARPENTER(参见Pan等人(2003),CARPENTER:Finding Closed Patterns in Long BiologicalDatasets,ACM SIGKDD 2003,pp.637-642)和COBBLER(参见Pan等人(2004),COBBLER:Combining Column and Row Enumeration for Closed Pattern Discovery,SSDBM 2004,pp.21)。
在实施方式中,发现直接判别模式(direct discriminative pattern)的适合的算法包括但不限于:DDPM(参见Cheng等人(2008),Direct Discriminative PatternMining for Effective Classification,ICDE 2008,pp.169-178)、HARMONY(参见Jiyong等人(2005),HARMONY:Efficiently Mining the Best Rules for Classification,SIAM2005,pp.205-216)、RCBT(参见Cong等人(2005),Mining top-K covering rule groupsfor gene expression data,ACM SIGMOND 2005,pp.670-681)、CAR(参见Kianmehr等人(2008,CARSV M:A class association rule-based classification framework and itsapplication in gene expression data,Artificial Intelligence in Medicine 2008,pp.7-25)和PATCLASS(参见Cheng等人(2007),Discriminative Frequent PatternAnalysis for Effective Classification,ICDE 2007,pp.716-725)。
在实施方式中,发现巨模式的适合的算法包括但不限于:模式融合算法(PatternFusion algorithm)(参见Zhu等人(2007),Mining Colossal Frequent Patterns by CorePattern Fusion,ICDE 2007,pp.706-715)。
在实施方式中,适合的特征评估算法选自下组:信息增益算法(information gainalgorithm)、Relief算法(Relief algorithm)(参见例如,Robnik-Sikonja和Kononenko(2003),Theoretical and empirical analysis of Relief and ReliefF.Machinelearning,53:23-69;以及Kononenko(1995).On biases in estimating multi-valuedattributes.In IJCAI95,pages 1034-1040)、ReliefF算法(ReliefF algorithm)(参见例如,Kononenko,(1994),Estimating attributes:analysis and extensions of Relief.In:L.De Raedt and F.Bergadano(eds.):Machine learning:ECML-94.171-182,SpringerVerlag.)、RReliefF算法(RReliefF algorithm)、对称不确定性算法(symmetricaluncertainty algorithm)、增益率算法(gain ratio algorithm)、以及评级算法(rankeralgorithm)。
在实施方式中,适合的机器学习算法是选自下组的特征子集选择算法:与其它任何机器学习算法联合的包装算法(wrapper algorithm),以及基于关联性的特征选择(correlation-based feature selection(CFS))算法(参见Hall,M.A..1999.Correlation-based feature selection for MachineLearning.Ph.D.thesis.Department of Computer Science-The University ofWaikato,New Zealand.)。这些特征子集选择算法可以与选自下组的搜索方法联合:贪婪逐步搜索算法(greedy stepwise search algorithm)、最好优先搜索算法(best firstsearch algorithm)、穷举搜索算法(exhaustive search algorithm)、Race搜索算法(racesearch algorithm)、以及评级搜索算法(rank search algorithm)。
在实施方式中,适合的机器学习算法是贝叶斯网络算法(Bayesian networkalgorithm),包括朴素贝叶斯算法(Bayes algorithm)。
在实施方式中,适合的机器学习算法是选自下组的基于实例的算法:基于实例1(instance-based 1)(IB 1)算法、基于实例k-近邻(instance-based k-nearestneighbor)(IBK)算法、KStar算法、惰式贝叶斯规则(lazy Bayesian rule)(LBR)算法和局部加权学习(locally weighted learning)(LWL)算法。
在实施方式中,适合的用于分类或预测的机器学习算法是支持向量机算法。在优选的实施方式中,适合的机器学习算法是使用序列最小优化(sequential minimaloptimization)(SMO)算法的支持向量机算法。在优选的实施方式中,机器学习算法是使用回归型序列最小优化(sequential minimal optimization for regression)(SMOReg)算法的支持向量机算法(参见例如,Shevade等人(1999),Improvements to SMO Algorithmfor SVM Regression.Technical Report CD-99-16,Control Division Dept ofMechanical and Production Engineering,National University of Singapore;Smola和Scholkopf(1998),A Tutorial on Support Vector Regression.NeuroCOLT2Technical Report Series-NC2-TR-1998-030)。
在实施方式中,适合的机器学习算法是自组织映射(Self-organizing maps,Teuvo Kohonen,Springer)。
在实施方式中,适合的机器学习算法是选自下组的决策树算法:逻辑模型树(logistic model tree)(LMT)算法、交互式决策树(alternating decision tree)(ADTree)算法(参见Freund和Mason(1999),The alternating decision tree learningalgorithm. Proc. Sixteenth International Conference on machine learning,Bled,Slovenia,pp.124-133)、M5P算法(参见Quinlan(1992),Learning with continuousclasses,in Proceedings AI′92,Adams & Sterling(Eds.),World Scientific,pp.343-348;Wang and Witten(1997),Inducing Model Trees for Continuous Classes. 9thEuropean Conference on machine learning,pp.128-137)和REPTree算法(Witten和Frank,2005)。
在实施方式中,目标特征选自由连续的目标特征和离散的(discrete)目标特征组成的组。离散的目标特征可以是二元目标特征。
在实施方式中,至少一种基于植物的分子遗传标志物来自于植物种群,并且该植物种群可以是未结构化的植物种群(unstructured plant population)。所述植物种群可以包括近交植物(inbred plant)或杂交植物或它们的组合。在实施方式中,适合的植物种群选自下组:玉米、大豆、高粱、小麦、向日葵、稻、芸薹(canola)、棉花以及黍(millet)。在实施方式中,所述植物种群可以包括约2至约1000000个成员。
在实施方式中,分子遗传标志物的数量的范围可以为约1~约1000000个标志物。特征可以包括的分子遗传标志物数据可以包括但不限于:一种或多种简单序列重复(simple sequence repeat(SSR))、切割扩增多态性序列(cleaved amplifiedpolymorphic sequences(CAPS))、简单序列长度多态性(simple sequence lengthpolymorphism(SSLP))、限制性片段长度多态性(restriction fragment lengthpolymorphism(RFLP))、随机扩增多态性DNA(random amplified polymorphic DNA(RAPD))标志物、单核苷酸多态性(single nucleotide polymorphism(SNP))、任意片段长度多态性(arbitrary fragment length polymorphism(AFLP))、插入、缺失、来源于DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物、由两种或更多种上述来源于DNA的分子遗传标志物创建的单元型、以及它们的组合。
在实施方式中,所述特征还可以包括一种或多种简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、来源于DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物、由两种或更多种上述来源于DNA的分子遗传标志物创建的单元型、以及它们的组合,与一种或多种表型测量、RNA(包括mRNA、微小RNA(miRNA)、非编码RNA(ncRNA))表达水平的微阵列数据、分析性测量、生化测量或环境测量或它们的组合结合作为特征。
植物种群中的适合的目标特征包括一种或多种可数字表示的和/或可定量的表型性状,其包括:疾病抗性、产率、谷物产量、纱线强度(yarn strength)、蛋白质组成、蛋白质含量、昆虫抗性、谷物水分含量、谷物油含量、谷物油质量、干旱抗性、根倒伏抗性(rootlodging resistance)、植物高度、穗位高(ear height)、谷物蛋白质含量、谷物氨基酸含量、谷物颜色和茎秆倒伏抗性(stalk lodging resistance)。
在实施方式中,样品植物种群对于一种或多种分子遗传标志物的基因型通过直接DNA测序来实验确定。
在实施方式中,挖掘具有至少一种基于植物的分子遗传标志物的数据集以发现关联规则,并且使用由这些关联规则创建的特征对一种或多种目标特征进行分类或预测的方法包括如下步骤:
(a)探测关联规则;
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)评估特征;
(d)从数据集中的特征中选择特征的子集;和
(e)用至少一种在步骤(b)中创建的特征,开发对一种或多种目标特征进行预测或分类的模型。
在实施方式中,使用上述步骤(a)~(e)的任何组合来完成选择近交系、选择杂种、评级杂种(rank hybrid)、针对特定的地理学评级杂种、选择新近交种群的亲本、发现用于渗入到优良近交系中的片段,或者它们的任何组合的方法。
在实施方式中,探测关联规则包括使用自组织映射的空间和时间的关联。
在实施方式中,用于预测或分类的模型的至少一种特征是早先使用特征评估算法选择的特征的子集。
在实施方式中,使用交叉验证来比较算法和参数值的集合。在实施方式中,使用受试者操作特征(ROC)曲线来比较算法和参数值的集合。
在实施方式中,一种或多种特征数学地或计算地来源于其它的特征。
在实施方式中,公开了挖掘包括至少一种基于植物的分子遗传标志物的数据集的方法,以发现至少一种关联规则,并且利用来自这些关联规则的特征对一种或多种目标特征进行分类或预测,其中该方法包括如下步骤:
(a)探测关联规则;
(i)其中利用自组织映射探测关联规则、空间和时间的关联。
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)用至少一种在步骤(b)中创建的特征,开发对一种或多种目标特征进行预测或分类的模型;
其中,可以在步骤(a)、(b)和(c)之前进行从数据集中的特征中选择特征的子集的步骤。
在实施方式中,公开了挖掘包括至少一种基于植物的分子遗传标志物的数据集以发现至少一种关联规则,并使用由这些关联规则创建的特征进行分类或预测的方法,其中该方法包括如下步骤:
(a)探测关联规则;
(b)基于如下发现创建新的特征,并将这些特征添加到数据集中,所述发现基于步骤(a)中的发现;
(c)在数据集中选择特征的子集。
在实施方式中,其中这些方法的结果包括具有至少一种基于植物的分子遗传标志物的数据集,该数据集用来发现至少一种关联规则,并且使用由这些关联规则创建的特征进行分类或预测,将这些方法的结果用于:
(a)预测杂种的性能,
(b)预测跨越不同地理位置的杂种的性能;
(c)选择近交系;
(d)选择杂种;
(e)针对特定的地理学评级杂种;
(f)选择新近交种群的亲本;
(g)发现用于渗入到优良近交系中的DNA片段;
(h)或(a)~(g)的任何组合。
在实施方式中,使用具有至少一种基于植物的分子遗传标志物的数据集以发现至少一种关联规则,并将由这些关联规则创建的特征用于分类或预测,并且针对一种或多种感兴趣的目标特征从植物种群中选择至少一株植物。
在实施方式中,考虑现有知识,现有知识包括初步调查、植物遗传学的数量研究、基因网络、序列分析或它们的任意组合。
在实施方式中,可以对上述方法进行改变以包括下述步骤:
(a)利用包括在所述一种或多种关联规则中的一种或多种特征的组合来代替原有的特征以减少维度;
(b)通过基于模型的搜索树(search tree)挖掘区别性和必要性频繁模式。
附图说明
图1:添加来自步骤(b)的新特征之前和之后,ROC曲线下的面积。
发明详述
关联规则挖掘算法提供在非常大的数据集上发现相关的相互作用所需的框架和规模可变性(scalability)。
本文中公开的方法对于鉴定影响表型的多基因座相互作用(multi-locusinteraction)是有用的。本文中公开的方法对于鉴定分子遗传标志物、单元型和环境因素之间的相互作用是有用的。基于这些相互作用创建的新特征对于分类或预测是有用的。
这些方法中的一些对于多重共线性问题和特征的缺失值(missing value)的鲁棒性,以及这些方法描述特征之间的错综复杂的依赖性(dependency)的能力,使得这样的方法适合用于分析包括基于分子遗传标志物的特征的大的、复杂的数据集。
WEKA(Waikato Environment for Knowledge Analysis developed atUniversity of Waikato,新西兰)是一套机器学习软件,该软件是使用Java编程语言编写的,其实现众多来自不同学习范型(learning paradigm)的机器学习算法。该机器学习软件工作站促进了机器学习算法的执行并支持了算法的开发或数据挖掘和计算方法的适应性(adaptation)。WEKA还提供了通过方法(例如交叉验证和ROC(受试者操作特征)曲线)适当地测试每种算法和参数值集合的性能的工具。使用WEKA来执行供建模(modeling)用的机器学习算法。但是,本领域普通技术人员应当理解其它机器学习软件也可以用于实施本发明。
另外,使用本文所描述的方法的数据挖掘提供灵活的、规模可变(scalable)的框架,用于利用包括基于分子遗传标志物的特征的数据集进行建模。该框架是灵活的,这是因为其包括用于确定哪些算法和具体的参数设置(parameter settings)应当被用于数据集分析的测试(即交叉验证和ROC曲线)。该框架是规模可变的,这是因为其适合于非常大的数据集。
在实施方式中,公开了挖掘包含由至少一种基于植物的分子遗传标志物创建的特征的数据集,以发现至少一种关联规则,然后使用由这些关联规则创建的特征来进行分类或预测的方法。这些方法中的一些适合于以含有植物和动物特征的数据集进行的分类或预测。
在实施方式中,挖掘具有由至少一种基于植物的分子遗传标志物创建的至少一种特征的数据集,以发现至少一种关联规则,并利用由这些关联规则创建的特征对一种或多种目标特征进行分类或预测的步骤包括:
(a)探测关联规则;
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)用至少一种利用步骤(b)中创建的特征而创建的特征,针对一种或多种目标特征进行模型开发;
(d)从数据集中的特征中选择特征的子集;和
(e)使用自组织映射从空间和时间的关联中探测关联规则。
在实施方式中,公开了挖掘具有一种或多种特征的数据集的方法,其中所述方法包括使用至少一种基于植物的分子标志物以发现至少一种关联规则,并利用由这些关联规则创建的特征来进行分类或预测,该方法包括以下步骤:(a)探测关联规则,(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;(c)从数据集中的特征中选择特征的子集。
在实施方式中,将关联规则挖掘算法用于利用一种或多种机器学习算法进行的分类或预测,所述机器学习算法选自:特征评估算法、特征子集选择算法、贝叶斯网络、基于实例的算法、支持向量机、投票算法、代价敏感分类器、叠加算法、分类规则、以及决策树算法。
适合的关联规则挖掘算法包括但不限于:APriori算法、FP-growth算法、可以处理大量的特征的关联规则挖掘算法、巨模式挖掘算法、直接判别模式挖掘算法、决策树、粗糙集和自组织映射(SOM)算法。
在实施方式中,处理大量特征的适合的关联规则挖掘算法包括但不限于:CLOSET+、CHARM、CARPENTER和COBBLER。
在实施方式中,发现直接判别模式的适合的算法包括但不限于:DDPM、HARMONY、RCBT、CAR和PATCLASS。
在实施方式中,发现巨模式的适合的算法包括但不限于:模式融合算法。
在实施方式中,适合的机器学习算法是选自下组的特征子集选择算法:与其它任何机器学习算法结合的包装算法和基于关联性的特征选择(CFS)算法。这些特征子集选择算法可以与选自下组的搜索方法联合:贪婪逐步搜索算法、最好优先搜索算法、穷举搜索算法、Race搜索算法和评级搜索算法。
在实施方式中,适合的机器学习算法是贝叶斯网络算法,包括朴素贝叶斯算法的。
在实施方式中,适合的机器学习算法是选自下组的基于实例的算法:基于实例1(IB 1)算法、基于实例k-近邻(IBK)算法、KStar算法、惰式贝叶斯规则(LBR)算法和局部加权学习(LWL)算法。
在实施方式中,适合的用于分类或预测的机器学习算法是支持向量机算法。在优选的实施方式中,适合的机器学习算法是使用序列最小优化(SMO)算法的支持向量机算法。在优选的实施方式中,机器学习算法是使用回归型序列最小优化(SMOReg)算法的支持向量机算法。
在实施方式中,适合的机器学习算法是自组织映射。
在实施方式中,适合的机器学习算法是选自下组的决策树算法:逻辑模型树(LMT)算法、交互式决策树(ADTree)算法、M5P算法和REPTree算法。
在实施方式中,目标特征选自由连续的目标特征和离散的目标特征组成的组。离散的目标特征可以是二元目标特征。
在实施方式中,至少一种基于植物的分子遗传标志物来自于植物种群,并且该植物种群可以是未结构化的植物种群(unstructured plant population)。植物种群可以包括近交植物或杂交植物或它们的组合。在实施方式中,适合的植物种群选自下组:玉米、大豆、高粱、小麦、向日葵、稻、芸薹、棉花以及黍。在实施方式中,植物种群可以包括约2~约100000个成员。
在实施方式中,分子遗传标志物的数量的范围可以为约1~约1000000个标志物。特征可以包括的分子遗传标志物数据包括但不限于:一种或多种简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、来源于DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物、由两种或更多种上述来源于DNA的分子遗传标志物创建的单元型和它们的组合。
在实施方式中,特征还可以包括一种或多种简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、来源于DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物、由两种或更多种上述来源于DNA的分子遗传标志物创建的单元型和它们的组合,与一种或多种表型测量、微阵列数据、分析性测量、生化测量、或环境测量或它们的组合结合作为特征。
植物种群中的适合的目标特征包括一种或多种可数字表示的表型性状,包括:疾病抗性、产率、谷物产量、纱线强度、蛋白质组成、蛋白质含量、昆虫抗性、谷物水分含量、谷物油含量、谷物油质量、干旱抗性、根倒伏抗性、植物高度、穗位高、谷物蛋白质含量、谷物氨基酸含量、谷物颜色和茎秆倒伏抗性。
在实施方式中,样品植物种群对于一种或多种分子遗传标志物的基因型通过直接DNA测序来实验确定。
在实施方式中,挖掘具有至少一种基于植物的分子遗传标志物的数据集以发现关联规则,并且使用由这些关联规则创建的特征对一种或多种目标特征进行分类或预测的方法,其中该方法包括如下步骤:
(a)探测关联规则;
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)评估特征;
(d)从数据集中的特征中选择特征的子集;和
(e)利用至少一种在步骤(b)中创建的特征,开发对一种或多种目标特征进行预测或分类的模型。
在实施方式中,使用上述步骤(a)~(e)的任何组合来完成选择近交系、选择杂种、评级杂种、针对特定的地理学评级杂种、选择新近交种群的亲本、发现用于渗入到优良近交系中的片段,或者它们的任何组合的方法。
在实施方式中,探测关联规则包括使用自组织映射的空间和时间的关联。
在实施方式中,用于预测或分类的模型的至少一个特征是早先使用特征评估算法选择的特征的子集。
在实施方式中,使用交叉验证来比较算法和参数值的集合。在实施方式中,使用受试者操作特征(ROC)曲线来比较算法和参数值的集合。
在实施方式中,一种或多种特征数学地或计算地来源于其它的特征。
在实施方式中,公开了挖掘包括至少一种基于植物的分子遗传标志物的数据集,以发现至少一种关联规则,并且利用来自这些关联规则的特征对一种或多种目标特征进行分类或预测的方法,其中该方法包括如下步骤:
(a)探测关联规则;
(i)其中利用自组织映射探测关联规则、空间和时间的关联。
(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;
(c)利用至少一种在步骤(b)中创建的特征,开发对一种或多种目标特征进行预测或分类的模型;
其中可以在上述步骤(a)、(b)和(c)之前进行从数据集中的特征中选择特征的子集的步骤。
在实施方式中,公开了挖掘包括至少一种基于植物的分子遗传标志物的数据集以发现至少一种关联规则,并使用由这些关联规则创建的特征进行分类或预测的方法,其中该方法包括如下步骤:
(a)探测关联规则;
(b)基于如下发现创建新的特征,以及将这些特征添加到数据集中,所述发现基于步骤(a)中的发现;
(c)在数据集中选择特征的子集。
在实施方式中,其中这些方法的结果包括具有至少一种基于植物的分子遗传标志物的数据集,该数据集用来发现至少一种关联规则,并且使用由这些关联规则创建的特征进行分类或预测,将这些方法的结果用于:
(a)预测杂种的性能,
(b)预测跨越不同地理位置的杂种的性能;
(c)选择近交系;
(d)选择杂种;
(e)针对特定的地理学评级杂种;
(f)选择新近交种群的亲本;
(g)发现用于渗入到优良近交系中的DNA片段;
(h)或(a)~(g)的任何组合。
在实施方式中,其中使用具有至少一种基于植物的分子遗传标志物的数据集以发现至少一种关联规则,并将由这些关联规则创建的特征用于分类或预测,并且针对一种或多种感兴趣的目标特征从植物种群中选择至少一株植物。
在实施方式中,考虑现有知识,现有知识包括初步调查、植物遗传学的定量研究、基因网络、序列分析或它们的任意组合。
在实施方式中,可以对上述方法进行改变以包括下述步骤:
(a)利用包括在所述一种或多种关联规则中的一种或多种特征的组合来代替原有的特征以减少维度;
(b)通过基于模型的搜索树挖掘区别性和必要性频繁模式。
在实施方式中,特征评估算法,例如信息增益、对称不确定性和Relief家族算法是适合的算法。这些算法能够一起评估所有的特征,而不是一次一个特征。这些算法中的一些对于偏向、缺失值以及共线性问题具有鲁棒性。Relief家族算法提供了能够说明深度相互作用(deep-level interaction)的工具,但是需要减少的数据集中的特征之间的共线性。
在实施方式中,通过算法来应用子集选择技术,例如CFS子集评估器(CFS subsetevaluator)。子集选择技术可以用于通过除去冗余、迷惑性特征(distracting feature)并保持能够适当地解释目标特征的子集来减少复杂性。当使用例如交叉验证和ROC曲线这样的方法进行评估时,这些迷惑性特征的除去通常提高建模算法的性能。已知特定种类的算法,例如基于实例的算法,对于迷惑性特征是非常敏感的,而其它算法例如支持向量机受到迷惑性特征的适度影响。通过基于存在的特征产生新特征来减少复杂性也经常使得机器学习算法的预测性能提高。
在实施方式中,过滤器和包装器算法(filter and wrapper algorithm)可以用于特征子集选择。为了使用过滤器进行特征子集选择,通常将用于发现特征的最佳子集(即,穷举搜索在计算上不是始终可行的)的有效搜索方法(例如贪婪逐步搜索、最好优先搜索和Race搜索)与价值公式(merit formula)(例如CFS子集评估器)关联。CFS子集评估器在子集中适当地说明冗余的水平,而不会忽视局部预测性特征。除了降低复杂性以支持建模,基于机器学习的子集选择技术还可以用于选自特征的子集,该特征的子集适当地解释目标特征同时在该子集中包括的特征之间具有低水平的冗余。子集选择方法的一个目的在于通过仅关注于发现的适当解释目标特征的子集来减少在未来的数据收集、操作和储存工作(effort)过程中的损耗。可以使用例如交叉验证和ROC曲线对在本文中描述的用于减少复杂性的机器学习方法进行比较。然后可以选择出具有最佳性能的特征子集选择算法用于最终分析。这种比较通常如下进行:通过将交叉验证和ROC曲线用于不同的子集选择算法和建模算法的组合。为了在子集选择和建模步骤过程中运行交叉验证,可以使用多台运行机器学习软件(例如WEKA)的平行形式的计算机。本文所描述的用于特征子集选择的技术使用有效的搜索方法以发现特征的最佳子集(即,穷举搜索不总是可能的)。
本文公开的建模方法的方面是因为单一算法对于建模每种数据集而言可能不会总是最佳选择,本文所描述的框架使用交叉验证技术、ROC曲线和精度(precision)以及重复调用(recall),以从机器学习领域中的多种选择中选择针对每个数据集的最佳算法。在实施方式中,在模型开发过程中,可以使用交叉验证、ROC曲线和精度和重复调用对数种算法和参数设置进行比较。一些机器学习算法对于多重共线性问题有鲁棒性(允许以大量特征建模),对于缺失值有鲁棒性,并且可以说明特征之间的深度相互作用而不会过度拟合(over-fitting)数据。
在实施方式中,除了贝叶斯网络和基于实例的算法,用于建模的机器学习算法还有支持向量机,例如SMOReg,决策树,例如M5P、RepTree和ADTree。通过M5P、REPTree和ADTree算法产生的树的生成着眼于减少分配给每个新创建的节点的样品子集中目标特征的变化。M5P通常用于处理连续的目标特征,ADTree通常用于处理二元(或二元化的(binarized))目标特征,而REPTree可以用于处理连续的和离散的目标特征两者。
本文公开的机器学习方法的方面是本文所使用的算法可能不需要高度结构化的数据集,不像一些严格基于统计技术的方法,这些方法通常倚靠高度结构化的数据集。结构化的实验通常在人力、成本和时间方面是资源密集型的,这是由于环境强烈地影响在经济上重要的植物和动物中的大量最为重要的数量遗传性状的表达,因此需要这样的实验是大型的、经谨慎设计并且受到谨慎控制的。然而,使用机器学习算法的数据挖掘可以有效地利用现有的数据,这些数据不是针对该数据挖掘目的而特别生成的。
在实施方式中,本文公开的方法可以用于在第二代目标植物种群的一个或多个成员中基于其针对一个或多个分子遗传标志物的基因型或与性状相关的单元型进行的对目标特征值的预测。对值进行预测可以在通过实验得到确定之前或用来代替通过实验进行确定。
在实施方式中,本文公开的方法在与或不与其它统计方法(例如BLUP(最佳线性无偏预测(Best Linear Unbiased Prediction)))联合的植物(例如,杂交作物植物)应用育种项目中具有多种应用。例如,所述方法可以用于预测杂种后代的表型性能,所述杂种后代是例如通过杂交具有已知分子遗传标志物基因型的一对给定的近交系产生的单一杂交杂种(single cross hybrid)(可以是实际的或者处于假设状态)。所述方法还可以用于选择植物(例如,近交植物、杂交植物等)以用作一个或多个杂交中的亲本;所述方法允许选择如下亲本植物,该亲本植物的后代具有拥有所期望的表型的最高可能性。
在实施方式中,了解了至少一种特征和目标特征的关联。可以在样品植物种群(例如,育种种群)中对该关联进行评估。通过用具有特征的数据集训练(train)机器学习算法在第一植物种群中对关联进行评估,所述特征并入了关于至少一种分子遗传标志物的基因型和该植物种群的至少一个成员中关于目标特征的值。然后可以使用经训练的机器学习算法和关于至少一个特征的值对第二种群预测目标特征的值。对值进行预测可以在通过实验得到确定之前或用来代替通过实验进行确定。
在实施方式中,目标特征可以为数量性状,例如,针对该性状提供数量值。在另外的实施方式中,目标特征可以为定性性状,例如,针对该性状提供定性值。可以包括在一些特征中的表型性状可以由单个基因或多个基因决定。
在实施方式中,所述方法还可以包括选择目标植物种群中的至少一个成员,其具有目标特征的期望的预测值,并且包括将所述目标植物种群的至少一个选择的成员与至少一个其它植物进行育种(或者自交(selfing)所述至少一种选择的成员,例如用以创建近交系)。
在实施方式中,样品植物种群可以包括大量近交、单杂交Fl杂种或它们的组合。近交可以来自彼此之间相关和/或无关的近交系,而单杂交Fl杂种可以由近交系和/或一种或多种别的近交系的单杂交产生。
在实施方式中,样品植物种群的成员包括来自现有的、已建立的育种种群(例如,商用的育种种群)的成员。已建立的育种种群的成员通常是相对少数建立者(founder)的派生物,并且通常是内部相关的。育种种群可以覆盖大量世代以及育种周期。例如,已建立的育种种群可以横跨三、四、五、六、七、八、九或更多个育种周期。
在实施方式中,样品植物种群不需要是育种种群。样品种群可以是基因型和表型数据全部或部分可获得的任何现有的植物种群的亚种群。样品植物种群可以包括任何数量的成员。例如,样品植物种群包括约2~约100000个成员。样品植物种群可以包括至少约50、100、200、500、1000、2000、3000、4000、5000、或甚至6000或10000或更多成员。样品植物种群通常在感兴趣的目标特征方面显示变异性(例如数量目标特征的数量变异性)。样品植物种群可以从一个或多个植物细胞培养物中提取。
在实施方式中,通过评估样品植物种群的成员之间的目标特征(例如,对种群的成员之间的数量目标特征进行定量)来获得样品植物种群中的目标特征的值。可以在构成第一植物种群的成员(例如近交和/或单杂交Fl杂种)中对表型进行评估。目标特征可以包括任何数量或定性的目标特征,例如,具有农业或经济重要性的特征。例如,目标特征可以选自产率、谷物水分含量、谷物油含量、纱线强度、植物高度、穗位高、疾病抗性、昆虫抗性、干旱抗性、谷物蛋白质含量、测试重量、视觉或美学外观和穗轴颜色(cob color)。这些性状,以及其评估技术(例如定量)在本领域中是已知的。
在实施方式中,样品或测试植物种群对于分子遗传标志物的集合的基因型可以通过实验确定、预测、或它们的组合。例如,在一类实施方式中,在植物种群中存在的每个近交的基因型可以通过实验确定,并且对存在于第一植物种群中的每个单杂交Fl杂种的基因型进行预测(例如,根据通过实验确定的每种单杂交杂种的两个近交亲本基因型)。可以通过任何适合的技术来实验确定植物的基因型。在实施方式中,对来自每个近交的大量DNA片段进行测序以实验地确定每个近交的基因型。在实施方式中,谱系树和概率性方法(probabilistic approach)可以用于为单杂交杂种的两个近交亲本计算在不同的标志物基因座的基因型概率。
在实施方式中,本文中公开的方法可以用于针对包括与目标特征关联的至少一种分子遗传标志物的选定的基因型选择植物。
“等位基因”或“等位基因变体(allelic variant)”是指遗传基因座的可选择形式。每个基因座的单个等位基因分别遗传自各个亲本。如果相同的等位基因存在两次(即,在每个同源染色体上一次),则二倍体个体是纯合的,或者如果存在两个不同的等位基因,则二倍体个体是杂合的。
本文中使用的术语“动物”意在包括除了植物之外的非人类生物,包括但不限于:陪伴动物(即宠物)、食用动物、役用动物(work animal)、或动物园动物。优选的动物包括但不限于:鱼、猫类、犬类、马类、白鼬(ferret)以及其它鼬科动物(Mustelid)、牛、绵羊以及猪。更优选动物包括猫类、犬类、马类以及其它陪伴动物,其中猫类、犬类和马类甚至更为优选。本文中使用的术语“陪伴动物”是指人类视为宠物的任何动物。本文中所使用的猫类是指猫科(即猫科(Felidae))的任何成员,包括家猫、野猫和动物园猫。猫的例子包括但不限于:家猫、狮、虎、美洲豹(leopard)、黑豹(panther)、美洲狮(cougar)、短尾猫(bobcat)、猞猁、美洲虎(jaguar)、印度豹(cheetah)以及薮猫(serval)。优选的猫为家猫。本文中所使用的犬类是指犬科(family Canidae)的任何成员,包括但不限于:家犬、野狗、狐狸、狼、豺以及山狗(coyote)以及犬科的其它成员。优选的犬类为家犬。本文中所使用的马是指马科(family Equidae)的任何成员。马科动物为有蹄哺乳动物包括但不限于:家马(domestichorse)和野马例如马、驴(ass)、驴子(donkey)以及斑马。优选的马包括家马,包括竞赛马。
在机器学习上下文中的术语“关联”是指特征之间的任何相互关系,不仅是预测特定的种类或数值的相互关系。关联包括但不限于:发现关联规则、发现模式、进行特征评估、进行特征子集选择、开发预测模型以及理解特征之间的相互作用。
在本发明的上下文中的术语“关联规则”是指在数据集中经常同时出现的元素。其包括但不限于:关联模式(association pattern)、判别模式(discriminative pattern)、频繁模式(frequent pattern)、闭合模式(closed pattern)以及巨模式(colossalpattern)。
在机器学习上下文中的术语“二元化的”是指被转变为二元特征(binaryfeature)的连续的或分类的(categorical)特征。
“育种种群”通常是指在育种程序中用作亲本的植物的集合。通常,在遗传和表型两个方面对育种种群中的个体植物进行表征。
术语“数据挖掘”是指使用减少、建模、理解或分析数据的计算机算法从数据中鉴定或提取关系和模式。
术语“决策树”是指任何种类的基于树的学习算法,包括但不限于:模型树、分类树(classification tree)和回归树。
在机器学习的上下文中的术语“特征”或“属性(attribute)”是指一种或多种原始输入变量、一种或多种经处理的变量、或其它变量(包括原始变量和经处理的变量)的一种或多种数学组合。特征可以是连续的或离散的。特征可以经由通过任何过滤器算法或任何统计方法进行的处理以产生。特征可以包括但不限于:DNA标志物数据、单元型数据、表型数据、生化数据、微阵列数据、环境数据、蛋白质组学数据以及代谢数据。
本发明上下文中的术语“特征评估”是指对特征进行评级或进行评级然后基于它们对于目标特征的影响选择特征。
短语“特征子集”是指一种或多种特征的组。
“基因型”是指细胞或单个植物或生物关于一个或多个分子遗传标志物或等位基因的遗传组成(genetic makeup)。
“单元型”是指个体遗传自一个亲本的等位基因的组。术语单元型还可以指物理连锁的和/或不连锁的与目标特征关联的分子遗传标志物(例如多态性序列)。单元型还可以指在染色体上物理连锁的两个或更多个分子遗传标志物的组。
在机器学习的上下文中术语“实例”是指来自数据集的例子。
本发明上下文中的术语“相互作用”是指通过一个特征对另一个特征的依赖性产生的特征和目标特征之间的关联。
在机器学习的上下文中术语“学习”是指鉴定和训练用于完成感兴趣的任务的适合的算法。术语“学习”包括但不限于:关联学习(association learning)、分类学习(classification learning)、聚类(clustering)以及数值预测(numeric prediction)。
术语“机器学习”涉及研究计算机程序的设计的计算机科学领域,所述计算机程序可以用于根据过去的经验归纳出模式、规律或规则以对于未来数据产生合适的响应,或以有意义的方式描述该数据。在本发明的上下文中,“机器学习”算法意指关联规则算法(例如,Apriori、判别模式挖掘、频繁模式挖掘(frequent pattern mining)、闭合模式挖掘(closed pattern mining)、巨模式挖掘以及自组织映射)、特征评估算法(例如,信息增益、Relief、ReliefF、RReliefF、对称不确定性、增益率和评级器)、子集选择算法(例如,包装器、一致性(consistency)、分类器(classifier)、基于关联性的特征(CFS))、支持向量机、贝叶斯网络、分类规则、决策树、神经网络、基于实例的算法、使用在本文中列出的算法的其它算法(例如,投票、叠加、代价敏感分类器)以及任何其它算法,所述其它算法是在计算机科学领域涉及根据过去的经验归纳出模式、规律或规则以产生对于未来数据的合适的响应,或以有意义的方式描述该数据的算法。
术语“模型开发”是指建立一个或多个用于数据挖掘的模型的过程。
术语“分子遗传标志物”是指下述中的任一:简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、来源于DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物和它们的组合。分子遗传标志物还指用作探针的多核苷酸序列。
术语“表型性状”或“表型”是指生物的可观察到的物理的或生化的特征,其由遗传组成和环境影响两者来决定。表型是指特定基因型的可观察到的表达。
术语“植物”包括高等和低等植物类别,包括被子植物(单子叶和双子叶植物)、裸子植物、蕨类植物以及多细胞藻类。其包括不同倍体水平的植物,包括非整倍体、多倍体、二倍体、单倍体以及半合子植物。
术语“基于植物的分子遗传标志物”是指下述任一:简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、来源于植物DNA、RNA、蛋白质或代谢产物的任何其它类型的分子遗传标记物和它们的组合。分子遗传标志物还指用作探针的多核苷酸序列。
本发明上下文中的术语“现有知识”是指可以用于修改机器学习算法性能的任何形式的信息。表明个体之间的相互关系(relatedness)的程度的关系矩阵(relationshipmatrix)是现有知识的例子。
“定性性状”通常是指如下特征,该特征由一个或少数几个基因调控并且在性质上是离散的。定性性状的例子包括花的颜色、穗轴颜色和疾病抗性。
“数量性状”通常是指可以被量化的特征。数量性状通常在种群的个体之间展现连续变化。数量性状通常是遗传基因座与环境相互作用的结果或是多个遗传基因座彼此之间和/或与环境相互作用的结果。数量性状的例子包括谷物产率、蛋白质含量以及纱线强度。
与特征相关的术语“评级(ranking)”是指对特征进行顺序排列,例如分子遗传标志物可以通过它们与性状相关的预测能力来进行评级。
术语“自组织映射”是指通常用于高维数据(high-dimensional data)的可视化以及分析的无监督的(unsupervised)学习技术。
在机器学习的上下文中的术语“监督的”是指在监督下操作的方法,其通过提供针对每个训练实例的实际结果来实现。
在机器学习的上下文中的术语“支持向量机”包括但不限于:用于分类目的的支持向量分类器(support vector classifier),以及用于数字预测的支持向量回归机(support vector regression)。可以执行其它算法(例如,序列最小优化方法(SMO))来训练支持向量机。
本发明上下文中的术语“目标特征”是指但不限于有兴趣进行预测或解释的特征,或者有兴趣使用该特征来开发关联的特征。数据挖掘成果可以包括一个目标特征或多于一个目标特征,以及术语“目标特征”可以指一个或多于一个特征。“目标特征”可以包括但不限于:DNA标志物数据、表型数据、生化数据、微阵列数据、环境数据、蛋白质组学数据以及代谢数据。在机器学习领域,当“目标特征”是离散的,通常将其称为“类(class)”。谷物产率是目标特征的例子。
在机器学习的上下文中术语“无监督的”是指在没有监督下运行的方法,其通过不提供针对每个训练实例的实际结果来实现。
一些相关方法的理论概述和实用方面
关联规则挖掘:
关联规则挖掘(ARM)是用于提取特征之间有意义的关联模式的技术。适合于学习关联规则的机器学习算法之一是APriori算法。
ARM算法通常的第一步是在所有的观察结果中找出最为频繁的事项或特征的集合。它们也被称为频繁项目集(frequent itemset)。它们的频率也称作支持(support)(用户可以确定最小支持阈值(minimum support threshold)用于将一个项目集认作是频繁的)。一旦获得了频繁项目集,就从它们提取规则(例如利用用户指定的最小信心度评估(minimum confidence measure))。后一部分与前部分不一样,不是计算密集型的。因此,ARM算法的目标集中在发现频繁项目集。
频繁项目集不一定是数据集的核心(最为相关的)信息模式,因为通常在模式中存在大量冗余。结果,很多应用倚靠于获得频繁闭合模式(frequent closed pattern)。频繁闭合模式是如下模式:该模式满足用户指定的最小支持要求(minimal supportrequirement)并且不具有和其直接的超集(immediate superset)相同的支持。如果至少一个直接的超集具有与其相同的支持计数(support count),则频繁模式不是闭合的。找到频繁闭合模式可以实现找到在特征之间的相关相互作用的子集。
Apriori算法通过合并具有n-1个特征的频繁项目集以形成具有n个特征的频繁项目集进行迭代运算。该过程随着特征数量的增加执行时间成指数增长。因此,针对具有大量特征的数据集,利用Apriori算法提取频繁项目集变成了计算密集型的。
可以通过一些现有的算法来解决发现频繁闭合项目集的规模可变性问题。CARPENTER,深度优先的行枚举算法(depth-first row enumeration algorithm)能够从具有大量特征的大型生物数据集中发现频繁闭合模式。随着样品数量的增加,CARPENTER不能很好的放大。
其它频繁模式挖掘算法是CHARM、CLOSET。两者均对于深度优先的列枚举算法(depth-first column enumeration algorithm)是有效的。
COBBLER是列和行的枚举算法,其随着特征和样品数量的增加可以很好的放大。
出于多个不同的目的,发现判别频繁模式(discriminative frequent pattern)甚至比发现频繁闭合关联模式更为有用的。几种算法从数据集中仅会有效地挖掘判别模式。大多数现有算法执行用于发现判别模式的两步方法(two set approach):(a)发现频繁模式(b)从该频繁模式中获得判别模式。步骤(a)是非常耗时的过程并且会得到大量冗余的频繁模式。
DDPMine(直接判别模式挖掘)、判别模式挖掘算法不是按照上述的两步方法。代替得出频繁模式,其产生了描述数据的收缩FP-树。该过程不仅减少了问题的大小,而且还加速了挖掘过程。其使用信息增益作为量度以挖掘判别模式。
其它的判别模式挖掘算法为HARMONY、RCBT和PatClass。HARMONY是实例中心基于规则的分类器(instance-centric rule-based classifier)。其直接挖掘分类规则的最终集合。RCBT分类器如下工作:通过首先对于每一列确定top-k覆盖规则组(top-k coveringrule group)并且使用它们用于分类框架。PatClass利用两步过程:通过首先挖掘频繁项目集,然后进行特征选择步骤。
大多数现有的关联规则挖掘算法返回小型频繁(small sized frequent)或闭合模式。随着特征数量的增加,大型(large sized)频繁或闭合模式的数量也增加。对于具有大量特征的数据集,得出所有长度的所有频繁模式在计算方面过于昂贵,甚至是不可能的。模式融合算法试图通过跳过模式搜索间隔(take leaps in the pattern search space)将小频繁模式合并成巨模式来解决上述问题。
自组织映射:
自组织映射(SOM)也称为Kohonen网络保留图(Kohonen network preservingmap),是无监管的学习技术,其通常用于高维数据的可视化和分析。典型的应用集中于可视化图中数据内的中心依赖性(central dependencies)。其已经被应用的一些领域包括自动语音识别、临床声音分析(clinical voice analysis)、卫星图像的分类、来自脑的电信号的分析和从大量文件集中的组织(organization)和检索(retrieval)。
通过SOM产生的图已经被用来通过使用SOM集群(SOM cluster)(在SOM训练过程中确定的视觉的集群)加速通过例如Apriori方法进行的关联规则的鉴定。
SOM图包括处理单元,即“神经元”的网格(grid)。每个神经元与特征向量(观察结果(observation))相关联。该图试图使用有限的模型集合以最佳精度来表现所有的可用观察结果(available observation)。在同一时间,在网格上模型变得有序,从而使得相似的模型彼此靠近,而不相似的模型彼此远离。该过程可以实现数据中特征之间的依赖性或关联的鉴定以及可视化。
在SOM的训练阶段中,使用竞争学习算法来将模型向量拟合至神经元的网格。其是一个连续回归过程(sequential regression process),其中t=1,2,...是步骤指数:对于每个样品x(t),首先通过下述条件来确定获胜者指数c(最佳匹配神经元(best matchingneuron))
∀ i , | | x ( t ) - m c ( t ) | | ≤ | | x ( t ) - m i ( t ) | |
然后,将属于以节点c=c(x)为中心围绕的节点的所有模型向量或它们的子集如下更新:
mi(t+1)=mi(t)+hc(x),i(x(t)-mi(t))
其中:
mc是第c(即获胜者)节点的平均权重向量。
mi是第i节点的平均权重向量。
hc(x),i是“邻域函数(neighborhood function)”,是图的网格上第i和第c节点之间距离的递减函数。
mi(t+1)是第t步之后经更新的权重向量。
该回归通常在可用的观察结果上重复迭代(reiterate)。
SOM算法已经被频繁用于探索实体(entity)之间的空间和时间的相互关系。观察结果之间的相互关系和关联是基于这些观察结果在图上的空间聚集得出的。如果神经元表示不同的时间状态,则该图显示出观察结果之间的时间模式。
特征评估:
特征评估算法的一个主要目的在于理解产生数据的基本过程(underlyingprocess)。这些方法还经常用于减少“迷惑性”特征数,以实现提高分类算法的性能的目的(参见Guyon和Elisseeff(2003).An Introduction to Variable and FeatureSelection.Journal of Machine learning Research 3,1157-1182)。术语“变量”有时用于代替较宽的术语“特征”或“属性”。特征(或属性)选择是指通过方法(例如核方法(kernelmethod))处理的变量的选择,但是有时用来指原始输入变量的选择。这些特征评估算法的期望的输出通常是基于它们对于目标特征的影响而对特征进行的评级或者进行评级继之以特征的选择。可以通过不同方式来测量这样的影响。
信息增益是适合于特征评估的机器学习方法之一。信息增益的定义需要信息熵(entropy)的定义,其是训练实例的集合中杂质(impurity)的量度。通过知道特定特征的值实现目标特征的信息熵的减少称作信息增益。信息增益可以用作确定特征在解释目标特征中的效力的参数。
本文描述的基于关联性的特征选择(CFS)算法利用对称不确定性,其通过将特征标准化至[0,1]范围来补偿信息增益针对具有多个值的特征的偏向(bias)。对称不确定性始终在0~1之间。其是用于测量两个表观特征(nominal feature)之间的相关性的一种方法。
评级算法也可以用于在每一次(each fold)交叉验证时通过它们的单独评估来对特征评级,并且输出平均价值(average merit)以及对每个特征的评级。
Relief是属性评估算法(attribute evaluator algorithm)的一类,其可以用于本文所公开的特征评估步骤。该类含有能够用于处理分类的或连续的目标特征的算法。这样宽的范围使得它们可以用于数种数据挖掘用途。
原始的Relief算法具有数种版本和扩展。例如,ReliefF是原始Relief算法的扩展,其不限于两类问题且可以处理不完整的数据集。ReliefF还比Relief更鲁棒,并且能够处理噪音数据,。
通常,在Relief和ReliefF中,评估的特征重要性是通过对于每一个实例分配给该特征的分数的总和来确定的。每个分数取决于在确定实例的类别中有多重要。如果特征在确定类别中是决定性的,特征得到最大值。当将大量不提供信息的特征加入到分析中时,对于这些算法需要大量实例以收敛到(converge to)每个特征价值(worth)的正确评估。当处理几个邻近的未命中(neighboring miss)时,重要的特征是那些它们的值的最小变化会导致所评估的实例的类别中的变化的特征。在ReliefF中,当实例的数量巨大时,接近的命中(near hits)发挥最小的作用而接近的未命中(near miss)发挥巨大的作用,但是对于实际大小的问题,接近的命中发挥稍大的作用。
RReliefF是ReliefF的扩展,其处理连续目标特征。正更新(positive update)形成了特征将具有不同类别值(class value)的实例加以区别的可能性(probability)。另一方面,负更新(negative update)形成了特征将具有相同类别值的实例加以区别的可能性。在回归问题中,通常难以推断两个实例是否属于同一类或者不属于同一类,因此该算法引入了概率值(probability value),该值预测两个实例的值是否不同。因此,RReliefF算法对没有分开相似预测值的特征进行奖励,而对没有分开不同预测值的特征进行惩罚。RReliefF与Relief和ReliefF不同,其不使用符号,因此不使用命中(hit)和未命中(miss)的概念。RReliefF认为好的特征是如下特征:该特征分开具有不同预测值的实例,并且不区分具有接近预测值的实例。
通过来自Relief算法类的算法产生的评估依赖于所使用的相邻元素(neighbor)的数量。如果不使用对相邻元素数量的限制,则每个特征将会受到数据集中的所有样品的影响。对于所使用的样品数量的限制通过Relief算法提供评估,该评估是在实例空间(instance space)的较小部分中的局部评估的平均值。这些局部预测使得Relief算法当更新每个特征的权重时能够考虑其它特征,同时近邻(nearest-neighbor)通过考虑所有特征的距离量度来确定。因此,Relief算法对于包括在数据集中的特征的数量和有效性敏感。其他特征通过其对于正在更新的特征的条件依赖性(conditional dependency)考虑到预测的值来考虑,该预测值可以在局部的上下文中(in the context of locality)探测。实例之间的距离通过“相关的”和“无关的”特征的值的差异的总和来确定。作为其它k-近邻算法,这些算法对无关特征不具鲁棒性。因此,在存在大量不相关特征时,建议使用大k值(即,增加近邻的数量)。这样操作,可以为相关特征提供更好的条件以对每个特征“施加”“正确的”更新。但是,已经知道当在权重公式(weight formula)中所使用的近邻的数量过大时,Relief算法可能会失去功能,经常混淆提供信息的特征。当考虑所有样品时尤为如此,因为在命中和未命中之间仅会存在较小的对称性,当仅考虑少量近邻时,该对称性则更加显著。Relief算法的能力来自于利用局部上下文而提供全局观察的能力。
在计算实例之间的欧氏距离(Euclidian distance)或曼哈顿距离(Manhattandistance)以确定近邻时,与表观特征相比,RReliefF算法可能会趋于低估重要的数字特征。RReliefF还高估随机(非重要)数字特征,潜在地降低两组特征的可分离性(separability)。可以使用斜坡函数(ramp function)(参见Hong(1994) Use ofcontextual information for feature ranking and discretization.TechnicalReport RC19664,IBM;以及 Hong(1997)IEEE transactions on knowledge and dataengineering,9(5)718-730)以克服RReliefF的上述问题。
当对应当分配给给定的特征集合中每个特征的权重进行评估时,与较远的实例相比强调较近的实例是标准的实践。然而,使用过小数量具有噪音和复杂目标特征的相邻元素通常是较为危险的,因为这可能会导致鲁棒性的损失。使用较大数量的近邻避免了减少一些特征的重要性,就这些特征而言前10的(例如)近邻是暂时相似的。随着相邻元素数量的减少,这样的特征丧失重要性。如果将所有相邻元素的影响按相同处理(忽视它们与查询点(query point)的距离),则建议的近邻的数量值通常为10。如果考虑距离,则建议值通常为具有指数递减影响的70个近邻。
ReliefF和RReliefF是上下文敏感的(context sensitive),因此在分析中其对随机(非重要)特征的数量比近视测量(myopic measure)(例如增益率和MSE)更为敏感。Relief算法在其它特征的上下文中评估每个特征并且较好的特征得到更高的分数。当在数据集中有数以百计的重要特征时,Relief算法倾向于低估不太重要的特征,但是重复的或高度冗余的特征会共享分数(credit)并且看起来比它们实际上更为重要。能够出现这样的情况是因为特征的额外复本会改变在其中搜索近邻的问题空间。使用近邻,仅当两个邻近实例的特征值之间存在差异时才会发生更新。因此,如果两个近邻之间的差异为零,在近邻的给定集合上对于给定的特征不会出现更新。高度冗余的特征的这些差异会总是等于零,其减少了在整个邻近实例和特征中更新的机会。近视评估器(myopic estimator)例如增益率和MSE对于重复的特征不敏感。但是,如果在特征之间存在相互作用,则Relief算法会表现得优于近视算法(myopic algorithm)。
子集选择
子集选择算法倚靠评估方法(例如对称不确定性和信息增益)以及搜索方法(例如评级器、穷举搜索、最好优先以及贪婪爬山(greedy hill-climbing))的结合。
子集选择算法类似于特征评估算法,对特征的子集进行评级。但是,与特征评估算法相对,子集选择算法的目标在于选择对于目标特征具有最大影响的特征的子集,同时说明子集中包括的特征之间的冗余程度。设计子集选择算法使得其对于多重共线性和缺失值具有鲁棒性,从而可以实现从成百或甚至成千的特征的初始池中进行选择。特征子集选择的优点包括促进数据的可视化和理解,减少测量和存储需求,减少训练和使用时间,并且去除迷惑性特征以改善分类。例如,来自子集选择方法的结果对于植物和动物遗传学者是有用的,因为这些结果可以用来预选择分子遗传标志物,该分子遗传标志物将在以表型性状作为目标特征的标志物辅助选择程序中得到分析。这可以显著地减少必须被检测的分子遗传标志物的数量,从而可以减少该项工作所伴随的成本。
子集选择算法可以适用于宽范围的数据集。在选择适合的搜索算法时一个重要的考虑在于数据集中特征的数量。随着特征数量的增加,特征可能的子集数量将成指数增加。出于这个原因,穷举搜索算法仅适合用于当特征的数量相对较少时。但是,具有足够的计算能力时,可以使用穷举搜索以确定特征的最相关子集。
存在数种算法适合用于具有对于穷举搜索而言过大(或可用计算能力不足够大)的特征集合的数据集。子集选择算法的两个基本方法是向工作子集(working subset)中增加特征的过程(前向选择(forward selection))和从现有的特征子集中删除特征(后向消除(backward elimination))。在机器学习中,进行前向选择不同于具有相同名称的统计方法。在此,使用交叉验证通过评估增加了一个新特征的当前子集的性能,来发现待加入到当前子集中的特征。在前向选择中,通过向当前子集中按顺序加入每个剩余特征来构建子集,并同时利用交叉验证来评估每个新子集的预期性能。保留在加入到当前子集中时产生了最佳性能的特征并且继续该过程。当剩余可用的特征无一改善当前子集的预测能力时,搜索结束。该过程找出特征的局部(即不需要是全局)最优集合。
后向消除通过相似的方式实现。在后向消除中,当在特征集合中的进一步减少不会改善子集的预测能力时,搜索结束。为了针对较小的子集引入偏向(bias),需要对于待增加(在前向选择过程中)或删除的特征(在后向消除过程中)改善一定量的预测能力。
在一方面,通过应用利用回溯机构(backtracking facility)扩充的贪婪爬山,最好优先算法可以向前、向后或在两个方向搜索(通过考虑在给定的点处所有可能的单特征的加入和删除)(参见Pearl,J.(1984),Heuristics:Intelligent Search Strategies forComputer Problem Solving.Addison-Wesley,p.48;and Russell,S.J.,& Norvig,P.Artificial Intelligence:A Modem Approach.2nd edition.Pearson Education,Inc.,2003,pp.94and 95)。该方法保存具有所有之前访问的子集的列表,并且一旦对于特定子集,预测能力不再改善时重新访问这些子集。如果时间允许并且没有施加终止判据(stop criterion),则该方法将会搜索整个空间(即穷举搜索),当与前向选择和后向消除相比时,更加难以找到局部最大值。最好优先的结果,如所期待的,与穷举搜索获得的结果非常相似。在一方面,束搜索方法(beam search method)的运转类似于最好优先,但是在每一个阶段会截短特征子集的列表,因而将其限制到一个被称为束宽(beam width)的固定数量上。
在一方面,遗传算法是使用候选子集当前列表的随机扰动以产生新的好的子集的搜索方法(参见Schmitt,Lothar M(2001),Theory of Genetic Algorithms,TheoreticalComputer Science(259),pp.1-61)。它们是适应性的并且是使用基于生物学中的自然选择原理的搜索技术。建立竞争解决方案(Competing solution)并随着搜索解决方案空间的时间而平行进化(其有助于避免局部最大)。将交叉(crossover)和突变施加到当前一代的成员以产生下一代。从子集中随机增加或删除特征与自然系统中的突变的作用在概念上是类似的。相似地,交叉合并了来自一对子集的特征以形成新的子集。适合度(fitness)的概念引入起作用,这是因为在给定的世代,最适合(最佳)子集具有更大的可能被选择以通过交叉和突变形成新的子集。因此,好的子集随时间而进化。
在一方面,方案特效(Scheme-Specific)(包装器(wrapper))(Kohavi和John(1997),Wrappers for feature selection.Artificial Intelligence,97(1-2):273-324,December 1997.)是适合的搜索方法。此处的思路是选择特征的子集,当其用于构建具有特定算法的模型时该子集会具有最佳的分类性能。通过交叉验证、保留集合(holdoutset)或Bootstrap评估器(bootstrap estimator)来评估精度。对于每个受到评估的特征子集必须完成模型和一组交叉验证轮次(a set of cross-validation folds)。例如,具有k个特征和10次交叉验证的前向选择或者后向消除会进行约k2乘以10次学习步骤。穷举搜索算法将会使事物以2k乘以10次学习步骤的阶次进行。对于方案特效搜索显示了好的结果,其中后向消除与前向选择相比得到了更为精确的模型,以及还有更大的子集。更复杂的技术不总是合理的,但是在一些情况下可以得到好得多的结果。统计显著性检测可以用来确定终止搜索的时间,其基于受到评估的子集会导致对当前最佳子集的改善的几率。
在一方面,Race搜索是合适的,该搜索使用t-检测至少通过一种用户指定的小阈值(user-specified threshold)来确定某个子集优于当前最佳子集的概率。如果在留一法交叉验证(leave-one-out cross-validation)过程中,该概率变小,则可以放弃子集,因为不太可能出现如下情况:即向该子集中添加或删除特征会导致对当前最佳子集的改善。在前向选择中,例如,同时评估所有对子集的特征添加,并且将不能很好表现的放弃。因此,不是所有的实例均用来评估所有的子集(在留一法交叉验证中)。Race搜索算法还阻碍(block)所有几乎相同的特征子集并且使用贝叶斯统计以保持在对于每个竞争子集的平均留一法交叉验证误差的评估上的概率分布。使用前向选择,但是代替持续地尝试对于最佳子集的所有可能的改变,使这些改变进行竞赛并且当交叉验证结束或剩下单一子集时,结束竞赛。
在一方面,概要搜索(schemata search)是为了竞赛(racing)设计的更为复杂的方法,该方法运行一系列重复的竞赛(an iterative series of races),每个竞赛确定是否应该包括某个特征(参见Moore,A. W.,和 Lee,M. S.(1994).Efficient algorithmsfor minimizing cross-validation error. In Cohen,W.W.,and Hirsh,H.,eds.,Machine learning:Proceedings of the Eleventh International Conference. MorganKaufmann)。搜索开始于将所有特征标注为未知,而非特征的空集或全集。以相等的概率使用未知特征的所有组合。在每一轮,选择特征并且使具有以及不具有所选择的特征的子集进行竞赛。在评估中的每一个点上,随机地包括或排除其它构成子集的特征。使用竞赛的获胜者作为下一轮竞赛的起始点。考虑概率性框架,好的特征将会包括在最终的子集中,即使其依赖于另外的特征。在加速搜索过程的同时,概要搜索考虑相互作用的特征,且已经显示比Race搜索(其使用前向或后向选择)更为高效且快速得多。
在一方面,例如,评级竞赛搜索(rank race search)基于它们的信息增益来为特征排序,并且随后使用基于特征的评级的子集来进行竞赛。在没有特征的条件下开始竞赛,通过评级最高的特征、最高的两个特征、最高的三个特征等等来继续竞赛。可以使用交叉验证来确定对于具体数据集的最佳搜索方法。
在一方面,选择性朴素贝叶斯使用例如前向选择的搜索算法以避免包括冗余特征以及彼此依赖的特征(参见例如,Domingos,Pedro和Michael Pazzani(1997)″On theoptimality of the simple Bayesian classifier under zero-one loss″.Machinelearning,29:103-137)。通过简单地使用训练集合来测试子集的性能以找到最佳子集。
过滤器方法独立于任何学习算法运行,而包装器方法(wrapper method)倚靠于具体的学习算法并且利用例如交叉验证的方法来评估特征子集的精度。包装器通常比过滤器表现更好,但是慢得多,并且只要是使用了不同的学习算法或者甚至是当使用了一组不同的参数时,均必须重新运行。包装器方法的性能依赖于使用的是哪一种学习算法,用于评估学习算法的无样品(off-sample)精度的程序,以及搜索的组织。
对于子集的选择,过滤器(例如,CFS算法)比包装器快很多(由于上述指出的原因),所以,过滤器可以用于更大的数据集。过滤器还可以通过为包装算法提供起始特征子集来提高特定算法的精度。由此,该过程加速了包装器分析(wrapper analysis)。
CFS算法的原始版本仅测量离散特征之间的相互关系,所以该方法首先会使所有连续特征离散。较新的版本处理连续的特征而不需要离散化。
CFS考虑到目标特征假设各特征是独立的。如果存在强的特征依赖性,CFS的性能可能受到影响并且可能无法选择所有的相关特征。CFS对于消除冗余和不相关的特征是有效的,并且在特征之间不存在强依赖性时CFS会检测所有的相关特征。CFS会接受如下特征,所述特征能够在尚未通过其它特征预测的实例空间区域中预测响应变量(responsevariable)。
存在CFS的变型(variation),其能够改善局部预测特征的探测,在强的全局预测特征遮蔽(overshadow)局部预测特征的情况下是非常重要的。已经证明,在很多时候CFS优于包装器(Hall,M. A. 1999. Correlation-based feature selection for MachineLearning. Ph.D. thesis.Department of Computer Science-The University ofWaikato,New Zealand.),特别是对小数据集,以及在存在小的特征依赖性的情况下。
在CFS算法的情况下,评估函数的分子表明子集具有多大的目标特征的预测性,而分母表明子集中的特征有多少冗余。在原始的CFS算法中,首先利用Fayyad和Irani方法(Fayyad,U.M.和Irani,K.B..1993.Multi-interval discretisation of continuous-valued attributes for classification learning.In Proceedings of theThirteenth International Join Conference on Artificial Intelligence. MorganKaufmann,1993.)使目标特征离散。然后,该算法计算所有的特征-目标特征的相互关系(其将会用在评估函数的分子中)以及所有的特征-特征相互关系(其将会用在评估函数的分母中)。然后,算法搜索特征子集空间(利用任何用户-确定的搜索方法)寻找最佳子集。在CFS算法的变形中,使用对称不确定性来计算相互关系。
CFS的最大假设在于:考虑到目标特征,各特征是独立的(即,不存在相互关系)。因此,如果存在强相互作用,CFS可能无法探测相关特征。期望CFS在适当(moderate)水平的相互作用条件下可以表现良好。CFS趋于处罚噪音特征。CFS对于小的特征子集是具有严重偏向,在一些情况下会导致精度降低。CFS不高度依赖于所使用的搜索方法。可以设置CFS使其放置更多的值在局部预测特征上,即使这些特征没有显示优异的全局预测能力。如果没有设置来解释局部预测特征,CFS对于小子集的偏向可能会排除这些特征。在小数据集方面CFS可能会优于包装器,这也是因为其不需要那样储存部分数据集用来检测。当存在相互作用时,包装器表现优于CFS。具有前向选择的包装器可以用于探测成对的相互作用,但是需要后向消除来探测较高水平的相互作用。但是,后向搜索(backward search)使包装器甚至更为缓慢。双方向搜索可以用于包装器,以通过CFS算法选择的子集开始。该种巧妙的方法可以显著地减少利用包装器完成搜索所需的时间的量。
模型开发
为了对大数据集建模,取决于数据的性质,可以使用数种算法。在一方面,例如,贝叶斯网络方法对于推理提供有用的灵活的概率性方法(probabilistic approach)。
在一方面,Bayes最优分类器算法(Bayes optimal classifier algorithm)不只是针对新的记录应用最大后验假设(maximum a posteriori hypothesis)以预测其分类的概率(Friedman等人(1997),Bayesian network classifiers.Machine learning,29:131-163)。该算法还考虑由每个通过训练集合获得的其它假设的概率(不仅是最大后验假设)并且使用这些概率作为用于未来预测的权重因数(weighting factor)。因此,利用所有通过它们的后验概率(posterior probability)加权的假设(即所有可能的模型)来进行未来预测。
在一方面,考虑到特征的联合概率(joint probability),朴素贝叶斯分类器向记录(record)分配最可能的分类。计算联合概率需要大的数据集,并且是计算密集型的。朴素贝叶斯分类器是称为贝叶斯网络的更大算法类别的一部分。这些贝叶斯网络中的一些可以放宽(relax)特征之间关于独立性的由朴素贝叶斯算法建立的强假设。贝叶斯网络是对于每个节点具有条件概率分布(conditional probability distribution)的有向无环图(direct acyclic graph(DAG))。其倚靠于以下假设:考虑到目标特征(朴素贝叶斯)或其亲本,特征是条件性独立的,其可能需要包括目标特征(贝叶斯扩展网络(Bayesianaugmented network))或不需要包括目标特征(一般贝叶斯网络)。将条件独立性的假设限于特征的子集,而这导致条件独立性假设的集合,连同条件概率的集合。输出反映对于某个特征集合的联合概率的描述。
在一方面,不同的搜索算法可以在这些区域中的每一个中使用软件包(package)WEKA来实现,并且可以通过简单的评估器或通过贝叶斯模型平均(Bayesian modelaveraging(BMA))来计算概率表(probability table)。
关于搜索最佳网络结构的方法,一种选择是使用基于全局评分矩阵的算法(global score metric-based algorithm)。这些算法倚靠于利用留一法、k次或累积交叉验证(cumulative cross-validation)进行的交叉验证。留一法方法隔离出一个记录,训练数据集的剩余部分,并且评估该隔离的记录(重复地,对于每个记录)。k次方法(k-foldmethod)将数据分割成k个部分,隔离这些部分中的一个,训练数据集的剩余部分,并且评估该隔离出的记录集合。累积交叉验证算法以空的数据集开始,并且逐渐增加记录,在每次添加的记录之后更新网络的状态,并且根据网络的当前状态来评估待加入的下一个记录。
在一方面,通过这些过程之一找到的合适的网络结构被认为是如下结构,该结构将数据最佳拟合,如通过全局或局部分数决定的。也可以将其认为是如下结构:该结构最佳编码特征之间的条件独立性;这些独立性可以通过卡方检验或互信息检验(mutualinformation test)来测量。特征之间的条件独立性可以用于构建网络。当计算的复杂性较高时,可以通过特征的子集来进行分类,该特征的子集是通过任意子集选择方法确定的。
在构建网络的可选择的方法中,在发现依赖性时,可以将目标特征用作任何其它节点(一般贝叶斯网络),然后,通过其马尔科夫毯(Markov blanket)使其与其它特征隔离。马尔科夫毯隔离节点使其不受其边界外的任何节点的影响,包括节点的亲本、其子代以及其子代的亲本组成。当应用时,目标特征的马尔科夫毯通常足以进行分类而不会损失精度并且可以删除所有的其它节点。该方法选择应当用于分类的特征(即,包括在马尔科夫毯中的特征),并且通过删除所有在目标特征的马尔科夫毯之外的节点来降低数据过度拟合的风险。
在一方面,基于实例的算法也适合用于模型开发。基于实例的算法也称为“懒惰”算法,其特征在于对于每个实例生成新的模型,而非将预测基于由训练集合(一次(once))产生的树或网络。换言之,其不提供可以解释目标特征的通用函数(general function)。这些算法在内存中储存整个训练集合并且由与那些被检验的记录类似的记录的集合构建模型。通过近邻或局部加权方法(locally weighted method),利用欧氏距离来评估相似性。一旦选择了记录的集合,就可以利用数种不同的算法例如朴素贝叶斯来构建最终模型。所得模型通常不会为了在应用于其他记录时也表现良好而进行设计。由于清楚地储存了训练观察结果,而不是以树或网络的形式,因此在训练基于实例的算法时,信息从来不会被浪费。
在一方面,基于实例的算法对于复杂的、多维的问题是有用的,对于这类问题树和网络的计算需求超过了可用的内存。该方法避免尝试通过选择特征来减少复杂性以适合树或网络的需求的问题。但是,当对新的实例进行分类时,该过程可能表现不佳,因为所有的计算在分类时进行。在同时对一种或少数几种实例进行分类的应用中这一点通常不是问题。通常,这些算法对于所有的特征给予相似的重要性,而不是在那些更好解释目标特征的特征上放置更多的权重。这可能导致选择如下实例,这些实例实际上并非最接近就其与目标特征的关系受到评估的实例。基于实例的算法对于数据收集中的噪音有鲁棒性,这是因为实例获得在它们的相邻元素之间最常见的分配或这些相邻元素(连续情况)的平均值,并且这些算法通常对于非常大的训练集合表现良好。
在一方面,支持向量机(SVM)用于建模数据集以供数据挖掘目的。支持向量机是统计学习理论(Statistical Learning Theory)的派生物并且于1992年首次提出。SVM的重要方面在于一旦支持向量(support vector)被确定,就可以从计算中除去剩余的观察结果,由此大大降低问题的计算复杂性。
在一方面,决策树学习算法是适合建模的机器学习方法。这些决策树算法包括ID3、Assistant以及C4.5。这些算法的优势在于在没有很多限制的条件下搜索大型假设空间(hypothesis space)。它们通常偏向于构建小树,是一种在有些情况下理想的属性。
得到的树通常可以由“若-则(if-then)”规则的集合来表示;这种不会见于其它算法类型例如基于实例的算法的属性能够改善人的可读性(readability)。通过从头到尾扫描树以及评估树上每个节点处的一些特征来进行实例的分类。不同的决策树学习算法在它们的能力和需求方面有所不同;一些仅对离散特征有效。大部分决策树算法还需要目标特征是二元的,而其它可以处理连续的目标特征。这些算法通常对于为每个特征确定类别(编码)中的错误(error)有鲁棒性。另外的相关特征是这些算法中的一些可以有效地处理缺失值。
在一方面,迭代二叉树3代(ID3)算法是适合的决策树算法。该算法使用“信息增益”来决定哪个特征自身最佳地解释目标,且该算法将这个特征放置在树的顶部(即,在根节点(root node)上)。然后,通过下述方法为每一类根节点分配子孙(descendant):根据根节点的类别来分选训练记录并在这些类别中的每一种中找出具有最大信息增益的特征。对于每个新增加的特征重复该循环,等等。该算法可以不用“回溯(back-track)”以重新考虑其在先的决定,并且这可以导致收敛至局部最大值。存在ID3算法的几种扩展,其进行对决策树的“后剪枝(post-pruning)”,这是回溯的一种形式。
ID3算法进行“爬山搜索(hill-climbing search)”经过决策树的空间,以简单的假设开始并且通过更为精心的假设推进。因为其进行对假设空间的完整搜索,所以其避免了选择不含目标特征的假设空间的问题。ID3算法仅输出一个树,而不是输出所有合理的树(reasonable tree)。
利用ID3算法可以出现归纳偏向(inductive bias),这是因为其是自顶向下(top-down)、广度优先(breadth-first)算法。换言之,其在特定的深度考虑所有可能的树,选择最佳的一个,然后将其移动到下一个深度。相比于高的树,其优选矮的树,并且通过在特定的深度选择最矮的树,该算法将具有最高信息增益的特征放置到最靠近根部。
在决策树的一个方面,ID3算法的变形是逻辑模型树(logistic model tree(LMT))(Landwehr等人(2003),Logistic Model Trees. Proceedings of the 14thEuropean Conference on machine learning. Cavtat-Dubrovnik,Croatia.Springer-Verlag.)。该分类器在叶子(leaves)部位实现逻辑回归函数(logistic regressionfunction)。该算法处理离散目标特征,并且可以处理缺失值。
C4.5是基于ID3算法的决策树生成算法(Quinlan(1993)C4.5:Programs formachine learning.Morgan Kaufmann Publishers)。一些改进包括,例如,选择合适的特征评估量度(evaluation measure);利用缺失特征值(missing feature value)来处理训练数据;处理具有不同成本的特征;以及处理连续特征。
用于评价二元分类器(binary classifier)性能的有用的工具是受试者操作特征(ROC)曲线。ROC曲线是二元分类器系统随着其判别阈值(discrimination threshold)变化的敏感度对(1-特异度(1-specificity))的点线图(T.Fawcett(2003).ROC graphs:Notesand practical considerations for data mining researchers.Tech report HPL-2003-4.HP Laboratories,Palo Alto,CA,USA)。由此,受试者操作特征(ROC)曲线通过对于不同的阈值绘制‘敏感度’对‘1-特异度’来构建。这些阈值确定记录是被分类为正或负,并且影响敏感度和‘1-特异度’。作为例子,考虑如下分析:其中评估一系列植物品种对病原体的应答,并且期望设立阈值,在该阈值之上的变体被认为是易感的。在数种这样的阈值之上来构建ROC曲线,其帮助针对给定问题确定最佳阈值(其在真阳性率和假阳性率之间提供最佳的平衡)。较低的阈值导致较高的假阳性率,这是因为假阳性和真阴性(一些阴性记录将会被指定为阳性)比例增加。ROC曲线下的面积是分类器整体性能的量度,但是最佳分类器的选择可以基于该曲线的特定部分。
交叉验证技术是如下方法:通过该方法选择特定的算法或特定的算法集合以为给定数据集的提供最优的性能。在本文中使用交叉验证技术是例如用来在模型开发过程中选择特定的机器学习算法。当数种算法可以用来执行时,通常感兴趣的是选择预期在将来具有最佳性能的算法。交叉验证通常是为这项任务选择的方法。
交叉验证基于训练数据(training data)的第一分离部分(first separatingpart),然后利用剩余的数据进行训练,并且最终评估该算法对被分离的数据集的性能。与剩余评估(residual evaluation)相比,优选交叉验证技术,因为剩余评估在算法应用至新的数据集时会如何表现这方面是不提供信息的。
在一方面,交叉验证的一个变形,即预留方法(holdout method),是基于将数据分成两部分,训练第一子集,并且检测第二子集。与残余方法相比,其花费相同量的时间用来计算,并且当数据集足够大时其是优选的。取决于如何将数据集分成子集,该方法的性能可能会变化。
在交叉验证方面,k次交叉验证方法是在预留方法之上的改进。将数据集分成k个子集,并且将预留方法重复k次。然后计算k次试验(trial)中的平均误差。每个记录会有一次是测试集合的一部分,且会有k-1次是训练集合的一部分。该方法对于将数据集分开的方式不太敏感,但是计算的成本是使用预留方法的k倍高。
在交叉验证的另外的方面,留一法交叉验证方法类似与k次交叉验证。利用N-1个记录(其中N是记录的总数)进行训练,并且一次仅利用一个记录进行测试。局部加权学习者(locally weighted learner)减少这些算法的运行时间以使其水平与残余评估的相似。
在交叉验证方面,随机样品技术(random sample technique)是用于测试的另一选择,其中使用来自数据集的合理大小的样品(例如,多于30个)来进行测试,利用数据集的剩余部分进行训练。使用随机样品进行测试的优点在于取样可以重复任意多次,这可能会导致预测的置信区间(confidence interval)减小。但是,交叉验证技术具有如下优点:测试集合中的记录在多个测试集合之间是彼此独立的。
本文中描述的关联规则算法中的一些可以用来探测数据集中的特征之间的相互作用,并且还可以用来进行模型开发。M5P算法是适合用于连续和离散目标特征的模型树算法。其利用回归函数来代替终端类代表值(terminal class value)建立决策树。连续特征可以直接得到处理,而不用转化为离散特征。其使用条件类概率函数(conditional classprobability function)处理离散类别。其模型树生成最近似概率值(greatestapproximate probability value)的类别被选择作为预测类别。M5P算法表现未知函数的任何分段线性近似值(piecewise linear approximation)。M5P检查所有可能的测试并且选择使期望的误差降低最多的测试。然后M5P通过利用线性回归模型来代替子树(sub-tree)来对该树进行剪枝,条件是线性回归模型具有较低的评估误差。评估误差是在节点上所有实例的预测值和实际值的平均绝对差异(average absolute difference)。
在剪枝(pruning)过程中,对于未见过的情况的误差的低估通过(n+v)/(n-v)得到补偿,其中n是到达该节点的实例的数量,而v是对于该节点的线性模型中参数的数量(参见Witten和Frank,2005)。在每个回归中涉及的特征是在该节点以下的子树中所测试的特征(参见Wang和Witten,1997)。然后使用平滑过程(smoothing process)以避免当预测连续类代表值时在叶子处的近邻线性模型之间的陡峭中断(steep discontinuity)。在平滑过程中,首先进行利用叶模型(leaf model)的预测并且通过将其与来自在回溯到根部的路径中的每个中间节点处的线性模型的预测值结合来使其平滑。
在利用决策树算法建模的方面,在本文中使用交替决策树(alternatingdecision trees(ADTrees))。该算法是依赖于被称为AdaBoost(参见Freund和Schapire(1996),Experiments with a new boosting algorithm. In L. Saitta,editor,Proceedings of the Thirteenth International Conference on machine learning,pages 148-156,San Mateo,CA,Morgan Kaufmann.)的强化技术以提高性能的决策树的归纳。
当与其它决策树算法进行比较时,交替决策树算法趋向构建具有较简单规则的较小的树,并且由此可以更容易地进行解释。其也会将真实值(real value)与每个节点关联,从而使得每个节点独立于其它节点得到评估。得到的树的大小较小,并且在内存要求方面相应地减少,使得交替决策树算法成为少数用于处理非常大且复杂的数据集的选择之一。在预测节点之后,记录所遵循的多重路径使得该算法对于缺失值更为鲁棒,因为尽管有一个被忽略的路径(ignored path),但是可以遵循所有其它替代性路径。最后,该算法在每个分类中提供置信度(measure of confidence),称为“分类边缘(classificationmargin)”,这在一些应用中与分类本身一样重要。与其它决策树一样,该算法对于特征之间的多重共线性也是非常鲁棒的。
通常基于特定的理想特征(例如谷物产率、体脂肪百分比、油的分布(oilprofile),以及疾病抗性)来繁殖植物和动物。植物或动物改良项目的一个目标在于鉴定用于繁殖的个体,使得在后续世代中更为频繁或更为显著地表达所期望的特征。学习涉及但不限于:改变实践、活动或行为,所述实践、活动或行为涉及鉴定用于繁殖的个体从而使得所期望特征的表达的增加程度更高或者鉴定用于繁殖的个体的成本更低。通过完成本文中列出的步骤,可以开发出模型用以与通过其它方法相比更为有效地选择用于繁殖的个体以及用于基于特征值的组合更为准确地分类或预测假设的个体的性能。
除了所期望的特征之外,可以针对一个或更多个可能与所期望的特征有或没有明显相互关系的别的特征获得数据。
在此,将本公开中提及的所有引用文献通过参考并入,其程度为它们涉及的在本公开中使用的材料和方法。
实施例
下述实施例仅用于说明的目的而不意在限制本公开的范围。
通过田间和温室筛选来鉴定对于病原体含有高水平和低水平抗性的优良的玉米品系(elite maize line)。将对于该病原体显示高水平抗性的品系用作供体,并与易感的优良品系杂交。然后将后代与相同的易感的优良品系回交。得到的种群与单倍体诱导系原种杂交,并使用染色体加倍技术发展出191个固定的近交系(fixed inbred line)。利用田间筛选方法(field screening methodology)对每个品系在两个复制品中对病原体的抗性水平进行评估。利用田间筛选方法还对易感的优良品系的44个复制品进行了评估。对于所有191个加倍单倍体品系、易感的优良品系和抗性供体使用93个多态性SSR标志物生成了基因型数据。
最终的数据集含有426个样品,基于田间筛选结果将其分成两组。田间筛选分数范围为1~4的植物构成易感组,而田间筛选分数范围为5~9的植物构成抗性组。为了此分析,将易感组用“0”标记而抗性组用“1”标记。
利用包括以下步骤的三步过程对数据集进行了分析:(a)探测关联规则;(b)基于步骤(a)中的发现创建新的特征,并将这些特征添加到数据集中;(c)不用来自步骤(b)的特征针对目标特征开发模型,而另一个模型利用来自步骤(b)中的特征开发。对于将这些步骤中的每一步用于该数据集的描述如下。
步骤(a):探测关联规则:在本实施例中,利用DDPM(判别模式挖掘算法)和CARPENTER(频繁模式挖掘算法)对426个样品进行了评估。将全部94个特征(包括目标特征)用于评估。
通过DDPM算法探测关联规则,包括下述特征:
1.特征48=5_103.776_umc2013,特征59=7_12.353_1gi2132和特征89=10_43.909_phi050
该判别模式具有来自具有支持的所有模式的最佳信息增益(0.068)(在426个样品中的出现(occurrence))>=120。
通过CARPENTER算法探测的5个关联规则包括下述特征:
1.特征59=7_12.353_1gi2132,特征62=7_47.585_umc1036和响应(Response)=1
2.特征59=7_12.353_1gi2132,特征92=10_48.493_umc1648和响应=1
3.特征35=4_58.965_umc1964,特征59=7_12.353_1gi2132和响应=1
4.特征19=2_41.213_1gi2277,特征20=2_72.142_umc1285和响应=0
5.特征19=2_41.2131_gi2277,特征78=8_95.351_umc1384和响应=0
6.特征88=10_18.018_umc1576,特征89=10_43.909_phi050和响应=0
具有响应=1的关联规则具有180的支持,具有响应=0的规则具有140的支持。
步骤(b):基于步骤(a)中的发现创建新的特征,以及将这些特征添加到数据集中:使用包括在步骤(a)中探测的6个关联规则中的原始特征,创建新特征。如表1所示,通过连接原始的特征创建这些新特征。
表1:由两个其它特征创建的新特征的可能的值的表示
步骤(c):在加入来自步骤(b)的特征之前开发针对目标特征的分类模型,并在加入来自步骤(b)的特征之后开发另一个模型:对于模型开发,将REPTree算法用于数据集。表2显示了在向数据集中加入新的特征之后,平均绝对误差减少(即,新特征改善了分类的精度)。表3显示了使用未用来自步骤(b)的新特征的原始数据集的REPTree模型得到的混淆矩阵(confusion matrix)。表4显示了使用原始数据集和来自步骤(b)的新特征的REPTree模型得到的混淆矩阵。来自步骤(b)的新特征的加入使得对于两类目标特征正确分类的记录数增加。对于类别“0”,正确分类的记录数从91增加至97。对于类别“1”,正确分类的记录数从166增加至175。图1显示了通过来自步骤(b)的新特征的加入得到的ROC曲线下的面积的增加。这说明加入来自步骤(b)的新特征得到了改善的模型。这些结果是使用10-次交叉验证获得的。
表2:在加入和不加入来自步骤(b)的新特征的情况下使用93个由SSR分子遗传标志物创建的特征,和目标特征,应用于由426株玉米植物组成的数据集的REPTree模型所获得的平均绝对误差
算法 平均绝对误差
REPTree(原始数据) 0.4438
REPTree(原始数据+来自步骤(b)的新特征) 0.436
表3:使用没有来自步骤(b)的新特征的原始数据集的REPTree模型得到的混淆矩阵
表4:使用原始数据集和来自步骤(b)的新特征的REPTree模型得到的混淆矩阵

Claims (35)

1.一种挖掘用于分类或预测植物中至少一种目标特征存在的数据集的方法,所述方法包括:
提供包含由至少一种基于植物的分子遗传标志物创建的变量集的数据集,其中所述数据集包含植物中关于至少一种变量的值;
利用至少一种关联规则挖掘算法确定来自数据集的至少一种关联规则;
利用所述关联规则创建一种或多种新的变量;
将新的变量添加至所述数据集以产生更大的数据集;
利用所述新的变量分类或预测所述植物中的一种或多种目标特征;和
利用至少一种已被添加用于产生所述更大的数据集的新的变量来开发用于对一种或多种目标特征进行预测或分类的至少一种模型,其中使用交叉验证来在每个模型中的算法和参数值的集合之间进行比较。
2.根据权利要求1所述的方法,其中所述关联规则包括利用自组织映射确定的空间和时间的关联规则。
3.根据权利要求1所述的方法,其中所述数据集的所述变量集包含创建自标志物的变量,所述变量选自下组:环境数据、表型数据、DNA序列数据、微阵列数据、生化数据、代谢数据或它们的组合,且所述变量具有针对该植物的值。
4.根据权利要求1所述的方法,其中利用所述新的变量分类或预测所述植物中的一种或多种目标特征包括利用一种或多种机器学习算法,所述机器学习算法选自下组:特征评估算法、特征子集选择算法、贝叶斯网络、基于实例的算法、支持向量机、投票算法、代价敏感分类器、叠加算法、分类规则、决策树、APriori算法、FP-growth算法、可以处理大量特征的关联规则挖掘算法、巨模式挖掘算法、直接判别模式挖掘算法、粗糙集、自组织映射(SOM)算法、CLOSET+、CHARM、CARPENTER、COBBLER、DDPM、HARMONY、RCBT、CAR、PATCLASS、模式融合算法、信息增益算法、Relief算法、对称不确定性算法、增益率算法、评级算法、基于关联性的特征选择(CFS)算法、与其它任何机器学习算法联合的包装算法、朴素贝叶斯算法、基于实例1(IB 1)算法、基于实例k-近邻(IBK)算法、KStar算法、惰式贝叶斯规则(LBR)算法、局部加权学习(LWL)算法、支持向量回归(SVR)算法、序列最小优化方法(SMO)算法、逻辑模型树(LMT)算法、M5P算法和REPTree算法。
5.根据权利要求1所述的方法,其中所述一种或多种目标特征选自由连续的目标特征和离散的目标特征构成的组。
6.根据权利要求5的方法,其中所述离散的目标特征是二元目标特征。
7.根据权利要求1所述的方法,其中所述至少一种基于植物的分子遗传标志物来自于植物种群,所述植物种群选自:结构化的植物种群、未结构化的植物种群、包括近交植物的种群、和包括杂交植物的种群。
8.根据权利要求1所述的方法,其中所述植物选自下组:玉米、大豆、甘蔗、高粱、小麦、向日葵、稻、芸薹、棉花以及黍。
9.根据权利要求7所述的方法,其中所述植物种群包括2至1000000个成员。
10.根据权利要求1所述的方法,其中所述分子遗传标志物的数量在1和1000000个标志物之间。
11.根据权利要求1所述的方法,其中所述基于植物的分子遗传标志物包括一种或多种简单序列重复(SSR)、切割扩增多态性序列(CAPS)、简单序列长度多态性(SSLP)、限制性片段长度多态性(RFLP)、随机扩增多态性DNA(RAPD)标志物、单核苷酸多态性(SNP)、任意片段长度多态性(AFLP)、插入、缺失、任何其它类型的来源于DNA、RNA、蛋白质或代谢产物的分子遗传标志物、由两种或更多种上述来源于DNA的分子遗传标志物创建的单元型、以及它们的组合。
12.根据权利要求1所述的方法,其中由基于植物的分子遗传标志物创建的变量的值与一种或多种表型数据、微阵列数据、分析性数据、生化数据、或环境数据结合而确定。
13.根据权利要求12所述的方法,其中所述环境数据包括但不限于:与培养植物的农田的气候和土壤特征对应的数据。
14.根据权利要求1所述的方法,其中所述一种或多种目标特征是可数字表示的表型性状,所述表型性状包括疾病抗性、产率、谷物产量、纱线强度、蛋白质组成、蛋白质含量、昆虫抗性、谷物水分含量、谷物油含量、谷物油质量、干旱抗性、根倒伏抗性、植物高度、穗位高、谷物蛋白质含量、谷物氨基酸含量、谷物颜色和茎秆倒伏抗性。
15.根据权利要求14所述的方法,其中所述一种或多种目标特征的数字表示使用统计方法、机器学习方法或它们的任何组合调整。
16.根据权利要求1所述的方法,其中通过直接DNA测序来实验确定植物对于一种或多种用于创建所述变量的基于植物的分子遗传标志物的基因型。
17.一种挖掘具有由至少一种基于植物的分子遗传标志物创建的至少一种变量的数据集的方法,所述方法包括以下步骤:
确定关联规则;
利用包含由至少一种基于植物的分子遗传标志物创建的变量集的数据集来开发对一种或多种目标特征进行预测或分类的模型;
利用所述关联规则创建新的变量,并将新变量添加到所述数据集中以产生更大的数据集;
确定所述更大的数据集中变量的值;
从所述更大的数据集中的变量选择变量的子集;和
利用已被添加用于产生所述更大的数据集的至少一种新的变量来开发对一种或多种目标特征进行预测或分类的至少一种别的模型,其中使用交叉验证来比较不同的模型和变量。
18.根据权利要求17所述的方法,其中所述步骤中的至少一步利用机器学习算法进行。
19.根据权利要求17所述的方法,其中确定关联规则包括使用自组织映射探测关联规则,空间和时间的关联。
20.根据权利要求17所述的方法,其中至少一种目标特征是选自所述更大的数据集中的变量的变量子集。
21.根据权利要求17所述的方法,其进一步包括:
利用至少一种已被添加用于产生所述更大的数据集的新的变量来开发用于对一种或多种目标特征进行预测或分类的至少一种模型,其中使用受试者操作特征(ROC)曲线来比较所述模型中算法和参数值的集合。
22.根据权利要求17所述的方法,其中一种或多种变量数学地或计算地来源于其它的变量。
23.根据权利要求1或17的方法,用于预测杂种性能。
24.根据权利要求23的方法,用于预测跨越不同地理位置的杂种性能。
25.根据权利要求1或17的方法,其中在所述步骤中的至少一步中考虑现有知识。
26.根据权利要求1或17的方法,用于选择近交系、选择杂种、评级杂种、针对特定的地理学评级杂种、选择新近交种群的亲本、发现用于渗入到优良近交系中的片段或者它们的任何组合。
27.根据权利要求1或17的方法,所述方法进一步包括以下步骤:
基于利用关联规则的分类或预测针对一种或多种感兴趣的目标特征选择至少一株植物。
28.根据权利要求1或17的方法,所述方法进一步包括以下步骤:
基于利用关联规则的分类或预测选择至少两株植物作为新种群的亲本。
29.根据权利要求1或17的方法,所述方法进一步包括以下步骤:
基于利用关联规则的分类或预测从植物种群选择改善植物种群中一个或多个个体的DNA片段。
30.根据权利要求17所述的方法,其中将结果用于探测一种或多种数量性状基因座,向一个或多个数量性状基因座分配显著性,定位一个或多个数量性状基因座,或它们的任何组合。
31.根据权利要求1或17所述的方法,其中至少一种变量是由至少一种基于动物的分子遗传标志物创建的。
32.根据权利要求1或17所述的方法,其中在所述步骤中的至少一步中考虑现有知识,所述现有知识包括初步调查、植物遗传学的数量研究、基因网络、序列分析或它们的任意组合。
33.根据权利要求1或17所述的方法,其还包括以下步骤:
通过利用一种或多种关联规则创建的一种或多种变量的组合来代替原有的变量以减少维度;和
通过基于模型的搜索树确定区别性和必要性频繁模式。
34.根据权利要求1或17所述的方法,其中所述方法利用计算机和软件来执行。
35.根据权利要求4的所述的方法,其中一种或多种机器学习算法包括交互式决策树(ADTree)算法、ReliefF算法、RReliefF算法、和回归型序列最小优化(SMOReg)算法。
CN201080029509.9A 2009-06-30 2010-06-03 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用 Expired - Fee Related CN102473247B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22180409P 2009-06-30 2009-06-30
US61/221,804 2009-06-30
PCT/US2010/037211 WO2011008361A1 (en) 2009-06-30 2010-06-03 Application of machine learning methods for mining association rules in plant and animal data sets containing molecular genetic markers, followed by classification or prediction utilizing features created from these association rules

Publications (2)

Publication Number Publication Date
CN102473247A CN102473247A (zh) 2012-05-23
CN102473247B true CN102473247B (zh) 2017-02-08

Family

ID=42685709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080029509.9A Expired - Fee Related CN102473247B (zh) 2009-06-30 2010-06-03 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用

Country Status (15)

Country Link
US (1) US10102476B2 (zh)
EP (1) EP2449510B2 (zh)
CN (1) CN102473247B (zh)
AR (2) AR077103A1 (zh)
AU (2) AU2010274044B2 (zh)
BR (1) BRPI1015129A2 (zh)
CA (1) CA2766914C (zh)
CL (1) CL2011003328A1 (zh)
CO (1) CO6430492A2 (zh)
MX (1) MX2011014020A (zh)
NZ (1) NZ596478A (zh)
PH (1) PH12016501806A1 (zh)
RU (1) RU2607999C2 (zh)
WO (1) WO2011008361A1 (zh)
ZA (1) ZA201108579B (zh)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8190647B1 (en) * 2009-09-15 2012-05-29 Symantec Corporation Decision tree induction that is sensitive to attribute computational complexity
US8593277B2 (en) 2011-03-17 2013-11-26 Kaarya, LLC. System and method for proximity detection
US8819065B2 (en) * 2011-07-08 2014-08-26 International Business Machines Corporation Mining generalized spatial association rule
US8217945B1 (en) 2011-09-02 2012-07-10 Metric Insights, Inc. Social annotation of a single evolving visual representation of a changing dataset
US9275334B2 (en) * 2012-04-06 2016-03-01 Applied Materials, Inc. Increasing signal to noise ratio for creation of generalized and robust prediction models
US9563669B2 (en) 2012-06-12 2017-02-07 International Business Machines Corporation Closed itemset mining using difference update
US9373087B2 (en) 2012-10-25 2016-06-21 Microsoft Technology Licensing, Llc Decision tree training in machine learning
US9754015B2 (en) * 2012-11-26 2017-09-05 Excalibur Ip, Llc Feature rich view of an entity subgraph
CN103884806B (zh) * 2012-12-21 2016-01-27 中国科学院大连化学物理研究所 结合二级质谱和机器学习算法的蛋白质组无标记定量方法
US9471881B2 (en) 2013-01-21 2016-10-18 International Business Machines Corporation Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
US20140207799A1 (en) * 2013-01-21 2014-07-24 International Business Machines Corporation Hill-climbing feature selection with max-relevancy and minimum redundancy criteria
US10102333B2 (en) 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
RU2543315C2 (ru) * 2013-03-22 2015-02-27 Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Национальный исследовательский университет "Высшая школа экономики" Способ отбора эффективных вариантов в поисковых и рекомендательных системах (варианты)
WO2015006517A2 (en) * 2013-07-10 2015-01-15 Rice Daniel M Extensions to the generalized reduced error logistic regression method
US9524510B2 (en) 2013-10-02 2016-12-20 Turn Inc. Adaptive fuzzy fallback stratified sampling for fast reporting and forecasting
WO2015143393A1 (en) * 2014-03-20 2015-09-24 The Regents Of The University Of California Unsupervised high-dimensional behavioral data classifier
US9734179B2 (en) 2014-05-07 2017-08-15 Sas Institute Inc. Contingency table generation
CN104765810B (zh) * 2015-04-02 2018-03-06 西安电子科技大学 基于布尔矩阵的诊疗规则挖掘方法
WO2016168464A1 (en) * 2015-04-14 2016-10-20 Ptc Inc. Scoring a population of examples using a model
US10037361B2 (en) 2015-07-07 2018-07-31 Sap Se Frequent item-set mining based on item absence
CN105160087B (zh) * 2015-08-26 2018-03-13 中国人民解放军军事医学科学院放射与辐射医学研究所 一种关联规则最优曲线模型的构建方法
US11972336B2 (en) 2015-12-18 2024-04-30 Cognoa, Inc. Machine learning platform and system for data analysis
CN105827603A (zh) * 2016-03-14 2016-08-03 中国人民解放军信息工程大学 未明协议特征库建立方法、未明报文分类方法及相关装置
CN107516022A (zh) * 2016-06-17 2017-12-26 北京光大隆泰科技有限责任公司 基于离散关联决策树的表型‑基因型的数据处理方法和系统
CN106202883A (zh) * 2016-06-28 2016-12-07 成都中医药大学 一种基于大数据分析建立疾病云图的方法
US11222270B2 (en) 2016-07-28 2022-01-11 International Business Machiness Corporation Using learned application flow to predict outcomes and identify trouble spots in network business transactions
US11030673B2 (en) * 2016-07-28 2021-06-08 International Business Machines Corporation Using learned application flow to assist users in network business transaction based apps
RU2649792C2 (ru) * 2016-09-09 2018-04-04 Общество С Ограниченной Ответственностью "Яндекс" Способ и система обучения алгоритма машинного обучения
US10210283B2 (en) 2016-09-28 2019-02-19 International Business Machines Corporation Accessibility detection and resolution
CN106407711A (zh) * 2016-10-10 2017-02-15 重庆科技学院 基于云数据的宠物喂养推荐方法及系统
CN106472332B (zh) * 2016-10-10 2019-05-10 重庆科技学院 基于动态智能算法的宠物喂养方法及系统
WO2018103037A1 (zh) * 2016-12-08 2018-06-14 中国种子集团有限公司 水稻全基因组育种芯片及其应用
EP3340130A1 (en) * 2016-12-23 2018-06-27 Hexagon Technology Center GmbH Method for prediction of soil and/or plant condition
CN106709998A (zh) * 2016-12-24 2017-05-24 郑州大学 一种农作物叶面属性数字化重建的自组织映射建模方法
CA3049582A1 (en) * 2017-01-08 2018-07-12 The Henry M. Jackson Foundation For The Advancement Of Military Medicine, Inc. Systems and methods for using supervised learning to predict subject-specific bacteremia outcomes
AU2018205280A1 (en) * 2017-01-08 2019-08-15 The Henry M. Jackson Foundation For The Advancement Of Military Medicine, Inc. Systems and methods for using supervised learning to predict subject-specific pneumonia outcomes
CN106803209B (zh) * 2017-01-13 2020-09-18 浙江求是人工环境有限公司 实时数据库和先进控制算法的作物培育模式分析优化方法
CN106886792B (zh) * 2017-01-22 2020-01-17 北京工业大学 一种基于分层机制构建多分类器融合模型的脑电情感识别方法
US20180239866A1 (en) * 2017-02-21 2018-08-23 International Business Machines Corporation Prediction of genetic trait expression using data analytics
CN108733966A (zh) * 2017-04-14 2018-11-02 国网重庆市电力公司 一种基于决策树群的多维电能表现场状态检验方法
RU2672394C1 (ru) * 2017-07-26 2018-11-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения
US11263707B2 (en) 2017-08-08 2022-03-01 Indigo Ag, Inc. Machine learning in agricultural planting, growing, and harvesting contexts
WO2019040866A2 (en) 2017-08-25 2019-02-28 The Board Of Trustees Of The University Of Illinois APPARATUS AND METHOD FOR COLLECTING AGRICULTURAL DATA AND AGRICULTURAL OPERATIONS
CN107679368A (zh) * 2017-09-11 2018-02-09 宁夏医科大学 基于遗传算法和变精度粗糙集的pet/ct高维特征级选择方法
CN107844602B (zh) * 2017-11-24 2021-03-16 重庆邮电大学 一种基于时空属性关联规则的预测方法
CN108280289B (zh) * 2018-01-22 2021-10-08 辽宁工程技术大学 基于局部加权c4.5算法的冲击地压危险等级预测方法
CN108307231B (zh) * 2018-02-14 2021-01-08 南京邮电大学 基于遗传算法的网络视频流特征选择与分类方法
US11710196B2 (en) 2018-04-24 2023-07-25 Indigo Ag, Inc. Information translation in an online agricultural system
US11367093B2 (en) 2018-04-24 2022-06-21 Indigo Ag, Inc. Satellite-based agricultural modeling
US11531934B2 (en) * 2018-05-31 2022-12-20 Kyndryl, Inc. Machine learning (ML) modeling by DNA computing
CN109308936B (zh) * 2018-08-24 2020-09-01 黑龙江省稻无疆农业科技有限责任公司 一种粮食作物产地的识别方法、识别装置及终端识别设备
CN109300502A (zh) * 2018-10-10 2019-02-01 汕头大学医学院 一种从多组学数据中分析关联变化模式的系统和方法
CN109918708B (zh) * 2019-01-21 2022-07-26 昆明理工大学 一种基于异质集成学习的材料性能预测模型构建方法
CA3123457A1 (en) 2019-03-11 2020-09-17 Pioneer Hi-Bred International, Inc. Methods for clonal plant production
WO2020185725A1 (en) * 2019-03-11 2020-09-17 Pioneer Hi-Bred International, Inc. Methods and compositions for imputing or predicting genotype or phenotype
TWI759586B (zh) * 2019-03-18 2022-04-01 崑山科技大學 農田澆灌建議方法
BR112021020745A2 (pt) * 2019-04-15 2021-12-14 Sports Data Labs Inc Sistema de predição de dados de animais
CN110119551B (zh) * 2019-04-29 2022-12-06 西安电子科技大学 基于机器学习的盾构机刀具磨损退化关联特征分析方法
US10515715B1 (en) 2019-06-25 2019-12-24 Colgate-Palmolive Company Systems and methods for evaluating compositions
BR112022000182A2 (pt) * 2019-07-08 2022-04-12 Indigo Ag Inc Modelos de previsão de rendimento de cultura
CN110777214B (zh) * 2019-07-11 2022-05-27 东北农业大学 与玉米种子耐储性紧密连锁的ssr标记及其在分子标记辅助育种中的应用
CN110334133B (zh) * 2019-07-11 2020-11-20 北京京东智能城市大数据研究院 规则挖掘方法和装置、电子设备和计算机可读存储介质
US20210110298A1 (en) * 2019-10-15 2021-04-15 Kinaxis Inc. Interactive machine learning
US11886514B2 (en) 2019-10-11 2024-01-30 Kinaxis Inc. Machine learning segmentation methods and systems
US11526899B2 (en) 2019-10-11 2022-12-13 Kinaxis Inc. Systems and methods for dynamic demand sensing
CN111103157A (zh) * 2019-11-26 2020-05-05 通鼎互联信息股份有限公司 一种基于生物启发频繁项集挖掘的工业设备状态监测方法
US11544593B2 (en) * 2020-01-07 2023-01-03 International Business Machines Corporation Data analysis and rule generation for providing a recommendation
US11176924B2 (en) 2020-01-09 2021-11-16 International Business Machines Corporation Reduced miss rate in sound to text conversion using banach spaces
US11669794B2 (en) * 2020-04-06 2023-06-06 Johnson Controls Tyco IP Holdings LLP Building risk analysis system with geographic risk scoring
CN111540408B (zh) * 2020-05-12 2023-06-02 西藏自治区农牧科学院水产科学研究所 一种全基因组多态性ssr分子标记的筛选方法
CN111738138B (zh) * 2020-06-19 2024-02-02 安徽大学 一种耦合气象特征区域尺度的小麦条绣病严重度遥感监测方法
CN111784071B (zh) * 2020-07-14 2024-05-07 北京月新时代科技股份有限公司 一种基于Stacking集成的许可占用与预测方法及系统
CN111984646A (zh) * 2020-08-12 2020-11-24 中国科学院昆明植物研究所 一种基于二叉树的植物数据存储、鉴定方法及系统
CN112182497B (zh) * 2020-09-25 2021-04-27 齐鲁工业大学 一种基于生物序列的负序列模式的相似性分析方法、实现系统及介质
CN112446509B (zh) * 2020-11-10 2023-05-26 中国电子科技集团公司第三十八研究所 一种复杂电子装备预测维护方法
WO2022157872A1 (ja) * 2021-01-21 2022-07-28 日本電気株式会社 情報処理装置、特徴量選択方法、教師データ生成方法、推定モデル生成方法、ストレス度の推定方法、およびプログラム
CN113053459A (zh) * 2021-03-17 2021-06-29 扬州大学 一种基于贝叶斯模型整合亲本表型的杂交种预测方法
CN113381973B (zh) * 2021-04-26 2023-02-28 深圳市任子行科技开发有限公司 一种识别ssr流量的方法、系统以及计算机可读存储介质
US11748384B2 (en) 2021-05-28 2023-09-05 International Business Machines Corporation Determining an association rule
CN113535694A (zh) * 2021-06-18 2021-10-22 北方民族大学 一种基于Stacking框架的特征选择方法
WO2023034118A1 (en) 2021-08-30 2023-03-09 Indigo Ag, Inc. Systems for management of location-aware market data
WO2023034386A1 (en) 2021-08-31 2023-03-09 Indigo Ag, Inc. Systems and methods for ecosystem credit recommendations
CN114780599A (zh) * 2022-04-06 2022-07-22 四川农业大学 基于小麦品比试验数据的综合分析系统
CN116189907B (zh) * 2022-12-05 2023-09-05 广州盛安医学检验有限公司 一种适用于新生儿的遗传代谢病智能筛查系统
CN117461500B (zh) * 2023-12-27 2024-04-02 北京市农林科学院智能装备技术研究中心 加速作物育种的植物工厂系统、方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2180386C (en) 1996-07-03 2006-09-12 Lorin R. Debonte Canola oil having increased oleic acid and decreased linolenic acid content
WO2003040949A1 (en) 2001-11-07 2003-05-15 Biowulf Technologies, Llc Pre-processed Feature Ranking for a support Vector Machine
US20030130991A1 (en) * 2001-03-28 2003-07-10 Fidel Reijerse Knowledge discovery from data sets
RU2215406C2 (ru) 2002-01-03 2003-11-10 Государстенное научное учреждение РАСХН - Всероссийский научно-исследовательский институт масличных культур им. В.С. Пустовойта Способ создания форм сои с измененным жирно-кислотным составом масла
BRPI0410656A (pt) 2003-05-28 2006-07-18 Pioneer Hi Bred Int método de melhoramento de planta e planta obtida
US7836004B2 (en) 2006-12-11 2010-11-16 International Business Machines Corporation Using data mining algorithms including association rules and tree classifications to discover data rules
CA2691156A1 (en) 2007-06-20 2008-12-24 International Flower Developments Proprietary Limited Rose containing flavone and delphinidin, and method for production thereof

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101151615A (zh) * 2005-03-31 2008-03-26 皇家飞利浦电子股份有限公司 用于收集与生物分子和疾病之间的关系相关的证据的系统和方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Phenotype forecasting with SNPs data through gene-based Bayesian networks;Alberto Malovini et al;《BMC Bioinformatics》;20090205;第10卷(第2期);1-8 *
基因表达数据的若干挖掘方法研究;唐小丽;《扬州大学硕士学位论文》;20071215;第五章 *

Also Published As

Publication number Publication date
MX2011014020A (es) 2012-02-28
ZA201108579B (en) 2013-01-30
CL2011003328A1 (es) 2012-08-31
BRPI1015129A2 (pt) 2016-07-12
AU2015243031B2 (en) 2016-12-22
AU2010274044A1 (en) 2012-01-19
AU2015243031A1 (en) 2015-11-05
US20100332430A1 (en) 2010-12-30
AR077103A1 (es) 2011-08-03
RU2012103024A (ru) 2013-08-10
WO2011008361A1 (en) 2011-01-20
RU2607999C2 (ru) 2017-01-11
PH12016501806A1 (en) 2018-06-11
NZ596478A (en) 2014-04-30
AR107503A2 (es) 2018-05-09
CA2766914A1 (en) 2011-01-20
US10102476B2 (en) 2018-10-16
EP2449510B1 (en) 2019-07-31
AU2010274044B2 (en) 2015-08-13
CA2766914C (en) 2019-02-26
EP2449510A1 (en) 2012-05-09
EP2449510B2 (en) 2022-12-21
CN102473247A (zh) 2012-05-23
CO6430492A2 (es) 2012-04-30

Similar Documents

Publication Publication Date Title
CN102473247B (zh) 用于在包含分子遗传标志物的植物和动物数据集中挖掘关联规则,继而利用由这些关联规则创建的特征进行分类或预测的机器学习方法的应用
Martins Phylogenies and the comparative method in animal behavior
US20220301658A1 (en) Machine learning driven gene discovery and gene editing in plants
Shahzad et al. Missing data imputation using genetic algorithm for supervised learning
Montesinos‐Lopez et al. Application of a Poisson deep neural network model for the prediction of count data in genome‐based prediction
Yang et al. Feature selection using memetic algorithms
El Rahman et al. Machine learning model for breast cancer prediction
Kirchner et al. The analysis of simulated sow herd datasets using decision tree technique
Jeffers Genetic Algorithms I: Ecological applications of the BEAGLE and GAFFER genetic algorithms
Botta A walk into random forests: adaptation and application to Genome-Wide Association Studies
Romero Better Understanding Genomic Architecture with the use of Applied Statistics and Explainable Artificial Intelligence
Priya et al. Deep learning-based breast cancer disease prediction framework for medical industries
Pudumalar et al. Data Classification and Prediction
Revathi et al. 5 Hybrid entropy-based support vector machine with genetic algorithm for classification
Narwariya et al. Crop Yield Prediction using Machine Learning Techniques
Deb et al. Unsupervised Learning of the Sequences of Adulthood Transition Trajectories
JULIET et al. BIO-MOTIVATED NOVEL PREDICTION MODEL SHUFFLED FROG LEAPING ALGORITHM AND EXTREME LEARNING MACHINES (SFLA ELM) FOR BREAST CANCER PREDICTION AND CLASSIFICATION
Fischer more than the sum of its parts–pattern mining, neural networks, and how they complement each other
Vijayarangan et al. Rice Leaf Disease Identification Using Adam Optimizer Based Modified Differential Evolution Algorithm
Kumar et al. GENE SELECTION USING MULTIPLE QUEEN COLONIES IN LARGE SCALE MACHINE LEARNING
Nel A memetic genetic program for knowledge discovery
CN117725287A (zh) 一种智慧作物育种信息推荐方法及系统
Snegaa et al. Meta-Heuristic Approaches for the Classification of Medical Datasets
CN116612831A (zh) 深度学习结合模式生物斑马鱼的化学物质安全性评估方法
CN117476252A (zh) 一种基于知识图谱的病因病理预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170208

Termination date: 20190603

CF01 Termination of patent right due to non-payment of annual fee