CN103942467B

CN103942467B - 用于选择用于建模上位性效应的标记的信息处理方法和系统

Info

Publication number: CN103942467B
Application number: CN201410025013.4A
Authority: CN
Inventors: D·霍斯; 何丹; L·P·帕里达
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-01-21
Filing date: 2014-01-20
Publication date: 2018-05-25
Anticipated expiration: 2034-01-20
Also published as: US11335434B2; US10102333B2; US20140207427A1; US20140207436A1; US10108775B2; US20190012427A1; JP6332598B2; JP2014139787A; CN103942467A; US20190012426A1; US11335433B2

Abstract

各个实施例选择用于建模上位性效应的标记。在一个实施例中，处理器接收基因标记集合和表型。针对基因标记集合中的每个来确定关于表型的相关性评分。基于具有最高相关性评分的基因标记的相关性评分来设置阈值。针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分。基于该至少一个交互的相关性评分满足阈值，该至少一个交互被添加到最高k特征集。

Description

用于选择用于建模上位性效应的标记的信息处理方法和系统

技术领域

本发明一般涉及计算生物学领域，且更具体地，涉及选择用于建模用于表型预测的基因上位性（epistasis）的特征。

背景技术

特征选择方法对于分类和回归问题是关键的。例如，在大型学习应用中，特别是对于诸如基因表达和表型数据等生物数据（其中变量的数量远超过样本数量），这是常见的。“维数灾难”（curse of dimensionality）问题不仅影响学习算法的计算效率，而且导致这些算法的低性能。为解决这个问题，可使用各种特征选择方法，其中，选择重要特征的子集，并且基于这些特征来训练学习算法。

发明内容

在一个实施例中，公开了一种用于选择用于建模上位性效应的标记（marker）的信息处理方法。计算机实施方法包括由处理器接收一组基因标记和表型。针对表型，确定用于该组基因标记的每个的相关性评分。基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值。针对该组基因标记中的至少一个基因标记，确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分。基于该至少一次交互的相关性评分满足阈值，该至少一次交互被添加到最高k（top-k）特征集。最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。选择最高k特征集的子集以用于建模对物理特性的上位性效应。

在另一个实施例中，公开了一种用于选择用于建模上位性效应的标记的信息处理系统。信息处理系统包括：被配置为由处理器接收一组基因标记和表型的模块；被配置为为该组基因标记中的每个确定针对表型的相关性评分的模块；被配置为基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值的模块；被配置为为该组基因标记中的至少一个基因标记确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分的模块；以及被配置为基于该至少一次交互的相关性评分满足阈值，添加该至少一次交互到最高k特征集的模块，其中最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。

附图说明

在全部附图中类似的参考标号指示相同或功能类似的元件，且其与以下的详细描述结合并形成说明书的一部分，用于进一步描述各种实施例并解释根据本发明的各种原理和优势，在附图中：

图1是示出根据本发明的一个实施例的操作环境的一个例子的框图；且

图2是示出根据本发明的一个实施例的用于选择用于建模上位性效应的标记的一个例子的操作性流程图。

具体实施方式

图1示出了根据本发明的一个实施例的一个操作环境100的概图。特别地，图1示出了可被用在本发明的实施例中的信息处理系统102。图1示出的信息处理系统102仅是合适的系统一个例子，且不旨在限定以上描述的本发明的实施例的使用范围或功能。图1的信息处理系统102能够实施和/或执行上述任何功能。任何被合适配置的处理系统可被用作本发明实施例中的信息处理系统102。

如图1所示，信息处理系统102是通用计算设备的形式。信息处理系统102的组件可包括但不限于一个或多个处理器或处理单元104、系统存储器106和总线108，总线108将包括系统存储器106的各种系统组件耦合到处理器104。

总线108表示若干总线结构类型中的任何一个类型的一个或多个，所述总线结构类型包括存储总线或存储控制器、外围总线、加速图形端口和使用多种总线架构中的任何一个的处理器或本地总线。作为示举例而不是限制，这样的架构包括工业标准架构（ISA）总线、微通道架构（MCA）总线，增强的ISA（EISA）总线、视频电子标准协会（VESA）局部总线和外围组件互连（PCI）总线。

在一个实施例中，系统存储器106包括特征选择模块109，其被配置为执行以下描述的一个或多个实施例。例如，在一个实施例中，特征选择模块109被配置为基于最大相关性和最小冗余准则执行上位性特征选择过程。该特征选择机制在此被称为“EMRMR”。如以下将更详细讨论的，使用EMRMR，特征选择模块109使用最大相关性和最小冗余准则从特征空间选择一组特征，以用于高效地建模用于表型预测的上位性。应当注意，尽管图1示出了特征选择模块109位于主存储器中，特征选择模块109也可位于处理器104内，是个单独的硬件组件，且/或分布在多个信息处理系统和/或处理器中。

系统存储器106也可包括诸如随机存取存储器（RAM）110和/或缓冲存储器112的易失性存储器形式的计算机系统可读介质。信息处理系统102还可包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。作为示例，存储系统114可被提供用于从不可移动或可移动、非易失性介质读取或写入到不可移动或可移动、非易失性介质，诸如一个或多个固态磁盘和/或磁介质（典型地被称为“硬驱”）。可提供用于从可移动非易失性磁盘（例如“软盘”）读取或写入到其的磁盘驱动器，以及用于从可移动非易失性光盘，诸如CD-ROM、DVD-ROM或其他光介质，读取或写入到其的光盘驱动器。在这样的情况下，每个可通过一个或多个数据介质接口连接到总线108。存储器106可包括至少一个程序产品，其具有一组程序模块，所述程序模块被配置为执行本发明的实施例的功能。

作为示例而非限制，具有一组程序模块118的程序/实用程序116，以及操作系统、一个或多个应用程序、其他程序模块和程序数据，可被存储在存储器106中。操作系统、一个或多个应用程序、其他程序模块以及程序数据及其某个组合中的每个，可包括联网环境的实现。程序模块118通常执行本发明的实施例的功能和/或方法。

信息处理系统102也可与一个或多个外部装置120通信，所述外部装置诸如键盘、指针设备、显示器122等；使用户能与信息处理系统102交互的一个或多个设备；和/或使计算机系统/服务器102能与一个或多个其他计算设备通信的任何设备（例如网卡、调制解调器等）。这样的通信可经由I/O接口124发生。而且，信息处理系统102可经由网络适配器126与一个或多个网络通信，所述网络诸如局域网（LAN）、广域网（WAN）和/或公共网络（例如因特网）。如所示出的，网络适配器126经由总线108与信息处理系统102的其他组件通信。其他硬件和/或软件组件也可与信息处理系统102结合使用。例子包括但不限于微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁盘驱动器和数据归档存储系统。

用于特征选择的一个标准被称为最大相关性和最小冗余度（MRMR）。MRMR贪婪地选择与分类（class）值最大相关并且互相之间最小依赖的特征。在MRMR中，最大相关性标准搜索使得单个特征与分类变量之间的所有互信息值的平均值最大化的特征。但是，仅基于最大相关性的特征选择倾向于选择具有高冗余度的特征，即被选择的特征的相关性倾向于很高。如果这些高度相关的特征中的某些被移除，相应的分类辨别力（class discriminativepower）将不会改变，或者只会有少量改变。因此，最大冗余度标准被用于选择互相排斥的特征。在Peng等人的“Feature selection based on mutual information criteria ofmax-dependency,max-relevance,and min-redundancy”,Pattern Analysis and MachineIntelligence,IEEE Transactions on,27(8):1226-1238,2005中给出了对MRMR的更详细的讨论，该文献的全部内容通过引用结合于此。

在表型预测问题中，输入通常是一组样本（每个样本具有表型值）和一组表型值（在这里也被称为“特征”、“标记”和“基因型”。表型预测中的任务是使用该输入数据来训练模型，从而进一步的基因型数据可被用于预测不可用的表型数据。因此，回归被表示如下：

(等式1)

其中，Y是表型并且X_i是第i个基因型值，d是基因型的总数且β_i是用于第i个基因型的回归系数，并且e是误差，其典型地被假定为正态分布。由于基因型的数量通常远远超过样本数量，预测会遭受“维数灾难”问题。

上位性是不同基因型可以互相影响的现象。通过上位性效应，可以通过下式来给出一种类型的上位性回归模型：

(等式2)

其中，X_iX_j是第i个和第j个基因型的基因型值的乘积，并且它表示两个基因型的交互。可能的上位性的所有对的数量为O(d²)，其中d是基因型的数量。假设d通常是几万到几百万，即使针对适中的数据集，穷举搜索也是不可行的。在特征空间是几万到几百万的问题环境下，穷举搜索需要几周到几年来完成。因此，开发更有效的方法是非常重要的。

贪婪策略已被用于上位性效应检测，其中，首先选择高边际效应标记的子集。然后在子集中的所有标记之间或者在子集中的标记和剩余标记之间对上位性进行统计测试。这些策略的一个问题是它们通常会漏掉低边际效应标记之间表明存在的所有可能的上位性。因此，一个或多个实施例提供了一种模型，其中，评估每一单个标记，并计算标记导致显著的上位性效应的概率。如果该概率高于特定的阈值，则分析该标记和剩余标记之间的所有交互。

在一个实施例中，特征选择模块109接收训练样本集作为输入，每个训练样本包括一组特征，例如基因标记和分类/目标值例如基因型。在另一实施例中，特征选择模块109还接收一组测试样本，每个测试样本仅包括与训练样本相同的特征集而遗漏了目标值。特征选择模块109还接收要选择的特征的数量k作为输入。在一个实施例中，特征可以被表示为行且样本被表示为列。因此，训练和测试样本包括相同的列（特征）但不同的行（样本）。需要注意，在其他实施例中，未接收测试样本，并且仅在训练样本上执行EMRMR选择过程。由特征选择模块109执行的EMRMR特征选择过程的输出是特征和上位性效应（即交互）的集合。如果测试样本也被提供作为特征选择模块109的输入，被选择的特征集可被进一步处理，以建立模型来预测测试样本中遗漏的目标值。

基于上述输入，仅考虑训练样本，特征选择模块109根据下式来确定所有特征的相关性评分：

(等式3)

其中，I是给定特征x_j（例如标记）和分类值c（例如基因型）之间的互信息。两个变量x和y的互信息I可以基于其联合边际概率p(x)和p(y)以及概率分布p(x,y)来定义如下：

(等式4)。

需要注意，也可以使用用于确定变量的互信息I的其他方法。

特征选择模块109然后使用其相关性评分来对所有特征排名。特征选择模块根据第k个最高特征的相关性评分来设置阈值K。该阈值避免选择具有低于K的相关性评分的交互。通过将交互添加到最高k特征集，阈值K可被进一步改进以更有效地排除交互。例如，对于训练样本中的每个特征，特征选择模块109分析给定特征和训练样本集中的其他特征之间的交互。特征选择模块109确定这些交互中的每个针对分类值的相关性评分，与如上关于等式3和等式4所讨论的类似。

特征选择模块109然后将该相关性评分与阈值K进行比较。如果相关性评分大于阈值K，特征选择模块109将交互添加到最高k特征集。然后通过移除最后的特征即最高k特征集中排名最低的特征来更新最高k特征集。用被更新的特征集中的第k个特征的当前相关性评分来动态更新阈值K。因此，随着阈值K变得更大，交互变得更难被选中，这使得一个或多个实施例的模型更为有效。

需要注意，在一个实施例中，特征选择模块109不需要考虑给定特征和所有其他特征之间的所有交互。例如，在该实施例中，特征选择模块109随机抽样该特征与其他特征之间的少量交互，并计算这些抽样的交互的相关性评分。特别地，特征选择模块109假设所有特定都是独立生成的。在考虑给定特征时，特征选择模块109从所有特征的集合中随机抽样f个特征。然后与上面讨论类似地确定给定特征和f个选择的标记中的每个之间的每个交互的相关性评分。

特征选择模块109然后假设涉及给定特征的交互的相关性评分遵循正态分布。使用f个相关性评分，特征选择模块109估计该正态分布的均值和标准偏差。然后使用该分布，并且给定特征总数N，特征选择模块109计算在N-1个可能的交互中看到至少一个显著的相关性评分的概率，其中，如果评分高于当前的评分阈值K则该评分是显著的。如果概率低于预定的阈值P例如0.005，则该特征被跳过。如果概率高于该阈值P，则特征选择模块109考虑/测试给定特征和所有剩余特征之间的交互。

例如，与上面已经讨论的类似，特征选择模块109确定给定特征和所有特征的集合中的剩余特征之间的交互的相关性评分。特征选择模块109将这些相关性评分与阈值K进行比较。如果相关性评分大于阈值K，该交互被添加到最高k特征集，并且该集合中的最后一个特征被移除。用被更新的特征集中的第k个特征的当前相关性评分来动态更新阈值K，该更新的特征集现在同时包括标记和交互。上述过程继续，直到训练集中的所有特征都已被考虑，以产生最终的最高k特征集。特征选择模块109然后输出最终的该最高k特征集。

然后，使用MRMR过程，例如（但不限于）在共同拥有和共同待决的题为“Transductive Feature Selection With Maximum-Relevancy and Minimum-RedundancyCriteria”的美国专利申请中讨论的转换型（transductive）MRMR（TMRMR）过程（其全部内容通过引用结合于此），可以从最高k个特征中选择特征子集。在该实施例中，特征子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。

图2是示出用于选择用于建模上位性效应的标记的整体过程的一个例子的操作流程图。操作流程图开始于步骤2并直接进入步骤204。在步骤204，特征选择模块109接收基因标记集合和表型。在步骤206，特征选择模块109针对基因标记集合中的每个来确定关于表型的相关性评分。在步骤208，特征选择模块109基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值。在步骤210，特征选择模块109针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分。在步骤212，特征选择模块109基于该至少一个交互的相关性评分满足阈值将该至少一个交互添加到最高k特征集。最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的一个。控制流程在步骤214退出。

所属技术领域的技术人员知道，本发明的各个方面可以实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、驻留软件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述本发明已讨论如上。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品（article of manufacture）。

计算机程序指令还可被载入到计算机、其他可编程数据处理装置或其他设备，使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行，以产生计算机实现的过程从而在计算机或其他可编程装置上执行的指令可以提供处理来实现在流程图和/或框图框中指定的功能/动作。

这里使用的术语仅用于描述特定实施例的目的而不是要限制本发明。如这里所使用，单数形式“一”、“一个”和“该”旨在也包含复数形式，除非上下文另外明确指示。还应立即，术语“包括”和/或“包含”在说明书中使用时，表示所述特征、整体、步骤、操作、元素和/或组件的存在，但不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件和/或其组合的存在。

为了说明和描述的目的而给出本发明的描述，但不旨在是穷举的或受限于所公开的形式的发明。多种调整和改变对于本领域普通技术人员来说是明显的，而不偏离本发明的范围和精神。选择和描述实施例以最佳地解释本发明的原理和实际应用，并使得本领域其他普通技术人员能够理解适用于所考虑的特定应用的本发明的具有各种调整的各个实施例。

Claims

1.一种用于选择用于建模上位性效应的标记的信息处理方法，该信息处理方法包括：

由处理器接收基因标记集合和表型；

针对基因标记集合中的每个来确定关于表型的相关性评分；

基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值；

针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分；以及

基于该至少一个交互的相关性评分满足阈值，将该至少一个交互添加到最高k特征集，其中，最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的至少一个，

根据与更新的最高k个特征中的基因标记和交互中的一个关联的最高相关性评分来更新所述阈值。

2.如权利要求1所述的信息处理方法，其中，针对基因标记集合中的每个来确定的相关性评分是基于基因标记集合中的每个和表型之间的互信息。

3.如权利要求1所述的信息处理方法，其中，针对至少一个交互确定的相关性评分是基于该至少一个交互和表型之间的互信息。

4.如权利要求1所述的信息处理方法，还包括：

从基因标记集合随机抽样基因标记的子集；以及

从该基因标记子集中选择所述至少一个其他基因标记。

5.如权利要求4所述的信息处理方法，其中，确定至少一个交互的相关性评分包括：

确定相关性评分的第一集合，其包括相对于表型的用于所述至少一个基因标记和基因标记子集中的每个之间的第一多个交互中的每个的相关性评分；

基于与所述相关性评分的第一集合关联的正态分布来确定所述至少一个基因标记与包含大于阈值的相关性评分的交互关联的概率；

将该概率与概率阈值进行比较；以及

基于满足概率阈值的概率来确定相关性评分的第二集合，该集合包括所述至少一个基因标记和所述基因标记集合中的剩余基因标记集合之间的第二多个交互中的每个的相关性评分，其中，该第二多个交互包括所述至少一个交互，并且其中，该剩余基因标记集合包括所述至少一个其他基因标记。

6.如权利要求1所述的信息处理方法，还包括：

基于将所述至少一个交互添加到最高k特征集，通过将与最低相关性评分关联的基因标记和交互中的一个从最高k特征集中移除，来生成更新的最高k特征集。

7.如权利要求1所述的信息处理方法，还包括：

确定所述至少一个基因标记和所述基因标记集合中的至少一个其他基因标记之间的至少一个其他交互的相关性评分；

将该至少一个其他交互的相关性评分与已经更新的阈值进行比较；以及

基于该至少一个其他交互的相关性评分满足已经更新的阈值将该至少一个其他交互添加到最高k特征集。

8.如权利要求1所述的信息处理方法，其中，所述最高k特征集的子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。

9.一种用于选择用于建模上位性效应的标记的信息处理系统，该信息处理系统包括：

被配置为通过处理器来接收基因标记集合和表型的模块；

被配置为针对基因标记集合中的每个来确定关于表型的相关性评分的模块；

被配置为基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值的模块；

被配置为针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分的模块；

被配置为基于该至少一个交互的相关性评分满足阈值将该至少一个交互添加到最高k特征集的模块，其中，最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的至少一个；以及

被配置为根据与更新的最高k个特征中的基因标记和交互中的一个关联的最高相关性评分来更新阈值的模块。

10.如权利要求9所述的信息处理系统，其中，针对基因标记集合中的每个来确定的相关性评分是基于基因标记集合中的每个和表型之间的互信息。

11.如权利要求9所述的信息处理系统，其中，针对至少一个交互确定的相关性评分基于该至少一个交互和表型之间的互信息。

12.如权利要求9所述的信息处理系统，还包括：

被配置为从基因标记集合随机抽样基因标记的子集的模块；以及

被配置为从该基因标记子集中选择所述至少一个其他基因标记的模块。

13.如权利要求9所述的信息处理系统，其中，被配置为确定至少一个交互的相关性评分的模块包括：

被配置为确定相关性评分的第一集合的模块，该第一集合包括相对于表型的用于所述至少一个基因标记和基因标记子集中的每个之间的第一多个交互中的每个的相关性评分；

被配置为基于与所述相关性评分的第一集合关联的正态分布来确定所述至少一个基因标记与包含大于阈值的相关性评分的交互关联的概率的模块；

被配置为将该概率与概率阈值进行比较的模块；以及

被配置为基于满足概率阈值的概率来确定相关性评分的第二集合的模块，该集合包括所述至少一个基因标记和所述基因标记集合中的剩余基因标记集合之间的第二多个交互中的每个的相关性评分，其中，该第二多个交互包括所述至少一个交互，并且其中，该剩余基因标记集合包括至少一个其他基因标记。

14.如权利要求9所述的信息处理系统，其中，所述系统还包括：

被配置为基于将所述至少一个交互添加到最高k特征集、通过将与最低相关性评分关联的基因标记和交互中的一个从最高k特征集中移除来生成更新的最高k特征集的模块。

15.如权利要求9所述的信息处理系统，其中，所述系统还包括：

被配置为确定所述至少一个基因标记和所述基因标记集合中的至少一个其他基因标记之间的至少一个其他交互的相关性评分的模块；

被配置为将该至少一个其他交互的相关性评分与已经更新的阈值进行比较的模块；以及

被配置为基于该至少一个其他交互的相关性评分满足已经更新的阈值将该至少一个其他交互添加到最高k特征集的模块。

16.如权利要求9所述的信息处理系统，其中，所述最高k特征集的子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。