CN103942467B - 用于选择用于建模上位性效应的标记的信息处理方法和系统 - Google Patents

用于选择用于建模上位性效应的标记的信息处理方法和系统 Download PDF

Info

Publication number
CN103942467B
CN103942467B CN201410025013.4A CN201410025013A CN103942467B CN 103942467 B CN103942467 B CN 103942467B CN 201410025013 A CN201410025013 A CN 201410025013A CN 103942467 B CN103942467 B CN 103942467B
Authority
CN
China
Prior art keywords
genetic marker
relevance score
interaction
highest
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410025013.4A
Other languages
English (en)
Other versions
CN103942467A (zh
Inventor
D·霍斯
何丹
L·P·帕里达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103942467A publication Critical patent/CN103942467A/zh
Application granted granted Critical
Publication of CN103942467B publication Critical patent/CN103942467B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physiology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

各个实施例选择用于建模上位性效应的标记。在一个实施例中,处理器接收基因标记集合和表型。针对基因标记集合中的每个来确定关于表型的相关性评分。基于具有最高相关性评分的基因标记的相关性评分来设置阈值。针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分。基于该至少一个交互的相关性评分满足阈值,该至少一个交互被添加到最高k特征集。

Description

用于选择用于建模上位性效应的标记的信息处理方法和系统
技术领域
本发明一般涉及计算生物学领域,且更具体地,涉及选择用于建模用于表型预测的基因上位性(epistasis)的特征。
背景技术
特征选择方法对于分类和回归问题是关键的。例如,在大型学习应用中,特别是对于诸如基因表达和表型数据等生物数据(其中变量的数量远超过样本数量),这是常见的。“维数灾难”(curse of dimensionality)问题不仅影响学习算法的计算效率,而且导致这些算法的低性能。为解决这个问题,可使用各种特征选择方法,其中,选择重要特征的子集,并且基于这些特征来训练学习算法。
发明内容
在一个实施例中,公开了一种用于选择用于建模上位性效应的标记(marker)的信息处理方法。计算机实施方法包括由处理器接收一组基因标记和表型。针对表型,确定用于该组基因标记的每个的相关性评分。基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值。针对该组基因标记中的至少一个基因标记,确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分。基于该至少一次交互的相关性评分满足阈值,该至少一次交互被添加到最高k(top-k)特征集。最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。选择最高k特征集的子集以用于建模对物理特性的上位性效应。
在另一个实施例中,公开了一种用于选择用于建模上位性效应的标记的信息处理系统。信息处理系统包括:被配置为由处理器接收一组基因标记和表型的模块;被配置为为该组基因标记中的每个确定针对表型的相关性评分的模块;被配置为基于该组基因标记中具有最高相关性评分的基因标记的相关性评分设置阈值的模块;被配置为为该组基因标记中的至少一个基因标记确定用于该至少一个基因标记和该组基因标记中的至少一个其他基因标记之间的至少一次交互的相关性评分的模块;以及被配置为基于该至少一次交互的相关性评分满足阈值,添加该至少一次交互到最高k特征集的模块,其中最高k特征集中的每个特征是各包括最高k相关性评分的基因标记和交互中的一个。
附图说明
在全部附图中类似的参考标号指示相同或功能类似的元件,且其与以下的详细描述结合并形成说明书的一部分,用于进一步描述各种实施例并解释根据本发明的各种原理和优势,在附图中:
图1是示出根据本发明的一个实施例的操作环境的一个例子的框图;且
图2是示出根据本发明的一个实施例的用于选择用于建模上位性效应的标记的一个例子的操作性流程图。
具体实施方式
图1示出了根据本发明的一个实施例的一个操作环境100的概图。特别地,图1示出了可被用在本发明的实施例中的信息处理系统102。图1示出的信息处理系统102仅是合适的系统一个例子,且不旨在限定以上描述的本发明的实施例的使用范围或功能。图1的信息处理系统102能够实施和/或执行上述任何功能。任何被合适配置的处理系统可被用作本发明实施例中的信息处理系统102。
如图1所示,信息处理系统102是通用计算设备的形式。信息处理系统102的组件可包括但不限于一个或多个处理器或处理单元104、系统存储器106和总线108,总线108将包括系统存储器106的各种系统组件耦合到处理器104。
总线108表示若干总线结构类型中的任何一个类型的一个或多个,所述总线结构类型包括存储总线或存储控制器、外围总线、加速图形端口和使用多种总线架构中的任何一个的处理器或本地总线。作为示举例而不是限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线,增强的ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线。
在一个实施例中,系统存储器106包括特征选择模块109,其被配置为执行以下描述的一个或多个实施例。例如,在一个实施例中,特征选择模块109被配置为基于最大相关性和最小冗余准则执行上位性特征选择过程。该特征选择机制在此被称为“EMRMR”。如以下将更详细讨论的,使用EMRMR,特征选择模块109使用最大相关性和最小冗余准则从特征空间选择一组特征,以用于高效地建模用于表型预测的上位性。应当注意,尽管图1示出了特征选择模块109位于主存储器中,特征选择模块109也可位于处理器104内,是个单独的硬件组件,且/或分布在多个信息处理系统和/或处理器中。
系统存储器106也可包括诸如随机存取存储器(RAM)110和/或缓冲存储器112的易失性存储器形式的计算机系统可读介质。信息处理系统102还可包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。作为示例,存储系统114可被提供用于从不可移动或可移动、非易失性介质读取或写入到不可移动或可移动、非易失性介质,诸如一个或多个固态磁盘和/或磁介质(典型地被称为“硬驱”)。可提供用于从可移动非易失性磁盘(例如“软盘”)读取或写入到其的磁盘驱动器,以及用于从可移动非易失性光盘,诸如CD-ROM、DVD-ROM或其他光介质,读取或写入到其的光盘驱动器。在这样的情况下,每个可通过一个或多个数据介质接口连接到总线108。存储器106可包括至少一个程序产品,其具有一组程序模块,所述程序模块被配置为执行本发明的实施例的功能。
作为示例而非限制,具有一组程序模块118的程序/实用程序116,以及操作系统、一个或多个应用程序、其他程序模块和程序数据,可被存储在存储器106中。操作系统、一个或多个应用程序、其他程序模块以及程序数据及其某个组合中的每个,可包括联网环境的实现。程序模块118通常执行本发明的实施例的功能和/或方法。
信息处理系统102也可与一个或多个外部装置120通信,所述外部装置诸如键盘、指针设备、显示器122等;使用户能与信息处理系统102交互的一个或多个设备;和/或使计算机系统/服务器102能与一个或多个其他计算设备通信的任何设备(例如网卡、调制解调器等)。这样的通信可经由I/O接口124发生。而且,信息处理系统102可经由网络适配器126与一个或多个网络通信,所述网络诸如局域网(LAN)、广域网(WAN)和/或公共网络(例如因特网)。如所示出的,网络适配器126经由总线108与信息处理系统102的其他组件通信。其他硬件和/或软件组件也可与信息处理系统102结合使用。例子包括但不限于微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁盘驱动器和数据归档存储系统。
用于特征选择的一个标准被称为最大相关性和最小冗余度(MRMR)。MRMR贪婪地选择与分类(class)值最大相关并且互相之间最小依赖的特征。在MRMR中,最大相关性标准搜索使得单个特征与分类变量之间的所有互信息值的平均值最大化的特征。但是,仅基于最大相关性的特征选择倾向于选择具有高冗余度的特征,即被选择的特征的相关性倾向于很高。如果这些高度相关的特征中的某些被移除,相应的分类辨别力(class discriminativepower)将不会改变,或者只会有少量改变。因此,最大冗余度标准被用于选择互相排斥的特征。在Peng等人的“Feature selection based on mutual information criteria ofmax-dependency,max-relevance,and min-redundancy”,Pattern Analysis and MachineIntelligence,IEEE Transactions on,27(8):1226-1238,2005中给出了对MRMR的更详细的讨论,该文献的全部内容通过引用结合于此。
在表型预测问题中,输入通常是一组样本(每个样本具有表型值)和一组表型值(在这里也被称为“特征”、“标记”和“基因型”。表型预测中的任务是使用该输入数据来训练模型,从而进一步的基因型数据可被用于预测不可用的表型数据。因此,回归被表示如下:
(等式1)
其中,Y是表型并且Xi是第i个基因型值,d是基因型的总数且βi是用于第i个基因型的回归系数,并且e是误差,其典型地被假定为正态分布。由于基因型的数量通常远远超过样本数量,预测会遭受“维数灾难”问题。
上位性是不同基因型可以互相影响的现象。通过上位性效应,可以通过下式来给出一种类型的上位性回归模型:
(等式2)
其中,XiXj是第i个和第j个基因型的基因型值的乘积,并且它表示两个基因型的交互。可能的上位性的所有对的数量为O(d2),其中d是基因型的数量。假设d通常是几万到几百万,即使针对适中的数据集,穷举搜索也是不可行的。在特征空间是几万到几百万的问题环境下,穷举搜索需要几周到几年来完成。因此,开发更有效的方法是非常重要的。
贪婪策略已被用于上位性效应检测,其中,首先选择高边际效应标记的子集。然后在子集中的所有标记之间或者在子集中的标记和剩余标记之间对上位性进行统计测试。这些策略的一个问题是它们通常会漏掉低边际效应标记之间表明存在的所有可能的上位性。因此,一个或多个实施例提供了一种模型,其中,评估每一单个标记,并计算标记导致显著的上位性效应的概率。如果该概率高于特定的阈值,则分析该标记和剩余标记之间的所有交互。
在一个实施例中,特征选择模块109接收训练样本集作为输入,每个训练样本包括一组特征,例如基因标记和分类/目标值例如基因型。在另一实施例中,特征选择模块109还接收一组测试样本,每个测试样本仅包括与训练样本相同的特征集而遗漏了目标值。特征选择模块109还接收要选择的特征的数量k作为输入。在一个实施例中,特征可以被表示为行且样本被表示为列。因此,训练和测试样本包括相同的列(特征)但不同的行(样本)。需要注意,在其他实施例中,未接收测试样本,并且仅在训练样本上执行EMRMR选择过程。由特征选择模块109执行的EMRMR特征选择过程的输出是特征和上位性效应(即交互)的集合。如果测试样本也被提供作为特征选择模块109的输入,被选择的特征集可被进一步处理,以建立模型来预测测试样本中遗漏的目标值。
基于上述输入,仅考虑训练样本,特征选择模块109根据下式来确定所有特征的相关性评分:
(等式3)
其中,I是给定特征xj(例如标记)和分类值c(例如基因型)之间的互信息。两个变量x和y的互信息I可以基于其联合边际概率p(x)和p(y)以及概率分布p(x,y)来定义如下:
(等式4)。
需要注意,也可以使用用于确定变量的互信息I的其他方法。
特征选择模块109然后使用其相关性评分来对所有特征排名。特征选择模块根据第k个最高特征的相关性评分来设置阈值K。该阈值避免选择具有低于K的相关性评分的交互。通过将交互添加到最高k特征集,阈值K可被进一步改进以更有效地排除交互。例如,对于训练样本中的每个特征,特征选择模块109分析给定特征和训练样本集中的其他特征之间的交互。特征选择模块109确定这些交互中的每个针对分类值的相关性评分,与如上关于等式3和等式4所讨论的类似。
特征选择模块109然后将该相关性评分与阈值K进行比较。如果相关性评分大于阈值K,特征选择模块109将交互添加到最高k特征集。然后通过移除最后的特征即最高k特征集中排名最低的特征来更新最高k特征集。用被更新的特征集中的第k个特征的当前相关性评分来动态更新阈值K。因此,随着阈值K变得更大,交互变得更难被选中,这使得一个或多个实施例的模型更为有效。
需要注意,在一个实施例中,特征选择模块109不需要考虑给定特征和所有其他特征之间的所有交互。例如,在该实施例中,特征选择模块109随机抽样该特征与其他特征之间的少量交互,并计算这些抽样的交互的相关性评分。特别地,特征选择模块109假设所有特定都是独立生成的。在考虑给定特征时,特征选择模块109从所有特征的集合中随机抽样f个特征。然后与上面讨论类似地确定给定特征和f个选择的标记中的每个之间的每个交互的相关性评分。
特征选择模块109然后假设涉及给定特征的交互的相关性评分遵循正态分布。使用f个相关性评分,特征选择模块109估计该正态分布的均值和标准偏差。然后使用该分布,并且给定特征总数N,特征选择模块109计算在N-1个可能的交互中看到至少一个显著的相关性评分的概率,其中,如果评分高于当前的评分阈值K则该评分是显著的。如果概率低于预定的阈值P例如0.005,则该特征被跳过。如果概率高于该阈值P,则特征选择模块109考虑/测试给定特征和所有剩余特征之间的交互。
例如,与上面已经讨论的类似,特征选择模块109确定给定特征和所有特征的集合中的剩余特征之间的交互的相关性评分。特征选择模块109将这些相关性评分与阈值K进行比较。如果相关性评分大于阈值K,该交互被添加到最高k特征集,并且该集合中的最后一个特征被移除。用被更新的特征集中的第k个特征的当前相关性评分来动态更新阈值K,该更新的特征集现在同时包括标记和交互。上述过程继续,直到训练集中的所有特征都已被考虑,以产生最终的最高k特征集。特征选择模块109然后输出最终的该最高k特征集。
然后,使用MRMR过程,例如(但不限于)在共同拥有和共同待决的题为“Transductive Feature Selection With Maximum-Relevancy and Minimum-RedundancyCriteria”的美国专利申请中讨论的转换型(transductive)MRMR(TMRMR)过程(其全部内容通过引用结合于此),可以从最高k个特征中选择特征子集。在该实施例中,特征子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。
图2是示出用于选择用于建模上位性效应的标记的整体过程的一个例子的操作流程图。操作流程图开始于步骤2并直接进入步骤204。在步骤204,特征选择模块109接收基因标记集合和表型。在步骤206,特征选择模块109针对基因标记集合中的每个来确定关于表型的相关性评分。在步骤208,特征选择模块109基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值。在步骤210,特征选择模块109针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分。在步骤212,特征选择模块109基于该至少一个交互的相关性评分满足阈值将该至少一个交互添加到最高k特征集。最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的一个。控制流程在步骤214退出。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明已讨论如上。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
计算机程序指令还可被载入到计算机、其他可编程数据处理装置或其他设备,使得一系列操作步骤在计算机、其他可编程装置或其他设备上执行,以产生计算机实现的过程从而在计算机或其他可编程装置上执行的指令可以提供处理来实现在流程图和/或框图框中指定的功能/动作。
这里使用的术语仅用于描述特定实施例的目的而不是要限制本发明。如这里所使用,单数形式“一”、“一个”和“该”旨在也包含复数形式,除非上下文另外明确指示。还应立即,术语“包括”和/或“包含”在说明书中使用时,表示所述特征、整体、步骤、操作、元素和/或组件的存在,但不排除一个或多个其他特征、整体、步骤、操作、元素和/或组件和/或其组合的存在。
为了说明和描述的目的而给出本发明的描述,但不旨在是穷举的或受限于所公开的形式的发明。多种调整和改变对于本领域普通技术人员来说是明显的,而不偏离本发明的范围和精神。选择和描述实施例以最佳地解释本发明的原理和实际应用,并使得本领域其他普通技术人员能够理解适用于所考虑的特定应用的本发明的具有各种调整的各个实施例。

Claims (16)

1.一种用于选择用于建模上位性效应的标记的信息处理方法,该信息处理方法包括:
由处理器接收基因标记集合和表型;
针对基因标记集合中的每个来确定关于表型的相关性评分;
基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值;
针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分;以及
基于该至少一个交互的相关性评分满足阈值,将该至少一个交互添加到最高k特征集,其中,最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的至少一个,
根据与更新的最高k个特征中的基因标记和交互中的一个关联的最高相关性评分来更新所述阈值。
2.如权利要求1所述的信息处理方法,其中,针对基因标记集合中的每个来确定的相关性评分是基于基因标记集合中的每个和表型之间的互信息。
3.如权利要求1所述的信息处理方法,其中,针对至少一个交互确定的相关性评分是基于该至少一个交互和表型之间的互信息。
4.如权利要求1所述的信息处理方法,还包括:
从基因标记集合随机抽样基因标记的子集;以及
从该基因标记子集中选择所述至少一个其他基因标记。
5.如权利要求4所述的信息处理方法,其中,确定至少一个交互的相关性评分包括:
确定相关性评分的第一集合,其包括相对于表型的用于所述至少一个基因标记和基因标记子集中的每个之间的第一多个交互中的每个的相关性评分;
基于与所述相关性评分的第一集合关联的正态分布来确定所述至少一个基因标记与包含大于阈值的相关性评分的交互关联的概率;
将该概率与概率阈值进行比较;以及
基于满足概率阈值的概率来确定相关性评分的第二集合,该集合包括所述至少一个基因标记和所述基因标记集合中的剩余基因标记集合之间的第二多个交互中的每个的相关性评分,其中,该第二多个交互包括所述至少一个交互,并且其中,该剩余基因标记集合包括所述至少一个其他基因标记。
6.如权利要求1所述的信息处理方法,还包括:
基于将所述至少一个交互添加到最高k特征集,通过将与最低相关性评分关联的基因标记和交互中的一个从最高k特征集中移除,来生成更新的最高k特征集。
7.如权利要求1所述的信息处理方法,还包括:
确定所述至少一个基因标记和所述基因标记集合中的至少一个其他基因标记之间的至少一个其他交互的相关性评分;
将该至少一个其他交互的相关性评分与已经更新的阈值进行比较;以及
基于该至少一个其他交互的相关性评分满足已经更新的阈值将该至少一个其他交互添加到最高k特征集。
8.如权利要求1所述的信息处理方法,其中,所述最高k特征集的子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。
9.一种用于选择用于建模上位性效应的标记的信息处理系统,该信息处理系统包括:
被配置为通过处理器来接收基因标记集合和表型的模块;
被配置为针对基因标记集合中的每个来确定关于表型的相关性评分的模块;
被配置为基于基因标记集合中的具有最高相关性评分的基因标记的相关性评分来设置阈值的模块;
被配置为针对基因标记集合中的至少一个基因标记来确定该至少一个基因标记和基因标记集合中的至少一个其他基因标记之间的至少一个交互的相关性评分的模块;
被配置为基于该至少一个交互的相关性评分满足阈值将该至少一个交互添加到最高k特征集的模块,其中,最高k特征集中的每个特征是各包含一个最高k相关性评分的基因标记和交互中的至少一个;以及
被配置为根据与更新的最高k个特征中的基因标记和交互中的一个关联的最高相关性评分来更新阈值的模块。
10.如权利要求9所述的信息处理系统,其中,针对基因标记集合中的每个来确定的相关性评分是基于基因标记集合中的每个和表型之间的互信息。
11.如权利要求9所述的信息处理系统,其中,针对至少一个交互确定的相关性评分基于该至少一个交互和表型之间的互信息。
12.如权利要求9所述的信息处理系统,还包括:
被配置为从基因标记集合随机抽样基因标记的子集的模块;以及
被配置为从该基因标记子集中选择所述至少一个其他基因标记的模块。
13.如权利要求9所述的信息处理系统,其中,被配置为确定至少一个交互的相关性评分的模块包括:
被配置为确定相关性评分的第一集合的模块,该第一集合包括相对于表型的用于所述至少一个基因标记和基因标记子集中的每个之间的第一多个交互中的每个的相关性评分;
被配置为基于与所述相关性评分的第一集合关联的正态分布来确定所述至少一个基因标记与包含大于阈值的相关性评分的交互关联的概率的模块;
被配置为将该概率与概率阈值进行比较的模块;以及
被配置为基于满足概率阈值的概率来确定相关性评分的第二集合的模块,该集合包括所述至少一个基因标记和所述基因标记集合中的剩余基因标记集合之间的第二多个交互中的每个的相关性评分,其中,该第二多个交互包括所述至少一个交互,并且其中,该剩余基因标记集合包括至少一个其他基因标记。
14.如权利要求9所述的信息处理系统,其中,所述系统还包括:
被配置为基于将所述至少一个交互添加到最高k特征集、通过将与最低相关性评分关联的基因标记和交互中的一个从最高k特征集中移除来生成更新的最高k特征集的模块。
15.如权利要求9所述的信息处理系统,其中,所述系统还包括:
被配置为确定所述至少一个基因标记和所述基因标记集合中的至少一个其他基因标记之间的至少一个其他交互的相关性评分的模块;
被配置为将该至少一个其他交互的相关性评分与已经更新的阈值进行比较的模块;以及
被配置为基于该至少一个其他交互的相关性评分满足已经更新的阈值将该至少一个其他交互添加到最高k特征集的模块。
16.如权利要求9所述的信息处理系统,其中,所述最高k特征集的子集中的每个特征最大化与表型的相关性并最小化关于其他选中特征的冗余度。
CN201410025013.4A 2013-01-21 2014-01-20 用于选择用于建模上位性效应的标记的信息处理方法和系统 Active CN103942467B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/745,914 2013-01-21
US13/745,914 US10102333B2 (en) 2013-01-21 2013-01-21 Feature selection for efficient epistasis modeling for phenotype prediction

Publications (2)

Publication Number Publication Date
CN103942467A CN103942467A (zh) 2014-07-23
CN103942467B true CN103942467B (zh) 2018-05-25

Family

ID=51190135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410025013.4A Active CN103942467B (zh) 2013-01-21 2014-01-20 用于选择用于建模上位性效应的标记的信息处理方法和系统

Country Status (3)

Country Link
US (4) US10102333B2 (zh)
JP (1) JP6332598B2 (zh)
CN (1) CN103942467B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10102333B2 (en) * 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100607018B1 (ko) 1998-06-23 2006-08-01 샤프 가부시키가이샤 화상 처리 장치, 화상 처리 방법 및 화상 처리 프로그램을기록한 매체
US7624074B2 (en) 2000-08-07 2009-11-24 Health Discovery Corporation Methods for feature selection in a learning machine
US20020042681A1 (en) * 2000-10-03 2002-04-11 International Business Machines Corporation Characterization of phenotypes by gene expression patterns and classification of samples based thereon
AU2002352985A1 (en) 2001-12-03 2003-06-17 Dnaprint Genomics, Inc. Methods and apparatus for genetic classification
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7421417B2 (en) 2003-08-28 2008-09-02 Wisconsin Alumni Research Foundation Input feature and kernel selection for support vector machine classification
JP4421971B2 (ja) 2004-08-05 2010-02-24 日本電気株式会社 解析エンジン交換型システム及びデータ解析プログラム
JPWO2006088208A1 (ja) * 2005-02-21 2008-07-10 大日本住友製薬株式会社 生体の生理変化の予測方法および装置
US8438142B2 (en) 2005-05-04 2013-05-07 Google Inc. Suggesting and refining user input based on original user input
US7536030B2 (en) 2005-11-30 2009-05-19 Microsoft Corporation Real-time Bayesian 3D pose tracking
US20090125246A1 (en) 2006-01-11 2009-05-14 Neocodex S.L. Method and Apparatus for the Determination of Genetic Associations
US20070168306A1 (en) 2006-01-17 2007-07-19 Li Jonathan Q Method and system for feature selection in classification
US8026931B2 (en) 2006-03-16 2011-09-27 Microsoft Corporation Digital video effects
CN101210266A (zh) * 2006-12-30 2008-07-02 苏州市长三角系统生物交叉科学研究院有限公司 基因组遗传标记间的相互作用与遗传性状相关性的测定方法
US7500216B1 (en) 2007-02-07 2009-03-03 Altera Corporation Method and apparatus for performing physical synthesis hill-climbing on multi-processor machines
WO2009035560A1 (en) * 2007-09-12 2009-03-19 Pfizer, Inc. Methods of using genetic markers and related epistatic interactions
JP2012502398A (ja) 2008-09-12 2012-01-26 ナビジェニクス インコーポレイティド 複数の環境的リスク因子及び遺伝的リスク因子を組み込む方法及びシステム
US8504504B2 (en) 2008-09-26 2013-08-06 Oracle America, Inc. System and method for distributed denial of service identification and prevention
US9495515B1 (en) * 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
US8655821B2 (en) 2009-02-04 2014-02-18 Konstantinos (Constantin) F. Aliferis Local causal and Markov blanket induction method for causal discovery and feature selection from data
JP5413952B2 (ja) 2009-03-23 2014-02-12 公益財団法人がん研究会 網羅的ゲノムワイドsnp情報に基づくエピスタシス効果の探索アルゴリズム
US20100287093A1 (en) 2009-05-07 2010-11-11 Haijian He System and Method for Collections on Delinquent Financial Accounts
BRPI1015129A2 (pt) 2009-06-30 2016-07-12 Dow Agrosciences Llc aplicação de métodos em aprendizagem de máquina para regras de associação na mineração de conjuntos de dados contendo marcadores genéticos moleculares de plantas e de animais, seguida pela classificação ou predição utilizando atributos criados a partir destas regras de associação
WO2011008262A2 (en) 2009-07-13 2011-01-20 H. Lee Moffitt Cancer Center & Research Institute Methods and apparatus for diagnosis and/or prognosis of cancer
US10321840B2 (en) 2009-08-14 2019-06-18 Brainscope Company, Inc. Development of fully-automated classifier builders for neurodiagnostic applications
US9098342B2 (en) 2009-09-18 2015-08-04 Nec Laboratories America, Inc. Extracting overlay invariants network for capacity planning and resource optimization
JP5649424B2 (ja) 2010-02-03 2015-01-07 大和ハウス工業株式会社 防水シート診断方法および診断装置
US20110246409A1 (en) 2010-04-05 2011-10-06 Indian Statistical Institute Data set dimensionality reduction processes and machines
US8885898B2 (en) 2010-10-07 2014-11-11 Siemens Medical Solutions Usa, Inc. Matching of regions of interest across multiple views
US9230063B2 (en) 2011-01-05 2016-01-05 The Board Of Trustees Of The University Of Illinois Automated prostate tissue referencing for cancer detection and diagnosis
WO2012096992A1 (en) 2011-01-10 2012-07-19 Rutgers, The State University Of New Jersey Boosted consensus classifier for large images using fields of view of various sizes
WO2012097152A2 (en) 2011-01-13 2012-07-19 Laboratory Corporation Of America Holdings Methods and systems for predictive modeling of hiv-1 replication capacity
US20120310539A1 (en) 2011-05-12 2012-12-06 University Of Utah Predicting gene variant pathogenicity
US20140278981A1 (en) 2011-10-06 2014-09-18 Gueorgui Mersov Automated allocation of media via network
US20130109995A1 (en) 2011-10-28 2013-05-02 Neil S. Rothman Method of building classifiers for real-time classification of neurological states
GB2511221B (en) 2011-12-09 2020-09-23 Veracyte Inc Methods and compositions for classification of samples
WO2013086522A1 (en) 2011-12-10 2013-06-13 Veracyte, Inc. Methods and compositions for sample identification
US8792974B2 (en) 2012-01-18 2014-07-29 Brainscope Company, Inc. Method and device for multimodal neurological evaluation
CN102629305B (zh) * 2012-03-06 2015-02-25 上海大学 一种面向snp数据的特征选择方法
US10102333B2 (en) * 2013-01-21 2018-10-16 International Business Machines Corporation Feature selection for efficient epistasis modeling for phenotype prediction
US9471881B2 (en) * 2013-01-21 2016-10-18 International Business Machines Corporation Transductive feature selection with maximum-relevancy and minimum-redundancy criteria

Also Published As

Publication number Publication date
US11335434B2 (en) 2022-05-17
US10102333B2 (en) 2018-10-16
US20140207427A1 (en) 2014-07-24
US20140207436A1 (en) 2014-07-24
US10108775B2 (en) 2018-10-23
US20190012427A1 (en) 2019-01-10
JP6332598B2 (ja) 2018-05-30
JP2014139787A (ja) 2014-07-31
CN103942467A (zh) 2014-07-23
US20190012426A1 (en) 2019-01-10
US11335433B2 (en) 2022-05-17

Similar Documents

Publication Publication Date Title
JP6783887B2 (ja) 治療経路分析および管理プラットフォーム
CN110008342A (zh) 文献分类方法、装置、设备及存储介质
Osadchy et al. Maps of protein structure space reveal a fundamental relationship between protein structure and function
US9471881B2 (en) Transductive feature selection with maximum-relevancy and minimum-redundancy criteria
CN112863683A (zh) 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN109871311A (zh) 一种推荐测试用例的方法和装置
CN109992676B (zh) 一种跨媒体资源检索方法及检索系统
EP4099333A2 (en) Method and apparatus for training compound property pediction model, storage medium and computer program product
CN108121699A (zh) 用于输出信息的方法和装置
US20230005572A1 (en) Molecular structure acquisition method and apparatus, electronic device and storage medium
CN107644051A (zh) 用于同类实体分组的系统和方法
Mena et al. On the Bayesian mixture model and identifiability
CN112396325B (zh) 案件处理方法、装置、介质及电子设备
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
Arenas Advances in computer simulation of genome evolution: toward more realistic evolutionary genomics analysis by approximate Bayesian computation
Sun et al. iNGNN-DTI: prediction of drug–target interaction with interpretable nested graph neural network and pretrained molecule models
CN112967100A (zh) 相似人群扩展方法、装置、计算设备以及介质
CN103942467B (zh) 用于选择用于建模上位性效应的标记的信息处理方法和系统
CN110390342A (zh) 时间序列预测方法和装置
US10839936B2 (en) Evidence boosting in rational drug design and indication expansion by leveraging disease association
Li et al. The discovery of transcriptional modules by a two-stage matrix decomposition approach
CN114581177B (zh) 产品推荐方法、装置、设备及存储介质
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
Yin et al. An improved disassembly hybrid graph model for selective disassembly sequence planning
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant