CN101223540A - 用于进行最优选的子集选择的方法和装置 - Google Patents

用于进行最优选的子集选择的方法和装置 Download PDF

Info

Publication number
CN101223540A
CN101223540A CNA2006800263231A CN200680026323A CN101223540A CN 101223540 A CN101223540 A CN 101223540A CN A2006800263231 A CNA2006800263231 A CN A2006800263231A CN 200680026323 A CN200680026323 A CN 200680026323A CN 101223540 A CN101223540 A CN 101223540A
Authority
CN
China
Prior art keywords
measurement
subclass
state
represented
cost function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800263231A
Other languages
English (en)
Inventor
J·D·谢弗
A·亚内夫斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101223540A publication Critical patent/CN101223540A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

公开了一种用于在遗传算法中根据多个测量来确定测量子集的方法和装置。所述方法包括以下步骤:确定每个测量子集的适应度,其中每个测量具有相关联的适应度;以及选择具有最小适应度的测量子集(110、120)。所述方法还包括以下步骤:确定每个测量子集的代价函数,其中每个测量包括相关联的代价;以及选择具有最小代价函数的测量子集(150、170)。

Description

用于进行最优选的子集选择的方法和装置
技术领域
本申请涉及在基于基因组学的测试中进行搜索处理的领域,并且更具体地,涉及一种在搜索处理中包括更多测量(measurement)的改进方法。
背景技术
已知在许多领域出现子集选择问题;例如,用于分子诊断的模式发现。在这个领域中,典型地,对于有或者没有特定疾病的病人,都有测量数据,并且期望找到能够被用来可靠地检测这种疾病的这些测量的一个子集。进化计算是一种已知的能够被用来从可用的测量中确定测量子集的方法。进化计算的例子可以从以下中找到:提交的专利申请WO0199043和WO0206829,以及Philips Tr-2-3-12,Petricoin et.al.,The Lancet,Vol.359,16 Feb.2002,pp.572-577。
利用某种方式的子集选择的进化搜索算法具有这样的特性,即每次考虑整个搜索空间的一个子集。例如,由100个染色体(每个中有15个基因)构成的种群仅能涵盖1500个不同的基因。如果搜索空间包含多于1500个基因,那么通常无法保证该算法将检验每个基因至少一次。对该问题的穷举(brute-force)方案将会增加种群大小和/或染色体尺寸,该方案通常并不可行,因为它给算法增加了相当大的计算负担。
然而,尽管使用现有技术中所描述的方法能够找出精确且小的子集,但是常常会使用或需要使用附加的准则。例如,相比其它测量,一些测量可能更可靠或更不可靠;相比其它测量,一些测量可能需要更昂贵的试剂或测量设备;相比其它测量,一些测量可能涉及在疾病处理过程中其功能更为大家熟知的生物分子等等。
因此,在该产业中需要一种方法,其顾及包括或测试将要在搜索中考虑的附加准则。
公开了一种用于在遗传算法中从多个测量中确定测量子集的方法和装置。所述方法包括以下步骤:确定每个测量子集的适应度(fitness measure),其中每个测量具有相关联的适应度;以及选择具有最小适应度的测量子集。所述方法还包括以下步骤:确定每个测量子集的代价函数(cost function),其中每个测量包括相关联的代价;以及选择具有最小代价函数的测量子集。
通过各种组件和组件的安排以及通过各种处理操作和处理操作的安排,本发明将变得明显。附图的目的仅仅是为了说明优选实施例,而不应被解释为限制本发明。
图1说明了根据本发明的原理,用于并入附加选择准则的示例性处理过程。
应该理解,这些附图是为了说明本发明的概念,并不是按比例绘制的。可以理解,在全文使用相同的参考数字(可能在适当处会用参考符号来进行补充)来标识相应的部分。
2004年12月28日提交的题目是“Method for GeneratingGenomics-Based Medical Diagnostic Tests”的美国专利申请No.60/639,747(其内容被通过引用并入此处)描述了一种通过生成染色体的第一代染色体种群来确定分类器(classifier)的方法,其中每个染色体具有选定数目的基因,这些基因规定了相关联的测量集合的一个子集。在所描述的该方法中,在计算上遗传地进化染色体的基因,以便产生后代染色体种群。每个后代染色体种群的产生包括:通过(i)用双亲染色体的公共基因值填充子代染色体的基因并且(ii)用双亲染色体的一方或另一方所特有的基因值填剩余基因,根据当前染色体种群的双亲染色体来产生子代染色体;选择性地变异子代染色体中其双亲染色体的一方或另一方所特有的基因值,而不变异子代染色体中其双亲染色体的公共基因值;并且基于每个染色体的适应度,用子代染色体更新染色体种群,其中每个染色体的适应度是使用该染色体的基因所指定的相关联的测量的子集来确定的。然后选择一个分类器,该分类器使用由遗传进化所标识的染色体的基因所指定的相关联的测量的子集。
在所引用的共有专利申请中描述的方法(通过引用并入其启示)使用了两级分层选择步骤,即适者生存,其被设计用于导致精确且小的子集的进化。如所述,以下比较对于该问题的竞争方案,也就是不同的染色体(即,双亲和子代,在这里被称为A和B):
如果(分类错误(A)<分类错误(B)),则选择A;
否则如果(分类错误(A)=分类错误(B),并且
测量的数目(A)<测量的数目(B)),则选择A;
否则,随机选择A或B,
其中,分类错误()代表适应度。
为了得到优选得分(preference score)的期望最小值,得分或代价也可以与每个可用的测量相关联。于是可以通过考虑任意测量子集的总代价来确定一个函数。
这种包括代价在数学中可以被表示为:
如果(分类错误(A)<分类错误(B)),则选择A;
否则如果
(分类错误(A)=分类错误(B),
并且
代价(A)<代价(B)),则选择A;
否则,随机选择A或B。
图1说明了根据本发明的原理的示例性处理过程100的流程图。在所说明的该处理过程中,在块110,确定第一集合(即,A)的分类错误是否小于第二集合(即,B)的分类错误。如果答案是肯定的,则在块120,选择第一集合。
然而,如果在块110的答案是否定的,则在块130,确定第一集合(即,A)的分类错误是否等于第二集合(即,B)的分类错误。如果答案是否定的,则在块140,可以选择或者第一集合或者第二集合。
然而,如果在块130的答案是肯定的,则在块150,确定与第一集合相关联的代价是否小于与第二集合相关联的代价。如果答案是肯定的,则在块170,选择第一集合。否则,在块140,可以选择或者第一集合或者第二集合。应该明白,对于或者第一集合或者第二集合的选择,可以使用众所周知的随机数发生器(random generator)来进行随机选择,或者可以固定总是选择一个集合或另一个集合。
能够用反映出对于包括的基因子集的特定优选或惩罚(penalty)的多种方式来实现代价函数。一个简单的静态代价函数能够使用分配给每个基因的值(例如,0=优选的,1=非优选的),其中该函数的输出是优选值的总和。这种概念很容易被推广到包括比{0,1}更宽的值范围的代价函数。因此,全部基因均是优选的染色体将胜过包含一个或多个被标记为要避免的基因的染色体。该概念可以被进一步推广以便包括分层的代价准则,其仅当在前一级上得分相同时降到下一级。例如,代价准则1可以是“优选的”基因(参考上面的例子),而代价准则2(仅在如果两个染色体对于准则1的得分相同时,参考该准则)可以是试剂成本准则。在另一种实现中,代价函数能够利用在实验期间动态更新的标记。例如,在一个基因存在于种群的给定部分中的情况下,该基因的优选性能够被更新为“非优选的”。例如,只要在种群的30%或更少的染色体中存在一个基因,则该基因将仍被标记为优选的。
根据本发明的系统能够被实施为硬件、可编程处理或计算机系统,其可以被嵌入到一个或多个硬件/软件设备中,加载有适当的软件或可执行代码。能够利用计算机程序来实现该系统。当计算机程序被加载到可编程设备中时,该程序将使设备中的处理器执行根据本发明的方法。于是,该计算机程序使得可编程设备用作根据本发明的系统。
尽管已示出、描述和指出了本发明的基本新颖特征,将其应用于本发明的优选实施例,但是可以理解,在不脱离本发明的精神的情况下,本领域的技术人员可以对所描述的装置、所公开的设备的形式和细节以及它们的操作进行各种省略、替换以及改变。
明确地指出,用本质上相同的方式执行实质上相同的功能从而达到相同的结果的这些要素的所有组合,均在本发明的范围内。从一个所述实施例到另一个实施例的要素替换也是完全可以设想和预期的。

Claims (15)

1.一种用于在遗传算法中根据多个测量来确定测量子集的方法,其中,每个测量具有相关联的适应度和代价,所述方法包括以下步骤:
确定每个测量子集的适应度;
选择具有最小适应度的测量子集(110、120)。
2.根据权利要求1所述的方法,还包括以下步骤:
确定每个测量子集的代价函数;以及
选择具有最小代价函数的测量子集(150、170)。
3.根据权利要求1所述的方法,其中,所述相关联的代价包括基于第一状态和第二状态的计算,其中,所述第一状态代表一个优选值,而所述第二状态代表一个非优选值。
4.根据权利要求3所述的方法,其中,所述代价函数表示所述测量子集中的每个测量的第一状态和第二状态的总和。
5.根据权利要求3所述的方法,其中,所述代价函数表示所述测量子集中的每个测量的第一状态的总和。
6.一种用于在遗传算法中根据多个测量来确定测量子集的装置,其中,每个测量具有相关联的适应度和代价,所述装置包括:
计算机,其执行用于以下步骤的代码:
确定每个测量子集的适应度;
选择具有最小适应度的测量子集(110、120)。
7.根据权利要求6所述的装置,其中,所述计算机还执行用于以下步骤的代码:
确定每个测量子集的代价函数;以及
选择具有最小代价函数的测量子集(150、170)。
8.根据权利要求6所述的装置,其中,所述相关联的代价包括基于第一状态和第二状态的计算,其中,所述第一状态代表一个优选值,而所述第二状态代表一个非优选值。
9.根据权利要求8所述的装置,其中,所述代价函数表示所述测量子集中的每个测量的第一状态和第二状态的总和。
10.根据权利要求8所述的装置,其中,所述代价函数表示所述测量子集中的每个测量的第一状态的总和。
11.一种计算机软件产品,其包含的代码向计算机提供指令以用于在遗传算法中根据多个测量来确定测量子集,其中,每个测量具有相关联的适应度和代价,所述代码命令计算机执行以下步骤:
确定每个测量子集的适应度;
选择具有最小适应度的测量子集(110、120)。
12.根据权利要求11所述的计算机程序产品,其中,所述代码还命令计算机执行以下步骤:
确定每个测量子集的代价函数;以及
选择具有最小代价函数的测量子集(150、170)。
13.根据权利要求11所述的计算机程序产品,其中,所述相关联的代价包括基于第一状态和第二状态的计算,其中,所述第一状态代表一个优选值,而所述第二状态代表一个非优选值。
14.根据权利要求13所述的计算机程序产品,其中,所述代价函数表示所述测量子集中的每个测量的第一状态和第二状态的总和。
15.根据权利要求12所述的计算机程序产品,其中,所述代价函数表示所述测量子集中的每个测量的第一状态的总和。
CNA2006800263231A 2005-07-21 2006-07-11 用于进行最优选的子集选择的方法和装置 Pending CN101223540A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US70133905P 2005-07-21 2005-07-21
US60/701,339 2005-07-21

Publications (1)

Publication Number Publication Date
CN101223540A true CN101223540A (zh) 2008-07-16

Family

ID=37459385

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800263231A Pending CN101223540A (zh) 2005-07-21 2006-07-11 用于进行最优选的子集选择的方法和装置

Country Status (5)

Country Link
US (1) US20080234944A1 (zh)
EP (1) EP1910978A1 (zh)
JP (1) JP2009501992A (zh)
CN (1) CN101223540A (zh)
WO (1) WO2007010439A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679271B (zh) * 2013-12-03 2016-08-17 大连大学 基于Bloch球面坐标及量子计算的碰撞检测方法
US10311358B2 (en) 2015-07-10 2019-06-04 The Aerospace Corporation Systems and methods for multi-objective evolutionary algorithms with category discovery
US10474952B2 (en) 2015-09-08 2019-11-12 The Aerospace Corporation Systems and methods for multi-objective optimizations with live updates
US10387779B2 (en) 2015-12-09 2019-08-20 The Aerospace Corporation Systems and methods for multi-objective evolutionary algorithms with soft constraints
US10402728B2 (en) * 2016-04-08 2019-09-03 The Aerospace Corporation Systems and methods for multi-objective heuristics with conditional genes
US11379730B2 (en) 2016-06-16 2022-07-05 The Aerospace Corporation Progressive objective addition in multi-objective heuristic systems and methods
US11676038B2 (en) 2016-09-16 2023-06-13 The Aerospace Corporation Systems and methods for multi-objective optimizations with objective space mapping
US10474953B2 (en) 2016-09-19 2019-11-12 The Aerospace Corporation Systems and methods for multi-objective optimizations with decision variable perturbations

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL117588A (en) * 1996-03-20 2000-02-17 Scheme Evolutionary Algorithms Method for determining a stowage plan
US6487516B1 (en) * 1998-10-29 2002-11-26 Netmor Ltd. System for three dimensional positioning and tracking with dynamic range extension
WO2001099043A1 (en) * 2000-06-19 2001-12-27 Correlogic Systems, Inc. Heuristic method of classification
IL153856A0 (en) * 2000-07-18 2003-07-31 Correlogic Systems Inc A process for discriminating between biological states based on hidden patterns from biological data
FI115421B (fi) * 2001-02-23 2005-04-29 Kone Corp Menetelmä monitavoiteongelman ratkaisemiseksi
US6904421B2 (en) * 2001-04-26 2005-06-07 Honeywell International Inc. Methods for solving the traveling salesman problem

Also Published As

Publication number Publication date
US20080234944A1 (en) 2008-09-25
JP2009501992A (ja) 2009-01-22
EP1910978A1 (en) 2008-04-16
WO2007010439A1 (en) 2007-01-25

Similar Documents

Publication Publication Date Title
CN101223540A (zh) 用于进行最优选的子集选择的方法和装置
KR20200011444A (ko) 변이체 분류를 위한 심층 컨볼루션 신경망
Massingham et al. Detecting amino acid sites under positive selection and purifying selection
US20120109615A1 (en) Apparatus and method for extracting biomarkers
Mugal et al. Polymorphism data assist estimation of the nonsynonymous over synonymous fixation rate ratio ω for closely related species
KR20170000744A (ko) 유전자의 복제수 변이(cnv)를 분석하는 방법 및 장치
US20180196924A1 (en) Computer-implemented method and system for diagnosis of biological conditions of a patient
US20220293227A1 (en) Method, apparatus, and computer-readable medium for adaptive normalization of analyte levels
US10998083B2 (en) Method and apparatus for estimating the quantity of microorganisms within a taxonomic unit in a sample
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及系统
Alberti et al. An evaluation framework for lossy compression of genome sequencing quality values
Zhang et al. MaLAdapt reveals novel targets of adaptive introgression from Neanderthals and Denisovans in worldwide human populations
CN114388062A (zh) 基于机器学习预测抗生素抗性表型的方法、设备及应用
KR20200133067A (ko) 장내 미생물을 이용한 질병의 예측방법 및 시스템
Zhang et al. VEF: a variant filtering tool based on ensemble methods
US20220122695A1 (en) Methods and systems for providing sample information
CN112863602A (zh) 染色体异常的检测方法、装置、计算机设备和存储介质
CN1957353A (zh) 用于优化基于基因组学的医学诊断测试的遗传算法
Kim et al. Metabuli: sensitive and specific metagenomic classification via joint analysis of amino acid and DNA
Leong Modeling Sequencing Artifacts for Next Generation Sequencing
CN116614422B (zh) 一种北斗授时协议安全分析方法
EP4138003A1 (en) Neural network for variant calling
Peng et al. Optimizing proteomics data differential expression analysis via High-Performing rules and ensemble inference
Bridges et al. Towards a standard benchmark for variant and gene prioritisation algorithms: PhEval-Phenotypic inference Evaluation framework
Dietrich et al. Benchmarking second-generation methods for cell-type deconvolution of transcriptomic data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20080716