CN115104028A - 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集 - Google Patents

特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集 Download PDF

Info

Publication number
CN115104028A
CN115104028A CN202180014238.8A CN202180014238A CN115104028A CN 115104028 A CN115104028 A CN 115104028A CN 202180014238 A CN202180014238 A CN 202180014238A CN 115104028 A CN115104028 A CN 115104028A
Authority
CN
China
Prior art keywords
feature
class
classes
selection
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180014238.8A
Other languages
English (en)
Inventor
长濑雅也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of CN115104028A publication Critical patent/CN115104028A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30024Cell structures in vitro; Tissue sections in vitro
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的在于提供一种选择特征量并且根据所选择的特征量的值将样品分类为多个类中的任一个的多类分类方法、多类分类程序、多类分类装置、以及用于这样的多类分类的特征量选择方法、特征量选择装置及特征量集。在本发明中,处理伴随特征量选择的多类分类问题。特征量选择是预先按照字面意思对样品所具备的大量的特征量中的用于后续的各处理(在本发明中尤其是多类分类)所需的特征量进行取舍选择的方法。多类分类是确定给定的未知样品属于多个类中的哪一个的判别问题。

Description

特征量选择方法、特征量选择程序、多类分类方法、多类分类 程序、特征量选择装置、多类分类装置及特征量集
技术领域
本发明涉及一种选择特征量并且根据所选择的特征量的值将样品分类为多个类中的任一个的多类分类方法、多类分类程序、多类分类装置、以及用于这样的多类分类的特征量选择方法、特征量选择装置及特征量集。
背景技术
近年来,机器学习在产业领域中的应用或展开取得了进展,但特征选择及多类分类仍然是大课题。存在各种特征选择的方法,但提出了关注类的成对耦合的事例(参考下述“非专利文献1”)。具体而言,非专利文献1中记载的技术是关注基本的类分类为类数2个的“二进制类分类”,进行类的成对耦合,关注并选择特征量的判别能力的方法。
并且,作为多类分类的方法,例如已知有重复进行2类判别的OVO方式(One-Versus-One:一对一)。
并且,例如在生物领域中,也以癌等为对象,积极地研究了特征选择及多类分类的方法。大体上是通常的机器学习方法的应用,例如,适用了基于t检验或信息增益等的特征选择的方法、基于SVM(Support Vector Machine:支持向量机)、随机森林、朴素贝叶斯等的分类方法。这样的技术例如记载于专利文献1中。
以往技术文献
非专利文献
非专利文献1:“Feature selection for multi-class classification usingpairwise class discriminatory measure and covering concept”,Hyeon Ji等,ELECTRONICS LETTERS,16th March 2000,vol.36,No.6,p.524-525
专利文献
专利文献1:日本特表2012-505453号公报
发明内容
发明要解决的技术课题
非专利文献1中记载的研究仅停留特征选择,在后续的多类分类中直接使用现有的方法。并且,关于本发明,未明示如后述的对集合覆盖问题的扩展。并且,未进行用于选择稳健性的特征量的特征量之间的独立性的验证等,而且,仅假设基本的多类分类,也未导入不需要判别的类等。因此,难以直接适用于扩展性多类分类。同样地,在专利文献1中记载的技术中,也未考虑将判别所需的基因组作为集合覆盖问题进行详查。
并且,在重复进行2类判别来进行多类分类的方法中,在投票法中已指出“上位的排序不可信”的问题。并且,在淘汰层级法中已指出“难以确定比较顺序”的问题。
在生物领域中的特征量选择及多类分类的情况下,在报告多的基于mRNA表达水平的事例中,存在“当处理类数达到10左右时,精度下降”的课题。例如,在根据突变信息开发的多类癌分类器的报告之一中,结果为超过F值0.70,能够判别的癌有5种。还研究了基于DNA甲基化的特征选择及多类分类。然而,适用类停留在少量的小规模的样品尺寸的试验。
近年来,也出现应用深层学习的研究,但由于组学数据本身的欠定性,学习无法顺利进行(相对于参数数,样品尺寸小;相对于存在几十万处甲基化位置,能够获得的肿瘤记录即使是开放数据也小于1万个),假设即使成功,例如在诊断用途等中,由于无法明确判别的理由,因此也存在难以接受的课题。
如此,现有技术中,无法根据所选择的一部分的特征量的值将具有多个特征量的样品稳健且高精度地分类为多个类中的任一个。
本发明是鉴于这样的情况而完成的,其目的在于提供一种能够根据所选择的一部分的特征量的值将具有多个特征量的样品稳健且高精度地分类为多个类中的任一个的多类分类方法、多类分类程序、多类分类装置。并且,本发明的目的在于提供一种用于这样的多类分类的特征量选择方法、特征量选择装置及特征量集。
用于解决技术课题的手段
本发明的第1方式所涉及的特征量选择方法,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从所述特征量组中选择针对未知所属的类的未知样品的类判定所需的特征量组,选择工序具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化工序,针对所有成对耦合,统计所定量化的可判别性,并选择对统计的结果进行优化的特征量组的组合。
第2方式所涉及的特征量选择方法在第1方式中,选择工序还具有:第1标记工序,将给定类中的一部分标记为不需要相互判别的第1不需要判别类组;及第1排除工序,从展开的成对耦合中排除所标记的第1不需要判别类组彼此之间的成对耦合。
第3方式所涉及的特征量选择方法在第1或第2方式中,选择工序具有:相似性评价工序,根据各特征量的针对各成对耦合的可判别性来评价特征量之间的相似性;及优先级设定工序,根据相似性的评价结果来设定应选择的特征量的优先级。
第4方式所涉及的特征量选择方法在第3方式中,相似性是针对各成对耦合的可判别性的重复关系和/或包含关系。
第5方式所涉及的特征量选择方法在第3或第4方式中,相似性是针对各成对耦合的可判别性矢量之间的距离或基于距离的度量值。
第6方式所涉及的特征量选择方法在第1至第5方式中的任一方式中,还具有选择个数输入工序,所述选择个数输入工序输入选择工序中的特征量的选择个数M,优化是基于M个选择特征量的所有成对耦合中的统计值的最小值的最大化。
第7方式所涉及的特征量选择方法在第1至第6方式中的任一方式中,还具有:重要性输入工序,输入类或成对判别的重要性;及加权赋予工序,在统计时,赋予基于重要性的加权。
第8方式所涉及的特征量选择方法在第1至第7方式中的任一方式中,在选择工序中选择的特征量的个数为25个以上。
第9方式所涉及的特征量选择方法在第8方式中,在选择工序中选择的特征量的个数为50个以上。
第10方式所涉及的特征量选择方法在第9方式中,在选择工序中选择的特征量的个数为100个以上。
本发明的第11方式所涉及的特征量选择程序使计算机执行第1至第10方式中的任一方式所涉及的特征量选择方法。
本发明的第12方式所涉及的多类分类方法,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类方法具有:输入工序及选择工序,使用第1至第10方式中的任一方式所涉及的特征量选择方法执行;及判定工序,根据所选择的特征量组来进行针对未知样品的类判定,所述判定工序具有获取所选择的特征量组的特征量值的获取工序及根据所获取的特征量值来进行类判定的类判定工序,在判定工序中,通过构成与成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对未知样品的所述类判定。
图1是本发明的第12方式处理的伴随特征量选择的多类分类问题的示意图。特征选择(步骤1)是预先按照字面意思对样品所具备的大量的特征量中的用于后续的各处理(在本发明中尤其是多类分类)所需的特征量进行取舍选择的方法(第1至第10方式中的任一方式所涉及的特征量选择方法)。即,预先在规定的数据集(所谓的学习数据集)中获取大量的特征量,根据其信息,分选后续的各处理所需的特征量(特征量集)。并且,在实际给定(未知的)样品时,仅参考预先选择的少量的特征量(特征量集),进行多类分类。另外,此时,由于根据仅在学习数据集中选择的特征量对未知样品进行分类,因此当然优选特征量稳健。
特征选择尤其在为了参考(包括获取、保存等)样品的特征量而需要成本(包括时间、费用等)的情况下有用。因此,例如,参考学习数据的特征量的机构与参考未知样品的特征量的机构可以不同,也可以在选择少量的特征量的基础上,开发并准备与其适合的特征量获取机构。
另一方面,多类分类(步骤2)是确定给定的未知样品属于多个类中的哪一个的判别问题,在机器学习中是一般的问题。但是,许多现实的多类分类并不一定是简单地选择N个类中的1个的问题。例如,即使实际上存在多个类,也存在不需要其判别本身的情况。相反,例如,也存在状态不同的多个样品组混合存在于某个标记为1类的样品集中。优选为能够耐受这样的复杂的扩展性多类分类的方法。
作为最简单的特征选择的方法,也可以考虑用学习数据集评价从成为候补的大量的特征量中选择少量特征量的所有选择方法,但由于存在对学习数据集成为过度学习的危险性,候补数庞大而无法完全评价,因此需要某种框架。
示出将本发明的第1方式(伴随特征选择的多类分类)适用于生物领域的例子。癌或身体组织中分别存在固有的DNA甲基化模式。并且,人的血液中混入有从身体组织游离的DNA(Cell Free DNA:cfDNA),尤其也检测出来源于癌的cfDNA。因此,若分析cfDNA的甲基化模式,则能够判定有无癌,而且,若存在癌,则能够确定原发灶。即,实现通过采血进行早期癌筛查,引导到适当的精密检查。
因此,从DNA甲基化模式中判别“是癌还是非癌”及来源组织的问题极其重要。这能够定义为从血液或正常组织判别癌的多类分类问题。然而,人的器官涉及多种(例如主要癌8种、正常组织20种以上),癌存在亚型,即使是相同器官的癌,其状态也相互不同,因此可以说是很难的分类问题。
此外,从提供给筛查的假设出发,希望抑制测量成本,因此无法直接利用全面测量甲基化位置的昂贵的阵列。因此,必须事先从几十万处以上的DNA甲基化位置中筛选判别所需的少量位置,即,需要在前一阶段进行特征选择。
因此,构建从庞大的DNA甲基化位置筛选少量,根据该少量位置能够从正常组织中判别癌,并且还确定来源组织的特征选择及多类分类的方法的技术(本发明中提出的方法)有用。另外,从例如30万处的DNA甲基化位置中选择例如300处时的数量超过10的1,000次方,因此可知不能使用全面的探索方法。
因此,本申请发明人列举发挥有助于稳健性的判别的开关(Switch)的作用的DNA甲基化位置,且提出基于组合探索的特征选择方法,该组合探索充分覆盖所需要的类的成对判别。而且,提出仅使用选择位置中的稳健性的判别部位,由简单的二进制分类器结合淘汰层级法构成多类分类器的方法。
由此,能够应对伴随穿插现实问题的各种特性的特征选择的多类分类。实际上,能够适用于例如关于上述癌诊断的例子中出现的、癌和正常加起来大大超过10类的多类分类。本申请发明人提出的特征量选择及多类分类方法在产业上极其有用。
另外,本说明仅为具体事例之一,本发明的第12方式并不仅适用于生物领域。实际上,如许多通常的机器学习技术也能够适用于生物领域那样,即使将生物领域中开发的技术适用于通常的机器学习问题也无妨。
第13方式所涉及的多类分类方法在第12方式中,在定量化工序中,利用所成对耦合的类之间的学习数据集中的特征量的统计上的显著差。
第14方式所涉及的多类分类方法在第12或第13方式中,在定量化工序中,当基于参考学习数据集而设定的阈值给定属于所成对耦合的类中的任一个的未知样品的特征量时,利用能够根据给定的特征量正确地判别未知样品所属的类的概率。
第15方式所涉及的多类分类方法在第12至第14方式中的任一方式中,在定量化工序中,可判别性的定量化值是根据特征量个数对统计概率值进行多重检验校正后的值。
第16方式所涉及的多类分类方法在第12至第15方式中的任一方式中,还具有:子类设定工序,根据给定特征量从学习数据集对属于类的1个以上的样品进行聚类,由此形成簇,将所形成的各簇设定为各类中的子类;第2标记工序,将各类中的各子类标记为在各类中不需要相互判别的第2不需要判别类组;及第2排除工序,从展开的成对耦合中排除所标记的第2不需要判别类组彼此之间的成对耦合的展开。
第17方式所涉及的多类分类方法在第12至第16方式中的任一方式中,统计是可判别性的定量值的合计值或平均值的计算。
第18方式所涉及的多类分类方法在第12至第17方式中的任一方式中,还具有目标阈值输入工序,所述目标阈值输入工序输入表示统计的结果的统计值的目标阈值T,优化是将基于选择特征量的所有成对耦合中的统计值的最小值设为目标阈值T以上。
第19方式所涉及的多类分类方法在第12至第18方式中的任一方式中,在判定工序中,分别构成与各成对耦合建立关联地利用选择特征量组的二进制类判别器,组合二进制类判别器来构成多类判别器。
第20方式所涉及的多类分类方法在第12至第19方式中的任一方式中,还具有:通过二进制类判别器评价样品与各类的相似度的工序;及根据相似度来构成多类判别器的工序。
第21方式所涉及的多类分类方法在第12至第20方式中的任一方式中,还具有:通过二进制类判别器评价样品与各类的相似度的工序;及通过在相似度在上位的类之间重新适用在类之间用于相似度的评价的二进制类判别器,来构成多类判别器的工序。
第22方式所涉及的多类分类方法在第12至第21方式中的任一方式中,在判定工序中,构成与各成对耦合建立关联地利用选择特征量组的决策树,组合1个以上的决策树来构成多类判别器。
第23方式所涉及的多类分类方法在第22方式中,在判定工序中,由决策树及决策树的组合构成多类判别器作为随机森林。
第24方式所涉及的多类分类方法在第12至第23方式中的任一方式中,通过测量活体组织片的组学信息,从N个类中判定活体组织片所属的类。
第25方式所涉及的多类分类方法在第12至第24方式中的任一方式中,通过测量活体组织片的组学的开关状态信息,从N个类中判定活体组织片所属的类。
第26方式所涉及的多类分类方法在第12至第25方式中的任一方式中,应判别的类的个数为10个以上。
第27方式所涉及的多类分类方法在第26方式中,应判别的类的个数为25个以上。
本发明的第28方式所涉及的多类分类程序使计算机执行第12至第27方式中的任一方式所涉及的多类分类方法。另外,还能够举出记录有第28方式所涉及的程序的计算机可读取的代码的非临时性记录介质作为本发明的方式。
本发明的第29方式所涉及的特征量选择装置,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择装置具备第1处理器,第1处理器进行如下处理:输入处理,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择处理,根据学习数据集,从特征量组中选择针对未知所属的类的未知样品的类判定所需的特征量组,选择处理具有:定量化处理,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化处理,针对所有成对耦合,统计所定量化的可判别性,并选择对统计的结果进行优化的特征量组的组合。
本发明的第30方式所涉及的多类分类装置,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类装置具备:第29方式所涉及的特征量选择装置;及第2处理器,第2处理器进行如下处理:输入处理及选择处理,使用特征量选择装置;及判定处理,根据所选择的特征量组来进行针对未知样品的类判定,所述判定处理具有获取所选择的特征量组的特征量值的获取处理及根据所获取的特征量值来进行类判定的类判定处理,在判定处理中,通过构成与成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对未知样品的所述类判定。
本发明的第31方式所涉及的特征量集,其用于多类分类装置判定样品属于2个以上的N个类中的哪一个,所述特征量集具备属于成为对象的各类的样品的特征量数据集,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别。
第32方式所涉及的特征量集在第31方式中,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少5个以上的特征量进行判别。
第33方式所涉及的特征量集在第31方式中,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少10个以上的特征量进行判别。
第34方式所涉及的特征量集在第31方式中,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少60个以上的特征量进行判别。
第35方式所涉及的特征量集在第31至第34方式中的任一方式中,所选择的特征量的个数为所提示的最小覆盖数的5倍以下。
第36方式所涉及的特征量集在第31至第35方式中的任一方式中,应判别的类的个数为10个以上。
第37方式所涉及的特征量集在第36方式中,应判别的类的个数为25个以上。
第38方式所涉及的特征量集在第31至第37方式中的任一方式中,所选择的特征量的个数为25个以上。
第39方式所涉及的特征量集在第38方式中,所选择的特征量的个数为50个以上。
第40方式所涉及的特征量集在第39方式中,所选择的特征量的个数为100个以上。
附图说明
图1是表示伴随特征量选择的多类分类问题的示意图。
图2是表示多类分类装置的结构的图。
图3是表示处理部的结构的图。
图4是表示多类分类方法的处理的流程图。
图5是表示基于开关性特征量的分类的情况的图。
图6是表示判别开关值的矩阵的图。
图7是表示判别开关值/状态值的确定情况的图。
图8是表示排除不需要判别的类之间的成对展开的图。
图9是表示子类导入的情况的图。
图10是表示制作循环排序的情况的图。
图11是表示决胜淘汰匹配的情况的图。
图12是表示数据集的详细内容的图。
图13是表示本发明与现有方法的判别精度的比较结果的图。
图14是表示本发明与现有方法的稳健性的比较结果的图。
图15是表示选择特征量的个数与判别精度(F值)的关系的图。
图16是表示判别根据的图示例的表。
图17是表示选择特征量的个数与最小覆盖数的关系的图。
图18是表示最小覆盖数与最小F值的关系的表。
具体实施方式
以下,参考附图,对本发明所涉及的特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集的实施方式详细地进行说明。
<第1实施方式>
<多类分类装置的概略结构>
图2是表示第1实施方式所涉及的多类分类装置的概略结构的图。如图2所示,第1实施方式所涉及的多类分类装置10(特征量选择装置、多类分类装置)具备处理部100(第1处理器、第2处理器)、存储部200、显示部300及操作部400,相互连接而收发所需要的信息。对于这些构成要件能够采用各种设置方式,各构成要件可以设置在1处(1框体内、1室内等),也可以设置在相隔的场所并经由网络连接。并且,多类分类装置10(输入处理部102;参考图3)经由互联网等网络NW与外部服务器500及外部数据库510连接,能够根据需要获取多类分类用样品、学习数据集、特征量集等信息。
<处理部的结构>
如图3所示,处理部100具备输入处理部102、选择处理部104、判定处理部110、CPU116(CPU:Central Processing Unit,中央处理器)、ROM118(ROM:Read Only Memory,只读存储器)、RAM120(RAM:Random Access Memory,存取存储器)。输入处理部102进行从存储部200或网络上的存储装置输入由已知所属的类的已知样品组和已知样品组的特征量组构成的学习数据集的输入处理。选择处理部104进行根据所输入的学习数据集从特征量组中选择针对未知所属的类的未知样品的类判定所需的特征量组的选择处理,并且具备定量化处理部106和优化处理部108。判定处理部110根据所选择的特征量组进行针对未知样品的类判定(判定处理),并且具备获取处理部112和类判定处理部114。输出处理部115通过显示、存储、打印等输出处理条件或处理结果。另外,这些各部的处理在CPU116(第1处理器、第2处理器)的控制下进行。
上述处理部100的各部的功能能够使用各种处理器(processor)及记录介质来实现。各种处理器例如包括作为执行软件(程序)来实现各种功能的通用的处理器的CPU(Central Processing Unit:中央处理器)。并且,上述各种处理器还包括作为对图像处理特化的处理器的GPU(Graphics Processing Unit:图形处理单元)、作为FPGA(FieldProgrammable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器的可编程逻辑器件(Programmable Logic Device:PLD)。在进行图像的学习或识别的情况下,使用GPU的结构有效。而且,作为具有ASIC(Application Specific Integrated Circuit:专用集成电路)等为了执行特定的处理而专门设计的电路结构的处理器的专用电路也包括在上述各种处理器中。
各部的功能可以通过一个处理器来实现,也可以通过相同种类或不同种类的多个处理器(例如,多个FPGA、或者CPU和FPGA的组合、或CPU和GPU的组合)来实现。并且,也可以由一个处理器来实现多个功能。作为由一个处理器构成多个功能的例子,第一,有如下方式:如以计算机为代表那样,由一个以上的CPU和软件的组合构成一个处理器,该处理器作为多个功能来实现。第二,有如下方式:如以片上系统(System On Chip:SoC)等为代表那样,使用由一个IC(Integrated Circuit:集成电路)芯片来实现系统整体的功能的处理器。如此,关于各种功能,使用一个以上的上述各种处理器来作为硬件结构而构成。而且,更具体而言,这些各种处理器的硬件结构为将半导体元件等电路元件组合而成的电路(circuitry)。这些电路也可以是使用逻辑或、逻辑与、逻辑否定、异或、及将它们组合而成的逻辑运算来实现上述功能的电路。
在上述的处理器或者电路执行软件(程序)时,将能够由执行的软件的计算机(例如,构成处理部100的各种处理器或电路、和/或它们的组合)读取的代码存储于ROM118等非临时性记录介质中,计算机参考该软件。存储在非临时性记录介质中的软件包含用于执行本发明所涉及的特征量选择方法和/或多类分类方法的程序(特征量选择程序、多类分类程序)及在执行时使用的数据(与学习数据的获取有关的数据、用于特征量选择及类判定的数据等)。代码可以不记录在ROM118,而是记录在各种光磁记录装置、半导体存储器等非临时性记录介质中。在使用软件的处理时,例如RAM120被用作临时性存储区域,并且例如也能够参考存储在未图示的EEPROM(Electronically Erasable and Programmable Read OnlyMemory:电可擦可编程只读存储器)中的数据。也可以使用存储部200作为“非临时性记录介质”。
上述结构的处理部100的处理的详细内容在后面叙述。
<存储部的结构>
存储部200由硬盘、半导体存储器等各种存储器件及其控制部构成,能够存储上述学习集、选择处理或类判定处理的执行条件及其结果,特征量集等。特征量集用于多类分类装置10判定样品属于2个以上的N个(N为2以上的整数)类中的哪一个,所述特征量集具备属于成为对象的各类的样品的特征量数据集,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别。该特征量集能够通过本发明的特征量选择方法(特征量选择装置)中的输入工序(输入处理)及选择工序(选择处理)来生成。并且,该特征量集优选标记为能够用至少5个以上的特征量进行判别,进一步优选标记为能够用至少10个以上的特征量进行判别,更进一步优选标记为能够用至少60个以上的特征量进行判别。并且,该特征量集在应判别的类的个数为10个以上的情况下有效,在25个以上的情况下更有效。并且,在所选择的特征量的个数为50个以上的情况下有效,在100个以上的情况下更有效。
<显示部的结构>
显示部300具备由液晶显示器等显示器构成的监视器310(显示装置),能够显示所获取的学习数据、或选择处理和/或类判定处理的结果。也可以由触摸面板型显示器构成监视器310,接受用户的指示输入。
<操作部的结构>
操作部400具备键盘410及鼠标420,用户能够经由操作部400进行与本发明所涉及的多类分类方法的执行、结果显示等有关的操作。
<1.特征量选择方法及多类分类方法的处理>
图4是表示本发明的特征量选择方法及多类分类方法的基本处理的流程图。本发明的特征量选择方法是选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法。并且,本发明的多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,所述多类分类方法具有:输入工序(步骤S100),输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;选择工序(步骤S110),根据学习数据集,从特征量组中选择针对未知所属类的未知样品的类判定所需的特征量组;及判定工序(步骤S120),根据所选择的特征量组来进行针对未知样品的类判定,所述判定工序具有获取所选择的特征量组的特征量值的获取工序(步骤S122)及根据所获取的特征量值来进行类判定的类判定工序(步骤S124)。
选择工序具有:定量化工序(步骤S112),通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于所选择的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化工序(步骤S114),针对所有成对耦合,统计所定量化的可判别性,并选择对统计的结果进行优化的特征量组的组合。并且,在判定工序中,通过构成与成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对未知样品的类判定。
<2.本发明的基本方针>
本发明尤其优选的是如下情况:取舍选择具有接近二进制值的特性的特征量的情况,通过将这样的特征量如“开关”那样组合来确定类的情况。即,不是与特征量线性或非线性地定量结合的情况,但这不一定简单,在有大量开关的情况下,成为足够复杂的问题。因此,本发明基于“探索及选择具有开关功能的大量的特征量的组合,由简单的分类器构成多类分类器”的方针。
图5是对上述“具有开关功能的特征量”进行说明的图。图5的(a)部分表示根据特征量X'及特征量Y'进行类分类的情况,成为复杂且非线性的分类。与此相对,图5的(b)部分表示根据特征量X及特征量Y进行类分类的情况,成为简单且线性的分类。从高精度且高稳健性的类分类的观点出发,优选选择具有如该图的(b)部分那样的开关功能的特征量。
另外,给定学习数据集,对任何样品赋予共通的多个特征量(例:甲基化位置)的值(另外,作为值,也可以在一部分包含“缺失值”:以下标记为NA)和1个正确类标签(例:癌或非癌、及组织分类)(由输入处理部102进行了学习数据集输入(输入工序、输入处理:步骤S100))。
并且,这里为了简化说明,设置了上述前提,但在未对样品的一部分赋予正确类标签的情况下,也可以引入所谓的半监督学习。由于是与公知的方法的组合,因此简单地表示2个代表性的处理例。能够同时使用(1)作为预处理,根据与赋予正确类标签的样品的数据比较,对未赋予正确类标签的样品赋予某种类标签的方法、(2)循环进行在用暂且赋予类标签的数据进行学习的基础上推算其他未知样品的所属类,将其准确度高的视为“正确标签”,重新增加学习数据进行学习的方法、等。
<2.1特征量的选择方法>
在本节中,对选择处理部104(定量化处理部106、优化处理部108)的特征量的选择(步骤S110:选择工序)进行说明。首先,以简化本发明中的特征量选择(选择工序、选择处理)的原理的情况进行说明。以下,对依次扩展的方法进行说明。最后,总结引入所有扩展的特征量选择的步骤。另外,在本节中提及的特征量当然全部是指学习数据的特征量。
<2.2特征量选择的原理:归结于集合覆盖问题>
首先,对用于多类分类的特征量选择(选择工序)的原理进行说明。在本项中,为了简化,假设属于相同的类的样品的所有特征量的值完全一致,该特征量取二进制(0或1)的确定值。
当将类s的特征量i的值设为Xi (s)时,“能够通过选择特征集合f来判别类s和t”是指任一个特征量不同,即,满足以下式(1)。
[数式1]
Figure BDA0003794453650000141
因此,能够相互判别所有的给定类C={1,2,…,N}的必要充分条件满足以下式(2)。
[数式2]
Figure BDA0003794453650000142
在此,对类二元关系进行成对展开,对二元组合中的对k={s,t}∈P2(C)导入类s和t的二进制特征量i的异或Yi (k)(参考以下式(3)),称为“判别开关”(图5)。
[数式3]
Figure BDA0003794453650000143
图6是表示判别开关计算的情况的图。图6的(a)部分是表示针对类A、B、C的二进制特征量#1~#5的值(值为0或1;二进制特征量值)的表,该图的(b)部分表示对类A、B、C进行成对展开而形成对{A,B},{A,C},{B,C}的情况。图6的(c)部分表示针对各对的二进制特征量的异或(值为0或1;判别开关值)。例如,关于对{A,B},特征量#1的判别开关值为0,这表示“在特征量#1中无法判别对{A,B}(无法判别样品属于类A、B中的哪一个)”。与此相对,例如关于对{A,B},特征量#2的判别开关值为1,因此可知“根据特征量#2的值能够判别对{A,B}”。
综上所述,能够相互判别所有的给定类C的必要充分条件可以改写为以下式(4)。
[数式4]
Figure BDA0003794453650000151
即,若将所有特征集合设为F,则用于多类分类的特征量选择能够归结为选择满足上述式的子集
Figure BDA0003794453650000152
的集合覆盖问题。
另外,“集合覆盖问题”例如能够定义为“在给定集合U和U的幂集合的子集S时,以至少1次包含(=覆盖)U的所有要素的方式选择S的子集的问题”(也可以是其他定义)。
在此,针对特征量i的开关集合Ii={k|Yi (k)=1}是类的二元组合P2(C)的子集。因此,与所有特征集合F对应的I={Ii|i∈F}是其集合族、P2(C)的幂集合的子集。即,本问题是“在给定P2(C)的幂集合的子集I(与F对应)时,以至少1次包含P2(C)的所有的要素的方式选择I的子集(与f对应)的问题”,即可以视为集合覆盖问题。具体而言,对于成对展开的所有的对,需要选择判别开关值成为至少1个“1”的特征量(和/或其组合)。在图6的事例中,选择“特征量#2,#4”、“特征量#3,#4”、或“特征量#2,#3,#4”即可。另外,在特征量的值为NA的情况下,成对的判别开关值自动为零。
<2.3用可判别性的定量值来代替异或>
在此,若特征量原本是二进制值,则也可以将特征量或其代表值(中央值等)直接视为可判别性。但是,通常特征量并不限于二进制值,即使属于相同的类的样品也可以波动为各种值。因此,优选定量化处理部106(选择处理部104)根据学习数据集的特征量,用可判别性的定量值(定量化值)来代替判别开关值(异或)。
首先,定量化处理部106根据属于类s的样品的特征量i的测量值组,推算类s且特征量i的分布参数θi (s)及分布D(θi (s))(步骤S112:定量化工序)。尤其优选根据分布或分布参数对可判别性进行定量化。另外,对于特征量的值为NA的样品,可以从所述定量处理中排除等。当然,若所有的样品为NA,则当然不能使用其特征量。
例如,定量化处理部106能够对成对的参数θi (s)与θi (t)之间有无显著差进行统计检验,求出p值,具体而言,能够使用韦尔奇的t检验。韦尔奇的t检验是如下方法:假定正态分布,能够通用地适用的方法(作为图像,根据s和t的特征量分布接近图7的(a)部分和(b)部分中的哪一个来判定显著差)。当然,也可以根据特征量所具有的统计性质、或观测结果和分析结果,适时地采用适当的分布及对应的统计检验法。
图7是表示判别开关值及状态值的确定图像的图。图7的(a)部分是在成对{A,B}的判别中利用特征量的情况,定量化处理部106根据学习数据预先设定阈值(图中的2条纵线的位置的值),根据对象样品的测量值确定判别开关状态值(步骤S112:定量化工序)。若测量值属于分布A侧,则为状态值+1,若属于B侧,则为状态值-1,若属于保留域,则为状态值0。另一方面,图7的(b)部分是本来不将特征量用于成对{A,B}的判别的情况(Yi ({A,B})=0)。
但是,特征量候补尤其在存在大量的情况下,若在所有特征集合F中重复进行判定,则陷入多重比较检验。因此,优选定量化处理部106将针对相同的成对k={s,t}获得的p值组校正为所谓的q值组(步骤S112:定量化工序)。多重检验校正的方法例如有Bonferroni法或BH法[Benjamini,Y.,and Y.Hochberg,1995]等,更优选为校正为后者的所谓的FDR(False Discovery Rate:错误发现率)的方法,但并不限于此。
如以下式(5)所示,定量化处理部106将所获得的q值与预先设定的基准值α进行比较,对判别开关分配0或1(尤其,将判别开关为1的情况称为“标记”)。
[数式5]
Figure BDA0003794453650000171
另外,从扩展集合覆盖问题的立场出发,上述中将判别开关分散化且二进制化,但也可以例如设定为1-q等,处理连续变量。
而且,p值或q值是统计差,并不是能够判别样品的概率,因此定量化处理部106还可以在基于参考学习数据集而设定的适当的阈值,给定属于所成对耦合的类中的任一个的未知样品的特征量时,根据能够通过该特征量正确地判别所属类的概率来进行定量化。并且,定量化处理部106也可以根据特征量个数对这样的统计概率值进行多重检验校正。
并且,不仅是与统计检验相关的基准,例如也可以追加或者代替平均值具有一定的差等的基准值等。当然,作为基准,也可以使用除了平均值或标准偏差以外的各种统计量。
<2.4将集合覆盖问题扩展为最小成对覆盖数最大化等优化问题>
在特征量是概率变量的情况下,即使标记了判别开关,也不一定能够准确地判别对应成对。因此,优选扩展集合覆盖问题。
因此,如以下式(6)所示,定量化处理部106(选择处理部104)将判别冗长性作为成对覆盖数Zf (k),统计各个可判别性的定量值(计算合计值作为统计值;步骤S112:定量化工序)。
[数式6]
Figure BDA0003794453650000172
Zf (k)的定义并不限于式(6)所示。例如,对于连续变量版的-Yi (k),可以作为所有的判别中失败的概率,定义为(1-Yi (k))的乘积,也可以使用某个适当的阈值U,根据Yi (k)计算至少U个判别中成功的概率。并且,也可以计算各个可判别性的平均值。如此,可以考虑各种统计方法。
接着,从“优选尽可能减少判别的瓶颈”的立场出发,优化处理部108(选择处理部104)能够将应选择的特征量的个数设为m,例如通过以下式(7),将特征量选择问题重新归结为最小成对覆盖数的最大化问题(步骤S114:优化工序、优化处理)。
[数式7]
Figure BDA0003794453650000181
上述是在确定特征量的选择个数时(输入了特征量的选择个数M的情况、即进行了选择个数输入工序/处理的情况)的归结例。相反,优化处理部108(选择处理部104)可以在最小成对覆盖数(可判别性的统计值的最小值)中设定阈值(目标阈值T)(目标阈值输入工序/处理),以满足该阈值的方式选择特征量(步骤S114:优化工序/处理、选择工序/处理)。在该情况下,当然优选选择的特征量的个数更少,尤其优选最小。
或者,将这两者进行组合等,也可以考虑各种优化的方法。
由于集合覆盖问题是一种积极地研究的领域,因此存在各种解决方法。将其扩展的最小覆盖数的最大化问题也能够以大致相同的步骤来应对。但是,由于通常是NP完全问题(NP-complete problem),因此不容易求出严密解。
因此,当然优选求出严密解,按照字面意思解决最小成对覆盖数的最大化问题或以最少特征量实现设定覆盖数的问题,但优化处理部108(选择处理部104)也可以使用通过启发式方法尽可能增加覆盖数,或尽可能减小选择特征量的个数而求出局部最小值的方法。
具体而言,例如,优化处理部108(选择处理部104)可以采用简单的贪婪探索步骤。除了当前选择的特征集合的最小成对覆盖数以外,还可以考虑“依次定义第i小的第i位成对覆盖数,依次选择使更小的i的第i位成对覆盖数最大化的特征量的方法”等。
而且,输入类或成对判别的重要性(步骤S112:定量化工序、重要性输入工序/处理),在优化时,也可以赋予基于该重要性的加权(加权赋予工序/处理)。例如,能够将上述式(7)修改为以下式(8)。
[数式8]
argmax min{Zk/wk}(8)
在此,wk表示成对判别的重要性。或者也可以指定类的重要性,设为wk=wswt等,并且根据类的重要性来确定成对的重要性。另外,当然,根据乘积将类的重要性反映到成对的计算式仅为一例,加权的具体计算式也可以是相同主旨的其他方法。
具体而言,例如,在病态组织的判别中,在疾病A与疾病B的判别特别重要,另一方面,疾病B与疾病C的判别不重要的情况下,优选对wk={A,B}设定大的值,对wk={B,C}设定小的值。由此,能够向例如疾病A的早期发现特别重要但症状与疾病B相似的事例、疾病B及疾病C的早期发现不重要且症状相互具有较大差异的事例提供适当的特征量选择或类分类(诊断)的方法。
<2.5相似特征量的排除>
通常,在判别对象类整体中取接近的值的相似性(相似度)高的特征量的相关性高,因此考虑到判别的稳健性,优选避免重复选择。并且,在前项所述的优化的探索中,若能够减少|F|,则能够高效化,因此优化处理部108(选择处理部104)优选根据相似性的评价结果来预先筛选应考虑的特征量(步骤S110:选择工序/处理、相似性评价工序/处理、优先级设定工序/处理)。实际上,例如甲基化位置具有几十万个以上。
在此,将对于特征量i成为Yi (k)=1的k的集合Ii={k|Yi (k)=1}称为“开关集合”。根据该开关集合,能够考虑特征量的相似性(或者相似度)、即特征量的同值关系(重复关系)及包含关系。
对于特征量i,收集成为Ii=Il的所有的l,如以下式(9)所示创建同值特征集合Ui。并且,收集成为
Figure BDA0003794453650000193
的所有的l,如式(10)所示创建包含特征集合Hi
[数式9]
Figure BDA0003794453650000191
[数式10]
Figure BDA0003794453650000192
同值特征集合是将重复性的特征量进行分组而获得的集合,包含特征集合是将从属性的特征量进行分组而获得的集合,若筛选为1个代表特征量,则能够排除相似性高的特征量。因此,例如可以用相似排除特征集合如以下式(11)所示替换所有特征集合F。
[数式11]
Figure BDA0003794453650000201
当然,选择处理部104可以仅考虑同值特征集合或包含特征集合中的一个作为相似性,也可以创建其他指标。例如,也可以考虑求出特征量之间的矢量距离(可判别性矢量之间的距离),将某个阈值以下的距离视为相似特征量的方法等。除了简单的距离以外,也可以导入将多个特征量的可判别性正规化之后计算距离等任意的距离或基于该距离的度量值。
而且,在上述中实施了筛选,但选择处理部104在进行优化探索时,也可以使用通过降低已经选择相似特征量的特征量的选择优选顺序(优先级)(优先级设定工序)来确定选择容易度的方法。当然,也可以是提高与已经选择的特征量的相似度低的特征量的选择优选顺序(优先级)的(优先级设定工序)方法。
<2.6不需要相互判别的成对(类集合)的导入>
类二元关系相对于给定类数N涉及|P2(C)|=NC2。这是简单地取了类的所有二元关系的情况,但在实际使用上有时存在不需要判别的成对。
例如,在假设癌诊断问题的情况下(参考后述的实施例),必须进行癌组织之间的判别及癌组织与正常组织的判别,但不需要正常组织之间的判别。
因此,选择处理部104可以抑制一部分类二元关系的成对展开。即,根据必须判别的类集合CT和不需要判别的类集合CN(第1不需要判别类组),分割给定类C={c|c∈CT,CN},考虑CT与CT之间、及CT与CN之间(成对展开),另一方面,从类二元关系中排除CN彼此之间的对(步骤S110:选择工序、第1标记工序/处理、第1排除工序/处理)。即,选择处理部104通过以下式(12)计算P2(C)',用P2(C)'替换此前的P2(C)。
[数式12]
P2(C)=P2(C)\{{s,t}|s≠t∈CN}…(12)
另外,这样的分割或标记也可以存在2个以上。
图8是表示抑制一部分成对展开的情况的图。在图8的例子中,类T1、T2、…、Tm是需要类之间的判别的类组(例:癌组织),类N1、N2、…、Nn是需要判别“不是T(不是癌组织)”但不需要相互判别的类组(例:正常组织)。
在该情况下,选择处理部104在类T之间(例:类T1与T2、类T1与T3等)及类T与类N之间(例:类T1与N1、类T1与N2等)进行成对展开,但在类N之间不进行成对展开。
<2.7从样品的聚类导入子类>
即使对样品赋予了正确类标签,在名称上相同类的样品中实际上有时也混合存在状态不同的多个组。即使只要能够判别名称类就已充分,但由于特征量不一定遵循相同的分布参数,因此也无法正确地赋予判别开关。
例如,癌中也存在亚型,即使是相同器官的癌,也存在相互状态不同的癌[Holm,Karolina,et al.,2010]。但是,在假设适用于筛查(与精密检查同时使用)的情况下,不需要判别亚型。
因此,为了对应于亚型,也可以导入称为子类的不需要相互判别的特殊的类单元(步骤S110:选择工序、子类设定工序/处理、第2标记工序/处理)。
子类能够由样品自动构成。但是,由于难以从单一特征量中进行鉴定,因此考虑选择处理部104按每个类根据所有特征量(给定特征量)对样品进行聚类(形成簇),以适当的簇数L(或最小簇尺寸nC)进行划分,使子类与簇对应的方法。例如,如图9的(a)部分所示,使用所有特征量对属于某个类(在此,类B)的样品进行聚类,根据其结果,如该图的(b)部分所示分割为子类X、Y。在该例子中,若将类B分割为子类X、Y,则能够使用特征量i判别类A和类B的子类Y。但是,也有某个类偶然分为多个子类的情况,在该情况下,强行视为“子类”毫无意义。
另外,由于存在各种聚类方法,因此可以通过其他方法进行聚类,簇的基准也可以设定为各种。
例如,若类J被分割而成为{J1,J2,…,JL}(第2不需要判别类组),则给定类C={1,2,…,J,…,N}能够扩展成如以下式(13)所示。
[数式13]
C+J={1,2,…,J1,J2,…,JL,…,N}…(13)
类二元关系与前项同样地,排除不需要判别的子类彼此之间的对,替换成如以下式(14)所示(第2排除工序)。
[数式14]
P2(C+J)′-J=P2(C+J)′\{{s,t}|s≠t∈J*}…(14)
另外,将包含前项CN在内依次适用的最终的类二元关系设为P2(C+C)'-C
<2.8特征选择法的步骤总结>
总结本申请发明人提出的特征选择法(选择处理部104的选择工序、选择处理)的步骤。
(i)设定给定类集合C中不需要判别的类集合CN
(ii)按每个类以所有特征量对样品进行聚类,使所获得的各簇与子类对应(子类是不需要相互判别的特殊的类)。
(iii)设定除了不需要判别的类二元关系的、成为判别对象的所有类二元关系的成对展开P2(C+C)'-C
(iv)根据各类的所属样品来推算分布参数,通过统计检验来判定特征量在类对k={s,t}之间的显著差,对判别开关Yi (k={s,t})分配0/1。
(v)由判别开关构成同值特征量集合及包含特征量集合,创建相似排除特征集合F'。
(vi)对于判别对象类的成对展开P2(C+C)'-C整体,从F'中选择使根据判别开关和求出的成对覆盖数Zf (k)的最小值最大化的特征集合f(特征量集)。
但是,上述i~vi为涵盖全部的一例,不一定需要实施上述的全部,可以存在局部不采用的步骤。并且,当然,也可以使用各节中注明或启示的代替方法来构成。另外,多类分类装置10也可以仅执行特征量选择方法的工序(特征量选择方法、特征量选择处理)来获得用于多类分类的特征量集。
<3.多类分类的方法>
在本节中,对类判定处理部114(判定处理部110)所进行的处理(步骤S120:判定工序、判定处理)进行说明。首先,对基于所选择的特征量(选择特征量组、特征量集)的二进制类分类器(二进制类判别器)的结构例(类判定工序、判定工序)进行说明。接着,对由该二进制类分类器通过(1)循环匹配排序、(2)决胜淘汰匹配的两阶段的步骤构成多类分类器(多类判别器)的(构成与成对耦合建立关联地利用选择的特征量组的多类判别器)方法的一例(类判定工序、判定工序)进行说明。
<3.1二进制类分类器的结构>
希望活用选择有助于成对判别的特征量的结构。因此,能够仅根据标记有判别开关的成对和特征量的组合来构成二进制类分类器(分别构成与各成对耦合建立关联地利用选择特征量组的二进制类判别器)。另外,在类分类时,获取处理部112获取所选择的特征量组的特征量值(步骤S122:获取工序、获取处理)。
例如,类判定处理部114(判定处理部110)能够与学习分布进行比较来确定给定样品j(所属类未知)、选择特征量i的针对类成对{s,t}的判别开关状态yi (k=(s,t),j)(步骤S124:类判定工序,参考图7)。首先,根据学习数据推算分布,判断显著差(是图7的(a)部分所示的状态,还是(b)部分所示的状态),在“有显著差”的情况下,预先设定阈值。并且,类判定处理部114仅在选择“有显著差”的情况下,在对给定样品进行分类时,根据特征量的值推算所属分布(或者是否存在所属),如以下式(15)所示确定判别开关状态值(步骤S124:类判定工序)。
[数式15]
Figure BDA0003794453650000231
另外,上式中的“?”表示样品x的所属类未知。并且,在样品的特征量的值为NA的情况下,将y设为0。
类判定处理部114(判定处理部110)对其进行统计来计算判别分数rj(s,t),而且如以下式(16)、(17)所示构成二进制类分类器Bj(s,t)(步骤S124:类判定工序)。
[数式16]
Figure BDA0003794453650000232
[数式17]
Figure BDA0003794453650000233
<3.2多类分类的步骤(1):循环匹配排序>
类判定处理部114(判定处理部110)能够对上述判别分数(但是,对判别开关的个数进行正规化,因此优选取其符号值)进一步进行总计,如以下式(18)所示计算类分数(对分数)(步骤S124:类判定工序)。
[数式18]
Figure BDA0003794453650000241
该类分数表示“未知样品j与类s的相似程度”。而且,类判定处理部114(判定处理部110)按照该类分数的降序列出判别候补类,并制作循环匹配排序G(步骤S124:类判定工序)。在制作时,也可以进行替换处理(若类分数为正,则替换为+1,若为零,则保持±0,若为负,则替换为-1)。
图10是表示制作循环匹配排序的情况的图。首先,如图10的(a)部分所示,类判定处理部114针对各类对({A,B},{A,C},…),统计判别分数的符号值(式(17)的sgn(rj(s,t)))。例如,关于类对{A,B},成为“关于样品,当从特征量#1的值考虑时,与类A相似(符号值=+1),当从特征量#2的值考虑时,无法说是类A、B中的任一个(符号值=0)…”,小计为24。因此,可以说“样品在类A、B中与A相似”(小计值为正且绝对值越大,则相似度越高)。并且,关于类对{A,C},成为“关于样品,当从特征量#3的值考虑时,与类C相似(符号值=-1),当从特征量#4的值考虑时,与类A相似(符号值=+1)…”,小计为-2。因此,可以说“样品与类A、C中的任一个均不相似(或者,稍微与类C相似)”。
当这样对所有类对计算小计时,能够获得图10的(b)部分所示的结果。例如{A,*}是“类A与其他所有类的比较结果”,上述替换后的分数的合计为7。同样地,针对类D的合计为10。并且,类判定处理部114根据该合计,如图10的(c)部分所示列出(排序)判别候补类。在该例子中,针对类D、N、A的合计分别为10、8、7,类D为第1,类N为第2,类A为第3。
<3.3多类分类的步骤(2):决胜淘汰匹配>
在包含本问题的多类分类中,相似类之间的判别成为性能瓶颈的情况较多。因此,在本发明中,选择包括相似类之间在内,能够判别所有成对的特征量组(特征量集)。
与此相对,在上述循环匹配排序G中,期待相似性高的类聚集在最上位附近,但类分数的大部分通过与排序下位类的比较而确定。即,最上位附近的排序(在图10的例子中,类D、N、A之间的排序)不一定可靠。
因此,如以下式(19)所示,类判定处理部114(判定处理部110)能够根据循环匹配排序的上位类g个不规则淘汰匹配Tj来确定最终的判别类(步骤S124:类判定工序)。
[数式19]
Tj(G1,G2,…,Gg)=Tj(G1,…,Gg-2,Bj(Gg-1,Cg))=…=Bj(G1,Bj(G2,…,Bj(Gg-1,Gg)…))…(19)
即,类判定处理部114从列表上位的g个类中对下位2类的成对重新适用二进制类分类器来确定获胜剩余,逐个减少列表个数,依次采取相同的步骤(最终,比较G最上位类与获胜剩余类)。
例如,如图11所示,从列表上位的3个类(类D、N、A)中对作为下位2类的类N、A计算类分数而确定获胜剩余(类N或A),并且以相同方式对作为循环排序的最上位类的类D和获胜剩余类计算类分数。另外,“将循环排序的第几为止作为决胜淘汰匹配的对象(在图11的例子中为第3为止)”没有特别限定。
<3.4其他多类分类器的结构>
另外,上述是分类器结构的一例,除此以外,也可以沿用各种机器学习方法。例如,基本上是随机森林的结构,也可以是在中途的决策树中,仅使用选择特征量的判别开关有效的决策树(判定工序)的结构。具体而言,类判定处理部114(判定处理部110)可以构成与各成对耦合建立关联地利用选择特征量组的决策树,并且将决策树组合1个以上来构成多类判别器(步骤S124:类判定工序)。此时,类判定处理部114也可以根据决策树及决策树的组合来构成多类判别器作为随机森林(步骤S124:类判定工序)。
<4.输出>
输出处理部115能够根据用户经由操作部400的操作,或不依赖于用户的操作,输出所输入的数据或上述处理的条件、结果等。例如,能够通过将所输入的学习数据集、所选择的特征量集、循环匹配排序或决胜淘汰匹配的结果等显示在监视器310等显示装置、存储在存储部200等存储装置、用打印机(未图示)进行打印等来输出(输出工序、输出处理;关于图16在后面叙述)。
<5.测试数据和实施例>
本申请发明人选择8种(大肠癌、胃癌、肺癌、乳癌、前列腺癌、胰腺癌、肝癌、宫颈癌)作为诊断对象的癌。这些癌占日本人罹患癌的大约70%[Hori M,Matsuda T,et al.,2015],因此认为适合于早期筛查的对象。
并且,由于正常组织需要涵盖所有能够流出到血液中的组织,因此除了与上述8种癌对应的器官以外,还列举了血液、肾脏、甲状腺等可想到的共计24种。
在作为可行性研究的定位下,假设提取细胞块(活体组织片)的判别,收集了载有甲基化位置的测量值的开放数据共计5,110个样品(图12)。
对于癌肿瘤及正常器官(不包括血液),从“The Cancer Genome Atlas”(TCGA)[Tomczak,Katarzyna,et al.,2015]的登记数据中收集了4,378个样品。并且,血液收集了732个样品[Johansson,Asa,Stefan Enroth,and Ulf Gyllensten,2013]。
样品的所属类(包括癌与非癌的区分的来源组织)全部按照登记注释信息赋予。
并且,甲基化测量值合计为485,512个位置,但除了不能测量所有样品值(NA)的位置以外,全部为291,847个位置。另外,在上述登记数据中直接采用了正规化等后处理后的数据。
而且,机械等分所有数据集,将其中1个作为学习数据集,将另1个作为测试数据集来利用。
本实施例中设定的试验课题如下。
i.准备大约5,000个样品的数据集
分配类(共计32):癌(8种)或正常组织(24种)
特征量(甲基化位置):大约30万个项目
ii.从上述一半的学习数据集中,事先选择最多10~300个项目的能够用于判别的甲基化位置(组学信息、组学的开关状态信息)(同时,学习子类分割或分布参数等参数)
iii.(尤其从剩余一半的测试数据集中)(逐个样品独立地)回答给定样品的判别问题
输入:样品的选择甲基化位置测量值(与ii的选择对应的最多300个项目)
输出:推算类=“癌+来源组织(从8种中选择)”或从“非癌(仅1种)”的9个中选择
另外,在实施例中,作为与提出法(本发明的方法)进行比较的现有方法,采用了以下方法。
·特征选择法:具有甲基化位置研究事例的香农熵基准[Kadota,Koji,et al.,2006;Zhang,Yan,et al.,2011]
·多类分类法:朴素贝叶斯分类器(简单但以高性能而闻名[Zhang,Harry,2004])
<5.1提出法与现有方法的比较结果>
<5.1.1测试数据的判别精度>
用学习数据进行学习,选择277个位置(组学信息、组学的开关状态信息),确认测试数据的判别精度,将提出法(本发明的多类分类方法)与现有方法进行比较(图13)。其结果,表示提出法在所有项目中判别精度高。
相对于现有方法的平均F值为0.809,提出法的平均F值达到0.953。并且,在现有方法中,在肺癌、胰腺癌、胃癌等中,存在F值/灵敏度/适合度停留在小于0.8的情况,但在提出法中,在所有项目中达到0.8以上。
<5.1.2判别的稳健性>
根据前项中的学习与测试之间的平均F值差来确认判别的稳健性,将提出法与现有方法进行比较(图14)。结果,表示提出法的稳健性优异(F值下降0.008)。
在现有方法中,相对于学习数据显示大致完美的平均F值0.993,在测试数据中精度大幅下降(差分0.185),因此可知陷入过度学习。
另一方面,在提出法中,平均F值的下降停留在0.008。并且,胰腺癌的判别能力在提出法中是相对低的值(F值0.883),但在学习时也是相对低的值(F值0.901)。在本提出法中,启示了在学习完成的阶段,能够在某种程度上预见测试数据中的判别精度及倾向。
<5.1.3选择特征个数与判别精度的关系>
确认了所选择的特征量的个数与判别精度(F值)的关系(图15)。结果可知,选择50~100个时判别精度显著提高,选择150~300个时具有饱和的倾向。
因此,尤其在根据cfDNA的甲基化模式判别“是癌还是非癌”及来源组织的癌诊断问题中,表示选择10个特征量时判别能力不充分,至少需要25~100个项目以上的多项目测量(因此,在这样的类数大的多类分类问题中,在选择工序(选择处理)中选择的特征量(选择特征量组)的个数优选为25个以上,更优选为50个以上,最优选为100个以上)。
<5.1.4相似特征量的排除、不需要判别的成对的导入>
在提出法中,不选择相似特征量(相似性评价工序、相似性评价处理)。并且,导入了不需要判别的成对。
有效的甲基化位置(本问题的特征量)共有291,847个,其中,确定59,052个相似特征(同值关系、包含关系),能够作为对象外进行削减(减少20.2%)。并且,由于根据样品·聚类将原来的32类分割为89类,因此简单的成对总数上升到4,005种。其中,能够削减551种正常组织之间与癌子类之间的对象外成对(减少13.8%)。
同时,能够削减31.2%的探索空间。通过排除相似特征量,导入不需要判别的成对,能够确认使判别开关组合探索高效化。
<5.1.5子类分割>
在提出法中,导入样品·聚类,将给定类内部分割为子类。与不需要判别的成对的组合也重要,因此确认了两者合并的效果。
为了进行比较,不进行子类分割,不导入特征选择的不需要判别的成对,关于其他实施了相同步骤的试验。结果,即使限定为癌组织,判别的正确率也从原来的95.9%下降到85.6%(正常组织在不分割时上升到24种,因此尤其为了确认子类分割的效果,限定为癌组织进行比较)。
能够确认通过子类分割及不需要判别的成对的导入,实现了高精度的判别。
<5.1.6同时使用决胜淘汰匹配>
在提出法中,在多类分类中,同时使用了循环匹配排序(在本项中,将第1的类称为“预选顶级类”)和决胜淘汰匹配。
测试数据2,555件中,预选顶级类与正确类不一致的事例为278件。其中,通过决胜淘汰匹配更正为正确的判别的事例为162件。另一方面,相反的事例为19件(预选顶级类与正确类一致,但通过决胜淘汰匹配变更为错误的判别)。
即,通过同时使用决胜淘汰匹配,减去预选顶级类的判别错误,能够更正51.4%,能够将整体正确率改善5.6%。能够确认构成为很好地发挥基于成对判别的二进制类分类器的性能。
在提出法中,判别的步骤、比较研究类、依据的特征量明确。因此,能够追溯判别结果,容易地确认并说明与成为根据的特征量或阈值的差等。可以说是尤其有利于对要求判别根据的医疗诊断的适用的“能够说明的AI”。
图16是表示判别根据的图示例(提取了测试数据中的实际的判定推移的例子)的表。在图16的(a)部分示出分类结果的上位类及结果、以及分数。在该图的例子中,可知样品分类为“癌组织1”,其分数为79,其次相似的样品为“癌组织3”,分数为76。
同样地,在从“癌组织1”的行到“正常组织1”的行为止的7行中,能够确认各类分数Ri(s)。而且,在从“<癌组织1|癌组织3>”的行到“<癌组织1|癌组织5>”的行为止的3行中,能够确认各类成对的判别分数rj(s,t)。
并且,在图16的(b)部分所示的表中,能够确认“选择特征量(在表中记载为标记)一览如何有助于各判别分数”的一览。当然,除了如图7的(a)部分所示的学习数据的分布图以外,还可以附加将各样品的值描绘在图上等可视化。
如此,根据提出法(本发明),在分类(选择)之后,通过倒序追踪处理步骤,图示各分数等,能够将判别根据确认及可视化。由此,能够根据其他候补的相似类分数或判别分数等来推测最终判别结果的可靠度。并且,通过确定成为根据的特征量,也能够通过其解释来进行分类后的考察。
<选择特征量的个数与最小覆盖数的关系>
将上述实施例中的选择特征量的个数与最小覆盖数的关系示于图17的曲线图。
[数式20]
Figure BDA0003794453650000301
在此,获得斜率大致为1/5的线性关系,这表示对于癌8类/正常24类且伴随内部子类分割的高度的多类分类问题,大致每选择5个就能够选择覆盖这些所有的类判别的特征量集。即,示出了本发明中公开的方法的、将特征选择归结到集合覆盖问题,并对其进行扩展所带来的效果大,在多类分类问题中,能够高效地提高最小覆盖数。并且,由图17可知,通过对所获得的特征量集进行微调整,能够创建以整体的特征量的极少一部分,具体而言,以所需要的最小覆盖数的5倍以下显示高判别能力的特征量集,以这样少的个数充足最小覆盖数的特征量集具有很大的价值。
<最小覆盖数与最小F值的关系>
将选择特征量集中的最小覆盖数与最小F值(判别对象类中,测试数据中的判别能力F值的最小值)的关系示于图18的曲线图。
[数式21]
Figure BDA0003794453650000302
由此可知,在最小覆盖数为0的情况下,几乎不能发挥性能,在最小覆盖数5前后,最小F值成为0.8,在最小覆盖数10前后成为0.85,在最小覆盖数60前后成为0.9。即,首先,可知若不选择最小覆盖数为至少1以上的特征量集,则几乎不能发挥性能。并且,实际要求的F值的详细基准当然因问题而异,由于0.80、0.85、0.90是容易理解的基准,因此最小覆盖数为5以上或10以上或60以上的特征量集具有价值。与前项(选择特征量的个数与最小覆盖数的关系)结合,通过本发明能够实现的“以比较少的选择特征量的个数(所提示的最小覆盖数的5倍以下)实现覆盖数”特别有价值。
另外,针对上述“甲基化位置和活体组织分类”的实施例仅为具体的事例之一。本发明的方法已经充分被泛化,能够适用于除了生物领域以外的任意的特征量选择及多类分类。例如,在对拍摄到图像中的人物进行类分类(例如,亚洲、大洋洲、北美、南美、东欧、西欧、中东、非洲)时,能够根据面部的大小或形状、肤色、发色、和/或眼睛、鼻子、嘴的位置、大小、形状等大量的特征量,通过本发明的方法选择特征量,使用所选择的特征量进行多类分类。并且,也可以将本发明的方法适用于农林渔业产品或工业产品、或者针对各种统计数据的特征量选择及类分类。
以上对本发明的实施方式及其他例子进行了说明,但本发明并不限定于上述方式,在不脱离本发明的精神的范围内能够进行各种变形。
符号说明
10-多类分类装置,100-处理部,102-输入处理部,104-选择处理部,106-定量化处理部,108-优化处理部,110-判定处理部,112-获取处理部,114-类判定处理部,115-输出处理部,116-CPU,118-ROM,120-RAM,200-存储部,300-显示部,310-监视器,400-操作部,410-键盘,420-鼠标,NW-网络,S100~S124-多类分类方法的各处理。

Claims (42)

1.一种特征量选择方法,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对未知所属的类的未知样品的类判定所需的特征量组,
所述选择工序具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化;及
优化工序,针对所有所述成对耦合,统计所定量化的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合。
2.根据权利要求1所述的特征量选择方法,其中,
所述选择工序还具有:
第1标记工序,将所述给定类中的一部分标记为不需要相互判别的第1不需要判别类组;及
第1排除工序,从展开的成对耦合中排除所标记的所述第1不需要判别类组彼此之间的所述成对耦合。
3.根据权利要求1或2所述的特征量选择方法,其中,
所述选择工序具有:
相似性评价工序,根据各特征量的针对各成对耦合的可判别性来评价特征量之间的相似性;及
优先级设定工序,根据所述相似性的评价结果来设定应选择的特征量的优先级。
4.根据权利要求3所述的特征量选择方法,其中,
所述相似性是针对各成对耦合的可判别性的重复关系和/或包含关系。
5.根据权利要求3或4所述的特征量选择方法,其中,
所述相似性是针对各成对耦合的可判别性矢量之间的距离或基于所述距离的度量值。
6.根据权利要求1至5中任一项所述的特征量选择方法,其还具有:
选择个数输入工序,输入所述选择工序中的特征量的选择个数M,
所述优化是基于M个选择特征量的所有成对耦合中的统计值的最小值的最大化。
7.根据权利要求1至6中任一项所述的特征量选择方法,其中,
所述优化工序还具有:
重要性输入工序,输入类或成对判别的重要性;及
加权赋予工序,在所述统计时,赋予基于所述重要性的加权。
8.根据权利要求1至7中任一项所述的特征量选择方法,其中,
在所述选择工序中选择的特征量的个数为25个以上。
9.根据权利要求8所述的特征量选择方法,其中,
在所述选择工序中选择的特征量的个数为50个以上。
10.根据权利要求9所述的特征量选择方法,其中,
在所述选择工序中选择的特征量的个数为100个以上。
11.一种特征量选择程序,其使计算机执行权利要求1至10中任一项所述的特征量选择方法。
12.一种记录介质,其为非临时性且计算机可读取的记录介质,且记录有权利要求11所述的特征量选择程序。
13.一种多类分类方法,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类方法具有:
所述输入工序及所述选择工序,使用权利要求1至10中任一项所述的特征量选择方法执行;及
判定工序,根据所选择的特征量组来进行针对所述未知样品的所述类判定,所述判定工序具有获取所选择的特征量组的特征量值的获取工序及根据所获取的特征量值来进行所述类判定的类判定工序,
在所述判定工序中,通过构成与所述成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对所述未知样品的所述类判定。
14.根据权利要求13所述的多类分类方法,其中,
在所述定量化工序中,利用进行了所述成对耦合的类之间的所述学习数据集中的特征量的统计上的显著差。
15.根据权利要求13或14所述的多类分类方法,其中,
在所述定量化工序中,当基于参考所述学习数据集而设定的阈值给定属于进行了所述成对耦合的类中的任一个的未知样品的特征量时,利用能够根据所述给定的特征量正确地判别所述未知样品所属的类的概率。
16.根据权利要求13至15中任一项所述的多类分类方法,其中,
在所述定量化工序中,所述可判别性的定量化值是根据特征量个数对统计概率值进行多重检验校正后的值。
17.根据权利要求13至16中任一项所述的多类分类方法,其还具有:
子类设定工序,根据给定特征量从所述学习数据集对属于类的1个以上的样品进行聚类,由此形成簇,将所形成的各簇设定为各类中的子类;
第2标记工序,将各类中的所述各子类标记为在所述各类中不需要相互判别的第2不需要判别类组;及
第2排除工序,从展开的成对耦合中排除所标记的所述第2不需要判别类组彼此之间的所述成对耦合的展开。
18.根据权利要求13至17中任一项所述的多类分类方法,其中,
所述统计是所述可判别性的定量值的合计值或平均值的计算。
19.根据权利要求13至18中任一项所述的多类分类方法,其还具有:
目标阈值输入工序,输入表示所述统计的结果的统计值的目标阈值T,
所述优化是将基于选择特征量的所有成对耦合中的所述统计值的最小值设为所述目标阈值T以上。
20.根据权利要求13至19中任一项所述的多类分类方法,其中,
在所述判定工序中,
分别构成与各成对耦合建立关联地利用选择特征量组的二进制类判别器,
组合所述二进制类判别器来构成所述多类判别器。
21.根据权利要求13至20中任一项所述的多类分类方法,其还具有:
通过二进制类判别器评价样品与各类的相似度的工序;及
根据所述相似度来构成所述多类判别器的工序。
22.根据权利要求13至21中任一项所述的多类分类方法,其还具有:
通过二进制类判别器评价样品与各类的相似度的工序;及
通过在所述相似度在上位的类之间重新适用在所述类之间用于所述相似度的评价的所述二进制类判别器,来构成所述多类判别器的工序。
23.根据权利要求13至22中任一项所述的多类分类方法,其中,
在所述判定工序中,
构成与各成对耦合建立关联地利用选择特征量组的决策树,
组合1个以上的所述决策树来构成多类判别器。
24.根据权利要求23所述的多类分类方法,其中,
在所述判定工序中,由所述决策树及所述决策树的组合构成所述多类判别器作为随机森林。
25.根据权利要求13至24中任一项所述的多类分类方法,其中,
通过测量活体组织片的组学信息,从所述N个类中判定所述活体组织片所属的类。
26.根据权利要求13至25中任一项所述的多类分类方法,其中,
通过测量活体组织片的组学的开关状态信息,从所述N个类中判定所述活体组织片所属的类。
27.根据权利要求13至26中任一项所述的多类分类方法,其中,
应判别的类的个数为10个以上。
28.根据权利要求27所述的多类分类方法,其中,
应判别的类的个数为25个以上。
29.一种多类分类程序,其使计算机执行权利要求13至28中任一项所述的多类分类方法。
30.一种记录介质,其为非临时性且计算机可读取的记录介质,且记录有权利要求29所述的多类分类程序。
31.一种特征量选择装置,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择装置具备第1处理器,
所述第1处理器进行如下处理:
输入处理,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择处理,根据所述学习数据集,从所述特征量组中选择针对未知所属的类的未知样品的类判定所需的特征量组,
所述选择处理具有:
定量化处理,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化;及
优化处理,针对所有所述成对耦合,统计所定量化的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合。
32.一种多类分类装置,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类装置具备:
权利要求31所述的特征量选择装置;及
第2处理器,
所述第2处理器进行如下处理:
所述输入处理及所述选择处理,使用所述特征量选择装置;及
判定处理,根据所选择的特征量组来进行针对所述未知样品的所述类判定,所述判定处理具有获取所选择的特征量组的特征量值的获取处理及根据所获取的特征量值来进行所述类判定的类判定处理,
在所述判定处理中,通过构成与所述成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对所述未知样品的所述类判定。
33.一种特征量集,其用于多类分类装置判定样品属于2个以上的N个类中的哪一个,所述特征量集具备:
属于成为对象的各类的样品的特征量数据集,
在通过将所述N个类中的2个进行组合的成对耦合,参考所述特征量数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别。
34.根据权利要求33所述的特征量集,其中,
在通过将所述N个类中的2个进行组合的成对耦合,参考所述特征量数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少5个以上的特征量进行判别。
35.根据权利要求34所述的特征量集,其中,
在通过将所述N个类中的2个进行组合的成对耦合,参考所述特征量数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少10个以上的特征量进行判别。
36.根据权利要求35所述的特征量集,其中,
在通过将所述N个类中的2个进行组合的成对耦合,参考所述特征量数据集对基于所选择的特征量组的各特征量的所述2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少60个以上的特征量进行判别。
37.根据权利要求33至36中任一项所述的特征量集,其中,
所选择的特征量的个数为所提示的最小覆盖数的5倍以下。
38.根据权利要求33至37中任一项所述的特征量集,其中,
应判别的类的个数为10个以上。
39.根据权利要求38所述的特征量集,其中,
应判别的类的个数为25个以上。
40.根据权利要求33至39中任一项所述的特征量集,其中,
所选择的特征量的个数为25个以上。
41.根据权利要求40所述的特征量集,其中,
所选择的特征量的个数为50个以上。
42.根据权利要求41所述的特征量集,其中,
所选择的特征量的个数为100个以上。
CN202180014238.8A 2020-02-13 2021-02-05 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集 Pending CN115104028A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020022822 2020-02-13
JP2020-022822 2020-02-13
PCT/JP2021/004193 WO2021161901A1 (ja) 2020-02-13 2021-02-05 特徴量選択方法、特徴量選択プログラム、マルチクラス分類方法、マルチクラス分類プログラム、特徴量選択装置、マルチクラス分類装置、及び特徴量セット

Publications (1)

Publication Number Publication Date
CN115104028A true CN115104028A (zh) 2022-09-23

Family

ID=77291427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180014238.8A Pending CN115104028A (zh) 2020-02-13 2021-02-05 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集

Country Status (5)

Country Link
US (1) US20220391718A1 (zh)
EP (1) EP4105881A4 (zh)
JP (1) JP7507845B2 (zh)
CN (1) CN115104028A (zh)
WO (1) WO2021161901A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113598759B (zh) * 2021-09-13 2023-09-22 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
EP4411742A1 (en) 2021-09-29 2024-08-07 FUJIFILM Corporation Measurable and preferable feature selection method, program for selecting measurable and preferable feature, and measurable and preferable feature selection device
WO2023171482A1 (ja) 2022-03-09 2023-09-14 富士フイルム株式会社 方法、装置及びプログラム
WO2024079820A1 (ja) * 2022-10-12 2024-04-18 日本電気株式会社 学習装置、学習方法、プログラム、および分類装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008139825A1 (ja) 2007-05-08 2008-11-20 Olympus Corporation 画像処理装置および画像処理プログラム
WO2010043348A2 (en) 2008-10-13 2010-04-22 Roche Diagnostics Gmbh Algorithms for classification of disease subtypes and for prognosis with gene expression profiling
US8140450B2 (en) 2009-03-27 2012-03-20 Mitsubishi Electric Research Laboratories, Inc. Active learning method for multi-class classifiers
JP2011181016A (ja) 2010-03-04 2011-09-15 Fujifilm Corp 判別器生成装置および方法並びにプログラム
US8429101B2 (en) 2010-12-07 2013-04-23 Mitsubishi Electric Research Laboratories, Inc. Method for selecting features used in continuous-valued regression analysis
WO2012111235A1 (ja) 2011-02-17 2012-08-23 日本電気株式会社 情報処理装置、情報処理方法及び記憶媒体
US9947322B2 (en) 2015-02-26 2018-04-17 Arizona Board Of Regents Acting For And On Behalf Of Northern Arizona University Systems and methods for automated evaluation of human speech

Also Published As

Publication number Publication date
JP7507845B2 (ja) 2024-06-28
US20220391718A1 (en) 2022-12-08
JPWO2021161901A1 (zh) 2021-08-19
WO2021161901A1 (ja) 2021-08-19
EP4105881A1 (en) 2022-12-21
EP4105881A4 (en) 2023-08-09

Similar Documents

Publication Publication Date Title
CN115104028A (zh) 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集
US10713590B2 (en) Bagged filtering method for selection and deselection of features for classification
US20170091937A1 (en) Methods and systems for assessing risk of breast cancer recurrence
US20160070950A1 (en) Method and system for automatically assigning class labels to objects
JP6715451B2 (ja) マススペクトル解析システム,方法およびプログラム
Ahmad et al. Classifying breast cancer types based on fine needle aspiration biopsy data using random forest classifier
US20240233416A1 (en) Analysis of histopathology samples
US9563744B1 (en) Method of predicting development and severity of graft-versus-host disease
JPWO2021161901A5 (zh)
Lee et al. Statistical file matching of flow cytometry data
Valkonen et al. Dual structured convolutional neural network with feature augmentation for quantitative characterization of tissue histology
Carter et al. Information preserving component analysis: Data projections for flow cytometry analysis
JP7551231B2 (ja) 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに記録媒体
Janowczyk et al. Hierarchical normalized cuts: Unsupervised segmentation of vascular biomarkers from ovarian cancer tissue microarrays
Tosato et al. A re-evaluation of pedestrian detection on riemannian manifolds
de Oliveira Martins et al. Classification of breast masses in mammogram images using Ripley’s K function and support vector machine
Bhojane et al. Liver Lesion Detection from MR T1 In-Phase and Out-Phase Fused Images and CT Images Using YOLOv8
Fonseca et al. Screening of viral pneumonia and covid-19 in chest x-ray using classical machine learning
Sarikoc et al. An automated prognosis system for estrogen hormone status assessment in breast cancer tissue samples
Ghashghaei et al. Grayscale Image Statistical Attributes Effectively Distinguish the Severity of Lung Abnormalities in CT Scan Slices of COVID-19 Patients
Yu Breast cancer prediction using machine learning algorithm
Mohammed et al. Feature Selection and Comparative Analysis of Breast Cancer Prediction Using Clinical Data and Histopathological Whole Slide Images.
Fuchs et al. Randomized tree ensembles for object detection in computational pathology
Bertram et al. Dataset on bi-and multi-nucleated tumor cells in canine cutaneous mast cell tumors
Farooq et al. Predicting environment effects on breast cancer by implementing machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination