CN116210011A - 特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集 - Google Patents
特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集 Download PDFInfo
- Publication number
- CN116210011A CN116210011A CN202180065072.2A CN202180065072A CN116210011A CN 116210011 A CN116210011 A CN 116210011A CN 202180065072 A CN202180065072 A CN 202180065072A CN 116210011 A CN116210011 A CN 116210011A
- Authority
- CN
- China
- Prior art keywords
- class
- feature
- classes
- feature quantity
- selection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 273
- 238000010187 selection method Methods 0.000 title claims abstract description 58
- 230000008569 process Effects 0.000 claims abstract description 121
- 238000012545 processing Methods 0.000 claims description 121
- 238000010168 coupling process Methods 0.000 claims description 90
- 238000005859 coupling reaction Methods 0.000 claims description 90
- 230000008878 coupling Effects 0.000 claims description 84
- 238000011002 quantification Methods 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 39
- 238000005457 optimization Methods 0.000 claims description 28
- 230000000670 limiting effect Effects 0.000 claims description 14
- 230000008030 elimination Effects 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 238000013459 approach Methods 0.000 claims description 8
- 238000012854 evaluation process Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000004378 air conditioning Methods 0.000 claims 35
- 239000000523 sample Substances 0.000 description 152
- 206010028980 Neoplasm Diseases 0.000 description 63
- 238000012937 correction Methods 0.000 description 63
- 201000011510 cancer Diseases 0.000 description 51
- 210000001519 tissue Anatomy 0.000 description 44
- 238000010586 diagram Methods 0.000 description 35
- 238000005259 measurement Methods 0.000 description 26
- 238000009826 distribution Methods 0.000 description 25
- 238000012360 testing method Methods 0.000 description 19
- 230000011987 methylation Effects 0.000 description 16
- 238000007069 methylation reaction Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 13
- 238000011528 liquid biopsy Methods 0.000 description 13
- 210000004369 blood Anatomy 0.000 description 12
- 239000008280 blood Substances 0.000 description 12
- 230000000694 effects Effects 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 238000003860 storage Methods 0.000 description 10
- 238000007796 conventional method Methods 0.000 description 9
- 230000002829 reductive effect Effects 0.000 description 9
- 230000007067 DNA methylation Effects 0.000 description 8
- 201000010099 disease Diseases 0.000 description 8
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 8
- 238000001574 biopsy Methods 0.000 description 6
- 125000004122 cyclic group Chemical group 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 210000000056 organ Anatomy 0.000 description 6
- 239000012472 biological sample Substances 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000000528 statistical test Methods 0.000 description 4
- 238000006467 substitution reaction Methods 0.000 description 4
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 3
- 238000000692 Student's t-test Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007717 exclusion Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 208000015486 malignant pancreatic neoplasm Diseases 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 201000002528 pancreatic cancer Diseases 0.000 description 3
- 208000008443 pancreatic carcinoma Diseases 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000012353 t test Methods 0.000 description 3
- 206010067125 Liver injury Diseases 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 208000005718 Stomach Neoplasms Diseases 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 206010017758 gastric cancer Diseases 0.000 description 2
- 231100000234 hepatic damage Toxicity 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000008818 liver damage Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 201000011549 stomach cancer Diseases 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 206010008342 Cervix carcinoma Diseases 0.000 description 1
- 206010009944 Colon cancer Diseases 0.000 description 1
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 1
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 235000003332 Ilex aquifolium Nutrition 0.000 description 1
- 241000209027 Ilex aquifolium Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010241 blood sampling Methods 0.000 description 1
- 201000010881 cervical cancer Diseases 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 210000005228 liver tissue Anatomy 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000004549 pulsed laser deposition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 210000001685 thyroid gland Anatomy 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 239000000439 tumor marker Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的目的在于,提供一种能够根据所选择的一部分的特征量的值将具有多个特征量的样品稳健且高精度地分类为多个类中的任一个的多类分类方法、多类分类程序、及多类分类装置。并且,本发明的目的在于提供一种用于这样的多类分类的特征量选择方法、特征量选择程序、及特征量选择装置、以及特征量集。在本发明中,处理伴随特征量选择的多类分类问题。特征量选择是预先按照字面意思对样品所具备的大量的特征量中的用于后续的各处理即在本发明中尤其是多类分类所需的特征量进行取舍选择的方法。多类分类是确定给定的未知样品属于多个类中的哪一个的判别问题。
Description
技术领域
本发明涉及一种选择特征量并且根据所选择的特征量的值将样品分类为多个类中的任一个的多类分类方法、多类分类程序、及多类分类装置、以及用于这样的多类分类的特征量选择方法、特征量选择程序、特征量选择装置、以及特征量集。
背景技术
近年来,机器学习在产业领域中的应用或展开取得了进展,但特征选择及多类分类仍然是大课题。存在各种特征选择方法,但提出了关注类的成对耦合的事例(参考下述“非专利文献1”)。具体而言,非专利文献1中记载的技术是关注基本的类分类为类数2个的“二进制类分类”,进行类的成对耦合,关注并选择特征量的判别能力的方法。
并且,作为多类分类的方法,例如已知有重复进行2类判别的OVO方式(One-Versus-One:一对一)。
并且,例如在生物领域中,也以癌等为对象,积极地研究了特征选择及多类分类的方法。大体上是通常的机器学习方法的应用,例如,适用了基于t检验或信息增益等的特征选择的方法、基于SVM(Support Vector Machine:支持向量机)、随机森林、朴素贝叶斯等的分类方法。这样的技术例如记载于专利文献1中。
以往技术文献
非专利文献
非专利文献1:“Feature selection for multi-class classification usingpairwise class discriminatory measure and covering concept”,Hyeon Ji等,ELECTRONICS LETTERS,16th March 2000,vol.36,No.6,p.524-525
专利文献
专利文献1:日本特表2012-505453号公报
发明内容
发明要解决的技术课题
非专利文献1中记载的研究仅停留特征选择,在后续的多类分类中直接使用现有的方法。并且,关于本发明,未明示如后述的对集合覆盖问题的扩展。并且,未进行用于选择稳健性的特征量的特征量之间的独立性的验证等,而且,仅设想基本的多类分类,也未导入不需要判别的类等。因此,难以直接适用于扩展性多类分类。同样地,在专利文献1中记载的技术中,也未考虑将判别所需的基因组作为集合覆盖问题进行详查。
并且,在重复进行2类判别来进行多类分类的方法中,在投票法中已指出“上位的排序不可信”的问题。并且,在淘汰层级法中已指出“难以确定比较顺序”的问题。
在生物领域中的特征量选择及多类分类的情况下,在报告多的基于mRNA表达水平的事例中,存在“当处理类数达到10左右时,精度下降”的课题。例如,在根据突变信息开发的多类癌分类器的报告之一中,结果为超过F值0.70,能够判别的癌有5种。还研究了基于DNA甲基化的特征选择及多类分类。然而,适用类停留在少量的小规模的样品尺寸的试验。
近年来,也出现应用深层学习的研究,但由于组学数据本身的欠定性,学习无法顺利进行(相对于参数数,样品尺寸小;相对于存在几十万处甲基化位点,能够获得的肿瘤记录即使是开放数据也小于1万个),假设即使成功,例如在诊断用途等中,由于无法明确判别的理由,因此也存在难以接受的课题。
如此,现有技术中,无法根据所选择的一部分的特征量的值将具有多个特征量的样品稳健且高精度地分类为多个类中的任一个。
本发明是鉴于这样的情况而完成的,其目的在于,提供一种能够根据所选择的一部分的特征量的值将具有多个特征量的样品稳健且高精度地分类为多个类中的任一个的多类分类方法、多类分类程序、及多类分类装置。并且,本发明的目的在于提供一种用于这样的多类分类的特征量选择方法、特征量选择程序、及特征量选择装置、以及特征量集。
用于解决技术课题的手段
本发明的第1方式所涉及的特征量选择方法选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,该特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及统计工序,针对N个类中的不包含基类的第1类及第2类的成对耦合,针对具有在定量化工序中定量化后的可判别性的特征量,进一步对第1类与基类的成对可判别性、及第2类与基类的成对可判别性进行统计,在优化工序中,评价在统计工序中统计的结果的平衡度,选择特征量组的组合。
另外,在本发明中,在将在基类试样中混合存在目标类试样的试样作为给定样品而提供的情况下,将检测出在给定样品中混合存在目标类的情况称为“判定(分类)为给定样品属于目标类”。并且,将未检测出混合存在的情况称为“判定(分类)为给定样品属于基类”。
本发明的第2方式所涉及的特征量选择方法选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,该特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序还具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定工序,预先用另行标准从N个类中指定2个以上的基类;及限定工序,将特征量组的选择对象限定为没有指定的所有的基类彼此之间的可判别性的特征量。
第3方式所涉及的特征量选择方法在第1或第2方式中,还具有:第1标记工序,将给定类中的一部分标记为不需要相互判别的第1不需要判别类组;及第1排除工序,从展开的成对耦合中排除标记出的第1不需要判别类组彼此之间的成对耦合,将属于N个类且被指定为不需要与基类的判别的类组的类排除在平衡选择的对象外。
本发明的第4方式所涉及的特征量选择程序使计算机执行选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法,特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及统计工序,针对N个类中的不包含基类的第1类及第2类的成对耦合,针对具有在定量化工序中定量化后的可判别性的特征量,进一步对第1类与基类的成对可判别性、及第2类与基类的成对可判别性进行统计,在优化工序中,评价在统计工序中统计的结果的平衡度,选择特征量组的组合。
本发明的第5方式所涉及的特征量选择程序使计算机执行选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法,特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序还具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定工序,预先用另行标准从N个类中指定2个以上的基类;及限定工序,将特征量组的选择对象限定为没有指定的所有的基类彼此之间的可判别性的特征量。
本发明的第6方式所涉及的特征量选择装置选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,特征量选择装置具备处理器,处理器执行:输入处理,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择处理,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择处理具有:定量化处理,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化处理,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定处理,预先用另行标准从N个类中指定1个以上的基类;及统计处理,针对N个类中的不包含基类的第1类及第2类的成对耦合,针对具有在定量化处理中定量化后的可判别性的特征量,进一步对第1类与基类的成对可判别性、及第2类与基类的成对可判别性进行统计,在优化处理中,处理器评价在统计处理中统计的结果的平衡度,选择特征量组的组合。
本发明的第7方式所涉及的特征量选择装置选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,特征量选择装置具备处理器,处理器执行:输入处理,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择处理,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择处理还具有:定量化处理,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;优化处理,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合;基类指定处理,预先用另行标准从N个类中指定2个以上的基类;及限定处理,将特征量组的选择对象限定为没有指定的所有的基类彼此之间的可判别性的特征量。
本发明的第8方式所涉及的多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类方法具有:获取工序,根据使用第1或第2方式所涉及的特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类工序,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,多类分类工序还包括:基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及第1评价工序,在基类和作为除了基类以外的任意的类的第1类的二进制类分类工序中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多。
本发明的第9方式所涉及的多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类方法具有:获取工序,根据使用特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类工序,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,多类分类工序还包括:基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及第1评价工序,在基类和作为除了基类以外的任意的类的第1类的二进制类分类工序中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多,特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合。
另外,在第8及第9方式中,作为特征量的加权的方法,例如能够使用后述的第11~第16方式。
图1是本发明处理的伴随特征量选择的多类分类问题的示意图。特征选择(步骤1)是预先按照字面意思对样品所具备的大量的特征量中的用于后续的各处理(在本发明中尤其是多类分类)所需的特征量进行取舍选择的方法(第1至第3方式中的任一方式所涉及的特征量选择方法)。即,预先在规定的数据集(所谓的学习数据集)中获取大量的特征量,根据其信息,分选后续的各处理所需的特征量(特征量集)。并且,在实际给定(未知的)样品时,仅参考预先选择的少量的特征量(特征量集),进行多类分类。另外,此时,由于根据仅在学习数据集中选择的特征量对未知样品进行分类,因此当然优选特征量稳健。
特征选择尤其在为了参考(包括获取、保存等)样品的特征量而需要成本(包括时间、费用等)的情况下有用。因此,例如,参考学习数据的特征量的机构与参考未知样品的特征量的机构可以不同,也可以在选择少量的特征量的基础上,开发并准备与其适合的特征量获取机构。
另一方面,多类分类(步骤2)是确定给定的未知样品属于多个类中的哪一个的判别问题,在机器学习中是一般的问题。但是,许多现实的多类分类并不一定是简单地选择N个类中的1个的问题。例如,即使实际上存在多个类,也存在不需要其判别本身的情况。相反,例如,也存在状态不同的多个样品组混合存在于某个标记为1类的样品集中。优选为能够耐受这样的复杂的扩展性多类分类的方法。
作为最简单的特征选择方法,也可以考虑用学习数据集评价从成为候补的大量的特征量中选择少量特征量的所有选择方法,但由于存在对学习数据集成为过度学习的危险性,候补数庞大而无法完全评价,因此需要某种框架。
示出将本发明的1个方式(伴随特征选择的多类分类)适用于生物领域的例子。癌或身体组织中分别存在固有的DNA甲基化模式。并且,人的血液中混入有从身体组织游离的DNA(Cell Free DNA:cfDNA),尤其也检测出来源于癌的cfDNA。因此,若分析cfDNA的甲基化模式,则能够判定有无癌,而且,若存在癌,则能够确定原发灶。即,实现通过采血进行早期癌筛查,引导到适当的精密检查。
因此,根据DNA甲基化模式判别“是癌还是非癌”及来源组织的问题极其重要。这能够定义为从血液或正常组织判别癌的多类分类问题。然而,人的器官涉及多种(例如主要癌8种、正常组织20种以上),癌存在亚型,即使是相同器官的癌,其状态也相互不同,因此可以说是很难的分类问题。
此外,从提供给筛查的设想出发,希望抑制测量成本,因此无法直接利用全面测量甲基化位点的昂贵的阵列。因此,必须事先从几十万处以上的DNA甲基化位点中筛选判别所需的少量位点,即需要在前一阶段进行特征选择。
因此,构建从庞大的DNA甲基化位点筛选少量,根据该少量位点能够从正常组织中判别癌,并且还确定来源组织的特征选择及多类分类的方法的技术(本发明中提出的方法)有用。另外,从例如30万处的DNA甲基化位点中选择例如300处时的数量超过10的1,000次方,因此可知不能使用全面的探索方法。
因此,本申请发明人列举如有助于稳健性的判别的开关(Switch)那样发挥作用的DNA甲基化位点,且提出基于组合探索的特征选择方法,该组合探索充分覆盖所需要的类的成对判别。而且,提出仅使用选择位点中的稳健性的判别部位,由简单的二进制分类器结合淘汰层级法构成多类分类器的方法。
由此,能够应对伴随穿插现实问题的各种特性的特征选择的多类分类。实际上,能够适用于例如关于上述癌诊断的例子中出现的、癌和正常加起来远超过10个类的多类分类。本申请发明人提出的特征量选择及多类分类的方法在产业上极其有用。
另外,本说明仅为具体事例之一,本发明的第8、第9方式并不仅能够适用于生物领域。实际上,如许多通常的机器学习技术也能够适用于生物领域那样,即使将生物领域中开发的技术适用于通常的机器学习问题也无妨。
第10方式所涉及的多类分类方法在第8或第9方式中,还具有:标记工序,将给定类的一部分标记为不需要相互判别的不需要判别类组;及排除工序,从展开的成对耦合中排除标记出的不需要判别类组彼此之间的成对耦合,将属于N个类且被指定为不需要与基类进行判别的类组的类作为基类进行多类分类工序。
第11方式所涉及的多类分类方法在第8至第10方式中的任一方式中,还具有:参考工序,对于在属于N个类的任意的第2类及第3类的成对耦合中具有可判别性的特征量,进一步参考第2类与基类的成对可判别性、及第3类与基类的成对可判别性;第2评价工序,参考的结果,在对于第2类具有第2类与基类的成对可判别性,且特征量的值接近第2类的情况下,进行加权,以使二进制类分类工序的判别结果成为第2类的事例变多;及第3评价工序,参考的结果,在对于第3类具有第3类与基类的成对可判别性,且特征量的值接近第3类的情况下,进行加权,以使二进制类分类工序的判别结果成为第3类的事例变多。
第12方式所涉及的多类分类方法在第11方式中,还具有构成工序,该构成工序通过以下工序由二进制类分类器构成多类分类器:目标值设定工序,设定样品的误分类概率的目标值;第1概率评价工序,评价原本属于基类的样品通过加权被误分类为除了基类以外的任意的其他类的概率即第1误分类概率;第2概率评价工序,评价原本属于其他类的样品被误分类为基类的概率即第2误分类概率;及加权调整工序,调整加权,以使第1误分类概率及第2误分类概率落入目标值,或使第1误分类概率及第2误分类概率与目标值之间的偏移量变小,在多类分类工序中,使用构成的多类分类器进行多类分类。另外,在第8方式中,可以在第1误分类概率和第2误分类概率中将目标值设定为不同的值,也可以针对每个类而目标值不同。
第13方式所涉及的多类分类方法在第12方式中,还具有构成工序,该构成工序通过以下工序由二进制类分类器构成多类分类器:评价参数设定工序,设定误分类评价参数,误分类评价参数是样品的误分类概率的目标值、对于不是基类的任意的第1类与基类的成对耦合具有可判别性的特征量的个数、特征量的可靠性、及设想的特征量的缺失率中的一部分或全部;及加权设定工序,将加权设定在根据误分类评价参数计算的加权范围内,在多类分类工序中,使用构成的多类分类器进行多类分类。
第14的方式所涉及的多类分类方法在第13方式中,在加权设定工序中,通过从任意的第1学习数据集学习误分类评价参数的一部分或全部来设定加权。第1学习数据集也可以与用于特征量选择的学习数据集相同。
第15方式所涉及的多类分类方法在第11至第14方式中的任一方式中,在加权设定工序中,根据任意的第2学习数据集设定加权,以提高多类分类的性能。第2学习数据集也可以与用于特征量选择的学习数据集相同。
第16方式所涉及的多类分类方法在第11至第15方式中的任一方式中,还包括:第1警告工序,在以加权的量不能使多类分类的性能落入性能目标的情况下,向用户发出警告;或第2警告工序,在预测为即使不进行加权也能够实现性能目标的情况下,向用户发出警告。
本发明的第17方式所涉及的多类分类程序使计算机执行多类分类方法,该多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类方法具有:获取工序,根据使用第1或第2方式所涉及的特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类工序,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,多类分类工序还包括:基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及第1评价工序,在基类和作为除了基类以外的任意的类的第1类的二进制类分类工序中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多。
本发明的第18方式所涉及的多类分类程序使计算机执行多类分类方法,该多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类方法具有:获取工序,根据使用特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类工序,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,多类分类工序还包括:基类指定工序,预先用另行标准从N个类中指定1个以上的基类;及第1评价工序,在基类和作为除了基类以外的任意的类的第1类的二进制类分类工序中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多,特征量选择方法具有:输入工序,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择工序,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择工序具有:定量化工序,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化工序,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合。
本发明的第19方式所涉及的多类分类装置在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类装置具备处理器,处理器执行:获取处理,根据使用第1或第2方式所涉及的特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类处理,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类处理,多类分类处理还包括:基类指定处理,预先用另行标准从N个类中指定1个以上的基类;及第1评价处理,在基类和作为除了基类以外的任意的类的第1类的二进制类分类处理中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多。
本发明的第20方式所涉及的多类分类装置在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类装置具备处理器,处理器执行:获取处理,根据使用特征量选择装置选择的特征量组,获取选择的特征量组的特征量值;及多类分类处理,根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类处理,多类分类处理还包括:基类指定处理,预先用另行标准从N个类中指定1个以上的基类;及第1评价处理,在基类和作为除了基类以外的任意的类的第1类的二进制类分类处理中,在给定样品的特征量接近第1类的情况下,进行特征量的加权,以使多类分类的判别结果成为第1类的事例变多,特征量选择装置执行:输入处理,输入由属于成为对象的给定类的已知样品组和已知样品组的特征量组构成的学习数据集;及选择处理,根据学习数据集,从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,选择处理具有:定量化处理,通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化处理,针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合。
本发明的第21方式所涉及的特征量集用于多类分类装置判定给定样品属于2个以上的N个类中的哪一个,预先用另行标准从N个类中指定了1个以上的基类,该特征量集具备属于成为对象的各类的样品的特征量数据集,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别,针对N个类中的不包含基类的第1类及第2类的成对耦合,针对具有定量化后的可判别性的特征量,进一步平衡了第1类与基类的成对可判别性、及第2类与基类的成对可判别性。
附图说明
图1是表示伴随特征量选择的多类分类问题的示意图。
图2是表示多类分类装置的结构的图。
图3是表示处理部的结构的图。
图4是表示多类分类方法的处理的流程图。
图5是表示基于开关性特征量的分类的情况的图。
图6是表示判别开关值的矩阵的图。
图7是表示判别开关值/状态值的确定情况的图。
图8是表示排除不需要判别的类之间的成对展开的图。
图9是表示子类导入的情况的图。
图10是表示制作循环排序的情况的图。
图11是表示决胜淘汰匹配的情况的图。
图12是表示数据集的详细内容的图。
图13是表示本发明与现有方法的判别精度的比较结果的图。
图14是表示本发明与现有方法的稳健性的比较结果的图。
图15是表示选择特征量的个数与判别精度(F值)的关系的图。
图16是表示判别根据的图示例的表。
图17是表示选择特征量的个数与最小覆盖数的关系的图。
图18是表示最小覆盖数与最小F值的关系的表。
图19是表示组织活检和液体活检的图。
图20是用于说明关于液体活检时的特征量选择及多类分类的课题的图。
图21是表示来源于目标的试样存在缺失时的对应的图。
图22是表示关于任意的目标类彼此之间的成对的分数校正的图。
图23是表示加权校正的情况的图。
图24是表示目标彼此之间的标记的比较情况的图。
图25是表示特征量的平衡选择的情况的图。
图26是表示关于第2实施方式的实施例中的测试环境的图。
图27是表示加权校正的效果的图。
图28是表示将校正量设定为上限和下限的中间值的情况的图。
图29是表示加权校正量的学习适应性的图。
图30是表示特征量的平衡选择的效果的图。
具体实施方式
以下,参考附图,对本发明所涉及的特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集的实施方式详细地进行说明。
<第1实施方式>
<多类分类装置的概略结构>
图2是表示第1实施方式所涉及的多类分类装置(多类分类装置、特征量选择装置)的概略结构的图。如图2所示,第1实施方式所涉及的多类分类装置10(特征量选择装置、多类分类装置)具备处理部100(处理器、计算机)、存储部200、显示部300及操作部400,相互连接而收发所需要的信息。对于这些构成要件能够采用各种设置方式,各构成要件可以设置在1处(1框体内、1室内等),也可以设置在相隔的场所并经由网络连接。并且,多类分类装置10(输入处理部102;参考图3)经由互联网等网络NW与外部服务器500及外部数据库510连接,能够根据需要获取多类分类用样品、学习数据集、特征量集等信息。
<处理部的结构>
如图3所示,处理部100具备输入处理部102、选择处理部104、判定处理部110、CPU116(CPU:Central Processing Unit,中央处理器)、ROM118(ROM:Read Only Memory,只读存储器)、RAM120(RAM:Random Access Memor y,存取存储器)。输入处理部102进行从存储部200或网络上的存储装置输入由已知所属的类的已知样品组和已知样品组的特征量组构成的学习数据集的输入处理。选择处理部104进行根据所输入的学习数据集从特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组的选择处理,并且具备定量化处理部106和优化处理部108。判定处理部110根据所选择的特征量组进行针对未知样品的类判定(判定处理),并且具备获取处理部112和类判定处理部114。输出处理部115通过显示、存储、打印等输出处理条件或处理结果。另外,这些各部的处理在CPU116(处理器、计算机)的控制下进行。
上述处理部100的各部的功能能够使用各种处理器(processor)及记录介质来实现。各种处理器例如包括作为执行软件(程序)来实现各种功能的通用的处理器的CPU(Central Processing Unit:中央处理器)。并且,上述各种处理器还包括作为对图像处理特化的处理器的GPU(Graphics Processing Uni t:图形处理单元)、作为FPGA(FieldProgrammable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器的可编程逻辑器件(Progra mmable Logic Device:PLD)。在进行图像的学习或识别的情况下,使用GPU的结构有效。而且,作为具有ASIC(Application Specific Integrated Circuit:专用集成电路)等为了执行特定的处理而专门设计的电路结构的处理器的专用电路也包括在上述各种处理器中。
各部的功能可以通过一个处理器来实现,也可以通过相同种类或不同种类的多个处理器(例如,多个FPGA、或CPU和FPGA的组合、或CPU和GPU的组合)来实现。并且,也可以由一个处理器来实现多个功能。作为由一个处理器构成多个功能的例子,第一,有如下方式:如以计算机为代表那样,由一个以上的CPU和软件的组合构成一个处理器,该处理器作为多个功能来实现。第二,有如下方式:如以片上系统(System On Chip:SoC)等为代表那样,使用由一个IC(Integrated Circuit:集成电路)芯片来实现系统整体的功能的处理器。如此,关于各种功能,使用一个以上的上述各种处理器来作为硬件结构而构成。而且,更具体而言,这些各种处理器的硬件结构为将半导体元件等电路元件组合而成的电路(circuitry)。这些电路也可以是使用逻辑或、逻辑与、逻辑否定、异或、及将它们组合而成的逻辑运算来实现上述功能的电路。
在上述的处理器或电路执行软件(程序)时,将能够由执行的软件的计算机(例如,构成处理部100的各种处理器或电路、和/或它们的组合)读取的代码存储于ROM118等非临时性记录介质中,计算机参考该软件。存储在非临时性记录介质中的软件包含用于执行本发明所涉及的特征量选择方法和/或多类分类方法的程序(特征量选择程序、多类分类程序)及在执行时使用的数据(与学习数据的获取有关的数据、用于特征量选择及类判定的数据等)。代码可以不记录在ROM118,而是记录在各种光磁记录装置、半导体存储器等非临时性记录介质中。在使用软件的处理时,例如RAM120被用作临时性存储区域,并且例如也能够参考存储在未图示的EEPROM(Electronically Erasable and Progra mmable Read OnlyMemory:电可擦可编程只读存储器)中的数据。也可以使用存储部200作为“非临时性记录介质”。
上述结构的处理部100的处理的详细内容在后面叙述。
<存储部的结构>
存储部200由硬盘、半导体存储器等各种存储器件及其控制部构成,能够存储上述学习集、选择处理或类判定处理的执行条件及其结果,特征量集等。特征量集用于多类分类装置10判定样品属于2个以上的N个(N为2以上的整数)类中的哪一个,该特征量集具备属于成为对象的各类的样品的特征量数据集,在通过将N个类中的2个进行组合的成对耦合,参考特征量数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别。该特征量集能够通过第1实施方式所涉及的特征量选择方法(特征量选择装置)中的输入工序(输入处理)及选择工序(选择处理)来生成。
<显示部的结构>
显示部300具备由液晶显示器等显示器构成的监视器310(显示装置),能够显示所获取的学习数据、或选择处理和/或类判定处理的结果。也可以由触摸面板型显示器构成监视器310,接受用户的指示输入。
<操作部的结构>
操作部400具备键盘410及鼠标420,用户能够经由操作部400进行与本发明所涉及的多类分类方法的执行、结果显示等有关的操作。
<1.特征量选择方法及多类分类方法的处理>
图4是表示本发明的特征量选择方法(特征量选择程序)及多类分类方法(多类分类程序)的基本的处理的流程图。本发明的特征量选择方法是选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法。并且,本发明的多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定样品属于N个类中的哪一个,多类分类方法具有:获取工序(步骤S100;获取处理),根据使用特征量选择方法选择的特征量组,获取选择的特征量组的特征量值;及多类分类工序(步骤S110;多类分类处理),根据获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序(二进制类分类处理)。
选择工序具有:定量化工序(步骤S112),通过将N个类中的2个进行组合的成对耦合,根据学习数据集对基于选择出的特征量组的各特征量的2个类之间的可判别性进行定量化;及优化工序(步骤S114),针对所有成对耦合,统计定量化后的可判别性,并选择对统计的结果进行优化的特征量组的组合。并且,在判定工序中,通过构成与成对耦合建立关联地利用所选择的特征量组的多类判别器,进行针对未知样品的类判定。
<2.本发明的基本方针>
本发明尤其优选的是如下情况:取舍选择具有接近二进制值的特性的特征量的情况,通过将这样的特征量如“开关”那样组合来确定类的情况。即,不是与特征量线性或非线性地定量结合的情况,但这不一定简单,在有大量开关的情况下,成为足够复杂的问题。因此,本发明基于“探索及选择具有开关功能的大量的特征量的组合,由简单的分类器构成多类分类器”的方针。
图5是对上述“具有开关功能的特征量”进行说明的图。图5的(a)部分表示根据特征量X'及特征量Y'进行类分类的情况,成为复杂且非线性的分类。与此相对,图5的(b)部分表示根据特征量X及特征量Y进行类分类的情况,成为简单且线性的分类。从高精度且高稳健性的类分类的观点出发,优选选择具有如该图的(b)部分那样的开关功能的特征量。
另外,给定学习数据集,对任何样品赋予共通的多个特征量(例:甲基化位点)的值(另外,作为值,也可以在一部分包含“缺失值”:以下标记为NA)和1个正确类标签(例:癌或非癌、及组织分类)(由输入处理部102进行了学习数据集输入(输入工序、输入处理:步骤S100))。
并且,这里为了简化说明,设置了上述前提,但在未对样品的一部分赋予正确类标签的情况下,也可以引入所谓的半监督学习。由于是与公知的方法的组合,因此简单地表示2个代表性的处理例。能够同时使用(1)作为预处理,根据与赋予正确类标签的样品的数据比较,对未赋予正确类标签的样品赋予某种类标签的方法、(2)循环进行在用暂且赋予类标签的数据进行学习的基础上推算其他未知样品的所属类,将其准确度高的视为“正确标签”,重新增加学习数据进行学习的方法、等。
<2.1特征量的选择方法>
在本节中,对选择处理部104(定量化处理部106、优化处理部108)的特征量的选择(步骤S110:选择工序)进行说明。首先,以简化本发明中的特征量选择(选择工序、选择处理)的原理的情况进行说明。以下,对依次扩展的方法进行说明。最后,总结引入所有扩展的特征量选择的步骤。另外,在本节中提及的特征量当然全部是指学习数据的特征量。
<2.2特征量选择的原理:归结于集合覆盖问题>
首先,对用于多类分类的特征量选择(选择工序)的原理进行说明。在本项中,为了简化,假设属于相同的类的样品的所有特征量的值完全一致,该特征量取二进制(0或1)的确定值。
当将类s的特征量i的值设为Xi (s)时,“能够通过选择特征集合f来判别类s和t”是指任一个特征量不同,即满足以下式(1)。
[数式1]
因此,能够相互判别所有的给定类C={1,2,…,N}的必要充分条件满足以下式(2)。
[数式2]
在此,对类二元关系进行成对展开,对二元组合中的对k={s,t}∈P2(C)导入类s和t的二进制特征量i的异或Yi (k)(参考以下式(3)),称为“判别开关”(图5)。
[数式3]
图6是表示判别开关计算的情况的图。图6的(a)部分是表示针对类A、B、C的二进制特征量#1~#5的值(值为0或1;二进制特征量值)的表,该图的(b)部分表示对类A、B、C进行成对展开而形成对{A,B},{A,C},{B,C}的情况。图6的(c)部分表示针对各对的二进制特征量的异或(值为0或1;判别开关值)。例如,关于对{A,B},特征量#1的判别开关值为0,这表示“在特征量#1中无法判别对{A,B}(无法判别样品属于类A、B中的哪一个)”。与此相对,例如关于对{A,B},特征量#2的判别开关值为1,因此可知“根据特征量#2的值能够判别对{A,B}”。
综上所述,能够相互判别所有的给定类C的必要充分条件可以改写为以下式(4)。
[数式4]
另外,“集合覆盖问题”例如能够定义为“在给定集合U和U的幂集合的子集S时,以至少1次包含(=覆盖)U的所有要素的方式选择S的子集的问题”(也可以是其他定义)。
在此,针对特征量i的开关集合Ii={k|Yi (k)=1}是类的二元组合P2(C)的子集。因此,与所有特征集合F对应的I={Ii|i∈F}是其集合族、P2(C)的幂集合的子集。即,本问题是“在给定P2(C)的幂集合的子集I(与F对应)时,以至少1次包含P2(C)的所有的要素的方式选择I的子集(与f对应)的问题”,即可以视为集合覆盖问题。具体而言,对于成对展开的所有的对,需要选择判别开关值成为至少1个“1”的特征量(和/或其组合)。在图6的事例中,选择“特征量#2,#4”、“特征量#3,#4”、或“特征量#2,#3,#4”即可。另外,在特征量的值为NA的情况下,成对的判别开关值自动为零。
<2.3用可判别性的定量值来代替异或>
在此,若特征量原本是二进制值,则也可以将特征量或其代表值(中央值等)直接视为可判别性。但是,通常特征量并不限于二进制值,即使属于相同的类的样品也可以波动为各种值。因此,优选定量化处理部106(选择处理部104)根据学习数据集的特征量,用可判别性的定量值(定量化值)来代替判别开关值(异或)。
首先,定量化处理部106根据属于类s的样品的特征量i的测量值组,推算类s且特征量i的分布参数θi (s)及分布D(θi (s))(步骤S112:定量化工序)。尤其优选根据分布或分布参数对可判别性进行定量化。另外,对于特征量的值为NA的样品,可以从定量处理中排除等。当然,若所有的样品为NA,则当然不能使用其特征量。
例如,定量化处理部106能够对成对的参数θi (s)与θi (t)之间有无显著差进行统计检验,求出p值,具体而言,能够使用韦尔奇的t检验。韦尔奇的t检验是如下方法:假定正态分布,能够通用地适用的方法(作为图像,根据s和t的特征量分布接近图7的(a)部分和(b)部分中的哪一个来判定显著差)。当然,也可以根据特征量所具有的统计性质、或观测结果和分析结果,适时地采用适当的分布及对应的统计检验法。
图7是表示判别开关值及状态值的确定图像的图。图7的(a)部分是在成对{A,B}的判别中利用特征量的情况,定量化处理部106根据学习数据预先设定阈值(图中的2条纵线的位置的值),根据对象样品的测量值确定判别开关状态值(步骤S112:定量化工序)。若测量值属于分布A侧,则为状态值+1,若属于B侧,则为状态值-1,若属于保留域,则为状态值0。另一方面,图7的(b)部分是原本不将特征量利用于成对{A,B}的判别的情况(Yi ({A,B})=0)。
但是,特征量候补尤其在存在大量的情况下,若在所有特征集合F中重复进行判定,则陷入多重比较检验。因此,优选定量化处理部106将针对相同的成对k={s,t}获得的p值组校正为所谓的q值组(步骤S112:定量化工序)。多重检验校正的方法例如有Bonferroni法或BH法[Benjamini,Y.,and Y.Hochberg,1995]等,更优选为校正为后者的所谓的FDR(False Discovery Rat e:错误发现率)的方法,但并不限于此。
如以下式(5)所示,定量化处理部106将所获得的q值与预先设定的基准值α进行比较,对判别开关分配0或1(尤其,将判别开关为1的情况称为“标记”)。
[数式5]
另外,从扩展集合覆盖问题的立场出发,上述中将判别开关分散化且二进制化,但也可以例如设定为1-q等,处理连续变量。
而且,p值或q值是统计差,并不是能够判别样品的概率,因此定量化处理部106还可以在基于参考学习数据集而设定的适当的阈值,给定属于所成对耦合的类中的任一个的未知样品的特征量时,根据能够通过该特征量正确地判别所属类的概率来进行定量化。并且,定量化处理部106也可以根据特征量个数对这样的统计概率值进行多重检验校正。
并且,不仅是与统计检验相关的基准,例如也可以追加或代替平均值具有一定的差等的基准值等。当然,作为基准,也可以使用除了平均值或标准偏差以外的各种统计量。
<2.4将集合覆盖问题扩展为最小成对覆盖数最大化等优化问题>
在特征量是概率变量的情况下,即使标记了判别开关,也不一定能够准确地判别对应成对。因此,优选扩展集合覆盖问题。
因此,如以下式(6)所示,定量化处理部106(选择处理部104)将判别冗长性作为成对覆盖数Zf (k),统计各个可判别性的定量值(计算合计值作为统计值;步骤S112:定量化工序)。
[数式6]
Zf (k)的定义并不限于式(6)所示。例如,对于连续变量版的-Yi (k),可以作为所有的判别中失败的概率,定义为(1-Yi (k))的乘积,也可以使用某个适当的阈值U,根据Yi (k)计算至少U个判别中成功的概率。并且,也可以计算各个可判别性的平均值。如此,可以考虑各种统计方法。
接着,从“优选尽可能减少判别的瓶颈”的立场出发,优化处理部108(选择处理部104)能够将应选择的特征量的个数设为m,例如通过以下式(7),将特征量选择问题重新归结为最小成对覆盖数的最大化问题(步骤S114:优化工序、优化处理)。
[数式7]
上述是在确定特征量的选择个数时(输入了特征量的选择个数M的情况、即进行了选择个数输入工序/处理的情况)的归结例。相反,优化处理部108(选择处理部104)可以在最小成对覆盖数(可判别性的统计值的最小值)中设定阈值(目标阈值T)(目标阈值输入工序/处理),以满足该阈值的方式选择特征量(步骤S114:优化工序/处理、选择工序/处理)。在该情况下,当然优选选择的特征量的个数更少,尤其优选最小。
或者,将这两者进行组合等,也可以考虑各种优化的方法。
由于集合覆盖问题是一种积极地研究的领域,因此存在各种解决方法。将其扩展的最小覆盖数的最大化问题也能够以大致相同的步骤来应对。但是,由于通常是NP完全问题(NP-complete problem),因此不容易求出严密解。
因此,当然优选求出严密解,按照字面意思解决最小成对覆盖数的最大化问题或以最少特征量实现设定覆盖数的问题,但优化处理部108(选择处理部104)也可以使用通过启发式方法尽可能增加覆盖数,或尽可能减小选择特征量的个数而求出局部最小值的方法。
具体而言,例如,优化处理部108(选择处理部104)可以采用简单的贪婪探索步骤。除了当前选择的特征集合的最小成对覆盖数以外,还可以考虑“依次定义第i小的第i位成对覆盖数,依次选择使更小的i的第i位成对覆盖数最大化的特征量的方法”等。
而且,输入类或成对判别的重要性(步骤S112:定量化工序、重要性输入工序/处理),在优化时,也可以赋予基于该重要性的加权(加权赋予工序/处理)。例如,能够将上述式(7)修改为以下式(8)。
[数式8]
argmax min{Zk/wk}…(8)
在此,wk表示成对判别的重要性。或者,也可以指定类的重要性,设为wk=wswt等,并且根据类的重要性来确定成对的重要性。另外,当然,根据乘积将类的重要性反映到成对的计算式仅为一例,加权的具体计算式也可以是相同主旨的其他方法。
具体而言,例如,在病态组织的判别中,在疾病A与疾病B的判别特别重要,另一方面,疾病B与疾病C的判别不重要的情况下,优选对wk={A,B}设定大的值,对wk={B,C}设定小的值。由此,能够向例如疾病A的早期发现特别重要但症状与疾病B相似的事例、疾病B及疾病C的早期发现不重要且症状相互具有较大差异的事例提供适当的特征量选择或类分类(诊断)的方法。
<2.5相似特征量的排除>
通常,在判别对象类整体中取接近的值的相似性(相似度)高的特征量的相关性高,因此考虑到判别的稳健性,优选避免重复选择。并且,在前项所述的优化的探索中,若能够减少|F|,则能够高效化,因此优化处理部108(选择处理部104)优选根据相似性的评价结果来预先筛选应考虑的特征量(步骤S110:选择工序/处理、相似性评价工序/处理、优先级设定工序/处理)。实际上,例如甲基化位点具有几十万个以上。
在此,将对于特征量i成为Yi (k)=1的k的集合Ii={k|Yi (k)=1}称为“开关集合”。根据该开关集合,能够考虑特征量的相似性(或相似度)、即特征量的同值关系(重复关系)及包含关系。
[数式9]
[数式10]
同值特征集合是将重复性的特征量进行分组而获得的集合,包含特征集合是将从属性的特征量进行分组而获得的集合,若筛选为1个代表特征量,则能够排除相似性高的特征量。因此,例如可以用相似排除特征集合如以下式(11)所示替换所有特征集合F。
[数式11]
当然,选择处理部104可以仅考虑同值特征集合或包含特征集合中的一个作为相似性,也可以创建其他指标。例如,也可以考虑求出特征量之间的矢量距离(可判别性矢量之间的距离),将某个阈值以下的距离视为相似特征量的方法等。除了简单的距离以外,也可以导入将多个特征量的可判别性正规化之后计算距离等任意的距离或基于该距离的度量值。
而且,在上述中实施了筛选,但选择处理部104在进行优化探索时,也可以使用通过降低已经选择相似特征量的特征量的选择优选顺序(优先级)(优先级设定工序)来确定选择容易度的方法。当然,也可以是提高与已经选择的特征量的相似度低的特征量的选择优选顺序(优先级)的(优先级设定工序)方法。
<2.6不需要相互判别的成对(类集合)的导入>
类二元关系相对于给定类数N涉及|P2(C)|=NC2。这是简单地取了类的所有二元关系的情况,但在实际使用上有时存在不需要判别的成对。
例如,在设想癌诊断问题的情况下(参考后述的实施例),必须进行癌组织之间的判别及癌组织与正常组织的判别,但不需要正常组织之间的判别。
因此,选择处理部104可以抑制一部分类二元关系的成对展开。即,根据必须判别的类集合CT和不需要判别的类集合CN(第1不需要判别类组),分割给定类C={c|c∈CT,CN},考虑CT与CT之间、及CT与CN之间(成对展开),另一方面,从类二元关系中排除CN彼此之间的对(步骤S110:选择工序、第1标记工序/处理、第1排除工序/处理)。即,选择处理部104通过以下式(12)计算P2(C)',用P2(C)'替换此前的P2(C)。
[数式12]
P2(C)′=P2(C)\{{s,t}|s≠t∈CN}…(12)
另外,这样的分割或标记也可以存在2个以上。
图8是表示抑制一部分成对展开的情况的图。在图8的例子中,类T1、T2、…、Tm是需要类之间的判别的类组(例:癌组织),类N1、N2、…、Nn是需要判别“不是T(不是癌组织)”但不需要相互判别的类组(例:正常组织)。
在该情况下,选择处理部104在类T之间(例:类T1与T2、类T1与T3等)及类T与类N之间(例:类T1与N1、类T1与N2等)进行成对展开,但在类N之间不进行成对展开。
<2.7从样品的聚类导入子类>
即使对样品赋予了正确类标签,在名称上相同类的样品中实际上有时也混合存在状态不同的多个组。即使只要能够判别名称类就已充分,但由于特征量不一定遵循相同的分布参数,因此也无法正确地赋予判别开关。
例如,癌中也存在亚型,即使是相同器官的癌,也存在相互状态不同的癌[Holm,Karolina,et al.,2010]。但是,在设想适用于筛查(与精密检查同时使用)的情况下,不需要判别亚型。
因此,为了对应于亚型,也可以导入称为子类的不需要相互判别的特殊的类单元(步骤S110:选择工序、子类设定工序/处理、第2标记工序/处理)。
子类能够由样品自动构成。但是,由于难以从单一特征量中进行鉴定,因此考虑选择处理部104按每个类根据所有特征量(给定特征量)对样品进行聚类(形成簇),以适当的簇数L(或最小簇尺寸nC)进行划分,使子类与簇对应的方法。例如,如图9的(a)部分所示,使用所有特征量对属于某个类(在此,类B)的样品进行聚类,根据其结果,如该图的(b)部分所示分割为子类X、Y。在该例子中,若将类B分割为子类X、Y,则能够使用特征量i判别类A和类B的子类Y。但是,也有某个类偶然分为多个子类的情况,在该情况下,强行视为“子类”毫无意义。
另外,由于存在各种聚类方法,因此可以通过其他方法进行聚类,簇的基准也可以设定为各种。
例如,若类J被分割而成为{J1,J2,…,JL}(第2不需要判别类组),则给定类C={1,2,…,J,…,N}能够扩展成如以下式(13)所示。
[数式13]
C+J={1,2,...,J1,J2,...,JL,...,N}…(13)
类二元关系与前项同样地,排除不需要判别的子类彼此之间的对,替换成如以下式(14)所示(第2排除工序)。
[数式14]
P2(C+J)′-J=P2(C+J)′\{{s,t}|s≠t∈J*}…(14)
另外,将包含前项CN在内依次适用的最终的类二元关系设为P2(C+C)'-C。
<2.8特征选择法的步骤总结>
总结本申请发明人提出的特征选择法(选择处理部104的选择工序、选择处理)的步骤。
(i)设定给定类集合C中不需要判别的类集合CN。
(ii)按每个类以所有特征量对样品进行聚类,使所获得的各簇与子类对应(子类是不需要相互判别的特殊的类)。
(i i i)设定除了不需要判别的类二元关系的、成为判别对象的所有类二元关系的成对展开P2(C+C)'-C。
(iv)根据各类的所属样品来推算分布参数,通过统计检验来判定特征量在类对k={s,t}之间的显著差,对判别开关Yi (k={s,t})分配0/1。
(v)由判别开关构成同值特征量集合及包含特征量集合,创建相似排除特征集合F'。
(vi)对于判别对象类的成对展开P2(C+C)'-C整体,从F'中选择使根据判别开关和求出的成对覆盖数Zf (k)的最小值最大化的特征集合f(特征量集)。
但是,上述i~vi为涵盖全部的一例,不一定需要实施上述的全部,可以存在局部不采用的步骤。并且,当然,也可以使用各节中注明或启示的代替方法来构成。另外,多类分类装置10也可以仅执行特征量选择方法的工序(特征量选择方法、特征量选择处理)来获得用于多类分类的特征量集。
<3.多类分类的方法>
在本节中,对类判定处理部114(判定处理部110)所进行的处理(步骤S120:判定工序、判定处理)进行说明。首先,对基于选择出的特征量(选择特征量组、特征量集)的二进制类分类器(二进制类判别器)的结构例(类判定工序、判定工序)进行说明。接着,对由该二进制类分类器通过(1)循环匹配排序、(2)决胜淘汰匹配的两阶段的步骤构成多类分类器(多类判别器)的(构成与成对耦合建立关联地利用选择的特征量组的多类判别器)方法的一例(类判定工序、判定工序)进行说明。
<3.1二进制类分类器的结构>
希望活用选择有助于成对判别的特征量的结构。因此,能够仅根据标记有判别开关的成对和特征量的组合来构成二进制类分类器(分别构成与各成对耦合建立关联地利用选择特征量组的二进制类判别器)。另外,在类分类时,获取处理部112获取所选择的特征量组的特征量值(步骤S122:获取工序、获取处理)。
例如,类判定处理部114(判定处理部110)能够与学习分布进行比较来确定给定样品j(所属类未知)、选择特征量i的针对类成对{s,t}的判别开关状态yi (k=(s,t),j)(步骤S124:类判定工序,参考图7)。首先,根据学习数据推算分布,判断显著差(是图7的(a)部分所示的状态,还是(b)部分所示的状态),在“有显著差”的情况下,预先设定阈值。并且,类判定处理部114仅在选择“有显著差”的情况下,在对给定样品进行分类时,根据特征量的值推算所属分布(或是否存在所属),如以下式(15)所示确定判别开关状态值(步骤S124:类判定工序)。
[数式15]
另外,上式中的“?”表示样品x的所属类未知。并且,在样品的特征量的值为NA的情况下,将y设为0。
类判定处理部114(判定处理部110)对其进行统计来计算判别分数rj(s,t),而且如以下式(16)、(17)所示构成二进制类分类器Bj(s,t)(步骤S124:类判定工序)。
[数式16]
[数式17]
<3.2多类分类的步骤(1):循环匹配排序>
类判定处理部114(判定处理部110)能够对上述判别分数(但是,对判别开关的个数进行正规化,因此优选取其符号值)进一步进行总计,如以下式(18)所示计算类分数(对分数)(步骤S124:类判定工序)。
[数式18]
该类分数表示“未知样品j与类s的相似程度”。而且,类判定处理部114(判定处理部110)按照该类分数的降序列出判别候补类,并制作循环匹配排序G(步骤S124:类判定工序)。在制作时,也可以进行替换处理(若类分数为正,则替换为+1,若为零,则保持±0,若为负,则替换为-1)。
图10是表示制作循环匹配排序的情况的图。首先,如图10的(a)部分所示,类判定处理部114针对各类对({A,B},{A,C},…),统计判别分数的符号值(式(17)的sgn(rj(s,t)))。例如,关于类对{A,B},成为“关于样品,当从特征量#1的值考虑时,与类A相似(符号值=+1),当从特征量#2的值考虑时,无法说是类A、B中的任一个(符号值=0)…”,小计为24。因此,可以说“样品在类A、B中与A相似”(小计值为正且绝对值越大,则相似度越高)。并且,关于类对{A,C},成为“关于样品,当从特征量#3的值考虑时,与类C相似(符号值=-1),当从特征量#4的值考虑时,与类A相似(符号值=+1)…”,小计为-2。因此,可以说“样品与类A、C中的任一个均不相似(或稍微与类C相似)”。
当这样对所有类对计算小计时,能够获得图10的(b)部分所示的结果。例如{A,*}是“类A与其他所有类的比较结果”,上述替换后的分数的合计为7。同样地,针对类D的合计为10。并且,类判定处理部114根据该合计,如图10的(c)部分所示列出(排序)判别候补类。在该例子中,针对类D、N、A的合计分别为10、8、7,类D为第1,类N为第2,类A为第3。
<3.3多类分类的步骤(2):决胜淘汰匹配>
在包含本问题的多类分类中,相似类之间的判别成为性能瓶颈的情况较多。因此,在本发明中,选择包含相似类之间在内,能够判别所有成对的特征量组(特征量集)。
与此相对,在上述循环匹配排序G中,期待相似性高的类聚集在最上位附近,但类分数的大部分通过与排序下位类的比较而确定。即,最上位附近的排序(在图10的例子中,类D、N、A之间的排序)不一定可靠。
因此,如以下式(19)所示,类判定处理部114(判定处理部110)能够根据循环匹配排序的上位类g个不规则淘汰匹配Tj来确定最终的判别类(步骤S124:类判定工序)。
[数式19]
Tj(G1,G2,...,Gg)=Tj(G1,...,Gg-2,Bj(Gg-1,Gg))
=...=Bj(G1,Bj(G2,...,Bj(Gg-1,Cg)...))…(19)
即,类判定处理部114从列表上位的g个类中对下位2类的成对重新适用二进制类分类器来确定获胜剩余,逐个减少列表个数,依次采取相同的步骤(最终,比较G最上位类与获胜剩余类)。
例如,如图11所示,从列表上位的3个类(类D、N、A)中对作为下位2类的类N、A计算类分数而确定获胜剩余(类N或A),并且以相同方式对作为循环排序的最上位类的类D和获胜剩余类计算类分数。另外,“将循环排序的第几为止作为决胜淘汰匹配的对象(在图11的例子中为第3为止)”没有特别限定。
<3.4其他多类分类器的结构>
另外,上述是分类器结构的一例,除此以外,也可以沿用各种机器学习方法。例如,基本上是随机森林的结构,也可以是在中途的决策树中,仅使用选择特征量的判别开关有效的决策树(判定工序)的结构。具体而言,类判定处理部114(判定处理部110)可以构成与各成对耦合建立关联地利用选择特征量组的决策树,并且将决策树组合1个以上来构成多类判别器(步骤S124:类判定工序)。此时,类判定处理部114也可以根据决策树及决策树的组合来构成多类判别器作为随机森林(步骤S124:类判定工序)。
<4.输出>
输出处理部115能够根据用户经由操作部400的操作,或不依赖于用户的操作,输出所输入的数据或上述处理的条件、结果等。例如,能够通过将所输入的学习数据集、所选择的特征量集、循环匹配排序或决胜淘汰匹配的结果等显示在监视器310等显示装置、存储在存储部200等存储装置、用打印机(未图示)进行打印等来输出(输出工序、输出处理;关于图16在后面叙述)。
<5.测试数据和实施例>
本申请发明人选择8种(大肠癌、胃癌、肺癌、乳癌、前列腺癌、胰腺癌、肝癌、宫颈癌)作为诊断对象的癌。这些癌占日本人罹患癌的大约70%[Hori M,Matsuda T,et al.,2015],因此认为适合于早期筛查的对象。
并且,由于正常组织需要涵盖所有能够流出到血液中的组织,因此除了与上述8种癌对应的器官以外,还列举了血液、肾脏、甲状腺等可想到的共计24种。
在作为可行性研究的定位下,设想提取细胞块(活体组织片)的判别,收集了载有甲基化位点的测量值的开放数据共计5,110个样品(图12)。
对于癌肿瘤及正常器官(不包括血液),从“The Cancer Genome Atlas”(TCGA)[Tomczak,Katarzyna,et al.,2015]的登记数据中收集了4,378个样品。并且,血液收集了732个样品[Johansson,Asa,Stefan Enroth,and Ulf Gyllensten,2013]。
样品的所属类(包含癌与非癌的区分的来源组织)全部按照登记注释信息赋予。
并且,甲基化测量值合计为485,512个位点,但除了不能测量所有样品值(NA)的位点以外,全部为291,847个位点。另外,在上述登记数据中直接采用了正规化等后处理后的数据。
而且,机械等分所有数据集,将其中1个作为学习数据集,将另1个作为测试数据集来利用。
本实施例中设定的试验课题如下。
i.准备大约5,000个样品的数据集
分配类(共计32):癌(8种)或正常组织(24种)
特征量(甲基化位点):大约30万个项目
ii.从上述一半的学习数据集中,事先选择最多10~300个项目的能够利用于判别的甲基化位点(组学信息、组学的开关状态信息)(同时,学习子类分割或分布参数等参数)
i i i.(尤其从剩余一半的测试数据集中)(逐个样品独立地)回答给定样品的判别问题
输入:样品的选择甲基化位点测量值(与ii的选择对应的最多300个项目)
输出:推算类=“癌+来源组织(从8种中选择)”或从“非癌(仅1种)”的9个中选择
另外,在实施例中,作为与提出方法(本发明的方法)进行比较的现有方法,采用了以下方法。
·特征选择法:具有甲基化位点研究事例的香农熵基准[Kadota,Koji,et al.,2006;Zhang,Yan,et al.,2011]
·多类分类法:朴素贝叶斯分类器(简单但以高性能而闻名[Zhang,Harr y,2004])
<5.1提出方法与现有方法的比较结果>
<5.1.1测试数据的判别精度>
用学习数据进行学习,选择277个位点(组学信息、组学的开关状态信息),确认测试数据的判别精度,将提出方法(本发明的多类分类方法)与现有方法进行比较(图13)。其结果,表示提出方法在所有项目中判别精度高。
相对于现有方法的平均F值为0.809,提出方法的平均F值达到0.953。并且,在现有方法中,在肺癌、胰腺癌、胃癌等中,存在F值/灵敏度/适合度停留在小于0.8的情况,但在提出方法中,在所有项目中达到0.8以上。
<5.1.2判别的稳健性>
根据前项中的学习与测试之间的平均F值差来确认判别的稳健性,将提出方法与现有方法进行比较(图14)。结果,表示提出方法的稳健性优异(F值下降0.008)。
在现有方法中,相对于学习数据显示大致完美的平均F值0.993,在测试数据中精度大幅下降(差分0.185),因此可知陷入过度学习。
另一方面,在提出方法中,平均F值的下降停留在0.008。并且,胰腺癌的判别能力在提出方法中是相对低的值(F值0.883),但在学习时也是相对低的值(F值0.901)。在本提出方法中,启示了在学习完成的阶段,能够在某种程度上预见测试数据中的判别精度及倾向。
<5.1.3选择特征个数与判别精度的关系>
确认了所选择的特征量的个数与判别精度(F值)的关系(图15)。结果可知,选择50~100个时判别精度显著提高,选择150~300个时具有饱和的倾向。
因此,尤其在根据cfDNA的甲基化模式判别“是癌还是非癌”及来源组织的癌诊断问题中,表示选择10个特征量时判别能力不充分,至少需要25~100个项目以上的多项目测量(因此,在这样的类数大的多类分类问题中,在选择工序(选择处理)中选择的特征量(选择特征量组)的个数优选为25个以上,更优选为50个以上,最优选为100个以上)。
<5.1.4相似特征量的排除、不需要判别的成对的导入>
在提出方法中,不选择相似特征量(相似性评价工序、相似性评价处理)。并且,导入了不需要判别的成对。
有效的甲基化位点(本问题的特征量)共有291,847个,其中,确定59,052个相似特征(同值关系、包含关系),能够作为对象外进行削减(减少20.2%)。并且,由于根据样品·聚类将原来的32类分割为89类,因此简单的成对总数上升到4,005种。其中,能够削减551种正常组织之间与癌子类之间的对象外成对(减少13.8%)。
同时,能够削减31.2%的探索空间。通过排除相似特征量,导入不需要判别的成对,能够确认使判别开关组合探索高效化。
<5.1.5子类分割>
在提出方法中,导入样品·聚类,将给定类内部分割为子类。与不需要判别的成对的组合也重要,因此确认了两者合并的效果。
为了进行比较,不进行子类分割,不导入特征选择的不需要判别的成对,关于其他实施了相同步骤的试验。结果,即使限定为癌组织,判别的正确率也从原来的95.9%下降到85.6%(正常组织在不分割时上升到24种,因此尤其为了确认子类分割的效果,限定为癌组织进行比较)。
能够确认通过子类分割及不需要判别的成对的导入,实现了高精度的判别。
<5.1.6同时使用决胜淘汰匹配>
在提出方法中,在多类分类中,同时使用了循环匹配排序(在本项中,将第1的类称为“预选顶级类”)和决胜淘汰匹配。
测试数据2,555件中,预选顶级类与正确类不一致的事例为278件。其中,通过决胜淘汰匹配更正为正确的判别的事例为162件。另一方面,相反的事例为19件(预选顶级类与正确类一致,但通过决胜淘汰匹配变更为错误的判别)。
即,通过同时使用决胜淘汰匹配,减去预选顶级类的判别错误,能够更正51.4%,能够将整体正确率改善5.6%。能够确认构成为很好地发挥基于成对判别的二进制类分类器的性能。
在提出方法中,判别的步骤、比较研究类、依据的特征量明确。因此,能够追溯判别结果,容易地确认并说明与成为根据的特征量或阈值的差等。可以说是尤其有利于对要求判别根据的医疗诊断的适用的“能够说明的AI”。
图16是表示判别根据的图示例(提取了测试数据中的实际的判定推移的例子)的表。在图16的(a)部分示出分类结果的上位类及结果、以及分数。在该图的例子中,可知样品分类为“癌组织1”,其分数为79,其次相似的样品为“癌组织3”,分数为76。
同样地,在从“癌组织1”的行到“正常组织1”的行为止的7行中,能够确认各类分数Ri(s)。而且,在从“<癌组织1|癌组织3>”的行到“<癌组织1|癌组织5>”的行为止的3行中,能够确认各类成对的判别分数rj(s,t)。
并且,在图16的(b)部分所示的表中,能够确认“选择特征量(在表中记载为标记)一览如何有助于各判别分数”的一览。当然,除了如图7的(a)部分所示的学习数据的分布图以外,还可以附加将各样品的值描绘在图上等可视化。
如此,根据提出方法(本发明),在分类(选择)之后,通过倒序追踪处理步骤,图示各分数等,能够将判别根据确认及可视化。由此,能够根据其他候补的相似类分数或判别分数等来推测最终判别结果的可靠度。并且,通过确定成为根据的特征量,也能够通过其解释来进行分类后的考察。
<选择特征量的个数与最小覆盖数的关系>
将上述实施例中的选择特征量的个数与最小覆盖数的关系示于图17的曲线图。
[数式20]
在此,获得斜率大致为1/5的线性关系,这表示对于癌8类/正常24类且伴随内部子类分割的高度的多类分类问题,大致每选择5个就能够选择覆盖这些所有的类判别的特征量集。
即,示出了本发明中公开的方法的、将特征选择归结到集合覆盖问题,并对其进行扩展所带来的效果大,在多类分类问题中,能够高效地提高最小覆盖数。并且,由图17可知,通过对所获得的特征量集进行微调整,能够创建以整体的特征量的极少一部分,具体而言,以所需要的最小覆盖数的5倍以下显示高判别能力的特征量集,以这样少的个数充足最小覆盖数的特征量集具有很大的价值。
<最小覆盖数与最小F值的关系>
将选择特征量集中的最小覆盖数与最小F值(判别对象类中,测试数据中的判别能力F值的最小值)的关系示于图18的曲线图。
[数式21]
由此可知,在最小覆盖数为0的情况下,几乎不能发挥性能,在最小覆盖数5前后,最小F值成为0.8,在最小覆盖数10前后成为0.85,在最小覆盖数60前后成为0.9。即,首先,可知若不选择最小覆盖数为至少1以上的特征量集,则几乎不能发挥性能。并且,实际要求的F值的详细基准当然因问题而异,由于0.80、0.85、0.90是容易理解的基准,因此最小覆盖数为5以上或10以上或60以上的特征量集具有价值。与前项(选择特征量的个数与最小覆盖数的关系)结合,通过本发明能够实现的“以比较少的选择特征量的个数(所提示的最小覆盖数的5倍以下)实现覆盖数”特别有价值。
另外,针对上述“甲基化位点和活体组织分类”的实施例仅为具体的事例之一。本发明的方法已经充分被泛化,能够适用于除了生物领域以外的任意的特征量选择及多类分类。例如,在对拍摄到图像中的人物进行类分类(例如,亚洲、大洋洲、北美、南美、东欧、西欧、中东、非洲)时,能够根据面部的大小或形状、肤色、发色、和/或眼睛、鼻子、嘴的位置、大小、形状等大量的特征量,通过本发明的方法选择特征量,使用所选择的特征量进行多类分类。并且,也可以将本发明的方法适用于农林渔业产品或工业产品、或针对各种统计数据的特征量选择及类分类。
<第2实施方式>
接着,对本发明的第2实施方式进行说明。在第2实施方式中,相对于上述第1实施方式,进一步进行设想了液体活检的各种课题的多类分类。
<设想了液体活检的各种课题的多类分类>
本发明能够适用于各种现实问题,但作为一个重要的应用展开事例,例如可举出Liquid Biopsy(液体活检),即判定采血的血液中有无来源于癌的cf DNA(cell freeDNA):ctDNA的检查。即,测量对象样品是检测对象的试样与其他试样的混合物,而且必须设想检测对象试样的浓度淡。
因此,在“样品仅来源于任一单一类”的前提下,即在“Ti ssue Biopsy(组织活检)相对于Liquid Biopsy(液体活检),即能够以几乎纯粹的形式采集判别对象的组织细胞”的前提下,即使来源于癌的cfDNA(ctDNA)存在,也存在(1)与大量背景血浆混合、(2)ctDNA碎片化且微量的课题。图19的(a)部分是表示这样的组织活检的图,图19的(b)部分是表示液体活检的图。即,若在液体活检中进行多类分类,则必须设想为“不一定能够与组织活检的情况同样地测量所有的特征量”。
图20是用于说明关于液体活检时的特征量选择及多类分类的课题的图,图的上下方向表示位点(特征量)的排列,以三角形表示的部位(甲基化为ON的位点)是测量点。图20的(a)部分表示组织活检中的状态,图20的(b)部分表示液体活检中的状态。在液体活检的情况下,存在如测量点900那样特征量缺失而误认为“无信号”的情况,或如测量点901那样与血浆重叠而无法判别信号的情况。
因此,如图20所示,在(1)特征量的一部分缺失的情况、及(2)特征量的值与血浆重叠的情况的各情况下,也需要正确地实现多类分类的方法。并且,这样的应用并不限于从血液中检测癌,可以考虑各种用途。
本申请发明人考虑这样的情况而反复进行深入研究,获得了本发明的第2实施方式的构思。即,根据列举如有助于稳健性的判别的开关那样发挥作用的特征量,且基于如充分覆盖所需要的类的成对判别那样的组合探索的特征量选择方法、而且仅使用选择位点(选择特征量)中的稳健性的判别部位,由简单的二进制分类器结合淘汰层级法构成多类分类器的方法,进一步构成在(1)特征量的一部分缺失的情况、(2)特征量的值与血浆重叠的情况的各情况下,也正确地实现多类分类的方法。由此,本发明的第2实施方式也能够适用于接近现实问题的、伴随穿插各种特性的特征量选择的多类分类。实际上,第2实施方式能够适用于例如后述的癌診断中出现的、设想了液体活检的各种课题的多类分类。本申请发明人提出的特征量选择方法、多类分类方法、及特征量集在产业上极其有用。
根据本发明的第2实施方式,在检测对象的试样与其他试样混合的情况下,即使在其特征量的一部分从检测对象试样缺失,或与其他试样的特征量混合在一起的情况下,也能够根据所选择的极少一部分的特征量的值,将具有特别庞大的数量的特征量的样品稳健性且高精度地分类为多个类、尤其大量的类中的任一个。例如,具体而言,在想要判别样品生体组织片的来源的情况下,在
(1)想要判别生体试样是否为癌,属于哪个器官
(2)生体试样是混合在血液中的样品,想要通过血液测定来检测该试样的存在与否
(3)生体试样的量不一定充分,可能存在部分缺失
等情况下,能够提供伴随第2实施方式的特征量选择的多类分类的方法。另外,如后面叙述具体例那样,本发明的适用范围并不限定于以生体试样为对象的情况,通常能够适用于在多类分类中特征量可能缺失的事例。
<多类分类装置的结构>
在第2实施方式中,特征量选择方法(特征量选择程序)及多类分类方法(多类分类程序)的各处理也与第1实施方式同样地能够通过多类分类装置10(具体的结构参考图2、3等及相关的记载)执行。在执行时,用户能够经由操作部400进行所需要的操作(设定误分类概率的目标值的操作或设定误分类评价参数的操作、执行指示等),多类分类装置10按照用户的操作或自动地设定条件(目标值设定工序等),执行特征量选择及多类分类方法。另外,多类分类装置10能够预先用另行标准从N个类指定1个以上的基类(基类指定工序、基类指定处理)。多类分类装置10可以根据用户的操作来指定基类,也可以不依赖于用户的操作而自动地指定。
<1.多类分类的扩展方法>
以上述基本的方法为前提,从这里开始说明第2实施方式的详细内容。因此,以下将关于第1实施方式的上述问题一般化,设想在基类的大量试样中混入了检测目标的试样的样品。另外,在以下说明中,有时将选择特征量记载为“标记”。
<通过加权的分数校正>
在对上述成对计算对分数时,尤其关注基类与任意的目标类的组合。例如在成对{A,O}的统计中,选择判别标志有效的子集这一点与基本的方法相同,只要对样品特征量的值进行修整,以判定其是纯粹的基类,还是基类与目标类的混合即可。
然而,而且,来源于目标的试样有可能存在缺失,即有可能“即使在假设混合有目标试样,期待分类为目标类的情况下,在一部分特征量中也只能检测出基本模式的值”。在这种情况下,缺失部可以说是“不战败”,因此来自基本模式的分数(例如负值)容易占支配地位。在图21的测量点903(目标的特征量缺失的测量点)示出该情况。因此,推测缺失,对与基本(Base)不同的目标一致标记赋予权重(进行特征量的加权,以使多类分类的判别结果成为目标类(第1类)的事例变多;第1评价工序、第1评价处理)来校正分数,即使存在缺失也能够正确地检测目标(参考本发明的第8、第9、第17~第20方式)。在图21的测量点904(赋予校正分数+W)示出该情况。
而且,在上述中关注了基类与任意的目标类的组合,但优选也关注作为非基类的任意目标类彼此之间的成对(进行分数校正)。这是因为,例如图22的测量点905那样,在目标A(第2类)对目标B(第3类)的比较标记中,目标A接近基本模式(图22的左侧)的情况下,如测量点906那样,若没有分数校正,则目标A比目标B更容易成为优势。即,在判定“混合存在来源于哪个目标的试样”的情况下,“作为特征量容易测量接近于基类的值”的情况仍然不变。
因此,在非基类彼此之间的成对比较中,也比较测量值与基类的特征量的值(参考工序、参考处理),在偏离基本的值的情况下,优选通过赋予权重来校正分数,即使在存在缺失的目标类之间也能够进行正确的检测(参考本发明的第11方式)。具体而言,参考的结果,在对于目标A(第2类)具有目标A与基类O的成对{A,O}的可判别性,且特征量的值接近目标A的情况下,进行加权,以使二进制类分类工序的判别结果成为目标A的事例变多(第2评价工序、第2评价处理)。同样地,在对于目标B(第3类)具有目标B与基类O的成对{B,O}的可判别性,且特征量的值接近目标B的情况下,进行加权,以使二进制类分类工序的判别结果成为目标B的事例变多(第3评价工序、第3评价处理)。另外,对于这些校正量,也可以按照与以下相同的步骤进行设定,或也可以考虑两目标类与基类的图案距离而设定不同的校正量。
<确定校正量的方法>
接着,示出确定具体的校正量的方法的实施方式。作为多类分类的性能指标,例如可举出灵敏度及适合度(当然也可以使用F值或特异度等其他指标,但以后的主旨能够同样地适用)。即,在以目标的检测为目的时,(1)在给定样品实际来源于目标类的情况下(混合存在这样的试样的情况),将样品判别为来源于目标类(评价原本属于与基类不同的类的样品被误分类为基类的概率即第2误分类概率,并降低该第2误分类概率;第2概率评价工序、第2概率评价处理)、(2)在给定样品中实际混合存在来源于目标的试样的情况下,不判别为来源于目标类(即,评价原本属于基类的样品通过加权被误分类为除了基类以外的任意的其他类的概率即第1误分类概率,并降低该第1误分类概率;第1概率评价工序、第1概率评价处理)这两者很重要。
在此,若增大校正的加权,则(1)的准确度增加,另一方面(2)的准确度减少(目标检测的灵敏度增加,但适合度降低)。若减小校正的加权,则相反地(1)的准确度减少,另一方面(2)的准确度增加。因此,优选设定某种性能目标(目标值设定工序、目标值设定处理),调整加权,以使加权的(1)及(2)的准确度落入设定的性能目标,或使偏离量最小化(加权调整工序、加权调整处理)。并且,优选通过这些工序,由二进制类分类器构成多类分类器(构成工序、构成处理),使用该多类分类器进行多类分类(参考本发明的第12方式)。
另外,性能目标可以使用如上述那样的灵敏度、适合度、特异度、F值等中的任一个,可以是全类共通,也可以在基类与目标类组中不同,并且也可以按基类及多个目标类的种类(每N个类)不同。
在此,在由于(1)及(2)的范围交叉(不存在满足(1)及(2)这两者的校正量),或另外设定有某些确定的校正量范围等而无法设定适当的校正量的情况下,预测为即使使校正有效也无法实现目标,因此尤其优选能够向用户警告(第1警告工序、第1警告处理;参考本发明的第16方式),并且在校正量的下限为W=1以下的情况下,预测为不需要校正(预测为即使不进行通过加权的校正也能够实现性能目标),因此也可以向用户通知该情况(第2警告工序、第2警告处理;参考本发明的第16方式)。
作为这样的调整方法,举出更具体的实施方式。若将缺失作为均匀提取而模型化,则如图23中说明的那样,能够根据标记可靠性r、缺失率m、成对覆盖数n、目标性能α/β(第1误分类概率及第2误分类概率的目标值),利用二项分布来计算加权W的可设定宽度(加权范围)(加权设定工序、加权设定处理)。在此,能够将标记可靠性r、缺失率m、成对覆盖数n、目标性能α/β中的一部分或全部作为误分类评价参数来设定(评价参数设定工序、评价参数设定处理)。多类分类装置10可以按照经由操作部400的用户的操作设定误分类评价参数,也可以由多类分类装置10自动地设定。并且,多类分类装置10通过这些工序,由二进制类分类器构成多类分类器(构成工序、构成处理),使用该多类分类器进行多类分类(参考本发明的第13方式)。
即,根据二项分布Bi(p=1-r,n)来测量真实所属类从基本的样品误判定为非基本的信号的个数co-(即,与独立地进行n次以概率1-r成立的试行时的试行成立次数对应)。同样地,根据二项分布Bi(p=r(1-m),n)来测量从试样中真实混合存在目标试样的样品正确地判定为目标的信号的个数cx+。此时,与上述(1)对应的加权校正量W成为如以下式(22)所示,与上述(2)对应的加权校正量W成为如式(23)所示。
[数式22]
W≥(n-cx+)/cx+…式(22)
[数式23]
W≤(n-co-)/co-…(23)
即,能够计算与上述(1)及(2)完全对应的校正量,分别设定校正量的上限及下限(加权范围)(加权调整工序、加权调整处理)。
另外,如此,在与均匀提取对应的情况下,优选在概率分布中使用二项分布,但不一定是二项分布,例如也可以是近似二项分布的正规分布,或只要是设想不是均匀提取的缺失,则也可以采用与该模型对应的适当的概率分布。
<通过学习的加权确定>
校正的加权也可以通过学习来确定。例如,能够从学习数据集(第1学习数据集)学习校正量计算的参数(误分类评价参数)(参考本发明的第14方式)。在此,例如也可以与α/β对应地将标记可靠性分为目标和基本。(1)对于目标标记可靠性rx,能够在不进行校正(校正量W=1)的状态下,探索目标检测灵敏度成为1-β的缺失率m,并设定为以该m将校正量W设为1的rx。(2)基本标记可靠性r0能够在无缺失(缺失率m=0)的状态下,探索基本检测灵敏度成为1-α的校正量W,并设定为与其对应的r0。当然,学习方法并不限定于此,在此与(1)(2)对应地导入了目标标记可靠性和基本标记可靠性,但也可以进一步对每个目标类计算标记可靠性,分别确定校正量等。
或者,也能够通过学习来确定校正量本身。即,也可以设定某种多个校正量,实际尝试学习数据集(第2学习数据集)的多类分类,确认(1)及(2)的性能,由此选择成为最佳的性能的(多类分类的性能提高的)校正量(参考本发明的第15方式)。作为校正量的探索方法,能够适用网格检索或二分检索等各种方法。另外,在存在不需要与基类的判别的类(不需要判别类组)的情况下,省略了对该成对的可判别性判定(从展开的成对耦合中排除标记的不需要判别类组彼此之间的成对耦合的排除工序、排除处理)的情况下,例如能够将它们作为基类来处理,能够适用与上述各情况相同的校正(参考本发明的第10方式)。
<特征量选择的扩展方法:平衡选择>
关于非基类的目标类之间的判别,与本发明的第7方式相关地提及,但进一步说明通过特征量选择取得平衡的方法。如图24的测量点907那样,在目标A对目标B的比较标记中,若与基本模式的一致偏向一方的目标(在图24的情况下,目标A),则如图24的测量点908那样,在“有校正”的情况下,目标B容易比目标A优势,在“无校正”的情况下,目标A容易比目标B优势。即,根据不均,区分容易判别的目标和不容易判别的目标。即,在判定混合存在来源于哪个目标的试样的情况下,“作为特征量容易测量接近于基类的值”的情况仍然不变,若无校正,则容易检测出接近基本的目标,但相反,若施加与上述相同的校正,则这次容易检测出远离基类的目标。因此,在特征量空间上,优选选择特征量,以使任意的目标类位于距基类等距离的位置。
具体而言,如图25所示(图的(a)部分表示各类的标记值,并且图的(b)部分表示选择成对的判别标志值),在选择判别任意的成对{A,B}的标记时,参考基类的成对{O,A}{O,B}的可判别性(判别标志为0时无可判别性,1时有可判别性),只要选择该判别标志尽可能在所有的成对中分别成为相同数(在图25的例子中,在成对{O,A}、{O,B}中,判别标志值成为1的标记分别为3个)的标记集(特征量组、特征量集)即可(统计工序、统计处理、评价统计结果的平衡度的特征量组的组合的选择;参考本发明的第1方式)。这样的选择在使校正有效的情况下特别有效,但即使校正无效,非基类之间的成对的缺失影响也被平衡,因此认为仍然有效。
另外,在存在不需要与基类的判别的类(将给定类中的一部分标记为不需要相互判别的第1不需要判别类组的第1标记工序、第1标记处理)的情况下,在省略了对该成对的可判别性判定(从展开的成对耦合中排除标记出的第1不需要判别类组彼此之间的成对耦合的第1排除工序、第1排除处理)的情况下,例如能够将它们作为基类来处理,不作为平衡考虑的对象(参考本发明的第3方式)。具体而言,对于除了基类O或不需要与基类的判别的类N以外的任意的类X(例如,癌),不需要使成对{O,X}和成对{O,N}平衡。
而且,在参考数据集而定量化以这种方式选择且能够判别任意2类的成对的特征量组时,对于在所有成对耦合中被标记为能够通过至少1个特征量进行判别且不包含各基类的任意的成对耦合{A,B},针对具有上述(3)中定量化后的可判别性的特征量,进一步同样地通过平衡成对的各类{A,B}与各基类{O}的成对{O,A}{O,B}这2个可判别性(使差分最小化)而赋予特征的标记集(特征量集)本身也是本发明的实施方式之一(参考本发明的第21方式)。多类分类装置10使用该标记集进行多类分类(本发明的多类分类方法)。
而且,在设定了多个基类的情况下,也可以从给定特征量中选出在多个基类全部中分布接近的特征量,并限定于此,以后同样地选择特征量(将特征量组的选择对象限定为没有指定的所有的基类彼此之间的可判别性的特征量的限定工序、限定处理;参考本发明的第2方式)。例如,在以癌检测为目的的情况下,除了癌以外,判明已经患有肝损伤等,或有可能患有肝损伤等,因此在有肝组织泄漏到血液中的可能性的情况下,通过这样的特征量选择,能够不受该影响地进行适当的特征量选择及多类分类。另外,“没有基类彼此之间的可判别性”是指“对于基类O1,O2,成对判别标志值{O1,O2}成为0的特征量”,在上述方式中,将选择对象限定于这样的特征量。
<实施例>
对于第2实施方式,也进行了使用与上述第1实施方式相同的开放数据的研究。因此,例示以癌检测为目的的、伴随特征量选择的多类分类。图26是表示实施例中的测试环境的图。首先,在学习阶段中,直接投入组织采集的基因DNA甲基化数据。但是,在测试阶段中,对于样品数据的各特征量,随机地以缺失率m的概率在样品值中插入血浆模式值。在此,选择特征量的个数(标记数)为250个。
<加权校正的效果>
首先,示出加权校正的效果。图27是在横轴上描绘缺失率,在纵轴上描绘癌检测的灵敏度/适合度,比较了现有方法(无校正时)与提出方法(有本发明的校正时)的图。以全类共通且以灵敏度(=适合度)=80%为目标。在现有方法中,在缺失率为20~25%时无法维持目标,与此相对,在本发明中,通过适当的加权校正,显示出“能够将目标维持到缺失率75~80%左右”的效果。
另外,在本实施例中,如上所述,将误分类的允许值设为20%,并且将成对覆盖数设为50,进一步区分癌标记可靠性和正常标记可靠性这两者,按照本发明的实施方式中展开的方法,从学习数据中学习这些参数,在此基础上确定适当的校正量,将校正量设定为其上限和下限的中间值。图28的(a)部分是表示参数的设定值的表,图28的(b)部分是表示校正量的上限及下限的表。如此,例如若将缺失率设定为90%,则上限值<下限值,因此能够向用户警告无法进行适当的校正的情况(第1警告工序、第1警告处理)。而且,示出了实际在90%时从目标性能大幅偏离的结果。并且,在缺失率为20以下时,也可以不一定使校正有效,这样(预测为即使不进行通过加权的校正也能够实现性能目标的情况)能够通知用户(第2警告工序、第2警告处理)。而且,示出实际在20%左右之前,结果大致落入目标性能的范围内。
接着,示出加权校正量的学习适应性。图29是以缺失率70%的设定,在横轴上描绘癌/正常组织检测的灵敏度/适合度,图示排列在纵轴上的3个模式的校正量下的各性能的图。由此示出,例如通过3阶段的加权校正量(4.0,8.8,13.6)尝试分类,能够选择其中最佳的校正量(8.8),能够实现设计目标。
<特征量平衡选择的效果>
进一步示出特征量平衡选择的效果。图30是在横轴上描绘缺失率,在纵轴上描绘癌检测的F值(灵敏度和适合度的调和平均)的最小值·平均值,比较了提出方法I(有校正、无平衡选择时)和提出方法II(有校正、有平衡选择时)的图。通过本发明中提出的特征量平衡选择,示出了在平均F值几乎不变的情况下,使最小F值上升的效果(例如在缺失率为70%的情况下大致为0.65→0.75)。
<第2实施方式的其他适用事例>
当然,本发明的第2实施方式只要是在多类分类中特征量可能缺失的事例,则并不限于cfDNA的情况而能够广泛地适用。例如,在根据明信片、电话、面谈、互联网等的问卷调查对顾客(问卷调查回答者)的设想类(各种类型的顾客类型等)进行分类时,也设想到由于通过问卷调查不需要回答或没有回答,因此没有回答项目的情况,在该情况下也可以假定缺失。在该情况下,如实施方式所述,也可以针对每个回答项目改变缺失率的设定。尤其,问卷调查结果以某种集团为单位预先统计,根据该统计判定不同的分类像的回答者是否混入集团,且对确定该回答者的分类像的问题等适合性高。或者,例如,在根据照片等图像对被摄体的设想类(动物的种类、产品的种类、或有无缺陷等)进行分类时,也可以根据摄影条件或闪光灯的映入、手等障碍物,假定图像的一部分缺失。尤其,对想要检测的被摄体移动到其他被摄体或背景图像中的问题等适合性高。这并不限于图像,在语音中也相同。显然,第2实施方式并不特别限定于cfDNA,通常能够适用于包含上述事例的多类分类中特征量可能缺失的事例。
以上对本发明的实施方式及其他例子进行了说明,但本发明并不限定于上述方式,在不脱离本发明的精神的范围内能够进行各种变形。
符号说明
10-多类分类装置,100-处理部,102-输入处理部,104-选择处理部,106-定量化处理部,108-优化处理部,110-判定处理部,112-获取处理部,114-类判定处理部,115-输出处理部,116-CPU,118-ROM,120-RAM,200-存储部,300-显示部,310-监视器,400-操作部,410-键盘,420-鼠标,500-外部服务器,510-外部数据库,900-测量点,901-测量点,903-测量点,904-测量点,905-测量点,906-测量点,907-测量点,908-测量点,NW-网络,S100~S124-多类分类方法的各处理。
Claims (22)
1.一种特征量选择方法,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
统计工序,针对所述N个类中的不包含所述基类的第1类及第2类的成对耦合,针对具有在所述定量化工序中定量化后的所述可判别性的特征量,进一步对所述第1类与所述基类的成对可判别性、及所述第2类与所述基类的成对可判别性进行统计,
在所述优化工序中,评价在所述统计工序中统计的结果的平衡度,选择所述特征量组的组合。
2.一种特征量选择方法,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序还具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定工序,预先用另行标准从所述N个类中指定2个以上的基类;及
限定工序,将所述特征量组的选择对象限定为没有所述指定的所有的基类彼此之间的可判别性的特征量。
3.根据权利要求1或2所述的特征量选择方法,其还具有:
第1标记工序,将所述给定类中的一部分标记为不需要相互判别的第1不需要判别类组;及
第1排除工序,从展开的成对耦合中排除所述标记出的所述第1不需要判别类组彼此之间的所述成对耦合,
将属于所述N个类且被指定为不需要与所述基类的判别的类组的类排除在平衡选择的对象外。
4.一种特征量选择程序,其使计算机执行选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法,
所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
统计工序,针对所述N个类中的不包含所述基类的第1类及第2类的成对耦合,针对具有在所述定量化工序中定量化后的所述可判别性的特征量,进一步对所述第1类与所述基类的成对可判别性、及所述第2类与所述基类的成对可判别性进行统计,
在所述优化工序中,评价在所述统计工序中统计的结果的平衡度,选择所述特征量组的组合。
5.一种特征量选择程序,其使计算机执行选择用于判定样品属于2个以上的N个类中的哪一个的特征量组的特征量选择方法,
所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序还具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定工序,预先用另行标准从所述N个类中指定2个以上的基类;及
限定工序,将所述特征量组的选择对象限定为没有所述指定的所有的基类彼此之间的可判别性的特征量。
6.一种特征量选择装置,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,
所述特征量选择装置具备处理器,
所述处理器执行:
输入处理,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择处理,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择处理具有:
定量化处理,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化处理,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定处理,预先用另行标准从所述N个类中指定1个以上的基类;及
统计处理,针对所述N个类中的不包含所述基类的第1类及第2类的成对耦合,针对在具有所述定量化处理中定量化后的所述可判别性的特征量,进一步对所述第1类与所述基类的成对可判别性、及所述第2类与所述基类的成对可判别性进行统计,
在所述优化处理中,所述处理器评价在所述统计处理中统计的结果的平衡度,选择所述特征量组的组合。
7.一种特征量选择装置,其选择用于判定样品属于2个以上的N个类中的哪一个的特征量组,
所述特征量选择装置具备处理器,
所述处理器执行:
输入处理,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择处理,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择处理还具有:
定量化处理,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;
优化处理,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合;
基类指定处理,预先用另行标准从所述N个类中指定2个以上的基类;及
限定处理,将所述特征量组的选择对象限定为没有所述指定的所有的基类彼此之间的可判别性的特征量。
8.一种多类分类方法,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类方法具有:
获取工序,根据使用权利要求1或2所述的特征量选择方法选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类工序,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,
所述多类分类工序还包括:
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价工序,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类工序中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多。
9.一种多类分类方法,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,所述多类分类方法具有:
获取工序,根据使用特征量选择方法选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类工序,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,
所述多类分类工序还包括:
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价工序,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类工序中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多,
所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;及
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合。
10.根据权利要求8或9所述的多类分类方法,其还具有:
标记工序,将给定类的一部分标记为不需要相互判别的不需要判别类组;及
排除工序,从展开的成对耦合中排除所述标记出的所述不需要判别类组彼此之间的成对耦合,
将属于所述N个类且被指定为不需要与所述基类进行判别的类组的类作为所述基类进行所述多类分类工序。
11.根据权利要求8至10中任一项所述的多类分类方法,其还具有:
参考工序,对于在属于所述N个类的任意的第2类及第3类的成对耦合中具有可判别性的特征量,进一步参考所述第2类与所述基类的成对可判别性、及所述第3类与所述基类的成对可判别性;
第2评价工序,所述参考的结果,在对于所述第2类具有所述第2类与所述基类的成对可判别性,且特征量的值接近所述第2类的情况下,进行加权,以使所述二进制类分类工序的判别结果成为所述第2类的事例变多;及
第3评价工序,所述参考的结果,在对于所述第3类具有所述第3类与所述基类的成对可判别性,且特征量的值接近所述第3类的情况下,进行加权,以使所述二进制类分类工序的判别结果成为所述第3类的事例变多。
12.根据权利要求11所述的多类分类方法,其还具有构成工序,所述构成工序通过以下工序由所述二进制类分类器构成多类分类器:
目标值设定工序,设定样品的误分类概率的目标值;
第1概率评价工序,评价原本属于所述基类的样品通过所述加权被误分类为除了所述基类以外的任意的其他类的概率即第1误分类概率;
第2概率评价工序,评价原本属于所述其他类的样品被误分类为所述基类的概率即第2误分类概率;及
加权调整工序,调整所述加权,以使所述第1误分类概率及所述第2误分类概率落入所述目标值,或使所述第1误分类概率及所述第2误分类概率与所述目标值之间的偏离量变小,
在所述多类分类工序中,使用所述构成的多类分类器进行所述多类分类。
13.根据权利要求12所述的多类分类方法,其还具有构成工序,所述构成工序通过以下工序由所述二进制类分类器构成多类分类器:
评价参数设定工序,设定误分类评价参数,所述误分类评价参数是样品的误分类概率的目标值、对于不是所述基类的任意的第1类与所述基类的成对耦合具有可判别性的特征量的个数、特征量的可靠性、及设想的特征量的缺失率中的一部分或全部;及
加权设定工序,将所述加权设定在根据所述误分类评价参数计算的加权范围内,
在所述多类分类工序中,使用所述构成的多类分类器进行所述多类分类。
14.根据权利要求13所述的多类分类方法,其中,
在所述第2评价工序及所述第3评价工序中,通过从任意的第1学习数据集学习所述误分类评价参数的一部分或全部来设定所述加权。
15.根据权利要求11至14中任一项所述的多类分类方法,其中,
在所述加权设定工序中,根据任意的第2学习数据集设定所述加权,以提高多类分类的性能。
16.根据权利要求11至15中任一项所述的多类分类方法,其还包括:第1警告工序,在以所述加权的量不能使多类分类的性能落入性能目标的情况下,向用户发出警告;或第2警告工序,在预测为即使不进行所述加权也能够实现所述性能目标的情况下,向用户发出警告。
17.一种多类分类程序,其使计算机执行多类分类方法,所述多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,
所述多类分类方法具有:
获取工序,根据使用权利要求1或2所述的特征量选择方法选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类工序,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,
所述多类分类工序还包括:
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价工序,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类工序中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多。
18.一种多类分类程序,其使计算机执行多类分类方法,所述多类分类方法在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,
所述多类分类方法具有:
获取工序,根据使用特征量选择方法选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类工序,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类工序,
所述多类分类工序还包括:
基类指定工序,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价工序,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类工序中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多,
所述特征量选择方法具有:
输入工序,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择工序,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择工序具有:
定量化工序,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;及
优化工序,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合。
19.一种多类分类装置,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,
所述多类分类装置具备处理器,
所述处理器执行:
获取处理,根据使用权利要求1或2所述的特征量选择方法选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类处理,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类处理,
所述多类分类处理还包括:
基类指定处理,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价处理,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类处理中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多。
20.一种多类分类装置,在N为2以上的整数的情况下,根据样品的特征量来判定所述样品属于N个类中的哪一个,
所述多类分类装置具备处理器,
所述处理器执行:
获取处理,根据使用特征量选择装置选择的特征量组,获取所述选择出的特征量组的特征量值;及
多类分类处理,根据所述获取的特征量值进行多类分类,且包括使用了与在特征量组的选择中标记的成对耦合建立关联的二进制类分类器的二进制类分类处理,
所述多类分类处理还包括:
基类指定处理,预先用另行标准从所述N个类中指定1个以上的基类;及
第1评价处理,在所述基类和作为除了所述基类以外的任意的类的第1类的所述二进制类分类处理中,在给定样品的特征量接近所述第1类的情况下,进行特征量的加权,以使所述多类分类的判别结果成为所述第1类的事例变多,
所述特征量选择装置执行:
输入处理,输入由属于成为对象的给定类的已知样品组和所述已知样品组的特征量组构成的学习数据集;及
选择处理,根据所述学习数据集,从所述特征量组中选择针对所属的类为未知的未知样品的类判定所需的特征量组,
所述选择处理具有:
定量化处理,通过将所述N个类中的2个进行组合的成对耦合,根据所述学习数据集对基于所述选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化;及
优化处理,针对所有所述成对耦合,统计所述定量化后的所述可判别性,并选择对所述统计的结果进行优化的特征量组的组合。
21.一种特征量集,其用于多类分类装置判定给定样品属于2个以上的N个类中的哪一个,
预先用另行标准从所述N个类中指定了1个以上的基类,
所述特征量集具备属于成为对象的各类的样品的特征量数据集,
在通过将所述N个类中的2个进行组合的成对耦合,参考所述特征量数据集对基于选择出的特征量组的各特征量的所述2个类之间的可判别性进行定量化时,在所有成对耦合中标记为能够用至少1个特征量进行判别,
针对所述N个类中的不包含所述基类的第1类及第2类的成对耦合,针对具有所述定量化后的所述可判别性的特征量,进一步平衡了所述第1类与所述基类的成对可判别性、及所述第2类与所述基类的成对可判别性。
22.一种记录介质,其为非临时性且计算机可读取的记录介质,且记录有权利要求4、5、17或18所述的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-158669 | 2020-09-23 | ||
JP2020158669 | 2020-09-23 | ||
PCT/JP2021/034251 WO2022065216A1 (ja) | 2020-09-23 | 2021-09-17 | 特徴量選択方法、特徴量選択プログラム、及び特徴量選択装置、マルチクラス分類方法、マルチクラス分類プログラム、及びマルチクラス分類装置、並びに特徴量セット |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116210011A true CN116210011A (zh) | 2023-06-02 |
Family
ID=80845351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180065072.2A Pending CN116210011A (zh) | 2020-09-23 | 2021-09-17 | 特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20230222183A1 (zh) |
EP (1) | EP4220499A4 (zh) |
JP (1) | JPWO2022065216A1 (zh) |
CN (1) | CN116210011A (zh) |
WO (1) | WO2022065216A1 (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2347361B1 (en) | 2008-10-13 | 2018-11-14 | Roche Diagnostics GmbH | Algorithms for classification of disease subtypes with gene expression profiling |
JP2011181016A (ja) * | 2010-03-04 | 2011-09-15 | Fujifilm Corp | 判別器生成装置および方法並びにプログラム |
JP2017146745A (ja) * | 2016-02-16 | 2017-08-24 | キヤノン株式会社 | 情報処理装置、制御方法、情報処理システム、およびプログラム |
WO2018235568A1 (ja) * | 2017-06-23 | 2018-12-27 | 株式会社リクルートコミュニケーションズ | 特徴量選択装置、特徴量選択方法及び特徴量選択プログラム |
JP7455757B2 (ja) * | 2018-04-13 | 2024-03-26 | フリーノーム・ホールディングス・インコーポレイテッド | 生体試料の多検体アッセイのための機械学習実装 |
WO2020012523A1 (ja) * | 2018-07-09 | 2020-01-16 | 富士通株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2021
- 2021-09-17 CN CN202180065072.2A patent/CN116210011A/zh active Pending
- 2021-09-17 EP EP21872345.0A patent/EP4220499A4/en active Pending
- 2021-09-17 JP JP2022551944A patent/JPWO2022065216A1/ja active Pending
- 2021-09-17 WO PCT/JP2021/034251 patent/WO2022065216A1/ja unknown
-
2023
- 2023-03-14 US US18/183,832 patent/US20230222183A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022065216A1 (ja) | 2022-03-31 |
JPWO2022065216A1 (zh) | 2022-03-31 |
US20230222183A1 (en) | 2023-07-13 |
EP4220499A1 (en) | 2023-08-02 |
EP4220499A4 (en) | 2024-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arunkumar et al. | Fully automatic model‐based segmentation and classification approach for MRI brain tumor using artificial neural networks | |
Gupta et al. | Breast cancer histopathological image classification: is magnification important? | |
US10489904B2 (en) | Assessing risk of breast cancer recurrence | |
US10217620B2 (en) | Early detection of hepatocellular carcinoma in high risk populations using MALDI-TOF mass spectrometry | |
US10713590B2 (en) | Bagged filtering method for selection and deselection of features for classification | |
CN115104028A (zh) | 特征量选择方法、特征量选择程序、多类分类方法、多类分类程序、特征量选择装置、多类分类装置及特征量集 | |
CN110008584A (zh) | 一种基于GitHub的半监督异构软件缺陷预测算法 | |
JP2016200435A (ja) | マススペクトル解析システム,方法およびプログラム | |
CN103245784A (zh) | 肺癌的诊断分析法 | |
US20150093007A1 (en) | System and method for the classification of measurable lesions in images of the chest | |
Ahmad et al. | Classifying breast cancer types based on fine needle aspiration biopsy data using random forest classifier | |
Ferlaino et al. | Towards deep cellular phenotyping in placental histology | |
US20070223807A1 (en) | Medical imaging visibility index system and method for cancer lesions | |
CN105205349B (zh) | 马尔科夫毯嵌入式的基于封装的基因选择方法 | |
US9563744B1 (en) | Method of predicting development and severity of graft-versus-host disease | |
CN109033747A (zh) | 一种基于pls多扰动集成基因选择及肿瘤特异基因子集的识别方法 | |
CN116210011A (zh) | 特征量选择方法、特征量选择程序、及特征量选择装置、多类分类方法、多类分类程序、及多类分类装置、以及特征量集 | |
CN113380318A (zh) | 人工智能辅助流式细胞术40cd免疫表型检测方法及系统 | |
Sarikoc et al. | An automated prognosis system for estrogen hormone status assessment in breast cancer tissue samples | |
CN102171699A (zh) | 确定用于从临床数据获得的标识的可靠性指标的方法和该可靠性指标用于支持一个标识胜过其它标识的用途 | |
Ghashghaei et al. | Grayscale Image Statistical Attributes Effectively Distinguish the Severity of Lung Abnormalities in CT Scan Slices of COVID-19 Patients | |
Bertram et al. | Dataset on bi-and multi-nucleated tumor cells in canine cutaneous mast cell tumors | |
Bhojane et al. | Liver Lesion Detection from MR T1 In-Phase and Out-Phase Fused Images and CT Images Using YOLOv8 | |
Vroom | Machine Learning Models of Histopathologic Images to Serve as a Proxy to Predict Recurrence in ER+/HER-Breast Cancers | |
Demirhan | Random forests based recognition of the clinical labels using brain MRI scans |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |