CN109937421A - 用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备 - Google Patents
用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备 Download PDFInfo
- Publication number
- CN109937421A CN109937421A CN201780069360.9A CN201780069360A CN109937421A CN 109937421 A CN109937421 A CN 109937421A CN 201780069360 A CN201780069360 A CN 201780069360A CN 109937421 A CN109937421 A CN 109937421A
- Authority
- CN
- China
- Prior art keywords
- value
- function
- sample data
- indicate
- estimator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 128
- 238000007637 random forest analysis Methods 0.000 claims abstract description 48
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 9
- 238000009826 distribution Methods 0.000 claims abstract description 6
- 239000000523 sample Substances 0.000 claims description 59
- 238000007477 logistic regression Methods 0.000 claims description 29
- 206010006187 Breast cancer Diseases 0.000 claims description 14
- 208000026310 Breast neoplasm Diseases 0.000 claims description 14
- 208000005718 Stomach Neoplasms Diseases 0.000 claims description 14
- 230000001419 dependent effect Effects 0.000 claims description 14
- 206010017758 gastric cancer Diseases 0.000 claims description 14
- 201000011549 stomach cancer Diseases 0.000 claims description 14
- 201000010099 disease Diseases 0.000 claims description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 12
- 239000012472 biological sample Substances 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 241000208340 Araliaceae Species 0.000 claims description 3
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 3
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 3
- 235000008434 ginseng Nutrition 0.000 claims description 3
- 230000006870 function Effects 0.000 description 40
- 206010028980 Neoplasm Diseases 0.000 description 15
- 201000011510 cancer Diseases 0.000 description 15
- 238000012360 testing method Methods 0.000 description 11
- 238000012549 training Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 102100023635 Alpha-fetoprotein Human genes 0.000 description 3
- 101000623901 Homo sapiens Mucin-16 Proteins 0.000 description 3
- 102100023123 Mucin-16 Human genes 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- INZOTETZQBPBCE-NYLDSJSYSA-N 3-sialyl lewis Chemical compound O[C@H]1[C@H](O)[C@H](O)[C@H](C)O[C@H]1O[C@H]([C@H](O)CO)[C@@H]([C@@H](NC(C)=O)C=O)O[C@H]1[C@H](O)[C@@H](O[C@]2(O[C@H]([C@H](NC(C)=O)[C@@H](O)C2)[C@H](O)[C@H](O)CO)C(O)=O)[C@@H](O)[C@@H](CO)O1 INZOTETZQBPBCE-NYLDSJSYSA-N 0.000 description 2
- 102100025475 Carcinoembryonic antigen-related cell adhesion molecule 5 Human genes 0.000 description 2
- 108010071690 Prealbumin Proteins 0.000 description 2
- 102000009190 Transthyretin Human genes 0.000 description 2
- 108010026331 alpha-Fetoproteins Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 108010013192 lipoprotein A-I Proteins 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 210000005075 mammary gland Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L7/00—Arrangements for synchronising receiver with transmitter
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Medical Informatics (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Complex Calculations (AREA)
Abstract
当获取了分布的样本数据时,本发明的计算设备对模型公式的未知参数β进行估计,其中,当获取了β的估计量时,利用随机森林模型对函数g进行估计,当获取了g的估计量时,利用g和β的估计量对函数G进行估计,从而获取G的估计量,并且接收新数据Xnew,从而能够根据算出的值对所述特定项目的类别进行分类,所述函数G是与特定项目对应的新数据的预测公式。
Description
技术领域
本发明涉及一种用于预测特定项目所属类别的二类别分类方法,更具体涉及一种获取独立同分布(independently identically distributed)的样本数据,通过新半参数逻辑回归随机森林方法论(semi parametric logistic regression with randomforests),(i)对模型公式的未知参数进行估计,(ii)利用随机森林模型(random forestmodel)对新数据的预测公式进行估计,从而预测特定项目所属类别的预测方法以及利用该方法的计算设备。
背景技术
分类(classification)是指用于对项目的集合(例如数据样本)进行分割,并且按照在可测量的特性或者特征方面同质类别(homogeneous classes)进行分割的统计过程(statistical process)。一般来说,典型的分类器(例如,是指用于执行分类的电算化系统,但通常也指这些分类方法论本身),首先进行训练(train),以从可用的训练样本的集合中识别关键图案(key pattern),并且对其进行标记。其中,训练是指为了对分类器赋予适当的分类能力而重复计算的过程。被训练过一次的分类器将用于预测之后被输入的数据属于哪种类别。
最近分类中最显著的进步之一为随机森林(random forest,RF)方法论,随机决策森林的概念是由贝尔研究所的Tin Kam Ho于1995年首次提出,并且由Leo Breiman扩展并公式化。本申请中“随机森林”、“随机森林方法论”以及“RF”是指由Leo Breiman说明的分类概念,并非指相同名称的软件商品。随机森林是在结合用于对数据样本进行分类的多个分类树的决策中,应用装袋(bagging)的机器学习的非参数集成接近法。换句话说,随机森林是在生成彼此关联性弱的决策树后,将其线性结合,从而制造最终学习机的方法。随机森林被认为是预测力非常高的方法。另外,随机森林为了赋予最大的随机性(randomness),将自举(bootstrap)和对自变量的随机提取相结合。该特征使得各树的预测值被去相关(decorrelation),结果提升泛化性能。随机提取(decorrelation)使森林对包括噪音的数据也觉有鲁棒性(robust)。随机提取是在各树的训练过程中进行,可以应用作为集成学习法的装袋法和随机节点优化(randomized node optimization)。这两种方法可以同时被使用,以进一步提高随机特性。
作为参考,通过伪代码(pseudo code)简单描述随机森林方法论的算法如下。
(1)For b=1to B;
(1-i)利用训练用样本数据,生成自举标本z。
(1-ii)利用自举标本z,生成(训练)决策树(基础分类器),并且自变量只利用随机抽出的k个。
(2)将这样生成的决策树称为Tb(x),则将所生成的决策树按照(T1(x)+T2(x)+...TB(x))/B进行线性结合(当利用平均方式时)。
例如,现有的应用了经典随机森林(random forest,RF)方法论的分类系统公开于美国授权专利第5930392号,据此,公开了利用初期的随机决策森林进行数据分类的方法以及利用其的系统。特别是,该专利文献涉及图像以及图案的自动分析以及分类,因此,记载了利用图像以及图案的分类以及利用其的图像以及图案的识别技术。
另一方面,在对只具有两种种类(category)或者两种类别(class)的因变量进行预测的方法中,长期使用了逻辑回归方法论,其被本发明所属技术领域的普通技术人员(以下称为“本领域技术人员”)广泛知晓。其中,两种种类为“男人”和“女人”、“特定疾病的患者”和“非患者”、“合法”和“非法”等,对应于彼此不相容的属性的概念,例如,这种方法论多应用于判定是否患有特定疾病的患者与非患者的统计模型。
本发明人在研究用于提高逻辑回归方法论的预测性能的方法的过程中,试图对逻辑回归方法论结合并利用随机森林方法论的方案,该高逻辑回归方法论作为只具有两种种类(category)的因变量的预测方法被长期利用。虽然现有的逻辑回归方法论和随机森林方法论是已知的,但是基本上逻辑回归方法论为参数方法,而随机森林方法为非参数方法,因此不易导出将这两种结合的方案。
对此,本发明人以过去没有实施的方式对逻辑回归模型结合随机森林方法论,由此提出更加准确地进行二类别分类方法的二类别分类方法以及利用其的计算设备。
发明内容
技术问题
本发明的目的在于,提供一种能够以比现有的逻辑回归分析更高的准确率进行二类别分类方法的方法以及利用该方法的计算设备。
具体地,本发明的目的在于,提供一种将逻辑回归方法论和随机森林方法论结合的方案,这两种方法论在现有技术中因具有高准确率而被广泛使用,但是因不易组合而没有被一同使用。
另外,本发明的另一目的在于,与所需的计算量相比,能够以高准确率进行二类别分类方法。
另外,本发明的另一目的在于,作为在现实世界中的各种用途,本发明的方法以及计算设备用于判定所属的类别。
例如,其目的在于提供一种分类方法,当某数据可被分类为两种类别,如属于患有特定疾病的患者还是属于正常人时,用于准确地进行这些分类。
技术方案
用于达成上述的本发明的目的,并实现后述的本发明的特征效果,本发明的特征结构如下。
根据本发明的一实施方式,提供一种用于预测特定项目所属类别的二类别分类方法,该方法包括如下步骤:步骤(a),由计算设备获取独立同分布(independentlyidentically distributed)的样本数据(Y1,X1),...,(Yn,Xn),其中,所述n为所述样本数据的数量,为d维矢量,Yi具有-1或1的值或者被加工成具有-1或者1的值,所述-1以及所述1的值是被设定成分别对应于两种类别的值;步骤(b),当获取了所述样本数据时,所述计算设备对模型公式 的未知参数β进行估计,或者支持对其进行估计,其中,β=(β0,β1,....,βd),所述X表示自变量,所述Y表示因变量,所述函数g为随机森林模型(random forest model)的形式;步骤(c),当获取了所述未知参数β的估计量时,所述计算设备利用所述随机森林模型,对所述函数g进行估计,或者支持对其进行估计;以及步骤(d),当获取了所述函数g的估计量时,所述计算设备利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计,或者支持对其进行估计,从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。
根据一实施例,所述方法可以进一步包括:步骤(e),当获取了所述函数G的估计量并接收所述新数据Xnew时,所述计算设备算出的值,并根据算出的所述的值,对所述特定项目的所述类别进行分类,或者支持对其进行分类。
根据本发明的另一实施方式,提供一种计算设备,执行用于预测特定项目所属类别的二类别分类方法,其包括:通信部,用于获取独立同分布(independently identicallydistributed)的样本数据(Y1,X1),...,(Yn,Xn),其中,所述n为所述样本数据的数量,为d维矢量,Yi具有-1或1的值或者被加工成具有-1或1的值,所述-1以及所述1的值是被设定成分别对应于两种类别的值;以及处理器,当获取了所述样本数据时,对于模型公式 的未知参数β进行估计,或者支持对其进行估计,其中,β=(β0,β1,....,βd),所述X表示自变量,所述Y表示因变量,所述函数g为随机森林模型(random forest model)的形式,当获取了所述未知参数β的估计量时,所述处理器利用所述随机森林模型,对所述函数g进行估计,或者支持对其进行估计,当获取了所述函数g的估计量时,利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计,或者支持对其进行估计,从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。
根据一实施例,当获取了所述函数G的估计量并接收所述新数据Xnew时,所述处理器计算所述的值,并根据算出的所述的值,对所述特定项目的所述类别进行分类,或者支持对其进行分类。
发明效果
根据本发明,与所需的计算量相比,能够以高准确率进行二类别分类方法。
附图说明
以下附图用于说明本发明的实施例,这些附图只是本发明的实施例中的一部分,本领域技术人员无需付出创造性劳动,就可以根据这些附图获得其他附图。
图1是概略地示出计算设备的示例性结构的概念图,该计算设备执行本发明涉及的用于预测特定项目所属类别的二类别分类方法。
图2是示例性示出本发明涉及的用于预测特定项目所属类别的二类别分类方法的流程图。
图3A至3D是示出ROC曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)的图,当对乳腺癌患者和正常人进行分类时,该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。
图4A至4D是示出ROC曲线的图,当对胃癌患者和正常人进行分类时,该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。
具体实施方式
后述对本发明的详细说明将参照附图,附图示出能够实施本发明的特定实施例,以便阐明本发明的目的、技术方案以及优点。详细说明这些实施例,以使本领域技术人员能够充分地实施本发明。
本领域技术人员将理解,在本说明书中,“学习”或“训练”是表示根据步骤获得统计模型的过程的术语,并非旨在指代如人类教育活动等的精神作用。
另外,在本发明的详细说明以及权利要求中,术语“包括”及其变形并非旨在排除其他技术特征、附加物、构成要素或者步骤。对于本领域技术人员来说,本发明的其他目的、优点以及特征中的一部分根据本说明书变得显而易见,还有一部分根据本发明的实施变得显而易见。将以下示例以及附图作为实例提供,但并非旨在限定本发明。
并且,本发明包括本说明书中所记载的实施例的所有可能的组合。应该理解,本发明的多种实施例虽然彼此不同,但不必相互排斥。例如,关于一实施例,在此记载的特定形状、结构及特性在不脱离本发明的精神及范围的情况下,能够以另一实施例实现。另外,在不脱离本发明的精神及范围的情况下,能够改变被公开的各个实施例中的个别构成要素的位置或配置。后述的详细说明并非采取限定含义,只要合理地说明本发明的范围,就仅由与这些权利要求主张等同的全部范围和所附的权利要求来限定。附图中相似的附图标记在多方面指代相同或相似的功能。
除非本说明书另有说明或者明显与上下文矛盾,否则以单数形式提及的项目在其上下文没有另有要求的情况下,包括复数的形式。以下,将参照附图详细说明本发明的优选的实施例,以便本领域技术人员能够易于实施本发明。
计算设备用于实施本发明涉及的方法,其通过利用通常的计算机硬件(例如,可包括计算机处理器、内存、存储器、输入设备以及输出设备、其他现有的计算机系统的构成要素的客户机以及服务器;如电子通讯线、路由器、开关等的电子通信设备;如网络附加存储器(NAS)以及存储区域网络(SAN)的电子信息存储器系统)和计算机软件(即,使得计算机硬件以特定方式发挥功能的命令(instructions))的组合,达成需要的系统性能。
图1示出用于执行本发明涉及的方法的计算设备100,计算设备100包括通信部110以及处理器120。计算设备可根据本发明的方法获取并处理数据,以向用户提供所需的类别分类功能。本领域技术人员将容易理解,本发明的方法将利用如下所述的计算机硬件以及软件的组合来实现。例如,可以利用任何的用于在计算机硬件上实现统计方法的软件,只要其为能够执行规定的运算的R统计包、SPSS、SAS、Mathematica等统计软件或者能够实现这些统计方法的编程语言等即可。
为了方便说明本发明的方法以及计算设备,本说明书中将包含利用用于执行统计分析方法的R统计包(R Development Core Team,(2007).R:A language and environmentfor statistical computing,R Foundation for Statistical Computing,Vienna,Austria.ISBN 3-900051-07-0,URL http://www.R-project.org.)的示例,但是本领域技术人员能够将本发明的示例不限于R统计包这一软件平台,而是利用所需的软件技术,令计算设备执行本发明的方法。
以下,将对本发明涉及的方法进行说明。图2是示例性示出本发明涉及用于预测特定项目所属类别的二类别分类方法的流程图。
参照图2,本发明的方法包括由计算设备100获取独立同分布的样本数据(Y1,X1),...,(Yn,Xn)的S210步骤。其中,所述n为所述样本数据的数量,为d维矢量,因变量Yi具有-1或1的值或者被加工成-1或者1的值。其中,即使在因变量Yi不具有-1或者1的值的情况下,也能够容易地被加工成具有这两者之一的值。
本发明中利用的统计模型为结合半参数逻辑回归方法论以及随机森林方法论的模型(semi parametric logistic regression with random forests)。为了方便说明,将其称为本发明的模型。本发明的模型相当于利用自变量预测只具有两个种类(-1或者1)的因变量的方法论中的新方法论。
作为有助于理解的实例,在以下表1中,提供从受试者(乳腺癌患者和正常人)中获取的生物样本中所包含的特定物质的浓度以及受试者的人口统计信息(例如,年龄)作为样本数据的示例X7。另外,在以下的表1中所使用的生物样本中所包含的物质(X1~X6)可以包含AFP(alpha-fetoprotein,甲胎蛋白)、TTR(Transthyretin,甲状腺素运载蛋白)、CEA(Carcinoembryonic antigen,癌胚抗原)、CA19-9(cancer antigen19-9,癌抗原19-9)、CA125(cancer antigen125,癌抗原125)、ApoA1(ApolipoproteinA-I,栽脂蛋白A-I)。
表1
作为参考,测试数据的示例如表2所示,该测试数据用于利用通过样本数据制作的本发明的模型来进行测试。
表2
例如,R统计包中可以执行通过例如如下指令获取样本数据的所述S210步骤,作为其结果,输入样本数据。
表11
当在S210步骤中获取所述样本数据时,作为下一步骤,本发明的方法进一步包括,计算设备100对模型公式 的未知参数β进行估计,或者支持对其进行估计的S220步骤。
如上述模型公式所示,假设本发明的模型的理由如下。
首先,贝叶斯分类器(Bayes classifier)定义如下:
作为一个示例,假设P(Y=1|x)=0.6,那么P(Y=-1|x)=1-P(Y=1|x)=0.4,G(x)=log(0.6/0.4)/2=0.2027326。由于G(x)大于0,被贝叶斯分类器分类为Y=1。
现在,若以贝叶斯分类器G(x)的形式表示本发明的模型,则表示如下。即,结合半参数逻辑回归方法论以及随机森林方法论的模型的假设如下:
数学式1:
其中,Y表示因变量,在数学式表达上,Y只具有相当于-1或者1的两个种类的值。另外,X=(1,X1,...,XD)T表示自变量,D为自变量的数量。即,Xi表示第i个自变量(第i个自变量)。
β=(β0,β1,....,βd)为未知参数,函数g作为以随机森林模型的形式形成的函数,是关于X的函数。
作为一个示例,G(X)为贝叶斯分类器,假设X=(1,2,3)T,β=(4,5,6)T,g(x)=7。即,假设已知β和g。那么,形成G(x)=xT β+g(x)=(1,2,3)(4,5,6)T+7=14+25+36+7=32+7=39,由于G(x)大于0,所以被分类为Y=1。
为了估计数学式1的位置参数β和非参数g,最为理想的是,将使损失函数(lossfunction)L(y,G(x))或者Ly(G(x))最小化的β和g定义为估计值。将损失函数定义为负二项式对数似然(negative binomial log likelihood)时,可表示如下:y∈{-1,1}。将使该损失函数最小化的和定义为时,可以表示为但是难以对其进行直接计算。
因此,本发明中,为了估计数学式1的未知参数β和非参数g,将利用向后拟合法(backfitting method)。向后拟合方法如下:
将上述第一个数学式在作为第一步骤的S220步骤中解决,并且将第二数学式在作为第二步骤的S230步骤中解决。
在作为第一步骤的S220步骤中,将采用逻辑回归的接近法,作为用于预测未知参数β的方法,并且作为以被估计的在第二步骤S230中估计未知非参数g的方法,将利用负梯度(negative gradient,梯度的负值)。
现在,采用逻辑回归的接近法,作为从数学式1估计未知参数β的方法。在该S220步骤中,根据
通过逻辑回归接近法,可估计β。对逻辑回归模型的简略说明如下。以下数学式2示出逻辑回归模型。
数学式2:
观察其形态,可知在逻辑回归模型中的与本发明的模型中的β起到相似的作用。另外,逻辑回归方法也对使相同的损失函数最小化的未知参数βglm进行估计。因此,在逻辑回归中估计的βglm除以2,可导出即β估计值。将如此导出的β称作
由此可知,将逻辑回归模型的估计量设为则和之间满足
在R统计包中,可通过例如如下的指令来求出
表12
例如,利用表1的样本数据来求出则可以确认如下的值。
表13
即,
重新参照图2,本发明的方法进一步包括S230步骤:当获取了所述未知参数β的估计量时,计算设备100利用所述随机森林模型对所述函数g进行估计,或者支持对其进行估计。那么,本发明的方法进行S240步骤:计算设备100利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计,或者支持对其进行估计,从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。
在对所述函数g进行估计或者支持对其进行估计的S230步骤中,具体地,可以利用负梯度。
由于在S220步骤中获得所以将xTβ+g(x)代入到损失函数G(x)中时,损失函数将变成在S220步骤中,使损失函数在中最小化。为了进一步减小损失函数,将G(x)从按照负梯度移动。
从损失函数求出获取负梯度,则变成如下。
通过例题,简单观察当按照负梯度移动时,能够减小损失函数。所述图1的训练数据的第一个数据的y1为1、为-0.405374、r1为1.199956。当时,L(y,)=log[1+exp{-2*1*(-0.405374+1)}]=1.178529。但是,当从按照负梯度移动而变成时,成为L(y,+r1)=log[1+exp{-2*1*(-0.405374+1*1.199956)}]=0.1857292,变得更小。
如此,对随机森林(random forest)拟合(fitting)数据,求出RF(x),从而可以估计g。
总而言之,S230步骤可以包括如下步骤:S232步骤,计算设备100算出以及S234步骤,计算设备100利用随机森林(random forest)对数据进行拟合,从而算出作为所述拟合的结果的函数RF(x),关于规定的整定参数λ=γ,根据g(x)=λ*RF(x),对所述函数g进行估计,或者支持对其进行估计。
当不考虑整定参数时,即,λ=γ=1时,观察利用表1中提供的示例性样本数据来求出ri值的示例,则如下表3所示。
表3
在表1的样本数据中,关于第一个(i=1)样本数据,为了求出ri,首先在样本数据中假设Y=癌时,y=1,而Y=正常时,y=-1,那么,S220步骤中求出=(62.40686469,-2.00244054,-3.29727188,…)T。由于第一个样本是癌患者的样本,所以y1=1。
=(1,0.227887,6.09691,…)*(62.40686469,-2.00244054,-3.29727188,...)T=1*62.40686469+0.2278878*(-2.00244054)+6.09691*(-3.29727188)+…=-0.202687。
并且,exp(-2*y1*)=exp(-2*1*-0.202687)=1.499863,r1=2*y1*exp(-2*y1*)/{1+exp(-2*y1*)}=2*1*1.499863/(1+1.499863)=1.199956。
以相同的方式,对示例性样本数据的所有样本数据,求出ri。
利用R统计包,则可以通过例如如下的指令来执行这些各个步骤。
表14
通过此,可以预测例如所述表2的测试数据的第一个数据的Y值。
表15
但是,在没有整定参数的情况下直接利用上述的随机森林时,具有无法使损失函数最小化的缺点。因此,当对RF(x)赋予整定参数λ时,能够实现最小化,关于整定参数为1时损失函数不是最佳的理由,简略说明如下。
将以上述表1的训练数据的第一个数据为例,进行说明。y1为1、为-0.405374、r1为1.199956。整定参数为1,仅按照负梯度移动(即,G(x1)=+r1),则L(y,+r1)=log[1+exp{-2*1*(-0.405374+1*1.199956)}]=0.1857292)。但是,当整定参数为2时(即,G(x1)=+2*r1),L(y,G(x1)为log[1+exp{-2*1*(-0.405374+2*1.199956)}]=0.01834747,变得更小。即,当整定参数为不是1的其他数时,可以使损失函数最小化。
对于所述规定的整定参数λ进行估计的一种解决方法是,以下说明的第一方法。
在第一方法中,数学式1可以写成其具有如同无截距逻辑回归模型(no intercept logistic regression model)的形式。无截距逻辑回归模型如下。另外,为了方便起见,假设自变量a只有1个。那么,
其中,Y表示因变量,在数学式表达中,Y只具有-1或者1的两个种类。另外,a表示自变量的值。并且,λ为未知参数。并且,假设已知无截距逻辑回归模型的截距b,则数学式1将变成如下形式:
其中,b为已知截距,因此,可将以下数学式看作是无截距逻辑回归模型:
即,可以将Y作为因变量,2RF作为自变量a,作为已知的截距b,λ作为未知参数。那么,通过逻辑回归方法,可以导出λ,将如此导出的λ称作
利用R统计包,则可以通过例如如下的指令,对表1的样本数据的第一个数据,求出2RF(x1)值。
表16
整理适用所述规定的整定参数λ的最终本发明的模型成为
如此考虑整定参数的情况,表2中提供的示例测试数据中,表示预测第一个数据的Y值,如下表4。
表4
如上所述,求值,则如下:
x=(1,0.361728,6.041393,…)T,
=(62.40686469,-2.00244054,-3.29727188,…)T,
=1.652886
那么,作为示例性的RF(x)值,可以算出如下的值:
RF(x)=-0.0345803。
例如,用于利用R统计包来求出所述RF(x)的指令可以如下。
表17
那么,根据考虑了整定参数的本发明的模型,计算为=(1,0.361728,6.041393,…)*(62.40686469,-2.00244054,-3.29727188,…)T+1.652886*(-0.0345803)=[1*62.40686469+0.361728*(-2.00244054)+6.041393*(-3.29727188)+…]+1.652886*(-0.0345803)=0.5805196+-0.05715729=0.5233623,由于0.5233623大于0,因此Y=1,即被分类为癌症患者。对其余测试数据,也能以相同的方法运行。
重新参照图2,本发明的方法可以进一步包括S250步骤:当获取了相当于上述获取的模型的所述函数G的估计量并接收所述新数据Xnew时,计算设备100算出(Xnew)的值,并根据算出的所述(Xnew)值,对所述特定项目的所述类别进行分类,或者支持对其进行分类,由此,通过被训练的分类器,实现类别分类,在前述的示例中已对其进行了说明。
考虑到这些类别分类的实际应用事例,对于本发明中所要分类的两种类别,例如,可以设定成分别属于特定疾病的患者的类别和不属于所述特定疾病的患者的类别。这种情况下,所述样本数据分别可以是从个别受试者中获取的变量,并且所述样本数据各自的自变量Xij分别可以是从个别受试者中获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。特别是实际应用本发明的方法以与现有的技术形成对比的特定疾病为,乳腺癌(Breast Cancer,用BC表示)以及胃癌(Stomach Cancer,用SC表示)。
为了证明本发明的方法实际上优秀,本发明人利用了由韩国的株式会社Bioinfra(Bioinfra Inc.,Republic of Korea)获取的乳腺癌以及胃癌相关的两个不同的实际数据集。该数据集的概要如下表5所示,为了帮助理解本发明,其一部分已通过表1以及2提供。
表5
数据集 | 输入编号(Number of inputs) | 数量(Size) | 数量(Y=1) | 数量(Y=-1) |
BC | 7 | 554 | 307 | 247 |
SC | 7 | 951 | 359 | 592 |
表5中“BC”是指乳腺癌(breast cancer),“SC”是指胃癌(stomach cancer)。关于数据集的大小,乳腺癌为554个,胃癌为951个。从乳腺癌的数据集中被判定为乳腺癌的乳腺癌患者(Y=1)的人数为307,正常人(Y=-1)的人数为247,从胃癌的数据集中被判定为胃癌的胃癌患者(Y=1)的人数为359,正常人(Y=-1)的人数为592。
本发明人随机分割各个数据集,将80%用作训练用(样本)数据集,并且将20%用作测试集。对现有的逻辑回归模型和本发明的模型,进行了性能的比较,用于测定性能的输出值为经验误差率(empirical error rate)、负二项式对数似然的平均值(mean ofnegative binomial log likelihood)的平均值、以及测试集的观测值和预测值之间的ROC-AUC的平均值。
简略说明经验误差率,例如,因变量的预测值按顺序为(癌,癌,癌,正常,癌,癌),实际的因变量值为(癌,癌,癌,癌,癌,癌)时,经验误差率计算为1/6=0.1666667,这种经验误差率越低越好。作为参考,从表2的数据计算的经验误差率,对本发明的模型为0.1272727,而对逻辑回归模型为0.1636364。
另外,简略说明负二项式对数似然(negative binomial log likelihood),负二项式对数似然被定义为log(1+exp(-2yG(x))),y∈{-1,1},其中,G(x)表示贝叶斯分类器。负二项式对数似然的平均越小,表示越接近实际地实现分类,因此优选。作为参考,从表2的数据计算的负二项式对数似然的平均值,对本发明的模型为0.2580402,而对逻辑回归模型为0.3367284。
并且,简略说明ROC-AUC(area under curve,曲线下面积),首先ROC曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)是用于评估分类器的性能的工具,ROC的AUC表示在整个曲线图中曲线下面积所占之比。
简略说明ROC曲线,首先ROC曲线图的横轴表示的数值为1-特异性(specificity)=假正率(false positive rate),特异性是被定义为特异性(specificity)=真负类(true negative)/(假正类(false positive)+真负类(true negative))的值。即,特异性是指将“错(假)”判断为错的比率,因此可以认为在曲线图中越向左侧倾斜,将“对(真)”判断为错的误判的比率缩小。另外,在ROC曲线图的竖轴中表示的数值为敏感性(sensitivity)=真正率(true positive rate),敏感性被定义为敏感性(sensitivity)=真正类(true positive)/(真正类(true positive)+假负类(false negative))。即,敏感性是指将“对”判断为对的比率,因此在曲线图中越向上倾斜,可以认为是将“错”判断为对的误判的比率减少。因此,分类器判断越准确,在曲线图中曲线下面积(AUC,area undercurve)越增加。当分类器连一个准确判断的分类性能也没有时,AUC将变成0.5。通常,根据AUC数值可以分类成无诊断价值(AUC=0.5)、不太准确(0.5<AUC≤≤0.7)、中等准确(0.7<AUC≤≤0.9)、非常准确(0.9<AUC<1)、以及完美的检查(AUC1)。总而言之,ROC的AUC越大越好。作为参考,由表2的数据计算的AUC,对本发明的模型为0.9663978,而对逻辑回归模型为0.9301075。
前面观察的表2的数据显示出测试集整体中的一部分,以下,对于以表5概括的测试集整体,说明算出的数值。
以下表6显示了从测试集中算出的经验误差率(empirical error rate)的平均值,标准偏差显示在括号内。在表6中,显示了对现有的逻辑回归方法论(logisticregression)和本发明的方法论(semi parametric logistic regression with randomforests)的数值,从而比较性能。此时,用于获取平均值和标准偏差的计算的重复次数为1000次。
表6
数据集 | 逻辑回归 | 半参数逻辑+RF |
BC | 0.1822545(0.03315503) | 0.1377091(0.02968256) |
SC | 0.1122895(0.01886945) | 0.09069474(0.01840933) |
参照图6,可知本发明的方法论表现出比现有的逻辑回归方法论更低的经验误差率的平均值。可知即使考虑到偏差,本发明的方法有意义地更加优秀。
另外,以下表7如表6显示了从测试集算出的负二项式对数似然的平均值(mean ofnegative binomial log likelihood)的平均值,标准偏差显示在括号内。用于获取平均值和标准偏差的计算的重复次数也是1000次。
表7
数据集 | 逻辑回归 | 半参数逻辑+RF |
BC | 0.3851621(0.05138304) | 0.3167532(0.04919694) |
SC | 0.3032058(0.04085424) | 0.251254(0.04079957) |
参照图7,可知本发明的方法论表现出比现有的逻辑回归方法论更低的负二项式对数似然的平均值。这表示基于本发明的方法的拟合(fitting)比现有的逻辑回归方法论更接近实际分类。
另外,以下表8同样显示了从相同的测试集算出的ROC-AUC(area under curve,模型评估指标)的平均值,标准偏差显示在括号内。同样地,用于获取平均值和标准偏差的计算的重复次数为1000次。
表8
数据集 | 逻辑回归 | 半参数逻辑+RF |
BC | 0.9074627(0.02485286) | 0.9396223(0.01987292) |
SC | 0.9403305(0.01544577) | 0.9588379(0.01310146) |
作为参考,图3A~3D是示出ROC曲线的图,当对乳腺癌患者和正常人进行分类时,该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。图4A~4D是示出ROC曲线的图,当对胃癌患者和正常人进行分类时,该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。
图3A至3D以及图4A至4D示出关于对测试集进行的最初4次计算的个别方法各自的ROC。
根据图3A~3D及4A~4D,本领域技术人员可知,在从正常人中分类出乳腺癌患者或胃癌患者的整体性能方面,本发明的方法比现有逻辑回归模型更加优秀。
参照在数值上整理出相同结论的表7,可知本发明的方法论表现出比现有的逻辑回归方法论更高的AUC平均值。这表示本发明的方法的分类性能更加优秀。
如此,在本发明的前述的所有实施例中,与现有的方法相比,本发明的方法能够对与输入数据对应的的特定项目所属类别更加准确地进行分类。
通过所述实施例在此说明的技术的优点在于,无需显著加大计算量,也能提高分类的准确率。并且,改良常用于现有的二类别分类方法的逻辑回归模型,从而开发出能够普遍用于二类别分类方法的通用模型是非凡的成就。
根据上述实施例的说明,本领域技术人员可以明确理解本发明能够通过软件以及硬件的结合来达成,或者仅凭硬件也能达成。本发明的技术方案的对象体或者有助于现有技术的部分可以以程序指令的形式实现,并记录在计算机可读记录介质上,该程序指令可以通过多种计算机构成要素执行。所述计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在所述计算机可读记录介质中的程序指令可以是为了本发明专门设计并构成的,或者也由可以是计算机软件领域的技术人员公知并使用的。计算机可读介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录媒介,诸如光盘(floptical disk)的磁光介质(magneto-optical media)以及特别形成为存储并执行诸如ROM、RAM、闪存等存储程序指令的硬件设备。程序指令的示例包括诸如由编译器生成的机器语言代码以及可以由计算机使用解释器等执行的高级语言代码。所述硬件设备能够作为一个以上的软件模块操作,以便执行本发明涉及的处理,反之亦然。所述硬件设备可以包括CPU、GPU等处理器,以便结合到用于存储程序指令的ROM/RAM等存储器,并执行所述存储器内所存储的指令,并且可以包括能与外部设备交换信号的通信部。并且,所述硬件设备可以包括用于接收由开发者编写的指令的键盘、鼠标、其他外部输入设备。
以上,本发明对具体构成要素等特定事项和被限定的实施例以及附图进行说明,但是这只是为了有助于更加全面理解本发明而提供的,本发明并非限定于所述实施例,本领域技术人员能够从这些记载进行各种修改和变形。
因此,本发明的思想不限于上述说明的实施例,后述的权利要求书以及与该权利要求书等同或等效的所有变形均属于本发明的思想范围内。
这种等同或者等效变形的方法包括,例如能够与实施本发明涉及的方法具有相同结果的,数学上等价或者逻辑上等价(mathematically equivalent or logicallyequivalent)的方法。
Claims (18)
1.一种用于预测特定项目所属类别的二类别分类方法,其包括以下步骤:
步骤(a),由计算设备获取独立同分布(independently identically distributed)的样本数据(Y1,X1),...,(Yn,Xn),其中,所述n为所述样本数据的数量,为d维矢量,Yi具有-1或1的值或者被加工成具有-1或1的值,所述-1以及所述1的值是被设定成分别对应于两种类别的值;
步骤(b),当获取了所述样本数据时,所述计算设备对模型公式 的未知参数β进行估计,或者支持对其进行估计,其中,β=(β0,β1,...,βd),所述X表示自变量,所述Y表示因变量,所述函数g为随机森林模型(random forest model)的形式;
步骤(c),当获取了所述未知参数β的估计量时,所述计算设备利用所述随机森林模型,对所述函数g进行估计,或者支持对其进行估计;以及
步骤(d),当获取了所述函数g的估计量时,所述计算设备利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计,或者支持对其进行估计,从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。
2.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,其进一步包括:
步骤(e),当获取了所述函数G的估计量并接收所述新数据Xnew时,所述计算设备算出的值,并根据算出的所述的值,对所述特定项目的所述类别进行分类,或者支持对其进行分类。
3.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
在所述步骤(b)中,
所述未知参数β的估计量通过下式求出:
其中,所述yi表示第i样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值,
所述D表示自变量的数量。
4.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
在所述步骤(c)中,
所述函数g的估计量表示为:
其通过负梯度以及规定的整定参数λ>=0来求出,
其中,所述yi表示第i个样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值。
5.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
所述步骤(c)包括,
步骤(c1),由所述计算设备算出
所述yi表示第i个样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值,
所述D表示自变量的数量;以及
步骤(c2),当算出了所述ri时,所述计算设备利用随机森林(random forest)对数据进行拟合(fitting),从而算出作为所述拟合的结果的函数RF(x),关于规定的整定参数λ,根据g(x)=λ*RF(x),对所述函数g进行估计,或者支持对其进行估计。
6.根据权利要求4或5所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
所述规定的整定参数λ满足λ=1。
7.根据权利要求4或5所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
所述规定的整定参数λ是利用无截距逻辑回归模型(no intercept logisticregression model)来算出的。
8.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
所述两种类别分别被设定成属于特定疾病的患者以及不属于所述特定疾病的患者,
所述样本数据各自的自变量Xij分别是从个别受试者中获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。
9.根据权利要求8所述的用于预测特定项目所属类别的二类别分类方法,其特征在于,
所述特定疾病为乳腺癌或者胃癌。
10.一种计算设备,执行用于预测特定项目所属类别的二类别分类方法,其特征在于,包括:
通信部,用于获取独立同分布(independently identically distributed)的样本数据(Y1,X1),...,(Yn,Xn),其中,所述n为所述样本数据的数量,为d维矢量,Yi具有-1或1的值或者被加工成具有-1或1的值,所述-1以及所述1的值是被设定成分别对应于两种类别的值;以及
处理器,当获取了所述样本数据时,对于模型公式 的未知参数β进行估计,或者支持对其进行估计,其中,β=(β0,β1,...,βd),所述X表示自变量,所述Y表示因变量,所述函数g为随机森林模型(random forest model)的形式,
当获取了所述未知参数β的估计量时,所述处理器利用所述随机森林模型,对所述函数g进行估计,或者支持对其进行估计,当获取了所述函数g的估计量时,利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计,或者支持对其进行估计,从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。
11.根据权利要求10所述的计算设备,其特征在于,
当获取了所述函数G的估计量并接收所述新数据Xnew时,所述处理器计算所述的值,并根据算出的所述的值,对所述特定项目的所述类别进行分类,或者支持对其进行分类。
12.根据权利要求10所述的计算设备,其特征在于,
所述未知参数β的估计量通过下式求出:
其中,所述yi表示第i个样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值,
所述D表示自变量的数量。
13.根据权利要求10所述的计算设备,其特征在于,
所述函数g的估计量表示为:
其通过负梯度以及规定的整定参数λ>=0来获取,
其中,所述yi表示第i个样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值。
14.根据权利要求10所述的计算设备,其特征在于,
为了利用所述随机森林模型对所述函数g进行估计,或者支持对其进行估计,
所述处理器算出
其中,所述yi表示第i个样本数据的实际观测到的Y值,
所述Xi=(1,Xi1,…,XiD)T表示所述第i个样本数据的实际观测到的X值,
所述Xij表示所述第i个样本数据的实际观测到的X值的第j个自变量值,
所述D表示自变量的数量;
当算出了所述ri时,所述处理器利用随机森林(random forest)对数据进行拟合(fitting),从而算出作为所述拟合的结果的函数RF(x),关于规定的整定参数λ,根据g(x)=λ*RF(x),对所述函数g进行估计,或者支持对其进行估计。
15.根据权利要求13或14所述的计算设备,其特征在于,
所述规定的整定参数λ满足λ=1。
16.根据权利要求13或14所述的计算设备,其特征在于,
所述规定的整定参数λ是利用无截距逻辑回归模型(no intercept logisticregression model)来算出的。
17.根据权利要求10所述的计算设备,其特征在于,
所述两种类别分别被设定成属于特定疾病的患者以及不属于所述特定疾病的患者,
所述样本数据各自的自变量Xij分别是从个别受试者获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。
18.根据权利要求17所述的计算设备,其特征在于,
所述特定疾病为乳腺癌或者胃癌。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160149120A KR101747783B1 (ko) | 2016-11-09 | 2016-11-09 | 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 |
KR10-2016-0149120 | 2016-11-09 | ||
PCT/KR2017/012690 WO2018088825A1 (ko) | 2016-11-09 | 2017-11-09 | 특정 항목이 속하는 클래스를 예측하기 위한 2-클래스 분류 방법 및 이를 이용하는 컴퓨팅 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109937421A true CN109937421A (zh) | 2019-06-25 |
CN109937421B CN109937421B (zh) | 2024-04-30 |
Family
ID=59217227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780069360.9A Active CN109937421B (zh) | 2016-11-09 | 2017-11-09 | 用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11461704B2 (zh) |
EP (1) | EP3540648A4 (zh) |
KR (1) | KR101747783B1 (zh) |
CN (1) | CN109937421B (zh) |
WO (1) | WO2018088825A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11409549B2 (en) | 2018-10-15 | 2022-08-09 | AIble Inc. | Interface for generating models with customizable interface configurations |
US10586164B1 (en) | 2018-10-15 | 2020-03-10 | AIble Inc. | Interface for visualizing and improving model performance |
US10936768B2 (en) * | 2018-10-15 | 2021-03-02 | Aible, Inc. | Interface for visualizing and improving model performance |
US20230169564A1 (en) * | 2021-11-29 | 2023-06-01 | Taudata Co., Ltd. | Artificial intelligence-based shopping mall purchase prediction device |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130004203A (ko) * | 2012-11-26 | 2013-01-09 | 주식회사 바이오인프라 | 폐암 진단용 복합 바이오마커 정보 이용 방법 |
CN103257921A (zh) * | 2013-04-16 | 2013-08-21 | 西安电子科技大学 | 一种基于改进随机森林算法的软件故障预测系统及其方法 |
WO2016096309A1 (en) * | 2014-12-15 | 2016-06-23 | Asml Netherlands B.V. | Optimization based on machine learning |
US20160196236A1 (en) * | 2015-01-07 | 2016-07-07 | Umm Al-Qura University | Method for estimating and predicting parameters of exponentiated weibull model |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5930392A (en) * | 1996-07-12 | 1999-07-27 | Lucent Technologies Inc. | Classification technique using random decision forests |
FR2754080B1 (fr) * | 1996-10-01 | 1998-10-30 | Commissariat Energie Atomique | Procede d'apprentissage pour la classification de donnees selon deux classes separees par une surface separatrice d'ordre 1 ou 2 |
JP2005524124A (ja) * | 2001-10-17 | 2005-08-11 | コモンウェルス サイエンティフィック アンド インダストリアル リサーチ オーガニゼーション | システムの診断構成要素を識別するための方法および装置 |
AU2003290537A1 (en) * | 2002-10-24 | 2004-05-13 | Duke University | Binary prediction tree modeling with many predictors and its uses in clinical and genomic applications |
WO2009078096A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 二クラス分類予測モデルの作成方法、分類予測モデル作成のためのプログラムおよび二クラス分類予測モデルの作成装置 |
RU2517286C2 (ru) * | 2008-04-25 | 2014-05-27 | Конинклейке Филипс Электроникс Н.В. | Классификация данных выборок |
US8306942B2 (en) * | 2008-05-06 | 2012-11-06 | Lawrence Livermore National Security, Llc | Discriminant forest classification method and system |
KR20120075570A (ko) * | 2010-12-15 | 2012-07-09 | 권영식 | 통합 재난 관리 활동 인증(측정, 보고, 검증) 시스템 및 방법 |
US8744172B2 (en) * | 2011-06-15 | 2014-06-03 | Siemens Aktiengesellschaft | Image processing using random forest classifiers |
MX347850B (es) | 2012-05-03 | 2017-05-16 | Medial Res Ltd | Métodos y sistemas para evaluar un riesgo de un cáncer gastrointestinal. |
US20160283686A1 (en) | 2015-03-23 | 2016-09-29 | International Business Machines Corporation | Identifying And Ranking Individual-Level Risk Factors Using Personalized Predictive Models |
-
2016
- 2016-11-09 KR KR1020160149120A patent/KR101747783B1/ko active IP Right Grant
-
2017
- 2017-11-09 WO PCT/KR2017/012690 patent/WO2018088825A1/ko unknown
- 2017-11-09 EP EP17868577.2A patent/EP3540648A4/en active Pending
- 2017-11-09 CN CN201780069360.9A patent/CN109937421B/zh active Active
- 2017-11-09 US US16/348,455 patent/US11461704B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130004203A (ko) * | 2012-11-26 | 2013-01-09 | 주식회사 바이오인프라 | 폐암 진단용 복합 바이오마커 정보 이용 방법 |
CN103257921A (zh) * | 2013-04-16 | 2013-08-21 | 西安电子科技大学 | 一种基于改进随机森林算法的软件故障预测系统及其方法 |
WO2016096309A1 (en) * | 2014-12-15 | 2016-06-23 | Asml Netherlands B.V. | Optimization based on machine learning |
US20160196236A1 (en) * | 2015-01-07 | 2016-07-07 | Umm Al-Qura University | Method for estimating and predicting parameters of exponentiated weibull model |
Also Published As
Publication number | Publication date |
---|---|
US20190318266A1 (en) | 2019-10-17 |
KR101747783B1 (ko) | 2017-06-15 |
CN109937421B (zh) | 2024-04-30 |
US11461704B2 (en) | 2022-10-04 |
WO2018088825A1 (ko) | 2018-05-17 |
EP3540648A1 (en) | 2019-09-18 |
EP3540648A4 (en) | 2020-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ferreira et al. | A comparison of hierarchical methods for clustering functional data | |
Matteson et al. | A nonparametric approach for multiple change point analysis of multivariate data | |
Dolnicar et al. | Evaluation of structure and reproducibility of cluster solutions using the bootstrap | |
Cuevas et al. | Cluster analysis: a further approach based on density estimation | |
Deng et al. | Bayesian aggregation of order-based rank data | |
CN109937421A (zh) | 用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备 | |
CN111612039A (zh) | 异常用户识别的方法及装置、存储介质、电子设备 | |
Fanaee-T et al. | Multi-aspect-streaming tensor analysis | |
Hashemian et al. | Socioeconomic characterization of regions through the lens of individual financial transactions | |
Chen et al. | Identifying home locations in human mobility data: an open-source R package for comparison and reproducibility | |
Hua et al. | A comprehensive and comparative review of optimal cut-points selection methods for diseases with multiple ordinal stages | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
de Andrade Silva et al. | An experimental study on the use of nearest neighbor-based imputation algorithms for classification tasks | |
Shitharth et al. | Development of edge computing and classification using the internet of things with incremental learning for object detection | |
Waegeman et al. | On the scalability of ordered multi-class ROC analysis | |
Calabrese | Optimal cut-off for rare events and unbalanced misclassification costs | |
Rodríguez-Álvarez et al. | ROCnReg: an R package for receiver operating characteristic curve inference with and without covariates | |
Li et al. | Network estimation by mixing: Adaptivity and more | |
Watson et al. | Differentially private shapley values for data evaluation | |
Nikoloulopoulos | Hybrid copula mixed models for combining case-control and cohort studies in meta-analysis of diagnostic tests | |
Cabitza et al. | Global interpretable calibration index, a new metric to estimate machine learning models’ Calibration | |
De la Cruz et al. | Logistic regression when covariates are random effects from a non‐linear mixed model | |
Liu et al. | Log-rank-type tests for equality of distributions in high-dimensional spaces | |
Azzalini et al. | Density-based clustering with non-continuous data | |
Pandove et al. | General correlation coefficient based agglomerative clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |