CN109937421A

CN109937421A - 用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备

Info

Publication number: CN109937421A
Application number: CN201780069360.9A
Authority: CN
Inventors: 金哲右; 金容大; 姜京男; 权五兰
Original assignee: Baiao Medical Welfare Co Ltd
Current assignee: Baiao Medical Welfare Co Ltd
Priority date: 2016-11-09
Filing date: 2017-11-09
Publication date: 2019-06-25
Anticipated expiration: 2037-11-09
Also published as: US20190318266A1; KR101747783B1; CN109937421B; US11461704B2; WO2018088825A1; EP3540648A1; EP3540648A4

Abstract

当获取了分布的样本数据时，本发明的计算设备对模型公式的未知参数β进行估计，其中，当获取了β的估计量时，利用随机森林模型对函数g进行估计，当获取了g的估计量时，利用g和β的估计量对函数G进行估计，从而获取G的估计量，并且接收新数据X_new，从而能够根据算出的值对所述特定项目的类别进行分类，所述函数G是与特定项目对应的新数据的预测公式。

Description

用于预测特定项目所属类别的二类别分类方法以及利用该方法的计算设备

技术领域

本发明涉及一种用于预测特定项目所属类别的二类别分类方法，更具体涉及一种获取独立同分布(independently identically distributed)的样本数据，通过新半参数逻辑回归随机森林方法论(semi parametric logistic regression with randomforests)，(i)对模型公式的未知参数进行估计，(ii)利用随机森林模型(random forestmodel)对新数据的预测公式进行估计，从而预测特定项目所属类别的预测方法以及利用该方法的计算设备。

背景技术

分类(classification)是指用于对项目的集合(例如数据样本)进行分割，并且按照在可测量的特性或者特征方面同质类别(homogeneous classes)进行分割的统计过程(statistical process)。一般来说，典型的分类器(例如，是指用于执行分类的电算化系统，但通常也指这些分类方法论本身)，首先进行训练(train)，以从可用的训练样本的集合中识别关键图案(key pattern)，并且对其进行标记。其中，训练是指为了对分类器赋予适当的分类能力而重复计算的过程。被训练过一次的分类器将用于预测之后被输入的数据属于哪种类别。

最近分类中最显著的进步之一为随机森林(random forest，RF)方法论，随机决策森林的概念是由贝尔研究所的Tin Kam Ho于1995年首次提出，并且由Leo Breiman扩展并公式化。本申请中“随机森林”、“随机森林方法论”以及“RF”是指由Leo Breiman说明的分类概念，并非指相同名称的软件商品。随机森林是在结合用于对数据样本进行分类的多个分类树的决策中，应用装袋(bagging)的机器学习的非参数集成接近法。换句话说，随机森林是在生成彼此关联性弱的决策树后，将其线性结合，从而制造最终学习机的方法。随机森林被认为是预测力非常高的方法。另外，随机森林为了赋予最大的随机性(randomness)，将自举(bootstrap)和对自变量的随机提取相结合。该特征使得各树的预测值被去相关(decorrelation)，结果提升泛化性能。随机提取(decorrelation)使森林对包括噪音的数据也觉有鲁棒性(robust)。随机提取是在各树的训练过程中进行，可以应用作为集成学习法的装袋法和随机节点优化(randomized node optimization)。这两种方法可以同时被使用，以进一步提高随机特性。

作为参考，通过伪代码(pseudo code)简单描述随机森林方法论的算法如下。

(1)For b＝1to B；

(1-i)利用训练用样本数据，生成自举标本z。

(1-ii)利用自举标本z，生成(训练)决策树(基础分类器)，并且自变量只利用随机抽出的k个。

(2)将这样生成的决策树称为T_b(x)，则将所生成的决策树按照(T₁(x)+T₂(x)+...T_B(x))/B进行线性结合(当利用平均方式时)。

例如，现有的应用了经典随机森林(random forest，RF)方法论的分类系统公开于美国授权专利第5930392号，据此，公开了利用初期的随机决策森林进行数据分类的方法以及利用其的系统。特别是，该专利文献涉及图像以及图案的自动分析以及分类，因此，记载了利用图像以及图案的分类以及利用其的图像以及图案的识别技术。

另一方面，在对只具有两种种类(category)或者两种类别(class)的因变量进行预测的方法中，长期使用了逻辑回归方法论，其被本发明所属技术领域的普通技术人员(以下称为“本领域技术人员”)广泛知晓。其中，两种种类为“男人”和“女人”、“特定疾病的患者”和“非患者”、“合法”和“非法”等，对应于彼此不相容的属性的概念，例如，这种方法论多应用于判定是否患有特定疾病的患者与非患者的统计模型。

本发明人在研究用于提高逻辑回归方法论的预测性能的方法的过程中，试图对逻辑回归方法论结合并利用随机森林方法论的方案，该高逻辑回归方法论作为只具有两种种类(category)的因变量的预测方法被长期利用。虽然现有的逻辑回归方法论和随机森林方法论是已知的，但是基本上逻辑回归方法论为参数方法，而随机森林方法为非参数方法，因此不易导出将这两种结合的方案。

对此，本发明人以过去没有实施的方式对逻辑回归模型结合随机森林方法论，由此提出更加准确地进行二类别分类方法的二类别分类方法以及利用其的计算设备。

发明内容

技术问题

本发明的目的在于，提供一种能够以比现有的逻辑回归分析更高的准确率进行二类别分类方法的方法以及利用该方法的计算设备。

具体地，本发明的目的在于，提供一种将逻辑回归方法论和随机森林方法论结合的方案，这两种方法论在现有技术中因具有高准确率而被广泛使用，但是因不易组合而没有被一同使用。

另外，本发明的另一目的在于，与所需的计算量相比，能够以高准确率进行二类别分类方法。

另外，本发明的另一目的在于，作为在现实世界中的各种用途，本发明的方法以及计算设备用于判定所属的类别。

例如，其目的在于提供一种分类方法，当某数据可被分类为两种类别，如属于患有特定疾病的患者还是属于正常人时，用于准确地进行这些分类。

技术方案

用于达成上述的本发明的目的，并实现后述的本发明的特征效果，本发明的特征结构如下。

根据本发明的一实施方式，提供一种用于预测特定项目所属类别的二类别分类方法，该方法包括如下步骤：步骤(a)，由计算设备获取独立同分布(independentlyidentically distributed)的样本数据(Y₁，X₁)，...，(Y_n，X_n)，其中，所述n为所述样本数据的数量，为d维矢量，Y_i具有-1或1的值或者被加工成具有-1或者1的值，所述-1以及所述1的值是被设定成分别对应于两种类别的值；步骤(b)，当获取了所述样本数据时，所述计算设备对模型公式的未知参数β进行估计，或者支持对其进行估计，其中，β＝(β₀，β₁，....，β_d)，所述X表示自变量，所述Y表示因变量，所述函数g为随机森林模型(random forest model)的形式；步骤(c)，当获取了所述未知参数β的估计量时，所述计算设备利用所述随机森林模型，对所述函数g进行估计，或者支持对其进行估计；以及步骤(d)，当获取了所述函数g的估计量时，所述计算设备利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计，或者支持对其进行估计，从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。

根据一实施例，所述方法可以进一步包括：步骤(e)，当获取了所述函数G的估计量并接收所述新数据X_new时，所述计算设备算出的值，并根据算出的所述的值，对所述特定项目的所述类别进行分类，或者支持对其进行分类。

根据本发明的另一实施方式，提供一种计算设备，执行用于预测特定项目所属类别的二类别分类方法，其包括：通信部，用于获取独立同分布(independently identicallydistributed)的样本数据(Y₁,X₁),...,(Y_n，X_n),其中，所述n为所述样本数据的数量，为d维矢量，Y_i具有-1或1的值或者被加工成具有-1或1的值，所述-1以及所述1的值是被设定成分别对应于两种类别的值；以及处理器，当获取了所述样本数据时，对于模型公式的未知参数β进行估计，或者支持对其进行估计，其中，β＝(β₀，β₁，....，β_d)，所述X表示自变量，所述Y表示因变量，所述函数g为随机森林模型(random forest model)的形式，当获取了所述未知参数β的估计量时，所述处理器利用所述随机森林模型，对所述函数g进行估计，或者支持对其进行估计，当获取了所述函数g的估计量时，利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计，或者支持对其进行估计，从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。

根据一实施例，当获取了所述函数G的估计量并接收所述新数据X_new时，所述处理器计算所述的值，并根据算出的所述的值，对所述特定项目的所述类别进行分类，或者支持对其进行分类。

发明效果

根据本发明，与所需的计算量相比，能够以高准确率进行二类别分类方法。

附图说明

以下附图用于说明本发明的实施例，这些附图只是本发明的实施例中的一部分，本领域技术人员无需付出创造性劳动，就可以根据这些附图获得其他附图。

图1是概略地示出计算设备的示例性结构的概念图，该计算设备执行本发明涉及的用于预测特定项目所属类别的二类别分类方法。

图2是示例性示出本发明涉及的用于预测特定项目所属类别的二类别分类方法的流程图。

图3A至3D是示出ROC曲线(Receiver Operating Characteristic Curve，受试者工作特征曲线)的图，当对乳腺癌患者和正常人进行分类时，该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。

图4A至4D是示出ROC曲线的图，当对胃癌患者和正常人进行分类时，该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。

具体实施方式

后述对本发明的详细说明将参照附图，附图示出能够实施本发明的特定实施例，以便阐明本发明的目的、技术方案以及优点。详细说明这些实施例，以使本领域技术人员能够充分地实施本发明。

本领域技术人员将理解，在本说明书中，“学习”或“训练”是表示根据步骤获得统计模型的过程的术语，并非旨在指代如人类教育活动等的精神作用。

另外，在本发明的详细说明以及权利要求中，术语“包括”及其变形并非旨在排除其他技术特征、附加物、构成要素或者步骤。对于本领域技术人员来说，本发明的其他目的、优点以及特征中的一部分根据本说明书变得显而易见，还有一部分根据本发明的实施变得显而易见。将以下示例以及附图作为实例提供，但并非旨在限定本发明。

并且，本发明包括本说明书中所记载的实施例的所有可能的组合。应该理解，本发明的多种实施例虽然彼此不同，但不必相互排斥。例如，关于一实施例，在此记载的特定形状、结构及特性在不脱离本发明的精神及范围的情况下，能够以另一实施例实现。另外，在不脱离本发明的精神及范围的情况下，能够改变被公开的各个实施例中的个别构成要素的位置或配置。后述的详细说明并非采取限定含义，只要合理地说明本发明的范围，就仅由与这些权利要求主张等同的全部范围和所附的权利要求来限定。附图中相似的附图标记在多方面指代相同或相似的功能。

除非本说明书另有说明或者明显与上下文矛盾，否则以单数形式提及的项目在其上下文没有另有要求的情况下，包括复数的形式。以下，将参照附图详细说明本发明的优选的实施例，以便本领域技术人员能够易于实施本发明。

计算设备用于实施本发明涉及的方法，其通过利用通常的计算机硬件(例如，可包括计算机处理器、内存、存储器、输入设备以及输出设备、其他现有的计算机系统的构成要素的客户机以及服务器；如电子通讯线、路由器、开关等的电子通信设备；如网络附加存储器(NAS)以及存储区域网络(SAN)的电子信息存储器系统)和计算机软件(即，使得计算机硬件以特定方式发挥功能的命令(instructions))的组合，达成需要的系统性能。

图1示出用于执行本发明涉及的方法的计算设备100，计算设备100包括通信部110以及处理器120。计算设备可根据本发明的方法获取并处理数据，以向用户提供所需的类别分类功能。本领域技术人员将容易理解，本发明的方法将利用如下所述的计算机硬件以及软件的组合来实现。例如，可以利用任何的用于在计算机硬件上实现统计方法的软件，只要其为能够执行规定的运算的R统计包、SPSS、SAS、Mathematica等统计软件或者能够实现这些统计方法的编程语言等即可。

为了方便说明本发明的方法以及计算设备，本说明书中将包含利用用于执行统计分析方法的R统计包(R Development Core Team，(2007).R：A language and environmentfor statistical computing，R Foundation for Statistical Computing，Vienna，Austria.ISBN 3-900051-07-0，URL http：//www.R-project.org.)的示例，但是本领域技术人员能够将本发明的示例不限于R统计包这一软件平台，而是利用所需的软件技术，令计算设备执行本发明的方法。

以下，将对本发明涉及的方法进行说明。图2是示例性示出本发明涉及用于预测特定项目所属类别的二类别分类方法的流程图。

参照图2，本发明的方法包括由计算设备100获取独立同分布的样本数据(Y₁，X₁)，...，(Y_n，X_n)的S210步骤。其中，所述n为所述样本数据的数量，为d维矢量，因变量Y_i具有-1或1的值或者被加工成-1或者1的值。其中，即使在因变量Y_i不具有-1或者1的值的情况下，也能够容易地被加工成具有这两者之一的值。

本发明中利用的统计模型为结合半参数逻辑回归方法论以及随机森林方法论的模型(semi parametric logistic regression with random forests)。为了方便说明，将其称为本发明的模型。本发明的模型相当于利用自变量预测只具有两个种类(-1或者1)的因变量的方法论中的新方法论。

作为有助于理解的实例，在以下表1中，提供从受试者(乳腺癌患者和正常人)中获取的生物样本中所包含的特定物质的浓度以及受试者的人口统计信息(例如，年龄)作为样本数据的示例X7。另外，在以下的表1中所使用的生物样本中所包含的物质(X1～X6)可以包含AFP(alpha-fetoprotein，甲胎蛋白)、TTR(Transthyretin，甲状腺素运载蛋白)、CEA(Carcinoembryonic antigen，癌胚抗原)、CA19-9(cancer antigen19-9，癌抗原19-9)、CA125(cancer antigen125，癌抗原125)、ApoA1(ApolipoproteinA-I，栽脂蛋白A-I)。

表1

作为参考，测试数据的示例如表2所示，该测试数据用于利用通过样本数据制作的本发明的模型来进行测试。

表2

例如，R统计包中可以执行通过例如如下指令获取样本数据的所述S210步骤，作为其结果，输入样本数据。

表11

当在S210步骤中获取所述样本数据时，作为下一步骤，本发明的方法进一步包括，计算设备100对模型公式的未知参数β进行估计，或者支持对其进行估计的S220步骤。

如上述模型公式所示，假设本发明的模型的理由如下。

首先，贝叶斯分类器(Bayes classifier)定义如下：

作为一个示例，假设P(Y＝1|x)＝0.6，那么P(Y＝-1|x)＝1-P(Y＝1|x)＝0.4，G(x)＝log(0.6/0.4)/2＝0.2027326。由于G(x)大于0，被贝叶斯分类器分类为Y＝1。

现在，若以贝叶斯分类器G(x)的形式表示本发明的模型，则表示如下。即，结合半参数逻辑回归方法论以及随机森林方法论的模型的假设如下：

数学式1：

其中，Y表示因变量，在数学式表达上，Y只具有相当于-1或者1的两个种类的值。另外，X＝(1,X₁,...,X_D)^T表示自变量，D为自变量的数量。即，X_i表示第i个自变量(第i个自变量)。

β＝(β₀，β₁，....，β_d)为未知参数，函数g作为以随机森林模型的形式形成的函数，是关于X的函数。

作为一个示例，G(X)为贝叶斯分类器，假设X＝(1，2，3)^T，β＝(4，5，6)^T，g(x)＝7。即，假设已知β和g。那么，形成G(x)＝x^T β+g(x)＝(1，2，3)(4，5，6)^T+7＝14+25+36+7＝32+7＝39，由于G(x)大于0，所以被分类为Y＝1。

为了估计数学式1的位置参数β和非参数g，最为理想的是，将使损失函数(lossfunction)L(y，G(x))或者L_y(G(x))最小化的β和g定义为估计值。将损失函数定义为负二项式对数似然(negative binomial log likelihood)时，可表示如下：y∈{-1，1}。将使该损失函数最小化的和定义为时，可以表示为但是难以对其进行直接计算。

因此，本发明中，为了估计数学式1的未知参数β和非参数g，将利用向后拟合法(backfitting method)。向后拟合方法如下：

将上述第一个数学式在作为第一步骤的S220步骤中解决，并且将第二数学式在作为第二步骤的S230步骤中解决。

在作为第一步骤的S220步骤中，将采用逻辑回归的接近法，作为用于预测未知参数β的方法，并且作为以被估计的在第二步骤S230中估计未知非参数g的方法，将利用负梯度(negative gradient，梯度的负值)。

现在，采用逻辑回归的接近法，作为从数学式1估计未知参数β的方法。在该S220步骤中，根据

通过逻辑回归接近法，可估计β。对逻辑回归模型的简略说明如下。以下数学式2示出逻辑回归模型。

数学式2：

观察其形态，可知在逻辑回归模型中的与本发明的模型中的β起到相似的作用。另外，逻辑回归方法也对使相同的损失函数最小化的未知参数β^glm进行估计。因此，在逻辑回归中估计的β^glm除以2，可导出即β估计值。将如此导出的β称作

由此可知，将逻辑回归模型的估计量设为则和之间满足

在R统计包中，可通过例如如下的指令来求出

表12

例如，利用表1的样本数据来求出则可以确认如下的值。

表13

即，

重新参照图2，本发明的方法进一步包括S230步骤：当获取了所述未知参数β的估计量时，计算设备100利用所述随机森林模型对所述函数g进行估计，或者支持对其进行估计。那么，本发明的方法进行S240步骤：计算设备100利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计，或者支持对其进行估计，从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。

在对所述函数g进行估计或者支持对其进行估计的S230步骤中，具体地，可以利用负梯度。

由于在S220步骤中获得所以将x^Tβ+g(x)代入到损失函数G(x)中时，损失函数将变成在S220步骤中，使损失函数在中最小化。为了进一步减小损失函数，将G(x)从按照负梯度移动。

从损失函数求出获取负梯度，则变成如下。

通过例题，简单观察当按照负梯度移动时，能够减小损失函数。所述图1的训练数据的第一个数据的y1为1、为-0.405374、r1为1.199956。当时，L(y,)＝log[1+exp{-2*1*(-0.405374+1)}]＝1.178529。但是，当从按照负梯度移动而变成时，成为L(y,+r₁)＝log[1+exp{-2*1*(-0.405374+1*1.199956)}]＝0.1857292，变得更小。

如此，对随机森林(random forest)拟合(fitting)数据，求出RF(x)，从而可以估计g。

总而言之，S230步骤可以包括如下步骤：S232步骤，计算设备100算出以及S234步骤，计算设备100利用随机森林(random forest)对数据进行拟合，从而算出作为所述拟合的结果的函数RF(x)，关于规定的整定参数λ＝γ，根据g(x)＝λ*RF(x)，对所述函数g进行估计，或者支持对其进行估计。

当不考虑整定参数时，即，λ＝γ＝1时，观察利用表1中提供的示例性样本数据来求出r_i值的示例，则如下表3所示。

表3

在表1的样本数据中，关于第一个(i＝1)样本数据，为了求出r_i，首先在样本数据中假设Y＝癌时，y＝1，而Y＝正常时，y＝-1，那么，S220步骤中求出＝(62.40686469,-2.00244054,-3.29727188,…)^T。由于第一个样本是癌患者的样本，所以y₁＝1。

＝(1,0.227887,6.09691,…)*(62.40686469,-2.00244054,-3.29727188,...)^T＝1*62.40686469+0.2278878*(-2.00244054)+6.09691*(-3.29727188)+…＝-0.202687。

并且，exp(-2*y₁*)＝exp(-2*1*-0.202687)＝1.499863，r₁＝2*y₁*exp(-2*y₁*)/{1+exp(-2*y₁*)}＝2*1*1.499863/(1+1.499863)＝1.199956。

以相同的方式，对示例性样本数据的所有样本数据，求出r_i。

利用R统计包，则可以通过例如如下的指令来执行这些各个步骤。

表14

通过此，可以预测例如所述表2的测试数据的第一个数据的Y值。

表15

但是，在没有整定参数的情况下直接利用上述的随机森林时，具有无法使损失函数最小化的缺点。因此，当对RF(x)赋予整定参数λ时，能够实现最小化，关于整定参数为1时损失函数不是最佳的理由，简略说明如下。

将以上述表1的训练数据的第一个数据为例，进行说明。y₁为1、为-0.405374、r₁为1.199956。整定参数为1，仅按照负梯度移动(即，G(x₁)＝+r₁)，则L(y，+r₁)＝log[1+exp{-2*1*(-0.405374+1*1.199956)}]＝0.1857292)。但是，当整定参数为2时(即，G(x₁)＝+2*r₁)，L(y,G(x₁)为log[1+exp{-2*1*(-0.405374+2*1.199956)}]＝0.01834747，变得更小。即，当整定参数为不是1的其他数时，可以使损失函数最小化。

对于所述规定的整定参数λ进行估计的一种解决方法是，以下说明的第一方法。

在第一方法中，数学式1可以写成其具有如同无截距逻辑回归模型(no intercept logistic regression model)的形式。无截距逻辑回归模型如下。另外，为了方便起见，假设自变量a只有1个。那么，

其中，Y表示因变量，在数学式表达中，Y只具有-1或者1的两个种类。另外，a表示自变量的值。并且，λ为未知参数。并且，假设已知无截距逻辑回归模型的截距b，则数学式1将变成如下形式：

其中，b为已知截距，因此，可将以下数学式看作是无截距逻辑回归模型：

即，可以将Y作为因变量，2RF作为自变量a，作为已知的截距b，λ作为未知参数。那么，通过逻辑回归方法，可以导出λ，将如此导出的λ称作

利用R统计包，则可以通过例如如下的指令，对表1的样本数据的第一个数据，求出2RF(x₁)值。

表16

整理适用所述规定的整定参数λ的最终本发明的模型成为

如此考虑整定参数的情况，表2中提供的示例测试数据中，表示预测第一个数据的Y值，如下表4。

表4

如上所述，求值，则如下：

x＝(1,0.361728,6.041393,…)^T，

＝(62.40686469,-2.00244054,-3.29727188,…)^T，

＝1.652886

那么，作为示例性的RF(x)值，可以算出如下的值：

RF(x)＝-0.0345803。

例如，用于利用R统计包来求出所述RF(x)的指令可以如下。

表17

那么，根据考虑了整定参数的本发明的模型，计算为＝(1,0.361728,6.041393,…)*(62.40686469,-2.00244054,-3.29727188,…)^T+1.652886*(-0.0345803)＝[1*62.40686469+0.361728*(-2.00244054)+6.041393*(-3.29727188)+…]+1.652886*(-0.0345803)＝0.5805196+-0.05715729＝0.5233623，由于0.5233623大于0，因此Y＝1，即被分类为癌症患者。对其余测试数据，也能以相同的方法运行。

重新参照图2，本发明的方法可以进一步包括S250步骤：当获取了相当于上述获取的模型的所述函数G的估计量并接收所述新数据X_new时，计算设备100算出(X_new)的值，并根据算出的所述(X_new)值，对所述特定项目的所述类别进行分类，或者支持对其进行分类，由此，通过被训练的分类器，实现类别分类，在前述的示例中已对其进行了说明。

考虑到这些类别分类的实际应用事例，对于本发明中所要分类的两种类别，例如，可以设定成分别属于特定疾病的患者的类别和不属于所述特定疾病的患者的类别。这种情况下，所述样本数据分别可以是从个别受试者中获取的变量，并且所述样本数据各自的自变量X_ij分别可以是从个别受试者中获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。特别是实际应用本发明的方法以与现有的技术形成对比的特定疾病为，乳腺癌(Breast Cancer，用BC表示)以及胃癌(Stomach Cancer，用SC表示)。

为了证明本发明的方法实际上优秀，本发明人利用了由韩国的株式会社Bioinfra(Bioinfra Inc.，Republic of Korea)获取的乳腺癌以及胃癌相关的两个不同的实际数据集。该数据集的概要如下表5所示，为了帮助理解本发明，其一部分已通过表1以及2提供。

表5

数据集	输入编号(Number of inputs)	数量(Size)	数量(Y＝1)	数量(Y＝-1)
					BC	7	554	307	247
SC	7	951	359	592

表5中“BC”是指乳腺癌(breast cancer)，“SC”是指胃癌(stomach cancer)。关于数据集的大小，乳腺癌为554个，胃癌为951个。从乳腺癌的数据集中被判定为乳腺癌的乳腺癌患者(Y＝1)的人数为307，正常人(Y＝-1)的人数为247，从胃癌的数据集中被判定为胃癌的胃癌患者(Y＝1)的人数为359，正常人(Y＝-1)的人数为592。

本发明人随机分割各个数据集，将80％用作训练用(样本)数据集，并且将20％用作测试集。对现有的逻辑回归模型和本发明的模型，进行了性能的比较，用于测定性能的输出值为经验误差率(empirical error rate)、负二项式对数似然的平均值(mean ofnegative binomial log likelihood)的平均值、以及测试集的观测值和预测值之间的ROC-AUC的平均值。

简略说明经验误差率，例如，因变量的预测值按顺序为(癌,癌,癌,正常,癌,癌)，实际的因变量值为(癌,癌,癌,癌,癌,癌)时，经验误差率计算为1/6＝0.1666667，这种经验误差率越低越好。作为参考，从表2的数据计算的经验误差率，对本发明的模型为0.1272727，而对逻辑回归模型为0.1636364。

另外，简略说明负二项式对数似然(negative binomial log likelihood)，负二项式对数似然被定义为log(1+exp(-2yG(x)))，y∈{-1，1}，其中，G(x)表示贝叶斯分类器。负二项式对数似然的平均越小，表示越接近实际地实现分类，因此优选。作为参考，从表2的数据计算的负二项式对数似然的平均值，对本发明的模型为0.2580402，而对逻辑回归模型为0.3367284。

并且，简略说明ROC-AUC(area under curve，曲线下面积)，首先ROC曲线(Receiver Operating Characteristic Curve，受试者工作特征曲线)是用于评估分类器的性能的工具，ROC的AUC表示在整个曲线图中曲线下面积所占之比。

简略说明ROC曲线，首先ROC曲线图的横轴表示的数值为1-特异性(specificity)＝假正率(false positive rate)，特异性是被定义为特异性(specificity)＝真负类(true negative)/(假正类(false positive)+真负类(true negative))的值。即，特异性是指将“错(假)”判断为错的比率，因此可以认为在曲线图中越向左侧倾斜，将“对(真)”判断为错的误判的比率缩小。另外，在ROC曲线图的竖轴中表示的数值为敏感性(sensitivity)＝真正率(true positive rate)，敏感性被定义为敏感性(sensitivity)＝真正类(true positive)/(真正类(true positive)+假负类(false negative))。即，敏感性是指将“对”判断为对的比率，因此在曲线图中越向上倾斜，可以认为是将“错”判断为对的误判的比率减少。因此，分类器判断越准确，在曲线图中曲线下面积(AUC，area undercurve)越增加。当分类器连一个准确判断的分类性能也没有时，AUC将变成0.5。通常，根据AUC数值可以分类成无诊断价值(AUC＝0.5)、不太准确(0.5<AUC≤≤0.7)、中等准确(0.7<AUC≤≤0.9)、非常准确(0.9<AUC<1)、以及完美的检查(AUC1)。总而言之，ROC的AUC越大越好。作为参考，由表2的数据计算的AUC，对本发明的模型为0.9663978，而对逻辑回归模型为0.9301075。

前面观察的表2的数据显示出测试集整体中的一部分，以下，对于以表5概括的测试集整体，说明算出的数值。

以下表6显示了从测试集中算出的经验误差率(empirical error rate)的平均值，标准偏差显示在括号内。在表6中，显示了对现有的逻辑回归方法论(logisticregression)和本发明的方法论(semi parametric logistic regression with randomforests)的数值，从而比较性能。此时，用于获取平均值和标准偏差的计算的重复次数为1000次。

表6

数据集	逻辑回归	半参数逻辑+RF
			BC	0.1822545(0.03315503)	0.1377091(0.02968256)
SC	0.1122895(0.01886945)	0.09069474(0.01840933)

参照图6，可知本发明的方法论表现出比现有的逻辑回归方法论更低的经验误差率的平均值。可知即使考虑到偏差，本发明的方法有意义地更加优秀。

另外，以下表7如表6显示了从测试集算出的负二项式对数似然的平均值(mean ofnegative binomial log likelihood)的平均值，标准偏差显示在括号内。用于获取平均值和标准偏差的计算的重复次数也是1000次。

表7

数据集	逻辑回归	半参数逻辑+RF
			BC	0.3851621(0.05138304)	0.3167532(0.04919694)
SC	0.3032058(0.04085424)	0.251254(0.04079957)

参照图7，可知本发明的方法论表现出比现有的逻辑回归方法论更低的负二项式对数似然的平均值。这表示基于本发明的方法的拟合(fitting)比现有的逻辑回归方法论更接近实际分类。

另外，以下表8同样显示了从相同的测试集算出的ROC-AUC(area under curve，模型评估指标)的平均值，标准偏差显示在括号内。同样地，用于获取平均值和标准偏差的计算的重复次数为1000次。

表8

数据集	逻辑回归	半参数逻辑+RF
			BC	0.9074627(0.02485286)	0.9396223(0.01987292)
SC	0.9403305(0.01544577)	0.9588379(0.01310146)

作为参考，图3A～3D是示出ROC曲线的图，当对乳腺癌患者和正常人进行分类时，该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。图4A～4D是示出ROC曲线的图，当对胃癌患者和正常人进行分类时，该ROC曲线作为用于对现有的逻辑回归模型和本发明的方法涉及的模型各自的性能进行比较、评估的工具。

图3A至3D以及图4A至4D示出关于对测试集进行的最初4次计算的个别方法各自的ROC。

根据图3A～3D及4A～4D，本领域技术人员可知，在从正常人中分类出乳腺癌患者或胃癌患者的整体性能方面，本发明的方法比现有逻辑回归模型更加优秀。

参照在数值上整理出相同结论的表7，可知本发明的方法论表现出比现有的逻辑回归方法论更高的AUC平均值。这表示本发明的方法的分类性能更加优秀。

如此，在本发明的前述的所有实施例中，与现有的方法相比，本发明的方法能够对与输入数据对应的的特定项目所属类别更加准确地进行分类。

通过所述实施例在此说明的技术的优点在于，无需显著加大计算量，也能提高分类的准确率。并且，改良常用于现有的二类别分类方法的逻辑回归模型，从而开发出能够普遍用于二类别分类方法的通用模型是非凡的成就。

根据上述实施例的说明，本领域技术人员可以明确理解本发明能够通过软件以及硬件的结合来达成，或者仅凭硬件也能达成。本发明的技术方案的对象体或者有助于现有技术的部分可以以程序指令的形式实现，并记录在计算机可读记录介质上，该程序指令可以通过多种计算机构成要素执行。所述计算机可读记录介质可以单独或组合地包括程序指令、数据文件、数据结构等。记录在所述计算机可读记录介质中的程序指令可以是为了本发明专门设计并构成的，或者也由可以是计算机软件领域的技术人员公知并使用的。计算机可读介质的示例包括诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和DVD的光学记录媒介，诸如光盘(floptical disk)的磁光介质(magneto-optical media)以及特别形成为存储并执行诸如ROM、RAM、闪存等存储程序指令的硬件设备。程序指令的示例包括诸如由编译器生成的机器语言代码以及可以由计算机使用解释器等执行的高级语言代码。所述硬件设备能够作为一个以上的软件模块操作，以便执行本发明涉及的处理，反之亦然。所述硬件设备可以包括CPU、GPU等处理器，以便结合到用于存储程序指令的ROM/RAM等存储器，并执行所述存储器内所存储的指令，并且可以包括能与外部设备交换信号的通信部。并且，所述硬件设备可以包括用于接收由开发者编写的指令的键盘、鼠标、其他外部输入设备。

以上，本发明对具体构成要素等特定事项和被限定的实施例以及附图进行说明，但是这只是为了有助于更加全面理解本发明而提供的，本发明并非限定于所述实施例，本领域技术人员能够从这些记载进行各种修改和变形。

因此，本发明的思想不限于上述说明的实施例，后述的权利要求书以及与该权利要求书等同或等效的所有变形均属于本发明的思想范围内。

这种等同或者等效变形的方法包括，例如能够与实施本发明涉及的方法具有相同结果的，数学上等价或者逻辑上等价(mathematically equivalent or logicallyequivalent)的方法。

Claims

1.一种用于预测特定项目所属类别的二类别分类方法，其包括以下步骤：

步骤(a)，由计算设备获取独立同分布(independently identically distributed)的样本数据(Y₁，X₁)，...，(Y_n，X_n)，其中，所述n为所述样本数据的数量，为d维矢量，Y_i具有-1或1的值或者被加工成具有-1或1的值，所述-1以及所述1的值是被设定成分别对应于两种类别的值；

步骤(b)，当获取了所述样本数据时，所述计算设备对模型公式的未知参数β进行估计，或者支持对其进行估计，其中，β＝(β₀，β₁，...，β_d)，所述X表示自变量，所述Y表示因变量，所述函数g为随机森林模型(random forest model)的形式；

步骤(c)，当获取了所述未知参数β的估计量时，所述计算设备利用所述随机森林模型，对所述函数g进行估计，或者支持对其进行估计；以及

步骤(d)，当获取了所述函数g的估计量时，所述计算设备利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计，或者支持对其进行估计，从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。

2.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，其进一步包括：

步骤(e)，当获取了所述函数G的估计量并接收所述新数据X_new时，所述计算设备算出的值，并根据算出的所述的值，对所述特定项目的所述类别进行分类，或者支持对其进行分类。

3.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

在所述步骤(b)中，

所述未知参数β的估计量通过下式求出：

其中，所述y_i表示第i样本数据的实际观测到的Y值，

所述X_i＝(1,X_i1,…,X_iD)^T表示所述第i个样本数据的实际观测到的X值，

所述X_ij表示所述第i个样本数据的实际观测到的X值的第j个自变量值，

所述D表示自变量的数量。

4.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

在所述步骤(c)中，

所述函数g的估计量表示为：

其通过负梯度以及规定的整定参数λ>＝0来求出，

其中，所述y_i表示第i个样本数据的实际观测到的Y值，

所述X_ij表示所述第i个样本数据的实际观测到的X值的第j个自变量值。

5.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

所述步骤(c)包括，

步骤(c1)，由所述计算设备算出

所述y_i表示第i个样本数据的实际观测到的Y值，

所述D表示自变量的数量；以及

步骤(c2)，当算出了所述r_i时，所述计算设备利用随机森林(random forest)对数据进行拟合(fitting)，从而算出作为所述拟合的结果的函数RF(x)，关于规定的整定参数λ，根据g(x)＝λ*RF(x)，对所述函数g进行估计，或者支持对其进行估计。

6.根据权利要求4或5所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

所述规定的整定参数λ满足λ＝1。

7.根据权利要求4或5所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

所述规定的整定参数λ是利用无截距逻辑回归模型(no intercept logisticregression model)来算出的。

8.根据权利要求1所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

所述两种类别分别被设定成属于特定疾病的患者以及不属于所述特定疾病的患者，

所述样本数据各自的自变量X_ij分别是从个别受试者中获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。

9.根据权利要求8所述的用于预测特定项目所属类别的二类别分类方法，其特征在于，

所述特定疾病为乳腺癌或者胃癌。

10.一种计算设备，执行用于预测特定项目所属类别的二类别分类方法，其特征在于，包括：

通信部，用于获取独立同分布(independently identically distributed)的样本数据(Y₁，X₁)，...，(Y_n，X_n)，其中，所述n为所述样本数据的数量，为d维矢量，Y_i具有-1或1的值或者被加工成具有-1或1的值，所述-1以及所述1的值是被设定成分别对应于两种类别的值；以及

处理器，当获取了所述样本数据时，对于模型公式的未知参数β进行估计，或者支持对其进行估计，其中，β＝(β₀，β₁，...，β_d)，所述X表示自变量，所述Y表示因变量，所述函数g为随机森林模型(random forest model)的形式，

当获取了所述未知参数β的估计量时，所述处理器利用所述随机森林模型，对所述函数g进行估计，或者支持对其进行估计，当获取了所述函数g的估计量时，利用所述未知参数β的估计量以及所述函数g的估计量对所述函数G进行估计，或者支持对其进行估计，从而获取所述函数G的估计量所述函数G是与所述特定项目对应的新数据的预测公式。

11.根据权利要求10所述的计算设备，其特征在于，

当获取了所述函数G的估计量并接收所述新数据X_new时，所述处理器计算所述的值，并根据算出的所述的值，对所述特定项目的所述类别进行分类，或者支持对其进行分类。

12.根据权利要求10所述的计算设备，其特征在于，

所述未知参数β的估计量通过下式求出：

其中，所述y_i表示第i个样本数据的实际观测到的Y值，

所述D表示自变量的数量。

13.根据权利要求10所述的计算设备，其特征在于，

所述函数g的估计量表示为：

其通过负梯度以及规定的整定参数λ>＝0来获取，

其中，所述y_i表示第i个样本数据的实际观测到的Y值，

14.根据权利要求10所述的计算设备，其特征在于，

为了利用所述随机森林模型对所述函数g进行估计，或者支持对其进行估计，

所述处理器算出

其中，所述y_i表示第i个样本数据的实际观测到的Y值，

所述D表示自变量的数量；

当算出了所述r_i时，所述处理器利用随机森林(random forest)对数据进行拟合(fitting)，从而算出作为所述拟合的结果的函数RF(x)，关于规定的整定参数λ，根据g(x)＝λ*RF(x)，对所述函数g进行估计，或者支持对其进行估计。

15.根据权利要求13或14所述的计算设备，其特征在于，

所述规定的整定参数λ满足λ＝1。

16.根据权利要求13或14所述的计算设备，其特征在于，

17.根据权利要求10所述的计算设备，其特征在于，

所述样本数据各自的自变量X_ij分别是从个别受试者获取的生物样本中所包含的特定物质的物理量或者所述个别受试者的人口统计学变量。

18.根据权利要求17所述的计算设备，其特征在于，

所述特定疾病为乳腺癌或者胃癌。