CN101903895A

CN101903895A - 二类别分类预测模型的生成方法、用于生成分类预测模型的程序以及二类别分类预测模型的生成装置

Info

Publication number: CN101903895A
Application number: CN2007801019959A
Authority: CN
Inventors: 汤田浩太郎
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2007-12-18
Filing date: 2007-12-18
Publication date: 2010-12-01
Anticipated expiration: 2027-12-18
Also published as: KR101126390B1; US8352390B2; EP2244213A4; KR20100082377A; JP5104877B2; US20100241598A1; JPWO2009078096A1; CN101903895B; EP2244213B1; EP2244213A1; WO2009078096A1

Abstract

生成通过简单的操作进行实质上接近100％的二类别分类且可靠性高的二类别分类预测模型。二类别分类预测模型是通过下述步骤生成的，即：a)根据针对学习样本集合的各个学习样本产生的说明变量，求出用于将学习样本集合分类为预先设定的两个类别的判别函数；b)根据求出的判别函数，计算各学习样本的判别分数；c)根据计算出的判别分数，决定各学习样本的分类预测的正误；d)根据被错误分类的学习样本集合中的最大判别分数和最小判别分数，决定错误分类样本区域；e)取出包含在错误分类样本区域内的学习样本，构成新学习样本集合；f)针对新学习样本集合，重复a)～e)。

Description

二类别分类预测模型的生成方法、用于生成分类预测模型的程序以及二类别分类预测模型的生成装置

技术领域

本发明涉及用于生成针对未知类别的样本的分类预测模型的方法、生成程序以及生成装置。

背景技术

类别分类问题是指，根据已知属于多个类别中的哪个类别的样本集合，学习用于按其类别进行分类的规则，将所学习的规则用作预测模型的形式，针对未知属于哪个类别的样本，预测其所属的类别。特别是，将样本集合分类为2个类别的二类别分类是分类问题中最基本的，长年用于结构-活性相关和结构-物性相关研究，最近作为评价有无化合物毒性等的有用方法受到关注。用于学习规则的方法即分类方法包括线性学习机、判别分析、Bayes线性判别分析、SVM(支持矢量机，Support VectorMachine)、AdaBoost等线性判别分析方法、以及Bayes非线性判别分析、SVM(支持矢量机+核，Support Vector Machine+Kernel)、神经网络、KNN法(最邻近法)、决策树等非线性判别分析法。

一般而言，在类别分类问题中，必然产生错误分类，使分类率达到100％是非常困难的。这里，“分类率”是表示以何种程度正确地对已知归属类别的样本进行了类别划分的指标，“预测率”是表示以何种程度正确地对未知归属类别的样本进行了类别预测的指标。基本上，“分类率”不会低于“预测率”。因此，如果提高“分类率”，则“预测率”的上限也自动地提高。根据该事实，如果能够使分类率达到很高的值，则预测率也会提高。另外，作为数据解析的一般特征，还公知有下述情况，即：随着生成预测模型时使用的样本个数增加，被错误分类的样本也增多，其结果是整体的分类率降低。这里，错误分类是指，把本来属于类别1的样本错误地分类为属于类别2的样本的情况。其很大原因在于，由于整体的样本个数增加而导致在分类上成为噪声的样本的绝对个数也增加。与统计不同，在多变量解析/模式识别那样的强大数据解析方法中，容易受到噪声影响，在大多数情况下，样本个数增大会导致数据解析本身难以进行的结果。

作为要求很高的分类/预测率的领域，化合物毒性评价在环境方面正在受到重用。在该领域中，往往是将化合物组分类为具有毒性的化合物集合(类别1)和不具有毒性的化合物集合(类别2)，但是作为该领域的特征，用于发现毒性的因素复杂且涉及多方面，因此容易产生错误分类，如果简单地应用当前存在的数据解析方法，则提高分类率是非常困难的。

另外，即使分类率的值很高，当使用的样本个数很多时错误分类样本的绝对个数也会增大，因此关于这一点需要注意。例如，在对毒性化合物和非毒性化合物进行分类的情况下，当用于学习的样本个数很多时，例如使用1万个化合物集合进行分类时，即使得到90％的分类率，也会有1千个化合物被错误分类，该数量不能被忽视。并且，作为毒性分类的情况的特征，即使将不具有毒性的化合物错误分类为具有毒性(FalsePositive，错误肯定)也不会有很大影响，但是将毒性化合物错误分类为非毒性化合物(False Negative，错误否定)的情况在毒性这种特性上非常危险，是绝对需要避免的问题。关于这一点，也期望分类率为100％。

因此，当前，虽然预测率是类别分类问题的最终目标，但人们意识到相比于预测率首先提高分类率更加重要，并为此正在进行各种努力。如上所述，如果从预测率不会超过分类率的原则考虑，在提高分类率的同时，预测率的可上升范围也会增大的情况是明确的。本发明人着眼于这一点，提出了能够使分类率无限接近100％的分类方法，即“K-step·Yard·sampling·method”(以下，称为KY法)(非专利文献1、PCT/JP2007/056412)。

简单地对该方法进行说明，首先，由已知属于第1类别的样本和已知属于第2类别的样本构成学习样本集合。对该学习样本集合进行判别分析，形成对于第1类别具有高分类率例如实质性上100％的分类率的第1判别函数(以下称为AP模型)，形成对于第2类别具有高分类率例如实质性上100％的分类率的第2判别函数(以下称为AN模型)。接着，使用这两个判别函数AP模型、AN模型，计算各样本的目标变量，确定在两个判别函数间目标变量的值即分类结果一致的样本和不一致的样本。

AP模型、AN模型对于第1类别或第2类别具有几乎100％的分类率，因此对于使用了AP模型以及AN模型而得到的分类结果一致的样本，判断为其类别分类正确。因此，将结果一致的样本指定为分类后的类别1或类别2。另一方面，将在AP模型、AN模型中结果不一致的样本指定为未决定类别的第3类别即模糊类别。

当如上述那样形成第1阶段的模糊类别时，接着，取出被指定为该模糊类别的样本，构成新的样本集合。针对该样本集合，新生成上述AP模型、AN模型，进行各样本的类别划分。当作为其结果形成了第2阶段的模糊类别时，下面，同样地执行第3阶段的模糊类别形成、第4阶段的模糊类别形成。持续形成该模糊类别直至被指定为模糊类别的样本个数最终成为0为止，由此将全部样本正确地分类为本来的类别1或类别2。即，达到分类率100％。

非专利文献1：“K-step·Yard·sampling·method の開発とADME-T予测への適用”34回構造活性相関シンポヅウム，2006年11月

非专利文献2：“テ一ラ一メ一ドモデリングによる化学デ一タ解析手法”第30回情報化学討論会，2007年11月

如上所述，使用KY法能够可靠地使学习样本集合实现几乎100％的分类，从实现完全分类的角度来看非常有用，是现有方法所不能比拟的。但是，在该方法中，为了确定各阶段的模糊类别样本，需要生成2个特殊的判别函数AP模型、AN模型。因此，具有下述缺点，即：当样本个数增大、解析所需的阶段次数例如多达几十次时，生成模型的劳力和时间非常庞大。另外，分类/预测所需的计算时间也变长，对想要使用该模型进行分类预测的用户带来负担。

发明内容

本发明是为了解决现有方法的上述问题点而完成的，其课题在于提供能够确保几乎100％的分类率且容易生成模型的二类别分类预测模型的生成方法、用于生成分类预测模型的程序以及二类别分类预测模型的生成装置。

为了解决上述课题，本发明提供一种二类别分类预测模型的生成方法，其包括下述各步骤：a)根据针对学习样本集合的各个学习样本产生的说明变量，求出用于将所述学习样本集合分类为预先设定的两个类别的判别函数；b)根据所述求出的判别函数，计算各学习样本的判别分数；c)根据所述计算的判别分数，决定各学习样本的分类预测的正误；d)根据被错误分类的学习样本集合中的最大判别分数和最小判别分数，决定错误分类样本区域；e)取出包含在所述错误分类样本区域内的学习样本，构成新学习样本集合；f)针对所述新学习样本集合，重复所述a)～e)步骤；g)存储作为所述重复的结果而得到的多个判别函数和各个所述判别函数附带的错误分类样本区域信息，作为类别未知样本的分类预测模型。

在上述方法中，所述步骤d)中的所述错误分类样本区域也可以是对被错误分类的学习样本中的最大判别分数和最小判别分数附加任意的安全宽度而决定的。另外，也可以当所述步骤c)中被错误分类的学习样本为0时结束分类。

在上述方法中，也可以是，在所述步骤f)中所述步骤a)～e)重复预先决定的次数。并且，可以设置对针对所述学习样本集合产生的说明变量实施特征提取，去除不需要的说明变量的步骤。

为了解决上述课题，本发明提供一种二类别分类预测模型的生成程序，其使计算机执行下述步骤：a)根据针对学习样本集合的各个学习样本产生的说明变量，求出用于将所述学习样本集合分类为预先设定的两个类别的判别函数的步骤；b)根据所述求出的判别函数，计算各学习样本的判别分数的步骤；c)根据所述计算的判别分数，决定各学习样本的分类预测的正误的步骤；d)根据被错误分类的学习样本集合中的最大判别分数和最小判别分数，决定错误分类样本区域的步骤；e)取出包含在所述错误分类样本区域内的学习样本，构成新学习样本集合的步骤；f)针对所述新学习样本集合，重复所述a)～e)步骤的步骤。

为了解决上述课题，本发明提供一种二类别分类预测模型的生成装置，其根据由已知属于类别1或类别2的多个样本构成的学习样本集合，生成用于对未知归属于所述类别1或类别2的未知样本进行类别分类的模型，该二类别分类预测模型的生成装置具有：说明变量取得装置，其针对所述学习样本集合的各样本，取得说明变量；判别函数生成引擎，其根据所述取得的说明变量，进行判别分析，得到用于判别所述类别1以及类别2的判别函数；判别分数计算装置，其根据所述生成的判别函数，计算所述各样本的判别分数；样本集合设定装置，其根据所述计算的判别分数，决定错误分类样本区域，取出该区域内的所述样本，设定为新样本集合；控制装置，其使所述说明变量取得装置、所述判别函数生成引擎、所述判别分数计算装置以及所述样本集合设定装置使用所述设定的新样本集合作为所述学习样本集合来重复动作；以及存储装置，其保存由所述判别函数生成引擎生成的判别函数、以及与所述样本集合设定装置决定的错误分类样本区域相关的信息，作为用于分类预测的模型。

在本发明中，根据基于所生成的判别函数而得到的各样本的判别分数，决定利用该判别函数而形成的模式空间中的错误分类样本区域。即，根据由所生成的判别函数进行错误分类的样本中的最大判别分数和最小判别分数，确定错误分类样本区域即模糊区域。由此，能够将判别分数位于该最大值以及最小值之间的所有样本确定为模糊类别样本。即，在本发明中，为了确定1个阶段的模糊类别样本，只需要1个判别函数。因此，相比于为了决定模糊区域需要特殊的2个判别函数的现有方法，大幅度地简化了用于生成模型的作业。

另外，针对被决定为错误分类样本的样本中的最大判别分数以及最小判别分数保持安全宽度地决定模糊区域，由此能够提高所生成的分类预测模型的可靠性。分类预测模型的可靠性提高关系到将该模型用于类别未知样本的分类预测时的预测率提高，是非常重要的指标。

附图说明

图1是示出基于理想地实施的二类别分类的模式空间的图。

图2是示出基于分类率未达到100％时的二类别分类的模式空间的图。

图3是示出本发明的使用二类别分类预测模型的模糊区域确定的基本原理的图。

图4A是示出本发明的一个实施方式的二类别分类预测模型生成方法的实施步骤的流程图的前半部分。

图4B是示出图4A所示的流程图的后半部分的图。

图5是示出输入数据表的一例的图。

图6是示出初始参数集合表的一例的图。

图7是示出本发明的一个实施方式的、类别1、类别2以及模糊类别样本的划分的图。

图8是用于说明本发明的一个实施方式的、模糊类别样本的阶段分类方法的图。

图9是示出预测模型保存表的一例的图。

图10是示出本发明的将二类别分类预测模型的生成方法应用于订制(Tailor-Made)建模的实施方式的流程图。

图11示出使用通过本发明的方法而生成的预测模型来进行未知样本的分类预测的步骤的流程图。

图12是示出本发明一个实施方式的分类预测模型生成装置的系统结构的图。

标号说明

1类别1的错误分类样本；2类别2的错误分类样本；10类别1样本○中具有最小判别分数的错误分类样本；20类别2样本×中具有最大判别分数的错误分类样本；100分类预测模型生成装置11输入装置；12输出装置；130输入数据表；140初始参数集合表；150最终参数集合表；160预测模型保存表；200解析部；210初始参数产生引擎；220控制部；230特征提取引擎；240判别函数生成引擎；250判别分数计算部；260新样本集合设定部；270解析结束条件检测部；280类似度计算部；290筛选装置。

具体实施方式

在说明最佳实施方式之前，对其原理进行简单说明。

图1示出作为理想的二类别分类结果的模式空间。“理想的”表示分类率为100％。图中，S表示识别面或超平面，识别面S右侧的区域A表示类别1的样本所处的区域A(以下，称为类别1区域)，左侧的区域B表示类别2的样本所处的区域B(以下，称为类别2区域)。○表示本来属于类别1的样本，×表示本来属于类别2的样本。

当理想地即以分类率100％进行了二类别分类时，类别1的样本○、类别2的样本×分别位于识别面S的两侧，类别1的区域A和类别2的区域B不重叠。但是，在通常的二类别分类中，在区域A与区域B中产生重叠。

图2示出作为通常的二类别分类结果的模式空间。当分类率小于100％时，如图所示，识别面S未完全地对区域A、B进行分类，其结果是，产生虽然本来是类别1的样本但进入类别2区域而被分类为类别2样本的样本1、1、...，以及虽然本来是类别2的样本但进入类别1区域而被分类为类别1样本的样本2、2、...。将这些被错误分类的样本称为错误分类样本，将被正确分类的样本称为正确分类样本。因此，错误分类样本中包含本来作为类别1的样本以及本来作为类别2的样本这两者。

在现有的分类方法中，想要通过创造能够尽量抑制这样的错误分类样本产生的、图1所示的判别函数来达到高分类率，但生成能够这样完全分类的判别函数是极其困难的，样本个数越增加，则该困难性越急剧增大。在KY法中，采取与这种现有方法完全不同的处理。即，KY法的特征在于，将模式空间划分成仅存在正确分类样本的区域、正确分类样本和错误分类样本混合存在的区域即模糊区域来考虑，取出位于这样的混合存在区域(模糊区域)内的样本，构成新学习样本集合，对该学习样本集合进行新的判别分析，重复该步骤。此时，将在各个阶段中被正确分类的样本指定为被正确分类的类别。重复该步骤，由此最终能够对全部样本进行正确分类。

因此，在KY法中，如何在图2的模式空间中分离正确分类样本区域和模糊区域成为重要课题。在本发明人已经提出的方法中，为了分离正确分类样本区域和模糊区域而利用AP模型以及AN模型这样的具有完全相反分类特性的特殊的2个判别函数。

这里，判别函数(模型)Y由下面的式(1)表示。

Y＝a1x1±a2x2±...±anxn±C (1)

式(1)中，Y表示目标变量，x1、x2、...xn表示说明变量(参数)，a1、a2、...an表示权重系数，C表示常数。说明变量x1、x2、...xn是根据各样本而不同的值，权重系数a1、a2、...an是所有样本共用的值。通常，对于属于类别1的样本，以目标变量Y的值成为正值的方式选择权重系数，对于属于类别2的样本，以目标变量Y的值成为负值的方式选择权重系数。在该情况下，识别面S表示Y值为0的平面(超平面)。

通过将针对各样本求出的说明变量(参数)x1、x2、...xn代入判别函数(1)，来求出各样本的目标变量的值Y(1)、Y(2)、...、Y(k)、...Y(n)。在判别分析中，该值Y(k)被赋予“目标变量”或“独立变量”的意义，但在视为数值数据的情况下，表示作为连续变量的“判别分数”。判别分数表示在模式空间上各样本与识别面S之间的距离。在本发明中，考虑利用该判别分数来确定模糊区域。

在二类别分类中，通常以类别1样本的判别分数为正值、类别2样本的判别分数为负值的方式生成判别函数，而并未利用判别分数的绝对值大小作为类别分类的信息。因此，只利用表示判别分数的值是正还是负的信息来决定各个样本的类别。这样，在判别分析中，判别分数的大小(绝对值)决不表示分类目标的特性的强度。

但是，计算判别分数Y的判别函数本身是根据由多个样本构成的样本空间上的相互位置关系而构建的。因此，意味着距识别面(超平面)的距离的判别分数不仅表示单纯的距离关系，还表示与多个样本间的复杂的相互位置关系有关的信息。这样，判别分数是按照式(1)根据确定各样本的参数值而计算的，因此由该判别分数Y(k)确定各样本间的关系。其结果是，原来的目标变量信息从单纯的2类别的记号信息(例如，+/-、1/2等)变成判别分数的大小包含各个样本间的相互位置关系的高度的信息源。

如图2所示，错误分类样本1、2具有产生于识别面S附近的倾向。即，在识别面S与样本之间的距离较小的区域内，容易产生错误分类样本1、2。识别面S与样本间的距离越大，则错误分类样本的发生程度越小。判别分数表示识别面S与样本间的距离，因此可认为判别分数越大或越小，则错误分类样本的发生程度越低。即，从样本模式空间角度来看，可认为判别分数是表示分类可靠度的指标。

因此，能够根据错误分类样本中的最大判别分数与最小判别分数，来决定错误分类区域。如图2所示，当用判别分数观察正确分类样本与错误分类样本的混合存在区域即模糊区域时，可知类别1样本○中的具有最小判别分数的样本10、与类别2样本×中的具有最大判别分数的样本20之间是正确分类样本与错误分类样本混合存在的模糊区域。

图3示出针对判别分数Y对各样本进行排序后的状态。各样本的判别分数存在于在从最大的Y(max)到最小的Y(mini)的范围内延伸的直线Y上。判别分数Y在识别面上为0，关于类别1的所有样本，本来判别分数Y应为正，但被错误分类的样本为负。关于类别2的所有样本，本来判别分数Y应为负，但一部分被错误分类的样本为正。从图3中可知，当考虑判别分数Y时，错误分类样本与正分类样本混合存在的区域即模糊区域是在错误分类的类别1样本内的、具有最小判别分数Ye(mini)的样本与错误分类的类别2样本内的、具有最大判别分数Ye(max)的样本之间的区域。

即，在判别分数Y中，

Ye(mini)≤Y≤Ye(max) (2)

的区域是模糊区域，该区域中的正确分类以及错误分类样本都是模糊类别样本。

因此，对学习样本执行二类别分类，利用得到的判别函数执行各样本的分类预测，确定错误分类样本。同时，根据判别分数，对各样本进行排序，确定错误分类样本的最大判别分数Ye(max)与最小的判别分数Ye(mini)，提取出判别分数Y位于Ye(mini)≤Y≤Ye(max)内的样本，使这些样本归属于模糊区域。当这样地确定模糊区域样本时，将其作为新学习样本集合，执行下一阶段的二类别分类。

并且，为了提高模糊区域的可靠性，也可以在负以及正方向上将图3的模糊区域扩大α、β，形成扩大模糊区域。在该情况下，取出归属于扩大模糊区域的样本，将这些样本也附加到归属于模糊区域的样本组中，将形成的样本组设为新学习样本集合，由此进一步提高分类的可靠性。这意味着，将本来应该设定为正确分类区域的区域中的、与产生了错误分类的模糊区域接近的正确分类区域临时包含在错误分类区域中，由此只将被可靠地正确分类的区域指定为正确分类区域，其结果是，能够期待提高预测率。

如上所述，在本实施方式中，根据利用1个判别函数而求出的各样本的判别分数，形成了模糊区域。因此，相比于利用具有AN、AP的特殊分类特性的2个判别函数来生成模糊区域的情况，大幅度地简化了模型生成。

图4A、4B是示出一个实施方式的分类预测模型的生成方法的步骤的流程图。首先，准备多个已知针对目标特性的值的样本。准备例如500个已知具有某种毒性的样本即肯定样本，准备例如500个已知不具有该毒性的样本即否定样本。将准备的样本输入分类预测模型的生成装置(步骤S1)，生成图5所示的用于保存样本数据的表。

在图5中，列50表示作为样本的化合物的2维或3维的结构式。列51表示该化合物的CAS编号，列52表示Ames测试的结果。在列52中，mutagen(致变物)表示Ames测试的结果为具有变异原性(mutagenicity)即(+)，nonmutagen(非致变物)表示不具有变异原性即(-)。在图示的例子中，示出了用于进行二类别分类的数据表，该数据表将mutagen的样本分类为类别1(肯定类别)，将nonmutagen的样本分类为类别2(否定类别)。并且，列53表示样本编号。

接着，在图4A的步骤S2中，产生用于计算目标变量的初始参数即说明变量(x1、x2...xx)。可根据化合物的结构，自动地产生初始参数。例如，富士通株式会社销售的ADMEWORKS-ModelBuilder(注册商标)可根据化合物的2维或3维结构、各种物性，产生几千个参数。并且，也可以取入在外部生成的参数组，与先前根据结构式生成的参数组组合使用或仅使用从外部取入的参数来作为这些参数，进到下一步骤。在步骤S3中，为了开始分类/预测模型的第1阶段即STAGE1，将STAGE设为1。

在步骤S4中，对产生的初始参数进行特征提取，去除分类所不需要的噪声参数。由此，决定最终参数集合(x1、x2...xn)(步骤S5)。可使用参数的出现频度、有无缺失参数、单相关系数、多重相关系数、Fischer比、Variance法、Variance Weight法、基于遗传算法的处理等各种已知方法来实施特征提取。用于特征提取的各种引擎也被广泛供应。

图6是示出作为特征提取的结果而被选择的最终参数集合、和针对各个化合物的这些参数的数值数据的表，该最终参数集合对Ames测试结果的分类/预测起到重要作用。列60利用结构式来确定化合物，列61以后示出各种参数。例如，列61示出将化合物的分子量设为参数，列62示出将分子表面积设为参数，列63示出将logP的值设为参数。数据表中的单元64内所记载的值是表示样本1的分子的分子量的数据，单元65内的值是表示样本1的分子表面积的值的数据，单元66内的值是表示样本1的logP值的数据。各单元内示出的值是该样本的参数数据。并且，列67示出各样本的样本编号。

在步骤S6中，对在步骤S5中决定的最终参数集合的个数与样本个数进行比较，判定[样本个数]/[最终参数个数]是否大于预先决定的个数M。即，判定是否满足下式。

[样本个数]/[最终参数个数]＞M (3)

这里，M例如是4左右的值，当M为该值以下时，是被视为失去数据解析意义的值。因此，当步骤S6为“否”时，转移到步骤S7，结束处理。

当步骤S6为“是”时，使用在步骤S5中决定的最终参数集合进行判别分析，生成第1阶段的判别函数1(步骤S8)。在判别分析中，判别函数按照每种数据解析方法而变化，但一般地表示为上述式(1)。

在步骤S9中，使用所生成的判别函数计算各样本的判别分数，检查样本是被正确分类还是被错误分类。第k个样本的判别分数Yk被计算为

Yk＝a1x1k±a2x2k±...±anxnk±C (4)。

这里，x1k、x2k、...xnk是第k个样本的参数(说明变量)数据、a1、a2、a3...an是针对各参数的权重系数。Const是常数。

根据图6的各单元内记载的数据得到参数数据x11、x21、x31...。因此，当利用判别分析求出针对各参数的系数a1、a2...时，将图6的表中所示的各单元内的数据代入式(4)，由此计算样本k的判别分数Yk。并且，在参数值的单位按照参数的每个种类而有很大不同的情况下，有时利用自动调整大小等操作临时对单元内的值进行转换，将转换后的值用作单元数据。

根据该计算值Yk的正负，进行样本的类别分类。在本实施方式中，以在nonmutagen的情况下Y值为负、在mutagen的情况下Y值为正的方式生成判别函数。因此，将判别分数Yk取正值的样本指定为类别1(肯定)，将判别分数Yk取负值的样本指定为类别2(否定)。并且，进行判别分析的各种引擎也被广泛供应。

当计算出样本k的判别分数Yk时，将该值与样本Yk本来的特性进行比较，由此检查样本的正确分类、错误分类。例如，当针对图5的样本1计算出的判别分数Y1为负时，根据列52可知本来该样本的Ames测试为负，因此能够判定为样本1被正确分类。当针对样本3计算出的判别分数Y3为正时，根据列52可知本来该样本的Ames测试为负，因此能够判定为样本3被错误分类。

当所有样本的正误分类的检查结束时，在图4A的步骤S10中检查是否存在错误分类样本。当不存在错误分类样本时(步骤S10的“是”)，可认为利用判别函数1进行了100％的分类，因此前进到步骤S7，结束处理。当在步骤S10中存在错误分类样本时(步骤S10的“否”)，移动到图4B的步骤S11，根据判别分数对所有样本进行排序。在步骤S12中，根据判别分数的排序结果，决定错误分类样本中的最大判别分数Ye(max)以及最小判别分数Ye(mini)。

在步骤S12中，根据在步骤S11中决定的错误分类样本中的最大判别分数Ye(max)以及最小判别分数Ye(mini)、预先决定的安全宽度α、β，决定模糊区域或扩大模糊区域。关于该模糊区域的信息与判别函数1一起被存储为STAGE 1的模型信息。

例如，按照下述方式设定安全宽度α、β。即，如图3所示，将判别分数中的、模糊区域的最小值Ye(mini)与所有样本中的判别分数的最小值Y(mini)之差的例如50％设为α。同样，将判别分数中的、模糊区域的最大值Ye(max)与所有样本中的判别分数的最大值Y(max)之差的例如50％设为β。α、β越大，则本方法的分类预测模型的可靠性越高，但是，相反地，归属于模糊区域内的样本个数也增多，相应地STAGE(阶段)次数增加，生成模型的作业量增大，用于预测所需的计算时间也增大。

为了得到最大的可靠性，以下述方式设定α、β即可，即：次于所有样本中具有最小判别分数的样本的具有第二小判别分数的样本的判别分数、与次于所有样本中具有最大判别分数的样本的具有第二大判别分数的样本的判别分数之间成为扩大模糊区域。在该情况下，只去除具有最小判别分数和最大判别分数的2个样本，其它样本全部被确定为扩大模糊区域中的样本。

当在图4B的步骤S13中决定了扩大模糊区域时，在步骤S14中，取出扩大模糊区域内的样本(模糊类别样本)构建新样本集合。在该模糊区域内，包含步骤S9中被错误分类的样本以及被正确分类的样本两者。当确定了扩大模糊区域时，在步骤S15中，确定位于扩大模糊区域外侧的样本，决定使所确定的样本归属于在步骤S9中指定的类别。因此，在步骤S15的结束时刻，学习样本集合被分类为类别1的样本、类别2的样本、扩大模糊区域内的样本(模糊类别样本)。并且，在生成完全未知样本的分类预测模型的情况下，不需要步骤S15。

图7是在图2的模式空间上示出作为步骤15的实施结果而指定的类别1样本、类别2样本以及模糊类别样本。图7所示的状态是STAGE 1的结果。

当按照上述方式得到STAGE 1的结果时，在步骤S16中，使STAGE加1，返回到图4A的步骤S4，将在步骤S14中构建的新样本集合即模糊类别样本集合设为新的学习样本，执行STAGE 2的判别分析。与STAGE1的情况相同，执行步骤S4至步骤S15，由此确定STAGE 2的类别1样本、类别2样本以及模糊类别样本。当确定了模糊类别样本时，再次执行步骤S4以后的步骤，确定STAGE 3中的类别1样本、类别2样本以及模糊类别样本。并且，关于安全宽度α、β，可以对所有STAGE共同地设置，也可以按照阶段单位设定不同的值。

当在步骤S6中样本个数与参数个数之间的关系小于预先决定的比率M时(步骤S6的“否”)或在步骤S10中错误分类样本为0时，结束从步骤S4至步骤S15的反复处理。当在步骤S10中结束时，最初的学习样本都被分类为样本本来的类别，分类率为100％。

图8是概念地示出从STAGE 1至例如STAGE 3的处理的图。根据该图可容易理解，由在步骤STAGE 1中被确定为模糊类别样本的样本构成STAGE 2的学习样本集合，由在步骤STAGE 2中被确定为模糊类别样本的样本构成STAGE3的学习样本集合。该处理被持续到模糊类别的样本成为0为止。并且，在图8中，Yg1(mini)、Yg2(mini)、Yg1(max)、Yg2(max)等是用于规定模糊区域(或扩大模糊区域)的判别分数信息，这些信息与各阶段的判别函数一起被保存起来，构成模型。

图9示出用于对由在各STAGE中得到的信息构成的分类预测模型进行保存的表。如图所示，本实施方式的分类预测模型包括由各STAGE生成的判别函数1、判别函数2、...判别函数n，以及各STAGE中的模糊区域信息即规定扩大模糊区域的最小、最大的判别分数[Yg1(mini)、Yg1(max)]、[Yg2(mini)、Yg2(max)]、...、[Ygn(mini)、Ygn(max)]。

在图4A以及图4B所示的第1实施方式中，只要在步骤S10中存在错误分类样本，就执行下一阶段的判别分析。作为其替代，在替代的实施方式中，将可实施的STAGE次数限定为一定次数，当一定次数的STAGE的处理结束时，即使存在错误分类样本也结束整体的处理。

在该情况下，只要在图4B的步骤S16的下一步骤中设置用于判定STAGE次数是否是预先决定的次数以下的步骤即可。作为另一替代的实施方式，也可以预先将程序的处理时间限制为一定时间，在经过该时间后强制地结束程序。利用这些方法，当学习样本中包含错误数据等而错误分类样本始终不为0时，能够强制结束用于生成模型的处理。

并且，在另一替代实施方式中，可以将在各STAGE中实施的判别分析方法设为不同的方法。例如，可以在STAGE 1中使用Bayes判别分析方法，在STAGE 2中使用AdaBoost法。当然，也可以在所有STAGE中使用同一分类方法。另外，各STAGE中的安全宽度α、β无需对所有STAGE设为一定，可在各STAGE中任意设定。

[在订制建模上的应用]

本发明人提出了所谓的订制建模(非专利文献2、PCT/JP2007/066286)，即：生成高效地反映了预测1个未知化合物的特性所需的信息的预测模型，只对该1个未知化合物应用该预测模型，进行预测。订制建模的最大特征在于，1个预测模型对应于1个未知化合物。所生成的预测模型包含与作为预测对象的未知化合物有关的重要信息，噪声信息受到极大限制。因此，当然大幅度地提高预测率。通过将这里提出的二类别分类预测模型的生成方法、装置、或程序应用于这样的订制建模，可得到更好的效果。

图10是示出其它实施方式的流程图，示出利用图4A、4B所示的二类别分类预测模型的生成方法实施订制建模时的步骤。在步骤S20中，输入未知化合物X和学习样本集合，在步骤S21中产生这两者的初始参数。在步骤S22中，从在步骤S21中产生的初始参数中选择与结构类似有关系的参数，使用所选择的参数来计算未知化合物X与各个学习样本间的结构类似度。例如，可使用Tanimoto系数、欧几里得距离、余弦系数、皮尔逊积矩相关系数等来计算结构的类似度。

在步骤S23中，根据预先设定的类似度的阈值，针对未知化合物X和各个学习样本，筛选学习样本集合，取出结构与未知化合物X类似的学习样本构成子样本集合(步骤S24)。在订制建模中，这样地构建具有与未知化合物X类似结构的子样本集合，对该子样本集合进行二类别分类，生成分类预测模型，因此能够生成对未知化合物X具有高预测可靠性的模型。

在步骤S25中表示基于子样本集合的预测模型的生成流程，相当于图4A以及图4B所示的步骤S3以后的步骤。通过实施步骤S25，能够用简单的步骤生成对未知化合物X具有很大意义的预测模型。步骤S25生成对于预测对象样本的分类/预测而言最佳且良好的样本集合。如果在该阶段应用“KY法”或本发明的分类方法，则始终保障100％的分类率，其结果是，所生成的预测模型的预测率非常高。

[类别未知样本的分类预测]

图11示出利用上述各实施方式形成的二类别分类预测模型(例如，参照图9)进行类别未知样本的分类预测时的处理流程图。在步骤P1中输入类别未知样本X，在步骤P2中针对未知样本X产生参数。在步骤P3中将STAGE L设为STAGE 1(L＝1)。在步骤P4中，使用STAGE 1的判别函数1计算未知样本X的判别分数Y1。

在步骤P5中，取得STAGE 1的模糊类别信息，与未知样本X的判别分数Y1进行比较。在Y1为扩大模糊区域的最小判别分数Yg1(mini)以上、最大判别分数Yg1(max)以下的情况即步骤P5为“是”的情况下，未知样本X在STAGE 1中被指定为模糊类别。另一方面，在步骤P5为“否”的情况下，判断为未知样本X不是模糊类别的样本，当在步骤P6中判别分数Y1小于Yg1(mini)时，将未知样本指定为类别2，当大于Yg1(max)时，将未知样本指定为类别1，结束处理。

另一方面，当在步骤P5中未知样本X被指定为模糊类别时，在步骤P7中使当前的STAGE加1(L＝L+1)，在步骤P8中确认相加后得到的STAGE是否未超过最终STAGEn(L≤n)(步骤P8的“是”)，然后返回到步骤P4，使用接下来的STAGE 2的判别函数以及模糊区域信息进行样本X的类别分类。通过反复以上处理，来实施类别未知样本的分类预测。并且，当即使SATGE超过最终STAGE n而未决定样本X的分类预测时(步骤P8的“否”)，也结束处理。

[系统结构]

图12是示出一个实施方式的二类别分类预测模型的生成装置的系统结构的框图。本实施方式的分类预测模型的生成装置100具有输入样本数据的输入装置110、以及输出分类结果或处理中所需数据的输出装置120。学习分类所需的样本信息从输入装置110输入，保存在输入数据表130中。当样本为化合物时，该化合物的已知的目标变量的值与化合物的2维结构式或3维结构式一起从输入装置110输入，保持在输入数据表130中。

也可以经由输入装置110输入初始参数集合的数据，将其保存在初始参数集合表140中。并且，当解析部200具有用于针对所输入的样本自动地产生初始参数的引擎210时，无需从输入装置110输入初始参数集合数据。

在图12中，150是保存最终参数集合的表，保存作为对初始参数集合进行特征提取的结果的最终参数集合。160是用于保存针对每个STAGE决定的判别函数与模糊区域信息即二类别分类预测模型的模型保存表。

并且，当把本实施方式的装置应用于订制建模时，设有用于计算结构类似度的类似度计算装置280、以及用于根据所计算的类似度来筛选初始的学习样本集合的筛选装置290。

解析部200具有控制部220、初始参数产生引擎210、特征提取引擎230、判别函数生成引擎240、判别分数计算部250、新样本集合设定部260以及解析结束条件检测部270。还可以具有类似度计算装置280、以及筛选装置290。并且，当在本装置的外部产生初始参数时，不需要初始参数产生引擎210。另外，初始参数产生引擎210、特征提取引擎230可使用现有的引擎。

特征提取引擎230对初始参数集合进行特征提取，决定最终参数集合，将其保存在最终参数集合表150中。判别函数生成引擎240具有各种现有的判别分析引擎，使用由用户指定的判别分析引擎或系统适当选择的判别分析引擎，参照最终参数集合表150，同时进行输入样本的判别分析，生成判别函数。判别分数计算部250将各样本的参数输入到由判别函数生成引擎240生成的判别函数中，由此计算各样本的判别分数。新样本集合设定部260根据使用图2、图3说明的算法，设定扩大模糊区域，确定包含在该区域内的样本，设为新样本集合。

特征提取引擎230、判别函数生成引擎240、判别分数计算部250、新样本集合设定部260在控制部220的控制下，执行图4A、4B所示的处理。并且，解析结束条件检测部270起到下述作用：检测模糊类别的样本实质上成为0的时刻，结束分类预测模型的生成。或者，在模糊类别的样本由于某种原因而不收敛于0的情况、检测出处理的反复次数即STAGE数为预先决定的次数的情况、或处理时间超过预先决定的时间的情况等情况时，决定结束处理。

解析部200得到的各STAGE的判别函数、与模糊区域有关的信息被保存在模型保存表160中，或经由输出装置120输出到外部。关于输出的方式，适当选择以文件形式输出、输出到显示器上、打印等。

当实施订制建模时，按照图10所示的步骤，使类似度计算装置280、筛选装置290动作，构成子样本集合。

产业上的可利用性

本发明能够应用于能够应用二类别分类的所有产业领域。下面，列举主要的应用领域。

1)化学数据分析

2)生物关联研究

3)蛋白质关联研究

4)医疗关联研究

5)食品关联研究

6)经济关联研究

7)工程关联研究

8)以生产成品率提高等为目的的数据解析

9)环境关联研究

在1)的化学数据解析领域中，更具体而言，能够应用于下述研究。

(1)结构-活性/ADME/毒性/物性相关研究

(2)结构-谱相关研究

(3)代谢组学关联研究

(4)化学统计学研究

例如，在环境和药物开发研究领域，与化合物的毒性有关的结构-毒性相关研究非常重要，例如，对Ames测试结果进行预测是极其重要的。原因在于，Ames测试作为最重要项目之一包含在毒性化合物规定关联的化合物审查法或劳动安全卫生法等国家级别的化合物规定中。如果不通过该Ames测试的审查，则不能再进行日本国内的化合物生产，企业的生产活动本身停滞。另外，海外的生产或出口等也因对象国的安全性规定而被禁止。

例如，在从2007年6月开始阶段性实施的EU的REACH规定中，生产以及使用化合物的企业担负对其化合物预测并评价Ames测试结果的义务。本发明提供了对这样的测试结果预测非常有用的工具。并且，Ames测试是美国的Ames博士开发的变异原性试验之一，是致癌性试验的简单方法。因此，其是在世界范围内被用作很多化学物质或应用这些化学物质的产品的安全性指标的安全性试验法之一。

Claims

1.一种二类别分类预测模型的生成方法，其包括下述各步骤：

a)根据针对学习样本集合的各个学习样本产生的说明变量，求出用于将所述学习样本集合分类为预先设定的两个类别的判别函数；

b)根据所述求出的判别函数，计算各学习样本的判别分数；

c)根据所述计算的判别分数，确定各学习样本的分类预测的正误；

d)根据被错误分类的学习样本集合中的最大判别分数和最小判别分数，确定错误分类样本区域；

e)取出包含在所述错误分类样本区域内的学习样本，构成新学习样本集合；

f)针对所述新学习样本集合，重复所述a)～e)步骤；以及

g)存储作为所述重复的结果而得到的多个判别函数和各个所述判别函数附带的错误分类样本区域信息，作为类别未知样本的分类预测模型。

2.根据权利要求1所述的二类别分类预测模型的生成方法，其中，

所述步骤d)中的所述错误分类样本区域是对被错误分类的学习样本中的最大判别分数和最小判别分数附加任意的安全宽度而确定的。

3.根据权利要求1所述的二类别分类预测模型的生成方法，其中，

当在所述步骤c)中被错误分类的学习样本为0时，不执行以后的步骤。

4.根据权利要求1所述的二类别分类预测模型的生成方法，其中，

在所述步骤f)中，所述步骤a)～e)重复预先确定的次数。

5.根据权利要求1所述的二类别分类预测模型的生成方法，其中，

所述各个学习样本是化合物，所述预先设定的两个类别是具有任意毒性的化合物的类别和不具有所述毒性的化合物的类别。

6.根据权利要求1所述的二类别分类预测模型的生成方法，其中，

该二类别分类预测模型的生成方法还包括对针对所述学习样本集合产生的说明变量实施特征提取，去除不需要的说明变量的步骤。

7.根据权利要求6所述的二类别分类预测模型的生成方法，其中，

当所述学习样本集合中的样本个数与所述特征提取后的说明变量的个数之比为预先确定的一定数量以下时，停止所述步骤f)中的所述重复。

8.一种二类别分类预测模型的生成程序，其使计算机执行下述步骤：

a)根据针对学习样本集合的各个学习样本产生的说明变量，求出用于将所述学习样本集合分类为预先设定的两个类别的判别函数的步骤；

b)根据所述求出的判别函数，计算各学习样本的判别分数的步骤；

c)根据所述计算的判别分数，确定各学习样本的分类预测的正误的步骤；

d)根据被错误分类的学习样本集合中的最大判别分数和最小判别分数，确定错误分类样本区域的步骤；

e)取出包含在所述错误分类样本区域内的学习样本，构成新学习样本集合的步骤；

f)针对所述新学习样本集合，重复所述a)～e)步骤的步骤。

9.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

10.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

11.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

在所述步骤f)中，所述步骤a)～e)重复预先确定的次数。

12.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

在经过预先确定的处理时间后，在所述步骤f)中，停止所述步骤a)～e)的重复。

13.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

14.根据权利要求8所述的二类别分类预测模型的生成程序，其中，

该二类别分类预测模型的生成程序还具有对针对所述学习样本集合产生的说明变量实施特征提取，去除不需要的说明变量的步骤。

15.根据权利要求14所述的二类别分类预测模型的生成程序，其中，

16.一种二类别分类预测模型的生成装置，其根据由已知属于类别1或类别2的多个样本构成的学习样本集合，生成用于对未知归属于所述类别1或类别2的未知样本进行类别分类的模型，该二类别分类预测模型的生成装置具有：

说明变量取得装置，其针对所述学习样本集合的各样本，取得说明变量；

判别函数生成引擎，其根据所述取得的说明变量，进行判别分析，得到用于判别所述类别1以及类别2的判别函数；

判别分数计算装置，其根据所述生成的判别函数，计算所述各样本的判别分数；

样本集合设定装置，其根据所述计算的判别分数，确定错误分类样本区域，取出该区域内的所述样本，设定为新样本集合；

控制装置，其使所述说明变量取得装置、所述判别函数生成引擎、所述判别分数计算装置以及所述样本集合设定装置使用所述设定的新样本集合作为所述学习样本集合重复进行动作；以及

存储装置，其保存由所述判别函数生成引擎生成的判别函数、以及与所述样本集合设定装置确定的错误分类样本区域相关的信息，作为用于分类预测的模型。

17.根据权利要求15所述的二类别分类预测模型的生成装置，其中，

该二类别分类预测模型的生成装置还具有特征提取引擎，该特征提取引擎用于对由所述说明变量取得装置取得的说明变量进行特征提取，以去除分类所不需要的说明变量。

18.一种化合物毒性预测模型生成装置，其根据由具有任意毒性的多个化合物和不具有所述毒性的多个化合物构成的学习样本集合，生成未知是否具有所述毒性的化合物的毒性预测模型，该化合物毒性预测模型生成装置具有：

参数取得装置，其取得所述学习样本集合中的各化合物的参数；

判别函数生成引擎，其根据所述取得的参数，进行判别分析，得到用于判别有无上述毒性的判别函数；

判别分数计算装置，其根据所述生成的判别函数，计算所述各化合物的判别分数；

样本集合设定装置，其根据所述计算的判别分数，确定错误分类化合物区域，取出该区域内的所述化合物，设定为新样本集合；

控制装置，其使所述参数取得装置、所述判别函数生成引擎、所述判别分数计算装置以及所述样本集合设定装置使用所述设定的新样本集合作为所述学习样本集合重复进行动作；以及

存储装置，其保存由所述判别函数生成引擎生成的判别函数、以及与所述样本集合设定装置确定的错误分类化合物区域相关的信息，作为用于毒性预测的模型。

19.根据权利要求18所述的化合物毒性预测模型生成装置，其中，

该化合物毒性预测模型生成装置还具有特征提取引擎，该特征提取引擎用于对由所述参数取得装置取得的参数进行特征提取，以去除分类所不需要的参数。

20.根据权利要求18所述的化合物毒性预测模型生成装置，其中，

该化合物毒性预测模型生成装置还具有筛选装置，该筛选装置根据所述未知的化合物与所述学习样本集合中的化合物之间的结构类似度，对所述学习样本集合进行筛选，所述毒性预测模型是根据所述筛选后的学习样本集合而生成的。