CN112654864A

CN112654864A - 数据解析装置

Info

Publication number: CN112654864A
Application number: CN201880097252.7A
Authority: CN
Inventors: 藤田雄一郎; 野田阳
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2018-09-13
Filing date: 2018-09-13
Publication date: 2021-04-13
Also published as: US20210350283A1; WO2020054028A1

Abstract

多次重复进行以下一系列处理：将被提供的带标签教师数据分割为模型构建用数据和模型验证用数据，使用模型构建用数据来构建机器学习模型，并将该模型应用于模型验证用数据来识别样本(赋予标签)(S2～S5)。虽然当模型构建用数据改变时构建出的机器学习模型改变，但是应该能够以高概率准确地进行识别，因此在错误标签样本中，原本的标签与识别结果不一致从而成为错误识别的可能性高。当针对每个样本计算该错误识别次数来求出错误识别率时，在错误标签样本中错误识别率相对变高，因此基于错误识别率来确定错误标签样本(S6～S7)。像这样，通过以高精度检测教师数据所包含的、错误标签状态的可能性高的样本，能够提升机器学习模型的识别性能。

Description

数据解析装置

技术领域

本发明涉及一种数据解析装置，该数据解析装置对由质谱分析装置、气相色谱仪(GC)、液相色谱仪(LC)、分光测定装置这样的各种分析装置获得的数据等通过各种方法收集到的数据进行解析，更详细的是涉及一种数据解析装置，该数据解析装置利用作为机器学习的一种方法的监督学习来识别未赋予标签的数据并进行标签赋予，或者预测标签。此外，一般在“机器学习”这样的用语中也有时不包含多变量分析，但是在本说明书中设为机器学习包括多变量分析。

背景技术

为了从多种多样的大量的数据中找到规律性，并利用该规律性来进行数据的预测或识别，机器学习是一个有用的方法，其应用领域近年来逐渐扩大。作为机器学习的代表性的方法，支持向量机(SVM＝Support Vector Machine)、神经网络(Neural Network)、随机森林(Random Forest)、自适应提升(AdaBoost)、深度学习(Deep Learning)等广为人知。另外，作为广义的机器学习所包括的多变量分析的代表性的方法，主成分分析(PCA＝Principal Component Analysis)、独立成分分析(ICA＝Independent ComponentAnalysis)、偏最小二乘法(PLS＝Partial Least Squares)等广为人知(参照专利文献1等)。

在机器学习中大致分为监督学习和无监督学习。例如，在基于通过分析装置收集到的数据来识别被检者有没有特定的疾病这样的情况下，只要能够对于患有该疾病的患者和未患有该疾病的正常者分别预先收集大量的数据，则能够进行将这些数据作为教师数据的监督学习。最近特别地，在各处都进行着以下的尝试：对通过质谱分析装置获取到的质谱数据应用监督学习，来进行癌症等疾病的诊断。

图12是整理了关于癌标本和非癌标本的质谱数据来作为教师数据的峰矩阵的一例。

该峰矩阵在纵向设为样本，在横向设为峰位置(质荷比m/z)，将各峰的信号强度值设为了要素的值。因而，该峰矩阵中的1行的各要素表示出关于一个样本的各质荷比中的峰的信号强度值，1列的各要素表示出某个质荷比时的所有样本的信号强度值。在此，样本1到样本n-2的样本为癌标本，对这些样本的每一个赋予了表示是癌的“1”的值的标签。另一方面，样本n-1到样本N的样本为非癌标本，对这些样本的每一个赋予了表示是非癌的“0”的值的标签。在这种情况下，标签为二值的标签。

通过使用这样的带标签教师数据，能够构建能够以高准确性识别癌和非癌的机器学习模型。然而，根据情况，有时教师数据本身的标签错误。说到底癌与非癌(或者其它疾病的患病与未患病)的判定是基于病理医生的诊断的，既然是人进行判断，则实际上无法使错误为零。另外，即使病理医生的诊断结果正确，也要考虑到由于将该病理医生的诊断结果作为教师数据输入时的操作员的输入错误而导致标签错误。因此，无法避免在作为教师数据提供的大量的样本中混入少量的标签错误的错误标签状态的样本。

作为应对这样的状况的一个方法，将机器学习的算法设为即使在教师数据中混入一些错误标签状态的样本也能够得到高的识别性能。然而，当想要提高对于错误标签状态的教师数据的容许度时，无法避免识别性能的下降，尚无法实现使它们能够并存的通用的机器学习的方法。

另外，混入错误标签状态的样本的情况下的其它应对方法是：在构建机器学习模型之前发现并去除错误标签状态的样本、或者正确地替换标签。虽然如非专利文献1所述，提出了一种通过机器学习来检测被赋予的标签的错误的方法，但是以往不存在用于判断作为教师数据提供的样本是否为错误标签的、可靠性高的统计学的方法。因此，实际情况是，关于在数据中是否包含错误标签，例如在医疗数据中，只有逐一核对测定日或病理医生的诊断结果等与赋予到教师数据中的标签是否一致这样的原始的方法。这样的方法非常花费人力且效率差。另外，在病理医生的诊断本身错误的情况下，通过该方法也几乎不可能决定该样本是否真是错误标签。

现有技术文献

专利文献

专利文献1：日本特开2017-32470号公报

非专利文献

非专利文献1：板桥及其他两位，“通过误标签数据检测来进行的半监督学习的研究(誤ラベルデータ検出による半教師有り学習の研究)”，信息处理学会全国大会演讲论文集(情報処理学会全国大会講演論文集)，2010年03月08日发行，第72卷，第2号，pp.463-464

发明内容

发明要解决的问题

本发明是为了解决上述问题而完成的，其目的在于提供一种数据解析装置，该数据解析装置能够通过从作为教师数据提供的大量的数据中准确地确定并去除错误标签状态的可能性高的样本或者进行标签的替换，来构建识别性能高的机器学习模型。

用于解决问题的方案

为了解决上述问题而完成的本发明是一种数据解析装置，基于关于多个样本的被赋予了标签的教师数据来构建机器学习模型，使用该机器学习模型来识别未知的样本并赋予标签，该数据解析装置的特征在于，

具备错误标签检测部，该错误标签检测部在所述教师数据中检测错误标签状态的样本，该错误标签检测部具备：

a)重复识别执行部，其多次重复以下一系列处理：使用从所述教师数据中选择出的、或者与该教师数据不同的作为带标签的数据的模型构建用数据来构建机器学习模型，将构建出的该机器学习模型应用于从所述教师数据中选择出的模型验证用数据来识别样本并进行标签赋予；以及

b)错误标签判定部，在由所述重复识别执行部多次重复进行一系列处理时，该错误标签判定部针对每个样本求出作为所述一系列处理的识别结果的标签与原本赋予到数据中的标签不一致的错误识别的次数，基于该错误识别次数或该错误识别的概率来判定样本是否为错误标签状态。

在本发明所涉及的数据解析装置中，机器学习包括进行所谓的监督学习的多变量分析。另外，在本发明所涉及的数据解析装置中，不限定作为解析对象的数据的内容或种类，但是典型地说，能够设为通过各种分析装置收集到的分析数据、测定数据。具体地说，能够设为通过质谱分析装置获得的质谱数据、通过GC或LC获得的色谱(chromatogram)数据、通过分光测定装置获得的吸光光谱数据、通过DNA微阵列分析获得的数据等。当然，也能够将通过除此以外的各种方法收集到的数据设为对象。

在本发明所涉及的数据解析装置中，基于被提供的关于多个(通常非常多)样本的被赋予了标签的教师数据来构建机器学习模型，但是在此之前，错误标签检测部在该被提供的教师数据中检测标签错误的错误标签状态的样本。即，重复识别执行部例如从被提供的教师数据中分别适当地选择模型构建用数据和模型验证用数据，使用前者的数据来构建临时的机器学习模型。然后，通过将后者的数据应用于该临时的机器学习模型，分别识别作为模型验证用数据而选择出的样本并对其赋予标签。此外，模型构建用数据无需是被提供的教师数据(也就是作为是否是错误标签状态的判定对象的数据)所包含的数据，也可以是完全不同的带标签数据。另外，模型构建用数据与模型验证用数据也可以一部分重合，也可以完全相同。因而，也可以将所有被提供的教师数据都作为模型构建用数据和模型验证用数据。

现在，例如当通过某个机器学习模型来识别真是癌却被赋予了非癌的标签的样本(也就是错误标签状态的样本)时，在大多数情况下，该样本应该被识别为癌。但是，由于附加到该样本上的标签是非癌的标签，因此意味着作为识别结果的标签与原本的标签不一致，这能够说是错误识别。另一方面，当通过相同的机器学习模型来识别被赋予了正确的标签的样本时，在大多数情况下，作为识别结果的标签与原本的标签一致，成为正确识别。在机器学习模型只有一个的情况下，即使某个样本的标签与作为识别结果的标签不一致而判定为是错误识别，实质上也无法高精度地判断是原本的标签正确而识别错误，还是与此相反识别本身正确但原本的标签错误。然而，就概率而言，在错误标签状态的情况下成为错误识别的可能性高，因此如果使用不同的多个机器学习模型来尝试对相同样本进行识别并计算错误识别的次数，则对于错误标签状态的样本应该是错误识别次数变多，另一方面，对于正确的标签的样本应该是错误识别次数变少。

因此，重复识别执行部对于例如各不相同的模型构建用数据多次重复上述的一系列处理。即使机器学习的方法本身相同，当模型构建用数据改变时机器学习模型也改变，因此变为使用不同的多个机器学习模型重复进行识别。错误标签判定部针对每个样本求出多次重复这样的一系列处理时的错误识别的次数。也就是说，计算对相同样本的错误识别次数。如上所述，对于错误标签状态的样本，错误识别次数相对变多，因此错误标签判定部基于计算出的错误识别次数或者基于根据该错误识别次数求出的错误识别率，来针对每个样本判定是否是错误标签状态。需要针对每个样本判定错误识别次数是相对较多还是相对较少、或者错误识别率是相对较高还是相对较低，因此当然需要使上述的一系列处理的重复次数增多到足以进行该判定的程度。

如以上这样，在本发明所涉及的数据解析装置中，错误标签检测部能够在大量的源于癌样本的教师数据中检测标签错误的可能性高的样本。因而，通过从教师数据中排除这样检测出的样本来提高教师数据的品质，能够提升使用该教师数据构建出的机器学习模型的识别性能。另外，在标签为癌和非癌这样的二值的标签的情况下，标签容易替换，因此也可以不排除被确定为错误标签状态的可能性高的样本而是进行标签替换来留作教师数据。

在本发明所涉及的数据解析装置中，优选的是，最好构成为：所述错误标签检测部使用从教师数据中去除了被所述错误标签判定部判定为错误标签状态的样本后的教师数据，将由所述重复识别执行部和所述错误标签判定部进行的处理实施一次以上。

当从教师数据中去除了错误标签状态的样本时，使用该去除后的教师数据构建出的机器学习模型的识别性能提升。因而，根据该结构，对于难以判定是否为错误标签状态的数据，也能够以高可靠性进行判定，结果是，能够提升错误标签检测的精度。

另外，在本发明所涉及的数据解析装置中，无需如上述那样，模型构建用数据一定是作为是否是错误标签状态的判定对象的教师数据，但是在实际应用时，优选的是，从该教师数据中选择模型构建用数据。

因此，作为本发明所涉及的数据解析装置的一个方式，能够设为以下结构：

所述错误标签检测部包括数据分割部，该数据分割部将所述教师数据分割为模型构建用数据和模型验证用数据，

所述重复识别执行部在每次执行所述一系列处理时变更由所述数据分割部进行的数据分割。

在该情况下，具体地说，最好是，数据分割部例如利用随机数表，将教师数据随机地分割为模型构建用数据和模型验证用数据。此外，在该情况下，即使重新进行模型构建用数据和模型验证用数据的分割，也有可能以极低的概率使各个数据与变更前或者与已经实施过识别的处理相同，但是只要重复的次数多则该影响几乎不会出现。

另外，在本发明所涉及的数据解析装置中，所述重复识别执行部既可以构成为仅使用一种机器学习的方法，也可以构成为使用两种以上的机器学习的方法。当然，当使用两种以上的机器学习的方法时装置的结构(实质上是运算处理的程序)相应地变复杂，但是通过适当地组合不同的方法能够提高错误标签检测的精度。另一方面，机器学习的方法即使仅为一种，也能够通过增加重复的次数来提高错误标签检测的精度。

另外，在本发明所涉及的数据解析装置中，在所述重复识别执行部中使用的机器学习的方法只要进行监督学习则不作特别限定，例如最好设为随机森林、支持向量机、神经网络、线性判别法、非线性判别法等。优选的是，根据作为解析对象的数据的种类、性质等来适当地选择使用什么样的方法。例如根据本发明人的探讨能够确认出，在基于通过质谱分析获得的质谱数据来识别被检体是癌还是非癌的情况下，当使用随机森林时错误标签的检测精度相对较高。

另外，在本发明所涉及的数据解析装置中，由错误标签判定部进行的错误标签状态的判定能够以各种基准进行。作为一个方式，所述错误标签判定部最好构成为将错误识别率最高的样本判定为错误标签状态。

在该情况下，将错误标签状态的可能性最高的一个样本判定为错误标签状态，因此最好是如上所述，通过逐一去除被判定为错误标签状态的样本，并重复进行由重复识别执行部和错误标签判定部进行的处理，来去除错误标签状态的可能性高的多个样本。

另外，作为其它方式，所述错误标签判定部也可以构成为按照错误识别率从高到低的顺序，将由用户指定的个数的样本判定为错误标签状态。

在该结构中，能够一次去除错误标签状态的可能性高的多个样本，因此能够缩短处理时间。

并且，作为又一其它方式，所述错误标签判定部也可以构成为将错误识别率为100％的样本判定为错误标签状态。

在该结构中，能够以高可靠性去除错误标签状态的可能性高的多个样本。

并且，作为又一其它方式，所述错误标签判定部也可以构成为将错误识别率为由用户设定的阈值以上的样本判定为错误标签状态。

另外，在本发明所涉及的数据解析装置中，在如上述那样重复实施由重复识别执行部和错误标签判定部进行的处理的情况下，所述错误标签检测部最好构成为重复实施由所述重复识别执行部和所述错误标签判定部进行的处理，直到错误识别率变为规定的阈值以下为止。

根据该结构，能够更准确地检测存在错误标签状态的可能性的样本。但是，根据情况，也有时重复次数变得过多，因此最好对重复次数设置限制或者对执行时间设置限制，即使在错误识别率没有变为规定的阈值以下的情况下，在与该限制相抵触时也结束处理。

另外，在本发明所涉及的数据解析装置中，最好构成为，还具备结果显示处理部，该结果显示处理部制作基于所述错误标签判定部的识别结果的表或曲线图，并在显示部中显示该表或曲线图。

具体地说，例如通过曲线图来表示教师数据整体的每个样本的错误识别次数或错误识别率的分布，由此用户能够容易地决定错误识别次数或错误识别率是什么程度则被看作是错误标签状态的样本的判定基准。

发明的效果

根据本发明所涉及的数据解析装置，能够自动判定被提供的教师数据的标签是否错误，并确定错误标签状态的可能性高的样本。由此，例如能够通过将这样的样本从教师数据排除或者替换标签，来提升教师数据的品质，构建识别性能比以往高的机器学习模型，更准确地识别未知样本。

附图说明

图1是作为本发明所涉及的数据解析装置的一个实施例的癌/非癌识别装置的功能块结构图。

图2是本实施例的癌/非癌识别装置中的错误标签检测处理的流程图。

图3是本实施例的癌/非癌识别装置中的错误标签检测处理的变形例的流程图。

图4是本实施例的癌/非癌识别装置中的教师数据的分割处理的示意图。

图5是本实施例的癌/非癌识别装置中的在用于验证错误标签检测能力的仿真中使用的数据的说明图。

图6是示出处于XOR状态的两个标记峰的信号强度与癌或非癌的状态的关系的图。

图7是示出在使用线性数据作为仿真数据的情况下的错误标签检测结果的图。

图8是示出在使用线性数据作为仿真数据的情况下的错误标签检测结果的图。

图9是示出在使用非线性数据作为仿真数据的情况下的错误标签检测结果的图。

图10是示出在使用非线性数据作为仿真数据的情况下的错误标签检测结果的图。

图11是示出错误标签检测结果的显示例的图。

图12是示出整理了关于癌标本和非癌标本的质谱数据来作为教师数据的峰矩阵的一例的图。

具体实施方式

下面，参照附图来说明作为本发明所涉及的数据解析装置的一个实施例的癌/非癌识别装置。

图1是本实施例的癌/非癌识别装置的功能块结构图。

该癌/非癌识别装置是在被输入通过由未图示的质谱分析装置对来自被检者的生物体试样进行质谱分析而获得的质谱数据来作为未知样本数据时，判定其是癌还是非癌的装置，该癌/非癌识别装置具备数据解析部1以及作为用户接口的操作部2、显示部3。

数据解析部1包括错误标签检测部10、错误标签样本排除部17、机器学习模型制作部18以及未知数据识别部19来作为功能块。另外，错误标签检测部10包括数据分割部11、机器学习模型构建部12、机器学习模型应用部13、错误识别次数计数部14、错误标签样本确定部15、检测控制部16来作为功能块。

数据解析部1所包括的各功能块也能够由硬件构成，但是在实际使用时，最好设为以下结构：将个人计算机或更高性能的工作站等作为硬件资源，并在该计算机上执行安装于该计算机的专用的软件，由此将上述各功能块具体化。

将源于如图12所示那样的赋予了癌或非癌的标签的大量的样本的质谱数据(表示存在峰的每个质荷比的峰信号强度的数据)作为带标签教师数据预先提供给数据解析部1。错误标签检测部10在被提供的教师数据中检测错误标签状态的可能性高的样本。错误标签样本排除部17将被错误标签检测部10检测出的样本从教师数据中排除，或者替换赋予到检测出的样本中的标签。在此，标签是癌：1、非癌：0的二值，因此标签的替换只要单纯将值变更为1→0、0→1即可。

机器学习模型制作部18使用由错误标签样本排除部17将一部分样本排除或者替换了标签后的教师数据，来构建机器学习模型。在此使用的机器学习的方法也可以与后述的错误标签检测部10中使用的机器学习的方法相同，但是并非必须相同。未知数据识别部19使用通过机器学习模型制作部18构建出的机器学习模型来判定源于未知样本的质谱数据，对该未知样本赋予是癌还是非癌的标签。从显示部3输出这样的识别结果。

对于通过机器学习模型制作部18来构建识别性能高的机器学习模型而言，重要的是，尽可能减少有可能混入到教师数据中的被误赋予了标签的样本。因此，在本实施例的癌/非癌识别装置中的错误标签检测部10中，通过如以下所述那样的特征性的处理，高精度地检测出错误标签状态的可能性高的样本。图2是本实施例的癌/非癌识别装置中的错误标签检测处理的流程图，图4是带标签教师数据的分割处理的示意图。

在检测控制部16的控制下，数据分割部11读入如图12所示那样的带标签教师数据(步骤S1)。即，该带标签教师数据是样本名为样本1、样本2、…、样本N-1、样本N这样的N个样本各自的质谱数据，在各样本中赋予了癌：“1”、非癌：“0”的二值的标签。此外，一般N的数量越多越好，但需要何种程度的数量也根据数据的性质等而不同，因此期望预先进行确认。

数据分割部11将源于读入的大量样本的教师数据分割为用于构建机器学习模型的模型构建用数据和应用所构建的机器学习模型的模型验证用数据(步骤S2)。

在此，使用随机数表将从总数为N个的样本中获得的数据分割为M个数据集，并将其中的M-1个数据集设为模型构建用数据，将剩余的一个数据集设为模型验证用数据。这样，将被提供的教师数据分割为模型构建用数据和模型验证用数据(参照图4)。此外，在后述的仿真验证时将M设为了5。

在数据的分割中使用随机数表，因此在重新进行分割时数据集所包含的数据的组合也可能相同，但是其概率极低，实际上在大部分情况下，在重新进行了分割时数据集所包含的数据的组合改变。

接着，机器学习模型构建部12使用通过上述步骤S2获得的模型构建用数据，也就是作为教师数据，来构建基于规定的方法的机器学习模型(步骤S3)。在此使用的机器学习的方法只要是监督学习则不限其方法。例如能够设为随机森林、支持向量机、神经网络、线性判别法、非线性判别法等。

机器学习模型应用部13将在上述步骤S2中获得的模型验证用数据应用于在上述步骤S3中构建出的机器学习模型，来识别该各样本是癌还是非癌并赋予标签(步骤S4)。在此被赋予的每个样本的标签与样本名相对应地存储在例如内部的存储器。然后，检测控制部16判定是否将步骤S2～S4的一系列处理重复了规定次数P(步骤S5)，如果重复次数未达到规定次数P则返回步骤S2。

当返回到步骤S2时，数据分割部11再次将源于大量的样本的教师数据分割为模型构建用数据和模型验证用数据。此时，模型构建用数据和模型验证用数据分别是与第一次时不同的组合的可能性极高。即使设为机器学习的方法相同，当模型构建用数据不同时，基于该数据来构建的机器学习模型当然也不同。因此，当对模型验证用数据应用与上一次不同的机器学习模型时，即使设为在该模型验证用数据中存在与上一次相同的样本，识别结果也有可能不同。这样，一边改变教师数据的分割，一边将步骤S2～S5的处理重复规定次数P。

如上所述且如图4所示，模型验证用数据所包含的样本的组合通常在每次进行上述重复时变化，但是如果将P设得某种程度的大，则相同的样本会多次包含在模型验证用数据中，且每次都通过步骤S4的处理而被进行标签赋予。因此，在上述一系列处理的重复次数成为规定次数P后(步骤S5：“是”)，错误识别次数计数部14针对每个样本，计算原本被赋予的标签与作为识别结果的标签不一致的次数、也就是错误识别的次数(步骤S6)。针对在步骤S1中被读入的教师数据所包含的每个样本求出该错误识别次数。

在基于机器学习模型的识别中，虽然存在真的是癌却判定为非癌或者与此相反真的是非癌却判定为癌这样的可能性，但是其概率低。换言之，在原本被赋予的标签与作为识别结果的标签不一致、也就是错误识别的情况下，能够说，与基于机器学习模型的识别本身发生了错误相比，原本被赋予的标签错误(错误标签状态)的可能性更高。当然，仅凭1次识别结果难以那样判断，而更妥当的是，如果在一边改变机器学习模型一边重复进行识别时错误识别的次数变多，则认为原本被赋予的标签错误。因此，错误标签样本确定部15基于针对每个样本求出的错误识别次数，来确定错误标签状态的可能性高的样本(步骤S7)。

但是，对于每个样本，识别的执行次数不相同，因此以作为绝对值的错误识别次数来进行比较不一定合适。因此，最好是，针对每个样本，根据识别的执行次数和错误识别次数来计算错误识别率，基于该错误识别率来确定错误标签状态的可能性高的样本。

在基于错误识别率判定是否是错误标签状态时，只要采用像下面这样的几个判定基准中的任一个即可。

(1)将错误识别率最高的一个样本判定为错误标签状态。但是，在错误识别率最高的样本存在多个的情况下，只要将该多个样本都判定为错误标签状态即可。

(2)作为参数，由用户预先从操作部2指定要判定为错误标签状态的样本的数量，按照错误识别率从高到低的顺序将所指定的该个数的样本判定为错误标签状态。

(3)仅将错误识别率为100％的样本判定为错误标签状态。在错误识别率为100％的样本存在多个的情况下，只要将该多个样本都判定为错误标签状态即可。

(4)作为参数，由用户预先从操作部2指定要判定为错误标签状态的错误识别率的阈值，将错误识别率为该阈值以上的样本判定为错误标签状态。

当然，上述(1)～(4)能够适当地进行组合。例如，也可以是，使(1)和(4)组合，将错误识别率为某个阈值以上且最高的错误识别率的样本判定为错误标签状态。当然，在被提供的教师数据中错误标签状态的样本也可能一个也不存在。因而，基本上，妥当的是，估计为错误识别率低的样本不是错误标签状态，相反，妥当的是，估计为错误识别率极高的样本是错误标签状态。

如果这样确定了错误标签状态的样本，则只要将错误标签检测结果或错误识别检测结果整理为表形式或者曲线图形式并显示在显示部3，来向用户呈现即可(步骤S8)。

另外，如上所述错误标签样本排除部17只要将如上所述判定为错误标签状态的可能性高的样本从教师数据中排除或者替换标签，来生成用于构建进行实际的识别的机器学习模型的教师数据即可。

此外，一般在如上所述的统计处理时，为了使统计误差变小而使用被称为交叉验证(cross-validation)的方法。在严格意义上的交叉验证中，一边改变作为模型验证用数据而选择的数据集，一边将如下处理执行M次，来计算例如错误识别率的平均值，所述处理将分割为M个的数据集中的M-1个数据集作为模型构建用数据来构建机器学习模型，并将剩余的一个数据集作为模型验证用数据应用于该机器学习模型来进行识别。与此相对，在上述实施例的处理中，对于在步骤S2中分割得到的数据集仅实施一次处理，因此与严格意义上的交叉验证不同。然而，通过替换数据集所包含的样本并多次重复进行步骤S2～S5的处理，能够获得实质上与交叉验证同样的效果。

在使用图2来说明的错误标签检测处理中，在将步骤S2～S4的一系列处理重复了规定次数P后，一次统一检测了错误标签状态的可能性高的样本，但是也能够如图3所示对错误标签检测处理的流程图进行变形。在图3中步骤S11～S15的处理与图2中的步骤S1～S5的处理完全相同。

在该例子中，在步骤S15判定为“是”后，将针对每个样本求出的错误识别率最高的一个或多个样本作为错误标签状态的样本从教师数据中去除(步骤S16)。在这样提高了教师数据的品质后，返回步骤S12，再次执行步骤S12～S16的处理。这样，再次将针对每个样本求出的错误识别率最高的一个或多个样本作为错误标签状态的样本从教师数据中去除。如果将该步骤S12～S16的处理重复了规定次数Q、或者最高的错误识别率为规定的值以下、或者该错误识别率的变化收敛于规定的范围内(步骤S17：“是”)，则结束处理。

通过像这样阶段性地去除错误标签状态的可能性高的样本，能够避免错误地去除非错误标签的样本，并且能够更准确地、也就是仅去除真的是错误标签状态的样本，从而能够进一步提高教师数据的品质。

[通过仿真进行的错误标签检测处理的评价]

接着，说明通过仿真来对通过上述的错误标签检测处理是否适当地检测出错误标签状态的样本进行评价的结果。在通过该仿真进行的评价中，如上所述那样，数据集的分割数M设为了5，规定次数P设为了500。另外，使用了随机森林来作为机器学习的方法。另外，作为评价中使用的数据(教师数据)，如图5所示，使用了线性数据和非线性数据这两方。

[使用了线性数据的仿真的方法和结果]

在此所说的线性数据是指质谱上的所有标记峰的信号强度差在癌与非癌之间都充分存在的数据。只要标记峰的数量足够多，且在癌与非癌之间峰的信号强度差充分，则即使利用主成分分析或OPLS-DA(作为判别分析的一种的PLS-DA(Partial Least SquaresDiscriminant Analysis：偏最小二乘法判别分析)的改良版)等多变量分析的方法，也能够分为癌和非癌这样的两组。因此，在此，在仿真中使用了包含癌与非癌之间基本不存在信号强度差的10个标记峰的数据。已经确认了即使对该数据进行主成分分析也无法将该数据分为两组。

另外，仿真数据是已知的数据，因此标签当然是100％正确的。因此，从癌和非癌的样本中分别随机选择10个样本，并替换这合计20个样本的标签，由此制作出人为的错误标签标本。然后，验证了能否确定出该20个样本为错误标签样本。

在将决策树设为了学习器的随机森林中，需要调整的代表性的参数为决策树的数量。调查了使决策树的数量变化时的5折交叉验证中的平均正确回答率，在决策树为5～20的范围内，无论决策树数量如何，平均正确回答率均为99.6％。因此，在此将决策树数量决定为10来尝试进行了错误标签检测。

在图7和图8中示出该检测结果。图7是变为了被赋予非癌的标签的样本的错误标签检测结果，图8是变为了被赋予癌的标签的样本的错误标签检测结果。在图7和图8中(以及后述的图9和图10中)，模型验证用数据采用次数相当于步骤S4的处理的识别执行次数。

如根据图7和图8可知的那样，无论针对癌还是非癌，对于错误标签样本的错误识别率为100％，非错误标签的样本的错误识别率为0％。即，能够说错误标签检测完全成功了。另外，在本数据中，混入有错误标签的数据中的癌/非癌判定的正确回答率为99.6％，但是通过去除利用上述方法检测出的错误标签样本，正确回答率变为100％。即，能够确认以下情况：通过将被确定为错误标签样本的样本从教师数据中去除，能够实现识别性能极高的机器学习模型的构建。

[使用了非线性数据的仿真的方法和结果]

一般收集的数据大多具有非线性，不如说完全是线性的数据较少。因此，对于非线性仿真数据也评价了上述错误标签检测处理的能力。

在此所说的非线性数据是指虽然通过质谱上的单个峰则无法识别癌/非癌，但是能够通过同时考虑多个峰来识别癌/非癌这样的数据。作为这样的状态的典型性的数据，制作出两个标记峰A、B为XOR(异或)状态的数据。图6是示出处于XOR状态的两个标记峰的信号强度与癌或非癌的状态的关系的图。即，虽然两个标记峰A、B分别无法单独识别癌/非癌，但是如果峰A、B的信号强度均为各自的阈值Ath、Bth以上则为癌(区域[c])，或者峰A、B的信号强度均小于各自的阈值Ath、Bth也为癌(区域[b])。另一方面，如果峰B的信号强度为阈值Bth以上而峰A的信号强度小于阈值Ath则为非癌(区域[d])，峰A的信号强度为阈值Ath以上而峰B的信号强度小于阈值Bth也为非癌(区域[a])。因而，例如标本α为癌。

与线性数据相同，癌、非癌各有10个被人为地设为了错误标签的标本(样本序号也完全相同)。另外，也选择了与线性仿真数据完全相同的质荷比的标记峰，但是将标记峰加工为10个峰中的、各2个峰为XOR状态。

对于这样的数据调查了使决策树的数量变化时的5折交叉验证中的平均正确回答率，在决策树为5～20的范围内，无论决策树数量如何，平均正确回答率均为99.6％。因此，在此也将决策树数量决定为10来尝试进行了错误标签检测。

在图9和图10中示出该检测结果。图9是变为了被赋予非癌的标签的样本的错误标签检测结果，图10是变为了被赋予癌的标签的样本的错误标签检测结果。

如根据图9和图10可知的那样，无论针对癌还是非癌，对于错误标签样本的错误识别率为100％，非错误标签的样本的错误识别率为0％。即，能够说在该情况下错误标签检测也完全成功了。此外，各样本的模型验证用数据采用次数在线性数据、非线性数据中完全相同，但是这是由于用于数据分割的随机数表的随机数是完全相同的，不会对评价结果带来任何影响。

观察图7～图10就可以明白，对于错误标签样本，错误识别率全为100％，对于被赋予了正确的标签的样本，错误识别率全为0％。这主要是由于在该仿真中使用的机器学习的方法(随机森林)的特性。在错误标签状态和不是错误标签状态的状态的情况下错误识别率如这样极端地不同的情况下，易于基于错误识别率来确定错误标签样本。另一方面，在使用了其它的机器学习的方法的情况下，不限于错误识别率变为这样。

图11是示出按照错误识别率从高到低的顺序对样本序号进行排序来赋予的排序序号与错误识别率的概要关系的图。

在图11中，实线是使用了上述的随机森林的、针对仿真数据的错误标签检测结果，点划线是使用了支持向量机的、针对仿真数据的错误标签检测结果的一例。像这样，当使用支持向量机时，有时错误识别率逐渐下降。另外，也有时最高的错误识别率没有成为100％。因此，使用户指定用于判定是否是错误标签状态的样本的阈值或者如图3所示逐一排除错误识别率最高的样本的方法是有用的。

向用户呈现如图11所示那样的曲线或者包含相同信息的表，这对于用户选择用于判定是否是错误标签状态的判定基准、或者决定用于该判定的阈值等参数、还或者判断所使用的机器学习的方法是否适当是有效的。因此，也可以是，在上述实施例的癌/非癌识别装置中，在计算出每个样本的错误识别率后，制作如图11所示的曲线图或者与其相当的表等并显示在显示部3的画面上。

在上述实施例的癌/非癌识别装置中，在错误标签检测部10中使用了随机森林来作为机器学习的方法，但是明确的是，能够使用已经例示出的各种监督学习的方法、例如支持向量机、神经网络、线性判别法、非线性判别法等。也可以是，关于使用怎样的方法是合适的，根据作为解析对象的数据的性质等而不同，因此预先准备多个机器学习方法，用户能够任意选择。

另外，也可以是，在重复图2中的步骤S2～S5的处理时，或者在重复图3中的步骤S12～S15的处理时，不使用一种机器学习方法而是使用多种机器学习方法。此外，在使用多个不同种类的机器学习方法的情况下，当然，即使模型构建用数据相同，每个机器学习方法下构建的机器学习模型也不相同。因而，也可以是，在使用多个不同种类的机器学习方法的情况下、或者在实施了基于一个方法的机器学习后进行基于其它方法的机器学习时，省略对教师数据的再次分割，使用与之前实施的基于上述某一个方法的机器学习时相同的模型构建用数据和模型验证用数据来进行基于上述其它方法的机器学习。

另外，在上述实施例中，将源于样本的教师数据分割为模型构建用数据和模型验证用数据，因此模型构建用数据和模型验证用数据必定为不同的数据，但是这不是必须的。例如也可以是，从大量教师数据中任意地(例如使用随机数表)分别选择模型构建用数据和模型验证用数据。因而，也可以是，模型构建用数据的一部分和模型验证用数据的一部分是共同的。另外，也可以是，模型构建用数据直接用于模型验证用数据、也就是说两者完全相同。

另外，上述实施例的装置将本发明用于通过质谱分析装置获得的质谱数据的解析中，但是明确的是，本发明能够应用于利用机器学习来对除此以外的各种解析数据或测定数据进行某些识别的所有装置。例如，说到与质谱分析装置同样的分析装置的领域，明确的是，能够将本发明使用于对通过LC装置或GC装置得到的色谱数据、通过分光测定装置得到的吸光光谱数据等进行解析的装置中。并且，还能够将本发明使用于通过DNA微阵列分析获得的数据(将图像数值化而得到的数据)的解析。

并且，当然还能够将本发明用于不仅基于通过这样的机器分析获得的数据进行机器学习，还基于通过除此以外的各种方法收集到的数据进行机器学习由此进行识别(赋予标签)的数据解析装置。

即，上述实施例不过是本发明的一例，即使在上述记载以外的方面，在本发明的主旨的范围内进行适当变形、修正、追加等，当然也包含在本申请的权利要求书中。

附图标记说明

1：数据解析部；10：错误标签检测部；11：数据分割部；12：机器学习模型构建部；13：机器学习模型应用部；14：错误识别次数计数部；15：错误标签样本确定部；16：检测控制部；17：错误标签样本排除部；18：机器学习模型制作部；19：未知数据识别部；2：操作部；3：显示部。

Claims

1.一种数据解析装置，基于关于多个样本的被赋予了标签的教师数据来构建机器学习模型，使用该机器学习模型来识别未知的样本并赋予标签，该数据解析装置的特征在于，

具备错误标签检测部，该错误标签检测部在所述教师数据中检测错误标签状态的样本，

该错误标签检测部具备：

b)错误标签判定部，在由所述重复识别执行部多次重复进行一系列处理时，该错误标签判定部针对每个样本求出作为所述一系列处理的识别结果的标签与原本赋予到数据中的标签不一致的错误识别的次数，基于该错误识别的次数或该错误识别的概率来判定样本是否为错误标签状态。

2.根据权利要求1所述的数据解析装置，其特征在于，

所述错误标签检测部使用从教师数据中去除了被所述错误标签判定部判定为错误标签状态的样本后的教师数据，将由所述重复识别执行部和所述错误标签判定部进行的处理实施一次以上。

3.根据权利要求1所述的数据解析装置，其特征在于，

4.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部仅使用一种机器学习的方法。

5.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用两种以上的机器学习的方法。

6.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用随机森林来作为机器学习的方法。

7.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用支持向量机来作为机器学习的方法。

8.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用神经网络来作为机器学习的方法。

9.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用线性判别法来作为机器学习的方法。

10.根据权利要求1所述的数据解析装置，其特征在于，

所述重复识别执行部使用非线性判别法来作为机器学习的方法。

11.根据权利要求1所述的数据解析装置，其特征在于，

所述错误标签判定部将错误识别率最高的样本判定为错误标签状态。

12.根据权利要求1所述的数据解析装置，其特征在于，

所述错误标签判定部按照错误识别率从高到低的顺序将由用户指定的个数的样本判定为错误标签状态。

13.根据权利要求1所述的数据解析装置，其特征在于，

所述错误标签判定部将错误识别率为100％的样本判定为错误标签状态。

14.根据权利要求1所述的数据解析装置，其特征在于，

所述错误标签判定部将错误识别率为由用户设定的阈值以上的样本判定为错误标签状态。

15.根据权利要求2所述的数据解析装置，其特征在于，

所述错误标签检测部重复实施由所述重复识别执行部和所述错误标签判定部进行的处理，直到错误识别率变为规定的阈值以下为止。

16.根据权利要求1所述的数据解析装置，其特征在于，

还具备结果显示处理部，该结果显示处理部制作基于所述错误标签判定部的识别结果的表或曲线图，并在显示部中显示该表或曲线图。