CN113678147A

CN113678147A - 搜索方法以及信息处理系统

Info

Publication number: CN113678147A
Application number: CN201980095202.XA
Authority: CN
Inventors: 山田智之; 西原理人
Original assignee: Keno Media Co ltd
Current assignee: Keno Media Co ltd
Priority date: 2019-04-09
Filing date: 2019-04-09
Publication date: 2021-11-19
Also published as: EP3955177A4; WO2020208729A1; EP3955177A1; JPWO2020208729A1; JP7315181B2; US20220199256A1; US11817216B2

Abstract

提供一种搜索对机器学习模型的输出结果造成影响的特征的搜索方法，包括：第一步骤，对于包含由为正类的正确解答数据及为负类的正确解答数据与表示该各个数据是否为正类的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器；第二步骤，通过将由所述第一步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及第三步骤，在机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

Description

搜索方法以及信息处理系统

技术领域

本发明涉及搜索方法以及信息处理系统。

背景技术

在机器学习(例如，深度学习)中，将已知的数据(例如，若是图像，则是狗和猫的图像)与针对该数据的正确解答(例如，是狗还是猫的信息)的组作为训练数据进行学习，从而能够针对未知的数据输出正确解答。

现有技术文献

专利文献

非专利文献1：https://iotnews.jp/archives/11680

发明内容

(发明要解决的课题)

然而，在现有的机器学习(例如，深度学习)中，能通过学习来输出正确解答，但存在如下问题：不清楚是利用已知的数据内的怎样的特征来输出了正确解答。即，存在不清楚对机器学习模型的输出结果造成影响的特征这样的问题。

本发明的一形态鉴于上述问题而提出，其目的在于，提供一种搜索方法以及信息处理系统，能够解释对机器学习模型的输出结果造成影响的特征。

(用于解决课题的技术方案)

本发明的第一形态所涉及的搜索方法是搜索对机器学习模型的输出结果造成影响的特征的搜索方法，包括：第一步骤，对于包含由为正类的正确解答数据及为负类的正确解答数据与表示该各个数据是否为正类的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器；第二步骤，通过将由所述第一步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及第三步骤，在机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

根据该构成，能够从用于提取新的特征的信息中得到对机器学习模型的输出结果造成影响的新的特征。

本发明的第二形态所涉及的搜索方法是在第一形态所涉及的搜索方法的基础上，所述搜索方法包括：第四步骤，针对由所述第一步骤生成的学习用数据的每一个，判定该学习用数据是否为所述全部学习用数据的设定比例以下；第五步骤，在所述第四步骤的判定的结果是所述学习用数据为所述全部学习用数据的设定比例以下的情况下，将包含与该学习用数据对应的特征的组在内的特征的组合所对应的特征有无判定器的组排除；第六步骤，对于至少一个以上所述全部学习用数据，应用所述至少一个特征有无判定器和用于判定有无所述新提取出的特征的特征有无判定器当中的、所述被排除的特征有无判定器的组以外的至少一个以上的组所构成的不同的过滤器；第七步骤，通过将由所述第六步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及第八步骤，在所述第七步骤的机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

根据该构成，通过一边缩小搜索范围一边搜索新的特征，能够提高搜索效率。

本发明的第三形态所涉及的搜索方法是在第二形态所涉及的搜索方法的基础上，在所述第八步骤中提取出新的特征的情况下，进而针对由第六步骤生成的学习用数据的每一个执行所述第四步骤，并随之重复所述第五步骤、所述第六步骤、所述第七步骤和所述第八步骤，在所述第八步骤中输出用于提取新的特征的信息后未提取出新的特征的情况下，所述搜索方法包括第九步骤，在所述第九步骤中，从与至此为止的特征的组合对应的机器学习模型当中提取性能满足设定条件的机器学习模型，并输出与该提取出的机器学习模型对应的特征的组合。

根据该构成，由于在第九步骤中输出的特征的组合是对机器学习模型的输出结果造成影响的特征的组合，因此能够获取对机器学习模型的输出结果造成影响的特征的组合。

本发明的第四形态所涉及的搜索方法是在第一至第三形态中的任一个形态所涉及的搜索方法的基础上，该搜索方法是搜索对该对象物是否存在特定的异常的输出结果造成影响的对象物的图像的特征的搜索方法，所述第一步骤中，对于包含由存在特定的异常的对象物的图像及不存在特定的异常的对象物的图像与表示得到该各个图像的对象物是否存在特定的异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器，对所述机器学习模型的输出结果造成影响的特征是用于判定对象物是否存在特定的异常的特征。

根据该构成，能够搜索对对象物是否存在特定的异常的输出结果造成影响的特征。

本发明的第五形态所涉及的信息处理系统是在第四形态所涉及的搜索方法的基础上，所述对象物是患者的癌组织，所述对象物的图像是该患者的癌组织的病理图像，所述特定的异常是特定的基因异常，在所述第一步骤中，对于包含由存在特定的基因异常的癌组织的病理图像的图像区域以及不存在特定的基因异常的癌组织或正常组织的病理图像的图像区域与表示得到该各个图像区域的患者的组织是否存在特定的基因异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器。

根据该构成，能够得到对该癌组织的特定的基因异常的有无的输出结果造成影响的、存在特定的基因异常的癌组织的病理图像的特征的组合。

本发明的第六形态所涉及的信息处理系统具备输出部，所述输出部利用由第三形态记载的搜索方法决定出的特征的组合的过滤器来对对象的图像进行过滤，从而输出表示所述对象物是否存在所述特定的异常的信息或者表示与所述特定的异常对应的药能否应用于该对象物的信息。

根据该构成，从对象的图像输出表示对象物是否存在所述特定的异常的信息或者与所述特定的异常对应的药能否应用于该对象物的信息，因此能够以更短时间提供表示能否向对象患者开出与特定的异常对应的药方的指标。

本发明的第七形态所涉及的信息处理系统是在第六形态所涉及的信息处理系统的基础上，所述过滤器采用了学习完毕的机器学习模型，所述学习完毕的机器学习模型是使用以由第三形态记载的搜索方法决定出的特征的组合的过滤器对所述全部学习用数据进行过滤后的学习用数据来进行机器学习而得到的。

根据该构成，由于使用学习完毕的机器学习模型，因此能够使对象物是否存在所述特定的异常或者与所述特定的异常对应的药能否应用于该对象物的预测精度得以提高。

本发明的第八形态所涉及的信息处理系统是在第六或者第七形态所涉及的信息处理系统的基础上，所述对象物是对象患者的癌组织，所述对象物的图像是对象患者的癌组织的病理图像，所述特定的异常是特定的基因异常，所述输出部利用由第三形态记载的搜索方法决定出的特征的组合的过滤器来对将对象患者的癌组织的病理图像进行分割得到的图像区域的每一个进行过滤，从而输出表示所述对象患者的癌组织是否存在所述特定的基因异常的信息或者表示与所述特定的基因异常对应的药能否应用于该对象患者的信息。

根据该构成，从病理图像输出表示对象患者的癌组织是否存在所述特定的基因异常的信息或者表示与所述特定的基因异常对应的药能否应用于该对象患者的信息，因此能够以与DNA序列相比更短的时间来提供表示能否向对象患者开出与特定的基因异常对应的药方的指标。

(发明效果)

根据本发明的一形态，能够从用于提取新的特征的信息中得到对机器学习模型的输出结果造成影响的新的特征。

附图说明

图1是用于说明本实施方式的搜索方法的示意图。

图2是表示本实施方式所涉及的搜索方法的流程的一例的流程图。

图3是用于针对本实施例中使用的病理图像的图像区域的提取方法进行说明的图。

图4是用于说明实施例的搜索方法的第一示意图。

图5是用于说明实施例的搜索方法的第二示意图。

图6是用于说明实施例的搜索方法的第三示意图。

图7是用于说明实施例的搜索方法的第四示意图。

图8是用于说明实施例的搜索方法的第五示意图。

图9是用于说明实施例的搜索方法的第六示意图。

图10是表示本实施例所涉及的搜索方法的流程的一例的流程图。

图11是本实施方式所涉及的信息处理系统的概略构成图。

图12是本实施方式所涉及的信息处理装置的概略构成图。

图13是用于说明本实施方式所涉及的输出部的处理的示意图。

图14是本实施方式的变形例所涉及的信息处理装置的概略构成图。

图15是用于说明本实施方式的变形例所涉及的输出部的处理的示意图。

具体实施方式

以下，参照附图来说明一实施方式以及实施方式的一实施例。但是，有时会省略不必要的详细的说明。例如，有时会省略已知的事项的细节说明或针对实质相同的构成的重复说明。这是为了避免以下的说明不必要地变得冗余，从而使本领域技术人员容易理解。

＜实施方式＞

在本实施方式中，在上述课题的基础上，解决如下课题：对于不清楚对机器学习(例如深度学习)模型的输出结果造成影响的特征这样的问题，无法在能够解释造成该影响的特征的同时解答问题。另外，在机器学习(例如深度学习)模型中还存在如下课题：若随机准备训练数据，则无法实现目标性能。

针对这些课题，在本实施方式中，提供搜索对机器学习模型的输出结果造成影响的特征(或特征的组合)的搜索方法。由此，通过在机器学习模型的学习中仅使用将以该特征的组合对全部学习用数据进行过滤后的学习用数据，能够提高机器学习模型的性能。由此，能够在能解释对机器学习模型的学习造成影响的特征的同时，通过机器学习模型来解答问题。

在本实施方式中，作为搜索对机器学习模型的输出结果造成影响的特征的搜索方法的一例，说明搜索对该对象物的特定的异常(例如，基因异常)的有无的输出结果造成影响的、对象物的图像的特征的搜索方法。

图1是用于说明本实施方式的搜索方法的示意图。如图1所示，准备对象物的图像(图像数据)和表示该对象物是否存在特定的异常的信息(是0还是1的信息)来作为全部学习用数据。设与特定的异常对应的特征的候补有1～n(n是自然数)个。准备判定特征1的有或无的特征1有无判定器、判定特征2的有或无的特征2有无判定器、……、判定特征n的有或无的特征n有无判定器。而且，准备m个将特征1有无判定器、特征2有无判定器、……、特征n有无判定器当中的至少一个以上进行组合而得到的过滤器。

针对例如特征1有无判定器判定为有特征1(例如，肿瘤细胞比率为50％以上)、且例如特征2有无判定器判定为有特征2(例如，有粘性)的情况进行说明。在此情况下，例如在m个过滤器当中的一个过滤器i(i是1～m的自然数)是将特征1有无判定器与特征2有无判定器进行组合而成的过滤器的情况下，若对全部学习用数据应用该过滤器，则例如全部学习用数据当中，仅图像中有特征1且无特征2的数据作为学习用数据i进行输出。

通过对该全部学习用数据应用m个过滤器，从而将学习用数据1～学习用数据m的m个学习用数据进行输出。

第1机器学习模型使用学习用数据1来执行机器学习(例如深度学习的学习)，第2机器学习模型使用学习用数据2来执行机器学习(例如深度学习的学习)。以下同样，第i机器学习模型使用学习用数据i来执行机器学习(例如深度学习的学习)，第m机器学习模型使用学习用数据m来执行机器学习(例如深度学习的学习)。

在学习后，通过将学习用数据1当中的一部分未用于学习的数据作为验证数据输入至第1机器学习模型～第m机器学习模型，来输出0～1的信息，并将这些0～1的信息与阈值(例如，0.8)进行比较，在为阈值(例如，0.8)以上的情况下，输出表示正类(positive)的信息(例如1)，而在小于阈值(例如，0.8)的情况下，输出表示负类(nagative)的信息(例如0)。

输出结果能分为True Positive(TP)、False Positive(FP)、False Negative(FN)、True Negative(TN)这四种。

在此，True Positive(TP)是将正确解答数据为正类(positive)的数据正确地预测为正类(positive)的输出结果。

False Positive(FP)是将正确解答数据为负类(nagative)的数据错误地预测为正类(positive)的输出结果。

False Negative(FN)是将正确解答数据为正类(positive)的数据错误地预测为负类(nagative)的输出结果。

True Negative(TN)是将正确解答数据为负类(nagative)的数据正确地预测为负类(nagative)的输出结果。

例如，若输出结果为阈值(例如，0.9)以上，则为正类(positive)，若输出结果小于阈值(例如，0.8)，则为负类(nagative)。

使用这些验证结果来输出用于提取新的特征n+1的信息。该信息既可以是输出结果为正类(或负类)的图像，也可以是TP的图像、TN的图像、FP的图像和TN的图像当中的至少一个以上。

而且，使用该信息来提取新的特征n+1。此时，可以按机器学习的性能评价值(例如，AUC(Area under an ROC curve))从好到差的顺序，使用该验证结果来提取新的特征n+1。在此，ROC曲线(ROC curve)是将使阈值变化时的基于假阳性率与真阳性率的各点进行连结而成的曲线。

另外，在新的特征n+1的提取时，例如可以以人(例如，病理医生等医师)的眼睛确认输出结果为正类(或负类)的图像，来找寻是否存在某些公共的特征。

或者，在新的特征n+1的提取时，例如可以以人(例如，病理医生等医师)的眼睛确认TP的图像、TN的图像、FP的图像和TN的图像当中至少一个以上，来找寻是否存在新的特征n+1。

或者，可以通过执行别的软件或程序来提取新的特征n+1。

在提取出新的特征n+1的情况下，追加用于判定该新的特征n+1的有无的特征n+1有无判定器。接下来，准备p个(p是自然数)将特征1有无判定器、特征2有无判定器、…、特征n有无判定器、特征n+1有无判定器当中的至少一个以上进行组合而成的过滤器。

通过对该全部学习用数据应用p个过滤器，从而将学习用数据1～学习用数据p的p个学习用数据进行输出。

而且，同样，第1机器学习模型使用学习用数据1来执行机器学习(例如深度学习的学习)，第2机器学习模型使用学习用数据2来执行机器学习(例如深度学习的学习)。以下同样，第i机器学习模型使用学习用数据i来执行机器学习(例如深度学习的学习)，第p机器学习模型使用学习用数据p来执行机器学习(例如深度学习的学习)。

在学习后，通过将学习用数据1当中的一部分未用于学习的数据作为验证数据输入至第1机器学习模型～第p机器学习模型，来输出0～1的信息，并将这些0～1的信息与阈值(例如，0.8)进行比较，在为阈值(例如，0.8)以上的情况下，输出表示正类(positive)的信息(例如1)，而在小于阈值(例如，0.8)的情况下，输出表示负类(nagative)的信息(例如0)。

使用这些验证结果来输出用于提取新的特征n+2的信息。而且，使用该信息来提取新的特征n+2。

接下来，使用图2来说明本实施方式所涉及的搜索对机器学习模型的输出结果造成影响的特征的搜索方法。

(步骤S10)首先，准备全部学习用数据。

(步骤S20)接下来，创建将至少一个特征有无判定器进行组合而成的过滤器，并对全部学习用数据应用各个过滤器，从而生成多个学习用数据。

(步骤S30)接下来，针对所生成的多个学习用数据的每一个，以不同的机器学习模型进行学习。

(步骤S40)接下来，根据至少一个机器学习模型得到的验证结果来输出用于提取新的特征的信息，来尝试新的特征的提取。

(步骤S50)接下来，判定是否提取出新的特征。

(步骤S60)在步骤S50中未提取出新的特征的情况下，变更在特征有无判定器中使用的特征。

在步骤S50中提取出新的特征的情况下，针对全部的学习用数据执行步骤S70。

(步骤S70)判定对象的学习用数据是否为全部学习数据的设定比例U％以下。

(步骤S80)在步骤S70中对象的学习用数据为全部学习数据的设定比例U％以下的情况下，此后，包含与该学习用数据对应的特征的组(例如，特征A以及特征B)的特征的组合(例如，特征A及特征B、特征A及特征B及特征C等包括特征A及特征B在内的全部的组合)所对应的特征有无判定器的组将不用于学习用数据的生成。

例如，如图7所示，在特征A有无判定器中为positive、且特征B有无判定器中为positive的学习数据成为全部学习用数据的设定比例U％以下的情况下，在特征A有无判定器中为positive且在特征B有无判定器中为positive且在特征X有无判定器中为positive的学习数据也成为全部学习用数据的设定比例U％以下。基于此，假设全部学习用数据当中存在特定的异常的数据有一半，若设定比例U％的数据与其全部学习用数据的一半的数据相比在统计上显著少(例如，小于全部学习用数据的一半的5％)，则与之相应地，能够在统计上判断为具有特征A和特征B不是存在特定的异常的数据的公共事项的可能性高。由此，能够缩小搜索范围，能够高效地进行搜索。

(步骤S90)创建将添加有新提取出的特征的特征有无判定器进行组合而成的过滤器，并对全部学习用数据应用各个过滤器，从而生成多个学习用数据。

(步骤S100)接下来，针对所生成的多个学习用数据的每一个，以不同的机器学习模型进行学习。

(步骤S110)接下来，根据至少一个机器学习模型得到的验证结果来输出用于提取新的特征的信息，来尝试新的特征的提取。

(步骤S120)接下来，判定是否提取出新的特征。在提取出新的特征的情况下，回到步骤S70并重复步骤S70以后的步骤。

(步骤S130)在步骤S120中未提取出新的特征的情况下，从与至此为止的特征的组合对应的机器学习模型当中提取性能满足设定条件的机器学习模型(例如，AUC为0.9以上的机器学习模型)。

(步骤S140)输出与在步骤S130中提取出的机器学习模型对应的特征的组合。由此，能够得到对机器学习模型的输出结果造成影响的特征的组合。

以上，本实施方式所涉及的搜索方法是搜索对机器学习模型的输出结果造成影响的特征的搜索方法，包括：第一步骤(相当于步骤S20)，对于包含由为正类的正确解答数据及为负类的正确解答数据与表示该各个数据是否为正类的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器；第二步骤(相当于步骤S30)，通过将由所述第一步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及第三步骤(相当于步骤S40)，在机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

进而本实施方式所涉及的搜索方法包括：第四步骤(相当于步骤S70)，针对由所述第一步骤生成的学习用数据的每一个，判定该学习用数据是否为所述全部学习用数据的设定比例以下；第五步骤(相当于步骤S80)，在所述第四步骤的判定的结果是所述学习用数据为所述全部学习用数据的设定比例以下的情况下，将包含与该学习用数据对应的特征的组在内的特征的组合所对应的特征有无判定器的组排除；第六步骤(相当于步骤S90)，对于至少一个以上所述全部学习用数据，应用所述至少一个特征有无判定器和用于判定有无所述新提取出的特征的特征有无判定器当中的、所述被排除的特征有无判定器的组以外的至少一个以上的组所构成的不同的过滤器；第七步骤(相当于步骤S100)，通过将由所述第六步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及第八步骤(相当于步骤S110)，在所述第七步骤的机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

进而，关于本实施方式所涉及的搜索方法，在所述第八步骤中提取出新的特征的情况下，进而针对由第六步骤生成的学习用数据的每一个执行所述第四步骤，并随之重复所述第五步骤、所述第六步骤、所述第七步骤和所述第八步骤，在所述第八步骤中输出用于提取新的特征的信息后未提取出新的特征的情况下，所述搜索方法包括第九步骤(相当于步骤S130、S140)，在所述第九步骤中，从与至此为止的特征的组合对应的机器学习模型当中提取性能满足设定条件的机器学习模型，并输出与该提取出的机器学习模型对应的特征的组合。

另外，在本实施方式中作为一例说明的搜索方法是搜索对该对象物是否存在特定的异常的输出结果造成影响的对象物的图像的特征的搜索方法。所述第一步骤中，对于包含由存在特定的异常的对象物的图像及不存在特定的异常的对象物的图像与表示得到该各个图像的对象物是否存在特定的异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器。对所述机器学习模型的输出结果造成影响的特征是用于判定对象物是否存在特定的异常的特征。

根据该构成，能够搜索出对对象物是否存在特定的异常的输出结果造成影响的特征。

＜实施例＞

在本实施例中，所述对象物是患者的癌组织，所述对象物的图像是该患者的癌组织的病理图像，所述特定的异常是特定的基因异常。即，在本实施例中，作为搜索对该对象物的特定的异常的有无的输出结果造成影响的、对象物的图像的特征的搜索方法的一例，针对搜索对该癌组织的特定的基因异常的有无的输出结果造成影响的、存在特定的基因异常的癌组织的病理图像的特征的搜索方法进行说明。

＜本实施例的背景＞

癌的诱因是基因异常，因基因受伤，细胞激烈增殖，免疫系统的驱除跟不上，从而发病。为此，若找到作为异常增殖的原因的基因异常并使用对应的药，就能有效地抑制癌。为了实现该目标，从患者摘除的癌组织等中采集检体进行分析的癌基因集合检查的整备工作在日本国内不断推进。在此“集合”是指将多个基因进行组合而得到的集合。

＜本实施例的课题＞

癌基因集合检查是如下检查：利用DNA测序仪来读取癌细胞的DNA序列，并分析所读取的DNA序列是否发生了特定的基因异常。若该分析的结果是发生了特定的基因异常，则医师开出与特定的基因异常对应的药方。DNA测序仪读取DNA序列至少要花1周，癌基因集合检查整体的期间一般而言是4～6周。对患有特定的癌或分期性的癌的对象患者而言，在该期间进行等待，存在癌的症状进一步恶化的危险性，因此期望以更短时间判明能否向对象患者开出与特定的基因异常对应的药方。

在本实施例中，鉴于上述问题，在上述课题的基础上，进一步以提供能够以更短时间提供表示能否向对象患者开出与特定的基因异常对应的药方的指标的搜索方法以及信息处理系统为目的。

图3是用于针对本实施例中使用的病理图像的图像区域的提取方法进行说明的图。如图3所示，将癌组织CT的病理图像PI分割为多个图像区域(例如，图像区域I11)。接下来，提取背景为设定比例以下的图像区域。由此，例如，提取图像区域I22。

图4是用于说明本实施例的搜索方法的第一示意图。在此，设想特征A、特征B、特征C为特征的候补来进行说明。在图4所示的全部学习用数据中，作为一例，含有多个由存在特定的基因异常的癌组织的病理图像的过去的图像区域以及不存在特定的基因异常的癌组织或正常组织的病理图像的过去的图像区域、与表示得到该各个图像区域的患者的组织是否存在特定的基因异常的信息构成的组。在此，作为一例，设全部学习用数据保存于辅助存储器(storage)。

如图4所示，准备以判定特征A的有无的特征A有无判定器来使具有特征A的数据通过的过滤器1、以判定特征B的有无的特征B有无判定器来使具有特征B的数据通过的过滤器2、以及以判定特征C的有无的特征C有无判定器来使具有特征C的图像通过的过滤器3。

另外，如图4所示，准备以特征A有无判定器和特征B有无判定器来使具有特征A且具有特征B的图像通过的过滤器4、以特征A有无判定器和特征C有无判定器来使具有特征A且具有特征C的图像通过的过滤器5、以及以特征B有无判定器和特征C有无判定器来使具有特征B且具有特征C的图像通过的过滤器6。

另外，如图4所示，准备以特征A有无判定器、特征B有无判定器和特征C有无判定器来使具有特征A且具有特征B且具有特征C的图像通过的过滤器7。

使全部学习用数据中包含的全部的图像区域通过过滤器1～过滤器7。学习用数据1是由通过过滤器1后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据1中包含的图像区域是具有特征A的图像区域。同样，学习用数据2是由通过过滤器2后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据2中包含的图像区域是具有特征B的图像区域。同样，学习用数据3是由通过过滤器3后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据3中包含的图像区域是具有特征C的图像区域。

同样，学习用数据4是由通过过滤器4后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据4中包含的图像区域是具有特征A和特征B的图像区域。

同样，学习用数据5是由通过过滤器5后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据5中包含的图像区域是具有特征A和特征C的图像区域。

同样，学习用数据6是由通过过滤器6后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据6中包含的图像区域是具有特征B和特征C的图像区域。

同样，学习用数据7是由通过过滤器7后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据7中包含的图像区域是具有特征A、特征B和特征C的图像区域。这些学习用数据1～学习用数据7保存于辅助存储器。

图5是用于说明实施例的搜索方法的第二示意图。如图5所示，第1机器学习模型～第7机器学习模型分别使用对应的学习用数据1～学习用数据7来执行机器学习。在机器学习后，作为一例，从学习后的机器学习模型中提取评价指标AUC最高的机器学习模型。

图6是用于说明实施例的搜索方法的第三示意图。在此，作为一例，在图5中，设提取出的机器学习模型是第i机器学习模型来进行说明。

使用向第i机器学习模型输入验证数据而输出的输出结果(在此，是得到验证数据的图像区域的患者的组织是否存在特定的基因异常的预测信息)，来例如生成TP的图像区域、FN的图像区域、FP的图像区域、TN的图像区域。将该TP的图像区域、FN的图像区域、FP的图像区域、TN的图像区域例如提供给病理医生。病理医生将该TP的图像区域、FN的图像区域、FP的图像区域、TN的图像区域进行比较，并在具有特定的基因异常的癌组织的图像中提取特征性的特征D(例如，粘液多等)。

图7是用于说明实施例的搜索方法的第四示意图。在第4机器学习模型中，全部学习用数据当中的、在特征A有无判定器中为正类(positive)且在特征B有无判定器中为正类(positive)的学习用数据4用于学习。

＜将特征的组合的搜索范围进行排除的方法的例子＞

在特征A有无判定器中为正类(positive)且在特征B有无判定器中为正类(positive)的学习用数据成为全部学习用数据的设定比例U％以下的情况下，在特征A有无判定器中为正类(positive)且在特征B有无判定器中为正类(positive)且在特征X有无判定器中为正类(positive)的学习数据(X是未知的特征)也成为全部学习用数据的设定比例U％以下。基于此，假设全部学习用数据当中存在特定的异常的数据有一半，若设定比例U％的数据与其全部学习用数据的一半的数据相比在统计上显著少(例如，小于全部学习用数据的一半的5％)，则与之相应地，能够在统计上判断为具有特征A和特征B不是存在特定的异常的数据的公共事项的可能性高。故而，图7的虚线区域R1内的组合能够从搜索范围排除。之后，与包含特征A及特征B的特征的组合(例如，特征A及特征B、特征A及特征B及特征C等包含特征A及特征B在内的全部的组合)对应的特征有无判定器的组将不用于学习用数据的生成。由此，能够缩小搜索范围，能够高效地进行搜索。

图8是用于说明实施例的搜索方法的第五示意图。在此，作为一例，在图6中提取特征D作为新的特征，如图7所示，针对判定为与包含特征A及特征B的特征的组合对应的特征有无判定器的组将不用于学习用数据的生成后的工序进行说明。

准备以判定特征D的有无的特征D有无判定器来使具有特征D的数据通过的过滤器8。

接下来，使保存于辅助存储器的全部学习用数据中包含的全部的图像区域通过过滤器8。学习用数据8是由通过该过滤器8后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据8中包含的图像区域是具有特征D的图像区域。

另外，使保存于辅助存储器的学习用数据1中包含的全部的图像区域通过过滤器8。学习用数据9是由通过该过滤器8后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据9中包含的图像区域是具有特征A和特征D的图像区域。

另外，使保存于辅助存储器的学习用数据2中包含的全部的图像区域通过过滤器8。学习用数据10是由通过该过滤器8后的各个图像区域与由表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据10中包含的图像区域是具有特征B和特征D的图像区域。

另外，使保存于辅助存储器的学习用数据3中包含的全部的图像区域通过过滤器8。学习用数据11是由通过该过滤器8后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据11中包含的图像区域是具有特征C和特征D的图像区域。

另外，使保存于辅助存储器的学习用数据5中包含的全部的图像区域通过过滤器8。学习用数据12是由通过该过滤器8后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据12中包含的图像区域是具有特征A、特征C和特征D的图像区域。

另外，使保存于辅助存储器的学习用数据6中包含的全部的图像区域通过过滤器8。学习用数据13是由通过该过滤器8后的各个图像区域与表示得到该图像区域的患者的组织是否存在特定的基因异常的信息构成的组，学习用数据13中包含的图像区域是具有特征B、特征C和特征D的图像区域。

图9是用于说明实施例的搜索方法的第六示意图。如图9所示，第8机器学习模型～第13机器学习模型分别使用对应的学习用数据8～学习用数据13来执行机器学习。

接下来，使用图10来说明本实施例所涉及的、搜索对该患者的癌组织有无特定的异常的输出结果造成影响的患者的癌组织的病理图像的特征特征的搜索方法。图10是表示本实施例所涉及的搜索方法的流程的一例的流程图。

(步骤S210)首先，准备全部学习用数据。

(步骤S220)接下来，创建将至少一个特征有无判定器进行组合而成的过滤器，并对全部学习用数据应用各个过滤器，从而生成多个学习用数据。

(步骤S230)接下来，针对所生成的多个学习用数据的每一个，以不同的机器学习模型进行学习。

(步骤S240)接下来，根据学习后的多个机器学习模型当中的评价指标(例如，AUC)最高的机器学习模型得到的验证结果，输出用于提取新的特征的信息，来尝试新的特征的提取。

(步骤S250)接下来，判定是否提取出新的特征。

(步骤S260)在步骤S250中未提取出新的特征的情况下，变更在特征有无判定器中使用的特征。

在步骤S250中提取出新的特征的情况下，针对全部的学习用数据执行步骤S270。

(步骤S270)判定对象的学习用数据是否为全部学习数据的设定比例U％以下。

(步骤S280)在步骤S270中对象的学习用数据为全部学习数据的设定比例U％以下的情况下，此后，包含与该学习用数据对应的特征的组(例如，特征A及特征B)的特征的组合(例如，特征A及特征B、特征A及特征B及特征C等包含特征A及特征B在内的全部的组合)所对应的特征有无判定器的组将不用于学习用数据的生成。

(步骤S290)创建将添加有新提取出的特征的特征有无判定器进行组合而成的过滤器，并对全部学习用数据应用各个过滤器，从而生成多个学习用数据。

(步骤S300)接下来，针对所生成的多个学习用数据的每一个，以不同的机器学习模型进行学习。

(步骤S310)接下来，根据学习后的多个机器学习模型当中的评价指标最高的机器学习模型得到的验证结果，输出用于提取新的特征的信息，来尝试新的特征的提取。

(步骤S320)接下来，判定是否提取出新的特征。在提取出新的特征的情况下，回到步骤S270并重复步骤S270以后的步骤。

(步骤S330)在步骤S320中未提取出新的特征的情况下，从与至此为止的特征的组合对应的机器学习模型当中提取评价指标(例如，AUC)最高的机器学习模型。

(步骤S340)将与在步骤S130中提取出的机器学习模型对应的特征的组合进行输出。由此，针对存在特定的基因异常的癌组织的病理图像的特征，能够得到对该癌组织的特定的基因异常的有无的输出结果造成影响的该特征的组合。

以上，在本实施方式所涉及的搜索方法中，在所述第一步骤中，对于包含由存在特定的基因异常的癌组织的病理图像的图像区域以及不存在特定的基因异常的癌组织或正常组织的病理图像的图像区域与表示得到该各个图像区域的患者的组织是否存在特定的基因异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器。

根据该构成，针对存在特定的基因异常的癌组织的病理图像的特征，能够得到对该癌组织的特定的基因异常的有无的输出结果造成影响的该特征的组合。

图11是本实施方式所涉及的信息处理系统的概略构成图。如图11所示，信息处理系统S具备：信息处理装置2，其经由通信电路网CN与终端1-1～1-M(M是自然数)连接；管理者终端3，其经由通信电路网CN与信息处理装置2连接；以及显示器4，其与信息处理装置2连接。

终端1-1～1-M是由临床医生、病理医生或者医师的辅助者(例如护士等)等医院工作人员使用的终端装置，根据医院工作人员的操作将对象的图像(在此，作为一例，是对象患者的癌组织的病理图像)向信息处理装置2发送。信息处理装置2例如设置于医療机关，在接收到从终端1-1～1-M发送的对象的图像(在此，作为一例，是对象患者的癌组织的病理图像)的情况下，输出与该对象的图像(在此，作为一例，是对象患者的癌组织的病理图像)相应的信息，并对终端1-1～1-M发送该信息。

该信息是表示对象物(例如，对象患者的癌组织)是否存在特定的异常的信息。在本实施方式中，作为其一例，该信息是表示对象患者的癌组织是否存在特定的基因异常的信息、或者表示与特定的基因异常对应的药能否应用于该对象患者的信息。

显示器4可以根据从信息处理装置2输出的影像信号来显示上述信息。

管理者终端3是由对本实施方式所涉及的信息处理系统S进行管理的管理团体使用的终端装置。信息处理系统S既可以具备也可以不具备终端1-1、……、1-M，但在本实施方式中，设信息处理系统S不具备终端1-1、……、1-M来进行说明。

图12是本实施方式所涉及的信息处理装置的概略构成图。如图12所示，信息处理装置2具备输入接口21、通信电路22、辅助存储器23、内存24、输出接口25和处理器26。

输入接口21受理来自信息处理装置2的管理者的输入，并将与所受理的输入相应的输入信号向处理器26输出。

通信电路22与通信电路网CN连接，并与连接于通信电路网CN的终端1-1～1-M或者管理者终端3进行通信。该通信既可以是有线也可以是无线，但设为是有线的情况来进行说明。

辅助存储器23存放有用于供处理器26读出并执行的程序以及各种数据。在辅助存储器25例如存储有第12机器学习模型231。

内存24临时保持数据以及程序。内存24是易失性存储器，例如是RAM(RandomAccess Memory)。

输出接口25与外部的设备连接，是用于向外部的设备输出信号的接口。输出接口25例如与显示器4连接，能向该显示器4输出影像信号。

处理器26将程序从辅助存储器23加载至内存24，并执行该程序中包含的一系列命令，从而作为分割部261、提取部262、输出部263发挥功能。

分割部261如图3所示，将对象的癌组织的病理图像分割为多个图像区域(在图3的例子中为长方形的图像区域)。

提取部262从由分割部261分割出的各个图像区域中提取背景为设定比例以下的图像区域。

输出部263利用由图2记载的搜索方法决定出的特征的组合的过滤器来对对象的图像进行过滤，从而输出表示对象物是否存在特定的异常的信息或者表示与特定的异常对应的药能否应用于该对象物的信息。

在此，作为一例，对象物是对象患者的癌组织，对象物的图像是对象患者的癌组织的病理图像，特定的异常是特定的基因异常。在该前提下，输出部263例如利用由图10记载的搜索方法决定出的特征的组合的过滤器来对从将对象患者的癌组织的病理图像进行分割而得到的图像区域中提取出的背景为设定比例以下的图像区域的每一个进行过滤，从而输出表示对象患者的癌组织是否存在特定的基因异常的信息或者表示与特定的基因异常对应的药能否应用于该对象患者的信息。

在本实施方式中，该过滤器是采用了学习完毕的机器学习模型的过滤器，该学习完毕的机器学习模型是使用以由图10记载的搜索方法决定出的特征的组合的过滤器对全部学习用数据进行过滤后的学习用数据来进行机器学习而得到的。在此，作为一例，学习完毕的机器学习模型是第12机器学习模型231。

图13是用于说明本实施方式所涉及的输出部的处理的示意图。图13是在评价指标最高的机器学习模型为第12机器学习模型的情况下(若为特征A+、C+、D+，则是存在特定的基因异常的情况)的输出部的处理概要。如图13所示，输出部263将从对是否存在特定的基因异常为未知的对象患者的癌组织的病理图像进行分割得到的各个图像区域中提取出的背景为设定比例以下的图像区域分别输入至该第12机器学习模型231来获取输出值。在输出值超过阈值的情况下，输出部263输出表示存在特定的基因异常的信息或者表示与特定的基因异常对应的药能应用于对象患者的消息。另一方面，在输出值为阈值以下的情况下，输出表示不存在特定的基因异常的信息或者表示与特定的基因异常对应的药不能应用于对象患者的信息。

以上，本实施方式所涉及的信息处理系统S具备输出部，所述输出部利用由图2或图10的搜索方法决定出的特征的组合的过滤器来对对象的图像进行过滤，从而输出表示所述对象物是否存在所述特定的异常的信息或者表示与所述特定的异常对应的药能否应用于该对象物的信息。

在本实施方式中，该过滤器，作为一例，是采用了学习完毕的机器学习模型的过滤器，该学习完毕的机器学习模型是使用以由图2或图10记载的搜索方法决定出的特征的组合的过滤器对所述全部学习用数据进行过滤后的学习用数据来进行机器学习而得到的。

在本实施方式中，所述对象物是对象患者的癌组织，所述对象物的图像是对象患者的癌组织的病理图像，所述特定的异常是特定的基因异常。所述输出部263利用由图2或图10记载的搜索方法决定出的特征的组合的过滤器来对将对象患者的癌组织的病理图像进行分割得到的图像区域的每一个进行过滤，从而输出表示所述对象患者的癌组织是否存在所述特定的基因异常的信息、或者表示与所述特定的基因异常对应的药能否应用于该对象患者的信息。

＜变形例＞

接下来，使用图14以及图15来说明信息处理装置的变形例。图14是本实施方式的变形例所涉及的信息处理装置的概略构成图。针对与图12相同的构成赋予同一标号，并省略其说明。图14中的本实施方式的变形例所涉及的信息处理装置2b与图12不同，在辅助存储器23b中保存有特征X1有无判定器、……、特征Xj有无判定器(j是自然数)，作为处理器26b的输出部263b发挥功能。输出部263b对于从将对象患者的癌组织的病理图像进行分割得到的图像区域中提取出的背景为设定比例以下的图像区域的每一个，应用使用了辅助存储器23b记载的特征X1有无判定器、……、特征Xj有无判定器(j是自然数)的过滤器。

图15是用于说明本实施方式的变形例所涉及的输出部的处理的示意图。在此，若是特征A+、特征C+、特征D+，则是存在特定的基因异常的情况下的输出部263b的处理概要。

输出部263b对于从将对象患者的癌组织的病理图像进行分割得到的图像区域中提取出的背景为设定比例以下的图像区域的每一个，应用将特征A有无判定器与特征C有无判定器进行组合而成的过滤器5、以及将特征D有无判定器进行组合而成的过滤器8。在过滤器后哪怕图像区域有1个被输出的情况下，输出部263b都输出表示存在特定的基因异常的信息或者表示与特定的基因异常对应的药能应用于对象患者的信息。另一方面，在过滤器后图像区域1个也未被输出的情况下，输出表示不存在特定的基因异常的信息或者表示与特定的基因异常对应的药不能应用于对象患者的信息。

此外，上述实施方式中说明的信息处理装置2的至少一部分既可以由硬件构成，也可以由软件构成。在由硬件构成的情况下，可以将实现信息处理装置2的至少一部分的功能的程序存储于软盘、CD-ROM等记录介质并由计算机读入且执行。记录介质不限于磁盘、光盘等能装卸的介质，还可以是硬盘装置、内存等固定型的记录介质。

另外，可以经由互联网等通信线路(也包括无线通信)来分发实现信息处理装置2的至少一部分的功能的程序。进而，可以将该程序以加密、调制、压缩后的状态经由互联网等有线线路、无线链路或者存储在记录介质中进行分发。

进而，可以通过一个或者多个信息处理装置来使信息处理装置2发挥功能。在使用多个信息处理装置的情况下，可以将信息处理装置当中的一个设为计算机并由该计算机执行给定的程序从而作为信息处理装置2的至少1个单元实现功能。

另外，在方法的发明中，可以由计算机进行自动控制来实现全部的工序(步骤)。另外，也可以在使计算机实施各工序的同时，通过人工实施工序间的进度控制。另外，也可以人工实施全部工序当中的至少一部分。

以上，本发明不限于上述实施方式，在实施阶段中能够在不脱离其主旨的范围内将构成要素变形且具化。另外，通过上述实施方式公开的多个构成要素的适当的组合，能够形成各种发明。例如，可以从实施方式公开的全部构成要素中删除几个构成要素。进而，可以将跨不同实施方式将构成要素适当组合。

(标号说明)

1、1-1～1-M 终端

2、2b 信息处理装置

21 输入接口

22 通信电路

23 辅助存储器

23-1 特征X1有无判定器

23-j 特征Xj有无判定器

231 第12机器学习模型

24 内存

25 输出接口

26、26b 处理器

261 分割部

262 提取部

263、263b 输出部

3 管理者终端

4 显示器

CN 通信电路网

S 信息处理系统。

Claims

1.一种搜索方法，搜索对机器学习模型的输出结果造成影响的特征，所述搜索方法包括：

第一步骤，对于包含由为正类的正确解答数据及为负类的正确解答数据与表示各个数据是否为正类的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器；

第二步骤，通过将由所述第一步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及

第三步骤，在机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

2.根据权利要求1所述的搜索方法，其中，

所述搜索方法包括：

第四步骤，针对由所述第一步骤生成的学习用数据的每一个，判定该学习用数据是否为所述全部学习用数据的设定比例以下；

第五步骤，在所述第四步骤的判定的结果是所述学习用数据为所述全部学习用数据的设定比例以下的情况下，将包含与该学习用数据对应的特征的组在内的特征的组合所对应的特征有无判定器的组排除；

第六步骤，对于至少一个以上所述全部学习用数据，应用所述至少一个特征有无判定器和用于判定有无新提取出的特征的特征有无判定器当中的、被排除的特征有无判定器的组以外的至少一个以上的组所构成的不同的过滤器；

第七步骤，通过将由所述第六步骤生成的学习用数据分别应用于不同的机器学习，来分别执行机器学习；以及

第八步骤，在所述第七步骤的机器学习后，使用将验证数据输入至各个机器学习而得到的验证结果，来输出用于提取新的特征的信息。

3.根据权利要求2所述的搜索方法，其中，

在所述第八步骤中提取出新的特征的情况下，进而针对由第六步骤生成的学习用数据的每一个执行所述第四步骤，并随之重复所述第五步骤、所述第六步骤、所述第七步骤和所述第八步骤，

在所述第八步骤中输出用于提取新的特征的信息后未提取出新的特征的情况下，所述搜索方法包括第九步骤，在所述第九步骤中，从与至此为止的特征的组合对应的机器学习模型当中提取性能满足设定条件的机器学习模型，并输出与提取出的该机器学习模型对应的特征的组合。

4.根据权利要求1至3中任一项所述的搜索方法，其中，

该搜索方法是搜索对该对象物是否存在特定的异常的输出结果造成影响的对象物的图像的特征的搜索方法，

所述第一步骤中，对于包含由存在特定的异常的对象物的图像及不存在特定的异常的对象物的图像与表示得到各个图像的对象物是否存在特定的异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器，

对所述机器学习模型的输出结果造成影响的特征是用于判定对象物是否存在特定的异常的特征。

5.根据权利要求4所述的搜索方法，其中，

所述对象物是患者的癌组织，

所述对象物的图像是该患者的癌组织的病理图像，

所述特定的异常是特定的基因异常，

在所述第一步骤中，对于包含由存在特定的基因异常的癌组织的病理图像的图像区域以及不存在特定的基因异常的癌组织或正常组织的病理图像的图像区域与表示得到各个图像区域的患者的组织是否存在特定的基因异常的信息构成的多个组的全部学习用数据，应用至少一个以上将至少一个以上的用于判定特征的有无的特征有无判定器进行组合而成的不同的过滤器。

6.一种信息处理系统，具备输出部，所述输出部利用由权利要求3所述的搜索方法决定出的特征的组合的过滤器来对对象的图像进行过滤，从而输出表示所述对象物是否存在所述特定的异常的信息或者表示与所述特定的异常对应的药能否应用于该对象物的信息。

7.根据权利要求6所述的信息处理系统，其中，

所述过滤器采用了学习完毕的机器学习模型，所述学习完毕的机器学习模型是使用以由权利要求3所述的搜索方法决定出的特征的组合的过滤器对所述全部学习用数据进行过滤后的学习用数据来进行机器学习而得到的。

8.根据权利要求6或7所述的信息处理系统，其中，

所述对象物是对象患者的癌组织，

所述对象物的图像是对象患者的癌组织的病理图像，

所述特定的异常是特定的基因异常，

所述输出部利用由权利要求3所述的搜索方法决定出的特征的组合的过滤器来对将对象患者的癌组织的病理图像进行分割得到的图像区域的每一个进行过滤，从而输出表示所述对象患者的癌组织是否存在所述特定的基因异常的信息或者表示与所述特定的基因异常对应的药能否应用于该对象患者的信息。