CN115668393A - 诊断辅助程序、装置以及方法 - Google Patents

诊断辅助程序、装置以及方法 Download PDF

Info

Publication number
CN115668393A
CN115668393A CN202080101090.7A CN202080101090A CN115668393A CN 115668393 A CN115668393 A CN 115668393A CN 202080101090 A CN202080101090 A CN 202080101090A CN 115668393 A CN115668393 A CN 115668393A
Authority
CN
China
Prior art keywords
features
weight
pattern
sample
diagnosed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080101090.7A
Other languages
English (en)
Inventor
柳濑隆史
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN115668393A publication Critical patent/CN115668393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明的诊断辅助装置生成对样本数据的基因发现量进行二值化而得到的训练数据集,详尽地列举由所有特征的组合构成的假设,应用能够对这些假设赋予重要度的AI机器学习训练数据,获取规则集合,该规则是用多个基因的详尽的组合分别表示的规则,且分别与引导至有疾病的假设的规则权重建立有对应关系,对包含规定个数的基因种类的每个模式,基于规则权重决定模式权重,并输出模式权重为规定值以上的模式作为诊断基准的候补,从而当在决定诊断基准时利用机器学习的情况下,辅助决定对诊断有效的诊断基准。

Description

诊断辅助程序、装置以及方法
技术领域
公开的技术涉及诊断辅助程序、诊断辅助装置以及诊断辅助方法。
背景技术
在医疗实践等中,基于从患者采集的样本所表示的特征和预先决定的诊断基准,来诊断有无疾病。作为诊断基准的决定方法,例如,有通过创建预测有无诊断对象疾病的模型来决定的方法。模型通过使用训练数据并通过SVM(Support Vector Machine)、决策树等机器学习来创建,其中,该训练数据对从有诊断对象疾病的患者以及没有疾病的患者分别采集的样本所表示的特征和表示有无疾病的分类标签建立对应关系。
例如,提出了将被检体按照在被检体的身体上产生的事件分层的方法。在该方法中,对于源自被检体的生物标志物母集,通过统计学的方法基于各生物标志物的测定值判定各生物标志物是否与在被检体的身体上产生的事件相关联地变动。而且,提取被判定为变动的生物标志物群作为第一子集。另外,验证属于第一子集的各生物标志物,并提取在统计学上预测为与在身体上产生的事件的相关性更强的生物标志物群作为第二子集。而且,通过深度学习法计算属于第二子集的各生物标志物的权重,生成判别器。判别器使用根据属于第二子集的各生物标志物的测定值得到的得分和计算出的各生物标志物的权重,来计算属于第二子集的生物标志物的得分的加权和。
专利文献1:日本特开2020-28278号公报
在用作机器学习的解释变量的特征的种类数量巨大的情况下,很难通过以往的机器学习创建模型。例如,在特征是基因的发现量的情况下,也有基因种类数量达到1万以上的情况。如现有技术那样,考虑缩小到只有可能对预测疾病有效的基因等,在选择用作解释变量的特征后进行机器学习。但是,在该情况下,很多种类的特征被从解释变量中除去,在被除去的特征中,可能包含本来对诊断有效的特征。例如,在特征单体中,即使在对于预测疾病的有效性较低的情况下,也有通过与其他特征组合而提高有效性的情况,但这样的特征存在被从解释变量中除去的可能性。其结果是,无法决定用于进行有效的诊断的诊断基准。
发明内容
作为一个侧面,公开的技术的目的在于当在决定诊断基准时利用机器学习的情况下,辅助对诊断有效的诊断基准的决定。
作为一个方式,公开的技术获取通过机器学习生成的用一个以上的特征的组合表示的规则的集合,其中,该机器学习利用了包含诊断对象样本所表示的特征以及上述诊断对象以外的样本所表示的特征的训练数据集。各个规则与针对上述诊断对象的第一权重建立有对应关系。另外,公开的技术对包含规定个数的特征的每个模式,决定基于与包含上述模式所包含的特征的规则建立有对应关系的上述第一权重的第二权重,并输出所决定的上述第二权重为规定值以上的上述模式。
作为一个侧面,具有当在决定诊断基准时利用机器学习的情况下,能够辅助有效的诊断基准的决定这样的效果。
附图说明
图1是诊断辅助装置的功能框图。
图2是表示样本数据集合的一个例子的图。
图3是用于对缩小用作机器学习的解释变量的特征来进行机器学习的情况进行说明的图。
图4是用于对训练数据集的生成进行说明的图。
图5是表示规则集合的一个例子的图。
图6是用于对模式的生成进行说明的图。
图7是用于对模式权重的修正的一个例子进行说明的图。
图8是表示诊断基准候补的输出画面的一个例子的图。
图9是表示作为诊断辅助装置发挥作用的计算机的简要结构的框图。
图10是表示诊断辅助处理的一个例子的流程图。
图11是表示训练数据生成处理的一个例子的流程图。
图12是表示规则获取处理的一个例子的流程图。
图13是表示模式生成处理的一个例子的流程图。
图14是表示权重修正处理的一个例子的流程图。
图15是用于对诊断辅助处理进行说明的概略图。
具体实施方式
以下,参照附图对公开的技术的实施方式的一个例子进行说明。在以下的实施方式中,对辅助用于基因诊断的诊断基准的决定的情况进行说明。所谓的基因诊断是通过从组织样本检查是否发现特定的基因,来诊断有无疾病的方法,上述组织样本是从患者采集的。因此,作为诊断基准,决定在有疾病的情况下高发现的基因种类。
如图1所示,向诊断辅助装置10输入样本数据集合22。诊断辅助装置10通过机器学习根据样本数据集合22生成的训练数据集,提取并输出如上述那样的诊断基准的候补。
样本数据集合22是从有诊断对象疾病的患者以及没有疾病的患者分别采集的组织样本中提取出的有关多种基因的每种基因的发现量的数据亦即样本数据的集合。在图2中,表示样本数据集合22的一个例子。在图2的例子中,各行(各记录)相当于一个样本数据。在图2的例子中,对各样本数据赋予样本数据的识别信息亦即“样本ID”。另外,各样本数据与表示与该样本数据对应的患者是有诊断对象疾病的患者还是没有疾病的患者的“疾病(分类标签)”建立有对应关系。另外,各样本数据包含按每个基因种类从样本数据提取出的该基因的发现量(图2中的“基因发现量”)的信息。
在这里,如图3所示,考虑缩小用作机器学习的解释变量的特征来进行机器学习的情况。在图3的例子中,示出将样本数据所包含的1万以上的基因种类缩小到100左右,作为训练数据的情况。基因种类的缩小例如基于基因间的发现量的相关性等来判断。在图3的例子中,通过模型来决定诊断基准,该模型通过机器学习从样本数据中除去了基因HAS1、CALB2、WT1等的训练数据集来创建。在该情况下,即使被除去的基因HAS1、CALB2、WT1等对诊断有效,这些被除去的基因也不包含于诊断基准。
因此,在本实施方式中,在机器学习中,应用具有“能够解释评价理由”、“详尽地列举由所有变量(特征)的组合构成的假设”、“能够对这些假设赋予重要度”这样的特性的AI(Artificial Intelligence:人工智能)。
如图1所示,诊断辅助装置10在功能上包含生成部12、获取部14、决定部16以及输出部18。
生成部12根据被输入到诊断辅助装置10的样本数据集合22,生成在用于提取诊断基准候补的机器学习中使用的训练数据集。具体而言,生成部12将样本数据集合22所包含的样本数据的基因发现量转换为表示是高发现还是低发现的二值。
例如,生成部12通过现有的二值化方法按每个基因种类决定阈值。作为现有的二值化方法,有在图像的二值化等中使用的动态阈值法、在基因领域中使用的步次要法(stepminor method)等。而且,如图4所示,在基因发现量大于阈值的情况下,生成部12将基因发现量转换为表示高发现的值(例如“1”)。另一方面,在基因发现量为阈值以下的情况下,生成部12将基因发现量转换为表示低发现的值(例如“0”)。
如上述那样,生成部12通过对样本数据的基因发现量进行二值化,来生成训练数据。即,训练数据集是将对基因发现量分别进行二值化而得到的值和分类标签建立对应关系的训练数据的集合。以下,将二值化而得到的基因发现量称为“基因发现信息”。图4的下段的图表示训练数据集,各行(各记录)相当于一个训练数据。生成部12将生成的训练数据集交接给获取部14。
获取部14获取规则的集合,该规则是通过利用了从生成部12交接的训练数据集的机器学习生成的用一个以上的特征的组合表示的规则,且分别与针对诊断对象的权重建立有对应关系。
具体而言,获取部14应用具有上述特性的AI,将基因发现信息作为解释变量和将分类标签作为目的变量,机器学习训练数据。由此,获取部14获取引导至具有诊断对象疾病的诊断的假设,作为规则。更具体而言,在本实施方式中应用的AI详尽地列举多个基因种类的组合。而且,AI根据训练数据的基因发现信息与分类标签的对应关系,对每个组合,机器学习该组合所包含的基因是高发现的针对具有诊断对象疾病的诊断结果的贡献度(重要度)。即,通过高发现的基因的组合来说明为什么诊断为具有诊断对象疾病。另外,通过使用对基因发现量进行二值化而得到的训练数据,能够对基因种类的详尽的组合中的每个组合,进行高效的机器学习。
获取部14获取高发现的基因的组合作为规则,并获取对该规则赋予的重要度作为规则权重,作为如图5所示那样的规则集合24,存储于规定的存储区域。规则权重是公开的技术的“第一权重”的一个例子。此外,获取部14也可以仅将规则权重为规定值以上的规则包含于规则集合24。
决定部16对包含规定个数的基因种类的每个模式,决定基于与包含模式所包含的基因种类的规则建立有对应关系的规则权重的模式权重。在将规定个数设为多个的情况下,即,模式所包含的基因为多种的情况下,在多个基因共发现的情况下,能够提取如与诊断对象疾病有关的基因的组合,作为诊断基准的候补。
具体而言,决定部16从用户受理模式所包含的基因种类数的指定,如图6所示,生成所指定的种类数(在图6的例子中,为3种)的基因的组合作为模式。决定部16按所生成的每个模式,从规则集合24中检索包含该模式所包含的基因的所有种类的规则。而且,决定部16计算与检索出的规则建立有对应关系的规则权重的合计值,作为模式权重。由此,对引导至有诊断对象疾病的诊断的假设的适合度越高,能够计算越大的规则权重。此外,规则权重的计算方法并不限定于上述的例子,也可以是与检索出的规则建立有对应关系的规则权重的积、加权和、平均等。
另外,在模式中包含功能未知的基因和功能已知且与诊断对象疾病有关的基因的情况下,决定部16对计算出的模式权重进行修正。具体而言,决定部16以模式所包含的功能未知的基因的数量或者比率越多越增大模式权重的方式进行修正。这是为了辅助发现包含功能未知的基因的新的诊断基准。另外,在功能未知的基因与功能已知且与诊断对象疾病有关的基因一起包含于模式的情况下,增大模式权重进行修正是因为没有证据表明功能未知的基因与疾病相关联。
在图7中,示出模式权重的修正的一个例子。决定部16例如对包含功能未知的基因和功能已知且与诊断对象疾病有关的基因的模式,对模式所包含的功能未知的一个基因,进行一次将计算完毕的模式权重设为1.5倍。此外,模式权重的修正方法并不局限于此,也可以通过将与功能未知的基因的数量或者比率相应的值相加等其他方法进行修正。
决定部16将修正后的模式权重决定为最终的模式权重,并将模式以及模式权重交接给输出部18。此外,模式权重是公开的技术的“第二权重”的一个例子。
输出部18输出由决定部16决定的模式权重为规定值以上的模式所包含的基因,作为成为诊断基准的候补的基因组。输出的信息例如以如图8所示那样的输出画面显示于医生等利用的信息处理终端的显示器。在图7和图8的例子中,示出输出模式权重为2.5以上的模式作为成为诊断基准的候补的基因组的例子。此外,成为诊断基准的候补的基因组的信息并不限定于显示于显示器的情况,也可以通过打印输出于纸张等其他方法来输出。
诊断辅助装置10例如能够通过图9所示的计算机40来实现。计算机40具备CPU(Central Processing Unit:中央处理器)41、非易失性的存储部43以及作为临时存储区域的存储器42。另外,计算机40具备输入部、显示部等输入输出装置44、以及控制针对存储介质49的数据的读入和写入的R/W(Read/Write)部45。另外,计算机40具备与因特网等网络连接的通信I/F(Interface)46。CPU41、存储器42、存储部43、输入输出装置44、R/W部45以及通信I/F46经由总线47相互连接。
存储部43能够由HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态驱动器)、闪存等来实现。在作为存储介质的存储部43中,存储用于使计算机40作为诊断辅助装置10发挥作用的诊断辅助程序50。诊断辅助程序50具有生成工序52、获取工序54、决定工序56以及输出工序58。
CPU41从存储部43读出诊断辅助程序50并在存储器42中展开,依次执行诊断辅助程序50所具有的工序。CPU41通过执行生成工序52,作为图1所示的生成部12进行动作。另外,CPU41通过执行获取工序54,作为图1所示的获取部14进行动作。另外,CPU41通过执行决定工序56,作为图1所示的决定部16进行动作。另外,CPU41通过执行输出工序58,作为图1所示的输出部18进行动作。另外,CPU41在执行获取工序54时,将规则集合24在存储器42中展开。由此,执行了诊断辅助程序50的计算机40作为诊断辅助装置10发挥作用。此外,执行程序的CPU41是硬件。
此外,通过诊断辅助程序50实现的功能例如也能够由半导体集成电路,更详细而言ASIC(Application Specific Integrated Circuit:专用集成电路)等来实现。
接下来,对本实施方式的诊断辅助装置10的作用进行说明。若向诊断辅助装置10输入样本数据集合22,则在诊断辅助装置10中,执行图10所示的诊断辅助处理。此外,诊断辅助处理是公开的技术的诊断辅助方法的一个例子。以下,一并参照图15所示的诊断辅助处理的概略图,对表示图10的诊断辅助处理的一个例子的流程图进行说明。
在步骤S10中,生成部12执行训练数据生成处理。在这里,参照图11,对训练数据生成处理进行说明。
在步骤S11中,生成部12获取被输入到诊断辅助装置10的样本数据集合22。接下来,在步骤S12中,生成部12从样本数据集合22所包含的基因种类中,选择一个以下的处理是未处理的基因种类。接下来,在步骤S14中,生成部12通过现有的二值化方法,对所选择的基因种类决定二值化的阈值。
接下来,在步骤S16中,生成部12从样本数据集合22中,选择一个以下的处理为未处理的样本数据。接下来,在步骤S18中,生成部12在所选择的样本数据中,判定所选择的基因种类的基因发现量是否大于决定的阈值。在基因发现量>阈值的情况下,处理移至步骤S19,在基因发现量≤阈值的情况下,处理移至步骤S20。
在步骤S19中,生成部12将基因发现量转换为表示高发现的值(例如“1”)。另一方面,在步骤S20中,生成部12将基因发现量转换为表示低发现的值(例如“0”)。
接下来,在步骤S21中,生成部12对样本数据集合22所包含的所有样本数据,判定是否完成了上述步骤S18~S20的处理。在存在未完成的样本数据的情况下,处理返回到步骤S16,在对所有样本数据完成了处理的情况下,处理移至步骤S22。
在步骤S22中,生成部12对所有基因种类判定是否完成了上述步骤S14~S21的处理。在存在未完成的基因种类的情况下,处理返回到步骤S12,在对所有基因种类完成了处理的情况下,训练数据生成处理结束,处理返回到诊断辅助处理(图10)。由此,如图15的(A)所示,生成对样本数据的基因发现量进行二值化而得到的训练数据集。
接下来,在步骤S30中,获取部14执行规则获取处理。在这里,参照图12,对规则获取处理进行说明。
在步骤S31中,获取部14获取由生成部12生成的训练数据集。训练数据集所包含的各个训练数据包含基因发现信息和表示有无疾病的分类标签。
接下来,在步骤S32中,获取部14将基因发现信息作为解释变量和将分类标签作为目的变量,并应用具有上述特性的AI来机器学习训练数据。具体而言,获取部14使AI详尽地列举多个基因种类的组合。而且,获取部14使AI按每个组合根据训练数据的基因发现信息与分类标签的对应关系,机器学习该组合所包含的基因是高发现的、针对与有诊断对象疾病的诊断结果的贡献度(重要度)。
接下来,在步骤S33中,获取部14获取高发现的基因的组合作为规则,并获取对该规则赋予的重要度作为规则权重,并作为规则集合24存储于规定的存储区域。然后,规则获取处理结束,处理返回到诊断辅助处理(图10)。由此,如图15的(B)所示,获取部14获取表示引导至有诊断对象疾病(在图15的例子中为“肺癌”)的诊断的假设的规则以及规则权重,作为规则集合。
接下来,在步骤S40中,决定部16执行模式生成处理。在这里,参照图13,对模式生成处理进行说明。
在步骤S41中,决定部16从用户受理模式所包含的基因种类数的指定,并生成所指定的种类数的基因的组合作为模式。接下来,在步骤S42中,决定部16从所生成的模式中,选择一个以下的处理未处理的模式。
接下来,在步骤S43中,决定部16从规则集合24中检索包含所选择的模式所包含的所有基因种类的规则。接下来,在步骤S44中,决定部16判定在上述步骤S43中是否检索出一个以上的规则。在检索出一个以上的规则的情况下,处理移至步骤S45,在未检索出规则的情况下,处理移至步骤S46。
在步骤S45中,决定部16计算与检索到的规则建立有对应关系的规则权重的合计值,作为所选择的模式的模式权重。接下来,在步骤S46中,决定部16对所生成的所有模式,判定上述步骤S43~S45的处理是否完成。在存在未完成的模式的情况下,处理返回到步骤S42,在对所有模式完成了处理的情况下,模式生成处理结束,处理返回到诊断辅助处理(图10)。
接下来,在步骤S50中,决定部16执行权重修正处理。在这里,参照图14,对权重修正处理进行说明。
在步骤S51中,决定部16选择一个通过模式生成处理生成的模式。接下来,在步骤S52中,决定部16将用于计数模式所包含的功能未知的基因种类数的变量α设定为0,以及将用于计数功能已知且与诊断对象疾病有关的基因种类数的变量β设定为0。
接下来,在步骤S53中,决定部16在所选择的模式所包含的基因种类中,选择一个以下的处理是未处理的基因种类。接下来,在步骤S54中,决定部16判定所选择的种类的基因是否是功能已知的基因。在是功能已知的基因的情况下,处理移至步骤S56。另一方面,在是功能未知的基因的情况下,处理移至步骤S55,决定部16使α自加1,处理移至步骤S58。
在步骤S56中,决定部16判定所选择的种类的基因是否是与诊断对象疾病有关的基因。在是与疾病有关的基因的情况下,处理移至步骤S57,在是与疾病无关的基因的情况下,处理移至步骤S58。在步骤S57中,决定部16使β自加1,处理移至步骤S58。
在步骤S58中,决定部16对所选择的模式所包含的基因的所有种类,判定上述步骤S53~S57的处理是否完成。在存在未完成的基因种类的情况下,处理返回到步骤S53,在对所有基因种类完成了处理的情况下,处理移至步骤S59。
在步骤S59中,决定部16基于α以及β,对选择出的模式的模式权重进行修正。具体而言,在α>0且β>0的情况下,决定部16以α的数量或者比率越多越增大模式权重的方式进行修正。例如,决定部16以“修正前的模式权重×γα(γ是常量,例如,为1.5)”的方式,对模式权重进行修正。
接下来,在步骤S60中,对所有模式,判定上述步骤S52~S59的处理是否完成。在存在未完成的模式的情况下,处理返回到步骤S51,在对所有模式完成了处理的情况下,处理移至步骤S61。在步骤S61中,决定部16将修正后的模式权重决定为最终的模式权重,并将各模式按模式权重从大到小的顺序排序。然后,权重修正处理结束,处理返回到诊断辅助处理(图10)。
通过模式生成处理以及权重修正处理,如图15的(C)所示,对包含规定个数(在图15的例子中,k=3个)的基因种类的每个模式,基于规则权重来决定模式权重。
接下来,在步骤S70中,输出部18输出由决定部16决定的模式权重为规定值以上的模式所包含的基因作为成为诊断基准的候补的基因组。规定值可以是预先决定的值,也可以为上位第N个模式权重的值。在为后者的情况下,输出模式权重上位N位为止的模式作为诊断基准候补。
由此,如图15的(D)所示,医生等参照所输出的成为诊断基准的候补的基因组,根据医学知识,决定作为检查对象基因的诊断基准。而且,在基因诊断的情况下,如图15的(E)所示,例如,从患者采血,测定诊断基准所表示的检查对象基因的发现量,并基于测定结果来诊断有无疾病。
如以上说明的那样,本实施方式的诊断辅助装置获取规则的集合,上述规则是通过机器学习生成的、用一个以上的基因种类的组合表示的规则,且分别与针对诊断对象疾病的规则权重建立有对应关系。规则通过对基因的每个详尽的组合,应用AI,机器学习有疾病以及没有疾病的基因发现信息来创建,其中,上述AI赋予该组合所包含的基因是高发现的情况下的与对诊断结果的贡献度相应的重要度。诊断辅助装置对包含规定个数的基因种类的每个模式,决定基于与包含模式所包含的基因种类的规则建立有对应关系的规则权重的模式权重,并输出所决定的模式权重为规定值以上的模式作为诊断基准候补。由此,当在决定诊断基准时利用机器学习的情况下,能够辅助决定对诊断有效的诊断基准。
另外,诊断辅助装置在模式所包含规定个数的特征包含功能未知的基因和功能已知且与疾病有关的基因的情况下,以模式所包含的功能未知的基因的数量或者比率越多越增大模式权重的方式进行修正。由此,能够提取也能够应对此前作为特征难以显现的未知的基因的诊断基准候补。
此外,在上述实施方式中,对基因诊断的例子进行了说明,但公开的技术的应用并不限定于此。只要是基于多个特征的组合和诊断基准来预测诊断结果的情况,就能够应用公开的技术。例如,在基因以外的医疗诊断、基于图像数据等传感检测数据来诊断有无异常等的情况下也能够应用。
另外,在上述实施方式中,对基于模式所包含的功能未知的基因的数量或者比率来修正基于规则权重计算出的模式权重的情况进行了说明,但修正模式权重不是必需的。但是,在想要将功能未知的基因添加到诊断基准的情况下,如上述实施方式那样修正模式权重是有效的。
另外,在上述实施方式中,对将诊断辅助程序预先存储(安装)于存储部的方式进行了说明,但并不限定于此。公开的技术的程序也能够以存储于CD-ROM、DVD-ROM、USB存储器等存储介质的形式来提供。
附图标记说明
10…诊断辅助装置;12…生成部;14…获取部;16…决定部;18…输出部;22…样本数据集合;24…规则集合;40…计算机;41…CPU;42…存储器;43…存储部;49…存储介质;50…诊断辅助程序。

Claims (16)

1.一种诊断辅助程序,用于使计算机执行如下处理:
获取规则的集合,上述规则是通过机器学习生成的用一个以上的特征的组合表示的规则,且分别与针对上述诊断对象的第一权重建立有对应关系,其中,上述机器学习利用了包含诊断对象样本所表示的特征以及上述诊断对象以外的样本所表示的特征的训练数据集;
对包含规定个数的特征的每个模式,决定基于与包含上述模式所包含的特征的规则建立有对应关系的上述第一权重的第二权重;以及
输出所决定的上述第二权重为规定值以上的上述模式。
2.根据权利要求1所述的诊断辅助程序,其中,
通过上述机器学习生成上述规则,其中,上述机器学习对上述样本所表示的特征的每个详尽的组合,赋予对是上述诊断对象还是上述诊断对象以外的诊断结果的贡献度。
3.根据权利要求1或2所述的诊断辅助程序,其中,
上述训练数据集是对将上述样本所表示的特征的各个特征量二值化而得到的值和表示上述样本是上述诊断对象的样本还是上述诊断对象以外的样本的标签建立有对应关系的训练数据的集合。
4.根据权利要求1~3中任一项所述的诊断辅助程序,其中,
将与包含上述模式所包含的特征的规则分别建立有对应关系的上述第一权重的合计值决定为上述第二权重。
5.根据权利要求1~4中任一项所述的诊断辅助程序,其中,
在上述特征是与基因的发现量相应的特征的情况下,且上述模式所包含的上述规定个数的特征包含功能未知的基因和功能已知的基因的情况下,以上述模式所包含的上述功能未知的基因的数量或者比率越多越增大上述第二权重的方式,修正上述第二权重。
6.一种诊断辅助装置,包含:
获取部,获取规则的集合,上述规则是通过机器学习生成的用一个以上的特征的组合表示的规则,且分别与针对上述诊断对象的第一权重建立有对应关系,其中,上述机器学习利用了包含诊断对象样本所表示的特征以及上述诊断对象以外的样本所表示的特征的训练数据集;
决定部,对包含规定个数的特征的每个模式,决定基于与包含上述模式所包含的特征的规则建立有对应关系的上述第一权重的第二权重;以及
输出部,输出所决定的上述第二权重为规定值以上的上述模式。
7.根据权利要求6所述的诊断辅助装置,其中,
通过上述机器学习生成上述规则,其中,上述机器学习对上述样本所表示的特征的每个详尽的组合,赋予对是上述诊断对象还是上述诊断对象以外的诊断结果的贡献度。
8.根据权利要求6或7所述的诊断辅助装置,其中,
上述训练数据集是对将上述样本所表示的特征的各个特征量二值化而得到的值和表示上述样本是上述诊断对象的样本还是上述诊断对象以外的样本的标签建立有对应关系的训练数据的集合。
9.根据权利要求6~8中任一项所述的诊断辅助装置,其中,
上述决定部将与包含上述模式所包含的特征的规则分别建立有对应关系的上述第一权重的合计值决定为上述第二权重。
10.根据权利要求6~9中任一项所述的诊断辅助装置,其中,
在上述特征是与基因的发现量相应的特征的情况下,且上述模式所包含的上述规定个数的特征包含功能未知的基因和功能已知的基因的情况下,
上述决定部以上述模式所包含的上述功能未知的基因的数量或者比率越多越增大上述第二权重的方式,修正上述第二权重。
11.一种诊断辅助方法,由计算机执行如下处理:
获取规则的集合,上述规则是通过机器学习生成的用一个以上的特征的组合表示的规则,且分别与针对上述诊断对象的第一权重建立有对应关系,其中,上述机器学习利用了包含诊断对象样本所表示的特征以及上述诊断对象以外的样本所表示的特征的训练数据集;
对包含规定个数的特征的每个模式,决定基于与包含上述模式所包含的特征的规则建立有对应关系的上述第一权重的第二权重;以及
输出所决定的上述第二权重为规定值以上的上述模式。
12.根据权利要求11所述的诊断辅助方法,其中,
上述规则对上述样本所表示的特征的每个详尽的组合,赋予对是上述诊断对象还是上述诊断对象以外的诊断结果的贡献度通过上述机器学习生成。
13.根据权利要求11或12所述的诊断辅助方法,其中,
上述训练数据集是对将上述样本所表示的特征的各个特征量二值化而得到的值和表示上述样本是上述诊断对象的样本还是上述诊断对象以外的样本的标签建立有对应关系的训练数据的集合。
14.根据权利要求11~13中任一项所述的诊断辅助方法,其中,
将与包含上述模式所包含的特征的规则分别建立有对应关系的上述第一权重的合计值决定为上述第二权重。
15.根据权利要求11~14中任一项所述的诊断辅助方法,其中,
在上述特征是与基因的发现量相应的特征的情况下,且上述模式所包含的上述规定个数的特征包含功能未知的基因和功能已知的基因的情况下,以上述模式所包含的上述功能未知的基因的数量或者比率越多越增大上述第二权重的方式,修正上述第二权重。
16.一种存储介质,存储有用于使计算机执行如下处理的诊断辅助程序:
获取规则的集合,上述规则是通过机器学习生成的用一个以上的特征的组合表示的规则,且分别与针对上述诊断对象的第一权重建立有对应关系,其中,上述机器学习利用了包含诊断对象样本所表示的特征以及上述诊断对象以外的样本所表示的特征的训练数据集;
对包含规定个数的特征的每个模式,决定基于与包含上述模式所包含的特征的规则建立有对应关系的上述第一权重的第二权重;以及
输出所决定的上述第二权重为规定值以上的上述模式。
CN202080101090.7A 2020-06-03 2020-06-03 诊断辅助程序、装置以及方法 Pending CN115668393A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/021994 WO2021245850A1 (ja) 2020-06-03 2020-06-03 診断支援プログラム、装置、及び方法

Publications (1)

Publication Number Publication Date
CN115668393A true CN115668393A (zh) 2023-01-31

Family

ID=78830699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080101090.7A Pending CN115668393A (zh) 2020-06-03 2020-06-03 诊断辅助程序、装置以及方法

Country Status (5)

Country Link
US (1) US20230057455A1 (zh)
EP (1) EP4163385A4 (zh)
JP (1) JP7444252B2 (zh)
CN (1) CN115668393A (zh)
WO (1) WO2021245850A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060173663A1 (en) 2004-12-30 2006-08-03 Proventys, Inc. Methods, system, and computer program products for developing and using predictive models for predicting a plurality of medical outcomes, for evaluating intervention strategies, and for simultaneously validating biomarker causality
EP3607089A4 (en) * 2017-04-04 2020-12-30 Lung Cancer Proteomics, LLC PLASMA-BASED PROTEIN PROFILING FOR EARLY PROGNOSIS OF LUNG CANCER
JP2020028278A (ja) 2018-08-24 2020-02-27 国立大学法人九州大学 被検体に生じるイベントを予測するための判別器の生成方法、及び前記判別器を用いた被検体の層別化方法

Also Published As

Publication number Publication date
EP4163385A4 (en) 2023-08-02
JPWO2021245850A1 (zh) 2021-12-09
US20230057455A1 (en) 2023-02-23
EP4163385A1 (en) 2023-04-12
JP7444252B2 (ja) 2024-03-06
WO2021245850A1 (ja) 2021-12-09

Similar Documents

Publication Publication Date Title
EP4036931A1 (en) Training method for specializing artificial intelligence model in institution for deployment, and apparatus for training artificial intelligence model
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
US7949167B2 (en) Automatic learning of image features to predict disease
JP5581574B2 (ja) 画像処理装置及び画像処理プログラム
US20230162049A1 (en) Artificial intelligence (ai) method for cleaning data for training ai models
US20230238081A1 (en) Artificial intelligence analysis of rna transcriptome for drug discovery
RU2517286C2 (ru) Классификация данных выборок
JP2005524131A (ja) クラシファイアの性能の見積りに関する方法および装置
EP3872818A2 (en) Method for providing diagnostic system using semi-supervised learning, and diagnostic system using same
CN110969200B (zh) 基于一致性负样本的图像目标检测模型训练方法及装置
JP5123759B2 (ja) パターン検出器の学習装置、学習方法及びプログラム
EP3866175A2 (en) Supervised learning-based consensus diagnosis method and system thereof
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
EP3859666A1 (en) Classification device, classification method, program, and information recording medium
JP6941309B2 (ja) 遺伝子変異の評価装置、評価方法、プログラム、および記録媒体
JP2021125003A (ja) 計算機、識別器の学習方法、および分析システム
US11132790B2 (en) Wafer map identification method and computer-readable recording medium
TWI816078B (zh) 樣本分群探勘方法
JP2020190935A (ja) 機械学習プログラム、機械学習方法および機械学習装置
CN114038507A (zh) 预测方法、预测模型的训练方法及相关装置
CN110517234B (zh) 特征骨异常检测方法及装置
CN115668393A (zh) 诊断辅助程序、装置以及方法
JP6356015B2 (ja) 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム
CN113678147A (zh) 搜索方法以及信息处理系统
EP4047531A1 (en) Machine learning program, machine learning method, and machine learning device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination