CN108629365B - 分析数据解析装置以及分析数据解析方法 - Google Patents

分析数据解析装置以及分析数据解析方法 Download PDF

Info

Publication number
CN108629365B
CN108629365B CN201810215795.6A CN201810215795A CN108629365B CN 108629365 B CN108629365 B CN 108629365B CN 201810215795 A CN201810215795 A CN 201810215795A CN 108629365 B CN108629365 B CN 108629365B
Authority
CN
China
Prior art keywords
analysis
data
usefulness
dimension
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810215795.6A
Other languages
English (en)
Other versions
CN108629365A (zh
Inventor
野田阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of CN108629365A publication Critical patent/CN108629365A/zh
Application granted granted Critical
Publication of CN108629365B publication Critical patent/CN108629365B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/043Architecture, e.g. interconnection topology based on fuzzy logic, fuzzy membership or fuzzy inference, e.g. adaptive neuro-fuzzy inference systems [ANFIS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/048Fuzzy inferencing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/08Computing arrangements based on specific mathematical models using chaos models or non-linear system models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Automation & Control Theory (AREA)
  • Fuzzy Systems (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Nonlinear Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Complex Calculations (AREA)

Abstract

提供分析数据解析装置以及分析数据解析方法。利用教师数据执行机器学习来构建用于判别分析或回归分析的非线性函数即学习模型(S2),根据该函数的偏微分值按每个输入维度计算贡献度。利用由基于该贡献度的高斯分布函数确定的阈值来决定要无效化的输入维度(S3~S5)。再次进行利用了一部分输入维度无效化后的教师数据的机器学习(S6),根据得到的学习模型来求出每个输入维度的贡献度,基于新旧的贡献度更新贡献度(S7~S8)。重复规定次数的步骤S5~S8的处理(S9),在基于最终的贡献度决定有用的输入维度之后构建机器学习模型(S10)。由此,即使与解析对象的数据的多样性相比教师数据的样本数少时,也能够减少过度学习。

Description

分析数据解析装置以及分析数据解析方法
技术领域
本发明涉及一种对由质谱分析装置、气相色谱仪(GC)、液相色谱仪(LC)、分光测定装置、荧光X射线分析装置、核磁共振装置(NMR)等各种分析装置得到的数据进行解析的分析数据解析装置以及方法,更为详细地说,涉及一种利用作为机器学习的一个方法的有教师学习的分析数据解析装置以及方法。此外,一般还存在在“机器学习”中不包含多变量解析的情况,但机器学习与多变量解析的界限实际上并不明确,大多还是在机器学习中包含多变量解析地进行争论。基于此,在本说明书中设为机器学习包含多变量解析。
背景技术
为了从多种多样的大量数据中找出规则性并利用该规则性进行数据的预测、判别或者回归,机器学习是有用的方法之一,其应用领域近年越来越广泛。作为机器学习的代表性的方法,众所周知支持向量机法(SVM=Support Vector Machine)、神经网络法(NeuralNetwork)、随机森林法(Random Forest)、自适应增强法(AdaBoost)、深度学习法(DeepLearning)等。另外,作为广义的机器学习中包含的多变量解析的代表性的方法,众所周知主成分分析(PCA=Principal Component Analysis)、独立成分分析(ICA=IndependentComponent Analysis)、偏最小二乘法(PLS=Partial Least Squares)等(参照专利文献1等)。
在机器学习中大致存在有教师学习和无教师学习。例如,在针对被检者基于用分析装置收集到的数据来判别有无特定疾病那样的情况下,如果能够预先针对罹患该疾病的患者和未罹患该疾病的正常者分别收集多个数据,则能够进行将这些数据设为教师数据(也称为训练数据或学习数据)的有教师学习。最近,特别是在各处正在推行以下尝试:将有教师学习应用于由质谱分析装置获取到的质谱数据来进行癌等特定疾病的诊断。
图9是将与癌检体和非癌检体有关的质谱数据整理为教师数据所得到的峰矩阵的一例。
关于该峰矩阵,沿纵向取样本,沿横向取峰位置(质荷比m/z),将各峰的信号强度值设为要素的值。因而,该峰矩阵中的一行的各要素示出了与一个样本有关的各质荷比的峰的信号强度值,一列的各要素示出了某个质荷比的所有样本的信号强度值。在此,样本1~样本n-2的样本是癌检体,对这些各样本附加了表示是癌的“1”的值的标签。另一方面,样本n-1~样本N的样本是非癌检体,对这些各样本附加了表示是非癌的“0”的值的标签。在该情况下,标签是二进位的标签。通过使用带这种标签的教师数据,能够构建能够高准确度地判别癌与非癌的机器学习模型。
将各质荷比值分别理解为一个维度,由此如上述那样的质谱数据能够视为多维数据。在从生物体试样获得的质谱数据中包含源自在生物体中极为普遍地含有的多种物质的信息。因此,峰的个数通常变得非常多。也就是说,这样的数据是维数非常大的多维数据。另一方面,对癌等特定疾病的判别有用的标记峰是少数的,也就是说,对特定疾病的判别有用的维度有限,除此以外的许多维度的信息可以说是对于判别该特定疾病这一目的而言无用的维度。
在机器学习中存在由于过度学习(也称为过度匹配)而导致判别和回归性能降低这一问题。具有上述无用的维度的教师数据是过度学习的一个原因,已知这样的维度的信息对机器学习中的判别和回归造成不良影响(参照非专利文献1等)。
防止过度学习的一个方法是,以源自与作为判别和回归的对象的事件(例如癌与非癌的判别)毫无关系的物质的峰、源自表示与上述事件伪相关的物质的峰能够作为随机噪声而被忽略的程度提供多种多样的参数的质谱数据来作为教师数据并进行学习。为此,需要准备庞大的数量的样本,但在癌等疾病的判别中,能够预先收集的数据的量有限,因此可以说上述方法并不现实。
另一方面,在上述非专利文献1中公开了一种防止由无用的维度引起的过度学习的其它方法。在该方法中,通过执行机器学习获得的判别函数或回归函数的系数小的维度视为有用性低,进行利用标准化项将这种维度的信息变为0的处理。一般在机器学习中进行以下尝试:以这种方式检查各输入维度各自是何种程度的有用,通过将与其有用性的程度相应的加权系数乘以输入来减轻无用的维度的影响。
然而,如果教师数据的个数某种程度上并不多的话,则这种方法也难以发挥十足的效果。这是由于,有时如果教师数据的样本数少则开始通过机器学习获得的判别函数或回归函数的精度不高,难以发现有用的维度。实际上,在将生物体试样作为样本这样的情况下存在以下问题:与样本中包含的物质的数量或该物质的构成比的多样性、即数据自身所具有的多样性相比,教师数据的样本数大多较少,但是在这样的情况下,未必能够提取出有用的维度,由于无用的维度的输入或者难以反映原本有用的维度,判别分析或者回归分析的性能不会提高。
专利文献1:国际公开第2014/105866号
非专利文献1:Robert Tibshirani,“Regression Shrinkage and Selection viathe Lasso”,Journal of the Royal Statistical Society.Series B(Methodological),Vol.58,No.1,1996年,pp.267-288
非专利文献2:Karen Simonyan,其他两位,“Deep Inside ConvolutionalNetworks:Visualising Image Classification Models and Saliency Maps”,康奈尔大学图书馆,[平成29年3月10日检索],因特网<URL:https://arxiv.org/pdf/1312.6034.pdf>
发明内容
发明要解决的问题
本发明是为了解决上述问题而完成的,其目的在于提供如下一种分析数据解析装置以及分析数据解析方法:即使在教师数据的样本数比较少的情况下,也能够削减作为过度学习的原因的不必要的维度而选择对判别分析或回归分析有用的维度来构建机器学习模型。
用于解决问题的方案
为了解决上述问题而完成的本发明所涉及的分析数据解析装置对由分析装置针对多个样本分别获取到的表示各不相同的多个维度的信号值的多维的分析数据进行解析,基于作为与多个样本有关的分析数据的教师数据来构建机器学习模型,利用该机器学习模型进行针对未知的样本的判别分析或者回归分析,该分析数据解析装置具备:
a)模型制作部,其针对所提供的教师数据执行机器学习来制作用于判别分析或者回归分析的机器学习模型;
b)有用程度计算部,其分别求出由所述模型制作部制作出的机器学习模型中的各维度的输入的有用程度,或者在已经存在有用程度的情况下,利用新求出的有用程度来更新有用程度;
c)输入无效化部,其根据由所述有用程度计算部计算出的各维度的有用程度,来随机地(確率的,stochastically)将一部分维度的输入无效化;
d)重复执行控制部,其控制所述模型制作部、所述有用程度计算部以及所述输入无效化部,使得如下的一系列处理重复一次以上,该一系列处理是所述模型制作部利用由所述输入无效化部将一部分维度的输入无效化后的教师数据来执行机器学习,并基于其结果更新各维度的输入的有用程度;以及
e)维度决定部,其基于由所述重复执行控制部将一系列处理重复进行一次以上之后的每个维度的有用程度,来对在针对未知的样本进行判别分析或者回归分析时使用的维度进行选择或加权。
另外,为了解决上述问题而完成的本发明所涉及的分析数据解析方法对由分析装置针对多个样本分别获取到的表示各不相同的多个维度的信号值的多维的分析数据进行解析,基于作为与多个样本有关的分析数据的教师数据来构建机器学习模型,利用该机器学习模型进行针对未知的样本的判别分析或者回归分析,该分析数据解析方法包括以下步骤:
a)模型制作步骤,针对所提供的教师数据执行机器学习来制作用于判别分析或者回归分析的机器学习模型;
b)有用程度计算步骤,分别求出在所述模型制作步骤中制作出的机器学习模型中的各维度的输入的有用程度,以及在已经存在有用程度的情况下,利用新求出的有用程度来更新有用程度;以及
c)输入无效化步骤,根据在所述有用程度计算步骤中计算出的各维度的有用程度来随机地将一部分维度的输入无效化,
其中,使如下的一系列处理重复一次以上,基于在进行了该重复后获得的每个维度的有用程度来对在针对未知的样本进行判别分析或者回归分析时使用的维度进行选择或者加权,该一系列处理是利用在所述输入无效化步骤中将一部分维度的输入无效化后的教师数据在所述模型制作步骤中再次执行机器学习,并基于其结果来更新各维度的输入的有用程度。
在本发明所涉及的分析数据解析装置以及分析数据解析方法中,机器学习包含进行所谓的有教师学习的多变量解析。另外,获得作为解析对象的数据的分析装置的种类没有特别的限制,但具体地说,例如能够设为由质谱分析装置得到的质谱数据、由GC或LC得到的色谱图数据、由分光测定装置得到的吸收光谱数据等。当然,能够将利用除此以外的各种分析方法收集到的数据设为对象。
在解析对象的数据是质谱数据的情况下,例如存在质谱峰的质荷比值各自是一个维度。另外,在解析对象的数据是色谱图数据的情况下,例如存在色谱峰的保持时间各自是一个维度。另外,在解析对象的数据是吸收光谱数据的情况下,例如存在吸收峰的波长各自是一个维度。
关于在本发明所涉及的分析数据解析装置以及分析数据解析方法中使用的机器学习的方法,只要是通过有教师学习进行判别分析或回归分析的方法,就不会被特别地限定,例如能够列举神经网络法、支持向量机法、随机森林法、深度学习法、线性判别法、非线性判别法、主成分分析法、独立成分分析法、偏最小二乘法等。优选根据作为解析对象的分析数据的种类、性质等来适当选择使用哪一种方法。
在本发明所涉及的分析数据解析装置中,当被提供教师数据时,模型制作部利用该教师数据执行机器学习,制作用于判别分析或者回归分析的机器学习模型。该机器学习模型例如是表示多维输入与输出的关系的判别分析或回归分析的函数。接着,有用程度计算部分别计算与制作出的机器学习模型相关地表示各维度的输入的有用程度的指标值。在本申请之前,本申请人在国际申请PCT/JP2006/072873号中提出了一种用于在机器学习中防止由无用的维度引起的过度学习的新方法,但作为上述“表示各维度的输入的有用程度的指标值”,例如能够利用在该在先申请中使用的贡献度。
即,在利用了神经网络法等的机器学习中的非线性函数的判别分析或回归分析中,虽然无法如线性判别分析那样求出相关系数,但根据非专利文献2的记载,能够利用偏微分计算与输出对应的输入的各维度的贡献度。此外,在非专利文献2中记载了在基于神经网络法的非线性判别分析或者回归分析中利用S形(sigmoid)函数,但并不限于S形函数,作为利用了神经网络法的学习法,一般是梯度法,因此能够计算用于判别分析或者回归分析的非线性函数的各数据点处的偏微分值(或者劣偏微分值)。另外,即使在利用了支持向量机法的机器学习中的判别分析或者回归分析中,只要输入和输出均取连续的值,就同样能够计算偏微分值,或者作为相当于偏微分的值而计算使输入微小地变化的情况下的差。只要能够计算各数据点处的偏微分值或者相当于该偏微分值的值,就能够根据该值计算贡献度。
输入无效化部根据如上述那样按每个输入维度计算出的例如贡献度,以被假定为该贡献度越低也就是有用性越低的输入维度会越高概率地被无效的方式随机地将一部分维度的输入无效化。在此,之所以随机地决定要无效的维度,是基于无法完全信赖贡献度的值自身、或者贡献度相对高的维度未必与判别分析或回归分析的性能提高有关联等理由。另外,输入的无效化是指将输入值置换为实质上对学习无影响的值,一般地,只要将一部分维度的输入值均变为0即可,但是也可以置换为该维度的所有输入值的平均值或随机数等。
之后,在重复执行控制部的控制下,模型制作部利用将一部分维度的输入无效化后的教师数据再次执行机器学习并求出机器学习模型。然后,有用程度计算部在分别计算出与新的机器学习模型相关地表示各维度的输入的有用程度的指标值之后,利用该新的指标值和已经得到的指标值计算例如加权平均等,由此更新指标值。在重复执行控制部的控制下,使这样的一系列处理重复进行一次以上。
如上所述,在输入无效化部中被无效化的输入的维度未必均为有用程度低的维度,而是有用程度低的可能性高的输入维度。因此,通过重复进行上述一系列处理,有用程度真正高的输入维度的表示有用程度的指标值变高,反之,有用程度真正低的输入维度的表示有用程度的指标值变低。即,表示有用程度的指标值的可靠性变高。因此,在重复进行上述一系列处理之后,维度决定部基于表示每个输入维度的有用程度的指标值来决定在针对未知的样本进行判别分析或者进行回归分析时使用的维度。此时,也可以选择所使用的输入维度并排除其它不需要的维度,但也可以使与所使用的维度的输入相乘的加权系数与不需要的维度相比高,由此实质上选择所使用的输入维度。此外,关于决定维度的基准,用户或者装置的制造商侧凭经验确定即可,例如考虑从贡献度等指标值高的顺序起选择排位靠前的规定个数的输入维度之类的基准。
在本发明所涉及的分析数据解析装置中,作为用于输入无效化部根据各维度的有用程度随机地将一部分维度的输入无效化的一个方法,优选设为以下结构:确定利用了表示各维度的有用程度的指标值的平均值和标准偏差的概率分布函数,按照基于该概率分布函数随机地决定的阈值来判定表示各维度的有用程度的指标值。在此,作为概率分布函数,能够利用各种分布函数,但典型地设为高斯分布函数即可。
哪种概率分布函数适当是取决于作为解析对象的分析数据的性质或个数(维数)等,因此期望预先根据应用本装置的对象的数据等来确定适当的概率分布函数。
此外,在本发明所涉及的分析数据解析装置以及分析数据解析方法中,求出输入维度的有用程度的方法未被特别地限定,因此不仅能够与在上述国际申请PCT/JP2006/072873号中由本申请人提出的方法相组合,还能够与非专利文献1中记载的输入维度的有用程度提取技术相组合,这是显而易见的,即使在该情况下也能够以更高的可靠性求出输入维度的有用程度。
发明的效果
根据本发明所涉及的分析数据解析装置以及分析数据解析方法,即使在教师数据的样本数比较少的情况下,也能够高可靠性地选择对判别分析或回归分析而言有用性高的输入维度。由此,能够可靠地削减作为过度学习的原因的不需要的输入维度来构建判别分析或回归分析的性能高的机器学习模型。
附图说明
图1是本实施例的疾病判别装置的概要框结构图。
图2是表示全连接神经网络法的一例的示意图。
图3是本实施例的疾病判别装置的有用维度选择处理的流程图。
图4是表示在本实施例的疾病判别装置中获得的贡献度分布以及根据该贡献度分布求出的阈值决定用的随机数分布的一例的示意图。
图5是表示利用了本发明的方法的情况下的各输入维度的有用程度的计算结果例的图。
图6是表示利用了本发明的方法的情况下的每个学习时期的学习时和评价时的正确响应率的一例的图。
图7是表示以往方法的各输入维度的有用程度的计算结果例的图。
图8是表示以往方法的每个学习时期的学习时和评价时的正确响应率的一例的图。
图9是表示将与癌检体和非癌检体有关的质谱数据整理为教师数据所得到的峰矩阵的一例的图。
附图标记说明
1:数据解析部;10:有用维度选择处理部;11:数据读入部;12:机器学习执行部;13:有用程度计算部;14:输入维度无效化部;15:有用程度更新部;16:重复处理控制部;17:有用维度决定部;18:机器学习模型制作部;19:未知数据判别部;2:操作部;3:显示部。
具体实施方式
以下,参照所附附图对利用了本发明所涉及的分析数据解析装置的疾病判别装置的一个实施例进行说明。
图1是本实施例的疾病判别装置的概要框结构图。
该疾病判别装置是如下一种装置:当被输入通过利用未图示的质谱分析装置对源自被检者的生物体试样进行质谱分析所得到的质谱数据来作为未知样本数据时,判别是否罹患了特定疾病(在此指是癌还是非癌)。该疾病判别装置具备数据解析部1、作为用户接口的操作部2以及显示部3。
数据解析部1包括有用维度选择处理部10、机器学习模型制作部18以及未知数据判别部19来作为功能模块。另外,有用维度选择处理部10包括数据读入部11、机器学习执行部12、有用程度计算部13、输入维度无效化部14、有用程度更新部15、重复处理控制部16以及有用维度决定部17来作为功能模块。
数据解析部1中包括的各功能模块也能够由硬件构成,但在实际应用上优选设为以下结构:将个人计算机或更高性能的工作站等作为硬件资源,通过在该计算机上执行被安装于该计算机的专用的软件(计算机程序)来具体实现上述各功能模块。
在本实施例的疾病判别装置中,对数据解析部1预先提供源自例如图9所示那样的附带有癌或者非癌的标签(也就是已知的)的多个样本的质谱数据(表示每个存在峰的质荷比的峰信号强度的数据),来作为教师数据。该质谱数据的各质荷比是各不相同的输入维度。即,如果峰的个数是1000,则输入的维数是1000。另外,各输入维度的输入值(信号值)是峰的强度值。
有用维度选择处理部10通过后述的特征性的处理来选择对疾病的判别有用的维度。机器学习模型制作部18仅利用在所提供的教师数据中被选择为有用的维度的数据来构建机器学习模型。未知数据判别部19利用由机器学习模型制作部18构建出的机器学习模型来判定源自未知样本的质谱数据,并对该未知样本附加是癌还是非癌的标签。从显示部3输出这样的判别结果。
接着,按照图3所示的流程图对在有用维度选择处理部10中实施的有用维度选择处理进行说明。此外,在此,作为机器学习的方法,利用之前列举的国际申请PCT/JP2006/072873号中提出的方法,但能够利用的方法并不限于此,例如也可以是非专利文献1中记载的方法。
在所有教师数据由相同的质谱分析装置得到的情况下没什么问题,但在将由不同的质谱分析装置得到的质谱数据用作教师数据的情况下,每个质谱分析装置的检测灵敏度经常不同。因此,在数据读入部11读入作为教师数据而被提供的质谱数据时,例如将数据进行标准化以使不同的质谱数据中的每个输入维度的信号值的标准偏差固定(步骤S1)。在标准化中能够利用各种公知的方法。例如,进行将构成质谱数据的任意的质荷比的信号值除以其标准偏差的处理即可。以下,将该标准化后的教师数据简称为教师数据。
接着,机器学习执行部12利用所提供的教师数据实施基于遵循规定算法的非线性的判别分析或回归分析的机器学习来构建机器学习模型(步骤S2)。作为具体的机器学习的方法,例如优选利用神经网络法、支持向量机法等,但并不限于这些方法。在是进行非线性的判别分析或回归分析的算法的情况下,所获得的机器学习模型是反映了教师数据的判别分析或回归分析的函数。
接着,有用程度计算部13为了计算表示各输入维度的有用程度的指标值,按每个输入维度计算在步骤S2中求出的用于判别分析或回归分析的非线性函数的偏微分值(步骤S3)。关于该偏微分的方法,例如利用非专利文献2中记载的方法即可。在该方法中,将对softmax函数输入的值视为输出值来进行微分。
之后,利用在步骤S3中按每个输入维度计算出的偏微分值来计算各输入维度的贡献度(步骤S4)。在质谱上调查用于如本实施例那样判别是否罹患了某种特定疾病的生物标记时,特定的输入维度(也就是质荷比值)的信号强度值相对于适当值偏离何种程度是重要的因素。即,重要的是发现到:特定的输入维度的信号强度值偏离适当值的程度越大,则罹患了某种特定疾病的可能性越高。在这种情况下,在正负双方出现偏微分值,因此基于偏微分值的二维范数计算贡献度即可。
接着,输入维度无效化部14对在步骤S4中按每个输入维度求出的贡献度的分布的平均值μ和标准偏差σ进行计算。然后,基于利用了该平均值μ和标准偏差σ的随机数分布按每个维度随机地求出将各维度无效化的阈值。在此,在贡献度示出如在图4中用实线所示那样的分布的情况下,将以如在图4中用点划线所示那样的从该贡献度的平均值μ减去0.5σ所得到的值为中心而在两侧具有2σ的标准偏差的高斯分布函数确定为随机数分布。然后,将每个输入维度的贡献度与基于像这样决定的高斯分布函数的阈值相比较,如果贡献度为阈值以下,则视为该输入维度无效,将与输入相乘的加权系数设为0。但是,该输入的无效化是暂时的。当然,在此置换为在执行机器学习时实质上无意义的数据即可,因此也可以取代将加权系数设为0,而将该维度的所有输入信号置换为该输入信号的平均值、随机数或者除0值以外的固定值等。
此外,期望根据设想的峰的个数(也就是维数)等来适当调整用于确定用于决定贡献度的阈值的上述高斯分布函数的参数、即该分布函数的中心值或标准偏差(方差)。另外,也可以使用高斯分布函数以外的适当的分布函数。
在步骤S5中将一部分输入维度无效化之后,在重复处理控制部16的控制下,机器学习执行部12利用将一部分输入维度无效化后(如上述那样乘以决定的加权系数后)的教师数据再次实施机器学习来构建机器学习模型(步骤S6)。除输入数据不同以外,该步骤S6的处理与步骤S2的处理相同。然后,与步骤S3同样地,有用程度计算部13按每个输入维度计算在步骤S6中求出的用于判别分析或回归分析的非线性函数的偏微分值(步骤S7)。
接着,有用程度更新部15与步骤S4同样地基于在步骤S7中求出的偏微分值按每个输入维度求出贡献度,并且基于新求出的贡献度和在上次处理中已经获得的贡献度来更新贡献度(步骤S8)。例如,也可以对新旧的贡献度分别乘以适当的加权系数来计算平均(加权平均),但在此针对新旧的贡献度分别求出与加权系数相应的对数,并计算这些值的平均。
如果这样更新了表示各输入维度的有用程度的贡献度,则重复处理控制部16判定处理的重复次数是否达到规定次数(步骤S9)。而且,如果没有达到规定次数,则返回到步骤S5,重复进行步骤S5~S9的处理。通常,该规定次数是相当大的值,每当重复进行步骤S5~S9的处理时,各输入维度的贡献度被更新,此时,贡献度的可靠性提高。而且,当在步骤S9中判定为“是”时,有用维度决定部17基于最终的贡献度来选择被推断为有用的输入维度(步骤S10)。
具体地说,例如按在最后实施的步骤S8中被更新的贡献度的从大到小的顺序选择规定数量的输入维度。或者,也可以在贡献度为预先决定的下限值以上的范围内选择规定数量的输入维度。或者,也能够通过使与贡献度相应地决定的加权系数变为极接近0的值来从实质上排除被乘以该加权系数的输入维度。
此外,一般地,在机器学习中,当利用所提供的所有教师数据实施重复的机器学习时,计算时间变得相当长,因此经常采用一边按预先决定的小批量学习单位划分教师数据一边重复进行机器学习的方法。在这样的情况下,优选按小批量学习单位决定无效的输入维度。
接着,对为了评价上述的有用维度选择处理的方法的效果而将该方法应用于仿真数据的例子进行说明。
在此,假设将1000维(也就是峰数为1000个)的正态分布的随机数(正态随机数)的数据设为教师数据X,以在用下面的式(1)提供的Y为负时判别为真、在为非负时判别为假的方式来解决判别问题。此外,将学习模型构建所需的教师数据的个数设为9万个,除此以外,作为用于评价学习模型的评价数据,准备了1万个数据。
Y=(X[10]+0.5)·(X[20]-0.4)·(X[30]-0.3)·(X[40]+0.2)·(X[50]-0.1)·X[60]…(1)
另外,在此,将以每1000个为单位划分9万个教师数据所得到的数据设为小批量学习单位,通过重复进行90次小批量学习单位的一系列处理来进行了9万个教师数据全部的处理。然后,将该周期设为1个学习时期,总共重复实施了400个时期左右的处理。
另外,在该仿真中,利用了图3示出的全连接神经网络法作为机器学习的方法,利用了elu函数作为其激活函数,利用了softmax函数作为判别函数。而且,利用包括上述有用维度选择处理的本发明所涉及的方法(方法A)和非专利文献1中记载的方法(方法B)来分别解决上述判别问题,并求出各输入维度的贡献度和每个学习时期的正确响应率。
图5是表示在利用了方法A的情况下获得的各输入维度的贡献度的图,图6是表示在利用了方法A的情况下获得的每个学习时期的正确响应率的图。图7是表示在利用了方法B的情况下获得的各输入维度的贡献度的图,图8是表示在利用了方法B的情况下获得的每个学习时期的正确响应率的图。
在式(1)中利用的特征维度是6,根据图5获知,在6个维度处成为高贡献度。即,可以说在方法A中准确地提取了特征维度。与此相对地,获知在图7中仅在三个维度处清楚地提取了特征维度,特征维度的一部分没有被适当地提取。另外,如果将图6与图8进行比较获知,方法A与方法B相比,评价时的正确响应率相当高。另外,在方法A中,学习时的正确响应率与评价时的正确响应率的差变小。意味着该差越小则过度学习越少,根据该结果,能够确认的是:在方法A中避免了过度学习,结果机器学习模型的判别性能提高。
此外,在该例的情况下,为了获得足够的判别性能,期望重复实施200个时期左右以上的处理。
此外,在上述实施例中,作为机器学习的方法利用了神经网络法,但显然也可以利用支持向量机法、随机森林法、非线性判别法等除此以外的各种方法。关于利用哪一种方法恰当,根据作为解析对象的分析数据的性质等的不同而不同,因此也可以预先准备多个机器学习方法以使用户能够任意地选择。另外,关于机器学习中的判别分析或回归分析,通常已知能够组合多个相同种类的分析,或者组合不同种类的分析,因此当然也可以利用这样的组合。
另外,上述实施例的疾病判别装置中的数据解析部在对由质谱分析装置得到的质谱数据的解析中使用了本发明,但显然也能够在利用机器学习对除此以外的各种分析数据进行某些判别分析或回归分析的所有装置中应用本发明。例如,显然能够在对由LC装置或GC装置得到的色谱图数据、由分光测定装置得到的吸收光谱数据、由荧光X射线分析装置得到的X射线谱数据等进行解析的所有装置中应用本发明。
另外,上述实施例并不限于本发明的一例,在上述记载以外的方面,在本发明的宗旨的范围内即使进行适当变形、修改、追加等当然也包含在本申请权利要求书中。

Claims (7)

1.一种分析数据解析装置,对由分析装置针对多个样本分别获取到的表示各不相同的多个维度的信号值的多维的分析数据进行解析,基于作为与多个样本有关的分析数据的教师数据来构建机器学习模型,利用该机器学习模型进行针对未知的样本的判别分析或者回归分析,其中,所述分析数据是质谱数据、色谱图数据或者吸收光谱数据,在所述分析数据是所述质谱数据的情况下,所述多个维度是多个存在质谱峰的质荷比值;在所述分析数据是所述色谱图数据的情况下,所述多个维度是多个存在色谱峰的保持时间;在所述分析数据是所述吸收光谱数据的情况下,所述多个维度是存在吸收峰的波长;各维度的输入是各维度的信号强度值;该分析数据解析装置的特征在于,具备:
a)模型制作部,其针对所提供的教师数据执行机器学习来制作用于判别分析或者回归分析的机器学习模型;
b)有用程度计算部,其基于特定的维度的信号强度值来分别求出由所述模型制作部制作出的机器学习模型中的各维度的输入的有用程度,或者在已经存在有用程度的情况下,利用新求出的有用程度来更新有用程度;
c)输入无效化部,其根据由所述有用程度计算部计算出的各维度的有用程度,来随机地将一部分维度的输入无效化;
d)重复执行控制部,其控制所述模型制作部、所述有用程度计算部以及所述输入无效化部,使得如下的一系列处理重复一次以上,该一系列处理是所述模型制作部利用由所述输入无效化部将一部分维度的输入无效化后的教师数据来执行机器学习,并基于其结果更新各维度的输入的有用程度;以及
e)维度决定部,其基于由所述重复执行控制部将一系列处理重复进行一次以上之后的每个维度的有用程度,来对在针对未知的样本进行判别分析或者回归分析时使用的维度进行选择或加权。
2.根据权利要求1所述的分析数据解析装置,其特征在于,
所述输入无效化部确定利用了表示各维度的有用程度的指标值的平均值和标准偏差的概率分布函数,按照基于该概率分布函数随机地决定的阈值来判定表示各维度的有用程度的指标值,由此将一部分维度的输入无效化。
3.根据权利要求2所述的分析数据解析装置,其特征在于,
所述概率分布函数是高斯分布函数。
4.根据权利要求1所述的分析数据解析装置,其特征在于,
所述输入无效化部通过将一部分维度的输入实质上变为0来将这一部分维度的输入无效化。
5.根据权利要求2所述的分析数据解析装置,其特征在于,
所述输入无效化部通过将一部分维度的输入实质上变为0来将这一部分维度的输入无效化。
6.根据权利要求1所述的分析数据解析装置,其特征在于,
所述有用程度计算部基于与作为所述机器学习模型而计算出的用于判别分析或者回归分析的非线性函数有关的每个维度的偏微分值来计算表示各维度的有用程度的贡献度。
7.一种分析数据解析方法,对由分析装置针对多个样本分别获取到的表示各不相同的多个维度的信号值的多维的分析数据进行解析,基于作为与多个样本有关的分析数据的教师数据来构建机器学习模型,利用该机器学习模型进行针对未知的样本的判别分析或者回归分析,其中,所述分析数据是质谱数据、色谱图数据或者吸收光谱数据,在所述分析数据是所述质谱数据的情况下,所述多个维度是多个存在质谱峰的质荷比值;在所述分析数据是所述色谱图数据的情况下,所述多个维度是多个存在色谱峰的保持时间;在所述分析数据是所述吸收光谱数据的情况下,所述多个维度是存在吸收峰的波长;各维度的输入是各维度的信号强度值;该分析数据解析方法的特征在于,包括以下步骤:
a)模型制作步骤,针对所提供的教师数据执行机器学习来制作用于判别分析或者回归分析的机器学习模型;
b)有用程度计算步骤,基于特定的维度的信号强度值来分别求出在所述模型制作步骤中制作出的机器学习模型中的各维度的输入的有用程度,以及在已经存在有用程度的情况下,利用新求出的有用程度来更新有用程度;以及
c)输入无效化步骤,根据在所述有用程度计算步骤中计算出的各维度的有用程度来随机地将一部分维度的输入无效化,
其中,使如下的一系列处理重复一次以上,基于在进行了该重复后获得的每个维度的有用程度来对在针对未知的样本进行判别分析或者回归分析时使用的维度进行选择或者加权,该一系列处理是利用在所述输入无效化步骤中将一部分维度的输入无效化后的教师数据在所述模型制作步骤中再次执行机器学习,并基于其结果来更新各维度的输入的有用程度。
CN201810215795.6A 2017-03-15 2018-03-15 分析数据解析装置以及分析数据解析方法 Active CN108629365B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017049391A JP6729455B2 (ja) 2017-03-15 2017-03-15 分析データ解析装置及び分析データ解析方法
JP2017-049391 2017-03-15

Publications (2)

Publication Number Publication Date
CN108629365A CN108629365A (zh) 2018-10-09
CN108629365B true CN108629365B (zh) 2022-06-03

Family

ID=63519481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810215795.6A Active CN108629365B (zh) 2017-03-15 2018-03-15 分析数据解析装置以及分析数据解析方法

Country Status (3)

Country Link
US (1) US11341404B2 (zh)
JP (1) JP6729455B2 (zh)
CN (1) CN108629365B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11200495B2 (en) * 2017-09-08 2021-12-14 Vivante Corporation Pruning and retraining method for a convolution neural network
JP7021052B2 (ja) 2018-11-06 2022-02-16 株式会社東芝 製品状態推定装置
JP2020101524A (ja) * 2018-11-19 2020-07-02 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
US11544411B2 (en) * 2019-01-17 2023-01-03 Koninklijke Philips N.V. Machine learning model validation and authentication
JP7269027B2 (ja) * 2019-02-21 2023-05-08 キヤノンメディカルシステムズ株式会社 医用情報処理装置、医用情報処理システム、および医用情報処理方法
CN109946424A (zh) * 2019-03-08 2019-06-28 杭州麦乐克科技股份有限公司 基于人工蜂群和神经网络的气体标定分类方法及系统
CN113614809B (zh) * 2019-03-27 2023-03-14 三菱电机株式会社 车辆控制用运算装置、车辆控制装置及车辆控制用运算方法
JP7106486B2 (ja) 2019-04-22 2022-07-26 株式会社東芝 学習装置、学習方法、プログラムおよび情報処理システム
US11841373B2 (en) 2019-06-28 2023-12-12 Canon Kabushiki Kaisha Information processing apparatus, method for controlling information processing apparatus, and program
JP7268530B2 (ja) * 2019-08-08 2023-05-08 株式会社島津製作所 質量分析データ処理方法、質量分析データ処理システム、及び質量分析データ処理プログラム
US11399312B2 (en) * 2019-08-13 2022-07-26 International Business Machines Corporation Storage and retention intelligence in mobile networks
WO2021085581A1 (ja) * 2019-11-01 2021-05-06 キヤノン株式会社 情報処理装置、及び情報処理装置の制御方法
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
US11816127B2 (en) 2021-02-26 2023-11-14 International Business Machines Corporation Quality assessment of extracted features from high-dimensional machine learning datasets
JP7310848B2 (ja) * 2021-03-29 2023-07-19 横河電機株式会社 解析装置、解析方法および解析プログラム
US11990327B2 (en) 2022-02-18 2024-05-21 Shimadzu Corporation Method, system and program for processing mass spectrometry data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801546A (zh) * 2011-05-26 2012-11-28 北京天亿电联科技有限公司 网络数据安全管理方法和设备
CN105574105A (zh) * 2015-12-14 2016-05-11 北京锐安科技有限公司 一种文本分类模型的确定方法
CN105659081A (zh) * 2013-10-16 2016-06-08 株式会社岛津制作所 色谱数据处理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020184569A1 (en) * 2001-04-25 2002-12-05 O'neill Michael System and method for using neural nets for analyzing micro-arrays
JP4742193B2 (ja) * 2009-04-28 2011-08-10 Necソフト株式会社 年齢推定装置、年齢推定方法及びプログラム
JP2011083393A (ja) * 2009-10-14 2011-04-28 Osaka Bioscience Institute 睡眠ステージ自動判定の装置と方法およびそのためのコンピュータプログラム
US9406017B2 (en) * 2012-12-24 2016-08-02 Google Inc. System and method for addressing overfitting in a neural network
US10515312B1 (en) * 2015-12-30 2019-12-24 Amazon Technologies, Inc. Neural network model compaction using selective unit removal
CN109564199A (zh) 2016-08-03 2019-04-02 株式会社岛津制作所 分析数据处理方法和分析数据处理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102801546A (zh) * 2011-05-26 2012-11-28 北京天亿电联科技有限公司 网络数据安全管理方法和设备
CN105659081A (zh) * 2013-10-16 2016-06-08 株式会社岛津制作所 色谱数据处理装置
CN105574105A (zh) * 2015-12-14 2016-05-11 北京锐安科技有限公司 一种文本分类模型的确定方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
某些肿瘤蛋白组质谱数据的分析模型及其应用;马婷婷;《中国优秀硕士学位论文全文数据库》;20151031;E072-6 *

Also Published As

Publication number Publication date
JP6729455B2 (ja) 2020-07-22
US11341404B2 (en) 2022-05-24
JP2018152000A (ja) 2018-09-27
CN108629365A (zh) 2018-10-09
US20180268293A1 (en) 2018-09-20

Similar Documents

Publication Publication Date Title
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
Feilhauer et al. Multi-method ensemble selection of spectral bands related to leaf biochemistry
JP6729457B2 (ja) データ解析装置
Ahmed et al. Enhanced feature selection for biomarker discovery in LC-MS data using GP
EP3495812A1 (en) Analysis data processing method and analysis data processing device
Ebbels et al. Processing and modeling of nuclear magnetic resonance (NMR) metabolic profiles
JP2022525427A (ja) 質量分析法データにおける境界の自動検出
US11550823B2 (en) Preprocessing for a classification algorithm
Debastiani et al. Evolutionary models and phylogenetic signal assessment via Mantel test
US20210350283A1 (en) Data analyzer
Palmer et al. Randomized approximation methods for the efficient compression and analysis of hyperspectral data
Halgamuge et al. Lessons learned from the application of machine learning to studies on plant response to radio-frequency
CN108827909B (zh) 基于可见近红外光谱与多目标融合的土壤快速分类方法
CN113567605A (zh) 质量色谱图的自动化解释模型构建方法、装置和电子设备
Kuligowski et al. Application of discriminant analysis and cross-validation on proteomics data
TW201321739A (zh) 訊號分析裝置、訊號分析方法及電腦程式產品
CN114184599B (zh) 单细胞拉曼光谱采集数目估计方法、数据处理方法及装置
EP2834624B1 (en) A method for measuring performance of a spectroscopy system
CN115171790A (zh) 质谱的数据序列在质量评估中的分析方法、装置和存储介质
Kim et al. An ensemble regularization method for feature selection in mass spectral fingerprints
Henderson et al. Feature-based time-series analysis in R using the theft package
Grissa et al. A hybrid data mining approach for the identification of biomarkers in metabolomic data
Grissa et al. A hybrid knowledge discovery approach for mining predictive biomarkers in metabolomic data
Ebbels et al. Statistical methods in metabolomics
Feng et al. Statistical considerations in combining biomarkers for disease classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant