CN115407008A - 分析方法和诊断辅助方法 - Google Patents

分析方法和诊断辅助方法 Download PDF

Info

Publication number
CN115407008A
CN115407008A CN202210555103.9A CN202210555103A CN115407008A CN 115407008 A CN115407008 A CN 115407008A CN 202210555103 A CN202210555103 A CN 202210555103A CN 115407008 A CN115407008 A CN 115407008A
Authority
CN
China
Prior art keywords
peak
measurement data
sample
estimated
bayesian
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210555103.9A
Other languages
English (en)
Other versions
CN115407008B (zh
Inventor
藤田雄一郎
野田阳
玉井雄介
山田贤志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of CN115407008A publication Critical patent/CN115407008A/zh
Application granted granted Critical
Publication of CN115407008B publication Critical patent/CN115407008B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/17Systems in which incident light is modified in accordance with the properties of the material investigated
    • G01N21/25Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands
    • G01N21/27Colour; Spectral properties, i.e. comparison of effect of material on the light at two or more different wavelengths or wavelength bands using photo-electric detection ; circuits for computing concentration
    • G01N21/274Calibration, base line adjustment, drift correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01JMEASUREMENT OF INTENSITY, VELOCITY, SPECTRAL CONTENT, POLARISATION, PHASE OR PULSE CHARACTERISTICS OF INFRARED, VISIBLE OR ULTRAVIOLET LIGHT; COLORIMETRY; RADIATION PYROMETRY
    • G01J3/00Spectrometry; Spectrophotometry; Monochromators; Measuring colours
    • G01J3/28Investigating the spectrum
    • G01J3/443Emission spectrometry
    • G01J2003/4435Measuring ratio of two lines, e.g. internal standard
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2201/00Features of devices classified in G01N21/00
    • G01N2201/12Circuits of general importance; Signal processing
    • G01N2201/127Calibration; base line adjustment; drift compensation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明涉及分析方法和诊断辅助方法。用于对试样进行分析的分析方法包括:第一工序,获取对基于试样的第一信号附加了基于噪声的第二信号所得到的测定数据,来作为试样的分析结果;第二工序,假定第一信号所遵循的形状和第二信号所遵循的形状,通过贝叶斯推断来对测定数据进行模型化;以及第三工序,基于模型化后的测定数据来估计试样的特性的概率分布。

Description

分析方法和诊断辅助方法
技术领域
本发明涉及一种分析方法和诊断辅助方法。
背景技术
在色谱仪、质谱分析装置等分析装置中,得到与作为分析对象的试样有关的测定数据。由计算机对测定数据进行解析,来进行色谱图的获取、峰的检测等。另外,在对测定数据进行解析时,对测定数据进行回归分析等。在国际公开第2018/087824中,利用了使用最小二乘法的分析方法。
发明内容
在对测定数据进行分析时,测定数据的偏差会对分析结果产生影响。因此,在进行高度依赖于测定数据的分析的情况下,有时分析结果的可靠性低。
本发明的目的在于提供一种能够得到高可靠性的分析结果的分析方法。
根据本发明的一个方面的分析方法是对试样进行分析的方法,包括:第一工序,获取对基于试样的第一信号附加了基于噪声的第二信号所得到的测定数据,来作为试样的分析结果;第二工序,假定第一信号所遵循的形状和第二信号所遵循的形状,通过贝叶斯推断来对测定数据进行模型化;以及第三工序,基于模型化后的测定数据来估计试样的特性的概率分布。
附图说明
图1是执行本实施方式所涉及的分析方法的计算机的结构图;
图2是执行本实施方式所涉及的分析方法的计算机的功能框图;
图3是表示模拟数据的参数的图;
图4是表示模拟数据的信噪比的图;
图5是表示模拟数据的波形外观的图;
图6是表示比较例的模拟数据的峰检测结果的图;
图7是表示第一实施方式所涉及的分析方法的流程图;
图8是表示通过第一实施方式所涉及的分析方法估计出的峰位置的后验分布的图;
图9是表示通过第一实施方式所涉及的分析方法估计出的峰高度的后验分布的图;
图10是表示第二实施方式所涉及的分析方法的流程图;
图11是表示通过第二实施方式所涉及的分析方法估计出的校准曲线的置信区间的图;
图12是表示通过比较例估计出的校准曲线的置信区间的图。
具体实施方式
接着,参照附图对本发明的实施方式所涉及的分析方法和诊断辅助方法进行说明。
(1)计算机的结构
图1是实施方式所涉及的计算机1的结构图。计算机1例如是个人计算机。本实施方式的计算机1获取在液相色谱仪、气相色谱仪或质谱分析装置等中得到的试样的测定数据MD。而且,计算机1是根据试样的测定数据MD来估计试样的特性的概率分布的装置。
如图1所示,计算机1具备CPU(Central Processing Unit:中央处理单元)11、RAM(Random Access Memory:随机存取存储器)12、ROM(Read Only Memory:只读存储器)13、操作部14、显示器15、存储装置16、通信接口(I/F)17以及设备接口(I/F)18。
CPU11进行计算机1的整体控制。RAM12在CPU11执行程序时作为工作区使用。ROM13中存储控制程序等。操作部14接受用户的输入操作。操作部14包括键盘和鼠标等。显示器15显示分析结果等信息。存储装置16是硬盘等存储介质。在存储装置16中存储程序P1和测定数据MD。
程序P1使用贝叶斯推断对测定数据MD进行模型化。另外,程序P1基于模型化后的测定数据MD来估计试样的特性的概率分布。测定数据MD包括基于试样的第一信号以及被附加于第一信号的基于噪声的第二信号。
通信接口17是与其它计算机之间通过有线或无线进行通信的接口。设备接口18是访问CD、DVD、半导体存储器等存储介质19的接口。
(2)计算机的功能结构
图2是表示计算机1的功能结构的框图。在图2中,控制部20是通过CPU11使用RAM12作为工作区并执行程序P1而实现的功能部。控制部20具备获取部21、模型化部22、估计部23以及输出部24。也就是说,获取部21、模型化部22、估计部23以及输出部24是通过程序P1的执行而实现的功能部。换言之,各功能部21~24可以说是CPU11所具备的功能部。
获取部21输入测定数据MD。获取部21例如经由通信接口17从其它计算机、分析装置等输入测定数据MD。或者,获取部21经由设备接口18输入存储介质19中保存的测定数据MD。测定数据MD是在液相色谱仪、气相色谱仪或质谱分析装置等中随时间获取到的试样的分析数据。在测定数据MD是在色谱仪中得到的分析数据的情况下,测定数据MD是具有时间、波长以及吸光度(信号强度)这三个维度的三维色谱图。在测定数据MD是在质谱分析装置中得到的分析数据的情况下,测定数据MD是具有时间、质荷比以及离子强度(信号强度)这三个维度的质谱分析数据。获取部21将输入的测定数据MD保存于存储装置16中。获取部21获取与多个不同浓度的试样对应的多个测定数据MD。
模型化部22假定第一信号所遵循的形状和第二信号所遵循的形状,通过贝叶斯推断来对测定数据MD进行模型化。估计部23基于模型化后的测定数据MD来估计试样的特性的概率分布。输出部24将由估计部23估计出的试样的特性的概率分布输出到显示器15。在此,根据测定数据MD估计的与峰位置有关的统计量、与峰定量值有关的统计量、或校准曲线是试样的特性的例子。另外,通过贝叶斯推断得到的峰位置的频数、峰定量值的频数是与峰位置有关的统计量、与峰定量值有关的统计量的例子。
以程序P1保存于存储装置16的情况为例进行说明。作为其它实施方式,程序P1可以保存于存储介质19来进行提供。CPU11可以经由设备接口18访问存储介质19,并将存储介质19中保存的程序P1保存于存储装置16或ROM13。或者,CPU11可以经由设备接口18访问存储介质19,并执行存储介质19中保存的程序P1。
(3)模拟数据
在本实施方式中,作为测定数据MD,利用图3和图4所示的模拟数据。在后文所说明的第一实施方式和第二实施方式中共同使用该模拟数据。图3是表示模拟数据的参数的图。在此,作为一例,利用不同的六种浓度C1~C6的模拟数据。图3所示的参数是在浓度C1~C6的模拟数据中共同的参数。
图3所示的μ是高斯峰的平均值(峰位置),σ是高斯峰的标准偏差。图3所示的σ’是高斯噪声的标准偏差。像这样,模拟数据成为对高斯峰附加了高斯噪声后所得的形状。高斯峰的参数μ、σ以及高斯噪声的参数σ’在浓度C1~C6中是共同的。该例的模拟数据设想为在质谱分析装置中得到的测定数据MD。如图3所示,模拟数据是针对-8≤m/z≤7.95的范围制作出的数据。另外,bin宽度为0.05,m/z方向的数据点数为320点。
图4是表示模拟数据的信噪比(SN比)的图。如图4所示,浓度C1、C2、C3、C4、C5、C6的模拟数据的SN比分别为6、5、4、3、2、1。例如,关于浓度C1,信号:噪声=6:1。也就是说,关于SN比的高低,具有浓度C1>C2>C3>C4>C5>C6的关系。另外,如图4所示,在模拟数据中,对各浓度C1~C6的试样考虑了RSD(Relative standard deviation:相对标准误差)0.5%的称量误差。考虑了称量误差的SN比为图中所示的“实际的SN比”。浓度C1~C6的SN比由(高斯峰高度(峰强度))/(高斯噪声的标准偏差σ’)表示。
图5是表示浓度C1~C6的模拟数据的波形外观的图。如图3所示,模拟数据的高斯峰的平均值μ为0,因此,在图5中,浓度C1~C6中的任一者的波形均在m/z=0附近形成峰。在SN比大的浓度C1、C2等中,峰形状明显,但在SN比小的浓度C5、C6等中,峰形状被噪声掩埋而难以分辨。
(4)峰检测的比较例
在对基于贝叶斯推断来对测定数据MD进行模型化的本实施方式的分析方法进行说明之前,作为比较例,对未基于贝叶斯推断的测定数据MD的分析方法进行说明。在此,作为比较例,例示利用MATLAB软件(MathWorks公司制)的分析方法。具体地说,利用MATLAB中包括的mspeaks函数和mslowess函数。
图6表示对图3~图5所示的模拟数据(测定数据MD)应用mspeaks函数所估计出的峰检测结果。在图6中,白色的线是估计出的信号。具体地说,为了得到图6所示的检测结果,使用Matlab ver.2014a、Matlabbioinfoaticis Toolbox ver.2014a。首先用mslowess函数进行平滑处理。平滑核(Kernal)设为高斯(gaussian),窗口(window)宽度(Span)设为0.08,其它参数为默认设定。之后,使用默认设定的mspeaks函数进行峰检测。用白色线表示基于mslowess函数的平滑曲线。虽然省略了图示,但通过mspeaks函数将白色线的曲线的峰部分检测为模拟数据的峰位置。
如图6所示,在比较例的方法中,可以预想在SN比高的浓度C1、C2等中,峰形状被清晰地检测出,模拟数据的峰检测的可靠性高。与此相对地,可知在SN比低的浓度C5、C6等中,针对模拟数据的峰检测的可靠性低。在比较例中,峰位置是以点的方式被估计的。因此,特别是对于低SN比的信号,检测位置的可靠性可以说是不清楚的,难以判断是否准确地检测出峰的位置。关于这一点,峰定量值也是同样的。
(5)第一实施方式
接着,对第一实施方式所涉及的分析方法进行说明。第一实施方式的分析方法是使用贝叶斯推断的峰的检测方法。图7是表示第一实施方式所涉及的分析方法的流程图。图7所示的处理是由控制部20所具备的功能部21~24(参照图2)执行的处理。也就是说,图7所示的处理是通过CPU11执行程序P1来实现的处理。
在步骤S11中,获取部21获取对基于试样的第一信号附加了基于噪声的第二信号所得到的测定数据MD。步骤S11是本发明的第一工序的例子。获取部21例如从其它计算机、分析装置获取测定数据MD。获取部21将测定数据MD保存于存储装置16。
模型化部22读出存储装置16中保存的测定数据MD。接着,在步骤S12中,模型化部22假定第一信号所遵循的形状和第二信号所遵循的形状,通过贝叶斯推断来对测定数据MD进行模型化。步骤S12是本发明的第二工序的例子。例如,模型化部22使用如数1式所示的函数对测定数据MD进行模型化。
[数1]
y[n]~Normal(a×Normal(μp,σp),σn)n=1,...,N
在数1式中,Normal(x,y)表示平均值x、标准偏差y的标准正态分布。y[n]表示测定数据MD的各数据点(n)的峰强度,N表示数据点数。该贝叶斯模型是对具有在整体上将平均值μp、标准偏差σp的标准正态分布乘以a倍后的形状的峰附加了标准偏差σn的标准正态分布的噪声所得到的模型。像这样,数1式是与图3~图6所示的模拟数据对应的贝叶斯模型。
接着,在步骤S13中,估计部23估计与源自在测定数据MD中所关注的物质的峰有关的统计量的概率分布。步骤S13是本发明的第三工序的例子。也就是说,估计部23使用被在模型化部22中模型化后的测定数据MD,来得到与峰有关的统计量的概率分布。图8是示出由估计部23估计出的峰位置的概率分布(后验分布)的图。图8所示的横轴是峰位置,纵轴是频数。
为了得到图8所示的概率分布,对数1式所示的模型提供适当的先验分布,并使用模拟数据进行贝叶斯推断。通过将预热期间设为500步、并在统计量计算中以4链(4-chain)的方式执行2000步的马尔可夫链蒙特卡罗法(MCMC法)来进行贝叶斯推断。图8的直方图是通过使模型执行2000步的计算、并绘制所输出的峰位置的频数所得到的。
在图8中,由两个虚线包围的范围表示容许范围A1。如图3所示,浓度C1~C6的模拟数据的峰位置均为0。容许范围A1表示峰位置检测所能够容许的范围。此外,在模拟数据中将m/z=0作为峰中心,因此在图8的概率分布中也是m/z=0成为峰中心,但实际上峰出现在所关注的物质的m/z附近。
容许范围A1例如由用户设定。在图8中,各曲线图的右上所示的分数SC表示概率分布收敛于容许范围A1的比例。关于浓度C1~C3,SC=1,表示基于贝叶斯推断的结果是全部的后验分布收敛于容许范围A1。例如,在如果“容许范围A1内的峰位置的后验分布的累积概率”为阈值0.9以上则判定为具有峰的情况下,对浓度C1~C5判定为具有峰。关于浓度C6,由于SC=0.8759,因此判定为没有峰。该判定处理是本发明的第四工序的例子。另外,根据本实施方式的分析方法,不仅能够通过阈值0.9来判定峰的有无,还能够通过分数SC的方式来呈现峰的有无的等级,因此也能够关于判定的可靠性呈现信息。
输出部24例如使显示器15显示图8所示的峰位置的后验分布的直方图以及分数SC。用户能够通过参照直方图,在视觉上确认峰的有无的判定的可靠性。另外,用户还能够通过参照分数SC,确认峰的有无的判定的可靠性。
图9是表示由估计部23估计出的峰定量值的概率分布(后验分布)的图。图9所示的横轴是峰定量值,纵轴是频数。在该例中,使用峰高度作为峰定量值。也可以使用峰面积作为峰定量值。图9所示的概率分布也通过与图8所示的情况相同的方法来获取。也就是说,如上述的那样,对数1式所示的模型提供适当的先验分布,并使用模拟数据进行贝叶斯推断。图9所示的直方图是通过使模型执行2000步的计算、并绘制所输出的峰高度(峰定量值)的频数所得到的。
如图3所示,模拟数据的高斯噪声的标准偏差σ’为10。另外,浓度C1、C2……C6的真正的SN比分别为6、5……1。因而,浓度C1、C2……C6的真正的峰高度分别为60、50……10。在图9中,单点划线表示模拟数据中的真正的峰高度。图9中的直方图也大致在真正的峰高度附近形成有峰。
另外,在图9中,在各浓度的直方图的上部示出95%贝叶斯置信区间(95%CW)。例如,如果是浓度C1,则95%贝叶斯置信区间为55.9029~63.8005的区间。同样地,关于各浓度的峰高度示出95%贝叶斯置信区间。在该95%贝叶斯置信区间中基于贝叶斯推断的峰高度的累积概率在阈值以上的情况下,能够判定为具有峰。阈值由用户适当地设定即可。该判定处理是本发明的第四工序的例子。
图9所示的点划线表示通过比较例的mspeaks函数求出的峰高度。如根据图可知,在浓度C1~C5中,本实施方式的使用贝叶斯推断的峰高度的估计与比较例相比得到接近真正的峰高度的结果。也就是说,在图9中可知,在浓度C1至C5中,峰高度的后验分布中值比使用mspeaks函数求出的峰高度更接近真正的峰高度。像这样,根据本实施方式,通过利用贝叶斯推断,能够对峰定量值进行高可靠性的估计。另外,不仅能够估计峰定量值,还能够得到峰定量值的分布、置信区间,因此能够一并向用户呈现估计的可靠性。像这样,根据第一实施方式的分析方法,利用概率分布得到峰位置或峰定量值,由此能够对该检测值的可靠性进行评价。
输出部24例如使显示器15显示图9所示的峰定量值的后验分布的直方图。用户通过参照直方图,能够在视觉上确认峰的有无的判定的可靠性。另外,输出部24可以使显示器15一并显示95%置信区间所包括的累积概率的分数。
(6)第一实施方式的应用例/变形例
在第一实施方式中说明的分析方法例如能够应用于疾病的诊断辅助。作为基于贝叶斯推断的分析的结果,在判定为具有源自所关注的物质的峰的情况下,能够判定为患者罹患对象疾病,在判定为没有峰的情况下,能够判定为未罹患对象疾病。或者,也能够根据峰定量值是否超过固定值来判定罹患对象疾病。由用户根据对象疾病种类、数据测定方法来选择利用哪一种作为判定方法即可。根据第一实施方式,基于测定数据MD来估计峰位置或峰定量值的统计量的概率分布,因此能够提高疾病的诊断辅助的可靠性。作为对象疾病,例如能够列举出由微生物、病毒引起的传染病等。此外,根据本实施方式的分析方法,还能够用于使用生物标记物进行的包括癌症在内的疾病的早期诊断等各种疾病的诊断辅助。例如,能够通过质谱分析装置测定临床检体,并根据生物标记物的MS峰的有无、强度来对目标疾病的罹患进行判定。或者,能够通过质谱分析装置测定有可能包含特定的微生物、病原菌或病毒的检体,并根据生物标记物的MS峰的有无、强度来对目标疾病的罹患进行判定。
在通过本实施方式的方法根据峰位置判断有无疾病等情况下,需要设定如图8所记载的那样的容许范围A1和“容许范围A1内的峰位置的后验分布的累积概率”。在此,对这些设定例进行叙述。例如,在质谱分析装置中,大多在质谱分析方法/装置特性方面估计要测定的峰位置的精度。例如,即使设为真正的峰位置为m/z=100,实际上测定的峰位置在m/z=99.5至100.5之间。如果通过现有方法求出的峰位置在该范围之间,则视为检测到峰。在本实施方式的方法中也是,使用该范围作为容许范围A1即可。与现有方法的方式的不同之处在于,在本发明中对“峰位置(例如,峰的顶点)存在于该容许范围内的概率”进行评价。
接着,关于作为用于判定峰的有无的阈值的“容许范围A1内的峰位置的后验分布的累积概率”,例如在想要判定疾病的有无的情况下,从医学角度对其进行设定即可。例如,关于重症化进展快从而开始早期治疗是重要的疾病,允许将非罹患者错误地误诊断为罹患者,这是考虑到即便如此也期望只要有一定程度的罹患可能性就在早期诊断为罹患。在该情况下,认为将阈值缩窄一定程度是适当的。另一方面,关于即使罹患了但进展缓慢从而直至重症化为止需要时间的疾病,与早期的漏检的缺点相比,因将非罹患者错误地误诊断为罹患者而引起的受检者承受的精神负担、精密检查等所需的时间上/费用上的成本的缺点更大。在该情况下,认为将阈值扩大一定程度、并且如果罹患该疾病的可能性没有高到一定程度则不做出罹患的诊断是适当的。
在上述的实施方式中利用的模拟数据以对高斯峰附加了高斯噪声的模型为例。因此,数1式所示的贝叶斯模型化也与该设定相同。所关注的信号和附加于该信号的噪声的形状取决于所利用的分析装置、测定方法等。因此,在应用于实际的数据时,通过在考虑这些情况的基础上进行贝叶斯模型化,能够更准确地估计峰位置、峰定量值。例如,在液相色谱图的情况下,谱形状不是单纯的高斯形状,而是下摆向高RT侧延伸的形状。在MS谱的情况下,信号是离子的计数数据,因此设想噪声呈泊松分布或泊松分布的常数倍的形状。
在上述的实施方式中,对试样中包含的关注物质为一个、并且有无由该关注的一个物质引起的峰的情况进行了说明。本实施方式的分析方法也能够应用于峰的定量值由多个峰定量值的组合(比率等)表示的情况。例如,关于特定的疾病,有时两个物质α、β的峰定量值之比作为判定有无罹患的条件。在这样的情况下,利用本实施方式的分析方法对两个物质α、β的峰定量值之比进行贝叶斯推断,由此能够应用于诊断辅助。
(7)第二实施方式
接着,对第二实施方式所涉及的分析方法进行说明。第二实施方式的分析方法是使用贝叶斯推断的校准曲线的制作方法。图10是表示第二实施方式所涉及的分析方法的流程图。图10所示的处理是通过控制部20所具备的功能部21~24(参照图2)执行的处理。也就是说,图10所示的处理是通过CPU11执行程序P1而实现的处理。
在步骤S21中,获取部21获取与多个浓度的试样对应的多个测定数据MD。步骤S21是本发明的第一工序的例子。具体地说,获取部21针对多个不同浓度的试样,获取对基于试样的第一信号附加了基于噪声的第二信号所得到的测定数据MD。获取部21例如从其它计算机、分析装置获取测定数据MD。获取部21将测定数据MD保存于存储装置16。
模型化部22读出存储装置16中保存的测定数据MD。接着,在步骤S22中,模型化部22假定第一信号所遵循的形状和第二信号所遵循的形状,通过贝叶斯推断来对测定数据MD进行模型化。步骤S22是本发明的第二工序的例子。例如,模型化部22使用数2式~数6式所示的函数对测定数据MD进行模型化。
[数2]
base_gaussian_intensity[c,n]
=a[c]×Normal(μp[c],σp[c])n=1,...,N c=1,...,C
[数3]
y[c,n]~Normal(base_gaussian_intensity[c,n],σn)
[数4]
peak_gaussian_height[c]=a[c]/{sqrt(2π)σp}
[数5]
calibration_value[c]=α×c+β
[数6]
peak_gaussian_height[c]~Normal(calibration_value[c],σc)
在数2~数6中,Normal(x,y)是指平均值x、标准偏差y的标准正态分布。y[c,n]表示浓度c的测定数据MD的各数据点(n)的峰强度。另外,C表示测定数据MD的浓度的数量(在图3~图5所示的模拟数据中C=6),N表示数据点数。峰检测的贝叶斯模型是数2式和数3式,为对具有在整体上将平均值μp[c]、标准偏差σp[c]的标准正态分布乘以a[c]倍后的形状的峰(base_gaussian_intensity[c,n])附加了标准偏差σn的标准正态分布的噪声所得到的模型。μp[c]、σp[c]分别是浓度c的测定数据MD的平均值、标准偏差,a[c]是由浓度c决定的系数。在数4式中,求出拟合后的高斯峰高度(peak_gaussian_height)。
校准曲线的贝叶斯模型为数5式和数6式。在数5式中,α、β为常数,校准曲线(calibration_value)为相对于浓度线性地增加的模型。另外,如数6式所示,高斯峰高度(peak_gaussian_height)为对校准曲线附加了标准偏差σc的标准正态分布的噪声所得到的模型。像这样,高斯峰高度成为相对于浓度线性地增加的模型。数2式/数3式与数5式/数6式借助数4式分层地连接。像这样,在本实施方式中,测定数据MD的校准曲线由层次贝叶斯模型表示。
接着,在步骤S23中,估计部23基于多个不同浓度的测定数据MD来估计与试样的校准曲线有关的贝叶斯置信区间。步骤S23是本发明的第三工序的例子。也就是说,估计部23使用在模型化部22中被模型化后的多个不同浓度的测定数据MD,得到校准曲线的概率分布。图11是表示由估计部23估计出的校准曲线的概率分布(后验分布)的图。图11所示的横轴是浓度,纵轴是强度(峰定量值)。
为了得到图11所示的概率分布,对数2式~数6式所示的模型提供适当的先验分布,并使用模拟数据进行贝叶斯推断。此外,模拟数据与第一实施方式同样地利用图3~图5所示的数据。通过将预热期间设为500步、并在统计量计算中以4链(4-chain)的方式执行2000步的马尔可夫链蒙特卡罗法(MCMC法)来进行贝叶斯推断。图11的校准曲线的概率分布是通过使模型执行2000步的计算而得到的。在图11中,黑色圆形是基于模拟数据的理想值(真值),黑色四边形是贝叶斯推断的中值。另外,用黑色的线表示贝叶斯推断校准曲线,用灰色的区域表示90%贝叶斯推断置信区间。像这样,贝叶斯推断校准曲线考虑了源自称量误差的不确定性。
(8)第二实施方式的比较例
作为第二实施方式的比较例也是,与上述“(4)峰检测的比较例”同样地,利用MATLAB软件(MathWorks公司制)作为未基于贝叶斯推断的测定数据MD的分析方法。具体地说,利用MATLAB中包括的mslowess函数和mspeaks函数。mslowess函数和mspeaks函数的利用方法与上述相同。
图12表示对图3~图5所示的模拟数据(测定数据MD)应用mspeaks函数所估计出的校准曲线。在图12中,黑色圆形是基于模拟数据的理想值(真值),黑色三角形是通过mspeaks函数检测出的各浓度的强度(峰高度)。另外,黑色的线是估计出的校准曲线,灰色的区域是基于mspeaks函数的90%的置信区间。
图11所示的90%贝叶斯推断置信区间与图12所示的校准曲线的90%置信区间相比,区域更宽。这是因为,在比较例的方法中,在置信区间中未考虑称量误差。与此相对,本实施方式的基于贝叶斯推断的校准曲线的估计能够通过层次贝叶斯模型而计入称量误差。在图11所示的基于贝叶斯推断的校准曲线的90%置信区间中,在任一浓度下,均包括有基于模拟数据的强度的理想值。然而,在图12所示的基于比较例的校准曲线的90%置信区间中,存在理想值未被包括的浓度。像这样,可以说,与比较例相比,在本实施方式的基于贝叶斯推断的校准曲线的估计方法中,在模型中反映出了不确定性。
在比较例中,依次独立地执行各浓度下的测定数据MD的峰检测、校准曲线制作以及置信区间估计。各浓度的试样中包括称量误差、也就是相对于理想浓度的小的随机偏差,但由于各处理独立地执行,因此称量误差未反映在模型中。因此,估计出的置信区间的宽度被过小地评价。与此相对,在第二实施方式中,通过使用层次贝叶斯模型,在考虑称量误差的存在的基础上,同时进行各浓度的峰定量和直线拟合,从而能够制作将称量误差计入到模型中的带贝叶斯置信区间的校准曲线。
(9)第二实施方式的应用例/变形例
第二实施方式的分析方法能够应用于制作例如从液相色谱仪、气相色谱仪、质谱分析装置等分析装置获取的测定数据MD的校准曲线。
在第二实施方式中利用的模拟数据以对高斯峰附加了高斯噪声的数据为例。因此,数2式/数3式所示的贝叶斯模型化也与该设定相同。这样的贝叶斯模型化是一例,如上述的那样,所关注的信号的形状和附加于该信号的噪声的形状能够根据所利用的分析装置、测定方法等适当地进行选择。
在第二实施方式中,试样中包含的关注物质为一个,基于该关注的一个物质的峰定量值来制作校准曲线。本实施方式的分析方法也能够应用于峰的定量值由多个峰定量值的组合(比等)表示的情况。
在第二实施方式中估计出的校准曲线具有贝叶斯推断置信区间。因而,在作为分析结果而得到峰定量值时,根据校准曲线得到的浓度具有置信区间的宽度。因此,在存在测定出的峰定量值接近的两个试样时,根据各个峰定量值使用校准曲线估计出的浓度有时具有重叠的区间。在第二实施方式的分析方法中,能够根据该重叠的程度来判定试样间的浓度差的有无或浓度的关系。例如,即使峰定量值存在一定程度的差,如果上述的重叠在一定程度上也存在,则也能够判断为求出的两个试样的估计浓度差不过是由于称量误差、承载于信号的噪声而偶然出现的。
(10)方式
本领域技术人员应该理解的是,上述的多个例示性的实施方式是以下的方式的具体例。
(第1项)
一个方式所涉及的分析方法,用于对试样进行分析,包括:
第一工序,获取对基于所述试样的第一信号附加了基于噪声的第二信号所得到的测定数据,来作为所述试样的分析结果;
第二工序,假定所述第一信号所遵循的形状和所述第二信号所遵循的形状,通过贝叶斯推断来对所述测定数据进行模型化;以及
第三工序,基于模型化后的所述测定数据来估计所述试样的特性的概率分布。
根据该分析方法,能够得到高可靠性的分析结果。另外,以分布的方式获取估计结果,因此能够对估计结果的不确定性进行评价。
(第2项)
在第1项所记载的分析方法中,
所述第三工序可以包括以下工序:
估计与源自在所述测定数据中所关注的物质的峰的位置有关的统计量的概率分布。
能够得到关于峰位置的高可靠性的分析结果。
(第3项)
在第1项所记载的分析方法中,
所述第三工序可以包括以下工序:
估计与源自在所述测定数据中所关注的物质的峰的定量值有关的统计量的概率分布。
能够得到关于峰定量值的高可靠性的分析结果。
(第4项)
在第2项或第3项所记载的分析方法中,
可以包括第四工序,在所述第四工序中,计算所述统计量的概率分布在所设定的范围内的累积概率,通过将所述累积概率与所设定的阈值进行比较,来判定有无源自所述物质的峰。
通过累积概率与阈值的比较,能够进行峰的有无的判定。通过累积概率的分数,还能够一并确认判定的可靠性。
(第5项)
在第3项所记载的分析方法中,
可以使用基于源自多种物质的峰的定量值的统计量来作为所述统计量。
能够针对包含多种物质的试样得到关于峰定量值的高可靠性的分析结果。
(第6项)
关于其它方式所涉及的诊断辅助方法,可以在根据第4项所记载的所述第四工序中,在判断为具有峰时,判定为罹患有对象疾病。
能够利用贝叶斯推断诊断疾病的罹患。
(第7项)
在第6项所记载的诊断辅助方法中,
所述疾病可以包括传染病。
能够利用贝叶斯推断诊断传染病的罹患。
(第8项)
在第1项所记载的分析方法中,
所述第一工序包括以下工序:
获取与多个浓度的试样对应的多个测定数据,
所述第三工序可以包括以下工序:
基于所述多个测定数据,来估计与所述试样的校准曲线有关的贝叶斯置信区间。
能够得到高可靠性的校准曲线。
(第9项)
在第8项所记载的分析方法中,
在所述第二工序中,可以通过层次贝叶斯模型对所述多个测定数据进行模型化。
通过层次贝叶斯模型,能够进行还考虑了数据的不确定性的模型化。
(第10项)
在第8项或第9项所记载的分析方法中,
可以根据在所述第三工序中估计出的所述贝叶斯置信区间的重叠的程度来判定多个试样间的浓度的关系。
能够判定多个试样间的关系。
(第11项)
在第8项或第9项所记载的分析方法中,
在所述第三工序中,估计与基于源自多种物质的峰的定量值的校准曲线有关的贝叶斯置信区间。
能够针对包含多种物质的试样得到关于峰定量值的高可靠性的校准曲线。
(第12项)
在第8项或第9项所记载的分析方法中,
所述试样的校准曲线可以以线性形式表示。
(第13项)
在第1项所记载的分析方法中,
所述特性包括根据所述测定数据估计的与峰位置有关的统计量、与峰定量值有关的统计量、或校准曲线。

Claims (13)

1.一种分析方法,用于对试样进行分析,包括:
第一工序,获取对基于所述试样的第一信号附加了基于噪声的第二信号所得到的测定数据,来作为所述试样的分析结果;
第二工序,假定所述第一信号所遵循的形状和所述第二信号所遵循的形状,通过贝叶斯推断来对所述测定数据进行模型化;以及
第三工序,基于模型化后的所述测定数据来估计所述试样的特性的概率分布。
2.根据权利要求1所述的分析方法,其特征在于,
所述第三工序包括以下工序:估计与源自在所述测定数据中所关注的物质的峰的位置有关的统计量的概率分布。
3.根据权利要求1所述的分析方法,其特征在于,
所述第三工序包括以下工序:
估计与源自在所述测定数据中所关注的物质的峰的定量值有关的统计量的概率分布。
4.根据权利要求2或3所述的分析方法,其特征在于,
包括第四工序,在所述第四工序中,计算所述统计量的概率分布在所设定的范围内的累积概率,通过将所述累积概率与所设定的阈值进行比较,来判定有无源自所述物质的峰。
5.根据权利要求3所述的分析方法,其特征在于,
使用基于源自多种物质的峰的定量值的统计量来作为所述统计量。
6.根据权利要求1所述的分析方法,其特征在于,
所述第一工序包括以下工序:获取与多个浓度的试样对应的多个测定数据,
所述第三工序包括以下工序:基于所述多个测定数据,来估计与所述试样的校准曲线有关的贝叶斯置信区间。
7.根据权利要求6所述的分析方法,其特征在于,
在所述第二工序中,通过层次贝叶斯模型对所述多个测定数据进行模型化。
8.根据权利要求6或7所述的分析方法,其特征在于,
根据在所述第三工序中估计出的所述贝叶斯置信区间的重叠的程度来判定多个试样间的浓度的关系。
9.根据权利要求6或7所述的分析方法,其特征在于,
在所述第三工序中,估计与基于源自多种物质的峰的定量值的校准曲线有关的贝叶斯置信区间。
10.根据权利要求6或7所述的分析方法,其特征在于,
所述试样的校准曲线以线性形式来表示。
11.根据权利要求1所述的分析方法,其特征在于,
所述特性包括根据所述测定数据估计的与峰位置有关的统计量、与峰定量值有关的统计量、或校准曲线。
12.一种诊断辅助方法,
在根据权利要求4所述的所述第四工序中,在判断为具有峰时,判定为罹患有对象疾病。
13.根据权利要求12所述的诊断辅助方法,其特征在于,
所述疾病包括传染病。
CN202210555103.9A 2021-05-26 2022-05-20 分析方法和诊断辅助方法 Active CN115407008B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021088825A JP2022181723A (ja) 2021-05-26 2021-05-26 分析方法および診断支援方法
JP2021-088825 2021-05-26

Publications (2)

Publication Number Publication Date
CN115407008A true CN115407008A (zh) 2022-11-29
CN115407008B CN115407008B (zh) 2024-07-12

Family

ID=84157597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210555103.9A Active CN115407008B (zh) 2021-05-26 2022-05-20 分析方法和诊断辅助方法

Country Status (3)

Country Link
US (1) US20220382834A1 (zh)
JP (1) JP2022181723A (zh)
CN (1) CN115407008B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068078A1 (ja) * 2003-01-10 2004-08-12 Ho Jinyama 状態判定方法と状態予測方法及び装置
US20060080040A1 (en) * 2004-04-23 2006-04-13 Roche Diagnostics Operations, Inc. Method and system for processing multi-dimensional measurement data
US20060217938A1 (en) * 2005-03-22 2006-09-28 College Of William And Mary Automatic peak identification method
US20160217986A1 (en) * 2013-09-23 2016-07-28 Micromass Uk Limited Peak Assessment for Mass Spectrometers
CN109635372A (zh) * 2018-11-23 2019-04-16 西安理工大学 基于改进先验概率的贝叶斯模型的设计洪水方法
CN110208735A (zh) * 2019-06-12 2019-09-06 西北工业大学 一种基于稀疏贝叶斯学习的相干信号doa估计方法
US20190277817A1 (en) * 2016-11-09 2019-09-12 Shimadzu Corporation Data analyzer for chromatograph mass spectrometry

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004068078A1 (ja) * 2003-01-10 2004-08-12 Ho Jinyama 状態判定方法と状態予測方法及び装置
US20060080040A1 (en) * 2004-04-23 2006-04-13 Roche Diagnostics Operations, Inc. Method and system for processing multi-dimensional measurement data
US20060217938A1 (en) * 2005-03-22 2006-09-28 College Of William And Mary Automatic peak identification method
US20160217986A1 (en) * 2013-09-23 2016-07-28 Micromass Uk Limited Peak Assessment for Mass Spectrometers
US20190277817A1 (en) * 2016-11-09 2019-09-12 Shimadzu Corporation Data analyzer for chromatograph mass spectrometry
CN109635372A (zh) * 2018-11-23 2019-04-16 西安理工大学 基于改进先验概率的贝叶斯模型的设计洪水方法
CN110208735A (zh) * 2019-06-12 2019-09-06 西北工业大学 一种基于稀疏贝叶斯学习的相干信号doa估计方法

Also Published As

Publication number Publication date
US20220382834A1 (en) 2022-12-01
CN115407008B (zh) 2024-07-12
JP2022181723A (ja) 2022-12-08

Similar Documents

Publication Publication Date Title
Motulsky Prism 5 statistics guide, 2007
JP6729455B2 (ja) 分析データ解析装置及び分析データ解析方法
Skates et al. Screening based on the risk of cancer calculation from Bayesian hierarchical changepoint and mixture models of longitudinal markers
US20100161237A1 (en) Method and System for Genotyping Samples in a Normalized Allelic Space
JP2004536276A (ja) 質量スペクトルを分析する方法
US20160252484A1 (en) System and method for modified gas chromatographic data analysis
CA2367820A1 (en) Nmr-method for determining the risk of developing type 2 diabetes
CN109270256A (zh) 用于确定凝血结果的技术
US8160818B2 (en) System and method for determining clinical equivalence of test methods
CN115691722A (zh) 医疗数据检测的质控方法、装置、设备、介质及程序产品
JP6164678B2 (ja) ネットワークエントロピーに基づく生体の状態遷移の予兆の検出を支援する検出装置、検出方法及び検出プログラム
WO2022112965A1 (en) Method implemented by means of a computer for determining retention times and concentration values of analytes in a mixture
CN115407008B (zh) 分析方法和诊断辅助方法
US6787361B1 (en) Clinical assay calibration adjustment method
CN110970089B (zh) 胎儿浓度计算的预处理方法、预处理装置及其应用
US20210396655A1 (en) Method and Device for Analyzing Biological Material
JP6280910B2 (ja) 分光システムの性能を測定するための方法
CN115858509A (zh) 医疗数据波动率监测方法、装置、设备及可读存储介质
TW202324151A (zh) 用於分析基因數據之電腦實施的方法及裝置
US20230253109A1 (en) Cancer screening device and cancer screening method
JP2009244112A (ja) 医薬品製剤の安定性予測方法
JP6618789B2 (ja) 分析方法および分析装置
WO2024018789A1 (ja) 血液凝固時間の延長原因の推定方法、及び情報処理装置
EP4190886A1 (en) Information provision device, information provision system, information provision method, and program
JP5787948B2 (ja) 反応過程データの異常判定支援方法及び自動分析装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant