CN115997219A - 数据生成方法及装置、以及识别器的生成方法及装置 - Google Patents

数据生成方法及装置、以及识别器的生成方法及装置 Download PDF

Info

Publication number
CN115997219A
CN115997219A CN202180043989.2A CN202180043989A CN115997219A CN 115997219 A CN115997219 A CN 115997219A CN 202180043989 A CN202180043989 A CN 202180043989A CN 115997219 A CN115997219 A CN 115997219A
Authority
CN
China
Prior art keywords
waveform
peak
data
signal waveform
peaks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180043989.2A
Other languages
English (en)
Inventor
金泽慎司
松田史生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Osaka University NUC
Original Assignee
Shimadzu Corp
Osaka University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp, Osaka University NUC filed Critical Shimadzu Corp
Publication of CN115997219A publication Critical patent/CN115997219A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N2030/022Column chromatography characterised by the kind of separation mechanism
    • G01N2030/027Liquid chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明的数据生成装置的一方案是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成装置,其具备:参数频率信息获取部(31、32),根据缩小至进行用于创建识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;模拟波形生成部,利用形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,提供模拟的信号波形作为机器学习的训练用或评价用的数据。由此,能够模拟地生成高精度的教师数据。

Description

数据生成方法及装置、以及识别器的生成方法及装置
技术领域
本发明涉及用于机器学习的数据生成方法及装置、以及使用该数据生成方法及装置的识别器的生成方法及装置。
背景技术
在液相色谱(LC)装置或气相色谱(GC)装置中,通过对试样实施色谱分析,获取观测到与该试样中包含的成分(一般为化合物)对应的峰的色谱图。由于在色谱图中观测到的峰的位置(保留时间)与试样中的成分的种类对应,因此能够根据该峰位置来确定成分,即能够进行定性。此外,由于在色谱图中观测到的峰的面积值或高度值对应于与该峰对应的成分的含量或浓度,因此能够根据峰的面积值或高度值对该成分进行定量。因此,为了提高基于色谱图的定性或定量的精度,高精度地求出色谱图中出现的峰的峰顶的位置、峰的面积值或高度值是很重要的。
一般而言,色谱图上的峰波形理想情况下为根据高斯分布的形状。然而,在实际得到的色谱图上的峰由于各种因素而产生前延或拖尾。此外,也存在基线漂移的情况,或者由于分离不充分,源自不同成分的多个峰重叠的情况也较多。在这样的各种状况下,准确地检测峰并且高精度地求出峰的面积值或高度值并不容易,以往提出了用于峰检测的各种方法或算法以供实际应用。
例如,在非专利文献1中公开了一种波形处理方法,该波形处理方法对所提供的色谱图设定适当的基线修正线,并且基于该基线修正线适当地分离重叠的峰,计算分离出的各峰的面积的累计值。
这样的以往的峰检测法以噪声比较微小、信号稳定等波形的状态比较良好为前提。因此,在不满足这样的条件的情况下,无法进行准确的峰检测的情况也较多。
与此相对,近年来,随着深度学习(Deep l earn i ng)等机器学习技术的迅速进展,进行了在色谱图上的峰的自动检测中利用机器学习的尝试。在使用机器学习的峰检测法中,通过预先进行将大量的色谱图波形和包含在该波形中所观测到的峰的正确的位置或面积值、高度值等特征值的正解信息作为教师数据(也称为训练数据或学习数据)的学习,预先生成用于峰检测的识别器。然后,若输入解析对象即色谱图波形,则进行使用了上述识别器的识别处理来检测峰,或计算检测出的峰的特征值。
现有技术文献
非专利文献
非专利文献1:“确认峰波形处理”,[在线],株式会社岛津制作所,[2019年12月2日检索],网址链接<URL:http://www.an.sh imadzu.co.jp/hp l c/support/l i b/l cta lk/23/23l ab.htm>
非专利文献2:“LabSo l ut i ons I ns i ghtTM可选软件Peak i nte l ligenceTM LC/MS/MS方法包用于初级代谢物及细胞培养分析”,[在线],株式会社岛津制作所,[2019年12月2日检索],网址链接<URL:https://www.an.sh imadzu.co.jp/l cms/m_package/peak i nte l l i gence.htm>
非专利文献3:A l ec Radford等3人,“Unsuperv i sed Represent at i onLearn i ng with Deep Convo l ut i ona l Generat i ve Adversar i a l Networks(深度卷积生成对抗网络的无监督表示学习)”,[在线],[2019年12月2日检索],网址链接<URL:https://arx i v.org/abs/1511.06434>
非专利文献4:I an J.Goodfe l l ow等8人,“Generat i ve Advers ar i a lNets(生成对抗网络)”,[在线],[2019年12月2日检索],网址链接<URL:https://arx iv.org/pdf/1406.2661.pdf>
发明内容
发明要解决的技术问题
在利用机器学习的峰检测法中,为了改善检测精度、面积值或高度值的精度,提高通过学习生成的识别器的性能是很重要的。为此,虽然需要利用尽可能多的适当的教师数据进行学习,但实际分析试样来收集教师数据需要大量的工夫和时间。特别是在试样源自生物体等的情况下,收集试样也常常需要大量的劳力和时间,难以准备足够多的教师数据。
在一般的机器学习中,还已知有将不是实测的数据而是由模拟器等疑似地创建出的数据作为教师数据的方法。但是,难以创建适当地反映了实测数据的偏差等的疑似数据,特别是以往不存在能够适当地模拟通过设备分析得到的色谱图波形或频谱波形的方法或装置。
本发明是为了解决上述技术问题而完成的,其主要目的在于提供一种数据生成方法及装置,能够用于生成用于峰检测的识别器时或评价识别器,能够模拟地生成适当地反映了实测数据的偏差等的数据。
此外,本发明的其他目的在于提供一种识别器的生成方法及装置,能够使用这样的数据生成方法或装置来得到可高精度地检测峰、并且高精度地计算峰面积值或高度值等特征值的识别器。
用于解决上述技术问题的方案
为了解决上述技术问题而完成的本发明的数据生成方法的一方案,是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成方法,其中,通过计算机执行以下步骤:
参数频率信息获取步骤,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成步骤,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
此外为了解决上述技术问题而完成的本发明的数据生成装置的一方案,是用于实施本发明的上述方案的数据生成方法的装置,是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成装置,其具备:
参数频率信息获取部,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成部,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
此外为了解决上述技术问题而完成的本发明的识别器的生成方法的一方案,是使用了本发明的上述方案的数据生成方法的识别器的生成方法,其中,通过计算机执行学习步骤,通过将在所述模拟波形生成步骤中生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
此外为了解决上述技术问题而完成的本发明的识别器生成装置的一方案,是使用了本发明的上述方案的数据生成装置的识别器生成装置,其具备学习部,通过将由所述模拟波形生成部生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
在本发明中,“信号波形”是通过对试样或测量对象物进行分析或测量而得到的波形,典型地为,通过色谱装置、质量分析装置、核磁共振装置、光学分析装置、X射线分析装置等而得到的可观测与试样中的成分(化合物或元素等)对应的峰的色谱图波形或频谱波形。
发明效果
在本发明的上述方案的数据生成方法及装置中,例如利用非专利文献3、4等所公开的、作为机器学习的一种方法的生成对抗网络(Generat i ve Adversar i a lNetwork:以下称为“GAN”),学习与针对在信号波形上观测到的峰的形状参数的变动(偏差)相关的分布(概率分布)。在基于GAN的学习时,例如提供从通过在色谱装置中实际分析试样而得到的色谱图波形中提取的形状参数作为真的数据。在基于GAN的学习的过程中,能够获取反映了形状参数的频率(分布)的生成模型(生成器)。
这里所说的形状参数能够包含例如峰高、峰宽、拖尾程度、前延程度等,此外,形状参数也能够包含峰数、相邻的峰间的距离、位于信号波形的中央附近的峰的位置等。一般地,在利用拟合的峰检测中,经常使用EMG(Exponent i a l Mod i f i ed Gauss i an)函数作为峰模型函数。其理由是,色谱图中的峰波形理想情况下接近高斯波形,但实际上由于前延或拖尾而大多成为非对称波形。因此,例如能够使用EMG函数作为峰模型函数,并能够使用该函数的参数(例如拖尾参数)作为上述形状参数之一。
另外,对抗学习不一定需要使用神经网络(即不需要是GAN),也可以代替神经网络而使用基于学习对象的数据输出能够近似该数据的分布的函数的算法。
此外,即使分析与测量方法相同,根据作为分析对象的试样的种类、或试样中包含的成分的种类(范畴)等,也存在峰的形状会有很大不同的情况。即使将这种峰形状大不相同的多个信号波形作为真的数据提供给基于GAN的学习,也不能适当地进行学习,难以得到作为目标的高精度的生成模型。因此,在本发明中,不是通过不限定试样的种类等的通用的分析,而是通过对试样的种类或成分的种类、分析的目的、应用领域等进行一定程度的限定,从而执行将峰形状的倾向接近、即某种程度一致的信号波形作为真的数据的GAN的学习。
根据本发明的上述方案的数据生成方法及装置,例如能够以高精度获取由色谱装置实际得到的色谱图波形中的形状参数的分布。使用反映了这样的分布的生成模型,能够模拟地生成出现具有合理的参数的偏差的峰的信号波形、多个峰重合而成的信号波形、或在峰上重叠了噪声的信号波形等。在这样的模拟的信号波形中,正确地得到各峰开始点及结束点等峰信息。因此,通过使用这样的模拟的信号波形作为通过机器学习生成用于峰检测的识别器时的教师数据或评价用数据,能够节省劳力和时间并且提高用于峰检测的识别器的性能。
此外,根据本发明的上述方案的识别器的生成方法及装置,能够高精度地检测峰,或高精度地计算峰面积值或高度值等特征值。由此,除了能够检测在以往的峰检测法中不能适当地检测的峰之外,还能够提高利用了峰面积值等的成分的定量精度。
附图说明
图1是利用了本发明的数据生成方法的LC装置的一实施方式的概略构成图。
图2是本发明的数据生成装置的一实施方式的功能模块构成图。
图3是图2所示的数据生成装置中的对抗学习执行部的功能模块构成图。
图4是生成在图1所示的LC装置中使用的识别器的学习装置的功能模块构成图。
图5是示出GAN的输入数据(真数据)的一例的图。
图6是示出GAN的输出数据(假数据)的一例的图。
图7是示出峰波形的生成结果的一例的图。
图8是用于波形模拟器的动作说明的波形图。
具体实施方式
以下,参照附图对本发明的数据生成装置及利用了该装置的识别器生成装置的一例进行说明。
在以下的例子中,解析对象的信号波形为色谱图波形,通过数据解析检测在色谱图上观测到的峰,并且求出该峰的峰顶的位置(保留时间)及峰面积值(或高度值)。
[一实施方式的LC装置的整体构成及概略动作]
图1是利用了本发明的数据生成装置的LC装置的一实施方式的整体构成图。
在图1中,测量部10包含:流动相容器11;泵12,抽吸流动相以大致恒定的流速(或流量)输送;注射器13,向流动相中注入试样液;色谱柱14,根据保留时间分离试样液中包含的成分;检测器15,检测从色谱柱14洗脱的洗脱液中的成分。作为检测器15,例如能够使用光电二极管阵列(PDA)检测器等光学检测器或质量分析装置等。
数据解析部20具有对从检测器15输出的检测信号进行数字化并处理的功能,包含数据收集部21、峰检测处理部22、定性与定量解析部23等功能模块。峰检测处理部22包含识别模型存储部221、峰决定部222等功能模块。识别模型存储部221中存储预先通过机器学习生成的用于峰检测的识别模型。在该数据解析部20中连接有作为用户接口的输入部24和显示部25。
一般地,数据解析部20的实体为通用的计算机,通过在该计算机上执行安装于该计算机的专用的软件(计算机程序),能够达成如图1所示的各功能模块的功能。
在该LC装置中,泵12抽吸储存在流动相容器11中的流动相并以大致恒定流速输送至色谱柱14。注射器13在根据来自未图示的控制部的指示的规定的时机,将预先准备的试样液以规定量注入流动相中。注入的试样液随着流动相的液流被导入色谱柱14,试样液中包含的各种成分在通过色谱柱14的期间,在时间方向上被分离并洗脱。检测器15检测洗脱液中包含的成分,时刻输出与该成分的量对应的强度的检测信号。
在数据解析部20中,数据收集部21以规定时间间隔对上述检测信号进行采样,转换为数字数据并存储在存储装置中。该存储的数据为构成色谱图波形的数据(色谱图数据),在检测器15中检测出的成分在色谱图上作为峰被观测到。峰检测处理部22接收色谱图数据并检测有意义的峰,求出检测出的峰的峰顶的位置(时间)和峰的面积值(或高度值)。定性与定量解析部23根据色谱图上的各峰的位置的信息来确定成分,并且利用预先创建的标准曲线,根据峰面积值(或高度值)计算各成分的含量。即,定性与定量解析部23实施试样中包含的各成分的定性和定量,并将其结果输出到显示部25。
[峰检测方法及峰特征值的计算方法]
在本实施方式的LC装置中,为了检测作为解析对象的色谱图中出现的峰,并得到作为其特征值的峰面积值,利用通过机器学习生成的识别模型。
图4是用于创建识别模型的学习装置的模块构成图。
该学习装置包含教师数据生成部50、学习执行部51、识别模型构建部52。教师数据生成部50还包含随机噪声产生部501、生成器502、噪声加法部503作为下级的功能模块。作为生成器502,如后所述,使用通过基于GAN的学习而创建的生成器41。另外,上述学习装置的实体也为计算机,通过执行安装于计算机的规定的程序,来具体实现如图4所示的各功能模块。
一般地,在通过机器学习创建用于峰检测的识别模型时,进行使用了作业者事先赋予有标签(正解的信息)的教师数据的监督学习或半监督学习中的任一种。标签是指正确的峰顶的位置(时间)、峰面积值、高度值等。但是,若加上通过人工贴标签的作业,则不仅费事,还可能进行错误的贴标签而降低学习效果。为了避免这种情况,已知有使用预先已知正解的模拟数据作为教师数据来进行学习的方法。图4所示的学习装置中的教师数据生成部50是用于模拟地生成这样的教师数据的波形模拟器。
[峰检测用识别模型的生成方法]
接着,对生成器502的创建方法进行说明。
在色谱图中,与试样中的成分对应的峰波形能够用以形状参数Z和保留时间t为自变量的函数f(t,Z)来表示。在此,形状参数Z例如是峰的宽度或拖尾的程度等。一般地,作为对于色谱图中观测到的峰波形的模型函数,可使用EMG函数等。因此,也能够将EMG函数作为模型函数来学习该函数的形状参数的分布。但是,在此,以不使用这样明确的模型函数,而使用同时学习表示峰波形的函数本身和该函数能够具有的形状的分布(形状参数的分布)的方法,来求出与色谱装置或其分析的应用领域的特性等相匹配的模型函数和其形状参数的分布的情况为例。
图2是推定峰模型函数和形状参数分布的波形信息推定装置的一实施方式的概略构成图。该装置包含实测数据输入部30、峰波形提取部31、对抗学习执行部32、生成模型决定部33等功能模块。该装置的实体为计算机,通过执行安装于计算机的规定的程序,来具体实现图2所示的各功能模块。图3是在图2中的对抗学习执行部32中使用的GAN的功能模块构成图。另外,这些装置可以包含在图1所示的LC装置的数据解析部20中,但也可以单独存在。
在图2及图3所示的波形信息推定装置中,使用由实测得到的色谱图波形作为基于GAN的对抗学习时的真数据。即,在图1所示的LC装置的测量部10或与其同等的LC装置中,利用通过实际测量试样而获取的色谱图波形作为真数据。但是,虽说是色谱图上的峰波形,但根据试样的种类即成分的种类、解析的应用领域或目的、LC分离条件等,存在峰波形形状产生较大差异的情况。具体地说,若试图将拖尾呈变大的倾向的情况和拖尾呈几乎不出现的倾向的情况这两种情况作为解析的对象,则会产生形状参数的分布的宽度过宽而使其分布的精度降低等问题。因此,能够通过缩小解析的应用领域等来避免这样的问题。
具体来说,在此将解析对象的领域限定为源自生物体的代谢物的解析。即,试样为生物体试样,试样中的成分为代谢物。当然,这是一个例子,这里所述的方法能够应用于各种试样、成分、解析目的。
在图2所示的装置中,实测数据输入部30读取通过实测得到的大量的色谱图数据。峰波形提取部31从输入的各色谱图数据中去除例如SN比极低的峰或分离不充分的峰等,提取波形形状良好的峰。然后,求出提取出的峰的拖尾(或前延)程度或峰宽、SN比这样的与峰有关的形状参数中的至少一个。此外,作为能够包含多个峰而不是峰单体的形状的色谱图波形的特征性的形状参数,一并求出色谱图波形中的峰数、位于波形的时间轴的中心附近的峰的位置、相邻的峰彼此之间的距离等中的至少任一个。后者的形状参数可在色谱图波形中决定峰的位置时利用。
另外,例如在能够预测保留时间与峰宽成正比关系这样的参数间的相关的情况下,为了容易地进行后述的学习,能够预先进行用保留时间将峰宽标准化这样的减弱参数间的相关的标准化处理。
如上所述,峰波形提取部31获取大量的单一峰波形的形状参数及表征色谱图波形的形状参数。对抗学习执行部32实施将具有良好的波形形状的单一峰作为真数据的基于GAN的学习。如图3所示,对抗学习执行部32包含随机噪声产生部40、生成器41、数据选择部42、识别器43、判定部44、更新处理部45。在此,在生成器41及识别器43中均使用非专利文献3、4中所记载的神经网络。
在学习时,生成器41通过神经网络,创建用于基于从随机噪声产生部40输入的噪声来生成假数据即假的峰波形的、以时间为自变量的函数。然后,通过对该创建出的函数提供示出时刻(经过时间)的输入,生成与观测数据(真数据)相同长度的假的峰波形数据。数据选择部42交替切换从生成器41输出的假的峰波形数据和上述真数据,输入到识别器43。识别器43识别输入的数据是否为真,判定部44判定其识别结果是否正确,即判定在真数据被输入到识别器43时是否识别出其为真,另一方面,在假数据被输入到识别器43时是否识别出其为假。
更新处理部45基于通过判定部44判定的判定结果,更新神经网络的系数,以使生成器41和识别器43的性能分别提高。众所周知,在GAN中,像这样一边使生成器41和识别器43竞争,一边执行学习以提高各自的性能。具体而言,使生成器41中的神经网络学习以生成能够生成尽可能接近真数据的假数据的函数,另一方面,使识别器43中的神经网络学习以能够正确识别真数据和假数据。
通过如上所述的在GAN中的学习,生成器41生成与真的峰波形极为接近的峰波形,但在该学习过程中,可得到包含近似该峰波形的模型函数和该函数的参数的分布的生成模型。生成模型决定部33基于对抗学习执行部32实施了上述那样的在GAN中的学习的结果,决定用于模拟地生成峰波形的生成模型。该生成模型是生成器41本身,并且也是表示峰波形形状的模型函数和其形状参数的分布这样的波形信息。
图5是示出在基于GAN的学习时使用的真数据的一部分的图。另一方面,图6是示出通过生成器41生成的假数据的一部分的图。通过比较这些可知,通过在提供适当的数量及质量的真数据的基础上进行基于GAN的学习,能够得到可输出与真数据极为接近(实质上无法区分)的假数据的生成模型。
另外,一般已知的GAN相对于作为固定长度的向量的输入而得到输出,但在将输入设为固定长度的向量的情况下,在峰宽变动较大时等,需要进行缩放来使向量长度一致这样麻烦的处理。此外,一般来说,峰波形的形状具有微分值连续性地单调这样的强烈的约束,但由于无法将该约束应用于学习,因此导致生成器41生成的波形的初始值与本来的峰的形状显著不同,其结果为,到能够输出适当的形状的峰波形的状态为止很大可能需要较长的学习时间。这样,在生成器41的输出成为应该学习的数据的形状而需要时间的情况下,经验上已知基于GAN的学习失败。
因此,为了避免这种情况,能够在生成器41所包含的神经网络中创建返回失真时间的函数s(t,Z),在生成器41中生成使用该函数的Gauss(s(t,Z))这样的函数。另外,对于这些函数的自变量t,输入具有与真数据的向量尺寸相同尺寸的t,以生成与作为学习对象的波形向量相同尺寸的数据。当然,在生成器41所包含的神经网络中,也能够使用一般的高斯(Gauss)函数或EMG函数。
由此,能够一边直接学习波形向量的分布,一边学习时间失真参数函数s(t,Z)的分布。即,在一般的GAN中,只能进行“向量”对“向量”的学习,而相对于此,在本发明的方法中,GAN扩展为能够进行“时间序列函数”对“向量”的学习。
此外,更优选地,为了成为s(t,Z)≈t所示的分布,可以在函数s(t,Z)的网络中使用跳跃连接(sk i p connect i on),或者作为s(t,Z)=t+s’(t,Z),可以调整网络权重的参数的初始值分布,以使s’(t,Z)以适当的宽度取0附近的值。
此外,也考虑存在吊钟状函数的末端迟钝等、对强度大致均匀地施加的失真的情况。在这种情况下,使用强度修正神经网络函数i(y),将i(Gauss(s(t,Z))用作生成器41也是有用的。
另一方面,作为识别器43也可以使用一般的神经网络,但在此,为了更好地捕捉像高斯函数那样的吊钟形状的波形,使用具有一维卷积层和线性组合层的网络。
在上述说明中,对抗学习执行部32的本质性的目的是学习与数据点群的分布一致的分布,在上述例子中使用GAN作为该学习的方法。如非专利文献3、4所示,在GAN中一般使用神经网络,但从非专利文献3的记载也可以明确,能够使用适当的算法来代替神经网络,该适当的算法能够使用微分(梯度)对函数进行最优化。
此外,在此,利用KL(Ku l l back-Le i b l er)距离作为观测波形D与由形状参数Z生成的函数f的分布的相似度,但除了KL距离以外,还能够使用JS(Jensen-Shannon)距离或Wasserste i n距离等评价分布的一致程度的各种指标。
如上所述,能够获取基于在实测的色谱图上观测到的峰波形模拟地生成该波形的生成模型,即能够获取模型函数和形状参数的分布信息。
图4中所示的生成器502利用上述的生成模型,基于输入的噪声输出与色谱图上的峰波形的形状极为接近的假的波形。该假的波形的模型函数为f(t,Z),该模型函数的形状参数根据规定的概率分布而变形。在学习装置中,将由随机噪声产生部501产生的噪声输入到生成器502,如上所述地求出根据形状参数的分布的形状的峰波形。
图7的(A)、(B)是由生成器502生成的单一的峰波形的形状的一例。该峰波形的形状是通过以时间为自变量的函数的形式得到的,因此能够自由地变更峰宽及峰高。
噪声加法部503对上述峰波形加上适当的背景噪声成分而作为教师数据。另一方面,由于噪声附加前的峰是正解的峰波形,因此其成为与教师数据对应的标签。
生成器502由于具有准确地反映了实测的峰波形的形状变化的形状参数的概率分布作为信息,因此能够输出正确地模拟了与作为目标的解析领域对应的峰形状的变化而得的波形。当然,在教师数据生成部50中,对生成的波形的数量没有限制。因此,在图4所示的学习装置中,通过使用大量良好的教师数据进行的学习,能够高效地构建高性能的识别模型。这样创建的识别模型存储在本实施方式的LC装置中的识别模型存储部221中。由此,在本实施方式的LC装置中,能够准确地检测在通过测量得到的色谱图中观测到的峰,此外还能够高精度地计算峰的面积值或高度值等特征值。
在图4所示的教师数据生成部50中,在生成观测到多个峰的模拟的色谱图波形作为教师数据的情况下,在生成器502中产生多个图8的(A)所示的基于规定的峰形状分布的峰。同样,基于从所提供的数据求出的峰数、位于波形的时间轴的中心附近的峰的位置、相邻的峰彼此之间的距离等形状参数的分布,决定峰数或各峰的位置,由此形成组合了多个峰而得的混合峰波形。通过在该混合峰波形中加上基于SN比等形状参数的分布的背景噪声(参照图8的(B)),生成如图8的(C)所示的模拟的色谱图波形。通过将这样的色谱图波形作为教师数据,能够构建出可检测有重叠的多个峰并且输出该多个峰的面积值或高度值等特征量的识别模型。
此外,教师数据生成部50不仅能够用于生成学习时的教师数据,还能够用于生成在评价(或测试)通过学习创建的识别模型时所使用的评价数据。
此外,一般来说,在学习峰波形形状时需要足够多的教师数据。因此,有时使用针对相当广的领域(目标)的试样得到的数据来执行峰波形形状的学习。例如,就LC装置而言,存在不是将血液、尿等特定的生物体试样作为对象的特定的物质的分析,而是将通过生物体试样一般的分析得到的数据用于学习的情况。即,存在教师数据中包含比实际要应用本发明的峰检测的领域更广的领域的数据集的情况。在这种情况下,当然也考虑以仅模拟与实际应用的领域的样本数据对应的参数点的附近的方式进行数据扩充。即,预先学习以广领域为对象的峰形状参数的分布,调查针对作为目标的窄领域的试样的峰群集中在峰形状参数分布中的哪个范围,从而能够基于限定在该范围内的形状参数分布来生成模拟数据。
此外,如上所述,在实际应用中,需要处理相邻的峰的末端部重叠的混合峰等的情况较多,但在很多LC装置、GC装置等分析装置中,可视为确保了分析中的线性。因此,在解析对象为色谱图波形的情况下,混合峰的信号值也可以看作是单纯地将与多个单一峰对应的信号值相加而得到的值。
上述实施方式是将本发明应用于LC装置的例子,但显而易见,能够在处理或解析由LC装置或GC装置以外的各种分析装置得到的信号波形时应用本发明。
具体而言,本发明也能够用于由质量分析装置得到的质谱、由核磁共振装置得到的核磁共振谱、由光学分析装置得到的吸光光谱或反射光谱等光学光谱、由X射线分析装置得到的X射线能谱等的峰检测。
[各种方案]
本领域技术人员能够理解上述示例性的实施方式是以下方案的具体例。
(第1项)本发明的数据生成方法的一方案是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成方法,其中,通过计算机执行以下步骤:
参数频率信息获取步骤,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成步骤,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
(第2项)在第1项所述的数据生成方法中,能够设为,在所述参数频率信息获取步骤中,将从所述多个信号波形分别得到的形状参数作为输入,通过执行使用了生成模型和识别模型这两个相互对抗的模型的对抗学习,获取包含形状参数的频率信息的生成模型,在所述模拟波形生成步骤中,使用所述生成模型生成模拟的信号波形。
(第9项)本发明的数据生成装置的一方案是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成装置,其具备:
参数频率信息获取部,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成部,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
(第10项)在第9项所述的数据生成装置中,能够设为,在所述参数频率信息获取部中,将从所述多个信号波形分别得到的形状参数作为输入,通过执行使用了生成模型和识别模型这两个相互对抗的模型的对抗学习,获取包含形状参数的频率信息的生成模型,所述模拟波形生成部使用所述生成模型生成模拟的信号波形。
在第1项及第2项所述的数据生成方法、以及第9项及第10项所述的数据生成装置中,例如,能够以高准确度获取用于以高精度模拟由色谱装置得到的色谱图波形的模型函数和其形状参数例如峰的拖尾程度、峰宽等的分布的信息。由此,能够自由地生成正确地反映实际得到的信号波形的偏差、且正确地得到各峰开始点及结束点等峰信息的模拟的信号波形。因此,能够节约用于创建教师数据等的劳力和时间,同时提高用于检测在信号波形中观测到的峰的识别器的性能。
(第3项)在第1项或第2项所述的数据生成方法中,能够设为,在所述参数频率信息获取步骤中,从信号波形中提取孤立的峰且SN比为基准值以上的峰并求出与该峰相关的形状参数。
(第11项)此外同样地,在第9项或第10项所述的数据生成装置中,能够设为,所述参数频率信息获取部从信号波形中提取孤立的峰且SN比为基准值以上的峰并求出与该峰相关的形状参数。
根据第3项所述的数据生成方法及第11项所述的数据生成装置,能够提高通过GAN等的对抗学习而得到的生成模型的精度。
(第4项)在第3项所述的数据生成方法中,能够设为,与所述峰相关的形状参数包含峰高、峰宽、峰的拖尾程度中的任一个。
(第12项)此外,在第11项所述的数据生成装置中,能够设为,与所述峰相关的形状参数包含峰高、峰宽、峰的拖尾程度中的任一个。
根据第4项所述的数据生成方法及第12项所述的数据生成装置,能够通过学习与适当的峰相关的形状参数从而提高生成模型的精度。
(第5项)在第1项~第4项的任一项所述的数据生成方法中,能够设为,所述形状参数包含峰数、相邻的峰间的距离、及位于信号波形的中央附近的峰的位置,在所述模拟波形生成步骤中,通过这些形状参数的频率信息决定模拟的信号波形中的峰位置。
(第13项)在第9项~第12项的任一项所述的数据生成装置中,能够设为,所述形状参数包含峰数、相邻的峰间的距离、及位于信号波形的中央附近的峰的位置,所述模拟波形生成部通过这些形状参数的频率信息决定模拟的信号波形中的峰位置。
根据第5项所述的数据生成方法及第13项所述的数据生成装置,能够生成高精度地模拟了多个峰的重叠等的信号波形。
(第6项)在第1项~第5项的任一项所述的数据生成方法中,能够设为,在所述模拟波形生成步骤中,通过对使用所述生成模型生成的包含1个或多个峰的波形加上噪声,生成模拟的信号波形。
(第14项)此外,在第9项~第13项的任一项所述的数据生成装置中,能够设为,所述模拟波形生成部通过对使用所述生成模型生成的包含1个或多个峰的波形加上噪声,生成模拟的信号波形。
根据第6项所述的数据生成方法及第14项所述的数据生成装置,能够获取正确地模拟了噪声较多的信号波形的教师数据。由此,能够得到峰的检测精度或峰面积值等的计算精度较高的生成模型。
(第7项)在第1项~第6项的任一项所述的数据生成方法中,能够设为,缩小至所述目标领域收集到的多个信号波形是通过对特定种类的试样进行分析而得到的色谱图波形或频谱波形。
(第15项)此外,在第9项~第14项的任一项所述的数据生成装置中,能够设为,缩小至所述目标领域收集到的多个信号波形是通过对特定种类的试样进行分析而得到的色谱图波形或频谱波形。
根据第7项所述的数据生成方法及第15项所述的数据生成装置,由于色谱图波形或频谱波形的形状参数的偏差变小,因此能够创建高精度的生成模型,模拟的信号波形的正确性也得到提高。
(第8项)第8项的发明的一方案是使用了第1项~第7项的任一项所述的数据生成方法的识别器的生成方法,能够设为,执行学习步骤,通过将在所述模拟波形生成步骤中生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
(第16项)此外,第16项的发明的一方案是使用了第9项~第15项的任一项所述的数据生成装置的识别器生成装置,能够设为,具备学习部,通过将由所述模拟波形生成部生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
根据第8项所述的识别器的生成方法及第16项所述的识别器生成装置,可得到能够高精度地检测在色谱图波形等中观测到的峰、且高精度地计算该峰的面积值或高度值的识别器。由此,能够降低峰的漏检或误检,并且能够提高基于峰面积值或高度值的定量的精度。
附图标记说明
10测量部
11流动相容器
12泵
13注射器
14色谱柱
15检测器
2峰检测处理部
20数据解析部
21数据收集部
22峰检测处理部
221识别模型存储部
222峰决定部
23定性与定量解析部
24输入部
25显示部
30实测数据输入部
31峰波形提取部
32对抗学习执行部
33生成模型决定部
40随机噪声产生部
41生成器
42数据选择部
43识别器
44判定部
45更新处理部
50教师数据生成部
501随机噪声产生部
502生成器
503噪声加法部
51学习执行部
52识别模型构建部。

Claims (16)

1.一种数据生成方法,是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成方法,其特征在于,通过计算机执行以下步骤:
参数频率信息获取步骤,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成步骤,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
2.如权利要求1所述的数据生成方法,其特征在于,
在所述参数频率信息获取步骤中,将从所述多个信号波形分别得到的形状参数作为输入,通过执行使用了生成模型和识别模型这两个相互对抗的模型的对抗学习,获取包含形状参数的频率信息的生成模型,在所述模拟波形生成步骤中,使用所述生成模型生成模拟的信号波形。
3.如权利要求1所述的数据生成方法,其特征在于,
在所述参数频率信息获取步骤中,从信号波形中提取孤立的峰且SN比为基准值以上的峰并求出与该峰相关的形状参数。
4.如权利要求3所述的数据生成方法,其特征在于,
与所述峰相关的形状参数包含峰高、峰宽、峰的拖尾程度中的任一个。
5.如权利要求1所述的数据生成方法,其特征在于,
所述形状参数包含峰数、相邻的峰间的距离、及位于信号波形的中央附近的峰的位置,在所述模拟波形生成步骤中,通过这些形状参数的频率信息决定模拟的信号波形中的峰位置。
6.如权利要求1所述的数据生成方法,其特征在于,
在所述模拟波形生成步骤中,通过对使用所述生成模型生成的包含1个或多个峰的波形加上噪声,生成模拟的信号波形。
7.如权利要求1所述的数据生成方法,其特征在于,
缩小至所述目标领域收集到的多个信号波形是通过对特定种类的试样进行分析而得到的色谱图波形或频谱波形。
8.一种识别器的生成方法,是使用如权利要求1所述的数据生成方法的识别器的生成方法,其特征在于,
执行学习步骤,通过将在所述模拟波形生成步骤中生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
9.一种数据生成装置,是模拟地生成通过机器学习创建用于检测在信号波形中观测到的峰的识别器时所使用的数据的数据生成装置,其特征在于,具备:
参数频率信息获取部,根据缩小至进行用于创建所述识别器的机器学习的目标领域而收集到的多个信号波形,求出表征该信号波形的形状的预先决定的形状参数的频率信息;
模拟波形生成部,利用所述形状参数的频率信息,生成能够包含多个峰的重叠及噪声的模拟的信号波形,
提供所述模拟的信号波形作为机器学习的训练用或评价用的数据。
10.如权利要求9所述的数据生成装置,其特征在于,
在所述参数频率信息获取部中,将从所述多个信号波形分别得到的形状参数作为输入,通过执行使用了生成模型和识别模型这两个相互对抗的模型的对抗学习,获取包含形状参数的频率信息的生成模型,所述模拟波形生成部使用所述生成模型生成模拟的信号波形。
11.如权利要求9所述的数据生成装置,其特征在于,
所述参数频率信息获取部从信号波形中提取孤立的峰且SN比为基准值以上的峰并求出与该峰相关的形状参数。
12.如权利要求11所述的数据生成装置,其特征在于,
与所述峰相关的形状参数包含峰高、峰宽、峰的拖尾程度中的任一个。
13.如权利要求9所述的数据生成装置,其特征在于,
所述形状参数包含峰数、相邻的峰间的距离、及位于信号波形的中央附近的峰的位置,所述模拟波形生成部通过这些形状参数的频率信息决定模拟的信号波形中的峰位置。
14.如权利要求9所述的数据生成装置,其特征在于,
所述模拟波形生成部通过对使用所述生成模型生成的包含1个或多个峰的波形加上噪声,生成模拟的信号波形。
15.如权利要求9所述的数据生成装置,其特征在于,
缩小至所述目标领域收集到的多个信号波形是通过对特定种类的试样进行分析而得到的色谱图波形或频谱波形。
16.一种识别器生成装置,是使用如权利要求9所述的数据生成装置的识别器生成装置,其特征在于,
具备学习部,通过将由所述模拟波形生成部生成的模拟的信号波形作为训练用数据的机器学习,创建用于检测在信号波形中观测到的峰的识别器。
CN202180043989.2A 2020-06-23 2021-06-03 数据生成方法及装置、以及识别器的生成方法及装置 Pending CN115997219A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020107606 2020-06-23
JP2020-107606 2020-06-23
PCT/JP2021/021184 WO2021261202A1 (ja) 2020-06-23 2021-06-03 データ生成方法及び装置、並びに、識別器の生成方法及び装置

Publications (1)

Publication Number Publication Date
CN115997219A true CN115997219A (zh) 2023-04-21

Family

ID=79282579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180043989.2A Pending CN115997219A (zh) 2020-06-23 2021-06-03 数据生成方法及装置、以及识别器的生成方法及装置

Country Status (4)

Country Link
US (1) US20230280317A1 (zh)
JP (1) JP7424595B2 (zh)
CN (1) CN115997219A (zh)
WO (1) WO2021261202A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115326783B (zh) * 2022-10-13 2023-01-17 南方科技大学 拉曼光谱预处理模型生成方法、系统、终端及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5333089B2 (ja) * 2009-09-09 2013-11-06 株式会社島津製作所 クロマトグラフ用データ処理装置
JP2019086475A (ja) * 2017-11-09 2019-06-06 富士通株式会社 学習プログラム、検出プログラム、学習方法、検出方法、学習装置および検出装置
JP7014100B2 (ja) * 2018-08-27 2022-02-01 日本電信電話株式会社 拡張装置、拡張方法及び拡張プログラム
CN113056672A (zh) * 2018-11-19 2021-06-29 佳能株式会社 信息处理装置、信息处理装置的控制方法、程序、计算装置和计算方法

Also Published As

Publication number Publication date
WO2021261202A1 (ja) 2021-12-30
US20230280317A1 (en) 2023-09-07
JP7424595B2 (ja) 2024-01-30
JPWO2021261202A1 (zh) 2021-12-30

Similar Documents

Publication Publication Date Title
EP2344874B1 (en) Methods of automated spectral peak detection and quantification without user input
US8428889B2 (en) Methods of automated spectral peak detection and quantification having learning mode
CN104536883B (zh) 一种静态缺陷检测方法及其系统
JP6760380B2 (ja) 分析データ処理方法及び分析データ処理装置
US20210311001A1 (en) Information processing apparatus, control method of information processing apparatus, and computer-readable storage medium therefor
WO2020105566A1 (ja) 情報処理装置、情報処理装置の制御方法、プログラム、算出装置、及び算出方法
Cain et al. Development of an enhanced total ion current chromatogram algorithm to improve untargeted peak detection
CN115997219A (zh) 数据生成方法及装置、以及识别器的生成方法及装置
CN114611582B (zh) 一种基于近红外光谱技术分析物质浓度的方法及系统
US11841373B2 (en) Information processing apparatus, method for controlling information processing apparatus, and program
Laursen et al. Enhanced monitoring of biopharmaceutical product purity using liquid chromatography–mass spectrometry
CN102798683B (zh) 一种通用的气相色谱-质谱全组分定量分析方法
US20230160862A1 (en) Waveform information inference method and device, and peak waveform processing method and device
JPWO2020044435A1 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
Zhang et al. Application of a target-guided data processing approach in saturated peak correction of GC× GC analysis
US20220373522A1 (en) Waveform Analytical Method and Waveform Analytical Device
US20230280316A1 (en) Learning data producing method, waveform analysis device, waveform analysis method, and recording medium
US20230280318A1 (en) Learning data producing method, waveform analysis device, waveform analysis method, and recording medium
US20230132326A1 (en) Data processing method, data processing system, and computer program
US20230296572A1 (en) Training Method
US20230243789A1 (en) Analysis device and analysis method
EP4105672A1 (en) Systems and methods for provisioning training data to enable neural networks to analyze signals in nmr measurements
US20230110970A1 (en) Multiple sample analysis method
Wang et al. Leveraging CNN for Automated Peak Picking in Untargeted Metabolomics without Parameter Dependencies
CN118243838A (zh) 色谱图的数据处理方法、数据处理装置、色谱装置、数据处理程序以及记录介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination