CN117083523A - 学习用数据制作方法以及学习用数据制作装置 - Google Patents

学习用数据制作方法以及学习用数据制作装置 Download PDF

Info

Publication number
CN117083523A
CN117083523A CN202180094903.9A CN202180094903A CN117083523A CN 117083523 A CN117083523 A CN 117083523A CN 202180094903 A CN202180094903 A CN 202180094903A CN 117083523 A CN117083523 A CN 117083523A
Authority
CN
China
Prior art keywords
peak
measurement
peaks
data
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180094903.9A
Other languages
English (en)
Inventor
坂井健朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shimadzu Corp
Original Assignee
Shimadzu Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shimadzu Corp filed Critical Shimadzu Corp
Publication of CN117083523A publication Critical patent/CN117083523A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7206Mass spectrometers interfaced to gas chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/02Food
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Engineering & Computer Science (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

一种制作学习用数据的方法,该学习用数据用于制作识别属性互不相同的多个目标试样的识别器,在该方法中,获取属性已知的多个参照试样的测定数据,使用第一方法针对参照试样的测定数据提取峰信息,将通过第一方法提取出的峰信息与基准试样的峰信息进行对照,由此判定有无峰的缺失,使用与第一方法相比算法和/或参数不同的第二方法,针对被判定为峰缺失的参照试样的测定数据提取峰信息,将通过第二方法提取出的峰信息与基准试样的峰信息进行对照,由此判定有无峰的缺失,从被判定为峰没有缺失的测定数据中获取特征量来制作学习用数据。

Description

学习用数据制作方法以及学习用数据制作装置
技术领域
本发明涉及一种根据通过使用色谱质谱联用仪等分析装置对试样进行测定而得到的测定数据来制作学习用数据的技术。
背景技术
在食品的生产、加工、流通等各过程中要求高水平的品质管理,近年来,该要求进一步提高。以往,食品的制造、加工的现场处的品质劣化的评价一般基于颜色、气味、味道等人的主观评价。对此,尝试了使用分析装置进行品质评价以进行更客观且高效的评价。例如在专利文献1中记载有通过对鱼肉腐烂时所产生的不挥发性生物胺类进行定量分析来评价鱼肉的新鲜程度。
但是,在食品试样中含有多种多样的物质,仅对指标物质的浓度进行解析的话有时无法充分地捕捉品质的变化。另外,多数情况下,即使是同一种类且同一新鲜程度的食品,物质的含量也各不相同,特别是在食品的劣化的发展程度低时存在容易发生误判定或看漏这样的问题。
因此,尝试了以下方法:将通过利用特定的分析装置对表示对象物的属性的标签信息(新鲜程度等)已知的多个参照试样(食品试样等)分别进行测定而得到的测定数据作为学习用数据,通过使用了这些学习用数据的机器学习来构建学习模型。在该方法中,将通过对多个参照试样的测定数据进行机器学习来使学习模型的参数收敛至能够以预先决定的基准以上的精度识别目标试样的新鲜程度的水平所得到的学习模型用作识别器。这样制作出的识别器对在具有相同标签信息的学习用数据中共用的特征量(例如,对具有相同标签信息的(相同新鲜程度的)参照试样赋予特征的源自多种物质的测定强度的峰的位置或强度)的相关性进行判别,来识别目标试样的新鲜程度。因而,与仅基于单一或特定的种类的指标物质进行解析相比,不易发生误判定或看漏。
现有技术文献
专利文献
专利文献1:日本特开2017-122677号公报
专利文献2:日本特开2020-165847号公报
发明内容
发明要解决的问题
为了制作高精度地识别目标试样的新鲜程度的识别器,需要通过使用了准确地提取参照试样的测定数据中包含的特征量所得到的多个学习用数据的机器学习来构建学习模型。例如,在使用通过气相色谱质谱分析得到的测定数据(质量色谱)的情况下,提取与源自参照试样中含有的各物质的所有的峰分别对应的特征量(保留时间、质荷比以及测定强度),来制作学习数据。
在从质量色谱中提取峰(进行峰拣选)时,使用者从预先准备的多个方法(由提取峰的算法以及与峰高有关的阈值等参数组合而成的方法)中选择适于色谱的基线的形状的方法。即使是标签信息相同的参照试样,各参照试样中含有的物质的量也不相同。另外,也有时将多个参照试样分多次进行测定或者用多台装置进行测定,但在该情况下,即使各参照试样中含有的物质的量相同,测定数据的基线的形状、峰的高度也会按每个试样而略有不同。由此,即使使用相同的方法和参数进行峰拣选,有时也无法提取一部分参照试样的测定数据中包含的小峰,从而制作出缺失了与未被提取出的峰对应的特征量的学习用数据。如果使用特征量缺失的学习用数据,则难以使学习模型的参数收敛。另外,即使学习模型的参数收敛,如果将这样的学习模型用作识别器,则识别的精度也有可能降低。虽然也能够考虑排除峰的一部分未被提取出的测定数据而仅根据所有的峰均被提取出的测定数据来制作学习用数据,但在该情况下,学习用数据的数量变少了所排除的测定数据的数量,因此仍然存在难以使学习模型的参数收敛或识别器的精度降低的可能性。
本发明要解决的问题是提供以下一种技术:能够在从通过对试样的属性已知的参照试样进行分析而得到的测定数据中提取峰来制作学习用数据时制作抑制了特征量的缺失的学习用数据。
用于解决问题的方案
为了解决上述问题而完成的本发明是一种学习用数据制作方法,用于制作学习用数据,所述学习用数据用于制作识别属性互不相同的多个目标试样的识别器,在所述学习用数据制作方法中,
针对属性已知的多个参照试样中的每个参照试样,获取包含针对规定参数的多个测定强度的峰的测定数据,
使用预先准备的第一方法,针对所述多个参照试样的测定数据的每个测定数据提取与多个所述峰有关的峰信息,
将通过所述第一方法提取出的峰信息与预先准备的相同属性的基准试样的峰信息进行对照,由此判定有无峰的缺失,
使用与所述第一方法相比用于提取峰的算法和/或参数不同的第二方法,针对被判定为所述峰缺失的参照试样的测定数据提取与多个所述峰有关的峰信息,
将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失,
从被判定为通过所述第一方法或所述第二方法提取出的峰没有缺失的测定数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
另外,为了解决上述问题而完成的本发明的另一个方式是一种学习用数据制作装置,用于制作学习用数据,该学习用数据用于制作识别属性互不相同的多个目标试样的识别器,所述学习用数据制作装置具备:
测定数据获取部,其针对属性已知的多个参照试样的每个参照试样,通过使用了色谱质谱联用仪的测定来获取质量色谱数据;
基准试样信息存储部,其保存有与所述参照试样相同属性的基准试样的质量色谱中包含的峰信息;
方法信息存储部,其保存有第一方法和第二方法的信息,其中,所述第一方法用于从所述质量色谱数据中提取峰,所述第二方法与该第一方法相比用于提取峰的算法和/或参数不同;
第一峰提取部,其针对所述多个参照试样的质量色谱数据中的每个质量色谱数据,使用所述第一方法提取与多个所述峰有关的峰信息;
第一判定部,其通过将由所述第一峰提取部提取出的峰信息与相同属性的所述基准试样的峰信息进行对照来判定有无峰的缺失;
第二峰提取部,其针对由所述第一判定部判定为峰缺失的参照试样的质量色谱数据,使用所述第二方法提取与多个所述峰有关的峰信息;
第二判定部,其将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失;以及
学习用数据制作部,其从由所述第一判定部或所述第二判定部判定为峰没有缺失的质量色谱数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
发明的效果
例如在参照试样为食品试样的情况下上述属性是指新鲜程度或产地,例如在参照试样为生物体试样的情况下上述属性是指特定疾病的有无。
在本发明所涉及的学习用数据制作方法中,首先,针对属性已知的多个试样的每个试样获取包含针对规定参数的多个测定强度的峰的测定数据。另外,在本发明所涉及的学习用数据制作装置中,针对属性已知的多个参照试样的每个参照试样,通过使用了色谱质谱联用仪的测定获取质量色谱数据,来作为测定数据。关于测定数据的获取,既可以通过实际用分析装置测定试样来进行,或者也可以通过读出在事先的测定中得到的测定数据来进行。
接着,使用预先准备的第一方法来针对多个试样的测定数据的每个测定数据提取测定强度的峰。然后,通过将所提取出的峰与预先准备的相同属性的基准试样的峰信息进行对照,来判定是否提取出所有的峰(有无峰的缺失)。对于基准试样的峰信息,例如能够使用被登记在库中的峰信息。或者,也能够将属性相同的多个参照试样的测定数据进行累计来制作累计测定数据,并将通过第一方法从该累计测定数据中提取出的峰的信息用作基准试样的峰信息。第一方法和第二方法是包含提取峰的算法以及与峰高有关的阈值等参数的组合的方法。对于提取峰的算法,既可以使用以往使用的算法,或者也可以使用在后述的实施例中说明的特征性算法。
针对被判定为峰缺失的试样的测定数据,使用与第一方法相比用于提取峰的算法或参数不同的第二方法提取测定强度的峰。然后,将通过第二方法提取出的峰与预先准备的相同属性的基准试样的峰信息进行对照,由此判定有无峰的缺失。最后,从被判定为通过第一方法或第二方法提取出的峰没有缺失的测定数据中获取与该测定数据的多个峰分别对应的特征量,来制作学习用数据。
在本发明所涉及的学习用数据制作方法及装置中,由于从被判定为峰没有缺失的测定数据中获取与该测定数据的测定强度的峰对应的特征量来制作学习用数据,因此能够制作抑制了特征量的缺失的学习用数据。另外,即使是无法通过第一方法提取出所有峰的测定数据,也从能够使用第二方法提取所有峰的测定数据中获取特征量来制作学习用数据,因此能够抑制学习用数据的数量的减少。
附图说明
图1是包括本发明所涉及的学习用数据制作装置的一个实施例的试样评价系统的主要部分结构图。
图2是本发明所涉及的学习用数据制作方法的一个实施例所涉及的流程图。
图3是在本实施例中获取到的测定数据即质量色谱数据的示意图。
图4是与以往的峰提取方法有关的示意图。
图5是通过以往的峰提取方法从质量色谱中提取峰而得到的结果的例子。
图6是通过以往的峰提取方法从质量色谱中提取峰而得到的结果的另一例。
图7是通过以往的峰提取方法从质量色谱中提取峰而得到的结果的另一例。
图8是与本实施例的基于峰提取方法进行的基线的划定有关的示意图。
图9是使用本实施例的峰提取方法划定了质量色谱的基线的例子。
图10是使用本实施例的峰提取方法提取质量色谱的峰而得到的结果的例子。
具体实施方式
下面,参照附图对本发明的学习用数据制作方法及装置的一个实施例进行说明。
本实施例的试样评价系统1用于估计目标试样的属性。具体地说,用于估计例如作为食品的目标试样的新鲜程度、产地,或者基于生物体试样来判定被检者是否具有特定的疾病。
在图1中示出包括本实施方式的学习用数据制作装置的试样评价系统1的主要部分结构。本实施例的试样评价系统1大致由气相色谱质谱联用仪(GC-MS)2和控制处理部3构成。
控制处理部3具备存储部31。在存储部31中设置有方法信息存储部311和基准试样信息存储部312。在方法信息存储部311中保存有用于从质量色谱数据中提取峰的方法的信息,该质量色谱数据是通过使用气相色谱质谱联用仪2进行试样的测定而得到的。方法的信息中包含关于提取峰的算法以及与峰高有关的阈值等参数的组合的信息。提取峰的算法能够包含以往使用的连接点法、水平法、新基线法、本实施例的特征性的使用极小测定点的方法(后述)。
在基准试样信息存储部312中,针对各种试样保存有属性不同的多个基准试样的质量色谱数据以及与该质量色谱中出现的多个峰有关的峰信息(保留时间、质荷比以及测定强度)。除此之外,在存储部312中还保存有利用气相色谱质谱联用仪2测定各种试样时的测定条件等。
控制处理部3还具备测定数据获取部32、基准试样数据制作部33、第一峰提取部34、第二峰提取部35、判定部36、测定数据显示部36、学习用数据制作部38、学习模型构建部39以及识别器制作部40,来作为功能块。控制处理部3的实体是个人计算机或更高性能的被称为工作站的计算机,通过利用该计算机的处理器执行预先安装于该计算机的试样评价系统用程序,来具体实现上述的各功能块。另外,控制处理部3连接有键盘、鼠标等输入部4、以及液晶显示器等显示部5。
控制处理部3的构成要素中的方法信息存储部311和基准试样信息存储部312、测定数据获取部32、基准试样数据制作部33、第一峰提取部34、第二峰提取部35、判定部36、测定数据显示部36以及学习用数据制作部38的功能块构成本实施例的学习用数据制作装置10。在本实施例中,将学习用数据制作装置10组装成控制处理部3的一部分,但也可以将学习用数据制作装置10构成为独立于控制处理部3的装置。
接着,参照图2的流程图对本实施例的试样评价系统1的动作进行说明。在该例中,制作用于估计目标试样的属性的识别器。
使用者在制作识别器之前,将参照试样预先设置于与气相色谱质谱联用仪2连接的自动取样器(省略图示)。参照试样是与目标试样相同种类的试样,其属性是已知的。另外,按每个属性预先设置多个参照试样。
当使用者指示开始制作识别器时,测定数据获取部32将设置于自动取样器的参照试样按规定的顺序导入到气相色谱质谱联用仪2。在气相色谱质谱联用仪2中,参照试样在气相色谱仪的柱内按每种成分被分离出之后,被导入到质谱仪,利用电子离子化源等离子化源将各成分进行离子化,在被进行了质量分离之后利用离子检测器进行检测。来自离子检测器的输出信号依次被发送到控制处理部3,各参照试样的测定数据(质量色谱数据)被保存于存储部31。这样,针对所有的参照试样获取质量色谱数据(步骤1)。如在图3中示意性地示出的那样,质量色谱数据表示针对时间和质荷比这2个参数的离子的测定强度,在试样中含有的成分从气相色谱仪的柱流出的时间(以t1为中心的保留时间)内具有由该成分生成的离子的质荷比的峰。
当所有的参照试样的测定结束并保存了质量色谱数据时,基准试样数据制作部33按每个属性对参照试样进行分组。然后,将属性相同的参照试样的质量色谱数据进行累计,来制作累计质量色谱数据(步骤2)。基准试样数据制作部33接着使第一峰提取部34发挥功能,根据累计质量色谱数据制作提取离子电流色谱(特定质荷比的离子的测定强度的色谱),使用方法信息存储部311中保存的算法和参数来提取峰(步骤3)。
在此,对由第一峰提取部34从提取离子电流色谱中提取峰的处理进行说明。作为从提取离子电流色谱、表示总离子的强度的总离子电流色谱中提取峰的方法,以往使用了例如连接点法、水平法等(图4)。在图4中,对通过各种方法提取出的峰附加阴影线。在连接点法中,将色谱的波形的斜率超过了预先决定的值的点设为峰起点S,之后,将波形的斜率低于预先决定的值的点设为峰终点E。然后,将峰起点S与峰终点E连结来划定基线并提取峰。另外,在水平法中,在与上述同样地划定了峰起点S和峰终点E之后,引出穿过这2点中的测定强度小的点的水平线,划定该水平线与从另一个点引出的垂线的交点来作为基线,并提取峰。并且,在对叠加有多个峰的峰进行分离时,例如使用新基线法。在新基线法中,与上述同样地划定峰起点S和峰终点E,并将位于2个峰之间的极小点作为峰分离点M来将峰分离。
在基线的变动少的测定数据的情况下,无论使用连接点法和水平法中的哪一种方法,峰提取的精度都不会产生大的差异。但是,在通过使用了气相色谱仪的测定而得到的测定数据的情况下,由于被称为柱流失的现象,有时在色谱的后半部分,基线会随时间增大。以往,使用连接点法、水平法、新基线法等预先设定的算法从色谱数据中自动地提取峰,但如果所设定的算法或参数不合适,则如图5所示那样,由色谱的后半部分的漂移引起的基线的上升被提取为峰。
为了应对这样的漂移,有时能够设定考虑了由漂移引起的基线上升的参数。图6是将该参数设定为50这样的值的图,但即使设定该参数值,由漂移引起的基线的上升依然被提取为峰。另一方面,图7是将该参数设定为100这样的值的图。在图7中,漂移没有被提取为峰,在这一点上可以说是恰当的。但是,在色谱的前半部分,基线的斜率过于大,难以准确地获取峰的高度、面积。
因此,在本实施例中,将色谱波形的极小点连结来划定基线并提取峰。如在图8上部示意性地示出的那样,色谱是由多个测定点连结而成的。在本实施例的算法中,将构成色谱的测定点中的测定强度比相邻的2个测定点中的任一个测定点都小的测定点作为极小测定点来提取出。然后,通过对所提取出的极小测定点进行线性插值,来划定如图8下部所示那样的基线。此外,根据极小测定点划定基线的方法不限于线性插值,也可以设为连结这些极小测定点的近似曲线等。然后,将距该基线的高度超过预先决定的阈值的部分提取为峰。
在提取离子电流色谱中,只要保留时间和质荷比这2个参数均不共用,峰就不会叠加,因此,通过线性插值来划定基线即可,但在针对测定强度的参数为1个的色谱(总离子电流色谱等)中,有时会出现叠加峰,在该情况下,在2个峰之间可能出现极小点。如果在这样的情况下对包括峰之间的极小点在内的极小测定点进行线性插值,则无法准确地划定基线。在这样的情况下,优选的是,代替对极小测定点进行线性插值,而例如针对所有的极小测定点求出近似曲线,由此降低叠加峰内的极小点等离群值的影响来准确地划定基线。或者,分析人员也可以删除峰之间的极小点等离群值,对除此以外的极小测定点进行线性插值来划定基线。
图9是示出针对与图5~图7示出的色谱同样地在后半部分存在大的漂移的质量色谱数据划定基线所得到的结果的图,图10是示出以该基线为基准来提取比该基线高出预先决定的阈值的峰(图中的圆圈标记表示峰顶)所得到的结果的图。根据该结果可知,即使在色谱的后半部分存在大的漂移的情况下,也能够通过使用本实施例的方法来准确地提取峰。
即使在属性相同的多个参照试样的质量色谱数据中的某一个质量色谱数据中包含难以提取的峰的情况下,也能够在将它们进行累计时通过其它参照试样的测定强度进行补充,从而峰的提取变得容易。因而,如果使用累计质量色谱数据,则能够容易地提取所有的峰。因此,在本实施例中,将从累计质量色谱数据中提取出的多个峰的位置信息用作基准试样的峰信息。基准试样数据制作部33按每个属性将基准试样的峰信息保存于基准试样信息存储部312。
接着,第一峰提取部34与上述同样地,使用方法信息存储部311中保存的算法和参数从各参照试样的质量色谱数据中提取峰(步骤5)。
当由第一峰提取部34提取出峰时,判定部36从基准试样信息存储部312读出与该参照试样相同属性的基准试样的峰信息。然后,将参照试样的峰信息与基准试样的峰信息进行比较(步骤6)。
当判定部36判定为参照试样的峰信息与基准试样的峰信息一致(即不存在峰的缺失)时(在步骤7中为“否”),获取与从该参照试样的质量色谱数据中提取出的峰对应的特征量来制作学习用数据(步骤11)。在此所提取的特征量中包含与各峰的峰顶对应的保留时间以及质荷比的组合。另外,除此之外,特征量中也可以包含该峰的高度或面积值。也就是说,作为学习用数据,制作出相当于峰列表的数据。
当判定部36判定为参照试样的峰信息与基准试样的峰信息不一致(应该提取的多个峰中的一部分峰未被提取出)时(在步骤7中为“是”),针对该参照试样显示用于通知峰缺失的画面。另外,测定数据显示部37根据该参照试样的质量色谱数据来制作与缺失的峰的质荷比对应的提取离子电流色谱,并显示于显示部5的画面。在画面上显示的质量色谱中,在尽管是原本应该被提取出的峰但未被第一峰提取部34提取出峰的位置(即,虽然包含在基准试样的峰信息中但未包含在参照试样的峰信息中的峰的保留时间及质荷比的位置)处叠加显示有记号。使用者能够确认显示有标记的位置的提取离子电流色谱的波形,并通过算法或参数的变更来判断第二峰提取部35是否能够提取峰。
另外,判定部36判定针对该参照试样进行了提取峰的处理的次数是否达到预先决定的次数(规定次数)。该次数被设定为例如5次。在该阶段,还仅仅是第一峰提取部34进行了峰的提取(峰提取处理次数是1次),因此判定为没有达到规定次数(在步骤8中为“否”)。
当在步骤8中判定为“否”时,第二峰提取部35变更先前进行的峰提取时的算法和/或参数(步骤9)。在本例中,不变更算法,而降低被判断为峰的阈值(基线的高度)。具体地说,例如将峰提取时的阈值(参数)变更为由第一峰提取部34提取峰时的阈值的90%(将阈值降低10%)。
接着,第二峰提取部35使用变更后的阈值,再次从该参照试样的质量色谱数据中提取峰(步骤5)。然后,再次与基准试样的峰信息进行比较(步骤6),当判定为不存在峰的缺失时(在步骤7中为“否”),获取与提取出的多个峰分别对应的特征量来制作学习用数据(步骤11)。当制作学习用数据时,判定针对所有的参照试样的质量色谱数据进行的处理是否结束(步骤12)。然后,在存在未处理的数据的情况下,针对下一个参照试样的质量色谱数据,按照与上述相同的过程进行步骤5以后的处理。
另一方面,当再次判定为存在峰的缺失时(在步骤7中为“是”),判定峰提取处理的次数是否达到规定次数(步骤8),在没有达到规定次数的情况下,再次变更算法和/或参数(步骤9)。在本例中,将由第一峰提取部34进行峰提取处理时的阈值设为100,将阈值每次降低10。或者,也可以以上次的峰提取处理时为基准将阈值降低10%。
在即使进行了规定次数的提取峰的处理也未消除峰的缺失的情况下(在步骤8中为“是”),结束与该参照试样的质量色谱数据有关的处理,针对下一个参照试样的质量色谱数据,按照与上述同样的过程进行步骤5以后的处理。
当所有的参照试样的质量色谱数据的处理完成时(在步骤12中为“是”),学习模型构建部39通过使用以上述过程制作出的学习用数据进行机器学习来构建学习模型(步骤13)。作为机器学习的方法,能够使用例如被称为监督学习的方法。具体地说,除了能够使用支持向量机、神经网络、随机森林等代表性的机器学习的方法之外,还能够使用逻辑回归、正交部分的最小二乘法、k-近邻法等多变量解析的方法。当通过机器学习构建学习模型时,识别器制作部40利用该学习模型来制作识别器,并保存于存储部31(步骤14)。
以往,在制作学习用数据时,在从属性已知的参照试样的质量色谱数据中提取出的峰有缺失的情况下,例如排除该质量色谱数据,而仅使用所有峰均被提取出的质量色谱数据来制作出学习用数据。其结果,学习用数据的数量变少了被排除的质量色谱数据的数量,存在难以使学习模型的参数收敛或识别器的精度降低的情况。或者,在专利文献2中,将在所有的学习用数据中没有共同出现的(在某一个学习用数据中有缺失)的峰的信息全部删除,制作出学习用数据。在该情况下,制作删除了可能对峰的属性的判断有用的峰信息的学习用数据,因此仍然存在难以使学习模型的参数收敛或识别器的精度降低的可能性。
对此,在本实施例中,即使在由第一峰提取部34进行的峰提取处理中峰缺失的情况下,也一边变更算法或参数,一边由第二峰提取部35尝试进行规定次数的峰的提取。因此,能够抑制学习用数据的数量的减少。另外,由于在通过与基准试样的峰信息进行比较而确认了所有的峰均被提取出的基础上制作学习用数据,因此能够制作不存在特征量的缺失的学习用数据。
上述实施例是一例,能够按照本发明的主旨适当地变更。在上述实施例中列举出的数值始终只不过是一例,能够根据目标试样、测定数据的特性等适当地变更。
另外,在上述实施例中,也可以是,使用者在显示部5的画面上确认被判定为存在峰的缺失的质量色谱,仅在能够在缺失的峰位置处确认出峰的情况下,使用者指示由第二峰提取部35进行峰的提取。如果像这样构成,则无需在峰的提取无法进行(或极其困难)的质量色谱数据的处理中花费时间,能够高效地制作学习用数据。
在上述实施例中设为以下结构:仅使用根据极小测定点划定基线并提取峰这样的算法,在由第二峰提取部35提取峰时仅变更阈值,但也可以在由第二峰提取部35提取峰时变更提取峰的算法。
在上述实施例中,对由气相色谱质谱联用仪2测定参照试样而得到的质量色谱数据进行了处理,但对于包含针对规定参数的多个测定强度的峰的各种测定数据,能够应用与本实施例相同的结构。此外,在此所说的峰中也能够包括在吸光光谱等中出现的向下的峰。
[方式]
本领域技术人员能够理解的是,上述多个例示性的实施方式是以下方式的具体例。
(第一项)
本发明的一个方式是一种学习用数据制作方法,用于制作学习用数据,所述学习用数据用于制作识别属性互不相同的多个目标试样的识别器,在所述学习用数据制作方法中,
针对属性已知的多个参照试样中的每个参照试样,获取包含针对规定参数的多个测定强度的峰的测定数据,
使用预先准备的第一方法,针对所述多个参照试样的测定数据的每个测定数据提取与多个所述峰有关的峰信息,
将通过所述第一方法提取出的峰信息与预先准备的相同属性的基准试样的峰信息进行对照,由此判定有无峰的缺失,
使用与所述第一方法相比用于提取峰的算法和/或参数不同的第二方法,针对被判定为所述峰缺失的参照试样的测定数据提取与多个所述峰有关的峰信息,
将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失,
从被判定为通过所述第一方法或所述第二方法提取出的峰没有缺失的测定数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
(第八项)
本发明的另一个方式是一种学习用数据制作装置,用于制作在机器学习中使用的学习模型,所述机器学习用于制作构成识别属性互不相同的多个目标试样的识别器的学习模型,所述学习用数据制作装置具备:
测定数据获取部,其针对属性已知的多个参照试样的每个参照试样,通过使用了色谱质谱联用仪的测定来获取质量色谱数据;
基准试样信息存储部,其保存有与所述参照试样相同属性的基准试样的质量色谱中包含的峰信息;
方法信息存储部,其保存有第一方法和第二方法的信息,其中,所述第一方法用于从所述质量色谱数据中提取峰,所述第二方法与该第一方法相比用于提取峰的算法和/或参数不同;
第一峰提取部,其针对所述多个参照试样的质量色谱数据中的每个质量色谱数据,使用所述第一方法提取与多个所述峰有关的峰信息;
第一判定部,其通过将由所述第一峰提取部提取出的峰信息与相同属性的所述基准试样的峰信息进行对照来判定有无峰的缺失;
第二峰提取部,其针对由所述第一判定部判定为峰缺失的参照试样的质量色谱数据,使用所述第二方法提取与多个所述峰有关的峰信息;
第二判定部,其将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失;以及
学习用数据制作部,其从由所述第一判定部或所述第二判定部判定为峰没有缺失的质量色谱数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
在第一项的学习用数据制作方法中,首先,针对属性已知的多个试样的每个试样获取包含针对规定参数的多个测定强度的峰的测定数据。另外,在第八项的学习用数据制作装置中,针对属性已知的多个参照试样的每个参照试样,通过使用了色谱质谱联用仪的测定获取质量色谱数据,来作为测定数据。关于测定数据的获取,既可以通过实际用分析装置测定试样来进行,或者也可以通过读出在事先的测定中得到的测定数据来进行。
接着,针对多个试样的测定数据的每个测定数据,使用预先准备的第一方法来提取测定强度的峰。然后,通过将所提取出的峰与预先准备的相同属性的基准试样的峰信息进行对照,来判定是否提取出所有的峰(有无峰的缺失)。对于基准试样的峰信息,例如能够使用被登记在库中的峰信息。
针对被判定为峰缺失的试样的测定数据,使用与第一方法相比用于提取峰的算法或参数不同的第二方法提取测定强度的峰。然后,将通过第二方法提取出的峰与预先准备的相同属性的基准试样的峰信息进行对照,由此判定有无峰的缺失。最后,从被判定为通过第一方法或第二方法提取出的峰没有缺失的测定数据中获取与该测定数据的多个峰分别对应的特征量,来制作学习用数据。
在第一项的学习用数据制作方法和第八项的学习用数据制作装置中,由于从被判定为峰没有缺失的测定数据中获取与该测定数据的测定强度的峰对应的特征量来制作学习用数据,因此能够制作抑制了特征量的缺失的学习用数据。另外,即使是无法通过第一方法提取出所有峰的测定数据,也从使用第二方法提取所有峰的测定数据中获取特征量来制作学习用数据,因此能够抑制学习用数据的数量的减少。
(第二项)
在第一项所述的学习用数据制作方法中,其中,
将被判定为在通过所述第一方法或所述第二方法提取出的峰信息中存在峰的缺失的测定数据进行画面显示。
(第三项)
在第二项所述的学习用数据制作方法中,其中,
针对被进行了画面显示的所述测定数据中的由使用者指定的测定数据,通过所述第二方法提取峰信息。
在第二项的学习用数据制作方法中,使用者通过在画面上确认被判定为峰缺失的测定数据,能够确认是否存在能够提取的强度的峰。另外,在第三项的学习用数据制作方法中,使用者仅指定存在能够提取的强度的峰的测定数据,由此能够减轻通过第二方法提取峰信息所涉及的处理的负荷。
(第四项)
根据第一项至第三项中的任一项所述的学习用数据制作方法,其中,
针对属性相同的多个目标试样的每个目标试样获取所述测定数据,
将所述属性相同的多个参照试样的测定数据进行累计,来制作累计测定数据,
作为所述基准试样的峰信息,使用通过所述第一方法提取与所述累计测定数据中包含的多个峰有关的峰信息所得到的峰信息。
在第四项的学习用数据制作方法中,对于如过去未进行足够数量的测定的试样、未知试样那样在数据库等中没有收录测定数据的试样,也能够使用基准试样的峰信息。
(第五项)
根据第一项至第四项中的任一项所述的学习用数据制作方法,其中,
将使用算法或/和参数不同的方法提取与多个所述峰有关的峰信息并判定有无所述峰的缺失的处理重复进行规定次数,直到判定为不存在该峰的缺失为止。
在第五项的学习用数据制作方法中,由于自动地制作学习用数据的处理被重复进行规定次数,因此使用者不需要每次都判断是否需要进行收集峰信息的处理,能够减轻使用者的负担。
(第六项)
根据第一项至第五项所述的学习用数据制作方法,其中,
所述第一方法和/或所述第二方法提取构成所述测定数据的多个测定点中的、该测定点的测定强度与左右两侧相邻的测定点的测定强度中的任一方相比都低的测定点,来作为极小测定点,
使用所述极小测定点来决定所述多个测定点的基线,
针对所述多个测定点的每个测定点,基于从该测定点的测定强度减去所述基线而得到的值超过了预先决定的阈值这一情况来提取峰。
(第七项)
根据第六项所述的学习用数据制作方法,其中,
所述第一方法和所述第二方法均是使用所述极小测定点决定基线并提取峰的方法,在所述第一方法和所述第二方法中,所述阈值不同。
在通过气相色谱质谱分析而得到的质量色谱数据中,基线的大小也随时间变化。在第六项的学习用数据制作方法中,由于使用极小测定点来决定基线,因此能够良好地使用于从对于参数而言不仅测定强度变化而且基线也变化那样的测定数据中提取峰。另外,在从这样的测定数据中提取峰时,如第七项所述的学习用数据制作方法那样,能够将相对于第一方法仅变更了用于判断是否为峰的阈值的方法用作第二方法。
附图标记说明
1:试样评价系统;10:学习用数据制作装置;2:气相色谱质谱联用仪;3:控制处理部;31:存储部;311:方法信息存储部;312:基准试样信息存储部;312:存储部;32:测定数据获取部;33:基准试样数据制作部;34:第一峰提取部;35:第二峰提取部;36:判定部;37:测定数据显示部;38:学习用数据制作部;39:学习模型构建部;39:识别器制作部;4:输入部;5:显示部。

Claims (8)

1.一种学习用数据制作方法,用于制作学习用数据,所述学习用数据用于制作识别属性互不相同的多个目标试样的识别器,在所述学习用数据制作方法中,
针对属性已知的多个参照试样中的每个参照试样,获取包含针对规定参数的多个测定强度的峰的测定数据,
使用预先准备的第一方法,针对所述多个参照试样的测定数据的每个测定数据提取与多个所述峰有关的峰信息,
将通过所述第一方法提取出的峰信息与预先准备的相同属性的基准试样的峰信息进行对照,由此判定有无峰的缺失,
使用与所述第一方法相比用于提取峰的算法和/或参数不同的第二方法,针对被判定为所述峰缺失的参照试样的测定数据提取与多个所述峰有关的峰信息,
将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失,
从被判定为通过所述第一方法或所述第二方法提取出的峰没有缺失的测定数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
2.根据权利要求1所述的学习用数据制作方法,其中,
将被判定为在通过所述第一方法或所述第二方法提取出的峰信息中存在峰的缺失的测定数据进行画面显示。
3.根据权利要求2所述的学习用数据制作方法,其中,
针对被进行了画面显示的所述测定数据中的由使用者指定的测定数据,通过所述第二方法提取峰信息。
4.根据权利要求1所述的学习用数据制作方法,其中,
针对属性相同的多个目标试样的每个目标试样获取所述测定数据,
将所述属性相同的多个参照试样的测定数据进行累计,来制作累计测定数据,
作为所述基准试样的峰信息,使用利用所述第一方法提取与所述累计测定数据中包含的多个峰有关的峰信息所得到的峰信息。
5.根据权利要求1所述的学习用数据制作方法,其中,
将使用算法或/和参数不同的方法提取与多个所述峰有关的峰信息并判定有无所述峰的缺失的处理重复进行规定次数,直到判定为不存在该峰的缺失为止。
6.根据权利要求1所述的学习用数据制作方法,其中,
所述第一方法和/或所述第二方法提取构成所述测定数据的多个测定点中的、该测定点的测定强度与左右两侧相邻的测定点的测定强度中的任一方相比都低的测定点,来作为极小测定点,
使用所述极小测定点来决定所述多个测定点的基线,
针对所述多个测定点的每个测定点,基于从该测定点的测定强度减去所述基线而得到的值超过了预先决定的阈值这一情况来提取峰。
7.根据权利要求6所述的学习用数据制作方法,其中,
所述第一方法和所述第二方法均是使用所述极小测定点决定基线并提取峰的方法,在所述第一方法和所述第二方法中,所述阈值不同。
8.一种学习用数据制作装置,用于制作学习用数据,所述学习用数据用于制作识别属性互不相同的多个目标试样的识别器,所述学习用数据制作装置具备:
测定数据获取部,其针对属性已知的多个参照试样的每个参照试样,通过使用了色谱质谱联用仪的测定来获取质量色谱数据;
基准试样信息存储部,其保存有与所述参照试样相同属性的基准试样的质量色谱中包含的峰信息;
方法信息存储部,其保存有第一方法和第二方法的信息,其中,所述第一方法用于从所述质量色谱数据中提取峰,所述第二方法与该第一方法相比用于提取峰的算法和/或参数不同;
第一峰提取部,其针对所述多个参照试样的质量色谱数据中的每个质量色谱数据,使用所述第一方法提取与多个所述峰有关的峰信息;
第一判定部,其通过将由所述第一峰提取部提取出的峰信息与相同属性的所述基准试样的峰信息进行对照来判定有无峰的缺失;
第二峰提取部,其针对由所述第一判定部判定为峰缺失的参照试样的质量色谱数据,使用所述第二方法提取与多个所述峰有关的峰信息;
第二判定部,其将通过所述第二方法提取出的峰信息与所述基准试样的峰信息进行对照,由此判定有无峰的缺失;以及
学习用数据制作部,其从由所述第一判定部或所述第二判定部判定为峰没有缺失的质量色谱数据中获取与多个所述峰分别对应的特征量,来制作学习用数据。
CN202180094903.9A 2021-03-19 2021-10-05 学习用数据制作方法以及学习用数据制作装置 Pending CN117083523A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163163205P 2021-03-19 2021-03-19
US63/163,205 2021-03-19
PCT/JP2021/036791 WO2022195935A1 (ja) 2021-03-19 2021-10-05 学習用データ作成方法及び学習用データ作成装置

Publications (1)

Publication Number Publication Date
CN117083523A true CN117083523A (zh) 2023-11-17

Family

ID=83319963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180094903.9A Pending CN117083523A (zh) 2021-03-19 2021-10-05 学习用数据制作方法以及学习用数据制作装置

Country Status (5)

Country Link
US (1) US20240167988A1 (zh)
EP (1) EP4310494A4 (zh)
JP (1) JPWO2022195935A1 (zh)
CN (1) CN117083523A (zh)
WO (1) WO2022195935A1 (zh)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5211753B2 (ja) * 2008-02-27 2013-06-12 株式会社島津製作所 クロマトグラフ用データ処理装置
JP2017122677A (ja) 2016-01-08 2017-07-13 東洋製罐グループホールディングス株式会社 イオン感応膜、イオン選択性電極、及びイオンセンサ
JP6944188B2 (ja) * 2017-09-22 2021-10-06 東海電子株式会社 におい判定システム、および、におい判定プログラム
JP2019086475A (ja) * 2017-11-09 2019-06-06 富士通株式会社 学習プログラム、検出プログラム、学習方法、検出方法、学習装置および検出装置
WO2020044435A1 (ja) * 2018-08-28 2020-03-05 株式会社島津製作所 データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
JP7056750B2 (ja) * 2018-10-02 2022-04-19 株式会社島津製作所 識別器の生成方法
JP2020165847A (ja) 2019-03-29 2020-10-08 株式会社島津製作所 食品の品質判定方法、及び、食品品質判定装置

Also Published As

Publication number Publication date
JPWO2022195935A1 (zh) 2022-09-22
US20240167988A1 (en) 2024-05-23
EP4310494A1 (en) 2024-01-24
EP4310494A4 (en) 2024-09-11
WO2022195935A1 (ja) 2022-09-22

Similar Documents

Publication Publication Date Title
JP4594154B2 (ja) 少なくとも1つの成分および生成する生成物の観点でサンプルを特性付けし、特性付けデータを提供するための2つ以上の技術に基づいた少なくとも1つのサンプルの分析;方法、システムおよび指示プログラム
EP1384248B1 (en) Method and system for identifying and quantifying chemical components of a mixture
JP2020165847A (ja) 食品の品質判定方法、及び、食品品質判定装置
JP5327388B2 (ja) 分析データ処理方法及び装置
JP6658884B2 (ja) クロマトグラフ質量分析用データ処理装置
JP5458913B2 (ja) 三次元クロマトグラム用データ処理方法及びデータ処理装置
US11209406B2 (en) Data processing device
JP2008249440A (ja) クロマトグラフィー質量分析方法、及びクロマトグラフ質量分析装置
CN105518448A (zh) 色谱质谱分析用数据处理装置
CN111060642A (zh) 一种对同品种不同产地烟叶分类鉴别的方法
US9582909B2 (en) Chromatograph mass spectrometry data processing device
JP6308107B2 (ja) クロマトグラフ質量分析データ処理装置
CN106574914B (zh) 全二维色谱用数据处理装置
JP6748085B2 (ja) 干渉検出および着目ピークのデコンボルーション
JPWO2020044435A1 (ja) データ解析方法、データ解析装置、及びデータ解析用の学習モデル作成方法
JP6060793B2 (ja) ピーク検出装置
CN117083523A (zh) 学习用数据制作方法以及学习用数据制作装置
US20180321201A1 (en) Chromatography/mass spectrometry data processing device
JP2019148455A (ja) 測定データ処理方法、測定データ処理装置、及び測定データ処理用プログラム
JP7334788B2 (ja) 波形解析方法及び波形解析装置
CN116754702A (zh) 分析装置
US20230280316A1 (en) Learning data producing method, waveform analysis device, waveform analysis method, and recording medium
JP4839248B2 (ja) 質量分析システム
CN116868273A (zh) 质谱数据的分析方法
JP2024152037A (ja) 波形解析方法、波形解析装置、及び分析装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination