CN113711026A

CN113711026A - 理论质量的离群值检测方法

Info

Publication number: CN113711026A
Application number: CN202080030284.2A
Authority: CN
Inventors: 大久保达树
Original assignee: Shimadzu Corp
Current assignee: Shimadzu Corp
Priority date: 2019-05-10
Filing date: 2020-02-20
Publication date: 2021-11-26
Anticipated expiration: 2040-02-20
Also published as: CN113711026B; JP7095805B2; US20220230708A1; JPWO2020230397A1; WO2020230397A1

Abstract

从与多种微生物的同种蛋白质有关的理论质量的集合即理论质量群中决定代表值(步骤S1)，确定与所述代表值对应的氨基酸序列或碱基序列、即基准序列(步骤S2)，计算与所述理论质量群中包含的各理论质量对应的氨基酸序列或碱基序列同所述基准序列之间的编辑距离(步骤S3)，将所述理论质量群中包含的理论质量中的、与所述编辑距离为预先决定的阈值以上的氨基酸序列或碱基序列对应的理论质量决定为离群值(步骤S4)。由此，能够从由与多种微生物的同种蛋白质有关的理论质量数据构成的数据集合中适当地检测出离群值。

Description

理论质量的离群值检测方法

技术领域

本发明涉及一种理论质量的离群值检测方法。

背景技术

近年来，开发了一种利用了质谱分析的微生物识别方法(例如，参照专利文献1)。在该方法中，首先，在使用了MALDI-MS(基质辅助激光解吸离子化质谱分析)等软离子化法的质谱分析装置中对从被检微生物提取出的含有蛋白质的溶液或被检微生物的悬浊液等进行分析。此外，“软”离子化法是指不易发生高分子量化合物的分解的离子化法。然后，通过将所得到的质谱与已知微生物的质谱进行对照，来确定被检微生物的微生物种或微生物株。

在如上述那样的利用了质谱分析的微生物识别方法中，着眼于在微生物的种间或株间质量不同的质谱峰来进行微生物的识别。这样的质谱峰被称为标记峰，例如源自如核糖体蛋白质那样保存性比较高的蛋白质的峰被用作标记峰。

为了基于标记峰的质量进行未知微生物的识别，需要预先按微生物的每个种或每个株确定标记峰的质量并将其数据库化。然而，获取种或株不同的大量微生物并针对各微生物实际进行质谱分析来测定标记峰的质量是不现实的。因此，考虑基于公共数据库(例如GenBank、EMBL或DDBJ等)中收录的各种微生物的氨基酸序列数据或碱基序列数据(以下称为“氨基酸序列数据等”)计算标记峰的理论质量(计算质量)，并将其利用于通过如上所述的质谱分析进行的未知微生物的识别。

现有技术文献

专利文献

专利文献1：国际公开第2017/168742号

发明内容

发明要解决的问题

然而，基于公共数据库中收录的氨基酸序列数据等计算出的理论质量即使是源自同种的蛋白质的理论质量，有时也会因微生物株的不同而其值出现大的偏差。在这样的情况下，当理论质量的值与其它值大不相同时，成为该理论质量的基础的氨基酸序列数据等中包含错误(由序列的错误等引起的错误)的可能性高。因此，如果采用这样的理论质量作为标记峰的质量，则有可能引起微生物识别的精度降低。因此，需要基于某种判断基准来去除离群值(即，具有成为所述识别精度降低的原因的异常值的数据)，但存在确定不出用于去除离群值的适当的判断基准这样的问题。

本发明是鉴于上述问题而完成的，其目的在于提供一种从由与多种微生物的同种蛋白质有关的理论质量数据构成的数据集合中适当地检测出离群值的方法。

用于解决问题的方案

为了解决上述问题而完成的本发明所涉及的理论质量的离群值检测方法包括以下步骤：

从理论质量群中决定代表值，该理论质量群是与多种微生物的同种蛋白质有关的理论质量的集合；

确定基准序列，该基准序列是与所述代表值对应的氨基酸序列或碱基序列；

分别计算与所述理论质量群中包含的各理论质量对应的氨基酸序列或碱基序列同所述基准序列之间的编辑距离；以及

将所述理论质量群中包含的理论质量中的、与所述编辑距离为预先决定的阈值以上的氨基酸序列或碱基序列对应的理论质量决定为离群值。

发明的效果

根据上述本发明所涉及的理论质量的离群值检测方法，能够从由与多种微生物的同种蛋白质有关的理论质量数据构成的数据集合中适当地检测出离群值。

附图说明

图1是示出具备本发明的一个实施方式所涉及的理论质量的离群值检测装置的系统的主要部分结构的框图。

图2是示出所述理论质量的离群值检测装置的处理流程的流程图。

图3是示出实施例中的离群值检测结果的图。

图4是示出与图3的序列模式A～F对应的氨基酸序列的图。

具体实施方式

下面，参照附图对用于实施本发明的方式进行说明。图1是示出具备本实施方式所涉及的理论质量的离群值检测装置(以下，称为“离群值检测装置10”)的系统的主要部分结构的框图。该系统具备离群值检测装置10、存储部20、显示部31以及输入部32。

离群值检测装置10具备数据获取部11、代表值决定部12、序列确定部13、编辑距离计算部14、离群值判定部15、离群值去除部16以及显示控制部17来作为功能块。该离群值检测装置10通过将具备CPU和存储器等的个人计算机作为硬件资源、并且利用所述CPU执行安装于该个人计算机的专用的软件来具体实现。

存储部20具备：原始数据存储部21，其存储作为离群值检测的对象的理论质量的数据(原始数据)；以及处理完毕数据存储部22，其存储从所述原始数据去除了离群值后的数据(处理完毕数据)。该存储部20能够通过内置或外置于构成离群值检测装置10的所述个人计算机的HDD(Hard Disk Drive：硬盘驱动器)或SSD(Solid State Drive：固态硬盘)等大容量存储装置来实现。

显示部31由液晶显示装置等构成，输入部32由键盘和鼠标等指示设备构成，显示部31和输入部32均连接于构成离群值检测装置10的所述个人计算机。

图2是示出由本实施方式所涉及的离群值检测装置10执行的离群值检测的执行过程的流程图。在检测离群值时，预先将作为离群值检测对象的多个理论质量(与多种微生物的同种蛋白质有关的理论质量。相当于本发明的“理论质量群”)、成为各理论质量的基础的氨基酸序列以及与所述理论质量的来源(所述理论质量是与哪个微生物株的哪种蛋白质有关的理论质量)相关的信息彼此建立关联并存储到原始数据存储部21中。此外，所述多个理论质量能够通过以下方式求出：从现有的数据库(例如，GenBank、EMBL或DDBJ等公共数据库)获取多个微生物株中的同种蛋白质(例如，核糖体蛋白质中的任一种蛋白质)的氨基酸序列，通过根据该氨基酸序列进行计算来求出各蛋白质的计算分子量，并且将该计算分子量转换为各蛋白质的离子质量。在用MALDI-MS分析了生物体试样时，已知主要检测[M+H]⁺(M为分子，H为氢原子)、[M-H]^-或[M+Na]⁺(Na为钠原子)等分子量关联离子。因而，如果质谱分析条件已确定，则能够容易地进行从所述计算分子量向离子质量的转换。另外，在所述现有的数据库中收录有各种微生物株中含有的蛋白质的计算分子量的情况下，也可以使用该计算分子量来计算理论质量。

在由本实施方式所涉及的离群值检测装置10进行的离群值的检测中，首先，代表值决定部12经由数据获取部11访问存储部20，由此读出存储在原始数据存储部21中的所述多个理论质量M1、M2、···Mn(n为自然数)，并确定它们的众数值Mf，将该众数值Mf决定为代表值(步骤S1)。接着，序列确定部13经由数据获取部11访问存储部20，由此参照原始数据存储部21来确定与众数值Mf对应的氨基酸序列(以下，称为“基准序列Ar”)(步骤S2)。接着，编辑距离计算部14经由数据获取部11访问存储部20，由此从原始数据存储部21读出与所述多个理论质量M1、M2、···Mn分别对应的氨基酸序列A1、A2···、An，并计算各氨基酸序列A1、A2、···An与所述基准序列Ar的编辑距离d1、d2···、dn(步骤S3)。在此，编辑距离(Levenshtein distance)是表示两个字符串相差何种程度的值，具体地说，被定义为通过插入、删除或置换一个字符来将一个字符串变形为另一个字符串所需的过程(procedure)的最小次数。

接着，离群值判定部15针对在步骤S3中与各氨基酸序列A1、A2、···An相关地求出的编辑距离d1、d2···、dn分别判定其值是否超过了预先决定的阈值dt，在超过了预先决定的阈值dt的情况下，离群值判定部15将与该氨基酸序列对应的理论质量判定为离群值(步骤S4)。此外，所述阈值dt例如预先由用户经由输入部32进行设定并存储在存储部20中。之后，离群值去除部16经由数据获取部11访问存储部20，由此获取存储在原始数据存储部21中的数据集合(即，被设为离群值检测的对象的多个理论质量、成为各理论质量的基础的氨基酸序列以及与各理论质量的来源有关的信息)，从该数据集合中去除与在步骤S4中被判定为离群值的理论质量有关的数据，并将去除后的数据集合存储在处理完毕数据存储部22中(步骤S5)。进而，当上述一系列的处理完成时，在显示控制部17的控制下在显示部31中显示与被判定为离群值的理论质量有关的数据，来呈现给用户(步骤S6)。

如上所述，在本实施方式所涉及的离群值检测装置中，基于基准序列与各氨基酸序列的差异来检测理论质量的离群值，因此能够考虑了氨基酸序列数据进行适当的离群值检测。由此，剩余的理论质量(即，存储在处理完毕数据存储部22中的数据集合)成为源自相互类似的氨基酸序列(即，可靠性高的氨基酸序列)的理论质量。因而，采用这些理论质量作为各微生物株的标记峰的质量，通过将被检微生物的质谱分析结果与所述各微生物株的标记峰的质量进行对照，能够进行高精度的微生物株识别。另外，本实施方式所涉及的离群值检测装置如上述那样基于作为数值数据的理论质量来决定代表值，并将与该代表值对应的氨基酸序列作为基准序列，因此例如与将作为字符串数据的氨基酸序列之间进行比较并将出现频率最高的序列作为基准序列的情况相比，能够抑制计算量来提高处理速度。

以上，列举具体例对用于实施本发明的方式进行了说明，但本发明并不限定于上述实施方式，在本发明的主旨的范围内允许适当变更。例如，在上述实施方式中，代表值决定部12将多个理论质量中的众数值决定为代表值，但也可以取代众数值而将中央值作为代表值。

另外，在上述实施方式中，序列确定部13将与所述代表值对应的氨基酸序列决定为基准序列，编辑距离计算部14分别求出该基准序列与同多个理论质量分别对应的氨基酸序列之间的编辑距离，但也可以取而代之地，序列确定部13将与所述代表值对应的碱基序列决定为基准序列，编辑距离计算部14分别求出该基准序列与同多个理论质量分别对应的碱基序列之间的编辑距离。

另外，在上述实施方式中，存储部20内置或外置于构成离群值检测装置10的所述个人计算机，但存储部20也可以设置于直接或者经由因特网或LAN(Local Area Network：局域网)等与构成离群值检测装置10的所述个人计算机连接的其它计算机。在该情况下，数据获取部11能够经由所述因特网或LAN访问存储部20。

另外，在上述实施方式中，在计算机中预先安装有用于检测离群值的程序，但也能够将该程序存储在计算机可读记录介质中来提供。

实施例

从公共数据库中获取89株的痤疮丙酸杆菌(Cutibacterium acnes)的核糖体蛋白质L15的氨基酸序列，计算它们各自的理论质量，并从中检测出离群值。

所述理论质量分布在15347.58～20635.62的范围，众数值是15384.69。将所述89株的氨基酸序列中的与所述众数值对应的氨基酸序列作为基准序列，计算出该基准序列与所述89株的氨基酸序列的各株的氨基酸序列之间的编辑距离。用于离群值判定的阈值设为2，将与所述编辑距离超过了该阈值的株有关的理论质量判定为离群值。

在图3中示出所述离群值的检测结果。此外，为了简化，在此仅示出了与所述89株中的20株有关的结果。在该图中，从左起第四列示出了各株的核糖体蛋白质L15的氨基酸序列模式。在图4中示出与氨基酸序列模式A-F对应的氨基酸序列。图4中示出的氨基酸序列模式中的模式A的序列是与所述众数值对应的氨基酸序列(即，基准序列)。所述基准序列的氨基酸序列与各株的核糖体蛋白质L15的氨基酸序列之间的编辑距离如图3的从左起第三列所示那样，编辑距离超过了2的株(即，被判定为理论质量为离群值的株)是在该图中标注有*的4株。

[方式]

本领域技术人员能够理解的是，上述例示性的实施方式是以下方式的具体例。

(第一项)一个方式所涉及的理论质量的离群值检测方法，包括以下步骤：

根据第一项所述的理论质量的离群值检测方法，能够考虑氨基酸序列或碱基序列来进行理论质量的离群值检测，因此能够实现可靠性高的离群值检测。

(第二项)在第一项所述的理论质量的离群值检测方法中，所述代表值可以是众数值。

与理论质量的众数值对应的氨基酸序列或碱基序列可以说是在与所述理论质量群中包含的各个理论质量对应的氨基酸序列或碱基序列中出现频率最高的序列。因此，通过将该众数值作为理论质量的代表值，能够将出现频度最高的序列作为基准序列，通过基于距该基准序列的距离(编辑距离)进行离群值判定，能够实现更恰当的离群值判定。

(第三项)在第一项或第二项所述的理论质量的离群值检测方法中，所述同种蛋白质可以是核糖体蛋白质。

(第四项)一个方式所涉及的程序是用于使计算机执行第一项～第三项中的任一项所述的理论质量的离群值检测方法的程序。

(第五项)一个方式所涉及的非暂时性的计算机可读介质存储有第四项所述的程序。

附图标记说明

10：离群值检测装置；11：数据获取部；12：代表值决定部；13：序列确定部；14：编辑距离计算部；15：离群值判定部；16：离群值去除部；17：显示控制部；20：存储部；21：原始数据存储部；22：处理完毕数据存储部；31：显示部；32：输入部。

Claims

1.一种理论质量的离群值检测方法，包括以下步骤：

从理论质量群中决定代表值，所述理论质量群是与多种微生物的同种蛋白质有关的理论质量的集合；

确定基准序列，所述基准序列是与所述代表值对应的氨基酸序列或碱基序列；

2.根据权利要求1所述的理论质量的离群值检测方法，其特征在于，

所述代表值是众数值。

3.根据权利要求1所述的理论质量的离群值检测方法，其特征在于，

所述同种蛋白质是核糖体蛋白质。

4.一种程序，用于使计算机执行根据权利要求1所述的理论质量的离群值检测方法。