CN107679052A

CN107679052A - 大数据分析方法以及利用了该分析方法的质谱分析系统

Info

Publication number: CN107679052A
Application number: CN201710433983.1A
Authority: CN
Inventors: 松浦正明; 藤田雄郎; 藤田雄一郎; 梶原茂树
Original assignee: Shimadzu Corp; Teikyo University
Current assignee: Shimadzu Corp; Teikyo University
Priority date: 2016-06-09
Filing date: 2017-06-09
Publication date: 2018-02-09
Anticipated expiration: 2037-06-09
Also published as: US11315774B2; JP2017224283A; JP7057913B2; CN107679052B; US20170358434A1

Abstract

一种大数据分析方法以及利用了该分析方法的质谱分析系统。包含同时具有多个簇的特征的样本，根据其特征将多个样本聚类为适当的个数。针对多个样本的质谱数据提取出相关性高的峰(S2)，使用提取出的峰提取相关性高的样本对(S3)。然后，一边排除相关性低的样本一边将相关性高的样本对进行结合来形成核心簇(S4)，利用对各核心簇赋予特征的特异峰将多个核心簇进行整合来形成簇(S5～S7)。该簇还包括混合有多个簇的混合簇。然后，基于每个簇的特异峰来构建成员判定式(S8～S12)，基于成员判定式将包括簇决定时排除的样本在内的所有样本进行簇划分(S14)。另外，还能够利用成员判定式决定任意的样本的簇。

Description

大数据分析方法以及利用了该分析方法的质谱分析系统

技术领域

本发明涉及一种对通过各种测定、测量或观测等各种各样的方法收集到的大数据进行分析的大数据分析方法以及在通过质谱分析得到的数据的分析中利用了该分析方法的质谱分析系统。

背景技术

近年来，癌的治疗技术急速地进步，正在开发一种治疗效果比以往高的各种各样的治疗药物和治疗方法。然而，为了获得高治疗效果，当然不可缺少准确的诊断。关于癌，已知以下情况：即使是相同的生物体部位的癌，在几种癌中也能够根据癌细胞的特征将癌分类为多个亚型。例如在乳腺癌的情况下，如非专利文献1所公开的那样，已知分类为鲁米那(Luminal)A型、鲁米那B型、基底(Basal)型等亚型。另外，如非专利文献2所公开的那样，在肾癌的情况下也已知在肾细胞癌中存在几个亚型。例如在乳腺癌的情况下，已知根据亚型的不同而适当的治疗方法和抗癌剂的种类等存在差异，也开始致力于这样的治疗。如此一来，在癌的诊断中不仅要求单纯地诊断是不是癌，还要求在是癌的情况下准确地诊断是哪种亚型的癌。

专业的病理医生一般通过对从被检者采集到的生物体组织的一部分进行显微镜观察来进行是不是癌的判定的病理诊断。另外，在乳腺癌的情况下，现状是为了在临床现场简便且近似地判定基于使用了微阵列的遗传基因发现分布而发现到的亚型，要基于通过免疫染色法对HER2(遗传基因蛋白的一种)、ER(雌激素受体)、PgR(孕酮受体)等进行判定所得到的阳性、阴性的判定结果的组合来进行亚型的判定。然而，例如即使在如乳腺癌那样亚型的种类比较少的情况下，基于已被发现为微阵列的遗传基因发现分布数据的研究成果的亚型与基于在临床现场使用的免疫染色判定出的亚型也未必一致。如此一来，期望一种使用了生物学标记的更加准确且客观的亚型的判定方法。

近年来，在以癌的诊断为代表的与生物体有关的分析中频繁使用质谱分析。通常，能够通过对样本实施质谱分析来获取遍及规定的质荷比范围的质谱数据。通过在该质谱上观测源自样本所含有的各种成分的峰，能够根据与该峰对应的质荷比值来确定成分。另外，还能够根据该峰的信号强度值来进行该成分的定量。因而，例如在由于癌导致在生物体内产生某种特定的成分或该成分的量发生变化的情况下，捕获与该特定的成分对应的峰来作为特异的标记，由此能够判定是否产生癌及判定该癌的亚型。

一般而言，作为根据每个样本的数据将多个样本分类为多个簇的分析方法，已知各种各样的方法，在所谓的数据挖掘中也经常利用这些方法。作为这些方法，例如经常使用层序聚类分析(Hierarchical Cluster Analysis＝HCA)、k-means法等分割优化聚类，还经常使用共有聚类等。例如在非专利文献3中公开了一种通过微阵列分析即在癌组织中发现的遗传基因的分析来判别乳腺癌的亚型的技术，但在该分析中为了将样本分类为多个亚型而利用了H CA。另外，还存在一种利用通过主成分分析(Principal Component Analysis＝PCA)得到的得分图来将多个样本分类为多个组的方法。在PCA的得分图上，相似性的高低用与各样本对应的标绘位置的距离来表示，因此能够根据该标绘位置的距离来将样本分组。

然而，这些现有的分析方法未必都适用于癌的亚型的判定之类的用途。其大的理由之一是由于存在某个样本不只属于一个亚型而是属于多个亚型。例如非专利文献4示出了以下情况：虽然是肾癌的例子，但在一个生物体组织中混合存在多种亚型的癌细胞。另外，目前明确的是在除肾脏以外的部位的癌中也混合存在多种亚型的癌细胞。如此一来，在判定癌的亚型时，需要设想在一个样本中混合存在多个亚型的癌的情况。

然而，上述HCA等聚类分析的方法以某个样本可能分类到某一个簇为前提，没有考虑横跨多个簇的情况。另外，在利用了PCA的得分图的方法中也不能判定某个样本是否横跨多个簇或是否属于与这些簇不同的簇。这样，在现有的分析方法中，自身无法判定原本属于多个亚型(即多个亚型混合存在)的样本是否属于这些多个亚型，当然也无法判定混合存在哪个亚型。

另外，在HCA、共有聚类中，虽然最开始能够不指定簇数而一边判定最佳簇数一边对样本进行分类，但在该最佳簇数的判定中需要由分析者进行某种指示、设定，从而有可能掺杂分析者的主观想法。因此，未必能够准确且始终以固定的基准分类为多个簇。另外，在HCA等中对各簇赋予特征的标记(在如上述那样使用质谱数据的情况下为特异峰)的个数越多，另外该标记的强度的差越大，则能够进行越明确的簇划分。换言之，在标记的个数少或标记的强度差小的情况下，有可能无法进行准确的簇分类。

另外，在不判定用于确定簇的多个样本归属于哪个簇而判定新的样本归属于哪个簇时，需要确定对各簇赋予特征的标记。然而，显然如果不能进行适当的簇划分则难以确定可靠性高的标记，如果标记的可靠性低则也难以将新的样本准确地分配给簇。另外，即使簇划分是准确的，但例如如果在多个簇间有一部分标记重合(例如某个标记无论在簇X中还是在簇Y中其存在量均异常地增加等)、或某个簇中的多个标记的存在量与其它簇中的标记的存在量相比增加的情况和减少的情况混在一起等标记的条件复杂、或者簇的总数相当多，则有可能无法提取适当的标记或者即使能够提取适当的标记其精度也低。

当然，与上述问题同样的问题并不限于癌的亚型的判定。一般而言，在各个领域中均存在以下要求：希望基于通过对多个样本分别进行测定、测量、观测等所得到的数据来将这些样本分类为具有特征的多个组。例如在将生物体试样设为对象的医疗、医药品开发、生命科学的领域中，进行被统称为组学(Omics)分析的染色体组分析、蛋白初解物分析、代谢体分析、相互作用组分析、细胞组分析等，但在这些领域中，并不限于质谱分析，还需要基于在各种分析、测定中收集到的数据对多个样本进行分组，另外调查新的样本归属于哪个组。另外，在质谱分析成像图像、X射线图像、荧光图像等各种图像数据的分析中也大多想要对多个样本进行分组。

另外，在与设备分析不同的领域，例如在市场营销数据分析、物流数据分析、用于品质管理或异常检测的数据分析、金融数据分析、气象数据分析等被称为所谓的大数据分析的各种数据分析即数据挖掘中，往往需要同样的数据分析技术。

非专利文献1：《2011年第12回国際乳がん学会での乳癌サブタイプの定義と推奨される全身治療》，[线上]，一般財団法人日本バプテスト連盟医療団日本バプテスト病院，[平成28年1月18日检索]，因特网<URL：http://www.jbh.or.jp/departments/geka/policy/nyugan_chiryo.html>

非专利文献2：《腎臓がん種類と症状》，[线上]，東京女子医科大学病院泌尿器科腎臓病総合医療センター，[平成28年1月18日检索]，因特网＜U RL：http://www.twmu.ac.jp/KC/Urology/disease/cancer/kidney/＞

非专利文献3：T.Sorlie，其他16位，《Gene expression patterns of breastcarcinomas distinguish tumor subclasses with clinical implications》，Proceedings of the National Academy of Sciences of the United States of Ameri ca，2001年9月11日，Vol.98，No.19，pp.10869-10874

非专利文献4：M.Gerlinger，其他，《Intratumor Heterogeneity and Bran chedEvolution Revealed by Multiregion Sequencing》，The New England J ournal ofMedicine，2012年3月8日，Vol.366，No.10，pp.883-892

发明内容

发明要解决的问题

即，在如上述的癌的亚型的分类那样需要对多个样本进行分组的情况下，要求满足如下要求。

(1)即使在某个样本横跨多个簇的情况下，换言之即使在存在掺杂有多个簇的簇的情况下，也能够适当地对多个样本的全部或者一部分进行簇划分。

(2)能够不依赖分析者的主观意识和判断地将样本簇划分为基于定量的客观的指标和基准的簇数。

(3)即使在假设提取出与实际的簇数不同的个数的簇的情况下，也能够针对各簇提取可靠性高的标记。

(4)即使在标记的条件复杂、或标记的个数不充足、或样本间的标记的强度差某种程度上小、或簇数多的情况下，也能够进行适当的簇划分以及可靠性高的标记的提取。

(5)不仅能够将多个样本划分为簇，还能够以高可靠性判定另外新获取到的样本归属于哪个簇。

本发明是为了解决上述问题而完成的，其目的在于提供一种能够满足如上所述那样的各种要求的大数据分析方法。

另外，本发明的其它目的在于提供一种能够以高可靠性简便地判定没有用于学习的样本归属于预先设定的多个簇中的哪个簇的质谱分析系统。

用于解决问题的方案

为解决上述问题而完成的本发明所涉及的大数据分析方法是针对多个样本分析按每个样本以多个变量值所对应的定量值为信息的数据的方法，包括以下步骤：

a)簇决定步骤，针对所有样本判定样本间的数据的相似性，一边将被推断为与任一个样本之间的相似性均相对低的样本排除，一边决定各自集合了被推断为相似性相对高的样本的多个簇；

b)标记决定步骤，在所述多个簇的各簇中，将对该簇赋予特征的一个或多个变量值定为标记；以及

c)判定信息生成步骤，在所述多个簇的各簇中，基于在所述标记决定步骤中决定的一个或多个标记来生成用于判定任意的样本是否归属于该簇的判定信息，

其中，能够基于所述多个簇各自所对应的判定信息来决定任意的样本可能归属的一个或多个簇。

在此，“针对所有样本，分析按每个样本以多个变量值所对应的定量值为信息的数据”是指如下数据：在行方向和列方向中的一个方向上以该变量值为参数，并且在行方向和列方向中的另一方向上以样本的标识符(例如样本名称、样本编号等)为参数，能够用以定量值为矩阵的要素的矩阵来表现。

具体地说，例如在分析通过对样本进行质谱分析所得到的质谱数据的情况下，上述多个变量值是质荷比值，上述定量值是信号强度值。

另外，在微阵列分析中，上述多个变量值是微阵列的遗传基因的探针组名称，上述定量值是发现量。

在以HCA为代表的以往的普通聚类分析中，以使作为对象的所有样本属于某个簇的方式来决定多个簇。也就是说，通过用某个边界分割所有样本来将该所有样本分为多个组。与此相对地，在本发明所涉及的大数据分析方法中，在簇决定步骤中，在作为对象的所有样本中剩余数据相似的可靠性高的样本，另外将貌似不与任一个样本相似的样本从决定簇时的作业中排除，由此基于被推断为其相似性的准确度高的一部分样本来决定簇。

在标记决定步骤中，在如上述那样决定的多个簇的各簇中，将对该簇赋予特征的一个或多个变量值定为标记。在该标记决定步骤中，例如，优选在一个簇中包含的样本与不包含在该簇中的样本之间对相同变量值所对应的定量值进行t检验等差异显著性检验，基于该检验的结果、例如在t检验中求出的p值，来决定标记。在差的差异显著性检验中，例如能够利用韦尔奇(We lch)的t检验、施图登特(Student)的t检验、威尔科克森(Wilcoxon)秩和检验等。

在判定信息生成步骤中，在多个簇的各簇中基于上述一个或多个标记来生成用于判定任意的样本是否归属于该簇的判定信息。判定信息例如是任意的样本的数据，也就是在输入了一个或多个标记的定量值时输出该样本归属于该簇的推断概率的判定式。这样，能够基于作为对象的多个样本来决定多个簇，能够提取对该各簇赋予特征的标记，还能够生成能够基于该标记来判定任意的样本是否归属于该簇的信息。

例如在存在多个具有某个簇A和另一个簇B二者的特征、即本来应该被判定为归属于这两者的样本的情况下，在以往的聚类分析方法中，在聚类的过程中，基于这些样本离簇A和簇B中的哪一方更近这一观点来决定样本分别归属于簇A和簇B中的哪一方。与此相对地，在本发明所涉及的大数据分析方法中，在聚类的过程中，如上述那样的样本仅与簇A相似或仅与簇B相似，但判定为其准确度低，形成与簇A、B不同的簇的可能性高。其结果是，能够形成混合存在多个簇的特征的其它簇。

在本发明所涉及的大数据分析方法中能够进行以下处理：在上述簇决定步骤中例如将被推断为样本间的数据的相似度以高的准确度高的样本对设为核心，以该核心为中心将被推断为与该样本对中的一个样本之间的相似性高的样本进行汇集，由此决定多个簇。

另外，此时，在各样本中，通过判定不同变量值所对应的定量值的相似性来在样本内提取相似性高的变量值，基于样本间的提取出的该变量值的相似性来搜索样本对即可。

作为测量不同变量值所对应的定量值的相似性的高低的指标、测量样本间的变量值的相似性的高低的指标，期望具有定量性，因此典型地说使用相关系数即可。在该情况下，对于每个样本，在不同变量值所对应的定量值的相关系数、具体地说例如与不同的质荷比对应的峰间的相关系数为预先决定的第一阈值以上时判定为存在该相似性即可，或者样本间的提取出的该变量值的相关系数、具体地说例如样本间的该质荷比的相关系数为预先决定的第二阈值以上时将该样本设为样本对即可。此外，期望能够适当调整这种第一阈值、第二阈值。

另外，在本发明所涉及的大数据分析方法中也可以进行如下处理：在上述簇决定步骤中，针对将任意的两个样本组合而成的所有样本对判断相似性，按样本对的相似性从高到低的顺序(例如上述相关系数从大到小的顺序)，以在已被选择为核心的簇的成员中均不包含为条件来决定作为新核心的代表样本对，另一方面，将在已被选择为核心的簇中包含一个样本的样本对汇集到与该代表样本对相同的组，由此形成作为簇的基础的核心簇。

另外，也可以在如上述那样形成核心簇之后，在各个核心簇中，将对该核心簇赋予特征的多个变量值定为标记，在多个核心簇中共用了规定比例以上的该标记的情况下，对所述多个核心簇进行整合来形成一个簇。

此外，在核心簇的形成处理结束的时间点，与没有成为样本对的样本同样地，将未与其它样本对分组而残留的样本对中包含的样本从簇的决定处理中排除即可。

这样，首先进行基于相关性高的样本对来形成可靠性高的核心簇、再对多个核心簇进行整合来形成簇的处理，由此能够淘汰数据的相似性相对低的样本，能够以高准确度形成仅包括数据的相似性高的样本的簇。

另外，在本发明所涉及的大数据分析方法中，能够基于在一个簇和其它两个簇中分别共用的标记的个数来判定该一个簇是否为混合有所述其它两个簇的簇。由此，能够将同时具有多个簇的特征的样本适当地分类为与所述多个簇不同的簇，还能够确定同时具有哪一个簇的特征。

另外，在本发明所涉及的大数据分析方法中，在上述判定信息生成步骤中，能够在各簇中对针对该簇决定的多个标记的定量值应用逻辑斯蒂(logisti c)回归分析，求出用于计算任意的样本归属于该簇的概率的计算式来作为所述判定信息。

另外，为了提高判定信息的精度，期望基于针对各簇求出的判定信息来评价是否准确地判定所述各簇中包含的样本的归属，并进行基于该评价结果的反馈。因此，在本发明所涉及的大数据分析方法中，优选的是，基于通过上述判定信息生成步骤生成的判定信息来判定各簇中包含的样本的全部或一部分是否分别归属于该簇，在存在归属的可能性低的样本的情况下将该样本从该簇中排除，之后再次决定对该簇赋予特征的标记以及再次基于该标记来生成判定信息。当然，也可以重复多次这种处理，但实际上只执行一次就够了。

另外，在如上述那样求出每个簇的判定信息的时间点，在此之前的过程中设为不包含于任一个簇而被排除的样本的归属未定。因此，在本发明所涉及的大数据分析方法中，也可以还包括样本分配步骤，在该步骤中，基于与各簇对应的判定信息来决定将所有样本中的直到求出最终的判定信息为止的阶段都不包含于任一簇的样本归属于某一个簇。由此，能够将已作为对象的所有样本分类为多个簇中的某一个簇(也包括混合有不同的多个簇的簇)。

另外，如上述那样，在使用相关系数来作为测量不同变量值所对应的定量值的相似性的指标的情况下，作为本发明所涉及的大数据分析方法的一个方式，能够还包括以下步骤：

相关系数计算步骤，分别计算不同变量值所对应的所有定量值间的相关系数；

相关系数差计算步骤，分别计算在将通过计算所得到的所有相关系数按相关系数的值的大小顺序排列时相邻的相关系数的差；以及

阈值决定步骤，基于按相关系数的值的大小顺序观察所述相关系数的差时的该差的变化的大小，来决定用于判断定量值的相似性的阈值，

其中，在所述簇决定步骤中，在各样本中，利用在所述阈值决定步骤中决定的阈值来判定不同变量值所对应的定量值的相似性，提取相似性高的变量值。

一般而言，认为与对相同的簇赋予特征的即能够成为标记的变量值对应的定量值之间的相关性高，与并非如此的变量值对应的定量值之间的相关性低。因此，在相关系数计算步骤中计算出的相关系数大致分为其绝对值较大(接近1)且值彼此接近的群和其绝对值小(接近0)且值彼此接近的群，取到这两个群之间的相关系数的情况有变少的倾向。因此，如果通过相关系数差计算步骤分别计算在将所有相关系数按其值的大小顺序排列时相邻的相关系数的差，则在上述两个群之间相邻的相关系数的差变大。因此，在阈值决定步骤中，通过找出在按相关系数的值的大小顺序观察相关系数的差时的该差的变化大的相关系数，即找出相邻的相关系数的差大的相关系数，能够决定适于判断定量值的相似性的阈值。

在使用相关系数来作为测量样本间的变量值的相似性的指标的情况下也能够用同样的方法来决定阈值。即，作为本发明所涉及的大数据分析方法的其它方式，还包括以下步骤：

相关系数计算步骤，分别计算所有样本间的变量值的相关系数；

阈值决定步骤，基于按相关系数的值的大小顺序观察所述相关系数的差时的该差的变化的大小，来决定用于判断样本间的变量值的相似性的阈值，

其中，在所述簇决定步骤中，能够利用在所述阈值决定步骤中决定的阈值来判定样本间的变量值的相似性，提取相似性高的样本。

根据这些方式，能够自动地决定基于相关系数判断不同变量值所对应的定量值之间的相似性、样本间的变量值的相似度时的适当的阈值。

在本发明所涉及的上述方式的大数据分析方法中，具体地说优选设为以下结构：在所述阈值决定步骤中，将相关系数按降序或升序进行排序并分配排序编号，利用在彼此正交的轴中的一个轴上取排序编号、在另一个轴上取排序编号相邻的两个相关系数的差的相关系数差分布图来决定所述阈值。在该相关系数差分布图中，如果一个相关系数差向相关系数差的绝对值大的方向突出，则基于给出该一个相关系数差的相关系数来决定所述阈值即可(※权利要求15)。这样，某一个相关系数差突出的情况表示相邻的排序编号间的相关系数极大的情况，因此认为由此决定的阈值能够以高可靠性判定定量值是否存在相似性。

另一方面，在未发现这种突出的相关系数差的情况下，优选的是，在上述相关系数差分布图中，将与沿着排序编号的轴的分布形状呈现向相关系数差的绝对值大的方向凸的凸形状的排序编号对应的相关系数决定为所述阈值。

如上所述，通过利用相关系数差分布图，能够容易地发现按相关系数的值的大小顺序观察相关系数的差时的该差的变化最大的相关系数。

另外，在本发明所涉及的上述方式的大数据分析方法中，在所述阈值决定步骤中，将与所述相关系数差分布图中的凸形状部的顶部的位置对应的相关系数决定为阈值即可。

该凸形状部的顶部的位置是按降序或升序排序后的相关系数的变化最大的位置，因此像这样决定的阈值可以说是最适于作为如上述那样的相关系数的值分别接近的两个群的分界的阈值。

另外，在本发明所涉及的上述方式的大数据分析方法中，在所述阈值决定步骤中，也可以将与用规定的函数对所述相关系数差分布图中的凸形状部进行拟合时的拟合曲线的极值对应的相关系数决定为阈值。

另外，在本发明所涉及的上述方式的大数据分析方法中，例如在所述阈值决定步骤中，也可以在所述相关系数差分布图中基于标绘出的数据点的密度变化来判断有无凸形状部。

另外，在本发明所涉及的上述方式的大数据分析方法中，除了如上述那样在相关系数差分布图中将与相关系数差的分布的凸形状部的顶部的位置对应的相关系数决定为阈值以外，也可以将与凸形状部的偏离其顶部的位置对应的相关系数决定为阈值。由此，能够有意地提高用于判定相关系数的阈值，也就是说严管标记、样本的筛选基准来防止混入不恰当的标记、样本，相反地，能够有意地降低用于判定相关系数的阈值，也就是说放宽标记、样本的筛选基准来极力避免标记、样本的遗漏。即，能够根据目的调整被筛选的数据的可靠性。

另外，在本发明所涉及的上述方式的大数据分析方法中，也可以在显示部的画面上显示所述相关系数差分布图。在该情况下，优选在所述显示部中显示的相关系数差分布图上强调显示通过所述阈值决定步骤决定的阈值。由此，用户能够直观地掌握在相关系数如何分布的状况下自动地决定阈值。

另外，在本发明所涉及的上述方式的大数据分析方法中，也能够根据用户在所述显示部中显示的相关系数差分布图上的指示来变更通过所述阈值决定步骤决定的阈值或决定该阈值。由此，例如在用户判断为自动地决定的阈值不恰当等情况下，用户能够简单地变更阈值。另外，还能够不以自动方式而以手动方式简便地决定阈值。

另外，在本发明所涉及的上述方式的大数据分析方法中，例如在作为分析对象的数据中不存在数量充足的对簇赋予特征的标记、或者虽然存在标记但其信号强度不足等的情况下，有时在相关系数差分布图中既观测不到突出的一个相关系数差也观测不到凸形状的相关系数差的分布。在这种情况下，本发明所涉及的大数据分析方法中的簇划分或任意的样本归属于簇的决定等的可靠性低的可能性高。因此，在本发明所涉及的上述方式的大数据分析方法中，也可以基于相关系数差分布图中的分布形状来判断通过该分析方法进行的任意的样本归属于簇的决定的妥当性。

具体地说，例如用户自身确认是否观测到在相关系数差的分布形状中突出的一个相关系数差和作为凸形状的相关系数差的分布，在二者均未观测到的情况下判断为本发明所涉及的分析方法的可靠性低，反之，在观测到二者的情况下判断为本发明所涉及的分析方法的可靠性高。通过这样，用户能够判断利用本发明所涉及的大数据分析方法自身的妥当性。

此外，本发明所涉及的大数据分析方法能够用于以下用途：样本是生物体试样，对通过对该生物体试样进行质谱分析所得到的质谱数据进行分析，由此判定特定的癌的亚型。

由此，能够针对在以往的分析方法中难以判定且混合有多个亚型的癌适当地判定亚型。由此，能够进行与亚型相应的适当的治疗。

另外，本发明所涉及的质谱分析系统是在数据分析中使用了上述本发明所涉及的大数据分析方法的质谱分析系统，具备：

质谱分析执行部，其对目标样本进行质谱分析来获取质谱数据；

信息存储部，其以预先存储有在所述判定信息生成步骤中求出的判定信息；

判别处理部，其将由所述质谱分析执行部得到的质谱数据应用于所述信息存储部中存储的判定信息，根据基于该判定信息的判别结果来决定所述目标样本所归属的簇或输出对所述目标样本的归属的决定有用的信息；以及

结果输出部，其向用户可视地提供由所述判别处理部得到的处理结果。

在本发明所涉及的质谱分析系统中，关于信息存储部中存储的判定信息，例如能够由该质谱分析系统的制造商为了特定目的、例如用于诊断某个部位的癌而求出并预先存储于存储器等存储部。另外，作为用于特定目的的数据处理用应用软件的一部分，还能够由系统的制造商、软件的开发公司向用户提供上述判定信息。上述结果输出部例如是显示部，能够将处理结果以表形式等预先存储在装置内部或以用户预先指定的适当的形式显示在显示画面上。

通过使用本发明所涉及的质谱分析系统，用户能够针对目标样本简便地获知该样本所归属的一个或多个簇的信息。

发明的效果

根据本发明所涉及的大数据分析方法，能够获得如下效果。

(1)能够分类为一个簇的样本自不必说，即使对于同时具有多个簇的特征的样本也能够适当地进行簇划分。

(2)不预先指定簇数，另外不依赖于分析者等的主观意识或判断，就能够将样本分类为基于定量和客观的指标的适当的个数的簇。

(3)在簇决定的过程中被分配给各簇的样本的相似性高，因此不依赖于该簇数，就能够对各簇提取可靠性高的标记。另外，即使在标记的条件复杂、或者标记的个数不足、或者样本间的标记的强度差某种程度上小以及簇数多的情况下，也能够进行适当的簇划分以及提取可靠性高的标记。

(4)不仅能够将预先准备的多个样本分类为多个簇，还能够以高可靠性判定新的任意的样本归属于哪一个簇。

(5)一般而言，以神经网络为代表的现有的大数据分析方法大多利用高性能的科学计算用计算机来花费大量时间地进行分析。与此相对地，本发明所涉及的大数据分析方法利用了相关系数的计算、逻辑斯蒂回归分析等计算容易的统计方法，因此利用通用的个人计算机(PC)就能够充分地进行处理，能够抑制分析成本。另外，能够利用手边的PC轻松地尝试分析。

附图说明

图1是表示作为本发明的一个实施例的大数据分析方法中的分析过程的流程图。

图2是本实施例的大数据分析方法中的峰表以及峰间的相关系数计算处理的说明图。

图3是在本实施例的大数据分析方法中提取相关性高的峰的方法的一例的说明图。

图4是本实施例的大数据分析方法中的核心簇形成处理的说明图。

图5是用于说明本实施例的大数据分析方法中的特定核心簇内的特异峰的重新评价的处理的示意图。

图6是本实施例的大数据分析方法中的调查核心簇的整合可能性的处理的说明图。

图7是本实施例的大数据分析方法中的基于簇的整合进行的簇形成处理的说明图。

图8是本实施例的大数据分析方法中的判定各样本向簇的归属的处理。

图9是利用了本实施例的大数据分析方法的质谱分析系统的概要结构图。

图10是表示进行用于确认本实施例的大数据分析方法的效果的运算时的峰信息的生成条件的图。

图11是表示进行用于确认本实施例的大数据分析方法的效果的计算时决定的峰的m/z值的列表的图。

图12是表示实施了本实施例的大数据分析方法后得到的每个亚型的峰的m/z值的列表的图。

图13是基于本实施例的大数据分析方法中的稀疏区域法进行的相关系数判定用阈值自动决定处理的流程图。

图14是图13示出的相关系数判定用阈值自动决定处理的说明图。

图15是图13示出的相关系数判定用阈值自动决定处理的说明图。

图16是图13示出的相关系数判定用阈值自动决定处理的说明图。

图17是图13示出的相关系数判定用阈值自动决定处理的说明图。

图18是图13示出的相关系数判定用阈值自动决定处理的说明图。

附图标记说明

1：质谱分析部主体；2：数据分析部；21：质谱数据收集部；22：峰信息提取部；23：簇判定部；24：簇判定式存储部；3：操作部；4：显示部。

具体实施方式

[数据分析方法(CCD法)的说明]

首先，参照所附附图对作为本发明的一个实施例的大数据分析方法进行说明。图1是表示本实施例的大数据分析方法中的分析过程的流程图。此外，在以下的说明中，将本实施例的大数据分析方法称为CCD(Core Cluster Det ection：核心簇检测)法。随着以下的说明，使用这种称呼的理由自然明了。

在此，设想以下情况：以从多个癌患者和健全者分别采集到的生物体试样(癌组织等)为样本，利用本实施例的大数据分析方法、即CCD法，以基于通过对该样本进行质谱分析所得到的质谱信息来将癌分类为若干亚型并且判定各样本属于哪个亚型。以亚型的个数未知为前提。此外，在以下的说明中，相当于该“亚型”的是“簇”。

以下的CCD法中的分析处理通常在安装有专用的应用软件的PC中实施。

首先，最先获取作为分析对象的数据集、即针对多个样本分别获得的质谱的峰信息(步骤S1)。与一个样本对应的峰信息是通过对针对该样本获得的规定的质荷比范围的质谱实施已知的峰检测处理而得到的峰信息，由信号强度值为规定的阈值以上的有效的峰的质荷比(m/z)值与该信号强度值的组合组成。通常，在质谱中出现多个有效的峰，因此与一个样本对应的峰信息包含多个m/z值与信号强度值的组合。

这样收集到的各样本的峰信息例如能够汇总为如图2所示的矩阵状的峰表的形式。该峰表是针对各样本将相同的质荷比值(在图2中为m/z1、m/z2等)时的信号强度值沿纵向排列并示出的表。在该例中，该质荷比值和信号强度值相当于本发明中的变量值和定量值。

接着，将所有样本设为对象，提取信号强度值的相关性高的峰(步骤S2)。具体地实施如下处理。

首先，针对峰表上列举的两个峰的所有组合计算信号强度值的相关系数r_ij(i、j＝1～m，其中，m是质荷比值的总数，是图2示出的峰表的横向的单元的总数)。例如像图2示出的例子那样，按每个样本，针对所有的峰的组合、即无遗漏地计算m/z1时的信号强度值与m/z2时的信号强度值的相关系数r₁₂、m/z1时的信号强度值与m/z3时的信号强度值的相关系数r₁₃、…。之后，基于该相关系数r_ij提取相关性高的多个峰。例如，提取相关系数r_ij为预先决定的规定阈值以上的峰或在按相关系数从高到低的顺序排列峰时处于所有峰个数的规定比例(例如10％)内的峰等来作为相关性高的峰即可。

另外，也可以如图3所示那样，在按相关系数从高到低的顺序在横轴上排列峰时该相关系数的值在某个位置处大幅地降低的情况下，将该变化点作为分界(图3中的虚线)，提取与该分界相比相关系数高的范围内包含的峰来作为相关性高的峰。

此外，在如上所述那样基于阈值来判断峰间的相关系数的情况下，例如能够如下那样决定阈值。即，一边使阈值从相关系数的最大值1起以某个程度的步长(例如0.05宽度)阶梯性地降低，一边执行使用了各个阈值的分析。在更加恰当的阈值附近，处于“少量地存在未检测的标记”、“能够提取几乎所有标记”、“还多余地提取出少量不是标记的峰”等状态。无论在哪个情况下，作为分析结果的“提取簇数”都相等，“各簇的标记”也几乎相等。这样，将分析结果稳定的情况下的值设为阈值即可。

另外，也可以用命名为稀疏区域(Sparse Region)法的后述的其它方法来自动地决定用于判定峰间的相关系数的阈值，提取表示比该阈值高的相关系数的峰的组来作为相关性高的峰。

接着，通过使用如上所述那样提取出的多个峰的质荷比值来提取相关性高也就是数据的相似性高的两个样本、即样本对(步骤S3)。属于相同的簇的样本在相同的质荷比处具有峰的可能性高，因此能够通过找出相关性高的峰来找出最终属于相同的簇的可能性高的样本对。具体地实施如下处理。

针对两个样本的所有组合无遗漏地计算表示多个峰的质荷比值一致的程度的相关系数r_kL(k、L＝1～n，n为样本的总数)。之后，提取该相关系数r_kL为预先决定的规定的阈值以上的样本对。此时，允许一个样本包含于多个样本对。也就是说，在判断为样本B、样本C二者与样本A之间的相关性都高的情况下，分别提取样本A和样本B的样本对以及样本A和样本C的样本对。另外，反之如果所有样本均相关性低，则不提取该样本作为样本对。换言之，当然也存在无法组对的孤立的样本，该样本作为簇候选外的样本而被从簇的决定处理中排除。即，在该时间点，被推测为对形成簇来说利用价值低的样本被从簇的决定处理中排除。此外，与提取峰的组时同样地，也能够通过后述的稀疏区域法来自动地决定在将两个样本间的相关系数与阈值进行比较来提取样本对时使用的阈值。

接着，通过使提取出的多个样本对进行结合来形成核心簇(步骤S4)。图4是说明核心簇形成处理的示意图。

首先，按相关系数r_kL从高到低的顺序对如上述那样提取出的多个样本对进行排序。在图4的(a)的例子中，样本B和样本D的样本对(以下，记载为样本对[B，D])的相关系数最大，相关系数从该样本对起向下按样本对[C，F]、样本对[D，X]、…的顺序变小。

接着，优先按相关系数r_kL从高到低的顺序也就是从相关性高的相关系数起按照如下规则将样本对进行汇集或结合，由此形成核心簇。

<规则1>将仅由在此之前未出现的样本组成的样本对设为新的核心簇的代表对(也就是核心簇的核心)。

<规则2>在样本对的仅一个样本包含于在此之前形成的核心簇的样本中的情况下，将该样本对的另一个样本分配给该核心簇。

<规则3>忽略横跨在此之前形成的两个核心簇的样本对。

在图4的(a)的例子中，按照<规则1>，将样本对[B，D]、样本对[C，F]分别设为不同的核心簇#1、#2的代表对。接着，由于属于第三个样本对[D，X]的样本D已经属于核心簇#1，因此按照上述<规则2>将样本X分配给核心簇#1。再按照上述<规则1>将第四个样本对[E，L]设为新的核心簇#3的代表对。由于第五个样本对[F，B]中包含的样本F已经被分配给核心簇#2，样本B已经被分配给核心簇#1，因此按照<规则3>，不对样本对[F，B]进行处理。并且，由于属于第七个样本对[F，H]的样本F已经属于核心簇#2，因此按照上述<规则2>将样本H分配给核心簇#2。这样，如图4的(b)所示，基于在步骤S3中提取出的样本对新生成核心簇，或者将样本对分配给既有的核心簇。

此外，当然对于在上述步骤S3中未被提取为样本对的样本、即簇候选外的样本，预先保留簇判定。另外，优选在某个核心簇仅包含代表对、即样本数为2的情况下，消除该核心簇，将这两个样本设为簇候选外。

在针对在步骤S3中提取出的所有样本对确定了核心簇(或者未进入核心簇)之后，按每个核心簇提取对属于该核心簇的多个样本赋予特征的特异峰(步骤S5)。在此，在特异峰的提取中利用差异显著性检验。

具体地说，按每个核心簇，对属于一个目标核心簇的所有样本中的某个质荷比的峰的信号强度值的平均值与从全部样本中排除目标核心簇中包含的样本后的集团中的同一质荷比的峰的信号强度值的平均值之差进行已知的t检验。然后，按在该t检验中计算出的p值从小到大的顺序(假定正确的顺序)选择排行前10个(或除此以外的规定个数)峰，将这10个峰确定为该目标核心簇中的特异峰。通过该处理，按每个核心簇分别提取10个特异峰。

此外，也可以对属于一个目标核心簇的所有样本中的某个质荷比的峰的信号强度值的平均值与全部样本中的同一质荷比的峰的信号强度值的平均值之差进行上述t检验。在该情况下，虽然差的检验的精度有些差，但具有能够缩短计算时间的优点。

其中，在步骤S5中确定的峰始终是虚拟的特异峰，之后，进行该特异峰的重新评价来排除不恰当的特异峰(步骤S6)。图5是特定核心簇内的特异峰的重新评价处理的说明图。在此，在峰在核心簇中共用且存在3个以上的情况下，将该峰判定为特异峰，将并非如此的峰从特异峰中排除。

虽然与某个核心簇对应的特异峰是对该核心簇赋予特征的特异峰，但由于以所有样本基本上是从相同种类、例如不同个体的相同组织(肾脏等)采集到的试样为前提，因此难以认为在某个核心簇中观测到的某一个特定的峰在其它核心簇中完全观测不到，推测为这种峰有可能是由某种原因导致的噪声。因此，在所有核心簇中共用(质荷比相同)的峰的个数为0或1的情况下，也就是在某个核心簇中观测到的峰在其它核心簇中观测不到或只在另一个核心簇中能够观测到的情况下，判断为该峰的可靠性低，从而将该峰从特异峰中排除。

在图5示出的例子中，m/z＝120.1的峰仅存在于核心簇#1而未存在于其它核心簇，因此共用峰数为0，通过重新评价将该峰从特异峰中排除(图5中，重新评价结果为“NG”)。另外，m/z＝123.5的峰仅存在于核心簇#1、#2这两个核心簇而未存在于除此以外的核心簇，因此共用峰数为1，依然通过重新评价将该峰从特异峰中排除。这样，3个以上的在核心簇中共用地存在的峰(在图5中，重新评价结果为“OK”)被保持为特异峰。如果将在某个核心簇中被排除的峰的个数设为α，则在步骤S5中提取出的特异峰的个数为10的情况下，通过重新评价而作为特异峰所残留的峰的个数为10-α。每个核心簇的该α不同。

接着，通过利用如上述那样按每个核心簇提取并被重新评价的特异峰来形成由多个核心簇整合得到的簇(步骤S7)。

具体地说，首先以每个核心簇中的10-α个特异峰中的3个以上的特异峰共用即在相同的质荷比处存在峰的情况作为条件来搜索多个核心簇。与像这样找出的多个核心簇相关联地附加表示整合可能性大的标志(以下，简称为“标志”)。

图6是调查核心簇的整合可能性的处理的说明图。在该图6的例子中，在#1、#2、#3这三个核心簇中，p1、p2、p3这三个峰共用。因而，对这三个核心簇#1、#2、#3附加标志。另外，在#4、#5这两个核心簇中，p4、p5、p6这三个峰共用，因此对这两个核心簇#4、#5也附加与上述标志不同的标志。另一方面，在核心簇#6和核心簇#4、#5中，只有两个峰p4、p5共用，因此不适合上述条件，不附加标志。

之后，着眼于附加有上述标志的核心簇，来实施如下判定处理。

现在，设想存在被认为整合可能性大的两个核心簇的情况，将这两个核心簇中的包含相关系数r_kL相对高的样本对的一个核心簇设为α，将另一个核心簇设为β。判定核心簇β是否具有该核心簇α的特异峰的总数的2/3(或1/2等规定的比例)。另外，相反地判定核心簇α是否具有核心簇β的特异峰的总数的2/3(或1/2等规定的比例)。然后，当满足这两个条件时，整合这两个核心簇来形成一个簇。同样地，如果存在满足上述条件的多个核心簇，则通过整合所述多个核心簇来增大簇。此外，优选的是，不将完全不可能与其它核心簇整合的核心簇、即孤立的核心簇设为核心簇，属于该核心簇的样本作为簇候选外而排除。

这样，通过试着对在上述步骤S4中形成的所有核心簇进行整合来生成多个簇(当然，在原理上也可能汇集为一个簇)。图7是基于簇的整合进行的簇形成处理的说明图。在该例中，对簇#1、#4、#k这三者进行整合来形成一个簇。此外，在以下的说明中，将形成的簇的编号记载为簇[*]。

接着，按已决定的每个簇提取特异峰(步骤S8)。例如，在各簇中包含多个核心簇，各核心簇如上述那样具有10-α个特异峰。因此，在各簇中，提取该簇中包含的多个核心簇中的1/2以上的个数的核心簇所共同具有的质荷比处的特异峰来作为该簇的特异峰即可。

另外，也可以通过如下处理来按每个簇提取特异峰。

即，按每个簇对该簇内的峰的特性值的平均值与除该簇以外的峰的特性值的平均值这两组平均值之差进行已知的t检验，按照在该t检验中计算出的p值从小到大的顺序来重新排列峰，将具有足够小的p值的峰设为特异峰。在此，在所要调查的簇是单独类型的簇的情况下，作为要比较的对照簇，将混合地包含要调查的簇的混合簇的成员从t检验的对照群中排除。另外，在所要调查的簇是混合簇的情况下，将混合地包含的单独簇的成员从对照群中排除。为了判定是否为p值足够小的峰，调查p值的变化方式急剧且大幅地变化的状况即可。因此，基于计算出的p值来分别计算Y＝-log10(p值)。在此，关于所要调查的峰的个数，如果调查至p值小的30左右为止，则认为实际的簇的特异峰包含于该数。因此，按照排列好的峰的顺序来计算3个连续的Y的值的移动平均。然后，在从排行30位朝向p值小的上位能够搜索到与之前的移动平均之差超过2的峰的情况下，提取与该峰相比p值小的峰来作为特异峰。

之后，按每个簇通过利用一个簇的多个特异峰来构建用于判定任意的样本是否属于该簇的成员判定式(步骤S9)。在此，为了构建成员判定式而使用如下述那样的逻辑斯蒂回归模型，但在此之前，判定其它簇是否具有3个以上的某一个簇的特异峰来作为特异峰，推断为具有3个以上的特异峰的簇是混合核心簇，将该簇中包含的样本从构建逻辑斯蒂回归模型时的样本中排除。这是由于，如果不排除这种样本，则会在二群判别时的两个群中掺杂相同簇的样本，逻辑斯蒂回归模型缺乏准确性。

<逻辑斯蒂回归模型>

Y＝1：作为对象的样本(成员)属于目标簇的情况

Y＝0：作为对象的样本(成员)属于上述目标簇以外的其它簇的情况。

在此，如果将在给出某个簇的特异峰集合X时Y＝1的概率记载为Pr(Y＝1|X)，则逻辑斯蒂回归模型用以下的式子来给出。

Pr(Y＝1|X)＝1/[1+exp{-(b₀+b₁X₁+b₂X₂+…+b_kX_k)}]

在此，X_k是第k个特异峰X的变量值，取峰强度的值作为各患者的特性值。另外，b₀、b₁、…、b_k(k＝1、…、K)是根据可靠性高的数据推断出的参数，K是该簇的特异峰的个数。

在上述逻辑斯蒂回归中，通过输入在各患者处观测到的特异峰的特性值，能够利用概率值判定该患者是否属于该簇。例如，作为该判定规则，分配按每个簇计算出的概率值最高的簇即可。另外，如果概率值例如为1/2以上，则也能够分配给该簇。通过该判定，能够判定一个患者属于多个簇。该判定能够对可靠性高的数据重新评价样本的可靠性，能够将概率低的样本从该簇中排除并使其移动到可靠性低的数据集，之后进行最终判断。另外，该判定能够适用于可靠性低的数据集的所有样本，并能够分配各样本的簇。

根据如上述那样构建出的成员判定式，在某一样本肯定属于特定的簇的情况下，得到“1”的结果，在该样本肯定不属于该特定的簇(属于其它簇)的情况下，得到“0”的结果，可以说Y的值越接近1，该样本属于特定的簇的可能性越高。

接着，为了核对与各簇对应的成员判定式的准确性，将该簇中包含的各样本所对应的数据应用于成员判定式来计算判定结果。此时，如果概率低，则根据该成员判定式不会将概率低的样本分类为该簇。因此，在判定结果(Y值)为0.5以下的情况下将该样本从簇中排除(步骤S10)。

在将一部分样本从簇中排除的情况下，有可能由此导致特异峰发生变化。因此，基于簇中剩余的样本所对应的数据来重新考虑特异峰(步骤S11)。如果特异峰哪怕发生部分变更，成员判定式自身也会变化。因此，基于变更后的特异峰来与步骤S9同样地重构成员判定式(步骤S12)。由此，能够提高成员判定式的准确性。此外，也可以多次重复进行步骤S8～S12的处理，但实际上如果如图1的流程图所示出的那样重新考虑一次特异峰的提取和成员判定式的构建，就能够生成可靠性足够高的判定式。

通过这样，确定簇即亚型、对各簇的特异峰即亚型赋予特征的生物学标记以及用于判定任意的样本属于哪一个簇的成员判定式。在多个簇中有可能包含混合有其它多个簇的状态的簇(以下，将这种簇称为混合簇)。因此，针对各簇，判定一个簇的特异峰是否重复了其它两个以上的簇的特异峰，根据其结果来判定该簇是否为混合簇，而且在是混合簇的情况下识别该混合簇是哪一个簇的混合(步骤S13)。

之后，针对包含已被分配给各簇的样本且被提供为分析对象的所有样本，使用与各簇(包括混合簇)分别对应的成员判定式来计算归属概率，基于其结果来决定所归属的簇(步骤S14)。然后，输出其结果(步骤S15)。

具体地说，在与多个簇对应的归属概率中的一个归属概率为规定的阈值以上的情况下，得出归属于给出该归属概率的簇的结论即可。另外，在归属概率为规定的阈值以上的簇存在多个的情况下，得出归属于所述多个簇的结论即可。另一方面，在与多个簇对应的归属概率中的变为规定的阈值以上的归属概率一个都没有的情况下，能够考虑该样本原本是被误作为该分析的对象而掺杂进来的样本、或者对样本进行测定的方法、条件等有误等理由，因此下结论为不能判定即可。另外，也可以不确定用于判定归属概率的阈值就归属于归属概率最大的簇，在该情况下能够决定所归属的一个簇。

图8是表示各样本的判定处理的示意图。在该例中簇一共是8个。例如将样本A的数据应用于与各簇对应的8个成员判定式，计算与簇对应的归属概率所得到的结果为如图8的右侧所示那样计算出概率。在该情况下，与簇[2]对应的概率最高为0.9，与除此以外的簇对应的概率均低至0.2以下。因此，判断为样本A属于簇[2]。也存在如上述那样簇是混合簇的情况，在判定为某个样本归属于混合簇时，得出该样本同时属于作为该混合簇的基础的多个簇的结论即可。

如上所述，根据该CCD法，基于通过对从同一部位、生物体组织、或罹患脏器癌的多个患者采集到的样本进行质谱分析所得到的质谱数据，能够求出该癌的多个亚型和用于确定亚型的生物学标记(质荷比值)。另外，还能够求出用于判定某个样本是哪一个亚型的成员判定式，能够利用该成员判定式来判定任意的样本是一个或多个亚型中的哪一个。

[稀疏区域法的说明]

在此，对能够在上述步骤S2和步骤S3中自动地决定用于判定相关系数的阈值时使用的稀疏区域法详细地进行说明。

图13是基于该稀疏区域法进行的相关系数判定用阈值自动决定处理的流程图。另外，图14～图18是用于说明该相关系数判定用阈值自动决定处理的图。在此，对在步骤S2中决定用于判定上述峰间的相关系数的阈值的情况进行说明，但显然能够以同样的流程决定用于判定样本间的相关系数的阈值。

在决定阈值时，首先，针对在如图2所示那样的峰表上列举出的两个峰的所有组合计算信号强度值的相关系数r_ij(步骤S21)。接着，对计算出的所有相关系数r_ij按降序进行排序并分配排序编号，分别计算排序编号相邻的两个相关系数的差(步骤S22)。当然，也可以不按降序而按升序对相关系数r_ij进行排序。然后，基于该相关系数差的计算结果来生成在横轴上取排序编号、在纵轴上取对排序编号相邻的相关系数的差乘以-1所得到的值的相关系数差曲线图(步骤S23)。当然，不需要向用户(分析负责人)呈现该曲线图自身，因此曲线图是在计算上生成的虚拟的图。另外，在此之所以对相关系数差乘以-1，是由于优先考虑后述的曲线图中的易视性而使相关系数差为负值，未必需要变换为负值。

图14是将根据后述的以实测的质谱数据为基础加工生成的模拟数据计算出的峰间的相关系数按排序编号的顺序排列而成的曲线图。在此，峰的总数为1097，峰间的相关系数的总数为₁₀₉₇C₂＝601156。一般按道理说属于相同亚型的峰间的相关系数的绝对值大(接近1)，属于不同亚型的峰间的相关系数的绝对值小(接近0)。因此，当将相关系数按降序排列时，如图14所示那样形成相关系数的绝对值大的数据点的群即有正或负的相关性的数据点的群以及相关系数的绝对值小的数据点的群即相关性小或实质上不相关的数据点的群这两个群，在这两个群之间形成数据点仅稀疏地存在的稀疏区域。在稀疏区域法中，通过查找该稀疏区域来决定适于判定相关系数的看似合理的阈值。

图15～图18均是基于图14示出的相关系数生成的相关系数差曲线图。各图的横轴均表示相关系数的排序编号，纵轴均表示排序后相邻的两个相关系数的差。在图15中示出几乎所有峰的组合的相关系数差，与此相对地，在图16～图18中各自仅示出排序编号为1～10000、1～1000、1～100的峰间的相关系数差。

如图14所示，在相关系数的绝对值大的数据点的群中数据点的标绘密度较高，在相关系数的绝对值小的数据点的群中数据点的标绘密度也较高。而且，在这两个群之间，数据点的标绘密度低。因此，在相关系数差曲线图中，在排序编号相邻的相关系数的差最大的排序编号的前后，数据点的分布为谷形状(即向下的凸形状)。在图15～图18中均用粗线箭头示出了位于成为谷形状部的相关系数差的分布的底部的数据点。特别是在该例的情况下，如图14所示那样存在排序编号相邻的相关系数的差变得极大的位置，因此获知谷形状部的最深部的相关系数差单独地向下方突出。因而，如果将与相当于谷形状部的最深部的排序编号对应的相关系数设为阈值，则能够高可靠性地判断为在相关系数比该阈值大的范围内峰的相关性高，在相关系数比该阈值小的范围内峰的相关性低或实质上不存在。此外，在未将相关系数差变换为负值的情况下，除了变为不是谷形状部的波峰形状部(即，向上的凸形状)以外，其它完全相同。

因此，如果得到如上述那样的相关系数差曲线图，则在相关系数差的分布中判定是否存在向下方突出的一个相关系数差的标绘点(步骤S24)。例如基于相关系数差的值的变化来判定是否突出即可。在判定为存在另一个突出的标绘点的情况下，将给出该相关系数差的相关系数决定为阈值(步骤S25)。

另一方面，在判定为不存在向下方突出的一个相关系数差的标绘点的情况下，在相关系数差的分布中判定是否存在变为下方的凸形状部即谷形状的部位(步骤S26)，如果存在这样的部位，则检测其最深的谷底位置(步骤S27)，求出与该位置的排序编号对应的相关系数。在如果存在多个谷形状部的情况下，选择排序编号最小的(降序排序的情况)相关系数即可。另外，虽然谷形状部为一个，但在几乎相同深度的谷底扩展的情况下或存在多个几乎相同深度的最深部情况下，检测在该最深部中排序编号最小的排序编号即可。将这样求出的相关系数的值决定为阈值(步骤S28)。

根据情况不同，有时在相关系数差曲线图上的相关系数差的分布中无法形成明确的谷形状部。因此，在步骤S24、S26中均为“否”的情况下，求出与在相关系数差曲线图上相关系数差最大的排序编号对应的相关系数，并将该相关系数的值决定为阈值(步骤S29)。在相关系数差曲线图上存在多个相关系数差最大的排序编号的情况下，选择最小的排序编号即可。

通过这样，能够自动地决定用于判定峰间的相关系数的适当的阈值。

此外，上述步骤S24～S28的处理也可以替换为以下处理：求出利用适当的函数对数据点进行拟合而得到的拟合函数，将与该函数的极小点对应的相关系数设为阈值。另外，也可以不将与谷形状部的谷底的位置对应的相关系数决定为阈值，而是有意地将与偏移到与该相关系数相比排序编号小的一侧或反之偏移到与该相关系数相比排序编号大的一侧的位置对应的相关系数决定为阈值。例如，在即使容许稍微错过也想要避免不恰当的峰的混入时，通过将与偏移到排序编号小的一侧的位置对应的相关系数决定为阈值来提高阈值即可。反之，在即使容许不恰当的峰的稍微混入也想要减少恰当的峰的错过的情况下，通过将与偏移到排序编号大的一侧的位置对应的相关系数决定为阈值来降低阈值即可。

另外，也可以不如上述那样自动地决定阈值，而是在显示部的画面上显示相关系数差曲线图，当分析负责人在该曲线图上用鼠标等指示设备对适当的位置进行点击操作时，将与离该点击操作的位置最近的位置对应的相关系数设定为阈值。在该情况下，不自动地决定阈值，而是向用户提示用于决定阈值的信息来由用户自己决定阈值。另外，也可以设为能够在相关系数差曲线图上适当地变更如上述那样自动地决定的阈值。

另外，关于在相关系数差曲线图中未观测到在数据点的分布中向下方突出的相关系数差且也未成为明确的谷形状的分布的状况，设想以下状况：在簇中特异的峰的群与不特异的峰的群之间的信号强度的差异小，或者特异的峰的个数少。在这种状况下，能够通过CCD法获得分析结果的亚型的分类的可靠性或对该亚型赋予特征的标记的可靠性有可能低。因此，也可以是，在步骤S24和S26中均判定为“否”时，将该判定结果通知给用户，从而使用户判断在此设为分析对象的数据是否不能通过CCD法进行分析。

[基于CCD法的分析例]

本发明人们为了确认上述CCD法的有用性，分析以实测的质谱数据为基础进行加工并生成的模拟数据，并评价了该分析结果。

关于模拟数据，是根据在液相色谱-基质辅助激光解吸电离/飞行时间质谱分析仪(LC-MALDI/TOFMS)中对混合有5种蛋白质消化物(肽)的试样进行测定所得到的质谱数据，使该质谱上的各峰的信号强度随机地变化，由此模拟地设为多个质谱(即多个样本)而得到的。关于该数据，设想了存在多个单一的亚型并且还存在多个由两个单一的亚型混合而成的亚型那样的、与罹患了癌的患者的癌组织对应的质谱的峰信息。质谱上的峰的质荷比范围是800～2000，峰的总数是1097。

另外，峰的生成条件如图10所示那样。即，亚型的个数为8，其中单一的亚型为5种，由两个单一的亚型混合而成的混合亚型为2种，另外设想不具有癌的健全者的亚型为一种。在该情况下，亚型与上述簇实质上相同，因此在以下的说明中，亚型的编号用[*]表示，单一的亚型为[1]～[5]，混合亚型为[6](＝[1]+[3])和[7](＝[2]+[4])，健全者的亚型为[8]。另外，每一个亚型的样本数为100，也就是说共计设为800个样本。另外，相当于生物学标记的特异峰在各亚型中各为10个。

在图11中表示每个亚型的特异峰的m/z值的列表。在图11中标注下划线的m/z值是在罹患了癌时与亚型无关地相比于健全者来说信号强度(具体是指与该峰对应的成分的量)增加的峰(以下，将该峰称为“叠加峰”)，也就是亚型间的共用标记。另外，对于在其它亚型中为特异峰且只要是属于该亚型的样本则信号强度就比属于其它亚型的样本的信号强度大的峰，在m/z值的右侧记载有↑标记。另外，对于只要是属于该亚型的样本则信号强度就比属于其它亚型的样本的信号强度小的峰，在m/z值的右侧记载有↓标记。此外，在该模拟数据中，有意地调整为亚型间的特异峰的信号强度的差某种程度上变大。具体地说，在该例中，在与健全者检体相比强度特异地增加的情况下设为2倍，在特异地减少的情况下设为0.5倍。

对上述800个样本的模拟数据应用了上述CCD法。首先，作为步骤S2的处理，按每个样本计算1097个峰的所有组合、即₁₀₉₇C₂＝601156个峰的组合的相关系数。然后，用图3示出的方法判定其结果并提取出峰。此时的相关系数的条件为-0.5以下或0.5以上。其结果是提取出96个峰。

接着，作为步骤S3、S4的处理，计算800个样本的所有组合、即₈₀₀C₂＝31960个样本对的相关系数。然后，提取该相关系数为0.9以上的样本对并使它们结合来形成53个核心簇。通过像这样依次执行之前说明过的处理后，簇的个数最终成为8。该个数是被设定为生成条件的亚型数，是正确的。将各簇的最终的特异峰与图11示出的峰进行比较，并在图12中示出各簇属于哪一个亚型。

如观察图12所获知的那样，关于作为单一亚型的亚型[1]～[5]，除m/z＝1073.6、1123.7、1405.8这三个以外，所有的标记被提取为特异峰。这些未被提取出的3个特异峰是针对多个亚型的重复标记，确定为只要具有任一个亚型(即如果是癌检体)，则与健全者相比信号强度必定变高。因而，在亚型间该峰的信号强度实质上不存在差，不能说对亚型赋予特征。另外，这三个特异峰作为与健全者对应的亚型[8]的标记被提取出，因此这三个峰不会作为亚型[1]～[5]的标记被提取出，可以说这是妥当的结果。

另外，在此，在某个亚型的特异峰包含3个以上的其它亚型的特异峰且这种其它亚型存在2种以上时，将该亚型判断为混合亚型。在图11和图12中，在亚型[6]、[7]中的特定的峰的m/z值之后的括弧()内记载有具有该特异峰的其它亚型的编号。当观察该结果时，亚型[6]分别具有3个以上的亚型[1]和亚型[3]的特异峰，因此获知亚型[6]是亚型[1]与亚型[3]的混合亚型。另外，同样获知亚型[7]是亚型[2]与亚型[4]的混合亚型。能够确认的是这些类型均正确，单一亚型、混合亚型均能够正确地分类。另外，CCD法的结果是，确认了分别分配给8个亚型的样本是否为属于真正对应的亚型的样本，能够确认的是其正确率为100％，也就是说对全部800个样本均进行了适当地分配。

此外，在健全者与癌患者之间的特异峰(标记)的强度的差更小、特异峰的个数少于10(但是，必须存在多个)、或者与各亚型对应的样本数少于100之类的在分析上规定了更加严格的条件的情况下也进行了验证，但通过在各步骤中确定适当的阈值，能够确认的是作为样本的分配的正确率能够达到90％以上。由此，能够以非常高的可靠性进行利用CCD法向多个亚型(簇)的分类。

[利用了CCD法的质谱分析系统]

接着，对利用了基于上述本实施例的大数据分析方法的数据分析的质谱分析系统的一个实施例的结构和动作进行说明。

图9是该质谱分析系统的主要部分的结构框图。

本实施例的质谱分析系统具备质谱分析部主体1、数据分析部2、操作部3以及显示部4。质谱分析部主体1例如是能够针对被安放的样本获取遍及规定的质荷比范围的高精度、高灵敏度的质谱数据的装载有MALDI(基质辅助激光解吸电离)离子源的飞行时间质谱分析仪。另一方面，数据分析部2的实体是预先安装有专用的数据分析软件等的PC，通过使该软件在PC上进行动作来具体实现质谱数据收集部21、峰信息提取部22、簇判定部23以及簇判定式存储部24等功能块。操作部3通常是上述PC中包括的(或连接的)键盘、指示设备，显示部4是监视器。

一般而言，在上述CCD法中，至少直到步骤S11为止的处理在较高性能的计算机中进行，由此求出的每个簇的成员判定式被存储在簇判定式存储部24中。即，在该例中，数据分析部2不具有实施上述步骤S1～S11的处理的功能。此外，关于某个部位的癌，由于按每个亚型存在不同的成员判定式，因此按每个癌的部位(例如乳腺癌、肾癌等)将一组(多个)成员判定式预先存储到簇判定式存储部24中，当从操作部3指定想要判别的癌的部位时，将与该癌的部位对应的组的成员判定式从簇判定式存储部24读入到簇判定部23即可。

当将某个样本安放于质谱分析部主体1并利用该质谱分析部主体1执行对该样本的质谱分析时，质谱数据收集部21收集并存储通过该分析得到的质谱数据。峰信息提取部22对被存储的质谱数据进行峰检测，将在质谱上观测到的峰的质荷比值和信号强度值作为峰信息来收集。簇判定部23基于如上述那样从簇判定式存储部24读入的一组成员判定式来判定该样本可能归属的亚型。该处理与在上述步骤S14中实施的处理实质上相同。然后，在显示部4的画面上显示该判定结果，来向例如检查负责人等通知该判定结果。

通过这样，根据本实施例的质谱分析系统，能够基于从癌患者采集到的样本来简便地调查该癌的亚型。判定结果的输出的方式多种各样。例如，也可以通过按照预先决定的规则判定基于多个成员判定式分别计算出的归属概率来确定亚型，仅显示该亚型。另外，也可以在此时一并显示归属概率的数值，还可以显示与各亚型对应的所有归属概率。

另外，通过将归属概率不以数值形式显示而以曲线图的形式显示，能够可视地且较容易地确定针对不同的亚型的归属概率。另外，在按每个亚型某个程度上确立了治疗方法等的情况下，也可以关联地显示与亚型对应的治疗方法等。

另外，在如上述那样出现了针对任一个亚型归属概率均明显偏低的结果的情况下，有可能样本自身不恰当、没有恰当地进行分析、所指定的癌的部位错误等，因此发出某些警告显示即可。

上述实施例是将本发明所涉及的大数据分析方法用于癌的亚型的判定的例子，但本发明所涉及的大数据分析方法并不限于此，能够用于各种测定对象或者各种领域的数据分析。

本发明所涉及的大数据分析方法能够处理的数据是针对多个样本分别得到的数据，是按每个样本与规定的变量对应地具有观测值、测定值、测量值等定量值的数据。在上述例子中，变量值是质荷比值，与该变量值对应的定量值是信号强度值。

作为另一例，例如在调查细胞内的所有DNA的碱基序列的新一代序列分析仪分析中，变量值是染色体组上的位置信息，与该变量值对应的定量值是4种碱基中的变异碱基的引线数。另外，在调查细胞内的所有转印产物(mRN A)的微阵列分析(转印组学分析)中，变量值是微阵列的遗传基因的探针组名称，与该变量值对应的定量值是荧光强度值。

另外，本发明所涉及的大数据分析方法还能够利用于质谱分析成像图像、X射线图像、荧光图像等各种图像数据的分析。在这些用途中，变量值是图像上的二维的位置信息，与该变量值对应的定量值例如是规定的质荷比、X射线波长、荧光波长等的信号强度值。另外，在对源自包括人在内的动物的某些数据进行分析的情况下，还能够将性、年龄等检体信息用作变量值。

另外，本发明所涉及的大数据分析方法还能够在更为普通的数据分析的领域，例如市场营销数据分析、物流数据分析、用于品质管理、异常检测的数据分析、金融数据分析、股价数据分析、气象数据分析等各种数据分析即数据挖掘中利用。

例如，在股价的数据分析中，将变量值设为规定期间的时间，将与该变量值对应的定量值设为股价，将各种企业分别视为样本，由此能够将这些企业分为多个簇。

此外，上述实施例、变形例也是本发明的一例，即使在本发明的宗旨的范围内进行适当变形、修改、追加也包含在本申请权利要求书的范围内，这是当然的。

Claims

1.一种大数据分析方法，针对多个样本，分析按每个样本以多个变量值所对应的定量值为信息的数据，该大数据分析方法的特征在于，包括以下步骤：

2.根据权利要求1所述的大数据分析方法，其特征在于，

在所述簇决定步骤中，将被推断为样本间的数据的相似度以高的准确度高的样本对设为核心，以该核心为中心将被推断为与该样本对中的一个样本之间的相似性高的样本进行汇集，由此决定多个簇。

3.根据权利要求2所述的大数据分析方法，其特征在于，

在所述簇决定步骤中，在各样本中，通过判定不同变量值所对应的定量值的相似性来在样本内提取相似性高的变量值，基于样本间的提取出的该变量值的相似性来搜索所述样本对。

4.根据权利要求3所述的大数据分析方法，其特征在于，

使用相关系数来作为测量不同变量值所对应的定量值的相似性的高低的指标。

5.根据权利要求3所述的大数据分析方法，其特征在于，

使用相关系数来作为测量样本间的变量值的相似性的高低的指标。

6.根据权利要求2所述的大数据分析方法，其特征在于，

在所述簇决定步骤中，针对将任意的两个样本组合而成的所有样本对判断相似性，按照样本对的相似性从高到低的顺序，以在已被选择为核心的簇的成员中均不包含为条件来决定作为核心的代表样本对，另一方面，将在已被选择为核心的簇中包含一个样本的样本对汇集到与该代表样本对相同的组中，由此形成作为簇的基础的核心簇。

7.根据权利要求1所述的大数据分析方法，其特征在于，

在所述标记决定步骤中，在一个簇中包含的样本与不包含在该簇中的样本之间对相同变量值所对应的定量值进行差异显著性检验，基于该检验的结果来决定标记。

8.根据权利要求6所述的大数据分析方法，其特征在于，

在各个所述核心簇中，将对该核心簇赋予特征的多个变量值定为标记，在多个核心簇中共用了规定比例以上的该标记的情况下，对所述多个核心簇进行整合来形成一个簇。

9.根据权利要求1所述的大数据分析方法，其特征在于，

基于在一个簇和其它两个簇中分别共用的标记的个数来判定该一个簇是否为混合有所述其它两个簇的簇。

10.根据权利要求1所述的大数据分析方法，其特征在于，

在所述判定信息生成步骤中，在各簇中，对针对该簇决定的多个标记的定量值应用逻辑斯蒂回归分析，求出用于计算任意的样本归属于该簇的概率的计算式来作为所述判定信息。

11.根据权利要求1所述的大数据分析方法，其特征在于，

基于通过所述判定信息生成步骤生成的判定信息来判定各簇中包含的样本的全部或一部分是否分别归属于该簇，在存在归属的可能性低的样本的情况下将该样本从该簇中排除，之后再次决定对该簇赋予特征的标记并且再次基于该标记生成判定信息。

12.根据权利要求1所述的大数据分析方法，其特征在于，

还包括样本分配步骤，在该样本分配步骤中，基于与各簇对应的判定信息来决定将所有样本中的在直到求出最终的判定信息为止的阶段都不包含于任一簇的样本归属于某一个簇。

13.根据权利要求4所述的大数据分析方法，其特征在于，还包括以下步骤：

14.根据权利要求5所述的大数据分析方法，其特征在于，还包括以下步骤：

其中，在所述簇决定步骤中，利用在所述阈值决定步骤中决定的阈值来判定样本间的变量值的相似性，提取相似性高的样本。

15.根据权利要求13所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，将相关系数按降序或升序进行排序并分配排序编号，在彼此正交的轴中的一个轴上取排序编号、在另一个轴上取排序编号相邻的两个相关系数的差的相关系数差分布图中，基于给出向相关系数差的绝对值大的方向突出的一个相关系数差的相关系数来决定所述阈值。

16.根据权利要求13所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，将相关系数按降序或升序进行排序并分配排序编号，在彼此正交的轴中的一个轴上取排序编号、在另一个轴上取排序编号相邻的两个相关系数的差的相关系数差分布图中，将与沿着排序编号的轴的分布形状呈现向相关系数差的绝对值大的方向凸的凸形状的排序编号对应的相关系数决定为所述阈值。

17.根据权利要求16所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，将与所述相关系数差分布图中的凸形状部的顶部的位置对应的相关系数决定为所述阈值。

18.根据权利要求16所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，将与用规定的函数对所述相关系数差分布图中的凸形状部进行拟合时的拟合曲线的极值对应的相关系数决定为所述阈值。

19.根据权利要求16所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，在所述相关系数差分布图中基于标绘出的数据点的密度变化来判断有无凸形状部。

20.根据权利要求16所述的大数据分析方法，其特征在于，

在所述阈值决定步骤中，将与所述相关系数差分布图中的凸形状部的偏离该凸形状部的顶部的位置对应的相关系数决定为阈值。

21.根据权利要求15或16所述的大数据分析方法，其特征在于，

在显示部的画面上显示所述相关系数差分布图。

22.根据权利要求21所述的大数据分析方法，其特征在于，

在所述显示部中显示的相关系数差分布图上强调显示通过所述阈值决定步骤决定的阈值。

23.根据权利要求21所述的大数据分析方法，其特征在于，

能够根据用户在所述显示部中显示的相关系数差分布图上的指示来变更通过所述阈值决定步骤决定的阈值或决定该阈值。

24.根据权利要求15或16所述的大数据分析方法，其特征在于，

基于所述相关系数差分布图中的分布形状，来判断通过该分析方法进行的任意的样本归属于簇的决定的妥当性。

25.根据权利要求1所述的大数据分析方法，其特征在于，

所述多个变量值是质荷比值，所述定量值是信号强度值，对通过质谱分析得到的质谱数据进行分析。

26.根据权利要求25所述的大数据分析方法，其特征在于，

样本是生物体试样，对通过对该生物体试样进行质谱分析所得到的质谱数据进行分析，由此判定特定的癌的亚型。

27.一种质谱分析系统，使用了根据权利要求25或26所述的大数据分析方法，该质谱分析系统的特征在于，具备：

信息存储部，其预先存储有在所述判定信息生成步骤中求出的判定信息；