CN109781917B

CN109781917B - 一种基于分子地图的生物样本智能识别方法

Info

Publication number: CN109781917B
Application number: CN201711123297.0A
Authority: CN
Inventors: 张晓哲; 赵楠
Original assignee: Dalian Institute of Chemical Physics of CAS
Current assignee: Dalian Institute of Chemical Physics of CAS
Priority date: 2017-11-14
Filing date: 2017-11-14
Publication date: 2020-12-08
Anticipated expiration: 2037-11-14
Also published as: CN109781917A

Abstract

本发明涉及一种基于分子地图的生物样本智能识别方法。目前的分类方法，局限于有限生物样本集，尚缺乏能够高通量、高准确度分析不同种类、不同来源生物样本的通用技术和手段，难以满足生物大样本的分类与识别要求。在这里，本发明提出了一个基于分子地图的智能识别方法。本发明利用生物样本分子地图所隐含的点簇和形状等空间特征来进行生物样本的高效识别。通过聚类，将密度高的点聚成点簇，然后利用点簇的精细空间信息进行未知和标准样本之间的高精度扫描和匹配，通过比较匹配度，进行识别；结果表明，基于分子地图中蕴含的空间特征，分类效果明显优于已报道的方法。

Description

一种基于分子地图的生物样本智能识别方法

技术领域

本领域涉及生物样本的智能识别问题，尤其涉及基一种基于分子地图的生物样本智能识别方法，该发明所开发的技术能够提取、比较和评价不同生物样本中分子的匹配度，成为区分不同生物样本的有力工具；该发明充分利用机器学习和图像识别等技术，提高了识别与分类的准确性与速度，实现了大批量生物样本的可靠识别与分类。

背景技术

在许多应用领域，对未知生物样本进行分类存在着日益增长的需求。由于样本量的爆炸性增长，开发快速、准确复杂的分类技术成为一项非常具有挑战性的课题^1-3。因为生物样本的组成极其复杂，人们为此目的开发了多种不同的方法。总结起来，主要有基因法、色谱法、光谱法和基于质谱技术的组学等四种方法。基因测序是确定生物样本属性的强大手段⁴，但基因测序具有周期长、时间和经济成本高的缺点，并且不适用于缺乏基因信息的生物样本，如植物的小分子提取物的分析与识别³。色谱法和光谱法是一种克服了上述基因法的缺点^5,6，但受制于分辨率低或分子信息不充分等因素，难以满足生物样本组成多样性的要求³。基于多维分离检测工具如色谱-色谱联用，质谱-质谱联用，特别是色谱质谱联用,因为提供了前所未有的分辨率，成为强大的分析工具，用于生物样品的高效分类与识别。然而，目前的分类方法，适应单个的分子(特征)为中心的、高度依赖强度，往往需要劳动密集型的结构鉴定^3,7，并受到特征过剩造成的困扰⁸。因此，它们的使用一般局限于感兴趣物种的有限样本集，而且几乎迄今为止，尚缺乏能够高通量、高准确度分析不同种类、不同来源生物样本的通用技术和手段，难以满足生物大样本的分类与识别要求。

基于X-MS的分子地图是一种高呈现复杂的生物化学成分析工具^9-11。而生物样品中含有可检测分子成千上万，许多化合物表现出物理、化学、生物相关性。我们认为，这种物理和化学参数的相似性可以为多维空间中的相关化合物分组提供依据^12,13。我们对大量不同种类样品进行分析和验证，发现这些样本，包括大鼠不同器官，人体血浆和各种植物产品，清楚地表明，每类分子地图中含有在空间上聚集的点。我们进一步发现分子地图上的点簇在不同的样本中具有独特的形状、密度和位置。我们认为这些空间聚集的点和由之形成的形态特征可以提供新的有价值的特征来识别或分类的复杂样品。

在这里，我们提出了一个基于分子地图的智能分类方法。我们获取生物样本的X-MS数据并生成分子地图；利用生物样本分子地图所隐含的点簇和形状等特征来进行生物样本的高效识别。通过聚类，将密度高的点聚成点簇，然后利用点簇的精细空间信息进行未知和标准样本之间的高精度扫描和匹配，通过比较匹配度，进行识别；结果表明，基于分子地图中蕴含的空间特征，分类效果明显优于已报道的方法。

参考文献

1.Pennisi,E.How will big pictures emerge from a sea of biologicaldata？. Science 309,94,doi:10.1126/science.309.5731.94(2005).

2.Sauer,S.&Kliem,M.Mass spectrometry tools for the classification andidentification of bacteria.Nature reviews.Microbiology 8,74-82, doi:10.1038/nrmicro2243(2010).

3.Wolfender,J.L.,Rudaz,S.,Choi,Y.H.&Kim,H.K.Plant metabolomics:fromholistic data to relevant biomarkers.Current medicinal chemistry 20,1056-1090(2013).

4.Gilbert,J.A.et al.Microbiome-wide association studies link dynamicmicrobial consortia to disease.Nature 535,94-103,doi:10.1038/nature18850(2016).

5.Terskikh,V.&Kermode,A.R.In vivo nuclear magnetic resonancemetabolite profiling in plant seeds.Methods in molecular biology 773,307-318,doi:10.1007/978-1-61779-231-1_17(2011).

6.Dworzanski,J.P.et al.Mass spectrometry-based proteomics combinedwith bioinformatic tools for bacterial classification.Journal of proteomeresearch 5,76-87,doi:10.1021/pr050294t(2006).

7.Martucci,M.E.P.,De Vos,R.C.H.,Carollo,C.A.&Gobbo-Neto,L.Metabolomics as a Potential Chemotaxonomical Tool:Application in the GenusVernonia Schreb.PloS one 9,doi:ARTN e9314910.1371/journal.pone.0093149(2014).

8.Smit,S.,Hoefsloot,H.C.&Smilde,A.K.Statistical data processing inclinical proteomics.Journal of chromatography.B,Analytical technologies inthe biomedical and life sciences 866,77-88,doi:10.1016/j.jchromb.2007.10.042(2008).

9.Li,X.J.,Yi,E.C.,Kemp,C.J.,Zhang,H.&Aebersold,R.A software suite forthe generation and comparison of peptide arrays from sets of data collectedby liquid chromatography-mass spectrometry.Molecular&cellular proteomics: MCP4,1328-1340,doi:10.1074/mcp.M500141-MCP200(2005).

10.Tsagkrasoulis,D.et al.'Brukin2D':a 2D visualization and comparisontool for LC-MS data.BMC bioinformatics 10Suppl 6,S12, doi:10.1186/1471-2105-10-S6-S12(2009).

11.Mehlan,H.et al.Data visualization in environmentalproteomics.Proteomics 13,2805-2821,doi:10.1002/pmic.201300167(2013).

12.Patra,B.,Schluttenhofer,C.,Wu,Y.,Pattanaik,S.&Yuan,L.Transcriptional regulation of secondary metabolite biosynthesis in plants.Biochimica et biophysica acta 1829,1236-1247,doi:10.1016/j.bbagrm.2013.09.006(2013).

13.Smith,L.M.,Kelleher,N.L.&Consortium for Top Down,P.Proteoform:asingle term describing protein complexity.Nature methods 10,186-187, doi:10.1038/nmeth.2369(2013).

14.Wiwie,C.,Baumbach,J.&Rottger,R.Comparing the performance ofbiomedical clustering methods.Nature methods 12,1033-1038,doi:10.1038/nmeth.3583 (2015).

发明内容

本发明要解决的技术问题是一种基于分子地图特征进行智能识别与分类的识别方法，本发明通过对化学、生物学和信息学知识与技术的综合应用，利用不同生物样本中分子地图中由点密度、距离和强度等形成的特异性分布模式，进行机器学习，进行生物样本的识别。与分类改变传统的方法相比，增强了方法的实用性(不同来源的数据)，显著提高识别生物样本的效率和准确性。

为了解决上述技术问题本发明提供一种基于分子地图特征进行智能识别与分类的识别方法，其特征在于构建生物样本分子地图中各种特征，特别是点簇和形态的智能提取和使用，实现对样本的识别与分类。按以下步骤进行：

A、获得生物样本的原始X-MS分析数据，转化为分子地图(或图像,维度可用时间、质量或质荷比、强度，迁移率等信息表示)，或者能够用于转化成地图的矩阵或图表等表示方法，这类格式的高维数据统属于分子地图；

B、对分子地图进行预处理，包括但不局限于噪音过滤等，得到处理后的分子地图；该地图中包含坐标、色度(强度)、密度、距离、边缘等信息；密度高的点形成了“点簇”这种包含高级信息的空间特征；

D、对未知样本的分子地图进行分割处理，将地图分割为多个微小区域；通过微区域与参照样本的分子地图进行匹配，检查匹配度，确认识别或分类结果。

生物样本用溶剂按照质量比1：n的比例(0.1≤n≤10000)进行提取，得到含有来自生物样本分子的提取物；溶剂为水、亲水性溶剂(如乙腈、丙酮、醇类等)或亲脂性溶剂(如氯仿、乙酸乙酯、石油醚、环己烷)、两性试剂(如表面活性剂、离子液体等)、不同溶剂组成的溶液或者气体(如干冰等)。本发明利用生物样本分子地图所隐含的点簇和形状等空间特征来进行生物样本的高效识别。通过聚类，将密度高的点聚成点簇，然后利用点簇的精细空间信息进行未知和标准样本之间的高精度扫描和匹配，通过比较匹配度，进行识别；结果表明，基于分子地图中隐含的各种空间特征，分类效果明显优于已报道的方法。

本发明为基于生物分子特征的识别提供一个更加有力的工具，本发明总结：

1.本发明采用采用图像处理技术，将样本各个化合物之间的质量和保留时间的关联性转化为空间关系，针对由该空间关系所展示的纹理和轮廓进行识别，具有识别能力高，提取特征容易的优点。

2.本发明发现生物样本中的化合物(离子)可通过聚类的方式在分子地图上形成点簇分布，这些点簇能够形成高级的图像特征，如纹理、轮廓，色度和空间关系等，提高识别的可行性与效率。

3.本发明全面利用了样本中各个化合物的质量信息，而不需要对各个化合物进行鉴定，能够大大提高识别效率。

4.本发明使用了机器学习技术，将分子地图全局特征的提取与局部精细特征的提取有机结合起来，显著提高识别与分类的准确性和速度。

5.与色谱-质谱指纹图谱法或基于组学技术的分类法相比，本发明更充分利用了各个化合物之间的质量的相关性，比较的过程简单且直接。

6.与常用于分类的一维指纹图谱法指纹图谱法相比，本发明利用了更多维度的信息，具有更高的识别效率。

7.与基因分析相比，本发明分析速度快，分析成本低，并且可用于基因物质缺失样本，如中药的小分子提取物，组织的蛋白质提取物等的分析，具有广阔的前景。

附图说明

图1基于点簇法的未知与参照样本匹配。A,点簇沿纵轴(t)扫描的示意图；B,通过最大二维相关法计算得到每个点簇在纵轴不同位置时的相关度大小；C，每个点在最大相关位置时未知样本(彩色，每种颜色代表一个点簇)与参照样本(黑色)的叠加分子地图；D，每个点簇的匹配度，和整个分子地图的匹配度；E,计算匹配度时所使用的权重函数示意图；F，基于分子地图轮廓特征的匹配示意图。

图2人参待测样本(n＝100)与8类参照样本(标准药材,1,人参；2,西洋参；3,红参；4,三七；5,牛膝；6,地黄；7,苦参；8,黄芪)的匹配度Sc；纵坐标代表匹配度，横坐标代表不同的人参样本；每个人参样本与8个参照样本匹配，得到不同的匹配度。

具体实施方式

本发明突破了以往生物样本识别中忽视化合物关联信息的缺点，发现并利用了由复杂样本中各个化合物在不同类型分离体系所形成的分子地图，提取多层次空间特征，建立了基于这些特征的智能识别体系，大大提高了复杂样本识别能力，对于药物或食品的甄别，疾病的诊断等多个领域具有广阔的应用前景。

现结合实施例和附图对本发明做进一步详细说明，实施例仅限于说明本发明，而非对本发明的限定。

复杂生物样品是指该样本中是含有多种物质的混合体，其形态可以是固态、液态、气态或混合态。不同样本的差异性是指化合物的组成或含量有区别。任何源自天然的含混合有机物样本均可以用于本发明的实施例。这些样本包含但不局限于植物的根、茎、叶、皮、花、果、种子等以及它们的组织与各种加工品等；人和动物血液、血清、血浆、乳汁、泪、唾液、精液、粪便、尿、细胞、组织、器官以及它们的加工品等；各种细菌、病毒；各种环境样品；可以是原始态的样品，经简单处理的样品，也可以是经过复杂处理如富集、衍生化或代谢后的形态。

本发明适用于不同规格的质谱，包括不同的离子化方式，不同的检测器原理和不同的检测分辨率等。在较佳实施例中，使用高分辨质谱仪产生质谱。高分辨质谱仪所产生的质谱可以产生高精度的分子地图，该图像在进行计算及图像处理时，可以的更高的分辨率，从而对于样本的识别达到更高的准确度。各种高分辨质谱仪均可用于高精度质谱信息的获取和分子地图的生成。

在使用质谱所产生的分子地图中，每一个点对应一个离子，其电荷数≥1；每个离子对应一个化合物，但由于质谱的特殊规律，每个化合物可以有多个点(离子)，这些离子可以是化合物的前驱离子、加合离子、碎片离子、聚合离子或同位素离子。

在有些实施例中，图像集可包含各个样品的分子地图。分子地图可以有两种模式，一种是只考虑质谱信号I的有无，一种是考虑I值的大小。在某些情况下，信号I的大小可反映样本的独特特征。分类处理可以整体图像或局部图像区分不同的样本，这些信息在分类模型进行区分的时可以考虑权重和相加。

本发明中，分子地图来自特性已知或未知的样本，由具有不同分离原理的色谱-质谱联用仪，色谱-色谱仪，或质谱-质谱仪或其它联用仪器直接生成或采集后经软件处理生成。作为演示，下述很多例子中都使用中药的色谱-质谱数据作为对象进行模式识别和分类。但是，在本发明的某些实施例，用来分析的样本可能是源自任何生物体的对象或由色谱-质谱，色谱-色谱，质谱-质谱任一仪器进行分析的多成分样本。

分离指的是能够区分化合物物理-化学特性的手段，包含色谱、光谱、波谱和质谱等，这些手段的特点是具有在真实或虚拟空间(如多维分子地图所构成的空间)内将具有物理-化学特征差异性的化合物进行分离与区分的能力。

在本发明中，产生的每一个分子地图至少含色谱分离信息，质量信息，或其它能够区分化合物物理-化学特性的信息。色谱分离信息可以由保留时间或保留时间的函数表示。质量信息可以以质荷比，分子量，或由质荷比计算得到的质量数，或任意以由质荷比相关函数所表示的质量信息。用于分离样本的仪器包括但不局限于色谱仪，气象色谱仪，毛细管电泳仪和薄层层析等。测定质荷比的仪器可以包括但不局限于时间飞行质谱仪，轨道阱质谱仪，傅里叶变换离子回旋共振质谱仪等，其它物理-化学特性包含但不局限于由紫外光谱仪、拉曼光谱仪、红外光谱仪、核磁共振仪等检测所得到的信息。

分子地图的分辨率决于色谱和质谱数据的采样分辨率。根据色谱仪器的性能，时间轴分辨率通常设定在0-10000s之间；根据质谱仪器的性能，离子的质量分辨率可设定在0-2Da之间。采集质量数据的质谱仪器高分辨率和高准确度越高，图像分析可设定的质量分辨率也越高。例如，由普通的离子阱质谱仪所获得数据，图像的质量分辨率可设在2Da，但对于由高分辨的轨道阱质谱仪所获取的数据，图像的质量分辨率可设为10ppm。对于一台常规UPLC-Q-TOF，高分辨分子地图的采样分辨率可高达10²(色谱)*10⁸(质谱)。

分子地图的分辨率可等于或低于色谱或质谱数据的采样分辨率。过高的采样分辨率可能需要大量的计算资源。根据图像处理的需要，可将实际分辨率适当降低如到正常图像的水准，如1000*2000个像素点或更低如258*258个像素点。

在分子地图中，每个化合物的信号强度数据以不同灰度、色度、高度或以这些特征综合表示；既存在着离散的点(代表化合物的点)，也存在者由部分距离相近，密度较高的点所组成的簇；簇是一个相对概念，若一副分子地图内含有n 个点，簇内点的多少(k)的范围为1≤k≤n，理想情况下，其范围为10＜k＜1000，以获得具有明确形状，在不同实验条件下可稳定出现的簇；簇的形状可以为规则的形状如方形或圆形，也可以为任意形状。

分子地图的分辨率对匹配效果具有直接影响。一般而言，图像越大，分辨率越高，可提高的精细特征越多，但需要更高的是数据处理运算时间。

无论是何种分辨率的分子地图，均包含不同层次的空间特征。可识别的特征包括，但并不仅限于，图像的整体轮廓，图像的整体纹理，某个特定区域内轮廓与纹理，一组相邻或非相邻的图像单元所组成的轮廓、纹理、空间关系，一个或一组图像单元的峰高或色差等。可识别的特性包括单一特性或一组特性。这种特性可用于区分不同的样本，如不同种属的植物，患病和正常的受试者，受污染的水和正常的水，不同厂家生产的同一类的食品和药品等。

分子地图的时间分辨率由样本之间色谱保留时间的差异性所决定，差异性越小，可设定的时间分辨率越高。由于色谱仪器自身原因，不同样本的分离保留时间可产生程度不同的偏差。在某些实施例中，样本之间的保留时间偏差可以由软件进行校正，对于样本特性差异过大的样本，不同样本中可以加入混合内标，由软件根据内标的保留时间对整个样本的色谱保留时间进行校正。

在本发明中，点簇的主要视觉特征是相邻点之间平均距离较近，平均点密度较高，点簇与点簇之间由空白区域或点相对稀疏的区域进行间隔；点簇可以为任意形状；点簇的形成可以使用K-means等聚类¹⁴算法实现；也可以通过机械区域分割实现；

在本发明中，形状的主要视觉特征是基于点簇所形成的边缘特征、轮廓特征、位置特征和色度特征等。

在本发明中，点簇的匹配是在未知样本和已知参照(标准)样本中进行的，为减少计算量和适应不同类样本之间的匹配，只需要对未知的样本进行聚类；

在本发明中，利用点对点对应的分数进行对应查询和参考样品。当一个样本对参考值有较大的分数时，它的概率被认为是更高的。根据点簇产生最佳匹配，从而允许捕获任意两个任意样本之间的共同化合物。

在本发明中，充分利用分子地图中蕴含的各种特征进行有效分类；该分类既可以单独使用深度学习，单独使用聚类和匹配，也可以整合两个的分类结果进行验证。

在本发明中，样本类别区分依据设立的标准，标准的设立依据样本的属性，包含但不限于制备生物样本所用材料所属的门、纲、目、科、属、种、亚种、部位、生长年龄，健康状态，所受的环境影响，以及生物样本的处理条件等中的一种或两种以上；类别相同样本指的是满足同一划分标准的样本；类别不同样本指的是不满足同一划分标准的样本；

不同的分类技术可应用到不同的场景中，在先验知识多的场景中，可使用但以一种技术进行分类，而在先验知识缺乏的场景中，需要对使用这两种互补的技术，以增强分类的可信度。

实施例1

下述例子演示如何利用基于分子地图的点簇匹配技术对人参、西洋参、红参、三七、牛膝、地黄、苦参、黄芪的高精度识别与分类。

该例子的目的是演示如何综合使用分子地图生成技术，基于点密度的聚类技术，图像分割技术，簇的匹配技术，机器分类技术等，实现样本的高效和准确识别。

材料与方法：

来自于市场的中药样本人参(1；样本数n＝170),西洋参(2；样本数 n＝100),红参(3；样本数n＝100),三七(4；样本数n＝100),牛膝(5；样本数 n＝100),地黄(6；样本数n＝100),苦参(9；样本数n＝100),黄芪(10；样本数 n＝100)作为未知样本(待测样本)；来自于市场的中药样本人参(1；样本数n＝70), 西洋参(2；样本数n＝74),红参(3；样本数n＝85),三七(4；样本数n＝81),牛膝(5；样本数n＝117),地黄(6；样本数n＝76),苦参(9；样本数n＝92),黄芪 (10；样本数n＝112)作为训练样本；另选取同样8类药材(人参,西洋参,红参, 三七,牛膝,地黄,苦参,黄芪的标准药材(2015年中国药典标准)作为参照样本(每类药材中样本数n＝1)。每份药材取干燥粉末100mg，分别加入体积浓度50％甲醇0.5ml，超声提取10min，离心收集上清，滤渣再次加入0.5ml体积浓度50％甲醇超声提取10min，离心收集上清，合并得到上清的提取液。

A、中药提取液采用Agilent 1290超高效液相色谱系统串联6520 ESI-Q-TOF-MS质谱系统，ZORBAX Eclipse Plus C18色谱柱(3.0*150mm, 1.8um)，流动相A相为水(0.5％乙酸)，B相为乙腈，梯度洗脱：0-15min， B相5％-100％，15-20min，B相保持100％，流速为0.4ml/min，柱温为60℃，进样量为5uL。负离子模式采集数据，数据采集范围m/z 100-1850。温度为350℃，干燥气(氮气)流速8L/min，雾化气压力40psi，毛细管电压 3500V，Fragmentor电压200V，skimmer电压65V。中药提取液或者采用 Thermo LTQ-OrbitrapElite超高效液相色谱系统质谱系统，ZORBAX Eclipse Plus C18色谱柱(3.0*150mm,1.8um)，流动相A相为水(0.5％乙酸)，B相为乙腈，梯度洗脱：0-15min，B相5％-100％，15-20min，B 相保持100％，流速为0.4ml/min，柱温为60℃，进样量为5uL。负离子模式采集数据，数据采集范围m/z 100-1850。温度为350℃，干燥气流速 10L/min，雾化气压力35psi，毛细管电压5000V，Fragmentor电压200V， skimmer电压65V。所有参照样本采用Agilent 1290超高效液相色谱系统串联6520ESI-Q-TOF-MS质谱系统进行分析。

B、色谱-质谱仪器进行分析得到中药的X-MS数据；该数据中每个离子(化合物)含有保留时间(t)、质荷比(m/z)或质量(m)和强度(I)三个维度的信息；

C、X-MS原始数据经质谱信息提取工具ProgenesisQI2.0处理，除去噪音，如除去信噪比＜1.5的离子，或者缺乏碳13同位素峰的离子，得到过滤后的X-MS数据。

D、以X-MS数据中的t,m/z分别作为纵坐标和横坐标，构建分子地图；图中的每个点对应X-MS数据中的一个离子，每个点具有自己的坐标(t,m/z)，每个点强度由点亮度的强弱表示；其中t的时间范围为0-1000s,m/z范围为0-1850Da.

E、在同一仪器上采用相同的操作参数和条件，按上述步骤操作,针对药典中所有的植物药进行分析，获取X-MS数据，构建生物样本可检测分子的多维信息文本库，其格式可为质谱数据存储格式(如mzXML,xls,txt或mat 等)中的一种；利用图像生成软件将X-MS数据或多维信息文本转化为点状分子地图，得到两个以上中药的分子地图库；

F、利用机器学习中的聚类工具Clusterdp，将首先将一待检测人参样本分子地图中的点分割为34个点簇；点簇内点的个数n≥10；

G、将提取点簇后的该人参待检测样本分子地图与参照样本(m)的分子地图进行分别扫描和匹配；

H、扫描时，将两个分子地图的原点、t轴和m/z轴对齐，然后该人参待检测样本的每个点簇保留m/z轴的位置和几何形状，沿时间轴(t)进行连续扫描；通过扫描，寻找该人参待检测样本点簇与参照样本(m)分子地图中能够在t和m/z能够准确匹配的共同点；

I、扫描过程中，点簇作为一个整体，移动的范围为0-T_k，T为样本对应的有效分析时间，本实例取T_k＝1000s；

J、扫描时，点簇沿时间轴(t)扫描的步长为1s；

K、扫描过程中，在该人参待检测样本中的一个点簇与参照样本(m)分子地图中的点进行匹配时，每个点允许的最小t偏差(t tolerance)为±30s； m/z(或m)允许的最小偏差[m/z(或m)tolerance]为±0.01Da；

L、当一个点簇移动到参照样本(m)分子地图的t轴的每一个位置时，记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标；

M、利用Matlab中的2D correlation函数计算该人参待检测样本一个点簇(i) 与中药分子地图数据库中参照样本(m)之间的相关度；

N、计算该人参待检测样本每个点簇在t轴方向与参照样本分子地图的最大相关度；

O、根据点簇在获得最大相关度的位置，利用计算点数的方法计算该人参待检测样本分子地图中每一个点簇与参照样本(人参)分子地图的匹配度(S_i)；

S_i代表第i个点簇对应的匹配度；k代表点簇中共有k个点符合匹配要求，

为每个匹配点的m/z(或用m代替)、t(色谱保留时间)和I(离子的信号强度)的关系函数；

代表第j个点对应的函数值；

可用如下函数式表示，

x,y,z指的是I,m/z,和t三个变量的指数，其中x≥0；y≥0；z ≥0；

在本实施例中,取x＝0；y＝1/2；z＝1/2；

P、根据上述步骤，计算人参待检测样本分子地图与参照样本分子地图(m) 的整体匹配度(S_c)；

方程3：

n代表所有点簇在最大匹配度时对应的所有匹配点个数，

代表通过点簇法匹配得到每个点(1-n)对应的

值；

Q、重复上述步骤，得到人参待检测样本(第一个)与8类参照样本的匹配度分别为260.5；255.2；245.2；209.3；41.7；73.1；77.9；91.6；100.3 和87.0，其他的人参样本匹配度见图2所示；

R、利用人参训练样本，与对应的人参参照样本进行匹配，计算样本匹配度的阈值γ＝190；

S、根据上述步骤A-P中相同的条件与参数，分析其它人参待测样本，得到每个样本与8类参照样本的匹配度(见图2)；在所有人参待测样本中，其与人参参照样本的匹配度均大于与其它7类参照样本的匹配度，且大于γ值；该批样本被识别为人参，识别正确率为100％；

T、利用重复上述步骤A-R，取其它7类待测样本，分别与所有参照样本进行匹配，并依据匹配度的排序结果和阈值γ，红参,三七,牛膝,地黄,苦参,黄芪的正确率达到了100％；西洋参中1个样本识别错误，正确率为 99％；人参、西洋参、红参、三七、牛膝、地黄、苦参和黄芪8类样本的平均正确率为99.87％。

实施例2

下述例子演示如何利用基于分子地图的点簇匹配技术对合欢花与合欢皮的高精度识别与分类。

材料与方法：

U、来自于市场的中药样本合欢皮(n＝100),合欢花(n＝100)作为未知样本 (待测样本)；来自于市场的中药样本合欢皮(n＝111),合欢花(n＝52), 苦参(9；n＝192),黄芪(10；n＝212)作为训练样本,另选取10类药材(人参,西洋参,红参,三七,牛膝,地黄,合欢皮,合欢花,苦参,黄芪)

的标准药材(2015年中国药典标准)作为参照样本(n＝1)，每份药材取干燥粉末100mg，分别加入体积浓度50％甲醇0.5ml，超声提取2次，离心，合并，得到上清的提取液。

V、中药提取液采用Agilent 1290超高效液相色谱系统串联6520 ESI-Q-TOF-MS质谱系统，ZORBAX Eclipse Plus C18色谱柱(3.0*150mm, 1.8um)，流动相A相为水(0.5％乙酸)，B相为乙腈，梯度洗脱：0-15min， B相5％-100％，15-20min，B相保持100％，流速为0.4ml/min，柱温为60℃，进样量为5uL。负离子模式采集数据，数据采集范围m/z 100-1850。温度为350℃，干燥气(氮气)流速8L/min，雾化气压力40psi，毛细管电压 3500V，Fragmentor电压200V，skimmer电压65V。中药提取液或者采用 Thermo LTQ-OrbitrapElite超高效液相色谱系统质谱系统，ZORBAX Eclipse Plus C18色谱柱(3.0*150mm,1.8um)，流动相A相为水(0.5％乙酸)，B相为乙腈，梯度洗脱：0-15min，B相5％-100％，15-20min，B 相保持100％，流速为0.4ml/min，柱温为60℃，进样量为5uL。负离子模式采集数据，数据采集范围m/z 100-1850。温度为350℃，干燥气流速 10L/min，雾化气压力35psi，毛细管电压5000V。所有参照样本采用 Agilent 1290超高效液相色谱系统串联6520ESI-Q-TOF-MS质谱系统进行分析。

W、色谱-质谱仪器进行分析得到中药的X-MS数据；该数据中每个离子(化合物)含有保留时间(t)、质荷比(m/z)或质量(m)和强度(I)三个维度的信息；

X、X-MS原始数据经质谱信息提取工具ProgenesisQI2.0处理，除去噪音，如除去信噪比＜1.5的离子，或者缺乏碳13同位素峰的离子，得到过滤后的X-MS数据。

Y、以X-MS数据中的t,m/z分别作为纵坐标和横坐标，构建二维分子地图；图中的每个点对应X-MS数据中的一个离子，每个点具有自己的坐标 (t,m/z)，每个点强度由点亮度的强弱表示；其中t的时间范围为 0-1000s,m/z范围为0-1850Da.

Z、采用相同的操作参数和条件，按上述步骤操作,针对药物进行分析，获取 X-MS数据，构建生物样本可检测分子的多维信息文本库，其格式可为质谱数据存储格式(如mzXML,xls,txt或mat等)中的一种；利用图像生成软件将X-MS数据或多维信息文本转化为分子地图，得到两个以上中药的分子地图库；

AA、利用机器学习中的聚类工具Clusterdp，将首先将一待检测合欢花样本分子地图中的点分割为35个点簇；点簇内点的个数n≥50；

BB、将提取点簇后的合欢花待检测样本分子地图与参照样本(m)的分子地图进行分别扫描和匹配；

CC、扫描时，将两个分子地图的原点、t轴和m/z轴对齐，然后合欢花待检测样本的每个点簇保留m/z轴的位置和几何形状，沿时间轴(t)进行连续扫描；通过扫描，寻找合欢花待检测样本点簇与参照样本(m)分子地图中能够在t和m/z能够准确匹配的共同点；

DD、扫描过程中，点簇作为一个整体，移动的范围为±0-T，T为样本对应的有效分析时间，本实例取T＝1000s；

EE、扫描时，点簇沿时间轴(t)扫描的步长为1s；

FF、扫描过程中，在合欢花待检测样本中的一个点簇与参照样本(m)分子地图中的点进行匹配时，每个点允许的最小t偏差(t tolerance)为±30s； m/z(或m)允许的最小偏差[m/z(或m)tolerance]为±0.01Da；

GG、当一个点簇移动到参照样本(m)分子地图的t轴的每一个位置时，记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标；

HH、利用方程(1)与(2)计算合欢花待检测样本一个点簇(i)与参照样本(m) 之间在t轴方向的最大匹配度(S_i)；

II、基于方程(3)，计算该合欢花待测样本与参照样本(m)的整体匹配度 [S_c(m)]；得到67.9；64.9；51.9；54.6；50.6；81.2；225.9；128.4； 135.2；99.0；

JJ、重复上述步骤，分析所有合欢花待检测样本与中10类参照样本的匹配度；

KK、利用合欢花训练样本，与对应的合欢花参照样本进行匹配，计算样本匹配度的阈值γ＝130；

LL、根据上述步骤中相同的条件与参数，分析其它合欢花待测样本，得到每个样本与10类参照样本的匹配度；在所有合欢花待测样本中，其与合欢花参照样本的匹配度均大于与其它9类参照样本的匹配度，且大于γ值；该批合欢花样本的识别正确率为100％；

MM、利用重复上述步骤，取合欢皮待测样本，分别与参照样本进行匹配，并依据匹配度的排序结果和阈值γ，合欢皮的正确率达到了100％。

Claims

1.一种基于分子地图的生物样本智能识别方法，其特征在于：根据生物样本分子地图所蕴含的空间特征，而这些特征在不同类生物样本中呈现不同的分布模式，对未知样本进行识别与分类；

所述基于分子地图的生物样本智能识别方法，包括如下步骤：

A、生物样本提取物利用X-质谱仪器进行分析，得到X-MS数据，其中X代表气相色谱、液相色谱、离子色谱、凝胶色谱、毛细管电泳、离子迁移谱或其他任意一种能够在时间维度上对分子进行分离的方法，MS代表质谱；该数据中每个离子或化合物含有保留时间t、质荷比m/z或质量m、强度I三个维度的信息；X-MS数据中总离子的数量≥10；

B、X-MS原始数据经质谱信息提取工具Progenesis QI2.0或Peaks Studio7.0或Metlab16b处理，除去噪音，除去信噪比＜1.5的离子，或者缺乏碳13同位素峰的离子，得到过滤后的X-MS数据；

C、以X-MS数据中的t,m/z或m分别作为横坐标和纵坐标两个维度，构建分子地图；图中的每个点对应X-MS数据中的一个离子，每个点具有自己的坐标t,m/z或m，每个点强度由点的大小或亮度的强弱表示；

D、分子地图的存储与分析格式为任一能够代表高维数据的格式，包括mzXML,xls,txt,mat,bmp或jpg的一种或二种以上；

E、在同一型号的仪器上采用相同的操作参数和条件，按上述A-D步骤操作,针对两个以上的类别的参照生物样本进行分析，获取X-MS原始数据，其中每一类别中参照样本的数量为1个或1个以上；利用图像生成软件将X-MS原始数据或多维信息文本转化为分子地图，得到参照样本的分子地图库；

F、采用相同的操作参数和条件，按上述A-D步骤操作,针对待分析的未知样本进行分析，获取X-MS数据；利用图像生成软件将X-MS数据或多维信息文本转化为分子地图，得到未知样本的分子地图；

G、利用机器学习中的图像分割工具，或聚类工具，将未知样本分子地图中的点分割为n个点簇，其中n≥1整数；

点簇指的是在空间上距离接近的点的集合，点簇内点的个数n≥3；

每个点簇有自己的中心点，点簇的形状为任意形状；

H、将提取点簇后的未知样本分子地图与参照样本分子地图库中的参照样本分子地图逐一进行分别扫描和匹配；

扫描时，将两个分子地图的原点、t轴和m/z或m轴对齐；

扫描时，点簇作为一个整体，移动的范围为0-T_k，T_k为参照样本对应的最大分析时间；

扫描时，未知样本的每个点簇保留其m/z或m轴的位置和几何形状，沿时间轴t进行扫描；

通过扫描，寻找未知样本点簇与参照样本分子地图中能够在t和m/z或m能够准确匹配的共同点；扫描过程中，在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时，每个点允许的t绝对偏移值（t tolerance）为≥T，T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值与参照样本X-MS数据采集时色谱仪允许的保留时间平均偏移值之和；

扫描过程中，在未知样本中的一个点簇中的点与参照样本分子地图中的点进行匹配时，每个点允许的m/z或m绝对测定误差m/z或m tolerance≥A，A等于未知和参照样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差之和；

当未知样本点簇内一个点与参照样本的某个点满足t偏差和m/z或m偏差时，认为该点符合匹配要求；

扫描时，点簇沿时间轴（t）扫描的步长≤T，0s＜T＜10000s；

其中，保留时间偏移值以绝对值表示，使用1个或1个以上标准物质，或某样本中的1个或1个以上化合物的多次重复测定计算；

I、当一个点簇移动到参照样本分子地图的t轴的每一个位置时，记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标；

J、计算每一个位置时，未知样本一个点簇i，与该参照样本分子地图之间的匹配度S_i，匹配度的大小利用统计工具计算点簇i与参照样本分子地图所匹配的点数、或相似度、或相关度中的一种或二种以上进行计算，其中，i≥1的整数；

由上述三种方法得到的匹配度分别由点数或点数的函数、相似度和相关度表示；

点簇匹配度大小，与点簇匹配的点数、坐标位置t,m/z和强度这四个变量呈线性或非线性相关；计算点数或点数的函数、相似度或相关度的基础是基于四个变量的关系变换；选用不同的匹配度计算方法分别计算点簇和参照样本分子地图的整体匹配度；

匹配点的个数指的是点簇符合匹配条件点的个数；基于上述步骤，对未知样本分子地图中每一个点簇的最大匹配度S_i进行数学加权处理，得到未知样本分子地图与参照样本分子地图的整体匹配度S_c；

K、重复上述步骤，逐一分析未知样本分子地图与其它参照样本分子地图之间的匹配度，得到其与每一个参照样本的整体匹配度S_c；

L、未知样本的所属类别可不借助阈值或借助阈值进行判定；

当不借助阈值时，利用上述步骤，将未知样本与参照样本进行匹配，对匹配度从大到小进行排序，若未知样本与某一参照样本的匹配度排名越靠前，表明未知样本为与该样本的可能性越大，反之越小；

当借助阈值时，设定阈值ɤ，用于判断不同来源未知样本与同类参照样本匹配的可信范围；

阈值根据统计学的方法设定：重复上述步骤A-D，采用相同或相近的操作参数和条件，选取2个以上类别已知的同类别生物样本作为某一类样本的训练样本，进行分析，获取X-MS原始数据；利用图像生成软件将X-MS原始数据或多维信息文本转化为分子地图，得到该类样本的训练分子地图集；利用训练分子地图集，与同类参照样本分子地图进行匹配，通过统计学的方法发现匹配度分布区间，选定分布区间中匹配度的下限作为该类样本的阈值ɤ；

或，阈值利用文献报道或实验观察得到某类样本与参照样本匹配度分布区间，采用与步骤A-D相同或相近的操作参数和条件所得到的分析结果，选定分布区间中匹配度的下限作为该类样本的阈值ɤ，其中， n≥2；

将未知样本与参照样本进行匹配，匹配度按照从大到小进行排序，若未知样本与某类参照样本的匹配度排名越靠前，且S_c大于由该类参照样本测定所得的阈值ɤ，表明未知样本为该类样本的可能性越大，反之越小。

2.根据权利要求1所述的基于分子地图的生物样本智能识别方法，其特征在于：参照样本为类别信息明确，获取条件同一的样本，未知样本为类别信息待明确的样本。

3.根据权利要求1所述的基于分子地图的生物样本智能识别方法，其特征在于：色谱仪的保留时间平均偏差指的是色谱仪器在同样条件下重复测定同一样本时各个化合物的时间偏差的均值，用混合标准品进行测定，其中，保留时间平均偏差和时间偏差的均值均为绝对值。

4.根据权利要求1所述的基于分子地图的生物样本智能识别方法，其特征在于：A1:生物样本为各种来源于生命体或其产物的样本；

A2:为满足匹配和分类的要求，不同样本之间的提取方法和条件应该一致；

A3: 生物样本用溶剂按照质量比1：n的比例进行提取，得到含有来自生物样本分子的提取物，其中0.1≤n≤10000。

5.根据权利要求1所属的基于分子地图的生物样本智能识别方法，其特征在于：B1:色谱仪或离子迁移谱仪器通过选择性作用，将生物样本中混合的分子进行分离，获得不同的保留时间信息t；

B2:质谱仪通过电场或磁场作用，根据分子的质荷比不同进行分离和检测，获得不同的质荷比信息m/z；

B3:生物样本提取物利用色谱-质谱仪器进行分析，色谱分离所用的时间t范围为1-10000s.离子m/z扫描的范围50-10000Da；得到X-MS数据。

6.根据权利要求1所述的基于分子地图的生物样本智能识别方法，其特征在于：

C1:利用原始X-MS数据中每个离子的信噪比或同位素分布形态进行早期除噪，越有利于提高识别的准确度；

C2:权利要求1所述步骤不需要强制的时间校正；

C3:X-MS信息拓展为二维、三维或更高维度；

C4:用于生成多维分子地图的矩阵或图表视为分子地图的前体数据，被计算机或软件转化为人类视觉上的图像，此类矩阵或图表格式的高维数据称为广义上的分子地图，数据能够进行各种格式的转化。