CN108363908B - 用于检测生物分子的智谱系统 - Google Patents

用于检测生物分子的智谱系统 Download PDF

Info

Publication number
CN108363908B
CN108363908B CN201810152212.XA CN201810152212A CN108363908B CN 108363908 B CN108363908 B CN 108363908B CN 201810152212 A CN201810152212 A CN 201810152212A CN 108363908 B CN108363908 B CN 108363908B
Authority
CN
China
Prior art keywords
data
knowledge
mass
mass spectrum
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810152212.XA
Other languages
English (en)
Other versions
CN108363908A (zh
Inventor
马庆伟
薛恒钢
白春雨
张�荣
陈莲莲
安娜
战晓薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Clin Bochuang Biotechnology Co Ltd
Original Assignee
Beijing Clin Bochuang Biotechnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Clin Bochuang Biotechnology Co Ltd filed Critical Beijing Clin Bochuang Biotechnology Co Ltd
Publication of CN108363908A publication Critical patent/CN108363908A/zh
Application granted granted Critical
Publication of CN108363908B publication Critical patent/CN108363908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明提供一种用于检测靶分子的智谱系统,包括:质谱仪数据采集系统、智能模糊专家系统、知识库采集系统和模型采集系统。其中,质谱仪数据采集系统用于检测样品的质谱数据;智能模糊专家系统可以对质谱数据进行智能分析;知识库采集系统可通过云中心预先存贮和管理与质谱检测的相关知识;模型采集系统可根据指令将已知质谱模型数据发送给知识管理系统和质谱模型存储装置。本发明以云中心计算作为支持,通过知识库采集系统的智能学习和存储,通过智能模糊专家系统对质谱数据进行智能分析,并以能以低廉的成本代价模拟生成大量的训练数据,有利于分析大样本,适合非专业人员的操作,实现实时监控个人健康信息,满足了个性化医疗服务的需求。

Description

用于检测生物分子的智谱系统
技术领域
本发明涉及用于检测生物分子的智能化质谱系统,将传统质谱法与人工智能结合,实验技术方法承接成熟的传统质谱法,而实验数据处理、分析应用近年来飞速发展的人工智能技术,因此属于仪器制造技术领域。
背景技术
几十年来研究者在高分辨率、高灵敏度方面对质谱法进行了深入的研究,目前质谱法的分辨率、灵敏度已大大提高,基本达到物理学极限。质谱法,即运用电场和磁场将运动的离子(带电荷的原子、分子或分子碎片,有分子离子、同位素离子、碎片离子、重排离子、多电荷离子、亚稳离子、负离子和离子-分子相互作用产生的离子)按它们的质荷比分离后进行检测,测出离子准确质量即可确定离子的化合物组成1,2。分析这些离子可获得化合物的分子量、化学结构、裂解规律和由单分子分解形成的某些离子间存在的某种相互关系等信息。
质谱法于20世纪初被气体分析和测定化学元素的稳定同位素,后应用于分析石油馏分中的复杂烃类混合物。早期的应用证实了有机分子能产生确定的能够重复的质谱之后,研究者才将质谱法用于测定有机化合物的结构,开拓了有机质谱的新领域。
20世纪中期以来,质法被开始应用于生命科学及临床医学领域,在检测生物多肽组、蛋白组、DNA、RNA等成分,从而在基础及临床方向对人体健康、疾病等方面的研究中发挥了极重要的方法支持作用5,6,12,13
质谱法作为一种理论成熟、应用广泛、研究深入的分析方法,在生物及医学方面,目前几乎可以检测到所有的生物小分子5,6。从量子化学角度来说,接近所有人类已知分子量的小分子都已被质谱检测到,甚至于人工合成的自然界不可能存在的小分子,质谱目前也可以轻松检测7,8,9,10,12,13,15。对于理论上有限的对象种类,质谱法目前已达到其检测极限。在这方面,质谱法继续研究进步、发展的空间已非常有限。
另外,从解决科学问题的角度看,以人类蛋白组学为例,目前99.9%以上的人类蛋白组成分已被检测发现,以提高分辨率等为代表的质谱法方法学的研究对于临床科学研究、解决目前的实际临床问题来说意义已十分有限。因此,若仍希望质谱法能在不断涌现的医学基础、临床问题中发挥有效、不可替代的作用,我们就必须对质谱法进行分析思路的调整、改变与优化。因而,我们需首先分析发展至今,目前的传统质谱法在进行医学、生物研究分析中存在的明显问题。
传统质谱对于测试同一个样品,谱图往往难以达到完全一样,变异系数较大。该问题在医学基础、临床研究中,主要体现为所检测的生物大、小分子组分,在同一样本中也常在多次点样的不同谱图中所测结果不同,变异过大,从而使许多临床问题无法得到准确合理的分析、解释,问题难以得到解决。
造成传统质谱出现此问题的原因不唯一,较为主要的一个原因是传统质谱的数据处理、分析步骤未达到对所获得的实验数据进行数据标准化处理。质谱法数据分析属于多指标评价体系,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。例如通过谱库鉴定微生物评价的指标包括:分辨率、灵敏度、质量准度对、峰的相对丰度、谱库的匹配度、谱库的容量等等,同时同一株细菌通过多次传代会出现峰的位置(质量准确度)和峰的相对丰度(峰高度)的偏差,这造成鉴定的CV过大,难以达到设计要求。因此,为了保证结果的可靠性,需要对获得原始实验数据进行标准化处理。
传统质谱的应用、特别是在医学基础、临床方面的研究中,研究者对于质谱法的实验数据标准化进行了不少尝试,也取得了对实验数据的部分标准化。但是,目前对于传统质谱法,我们仍缺少较为广泛适用的数据标准化处理方法。这一问题大大限制了质谱法帮助研究者准确有效解决医学基础、临床问题的能力。
中国专利申请200580007092.5、发明名称“使用新的数据库检索摸索鉴别和鉴定蛋白质”公开了一种利用互联网的数据库资源对于样品多肽的质谱结果进行比对分析的系统,包括对检测得到的样品多肽的质谱数据进行精选的装置,将第一次精选的质谱数据与蛋白仓库进行分析精选的第二装置,以及计算机和相关软件。其中,所述蛋白仓库最初由每次大的蛋白质检测结果结合组成,并负责处理来自检索算法的查询,并通过包括动态鸟枪注释的混合检索方法不断更新或扩缩,直至获得精选匹配的候选肽结果,才取消该动态的鸟枪注释的更新过程。虽然该方法已经提出利用互联网技术来建立蛋白质谱数据库,并实现数据库的实时检索查询和更新,但该方法仅仅需要针对不同的蛋白分别建立数据库,并设计相应的混合检索方法以及2次精选数据的过程,只能用于含有已知蛋白的样品的质谱检测,并且过程过于繁琐,需要同时精通医学蛋白检测和计算机软件设计人员的参与,因此其应用受到了限制,致使随后长时间该研究未取得有效进展。
目前人工智能算法发展极其迅速,如阿里云,IBM WATSON等智能算法系统/平台等,对于上述问题,采用与这些智能算法系统/平台合作开发,应用于质谱法获取的实验数据处理、分析,将开创智谱法应用于医学基础、临床领域的新篇章。但是采用人工智能算法应用于传统质谱法,就需要对有效、适用的数据进行标准化处理,将对质谱法的信号处理提出了新的、更高的要求。
此外,由于传统质谱检测结合互联网技术仍然停留在如何改进对质谱数据的处理和样品检测物的分析方面,而后根据结果来进行相关检测,如确诊疾病、环境或工业产品中的目标分子等。然而,根据这些检测数据与相关领域的关联性,需要该领域的技术人员(如医生、检验检疫人员等)根据专业知识并结合其他信息进行综合判断,因此导致需要同时具备两方面的专业知识的人员(例如实验员和医生)才能完成检测和相关改进,这难以解决目前日益增长的个性需要与冗长繁琐的检测过程和人手不足之间的矛盾。
因此,如何利用互联网技术改进质谱数据的标准化处理和提高检测结果的简易性已经成为生产和生活中的紧迫需求。
发明内容
针对上述问题,本发明提供一种用于检测靶分子的智谱系统,其发明原理在于:指将传统质谱法与人工智能结合,基于成熟的传统质谱法,改进对实验数据进行标准化处理及分析系统(即智能模糊专家系统),建立有效的决策模型,所获得的分析结果变异系数减小、更为稳定,同时创造性引入知识库采集系统和模型采集系统以及人机对话系统,使得非专业人员根据质谱数据的分析处理结果,不需要专业知识即可得到和理解相关检测结果,从而使得结合了互联网技术的质谱系统具有人工智能判断的效果,该系统即所谓“智谱”系统。
因此,本发明第一目的是提供一种改进的质谱仪数据采集系统1,包括质谱装置101、质谱数据管理装置102、样品的质谱数据库存储装置103,质谱装置101分别与质谱数据管理装置102、质谱数据库存储装置103以及用户界面501相连,并发送待测物的质谱数据。数据管理装置102还可接受决策模型建立装置203发送的检测结果质谱模型,并将模型代表的最终结果传送给用户以及存储装置103进行保存。
其中,该质谱装置在传统质谱仪的基础上,使用改进的高速采集卡、运动控制卡和激光衰减卡。
在一个实施方案中,所述高速采集卡是用计数式收集器与模拟式信号转化器共同组成,替代原高速采集卡,在灵敏度比较低的情况下可以采用计数式收集器,而灵敏度高的情况下可以用模拟式。在另一实施方案中,所述运动控制卡采用机械限位替代光栅反馈。
在其他实施方案中,所述激光衰减卡用非线性光学部件替代原来的遮挡式激光衰减器,使激光变化更加符合要求。
在以上实施方案中,其中所述靶分子包括蛋白质或多肽、核酸、生物代谢物、微生物或其组合,或包括无机化合物、有机化合物和离子或其组合,或包括上述分子组成的组。在一个具体实施方案中,所述质谱装置是飞行时间激光质谱仪。在另一具体实施方案中,所述飞行时间激光质谱仪是MALTI TOF MS或CLIN TOF。
本发明第二目的是提供一种适于专业人员检测靶分子的智谱系统,包括:上述的质谱仪数据采集系统1、智能模糊专家系统2、知识库采集系统3和模型采集系统4。
在第一方面的实施方案中,所述质谱仪数据采集系统包括,包括质谱装置101、质谱数据管理装置102、样品的质谱数据库存储装置103,质谱装置101分别与质谱数据管理装置102、质谱数据库存储装置103以及用户界面501相连,并发送待测物的质谱数据。数据管理装置102还可接受决策模型建立装置203发送的检测结果质谱模型,并将模型代表的最终结果传送给用户以及存储装置103进行保存。
在一个实施方案中,所述该质谱装置在传统质谱仪的基础上,使用改进的高速采集卡、运动控制卡和激光衰减卡。其中在具体实施方案中,所述高速采集卡是卡是用计数式收集器与模拟式信号转化器共同组成,替代原高速采集卡,在灵敏度比较低的情况下可以采用计数式收集器,而灵敏度高的情况下可以用模拟式;所述运动控制卡是采用机械限位替代光栅反馈;所述激光衰减卡是卡用非线性光学部件替代原来的遮挡式激光衰减器,使激光变化更加符合要求。
在另一具体实施方案中,所述数据管理装置包括计算服务器和分析软件。
在其他的具体实施方案中,所述质谱数据库存储装置103可存储质谱装置101的样品质谱数据和质谱管理装置102分析的样品质谱模型结果,以及能接受已知的质谱模型的结果。在具体的实施方案中,存储装置103包括存储硬盘和能将数据进行输出的软件。
在第二方面的实施方案中,智能模糊专家系统2包括质谱数据接收装置201、质谱数据计算装置202和决策模型建立装置203,其中数据接收装置201负责接收数据管理装置102发送的处理质谱数据,然后传送给质谱数据计算装置202,经过该装置搜索计算后,将计算结果发送给知识管理装置303进行分析,并将分析结果和已知的质谱模型一起发送给决策模型建立装置203,得出最终有效的质谱模型。最后该模型的数据传送给数据管理装置102。在一个实施方案中,所述质谱数据计算装置202包蒙特卡罗树搜索计算装置。
该装置由数据预处理软件、数据清洗软件以及数据分类软件组成,能够根据各种概率分布的随机变量,通过计算机用统计方法把质谱模型的数字特征估计出来,从而得到能解决实际问题的较为合理质谱数据值,并能将得到的数据值传送给知识管理装置303。
在其他的实施方案中,决策模型建立装置203包括马尔科夫尼科夫聚类,其可将与专业知识比对后的结果建立有效决策模型,并发送给质谱数据管理装置。常规质谱仪中缺少模型建立的相关装置。在一个具体实施方案中,所述决策模型包括与疾病、环境污染物、食品病原物的目标蛋白的数量及其质谱峰的质荷比值。
在第三方面的实施方案中,所述知识库采集系统3包括知识输入装置301、知识存储装置302、知识管理装置303,其中:
知识输入装置301用于输入待测来源物的背景信息以及涉及通过质谱检测疾病、环境、产品的检测标准的信息或质谱模型信息,并将信息实时传送给知识存储装置302和质谱模型存储装置401;
知识存储装置302用于存储上述信息,并实时根据知识管理装置303发来的查询指令,将相关信息传送给知识管理装置303;
知识管理装置303在接收数据计算装置202(如蒙特卡罗树计算装置)发送的计算结果后,向知识存储装置302和模型管理装置401发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置203,同时保存在知识存储装置302中。
在一个实施方案中,知识输入装置301用于输入待测来源物的背景信息和专业文献知识,包括:病人信息,例如病人病例、生活习惯、个人背景;或,环境信息,例如地理位置信息、水文土壤信息、地理资源信息、动植物和微生物等生物信息;或产品信息,例如产品规格、产品组成、含量比例、产品检验检疫标准等信息。
在一个具体实施方案中,所述专业文献知识涉及疾病的诊断标准,环境生产污染物的检测标准或环境病原物传播的检测标准,食品安全性的检测标准,或者是已知病原物、环境生产污染物或环境病原物、食品污染物的质谱模型信息。其中,所述质谱模型信息包括与已知病原物、环境生产污染物或环境病原物、食品污染物或产品杂质的目标蛋白的数量及其质谱峰的质荷比值。在其他的实施方案中,所述知识输入装置包括机械输入装置,例如键盘、外接磁盘、扫描输入系统,或包括网络输入装置,例如通过互联网访问途径从相关数据库中下载输入。
在其他的实施方案中,所述知识输入装置301可以与已知的专业数据库相连。在一个具体实施方案中,所述专业数据库是蛋白组数据库。在优选的实施方案中,所述专业数据库是与疾病相关的人类蛋白数据库,致病或污染性微生物数据库。
在另一实施方案中,知识存储装置302可存储知识输入装置301输入的上述任何信息,以及存储知识管理装置303发送的比对信息。在具体的实施方案中,存储装置包括存储硬盘和能将知识数据处理为标准格式数据的软件。在更具体的实施方案中,所述软件包括图像文字转化处理软件,专业术语转化软件,专业翻译软件等。在其他更具体的实施方案中,所述存储硬盘可以是云平台存储服务器。
在其他实施方案中,知识管理装置303包括计算服务器和分析软件,该装置可接受知识存储装置302发送的随机输入的质谱数据,结合数据计算装置202(如蒙特卡罗树计算装置)发送的计算结果以合成为新的内容(比如合成谱图),然后向模型管理装置401发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置203,同时保存在知识存储装置302中。随后,决策模型建立装置(203)负责学习真实的谱图并判断知识管理装置(303)发送的内容是否以假乱真。对抗训练可以被认为是一类游戏,知识管理装置(303)必须反复学习用质谱数据合成有意义的内容,直到决策模型建立装置(203)无法区分合成内容的真伪。这套框架正在被扩展应用到许多数据模式和任务中,以提高谱库的分辨率,例如高度同源的谱图。相较传统质谱法有更大的谱图容量,从而对大样本的分析更为方便适用。
在第三方面的任一实施方案中,其中可以将知识输入装置301合并知识存储装置302,即知识存储装置302同时具有输入外部知识数据并进行存储的功能。
本发明第四方面的实施方案,所述质谱模型采集系统4包括质谱模型存储装置401和模型管理装置402,其中质谱模型存储装置401可接受知识输入装置301和/或知识存储装置302发送的已知病原物、环境生产污染物或环境病原物、食品污染物的质谱模型信息,同时与质谱数据库存储装置103互连,实现数据交换。质谱模型管理装置402可接收知识管理系统303的查询指令,将符合要求的已知质谱模型数据发送给知识管理系统303,同时将发送的已知质谱模型数据发送给质谱模型存储装置103进行保存。
在一个实施方案中,所述质谱模型包括能够表征特定信息的标志物(如疾病多肽标志物,产品杂质的特征标志物,环境污染物的特征标志物)的质谱信息,和信息相关的标志物的结构信息,以及相关处理标准所组成的质谱模型。在一个具体实施方案,所述质谱模型包括与疾病的特征蛋白或多肽、产品的特征蛋白或多肽杂质、环境的特征蛋白或多肽的标志物的质谱峰值质荷比数据,标志物的结构信息(如多肽序列,微生物分型等),和/或处理步骤、确定标准,以及相关质谱峰图谱。
在另一个实施方案中,所述质谱模型存储装置401包括存储硬盘或存储服务器。在更具体的实施方案中,所述质谱模型存储服务器可以是云平台存储服务器。
本发明第三目的是提供一种适于非专业人员检测靶分子的智谱系统,其除了包括上述所有装置之外,还包括人机交互系统5,其中人机交互系统包括用户界面501、人机对话系统502。
在一个实施方案中,所述用户界面501与质谱装置101、质谱数据管理装置102相连,可对质谱仪进行质谱检测以及接受质谱结果。该用户界面同时与人机对话装置502相连。在一个具体实施方案中,所述用户界面501或人机对话装置502可以通过设置触摸屏进行操作。
在另一实施方案中,人机对话装置502分别与数据接收装置201、知识输入装置301或知识存储装置302相连,可通过输入指令实时输入或输出相关数据或知识。在一个具体实施方案中,所述人机对话装置502可以是非专业人员进行操作,例如病人或普通公众,通过输入个人信息,例如病人病例、生活习惯、个人背景;或,环境信息,例如地理位置信息、水文土壤信息、地理资源信息、动植物和微生物等生物信息;或产品信息,即可从用户界面获得最终检测结果。
在上述任一实施方案中,其中所述疾病包括癌症、炎症、微生物或致病菌传染病。在一个具体实施方案中,所述疾病包括与微生物蛋白相关的龋齿、食管癌、非小细胞肺癌。在一个具体实施方案中,所述个人信息包括患者样品所得到的数据、患者的就诊记录、患者的家族遗传关系、患者生活方式数据(是否吸烟、饮酒、熬夜、长期服药、居于各种辐射环境等)。
在上述任一实施方案中,其中所述环境信息包括环境病菌污染物、蛋白或多肽污染物、进出口岸污染物的蛋白或多肽的质谱数据信息。还在上述任一实施方案中,其中所述产品信息包括食品、农产品、工业品种的蛋白或多肽污染物或杂质的质谱数据信息。
本发明第四个目的是提供一种质谱云中心联机的方法,其特征在于将多个上述智谱系统通过互联网进行云中心联机,从而实现异地的质谱检测数据相互共享,从而获得准确质谱结果。
在一个实施方案中,所述云中心联机是指将异地的单个智谱系统的质谱模型存储装置、知识存储装置、质谱数据库存储装置、质谱数据管理装置通过互联网与云中心相连,并将数据存在云平台存储服务器,或自身作为云平台存储服务器,从而实现数据共享。
本发明第五个目的是提供上述改进的质谱仪数据采集系统或智谱系统,用于制备诊断疾病、检测产品质量、检测环境污染物的产品的用途。
在一个实施方案中,所述产品可检测与疾病的特征蛋白或多肽、产品的特征蛋白或多肽杂质、环境的特征有机污染物(如微生物、蛋白或多肽)的标志物。
本发明第六个目的是提供上述改进的质谱仪数据采集系统或智谱系统,用于诊断疾病、检测产品质量、检测环境污染物的用途。
在一个实施方案中,所述质谱仪数据采集系统或智谱系统可检测与疾病的特征蛋白或多肽、产品或环境的特征污染物(如微生物、蛋白或多肽)的标志物。
附图说明
图1:本发明智谱系统的结构示意图;图2:本发明智谱系统的优选结构示意图;
图3-A为部分龋齿患者唾液的多肽图谱;图3-B为3000-4000M/Z局部放大图;
图4-6为通过智谱法检测早期食管癌的特征多肽峰的模拟凝胶图,其中箭头指向为食管癌的特征多肽带。
图7为通过传统质谱法对早期食管癌的变异系数和数据训练的筛选谱图。
图8-10为传统质谱法检测早期食管癌的特征蛋白的质荷比峰分布范围比较图。
技术效果
1、提高了谱图的稳定性
传统质谱法,对于同一样品,如果使用不同的仪器和/或不同的算法,都会得出略有差异的质谱图谱,因此需要对各个质谱结果进行分析处理,才能得出唯一的结果。但本发明的智谱法,通过对上述不同质谱图进行智能图像处理,并结合云计算或从单台质谱操作到质谱云中心联机,可以直接得出唯一的检测结果,因此具有高度稳定性。
2、提高谱图库的分辨率
对于高度同源的谱图,传统质谱法需要一一进行存储认定,因此导致其容量有限。并且限于上述算法和仪器的差异,易于对高度同源的图谱产生混淆,因此不适宜高通量检测同源的样品,例如生物环境中的大量微生物或致病菌。但本发明以云中心计算作为支持,通过知识库采集系统的智能学习和存储,预先获得各种相关的谱图,因此具有更大的谱图容量,并提高了检测速度和准确率,有利于分析和检测高通量且高同源的样品。
3、智能模糊专家系统具有人工智能化优点
决策模型建立装置是一种通过实验和错误来学习的方法,它受人类学习新技能的过程启发。在典型的强化学习案例中,通过观察当前谱图所处的状态,并与质谱云中心联机进而采取行动使得长期奖励的结果最大化。每执行一次动作,系统都会收到来自环境的反馈信息,因此它可自动判断这次动作带来的效果是积极的还是消极的。在这个过程中,系统需要平衡根据经验寻找最佳策略和探索新策略两方面,以期提高谱图的稳定性。
在传统质谱模型的建立过程中,需要预先选择多个非检测蛋白,并反复进行多次质谱。只有根据相应标准(例如,根据S/N>=5的峰数量,只保存峰数量大于50的图谱;又如,满足一致性允许范围的变异系数小于20%等)得出理论上具有一致性的实验训练数据的前提下,才能进行目标蛋白的检测,这无疑增加了检测时间和成本。对此,本发明的决策模型建立装置(203)反馈知识管理装置(303)使系统能以低廉的成本代价模拟生成大量的训练数据。相较传统质谱法有更大的谱图容量,从而对大样本的分析更为方便适用。通过从高维的分布中采样,生成决策模型输出与训练样本类似的新样本。
4、适合非专业人员的进行操作
传统的质谱检测,需要受过训练的技术人员进行操作,才能阅读质谱峰图。如果质谱还涉及疾病检测,那么技术人员还需要掌握相关医学知识,因此对于整个操作过程要求较多技术人员和技术水平。
本发明通过引入智能模糊专家系统和知识库采集系统,预先设立了相关的专业知识,同时结合云中心处理技术,通过人机交互系统直接输出具体的结果,如待测微生物的菌种或蛋白,待测肿瘤的特征标志物,这样无需对质谱峰图进行分析处理,并且不需要在相关专业数据库中进行检索比对,因此适合非专业人员的操作,例如,适合对患者自体检测,实现实时监控个人健康信息,省时省力,既避免了隐私泄露,同时满足了个性化医疗服务的需求。
具体实施方式
下面结合附图和实施案例对本发明进一步说明。但以下所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
实施例一:智能化质谱系统的制备
智能化质谱系统包括质谱仪数据采集系统1、智能模糊专家系统2、知识库采集系统3、模型采集系统4和人机交互系统5,其中,
质谱仪数据采集系统1,包括质谱装置101、质谱数据管理装置102、样品的质谱数据库存储装置103,质谱装置101分别与质谱数据管理装置102、质谱数据库存储装置103以及用户界面501相连,并发送待测物的质谱数据,所述数据管理装置102还接受决策模型建立装置203发送的检测结果质谱模型,并将模型代表的最终结果传送给用户以及存储装置103进行保存,该质谱装置在传统质谱仪的基础上,使用改进的高速采集卡、运动控制卡和激光衰减卡,所述高速采集卡是用计数式收集器与模拟式信号转化器共同组成,所述运动控制卡采用机械限位替代光栅反馈,所述激光衰减卡用非线性光学部件激光衰减器,所述质谱装置是MALTI TOF MS或CLIN TOF飞行时间激光质谱仪;
智能模糊专家系统2包括质谱数据接收装置201、质谱数据计算装置202和决策模型建立装置203,其中数据接收装置201负责接收数据管理装置102发送的处理质谱数据,然后传送给质谱数据计算装置202,经过该装置搜索计算后,将计算结果发送给知识管理装置303进行分析,并将分析结果和已知的质谱模型一起发送给决策模型建立装置203,得出最终有效的质谱模型,最后该模型的数据传送给数据管理装置102,所述质谱数据计算装置202包蒙特卡罗树搜索计算装置,将得到的数据值经数据预处理软件、数据清洗软件以及数据分类软件处理后传送给知识管理装置303;
知识库采集系统3包括知识输入装置301、知识存储装置302、知识管理装置303,所述知识输入装置301用于输入待测来源物的背景信息以及涉及通过质谱检测疾病、环境、产品的检测标准的信息或质谱模型信息,并将信息实时传送给知识存储装置302和质谱模型存储装置401,所述知识存储装置302用于存储上述信息,并实时根据知识管理装置303发来的查询指令,将相关信息传送给知识管理装置303,知识输入装置301与所述专业数据库是与疾病相关的人类蛋白数据库,致病或污染性微生物数据库,所述知识管理装置303在接收数据计算装置202(如蒙特卡罗树计算装置)发送的计算结果后,向知识存储装置302和模型管理装置401发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置203,同时保存在知识存储装置302中,知识管理装置303包括计算服务器和分析软件,该装置可接受知识存储装置302发送的随机输入的质谱数据,结合数据计算装置202(如蒙特卡罗树计算装置)发送的计算结果以合成为新的内容(比如合成谱图),然后向模型管理装置401发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置203,同时保存在知识存储装置302中,决策模型建立装置(203)负责学习真实的谱图并判断知识管理装置(303)发送的内容是否以假乱真,将知识输入装置301合并知识存储装置302,即知识存储装置302同时具有输入外部知识数据并进行存储的功能;
模型采集系统4包括质谱模型存储装置401和模型管理装置402,其中质谱模型存储装置401接受知识输入装置301和/或知识存储装置302发送的已知病原物、环境生产污染物或环境病原物、食品污染物的质谱模型信息,同时与质谱数据库存储装置103互连,实现数据交换,质谱模型管理装置402接收知识管理系统303的查询指令,将符合要求的已知质谱模型数据发送给知识管理系统303,同时将发送的已知质谱模型数据发送给质谱模型存储装置103进行保存,所述质谱模型存储装置401包括存储硬盘或存储服务器;
人机交互系统5包括用户界面501、人机对话系统502,其中用户界面501与质谱装置101、质谱数据管理装置102相连,对质谱仪进行质谱检测以及接受质谱结果,用户界面501同时与人机对话装置502相连,所述用户界面501或人机对话装置502通过设置触摸屏进行操作,人机对话装置502分别与数据接收装置201、知识输入装置301或知识存储装置302相连,通过输入指令实时输入或输出相关数据或知识;将多个上述各个分系统通过互联网进行云中心联机,从而实现异地的质谱检测数据相互共享,从而获得准确质谱结果。
实施例二:通过智谱法检测龋齿特征蛋白
(一)智谱法建立龋齿特征蛋白的质谱模型
1、样本和仪器:
选自29例唾液样本,其中14例来自龋齿患者,另外15例来自健康人群,龋齿患者均经病理报告确定。所有的唾液样本均在清晨未进食前空腹下抽取,分离唾液后储存在‐80低温冰箱中。
选用基质辅助激光解析飞行时间质谱MALTI TOF MS,实验用的WCX磁珠试剂盒由本申请人Bioyong公司研制。使用Bioyong公司的数据分析软件Bioexplorer做数据的预处理,处理后的数据采用统计分析软件R2.6.2的遗传算法包genalg进行处理。
2、技术路线:
唾液的采集:收集唾液在BD管中。缓慢地上下振荡管五次,使唾液混匀。室温下,用临床离心机以1.400‐2.000g离心SST管十分钟。吸取唾液(上清液)到对应的已标记管中。标记干净的0.5ml离心管,同一唾液样品50μl一管,分装多管。立即冻存唾液样品于‐80℃。由于反复冻融唾液样品易造成多肽沉淀,从而使得肽谱丢失部分多肽,应避免反复冻融。冻存唾液分为永久保存和待分装的。唾液分装后可在‐80℃保存多年。
唾液样品的磁珠处理:在进行实验前,从低温冰箱提取分装的唾液样品各1管,放于湿冰上。化冻60-90分钟。取出10μl磁珠结合缓冲液(BS),10μl混匀的磁珠悬浮液,5μl唾液样品至样品管,混匀。室温静置5min后,将样品管放入磁珠分离器。使磁珠贴壁1分钟,磁珠与悬浮的液体分离,吸去悬浮的液体,再向样品管中加入100μl磁珠清洗缓冲液(WS),在磁珠分离器前后相邻两孔间反复移动样品管10次。最后一次使样品管在磁珠分离器上静置,磁珠与悬浮的液体分离,吸去悬浮的液体。重复从加100μl磁珠清洗缓冲液,到最后吸去悬浮液体的操作步骤共3次。从磁珠分离器上取下样品管,并向样品管中加入5μl磁珠洗脱缓冲液(ES),溶解贴壁的磁珠,样品管放入磁珠分离器,磁珠贴壁2min,磁珠与悬浮的液体充分分离后,将上清液移入干净的刚加入5μl磁珠稳定缓冲液(SS)0.5ml样品管。
3、质谱数据采集
应用MALTI TOF MS质谱仪。激光能量50%时,10shots去杂,36%时50shots采集一个样品结晶点的某一个点,平均每个样品结晶点收集8次共400shots。激光频率:50Hz。数据收集范围:1‐10KDa。在每8个样品结晶点收集数据前用标准品进行外标校正,平均分子量偏差小于100ppm。
4、智能化模拟学习和建立质谱模型
针对需要检测的龋齿蛋白,知识管理装置303预先从云中心下载了多种龋齿蛋白的数据,例如龋病的四联因素论31,并发送给决策模型建立装置。该装置预先生成大量的训练数据,通过优化数据清洗算法,确定具有适宜峰数量的图谱和数据一致性的范围。
随后,决策模型建立装置根据知识管理装置发送的各种蛋白与龋齿的表达关联性,预先设定模型建立标准。
5、实际数据的处理
原始数据经Bioyong公司数据分析软件Bioexplorer预处理后,输入质谱数据管理装置102中,将0.8‐10KDa的峰值经由Top hat方法做基线校准,最小基线宽度10%,以10%最小阀值聚类;然后用总离子流方法做归一化处理。
然后,将处理的数据发送给数据接收装置201,并发送给蒙特卡洛树分析装置202中,在该装置中进行马尔科夫尼科夫聚类分析。
然后,蒙特卡洛树分析装置202将数据分析结果发送给知识管理装置303,并结合质谱模型管理装置402发来的数据,一并发送给决策模型建立装置。
决策模型建立装置203分析上述数据,得到3条特异性高的特征多肽3324.8m/z、3186.2m/z、3195.8m/z(参见图3)。与之相对的,15例健康人群中并未有该3条特征多肽。同时,决策模型建立装置根据预先学习的质谱模型的建立标准,最终得到检测龋齿特征蛋白的质谱模型,该模型由表征质荷比为3324.8m/z、3186.2m/z、3195.8m/z的龋齿特征蛋白组成,其中当3324.8m/z、3186.2m/z、3195.8m/z的峰都下调表达时表示该特征蛋白在龋齿易感人群中均低表达。
6、检测结果的反馈
将所得的决策模型发送给质谱数据管理装置102,并由其发送给用户界面,由此用户得到最终的检测结果。
(二)云中心比对分析
当用户将该质谱模型发送给人机对话装置,并通过知识输入装置发送给云中心的知识存储装置以及质谱模型存储装置中,经过云中心检索蛋白质数据综合库并进行比对,得出该三条多肽的结构序列为:
多肽1:K.MTEAQEDGQSTSELIGQFGVGFYSAFLVADK.V,质荷比为3324.8,经过云检索,其属于热休克蛋白90B前体,登录号:IPI:IPI00027230.3;
多肽2:K.SSSYSKQFTSSTSYNRGDSTFESKSYKM.A,质荷比为3186.2,经过云检索,其属纤维蛋白原α链前体,IPI:IPI00021885.1
多肽3:Q.DEPPQSPWDRVKDLATVYVDVLKDSGRD.Y,质荷比为3195.8,经过云检索,其属于载脂蛋白A‐I前体,IPI:IPI00021841.1。
(三)云中心数据的同步共享
上述龋齿特征蛋白的序列以及相关质谱模型,被知识存储装置同步上传至云中心服务器或存储中心,并允许其他智谱系统的知识输入装置或存储装置进行访问。
(四)异地用户的自助检测
在同城多家不同医院,预先配置相同的智谱检测系统。
用户在任一的智谱检测系统或装置的交互系统,输入个人待检样本(唾液)和待测项目(龋齿),该智谱检测系统即实时访问云中心服务器或存储中心,并将上述质谱模型数据下载到知识存储装置302。
根据上述第(一)步的实验步骤,异地用户对样本进行处理后,无需确定判断标准和训练数据,也无需对检测数据进行分析和校对,即可直接得出龋齿诊断结果。
实施例三:通过智谱法诊断早期食管癌
(一)智谱法建立早期食管癌特征蛋白的质谱模型
1、样本和仪器
选自62例血清样本,其中28例来自食管癌患者,另外34例来自健康人群,食管癌患者均经病理报告确定。所有的血清样本均在清晨未进食前空腹下抽取,分离血清后储存在‐80低温冰箱中。
基质辅助激光解析飞行时间质谱CLIN-TOF及实验用的弱阳离子交换磁珠试剂盒由北京Bioyong公司(即本申请人)研制。使用Bioyong公司的数据分析软件Bioexplorer做数据的预处理,处理后的数据采用统计分析软件R2.6.2的遗传算法包genalg进行处理。试剂盒以弱阳性离子交换原理为基础,采用磁珠在高盐低pH溶液中特异性吸附生物样本中的蛋白质多肽,在低盐溶液中释放蛋白多肽分子,从而捕获血清中的蛋白质多肽,可直接用于基质辅助激光解析电离飞行时间质谱的分析。
2、技术路线:
血清的采集:收集血清在BD管中。缓慢地上下振荡管五次,使血清混匀。室温下,用临床离心机以1.400‐2.000g离心SST管十分钟。吸取血清(上清液)到对应的已标记管中。标记干净的0.5ml离心管,同一血清样品50μl一管,分装多管。立即冻存血清样品于‐80℃。由于反复冻融血清样品易造成多肽沉淀,从而使得肽谱丢失部分多肽,应避免反复冻融。冻存血清分为永久保存和待分装的。
血清样品的磁珠处理:
4℃冰箱取出磁珠试剂盒,手动上下颠倒,使磁珠混匀。
取200ul八连排样品管置于孔板上,依次加入10ul磁珠,加入95ul磁珠结合缓冲液(CB),加入10ul血清样本,用排枪上下缓慢吸打混匀,避免气泡产生,在室温静置5min。
将样品管在磁珠分离器上静置1min,磁珠富集到管底并贴壁,与悬浮的液体分离,液体应该变为澄清。
吸去上清的液体,枪头应接触磁珠对侧管底,避免吸走磁珠。
将样品放入孔板中,加入100ul磁珠清洗液缓冲液(CW),用排枪上下缓慢吸打混匀,避免气泡产生,静置2min。然后将样品管在磁珠分离器上静置1min,吸去上清液体。
重复step5步骤一次,最后多吸一次剩余少量上清液体,保证上清液体完全被吸走。
将样品放置于孔板上,加入10ul磁珠洗脱液(CE)反复吸打十次以上,吸打过程严格避免气泡。放置5min,使磁珠和洗脱液混悬均匀。
将样品放置于磁珠分离器上,静置1min,使磁珠与悬浮液充分分离,将上清液移出到已标记的0.2ml样品管。
多肽洗脱液可以用来直接进行质谱分析或冻存于-20℃,24h之内进行质谱分析。
清洗靶板,先用酒精洗一遍,此过程可用无尘试纸或者脱脂棉擦洗,然后再用自来水冲洗,最后用酒精冲洗一遍,自然晾干。
血清肽段基质成分为1%TFA+50%乙腈+49%水+饱和基质(CHCA,sigma)。基质用前混匀,然后用离心机离心去除不溶固体。
3、质谱数据采集
应用CLIN‐TOF质谱仪。激光能量50%时,10shots去杂,36%时50shots采集一个样品结晶点的某一个点,平均每个样品结晶点收集8次共400shots。激光频率:50Hz。数据收集范围:1‐10KDa。在每8个样品结晶点收集数据前用标准品进行外标校正,平均分子量偏差小于100ppm。
4、智能化模拟学习和建立质谱模型
针对需要检测的食管癌,知识管理装置303预先从云中心下载了多种食管癌蛋白或其他相关蛋白的数据,并发送给决策模型建立装置。该装置预先生成大量的训练数据,确定具有适宜峰数量的图谱和数据一致性的范围。并且,决策模型建立装置根据知识管理装置发送的各种蛋白与龋齿的表达关联性,预先设定模型建立标准。
5、实际数据的处理
原始数据经Bioyong公司数据分析软件Bioexplorer预处理后,输入质谱数据管理装置102中,将0.8‐10KDa的峰值经由Top hat方法做基线校准,最小基线宽度10%,以10%最小阀值聚类;然后用总离子流方法做归一化处理。
然后,将处理的数据发送给数据接收装置201,并发送给蒙特卡洛树分析装置202中,在该装置中进行分析。而后将数据发送给知识管理装置303中,该装置预先从云中心下载了多种食管癌蛋白的数据,然后结合质谱模型管理装置402发来的数据,进行分析。
然后,蒙特卡洛树分析装置202将数据分析结果发送给知识管理装置303,并结合质谱模型管理装置402发来的数据,一并发送给决策模型建立装置。
决策模型建立装置203分析上述数据,得到3条特异性高的特征多肽1925.5m/z、2950.6m/z、5900.0m/z(参见图4‐6)。与之相对的,健康人群中并未有该3条特征多肽。同时,决策模型建立装置根据预先学习的质谱模型的建立标准,最终得到检测早期食管癌特征蛋白的质谱模型,该模型由表征质荷比为1925.5m/z、2950.6m/z、5900.0m/z的特征蛋白组成,其中,
当2950.6m/z、5900.0m/z多肽上调表达,1925.5m/z多肽下调表达时,预示被检测人为食管癌患者或潜在患者;
当2950.6m/z、5900.0m/z多肽上调表达的临界值分别为666.1±248.8和831.1±350.6,1925.5m/z的多肽下调表达的临界值为156.5±128.4。
6、检测结果的反馈
将所得的决策模型发送给质谱数据管理装置102,并由其发送给用户界面,由此用户得到最终的检测结果。
(二)云中心比对分析
当用户将该质谱模型发送给人机对话装置,并通过知识输入装置发送给云中心的知识存储装置以及质谱模型存储装置中,经过云中心检索蛋白质数据综合库,并进行比对,得出该三条多肽的结构序列为:
SEQ ID NO:1:F.MGVVSLGSPSGEVSHPRKT.R,质荷比为1925.5,经过云检索,其属于AHSG片段(Alpha‐2Heremans Schmid Glycoprotein,α-2HS糖蛋白);
SEQ ID NO:2:T.NRIPESGGDNSVFDIFELTGAARKGSGR.R,质荷比为2950.6,经过云检索,其属TSP1片段(Thrombin Sensitive Protein 1,凝血酶敏感蛋白1)。
SEQ ID NO:3:K.SSSYSKQFTSSTSYNRGDSTFESKSYKMADEAGSEADHE
GTHSTKRGHAKSRPV.R,质荷比为5900.0,经过云检索,其属于FGA片段(FibrinogenAlpha Chain,纤维蛋白原α链)。
(三)云中心数据的同步共享
上述早期食管癌特征蛋白的序列以及相关质谱模型,被知识存储装置同步上传至云中心服务器或存储中心,并允许其他智谱系统的知识输入装置或存储装置进行访问。
(四)异地用户的自助检测
在同城多家不同医院(协和医院,中国人民解放军总医院,302医院,预先配置相同的智谱检测系统。
用户在任一的智谱检测系统或装置的交互系统,输入个人待检样本(血清)和待测项目(食管癌),该智谱检测系统即实时访问云中心服务器或存储中心,并将上述质谱模型数据下载到知识存储装置302。
根据上述第(一)步的实验步骤,异地用户对样本进行处理后,无需确定判断标准和训练数据,也无需对检测数据进行分析和校对,即可直接得出早期食管癌诊断结果。
对照实施例一:早期食管癌特征蛋白的常规质谱检测
(一)质谱数据的采集和训练
1、样本和仪器
2、技术路线
3、质谱数据采集
以上步骤均同实施例三。
4、实验质控:
(1)对于每一张采集到的原始图谱,设定S/N>=5的峰数量做为评判图谱质量的一个标准;对于峰数量大于50的图谱才保存,舍弃峰数量小于50的图谱。
(2)针对整个实验操作,采用Sigma血清的组内变异系数保证实验的一致性,本实例方法的变异系数为16.2%,满足一致性允许范围,说明实验一致性良好,参见表1、图7。表1为Sigma血清中10个多肽峰的变异系数值;图7为实验中5个Sigma A‐E血清的指纹图谱。如表1所示,选择Sigma标准品中的10个标准多肽峰,这些多肽均不涉及食管癌血清样本的特征多肽。通过该10个多肽验证标准品的组内变异系数,用峰值的变异系数说明数据的稳定性和可靠性。
表1 Sigma血清的组内变异系数
质荷比峰(m/z) 变异系数(CV%)
1277.2 21.2
1468.9 13.1
1557.4 12.6
1944.0 9.9
2750.6 15.9
3214.9 18.9
3338.0 9.7
4302.0 17
5785.8 17.8
6709.3 19.1
(二)原始数据预处理
原始数据经申请人所在公司数据分析软件BioExplorer处理,1‐10KDa的峰值经由Tophat方法做基线校准,最小基线宽度10%,以10%最小阀值聚类;然后用总离子流方法做归一化处理。
(三)食管癌特征多肽的选择
每个质荷比多肽峰对各类样本的区分的相对重要性都不同,这里综合运用了T检验P值和出峰频率的方法来评价每个多肽峰的相对重要性。
(四)遗传算法
遗传算法是一种很有效的全局随机化搜索算法,它借鉴了生物界自然选择和自然遗传的机制,其主要特点是群体搜索策略和群体中个体之间的信息交搜索不依赖于梯度信息。遗传算法对多个个体组成的群体进行操作,通过遗传算子可以使个体间的信息得以交换,这样的群体中的个体一代一代地得以优化,并逐步逼近最优解。它尤其适用于处理传统搜索方法难以解决的复杂和非线性问题,可广泛用于涉及高维空间的组合优化领域。本发明方法的遗传算法从统计差异多肽子集形成的特征空间中搜索次优特征子集。分类函数采用最近邻算法(KNN)。
在利用遗传算法和最近邻算法对训练样本建立质谱数据分类模型后,利用验证样本来检验所建立模型的分类能力
(五)采用磁珠富集法进行多肽鉴定
1.据分析确定待鉴定峰后,反查前期处理样本中待鉴定峰值强度最高的样品。2.查明前期实验所用磁珠。把此样平行处理20份。富集为一管。3.离心1300rmp,5min。磁架上取上清。避免留有磁珠影响后期实验。4.把液体旋干,标记。
采用Waters公司Nano Aquity UPLC液相系统:参数如下设置,捕集柱:
Figure BDA0001580175690000162
C18,5μm,180μm×20mm,nanoAcquityTMColumn;分析柱:
Figure BDA0001580175690000163
C18,1.7μm,75μm×150mm,nanoAcquityTMColumn;流动相A:5%乙腈,0.1%甲酸的水溶液;流动相B:95%乙腈,0.1%甲酸的水溶液,所有溶液均为HPLC级。捕集流速15μl/min,捕集时间3min,分析流速300ml/min;分析时间60min,色谱柱温度35℃;Partial Loop模式进样,进样体积18μl。
梯度洗脱程序设置:
Figure BDA0001580175690000161
采用ThermoFisher公司LTQ Obitrap XL(Thermo)质谱系统,Nano电喷雾离子源(Michrom),喷雾电压1.4kV;质谱扫描时间60min;实验模式为数据依赖(Data Dependent)及动态排除(Dynamic Exclusion),每个母离子进行2次MS/MS后排除60秒;扫描范围400‐2000m/z;一级扫描(MS)使用Obitrap,分辨率设定为1000009(m/z 400处);CID及二级扫描使用LTQ;在MS谱图中选取强度最强的10个离子的单一同位素作为母离子进行MS/MS(单电荷排除,不作为母离子)。使用数据分析软件BioworksBrowser 3.3.1SP1进行SequestTM检索,检索数据库为IPI Human(版本3.45,71983条目),为降低假阳性在数据库末端附加其反库。母离子误差设定为50ppm,碎片离子误差设为1Da,酶切方式为非酶切。检索结果参数设定为deltacn>=0.10,两电荷Xcorr2.0,三电荷Xcorr 2.5,三电荷以上Xcorr3.0,peptideprobability<=1e‐003。此参数条件下显示的肽段以及多肽结果准确度较高,按照文献和国际多肽质组规定来设定。
通过用上述健康人和食管癌患者所产生质核比的峰值,进一步用遗传算法筛选出呈现为3种主要特征多肽的多肽峰谱图,参见图8‐10。
图8‐10中依次为呈现为3种主要特征多肽的健康组与食管癌组样品图谱。在每个图中上面部分的为训练样本中多肽峰表达水平图,上半部分深色谱图表示正常组,下半部分浅色谱图代表疾病组。
同时,通过上述磁珠分离后所鉴定的多肽结果,所述三种多肽序分别为:
SEQ ID NO:1:F.MGVVSLGSPSGEVSHPRKT.R
SEQ ID NO:2:T.NRIPESGGDNSVFDIFELTGAARKGSGR.R
SEQ ID NO:3:K.SSSYSKQFTSSTSYNRGDSTFESKSYKMADEAGSEADHE
GTHSTKRGHAKSRPV.R
如图8‐10所示,由于各健康组合食管癌组的样品图谱存在多达21条质谱峰曲线,这表明各个特征多肽的实际检测质荷比峰值存在一定的标准差范围。因此根据所鉴定的多肽序列,结合质荷比峰值进行分析,最终确定上述多肽序列的质荷比峰值范围,见表2。
表2健康人和食管癌患者比较的三个用于建模的多肽峰的比较
m/z 健康人(均值±标准差) 食管癌患者(均值±标准差) P
1925.5 588.4±355.7 156.5±128.4 <0.000001
2950.6 84.9±78.5 666.1±248.8 <0.000001
5900.0 100.6±92.9 831.1±350.6 <0.000001
结合上述序列和表2,在蛋白质数据库中进行检索分析,最终得到食管癌多肽序列的鉴定结果,见表3.
表3多肽序列鉴定结果
Figure BDA0001580175690000171
由对照实施例可知,相对于传统质谱筛选疾病蛋白模型的过程,本发明的智谱方法可以省略判断标准的摸索、数据训练过程,并结合云中心和知识库采集系统的自动学习过程,能快速和有效地检索现有蛋白数据库和已知质荷比的特征蛋白数据,从而既能实现单一传统的质谱检测疾病的准确效果,同时具有检测快速、成本低廉、数据共享和降低使用门槛的优点。

Claims (28)

1.一种适于专业人员检测靶分子的智谱系统,包括:质谱仪数据采集系统(1)、智能模糊专家系统(2)、知识库采集系统(3)和模型采集系统(4),其中,
所述质谱仪数据采集系统(1)包括,包括质谱装置(101)、质谱数据管理装置(102)、样品的质谱数据库存储装置(103),质谱装置(101)分别与质谱数据管理装置(102)、质谱数据库存储装置(103)以及用户界面(501)相连,并发送待测物的质谱数据,其中,数据管理装置(102)可接受决策模型建立装置(203)发送的检测结果质谱模型,并将模型代表的最终结果传送给用户以及存储装置(103)进行保存;该质谱装置在传统质谱仪的基础上,使用改进的高速采集卡、运动控制卡和激光衰减卡,以及,所述高速采集卡是用计数式收集器与模拟式信号转化器共同组成,替代原高速采集卡,在灵敏度比较低的情况下可以采用计数式收集器,而灵敏度高的情况下可以用模拟式;以及,所述运动控制卡采用机械限位替代光栅反馈;以及,所述激光衰减卡用非线性光学部件替代原来的遮挡式激光衰减器,使激光变化更加符合要求;
其中智能模糊专家系统(2)包括质谱数据接收装置(201)、质谱数据计算装置(202)和决策模型建立装置(203),其中数据接收装置(201)负责接收数据管理装置(102)发送的处理质谱数据,然后传送给质谱数据计算装置(202),经过该装置搜索计算后,将计算结果发送给知识管理装置(303)进行分析,并将分析结果和已知的质谱模型一起发送给决策模型建立装置(203),得出最终有效的质谱模型,最后该模型的数据传送给数据管理装置(102);
其中所述知识库采集系统(3)包括知识输入装置(301)、知识存储装置(302)、知识管理装置(303),其中:
知识输入装置(301)用于输入待测来源物的背景信息以及涉及通过质谱检测疾病、环境、产品的检测标准的信息或质谱模型信息,并将信息实时传送给知识存储装置(302)和质谱模型存储装置(401);知识存储装置(302)用于存储上述信息,并实时根据知识管理装置(303)发来的查询指令,将相关信息传送给知识管理装置(303);知识管理装置(303)在接收数据计算装置(202)发送的计算结果后,向知识存储装置(302)和模型管理装置(402)发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置(203),同时保存在知识存储装置(302)中;
其中,所述靶分子包括蛋白质或多肽、核酸、生物代谢物、微生物或其组合,或包括无机化合物、有机化合物和离子或其组合,或包括上述分子组成的组。
2.根据权利要求1所述的智谱系统,其中所述质谱装置是MALTI TOF MS质谱仪或CLINTOF质谱仪。
3.根据权利要求2所述的智谱系统,其中所述数据管理装置包括计算服务器和分析软件,所述质谱数据库存储装置(103)可存储质谱装置(101)的样品质谱数据和质谱管理装置(102)分析的样品质谱模型结果,以及能接受已知的质谱模型的结果。
4.根据权利要求3所述的智谱系统,其中存储装置(103)包括存储硬盘和能将数据进行输出的软件。
5.根据权利要求4所述的智谱系统,其中所述质谱数据计算装置(202)包括蒙特卡罗树搜索计算装置,该装置由数据预处理软件、数据清洗软件以及数据分类软件组成,能够根据各种概率分布的随机变量,通过计算机用统计方法把质谱模型的数字特征估计出来,从而得到能解决实际问题的较为合理质谱数据值,并能将得到的数据值传送给知识管理装置(303)。
6.根据权利要求5所述的智谱系统,其中决策模型建立装置(203)包括马尔科夫尼科夫聚类,其可将与专业知识比对后的结果建立有效决策模型,并发送给质谱数据管理装置。
7.根据权利要求6所述的智谱系统,其中所述决策模型包括疾病、环境污染物、食品病原物的目标蛋白的数量及其质谱峰的质荷比值。
8.根据权利要求7所述的智谱系统,所述知识输入装置(301)可以相连已知的蛋白组数据库,或与疾病相关的人类蛋白数据库,致病或污染性微生物数据库;知识存储装置(302)可存储知识输入装置(301)输入的上述检测标准的信息或质谱模型信息,以及存储知识管理装置(303)发送的比对信息。
9.根据权利要求8所述的智谱系统,其中知识输入装置(301)用于输入待测来源物的背景信息和专业文献知识,包括:
病人信息,包括病人疾病、生活习惯、个人背景;或,
环境信息,包括地理位置信息、水文土壤信息、地理资源信息、动植物和微生物等生物信息;或,
产品信息,包括产品规格、产品组成、含量比例、产品检验检疫标准。
10.根据权利要求9所述的智谱系统,其中所述专业文献知识涉及疾病的诊断标准,环境生产污染物的检测标准或环境病原物传播的检测标准,食品安全性的检测标准,或者是已知病原物、环境生产污染物或环境病原物、食品污染物的质谱模型信息。
11.根据权利要求10所述的智谱系统,其中所述质谱模型信息包括与已知病原物、环境生产污染物或环境病原物、食品污染物或产品杂质的目标蛋白的数量及其质谱峰的质荷比值。
12.根据权利要求11所述的智谱系统,其中所述知识输入装置选自键盘、外接磁盘、扫描输入系统,或选自互联网可访问和下载的相关数据库。
13.根据权利要求12所述的智谱系统,其中知识存储装置(302)可存储知识输入装置(301)输入的上述任何信息,以及存储知识管理装置(303)发送的比对信息,其中所述存储知识管理装置(303)包括存储硬盘和能将知识数据处理为标准格式数据的软件。
14.根据权利要求13所述的智谱系统,其中所述软件包括图像文字转化处理软件、专业术语转化软件、专业翻译软件,所述存储硬盘是云平台存储服务器。
15.根据权利要求14所述的智谱系统,其中:
知识管理装置(303)包括计算服务器和分析软件,该装置可接受知识存储装置(302)发送的随机输入的质谱数据,结合数据计算装置(202)发送的计算结果以合成为新的谱图;
然后向模型管理装置(402)发送查询指令并接收相关信息,进行比对分析后,将处理结果发送给决策模型建立装置(203),同时保存在知识存储装置(302)中;
随后,决策模型建立装置(203)负责学习真实的谱图并判断知识管理装置(303)发送的内容是否以假乱真;
其中,对抗训练可以被认为是一类游戏,知识管理装置(303)必须反复学习用质谱数据合成有意义的内容,直到决策模型建立装置(203)无法区分合成内容的真伪。
16.根据权利要求15所述的智谱系统,其中可以将知识输入装置(301)合并知识存储装置(302),即知识存储装置(302)同时具有输入外部知识数据并进行存储的功能。
17.根据权利要求16所述的智谱系统,其中所述模型采集系统(4)包括质谱模型存储装置(401)和模型管理装置(402),其中质谱模型存储装置(401)可接受知识输入装置(301)和/或知识存储装置(302)发送的已知病原物、环境生产污染物或环境病原物、食品污染物的质谱模型信息,同时与质谱数据库存储装置(103)互连,实现数据交换;
质谱模型管理装置(402)可接收知识管理系统(303)的查询指令,将符合要求的已知质谱模型数据发送给知识管理系统(303),同时将发送的已知质谱模型数据发送给质谱模型存储装置(401)进行保存。
18.根据权利要求16所述的智谱系统,其中所述质谱模型包括能够表征特定信息的标志物的质谱信息,和信息相关的标志物的结构信息,以及相关处理标准所组成的质谱模型。
19.根据权利要求18所述的智谱系统,所述质谱模型包括与疾病的特征蛋白或多肽、产品的特征蛋白或多肽杂质、环境的特征蛋白或多肽的标志物的质谱峰值质荷比数据,标志物的结构信息,和/或处理步骤、确定标准,以及相关质谱峰图谱。
20.根据权利要求8-19所述的智谱系统,其中所述质谱模型存储装置(401)包括存储硬盘或存储服务器,其中所述存储服务器选自云平台存储服务器。
21.一种适于非专业人员检测靶分子的智谱系统,其除了包括上述权利要求1-20任一所述的智谱系统之外,还包括人机交互系统(5),其中人机交互系统包括用户界面(501)、人机对话系统(502),其中,
所述用户界面(501)与质谱装置(101)、质谱数据管理装置(102)相连,可对质谱仪进行质谱检测以及接受质谱结果,该用户界面(501)同时与人机对话装置(502)相连,其中,所述用户界面(501)或人机对话装置(502)可以通过设置触摸屏进行操作。
22.根据权利要求21所述的智谱系统,其中人机对话装置(502)分别与数据接收装置(201)、知识输入装置(301)或知识存储装置(302)相连,可通过输入指令实时输入或输出相关数据或知识;所述人机对话装置(502)是病人或普通公众进行操作,通过输入:
个人信息,包括病人疾病、生活习惯、个人背景;或,
环境信息,包括地理位置信息、水文土壤信息、地理资源信息、动植物和微生物等生物信息;或;
产品信息;
即可从用户界面获得最终检测结果。
23.根据权利要求22所述的智谱系统,其中所述疾病包括癌症、炎症、微生物或致病菌传染病。
24.根据权利要求23所述的智谱系统,其中所述疾病包括与微生物蛋白相关的龋齿、食管癌、非小细胞肺癌。
25.根据权利要求24所述的智谱系统,其中所述个人信息包括患者样品所得到的数据、患者的就诊记录、患者的家族遗传关系、患者生活方式数据;和/或,
所述环境信息包括环境病菌污染物、蛋白或多肽污染物、进出口岸污染物的蛋白或多肽的质谱数据信息;和/或
所述产品信息包括食品、农产品、工业品种的蛋白或多肽污染物或杂质的质谱数据信息。
26.根据权利要求1-25所述的智谱系统,用于制备诊断疾病、检测产品质量、检测环境污染物的产品的用途,其中,
所述产品可检测与疾病的特征蛋白或多肽、产品的特征蛋白或多肽杂质、环境的特征有机污染物的标志物。
27.根据权利要求1-26所述的智谱系统,用于检测产品质量、检测环境污染物的用途,其中,所述智谱系统可检测产品质量或环境的特征污染物的标志物。
28.一种质谱云中心联机的方法,其特征在于将权利要求1-27任一所述的智谱系统通过互联网进行云中心联机,从而实现异地的质谱检测数据相互共享,从而获得准确质谱结果,其中,
所述云中心联机是指将异地的单个智谱系统的质谱模型存储装置、知识存储装置、质谱数据库存储装置、质谱数据管理装置通过互联网与云中心相连,并将数据存在云平台存储服务器,或自身作为云平台存储服务器,从而实现数据共享。
CN201810152212.XA 2017-02-16 2018-02-14 用于检测生物分子的智谱系统 Active CN108363908B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710083116X 2017-02-16
CN201710083116 2017-02-16

Publications (2)

Publication Number Publication Date
CN108363908A CN108363908A (zh) 2018-08-03
CN108363908B true CN108363908B (zh) 2022-04-01

Family

ID=63002214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810152212.XA Active CN108363908B (zh) 2017-02-16 2018-02-14 用于检测生物分子的智谱系统

Country Status (1)

Country Link
CN (1) CN108363908B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109061020B (zh) * 2018-09-28 2020-08-07 深圳市绘云生物科技有限公司 一种基于气相/液相色谱质谱平台的数据分析系统
CN109856230B (zh) * 2019-01-30 2021-09-21 山东博戎伝创信息科技有限公司 一种有机化合物残留分析方法、装置及其智能监测系统
CN113495094B (zh) * 2020-04-01 2023-07-25 中国电信股份有限公司 分子质谱模型的训练方法、分子质谱模拟方法和计算机
CN111408048B (zh) * 2020-04-02 2023-08-08 河北普尼医疗科技有限公司 一种基于电场治疗监护子设备云组系统及模式
CN114242163B (zh) * 2020-09-09 2024-01-30 复旦大学 蛋白质组学的质谱数据的处理系统
WO2022111444A1 (zh) * 2020-11-25 2022-06-02 摩赛恩科技(苏州)有限公司 质谱数据处理系统及方法
CN115328117B (zh) * 2022-07-15 2023-07-14 大理大学 基于强化学习的蛋白质动态配体通道最优路径分析方法
CN115545082B (zh) * 2022-10-20 2024-07-09 广东省麦思科学仪器创新研究院 质谱图生成方法、装置、系统及可读存储介质
CN117850281B (zh) * 2024-03-08 2024-05-07 金华市益迪医疗设备有限公司 一种智能控制系统及全自动组织脱水机

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102680563A (zh) * 2012-06-05 2012-09-19 浙江大学 肺结核中医证候分型特征蛋白的质谱模型及其制备
CN102967650A (zh) * 2012-11-29 2013-03-13 深圳市第二人民医院 白血病细胞蛋白质谱特征分子的检测方法
CN103364483A (zh) * 2013-07-17 2013-10-23 中国科学院地质与地球物理研究所 一种实现质谱分析系统中独立仪器联动的系统和方法
CN106199003A (zh) * 2016-07-21 2016-12-07 郑州安图生物工程股份有限公司 基于飞行时间质谱原理的微生物肽质量指纹图谱库的构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102680563A (zh) * 2012-06-05 2012-09-19 浙江大学 肺结核中医证候分型特征蛋白的质谱模型及其制备
CN102967650A (zh) * 2012-11-29 2013-03-13 深圳市第二人民医院 白血病细胞蛋白质谱特征分子的检测方法
CN103364483A (zh) * 2013-07-17 2013-10-23 中国科学院地质与地球物理研究所 一种实现质谱分析系统中独立仪器联动的系统和方法
CN106199003A (zh) * 2016-07-21 2016-12-07 郑州安图生物工程股份有限公司 基于飞行时间质谱原理的微生物肽质量指纹图谱库的构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"无机多元素现代仪器分析技术";李冰 等;《地质学报》;20111130;第85卷(第11期);第1878-1916页 *
"质谱智能解析系统";杨家红 等;《计算机与应用化学》;20000328;第17卷(第2期);第139-140页 *

Also Published As

Publication number Publication date
CN108363908A (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
CN108363908B (zh) 用于检测生物分子的智谱系统
CN109884302B (zh) 基于代谢组学和人工智能技术的肺癌早期诊断标志物及其应用
Dančík et al. De novo peptide sequencing via tandem mass spectrometry
AU2002245043B2 (en) Method for analyzing mass spectra
CN105572355B (zh) 检测食管癌的生物标志物
Horgan et al. An overview of proteomic and metabolomic technologies and their application to pregnancy research
CN103776891B (zh) 一种检测差异表达蛋白质的方法
JP2003533672A (ja) 非標的化複雑試料分析の方法
CN101832977A (zh) 一种卵巢肿瘤血清标志物
CN101403740A (zh) 用于检测肝癌特征蛋白的质谱模型及制备方法
WO2014116711A1 (en) Methods and apparatuses involving mass spectrometry to identify proteins in a sample
US20240094209A1 (en) Markers, methods and systems for identifying cell populations, diagnosing, monitoring, predicting and treating conditions
CN109870533A (zh) 一种基于分子地图的生物样本快速智能识别方法
Pettersen et al. Inferring early-life host and microbiome functions by mass spectrometry-based metaproteomics and metabolomics
CN101329302B (zh) 用于系统性红斑狼疮诊断的蛋白质指纹图谱模型的建立方法
Tong et al. A simpler method of preprocessing MALDI-TOF MS data for differential biomarker analysis: stem cell and melanoma cancer studies
CN112798678A (zh) 基于血清的新型冠状病毒感染快速检测方法
Zhang et al. Advances in mass spectrometry for clinical analysis: Data acquisition, interpretation and information integration
CN116087482B (zh) 用于2019新型冠状病毒感染患者病程严重程度分型的生物标志物
CN103483442B (zh) 检测龋齿蛋白的质谱模型及构建方法
Xu et al. Integrating Machine Learning in Metabolomics: A Path to Enhanced Diagnostics and Data Interpretation
CN111462842B (zh) 一种液相色谱串联质谱平台临床应用评估系统及方法
CN118609669B (zh) 微生物药敏的质谱检测方法、系统、存储介质及电子设备
CN118604207A (zh) 判别野生与养殖鲢的羧酸类代谢标志物及用途
Shi Developing a bioinformatics tool to identify stable isotope labelled compounds in imaging mass spectrometry data: Application to lens glucose metabolism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant