CN111814864A - 一种质谱分析数据人工智能云平台系统及数据分析方法 - Google Patents

一种质谱分析数据人工智能云平台系统及数据分析方法 Download PDF

Info

Publication number
CN111814864A
CN111814864A CN202010630894.8A CN202010630894A CN111814864A CN 111814864 A CN111814864 A CN 111814864A CN 202010630894 A CN202010630894 A CN 202010630894A CN 111814864 A CN111814864 A CN 111814864A
Authority
CN
China
Prior art keywords
data
mass spectrum
model
algorithm
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010630894.8A
Other languages
English (en)
Inventor
熊行创
刘震
何文魁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingjian Proshi Technology Co ltd
Beijing Zhongji Xinke Instrument Co ltd
Original Assignee
Beijing Xingjian Proshi Technology Co ltd
Beijing Zhongji Xinke Instrument Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingjian Proshi Technology Co ltd, Beijing Zhongji Xinke Instrument Co ltd filed Critical Beijing Xingjian Proshi Technology Co ltd
Priority to CN202010630894.8A priority Critical patent/CN111814864A/zh
Publication of CN111814864A publication Critical patent/CN111814864A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/62Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating the ionisation of gases, e.g. aerosols; by investigating electric discharges, e.g. emission of cathode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Abstract

本发明提出一种质谱分析数据人工智能云平台系统及数据分析方法。平台系统由客户端、云平台两大结构组成。其中云平台包括:网络安全层、接口层、后台服务、云存储、云计算五个子系统;客户端包括:质谱数据源、浏览器/客户端程序、用户三个子系统。相对于常用的单团队采集数据单计算机人工智能分析,本发明以云计算解决人工智能算力问题,以云平台多方获取数据解决大样品量问题,以不断迭代专业人工智能算法解决质谱分析人员应用人工智能算法的难题,以云平台的网络优势不断增加数据、不断优化算法获得模型的更高准确度性能,满足了业内的广大质谱分析测试人员用先进人工智能对质谱分析数据进行判别的高效低成本需求。

Description

一种质谱分析数据人工智能云平台系统及数据分析方法
技术领域
本发明涉及质谱分析数据人工智能云平台系统构架与操作方法,特别是涉及一种依据基于质谱数据的机器学习统计分析人工智能云平台的系统和系统的操作方法。
背景技术
质谱分析方法是将物质粒子(原子、分子)电离成离子,并通过适当的稳定或变化的电场或磁场将它们按空间位置、时间顺序等实现质荷比分离,并检测其强度来作定性、定量分析的分析方法。由于质谱分析方法直接测量物质粒子,并且具有高灵敏、高分辨、高通量和高适用性的特性,使得质谱技术在现代科学技术中举足轻重。
质谱分析数据的横坐标是质荷比,纵坐标是表示绝对强度或相对强度,属于信息含量丰富、分辨率高的数据。
近年来,随着人工智能算法的崛起,质谱分析数据与人工智能方法的结合越来越广泛,用于环境检测、食品安全、疾病判别、产品识别等众多领域。
从机器学习的角度,数据信息量越大越多,越利于判别模型的建立(模型判别准确率越高),从另一个角度,模型的稳定性不强,往往是缺乏足够的样品数据参与建模。因此,业内的基本共识是获取尽可能多的样品质谱数据。在质谱分析数据人工智能分析面临着3方面的问题:数据量、数据处理方法及机器学习算法、计算能力。受制于这3方面的因素,往往会面临如下问题:
一是获得大量样品数据,需要花费更多的财力、物力和人力才能实现;对于样品数据量不足的情况,难以建模,也更难以形成有说服力的判别分析;对于好不容易获得大量样品质谱分析数据,建立了可观的判别模型,往往仅在自己的小圈子内使用。
二是大量的多种类质谱数据(正离子模式、负离子模式、小分子物质、中等分子、大分子化合物)数据量很大,需要大存储空间,另外在对大数据进行机器学习建立模型、搜索调优过程中,需要大量的计算资源和能力,通常的计算机难以胜任。
三、数据处理方法,特别是机器学习算法更新较快,新的先进算法通常能够提高判别模型的性能和加速收敛模型,对于绝大多科研人员来说,及时跟踪新算法很困难,将新算法用于质谱数据分析则更困难。
如何使质谱分析测试人员能够在不需要了解人工智能算法,不受大量样本质谱数据、超级计算能力约束的情况下,就能够快速对其样品质谱数据进行高效准确的人工智能判别,这是业内的广大质谱分析测试人员期盼解决的难题。
发明内容
为了解决上述问题,本发明的目的在于提出一种质谱分析数据人工智能云平台系统及数据分析方法,从而实现快速对样品质谱数据进行高效准确的人工智能判别。
一种质谱分析数据人工智能云平台系统,包括客户端和云平台,
客户端包括质谱数据源和应用程序/Web应用服务,云平台包括出口网关、接口层和后台服务,接口层包括RESTFUL数据服务接口和Web应用服务接口,后台服务包括Web应用后台、数据解析转换、数据处理、云存储和云计算;
质谱数据源:提供在线及离线质谱数据文件;
应用程序/Web应用服务:调用质谱数据源提供的质谱数据文件并上传至云平台;
RESTFUL数据服务接口:用于处理客户端质谱数据文件/分析方法配置的提交、分析结果数据集下载;
Web应用服务接口:承担Web前端程序服务,包括数据/操作交互、用户管理、用户业务数据管理、分析报告、结果展示;
Web应用后台:处理Web应用服务的前端请求及业务实现;
数据解析转换:将各类异构质谱数据文件进行数据解析提取并将数据转换为统一的中间格式;
数据处理:对经数据解析转换转换后的数据进行数据的运算前处理;
云存储:包括算法模型库和质谱数据库,将接收到的各类质谱数据文件及对应配置的数据分析方法、模型数据转存进云存储的质谱数据库中;
客户端的应用程序/Web应用服务通过出口网关与云平台的RESTFUL数据服务接口/Web应用服务接口进行数据交互。
优选地,还包括
数据存储/调度:通过RESTFUL数据服务接口/Web应用服务接口接收质谱数据文件及对应的分析方法配置、向应用程序/Web应用服务反馈质谱数据分析结果,并将各种算法模型和质谱数据转存进云存储的算法模型库和质谱数据库中;
机器学习算法模型控制:向Web应用后台提供算法选择、模型创建、模型数据管理、模型算法参数配置和运算数据源指向功能接口,通过对所述功能接口的调取设置生成相应的运算处理任务;
运算控制/调度:接收机器学习算法模型控制生成的运算任务,根据算法类型、算法参数、运算数据集将运算任务交由云计算的单个计算节点进行运算处理或拆解后交由多个计算节点并行处理。
一种质谱分析数据人工智能云平台系统的数据分析方法,包括如下步骤:
步骤S301:用户通过应用程序/Web应用服务从质谱数据源调取用于建模或分析的质谱数据文件、配置数据分析方法,并将调取的质谱数据文件和数据分析方法上传给RESTFUL数据服务接口/Web应用服务接口;
步骤S302:数据解析转换解析各类异构质谱数据文件,并将其中的方法数据、质谱数据和仪器状态数据提取出来转换为统一的中间格式;
步骤S303:数据解析转换将方法数据、质谱数据和仪器状态数据分类;其中,方法数据和仪器状态数据的后续处理跳转至步骤S307,质谱数据的后续处理跳转至步骤S304;
步骤S304:数据处理对步骤S303中的质谱数据进行数据的运算前处理;
步骤S307:数据处理将步骤S303中方法数据和仪器状态数据中的共用参数信息以及步骤S304中的质谱数据重组并生成中间格式的质谱数据;
步骤S308:机器学习/数据分析——通过云计算对中间格式的质谱数据进行基于各类算法模型的模型训练、模型迭代、判别分析或统计分析。
优选地,数据解析转换通过各类质谱数据文件的二进制结构、文本结构和解析库信息进行解析并分类。
优选地,所述方法数据包括离子源类型、温度、高压值和二次离子生成方式;所述质谱数据为质谱谱图数据,包括质核比、相对/绝对强度和保留时间的数据;所述仪器状态数据包括各幅质谱谱图数据生成时对应的质谱仪的实时状态参数。
优选地,在步骤S304中的运算前处理包括对质谱谱图数据的平滑、滤波和坏值剔除。
优选地,在步骤S304和步骤S307之间还包括步骤S305,对质谱谱图的质量进行全域校准、分段校准以及对质谱谱图的基线进行校准。
优选地,在步骤S305和步骤S307之间还包括步骤S306,对各幅质谱谱图进行峰对齐/质量间隔对齐;对轮廓峰类型的质谱谱图数据进行谱峰提取并生成棒状峰类型的质谱数据。
优选地,所述模型训练包括如下步骤:
以任务形式创建新模型,用户在应用程序/Web应用服务中提供算法模型创建任务的模型ID设置、算法类型选择、对应的算法参数设置、数据源指定;
Web应用后台通过机器学习算法模型控制的功能接口获取算法选择、模型创建、模型数据管理、模型算法参数配置和运算数据源,通过对所述功能接口的调取设置生成相应的运算处理任务;
运算控制/调度接收机器学习算法模型控制生成的运算任务,根据算法类型、算法参数、运算数据集将运算任务交由云计算的单个计算节点进行运算处理或拆解后交由多个计算节点并行处理。
优选地,所述模型迭代为在原有算法模型基础上添加新的训练集和验证集数据进行再训练。
本发明与现有技术相比,具有如下有益效果:
相对于常用的单团队采集数据单计算机人工智能分析,本发明以云计算解决人工智能算力问题,以云平台多方获取数据解决大样品量问题,以不断迭代专业人工智能算法解决质谱分析人员应用人工智能算法的难题,以云平台的网络优势不断增加数据、不断优化算法获得模型的更高准确度性能,满足了业内的广大质谱分析测试人员用先进人工智能对质谱分析数据进行判别的高效低成本需求。
附图说明
图1为本发明一种质谱分析数据人工智能云平台系统构架示意图;
图2为本发明质谱分析数据人工智能云平台系统操作方法流程示意图;
图3为本发明质谱分析数据人工智能云平台系统主要业务功能示意图;
图4为本发明质谱分析数据人工智能云平台系统数据分析方法流程示意图。
具体实施方式
下面结合附图1-4以及以下具体实施方式对本发明进行具体说明。
如图1所示,为质谱分析数据人工智能支平台系统架构,系统可划分为客户端10、云平台两大结构组成。其中云平台部分包括:网络安全层11、接口层12、后台服务13、云存储14和云计算15;客户端10部分包括:质谱数据源101和浏览器/客户端程序102。
以下对各结构的功能加以说明:
客户端10:
质谱数据源101:支持目前国内外各质谱供应商(Thermo、Waters、Agilent、AB等)的多种类型质谱(离子阱、飞行时间、轨道阱、四极杆等)的在线及离线数据文件。兼容多种质谱数据文件格式(例如Thermo公司的.raw文件格式,Agilent公司的.d文件格式,Waters公司的.raw文件(包)格式,国际通用mzXML质谱数据格式)。
应用程序/Web应用服务102:可根据不用的应用场景(在线数据/离线数据分析)或用户偏好向用户提供基于浏览器的Web应用服务或是客户端模式的应用程序。应用程序/Web应用服务102主要包括:质谱数据采集上传(以文件同步的方式从质谱数据源101获取数据文件并上传给RESTFUL数据接口服务121)、数据分析方法配置程序(提交给RESTFUL数据接口服务121)和分析结果展示;业务交互如用户注册、认证、用户模型数据管理等。应用程序/Web应用服务102通过云平台网络安全层11中的出口网关111与云平台的RESTFUL数据服务接口121和Web应用服务接口122进行数据交互。
用户103(用于描述用户103对应用程序/Web应用服务102进行配置及交互操作)与应用程序/Web应用服务102进行交互主要包括:数据分析方法配置、业务操作、分析报告读取等。
云平台:
出口网关111:包括防火墙(访问/服务端口控制、端口映射)、反向代理(控制应用程序/Web应用服务102的请求与接口层12的服务的数据转发)、负载均衡。通过这些功能与机制实现云平台互联网访问的安全性和系统稳定性。
接口层12包括两大类服务接口:RESTFUL数据服务接口121和Web应用服务接口122。
RESTFUL数据服务接口121:主要用于处理客户端10的质谱数据文件/分析方法配置的提交、分析结果数据集下载等;
Web应用服务接口122:主要承担Web前端程序服务包括数据/操作交互、用户管理(注册/登录认证)、用户业务数据管理(质谱数据文件、机器学习算法模型数据管理等)、分析报告、结果展示等。
后台服务13包括:数据存储/调度131、Web应用后台132、数据解析转换133、数据处理134、机器学习模型控制135、运算控制/调度136。
数据存储/调度131:接收RESTFUL数据接口服务121提交的质谱数据文件及对应的分析方法配置,并将相关数据转存进云存储14的质谱数据库中。向RESTFUL数据接口服务12返回质谱数据的分析结果。接收运算控制/调度136提交的模型数据并将相关数据转存进云存储141的算法模型数据库中。同时数据存储/调度131为后台的其他服务提供质谱数据和算法模型数据的读取接口。
Web应用后台132:实现Web应用业务处理(处理Web应用服务122的前端请求及业务实现)、业务流程控制以及后台服务间交互控制等。
数据解析转换133:将从数据存储/调度131读取的各类异构质谱数据文件进行数据解析并将数据转换为统一的中间格式。
数据处理134:对数据解析转换133转换后的数据,进行数据的运算前处理。包括滤波、坏值剔除、峰检测、峰对齐等。处理后的质谱数据交由运算控制/调度136进行相应的运算。
机器学习算法模型控制135:向Web应用后台132提供算法选择、模型创建、模型数据管理、模型算法参数配置、运算数据源指向等功能接口。通过对这些接口的调取设置生成相应的运算处理任务,并将任务发送给运算控制/调度136执行。
运算控制/调度136:接收到运算任务后,根据任务参数(算法类型、算法参数、运算数据集),将运算任务交由云计算151的单个计算节点进行运算处理或拆解后交由多个计算节点并行处理。运算处理完成后的分析结果通过数据存储/调度131向接口层12或Web应用后台132返回。运算控制/调度136可完成模型训练、模型迭代、基于模型的判定等计算。
云存储14:采用Hadoop的HDFS、Hive及MYSQL数据库。
HDFS:Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。是一个高度容错性的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
Hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。具备三个特点①可扩展,Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。②延展性,Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。③容错,良好的容错性,节点出现问题SQL仍可完成执行。
云计算15:采用TensorflowOnSpark,支持使用Spark/Hadoop集群分布式的运行Tensorflow。
图2为本发明质谱分析数据人工智能云平台系统操作流程示意图;如图2所示,质谱分析数据人工智能云平台系统操作流程,包括如下流程步骤:
步骤S201:质谱数据源(向应用程序/Web应用服务)提供用于建模或分析的质谱数据文件。
步骤间交互或数据流向:S201至S202:多种格式的质谱数据文件。
步骤S202:应用程序/Web应用服务向用户提供交互操作;向RESTFUL数据服务接口上传数据文件查询或下载数据分析结果、与Web应用服务接口交互实现业务功能的应用程序/Web应用服务呈现(用户登录认证、数据浏览、算法模型创建、质谱数据及模型数据管理、分析结果展示查询等)。
步骤间交互或数据流向:
S202至S203:向用户提供交互操作(程序界面/配置文件)及分析结果。
S202至S221:向RESTFUL数据接口提交质谱数据文件及其对应的分析方法配置文件。
S202至S222:向Web应用服务提交业务功能请求。
步骤S203:通过应用程序/Web应用服务配置数据分析方法、进行业务功能操作。
步骤间交互或数据流向:
S203至S202:用户借助应用程序/Web应用服务配置数据分析方法、进行业务操作/交互。
步骤S221:提供基于RESTFUL类型的数据接口实现的质谱数据及数据分析方法配置的数据上传接收/转发。通过接口实现从云存储中查询/下载算法模型库、质谱数据库中质谱数据以及数据分析方法配置程序。实现从Web应用后台查询/下载分析结果数据。
步骤间交互或数据流向:
S221至S202:提供质谱数据库、算法模型库数据的查询及下载;提供数据分析结果查询及下载。
步骤S222:Web应用服务包括数据/操作交互、用户管理(注册/登录认证)、用户业务数据管理(质谱数据文件、机器学习算法模型数据管理等)、分析报告、结果展示等。主要起到系统业务逻辑的Web前端实现(即用户可视化)。
步骤间交互或数据流向:
S222至S201:向应用程序/Web应用服务返回业务功能响应。
S222至S232:向Web应用后台转发各类前端业务请求。
步骤S231:提供质谱数据库/算法模型库数据存储/调度。包括质谱数据文件、数据分析方法配置、算法模型(模型参数、模型训练用数据源、模型判定用数据源、判定结果数据集)等类型数据。云存储调用与控制。
步骤间交互或数据流向:
S231至S202:提供质谱数据库、算法模型库数据的查询及下载;提供数据分析结果查询及下载。
S231至S232:提供质谱数据库、算法模型库数据的查询及下载;提供数据分析结果查询及下载。
S231至S233:提供质谱数据文件。
S231至S241:提供质谱数据文件、数据分析方法配置、算法模型(模型参数、模型训练用数据源、模型判定用数据源、判定结果数据集)等类型数据。
步骤S232:Web应用后台:Web应用业务处理;业务流程控制;后台服务间交互控制等。
步骤间交互或数据流向:
S232至S231:质谱数据库/算法模型库数据组织及数据查询。
S232至S235:机器学习算法模型创建、选择、配置及模型数据管理。(算法模型控制请求)
步骤S233:质谱数据(文件)信息提取、格式转换等。
步骤间交互或数据流向:
S233至S234:数据提取转换后的中间格式数据文件或数据结构。
步骤S234:数据处理:滤波、坏值剔除、峰检测、峰对齐等
步骤间交互或数据流向:
S234至S236:数据处理完成后的中间格式数据文件或数据结构。
步骤S235:机器学习算法模型控制。算法模型选择如线性模型、支持向量机、神经网络等;算法参数配置;算法模型的创建;模型数据管理等。
步骤间交互或数据流向:
S235至S232:返回请求操作响应结果或数据集(算法模型控制响应)。
S235至S236:发送运算任务(任务类型、模型算法类型、参数配置、运算数据源指向等)。
步骤S236:运算控制/调度如模型训练、模型迭代、基于模型的判定计算等。云计算调用与控制。
步骤间交互或数据流向:
S236至S235:运算任务执行的状态及结果数据。
S236至S231:算法模型库(模型类别、模型参数、判定结果等)数据提交。
S236至S251:发送云计算系统配置参数、计算接口参数。
步骤S241:云存储(基于Hadoop HDFS及HIVE、MYSQL),算法模型库、质谱数据库的数据存储。质谱数据文件以HDFS存储、MYSQL存储算法模型库、平台系统/配置数据,HVIE整合元数据(HDFS、MYSQL)提供数据仓库支持。
步骤间交互或数据流向:
S241至S231:(根据数据操作请求)返回算法模型库、质谱数据库中的数据集。
步骤S251:云计算(基于TensorflowOnSpark SPARK/Hadoop)。实现基于Tensorflow框架的深度学习分布式计算。
步骤间交互或数据流向:
S201至S202:模型运算(训练/判定)的结果数据集。
图3为本发明质谱分析数据人工智能云平台系统主要业务功能示意图;如图3所示,以下为各业务功能的详细描述:
用户账户控制F001:
用户账户控制用于管控用户注册、用户认证、用户角色/权限控制、用户信息管理。用户注册功能后将取得相应的用户名(用户可见)、密码(用户可见)、角色(用户可见)、角色拥有的相应权限(系统绑定)、用户的系统ID(标识)(系统绑定)。
用户操作应用程序/Web应用服务时需进行登录认证,系统将根据基对应的角色权限开放对应的业务功能。且其后的所有操作及用户数据(质谱数据上传、质谱数据管理、算法模型管理等)都将与用户的系统ID(标识)绑定。
质谱数据上传F002:
用户可通过浏览器的Web应用服务(适用离线质谱数据)或客户端(适用在线质谱数据、离线质谱数据)应用程序采集上传在线实时质谱数据文件或离线质谱数据文件。同时根据应用程序的分析方法配置界面或编辑配置ini文件,对质谱数据文件的分析方法加以设置。如:数据文件有效的时间段、扫描段;数据文件分析类型(直接入库、模型训练、基于模型判别分析(选择相关算法模型ID)等);数据处理方法等。
质谱数据管理F003:
向用户提供质谱数据库中所属质谱数据(与用户的系统ID绑定)、以及共享开放(对其他用户可见)质谱数据的多模式浏览(列表、独立谱图、谱图比对)、查询、删除、属性管理(私有数据、共享开放数据)等。
算法模型管理F004:
向用户提供算法模型库中所属模型数据(与用户的系统ID绑定)、以及共享开放(对其他用户可见)模型数据的浏览(列表、单项属性)、查询、删除、属性管理(私有模型数据、共享开放模型数据)等。
模型训练、模型迭代:以任务形式创建新模型(模型训练)或模型迭代(在原有模型基础上添加新的训练集和验证集数据进行再训练)。用户界面中提供模型创建任务的模型ID设置、算法类型选择、对应的算法参数设置、数据源指定(如训练集、验证集质谱数据文件(组)指定)等。用户可浏览/查询名下对应的训练任务信息表,对列表中的任务进行编辑、提交、状态查询(正在训练、异常/错误、已完成)。
基于模型的数据分析:以任务形式创建数据分析。用户界面中提供数据分析创建任务的模型ID选择、待分析质谱数据文件(组)指定等。用户可浏览/查询名下对应的数据分析任务信息表,对列表中的分析任务进行编辑、提交、状态查询(正在分析、异常/错误、已完成)、分析结果详细信息浏览。
分析结果F005:
在线分析结果,将在客户端程序中实时以图表形式显示(如当前采集质谱数据基于模型的数据分析的得分值、判定结果等),并提供分析报告下载。离线分析可在浏览器/客户端程序进行浏览/查询以及详细报告(可定制PDF)下载/打印。
图4为本发明质谱分析数据人工智能云平台系统的数据分析方法流程示意图。
如图4所示,描述了平台系统对各类异构(不同格式)质谱数据文件的解析、信息提取与转换;以及对质谱数据的预处理、谱峰提取/谱峰对齐;将处理后的数据重组生成中间格式质谱数据(如csv、JSON),为后继的机器学习和数据分析提供可靠、精准的质谱数据源。
步骤S301:质谱数据源,囊括目前国内外各质谱供应商(Thermo、Waters、Agilent、AB、Bruker等)多种格式的质谱数据文件,如Thermo公司的.raw文件格式,Agilent公司的.d文件格式,Waters公司的raw文件(包)格式、ABSciex的Wiff/Wiff2格式、Bruker的fid及其他文件包格式。也可支持通用型质谱数据格式文件,如mzML、mzXML等。基本涵盖了离子阱、飞行时间、轨道阱、四极杆等各种类型质谱系统生成的数据文件。
步骤间交互或数据流向:
S301至S302:用户通过应用程序/Web应用服务从质谱数据源调取用于建模或分析的质谱数据文件、配置数据分析方法,质谱数据源提供异构(不同格式)质谱数据文件。
步骤S302:对各类不同格式的质谱数据文件进行数据解析/提取/转换。
根据数据文件的二进制结构、文本结构、解析库等对文件中的方法数据(质谱系统的方法参数)、质谱(谱图)数据、仪器状态数据(质谱谱图数据生成时对应的仪器状态参数)进行解析提取。
方法数据包括离子源类型、温度、高压值、二次离子生成方式以及其他质谱系统参数。方法数据标示了质谱数据生成对应的系统条件,对后继的机器学习及数据分析中的数据组别分类、关联性参数分析提供重要数据信息依据。
质谱数据包括质核比、强度(相对/绝对)、保留时间及其他相关参数的轮廓峰或棒状峰的质谱谱图数据。
仪器状态数据包括各幅质谱谱图数据生成时对应的质谱仪关键硬件系统的实时状态参数,对数据(异常)状态判定以及后继的机器学习及数据分析中关联性参数分析提供重要数据信息依据。
将上述的方法数据、质谱数据和仪器状态数据转换为统一的中间格式后方便后续步骤中的数据重组。
步骤S303:数据解析转换将方法数据、质谱数据和仪器状态数据分类;其中,方法数据和仪器状态数据的后续处理跳转至步骤S307,质谱数据的后续处理跳转至步骤S304;
步骤S304:质谱数据预处理,包括谱图数据的平滑、滤波、坏值剔除等。
步骤S305:质谱数据校准。为质谱谱图数据提供校准功能。如对质谱图的质量校进行全域校准、分段校准;对质谱图的基线进行校准(消除各种类型的基线漂移)等。
步骤S306:质谱峰提取/对齐,对多幅质谱图进行峰对齐(可通过智能算法自动计算对齐或手动标定对齐),或对多幅质谱图进行质量间隔对齐。对轮廓峰类型的质谱谱图数据进行谱峰提取,生成棒状峰(绝对强度/相对强度)类型的质谱数据。
步骤S307:生成质谱数据(中间格式),整合经过数据预处理、质谱数据校准、质谱峰提取/对齐后的谱图数据、方法数据中的公用参数信息、仪器状态信息中的公用参数信息。将以上信息重组并生成(如csv、JSON)格式的质谱中间格式数据(文件),为后继的机器学习和数据分析提供可靠、精准的质谱数据源。
步骤S408:机器学习/数据分析,对质谱数据(中间格式)进行基于各类算法模型(如支持向量机、神经网络)的模型训练、模型迭代、统计分析、基于模型的判别分析等。
数据分析方法总体过程如下:用户从质谱数据源提供需要分析的质谱数据文件,配置分析方法后,数据存储在云存储系统中,在云计算平台中依据建好的模型进行判别与分析,快速返回结果。云平台依据不断增多的质谱数据来增强模型、优化参数获得高的判别准确率,用户在不需要了解人工智能算法细节、背负超级计算能力及大数据存储能力的负担的情况下就能快速获得科学准确的判别分析结果。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的普通技术人员当可根据本发明做出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种质谱分析数据人工智能云平台系统,其特征在于,包括客户端和云平台,
客户端包括质谱数据源和应用程序/Web应用服务,云平台包括出口网关、接口层和后台服务,接口层包括RESTFUL数据服务接口和Web应用服务接口,后台服务包括Web应用后台、数据解析转换、数据处理、云存储和云计算;
质谱数据源:提供在线及离线质谱数据文件;
应用程序/Web应用服务:调用质谱数据源提供的质谱数据文件并上传至云平台;
RESTFUL数据服务接口:用于处理客户端质谱数据文件/分析方法配置的提交、分析结果数据集下载;
Web应用服务接口:承担Web前端程序服务,包括数据/操作交互、用户管理、用户业务数据管理、分析报告、结果展示;
Web应用后台:处理Web应用服务的前端请求及业务实现;
数据解析转换:将各类异构质谱数据文件进行数据解析提取并将数据转换为统一的中间格式;
数据处理:对经数据解析转换转换后的数据进行数据的运算前处理;
云存储:包括算法模型库和质谱数据库,将接收到的各类质谱数据文件及对应配置的数据分析方法、模型数据转存进云存储的质谱数据库中;
客户端的应用程序/Web应用服务通过出口网关与云平台的RESTFUL数据服务接口/Web应用服务接口进行数据交互。
2.根据权利要求1所述的质谱分析数据人工智能云平台系统,其特征在于,还包括
数据存储/调度:通过RESTFUL数据服务接口/Web应用服务接口接收质谱数据文件及对应的分析方法配置、向应用程序/Web应用服务反馈质谱数据分析结果,并将各种算法模型和质谱数据转存进云存储的算法模型库和质谱数据库中;
机器学习算法模型控制:向Web应用后台提供算法选择、模型创建、模型数据管理、模型算法参数配置和运算数据源指向功能接口,通过对所述功能接口的调取设置生成相应的运算处理任务;
运算控制/调度:接收机器学习算法模型控制生成的运算任务,根据算法类型、算法参数、运算数据集将运算任务交由云计算的单个计算节点进行运算处理或拆解后交由多个计算节点并行处理。
3.一种质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,包括如下步骤:
步骤S301:用户通过应用程序/Web应用服务从质谱数据源调取用于建模或分析的质谱数据文件、配置数据分析方法,并将调取的质谱数据文件和数据分析方法上传给RESTFUL数据服务接口/Web应用服务接口;
步骤S302:数据解析转换解析各类异构质谱数据文件,并将其中的方法数据、质谱数据和仪器状态数据提取出来转换为统一的中间格式;
步骤S303:数据解析转换将方法数据、质谱数据和仪器状态数据分类;其中,方法数据和仪器状态数据的后续处理跳转至步骤S307,质谱数据的后续处理跳转至步骤S304;
步骤S304:数据处理对步骤S303中的质谱数据进行数据的运算前处理;
步骤S307:数据处理将步骤S303中方法数据和仪器状态数据中的共用参数信息以及步骤S304中的质谱数据重组并生成中间格式的质谱数据;
步骤S308:机器学习/数据分析——通过云计算对中间格式的质谱数据进行基于各类算法模型的模型训练、模型迭代、判别分析或统计分析。
4.根据权利要求3所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,数据解析转换通过各类质谱数据文件的二进制结构、文本结构和解析库信息进行解析并分类。
5.根据权利要求3所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,所述方法数据包括离子源类型、温度、高压值和二次离子生成方式;所述质谱数据为质谱谱图数据,包括质核比、相对/绝对强度和保留时间的数据;所述仪器状态数据包括各幅质谱谱图数据生成时对应的质谱仪的实时状态参数。
6.根据权利要求5所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,在步骤S304中的运算前处理包括对质谱谱图数据的平滑、滤波和坏值剔除。
7.根据权利要求6所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,在步骤S304和步骤S307之间还包括步骤S305,对质谱谱图的质量进行全域校准、分段校准以及对质谱谱图的基线进行校准。
8.根据权利要求7所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,在步骤S305和步骤S307之间还包括步骤S306,对各幅质谱谱图进行峰对齐/质量间隔对齐;对轮廓峰类型的质谱谱图数据进行谱峰提取并生成棒状峰类型的质谱数据。
9.根据权利要求3所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,所述模型训练包括如下步骤:
以任务形式创建新模型,用户在应用程序/Web应用服务中提供算法模型创建任务的模型ID设置、算法类型选择、对应的算法参数设置、数据源指定;
Web应用后台通过机器学习算法模型控制的功能接口获取算法选择、模型创建、模型数据管理、模型算法参数配置和运算数据源,通过对所述功能接口的调取设置生成相应的运算处理任务;
运算控制/调度接收机器学习算法模型控制生成的运算任务,根据算法类型、算法参数、运算数据集将运算任务交由云计算的单个计算节点进行运算处理或拆解后交由多个计算节点并行处理。
10.根据权利要求9所述的质谱分析数据人工智能云平台系统的数据分析方法,其特征在于,所述模型迭代为在原有算法模型基础上添加新的训练集和验证集数据进行再训练。
CN202010630894.8A 2020-07-03 2020-07-03 一种质谱分析数据人工智能云平台系统及数据分析方法 Withdrawn CN111814864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010630894.8A CN111814864A (zh) 2020-07-03 2020-07-03 一种质谱分析数据人工智能云平台系统及数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010630894.8A CN111814864A (zh) 2020-07-03 2020-07-03 一种质谱分析数据人工智能云平台系统及数据分析方法

Publications (1)

Publication Number Publication Date
CN111814864A true CN111814864A (zh) 2020-10-23

Family

ID=72855236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010630894.8A Withdrawn CN111814864A (zh) 2020-07-03 2020-07-03 一种质谱分析数据人工智能云平台系统及数据分析方法

Country Status (1)

Country Link
CN (1) CN111814864A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204687A (zh) * 2020-11-10 2021-08-03 摩赛恩科技(苏州)有限公司 质谱数据自动上传方法及终端设备
CN113219042A (zh) * 2020-12-03 2021-08-06 深圳市步锐生物科技有限公司 一种用于人体呼出气体中各成分分析检测的装置及其方法
WO2022111444A1 (zh) * 2020-11-25 2022-06-02 摩赛恩科技(苏州)有限公司 质谱数据处理系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN109154939A (zh) * 2016-04-08 2019-01-04 培生教育公司 用于自动内容聚合生成的系统和方法
CN109523316A (zh) * 2018-11-16 2019-03-26 杭州珞珈数据科技有限公司 商业服务模型的自动化建模方法
CN109598144A (zh) * 2018-12-07 2019-04-09 暨南大学 一种质谱数据资产管理系统及方法
US20190130994A1 (en) * 2016-04-11 2019-05-02 Discerndx, Inc. Mass Spectrometric Data Analysis Workflow
CN110020665A (zh) * 2019-02-12 2019-07-16 北京鑫汇普瑞科技发展有限公司 一种兼容不同飞行质谱仪的微生物质谱数据分析方法
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法
CN111143097A (zh) * 2018-11-03 2020-05-12 千寻位置网络有限公司 面向gnss定位服务的故障治理系统和方法
CN111324635A (zh) * 2020-01-19 2020-06-23 研祥智能科技股份有限公司 工业大数据云平台数据处理方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782976A (zh) * 2010-01-15 2010-07-21 南京邮电大学 一种云计算环境下机器学习自动选择方法
CN109154939A (zh) * 2016-04-08 2019-01-04 培生教育公司 用于自动内容聚合生成的系统和方法
US20190130994A1 (en) * 2016-04-11 2019-05-02 Discerndx, Inc. Mass Spectrometric Data Analysis Workflow
CN111143097A (zh) * 2018-11-03 2020-05-12 千寻位置网络有限公司 面向gnss定位服务的故障治理系统和方法
CN109523316A (zh) * 2018-11-16 2019-03-26 杭州珞珈数据科技有限公司 商业服务模型的自动化建模方法
CN109598144A (zh) * 2018-12-07 2019-04-09 暨南大学 一种质谱数据资产管理系统及方法
CN110020665A (zh) * 2019-02-12 2019-07-16 北京鑫汇普瑞科技发展有限公司 一种兼容不同飞行质谱仪的微生物质谱数据分析方法
CN110110743A (zh) * 2019-03-26 2019-08-09 中国检验检疫科学研究院 一种基于云平台的世界常用农药及化学污染物七类质谱谱图自动识别系统与方法
CN111324635A (zh) * 2020-01-19 2020-06-23 研祥智能科技股份有限公司 工业大数据云平台数据处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨辉华;李灵巧;覃炳达;梁琼麟;王义明;罗国安;: "CloudChem―基于云计算的化学计量学软件服务", 计算机与应用化学, no. 05, pages 523 - 526 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204687A (zh) * 2020-11-10 2021-08-03 摩赛恩科技(苏州)有限公司 质谱数据自动上传方法及终端设备
WO2022100007A1 (zh) * 2020-11-10 2022-05-19 摩赛恩科技(苏州)有限公司 质谱数据自动上传方法及终端设备
WO2022111444A1 (zh) * 2020-11-25 2022-06-02 摩赛恩科技(苏州)有限公司 质谱数据处理系统及方法
CN113219042A (zh) * 2020-12-03 2021-08-06 深圳市步锐生物科技有限公司 一种用于人体呼出气体中各成分分析检测的装置及其方法

Similar Documents

Publication Publication Date Title
CN111814864A (zh) 一种质谱分析数据人工智能云平台系统及数据分析方法
Choi et al. MassIVE. quant: a community resource of quantitative mass spectrometry–based proteomics datasets
US11941034B2 (en) Conversational database analysis
US9992269B1 (en) Distributed complex event processing
CN111740884B (zh) 一种日志处理方法及电子设备、服务器、存储介质
CN110362544A (zh) 日志处理系统、日志处理方法、终端及存储介质
CN109061020B (zh) 一种基于气相/液相色谱质谱平台的数据分析系统
CN111708774B (zh) 一种基于大数据的产业分析系统
CN114416855A (zh) 一种基于电力大数据的可视化平台及方法
CN111881326A (zh) 一种图数据存储方法、装置、设备及可读存储介质
Strotmann et al. Author name disambiguation for collaboration network analysis and visualization
Fagroud et al. IOT search engines: exploratory data analysis
CN112511547A (zh) 基于Spark和聚类的网络异常流量分析方法及系统
Sahin et al. A discrete dynamic artificial bee colony with hyper-scout for RESTful web service API test suite generation
CN109145009A (zh) 一种基于SQL检索ElasticSearch的方法
US11720570B2 (en) Aggregation operations in a distributed database
CN108154380A (zh) 基于大规模评分数据对用户进行商品在线实时推荐的方法
Cannataro et al. Using ontologies for preprocessing and mining spectra data on the Grid
Kratochvíl et al. GigaSOM. jl: High-performance clustering and visualization of huge cytometry datasets
CN110008448A (zh) 将SQL代码自动转换为Java代码的方法和装置
CN114296785A (zh) 一种日志数据建模方法及系统
Bompiani et al. High-performance computing with terastat
Ren et al. Distributed data mining in grid computing environment
CN110728118A (zh) 跨数据平台的数据处理方法、装置、设备及存储介质
Jie A performance modeling-based HADOOP configuration tuning strategy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201023

WW01 Invention patent application withdrawn after publication