CN116598005A - 基于宿主序列信息的下呼吸道感染概率预测系统及装置 - Google Patents

基于宿主序列信息的下呼吸道感染概率预测系统及装置 Download PDF

Info

Publication number
CN116598005A
CN116598005A CN202310870853.XA CN202310870853A CN116598005A CN 116598005 A CN116598005 A CN 116598005A CN 202310870853 A CN202310870853 A CN 202310870853A CN 116598005 A CN116598005 A CN 116598005A
Authority
CN
China
Prior art keywords
host
sequence
unit
infection
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310870853.XA
Other languages
English (en)
Other versions
CN116598005B (zh
Inventor
邹晓辉
曹彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Japan Friendship Hospital
Original Assignee
China Japan Friendship Hospital
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Japan Friendship Hospital filed Critical China Japan Friendship Hospital
Priority to CN202310870853.XA priority Critical patent/CN116598005B/zh
Publication of CN116598005A publication Critical patent/CN116598005A/zh
Application granted granted Critical
Publication of CN116598005B publication Critical patent/CN116598005B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/80ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for detecting, monitoring or modelling epidemics or pandemics, e.g. flu
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种基于宿主序列信息的下呼吸道感染概率预测系统及装置,涉及机器学习技术领域,系统主要包括数据采集模块、数据处理模块、结果生成模块:数据采集模块,包括第一采集单元,用于采集被测支气管肺泡灌洗液样本的RNA测序总序列;数据处理模块,包括宿主序列提取单元、判定模型单元、感染状态单元:宿主序列提取单元,用于从所述RNA测序总序列中提取被测宿主的基因序列;判定模型单元,存储第一判定模型;感染状态单元,基于被测宿主的基因序列,通过第一判定模型,预测被测宿主下呼吸道感染概率;结果生成模块,用于将上述预测结果外发。本申请基于宿主序列信息,通过机器学习模型进行计算,可快速有效地预测下呼吸道病原体感染情况。

Description

基于宿主序列信息的下呼吸道感染概率预测系统及装置
技术领域
本发明涉及机器学习技术领域,尤其是涉及一种基于宿主序列信息的下呼吸道感染概率预测系统及装置。
背景技术
目前,机器学习技术发展迅速,通过原始数据样本训练模型进行特征识别,利用训练好的模型可以对大批量、复杂化的待测数据进行快速处理,得到较为准确的预测结果。
由于人体下呼吸道位置特殊,生物环境复杂,导致其可能感染的病原体种类繁多,同时还会伴随着常见菌群、宿主各种细胞等噪音信息,这就给感染状态判断、造成感染的病原体识别带来了更大的阻碍,如何对其进行快速、准确的判断及识别一直是下呼吸道病原体感染成因研究人员难以解决的课题。
针对这一课题,在现有技术中,往往采用基于二代测序的宏基因组技术(mNGS,metagenomic next generation sequencing)识别下呼吸道可能感染的病原体的种类及数量,具体是首先利用支气管肺泡灌洗液(BALF)冲洗肺泡回收下呼吸道样本,进行DNA和RNA提取并建库测序,再从中剔除宿主免疫细胞的读长(reads),从而剔除数据噪声,只保留非宿主的读长进行病原体基因识别,最终得到病原体列表。由于在下呼吸道样本中宿主免疫细胞占据了绝大多数有效数据,导致剔除数据噪声后剩余的有效数据很少,从而使mNGS报告中体现的各种病原体序列数目过少,常常失去了统计学意义,最终无法对感染状态进行判断,更无法对造成感染的病原体进行准确识别与统计。
还有通过宿主的外周血样本进行转录组分析,智能判定感染与否的技术方案,但外周血来自身体的各个脏器,成分背景非常复杂,不利于准确进行下呼吸道感染判定及其病原体分析。
因此,如何找到能够更加准确反映感染病原体的数据指标、如何利用机器学习的优势,高效、准确地对下呼吸道病原体的感染情况进行预测,成为解决前述问题的一种途径。
发明内容
本发明的目的在于提供一种基于宿主序列信息的下呼吸道感染概率预测系统及装置,以解决现有技术中存在的至少一种上述技术问题。
第一方面,为解决上述技术问题,本发明提供一种基于宿主序列信息的下呼吸道感染概率预测系统,包括数据采集模块、数据处理模块、结果生成模块:
所述数据采集模块,包括第一采集单元,用于采集被测支气管肺泡灌洗液样本的RNA测序总序列;
所述数据处理模块,包括宿主序列提取单元、判定模型单元、感染状态单元:
所述宿主序列提取单元,用于从所述RNA测序总序列中提取被测宿主的基因序列;
所述判定模型单元,存储第一判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因进行训练;所述标志基因是指参与抗感染免疫反应的宿主基因;
所述感染状态单元,基于被测宿主的基因序列,通过第一判定模型,预测被测宿主下呼吸道感染概率;
所述结果生成模块,用于将上述预测结果外发。
通过上述系统,利用下呼吸道感染诱发宿主免疫反应的特性,更准确地对下呼吸道感染状态进行判定,并通过机器学习模型,快速预测出被测宿主下呼吸道感染概率。
在一种可行的实施方式中,所述第一采集单元的源数据制作过程包括:
步骤a1、获取被测支气管肺泡灌洗液样本;
步骤a2、提取样本中的总RNA;
步骤a3、将总RNA片段化后,通过随机引物反转录成cDNA后,在cDNA两端加上测序接头,得到RNA测序文库;
步骤a4、将RNA测序文库定量处理后,按比例稀释,再进行测序,保证至少2千万条序列,得到源数据。
通过上述采集方法,可以从被测支气管肺泡灌洗液样本采集并处理得到可用的基因序列,以便后续处理。
在一种可行的实施方式中,所述标志基因包括HBA2、HLA-B、 RP11-867O8.9、S100P、OSM、PROK2、SPOCD1、TGM2、ALOX15B、CD40LG、 PRSS33(基因名称均为公知国际标准名称缩写)的任意一种组合,这些基因参与宿主的抗感染免疫反应,可以更准确地反映宿主的感染状态。
在一种可行的实施方式中,所述宿主序列提取单元的具体提取过程包括:
步骤b1、对RNA测序总序列进行质量控制筛选,控制标准包括序列的长度不低于45bp、碱基平均质量值不低于25、可用数据量不低于20M reads;
步骤b2、通过RNA对比工具,例如HISAT2,将mNGS数据比对到人类基因组序列信息数据库(GRCh38.p13)的参考基因组上,工具参数选择默认值,得到宿主的基因序列;
步骤b3、通过转录组定量工具,例如featurecounts,计算每个基因比对到的reads数目;
步骤b4、根据reads数目,去除低丰度基因的表达信息,例如60%以上感染宿主都不表达的基因,以便筛选出高丰度基因的表达信息;
步骤b5、计算高丰度基因在每百万reads中匹配的reads数目,即cpm值;
其中,cpm值的具体公式可以为:
步骤b6、对高丰度基因的cpm值进行标准化处理,例如取log2对数,获得标准化后的cpm值(即log2(cpm)),以便缩小数据范围;
标准化后的cpm值(即log2(cpm))的具体公式可以为:
通过上述步骤,可以从所述RNA测序总序列中提取快速提取出被测宿主的高丰度基因序列并计算得到其cpm值以及log2(cpm)值,以便后续分析计算。
在一种可行的实施方式中,所述第一判定模型的训练方法包括:
步骤c1、采集若干组已知感染宿主与非感染宿主的支气管肺泡灌洗液样本;分别提取其中的总RNA;将总RNA片段化后,通过随机引物反转录成cDNA后,两端加上测序接头,得到RNA测序文库;将RNA测序文库定量处理后,按比例稀释,再进行测序后分类存储于数据库中;
步骤c2、通过差异表达分析工具,例如edgeR、DEseq2、limma,对数据库中感染宿主与非感染宿主的RNA测序总序列进行标准化鉴定,得到差异表达基因;鉴定标准为表达信息量差异的倍数,例如2倍以上;以便得到参与抗感染免疫反应的宿主基因;
步骤c3、将差异表达基因作为特征输入至第一判定模型的基础模型,例如随机森林模型、逻辑回归、支持向量机模型;定义标签,例如将感染宿主编码为1、将未感染宿主编码为0;定义预测结果为感染概率;通过包装法(RFE法)筛选出对模型预测效果最佳的基因作为标志基因;
步骤c4、将标志基因作为识别特征加入至第一判定模型,通过网格搜索方法,例如GridSearchCV,寻优计算得到最佳模型参数组合。
通过上述方法,可以训练得到合格的第一判定模型。
在一种可行的实施方式中,所述感染状态单元的预测过程包括:
步骤d1、基于被测宿主高丰度基因的reads数目,计算其标准化后的cpm值(即log2(cpm));
其中,cpm值的具体公式可以为:
标准化后的cpm值(即log2(cpm))的具体公式可以为:
步骤d2、计算被测宿主标志基因标准化后的cpm值,用于后序预测;
步骤d3、将被测宿主标志基因标准化后的cpm值输入第一判定模型进行预测,得到被测宿主下呼吸道感染概率。
通过上述方法,可以快速并较为准确地得到被测宿主下呼吸道感染概率。
在一种可行的实施方式中,所述数据采集模块还包括第二采集单元,用于记录被测宿主的免疫抑制状态指标及外周血生化指标;
所述判定模型单元还包括第二判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标进行训练;所述第二判定模型的训练方法与所述第一模型的训练方法类似;
所述数据处理模块还包括微生物序列提取单元、病原体分析单元:
所述微生物序列提取单元,用于从所述RNA测序总序列中提取各种病原体序列;
所述病原体分析单元,基于被测宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标,通过第二判定模型,预测被测宿主下呼吸道感染病原体的种类及其概率。
通过上述系统,还可以快速预测出被测宿主下呼吸道感染病原体的种类及其概率。
在一种可行的实施方式中,所述外周血生化指标包括白细胞、中性粒细胞、淋巴细胞、病丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、白蛋白、肌酐、C反应蛋白(C-reactive protein,CRP),降钙素原(procaicitonin,PCT)等。
在一种可行的实施方式中,所述微生物序列提取单元的具体提取过程包括:
步骤e1、对于RNA测序总序列经宿主序列提取单元提取后剩余的reads,通过宏基因组注释工具,例如kraken2,比对至病原微生物基因组序列信息数据库中;
步骤e2、获取细菌、病毒、真菌等不同微生物的序列数目;
步骤e3、忽略序列数目低于预设下限(例如100)的微生物种类,剩余n种微生物视为所有微生物,以便兼顾比对的非特异性;
步骤e4、计算第i种微生物在标准化后的丰度值nor_abun(i),其具体公式可以为:
步骤e5、计算细菌、病毒、真菌等不同微生物总丰度,即鉴定出的所有微生物丰度之和,其具体公式可以为:
通过上述步骤,可以从RNA测序总序列中快速提取出各种病原体序列并计算得到其丰度值,以便后续处理。
在一种可行的实施方式中,所述数据采集模块还包括第三采集单元,用于记录被测宿主身体数据;
所述判定模型单元还包括第三判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因序列、病原体序列、宿主血液生化指标、宿主身体数据及预后情况进行训练;所述第三判定模型的训练方法与所述第一判定模型的训练方法类似;
所述数据处理模块还包括预后风险单元,基于被测宿主的标志基因序列、病原体序列、血液生化指标及身体数据,通过第三判定模型,预测被测宿主的预后情况概率。
通过上述系统,还可以快速预测出被测宿主的预后情况概率。
在一种可行的实施方式中,所述身体数据包括年龄、身体质量指数(BMI)、基础疾病、免疫抑制等。
在一种可行的实施方式中,所述预后情况包括感染扩大、感染稳定、感染减小、感染消除等。
第二方面,基于相同的发明构思,本申请还提供了一种基于宿主序列信息的下呼吸道感染概率预测装置,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以实现如上所述的任一一种基于宿主序列信息的下呼吸道感染概率预测系统,所述总线连接各功能部件之间传送信息。
采用上述技术方案,本发明具有如下有益效果:
本发明提供的基于宿主序列信息的下呼吸道感染概率预测系统及装置,利用宿主序列信息进行基因转录水平分析,通过由标志基因构建的机器学习模型进行计算,可快速有效地预测下呼吸道病原体感染情况。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于宿主序列信息的下呼吸道感染概率预测系统图;
图2为本发明实施例提供的第一判定模型训练方法流程图;
图3为本发明实施例提供的感染状态单元的预测过程流程图;
图4为本发明又一实施例提供的基于宿主序列信息的下呼吸道感染概率预测系统图;
图5为本发明又一实施例提供的基于宿主序列信息的下呼吸道感染概率预测系统图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
为了更好的理解本发明各实施例,先就本发明具体构思简介如下:
为了解决背景技术中出现的技术问题,本发明根据免疫反应原理,依据现有技术中剔除不用的宿主基因序列,经过模型训练比对,筛选最能够反映抗感染免疫反应的标志基因,以其为识别特征构建出可以预测下呼吸道感染概率的机器学习模型,从而实现快速、有效预测下呼吸道感染概率的目的。
下面结合具体的实施方式对本发明做进一步的解释说明。
还需要说明的是,下述具体实施例或具体实施方式,是本发明为进一步解释具体的发明内容而列举的一系列优化的设置方式,而这些设置方式之间均是可以相互结合或者相互关联使用的。
实施例一:
如图1所示,本实施例提供的一种基于宿主序列信息的下呼吸道感染概率预测系统,包括数据采集模块、数据处理模块、结果生成模块:
所述数据采集模块,包括第一采集单元,用于采集被测支气管肺泡灌洗液样本的RNA测序总序列;
所述数据处理模块,包括宿主序列提取单元、判定模型单元、感染状态单元:
所述宿主序列提取单元,用于从所述RNA测序总序列中提取被测宿主的基因序列;
所述判定模型单元,存储第一判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因进行训练;所述标志基因是指参与抗感染免疫反应的宿主基因;
所述感染状态单元,基于被测宿主的基因序列,通过第一判定模型,预测被测宿主下呼吸道感染概率;
所述结果生成模块,用于将上述预测结果外发。
通过上述系统,利用下呼吸道感染诱发宿主免疫反应的特性,更准确地对下呼吸道感染状态进行判定,并通过机器学习模型,快速预测出被测宿主下呼吸道感染概率。所述免疫反应的原理,是当病原体感染呼吸道细胞时,上皮细胞会使用其表面上的受体来识别并结合病原体,或通过识别病原体的信号分子进行感知,在感知到病原体信号后,这些细胞会上调抗感染免疫通路(如IFN通路、NF−kB信号通路)与细胞因子及受体互通,此时,感染部位细胞释放的细胞因子和趋化因子可以吸引其他免疫细胞到达感染部位并激活免疫反应,而未发生呼吸道感染的宿主体内不会激发这些抗感染免疫反应。
进一步地,所述第一采集单元的源数据制作过程包括:
步骤a1、获取被测支气管肺泡灌洗液样本;
步骤a2、提取样本中的总RNA;
步骤a3、将总RNA片段化后,通过随机引物反转录成cDNA后,在cDNA两端加上测序接头,得到RNA测序文库;
步骤a4、将RNA测序文库定量处理后,按比例稀释,再通过高通量测序方法进行测序,保证至少2千万条序列,得到源数据。所述比例为满足高通量测序方法要求的稀释比例;所述高通量测序方法,属于现有技术,能一次并行对几十万到几百万条DNA分子进行序列测定。
通过上述采集方法,可以从被测支气管肺泡灌洗液样本采集并处理得到可用的基因序列,以便后续处理。
进一步地,所述宿主序列提取单元的具体提取过程包括:
步骤b1、对RNA测序总序列进行质量控制筛选,控制标准包括序列的长度不低于45bp、碱基平均质量值不低于25、可用数据量不低于20M reads;
步骤b2、通过RNA对比工具HISAT2,将mNGS数据比对到人类基因组序列信息数据库(GRCh38.p13)的参考基因组上,工具参数选择默认值,得到宿主的基因序列;
步骤b3、通过转录组定量工具featurecounts,计算每个基因比对到的reads数目;
步骤b4、根据reads数目,去除低丰度基因的表达信息,例如60%以上感染宿主都不表达的基因,以便保留高丰度基因的表达信息;
步骤b5、计算高丰度基因在每百万reads中匹配的reads数目,即cpm值;
其中,cpm值的具体公式可以为:
步骤b6、对高丰度基因的cpm值进行标准化处理,例如取log2对数,获得标准化后的cpm值(即log2(cpm)),以便缩小数据范围;
标准化后的cpm值(即log2(cpm))的具体公式可以为:
通过上述步骤,可以从所述RNA测序总序列中提取快速提取出被测宿主的高丰度基因序列并计算得到其cpm值以及log2(cpm)值,以便后续分析计算。
进一步地,如图2所示,所述第一判定模型的训练方法包括:
步骤c1、采集若干组已知感染宿主与非感染宿主的支气管肺泡灌洗液样本;分别提取其中的总RNA;将总RNA片段化后,通过随机引物反转录成cDNA后,两端加上测序接头,得到RNA测序文库;将RNA测序文库定量处理后,按比例稀释,再通过高通量测序方法进行测序后分类存储于数据库中;
步骤c2、通过差异表达分析工具edgeR,对数据库中感染宿主与非感染宿主的RNA测序总序列进行标准化鉴定,得到差异表达基因;鉴定标准为表达信息量差异的倍数,例如2倍以上;以便得到参与抗感染免疫反应的宿主基因;
步骤c3、利用python 3.7中的scikit-learn模块构建第一判定模型的基础模型,即随机森林模型,将约350个差异表达基因作为特征输入该基础模型;定义标签,将感染宿主编码为1、将未感染宿主编码为0;定义预测结果为感染概率;通过包装法(RFE法)筛选出对模型预测效果最佳的11个基因作为标志基因;所述包装法属于现有技术,是基于hold-out方法,对于每一个待选的特征子集,都在训练集上训练一遍模型,然后在测试集上根据误差大小选择出最优的特征子集;
步骤c4、将标志基因作为识别特征加入至第一判定模型,通过网格搜索方法GridSearchCV,寻优计算得到最佳参数组合,具体可以为:n_estimators=80,random_state=51,max_depth=9;这样训练集可以使模型达到85.83%的预测准确性,测试集可以使模型达到80.67%的预测准确性。
通过上述方法,可以训练得到合格的第一判定模型。
进一步地,所述标志基因的组合为HBA2、HLA-B、 RP11-867O8.9、S100P、OSM、PROK2、SPOCD1、TGM2、ALOX15B、CD40LG、PRSS33,经前述方法测试,这些基因参与宿主的抗感染免疫反应,可以更准确地反映宿主的感染状态,11种基因的具体信息如下表所示:
接下表
进一步地,如图3所示,所述感染状态单元的预测过程包括:
步骤d1、基于被测宿主高丰度基因的reads数目,约20418个,计算其标准化后的cpm值(即log2(cpm));
其中,cpm值的具体公式可以为:
标准化后的cpm值(即log2(cpm))的具体公式可以为:
步骤d2、计算被测宿主标志基因标准化后的cpm值(即log2(cpm)),用于后序预测;
特别的,若被测宿主的支气管肺泡灌洗液样本中所有基因log2(cpm)值的中位数小于1,则认为该样本基因的覆盖度过低,不适用于第一判定模型;
步骤d3、将被测宿主标志基因标准化后的cpm值输入第一判定模型的每一个分类器中分别进行预测,集成所有分类器的预测结果后,得到被测宿主下呼吸道感染概率。
通过上述方法,可以快速并较为准确地得到被测宿主下呼吸道感染概率。
进一步地,所述数据采集模块还包括第二采集单元,用于记录被测宿主的免疫抑制状态指标及外周血生化指标;
实施例二:
如图4所示,判定模型单元还可以包括第二判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标进行训练;所述第二判定模型的训练方法与所述第一模型的训练方法类似,特别的,将病原体的种类及其概率作为预测结果;
所述数据处理模块还包括微生物序列提取单元、病原体分析单元:
所述微生物序列提取单元,用于从所述RNA测序总序列中提取各种病原体序列;
所述病原体分析单元,基于被测宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标,通过第二判定模型,预测被测宿主下呼吸道感染病原体的种类及其概率。
通过上述系统,还可以快速预测出被测宿主下呼吸道感染病原体的种类及其概率。
进一步地,所述外周血生化指标包括白细胞、中性粒细胞、淋巴细胞、病丙氨酸氨基转移酶(ALT)、天冬氨酸氨基转移酶(AST)、白蛋白、肌酐、C反应蛋白(C-reactiveprotein,CRP),降钙素原(procaicitonin,PCT)等。
进一步地,所述微生物序列提取单元的具体提取过程包括:
步骤e1、对于RNA测序总序列经宿主序列提取单元提取后剩余的reads,通过宏基因组注释工具,例如kraken2,比对至病原微生物基因组序列信息数据库中;
步骤e2、获取细菌、病毒、真菌等不同微生物的序列数目;
步骤e3、忽略序列数目低于100的微生物种类,剩余n种微生物视为所有微生物,以便兼顾比对的非特异性;
步骤e4、计算第i种微生物在标准化后的丰度值nor_abun(i),其具体公式可以为:
步骤e5、计算细菌、病毒、真菌等不同微生物总丰度,即鉴定出的所有微生物丰度之和,其具体公式可以为:
通过上述步骤,可以从RNA测序总序列中快速提取出各种病原体序列并计算得到其丰度值,以便后续处理。
实施例三:
如图5所示,数据采集模块还包括第三采集单元,用于记录被测宿主身体数据;
所述判定模型单元还包括第三判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因序列、病原体序列、宿主血液生化指标、宿主身体数据及预后情况进行训练;所述第三判定模型的训练方法与所述第一判定模型的训练方法类似,特别的,将预后情况概率作为预测结果;
所述数据处理模块还包括预后风险单元,基于被测宿主的标志基因序列、病原体序列、血液生化指标及身体数据,通过第三判定模型,预测被测宿主的预后情况概率。
通过上述系统,还可以快速预测出被测宿主的预后情况概率。
进一步地,所述身体数据包括年龄、身体质量指数(BMI)、基础疾病及免疫抑制,这样可以在特征识别中兼顾被测宿主的身体状态数据。
进一步地,所述预后情况包括感染扩大、感染稳定、感染减小及感染消除,这样可以对预后情况的不同感染发展方向进行预测。
实施例四:
基于相同的发明构思,本申请还提供了一种基于宿主序列信息的下呼吸道感染概率预测装置,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以实现如上所述的任一一种基于宿主序列信息的下呼吸道感染概率预测系统,所述总线连接各功能部件之间传送信息。
本方案在又一种实施方式下,可以通过设备的方式来实现,该设备可以包括执行上述各个实施方式中各个或几个步骤的相应模块。模块可以是专门被配置为执行相应步骤的一个或多个硬件模块、或者由被配置为执行相应步骤的处理器来实现、或者存储在计算机可读介质内用于由处理器来实现、或者通过某种组合来实现。
处理器执行上文所描述的各个方法和处理。例如,本方案中的方法实施方式可以被实现为软件程序,其被有形地包含于机器可读介质,例如存储器。在一些实施方式中,软件程序的部分或者全部可以经由存储器和/或通信接口而被载入和/或安装。当软件程序加载到存储器并由处理器执行时,可以执行上文描述的方法中的一个或多个步骤。备选地,在其它实施方式中,处理器可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述方法之一。
该设备可以利用总线架构来实现。总线架构可以包括任何数量的互连总线和桥接器,这取决于硬件的特定应用和总体设计约束。总线将包括一个或多个处理器、存储器和/或硬件模块的各种电路连接到一起。总线还可以将诸如外围设备、电压调节器、功率管理电路、外部天线等的各种其它电路连接。
总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,ExtendedIndustry Standard Component)总线等,总线可以分为地址总线、数据总线、控制总线等。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.基于宿主序列信息的下呼吸道感染概率预测系统,其特征在于,包括数据采集模块、数据处理模块、结果生成模块:
所述数据采集模块,包括第一采集单元,用于采集被测支气管肺泡灌洗液样本的RNA测序总序列;
所述数据处理模块,包括宿主序列提取单元、判定模型单元、感染状态单元:
所述宿主序列提取单元,用于从所述RNA测序总序列中提取被测宿主的基因序列;
所述判定模型单元,存储第一判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因进行训练;所述标志基因是指参与抗感染免疫反应的宿主基因;
所述感染状态单元,基于被测宿主的基因序列,通过第一判定模型,预测被测宿主下呼吸道感染概率;
所述结果生成模块,用于将上述预测结果外发。
2.根据权利要求1所述的系统,其特征在于,所述第一采集单元的源数据制作过程包括:
步骤a1、获取被测支气管肺泡灌洗液样本;
步骤a2、提取样本中的总RNA;
步骤a3、将总RNA片段化,通过随机引物反转录成cDNA后,在cDNA两端加上测序接头,得到RNA测序文库;
步骤a4、将RNA测序文库定量处理,按比例稀释后再进行测序,得到源数据。
3.根据权利要求1所述的系统,其特征在于,所述标志基因包括HBA2、HLA-B、RP11-867O8.9、S100P、OSM、PROK2、SPOCD1、TGM2、ALOX15B、CD40LG、PRSS33的任意一种组合。
4.根据权利要求3所述的系统,其特征在于,所述标志基因的组合为HBA2、HLA-B、RP11-867O8.9、S100P、OSM、PROK2、SPOCD1、TGM2、ALOX15B、CD40LG及PRSS33。
5.根据权利要求1所述的系统,其特征在于,所述宿主序列提取单元的具体提取过程包括:
步骤b1、对RNA测序总序列进行质量控制筛选;
步骤b2、通过RNA对比工具,将mNGS数据比对到人类基因组序列信息数据库的参考基因组上,得到宿主的基因序列;
步骤b3、通过转录组定量工具,计算每个基因比对得到的读长数目;
步骤b4、根据读长数目,筛选出高丰度基因的表达信息;
步骤b5、计算高丰度基因在每百万读长中匹配的读长数目;
步骤b6、对高丰度基因的表达信息数值进行标准化处理。
6.根据权利要求5所述的系统,其特征在于,所述第一判定模型的训练方法包括:
步骤c1、采集若干组已知感染宿主与非感染宿主的支气管肺泡灌洗液样本;分别提取其中的总RNA;将总RNA片段化后,通过随机引物反转录成cDNA后,在cDNA两端加上测序接头,得到RNA测序文库;将RNA测序文库定量处理后,按比例稀释,再进行测序后分类存储于数据库中;
步骤c2、通过差异表达分析工具,对数据库中感染宿主与非感染宿主的RNA测序总序列进行标准化鉴定,得到差异表达基因;
步骤c3、将差异表达基因作为特征输入至第一判定模型的基础模型;定义标签;定义预测结果;通过包装法筛选出对模型预测效果最佳的基因作为标志基因;
步骤c4、将标志基因作为识别特征加入至第一判定模型,通过网格搜索方法,寻优计算得到最佳模型参数组合。
7.根据权利要求6所述的系统,其特征在于,所述感染状态单元的预测过程包括:
步骤d1、基于被测宿主高丰度基因的reads数目,计算其标准化后的cpm值;
其中,cpm值具体公式为:
标准化后的cpm值具体公式为:
步骤d2、计算被测宿主标志基因标准化后的cpm值;
步骤d3、将被测宿主标志基因标准化后的cpm值输入第一判定模型进行预测,得到被测宿主下呼吸道感染概率。
8.根据权利要求1所述的系统,其特征在于,所述数据采集模块还包括第二采集单元,用于记录被测宿主的免疫抑制状态指标及外周血生化指标;
所述判定模型单元还包括第二判定模型,该模型通过数据库中感染宿主与未感染宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标进行训练;
所述数据处理模块还包括微生物序列提取单元、病原体分析单元:
所述微生物序列提取单元,用于从所述RNA测序总序列中提取各种病原体序列;
所述病原体分析单元,基于被测宿主的标志基因序列、病原体序列、免疫抑制状态指标及外周血生化指标,通过第二判定模型,预测被测宿主下呼吸道感染病原体的种类及其概率。
9.根据权利要求8所述的系统,其特征在于,所述微生物序列提取单元的具体提取过程包括:
步骤e1、对于RNA测序总序列经宿主序列提取单元提取后剩余的读长,通过宏基因组注释工具,比对至病原微生物基因组序列信息数据库中;
步骤e2、获取各种微生物的序列数目;
步骤e3、忽略序列数目低于预设下限的微生物种类,剩余n种微生物视为所有微生物;
步骤e4、计算第i种微生物在标准化后的丰度值nor_abun(i),其具体公式为:
步骤e5、计算微生物总丰度,即鉴定出的所有微生物丰度之和,其具体公式为:
10.基于宿主序列信息的下呼吸道感染概率预测装置,其特征在于,包括处理器、存储器及总线,所述存储器存储可由处理器读取的指令及数据,所述处理器用于调用所述存储器中的指令及数据,以实现如权利要求1~9中任一所述的系统,所述总线连接各功能部件之间传送信息。
CN202310870853.XA 2023-07-17 2023-07-17 基于宿主序列信息的下呼吸道感染概率预测系统及装置 Active CN116598005B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310870853.XA CN116598005B (zh) 2023-07-17 2023-07-17 基于宿主序列信息的下呼吸道感染概率预测系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310870853.XA CN116598005B (zh) 2023-07-17 2023-07-17 基于宿主序列信息的下呼吸道感染概率预测系统及装置

Publications (2)

Publication Number Publication Date
CN116598005A true CN116598005A (zh) 2023-08-15
CN116598005B CN116598005B (zh) 2023-10-03

Family

ID=87604848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310870853.XA Active CN116598005B (zh) 2023-07-17 2023-07-17 基于宿主序列信息的下呼吸道感染概率预测系统及装置

Country Status (1)

Country Link
CN (1) CN116598005B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108949909A (zh) * 2018-07-17 2018-12-07 厦门生命互联科技有限公司 一种用于基因检测的血小板核酸文库构建方法和试剂盒
US20210142865A1 (en) * 2017-06-30 2021-05-13 Nec Corporation Prediction device, gene estimation device, prediction method, and non-transitory recording medium
CN114107454A (zh) * 2020-08-28 2022-03-01 上海交通大学医学院附属上海儿童医学中心 基于宏基因/宏转录组测序的呼吸道感染病原检测方法
WO2022140302A1 (en) * 2020-12-21 2022-06-30 Karius, Inc. Sequencing microbial cell-free nucleic acids to detect inflammation, secondary infection, and disease severity
CN114854847A (zh) * 2022-05-23 2022-08-05 深圳华大基因股份有限公司 构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法
CN115537462A (zh) * 2022-10-13 2022-12-30 深圳市儿童医院 一种同时检测病原菌和宿主基因表达量的测序方法及在细菌性脑膜炎诊断和预后中的应用

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210142865A1 (en) * 2017-06-30 2021-05-13 Nec Corporation Prediction device, gene estimation device, prediction method, and non-transitory recording medium
CN108949909A (zh) * 2018-07-17 2018-12-07 厦门生命互联科技有限公司 一种用于基因检测的血小板核酸文库构建方法和试剂盒
CN114107454A (zh) * 2020-08-28 2022-03-01 上海交通大学医学院附属上海儿童医学中心 基于宏基因/宏转录组测序的呼吸道感染病原检测方法
WO2022140302A1 (en) * 2020-12-21 2022-06-30 Karius, Inc. Sequencing microbial cell-free nucleic acids to detect inflammation, secondary infection, and disease severity
CN114854847A (zh) * 2022-05-23 2022-08-05 深圳华大基因股份有限公司 构建鉴定感染性疾病和非感染性疾病的机器学习模型的方法
CN115537462A (zh) * 2022-10-13 2022-12-30 深圳市儿童医院 一种同时检测病原菌和宿主基因表达量的测序方法及在细菌性脑膜炎诊断和预后中的应用

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BIO_INFOR: "单细胞3\'mRNA测序数据与CPM、RPKM及FPKM之间的联系", pages 1 - 2, Retrieved from the Internet <URL:https://www.jianshu.com/p/caf078f4cef1> *
MENGWEI YAN ET AL.: "Metagenomic next-generation sequencing (mngs) of bronchoalveolar lavage fluid on antimicrobial stewardship in patients with lower respiratory tract infections (lrtis): a retrospective cohort study", 《THE JOURNAL OF INFECTIOUS DISEASES》, pages 1 - 15 *
赵霞 等: "通过RNA-seq初步考察铜绿假单胞菌噬菌体PaP3对宿主转录组的全局性调控", 免疫学杂志, vol. 29, no. 04, pages 277 - 284 *
陈洪波: "副猪嗜血杆菌感染:宿主免疫应答模型与巨噬细胞活化", 畜牧兽医学报, vol. 46, no. 01, pages 1 - 9 *

Also Published As

Publication number Publication date
CN116598005B (zh) 2023-10-03

Similar Documents

Publication Publication Date Title
Khosravi et al. Deep convolutional neural networks enable discrimination of heterogeneous digital pathology images
Zinter et al. Towards precision quantification of contamination in metagenomic sequencing experiments
Boguski et al. Biomedical informatics for proteomics
US8676510B2 (en) Clinical-result confirming device, clinical-result confirming method, and computer program therefor
US20160110496A1 (en) Methods for Classifying Samples Based on Network Modularity
EP2771451A1 (en) Selection of preferred sample handling and processing protocol for identification of disease biomarkers and sample quality assessment
WO2020092211A1 (en) Methods for sample quality assessment
Willis Rigorous statistical methods for rigorous microbiome science
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
CN116598005B (zh) 基于宿主序列信息的下呼吸道感染概率预测系统及装置
CN113393902A (zh) 基于免疫表征技术对样本分类的方法、装置及存储介质
CN113724779B (zh) 基于机器学习技术的SNAREs蛋白识别方法、系统、存储介质及设备
CN115700557A (zh) 一种用于对核酸样本进行分类的方法、设备和存储介质
CN116994647A (zh) 用于分析变异检测结果的模型的构建方法
Leote et al. Regulatory network-based imputation of dropouts in single-cell RNA sequencing data
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质
CN114150059B (zh) Mcm3相关乳腺癌生物标志物试剂盒、诊断系统及其相关应用
Mapiye et al. Phenotype Prediction of DNA Sequence Data: A Machine-and Statistical Learning Approach
CN113488107B (zh) 筛选免疫组库测序生物标志物的方法、设备和存储介质
US20220028498A1 (en) Methods and systems for high-throughput pathogen testing
CN114882944A (zh) 基于Metagenome测序的肠道微生物样品宿主性别鉴定方法、装置及应用
US20230116904A1 (en) Selecting a cell line for an assay
Lu An embedded method for gene identification in heterogenous data involving unwanted heterogeneity
CN116705159A (zh) 甲基化标志物的筛选方法、识别甲基化特征的方法和装置
CN115691653A (zh) 药物毒性预测模型的训练方法及装置、药物毒性预测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant