CN111206079B - 基于微生物组测序数据和机器学习算法的死亡时间推断方法 - Google Patents

基于微生物组测序数据和机器学习算法的死亡时间推断方法 Download PDF

Info

Publication number
CN111206079B
CN111206079B CN201911303424.4A CN201911303424A CN111206079B CN 111206079 B CN111206079 B CN 111206079B CN 201911303424 A CN201911303424 A CN 201911303424A CN 111206079 B CN111206079 B CN 111206079B
Authority
CN
China
Prior art keywords
death
time
samples
otu
otus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911303424.4A
Other languages
English (en)
Other versions
CN111206079A (zh
Inventor
王振原
刘睿娜
徐纪茹
沈明望
顾玥茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201911303424.4A priority Critical patent/CN111206079B/zh
Publication of CN111206079A publication Critical patent/CN111206079A/zh
Application granted granted Critical
Publication of CN111206079B publication Critical patent/CN111206079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于微生物组测序数据和机器学习算法的死亡时间推断方法,以提取自小鼠尸体的盲肠样本中的DNA为模板,针对微生物的16S rDNA设计引物进行PCR扩增,利用扩增产物建立基因文库并测序。对有效测序数据进行OTUs聚类和物种分类分析。基于物种的丰度分布情况去除相对丰度及组间方差变化小的物种分类,提取得到用来建立死亡时间推断模型的特征微生物种类,利用小鼠死亡后不同时间点的样本微生物丰度数据训练人工神经网络,得到可以准确预测死亡时间的数学模型。

Description

基于微生物组测序数据和机器学习算法的死亡时间推断方法
技术领域
本发明属于医学检验领域,特别涉及一种推断死后间隔时间的方法。
背景技术
死亡时间(postmortem interval,PMI)通常指的是死亡发生时至尸体检验时的时间跨度,也可以称为死后间隔时间或死后经历时间。准确地推断PMI可以协助办案人员确定侦查方向、确认或排除犯罪嫌疑人、估计案发时间以及重建犯罪现场。此外,PMI推断在某些民事纠纷如保险理赔、财产纠纷等案件中也扮演着极其重要的角色。
微生物结构简单、生长和繁殖更为迅速;同时,很大一部分微生物群落为机体死前自身携带的,所以初始种群受外界因素干扰较小。在高通量测序技术不断发展及推动下,微生物组学的研究也越来越深入,国内外研究学者发现,在机体死亡后微生物群落会出现可重复的、与环境及时间相关的动态变化,因此可以用于PMI的推断。
目前已有一些有关尸体微生物集聚、变迁规律的探索性研究,并有学者提出可以将零散的人体死后微生物组研究逐渐扩展到人体死后微生物组计划(human postmortemmicrobiome project,HPMP),即是对整个尸体内部和外部整个微生物群落的演替过程开展研究,通过大数据的方式分析数亿万计微生物的入侵、定植、繁殖和死亡规律,阐明微生物群落组成的时空变化情况。
随着PMI推断研究的不断深入,多影响因素的参与以及多方法、多指标的联合应用,势必产生海量数据。尤其是运用多组学的方法产生的数以百万或千万级数据变量,而且不同变量之间又有着复杂的关系,以至于难以用传统的数学模型加以分析。
近些年国外研究学者尝试将死后微生物组学数据结合k-neighbors regressor模型进行死亡时间推断,但是其在死亡后15天内推测误差达到两天左右。这一结果使得将其模型应用到法医病理学检案的实践中还有很大距离,目前亟待提出一种推断死亡时间的方法,以降低死亡时间推断的误差。
中国专利CN110241190A提出了一种获得小鼠死亡时间间隔的方法,建立了5个在不同分类水平的微生物相对丰度与死亡时间的线性回归方程。但是其仍旧采用了目前通行的先分析相关微生物,再建立特定微生物与死亡间隔时间关系的模型,选择微生物的标准没有泛用性,且筛选出的五类微生物都在门、纲、目及属的水平;同时,取样时间间隔也较为宽泛,降低了预测结果的可信度。其次,该专利采用的数学模型是一元线性回归模型,难以避免生物体死后尸体组织微生物构成及丰度复杂多样的变化对预测模型准确性、有效性的影响,制约了其实际应用。
发明内容
本发明的目的在于提供一种基于微生物组测序数据和机器学习算法的死亡时间推断方法。
为达到上述目的,本发明采用了以下技术方案:
该死亡时间推断方法,包括以下步骤:
1)提取人或动物死亡后不同时间点采集的个体尸体组织的样本中所含DNA,以该DNA为模板,通过PCR扩增包含微生物种属特征序列的目的片段,以不同时间点(例如,死后0小时、8小时、12小时、1天、2天、4天、7天、10天、13天,及15天)采集的同一类别组织的样本所对应的扩增目的片段建立基因文库并进行目的片段测序;
2)根据目的片段的序列相似性对不同时间点采集的样本分别进行OTU聚类,获得所有样本中所含DNA的OTU分类和各类OTU对应的相对丰度数据,根据各OTU对应的相对丰度,以在所有样本中稳定存在且随时间变化为原则,筛选获得用于建立死亡时间推断数学模型的特征分类集合;
3)依据所述特征分类集合建立样本数据集,利用该样本数据集对基于人工神经网络的死亡时间-特征分类回归模型进行训练,得到死亡时间推断数学模型。
优选的,所述死亡时间推断方法还包括以下步骤:对待测个体(与训练模型时的个体同物种)的尸体中与所述尸体组织具有相同类别的组织进行DNA提取,然后利用提取的DNA并按照步骤1)(扩增和测序)和步骤2)(聚类和筛选)获得针对该组织的OTU分类,将获得的各OTU的对应相对丰度输入所述死亡时间推断数学模型,得到待测个体的死亡时间预测结果(即输出待测个体的死亡时间推断结果)。
优选的,所述尸体组织的类别选自肠道(例如,盲肠)、脑或心脏。
优选的,所述目的片段包含16S rDNA中V3和V4可变区的基因序列。
优选的,所述步骤2)中,特征分类的筛选包括以下步骤:首先,去除在各时间点采集获得的60%以上样本中相对丰度为0的OTU,然后去除在所有样本中相对丰度低于3的OTU,最后去除在不同时间点的样本间相对丰度的方差最小的20%所对应的OTU,得到第一特征分类集合。
优选的,所述特征分类的筛选还包括以下步骤:对于第一特征分类集合,从其中通过人工智能机器学习算法选择特征分类子集,通过在每个机器学习的算法模型上重复运行多次,计算所选择的OTU的秩的加和结果,按照秩的加和结果对不同机器学习算法选择的OTU进行排序,从排序最高的OTU开始,根据选取的不同数量的OTU分别建立样本数据集,并通过人工神经网络计算各样本数据集的预测结果的平均绝对误差,利用平均绝对误差取得最小值时所选取的OTU构建第二特征分类集合。
优选的,所述机器学习算法包括支持向量机和随机森林模型。
优选的,通过对各类OTU进行微生物种属注释,使得用于建立死亡时间推断数学模型的特征具体化为微生物的种。
优选的,所述微生物的种包括Clostridium cochlearium、Anaerosalibacterbizertensis、Clostriduim tetani E88、Anaerosalibacter massiliensis和Vagococcusfluvialis。
本发明的有益效果体现在:
本发明将基于个体(例如,小鼠等实验用哺乳动物)尸体组织样本不同死亡后时间点的微生物菌群聚类结果(OTUs)参照相对丰度进行筛选,提取得到构建样本数据集的特征分类,以训练样本集训练基于人工神经网络的回归模型,经测试样本集检验,可获得能够准确预测死亡时间的数学模型。本发明可以提高法医学死亡时间推断方法的准确性、有效性。
进一步的,本发明根据聚类结果各自的相对丰度,去除了低相对丰度及组间(分组为不同时间点的组织样本)方差变化小的微生物种,从而提取得到用于建立死亡时间推断数学模型的特征分类集合,可以获得理论上最小的平均绝对误差预测结果。
进一步的,本发明通过应用支持向量机和随机森林模型进一步提取对死亡时间推断模型贡献大的特征分类,并筛选出一系列在死亡后降解过程中变化、且对提高法医学实践中推断死后间隔时间准确性高度相关的微生物种类。
附图说明
图1是本发明实施例中在盲肠(Cecum)、大脑(Brain)和心脏(Heart)三个数据集(原始特征菌种集)上应用人工神经网络(ANN)、随机森林(RF)及支持向量机(SVM)回归模型运行15次时,小鼠死亡时间预测结果平均绝对误差(MAE)值(A)和拟合优度(R2)值(B)。
图2是本发明实施例中建立的人工神经网络模型对死亡时间的预测结果;其中,主图显示了所有检测数据的预测结果,左上方的子图展示了针对主图中死后24小时内死亡时间预测结果,某一观测时间点处左侧柱形为所有特征(指去除低相对丰度及组间方差变化小的微生物种)的预测结果,而右侧柱形则为应用随机森林和支持向量机后所筛选的45个微生物菌种(标志特征菌种)的预测结果,对角线处的数值为小鼠实际死亡时间(预测值越接近对角线,则预测结果越准确)。
具体实施方式
下面结合附图和实施例对本发明作详细说明。所述实施例仅用于解释本发明,而不是对本发明保护范围的限制。
本实施例以小鼠死后间隔时间预测为例,对基于微生物组测序技术和机器学习算法的死亡时间推断方法进行具体说明,该方法同样适用于人或其他哺乳动物尸体。
一、样本DNA采集
以C57BL/6小鼠(n=8~24)死后15天内(10个时间点:0小时、8小时、12小时、1天、2天、4天、7天、10天、13天,及15天)的脏器组织样本(脏器组织类别具体为脑、心脏或盲肠)的基因组DNA为模板,针对微生物的16S rDNA设计引物进行聚合酶链式反应(PCR)扩增,对扩增产物进行琼脂糖凝胶电泳分离、回收DNA目的片段。
(1)采用CTAB法对样本的基因组DNA进行提取,之后利用琼脂糖凝胶电泳检测DNA的纯度和浓度,取适量的DNA样本于离心管中,使用无菌水稀释样本至1ng/μL。
CTAB法提取样品中DNA的步骤如下:1)裂解样品:吸取1000μL CTAB裂解液至2.0mLEP管里,加入20μL溶菌酶,将适量(25mg)的组织样品加入裂解液中,65℃水浴(样品取自脑、心脏或盲肠,水浴1-6小时),期间颠倒混匀数次,以使样品充分裂解。2)离心,取950μL上清,加入与上清等体积的酚(pH=8.0):氯仿:异戊醇(25:24:1),颠倒混匀,12000rpm离心10min。3)取上清,加入等体积的氯仿:异戊醇(24:1),颠倒混匀,12000rpm离心10min。4)吸取上清至1.5mL离心管里,加入上清液3/4体积的异丙醇,上下摇晃,-20℃沉淀。5)12000rpm离心10分钟,倒出液体,注意不要倒出沉淀。用1mL 75%乙醇洗涤2次,剩余的少量液体可再次离心收集,然后用枪头吸出。6)超净工作台吹干或者室温晾干。7)加入51μL ddH2O溶解DNA样品,必要时可于55-60℃下孵育10min助溶。8)加RNaseA 1μL消化RNA,37℃放置15min。
(2)以稀释后的基因组DNA为模板,根据测序区域的选择,使用带Barcode的特异引物、New England Biolabs公司的
Figure BDA0002322453620000041
High-Fidelity PCR Master Mix with GCBuffer,和高效高保真酶进行PCR,确保扩增效率和准确性。
引物序列为:
341F:5’-CCTAYGGGRBGCASCAG-3’
806R:5’-GGACTACNNGGGTATCTAAT-3’
以上引物对针对的是细菌的16S rDNA V3和V4区序列的特异性引物,扩增片段大小约为196bp。
PCR流程为:95℃5min;34个循环的94℃1min,57℃45s,72℃1min;之后72℃10min,16℃5min。
(3)PCR产物的混样和纯化:PCR产物使用2%浓度的琼脂糖凝胶进行电泳检测;根据PCR产物浓度进行等量混样,使得上样的DNA的量在各个样本间保持一致,充分混匀后使用1×TAE浓度2%的琼脂糖胶电泳纯化PCR产物,剪切回收目标条带。产物纯化试剂盒使用的是Thermo Scientific公司GeneJET胶回收试剂盒。
二、文库构建和上机测序
所回收的DNA序列用Thermofisher公司的Ion Plus Fragment Library Kit48rxns建库试剂盒进行文库的构建,构建好的文库经过Qubit定量和文库检测合格后,建立基因文库,使用Thermofisher的Ion S5TMXL进行上机测序。
三、信息分析
上机测序得到的原始数据中存在一定比例的干扰数据(Dirty Data),为了使信息分析的结果更加准确、可靠,首先对原始数据进行拼接、过滤,得到有效数据。然后基于有效数据(DNA序列)按照97%的序列相似度,进行OTUs(Operational Taxonomic Units)聚类。根据OTUs聚类结果表格,对每个OTU的序列做物种注释,得到对应的物种信息(即一个OTU分类对应一个物种分类),根据注释后的OTUs聚类结果,一方面可以进行丰度、Alpha多样性计算、Venn图和花瓣图等分析,以得到基于物种的丰度分布情况,包括样本内物种丰富度和均匀度信息、不同组织的样本或样本分组间(即同一类脏器组织的不同时间点的样本)的共有和特有OTUs信息等。另一方面,可以对OTUs进行多序列比对并构建系统发生树,通过PCoA、PCA、NMDS等降维分析和样本聚类树展示,可以探究不同组织的样本或样本分组间细菌群落结构的差异。为进一步挖掘分组样本间的细菌群落结构差异,选用T-test、Simper、MetaStat、LEfSe、Anosim和MRPP等统计分析方法对分组样本的细菌物种组成和群落结构进行差异显著性检验(具体比较不同分组即时间点间微生物构成是否有显著性差异)。
四、样本数据筛选
针对OTUs聚类结果表格(表格内容为同一类别脏器组织在不同死后时间点分组样本内的各OTU的相对丰度),首先去除低相对丰度的物种分类(具体地,去除在各时间点采集获得的60%样本中相对丰度为0的OTU,然后在表格剩余的OTU中进一步去除在所有样本中相对丰度低于3的OTU),然后去除在样本组间方差变化小的物种分类(具体地,在表格剩余的OTU中进一步去除在样本间相对丰度的方差数值最小的20%所对应的OTU),从而提取得到用来建立死亡时间推断模型的原始特征菌种集(针对盲肠,共提取到891个物种分类)。
五、数据挖掘
本发明使用小鼠死亡后脑、心脏或盲肠组织各自的原始特征菌种集,利用随机森林、支持向量机两种机器学习算法进行特征提取,将提取的特征菌种通过进一步筛选,得到了菌种数量得到有效缩减、同时预测准确性得到有效保证的标志特征菌种(biomarker)集合。
1、利用随机森林对特征进行筛选
在本发明中建立的随机森林模型由回归树组成。对于每棵回归树,候选特征集合从原始特征集合(原始特征菌种集)中随机选择(有放回的从集合中随机选择),并且树在生长过程中,会从该候选特征集合中选择特征作为结点进行分裂。分裂点的选择标准是使得分裂后得到的两个数据集内的平均方差最小。对于随机森林回归问题,森林对样本的预测值是森林中所有树的预测值的平均值。随机森林中,特征fi的重要性由袋外误差得到。
对于每棵回归树tj,通过袋外数据计算其袋外误差e1,ij,随机对特征fi的取值打乱,再次计算袋外误差e2,ij,假设森林中共有n棵树,则特征fi的重要性为:
Figure BDA0002322453620000061
2、利用支持向量机对对特征进行筛选
本发明具体采用十折交叉验证结合SVM-RFE,自适应确定最佳特征数:
1)基于10折交叉验证,将原始训练样本集(原始特征菌种集)划分为10个子集Di(i=1,2,...,10)。每次取其中9个作为训练集,剩余一个为测试集,训练线性支持向量回归模型,分别训练10次。第i次训练取数据集Di为测试集,其余9个数据集组成训练集;
2)基于每一次训练的SVR模型中特征的权重计算特征的重要性。假设第i次训练中,特征j的权重为wij,则该特征的重要性为:
Figure BDA0002322453620000071
每次训练的均方误差为Ei,计算10次训练的平均均方误差作为该特征集(Di)下模型的均方误差;
3)删去重要性最低的特征,得到新的特征集;
4)更新特征列表;
5)重复上述步骤1-步骤4的过程,直到特征列表中无特征;
6)选择平均均方误差最小时的特征集作为最终的特征集。
3、利用人工神经网络对特征集进行筛选
对于以上通过机器学习算法(支持向量机和随机森林模型)选择优化的特征分类集的过程,在每个机器学习的算法模型上运行15次,相应的由特征重要性得到特征的秩,将所有运行结果中对应的特征的秩相加,得到特征的总秩。根据特征的总秩分布挑选最重要的前20个、30个、40个、45个和50个特征产生5个不同的样本数据集,并通过人工神经网络计算经各个样本数据集分别训练后的预测死亡时间的平均绝对误差,选择平均绝对误差取得最小值时所对应的特征集构成标志特征菌种(称为biomarker)集合(针对盲肠,共提取到45个物种分类)。
六、人工神经网络预测模型
在本发明中,使用四层人工神经网络(ANN)回归模型(含有两层隐层)进行预测。输入层含有的神经元数与特征菌种数一致,例如,神经元数取45个时,就是对应于以上筛选得到的45个特征菌种(biomarker)。两个隐层的神经元数分别为23个和12个(参照输入层的45个神经元的设定)。输出层仅含有一个神经元,用于预测小鼠的死亡时间。最后三层(隐层和输出层)使用ReLU激活函数。该模型的损失函数为均方误差函数,优化函数为最小化该模型在训练集上的均方误差。
每个样本数据集(包含取自各时间点不同小鼠同一组织的样本的对应特征菌种的相对丰度,特征菌种规模由以上不同的筛选过程决定,例如,可以是原始特征菌种,也可以是标志特征菌种)均被分成了两部分,其中70%的样本为训练样本,剩下30%的样本为测试样本。回归模型预测结果的准确性由平均绝对误差(MAE)和拟合优度(R2)两个指标共同衡量。
七、预测结果的评价和验证
预测模型在脑、心脏、盲肠样本的数据集上运行15次(每次随机选择样本的70%为训练集,30%为测试集),最终的MAE和R2值取为15次实验结果的平均值。由图1可知,三类组织的不同预测模型中,基于盲肠样本的MAE值(特别是基于人工神经网络预测模型)小于其他两类样本,而R2(特别是基于人工神经网络预测模型)均大于其他两类样本,因此肠道菌群相比于大脑菌群和心脏菌群更具有预测能力。最终,可选择使用肠道菌群中特征菌种并基于人工神经网络预测小鼠的死亡时间。
参见图2,基于人工神经网络的回归模型的预测能力由MAE和R2这两个评价指标衡量。死后15天内预测死亡时间的平均绝对误差为14.5±4.4小时,平均拟合优度R2为0.95±0.03。在死后1天内平均绝对误差为1.5±0.8小时,平均拟合优度R2为0.91±0.08。采用biomarker(45种微生物)的预测结果与采用盲肠组织样本菌落聚类及初步筛选的微生物种(原始891种)的预测结果相比,可以利用更少种类的菌种预测死亡时间,而且biomarker的菌种种类显著减少,仅导致预测能力略有下降,即便如此,预测误差也达到了目前能够获得的最佳结果。
此外,应用支持向量机和随机森林模型并最终筛选出多个对于预测死亡时间具有价值的细菌(例如,针对盲肠样本,在所筛选出的45种特征菌种中):Enterococcusfaecalis、Clostridium cochlearium、Anaerosalibacter bizertensis、Clostriduimtetani E88、Anaerosalibacter massiliensis、Vagococcus fluvialis和Lactobacillusanimals,其中Enterococcus faecalis和Lactobacillus animals已有研究报道其与尸体降解变化有关,而Clostridium cochlearium、Anaerosalibacter bizertensis、Clostriduim tetani E88、Anaerosalibacter massiliensis和Vagococcus fluvialis等细菌种类是本发明首次发现的与死亡时间推断相关的细菌种。同时,基于传统分析微生物特点的方法(即上述步骤三中的生物信息学分析方法),也没有筛选出Clostridiumcochlearium和Vagococcus fluvialis这两个菌种,由此表明本发明所采用的通过机器学习算法筛选与死亡时间相关微生物的技术手段的优越性。
总之,本发明所建立的基于人工神经网络的预测方法可以准确可靠地推断死后间隔时间,可依据尸体组织样本的微生物组测序数据集进行有效的死亡时间推断。
<110> 西安交通大学
<120> 基于微生物组测序数据和机器学习算法的死亡时间推断方法
<160> 2
<210> 1
<211> 17
<212> DNA
<213> 人工合成
<400> 1
cctaygggrb gcascag 17
<210> 2
<211> 20
<212> DNA
<213> 人工合成
<400> 2
ggactacnng ggtatctaat 20

Claims (4)

1.一种死亡时间推断方法,其特征在于:该推断方法包括以下步骤:
1)提取人或动物死亡后不同时间点采集的个体尸体组织的样本中所含DNA,以该DNA为模板,扩增包含微生物种属特征的目的片段,以不同时间点采集的同一类别组织的样本所对应的扩增目的片段建立基因文库并进行目的片段测序;
2)根据目的片段的序列相似性对不同时间点采集的样本分别进行OTU聚类,获得所有样本中所含DNA的OTU分类和各OTU对应的相对丰度数据,根据各OTU对应的相对丰度,以在所有样本中稳定存在且随时间变化为原则,筛选获得用于建立死亡时间推断数学模型的特征分类集合;通过对各类OTU进行微生物种属注释,使得用于建立死亡时间推断数学模型的特征具体化为微生物的种,所述微生物的种包括Clostridium cochlearium、Anaerosalibacter bizertensis、Clostriduim tetani E88、Anaerosalibactermassiliensis和Vagococcus fluvialis;
所述步骤2)中,特征分类的筛选包括以下步骤:首先,去除在各时间点采集获得的60%以上样本中相对丰度为0的OTU,然后去除在所有样本中相对丰度低于3的OTU,最后去除在不同时间点的样本间相对丰度的方差最小的20%所对应的OTU,得到第一特征分类集合;
所述特征分类的筛选还包括以下步骤:对于第一特征分类集合,通过人工智能机器学习算法选择特征分类子集,所述机器学习算法为支持向量机和随机森林模型,通过在每个机器学习的算法模型上重复运行多次,计算所选择的OTU的秩的加和结果,按照秩的加和结果对不同机器学习算法选择的OTU进行排序,从排序最高的OTU开始,根据选取的不同数量的OTU分别建立样本数据集,并通过人工神经网络计算各样本数据集的预测结果的平均绝对误差,利用平均绝对误差取得最小值时所选取的OTU构建第二特征分类集合;
3)依据所述第二特征分类集合建立样本数据集,利用该样本数据集对基于人工神经网络的死亡时间-特征分类回归模型进行训练,得到死亡时间推断数学模型。
2.根据权利要求1所述一种死亡时间推断方法,其特征在于:所述推断方法还包括以下步骤:对待测个体的尸体中与所述尸体组织具有相同类别的组织进行DNA提取,然后利用提取的DNA并按照步骤1)和步骤2)获得针对该组织的OTU分类,将获得的各OTU的对应相对丰度输入所述死亡时间推断数学模型,得到待测个体的死亡时间预测结果。
3.根据权利要求1或2所述一种死亡时间推断方法,其特征在于:所述尸体组织的类别选自肠道、脑或心脏。
4.根据权利要求1或2所述一种死亡时间推断方法,其特征在于:所述目的片段包含16SrDNA中V3和V4可变区的基因序列。
CN201911303424.4A 2019-12-17 2019-12-17 基于微生物组测序数据和机器学习算法的死亡时间推断方法 Active CN111206079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303424.4A CN111206079B (zh) 2019-12-17 2019-12-17 基于微生物组测序数据和机器学习算法的死亡时间推断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303424.4A CN111206079B (zh) 2019-12-17 2019-12-17 基于微生物组测序数据和机器学习算法的死亡时间推断方法

Publications (2)

Publication Number Publication Date
CN111206079A CN111206079A (zh) 2020-05-29
CN111206079B true CN111206079B (zh) 2021-12-28

Family

ID=70786402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303424.4A Active CN111206079B (zh) 2019-12-17 2019-12-17 基于微生物组测序数据和机器学习算法的死亡时间推断方法

Country Status (1)

Country Link
CN (1) CN111206079B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113881787A (zh) * 2020-07-01 2022-01-04 公安部物证鉴定中心 唾液斑中微生物群落结构变化在预测唾液斑迹残留时间中的应用
CN111816258B (zh) * 2020-07-20 2023-10-31 杭州谷禾信息技术有限公司 人体菌群16S rDNA高通量测序物种精确鉴定的优化方法
CN113189249B (zh) * 2021-06-07 2022-10-11 山西医科大学 一种基于uplc-ms技术推断大鼠死亡时间的方法
JP2023006875A (ja) * 2021-06-30 2023-01-18 アニコム ホールディングス株式会社 死亡予測システム及び死亡予測方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101884117B1 (ko) * 2017-03-09 2018-07-31 고려대학교 산학협력단 Rna 분해 양상을 이용한 사후 경과시간 추정방법 및 이에 사용되는 사후 경과시간 추정용 조성물
CN107643255A (zh) * 2017-09-18 2018-01-30 南京晓庄学院 一种无损检测种蛋中后期死胚蛋的方法
CN110241190B (zh) * 2019-06-24 2023-05-02 东华大学 一种获得小鼠死亡时间间隔的方法

Also Published As

Publication number Publication date
CN111206079A (zh) 2020-05-29

Similar Documents

Publication Publication Date Title
CN111206079B (zh) 基于微生物组测序数据和机器学习算法的死亡时间推断方法
Martin et al. Nanopore adaptive sampling: a tool for enrichment of low abundance species in metagenomic samples
Tringe et al. A renaissance for the pioneering 16S rRNA gene
US20140162274A1 (en) Compositions and methods for identifying and comparing members of microbial communities using amplicon sequences
CN112509635A (zh) 针对稳定型冠心病的急性冠脉综合征风险预测方法及装置
CN112289376A (zh) 一种检测体细胞突变的方法及装置
CN112509700A (zh) 稳定型冠心病的风险预测方法及装置
Song et al. Systematic comparisons for composition profiles, taxonomic levels, and machine learning methods for microbiome-based disease prediction
Duygan et al. Recent advances in microbial community analysis from machine learning of multiparametric flow cytometry data
CN114582429A (zh) 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置
Westaway et al. Methods for exploring the faecal microbiome of premature infants: a review
Carrieri et al. A fast machine learning workflow for rapid phenotype prediction from whole shotgun metagenomes
CN113260710A (zh) 用于通过多个定制掺合混合物验证微生物组序列处理和差异丰度分析的组合物、系统、设备和方法
CN114317725B (zh) 克罗恩病生物标志物、试剂盒及生物标志物的筛选方法
Yang et al. Ultrastrain: an NGS-based ultra sensitive strain typing method for Salmonella enterica
CN113930526B (zh) 用于鉴别甲基苯丙胺涉毒人群的方法、组合物及其应用
Salmaso et al. Metabarcoding protocol: Analysis of Bacteria (including Cyanobacteria) using the 16S rRNA gene and a DADA2 pipeline (Version 1)
Guinot et al. Fast computation of genome-metagenome interaction effects
CN115867676A (zh) 细胞群的处理方法和细胞群中所含的基因的分析方法
Bouland et al. Differential dropout analysis captures biological variation in single-cell RNA sequencing data
Jimenez Practical metagenomics: microbiome tutorial with QIIME 2
Harrison et al. Analytical approaches for microbiome research
Choudhury et al. Machine Learning and Bioinformatics Models to Identify Gene Expression Patterns of Glioblastoma Associated with Disease Progression and Mortality
Yue et al. A new approach to testing mediation of the microbiome using the ldm
Yue et al. Testing mediation effects in high-dimensional microbiome data with false discovery rate control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant