CN117316285A - 一种临床病原微生物宏基因组完整性检测方法 - Google Patents
一种临床病原微生物宏基因组完整性检测方法 Download PDFInfo
- Publication number
- CN117316285A CN117316285A CN202311282448.2A CN202311282448A CN117316285A CN 117316285 A CN117316285 A CN 117316285A CN 202311282448 A CN202311282448 A CN 202311282448A CN 117316285 A CN117316285 A CN 117316285A
- Authority
- CN
- China
- Prior art keywords
- genome
- species
- pathogenic microorganism
- integrity
- genomes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 244000000010 microbial pathogen Species 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 38
- 241000894007 species Species 0.000 claims abstract description 115
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 71
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000012216 screening Methods 0.000 claims abstract description 22
- 241000894006 Bacteria Species 0.000 claims abstract description 19
- 230000001580 bacterial effect Effects 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 12
- 244000005700 microbiome Species 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000005516 engineering process Methods 0.000 claims abstract description 6
- 230000002068 genetic effect Effects 0.000 claims abstract description 6
- 241000700605 Viruses Species 0.000 claims description 12
- 241000206602 Eukaryota Species 0.000 claims description 4
- 241000233866 Fungi Species 0.000 claims description 4
- 244000045947 parasite Species 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 230000002538 fungal effect Effects 0.000 claims description 3
- 230000003071 parasitic effect Effects 0.000 claims description 3
- 244000052769 pathogen Species 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000001717 pathogenic effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000012163 sequencing technique Methods 0.000 description 3
- 241000228212 Aspergillus Species 0.000 description 2
- 241000222122 Candida albicans Species 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000700627 Monkeypox virus Species 0.000 description 2
- 241000223960 Plasmodium falciparum Species 0.000 description 2
- 241000589517 Pseudomonas aeruginosa Species 0.000 description 2
- 241000191967 Staphylococcus aureus Species 0.000 description 2
- 229940095731 candida albicans Drugs 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 241001529453 unidentified herpesvirus Species 0.000 description 2
- 108091093088 Amplicon Proteins 0.000 description 1
- 241001225321 Aspergillus fumigatus Species 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 241000223935 Cryptosporidium Species 0.000 description 1
- 241000223936 Cryptosporidium parvum Species 0.000 description 1
- 229940091771 aspergillus fumigatus Drugs 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 210000000349 chromosome Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003344 environmental pollutant Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000002458 infectious effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 231100000719 pollutant Toxicity 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 206010052366 systemic mycosis Diseases 0.000 description 1
- 238000007482 whole exome sequencing Methods 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提供一种临床病原微生物宏基因组完整性检测方法,采集病原微生物的物种信息,通过网络爬虫技术从病原微生物来源网站初步采集临床中病原微生物的物种信息;对病原微生物的物种信息进行校正;从NCBI网站下载数据原核生物ANI计算的统计结果以及数据库;检索病原微生物基因组;对细菌基因组进行过滤;统计过滤之后的细菌基因组的数目;根据统计结果筛选过滤之后的细菌基因组;下载筛选出的病原微生物的全部基因组;不同的微生物的基因组使用不同的预测基因算法;将预测出的基因使用隐马尔可夫模型搜索相似性基因序列,输出比对上的基因的绝对数以及完整性百分比;根据百分比筛选基因组完整性较好的基因组。能够大大降低检测成本,提高检测效率。
Description
技术领域
本申请属于基因检测领域,具体涉及一种临床病原微生物宏基因组完整性检测方法。
背景技术
宏基因组测序(mNGS)在感染性疾病诊断中发挥着重要作用,依靠生物信息学手段对mNGS微生物进行筛选、过滤、比对、物种注释等系统的生物信息学分析,对临床感染疾病的精准诊疗具有重要的指导意义。在分子生物学实验中,基因完整性是极重要的质控指标之一,例如,全基因组测序、全外显子组测序和目标区域扩增子测序等,都要求基因完整,否则实验会面临结果变差甚至失败的风险。然而,现有的基因完整性检测方法普遍存在成本高、效率低等问题。
发明内容
为了解决上述技术问题,本申请提供了一种临床病原微生物宏基因组完整性检测方法。
包括以下步骤:
采集病原微生物的物种信息,其包括以细菌、真菌、寄生虫、病毒为搜索关键字,通过网络爬虫技术从病原微生物来源网站初步采集临床中病原微生物的物种信息,该物种信息包括该物种的中文名称和英文名称;
对病原微生物的物种信息进行校正;
从NCBI网站下载数据原核生物ANI计算的统计结果ANI_report_prokaryotes.txt,病原微生物菌种GenBank数据库的assembly_summary_genbank.txt以及Taxonomy相关数据库;
检索病原微生物基因组;
对细菌基因组进行过滤;
统计过滤之后的细菌基因组的数目;
根据统计结果筛选过滤之后的细菌基因组,其包括按照优先级对原核生物的参考基因组进行筛选过滤、对真菌和寄生虫病原微生物的参考基因组进行筛选过滤以及对病毒病原微生物的参考基因组进行筛选过滤;
下载筛选出的病原微生物的全部基因组;
不同的微生物的基因组使用不同的预测基因算法;
将预测出的基因使用隐马尔可夫模型搜索相似性基因序列,输出比对上的基因的绝对数以及完整性百分比;
根据百分比筛选基因组完整性较好的基因组。
优选的,所述对病原微生物的物种信息进行校正的过程为:
进一步的,所述检索病原微生物基因组的过程为:
以校正病原微生物信息后的种水平的物种分类编号为关键字,使用python字段匹配的原理从GenBank数据库中检索获得的物种分类编号对应的所有参考基因组。
进一步的,所述对细菌基因组进行过滤的过程为:
将从GenBank数据库检索得到的包含全部基因组相关信息的数据框中的″assembly_accession″与NCBI中对所有原核生物ANI计算的统计结果ANI_report_prokaryotes.txt中的″genbank-accession"作为关键字,使用python中的字段匹配函数merge()对assembly_summary_genbank.txt文件和ANI_report_prokaryotes.txt文件进行连接,并使用python语法构建比较运算方法,以保留ANI计算结果与声明的物种一致且最佳匹配的物种与声明的物种一致的基因组。
进一步的,所述统计过滤之后的细菌基因组的数目包括统计每一个物种的全部基因组的数目以及各物种中四个组装水平下基因组的数目,具体为:
以物种分类编号为关键字,使用python中的value_counts()统计关键字出现的次数,从而得到每一个物种的全部基因组的数目;
采用python语法中的参数by设定标签,参数level设定索引的位置并进行分组,提取统计的关键字,再根据关键字使用词频统计函数value_counts()统计该物种中四个组装水平下基因组的数目。
进一步的,所述按照优先级对原核生物的参考基因组进行筛选过滤的过程为:
采用python语法构建比较运算符,以用于判断在NCBI的RefSeq项目分类中参考基因组是否为Reference genome或representative genome,如果是Reference genome或representative genome,则保留该参考基因组;
反之,则采用python语法构建比较运算,以用于判断统计得到的每一个物种的全部基因组的数目;
如果某个病原微生物的全部基因组的数目小于或等于预设条数,则保留全部基因组作为该物种的基因组;
如果该病原微生物下的全部基因组的数目大于预设条数,则取该病原微生物全部基因组数目的5%~15%作为该物种的基因组。
进一步的,所述下载筛选出的病原微生物的全部基因组的过程为:
采用字段匹配方法将筛选出来的全部基因组与病原微生物菌种GenBank数据库的assembly_summary_genbank.txt中的″assembly_accession″列匹配并获取每一个基因组的下载地址,最后得到每一个基因组对应的下载地址列表;
以下载地址列表为输入文件,编写python脚本自动下载基因组;对下载后的基因组进行md5校验,确保文件传输无异常后解压。
进一步的,不同的微生物的基因组使用不同的预测基因算法;针对细菌和病毒的微生物的基因组,采用prodigal的预测基因的算法,针对真核生物,采用metaeuk的预测基因的算法。
进一步的,所述输出比对上的基因的绝对数以及完整性百分比,评估结果包括:
C:多少个基因被覆盖以及覆盖基因占总基因数的百分比,计算公式分别为C=S+D,C%=C/Toal*100%;其中,C为Complete;
S:多少个基因经过比对发现是单拷贝以及单拷贝基因占总基因数的百分比;S%=S/Toal*100%;其中,S为Complete and single-copy;
D:多少个基因经过比对发现包含多拷贝以及多拷贝基因占总基因数的百分比;D%=D/Toal*100%;其中,D为Complete and duplicated;
F:多少个基因经过比对覆盖不完全,只是部分比对上以及部分比对上的基因占总基因数的百分比;F%=F/Toal*100%;其中,F为CFragmented;
M:没有比对结果成功的基因数以及错配基因数占总基因数的百分比;M%=M/Toal*100%;其中,C为Missing;
Total:总共测试的基因条目数,Total=C+F+M;其中,Total为Total groupssearched。
进一步的,根据百分比筛选基因组完整性较好的基因组包括根据C百分比筛选基因组完整性较好的基因组其判断方法为,预先设定完整性满足预设需求的经验值作为阈值;当同一个物种拥有多条基因组时,保留同一个物种的完整性大于等于阈值的基因组,去除完整性不足的基因组;
筛选得到的基因组需要满足以下条件:
种类上:所筛选得到的基因组至少在种及以下水平;
基因组长度:所得到的基因组其组装水平在scaffold及以上,将Scaffolds按照长度排序,由长到短进行加和,总长度达到或者超过Scaffolds总长50%;
基因数:基因组中的基因占该谱系上的物种本身基因总数的大部分。
本申请的上述技术方案,相比现有技术具有以下技术效果:
本申请从国际公共数据库中收集临床中重要的病原微生物的基因组,基于距离矩阵建立系统发育进化树修正标记错误的序列,基于核心基因评估基因组序列的完整性和污染物区域的方式获取到高质量基因组,采用基于marker genes评估基因组序列的方法评估基因组的完整性,能够大大降低检测成本,提高检测效率。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请具体实施方式提供的一种临床病原微生物宏基因组完整性检测方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,本申请提供的一种临床病原微生物宏基因组完整性检测方法包括以下步骤:
步骤100采集病原微生物的物种信息;
以细菌、真菌、寄生虫、病毒为搜索关键字,通过多种网络爬虫技术从CHIFNET中国医院侵袭性真菌病监测网、ABX指南、Uptodate网站、人间传染的病原微生物名录等病原微生物来源网站初步采集临床中重要的病原微生物的物种信息,该物种信息包括该物种的中文名称和英文名称。
例如,具体到种水平的重要病原菌可以为金黄色葡萄球菌(Staphylococcusaureus)、铜绿假单胞菌(Pseudomonas aeruginosa)、烟曲霉(Aspergillus fumigata)、白念珠菌(Candida albicans)、微小隐孢子虫(Cryptosporidium microscopices)、恶性疟原虫(Plasmodium falciparum)、猴痘病毒(Monkeypox Virus)和人疱疹病毒(Human herpesvirus)等。
步骤200对病原微生物的物种信息进行校正;
由于步骤100采集到的病原微生物的名称存在名称变动,格式复杂,病原物种层级不整齐等问题,因此需要对病原微生物的物种信息进行校正。
将步骤100采集到的病原微生物的名称作为关键字,采用聚焦网络爬虫技术在主流文献、词典和权威数据库(主要NCBI中的Taxonomy数据库)中进行检索,得到该病原微生物的名称对应的物种分类编号。
以物种分类编号为关键字对采集到的物种名称是否为物种的科学名称进行校对。
根据物种分类编号和物种的科学名称确定物种的分类学水平,保留在种水平的物种信息。其中,保留的在种水平的物种信息包括物种的科学名称、物种的分类学水平以及病原微生物的名称对应的物种分类编号(species-taxid)。
步骤300获取国际权威的公共数据库中的统计信息;
使用Aspera(ascp命令)从NCBI(National Center for BiotechnologyInformation,美国国家生物信息中心)网站高速下载数据原核生物ANI(AverageNucleotide Identity,平均核苷酸序列相似性)计算的统计结果ANI_report_prokaryotes.txt,病原微生物菌种GenBank数据库的assembly_summary_genbank.txt以及Taxonomy相关数据库。
步骤400检索病原微生物基因组;
以校正病原微生物信息后的种水平的物种分类编号为关键字,使用python字段匹配的原理从GenBank数据库中检索步骤S2中获得的物种分类编号对应的所有参考基因组。
步骤500对细菌基因组进行过滤;
从GenBank数据库检索得到的全部基因组的相关信息保存在包含多列的assembly_summary_genbank.txt文件中,NCBl中对所有原核生物ANI计算的统计结果保存在包含多列的ANI_report_prokaryotes.txt文件中。
将步骤400中从GenBank数据库检索得到的包含全部基因组相关信息的数据框中的″assembly_accession(组装编号)″与NCBI中对所有原核生物ANI计算的统计结果ANI_report_prokaryotes.txt中的″genbank-accession(genbank编号)″作为关键字,使用python中的字段匹配函数merge()对assembly_summary_genbank.txt文件和ANI_report_prokaryotes.txt文件进行连接,并使用python语法构建比较运算方法,以保留ANI计算结果与声明的物种一致且最佳匹配的物种与声明的物种一致的基因组。
步骤600统计过滤之后的细菌基因组的数目;
其包括统计每一个物种的全部基因组的数目以及各物种中四个组装水平下基因组的数目,具体为:
以物种分类编号为关键字,使用python中的value_counts()统计关键字出现的次数,从而得到每一个物种的全部基因组的数目。
统计每一个物种各组装水平下的数目,采用python语法中的参数by设定标签,参数level设定索引的位置并进行分组,提取统计的关键字(每一个物种的四个组装水平),再根据关键字使用词频统计函数value_counts()统计该物种中四个组装水平下基因组的数目。
步骤700根据统计结果筛选过滤之后的细菌基因组,其包括按照优先级对原核生物的参考基因组进行筛选过滤、对真菌和寄生虫病原微生物的参考基因组进行筛选过滤以及对病毒病原微生物的参考基因组进行筛选过滤。
具体地,按照优先级对原核生物的参考基因组进行筛选过滤的过程为:
①采用python语法构建比较运算符,以用于判断在NCBI的RefSeq项目分类中参考基因组是否为Reference genome或representative genome,如果是Reference genome或representative genome,则保留该参考基因组,反之,则进行步骤②;
②采用python语法构建比较运算,以用于判断步骤S6中统计得到的每一个物种的全部基因组的数目;
如果某个病原微生物的全部基因组的数目小于或等于预设条数,则保留该物种的全部基因组作为本次构建数据库时该物种的基因组;
如果该病原微生物下的全部基因组的数目大于预设条数,则取该病原微生物全部基因组数目的5%~15%作为该物种在本次构建数据库中该物种的基因组。
全部基因组数目的5%~15%通过以下方式获得:
按照该参考基因组是否为Reference genome、representative genome,基因组组装水平为Complete Genome水平、Chromosome水平、Scaffold水平、Contig水平的优先级从高到低筛选过滤基因组。
参考基因组的信息存储在一个包含多列的数据表中,例如,第一列为参考基因组的accession号;第二列为RefSeq项目分类信息(包含Reference genome,representativegenome或者不分类的信息,一条基因组只能是其中一种情况);第三列为组装水平(Complete Genome或Chromosome或Scaffold或Contig,一条基因组只能是其中一种情况)。
假设一个物种有100条基因组,预设条数为50。这个物种一共100条基因组已经超过预设条数50,因此,将筛选10条基因组代表该物种的基因组。如:其中一条基因组为GCA_000002135.3,在第二列中RefSeq项目分类信息为Reference genome或者representativegenome,则直接保留基因组,继续根据第三列的组装水平筛选剩余的9条基因组,如果在第二列中RefSeq项目无分类信息,则根据第三列筛选10条基因组。假设该物种CompleteGenome水平的有2条、Chromosome水平的有3条、Scaffold水平的3条、Contig水平92条),则这所选的10条基因组:由2条Complete Genome水平、3条Chromosome水平、3条Scaffold水平,2条contig水平组成。
具体地,对真菌和寄生虫病原微生物的参考基因组进行筛选过滤的过程为:
采用python语法构建比较运算符,以用于判断在NCBI的RefSeq项目分类中该参考基因组是否为Reference genome或representative genome,如果是Reference genome或representative genome,则保留该参考基因组,反之,则过滤;
具体地,对病毒病原微生物的参考基因组进行筛选过滤的过程为:
采用python判断病原微生物的种类,如果该病原微生物是病毒,则保留所有该病毒的所有参考基因组。
步骤800下载筛选出的病原微生物的全部基因组;
采用字段匹配方法将筛选出来的全部基因组与病原微生物菌种GenBank数据库的assembly_summary_genbank.txt中的″assembly_accession"列匹配并获取每一个基因组的下载地址(ftp),最后得到每一个基因组对应的下载地址列表;再以下载地址列表为输入文件,编写python脚本自动下载基因组;对下载后的基因组进行md5校验,确保文件传输无异常后解压。
步骤900不同的微生物的基因组使用不同的预测基因算法
针对细菌和病毒的微生物的基因组,采用prodigal的预测基因的算法预测基因组中的可能存在的基因;针对真核生物,采用metaeuk的预测基因的算法预测真核生物基因组中可能存在的基因;
步骤1000将预测出的基因使用隐马尔可夫模型搜索相似性基因序列,输出比对上的基因的绝对数以及完整性百分比;
将预测出的基因使用隐马尔可夫模型(hmmsearch)搜索相似性基因序列,根据计算过程中的得分判断单拷贝基因是否存在,根据该单拷贝基因家族的长度分布,预测基因出的基因长度必须落在平均长度的两个标准差(±2σ)之间即为完整;
步骤1100根据百分比筛选基因组完整性较好的基因组;
输出比对上的基因的绝对数以及完整性百分比,评估结果包括:
C(Complete):多少个基因被覆盖以及覆盖基因占总基因数的百分比,计算公式分别为C=S+D,C%=C/Toal*100%,;
S(Complete and single-copy):多少个基因经过比对发现是单拷贝以及单拷贝基因占总基因数的百分比;S%=S/Toal*100%
D(Complete and duplicated):多少个基因经过比对发现包含多拷贝以及多拷贝基因占总基因数的百分比;D%=D/Toal*100%
F(Fragmented):多少个基因经过比对覆盖不完全,只是部分比对上以及部分比对上的基因占总基因数的百分比;F%=F/Toal*100%
M(Missing):没有比对结果成功的基因数以及错配基因数占总基因数的百分比;M%=M/Toal*100%
Total(Total groups searched):总共测试的基因条目数,Total=C+F+M。
根据C(Complete)百分比筛选基因组完整性较好的基因组其判断方法为,人为预先设定完整性满足预设需求的经验值作为阈值。当同一个物种拥有多条基因组时,保留同一个物种的完整性大于等于阈值的基因组,去除完整性不足的基因组;
筛选得到的基因组需要满足以下条件:
1.种类上:所筛选得到的基因组至少在种及以下水平;
2.基因组长度:所得到的基因组其组装水平在scaffold及以上,将Scaffolds按照长度排序,由长到短进行加和,总长度达到或者超过Scaffolds总长50%;
3.基因数:基因组中的基因占该谱系上的物种本身基因总数的大部分。
当该物种的全部基因组的完整性都小于经验值,则将该物种内的基因组完整性从高到低进行排序,最终选择完整性满足预设需求的基因组;
当某些物种的基因组只有一条并且完整性低于经验值,则无论基因组的完整度为多少,都保留该基因组。
需要注意的是,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其它等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种临床病原微生物宏基因组完整性检测方法,其特征在于,包括以下步骤:
采集病原微生物的物种信息,其包括以细菌、真菌、寄生虫、病毒为搜索关键字,通过网络爬虫技术从病原微生物来源网站初步采集临床中病原微生物的物种信息,该物种信息包括该物种的中文名称和英文名称;
对病原微生物的物种信息进行校正;
从NCBI网站下载数据原核生物ANl计算的统计结果ANI_report_prokaryotes.txt,病原微生物菌种GenBank数据库的assembly_summary_genbank.txt以及Taxonomy相关数据库;
检索病原微生物基因组;
对细菌基因组进行过滤;
统计过滤之后的细菌基因组的数目;
根据统计结果筛选过滤之后的细菌基因组,其包括按照优先级对原核生物的参考基因组进行筛选过滤、对真菌和寄生虫病原微生物的参考基因组进行筛选过滤以及对病毒病原微生物的参考基因组进行筛选过滤;
下载筛选出的病原微生物的全部基因组;
不同的微生物的基因组使用不同的预测基因算法;
将预测出的基因使用隐马尔可夫模型搜索相似性基因序列,输出比对上的基因的绝对数以及完整性百分比;
根据百分比筛选基因组完整性较好的基因组。
2.根据权利要求1所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述对病原微生物的物种信息进行校正的过程为:
将采集到的病原微生物的名称作为关键字,采用聚焦网络爬虫技术在主流文献、词典和权威数据库中进行检索,得到该病原微生物的名称对应的物种分类编号;
以物种分类编号为关键字对采集到的物种名称是否为物种的科学名称进行校对;
根据物种分类编号和物种的科学名称确定物种的分类学水平,保留在种水平的物种信息;其中,保留的在种水平的物种信息包括物种的科学名称、物种的分类学水平以及病原微生物的名称对应的物种分类编号。
3.根据权利要求2所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述检索病原微生物基因组的过程为:
以校正病原微生物信息后的种水平的物种分类编号为关键字,使用python字段匹配的原理从GenBank数据库中检索获得的物种分类编号对应的所有参考基因组。
4.根据权利要求3所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述对细菌基因组进行过滤的过程为:
将从GenBank数据库检索得到的包含全部基因组相关信息的数据框中的“assembly_accession"与NCBI中对所有原核生物ANI计算的统计结果ANI_report_prokaryotes.txt中的″genbank-accession″作为关键字,使用python中的字段匹配函数merge()对assembly_summary_genbank.txt文件和ANI_report_prokaryotes.txt文件进行连接,并使用python语法构建比较运算方法,以保留ANI计算结果与声明的物种一致且最佳匹配的物种与声明的物种一致的基因组。
5.根据权利要求4所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述统计过滤之后的细菌基因组的数目包括统计每一个物种的全部基因组的数目以及各物种中四个组装水平下基因组的数目,具体为:
以物种分类编号为关键字,使用python中的value_counts()统计关键字出现的次数,从而得到每一个物种的全部基因组的数目;
采用python语法中的参数by设定标签,参数IeveI设定索引的位置并进行分组,提取统计的关键字,再根据关键字使用词频统计函数value_counts()统计该物种中四个组装水平下基因组的数目。
6.根据权利要求5所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述按照优先级对原核生物的参考基因组进行筛选过滤的过程为:
采用python语法构建比较运算符,以用于判断在NCBI的RefSeq项目分类中参考基因组是否为Reference genome或representative genome,如果是Reference genome或representative genome,则保留该参考基因组;
反之,则采用python语法构建比较运算,以用于判断统计得到的每一个物种的全部基因组的数目;
如果某个病原微生物的全部基因组的数目小于或等于预设条数,则保留该物种的全部基因组;
如果该病原微生物下的全部基因组的数目大于预设条数,则取该病原微生物全部基因组数目的5%~15%作为该物种的基因组。
7.根据权利要求6所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述下载筛选出的病原微生物的全部基因组的过程为:
采用字段匹配方法将筛选出来的全部基因组与病原微生物菌种GenBank数据库的assembly_summary_genbank.txt中的″assembly_accession″列匹配并获取每一个基因组的下载地址,最后得到每一个基因组对应的下载地址列表;
以下载地址列表为输入文件,编写python脚本自动下载基因组;对下载后的基因组进行md5校验,确保文件传输无异常后解压。
8.根据权利要求7所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,不同的微生物的基因组使用不同的预测基因算法;针对细菌和病毒的微生物的基因组,采用prodigaI的预测基因的算法,针对真核生物,采用metaeuk的预测基因的算法。
9.根据权利要求8所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,所述输出比对上的基因的绝对数以及完整性百分比,评估结果包括:
C:多少个基因被覆盖以及覆盖基因占总基因数的百分比,计算公式分别为C=S+D,C%=C/Toal*100%;其中,C为Complete;
S:多少个基因经过比对发现是单拷贝以及单拷贝基因占总基因数的百分比;S%=S/Toal*100%;其中,S为Complete and single-copy;
D:多少个基因经过比对发现包含多拷贝以及多拷贝基因占总基因数的百分比;D%=D/Toal*100%;其中,D为Complete and duplicated;
F:多少个基因经过比对覆盖不完全,只是部分比对上以及部分比对上的基因占总基因数的百分比;F%=F/Toal*100%;其中,F为Fragmented;
M:没有比对结果成功的基因数以及错配基因数占总基因数的百分比;M%=M/Toal*100%;其中,M为Missing;
Total:总共测试的基因条目数,Total=C+F+M;其中,Total为Total groupssearched。
10.根据权利要求9所述的一种临床病原微生物宏基因组完整性检测方法,其特征在于,根据百分比筛选基因组完整性较好的基因组包括根据C百分比筛选基因组完整性较好的基因组其判断方法为,预先设定完整性满足预设需求的经验值作为阈值;当同一个物种拥有多条基因组时,保留同一个物种的完整性大于等于阈值的基因组,去除完整性不足的基因组;
筛选得到的基因组需要满足以下条件:
种类上:所筛选得到的基因组至少在种及以下水平;
基因组长度:所得到的基因组其组装水平在scaffold及以上,将Scaffolds按照长度排序,由长到短进行加和,总长度达到或者超过Scaffolds总长50%;
基因数:基因组中的基因占该谱系上的物种本身基因总数的大部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282448.2A CN117316285A (zh) | 2023-10-07 | 2023-10-07 | 一种临床病原微生物宏基因组完整性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311282448.2A CN117316285A (zh) | 2023-10-07 | 2023-10-07 | 一种临床病原微生物宏基因组完整性检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117316285A true CN117316285A (zh) | 2023-12-29 |
Family
ID=89261701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311282448.2A Pending CN117316285A (zh) | 2023-10-07 | 2023-10-07 | 一种临床病原微生物宏基因组完整性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117316285A (zh) |
-
2023
- 2023-10-07 CN CN202311282448.2A patent/CN117316285A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Steinegger et al. | Terminating contamination: large-scale search identifies more than 2,000,000 contaminated entries in GenBank | |
Bickhart et al. | Generating lineage-resolved, complete metagenome-assembled genomes from complex microbial communities | |
US20190139624A1 (en) | Identifying ancestral relationships using a continuous stream of input | |
CN104504304B (zh) | 一种成簇的规律间隔的短回文重复序列识别方法及装置 | |
Baril et al. | Earl Grey: a fully automated user-friendly transposable element annotation and analysis pipeline | |
CN111009286A (zh) | 对宿主样本进行微生物分析的方法和装置 | |
Nevado et al. | Resequencing studies of nonmodel organisms using closely related reference genomes: optimal experimental designs and bioinformatics approaches for population genomics | |
CN110692101A (zh) | 用于比对靶向的核酸测序数据的方法 | |
WO2013023220A2 (en) | Systems and methods for nucleic acid-based identification | |
CN111710364B (zh) | 一种菌群标记物的获取方法、装置、终端及存储介质 | |
Birgmeier et al. | AVADA: toward automated pathogenic variant evidence retrieval directly from the full-text literature | |
CN112259167B (zh) | 基于高通量测序的病原体分析方法、装置和计算机设备 | |
CN110610741B (zh) | 一种人类病原体的识别方法、装置及电子设备 | |
EP1946230B1 (en) | Computer-implemented method and computer system for identifying organisms | |
Neto et al. | Quantile-based permutation thresholds for quantitative trait loci hotspots | |
Leonard et al. | Finding relevant references to genes and proteins in Medline using a Bayesian approach | |
US20230410941A1 (en) | Identifying genome features in health and disease | |
Kothiyal et al. | An overview of custom array sequencing | |
CN115719616B (zh) | 一种病原物种特异性序列的筛选方法及系统 | |
CN117316285A (zh) | 一种临床病原微生物宏基因组完整性检测方法 | |
CN111128300A (zh) | 基于突变信息的蛋白相互作用影响判断方法 | |
CN117316299A (zh) | 临床病原微生物宏基因组数据库的构建方法及构建系统 | |
US8214153B1 (en) | Methods for determining the genetic affinity of microorganisms and viruses | |
CN113764041B (zh) | 物种基因识别标签的查找方法、装置及电子设备 | |
KR102110017B1 (ko) | 분산 처리에 기반한 miRNA 분석 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |