CN114621997A - 基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 - Google Patents
基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 Download PDFInfo
- Publication number
- CN114621997A CN114621997A CN202210171676.1A CN202210171676A CN114621997A CN 114621997 A CN114621997 A CN 114621997A CN 202210171676 A CN202210171676 A CN 202210171676A CN 114621997 A CN114621997 A CN 114621997A
- Authority
- CN
- China
- Prior art keywords
- toxin
- gene
- database
- sequence
- reads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 108700012359 toxins Proteins 0.000 title claims abstract description 109
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000010276 construction Methods 0.000 title claims description 11
- 239000003053 toxin Substances 0.000 claims abstract description 57
- 231100000765 toxin Toxicity 0.000 claims abstract description 57
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 51
- 238000012163 sequencing technique Methods 0.000 claims abstract description 45
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims abstract description 5
- 238000003908 quality control method Methods 0.000 claims description 12
- 239000012634 fragment Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000002550 fecal effect Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000010534 mechanism of action Effects 0.000 claims description 2
- 201000010099 disease Diseases 0.000 abstract description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 4
- 239000000523 sample Substances 0.000 description 27
- 108020004414 DNA Proteins 0.000 description 13
- 241000894007 species Species 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000000813 microbial effect Effects 0.000 description 4
- 101710146739 Enterotoxin Proteins 0.000 description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 description 3
- 244000052616 bacterial pathogen Species 0.000 description 3
- 208000015181 infectious disease Diseases 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000001035 gastrointestinal tract Anatomy 0.000 description 2
- 238000012165 high-throughput sequencing Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001018 virulence Effects 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 206010057249 Phagocytosis Diseases 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 239000002158 endotoxin Substances 0.000 description 1
- 239000000147 enterotoxin Substances 0.000 description 1
- 231100000655 enterotoxin Toxicity 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000028993 immune response Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 244000005700 microbiome Species 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000007651 self-proliferation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B50/00—Methods of creating libraries, e.g. combinatorial synthesis
- C40B50/06—Biochemical methods, e.g. using enzymes or whole viable microorganisms
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biochemistry (AREA)
- Analytical Chemistry (AREA)
- Microbiology (AREA)
- Molecular Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Immunology (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Medicinal Chemistry (AREA)
- General Chemical & Material Sciences (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了一种基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法,属于生物信息技术领域,包括以下步骤:S1、样本采集并且建库测序,获得待测样本的宏基因组测序数据;S2、对所述宏基因组测序数据进行筛选,得到测序序列;S3、对所述测序序列与毒素基因参考数据库进行比对,获取每个基因的比对reads数量;S4、根据基因长度将reads数量标准化为相对丰度,然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度;其中所述新的毒素因子参考序列数据库是通过添加已知量的内参基因序列到毒素因子参考序列数据库中形成的。采用该检测方法,可以检测出疾病相关的毒素因子基因,能够更准确的反映样本中基因的真实拷贝数和样本组间的真实差异。
Description
技术领域
本发明属于生物信息技术领域,具体涉及一种基于宏基因组学的毒素基因丰度检测方法,还涉及一种毒素基因的注释数据库构建方法。
背景技术
毒素因子(Virulence factor,VFs)指由细菌、病毒和真菌代谢产生的带有侵袭力和毒素等毒力性质的分子。微生物感染宿主,主要是因为相关的致病菌携带了可引起宿主细胞损伤的毒素因子编码基因,可抑制或逃避宿主的免疫反应,进而能够出入宿主细胞,并进一步和宿主掠夺营养,达到自身增殖生长的目的。
前沿科学研究中,常见的毒素因子数据库包括TADB(https://bioinfo-mml.sjtu.edu.cn/TADB/)、Tox-Prot(http://www.expasy.org/sprot/tox-prot)、T3DB(http://www.t3db.ca/)和VFDB(http://www.mgc.ac.cn/VFs/)等。其中,VFDB数据库的总体引用量达到了800多篇(2020年8月),是引用量最高,收集范围最全面,更新最及时的数据库。VFDB是由中国医学科学院研发,收集整理了多种重要医学病原菌的已知毒素因子的组成、结构、功能、致病机理、毒力岛、序列和基因组信息等内容。
目前毒素因子的主要检测方法有两类:(1)根据DNA序列设计引物,基于PCR扩增的原理设计成试剂盒,从而对目标DNA片段进行扩增,基于荧光强度确认有无;(2)对DNA片段进行测序,将测序后的序列做物种和毒素基因的注释分析,从而确定毒素因子的存在。但是方法一通常只能针对几个常见的基因做鉴定和分型,而方法二虽然理论上可以注释出大量的毒素基因,但是只能做到相对丰度的计算,确定毒素因子的存在而无法衡量其强弱。在高通量测序技术的辅助下,宏基因组研究飞速发展,定量宏基因组学也越来越得到重视,定量宏基因组是通过在样本中添加固定量的已知序列作为统一内参,计算样本中每种基因的拷贝数后,基于内参做一致性的标准化,从而实现绝对定量。相比于普通的宏基因组测序技术,定量宏基因组技术能够更准确的反映样本中基因的真实拷贝数和样本组间的真实差异,更准确的反映样本中微生物群落的真实变化,不仅仅具有前沿的科学价值,也具有实际的应用意义。在这里,我们基于定量宏基因组高通量测序技术,检测并且定量了测序样本中毒素基因的丰度,在更广阔的范围和更精确的分辨率上实现了毒素因子的检测。
发明内容
为了克服现有技术中的上述不足,本发明的目的之一在于提供一种基于宏基因组学的毒素基因丰度检测方法,可以检测出疾病相关的毒素因子基因,能够更准确的反映样本中基因的真实拷贝数和样本组间的真实差异,更准确的反映样本中微生物群落的真实变化。
本发明的目的之二在于提供一种毒素因子基因的注释数据库构建方法,将检测到的毒素基因进行注释,阐释了毒素因子关联的物种和作用的机制。
本发明的目的之三在于提供一种计算机可读存储介质。
为了实现上述目的之一,本发明采用以下技术方案:
本发明提供一种引物探针组合物,包括以下步骤:
S1、样本采集并且建库测序,获得待测样本的宏基因组测序数据;
S2、对所述宏基因组测序数据进行筛选,得到高质量的测序序列;
S3、对所述高质量的测序序列与毒素基因参考数据库进行比对,获取每个基因的比对reads数量;
S4、根据基因长度将read数量标准化为相对丰度,然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度;
其中所述新的毒素因子参考序列数据库是通过添加已知量的内参基因序列到毒素因子参考序列数据库中形成的。
进一步地,所述步骤S1中包括步骤:
所述样本是采集的待检测用户的粪便组织,提取所述的粪便组织中的菌群DNA并且进行质控;
向质控合格的所述菌群DNA中添加已知量的内参DNA,基于小片段文库构建方法建立DNA文库并且质控;
将质控合格的所述DNA文库,进行双端测序,获得所述待测样本的宏基因组测序数据。
进一步地,所述步骤S2中包括步骤:
在获得所述待测样本的宏基因组测序数据后,去除接头序列以及低质量碱基序列;
通过与宿主基因组比对,去除来源于所述宿主基因组的reads,得到所述高质量的测序序列。
为了实现上述目的之二,本发明采用以下技术方案:
本发明提供一种毒素基因的注释数据库构建方法,包括对毒素因子参考序列数据库进行注释,构建成毒素基因的注释数据库。
进一步地,基于所述毒素因子参考序列数据库,将每个所述毒素基因生成其类型、相关物种及作用机制的注释。
为了实现上述目的之三,本发明采用以下技术方案:
本发明提供一种计算机可读存储介质,所述计算机可读介质能被处理器执行以实现一种基于宏基因组学的毒素基因丰度检测方法及其注释数据库构建方法。
与现有技术相比,本发明具有的有益效果如下:
(1)本发明提供的一种基于宏基因组学的毒素基因丰度检测方法,可以检测出疾病相关的毒素因子基因,能够更准确的反映样本中基因的真实拷贝数和样本组间的真实差异,更准确的反映样本中微生物群落的真实变化,以在在更广阔的范围和更精确的分辨率上实现了毒素因子的检测。
(2)本发明提供的一种毒素因子基因的注释数据库构建方法,基于预建立的新的毒素因子参考序列数据库,将检测到的毒素因子做了注释,阐释了毒素因子关联的物种和作用的机制,可以辅助临床医生判断患者是否具有特定毒素感染,并且这些毒素因子还有潜力用作治疗靶点,提高病人的治疗效果。
(3)本发明的粪便样品是方便运输的,并且粪便采样方法是无创的和舒适的,所以人们将更容易参与到指定过程中。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例1提供的肠道毒素基因丰度检测方法及其注释数据库构建方法的流程示意图。
图2是本申请实施例2提供的肠道毒素因子的KEGG注释结果示意图。
图3是本申请实施例1提供的肠道毒素基因丰度检测方法在模拟数据集中的检测准确性评估。
具体实施方式
为了使本申请要解决的技术问题、技术方案及有益效果更加清楚明白,以下将结合实施例对本申请的技术方案进行清楚、完整的描述。应当理解此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本发明的实施例主要包括采用定量宏基因组测序技术,检测粪便组织中毒素基因的绝对拷贝数,注释相关的分子机制和致病菌,并且筛选常见的毒素基因,构建毒素基因检测试剂盒,可以检测出疾病相关的毒素因子基因,能够更准确的反映样本中基因的真实拷贝数和样本组间的真实差异,更准确的反映样本中微生物群落的真实变化,以在在更广阔的范围和更精确的分辨率上实现了毒素因子的检测;基于预建立的新的毒素因子参考序列数据库,将检测到的毒素因子做了注释,阐释了毒素因子关联的物种和作用的机制,可以辅助临床医生判断患者是否具有特定毒素感染,并且这些毒素因子还有潜力用作治疗靶点,提高病人的治疗效果。
实施例1
参见附图1,为本发明实施例提供的一种基于宏基因组学的毒素基因丰度检测方法的流程示意图,该方法可以包括以下步骤:
S1、样本采集并且建库测序,获得待测样本的宏基因组测序数据。
为了研究肠道内毒素基因的特征,募集了1005例志愿者,收集了其粪便样本并且做了定量宏基因组测序,每个样本的测序数据量不低于5G测序序列数据以获得尽可能多的毒素基因信息。
在本发明实施例的一种实施方式中,采集检测用户的粪便组织,提取粪便组织中的菌群DNA并且进行质控,向质控合格的所述菌群DNA中添加已知量的内参DNA(spike),基于小片段文库构建方法建立DNA文库并且质控,将质控合格的DNA文库,进行pair end(PE)双端测序,获得待测样本的宏基因组测序数据。
S2、对所述宏基因组测序数据进行筛选,得到高质量的测序序列。
具体的,在获得所述待测样本的宏基因组测序数据后,使用了Trimmomatic软件对原始的测序数据进行了接头序列的去除以及低质量碱基序列的过滤等数据过滤操作,使用Bowtie2将测序序列比对到人类参考基因组上,并且将能够比对上的序列去除掉,以达到的移除宿主污染的目的,得到所述高质量的测序序列。
S3、对所述高质量的测序序列与毒素基因参考数据库进行比对,获取每个基因的比对reads数量。
具体的,使用Bowtie2将所述高质量的测序序列与所述新的毒素基因数据库进行比对,统计比对到每条基因上的唯一比对和多比对双端reads数量;
基于所述唯一比对上的reads分布,将所述多比对的reads分配到每个基因上,计算出每个基因的比对reads数量;
计算公式如下:
公式1:RC(g)=URC(g)+MRC(g)
其中,RC(Read Count)代表reads的数目,URC(unique read count)代表唯一比对的reads数目,MRC(multiple aligned read count)代表重复比对的reads数目,fragment表示片段,g代表基因,L(g)表示基因的长度,COj是一个read对第j个基因的贡献权重。
S4、根据基因长度将read数量标准化为相对丰度,然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度。
在获取每个基因的比对reads数量后,根据基因长度将read数量标准化为相对丰度,然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度,相对丰度是每千个碱基上的reads数量(RPKM),然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度,详细计算方法如下:
公式1:RPKMj=COj*109/TotalmappedReads
其中,COj是一个read对第j个基因的贡献权重,RPKMj表示第j个基因上比对到每千个碱基的reads数量。
在本实施例中,需要说明的是为了实现毒素基因的绝对定量,下载VFDB毒素因子数据库,将内参的DNA序列加入到VFDB数据库中,形成了新的毒素因子参考序列数据库,为了方便后续的比对分析,在所述使用Bowtie2将所述高质量的测序序列与所述毒素基因数据库进行比对之前,使用Bowtie2对所述新的毒素因子参考序列数据库做了数据库快速查询索引。
本发明的方法可以用来检测用户肠道内毒素因子的分布状况。根据本发明得出的毒素因子检测结果,可以辅助临床医生判断患者是否具有特定毒素感染,并且这些毒素因子还有潜力用作治疗靶点,提高病人的治疗效果。
实施例2
本发明的另外一方面提供了一种特定毒素因子注释数据库的构建和注释的方法,
对每条毒素基因序列做了物种来源和功能分类注释,整合注释信息到毒素因子参考序列数据库中,形成了毒素因子注释数据库,然后通过毒素因子注释数据库对毒素因子进行KEGG注释分析,结果如附图2所示。
从图2中可以看出,检测到了普遍存在的粘附型、抗吞噬型和分泌型的毒素因子的基因。
基于预建立的毒素因子注释数据库,将检测到的毒素因子进一步做了注释,阐释了毒素因子关联的物种,作用的机制等,最终的检测的部分结果如表1所示。
表1毒素因子注释结果
实验例:
数据模拟
为了研究该方法检测毒素基因的性能,使用毒素因子参考序列数据库中的DNA序列,使用InSilicoSeq软件模拟了10M的模拟测序序列,并且计算了每种毒素基因理论上的序列数和相对丰度。
毒素基因丰度计算
使用Bowtie2将模拟的测序序列比对毒素基因参考序列,统计了每个毒素基因比对上的序列数量,并且使用RPKM的方法做了进一步的标准化,得到每种毒素基因的相对丰度。
算法性能分析
为了评估该计算方法的准确度和灵敏度,将理论上的相对丰度与真实丰度进行比较,结果如附图3所示,从图中可以看出,在模拟数据中,正确比对了3010301条序列,有12600错误分类而12600条序列未能成功比对上,其准确度和召回率分别为99.02%和99.07%。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (9)
1.一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,包括以下步骤:
S1、样本采集并且建库测序,获得待测样本的宏基因组测序数据;
S2、对所述宏基因组测序数据进行筛选,得到测序序列;
S3、对所述测序序列与新的毒素基因参考数据库进行比对,获取每个基因的比对reads数量;
S4、根据基因长度将reads数量标准化为相对丰度,然后基于内参基因序列的拷贝数计算每个毒素基因的绝对丰度;
其中所述新的毒素因子参考序列数据库是通过添加已知量的内参基因序列到毒素因子参考序列数据库中形成的。
2.根据权利要求1所述的一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,所述S1中包括步骤:
所述样本是采集的待检测用户的粪便组织,提取所述的粪便组织中的菌群DNA并且进行质控;
向质控合格的所述菌群DNA中添加已知量的内参DNA,基于小片段文库构建方法建立DNA文库并且质控;
将质控合格的所述DNA文库,进行双端测序,获得所述待测样本的宏基因组测序数据。
3.根据权利要求1所述的一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,所述S2中包括步骤:
在获得所述待测样本的宏基因组测序数据后,去除接头,去除碱基质量值小于13或碱基平均质量值小于20的序列,去除含N碱基比例>5%的碱基序列;
通过与宿主基因组比对,去除来源于所述宿主基因组的reads,得到所述测序序列。
4.根据权利要求1所述的一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,所述S3中包括步骤:
使用Bowtie2将所述测序序列与所述新的毒素基因数据库进行比对,统计比对到每条基因上的唯一比对和多比对双端reads数量;
基于所述唯一比对上的reads分布,将所述多比对的reads分配到每个基因上,计算出每个基因的比对reads数量;
计算公式如下:
公式1:RC(g)=URC(g)+MRC(g)
其中,RC代表reads的数目,URC代表唯一比对的reads数目,MRC代表重复比对的reads数目,fragment表示片段,g代表基因,L(g)表示基因的长度,COj是一个read对第j个基因的贡献权重。
5.根据权利要求4所述的一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,在使用Bowtie2将所述测序序列与所述毒素基因数据库进行比对之前,使用Bowtie2对所述新的毒素因子参考序列数据库进行数据库快速查询索引,以方便后续的比对分析。
6.根据权利要求1所述的一种基于宏基因组学的毒素基因丰度检测方法,其特征在于,所述S4中计算公式如下:
计算公式如下:
公式1:RPKMj=COj*109/TotalMappedReads
其中,COj是一个read对第j个基因的贡献权重,RPKMj表示第j个基因上比对到每千个碱基的reads数量。
7.一种毒素基因的注释数据库构建方法,其特征在于,包括对权利要求1所述的毒素因子参考序列数据库进行注释,构建成毒素基因的注释数据库。
8.根据权利要求7所述的一种毒素基因的注释数据库构建方法,其特征在于,
基于所述毒素因子参考序列数据库,将每个所述毒素基因生成其类型、相关物种及作用机制的注释。
9.一种计算机可读存储介质,其特征在于,所述计算机可读介质能被处理器执行以实现如权利要求1~8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210171676.1A CN114621997A (zh) | 2022-02-24 | 2022-02-24 | 基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210171676.1A CN114621997A (zh) | 2022-02-24 | 2022-02-24 | 基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114621997A true CN114621997A (zh) | 2022-06-14 |
Family
ID=81899299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210171676.1A Pending CN114621997A (zh) | 2022-02-24 | 2022-02-24 | 基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114621997A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137243A1 (en) * | 2016-11-17 | 2018-05-17 | Resilient Biotics, Inc. | Therapeutic Methods Using Metagenomic Data From Microbial Communities |
CN110349630A (zh) * | 2019-06-21 | 2019-10-18 | 天津华大医学检验所有限公司 | 血液宏基因组测序数据的分析方法、装置及其应用 |
CN111933218A (zh) * | 2020-07-01 | 2020-11-13 | 广州基迪奥生物科技有限公司 | 一种优化的宏基因组binning分析微生物群落的方法 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
-
2022
- 2022-02-24 CN CN202210171676.1A patent/CN114621997A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180137243A1 (en) * | 2016-11-17 | 2018-05-17 | Resilient Biotics, Inc. | Therapeutic Methods Using Metagenomic Data From Microbial Communities |
CN110349630A (zh) * | 2019-06-21 | 2019-10-18 | 天津华大医学检验所有限公司 | 血液宏基因组测序数据的分析方法、装置及其应用 |
CN111933218A (zh) * | 2020-07-01 | 2020-11-13 | 广州基迪奥生物科技有限公司 | 一种优化的宏基因组binning分析微生物群落的方法 |
CN113744807A (zh) * | 2021-11-03 | 2021-12-03 | 微岩医学科技(北京)有限公司 | 一种基于宏基因组学的病原微生物检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Albanese et al. | Strain profiling and epidemiology of bacterial species from metagenomic sequencing | |
Scholz et al. | Strain-level microbial epidemiology and population genomics from shotgun metagenomics | |
CN106156543B (zh) | 一种肿瘤ctDNA信息统计方法 | |
CN105296590B (zh) | 大肠癌标志物及其应用 | |
CN104603283B (zh) | 确定异常状态相关生物标志物的方法及系统 | |
CN106834275A (zh) | ctDNA超低频突变检测文库的构建方法、试剂盒及文库检测数据的分析方法 | |
Minot et al. | Clustering co-abundant genes identifies components of the gut microbiome that are reproducibly associated with colorectal cancer and inflammatory bowel disease | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN115064215B (zh) | 一种通过相似度进行菌株溯源及属性鉴定的方法 | |
Tamburini et al. | Short-and long-read metagenomics of urban and rural South African gut microbiomes reveal a transitional composition and undescribed taxa | |
WO2019223502A1 (zh) | 一种基于cfDNA高通量测序检测病原体的方法 | |
CN111816321B (zh) | 基于法定诊断标准智能识别传染病的系统、设备及存储介质 | |
WO2017129110A1 (zh) | 一种人体微生物定性与定量的检测方法 | |
CN115458052B (zh) | 基于一代测序的基因突变分析方法、设备和存储介质 | |
CN114121160A (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN113380396A (zh) | 一种基于粪便微生物标志物和人dna含量的多种肠道疾病风险评估的方法及应用 | |
Miller et al. | Quality-controlled R-loop meta-analysis reveals the characteristics of R-loop consensus regions | |
EP3362927A1 (en) | Methods associated with a database that stores a plurality of reference genomes | |
Wu et al. | Application of NGS in diagnosis of tuberculous pleurisy with multiple negative tests: a case report | |
Chen et al. | Clinical evaluation of cell-free and cellular metagenomic next-generation sequencing of infected body fluids | |
CN114621997A (zh) | 基于宏基因组学的毒素基因丰度检测方法及注释数据库构建方法 | |
CN117275585A (zh) | 基于lp-wgs和dna甲基化的肺癌早筛模型构建方法及电子设备 | |
WO2018086045A1 (zh) | 一种对特定群中的亚群进行定量分析的方法 | |
De-Dios et al. | Metagenomic analysis of a blood stain from the French revolutionary Jean-Paul Marat (1743–1793) | |
CN110211629A (zh) | 一种评估微生物群落宏基因(或普通生物群落宏遗传)多样性和相似性的概念和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220614 |