CN117476102A - 外源污染基因及抗性基因、毒力因子编码基因的检测方法 - Google Patents
外源污染基因及抗性基因、毒力因子编码基因的检测方法 Download PDFInfo
- Publication number
- CN117476102A CN117476102A CN202311291401.2A CN202311291401A CN117476102A CN 117476102 A CN117476102 A CN 117476102A CN 202311291401 A CN202311291401 A CN 202311291401A CN 117476102 A CN117476102 A CN 117476102A
- Authority
- CN
- China
- Prior art keywords
- gene
- exogenous
- protein
- comparison result
- genome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 334
- 230000007923 virulence factor Effects 0.000 title claims abstract description 81
- 239000000304 virulence factor Substances 0.000 title claims abstract description 81
- 238000001514 detection method Methods 0.000 title abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000001914 filtration Methods 0.000 claims abstract description 27
- 244000005700 microbiome Species 0.000 claims abstract description 18
- 241000700605 Viruses Species 0.000 claims abstract description 16
- 238000012070 whole genome sequencing analysis Methods 0.000 claims abstract description 9
- 102000004169 proteins and genes Human genes 0.000 claims description 97
- 241000894007 species Species 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 10
- 239000000356 contaminant Substances 0.000 claims description 6
- 238000011282 treatment Methods 0.000 claims description 6
- 108700005443 Microbial Genes Proteins 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 230000001018 virulence Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 7
- 108020004414 DNA Proteins 0.000 description 54
- 102000053602 DNA Human genes 0.000 description 53
- 244000052769 pathogen Species 0.000 description 24
- 230000001717 pathogenic effect Effects 0.000 description 12
- 238000003752 polymerase chain reaction Methods 0.000 description 11
- 230000035945 sensitivity Effects 0.000 description 10
- 108091029865 Exogenous DNA Proteins 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 9
- 238000012795 verification Methods 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 5
- 229920002477 rna polymer Polymers 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000003115 biocidal effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000003612 virological effect Effects 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 208000035473 Communicable disease Diseases 0.000 description 2
- 241000233866 Fungi Species 0.000 description 2
- 241000700721 Hepatitis B virus Species 0.000 description 2
- 108091028043 Nucleic acid sequence Proteins 0.000 description 2
- 239000003242 anti bacterial agent Substances 0.000 description 2
- 238000003556 assay Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000012678 infectious agent Substances 0.000 description 2
- 230000000813 microbial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 244000045947 parasite Species 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000208837 Asterales Species 0.000 description 1
- 235000007516 Chrysanthemum Nutrition 0.000 description 1
- 244000189548 Chrysanthemum x morifolium Species 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 206010059866 Drug resistance Diseases 0.000 description 1
- 241000710188 Encephalomyocarditis virus Species 0.000 description 1
- 241000220485 Fabaceae Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 1
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003766 bioinformatics method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 238000009109 curative therapy Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000645 desinfectant Substances 0.000 description 1
- 229910003460 diamond Inorganic materials 0.000 description 1
- 239000010432 diamond Substances 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009509 drug development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000010195 expression analysis Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 235000021374 legumes Nutrition 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 230000002906 microbiologic effect Effects 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了外源污染基因及抗性基因、毒力因子编码基因的检测方法,包括以下步骤:收集具代表性的微生物、病毒,抗性基因、毒力因子各个集合的外源参考基因组数据库,并进行过滤、整合得到综合数据库;分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对;对比对结果进行过滤、整合、描述以及统计,使得结果可视化;本发明结合了经全基因组测序后的原始数据中外源基因、抗性基因和毒力因子编码基因三个流程的统一检测,将多个外源病毒数据库,毒力数据库和抗性基因数据库获得的信息聚合到单个参考序列数据库中,使得外源基因检测在临床上的实用性大大增强。
Description
技术领域
本发明涉及生物信息领域二代测序数据分析技术领域,具体为外源污染基因及抗性基因、毒力因子编码基因的检测方法。
背景技术
污染微生物无处不在,可能存在于试剂或实验室器皿,环境或正常人类菌群中。由于全基因组测序的敏感性,测序数据中甚至可能存在微量的外部污染。在这种情况下,病原体可能包括许多常见和不常见的病原体,从病毒到细菌、真菌和寄生虫。假设PCR可能涉及针对特定目标生物的大量单独检测,但仍可能遗漏罕见病原体或使用含有与所涉微生物菌株不匹配的引物,这会降低检测的灵敏度。此外,基于PCR的传统检测方法检测到的病原体谱仍然很窄,只能识别约40%的病原体。因此,一种有可能检测几乎任何生物体的无假设诊断方法将导致微生物诊断测试的巨大范式转变。
值得注意的是,几乎所有传染因子都含有DNA或RNA基因组,这使得测序成为病原体检测的一种有吸引力的方法,并且已成为检测和分类表征患者临床样本中微生物的技术平台。因此,下一代测序是一项新技术,有望增强我们诊断、询问和跟踪传染病的能力。
此外,毒力因子和抗性基因的筛选鉴定对于理解病原体的毒力机制、预测和监测抗药性、推动药物研发和治疗优化、实施传播阻断和预防控制等方面都起着重要作用。生物信息学方法的应用和技术的发展为毒力因子和抗性基因的筛选鉴定提供了强大的工具和资源。
现有的有通过应用宏基因组学进行病原体监测,达成了使用不同检测方法进行菌株分型鉴定的结果。该研究更关注于对已知和尚未出现的病原体的检测,但是没有考虑到与入侵宿主致病性密切相关的毒力因素的鉴定,以及允许病原体免疫其他治愈性治疗的抗菌素耐药性基因的监测,这使得对测序数据检测的不全面。
现有的也有通过宏基因组数据集进行识别鉴定毒力因子和抗菌素耐药性基因,达成了使用单一pipeline同时检测毒力因子和抗菌素耐药性基因,这个方案在检测流程和数据集合方面做了改善,但是仅从蛋白层面对毒力因子和抗菌素耐药性基因进行筛选,在检测过程中需要将DNA序列翻译成蛋白质序列,由于1条DNA序列可翻译成为6条可能的蛋白序列,因此使得检测的假阳性率升高。该方法没有考虑到DNA+蛋白双重验证的结果。
现有的还有通过应用宏基因组学对临床标本进行病原体检测,达成了通过病原体监测诊断癌症的结果,但是没有去除人类基因组。人类基因组中有约8%的病毒来源序列,如果在检测前不去除人类基因组中的病毒来源的序列,将有可能增加检测结果的假阳性风险。
发明内容
为解决现有技术存在基于PCR的传统检测方法检测到的病原体谱仍然很窄;而现有的检测方法存在检测不全面、检测准确度低和检测可靠差的缺陷,本发明提供外源污染基因及抗性基因、毒力因子编码基因的检测方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法,
包括以下步骤:
步骤1、收集具代表性的微生物、病毒,抗性基因、毒力因子各个集合的外源参考基因组数据库,并进行过滤、整合得到综合数据库;
步骤2、分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对;
步骤3、对比对结果进行过滤、整合、描述以及统计,使得结果可视化。
本发明结合了经全基因组测序后的原始数据中外源基因、抗性基因和毒力因子编码基因三个流程的统一检测,将多个外源病毒数据库,毒力数据库和抗性基因数据库获得的信息聚合到单个参考序列数据库中,使得外源基因检测在临床上的实用性大大增强。
本发明在分析毒力基因和耐药基因分析方面,本方法结合了蛋白层面的比对结果与基因组层面的比对结果,根据基因+蛋白双重验证的方式确定毒力基因和耐药基因的存在,提高了检测的特异性。
本发明通过预先过滤原始数据中人类基因组来源的序列,使得检测的特异性升高,从而能更加准确地鉴定非人类基因中的外源污染基因、抗性基因、毒力因子编码基因
作为本发明的一种优选技术方案,所述的过滤、整合得到综合数据库的方法是,根据微生物基因分类数据库中的genome_id对应的genome_length进行降序排序处理,然后去除在genus水平上未得到明确分类的genome_id,再根据genus水平上的物种分类去除重复的分类内容;此后在family水平和order水平上重复以上过滤整合操作,最终保留在genus、family、order水平上重复过滤整合得到的每一genome_id对应的genome_length最长的唯一物种水平分类信息,并将该微生物序列与病毒序列整合至同一个文件中,从而实现对外源基因参考数据的整合过滤。
作为本发明的一种优选技术方案,所述的步骤1的外源参考基因组数据库中,还具有从蛋白层面和DNA层面收集抗性基因以及相应的蛋白参考数据库;并将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
还具有从蛋白层面和DNA层面收集毒力因子编码基因以及相应的蛋白参考数据库,将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
由以上处理最终得到外源基因、抗性基因、抗性蛋白、毒力因子编码基因以及毒力因子蛋白的五个全面集合的参考输入文件;针对五个经整合的参考数据库,分别在DNA层面和相应的蛋白层面和建立参考数据库索引目录。
作为本发明的一种优选技术方案,所述的步骤2中分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对的方法是:
由全基因组测序得到原始数据A,将原始数据A与人类参考基因组比对,得到sam格式的标准比对结果B;将此比对结果B作为参照,预先过滤原始数据A中的人类基因组,得到非人类基因序列结果C;进一步将非人类基因序列C作为输入与整合的外源参考基因组进行比对,得到原始数据A中的非人类基因比对至外源基因数据库的原始比对信息D;对原始比对结果D去冗余,剔除未比对成功的reads,得到外源基因的完全单reads比对结果E;
将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的抗性基因和蛋白参考数据库进行比对,分别得到原始的DNA比对标准结果F和蛋白质标准比对结果G;对DNA原始比对结果F去冗余,剔除未比对成功的reads,得到抗性基因的完全单reads比对结果G;筛选蛋白原始比对结果G,只保留相似性超过80%的比对序列H;
再次将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的毒力因子编码基因和蛋白参考数据库进行比对,分别得到原始的DNA标准比对结果I和蛋白质标准比对结果J;对原始比对结果去冗余,剔除未比对成功的reads,得到毒力因子编码基因的完全单reads比对结果L;筛选蛋白原始比对结果J,只保留相似性超过80%的比对结果M。
作为本发明的一种优选技术方案,所述的步骤3中对比对结果进行过滤、整合、描述以及统计,使得结果可视化的方法是,
在DNA和蛋白层面上提取过滤后的外源污染基因比对结果E、抗性基因比对结果G、抗性蛋白比对结果H与毒力因子编码基因比对结果L、毒力因子蛋白比对结果M中提供的唯一标识性ID,对重复性ID去重后再进一步回溯检索外源序列、抗性基因、毒力因子编码基因的参考基因组数据库,并添加在非人类基因组C中以占比高低排列的外源物种的描述信息,以及抗性基因和毒力因子在DNA和蛋白层面上的物种描述、序列占比的关键信息。
本发明的有益效果是:
本发明通过结合经全基因组测序后的原始数据中外源基因、抗性基因和毒力因子编码基因三个流程的统一检测,能够全面检测基因组中的各种序列,并识别罕见病原体,在检出外源DNA污染检测层面具有更高的特异性,使得外源基因检测在临床的实用性大大增加。同时,本方法通过DNA和蛋白质层面的双重验证,DNA层面检测目标基因序列的存在与否,蛋白质层面的验证提供了基因功能和活性的直接反映,减少了假阳性结果的发生,并提高了外源DNA检测的特异性,能够增强了在外源DNA检测的准确性和可靠性。此外,本方法还预先过滤原始数据中人类基因组来源的序列,降低了人类基因组中的病毒来源序列可能引起的假阳性风险,并提高了检测结果的可靠性。总之,本方法在检测外源DNA序列污染中具有巨大的潜力,可以为疾病诊断、传染病监测和治疗优化等领域提供更全面、精确和可靠的检测手段,。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法的步骤流程示意图;
图2是本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法的对比流程示意图;
图3是本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法的与传统统PCR方法检测相比的效果图;
图4是本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法的与未去除人类基因组序列相比的检测结构示意图;
图5是本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法的DNA+蛋白双重比对验证的结果示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-5所示,本发明外源污染基因及抗性基因、毒力因子编码基因的检测方法,其中采用的术语具体含义如下:
PCR(Polymerase Chain Reaction):PCR是聚合酶链反应(Polymerase ChainReaction)的缩写,是一种常用的分子生物学技术,用于扩增和复制DNA片段。
DNA(Deoxyribonucleic Acid):是脱氧核糖核酸(Deoxyribonucleic Acid)的缩写,是一种存在于细胞中的生物大分子,也被称为基因的遗传物质。
RNA(核糖核酸)是一种生物分子,它在细胞内起着多种重要的功能。RNA是由核苷酸组成的,每个核苷酸包含一个碱基、一个核糖糖分子和一个磷酸基团。
抗性基因:抗性基因(Resistance genes)是指编码导致微生物对抗生素、消毒剂或其他抗菌剂产生抵抗能力的基因。
毒力因子编码基因:毒力因子编码基因(Virulence factor genes)是指编码微生物毒力因子的基因。这些基因存在于微生物的基因组中,它们编码产生各种毒力因子的蛋白质或其他功能分子,这些因子可以使微生物对宿主产生病理效应或导致疾病的发展。
Linux系统:Linux系统是一种开源的操作系统,它基于类UNIX操作系统的设计原理和功能。
genome_id:genome_id指的是基因组的唯一标识符或识别号码。在基因组研究和基因组学领域,每个基因组都会被赋予一个特定的genome_id,以便进行唯一标识和区分。
genome_length:genome_length(基因组长度)指的是一个生物体的基因组DNA的总长度。它通常以碱基对(bp)作为单位表示,表示基因组中所有DNA分子的长度总和。
genus:genus(属)是生物分类学中的一个级别,用于分类和命名生物的一部分。在分类系统中,属是在物种(species)和科(family)之间的级别。属是一组相互关联的物种,具有共同的祖先和相似的特征。属名通常以大写字母开头,例如,人类的属名为Homo。
family:family(科)是生物分类学中更高一级的分类级别,用于将相关的属(genus)分组在一起。科是一组共享共同特征和进化关系的属的集合。科名通常以“-aceae”结尾,例如,豆科的科名是Fabaceae。
order:order(目)是生物分类学中更高一级的分类级别,用于将相关的科(family)分组在一起。目是一组共享共同特征和进化关系的科的集合。目名通常以“-ales”结尾,例如,菊目的目名是Asterales。
reference:reference(参考)在基因组学中通常指的是一个基准或标准,用于比较和注释其他个体的基因组数据。参考基因组是一个已经被广泛研究和注释的基因组,代表了该物种或群体的典型或代表性基因组。研究人员可以将其他个体的基因组序列与参考基因组进行比对和对比,以了解其相似性、差异和功能等方面的信息。参考基因组通常具有高质量的序列数据和丰富的注释信息,被广泛应用于基因组研究、基因表达分析、变异鉴定等领域。
本发明包括以下步骤:
步骤1、收集具代表性的微生物、病毒,抗性基因、毒力因子各个集合的外源参考基因组数据库,并进行过滤、整合得到综合数据库;
步骤2、分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对;
步骤3、对比对结果进行过滤、整合、描述以及统计,使得结果可视化。
本发明首先收集具代表性的微生物、病毒,抗性基因、毒力因子参考基因组数据库,进行过滤、整合得到综合数据库,并分别将与原始数据与各个集合的参考基因组数据库进行依次的DNA和蛋白比对,从而检测出将人类基因剔除后的原始数据中的外源基因、抗性基因、毒力基因的物种描述,分布比率等重要信息。
本发明对原始数据的筛选不仅涉及基因组水平,还涉及蛋白水平上的筛选。从而扩大病原体谱,解决传统测序方法中遗漏罕见病原体和不匹配病原体的问题,使比对结果更加全面准确。
本发明在进行比对前将原始数据中的人类基因组剔除,以减少比对干扰,从而提高了比对敏感性和准确性。3)目前没有任何一个单一的流程同时涵盖外源污染基因检测、抗性基因、毒力因子编码基因的检测。
本发明流程不仅包括对于原始数据中的外源污染序列(微生物和病毒序列)的检测,还包括对抗性基因、毒力因子编码基因的筛选,同时添加了以上基因序列的物种信息描述等信息,并统计其在原始数据中的序列占比。
本发明对原始的参考数据库进行了提炼和整合,为序列比对提供了更精细的检索信息,在生信层面上达到了对大规模的基因组数据分析的优化。
其中,所述的过滤、整合得到综合数据库的方法是,根据微生物基因分类数据库中的genome_id对应的genome_length进行降序排序处理,然后去除在genus水平上未得到明确分类的genome_id,再根据genus水平上的物种分类去除重复的分类内容;此后在family水平和order水平上重复以上过滤整合操作,最终保留在genus、family、order水平上重复过滤整合得到的每一genome_id对应的genome_length最长的唯一物种水平分类信息,并将该微生物序列与病毒序列整合至同一个文件中,从而实现对外源基因参考数据的整合过滤。
其中,所述的步骤1的外源参考基因组数据库中,还具有从蛋白层面和DNA层面收集抗性基因以及相应的蛋白参考数据库;并将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
还具有从蛋白层面和DNA层面收集毒力因子编码基因以及相应的蛋白参考数据库,将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
由以上处理最终得到外源基因、抗性基因、抗性蛋白、毒力因子编码基因以及毒力因子蛋白的五个全面集合的参考输入文件;针对五个经整合的参考数据库,分别在DNA层面和相应的蛋白层面和建立参考数据库索引目录。
其中,所述的步骤2中分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对的方法是:
由全基因组测序得到原始数据A,将原始数据A与人类参考基因组比对,得到sam格式的标准比对结果B;将此比对结果B作为参照,预先过滤原始数据A中的人类基因组,得到非人类基因序列结果C;进一步将非人类基因序列C作为输入与整合的外源参考基因组进行比对,得到原始数据A中的非人类基因比对至外源基因数据库的原始比对信息D;对原始比对结果D去冗余,剔除未比对成功的reads,得到外源基因的完全单reads比对结果E;
将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的抗性基因和蛋白参考数据库进行比对,分别得到原始的DNA比对标准结果F和蛋白质标准比对结果G;对DNA原始比对结果F去冗余,剔除未比对成功的reads,得到抗性基因的完全单reads比对结果G;筛选蛋白原始比对结果G,只保留相似性超过80%的比对序列H;
再次将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的毒力因子编码基因和蛋白参考数据库进行比对,分别得到原始的DNA标准比对结果I和蛋白质标准比对结果J;对原始比对结果去冗余,剔除未比对成功的reads,得到毒力因子编码基因的完全单reads比对结果L;筛选蛋白原始比对结果J,只保留相似性超过80%的比对结果M。
其中,所述的步骤3中对比对结果进行过滤、整合、描述以及统计,使得结果可视化的方法是,
在DNA和蛋白层面上提取过滤后的外源污染基因比对结果E、抗性基因比对结果G、抗性蛋白比对结果H与毒力因子编码基因比对结果L、毒力因子蛋白比对结果M中提供的唯一标识性ID,对重复性ID去重后再进一步回溯检索外源序列、抗性基因、毒力因子编码基因的参考基因组数据库,并添加在非人类基因组C中以占比高低排列的外源物种的描述信息,以及抗性基因和毒力因子在DNA和蛋白层面上的物种描述、序列占比的关键信息。
本发明经全基因组测序后的原始数据比对到外源污染基因、抗性基因和毒力因子编码基因后,能够更全面的检测出原始测序数据中占比较高的外源污染基因、抗性基因和毒力因子编码基因,使得外源基因检测在临床上的实用性大大增强。与传统病原检测方法相比,由于病原体谱窄,后者得到的基因检测信息十分有限,体且检测覆盖面低,无法检测未知病原体,只能检测到样本中40%的病原,在实现快速的全面和精准检测方面存在较高的局限性。而几乎所有传染因子都含有DNA或RNA基因组,这使得测序成为病原体检测的一种有吸引力的方法。通过高通量测序的方法对得到的原始数据进行微生物序列、抗性基因、毒力因子编码基因比对,具有更全面的检测范围,能够准确快速地检测出包括细菌、病毒、真菌、寄生虫等多种病原微生物,极大地提高了临床诊断的效率。
我们使用23组真实的肝癌患者组织样本,按照上述步骤,样本经过全基因组测序后得到起始输入fastq文件A,将单端和双端fastq数据分别放至对应文件夹,并解压,根据数据类型是双端还是单端选择特定的参数运行流程。将原始数据A与人类参考基因组比对,得到sam格式的标准比对结果B。将此比对结果B作为参照,为了提高检测的特异性,预先过滤原始数据中的人类基因组,得到非人类基因序列结果C。收集具有代表性的外源参考基因组数据库(包括微生物和病毒序列),通过以下策略实现对微生物参考基因数据库的过滤整合处理:首先根据微生物基因分类数据库中的genome_id对应的genome_length进行降序排序处理,然后去除在genus水平上未得到明确分类的genome_id,再根据genus水平上的物种分类去除重复的分类内容。此后在family水平和order水平上重复以上过滤整合操作,最终保留在genus、family、order水平上重复过滤整合得到的每一genome_id对应的genome_length最长的唯一物种水平分类信息,并将该微生物序列与病毒序列整合至同一个文件中作为外源基因参考数据库。进一步将非人类基因序列C作为输入与整合的外源参考基因组进行比对,得到原始数据中的非人类基因比对至外源基因数据库的原始比对信息D。为了使比对更准确,对原始比对结果D去冗余,剔除未比对成功的reads和多重匹配的reads,得到外源基因的完全单reads比对结果E。提取过滤后的外源污染基因比对结果E中提供的唯一标识性ID,对重复性ID去重后再进一步回溯检索外源序列的参考基因组数据库,并添加在非人类基因组C中以占比高低排列的外源污染基因的描述信息,以及序列占比等关键信息,输出为结果F。
根据以上分析,发现与传统的检测方法PCR方法相比,通过全基因组测序比对到外源污染基因、抗性基因、毒力因子编码基因后,能更全面的检出外源DNA污染的情况,且检出的灵敏度更高。如图3所示所示,本方法检测出832条占比超过1%的外源DNA序列,而传统的检测方法PCR只检出406条外源DNA序列,本方法的检出外源序列的敏感性和特异性分别为98.86%和99.99%,这说明本方法对外源污染基因检出具有更高的灵敏性,能够检出更高比例外源污染基因,从而也提高了检出外源污染基因的准确性,从而说明本方法通过结合外源污染基因、抗性基因、毒力编码基因能够更高效更全面的检出外源DNA检测的污染来源,使外源基因检测在临床上的实用性大大增强。
其中本发明预先过滤原始数据中人类基因组来源的序列,通过去除人类基因组中占比8%的病毒来源序列,能够使得检测的特异性升高,从而能更加准确的鉴定非人类基因中的外源污染基因、抗性基因、毒力因子编码基因。降低检出外源基因、抗性基因、毒力因子编码基因的假阳性的风险。我们使用上述的中的数据,按照上述步骤对原始数据进行处理,同时,不过滤人类基因组来源的序列并按照上述步骤处理。根据以上2种方式比较检测结果,如图4所示,我们发现在这批原始数据中检测出分布占比最高的外源污染基因分别是36.8%的乙型肝炎病毒(HBV)和33.11%的葡萄球菌噬菌体,理论上符合我们的检测需求。而对人类相关的基因组来源的序列不过滤,最终检出最高的外源污染基因分别是29.9%的肠杆菌噬菌体和26.1%的脑心肌炎病毒,而乙型肝炎病毒(HBV)占比只有20.2%,这在理论上不符合我们的检测需求。因此,通过过滤人类基因组来源的序列,与去除后的检测结果相比,我们得到截然不同的外源污染基因的占比排布,且与我们预期的检测结果一致,说明本流程能够更特异性的检出外源污染基因,降低检出的假阳性风险,可以使我们更特异性的了解外源DNA污染的情况。
结合DNA+蛋白层面的双层验证的方式确定毒力因子编码基因和抗性基因的存在,能够提高检测的准确性。本实施例中使用3例从NCBI下载的xx原始数据,按照上述,对原始数据中抗性基因和毒力因子编码基因检测,首先分别从蛋白层面和DNA层面收集抗性基因和毒力因子编码基因以及相应的蛋白参考数据库,将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件。再将非人类基因序列作为输入文件,使用相同的比对策略对抗性基因和毒力因子编码基因进行比对:分别在蛋白层面和DNA层面上使用相同的比对参数与整合的抗性基因和毒力因子编码基因以及相应的蛋白参考数据库进行比对,分别得到原始的DNA标准比对结果和蛋白质标准比对结果。对原始DNA比对结果去冗余,剔除未比对成功的序列和比对到多个位点的序列,得到唯一比对到抗性基因和毒力因子编码基因的reads比对结果。只保留相似性超过80%的蛋白比对结果。
对同一个样本检测输出的DNA和蛋白比对结果进行比较后,我们发现仅在DNA层面上比对得到的比对结果十分有限,如只有比对到的序列长度、比对位置等,我们对结果进行了最优比对的筛选,而经蛋白比对得到的结果不仅覆盖了查询序列与参考系列的比对相似度,还可以通过比对阈值等重要参数来筛选更高相似度的蛋白比对结果,由于蛋白质序列比对可以更好地捕获蛋白质的功能区域和保守序列,因此在寻找结构和功能相关的信息时具有的灵敏度,能够从蛋白的层面更全面的了解外源DNA污染情况及外源DNA污染对基因的表达水平和功能。如图5所示,对同一个样本分别用bwa和diamond两种方式进行比对,保留相似性超过80%的蛋白比对结果,结果发现在DNA层面和蛋白比对层面中检出的抗性基因有8.08%的交集,检出的毒力因子编码基因有10.95%比例的交集,而这些基因在DNA层面均检出的占比较低,在蛋白层面检出的占比较高,这说明从DNA层面检出的这10%的抗性基因和毒力因子编码基因在蛋白层面检出具有更好的可信度和灵敏度,通过DNA和蛋白双重比对验证能够提高检出结果的灵敏度和准确性。此外,对于比对结果较少的序列,我们可以采取DNA+蛋白双重验证的策略查看比对信息,双重验证检出的抗性基因和毒力因子编码基因,从而使检测结果更加全面准确。
综合以上实施例,本方法克服了传统测序病原体谱窄而导致的检测灵敏度低的问题,在得到了全面的参考基因组数据库和移除了原始测序数据中的人类基因组的基础上,通过DNA层面和蛋白层面上的比对提高了病原体检测的灵敏度和准确度,可以高效地识别和预测潜在的外源污染基因、毒力因子编码基因和抗性基因。这种基于数据的筛选方法可以大大加速相关基因的发现,并提供对这些基因功能和调控的初步理解。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.外源污染基因及抗性基因、毒力因子编码基因的检测方法,其特征在于,包括以下步骤:
步骤1、收集具代表性的微生物、病毒,抗性基因、毒力因子各个集合的外源参考基因组数据库,并进行过滤、整合得到综合数据库;
步骤2、分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对;
步骤3、对比对结果进行过滤、整合、描述以及统计,使得结果可视化。
2.根据权利要求1所述的外源污染基因及抗性基因、毒力因子编码基因的检测方法,其特征在于,所述的过滤、整合得到综合数据库的方法是,根据微生物基因分类数据库中的genome_id对应的genome_length进行降序排序处理,然后去除在genus水平上未得到明确分类的genome_id,再根据genus水平上的物种分类去除重复的分类内容;此后在family水平和order水平上重复以上过滤整合操作,最终保留在genus、family、order水平上重复过滤整合得到的每一genome_id对应的genome_length最长的唯一物种水平分类信息,并将该微生物序列与病毒序列整合至同一个文件中,从而实现对外源基因参考数据的整合过滤。
3.根据权利要求2所述的外源污染基因及抗性基因、毒力因子编码基因的检测方法,其特征在于,所述的步骤1的外源参考基因组数据库中,还具有从蛋白层面和DNA层面收集抗性基因以及相应的蛋白参考数据库;并将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
还具有从蛋白层面和DNA层面收集毒力因子编码基因以及相应的蛋白参考数据库,将不同来源的参考数据整合为单一DNA输入和单一蛋白输入文件;
由以上处理最终得到外源基因、抗性基因、抗性蛋白、毒力因子编码基因以及毒力因子蛋白的五个全面集合的参考输入文件;针对五个经整合的参考数据库,分别在DNA层面和相应的蛋白层面和建立参考数据库索引目录。
4.根据权利要求3所述的外源污染基因及抗性基因、毒力因子编码基因的检测方法,其特征在于,所述的步骤2中分别将原始数据与各个集合的外源参考基因组数据库进行依次的DNA和蛋白比对的方法是:
由全基因组测序得到原始数据A,将原始数据A与人类参考基因组比对,得到sam格式的标准比对结果B;将此比对结果B作为参照,预先过滤原始数据A中的人类基因组,得到非人类基因序列结果C;进一步将非人类基因序列C作为输入与整合的外源参考基因组进行比对,得到原始数据A中的非人类基因比对至外源基因数据库的原始比对信息D;对原始比对结果D去冗余,剔除未比对成功的reads,得到外源基因的完全单reads比对结果E;
将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的抗性基因和蛋白参考数据库进行比对,分别得到原始的DNA比对标准结果F和蛋白质标准比对结果G;对DNA原始比对结果F去冗余,剔除未比对成功的reads,得到抗性基因的完全单reads比对结果G;筛选蛋白原始比对结果G,只保留相似性超过80%的比对序列H;
再次将非人类基因序列C作为输入文件,分别在蛋白层面和DNA层面上使用相同的比对参数与整合的毒力因子编码基因和蛋白参考数据库进行比对,分别得到原始的DNA标准比对结果I和蛋白质标准比对结果J;对原始比对结果去冗余,剔除未比对成功的reads,得到毒力因子编码基因的完全单reads比对结果L;筛选蛋白原始比对结果J,只保留相似性超过80%的比对结果M。
5.根据权利要求4所述的外源污染基因及抗性基因、毒力因子编码基因的检测方法,其特征在于,所述的步骤3中对比对结果进行过滤、整合、描述以及统计,使得结果可视化的方法是,
在DNA和蛋白层面上提取过滤后的外源污染基因比对结果E、抗性基因比对结果G、抗性蛋白比对结果H与毒力因子编码基因比对结果L、毒力因子蛋白比对结果M中提供的唯一标识性ID,对重复性ID去重后再进一步回溯检索外源序列、抗性基因、毒力因子编码基因的参考基因组数据库,并添加在非人类基因组C中以占比高低排列的外源物种的描述信息,以及抗性基因和毒力因子在DNA和蛋白层面上的物种描述、序列占比的关键信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311291401.2A CN117476102A (zh) | 2023-10-08 | 2023-10-08 | 外源污染基因及抗性基因、毒力因子编码基因的检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311291401.2A CN117476102A (zh) | 2023-10-08 | 2023-10-08 | 外源污染基因及抗性基因、毒力因子编码基因的检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117476102A true CN117476102A (zh) | 2024-01-30 |
Family
ID=89632205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311291401.2A Withdrawn CN117476102A (zh) | 2023-10-08 | 2023-10-08 | 外源污染基因及抗性基因、毒力因子编码基因的检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117476102A (zh) |
-
2023
- 2023-10-08 CN CN202311291401.2A patent/CN117476102A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349630B (zh) | 血液宏基因组测序数据的分析方法、装置及其应用 | |
CN110349629B (zh) | 一种利用宏基因组或宏转录组检测微生物的分析方法 | |
CN113689912B (zh) | 基于宏基因组测序的微生物对比结果校正的方法和系统 | |
CN112967753B (zh) | 一种基于纳米孔测序的病原微生物检测系统和方法 | |
US12040053B2 (en) | Methods for generating sequencer-specific nucleic acid barcodes that reduce demultiplexing errors | |
CN113160882B (zh) | 一种基于三代测序的病原微生物宏基因组检测方法 | |
AU2018254595A1 (en) | Using cell-free DNA fragment size to detect tumor-associated variant | |
WO2012031033A2 (en) | Method and systems for processing polymeric sequence data and related information | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
CN110875082B (zh) | 一种基于靶向扩增测序的微生物检测方法和装置 | |
CN108319817B (zh) | 循环肿瘤dna重复序列的处理方法及装置 | |
CN115691679A (zh) | 一种基于二代和三代测序技术的宏病毒组分析方法 | |
CN115662516A (zh) | 一种基于二代测序技术的高通量预测噬菌体宿主的分析方法 | |
CN117174165B (zh) | 基于宏基因组的环境耐药组分析方法 | |
US20150324518A1 (en) | Genetic Affinity of Microorganisms and Viruses | |
US20140058682A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
US20140019062A1 (en) | Nucleic Acid Information Processing Device and Processing Method Thereof | |
CN117476102A (zh) | 外源污染基因及抗性基因、毒力因子编码基因的检测方法 | |
JP2008161056A (ja) | Dna配列解析装置、dna配列解析方法およびプログラム | |
CN114045353B (zh) | 与诺如病毒感染性腹泻相关的微生物标志物及其用途 | |
Marić et al. | Approaches to metagenomic classification and assembly | |
CN118460721A (zh) | 一种原发性中枢神经系统淋巴瘤分子分型试剂盒及其应用 | |
Vimukthi et al. | A Data Driven Binning Method to Recover More Nucleotide Sequences of Species in a Metagenome | |
WO2024118105A1 (en) | Methods and compositions for mitigating index hopping in dna sequencing | |
CN117947178A (zh) | 一种用于家系身份鉴定的遗传标记组合及复合分型系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20240130 |