CN110634538A - 利福平耐药结核菌的检测方法、装置、设备和存储介质 - Google Patents

利福平耐药结核菌的检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110634538A
CN110634538A CN201910789061.3A CN201910789061A CN110634538A CN 110634538 A CN110634538 A CN 110634538A CN 201910789061 A CN201910789061 A CN 201910789061A CN 110634538 A CN110634538 A CN 110634538A
Authority
CN
China
Prior art keywords
mutation
whole genome
sequencing data
genome sequencing
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910789061.3A
Other languages
English (en)
Inventor
左天宇
李敏
徐旻昕
胡寅骏
张嘉锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Original Assignee
Shanghai Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd filed Critical Shanghai Science And Technology Development Co Ltd
Priority to CN201910789061.3A priority Critical patent/CN110634538A/zh
Publication of CN110634538A publication Critical patent/CN110634538A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供的一种利福平耐药结核菌的检测方法、装置、设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。本申请可以加快检测出临床利福平耐药结核菌是否携带相关的补偿性突变,从而判断出耐药结核菌所在的进化阶段,为临床用药提供指导。随着全球结核菌测序数据的进一步积累,其将反过来进一步提高本发明的检测准确度。

Description

利福平耐药结核菌的检测方法、装置、设备和存储介质
技术领域
本发明涉及耐药性检测技术领域,特别是涉及一种利福平耐药结核菌的检测方法、装置、设备和存储介质。
背景技术
结核病是一种古老的疾病,由结核菌感染引起,但时至今日,其仍是全球第一大传染病。结核菌主要通过耐药基因的点突变获得耐药性,而抗生素的作用靶点往往在结核菌生长中发挥重要作用,这些耐药突变一般会导致其编码产物的二级结构改变。在无抗生素的环境下,耐药结核菌相较于敏感菌会出现生长速度变慢,菌落变小、毒力下降等特征,被称作“适应性代价”。然而,耐药结核菌积累某些突变后可以明显提高其适应性,这类突变被称为补偿性突变。有不少研究发现,携带补偿性突变的耐药结核菌更容易积累耐药突变,从而影响抗结核药物的治疗效果和患者的生存预期。
利福平作用于结核菌RNA聚合酶的β亚基,抑制其转录过程。自20世纪70年代投入临床使用,利福平一直是重要的抗结核药物。RNA聚合酶的β亚基由rpoB编码,结核菌通过积累rpoB上的突变获得对利福平的耐药性。结核菌中90%以上的耐药突变位于rpoB上的利福平耐药决定区(RRDR)。rpoA和rpoC分别编码RNA聚合酶的α和β’亚基,与RNA的β亚基在二级结构上联系紧密。由于利福平作用机制清晰,耐药突变位点集中,关联基因明确,其补偿性突变的研究屡见不鲜;而最近的研究表明积累利福平耐药突变的结核菌往往也对异烟肼(利福平和异烟肼是最常用的一线抗结核药物)耐药,如果此时不接收有效治疗,结核患者将逐渐面临无药可用的尴尬局面。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种利福平耐药结核菌的检测方法、装置、设备和存储介质,以解决现有技术中的问题。
为实现上述目的及其他相关目的,本申请提供一种利福平耐药结核菌的检测方法,所述方法包括:获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
于本申请的一实施例中,所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
于本申请的一实施例中,所述从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据,包括:通过挖掘技术从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息;其中,所述利福平耐药突变信息包括利福平耐药突变对应的检测方法和突变位点;依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载所述全基因组测序数据。
于本申请的一实施例中,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
于本申请的一实施例中,所述对所述全基因组测序数据进行处理以提取固定突变,包括:过滤所述全基因组测序数据中低质量序列;选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上;鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
于本申请的一实施例中,所述基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,包括:基于所述固定突变,利用最大似然法构建系统进化树;通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息;根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;重复上述步骤,直至所述系统进化树满足预设条件。
于本申请的一实施例中,所述鉴定补偿性突变的方法包括:倒推所述系统进化树中每个节点对应的点突变,以得到每个节点对应的单核苷酸多态性信息和之前的节点;标记出所有在利福平耐药突变后积累的位于rpoA、rpoB、及rpoC基因上的基因突变;若某个所述基因突变平行出现在所述系统进化树的不同分支,则提取出所述基因突变对应的平行发生次数,若大于一定数值则鉴定为潜在补偿性突变;预测鉴定为所述潜在补偿性突变的所述基因突变对RNA聚合酶二级结构的影响,若小于预设阈值,则鉴定为与利福平耐药相关的补偿性突变。
为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:获取模块,用于获取结核菌全基因组测序相关的文献信息;处理模块,用于提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请的一种利福平耐药结核菌的检测方法、装置、设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
具有以下有益效果:
基于二代测序,可以在2周内检测出临床利福平耐药结核菌是否携带相关的补偿性突变,从而判断出耐药结核菌所在的进化阶段,为临床用药提供指导。随着全球结核菌测序数据的进一步积累,其将反过来进一步提高本发明的检测准确度。
附图说明
图1显示为本申请于一实施例中的利福平耐药结核菌的检测方法的流程示意图。
图2显示为本申请于一实施例中的电子装置的模块示意图。
图3显示为本申请于一实施例中的计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
结核病是结核分枝杆菌复合物引起的传染性疾病,致死率、致残率高,在全球传染病中居第2位。近年来耐药结核病所占比例逐年升高,成为消灭结核病面临的巨大挑战之一。传统的耐药诊断方法基于培养,费时费力,所需技术要求高;而现有分子检测方法仅能检测少量抗结核药物的少数耐药基因。因此,更好地理解抗结核药物的耐药机制有助于全面耐药诊断。
为解决如上所述由于利福平作用机制清晰,耐药突变位点集中,关联基因明确,其补偿性突变的研究屡见不鲜;而最近的研究表明积累利福平耐药突变的结核菌往往也对异烟肼耐药,如果此时不接收有效治疗,结核患者将逐渐面临无药可用的尴尬局面,本申请的目的是提供一种利福平耐药结核菌的检测方法、装置、设备和存储介质,利用国际数据库中已经积累的海量结核菌测序数据,通过构建进化树和3D结构预测的方式可以系统性地筛选出利福平耐药相关的补偿性突变,为临床中高适应性利福平耐药结核菌的检测提供依据,帮助医生及时制定有效的用药方案。
如图1所示,展示为本申请一实施例中的利福平耐药结核菌的检测方法的流程示意图。
如图所示,所述方法包括:
步骤S101:获取结核菌全基因组测序相关的文献信息。
全基因组测序(Whole Genome Sequencing),简称WGS,目前默认指的是人类的全基因组测序。所谓全(Whole),指的就是把物种细胞里面完整的基因组序列从第1个DNA开始一直到最后一个DNA,完完整整地检测出来,并排列好,因此这个技术几乎能够鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性。
于本申请一实施例中,结核菌全基因组测序相关的所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
举例来说,利用爬虫工具,以“Mycobacterial tuberculosis”和“whole genomesequencing”为关键词,在谷歌学术搜索平台(Google Scholar)或GEO数据库对文献信息进行爬取并解析,以建立初步的文献信息库。如,在发表高通量测序文章之前通常要上传测序数据到GEO数据库。
步骤S102:从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据。
于本申请一实施例中,所述步骤S102进一步包括:
A、通过挖掘技术从所述文献信息库中提取全基因组测序数据序列号和利福平耐药突变信息;其中,所述利福平耐药突变信息包括利福平耐药突变对应的检测方法和突变位点;
B、依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载所述全基因组测序数据。
于本实施例中,利用数据挖掘、文本挖掘、自然语言处理的技术挖掘手段,从文献信息中提取出结核菌的全基因组测序数据序列号,根据测序数据序列号,利用爬虫工具从EMBL爬取对应的下载链接。
优选地,从文献信息中提取利福平耐药突变和检测方法,保留有明确实验证据且被2篇及以上文献报道过的突变位点。
于本申请一实施例中,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
于本实施例中,利用数据挖掘、文本挖掘、自然语言处理的技术手段,从文献信息库中提取出结核菌的表型耐药信息和全基因组测序数据序列号。
其中,所述数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
所述文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
所述自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
于本实施例中,根据所述测序数据序列号,利用爬虫工具从EMBL爬取对应的下载链接,只下载含有表型耐药信息的结核菌的全基因组测序数据。
所述EMBL为欧洲分子生物学实验室EMBL(The European Molecular BiologyLaboratory),于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。由于具有开放和创新的良好学术氛围,EMBL已发展成欧洲最重要和最核心的分子生物学基础研究和教育培训机构。
再例如,NCBI网站(National Center for Biotechnology Information,美国国立生物技术信息中心)的所有序列相关数据库的流水GI编号,其最有用的特征就是唯一性,对于每一条递交给NCBI的序列,都会付给一个编号,而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列,类似与我们用的身份证号.因此,利用GI在NCBI中查询时,你只要把数据库(蛋白质/核苷酸)选对,只要输入这个号码就可以把相应的序列调出来。值得一提的是登录号(Accession Number),每一个递交的序列,除了获得一个GI号,还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善,每一次修改的序列会获得一个新的GI号,登录号不变,但会追加一个流水的版本号。因此,GI号和带版本号的登录号都唯一定位到唯一条序列。
步骤S103:对所述全基因组测序数据进行处理以提取固定突变。
于本申请一实施例中,所述步骤S103具体包括:
A、过滤所述全基因组测序数据中低质量序列.
于本实施例中,一般来讲,我们对测序数据进行质量控制(QC),包含三个大的方向:Quality trimming,Adapter removal,Contaminant filtering,当我们是双端测序数据的时候,去除低质量的reads就容易导致左右两端测序文件不平衡例如,因此需要有一个比较好的软件能解决这个问题。
例如,本申请中使用Sickle软件,过滤测序数据中位于3’端的低质量序列,如测序碱基质量阈值设为20,测序片段长度阈值设为20。
B、选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上。
于本实施例中,以结核菌H37Rv标准株(NC_000962.2)的全基因组序列为参考序列,使用Bowtie2软件将过滤后的测序数据比对到参考序列上,获得Bam文件。
C、鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
于本实施例中,使用SAMtools软件鉴定结核菌的突变信息,并过滤掉碱基质量小于30或测序质量小于20的位点。之后,以突变频率大于75%、出现频数不小于5次,且不存在正负链偏好性为标准,使用VarScan2软件(版本为2.3.9)鉴定出固定突变。此外,我们进一步过滤掉位于结核菌基因组中高GC含量的PPE/PE-PGRS基因家族、插入序列及转座序列位点的突变。
步骤S104:基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
于本申请一实施例中,所述基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,包括:
A、基于所述固定突变,利用最大似然法构建系统进化树。
于本实施例中,基于上述所有菌株的固定突变,使用RAxML软件(版本8.2.11),以平滑分枝杆菌基因组(M.canettii)为根,用最大似然法构建系统进化树。
B、通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息。
C、根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;
D、重复上述步骤A-C,直至满足预设条件。
于本实施例中,通过正则匹配的方式,从进化树文件中提取出二叉树结构信息和遗传距离信息。预设二叉树深度为20,排除特定菌株爆发的影响;预设N=5,若某个菌株的遗传距离均高于最近的N个菌株200以上,则提示该菌株可能受到了污染或测序错误,予以删除。重复建树和优化过程,直至满足预设条件。
于本申请一实施例中,所述鉴定补偿性突变的方法包括:
A、倒推所述系统进化树中每个节点对应的点突变,以得到每个节点对应的单核苷酸多态性信息和之前的节点。
于本实施例中,如使用hyphy软件基于贝叶斯模型倒倒推出进化树中每个节点对应的点突变,使用python脚本得到每个节点对应的单核苷酸多态性或单碱基多型性信息(SNP)和之前的节点。
B、标记出所有在利福平耐药突变后积累的位于rpoA、rpoB、及rpoC基因上的基因突变。
于本实施例中,标记出所有在利福平耐药突变后积累的位于rpoA、rpoB、及rpoC基因上的突变,即标记出所有在利福平耐药突变后积累的目标基因突变。
其中,所述rpoA、rpoB、及rpoC基因可指遗传基因(Gene,Mendelian factor),也称为遗传因子,是指携带有遗传信息的DNA或RNA序列,是控制性状的基本遗传单位。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。
C、若某个所述基因突变平行出现在所述系统进化树的不同分支,则提取出所述基因突变对应的平行发生次数,若大于一定数值则鉴定为潜在补偿性突变。
于本实施例中,基于平行进化的原则判断所有筛选出的目标基因突变,符合条件的鉴定为潜在的补偿性突变。若某个突变平行出现在进化树的不同分支,则意味着该突变不是随机产生,而是受到某种选择压力,往往具有特定意义,这被称为平行进化。基于此原理,利用python脚本提取出每个突变对应的平行发生次数,例如,数值大于2的被鉴定为潜在的补偿性突变。
D、预测鉴定为所述潜在补偿性突变的所述基因突变对RNA聚合酶二级结构的影响,若小于预设阈值,则鉴定为与利福平耐药相关的补偿性突变。
于本实施例中,利用3D模型预测潜在的补偿性突变对RNA聚合酶二级结构的影响,其中有显著性影响的被鉴定为补偿性突变。
例如,利用SIFT 3D软件模型预测潜在的补偿性突变对RNA聚合酶二级结构的影响,如设置阈值为0.05,小于阈值的提示该突变对RNA聚合酶的二级结构有明显影响,因此鉴定为利福平耐药相关的补偿性突变。
具体来说,在一临床应用场景中上述本申请所述方法对应的实施例展示如下:
1)样本处理:取结核患者的及时痰、晨痰和夜痰3份;使用CTAB法提取DNA,用PCR进行扩增;使用Illumina公司的Hiseq测序仪进行全基因组测序,测序深度设置为30。
2)基于步骤S103-S104的方法,对全基因组测序数据进行处理,提取固定突变,并检测其中是否含有利福平耐药突变和补偿性突变。
3)由于结核菌可能存活在肺部的不同部位,且在进化的过程中耐药性会产生差异,因此每次咳出的痰液不一定能反映结核菌整体感染情况,因此在实际治疗中需要兼顾不同痰液的检测结果。
综上所述,本申请提供一种从海量结核菌全基因组测序数据和对应表型耐药数据中提取出利福平耐药相关的补偿性突变并用于监测临床中高适应性利福平耐药结核菌的方法。其优点与功能在于:基于二代测序,可以在2周内检测出临床利福平耐药结核菌是否携带相关的补偿性突变,从而判断出耐药结核菌所在的进化阶段,为临床用药提供指导。随着全球结核菌测序数据的进一步积累,其将反过来进一步提高本发明的检测准确度。
如图2所示,展示为本申请于一实施例中的电子装置的模块示意图。如图所示,所述装置200包括:
获取模块201,用于获取结核菌全基因组测序相关的文献信息;
处理模块202,用于提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块202可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块202的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图3所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备300包括:存储器301、及处理器302;所述存储器301用于存储计算机指令;所述处理器302运行计算机指令实现如图1所述的方法。
在一些实施例中,所述计算机设备300中的所述存储器301的数量均可以是一或多个,所述处理器302的数量均可以是一或多个,所述通信器303的数量均可以是一或多个,而图3中均以一个为例。
于本申请一实施例中,所述计算机设备300中的处理器302会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器301中,并由处理器302来运行存储在存储器301中的应用程序,从而实现如图1所述的方法。
所述存储器301可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图3中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种利福平耐药结核菌的检测方法、装置、设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;
对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种利福平耐药结核菌的检测方法,其特征在于,所述方法包括:
获取结核菌全基因组测序相关的文献信息;
从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;
对所述全基因组测序数据进行处理以提取固定突变;
基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
2.根据权利要求1所述的方法,其特征在于,所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
3.根据权利要求1所述的方法,其特征在于,所述从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据,包括:
通过挖掘技术从所述文献信息中提取全基因组测序数据序列号和利福平耐药突变信息;其中,所述利福平耐药突变信息包括利福平耐药突变对应的检测方法和突变位点;
依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载所述全基因组测序数据。
4.根据权利要求3所述的方法,其特征在于,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
5.根据权利要求1所述的方法,其特征在于,所述对所述全基因组测序数据进行处理以提取固定突变,包括:
过滤所述全基因组测序数据中低质量序列;
选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上;
鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
6.根据权利要求1所述的方法,其特征在于,所述基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,包括:
基于所述固定突变,利用最大似然法构建系统进化树;
通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息;
根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;
重复上述步骤,直至所述系统进化树满足预设条件。
7.根据权利要求6所述的方法,其特征在于,所述鉴定补偿性突变的方法包括:
倒推所述系统进化树中每个节点对应的点突变,以得到每个节点对应的单核苷酸多态性信息和之前的节点;
标记出所有在利福平耐药突变后积累的位于rpoA、rpoB、及rpoC基因上的基因突变;
若某个所述基因突变平行出现在所述系统进化树的不同分支,则提取出所述基因突变对应的平行发生次数,若大于一定数值则鉴定为潜在补偿性突变;
预测鉴定为所述潜在补偿性突变的所述基因突变对RNA聚合酶二级结构的影响,若小于预设阈值,则鉴定为与利福平耐药相关的补偿性突变。
8.一种电子装置,其特征在于,所述装置包括:
获取模块,用于获取结核菌全基因组测序相关的文献信息;
处理模块,用于提取全基因组测序数据序列号和利福平耐药突变信息,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应所述利福平耐药突变信息构建检系统进化树,以鉴定补偿性突变。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。
CN201910789061.3A 2019-08-26 2019-08-26 利福平耐药结核菌的检测方法、装置、设备和存储介质 Pending CN110634538A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910789061.3A CN110634538A (zh) 2019-08-26 2019-08-26 利福平耐药结核菌的检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910789061.3A CN110634538A (zh) 2019-08-26 2019-08-26 利福平耐药结核菌的检测方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN110634538A true CN110634538A (zh) 2019-12-31

Family

ID=68969086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910789061.3A Pending CN110634538A (zh) 2019-08-26 2019-08-26 利福平耐药结核菌的检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110634538A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674801A (zh) * 2021-06-17 2021-11-19 杭州圣庭医疗科技有限公司 一种基于Nanopore测序仪进行结核分枝杆菌耐药检测分析系统及其构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111302A1 (en) * 2003-11-19 2006-05-25 The Scripps Research Institute & Achaogen, Inc. Compositions and methods to reduce mutagenesis
CN105787296A (zh) * 2016-02-24 2016-07-20 厦门大学 一种宏基因组和宏转录组样本相异度的比较方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060111302A1 (en) * 2003-11-19 2006-05-25 The Scripps Research Institute & Achaogen, Inc. Compositions and methods to reduce mutagenesis
CN105787296A (zh) * 2016-02-24 2016-07-20 厦门大学 一种宏基因组和宏转录组样本相异度的比较方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
IÑAKI COMAS ET AL.: "Whole-genome sequencing of rifampicin-resistant M.tuberculosis strains identifies compensatory mutations in RNA polymerase", 《NATURE GENETICS》 *
MALLIKA LAVANIA ET AL.: "Enriched whole genome sequencing identified compensatory mutations in the Rna polymerase gene of rifampicin-resistant Mycobacterium leprae strains", 《INFECTION AND DRUG RESISTANCE》 *
左天宇 等: "结核分枝杆菌利福平耐药菌株补偿性突变的系统性鉴定", 《中华结核和呼吸杂志》 *
皮锐 等: "耐药结核分枝杆菌的适应性代价与补偿性进化", 《微生物与感染》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674801A (zh) * 2021-06-17 2021-11-19 杭州圣庭医疗科技有限公司 一种基于Nanopore测序仪进行结核分枝杆菌耐药检测分析系统及其构建方法

Similar Documents

Publication Publication Date Title
Poncheewin et al. NG-Tax 2.0: a semantic framework for high-throughput amplicon analysis
Cosentino et al. PathogenFinder-distinguishing friend from foe using bacterial whole genome sequence data
Cole et al. Ribosomal Database Project: data and tools for high throughput rRNA analysis
Xia et al. Accurate genome relative abundance estimation based on shotgun metagenomic reads
Schmieder et al. Fast identification and removal of sequence contamination from genomic and metagenomic datasets
Li et al. Ultrafast clustering algorithms for metagenomic sequence analysis
CN110706755A (zh) 结核菌耐药性检测方法、装置、计算机设备和存储介质
Cao et al. A Bayesian extension of the hypergeometric test for functional enrichment analysis
Su et al. Meta-Storms: efficient search for similar microbial communities based on a novel indexing scheme and similarity score for metagenomic data
Woloszynek et al. 16S rRNA sequence embeddings: Meaningful numeric feature representations of nucleotide sequences that are convenient for downstream analyses
Nawrocki et al. Group I introns are widespread in archaea
EP3590058A1 (en) Systems and methods for metagenomic analysis
Shamsaddini et al. Census-based rapid and accurate metagenome taxonomic profiling
Yunes et al. Effusion: prediction of protein function from sequence similarity networks
Benoit et al. A predictive approach to infer the activity and natural variation of retrotransposon families in plants
Chen et al. Higher DNA insert fragment sizes improve mitogenomic assemblies from metagenomic pyrosequencing datasets: an example using Limenitidinae butterflies (Lepidoptera, Nymphalidae)
CN110634538A (zh) 利福平耐药结核菌的检测方法、装置、设备和存储介质
Borgman et al. Deep learning encoding for rapid sequence identification on microbiome data
Kosuge et al. Exploration and grading of possible genes from 183 bacterial strains by a common protocol to identification of new genes: Gene Trek in Prokaryote Space (GTPS)
Tang et al. RdRp-based sensitive taxonomic classification of RNA viruses for metagenomic data
Valdivia-Granda The next meta-challenge for Bioinformatics
Holmes Successful strategies for human microbiome data generation, storage and analyses
Chowdhury et al. MetaG: a graph-based metagenomic gene analysis for big DNA data
Liu-Wei et al. Prediction of novel virus–host interactions by integrating clinical symptoms and protein sequences
Harrison et al. In silico identification of multiple conserved motifs within the control region of Culicidae mitogenomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191231

RJ01 Rejection of invention patent application after publication