CN110706755A - 结核菌耐药性检测方法、装置、计算机设备和存储介质 - Google Patents

结核菌耐药性检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN110706755A
CN110706755A CN201910789282.0A CN201910789282A CN110706755A CN 110706755 A CN110706755 A CN 110706755A CN 201910789282 A CN201910789282 A CN 201910789282A CN 110706755 A CN110706755 A CN 110706755A
Authority
CN
China
Prior art keywords
whole genome
drug resistance
genome sequencing
sequencing data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910789282.0A
Other languages
English (en)
Inventor
左天宇
刘振宇
胡寅骏
李敏
张嘉锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Science And Technology Development Co Ltd
Original Assignee
Shanghai Science And Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Science And Technology Development Co Ltd filed Critical Shanghai Science And Technology Development Co Ltd
Priority to CN201910789282.0A priority Critical patent/CN110706755A/zh
Publication of CN110706755A publication Critical patent/CN110706755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本申请提供的一种结核菌耐药性检测方法、装置、计算机设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从中提取表型耐药信息和全基因组测序数据序列号,并依据数据序列号下载全基因组测序数据,对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。本申请可以排除未知耐药突变带来的假阴性干扰,从而提高检测的准确率。

Description

结核菌耐药性检测方法、装置、计算机设备和存储介质
技术领域
本发明涉及耐药性检测技术领域,特别是涉及一种结核菌耐药性检测方法、装置、计算机设备和存储介质。
背景技术
结核病是一种古老的疾病,由结核菌感染引起,但时至今日,其仍是全球第一大传染病。2016年,全球新发结核病例1040万,死亡病例130万。结核病的耐药率逐年攀升,给临床治疗带来了极大的挑战。
当前结核病治疗方案推荐患者在接受药物治疗前进行耐药检测,这样有助于提高治疗效果,抑制结核菌耐药性的进一步发展。然而,结核菌生长速度很慢,导致传统的耐药检测方法往往需要花费数月时间,这样不利于医生给结核患者及时制定有效的用药方案。
近年来,二代测序技术不断发展,测序精准度不断提高,而测序价格不断下降,为临床辅助诊断铺平了道路。结核菌基因组很小(4M),且都是通过耐药基因的点突变获得耐药性,利用二代测序技术可以很好地检测出耐药突变,从而检测其耐药性,这样得到了国内外不少研究的支持。然而,基于位点检测耐药性的方法需要预先知道药物的作用机制和相关基因,并从大量实验或临床治疗中总结出全面的耐药突变位点。截止目前,只有利福平满足这一要求,其它常用药物如异烟肼、氟喹诺酮类、乙胺丁醇、吡嗪酰胺等药物的分子耐药检测的精准度依然不理想。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种结核菌耐药性检测方法、装置、计算机设备和存储介质,以解决现有技术中的问题。
为实现上述目的及其他相关目的,本申请提供一种结核菌耐药性检测方法,所述方法包括:获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。
于本申请的一实施例中,所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
于本申请的一实施例中,所述从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据,包括:通过挖掘技术从所述文献信息中提取所述结核菌的所述表型耐药信息和所述全基因组测序数据序列号;依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载含有所述表型耐药信息的全基因组测序数据。
于本申请的一实施例中,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
于本申请的一实施例中,所述对所述全基因组测序数据进行处理以提取固定突变,包括:过滤所述全基因组测序数据中低质量序列;选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上;鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
于本申请的一实施例中,所述基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,包括:基于所述固定突变的突变位点,利用最大似然法构建系统进化树;通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息;根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;重复上述步骤,直至满足预设条件。
于本申请的一实施例中,所述方法还包括:基于相邻所述菌株的所述表型耐药信息,对所述结核菌耐药检测结果进行判断;若存在假阳性或者假阴性的概率,则对所述检测模型中对应每种药物的所述表型耐药信息进行修正,以消除耐药检测中由于人工误判导致的错误。
为实现上述目的及其他相关目的,本申请提供一种电子装置,所述装置包括:获取模块,用于获取结核菌全基因组测序相关的文献信息;处理模块,用于从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核病患者耐药信息。
为实现上述目的及其他相关目的,本申请提供一种计算机设备,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如上所述的方法。
为实现上述目的及其他相关目的,本申请提供一种计算机可读存储介质,存储有计算机指令,所述计算机指令被运行时执行如上所述的方法。
综上所述,本申请的一种结核菌耐药性检测方法、装置、计算机设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。
具有以下有益效果:
相比于传统的耐药检测方法,基于二代测序的分子耐药检测可以在2周内获得相应结果,时间至少缩短了75%;通过与全球已知结核菌测序数据的聚类,可以有效避免未知耐药位点造成的假阴性结果,提高检测的准确率。随着全球结核菌测序数据的进一步积累,其将反过来进一步提高本发明的检测准确度。
附图说明
图1显示为本申请于一实施例中的结核菌耐药性检测方法的流程示意图。
图2显示为本申请于一实施例中的电子装置的模块示意图。
图3显示为本申请于一实施例中的计算机设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本申请的实施例进行详细说明,以便本申请所属技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限定于此处说明的实施例。
为了明确说明本申请,省略与说明无关的部件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某部件与另一部件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
当说某部件在另一部件“之上”时,这可以是直接在另一部件之上,但也可以在其之间伴随着其它部件。当对照地说某部件“直接”在另一部件“之上”时,其之间不伴随其它部件。
虽然在一些实例中术语第一、第二等在本文中用来描述各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等描述。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本申请。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、作业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、作业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一部件相对于另一部件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或作业。例如,如果翻转附图中的装置,曾说明为在其它部件“下”的某部件则说明为在其它部件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
结核病是结核分枝杆菌复合物引起的传染性疾病,致死率、致残率高,在全球传染病中居第2位。近年来耐药结核病所占比例逐年升高,成为消灭结核病面临的巨大挑战之一。传统的耐药诊断方法基于培养,费时费力,所需技术要求高;而现有分子检测方法仅能检测少量抗结核药物的少数耐药基因。因此,更好地理解抗结核药物的耐药机制有助于全面耐药诊断。
为解决如上所述如其他常用药物如异烟肼、氟喹诺酮类、乙胺丁醇、吡嗪酰胺等药物的分子耐药检测的精准度不理想的问题,本申请的目的是提供一种结核菌耐药性检测方法、装置、计算机设备和存储介质,通过从海量结核菌全基因组测序数据和对应表型耐药数据中提取出有效特征并用于检测临床结核病患者耐药信息。
如图1所示,展示为本申请一实施例中的结核菌耐药性检测方法的流程示意图。如图所示,所述方法包括:
步骤S101:获取结核菌全基因组测序相关的文献信息。
全基因组测序(Whole Genome Sequencing),简称WGS,目前默认指的是人类的全基因组测序。所谓全(Whole),指的就是把物种细胞里面完整的基因组序列从第1个DNA开始一直到最后一个DNA,完完整整地检测出来,并排列好,因此这个技术几乎能够鉴定出基因组上任何类型的突变。对于人类来说,全基因组测序的价值是极大的,它的信息包含了所有基因和生命特征之间的内在关联性。
于本申请一实施例中,结核菌全基因组测序相关的所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。
举例来说,利用爬虫工具,以“Mycobacterial tuberculosis”和“whole genomesequencing”为关键词,在谷歌学术搜索平台(Google Scholar)或GEO数据库对文献信息进行爬取并解析,以建立初步的文献信息库。如,在发表高通量测序文章之前通常要上传测序数据到GEO数据库。
步骤S102:从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据。
于本实施例中,表型耐药是指在治疗期间病毒水平上升,一把用抗病毒药物浓度(IC50)测定,IC50增加说明药物敏感性下降或耐药程度增加,需要更大的药物剂量才能抑制变异的病毒。与之相应的,基因型耐药是指病毒聚合酶基因突变,形成新的病毒基因序列,一般采用DNA测序、基因芯片等方法测定。
于本申请一实施例中,所述步骤S102进一步包括:
A、通过挖掘技术从所述文献信息中提取所述结核菌的所述表型耐药信息和所述全基因组测序数据序列号;
B、依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载含有所述表型耐药信息的全基因组测序数据。
于本申请一实施例中,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
于本实施例中,利用数据挖掘、文本挖掘、自然语言处理的技术手段,从文献信息库中提取出结核菌的表型耐药信息和全基因组测序数据序列号。
其中,所述数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
所述文本挖掘指的是从文本数据中获取有价值的信息和知识,它是数据挖掘中的一种方法。文本挖掘中最重要最基本的应用是实现文本的分类和聚类,前者是有监督的挖掘算法,后者是无监督的挖掘算法。文本挖掘是一个多学科混杂的领域,涵盖了多种技术,包括数据挖掘技术、信息抽取、信息检索,机器学习、自然语言处理、计算语言学、统计数据分析、线性几何、概率理论甚至还有图论。
所述自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
于本实施例中,根据所述测序数据序列号,利用爬虫工具从EMBL爬取对应的下载链接,只下载含有表型耐药信息的结核菌的全基因组测序数据。
所述EMBL为欧洲分子生物学实验室EMBL(The European Molecular BiologyLaboratory),于1974年由欧洲14个国家加上亚洲的以色列共同发起建立,包括一个位于德国Heidelberg的核心实验室,及三个位于德国Hamburg,法国Grenoble及英国Hinxton的研究分部。由于具有开放和创新的良好学术氛围,EMBL已发展成欧洲最重要和最核心的分子生物学基础研究和教育培训机构。
再例如,NCBI网站(National Center for Biotechnology Information,美国国立生物技术信息中心)的所有序列相关数据库的流水GI编号,其最有用的特征就是唯一性,对于每一条递交给NCBI的序列,都会付给一个编号,而且这个编号对应的序列不可更改。这个编号对应这个唯一的一条序列,类似与我们用的身份证号.因此,利用GI在NCBI中查询时,你只要把数据库(蛋白质/核苷酸)选对,只要输入这个号码就可以把相应的序列调出来。值得一提的是登录号(Accession Number),每一个递交的序列,除了获得一个GI号,还会被赋予一个登录号。递交序列的作者利用登录号对序列进行修改和完善,每一次修改的序列会获得一个新的GI号,登录号不变,但会追加一个流水的版本号。因此,GI号和带版本号的登录号都唯一定位到唯一条序列。
步骤S103:对所述全基因组测序数据进行处理以提取固定突变。
于本申请一实施例中,所述步骤S103具体包括:
A、过滤所述全基因组测序数据中低质量序列.
于本实施例中,一般来讲,我们对测序数据进行质量控制(QC),包含三个大的方向:Quality trimming,Adapter removal,Contaminant filtering,当我们是双端测序数据的时候,去除低质量的reads就容易导致左右两端测序文件不平衡例如,因此需要有一个比较好的软件能解决这个问题。
例如,本申请中使用Sickle软件,过滤测序数据中位于3’端的低质量序列,如测序碱基质量阈值设为20,测序片段长度阈值设为20。
B、选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上。
于本实施例中,以结核菌H37Rv标准株(NC_000962.2)的全基因组序列为参考序列,使用Bowtie2软件将过滤后的测序数据比对到参考序列上,获得Bam文件。
C、鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
于本实施例中,使用SAMtools软件鉴定结核菌的突变信息,并过滤掉碱基质量小于30或测序质量小于20的位点。之后,以突变频率大于75%、出现频数不小于5次,且不存在正负链偏好性为标准,使用VarScan2软件(版本为2.3.9)鉴定出固定突变。此外,我们进一步过滤掉位于结核菌基因组中高GC含量的PPE/PE-PGRS基因家族、插入序列及转座序列位点的突变。
步骤S104:基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。
于本申请一实施例中,所述步骤S104具体包括:
A、基于所述固定突变,利用最大似然法构建系统进化树。
于本实施例中,基于上述所有菌株的固定突变的突变位点,使用RAxML软件(版本8.2.11),以平滑分枝杆菌基因组(M.canettii)为根,用最大似然法构建系统进化树。
B、通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息。
C、根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;
D、重复上述步骤A-C,直至满足预设条件。
于本实施例中,通过正则匹配的方式,从进化树文件中提取出二叉树结构信息和遗传距离信息。预设二叉树深度为20,排除特定菌株爆发的影响;预设N=5,若某个菌株的遗传距离均高于最近的N个菌株200以上,则提示该菌株可能受到了污染或测序错误,予以删除。重复建树和优化过程,直至满足预设条件。
于本申请一实施例中,所述方法还包括:
A、基于相邻所述菌株的所述表型耐药信息,对所述结核菌耐药检测结果进行判断;
B、若存在假阳性或者假阴性的概率,则对所述检测模型中对应每种药物的所述表型耐药信息进行修正,以消除耐药检测中由于人工误判导致的错误。
于本实施例中,传统的结核菌耐药检测结果需要人工判断,存在假阳性或者假阴性的可能,检测模型中需要对每种药物的表型信息进行适度修正。我们对二叉树自下而上进行修正,以利福平为例:预设N=5,若某个菌株最近的N个菌株的表型均为耐药而该菌株为非耐药,则判断该菌株的表型结果错误,修正为耐药(若N个中有2个及以上的结果为空,则不做修正)。
基于相邻菌株的表型耐药信息,对各菌株的耐药信息进行适度修正,消除耐药检测中由于人工误判导致的错误。
具体来说,在一临床应用场景中上述本申请所述方法对应的实施例展示如下:
1)样本处理:取结核患者的及时痰、晨痰和夜痰3份;使用CTAB法提取DNA,用PCR进行扩增;使用Illumina公司的Hiseq测序仪进行全基因组测序,测序深度设置为30。
2)基于步骤S103的方法,对全基因组测序数据进行处理,提取固定突变。
3)将待检测样本与检测模型中的样本利用步骤S104中相同的方法构建进化树;预设N=5,获得与待检测样本遗传距离最近的N个菌株的表型耐药信息,使用KNN算法检测每种药物的耐药结果.
4)由于结核菌可能存活在肺部的不同部位,且在进化的过程中耐药性会产生差异,因此每次咳出的痰液不一定能反映结核菌整体感染情况,因此在实际治疗中需要兼顾不同痰液的检测结果。
综上所述,本申请提供一种从海量结核菌全基因组测序数据和对应的所述表型耐药信息以构建检测模型,以供检测结核病患者耐药信息利用国际数据库中已经积累的海量结核菌测序数据和表型耐药数据,通过聚类的方法处理待检测结核菌的基因数据,基于遗传距离最近的5个已知结核菌的耐药信息检测待检测结核菌的耐药性,可以排除未知耐药突变带来的假阴性干扰,从而提高检测的准确率。
其优点与功能在于:相比于传统的耐药检测方法,基于二代测序的分子耐药检测可以在2周内获得相应结果,时间至少缩短了75%;通过与全球已知结核菌测序数据的聚类,可以有效避免未知耐药位点造成的假阴性结果,提高检测的准确率。随着全球结核菌测序数据的进一步积累,其将反过来进一步提高本发明的检测准确度。
如图2所示,展示为本申请于一实施例中的电子装置的模块示意图。如图所示,所述装置200包括:
获取模块201,用于获取结核菌全基因组测序相关的文献信息;
处理模块202,用于从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核病患者耐药信息。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请所述方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
还需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些单元可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块202可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块202的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
如图3所示,展示为本申请于一实施例中的计算机设备的结构示意图。如图所示,所述计算机设备300包括:存储器301、及处理器302;所述存储器301用于存储计算机指令;所述处理器302运行计算机指令实现如图1所述的方法。
在一些实施例中,所述计算机设备300中的所述存储器301的数量均可以是一或多个,所述处理器302的数量均可以是一或多个,所述通信器303的数量均可以是一或多个,而图3中均以一个为例。
于本申请一实施例中,所述计算机设备300中的处理器302会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器301中,并由处理器302来运行存储在存储器301中的应用程序,从而实现如图1所述的方法。
所述存储器301可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。所述存储器301存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
所述处理器302可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在一些具体的应用中,所述计算机设备300的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清除说明起见,在图3中将各种总线都成为总线系统。
于本申请的一实施例中,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所述的方法。
所述计算机可读存储介质,本领域普通技术人员可以理解:实现上述系统及各单元功能的实施例可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述系统及各单元功能的实施例;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请提供的一种结核菌耐药性检测方法、装置、计算机设备和存储介质,通过获取结核菌全基因组测序相关的文献信息;从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。
本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中包含通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (10)

1.一种结核菌耐药性检测方法,其特征在于,所述方法包括:
获取结核菌全基因组测序相关的文献信息;
从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;
对所述全基因组测序数据进行处理以提取固定突变;
基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核菌耐药信息。
2.根据权利要求1所述的方法,其特征在于,所述文献信息是利用爬虫工具以及特定关键词,在学术平台对结核菌全基因组测序相关文献信息进行爬取并解析得到的。
3.根据权利要求1所述的方法,其特征在于,所述从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据,包括:
通过挖掘技术从所述文献信息中提取所述结核菌的所述表型耐药信息和所述全基因组测序数据序列号;
依据所述全基因组测序数据序列号并利用爬虫工具爬取对应的下载链接,以下载含有所述表型耐药信息的全基因组测序数据。
4.根据权利要求3所述的方法,其特征在于,所述挖掘技术包括:数据挖掘、文本挖掘、自然语言处理中一或多种组合。
5.根据权利要求1所述的方法,其特征在于,所述对所述全基因组测序数据进行处理以提取固定突变,包括:
过滤所述全基因组测序数据中低质量序列;
选取结核菌一标准株的全基因组序列作为参考序列,将过滤后的所述全基因组测序数据比对到所述参考序列上;
鉴定结核菌的突变信息并通过基于预设参数的过滤处理以鉴定出固定突变的位点。
6.根据权利要求1所述的方法,其特征在于,所述基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,包括:
基于所述固定突变的突变位点,利用最大似然法构建系统进化树;
通过正则匹配的方式,从所述进化树中提取出二叉树结构信息和遗传距离信息;
根据预设的测序深度对所述进化树进行剪枝,并基于所述结核菌相邻菌株的遗传距离去除离群菌株;
重复上述步骤,直至满足预设条件。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于相邻所述菌株的所述表型耐药信息,对所述结核菌耐药检测结果进行判断;
若存在假阳性或者假阴性的概率,则对所述检测模型中对应每种药物的所述表型耐药信息进行修正,以消除耐药检测中由于人工误判导致的错误。
8.一种电子装置,其特征在于,所述装置包括:
获取模块,用于获取结核菌全基因组测序相关的文献信息;
处理模块,用于从所述文献信息中提取表型耐药信息和全基因组测序数据序列号,并依据所述全基因组测序数据序列号下载全基因组测序数据;对所述全基因组测序数据进行处理以提取固定突变;基于所述固定突变的突变位点和对应的所述表型耐药信息以构建检测模型,以供检测结核病患者耐药信息。
9.一种计算机设备,其特征在于,所述设备包括:存储器、及处理器;所述存储器用于存储计算机指令;所述处理器运行计算机指令实现如权利要求1至7中任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机指令,所述计算机指令被运行时执行如权利要求1至7中任一项所述的方法。
CN201910789282.0A 2019-08-26 2019-08-26 结核菌耐药性检测方法、装置、计算机设备和存储介质 Pending CN110706755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910789282.0A CN110706755A (zh) 2019-08-26 2019-08-26 结核菌耐药性检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910789282.0A CN110706755A (zh) 2019-08-26 2019-08-26 结核菌耐药性检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN110706755A true CN110706755A (zh) 2020-01-17

Family

ID=69193629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910789282.0A Pending CN110706755A (zh) 2019-08-26 2019-08-26 结核菌耐药性检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110706755A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289436A (zh) * 2020-10-19 2021-01-29 浙江大学 一种基于表型距离信息构建罕见病地图及导航的方法
CN112322696A (zh) * 2020-11-19 2021-02-05 浙江省动物疫病预防控制中心 一种菌群耐药性强度评估方法
CN112863601A (zh) * 2021-01-15 2021-05-28 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN114582429A (zh) * 2022-03-03 2022-06-03 四川大学 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106048019A (zh) * 2016-06-13 2016-10-26 遵义医学院附属医院 一种抗结核药耐药基因及其筛选方法
WO2018014002A1 (en) * 2016-07-15 2018-01-18 Pacific Northwest Diabetes Research Institute Systems and methods to facilitate genetic research
CN109712671A (zh) * 2018-12-20 2019-05-03 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测方法、装置、存储介质及计算机系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106048019A (zh) * 2016-06-13 2016-10-26 遵义医学院附属医院 一种抗结核药耐药基因及其筛选方法
WO2018014002A1 (en) * 2016-07-15 2018-01-18 Pacific Northwest Diabetes Research Institute Systems and methods to facilitate genetic research
CN109712671A (zh) * 2018-12-20 2019-05-03 北京优迅医学检验实验室有限公司 基于ctDNA的基因检测方法、装置、存储介质及计算机系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
THE CRYPTIC CONSORTIUM AND THE 100,000 GENOMES PROJECT: ""Prediction of Susceptibility to First-Line Tuberculosis Drugs by DNA Sequencing"", 《THE NEW ENGLAND JOURNAL OF MEDICINE》 *
左天宇: ""结核分枝杆菌利福平耐药菌株补偿性突变的系统性鉴定"", 《中华结核和呼吸杂志》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112289436A (zh) * 2020-10-19 2021-01-29 浙江大学 一种基于表型距离信息构建罕见病地图及导航的方法
CN112289436B (zh) * 2020-10-19 2024-03-19 浙江大学 一种基于表型距离信息构建罕见病地图及导航的方法
CN112322696A (zh) * 2020-11-19 2021-02-05 浙江省动物疫病预防控制中心 一种菌群耐药性强度评估方法
CN112322696B (zh) * 2020-11-19 2022-06-03 浙江省动物疫病预防控制中心 一种菌群耐药性强度评估方法
CN112863601A (zh) * 2021-01-15 2021-05-28 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN112863601B (zh) * 2021-01-15 2023-03-10 广州微远基因科技有限公司 病原微生物耐药基因归属模型及其建立方法和应用
CN114582429A (zh) * 2022-03-03 2022-06-03 四川大学 基于层次注意力神经网络的结核分枝杆菌耐药性预测方法及装置

Similar Documents

Publication Publication Date Title
CN110706755A (zh) 结核菌耐药性检测方法、装置、计算机设备和存储介质
Kalvari et al. Non‐coding RNA analysis using the Rfam database
Ren et al. Alignment-free sequence analysis and applications
Schmieder et al. Fast identification and removal of sequence contamination from genomic and metagenomic datasets
Reinert et al. Alignment of next-generation sequencing reads
Flutre et al. Considering transposable element diversification in de novo annotation approaches
Powell et al. Empirical evaluation of partitioning schemes for phylogenetic analyses of mitogenomic data: an avian case study
Holland et al. Deep-coverage MPS analysis of heteroplasmic variants within the mtGenome allows for frequent differentiation of maternal relatives
Bernardes et al. Improvement in protein domain identification is reached by breaking consensus, with the agreement of many profiles and domain co-occurrence
Ames et al. Using populations of human and microbial genomes for organism detection in metagenomes
Tang Phylogenetic relationships among damselfishes (Teleostei: Pomacentridae) as determined by mitochondrial DNA data
CN115719616B (zh) 一种病原物种特异性序列的筛选方法及系统
Holovachov et al. Sensitivity of ribosomal RNA character sampling in the phylogeny of Rhabditida
Rivas-González et al. Pervasive incomplete lineage sorting illuminates speciation and selection in primates
Song et al. The mitochondrial genomes of neuropteridan insects and implications for the phylogeny of Neuroptera
Chivian et al. Metagenome-assembled genome extraction and analysis from microbiomes using KBase
Bester-Van Der Merwe et al. Transcriptome-wide single nucleotide polymorphisms (SNPs) for abalone (Haliotis midae): validation and application using GoldenGate medium-throughput genotyping assays
Ringbauer et al. ancIBD-Screening for identity by descent segments in human ancient DNA
Chen et al. Higher DNA insert fragment sizes improve mitogenomic assemblies from metagenomic pyrosequencing datasets: an example using Limenitidinae butterflies (Lepidoptera, Nymphalidae)
CN110634538A (zh) 利福平耐药结核菌的检测方法、装置、设备和存储介质
Borgman et al. Deep learning encoding for rapid sequence identification on microbiome data
Teufel et al. On mechanistic modeling of gene content evolution: birth-death models and mechanisms of gene birth and gene retention
Silva et al. In Silico Identification and Characterization of Satellite DNAs in 23 Drosophila Species from the Montium Group
Lorente-Martínez et al. Genomic Fishing and Data Processing for Molecular Evolution Research
Zheng et al. Methods for evaluating unsupervised vector representations of genomic regions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117