CN108475297B - 确定传染原的传播途径的方法、系统和过程 - Google Patents

确定传染原的传播途径的方法、系统和过程 Download PDF

Info

Publication number
CN108475297B
CN108475297B CN201680063722.9A CN201680063722A CN108475297B CN 108475297 B CN108475297 B CN 108475297B CN 201680063722 A CN201680063722 A CN 201680063722A CN 108475297 B CN108475297 B CN 108475297B
Authority
CN
China
Prior art keywords
pathogen
tags
proximity
pathogens
propagation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680063722.9A
Other languages
English (en)
Other versions
CN108475297A (zh
Inventor
B·D·格罗斯
T·周
S·巴巴埃萨德赫
P·达塔
A·阿瑟
H·林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of CN108475297A publication Critical patent/CN108475297A/zh
Application granted granted Critical
Publication of CN108475297B publication Critical patent/CN108475297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • C12Q1/689Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms for bacteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)

Abstract

本文提供了用于确定针对相关病原体的传播度量或传播路径的计算机实施的方法、系统和过程。本文还提供了其上存储有可执行程序的非瞬态计算机可读存储介质,所述程序被配置为向微处理器发出指令以生成针对相关病原体的传播路径。

Description

确定传染原的传播途径的方法、系统和过程
相关专利申请
本专利申请要求于2015年10月30日提交的、发明人为Brian Gross、Thomas Chou、Saeed Babaeizadeh、Autri Dutta、Henry Lin和Andrew Arthur的标题为“A System AndMethod To Determine Transmission Paths For Genetically Related Infections”的美国临时专利申请第62/248555号的优先权。通过引用将前述申请的全部内容并入本文,包括所有的文本、表格和附图。
技术领域
该技术部分涉及生成传播度量以确定和/或追踪病原体传播的计算机实施的方法、过程和系统。
背景技术
在使用新一代测序(NGS)技术进行病原体识别和感染控制时的一个挑战是:尽管能够识别和区分与基因相关和不相关的感染,但是传播途径要求通过护理系统对每个患者的轨迹进行乏味的审查来匹配可能的病原体和患者轨迹。
发明内容
如本文所提出的,本发明的某些实施例对以下进行了促进:序列匹配到其中培养了序列分离物的微生物学结果,概览序列上传到基因组序列处理系统,运行和监测处理,以及将监视、护理人员和环境培养物分配到序列结果。在某些实施例中,本发明还通过流行病学曲线(Epi曲线)、病原体选择以及对得到的系统发育树的绘制的方式来提供时间导航工具。在本文提出的一些实施例中,病原体特异性系统发育树上的节点与针对患者获得的临床相关数据相联系,这些数据包括但不限于护理人员、装备、位置历史以及患者与一种或多种病原体来源的环境相互作用。在本文提出的一些实施例中,选择患者样本能够提供样本细节的公开内容,包括访问针对任务的每个步骤的序列流水线QC结果以及基于对感染的基因相关性和收集的关联数据的分析的可能的临床传播载体。
在本文的某些实施例中,系统发育树上的修饰物指示哪里存在与常见临床相关物的直接匹配,以及基于与病原体的基因相似性相联系的概率计算的最可能的相关性。在本文提出的某些实施例中,在表示潜在的传播中,能够根据患者样本和/或临床相关性来确定传播度量。
在本文提供的一些方面中,一种用于确定针对相关病原体的传播度量的计算机实施的方法,包括:a)提供针对多个目标中的每个目标的多个接近度标签,其中,每个接近度标签包括:(i)与目标相关联的唯一的目标识别符,以及(ii)定义所述目标在一时间段内的位置的可能的坐标;b)提供多个病原体标签,其中,每个病原体标签包括接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据c)根据所述多个病原体标签之间的关系来识别相关病原体的集合,从而提供相关病原体标签的集合;d)根据概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在,从而提供包括相关接近度标签的子集的传播度量。在某些实施例中,所述传播度量包括在显示器上呈现的交互式节点和边,每个节点包括病原体标签或接近度标签,并且每个边包括传播概率。在某些实施例中,所述多个病原体标签之间的所述关系包括所述基因组序列数据之间的关系以及所述接近度标签之间的关系。在某些实施例中,所述基因组序列数据包括与病原体相关联的一种或多种基因变异。在某些实施例中,相关病原体的所述集合是根据所述一种或多种基因变异与接近度标签的所述时间段之间的相关性来识别的。在某些实施例中,相关病原体的所述集合是根据所述一种或多种基因变异与所述目标的所述可能的坐标之间的相关性来识别的。在一些实施例中,相关病原体的所述集合是根据所述一种或多种基因变异与所述目标的所述可能的坐标之间的相关性来识别的。在一些方面中,相关病原体的所述集合是根据所述一种或多种基因变异与预计的突变率之间的相关性来识别的。
目标能够是设备或对象(例如,人类对象、患者、医生)。在人类对象是患者的情况下,与所述患者相关的所述接近度标签通常包括与所述患者有关的临床信息。在某些实施例中,可能的坐标是三维坐标。在某些实施例中,相关病原体是通过包括随机游走或加权马尔可夫链的过程来识别的。在某些实施例中,所述概率相关性包括两个或更多个接近度标签的所述可能的坐标与所述相关病原体标签中的一个或多个相关病原体标签的可能的坐标之间的概率匹配。在某些实施例中,对(d)中的一个或多个关系的所述存在的确定包括确定一个或多个人类对象与一种或多种相关病原体之间的一个或多个时间关系。在某些实施例中,所述时间关系包括两个或更多个接近度标签之间的一个或多个可能的交叉。在某些实施例中,坐标在包括一个或多个医院的一个或多个定义区域内。在某些实施例中,对相关病原体的集合的识别包括根据所述基因组序列数据将相关病原体的所述集合中的一个或多个相关病原体识别为亚物种水平或菌株水平。在一些实施例中,对相关病原体的所述集合的识别包括MLST分型、基因表达特征标志的识别、确定病原体的最近邻居,确定病原体的突变率,确定病原体生长速率,确定两种或更多种其他病原体之间的病原体进化距离和/或生成系统发育度量或系统发育树。在某些实施例中,病原体是ESAKPE病原体的种类。在某些实施例中,相关病原体的传播路径是根据所述传播度量来确定的。在某些实施例中,亲本病原体或患者零点是根据传播路径来识别的。在一些实施例中,相关病原体的可能的位置是根据所述传播路径来预测的。
在下面的描述、范例、权利要求和附图中进一步描述了某些实施例。
附图说明
附图图示了该技术的实施例,但并非进行限制。为了清楚和易于说明,附图不是按比例绘制的,并且在一些实例中,各个方面可能被夸大或放大显示以便于理解特定实施例。
图1示出了托管在联网计算平台上的系统的实施例,联网计算平台包括多个互补分析系统,多个互补分析系统包括基因组流水线处理系统(GPPS)101和实时患者分析系统103。
图2示出了显示序列状态概览的显示输出的实施例。
图3示出了显示序列分析状态概要的显示输出的实施例。
图4示出了显示具有折叠状态步骤和“BamQC”可折叠封闭评论的序列概要概览的显示输出的实施例。
图5显示了具有相关联的epi曲线导航器和相关患者数据的系统发育树。
图6a示出了平面图,而图6b示出了来自定义区内的公共参考点(例如,主入口)的坐标(以房间为单位)。
图7a和图7b示出由节点(圆圈)和边(箭头)表示的相关接近度标签的子集的传播度量(相关图)的实施例。节点P1、P2和P3表示针对患者P1、P2和P3的接近度标签,在一些实施例中,它们能够与能够用于确定传播边的病原体标签相关联。节点C1-C4表示针对护理人员C1-C4的接近度标签。传播边能够包括部分由从系统发育树导出的信息(例如,病原体的相关性,例如图7a)定义的传播概率以及接近度标签重叠(即,可能的相交,例如时间段相交和目标坐标相交)。在该实施例中,链接(即,边)是双向的,并且可以被相等地加权或者可以不被相等地加权。如果被相等地加权,那么通过分析护理人员、从记录护理过程的临床和EHR接口提取的事务来创建图7的边,并且不考虑任何基因组序列数据、坐标数据或时间数据。替代地,边可以具有不同的权重,其中,计算权重可以基于基因变异和突变差异,例如,SNP。
图8示出了由节点(圆圈)和边(箭头)表示的相关接近度标签的子集的传播度量的实施例。节点P1、P2和P3表示针对患者P1、P2和P3的接近度标签。节点C1-C4表示针对护理人员C1-C4的接近度标签。从P1到P2的边以及从P1到P3的边是单向的,并且在传播方向上提供高置信度,所述传播方向部分地由从基因组序列数据导出的系统发育树数据来定义。
图9A、图9B和图9C示出了包括包含加权方案的过程的实施例的传播度量的范例。患者节点由p来指示(例如,pS、pU、pV、pW、pX、pY和pZ),护理人员节点由c来指示(例如,cA、cB、cC、cD、cE、cF和cG)。
图10示出了由节点(圆圈)和边(箭头)表示的相关接近度标签的子集的传播度量的实施例。节点P1、L3和L5表示与患者1相关联的接近度标签,其中,接近度标签共享公共唯一的目标识别符。节点P2、L4和L6表示与患者2相关联的接近度标签,其中,接近度标签共享公共唯一的目标识别符。节点L1能够表示针对设备或对象号3的接近度标签。在一些实施例中,L2表示两个接近度标签的相交,一个与患者1相关联,而另一个与患者2相关联。L2能够由单个节点(即,确切的相交)来表示,或者由两个单独的节点(例如,针对每个患者的接近度标签和指示确切的相交或匹配的边)来表示。在P1和P2包括病原体标签并且病原体由基因组序列数据确定为相关的情况下,通常能够确定定向传播。
图11A和图11B示出了针对被确定为高度相关的菌株的病原体子集的传播度量的实施例,其中,封闭的圆圈表示由p指示的患者节点(例如,pS、pU、pV、pW、pX、pY和pZ)和由c指示的护理人员节点(例如,cA、cB、cC、cD、cE、cF和cG)。在该范例中,边(小箭头)仅被显示在患者与护理人员之间。宽箭头表示病原体(病原体标签或系统发育树)之间的关系。在该范例中,为了简单起见,假设患者与患者接触的可能性很小或者没有发生这种接触。在某些实施例中,患者与护理人员之间的边被加权和/或被归一化,其中,针对节点的所有传出权重之和为1(例如参见图11B中从护理人员cA到患者pX、pU、pV、pZ和pY的加权边)。在图11B的范例中,提供了针对每个护理人员节点的统一传出加权,其中,护理人员同样可能从护理人员接触的任何患者(pX、pU、pV、pZ和pY)接收病原体。
图12图示了基于从患者(例如,pS、pU、pV、pW、pX、pY和pZ)和护理人员(例如,cA、cB、cC、cD、cE、cF和cG)分离的高度相关病原体菌株之间的系统发育差异(或相似性)来确定边权重(W)的新颖的过程。在该实施例中,部分地根据针对相关病原体菌株的SNP子集的SNP差异来确定加权,其中,针对每个患者边的权重(例如,W)是从pZ获得的病原体与从与被连接到护理人员cA的每个患者(例如pX、pY、pU和pV)获得的病原体之间的SNP差异的倒数的和。例如,图12A示出pZ的病原体和pV的病原体具有21个SNP差异。因此,SNP=21差异并且1/21的倒数SNP差异。图12B示出pZ的病原体和pY的病原体具有1个SNP差异。图12C示出pZ的病原体和pX的病原体具有5个SNP差异。图12D示出pZ的病原体和pU的病原体具有19个SNP差异。因此,如图12E所示,边W的权重是由公式W=1/21+1/1+1/5+1/19来确定的,并且边W的权重等于1.3。在某些实施例中,边W的加权然后被归一化,因此来自每个患者节点的所有传出权重加起来为1(例如,边权重pZ到cG,pZ到cA,并且pZ到cF合计为1,如图13A所示)。在该特定范例中,如图12F所示,边W的归一化加权值等于0.53。然后能够将加权过程应用于针对护理人员和患者的所有传入边和传出边。
图13A示出了传播度量的实施例,其中,如图12的范例中所描述的,针对所有传入边和传出边确定了归一化的加权值。图13B示出了针对每个护理人员节点确定的等级,如通过对PageRank的修改所确定的(例如,2016年10月20日从互联网上检索URL:https://en.wikipedia.org/wiki/PageRank得到“The anatomy of a large-scale hypertextualWeb search engine”(Brin,S.和Page,L,1998年,Computer Networks and ISDN Systems,第30卷,第107-117页)。根据图13A所示的归一化加权值,使用修改的PageRank算法来确定每个等级。图13B还示出了针对每个护理人员节点的归一化等级值(百分比等级),其中,针对每个护理人员节点的等级%之和等于100。
图14A示出了包括位置节点L1至L7(例如,每个位置节点表示针对目标的接近度标签)和患者节点(例如,每个患者节点包括病原体标签)的传播度量的实施例。图14B示出了列出在位置节点的每个集合之间确定的距离的表格。距离能够用任何合适的方式表达(例如,2维坐标、笛卡尔坐标(即,3维坐标)、欧几里德空间中的位置阵列)。图14C示出了列出针对每对患者节点的病原体之间SNP差异的表格。
图15示出了针对在不利用边加权(图15A)、利用使用SNP差异的边加权(图15B)、利用使用位置距离的边加权(图15C),以及利用使用SNP差异的边加权与使用位置距离的边加权的组合的边加权(图15D)确定的节点L1-L7的节点等级之间的比较。
图16示出了图示由本文公开的系统执行的处理步骤的一个实施例的流程图。
具体实施方式
本文提供了计算机实施的方法,所述计算机实施的方法通过利用从包含相关病原体的核酸的样本获得的基因组序列数据以及与对象和/或目标相关联的时间和坐标信息生成传播度量来分析和追踪病原体的传播。与常规的病原体传播的计算机辅助分析和追踪相比,使用生成的传播度量可以例如使得计算机系统能够显著更快地分析和追踪病原体传播。在一些实施例中,所得到的传播度量包括具有节点和边的图,其中,每个节点表示目标(例如,感染患者、护理人员、受污染设备)以及表示节点之间的可能的病原体传播路径的边。如本文所描述的这样的图的生成(能用于分析和追踪病原体传播)可以对生成传播路径图的传统方法提供显著的改进。作为范例,这种改进可能是由传播度量的边通过新颖的加权算法进行加权引起的,该新颖的加权算法包含诸如病原体之间的基因相似性或差异、位置参数和/或时间之类的变量。然后根据与节点接触的每个边的加权对每个节点进行排序,并且能够使用排序值来识别可能的病原体载体并追踪针对给定爆发的病原体的可能的起源和路径。与产生较差的传播图的传统方法相比,本文提出的计算机实施的方法能够显著更快地生成新颖的传播度量和等级节点。
与对象和/或目标相关联的信息在本文中通常被称为接近度标签。与病原体有关的信息在本文中通常被称为病原体标签。在一些实施例中,接近度标签包含病原体标签。在一些实施例中,根据多种病原体标签和其中所包含的基因组序列数据来识别相关病原体。在某些实施例中,系统发育树上的修饰物或节点指示常见临床相关物之间存在直接匹配的地方,以及基于与感染的基因相似性相联系的概率计算的最可能的相关性。在某些实施例中,本文提供的传播度量是部分地使用接近度标签和病原体标签的信息并使用概率方法来提供某些标签的可能相交并提供相关病原体的可能传播路径来生成的。
目标和对象
目标能够是任何能够看到、检测到或触摸到的物理物品或材料物品。目标的非限制性范例包括设备(例如,序列号为xyz的支气管镜)、家具、椅子、计算机、桌子、地板、墙壁、窗户、门、通风口、空气过滤器(例如,进气过滤器或排气过滤器)、空气(例如,空气样本)、液体、对象、植物、车辆等,其任何部分或其组合。目标能够是静止的或移动的。在一些实施例中,目标是对象(例如,人类对象)。
对象能够是任何有生命或无生命的动物,包括但不限于哺乳动物、人类、非人类动物、鱼类、鸟类、农场动物等。对象可以是任何年龄的(例如,胚胎、胎儿、婴儿、儿童、成人)。对象能够是任何性别的(例如,男性、女性或其组合)。在一些实施例中,对象是哺乳动物。在一些实施例中,目标是人类对象。对象能够是患者(例如,人类患者)。在一些实施例中,对象感染了病原体(例如,相关病原体)。在某些实施例中,对象是存在于医学护理机构中的人或医学护理机构雇用的人。在某些实施例中,对象是医学专业人员或护理人员。
定义区域
在某些实施例中,目标位于定义区域内。在一些实施例中,定义区域是一个或多个定义区。位置、区或区域能够由一个或多个二维和/或三维坐标来定义。位置能够是确切的位置或可能的位置。定义区域的非限制性范例包括国家、城市、城市街区、一部分土地、建筑物、医院、公园、交通工具、建筑群或其组合。在某些实施例中,定义区域包括能够由本文描述的或本领域已知的过程或系统监测的任何区域或区。例如,定义区域能够是本发明的接近度标签和/或病原体标签能够在其中被定位、追踪和/或监控的区域的任何集合。例如,在某些实施例中,定义区域包括能够被联网、追踪和/或监控的医院集合(例如,2个、3个、4个、5个、6个或10个或更多医院)、医学设施、房间和医学运输车辆。在一个实施例中,定义区可以包括目标所行进的路径,其中,本文的系统能够确定目标在确切或可能的时间段内的确切或可能的位置(例如,坐标)。
在某些实施例中,定义区域是病原体储存器可能存在的任何区域。例如,定义区域可以包括熟练的护理设施、疗养院或爆发处置区等。
在某些实施例中,获得、分离和/或分析样本。样本(例如,包含核酸的样本)能够从合适的目标获得。样本能够是从目标或其部分分离或获得的任何样品。样本能够是从对象分离或获得的任何样品。样本能够是从目标或其部分直接或间接获得的。在一些实施例中,样本由直接从目标分离样本的个体或医学专业人员来提供。样品的非限制性范例包括来自对象的液体或组织,包括但不限于血液或血液制品(例如,血清、血浆、血小板、白细胞层等)、脐带血、绒毛膜绒毛、羊水、脑脊液、脊髓液、灌洗液(例如,肺、胃、腹膜、导管、耳朵、关节镜)、活检样本、细胞穿刺样本、细胞(血细胞、淋巴细胞、胎盘细胞、干细胞、骨髓衍生细胞、胚胎细胞或胎儿细胞)或其部分(例如,线粒体、细胞核、提取物等)、尿、粪便、痰、唾液、鼻粘液、前列腺液、灌洗液、精液、淋巴液、胆汁、眼泪、汗液、母乳、乳房液体等或其组合。从其提取核酸的液体或组织样本可以是非细胞的(例如,无细胞的)。组织的非限制性范例包括器官组织(例如,肝、肾、肺、胸腺、肾上腺、皮肤、膀胱、生殖器官、肠、结肠、脾脏、脑等或其部分)、上皮组织、毛发、毛发滤泡、导管、管线、骨骼、眼睛、鼻子、口腔、喉咙、耳朵、指甲等,其部分或其组合。样本可以包含正常、健康、患病(例如,感染)和/或癌性(例如,癌细胞)的细胞或组织。从对象获得的样本可以包含多种生物体(例如,病毒核酸、胎儿核酸、细菌核酸、寄生虫核酸)的细胞或细胞物质(例如,核酸)。样本可以从活的或非活的目标中获得。例如,样本可以是从设备、房间(例如,门、墙壁、空气样本)、桌子、椅子、衣服等获得的交换物或分离物。样本能够使用任何合适的方法来获得。
在一些实施例中,样本包括核酸或其片段。样本能够包括从一个或多个对象获得的核酸。在一些实施例中,样本包括源自病原体(例如,病毒、细菌、真菌等)的核酸。病原体能够是能够感染或存在于哺乳动物宿主中的任何微生物或寄生虫,其非限制性范例包括病毒、细菌、真菌、寄生虫、朊病毒等。在某些实施例中,样本包括生物体的全基因组。在一些实施例中,样本包括生物体的基因组的部分。在一些实施例中,样本包括核酸混合物(例如,来自两种或更多种生物体的核酸)。核酸混合物能够包括具有不同核苷酸序列、不同片段长度、不同来源(例如,基因组来源、细胞或组织来源、对象来源等或其组合)或它们的组合的两种或更多种核酸种类。样本可以包括合成的核酸。
可以使用本领域已知的合适方法从一个或多个来源或一个或多个样本导出、分离、提取、纯化或部分纯化核酸。任何合适的方法都能够用于分离、提取和/或纯化核酸。
术语“核酸”是指来自例如以下项中的任何组合物的一种或多种核酸(例如,核酸的集合或子集):DNA(例如,互补DNA(cDNA)、基因组DNA(gDNA)等)、RNA(例如,消息RNA(mRNA)、短抑制RNA(siRNA)、核糖体RNA(rRNA)、tRNA、微RNA和/或DNA或RNA类似物(例如,含有碱基类似物、糖类似物和/非原生骨架等)、RNA/DNA杂合体和聚酰胺核酸(PNA),所有这些都能够是单链或双链形式的,并且除非另有限制,所有这些都能够包括已知的天然核苷酸类似物,其能够以与天然存在的核苷酸相似的方式起作用。在一些实施例中,核酸是指基因组DNA。除非特别限制,否则该术语涵盖包括脱氧核糖核苷酸、核糖核苷酸和天然核苷酸的已知类似物的核酸。核酸可以包括由核苷酸类似物、单链(“正义”或“反义”,“正链”或“负链”,“正向”阅读框或“反向”阅读框)和双链多核苷酸合成的RNA或DNA的合适的类似物,作为等同物、衍生物或其变体。核酸可以是单链或双链的。核酸能够具有2个或更多个、3个或更多个、4个或更多个或者5个或更多个连续核苷酸的任何长度。核酸能够包括本领域被称为序列的特定5'至3'顺序的核苷酸(例如,核酸序列,例如,序列)。
核酸可以是天然存在的和/或可以是被合成、复制或改变的(例如,由技术人员、科学家或本领域技术人员)。例如,核酸可以是扩增子。例如,核酸可以来自核酸库,例如,gDNA、cDNA或RNA库。能够合成(例如化学合成)或生成(例如通过体外聚合酶延伸,例如通过扩增,例如通过PCR)核酸。在某些实施例中,核酸可以是或可以来自能够在体外或在宿主细胞、细胞,细胞的细胞核或细胞质中复制或被复制的质粒、噬菌体、病毒、自主复制序列(ARS)、着丝粒、人造染色体、染色体或其他核酸。核酸(例如,核酸库)可以包括来自一个样本或来自两个或更多个样本(例如,1个或更多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、6个或更多个、7个或更多个、8个或更多个、9个或更多个、10个或更多个、11个或更多个、12个或更多个、13个或更多个、14个或更多个、15个或更多个、16个或更多个、17个或更多个、18个或更多个、19个或更多个、或者20个或更多个样本)的核酸。
核酸测序
在某些实施例中,通过包括核酸测序的过程来分析核酸。在一些实施例中,可以对核酸进行测序。在一些实施例中,获得完整或基本上完整的序列,并且有时获得部分序列。
能够使用对核酸测序的合适方法,其非限制性范例包括Maxim&Gilbert、Sanger、链终止方法、通过合成测序、通过连接测序、通过质谱测序、基于显微镜的技术等或其组合。在一些实施例中,使用高通量测序方法。高通量测序方法通常涉及克隆扩增的DNA模板或以大规模并行方式测序的单个DNA分子,有时在流通池内测序。下一代(例如第二代和第三代等)测序(NGS)技术能够以大规模并行方式对DNA测序,并且能够用于本文所述的方法。NGS和“大规模并行测序”(MPS)方法在本文中被统称为MPS。用于进行本文所述的方法的任何合适的MPS或下一代测序方法、系统或技术平台能够用于获得测序读数,其非限制性范例包括Illumina/Solex/HiSeq(例如,Illumina的基因组分析仪;基因组分析仪II;HISEQ 2000;HISEQ 2500,SOLiD,Roche/454,PACBIO,SMRT,螺旋真单分子测序,基于离子迸发和离子半导体的测序,WildFire,5500,5500xl W和/或5500xl W基因基因分析仪技术(例如,由生命技术公司开发并出售),纳米孔测序(例如牛津纳米孔技术公司),Polony测序;焦磷酸测序,大规模并行特征测序,RNA聚合酶(RNAP)测序,IBS方法,LaserGen系统和方法,化学敏感场效应晶体管(CHEMFET)阵列,基于电子显微镜的测序,纳米球测序,通过合成测序,通过连接测序,通过杂交测序等或其变体。本文也预想到包括使用开发中的核酸成像技术(例如,透射电子显微镜(TEM)和原子力显微镜(AFM))的额外的测序技术。在一些实施例中,使用高通量测序方法。高通量测序方法通常涉及克隆扩增的DNA模板或以大规模并行方式测序的单个DNA分子,有时在流通池内测序。在一些实施例中,MPS测序方法利用靶向方法,其中,从特定染色体、基因或感兴趣区域生成序列读数。特定的染色体、基因或感兴趣区域在本文中有时被称为靶向基因组区域。在某些实施例中,使用非靶向方法,其中,样本中的大部分或全部核酸片段被随机测序、扩增和/或捕捉。在某些实施例中,通过包括成对末端测序的方法获得序列读数。在某些实施例中,第一代技术(例如,Sanger测序方法,包括自动Sanger测序方法,包括微液体Sanger测序)能够在本文提供的方法中使用,以用于确认检测到的变异是否在感兴趣的基因中或者对应物实际上在感兴趣的基因中。
使核酸经受测序方法(例如,NGS测序方法)通常提供序列读数。在某些实施例中,对于整个基因组或对于一个或多个生物体(例如,对象或病原体)的基因组的部分获得序列读数。序列读数能够通过任何合适的核酸测序方法来获得。在某些实施例中,序列读数是通过MPS方法获得的。如本文所使用的,“各个读数”(例如,“读数”、“序列读数”)是通过本文描述的或本领域已知的任何测序过程产生的短核苷酸序列。读数能够是从核酸片段的一端产生的(“单端读数”),并且有时是从核酸片段的两端产生的(例如,配对末端读数、配对末端序列读数、双末端读数)。通常读数是物理核酸中核苷酸序列的表示。例如,在含有ATGC序列描述的读数中,“A”表示物理核酸中的腺嘌呤核苷酸,“T”表示物理核酸中的胸腺嘧啶核苷酸,“G”表示物理核酸中的鸟嘌呤核苷酸,“C”表示物理核酸中的胞嘧啶核苷酸。相对较短读数的混合物能够通过本文所述的过程被变换成存在于对象或病原体中的基因组(例如,基因组核酸)的表示。能够将来自一个或多个对象的核酸混合物的读数变换成针对每个对象或病原体的基因组或其部分的表示。
在某些实施例中,从对象“获得”样本的核酸序列读数和/或“获得”从一个或多个对象获得的生物样品(例如,样本)的核酸序列读数能够涉及对核酸直接测序以获得序列信息。在一些实施例中,“获得”能够涉及接收通过另一种方法从核酸直接获得的序列信息。例如,在一些实施例中,以电子文件(例如,非瞬态计算机可读媒介)的形式提供或获得序列信息(例如,测序读数)。
NGS序列方法通常包括映射序列读数。在一些实施例中,对序列读数进行映射。在一些实施例中,使用合适的映射方法、过程或算法。在某些实施例中,本文使用修改的映射方法和过程。能够以多种方式执行核苷酸序列读数(例如,来自物理基因组位置未知的片段的序列信息)的绘图,并且通常包括将获得的序列读数或其部分与参考基因组中的匹配序列进行对齐。在这样的对齐中,序列读数通常与参考序列对齐,并且对齐的这些序列读数被指定为“映射”、“映射序列读数”或“映射读数”。
如本文所使用的,术语“被对齐”、“对齐”或“进行对齐”是指能够被识别为匹配(例如100%同一性)或部分匹配的两个或更多个核酸序列。对齐核酸序列的方法是已知的,并且任何合适的对齐方法能够用于本文描述的方法、系统、过程、模块或程序。能够手动(例如,针对小型项目)或通过计算机(例如,软件、程序、模块或算法)执行对齐,其非限制性范例包括被分布为Illumina基因组分析流水线的部分的核苷酸数据高效局部对齐(ELAND)计算机程序。序列读数的对齐能够是100%序列匹配(例如,100%同一性)。在一些情况下,对齐小于100%同一性(例如,非完美匹配、部分匹配、部分对齐)。在一些实施例中,两种核酸的可接受对齐包括至少99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、79%、78%、77%、76%或75%同一性。用于可接受对齐或匹配的参数和阈值(例如,百分比同一性阈值)能够由用户、模块或程序来预先确定。在一些实施例中,对齐包括错配(不相同的对齐核苷酸)。在一些实施例中,对齐包括1、2、3、4或更多个错配。能够使用任一条链来对齐两个或更多个序列。在某些实施例中,核酸序列与另一核酸序列的反向互补序列对齐。
NGS测序方法通常包括用于将序列读数与参考序列(例如,参考基因组)进行映射和/或对齐的各种计算方法(例如,计算机实施的方法)。序列读数能够由映射模块或由包括映射模块(例如,合适的映射和/或对齐程序)的机器或计算机来进行映射,该映射模块通常将读数映射到参考基因组或其片段。通常使用合适的映射和/或对齐程序将序列读数和/或配对末端读数映射到参考基因组,其非限制性范例包括BWA(Li H.和Durbin R.(2009)Bioinformatics 25,1754-60),Novoalign[Novocraft(2010)],Bowtie(Langmead B等人,(2009)Genome Biol.10:R25),SOAP2(Li R等人,(2009)Bioinformatics 25,1966-67),BFAST(Homer N等人,(2009)PLoS ONE 4,e7767),GASSST(Rizk,G.和Lavenier,D.(2010)Bioinformatics26,2534-2540)和MPscan(Rivals E.等人,(2009)Lecture Notes inComputer Science 5724,246-260)等。能够使用合适的短读数对齐程序来映射和/或对齐序列读数和/或配对末端读数。短读数对齐程序的非限制性范例是BarraCUDA,BFAST,BLASTN,BLAST,BLAT,BLITZ,Bowtie(例如,BOWTIE 1,BOWTIE 2),BWA(Li H,D.R.,Fast andaccurate short read alignment with Burrows-Wheeler transform(2009),Bioinformatics,26(5),589-95),CASHX,CUDA-EC,CUSHAW,CUSHAW2,drFAST,FASTA,ELAND,ERNE,GNUMAP,GEM,GensearchNGS,GMAP,Geneious Assembler,iSAAC,MAQ,mrFAST,mrsFAST,MOSAIK,MPscan,Novoalign,Novoalign3,NovoalignCS,Novocraft,NextGENe,Omixon,PALMapper,Partek,PASS,PerM,PROBEMATCH,QPalma,RazerS,REAL,cREAL,RMAP,rNA,RTG,Segemehl,SeqMap,Shrec,SHRiMP,SLIDER,SOAP,SOAP2,SOAP3,SOCS,SSAHA,SSAHA2,Stampy,SToRM,Subread,Subjunc,Taipan,UGENE,VelociMapper,TimeLogic,XpressAlign,ZOOM等,其变型或其组合。映射模块能够通过本领域已知或本文描述的合适的方法来映射测序读数。在一些实施例中,需要映射模块或包括映射模块的机器或计算机来提供映射的序列读数。映射模块通常包括合适的映射和/或对齐程序或算法。
相关的病原体
与例如哺乳动物相比,病原体部分地由于其复制速率而可能以加速速率进化。因此,通常以高发生频率将基因变异引入病原体的基因组中。这种基因变异能够用于确定在一段时间内进化和/或突变的病原体物种的系统发育关系,从而确定源自亲本来源的儿童病原体的祖先关系。
通过NGS方法获得的核酸序列数据能够用于通过将序列数据与包括针对多种致病物种的核酸序列数据的参考数据库进行比较来快速识别病原体物种。也能够使用序列(例如,序列读数)与参考序列(例如,参考基因组)的映射和/或对齐来识别病原体的基因组内的基因变异(例如,单核苷酸变异(例如,点突变、单核苷酸多态性(SNP)、缺失、插入、副本数量变化等)。通过使用包括NGS测序的方法,能够在病原体的基因组内快速确定基因变异,并且能够使用这样的基因组序列数据来识别病原体至亚物种和菌株级。因此,核酸序列数据被用于识别相关的病原体,并且在一些实施例中,用于构建用于识别潜在的源病原体以及特定病原体物种的相关后代和/或旁系病原体的系统发育树或图。具有相同或不同基因含量的相同物种的病原体在本文中被称为相关病原体。在某些实施例中,相关病原体是相同物种的相关菌株。
在某些实施例中,将来自一个或多个分离物的序列信息与同期的和历史的来自取自目标(例如,医院中的患者、设备或护理人员)的其他样本的序列信息进行比较以确定感染的路径(例如,另一患者是否可能无意中传播了这种疾病)。在某些实施例中,比较一种或多种微生物的序列信息的方法、识别相关生物体的方法、识别生物体与目标之间的共同性的方法以及确定传播路径的方法在2016年3月10日提交的国际专利申请第PCT/EP2016/055195号('195申请)(公开号WO/2016/142493)中进行了描述,通过引用将其整体并入本文。在某些实施例中,本文预想到使用'195申请中描述的方法,并且/或者将'195申请中描述的方法与本文描述的方法结合使用以生成传播度量。在某些实施例中,2016年7月11日提交的国际专利申请第PCT/IB2016/054139号('139申请)中描述了识别相关病原体的方法,通过引用将其整体并入本文。在某些实施例中,本文预想到使用'139申请中描述的方法,并且/或者能够将'139申请中描述的方法与本文描述的方法结合使用以生成传播度量。
单核苷酸变异(SNV)也用于识别相关病原体。单核苷酸变异(SNV)(例如,点突变,SNP)是病原体基因组的基因序列中的单核苷酸差异。数百至数千甚至数百万个SNV可能存在于病原体物种的基因组中。SNV能够随时在病原体基因组的任何地方发生。SNP发生的位点通常是已知的和/或被映射的。SNP通常仅具有两种不同变体中的一种(例如,C或A,A或T,G或C等)。SNP可能出现在编码的DNA序列和非编码的DNA序列两者中,并且是微生物基因组中变异和进化趋异的有用标记。
在某些实施例中,对分离的病原体内的基因变异进行识别的序列数据集合用于生成针对每种病原体的基因变异分数。能够使用任何合适的计算机实施的方法来确定基因变异分数。在某些实施例中,基因组序列数据包括基因变异分数或针对病原体基因组内的多个基因变异的序列数据。在一些实施例中,基因变异分数用于识别相关病原体(例如,相关病原体的集合)。在一些实施例中,基因变异分数包括SNP差异。
在某些实施例中,包括利用病原体物种的基因组对在多个SNP位点处的驻留核苷酸的识别的SNP数据集合在本文中被称为SNP差异。能够使用任何合适的计算机实施的方法来确定SNP差异。在某些实施例中,基因组序列数据包括SNP差异或针对病原体基因组内的多个SNP的序列数据。在一些实施例中,这种基因组序列数据用于识别相关病原体(例如,相关病原体的集合)。相关病原体通常是同一物种的病原体。在一些实施例中,相关病原体是相同物种的相关菌株。
在某些实施例中,根据包括串联重复的基因组区域内的一个或多个差异或相似性来识别相关病原体。例如,在特定物种的微生物病原体内,已经识别出某些位点,其包括具有可变数量的串联重复的区域。使用NGS测序方法,能够对病原体基因组特定位点处的串联重复的数量进行计数。通过对多个位点处的串联重复进行计数,本领域技术人员通常能够识别病原体物种的相关菌株(例如,亲本或后代)。在某些实施例中,多个串联重复位点的定量分析是通过包括多位点可变数目串联重复分析(MLVA)的方法来执行的。
在一些实施例中,本文提供了根据从两种或更多种病原体获得的基因组序列数据之间的关系来识别相关病原体的集合的方法。能够通过使用任何合适的方法比较基因组序列数据来确定两种或更多种病原体的基因组序列数据之间的关系。例如,能够通过以下措施来确定两种或更多种病原体的基因组序列数据之间的关系:比较两种或更多种病原体的基因组内的多个位点处的SNP样式,比较两种或更多种病原体的SNP差异,比较两种或更多种病原体基因组内的多个位点处的串联重复计数,比较针对两种或更多种病原体的MLVA数据或其组合。额外的数据也能够用于识别相关病原体,额外的数据的非限制性范例包括抗生素耐药性、生长需求、生长速率、突变率、微观和宏观特征、临床数据与感染患者中观察到的症状的时间关系。在某些实施例中,另外的数据包括宿主对病原体感染的响应(例如,宿主表现型、症状),该数据能够用于消除示出针对极少基因组差异(例如,SNP差异)的病原体的传播年代的歧义。因此,能够单独使用基因组序列数据或将基因组序列数据与这些额外数据组合使用,以建立系统发育树并识别相关病原体。例如,能够部分地通过确定和/或比较两种或更多种病原体的生长速率来识别相关病原体的集合。
给定已知的或估计的复制率和/或已知或估计的突变率,有时能够确定两个相关菌株之间的时间关系。在一些实施例中,两种病原体之间的基因组序列数据存在额外差异是更远的系统发育关系的证据。在某些实施例中,相同物种的两种病原体之间的基因组序列数据的差异很少或者没有差异表明这两种病原体相同或高度相关。
在一些实施例中,确定相关病原体的集合或子集。在某些实施例中,通过识别两种或更多种病原体来源于相同物种来识别相关病原体的集合或子集。在某些实施例中,通过识别两种或更多种病原体来源于相同亚物种或菌株来识别相关病原体的集合或子集。在一些实施例中,根据抗生素耐药性在菌株水平上识别相关病原体的集合或子集。例如,可以通过被识别为对四环素有耐药性的某种ESKAPE病原体(例如,金黄色葡萄球菌)的方式将两种或多种病原体识别为相关菌株。有时能够根据基因组序列数据来确定两个菌株之间的系统发育关系,例如通过比较两种病原体的SNP差异。在一些实施例中,对两种病原体之间的SNP差异的比较能够确定第二病原体源自于第一相关病原体。在某些实施例中,通过包括MLST分型的方法来识别两种相关病原体。在某些实施例中,通过包括比较基因表达特征标志的方法来识别两种或更多种相关病原体。在一些实施例中,识别相关病原体的集合包括确定病原体的最近邻居。
在一些实施例中,将一种或多种病原体的基因组序列数据与参考基因组进行比较。参考基因组能够是针对病原体物种或菌株的参考序列。在某些实施例中,根据从在一时间段内从一个或多个定义位置获得的样本中识别的病原体的集合(例如,病原体标签的集合)来确定参考基因组。例如,有时根据从在一时间段(例如,1-2年)从医院获得的样本中识别的病原体的集合(例如,病原体标签的集合)来确定参考基因组。例如,能够将包括在一时间段内从医院内的各个位置获得的细菌的冷冻样本能解冻、培养、分析和/或测序(从而生成病原体标签),并且能够将从样本获得的基因组信息与包括被识别为病原体的细菌的最近样本(例如,最近的病原体标签)的基因组信息进行比较。任何合适的病原体或病原体标签的基因组信息能够被用作参考(例如,参考基因组)。例如,样本集合内的主要MLST能够被用作参考基因组。
在一些实施例中,识别相关病原体的集合包括确定病原体的突变率。在一些实施例中,识别相关病原体的集合包括确定两种或更多种病原体之间的病原体进化距离。通常,在某些实施例中,识别相关病原体的集合包括根据基因组序列数据和其他额外的病原体数据单独地或组合地生成系统发育度量或系统发育树。在一些实施例中,相关病原体的集合包括ESKAPE病原体物种或由ESKAPE病原体物种组成。术语“ESKAPE”病原体是指以下六种病原体中的任一种:屎肠球菌、金黄色葡萄球菌、肺炎克雷伯氏菌、不动杆菌、绿浓杆菌和肠杆菌,这些物种有时与多药耐药性毒性相关联。
在某些实施例中,根据传播度量来确定相关病原体的传播路径。在一些实施例中,根据传播路径来识别亲本病原体。
术语“百分比相同”、“%相同”或“百分比同一性”是指两条多核苷酸序列之间的序列同一性。能够通过比较每个序列中可以为了比较目的而被对齐的位置来确定同一性。当比较的序列中的等同位置被相同的核苷酸占据时,则该分子在该位置是相同的。当等同的位点被相同或相似的核苷酸占据时,则该分子能够被称为在该位置处同源(相似)。作为同源性、相似性或同一性的百分比的表达是指在由被比较的序列共有的位置处的相同或相似的核苷酸的数目的函数。作为同源性、相似性或同一性的百分比的表达是指在由被比较的序列共有的位置处的相同或相似的核苷酸的数目的函数。能够使用任何合适的算法或程序来确定同源性、相似性或同一性。可以用于确定同源性、相似性和/或同一性的对齐算法和/或程序的非限制性范例包括FASTA,BLAST或ENTREZ。FASTA和BLAST可作为GCG序列分析包(威斯康星大学,麦迪逊,威斯康星州)的一部分而获得,并且能够与例如默认设置一起使用。ENTREZ可通过国家生物技术信息中心,国家医学图书馆,国立卫生研究院,贝塞斯达,马里兰州获得。在一个实施例中,两个序列的百分比同一性能够通过GCG程序以1的空位权重来确定,例如,每个核苷酸空位被加权为好像它是两个序列之间的单个核苷酸错配。
在以下文献中描述了其他用于对齐的技术:Methods in Enzymology(第266卷,Computer Methods for Macromolecular Sequence Analysis,1996年,ed.Doolittle,Academic Press,Inc.,美国加利福尼亚州圣迭戈市Harcourt Brace&Co.的一个部门)。在一些实施例中,利用允许序列中的空位的对齐程序来对齐序列。Smith-Waterman是允许序列对齐中存在空位的一种算法。参见Meth.Mol.Biol.(第70卷,第173-187页,1997年)。而且,使用Needleman和Wunsch对齐方法的GAP程序能够用于对齐序列。替代性搜索策略使用MPSRCH软件,该软件在MASPAR计算机上运行。MPSRCH使用Smith-Waterman算法在大规模并行计算机上对序列进行评分。这种方法提高了获得较远的相关匹配的能力,并且特别容忍小的空位和核苷酸序列错误。核酸编码的氨基酸序列能够用于搜索蛋白质数据库和DNA数据库两者。
在一些实施例中,将与序列读数相关联的一个或多个序列读数和/或信息以合适的计算机可读格式存储在非瞬态计算机可读存储介质上和/或从非瞬态计算机可读存储介质访问与序列读数相关联的一个或多个序列读数和/或信息。被存储在非瞬态计算机可读存储介质上的信息有时被称为文件或数据文件。通常将基因组序列数据、读数、选择的读数、读数的集合或子集和/或与一个或多个读数相关联的信息存储在合适的文件或合适的数据文件中。基因组序列数据能够被存储在本地或远端,例如被存储在一个或多个本地服务器、一个或多个远程服务器或基于云的系统中。在某些实施例中,能够从本地或远端(例如从一个或多个本地服务器、从一个或多个远程服务器或从基于云的系统)检索和/或访问与病原体标签或接近度标签相关联的基因组序列数据。
接近度标签
在某些实施例中,提供了接近度标签。在一些实施例中,提供了多个接近度标签。在某些实施例中,病原体标签是指与目标相关联或与目标相关的电子信息。在一些实施例中,接近度标签是以非瞬态计算机可读存储介质(例如,文件,信息包)的形式存储的信息的集合。在某些实施例中,接近度标签或其部分能够被传送到一个或多个计算机模块、系统、处理器、服务器、存储介质等并且/或者能够从一个或多个计算机模块、系统、处理器、服务器、存储介质等进行传送,并且可以被变换成可视显示(例如,监视器、交互式视觉显示器)或者被打印出。在某些实施例中,接近度标签包括关于目标的信息并且常常包括与单个目标(例如,设备、对象、患者、医学专业人员)相关联的唯一目标识别符。能够提供多个接近度标签,其中,接近度标签中的每个与相同的目标和/或相同的目标识别符相关联。因此,唯一的识别符通常对于目标是唯一的。另外,能够为多个不同的目标提供多个接近度标签。唯一识别符能够是任何合适的识别符,其非限制性范例包括名称(例如,对象名称、设备名称)、任何合适的字母数字识别符、社保帐号、患者ID、保险ID、电子病历ID等,或其组合。唯一识别符能够是加密的或非加密的。在某些实施例中,唯一识别符被加密并且只能由授权用户访问。
在一些实施例中,接近度标签包括与目标相关联的数据或信息的子集。在某些实施例中,接近度标签包括可能的坐标。在某些实施例中,可能的坐标定义在一时间段内在一个或多个定义区域内的目标的位置或位置历史。位置能够是确切的位置或可能的位置。移动目标的位置也可以与时间段相关联。坐标能够是二维坐标或三维坐标。在某些实施例中,接近度标签的坐标是三维坐标。在一些实施例中,可能的坐标能够是确切的坐标,例如,在特定时间段处目标的确切位置是已知的和/或经验证的。在某些实施例中,可能的坐标是目标在指定时间段处或在指定时间段内出现在定义位置处的概率。例如,当目标是建筑物内的固定目标时,在任何一个特定时间就知道该目标的位置的精确坐标。在某些实施例中,当目标是设备(例如,被安装在轮子上的诸如血压机的移动医学设备)时,与设备相关联的第一接近度标签能够验证设备在某个日期的中午1点至下午6点之间的时间段处位于医院1的楼层3的特定手术室内的确切位置。在某些实施例中,与相同设备相关联的第二接近度标签能够验证设备在同一日期的下午8点至下午10点之间的时间段处位于医院1的楼层3的特定急诊室内的确切位置。在某些实施例中,针对相同设备的第三接近度标签能够提供可能的坐标(例如,高概率),指示设备在同一天下午6点至晚上8点之间位于医院1的楼层3的某处。在又一范例中,当目标是在某一天的早上8点在医院1处登记入住并且在同一天的上午10点结账离开的患者时,提供指示患者在上午8点至上午10点之间在医院1内的可能的坐标的接近度标签。如果同一患者在同一天上午8:30根据安排访问在房间C中与琼斯博士进行工作访问,那么提供指示患者在上午8:30点在房间C中的确切位置的另一接近度标签。另外,针对琼斯博士生成指示在上午8:30在房间C中的确切位置的接近度标签。因此,由本文的方法生成的传播度量能够根据提供的接近度标签来识别在同一天内患者与琼斯博士之间在同一位置处的交叉。
在一些实施例中,为患者、护理人员或存在于定义区中的任何目标生成接近度标签,将接近度标签分配给患者、护理人员或存在于定义区中的任何目标或者使得接近度标签与患者、护理人员或存在于定义区中的任何目标相关联。例如,在医院内,能够为家政工作人员、访客、维修人员、司机、合同工、文员和管理人员以及护理人员、患者和设备生成、分配或关联接近度标签。
在某些实施例中,由包括实时定位系统(RTLS)或实时定位服务的系统或过程创建、生成、追踪和/或存储一个或多个接近度标签。在某些实施例中,能够使用一个或多个RTLS系统来生成、追踪、收集和存储用于包括人和设备的目标的接近度标签。在一些实施例中,当确定护理事务时,为患者和/或护理人员生成接近度标签。例如,当患者被允许从ED进入特定患者房间时,或者当护理员x例如在位置z处执行流程Y时,临床或HIT系统能够为患者和护理人员生成接近度标签。
在某些实施例中,接近度标签包括关于患者(例如,作为患者的目标)的临床信息,其非限制性范例包括诊断、健康史、健康状况、感染状况、症状、处置、预后、所到访的医师、入住时间、结账离开时间、所到访的治疗室、患者姓名、患者ID等及其组合。
时间段能够是确切的时间,也可以是时间范围。例如,时间段能够是2015年7月9日下午5点。在又一范例中,时间段能够在2015年7月9日下午5点至2015年7月12日下午3点之间。因此,在某些实施例中,时间段是特定的日子、小时和/或分钟。在一些实施例中,时间段是一分钟或几分钟、几小时、几天、几周、几月或几年的时间范围。在目标被固定在建筑物内的情况下,针对该目标的接近度标签的时间段可能为数年或更长。
病原体标签
在某些实施例中,提供病原体标签。在一些实施例中,提供了多个病原体标签。在某些实施例中,病原体标签是指与病原体相关联或与病原体相关的电子信息。在一些实施例中,病原体标签是以非瞬态计算机可读存储介质(例如,文件、数字信息包)形式存储的信息的集合。在某些实施例中,病原体标签或其部分能够被传送到一个或多个计算机模块、系统、处理器、服务器、存储介质等并且/或者从一个或多个计算机模块、系统、处理器、服务器、存储介质等传送,并且可以被变换成视觉显示(例如,监视器、交互式视觉显示器)或被打印出。在某些实施例中,病原体标签包括接近度标签。在一些实施例中,接近度标签包括病原体标签。在某些实施例中,病原体标签包括关于病原体的信息并且通常包括与病原体相关联的唯一的病原体识别符或从其获得或分离病原体的样本。在一些实施例中,能够提供多种病原体标签,其中,病原体标签中的每种与相关或不相关的病原体相关联。唯一的病原体识别符能够是任何合适的识别符,其非限制性范例是名称(例如,病原体属、物种和/或菌株)、任何合适的字母数字识别符、基因组指纹、条形码等或其组合。唯一的病原体识别符能够被加密或不被加密。在某些实施例中,唯一的病原体识别符被加密并且只能由授权用户访问。
病原体通常是从自目标获得的样本获得的。相应地,在某些实施例中,病原体标签包括与目标相关联的接近度标签。在一些实施例中,与病原体标签相关联的接近度标签提供关于何处以及何时获得或分离病原体的信息。在一些实施例中,与病原体标签相关联的接近度标签提供了定义从中获得病原体(或包括病原体的样本)的目标的位置的可能的坐标。在一些实施例中,与病原体标签相关联的接近度标签提供了获得病原体(或包括病原体的样本)的时间段。例如,病原体标签通常包括这样的接近度标签:该接近度标签具有针对从中获得样本的对象的唯一识别符,其中,样本稍后被确定为包括病原体,以及指示患者的位置和获得样本的时间段的信息。在一些实施例中,病原体标签包括与病原体相关联的数据或信息的子集。
在一个非限制性范例中,样本是从目标获得的,其中,样本包括核酸并且样本经受包括NGS测序的分析。对得到的核酸读数进行分析并将其与参考序列(例如,其他病原体标签的基因组序列数据)进行比较以确定病原体是否存在。当认为存在病原体时,提供或生成第一病原体标签,该标签包括针对第一病原体的基因组序列数据,唯一的病原体识别符以及与从中获得病原体的目标相关联的接近度标签。在其中第一病原体标签与第一接近度标签相关联(例如,对于目标、对象或移动目标)的某些实施例中,可以生成额外的病原体标签,该新生成的病原体标签与具有与第一接近度标签相同的唯一目标识别符的其他接近度标签相关联、被链接到或包括具有与第一接近度标签相同的唯一目标识别符的其他接近度标签。这种额外的病原体标签可以包括接近度标签,其指示感染的对象或设备存在的时间段和位置(例如,可能的坐标)(例如,在包括第一病原体的样本分离之前或之后的时间)。在一些实施例中,立即触发通知以从服务中移除与病原体标签相关联的设备。在一些实施例中,立即触发通知并将其发送给医学专业人员,通知他们存在感染第一病原体的患者。在一些实施例中,生成病原体标签根据基因组序列数据与保留在病原体标签中的其他物种或菌株信息的比较来触发其中识别其他相关病原体的过程。在一些实施例中,识别两种或更多种相关病原体触发了(例如,在计算机实施的系统内)招收一些或全部相关病原体标签并且/或者启动生成系统发育度量或树的过程。在一些实施例中,根据系统发育度量或树来识别相关病原体。
在一些实施例中,病原体(例如,相关病原体)与传播树相关联,其中,树的节点是基于针对低SNP差异分数的临床数据驱动消歧来组织的。
系统发育度量是指任何合适的系统发育关系或系统发育树。系统发育度量或系统发育树能够通过使用任何合适的方法来生成。在一些实施例中,系统发育度量是系统发育图。例如,在国际专利申请公开第WO/2016/024213号中提供了生成系统发育树并识别关系的示范性方法,通过引用将其并入本文。存在多种系统发育方法,包括基于进化距离、简约性和最大可能性的方法。基于距离的方法确定每个生物体之间的进化距离。有时基于生物体的基因序列之间的相似程度来计算进化距离。用于确定进化距离的一种这样的方法被称为Jukes-Cantor(由M.N.Munro编辑的作者为T.H.Jukes、C.R.Canto的Evolution OfProtein Molecules In Mammalian Protein Metabolism,第III卷,1969年,第21-113页),通过应用将其并入本文。在某些实施例中,进化速率可以通过合适的方法来确定。在某些实施例中,生成系统发育度量或树并识别相关病原体(或其子集)包括确定病原体之间的进化距离和关系并且/或者以图形形式(例如,树形图)标绘所述距离和/或所述关系。在某些实施例中,能够使用以下文献中描述的合适的方法来生成系统发育度量和/或系统发育树并将系统发育度量和/或系统发育树用于识别相关病原体:Saitou N、Nei M.的“TheNeighbor-Joining Method:A New Method For Reconstructing Phylogenetic Trees”,(1987年,Molecular Biology and Evolution,第4卷,第4期,第406-425页);Britton、Tom等的“Phylogenetic dating with confidence intervals using mean path lengths”(2002年,Molecular Phylogenetics and Evolution,第24卷,第1期,第58-65页);和/或国际专利申请公开号WO/2016/051298。在某些实施例中,通过包括随机游走或加权马尔可夫链的过程来识别相关病原体。
在某些实施例中,接近度标签和/或病原体标签能够被变换成显示器上的交互式数字图像,例如被表示为节点。在一些实施例中,图像包括针对系统发育树或传播树的节段的接近度标签的相遇时间历史。在一些实施例中,本文描述的系统的用户(例如,远程用户)能够通过在显示器上的交互节点(例如,图像、图标)上选择(例如,通过鼠标点击,触笔或手指选择)来访问接近度标签以及被包括在接近度标签中的一些或全部信息,其中,这样的节点表示接近度标签。
传播度量
在某些实施例中,本文提供或生成传播度量。在某些实施例中,传播度量是根据多个接近度标签和/或针对多个相关病原体的病原体标签生成的。在某些实施例中,传播度量包括传播图。例如,传播图可能只包括对象节点。在一些实施例中,传播图仅包括患者节点,仅包括护理人员节点,或者仅包括患者和护理人员节点。在某些实施例中,传播度量包括相关图。在一些实施例中,相关图包括对象节点和病原体节点。在一些实施例中,传播图能够是交互式传播图。在某些实施例中,传播图包括相关图。在一些实施例中,传播度量包括一个或多个节点以及一个或多个边。在一些实施例中,节点包括病原体标签。在一些实施例中,节点包括接近度标签。在某些实施例中,节点包括一个、两个、三个、四个或更多个接近度标签、病原体标签或其组合。在某些实施例中,节点表示两个或更多个接近度标签和/或病原体标签(即,标签)之间的交叉。在某些实施例中,交叉是两个或更多个标签之间的重叠,其中,存在两个或更多个标签的目标共享一时间段和可能的坐标的重叠的可能性、概率或确认情况。在一些实施例中,边包括交叉。节点通常表示相关病原体的子集、与所述相关病原体相关联的目标的子集、可能的时间段和可能的坐标之间的一个或多个关系。实施例A1的方法,其中,传播度量包括在显示器上呈现的交互式节点和边,每个节点包括病原体标签或接近度标签,并且每个边包括传播概率。
在某些实施例中,基因组序列数据包括相对于已知参考基因组的一个或多个单核苷酸变体(SNV)或单核苷酸多态性(SNP)或病原体的整个基因组序列,病原体的整个基因组序列能够通过使用基因组组装技术将序列读数与已知的参考基因组进行对齐或者通过混合方法来构建。当对多种病原体进行测序时,能够比较来自样本的基因组序列以对2种病原体序列之间SNV差异的数量进行计数。在一个实施例中,我们能够通过检查所有单核苷酸变体(SNV)来测量基因组相似性,但是其他实施例可以通过仅考虑SNP(其是在至少两个样本中发生的SNV)来测量基因组相似性。此外,通过还考虑其他基因差异(例如,突变差异),能够更广泛地测量基因组相似性,所述基因差异包括但不限于样本之间的插入、缺失、倒位、重排、串联重复和拷贝数变异。通过检查这些突变差异,我们能够定义一个度量来测量样本之间的差异。在最简单的实施例中,该突变差异分数能够简单地为两个样本之间SNV差异的数量,但更复杂的版本可以基于上述突变差异类别中的样本之间的观察到的差异的加权和来计算差异分数。
在某些实施例中,能够使用能够基于例如病原体相关性(例如,SNP差异/相似性)和/或接近度性(例如,目标之间的物理距离)提供节点之间的边权重的新颖加权过程来生成传播度量。例如,在定义位置(例如,医院)内,可以从若干目标(护理人员、设备、患者)获得生物样本,其中,基因和/或微生物分析确定样本的子集都含有相关的病原体(例如,相同的物种或相关菌株)。然后能够生成传播度量,其中,度量中的每个节点表示目标(例如,包括病原体标签的目标)。请注意,病原体标签或目标可能或可能不与接近度(例如,位置)相关联。在一些实施例中,例如根据收集的输入数据(例如,参见图1的系统)知道在某个时间点处(例如,在选定的时间段内)传播度量中的某些目标具有接触(例如,确认的接触或可能的接触)。然后能够通过本文描述的新颖过程对节点之间的边进行加权和/或排序。例如,能够根据针对每个节点的病原体的SNP差异来确定边权重(例如,参见图12)。在一些实施例中,根据SNP差异来确定边加权,其中,针对中央节点(第一目标)和所有接触或怀疑接触中央节点(可能接触)的节点之间的每个边的权重是中央节点的病原体与每个接触节点的病原体之间的SNP差异的倒数之和。例如,图12A示出了pZ的病原体与pV的病原体具有21个SNP差异。因此,SNP差异等于21,而SNP差异倒数为1/21。图12C示出了pZ的病原体与pX的病原体具有5个SNP差异,并且因此SNP差异倒数为1/5。因此,如图12E所示,边W(图12)的权重由公式W=1/21+1/1+1/5+1/19来确定,边W的权重等于1.3。在某些实施例中,边W的加权然后被归一化,因此来自每个患者节点的所有传出权重加起来为1(例如,边权重pZ到cG,pZ到cA,并且pZ到cF加起来为1,如图13A所示)。在该特定范例中,如图12F所示,边W的归一化加权值等于0.53。然后能够将加权过程应用于针对传播度量中的所有节点的所有传入边和传出边。在某些实施例中,加权包括利用基于SNV或SNP差异或相似性的随机游走或加权马尔可夫链方法的过程。
在某些实施例中,能够根据接近度对边进行加权。能够在目标之间的实际或可能的距离之间对例如节点之间的边(每个节点表示针对目标的接近度标签)进行加权。众所周知,某些病原体能够通过直接接触以及通过空气传播机制进行传播。因此,当确定传播度量时,考虑潜在载体(例如,携带传染性病原体的人)与可能已经从该载体获得病原体的另一个人或设备之间的距离通常是重要的。确定病原体的传播路径的方法可以考虑目标之间的直接接触或目标之间的物理距离。本文描述的方法能够使用目标之间的距离对传播度量的节点之间的边进行加权。距离能够以任何合适的方式来表达,非限制性范例包括平面内的两个或更多个目标之间的距离(二维坐标系),三维空间中两个目标之间的距离(例如,其中,位置被表达为笛卡尔坐标)或欧几里得空间中的位置阵列。例如,本文描述的方法能够基于以下事实对传播度量的两个节点之间的边进行加权:潜在载体(例如,第一节点,携带传染性病原体的人)出现在另一个人(例如,第二节点,被确定感染相关病原体的人)的垂直12英尺内的位置处。例如,确定在其中确定另一个人(例如,第二节点)存在的第三层楼的治疗室正上方的第四层楼的治疗室中存在潜在载体(第一节点),并且两个房间共用一个共同的通风口。相应地,在某些实施例中,根据三维空间内的目标之间的距离对节点之间的边进行加权。
例如,对于一个节点(第一位置)到另一个节点(另一个位置)的每个传出边,权重被提供为节点之间的距离的倒数。该过程类似于基于SNP差异对边进行加权的方法。如果节点位置之间的距离为零,那么0值能够被最小非零距离的1/10替换。替代地,能够将0值替换为1/2至1/10000或最小非零距离。替代地,能够将0值替换为最小非零距离的1/20、1/50或1/100或更小。能够将最小非零距离预先确定为小于传播度量的节点之间的任何其他距离的任意值。在一些实施例中,最小非零距离是在节点与任何其他连接节点之间确定的最小距离。在一些实施例中,节点的距离或位置值能够不存在或是未知的。对于丢失的距离值,能够使用传播度量的节点之间的最大距离的10倍的值。替代地,能够使用节点之间的最大距离的2到1000倍的值。替代地,能够使用节点之间的最大距离的2倍、5倍、10倍、50倍、100倍或更多倍的值。
在一些实施例中,根据时间对边进行加权。例如,对于在数秒内出现在相同位置处的节点(例如,表示两个目标)之间的边,赋予比分隔数小时或数天时间的两个节点之间的边更大的权重。该过程类似于基于距离对边进行加权的方法。
相应地,能够根据病原体相关性(例如,SNP差异)、距离(例如,位置)和/或时间对传播度量的节点之间的边进行加权。例如,在某些实施例中,根据病原体相关性和距离、病原体相关性和时间、距离和时间或病原体相关性、距离和时间对传播度量的节点之间的边进行加权。例如,如图15所图示的,能够使用SNP差异(图15B),使用位置距离(图15C)或使用利用SNP差异和位置距离对边进行加权的组合(图15D)来对边进行加权。在一些实施例中,对边加权进行归一化。在一些实施例中,未对边加权进行归一化。
在一些实施例中,对节点进行排序或对节点提供等级分数或等级值。在一些实施例中,根据边权重来确定节点等级。因此,根据病原体的基因相似性或差异、位置(例如,目标的相对位置)和/或时间来确定每个节点的等级或等级值。在一些实施例中,根据针对与节点接触的一些或所有边的边权重来确定节点等级。在一些实施例中,对节点等级进行归一化。在一些实施例中,未对节点等级进行归一化。在某些实施例中,使用对PageRank的修改(例如,2016年10月20日从互联网检索(<URL:https://en.wikipedia.org/wiki/PageRank>;Brin,S.和Page,L.,1998年)“The anatomy of a large-scale hypertextualWeb search engine”(Computer Networks and ISDN Systems,第30卷,第107-117页)对传播度量的节点进行排序。PageRank算法是网站搜索引擎(例如,Google)使用的网站排序工具,并且本文对其进行修改以开发新的、更准确的且更快的病原体传播度量的节点排序过程。
例如,使用本文提出的新颖的加权算法,包括1000个节点的传播度量的23449个边(例如,800个护理人员和200个患者)花费大约416毫秒。然后在38次迭代之后对这1000个节点进行排序,这个排序总共需要28毫秒。因此,如本文所述的生成传播度量和对节点排序的过程比传统方法更具信息性并且更快。
在某些实施例中,根据突变差异(例如,突变差异分数)和时间段(例如,针对两种或更多种病原体样本的样本分离之间所经历的时间)之间的相关性来识别集合中的相关病原体。在某些实施例中,根据突变差异(例如,突变差异分数)和时间段(例如,针对两种或更多种病原体样本的样本分离之间所经历的时间)之间的相关性,对两个节点之间(例如,两个病原体标签之间)的边进行加权。在一些方面中,根据一个或多个突变差异与预计突变率之间的相关性来识别集合中的相关病原体。
在某些实施例中,通过包括随机游走或加权马尔可夫链的过程来识别相关病原体。在某些实施例中,使用随机游走来提供针对相关性的概率分数作为负责一个或多个传播的概率分数,并且能够根据概率分数对相关性进行排序。在某些实施例中,概率相关性包括两个或更多个接近度标签的可能的坐标与相关病原体标签中的一个或多个的可能的坐标之间的概率匹配。在某些实施例中,确定一个或多个关系的存在包括确定一个或多个目标(例如,接近度标签、病原体标签)之间的一个或多个时间关系。在某些实施例中,时间关系包括两个或更多个接近度标签之间的一个或多个可能交叉。在一些实施例中,识别相关病原体的集合包括分型方案(例如,多位点序列分型(MLST)、核糖体MLST(rMLST)、核心基因组MLST(cgMLST)和全基因组MLST(wgMLST)),或者识别基因表达特征标志,确定病原体的最近邻居,确定病原体的突变率,确定病原体生长速率,确定两种或更多种其他病原体之间的病原体进化距离,和/或生成系统发育度量或系统发育树。在文献中,系统发育树通常表示样本的进化历史,其中,样本出现在树叶处,并且创建内部节点和边/分支以基于进化关系连接样本。在本专利中,我们使用术语系统发育树来指代这种类型的树以及创建传播树的概念,其中,患者样本与边直接连接(并且不创建内部节点/分支)。此外,我们还能够将系统发育树或传播树的概念扩展到系统发育图或传播图,其中,样本之间的关系不再由树(样本之间恰好存在一条路径的图)来表示。该系统发育图或传播图可以包括样本之间的多个边或多个路径,其可以表示发生传播的许多可能方式,并且可以具有与样本之间的多个边/路径相关联的概率或置信度分数。在某些实施例中,病原体是ESAKPE病原体的物种。在某些实施例中,根据传播图或相关图来确定相关病原体的传播路径。在某些实施例中,根据传播路径来识别亲本病原体或患者零点。在一些实施例中,根据传播路径来预测相关病原体的可能的位置。
在某些实施例中,使用并入接近度信息(例如,接近度标签信息,时间和坐标;例如,三维坐标信息)和病原体标签信息(例如,基因组序列数据)以产生可能的传播链路的概率方法来生成传播度量。在一些实施例中,传播度量包括宿主对病原体的响应、病原体生长速率/突变率,以及影响生长速率/突变率的环境变量(例如,像灭菌有效性和ABX选择)。在某些实施例中,部分地使用基于系统发育树数据的贝叶斯推理方案来生成传播度量(例如,参见Drummond和Rambout的“BEAST:Bayesian Evolutionary Analysis By SamplingTrees”(2007年,BMC Evol.Biol.,第7卷,第214页);Didelot和Falush的“Interference OfBacterial Microevolution Using Multilocus Sequence Data”(2007年,Genetics,第175卷,第3期,第1251页);Didelot,X.等人的“Bayesian Inference Of InfectiousDisease Transmission From Whole-Genome Sequence Data”(2014年,Mol.Biol.Evol.,第31卷,第7页,第1869-1879页);Cottam E.M.等人的“Transmission Pathways Of Foot-And-Mouth Disease Virus In The United Kingdom”(2007年,PLoS Pathog.,第4卷,第4期:第e1000050页);Jombart,T.等的“Bayesian Reconstruction Of Disease OutbreaksBy Combining Epidemiologic And Genomic Data”(2014年,PLOS,第10卷,第1期,第e1003457页)。
在一些实施方式中,本文的程序被配置为向微处理器发出指令以获得或检索包括一种或多种病原体的基因组序列数据的一个或多个基因组序列数据文件。在某些实施例中,向微处理器发出指令以生成针对每种病原体的病原体标签,其中,每种病原体标签包括与病原体有关的基因组序列数据、病原体识别符以及包括位置和/或最初从其获得病原体的目标(例如,从其获得样本)的接近度标签。在一些实施例中,本文的程序被配置为构建系统发育树。在一些实施例中,本文的程序被配置为根据一个或多个基因组序列数据文件来构建系统发育树,从而确定从两种或更多种病原体获得的基因组序列数据之间的关系。在某些实施例中,确定从两种或更多种病原体获得的基因组序列数据之间的关系包括比较从接近度标签和/或病原体标签获得的基因组序列数据和/或其他信息。例如,病原体标签通常包括唯一的病原体识别符和接近度标签。接近度标签通常提供关于包括病原体(或病原体的核酸)的样本何时被分离(时间段)和包括病原体(或病原体的核酸)的样本被分离的位置(确切的或可能的坐标)的信息。被包括在针对病原体(病原体标签)的接近度标签中的时间段和坐标信息能够用于识别其他相关病原体并确定识别病原体(即,相关病原体)之间的关系的系统发育关系。因此,在某些实施例中,能够使用基因组序列数据以及位置和时间来确定两种或更多种病原体之间的关系。另外,在某些实施例中,病原体标签包括接近度标签,接近度标签包括感染所述病原体的患者的健康信息。健康信息的非限制性范例包括与感染相关联的健康症状,以及症状的程度和强度,生命体征(例如,温度、血压、心率、呼吸)、血液工作数据(例如,血细胞计数、c-反应蛋白、肝酶等)、感染程度的其他视觉或血液指标以及受感染对象的整体健康状况。在一些实施例中,健康信息包括对象(例如,受感染对象、宿主)的基因型和/或表现型。这些健康信息能够用于确定或估计病原体的毒性。因此,在某些实施例中,根据两个或更多个感染患者之间的症状的相似性,包括其程度、数量、持续时间或发病情况,能够将两种病原体识别为相关病原体。
在一些实施例中,本文描述的方法和系统包括以下中的一些或全部元素:实时患者分析系统、基因组处理框架(例如,Andry,F.等人的“PAPAyA:A Highly Scalable Cloud-Based Framework for Genomic Processing”(2016年,第9届生物医学工程系统与技术(BIOSTEC)国际联合会议记录,第3卷,Bioinformatics,第198-206页,通过引用将其整体并入本文)、实时患者分析系统中的相关算法、前提数据映射(包括位置距离)、用于QA核查的基因组处理框架中的流水线算法、MLST分型、系统发育树构建以及用户接口中的树绘制/工作流支持。
在某些实施例中,传播度量包括概率分布。在某些实施例中,本文描述的边加权和/或随机游走技术的实施方式提供了表示感染源随机或非随机扩散的可能性的概率分布。例如,随机游走技术的一个实施方式能够提供这样的概率分布:该概率分布表示检查员发现在图形链接上随机移动的感染扩散的源将到达任何特定节点(患者或护理人员或位置)的可能性。在一些实施例中,算法通过对到节点的链接的数量和质量进行计数以确定该节点在对应感染扩散中的重要程度的粗略估计来工作。换句话说,不是提供“转换路径”,本文描述的算法能够将概率值分配给每个节点(例如,患者、护理人员和/或位置)以估计每个节点对特定病原体的扩散的重要性。在一些实施例中,本文描述的算法确定从每个节点向另一个节点(例如,从一个特定患者到另一个患者)传播病原体的最可能路径。
系统、机器、存储介质和接口
本文描述的某些过程和方法通常不能在没有计算机、微处理器、软件、模块或其他机器的情况下执行。本文描述的方法通常是计算机实施的方法,并且方法的一个或多个部分有时由一个或多个处理器(例如,微处理器)、计算机或微处理器控制的机器来执行。与本文档中描述的方法有关的实施例通常适用于由本文描述的系统、机器和计算机程序产品中的指令实施的相同或相关过程。与本文档中描述的方法有关的实施例通常能够适用于由其上存储有可执行程序的非瞬态计算机可读存储介质实施的相同或相关过程,其中,程序向微处理器发出指令以执行该方法或其部分。本文使用的描述性术语“非瞬态”明确地限制并排除瞬态的传播信号(例如,传输信号、电子传输、波(例如,载波))。本文使用的术语“非瞬态计算机可读媒介”和/或“非瞬态计算机可读介质”包括除了瞬态传播信号之外的所有计算机可读介质。在一些实施例中,本文描述的过程和方法通过自动方法来执行。在一些实施例中,本文描述的方法以及一个或多个步骤由微处理器和/或计算机来执行,和/或结合存储器来执行。
机器、软件和接口可以用于进行本文所述的方法。通过使用机器、软件和接口,用户可以输入、请求、查询或确定用于使用特定信息、程序或过程的选项(例如,获取读数,招收读数,映射读取,获得基因组序列数据,比较基因组序列数据,触发通知或提醒,识别相关病原体,提供病原体标签,提供接近度标签,生成系统发育树,生成传播度量或传播路径,识别患者,解密或加密数据(例如,唯一识别符),访问患者数据,访问机密信息等或其组合),其能够涉及例如实施统计分析算法、统计显著性算法、统计错误算法、统计概率算法、迭代步骤、验证算法和图形表示。在一些实施例中,数据文件可以由用户作为输入信息而进行输入,用户可以通过合适的硬件媒介(例如,闪盘驱动器等)下载一个或多个数据文件,并且/或者用户可以将数据集从一个系统发送到另一个系统以供后续处理并且/或者提供标签、系统发育树、传播度量、序列数据(例如,将序列数据从测序器发送到计算机系统以用于序列读数映射、病原体识别、确定SNP差异等)。
系统通常包括一个或多个机器。在某些实施例中,每个机器包括一个或多个存储器、一个或多个微处理器和指令。在系统包括两台或更多台机器的情况下,一些或全部机器可以位于相同位置处,一些或全部机器可以位于不同位置处,所有机器可以位于一个位置处,并且/或者全部机器可以位于不同的位置处。在系统包括两台或更多台机器的情况下,一些或全部机器可以位于与用户相同的位置处,一些或全部机器可以位于与用户不同的位置处,所有机器可以位于在与用户相同的位置处,并且/或者所有机器可以位于与用户不同的一个或多个位置处。
在一些实施例中,方法或过程由多个计算装置来执行,并且由系统执行的全部过程的子集可以被分配给系统中的特定计算装置或者在系统中的特定计算装置之间继续划分。总过程数的子集能够以任何合适的组合在两个或更多个计算装置或其组中进行划分。多计算装置系统有时包括在测序装置本地的一个或多个合适的服务器,并且有时包括不在测序装置本地的一个或多个合适的服务器(例如,web服务器、在线服务器、应用服务器、远程文件服务器、云服务器(例如,云环境、云计算))。
在一些实施例中,用户与装置(例如,计算装置、测序装置)交互。例如,用户可以向软件发出查询,软件然后可以经由互联网访问采集数据集,并且在某些实施例中,能够提示可编程微处理器基于给定参数来采集合适的数据集。可编程微处理器还能够提示用户选择由微处理器基于给定参数选择的一个或多个数据集选项。可编程微处理器可以提示用户选择由微处理器基于经由互联网找到的信息、其他内部或外部信息等选择的一个或多个数据集选项。可以选择选项来选择一个或多个数据特征选择、一个或多个统计算法、一个或多个统计分析算法、一个或多个统计显著性算法、迭代步骤、一个或多个验证算法以及以下中的一个或多个图形表示:方法、机器、装置(多个装置,在本文中也被称为装置)、计算机程序或其上存储有可执行程序的非瞬态计算机可读存储介质。
本文所述的系统可以包括计算机系统的通用部件,例如,网络服务器、膝上型系统、台式系统、手持式系统、个人数字助理、计算亭、手机等。计算机系统可以包括一个或多个输入器件,例如,键盘、触摸屏、鼠标、语音识别器件或其他器件,以允许用户将数据输入到系统中。系统还可以包括一个或多个输出设备,包括但不限于显示器(例如,CRT、LED或LCD)、扬声器、传真机、打印机或用于提供信息的视觉、听觉和/或硬拷贝输出(例如,结果和/或报告)的其他输出设备。
在一些实施例中,系统能够包括通信接口。通信接口允许在计算机系统与一个或多个外部设备之间传递软件和数据。通信接口的非限制性范例包括调制解调器、网络接口(以太网/WiFi)、通信端口(例如,USB端口、HDMI端口)、蓝牙、PCMCIA插槽和/或卡等。数据可以通过合适的通信接口、设备和/或方法而被输入,包括但不限于手动输入设备和/或直接数据输入设备(DDE)。
系统可以包括用于执行本文描述的过程的软件,并且软件能够包括用于执行这样的过程的一个或多个模块。术语“软件”是指包括程序指令(例如,可执行程序)的计算机可读存储介质,所述程序指令在由计算机运行时执行计算机操作。有时将能由一个或多个微处理器运行的指令提供为可执行代码,所述可执行代码在被运行时能够使一个或多个微处理器实施本文所述的方法。
在图1中示出了示范性系统。能够例如在医院或护理设施106中本地地生成、收集和处理患者、病原体(例如,病原体标签)、目标(例如,接近度标签)、样本和/或护理人员数据,该数据可以包括设备数据121,其可以包括与目标相关联的位置和时间信息。例如,设备数据121可以包括根据患者登记入住时间、结账离开时间以及医院或护理设施(例如,大厅、治疗室等)内的患者位置组装的患者位置数据,并且可以包括来自实时定位系统(RTLS)的数据集合。例如,可以为目标(例如,患者、在登记入住时)提供射频识别设备(RFID),其能够提供患者、护理人员、访客或医学设施内的工作人员的实时位置,这些数据被记录并被分配适当的识别符。病原体标签还可以是从实验室输入系统124和/或直接从DNA处理器126(例如,测序器、被链接到处理器的计算机、序列数据库)生成的。实验室输入系统124和DNA处理器126还能够提供针对从目标(例如,患者、护理人员、设备)获得的病原体的MLST和SNP数据,并将这些信息与病原体标签相关联。其他输入系统(例如,122、123和125)也可以生成接近度标签和病原体标签,并且输入系统(例如,122-126)中的一个或多个可以被集成到设备(例如,116)中。计算机实施的系统可以包括本地数据聚合系统107和/或一个或多个远程数据聚合系统113,其能够对敏感患者信息进行加密和解密,并且分配、加密、解密和重新分配患者识别信息(例如,ID编号、姓名、生日等)并且调整、拒绝和/或授权访问系统中的部分或全部信息。可以借助于用户交互式显示器119来提供与诊断和流行病学120有关的输出信息,该信息包括系统发育树、传播度量、序列数据、病原体标签和接近度标签,其中,可以对数据进行可视化、分析、编辑、删除、保存和/或提交以供进一步处理。可以通过基因组流水线处理系统(GPPS)101来接收、分析和处理病原体序列信息,其能够对齐和/或映射核酸序列,组装核酸序列,生成和比较基因数据(例如,序列数据、MLST分型、SNP数据),生成系统发育树,并且确定病原体之间的系统发育关系。基因组流水线处理系统(GPPS)101能够根据多种病原体(例如,病原体标签)之间的系统发育关系来识别相关病原体的集合,并且提供相关病原体的集合(例如,相关病原体标签的集合)。发送到基因组流水线处理系统的和来自基因组流水线处理系统的信息可以由数据聚合系统113来处理。由GPPS生成的数据和信息能够被发送到临床决策支持引擎105以供进一步处理,其中,例如由GPPS系统生成的系统发育关系被处理成传播度量并且通过数据导出系统104被导回到用户接口(例如,119、120)以供分析的,并且/或者可以被存储在数据库108中以供以后访问。临床决策支持引擎105可以从指导处理器的模块(例如,110)接收指令以生成传播度量,同时应用本文公开的新颖的边加权和传播度量算法。可以从集成存储媒介111存储并且访问与传播度量的节点相关联的接近度标签信息(例如,包括患者数据、位置和/或时间信息)。系统生成的或使用的一些或全部信息可以被本地地或远程地存储在一个或多个可访问的数据库(例如,109、118)中。
图16示出了图示由本文公开的系统进行的处理步骤的一个实施例的流程图。对患者数据进行输入、分级、存储、处理并使得患者数据可供在接纳新患者到医院201时启动的电子健康IT系统202使用。对患者遭遇数据继续进行处理和分级,直到系统被提示患者遭遇通过系统询问203而结束。在患者遭遇终止之后,询问系统以确定是否生成了样本204。例如,可以询问系统是否获得了患者样本以及样本对于微生物(例如,病原体)的存在是肯定的还是否定的。如果确定出样本对于微生物或病原体的存在是否定的,那么通常将患者遭遇数据移动到储存设备205。如果确定出肯定的结果,那么发送微生物样本以进行测序206,以从病原体获得序列信息。由系统207获得针对病原体的序列信息,该信息被用于生成病原体标签。然后处理并比较210病原体序列信息以试图识别和/或表征样本中的病原体。通过将测序信息、MLST分型数据和SNP与包含来自其他病原体的序列信息的数据库进行比较,可以识别相关病原体。如果识别出相关病原体的子集,那么能够生成系统发育树。从210的比较中获得的数据能够用于生成抗菌谱220。
抗菌谱(例如,医院抗菌谱)通常是被提交给临床微生物学实验室(例如,医院的临床微生物学实验室)的局部细菌分离物的抗菌敏感性的周期性总结。临床医生经常使用抗菌谱来评估局部易感率,作为选择经验性抗菌治疗以及监测机构内部随时间的耐药性趋势的辅助手段。抗菌谱也能够用于比较各机构的易感率以及追踪耐药性趋势。追踪这些信息对于监测抗菌药物耐药性的新趋势以及支持临床决策制定、感染控制策略和耐药包容性策略非常重要。
在某些实施例中,本发明包括使用基因组亚型信息来创建抗菌谱。在某些实施例中,如在2016年3月10日提交的国际专利申请号PCT/IB2016/051352(公开号WO2016/142890)中所描述地生成抗菌谱,通过引用将其整体并入本文。在一些实施例中,本发明利用分子流行病学和下一代测序技术(NGS)来监测多重耐药性病原体,确定它们的抗菌耐药性,提供对突发微生物威胁的早期洞察,并且推荐抗菌处置。
在一些实施例中,培养感兴趣的病原体和其他微生物并测试其对各种抗菌剂的敏感性(或相反地,耐药性)。对培养的病原体进行测序(例如,通过全基因组测序、靶向测序等),并将其基因组数据(例如,Fasta序列文件)与基因组数据的可公开访问的或私人的数据库进行比较以识别所测试的病原体的特定亚型。在一些实施例中,然后将根据亚型的敏感性/耐药性数据呈现给用户。
在某些实施例中,计算机处理器被配置为:接收关于病原体分离物对至少一种抗菌剂(例如,抗生素、抗病毒剂)的敏感性的信息;接收关于病原体分离物的菌株或亚型的信息;并且提供指示病原体分离物或相关病原体的组对抗菌处置的敏感性的输出(例如,图形或视觉显示)。在国际专利申请第PCT/IB2016/051352号中描述了(例如基于基因组序列数据)确定病原体对处置的敏感性以及基于处置敏感性来识别相关病原体的菌株或亚型的计算机实施的方法,通过引用将其整体并入本文。在一个实施例中,接收关于病原体分离物的亚型的信息包括:接收描述至少一种分离物的基因组的至少部分的数据;将接收到的来自测序操作的基因组数据与参考数据库进行比较;并且根据比较的结果来识别针对至少一个分离物的匹配亚型(例如参见PCT/IB2016/051352)。
能够从存储介质访问来自例如护理人员交互226、位置历史信息227和设备遭遇228的接近度标签和/或病原体标签相关性225,并且对其进行处理以从临床相关性数据229确定确切的匹配。能够使用SNP差异230(例如通过图11-12中概述的过程)来确定针对护理人员、位置和设备的随机游走权重。然后能够(例如通过图13和图14中概述的过程)确定节点等级232。如果确定出直接确切匹配或高概率等级载体,那么能够确定传播概率并且能够生成传播警报234/236。
本文描述的模块能够作为软件和/或被实施在能由微处理器实施或执行的软件中的指令(例如,过程、例程、子例程)而存在。例如,模块能够是执行特定过程或任务的程序的部分。术语“模块”是指能够在较大的机器或软件系统中使用的独立功能单元。模块能够包括用于由一个或多个微处理器执行模块的功能的指令集。模块的指令能够通过使用合适的编程语言、合适的软件和/或以合适的语言(例如,本领域中已知的计算机编程语言)编写的代码和/或操作系统在计算环境中实施,操作系统的非限制范例包括UNIX、Linux、oracle、windows、Ubuntu、ActionScript、C、C++、C#、Haskell、Java、JavaScript、Objective-C、Perl、Python、Ruby、Smalltalk、SQL、Visual Basic、COBOL、Fortran、UML、HTML(例如,使用PHP)、PGP、G、R、S等或其组合。
计算机程序产品或模块或模块集合有时被实施在非瞬态计算机可读介质上,并且有时被有形地实施在非瞬态计算机可读介质上。在某些实施例中,计算机可读存储介质包括存储在其上的可执行程序。模块有时被存储在非瞬态计算机可读介质(例如,磁盘、驱动器)上或存储器(例如,随机存取存储器)中。模块和能够实施来自模块的指令的微处理器能够位于同一机器中或位于不同的机器中。模块和/或能够实施针对模块的指令的微处理器能够位于与用户相同的位置(例如,本地网络)中或位于与用户不同的位置(例如,远程网络、云系统)中。在结合两个或更多个模块执行方法的实施例中,模块能够位于同一机器中,一个或多个模块能够位于同一物理位置中的不同机器中,并且一个或多个模块可以位于不同物理位置中的不同机器中。
范例
下面阐述的范例说明了某些实施例,但并不限制该技术。
范例1
系统的实施例能够被托管在联网计算平台(例如,图1的103)上,并且包括多个互补分析系统和实时患者分析系统(PAS),所述多个互补分析系统包括基因组流水线处理系统(GPPS)101。在一些实施例中,主系统被托管在基于云的基础架构中并且包括基因组处理框架101、基因组流水线处理系统和实时患者分析系统。在某些实施例中,边设备对所有电子临床信息进行分级,并且由针对病原体和感兴趣源的阳性培养物来触发。一旦被触发,边设备自动开始通过去识别处理器107移动分级,其中,边设备在通过安全加密连接将所有PHI和站点可识别信息发送到分析云103之前移除所有PHI和站点可识别信息。一旦系统检测到应用触发物以及微生物学结果中引用的人员的新数据,该数据也会以适当的GUID编码被发送到云端。其他触发物能够基于来自临床信息分析的感染迹象以及基于历史临床表现型或基因组数据的对象风险。
现场用户一旦得到本地认证,就可以访问应用程序,在那里他能够将已经或正在加载到NGS测序器中的文件(通过文件名)与微生物学生成的阳性培养物进行匹配。该匹配预先假设登录号在定序器文件输出中,并且使用匹配方法来创建唯一的文件名,该唯一的文件名是与云数据患者ID、登录号和其他场所信息(例如,所使用的测序器及其设置)相关的一系列全局唯一ID(GUID)。
一旦序列文件由NGS测序器写入,那么边设备将复制文件,使用所需的GUID进行重新命名,并且经由安全的FTP服务将文件从当前场所传送到云端。一旦进入云端,那么实时患者分析系统将启动适合于所提出的样本类型的基因组处理框架或GPPS流水线。在某些实施例中,通过针对与通过该微生物学消息报告的培养物和特定病原体的加入物相联系的GUID来维持序列ID和临床元数据与样本的匹配。在一些实施例中,用元基因组支持直接样本测序以识别可能的病原体列表,从每个建议的ABX易感性得到的疾病概率以及基于病原体龋齿耐药性基因(染色体或质粒)在何处的风险。文件名可以包含对其包含的序列文件类型的引用,例如,包含哪种病原体或包含哪种类型的肿瘤样本。
在某些实施例中,确定样本中病原体的存在。在某些实施例中,在识别出病原体后,生成指示至少病原体来源(例如,样本)、样本取回时间和/或样本来源的坐标的病原体标签。在一些实施例中,病原体标签与指示病原体与一个或多个目标接触的一个或多个接近度标签相关联。在某些实施例中,系统包括工作流触发器,其能够在识别出病原体后发起通知。在一些实例中,识别出病原体和/或创建病原体标签会触发通知,该通知能够启动对与创建的病原体标签具有关系的所有历史接近度标签和/或其他病原体标签的搜索和/或检索。在一些实施例中,本文描述的系统的工作流包括用于响应于指示病原体的存在的通知而搜索、识别、展示和/或检索历史接近度标签的指令。标签的关系能够根据概率相关性、接触概率和/或接近度重叠概率来识别。在某些实施例中,这种关系由响应于来自阳性培养物(例如,病原体存在)的通知的工作流触发而生成的传播度量来提供。
基因组处理框架或GPPS开始处理并返回实时患者分析系统应当监测的过程ID以验证流水线运行完成,检索流水线的每个步骤处的质量验证以及基因组处理例程提供何种结果。实时患者分析系统在流水线运行时接收状态和中间输出结果,并且利用过程状态和QC结果来更新用户接口,直到流水线完成。
一旦针对所有物种样本(病原体,或托管中心,或肿瘤样本)完成了流水线,就创建系统发育树。临床数据(例如,住院和护理接触日期、耐药性(就病原体而言)、肿瘤生长速率和其他表现型或综合症临床数据或能够影响病原体/肿瘤生长和突变率的环境信息)被输入到系统发育树方法,因此能够消除亲本后代关系的歧义。
树绘制基于SNP计数或者绝对的或模糊的单核苷酸变体来确定在基因方面的相似感染。
系统发育树或传播树信息包括节点ID,因此所有得到的基因组数据和临床数据能够被链接回被测序的实际病原体。亲本后代关系和SNP计数用于导出确切匹配和概率相关性。这些相关性与发现的患者接触过的地点、护理人员、流程和设备的共同点有关。相关性基于从电子源提取的护理数据,包括临床发现和评估、流程(手术或研究)、介入注释。每发送一次数据到云端,都会基于前提边设备上配置的查找表来分配一个位置。用户关联性基于与临床数据的图表相关联的电子特征标志以及交互基于被变换为设施内的三维位置的位置标签的位置。
通过使用基于坐标的位置而不是仅基于标签,相关性方法不仅能够查找确切的位置匹配,而且还能够在邻近房间号并不彼此接近或特定护理患者共享公用HVAC服务的情况下查找密切接近的匹配。
针对相关性的确切匹配由沿着系统发育树的颜色编码的连接器来识别,并且基于整个树或用户选择的分支或确切的节点来示出相关性概率。非确切匹配相关性概率数据和排序能够通过多种技术来完成。
优选实施例包括基于与MLST分型融合的微生物接口连接的易感性数据的抗菌谱,作为某些感染的风险分层方法,以及识别序列中指示抗生素耐药性倾向或菌株实际转化为单一耐药性或多重耐药性的基因表达特征标志。
优选实施例包括基于云的决策规则,其提供感染控制或测序过程所有者对数据的洞察。典型的通知和证据数据包括但不限于:
“遇到新的先前未知的MLST型菌株”(系统发育树中的节点)
“从预计的无菌来源((一个或多个)登录号)中发现的阳性ESKAPE培养物”
“从未在序列表中看到的预计的无菌来源发现的阳性ESKAPE培养物”((一个或多个)登录号)
“从[来源]看到的[病原体]的阳性培养物的比率超过了历史趋势”(病原体epi曲线)
“检测到可能的新的传播事件”(系统发育树中具有低SNP计数和确切匹配相关性或概率相关性>xx%的节点)
“发现现有传播爆发的新的相关性”(病原体、节点、相关性)
“针对[MLST型]发现的新的单一耐药性(树、节点)
“针对[MLST型]发现的新的多重耐药性”(树、节点)
“针对((一个或多个)登录号)在质粒上发现的耐药性基因”
“接受抗生素疗效低的患者”
通过使用基于坐标的位置而不是仅基于标签,相关性方法不仅能够查找确切的位置匹配,而且还能够在邻近房间号并不彼此接近的情况下查找密切接近的匹配。
由颜色编码的连接器、使用动画脉动的节点或连接器或用于将用户的注意力吸引到系统发育树中的相关性高度暗示传播的部分的其他方法来识别相关性的确切匹配。这最初是基于在epi曲线导航器中定义的当前时间窗口向用户公开聚焦的节点。允许用户改变由epi曲线导航器定义的时间范围,并且还允许用户选择分支或确切的节点,由此重新触发相关性方法以重新计算聚焦的节点。非确切匹配相关性概率数据和排序能够通过多种技术来完成。
在一些实施例中,移动通过系统的患者、设备和护理人员能够针对邻近的低SNP差异感染制作动画,以将高概率接触点可视化来帮助人类观察者瞄准由非确切匹配传播指明的高可信传播。
优选实施例包括具有未加权(即,均匀加权)的随机游走或马尔可夫链以及基于针对二进制匹配相关性(护理人员与设备要么匹配要么不匹配)以及接近度匹配(位置匹配可能是确切的、靠近的或者远的)的SNP计数(基因组信息)的加权。替代实施例包括详尽的成对评价(作为社区中的所有节点)和亲本后代评价(仅树绘制关系)。
使用本文描述的随机游走方法,我们还能够细化与解决患者历史上的确切的匹配和非确切的匹配相关联的且允许独立于系统发育树亲本与后代关系的独立评估的实施例。
(注意:除非另有说明,否则匹配分析能够适用于二进制相关性、护理人员、环境/设备或位置中的任一项)。
图7(图7a和图7b)和图8描述了对针对三个样本患者的描述跨护理人员相关性的患者传播的潜在路径的包括加权、方向加权和等价加权。注意,这些链是双向的且权重相同,并且在图7的情况下,不考虑任何基因组信息。这种方法在由于以下原因导致系统发育树亲本与后代关联性的置信度低时使用:
1、在3种病原体/患者表示中的非常低的SNP变异和对时间顺序的受托点的差的计数。
2、似乎与所有患者同时发现的病例在同一时间发生护理相遇。
3、高保真度电子相关数据访问不畅时。
在一些实施例中,系统发育树被绘制为节点的斑点,而不是亲本与后代的确切但不正确的测序。在该实施例中,该应用程序正在传达这些非常类似的感染,而没有系统可用的确切匹配。
在图8中,我们对由系统发育树定义的传播(即,来自患者1的感染被传播给患者2和3)具有高置信度。在这种情况下,我们执行从P1到P2和P3的单向链,并将常见的护理人员被建模为单向链。请注意,不共享的相关性仍然被假定为是双向的,并且在这种情况下具有相同的权重。这种方法适用于以下情况:
1、传播之间SNP变化较小,以及
2、对相关性数据(例如,实时定位系统(RTLS))进行高保真考虑,并且/或者
3、遭遇是暂时的且按时间顺序分开的。
对于可能存在确切匹配或者可以利用离散函数或连续函数对匹配在接近度方面进行表达的非二元相关性。我们能够创建通过以三维方式映射所有参考公共参考点(例如,主入口、急诊室入口、直升机垫等)的患者位置而创建的位置距离矩阵。该距离能够被用作加权的绝对距离或者能够被映射到非连续或非参数标尺(例如,近距离和远距离)。
在图10中,我们看到针对下面每个患者传播的确切位置匹配。我们看到其他几个地方在患者住院期间并不匹配。我们使用先前描述的位置距离矩阵来推断患者中2个位置的靠近程度。靠近程度能够是离散的或连续的,或者是非参数的。例如,患者1和2在住院期间共享位置2,但是患者1也在位置3和5中遇到,而患者2在位置4和6中。如果位置3和4在3维空间中彼此相邻,那么存在由于诸如HVAC(空气调节)部件的共享基础设施或者甚至可能是未在电子数据馈送中表示的公共服务提供商(例如,食物递送服务或家政管理)而可能发生较高概率的患者传播。
我们还看到位置5和6在该附图中是连接的,但是基于距离矩阵,这些位置相隔很远,要么不连接,要么对于该方法权重低。前面描述了路径的方向性。
额外的链加权实施例包括考虑针对序列信息的病原体来源和样本来源,作为了解感染位置以及感染可能的传播方法(直接接触、空气传播、表面污染……)的方式。例如,能够通过空气扩散的呼吸道感染需要靠近来传播。在这种情况下,该方法不会衡量远处的位置,甚至不允许它们进行相关性计算。
在一些实施例中,传播的确定基于对象与病原体来源之间的直接物理接触。
范例2
在一个实施例中,病原体是在疾病控制中心(CDC)规定的ESKAPE组报告中识别的病原体,并且环境是在医院中,但是本发明能够应用于社区生物群系、用于农业和家畜感染的环境监测,以及在一般的生物监视中对感染的早期预警辅助。在一些实施例中,从非医院生物监视情况搜集数据,其中,相关数据是从旅行和位置的对象数字覆盖范围获得的。
本发明解决了若干重要的问题:
1)指示与病原体有关的基因组信息的基于云的流水线处理的状态的用户体验。
2)指示针对系统发育树中的特定亲本节点与后代节点的相关性的确切匹配的用户体验。
3)基于传播载体的概率匹配指示最可能匹配相关性的用户体验。
4)基于在基因方面确定的感染相似性(例如基于SNP差异)对概率传播载体进行加权
5)在定义的系统(医院、现场、社区……)中自动且系统地识别传播载体。
根据本发明的实施例,解决方案的主要元素是PAS、GPPS、PAS中的相关性方法,前提数据映射(包括位置距离),用于QA核查的GPPS中的流水线方法、MLST分型、系统发育树构建以及用户接口中的树绘制/工作流支持。
范例3
图9a-9c示出了包括包含加权方案的过程的实施例的传播度量的范例。其他替代性加权方案也可以用于加权边。图9a、图9b和图9c包括患者节点p(pS、pU、pV、pW、pX、pY和pZ)和护理人员节点c(cA、cB、cC、cD、cE、cF和cG)。在该实施例中,边仅被示为在患者与护理人员之间。为边提供权重,并且针对每一个节点的所有传出边权重之和为1。加权方案使用成对SNP差异值。该过程包括:步骤1-将加权均匀地分配给针对每个护理人员节点的所有传出边(即,护理人员同等可能地从护理人员所接触的任何患者接收病原体)。步骤2-针对患者节点到护理人员的每个传出边,找到与该护理人员连接的所有患者(除了对应的患者以外)。步骤3-针对每一个这样的患者连接,将作为这两个患者之间的SNP差异的倒数的权重相加。
-为了防止除以0,SNP差异0被替换为默认的小的非零值
-对于缺失的SNP差异值,使用默认的大的值,例如,样本之间最大SNP差异的10倍
图9c是用于计算针对从Pz到cA的边的权重的范例。使用范例SNP差异值,该权重将是w=1/21+1/1+1/5+1/19=1.3
步骤4-归一化,因此针对每个节点的所有传出权重合计为1。在该范例中,这会将w更改为0.53。
该图形可能包括“位置”信息(接近度信息)。一种实施这种方案的方法将是:
-将每个位置作为节点添加到图形中
-患者与相关位置节点之间的边
-每一对位置节点之间的边
-基于距离对位置-位置边进行加权
用于位置节点的一个加权方案可以如下,应当理解,也可以应用其他方案。
·针对每个患者节点的传出边加权,符合以下情况中的一种:
·均匀:患者等同可能地从所接触的任何位置接收病原体
·使用类似于具有患者节点和护理人员节点的图形的SNP差异
·针对位置节点的传出边,用于传入患者或其他位置的总权重相等
·针对位置节点到患者的每个传出边:均匀加权
·针对位置节点到另一位置的每个传出边,权重是这两个节点之间的距离的倒数
·为防止除以0,用小的值(例如,最小非零距离的1/10)替换距离0
·针对缺失的距离值,使用大的值,例如最大存在距离的10倍针对包括患者节点、护理人员节点和位置节点的图形,患者-护理人员和患者-位置加权方案可以被串联使用,以使用位置距离和SNP差异值两者来对边进行加权。
范例4
在某些实施例中,基因组序列数据包括一个或多个单核苷酸变体(SNV)或单核苷酸多态性(SNP)的序列,其能够与已知的参考基因组或能够通过使用基因组组装技术将序列读数与已知的参考基因组对齐或使用混合方法构建的病原体的全基因组序列进行比较。当对多种病原体进行测序时,能够比较来自样本的基因组序列以计算两种病原体的基因组之间SNV差异的数量。在一个实施例中,能够通过检查病原体基因组的全部已知单核苷酸变体(SNV)来测量基因组相似性。在其他实施例中,基因组相似性是仅通过考虑SNP(其是在至少两个样本中发生的SNV)来确定的。此外,通过还考虑其他突变差异(包括但不限于插入、缺失、倒位、重排、串联重复和样本之间的拷贝数变化),能够更广泛地测量基因组相似性。通过检查这些突变差异,能够定义度量来测量样本之间的差异。在一个实施例中,突变差异分数可以简单地是两个样本之间SNV差异的数量。在其他实施例中,能够基于以上提及的突变差异的类别中的样本之间观察到的差异的加权和来计算差异分数。在某些实施例中,根据定义的突变差异分数和突变率(例如,病原体分离之间逝去的时间段)之间的相关性来识别相关病原体的集合。在一些方面中,根据一个或多个突变差异分数与预计的突变率之间的相关性来识别相关病原体的集合。在一些实施例中,根据一个或多个突变差异分数与一个或多个位置(例如,与接近度标签相关联的位置)之间的相关性来识别相关病原体的集合。在某些实施例中,通过包括随机游走或加权马尔可夫链的过程来识别相关病原体。在某些实施例中,随机游走被用于提供针对相关性的概率分数作为负责一个或多个传播的概率分数,并且相关性可以根据概率分数进行排序。在某些实施例中,概率相关性包括两个或更多个接近度标签的可能的坐标与相关病原体标签中的一个或多个相关病原体标签的可能的坐标之间的概率匹配。在某些实施例中,确定(d)中一个或多个关系的存在包括确定一个或多个人类对象与一种或多种相关病原体之间的一个或多个时间关系。在某些实施例中,时间关系包括两个或更多个接近度标签之间的一个或多个可能的交叉。在某些实施例中,坐标位于包括一个或多个医院的一个或多个定义区域内。在某些实施例中,识别相关病原体的集合包括根据基因组序列数据将相关病原体的集合中的一个或多个相关病原体识别为亚物种水平或株系水平。在一些实施例中,识别相关病原体的集合包括:分型方案(例如,多位点序列分型(MLST)、核糖体MLST(rMLST)、核心基因组MLST(cgMLST)和全基因组MLST(wgMLST)),或对基因表达特征标志的识别,确定病原体的最近邻居,确定病原体的突变率,确定病原体生长速率,确定两种或更多种其他病原体之间的病原体进化距离和/或生成系统发育树。在文献中,系统发育树通常表示样本的进化历史,其中,样本出现在树叶处,并且创建内部节点和边/分支以基于进化关系连接样本。在本专利中,我们使用术语系统发育树来指代这种类型的树以及创建传播树的概念,其中,患者样本与边直接连接(并且不创建内部节点/分支)。此外,我们还能够将系统发育树或传播树的概念扩展到系统发育图或传播图,其中,样本之间的关系不再由树(样本之间恰好存在一条路径的图)表示。该系统发育图或传播图可以包括样本之间的多个边或路径,其可以表示发生传播的多种可能方式,并且可以具有与样本之间的多个边/路径相关联的概率或置信度分数。在某些实施例中,病原体是ESAKPE病原体的物种。在某些实施例中,根据传播图或相关图来确定相关病原体的传播路径。在某些实施例中,根据传播路径来识别亲本病原体或患者零点。在一些实施例中,根据传播路径来预测相关病原体的可能的位置。
在一些实施例中,从来源(例如,医院)获得针对病原体物种的局部参考基因组以更好地表示局部生物群系。在一些实施例中,当基于病原体孵育率和宿主响应而发生实际传播时,使用对宿主健康和/或宿主免疫响应的额外参考来回填。
范例5-确定相关生物体的实施例
获得来自患者、护理人员和设备的多个样本,并且生成来自每个样本的微生物培养物。获得微生物分离物并对每个生物体分离物的基因组DNA进行测序。能够使用各种测序技术进行测序,例如,诸如Illumina HiSeq或MiSeq或Pacific Biosciences的下一代测序技术。能够使用从每个生物体的全基因组测序或靶向测序获得的序列信息。
对测序数据进行处理并将其与针对测序生物体的一个或多个参考序列进行比较。能够使用例如现有技术、选择性培养基、任何合适的微生物学评价和/或MLST分型来识别合适的参考序列。一旦选择了参考序列,就能够使用诸如BWA、Bowtie等众所周知的方法将测序数据与参考序列对齐,并且能够使用适合调用变体的方法(例如,Samtools、GATK等)来识别测序数据与参考序列之间的差异。可以对基因组中的变体进行注释以确定哪些突变发生在重要基因内或发生在基因组的不太重要的区域中。
使用例如R统计建模语言和诸如APE的R封装来计算每对测序样本之间的成对距离,APE可以在于2016年10月20日访问的互联网上获得(URL:http://cran.r-project.org/web/packages/ape/index.html),并用于形成距离矩阵。距离矩阵能够基于差异的绝对数量或基于概率模型(例如,Jukes-Cantor)。距离矩阵然后可以用于构建测序样本的系统发育树并从测序样本中的每个测序样本识别任何紧密相关的微生物。
确定针对传播感染的随时间的基因变化(例如,SNV)的预计范围。用于确定随时间的预计变化范围的一个流程涉及检查系统发育树指示紧密相关的邻居,即,仅在它们之间具有有限数目的变化(例如,10个SNP)且被认为与进化相关的那些邻居,并且该过程还涉及测量它们的基因组之间的变化范围并除以它们的起源感染的分离之间的时间。线性回归也可以用于样本数据以确定每单位时间的平均变化范围。用于确定随时间的预计变化范围的替代流程能够包括使用受控方法,例如在(一个或多个)已知时间段内从同一患者取样并且使用来自第三方来源或者出版物的先前确定的信息来测量观察到的变化,或者根据取自已知医院获得性感染的多个样本来确定预计变化范围。其他方法能够用于计算预计随时间所看到的变化范围上的预测区间,并且这些区间能够用于界定典型的预计变化范围。
对于至少一种病原体样本,计算该样本与至少一种其他病原体样本之间的随时间的突变变化的数量,并且确定这些样本对之间的随时间的变化的数量是否在或不在预计的变化范围的区间内。
可以基于样本之间的SNP差异的数量来计算每对样本之间的成对距离。突变变化的数量也可以通过以下操作来确定:对例如插入缺失(插入和缺失)、基因组重排(反转和易位)、拷贝数变化,基因的缺失或存在或前述特征的某种组合进行计数。并且这些变化可以在生物体的全基因组或基因组的部分(例如,生物体的染色体或质粒)中进行测量。
一旦计算了成对距离,就可以将每个样本与每一个其他样本进行比较,以确定这对样本之间的差异的数量是否落入我们预计将在给定样本之间的时间差的情况下从被传播的感染看到的预计的差异范围内。可以使用两个样本都具有碱基调用的基因组位置的总数来对样本之间的突变变化的计算数量进行归一化,从而减少样本测序过程中物理转导中出现的误差和噪音。
对于计算出的随时间的变化数量在预计的变化范围的区间内每对样本,相关联的一对样本被标记为可能传播的感染。例如,如果变化数量在基于先前数据预计的变化数量的一些预测区间(例如,95%)内,那么样本将被标记为潜在传播的感染。
识别传播的感染的方法可以包括确定哪个感染样本来自相同的爆发。这能够通过在每个患者是节点的图上进行广度优先搜索来实现,并且如果前述步骤确定出患者之间可能存在传播,那么在两个节点之间存在边。通过从一个患者开始并注意到其他已经被标记为可能已经从该患者受到感染的患者,这种搜索基本上识别出同一疾病爆发内的患者。该过程通过识别可能继而受到来自受到来自最初患者感染的那些患者感染的患者而进行迭代,直到没有识别出新患者。
识别传播的感染的方法可以包括对在被测序的病原体样本的系统发育树上的被识别为传播的感染的病原体样本进行标记。系统发育树可以是与上面的传播确定相关地计算的最初的系统发育树,或者系统发育树可以是考虑了如上面所讨论的传播的感染而重新计算的系统发育树。
识别传播的感染的方法可以包括创建多个系统发育树,其中,每个树与单独的爆发相关联。
范例6:实施例的范例
A1、一种用于确定相关病原体的传播路径的计算机实施的方法,包括:
a)提供针对多个目标中的每个目标的多个接近度标签,其中,所述多个目标包括至少一个设备和至少一个人类对象,并且其中,每个接近度标签包括:
(i)与目标相关联的唯一的目标识别符,以及
(ii)定义所述目标在一时间段内的可能的位置的可能的坐标;
b)提供多个病原体标签,其中,每个病原体标签包括接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据;
c)基于针对所述多个病原体标签的所述基因组序列数据,根据针对所述多个病原体标签的基因组序列数据之间的相似性来识别两个或更多个相关病原体的集合,从而提供相关病原体标签的集合;
d)根据所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的可能的坐标关系和/或时间关系的概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在;
e)提供包括多个节点和多个边以及所确定的一个或多个关系的图形表示的传播度量,每个节点包括相关病原体标签的所述集合中的一个相关病原体标签或所述多个接近度标签中的一个接近度标签,并且每个边包括两个或更多个节点之间的传播概率;并且
f)基于所述传播度量来确定相关病原体的所述集合中的一个或多个相关病原体的传播路径。
A1.1、根据实施例A1所述的方法,其中,所述多个目标位于一个或多个定义区域内。
A1.2、根据A1.1所述的方法,其中,所述可能的坐标定义所述目标在所述一个或多个定义区域内的可能的位置。
A2、根据实施例A1至A1.2中的任一实施例所述的方法,其中,所述传播度量包括在显示器上呈现的交互式节点和边,每个节点包括病原体标签或接近度标签,并且每个边包括传播概率。
A2.1、根据实施例A1至A2中的任一实施例所述的方法,其中,所述多种病原体标签之间的关系包括所述基因组序列数据之间的关系。
A2.2、根据实施例A1至A2.1中的任一实施例所述的方法,其中,所述多个病原体标签之间的所述关系包括所述接近度标签之间的关系。
A3、根据实施例A1至A2.2中的任一实施例所述的方法,其中,所述时间段能够是确切的时间段或可能的时间段。
A4、根据实施例A1至A3中的任一实施例所述的方法,其中,所述可能的坐标定义确切的坐标或可能的坐标。
A5、根据实施例A1至A4中的任一实施例所述的方法,其中,所述基因组序列数据包括与病原体相关联的一个或多个SNP差异。
A5.1、根据实施例A5所述的方法,其中,相关病原体的所述集合是根据所述一个或多个SNP差异与接近度标签的所述时间段之间的相关性来识别的。
A5.2、根据实施例A5所述的方法,其中,相关病原体的所述集合是根据所述一个或多个SNP差异与所述目标的所述可能的位置之间的相关性来识别的。
A5.3、根据实施例A5所述的方法,其中,相关病原体的所述集合是根据所述一个或多个SNP差异与预计的突变率之间的相关性来识别的。
A6、根据实施例A1至A5中的任一实施例所述的方法,其中,所述目标是对象或设备。
A7、根据实施例A6所述的方法,其中,所述设备是医学设备。
A8、根据实施例A6所述的方法,其中,对象是人类对象。
A9、根据实施例A8所述的方法,其中,所述人类对象是医学专业人员或患者。
A10、根据实施例A9所述的方法,其中,所述人类对象是患者,并且与所述患者相关联的所述接近度标签包括与所述患者有关的临床信息。
A11、根据实施例A1至A5中的任一实施例所述的方法,其中,所述坐标选自房间、走廊、入口通道、电梯、楼梯或其部分。
A13、根据实施例A1至A5中的任一实施例所述的方法,其中,目标包括车辆或其部分。
A14、根据实施例A1至A13中的任一实施例所述的方法,其中,所述病原体标签包括抗生素耐药性信息。
A15、根据实施例A1至A14中的任一实施例所述的方法,其中,所述基因组序列数据包括SNP计数或SNP差异。
A16、根据实施例A1至A15中的任一实施例所述的方法,其中,识别两个或更多个相关病原体的步骤包括随机游走或加权马尔可夫链。
A17、根据实施例A16所述的方法,其中,对SNP计数进行加权。
A18、根据实施例A2所述的方法,其中,所述概率相关性包括两个或更多个接近度标签的所述可能的坐标与相关病原体标签中的一个或多个相关病原体标签的可能的坐标之间的概率匹配。
A18.1、根据实施例A9所述的方法,其中,对(d)中的一个或多个关系的所述存在的所述确定包括以下步骤:确定一个或多个医学专业人员、一个或多个患者与一种或多种相关病原体之间的一个或多个时间关系。
A18.2、根据实施例A18.1所述的方法,其中,所述时间关系包括两个或更多个接近度标签之间的一个或多个可能的交叉。
A19、根据实施例A1.1至A18中的任一实施例所述的方法,其中,所述一个或多个定义区域包括医院。
A20、根据实施例A19所述的方法,其中,所述一个或多个定义区域包括三个或更多个医院。
A21、根据实施例A1至A20中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:根据所述基因组序列数据将相关病原体的所述集合中的一个或多个相关病原体识别为物种水平、亚物种水平或菌株水平。
A22、根据实施例A1至A21中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:根据抗生素耐药性将相关病原体的所述集合中的一种或多种相关病原体识别为菌株水平。
A23、根据实施例A1至A22中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:MLST分型。
A24、根据实施例A1至A23中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括识别基因表达特征标志。
A25、根据实施例A1至A24中的任一实施例所述的方法,其中,对所述唯一的目标识别符中的一个或多个唯一的目标识别符进行加密。
A26、根据实施例A1至A25中的任一实施例所述的方法,其中,所述可能的坐标包括三维坐标。
A27、根据实施例A1至A26中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:确定病原体生长速率。
A28、根据实施例A1至A27中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:确定病原体的最近邻居。
A29、根据实施例A1至A28中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:确定病原体的突变率。
A30、根据实施例A1至A29中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:确定两种或更多种病原体之间的病原体进化距离。
A31、根据实施例A1至A30中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:生成系统发育度量。
A32、根据实施例A1至A31中的任一实施例所述的方法,其中,相关病原体的所述集合包括ESKAPE病原体。
A33、根据实施例A1至A32中的任一实施例所述的方法,其中,相关病原体的传播路径是根据所述传播度量来确定的。
A34、根据实施例A33所述的方法,还包括以下步骤:至少部分地基于所提供的传播路径来识别亲本病原体。
A35、根据实施例A33所述的方法,还包括以下步骤:至少部分地基于所提供的传播路径来识别患者零点。
A36、根据实施例A33所述的方法,还包括以下步骤:至少部分地基于所提供的传播路径来预测相关病原体的可能的位置。
A37、根据实施例A1至A36中的任一实施例所述的方法,其中,所述基因组信息包括病原体的全基因组的核酸序列。
A38、根据实施例A1至A37中的任一实施例所述的方法,其中,所述基因组信息包括病原体的基因组的部分的核酸序列。
A40、根据实施例A9至A37中的任一实施例所述的方法,其中,所述人类对象是感染病原体的患者,并且所感染的患者的接近度标签包括所述患者的一种或多种症状的量或所述患者的量。
A41、根据实施例A9至A40中的任一实施例所述的方法,其中,所述人类对象是感染病原体的患者,并且所感染的患者的接近度标签包括所感染的患者的所述一种或多种症状的量。
A42、根据实施例A41所述的方法,其中,病原体标签包括感染的患者的接近度标签。
A43、根据实施例A40至A42中的任一实施例所述的方法,对(d)的所述确定包括根据感染的患者的所述一种或多种症状的所述量对所述一个或多个接近度标签进行加权的方法。
A44、根据实施例A43所述的方法,其中,相关病原体的毒性的量是根据(d)中确定的关系来确定的。
A45、根据实施例A43所述的方法,其中,相关病原体的毒性的量是根据传播矩阵来确定的。
A46、根据实施例A43所述的方法,其中,根据传播矩阵来确定患者是免疫功能低下的。
B1、一种其上存储有可执行程序的非瞬态计算机可读存储介质,所述程序被配置为向微处理器发出指令以执行实施例A1至A46中的任一实施例所述的方法。
C1、一种用于确定针对相关病原体的传播度量的计算机实施的方法,包括:
a)提供针对多个目标中的每个目标和至少一个人类对象的多个接近度标签,其中,每个接近度标签包括:
(i)与目标或人类对象相关联的唯一的目标识别符,以及
(ii)可选地,所述目标或所述人类对象的位置或可能的位置;
b)提供多个病原体标签,其中,每个病原体标签包括接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据;
c)基于针对所述多个病原体标签的所述基因组序列数据,根据针对所述多个病原体标签的基因组序列数据之间的相似性来识别相关病原体的集合,从而提供相关病原体标签的集合;
d)根据所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的可能的坐标关系和/或时间关系的概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在;
e)提供包括多个节点和多个边以及所确定的一个或多个关系的图形表示的传播度量,每个节点包括相关病原体标签的所述集合中的一个相关病原体标签或所述多个接近度标签中的一个接近度标签,并且每个边包括两个或更多个节点之间的传播概率;并且
f)基于所述传播度量来确定相关病原体的所述集合中的一个或多个相关病原体的传播路径。
C2、根据实施例C1所述的方法,其中,所述多个接近度标签中的一个或多个接近度标签包括与接近度标签相关联的目标的位置或可能的位置。
C3、根据实施例C1或C2所述的方法,其中,所述多个接近度标签中的一个或多个接近度标签包括指示确切的时间段或可能的时间段的时间信息。
C4、根据实施例C1至C3中的任一实施例所述的方法,其中,所述位置或所述可能的位置包括笛卡尔坐标或欧几里得空间内的位置。
C5、根据实施例C3或C4所述的方法,其中,所述时间信息指示目标在特定时间处或在一时间段内的位置或可能的位置。
C6、根据实施例C1至C5中的任一实施例所述的方法,其中,所述传播度量包括被表示为节点的相关接近度标签或病原体标签的子集以及连接一对或多对节点的多个边。
C6.1、根据实施例C6所述的方法,其中,所述多个边中的每个边包括所述一个或多个关系。
C7、根据实施例C6或C6.1所述的方法,其中,对多个边中的一个或多个边进行加权。
C8、根据实施例C7所述的方法,其中,所述一个或多个边是根据与一对节点中的每个节点相关联的所述病原体之间的基因相似性或基因差异而被加权的。
C9、根据实施例C8所述的方法,所述基因相似性或所述基因差异包括单核苷酸多态性(SNP)的集合之间的相似性或差异。
C10、根据实施例C7至C9中的任一实施例所述的方法,其中,所述一个或多个边是根据与一对节点中的每个节点相关联的所述接近度标签的所述位置或所述可能的位置而被加权的。
C11、根据实施例C7至C10中的任一实施例所述的方法,其中,所述一个或多个边是根据与一对节点中的每个节点相关联的所述接近度标签的所述位置或所述可能的位置之间的距离而被加权的。
C12、根据实施例C7至C11中的任一实施例所述的方法,其中,所述一个或多个边是根据时间而被加权的。
C13、根据实施例C7至C12中的任一实施例所述的方法,其中,所述一个或多个边是根据以下项而被加权的:与一对节点中的每个节点相关联的所述病原体之间的基因相似性或基因差异、与一对节点中的每个节点相关联的所述接近度标签的所述位置或所述可能的位置,以及与一对节点的每个节点相关联的时间或时间段。
C14、根据实施例C7至C13中的任一实施例所述的方法,其中,对一个或多个边进行归一化。
C15、根据实施例C1至C14中的任一实施例所述的方法,其中,相关病原体的所述集合是根据具有相似核酸含量、单核苷酸变体的相似样式、相似SNP样式或相似微生物生长特征来识别的。
C16、根据实施例C1至C15中的任一实施例所述的方法,其中,相关病原体的所述集合是相同物种的病原体或高度相关的菌株。
C17、根据实施例C1至C16中的任一实施例所述的方法,所述目标是人类或设备。
C18、根据实施例C1至C17中的任一实施例所述的方法,其中,与所述目标相关联的所述接近度标签包括与患者有关的临床信息。
C19、根据实施例C7至C17中的任一实施例所述的方法,其中,所述一个或多个边是通过包括随机游走或加权马尔可夫链的过程而被加权的。
C20、根据实施例C1至C19中的任一实施例所述的方法,其中,所述概率相关性包括一对接近度标签、一对病原体标签或一对节点的所述位置或所述可能的位置之间的概率匹配或概率重叠。
C21、根据实施例C1至C20中的任一实施例所述的方法,其中,所述概率相关性包括与一对接近度标签、一对病原体标签或一对节点相关联的时间或时间段之间的概率匹配或概率重叠。
C22、根据实施例C1至C21中的任一实施例所述的方法,其中,所述概率相关性包括针对一对相关病原体或一对节点确定的基因变体之间的概率匹配或概率重叠。
C23、根据实施例C1至C22中的任一实施例所述的方法,其中,对(d)中一个或多个关系的所述存在的所述确定包括确定一个或多个目标之间的一个或多个时间关系。
C24、根据实施例C1至C23中的任一实施例所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括生成系统发育度量。
C25、根据实施例C1至C24中的任一实施例所述的方法,其中,爆发的可能来源是根据所述传播度量来确定的。
上面阐述的范例说明了某些实施例,但并不限制该技术。
***
通过引用将本文引用的每个专利、专利申请、出版物和文献整体并入本文。对上述专利、专利申请、出版物和文献的引用并不承认上述任何内容是相关的现有技术,也不构成对这些出版物或文献的内容或日期的任何承认。
在不脱离该技术的基本方面的情况下,可以对前述内容进行修改。虽然已经参考一个或多个具体实施例对该技术进行了详细描述,但是本领域普通技术人员将认识到,可以对本申请中具体公开的实施例进行改变,只要这些修改和改进在该技术的范围和精神内。
本文中说明性描述的技术可以在缺少本文未具体公开的任何元件的情况下被适当地实施。因此,例如,在本文的每种情况下,术语“包括”、“基本上由……组成”和“由……组成”中的任一个都可以用另外两个术语中的任一个来替换。已经使用的术语和表达被用作描述而非限制的术语,并且这样的术语和表达的使用不排除所示出和描述的特征或其部分的任何等同物,并且在要求保护的技术的范围内可以进行各种修改。术语“一”或“一个”能够指其修饰的元素中的一个或多个(例如,“一试剂”能够意指一个或多个试剂),除非其上下文明确地描述元素中的任一个或元素中的超过一个。本文使用的术语“大约”是指在基础参数的10%内(即,正或负10%)的值,并且在一串数值的开始处使用术语“大约”修饰数值中的每个值(即,“大约1、2和3”是指大约1、大约2和大约3)。例如,“大约100克”的重量能够包括90克至110克之间的重量。另外,当本文描述数值列表时(例如,大约50%、60%、70%,80%、85%或86%),列表包括其所有中间值和分数值(例如,54%,85.4%)。因此,应当理解,虽然该技术已经由代表性实施例和任选特征具体公开,但是本领域技术人员可以采用本文公开的概念的修改和变型,并且这样的修改和变型被认为在该技术的范围内。
在权利要求书中阐述了该技术的某些实施例。

Claims (15)

1.一种用于确定相关病原体的传播路径的计算机实施的方法,包括:
a)提供针对多个目标中的每个目标的多个接近度标签,其中,所述多个目标包括至少一个设备和至少一个人类对象,并且其中,每个接近度标签包括:(i)与目标相关联的唯一的目标识别符,以及(ii)定义所述目标在一时间段内的位置的可能的坐标;
b)提供多个病原体标签,其中,每个病原体标签包括接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据;
c)基于针对所述多个病原体标签的所述基因组序列数据,根据针对所述多个病原体标签的基因组序列数据之间的相似性来识别两个或更多个相关病原体的集合,从而提供相关病原体标签的集合;
d)根据所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的可能的坐标关系和/或时间关系的概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在;
e)提供包括多个节点和多个边以及所确定的一个或多个关系的图形表示的传播度量,每个节点包括相关病原体标签的所述集合中的一个相关病原体标签或所述多个接近度标签中的一个接近度标签,并且每个边包括两个或更多个节点之间的传播概率;并且
f)基于所述传播度量来确定相关病原体的所述集合中的一个或多个相关病原体的传播路径。
2.根据权利要求1所述的方法,其中,所述可能的坐标是三维坐标。
3.根据权利要求1所述的方法,其中,识别两个或更多个相关病原体的步骤包括随机游走或加权马尔可夫链。
4.根据权利要求1所述的方法,其中,所述概率相关性包括两个或更多个接近度标签的所述可能的坐标与所述相关病原体标签中的一个或多个相关病原体标签的可能的坐标之间的概率匹配。
5.根据权利要求1所述的方法,其中,对(d)中的一个或多个关系的所述存在的所述确定包括以下步骤:确定一个或多个人类对象与一种或多种相关病原体之间的一个或多个时间关系。
6.根据权利要求5所述的方法,其中,所述时间关系包括两个或更多个接近度标签之间的一个或多个可能的交叉。
7.根据权利要求1所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:根据所述基因组序列数据将相关病原体的所述集合中的一个或多个相关病原体识别为亚物种水平或菌株水平。
8.根据权利要求1所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:MLST分型,基因表达特征标志的识别,确定病原体的最近邻居,确定病原体的突变率或确定病原体生长速率。
9.根据权利要求1所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:确定两种或更多种其他病原体之间的病原体进化距离。
10.根据权利要求1所述的方法,其中,对(d)的相关病原体的所述集合的所述识别包括以下步骤:生成系统发育度量。
11.根据权利要求1所述的方法,还包括以下步骤:至少部分地基于所提供的传播路径来识别亲本病原体或患者零点。
12.根据权利要求1所述的方法,还包括以下步骤:至少部分地基于所提供的传播路径来预测相关病原体的可能的位置。
13.根据权利要求1所述的方法,其中,所述人类对象是感染病原体的患者,并且所感染的患者的接近度标签包括所感染的患者的一种或多种症状的存在、严重程度或量,并且对(d)的所述确定包括根据所感染的患者的所述一种或多种症状的所述存在、所述严重程度或所述量对一个或多个接近度标签进行加权。
14.一种其上存储有可执行程序的非瞬态计算机可读存储介质,所述程序被配置为向微处理器发出指令以进行以下操作:
a)获得针对多个目标中的每个目标和至少一个人类对象的多个接近度标签,其中,每个接近度标签包括:(i)与目标或人类对象相关联的唯一的目标识别符,以及(ii)定义所述目标或所述人类对象在一时间段内的位置的可能的坐标;
b)获得多个病原体标签,其中,每个病原体标签包括接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据;
c)基于针对所述多个病原体标签的所述基因组序列数据,根据针对所述多个病原体标签的基因组序列数据之间的相似性来识别两个或更多个相关病原体的集合,从而提供相关病原体标签的集合;并且
d)根据所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的可能的坐标关系和/或时间关系的概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在;
e)提供包括多个节点和多个边以及所确定的一个或多个关系的图形表示的传播度量,每个节点包括相关病原体标签的所述集合中的一个相关病原体标签或所述多个接近度标签中的一个接近度标签,并且每个边包括两个或更多个节点之间的传播概率;并且
f)基于所述传播度量来确定相关病原体的所述集合中的一个或多个相关病原体的传播路径。
15.一种用于执行基因组分析的计算机实施的系统,包括:
a)提供针对多个目标中的每个目标和至少一个人类对象的多个接近度标签,其中,每个接近度标签包括:(i)与目标或人类对象相关联的唯一的目标识别符,以及(ii)定义所述目标或所述人类对象在一时间段内的位置的可能的坐标;
b)提供多个病原体标签,其中,每个病原体标签包含接近度标签、唯一的病原体识别符和从病原体获得的基因组序列数据;
c)基于针对所述多个病原体标签的所述基因组序列数据,根据针对所述多个病原体标签的基因组序列数据之间的相似性来识别两个或更多个相关病原体的集合,从而提供相关病原体标签的集合;
d)根据所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的可能的坐标关系和/或时间关系的概率相关性来确定所述多个接近度标签中的一个或多个接近度标签与相关病原体标签的所述集合中的一个或多个相关病原体标签之间的一个或多个关系的存在;并且从而
e)提供包括多个节点和多个边以及所确定的一个或多个关系的图形表示的传播度量,每个节点包括相关病原体标签的所述集合中的一个相关病原体标签或所述多个接近度标签中的一个接近度标签,并且每个边包括两个或更多个节点之间的传播概率;并且
f)基于所述传播度量来确定相关病原体的所述集合中的一个或多个相关病原体的传播路径。
CN201680063722.9A 2015-10-30 2016-10-28 确定传染原的传播途径的方法、系统和过程 Active CN108475297B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562248555P 2015-10-30 2015-10-30
US62/248,555 2015-10-30
PCT/IB2016/056497 WO2017072707A1 (en) 2015-10-30 2016-10-28 Methods, systems and processes of determining transmission paths of infectious agents

Publications (2)

Publication Number Publication Date
CN108475297A CN108475297A (zh) 2018-08-31
CN108475297B true CN108475297B (zh) 2022-04-29

Family

ID=57345992

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680063722.9A Active CN108475297B (zh) 2015-10-30 2016-10-28 确定传染原的传播途径的方法、系统和过程

Country Status (7)

Country Link
US (1) US12087402B2 (zh)
EP (1) EP3369022A1 (zh)
JP (1) JP6949837B2 (zh)
CN (1) CN108475297B (zh)
BR (1) BR112018008541A2 (zh)
RU (1) RU2018120004A (zh)
WO (1) WO2017072707A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2020111714A (ru) * 2017-08-21 2021-09-23 Конинклейке Филипс Н.В. Прогнозирование, профилактика и контроль передачи инфекции в пределах лечебно-профилактического учреждения с использованием системы позиционирования в режиме реального времени и секвенирования нового поколения
US20200357491A1 (en) * 2017-12-14 2020-11-12 Koninklijke Philips N.V. Methodology for measuring the quality of phylogenetic and transmission trees and for merging trees
US20190252078A1 (en) * 2018-02-15 2019-08-15 X Development Llc Predicting the spread of contagions
EP3818545B1 (en) * 2018-07-02 2024-08-28 Baxter International Inc. Graph database for outbreak tracking and management
EP3608912A1 (de) * 2018-08-06 2020-02-12 Siemens Healthcare GmbH Ermitteln einer substanzklasse eines nosokomialen keims
US12087434B2 (en) * 2019-05-13 2024-09-10 Koninklijke Philips N.V. Location-procedure embedding based method for patient in-hospital location and procedure prediction
US11961594B2 (en) 2019-06-28 2024-04-16 Koninklijke Philips N.V. System and method using clinical data to predict genetic relatedness for the efficient management and reduction of healthcare-associated infections
US10671632B1 (en) * 2019-09-03 2020-06-02 Cb Therapeutics, Inc. Automated pipeline
JP2023519899A (ja) * 2020-03-27 2023-05-15 エイチエス ヴィケー イデア ファクトリー,エルエルシー 環境危険因子から守るための装置および方法
CN114495341B (zh) * 2020-04-07 2023-05-12 西安艾润物联网技术服务有限责任公司 访客管理方法、设备、系统及计算机可读存储介质
CN111540476B (zh) * 2020-04-20 2020-12-01 中国科学院地理科学与资源研究所 一种基于手机信令数据的呼吸道传染病传染树重构方法
CN111524613B (zh) * 2020-04-27 2023-05-09 腾讯科技(深圳)有限公司 基于区块链的用户行为轨迹信息采集方法、装置和设备
CN113470835B (zh) * 2021-07-21 2023-01-24 医渡云(北京)技术有限公司 传染病的传播路径确定方法、装置、存储介质与电子设备
WO2023122363A1 (en) * 2021-12-23 2023-06-29 Illumina Software, Inc. Dynamic graphical status summaries for nucelotide sequencing
CN115587593B (zh) * 2022-06-16 2023-06-13 中关村科学城城市大脑股份有限公司 信息抽取方法、装置、电子设备和计算机可读介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020120408A1 (en) * 2000-09-06 2002-08-29 Kreiswirth Barry N. System and method for tracking and controlling infections
JP2004234459A (ja) * 2003-01-31 2004-08-19 Nagase & Co Ltd 治療指標情報提供サーバ、治療指標情報提供方法、プログラム及び該プログラムを記録した記録媒体
US8068991B2 (en) 2005-11-30 2011-11-29 The Invention Science Fund I, Llc Systems and methods for transmitting pathogen related information and responding
US7279684B2 (en) * 2005-12-13 2007-10-09 Huber Engineered Woods Llc Method using NIR spectroscopy to monitor components of engineered wood products
US7908153B2 (en) 2006-12-15 2011-03-15 Siemens Medical Solutions Usa, Inc. Infection control management and workflow system
CN101681490A (zh) * 2007-04-02 2010-03-24 卡姆兰·卡恩 传染性病原体经商用航空旅行的全球扩散预测系统和方法
JP5189906B2 (ja) * 2007-09-14 2013-04-24 国立大学法人群馬大学 菌の異常集積検出方法および装置、並びに菌異常集積検出の警告スコア累積のグラフ化方法および装置
JP5432532B2 (ja) 2008-01-22 2014-03-05 株式会社 資生堂 化粧方法、化粧シミュレーション装置、及び化粧シミュレーションプログラム
JP2013524806A (ja) * 2010-04-23 2013-06-20 ゲノミク ビジョン 分子コーミングを用いるゲノムdna及び感染性ウイルスdnaの検出によるウイルス感染の診断
CN102063571A (zh) * 2010-12-30 2011-05-18 中国科学院深圳先进技术研究院 基于网格的传染源查找方法及系统
JP6116264B2 (ja) * 2013-01-29 2017-04-19 ケーディーアイコンズ株式会社 情報処理装置及びプログラム
EP2925915A4 (en) 2013-03-15 2016-09-07 Egenomics Inc SYSTEM AND METHOD FOR DETERMINING THE RECONCILIATION
US9659367B2 (en) 2014-04-04 2017-05-23 International Business Machines Corporation Head mounted video and touch detection for healthcare facility hygiene
EP3180722B1 (en) 2014-08-14 2023-10-11 Koninklijke Philips N.V. Systems and methods for tracking and identifying infection transmission
EP3201811A1 (en) 2014-09-29 2017-08-09 Koninklijke Philips N.V. Systems and methods for identifying and flagging samples of concern.
CA2978950C (en) 2015-03-12 2023-08-29 Sitharthan Kamalakaran Infection management and control
RU2017136185A (ru) 2015-03-12 2019-04-12 Конинклейке Филипс Н.В. Составление профиля и отображение противомикробных препаратов для конкретных подтипов

Also Published As

Publication number Publication date
BR112018008541A2 (pt) 2018-10-30
US20180314793A1 (en) 2018-11-01
US12087402B2 (en) 2024-09-10
JP2019502188A (ja) 2019-01-24
RU2018120004A3 (zh) 2020-04-28
WO2017072707A1 (en) 2017-05-04
EP3369022A1 (en) 2018-09-05
RU2018120004A (ru) 2019-12-02
JP6949837B2 (ja) 2021-10-13
CN108475297A (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN108475297B (zh) 确定传染原的传播途径的方法、系统和过程
ES2899879T3 (es) Identificación y medición de poblaciones relativas de microorganismos con secuenciación directa de ADN
Ramos et al. Characterizing genetic variants for clinical action
US20140067813A1 (en) Parallelization of synthetic events with genetic surprisal data representing a genetic sequence of an organism
Malarikova et al. Concurrent TP53 and CDKN2A gene aberrations in newly diagnosed mantle cell lymphoma correlate with chemoresistance and call for innovative upfront therapy
Santus et al. Artificial intelligence–aided precision medicine for COVID-19: strategic areas of research and development
CN111566227A (zh) 结构变体分析
Sutton et al. A high-quality, long-read de novo genome assembly to aid conservation of Hawaiiʻs last remaining crow species
Wohler et al. PhenoDB, GeneMatcher and VariantMatcher, tools for analysis and sharing of sequence data
Li et al. Runs of homozygosity revealed reproductive traits of Hu sheep
Reis et al. Whole genome sequencing refines knowledge on the population structure of Mycobacterium bovis from a multi-host tuberculosis system
De la Fuente et al. Genomic signature in evolutionary biology: A review
Zhang et al. Identification of signatures of selection for litter size and pubertal initiation in two sheep populations
Wolk et al. Prediction of influenza complications: development and validation of a machine learning prediction model to improve and expand the identification of vaccine-hesitant patients at risk of severe influenza complications
Gerussi et al. LLM-PBC: Logic Learning Machine-based explainable rules accurately stratify the genetic risk of Primary Biliary Cholangitis
Hedtke et al. Assessing Onchocerca volvulus intensity of infection and genetic diversity using mitochondrial genome sequencing of single microfilariae obtained before and after ivermectin treatment
Warren et al. Spatial modeling of Mycobacterium tuberculosis transmission with dyadic genetic relatedness data
Tyagi Privacy Preservation of Genomic and Medical Data
McLaughlin et al. Concordance of HIV transmission risk factors elucidated using viral diversification rate and phylogenetic clustering
US20130253892A1 (en) Creating synthetic events using genetic surprisal data representing a genetic sequence of an organism with an addition of context
Rodriguez et al. Impact of genetic ancestry on prognostic biomarkers in uveal melanoma
Heinrich et al. MIDESP: mutual information-based detection of epistatic SNP pairs for qualitative and quantitative phenotypes
Kumar et al. Role of Genomics in Smart Era and Its Application in COVID‐19
Gurgul et al. Genetic differentiation of the two types of Polish cold-blooded horses included in the national conservation program
Zhang et al. Positive selection and adaptive introgression of Haplotypes from Bos indicus improve the modern Bos taurus cattle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant