CN110024036B - 抗生素敏感性的分析预测 - Google Patents
抗生素敏感性的分析预测 Download PDFInfo
- Publication number
- CN110024036B CN110024036B CN201780073559.9A CN201780073559A CN110024036B CN 110024036 B CN110024036 B CN 110024036B CN 201780073559 A CN201780073559 A CN 201780073559A CN 110024036 B CN110024036 B CN 110024036B
- Authority
- CN
- China
- Prior art keywords
- matrix
- tags
- features
- tag
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/20—Heterogeneous data integration
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Abstract
一种用于使用基因组数据集预测细菌性病原体对抗生素的敏感性的方法和系统。本文描述的各种实施例接收基因组数据集和标签的集合,并在其上运行主方差分量分析以确定标签的效应量。一个或多个标签然后基于其效应量被选择,并且被用于机器学习模型中以对未来数据集进行预测。
Description
技术领域
本文描述的实施例总体上涉及用于根据基因组数据集来预测细菌性病原体的抗生素药物敏感性的系统和方法,并且更具体地但非排他地,涉及用于使用主方差分量分析加强的机器学习根据基因组数据集来预测细菌性病原体的抗生素药物敏感性的系统和方法。
背景技术
机器学习技术已经变为广泛用作分析和处理复杂数据集的强大工具。盲目地将机器学习技术应用于这些大型且常常不兼容的数据集有时导致过度杀伤分析、错误解释和对数据的过度拟合。
具体地,这些数据集的结构常常包括特征的矩阵和标签的矩阵或单个向量。在基因组数据集的领域中,特征的矩阵可以包括例如分离株和基因。在技术上,可以构建多标签分类器以了解跨矩阵中所有特征和标签的特征-标签关联的细微差别,从而将新的输入观察结果映射到标签的向量。然而,时常地,所使用的标签对于对特征进行分类并不显著,或者能够导致不准确的分类。
因此,存在对甚至在构建机器学习模型之前评估来自数据集的标签准确地预测针对药物敏感性的特征的能力的方法和系统的需要。
发明内容
该总结被提供为以简化形式介绍概念的选择,所述概念将在下面的具体实施方式部分中进一步描述。该总结不旨在识别或排除所要求保护的主题的关键特征或实质特征,也不旨在用于帮助确定所要求保护的主题的范围。
在一个方面中,实施例涉及一种训练用于预测抗生素药物敏感性的模型的方法。所述方法包括:经由接口接收多个特征的数据集;经由所述接口接收与所述多个特征有关的标签的集合;将所述多个特征的数据集和所述标签的集合供应给处理器,所述处理器被配置为执行存储于存储器上的指令以提供方差分析引擎,其中,所述方差分析引擎被配置为针对关于所述多个特征的数据集的标签中的每个生成效应量;将针对标签生成的至少一个效应量作为来自所述方差分析引擎的输出供应给筛分(sizing)模块;并且经由所述筛分模块基于至少一个供应的效应量来选择要用于机器学习模型中的至少一个标签。
在一些实施例中,所述多个特征的数据集是基因组数据集,包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因元件矩阵、基因表达矩阵、RNA序列矩阵和微阵列矩阵。
在一些实施例中,所述标签的集合是包括多个表型的协变量矩阵。在一些实施例中,所述标签的集合是二元值的单个向量。在一些实施例中,所述标签的集合是多类别值的单个向量。
在一些实施例中,经由所述筛分模块选择至少一个标签包括基于超过预定阈值的其生成的效应量来选择所述至少一个标签。
在一些实施例中,所述方法还包括:经由所述筛分模块基于多个标签的效应量对所述多个标签进行排序,并且经由所述筛分模块基于所述排序选择所述至少一个标签。
根据另一方面,实施例涉及一种用于训练用于预测抗生素药物敏感性的模型的系统。所述系统包括:接口,其用于接收多个特征的数据集和与所述多个特征有关的标签的集合;存储器;以及处理器,其被配置为执行存储于存储器上的指令以提供方差分析引擎,所述方差分析引擎被配置为接收所述多个特征的数据集和所述标签的集合,并且还被配置为输出针对标签中的每个的效应量,其中,至少一个标签基于其效应量被选择为用于机器学习模型中。
在一些实施例中,所述多个特征的数据集是基因组数据集,包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因元件矩阵、基因表达矩阵、RNA序列矩阵和微阵列矩阵。
在一些实施例中,所述标签的集合是包括多个表型的协变量矩阵。在一些实施例中,所述标签的集合是二元值的单个向量。在一些实施例中,所述标签的集合是多类别值的单个向量。
在一些实施例中,基于超过预定阈值的其生成的效应量来选择至少一个选定的标签。
在一些实施例中,所述方差分析引擎还被配置为基于标签的集合的效应量对所述标签的集合进行排序,并且基于所述排序选择所述至少一个标签。
根据又一方面,实施例涉及一种用于训练抗生素抗性模型的方法。所述方法包括:经由接口接收包括多个基因组特征和多个分离株的特征矩阵;经由所述接口接收包括多个表型和多个分离株的协变量矩阵;将所述特征矩阵和所述协变量矩阵输入到处理器中,所述处理器执行存储于存储器上的指令以提供方差分析引擎;从所述方差分析引擎向筛分模块提供所述多个表型中的每个的效应量;并且经由所述筛分模块基于表型中的至少一个表型的效应量选择至少一个选定的表型来训练抗生素抗性机器学习模型。
附图说明
参考以下附图描述了本发明的非限制性和非穷举性实施例,其中,相似的附图标记贯穿各视图指代相似的部分,除非另有说明。
图1图示了根据一个实施例的用于训练模型的系统;
图2描绘了根据一个实施例的用于使用图1的系统训练模型的方法的流程图;
图3描绘了根据一个实施例的示出在抗生素抗性矩阵和基因矩阵上的若干协变量的方差的条形图;
图4描绘了根据一个实施例的在图3的抗生素基因抗性特征集上的协变量的错误率的条形图;并且
图5描绘了根据一个实施例的图3的基因特征集上的协变量的错误率的条形图。
具体实施方式
下面参考附图更详细地描述了各种实施例,附图形成实施例的部分,并且示出了具体的示范性实施例。然而,本公开的概念可以以许多不同的形式实施,并且不应该被解释为限于本文中阐述的实施例;相反,这些实施例是作为全面和完整公开的部分提供的,以向本领域技术人员充分传达本公开的概念、技术和实施方式的范围。各实施例可以被实践为方法、系统或设备。因此,实施例可以采取硬件实施方式、完全软件实施方式或组合了软件和硬件方面的实施方式的形式。因此,以下详细描述不应被认为是限制性的。
说明书中对“一个实施例”或“实施例”的引用意味着结合所述实施例描述的特定特征、结构或特性被包括在根据本公开的至少一个范例实施方式或技术中。在说明书中的各位置,短语“在一个实施例中”的出现不一定都指代相同的实施例。
以下描述的一些部分是依据对存储在计算机存储器内的非瞬态信号的操作的符号表示来呈现的。这些描述和表示由数据处理领域的技术人员使用,以最有效地将他们工作的实质传达给本领域其他技术人员。这种操作通常需要物理量的物理操纵。通常,但不是必须的,这些量采取能够被存储、传输、组合、比较和以其它方式操纵的电信号、磁信号或光学信号的形式。有时,主要出于通常使用的原因,将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。此外,有时也方便地将需要物理量的物理操纵的步骤的特定布置称为模块或代码设备,而不失一般性。
然而,所有这些和类似术语都与适当的物理量相关联,并且仅仅是应用于这些量的方便标签。除另行具体说明,如根据以下讨论而显而易见的,否则应意识到,贯穿说明书,利用诸如“处理”或“计算”或“运算”或“确定”或“显示”等的术语的讨论指的是计算机系统或类似电子计算设备的动作和过程,其操纵和变换被表示为计算机系统存储器或寄存器或其它此类信息存储、传输或显示设备内的物理(电子)量的数据。本公开的各部分包括可以实现在软件、固件或硬件中的过程和指令,并且当以软件实现时,可以被下载以驻留在由各种操作系统使用的不同平台上并且从所述不同平台操作。
本公开还涉及用于执行本文的操作的装置。该装置可以为所需目的而专门构造,或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中,例如但不限于任何类型的盘,包括软盘、光盘、CD-ROM、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁或光卡、专用集成电路(ASIC)、或适用于存储电子指令的任何类型的介质,并且每个可以耦合到计算机系统总线。此外,说明书中所提到的计算机可以包括单个处理器,或者可以是采用多个处理器设计以提高计算能力的架构。
本文呈现的过程和显示并非固有地与任何特定计算机或其它装置相关。各种通用系统也可以与根据本文的教导的程序一起使用,或者可以证明构造更专用的装置来执行一个或多个方法步骤是方便的。在下面的描述中讨论了针对各种这些系统的结构。此外,可以使用足以实现本公开的技术和实施方式的任何具体编程语言。可以使用各种编程语言来实施如本文所讨论的本公开。
此外,说明书中使用的语言主要是为了可读性和指导目的而选择的,并且可能未被选择来描绘或限制所公开的主题。因此,本公开旨在说明而非限制本文所讨论的概念的范围。
如前所述,需要根据基因组数据集来评估细菌性病原体的抗生素药物敏感性。在这样做的过程中,有时需要评估在构建基于机器学习的模型以预测药物敏感性之前标签准确预测特征的能力。
时常地,在标签和观察结果之间没有显著的关联模式。亦即,具体标签在统计学意义上不一定与一个或多个观察结果有关。因此,在模型中包括这些类型的标签将不必要地消耗处理能力并且可能导致不准确的分类。因此,选择可以准确预测的标签可以简化和改进模型。
因此,本文描述的方法和系统的各种实施例选择特定标签以用于构建适于预测病原体对各种抗生素的易损性的机器学习模型中。例如,该机器学习模型可以是随机森林模型。
根据一个实施例的方法可以通过首先访问或以其它方式接收例如基因组特征的矩阵和标签的矩阵或向量来开始。然后,该方法可以将主方差分量分析(下文中称为“PVCA”)应用于数据集,以获得数据集中每个潜在标签的效应量或方差贡献。具有高方差贡献或效应量的标签可以被选择或被呈现给用户以供选择。这些潜在标签可以用作训练用于未来数据集的机器学习模型的标签。
PVCA可以对数据集上的标签的效应量进行排序。根据该分析,人们可以估计哪些标签适于使用数据集进行预测。一般而言,协变量的效应量越低,预测的准确性就越低(即,将存在更高的错误率)。选择标签(例如,具有高效应量的标签)然后可以用作机器学习模型(例如随机森林模型)中的预测器/标签。
历史上,PVCA是基于主分量分析(PCA)和方差分量分析(VCA)的技术。该技术用于估计对基因表达数据的各种实验效应的变异性。除了生物和基因效应之外,这些实验效应可以包括能够潜在地对基因表达值具有效应的其它类型的环境、群体、技术和混杂因子。
PVCA帮助估计基因组数据集中由于给定协变量中的每个的方差,并将剩余方差归于剩余效应。换句话说,其组合了PCA和VCA,以将特征空间减少到更少数量的维度。然后,PVCA可以使用感兴趣的因子作为随机效应拟合混合线性模型,以估计和划分总变异性。
PVCA在估计每个协变量的方差比例时提供的功能不限于基因表达数据集。而是,PVCA还可以估计标签重要性,以选择值得在其它类型的多标签分类数据集中预测的标签。
图1图示了根据一个实施例的用于训练模型的系统100。在一些实施例中,该模型可用于根据基因组数据集来预测细菌性病原体的抗生素药物敏感性。系统100可以包括用户输入/输出(I/O)设备102和处理器104,处理器104执行存储于存储器106上的指令以提供方差分析引擎108。处理器104可以与接口110通信或以其它方式包括接口110,接口110接收来自一个或多个基因数据源112和114的数据。系统100还可以包括与处理器104通信的一个或多个数据库116。
处理器104的输出,以及即,方差分析引擎108可以包括一个或多个协变量的效应量。可以将效应量传递给筛分模块118。
筛分模块118可以基于它们的效应量对各种协变量进行排序或以其它方式分类。筛分模块118还可以输出协变量及其效应量的列表。例如,筛分模块118可以输出具有三个最高效应量的协变量。操作者可以经由I/O设备102查看这些协变量。此外,可以自动地或由操作者选择特定协变量以用于机器学习模块120中。
I/O设备102可以是能够从操作者接收命令和输出关于基因组数据、表型、协变量及其相关联的效应量的数据的任何合适的设备。I/O设备102可以被配置为例如但不限于个人计算机、平板计算机、膝上型计算机、移动设备、智能手表等。
处理器104可以是能够执行存储在存储器106上的指令以至少提供方差分析引擎108的任何特定配置的处理器或硬件设备。处理器104可以包括微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其它类似设备。在一些实施例中,诸如依赖于一个或多个ASIC的实施例中,被描述为部分地经由软件提供的功能可以替代地硬连线到ASIC的操作中,并且这样一来,可以省略任何相关联的软件。
存储器106可以是L1、L2、L3高速缓存或RAM存储器配置。存储器106可以包括:非易失性存储器,诸如闪存、EPROM、EEPROM、ROM和PROM;或易失性存储器,诸如静态或动态RAM,如上所述。存储器106的确切配置/类型当然可以改变,只要用于分析基因组数据的指令和用于生成针对协变量的效应量的指令可以由处理器104执行。
方差分析引擎108可以被配置为计算各种协变量的效应量或方差贡献。在临床领域中,这些协变量可以包括但不限于年龄、年份、分离株收集日期、分离株测序日期以及对各种抗生素(例如青霉素、万古霉素、四环素等)的敏感性。
接口110可以从一个或多个数据源112和114接收基因表达数据。然后,接口110可以将接收到的数据传递到处理器104以进行分析。接收到的基因表达数据可以包括但不限于多个特征的数据集和与特征有关的多个标签的数据集。
(一个或多个)数据库116可以存储关于特定协变量的效应量的数据。例如,(一个或多个)数据库116可以存储关于在特定数据集上执行的先前PVCA过程的结果的数据。
在分析接收到的数据之后,方差分析引擎108可以将关于协变量及其效应量的数据输出到筛分模块118。筛分模块118可以是能够调整尺寸、排序或者以其他方式基于其效应量分类协变量的任何特定配置的处理器或硬件设备。筛分模块118可以包括微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其它类似设备。在一些实施例中,例如依赖于一个或多个ASIC的实施例中,被描述为部分地经由软件提供的功能可以替代地硬连线到ASIC的操作中,并且因此,可以省略任何相关联的软件。
根据该分析,系统100可以使用数据集估计哪些标签适合于被预测。然后可以使用这些标签来构建准确的学习模型。因此,筛分模块118可以将具有最高效应量的协变量的列表输出到I/O设备102以呈现给操作者。然后可以在机器学习模型120中使用选定的协变量。
图2描绘了根据一个实施例使用图1的系统训练模型的方法200的流程图。步骤202涉及接收观察结果x特征的矩阵(m×n)。诸如图1的处理器104的处理器可以从诸如图1的数据源112的数据源接收该矩阵。
在涉及抗生素抗性预测的实施例中,该矩阵m×n可以是基因和分离株的矩阵。或者,在其它实施例中,矩阵m×n可以是抗生素抗性基因和分离株的矩阵。该基因组数据集也可以是以下中的至少一种:基因存在-不存在矩阵、单核苷酸多态性(SNP)矩阵、质粒剖析矩阵等。
步骤204涉及接收观察结果和协变量/标签的矩阵(m×l)。图1的处理器104可以从诸如图1的数据源114的数据源接收该数据。
时常地,存在可以与观察结果相关联并且可以是二元或多类别标签的许多标签。在一些实施例中,标签可以是标签的单个向量(m×1),其可以是二元或多类别的。在涉及抗生素抗性预测的实施例中,矩阵m×l可以是包括分离株和表型标签的协变量矩阵。
步骤206涉及分析矩阵m×n和m×l以计算各种协变量的效应量。该步骤206可以由方差分析引擎执行,例如由图1的方差分析引擎108执行。在该实施例中,方差分析引擎108可能已经接收到被指定为Covariate.Matrix的分离株和表型标签(m×l)的数据矩阵、被指定为All.genes的所有基因和分离株的数据矩阵,以及被指定为abRes.Genes的抗生素抗性基因和分离株的数据矩阵。然后,方差分析引擎108可以执行以下伪代码来分析接收到的矩阵:
covariate.PhenoData<-new("AnnotatedDataFrame",data=Covariate.Matrix)。##这创建类型为AnnotatedDataFrame(Biobase数据结构)的对象来存储分离株的表型/协变量数据。
All.expressionSet<-new("ExpressionSet",exprs=All.genes,phenoData=covariate.phenoData)
abRes.expressionSet<-new("ExpressionSet",exprs=abRes.Genes,phenoData=covariate.phenoData)。
##创建ExpressionSet对象(Biobase数据结构)以存储分离基因存在不存在数据集
pct_threshold<-0.6.
##PVCA阈值是选定的主分量需要解释的最小变异性量的百分位数值(值介于0和1之间)。
batch.factors<-c(“MLST”,”DAP.Int”,”AM.Int.”,“Lzd.Int”,”P.int”,”Rif.Int”,”Syn.Int”,”Te.Int”,”Year”,”Age.Cat”)。
##这些是用于划分特征的数据集中的变异性的协变量。
abRes.pvcaObj<-pvcaBatchAssess(abRes.expressionSet,batch.factors,pct_threshold)All.pvcaObj<-pvcaBatchAssess(All.expressionSet,batch.factors,pct_threshold).
##主方差分量分析。
pvcaBatchAssess函数返回协变量对数据集的效应量。在该实施例中,这些协变量包括年龄(Age.Cat)、年份(Year)、对阿米卡星的敏感性(AM.Int)、对达托霉素的敏感性(DAP.Int)、对利奈唑胺的敏感性(Lzd.Int)、对青霉素的敏感性(P.Int)、对利福平(Rif.Int)的敏感性、对四环素(Te.Int)的敏感性和通过多孔序列分型(MLST)测量的序列的方差。
可以开发脚本以实施PVCA。然而,有充分文件证明的流行PVCA模块可用作为由Bioconductor在https://www.bioconductor.org/packages/release/bioc/html/ pvca.html处提供的R包。
返回参考图2,步骤208涉及对标签l的效应量进行分类。该步骤可以由诸如图1的筛分模块118的筛分模块执行。筛分模块118可以例如根据它们的效应量以升序或降序输出标签的列表。或者,筛分模块118可以根据百分位数将标签分组为组。
步骤210涉及基于其效应量选择协变量(即,标签)。该步骤可以由图1的筛分模块118执行。在一些实施例中,例如,筛分模块118可以被配置为选择具有三个最高效应量的标签。或者,在其它实施例中,筛分模块118可以选择具有超过预定阈值的效应量的所有标签。在另外的实施例中,筛分模块118可以将所有标签的列表输出到用户接口,诸如图1的I/O设备102。然后,操作者可以查看列表并自己选择协变量。
步骤212涉及在机器学习模型中使用选定的协变量。例如,这可以是随机森林模型,并且可以用于对未来数据集进行预测。步骤212可以由以下伪代码执行:
rf<-randomForest(x=t(gene presence absence dataset),y=as.factor(label),importance=TRUE,ntree 10000,proximity=TRUE).
return(summary(rf$err.rate)).
##然后可以在随机森林模块中使用选定的协变量。
可以使用来自Comprehensive R Archive Network(CRAN)的randomForest包来构建随机森林模型。该包可从https://cran.r-project.org/web/packages/randomForest/ randomForest.pdf获得。
图2的方法200在协变量矩阵、基因矩阵(以下称为“All.Genes”)和抗生素抗性基因x分离株的抗生素抗性矩阵(以下称为“abRes.Genes”)上运行。
协变量矩阵包括308个分离株×10个表型标签。表型标签(即,协变量)包括上面讨论的那些。
All.Genes矩阵包括6094个基因×308个分离株。根据从308个屎肠球菌基因组预测的约13000个基因的总基因集中过滤这6094个高变异基因。
abRes.Genes矩阵包括180个基因×308个分离株。180个基因是从CARD和Resfinder的组合库中接收的,并且包括存在于308个屎肠球菌分离株中的至少一个中的那些基因。
在该数据集上运行PVCA以计算各种协变量对两个基因组数据集的效应量。图3描绘了两个堆叠的条形图形302和304,其分别示出了来自abRes.Genes矩阵和All.Genes矩阵的协变量的方差(即,效应量)。
如从图形302中可以看出的,例如,对于abRes.Genes矩阵302,剩余效应具有大约0.45的方差。应注意,在创建机器学习模型时,通常忽略且不考虑剩余效应。
根据图形302,具有针对abRes.Genes矩阵的次高方差的协变量是对阿米卡星(Am.Int)的敏感性,其中,方差为约0.25。另一方面,诸如年份和年龄的协变量具有极小的效应量。注意,每类别的方差值之和为1.00。
筛分模块118可以将诸如图形302和304的堆叠条形图形输出到I/O设备102以呈现给操作者。筛分模块118和I/O设备102可以被配置为根据用户的偏好仅呈现选择协变量。例如,筛分模块118可以被配置为仅输出具有三个最高效应量的协变量。I/O设备102可以包括或以其它方式被配置有一个或多个图形处理单元(GPU),以以多种格式(例如条形图形、列表、表格等)呈现协变量及其效应量。
筛分模块118和/或操作者可以基于其效应量来选择要在机器学习模型中使用的特定协变量。该机器学习模型可以是例如用于预测来自额外的特征集的标签的随机森林模型。
图4图示了条形图形400,其示出了当在abRes.Genes矩阵上构建随机森林模型时协变量中的每个的袋外(OOB)错误率。如可以看出的,MLST的OOB错误率非常低。这在MLST对abRes.Genes数据集的效应量具有大约18%的相对显著值(如图3的图形302中看到的)时是有意义的。
图形400还示出了诸如年龄和年份的协变量具有相对大的OOB错误率。这在它们两者具有相对不显着的效应量时是有意义的。
图5图示了条形图形500,其示出了当在All.Genes矩阵上构建随机森林模型时协变量中的每个的OOB错误率。图形500示出了该模型的MLST的OOB错误率也非常低,值约为0.1083。再次,这在MLST对All.Genes数据集的效应量具有大约40%的相对高的值(如图3的图形304中看到的)时是有意义的。
可以跨使用机器学习的多个域实施本文描述的各种实施例的特征。这些应用的范围可以从生物信息学到在线广告、语音识别、手写识别、营销、推荐系统等。因此,本文描述的各种实施例的特征可以帮助用户对可以使用特征的数据集预测什么做出有根据的判断。
以上讨论的方法、系统和设备是范例。各种配置可以在适当的情况下省略、替换或添加各种流程或部件。例如,在备选配置中,可以以与所描述的顺序不同的顺序执行方法,并且可以添加、省略或组合各种步骤。而且,关于特定配置描述的特征可以以各种其它配置组合。可以以类似的方式组合配置的不同方面和元素。而且,技术在发展,并且因此元素中的许多是范例,而不限制本公开或权利要求的范围。
例如,以上参考根据本公开的实施例的方法、系统和计算机程序产品的框图和/或操作图示描述了本公开的实施例。在框中注释的功能/动作可以不按如任何流程图所示的顺序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者框有时可以以相反的顺序执行,这取决于所涉及的功能/动作。额外地或备选地,并非需要执行和/或运行任何流程图中所示的所有框。例如,如果给定的流程图具有包含函数/动作的五个框,则情况可能是仅执行和/或运行五个框中的三个框。在该范例中,可以执行和/或运行五个框中的任意三个框。
值超过(或大于)第一阈值的陈述等价于值满足或超过稍微大于第一阈值的第二阈值的陈述,例如,第二阈值是在相关系统的分辨率中高于第一阈值的一个值。值小于第一阈值(或在第一阈值内)的陈述等价于值小于或等于稍微低于第一阈值的第二阈值的陈述,例如,第二阈值是相关系统的分辨率中低于第一阈值的一个值。
在说明书中给出了具体细节以提供对范例配置(包括实施方式)的透彻理解。然而,可以在没有这些具体细节的情况下实践配置。例如,已经示出了公知的电路、过程、算法、结构和技术而没有不必要的细节,以避免模糊配置。该描述仅提供范例配置,并且不限制权利要求的范围、适用性或配置。相反,前面对配置的描述将向本领域技术人员提供用于实施所描述的技术的使能描述。在不背离本公开的精神或范围的情况下,可以对元件的功能和布置进行各种改变。
已经描述了若干范例配置,可以使用各种修改、备选构造和等价方案而不背离本公开的精神。例如,以上元素可以是更大系统的部件,其中,其它规则可以接管流程或以其它方式修改本公开的各种实施方式或技术的应用。而且,可以在考虑以上元件之前、期间或之后进行多个步骤。
已经提供了本申请的描述和说明,本领域技术人员可以设想落入本申请中讨论的总体发明构思内的变型、修改和备选实施例,其不背离权利要求的范围。
Claims (13)
1.一种用于训练抗生素抗性模型的方法,所述方法包括:
经由接口接收包括多个基因组特征和多个分离株的特征矩阵;
经由所述接口接收包括多个表型和所述多个分离株的协变量矩阵;其中,所述多个表型包括对各种抗生素的敏感性;
将所述特征矩阵和所述协变量矩阵输入到处理器中,所述处理器执行被存储于存储器上的指令以提供方差分析引擎;
将来自所述方差分析引擎的所述多个表型中的每个表型的效应量供应到筛分模块;并且
经由所述筛分模块基于所述表型中的至少一个表型的所述效应量选择至少一个选定的表型来训练抗生素抗性机器学习模型。
2.一种训练用于预测抗生素药物敏感性的模型的方法,所述方法包括:
经由接口接收多个特征的数据集;
经由所述接口接收与所述多个特征有关的标签的集合;其中,所述标签的集合是包括多个表型的协变量矩阵,并且所述多个表型包括对各种抗生素的敏感性;
将所述多个特征的所述数据集和所述标签的集合供应到处理器,所述处理器被配置为执行被存储于存储器上的指令以提供方差分析引擎,其中,所述方差分析引擎被配置为针对关于所述多个特征的所述数据集的所述标签中的每个标签生成效应量;
将针对标签生成的至少一个效应量作为输出从所述方差分析引擎供应到筛分模块;并且
经由所述筛分模块基于至少一个供应的效应量来选择要用于机器学习模型中的至少一个标签。
3.根据权利要求2所述的方法,其中,所述多个特征的所述数据集是基因组数据集,所述基因组数据集包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因矩阵、基因表达矩阵、RNA序列矩阵以及微阵列矩阵。
4.根据权利要求2所述的方法,其中,所述标签的集合是二元值的单个向量。
5.根据权利要求2所述的方法,其中,所述标签的集合是多类别值的单个向量。
6.根据权利要求2所述的方法,其中,经由所述筛分模块选择所述至少一个标签包括基于超过预定阈值的所述至少一个标签的生成的效应量来选择所述至少一个标签。
7.根据权利要求2所述的方法,还包括:经由所述筛分模块基于多个标签的效应量对所述多个标签进行排序,并且经由所述筛分模块基于所述排序来选择所述至少一个标签。
8.一种用于训练用于预测抗生素药物敏感性的模型的系统,所述系统包括:
接口,其用于接收多个特征的数据集和与所述多个特征有关的标签的集合;其中,所述标签的集合是包括多个表型的协变量矩阵,并且所述多个表型包括对各种抗生素的敏感性;
存储器;以及
处理器,其被配置为执行被存储于所述存储器上的指令以提供方差分析引擎,所述方差分析引擎被配置接收所述多个特征的所述数据集和所述标签的集合并且还被配置为输出针对所述标签中的每个标签的效应量,其中,至少一个标签基于所述至少一个标签的效应量被选择为被用于机器学习模型中。
9.根据权利要求8所述的系统,其中,所述多个特征的所述数据集是基因组数据集,所述基因组数据集包括以下中的至少一种:基因存在-不存在矩阵、SNP矩阵、质粒剖析矩阵、移动基因元件矩阵、基因表达矩阵、RNA序列矩阵以及微阵列矩阵。
10.根据权利要求8所述的系统,其中,所述标签的集合是二元值的单个向量。
11.根据权利要求8所述的系统,其中,所述标签的集合是多类别值的单个向量。
12.根据权利要求8所述的系统,其中,至少一个选定的标签是基于超过预定阈值的所述至少一个选定的标签的生成的效应量来选择的。
13.根据权利要求8所述的系统,其中,所述方差分析引擎还被配置为基于所述标签的集合的效应量对所述标签的集合进行排序,并且基于所述排序来选择所述至少一个标签。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662426775P | 2016-11-28 | 2016-11-28 | |
US62/426,775 | 2016-11-28 | ||
US201762511051P | 2017-05-25 | 2017-05-25 | |
US62/511,051 | 2017-05-25 | ||
PCT/EP2017/080550 WO2018096153A1 (en) | 2016-11-28 | 2017-11-27 | Analytic prediction of antibiotic susceptibility |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110024036A CN110024036A (zh) | 2019-07-16 |
CN110024036B true CN110024036B (zh) | 2023-06-30 |
Family
ID=60953800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780073559.9A Active CN110024036B (zh) | 2016-11-28 | 2017-11-27 | 抗生素敏感性的分析预测 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20190279738A1 (zh) |
EP (1) | EP3545446A1 (zh) |
JP (1) | JP7071976B2 (zh) |
CN (1) | CN110024036B (zh) |
WO (1) | WO2018096153A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112400023A (zh) * | 2019-03-14 | 2021-02-23 | 株式会社日立高新技术 | 药剂敏感性检查方法 |
CN117612747B (zh) * | 2024-01-24 | 2024-05-03 | 杭州广科安德生物科技有限公司 | 一种针对肺炎克雷伯菌的药物敏感性预测方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015193427A1 (en) * | 2014-06-19 | 2015-12-23 | Olink Ab | Determination and analysis of biomarkers in clinical samples |
CN105556523A (zh) * | 2013-05-28 | 2016-05-04 | 凡弗3基因组有限公司 | Paradigm药物响应网络 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444308B2 (en) * | 2001-06-15 | 2008-10-28 | Health Discovery Corporation | Data mining platform for bioinformatics and other knowledge discovery |
EP1352356B1 (en) * | 2000-06-08 | 2009-10-14 | Virco Bvba | Method for predicting therapeutic agent resistance using neural networks |
US7384734B2 (en) | 2002-02-15 | 2008-06-10 | Monogram Biosciences, Inc. | Compositions and methods for determining the susceptibility of a pathogenic virus to protease inhibitors |
US7250496B2 (en) * | 2002-11-14 | 2007-07-31 | Rosetta Genomics Ltd. | Bioinformatically detectable group of novel regulatory genes and uses thereof |
US20140066320A1 (en) * | 2012-09-04 | 2014-03-06 | Microsoft Corporation | Identifying causal genetic markers for a specified phenotype |
WO2015007487A1 (en) | 2013-07-17 | 2015-01-22 | Siemens Aktiengesellschaft | Method and system for determining a bacterial resistance to an antibiotic drug |
US20160138105A1 (en) * | 2014-11-14 | 2016-05-19 | The Board Of Trustees Of The Leland Stanford Junior University | System and methods for determining a woman's risk of aneuploid conception |
CN107567624A (zh) * | 2015-03-12 | 2018-01-09 | 皇家飞利浦有限公司 | 显示生物分离物的抗菌敏感性的方法 |
WO2017075294A1 (en) * | 2015-10-28 | 2017-05-04 | The Board Institute Inc. | Assays for massively combinatorial perturbation profiling and cellular circuit reconstruction |
EP3266877B1 (en) | 2016-07-08 | 2019-02-27 | Biomérieux | Flow cytometry data processing for antimicrobial agent sensibility prediction |
-
2017
- 2017-11-27 WO PCT/EP2017/080550 patent/WO2018096153A1/en active Application Filing
- 2017-11-27 CN CN201780073559.9A patent/CN110024036B/zh active Active
- 2017-11-27 EP EP17826421.4A patent/EP3545446A1/en active Pending
- 2017-11-27 JP JP2019528551A patent/JP7071976B2/ja active Active
- 2017-11-27 US US16/463,710 patent/US20190279738A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105556523A (zh) * | 2013-05-28 | 2016-05-04 | 凡弗3基因组有限公司 | Paradigm药物响应网络 |
WO2015193427A1 (en) * | 2014-06-19 | 2015-12-23 | Olink Ab | Determination and analysis of biomarkers in clinical samples |
Also Published As
Publication number | Publication date |
---|---|
CN110024036A (zh) | 2019-07-16 |
JP7071976B2 (ja) | 2022-05-19 |
WO2018096153A1 (en) | 2018-05-31 |
EP3545446A1 (en) | 2019-10-02 |
JP2020512608A (ja) | 2020-04-23 |
US20190279738A1 (en) | 2019-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alachiotis et al. | RAiSD detects positive selection based on multiple signatures of a selective sweep and SNP vectors | |
Avsec et al. | Effective gene expression prediction from sequence by integrating long-range interactions | |
Behr et al. | Pong: fast analysis and visualization of latent clusters in population genetic data | |
Ahmed et al. | GrandPrix: scaling up the Bayesian GPLVM for single-cell data | |
Pilpel et al. | Identifying regulatory networks by combinatorial analysis of promoter elements | |
Tuikkala et al. | Improving missing value estimation in microarray data with gene ontology | |
Rau et al. | Co-expression analysis of high-throughput transcriptome sequencing data with Poisson mixture models | |
Demey et al. | Identifying molecular markers associated with classification of genotypes by External Logistic Biplots | |
Meyer et al. | PhenotypeSimulator: A comprehensive framework for simulating multi-trait, multi-locus genotype to phenotype relationships | |
Scheel et al. | The influence of missing value imputation on detection of differentially expressed genes from microarray data | |
US20210104298A1 (en) | Secure communication of nucleic acid sequence information through a network | |
Santos et al. | Inference of ancestry in forensic analysis II: analysis of genetic data | |
Llinares-López et al. | Genome-wide genetic heterogeneity discovery with categorical covariates | |
Duren et al. | Regulatory analysis of single cell multiome gene expression and chromatin accessibility data with scREG | |
CN110024036B (zh) | 抗生素敏感性的分析预测 | |
Li et al. | Searching for robust associations with a multi-environment knockoff filter | |
Moorthy et al. | Missing-values imputation algorithms for microarray gene expression data | |
US20190205361A1 (en) | Table-meaning estimating system, method, and program | |
Curis et al. | Determination of sets of covariating gene expression using graph analysis on pairwise expression ratios | |
Fang et al. | TSGSIS: a high-dimensional grouped variable selection approach for detection of whole-genome SNP–SNP interactions | |
Algama et al. | Investigating genomic structure using changept: A Bayesian segmentation model | |
Papastamoulis et al. | A Bayesian model selection approach for identifying differentially expressed transcripts from RNA sequencing data | |
Švendová et al. | A novel method for estimating the common signals for consensus across multiple ranked lists | |
Ding et al. | Predicting phenotypes from microarrays using amplified, initially marginal, eigenvector regression | |
Ranciati et al. | Mixture model with multiple allocations for clustering spatially correlated observations in the analysis of ChIP‐Seq data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |