CN107851031B - 数据发现节点 - Google Patents

数据发现节点 Download PDF

Info

Publication number
CN107851031B
CN107851031B CN201680039876.4A CN201680039876A CN107851031B CN 107851031 B CN107851031 B CN 107851031B CN 201680039876 A CN201680039876 A CN 201680039876A CN 107851031 B CN107851031 B CN 107851031B
Authority
CN
China
Prior art keywords
data
analysis
scientific
algorithm
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680039876.4A
Other languages
English (en)
Other versions
CN107851031A (zh
Inventor
M·西蒙
J·阿尔玛罗德
M·D·斯塔德尼斯凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FlowJo LLC
Original Assignee
FlowJo LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FlowJo LLC filed Critical FlowJo LLC
Publication of CN107851031A publication Critical patent/CN107851031A/zh
Application granted granted Critical
Publication of CN107851031B publication Critical patent/CN107851031B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44521Dynamic linking or loading; Link editing at or after load time, e.g. Java class loading
    • G06F9/44526Plug-ins; Add-ons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/141Setup of application sessions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/143Termination or inactivation of sessions, e.g. event-controlled end of session
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/53Network services using third party service providers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Stored Programmes (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本文描述了用于调用和同化外部算法并在会话中实时与所述算法交互的框架和接口。示例实施例还包括可重现且可更新的节点,可以利用这些节点进行数据驱动的分析,由此,数据本身可以指导算法选择、变量和呈现,从而带来分析工作流程的迭代和优化。利用示例实施例,可以在特定数据集上执行整个发现或诊断过程,从而将所述发现或诊断过程与特定数据集分离,使得相同的发现或诊断过程、表型鉴定和可视化可以在未来的实验中重复、公开、验证或与其他研究人员分享。

Description

数据发现节点
相关专利申请的交叉引用和优先权要求
本专利申请要求于2015年5月8日提交的标题为“数据发现节点(Data DiscoveryNodes)”的美国临时专利申请序列号62/158,903的优先权,其全部公开内容通过引用并入本文。
背景技术
由于技术的改进,单细胞实验仪器能够生成比前代仪器多得多的信息。例如,流式细胞仪可以生成表示数千个个体细胞的数据,每个细胞具有多个参数(例如,10个或更多个参数)。因此,可能鉴定的表型数目呈指数级增长。换句话说,在提交本申请之前,通过单细胞测定产生的信息性内容大幅度增加。此外,单细胞研究已扩大到包括探究每个细胞的数千个转录物(RNA)分子和DNA修饰。例如,整个转录组分析一次将检测10,000个基因。
虽然生成更多的数据提供了对于细胞表型相互作用或影响疾病的方式及其表达其他疾病相关蛋白的可能性的更为深入的了解,但采集仪器产生的数据量是惊人的,甚至可以压倒最专业的专家。一般来说,生命科学家将他们的专业知识集中在一组或一子组细胞功能或细胞表型上。例如,免疫学家将他或她的实践集中在少数细胞表型上,以了解疾病或免疫细胞功能。同时,系统生物学家可能在细胞相互作用以及将基因与蛋白质连接起来的路径方面拥有丰富的知识。期望一个人成为所有细胞群的专家是不现实的,因为细胞相互作用、鉴定和功能包含多样且复杂的性质范围。因为生命科学家的专业知识通常限于某些而非所有细胞表型(通常不到所有目前已知的细胞表型的50%),因此在发现和诊断分析中产生了知识不一致性,因为专家并没有深入了解每个细胞细胞表型与疾病或细胞相互作用的相关性。由于这种知识的不一致性,专家可能会将他对采集仪器采集的数据的研究集中在该专家熟悉的细胞表型上。在将实验和研究局限于表型子集的情况下,分析师可能忽略或错过可能对疾病或细胞功能具有非常大影响的重要表型。此外,在集中于已知表型的情况下,采集仪器收集的大量数据可能处于休眠状态,未被利用。
基于细胞表型的一个子集来分析数据可能在实验中取得有趣的发现。然而,细胞应答可能包括表达多种功能的模式的细胞,仅通过分析细胞表型的一个子集,科学家可能无法鉴定其他细胞群是如何影响细胞应答或疾病的。例如,一名研究人员可能正在进行一项实验,寻找在特定免疫反应中很重要的T细胞亚群。在这个示例中,T细胞亚群可以由四个参数(也称为标记)的组合来定义。当然,在实验开始时,研究人员并不知道鉴定感兴趣的T细胞亚群所需的标记物的数量。因此,通过检查更多细胞上的更多标记,研究人员可以发现与发病率或治疗效果相关的细胞亚群,而且,利用更多的数据分析技术,研究人员可以克服自己的知识不一致性,以找到新的和意料之外的对于疾病或细胞功能重要的亚群。因此,本领域需要补偿大多数研究者和科学家所表现出的知识差距的技术。
发明人认为,常规技术方案没有充分弥合科学家缺乏知识与实际细胞应答之间的差距。例如,虽然常规技术可能通过提供有价值的分析工具来协助研究人员的实验,但这些工具仍然不足以弥补数据知识的不一致性。在常规的发现解决方案中,分析师仍然必须执行人工聚类并对一组样本进行分析。然而,在具有9个检查细胞表型的标记物、8个检查记忆状态的标记物和8个检查细胞通讯的标记物的示例实验中,可能的聚类的数量是225或33,554,432个聚类,这些聚类对于人工分析来说数量太多。换句话说,潜在表型和可能的二维显示器的数量不能与人工分析很好地相称。当然,可以进行一些表型修剪,以将表型空间限制到更易处理的数目。例如,一名生命科学家可以对个体细胞进行预处理门控并对活的完整细胞进行进一步表型修剪,以检查CD3+CD45+/-/HLA-DR-/CD16+、CD4+和CD8+细胞,这些细胞进一步分为
Figure BDA0001540069450000031
效应器、中央记忆和效应器记忆细胞。然而,即使在这个表型修剪后的示例中,为了发现也需要人工处理每个样本16个文件。因此,试图利用单细胞技术进行超越狭窄的关注点、以发现为重点的研究的科学家将面临困难的、非确定性的、不可重现的路径。因此,本领域需要提供能够分析高维数据并找到生物相关数据而无需高技能专家介入的数据分析工具。
发明内容
正是鉴于上述问题提出了本发明。发明人公开了用于调用和同化任何外部算法并在会话中实时与所述算法交互的框架和接口。发明人还公开了可再现且可更新的节点并利用这些节点进行数据驱动的分析,由此,数据本身可以指导算法选择、变量和呈现,从而带来分析工作流程的迭代和优化。通过示例实施例的这两个方面,可以在特定数据集上执行整个发现或诊断过程,从而将发现或诊断过程与特定数据集分离,使得相同的发现或诊断过程、表型鉴定和可视化可以在未来的实验中重复、公开、验证或与其他研究人员分享。
下面参照附图详细描述本发明的其他特征和优点,以及本发明的各种实施例的结构和操作。
附图说明
结合在说明书中并形成说明书的一部分的附图示出了本发明的实施例,并且与说明书一起用于解释本发明的原理。在附图中:
图1示出了示例实施例的系统图。
图2A示出了根据示例性实施例的插入框架和体系结构。
图2B示出了工作空间的示例XML描述。
图2C示出了插件的示例XML描述。
图3示出了使用插件框架和体系结构与远程计算机接合的实现。
图4示出了使用插件框架和体系结构与外部算法接合的实现。
图5A示出根据示例性实施例的具有结果反馈的数据发现节点过程的高级表示。
图5B示出了如何使用数据发现节点来扩展知识库的示例。
图6示出了由数据发现节点执行的数据分析流程的整个生命周期。
图7示出了用于创建数据发现节点并设置和定义操作变量的用户界面。
图8A示出了训练数据发现节点的专家和调用经过专家训练的数据发现节点的分析师。
图8B和图8C示出了数据发现节点的专家训练的示例。
图9示出了通过数据发现节点表示的决策树。
具体实施方式
参照附图,其中相同的附图标记表示相同的元件,图1示出系统图。如图1所示,数据采集仪器连接到采集计算机。在一个示例实施例中,采集仪器是流式细胞仪。然而,应当理解,流式细胞仪以外的仪器可以用作采集仪器。然而,出于解释的目的,本文使用流式细胞术作为示例实施例,因为发明人认为,本文描述的技术对于包括流式细胞术在内的单细胞技术是特别新颖和有用的。
分析计算机通过网络连接,例如通过因特网、通过子网、通过内联网,连接到服务器,或者通过因特网连接到云。在一些实施例中,采集仪器可以连接到采集计算机,并在将采集仪器所采集的数据传送到分析计算机之后,数据在分析计算机上进行分析
分析计算机执行分析软件,分析软件能够针对被测样本调整采集仪器的一个或多个参数(例如,电压、流量等)。这样的分析软件也可以在获取样本数据的同时显示初始样本信息,以向用户提供反馈来评估参数是否正确设置。分析软件可能取决于采集仪器的制造商而有所不同。在一些实施例中,采集计算机可以执行主要包含用户界面项目的轻量版本的分析软件,并且服务器也包括分析软件的版本。在该实施例中,服务器可以执行处理密集型功能,例如繁重的数据分析,因为服务器可以具有比采集计算机更多的计算资源。
分析软件可以从采集仪器接收指示采集仪器正在分析的样本的结果的数据信号,或者分析软件可以接收表示由采集仪器收集的数据的数据文件。在一些实施例中(例如,当采集仪器是流式细胞仪时),分析软件所生成的数据可以指示以下各项中所有或一些项:样本中的细胞数量、外周血单核细胞(PBMC)的数量和频率、CD4+T细胞的数量、CD14细胞的数量、CD7+细胞的数量等。样本分析的结果可以包含在一个或多个流式细胞术标准格式文件(例如,FCS或CSV文件)内。采集计算机基于采集仪器提供的信号和数据创建FCS文件。然而,应当理解,可以使用其他文件格式,特别是如果采集仪器不是流式细胞仪的话。分析软件可以进一步生成关于样本的元数据,所述元数据指示诸如采集仪器ID、患者ID、采集条件和参数等信息。
分析计算机还包括允许分析计算机与远程计算机,如分析服务器或第三方服务器,进行通信的接口。作为向其传送所采集的数据的其他计算机的示例,服务器可以是专用于流式细胞术分析的远程服务器。在远程服务器实施例中,分析或采集计算机可以通过网络访问服务器。分析或采集计算机也可以与第三方计算机系统或服务器进行通信。分析或采集计算机可以存储和执行第三方算法,诸如被配置用于鉴定种群的算法,以包括用于临床目的的追踪标识号,或任何其他能够分析数据或处理由采集计算机生成的数据的外部算法。尽管图1示出了分析或采集计算机系统存储和执行第三方算法的情况,但是应当理解,诸如服务器等远程计算机也可以执行第三方或“外部”算法。采集计算机可以根据需要和采集计算机执行的分析与多个远程计算机系统进行通信。
服务器包括处理器和存储器以及诸如数据库的数据存储。驻留在非暂时性计算机可读存储介质(诸如存储器)上的处理器可执行指令可由处理器执行以执行本文描述的任务。数据库可以存储在此描述的数据发现节点数据结构。采集计算机可以类似地包括处理器和存储器,并且其中驻留在非暂时性计算机可读存储介质(诸如采集计算机的存储器)上的处理器可执行指令可以由采集计算机的处理器执行以执行本文描述的采集计算机的任务。
下面的描述将详细阐述在此描述的本发明技术的许多不同方面,包括但不限于(1)用于调用和同化外部软件算法的插件框架和接口,以及(2)利用数据发现节点的数据驱动的发现过程。
算法插件框架和接口
在单细胞化验的研究中,科学家和算法专家继续生成使得对采集工具收集的数据的分析更为高效的有用的分析算法。例如,一些外部分析算法被配置用于鉴定细胞群。
常规上,通过称为门控的过程人工完成细胞群鉴定。人工门控通常涉及用户人工围绕一组(簇)数据点绘制形状,诸如圆形或多边形,来鉴定细胞群。然而,生命科学数据分析的进展已经生成了能够鉴定细胞群的自动门控程序。此外,使用计算机处理器进行细胞群鉴定或任何其他数据分析步骤可以消除任何人为产生的瓶颈或偏差,因为处理器执行的算法可以比由人进行的人工分析更快速和更客观地鉴定细胞群或进行其他分析。虽然以种群鉴定算法为例,但是存在其他类型的帮助科学家分析和解释采集仪器收集的数据的数据分析算法,如用于生成报告或可视化分析结果以及用于诸如SPADE、FlowMeans等高通量基因组和表型数据分析的外部算法,以及作为Bioconductor项目的一部分托管的算法。
除了用于种群鉴定的外部算法之外,算法插件框架和接口可以与外部服务器或远程计算机系统通信以从开源数据库下载实验数据、从外部数据库下载注释的实验数据、上传工作空间数据,以便外部服务器或远程计算机系统可以扫描统计值、执行应用级操作或接收用于临床试验的追踪标识号。与外部服务器系统交互的能力为分析软件提供了有价值的分析结果的预处理和后处理。例如,如果进行临床试验的科学家需要试验标识号,则算法插件框架和接口可以与外部服务器通信以上传用于验证目的的临床试验结果。
在又一个实施例中,在分析软件内部的算法可以在特定的平台中进行划分,使得它们在其预期的上下文之外是不可访问的。这些内部但在预期的上下文之外无法访问的示例(当分析软件是FlowJo时)可以包括扩散平台中的多项式拟合、FlowJo补偿编辑器中的+/-峰值搜索,或FlowJo的细胞周期平台中的高斯拟合。本文描述的算法插件框架和接口不仅将外部算法整合到分析软件,而且允许在上述当前有限的上下文之外使用划分的内部算法。
插件系统是提供API以使外部算法能够在产品中运行以扩展其功能的机制。外部算法通常可以用于通过生成结果CLR/CSV文件(其中每行对应于样本中的事件)来鉴定种群,但也可以会生成其他构件,如报告或表格。在示例实施例中,外部算法可以用Java语言或可以从Java调用的任何其他语言来实现。为了添加外部算法,开发人员将实现Java接口,FlowJo产品使用该接口在工作空间中创建新的“种群节点”,然后可以像FlowJo的几何门控的种群节点一样进行操纵,以创建图形和统计数据。
如图1所示,采集计算机可以存储和执行对于分析采集仪器所采集的数据有用的多个软件程序和算法。例如,分析软件可以包括单细胞分析程序,诸如FlowJo。第三方算法可以执行与分析软件互补的处理,诸如但不限于上述的自动种群鉴定程序或外部服务器功能。采集计算机可以在分析软件的指导下执行外部算法。在一些实施例中,采集计算机可以执行外部算法,在另一个实施例中,诸如图1中所示的服务器之类的远程计算机可以执行外部算法,并将外部算法的处理结果通过网络提供给采集计算机。
图2示出了用于在分析软件的处理的会话内调用外部算法或分析结果的预/后处理的示例性框架和接口。本文描述的框架可以基于现有的科学数据分析软件。例如,如果分析软件是为分析流式细胞术数据而生成的软件,则框架可以调用外部算法来鉴定流式细胞仪所收集的数据内的细胞群。用于与外部服务器和外部算法交互的框架可以包含在数据分析软件内。
例如,框架可以包括一组协作的类及其交互序列,如由诸如Java等编程语言所定义的。虽然给出Java作为示例编程语言,但是任何数量的编程语言之一可以用作执行本文描述的过程和框架的编程语言。尽管多种编程语言可以实现本文描述的系统和方法,但是Java确实具有某些优于其他编程语言的优点,即Java能够调用其他编程语言,例如C、R或基于web的计算引擎语言。许多对科学仪器收集的数据进行统计分析的外部算法是使用R语言编写的。因此,Java调用R的能力将分析软件与使用R编写的外部算法连接起来。当然,如果外部算法不是使用R编写的,Java也可以调用外部算法的编程语言。
该框架以事件聚类值、公式、视觉图形或几何定义的边界定义的形式提供了通过输入的一组数据值以及随后的分析结果的处理来调用当前和未来的数据分析算法的机制。换句话说,框架生成一组输入数据,并调用两个接口之一将输入数据传送给外部算法或外部服务器。在外部算法处理之后,框架从外部算法或服务器接收分析结果,并提供一种机制,通过该机制表示算法或预/后处理的调用并将其保存在文件中。保存在文件中的分析结果可以与分析软件整合在一起,用于下游统计计算、结果绘图或其他算法的调用(如另外的外部算法、后续的预/后处理或包含在分析软件中的算法)。
该框架还管理整合算法的调用,这些整合算法是数据分析软件本身的外部算法。分析软件提供了生物学家可以与这些算法交互的接口。该分析软件基于生物学家(例如,选择待对其进行分析的特定种群)和插件开发者(例如,指定对算法需要作为输入的数据的要求(例如,对应于生物学家已选择的种群的数据值的CSV文件),以及在分析之后,插件接口将可在何处将何种类型的输出呈现给用户)提供的指令。该接口还可以作为传送分析中的更新的代理,从而分析始终保持层级正确和生物相关。更具体而言,框架不仅在分析首次运行时调用整合算法,而且每当输入的数据值集合发生变化时,框架也会重新执行整合算法。因此,科学家们可以快速地对多组数据输入进行分析,每当输入数据值改变或用户改变实验参数时,框架将调用并重新执行整合算法而无需用户交互。例如,改变一些数据参数可能改变整合算法如何鉴定种群。在注意到数据输入发生变化时,框架调用整合算法重新鉴定种群,并且框架使用整合算法所生成的分析结果。在接收到来自综合算法的分析结果后,框架可以以分析软件所理解的数据格式将结果提供给分析软件,分析软件可以对结果进行下游分析,如统计分析、绘图或报告。
该框架允许将算法整合保存为工作空间,以便工作空间可以保存并重新打开以供进一步分析。
框架包括用于与远程计算机系统通信的接口和用于与外部算法通信的接口。每个接口都提供了一种手段,通过这种手段,可以调用外部服务器上存储的外部算法或功能,而无需用户交互。实际上,对于通过图形用户界面查看数据处理的用户来说,外部算法的调用是不可见的,因为只有通过外部算法执行的分析的结果可以显示给用户,诸如通过由分析软件生成的统计数据、图形或其他报告。
通常,用于调用整合算法的接口包括但不限于来自一个或多个实验的数据值的输入文件、输出文件夹目的地和数据集的XML描述。这一XML描述可以包括指向原始数据的指针、包括插件驱动的分析的所有执行的分析、关于数据的元信息,以及最佳用于处理和可视化数据的数据转换,诸如双指数变换(logicle)、双指数(biexponential)、超对数和双曲线反正弦。XML描述可以采取XML文档的形式,XML文档通过标记指定这些信息,将原始数据层级地链接到分析和相关的结果。图2B示出工作空间的示例XML描述,图2C示出插件的示例XML描述。应当理解,可以使用XML以外的形式,诸如可以存储相同数据和分析体系结构的专有二进制文件。此外,数据集的描述(无论是XML还是其他格式)可以包括关于任何基于插件的分析的输入参数的元数据以及指向由外部算法产生的任何派生数据的指针。XML元信息是否被外部算法使用取决于调用的算法。外部算法接口还定义了待由框架保存并稍后恢复的算法调用的步骤。接口能够以图形、派生参数、表格数据、门控数据(如门控ML格式)、分类结果文件(CLR)、XML数据或逗号分隔值(CSV)文件的形式从整合算法接收分析结果。换句话说,接口被配置用于管理由整合算法生成的构件。
接口定义了一个约定,外部算法和服务器功能必须遵守该约定以将外部算法插入到分析软件中。外部算法接口和预/后处理接口各自定义用于与外部服务器上的预/后处理接合或用于与外部算法接合的约定。图3和图4更详细地说明了不同的接口实施步骤。
参考图3,示出了用于与远程计算机接合的实现步骤。该方法从接口打开工作空间开始。打开工作空间包括处理器读取工作空间的XML和预/后处理接口的XML。虽然工作空间XML包含与每个样本相关联的元数据(采集日期、仪器类型、参数名称等)以及采集后添加的用户定义的样本特定元数据,但插件接口特定的XML保留执行/更新插件模块所需的变量,例如数据库或服务器的URI。读取工作空间并接收URI之后,处理器建立与服务器或存储在其中的数据存储(例如,数据库)的连接,以如下所述发起认证、执行查询,以及从数据库中检索数据并修改工作空间XML。工作空间打开步骤进一步包括由处理器执行的预/后处理接口基于来自数据库(例如,用于样本追踪的实验室信息管理系统(LIMS),该系统包括用于指定数据文件的元数据和分析指令)的检索来扩充或修改XML工作空间(输入到分析软件))。此外,可以修改XML输入以添加门、统计数据、样本名称或可能包含在工作空间XML中的任何内容。只要输入符合由分析软件定义的定义模式,这些添加就可以在分析软件中调用计算和表示。通过接口处理输入的验证和错误报告,并在部署时运行用于测试输入的验证套件。它也可以执行授权,这可以以确保分析软件具有访问服务器的权限、确定外部服务器是否在线、交换证书或任何其他授权步骤的形式来进行。XML增强可以包括处理器生成或改变元数据以反映远程服务器要执行预/后处理步骤。
接下来,该方法在分析软件内保存工作空间。保存步骤包括处理器保存工作空间和预/后处理接口的状态。插件将在工作空间中更新其自身的XML表示以保持其“状态”,并且可以遍历XML以提取数据并执行动作,例如,使用指定的统计数据更新数据库。在此步骤中,预/后处理接口可以生成其他构件,诸如SQL输出或所执行的分析动作的日志,并且预处理接口与外部系统进行通信。在此通信期间,接口向外部系统提供输入数据并接收来自外部系统的数据,诸如下载根据MIFlowCyt标准收集和注释的数据、从临床追踪器接收追踪标识号,或者任何其他的预/后处理步骤。预/后处理接口可以引用服务器URL来进行该通信。
在完成与外部服务器的通信之后,处理器终止会话,预/后处理接口释放计算机资源,如数据库连接。
现在参考图4,示出了用于与外部算法接合的实现步骤。该方法首先创建外部种群节点,该外部种群节点可以被定义为外部算法接口的封装器。在该创建步骤中,处理器可以提示用户选择与外部算法相关的选项,诸如设置参数、设置操作变量、命名文件等,但是这一用户提示步骤是可选的,并且可以取决于所调用的外部算法。
接下来,处理器通过生成XML表示来构建引擎请求,以调用由外部算法执行的计算。XML表示表示要执行的算法或要生成的可视化,以及相关联的输入和所需的参数,例如,文件路径、参数数量、聚类数量、降维变量、颜色选择、可视化类型、保存的图像类型等。
在构建请求之后,处理器调用外部算法。调用外部算法包括为外部算法提供FCS文件、包含在FCS文件中的XML(包括事件数量、样本文件名和种群名称),以及外部算法应该保存其结果的输出文件夹。作为响应,外部算法执行其处理和计算。外部算法执行所请求的处理和计算后,分析软件接口接收结果并将其整合到分析软件中。这些结果可以以CSV文件、CLR文件、门控ML文件或FCS文件的形式出现。导入CSV或CLR文件时,CSV或CLR文件的每一行对应于FCS文件中的事件,列号对应于聚类号。此外,外部算法接口创建派生参数,分析软件自动对派生参数进行门控以创建子种群。在接收到结果之后,处理器可以修改算法的输入。在一个实施例中,处理器通过参考存储在给定输出文件中的数据来接收外部算法的结果。
在接收到来自外部算法的结果后,处理器将工作空间保存在文件系统中并恢复分析软件工作空间。处理器然后可以在分析软件的指导下执行另外的下游分析。
通过这种方式,分析软件可以使用存储在外部服务器上的外部算法和功能,而无需将其完全整合到分析软件中。分析软件的用户获得无数更多的分析选项和功能,而不需要大量的工作流工作或命令行知识。取而代之,用户可以使用分析软件的图形用户界面无缝地调用存储在服务器上的外部算法或外部功能。
数据发现节点体系结构和过程
在分析软件中,“节点”表示整个分析步骤,诸如使用基于几何的工具定义几何聚类或对采集仪器所采集的数据应用统计分析的步骤。这样的“节点”表示针对输入、全集或子集或事件级原始数据以及输出,诸如细胞亚群的几何定义,或数学模型(例如,细胞周期中细胞的百分比)的处理步骤或计算。换句话说,节点是由分析软件创建的数据结构,这种数据结构指示分析软件执行分析计算,诸如种群鉴定、统计计算、数学函数、几何门控、呈现结果、增强结果等。此外,节点数据结构包括对于输入到分析功能的数据以及呈现结果的方式的指定,例如呈现在CSV文件、门控ML文件等之中。数据结构还可以取决于数据输入的类型。
本文描述的技术扩展了上述的节点概念,使得用户可以通过数据分析应用内的“数据发现节点”(DDN)框架来指定和执行对数据集的数据分析,其中DDN框架为数据分析提供了对数据分析软件本身已经存在的任何情报以外的广泛知识库的访问。例如,DDN也可以封装由可以使用上面公开的插件接口和框架来插入到分析软件中的外部算法所做出的决定。基于算法的决策通过将决策从具有主观偏见的个人分析师转移到数据驱动的算法来消除分析的主观性。本文描述的数据发现节点体系结构和过程还将单向节点转换成主动节点,主动节点至少实现以下四个目标:1)主动节点允许重复的、可再现的分析以提供样本、组和研究之间的比较(即,不受分析师的主观偏见影响);2)主动节点通过拖放机制降低了复杂分析和报告的障碍;3)如果输入数据改变,主动节点保持活动状态;以及4)活动节点促进了自动化,因为节点可以在分析中堆叠并以命令行模式运行。
图5A表示主动节点体系结构。根据示例实施例的DDN框架包括以下组件:软件、数据结构、算法以及可通过网络访问的数据库。如上所述,数据分析应用中的DDN框架从根本上是用户访问建立在节点的每个应用上的知识库的一种方式。因此,用户通过用户界面做出手势来创建用于待完成分析的DDN,并指示要完成什么类型的分析。DDN的最终用户实例(实际上表现为工作空间中的“节点”)不包含知识,但其允许用户插入到他们正在分析的更大的上下文中(例如,老年人中参考CD3+百分比)。例如,
a.用户创建CD3+门以将T细胞群标识为门节点,
b.用户在用户界面中(在本地客户端)将该节点分配为DDN(即,“使其成为DDN”),这具有两个结果:
i.以下种群和样本信息被写入到知识库的物理存储器中:
1.“样本信息”
a.包含在FCS(原始)文件中的元数据,例如,在哪个仪器上,通过什么采集软件
b.样本上下文(细胞类型、种类)将发送给DDN知识
2.DDN执行参数,概述如下。
3.生物结果信息-分析的统计和数值结果
ii.如果DDN在迭代n>1中,则DDN向用户返回任何标志,诸如“基于我的数据,这个CD3+频率比先前观测低两个标准偏差。
c.因此,知识库提供了参考,DDN提供了现有分析师之间的双向对话,以及所有先前分析师的数据,这些数据与通过上述示例DDN参数(见图5B)建立的当前模式相匹配。DDN是面向用户的节点,它使得“驱动”这种交换的组件,即,托管网络(独立于访问“原始”数据文件的处理器)成为可能。
如图5A和图5B所示,将输入数据提供给DDN,DDN执行分析步骤,分析步骤产生结果。DDN所生成的所得数据可以反馈到DDN中,或者所得数据例如通过修剪输入数据、从输入数据去除噪声或者改变输入数据的参数来改变输入数据。当所得数据无论如何都影响输入数据时,DDN可以对新的数据集应用相同的分析步骤,或者DDN可以基于新的数据集应用不同的分析步骤,这样可以认为DDN在第一次迭代之后是“数据驱动的”。
此外,所得数据可能对下游处理有进一步的影响。例如,DDN可以表示种群鉴定算法,并且所得数据可能产生不确定的或不希望的结果。节点可以分析所得数据,并且基于对所得数据的分析,DDN可以改变种群鉴定算法的参数以更好地鉴定输入数据内的种群。在另一示例中,所得数据可以确定所鉴定的表型(例如,CD8+)与发病率或治疗功效没有相关性。如果所得数据与发病率或治疗效果没有相关性,则DDN或训练DDN的科学家可以指示DDN在将来分析中忽略此表型。这样,DDN就可以使用参考种群鉴定算法来最准确地鉴定种群。从上面的示例可以看出,数据和算法驱动DDN所做出的决定。DDN接收到的数据越多,DDN处理数据越多,DDN学习得越多。这种数据驱动的方法将在下面更详细地描述。
还应当指出的是,从业者可以选择在DDN框架中包含一个安全或调整层,这样框架就不太容易受到攻击。这可以帮助防止不良或未经培训的参与者污染知识库(例如,通过门控得到错误的1%的CD3+频率并提交该错误数据的100人)。
图6示出了由DDN执行的数据分析流程的生命周期。在图6所示的过程中,示出为矩形的方法步骤表示由处理器执行的动作步骤,示出为菱形的方法步骤表示由处理器执行的测试步骤或确定步骤,由椭圆表示的方法步骤表示测试步骤的可能结果。
在高级别上,图6中表示的方法包括三个阶段:第一DDN周期、后续n个DDN周期阶段和完成阶段。第一DDN周期阶段只执行一次,而后续n个DDN周期可以继续迭代,直到满足满足标准为止。该方法只有满足满足标准后才会进入完成阶段。
现在将描述定义和控制DDN功能的数据对象的类型,以更好地理解图6中描绘的方法如何操作。这些数据对象包括操作变量、临时对象、指针、元数据和原始列表模式数据。
首先,DDN包括操作变量数据对象。操作变量是由用户或者分析软件设置的变量,其包含1)满足变量阈值,2)元数据规则,以及3)对于在指定数据上执行的分析软件算法或操作的指定。满足变量可以是用户设置的阈值,必须满足该阈值才可以认为DDN周期完成。元数据规则定义了输入必须满足的条件。例如,元数据规则可以指定输入数据呈现原始数据的元数据中的CD4参数。指定的分析软件算法或操作可以包括外部算法,分析软件内包括的数学函数,或分析软件内包含的任何其它功能,诸如FlowJo的多变量图形绘制、FlowJo的报告生成、生成几何平均值、种群鉴定,或分析软件或插入的外部算法提供的任何其他功能。
图7示出了用于创建DDN并设置和定义操作变量的用户界面。首先,用户选择文件和做出手势指示发现。该文件可以是从采集仪器收集并保存到采集计算机内的磁盘驱动器的一组数据。该手势通知分析软件用户想要将DDN应用于所选文件。该手势可以包括用户使用键盘快捷方式右击文件、点击图形用户界面内的图标或处理器理解的任何其他手势。在做出手势指示发现之后,用户可以选择训练新的DDN或者应用保存在数据库或其他文件存储容器中的DDN。如果用户选择从数据库中调用DDN,则采集计算机向存储DDN数据结构的数据库发起调用、呈现保存的DDN的列表,并允许用户选择其中一个DDN进行分析(未示出)。如果用户选择训练新的DDN,则采集计算机通过图形用户界面呈现将定义DDN的操作变量的列表。
图7示出了供选择的一组示例性操作变量,但是本公开不限于图7中示出的操作变量。操作变量可以分组成集合,诸如参数、特征、迭代变量和范围变量,但是可以在用户界面中定义和呈现更多组操作变量。例如,用户可以从诸如但不限于前向散射光(FSC)、侧向散射光(SSC)、荧光1(fl1)、荧光2(fl2)、荧光3(fl3)、荧光n等参数中进行选择。参数选择在单细胞分析中起着重要的作用,DDN除了包含其应用的数据类型,即“执行参数”之外,还包含关于其自身操作的元数据。所选参数的示例可以包括:
a.关于细胞表型定义的参数。以流式细胞术为例,分散参数是大小和粒度的相对度量,这些度量在鉴定例如血液中的主要细胞亚群方面有用,而荧光参数是生物分子的度量。因此,参数基本上是不可互换的,在DDN及其层级的选定级别上使用的参数是生物相关的信息,这些信息有助于分析的可重现性。
b.关于用于鉴定种群的任何算法的类型和输入变量的参数,例如,门控和分析信息(顶点、相邻种群的位置、门类型、种群特征(凸、稀有等)、种群名称、绘制门的参数、父门(本体)、用于鉴定种群的算法)。
c.用于一系列算法和计算的层级分析类型(以及随之而来的操作顺序)的数量。
以这种方式,研究人员可以指定CD8+T细胞群,该CD8+T细胞群通过对CD4与CD8荧光参数执行的k均值聚类算法(其中k=3是输入变量)得以鉴定,这些参数是儿童的CD3+、活的和淋巴细胞几何定义的门。DDN允许将这些信息传输到知识库和从知识库传输信息。
用户界面也赋予用户重命名这些参数的能力。用户也可以排除任何这些细胞计数器预设参数,以限制由DDN处理的数据量。DDN接收对于要分析的参数、要分析的特征(诸如峰、谷或范围)、是否迭代以及要分析哪些范围的选择。选择这些和其他可能的操作变量后,计算机将创建新的DDN,并也将其保存在DDN数据库中。创建的DDN准备好分析数据、生成结果或分析软件中包含的或分析软件通过插件接口和框架可访问的任何其他功能。
为了建立DDN,处理器接收对输入数据的选择,该输入数据是一组事件或具有某种隐含的等效意义(例如,跨多个时间点采集的CD3测量结果)的一组文件。输入数据可以是单个样本或一组样本。在选择输入数据之后,处理器可以根据输入数据确定可用分析的类型。一旦建立了DDN数据库,第一步就是让“专家”向知识库输入样本信息和执行参数以创建参考集。继续上面的示例,来自老年患者的CD3+数据是由专家定义的。非专家在“新”样本上创建DDN,DDN比较两个样本并执行参数,以检查DDN是否可以重新创建专家驱动的分析。一旦匹配存在,DDN比较生物结果信息-当前测量结果与知识库。通过知识库中的构建信息对DDN进行的训练随着使用逐渐产生,因此每次对知识库的CD3+部分的查询都将新的生物学结果信息存入已知范围的池中。这种两阶段方法验证了(1)可以应用和执行分析,(2)将分析与参考数据的知识库相比较。
换句话说,DDN可以计算和执行什么取决于输入数据。在一个示例中,处理器可以确定在所加载的元数据中是否存在CD4事件,以确定该过程是否可以在所选数据上执行CD4种群鉴定算法。
图7示出示例性用户选择荧光1作为参数、峰值特征、固定的计数迭代变量2,以及2-98的百分位数作为范围变量。在用户设置操作变量之后,用户界面在所选文件下方显示所创建的数据发现节点。用户可以重命名数据发现节点以备将来参考,但是出于说明的目的,图7仅示出了所创建的数据发现节点,即所谓的“发现节点”。数据发现节点的这些示例性选择等同于门控树,该门控树同样在图7的右下角示出。因此,图7中示出的对示例性操作变量的选择等同于以下门控树:
·Comp–APC–Ax700–A子集。这是一个通常会人工定义的子集。在这个示例中,通过上面列出的参数,DDN通过算法使用来自知识库的信息来鉴定这个种群、执行峰值搜索(用于种群鉴定的另一种算法方法)、然后以此顺序对子种群调用这种统计数据计算。
o峰值1
■几何平均值:CD3(Comp–APC–Ax700–A子集)。用户使用分析应用工具计算了Comp–APC–Ax700–A子种群的几何平均值。图7右下方的图示出了此分析的层级结构和向用户呈现的表示。
■中位数:CD3(Comp–APC–Ax700–A子集),如上所述的几何平均数,但在这种情况下是中位数。
o峰值2
■几何平均值:CD3(Comp–APC–Ax700–A子集)
■中位数:CD3(Comp–APC–Ax700–A子集)
再次参照图6,除了操作变量之外,DDN在第一次计算之后生成临时数据对象。临时数据对象表示DDN进度对象。临时数据对象可以至少包含计算的迭代和满足变量。对于DDN所执行的每次额外计算,递增计算迭代,满足变量指示在后续N个DDN周期阶段的期间满足变量的状态。例如,满足变量可以指示满足变量阈值是否已满足或超过。这些数据对象允许DDN通过将满足变量阈值与在每次迭代中创建的DDN创建的临时数据对象进行比较来保持具有状态。
作为唯一标识符的指针指向工作空间内的一个或多个节点,DDN将根据其序列访问该一个或多个节点,这将在下面进一步描述。指针指向包含元数据和原始列表模式数据的文件的位置,这些数据对DDN的运行也很重要。
对于DDN重要的元数据来自两种不同类型的参考注释。首先,元数据可以来自专家做出的决策,这些决策通常具有由专家定义的门的形式,以获得数据的特定子集。数据的子集可以来自层级门。在具体的示例中,前面的门的XML层级结构提供了由元数据表示的供DDN数据结构使用的上下文信息。作为专家决策的替代,元数据可以包括来自父FCS文件的关键字元数据,这些父FCS文件包括用于具有生物学意义的染色名称(“CD3-FITC”)的参数。元数据与原始数据相关联,并且与原始数据相关联的元数据还可以包括作为待分析的原始数据的源的FCS文件的标题和节点名称。
最后,原始列表模式数据包括针对每个事件/细胞收集的n个参数的原始事件/细胞级别数据。
图6中所示的方法使用上述的所有数据对象。DDN方法/生命周期从第一DDN周期阶段开始。在第一DDN周期阶段,处理器将操作变量加载到存储器中。随后,处理器加载上述的元数据。在处理器通过DDN流加载待分析的文件之前,处理器加载元数据和操作变量,这些元数据和操作变量定义用于测试的规则和变量。
在加载操作变量和元数据之后,处理器针对所述一个或多个元数据规则操作变量对元数据进行测试以确定元数据是否满足DDN的标准。例如,元数据规则操作变量通过由用户设置的关键字元数据、由FCS文件设置的表型元数据、染色鉴定元数据,或者包括在采集仪器所生成的文件内的任何其他元数据来指定元数据参数以指示CD4细胞存在。
针对操作值测试元数据可以具有多种模式,诸如宽松模式、中等模式和严格模式。
宽松模式可以没有元数据要求。在宽松模式下,不管元数据的值如何,DDN都会执行。例如,在宽松模式下,DDN计算所提供的列表模式原始数据中两点之间的局部最小值,然后DDN将使原始数据加载到存储器中,调用计算,并通过将统计量添加到工作空间以呈现给用户来完成过程。
在中等模式下,由用户设置元数据匹配的阈值,例如,如果设置了DDN的6个参数中的3个,则执行DDN,因为其具有用于鉴定数据中的细胞群的足够参数。
在严格模式下,所有的元数据要求必须满足才能启动DDN的执行,处理器不会将原始数据加载到存储器中,DDN方法停止,不再进行进一步计算。
元数据将满足元数据规则操作值的标准,或者不满足操作值所设置的标准。如果元数据不满足操作值的标准,则处理器不会将原始数据加载到存储器中,DDN方法停止,并且不会执行进一步计算。如果元数据满足操作值的标准,则处理器将原始数据加载到存储器中。加载到存储器中的原始数据可能以原始采集数据、来自另一个节点的数据、来自一个或多个门的数据,或分析软件可访问的任何其他原始数据的形式出现。
在加载原始数据之后,处理器执行由操作变量指定的计算或算法。例如,处理器可以使用本文描述的插件架构和框架来执行外部算法,以鉴定原始数据内的一个或多个种群。另外,处理器创建上述的DDN临时对象。创建DDN临时对象涉及处理器将迭代变量设置为起始数量,并基于所执行的计算或算法的结果来定义满足值。创建DDN临时对象后,第一DDN周期阶段完成,处理器开始执行后续n个DDN周期阶段。
在后续n个DDN周期阶段,这一阶段开始于加载DDN临时对象并确定DDN临时对象的满足值是否满足或超过操作变量所设置的满足阈值或满足标准。比较DDN临时对象与满足阈值可以包括处理器将迭代变量与DDN的满足变量进行比较。例如,如果满足变量指示DDN迭代5次,而临时对象的迭代变量小于5,满足变量将不会被满足,DDN将再次迭代。作为另一示例,处理器可以确定DDN临时对象或任何其他操作变量是否已经为下一计算指定了“方向”。例如,由DDN临时对象指定的方向可以指示在下一次迭代中应当只使用存储器中的原始数据的子集。作为另一个示例,满足值可以包括指示准确度的值,诸如通过定义类别中的事件的百分比,处理器可以将准确度数值与满足标准进行比较。准确度数值的示例可以包括对估计分散门的纯度和恢复的三色流的分析。在本文,分散门可以重新定义,直到达到纯度和恢复的最佳组合。优化循环将缩小并生长出应用于所有样本的门,直到纯度效应和恢复效应值超过90%。
如果DDN临时对象的满足变量满足或超过满足阈值或满足标准,则处理器执行完成阶段。
如果DDN临时对象的满足变量不满足或不超过满足阈值或满足标准,则处理器确定临时对象是决定将原始数据的子集还是将原始数据的全集加载到存储器中以供下一次迭代。参考上文,操作变量可以指示是对数据的子集还是数据的全集执行计算或算法。例如,操作变量可以指示应当使用外部算法来门控一组数据,并且下游数学计算将仅在门控数据上执行。应当注意,元数据可以指示处理器分析数据或原始列表模式数据的元数据以确定要应用哪种计算或算法。在执行指定的计算或算法之前,元数据可以要求处理器执行分支或决策树。例如,如果处理器分析原始数据得出它建议CD4事件,则处理器可以应用CD4种群鉴定算法,而如果处理器分析原始数据得出它建议CD8事件,则处理器可以应用CD8种群鉴定算法。
如果操作变量指定数据的全集,则处理器对原始数据的全集执行指定的计算或算法,处理器通过递增迭代变量并基于对数据全集执行的计算或算法的结果来重新定义满足值以更新临时对象。在这些阶段,数据全集可以一直保留在存储器中。在更新临时对象之后,处理器基于新的临时对象值重复后续n个DDN周期。
如果操作变量指定数据的子集,则处理器对指定的原始数据子集执行指定的计算或算法,处理器通过递增迭代变量并基于对数据子集执行的计算或算法的结果来重新定义满足值以更新临时对象。未包括在指定的数据子集内的数据可以从存储器释放并存储在别处。在更新临时对象之后,处理器根据新的临时对象值重复后续n个DDN周期。
后续n个DDN周期阶段继续,直到满足或超过满足阈值或标准。一旦满足或超过,处理器将继续执行完成阶段,处理器将确定输出类型,该输出类型由操作变量指定。在迭代选项中,用户可以设置迭代次数,该迭代次数存储为DDN执行参数。基于这种确定,处理器在工作空间中采取动作并将DDN流的结果写入工作空间文件。例如,处理器可以根据结果和所采取的动作呈现多个可视化之一,或者处理器可以在工作空间文件内定义新的种群或统计。
在完成阶段发生的工作空间中采取的行动可能涉及使用新的输入数据重新调用DDN。例如,在完成阶段生成的输出可以是新的输入数据集。当输入数据集改变时,DDN可以再次调用并执行处理。因此,每当输入数据集改变时,DDN就可以执行其必要的处理。
现在参照图8,在任何实验、临床试验、研究、研究项目等中,专家的数量是有限的。也就是说,一个人对研究领域、专题、细胞表型、科学性质等知道得越多,这类专家就越少,专家的时间是有限的。然而,分析师可能技术娴熟,知识渊博,但缺乏专家掌握的丰富知识,他们更为普遍和丰富。由于缺乏专家和分析师,专家通常会将一些任务,诸如运行实验,委托给分析师,而专家则负责监督分析师的工作产品。然而,常规方法不允许专家看到实验和分析的每个单独的步骤,诸如如何应用几何门,因为专家根本没有时间来检查由他检查的每个实验分析的所有分析步骤。
与常规的专家利用方法相反,图8示出了由专家训练DDN以便分析师可以调用并将经过专家训练的分析流程部署到所采集的数据集的过程。如上所述,专家可以通过设置DDN的操作数据结构并通过使用由DDN通过保存的临时对象获得的知识来提供对DDN数据结构的训练,诸如层级门的形式的专家的决策可以保存在并在DDN的元数据中表示。图8示出了专家使用他自己的专业知识和经验对数据发现节点进行培训。训练过程可以包括图6中所示的一些或全部步骤。经过专家训练的DDN可以表示分析流程的一部分或整个分析流程。例如,经过专家训练的DDN可以应用几何门控技术,该技术正是基于专家的知识。可选地,DDN可以包括分析步骤,该分析步骤调用用于种群鉴定的外部发现算法,并且经过专家训练的DDN可以为专家所提供的发现过程提供特定的参数。由于专家对DDN进行了训练,指定了流程步骤,指定了对种群鉴定的限定,并指定了任何数学模型,DDN消除了分析师可能带来的任何偏差。通过本文讨论的DDN框架和过程,消除了分析者偏差,所有使用DDN进行的实验将以相同的方式执行,从而产生统一的结果。
图8B示出了专家如何训练DDN的示例。在这个示例中,专家可能注意到更宽的CD4门产生更好的分析结果。然后,专家可以使用计算机上的用户界面来拓宽其DDN中的CD4门定义,这是通过专家检查CD4种群并编辑门控范围以在分析中包括更多的CD4+细胞来进行的。调整DDN后,调整后的DDN保存在数据库中。分析师可以调用调整后的DDN而不知道DDN具有不同的CD4门定义。通过调用调整后的DDN,由调整后的DDN定义的整个分析流程将在分析软件的单个会话中发生。调整后的DDN可以根据调整后的方法生成结果。在这种方法的许多益处中,一个实质性益处是,即使分析师没有采取任何不同的行动,调整后的分析方法也得到了专家的全面验证。
另一个益处则是DDN可以在团体或个人之间共享。T细胞专家可以检索由NK细胞专家创建和优化的DDN,以对NK细胞进行分析。因此,可以在专家之间分享专业知识,并且可以在许多表型上高效地进行实验。
活动节点的主要优点之一是节点与特定数据集脱离并且是数据驱动的。由于数据驱动着分析流程,因此变得可用的分析类型将取决于对输入数据的选择而有所不同。换句话说,DDN可以计算和执行什么取决于输入数据。一般来说,输入数据是一组表示科学数据的事件,或一组具有隐含等效意义的文件。例如,输入数据可以是跨多个时间点采集的CD3测量结果。作为另一个示例,输入数据可以是采集仪器采集的原始数据。在又一示例中,输入数据可以是由分析软件或外部算法生成的结果数据。
DDN的元数据还可以指定是否应用由用户指定并作为DDN执行参数存储的约束、分支、决策树、自优化或实时迭代。因为DDN在分析步骤之后接收到反馈的所得数据,输入分析步骤可能发生多次。可以在DDN的元数据或满足变量中设置是否分支、应用约束、应用决策树等。
当DDN应用约束时,DDN缩小了数据的范围。例如,如果待缩小的输入数据是单个参数分布,则约束可以是一个范围,诸如范围从1到100的事件。通过缩小范围,DDN可以排除极端容器中的细胞,这些细胞可能是碎片或增加显著的噪声。在DDN上下文中约束的另一个应用是消除噪声以计算亚群的频率或两种表型的比率,诸如低白细胞计数或HIVT细胞反转,其中患者体内T细胞类型的比率“反转”。例如,可以通过设置操作变量以仅对数据的受限子集执行计算来应用约束。
当DDN应用分支时,DDN在工作流中生成一个点,其中结果将影响后续的执行步骤。作为一个简单的示例,如果DDN试图找到一个CD3+亚群,但是DDN确定没有CD3+事件,那么可以在过程中使用这一信息从而自适应地重定向下游分析。在这个示例中,DDN可以应用种群鉴定算法来搜索CD3+细胞。DDN可以接收确认没有发现CD3+细胞的聚类种群结果。DDN可以分析表示图5的反馈回路的种群鉴定算法的结果,并确定生成关于CD3+细胞的报告的步骤将是无用的。因此,DDN可以改为请求种群鉴定算法来鉴定新的种群。在上面讨论的HIV反转示例中,如果DDN使用DDN加载的元数据检测到HIV反转情况,则DDN可以指示分析软件执行更深入的T细胞数量报告或者报告T-细胞数量在正常范围内。分支语句的使用改变了会话中处理,这允许利用自适应执行和存储器中数据。操作变量可以在完成阶段指定这种类型的分支。或者,元数据可以包括固有的分支,该固有分支改变应用于数据全集或子集的指定的计算或算法。
DDN可以应用决策树,决策树是用于找到特定结果的整个处理流程的表示。例如,图9示出了用于找到特定种群的决策树的示例,这将涉及事件或降维。对于关于图9的某种上下文,已经存在许多用于检测样本数据集中的特定类型的异常的专门板。这些板表示的特定表型的组合可以从含有标记的数据中挖掘出来。DDN可以作为这一逻辑的容器。这种安排允许从基于板的分析跳转到算法分析,从而达到板将变得很不必要的程度。可以将所有相关标记包括在一个管中,而不是测试多个板,这意味着DDN的高级处理能力可以用于指导对这种测试产生的大量数据参数的操纵。
参考图9,输入数据可以是门或文件集合。从图9可以看出,DDN可以确定CD45+SSC数据是否可用。如果是,则DDN分析数据以确定是否存在明显的“暗淡”CD45峰值。为了使DDN执行下面的比较和分析:
a.图9中的两个分支示出了DDN执行验证的过程,首先检查是否可以完成分析(与DDN执行参数比较---在这种情况下,样本是否包含SSC和CD45参数?)
b.如果是,则将来自知识库的专家门应用于由SSC和CD45参数鉴定的种群。
c.执行峰值搜索(种群鉴定)算法,从而仅对CD45参数进行检查以查看是否存在CD45暗淡峰(相对于已经门控的CD45+种群)。
i.如果存在峰值,则应用另一个专家系列的层级门,在这种情况下,用以鉴定急性单核细胞白血病(AML)母细胞。
d.无论如何,通过将DDN应用的种群定义与知识库相比较来检查淋巴细胞上的CD19+频率是否异常地高(超过专家在创建DDN时定义的频率两个标准偏差)而鉴定出CD19+细胞。如果淋巴细胞上CD19频率异常地高,DDN将对B细胞特异性信息如Kappa/Lambda、CD10、CD22等进行分析。
在每种情况下,DDN执行验证(是否可以执行分析)、执行分析阶段(例如,应用这些专家定义的几何门或执行峰值搜索)、与生物学结果进行比较,并且可以重复。通过这种方式,DDN利用其3种信息类型来指导分析。
从图9中的非限制性示例可以看出,DDN可以基于决策树中的每个点处的确定结果而改变处理。例如,当验证标准失败时,在用户调用时,可以通过DDN的元数据和操作变量来表示处理中的改变。另外,与常规方法相比,图9中所示的决策树消除了人的主观偏见,因为DDN处理所有这些决定并产生分析软件的单个会话。
DDN还可以使用优化技术通过多个分析“轮次”改进结果。优化的一个示例是细胞周期拟合分析,其中分析软件计算对有多少细胞处于细胞分裂周期的某一阶段的估计。分裂周期中准确的细胞数最好以迭代方式找到,以使计算中找到的数目更为精确。精化和优化需要多个轮次,DDN允许用户设置对计算准确结果所需的“轮次”数量的限制。该限制可以是迭代次数或使用阈值增量,由此计算准确度的提高必须超过提高阈值,否则过程停止。细胞周期拟合分析可以扩展到种群鉴定,其中鉴定算法可以迭代表型,直到鉴定技术不再超过提高阈值增量。处理器可以基于优化技术来改变DDN元数据。
此外,DDN可以使用迭代以重复处理,同时在每个步骤之后减小维度或参数范围。例如,DDN可以通过从数据范围的最小值或最大值开始进行分析以找到数据分布中的所有峰值(最大值)。一旦找到第一个峰值,DDN将从数据集中去除该峰值,这样DDN就可以找到更多的峰值,如第二大峰值等。最终,只剩下一个峰值,在DDN找到最后一个峰值后,迭代停止。迭代可以由满足变量中包括的迭代变量来定义。
最后,DDN可以利用从其他类似DDN学习的训练和知识。当DDN由专家创建时,DDN被配置用于查询数据库以查找类似的DDN数据结构。DDN可以通过在其元数据中搜索类似的名称或类似的项目来执行这种查询。例如,如果DDN具有将其标识为CD4鉴定节点的元信息,则DDN可以搜索保存在具有相似或相同元数据的DDN数据库中的其他DDN。DDN可以通过任何语义方法找到类似的DDN。在发现类似的DDN后,新训练的DDN可以从数据库中保存的类似DDN中获取信息,这将允许DDN接收以前创建的DDN所获得的知识和训练。例如,新创建的DDN可能发现类似的DDN具有经专家定义的几何门,或门的最小/最大范围、门的百分比,或有助于产生具有临床意义的结果的数学关系。每个DDN可以向其他DDN数据结构传送其已被应用于数据的次数。如上所述,DDN应用于采集数据的次数越多,DDN产生的结果就越好。因此,已经应用于更多数据的DDN可以向其他类似的DDN数据结构传送范围、百分比、门、数学关系、参数修剪或任何其他重要知识,以便类似的数据结构可以利用“较旧”DDN的训练。DDN通过调用并通过与数据库中的其他类似的DDN数据结构的通信来学习,从而利用专家网络和迭代实验来产生例如最佳的种群鉴定。在又一个示例中,DDN可以改变或者建议改变采集仪器收集数据的方式。
DDN在计算机的存储器中运行并作用于存储器中存储的输入数据。当用户做出手势来使用DDN时,DDN将必要的输入数据收集到存储器中,并对存储器内的输入数据执行数据处理。当DDN迭代、应用约束、做出决策、分支或优化时,可以减少和修剪数据。随着DDN获得更多的情报,DDN可以对输入数据执行初始预处理,以使存储在存储器中的数据量最小化。通过在元数据级别发生的数据预处理,计算机的性能随着DDN继续训练而提高。此外,通过消除人工、几何门控的主观偏差步骤,结果比以前的实验方法更快地呈现给用户。采集计算机、分析计算机或服务器可能执行额外的处理来执行DDN的所有功能,但是通过使用DDN提高了效率。
DDN还可以利用包含在分析软件内的表格编辑器或布局编辑器以向用户呈现结果。在一些情况下,DDN可以封装整个分析流程,使得诸如分析师等用户可以简单地调用DDN,通过分析软件向其呈现实验结果而无需任何其他步骤。这样,DDN可以包含完整的实验。
鉴于上述内容,将明白本发明实现和获得了多种优点。
选择和描述这些实施例是为了最好地解释本发明的原理及其实际应用,从而使本领域的其他技术人员能够在各种实施例中并使用适合于设想的特定用途的各种修改来最佳地利用本发明。由于在不脱离本发明的范围的情况下可以对本文描述和示出的构造和方法进行各种修改,因此意图在于以上描述中包含的或附图中示出的所有内容应被解释为说明性的而非限制性的。

Claims (30)

1.一种用于根据独立于任何特定数据集的模型来处理科学数据的计算机程序产品,所述计算机程序产品包括:
驻留在非暂时性计算机可读存储介质上的数据发现节点数据结构,所述数据发现节点数据结构包括(1)对于待接受迭代科学数据分析的科学数据的指定,(2)对于用于所述迭代科学数据分析的输出格式的指定,以及(3)对于用于控制所述迭代科学数据分析的多个操作变量的指定,所述指定的操作变量包括(i)对于待作为所述迭代科学数据分析的一部分对所述指定的科学数据执行的算法的指定,(ii)对于元数据的指定,所述指定的元数据被配置用于定义所述指定的算法将应用于所述指定的科学数据的条件,以及(iii)对于满足变量的指定,所述指定的满足变量被配置用于控制作为所述迭代科学数据分析的一部分执行了多少次迭代;以及
驻留在非暂时性计算机可读存储介质上的多个处理器可执行指令,其中所述指令被配置用于在由计算机的处理器执行时使所述计算机读取和调用所述数据发现节点数据结构以根据所述指定的操作变量对所述指定的科学数据对应的特定数据集执行所述迭代科学数据分析,并以所述指定的输出格式生成结果。
2.如权利要求1所述的计算机程序产品,其中所述指令进一步被配置用于在由所述处理器执行时使所述计算机作为所述读取和调用操作的一部分:
将所述指定的操作变量加载到存储器中;
针对所述特定数据集测试所述加载的元数据;
基于所述元数据测试操作确定待在所述特定数据集上执行的指定算法;
将所述确定的算法应用于所述指定的数据集以产生数据分析结果;
在存储器中创建存储所述结果和所述迭代科学数据分析的状态的临时数据对象;
基于所述加载的满足变量确定是否需要所述迭代科学数据分析的另一次迭代;
响应于确定需要所述迭代科学数据分析的另一次迭代,(1)重复所述元数据测试操作、所述对所述指定的算法的确定、所述算法应用操作和所述另一次迭代的确定操作,直到确定已满足所述加载的满足变量,并(2)基于所述重复的算法应用操作更新所述临时数据对象;以及
响应于确定不需要所述科学数据分析的另一次迭代,根据所述指定的输出格式将所述迭代科学数据分析的结果写入工作空间。
3.如权利要求1-2中任一项所述的计算机程序产品,其还包括驻留在所述非暂时性计算机可读存储介质上的多个所述数据发现节点数据结构,其中多个所述数据发现节点数据结构包括相对于彼此不同的指定,并且其中所述指令进一步被配置用于在由所述处理器执行时使所述计算机:
响应于用户输入,从多个所述数据发现节点数据结构中选定数据发现节点数据结构;以及
在所述选定的数据发现节点数据结构上执行所述读取和调用操作。
4.如权利要求3所述的计算机程序产品,其中所述指令进一步被配置用于在由所述处理器执行时使所述计算机:
响应于用户输入,为所述选定的数据发现节点数据结构定义所述指定的操作变量中的至少一个。
5.如权利要求1所述的计算机程序产品,其中所述指定的算法包括外部算法,并且其中所述指令进一步被配置用于在由所述处理器执行时使所述计算机:
经由外部算法插件接口框架调用所述外部算法。
6.如权利要求1所述的计算机程序产品,其中所述指定的算法由远程计算机执行,并且其中所述指令进一步被配置用于在由所述处理器执行时使所述计算机:
经由远程计算机插件接口框架调用所述指定的算法。
7.如权利要求1所述的计算机程序产品,其中所述科学数据包括来自实验的细胞数据。
8.如权利要求7所述的计算机程序产品,其中所述细胞数据包括由流式细胞仪采集的单细胞数据。
9.如权利要求7所述的计算机程序产品,其中所述指定的算法包括种群鉴定算法。
10.如权利要求7所述的计算机程序产品,其中所述指定的算法包括几何门控算法。
11.一种分析科学数据的方法,其包括:
将数据发现节点数据结构应用于数据文件,所述数据文件包括由采集仪器收集的科学数据,其中,所述数据发现节点数据结构包括:(1)对于待接受迭代科学数据分析的科学数据的指定;(2)对于用于所述迭代科学数据分析的输出格式的指定;以及(3)对于用于控制所述迭代科学数据分析的多个操作变量的指定,所指定的操作变量包括:(i)对于待作为所述迭代科学数据分析的一部分对所指定的科学数据执行的第一分析算法和第二分析算法的指定;(ii)对于元数据规则标准的指定,所述元数据规则标准用于定义将所述第一分析算法或所述第二分析算法应用于所指定的科学数据的条件;以及(iii)对于满足阈值的指定,所指定的满足阈值配置为用于控制作为所述迭代科学数据分析的一部分执行多少次迭代,所述数据文件具有与其相关联的元数据,其中所述将数据发现节点数据结构应用于数据文件的步骤包括:
将由所述数据发现节点数据结构指定的所述多个操作变量和与所述数据文件相关联的所述元数据加载到存储器中;
确定所述元数据是否满足由所述多个操作变量之一指定的所述元数据规则标准;以及
响应于确定所述元数据满足所述元数据规则标准,对所述数据文件中的所述科学数据执行迭代科学数据分析,以生成呈所指定的输出格式的结果,其中,执行所述迭代科学数据分析包括:
将与所述数据文件相关联的所述科学数据加载到存储器中;
对与所述数据文件相关联的所述科学数据执行所述第一分析算法;
创建定义满足变量的临时数据对象;
确定所述临时数据对象的满足变量是否满足由所述多个操作变量指定的所述满足阈值;以及
响应于确定所述临时数据对象的满足变量不满足所述满足阈值,(1)对与所述数据文件相关联的所述科学数据执行所述第一分析算法或者第二分析算法,其中所述多个操作变量定义是应用所述第一分析算法还是应用所述第二分析算法,并(2)基于所述第一分析算法或所述第二分析算法的执行来更新所述临时数据对象;以及
重复执行以下步骤:(1)确定所述临时数据对象的满足变量是否满足所述满足阈值,(2)执行所述第一分析算法或者所述第二分析算法,以及(3)更新所述临时数据对象直到更新的临时数据对象的满足变量满足所述满足阈值;
其中所述分析科学数据的方法由处理器执行。
12.如权利要求11所述的方法,其中所述数据发现节点是保存在数据库中的预定义的数据结构。
13.如权利要求11所述的方法,其中所述数据发现节点是由用户创建的新定义的数据结构。
14.如权利要求13所述的方法,其还包括将所述新定义的数据发现节点存储在数据库中以备将来使用。
15.如权利要求14所述的方法,其还包括:
所述处理器在所述数据库中搜索类似数据发现节点;以及
分析所述类似数据发现节点的参数,并将所述类似数据发现节点的所述参数与所述数据发现节点的所述参数进行比较。
16.如权利要求11-15中任一项所述的方法,其中所述多个操作变量包括多个采集仪器参数、特征变量、迭代变量和范围变量。
17.如权利要求11所述的方法,其中所述确定所述元数据是否满足所述元数据规则标准的步骤包括:所述处理器根据选自宽松模式、中等模式和严格模式的模式根据所述元数据规则标准对所述元数据进行测试。
18.一种计算机程序产品,其包括:
驻留在非暂时性计算机可读存储介质上的多个处理器可执行指令,其中所述指令被配置用于由所述处理器执行以通过使所述计算机执行以下操作来分析科学数据:
将数据发现节点数据结构应用于数据文件,所述数据文件包括由采集仪器收集的科学数据,其中,所述数据发现节点数据结构包括:(1)对于待接受迭代科学数据分析的科学数据的指定;(2)对于用于所述迭代科学数据分析的输出格式的指定;以及(3)对于用于控制所述迭代科学数据分析的多个操作变量的指定,所指定的操作变量包括:(i)对于待作为所述迭代科学数据分析的一部分对所指定的科学数据执行的第一分析算法和第二分析算法的指定;(ii)对于元数据规则标准的指定,所述元数据规则标准用于定义将所述第一分析算法或所述第二分析算法应用于所指定的科学数据的条件;以及(iii)对于满足阈值的指定,所指定的满足阈值配置为用于控制作为所述迭代科学数据分析的一部分执行多少次迭代,所述数据文件具有与其相关联的元数据,其中所述将数据发现节点数据结构应用于数据文件的操作被配置用于:
将由所述数据发现节点数据结构指定的所述多个操作变量和与所述数据文件相关联的所述元数据加载到存储器中;
确定所述元数据是否满足由所述多个操作变量之一指定的所述元数据规则标准;以及
响应于确定所述元数据满足所述元数据规则标准,使所述计算机执行以下操作来对所述数据文件中的所述科学数据执行迭代科学数据分析,以生成呈所指定的输出格式的结果:
将与所述数据文件关联的所述科学数据加载到存储器中;
对与所述数据文件相关联的所述科学数据执行所述第一分析算法;
创建定义满足变量的临时数据对象;
确定所述临时数据对象的满足变量是否满足由所述多个操作变量指定的所述满足阈值;以及
响应于确定所述临时数据对象的满足变量不满足所述满足阈值,(1)对与所述数据文件相关联的所述科学数据执行所述第一分析算法或者第二分析算法,其中所述多个操作变量定义是应用所述第一分析算法还是应用所述第二分析算法,并(2)基于所述第一分析算法或所述第二分析算法的执行来更新所述临时数据对象;以及
重复执行(1)确定所述临时数据对象的满足变量是否满足所述满足阈值的所述确定操作,(2)所述第一分析算法或所述第二分析算法的所述执行操作,以及(3)所述更新操作,直到更新的临时数据对象的满足变量满足所述满足阈值。
19.一种分析科学数据的方法,其包括:
接收数据发现节点数据结构,其中,所述数据发现节点数据结构包括对于用于控制迭代科学数据分析的多个操作变量的指定,其中,所述多个操作变量包括:(1)对于满足标准的指定,(2)对于第一分析算法的指定,(3)对于第二分析算法的指定,以及(4)对于所述第一和第二分析算法将应用于所述科学数据的条件的指定;
基于所指定的、所述第一分析算法将应用于所述科学数据的条件,对所述科学数据的至少一部分执行所述第一分析算法;以及
基于所述执行步骤的结果和所述多个操作变量对所述科学数据的至少一部分重复执行所述第一分析算法或第二分析算法,直到满足所述满足标准,以完成所述迭代科学数据分析,
其中所述分析科学数据的方法由处理器执行。
20.如权利要求19所述的方法,其中所述多个操作变量之一指定是分析所述科学数据还是所述科学数据的子集。
21.如权利要求19-20中任一项所述的方法,其还包括所述处理器创建包括满足值的临时对象,其中所述处理器在所述处理器对数据执行分析算法之后更新所述满足值;以及
所述处理器将所述满足值的值与所述满足标准进行比较以确定是否满足所述满足标准。
22.如权利要求19所述的方法,其中所述处理器基于由所述处理器对所述科学数据执行所述第一分析算法所生成的结果来确定是执行所述第一还是第二分析算法。
23.如权利要求19所述的方法,其中所述处理器基于由所述处理器对所述科学数据执行所述第一分析算法所生成的结果来确定是分析所述科学数据还是所述科学数据的子集。
24.如权利要求19所 述的方法,其中所述指定的分析算法中的至少一个包括外部分析算法。
25.一种分析科学数据的 方法,其包括:
访问存储器中的数据发现节点数据结构,所述数据发现节点数据结构被配置用于定义待在多个数据集中的任一个上执行的多个处理操作,其中所述数据发现节点数据结构被配置为独立于任何特定数据集的处理模型;
选定数据集;以及
由处理器将所述访问的数据发现节点数据结构应用于所述选定的数据集内的数据以生成所述选定的数据集的处理结果。
26.如权利要求25所述的方法,其中所述数据发现节点数据结构包括(1)对于满足标准的指定,(2)对于第一分析算法的指定,(3)对于第二分析算法的指定,以及(4)对于将所述第一和第二分析算法将应用于数据集的条件的指定;以及
其中所述应用步骤包括所述处理器(1)基于所述指定的条件确定要执行所述指定的分析算法中的哪一个,(2)针对所述选定的数据集内的数据执行所述确定的分析算法,(3)确定所述确定的分析算法的执行是否导致所述指定的满足标准得到满足,以及(4)重复以下步骤:(i)基于所述指定的条件确定要执行所述指定的分析算法中的哪一个,(ii)针对所述选定的数据集内的数据执行所述确定的分析算法,以及(iii)确定所述确定的分析算法的执行是否导致所述指定的满足标准得到满足,直到确定已满足所述指定的满足标准。
27.一种计算机程序产品,其包括:
驻留在非暂时性计算机可读存储介质上的多个处理器可执行指令,其中所述指令被配置用于由所述处理器执行以通过使所述计算机执行以下操作来分析科学数据:
接收数据发现节点数据结构,其中,所述数据发现节点数据结构包括对于用于控制迭代科学数据分析的多个操作变量的指定,其中,所述多个操作变量包括(1)对于满足标准的指定,(2)对于第一分析算法的指定,(3)对于第二分析算法的指定,以及(4)对于所述第一和第二分析算法将应用于所述科学数据的条件的指定;
基于所指定的、所述第一分析算法将应用于所述科学数据的条件,对所述科学数据的至少一部分执行所述第一分析算法;以及
基于所述执行步骤的结果和所述多个操作变量对所述科学数据的至少一部分重复执行所述第一分析算法或第二分析算法,直到满足所述满足标准,以完成所述迭代科学数据分析。
28.一种计算机程序产品,其包括:
驻留在非暂时性计算机可读存储介质上的多个处理器可执行指令,其中所述指令被配置用于由所述处理器执行以通过使所述计算机执行以下操作来分析科学数据:
访问存储器中的数据发现节点数据结构,所述数据发现节点数据结构被配置用于定义待在多个数据集中的任一个上执行的多个处理操作,其中所述数据发现节点数据结构被配置为独立于任何特定的数据集的处理模型;
选定数据集;
由处理器将所述访问的数据发现节点数据结构应用于所述选定的数据集内的数据以生成所述选定的数据集的处理结果。
29.如权利要求28所述的计算机程序产品,其中所述数据发现节点对象包括存储为库的数据发现对象数据库中的多个数据发现节点对象之一,其中每一数据发现对象基于所述选定的数据集与被配置用于指定分析算法的元数据相关联。
30.如权利要求28-29中任一项所述的计算机程序产品,其中所述数据集包括由流式细胞仪采集的单细胞数据。
CN201680039876.4A 2015-05-08 2016-05-09 数据发现节点 Active CN107851031B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562158903P 2015-05-08 2015-05-08
US62/158,903 2015-05-08
PCT/US2016/031518 WO2016183026A2 (en) 2015-05-08 2016-05-09 Data discovery nodes

Publications (2)

Publication Number Publication Date
CN107851031A CN107851031A (zh) 2018-03-27
CN107851031B true CN107851031B (zh) 2021-05-28

Family

ID=57221869

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680039876.4A Active CN107851031B (zh) 2015-05-08 2016-05-09 数据发现节点

Country Status (7)

Country Link
US (3) US10438120B2 (zh)
EP (1) EP3295336A4 (zh)
JP (1) JP6758368B2 (zh)
KR (1) KR20180016391A (zh)
CN (1) CN107851031B (zh)
CA (1) CA2985345A1 (zh)
WO (1) WO2016183026A2 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10616219B2 (en) 2014-12-11 2020-04-07 FlowJo, LLC Single cell data management and analysis systems and methods
US10438120B2 (en) 2015-05-08 2019-10-08 FlowJo, LLC Plugin interface and framework for integrating external algorithms with sample data analysis software
US9973503B2 (en) * 2015-12-15 2018-05-15 Foundation of the Idiap Research Institute (IDIAP) Method and internet-connected server for reviewing a computer-executable experiment
US20180165414A1 (en) 2016-12-14 2018-06-14 FlowJo, LLC Applied Computer Technology for Management, Synthesis, Visualization, and Exploration of Parameters in Large Multi-Parameter Data Sets
WO2018217933A1 (en) 2017-05-25 2018-11-29 FlowJo, LLC Visualization, comparative analysis, and automated difference detection for large multi-parameter data sets
USD833479S1 (en) 2017-08-29 2018-11-13 FlowJo, LLC Display screen or portion thereof with graphical user interface
USD907062S1 (en) 2017-08-29 2021-01-05 FlowJo, LLC Display screen or portion thereof with graphical user interface
USD832296S1 (en) 2017-08-29 2018-10-30 FlowJo, LLC Display screen or portion thereof with graphical user interface
US11581064B2 (en) 2017-10-26 2023-02-14 Zymergen Inc. Device-agnostic system for planning and executing high-throughput genomic manufacturing operations
US10761825B2 (en) * 2018-03-30 2020-09-01 Barracuda Networks, Inc. System and method for application plug-in distribution
CN113811754A (zh) * 2018-08-30 2021-12-17 贝克顿·迪金森公司 颗粒分析仪的表征和分选
CN109582795B (zh) * 2018-11-30 2021-01-05 奇安信科技集团股份有限公司 基于全生命周期的数据处理方法、设备、系统和介质
WO2020161520A1 (en) * 2019-02-05 2020-08-13 Azure Vault Ltd. Laboratory device monitoring
WO2021137601A1 (ko) * 2019-12-30 2021-07-08 매니코어소프트주식회사 강화 학습 기반의 프로그램 최적화 방법
CN111767028B (zh) * 2020-06-10 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 一种认知资源管理架构及认知资源调用方法
CN112269879B (zh) * 2020-11-02 2023-03-31 武汉烽火众智数字技术有限责任公司 基于k-means算法的中台日志分析方法及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277424A (ja) * 2005-03-30 2006-10-12 Sysmex Corp 分析システム、データ処理装置、測定装置、及びアプリケーションプログラム
JP2011513841A (ja) * 2008-02-28 2011-04-28 マイクロソフト コーポレーション リモートリソースのウェブアクセスのためのxmlベースのウェブフィード

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108670A (en) 1997-11-24 2000-08-22 International Business Machines Corporation Checking and enabling database updates with a dynamic, multi-modal, rule based system
US6233618B1 (en) * 1998-03-31 2001-05-15 Content Advisor, Inc. Access control of networked data
US6947953B2 (en) * 1999-11-05 2005-09-20 The Board Of Trustees Of The Leland Stanford Junior University Internet-linked system for directory protocol based data storage, retrieval and analysis
US20020150966A1 (en) * 2001-02-09 2002-10-17 Muraca Patrick J. Specimen-linked database
CA2449727A1 (en) * 2001-06-07 2002-12-19 Lawrence Farwell Method and apparatus for brain fingerprinting, measurement, assessment and analysis of brain function
US20030107572A1 (en) * 2001-07-02 2003-06-12 Smith Joshua Edward Method and apparatus for reducing the polygon count of a textured, three dimensional model of an object
US20030078703A1 (en) * 2001-10-19 2003-04-24 Surromed, Inc. Cytometry analysis system and method using database-driven network of cytometers
AU2003224692A1 (en) 2002-03-13 2003-09-29 Q3Dm, Llc System and method for measurement of a response of localized cellular compartments
US7519976B2 (en) * 2002-05-01 2009-04-14 Bea Systems, Inc. Collaborative business plug-in framework
US20040073463A1 (en) * 2002-08-13 2004-04-15 Helms Russell W. Apparatus, methods and computer software products for clinical study analysis and presentation
US7865534B2 (en) * 2002-09-30 2011-01-04 Genstruct, Inc. System, method and apparatus for assembling and mining life science data
US7951580B2 (en) 2004-04-21 2011-05-31 The Regents Of The University Of California Automated, programmable, high throughput, multiplexed assay system for cellular and biological assays
US8881094B2 (en) * 2004-05-27 2014-11-04 Zedasoft, Inc. Container-based architecture for simulation of entities in a time domain
KR20060091486A (ko) 2005-02-15 2006-08-21 삼성에스디아이 주식회사 양극 활물질, 그 제조 방법 및 이를 채용한 양극과 리튬 전지
US7734557B2 (en) * 2005-04-05 2010-06-08 The Board Of Trustees Of Leland Stanford Junior University Methods, software, and systems for knowledge base coordination
US20070112652A1 (en) * 2005-11-01 2007-05-17 Ricketts John A Throughput accounting for professional, scientific and technical services
US7593927B2 (en) * 2006-03-10 2009-09-22 Microsoft Corporation Unstructured data in a mining model language
US7979245B1 (en) 2006-05-17 2011-07-12 Quest Software, Inc. Model-based systems and methods for monitoring computing resource performance
ES2433373T3 (es) * 2006-06-26 2013-12-10 Mosaid Technologies Inc. Procedimiento, aparatos, señales y medios, para la selección de las condiciones de funcionamiento de un grupo generador
US7664622B2 (en) 2006-07-05 2010-02-16 Sun Microsystems, Inc. Using interval techniques to solve a parametric multi-objective optimization problem
US20100138774A1 (en) 2006-10-31 2010-06-03 Nicholas Daryl Crosbie system and method for processing flow cytometry data
US8244021B2 (en) 2006-12-20 2012-08-14 Ventana Medical Systems, Inc. Quantitative, multispectral image analysis of tissue specimens stained with quantum dots
US8304245B2 (en) * 2007-11-02 2012-11-06 Children's Hospital And Research Center At Oakland Microfluidic flow lysometer device, system and method
US8078749B2 (en) * 2008-01-30 2011-12-13 Microsoft Corporation Synchronization of multidimensional data in a multimaster synchronization environment with prediction
JP5425814B2 (ja) 2008-02-08 2014-02-26 ヘルス ディスカバリー コーポレイション サポートベクタマシンを用いてフローサイトメトリーデータを分析するための方法及びシステム
US8831889B2 (en) * 2008-04-01 2014-09-09 Purdue Research Foundation Quantification of differences between measured values and statistical validation based on the differences
US8548950B2 (en) 2008-05-22 2013-10-01 The Board Of Trustees Of The Leland Stanford Junior University Method and system for data archiving
US20100053211A1 (en) 2008-06-27 2010-03-04 Vala Sciences, Inc. User interface method and system with image viewer for management and control of automated image processing in high content screening or high throughput screening
GB2474613A (en) * 2008-07-10 2011-04-20 Nodality Inc Methods and apparatus related to management of experiments
US8861810B2 (en) 2009-01-06 2014-10-14 Vala Sciences, Inc. Automated image analysis with GUI management and control of a pipeline workflow
US20100203058A1 (en) * 2009-02-11 2010-08-12 Indiana University Research And Technology Corporation Diagnostics and therapeutics based on circulating progenitor cells
US8392896B2 (en) 2009-03-06 2013-03-05 Microsoft Corporation Software test bed generation
US8612380B2 (en) * 2009-05-26 2013-12-17 Adobe Systems Incorporated Web-based collaboration for editing electronic documents
US9400314B2 (en) * 2010-04-15 2016-07-26 Atc Logistics & Electronics, Inc. Extended systems and methods for testing power supplies
JP2012048026A (ja) 2010-08-27 2012-03-08 Sony Corp 顕微鏡及びフィルタ挿入方法
EP2446895A1 (en) 2010-10-01 2012-05-02 Stemgen S.P.A. EPH receptor expression in tumor stem cells
US8407461B2 (en) 2010-12-17 2013-03-26 Oracle International Corporation Plug-in system for software applications
US20120166209A1 (en) * 2010-12-28 2012-06-28 Datastream Content Solutions, Llc Determining clinical trial candidates from automatically collected non-personally identifiable demographics
JP2012141847A (ja) 2011-01-04 2012-07-26 Hitachi Solutions Ltd データ移行システム、データ移行装置、及びデータ移行方法
US20140206559A1 (en) * 2011-05-23 2014-07-24 President And Fellows Of Harvard College Assay for metastatic potential of tumor cells
US8560531B2 (en) * 2011-07-01 2013-10-15 International Business Machines Corporation Search tool that utilizes scientific metadata matched against user-entered parameters
US8571764B2 (en) 2011-10-25 2013-10-29 Agco Corporation Dynamic spray buffer calculation
US20140095504A1 (en) 2012-09-28 2014-04-03 United Video Properties, Inc. Systems and methods for cataloging user-generated content
CN103812882B (zh) * 2012-11-06 2018-01-30 腾讯科技(深圳)有限公司 一种文件传输的方法及系统
WO2014141034A2 (en) * 2013-03-15 2014-09-18 Richard Harry Turner A system and methods for the in vitro detection of particles and soluble chemical entities in body fluids
US11055450B2 (en) * 2013-06-10 2021-07-06 Abb Power Grids Switzerland Ag Industrial asset health model update
CN104424199B (zh) 2013-08-21 2018-07-24 阿里巴巴集团控股有限公司 搜索方法和装置
US9467853B2 (en) 2013-10-17 2016-10-11 Lg Electronics Inc. Server for managing home appliance and system including the same
US9697491B2 (en) * 2013-12-19 2017-07-04 Trapeze Software Ulc System and method for analyzing performance data in a transit organization
US10616219B2 (en) * 2014-12-11 2020-04-07 FlowJo, LLC Single cell data management and analysis systems and methods
US10438120B2 (en) 2015-05-08 2019-10-08 FlowJo, LLC Plugin interface and framework for integrating external algorithms with sample data analysis software

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006277424A (ja) * 2005-03-30 2006-10-12 Sysmex Corp 分析システム、データ処理装置、測定装置、及びアプリケーションプログラム
JP2011513841A (ja) * 2008-02-28 2011-04-28 マイクロソフト コーポレーション リモートリソースのウェブアクセスのためのxmlベースのウェブフィード

Also Published As

Publication number Publication date
EP3295336A4 (en) 2018-12-26
WO2016183026A3 (en) 2017-01-19
US10783439B2 (en) 2020-09-22
JP6758368B2 (ja) 2020-09-23
JP2018527674A (ja) 2018-09-20
US20160328249A1 (en) 2016-11-10
US20160328649A1 (en) 2016-11-10
CA2985345A1 (en) 2016-11-17
US20160328516A1 (en) 2016-11-10
CN107851031A (zh) 2018-03-27
EP3295336A2 (en) 2018-03-21
US10438120B2 (en) 2019-10-08
US10713572B2 (en) 2020-07-14
KR20180016391A (ko) 2018-02-14
WO2016183026A2 (en) 2016-11-17

Similar Documents

Publication Publication Date Title
CN107851031B (zh) 数据发现节点
Ramsey et al. Tetrad—a toolbox for causal discovery
US6178382B1 (en) Methods for analysis of large sets of multiparameter data
Sun et al. Study on parallel SVM based on MapReduce
Lichtenwalter et al. Lpmade: Link prediction made easy
JP2005302040A (ja) 目標変数の自動データパースペクティブ生成
Solanki Comparative study of data mining tools and analysis with unified data mining theory
WO2014003970A1 (en) System for evolutionary analytics
Peddi Data Pull out and facts unearthing in biological Databases
Camilleri et al. Parameter optimization in decision tree learning by using simple genetic algorithms
Sreenivasula Reddy et al. Intuitionistic fuzzy rough sets and fruit fly algorithm for association rule mining
WO2002044992A2 (en) System for modeling biological pathways
Lushbough et al. BioExtract server—an integrated workflow-enabling system to access and analyze heterogeneous, distributed biomolecular data
Ratra et al. Performance Analysis of Classification Techniques in Data Mining using WEKA
Ibrahim et al. Data mining: WEKA software (an overview)
Johnson et al. Web content mining using genetic algorithm
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system
Kerzel et al. Towards Tracking Provenance from Machine Learning Notebooks.
Zhang et al. Sesame: A new bioinformatics semantic workflow design system
Raj et al. Parallel and Scalable Map Reduce and Pipeline Tree Classifiers for Massive Dataset Using Map Reduce and Data Flow Pipeline
bin Samer et al. Acceleration and Clustering of Liver Disorder Using K-Means Clustering Method with Mahout’s Library
Peterson et al. Northwest Trajectory Analysis Capability: A Platform for Enhancing Computational Biophysics Analysis
Nandagopal IMPROVED ASSOCIATION RULE MODELLING USING VARIOUS MACHINE LEARNING MODULES FOR LARGE DATASETS.
Afonso et al. The Automation of Feature Generation with Domain Knowledge
Soundararajan et al. Knowledge discovery tools and techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant