CN110603597A

CN110603597A - 用于生物标记识别的系统和方法

Info

Publication number: CN110603597A
Application number: CN201880029975.3A
Authority: CN
Inventors: W·J·耶森
Original assignee: Laboratory Corp of America Holdings
Current assignee: Laboratory Corp of America Holdings
Priority date: 2017-05-12
Filing date: 2018-05-11
Publication date: 2019-12-20
Anticipated expiration: 2038-05-11
Also published as: JP2020522045A; CA3057420C; US20200332364A1; CN110603597B; WO2018209165A1; WO2018209218A1; US20190065665A1; CA3057420A1; EP3622424A1; JP7179766B2; CA3060364A1; US10861583B2; CN110892080A

Abstract

本发明涉及用于从关联的且基于知识的系统和处理中识别生物标记的系统和方法。具体地，本发明的各方面针对一种计算机实现的方法，该方法包括：使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘以识别与一个或多个预定项相关联的数据库项，对识别出的每个数据库项和所述一个或多个预定项之间的(一个或多个)关联进行评分，基于该(一个或多个)关联的得分来确定子集b，按预定次序使用算法的组合来开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型，以及基于相互作用网络模型中子集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记。

Description

用于生物标记识别的系统和方法

对相关申请的交叉引用

本申请要求于2017年6月22日提交的标题为“SYSTEMS AND METHODS FORBIOMARKER IDENTIFICATION”的美国临时申请No.62/523,382和2017年5月12日提交的标题为“SYSTEMS AND METHODS FOR BIOMARKER IDENTIFICATION”的美国临时申请No.62/505,536的权益和优先权，这些申请的全部内容通过引用并入本文用于所有目的。

技术领域

本发明涉及用于生物标记物识别的系统和方法，并且具体而言涉及用于从基于关联且基于知识的系统和处理中识别生物标记的系统和方法。

背景技术

术语“生物标记”一般是指可以被测量从而反映生物系统与潜在危害之间的响应的任何物质、结构或处理，它们可以是化学的、物理的或生物的。测得的响应可以是功能的和生理学的、在细胞水平上的生化的、或者是分子相互作用。生物标记的示例包括从脉搏和血压到基本化学方法到更复杂的血液和其它组织实验室测试的一切内容。传统医学信号(诸如脉搏和血压)在临床实践中已有很长的使用历史，而当今的生物标记(诸如肿瘤标记)则只是现代实验室科学允许我们可重复地测量的客观、可量化的医学标志。生物标记(特别是分子或基因生物标记)的使用有些新颖，目前仍在开发和完善针对这种做法的最佳方法。关键问题是确定任何给定的可测量生物标记与潜在危害(诸如特定疾病状况)之间的关系。

为了改进用于识别生物标记的常规技术，研究人员的主要目标是优化分子生物标记的基因组范围(genome-wide)筛选，尤其是使用高通量技术，基于不同类型的组学数据(omics data)进行差异分析，并使用生物信息学解释组学数据。具体地，各种“组学”(例如基因组学、转录组学和蛋白质组学)数据的积累使人们能够识别出可以预测疾病风险和/或确认疾病发作和进展的潜在分子生物标记。虽然基于组学数据识别出的分子生物标记取得了一些成功，但是大多数分子生物标记并不可靠且具有低的可重复性，其中从一个数据集识别出的生物标记有时无法针对同一疾病在另一个数据集中起作用。之所以会出现这种现象是因为许多疾病(尤其是复杂疾病)被公认为生物系统失调的结果，而不是单个基因的突变，而分子生物标记通常被认为在功能上是彼此独立的。因而，需要用于高精度生物标记识别的改进技术。

发明内容

在各个实施例中，提供了一种计算机实现的方法，该方法包括：使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘，以识别与一个或多个预定项相关联的数据库项，对识别出的数据库项中的每个数据库项与该一个或多个预定项之间的(一个或多个)关联进行评分，基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分来确定子集b，按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用、和附加数据库项的相互作用网络模型，以及基于相互作用网络模型中的附加数据库项和子集b中的数据库项的排名从相互作用网络模型中识别候选生物标记。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型，特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。

根据一些方面，该计算机实现的方法还包括：擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注的数据库项的子集a，并生成子集b的列表，该列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联的得分。

在一些实施例中，开发相互作用网络模型包括：对子集b中的数据库项应用增长算法以在上游构建包括附加数据库项的5-50个节点，其中在增长算法中排除相关性(correlation)和表达关系(expression relationship)，对子集b中的数据库项应用增长算法以在下游构建包括附加数据库项的5-50个节点，其中在增长算法中排除相关性和表达关系，使用直接连接算法将给定预设参数的情况下可以直接连接的所有节点连接起来以创建核心网络，其中在直接连接算法中排除相关性和表达关系，对核心网络应用Dijkstra(迪杰斯特拉)最短路径算法以识别直接连接以及其中还有一个附加步骤的连接，其中在该Dijkstra最短路径算法中排除相关性和表达关系，对核心网络中在给定预设参数的情况下可以直接连接的所有节点应用直接连接算法，其中直接连接算法中排除相关性和表达关系，以及对核心网络应用Dijkstra最短路径算法以识别直接连接以及其中还有一个附加步骤的连接，其中相关性和表达关系包括在该Dijkstra最短路径算法中。

根据其它方面，该计算机实现的方法还包括：识别第一数据集和第二数据集之间的交集，其中第一数据集包括来自相互作用网络模型的附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定(assay)的已知测试分析物的列表；以及基于包括第一数据集和第二数据集之间的交集的标准，将子集b中的数据库项和附加数据库项作为候选生物标记进行排名。

可选地，标准包括：排名1的候选生物标记，它们是由一个或多个治疗专家或者由已发布的行业指南独立推荐作为“生物标记”的那些数据库项；排名2候选生物标记，它们是诸如通过数据挖掘识别出的并且是相互作用网络模型的组成部分的那些数据库项，诸如基因或蛋白质；以及排名3候选生物标记，它们是非排名1候选生物标记且非排名2候选生物标记的那些数据库项。

可选地，该方法还包括：识别在数据挖掘中未找到的要与一个或多个预定项相关联的一个或多个附加项；以及将该一个或多个附加项导入子集b。相互作用网络模型可以包括子集b中的数据库项和该一个或多个附加项、相互作用、和附加数据库项。在某些实施例中，该一个或多个附加项包含涉及包括所述数据库项的一个或多个生物通路的化学物质或小分子。

在其它实施例中，提供了一种用于在其上存储指令的非暂态机器可读存储介质，指令在由一个或多个处理器执行时使一个或多个处理器执行一种方法，该方法包括：使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘，以识别与一个或多个预定项相关联的数据库项，对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分，对识别出的数据库项进行擦洗以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注的数据库项的子集a，基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分确定子集a的子集b，按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型，以及基于相互作用网络模型中子集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型，特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。

在其它实施例中，提供了一种系统，该系统包括一个或多个处理器和非暂态机器可读存储介质，使用查询来识别与一个或多个预定项相关联的数据库项以便对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘的程序指令，对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分的程序指令，对识别出的数据库项进行擦洗以移除不是“实际”关注的数据库项的所谓数据库项从而生成仅包括“实际”关注数据库项的子集a的程序指令，基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分确定子集a的子集b的程序指令，按预定次序使用算法的组合开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型的程序指令，以及基于相互作用网络模型中到子集b中的数据库项和附加数据库项的排名从相互作用网络模型中识别候选生物标记的程序指令。程序指令被存储在非暂态机器可读存储介质上，以供一个或多个处理器执行。可以使用包括特定于组织或器官的参数的预设参数来开发相互作用网络模型，特定于组织或器官的参数将相互作用和附加数据库项限制到具体的组织或器官。

附图说明

鉴于以下非限制性附图，将更好地理解本发明，其中：

图1示出了根据本发明各个方面的使用基于关联的(例如，基因/蛋白质-疾病或基因/蛋白质-项关联)的系统和处理来识别生物标记的示例性流程；

图2示出了根据本发明一些方面的子集b中的数据库项的示例性列表；

图3示出了根据本发明各个方面的用于使用基于知识的系统和处理来识别生物标记的示例性流程；

图4示出了根据本发明各个方面的示例性多节点相互作用网络；

图5示出了根据本发明各个方面的用于生物标记分析的示例性流程；

图6示出了根据本发明的各个方面实现的计算系统的说明性体系架构；

图7A和7B示出了根据本发明各个方面的原始数据挖掘结果和基因集之间的逻辑关系的维恩(Venn)图；

图8示出了根据本发明各个方面的可用的、经验证的测定的细分。

图9示出了根据本发明各个方面的潜在生物标记的表征基因集之间的逻辑关系的维恩图；

图10示出了根据本发明各个方面的来自挖掘和建模的数据的维恩图；

图11示出了根据本发明各个方面的示例性多节点相互作用网络；

图12示出了根据本发明各个方面的示例性多节点相互作用网络，其突出显示了为模型验证提供进一步的置信度的已知生物通路；

图13示出了根据本发明各个方面可用的测试的维恩图；以及

图14示出了根据本发明各个方面的候选生物标记的维恩图。

具体实施方式

I.介绍

在各种实施例中，本发明涉及用于从关联的且基于知识的系统和处理中识别生物标记的方法。用于识别分子生物标记的常规方法一般通过设置阈值来检测差异表达的基因，其中其表达到变化超过阈值的那些基因被用作基因组/转录组的分子生物标记，或对那些测序读数进行完整的重组。遗憾的是，基因表达数据中继承的噪声使得在这样任意设置的阈值的情况下检测可靠差异表达基因成为一项艰巨的任务。因此，已经提出了统计技术来检测更可靠的差异基因，例如非参数方法和经验贝叶斯方法，其中大多数方法都基于统计测试。但是这些方法都太耗时，并且从一个数据集识别出的生物标记有时无法针对同一疾病在另一个数据集中起作用。

为了解决这些问题，本发明涉及实现关联的且基于知识的系统和处理以识别一个或多个生物标记的系统和方法。例如，本公开的一个说明性实施例涉及一种计算机实现的方法，该方法包括：使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘，以识别与一个或多个预定项相关联的数据库项，对识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联进行评分，基于识别出的数据库项中的每个数据库项与一个或多个预定项之间的(一个或多个)关联的得分来确定子集b，按预定次序使用算法的组合开发包括子集b中的数据库项的相互作用网络模型，以及基于相互作用网络模型中数据库项的排名从相互作用网络模型中识别候选生物标记。

虽然本文关于识别分子生物标记公开了一些实施例，但这并不意图是限制性的。除识别分子生物标记之外，本文公开的教导还可以应用于可以被测量以反映生物系统与潜在危害之间的响应的其它生物标记，它们可以是化学的、物理的或生物学的。例如，可以将细胞或生化生物标记(例如前列腺特异性抗原、肌酸激酶、肌营养不良蛋白等)确定为决定个人健康、疾病发作和进展的状态；或实验性疗法是否有效。

II.用于识别生物标记的技术

图1、3和5描绘了简化的流程图，其描绘了根据本发明实施例的被执行以用于识别生物标记的处理。例如，可以在图6的系统环境中实现图1、3和5的步骤。如本文所述，图1、3和5的流程图图示了根据本发明各个实施例的系统、方法和计算机程序产品的可能实现方式的体系架构、功能和操作。就这一点而言，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应当注意的是，在一些替代实施方式中，框中指出的功能可以不按图中指出的次序发生。例如，取决于所涉及的功能，实际上可以基本同时执行连续示出的两个框，或者有时可以以相反的次序执行这些框。还应该注意的是，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。

图1描绘了简化的流程图100，其图示了使用基于关联的(例如，基因/蛋白质-疾病或基因/蛋白质-项关联)来识别生物标记的处理。在步骤105处，使用查询来对生物医学文本(例如，同行评审的文献)、科学摘要或生物信息学数据的一个或多个公共来源进行挖掘，从而识别与一个或多个预定项(即，查询项)相关联的数据库项(例如，蛋白质、基因、生化、细胞成分、其它生物分子，诸如基因的部分、基因的非编码部分、siRNA、miRNA、激素、类固醇、肽等)。一个或多个预定项可以是针对关注的具体疾病(诸如肺癌)和/或针对关注的疾病的危险因素(诸如烟草烟雾)的查询项。在某些实施例中，使用诸如基于web的工具PolySearch之类的web服务器来生成查询，以便识别和枚举生物医学文本的一个或多个公共来源内的R1、R2、R3和R4语句(R代表相关性)，这些语句包括“查询项”、“关联词”和“数据库项”中的一个或多个。

例如，R4语句可以是仅包含数据库项之一且仅用于统计归一化的语句。R3语句可以是具有查询项和数据库项之一的语句。R2语句可以是具有数据库项之一、查询项之一以及至少一个关联词的语句。R1语句可以与R2语句相同，但另外，R1语句可能必须通过模式识别标准。示例关联词可以包括在查询项和数据库项之间建立关联的词，例如：患者、治疗、风险、关联的、角色、抗原、关联、常染色体、生物标记、造成、造成的、拒绝、缺陷、不足、删除的、诊断的、诊断、主导、提升，等等。但是，本领域技术人员将理解的是，在对这种识别和枚举处理的修改不改变使用基于关联的系统和处理来识别生物标记的主要目标的情况下，对这种识别和枚举处理的修改是可以接受的，并且可以包括但不限于涉及与前面提到的处理类似的步骤和/或涉及步骤的减少或增加的修改(例如，仅使用R3语句(数据库项和查询项均出现))。

在步骤110处，对每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联进行评分。例如，可以在包括诸如基因或蛋白质之类的识别出的数据库项和/或一个或多个预定项的语句、段落或摘要中利用相关性规则和模式识别，以对关联的强度进行评分。在一些实施例中，使用模式识别来执行评分，以识别“查询项”-“关联词”-“数据库项”模式，其中在“查询项”和“关联词”之间存在既定的词数(例如，距离)和/或在“查询项”、“关联词”和“数据库项”之间存在既定的词数(例如，距离)。在某些实施例中，得分是针对R1、R2、R3和R4语句中的每一个语句计算的关联值的总和。为了生成得分并计算各个关联值的目的，可以给予R1语句例如50的值，可以给予R2语句例如25的值，可以给予R3语句例如5的值，并且可以给予R4语句例如1的值。为每种类型的语句提供的关联值是权重，这些权重可以被调谐以提供用于识别生物标记的更高精度。

在步骤115处，识别出的数据库项被擦洗以移除不是“实际”关注的数据库项的所谓数据库项(例如，来自查询的“假阳性”结果)以生成仅包括“实际”关注的数据库项(例如经过核实的基因或蛋白质)的子集a。在某些实施例中，擦洗包括使用映射应用将诸如基因名称或蛋白质名称之类的数据库项映射到基因或蛋白质标识符和符号。可以对那些无法通过映射应用进行映射的基因或蛋白质执行数据管理，以移除所有不是“实际”基因或蛋白质的所谓基因或蛋白质。

在步骤120处，基于每个识别出的数据库项与一个或多个预定项之间的(一个或多个)关联的得分，来确定识别出的并被擦洗的数据库项的子集a的子集b。例如，可以通过指派得分阈值以隔离被识别为与一个或多个预定项相关联的前30、50、75或100个数据库项(即，具有(一个或多个)最高评分的关联的那些基因或蛋白质)来确定子集b。目的是识别查询项和数据库项之间的30-100个高评分关联，这些关联可以被用作构建关于图3所述的表征模型的种子。

在步骤125处，生成子集b中所有数据库项的列表。在某些实施例中，该列表包括数据库项的名称(诸如基因或蛋白质的名称)、基因或蛋白质的标识符或符号，以及每个识别出的基因或蛋白质与一个或多个预定项之间的(一个或多个)关联的得分。图2描绘了根据本发明各个方面的子集b中的数据库项205的示例性列表200。在某些实施例中，该处理还包括：识别数据挖掘中未找到的要与一个或多个预定项相关联的一个或多个附加项，并将该一个或多个附加项导入子集b。例如，该领域的专家或科学家可以基于先验知识来提供一个或多个附加项，或者可以使用与步骤105中执行的查询不同的数据库查询(例如，内联网查询或web查询)来找到一个或多个附加项。在某些实施例中，该一个或多个附加项包含涉及包括所述数据库项的一个或多个生物通路的化学物质或小分子。

图3描绘了简化的流程图300，其图示了用于使用基于知识的系统和处理来识别生物标记的处理。在步骤305处，按预定次序使用算法的组合(诸如，Dijkstra最短路径算法(或用于查找节点之间最短路径的类似算法)、直接连接算法(例如，识别网络中现有节点之间的直接连接的算法)、增长算法等)来开发包括子集b中的数据库项、相互作用和附加数据库项的相互作用网络模型(例如，基因/蛋白质-基因/蛋白质相互作用模型)。在某些实施例中，添加到网络中的相互作用和数据库项(例如，基因/蛋白质)被限制到与正被建模的一个或多个预定项相关的给定组织、组织的集合(例如，肺组织)或器官(例如，肾脏)。具体而言，选择子集b中的基因或蛋白质对，并且可以识别与该对中的基因或蛋白质二者直接相互作用的一个或多个组织/器官特定的基因或蛋白质。直接相互作用的识别可以基于经同行评审的研究数据，并指定该一个或多个特定于组织/器官的基因或蛋白质对于该对的基因或蛋白质二者的方向、机制和作用。这些“基因或蛋白质的子网络”通过算法被反复构建，以形成大型的多节点基因/蛋白质-基因/蛋白质相互作用网络。

在各种实施例中，利用预设参数(例如，特定于组织/器官的参数以及排除非直接相互作用参数)来开发相互作用网络模型(例如，基因/蛋白质-基因/蛋白质相互作用模型)。最初，可以将增长算法应用于子集b中的数据库项以在上游构建5-50个节点(例如，25个节点)，包括诸如基因/蛋白质之类附加数据库项(排除相关性和表达关系)。此外，可以将增长算法应用于子集b中的数据库项以在下游构建5-50个节点(例如，25个节点)，包括诸如基因/蛋白质之类的附加数据库项(排除相关性和表达关系)。此后，可以使用直接连接算法(例如，识别网络中现有节点之间的直接连接的算法)来连接在给定预设参数的情况下可以直接连接的所有节点(排除相关性和表达关系)。这个处理基于与正被建模的疾病或查询项相关联的数据库项(即，来自数据挖掘)以及与这些数据库项相互作用的特定于组织/器官的连接和节点来创建核心网络。从本质上讲，这些步骤围绕着先前被识别为与疾病或查询项高度相关联的(即，来自关于图1讨论的数据挖掘的)数据库项或基因/蛋白质来构建附加数据库项或基因/蛋白质相互作用的“邻域”。

一旦创建了核心网络，Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)就可以被用于识别直接连接和存在一个附加步骤的连接(排除相关性和表达关系)。此后，可以应用直接连接算法来连接在给定预设参数的情况下可以直接连接的所有节点(排除相关性和表达关系)。此后，可以使用Dijkstra最短路径算法(或用于查找节点之间的最短路径的类似算法)来识别直接连接和存在一个附加步骤的连接(包括相关性和表达关系)。由于仅识别直接的物理连接，因此排除相关性和表达关系允许更大的模型相关性。在该处理的最后一步中包括相关性和表达关系允许对于与模型中其它节点具有未确定的物理相互作用的新兴生物标记的敏感性。

在步骤310处，没有建立连接的各个节点以及小的碎片网络被丢弃，并且单个大型多节点相互作用网络被保留。图4描绘了根据本发明各个方面的示例性多节点相互作用网络400，多节点相互作用网络400包括一个或多个特定于组织/器官的基因或蛋白质405，基因或蛋白质405直接与每个识别出的对410中的基因或蛋白质两者相互作用。在步骤315处，相互作用网络模型被验证，以确保其准确地模拟疾病生物学。在某些实施例中，可以使用统计数据来执行验证，以证明来自相互作用网络模型的子集b中的数据库项与附加数据库项(诸如基因/蛋白质)在包含人类基因-疾病关联的独立第三方数据源中的富集(例如，显著的过量表示)。这可以通过使用超几何测试以获得模型基因列表相对于第三方数据源中分类的疾病基因列表的富集P值来完成。

在步骤320处，如果可以统计地验证相互作用网络模型，那么处理继续。在某些实施例中，如果相互作用网络模型确实通过验证，即，它富含与正被建模的在独立的第三方数据源中的疾病或查询项相关的基因/蛋白质，那么相互作用网络模型被用来识别如下的基因/蛋白质节点，即，这些基因/蛋白质节点是已知测定的组成部分以及是以下之一：(1)被一个或多个治疗专家推荐的作为用于被建模的表征的生物标记的基因/蛋白质，(2)(根据如关于图1所描述的数据挖掘)与被建模的表征显著相关的基因/蛋白质，或者(3)在模型构建期间被添加了的基因/蛋白质。在步骤325处，如果相互作用网络模型不能被统计地验证，那么相互作用网络模型被丢弃，并且处理可以从步骤305重新开始。例如，不存在相互作用网络模型表示疾病生物学的置信度，因此将相互作用网络模型丢弃。在一些实施例中，该处理可以通过使用更改的参数进行建模而在步骤305处再次开始。但是，在一些情况下，问题不是建模，而是缺乏构建准确模型的证据/数据。

图5描绘了简化的流程图500，其图示了用于生物标记分析的处理。在步骤505处，将相互作用网络模型中的附加数据库项和子集b中的数据库项作为候选生物标记进行排名。在某些实施例中，可以使用逐步处理来提供候选生物标记的置信度得分。逐步处理可以包括识别以下两个数据集之间的交集：来自相互作用网络模型的诸如基因/蛋白质之类的数据库项的列表(例如，子集b中的数据库项和附加数据库项)，以及具有现有的经过验证的测定的已知测试分析物的列表，并基于以下标准对数据库项进行排名：排名1候选生物标记(即，最高置信度候选)，它们是由一个或多个治疗专家或已发布的行业指南独立推荐作为用于所建模的相互作用网络的“生物标记”的那些数据库项，诸如基因或蛋白质。排名2候选生物标记(即，较低置信度候选)满足两个标准：(1)它们是经由数据挖掘而识别出的；和(2)它们是模型的组成部分(即，通过建模处理没有被丢弃)。排名3候选生物标记(即，最低置信度候选)是非排名1且非排名2的诸如基因或蛋白质之类的那些数据库项。

在步骤510处，对于未映射到现有的经过验证的测定的每个所得到的数据库项，可以将这些数据库项视为需要生物验证、临床实用和测定开发的潜在生物标记。在步骤515处，对于确实映射到现有的经过验证的测定的每个所得到的数据库项关联，基于作为候选生物标记的数据库项在模型中的排名，来识别具有作为具体疾病的生物标记的最大潜力的候选生物标记(例如，前10个、15个、20个或25个基因或蛋白质)。

III.系统环境

图6是作为本发明一些实施例实现的计算系统600的说明性体系架构。计算系统600仅仅是合适的计算系统的一个示例，并且无意于暗示对本发明的使用范围或功能的任何限制。而且，计算系统600不应当被解释为具有与计算系统600中所示的任何一个部件或部件的组合有关的任何依赖性或要求。

如图6中所示，计算系统600包括计算设备605。计算设备605可以驻留在网络基础设施上，诸如云环境之内，或者可以是分开的独立计算设备(例如，服务提供商的计算设备)。计算设备605可以包括总线610、处理器615、存储设备620、系统存储器(硬件设备)625、一个或多个输入设备630、一个或多个输出设备635以及通信接口640。

总线610允许计算设备105的部件之间的通信。例如，总线610可以是几种类型的总线结构中的任何一种，包括使用各种总线体系架构中的任何一种来提供一个或多个有线或无线通信链路或路径的存储器总线或存储器控制器、外围总线和本地总线，以用于在计算设备605的各个其它部件之间、从计算设备605的各个其它部件、或向计算设备605的各个其它部件传送数据和/或电力。

处理器615可以是一种或多种常规的处理器、微处理器或专门的专用处理器，其包括可操作以解释和执行计算机可读程序指令的处理电路系统，诸如用于控制计算设备605的各种其它部件中的一个或多个部件的操作和性能的程序指令，用于实现本发明的功能、步骤和/或性能。在某些实施例中，处理器615解释并执行本发明的处理、步骤、功能和/或操作，这些可以通过计算机可读程序指令可操作地实现。例如，处理器615可以进行数据挖掘，例如查询和/或以其它方式从参考数据集中获得或生成数据库项的列表，该参考数据集包括生物医学文本(例如，同行评审的文献)、科学摘要或生物信息学数据的一个或多个公共来源，基于得分确定经擦洗的识别出的数据库项的子集b，并生成子集b的列表。处理器615还可以使用经擦洗的识别出的数据库项的子集b通过算法开发相互作用网络模型，并从相互作用网络模型中识别候选生物标记。在实施例中，可以将由处理器615开发的子集b的列表、相互作用网络模型以及候选生物标记的列表存储在存储设备620中。

存储设备620可以包括可移除/不可移除、易失性/非易失性计算机可读介质，诸如但不限于磁和/或光记录的非暂态机器可读存储介质介质及其对应的驱动器。根据本发明的不同方面，驱动器及其相关联的计算机可读介质提供计算机可读程序指令、数据结构、程序模块和其它数据的存储以供计算设备605操作。在实施例中，根据本发明的各方面，存储设备620可以存储操作系统645、应用程序650和程序数据655。

系统存储器625可以包括一个或多个存储介质，包括例如非暂态机器可读存储介质(诸如闪存)、永久存储器(诸如只读存储器(“ROM”))、半永久存储器(诸如随机存取存储器(“RAM”))，任何其它合适类型的非暂态存储部件或它们的任何组合。在一些实施例中，输入/输出系统660(BIOS)可以存储在ROM中，该输入/输出系统660包括有助于(诸如在启动期间)在计算设备605的各种其它部件之间传送信息的基本例程。此外，可被处理器615访问和/或当前被处理器615操作的数据和/或程序模块665(诸如操作系统645、程序模块、应用程序650和/或程序数据655的至少一部分)可以包含在RAM中。在实施例中，程序模块665和/或应用程序650可以包括查询设备或web爬虫、用于构建相互作用网络模型的诸如Dikstra最短路径算法、直接连接算法、增长算法之类的算法、比较工具，以及例如已知的分析抗原和测定的一个或多个数据库，其提供用于处理器615执行的指令和数据。

一个或多个输入设备630可以包括允许操作者向计算设备605输入信息的一个或多个机制，诸如但不限于触摸板、拨号盘、点击轮、滚轮、触摸屏、一个或多个按钮(例如，键盘)、鼠标、游戏控制器、轨迹球、麦克风、相机、接近传感器、光检测器、运动传感器、生物特征传感器及其组合。一个或多个输出设备635可以包括向操作者输出信息的一个或多个机制，诸如但不限于音频扬声器、耳机、音频线路输出、视觉显示器、天线、红外端口、触觉反馈、打印机或其组合。

通信接口640可以包括使计算设备605能够与远程设备或系统(诸如移动设备)或其它计算设备(诸如例如联网环境(例如，云环境)中的服务器)通信的任何类似于收发器的机制(例如，网络接口、网络适配器、调制解调器或其组合)。例如，计算设备605可以使用通信接口640经由一个或多个局域网(LAN)和/或一个或多个广域网(WAN)连接到远程设备或系统。

如本文所讨论的，计算系统600可以被配置为识别生物标记。具体地，响应于处理器615执行包含在非暂态机器可读存储介质(诸如系统存储器625)中的程序指令，计算设备605可以执行任务(例如，处理、步骤、方法和/或功能)。程序指令可以从诸如数据存储设备620之类的另一个计算机可读介质(例如，非暂态机器可读存储介质)被读取到系统存储器625中，或者经由通信接口640或位于云环境之内或之外的服务器从另一个设备被读取到系统存储器625中。根据本发明的各方面，在实施例中，操作者可以经由一个或多个输入设备630和/或一个或多个输出设备635与计算设备605进行相互作用，以促进任务的执行和/或实现这些任务的最终结果。在附加或替代实施例中，可以使用硬接线电路系统代替程序指令或与程序指令结合使用，以实现与本发明的不同方面一致的任务(例如，步骤、方法和/或功能)。因此，可以以硬件电路系统和软件的任何组合来实现本文公开的步骤、方法和/或功能。

IV.示例

在不意图限制本文讨论的实施例的范围的情况下，通过参考以下示例可以更好地理解在各种实施例中实现的系统和方法。

示例1：

以下示例的目标是执行数据挖掘和表征建模，以识别：(1)与慢性阻塞性肺疾病(COPD)、心血管疾病(CVD)、肺癌(LC)或烟草烟雾(TS)相关联的基因；(2)具有Covance转化生物标记解决方案(TBS)组中的现有测定的候选生物标记，这些测定与疾病表征和肺中烟草烟雾二者相关联；以及(3)与疾病表征和肺中烟草烟雾二者相关联的用于测定开发(即，TBS当前未提供的测试)的潜在生物标记。

Claims

1.一种用于识别生物标记的方法，所述方法包括：

通过计算设备，使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘，以识别与一个或多个预定项相关联的数据库项；

通过所述计算设备，对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分；

通过所述计算设备，基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定子集b；

通过所述计算设备，按预定次序使用算法的组合来开发相互作用网络模型，所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项，其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的，所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官；以及

通过所述计算设备，基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名，从所述相互作用网络模型中识别候选生物标记。

2.如权利要求1所述的方法，还包括：

通过所述计算设备，擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项，以生成仅包括“实际”关注的数据库项的子集a；以及

通过所述计算设备，生成所述子集b的列表，所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。

3.如权利要求1所述的方法，还包括：通过所述计算设备，使用统计处理来验证所述相互作用网络模型。

4.如权利要求3所述的方法，其中，所述验证包括使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集。

5.如权利要求1所述的方法，其中，开发所述相互作用网络模型包括：

对子集b中的数据库项应用增长算法以在上游构建包括所述附加数据库项的5-50个节点，其中在该增长算法中排除相关性和表达关系；

对子集b中的数据库项应用增长算法以在下游构建包括所述附加数据库项的5-50个节点，其中在该增长算法中排除相关性和表达关系；

使用直接连接算法将在给定预设参数的情况下能够直接连接的所有节点连接起来以创建核心网络，其中在该直接连接算法中排除相关性和表达关系；

对所述核心网络应用用于找出节点之间的最短路径的算法，以识别直接连接和其中还有一个附加步骤的连接，其中在用于找出最短路径的所述算法中排除相关性和表达关系；

对所述核心网络中在给定所述预设参数的情况下能够直接连接的所有节点应用直接连接算法，其中，该直接连接算法中排除相关性和表达关系；以及

对所述核心网络应用用于找出最短路径的所述算法，以识别直接连接和其中还有一个附加步骤的连接，其中相关性和表达关系被包括在用于找出最短路径的该算法中。

6.如权利要求1所述的方法，还包括：

通过计算设备，识别第一数据集和第二数据集之间的交集，其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表；以及

通过所述计算设备，基于包括第一数据集和第二数据集之间的交集的标准，将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名。

7.权利要求6的方法，其中，所述标准包括：排名1候选生物标记，排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项；排名2候选生物标记，排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项，诸如基因或蛋白质；以及排名3候选生物标记，排名3候选生物标记是非排名1且非排名2候选生物标记的那些数据库项。

8.如权利要求1所述的方法，还包括：

识别与所述数据挖掘中未找到的一个或多个预定项相关联的一个或多个附加项，以及

通过所述计算设备，将所述一个或多个附加项导入子集b，

其中，所述相互作用网络模型包括相互作用、附加数据库项、以及子集b中的数据库项和所述一个或多个附加项。

9.如权利要求8所述的方法，其中，所述一个或多个附加项包含化学物质或小分子，所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。

10.一种在其上存储有指令的非暂态机器可读存储介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行包括以下操作的方法：

使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘，以识别与一个或多个预定项相关联的数据库项；

对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分；

擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项，以生成仅包括“实际”关注的数据库项的子集a；

基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定所述子集a的子集b；

按预定次序使用算法的组合来开发相互作用网络模型，所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项，其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的，所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官；以及

基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名，从所述相互作用网络模型中识别候选生物标记。

11.如权利要求10所述的非暂态机器可读存储介质，其中，所述方法还包括：

擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项，以生成仅包括“实际”关注的数据库项的子集a；以及

生成所述子集b的列表，所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。

12.如权利要求10所述的非暂态机器可读存储介质，其中，所述方法还包括使用统计处理来验证所述相互作用网络模型。

13.如权利要求12所述的非暂态机器可读存储介质，其中，所述验证包括使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集。

14.如权利要求10所述的非暂态机器可读存储介质，其中，开发所述相互作用网络模型包括：

15.如权利要求10所述的非暂态机器可读存储介质，其中，该方法还包括：

识别第一数据集和第二数据集之间的交集，其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表；以及

基于包括第一数据集和第二数据集之间的交集的标准，将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名。

16.如权利要求15所述的非暂态机器可读存储介质，其中，所述标准包括：排名1候选生物标记，排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项；排名2候选生物标记，排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项，诸如基因或蛋白质；以及排名3候选生物标记，排名3候选生物标记是非排名1且非排名2候选生物标记的那些数据库项。

17.如权利要求10所述的非暂态机器可读存储介质，其中，所述方法还包括：

将所述一个或多个附加项导入子集b，

18.如权利要求17所述的非暂态机器可读存储介质，其中，所述一个或多个附加项包含化学物质或小分子，所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。

19.一种系统，包括：

一个或多个处理器和非暂态机器可读存储介质；

使用查询对生物医学文本、科学摘要或生物信息学数据的一个或多个公共来源进行数据挖掘以识别与一个或多个预定项相关联的数据库项的程序指令；

对识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的一个或多个关联进行评分的程序指令；

擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项以生成仅包括“实际”关注的数据库项的子集a的程序指令；

基于识别出的数据库项中的每个数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分来确定所述子集a的子集b的程序指令；

按预定次序使用算法的组合来开发相互作用网络模型的程序指令，所述相互作用网络模型包括相互作用、附加数据库项以及所述子集b中的数据库项，其中所述相互作用网络模型是使用包括特定于组织或器官的参数的预设参数来开发的，所述特定于组织或器官的参数将所述相互作用和所述附加数据库项限制到具体的组织或器官；以及

基于所述相互作用网络模型中的所述附加数据库项以及所述子集b中的数据库项的排名从所述相互作用网络模型中识别候选生物标记的程序指令，

其中程序指令被存储在所述非暂态机器可读存储介质上以供所述一个或多个处理器执行。

20.如权利要求19所述的系统，还包括：

擦洗识别出的数据库项以移除不是“实际”关注的数据库项的所谓数据库项以生成仅包括“实际”关注的数据库项的子集a的程序指令；以及

生成所述子集b的列表的程序指令，所述列表包括识别出的数据库项的名称、识别出的数据库项的标识符或符号、以及每个识别出的数据库项与所述一个或多个预定项之间的所述一个或多个关联的得分。

21.如权利要求19所述的系统，还包括：使用统计数据来证明所述附加数据库项以及子集b中的数据库项在包括人类基因-疾病关联的独立第三方数据源中的富集从而验证所述相互作用网络模型的程序指令。

22.如权利要求19所述的系统，其中，开发所述相互作用网络模型包括：

对所述核心网络应用用于找出最短路径的算法，以识别直接连接和其中还有一个附加步骤的连接，其中在用于找出最短路径的所述算法中排除相关性和表达关系；

对所述核心网络应用用于找出节点之间的最短路径的所述算法，以识别直接连接和其中还有一个附加步骤的连接，其中相关性和表达关系被包括在用于找出最短路径的该算法中。

23.如权利要求19所述的系统，还包括：

识别第一数据集和第二数据集之间的交集的程序指令，其中所述第一数据集包括来自所述相互作用网络模型的所述附加数据库项和子集b中的数据库项的列表以及具有现有的经过验证的测定的已知测试分析物的列表；以及

基于包括第一数据集和第二数据集之间的交集的标准将子集b中的数据库项和所述附加数据库项作为候选生物标记进行排名的程序指令。

24.如权利要求19所述的系统，其中，所述标准包括：排名1候选生物标记，排名1候选生物标记是被一个或多个治疗专家独立地推荐作为“生物标记”的那些数据库项；排名2候选生物标记，排名2候选生物标记是通过数据挖掘识别出的并且是所述相互作用网络模型的组成部分的那些数据库项，诸如基因或蛋白质；以及排名3候选生物标记，排名3候选生物标记是非排名1且非排名2候选生物标记的那些数据库项。

25.如权利要求19所述的系统，还包括：

识别与所述数据挖掘中未找到的一个或多个预定项相关联的一个或多个附加项的程序指令，以及

将所述一个或多个附加项导入子集b的程序指令，

26.如权利要求25所述的系统，其中，所述一个或多个附加项包含化学物质或小分子，所述化学物质或小分子涉及包括所述数据库项的一个或多个生物通路。