CN110931084A

CN110931084A - 从非结构化文本提取和标准化突变基因用于认知搜索和分析

Info

Publication number: CN110931084A
Application number: CN201910810998.4A
Authority: CN
Inventors: R·L·马丁; A·J·J·耶佩斯; D·M·艾劳拉; A·拉考斯特; C·施尔博
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-08-31
Filing date: 2019-08-30
Publication date: 2020-03-27
Anticipated expiration: 2039-08-30
Also published as: US11170031B2; CN110931084B; US20200073995A1

Abstract

从非结构化文本提取和标准化突变基因用于认知搜索和分析。提供用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的方法、计算机系统和计算机程序产品。本发明可包括提取描述第一实体和第二实体的非结构化文本。然后，本发明可包括识别特定第一实体和特定第二实体。本发明还可包括将特定第一实体和特定第二实体相关联。本发明还可包括创建突变基因实体。然后，本发明可包括识别创建的突变基因实体与一个或多个第三实体之间的至少一个语义关系。本发明还可包括将与特定第一实体和特定第二实体相关联的至少一组数据、语义关系和创建的突变基因实体存储在数据库中。

Description

从非结构化文本提取和标准化突变基因用于认知搜索和分析

技术领域

本发明总体涉及计算领域，更具体地涉及遗传学研究和数据处理。

背景技术

基因可以以许多种方式突变，从单核苷酸取代到从染色体中删除整个基因。基因序列的改变对基因到基因产物(例如蛋白质)中的表达具有影响。从生物学的角度来看，基因突变可以成为对疾病易感性的基础，识别患者可能由于遗传易感性而如何对治疗产生反应，并且识别药物发现渠道的新药物靶点。突变的基因被认为是疾病的驱动因素之一。因此，从文献中了解基因突变的内容和方式以及这些突变如何引起生物学后果(例如疾病易感性)，对于获得对疾病生物学和可能的治疗方法的了解是重要的。

发明内容

本发明的实施例公开了用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的方法、计算机系统和计算机程序产品。本发明可以包括提取描述第一实体(例如，突变实体)和第二实体(例如，基因实体)的至少一组非结构化文本。然后，本发明可以包括识别在所提取的至少一组非结构化文本中描述的至少一个特定第一实体(例如，至少一个特定突变实体)和至少一个特定第二实体(例如，至少一个特定基因实体)。本发明还可以包括将所识别的至少一个特定第一实体与对应的所识别的至少一个特定第二实体相关联。本发明还可以包括通过合并与所关联的至少一个特定第一实体和对应的所关联的至少一个特定第二实体相关联的至少一组数据来创建对应的至少一个突变基因实体。然后，本发明可以包括识别所创建的至少一个突变基因实体与一个或多个第三实体之间的至少一个语义关系。本发明还可以包括将所合并的与所关联的至少一个特定第一实体和所关联的至少一个特定第二实体相关联的至少一组数据、所识别的至少一个语义关系以及所创建的至少一个突变基因实体存储在注释存储数据库中。

附图说明

本发明的这些和其他目的、特征和优点将从以下结合附图阅读的说明性实施例的详细描述中变得明显。附图的各种特征未按比例绘制，因为为了清楚起见，图示便于本领域技术人员结合详细描述来理解本发明。在附图中：

图1示出了根据至少一个实施例的联网计算机环境；

图2是示出根据至少一个实施例的用于自动提取和标准化至少一个突变基因的处理的操作流程图；

图3是根据至少一个实施例的图1中描绘的计算机和服务器的内部组件和外部组件的框图；

图4是根据本公开的实施例的包括图1中描绘的计算机系统的说明性云计算环境的框图；

图5是根据本公开的实施例的图4的说明性云计算环境的功能层的框图。

具体实施方式

本文中公开了要求保护的结构和方法的详细实施例；然而，可以理解的是，所公开的实施例仅仅是对可以以各种形式实施的要求保护的结构和方法的说明。然而，本发明可以以许多不同的形式实施，并且不应该被解释为限于本文中阐述的示例性实施例。相反，提供这些示例性实施例是为了使本公开透彻和完整，并且向本领域技术人员充分传达本发明的范围。在描述中，可以省略公知特征和技术的细节，以避免不必要地模糊所呈现的实施例。

在任何可能的技术细节结合层面，本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言，Python编程语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。在这方面，流程图或框图中的每个框可以表示模块、段或指令的一部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替选实施方式中，框中所示的功能可以不按图中所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由专用的基于硬件的系统来实现，该专用的基于硬件的系统执行特定功能或动作，或者实现专用硬件和计算机指令的组合。

以下描述的示例性实施例提供用于遗传学研究和数据处理的系统、方法和程序产品。因此，本实施例具有以下能力：通过执行利用统一表示从非结构化文本自动提取至少一个突变基因的至少一个提及来改进遗传学研究和数据处理的技术领域，并且进一步通过对与至少一个突变基因关联的至少一个表示进行搜索和分析在语义上将突变基因与其他概念(例如，药物和疾病)相关。更具体地，自动突变基因提取程序可以从存储在文档数据库中的文档语料库中检索至少一个文档。然后，自动突变基因提取程序可以解析文档以识别和提取描述突变或基因的文档的特定部分。然后，自动突变基因提取程序可以识别文档的所提取的文本中描述的特定突变或特定基因，并且将所识别的突变与相应的所识别的基因相关联。然后，自动突变基因提取程序可以合并与特定基因和相应突变相关联的数据，以创建一个单一突变基因实体。然后，自动突变基因提取程序可以识别所创建的突变基因实体与其他实体(例如，药物，疾病)之间的至少一个语义关系，并且将对于突变基因实体生成的信息、支持语义关系以及相关联的突变和基因存储在注释存储数据库中以用于搜索和分析目的。

如前所述，基因可以以许多种方式突变，从单核苷酸取代到从染色体中删除整个基因。基因序列的改变对基因到基因产物(例如蛋白质)中的表达具有影响。从生物学的角度来看，基因突变可以成为对疾病易感性的基础，识别患者可能由于遗传易感性而如何对治疗产生反应，并且识别药物发现渠道的新药物靶点。突变的基因被认为是疾病的驱动因素之一。因此，从文献中了解基因突变的内容和方式以及这些突变如何引起生物学后果(例如疾病易感性)，对于获得对疾病生物学和可能的治疗方法的了解是重要的。

由于与基因突变有关的大多数信息仅以文本格式(例如，科学文献)提供，因此在可以进行任何大规模计算分析之前，信息将被转换为结构化数据格式。基因突变数据库是对于研究人员非常宝贵的资源，使得在许多领域实现科学进步，例如药物发现。通常，这些数据库是通过手动整理科学文献而创建的(例如，InSight，还有COSMIC和HGMD)。然而，生成数据库可能是非常耗时且容易出错的过程，其无法可行地应用于数百万个或更多个文档的整个语料库。因此，这些数据库只能代表所有可用知识的一小部分。因此，基于自然语言处理的自动化方法是需要的，并且虽然存在用于从自由文本自动挖掘基因信息的系统，但是自动提取包括对基因突变的较大主题的充分理解的信息仍然是未解决的问题。

另外，为了使突变信息有价值，用户应该能够理解突变的上下文，例如对于其他相关概念(例如疾病)的影响。作为第一步，该过程应该识别自由文本中的突变事件的提及(例如，删除、替换等)(即，创建突变注释)。由于最重要的突变发生在基因内，因此也可以创建基因注释，随后，突变和基因注释可以彼此相关联以确定哪个基因正在突变。然而，这样的信息可能是复杂的，并且可以使用自然语言中的非常广泛的不同表达来表示。此外，正确识别突变和基因之间的关系可能只是中间步骤，因为所识别的关系仅用来定义突变基因，并且可能另外需要以统一格式表示该突变基因，以确定在其他语义关系中的出现。因此，突变基因的统一表示(被公开并且被称为突变基因)可能是需要的，以使得能够对突变基因进行认知搜索和分析以用于知识发现。

例如，关键知识可能是特定突变基因与特定疾病相关联。因此，为了表示这种复杂的知识，必须通过自动突变基因提取程序提取和理解(即，标准化)几条信息(即，突变、基因、被表示为突变基因的每个突变与每个基因之间的关系、疾病以及突变基因与疾病之间的关系)，以用于认知搜索和分析的目的。

因此，可能有利的是，除了别的以外，在自动突变基因提取程序中包括对现有自然语言处理方法的实质性增强，并且还包括多个命名实体识别步骤、多个标准化步骤和多个语义关系理解嵌套层，以提取和标准化突变基因实体。

在缺乏自动突变基因提取程序的情况下，对关于基因突变形式的文档证据感兴趣的认知搜索和分析系统的用户必须找到手动或半手动方式来实现所期望的结果，例如有意地执行对于特定基因的单独搜索，然后手动包括基于文本的过滤器以聚焦结果(例如，使用描述特定突变的特定短语的共现或接近过滤器)，该过程不可扩展并且易于出错和遗漏。替选地，并且再次在缺乏自动突变基因提取程序的情况下，可以通过访问手动整理的基因提及数据库(例如，InSiGHT数据库)获得一些相关信息；然而，由于手动整理的数据无法涵盖来自整个文献空间的大量连接，因此这种方法可能局限于已经手动整理的文献数据的一小部分。

此外，没有本文中介绍的自动突变标准化组件，用户可能必须在文本中手动搜索相同概念的多个同义变体(例如，“T790M”和“Thr790Met”是同义的)。因此，自动突变基因提取程序满足了这样的用户的需求，这些用户的兴趣在于了解有关基因突变的可用信息的广度，否则在没有以这种方式应用认知技术的自动突变基因提取程序的情况下，就无法进行大规模分析。

根据至少一个实施例，自动突变基因提取程序可以利用统一表示来执行从非结构化文本自动提取至少一个突变基因的至少一个提及。自动突变基因提取程序可以通过对与至少一个突变基因相关联的至少一个表示进行搜索和分析，进一步在语义上将突变基因与其他概念(例如，药物和疾病)相关。本实施例可以包括从自由(例如，非结构化)文本提取并且随后标准化突变和基因的提及(即，理解突变或基因的两个不同表达可以指的是相同的突变或基因)，以及自动化关联将要作为分析实体(即，作为突变基因实体)协同使用的自由文本中的突变和基因。

根据至少一个实施例，自动突变基因提取程序可以包括自动提取和标准化在文本、数据库或其他来源中出现的突变，包括对不同特异性的突变事件的描述(即，对于突变，命名实体识别与命名实体解析相组合)。

根据至少一个实施例，自动突变基因提取程序可以包括自动提取和标准化在文本、数据库或其他来源中出现的基因，包括对不同特异性的基因的描述(即，对于基因，命名实体识别与命名实体解析相组合，可能包括蛋白质、基因和蛋白质融合等)。

根据至少一个实施例，自动突变基因提取程序可以包括自动提取在文本中一起出现的突变和基因之间的语义关联(即，识别这两个概念之间的语义关系)。

根据至少一个实施例，自动突变基因提取程序可以包括自动存储和表示突变和基因之间的关联作为突变基因实体的实例。然后，可以将突变基因实体视为基因实体的特例。将突变基因表示为实体，而不仅仅是其组成实体之间的语义关系，可以使得能够利用突变基因作为实体来进行认知搜索和分析(例如，利用知识图，其中突变基因是图节点、共现表或其他形式的表示)。

根据至少一个实施例，自动突变基因提取程序可以使得能够利用突变基因实体以用于先前不可行的发现用例(例如，自动生成疾病如何相关联的结构化表示)和以特定方式突变的特定基因。

根据至少一个实施例，自动突变基因提取程序可以包括认知搜索和分析组件，附加到并且不损害自动突变基因提取程序的支持关于未改变的基因的发现用例的能力，所述认知搜索和分析组件还可以支持关于突变基因的发现用例。

根据至少一个实施例，通过自动突变基因提取程序对突变基因实体执行认知搜索和分析的概念可以不仅仅是对利用与生命科学相关的实体(例如，基因、药物和疾病)的现有认知搜索和分析能力的渐进改进。虽然实体通常作为单独的名词短语出现在非结构化文本中，但是突变基因通常可以由可识别突变事件和正在突变的基因的多个名词短语或其他文本片段来定义。因此，自动突变基因提取程序可以随后标准化正在讨论哪个特定突变和哪个特定基因，并且可以通过识别语义关系将它们彼此相关联。通过语义关系的关联，可以通过将突变基因本身视为实体来实现嵌套语义关系理解的附加层，其可以是语义关系的代理或目标。因此，与现有方法相比，自动突变基因提取程序可以不仅仅包括复杂性的渐进增加。

根据至少一个实施例，自动突变基因提取程序可以包括上载文档语料库(即，非结构化文本文档)。非结构化文本文档可以被分析并且被存储在数据库中，以供自动突变基因提取程序的后续组件访问。

根据至少一个实施例，自动突变基因提取程序可包括基因注释和突变注释组件。基因注释和突变注释组件可以分别对基因和突变执行命名实体识别(即，识别描述基因和突变的文本的特定部分)。在本实施例中，其他组件(例如，疾病注释和药物注释组件)也可存在于自动突变基因提取程序中。

根据至少一个实施例，自动突变基因提取程序可包括基因标准化和突变标准化组件。基因标准化和突变标准化组件可以分别对基因和突变执行命名实体解析(标准化)(即，识别哪个特定基因或突变由前面组件中识别的文本来描述)。例如，基因注释“EGFR”和“表皮生长因子受体”将被认为是同义的，并且当标准化时将被表示为相同的概念(例如，EGFR，本文中使用的标准化形式)。类似地，例如，突变注释“T790M”和“Thr790Met”可以被认为是同义的，并且当标准化时可以被表示为相同的概念(例如，P.T790M，本文中使用的标准化形式)。在本实施例中，其他组件(例如，疾病标准化和药物标准化组件)也可以存在于自动突变基因提取程序中。

根据至少一个实施例，自动突变基因提取程序可包括突变基因注释组件，所述突变基因注释组件执行基因和突变的语义关系关联。通过应用于包含基因和突变注释两者的特定句子或其他文本部分的自然语言处理，每个突变可以与发生突变的基因相关联。例如，突变注释“T790M”将通过短语“...的变体”与基因注释“表皮生长因子受体”相关联。因此，可以创建突变基因注释，包括这些特定突变和基因注释之间的关联。通常，通过自然语言的语义处理，突变基因注释组件可以在自由文本中可能出现的各种布置中识别这样的关联。可能彼此没有成功相关联的基因和突变无法创建突变基因。

根据至少一个实施例，自动突变基因提取程序可以包括突变基因标准化组件，所述突变基因标准化组件通过组合突变和基因的标准化形式来标准化每个突变基因。例如，如果“T790M”的标准化形式是“P.T790M”，并且“表皮生长因子受体”的标准化形式是“EGFR”，那么突变基因的标准化形式将是这些元素的某种组合，例如“EGFR//P.T790M”。

根据至少一个实施例，自动突变基因提取程序可以包括语义关系注释组件，所述语义关系注释组件执行第二层语义关系注释，包括所有所计算的注释(包括突变基因)的关联。通过应用于包含多于一个注释的特定句子或其他文本部分的自然语言处理，可以识别重要的特定语义关系，包括突变基因和其他实体(例如，药物和疾病)之间的语义关系。例如，被识别并且被标准化为“EGFR//P.T790M”的突变基因将通过在突变基因之前的短语“...的抗性”(或“...的抗性的评价”)以及随后的“针对”(或“针对癌症药物”)与药物“厄洛替尼”相关联。通常，通过自然语言的语义处理，语义关系注释组件可以在自由文本中可能出现的各种布置中识别这样的关联。

根据至少一个实施例，自动突变基因提取程序可以包括注释存储组件，所述注释存储组件收集、索引和以其他方式存储所计算的注释，以用于下游的认知搜索和分析目的。

参考图1，描绘了根据一个实施例的示例性联网计算机环境100。联网计算机环境100可以包括具有处理器104和数据存储设备106的计算机102，计算机102能够运行软件程序108和自动突变基因提取程序110a。联网计算机环境100还可以包括服务器112，服务器112能够运行可以与数据库114和通信网络116交互的自动突变基因提取程序110b。联网计算机环境100可以包括多个计算机102和服务器112，仅示出了其中的一个。通信网络116可以包括各种类型的通信网络，例如广域网(WAN)、局域网(LAN)、电信网络、无线网络、公共交换网络和/或卫星网络。应该理解的是，图1仅提供了一个实现方式的说明，并未暗示关于可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。

客户端计算机102可以经由通信网络116与服务器计算机112通信。通信网络116可以包括连接，诸如有线、无线通信链路或光纤电缆。如将参考图3讨论的那样，服务器计算机112可以分别包括内部组件902a和外部组件904a，并且客户端计算机102可以分别包括内部组件902b和外部组件904b。服务器计算机112还可以在云计算服务模型中操作，诸如软件即服务(SaaS)、分析即服务(AaaS)、平台即服务(PaaS)或基础架构即服务(IaaS)。服务器112还可以位于云计算部署模型中，例如私有云、社区云、公共云或混合云。客户端计算机102可以是例如移动设备、电话、个人数字助理、上网本、膝上型计算机、平板计算机、台式计算机、或能够运行程序、访问网络并且访问数据库114的任何类型的计算设备。根据本实施例的各种实现方式，自动突变基因提取程序110a、110b可以与数据库114交互，数据库114可以嵌入在各种存储设备中，例如但不限于计算机/移动设备102、联网服务器112或云存储服务。

根据本实施例，使用客户端计算机102或服务器计算机112的用户可以(分别)使用自动突变基因提取程序110a、110b来自动化突变基因提取。下面参考图2更详细地解释自动突变基因提取方法。

现在参考图2，描绘了示出根据至少一个实施例的由自动突变基因提取程序110a、110b使用的示例性自动突变基因提取和标准化过程200的操作流程图。

在204处，从文档数据库202(即，数据库114)检索至少一个文档。使用用户设备(例如，用户的计算机102)上的软件程序108，自动突变基因提取程序110a、110b可以经由通信网络116从服务器112或云存储服务上的文档数据库202检索(即，提取或上载)至少一个文档作为输入。文档(例如，医学或科学摘要、全文科学文章、全文专利、临床试验报告、药物标签、医学或科学文献以及辅助因特网来源)可以包括非结构化文本或自由文本。文档语料库可以存储在文档数据库202中。替选地，用户可以手动上载文档，而无需使用服务器112或云存储服务。

例如，自动突变基因提取程序110a、110b从文档数据库202选择在2017年夏季出版的著名科学期刊“遗传学世界”中的关于BRAF基因的新遗传学研究的新文章，该BRAF基因是编码被称为B-Raf的蛋白质的人类基因，B-Raf涉及发送直接参与细胞生长的细胞内信号。该文章最近被上载到文档数据库202中，并且尚未通过自动突变基因提取程序110a、110b进行注释。

在另一个实施例中，自动突变基因提取程序110a、110b可以基于由用户或管理员设定的参数集合(例如，特定类型的基因、药物、疾病、突变或基因组研究领域)，定期地(例如，每隔几周)利用最新的或修改的出版物来自动更新。

在另一个实施例中，自动突变基因提取程序110a、110b可以包括与特定的一组科学文献(例如，期刊、出版物或互联网来源的类型)或参数(例如，特定类型的基因、药物、疾病、突变或基因组研究领域)相关联的警报，其中自动突变基因提取程序110a、110b可以接收关于文档数据库202内的文档语料库中所包括的任何文档或参数集合的任何更新的警报或通知。也可以向用户或管理员通知这样的更新。然后，自动突变基因提取程序110a、110b可以继续相应地更新文档。

在另一个实施例中，用户或管理员可以在接收到与更新的或修改的文档相关联的通知或警报之后手动接受或拒绝修改的或最新的文档。如果用户或管理员拒绝修改的或最新的文档，则自动突变基因提取程序110a、110b可以包括作为元数据的通知，其中文档数据库202中的相关联的文档通知更新的或修改的文档和信息(例如，更新的或修改的文档的公布日期、拒绝日期、实施拒绝的人的姓名、拒绝的理由、到更新的或修改的文档的链接)。在至少一个实施例中，相同的元数据(即，包括更新的或修改的文档和相应信息的通知)可以被包括在与自动突变基因提取程序110a、110b相关联的任何其他数据库中。

自动突变基因提取程序110a、110b可以通过利用用户设备(例如，用户的计算机102)上的软件程序108经由通信网络116从服务器112、因特网或云存储服务上载文档语料库来构建文档数据库202。替选地，文档可以由用户手动上载并且存储在文档数据库202中。文档数据库202内的文档可以基于文档的类型、文档内包括的主题或其他用户偏好来索引，这可以由自动突变基因提取程序110a、110b的用户或管理员来配置。除非由用户偏好指定，否则自动突变基因提取程序110a、110b可以包括对可被包括在文档数据库202中的文档数量的最小限制(如果有的话)。

接下来，在206处，开始突变注释。在突变注释组件中，自动突变基因提取程序110a、110b可以利用用户设备(例如，用户的计算机102)上的软件程序108(例如，一种或多种自然语言处理技术的应用)来识别和提取描述一个或多个突变(即突变实体或多个突变实体)的一个或多个检索到的文档(即，来源文档)中的一个或多个非结构化文本(即，来源文本或来源数据)的一个或多个特定部分。自动突变基因提取程序110a、110b可以利用已知引擎来针对突变而解析非结构化文本。突变注释组件(即，突变注释阶段)的输出可以构成数据表示的形式，包括来源数据中的突变的记录(例如，关于检索到的文档(即，至少一组数据从其导出的一个或多个文档)的信息、文本中的位置、表示所讨论的突变的单词或短语以及周围的上下文)。在基于自然语言处理的实施例的上下文中，突变注释组件可以被视为命名实体识别阶段。

继续前面的示例，自动突变基因提取程序110a、110b利用软件工具来解析文章，并且软件工具识别文章内的一段文本陈述：

“在3例甲状腺乳头状癌(PTC)的滤泡变体中检测到BRAF(密码子K600E)的明显突变”。

自动突变基因提取程序110a、110b识别出文本描述了突变，因此，自动突变基因提取程序110a、110b从文章中提取了该文本。与所识别和所提取的文本一起，自动突变基因提取程序110a、110b还包括该文本位于2017年夏季出版的著名“遗传学世界”科学期刊中的文章的第57页第21-22行、以及用于所提取的文本的上下文的在所提取的文本之前和之后的周围四个句子的截图。

在另一个实施例中，自动突变基因提取程序110a、110b可以识别和提取提供关于突变的有限信息的文本。例如，自动突变基因提取程序110a、110b可以识别并且提取以下文本：“BRAF突变与一些组织学类型的乳头状甲状腺癌相关联”。因此，没有具体描述使基因突变的方式；然而，存在明确的推论：发生了某种类型的BRAF突变，并且BRAF突变与疾病“乳头状甲状腺癌”有关。

在另一个实施例中，自动突变基因提取程序110a、110b可以识别和提取不提供突变名称、而是提供由突变引起的特定类型的转化的文本。例如，自动突变基因提取程序110a、110b可识别并且提取以下文本：“G:C至A:T转换(28个中的11个：39％)是在来自没有被动吸烟暴露的终身不吸烟者的肿瘤中发现并且聚集的最常见的p53突变”。因此，突变是p53序列中的特定类型的转化。

在另一个实施例中，自动突变基因提取程序110a、110b可以包括疾病注释组件(即，疾病注释阶段)，用于识别和提取描述特定疾病的所检索到的文档中的文本。

然后，在208处，开始突变标准化。自动突变基因提取程序110a、110b可以包括突变标准化组件(即，突变标准化阶段)，利用用户设备(例如，用户的计算机102)上的软件程序108来识别突变注释组件206中检索到的来源文档的非结构化文本所描述的是哪一个或多个突变。自动突变基因提取程序110a、110b也可以利用由引擎或软件应用实现的各种技术(例如，基于专家整理数据来交叉引用其他数据来源、软件工具的应用、利用(或不利用)文档上下文、文档元数据、从疾病或药物生成的注释)，以识别所检索到的来源文档的非结构化文本中的一个或多个突变。

继续前面的示例，自动突变基因提取程序110a、110b基于与自动突变基因提取程序110a、110b集成的专家整理数据来交叉引用其他数据来源，以识别包含在文本中的特定突变是密码子K600E。

在另一个实施例中，自动突变基因提取程序110a、110b可以包括用于识别特定疾病的疾病标准化组件(即疾病标准化阶段)。

然后，在210处，开始基因注释。类似于突变注释组件206，在基因注释组件中，自动突变基因提取程序110a、110b可以利用用户设备(例如，用户的计算机102)上的软件程序108(例如，一种或多种自然语言处理技术的应用)，以用于识别和提取描述一个或多个基因(即基因实体或多个基因实体)的一个或多个检索到的文档(即，来源文档)中的一个或多个非结构化文本(即，来源文本或来源数据)的一个或多个特定部分。自动突变基因提取程序110a、110b可利用已知引擎来针对基因而解析非结构化文本。基因注释组件(即，基因注释阶段)的输出可以构成数据表示的形式，包括来源数据中的基因记录(例如，关于检索到的文档的信息(即，至少一组数据从其导出的一个或多个文档)、文本中的位置、表示所讨论的基因的单词或短语、以及周围的上下文)。在基于自然语言处理的实施例的上下文中，基因注释组件可以被视为命名实体识别阶段。

继续前面的示例，与突变注释206和突变标准化208分离并且独立，自动突变基因提取程序110a、110b解析著名的“遗传学世界”科学期刊的相同文章，并且识别和提取相同的文本：

在本实施例中，自动突变基因提取程序110a、110b可以将突变注释206和基因注释210视为独立并且分离的过程，其中下游组件依赖于每个突变注释206和基因注释210的结果来识别、提取并且标准化突变基因。因此，自动突变基因提取程序110a、110b可以彼此连续地或同时地顺序运行突变注释206和基因注释210。例如，在每个处理线程具有与文档数据库202相关联的单独文档池的多线程实现方式中，迭代地，自动突变基因提取程序110a、110b可以获取或检索下一个文档，并且顺序地对该文档执行每个组件，作为更大并行处理方法的一部分。

在本实施例中，自动突变基因提取程序110a、110b可以连续地执行突变注释206和基因注释210。例如，自动突变基因提取程序110a、110b可以在基因注释210之前执行突变注释206，或者自动突变基因提取程序110a、110b可以在突变注释206之前执行基因注释210。

在另一个实施例中，自动突变基因提取程序110a、110b可以同时执行突变注释206和基因注释210。例如，自动突变基因提取程序110a、110b可以同时地分别执行突变注释206和基因注释210。

在另一个实施例中，自动突变基因提取程序110a、110b可以包括药物注释组件(即，药物注释阶段)，用于识别和提取描述特定药物的所检索到的文档中的文本。

在另一个实施例中，自动突变基因提取程序110a、110b可以对突变注释206和基因注释210使用任何方式的自然语言处理(NLP)技术。由于突变注释206和基因注释210是独立并且分离的过程，所以自动突变基因提取程序110a、110b可以对于每个组件使用不同的NLP技术。例如，突变注释206可以是由专家整理的字典支持的基于规则的，而基因注释210是使用在专家整理的示例上训练的机器学习模型来执行的。自动突变基因提取程序110a、110b可以包括对可以由突变注释206和基因注释210使用的NLP技术的类型的最小限制(如果有的话)。

然后，在212处，开始基因标准化。自动突变基因提取程序110a、110b可以包括基因标准化组件(即，基因标准化阶段)，利用用户设备(例如，用户的计算机102)上的软件程序108来识别由基因注释组件210中检索到的来源文档的非结构化文本所描述的是哪一个或多个基因。自动突变基因提取程序110a、110b还可以利用由引擎或软件应用实现的各种技术(例如，基于专家整理数据来交叉引用其他数据来源、软件工具的应用、利用(或不利用)文档上下文、文档元数据、从疾病或药物生成的注释)，以识别检索到的来源文档的非结构化文本中的一个或多个基因。

继续前面的示例，自动突变基因提取程序110a、110b使用基于先前发现的基因的列表来识别基因提及的软件工具的应用，以识别文本中包括的特定基因。该应用将所提取的文本中提及的BRAF基因与应用上列出的BRAF基因相匹配。

在本实施例中，类似于突变注释206和基因注释210，自动突变基因提取程序110a、110b可以将突变标准化208和基因标准化212视为独立并且分离的过程，其中下游组件依赖于每个突变标准化208和基因标准化212的结果来标准化突变基因。因此，自动突变基因提取程序110a、110b可以彼此连续地或同时地顺序运行突变标准化208和基因标准化212。

在本实施例中，类似于突变注释206和基因注释210，自动突变基因提取程序110a、110b可以连续地执行突变标准化208和基因标准化212。例如，自动突变基因提取程序110a、110b可以在基因标准化212之前执行突变标准化208，或者自动突变基因提取程序110a、110b可以在突变标准化208之前执行基因标准化212。

在另一个实施例中，自动突变基因提取程序110a、110b可以同时执行突变标准化208和基因标准化212。例如，自动突变基因提取程序110a、110b可以同时地分别执行突变标准化208和基因标准化212。

在另一个实施例中，类似于突变注释206和基因注释210，自动突变基因提取程序110a、110b可以对突变标准化208和基因标准化212使用任何方式的技术(例如，对同义词进行字典查找、语义上下文建模)。由于突变标准化208和基因标准化212是独立并且分离的过程，所以自动突变基因提取程序110a、110b可以对于每个组件使用不同类型的技术。例如，突变标准化208可以使用对于同义词或相关单词或短语的字典查找，而基因标准化212可以使用语义上下文建模方法。自动突变基因提取程序110a、110b可以包括对可以由突变标准化208和基因标准化212使用的NLP技术的类型的最小限制(如果有的话)。

在另一个实施例中，自动突变基因提取程序110a、110b可以包括用于识别特定药物的药物标准化组件(即，药物标准化阶段)。

然后，在214处，开始突变基因注释。自动突变基因提取程序110a、110b可以包括突变基因注释组件(即突变基因注释阶段)，执行一个或多个基因与一个或多个突变的第一层语义关系关联。自动突变基因提取程序110a、110b可以将一个或多个基因与在前面组件中注释和标准化的一个或多个突变相关联(即，链接)，即，对于一个或多个突变，在突变注释206和突变标准化208处处理，以及对于一个或多个基因，在基因注释210和基因标准化212处处理。通过将自然语言处理(NLP)技术应用于包括基因注释和突变注释两者的检索到的来源文档的非结构化文本的特定句子或其他部分，自动突变基因提取程序110a、110b可以将每个突变与一个或多个基因相关联，所述一个或多个基因的脱氧核糖核酸(DNA)序列被突变改变。

由自动突变基因提取程序110a、110b创建的每个突变基因注释可以包括特定突变注释和特定基因注释之间的关联。通过对语义关系的NLP处理，自动突变基因提取程序110a、110b可以识别在至少一个检索到的来源文档中的非结构化文本中可能出现的各种布置(例如，特定疾病和特定药物之间的关联)中的这些语义关系关联。

自动突变基因提取程序110a、110b可以在突变基因注释214期间使用一个或多个基因和一个或多个突变的第一层语义关系关联来确认在检索到的文档中发现的基因和突变是否不仅仅出现在同一个句子或文档中。相反，在检索到的文档中发现的基因和突变可以以这样的方式相关，以便传达特定基因正在以特定方式突变。突变基因注释214的结果可以包括突变基因的注释(即，包括相关的突变和基因的注释的类型)。

继续前面的示例，自动突变基因提取程序110a、110b审阅从前面组件(即，突变注释206、突变标准化208、基因注释210和基因标准化212)注释和标准化的数据，以将所提取的文本中的所识别的突变“密码子K600E”与也来自所提取的文本的相应的所识别的基因“BRAF基因”相关联。

在本实施例中，如果通过自动突变基因提取程序110a、110b，特定突变可能不与特定基因相关联，或者特定基因可能不与特定突变相关联，则自动突变基因提取程序110a、110b可以呈现错误消息。另外，自动突变基因提取程序110a、110b可能无法为特定基因和特定突变之间的这种不成功的关联创建突变基因(即特定突变和特定基因的组合)。

然后，在216处，开始突变基因标准化。自动突变基因提取程序110a、110b可以包括突变基因标准化组件(即，突变基因标准化阶段)，所述突变基因标准化组件可以通过组合来自前述突变标准化组件208的标准化形式的突变和来自前述基因标准化组件212的标准化形式的基因，标准化在突变基因注释组件214中创建的每个突变基因。突变基因标准化组件216可以将与创建特定突变基因的特定突变和特定基因相关联的数据重组为一个单一突变基因实体，以减少冗余并且提高数据完整性。

继续前面的示例，自动突变基因提取程序110a、110b将针对密码子K600E和BRAF基因在前面组件(即，突变注释206、突变标准化208、基因注释210和基因标准化212)中产生的所有数据合并为一个突变基因实体“BRAF//P.K600E”。数据包括所提取的文本的位置(2017年夏季出版的“遗传学世界”科学期刊中的文章的第57页第21-22行)、突变的名称(密码子K600E)、基因的名称(BRAF基因)、以及用于所提取的文本的上下文的在所提取的文本之前和之后的周围四个句子的截图。

然后，在218处，开始语义关系注释。自动突变基因提取程序110a、110b可以包括语义关系注释组件，对于任何所计算的注释(包括突变基因)的关联执行第二层语义关系注释。类似于在突变基因注释214期间的第一层语义关系关联，自动突变基因提取程序110a、110b可以使用应用于包括多于一个注释的所检索到的来源文档的非结构化文本的特定句子或其他部分(例如，段落、图表描述)的NLP技术。自动突变基因提取程序110a、110b可以识别突变基因与其他实体(例如，疾病和药物)之间的重要的特定语义关系(例如，与特定疾病相关的突变基因)。例如，如果具有突变基因XYZ指数地增加人患肺癌的风险，那么任何提及突变基因XYZ和肺癌、或文献文本中的突变基因XYZ与肺癌之间的关系可被视为相关关系(即重要的语义关系)。因此，可以识别并且注释可能相关的突变、基因、疾病、药物和其他实体(即，有机组织、病症或物质)，或者取决于用户、管理员、所进行的研究的类型或其他因素(例如，最近的发现、用户或管理员感兴趣或关注的领域、授权限制或授权细节)的所识别的重要的特定语义关系的一部分。

语义关系注释组件218的输出(即，所计算的注释)可以存储在注释存储数据库220(即，数据库114)中，以用于下游认知搜索和分析的目的。注释存储数据库220可以包括所提取的并且标准化的突变基因、相应的突变和基因、与突变基因以及相应的突变和基因相关联的所检索到的文档文本、以及其他标识符(例如，文档元数据、文档标识和相关特征)。

另外，所创建的突变基因实体(即，突变基因)可以成为注释存储数据库220中的可搜索对象。因此，用户可以经由突变基因进行搜索以研究使特定基因以特定方式突变的后果，或发现与特定突变基因相关联的下游效应(例如，疾病和可能的治疗方式)。

在至少一个实施例中，第二层语义关系注释218可以被认为是在突变基因注释214期间的第一语义关系注释的下游组件。语义关系注释218可以分析来自216的所提取的并且标准化的突变基因和在突变基因注释214中生成的语义关系。例如，分析突变基因XYZ以确定突变基因XYZ的存在增加了其他呼吸相关病症(例如肺癌、支气管炎和间皮瘤)的风险。

继续前面的示例，自动突变基因提取程序110a、110b分析所提取的并且标准化的突变基因“BRAF//P.K600E”以及所识别的并且提取的文本，以识别突变基因“BRAF//P.K600E”和所提取的文本或与所提取的文本相关联的周围文本中的任何其他实体之间的语义关系。自动突变基因提取程序110a、110b识别到在突变基因“BRAF//P.K600E”与疾病“PTC”之间存在关系，特别是在PTC的滤泡变体中。具有突变基因“BRAF//P.K600E”和PTC的这种关系以及任何支持信息被作为元数据保存在注释存储数据库220中的文档中，所述支持信息例如为所提取的文本的位置(2017年夏季出版的“遗传学世界”科学期刊中的文章第57页第21-22行)、突变的名称(密码子K600E)、基因的名称(BRAF基因)、以及用于所提取的文本的上下文的在所提取的文本之前和之后的周围四个句子的截图。另外，突变基因“BRAF//P.K600E”成为注释存储数据库220中的可搜索对象，以用于搜索和分析的目的。

在本实施例中，自动突变基因提取程序110a、110b可以(单独地和独立地)从文档内的自由文本或非结构化文本提取和标准化突变和基因的提及，并且自动地将自由文本中的突变和基因相关联，以作为分析实体(即突变基因实体)协同使用。

在另一个实施例中，文档数据库202可以与注释存储数据库220分开，注释存储数据库220包括表示文档标识(即，文档ID)的特征以及特征出现的文档内的位置。在另一个实施例中，文档数据库202和注释存储数据库220是相同的数据库，其中注释可以存储在文档(例如，元数据)中，并且可以相应地更新。

在一个实施例中，文档数据库202和注释存储数据库220可以是可以限制用户访问的全局数据库。因此，与针对任何用户的由自动突变基因提取程序110a、110b提取和标准化的突变基因相关联的文档和注释可以包括在文档数据库202和注释存储数据库220中。例如，如果用户提供关于与用户相关联的特定研究组正在测试的突变基因“ABC”的私密和机密信息，则与突变基因“ABC”的注释相关联的数据可以与相应的权限信息一起存储，使得只有来自该特定研究组的用户可以访问该数据。

在另一个实施例中，文档数据库202和注释存储数据库220可以包括用户设备(例如，用户的计算机102)上的至少一个本地数据库，其中对于该用户在本地执行所有数据存储和处理。数据可以限于单个用户或与用户相关联的特定组。例如，一个研究机构或组可以具有一个本地数据库。本地数据库可以存储并且索引与文档数据库202和注释存储数据库220中的每一个或两者中的注释相关联的文档和特征，其可以包括所有本地数据库内的每个注释和相应文档。

在另一个实施例中，除了与文档数据库202和注释存储数据库220中的每一个或两者相关联的至少一个全局数据库之外，文档数据库202和注释存储数据库220还可以包括用户设备(例如，用户的计算机102)上的至少一个本地数据库。本地数据库可以周期性地存储并且索引与文档数据库202和注释存储数据库220中的每一个或两者相关联的全局数据库中的注释所关联的文档和特征，其可以包括所有本地数据库中的每个注释和相应文档。用户可以通过有限的用户访问来检索未在本地数据库上存储并且索引、而是仅在至少一个全局数据库上存储并且索引的文档和注释。

在另一个实施例中，自动突变基因提取程序110a、110b可以使用solr(即，开源企业搜索平台)索引，在注释存储数据库220中存储注释，其中文档ID是注释的特征。然后，用户可以通过查询用于该注释的solr索引、并且从注释存储索引220中检索相应的文档ID，识别具有特定注释的文档。例如，可以通过solr索引对突变基因注释以及基因和突变注释进行索引，以促进对这些注释的搜索和分析。在本实施例中，在沃森药物发现^TM(WDD)(例如，沃森药物发现^TM、沃森药物发现和所有基于沃森药物发现的商标和标志是国际商业机器公司和/或其分支机构的商标或注册商标)内，基因、突变和突变基因可以在注释存储数据库220内以类似的方式被索引，以支持对任何注释类型的搜索和分析。

在本实施例中，自动突变基因提取程序110a、110b可以以自动方式运行，而无需在自动突变基因提取和标准化程序过程200(即，流水线)期间进行干预(即，人为干预)。然而，在至少一个其他实施例中，可以通过前端来支持人工反馈(即，反馈或用户反馈)，其中使用图形用户界面(GUI)来报告注释错误或遗漏，并且所接收到的反馈可以在流水线的每次执行之间指导机器学习模型、字典、或与注释错误或遗漏相关联的相关技术或应用工具的更新或改进。替选地，在另一个实施例中，可能对于较小规模的实现方式，用户可以暂停并且中断流水线以改变或实现流水线的任何组件或阶段处的修改。

在另一个实施例中，自动突变基因提取程序110a、110b可以周期性地更新文档数据库202中的新的或修改的文档，并且流水线可以周期性地重新运行，其可以包括对其他组件的周期性更新并且将更新保存到文档数据库202和注释存储数据库220。更新可以进一步用来基于最新的训练数据和/或更新的文档来重新训练机器学习模型。

在没有自动突变基因提取程序110a、110b的情况下，对关于基因突变形式的文档证据感兴趣的认知搜索和分析系统的用户可能必须找到手动或半手动方式来实现所期望的结果，例如有意地对于特定基因执行单独搜索，然后手动包括基于文本的过滤器以聚焦结果(例如，使用描述特定突变的特定短语的共现或接近过滤器)，该过程可能不可扩展并且可能易于出错和遗漏。替选地，并且再次在没有自动突变基因提取程序110a、110b的情况下，可以通过访问手动整理的基因提及数据库来获得一些相关信息。然而，检索到的手动整理数据可能局限于文献数据的一小部分。

因此，计算机的功能可以通过自动突变基因提取程序110a、110b得到改进，因为自动突变基因提取程序110a、110b可以用来配置认知系统，例如WDD^TM，以通过“突变基因实体”的概念(即，需要多种自然语言处理方法的组合来实现的复杂的新实体类型)来理解并且向用户传递关于基因突变的信息。自动突变基因提取程序110a、110b不仅仅代表对计算机的现有能力和功能的渐进改进。

可以理解，图2仅提供了一个实施例的说明，而并不暗示关于可以如何实现不同实施例的任何限制。可以基于设计和实现要求对所描绘的实施例进行许多修改。

图3是根据本发明的说明性实施例的图1中描绘的计算机的内部组件和外部组件的框图900。应该理解的是，图3仅提供了一个实现方式的说明，而并未暗示关于可以实现不同实施例的环境的任何限制。可以基于设计和实现要求对所描绘的环境进行许多修改。

数据处理系统902、904代表能够执行机器可读程序指令的任何电子设备。数据处理系统902、904可以代表智能电话、计算机系统、PDA或其他电子设备。可由数据处理系统902、904代表的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户端、胖客户端、手持或膝上型设备、多处理器系统、基于微处理器的系统、网络PC、小型计算机系统、以及包括任何上述系统或设备的分布式云计算环境。

用户客户端计算机102和网络服务器112可以包括图3中所示的各组内部组件902a，b和外部组件904a，b。每组内部组件902a，b包括一个或多个总线912上的一个或多个处理器906、一个或多个计算机可读RAM 908、和一个或多个计算机可读ROM 910，以及一个或多个操作系统914和一个或多个计算机可读有形存储设备916。一个或多个操作系统914、客户端计算机102中的软件程序108和自动突变基因提取程序110a、以及网络服务器112中的自动突变基因提取程序110b可以存储在一个或多个计算机可读有形存储设备916上，以便由一个或多个处理器906经由一个或多个RAM 908(其通常包括高速缓冲存储器)来执行。在图3所示的实施例中，每个计算机可读有形存储设备916是内部硬盘驱动器的磁盘存储设备。替选地，每个计算机可读有形存储设备916是半导体存储设备，例如ROM 910、EPROM、闪存或可以存储计算机程序和数字信息的任何其他计算机可读有形存储设备。

每组内部组件902a，b还包括R/W驱动器或接口918，用于从/向一个或多个便携式计算机可读有形存储设备920(例如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备)读取/写入。诸如软件程序108和自动突变基因提取程序110a、110b之类的软件程序可以存储在相应的便携式计算机可读有形存储设备920中的一个或多个上，经由相应的R/W驱动器或接口918读取并且加载到相应的硬盘驱动器916中。

每组内部组件902a，b还可以包括网络适配器(或交换机端口卡)或接口922，例如TCP/IP适配器卡、无线Wi-Fi接口卡、或3G或4G无线接口卡、或其他有线或无线通信链路。客户端计算机102中的软件程序108和自动突变基因提取程序110a以及网络服务器计算机112中的自动突变基因提取程序110b可以经由网络(例如，因特网、局域网或其他广域网)和相应的网络适配器或接口922从外部计算机(例如，服务器)下载。从网络适配器(或交换机端口适配器)或接口922，客户端计算机102中的软件程序108和自动突变基因提取程序110a以及网络服务器计算机112中的自动突变基因提取程序110b被加载到相应的硬盘驱动器916中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

每组外部组件904a，b可以包括计算机显示监视器924、键盘926和计算机鼠标928。外部组件904a，b还可以包括触摸屏、虚拟键盘、触摸板、指点设备和其他人机接口设备。每组内部组件902a，b还包括与计算机显示监视器924、键盘926和计算机鼠标928相接口的设备驱动器930。设备驱动器930、R/W驱动器或接口918、和网络适配器或接口922包括硬件和软件(存储在存储设备916和/或ROM 910中)。

预先理解，尽管本公开包括关于云计算的详细描述，但是本文中所记载的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是服务递送的模型，用于实现对可以利用最少的管理工作或与服务提供商的交互来快速提供并且发布的可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便按需网络访问。该云模型可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助服务：云消费者可以根据需要自动单方面提供计算能力，例如服务器时间和网络存储，而无需与服务提供商进行人工交互。

广泛的网络访问：功能通过网络可获得，并且通过标准机制来访问，所述标准机制促进异构瘦客户端平台或胖客户端平台(例如，移动电话、笔记本电脑和PDA)的使用。

资源池：提供商的计算资源汇集在一起，使用多租户模型为多个消费者提供服务，根据需求动态分配和重新分配不同的物理和虚拟资源。存在位置独立感，因为消费者通常对所提供的资源的确切位置没有控制或了解，但是可能能够在更高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：功能可以快速且弹性地提供，在某些情况下可以自动地提供，以快速地向外扩展并且快速地发布以快速地向内扩展。对于消费者而言，可用于提供的功能通常似乎是无限的，并且可以在任何时间以任何数量购买。

测量服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账号)的某种抽象级别上利用计量功能来自动控制和优化资源使用。可以监视、控制和报告资源使用，从而为所使用的服务的提供商和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的功能是使用在云基础架构上运行的提供商的应用。可通过诸如web(网络)浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从各种客户端设备访问应用。消费者不管理或控制底层的云基础架构，包括网络、服务器、操作系统、存储或者甚至单独的应用功能，可能的例外是有限的特定于用户的应用配置设置。

平台即服务(PaaS)：提供给消费者的功能是将使用由提供商支持的编程语言和工具创建的消费者创建的或获取的应用部署到云基础架构上。消费者不管理或控制底层的云基础架构，包括网络、服务器、操作系统或存储，但可以控制已部署的应用以及可能的应用托管环境配置。

分析即服务(AaaS)：提供给消费者的功能是使用基于web或基于云的网络(即基础架构)来访问分析平台。分析平台可以包括对分析软件资源的访问，或者可以包括对相关数据库、语料库、服务器、操作系统或存储的访问。消费者不管理或控制底层的基于web或基于云的基础架构，包括数据库、语料库、服务器、操作系统或存储，但是可以控制已部署的应用以及可能的应用托管环境配置。

基础架构即服务(IaaS)：提供给消费者的功能是提供处理、存储、网络和其他基本计算资源，其中消费者能够部署和运行任意软件，其可以包括操作系统和应用。消费者不管理或控制底层的云基础架构，而是控制操作系统、存储、部署的应用，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础架构仅为组织运营。它可以由组织或第三方管理，并且可以存在于本地或远程。

社区云：云基础架构由多个组织共享，并且支持具有共同关注点(例如，任务、安全要求、策略和合规性考虑因素)的特定社区。它可由组织或第三方管理，并且可存在于本地或远程。

公共云：云基础架构可供一般公众或大型行业集团使用，并且由销售云服务的组织拥有。

混合云：云基础架构由两个或多个云(私有云、社区云或公共云)组成，这些云仍然是独特的实体，但是通过标准化或专有技术绑定在一起，从而实现数据和应用的可移植性(例如，用于云之间的负载平衡的云爆发(cloud bursting))。

云计算环境是面向服务的，其关注于无状态、低耦合、模块化和语义互操作性。云计算的核心是包含互连节点的网络的基础架构。

现在参考图4，描绘了说明性的云计算环境1000。如图所示，云计算环境1000包括一个或多个云计算节点100，由云消费者使用的本地计算设备(诸如，例如个人数字助理(PDA)或蜂窝电话1000A、台式计算机1000B、膝上型计算机1000C和/或汽车计算机系统1000N)可与所述一个或多个云计算节点100通信。节点100可以彼此通信。它们可以在一个或多个网络(例如如上所述的私有云、社区云、公共云或混合云、或其组合)中物理地或虚拟地分组(未示出)。这允许云计算环境1000提供基础架构、平台和/或软件作为云消费者不需要维护本地计算设备上的资源的服务。应该理解，图4中所示的计算设备1000A-N的类型仅仅旨在是说明性的，并且计算节点100和云计算环境1000可以通过任何类型的网络和/或网络可寻址连接(例如，使用web浏览器)与任何类型的计算机化设备通信。

现在参考图5，示出了由云计算环境1000提供的一组功能抽象层1100。应该预先理解，图5中所示的组件、层和功能仅仅旨在是说明性的，并且本发明的实施例不限于此。如图所示，提供了以下层和相应的功能：

硬件和软件层1102包括硬件和软件组件。硬件组件的示例包括：主机1104；基于RISC(精简指令集计算机)架构的服务器1106；服务器1108；刀片服务器1110；存储设备1112；以及网络和联网组件1114。在一些实施例中，软件组件包括网络应用服务器软件1116和数据库软件1118。

虚拟化层1120提供抽象层，从该抽象层可以提供以下虚拟实体的示例：虚拟服务器1122；虚拟存储装置1124；虚拟网络1126，包括虚拟专用网络；虚拟应用和操作系统1128；以及虚拟客户端1130。

在一个示例中，管理层1132可以提供下面描述的功能。资源供应1134提供用来在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价1136当资源在云计算环境中被利用时提供成本跟踪，以及用于消费这些资源的计费或发票。在一个示例中，这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证，以及对数据和其他资源的保护。用户门户1138为消费者和系统管理员提供对云计算环境的访问。服务级别管理1140提供云计算资源分配和管理，使得满足所需要的服务级别。服务水平协议(SLA)规划和实现1142提供云计算资源的预先布置和采购，其中根据SLA来预期对于这些云计算资源的未来需求。

工作负载层1144提供可以使用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：映射和导航1146；软件开发和生命周期管理1148；虚拟教室教育递送1150；数据分析处理1152；事务处理1154；以及自动突变基因提取1156。自动突变基因提取程序110a、110b提供了使突变基因提取自动化的方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的方法，所述方法包括：

提取描述第一实体和第二实体的所述至少一组非结构化文本；

识别在所提取的所述至少一组非结构化文本中描述的至少一个特定第一实体和至少一个特定第二实体；

将所识别的所述至少一个特定第一实体与对应的所识别的所述至少一个特定第二实体相关联；

通过合并与所关联的所述至少一个特定第一实体和对应的所关联的所述至少一个特定第二实体相关联的至少一组数据来创建所述至少一个突变基因实体；

识别所创建的所述至少一个突变基因实体与一个或多个第三实体之间的至少一个语义关系；以及

将所合并的与所关联的所述至少一个特定第一实体和所关联的所述至少一个特定第二实体相关联的所述至少一组数据、所识别的所述至少一个语义关系以及所创建的所述至少一个突变基因实体存储在注释存储数据库中。

2.如权利要求1所述的方法，还包括：

从文档数据库检索至少一个文档，其中所检索到的所述至少一个文档包括至少一组非结构化文本。

3.如权利要求2所述的方法，还包括：

解析所检索到的所述至少一个文档；以及

识别描述所述第一实体和所述第二实体的至少一组非结构化文本。

4.如权利要求1所述的方法，其中所述第一实体包括突变。

5.如权利要求1所述的方法，其中所述第二实体包括基因。

6.如权利要求1所述的方法，其中所述一个或多个第三实体包括以下中的至少一个：

(i)疾病；以及

(ii)药物。

7.如权利要求1所述的方法，其中识别所创建的所述至少一个突变基因实体与一个或多个第三实体之间的至少一个语义关系还包括：

分析所提取的所述至少一组非结构化文本和与所提取的所述至少一组非结构化文本相关联的至少一组周围非结构化文本；以及

确定所创建的所述至少一个突变基因实体与一个或多个第三实体之间的重要性的至少一个语义关系。

8.如权利要求1所述的方法，其中将所识别的所述至少一个特定第一实体与对应的所识别的至少一个特定第二实体相关联还包括：

从所提取的所述至少一个非结构化文本分析所识别的所述至少一个特定第一实体和所识别的所述至少一个特定第二实体；以及

确定所分析的所述至少一个特定第一实体和所分析的所述至少一个特定第二实体是相关的。

9.如权利要求1所述的方法，还包括：

生成与所创建的所述至少一个突变基因实体相关联的可搜索对象；以及

由用户在所述注释存储数据库中搜索与所创建的所述至少一个突变基因实体相关联的所生成的所述可搜索对象。

10.一种用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的计算机系统，包括：

一个或多个处理器，一个或多个计算机可读存储器，一个或多个计算机可读有形存储介质，以及存储在一个或多个有形存储介质中的至少一个上的程序指令，用于由所述一个或多个处理器中的至少一个经由一个或多个存储器中的至少一个执行，其中所述计算机系统能够执行根据权利要求1至9中任一项所述的方法。

11.一种装置，包括分别被配置为执行根据权利要求1至9中任一项所述的方法的每个步骤的模块。

12.一种用于从至少一组非结构化文本自动提取和标准化至少一个突变基因实体的计算机程序产品，包括：

一个或多个计算机可读存储介质和存储在一个或多个有形存储介质中的至少一个上的程序指令，所述程序指令能由处理器执行以使所述处理器执行根据权利要求1至9中任一项所述的方法。