CN112424873A

CN112424873A - 模拟患者以开发基于人工智能的医学方案

Info

Publication number: CN112424873A
Application number: CN201980047137.3A
Authority: CN
Inventors: L·博罗茨; P·杜福特; 谢祎婷; D·里士蒙
Original assignee: International Business Machines Corp
Current assignee: Maredif Usa
Priority date: 2018-07-18
Filing date: 2019-07-11
Publication date: 2021-02-26
Also published as: US20200027530A1; JP7446278B2; WO2020016103A1; JP2021530777A

Abstract

提供了用于实现用于模拟患者以开发基于人工智能的医学方案的认知人工智能训练机制的机制。认知人工智能训练机制干扰来自真实患者数据集的真实患者的基于非图像的信息，形成被干扰的基于非图像的信息。认知人工智能训练机制使用被干扰的基于非图像的信息和真实患者的非被干扰的医学图像来生成人工患者数据集中的人工患者数据。认知人工智能训练机制随后使用真实患者数据集中的真实患者数据和人工患者数据集中的人工患者数据来训练由认知数据处理系统利用的学习算法的操作。

Description

模拟患者以开发基于人工智能的医学方案

技术领域

本申请总体上涉及改进的数据处理装置和方法，并且更具体地涉及用于模拟患者以开发基于人工智能的医学方案的机制。

背景技术

决策支持系统存在于许多不同行业中，其中人类专家在检索和分析信息中需要帮助。将在整个本申请中使用的一个实例是在医学保健行业中采用的诊断系统。诊断系统可以被分类为使用结构化知识的系统、使用非结构化知识的系统以及使用临床决策公式、规则、树或算法的系统。最早的诊断系统使用结构化知识或经典的手工构建的知识库。在1970年代开发的Internist-I系统使用疾病-发现关系和疾病-疾病关系。同样在1970年代开发的用于诊断感染性疾病的MYCIN系统使用呈生产规则形式的结构化知识，陈述如果某些事实为真，则可以以给定的确定性因素推断某些其他事实。在1980年代开始开发的DXplain使用类似于Internist-I的结构化知识，但是添加发现的分层词典。

从1990年代开始开发的Iliad增加了更复杂的概率推理，其中每种疾病具有疾病的相关先验概率(在设计Iliad所针对的群体中)，以及一系列发现以及具有该发现(敏感性)的疾病患者的部分，和具有发现(1-特异性)的无疾病患者的部分。

在2000年，开始出现使用非结构化知识的诊断系统。这些系统使用知识的一些结构化，诸如例如实体，诸如文档中标记的发现和失调，以促进检索。例如，ISABEL使用自主信息检索软件和医学教科书的数据库来检索给定输入发现的适当诊断。Autonomy Auminence使用自主技术来检索给定发现的诊断并且通过身体系统组织诊断。First CONSULT允许人们通过主诉和年龄组来搜索医学书籍、期刊和指南的大集合，以获得可能的诊断。PEPIDDDX是基于PEPID的独立临床内容的诊断生成器。

已经针对许多医学失调开发了临床决策规则，并且已经开发了计算机系统以帮助执业医师和患者应用这些规则。急性心脏缺血时间不敏感预测仪器(ACI-TIPI)采用临床和ECG特征作为输入并且产生急性心脏缺血的概率作为输出，以辅助患有胸痛或暗示急性心脏缺血的其他症状的患者的分诊。ACI-TIPI被结合到许多商业心脏监测器/去颤器中。CaseWalker系统使用四项问卷来诊断严重抑郁障碍。PKC Advisor提供98个患者问题(例如腹痛和呕吐)的指导。

用于医学应用的基于机器学习的算法，尤其是深度学习算法，需要具有特定状况的大量患者的数据集以确保模型将维持其对未见患者群体的性能。对于监督学习，建立基础事实(例如，患者是否具有特定状况或疾病、病变是圆形还是具有不规则的形状等)也是必要的。对于无监督学习，虽然不需要基础事实，但是通常实现期望的性能所需的患者数量甚至更高。对于基于医学图像的解决方案，由不同供应商获取成像研究也是必要的。为了确保基于机器学习的解决方案的通用性，除了基础事实之外，训练数据集中的患者应当覆盖各种患者特征的可变性，例如种族、性别、年龄、病史、家族史、临床风险因素、共病、特定状况的不同水平等。

获得用于训练基于人工智能的系统的足够大的数据集是重要的问题。生成这样的大数据集往往是需要大量主题专家时间来执行的非常资源密集的过程。此外，这样的过程往往是受到手动过程的易出错性质的影响的手动过程。因此，说明性实施例提供用于模拟患者以开发基于人工智能的医学方案的机制。即，该机制扩展表示患者的数据集以用于训练对患者信息操作的人工智能系统的目的。该机制开始于具有可接受的可靠性的信息的患者数据集和真实患者集的医学图像。根据本发明，可接受的方式是使用将被识别为满足典型医院中的护理标准的技术、人员和程序来产生信息和医学图像。该系统在患者数据集中的真实患者的信息和医学图像中生成干扰以生成更大的患者数据集，该更大的患者数据集包括用于真实患者和源自真实患者的人工患者两者的信息和医学图像。为了生成与人工患者相关联的患者数据集的部分，该机制干扰真实患者信息以生成人工患者信息，干扰医学图像以生成与干扰的患者信息一致的人工医学图像，以及用人工患者信息和相关联的人工医学图像扩展患者数据集。包括真实患者和表示真实患者的人工患者两者的信息的较大患者数据集接着用以训练基于深度学习的算法的操作以比原本可能的操作更有效且准确地操作，且确保基于深度学习的算法针对未见患者群体按需求执行。

因此，本领域中需要解决上述问题。

发明内容

提供本发明内容以便以简化形式介绍将在本文中在具体实施方式中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键因素或必要特征，也不旨在用于限制所要求保护的主题的范围。

从第一方面来看，本发明提供了一种认知数据处理系统中的方法，所述认知数据处理系统包括至少一个处理器和至少一个存储器，所述至少一个存储器包括指令，所述指令由所述至少一个处理器执行以使所述至少一个处理器实现认知人工智能训练机制，所述认知人工智能训练机制用于模拟患者以开发基于人工智能的医学方案，其中所述认知人工智能训练机制用于：由所述认知人工智能训练机制的基于非图像的信息干扰引擎来干扰来自真实患者数据集的真实患者的基于非图像的信息，以形成被干扰的基于非图像的信息；由所述认知人工智能训练机制的人工患者组装引擎使用所述被干扰的基于非图像的信息和所述真实患者的非被干扰的医学图像生成人工患者数据集中的人工患者数据；由所述认知人工智能训练机制的训练引擎利用所述真实患者数据集中的真实患者数据和所述人工患者数据集中的人工患者数据，训练所述认知数据处理系统利用的学习算法的操作。

从另一方面来看，本发明提供了一种用于模拟患者以开发基于人工智能的医学方案的计算机程序产品，该计算机程序产品包括计算机可读存储媒质，该计算机可读存储媒质可由处理电路读取并且存储用于由处理电路执行以便执行用于执行本发明的步骤的方法的指令。

从另一方面来看，本发明提供了一种存储在计算机可读媒质上并且可加载到数字计算机的内部存储器中的计算机程序，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行本发明的步骤。

从另一方面来看，本发明提供了一种装置，包括：至少一个处理器；以及耦合到所述至少一个处理器的至少一个存储器，其中所述至少一个存储器包括指令，当由所述至少一个处理器执行时，所述指令使所述至少一个处理器实现认知人工智能训练机制，所述认知人工智能训练机制用于模拟患者以开发基于人工智能的医学方案，并且进一步使得所述至少一个处理器：由所述认知人工智能训练机制的基于非图像的信息干扰引擎干扰来自真实患者数据集的真实患者的基于非图像的信息，以形成被干扰的基于非图像的信息；由所述认知人工智能训练机制的人工患者组装引擎使用所述被干扰的基于非图像的信息和所述真实患者的非被干扰的医学图像生成人工患者数据集中的人工患者数据；以及由所述认知人工智能训练机制的训练引擎利用所述真实患者数据集中的真实患者数据和所述人工患者数据集中的人工患者数据，训练所述认知数据处理系统利用的学习算法的操作。

在一个说明性实施例中，提供了数据处理系统中的一种方法，该数据处理系统包括至少一个处理器和至少一个存储器，所述至少一个存储器包括指令，所述指令由所述至少一个处理器执行以使所述至少一个处理器实现认知人工智能训练机制，所述认知人工智能训练机制用于模拟患者以开发基于人工智能的医学方案。该方法包括由认知人工智能训练机制的基于非图像的信息干扰引擎干扰来自真实患者数据集的真实患者的基于非图像的信息，以形成被干扰的基于非图像的信息。该方法还包括由认知人工智能训练机制的人工患者组装引擎使用被干扰的基于非图像的信息和真实患者的非被干扰的医学图像来生成人工患者数据集中的人工患者数据。另外，该方法包括由认知人工智能训练机制的训练引擎使用真实患者数据集中的真实患者数据和人工患者数据集中的人工患者数据来训练由认知数据处理系统利用的学习算法的操作。

在其他说明性实施例中，提供了一种计算机程序产品，其包括具有计算机可读程序的计算机可用或可读介质。当在计算装置上执行时，计算机可读程序使计算装置执行以上关于方法说明性实施例概述的操作中的不同操作和操作的组合。

在又一说明性实施例中，提供一种系统/设备。该系统/装置可以包括一个或多个处理器和耦合到该一个或多个处理器的存储器。所述存储器可以包括指令，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行以上关于方法说明性实施例概述的操作中的不同操作和组合。

本发明的这些和其他特征和优点将在本发明的示例性实施例的以下详细描述中进行描述，或者鉴于本发明的示例性实施例的以下详细描述，本发明的这些和其他特征和优点对于本领域的普通技术人员将变得显而易见。

附图说明

在结合附图阅读时，通过参考说明性实施例的以下详细说明，将最好地理解本发明及其优选使用方式和其他目的和优点，在附图中：

图1描绘了计算机网络中的认知系统的一个说明性实施例的示意图；

图2是其中实现说明性实施例的各方面的示例数据处理系统的框图；

图3是示出根据一个说明性实施例的认知系统的元件的交互的示例图；以及

图4描绘了根据一个说明性实施例的在数据处理系统内的由认知系统在实现认知人工智能训练机制时执行的操作的示范性流程图，该认知人工智能训练机制模拟患者以开发基于人工智能的医学方案。

具体实施方式

在开始更详细地讨论说明性实施例的各个方面之前，首先应当认识到，贯穿本说明书，术语“机制”将用于指代本发明的执行不同操作、功能等的元件。如在此所使用的术语，“机制”可以是呈装置、程序或计算机程序产品形式的说明性实施例的功能或方面的实现方式。在程序的情况下，所述程序由一个或多个设备、装置、计算机、数据处理系统等来实现。在计算机程序产品的情况下，由在该计算机程序产品中或上实现的计算机代码或指令表示的逻辑由一个或多个硬件设备执行以便实现功能或执行与特定“机制”相关联的操作。因此，本文描述的机制可被实现为专用硬件、在通用硬件上执行的软件、存储在介质上的软件指令以使得这些指令可由专用或通用硬件容易地执行、用于执行这些功能的程序或方法、或以上任何项的组合。

本说明书和权利要求书可以利用关于说明性实施例的特定特征和元素的术语“一个”、“至少一个”和“一个或多个”。应了解，这些术语和短语意在陈述存在特定说明性实施例中存在的特定特征或元素中的至少一个，但也可存在不止一个。即，这些术语/短语不旨在将说明或权利要求限于单个特征/元素存在或要求多个这样的特征/元素存在。相反，这些术语/短语仅需要至少一个单个特征/元件，同时多个这样的特征/元件可能在说明书和权利要求的范围内。

此外，应当理解的是，如果在此关于描述本发明的实施例和特征使用术语“引擎”，则并不旨在限制用于实现和/或执行可归因于和/或由引擎执行的动作、步骤、过程等的任何特定实现方式。引擎可以是但不限于执行指定功能的软件、硬件和/或固件或其任何组合，该指定功能包括但不限于通用和/或专用处理器与加载或存储在机器可读存储器中并且由处理器执行的适当软件组合的任何使用。此外，除非以其他方式指定，否则与特定引擎相关联的任何名称是为了便于参考的目的而并非旨在限制于特定实现方式。另外，归于引擎的任何功能可以由多个引擎同等地执行、结合到相同或不同类型的另一个引擎中和/或与之组合、或者分布在各种配置的一个或多个引擎上。

此外，应当理解，以下描述使用说明性实施例的不同元件的多个不同示例，以进一步说明说明性实施例的示例实现方式，并帮助理解说明性实施例的机制。这些实例旨在是非限制性的并且不是实现说明性实施例的机制的不同可能性的穷举。基于本说明书，本领域普通技术人员将清楚的是，在不脱离本发明的范围的情况下，存在用于除在此提供的示例之外或替代在此提供的示例可以利用的这些不同元件的许多其他替代性实现方式。

如上所述，本发明提供用于模拟患者以开发基于人工智能的医学方案的机制。说明性实施例可以在许多不同类型的数据处理环境中使用。为了提供用于描述说明性实施例的特定元素和功能的上下文，在下文中提供了图1-3作为可以在其中实现说明性实施例的各方面的示例环境。应了解，图1-3仅为示例，且无意声称或暗示关于其中可实施本发明的方面或实施例的环境的任何限制。在不脱离本发明的范围的情况下，可以对所描绘的环境做出许多修改。

图1-3针对描述示例认知系统，该示例认知系统用于基于真实患者信息和医学图像来生成人工患者信息和医学图像，以用于训练基于深度学习的算法的操作以比原本可能的更高效和更准确地操作，并且确保基于深度学习的算法针对未见患者群体按照需求执行，其实现了其中实现示例性实施例的机制的请求处理流水线、请求处理方法、和请求处理计算机程序产品。这些请求可作为结构或非结构化请求消息、自然语言问题或用于请求由认知系统执行的操作的任何其他合适的格式来提供。如下文更详细描述的，在本发明的认知系统中实现的具体应用是用于模拟患者开发基于人工智能的医学方案的应用。

应当理解，尽管认知系统在下文的示例中被示为具有单个请求处理流水线，但实际上可以具有多个请求处理流水线。取决于所需要的实施例，每一请求处理流水线可单独地经训练和/或经配置以处理与不同领域相关联的请求或经配置以对输入请求执行相同或不同分析。例如，在一些情况下，可以训练第一请求处理流水线以对针对生成检测到的肺结节的恶性肿瘤的概率的输入请求进行操作。在其他情况下，例如，请求处理流水线可经配置以提供不同类型的认知功能或支持不同类型的应用，例如一个请求处理流水线用于产生乳房组织内的恶性肿瘤的概率等。

此外，每个请求处理流水线可具有其自己的相关联语料库或它们摄取并在其上操作的语料库，例如在以上示例中用于肺癌领域相关文档的一个语料库和用于乳腺癌领域相关文档的另一个语料库。在一些情况下，请求处理流水线可各自对输入问题的相同领域操作，但可具有不同的配置，例如不同的注释者或不同的训练的注释者，使得产生不同的分析和潜在响应。认知系统可提供用于将请求路由到适当请求处理流水线的额外逻辑，例如基于输入请求的所确定的领域，组合和评估由多个请求处理流水线执行的处理产生的最终结果，和促进多个请求处理流水线的利用的其他控制和交互逻辑。

应了解，虽然将在实施对请求操作的一个或多个请求处理流水线的认知系统的上下文中描述本发明，但说明性实施例不限于此。相反，说明性实施例的机制可以对提出为“问题”或格式化为对认知系统的请求进行操作，以使用相关联的语料库(corpus)或语料库(corpora)和用于配置认知系统的特定配置信息对指定的输入数据集执行认知操作。

如下文将更详细论述，说明性实施例可集成于、扩充和扩展关于模拟患者以开发基于人工智能的医学解决方案的医学认知系统的这些流水线、或请求处理流水线、机制的功能性。例如，识别关于患者特征(种族、年龄、肺气肿水平、其他状况等)足够多样化的初始患者数据集以表示可以用于生成大得多的数据集的种子数据集。对于这些多样化特征中的每一个，认知系统不仅干扰多样化特征，而且干扰与初始患者数据集关联的一个或多个医学图像以生成用于人工生成的患者的新医学图像，但与对人工生成的患者的其他多样化特征做出的干扰相关，即，干扰不是随机的，而是产生一致的干扰。例如，医学图像可能被干扰，但是这些干扰可能聚焦在与由其他干扰做出的肺气肿水平的变化一致的区域上，以生成该人工患者。利用人工患者的干扰的患者特征和医学图像以及真实患者的特征和医学图像，认知系统训练基于深度学习的算法的操作，以比其他可能的算法更有效和准确地操作，并且确保基于深度学习的算法对于未见患者群体按需求执行。

应当理解，图1-3中描述的机制仅是示例，并且不旨在说明或暗示关于实现说明性实施例的认知系统机制的类型的任何限制。在不脱离本发明的范围的情况下，可在本发明的各种实施例中实施对图1-3中所示的示例认知系统的许多修改。

作为概述，认知系统是专门的计算机系统或一组计算机系统，配置有硬件和/或软件逻辑(结合软件在其上执行的硬件逻辑)以模拟人类感知功能。这些认知系统将类人特征应用于传达和操纵想法，当与数字计算的固有强度组合时，可以大规模地解决具有高准确度和适应性的问题。认知系统执行一个或多个计算机实现的认知操作，其近似于人类想法过程，并使人和机器能够以更自然的方式交互以扩展和放大人类专业知识和认知。认知系统包括人工智能逻辑(诸如例如基于自然语言处理(NLP)的逻辑)和机器学习逻辑，其可被提供为专用硬件、在硬件上执行的软件、或专用硬件和在硬件上执行的软件的任何组合。认知系统的逻辑实现认知操作，包括但不限于，问答、语料库中的内容的不同部分内的相关概念的标识、智能搜索算法，例如互联网网页搜索，例如医学诊断和治疗推荐，以及其他类型的推荐生成，例如，特定用户感兴趣的物品、潜在的新联系人推荐等。

Watson^TM是一个这样的认知系统的示例，该认知系统可以处理人类可读语言并且以比人类快得多的速度并且在更大规模上以类人高精确度标识文本段落之间的推断。IBM和IBM Watson是国际商业机器公司的商标，在全世界许多管辖区域注册。通常，此类认知系统能够执行以下功能：

·导航人类语言和理解的复杂性，

·提取并处理大量结构化和非结构化数据，

·生成并评估假设，

·对仅基于相关证据的响应进行加权和评估，

·提供情形特定的建议、洞察和指导，

·通过机器学习过程改进每次迭代和交互的知识和学习，

·在影响点使能决策(上下文指导)，

·与任务成比例缩放，

·扩展和放大人的专业知识和认知，

·从自然语言识别共振的(resonating)类人属性和特性，

·从自然语言导出不同语言专有的或不可知的属性，

·从数据点(图像、文本、语音)的高度相关重新收集(记忆和回忆)，

·基于经验模拟人类认知的具有情境感知的预测和感觉，或

·基于自然语言和特定证据的回答问题。

在一个方面，认知系统提供用于使用请求处理流水线和/或处理请求(其可以或可以不被提出为自然语言请求)来响应向这些认知系统提出的请求的机制。请求处理流水线是在数据处理硬件上执行的人工智能应用，其响应于与以自然语言呈现的给定主题领域有关的请求。请求处理流水线接收来自不同源的输入，包括通过网络的输入、电子文档或其他数据的语料库、来自内容创建者的数据、来自一个或多个内容用户的信息、以及来自其他可能的输入源的其他这样的输入。数据存储设备存储数据语料库。内容创建者在文档中创建内容以用作具有请求处理流水线的数据语料库的一部分。文档可包括用于请求处理系统中的任何文件、文本、文章或数据源。例如，请求处理流水线访问关于领域或主题区域的知识体，例如，金融领域、医学领域、法律领域等，其中知识体(知识库)能够以各种配置来组织，例如，特定于领域的信息的结构化储存库，诸如本体，或与领域相关的非结构化数据，或关于该领域的自然语言文档的集合。

内容用户向实现请求处理流水线的认知系统输入请求。然后，请求处理流水线通过评估文档、文档部分、语料库中的数据部分等来使用数据语料库中的内容来响应请求。当过程针对语义内容评估文档的给定部分时，该过程可以使用各种约定来从请求处理流水线查询这样的文档，例如，将该查询作为合式(well-formed)请求发送到请求处理流水线，接着由请求处理流水线解释该合式请求，且提供包含对该请求的一个或多个响应的响应。语义内容是基于诸如单词、短语、标志(sign)和符号(symbol)之类的符号与它们所代表的内容、它们的外延或内涵之间的关系的内容。换言之，语义内容是诸如通过使用自然语言处理来解释表达的内容。

如下文将更详细描述的，请求处理流水线接收请求，解析该请求以提取该请求的主要特征，使用所提取的特征来制定查询，然后将那些查询应用于数据语料库。基于对数据语料库的查询的应用，请求处理流水线通过跨数据语料库查看具有某些可能包含对请求的有价值响应的数据语料库的部分来生成对请求的响应集。然后，请求处理流水线使用各种推理算法对请求的语言和在应用查询期间发现的数据语料库的每个部分中使用的语言执行深度分析。可应用数百或甚至数千推理算法，其中每一推理算法执行不同分析(例如，比较、自然语言分析、词法分析等)且产生分数。例如，一些推理算法可以查看请求的语言内的词语和同义词与数据语料库的所找到的部分的匹配。其他推理算法可以查看语言中的时间或空间特征，而其他推理算法可以评估数据语料库的该部分的源并且评估其真实性。

如上所述，请求处理流水线机制通过访问来自数据语料库或信息(也称为内容语料库)的信息、分析该信息、然后基于对该数据的分析生成回答结果来操作。从数据语料库访问信息通常包括：回答关于结构化记录集合中的内容的请求的数据库查询，以及响应于针对非结构化数据(文本、标记语言等)集合的查询而递送文档链接集合的搜索。常规请求处理系统能够基于数据语料库和输入请求生成答案，验证对数据语料库的请求集合的答案，使用数据语料库校正数字文本中的错误，并且从潜在答案池中选择对请求的响应，即候选答案。

图1描绘实现计算机网络102中的请求处理流水线108的认知系统100的一个说明性实施例的示意图，在一些实施例中，所述请求处理流水线108可为请求处理流水线。为了本说明书的目的，将假设请求处理流水线108对以请求的形式的结构化和/或非结构化请求进行操作。在美国专利申请公开号2011/0125734nb中描述了可以结合本文中所描述的原理使用的问题处理操作的一个示例。在连接到计算机网络102的一个或多个计算设备104A-C(包括一个或多个处理器和一个或多个存储器，以及潜在地包括本领域已知的任何其他计算设备元件，包括总线、存储设备、通信接口等)上实现认知系统100。仅出于说明的目的，图1描绘了仅在计算设备104A上实现的认知系统100，但如上所述，认知系统100可分布在多个计算设备上，诸如多个计算设备104A-C。网络102包括可作为服务器计算设备操作的多个计算设备104A-C，以及可操作为客户端计算设备的110和112，其经由一个或多个有线和/或无线数据通信链路彼此通信和与其他设备或组件通信，其中，每个通信链路包括电线、路由器、交换机、发送器、接收器等中的一个或多个。在一些说明性实施例中，认知系统100和网络102允许一个或多个认知系统用户经由其相应的计算设备110和112请求处理功能。在其他实施例中，认知系统100和网络102可提供其他类型的认知操作，包括但不限于请求处理和认知响应生成，其可取决于所需实现而采取许多不同的形式，例如，认知信息检索、用户的训练/指令、数据的认知评估等。认知系统100的其他实施例可与除了本文所描述的组件、系统、子系统和/或设备不同的组件、系统、子系统和/或设备一起使用。

认知系统100经配置以实施从不同源接收输入的请求处理流水线108。请求可以对信息的自然语言请求、对认知操作的执行的自然语言请求等的形式提出。例如，认知系统100从网络102、电子文档的语料库(corpus)或语料库(corpora)132、134和136、认知系统用户、和/或其他数据和其他可能的输入源接收输入。在一个实施例中，认知系统100的一些或所有输入通过网络102路由。网络102上的不同计算设备104A-D包括用于内容创建者和认知系统用户的接入点。计算设备104A-C中的一些包括用于存储数据的语料库132、134和136的数据库的设备(在图1中仅出于说明性目的示出为单独的实体)。还可在一个或多个其他网络附接的存储设备上、在一个或多个数据库中、或在图1中未明确示出的其他计算设备中提供数据的语料库132、134和136的部分。在不同实施例中，网络102包括本地网络连接和远程连接，使得认知系统100可在任何大小的环境中操作，包括本地和全球环境，例如互联网。

在一个实施例中，内容创建者在数据的语料库132、134和136的文档中创建内容以用作认知系统100的数据语料库的一部分。文档包括用于认知系统100的任何文件、文本、文章或数据源。认知系统用户经由到网络102的网络连接或互联网连接来访问认知系统100，并且基于数据的语料库132、134和136中的内容响应/处理对认知系统的请求。在一个实施例中，使用自然语言来形成请求。认知系统100通过流水线108解析和解释请求，并向认知系统用户(例如，认知系统用户110)提供响应，该响应包含对提出请求的一个或多个响应、对请求的响应、处理请求的结果等。在一些实施例中，认知系统100在候选响应的排序列表中向用户提供响应，而在其他说明性实施例中，认知系统100提供单个最终响应或最终响应和其他候选响应的排序列表的组合。

认知系统100实现流水线108，其包括基于从数据的语料库132、134和136获得的信息来处理请求的多个阶段。流水线108基于请求的处理和数据的语料库132、134和136来生成请求的响应。以下将参见图3更详细地描述流水线108。

在一些说明性实施例中，认知系统100可为可从纽约州阿蒙克的国际商业机器公司获得的IBM Watson^TM认知系统，其用下文描述的说明性实施例的机制来扩充。如先前概述的，IBM Watson^TM认知系统的流水线接收请求，然后IBM Watson^TM认知系统的流水线解析该请求以提取该请求的主要特征，该请求的主要特征进而用于制定应用于数据的语料库132、134和136的查询。

然后，针对统计模型对从不同推理算法获得的分数进行加权，该统计模型总结了IBM Watson^TM认知系统100的流水线108(在该示例中)关于潜在的候选响应被请求推断的证据所具有的置信度水平。对于每个候选响应重复该过程，以生成候选响应的排序列表，该候选响应随后可被呈现给提交该请求的用户，例如客户端计算设备110的用户，或从该用户选择最终响应并呈现给用户。关于IBM Watson^TM认知系统100的流水线108的更多信息可例如从IBM公司网站、IBM红皮书等获得。例如，可以在Yuan等，“沃森和医学保健(Watson andHealthcare)”，IBM研发工作，2011和“认知系统的时代：对IBM Watson的内部观察和它如何工作(The Era of Cognitive Systems：An Inside Look at IBM Watson and How itWorks)”，Rob High，IBM红皮书，2012，中找到关于IBM Watson^TM认知系统的流水线的信息。

如上所述，虽然来自客户端设备的对认知系统100的输入可以以自然语言问题的形式提出，但是说明性实施例不限于此。相反，输入问题实际上可被格式化或结构化为可使用结构化和/或非结构化输入分析来解析和分析的任何合适类型的请求，包括但不限于IBMWatson^TM等认知系统的自然语言解析和分析机制，确定进行认知分析的依据，提供认知分析的结果。在基于医疗保健的认知系统的情况下，该分析可涉及处理患者医学记录、来自一个或多个语料库的医学指导文档等，以提供面向医疗保健的认知系统结果。

在本发明的上下文中，认知系统100可提供用于模拟患者开发基于人工智能的医学方案的认知功能。例如，取决于特定实现，基于知识库扩展的操作可包括人工智能系统训练、患者诊断、医疗推荐系统、医学实践管理系统、个人患者护理计划生成和监测，用于各种目的的患者电子医学记录(EMR)评估，例如用于识别适合于医学试验或特定类型的医疗的患者，等等。因此，认知系统100可以是医疗认知系统100，其在医学或医疗类型域中操作，并且可以经由作为结构化或非结构化请求、自然语言输入问题等的请求处理流水线108输入来处理对于这样的医学操作的请求。在一个说明性实施例中，认知系统100是认知人工智能训练系统，其模拟患者来训练基于深度学习的算法的操作，以比其他可能的更有效和准确地操作，并且确保基于深度学习的算法针对未见患者群体按需求执行。

如图1所示，根据说明性实施例的机制，认知系统100被进一步增强，包括以专用硬件、在硬件上执行的软件、或专用硬件和在硬件上执行的软件的任何组合实现的逻辑，用于实现认知人工智能训练机制120，其在与真实患者相关联的小患者数据集中生成干扰以生成表示真实患者的人工患者数据并增加患者数据集。认知人工智能训练机制120从整体观点考虑/表示患者，包括基于非图像的信息，诸如人口统计学、家庭和医疗历史、实验室结果、放射学和其他报告等，以及可能表现特定医学疾病的医学图像。因此，认知人工智能训练机制120干扰真实患者的基于非图像的信息和医学图像，以便生成人工患者信息和医学图像，以便扩展患者数据集。然后，利用与真实患者相关联的基于非图像的信息和医学图像以及与人工患者相关联的被干扰的基于非图像的信息和医学图像两者来训练基于深度学习的算法的操作，以比其他情况下可能的操作更高效且准确地操作，并且确保基于深度学习的算法针对未见患者群体按照需求执行。因此，如图1所示，认知人工智能训练机制120包括基于非图像的信息干扰引擎122、医学图像干扰引擎124、人工患者组装引擎126和训练引擎128。

认知人工智能训练机制120基于对待回答的临床问题130的预期而操作，诸如未来医学专业人员提出关于特定患者是否可能具有特定医学疾病(诸如肺癌、乳腺癌、充血性心力衰竭、息肉等)的查询。以下利用肺癌作为认知人工智能训练机制120的操作的一个实例，但说明性实施例不仅限于这种医学疾病。如前所述，认知系统100可以是人工智能系统，其可能没有足够的患者数据来准确地提供示例性肺癌的阳性或阴性指示。因此，在处理待回答的临床问题130之前，基于非图像的信息干扰引擎122识别模拟人工患者132所需的需求以及与已经针对肺癌进行测试并且已经具有阳性或阴性肺癌诊断的真实患者134相关联的患者数据集。即，医学专业人士正在寻求答案的相同临床问题用于训练认知系统100，并且一旦训练，认知系统100解答“未来”未见患者的相同临床问题。

在一个实施例中，利用模拟人工患者132所需的需求和来自与真实患者134相关联的患者数据集的与真实患者相关联的基于非图像的信息，基于非图像的信息干扰引擎122干扰基于非图像的信息，以便为人工患者生成基于非图像的信息。例如，基于非图像的信息干扰引擎122对结构化和/或非结构化的基于非图像的信息做出一个或多个改变，如吸烟史、其他疾病、家族史、年龄、体重指数、医疗历史、实验室结果，放射学和其他报告等，以便为一个或多个人工患者生成基于干扰的非图像的信息。对于其基于非图像的信息已被基于非图像的信息干扰引擎122干扰的每个真实患者，医学图像干扰引擎124随后利用来自与真实患者134相关联的患者数据集的一个或多个相关联的医学图像和相关联的被干扰的基于非图像的信息来干扰该一个或多个相关联的医学图像并生成一个或多个被干扰的医学图像。

在另一实施例中，医学图像干扰引擎124干扰来自与真实患者134相关联的患者数据集的一个或多个医学图像，以在基于非图像的信息干扰引擎122干扰来自与真实患者134相关联的患者数据集的与真实患者相关联的基于非图像的信息以为人工患者生成基于非图像的信息之前生成一个或多个被干扰的医学图像。在又一实施例中，在基于非图像的信息干扰引擎122干扰与真实患者134相关联的患者数据集的真实患者相关联的基于非图像的信息基本相同的时间，医学图像干扰引擎124干扰来自与真实患者134相关联的患者数据集的真实患者相关联的一个或多个医学图像，以分别生成人工患者的一个或多个干扰的医学图像和相关联的基于非图像的信息。在又一实施例中，基于非图像的信息干扰引擎122干扰基于非图像的信息，但利用来自真实患者的实际医学图像以便为人工患者生成基于非图像的信息。即，例如，真实患者的电子医疗记录表明没有肺癌家族史，但基于非图像的信息干扰引擎122使用真实患者的电子医疗记录来生成人工患者，使得患者的父亲患有与真实患者的非干扰医学图像相关联的肺癌。

由基于非图像的信息干扰引擎122和医学图像干扰引擎124执行的干扰可对阳性诊断的患者和阴性诊断的患者的患者数据进行操作。即，医学图像干扰引擎124可从阳性患者的医学图像复制恶性肺结节或块，并将它们粘贴到来自阴性患者的图像中，以使得图像看起来好像是来自阳性患者。可以想到，这还可以包括基于非图像的信息干扰引擎122将伴随的放射学报告中的文本从它表明没有发现结节的状态改变为其注意到被粘贴的结节的存在和位置的新状态。对于乳腺癌的乳腺病变、或肝癌或结肠癌，可以使用不同的成像模式，如计算机化轴向断层摄影(CT)扫描、磁共振成像(MRI)扫描、超声(U/S)扫描、正电子发射断层摄影(PET)扫描、X射线扫描等来进行相同的操作。可以对阳性患者执行反向操作，其中从医学图像中去除肺结节或大量肺结节，并且伴随的放射学报告中的文本从其表明存在发现结节的状态改变到其指出不存在任何结节的新状态。

因此，基于非图像的信息干扰引擎122和医学图像干扰引擎124的目标是获得真实患者的基于非图像的信息和医学图像，以生成具有基于非图像的信息和医学图像的新的人工患者，这些人工患者足够逼真以用于后续机器学习努力来训练基于深度学习的算法的操作以在两种患者之间进行区分。因此，对于特定的人工患者，人工患者组装引擎126利用由基于非图像的信息干扰引擎122干扰的被干扰的基于非图像的信息和由医学图像干扰引擎124干扰的相关联的被干扰的一个或多个医学图像来组装与人工患者136相关联的患者数据集。

因此，人工患者组装引擎126生成人工患者的人工患者数据136，对于每个人工患者，人工患者数据136表示被阳性诊断为肺癌或被阴性诊断为肺癌。利用与阳性诊断和阴性诊断的人工患者136相关联的患者数据集、以及与阳性诊断和阴性诊断的真实患者134相关联的患者数据集，训练引擎128训练由认知系统100执行的基于深度学习的算法的操作，以在两种患者之间进行区分，可选地，在真实患者与人工患者之间。基于深度学习的算法仅是机器学习的一个示例。与人工患者136相关联的患者数据集和与真实患者134相关联的患者数据集也可被用于训练任何基于机器学习的系统，例如，不同的分类器，诸如神经网络、支持向量机、决策树、分类器集合(例如，随机森林)等，而不背离本发明的范围。训练引擎128取得来自与人工患者136相关联的患者数据集的图像之一或者来自与真实患者134相关联的患者数据集的图像之一，并尝试预测该图像是：1.真实的阳性非图像信息和医学图像；2.真实的阴性非图像信息和医学图像；3.人工的阳性非图像信息和医学图像；或4.人工的阴性非图像信息和医学图像。

利用专门化的对手损失函数，训练引擎128量化实现该目标的程度，并驱动对基于非图像的信息干扰引擎122、医学图像干扰引擎124和人工患者组装引擎126的反向传播更新。即，在一个实施例中，训练引擎128调整与由基于非图像的信息干扰引擎122和医学图像干扰引擎124做出的基于非图像的信息改变和的医学图像改变相关联的权重，使得未来的变化将提供更准确的基于非图像的信息变化和医学图像变化，从而提高基于深度学习的算法的操作的效率和准确性。因此，训练引擎128反向传播调整权重，使得基于非图像的信息干扰引擎122和医学图像干扰引擎124产生更可能在基于深度学习的算法的训练中使用的基于非图像的信息和医学图像。说明性实施例认识到，训练引擎128可量化实现目标的程度，并以其他方式驱动对基于非图像的信息干扰引擎122、医学图像干扰引擎124和人工患者组装引擎126的反向传播更新，而不脱离本发明的范围。

如上所述，说明性实施例的机制植根于计算机技术领域并且使用存在于这种计算或数据处理系统中的逻辑来实现。这些计算或数据处理系统通过硬件、软件、或硬件和软件的组合被具体配置以实现上述各种操作。如此，图2被提供作为其中可以实现本发明的各方面的一种类型的数据处理系统的示例。许多其他类型的数据处理系统同样可以被配置为具体实现说明性实施例的机制。

图2是其中实现说明性实施例的各方面的示例数据处理系统的框图。数据处理系统200是诸如图1中的服务器104或客户端110的计算机的示例，其中包括了实现本发明的说明性实施例的处理的计算机可用代码或指令。在一个说明性实施例中，图2表示服务器计算装置，例如服务器104，其实现认知系统100和系统流水线108，其被扩充以包括下文描述的说明性实施例的附加机制。

在所描绘的示例中，数据处理系统200采用包括北桥和存储器控制器集线器(NB/MCH)202和南桥和输入/输出(I/O)控制器集线器(SB/ICH)204的集线器架构。处理单元206、主存储器208和图形处理器210连接到NB/MCH202。图形处理器210通过加速图形端口(AGP)连接到NB/MCH202。

在所描绘的示例中，局域网(LAN)适配器212连接到SB/ICH204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动器(HDD)226、CD-ROM驱动器230、通用串行总线(USB)端口和其他通信端口232、以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH204。PCI/PCIe设备可包括例如以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器，而PCIe不使用。ROM224可以是例如闪存基本输入/输出系统(BIOS)。

HDD226和CD-ROM驱动器230通过总线240连接到SB/ICH204。HDD226和CD-ROM驱动器230可以使用例如集成驱动电子设备(IDE)或串行高级技术附件(SATA)接口。超级I/O(SIO)设备236连接到SB/ICH204。

操作系统在处理单元206上运行。操作系统协调和提供对图2中的数据处理系统200内的不同组件的控制。作为客户端，操作系统是可商购的操作系统，诸如

面向对象的编程系统(例如Java^TM编程系统)可结合操作系统运行，且提供从在数据处理系统200上执行的Java^TM程序或应用程序对操作系统的调用。

作为服务器，数据处理系统200可以是例如运行高级交互执行

操作系统或

操作系统的

eServer^TMSystem

计算机系统。数据处理系统200可以是在处理单元206中包括多个处理器的对称多处理器(SMP)系统。或者，可以采用单个处理器系统。

操作系统、面向对象的编程系统和应用或程序的指令位于诸如HDD226的存储设备上，并被加载到主存储器208中以供处理单元206执行。由处理单元206使用计算机可用程序代码来执行用于本发明的说明性实施例的处理，该计算机可用程序代码位于例如主存储器208、ROM 224的存储器中，或者例如位于一个或多个外围设备226和230中。

总线系统(诸如图2所示的总线238或总线240)包括一个或多个总线。当然，总线系统可以使用任何类型的通信结构或架构来实现，该通信结构或架构提供附连到该结构或架构的不同组件或设备之间的数据传送。通信单元(诸如图2的调制解调器222或网络适配器212)包括用于发送和接收数据的一个或多个设备。存储器可以是例如主存储器208、ROM224或例如在图2中的NB/MCH 202中找到的高速缓存。

所属领域的技术人员将了解，图1和2中所描绘的硬件可取决于实施例而变化。除了图1和2中所描绘的硬件之外或代替图1和2中所描绘的硬件，可以使用其他内部硬件或外围设备，诸如闪存、等效非易失性存储器、或光盘驱动器等。此外，在不脱离本发明的范围的情况下，说明性实施例的处理可以应用于除了先前提到的SMP系统之外的多处理器数据处理系统。

此外，数据处理系统200可以采取多个不同数据处理系统中的任何一个的形式，这些数据处理系统包括客户端计算设备、服务器计算设备、平板计算机、膝上型计算机、电话或其他通信设备、个人数字助理(PDA)等。在一些说明性实例中，数据处理系统200可为便携式计算装置，其配置有闪存存储器以提供用于存储例如操作系统文件和/或用户产生的数据的非易失性存储器。基本上，数据处理系统200可以是没有架构限制的任何已知或以后开发的数据处理系统。

图3是示出根据一个说明性实施例的认知系统的元件的交互的示例图。图3的示例图描绘了认知系统300的实现，其可以是认知系统，诸如图1中描述的认知系统100，被配置为通过训练由认知系统利用的基于深度学习的算法的操作来实现用于开发基于人工智能的医学方案的患者的模拟，例如认知系统100，以比其他可能的更有效和更准确地操作，并且确保基于深度学习的算法针对未见患者群体按照需求执行。同样，基于深度学习的算法仅是机器学习的一个示例。与人工患者136相关联的患者数据集和与真实患者134相关联的患者数据集也可被用于训练任何基于机器学习的系统，例如，不同的分类器，诸如神经网络、支持向量机、决策树、分类器集合(例如，随机森林)等，而不背离本发明的范围。然而，应当理解，这仅是示例实现，并且可在认知系统100的其他实施例中实现用于开发基于人工智能的医学方案的患者的其他模拟，而不背离本发明的范围。

如图3中所示，认知系统300通过网络302从一个或多个计算设备304接收以待回答的临床问题330的方式的输入数据。根据本文的说明性实施例，增强认知系统300以包括认知人工智能训练机制320。认知人工智能训练机制320包括基于非图像的信息干扰引擎322、医学图像干扰引擎324、人工患者组装引擎326和训练引擎328，其以与前面关于图1中的对应元件122-128描述的类似的方式操作。

认知人工智能训练机制320基于对待回答的临床问题330的预期而操作，例如提出关于特定患者是否可能具有特定医学疾病(例如肺癌、乳腺癌、充血性心力衰竭、息肉等)的询问的未来医学专业人员。以下利用肺癌作为认知人工智能训练机制320的操作的一个实例，但说明性实施例不仅限于此医学疾病。如前所述，认知系统300可以是人工智能系统，其可能没有足够的患者数据来准确地提供肺癌的阳性或阴性指示。因此，在处理待回答的临床问题330之前，基于非图像的信息干扰引擎322识别模拟人工患者332以及与真实患者334相关联的患者数据集所需的需求，该真实患者334已经被针对肺癌测试并且已经具有阳性或阴性肺癌诊断。即，医学专业人士正在寻求答案的相同临床问题用于训练认知系统100，并且一旦训练，认知系统100解答“未来”未见患者的相同临床问题。

在一个实施例中，利用模拟人工患者332所需的需求和来自与真实患者334相关联的患者数据集的与真实患者相关联的基于非图像的信息，基于非图像的信息干扰引擎322干扰基于非图像的信息，以便为人工患者生成基于非图像的信息。例如，基于非图像的信息干扰引擎322对结构化和/或非结构化基于非图像的信息做出一个或多个改变，如吸烟史、其他疾病、家族史、年龄、体重指数、医疗史、实验室结果，放射学和其他报告等，以便为一个或多个人工患者生成基于干扰的非图像的信息。对于其基于非图像的信息已经被基于非图像的信息干扰引擎322干扰的每个真实患者，医学图像干扰引擎324随后利用来自与真实患者334相关联的患者数据集的一个或多个相关联的医学图像和相关联的被干扰的基于非图像的信息来干扰一个或多个相关联的医学图像并生成一个或多个被干扰的医学图像。

在另一实施例中，在基于非图像的信息干扰引擎322对来自与真实患者334相关联的患者数据集的与真实患者相关联的基于非图像的信息进行干扰以生成人工患者的基于非图像的信息之前，医学图像干扰引擎324对来自与真实患者334相关联的患者数据集的一个或多个医学图像进行干扰以生成一个或多个被干扰的医学图像。在又一实施例中，在与基于非图像的信息干扰引擎322干扰来自与真实患者334相关联的患者数据集的真实患者相关联的基于非图像的信息基本相同的时间，医学图像干扰引擎324干扰来自与真实患者334相关联的患者数据集的一个或多个医学图像，以分别生成用于人工患者的一个或多个被干扰的医学图像和相关联的基于非图像的信息。在又一实施例中，基于非图像的信息干扰引擎122干扰基于非图像的信息，但利用来自真实患者的实际医学图像以便为人工患者生成基于非图像的信息。即，例如，真实患者的电子医疗记录表明没有肺癌家族史，但基于非图像的信息干扰引擎122使用真实患者的电子医疗记录来生成人工患者，使得患者的父亲具有与真实患者的非干扰医学图像相关联的肺癌。

由医学图像干扰引擎324执行的干扰可对阳性诊断的患者和阴性诊断的患者的患者数据进行操作。即，基于非图像的信息干扰引擎322和医学图像干扰引擎324可从阳性患者的医学图像复制恶性肺结节或块，并将它们粘贴到来自阴性患者的图像中，以使得图像看起来好像是来自阳性患者。可以想到，这还可以包括基于非图像的信息引擎322，伴随的放射学报告中的文本从其表明没有发现结节的状态改变到其注意到我们粘贴的结节的存在和位置的新状态。对于乳腺癌的乳腺病变、或肝癌或结肠癌，可以使用不同的成像模式，如计算机化轴向断层摄影(CT)扫描、磁共振成像(MRI)扫描、超声(U/S)扫描、正电子发射断层摄影(PET)扫描、X射线扫描等来进行相同的操作。可以对阳性患者执行反向操作，其中，从医学图像中去除肺结节或肿块，并且伴随的放射学报告中的文本从其表明存在发现的结节的状态改变到其指出不存在任何结节的新状态。

因此，基于非图像的信息干扰引擎322和医学图像干扰引擎324的目标是获得真实患者的基于非图像的信息和医学图像，以生成具有基于非图像的信息和医学图像的新的人工患者，这些人工患者足够逼真以用于后续机器学习努力来训练基于深度学习的算法的操作以在两种患者之间进行区分。基于深度学习的算法仅是机器学习的一个示例。与人工患者136相关联的患者数据集和与真实患者134相关联的患者数据集也可被用于训练任何基于机器学习的系统，例如。不同的分类器，诸如神经网络、支持向量机、决策树、分类器集合(例如，随机森林)等，而不背离本发明的范围。因此，对于特定的真实患者，人工患者组装引擎326利用由基于非图像的信息干扰引擎322干扰的被干扰的基于非图像的信息和由医学图像干扰引擎324干扰的相关联的被干扰的一个或多个医学图像来组装与人工患者336相关联的患者数据集。

因此，人工患者组装引擎326为人工患者生成人工患者数据336，对于每个人工患者，其被表示被阳性诊断为肺癌或被阴性诊断为肺癌。利用与阳性诊断和阴性诊断的人工患者336相关联的患者数据集，以及与阳性诊断和阴性诊断的真实患者334相关联的患者数据集，训练引擎328训练由认知系统300执行的算法的操作以在两种患者之间进行区分，可选地，在真实患者与人工患者之间。训练引擎328从与人工患者336相关联的患者数据集中取得图像之一或者从与真实患者334相关联的患者数据集中取得图像之一，并尝试预测该图像是：1.真实的阳性非图像信息和医学图像；2.真实的阴性非图像信息和医学图像；3.人工的阳性非图像信息和医学图像；或4.人工的阴性非图像信息和医学图像。

利用专门的对手损失函数，训练引擎328量化实现该目标的程度，并驱动对基于非图像的信息干扰引擎322、医学图像干扰引擎324和人工患者组装引擎326的反向传播更新。即，在一个实施例中，训练引擎328调整与基于非图像的信息干扰引擎322和医学图像干扰引擎324做出的基于非图像的信息改变和医学图像改变相关联的权重，使得未来的变化将提供更准确的基于非图像的信息改变和医学图像改变，从而提高基于深度学习的算法的操作的效率和准确性。因此，训练引擎328反向传播调整权重，使得基于非图像的信息干扰引擎322和医学图像干扰引擎324产生更可能在基于深度学习的算法的训练中使用的基于非图像的信息和医学图像。说明性实施例认识到，训练引擎328可以量化实现目标的程度，并以其他方式驱动对基于非图像的信息干扰引擎322、医学图像干扰引擎324和人工患者组装引擎326的反向传播更新，而不脱离本发明的范围。

本发明可以是系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质，所述计算机可读程序指令用于致使处理器执行本发明的方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输媒质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备，或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令，指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，包括面向对象的编程语言(例如Java、Smalltalk、C++等)，以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行本发明的方面。

本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机、或其他可编程数据处理装置的处理器，以生产机器，经由计算机或其他可编程数据处理装置的处理器执行，该指令创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机、可编程数据处理装置、和/或以特定方式起作用的其他设备的计算机可读存储介质中，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置上，或使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤的其他装置，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令，实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

图4描绘了由认知系统在实现认知人工智能训练机制时执行的操作的示例流程图，该认知人工智能训练机制模拟患者以在数据处理系统内开发基于人工智能的医学方案。当操作开始时，认知人工智能训练机制以预期待回答的临床问题的方式接收输入数据(步骤402)。认知人工智能训练机制识别模拟人工患者所需的需求以及与已经测试肺癌并且已经具有阳性或阴性肺癌诊断的真实患者相关的患者数据集(步骤404)。

利用模拟人工患者所需的需求和来自与真实患者相关联的患者数据集的与真实患者相关联的基于非图像的信息，认知人工智能训练机制干扰基于非图像的信息，以便为人工患者生成被干扰的基于非图像的信息(步骤406)。利用模拟人工患者所需的需求和来自与真实患者相关联的患者数据集的真实患者相关联的患者数据集的一个或多个相关联的医学图像，认知人工智能训练机制干扰一个或多个相关联的医学图像以便生成一个或多个被干扰的医学图像(步骤408)。应注意，步骤406和408可基本上同时操作或使得一个步骤跟随另一步骤。也就是，如果一个步骤跟随另一个步骤，则认知人工智能训练机制可利用人工患者的干扰的医学图像来干扰真实患者的基于非图像的信息，以生成人工患者的被干扰的基于非图像的信息。或者，认知人工智能训练机制可利用人工患者的干扰的基于非图像的信息来干扰真实患者的一个或多个相关联的医学图像，以生成人工患者的一个或多个干扰的医学图像。

认知人工智能训练机制随后利用由基于非图像的信息干扰引擎干扰的被干扰的基于非图像的信息和由医学图像干扰引擎干扰的相关联的被干扰的一个或多个医学图像来组装与人工患者相关联的患者数据集(步骤410)。从这一点来看，认知人工智能训练机制可执行反向传播以更新真实患者的基于非图像的信息如何被干扰以及真实患者的医学图像如何被干扰(步骤412)，使得未来的变化将提供更准确的基于非图像的信息变化和医学图像变化。另外，认知人工智能训练机制利用真实患者数据集和所生成的人工患者数据集两者来训练基于深度学习的算法的操作(步骤414)，以比原本可能的更高效和精确地操作，并且确保基于深度学习的算法对于未见患者群体按照需求执行。此后操作结束。

附图中的流程图和框图描述了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中，框中所标注的功能可以不以图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，该基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

因此，说明性实施例提供用于模拟患者以开发基于人工智能的医学方案的机制。该机制扩展表示患者的数据集以用于训练对患者信息操作的人工智能系统的目的。该机制开始于具有可接受的可靠性的患者信息数据集和真实患者集的医学图像。该系统在患者数据集中的真实患者的信息和医学图像中生成干扰以生成更大的患者数据集，该更大的患者数据集包括针对真实患者和源自真实患者的人工患者两者的信息和医学图像。为了生成与人工患者相关联的患者数据集的部分，该机制干扰真实患者信息以生成人工患者信息，干扰医学图像以生成与干扰的患者信息一致的人工医学图像，以及用人工患者信息和相关联的人工医学图像扩展患者数据集。包括真实患者和表示真实患者的人工患者两者的信息的较大患者数据集接着用以训练基于深度学习的算法的操作以比原本可能的操作更有效且准确地操作，且确保基于深度学习的算法针对未见患者群体按需求执行。

如上所述，应当理解，说明性实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元件两者的实施例的形式。在一个举例实施例中，说明性实施例的机制以软件或程序代码实现，其包括但不限于固件、驻留软件、微代码等。

适合于存储和/或执行程序代码的数据处理系统将包括至少一个处理器，其直接地或通过通信总线(诸如例如系统总线)间接地耦合到存储器元件。存储器元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置和提供至少一些程序代码的临时存储以便减少在执行期间必须从大容量存储装置检索代码的次数的高速缓冲存储器。存储器可以是各种类型的，包括但不限于ROM、PROM、EPROM、EEPROM、DRAM、SRAM、闪存、固态存储器等。

输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备等)可以直接地或通过中间的有线或无线I/O接口和/或控制器等耦合到系统。I/O设备可采用除了常规键盘、显示器、定点设备等之外的许多不同形式，诸如例如通过有线或无线连接耦合的通信设备，包括但不限于智能电话、平板计算机、触摸屏设备、语音识别设备等。任何已知的或以后开发的I/O设备都旨在处于说明性实施例的范围内。

网络适配器也可以耦合到系统，以使得数据处理系统能够通过中间的私有或公共网络耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅是用于有线通信的当前可用类型的网络适配器中的一些类型。还可使用基于无线通信的网络适配器，包括但不限于802.11a/b/g/n无线通信适配器、蓝牙无线适配器等。任何已知的或以后开发的网络适配器都旨在处于本发明的范围之内。

本发明的描述是出于说明和描述的目的而呈现的，并且不旨在是穷尽性的或局限于所披露的形式的发明。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择和描述实施例以便最好地解释本发明的原理、实际应用，并且使得本领域普通技术人员能够针对具有适合于所考虑的特定用途的不同修改的不同实施例理解本发明。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进，或使得本领域普通技术人员能够理解在此披露的实施例。

Claims

1.一种认知数据处理系统中的方法，所述认知数据处理系统包括至少一个处理器和至少一个存储器，所述至少一个存储器包括指令，所述指令由所述至少一个处理器执行以使所述至少一个处理器实现认知人工智能训练机制，所述认知人工智能训练机制用于模拟患者以开发基于人工智能的医学方案，其中，所述认知人工智能训练机制用于：

由所述认知人工智能训练机制的基于非图像的信息干扰引擎干扰形成被干扰的基于非图像的信息的来自真实患者数据集的真实患者的基于非图像的信息；

由所述认知人工智能训练机制的人工患者组装引擎利用所述被干扰的基于非图像的信息和所述真实患者的非被干扰的医学图像生成人工患者数据集中的人工患者数据；以及

由所述认知人工智能训练机制的训练引擎利用所述真实患者数据集中的真实患者数据和所述人工患者数据集中的人工患者数据，训练所述认知数据处理系统利用的学习算法的操作。

2.根据权利要求1所述的方法，进一步包括：

由所述认知人工智能训练机制的医学图像干扰引擎对来自所述真实患者数据集的所述真实患者的医学图像进行干扰以形成被干扰的医学图像，其中来自所述真实患者数据集的所述真实患者的所述医学图像是利用所述被干扰的基于非图像的信息来干扰的；

由所述认知人工智能训练机制的所述人工患者组装引擎利用所述被干扰的基于非图像的信息和所述真实患者的所述被干扰的医学图像来生成所述人工患者数据集中的所述人工患者数据；以及

3.根据权利要求2所述的方法，其中来自所述真实患者数据集的所述真实患者的所述基于非图像的信息是利用所述干扰的医学图像来干扰的。

4.根据权利要求2或3所述的方法，其中所述真实患者的所述基于非图像的信息的所述干扰和所述真实患者的所述医学图像的所述干扰是基于模拟人工患者所需的一组需求的。

5.根据以上权利要求中任一项所述的方法，其中所述真实患者数据集包括已经针对一种医学失常进行测试并且已经对该医学失常具有阳性诊断或对该医学失常具有阴性诊断的真实患者。

6.根据权利要求2至5中任一项所述的方法，其中，所述真实患者的所述基于非图像的信息的干扰和所述真实患者的所述医学图像的所述干扰包括：

利用对医学失常的阴性诊断来修改所述真实患者的所述基于非图像的信息和所述医学图像，使得所述被干扰的基于非图像的信息和所述被干扰的医学图像指示所述患者具有对所述医学失常的阳性诊断。

7.根据权利要求2至6中任一项所述的方法，其中，所述真实患者的所述基于非图像的信息的所述干扰和所述真实患者的所述医学图像的所述干扰的所述干扰包括：

利用对医学疾病的阳性诊断来修改所述真实患者的所述基于非图像的信息和所述医学图像，使得所述被干扰的基于非图像的信息和所述被干扰的医学图像指示所述患者具有对所述医学疾病的阴性诊断。

8.根据前述权利要求中任一项所述的方法，进一步包括：

由所述训练引擎反向传播更新，使得对其他真实患者的基于非图像的信息和医学图像的进一步干扰被修改，以提供未来的基于非图像的信息变化和所述医学图像变化的增加的准确性。

9.一种用于模拟患者以开发基于人工智能的医学方案的计算机程序产品，所述计算机程序产品包括：

计算机可读存储介质，所述计算机可读存储介质能够由处理电路读取并且存储用于由所述处理电路执行以便执行根据权利要求1至8中任一项所述的方法的指令。

10.一种计算机程序，所述计算机程序存储在计算机可读介质上并且能够加载到数字计算机的内部存储器中，所述计算机程序包括软件代码部分，当所述程序在计算机上运行时，所述软件代码部分用于执行根据权利要求1至8中任一项所述的方法。

11.一种装置，包括：

至少一个处理器；以及

耦合到所述至少一个处理器的至少一个存储器，其中所述至少一个存储器包括指令，当由所述至少一个处理器执行时，使所述至少一个处理器实现认知人工智能训练机制，所述认知人工智能训练机制用于模拟患者以开发基于人工智能的医学方案，并且进一步使得所述至少一个处理器：

由所述认知人工智能训练机制的基于非图像的信息干扰引擎干扰来自真实患者数据集的真实患者的基于非图像的信息，以形成被干扰的基于非图像的信息；

12.根据权利要求11所述的装置，其中，所述指令进一步使所述至少一个处理器：

由所述认知人工智能训练机制的医学图像干扰引擎干扰来自所述真实患者数据集的所述真实患者的医学图像，以形成被干扰的医学图像，其中来自所述真实患者数据集的所述真实患者的所述医学图像是利用所述被干扰的基于非图像的信息来干扰的；

13.根据权利要求11所述的装置，其中来自所述真实患者数据集的所述真实患者的所述基于非图像的信息是利用所述被干扰的医学图像来干扰的。

14.根据权利要求13所述的装置，其中所述真实患者的所述基于非图像的信息的所述干扰和所述真实患者的所述医学图像的所述干扰是基于模拟人工患者所需的一组需求的。