CN116472591A

CN116472591A - 使用人工智能生成与脊髓性肌萎缩症相关的预测结果的技术

Info

Publication number: CN116472591A
Application number: CN202180078889.3A
Authority: CN
Inventors: S·E·莫莱罗·莱昂; H·J·萨利; 齐格德姆·图尔克门; 图拉普·塔索格鲁
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2020-11-26
Filing date: 2021-11-22
Publication date: 2023-07-21
Also published as: US20230402180A1; EP4252253A1; IL303099A; WO2022115356A1; KR20230088912A; JP2023550794A

Abstract

公开了使用人工智能(AI)来便于治疗被诊断患有脊髓性肌萎缩症(SMA)的受试者的技术。本文公开的方法和系统涉及以下技术：使用AI预测被诊断患有SMA的受试者的疾病进展、检测患有SMA的受试者之间的潜在共性以识别新的或现有临床研究的候选受试者以及智能地选择受试者特定性治疗性治疗以用于治疗SMA。

Description

使用人工智能生成与脊髓性肌萎缩症相关的预测结果的技术

相关申请的交叉引用

本申请要求2020年11月24日提交的题为“Techniques for GeneratingPredictive Outcomes Relating to Spinal Muscular Atrophy using ArtificialIntelligence”的欧洲申请第20211555.6号的权益和优先权，出于所有目的，特此通过引用将其全文并入。

技术领域

本文公开的方法和系统大体上涉及使用人工智能(AI)来便于治疗被诊断患有脊髓性肌萎缩症(SMA)的受试者的技术。更具体地，本文公开的方法和系统涉及以下技术：使用AI预测被诊断患有SMA的受试者的疾病进展、检测跨患有SMA的受试者的潜在共性以识别新的或现有临床研究的候选受试者以及智能地选择受试者特定性治疗性治疗用于治疗SMA。

背景技术

大脑包含称为运动神经元的特化细胞，它们控制全身500多块肌肉的自主运动。运动神经元包括轴突，它们是将信号从大脑沿着脊髓传递到目标肌肉的长纤维。然而，运动神经元的健康在很大程度上取决于一种称为运动神经元存活(SMN)蛋白的蛋白质的存在。SMN1是位于5号染色体上的基因，可产生足够量的SMN蛋白来维持健康的运动神经元。

由于SMN1基因突变，患有称为脊髓性肌萎缩症(SMA)的神经肌肉疾病的人产生的SMN蛋白量不足。SMN蛋白的缺乏导致运动神经元逐渐退化。然而，退化的运动神经元会阻止控制自主运动的大脑信号到达目标肌肉。虽然SMN1可能不会产生足够量的SMN蛋白，但大多数人都有SMN1的至少一个功能拷贝，称为SMN2基因。SMN2能够产生大约正常水平10-20％的SMN蛋白，从而至少允许一些运动神经元存活。患有SMA的那些人通常会经历进行性肌萎缩，主要是近端肌肉，导致肌无力和衰退。

SMA带来各种独特的挑战。例如，患有SMA的受试者的症状和症状严重程度各不相同。因此，定义用于治疗受试者的治疗工作流程对于被诊断患有SMA的受试者尤其具有挑战性。SMA相关治疗可能与受试者所经历的疾病进展高度相关，因此，定义具有特定治疗日程表的治疗工作流程是一项具有挑战性且复杂的任务。

通常，定义治疗受试者的日程表是对症状的反应而不是预测。例如，在疾病的整个过程中，关于哪些肌肉群最初减弱以及减弱到何种程度，受试者之间存在很大差异。受试者通常会经历支撑脊柱的肌肉群的无力，从而对呼吸系统造成负担。然而，对于某些受试者，该肌肉群的萎缩进展很快，而对于其他受试者，进展是渐进的。另外，某些受试者会经历支持吞咽的肌肉群的无力，从而对日常进食活动造成负担。对于某些受试者，支持吞咽的肌肉群在支撑脊柱的肌肉群之前减弱，而对于其他受试者，肌肉群退化的顺序是相反的。对支持吞咽的肌肉发生减弱的受试者进行治疗与对支撑脊柱的肌肉发生减弱的受试者进行治疗截然不同。通常，为个体受试者定义治疗涉及密切监测受试者的症状并相应地对治疗做出反应。

在另一个说明SMA独特挑战的示例中，一种治疗涉及使用基因替代疗法增加SMN蛋白的表达。然而，增加SMN蛋白表达只有在治疗窗内进行时才会改善受试者的运动功能。例如，在动物模型中，只有在出生后头三天内实施疗法，进行SMN恢复疗法才能有效改善运动功能。如果在出生后10天或10天以上进行相同的治疗，则可能根本无效。实施某些SMN疗法以改善运动功能的时间窗很窄，并且该时间窗与每个受试者相关。对于新受试者(例如患者)，识别SMN蛋白表达的治疗窗是一项技术上具有挑战性和复杂性的任务。通常，识别新受试者的治疗和治疗日程表涉及将新受试者的许多不同且复杂的属性与先前接受过治疗的受试者的相同属性进行手动比较。

患有SMA的受试者的症状严重程度也存在很大差异。症状严重程度可基于多种因素，包括例如症状发作与诊断或治疗之间的时间、SMA类型、受试者的日常活动等。很难深入了解给定受试者的诊断出的SMA类型的潜在严重程度和/或未来SMA相关事件的发生时间。由于这个原因，治疗可能进行得太晚了。研究发现，平均而言，SMA I型患者在症状发作后4个月以上才被诊断并接受治疗，而SMA III型患者在症状发作后10个月以上才被诊断并接受治疗。

此外，缺乏数据可用性是SMA背景下的另一个独特挑战。SMA被表征为一种罕见疾病，因为这种疾病影响大约一万分之一的新生儿。经验丰富的医生可能永远没有机会在其整个职业生涯中治疗患有SMA的受试者。即使在区域层面，患有SMA的先前接受过治疗的受试者的数量也可能有限。治疗被新诊断患有SMA的受试者的医生可能无法使用足够量的数据来告知新受试者的新治疗日程表。进一步地，考虑到医院或区域层面的受试者可能稀少，使用临床研究对SMA受试者测试新治疗是一项挑战。

Bai Tian等人(“EHR phenotyping via jointly embedding medical conceptsand words into a unified vector space”，BMC Medical Informatics and DecisionMaking，第18卷，第S4期，2018年12月1日(2018-12-01)，第13页，XP055804407，DOI:10.1186/s12911-018-0672-0)公开了使用预测建模来解决电子健康记录(EHR)数据的异构性质，并通过在同一连续向量空间中嵌入(1)诊断医学代码和(2)来自临床笔记的词以在它们之间建立连接来深入了解患者表型。为了评估其矢量表示的质量，Tian等人。公开了两种类型的实验：(1)通过评估向量空间中代码和词之间的关联来发现表型和治疗，以及(2)通过评估第一次就诊时向量空间中代码和词之间的关联，预测将在第二次就诊期间分配给患者的代码。Tian等人评估了其基线方法的六种疾病：急性肝功能衰竭、女性乳腺癌、精神分裂症、脑部疾病、抑郁症和HIV，其中没有一种疾病像SMA那样罕见或难以治疗。

因此，需要改进SMA治疗的个性化选择、治疗日程表的个性化识别以及新的临床研究受试者组的形成，以便提高被诊断患有SMA的个体受试者的治疗疗效。

发明内容

在一些实施例中，提供了一种计算机实现的方法。该计算机实现的方法可以包括检索与受试者相关联的受试者记录并提取该受试者记录中包括的特征集的子集。例如，受试者记录可以包括表征受试者的特征集。受试者可能先前被诊断患有脊髓性肌萎缩症(SMA)。进一步地，特征集的子集中的每个特征都可以与SMA特性相关联。该计算机实现的方法还可以包括通过将特征集的子集组合成一个或多个词的序列来生成部分词序列。一个或多个词中的每个词都表示特征子集中的特征。该计算机实现的方法可以包括使用经过训练的词到向量模型将部分词序列转换成数字表示。该计算机实现的方法还可以包括将部分词序列的数字表示输入到自然语言处理(NLP)模型中，该NLP模型已经被训练以预测用于完成该部分词序列的完成词或短语。该计算机实现的方法还可以包括基于由NLP模型输出的完成词或短语生成疾病进展，该疾病进展表示在一段时间内特定于受试者的一种或多种SMA表型的预测进展。该计算机实现的方法还可以包括输出对预测受试者表现出疾病进展中包括的一种或多种SMA表型的指示。

在一些实施例中，提供了一种系统，其包括一个或多个数据处理器和非暂态计算机可读存储介质，其包含指令，所述指令当在所述一个或多个数据处理器上执行时，促使所述一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部。

在一些实施例中，提供了一种计算机程序产品，其有形地体现在非暂态机器可读存储介质中，并且包括被配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的一部分或全部的指令。

本公开的一些实施例包括一种系统，该系统包括一个或多个处理器。在一些实施例中，该系统包括包含指令的非暂态计算机可读存储介质，该指令当在一个或多个处理器上被执行时促使该一个或多个处理器执行本文所公开的一种或多种方法的部分或全部和/或本文所公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种计算机程序产品，其有形地体现在非暂态机器可读存储介质中，并且包括被配置为促使一个或多个处理器执行本文所公开的一种或多种方法的部分或全部和/或本文所公开的一种或多种过程的部分或全部的指令。

已采用的术语和表达被用作描述性而非限制性的术语，并且在使用这些术语和表达时，无意排除所示出和描述的特征或其部分的任何等同物，但是应当认识到，在所要求保护的本发明的范围内，各种修改是可能的。因此，应当理解，尽管已通过实施例和任选特征具体地公开了所要求保护的本发明，但是本领域技术人员可以采用本文所公开的概念的修改和变化，并且认为这样的修改和变化在由所附权利要求限定的本发明范围内。

附图说明

结合附图描述本公开：

图1示出了根据本公开的一些方面的基于云的应用程序被托管在其中的网络环境。

图2是示出根据本公开的一些方面的过程的实例的流程图，该过程由基于云的应用程序进行以将压缩受试者记录分发到与请求协助治疗受试者的咨询广播相关联的使用者装置。

图3是示出根据本公开的一些方面的过程的实例的流程图，该过程用于监测治疗计划定义(例如，决策树或治疗工作流程)的使用者集成并基于监测的结果自动地更新治疗计划定义。

图4是示出根据本公开的一些方面的用于为受试者推荐治疗的过程的实例的流程图。

图5是示出根据本公开的一些方面的用于模糊查询结果以符合数据隐私规则的过程的实例的流程图。

图6是示出根据本公开的一些方面的用于使用机器人脚本诸如聊天机器人与使用者交流的过程的实例的流程图。

图7是示出根据本公开的一些方面的用于部署经过训练的人工智能模型以便于治疗和治疗日程表的受试者特定性识别的网络环境的实例的框图。

图8是示出根据本公开的一些方面的用于部署经过训练的人工智能模型以预测被诊断患有SMA的受试者的疾病进展的网络环境的实例的框图。

图9是示出根据本公开的一些方面的用于为新的或现有临床研究智能地识别候选受试者的网络环境的实例的框图。

图10是示出根据本公开的一些方面的用于部署经过训练的人工智能模型以智能地选择治疗的网络环境的实例的框图。

图11是示出根据本公开的一些方面的预测被诊断患有SMA的受试者疾病进展的过程的实例的流程图。

图12是示出根据本公开的一些方面的为新的或现有临床研究智能地识别候选受试者的过程的实例的流程。

图13是示出根据本公开的一些方面的部署人工智能模型以便于选择治疗以对被诊断患有SMA的受试者执行的过程的实例的流程图。

在附图中，相似部件和/或特征可具有相同的附图标记。此外，可通过在参考标号后面加上破折号和区分相似部位的第二标号来区分相同类型的各种部位。如果说明书中仅使用第一参考标号，则该描述适用于任何一个具有相同的第一参考标号的相似部位，而与第二参考标号无关。

具体实施方式

I.概述

在欧洲，罕见疾病被定义为影响不到两千分之一的人的疾病。虽然SMA是欧洲婴儿死亡的主要遗传原因之一，但SMA仍然是一种罕见疾病，考虑到欧洲大约有10,000人受到SMA的影响。被诊断患有SMA的受试者群体提出了几个独特的挑战。首先，经验丰富的医生可能没有机会在他或她的职业生涯中治疗患有SMA的受试者。即使在医院或区域层面，之前接受过治疗的患有SMA的受试者数量也可能有限。如果没有诊断和治疗患有SMA的受试者的经验，正确治疗受试者可能具有挑战性。由于受SMA影响的受试者数量较少，限制了深入了解SMA的病理生理机制和测试新治疗。

其次，SMA是独特的，因为在每种SMA类型内疾病进展和表型严重程度差异都很大。虽然SMA通常会导致近端肌肉退化，但有500多块骨骼肌会受到SMA的影响。因此，SMA的表型和表型的严重程度在不同受试者中范围很广。例如，为了说明，某些受试者最初会经历咽部肌肉(其帮助吞咽动作)的退化，而其他受试者最初会经历大腿周围肌肉(其帮助在行走过程中伸膝)的退化。这两组受试者的初始治疗截然不同。吞咽困难的受试者可以由营养师用半固体饮食进行治疗，而行走困难的受试者可以使用轮椅或手杖作为治疗以减轻大腿肌肉的疲劳。因此，识别治疗和治疗日程表通常是响应于症状的发作而告知的，而不是在症状发作之前或在症状严重程度增加之前进行预测。

本公开的某些方面提供了一种配置有AI系统的基于云的应用程序以解决特定于SMA的挑战。基于AI的技术近来已被用于改变罕见疾病的诊断和治疗。AI技术可用于学习来自不同来源的各种类型的数据集(例如，结构化数据集、非结构化数据集、流数据等)之间的模式和相关性。例如，尽管罕见病的特点是受试者数量有限且分布在不同的地理位置，但可以执行AI技术以便于护理线的改善和SMA新治疗的开发。

本公开的某些方面涉及AI系统，该AI系统被配置为执行某些预测功能，诸如预测患有SMA的特定受试者的疾病进展、预测候选受试者组以评估或参加新的或现有临床研究或预测特定于特定受试者的相关治疗日程表。

如关于图8和图11更详细地描述的，本公开的某些方面涉及预测被诊断患有SMA的特定受试者的疾病进展的技术。AI系统可以训练AI模型，诸如自然语言处理(NLP)模型，或根据表示SMA患者的疾病进展的词序列(例如，句子)。根据表示先前接受过治疗的SMA患者的疾病进展的词序列训练NLP模型使得该AI模型能够学习这些词序列中各种词组合的模式。然后，经过训练的AI模型可以接收特定受试者的当前健康状况作为输入。在一些实现中，经过训练的AI模型将特定受试者的当前健康状况视为部分词序列，然后生成可能完成该部分词序列的下一个词的预测。所预测的下一个词表示特定受试者的预测的未来疾病进展。例如，所预测的疾病进展可以指示特定受试者在疾病过程中被预测将表现出的SMA特异性表型、症状或其他疾病相关事件的变化。

如关于图9和图12更详细地描述的，本公开的某些方面涉及智能地识别被预测为适合参加新的或现有临床研究的候选者的受试者组的技术。例如，当临床研究中正在研究的治疗被预测为对受试者有效时，该受试者是参加临床研究的合适人选。在一些实现中，基于高维受试者记录智能地识别受试者组涉及选择性地降低受试者记录的维度以提高受试者记录的子空间聚类的计算效率(例如，沿着许多维度聚类，而不仅仅是如在k均值聚类的情况下那样的一个或两个维度)。降维受试者记录可以用于自动预测可能适合新的或现有临床研究的候选者的新受试者组。作为说明性实例，根据某些实现，如果在意大利一家医院针对SMA进行治疗的40名受试者在特定物理治疗后经历了运动功能的改善，并且如果在波哥大的一家研究机构针对SMA进行治疗的17名受试者在相同的物理治疗后也经历了运动功能的类似改善，则AI系统可以处理与受试者相对应的数据记录以检测跨这两组受试者共有的潜在特征。进一步地，在AI系统检测到共享的潜在特征(诸如跨受试者共享的特定生物标志物)之后，可以将这两组受试者纳入现有的研究该特定生物标志物的临床研究中，如果现有的临床研究不存在，则可以提出新的临床研究来调查特定生物标志物。

如关于图10和图13更详细地描述的，本公开的某些方面涉及使用治疗选择系统从一组可用治疗中智能地选择治疗的技术，该治疗选择系统被训练为在选择治疗时基于受试者特定性数据集(例如，特定受试者的受试者记录)相关地最大化预定义奖励函数。经过训练的AI模型的输出可以预测选择哪种治疗以达到最高概率的治疗疗效、减缓疾病进展、延长生存期等，特别是对于患有SMA的特定受试者。

应用(例如，在装置上本地操作和/或至少部分使用在一个或多个远程和/或云服务器处执行的计算结果)可以由(例如)患有SMA的受试者和/或照顾患有SMA的受试者的护理提供者。该应用可以执行本文所公开的一个或多个操作。在某些情况下，一个或多个应用可以便于患有SMA的受试者与护理提供者之间的交流。这种交流可以(例如)便于提醒护理提供者支撑脊柱的肌肉异常虚弱和/或可以便于远程医疗(例如，当受试者或地方社会的一部分患有传染病时，当受试者患有运动障碍时和/或当受试者物理上远离护理提供者的办公室时，这可能特别有价值)。

II.脊髓性肌萎缩症(SMA)亚型、诊断规程、相关医学测试、进展评定和可用治疗的概要

II.A.SMA的遗传原因

SMA是一种神经肌肉疾病，其特点是用于自主运动的骨骼肌萎缩。患有SMA的受试者会经历位于脊髓前角的某些神经细胞的进行性退化。这些神经细胞称为脊髓运动神经元，控制肌肉的运动。运动神经元的退化会削弱骨骼肌并导致受试者全身无力。

SMA的遗传原因是位于5号染色体的运动神经元存活1(SMN1)基因发生突变。在健康个体中，SMN1基因产生运动神经元存活(SMN)蛋白，这是运动神经元存活所必需的蛋白质。SMN1基因产生运动神经元存活所需的全部量的SMN蛋白。然而，在受SMA影响的个体中，SMN1基因由于外显子7发生缺失或其他点突变而发生突变。SMN1基因中的5号染色体外显子7的缺失导致由SMN1基因产生的SMN蛋白的量减少或完全阻止SMN蛋白的产生。

SMN1至少有一种称为运动神经元存活2(SMN2)基因的功能拷贝，该基因无法有效地产生支持健康运动神经元的SMN蛋白。例如，SMN2基因可以产生运动神经元存活所需正常水平的大约10-20％的SMN蛋白。因为除了外显子7的单个核苷酸，SMN1和SMN2几乎相同，所以SMN1和SMN2产生不同量的相同SMN蛋白。然而，最终，在没有足够的SMN蛋白的情况下，运动神经元无法正常运作并最终萎缩和死亡，从而导致虚弱，又是还会导致致命的肌无力。

在某些情况下，SMA可能不是5号染色体上SMN1基因突变的结果，而是另一条染色体上另一个基因的突变的结果。例如，伴有呼吸窘迫的脊髓性肌萎缩症(SMARD)，可称为常染色体隐性远端脊髓性肌萎缩症(DSMA1)，其不是由SMN1基因突变引起的。相反，SMARD是由位于11号染色体长臂上的IGHMBP2基因突变引起的。患有SMARD的受试者有严重的呼吸窘迫和肌无力。

虽然大多数形式(像那些与5号染色体突变相关的形式)的SMA会影响近端肌肉，但其他形式的SMA会影响远端肌肉。远端肌肉萎缩的遗传原因可包括位于X染色体上的UBA1基因、位于14号染色体上的DYNC1H1基因、位于12号染色体上的TRPV4基因、位于1号染色体上的PLEKHG5基因、位于在7号GARS染色体上和位于5号染色体上的FBXO38基因。上面列出的UBA1基因可引起X连锁SMA(例如，XL-SMA或SMAX2)。X连锁SMA类似于I型SMA，但是，在X连锁SMA中，关节也可能受到影响。X连锁SMA的其他症状可包括肌张力减退、对刺激缺乏反应和先天性挛缩。

II.B.SMA的类型

SMA通常显现在受试者生命的早期，是婴幼儿死亡的主要遗传原因，影响大约一万分之一的新生儿。大约每40-60人中就有一人是导致SMA的SMN1基因突变的携带者。SMA呈常染色体隐性遗传，种族间发病率无显着差异。如果父母双方都是SMN1基因突变的携带者，则新生儿患有SMA的几率大约为25％。

SMA有四种主要类型：I型、II型、III型和IV型，还有一种非常罕见且严重的0型。SMA的类型基于症状开始的年龄和运动发育中达到的最高里程碑而不同。

II.B.1.0型SMA

0型SMA是一种非常罕见的产前形式的SMA疾病。0型SMA能够在子宫内检测到，因为受试者胎儿在出生前呈现出严重的SMA症状。例如，被诊断患有0型的受试者胎儿在下肢呈现全身性骨质减少。

SMA 0型通常具有致命的预后，症状发作在子宫内，导致肌张力减退、面部无力，并且可能导致受试者婴儿的生命在出生后的最初几周至三个月内死亡。SMN1基因的纯合突变可能是0型SMA的一个原因。可用的诊断测试可以显示SMN1外显子7的缺失，证明SMN1基因的纯合缺失。

进一步地，0型SMA受试者呈现出了子宫内肌肉运动减少、严重窒息、严重肌张力减退、出生时呼吸功能不全和需要复苏和呼吸机支持。另外，已一致观察到受试者的警惕表情。

II.B.2.I型SMA

I型SMA，也称为韦德尼希-霍夫曼病，通常出现在出生后的最初几个月。最严重形式的I型SMA发作迅速且出乎意料。随着疾病的进展，运动神经元的快速死亡导致主要身体器官，尤其是呼吸系统的效率低下。肺炎引起的呼吸衰竭是最常见的死亡原因。如果未经治疗且没有呼吸支持，被诊断患有I型SMA的婴儿通常活不过两岁。在适当的呼吸支持下，那些具有较轻的I型SMA表型的人可以存活到青春期和成年期。

II.B.3.II型SMA

II型SMA，也称为杜波威茨病，影响那些在他们生命中的某个时刻能够保持坐姿但从未学会在没有支撑的情况下行走的个体。II型SMA的发作通常发生在出生后的6到18个月之间，进展差异很大，因为一些孩子逐渐变弱，而另一些则保持相对稳定。这些孩子通常存在脊柱侧凸，脊柱矫正可以改善呼吸。尽管预期寿命缩短，但大多数患有II型SMA的人都能活到成年。

II.B.4.III型SMA

III型SMA，也称为库格尔贝格-韦兰德病，是一种幼年型疾病，通常在12个月大后出现。患有III型SMA患者的特点是在他们生命中至少有一段时间能够在没有支撑的情况下行走，即使这种能力后来丧失了。在这种形式的疾病中，呼吸受累较少见，预期寿命正常或接近正常。

II.B.5.IV型SMA

SMA 4是一种成人发病形式的疾病，通常在30岁之后出现，腿部肌肉逐渐减弱，并且经常需要受试者使用助行器。其他并发症很少见，预期寿命也不受影响。

II.B.6.跨SMA亚型的表型的严重程度

每个患有SMA的受试者都至少有一种SMN1基因的SMN2拷贝。对于给定的受试者，SMN2拷贝数会影响受试者的预后，因为受试者拥有的SMN2基因拷贝数与SMA表型的严重程度相关。例如，受试者拥有的SMN2基因拷贝数越多，症状越轻，症状发作的时间也越晚。存在更多数量的SMN2基因拷贝，可用的功能性SMN蛋白越多，因此，由于运动神经元的存活率增加，疾病症状的发作越晚。

因此，跨SMA亚型的SMA的严重程度受受试者拥有的SMN2拷贝数的影响。例如，大约70％的SMA-I受试者携带两个SMN2拷贝，82％的SMA-II受试者携带三个SMN2拷贝。然而，患有SMA-III的受试者绝大多数至少有三到四个SMN2拷贝。SMN1基因产生大约100％的SMN蛋白全长mRNA。然而，SMN2基因产生缺少外显子7的SMN蛋白的转录本。结果，大约10％的SMN2基因编码的SMN蛋白被正确剪接并编码出与SMN1相同的蛋白质。因此，更多的SMN2拷贝减少了SMN蛋白的缺陷。

II.C.SMA亚型的诊断

诊断SMA涉及一系列步骤。最初，医生可能会进行办公室体检并审查受试者的家族史。可以执行某些无创测试以确定是否应该执行基因测试。无创测试帮助医生将SMA与其他神经肌肉病症(例如，肌肉萎缩症)区分开来。例如，如果受试者可以走动，则医生可以执行运动功能测试，诸如汉默史密斯运动功能扩展量表(HFMSE)测试和6分钟步行测试(6MWT)。HFMSE和6MWT运动功能测试与预测SMA表型严重程度高度相关。进一步地，医生可以评定肌无力和肌张力减退，这是存在与SMA相关联的运动功能问题的早期迹象。其他评定可以包括评估受试者的运动功能困难史、运动技能丧失、近端肌无力、反射消失、舌肌束震颤和运动神经元退化的其他指标。进一步地，提示对SMA进行诊断性基因检测的最常见症状包括进行性双侧肌无力(通常在上臂和腿部)、钟形胸部和与反射消失相关联的肌张力减退。这些症状在0型SMA和I型SMA受试者中更为普遍且通常很严重。

因为肌酸激酶是一种从退化的肌肉中排出的酶，所以肌酸激酶的血液测试可以表明SMA的可能性。虽然肌酸激酶水平高于多种神经肌肉疾病的阈值水平，但这种血液测试的结果仍然可以为医生诊断受试者提供信息。虽然某些患有I型SMA的受试者的肌酸激酶水平可能是正常的，但肌酸激酶水平可以为诊断II型和III型SMA提供信息。

如果对受试者症状的早期评定指示与SMA相关联的运动功能问题，则可以对该受试者进行基因测试。SMA的诊断只能通过基因检测来确认，例如，通过检测外显子7的双等位基因缺失或SMN1基因的其他点突变。其他方法也可用于基因检测，但经常使用多重连接依赖性探针扩增(MLPA)，因为该方法还可以检测受试者的SMN2基因拷贝数。市面上有几种MLPA基因检测试剂盒，例如Asuragen的Amplidex PCT/CE SMN1/2试剂盒，以及PreventionGenetics的经由SMN1和SMN2的MLPA的脊髓性肌萎缩症测试。

除了基因检测之外或代替基因检测，还可以进行肌电图(EMG)测试。EMG测试测量肌肉或肌肉群的电活动，肌肉活检和/或肌酸激酶(CPK)测试也可以用于诊断SMA，以及如有必要，将该诊断与其他类型的神经肌肉疾病区分开来。

除了对有症状的个体进行诊断检测外，还可以进行产前基因检测和新生儿筛查，以诊断严重形式的SMA(例如0型SMA和I型SMA)的早期阶段。

II.D.新生儿SMA筛查

新生儿SMA筛查可以成为在婴儿出生后最初几天期间常规新生儿筛查的一部分。新生儿SMA筛查是对新生儿血液进行的基因测试。基因测试包括评估新生儿受试者的血液样本是否存在与SMN1基因相关联的异常。虽然针对血液的基因测试是创伤性的，但新生儿SMA筛查使用的是已收集的用于筛查其他疾病的相同血液样本。当新生儿的血液样本分析结果表明新生儿缺失位于5号染色体的SMN1基因的部分时，该新生儿很可能患有SMA或有很高的风险患上SMA。可以进行额外的测试以确定婴儿受试者是否患有SMA，如果是，则识别该婴儿受试者的目标治疗。

例如，根据某些研究，对美国所有新生儿进行SMA筛查，每年可能会检测出约364名新生儿患有这种疾病。进一步地，广泛的新生儿筛查可以防止大约50名新生儿需要呼吸机，并防止大约30名新生儿因I型SMA而死亡。另外，因为相对于症状发作的早期治疗比相对于症状发作的晚期治疗更有效，所以新生儿筛查至关重要。

新生儿筛查计划也可以用于识别症状前新生儿。在许多情况下，如果在症状发作之前开始治疗性治疗，则该治疗可以防止不可逆的运动神经元损伤。SMN1基因的纯合突变已被证明能够在新生儿的血液样本中准确地检测，这证明使用出生当天采集的血液样本对新生儿进行SMA筛查是一种有用的筛查方法。

新生儿SMA筛查有局限性。例如，某些受试者的SMN1基因点突变很难检测到。产前筛查和治疗可能适合某些受试者。例如，在小鼠细胞模型中，SMN蛋白帮助子宫内的神经元分化和肌神经接点的形成。SMN蛋白还参与神经发育和突触发生。因此，对某些受试者进行SMA产前筛查以及对被诊断患有0型SMA的受试者进行潜在的产前或新生儿治疗对于早期检测和治疗可能是可行的和有用的。对于某些受试者，产前筛查SMA可能是可行的；特别是给予胎儿基因替代疗法，例如施用可以感染SMN1基因并将其递送给受试者细胞的腺相关病毒(AAV)。另外，对于某些受试者，可以在妊娠10-14或15-20周时进行绒毛膜绒毛取样或羊膜穿刺术。这种取样已被证明可以识别胎儿患有SMA的可能性或风险。然而，产前筛查也有其自身的挑战和局限性。产前筛查是创伤性的，可能会给母亲和胎儿带来风险。SMA的无创产前筛查是可能的。在某些研究中，从母亲的血液样本中分离出胎儿滋养层细胞或无细胞胎儿DNA，并进行评估以检测SMA。

II.E.SMA的临床症状

尽管症状因SMA的类型、疾病的阶段和个体因素而异，但SMA的体征和症状包括粗大运动技能延迟、站立、坐着或行走困难、坐着时采用蛙腿姿势、反射消失(尤其是四肢)、全身肌无力、肌张力差、无力、容易倒地、呼吸肌无力、胃肠道问题、咳嗽、肺部或喉咙分泌物堆积、呼吸窘迫、钟形躯干、脊柱侧凸、舌头颤搐(肌束震颤)、吸吮或吞咽困难和进食困难。

II.F.SMA治疗

SMA的治疗因严重程度和类型而异。在最严重的形式(SMA 0和SMA 1)中，个体肌无力最严重，需要及时干预。相比之下，患有SMA 4或成人发作的SMA的个体可能要到很晚才需要治疗。严重SMA的治疗通常很困难，因为由于患者的年龄或目前的健康状况，诊断和治疗的时间可能非常短。由于SMA是一种快速进行性疾病，其会影响参与吞咽、呼吸和进食的肌肉，因此它会很快危及生命。因此，患有SMA 0和SMA 1的个体的早期诊断和积极治疗至关重要。

目前，诺西那生钠是一种修饰SMN2基因可变剪接的反义寡核苷酸，用于治疗SMA。SMN2剪接调节迫使SMN2基因产生的全长SMN蛋白的量增加。诺西那生钠经由鞘内注射直接施用于中枢神经系统，以延长患有SMA的婴儿的生存期并改善其运动功能。其他增加运动神经元中SMN蛋白可用性的SMN2基因剪接调节剂包括口服小分子，诸如布拉扑兰(LMI070、NVS-SM1)和艾满欣(利司扑兰、RG7916、R07034067)(豪夫迈·罗氏有限公司)。艾满欣可以施用以治疗成人和两个月及以上儿童的1型、2型和3型SMA。/>(onasemnogene abeparvovec)是一种基因疗法，其使用自身互补的9型腺相关病毒(scAAV-9)作为载体来递送SMN1转基因。这种治疗在美国被批准作为静脉制剂用于治疗那些两岁以下的儿童。

其他治疗包括神经保护化合物奥利索西(豪夫迈·罗氏有限公司)和SMN2基因激活剂沙丁胺醇。

根据SMA的严重程度和类型，呼吸支持通常用于管理SMA。在某些情况下，呼吸道问题是由气道分泌物积聚引起的。体位引流的手动或机械胸部理疗可以用于清除分泌物。此外，还可以使用手动或机械咳嗽辅助装置或无创通气(BiPAP)。在更严重的情况下，可以进行气管切开术。

因为SMA可能会影响进食、开颌、咀嚼和吞咽，所以营养支持也很重要。其他营养问题包括食物通过胃的速度不够快、胃反流、便秘、呕吐和腹胀。因此，SMA患者，尤其是SMA 1患者，有时需要饲管或胃造口术。SMA引起的代谢异常会损害肌肉中脂肪酸的β氧化，并且可能导致有机酸血症和随之而来的肌肉损伤，尤其是在禁食时。患有SMA的个体，尤其是那些病情较严重的患者，应该选择较软的食物以避免误吸、减少脂肪摄入以及避免长时间禁食。

SMA的管理还可以包括治疗由疾病进展引起的骨科问题。SMA中与肌无力相关联的骨骼问题包括关节紧绷、髋关节脱位、脊柱畸形、骨质减少、骨折风险增加和疼痛。肌无力可以导致脊柱后凸、脊柱侧凸和/或关节挛缩的发展。脊柱融合术有时会对患有SMA I/II的人进行，以减轻变形的脊柱对肺部的压力。此外，移动辅具(例如，轮椅、拐杖、手杖、助行器)、活动范围练习和骨骼强化可以帮助预防骨科并发症。职业疗法和物理疗法也有帮助。矫形器(例如，踝足矫形器)和胸腰椎骶骨矫形器也可以用于支撑身体和帮助行走。

近年来，随着可用的药物治疗以及积极的呼吸、骨科和营养支持，SMA患者的存活率增加了。

II.F.1有效恢复SMN蛋白水平的治疗窗

SMA的早期治疗至关重要。例如，研究表明，在症状发作时间之前或前后对SMA受试者进行先驱性治疗可以提高运动功能和生活质量。早期恢复SMN蛋白水平，例如，在某些情况下，在出生后的第1-3天之间，比在出生后第5天之后恢复SMN蛋白水平更有效地提高运动功能。

II.G.SMA的疾病进展

各种类型的SMA都是退化性的。SMA在不同类型的SMA中可能呈现不同。

II.G.1.I型SMA的疾病进展

对于给定的SMA类型，受试者的近端肌肉首先退化。鉴于受试者近端肌肉的退化，远端肌肉会拉伤。例如，受试者的大腿肌肉可能首先变弱，这会拉伤受试者的足部肌肉。对于大多数患有SMA的受试者，手保持力量的时间最长，使得随着疾病进展，日常任务(例如，使用计算机)也是能够执行的。

因为受试者的支撑脊柱的肌肉会随着时间的推移而减弱，所以SMA会导致脊柱侧凸(例如，脊柱呈“S”形弯曲)。患有脊柱侧凸的受试者可能会表现出肩部和臀部不均匀，或者一侧的臀部或肩部可能比受试者另一侧的相应臀部或肩部大。鉴于支撑脊柱的肌肉变弱，患有SMA的受试者经常会经历可能危及生命的呼吸问题。

对于患有I型SMA的儿童，这种疾病也称为韦德尼希-霍夫曼病，是一种严重形式的SMA。韦德尼希-霍夫曼病可以在出生至出生后6个月时被诊断出来。某些儿童的I型SMA会导致明显的肌无力，使得这些儿童无法自行坐下或站立。儿童也可能会经历吸吮或吞咽困难，这会导致营养不良。

II.G.2.II型SMA的疾病进展

患有II型SMA的儿童的疾病进展差异很大。有些儿童在小时候可以自己坐着，但以后就不行了，比如在他们十几岁的时候。进一步地，可以走动的II型受试者可能会在没有帮助的情况下难以行走几英尺。手指可能开始颤抖。腱反射也会减退。到十几岁或更大的时候，II型SMA受试者通常不能独立坐着。与其他SMA类型一样，II型受试者经常会经历脊柱附近肌肉的肌无力，从而导致可能危及生命的呼吸问题。

II.G.3.III型SMA的疾病进展

SMA III型，也称为库格尔贝格-韦兰德综合征，可以在出生后18个月大时被诊断出来。可能会更早发现症状。例如，III型儿童可以行走，但可能难以爬楼梯或上楼梯。儿童也很难从仰卧位坐起来。进一步地，与其他形式的SMA类似，随着支撑脊柱的肌肉退化，III型受试者可能会表现出呼吸问题或其他呼吸系统问题。在一些受试者中，III型SMA可以在20-30岁之间被诊断出来，并且在这些情况下，疾病进展可能很慢。患有III型SMA的成年人通常可以行走，然而，随着年龄的增长，行走会变得更加困难。

III.用于部署智能功能的基于云的网络架构概述

技术涉及配置服务器以执行使实体的使用者(例如，医师)能够使用受试者记录执行机器学习或人工智能技术的代码。受试者记录包括表征受试者的数据元素的复杂组合。作为说明性示例，受试者记录可以包括数千个数据字段的组合。一些数据字段可以包含固定的非数字值(例如，受试者的种族)，其他数据字段可能包含非结构化文本数据(例如，医师准备的笔记)，其他数据字段可以包含时变的一系列收集的测量值(例如，每年进行2到4次糖基化血红蛋白测量)，并且其他数据字段可以包括图像(例如，受试者大脑的MRI)。受试者记录中的数据类型和格式的复杂性和差异性使得处理受试者记录在技术上具有挑战性，如果不是不可能的话，因为机器学习和人工智能模型通常被配置为以数字或向量形式处理数据。鉴于该客观的技术问题，本公开的某些方面和特征涉及将受试者记录转换成经转换的表示，诸如向量表示，该经转换的表示表征受试者记录的多个数据元素。

技术涉及将受试者记录中包括的非数字值转换成可以输入到机器学习或人工智能模型中以生成预测输出的数字表示(例如，特征向量)。执行代码的服务器提供了一种技术效果，其通过将受试者记录转换成能够由机器学习或人工智能模型使用的经转换的表示来解决目标技术问题。“能够使用的”可以指以某种格式或形式的数据，机器学习或人工智能模型被配置为对其进行处理以生成预测输出。由于每个个体受试者记录中包含的多种不同数据格式和数据类型的数据元素的复杂组合，机器学习或人工智能模型未被配置为处理受试者记录(因为它们以存储状态存在于数据注册表中)。为了说明，对于给定的受试者记录，数据元素可以包括事件的纵向序列(例如，免疫记录)，另一数据元素可以包括从受试者获取的测量值(例如，生命体征)，又一数据元素可以包括由使用者输入的文本(例如，由医师做的笔记)，而另一数据元素可以是图像(例如，X射线)。可以对受试者记录进行有限或简单的分析(在任何转换之前)，诸如基于数据元素的值对受试者进行分组(例如年龄组)。然而，因为受试者记录的复杂性和规模达到大数据规模，有限或简单的分析变得有问题或不可行。为了以大数据规模从受试者记录中处理和提取分析评定，可以使用机器学习或人工智能技术对受试者记录进行数据挖掘。然而，机器学习或人工智能模型被配置为接收数字或向量输入。例如，聚类操作(诸如k均值聚类)被配置为接收向量作为输入。因此，为了对受试者记录执行聚类操作，本公开提供了一种技术效果，其通过将受试者记录转换成能够由机器学习或人工智能模型使用的经转换的表示(诸如数字向量表示)来解决目标技术问题。可以对处于经转换的表示状态的受试者记录进行智能分析。智能分析的非限制性示例(在服务器执行代码时执行)可以包括使用聚类技术自动检测受试者组，基于受试者记录中的数据元素的值生成预测某些结果的输出，以及识别与给定的或新的受试者记录相似的现有受试者记录。

为了说明并且仅作为非限制性示例，受试者的受试者记录包括四个数据元素。第一数据元素包含表示病症诊断的唯一代码。第二数据元素包含受试者大脑的MRI。第三数据元素包含一年中一系列时变测量值，诸如血压读数。第四数据元素包含非结构化注释，例如，通过检查或运行一个或多个测试检测到的病症的备注。根据某些实施方式，第一数据元素、第二数据元素、第三数据元素和第四数据元素中的每个都可以被转换成经转换的表示(例如，向量)。用于转换四个数据元素内包含的值的技术可能取决于数据元素中包含的数据类型。例如，对于第一数据元素，表示诊断的唯一代码可以表示为固定长度的向量，使得向量的大小由代码词汇表的大小确定，并且词汇表中的每个代码由固定长度向量的向量元素表示。可以将包含在第一数据元素内的一个或多个唯一代码与代码词汇表进行比较。如果唯一代码与词汇表的代码匹配，则可以将“1”分配给对应于该唯一代码的向量位置处的向量元素，并且可以将“0”分配给该向量的所有其余向量元素。鉴于上述情况，可以生成第一向量来表示第一数据元素的值。作为另一示例，对于第二数据元素，可以使用经训练的自动编码器神经网络来生成图像的潜在空间表示。输入图像的潜在空间表示可以是输入图像的降维版本。经过训练的自动编码器神经网络可以包括两个模型：编码器模型和解码器模型。可以训练编码器模型以从图像内检测到的特征集中提取显著特征的子集。显著特征(例如，关键点)可以是图像内的高强度区域(例如，对象的边缘)。编码器模型的输出可以是输入图像的潜在空间表示。潜在空间表示可以由经训练的自动编码器模型的隐藏层输出，因此，潜在空间表示可能只能由服务器解释。可以训练解码器模型以从提取的显著特征子集重建原始输入图像。编码器模型的输出可以用作表示第二数据元素中包括的图像的像素值的特征向量。鉴于上述情况，可以生成第二向量(例如，潜在空间表示)来表示包含在第二数据元素中的图像。作为另一示例，对于第三数据元素，可以以数字方式表示时变的测量值的序列。在一些实施方式中，可以由从受试者进行测量的实例的总数来表示时变序列。在其他实施方式中，可以使用在一个时间段(例如，一年)期间发生的从测量实例中取得的测量值的平均值、平均数或中值来以数字方式表示时变序列。在其他实施方式中，可以计算测量频率并用于以数字方式表示时变的测量序列。鉴于上述情况，可以生成第三向量来表示包含在第三数据元素内的值的时变序列。作为又一示例，对于第四数据元素，可以使用任何数量的自然语言处理(NLP)文本向量化技术来处理和向量化由使用者输入的备注。在一些实施方式中，可以执行诸如Word2Vec模型的词向量机器学习模型来将包含在第四数据元素中的备注转换成单个向量表示。在其他实施方式中，可以训练卷积神经网络以从包含在第四数据元素中的备注中检测指示症状、治疗或诊断的文本内的词或数字。鉴于上述情况，可以生成第四向量以将第四数据元素所包含的备注的文本表示为向量表示。因此，表示整个受试者记录的最终特征向量可以是向量的向量，包括第一向量、第二向量、第三向量和第四向量的串联。在其他示例中，可以使用第一向量、第二向量、第三向量和第四向量的平均值来以数字方式表示整个受试者记录。第一向量、第二向量、第三向量和第四向量的其他组合可用于生成以数字方式表示整个受试者记录的最终特征向量。

在一些实施方式中，代替生成向量以用数字方式表示受试者记录中的每个数据元素，可以执行技术以通过从数据元素集中识别和选择数据元素的子集来减少受试者记录的维度。数据元素的子集可以表示“重要”数据元素，其中数据元素的“重要性”是基于使用诸如Singular Value Decomposition(SVD)之类的特征提取技术的预测来确定的。例如，将受试者记录转换成机器学习和人工智能模型可使用的经转换的表示可以包括对受试者记录中包括的数据元素的非数字值进行一种或多种特征提取技术，以生成以数字方式表示非数字值的分解版本的特征向量。在一些实施方式中，特征提取技术可以包括，例如，将受试者记录的数据元素集(例如，表示受试者的特征或维度的每个数据元素)的维度减少为特征的最优子集，该子集用于，例如预测结果或事件。减少数据元素集的维度可以包括将N个数据元素减少为M个元素的子集，其中M小于N。在这些实施例中，可以将M个元素子集的每个元素转换成数值。在一些实施方式中，可以生成特征向量来表示受试者记录的N个数据元素。特征向量可以包括用于数据元素集中的每个数据元素的向量。例如，特征向量可以是受试者记录的数据元素的复杂组合的数字表示。可以对受试者记录的数据元素中的每个非数字值进行向量化以生成表示向量。表示受试者记录中的数据元素集的向量可以被连接或组合(例如，作为平均值或加权平均值)以生成以数字方式表征受试者记录的整个数据元素集的特征向量。特征向量由经训练的机器学习或人工智能模型使用。一旦生成了受试者记录的特征向量，就可以使用机器学习和人工智能技术单独或成组地评估受试者记录。在已生成并存储了标识号每个受试者记录的特征向量之后，可以将存储在中央数据存储中的受试者记录的特征向量输入到机器学习或人工智能模型中，或者可以对受试者记录的数字表示进行其他增强分析。例如，可以关于一个或多个维度比较两个不同的受试者记录。维度可以表示受试者记录的特征或数据元素，沿该维度在两个或更多个受试者记录之间进行比较。为了说明，第一受试者记录的数据元素包含由第一使用者(例如，医生)输入的描述第一受试者症状的文本。可以使用上述文本向量化技术(例如Word2Vec)对文本(例如，第一受试者记录的数据元素的值)进行向量化，以生成第一向量，以数字方式表示与数据元素相关联的文本。文本向量化技术可以为在文本中包括的每个词生成N维词向量。第二受试者记录的匹配数据元素(例如，另一受试者记录的数据元素也包含由医师输入的描述另一受试者的症状的文本)可以包含由第二使用者输入的描述第二受试者的症状的文本。可以使用上述文本向量化技术对文本(例如，第二受试者记录的数据元素的值)进行向量化，以生成第二向量(例如，N维词向量)来表示与数据元素相关联的文本。服务器可以在欧几里得或余弦空间中将第一向量与第二向量进行比较，以量化第一受试者记录和第二受试者记录之间至少关于受试者症状表示的维度的相似性或不相似性。如果第一向量和第二向量在欧几里得空间中彼此靠近(或在阈值距离内)(例如，如果第一向量和第二向量之间的欧几里得距离很小)，那么第一受试者所经历的症状(如数据元素文本中所述)可能类似于第二受试者所经历的症状(如数据元素文本中所述)。然而，如果第一向量和第二向量之间的欧几里得距离大或高于阈值距离(例如，或者如果欧几里得距离高于阈值)，则可以预测第一受试者所经历的症状不同于第二受试者所经历的症状。

在一些实施方式中，服务器可以被配置为执行应用，该应用使实体的使用者能够构建用于存储受试者记录以供后续处理的数据注册表。受试者记录的数据可以包括非结构化数据，诸如医师笔记的电子副本和/或对开放式问题的回答。通过将非结构化数据的部分映射到结构化数据记录的固定部分(例如，数据元素)，可以将非结构化数据摄入到数据注册表中。结构化数据记录的结构可以使用(例如)规范从对应于特定用例(例如，特定疾病、特定试验等)的模块来定义。例如，可以将非结构化笔记数据(例如，文本)中的每个词转换成数字表示，并且可以分解与非结构化笔记数据相关联的多种数字表示(例如，使用SVD)以检测描述受试者表现出的症状的特定集合的词。非结构化笔记数据的数字表示的分解可以去除非信息性词，诸如“and”、“the”、“or”等。其余的词表示特定的症状集。笔记数据的某些部分可以与结构化数据中的数据元素无关和/或可能比包含在数据元素中的数据更具体或更不具体。在一些情况下，可以使用多种映射(例如，将“平衡不良”症状映射到“神经”症状)、自然语言处理或基于界面的方法(例如，向使用者请求新信息)来获取结构化数据记录。界面还可以用于接收识别关于新的或现有受试者的新信息的输入，并且界面可以包括映射到数据记录结构的输入组成部分和选择选项。

此外，技术涉及配置基于云的应用以将包含在受试者记录的数据元素中的非数字值转换为数字表示，以便基于云的应用可以使用存储在数据注册表中的受试者记录的数字表示(例如，经转换的表示)执行智能分析功能。将受试者记录的数据元素的非数字值转换成数字表示可能取决于数据元素中包含的数据类型。例如，对于包括文本的数据元素，诸如使用者记下的笔记，可以使用自然语言处理技术(诸如Word2Vec或其他文本向量化技术)将文本转换成文本的数字表示。作为另一示例，对于包括图像(例如，MRI)或视频(例如，超声视频)的图像帧的数据元素，可以使用经训练的自动编码器神经网络，该经训练的自动编码器神经网络经训练以生成输入图像的潜在空间表示。输入图像的精简表示(例如，潜在空间表示)可以用作以数字方式表示输入图像的向量。作为又一示例，对于包括信息(例如，在一段时间内发生的事件)的时变序列的数据元素，可以使用若干示例性变换将时变信息表示为数字表示。在一些情况下，事件的计数可以用作表示时变信息的向量。在其他情况下，事件发生的频率或速率(例如，每周、每月、每年等)可以用作表示时变信息的向量。在再一些情况下，与时变信息中的每个事件相关联的测量值的平均值或组合可以用作表示时变信息的向量。本公开不限于这些示例，因此，时变信息的其他数字表示可以用作表示数字表示的向量。智能分析功能可以通过使用数据记录执行经训练的机器学习或人工智能模型来进行。模型输出可用于指示从数据记录中提取的某些分析。

在一些情况下，可以提供来自受试者记录的数据传输以制定个体受试者的治疗计划。例如，受试者记录信息(例如，通过例如选择省略和/或隐藏数据来遵守数据隐私约束)可以被广播和/或传输到选定的使用者装置组。例如，可以响应于来自使用者的输入，将广播传输到与类似数据记录相关联的使用者装置，该输入对应于发起与类似受试者相关联的使用者的咨询的请求。如果接收广播的使用者接受咨询请求(经由提供对应输入)，则可以在使用者之间建立安全的数据通道，并且可能共享更多的受试者记录(例如，同时遵守适用于两个使用者的数据隐私约束)。可以通过使用两个或更多个受试者记录的向量表示执行最近邻技术来识别与给定受试者相似的受试者记录。最近邻技术可以通过跨多个受试者记录比较单个数据元素的向量来执行(例如，最近邻可以与受试者记录的维度或特征相关联来确定)。或者，可以通过比较表征整个受试者记录的总体向量与表征另一整个受试者记录的总体向量来执行最近邻技术。整体向量可以是表示数据元素值的单独向量的串联，或者可以是表示数据元素值的单独向量的平均值或组合。

作为另一示例，响应于对匹配特定约束的受试者记录的查询，可以返回一个或多个处理的数据记录。在一些情况下，第一使用者可以提交识别第一受试者记录的查询。查询可以对应于识别与第一受试者记录相似的其他受试者记录的请求。服务器可以使用上文和本文所讨论的某些转换技术将第一受试者记录转换成经转换的表示。替代地，第一受试者记录的经转换的表示可能先前已经生成并存储在数据库中。不管第一受试者记录的经转换的表示是在接收查询之前还是之后生成的，将第一受试者记录转换成第一受试者记录的经转换的表示可以包括生成第一受试者记录的数据元素的一个或多个非数字值的向量。向量化包含在第一受试者记录内的一个或多个非数字值可以包括为在第一受试者记录中包括的每个数据元素中的每个值(例如，对于诸如注释的非数字文本)生成数字向量表示。各种向量表示可以被连接或以其他方式组合(例如，可以计算平均值)以生成表示整个第一受试者记录的特征向量。可以在域空间(例如，欧几里得空间或余弦空间)中将以数字方式表示第一受试者记录的向量表示与其他受试者记录的向量表示进行比较。例如，当两个向量表示之间的欧几里得距离在阈值距离内时，与这两个向量表示相关联的两个受试者记录可以被解释为(例如，由服务器)至少关于一个或多个维度是相似的。

对于受试者记录中的每个数据元素，用于生成与数据元素关联的值的向量表示的技术可能取决于与数据元素相关联的数据类型。在一些示例中，受试者记录的数据元素可以与一个或多个图像相关联，诸如受试者的X射线。可以执行特征提取技术以生成与数据元素相关联的每个图像的向量表示。例如，服务器可以被配置为执行经训练的自动编码器神经网络以生成图像的降维版本。经过训练的自动编码器神经网络可以包括两个模型：编码器模型和解码器模型。可以训练编码器模型以从图像内检测到的特征集中提取显著特征的子集。显著特征(例如，关键点)可以是图像内的高强度区域(例如，受试者的边缘)。编码器模型的输出可以是输入图像的潜在空间表示。潜在空间表示可以由经训练的自动编码器模型的隐藏层输出，因此，潜在空间表示可能只能由服务器解释。可以将表征受试者记录的潜在空间表示的显著特征的子集与表征另一受试者记录的潜在空间表示的显著特征的子集进行比较，以产生某些分析见解。解码器模型可以被训练以从显著特征的提取子集中重建原始输入图像。编码器模型的输出可以是与包括受试者记录的图像相关联的数据元素的向量表示。在其他实例中，可以执行关键点匹配技术以将包含在第一受试者记录的数据元素中的图像的关键点与包含在第二受试者记录的数据元素中的另一图像的关键点相匹配。输入图像的向量表示(例如，潜在空间表示)可由机器学习或人工智能模型使用，因此，可以将两个不同的受试者记录(每个都包括图像)彼此相互比较以确定两个不同的受试者记录之间的相似性或不相似性。

为了说明且仅作为非限制性示例，捕获受试者大脑的磁共振图像MRI。MRI存储在与受试者相关联的受试者记录中。服务器被配置为使用使用特征提取技术诸如关键点检测、自动编码到潜在空间表示、SVD和其他合适的计算机视觉技术来生成包含在受试者记录中的MRI的经转换的表示。将包含MRI的数据元素的向量表示与数据元素集中的每个其余数据元素的向量表示连接或以其他方式组合(例如，平均)，以生成表征整个受试者记录的特征向量。使用者可以访问应用以查询其他受试者记录的数据库，以检索包含类似于受试者大脑MRI的MRI的其他受试者记录的子集的集合。识别与受试者记录相似的其他受试者记录(至少关于MRI之间的相似性)可能涉及计算受试者记录的k最近邻。例如，可以在域空间(例如欧几里得空间或余弦空间)上(视觉地或由计算系统在内部)绘制经转换的表示。每个其他受试者记录的经转换的表示也可以被绘制(视觉上或由计算系统在内部)。可以执行最近邻技术以将受试者记录的向量表示与其他受试者记录的向量表示进行比较，以识别受试者向量的k最近邻。可以预测被识别的k个最近邻具有与受试者大脑的MRI相似的MRI。可以识别和检索被识别为最近邻的每个其他受试者记录，以使用应用进行进一步评估或处理。

在一些实施方式中，计算系统可以执行数据处理技术(例如，最近邻技术)来识别相似的受试者记录。在该搜索中可以对多个数据元素进行差异加权(例如，根据预定义的数据元素权重、指示匹配多个数据元素的重要性的使用者输入和/或特定数据元素值在整个受试者记录集中的普遍性)。在记录集中搜索潜在匹配项时，一些记录可能缺少多个数据元素的值。在这些情况下，可以确定(例如)数据元素值不匹配和/或在评估潜在匹配时数据元素可能未加权。缺失值的处理可能取决于数据元素的值在记录集中的分布和/或查询中的数据元素的值。

此外，一些技术涉及定义和使用规则集，该规则集用于在给定受试者记录中识别的症状集的情况下识别受试者的潜在治疗方案。为了说明，目标受试者记录可以表示最近经历以下三种症状的目标受试者：上呼吸道感染、发烧和喉咙痛。这三种症状可以写为目标受试者记录的数据元素内的文本(例如，由诸如分号的标签标记的词之间的分隔)。诸如云服务器135之类的服务器可以将文本“上呼吸道感染”、“发烧”和“喉咙痛”单独输入到经训练的Word2Vec模型或其他文本到向量模型中，诸如词汇映射。可以训练Word2Vec模型为每个表示症状的词生成向量表示。针对这三种症状的向量表示可以被平均以生成针对目标受试者记录的“症状”数据元素的单个向量表示。可以处理针对目标受试者记录的“症状”数据元素的单个向量表示以识别在“症状”数据元素中包括相似词的其他受试者记录。存储在数据库中的每个受试者记录可以与现有的“症状”数据元素相关联，该数据元素已被转换成数字表示，例如向量。可以绘制“症状”数据元素的向量并将其与目标受试者记录的“症状”数据元素的向量进行比较。服务器可以识别与表征“症状”数据元素的向量最近的向量。最接近目标受试者记录的向量的“症状”数据元素的向量可以被预测为与受试者相似。可以识别并进一步评估与最接近目标受试者记录的向量的向量相关联的受试者记录以确定提供给该受试者的治疗方案。提供给与最接近目标受试者记录的向量的向量相关联的受试者的治疗可以用作治疗目标受试者的潜在治疗方案。另外，每个潜在的治疗方案可以通过其他受试者经历的反应性来加权。潜在的治疗方案可以根据其他受试者经历的反应性进行分类。

可以基于与使用者界面的使用者交互来定义规则集，该规则集可以包括特定标准和相关联的特定医学治疗的规范和/或一个或多个先前定义的规则(其指定标准和治疗)的选择。例如，可以经由界面呈现一个或多个现有规则，并且使用者可以选择规则以并入与使用者所关联的账户相关联的规则库中。一个或多个规则可以从由多个使用者(例如，与一个或多个机构相关联)定义的规则集中选择和/或可以基于由多个使用者生成的规则生成。当使用者选择要合并到规则库中的规则时，应用可以向云服务器135生成反馈信号。反馈信号可以包括与使用者选择相关联的元数据。元数据可以指示规则是未经修改还是经过修改并入规则库。如果修改了规则库，则元数据将指示对规则进行了哪些修改。元数据还可以指示规则是否被拒绝、删除或以其他方式确定对使用者无用。为了说明并且作为非限制性示例，计算系统可以检测将一种或多种特定类型的症状和/或测试结果与给定治疗相关的规则被使用者相对频繁地定义和/或选择，并且计算系统然后可以生成与特定类型的症状和/或测试结果以及治疗有关的一般规则。一般规则可以定义为具有(例如)最严格、最具包容性或中间标准。在一些情况下，可以处理使用者的规则库以检测规则之间的任何标准重叠。在识别重叠时，可以呈现识别该重叠的警报。可以使用规则库中的规则来评估受试者记录以进行分类，以定义与受试者记录相关联的群体。使用规则评估受试者记录可以作为决策树进行，例如，在决策树中将规则的第一标准与受试者记录中包括的属性进行比较。如果满足第一标准，则将下一标准与受试者记录中包括的属性进行比较。如果满足下一标准，则对规则中包括的每个标准继续进行比较。即使不满足下一标准，比较也可以继续。在这种情况下，标准(以及规则中包括的任何其他标准)的不满足与满足的标准一起被存储并呈现给使用者装置。

因此，本公开的实施例提供了一种基于云的应用程序，该应用被配置为与外部实体交换受试者信息而不违反数据隐私规则。基于云的应用被配置为自动评定涉及跨不同管辖范围的共享受试者信息的数据隐私规则。基于云的应用被配置为执行混淆或以其他方式修改受试者信息的协议，从而在算法上确保遵守数据隐私规则。

IV.用于托管配置有智能功能的基于云的应用程序的网络环境

图1示出了网络环境100，其中托管了基于云的应用程序的实施例。网络环境100可以包括云网络130，其包括云服务器135、数据注册表140和AI系统145。云服务器135可以执行基于云的应用程序底层的源代码。数据注册表140可以存储从一个或多个使用者装置(诸如计算机105、膝上型计算机110和移动装置115)摄取或利用其识别的数据记录。

存储在数据注册表140中的数据记录可以根据固定部分(例如，数据元素)的骨架结构来构造。计算机105、膝上型计算机110和移动装置115各自可以由各种使用者操作。例如，计算机105可以由医师操作，膝上型计算机110可以由实体的管理员操作，并且移动装置115可以由受试者操作。移动装置115可以使用网关120和网络125连接到云网络130。在一些实例中，计算机105、膝上型计算机110和移动装置115中的每一者与同一实体(例如，同一医院)相关联。在其他实例中，计算机105、膝上型计算机110和移动装置与不同实体(例如，不同医院)相关联。使用者设备(计算机105、膝上型计算机110和移动装置115)是用于说明目的实例，并且因此，本公开不限于此。网络环境100可以包括任何数量或配置的任何装置类型的使用者装置。

在一些实施例中，云服务器135可以通过与计算机105、膝上型计算机110或移动装置115中的任一者交互来获得用于存储在数据注册表140中的数据(例如，受试者记录)。例如，计算机105通过使用界面与云服务器135交互以选择受试者记录或本地存储(例如，存储在计算机105本地的网络中)的其他数据记录以摄取到数据注册表140中。又如，计算机105与界面交互以向云服务器135提供存储受试者记录或其他数据记录的数据库的地址(例如，网络位置)。云服务器135然后从数据库中检索数据记录并将数据记录摄取到数据注册表140中。

在一些实施例中，计算机105、膝上型计算机110和移动装置115与不同实体(例如，医疗中心)相关联。云服务器135从计算机105、膝上型计算机110和移动装置115获得的数据记录可以存储在不同的数据注册表中。虽然来自计算机105、膝上型电脑110和移动装置115中的每一个的数据记录可以存储在云网络130内，但是这些数据记录没有混合。例如，由于数据隐私规则所施加的限制，计算机105无法访问从膝上型计算机110获得的数据记录。然而，云服务器135可以被配置成在不同实体查询数据记录时自动模糊、模糊或掩蔽这些数据记录的部分。因此，从实体摄取的数据记录可能会以模糊、模糊或掩蔽的形式暴露给不同实体，以符合数据隐私规则。

一旦从计算机105、膝上型计算机110和移动装置115采集了数据记录，数据记录就可以用作训练数据以训练机器学习或人工智能模型以提供本文所描述的智能分析功能。假设当与实体相关联的使用者装置查询数据注册表140并且查询结果包括源自不同实体的数据记录时，数据记录可被以符合数据隐私规则的模糊形式提供或暴露给使用者装置，则这些数据记录也可用于供任何实体进行查询。

云服务器135可以专门的方式被配置为执行代码，该代码在被执行时使使用受试者记录的经转换的表示(例如，以数字方式表示存储在受试者记录中的信息的向量)来进行智能功能。例如，可以通过使用云服务器135执行代码来进行智能功能。执行的代码可以表示经训练的神经网络模型。神经网络模型可以已经过训练以进行智能功能，诸如预测受试者对治疗方案的反应性、识别相似患者、为患者生成治疗方案建议以及其他智能功能。可以使用训练数据集来训练神经网络模型，该训练数据集包括先前已针对病症进行治疗并经历结果(例如，克服病症、增加病症的严重性、降低病症的严重性等)的受试者的受试者记录。此外，所执行的代码可以被配置为使云服务器135将现有受试者记录的非数字值转换成数字表示(例如，经转换的表示)，该数字表示可以由经训练的神经网络模型处理。例如，由云服务器135执行的代码可以被配置为接收受试者记录集中的每个受试者记录作为输入，并且对于每个受试者记录，该代码当被执行时可以使云服务器135进行本文描述的操作用于将每个受试者记录的每个数据元素转换成经转换的表示，诸如向量表示。执行智能功能可以包括将存储在数据注册表140的数据记录中的至少一部分输入到经训练的机器学习或人工智能模型中，以生成用于进一步分析的输出。在一些实施例中，输出可用于提取数据记录之内的模式或预测与数据记录的数据字段相关联的值或结果。下面描述由云服务器135执行的智能功能的各种实施例。

在一些实施例中，云服务器135被配置成使使用者装置(例如，由医生操作)能够访问基于云的应用程序以将咨询广播传输到一组目标装置。咨询广播可以是关于治疗与受试者记录相关联的受试者的支持或协助请求。目标装置可以是由与另一实体(例如，另一医疗中心的医生)相关联的另一使用者操作的使用者装置。若目标装置接受与咨询广播相关联的协助请求，则基于云的应用程序可以生成受试者记录的压缩表示，其略去或模糊受试者记录的某些数据字段。压缩表示可以符合数据隐私规则，并且因此，受试者记录的压缩表示无法用于唯一识别与受试者记录关联的受试者。基于云的应用程序可以将受试者记录的压缩表示传输到接受协助请求的目标装置。操作目标装置的使用者可以评估压缩表示并使用通信信道与使用者装置通信以讨论用于治疗受试者的方案。例如，通信渠道可以被配置为安全聊天室，使得使用者装置(例如，由请求咨询的医生操作)能够与目标装置(例如，由提供咨询的其他医生操作)安全地进行通信。

在一些实施例中，云服务器135被配置成向使用者装置提供治疗计划定义界面。治疗计划定义界面使使用者装置能够定义针对一种病症的治疗计划。例如，治疗计划可以是用于治疗患有该病症的受试者的工作流程。工作流程可以包括用于将受试者群体定义为患有该病症的一个或多个标准。该工作流程还可以包括针对该病症的特定类型的治疗。云服务器135从一组使用者装置中的每个使用者装置接收并存储针对特定病症的治疗计划定义。基于云的应用程序可以将针对给定病症的治疗计划分发给一组使用者装置。该一组使用者装置中的两个或更多个使用者装置可以与不同实体相关联。两个或更多个使用者装置中的每一个可以被提供将任何部分或整个的治疗计划集成到客户规则集中的选项。云服务器135可以监测使用者装置是完整地集成了共享治疗计划，还是集成了治疗计划的一部分。使用者装置与共享治疗计划之间的交互可用于确定是否对治疗计划或基于治疗计划创建的规则进行更新。

在一些实施例中，云服务器135使操作使用者装置的使用者能够访问基于云的应用程序以确定针对患有病症的受试者的建议治疗。使用者装置加载与基于云的应用程序相关联的界面。该界面使操作使用者装置的使用者能够选择与由使用者治疗的受试者相关联的受试者记录。基于云的应用程序可以评估其他受试者记录以识别与由使用者治疗的受试者相似的先前接受过治疗的受试者。可以使用受试者记录的数组表示来确定例如受试者之间的相似性。数组表示(例如，经转换的表示，诸如向量、N维矩阵或非数字值的任何数字表示)可以是受试者记录的数据字段的值的任何数字和/或分类表示。例如，受试者记录的数组表示可以是受试者记录在域空间中，诸如在欧几里得空间中的矢量表示。在一些情况下，云服务器135可以被配置为将整个受试者记录转换成数字表示，诸如向量。对于给定的受试者记录，云服务器135可以评估每个数据元素以确定该数据元素中包含或包括的数据类型。数据类型可以通知云服务器135关于进行哪个过程或技术来将该数据元素的数字或非数字值转换成数字表示。作为说明性示例，云服务器135可以将受试者记录的数据元素的非数字值(例如，医师笔记的文本)转换成数字表示(例如，向量)。转换可以包括使用自然语言处理技术，诸如Word2Vec或其他文本向量化技术，以生成表示每个文本词的数字值。生成的数字值可以用作向量输入到经训练的神经网络中来进行智能分析。作为另一说明性示例，对于包括图像(例如，MRI数据)或视频的图像帧(例如，超声的视频数据)的数据元素，可以使用经训练的自动编码器神经网络将每个图像或图像帧转换成数字表示(例如，向量)，该神经网络经训练以生成输入图像的潜在空间表示。输入图像的精简表示(例如，潜在空间表示)可以用作输入图像的数字表示。该数字表示可以输入到神经网络或其他机器学习模型中，以执行相关联的受试者记录的智能分析。作为又一示例，对于包括信息(例如，在一段时间内发生的事件或从受试者获取的测量值)的时变序列的数据元素，可以使用若干示例性转换将时变信息表示为数字表示。在一些情况下，事件的计数可以用作表示时变信息的向量。例如，如果在一年内对受试者进行了四次测量，则数字表示可以是“4”。在其他情况下，事件发生的频率或速率(例如，每周、每月、每年等)可以用作表示时变信息的向量。在再一些情况下，与时变信息中的每个事件相关联的测量值的平均值或组合可以用作表示时变信息的向量。本公开不限于这些示例，因此，时变信息的其他数字表示可以用作表示数字表示的向量。

AI系统145可以被配置为以大数据规模收集数据集、将收集到的数据集转换成策划的训练数据、使用该策划的训练数据执行学习算法以及将检测到的该训练数据的模式、相关性和/或关系存储在一个或多个经过训练的AI模型中。在一些实现中，AI系统145可以被配置为执行某些预测功能，诸如预测患有SMA的特定受试者的疾病进展、预测候选受试者组以包括在新的或现有临床研究中或预测特定于特定受试者的相关治疗日程表。在一些实现中，如关于图8和图11更详细地描述的，AI系统145的输出可以预测被诊断患有SMA的特定受试者的疾病进展。在其他实现中，如关于图9和图12更详细地描述的，AI系统145的输出可以预测新的受试者分组，这些受试者可以是适合新临床研究的候选者。在其他实现中，如关于图10和图13更详细地描述的，AI系统145的输出可以预测针对患有SMA的特定受试者的治疗选择。

在一些情况下，数组表示中的多个值对应于单个字段。例如，数据元素的值可以由多个二进制值来表示，该多个二进制值经由独热编码生成。作为另一示例，受试者记录的单个数据元素中的多个值中的每个值可以被单独地转换成数字表示，如上所述。表示多个值的每个值的数字表示可以组合成对应于数据元素的单个数字表示。可以使用任何向量组合技术(诸如平均向量幅度、添加向量或将多个向量连接成单个向量)来组合多个数字表示。在一些情况下，基于云的应用可以为一组受试者记录中的每个受试者记录生成数组表示。两个受试者记录之间的相似性可以通过比较两个数组表示来表示以确定它们之间的距离。受试者记录也可以沿维度(例如，数据元素)进行比较，而不是将整个受试者记录的数字表示与另一受试者记录的另一数字表示进行比较。例如，沿维度比较两个受试者记录可以包括将受试者记录的数据元素的数字表示与另一受试者记录的匹配数据元素的另一数字表示进行比较。此外，基于云的应用程序可以被配置成识别与使用者装置使用界面选择的受试者记录最近的受试者。最近邻可以通过将多个受试者记录中的数字表示与目标受试者记录的数字表示进行比较来确定。基于云的应用程序可以识别先前对作为最近邻居的受试者进行的治疗。基于云的应用可以在界面上利用先前对最近邻进行的治疗。

在一些实施例中，云服务器135被配置成创建搜索先前接受过治疗的受试者的数据库的查询。云服务器135可以执行查询并检索满足查询的约束的受试者记录。然而，在呈现查询结果时，基于云的应用程序可能仅对已经或正在被创建查询的使用者治疗的受试者完整地呈现受试者记录。基于云的应用程序掩蔽或以其他方式模糊受试者记录中针对未被创建查询的使用者治疗的受试者的部分。掩蔽或模糊受试者记录的包括在查询结果中的部分使使用者能够符合数据隐私规则。在一些实施例中，可以针对受试者记录之内的模式或共同属性自动地评估查询结果(无论查询结果是否被模糊)。

在一些实施例中，云服务器135将聊天机器人嵌入到基于云的应用程序中。聊天机器人被配置成自动地与使用者装置通信。聊天机器人可以在通信会话中与使用者装置通信，其中在使用者装置与聊天机器人之间交换消息。聊天机器人可以被配置成选择对从使用者装置接收的问题的答案。聊天机器人可以从基于云的应用程序可访问的知识库中选择答案。当使用者装置向聊天机器人传输问题并且该聊天机器人没有存储在知识库中的预先存在的答案时，存在针对存储在知识库中的预先存在的答案的问题的不同表示。可以向与聊天机器人交流的使用者提供关于聊天机器人提供的答案是否准确或有帮助的提示。

应当理解，可以执行任何机器学习或人工智能算法以生成本文描述的任何经训练的机器学习模型。可以训练并然后执行多种不同类型和技术的基于人工智能和机器学习的模型，以生成一个或多个预测使用者结果的输出，用于执行协议或功能。模型的非限制性示例包括朴素贝叶斯模型、随机森林或梯度推进模型、逻辑回归模型、深度学习神经网络、集成模型、监督学习模型、无监督学习模型、协同过滤模型和任何其他合适的机器学习或人工智能模型。

应当理解，基于云的应用可以被配置为执行智能功能，以咨询外部医师、确定诊断和提出针对任何疾病、病症、研究领域或疾患的治疗，包括但不限于COVID-19；肿瘤学，包括肺癌、乳腺癌、结直肠癌、前列腺癌、胃癌、肝癌、子宫颈癌(宫颈癌)、食道癌、膀胱癌、肾癌、胰腺癌、子宫内膜癌、口腔癌、甲状腺癌、脑癌、卵巢癌、皮肤癌和胆囊癌；实体瘤，诸如肉瘤和癌；免疫系统癌症，包括淋巴瘤(诸如霍奇金氏淋巴瘤和非霍奇金氏淋巴瘤)；以及血液癌症(血液学癌症)和骨髓癌症，诸如白血病(诸如急性淋巴细胞性白血病(ALL)和急性髓细胞性白血病(AML))，淋巴瘤和骨髓瘤。其他疾患包括血液疾患，诸如贫血、出血性疾患，诸如血友病、血栓；眼科疾患，包括糖尿病性视网膜病、青光眼和黄斑变性；神经疾患，包括多发性硬化症、帕金森病、脊髓性肌萎缩症、亨廷顿病、肌萎缩性脊髓侧索硬化症(ALS)和阿尔茨海默病；自身免疫性疾患，包括多发性硬化症、糖尿病、系统性红斑狼疮、重症肌无力、炎症性肠病(IBD)、银屑病、格林巴利综合征、慢性炎症性脱髓鞘性多发性神经病(CIDP)、格雷夫斯氏病、桥本氏甲状腺炎、湿疹、血管炎、过敏和哮喘。

其他疾病和障碍包括但不限于：肾病、肝病、心脏病、中风、胃肠道紊乱(诸如乳糜泻、克罗恩病、憩室病、肠易激综合征(IBS)、胃食管反流病(GERD)和胃溃疡)、关节炎、性传播疾病、高血压、细菌和病毒感染、寄生虫感染、结缔组织疾病、乳糜泻、骨质疏松症、糖尿病、狼疮、中枢及周围神经系统疾病(诸如注意力缺陷/多动障碍(ADHD))、僵住症、脑炎、癫痫和抽搐)、周围神经病、脑膜炎、偏头痛、脊髓病、自闭症、双相障碍和抑郁症。

IV.A.基于云的应用程序使使用者装置能够向其他使用者装置广播咨询请求并自动压缩受试者记录以符合数据隐私规则

图2是示出过程200流程图，该过程由基于云的应用程序执行以将压缩受试者记录分发到与请求协助治疗受试者的咨询广播相关联的使用者装置。过程200可以由云服务器135进行以使与不同实体(例如，医院)相关联的使用者装置能够就针对受试者的治疗进行协作或咨询，同时符合数据隐私规则。

过程200开始于框210，其中云服务器135从使用者装置接收属性集。该属性集中的每个属性可以表示受试者(例如，患者)的任何特性。该属性集可以由使用者使用由云服务器135提供的界面来识别。例如，该属性集识别受试者的人口统计信息和受试者经历的最近症状。人口统计信息的非限制性实例包括年龄、性别、民族、居住的州或城市、收入范围、教育水平或任何其他合适的信息。最近症状的非限制性实例包括当前或最近(例如，最后一次就诊时、摄入时、24小时之内、一周之内)经历了特定症状(例如，呼吸困难、高于阈值温度的发烧、血压高于阈值血压等)的受试者。

在框220处，云服务器135为受试者生成记录。该记录可以是包括一个或多个数据字段的数据元素。该记录指示与受试者相关联的属性集中的每个属性。该记录可以存储在中央数据存储(诸如数据注册表140或任何其他基于云的数据库)处。在框230处，云服务器135接收由使用者使用界面提交的请求。该请求可以是发起咨询广播。例如，与实体相关联的使用者是在医疗中心治疗受试者的医师。使用者可以操作使用者装置来访问基于云的应用程序以广播帮助治疗受试者的请求。可以将广播传输到与不同实体相关联的一组其他使用者装置。

在框240处，云服务器135使用包括在与受试者相关联的属性集中的一个或多个最近症状来查询中央数据存储。查询结果包括其他记录集。该其他记录集中的每个记录与另一受试者相关联。在一些情况下，云服务器135可以查询中央数据存储以识别与受试者记录相似的其他受试者记录。可以通过将整个受试者记录的经转换的表示与每个其他受试者记录的经转换的表示进行比较来确定相似性。经转换的表示的比较可能会产生距离(例如，欧几里得距离)，该距离表示两个受试者记录之间的相似性程度。在其他情况下，可基于在数据元素中包含的值来确定相似性。例如，目标受试者记录可以包括目标数据元素，该目标数据元素包括表示受试者经历的症状的文本。存储在中央数据存储中的每个其他受试者记录还可以包括数据元素，该数据元素包括表示相关联的受试者的症状的文本。云服务器135可以使用上述技术(例如，经训练的卷积神经网络、文本向量化技术，诸如Word2Vec等)将目标数据元素中包含的文本转换成数字表示。可以将目标数据元素中包含的文本的数字表示与每个其他受试者记录的匹配数据元素中包含的文本的数字表示进行比较。两个数字表示之间的比较的结果(例如，在域空间中，诸如欧几里得空间)可以指示目标数据元素中包含的文本与另一受试者的数据元素中包含的文本相似的程度记录。在框250处，云服务器135识别目标地址集(例如，与不同实体相关联的其他使用者装置)。该目标地址集中的每个目标地址与另一受试者的护理提供者相关联，该另一受试者与在框240处识别的其他记录集中的一个或多个其他记录相关联。在框260处，云服务器135生成受试者的记录的压缩表示。记录的压缩表示略去、模糊或模糊记录的至少一部分。记录的压缩表示可以在不违反数据隐私规则的情况下在外部系统之间交换，因为记录的压缩表示不能用于唯一地识别与记录相关联的受试者。云服务器135可以执行任何掩蔽或模糊技术来生成记录的压缩表示。

在框270，云服务器135利用到目的地地址集中的每个目的地地址的连接输入组成部分(例如，使得建立通信渠道的可选择链接，诸如超链接)的记录的精简表示.连接输入部件可以是呈现给每个目标地址的可选择元素。连接输入部件的非限制性实例包括按钮、链接、输入元素和其他合适的可选择元素。在框280处，云服务器135从与目标地址相关联的目标装置接收通信。该通信包括以下指示：操作目标装置的使用者选择了与该记录的压缩表示相关联的连接输入部件。在框290，云服务器135在使用者装置和选择连接输入组成部分的目标装置之间建立通信渠道。通信渠道使操作使用者装置的使用者(例如，治疗受试者的医师)能够与选择连接输入组成部分的目的地地址相关联的目标装置交换消息或其他数据(例如，视频馈送)(例如，另一医院的医师同意协助治疗患者)。

在一些实施例中，云服务器135被配置成自动地确定使用者装置的位置和在其处选择了连接输入部件的目标装置的位置。云服务器135还可以比较这些位置以确定是否生成记录的压缩表示。例如，在框260处，云服务器135可以生成记录的压缩表示，因为云服务器135确定该目标地址集中的每个目标地址不与发起咨询广播的使用者装置并置。在这种情况下，云服务器135可以自动地确定生成记录的压缩表示以符合数据隐私规则。又如，若该目标地址集与与发起咨询广播的使用者装置相同的实体相关联，则云服务器135可以将记录完整地(例如，在不模糊记录的一部分的情况下)传输到与目标地址相关联的目标装置，同时仍符合数据隐私规则。

在一些实施例中，云服务器135生成多个其他压缩记录表示。多个其他压缩记录表示中的每一个与另一受试者相关联。云服务器135将多个其他压缩记录表示传输到使用者装置；并从使用者装置接收识别对多个其他压缩记录表示的子集的选择的通信。目标地址集中的每一个由压缩记录表示中的一个表示。例如，生成压缩记录表示包括：确定与压缩记录表示相关联的另一受试者的管辖范围；确定管辖管辖范围之内的受试者记录的交换的数据隐私规则；以及生成压缩记录表示以符合数据隐私规则。多个其他压缩记录表示中的第一其他压缩记录表示可以包括特定类型的数据。多个其他压缩记录表示中的第二其他压缩记录表示可以略去或模糊特定类型的数据。例如，特定类型的数据可以是联系信息、识别信息(诸如姓名)、社会保险号、以及可用于唯一识别其他受试者的其他合适信息。

在一些实施方式中，可以在中央数据存储处接收通信。通信可以由使用者操作的使用者装置传输，并且可以包括目标受试者的目标受试者记录的标识符。当在中央数据存储处接收到通信时，该通信可以使中央数据存储查询所存储的受试者记录集以识别受试者记录集的不完整子集。可以识别不完整子集的每个受试者记录并将其包括在不完整子集中，因为受试者记录被确定为在至少一个维度上与目标受试者记录相似。沿维度的两个受试者记录之间的相似性可以表示关于受试者记录的数据元素的相似性，诸如关于症状、诊断、治疗或任何其他合适的数据元素的相似性。一个或多个维度(沿该一个或多个维度确定相似性或不相似性)可以自动定义或可以是使用者定义的。确定目标受试者记录与存储在中央数据存储中的受试者记录集中的每个受试者记录之间的相似性或不相似性可以至少包括以下操作：基于通信中包括的标识符检索该目标受试者记录，生成该目标受试者记录的经转换的表示(或检索该目标受试者记录的现有的经转换的表示)以及使用该目标受试者记录的经转换的表示和该受试者记录集中每个受试者记录的经转换的表示执行聚类操作。可以关于一个或多个维度(例如，受试者记录的一个或多个特征)执行聚类操作。例如，聚类操作可以基于包含表示受试者症状的值的数据元素对存储在中央数据存储中的受试者记录集进行聚类。目标受试者记录的经转换的表示可以包括数据元素的向量表示，该数据元素包含表示受试者症状的值。可以比较目标受试者记录的该数据元素的向量表示和受试者记录集中的每个受试者记录中的对应数据元素的向量表示以定义受试者记录的聚类。每个受试者记录的聚类可以定义一组一个或多个受试者记录，该一个或多个受试者记录共享与被选为相似性维度的数据元素相关联的共同特性。在每个受试者记录的聚类中，可以计算目标受试者记录的经转换的表示与受试者记录集的其他经转换的表示之间的欧几里得距离。例如，当受试者记录的经转换的表示与目标受试者记录的经转换的表示之间的欧几里得距离在阈值内时，可以确定受试者记录与目标受试者记录相似。

IV.B.基于汇总使用者集成更新可共享的治疗计划定义

图3是示出过程300的流程图，该过程用于监测治疗计划定义(例如，决策树或治疗工作流程)的使用者集成并基于监测的结果自动地更新治疗计划定义。过程300可以由云服务器135进行以使使用者装置能够定义用于治疗患有病症的受试者群体的治疗计划。使用者装置可以将治疗计划定义分发给连接到内部或外部网络的使用者装置。接收治疗计划定义的使用者装置可以确定是否将治疗计划定义集成到自定义规则库中。可以监测与自定义规则库的集成，并将其用于自动地修改治疗计划定义。

在框310处，云服务器135存储界面数据，当使用者装置加载界面数据时，该界面数据使治疗计划定义界面被显示。当使用者装置访问云服务器135以导航到治疗计划定义界面时，治疗计划定义界面被提供给一组使用者装置中的每个使用者装置。在一些实施例中，治疗计划定义界面使使用者能够定义治疗计划以用于治疗患有病症(例如，淋巴瘤)的受试者群体。

在框320处，云服务器135接收通信集。该通信集中的每个通信是从该一组使用者装置中的一个使用者装置接收的，并且是响应于该使用者装置与治疗计划定义界面之间的交互生成的。在一些实施例中，通信包括一个或多个标准，例如，用于定义受试者记录群体。每个标准可以由可变类型表示。例如，变量类型可以是用作标准条件的值或变量。规则的标准的变量类型也可以是将受试者群体约束到不完整子集的条件的任何值。例如，定义孕妇群体的规则的可变类型是“如果‘受试者怀孕了’”。标准可以是用于过滤受试者记录池的过滤条件。例如，定义与可能发展为淋巴瘤的受试者相关联的受试者记录群体的标准可包括“间变性淋巴瘤激酶(ALK)异常”和(AND)“60岁以上”的过滤条件。该通信还可以包括针对该病症的特定类型的治疗。特定类型的治疗可以与某个行动(例如，接受手术)或避免某些行动(例如，减少盐摄入量)相关，该行动旨在治疗与受试者记录群体所表示的受试者相关联的病症。

在框330处，云服务器135将规则集存储在中央数据存储(诸如数据注册表140或云网络130之内的任何其他中央服务器)中。规则集中的每个规则包括一个或多个标准和包括在来自使用者装置的通信中的特定治疗类型。作为说明性实例，规则表示用于治疗受试者的淋巴瘤的治疗工作流程。该规则包括以下标准(例如，“如果”语句之后的条件)和下一行动(例如，由使用者定义或选择的特定治疗类型，并且其在“则”语句之后)：“如果‘淋巴结活检表明存在淋巴瘤细胞’并且(AND)‘血液检查显示存在淋巴瘤细胞’，则‘用化疗进行治疗’并且‘进行主动监测’”。另外，规则集中的每个规则与对应于从其接收通信的使用者装置的标识符相关联地存储。

在框340处，云服务器135经由治疗计划定义界面识别规则集中跨实体可用的子集。规则子集可以包括规则集中与病症相关联并被分发到外部系统(诸如其他医疗中心)用于评估的子集。例如，可以通过评估规则的特性或与规则相关联的标识符来选择规则以包括在规则子集中。规则的特性可以包括存储或附加到存储的规则的代码或标志。代码或标志指示该规则通常可用于外部系统(例如，可用于实体)。

在框350处，对于在框340处识别的规则子集中的每个规则，云服务器135监测与该规则的交互。交互可以包括：外部实体(例如，在与定义了与规则相关联的治疗计划的使用者相关联的实体的外部)将规则集成到自定义规则库中。例如，与外部实体(例如，不同的医院)相关联的使用者装置评估可用于外部实体的规则。评估包括：确定规则是否适合集成到由外部实体定义的规则集中。当与外部实体相关联的使用者装置指示，使用该规则定义的治疗工作流程适合治疗与该规则对应的病症时，该规则可能是适合的。继续上文的说明性实例，治疗淋巴瘤的规则可用于外部医疗中心。与外部医疗中心相关联的使用者确定治疗淋巴瘤的规则适合集成到由外部医疗中心定义的规则集中。因此，在将规则集成到外部医疗中心定义的自定义规则库中之后，与外部医疗中心相关联的其他使用者将能够通过从自定义规则库选择集成的规则来执行该集成的规则。另外，云服务器135通过检测当治疗计划定义界面从与外部相关联的使用者装置接收到与将规则集成到自定义规则库相对应的输入时生成或导致生成的信号来监测可用规则的集成。

作为另一说明性实例，与外部实体相关联的使用者装置使用治疗计划定义将交互特定修改版本的规则集成到自定义规则库中。交互特定修改版本的规则是被选择用于集成到自定义规则库中的规则的一部分。选择用于集成的规则的一部分包括：选择包括在用于集成到自定义规则库中的规则的不到全部标准。继续上文的说明性实例，与外部实体相关联的使用者装置选择标准“如果‘淋巴结活检表明存在淋巴瘤细胞’”以集成到自定义规则库中，但使用者装置没有选择标准“血液检查显示存在淋巴瘤细胞”以集成到自定义规则库中。因此，集成到自定义规则库中的交互特定修改版本的规则为：“如果‘淋巴结活检表明存在淋巴瘤细胞’，则‘用化疗进行治疗’并且‘进行主动监测’”。标准“血液检查显示存在淋巴瘤细胞”从规则中移除，以创建交互特定修改版本的规则，其被集成到自定义规则库中。

在框360处，云服务器135可以检测到交互特定修改版本的规则被集成到由外部实体定义的自定义规则库中。一旦检测到，云服务器135就可以更新存储在云网络130的中央数据存储中的规则。可以基于监测的交互来更新规则。对于监测的交互，该示例中的术语“基于”对应于“评估……后”或“使用对……评估的结果”。例如，云服务器135检测到与外部实体相关联的使用者装置集成了交互特定修改版本的规则。响应于检测到交互特定修改版本的规则，云服务器135可以将存储在中央数据存储中的规则从现有规则更新为交互特定修改版本的规则。

在一些实施例中，云服务器135通过生成要跨外部实体使用的更新版本来更新规则。另一原始版本可以保持未更新并且可供与使用者装置相关联的使用者使用，从该使用者装置接收到识别标准和特定类型的治疗的一个或多个通信。例如，云服务器135更新存储在中央数据存储处的规则，但云服务器135不更新存储在中央数据存储处的规则集中的另一规则。

在一些实施例中，云服务器135可以在满足更新条件时更新规则。更新条件可以是阈值。例如，阈值可以是已将修改版本的规则集成到其自定义规则库中的外部实体的数量或百分比。又如，可以使用经训练的机器学习模型的输出来确定更新条件。为了说明，云服务器135可以将从外部实体接收到的检测信号输入到多臂老虎机模型中，该模型自动确定是否和/或何时利用规则和/或是否以及何时利用规则的更新版本。为了说明且仅作为非限制性示例，可以将规则定义为可执行代码，使得该规则在执行时自动查询中央数据存储以识别受试者记录集的子集以进一步分析。此外，规则可以包括用于治疗与所识别的受试者记录的子集相关联的受试者的一个或多个治疗方案。规则可以被定义为用于定义受试者记录集的子集并处理与受试者记录的子集相关联的子集的工作流。例如，规则可以包括一个或多个标准，用于从受试者记录集中过滤受试者记录，以及用于对与其余受试者记录相关联的受试者执行某些治疗协议(例如，过滤后其余的受试者记录已被对受试者记录集执行)。虽然规则是由第一实体的使用者定义的，但规则可以被第二实体(例如，第一和第二实体是两个不同的医疗机构)的外部使用者(例如，在不同医院工作的医生)接受(例如，集成到第二实体的规则库中)、修改或完全拒绝。在一些示例中，每次第二实体的外部使用者接受规则并因此将规则完全集成到其代码库中时，可以将反馈信号传输到云服务器135。在其他示例中，每次第二实体的使用者修改规则时，都可以向云服务器135传输反馈信号。在其他示例中，每次第二实体的使用者完全拒绝规则时，可以将反馈信号传输到云服务器135。在以上每个示例中，反馈信号可以包括指示规则(例如，规则标识符)以及规则是否被接受、修改或拒绝的数据。多臂老虎机模型(由云服务器135执行)可以被配置为智能地选择原始规则、修改的规则或完全不同的规则之一用于广播给其他实体的外部使用者。原始规则、修改的规则或不同规则的选择可以至少部分地基于多臂老虎机的配置。在一些示例中，多臂老虎机可以配置有εgreedy搜索技术。在εgreedy搜索技术中，多臂老虎机模型可以选择原始规则以“1–epsilon”的概率向其他实体的外部使用者广播，其中epsilon表示探索新规则或修改的规则的概率。因此，多臂老虎机模型可以选择原始规则的修改版本或具有已定义epsilon概率的全新规则。多臂老虎机模型可以基于从其他实体接收到的反馈信号来改变epsilon。例如，如果反馈信号指示规则已经被不同的外部使用者以特定方式修改超过阈值次数，那么多臂老虎机模型可以学习选择以特定方式修改的规则，广播给外部使用者，而不是广播原始规则。

在一些实施例中，云服务器135识别规则集中的多个规则，该多个规则包括对应于相同可变类型的标准并且识别相同或相似类型的治疗。可变类型可以是用作标准的条件的值或变量。规则的标准的可变类型也可以是将受试者群体约束到亚群组的条件的任何值。例如，定义孕妇群体的规则的可变类型是“如果‘受试者怀孕了’”。当新规则通常被传输到由其他实体操作的服务器时，云服务器135确定作为多个规则的精简表示的新规则。

在一些实施例中，云服务器135提供被配置成接收受试者的属性集的另一界面。例如，使用者操作使用者装置以访问其他界面并使用其他界面选择包括属性集的受试者记录。对受试者记录的选择可以使云服务器135接收受试者的该属性集。云服务器135基于受试者的该属性集识别(例如，确定)其标准被满足的特定规则。例如，相对于存储在中央数据存储中的规则的标准评估受试者记录的属性集。举例来说，若该属性集包括包含值“怀孕”的数据字段并且若规则包括单个标准“如果‘受试者怀孕了”，则云服务器135识别出该规则。云服务器135更新其他界面以呈现特定规则和与特定规则相关联的每个特定类型的治疗。

在一些实施例中，规则的标准是与特定人口统计变量和/或特定症状类型变量相关的变量类型。人口统计变量的非限制性实例包括表征受试者的人口统计数据的任何信息项，诸如年龄、性别、民族、种族、收入水平、教育水平、所在地和其他合适的人口统计信息项。症状类型变量的非限制性实例指示受试者在当前或最近(例如，最后一次就诊时、摄入时、24小时之内、一周之内)经历了特定症状(例如，呼吸困难、昏厥、高于阈值温度的发烧、血压高于阈值血压等)。

在一些实施例中，云服务器135监测受试者记录注册表中的数据，例如存储在数据注册表140中的受试者记录。云服务器135针对规则子集(在框340识别)中的每个规则监测受试者记录注册表中的数据。云服务器135识别受试者集，其规则的标准被满足，并且其特定治疗先前被开出给受试者。云服务器135为受试者集中的每个受试者识别如从评估或检查指示或使用评定或检查指示的受试者的报告状态。例如，报告状态是表征受试者在一个方面的状态的任何信息，该状态诸如受试者是否已出院、受试者是否还活着、受试者血压的测量结果、受试者在睡眠阶段期间醒来的次数以及其他合适的状态。云服务器135基于报告状态确定该受试者集对特定治疗的估计反应性度量。例如，若规则中的特定治疗是开出药物，则估计反应性度量是对药物解决受试者经历的症状或病症的程度的表示。作为非限制性实例，该受试者集的估计反应性度量可以是平均值、加权平均值或指派给该受试者集中的每个受试者的评分的任何总和。该评分可以表示或衡量受试者对治疗的反应性的有效性。在一些情况下，云服务器135可以通过使用聚类技术生成表示受试者对治疗的反应性的有效性的评分。为了说明且仅作为非限制性示例，受试者记录集可以表示先前经历了用于治疗病症的特定治疗方案的受试者。受试者记录集中的每个受试者记录可以被标记(例如，由使用者)为具有对特定治疗方案的积极的反应性、对特定治疗方案的中性的反应性或对特定治疗方案的消极的反应性之一.然后可以将受试者记录集分为三个子集(例如，聚类)；受试者记录的第一子集可以对应于对特定治疗方案具有积极的反应性的受试者，受试者记录的第二子集可以对应于对特定治疗方案具有中性的反应性的受试者，并且受试者记录的第三子集可以对应于对特定治疗方案具有中性反应的受试者。根据上述实施方式，云服务器135可以将受试者记录的第一子集中的每个受试者记录转换成经转换的表示。云服务器135还可以使用上述技术将受试者记录的第二子集中的每个受试者记录转换成经转换的表示。最后，云服务器135可以使用上述技术将受试者记录的第三子集中的每个受试者记录转换成经转换的表示。在一些实施方式中，确定新受试者对特定治疗方案的预测的反应性可以包括将新受试者的新受试者记录转换成新的经转换的表示。新的经转换的表示可以在域空间(例如，欧几里得空间)中与每个聚类或受试者记录子集的经转换的表示进行比较。如果新的经转换的表示最接近与第一子集相关联的经转换的表示的质心，则预测新受试者对特定治疗具有积极的反应性。如果新的经转换的表示最接近第二子集的经转换的表示的质心，则预测新受试者对特定治疗具有中性的反应性。最后，如果新的经转换的表示最接近第三子集的经转换的表示的质心，则预测新受试者对特定治疗方案具有消极的反应性。质心可以是与子集相关联的经转换的表示的多维平均值。云服务器135可以使规则集中的子集和该受试者集的估计反应性度量被显示或以其他方式呈现在治疗计划定义界面中。

IV.C.使用对类似受试者开出的治疗提出具有相关联疗效的治疗建议

图4是示出用于为受试者推荐治疗的过程400的流程图。过程400可以由云服务器135进行以向与医疗实体相关联的使用者装置显示针对受试者的推荐治疗和每个推荐治疗的疗效。可以使用评估先前对类似受试者开出的治疗的疗效的结果来确定推荐治疗。

在框410处，云服务器135接收与表征受试者的各方面的受试者记录相对应的输入。从与实体相关联的使用者装置接收输入。此外，响应于以下接收输入：使用者装置使用与被配置成管理受试者记录注册表的平台的实例相关联的界面来选择或以其他方式识别受试者记录。使用者装置可以通过加载存储在连接在云网络130之内的网页服务器(未示出)处的界面数据来访问该界面。网页服务器可以包括在云服务器135上或在其上执行。

在框420处，云服务器135从在框410处接收的受试者记录中提取受试者属性集。受试者属性表征受试者的方面。受试者属性的非限制性实例包括在电子健康记录中发现的任何信息、任何人口统计信息、年龄、性别、民族、近期或历史症状、病症、病症的严重性以及表征该受试者的任何其他合适的信息。

在框430处，云服务器135使用该受试者属性集来生成受试者记录的数组表示。例如，数组表示是受试者记录中包括的值的矢量表示。矢量表示可以是域空间诸如欧几里得空间中的矢量。然而，数组表示可以是受试者记录的数据字段的值的任何数字表示。在一些实施例中，云服务器135可以进行特征分解技术，诸如奇异值分解(SVD)，以生成表示受试者记录的数组表示的受试者属性集的值。

在框440处，云服务器135访问表征多个其他受试者的其他数组表示集。包括在该其他数组表示集中的数组表示可以是表征另一受试者(例如，多个其他受试者中的一个)的受试者记录的矢量表示。

在框450处，云服务器135确定表示以下的相似性评分：表示受试者的数组表示与其他受试者中的每一个的数组表示之间的相似性。例如，使用表示受试者的数组表示与表示其他受试者的数组表示之间的距离(在域空间中)的函数来计算相似性评分。举例来说并且仅作为非限制性实施，可以使用“0”到“1”的范围来计算相似性评分，其中“0”表示超出定义阈值的距离，并且“1”表示数组表示在其之间没有距离。为了说明并且仅作为非限制性示例，相似度评分可以基于两个数组表示(例如，向量)之间的欧几里得距离。

在框460处，云服务器135识别多个其他受试者的第一子集。当与受试者相关联的相似度评分在预定的绝对或相对范围内时，受试者可以被包括在第一子集中。类似地，在框470处，云服务器识别多个其他受试者的第二子集。然而，当该受试者的相似度评分在另一预定范围内时，该受试者可以被包括在第二子集中。

在框480处，云服务器135检索多个其他受试者的第一子集和第二子集中的每个受试者的记录数据。记录数据包括包含在表征受试者的受试者记录中的属性。例如，受试者记录数据识别受试者接受的治疗以及受试者对治疗的反应性。对治疗的反应性可以通过以下进行表示：文本(例如，“受试者对治疗反应阳性”)或指示受试者对治疗反应阳性或阴性的程度的评分(例如，从“0”到“1”的评分，其中“0”指示阴性反应性，并且“1”指示阳性反应性)。在一些情况下，治疗反应性可以指示受试者对先前对受试者进行的治疗做出积极反应的程度。例如，治疗反应性可以是数字(例如，从“0”到“10”的评分)或非数字值(例如，分配来表示反应性的词，例如“积极”、“中性”或“消极”)。在一些示例中，先前治疗的受试者的治疗反应性可以是使用者定义的。在其他示例中，可以基于从使用者取得的测试或测量结果自动确定治疗反应性。例如，可以基于对受试者进行的血液测试中包括的值来自动确定治疗响应性。

在框490处，云服务器135生成要呈现在使用者装置上的界面处的输出。输出可以指示，例如，对受试者的一种或多种治疗的建议。可以基于例如第一和第二子集中的其他受试者接受的治疗、第一和第二子集中的受试者的治疗反应性以及第二子集中的受试者的受试者属性与受试者的受试者属性之间的差异来确定一种或多种治疗的建议。

在一些实施例中，云服务器135确定受试者和来自第一或第二子集的受试者中的一个正在被相同的医疗实体治疗或已被相同的医疗实体治疗。云服务器135确定第一或第二子集中的受试者和另一受试者正被不同的医疗实体治疗或已被不同的医疗实体治疗。云服务器135可以经由界面利用受试者的差异化模糊版本的记录。基于不同管辖范围的数据隐私规则对数据共享施加的不同约束，基于云的应用可以自动向实体提供不同混淆版本的记录。在一些实施例中，云服务器135通过对受试者记录集的经转换的表示进行聚类操作来识别受试者记录的第一子集和第二子集。

IV.D.自动模糊来自外部实体的查询结果

图5是示出用于模糊查询结果以符合数据隐私规则的过程500的流程图。过程500可以由云服务器135作为确保与外部实体的受试者记录的数据共享符合数据隐私规则的执行规则来进行。基于云的应用程序可以使使用者装置能够向数据注册表140查询满足查询约束的受试者记录。但是，查询结果可能包括源自外部实体的数据记录。因此，过程500使云服务器135能够向使用者装置提供来自外部实体的关于治疗的附加信息，同时符合数据隐私规则。

在框510处，云服务器135从与第一实体相关联的使用者装置接收查询。例如，第一实体是与第一受试者记录集相关联的医疗中心。查询可以包括与医学病症相关联的症状集或限制数据注册表140的查询搜索的任何其他信息。

在框520处，云服务器135使用从使用者装置接收的查询来查询数据库。在框530处，云服务器135生成对应于该症状集并且与医学病症相关联的查询结果的数据集。例如，使用者装置传输对已被诊断患有淋巴瘤的受试者的受试者记录的查询。查询结果包括来自第一受试者记录集(其源自第一实体或在第一实体处创建)的至少一个受试者记录和来自与第二实体(例如，不同于第一实体的医疗中心)相关联的第二受试者记录集的至少一个受试者记录。来自第一受试者记录集的受试者记录和来自第二受试者记录集的受试者记录中的每一者可以包括受试者属性集。受试者属性可以表征受试者的任何方面。

在框540处，云服务器135向使用者装置呈现(例如，利用或以其他方式使其对……可用)包括在第一受试者记录集中的受试者记录的完整的受试者属性集，因为这些记录源自第一实体。完整地呈现受试者记录包括：使包括在受试者记录中的属性集对使用者装置可用，以使用界面进行评估或交互。在框550处，云服务器135还或者可替代地将以下利用于使用者装置：包括在第二受试者记录集中的每个受试者记录的受试者属性集中的不完整子集。提供受试者属性集中的不完整子集为受试者提供了匿名性，因为受试者属性的不完整子集不能用于唯一地识别受试者。例如，提供不完整子集可以包括10个受试者属性中的四个可用，以匿名化与10个受试者属性相关联的受试者。在一些实施例中，在框550处，云服务器135利用包括在第二受试者中的每个受试者记录的模糊的受试者属性集。模糊该属性集包括：减小所提供的信息的粒度。例如，代替利用受试者属性——受试者的地址，模糊属性可能是邮政编码或受试者居住的州。无论是利用了不完整的子集还是模糊的子集，云服务器135都将与受试者记录相关联的受试者匿名化。

IV.E.聊天机器人与自学知识库的集成

图6是示出用于使用诸如聊天机器人之类的机器人脚本与使用者交流的过程600的流程图。过程600可以由云服务器135进行，以将使用者所提供的新问题自动地链接到知识库中的现有问题以提供对新问题的响应。聊天机器人可以被配置成提供与条件相关联的问题的答案。

在框605处，云服务器135定义知识库，该知识库包括答案集。知识库可以是存储在存储器中的数据结构。数据结构存储文本，该文本表示对定义的问题的答案集。响应于在通信会话期间从使用者装置接收的问题，每个答案能够由聊天机器人选择。知识库可以被自动地定义(例如，通过从数据源检索文本并使用自然语言处理技术解析文本)或经使用者定义(例如，由研究人员或医师)。

在框610处，云服务器135接收来自特定使用者装置的通信。该通信对应于发起与特定聊天机器人的通信会话的请求。例如，医师或受试者可以操作使用者装置以在聊天会话中与聊天机器人交流。云服务器135(或存储在云服务器135内的模块)可以管理或建立使用者装置和聊天机器人之间的通信会话。在框615处，云服务器135在通信会话期间从特定使用者装置接收特定问题。该问题可以是使用自然语言处理技术处理的文本字符串。

在框620处，云服务器135使用从特定问题提取的至少一些词来查询知识库。可以使用自然语言处理技术从表示特定问题的文本字符串提取词。在框625处，云服务器135确定知识库不包括特定问题的表示。在这种情况下，收到的问题可能是新提出给聊天机器人的。在框630处，云服务器135从知识库识别另一问题表示。云服务器135可以通过将从使用者装置接收的问题与存储在知识库中的其他问题表示进行比较来识别另一问题表示。若例如基于使用自然语言处理技术对问题表示进行分析确定了相似性，则云服务器135识别其他问题表示。

在框635处，云服务器135检索该答案集中的在知识库中与另一问题表示相关联的答案。在框640处，在框635处检索到的答案作为对接收到的问题的答案被传输到特定使用者装置，即使知识库不包括接收到的问题的表示。在框645处，云服务器135从特定使用者装置接收指示。例如，可以响应于以下而接受该指示：使用者装置指示由聊天机器人提供的答案可以回答特定问题。

在框650处，云服务器135更新知识库以包括特定问题的表示或特定问题的不同表示。例如，存储问题的表示包括：将包括在问题中的关键字存储在数据结构中。云服务器135还可以将特定问题的相同或不同表示与传输到特定使用者装置的更多答案相关联。

在一些实施例中，云服务器135访问与特定使用者装置相关联的受试者记录。云服务器135确定特定问题的多个答案。云服务器135然后从该答案集中选择一个答案。然而，对答案的选择至少部分地基于包括在与特定使用者装置相关联的受试者记录中的一个或多个值。例如，受试者记录中包含的值可以表示受试者最近所经历的症状。聊天机器人可以被配置为选择取决于受试者最近所经历的症状的答案。在一些情况下，云服务器135可以访问已经被训练的排序学习机器学习模型以预测答案集中的每个答案的顺序。可以使用训练答案集对排序学习机器学习模型进行训练。训练答案集中的每个答案都可以用一种或多种症状和该症状的相关性评分来标记。相关性评分可以表示相关联的答案与一种或多种症状中的给定症状的相关性。相关性评分可以是使用者定义的或基于某些因素自动确定，诸如训练答案中的词(例如，针对症状的词)的频率。训练答案集可以与聊天机器人在生产环境中运行时使用的答案集不同。排序学习机器学习模型可以基于排序学习模型学习到的模式，根据症状(从受试者资料中检测到的)的相关性来学习如何对答案集(在生产环境中使用的)进行排序(例如，标记的训练答案集与针对一种或多种症状中的每个症状的相关联的相关性评分之间的模式)。聊天机器人可以基于答案集的预测顺序从生产环境中使用的答案集中选择答案。在一些情况下，答案集中的每个答案可以与指示与答案相关联的一种或多种症状的标签或代码相关联。云服务器135可以将表示受试者最近经历的症状的值与每个答案相关联的标签或代码进行比较。

V.被配置为便于用于治疗被诊断患有SMA的受试者的智能治疗选择的网络环境

图7是示出根据本公开的一些方面的用于部署经过训练的人工智能模型以便于用于治疗患有SMA的受试者的治疗和治疗日程表的受试者特定性识别的网络环境的实例的框图。网络环境700可以包括使用者装置110和AI系统702。使用者装置110可以使用网络736(例如，任何公共或专用网络)与AI系统702交互，这便于使用者装置110和AI系统702之间的通信交换。AI系统702可以是AI系统145的另一种实现，参照图1对其进行描述。使用者装置110可以由使用者操作，诸如正在治疗被诊断患有SMA的受试者的医生或其他医疗专业人员。使用者装置110可以使用应用程序编程接口(API)704向AI系统702发送请求，以触发某些功能(例如，基于云的服务)。虽然图7图示了单个使用者装置110，但是应当理解，任何数量的使用者装置或其他计算装置(诸如基于云的服务器)都可以与AI系统702交互。

AI系统702可以被配置为执行某些预测功能，例如预测适合临床研究的候选者、预测患有SMA的特定受试者的疾病进展或预测特定于特定受试者的相关治疗日程表。AI系统702可以使用例如AI模型执行系统710来执行预测功能。若干用于存储数据的数据结构(例如，数据库)可以便于AI系统702可以执行的预测功能。在一些实现中，数据结构可以存储训练数据716、验证数据718、测试数据720、来自数据注册表722的受试者记录、AI模型724、治疗726、治疗日程表728、临床研究730和受试者组标识符732。AI系统702的各种部件可以使用通信网络734相互通信。

AI模型训练系统708可以便于使用训练数据716训练AI模型。例如，AI模型训练系统708可以执行代码(例如，由处理器执行，诸如基于云的服务器的物理或虚拟CPU)，这使得训练数据716被输入到学习算法中。可以执行学习算法以检测训练数据716中包括的数据点之间的模式或相关性。检测到的模式或相关性可以存储为AI模型，该模型被训练为响应于接收输入(例如，新的、以前未见过的输入数据，诸如未包括在训练数据中的受试者的受试者记录716)而基于存储的模式或相关性来生成预测结果的输出。

在关于图8和图11更详细描述的一些实现中，经过训练的AI模型的输出可以预测被诊断患有SMA的特定受试者的疾病进展。在其他实现中，如关于图9和图12更详细地描述的，经过训练的AI模型的输出可以预测新的或以前未研究的目标，以使用新的临床研究和适合新临床研究的候选受试者进行研究。在如关于图10和图13更详细地描述的其他实现中，经过训练的AI模型的输出可以预测患有SMA的特定受试者的治疗选择。

由AI系统702执行的学习算法可以包括任何监督、非监督、半监督、强化和/或集成学习算法。可以由AI系统702执行的学习算法的非限制性示例包括在下表1中。由AI系统702为训练AI模型选择的学习算法可以基于，例如，训练数据716的至少一部分的类型和大小和用于AI系统702可以执行的预测功能的目标预测结果。表1中提供的学习算法可以用于本文所述的方法中的任何一种。

表1

此外，在训练各种AI模型的过程中，AI训练系统708可以与训练数据716、验证数据718和测试数据720进行交互。训练数据716是输入到学习算法中的数据集。学习算法检测训练数据716内数据点之间的模式、相关性或关系。然而，由学习算法检测到的模式、相关性或关系(例如，参数)会使训练数据716过拟合。当由学习算法(例如，其生成模式、相关性或关系)执行的分析与训练数据716完全或基本完全对应时，就会发生过拟合。在这种情况下，由学习算法执行的分析可能无法准确地用作预测新的、以前未见过的输入数据的基础。因此，验证数据718是与训练数据716不同的数据集，并且用于修改模式、相关性或关系以防止过拟合训练数据716。在对训练数据716执行多种学习算法的情况下，验证数据718可以用于识别对新输入数据(例如，未包括在训练数据716中的输入数据)具有最高性能的学习算法。验证数据718可以用于生成误差函数，该误差函数可以被评估以确定每个学习算法对新输入数据的性能。例如，由各种学习算法中的每种学习算法在训练数据716内检测到的模式、相关性或关系可以存储在各种AI模型中。可以使用验证数据718评估每个AI模型对新输入数据的误差函数。可以选择误差函数最低的AI模型。最后，测试数据720是另一数据集，其独立于训练数据716和验证数据718中的每种数据。可以将测试数据720输入到选定的AI模型中以测试该选定的AI模型的整体性能。

在一些实现中，训练数据716、验证数据718和测试数据720可以是跨单个更大数据集的片段。例如，一个数据集可以分成三个数据子集。训练数据716可以是三个数据子集中的一个数据子集，验证数据718可以是三个数据子集中的另一个数据子集，而测试数据720可以是三个数据子集中的最后一个数据子集。在一些实现中，被分割成三个或更多个子集的数据集可以包括任何数据或数据类型。可以包括在从中生成训练数据716、验证数据718和/或测试数据720的数据集中的数据或数据类型的非限制性示例包括放射图像数据、MRI数据、基因组谱数据、临床数据(例如，测量值、治疗、治疗反应、诊断、严重程度、病史)、受试者生成的数据(例如，患有SMA的受试者输入的笔记)、医生或医疗专业人员生成的数据(例如，医生笔记)、表示患者与医生或其他医疗专业人员之间的电话录音的音频数据、管理数据、理赔数据、健康调查(例如，健康风险评定估(HRS)调查)、第三方或供应商信息(例如，网络实验室外结果)、与受试者相关的公共数据库(例如，与受试者病症相关的医学期刊)、受试者人口统计、免疫接种、放射报告、病理报告、利用信息、表示生物样本的元数据、社会数据(例如，教育水平、就业状况)、社区规范等。在一些情况下，至少一些受试者记录最初可以经由来自由受试者操作的装置的通信(例如，在护理提供者装置和/或远程服务器处接收的)来识别。在一些实现中，受试者记录的至少一些特征包括或基于一张或多张照片(例如，在受试者的装置处收集的)。在一些情况下，至少一些受试者特定数据最初是经由对应于受试者的电子记录识别的和/或从其接收的。

AI模型执行系统710可以使用可执行代码来实现，该可执行代码在由处理器(例如，基于云的网络(诸如云网络130)的物理或虚拟CPU)执行时，执行特定训练的AI模型的实例以产生输出。由于AI模型，输出可以预测与SMA相关的某些结果。

为了说明并且仅作为非限制性示例，AI模型执行系统710接收来自查询解析器706的请求(其源自由诸如医生的使用者操作的使用者装置110)。该请求用于预测患有SMA的特定受试者的疾病进展。该请求包括表征特定受试者的受试者记录的至少一部分(或受试者记录的标识符以使得另一部件能够检索该受试者记录)。AI模型执行系统710评估请求并选择经过训练的词到向量模型(存储在AI模型数据存储724中)，该模型被配置为生成受试者疾病进展的预测。AI模型执行系统710从AI模型数据存储724中检索或访问词到向量模型，然后将输入数据(例如，特定受试者当前状态的数字表示)传递到检索到的AI模型中。AI模型执行系统710生成可以用于确定特定受试者的疾病进展的输出(例如，诸如数组中的一个或多个值)。在这个实例中描述的预测功能将关于图8和图11进一步描述。

作为另一个说明并且仅作为非限制性示例，使用者装置110向AI系统702发送请求以生成关于哪组受试者将是适合新临床研究的候选者的预测。AI系统702检索或访问经过训练的特征选择模型和自动分组模型。然后，AI系统702将受试者记录的数字表示集输入到特征选择模型中，随后输入到自动分组模型中，以生成一组受试者的预测，这些受试者将是适合新临床研究(例如，临床研究数据存储730中存储的新临床研究)的候选者。被预测为适合参加新临床研究的候选者的该组受试者的标识符可以存储在受试者组数据存储732中。在一些示例中，AI系统702可以自动识别适合作为临床研究的候选者的受试者组，而无需从使用者装置110接收请求。在其他示例中，AI系统702可以基于一组受试者记录的共同特征自动识别一组受试者，以及提出与该共同特征相关联的新临床研究(如果尚不存在的话)。在这个实例中描述的预测功能将关于图9和图12进一步描述。

作为又一说明并且仅作为非限制性示例，使用者装置110向AI系统702发送请求以预测特定受试者的治疗选择和治疗日程表。AI系统702检索或访问经过训练的强化模型，该模型被配置为选择最佳治疗工作流程，包括多阶段治疗和多阶段治疗的日程表。AI系统702将表示特定受试者特性的向量输入经过训练的强化模型中以生成输出，该输出表示特定的多阶段治疗(来自存储在治疗数据存储726和治疗日程表数据存储728中的多个单阶段或多阶段治疗)和执行该多阶段治疗的日程表。在这个实例中描述的预测功能将关于图10和图13进一步描述。

某些AI模型会表现出在训练过程中记忆训练数据716的一部分的技术问题。当经过训练的AI模型响应于接收输入数据而按原样输出训练数据716中包括的数据元素时，可以发生记忆训练数据716的一部分。数据泄漏是指AI模型响应于新的、以前未见过的数据输入而从训练数据中按原样输出数据元素。在某些情况下，当AI模型被过拟合至训练数据时，AI模型会记忆训练数据。过拟合的AI模型会记忆训练数据中包含的噪声(例如，记忆该训练数据中与学习任务无关的数据元素)。因此，当AI模型表现出数据泄漏时，AI模型不会对新的、以前未见过的输入数据进行泛化预测。

如果训练数据包括有关受试者的敏感或隐私数据，则数据泄漏可能会违反隐私法规。为了说明并且仅作为非限制性示例，训练数据716包括受试者记录，该受试者记录包含表示受试者(由受试者记录表征)具有与阿尔茨海默病的早期发作有关的基因突变的值。表示阿尔茨海默病基因突变的存在的值是敏感或隐私数据。因此，各种隐私法律法规禁止未经授权披露受试者的敏感或隐私数据(例如，《健康保险携带和责任法案》(HIPAA))。然而，如果经过训练的AI模型过拟合至训练数据716，则会出现技术挑战，因为经过训练的AI模型能够泄漏(例如，无意中向外部或向未经授权的使用者披露)表示受试者具有阿尔茨海默病基因突变的值。在某些场景中，如果对立使用者装置(例如，由有意寻求从AI模型中提取敏感信息的使用者操作)可以将输入发送到经过训练的AI模型中并接收由AI模型生成的相应输出，则可能会发生侵犯隐私。例如，如果对立使用者装置使用公共API访问经过训练的AI模型，则该对立使用者装置可以将输入发生到经过训练的AI模型中并接收由经过训练的AI模型生成的输出。然后，对立使用者装置可以评估从经过训练的AI模型接收到的各种输出，以推断有关用于训练AI模型的训练数据的敏感或隐私数据。可以推断的敏感或隐私数据的非限制性示例包括指示特定受试者存在某些基因突变、训练数据中存在或不存在受试者记录、特定的临床研究中存在或不存在特定受试者、特定受试者呈现的表型与特定受试者患特定疾病(诸如SMA)的遗传易感性之间的相关性、特定受试者的基因谱的特性和任何其他敏感或隐私数据的值。

为了解决上述关于数据泄漏的技术挑战，本公开的某些方面和特征涉及配置数据泄漏检测器712以在AI模型执行系统710执行存储在AI模型数据存储724中的经过训练的AI模型中的任一模型时检测并防止数据泄漏。在一些实现中，数据泄漏检测器712可以对训练数据716、验证数据718、测试数据720和/或AI模型724执行某些数据泄漏防止协议。对训练数据716、验证数据718、测试数据720和/或AI模型724执行数据泄漏防止协议可以抑制或防止经过训练的AI模型泄漏敏感数据。对数据执行的数据泄漏防止协议的非限制性示例包括加密受试者记录中包含的敏感或隐私数据、数据清理、数据正则化、稳健统计、对抗训练、差分隐私、联邦学习、同态加密和其他适合用于抑制或防止泄漏表征受试者的敏感数据的技术。

再次参考图7，受试者记录可以包括使用大量维度(例如，数百或数千个特征维度)表征受试者特征的数据元素。受试者记录中的某些特征维度可以用于目标任务，而受试者记录中的其他特征维度可以表示噪声数据(例如，对目标任务无用的特征)。受试者记录的高维度对输入受试者记录(或其数字表示)作为与AI系统702相关联的各种AI模型提供的预测功能的一部分产生了技术挑战。本公开的某些方面和特征涉及噪声特征检测器714，其提供对上述技术挑战的解决方案。在一些实现中，噪声特征检测器714可以被配置为通过将包含在受试者记录中的受试者特征集的受试者特征子集分类为噪声来将高维度受试者记录转换为降维受试者记录。例如，噪声特征检测器714可以执行二类分类模型，该模型被训练以将受试者特征分类为对目标任务的预测或噪声。应当理解，噪声特征检测器714也可以是多类分类模型，其可以将受试者记录的受试者特征分类为多个类中的一个或多个类(例如，噪声数据、可用于目标任务但不能对其进行预测，以及可用于目标任务并且也能对其进行预测)。通过减少AI模型执行系统710在提供预测功能时处理的受试者记录的特征维度的数量，受试者记录维度的减少提高了AI系统702的计算效率。减少受试者记录维度的技术的非限制性示例包括基于标准减少特征、基于特征类别减少特征、特征选择技术、消除由经过训练的分类器模型分类为噪声的特征和其他合适的技术。

VI.被配置为使用人工智能技术预测患有SMA的受试者疾病进展的网络环境

图8是示出根据本公开的一些方面的用于部署经过训练的人工智能模型以生成预测被诊断患有SMA的受试者疾病进展的输出的网络环境的实例的框图。网络环境800可以包括使用者装置110和AI系统802。AI系统802可以类似于图7所示的AI系统702，然而，AI系统802的部件可以不同于AI系统702的部件。在一些实现中，AI系统802可以包括API 808、查询解析器810、查询文本字符串812、经过训练的词到向量模型814、进展预测系统816和通信网络818。图8中所示的AI系统802的部件可以是图7所示AI系统702的任何部件的补充、替代或一部分。API 808可以与图7所示的API 704相同，并且查询解析器810可以与图7所示的查询解析器706相同。

AI系统802可以被配置为生成预测被诊断患有SMA的受试者的疾病进展的输出。在一些实例中，AI系统802自动生成输出而无需来自使用者装置110的请求提示。在其他实例中，AI系统802响应于从使用者装置110接收到请求而生成输出。为了说明，使用者装置110(例如，由医生或其他医疗专业人员操作的)可以向AI系统802发送请求。该请求可以是对AI系统802执行预测功能的请求，该预测功能被配置为生成对特定受试者可能经历的疾病进展的预测。在一些实例中，请求包括表征特定受试者的特征的受试者记录804。在其他实例中，请求包括特定受试者的标识符，使得稍后使用该标识符来检索受试者记录804，该受试者记录804表征特定受试者的特征。不管受试者记录804如何被访问或检索，受试者记录804都可以包括表示特定受试者的状态的数据元素。作为非限制性示例，特定受试者的状态可以包括文本值，诸如受试者的诊断、该诊断的SMA类型、医生观察到的表型、对该特定受试者进行的任何单阶段治疗、对该受试者进行的任何多阶段治疗、任何类型治疗之间经过的时间量、该特定受试者的基因谱、表征该特定受试者的临床信息和其他合适的文本值。进一步地，特定受试者的状态可以表示该特定受试者的当前状态(例如，该特定受试者在使用者装置110发送请求时或附近的状态)。

API 808可以被配置为使得使用者装置110能够与AI系统802交互。因此，使用者装置110可以使用API 808将请求(包括受试者记录804)发送到AI系统802。查询解析器810可以接收来自API 808的请求，识别可以解析该请求的经过训练的AI模型，然后为所识别的AI模型构建查询。查询解析器810可以识别预测被诊断患有SMA的特定受试者的疾病进展的请求可以通过将输入发送到词到向量模型814中并将输出提供给使用者装置110来解析。

在一些实现中，当查询解析器810从使用者装置110接收到请求时，如果该请求包含受试者记录804，则查询解析器810可以从该请求中提取受试者记录804。在请求包括识别受试者记录804的唯一标识符的实例中，查询解析器可以提取受试者记录804的标识符并从数据源(诸如图7所示的数据注册表722)检索受试者记录804。在一些实现中，受试者记录804可以被匿名化以防止AI系统802识别由受试者记录804表征的受试者的身份。然后，AI系统查询解析器810可以将检索到的受试者记录804发送到查询文本字符串812，该查询文本字符串812被配置为使用受试者记录804中包含的一个或多个特征生成部分词序列。

为了说明并且仅作为非限制性示例，受试者记录804至少包括四个数据元素。第一数据元素包括“SMA阳性”的第一文本值，表示SMA的阳性诊断。第二数据元素包括“III型”的第二文本值，表示诊断出的SMA类型。第三数据元素包括“近端肌无力”的第三文本值，表示特定受试者的可观察表型。第四数据元素包括“6个月”的第四文本值，表示特定受试者所经历的第一症状发作与给定时间(例如，收到请求的时间，当月的第一天)之间的时间量。在一些实例中，四个数据元素中的每个数据元素都可以包括指示SMA相关数据元素的标签或与其相关联，并且查询文本字符串812可以仅处理包括在这四个数据元素中的四个文本值。在其他实例中，四个数据元素可以与特定受试者的健康状况相关联，并且这四个数据元素可以由查询文本字符串812处理。查询文本字符串812可以将这四个数据元素转换为部分词序列，“[SMA阳性]、[III型]、[近端肌无力]、[6个月]”。可以将部分词序列发送到查询解析器810以传递到词到向量模型814，或者可以直接发送到词到向量模型814。

词到向量模型814可以是机器学习模型，其被训练以将基于文本的词序列转换成数字表示，以便使得AI模型能够处理该词序列。词到向量模型可以为词序列的每个词提供数字表示。可以将词序列的词的词嵌入汇总起来以数字表示该词序列。可以比较词序列中多个词的数字表示以确定该多个词之间的关系。进一步地，可以比较两个或更多词序列的词序列中词的汇总数字表示以确定该两个或更多词序列之间的关系。可以训练词到向量模型814以使用神经网络学习词序列中词的数字表示。因此，将“[SMA阳性]、[III型]、[近端肌无力]、[6个月]”的部分词序列输入到词到向量模型814中。在一些实现中，词到向量模型814将部分词序列转换成数字表示(例如，N维词向量)。然后，可以将部分词序列的数字表示输入到进展预测系统816，该系统被训练以预测部分词序列中的其余词。进展预测系统816作为表示疾病相关事件(诸如表型或症状)进展的预测顺序的输出而生成的其余词，被预测为是由特定受试者所经历的。

在一些实现中，进展预测系统816可以是生成序列模型，其被训练以执行某些语言相关任务，诸如语言建模和预测句子完成。生成序列模型可以在使用所有可能的英语词序列进行训练后对自然英语语言进行建模。可以训练生成序列模型，以基于词出现的句子为那些词分配概率。使用所分配的概率，生成序列模型可以被配置为预测完成部分词序列(例如，完成部分句子)的其余词。为了说明，可以训练生成序列模型来预测“hill”这个词成为下一个完成“Jack and Jill went up the”的部分词序列的词的概率很大，而“there”这个词成为完成该部分词序列的下一个词的概率很小，因为英语语法要求该部分词序列后跟一个名词。

在预测被诊断患有SMA的特定受试者的疾病进展的背景下，进展预测系统816可以执行经过训练的生成序列模型以生成对完成特定词序列的下一个词的预测，其中所预测的下一个词表示特定受试者的预测疾病进展。可以使用包括词序列集的训练数据集来训练进展预测系统816。词序列集中的每个词序列都表示患有SMA的受试者先前经历的一个预测的疾病相关事件(诸如表型或症状)。下面的表2提供了词序列集的说明性实例。表2中的每个词序列都是单个或多个词的序列(例如，单个词，诸如“[脊柱侧凸]”或多个词的分组，诸如“[扶杖而行]”)，这些词表示先前被诊断患有SMA的受试者的疾病事件的进展。

表2

可以使用先被诊断患有SMA的受试者的跟踪疾病进展(例如，如表2所示)来训练进展预测系统816，以学习沿着受试者疾病进展的纵向维度的事件之间的相关性。例如，为了说明，进展预测系统816可以学习到经历过无法行走的受试者有很大概率(例如，高于阈值概率)疾病将进展为呼吸道感染，这可以由支撑脊柱的肌无力来触发。因此，当特定受试者的当前状态是无法行走时，进展预测系统816可以通过预测完成至少“无法行走”的部分词序列的词来预测特定受试者的疾病进展可能包括呼吸道感染。当疾病进展被定义为一个词序列时，其中一个词序列中的每个词或词组都表示疾病相关事件的渐进序列中的一个疾病相关事件，那么特定受试者的疾病进展中的下一个疾病相关事件可以通过预测完成给定部分词序列的下一个词来预测。

继续受试者记录804中的四个数据元素的上述非限制性示例，进展预测系统816接收“[SMA阳性]、[III型]、[近端肌无力]、[6个月]”的输入部分词序列(或该部分词序列的数字表示)。进展预测系统816可以生成被预测为完成输入部分词序列的输出部分词序列。输出部分词序列是基于患有SMA的先前接受过治疗的受试者的历史疾病进展而被预测为完成“[SMA阳性]、[III型]、[近端肌无力]、[6个月]”的输入部分词序列的词序列。该非限制性示例中的输出部分词序列是“[支撑股骨的肌无力]、[扶杖而行]、[从坐姿坐起来困难]、[坐轮椅]。”换言之，输出部分词序列表示特定受试者的预测疾病进展包括：(1)支撑股骨的肌无力，然后(2)需要手杖辅助行走，然后(3)在没有帮助的情况下难以坐起，然后(4)在余生中需要轮椅活动。查询解析器810可以将所预测的疾病进展806发送到使用者装置110以供使用者进一步评定，该所预测的疾病进展806特定于由受试者记录804表征的特定受试者。

VII.被配置为使用人工智能技术自动定义用于提出新临床研究的受试者组的网络环境

将患有SMA的受试者的受试者记录聚类涉及识别具有共同受试者特征的受试者记录的聚类。聚类受试者记录还可以识别在某些方面、特性或特征上彼此相似的受试者组。然而，鉴于受试者记录的高维度，受试者记录的聚类在技术上具有挑战性。例如，一个受试者记录可以有数百个个体受试者特征(例如，维度)。因此，使用某些聚类技术(例如k均值聚类)对高维受试者记录进行聚类是有问题的。本公开的某些方面和特征提供了一种技术方案，该技术方案使得能够对表征患有SMA的受试者的高维受试者记录进行聚类，例如，为了定义适合新的或现有临床研究的候选者的受试者组。

图9是示出根据本公开的一些方面的用于为新的或现有临床研究智能地定义受试者组的网络环境的实例的框图。网络环境900可以包括AI系统902和用于存储表征受试者的高维度受试者记录的数据存储904到908。虽然图9示出了三个数据存储(例如，数据存储904到908)，但应理解，图9是示例性的，因此，网络环境900中可以包括任何数量的数据存储。AI系统902可以类似于图7所示的AI系统702，然而，AI系统902的部件可以不同于AI系统702的部件。图9中所示的AI系统902的部件可以是图7所示AI系统702的任何部件的补充、替代或一部分。API 910可以与图7所示的API 704相同。进一步地，特征选择模型912和子空间聚类系统914可以存储在AI模型数据存储724中并且可以由图7所示的AI模型执行系统710执行。

在一些实现中，AI系统902可以被配置为自动检测被诊断患有SMA的受试者组，这些受试者是现有临床研究的候选者。在其他实现中，AI系统902可以被配置为生成对先前不存在的新治疗路线的预测，以及识别将成为新临床研究的目标候选者的受试者。例如，现有或新临床研究可以是旨在研究新治疗或诊断测试的临床结果以确定该新治疗或诊断测试的有效性的临床试验。例如，现有的SMA临床研究可以是研究低剂量塞来昔布对患有SMA的受试者的SMN2表达的影响的临床试验。

高维度受试者记录数据存储904到908可以跨多个实体存储受试者记录。作为非限制性示例，受试者记录数据存储904由美国的医疗机构运营，受试者记录数据存储906由意大利的医学研究机构运营，并且受试者记录数据存储908由加拿大的医院运营。存储在受试者记录数据存储904中的受试者记录表征已经在美国的医疗机构处接收了治疗的第一组受试者。进一步地，存储在受试者记录数据存储906中的受试者记录表征参与在意大利的医学研究机构处进行的临床研究的第二组受试者。最后，存储在受试者记录数据存储908中的受试者记录表征已经在加拿大的医院处接受治疗的第三组受试者。无论数据存储904到908是在地理上分布在各个机构处还是共同位于单个机构处，都可以使用基于AI的特征选择技术对存储在其中的受试者记录进行分组，以定义适合现有或新临床研究的候选受试者。

特征选择模型912可以是表示任何基于AI的特征选择模型的实例的可执行代码，例如稀疏逻辑回归、最小绝对值收敛和选择算子(LASSO)、单变量阈值化(例如，l₀范数最小化、l₁范数最小化)、LASSO的最小角度回归、坐标下降、近端技术、弹性网络、融合或分组LASSO和其他合适的特征选择技术。可以训练特征选择模型912以识别受试者记录的受试者特征集的受试者特征的哪个不完整子集与目标任务相关。作为一个说明性实例，目标任务是识别受试者，这些受试者将成为与艾满欣^TM(利司扑兰，豪夫迈·罗氏有限公司)相关的临床研究的候选者。对临床研究的适用性的检测可以是特征选择模型912的经过训练的特性。例如，可以使用受试者记录的训练数据集来训练特征选择模型912，每个受试者记录都包括临床研究的“参加”或“不参加”的标签。基于特征选择模型912的训练，特征选择模型912可以学习到受试者特征集的哪个不完整子集与临床研究相关。例如，可以训练特征选择模型912以基于在训练数据集中检测到的模式、相关性和关系来学习到被诊断患有II型SMA并且年龄在2至25岁之间的受试者是适合临床研究的候选者。因此，特征选择模型912可以在受试者特征集的不完整子集中包括与“年龄”相关的受试者特征和与“SMA类型”相关的受试者特征。受试者特征的不完整子集可以被认为是或不是高维的。一旦使用特征选择模型912自动提取相关特征，受试者特征的不完整子集就可以被输入子空间聚类系统914。

子空间聚类系统914可以被配置为执行子空间聚类技术以识别不同子空间内的受试者记录的聚类(例如，一个或多个维度的选择)。执行子空间聚类技术使得能够形成受试者记录的聚类。聚类可以由受试者特征的子集定义(例如，表示受试者维度方面的受试者特征)。为了说明并且仅作为非限制性示例，在对受试者进行治疗之后，受试者记录的受试者特征的不完整子集包括75个基因的基因表达水平，包括SMN2基因。训练子空间聚类系统914以跨受试者特征的不完整子集的75个基因(例如，跨75个维度)对受试者进行聚类。作为跨75个基因的聚类受试者的一部分，子空间聚类系统914形成与SMN2基因表达相关的三个受试者聚类：“高于阈值的SMN2表达”、“低于阈值的SMN2表达”和“无SMN2表达”。例如，子空间聚类系统914可以识别经历过超过阈值水平的SMN2基因表达的受试者聚类，从而指示可能成功的治疗。然后，可以将所识别的受试者聚类与组标识符相关联，该组标识符存储在受试者组标识符系统916中。进一步地，由于超过阈值水平的SMN2基因表达，确定所识别的受试者聚类适合于额外的现有临床研究。作为另一示例，子空间聚类系统914可以识别“无SMN2表达”聚类的子聚类。子聚类包括在进行治疗后观察到运动功能改善的受试者和在治疗后未检测到SMN2表达增加的受试者。如果不存在针对该受试者子聚类的现有临床研究，则子空间聚类系统914可以生成新临床研究的建议，创建该建议是用于研究在治疗后经历运动功能改善并且在治疗后没有增加SMN2基因表达的受试者。

VIII.鉴于受试者记录的背景，基于云的应用可以为患有SMA的受试者选择最佳治疗

图10是示出根据本公开的一些方面的用于部署经过训练的强化学习器以选择治疗的网络环境的实例的框图。网络环境1000可以包括AI系统1002。AI系统1002可以类似于图7所示的AI系统702，然而，AI系统1002的部件可以不同于AI系统702的部件。图10中所示的AI系统1002的部件可以是图7所示AI系统702的任何部件的补充、替代或一部分。API1008可以与图7所示的API 704相同，并且查询解析器1010可以与图7所示的查询解析器706相同。治疗选择系统1032可以存储在AI模型数据存储724中并且可以由图7所示的AI模型执行系统710执行。

在一些实现中，AI系统1002可以被配置为从一组治疗1012到1030中为特定受试者选择最佳治疗。治疗1012到1030可以表示医生在治疗特定受试者时可以采取的潜在行动。为了说明并且仅作为非限制性示例，治疗1012可以是诺西那生钠(SPINRAZA)，治疗1014可以是提供步行手杖，治疗1016可以是提供轮椅，治疗1018可以是提供适合下颌肌肉变弱的受试者的饮食计划，治疗1020可以是Onasemnogene abeparvovec-xioi(Zolgensma)，治疗1022可以是用于支持虚弱的呼吸肌的专门面罩或呼吸器，治疗1024可以是饲管，治疗1026可以是物理治疗，治疗1028可以是背部支架，并且治疗1030可以是腿部支架。处理可以是多阶段处理，其可以在几个时期或阶段内按顺序发生。尽管图10示出了治疗1012至1030，但是应当理解，任何数量的治疗都可以作为治疗医师的动作或在治疗医师的指导下进行。

治疗观察1034可以是数据存储，该数据存储响应于治疗1012至1030中的每种治疗而存储结果的先前治疗受试者的历史观察。例如，对受试者进行治疗1012的治疗观察可以是SMN2基因表达增加。作为另一示例，鉴于受试者的大腿肌肉(例如，股直肌)的退化进展，执行治疗1014的治疗观察可以是手杖提供的支撑不足以帮助受试者行走。在一些实例中，与各治疗1012至1030相关联的存活概率可以存储在治疗观察1034中。对于各治疗1012到1030，存活概率可以是表示受试者在经历治疗后存活的概率的值(例如，百分比)。在其他实例中，生存概率还可以包括表示受试者在经历治疗后的生活质量的值。在一些实现中，随着新的治疗观察被存储在治疗观察数据存储1034中，自动确定和更新生存概率。例如，生存概率是在手术30天后在治疗(诸如手术)中存活的受试者数。在一些实现中，存活概率可以在受试者健康评定估之后由医师或受试者输入。在其他实例中，治疗观察数据存储1034还可以存储与各治疗1012到1030相关联的任何副作用。

可以训练治疗选择系统1032以学习各治疗1012到1030与存储在数据存储1034中的治疗观察之间的模式、相关性或关系。与各治疗1012到1030相关联的治疗观察可以表示与治疗相关联的奖励函数。奖励函数可以生成“奖励值”，诸如“5”分中的“5”，例如，指示治疗在受试者中具有强烈的积极反应。“奖励值”也可以是负值，诸如“5”中的“-3”，指示治疗在受试者中具有了强烈的消极反应。在一些实现中，奖励值可以是响应于经历基因疗法而增加SMN2的表达。奖励函数可以旨在平衡任何短期治疗观察与长期治疗观察。短期治疗观察和长期治疗观察可以转换为数值或向量(例如，使用词到向量模型)。可以单独加权短期和长期治疗观察以反映短期可观察结果和长期可观察结果之间的平衡。可以训练治疗选择系统1032以从治疗1012到1030中选择治疗，使得选择治疗以最大化奖励函数。治疗选择系统1032可以是任何强化学习模型，例如无模型强化学习、策略优化、策略梯度、基于模型的强化学习、Q函数、Q表、重要性取样、U曲线、深度强化、使用递归神经网络的监督强化学习和其他合适的强化学习技术。

为了说明并且仅作为非限制性示例，受试者的状态可以由受试者记录1004表征，并且可观察到的表型1006可以是在已被诊断患有SMA的受试者中观察到的SMA的表型。受试者记录1004和表型1006可以表示特定受试者的当前健康状况。将受试者记录1004和表型1006输入到AI系统1002。API 1008可以被配置为使得在AI系统1002和外部系统之间能够交换某些数据。查询解析器1010可以将特定受试者的受试者记录1004或表型1006发送到治疗选择系统1032以选择最佳动作。可以执行治疗选择系统1032以基于奖励函数从治疗1012到1030中选择治疗。一旦选择了治疗(诸如治疗1018)，AI系统1002就可以将选定的治疗1018发送到计算装置以进行进一步评定。

IX.基于云的应用程序可以使用人工智能技术预测患有SMA的受试者的疾病进展

图11是示出根据本公开的一些方面的预测被诊断患有SMA的受试者疾病进展的过程的实例的流程图。过程1100可以由图1和图7–10所示的任何部件执行。例如，过程1100可以由AI系统802执行。进一步地，可以执行过程1100以执行AI模型，该AI模型生成预测被诊断患有SMA的特定受试者的表型、症状或其他疾病相关事件的进展的输出。

过程1100开始于框1105处，其中AI系统802例如访问或检索对应于特定受试者(例如，在医院接受治疗的受试者)的受试者记录。受试者记录(例如，电子病历或电子健康记录)可以包括从受试者或为了受试者收集的任何数量的特征(例如，包含值的数据元素，诸如免疫接种、用药史、年龄、人口统计特征)。受试者记录可以包括表征受试者各方面的特征集。例如，受试者记录可以包括，在众多其他特征中，指示受试者已被诊断患有III型SMA的特征。

可以包含在受试者记录中的特征的非限制性示例包括放射图像数据、MRI数据、基因组谱数据、临床数据(例如，测量值、治疗、治疗反应、诊断、严重程度、病史)、受试者生成的数据(例如，患有SMA的受试者输入的笔记)、医生或医疗专业人员生成的数据(例如，医生笔记)、表示患者与医生或其他医疗专业人员之间的电话录音的音频数据、管理数据、理赔数据、健康调查(例如，健康风险评定估(HRS)调查)、第三方或供应商信息(例如，网络实验室外结果)、与受试者相关的公共数据库(例如，与受试者病症相关的医学期刊)、受试者人口统计、免疫接种、放射报告、病理报告、利用信息、表示生物样本的元数据、社会数据(例如，教育水平、就业状况)、社区规范等。

在框1110处，AI系统802可以提取与SMA或与受试者的SMA诊断相关的特征。在一些实现中，与诊断或治疗患有SMA的受试者相关的任何特征都可以标记为与SMA相关。例如，与运动功能测试结果相关的特征，诸如6分钟步行测试或Wolf运动功能测试，可以标记为与SMA诊断或治疗相关。标记受试者记录中的特征可以包括在数据元素内存储代码(例如，“0000”或“SMA-TAG”)，使得代码能够被AI系统802检测和读取。该代码可以由AI系统802解释为与SMA特性相关的特征。使用者(例如，医生)可以单独标记特征，或者可以在将数据输入特征时自动标记特征。

在一些实现中，这些特征可以不被标记为与SMA诊断或治疗相关，然而，相反，AI系统802可以自动分类哪些特征与SMA诊断或治疗相关。例如，AI系统802可以存储分类模型，该分类模型被训练以识别与SMA诊断或治疗相关的特征(或与SMA的任何其他关系)。可以使用任何分类器模型，包括例如逻辑回归、朴素贝叶斯、随机梯度下降、K最近邻、决策树模型、随机森林模型、支持向量机(SVM)和模型的任何其他合适的模型。

在框1115处，AI系统802可以使用在框1110处识别的SMA相关特征生成部分词序列。为了说明，被识别为对应于SMA的特征(在框1110处)包括：[“II型SMA”]、[“症状发作后4个月”]、[“2岁时不能行走”]、[“当前3岁”]、[“坐直困难”]。AI系统802可以执行查询文本字符串812，以将受试者记录的特征转换为部分词序列，诸如[II型SMA、症状发作后4个月、2岁时不能行走、当前3岁、坐直困难]。部分词序列是一个句子，该句子包括在框1110处识别的用逗号分隔的SMA相关特征。

部分词序列是部分的，因为它表示了关于受试者的SMA诊断的受试者的当前健康状况。在框1120处，AI系统802接收部分词序列作为输入以及使用词到向量模型(例如，Word2Vec)将部分词序列转换成向量表示。

一旦将部分词序列转换为向量表示，就可以使用该部分词序列执行某些预测功能。在框1125处，在预测被诊断患有SMA的特定受试者的疾病进展(例如，SMA表型的进展)的背景下，AI系统802可以将部分词序列的向量表示输入到经过训练的生成序列模型(例如，自然语言处理(NLP)模型)。在框1130处，生成序列模型可以生成对一个或多个下一个词(例如，完成词或短语)的预测，该一个或多个下一个词被预测为在部分词序列之后(例如，用于完成该部分词序列)。所预测的下一个词表示受试者的在一段时间内SMA表型、症状、诊断或治疗的预测疾病进展。对可能完成部分词序列的下一个词的预测表示预测受试者将表现出的下一个SMA表型。例如，生成序列模型输出的每个下一个词都表示预测受试者将经历或表现的预测的表型、症状、治疗和/或疾病相关事件。对下一个词的预测是基于训练数据集的，该数据集包括表示疾病相关事件进展的词序列，诸如先前接受过治疗的患有SMA的受试者的表型或症状的预测变化。

在框1135处，可以执行匹配技术(诸如词匹配)以将所预测的完整词序列与现有疾病进展相匹配，以识别经历过相同或相似疾病进展的先前接受过治疗的受试者。另外，还可以进行将所预测的完整词序列与另一受试者的现有疾病进展相匹配，以识别治疗表现出相同或相似疾病进展的其他受试者的医师。在框1140处，如果所预测的疾病进展满足早期治疗条件，则过程1100可以进行到框1145。然而，如果所预测的疾病进展不满足早期治疗条件，则过程1100进行到框1155。在一些实现中，早期治疗条件可以是用于评估SMA表型的预测进展是否指示未来时间段(例如接下来6个月)的健康风险的规则。例如，如果被诊断患有SMA的受试者的SMA表型的预测进展是在接下来的4个月内不能行走，则AI系统802可以将该预测进展解释为满足早期治疗条件。在这种情况下，在框1145处，AI系统802查询数据存储，诸如先前治疗过具有相同或相似疾病进展的受试者的医生(例如，他们受雇于同一家医院或同意为此目的进行搜索)的标识符的数据注册表722。

在框1150处，AI系统802可以自动生成通信(例如，电子邮件)并将其发送到与所识别的医生相关联的使用者装置。通信可以是请求在治疗受试者的医生和先前治疗过具有类似疾病进展的其他受试者的医生(在框1145处识别)之间发起通信会话。例如，在通信期间，医生可以讨论对其他受试者进行的治疗和临床结果。由在框1145处识别的医生提供的信息可以帮助治疗医生根据SMA表型的预测进展在症状出现之前为受试者制定治疗日程表。当不满足早期治疗条件时(例如，当SMA表型的预测进展是温和的或预计多年不会发生时)，那么(在框1155处)AI系统802可以检索对应于具有相似或相同的预测疾病进展的受试者的受试者记录以及(在框1160处)在使用者装置上显示相关联的治疗和治疗日程表。

X.基于云的应用程序可以使用人工智能技术自动定义用于提出新临床研究的受试者组

图12是示出根据本公开的一些方面的为新的或现有临床研究智能地定义受试者组的过程的实例的流程。过程1200可以由图1和图7–10所示的任何部件执行。例如，过程1200可以由AI系统902执行。进一步地，可以执行过程1200以执行AI模型，这些AI模型自动生成降维受试者记录以及对这些受试者记录执行子空间聚类以识别新的或现有临床研究的候选受试者。

过程1200开始于框1210处，其中AI系统902访问存储在数据注册表(例如数据注册表722)中的受试者记录。可以以规则或不规则的时间间隔或者响应于使用者输入触发关于图12更详细地描述的预测功能而自动访问受试者记录。在框1220处，可以使用本文描述的各种实现(例如，关于图1-6描述的)将存储在数据注册表中的一些(例如，不是全部)或所有受试者记录转换成数字表示(例如，向量表示)。可以通过框1210的执行提前或实时或基本实时地将受试者记录转换或矢量化为数字表示。

在框1230处，AI系统902可以对受试者记录执行基于AI的特征选择以从受试者记录的数字表示中选择显着特征的子集。例如，鉴于受试者记录的高维度(例如，可能有数百个特征)，可以训练特征选择模型来检测和选择受试者记录中对执行目标任务(诸如识别新的或现有临床研究的候选受试者)很重要的特征。在框1240处，对于在框1210处访问的每个受试者记录，AI系统902可以生成受试者记录的自动选择的显着特征的降维数字表示。

在框1230处执行的特征选择可以使用任何基于AI的特征选择模型来执行，例如稀疏逻辑回归、最小绝对值收敛和选择算子(LASSO)、单变量阈值化(例如，l₀范数最小化、l₁范数最小化)、LASSO的最小角度回归、坐标下降、近端技术、弹性网络、融合或分组LASSO和其他合适的特征选择技术。可以训练基于AI的特征选择模型以识别受试者记录的受试者特征集的受试者特征的哪个不完整子集与目标任务相关或用于执行目标任务。

为了说明并且仅作为非限制性示例，目标任务是识别适合纳入与艾满欣^TM(利司扑兰，豪夫迈·罗氏有限公司)相关的临床研究的候选者。检测受试者是否是适合临床研究的候选者可以是特征选择模型的经过训练的能力。可以使用受试者记录的训练数据集来训练特征选择模型，每个受试者记录都包括现有临床研究的“适合”或“不适合”的标签。基于训练过程中的模式、相关性和关系学习，特征选择模型可以学习受试者特征集的哪个不完整子集与临床研究相关。例如，可以训练特征选择模型以基于在训练数据集中检测到的模式、相关性和关系来学习到被诊断患有II型SMA并且年龄在2至25岁之间的受试者是适合临床研究的候选者。因此，特征选择模型可以在受试者特征集的不完整子集中包括与“年龄”相关的受试者特征和与“SMA类型”相关的受试者特征。

在框1250处，AI系统902可以执行用于为新的或现有临床研究自动定义受试者组的协议。在一些实现中，可以基于降维受试者记录(或其数字表示)的聚类来定义受试者组。使用诸如k均值聚类等技术处理降维受试者记录仍然具有挑战性。因此，例如，可以根据特征的各种其余维度将降维受试者记录聚类在子空间中。可以执行子空间聚类以识别不同子空间内的受试者记录的聚类(例如，一个或多个维度的选择)。执行子空间聚类技术使得能够形成受试者记录的聚类。聚类可以由受试者特征的子集定义(例如，表示受试者维度方面的受试者特征)。

在框1260处，AI系统902可以生成临床研究有效性参数以表示新的或现有临床研究对自动定义的受试者组的有效性。在一些实现中，临床研究有效性参数可以是表示受试者组的特征(在框1250处定义)与特定现有临床研究的特征相关的程度的数值。受过训练的分类模型可用于根据临床研究中包含的临床结果将与受试者相关联的特征分类为“有效”或“无效”。输出的分类也可以与同样由分类模型输出的置信度或相关性参数相关联。如果受试者组不存在现有临床研究，并且如果受试者组被分类为具有可能对临床研究“有效”的特征，则AI系统902可以生成创建为研究受试者组中的受试者的新临床研究的建议。在框1270处，基于在框1260处生成的临床研究有效性参数，为新的或现有治疗文件选择受试者组。

XI.鉴于受试者记录的背景，基于云的应用可以为患有SMA的受试者选择最佳治疗

图13是示出根据本公开的一些方面的部署人工智能模型以便于选择治疗以对被诊断患有SMA的受试者执行的过程的实例的流程图。过程1300可以由图1和图7–10所示的任何部件执行。例如，过程1300可以由AI系统1002执行。进一步地，可以执行过程1300以执行强化学习模型，该强化学习模型被训练以自动选择治疗以最大化奖励函数，诸如SMN2表达的改善量。

过程1300开始于框1310处，其中AI系统1002访问或检索存储在数据注册表(例如数据注册表722)中的受试者记录。受试者记录可以表征已被诊断患有SMA的特定受试者。在框1220处，可以使用本文描述的各种实现(例如，关于图1-6描述的)将在方框1210处访问或检索的受试者记录转换为数字表示(例如，矢量表示)。可以通过框1210的执行提前或实时或基本实时地将受试者记录转换或矢量化为数字表示。

在框1330处，AI系统1002可以生成表示特定受试者健康状况的背景的背景向量。例如，背景向量是固定长度的向量，其可以以数字形式将特定受试者的受试者记录的状态情境化。在框1340处，可以将表示特定受试者的背景向量输入到治疗选择系统中，该治疗选择系统包括强化学习器，该强化学习器学习在响应于执行选定的动作而接收到奖励时强化该选定的动作(例如，治疗)。治疗选择系统可以是任何强化学习模型，例如无模型强化学习、策略优化、策略梯度、基于模型的强化学习、Q函数、Q表、重要性取样、U曲线、深度强化、使用递归神经网络的监督强化学习和其他合适的强化学习技术。

在框1350处，治疗选择系统可以选择动作，诸如执行基因疗法以增加SMN蛋白的表达。治疗选择系统可以基于对要接收的奖励的预测从一组治疗中智能地选择治疗。为了说明，在训练过程中，治疗选择系统在治疗观察中检测到一种模式，这些治疗观察表明年龄在10至20岁内并且接受第一种治疗(例如，利司扑兰)的受试者可能经历SMN蛋白表达增加15％–20％；年龄在2至10岁之间并且接受第二种治疗(例如诺西那生钠)的受试者可能经历SMN蛋白表达增加3％；年龄在5至12岁之间并且接受每周一次物理疗法的第三种治疗的受试者可能经历6分钟步行测试得分增加23％(表明运动功能显着提高)。当受试者7岁时，治疗选择系统基于所预测的奖励在第一种治疗、第二种治疗和第三种治疗之间智能地选择一种治疗。治疗选择系统选择该治疗以最大化行动的潜在奖励。如果奖励函数被配置为最大化SMN蛋白表达增加的百分比，则治疗选择系统会为7岁大的受试者选择第二种治疗，因为这种治疗提供了关于SMN蛋白表达增加的最佳奖励。但是，如果奖励函数被配置为最大化运动功能分数(例如，6分钟步行测试分数)的增加，则治疗选择可以为7岁大的受试者选择第三种治疗以最大化奖励。

无论在框1360处选择了哪种治疗，治疗选择系统都在执行所选择的治疗之后接收响应信号。例如，如果选定的治疗是诺西那生钠的剂量，则响应信号(在治疗之后任何时候可用)将包括受试者SMN蛋白表达的检测到的增加。作为另一个示例，如果所选择的治疗是每周一次物理疗法，则响应信号(在治疗之后任何时候可用)将包括受试者6分钟步行测试分数的改善百分比。在框1370处，用响应信号对治疗选择系统的治疗观察进行更新。

XII.其他注意事项

本公开的一些实施例包括一种系统，其包括一个或多个数据处理器。在一些实施例中，该系统包括包含指令的非暂态计算机可读存储介质，该指令当在一个或多个数据处理器上被执行时促使该一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或本文所公开的一种或多种过程的部分或全部。本公开的一些实施例包括一种计算机程序产品，其有形地体现在非暂态机器可读存储介质中，并且包括被配置为促使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或本文所公开的一种或多种过程的部分或全部的指令。

随后的描述仅提供优选的示例性实施例，并且不旨在限制本公开的范围、适用性或配置。相反，优选示例性实施例的随后描述将为本领域技术人员提供用于实现各种实施例的可行描述。应当理解，在不脱离所附权利要求中阐述的精神和范围的情况下，可以对元件的功能和布置进行各种改变。

在以下描述中给出具体细节以提供对实施例的透彻理解。然而，应当理解，可以在没有这些具体细节的情况下实践实施例。例如，电路、系统、网络、过程和其他组件可以以框图形式显示为部件，以免在不必要的细节中混淆实施例。在其他情况下，可以在没有不必要的细节的情况下示出众所周知的电路、过程、算法、结构和技术以避免混淆实施例。

XIII.其他实例

如下文所用，对一系列实例的任何引用都应理解为对这些实例中的每一个实例的引用(例如，“实例1至4”应理解为“实例1、2、3或4”)。

实例1是一种计算机实现的方法，其包括：检索与受试者相关联的受试者记录，该受试者记录包括表征该受试者的特征集，并且该受试者已被诊断患有脊髓性肌萎缩症(SMA)；提取该受试者记录中包括的该特征集的子集，该特征集的子集中的每个特征都与SMA特性相关联；通过将该特征集的子集组合成一个或多个词的序列来生成部分词序列，该一个或多个词中的每个词都表示该特征子集中的特征；使用经过训练的词到向量模型将该部分词序列转换为数字表示；将该部分词序列的数字表示输入到自然语言处理(NLP)模型中，该NLP模型已经被训练以预测用于完成该部分词序列的完成词或短语；基于由该NLP模型输出的该完成词或短语生成疾病进展，该疾病进展表示在一段时间内(例如，未来一年内、未来5年内、未来10年内)该受试者的预测表型和症状；以及输出对预测该受试者表现出该疾病进展中包括的该一种或多种SMA表型的指示。

实例2是实例1的计算机实现的方法，其进一步包括：确定特定于该受试者的该一种或多种SMA表型的预测进展满足早期治疗条件，其中满足该早期治疗条件指示对在该受试者表现出该一种或多种SMA表型中的SMA表型之前进行治疗的建议。

实施例3是实施例1至2的计算机实现的方法，其中当该一种或多种SMA表型的预测进展满足该早期治疗条件时：识别与匿名受试者相关联的现有疾病进展，该现有疾病进展与特定于该受试者的该一种或多种SMA表型的预测进展相匹配，并且该匿名受试者已被诊断患有SMA；识别训练与该现有疾病进展相关联的该匿名受试者的使用者；以及向与该使用者相关联的使用者装置发送通信，该通信请求对该受试者的治疗建议。

实施例4是实施例1至3的计算机实现的方法，其中当该一种或多种SMA表型的预测进展不满足该早期治疗条件时：识别与匿名受试者相关联的现有疾病进展，该现有疾病进展与特定于该受试者的该一种或多种SMA表型的预测进展相匹配，并且该匿名受试者已被诊断患有SMA；检索表征该匿名受试者的匿名受试者记录；从该受试者匿名受试者记录中提取治疗日程表；以及将该治疗日程表发送到使用者装置。

实例5是实例1至4的计算机实现的方法，其进一步包括：将与该受试者相关联的该完成词或短语和与另一受试者相关联的另一个或多个SMA表型相匹配，该另一受试者先前已针对SMA进行过治疗；检索表征该其他受试者的匿名受试者记录；从该受试者匿名受试者记录中提取治疗日程表；以及将该治疗日程表发送到使用者装置。

实例6是实例1至5的计算机实现的方法，其中该完成词或短语被预测为包括该部分词序列的完整词序列中的下一个词，并且其中该完成词或短语表示SMA表型。

实例7是实例1至6的计算机实现的方法，其中使用聊天机器人在该受试者的计算装置处输出该疾病进展。

实例8是实例1至7的计算机实现的方法，其中该受试者记录包括在对应于该受试者的电子病历中识别的数据。

实例9是实例1至8的计算机实现的方法，其中对应于该受试者的该受试者记录包括I型SMA、II型SMA、III型SMA或IV型SMA的诊断。

实例10是实例1至9的计算机实现的方法，其中训练该NLP模型进一步包括：收集包括受试者记录集的训练数据集，该受试者记录集中的每条受试者记录都对应于被诊断患有SMA的另一受试者，并且该受试者记录集中的每条受试者记录都包括表示在一时间段内SMA表型的进展的一个或多个特征；使用该训练数据集执行与生成序列模型相关联的学习算法，其中该学习算法检测与由对应于该受试者记录集的受试者集所表现出的SMA表型的进展相关联的模式；以及响应于使用该训练数据集执行与该生成序列模型相关联的学习算法而生成该NLP模型。

实例11是实例1至10的计算机实现的方法，其进一步包括：检测与该NLP模型相关联的数据泄漏，该数据泄漏暴露了表征该受试者的该受试者记录中包括的特征集中的特征；以及响应于检测到与该NLP模型相关联的数据泄漏，执行防止或阻止暴露该受试者记录中包括的特征集中的特征的数据泄漏防止协议。

实例12是实例1至11的计算机实现的方法，其中执行该数据泄漏防止协议包括根据差分隐私模型重新训练该NLP模型。

实例13是实例1至12的计算机实现的方法，其进一步包括：使用特征选择模型生成表征该受试者的降维受试者记录，该降维受试者记录从该受试者记录中包括的特征集中去除一个或多个特征，该一个或多个特征被表征为噪声。

实例14是一种系统，其包括：一个或多个处理器；和非暂态计算机可读存储介质，其包含指令，当在该一个或多个数据处理器上执行时，该指令促使该一个或多个数据处理器执行上文所公开的实例1至13中的一个多个实例的一部分或全部。

实例15是一种计算机程序产品，其有形地体现在非暂态机器可读存储介质中，并且包括被配置为促使一个或多个数据处理器执行上文所公开的实例1至13中的一个或多个实例的一部分或全部的指令。

Claims

1.一种计算机实现的方法，所述方法包括：

检索与受试者相关联的受试者记录，所述受试者记录包括表征所述受试者的特征集，并且所述受试者已被诊断患有脊髓性肌萎缩症(SMA)；

提取所述受试者记录中包括的所述特征集的子集，所述特征集的所述子集中的每个特征都与SMA特性相关联；

通过将所述特征集的所述子集组合成一个或多个词的序列来生成部分词序列，所述一个或多个词中的每个词都表示所述特征子集中的特征；

使用经过训练的词到向量模型将所述部分词序列转换为数字表示；

将所述部分词序列的所述数字表示输入到自然语言处理(NLP)模型中，所述自然语言处理(NLP)模型已经被训练以预测用于完成所述部分词序列的完成词或短语；

基于由所述NLP模型输出的所述完成词或短语生成疾病进展，所述疾病进展表示在一段时间内特定于所述受试者的一种或多种SMA表型的预测进展；以及

输出对预测所述受试者表现出所述疾病进展中包括的所述一种或多种SMA表型的指示。

2.根据权利要求1所述的计算机实现的方法，其进一步包括：

确定特定于所述受试者的所述一种或多种SMA表型的预测进展满足早期治疗条件，其中满足所述早期治疗条件指示对在所述受试者表现出所述一种或多种SMA表型中的SMA表型之前进行治疗的建议。

3.根据权利要求1至2所述的计算机实现的方法，其中当所述一种或多种SMA表型的所述预测进展满足所述早期治疗条件时：

识别与匿名受试者相关联的现有疾病进展，所述现有疾病进展与特定于所述受试者的所述一种或多种SMA表型的所述预测进展相匹配，并且所述匿名受试者已被诊断患有SMA；

识别训练与所述现有疾病进展相关联的所述匿名受试者的使用者；以及

向与所述使用者相关联的使用者装置发送通信，所述通信请求对所述受试者的治疗建议。

4.根据权利要求1至3所述的计算机实现的方法，其中当所述一种或多种SMA表型的所述预测进展不满足所述早期治疗条件时：

检索表征所述匿名受试者的匿名受试者记录；

从所述匿名受试者记录中提取治疗日程表；以及

将所述治疗日程表发送到使用者装置。

5.根据权利要求1至4所述的计算机实现的方法，其进一步包括：

将与所述受试者相关联的所述完成词或短语和与另一受试者相关联的另一个或多个SMA表型相匹配，所述另一受试者先前已针对SMA进行过治疗；

检索表征其他受试者的匿名受试者记录；

从所述匿名受试者记录中提取治疗日程表；以及

将所述治疗日程表发送到使用者装置。

6.根据权利要求1至5所述的计算机实现的方法，其中所述完成词或短语被预测为包括所述部分词序列的完整词序列中的下一个词，并且其中所述完成词或短语表示SMA表型。

7.根据权利要求1至6所述的计算机实现的方法，其中使用聊天机器人在所述受试者的计算装置处输出所述疾病进展。

8.根据权利要求1至7所述的计算机实现的方法，其中所述受试者记录包括在对应于所述受试者的电子病历中识别的数据。

9.根据权利要求1至8所述的计算机实现的方法，其中对应于所述受试者的所述受试者记录包括I型SMA、II型SMA、III型SMA或IV型SMA的诊断。

10.根据权利要求1至9所述的计算机实现的方法，其中训练所述NLP模型进一步包括：

收集包括受试者记录集的训练数据集，所述受试者记录集中的每条受试者记录都对应于被诊断患有SMA的另一受试者，并且所述受试者记录集中的每条受试者记录都包括表示在一时间段内SMA表型的进展的一个或多个特征；

使用所述训练数据集执行与生成序列模型相关联的学习算法，其中所述学习算法检测与由对应于所述受试者记录集的受试者集所表现出的SMA表型的所述进展相关联的模式；以及

响应于使用所述训练数据集执行与所述生成序列模型相关联的学习算法而生成所述NLP模型。

11.根据权利要求1至10所述的计算机实现的方法，其进一步包括：

检测与所述NLP模型相关联的数据泄漏，所述数据泄漏暴露表征所述受试者的所述受试者记录中包括的所述特征集中的特征；以及

响应于检测到与所述NLP模型相关联的数据泄漏，执行防止或阻止暴露所述受试者记录中包括的所述特征集中的所述特征的数据泄漏防止协议。

12.根据权利要求1至11所述的计算机实现的方法，其中执行所述数据泄漏防止协议包括根据差分隐私模型重新训练所述NLP模型。

13.根据权利要求1至12所述的计算机实现的方法，其进一步包括：

使用特征选择模型生成表征所述受试者的降维受试者记录，所述降维受试者记录从所述受试者记录中包括的所述特征集中去除一个或多个特征，所述一个或多个特征被表征为噪声。

14.一种系统，所述系统包括：

一个或多个处理器；和

非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包含指令，当在所述一个或多个处理器上执行时，所述指令促使所述一个或多个处理器执行本文所公开的一种或多种计算机实现的方法的一部分或全部。

15.一种计算机程序产品，所述计算机程序产品有形地体现在非暂态机器可读存储介质中，包括被配置为促使一个或多个数据处理器执行本文所公开的一种或多种计算机实现的方法的一部分或全部的指令。