CN116711023A

CN116711023A - 机器学习系统及用于诊断罕见病的方法

Info

Publication number: CN116711023A
Application number: CN202180064606.XA
Authority: CN
Inventors: C·M·莫洛尼; A·杜米特留
Original assignee: Sanofi Aventis France
Current assignee: Sanofi Aventis France
Priority date: 2020-09-23
Filing date: 2021-09-23
Publication date: 2023-09-05
Also published as: CN116615786A

Abstract

本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。根据本说明书的第一方面，描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法，所述方法包括：接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个症状的数据；使用无监督聚类方法识别所述初始数据集中的多个个体集群；基于所述集群中的所述个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病；将所述个体中的一个或多个从基于所述一个或多个个体的所述医疗数据被识别为最不具有代表性的所述一个或多个集群中移除，以生成经修剪的数据集；以及将所述经修剪的数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集。

Description

机器学习系统及用于诊断罕见病的方法

技术领域

本说明书涉及使用机器学习模型来基于医疗数据/病历对患有罕见病的患者进行诊断、以及训练这种模型的方法。

背景技术

据估计，全世界约有3亿人患有罕见病。罕见病的诊断时间通常比常见疾病更长，其中罕见病的平均诊断时间超过四年。这可能导致治疗罕见病的严重延迟并降低成功治疗罕见病的可能性。许多因素导致了该延迟，包括医学从业者对罕见病的不熟悉、给定罕见病的症状的多样性以及较常见疾病的症状对疾病的掩盖。尽管传统的诊断算法有时可以是有效的，但它们依赖于HCP意识并且需要验证许多临床特性(包括鉴别诊断)。这种条件在现实世界中很少得到满足。

发明内容

根据本说明书的第一方面，描述了一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法。所述方法包括：接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个症状的数据；使用无监督聚类方法识别所述初始数据集中的多个个体集群；基于所述集群中的所述个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病；将所述个体中的一个或多个从基于所述一个或多个个体的所述医疗数据被识别为最不具有代表性的所述一个或多个集群中移除，以生成经修剪的数据集；以及将所述经修剪的数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集。

将集群中的一个或多个集群识别为最不代表所述罕见病可以包括：识别所述多个集群中的每个集群的所述罕见病的代表性症状；将每个集群的所表示的症状与所述罕见病的预定义的已知症状集合进行比较，所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合；以及如果集群的所述代表性症状在所述最不具有代表性症状集合中，则将所述集群识别为最不代表所述罕见病。

将所述个体中的一个或多个从被识别为最不具有代表性的一个或多个集群中移除可以包括：对于被识别为最不具有代表性的所述集群中的每个个体：确定与所述个体相关联的医疗数据是否满足阈值条件，所述阈值条件基于所述罕见病的症状；以及如果不满足所述阈值条件，则将所述个体从所识别的集群中移除。所述阈值条件可以包括所述罕见病的症状的阈值数量。所述阈值条件可以可替代地或另外地包括在所述罕见病的症状的特征性子集中具有所述罕见病的至少一个症状。

在所述初始数据集中识别多个个体子集可以包括使用分层凝聚式聚类来将所述数据集聚类成预定数量个集群。

所述方法可以进一步包括：将与所述经修剪的数据集中的个体相关联的医疗数据与同所述对照数据集中的个体相关联的医疗数据进行比较，以识别所述罕见病的一个或多个潜在症状；以及用所述罕见病的所述一个或多个潜在症状增强所述训练数据集。

所述方法可以进一步包括：使用自然语言处理从与所述罕见病有关的文献中提取所述罕见病的一个或多个潜在症状；以及用所述罕见病的所述一个或多个潜在症状增强所述训练数据集。

所述对照数据集可以包括没有所述罕见病的个体，所述个体具有所述罕见病的至少阈值数量个症状。

将所述经修剪的数据集与对照数据集组合可以包括以预定义比率将所述对照数据集中的多个个体与所述经修剪的数据集中的每个个体相匹配。所述匹配可以基于所述个体的一个或多个人口统计性质。

根据本说明书的另一方面，描述了一种训练机器学习模型以基于个体的病历将所述个体分类为患有罕见病的计算机实施的方法，所述方法包括使用监督学习技术来使用标记的训练数据集训练所述机器学习模型，其中，已经使用用于生成训练数据集的本文所述的方法中的任何一种生成了所述训练数据集。

可以在所述标记的数据集中的数据的子集上训练所述机器学习模型；所述子集包括对于所述数据集中患有所述罕见病的每个个体在所述个体被诊断为患有所述罕见病前收集的医疗数据。

根据本说明书的另一方面，描述了一种诊断疾病的计算机实施的方法。所述方法包括：将与个体相关联的医疗数据输入到机器学习模型中；使用所述机器学习模型处理输入的医疗数据，以生成指示与所述医疗数据相关联的所述个体是否作为所述疾病的数据；以及从所述机器学习模型输出指示与所述医疗数据相关联的所述个体是否患有所述疾病的数据，其中所述机器学习模型已经使用本文所述的训练方法中的任何一种进行了训练。

根据本说明书的另一方面，描述了一种系统，其包括一个或多个处理器以及存储器，所述存储器包括计算机可读代码，所述计算机可读代码当由所述一个或多个处理器执行时致使所述系统执行本文所述的方法中的任何一种或多种。

根据本说明书的另一方面，描述了一种计算机程序产品，其包括计算机可读代码，所述计算机可读代码当由计算设备执行时致使所述计算设备执行本文所述的方法中的任何一种或多种。

如本文所用，术语“罕见病”优选地用于意指影响总人口中不到1/2000的人的疾病。目前已知的罕见病有6,000多种，并且还在不断发现新的罕见病。在以下书面描述中，将描述关于高雪氏病(Gaucher's disease)的示例方法，尽管将理解的是，所述方法同样适用于其他罕见病。

附图说明

现在将参考附图通过非限制性例子的方式描述实施方案，在附图中：

图1示出了用于训练机器学习模型以识别患有罕见病的个体的示例流水线的概述；

图2示出了用于生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的示例方法的概述；

图3示出了患有通过聚类算法识别的高雪氏病的患者的集群的身份的例子；

图4示出了细化患有罕见病的患者的数据集的方法的例子；

图5示出了将罕见病数据集与对照数据集组合的方法的例子；

图6示出了用附加特征增强训练数据集的方法的例子；

图7示出了生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的示例方法的流程图；并且

图8示出了用于执行本文所述的方法的计算系统/设备的例子。

具体实施方式

本说明书描述了训练机器学习模型以识别处于患上罕见病的风险中的患者(在本文中也称为个体)的方法。机器学习系统使用症状性方法来识别处于患上罕见病的风险中的个体。使用大量患者的电子病历对系统进行训练。基于个体的症状/电子病历，可以使用经过训练的模型来确定个体是否患有特定罕见病或是否处于患上特定罕见病的风险中。这可以使患有罕见病的患者在疾病进展中更早地被识别和捕获，从而使所述患者能够获得有效的治疗并避免不合理的发病率和负担。

由于总人口中患有罕见病的个体的比率较低，因此可以用于训练机器学习模型中以诊断罕见病的数据集通常是有噪声的和/或不平衡的。本说明书描述了生成噪声减少的数据集和/或平衡的数据集的方法，所述数据集当用于训练机器学习模型时产生更准确的模型(即，具有更少的假阳性和/或假阴性的模型)。

图1示出了用于训练机器学习模型以识别患有罕见病的个体的示例流水线100的概述。方法100可以由计算机执行。流水线100的操作102-110中的每一个可以独立地或与其他操作中的任何一个或多个组合地执行。

流水线100包括数据集生成操作102、模型训练操作104、模型测试操作106、模型验证操作108和模型输出操作110。

在数据集生成操作102期间，通过将包括患有罕见病的多个个体的医疗数据的目标数据集114与包括没有疾病116的多个个体的医疗数据的对照数据集116组合来生成训练数据集112。训练数据集112中的每个个体与指示所述个体是否患有罕见病的二元标记相关联。下面参考图2更详细地描述生成训练数据集的方法。

每个个体的医疗数据包括个体所经历的一个或多个症状。症状包括罕见病的已知症状并且可以另外包括可能与罕见病没有明确联系的其他症状(或症状组合)。对于给定的个体，医疗数据可以包括已经记录的、个体所经历的所有症状。医疗数据可以包括与个体相关联的医疗程序和病状(例如适应症、治疗、合并症)。医疗数据可以进一步包括以下各项中的一项或多项：生理数据；生命体征数据(例如BMI、血压、疼痛得分)；实验室值(例如A1C、eGFR、FEV)；生物标志物；个体接受的药物；和/或个人详细信息(例如年龄、性别、吸烟状况、种族)。在一些实施方案中，训练数据集中的每个个体与表示个体的嵌入向量相关联，所述嵌入向量基于特征在与个体相关联的医疗数据中的自然语言嵌入。

在一些实施方案中，关于个体与医疗保健系统的互动的数据也可以包括在每个个体的医疗数据中。交互可以包括以下各项中的一项或多项：就诊(即，就诊于医疗保健提供者的类型，例如急诊、住院、门诊等)；遭遇(即，患者有过的交互类型，例如出诊、成像等)；和/或提供者(即，患者看过的医疗保健专业人员的类型，例如神经科医生、心脏病专家等)。根据个体是否有过所述交互类型，可以用二元标志对交互进行编码。可替代地或另外地，可以提供交互的频率。可替代地或另外地，可以提供个体的所述交互首次进行的日期。

医疗数据可以进一步包括人口统计数据，诸如位置、性别和/或种族。

可以使用的医疗数据的其他例子对于技术人员来说将是熟悉的。

在一些实施方案中，与每个个体相关联的症状与症状在所述个体中首次出现的年龄相关联。这可以允许通过机器学习模型120来解释症状与年龄之间的相关性。这种关联可以帮助训练机器学习模型120检测早发症状。在这种数据上训练的机器学习模型120可以有利于在对照患者与罕见病患者之间具有不同发病年龄的症状，并且可以有利于早发/较年轻患者。可替代地或另外地，症状可以用二元存在/不存在来标示。在这种数据上训练的机器学习模型120可以有利于在对照患者与罕见病患者之间具有不同患病率的症状，并且可以有利于在患者/老年患者中合并症的积累。

一旦生成，训练数据集112就可以被划分为用于训练机器学习模型120的第一数据集118(在本文中也称为“学习数据集”)和一旦经过了训练就被用于测试机器学习模型120的第二数据集122(在本文中也称为“测试数据集”)。

在模型训练操作104期间，使用监督机器学习技术来在学习数据集118上训练机器学习模型120(在本文中也称为“模型”)以基于与对模型120的所述个体输入相关联的医疗数据将个体分类为患有或没有罕见病。将包括与第一数据集118中的个体相关联的医疗数据的输入数据124输入到模型120中，所述模型处理输入数据以生成用于所述个体的建议分类126，建议分类126指示模型将个体分类为患有罕见病还是没有罕见病。建议分类126由模型120输出并与输入数据124的已知分类进行比较，以确定对模型120的参数的更新128。该比较可以例如使用损失/目标函数执行，其训练目标是优化所述损失/目标函数。损失函数可以是分类损失，诸如交叉熵损失。在训练数据上迭代该过程，直到满足阈值条件，例如阈值数量个训练时段。

机器学习模型120可以是可以用于分类的任何类型的可训练模型。例如，模型可以是逻辑回归模型。逻辑回归模型可以具有套索惩罚项。套索惩罚对模型中未给模型带来信号的一些参数/系数施加惩罚。套索惩罚允许从模型120中移除不携带任何信号的特征，并提供模型120的参数/系数的可解释性：系数越大，变量越重要。逻辑回归可以具有介于0.2与3之间的收缩参数。指数增量可以用于阈值数量个值，例如10个值。

可替代地，模型120可以是轻量梯度提升模型(LGBM)。LGBM试图通过训练一系列弱模型(例如决策树)来提高预测能力，每个弱模型都补偿其前身的弱点。使用LGBM允许进行特征选择(例如经由树)、与大量特征一起很好地工作并考虑到症状组。LGBM模型可以例如具有介于10与40之间的最大深度，例如10、20或30。可以使用介于0.05与0.25之间的最小子重量，例如介于0.1与0.2之间。子叶的数量可以介于10与40之间，例如10、20或30。估计器(树)的数量可以介于50与350之间，诸如100、200或300。“LightGBM:A Highly EfficientGradient Boosting Decision Tree”(Ke,G.等人,2017,Advances in NeuralInformation Processing Systems 30,Eds Curran Associates,Inc,第3146-3154页)中描述了LGBM的例子。

本领域技术人员将认识到，可以可替代地使用其他类型的机器学习模型120，例如，模型120可以是诸如递归神经网络(RNN)等神经网络或支持向量机。RNN可以在EHR数据上的患者识别任务中胜过其他模型并且可以比传统方法需要更少的预处理。对于罕见病，RNN可以能够捕获有用的时间模式，诸如症状的有意义重复、症状的同时发生、特定连续就诊于医学专家。

在一些实施方案中，训练多个不同的机器学习模型，并且使用精确召回曲线下平均面积(AUPRC)选择最佳执行模型。所述多个模型可以包括不同类型的模型和/或具有不同超参数的相同类型的模型。

在一些实施方案中，训练数据最初由1名GD患者的Z名对照患者构成，其中Y<Z。在一些实施方案中，X为十，但是可以使用其他值。在一些实施方式中，Y＝X

在一些实施方式中，可以使用K倍交叉验证或自举采样来限制样本偏差并改善获得的模型的稳定性，即，通过从训练数据集中每次选择1名GD患者的Y名对照患者来执行X次交叉验证。在每次自举内，对照患者都是唯一的(即，没有替代)。可以在几次自举中选择对照患者(即，在自举之间进行替代选择)。

应当期望用于识别罕见病的良好候选模型：在二元目标上训练时输出连续概率；考虑到特征的年龄编码；与二元特征和数字特征的混合很好地一起工作；和/或对特性(例如，当多个症状存在时的较高体重)的存在不一定具有累加敏感性。

可以分析10个最佳AUPRC(每次自举时一个)的分布，以确保算法的鲁棒性。最终算法可以是在10个选择中随机挑选的自举(即，比率为1GD比10对照的训练数据集及其用交叉验证确定的关联最佳超参数)。

在一些实施方式中，使用训练数据集112中的一个或多个个体的医疗数据的子集来训练104/评价106模型。医疗数据子集可以排除在诊断出个体患有罕见病之后识别的罕见病的任何症状和/或收集的医疗数据，即仅包括在罕见病的诊断日期之前取得的症状和/或医疗数据。在一些实施方案中，医疗数据子集仅包括在诊断出个体患有罕见病之前的某个预定义时间前识别的罕见病的症状和/或收集的医疗数据。例如，可以仅使用在诊断之前的预定义数量个咨询前的数据(例如诊断前的一次或两次咨询)。对于没有罕见病的个体，所有医疗数据都可以使用。

在训练操作104之后，可以在测试操作106期间在第二(测试)数据集122上评价模型120的性能。将包括与第一数据集122中的个体相关联的医疗数据的输入数据130输入到模型120中，所述模型处理输入数据以生成输入数据的建议分类132。将测试数据集122中的每个个体的建议分类与所述个体的已知分类进行比较，并且基于结果确定模型的准确度得分。如果模型120在测试数据集122上满足阈值准确度条件，则输出110模型120以用于识别患有罕见病的个体(例如在与用于训练的数据库相当/兼容的数据库中)。在一些实施方案中，可以可替代地或另外地将模型输出到验证操作108。否则，可以将模型120返回到训练操作104以进行进一步细化。

在一些实施方式中，测试操作106可以包括第一测试操作，在所述第一测试操作中，在观察期期间不审查任何事件的情况下将模型120应用于测试数据集122，以评估模型120将会如何在接近现实生活应用的条件下执行。作为例子，可以使用一个/多个患者截至目前的完整EHR历史对模型进行评估。测试操作106可以可替代地或另外地包括第二测试操作，在所述第二测试操作中，审查(即，从对模型的输入中移除)在个体的索引日期(即，罕见病诊断的日期)之后发生的事件。这可以评估模型是否将会能够在诊断前以与医生相同的信息量识别罕见病患者。

在一些实施方案中，使用模型验证操作108来评估经过训练的模型120在兼容数据库(例如独立的HER系统)中的现实世界性能。使用包括与不在训练数据集中的多个个体相关联的未标记的医疗数据的另一数据集134来评估模型120的性能。将包括与另一数据集134中的个体相关联的医疗数据的输入数据136输入到模型120中，所述模型处理输入数据以生成输入数据的建议分类138。输入可以从另一数据集134中具有罕见病的至少阈值数量个症状的个体的集合中选择。例如，阈值数量可以是罕见病的至少两个症状。

由医学专业人员140评价被识别为患有罕见病的另一数据集134中的每个个体的建议分类，以验证诊断。如果模型的性能满足阈值条件(例如，如果与医学从业者的评估相比，模型准确度高于阈值)，则输出110模型以供使用。否则，可以将模型120返回到训练操作104以进行进一步细化。

图2示出了生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集210的示例方法200的概述。方法200可以由计算机执行。方法对应于图1的数据集生成操作102。方法可以对包括来自多个个体的医疗数据的医疗数据库进行操作。

方法200包括初始目标数据集创建操作202、聚类操作204、细化操作206(在本文中也称为“修剪”)和合并操作208。在一些实施方案中，方法200可以进一步包括可以在合并操作216之前或之后执行的增强操作208。

在初始目标数据集创建操作202期间，在医疗数据库中识别已被识别为患有给定的罕见病和/或正在接受与罕见病相关联的治疗的多个个体(在本文中也称为“RD个体”)。从已被识别为患有罕见病的所述多个个体中选择RD个体初始队列。

可以应用一个或多个接受标准来选择所述多个RD个体。接受标准可以包括基于症状的阈值标准。例如，可以通过回顾与罕见病相关联的文献来识别与罕见病相关联的多个特征，并且所述一个或多个接受标准可以包括具有罕见病的阈值数量个特征。特征可以包括罕见病的症状集合。所述症状集合可以被划分成与罕见病的已知亚型有关的多个子集。作为例子，在高雪氏病的情况下，每个特征可以与疾病的三个亚型中的一个或多个相关联。多个特征被识别为疾病的“代表性”特征，即罕见病的特性。特征中的一个或多个可以被分类为“最不具有代表性”特征，所述特征存在于患有罕见病的个体中，但本身并不是疾病的特性(例如一般症状)。阈值标准可以包括具有阈值数量个识别的疾病症状。阈值数量可以介于一与四之间，例如至少两个识别的症状。

在一些实施方案中，接受标准可以进一步包括在医疗数据库中具有至少阈值覆盖期，例如具有至少一年的覆盖。

在一些实施方案中，接受标准进一步包括具有至少罕见病的阈值数量个独立诊断。独立诊断的阈值数量为至少两个。根据罕见病，阈值数量可以更高。

作为具体例子，在医疗数据集中识别已被诊断为患有罕见病的第一多个个体。识别的个体已经接受了罕见病的至少两次诊断。识别接受与罕见病相关联的治疗但尚未被诊断为患有罕见病的第二多个个体。通过将第一多个个体和第二多个个体中通过接受标准的个体组合来形成初始队列，例如，仅将具有罕见病的至少两个症状的个体纳入初始队列中。

在一些实施方式中，可以基于一个或多个排除标准将个体从初始队列中排除。排除标准可以包括个体具有不连贯的时间线(例如，在索引日期之后报告的第一活动日期；在索引日期之前报告的最后活动日期；和/或在索引日期之前的死亡日期)。排除标准可以可替代地或另外地包括患有一种或多种其他疾病(例如，患有类似类型的另一种疾病(其可以指示感兴趣的罕见病的误诊))或影响类似系统。

从RD个体的医疗数据生成初始目标数据集202，对于每个RD个体，初始目标数据集202包括对与疾病相关联的特征中的哪些特征存在于所述RD个体中的指示。例如，每个个体可以与二元标记的向量相关联，向量的每个分量指示罕见病的关联特征的存在或不存在。每个RD个体还可以与所述RD个体的人口统计数据相关联。

在一些实施方案中，初始目标数据集202可以在聚类操作204和细化操作206中经历进一步处理，以生成用于训练机器学习模型的更清洁/更平衡数据集。

在聚类操作204期间，将无监督聚类算法应用于初始目标数据集，以将RD个体聚类成多个子集(在本文中也称为集群)。数据可以被聚类成预定数量个子集。子集的预定数量可以取决于罕见病的性质，例如是识别的症状的数量的一小部分和/或罕见病的亚型的数量。

这种无监督聚类算法的例子是分层凝聚式聚类(HAC)，其将数据聚类为预定义数量个子集。HAC包括从下到上重组观察值。每个个体从自己的集群中开始，并且然后集群被分组在一起，直到达到预定义的子集数量。在观察值集合之间计算相异度量度，以确定将收集哪些观察值。使用度量和链接标准计算相异度量度。度量用于计算每个观测值之间的距离。链接标准确定每组观察值之间的距离。应当理解，可以可替代地使用其他无监督聚类算法。在一些实施方式中，计算集群之间的p值，以评估是否可能已经偶然获得集群。

一旦被聚类成子集，每个子集/集群的特征性特征就被识别出来。特征性特征可以基于每个子集内的RD个体之间的共同症状进行识别，例如，每个子集内的最常见症状/症状组合可以被识别为所述子集的所表示特征。特征性特征可以可替代地或另外地基于症状类型，例如，集群中的所有个体都可能具有神经症状。特征性特征可以可替代地或另外地基于集群中的个体的人口统计性质，诸如个体的年龄，例如“具有症状X的年轻患者”。特征性特征的许多其他例子是可能的。

图3中示出了通过聚类算法识别的高雪氏病的子集300的例子。在该例子中，患有高雪氏病的个体(在本文中也称为“GD个体”)已被聚类成十个集群/子集302-320。基于集群中的GD个体的性质，每个集群是分配特征性特征。在所示出的例子中，基于主要症状/症状组合和/或集群内的患者类型对集群进行标记：仅器官肿大302；器官肿大和构音障碍304；继发性神经306；帕金森综合症308；少骨、贫血、血细胞减少和器官肿大310；健康患者但贫血率较高312；重度骨和呼吸障碍314；年轻重度神经症状316；重度内脏受累及骨障碍；以及伴有轻度器官肿大的重度神经受累。

除了重度内脏受累及骨障碍集群外，每个集群内的个体都与三种类型的GD之一相关联。I型集群也与年龄322相关。

在一些实施方案中，使用聚类操作204识别的特征可以用作训练数据集的特征标记。

返回图2，在聚类操作204之后，在一些实施方案中，可以对初始目标数据集执行细化操作206，以生成经细化的数据集(在本文中也称为“经修剪的”数据集)。在细化过程期间，基于子集中的RD个体的医疗数据将一个或多个集群识别为最不代表罕见病。然后，基于这些个体的医疗数据丢弃212来自这些集群的RD个体中的一个或多个(例如，如果医疗数据不满足附加阈值条件的话)。通过以该方式移除信息缺乏的个体来细化数据集可以减少数据集中的噪声量，同时维持足够的信息来训练准确的模型。

将集群识别为最不代表罕见病可以包括：将每个集群的特征性特征与疾病的所识别特征的列表进行比较；以及识别特征性特征与罕见病的已知最不具有代表性特征或罕见病的一般特征相匹配的集群。

对于被识别为最不代表罕见病的集群，对集群中的每个RD个体应用附加阈值条件，以确定保持还是从训练数据集丢弃所述RD个体。附加阈值条件比创建初始目标数据集时使用的阈值条件更严格。如果最不具有代表性集群中的RD个体具有罕见病的少于阈值数量个症状，则可以移除所述RD个体。阈值数量可以高于在创建初始队列中使用的阈值数量。例如，如果在个体具有至少两种疾病症状时将所述个体纳入初始队列中，则在最不具有代表性集群中的个体具有少于三种症状时可以丢弃所述个体。可替代地或另外地，更严格的阈值条件可以包括个体所经历的症状中的至少一个是特征性症状的条件，例如，如果个体仅具有最不具有代表性/一般症状，则丢弃与所述个体相关联的数据。

图4中示出了细化图3的高雪氏病的集群的方法400的例子。该例子中的初始队列具有610个个体。方法包括例如通过将一个或多个集群404的特征性特征与GD的最不具有代表性特征的列表进行比较来将集群识别402为最不代表GD。在该例子中，来自图3的三个集群被识别为最不具有代表性：“受控”集群；“贫血”集群；以及“较少神经体征”集群。

在识别402之后，将阈值条件406应用于识别的集群404中的个体。在该例子中，如果个体具有少于三个GD症状或没有GD的代表性/特征性症状，则将所述个体从这些集群中移除。

输出408初始队列减去移除的个体的经细化的数据集410，以进行进一步处理。该例子中的经细化的数据集具有565个个体，即，已经从三个识别的集群404中移除了45个个体。因此，经细化的数据集具有带有以下情况的患者：(1)GD的两个或更多个代表性特征；或(2)GD的至少三个特征，其中的一个特征代表GD。这限制了移除的患者的数量，同时保持队列有足够的相关信息来训练算法。

返回图2，在细化操作206之后，或者如果不执行细化操作则在聚类操作204之后，执行合并操作208，以创建训练数据集210。在合并操作期间，将经修剪的/经细化的数据集与来自对照数据集214的医疗数据合并。对照数据集包括来自尚未被诊断为患有罕见病的个体(在本文中也称为“对照个体”)的医疗数据。

对照个体是基于具有罕见病的至少阈值数量个症状从对照数据集中选择的。阈值数量可以介于一与五之间，例如，阈值数量可以为二。

在一些实施方案中，经修剪的数据集中的每个个体以预定义比率与多个对照个体相匹配，以生成平衡的数据集。预定义比率可以取决于总人口中罕见病的患病率。预定义比率可以为每个RD个体有介于5个与20个对照个体之间，例如10个对照个体。匹配可以基于经修剪的数据集中的个体的一个或多个人口统计性质执行。人口统计性质的例子包括：年龄(例如在年龄范围内)；性别；和/或数据覆盖(例如，个体的时间跨度数据可用)。

换句话说，对于每个RD个体，从具有与RD个体相同的人口统计性质的对照个体集合中对预定义数量个对照个体进行采样。可以使用没有替代的情况下的精确匹配。

图5中示出了用于高雪氏病的这种匹配过程500的例子。将565名高雪氏病患者(GD个体)的经修剪的数据集502与从10M个个体的数据集504中选择的对照个体合并506，以创建训练数据集508。在该例子中，GD个体各自被归类510为基于性别(即男性或女性)、其所属于的年龄范围(例如0-10岁、11-20岁等)和覆盖期(0-1年、1-2年等)的人口统计群体。对于每个GD个体，识别512相同人口统计群体中对照数据集中的对应个体并以预定义比率(例如1:10)对其进行采样514。结果是具有565个GD个体和5650个对照个体的训练数据集508(T)。

可以基于一个或多个另外的排除标准排除将对照个体纳入合并的数据集中。另外的排除标准可以包括患有一种或多种其他疾病(例如，患有类似类型的另一种疾病)或影响类似的系统。另外的排除标准可以可替代地或另外地包括对经修剪的数据集中的个体具有不同的覆盖期。

在一些实施方案中，为每个对照个体创建虚拟“对照索引日期”，使得罕见病和对照患者均具有算法可以对其学习的相同期数据。对于给定的覆盖长度，可以将对照索引日期设置在罕见病人群的中位回顾期。

返回图2，在一些实施方案中，方法200进一步包括一个或多个数据增强操作216。数据增强操作216识别可以与罕见病的诊断相关的附加医疗数据，并将该附加医疗数据添加到训练数据集210。

图6示出了增强训练数据集的示例方法600。在增强之前，将训练数据集602中的每个个体与对所述个体604中存在罕见病的哪些症状的指示相关联。例如，如图6所示，二元标记/标志的向量(t_n)可以与每个个体(n)相关联，其中向量的每个分量对应于所述特征是否存在于关联的个体中。在高雪氏病的例子中，从文献中/由GD专家选择N＝69个特征为向量的分量。

数据增强可以识别与尚未被纳入训练数据中的个体相关联的医疗数据中与罕见病相关联的一个或多个附加特征606。这些附加特征被添加到与个体相关联的数据，例如作为与所述个体相关联的特征的向量的附加分量或者作为与每个个体相关联的附加特征向量。

在一些实施方案中，可以使用数据驱动的增强608，所述数据驱动的增强将统计方法应用于与对照数据集和目标数据集中的个体相关联的医疗数据，以识别与对照数据集相比以显著更低的频率存在于目标数据集中的附加特征(或反之亦然)。对这些附加特征的存在或不存在的指示可以添加到与每个个体相关联的数据。数据驱动的特征是发现在感兴趣人群中更普遍的新特征的好方法。与医学知识相关联的所述数据驱动的特征可以带来新颖的证据。

例如，对于每个特征，在罕见病队列与对照队列之间执行卡方(Chi-square)检验和克莱姆V(Cramér V)检验。卡方检验指示变量之间是否有显著关系。克莱姆V是指示两个变量的关联程度有多强的、介于0与1之间的数字。特征根据其克莱姆V得分进行排名。如果卡方检验具有显著性，则选择特征的决定基于克莱姆V的最高值。

例如，在一些实施方案中，所选特征将是尚不存在的特征，对于所选特征，使用两个队列之间的克莱姆V系数的关联强度高于阈值(例如高于0.1)并且使用卡方检验的p值低于阈值(例如低于0.05)，以评估采样偏差。

所选特征可以针对每个个体被编码为指示所述特征在个体中存在或不存在的二元标志。可替代地或另外地，所选特征可以针对每个个体被编码为在所述个体中首次出现的年龄。

可替代地或另外地，可以识别年龄区分符610。在数据中识别年龄与症状之间的一种或多种相关性。这些可以帮助识别可能是由于罕见病而不是由于衰老而引起的症状。根据出现的年龄，创建每个所选症状的二元变量，例如，对于没有罕见病的个体，症状是在文献中的平均出现之前还是之后出现。所选症状可以是通常随着衰老出现的症状，诸如神经症状(例如帕金森症状、震颤)和/或骨病状(例如骨关节炎、骨质疏松症)。

可替代地或另外地，可以识别症状关联612。症状关联是症状和这些症状的定位的组合。

可替代地或另外地，可以使用自然语言处理(NLP)从文献614中识别附加特征。在医学文献中识别表示临床术语的词汇/令牌(例如，关于从PubMED中选择医学出版物)。可以选择医学文献以包括与罕见病有关的出版物和对具有类似症状的疾病的选择。自然语言处理用于创建临床术语的数学表示，所述数学表示基于文献中使用这些术语的上下文。例如，每个术语可以被表示为向量空间中的嵌入向量，其中出现在类似上下文中的词占据向量空间中的接近位置，即出现在类似上下文中的临床术语具有类似的嵌入向量表示。可以用于生成这种嵌入向量的自然语言处理算法的例子是Word2Vec(参见例如“DistributedRepresentations of Words and Phrases and their Compositionality”,Mikolov等人2013,Adv.Neural Inf.Process.Syst,第26卷)。

通过采取与罕见病/罕见病的症状的嵌入向量接近(例如，在其阈值距离内)的嵌入向量，可以将在与罕见病和/或其症状类似的上下文中出现的术语识别为要包括在训练数据集中的附加特征。可以使用余弦相似度来确定嵌入向量之间的距离。

通常，可以为与文献中的罕见病相关联的每个术语确定/生成嵌入向量。

此外，识别的词/术语嵌入可以用于生成训练数据集中的每个个体的向量化。对于每个个体，所述个体的向量表示可以例如通过对与个体相关联的特征的嵌入向量求平均(例如取其均值)来创建。在一些实施方案中，还可以从该表示中减去罕见病术语的嵌入，以创建个体的最终向量表示。在对照个体没有罕见病的任何特征的情况下，所述对照个体可以由零向量表示。这种向量表示可以用作对机器学习模型的附加或替代性输入。

当在由生物医学文献构成的语料库上训练时，词嵌入实现了在诸如疾病、症状和治疗等概念之间建立关系。词嵌入通过使用在正文中提到了概念的上下文来将概念转换为向量。两个向量之间的相似度表示它们之间的关系有多密切。特征可以通过计算症状与给定疾病之间的距离并保持最接近的特征来提取(参见例如“Learning to Identify RareDisease Patients from Electronic Health Records”Colbaugh等人,2018,AMIA...Annu.Symp.proceedings.AMIA Symp,第2018卷，第340-347页)。

一旦创建，训练数据集就将用于训练机器学习模型。

测试数据集可以以与训练数据集基本上相同的方式创建，并在经过训练后用于测试机器学习模型的性能。可以基于与训练数据集相同的标准但是在不同的罕见病个体与对照个体比率下选择测试数据集。与训练数据集中相比，在测试数据集中，每个罕见病个体的对照个体数量可以更高。例如，在测试数据集中，每个罕见病个体可以有介于1,000个与50,000个对照个体之间，例如1:10,000的罕见病与对照比。

图7示出了生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的示例方法的流程图。方法可以由计算机执行。

在操作7.1处，接收初始数据集，所述初始数据集包括与患有罕见病的多个个体有关的医疗数据。每个个体的医疗数据包括指示所述个体所经历的罕见病的多个症状的数据。医疗数据可以进一步包括以下各项中的一项或多项：生命体征数据(例如BMI、血压、疼痛得分)；实验室值(例如A1C、eGFR、FEV)；生物标志物；个体接受的药物；和/或个人详细信息(例如年龄、性别、吸烟状况、种族)。

在操作7.2处，使用无监督聚类方法识别初始数据集中的多个个体集群。无监督聚类算法方法可以是分层凝聚式聚类算法。聚类算法可以将数据集聚类成预定数量个集群。预定数量可以基于罕见病的已知亚型或者是罕见病的已知的症状数量的一小部分。

在操作7.3处，基于集群中的个体的医疗数据将集群中的一个或多个集群识别为最不代表罕见病。将集群中的一个或多个集群识别为最不代表罕见病可以包括例如基于每个集群中的个体所经历的最常见的症状或症状集合和/或每个集群中的个体的人口统计性质识别所述多个集群中的每个集群的罕见病的代表性症状。可以将每个集群的代表性症状与罕见病的预定义的已知症状集合进行比较，所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合。如果集群的代表性症状在最不具有代表性症状集合中，则可以将集群识别为最不代表罕见病。

在操作7.4处，将个体中的一个或多个从基于所述一个或多个个体的医疗数据被识别为最不具有代表性的所述一个或多个集群中移除，以创建经修剪的数据集。对于被识别为最不具有代表性的集群中的每个个体，这可以包括确定与个体相关联的医疗数据是否满足阈值条件，并且如果不满足阈值条件，则将个体从识别的集群中移除。阈值条件可以基于罕见病的症状，例如具有罕见病的至少阈值数量个症状。所述阈值条件可以可替代地或另外地包括在所述罕见病的症状的特征性子集中具有所述罕见病的至少一个症状。

在操作7.5处，将经修剪的数据集与包括没有罕见病的多个个体的对照数据集组合，以生成训练数据集。对照数据集可以包括没有罕见病的个体，所述个体具有罕见病的至少阈值数量个症状。将经修剪的数据集与对照数据集组合可以包括以预定义比率将对照数据集中的多个个体与经修剪的数据集中的每个个体相匹配，例如每个RD个体有十个对照个体。匹配可以基于经修剪的数据集中的个体的一个或多个人口统计性质。

在一些实施方案中，不执行操作7.2-7.4，即，“经修剪的”数据集只是初始数据集、潜在地用罕见病特征的附加数据进行增强。在一些实施方案中，初始数据集可以被聚类以识别特征，但不基于那些特征进行修剪，即，执行操作7.2，但不执行操作7.3和7.4。

在一些实施方案中，方法可以进一步包括在将对照数据集和经修剪的数据集合并之后的一个或多个数据增强操作。数据增强操作识别罕见病的一个或多个潜在指标并将其作为标记并入训练数据集中。增强可以包括：将与经修剪的数据集中的个体相关联的医疗数据与同对照数据集中的个体相关联的医疗数据进行比较，以识别罕见病的一个或多个潜在症状；以及用罕见病的所述一个或多个潜在症状增强训练数据集。可替代地或另外地，数据增强可以包括：使用自然语言处理从与罕见病有关的文献中提取罕见病的一个或多个潜在症状；以及用罕见病的所述一个或多个潜在症状增强训练数据集。

在一些实施方案中，方法包括使用自然语言处理从与罕见病相关联的医学文献语料库生成与罕见病相关联的多个术语中的每一个的嵌入向量。在一些实施方案中，使用诸如Word2Vec等自然语言处理算法生成医学文献语料库中的多个术语中的每一个的嵌入向量。嵌入向量中的每一个可以被归一化。

然后，可以使用距离度量将这些嵌入向量与已知同罕见病相关联的一个或多个预定义术语的嵌入向量(诸如罕见病本身和/或其已知症状的嵌入向量)进行比较。使用与来自医学文献语料库的嵌入向量相同的方法生成与预定义术语相关联的嵌入向量。距离度量可以是测量两个向量之间的差的任何度量形式，诸如(归一化的)嵌入向量之间的点积或者余弦相似度。如果所述嵌入向量与已知同罕见病相关联的预定义术语的嵌入向量之间的距离大于阈值，则丢弃医学文献语料库中的术语的嵌入向量，以生成与罕见病相关联的术语的嵌入向量集合。

一旦训练集已经生成，方法就可以进一步包括对于训练数据集中的每个个体，基于与个体相关联的特征和与罕见病相关联的所述多个术语的嵌入向量生成表示个体的嵌入向量。生成表示个体的嵌入向量可以包括：识别与罕见病相关联的术语的一个或多个嵌入向量，所述术语对应于个体所经历的罕见病的特征；以及对与罕见病相关联的术语的所识别的嵌入向量求平均，以生成表示个体的嵌入向量。换句话说，个体的嵌入是与所述个体相关联的特征的嵌入向量的平均值。在一些实施方案中，从个体的嵌入向量中减去罕见病术语本身的嵌入向量，即表示个体的嵌入向量表示罕见病术语的嵌入向量与同个体相关联的特征的平均嵌入向量之间的差。

然后可以使用训练数据集来训练机器学习模型以识别患有罕见病的个体。使用监督学习技术训练机器学习模型。在模型的训练期间，将与个体相关联的医疗数据输入到模型中，并且从模型获得的建议分类指示个体是否患有罕见病。在一些实施方式中，输入到机器学习模型中的医疗数据包括与个体相关联的嵌入向量。将建议分类与个体的已知分类进行比较。基于比较更新模型的参数。

在一些实施方案中，可以将与个体相关联的医疗数据的子集输入到模型中。例如，对于患有罕见病的个体，可以仅将在所述个体的诊断之前的医疗数据输入到模型中，例如直到诊断的时间或者直到诊断之前的某个预定义时间。这可以减少与诊断后症状收集相关联的偏差。

一旦经过训练，机器学习模型就可以用来识别可能患有罕见病的个体。将与个体相关联的医疗数据输入到模型中。在一些实施方式中，输入到机器学习模型中的医疗数据包括与个体相关联的嵌入向量。模型处理输入的医疗数据以生成指示与医疗数据相关联的个体是否作为疾病的数据，例如个体是否患有疾病或个体患有疾病的概率的二元分类。从模型输出指示与医疗数据相关联的个体是否患有疾病的数据。

图8示出了用于执行本文所述的方法中的任何一种的系统/设备的示意性例子。所示出的系统/设备是计算装置的例子。本领域技术人员将理解，可以可替代地使用其他类型的计算装置/系统(诸如分布式计算系统)来实施本文所述的方法。

设备(或系统)800包括一个或多个处理器802。所述一个或多个处理器控制系统/设备800的其他部件的操作。所述一个或多个处理器802可以例如包括通用处理器。所述一个或多个处理器802可以是单核装置或多核装置。所述一个或多个处理器802可以包括中央处理单元(CPU)或图形处理单元(GPU)。可替代地，所述一个或多个处理器802可以包括专用处理硬件，例如RISC处理器或具有嵌入式固件的可编程硬件。可以包括多个处理器。

系统/设备包括工作或易失性存储器804。所述一个或多个处理器可以访问易失性存储器804以处理数据并且可以控制数据在存储器中的存储。易失性存储器804可以包括任何类型的RAM，例如静态RAM(SRAM)、动态RAM(DRAM)，或者所述易失性存储器可以包括闪速存储器，诸如SD卡。

系统/设备包括非易失性存储器806。非易失性存储器806以计算机可读指令的形式存储用于控制处理器802的操作的操作指令808的集合。非易失性存储器806可以是任何类型的存储器，诸如只读存储器(ROM)、闪速存储器或磁驱动存储器。

所述一个或多个处理器802被配置成执行操作指令808致使系统/设备执行本文所述的任何方法。操作指令808可以包括与系统/设备800的硬件部件有关的代码(即，驱动器)以及与系统/设备800的基本操作有关的代码。一般而言，所述一个或多个处理器802执行操作指令808中的一个或多个指令，所述一个或多个指令被永久地或半永久地存储在非易失性存储器806中，从而使用易失性存储器804来临时存储在所述操作指令808的执行期间生成的数据。

本文所述的方法的实施方式可以实现为在数字电子电路系统、集成电路系统、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中。这些可以包括计算机程序产品(诸如，存储在例如磁盘、光盘、存储器、可编程逻辑装置上的软件)，所述计算机程序产品包括计算机可读指令，所述计算机可读指令当由计算机(诸如关于图8所描述的)执行时致使所述计算机执行本文所述的方法中的一种或多种。

本文所述的任何系统特征也可以被提供作为方法特征，并且反之亦然。如本文所用，方式加功能特征可以按照其相应结构可替代地表示。具体地，方法方面可以应用于系统方面，并且反之亦然。

此外，一个方面中的任何、一些和/或所有特征可以以任何适当的组合应用于任何其他方面中的任何、一些和/或所有特征。还应当理解的是，在本发明的任何方面中描述和限定的各种特征的特定组合可以独立地实施和/或供应和/或使用。

尽管已经示出和描述了几个实施例，但是本领域技术人员将会理解的是，在不脱离本公开文本的原理的情况下，可以在这些实施例中做出改变，本公开文本的范围在权利要求及其等同物中限定。

术语“药物”或“药剂”在本文中同义使用，并且描述了如下药学制剂，其包含一种或多种活性药学成分或其药学上可接受的盐或溶剂化物以及可选地药学上可接受的载剂。从最广义上来说，活性药学成分(“API”)是对人或动物具有生物学效应的化学结构。在药理学中，将药物或药剂用于治疗、治愈、预防或诊断疾病或者用于以其他方式增强身体或精神健康。可以将药物或药剂使用有限的持续时间，或者定期用于慢性障碍。

如下文所述，药物或药剂可以包括用于治疗一种或多种疾病的在各种类型的制剂中的至少一种API或其组合。API的例子可以包括小分子(具有500Da或更小的分子量)；多肽、肽和蛋白质(例如，激素、生长因子、抗体、抗体片段和酶)；碳水化合物和多糖；以及核酸、双链或单链DNA(包括裸露和cDNA)、RNA、反义核酸(如反义DNA和RNA)、小干扰RNA(siRNA)、核酶、基因和寡核苷酸。可以将核酸掺入分子递送系统(如载体、质粒或脂质体)中。还设想了一种或多种药物的混合物。

可以将药物或药剂包含在被适配成用于与药物递送装置一起使用的初级包装或“药物容器”中。药物容器可以是例如药筒、注射筒、储器或其他坚固或柔性的器皿，其被配置成提供用于储存(例如，短期或长期储存)一种或多种药物的合适腔室。例如，在一些情况下，可以将腔室设计成将药物储存至少一天(例如，1天到至少30天)。在一些情况下，可以将腔室设计成将药物储存约1个月至约2年。储存可以在室温(例如，约20℃)或冷藏温度(例如，从约-4℃至约4℃)下进行。在一些情况下，药物容器可以是或可以包括双腔室药筒，其被配置成单独储存待施用的药物制剂的两种或更多种组分(例如，API和稀释剂、或两种不同的药物)，每个腔室中储存一种。在这种情况下，双腔室药筒的两个腔室可以被配置成在分配到人体或动物体内之前和/或期间允许两种或更多种组分之间的混合。例如，可以将两个腔室配置成使得它们彼此流体连通(例如，通过两个腔室之间的管道)，并且允许用户在分配之前在需要时混合两种组分。可替代地或另外地，两个腔室可以被配置为允许在将组分分配到人体或动物体内时进行混合。

可以将如本文所述的药物递送装置中包含的药物或药剂用于治疗和/或预防许多不同类型的医学障碍。障碍的例子包括例如糖尿病或与糖尿病相关联的并发症(如糖尿病视网膜病变)、血栓栓塞障碍(如深静脉或肺血栓栓塞)。障碍的另外例子是急性冠状动脉综合征(ACS)、心绞痛、心肌梗塞、癌症、黄斑变性、炎症、枯草热、动脉粥样硬化和/或类风湿性关节炎。API和药物的例子是如以下手册中所述的那些：诸如Rote Liste2014(例如但不限于，主要组(main group)12(抗糖尿病药物)或86(肿瘤药物))和Merck Index，第15版。

用于治疗和/或预防1型或2型糖尿病或与1型或2型糖尿病相关联的并发症的API的例子包括胰岛素(例如，人胰岛素、或人胰岛素类似物或衍生物)；胰高血糖素样肽(GLP-1)、GLP-1类似物或GLP-1受体激动剂、或其类似物或衍生物；二肽基肽酶-4(DPP4)抑制剂、或其药学上可接受的盐或溶剂化物；或其任何混合物。如本文所用，术语“类似物”和“衍生物”是指具有如下分子结构的多肽，所述分子结构可以通过缺失和/或交换在天然存在的肽中存在的至少一个氨基酸残基和/或通过添加至少一个氨基酸残基而在形式上衍生自天然存在的肽的结构(例如，人胰岛素的结构)。所添加和/或交换的氨基酸残基可以是可编码氨基酸残基或其他天然残基或纯合成氨基酸残基。胰岛素类似物还被称为“胰岛素受体配体”。特别地，术语“衍生物”是指具有如下分子结构的多肽，该分子结构在形式上可以衍生自天然存在的肽的结构(例如人胰岛素的结构)，其中一个或多个有机取代基(例如脂肪酸)与一个或多个氨基酸结合。任选地，天然存在的肽中存在的一个或多个氨基酸可能已被缺失和/或被其他氨基酸(包括不可编码的氨基酸)替代，或者氨基酸(包括不可编码的氨基酸)已被添加到天然存在的肽中。

胰岛素类似物的例子是Gly(A21)、Arg(B31)、Arg(B32)人胰岛素(甘精胰岛素)；Lys(B3)、Glu(B29)人胰岛素(谷赖胰岛素)；Lys(B28)、Pro(B29)人胰岛素(赖脯胰岛素)；Asp(B28)人胰岛素(门冬胰岛素)；人胰岛素，其中在位置B28处的脯氨酸被Asp、Lys、Leu、Val或Ala替换并且其中在位置B29处的Lys可以被Pro替换；Ala(B26)人胰岛素；Des(B28-B30)人胰岛素；Des(B27)人胰岛素和Des(B30)人胰岛素。

胰岛素衍生物的例子是例如B29-N-肉豆蔻酰-des(B30)人胰岛素、Lys(B29)(N-十四酰)-des(B30)人胰岛素(地特胰岛素(insulin detemir)，)；B29-N-棕榈酰-des(B30)人胰岛素；B29-N-肉豆蔻酰人胰岛素；B29-N-棕榈酰人胰岛素；B28-N-肉豆蔻酰LysB28ProB29人胰岛素；B28-N-棕榈酰-LysB28ProB29人胰岛素；B30-N-肉豆蔻酰-ThrB29LysB30人胰岛素；B30-N-棕榈酰-ThrB29LysB30人胰岛素；B29-N-(N-棕榈酰-γ-谷氨酰)-des(B30)人胰岛素、B29-N-ω-羧基十五酰-γ-L-谷氨酰-des(B30)人胰岛素(德谷胰岛素(insulin degludec)，/>)；B29-N-(N-石胆酰-γ-谷氨酰)-des(B30)人胰岛素；B29-N-(ω-羧基十七酰)-des(B30)人胰岛素和B29-N-(ω-羧基十七酰)人胰岛素。

GLP-1、GLP-1类似物和GLP-1受体激动剂的例子是例如利西拉肽艾塞那肽(Exendin-4，/>由毒蜥(Gila monster)的唾液腺产生39个氨基酸的肽)、利拉鲁肽/>索马鲁肽(Semaglutide)、他司鲁肽(Taspoglutide)、阿必鲁肽/>杜拉鲁肽(Dulaglutide)/>rExendin-4、CJC-1134-PC、PB-1023、TTP-054、兰格拉肽(Langlenatide)/HM-11260C(艾匹那肽(Efpeglenatide))、HM-15211、CM-3、GLP-1Eligen、ORMD-0901、NN-9423、NN-9709、NN-9924、NN-9926、NN-9927、Nodexen、Viador-GLP-1、CVX-096、ZYOG-1、ZYD-1、GSK-2374697、DA-3091、MAR-701、MAR709、ZP-2929、ZP-3022、ZP-DI-70、TT-401(Pegapamodtide)、BHM-034。MOD-6030、CAM-2036、DA-15864、ARI-2651、ARI-2255、泰瑞帕肽(Tirzepatide)(LY3298176)、巴度肽(Bamadutide)(SAR425899)、艾塞那肽-XTEN和胰高血糖素-Xten。

寡核苷酸的例子是例如：米泊美生钠一种用于治疗家族性高胆固醇血症的胆固醇还原性反义治疗剂，或用于治疗Alport综合征的RG012。

DPP4抑制剂的例子是利拉利汀(Linagliptin)、维达列汀、西他列汀、地那列汀(Denagliptin)、沙格列汀、小檗碱。

激素的例子包括垂体激素或下丘脑激素或调节活性肽及其拮抗剂，如促性腺激素(促滤泡素、促黄体素、绒毛膜促性腺激素、促生育素)、促生长激素(Somatropine)(生长激素)、去氨加压素、特利加压素、戈那瑞林、曲普瑞林、亮丙瑞林、布舍瑞林、那法瑞林和戈舍瑞林。

多糖的例子包括葡糖胺聚糖(glucosaminoglycane)、透明质酸、肝素、低分子量肝素或超低分子量肝素或其衍生物、或硫酸化多糖(例如，上述多糖的多硫酸化形式)、和/或其药学上可接受的盐。多硫酸化低分子量肝素的药学上可接受的盐的例子是依诺肝素钠。透明质酸衍生物的一个例子是Hylan G-F 20它是一种透明质酸钠。

如本文所用，术语“抗体”是指免疫球蛋白分子或其抗原结合部分。免疫球蛋白分子的抗原结合部分的例子包括F(ab)和F(ab')2片段，其保留结合抗原的能力。抗体可以是多克隆抗体、单克隆抗体、重组抗体、嵌合抗体、去免疫抗体或人源化抗体、完全人抗体、非人(例如，鼠类)抗体或单链抗体。在一些实施方案中，抗体具有效应子功能并且可以固定补体。在一些实施方案中，抗体具有降低的或没有结合Fc受体的能力。例如，抗体可以是同种型或亚型、抗体片段或突变体，其不支持与Fc受体的结合，例如，它具有诱变的或缺失的Fc受体结合区。术语抗体进一步包括基于四价双特异性串联免疫球蛋白(TBTI)的抗原结合分子和/或具有交叉结合区取向(CODV)的双可变区抗体样结合蛋白。

术语“片段”或“抗体片段”是指衍生自抗体多肽分子的多肽(例如，抗体重链和/或轻链多肽)，其不包括全长抗体多肽，但仍包括能够结合抗原的全长抗体多肽的至少一部分。抗体片段可以包含全长抗体多肽的切割部分，尽管所述术语不限于此类切割片段。可用于本发明的抗体片段包括例如Fab片段、F(ab')2片段，scFv(单链Fv)片段、线性抗体、单特异性或多特异性抗体片段(如双特异性、三特异性、四特异性和多特异性抗体(例如，双链抗体、三链抗体、四链抗体))、单价或多价抗体片段(如二价、三价、四价和多价抗体)、微型抗体、螯合重组抗体、三抗体或双抗体、胞内抗体、纳米抗体，小模块化免疫药物(SMIP)、结合域免疫球蛋白融合蛋白、驼源化抗体和含有VHH的抗体。抗原结合抗体片段的附加例子在本领域中是已知的。

术语“互补确定区域”或“CDR”指主要负责介导特异性抗原识别的重链多肽和轻链多肽两者的可变区域内的短多肽序列。术语“框架区”是指重链多肽和轻链多肽两者的可变区内的氨基酸序列，其不是CDR序列，并且主要负责维持CDR序列的正确定位以允许抗原结合。尽管框架区本身通常不直接参与抗原结合，但是如本领域中已知的，某些抗体的框架区内的某些残基可以直接参与抗原结合或可以影响CDR中的一个或多个氨基酸与抗原相互作用的能力。

抗体的例子是抗PCSK-9mAb(例如，阿利库单抗(Alirocumab))、抗IL-6mAb(例如，萨瑞鲁单抗(Sarilumab))和抗IL-4mAb(例如，度匹鲁单抗(Dupilumab))。

本文所述的任何API的药学上可接受的盐也设想用于药物递送装置中的药物或药剂。药理学上可接受的盐是例如酸加成盐和碱性盐。

本领域技术人员将理解，在不脱离本发明的全部范围和精神的情况下，可以对本文所述的API、制剂、设备、方法、系统和实施方案的各种组分进行修改(添加和/或去除)，本发明涵盖此类修改及其任何和所有等同物。

示例药物递送装置可以涉及如在ISO 11608-1:2014(E)的章节5.2的表1中描述的基于针的注射系统。如在ISO 11608-1:2014(E)中所描述的，基于针的注射系统可以广泛地区分成多剂量容器系统和单剂量(具有部分或全部排放的)容器系统。容器可以是可替换容器或集成的不可替换容器。

如在ISO 11608-1:2014(E)中进一步描述的，多剂量容器系统可以涉及具有可替换容器的基于针的注射装置。在此类系统中，每个容器容纳多个剂量，所述剂量的大小可以是固定的或可变的(由用户预设)。另一种多剂量容器系统可以涉及具有集成的不可替换容器的基于针的注射装置。在此类系统中，每个容器容纳多个剂量，所述剂量的大小可以是固定的或可变的(由用户预设)。

如在ISO 11608-1:2014(E)中进一步描述的，单剂量容器系统可以涉及具有可替换容器的基于针的注射装置。在此类系统的一个例子中，每个容器容纳单个剂量，由此排出整个可递送体积(完全排放)。在另一例子中，每个容器容纳单个剂量，由此排出可递送体积的一部分(部分排放)。如还在ISO 11608-1:2014(E)中描述的，单剂量容器系统可以涉及具有集成的不可替换容器的基于针的注射装置。在此类系统的一个例子中，每个容器容纳单个剂量，由此排出整个可递送体积(完全排放)。在另一例子中，每个容器容纳单个剂量，由此排出可递送体积的一部分(部分排放)。

Claims

1.一种生成用于训练机器学习模型以识别患有罕见病的个体的训练数据集的计算机实施的方法，所述方法包括：

接收初始数据集，所述初始数据集包括与患有所述罕见病的多个个体有关的医疗数据，每个个体的所述医疗数据包括指示所述个体所经历的所述罕见病的多个症状的数据；

使用无监督聚类方法识别所述初始数据集中的多个个体集群；

基于所述集群中的个体的所述医疗数据将所述集群中的一个或多个集群识别为最不代表所述罕见病；

将所述个体中的一个或多个从基于所述一个或多个个体的所述医疗数据被识别为最不具有代表性的所述一个或多个集群中移除，以生成经修剪的数据集；以及

将所述经修剪的数据集与包括没有所述罕见病的多个个体的对照数据集组合，以生成所述训练数据集。

2.根据权利要求1所述的方法，将集群中的一个或多个集群识别为最不代表所述罕见病包括：

识别所述多个集群中的每个集群的所述罕见病的代表性症状；

将每个集群的所表示症状与所述罕见病的预定义的已知症状集合进行比较，所述预定义的已知症状集合包括更具有代表性症状的集合和最不具有代表性症状的集合；以及

如果所述集群的所述代表性症状在所述最不具有代表性症状的集合中，则将所述集群识别为最不代表所述罕见病。

3.根据权利要求1或2中任一项所述的方法，其中，将所述个体中的一个或多个从被识别为最不具有代表性的一个或多个集群中移除包括：

对于被识别为最不具有代表性的所述集群中的每个个体：

确定与所述个体相关联的医疗数据是否满足阈值条件，所述阈值条件基于所述罕见病的症状；以及

如果不满足所述阈值条件，则将所述个体从所识别的集群中移除。

4.根据权利要求3所述的方法，其中，所述阈值条件包括所述罕见病的症状的阈值数量。

5.根据权利要求3或4中任一项所述的方法，其中，所述阈值条件包括在所述罕见病的症状的特征性子集中具有所述罕见病的至少一个症状。

6.根据任一前述权利要求所述的方法，其中，在所述初始数据集中识别多个个体子集包括使用分层凝聚式聚类来将所述数据集聚类成预定数量个集群。

7.根据任一前述权利要求所述的方法，其进一步包括：

将与所述经修剪的数据集中的个体相关联的医疗数据与同所述对照数据集中的个体相关联的医疗数据进行比较，以识别所述罕见病的一个或多个潜在症状；以及

用所述罕见病的所述一个或多个潜在症状增强所述训练数据集。

8.根据任一前述权利要求所述的方法，其进一步包括：

使用自然语言处理从与所述罕见病有关的文献中提取所述罕见病的一个或多个潜在症状；以及

9.根据任一前述权利要求所述的方法，其中，所述对照数据集包括没有所述罕见病的个体，所述个体具有所述罕见病的至少阈值数量个症状。

10.根据任一前述权利要求所述的方法，其中，将所述经修剪的数据集与对照数据集组合包括以预定义比率将所述对照数据集中的多个个体与所述经修剪的数据集中的每个个体相匹配，所述匹配基于所述个体的一个或多个人口统计性质。

11.一种训练机器学习模型以基于个体的病历将所述个体分类为患有罕见病的计算机实施的方法，所述方法包括使用监督学习技术来使用标记的训练数据集训练所述机器学习模型，其中，已经使用任一前述权利要求所述的方法生成了所述训练数据集。

12.根据权利要求11所述的方法，其中，在所述标记的数据集中的数据的子集上训练所述机器学习模型，所述子集包括对于所述数据集中患有所述罕见病的每个个体在所述个体被诊断为患有所述罕见病前收集的医疗数据。

13.一种诊断疾病的计算机实施的方法，所述方法包括：

将与个体相关联的医疗数据输入到机器学习模型中；

使用所述机器学习模型处理所述输入的医疗数据，以生成指示与所述医疗数据相关联的所述个体是否作为所述疾病的数据；以及

从所述机器学习模型输出指示与所述医疗数据相关联的所述个体是否患有所述疾病的数据，

其中，所述机器学习模型已经使用根据权利要求11或12中任一项所述的方法进行了训练。

14.一种系统，其包括一个或多个处理器以及存储器，所述存储器包括计算机可读代码，所述计算机可读代码当由所述一个或多个处理器执行时致使所述系统执行根据任一前述权利要求所述的方法。

15.一种计算机程序产品，其包括计算机可读代码，所述计算机可读代码当由计算设备执行时致使所述计算设备执行根据权利要求1至13中任一项所述的方法。