CN115295145B

CN115295145B - 遗传性代谢病的预测装置

Info

Publication number: CN115295145B
Application number: CN202210759620.8A
Authority: CN
Inventors: 马旭; 曹宗富; 殷哲
Original assignee: Institute Of Science And Technology National Health Commission
Current assignee: Institute Of Science And Technology National Health Commission
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-07-11
Anticipated expiration: 2042-06-29
Also published as: CN115295145A

Abstract

本申请涉及一种遗传性代谢病的预测装置。主要技术方案包括：获取模块，用于获取待检测对象的血清小分子代谢物的待测数据，计算模块，用于计算待测数据中每种特征的贡献度值，筛选模块，用于按照每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征，预测模块，用于根据目标特征对应的待测数据，预测待测对象的病症信息，结合待测数据中的多种特征，充分考虑不同特征之间的相关影响，降低了假阳性率，提高了预测遗传性代谢病的准确率。

Description

遗传性代谢病的预测装置

技术领域

本申请涉及医学信息技术领域，特别是涉及一种遗传性代谢病的预测装置。

背景技术

遗传性代谢病(Inherited Metabolic Disorders，IMD)又称先天性代谢缺陷，是由于编码物质代谢所必需的酶或者辅酶基因变异引起相应功能蛋白活性降低或丧失，从而导致机体代谢紊乱，造成中间、旁路代谢产物蓄积，或终末代谢产物缺乏，最终引发复杂的临床症状，常累及神经系统等多器官的一组疾病。

遗传性代谢病具有先天性、伴随终生的特点，并且遗传代谢病往往会对患儿的神经系统造成不可逆损伤，甚至危及生命。因此，针对遗传代谢病，必须及时筛查和诊断，否则难以在有限的时间内让患儿通过有效的治疗方法缓解相应的症状。

近年来，通过串联质谱技术检测小分子代谢物，被广泛应用于对新生儿遗传代谢病的筛查，极大地提高了临床医生发现遗传代谢病患儿的能力，有利于遗传代谢病患儿的早期检出。然而，目前对新生儿小分子代谢物检测数据的阳性判断假阳性率高，导致预测遗传性代谢病的准确率低。

发明内容

基于此，本申请提供了一种遗传性代谢病的预测装置，以提高预测遗传性代谢病的准确率。

第一方面，提供一种遗传性代谢病的预测方法，该方法包括：

获取待检测对象的血清小分子代谢物的待测数据；

计算待测数据中每种特征的贡献度值；

按照每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征；

根据目标特征对应的待测数据，预测待测对象的病症信息。

根据本申请实施例中一种可实现的方式，计算待测数据中每种特征的贡献度值，包括：

采用随机森林算法计算待测数据中每种特征所在随机森林中每个决策树的节点的第一Gini指数；

计算待测数据中每种特征所在决策树的节点进行分裂得到的两个新节点的第二Gini指数；

根据第一Gini指数、第二Gini指数和待测数据中每种特征所在每个决策树的全部节点，计算待测数据中每种特征在每个决策树的重要性评分；

根据重要性评分和随机森林中决策树的数量，计算待测数据中每种特征的贡献度值。

根据本申请实施例中一种可实现的方式，第一Gini指数采用以下公式计算得到：

其中，Gini_m表示待测数据中特征j所在决策树的节点m的第一Gini指数，k表示特征分类的数量，p_mk表示节点m在k个特征分类中出现的概率；

待测数据中特征j在第i个决策树的重要性评分采用以下公式计算得到：

其中，

表示待测数据中特征j在第i个决策树的重要性评分，/>

表示待测数据中特征j所在决策树的节点m的重要性评分，M表示待测数据中每种特征在随机森林中所有决策树的节点的集合；

其中，待测数据中特征j所在决策树的节点m的重要性评分采用以下公式计算：

其中，

表示待测数据中特征j所在决策树的节点m的重要性评分，l和r表示待测数据中特征j所在决策树的节点m进行分裂之后的两个新节点，Gini_l表示节点l的Gini指数，Gini_r表示节点r的Gini指数。

根据本申请实施例中一种可实现的方式，病症信息包括已患病和未患病；根据目标特征对应的待测数据，预测待测对象的病症信息，包括：

将目标特征对应的待测数据输入预先训练的识别模型，识别模型包括多个树分类器；

每个树分类器根据目标特征对应的待测数据生成第一识别结果或第二识别结果，第一识别结果表征待测对象已患病，第二识别结果表征待测对象未患病；

根据第一识别结果对应树分类器的数量和第二识别结果对应树分类器的数量，预测待测对象的病症信息。

根据本申请实施例中一种可实现的方式，根据第一识别结果对应树分类器的数量和第二识别结果对应树分类器的数量，预测待测对象的病症信息，包括：

当第一识别结果对应树分类器的数量多于第二识别结果对应树分类器的数量时，预测待测对象的病症信息为已患病；

当第一识别结果对应树分类器的数量少于第二识别结果对应树分类器的数量时，预测待测对象的病症信息为未患病。

根据本申请实施例中一种可实现的方式，根据目标特征对应的待测数据，预测待测对象的病症信息，包括：

根据目标特征对应的待测数据，基于预设遗传性代谢病数据库中每种遗传性代谢病的患病特征数据计算目标特征对应的异常概率；

根据目标特征对应的异常概率，计算待测对象患每种遗传性代谢病的信息熵值；

根据信息熵值和患病特征数据，计算待测对象患每种遗传性代谢病的估测值；

预测待测对象的病症信息为小于第一预设阈值的异常概率对应的遗传性代谢病的其中一种；或者，预测待测对象的病症信息为大于第二预设阈值的估测值对应的遗传性代谢病的其中一种。

根据本申请实施例中一种可实现的方式，患病特征数据包括目标特征在每种遗传性代谢病中对应特征的均值和标准差，以及每种遗传性代谢病的均值和标准差；通过以下公式计算目标特征对应的异常概率：

其中，μ_i表示每种遗传性代谢病中特征i的均值，δ_i表示每种遗传性代谢病中特征i的标准差，x_i表示待测数据中目标特征的测量值；

采用以下公式计算待测对象患每种遗传性代谢病的信息熵值：

其中，E表示信息熵值，n表示待测对象的目标特征的个数，w_i表示每个特征对遗传代谢病的重要度，p_i表示异常概率，c₀表示矫正因子；

采用以下公式计算待测对象患每种遗传性代谢病的估测值：

其中，S_ij表示估测值，

表示每种遗传性代谢病的均值，/>

表示每种遗传性代谢病的标准差。

根据本申请实施例中一种可实现的方式，在计算待测数据中每种特征的贡献度值之前，方法还包括以下处理中的至少一种：

对每种特征对应的待测数据进行预处理，预处理包括去重处理、去除遗漏数据、修正处理；

采用中位数倍数法对每种特征对应的待测数据进行归一化处理。

第二方面，提供了一种遗传性代谢病的预测装置，该装置包括：

获取模块，用于获取待检测对象的血清小分子代谢物的待测数据；

计算模块，用于计算所述待测数据中每种特征的贡献度值；

筛选模块，用于按照所述每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征；

预测模块，用于根据所述目标特征对应的待测数据，预测所述待测对象的病症信息。

第三方面，提供了一种计算机设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机指令，所述计算机指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述第一方面中涉及的方法。

根据本申请实施例所提供的技术内容，获取待检测对象的血清小分子代谢物的待测数据，计算待测数据中每种特征的贡献度值，按照每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征，根据目标特征对应的待测数据，预测待测对象的病症信息，结合待测数据中的多种特征，充分考虑不同特征之间的相关影响，降低了假阳性率，提高了预测遗传性代谢病的准确率。

附图说明

图1为一个实施例中遗传性代谢病的预测方法的流程示意图；

图2为一个实施例中预测待测对象的病症信息的流程示意图；

图3为一个实施例中遗传性代谢病预测装置的结构框图；

图4为一个实施例中计算机设备的示意性结构图。

具体实施方式

以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

遗传代谢病作为一组疾病，涉及了氨基酸、有机酸、脂肪酸、糖类等代谢指标的异常，不同疾病的临床表现、疾病危害程度均存在差异，存在表型与遗传的异质性。

除此之外，能够引起代谢异常的不仅仅是遗传代谢病。例如，假肥大性肌营养不良会伴随肌酸激酶升高。某些疾病也会引起代谢的异常或往往不被称为遗传代谢病，例如，白化病是由于酪氨酸酶缺乏或功能减退引起的一种皮肤及附属器官黑色素缺乏或合成障碍所导致的遗传病，但往往被称为皮肤病或以皮肤病被人们所熟知。这些都给遗传代谢病的鉴别诊断增加了挑战。

目前，对新生儿小分子代谢物检测的阳性判断是基于单个检测指标的参考值范围，没有考虑多个不同指标的互相影响，假阳性率非常高。筛查阳性的患儿，将通过基因测序检测进一步确认。过高的假阳性率，一方面增加了非遗传代谢病患儿家庭的医疗负担，另一方面也给非遗传代谢病患儿家庭带来巨大的不必要的精神压力。

为了解决现有技术问题，本申请实施例提供了一种遗传性代谢病的预测装置。下面首先对本申请实施例所提供的遗传性代谢病的预测方法进行介绍。

图1为本申请实施例提供的一种遗传性代谢病的预测方法的流程图。如图1所示，该方法可以包括以下步骤：

S110，获取待检测对象的血清小分子代谢物的待测数据。

根据现有的参考资料，比如《新生儿疾病串联质谱筛查技术专家共识》可知，血清小分子代谢物的特征包括氨基酸、酰基肉碱、氨基酸及酰基肉碱间浓度的比值指标。

其中，氨基酸包括但不限于以下16种氨基酸：丙氨酸(Ala)、精氨酸(Arg)、瓜氨酸(Cit)、甘氨酸(Gly)、亮氨酸(Leu)、甲硫氨酸(Met)、鸟氨酸(Orn)、苯丙氨酸(Phe)、脯氨酸(Pro)、酪氨酸(Tyr)、缬氨酸(Val)、天冬氨酸(Asp)、谷氨酸(Glu)、亮氨酸族(Xle)、琥珀酰丙酮(SUCC)、精氨酸琥珀酸(Asa)。

酰基肉碱包括但不限于以下特征：游离肉碱(C0)、乙酰肉碱(C2)、丙酰肉碱(C3)、丙二酰肉碱(C3DC)、丁酰肉碱(C4)、3-羟基丁酰肉碱(C4-OH)、丙二酰肉碱+3-羟基丁酰肉碱(C3DC+C4-OH)、丁二酰基肉碱(C4DC)、异戊酰肉碱(C5)、异戊烯酰肉碱(C5:1)、3-羟基异戊烯酰肉碱(C5-OH)、戊二酰肉碱(C5DC)、丁二酰基肉碱+3-羟基异戊烯酰肉碱(C4DC+C5-OH)、己酰肉碱(C6)、己二酰肉碱(C6DC)、戊二酰肉碱+3-羟基己二酰(C5DC+C6-OH)、辛酰肉碱(C8)、辛烯酰肉碱(C8:1)、癸酰肉碱(C10)、癸烯酰肉碱(C10:1)、癸二烯酰肉碱(C10:2)、十二碳酰肉碱(C12)、十二碳烯酰肉碱(C12:1)、十四碳酰肉碱(C14)、十四碳烯酰肉碱(C14:1)、十四碳二烯酰肉碱(C14:2)、3-羟基-十四碳酰肉碱(C14OH)、十六碳酰肉碱(C16)、十六碳烯酰肉碱(C16:1)、3-羟基-十六碳烯酰肉碱(C16:1-OH)、3-羟基-十六碳酰肉碱(C16-OH)、十八碳酰肉碱(C18)、十八碳烯酰肉碱(C18:1)、3-羟基-十八碳烯酰肉碱(C18:1-OH)、十八碳二烯酰肉碱(C18:2)和3-羟基十八碳酰肉碱(C18OH)。

氨基酸及酰基肉碱间浓度的比值指标包括但不限于以下特征：氨基酸比值指标：Arg/Orn、Arg/Phe、Cit/Arg、Cit/Phe、Glu/Cit、Glu/Phe、Gly/Phe、Phe/Xle、Xle/Phe、Met/Phe、Phe/Tyr、Orn/Cit、Tyr/Phe；

酰基肉碱比值指标：C3/Met、C3/C0、C3/C2、C3/C16、C3DC/C4、C3DC/C10、C4/C2、C4/C3、C4/C8、C4-OH/C3、C4-OH/C4、C5:1/C8、C5/C2、C5/C3、C5-OH/C3、C5-OH/C8、C5DC/C3、C5DC/C5-OH、C5DC/C3DC、C5DC/C8、C6/C3、C8/C2、C8/C3、C8/C10、C10/C3、C14:1/C16

酰基肉碱比值指标：C14:1/C12:1、C12/C3、C14/C3、C14:1/C81、C4-OH/C16、C4-OH/C8、C16/C3、C18/C3、C16-OH/C16、C16-OH/C14、C18-OH/C3、(C16+C18:1)/C2、(C16+C18)/C0。

待测对象可以为新生儿或者儿童，待测数据包括待检测对象的血清小分子代谢物中包含的所有特征的测量值。

用户通过终端设备的web端输入待测对象遗传性代谢病串联质谱小分子代谢物检测数据，输入的数据支持单样本和多样本批量模式。

S120，计算待测数据中每种特征的贡献度值。

每种遗传性代谢病的特征组合不同，因此，同一种特征在不同的遗传性代谢病中的贡献度是不同的。通过贡献度可以确定遗传性代谢病的具有代表性的特征。

可以采用随机森林模型通过计算待测数据中的每种特征的贡献度值，以确定待测数据中用于预测待测对象患病情况的特征。

S130，按照每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征。

特征的贡献度越大说明该特征对遗传性代谢病的影响比较大，特征的贡献度越小说明该特征对遗传性代谢病的影响比较小。在预测病症时，即使不参考贡献度比较小的特征也能准确地预测遗传性代谢病。根据贡献度比较大的特征预测遗传性代谢病，可以降低计算复杂度和计算量，缩短计算时间，降低终端设备功耗。

计算得到每种特征的贡献值后，按照每种特征的贡献度值从大到小的顺序，筛选预设数量的贡献度值比较大的目标特征。因此，随机森林模型为了选取最佳的预设数量，需要尝试多次，有多个不同的值。一方面要确保所有阳性样本能够检出，另一方面又确保假阳性最低。

除了采用上述方法筛选目标特征之外，还可以基于文献和数据库的已有数据确定目标特征，或者结合随机森林模型、文献和数据库共同确定目标特征。

其中，基于文献和数据库确定目标特征的方法包括：以特定遗传病为关键词，在英文文献库、中文文献库、《新生儿疾病串联质谱筛查技术专家共识》指南和人类代谢物数据库(The Human Metabolome Database，HMDB)中分别检索，获得特定遗传病相关的代谢标志物。经过专家审核，构建人类遗传代谢病-小分子代谢物特征关联参考数据库，进而确定待测数据的目标特征。

S140，根据目标特征对应的待测数据，预测待测对象的病症信息。

病症信息可以包括：可能罹患的遗传代谢病名称、已患病、未患病等。基于web界面输出待测对象的病症信息，以方便用户使用PC机、iPad和手机等智能终端查看结果，使用便捷友好，提高了智能化程度。该方法能够预测的遗传性代谢病可以包括：苯丙酮尿症、先天性甲状腺功能减低症、先天性肾上腺皮质、枫糖尿症、甲基丙二酸血症、丙酸血症、异戊酸血症等。

根据目标特征对应的待测数据预测待测对象的病症信息，结合多种特征进行预测，提高了遗传性代谢病的预测准确率和预测效率，避免了待测患者作为假阳性患者进行更复杂的临床检查和治疗，降低了患者家庭的经济负担和精神压力。同时，随着遗传性代谢病的预测准确性的提高，医生可以获得更准确的报告，降低医生的工作量，缓解了医疗资源的紧张。

可以看出，本申请实施例通过获取待检测对象的血清小分子代谢物的待测数据，计算待测数据中每种特征的贡献度值，按照每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征，根据目标特征对应的待测数据，预测待测对象的病症信息，结合待测数据中的多种特征，充分考虑不同特征之间的相关影响，降低了假阳性率，提高了预测遗传性代谢病的准确率。

下面对上述方法流程中的各步骤进行详细描述。首先结合实施例对上述步骤S120即“计算待测数据中每种特征的贡献度值”进行详细描述。

作为一种可实现的方式中，采用随机森林算法计算待测数据中每种特征所在随机森林中每个决策树的节点的第一Gini指数；

随机森林算法是以决策树作为基分类器的集成学习算法，其中决策树算法选取分类回归树(Classification And Regression Tree，CART)算法，这是一种典型的二叉树。在随机森林中包含多个决策树，每种特征在随机森林的每棵决策树上都有相关节点。

Gini指数也叫节点不纯度减少平均值，它代表了模型的不纯度，特征的Gini指数越小，表明该特征就越重要。在构建CART决策树过程中，选取Gini指数最小的特征作为最优划分特征。Gini指数作为CART算法的分区准则，在决策树的每个内部节点上选择特征。

首先，采用随机森林算法计算待测数据中特征所在随机森林中每个决策树的节点的第一Gini指数，其中，第一Gini指数采用以下公式计算得到：

其中，Gini_m表示待测数据中特征j所在决策树的节点m的第一Gini指数，k表示特征分类的数量，p_mk表示节点m在k个特征分类中出现的概率。

接着，采用公式(1)计算待测数据中每种特征所在决策树的节点进行分裂得到的两个新节点的第二Gini指数。

然后，根据第一Gini指数、第二Gini指数和待测数据中每种特征所在每个决策树的全部节点，计算待测数据中每种特征在每个决策树的重要性评分。

在计算待测数据中每种特征在每个决策树的重要性评分时，首先根据第一Gini指数、第二Gini指数采用以下公式计算每种特征所在决策树的节点m的重要性评分：

其中，

表示待测数据中特征j所在决策树的节点m的重要性评分，l和r表示待测数据中特征j所在决策树的节点m进行分裂之后的两个新节点，Gini_l表示节点l的Gini指数，Gini_r表示节点r的Gini指数，Gini_l和Gini_r均为第二Gini指数。

然后，根据公式(1)和公式(2)计算待测数据中每种特征所在每个决策树的全部节点的重要性评分，将全部节点的重要性评分加在一起，得到每种特征在每个决策树的重要性评分。

具体地，待测数据中每种特征在每个决策树的重要性评分采用以下公式计算得到：

其中，

表示待测数据中特征j在第i个决策树的重要性评分，/>

表示待测数据中特征j所在决策树的节点m的重要性评分，M表示待测数据中每种特征在随机森林中所有决策树的节点的集合。

由于随机森林算法是由多个决策树集成的一种算法，在得到每种特征在单个决策树的重要性评分之后，需要计算每种特征在这个随机森林中的重要性评分，得到每种特征的贡献度值。可以采用以下公式计算特征的贡献度值：

其中，

表示待测数据中特征j的贡献度值，n表示随机森林中决策树的数量，/>

表示待测数据中特征j在第i个决策树的重要性评分。

为了保证数据之间具有相同的量纲和数量级，对待测数据中每种特征的贡献度值进行归一化处理，得到每种特征最终的贡献度值。根据所有特征的贡献度值，选择最重要的特征作为某种遗传性代谢病的特定特征，即目标特征。

结合实施例对上述步骤S140即“根据目标特征对应的待测数据，预测待测对象的病症信息”进行详细描述。

作为一种可实现的方式中，若当前的遗传性代谢病的数据比较丰富多样时，对特定的遗传代谢病，选择准确标识患病状态的血清小分子代谢物检测数据。通过基因检测明确患者的患病状态为金标准，分别记为阴性数据样本和阳性数据样本，并按照分层随机方法，组成训练集和测试集，原始训练集和测试集的样本量比例为7:3。所有样本没有经过治疗干预过程。

对于原始训练集的n个小分子代谢物数据样本中随机抽样有放回的抽出a个样本，每棵决策树的全部训练样本数据形成一个新的训练集。其中，阴性数据样本和阳性数据样本可以为每种遗传代谢病的所有特征数据，也可以为每种遗传代谢病的特定特征数据。

在选择特定特征数据时，可以采用S120中计算贡献度值的方法计算每种遗传代谢病中特征的贡献度值。在选择前N个贡献度最大的特征时，可以结合预先构建的人类遗传代谢病-小分子代谢物特征参考数据库，选择最重要的特征参与模型训练，构建初始随机森林训模型。

将每种遗传代谢病作为初始随机森林模型的输出，将每种遗传代谢病对应的阴性数据样本和阳性数据样本作为初始随机森林模型的输入，对初始随机森林模型进行模型训练，得到识别模型。

在得到识别模型之后，利用网格搜索算法和交叉验证法寻找最优参数，对训练模型进行调参，得到最优训练模型。

网格搜索算法和交叉验证法通过循环遍历，尝试每一种可能性，通过排列组合调整超参数，包括弱学习器最大迭代次数n_estimators、决策树最大深度max_depth、内部节点再划分所需最小样本数min_sample_split和节点最少样本数min_sample_leaf，通过不断迭代获得最优参数。

上述最优参数，也对权重的问题进行了处理，对训练集每个类别分别设置惩罚参数C，给定参数“balanced”，使用对应标签y的值自动调整与输入数据的类频率成反比的权重，计算公式如下：

其中，weight表示权重，n_samples表示总的样本数，n_classes表示类的个数，np.bincount(y)表示每个类的样本数。

当某一类的输入样本数越多时，这一类的惩罚参数越小，这样很好地平衡输入样本不均衡带来的学习偏移问题。

通过上述模型训练和模型调优方法得到的任何一个识别模型，都可以采用相同的方法进行评价。对测试集样本数据特定遗传代谢病的患病状态进行预测，输出病症信息。与金标准的患病状态进行比较，主要利用混淆矩阵可视化进行查看，一种预测过程会有四个不同的结果，分别为真阳性(True Positive,TP)、真阴性(True Negative,TN)、假阳性(False Positive,FP)和假阴性(False Negative,FN)，如表1所示：

表1

其中，TP和TN是分类正确的结果，TP为真阳性，表示阳性样本被识别模型预测为阳性的样本量。TN为真阴性，表示阴性样本被识别模型预测为阴性的样本量。FP为假阳性，表示阴性样本被识别模型错误预测为阳性的样本量。FN为假阴性，表示阳性样本被模型错误预测为阴性的样本量。

利用测试集数据对调参之后的训练模型进行评价，确定目标模型。

模型评估指标包括准确率accuracy、精准率precision、召回率recall、F度量F-score、真阳性率TPR(灵敏度)、假阳性率FPR(＝1-特异度)以及曲线下面积(AUC)，计算评价指标的公式如下：

在得到最终的识别模型之后，根据待测数据预测待测对象的病症信息。根据目标特征对应的待测数据，预测待测对象的病症信息的过程包括：

将目标特征对应的待测数据输入预先训练的识别模型，识别模型包括多个树分类器。

每个树分类器根据目标特征对应的待测数据生成第一识别结果或第二识别结果，第一识别结果表征待测对象已患病，第二识别结果表征待测对象未患病。

具体地，当第一识别结果对应树分类器的数量多于第二识别结果对应树分类器的数量时，表示待测对象患病概率更大，预测待测对象的病症信息为已患病。

当第一识别结果对应树分类器的数量少于第二识别结果对应树分类器的数量时，表示待测对象未患病概率更大，预测待测对象的病症信息为未患病。

作为另一种可实现的方式中，若当前的遗传性代谢病的数据比较少时，无法准确地进行模型训练，则通过以下步骤预测待测对象的病症信息，如图2所示：

S210，根据目标特征对应的待测数据，基于预设遗传性代谢病数据库中每种遗传性代谢病的患病特征数据计算目标特征对应的异常概率。

预设遗传性代谢病数据库为预先收录有各种遗传性代谢病的患病特征数据的数据库，通过该数据库可以了解到目标特征在每种遗传性代谢病中对应特征的均值和标准差，以及每种遗传性代谢病的均值和标准差。

通过以下公式计算目标特征对应的异常概率：

其中，μ_i表示每种遗传性代谢病中特征i的均值，δ_i表示每种遗传性代谢病中特征i的标准差，x_i表示待测数据中目标特征的测量值。

S220，根据目标特征对应的异常概率，计算待测对象患每种遗传性代谢病的信息熵值。

在计算得到每种目标特征的异常概率后，采用以下公式计算待测对象患每种遗传性代谢病的信息熵值：

其中，E表示信息熵值，n表示待测对象的目标特征的个数，w_i表示每个特征对遗传代谢病的重要度，p_i表示异常概率，c₀表示矫正因子。c₀的设置是为了避免p_i值太小非常趋近于0取对数时返回为空。

S230，根据信息熵值和患病特征数据，计算待测对象患每种遗传性代谢病的估测值。

在预设遗传性代谢病数据库能够获取到的患病特征数据还包括在每种遗传性代谢病在患病人群中的均值和标准差。

具体地，可以通过以下公式计算待测对象患每种遗传性代谢病的估测值：

其中，S_ij表示估测值，

表示每种遗传性代谢病的均值，/>

表示每种遗传性代谢病的标准差。

S240，预测待测对象的病症信息为小于第一预设阈值的异常概率对应的遗传性代谢病的其中一种；或者，预测待测对象的病症信息为大于第二预设阈值的估测值对应的遗传性代谢病的其中一种。

估测值越大，表明待测对象患遗传性代谢病的风险越高。异常概率越小，表明待测对象患遗传性代谢病的风险越大。

小于第一预设阈值的异常概率对应的遗传性代谢病或者大于第二预设阈值的估测值对应的遗传性代谢病对待测对象来说，都具有较大风险。因此，将小于第一预设阈值的异常概率对应的遗传性代谢病或者大于第二预设阈值的估测值对应的遗传性代谢病进行推荐，预测待测对象的病症信息包括推荐的遗传性代谢病的其中一种。

当待测数据中所有目标特征对应的异常概率都大于第一预设阈值时，预测待测对象未患病。

其中，第一预设阈值和第二预设阈值可根据检测需求自行选取，比如说，第一预设阈值为0.05，第二预设阈值为3，也可以取其他值，此处不做限定。

作为一种可实现的方式，在计算待测数据中每种特征的贡献度值之前，方法还包括以下处理中的至少一种：

对每种特征对应的待测数据进行预处理，预处理包括去重处理、去除遗漏数据、修正处理。

去重处理为删除同种特征中相同的测量数据。去除遗漏数据，即，去除遗漏的特征对应的测量数据。修正处理为修改更正错误的样本编号。

如果是多中心的数据，为了避免系统误差，数据集的所有变量需要进行归一化处理。采用中位数倍数法对每种特征对应的待测数据进行归一化处理，首先计算出每个特征的中位数，然后用原始值除以每个特征的中位数，得到标准化之后的值。中位数倍数法可以表示为以下公式：

其中，x_i表示每个特征的某个测量值，x_median表示每个特征的中位值，x_norm表示归一化后的测量值。

通过对每种特征对应的待测数据进行预处理和归一化处理，减少参与预测的无效数据，提高遗传性代谢病的预测准确性。

应该理解的是，虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本申请中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1和图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图3为本申请实施例提供的一种遗传性代谢病预测装置的结构示意图。如图3所示，该装置可以包括：获取模块310、计算模块320、筛选模块330和预测模块340。其中各组成模块的主要功能如下：

获取模块310，用于获取待检测对象的血清小分子代谢物的待测数据；

计算模块320，用于计算所述待测数据中每种特征的贡献度值；

筛选模块330，用于按照所述每种特征的贡献度值从大到小的顺序，筛选出预设数量的贡献度值对应的特征为目标特征；

预测模块340，用于根据所述目标特征对应的待测数据，预测所述待测对象的病症信息。

作为一种可实现的方式，计算模块320，具体用于采用随机森林算法计算待测数据中每种特征所在随机森林中每个决策树的节点的第一Gini指数；

作为一种可实现的方式，第一Gini指数采用以下公式计算得到：

其中，

表示待测数据中特征j在第i个决策树的重要性评分，/>

其中，

作为一种可实现的方式，病症信息包括已患病和未患病；预测模块340，具体用于将目标特征对应的待测数据输入预先训练的识别模型，识别模型包括多个树分类器；

作为一种可实现的方式，预测模块340，还具体用于当第一识别结果对应树分类器的数量多于第二识别结果对应树分类器的数量时，预测待测对象的病症信息为已患病；

作为一种可实现的方式，预测模块340，具体用于根据目标特征对应的待测数据，基于预设遗传性代谢病数据库中每种遗传性代谢病的患病特征数据计算目标特征对应的异常概率；

作为一种可实现的方式，患病特征数据包括目标特征在每种遗传性代谢病中对应特征的均值和标准差，以及每种遗传性代谢病的均值和标准差；通过以下公式计算目标特征对应的异常概率：

采用以下公式计算待测对象患每种遗传性代谢病的估测值：

其中，S_ij表示估测值，

表示每种遗传性代谢病的均值，/>

表示每种遗传性代谢病的标准差。

作为一种可实现的方式，该装置还包括预处理模块，用于对每种特征对应的待测数据进行预处理，预处理包括去重处理、去除遗漏数据、修正处理；

上述各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下(例如用户明确同意，对用户切实通知，用户明确授权等)，在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

根据本申请的实施例，本申请还提供了一种计算机设备、一种计算机可读存储介质。

如图4所示，是根据本申请实施例的计算机设备的框图。计算机设备旨在表示各种形式的数字计算机或移动装置。其中数字计算机可以包括台式计算机、便携式计算机、工作台、个人数字助理、服务器、大型计算机和其它适合的计算机。移动装置可以包括平板电脑、智能电话、可穿戴式设备等。

如图4所示，设备400包括计算单元401、ROM 402、RAM 403、总线404以及输入/输出(I/O)接口405，计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

计算单元401可以根据存储在只读存储器(ROM)402中的计算机指令或者从存储单元408加载到随机访问存储器(RAM)403中的计算机指令，来执行本申请方法实施例中的各种处理。计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401可以包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。在一些实施例中，本申请实施例提供的方法可被实现为计算机软件程序，其被有形地包含于计算机可读存储介质，例如存储单元408。

RAM 403还可存储设备400操作所需的各种程序和数据。计算机程序的部分或者全部可以经由ROM 802和/或通信单元409而被载入和/或安装到设备400上。

设备400中的输入单元406、输出单元407、存储单元408和通信单元409可以连接至I/O接口405。其中，输入单元406可以是诸如键盘、鼠标、触摸屏、麦克风等；输出单元407可以是诸如显示器、扬声器、指示灯等。设备400能够通过通信单元409与其他设备进行信息、数据等的交换。

需要说明的是，该设备还可以包括实现正常运行所必需的其他组件。也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件和/或它们的组合中实现。

用于实施本申请的方法的计算机指令可以采用一个或多个编程语言的任何组合来编写。这些计算机指令可以提供给计算单元401，使得计算机指令当由诸如处理器等计算单元401执行时使执行本申请方法实施例中涉及的各步骤。

本申请提供的计算机可读存储介质可以是有形的介质，其可以包含或存储计算机指令，用以执行本申请方法实施例中涉及的各步骤。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的等形式的存储介质。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种遗传性代谢病的预测装置，其特征在于，所述装置包括：

计算模块，用于计算所述待测数据中每种特征的贡献度值，具体包括：采用随机森林算法计算所述待测数据中每种特征所在随机森林中每个决策树的节点的第一Gini指数，根据所述第一Gini指数计算所述待测数据中每种特征的贡献度值，其中，所述第一Gini指数采用以下公式计算得到：

所述待测数据中特征j在第i个决策树的重要性评分采用以下公式计算得到：

其中，

表示待测数据中特征j在第i个决策树的重要性评分，/>

其中，所述待测数据中特征j所在决策树的节点m的重要性评分采用以下公式计算：

其中，

表示待测数据中特征j所在决策树的节点m的重要性评分，l和r表示待测数据中特征j所在决策树的节点m进行分裂之后的两个新节点，Gini_l表示节点l的Gini指数，Gini_r表示节点r的Gini指数；

预测模块，用于根据所述目标特征对应的待测数据，预测待测对象的病症信息。

2.根据权利要求1所述的装置，其特征在于，所述计算模块，具体用于：

计算所述待测数据中每种特征所在决策树的节点进行分裂得到的两个新节点的第二Gini指数；

根据所述第一Gini指数、所述第二Gini指数和所述待测数据中每种特征所在每个决策树的全部节点，计算所述待测数据中每种特征在每个决策树的重要性评分；

根据重要性评分和所述随机森林中决策树的数量，计算所述待测数据中每种特征的贡献度值。

3.根据权利要求1所述的装置，其特征在于，所述病症信息包括已患病和未患病；所述预测模块，具体用于：

将所述目标特征对应的待测数据输入预先训练的识别模型，所述识别模型包括多个树分类器；

每个所述树分类器根据所述目标特征对应的待测数据生成第一识别结果或第二识别结果，所述第一识别结果表征所述待测对象已患病，所述第二识别结果表征所述待测对象未患病；

根据所述第一识别结果对应树分类器的数量和所述第二识别结果对应树分类器的数量，预测所述待测对象的病症信息。

4.根据权利要求3所述的装置，其特征在于，所述预测模块，具体用于：

当所述第一识别结果对应树分类器的数量多于所述第二识别结果对应树分类器的数量时，预测所述待测对象的病症信息为已患病；

当所述第一识别结果对应树分类器的数量少于所述第二识别结果对应树分类器的数量时，预测所述待测对象的病症信息为未患病。

5.根据权利要求1所述的装置，其特征在于，所述预测模块，具体用于：

根据所述目标特征对应的待测数据，基于预设遗传性代谢病数据库中每种遗传性代谢病的患病特征数据计算所述目标特征对应的异常概率；

根据所述目标特征对应的异常概率，计算所述待测对象患每种遗传性代谢病的信息熵值；

根据所述信息熵值和所述患病特征数据，计算所述待测对象患每种遗传性代谢病的估测值；

预测所述待测对象的病症信息为小于第一预设阈值的异常概率对应的遗传性代谢病的其中一种；或者，预测所述待测对象的病症信息为大于第二预设阈值的估测值对应的遗传性代谢病的其中一种。

6.根据权利要求5所述的装置，其特征在于，所述患病特征数据包括所述目标特征在每种遗传性代谢病中对应特征的均值和标准差，以及每种遗传性代谢病的均值和标准差；所述预测模块，具体用于通过以下公式计算所述目标特征对应的异常概率：

采用以下公式计算所述待测对象患每种遗传性代谢病的信息熵值：

采用以下公式计算所述待测对象患每种遗传性代谢病的估测值：

其中，S_ij表示估测值，

表示每种遗传性代谢病的均值，/>

表示每种遗传性代谢病的标准差。

7.根据权利要求1所述的装置，其特征在于，所述装置还包括预处理模块，用于在计算所述待测数据中每种特征的贡献度值之前，执行以下处理中的至少一种：

对每种特征对应的待测数据进行预处理，所述预处理包括去重处理、去除遗漏数据、修正处理；