CN114121275A

CN114121275A - 一种基于大数据遗传代谢病筛查效率提升的智能分析方法

Info

Publication number: CN114121275A
Application number: CN202111287286.2A
Authority: CN
Inventors: 黄新文; 刘攀; 屠超超; 胡真真; 张玉; 吕少磊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-03-01

Abstract

本发明提供一种基于大数据智能分析的遗传代谢病筛查效率提升方法，通过大数据的智能分析，进行遗传代谢病风险评估，提高遗传代谢病筛查结果的准确度，实现遗传代谢病筛查分析的规范化和标准化，将多种影响因素降低到最小程度，有效降低了各遗传代谢病筛查的召回率，提升检出率，对降低出生缺陷，降低筛查假阳性率，提高检测结果准确率，提高出生人口素质具有重大意义。本发明克服目前临床上通过遗传代谢病专业人员基于个人经验进行结果解读，但由于缺乏标准化和规范化，不同人员对同一检测结果的解读差异较大，存在较高假阳性率及假阴性率等问题，有效利用医疗资源。

Description

一种基于大数据遗传代谢病筛查效率提升的智能分析方法

技术领域

本发明涉及医疗数据处理领域，尤其涉及一种基于大数据遗传代谢病筛查效率提升的智能分析方法。

背景技术

遗传代谢病(IMD)是由遗传缺陷引起的包括生化代谢相关酶、受体及细胞膜功能异常在内的一大类疾病的总称。大多数遗传代谢病为常染色体隐性遗传病，临床表现复杂多样，缺乏特异性，极易漏诊或误诊。20世纪90年代，Millington等人提出将串联质谱技术(MS/MS法)应用于新生儿遗传代谢病筛查的设想，并阐述了其可行性。该方法克服了传统新生儿筛查“一种方法只对应一种疾病”的缺陷，使得一次实验检测多种疾病成为可能。快速、灵敏、特异性强、通量高、选择性强等特点使串联质谱技术被广泛应用，目前国内外有许多实验室在应用MS/MS技术对氨基酸、有机酸、酰基肉碱进行检测，从美国CDC的室间质量评估报告来看，正有1100多家实验室正在使用串联质谱检测技术。中国也于2005年起陆续开展了新生儿串联质谱检测技术的应用与研究，从不同病种、不同区域、不同国家等角度对串联质谱筛查结果进行了分析评估并作出论述。

智能数据分析，它是指运用统计学、模式识别、机器学习、数据抽象等数据分析工具从数据中发现知识的分析方法。智能数据分析的目的是直接或间接地提高工作效率，在实际使用中充当智能化助手的角色。随着计算机技术的普及，智能数据分析技术在医疗行业的应用也备受青睐，已成为医疗健康应用发展新的驱动力，推动着大数据医疗健康人工智能发展总体框架的深度应用，在疾病诊疗、健康管理、药物研发、精准医学等方面作用凸显。

串联质谱技术能够同时快速检测干血片中的43种氨基酸、琥珀酰丙酮及肉碱，再加上相关比值，总计75项，指标多；目前指标设定主要依据代谢途径上下游直接关系，存在一种指标提示多种疾病，一种疾病可能需要结合多种指标进行综合分析，但体内生化代谢途径相互影响，指标和疾病的关联复杂；新生儿早期筛查由于代谢负荷不够，有些代谢物还没有出现异常或特征性不明显；检测结果还受到孕周、体重、性别、样本采集时间、采集方式、采血时间、用药情况、静脉营养、饮食喂养情况、应激状态、检测环境等多种因素影响。正是由于遗传代谢病串联质谱检测的复杂性，不能单纯依据医学参考范围简单区分阴阳性，检测结果的解读一直是影响这一技术广泛推广的瓶颈。目前临床上是通过遗传代谢病专业人员基于个人经验进行结果解读，但由于缺乏标准化和规范化，不同人员对同一检测结果的解读差异较大，存在较高假阳性率及假阴性率等问题，限制其应用。因此使用大数据智能分析进行遗传代谢病风险评估能够实现遗传代谢病筛查分析的规范化和标准化，可以将多种影响因素降低到最小程度，极大提高新生儿遗传代谢病性能及筛查效率，对降低出生缺陷，提高出生人口素质具有重大意义。

发明内容

本发明的目的是提供一种基于大数据智能分析的遗传代谢病筛查效率提升方法，是通过大数据的智能分析，提高遗传代谢病筛查结果的准确度，有效降低了各遗传代谢病筛查的召回率，提升检出率，有效利用医疗资源。

为了实现以上目的，本发明采用以下技术方案：

1.样本数据收集：

样本数据均来自医院，共分为两部分，一部分为正常样本数据，共474060条。另一部分为确诊样本数据，共773条。数据包括样本居住地、母亲年龄、孕周、出生体重、采血间隔以及MS/MS串联质谱检测的指标浓度等。确诊样本数据所对应的疾病及数量如表1所示。

2.数据预处理：

将数据进行数据整理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签，将指标浓度值按地区进行分类，分别进行地区标准化中位数倍数MoM值处理。

3.特征筛选：

在项目实施过程中，会有大量的特征可使用，有的特征携带的信息丰富，有的特征携带的信息有重叠，有的特征则属于无关特征，如果不经筛选全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的准确性。因此，需要进行特征筛选，排除无效或冗余的特征，把特异性较强，能够较好地区分正常样本和确诊样本的指标作为所需特征有用的特征，挑选出来作为模型的训练数据，增加模型的可解释性。本发明使用了方差选择、线性相关性选择、非线性相关性选择、信息增益法等方法。

4.特征提取

对已经经过预处理的特征数据进行进一步分析比较，找出在检出率尽可能高的情况下假阳性率较低的特征，本发明主要使用了AUC特征提取法、Ripper规则提取法。

4-1：AUC特征提取法：利用ROC曲线计算曲线下面积AUC，AUC越高，则表示该特征的特异性越好。ROC是通过遍历每个特征的值，观察检出率随着假阳性率的分布，检出率越高，假阳性率越低说明特征越好，为了量化特征的重要性，计算AUC，比较不同切值下的检出率和假阳性率，并且可以发现在检出率为1情况下，假阳性率的大小。AUC的计算方式如下，其中rank_insi代表第i条样本的序号，M、N分别代表正样本的个数和负样本的个数：

4-2：Ripper规则提取法：

Ripper能很好地处理噪声数据集，分类的时候，将规则库中的规则根据添加的先后顺序一一与实例匹配，若匹配成功则实例被预测为正例，若都不匹配则为负例。规则的增长和修剪是 Ripper规则提取法中最为重要的两个环节。其中规则的增长使用的评估度量是FOIL信息增益。信息增益的具体算法如下，其中cover指规则添加前件antd后覆盖到的正例数量，rt′指添加前件后规则覆盖的数据中的正例比例，rt则是未添加前件的。

Gain(antd)＝cover(log₂rt′-log₂rt)

规则修剪度量标准是最大化(p-np+n)，其中p是修剪集中被规则覆盖的正例，n是被规则覆盖的负例。

5.特征组合确定

在上述AUC或者Ripper挑选的规则中提取出满足条件的特征，使用特征和与特征积以检出率为1，假阳性率最低为目标对特征进行挑选，结合特征积和特征和的结果，得到最终的疾病判断模型。

目前临床上是通过遗传代谢病专业人员基于个人经验进行结果解读，但由于缺乏标准化和规范化，不同人员对同一检测结果的解读差异较大，存在较高假阳性率及假阴性率等问题，限制其应用。本发明使用大数据智能分析进行遗传代谢病风险评估能够实现遗传代谢病筛查分析的规范化和标准化，可以将多种影响因素降低到最小程度，极大提高新生儿遗传代谢病性能及筛查效率，减少疾病的误判，降低假阳性率，对降低出生缺陷，提高出生人口素质具有重大意义。

附图说明

图1：模型建立流程。

图2：苯丙氨酸羟化酶缺乏症(PAH)、四氢生物喋呤缺乏症(BH4D)对应特征。

图3：原发性肉碱缺乏症(PCD)对应特征。

图4：原发性肉碱缺乏症(母源性)(PCD(mat))对应特征。

图5：短链酰基辅酶A脱氢酶缺乏症(SCAD)对应特征。

图6：异丁酰甘氨酸尿症(IBG)对应特征。

图7：甲基丙二酸血症(MMA)对应特征。

图8：丙酸血症(PA)对应特征。

图9：希特林缺乏症(NICCD)、瓜氨酸血症Ⅰ型(CTLN-Ⅰ)、精氨酰琥珀酸尿症(ASA)对应特征。

图10：3-甲基巴豆酰辅酶A羧化酶缺乏症(3-MCC)、3-甲基巴豆酰辅酶A羧化酶缺乏症(母源性)(3-MCC(mat))、β-酮硫解酶缺乏症(BKT)、多种羧化酶缺乏症(MCD)对应特征。

图11：高蛋氨酸血症(H-MET)、同型半胱氨酸血症(HCY)对应特征。

图12：异戊酸血症(IVA)、2-甲基丁酰甘氨酸尿症(2-MBG)对应特征。

图13：中链酰基辅酶A脱氢酶缺乏症(MCAD)对应特征。

图14：肉碱棕榈酰转移酶Ⅰ缺乏症(CPT-Ⅰ)对应特征。

图15：极长链酰基辅酶A脱氢酶缺乏症(VLCAD)对应特征。

图16：戊二酸血症Ⅰ型(GA-Ⅰ)对应特征。

图17：枫糖尿症(MSUD)对应特征。

图18：戊二酸血症Ⅱ型(GA-Ⅱ)、多种酰基辅酶脱氢酶缺乏症(MADD)对应特征。

图19：高脯氨酸血症I型(H-PRO-I)对应特征。

图20：酪氨酸血症I型(HT-I)对应特征。

图21：精氨酸血症(ARG)对应特征。

图22：鸟氨酸氨甲酰转移酶缺乏症(OTCD)、氨甲酰磷酸合成酶Ι缺乏症(CPS-Ι) 对应特征。

具体实施方式

下面结合附图对本发明作进一步说明，但本发明的保护范围并不限于此。

实施例1

一种基于大数据智能分析的遗传代谢病筛查效率提升方法，流程如图1所示，包括以下步骤：

1.样本数据均来自医院，共分为两部分，一部分为正常样本数据，共474060条。另一部分为确诊样本数据，共773条。数据包括样本居住地、母亲年龄、孕周、出生体重、采血间隔以及MS/MS串联质谱检测的指标浓度等。确诊样本数据所对应的疾病及数量如表1所示。

表1确诊样本及数量

2.数据预处理

将数据进行数据整理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签。考虑到实验年月、采血间隔、体重对实验结果的影响，对数据进行中位数倍数 MoM值处理。中位数倍数MoM值标准化计算方法如下：

中位数倍数MoM＝地区串联指标绝对值/对应地区对应人口特征值的中位数

3.特征筛选

在项目实施过程中，会有大量的特征可使用，有的特征携带的信息丰富，有的特征携带的信息有重叠，有的特征则属于无关特征，如果不经筛选全部作为训练特征，经常会出现维度灾难问题，甚至会降低模型的准确性。因此，需要进行特征筛选，排除无效或冗余的特征，把有用的特征挑选出来作为模型的训练数据，增加模型的可解释性。

3-1：方差选择：将正常的样本数据随机为多份，每份与所有确诊的样本数据合在一起，组成一组实验样本，分别计算正常样本中每个特征的方差和分组后实验样本中每个特征的方差，用加入确诊数据的实验样本方差减去正常样本特征对应的方差取绝对值并求和，比较加入确诊样本后数据的扩散程度，删除变化小的特征。

3-2：线性相关性选择：计算正常样本中每个特征之间的皮尔森相关性系数和确诊样本中每个特征之间的皮尔森相关系数，比较确诊样本和正常疾病特征之间线性相关性的差异性，相关性差异较大的特征可作为确诊样本的重要特征。皮尔逊相关系数公式如下：

3-3：非线性相关性选择：利用最大信息系数来检测特征之间的非线性关系，得到特征之间的非线性关系，具体公式：

若此方法发现特征之间有明显的非线性关系，则通过L2正则化多项式模型处理特征之间的关系，挖掘特征之间的关系，并利用这种关系的差异性进行特征构造，得到确诊样本和正常疾病特征之间非线性相关性的差异性。

3-4：信息增益法：信息增益代表了在一个条件下，信息复杂度(不确定性)减少的程度，信息增益越大，表示特征越重要。信息熵计算公式为：

信息增益(IG)计算公式：

IG(Y)＝H(X)-H(X|Y)

其中H(X)表示没有任何特征下的熵，即不确定度，H(X|Y)表示在特征Y下的熵，IG(Y)越大说明特征Y越重要。

将全部的正常样本和确诊样本合并在一起直接计算，将所有特征进行比较，包括msms指标，和这些msms指标产生的比值特征，得出所有特征重要性的排序与最佳分裂点。

4.特征提取

对已经经过预处理的特征数据进行进一步分析比较，找出在检出率尽可能高的情况下假阳性率较低的特征。

4-2：Ripper规则提取法：

Ripper能很好地处理噪声数据集，分类的时候，将规则库中的规则根据添加的先后顺序一一与实例匹配，若匹配成功则实例被预测为正例，若都不匹配则为负例。共分为5个阶段：

(1)准备阶段

计算每个类别的先验概率。假设完整的数据集为D，每次对一个类别的数据建立规则并加入到规则库中：如完整数据集的类C1,C2,…Cn先验概率为p1≤p2≤…≤pn，那么首先对 C1建立规则，规则建立完成后将其覆盖的数据从D中删除。

(2)规则生成

输入数据集D，正例类别C与其先验概率p。在这个阶段中，将生成若干条规则直到无法继续，这些规则的后件都是类别C，每一条规则的生成都经历增长和剪枝两个阶段，数据集D分为独立的增长集Grow与修剪集Prune。

(3)规则增长

使用的数据集为增长集Grow，则的增长从空规则开始，其每次在所有可能的属性与阈值之间挑选合适的组合作为前件添加到规则之中。度量的标准是信息增益，不同于其他决策树，这里的信息增益并非期望熵的减少，而是来源于信息论里对一个正例编码所需比特的减少。这里的信息增益的准确定义如下：

Gain(antd)＝cover(log₂rt′-log₂rt)

其中cover指规则添加前件antd后覆盖到的正例数量，rt′指添加前件后规则覆盖的数据中的正例比例，rt则是未添加前件的。每一次添加前件都需要对所有候选阈值计算其所带来的信息增益并选择最高的一个添加到规则中，每添加一个前件，都需要将其所覆盖的数据从增长集中删去。添加前件的循环将持续进行，直到Grow为空，或者余下的Grow中已经没有正例，或者没有更多的候选阈值，或者规则的覆盖率低于某个值。

(4)规则修剪

修剪阶段使用修剪集Prune来检验规则的泛化能力。从最后一项被添加的前件开始往前依次删去规则的一个前件，计算其在修剪集上的准确率(即被规则覆盖的数据中真正正例的比例)。算法选择准确率最高且前件尽可能少的规则，但该规则的准确率至少要比空规则高。记待修剪的规则为R＝(a1,a2,…a6)，剪枝时度量标准是最大化(p-np+n)，其中p是修剪集中被规则覆盖的正例，n是被规则覆盖的负例。

(5)规则优化

将数据集D划分为Grow和Prune，从空规则开始，利用Grow生成规则并剪枝，对于每个Prune中的每个实例，如果其被规则库中R以后的任意规则覆盖，则将其从Prune删除。剪枝时计算，将新规则覆盖的样本删除后，用剩余的样本进行剪枝。计算整个修剪集上的正确率，去除被新规则覆盖的数据后，计算剩余数据里的正确率。

5.特征组合确定

在上述AUC或者Ripper挑选的规则中提取出满足条件的特征，各疾病所对应的特征如图2-图22所示。然后进一步根据规则对这些特征进行挑选，通过量化异常来表示样本的患病的风险程度。

5-1:特征和

(1)将特征一个个删除，求剩下的特征的和，将这些特征和表示异常程度，以检出率为1，假阳性率最低为目标，循环的删除特征，剔除使假阳性率升高的特征，留下假阳性率最低时的特征组合。

(2)将上述留下的特征，进行随机组合，还是以这些特征和表示异常程度，最终得到检出率为1时，假阳性率最低的特征组合A。

5-2:特征积

(1)将特征一个个删除，求剩下的特征的积，将这些特征积表示异常程度，以检出率为1，假阳性率最低为目标，循环的删除特征，剔除使假阳性率升高的特征，留下假阳性率最低时的特征组合

(2)将上述留下的特征，进行随机组合，还是以这些特征积表示异常程度，最终得到检出率为1时，假阳性率最低的特征组合B。

最后结合这两种构造的特征进行疾病判断值C，将这两种特征进行乘积处理后作为疾病的风险，公式为：

C＝A*B

各疾病具体判断指标及切值如表2所示：

表2各疾病的判断指标及切值

注：ⅰ：表格中的疾病切值通过浙江大学医学院附属儿童医院近年实际确诊病例进行分析统计，不同地区的切值可能存在不同，实际切值的计算必须通过大量样本数据得到。

ⅱ：表格中各指标通过地区实验年月、采血间隔、体重、采血间隔*体重因子等方式进行了修正，具体为：

_mom：表示msms串联指标通过实验年月进行修正

_mom_in：表示msms串联指标通过实验年月与采血间隔进行修正

_mom_wei：表示msms串联指标通过实验年月与体重因子进行修正

_mom_in_wei：表示msms串联指标通过实验年月与采血间隔*体重因子进行修正

6.实际应用

将该模型用于370415例新生儿筛查样本的分析，结果临床医生判读召回样本共计4751 例，临床医生判读阳性率为1.28％。模型判读召回样本共计3418例，模型判读阳性率为 0.92％。在3418例模型判断召回的样本中有1719例与临床医生判读一致，1699例为临床医生判读正常的样本。模型判断为阴性，临床医生判读阳性的样本3032例，模型与临床医生都判读为阴性的样本363965例。具体疾病情况如表3所示，表格第二列为模型召回疾病数量(同一样本可能对应多种疾病)，第三列为模型召回中医生也判读召回的数量。

表3模型召回及医生判读情况

Claims

1.一种基于大数据智能分析的遗传代谢病筛查效率提升方法，其特征在于，通过以下步骤实现：

(1)样本数据收集：

样本数据分为两部分，一部分为正常样本数据，另一部分为确诊样本数据，数据包括样本居住地、母亲年龄、孕周、出生体重、采血间隔以及MS/MS串联质谱检测的指标浓度；

(2)数据预处理：

将数据进行数据整理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签，将指标浓度值按地区进行分类，分别进行地区标准化中位数倍数MoM值处理；

(3)特征筛选：

使用方差选择、线性相关性选择、非线性相关性选择、信息增益法进行特征筛选，排除无效或冗余的特征，把特异性强，能够较好地区分正常样本和确诊样本的指标作为特征挑选出来作为模型的训练数据；

(4)特征提取：

使用AUC特征提取法、Ripper规则提取法对筛选的特征数据进行分析比较，找出在检出率接近100％且假阳性率接近0％的特征；

(5)特征组合确定

2.根据权利要求1所述的方法，其特征在于，步骤(4)中：

a：AUC特征提取法：利用ROC曲线计算曲线下面积AUC，AUC越高，则表示该特征的特异性越好，ROC是通过遍历每个特征的值，观察检出率随着假阳性率的分布，检出率越高，假阳性率越低说明特征越好，为了量化特征的重要性，计算AUC，比较不同切值下的检出率和假阳性率，并且可以发现在检出率为1情况下，假阳性率的大小，AUC的计算方式如下，其中

代表第i条样本的序号，M、N分别代表正样本的个数和负样本的个数：

b：Ripper规则提取法：

Ripper能很好地处理噪声数据集，分类的时候，将规则库中的规则根据添加的先后顺序一一与实例匹配，若匹配成功则实例被预测为正例，若都不匹配则为负例，规则的增长和修剪是Ripper规则提取法中最为重要的两个环节，其中规则的增长使用的评估度量是FOIL信息增益，信息增益的具体算法如下，其中cover指规则添加前件antd后覆盖到的正例数量，rt′指添加前件后规则覆盖的数据中的正例比例，rt则是未添加前件的，

Gain(antd)＝cover(log₂rt′-log₂rt)