CN111276243A

CN111276243A - 一种基于生物标志物的多变量分类系统和方法

Info

Publication number: CN111276243A
Application number: CN202010074837.6A
Authority: CN
Inventors: 孟庆华; 吴静
Original assignee: Beijing Youan Hospital
Current assignee: Beijing Youan Hospital
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2020-06-12
Anticipated expiration: 2040-01-22
Also published as: CN111276243B

Abstract

本发明涉及一种基于生物标志物的多变量分类系统和方法，包括：获取模块，获取若干被随机分组被测的生物特征的特征值；差异检测模块，用于计算每一个生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；度量计算模块，用于将某一生物特征的效应量的均值作为生物特征的权重度量，将该特征效应量的标准差作为其稳定性度量；特征划分模块，将所有生物特征分为若干特征群；加权特征生成模块，将各个特征群中大于阈值的加权特征作为生物标志物；分类模块，根据该生物标志物进行分类。本发明利用加权累加效应构建在多种不同环境下具有强区分能力和高稳定性的特征，挖掘出隐对特定疾病具有个体识别能力的生物标志物。

Description

一种基于生物标志物的多变量分类系统和方法

技术领域

本发明是关于一种临床生物标志物的多变量分类系统和方法，属于生物标志物分类技术领域。

背景技术

由于环境污染、竞争压力增大和不良生活习惯等诸多因素的影响，在全球范围内，以肺癌、肝细胞癌等为首的各种恶性肿瘤的发病率不断升高，并成为导致死亡的主要原因之一。因此，如何在患病初期精确识别肝细胞癌的可靠生物标志物成为当前研究的热点与难点。

为了探究疾病(如肝细胞癌，肝衰竭)的发病机理，传统研究通常基于一定的先验假设，采用单变量分析方法(如双样本T检验)检测病人和健康人在感兴趣临床生物特征上的组间差异，并将具有显著差异的特征作为该疾病的潜在生物标志物。这种单变量分析方法简单易操作，可以有效地针对研究样本寻找到病人组显著区别于健康组的生物特征。然而，在多个特征中进行组间差异性分析时，会存在非常严重的多比较问题，而导致由此得到的特征存在很多假阳性结果。另一方面，这种基于单变量的统计分析方法只能够在组水平定性描述病人与健康人的差异，而不能在个体水平为疾病的诊断、鉴别提供精准量化指导。以机器学习为代表的人工智能技术能够从高维多模态生物特征中提取出隐藏其中的潜在有价值信息，病人与健康人之间分类模型的建立，使得客观稳定生物标志物的鉴别成为了可能。由于生物医学数据通常具有特征维度高、样本量小的特点，直接在这样的数据集上构建的模型极容易产生过拟合现象。为了有效降低特征维度，在建立分类模型之前，通常利用双样本t检验识别出在病人和健康人之间具有显著区分能力的特征，并将这些特征输入到分类模型中进行分类。然而，这种利用双样本t检验进行特征提取的方法极易受噪声、样本自身属性等因素的干扰，检测到的特征通常只局限于所研究的特定样本，重复性较差，在其他样本上不具有稳定、鲁棒的泛化性能。此外，受高维小样本影响，单个特征在病人与健康人之间的差异性通常较小，较低的区分能力使得以这些特征为基础构建的模型分类性能较差，在很大程度上限制了其在复杂疾病诊断上的应用。

发明内容

针对上述现有技术的不足，本发明的目的是提供了一种基于稳定临床生物标志物的多变量分类系统，其在现有机器学习及统计分析方法基础上，充分利用加权累加效应构建一种能够在多种不同环境下具有强区分能力和高稳定性的特征，挖掘出隐藏在高维临床生物特征中的、对特定疾病具有个体识别能力的潜在生物标志物，为医师的临床决策提供指导，实现个体化医疗的目的。

为实现上述目的，本发明提供了一种基于生物标志物的多变量分类系统，包括：获取模块，获取若干被随机分组被测的生物特征的特征值，并将生物特征进行归一化处理；差异检测模块，用于计算每一个生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；度量计算模块，用于将某一生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一生物特征的所有效应量的标准差作为生物特征的稳定性度量；特征划分模块，根据权重和稳定性，将所有生物特征分为若干特征群；加权特征生成模块，通过各个特征群内的生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；分类模块，根据该生物标志物，利用分类算法对被测进行分类。

进一步，差异检测模块中用bootstrapping算法随机地从各组中抽取相同数量的样本，计算各组之间的效应量，先通过变换抽样样本容量，来模拟现实中样本属性的多样性，随后在相同抽样样本容量下，进行多次重复抽样计算效应量大小。

进一步，效应量采用以下公式计算：

其中gi表示各组中第i个生物特征上的差异性的效应量，mean(Pi),mean(Hi)分别表示第一组样本和第二组样本在生物特征i上的均值，m表示每一组抽取的样本量，SD_p ²、SD_h ²分别表示第一组样本和第二组样本在生物特征i上的方差。

进一步，特征划分模块将权重低于阈值的生物特征去除，以所有生物特征的权重及稳定性作为两个基本特征，利用K-means聚类算法，对所有生物特征进行聚类分析，得到具有不同稳定性和权重的若干特征群。

进一步，加权特征通过将每个生物特征与其权重的乘积，并对其所在特征群内所有特征与权重的乘积进行累加得到。

进一步，分类模块中的分类算法包括支持向量机、随机森林和感知机。

进一步，生物特征包括：消化系统微生物菌群表达量、影像特征、肿瘤标志物，血常规和微量元素含量信息中的至少一种特征。

进一步，分类系统生物标志物能够用于区分患病群体和健康群体。

本发明还公开了一种基于生物标志物的多变量分类方法，包括以下步骤：步骤1：将被测随机分为若干组，获取被测的生物特征的特征值，并将生物特征进行归一化处理；步骤2：计算每一个生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；将某一生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一生物特征的所有效应量的标准差作为生物特征的稳定性度量；步骤3：根据权重和稳定性，将所有生物特征分为若干特征群；并通过各个特征群内的生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；步骤4：根据生物标志物，利用分类算法对被测进行分类。

本发明由于采取以上技术方案，其具有以下优点：本发明利用效应量(Hedge's g)量化病人组和健康组之间临床生物特征的差异，相比于传统研究中采用的双样本t检验，效应量具有稳定可靠、对离群点等噪声不敏感的特点，其值大小不受样本容量影响，是一种可用于比较不同研究差异的标准量化指标。通过采用bootstrapping方法对不同样本量的数据进行多次重复采样，以平均效应量大小代表该特征的组间区分能力，能够有效避免单次统计结果的不稳定性带来的误差。并且，在不同大小样本量上的多次统计分析中能够有效地削弱不同属性样本对结果的干扰，增强了特征在其他独立站点数据上的可重复性。通过计算特征与权重的加权和，得到的新特征通过综合考虑单个特征的贡献，充分利用累加效应使新得到的特征的组间区分能力具有更大的统计效力，有利于更优分类性能的实现。同时，这种加权特征生成策略将原始特征维度从成千上万降低到几个到几十个，降低了分类模型的复杂度，保证了更好的泛化性能。这种基于数据驱动的特征搜索生成策略，研究对象基于整个特征空间，突破了基于假设的研究受先验知识引导下特定临床特征的局限，促进更加精确、稳定的生物标志物的发现，为理解疾病潜在的发病机制提供有价值的线索。

附图说明

图1为本发明一实施例中基于稳定临床生物标志物的多变量分类系统的结构示意图。

图2为本发明一实施例中基于稳定临床生物标志物的多变量分类方法的流程图；

图3为本发明另一实施例中基于900次bootstrapping采样计算得到的组间差异效应量的分布的示意图；

图4为本发明另一实施例中基于加权累加效应提取的生物成分特征在组间区分能力与原始特征中具有最大组间区分能力的比较图。

具体实施方式

为了使本领域技术人员更好的理解本发明的技术方向，通过具体实施例对本发明进行详细的描绘。然而应当理解，具体实施方式的提供仅为了更好地理解本发明，它们不应该理解成对本发明的限制。在本发明的描述中，需要理解的是，所用到的术语仅仅是用于描述的目的，而不能理解为指示或暗示相对重要性。

实施例一

本实施例公开了一种基于生物标志物的多变量分类系统，如图1所示，包括：获取模块，获取若干被随机分组被测的生物特征的特征值，并将生物特征进行归一化处理；差异检测模块，用于计算每一个生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；度量计算模块，用于将某一生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一生物特征的所有效应量的标准差作为生物特征的稳定性度量；特征划分模块，根据权重和稳定性，将所有生物特征分为若干特征群；加权特征生成模块，通过各个特征群内的生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；分类模块，根据该生物标志物，利用分类算法对被测进行分类。

其中，生物特征包括但不限于人口统计学信息、肠道微生物菌群表达信息、血常规和血浆微量元素含量信息、结构或功能磁共振影像信息，以及肿瘤标志物等的至少一个特征。由于不同模态的特征值自身量级不一致，为了统一度量，需要对所有的生物特征对应的特征值进行归一化处理。具体是通过Z变换，将每一个特征值减去该生物特征在所有样本上的均值再除以其标准差，使每一个生物特征的均值为0，标准差为1。

差异检测模块中用bootstrapping算法随机地从各组中抽取相同数量的样本，计算各组之间的效应量，先通过变换抽样样本容量，来模拟现实中样本属性的多样性，随后在相同抽样样本容量下，进行多次重复抽样计算效应量大小。

效应量采用以下公式计算：

其中gi表示各组中第i个生物特征上的差异性的效应量，mean(Pi),mean(Hi)分别表示第一组样本和第二组样本在生物特征i上的均值，m表示每一组抽取的样本量，SD_p ²、SD_h ²分别表示第一组样本和第二组样本在生物特征i上的方差。选用效应量Hedge's g来对任意特征的组间差异程度进行量化。该效应量对离群点敏感性较低，不受样本容量的影响。传统组间差异分析结果重复性较差主要是因为所研究样本不具有代表性，得到的统计值稳定性较差。为了减弱这种不稳定性，使用bootstrapping算法随机地从各组中抽取相同数量的样本，计算各组之间的效应量大小。对上述过程重复进行若干次，去除随机抽样效应的影响。通过变换抽样样本容量，来模拟现实中样本属性的多样性，得到在多种不同情况下的效应量分布。优选地，每次采样的样本容量可以选择n/10,n/5,3n/10,2n/5,n/2,3n/5,7n/10,4n/5,9n/10(n表示各组被测的总人数，这里各组的样本量相同)；对每一个固定样本容量下的重复采样次数，可以选择100次。在计算资源允许的情况下，重复采样次数可以选用更大的数值。

一般而言，特征数量越少，构建的模型复杂度越低，模型的泛化性能就越好。为了有效降低特征空间的维度，降低计算负担以及单个特征在模型构建中的不稳定性，需要构建若干数量远小于原始特征的成分特征。

具体地，特征划分模块首先设定一定的阈值(如0.4)，将权重较低的特征从原始特征空间中去除，只保留具有较高组间区分能力的高权重特征。以所有特征的权重及稳定性作为两个基本特征，利用K-means聚类算法，对所有特征进行聚类分析。通常会形成若干具有不同权重大小及不同稳定性的特征群。由于同一特征群内的特征权重大小相近，稳定性相似，基于这些特征生成的新特征通常具有较好的重复性以及泛化性能。根据实际需要，选择若干聚类簇的数目，根据实际情况，重复多次试验选择出最好的参数值。

加权特征生成模块中的加权特征通过将每个生物特征与其权重的乘积，并对其所在特征群内所有特征与权重的乘积进行累加得到。单个特征的组间区分能力有限，通过利用累加的思想，将若干组间区分能力较弱的特征进行组合，就会得到的新的具有较强组间区分能力的成分特征。通过对具有强区分能力的单个特征分配更高的权重，可以使这些特征在新生成的特征中拥有更多的贡献。而对于那些区分能力较弱的特征，所获得的权重较低，因此其对新生成特征的贡献也较小。新生成的成分特征的组间区分能力远远大于构成该成分的所有单一特征的区分能力。具体地，基于得到的若干特征群，计算每一个特征群内所有特征与权重的乘积，再将该群内所有特征与权重的乘积进行累加求和，最后得到的值作为新生成的成分特征。由于步骤5中k-means聚类生成了若干特征群，因此最终会生成若干新的成分特征。

加权特征生成模块中分类算法是采用常见的诸如支持向量机、随机森林、感知机等常见分类器。基于以上所得到的成分特征，利用这些特征作为新的分类特征，将病人及健康人分别标签化为-1和1两种不同的类别，输入到分类器中，对两组人进行分类研究。分类结果表示分类器在多大程度上能够自动地将两组人划分开，量化为分类准确率，即正确分类的人占总人数的比例。

分类系统生物标志物能够用于区分患病群体和健康群体。患病群体是指以肝硬化、肝衰竭、肝细胞癌为主的消化系统疾病，以肺癌为主的呼吸系统疾病，及以精神分裂症、重度抑郁症等为主的精神疾病。健康群体为与之对应的年龄、性别匹配的未患病个体组成的群体。

实施例二

本实施例公开了一种基于生物标志物的多变量分类方法，包括以下步骤：

步骤1：将被测随机分为若干组，获取被测的生物特征的特征值，并将生物特征进行归一化处理；

步骤2：计算每一个生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；将某一生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一生物特征的所有效应量的标准差作为生物特征的稳定性度量；

步骤3：根据权重和稳定性，将所有生物特征分为若干特征群；并通过各个特征群内的生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；

步骤4：根据生物标志物，利用分类算法对被测进行分类。

实施例三

本实施例以肝细胞癌患者和健康人的多种模态生物特征数据进行分类研究来说明实施例一和实施例二中具体实现过程。

本实施例中一种基于生物标志物的多变量分类方法，如图2所示，包括以下步骤：

步骤1：获取病人及健康人的数据。

其中，健康人和病人分别为500人，生物特征的维度为30000，特征主要包括人口统计学信息(如年龄，性别)，血浆微量元素含量，肿瘤标志物以及肠道微生物菌群表达信息，所有生物特征进行了Z值化处理。

步骤2：利用bootstrapping方法计算在不同抽样样本容量下每一个特征在两组样本之间差异性的效应量Hedge's g大小。

具体地，从病人和健康人中各抽取50,100,150,200,250,300,350,400,450人，分别计算两组人在每一个特征上的效应量，并对每一个抽样样本容量重复以上计算过程100次。通过该计算过程，对每一个特征，计算得到900个其在病人和健康人之间的效应量。

步骤3：计算特征的权重及稳定性。

对于每一个特征，如图3所示，通过计算900个效应量的均值作为其整体区分能力的代表，即它的权重；该特征的稳定性由900个效应量的标准差表示。

步骤4：利用K-means聚类方法形成若干特征群。基于所有特征的权重和稳定性，利用K-means算法最终生成10个特征群。

步骤5：计算每个特征群内所有特征与权重乘积的加权和。对上述生成的每一个特征群，计算组内每一个特征与其权重的乘积，并将所有特征与权重的乘积进行累加，最终生成了10个成分特征。图4示出了某一新生成的成分特征在病人和健康人之间的组间区分能力与原始特征中具有最大组间区分能力的比较图，从图4中可知，新生成的成分特征在病人和健康人之间的组间区分能力显著高于组内具有最大组间区分能力的特征。

步骤6：基于新生成的成分特征进行分类。将以上新生成的10个成分特征，连同病人及健康人的类别标签输入到支持向量机分类器中，最终得到的85％的分类性能。

上述内容仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于生物标志物的多变量分类系统，其特征在于，包括：

获取模块，获取若干被随机分组被测的生物特征的特征值，并将所述生物特征进行归一化处理；

差异检测模块，用于计算每一个所述生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；

度量计算模块，用于将某一所述生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一所述生物特征的所有所述效应量的标准差作为生物特征的稳定性度量；

特征划分模块，根据所述权重和稳定性，将所有所述生物特征分为若干特征群；

加权特征生成模块，通过各个所述特征群内的所述生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；

分类模块，根据所述生物标志物，利用分类算法对所述被测进行分类。

2.如权利要求1所述的基于生物标志物的多变量分类系统，其特征在于，所述差异检测模块中用bootstrapping算法随机地从各组中抽取相同数量的样本，计算各组之间的效应量，先通过变换抽样样本容量，来模拟现实中样本属性的多样性，随后在相同抽样样本容量下，进行多次重复抽样计算效应量大小。

3.如权利要求2所述的基于生物标志物的多变量分类系统，其特征在于，所述效应量采用以下公式计算：

其中gi表示各组中第i个生物特征上的差异性的效应量，mean(Pi),mean(Hi)分别表示第一组样本和第二组样本在所述生物特征i上的均值，m表示每一组抽取的样本量，SD_p ²、SD_h ²分别表示第一组样本和第二组样本在所述生物特征i上的方差。

4.如权利要求1-3任一项所述的基于生物标志物的多变量分类系统，其特征在于，所述特征划分模块将权重低于阈值的所述生物特征去除，以所有所述生物特征的权重及稳定性作为两个基本特征，利用K-means聚类算法，对所有所述生物特征进行聚类分析，得到具有不同稳定性和权重的若干特征群。

5.如权利要求4所述的基于生物标志物的多变量分类系统，其特征在于，所述加权特征通过将每个所述生物特征与其权重的乘积，并对其所在特征群内所有特征与权重的乘积进行累加得到。

6.如权利要求4所述的基于生物标志物的多变量分类系统，其特征在于，所述分类模块中的分类算法包括支持向量机、随机森林和感知机。

7.如权利要求1-3任一项所述的基于生物标志物的多变量分类系统，其特征在于，所述生物特征包括：消化系统微生物菌群表达量、影像特征、肿瘤标志物，血常规和微量元素含量信息中的至少一种特征。

8.如权利要求1-3任一项所述的基于生物标志物的多变量分类系统，其特征在于，所述分类系统生物标志物能够用于区分患病群体和健康群体。

9.一种基于生物标志物的多变量分类方法，其特征在于，包括以下步骤：

步骤1：将被测随机分为若干组，获取所述被测的生物特征的特征值，并将所述生物特征进行归一化处理；

步骤2：计算每一个所述生物特征在各组样本间差异性的效应量以及多次反复抽样产生的差异性的效应量；将某一所述生物特征的所有抽样条件下得到的效应量的均值作为生物特征的权重度量，将某一所述生物特征的所有所述效应量的标准差作为生物特征的稳定性度量；

步骤3：根据所述权重和稳定性，将所有所述生物特征分为若干特征群；并通过各个所述特征群内的所述生物特征的特征值、权重和稳定性得到各个特征群加权特征，并将各个特征群中大于阈值的加权特征作为生物标志物；

步骤4：根据所述生物标志物，利用分类算法对所述被测进行分类。