具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了更好地理解上述实施例,以下将本申请实施例中涉及的技术术语解释如下:
标准化方法:指在统计学中,为了消除不同测量的数据的尺度不统一问题的方法,或者通过调整使得数值分布一致的方法。
系统误差校正:多肽芯片中的多个多肽阵列同时对多个样本进行检测,得到不同样本的检测结果;对不同样本的检测结果进行误差校正,即为系统误差校正。
相对数值:与绝对数值相对应的,相对数值指的是在某个参考系或参考值作比较的时候得到的相对大小。
每个样本的多肽芯片检测结果数据均含有与所使用的多肽芯片中特征数量相同的特征值(例如在某种类型的多肽芯片上有超过130000个特征),数据量很大,这就给后续的数据处理、分析带来了挑战。此外,因为多肽芯片平台的高灵敏度,所述荧光信号值受多种干扰因素的影响,包括设备本身的系统误差、各种环境因素、不同的设备、不同批次的芯片、不同批次的试剂、不同的操作人员,以及同一操作人员在不同时间的操作差异等等,这些为数据处理、分析带来了难度。因此,有必要针对现有技术中多肽芯片平台产出的多肽芯片检测结果进行相应处理,以降低多种干扰因素对采用多肽芯片平台检测到的多肽芯片检测结果的影响,从而提高多肽芯片检测结果的可用性。为实现上述目的,本申请实施例提供了相应的解决方案,以下详细说明。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。计算机终端可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输模块。除此以外,还可以包括与处理器连接的:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。
在上述运行环境下,本申请实施例,提供了一种样本分类方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图2是根据本申请实施例的一种样本分类方法的流程示意图,如图2所示,该方法包括步骤S202-S204,其中:
步骤S202,获取多肽芯片检测结果数据集,其中,所述多肽芯片检测结果数据集包括多个样本的多肽芯片检测结果数据,所述多肽芯片检测结果数据包括多肽芯片上各个特征检测所得的特征值;
其中,上述多肽芯片检测结果可以是从目标图像中提取的多肽芯片检测结果,该目标图像可以是多肽阵列芯片中的多肽片段和待检测样本中被检测对象(例如血液中的抗体)结合后,结合物或结合物被标记后的产物被激发产生荧光后,由拍摄设备或成像机采集的图像。其中,待检测样本包括但不限于:血清、血浆、其他体液或其他类型的样本。被检测对象包括但不限于:抗体、抗原或蛋白质片段等。
步骤S204,分别采用多种标准化方法对多肽芯片检测结果数据集中的多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;
在相关技术中,为了增强多肽芯片检测结果的可用性,可以在对多肽芯片检测结果进行分析或应用前,采用标准化方法对数据进行预处理,但是,采用单一的标准化方法可能会消除不同多肽芯片检测结果数据间较细微的但是有用的差异。
为解决该问题,本申请实施例采用多种标准化方法分别对多肽芯片检测结果数据(即一个特定的样本经一次检测后得到的多肽芯片检测结果)进行预处理,得标准化后的单个多肽芯片检测结果数据;由于是采用了多种标准化方法对多肽芯片检测结果数据进行标准化处理,因此,虽然多肽芯片检测结果数据是单个数据,但是,仍然可以得到多个标准化处理后的多肽芯片检测结果数据,进而得到由多个标准化处理后的多肽芯片检测结果数据组成的数据集(即第一目标数据集)。由于该方法可避免某一种标准化方法自身带有的特性或缺陷被应用在所有的多肽芯片检测结果数据中,避免固定的采用某一种特定标准化方法可能会消除不同多肽芯片检测结果数据间较细微的但是有用的差异,因此,可以提高多肽芯片检测结果数据的可利用性,降低多肽芯片检测平台受各种可能的干扰因素的影响而导致的后续分析效率低、应用不佳(例如模型构建后的模型准确率不高)等的问题。
对多肽芯片检测结果数据集(由多个样本的多肽芯片检测结果数据组成),分别采用多种标准化方法中进行预处理,得到多个标准化后的多肽芯片检测结果数据集,每种标准化方法对应一个多肽芯片检测结果数据集。通过本方法获得的多个标准化后的多肽芯片检测结果数据集的可用性好,可避免某一种标准化方法自身带有的特性或缺陷被贯彻在所有的样本数据中,避免固定的某一种特定标准化方法可能会消除不同多肽芯片检测结果数据间较细微的但是有用的差异,进而提高多肽芯片检测结果数据的可利用性,降低多肽芯片检测平台受各种可能的干扰因素的影响而导致的后续分析、应用困难,降低对后续的数据分析或数据使用带来的不利于影响。
从以上方案中可以看出,由于在对分类模型进行训练前,采用了多种标准化方法对多肽芯片检测结果进行处理,因此,可以避免由于单个标准化方法本身存在的缺陷导致标准化处理后的多肽芯片检测结果数据无法有效利用的问题,同时由于多种标准化方法的使用,可以有效消除多种干扰因素的影响,提高多肽芯片检测结果的可用性,进而解决了相关技术中多肽检测结果数据中受到多种干扰因素的影响,不利于后续的数据利用技术问题。
在对多肽芯片检测结果进行标准化时可先确定与所述多肽芯片检测结果数据集对应的第一特征值矩阵,其中,所述第一特征值矩阵中包括所述多个样本的多肽芯片检测结果数据;然后采用多种标准化方法对第一特征值矩阵中的特征值进行标准化处理,得到第一目标数据集。
在本申请的一些实施例中,第一特征值矩阵中的每一行中的元素为一个样本的多肽芯片检测结果数据中的特征值,第一特征值矩阵中每一列的特征值是多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值,第一特征值矩阵中的列数与多肽芯片上的特征数量相同。
需要注意的是,第一特征值矩阵中的行和列中的元素是可以互换的,例如,将行中的元素替换为列中的元素,相应的,将列中的元素替换为行中的元素。
以多肽芯片检测结果为多肽芯片检测到的荧光信号值为例,荧光信号值以X=[X1,X2,……,Xn]表示,X表示荧光信号值,n表示多肽芯片技术平台检测时所使用的多肽芯片上的特征的数量。需要说明的是,对于同一类型的多肽芯片,根据多肽芯片上特征分布的预设规则,多肽芯片上每一特定位置的肽段序列(特征)与Xn之前的关系是一一对应且保持不变的。
以样本数为m,特征数量为n,n=130,000为例。则这m个样本经多肽芯片技术平台检测后输出的结果是一个特征矩阵(即第一特征值矩阵):
上述特征矩阵为列数(特征值)为n和行数(样本数)m的多肽芯片检测结果数据矩阵。每一行表示一个样本的所有多肽芯片检测结果的数值(特征值)。
上述标准化方法包括但不限于以下三种标准化方法。
第一种标准化方法:
首先,假设第一特征值矩阵中的每一行中的元素为一个样本的所有特征值,每一列的列数与每个样本的特征值的数量相同。确定第一特征值矩阵中的每一行中各个特征值之间的相对数值,以确定第一目标数据集。
具体地,对第一特征值矩阵中的每一行中的特征值按照预设规则进行排序,并记录对每一行中的特征值进行排序前各个特征值的初始排序;对排序后的第一特征值矩阵中的每一列求平均值,并使用每一列得到的平均值替换每一列中的特征值,并将替换完成后得到的特征值矩阵按照初始排序重新进行排序;确定重新进行排序后得到的第一特征值矩阵中的各个特征值,并将重新进行排序后得到的第一特征值矩阵中的各个特征值作为相对数值;使用相对数值替换按照预设规则进行排序之前的第一特征值矩阵中的特征值,确定第一目标数据集。
其中,上述预设规则可以是从大到小的顺序,也可以从小到大的顺序。
第一种标准化方法又可以称为分位数标准化,以下结合实例详细说明第一种标准化方法:
分别对每个样本内部的特征数值进行从小到大(或从大到小也行)的排序,即对每一行内部排序,得到一个排序后特征矩阵:
再对排序后特征矩阵中的每一列求均值,得到平均值向量:
Xmean_m=mean(Xsort_n),其中,函数mean(x)表示求均值的函数。
然后根据矩阵Xsort_n的排序情况替换对应的平均值的矩阵Xmean_m得到Xnormalized。
假设有3个样本,分别为A1、A2、A3,每个样本的共有B1至Bn个特征,因此由这3个样本获得的数值矩阵为:
|
B1 |
B2 |
B3 |
…… |
A1 |
3 |
1 |
2 |
…… |
A2 |
4 |
3 |
2 |
…… |
A3 |
|
|
|
…… |
A4 |
|
|
|
…… |
排序后为:
|
B1 |
B2 |
B3 |
…… |
A1 |
1 |
2 |
3 |
…… |
A2 |
2 |
3 |
4 |
…… |
A3 |
|
|
|
…… |
A4 |
|
|
|
…… |
按列求均值后并替换后为
然后恢复至原来的排序(即初始排序)后为
|
B1 |
B2 |
B3 |
…… |
A1 |
3.5 |
1.5 |
2.5 |
…… |
A2 |
3.5 |
2.5 |
1.5 |
…… |
A3 |
|
|
|
…… |
A4 |
|
|
|
…… |
因为多肽芯片检测平台的高灵敏度,例如芯片本身质量不同、检测设备不同、操作人员不同,可能造成系统误差较大,上述方案通过对每个样本的不同特征值(绝对值)进行标准化(即用相对数值表示绝对数值),可消除不同样本因系统误差导致的信号差异。
第二种标准化方法:
如果样本之间的某一特征的数值范围太大,在模型训练过程中该特征会过度干扰分类模型的参数调整;而与之相反,如果该特征的数值范围太小,在模型训练过程中该特征并不会起到调整训练参数的作用,因此需要对特征进行数据转换,以调整特征的数值范围,进而调整该特征对训练参数的影响程度。
具体地,对第一特征值矩阵中的特征值进行数据转换,得到目标矩阵,并基于目标矩阵确定第一目标数据集。在一具体实施例中,所使用的多肽芯片检测平台为HealthTell公司的多肽芯片检测平台,优选地,目标矩阵中元素的取值范围中的最大值小于第一特征值矩阵中特征值的取值范围中的最大值,所述目标矩阵中元素的取值范围中的最小值大于所述第一特征值矩阵中特征值的取值范围中的最小值。
在一些实施例中,可以采用对样本的所有特征值进行对数转换,将对数转换后得到的对数值作为标准化结果,通过该方式可以避免样本检测结果的绝对值(即特征的绝对值)出现上述两种可能的情况(即特征值的数值范围太大或数值范围太小)。例如对特征值进行log10转换可使其数字分布范围更为适中,且能让处理后的数据在建模后得到的模型更优。
例如:样本A经多肽芯片检测平台检测所得结果(含n个特征值)表示为X=A1、A2、……An,则经log10转换后,结果表示为:X=lgA1、lgA2、……lgAn。
第三种标准化方法:
确定第一特征值矩阵中各个样本各自的多肽芯片检测结果数据中的所有特征值的中位数;基于所述中位数对各个样本的多肽芯片检测结果数据中的所有特征值进行标准化,得到第一目标数据集;具体地:分别计算与每个样本的多肽芯片检测结果数据中的所有特征值与该样本的中位数的差值,并将差值替换第一特征值矩阵中的相应元素。
例如:分别计算每个样本的多肽芯片检测结果数据中的所有特征值的中位数,并将每个样本的所有特征值分别减去该样本的所有特征值的中位数,得到该样本的多肽芯片检测结果数据标准化后的结果:
Xmedian表示整个数值矩阵的中位数标准化结果,median(Xm*n)表示计算中位数的函数。
需要说明的是,采用第三种标准化方法,既能对单样本起到标准化的作用,也能对不同批次的样本能起到去除批次效应的作用;例如因为多肽芯片检测平台芯片本身质量差异(例如不同批次间的质量差异),同一样本使用不同批次芯片进行多肽芯片检测平台检测得到的结果的绝对值差异可能较大。通过本方法可将不同批次芯片检测的多个样本得到的多肽芯片检测结果(特征阵列)中的批次效应消除。
基于上述预处理后的数据矩阵,结合各个样本本身的信息(例如样本类型,即在对模型训练过程中采用的样本标签),例如具有良性肺结节的对象的样本、具有恶性肺结节的对象的样本,即可进行样本分类模型的构建。
还需要说明的是,在构建样本分类模型时,使用多个多肽芯片检测得到的多个样本结果进行模型构建(每个多肽芯片可检测多个样本),可使获得的模型的分类结果更为准确。为了进一步提高构建的样本分类模型的性能,适用于各种不同批次检测,提高分类准确性,还可针对上述预处理后的数据矩阵进行进一步处理,即系统误差校正:对标准化后的各样本特征值,采取以下的数据处理方式,得到批次效应纠正后的各样本的特征值。其中,上述批次理解为同一个多肽芯片。
为实现上述目的,所述多肽芯片检测结果数据集中包括两个以上的多肽芯片检测得到的多肽芯片检测结果数据;在分别采用多种标准化方法对所述多肽芯片检测结果数据集中的多肽芯片检测结果进行标准化处理之后,分别采用多种系统误差校正方式对多个第一目标数据集中的数据进行系统误差校正处理,得到多个第二目标数据集。在得到多个第二目标数据集后,可以分别采用多个第二目标数据集对分类模型进行训练,得到多个目标分类模型,以对样本的类型进行识别。
在对多个第一目标数据集中的数据进行系统误差校正处理前,按照获得多肽芯片检测结果数据的多肽芯片的不同,从所述多个第一目标数据集中提取数据,得到子矩阵,其中,每个多肽芯片对应一个子矩阵。子矩阵中的每一行中的元素为第一目标数据集中一个样本的多肽芯片检测结果数据经标准化方法处理后的特征值,每一列的特征值是第一目标数据集中多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值经标准化方法处理后的特征值,且子矩阵中的列数与所述多肽芯片上的特征数量相同;分别采用所述多种系统误差校正方式对所述多个子矩阵进行系统误差校正处理,得到所述多个第二目标数据集。其中,每种系统误差校正方式对每个子矩阵处理后得到一个第二目标数据集。
假设m个样本一共分成i个批次,采用不同的多肽芯片对各个批次进行检测,表示第m个样本的第n个特征值,属于第i个批次。假使每个批次的样本数量是不同的,hi表示第i批次的样本个数。
所有批次的样本数量表示为:
h={h1,h2,…,hi}。
因此所有批次的样本数量相加总和等于m:
第i个批次的多肽芯片检测结果的特征矩阵,表示为:
k∈{1,2,…m}且k+hi<m;
其中k+h表示m个样本中的第k+h个样本,hi表示第i批次的样本数量。
每个批次的h数值各不相同,但所有批次的h相加等于m。因此特征矩阵Xm*n加入了批次的表示方式,可以表示为:
以下举例说明系统误差校正方式:
为便于理解,在说明具体的误差校正方式之前,现结合图3说明多肽芯片检测平台的结构,如图3所示,该平台中具有一个芯片架30,芯片架30上设置有多个芯片夹32,每个芯片夹32上设置有多个多肽芯片34。
第一种系统误差校正方式(又称为批次均值(batch_mean)纠正):
对各子矩阵中的每一列中的特征值计算特征均值;基于特征均值对子矩阵进行系统误差校正处理,得到第二目标数据集,具体地:计算各子矩阵中的所有特征值与相应的特征均值的差值,并利用差值替换各子矩阵中的相应元素。
例如,对每个多肽芯片检测中的各个样本检测结果中的同一特征分别计算特征均值:
即
再用每个特征减去计算所得的特征均值,得到处理后的特征矩阵Xbmean_norm
第二种系统误差校正方式,即批次中位数(batch median)纠正:
基于各子矩阵中的每一列中的特征值确定中位数,并基于所述中位数对所述子矩阵进行系统误差校正处理,得到所述多个第二目标数据集。具体地:计算所述各子矩阵中的所有特征值与相应的所述中位数的差值,并利用所述差值替换所述各子矩阵中的相应元素,得到所述多个第二目标数据集。
其中,上述子矩阵中的每一行中的元素为第一目标数据集中一个样本的多肽芯片检测结果数据经标准化方法处理后的特征值,每一列的特征值是第一目标数据集中多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值经标准化方法处理后的特征值,且上述子矩阵中的列数与多肽芯片上的特征数量相同。
例如:
对于每个芯片检测的多个样本,对该多个样本的多肽芯片检测结果数据经多种标准化方法处理后得到的多个数据矩阵,对该数据矩阵中分别对应相同特征的列的所有特征值中分别确定(特征值)中位数:
即
再用子矩阵中每个特征值减去计算所得的相应的(特征)中位数,得到处理后的特征矩阵Xbmedian_norm
第三种系统误差校正方式,即批次内下采样均值(under-sampling batch mean)纠正:
针对每一个芯片,分别选取预设数量个其上检测的各类型样本对应的子矩阵中的数据,然后以这些数据为基础,计算每一个特征的均值,再将该芯片上的所有样本的检测结果分别对应的减去相应特征的均值,得处理后的数据。这一方法可以消除因为同一芯片上不同类型样本所占比例不均匀,而导致普通的批次效应纠正方法纠正不良的问题。具体地:
对同一多肽芯片检测到的各个样本,确定所述各个样本的类型;从所述同一子矩阵中,对每种类型的样本随机选取预设数量个样本的数据,得到第三特征值矩阵,其中,所述第三特征值矩阵中包括各个类型的样本的数据。在本申请的一个实施例中,所述第三特征值矩阵中的每一行中的元素为子矩阵中一个样本的数据(即,样本的多肽芯片检测结果数据经标准化方法处理后的特征值),所述子矩阵中每一列的特征值是子矩阵中多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值经标准化方法处理后的特征值,所述第三特征值矩阵中的列数与所述多肽芯片上的特征数量相同;基于所述第三特征矩阵对相应子矩阵中的数据进行系统误差校正处理,得到第二目标数据集。在本申请的一个实施例中,:对第三特征值矩阵中的每一列中的特征值计算特征均值;计算所述子矩阵中的所有特征值与相应的所述特征均值的差值,并利用所述差值替换所述子矩阵中的相应元素,得到第二目标数据集。
对于拟处理相同或不同多肽芯片检测所得并经上述标准化处理后的数据(以下为了表述简便,采用“同一芯片数据”简称),根据样本的具体分类情况(a类,例如有良性肺结节的对象的样本、有恶性肺结节的对象的样本,此时a=2),分别从同一芯片数据中针对每一类样本分别随机选取b个(例如2、3、4、5个等等)数据,然后针对这a*b个数据组成的数据矩阵,分别计算每个特征的均值;然后将同一芯片检测获得的各个样本的特征值经同样标准化方法处理后的数据中的所有特征值相对应的减去相应特征的均值,得纠正后的数据。
在一个具体实施例中,对Xm*n矩阵中每个多肽芯片的肺结节样本(即有恶性肺结节的对象的样本)的多肽芯片检测结果中进行下采样,具体为随机抽取3个良性肺结节样本(即有良性肺结节的对象的样本)的多肽芯片检测结果经标准化方法处理后的数据,和3个恶性肺结节样本的多肽芯片检测结果经标准化方法处理后的数据,对这6个多肽芯片检测结果经标准化方法处理后的数据所组成的特征矩阵计算每一个特征的均值X′r*n:
其中r=i*6,i是批次数量;3个良性肺结节样本的数据,和3个恶性肺结节样本的数据是采用相同的标准化方法处理获得。
得到X′r*n后后续的处理方法和前述批次均值(batch mean)纠正方法相同,得到处理后的特征矩阵Xus_mean_norm。
本方法可以避免因为建模时所采用的数据中对应的各个样本类型数量差距太大而导致得到的模型分类效果不佳的技术问题,也能改善因为多肽芯片检测平台检测时芯片位于不同的位置导致的荧光信号差异对数据结果的影响,并进一步提高基于本处理后的数据构建的模型的性能。
需要说明的是,本方法中,不同样本类型所得多肽芯片检测结果(标准化后的)数量必须相同,但是类别可以不仅仅是2类,3类、4类或更多的类别也是可行的。
另外,还需要注意的是,本申请实施例中的多肽芯片检测结果数据集中的多肽芯片检测结果包括但不限于:通过多肽芯片对样本进行检测得到的荧光信号值序列。
在对上述多肽芯片检测结果数据集中的检测结果进行标准化处理后,可以基于得到的第一目标数据集中的数据分别采用多个第一目标数据集对分类模型进行训练,得到多个目标分类模型;
其中,由于各个第一目标数据集是采用不同的标准化方法得到的,因此,不同的第一目标数据集中的数据应该是不同的,此时,采用不同的第一目标数据集对分类模型进行训练,便可以得到多个目标分类模型。
另外,还可以基于得到的多个第二目标数据集对分类模型进行训练,得到多个目标分类模型;其中,由于各个第二目标数据集是采用不同的系统误差校正方法处理得到的,因此,不同的第二目标数据集中的数据应该是不同的,此时,采用不同的第二目标数据集对分类模型进行训练,便可以得到多个目标分类模型。
上述分类模型包括但不限于支持向量机(SVM)模型,朴素贝叶斯模型、神经网络模型等。
需要注意的是,在对分类模型进行训练时,除了利用第一目标数据集中的数据或第二目标数据集中的数据外,还可以包含与样本对应的标签信息,该标签信息用于指示各样本的类型,例如有良性肺结节的对象的样本、有恶性肺结节的对象的样本、无肺结节的对象的样本。
采用多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据多个分类结果共同确定待检测样本的类型。
在一些可选的实施例中,上述目标分类模型的输入为待分类样本的多肽芯片检测结果数据,输出为分类结果,其中,该分类结果可以表现为属于指定类型的概率或者与指定类型对应的评分值,进一步的,在该概率或评分值大于预设阈值时,确定待分类样本为相应的预设类型。
在采用以上方案对数据集中的特征值进行预处理后,利用预处理后的特征值进行分类模型的训练,以下以SVM模型为例进行说明。如图4所示,该SVM的训练过程如下:
步骤S402:获取有肺结节对象的样本的多肽芯片检测结果数据;
步骤S404,采用第一种标准化方法、第二种标准化方法和第三种标准化方法对多肽芯片检测结果进行标准化处理。上述三种标准化方法的具体实现方式在上文中已经详细说明,此处不再赘述。
步骤S406,采用第一种系统误差校正方式、第二种系统误差校正方式和第三种系统误差校正方式分别对标准化处理后的多肽芯片检测结果进行处理。上述三种系统误差校正方式的具体实现方式在上文中已经详细说明,此处不再赘述。
步骤S408,采用步骤S406得到的多肽芯片检测结果对SVM模型进行训练,其中,在训采用步骤S406得到的多肽芯片检测结果对SVM模型进行训练时,可以将多肽芯片检测结果分为训练数据集和测试数据集两部分,其中,测试数据集用于对训练后的SVM模型进行验证,对于满足要求的SVM模型进行保留。
SVM模型对于小样本、多特征的数据训练较为友好,能够得到比其它算法好很多的结果。采用SVM的线性核函数(linear kernel)、惩罚系数C为0.1,进行分类模型的训练。原理如下:
输入训练数据集其中,/>yi∈{+1,-1},i=1,2,…,N,/>为第i个特征向量,即多肽芯片检测平台检测结果(荧光信号值),yi为样本分类标记;如果分类模型是为了区分良恶性肺结节样本,可令+1为良性肺结节;-1为恶性肺结节;
(1)选择惩罚参数C>0,构造并求解凸二次规划问题
subject to0≤αi≤C,i=1,2,…,N
得到最优解W,b是SVM用于决定分离超平面的参数,两个参数决定了模型通过何种超平面将数据判定为不同类别。A为拉格朗日乘子,是在拉格朗日乘子法中引入的参数,用于将约束条件与原函数关联,从而用于求解。
(2)计算W和b参数
(3)求分离超平面
得到最终的分类决策函数:
其中,sign()表示符号函数。
在一具体实施例中,可在包括有多个且含有良性、恶性肺结节样本经多肽芯片检测平台检测,且经过上述处理方法处理后获得的结果(数据)中,划分出80%作为训练数据,用于SVM分类模型学习,另20%作为测试数据,用于评估最终模型效果。
步骤S410:采用10-fold交叉验证(cross validation)方式评估模型的预测效果;判断测试结果是否满足条件(例如预测准确率或评分指标是否超过阈值),如果满足条件,转步骤S412,否则选择另一种标准化方法或系统误差校正方法进行对模型进行训练。
10-fold交叉验证,将训练数据划分为10等份的样本子集;然后将一个单独的样本子集保留作为验证模型的数据,其他9个样本子集用来训练。交叉验证重复10次,使得每个样本子集均做了一次验证模型的数据,然后得到10个SVM的训练模型。
步骤S412,保留模型;
用上述的10个SVM模型评估剩余的20%的测试集数据,如果平均ROC>=0.8(为经验值,一般超过0.8则认为该模型的分类性能可接受,越高越好),则保留该10个模型,否则放弃该10个模型,继续重复前述的数据预处理和批间差纠正步骤,直至能够得到某一次的10个模型的平均ROC≥0.8。
在利用上述方法对分类模型进行训练后,基于训练后的模型可以对样本进行类型识别,例如:
利用步骤S408最终得到的10个模型,分别对新的样本的多肽芯片检测结果进行分类,综合分类结果作为最终结果(例如取共性最多的分类为最终分类,或根据每个模型给出的评分取平均值,进而根据平均值确定样本分类)。
需要说明的是,对于一个具体的模型来说,以两种样本为例,其对一个样本的分类结果为(M,N),0≤M≤1,0≤N≤1,M+N=1,那么10个模型对于一个样本分别预测结果大致如下:
该样本的平均预测结果表示为[(M1+……+M10)/10,(N1+……+N10)/10],以(M1+……+M10)/10、(N1+……+N10)/10中数值最大的那个样本类型为确定的样本分类结果。
在一具体实施例中,共收集了144个肺结节样本的多肽芯片检测结果,这些样本中,良性肺结节和恶性肺结节各72个。采用分层随机抽样的方式,抽取115个样本的多肽芯片检测结果进行训练,另外的29个样本的多肽芯片检测结果进行测试。
当多肽芯片检测结果数据处理依次采用log10转换、中位数标准化后,采用上述的训练方法获得的模型的预测准确率大大提升。
在对分类模型进行训练时,基于已知的样本信息(例如样本标签)和预处理后的数据,还可结合样本相关的其他信息,例如样本来源对象的其他检测结果,例如生化指标检测结果、影像学检测结果、日常生活方式等信息,即将上述其他信息共同作为分类模型在训练过程中的输入。例如,对于肺结节样本分类而言,上述其他信息可以包括CT影像,对于肺癌可以是肺癌生物标志物检测结果等等。采用该种方式,由于不仅考虑的多肽芯片检测结果特征本身,还考虑了样本来源对象的其他辅助信息,因此,可以使得分类模型的预测结果更加准确。
基于上述分类模型,本申请实施例还提供了一种疾病或健康状况的评估方法,具体地,接收目标对象的样本的多肽芯片检测结果;将多肽芯片检测结果输入至上述分类模型进行分析,得到样本类型;基于样本类型输出疾病或健康状况评估结果。
例如,通过检测人血清中7种肺癌自身抗体(p53、NY-ESO-1、CAGE、GBU4-5、SOX2、HuD、MAGE A4),可以确定目标对象是否患有肺癌的可能性或概率。
本申请实施例还提供一种数据处理装置,如图5所示,该装置包括:
获取模块50,用于获取多肽芯片检测结果数据集,其中,所述多肽芯片检测结果数据集包括多个样本的多肽芯片检测结果数据,所述多肽芯片检测结果数据包括多肽芯片上各个特征检测所得的特征值;
处理模块52,用于分别采用多种标准化方法对所述多肽芯片检测结果数据集中的多肽芯片检测结果进行标准化处理,得到多个第一目标数据集。
在一些可选的实施例中,处理模块52,用于基于所述多肽芯片检测结果数据集确定第一特征值矩阵,其中,所述第一特征值矩阵中包括所述多个样本的多肽芯片检测结果数据;采用多种标准化方法对所述第一特征值矩阵中的多肽芯片检测结果数据进行标准化处理,得到所述第一目标数据集。具体地,所述第一特征值矩阵中的每一行中的元素为一个样本的多肽芯片检测结果数据中的特征值,所述第一特征值矩阵中的每一列的特征值是所述多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值,所述第一特征矩阵中的列数与所述多肽芯片上的特征数量相同;处理模块52,用于确定第一特征值矩阵中的每一行中各个特征值之间的相对数值;基于相对数值对每一行中各个特征值进行调整,确定第一目标数据集。
可选地,处理模块52,还用于对第一特征值矩阵中的每一行中的特征值按照预设规则进行排序,并记录对每一行中的特征值进行排序前各个特征值的初始排序;对排序后的第一特征值矩阵中的每一列求平均值,并使用每一列得到的平均值替换每一列中的特征值,并将替换完成后得到的特征值矩阵按照初始排序重新进行排序;确定重新进行排序后得到的第一特征值矩阵中的各个特征值,并将重新进行排序后得到的第一特征值矩阵中的各个特征值作为相对数值;以及使用相对数值替换按照预设规则进行排序之前的第一特征值矩阵中的特征值,得到第一目标数据集。
可选地,处理模块,用于对第一特征值矩阵中的特征值进行数据转换,得到目标矩阵,并基于目标矩阵确定第一目标数据集,其中,目标矩阵中元素的取值范围中的最大值小于第一特征值矩阵中特征值的取值范围中的最大值,所述目标矩阵中元素的取值范围中的最小值大于所述第一特征值矩阵中特征值的取值范围中的最小值。
在本申请的一些实施例中,处理模块,用于确定第一特征值矩阵中与每个样本所对应的所有特征值;确定与每个样本所对应的所有特征值中的中位数,并基于中位数对与每个样本对应的所有特征值进行标准化,得到第一目标数据集。具体地,处理模块52,还用于分别计算与每个样本对应的所有特征值与中位数的差值,并将差值作为第一特征值矩阵中的元素。
在另一些实施例中,多肽芯片检测结果数据集中还包括:多肽芯片检测结果数据集中包括两个以上的多肽芯片检测得到的多肽芯片检测结果数据;此时,如图6所示,该装置还包括:系统误差校正模块58,用于对于多个第一目标数据集中每个多肽芯片检测得到的多肽芯片检测结果数据,分别采用多种系统误差校正方式对多个第一目标数据集中的数据进行系统误差校正处理,得到多个第二目标数据集。
系统误差校正模块58,还用于对多肽芯片检测结果数据集中每个多肽芯片检测的多个样本的多肽检测结果数据,得到子矩阵,其中,每个多肽芯片对应一个子矩阵;所述子矩阵中的每一行中的元素为第一目标数据集中一个样本的多肽芯片检测结果数据中的特征值,所述子矩阵汇总每一列的特征值是所述第一目标数据集中多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值,所述子矩阵中的列数与所述多肽芯片上的特征数量相同;分别采用多种系统误差校正方式对多个子矩阵进行系统误差校正处理,得到多个第二目标数据集。其中,每种系统误差校正方式对每个子矩阵处理后得到一个第二目标数据集。
其中,系统误差校正模块58,确定各个子矩阵中各个样本的数据中的所有特征值的中位数,并基于所述中位数对各个样本的数据中的所有特征值进行系统误差校正处理,得到所述多个第二目标数据集。具体地,系统误差校正模块58,还用于计算同一特征值与特征均值的差值,并将差值作为第二目标数据集中的元素。
其中,系统误差校正模块58,用于分别计算每个样本的多肽芯片检测结果数据中的特征值与所述每个样本的中位数的差值,并将所述差值作为所述第二目标数据集中的元素,其中,所述每个样本的中位数为所述样本的多肽芯片结果数据中所有特征值的中位数。
其中,系统误差校正模块58,还用于对同一多肽芯片检测到的各个样本,确定各个样本的类型;从同一批次对应的子矩阵中,对每种类型的样本随机选取预设数量个样本的多肽芯片检测结果数据,并组成第三特征值矩阵,所述第三特征值矩阵中的每一行中的元素为子矩阵中一个样本的数据(即,多肽芯片检测结果数据经标准化方法处理后的特征值),所述子矩阵中每一列的特征值是子矩阵中多个样本在进行多肽芯片检测过程中多肽芯片上相同特征检测所得的特征值经标准化方法处理后的特征值,所述第三特征值矩阵中的列数与所述多肽芯片上的特征数量相同;基于第三特征矩阵对第一目标数据集中的数据进行系统误差校正处理,得到第二目标数据集。
其中,系统误差校正模块58,还用于对同一多肽芯片检测到的子矩阵中的同一特征值,计算同一特征值的特征均值;基于特征均值对子矩阵进行系统误差校正处理,得到第二目标数据集。
需要说明的是,多肽芯片检测结果数据集中的多肽芯片检测结果包括但不限于:通过多肽芯片对样本进行检测得到的荧光信号值序列。
需要说明的是,图5和图6中的各个模块可以是存储在存储器中的程序指令,该程序指令被与存储器连接的处理器执行;还可以是实现相应功能的硬件电路模块,但不限于此。
图7a是根据本申请实施例的一种模型训练方法的流程图。如图7a所示,该模型训练方法包括:
步骤S702,获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
步骤S704,分别采用多种标准化方法对多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;
步骤S706,依据多个第一目标数据集对分类模型进行训练,得到多个目标分类模型,其中,多个目标分类模型用于共同确定待检测样本的类型。
在本申请的一些实施例中,还可以依据多个第二目标数据对分类模型进行训练,得到多个目标分类模型,其中,多个目标分类模型用于共同确定待检测样本的类型。
图7b是根据本申请实施例的另一种模型训练方法的流程图。如图7b所示,该模型训练方法包括:
步骤S72,获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
步骤S74,分别采用多种标准化方法对多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;
步骤S76,采用多种系统误差校正方式分别对多个第一目标数据集中的数据进行系统误差校正处理,得到多个第二目标数据集;
步骤S78,依据多个第二目标数据集对分类模型进行训练,得到多个目标分类模型,其中,多个目标分类模型用于共同确定待检测样本的类型。
需要说明的是,图7a和图7b所示的模型训练方法中,步骤S704和步骤S74可采用图2所示的步骤S204相同的法进行,步骤S706和步骤S78中的的模型训练可采用本申请中的任一种模型训练方法进行,只是所使用的训练数据不同而已,此处不再赘述。
本申请实施例还提供一种模型训练装置,用于实现图7a所示的方法,如图8a所示,包括:
获取模块80,用于获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
标准化模块82,用于分别采用多种标准化方法对所述多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;
训练模块84,用于依据所述多个第一目标数据集对分类模型进行训练,得到多个目标分类模型,其中,所述多个目标分类模型用于共同确定待检测样本的类型。
本申请实施例还提供了另一种模型训练装置,用于实现图7b所示的方法,如图8b所示,包括:
获取模块802,用于获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
处理模块804,用于分别采用多种标准化方法对所述多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;采用多种系统误差校正方式分别对多个第一目标数据集中的数据进行系统误差校正处理,得到多个第二目标数据集;
训练模块806,用于依据所述多个第一目标数据集对分类模型进行训练,得到多个目标分类模型,其中,所述多个目标分类模型用于共同确定待检测样本的类型。
需要说明的是,图8a和图8b中的各个模块可以是存储在存储器中的程序指令,该程序指令被与存储器连接的处理器执行;还可以是实现相应功能的硬件电路模块,但不限于此。
本申请实施例还提供一种样本分类方法,如图9a所示,该方法包括:
步骤S902,分别采用多种标准化方法对多肽芯片检测结果数据集中的多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;多肽芯片检测结果数据集包括多个样本的多肽芯片检测结果数据,所述多肽芯片检测结果数据包括多肽芯片上各个特征检测所得的特征值;
步骤S904,依据多个第一目标数据集对分类模型进行训练,得到多个目标分类模型;
步骤S906,采用多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据多个分类结果共同确定待检测样本的类型。
本申请实施例还提供了另一种样本分类方法,如图9b所示,该方法包括:
步骤92,分别采用多种标准化方法对多肽芯片检测结果数据集中的多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;多肽芯片检测结果数据集包括多个样本的多肽芯片检测结果数据,所述多肽芯片检测结果数据包括多肽芯片上各个特征检测所得的特征值;
步骤94,采用多种系统误差校正方式分贝对所述多个第一目标数据集中的数据进行系统误差校正,得到多个第二目标数据集;
步骤96,依据多个第二目标数据集对分类模型进行训练,得到多个目标分类模型;
步骤98,采用多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据多个分类结果共同确定待检测样本的类型。
其中,多肽芯片检测结果数据集中包括两个以上的多肽芯片检测得到的多肽芯片检测结果数据;依据多个第一目标数据集对分类模型进行训练,得到多个目标分类模型之前,方法还包括:对于多个第一目标数据集中每个多肽芯片检测得到的多肽芯片检测结果数据,分别采用多种系统误差校正方式对多个第一目标数据集中的数据进行系统误差校正处理,得到多个第二目标数据集,其中,每种系统误差校正方式对每个子矩阵处理后得到一个第二目标数据集;然后分别采用多个第二目标数据集对分类模型进行训练,得到多个目标分类模型。
相应地,本申请实施例还提供一种样本分类装置,用于实现图9a所示的样本分类方法,如图10a所示,该样本分类装置包括:
获取模块102,用于获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
标准化模块104,用于分别采用多种标准化方法对多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;
训练模块106,用于依据多个第一目标数据集对分类模型进行训练,得到多个目标分类模型;
分类模块108,用于采用多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据多个分类结果共同确定待检测样本的类型。
本申请实施例还提供了另一种样本分类装置,用于实现图9b所示的样本分类方法,如图10b所示,该样本分类装置包括:
获取模块12,用于获取多肽芯片检测结果数据集中的多肽芯片检测结果,多肽芯片检测结果数据集中包括:多个样本的多肽芯片检测结果数据;
处理模块14,用于分别采用多种标准化方法对多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;采用多种系统误差校正方式分贝对所述多个第一目标数据集中的数据进行系统误差校正,得到多个第二目标数据集;
训练模块16,用于依据多个第二目标数据集对分类模型进行训练,得到多个目标分类模型;
分类模块18,用于采用多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据多个分类结果共同确定待检测样本的类型。
需要说明的是,图10a和图10b中的各个模块可以是存储在存储器中的程序指令,该程序指令被与存储器连接的处理器执行;还可以是实现相应功能的硬件电路模块,但不限于此。
本申请实施例还提供一种非易失性存储介质,其中,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行以上所述的样本分类方法或模型训练方法。
例如,非易失性存储介质中存储有用于执行以下功能的程序指令:获取多肽芯片检测结果数据集中的多肽芯片检测结果,所述多肽芯片检测结果数据集中包括:不同样本的多肽芯片检测结果数据;分别采用多种标准化方法对所述多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;依据所述多个第一目标数据集对分类模型进行训练,得到多个目标分类模型;采用所述多个目标分类模型对待检测样本进行分类,得到多个分类结果;以及依据所述多个分类结果共同确定待检测样本的类型。
又例如,非易失性存储介质中存储有用于执行以下功能的程序指令:获取多肽芯片检测结果数据集中的多肽芯片检测结果,所述多肽芯片检测结果数据集中包括:不同样本的多肽芯片检测结果数据;分别采用多种标准化方法对所述多肽芯片检测结果进行标准化处理,得到多个第一目标数据集;依据所述多个第一目标数据集对分类模型进行训练,得到多个目标分类模型,其中,所述多个目标分类模型用于共同确定待检测样本的类型。
又例如,非易失性存储介质中存储有用于执行以下功能的程序指令:获取多肽芯片检测结果数据集中的多肽芯片检测结果,所述多肽芯片检测结果数据集中包括:不同样本的多肽芯片检测结果数据;分别采用多种标准化方法对所述多肽芯片检测结果进行标准化处理,得到多个第一目标数据集。
在本申请实施例中,对多肽芯片检测结果数据集合中的多肽芯片检测结果采用多种标准化方法进行处理后得到的多个第一目标数据集,并采用多个第一目标数据集分别对分类模型进行训练,基于训练得到的多个分类模型对待检测样本的分类结果共同确定待检测样本的类型,由于在对分类模型进行训练前,采用了多种标准化方法对多肽芯片检测结果进行处理,因此,可以避免由于单个标准化方法本身存在的缺陷导致多肽芯片检测结果无法有效利用的问题,同时由于多种标准化方法的使用,可以有效消除多种干扰因素的影响,提高多肽芯片检测结果的可用性,进而解决了相关技术中多肽检测结果数据中受到多种干扰因素的影响,不利于后续的数据利用技术问题。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。