CN111340091A

CN111340091A - 基于cnn原理的免疫数据分类技术

Info

Publication number: CN111340091A
Application number: CN202010108059.8A
Authority: CN
Inventors: 袁韬; 王佩瑞; 蒋鑫; 李欢; 朱轩仪; 郑翠
Original assignee: Shanghai I Reader Biological Technology Co ltd
Current assignee: Shanghai I Reader Biological Technology Co ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2020-06-26
Anticipated expiration: 2040-02-21
Also published as: CN111340091B

Abstract

本发明提供了基于CNN原理的免疫数据分类技术。具体地，本发明提供了一种用于分类免疫数据的CNN模型的训练方法，该方法包括步骤：(1)提供供训练的免疫数据集；(2)对步骤(1)中的免疫数据集中的部分或全部的免疫数据独立地进行降采样处理，从而得到经降采样的数据集；(3)对步骤(2)的经降采样的数据集中经降采样处理的免疫数据，加上分类标签，从而得到带标签的经降采样的数据集；以及(4)用步骤(3)得到带标签的数据集训练CNN模型，从而建立CNN模型。对供训练的免疫数据集进行降采样处理。本发明通过分析免疫(如荧光)曲线的主要特征同时忽略次要个体特征从而避免检测的误差，满足临床的要求。

Description

基于CNN原理的免疫数据分类技术

技术领域

本发明属于免疫技术领域，具体涉及一种基于CNN原理的免疫数据分类技术。

背景技术

目前在荧光免疫层析技术中，通过仪器读取免疫反应后的荧光图像，经过数据的整合和处理，得到相应检测对象的浓度值。然而，在试剂片的制作过程中和后续的实验操作中，由于工艺和人为操作的因素，比如，每一组荧光微球的含量、分布不一致，移液枪吸取的液体体积存在偏差，因此即使在相同试剂浓度条件下，最终的荧光曲线图形，峰面积和

值也会有一定的差别。由此得到的回算浓度也会出现较大的误差，从而不能满足临床实验的要求。

综上所述，本领域迫切需要开发一种新的、可以避免回算浓度的误差，从而满足临床实验需要的新的免疫数据分析处理方法。

发明内容

本发明的目的就是提供一种新的、可以避免回算浓度的误差，从而满足临床实验需要的新的免疫数据分析处理方法。

在本发明的第一方面，提供了一种用于分类免疫数据的CNN模型的训练方法，所述的训练方法包括步骤：

(1)提供供训练的免疫数据集；

其中，所述免疫数据集包括多个免疫数据，且所述免疫数据是对应于已知样本，并且包括了所述已知样本中的待测目标的检测结果(如浓度)；

并且，所述免疫数据为免疫曲线数据，且所述免疫曲线数据由n个数据对(j，number)组成(即所述免疫曲线数据由n个一一对应的位置j和免疫值number组成)，且n≥100(较佳地，≥150)，j＝1、2、3……或n；(所述免疫数据是体现免疫反应发生情况的数据)

(2)对步骤(1)中的免疫数据集中的部分或全部的免疫数据独立地进行降采样处理，从而得到经降采样的数据集；且在所得的经降采样的数据集中，至少部分的(较佳地，80％以上的；更佳地，90％以上的，最佳地，全部的)免疫数据是经过降采样处理的免疫数据(对部分或全部的免疫数据的降采样处理是同时进行的、次序进行的、乱序进行的；和/或，在同一设备上进行的或在不同设备上进行的)；

其中，所述降采样处理包括步骤：

(2.1)确定降采样处理的采样标准；所述采用标准包括储存经降采样后的免疫数据的矩阵A的大小；

其中，所述矩阵A的大小以a×b表示，其中a和b各自独立地为≥20的正整数(较佳地，a＝30～200的整数和b＝30～200的整数)；并且a＜n和b＜n；

且矩阵A中各点的值以变量A[x_location，y_location]表示且各点的值与位置(x_location,y_location)一一对应，并且A[x_location，y_location]的初始值为0；

(2.2)计算每个数据对(j，number)对应的x_location和y_location；

其中，通过公式1计算x_location的值，并通过公式2计算y_location的值；

x_location＝取整(j/c) (公式1)

y_location＝取整((number-baseline)/interception) (公式2)

各式中，

c是基于j的最大值和矩阵A的大小确定的参数；

baseline代表基线的值；和

interception代表截断值，且其是基于假定的免疫数据中的最大值number_max确定的；

(2.3)通过公式3计算矩阵A中(x_location,y_location)处的值；

A[x_location，y_location]＝A[x_location，y_location]+data (公式3)；

并且data的值通过下述方法确定；

a)当公式2所得y_location＜0时，则y_location＝0和data＝1；

b)当公式2所得y_location＞img_size-1时，则y_location＝img_size-1且data＝3；

c)其余情况即当0≤公式2所得y_location≤img_size-1时，则y_location不变和data＝2；

其中，img_size代表矩阵A的大小，且img_size＝a；

(2.4)重复步骤(2.2)和(2.3)直至对所有n个数据对(j，number)都进行了计算处理，从而得到经降采样处理的单个免疫数据；

(3)对步骤(2)的经降采样的数据集中经降采样处理的免疫数据，加上分类标签，从而得到带标签的经降采样的数据集；

其中，所述分类标签是用于区分不同且所述的分类是根据样本中的待测目标的检测结果的进行分类的；以及

(4)用步骤(3)得到带标签的数据集训练CNN模型，从而建立CNN模型。

在另一优选例中，所述供训练的免疫数据集包含或不包含跳点免疫数据。

在另一优选例中，所述数据集包括训练集和测试集。

在另一优选例中，步骤(1)中，所述的供训练已知的免疫数据集是未经降采样处理的免疫数据集。

在另一优选例中，所述免疫数据选自下组：荧光数据、或胶体金数据。

在另一优选例中，所述免疫曲线为包括：测试峰、质控峰和任选的内参峰的免疫曲线。

在另一优选例中，所述免疫数据是用含测试线、质控线和任选的内参线的试剂条对已知样本进行检测所得的免疫数据。

在另一优选例中，所述待测目标包括：蛋白质、病毒、抗体，或其组合。

在另一优选例中，所述待测目标为脑利钠肽(BNP)。

在另一优选例中，所述的已知的免疫数据集具有N1个类别(即已知的免疫数据集中的免疫数据能够按照检测结果被分成N1个类别)，且每个分类各自独立地包括N2个免疫数据。

在另一优选例中，所述的类别是基于检测结果进行分类的。

在另一优选例中，不同分类中的N2是不同的或是相同的。

在另一优选例中，N1为≥2整数。

在另一优选例中，N1＝2～30的整数；较佳地，N1＝2～20的整数。

在另一优选例中，N2各自独立地为≥3的整数；更佳地，N2各自独立地为≥5的整数；最佳地，N2各自独立地为≥10的整数。

在另一优选例中，还包括将免疫数据集、经降采样的数据集，和/或带标签的数据集中的免疫数据分为训练集和测试集的步骤。

在另一优选例中，对于每个不同检测结果(如浓度)，测试集至少包括一个代表某一检测结果的免疫数据(即测试集包括至少N1个免疫数据，且每个免疫数据所代表的检测结果均不相同)。在另一优选例中，对于每个不同检测结果(如浓度)，训练集中代表该检测结果的免疫数据的个数是测试集中代表该需结果的免疫数据个数的1～10倍(较佳地，2～10倍；更佳地，3～5倍)。

在另一优选例中，a＝b。

在另一优选例中，a＜0.5n；较佳地，a＝0.2n～0.4n范围内的正整数。

在另一优选例中，b＜0.5n；较佳地，b＝0.2n～0.4n范围内的正整数。

在另一优选例中，当n＝150～210的整数时，a＝b＝50～70的整数。

在另一优选例中，c为正整数。

在另一优选例中，n/c≤b；较佳地，0.9b≤n/c≤b；更佳地，c为整数且0.9b≤n/c≤b。

在另一优选例中，当n＝150～210的整数时，c＝3。

在另一优选例中，img_size为a与b中较大的一个的值；较佳地，img_size＝a＝b。

在另一优选例中，当y_location通过公式2计算时，假设免疫数据上限为number_最大值，则取整((number_最大值-baseline)/interception)>a(较佳地，a＜取整((number_最大值-baseline)/interception)≤1.1a)。

在另一优选例中，带有不同标签的免疫数据所代表的检测结果属于不同的类别，即所代表的检测结果属于不同的检测结果区间或在不同的检测结果范围内。

在另一优选例中，所述不同标签和不同的检测结果区间或不同的检测结果范围是一一对应的。

在另一优选例中，步骤(4)中，通过one-hot编码给经降采样处理的免疫数据加上标签。

在另一优选例中，所述CNN模型为LeNet-5网络模型。

在另一优选例中，所述CNN模型所用的代价函数为交叉熵。

在另一优选例中，所述CNN模型所用的网络参数的更新方法为基于RMSPropOptimizer的方法。

在另一优选例中，所述的训练方法还包括步骤：

(6)根据CNN模型的效果(如正确率)调整降采样参数。

在另一优选例中，所述的降采样参数包括：baseline和interception。

在另一优选例中，所述的训练方法还包括步骤：

(7)当CNN模型的效果(如分类正确率)达到要求后，保存该模型。

在另一优选例中，所述的效果包括：分类正确率。

在另一优选例中，步骤(7)中，所述的要求是指，正确率≥90％；较佳地，正确率≥92％；更佳地，正确率≥95％。

在本发明的第二方面，提供了一种用于分类免疫数据的CNN模型，所述的CNN模型经如第一方面所述的方法的训练。

在本发明的第三方面，提供了一种免疫数据分析装置，所述的装置配置有如第二方面所述的CNN模型。

在本发明的第四方面，提供了一种分类免疫数据的方法，所述的方法包括步骤：将经降采样处理的待分类的数据通过如第二方面所述的CNN模型进行分类，从而得到分类结果；

其中，

所述待分类的数据为待测样本的免疫数据；

所述经降采样处理的待分类数据经过如第一方面中步骤(2)中所述的降采样处理。

在另一优选例中，所述的分类结果为待测样本中待测目标的浓度范围或待测目标的浓度所属的浓度区间。

在另一优选例中，所述待测样本为含或不含待测目标的样本。

在另一优选例中，所述待测目标包括：蛋白质、病毒、抗体、或其组合。

在另一优选例中，所述待测目标选为脑利钠肽(BNP)。

在本发明的第五方面，提供了判断免疫数据集中是否含有跳点数据和/或寻找免疫数据集中跳点数据的方法；所述的包括步骤：

(a)提供可能含有跳点数据的免疫数据集；

其中，所述可能含有跳点数据的免疫数据集包括多个免疫数据，其中，所述多个免疫数据中可能含有0、1、2、3、或4个跳点数据；

所述免疫数据为；且所述免疫数据是对应于已知样本，并且包括了所述已知样本中的待测目标的检测结果；

并且所述免疫数据为免疫曲线数据，所述免疫曲线数据的定义同第一方面中定义；

(b)对步骤(a)中的可能含有跳点数据的免疫数据集中的全部的免疫数据独立地进行降采样处理，从而得到经降采样的可能含有跳点数据的数据集；

所述降采样处理的定义同第一方面中的定义；

(c)对步骤(b)的经降采样的可能含有跳点数据的数据集中经降采样处理的免疫数据，加上分类标签，从而得到带标签的经降采样的数据集；

(d)用步骤(c)得到带标签的数据集训练CNN模型；

(e)根据训练过程中的反馈(所述反馈包括分类正确率和/或分类结果是否正确)，确定可能含有跳点数据的免疫数据集中是否含跳点数据和/或确定可能含有跳点数据的免疫数据集中的跳点数据。

在另一优选例中，所述数据集分为测试集和训练集。

在另一优选例中，可通过下述的反馈确定可能含有跳点数据的免疫数据集中是否含跳点数据和/或确定可能含有跳点数据的免疫数据集中的跳点数据：

对于测试集中的免疫数据，分类错误的数据可能为跳点数据；

对于训练集中的免疫数据，(i)正确率难以或无法到达100％和/或(ii)去除训练集中特定的免疫数据后，测试集中免疫数据的分类正确率会提高(较佳地，正确率达到或者接近100％)，该特定的免疫数据可能为跳点数据。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了荧光微球不同结合情况的测试谱图，其中(a)显示了样品A在测试线或质控线上的荧光微球分布情况；(b)显示了样品B在测试线或质控线上的荧光微球分布情况；(c)显示了样品A和样品B测试线或质控线上反馈的信号峰。

图2A显示了实施例2中未经降采样处理的一个原始数据(即一条免疫曲线)。

图2B显示了采用实施例2的降采样方式(普通即公式a、b和c)后图2A所示的数据在二维矩阵中的形式。

图2C显示了采用实施例2的降采样方式(修正即公式1、2和3)后图2A所示的数据在二维矩阵中的形式。

图3显示了实施例2的降采样方法(修正即公式1、2和3)，图中包含了基线的选择和上下限抹平，最后采样的范围只包含黄色的区域。

图4显示了经典的LeNet-5网络模型⁴。

具体实施方式

本发明人经过长期而深入地研究。意外的发现使用经过特殊数据处理的免疫曲线数据十分适合用于训练CNN模型从而进行分类。基于此，发明人完成了本发明。

术语

如本文所述，术语“超参数”是指在机器(如本文的CNN模型)的学习中，在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。

在本领域中，如果要减小不同组(例如，同批次不同试剂片)之间数值差异，其中一条路径是提高工艺的水平和实验的精准度来减小误差，但是在实际操作中很难达到或者技术本身已经饱和无法进一步提高。另外一条路径是提取同一浓度条件下荧光曲线的主要共同特征，忽略次要个体的特征，通过其主要特征来确定其具体属于浓度的分类。通过提取和分析主要特征来确定浓度范围，可以大大降低对于工艺和实验检测的要求。因此，本发明的一个目的是提供一种可依据免疫检测结果曲线本身特征对检测目标浓度进行分类的方法。

由于近几年来，计算机的不断发展，CPU和GPU的性能不断提高，使得人们处理数据的能力得到了极大的提高。得益于当前的计算机技术和基于过去神经网络的算法研究，基于神经网络的深度学习得到了极大的发展和提高。目前，卷积神经网络(CNN)在图像识别领域(计算机视觉，ImageNet Classification with Deep Convolutional NeuralNetworks,Alex Krizhevsky,Ilya Sutskever,Geoffrey E Hinton,NIPS 2012.)取得了较大的成功。最早的卷积网络模型就可以识别经典的MNIST手写数据集，比如LeCun提出的LeNet-5网络(LeCun,Y.and Bengio,Y.,1995.Convolutional networks for images,speech,and time series.The handbook of brain theory and neural networks,3361(10),1995.)。手写数据集(Kussul,Ernst；Tatiana Baidyk(2004)."Improved method ofhandwritten digit recognition tested on MNIST database")中对应的同一数字的特点是具有较多的相似特征和主要特征，但是细节上有较大的差别，这是因为每个人不同的书写方式和不同的书写工具带来了较多的细微差别。由此可以类比免疫技术中的荧光数据。在相同样品浓度下，其曲线峰值的形状和面积大致相同，但是由于仪器、操作和人为因素带来了较多的细节差别，如图1所示。如果将具体的某一浓度定义为一个类别(即在数学上采取一个离散的标准，而原始的TAP计算是一个连续的标准)，那么利用卷积神经网络模型对荧光图像进行特征提取，然后对不同浓度的数据进行学习和分类获得一个网络模型，接着通过测试结果不断修正网络中的超参数，最后使用该模型来确定新的荧光数据所属于的浓度类别。通过这样的方法，可以突出主要因素，忽略工艺和实验中引起的微小差别。

如本文所用，baseline可根据本领域的常规方法确定。较佳地，baseline的确定方法根据免疫曲线的基线的情况不同(如是否上翘等)选择不同的确定方法。为了便于理解，以下列举了部分baseline值的确定方法，但应当理解，本领域技术人员能够根据实际选用的免疫数据进行调整。本申请中baseline的示例性计算方法如下：(i)选取基线前端15个点对应number的平均值；其中，前端是指测试峰(对应于测试线)的前的位置；(ii)选取中间10个点作为基线值；其中，中间是指测试峰与质控峰之间的位置；或(iii)选取基线前端和后端各15个点；其中，前端同方法一种前端，后端是指质控峰后的位置。

应当理解，在本发明中，将数据集中的免疫数据分成训练集(或称训练数据集或训练用数据集)和测试集(或称测试数据集或测试用数据集)的次序没有特别限制，只要训练模型时所用的数据集是已分类的即可。例如，可在步骤(1)、(2)或(3)之前、中间或之后对数据集中数据进行分配。较佳地，在步骤(2)之前对将数据集分成训练集和测试集。

本发明的一个目的在于克服诊断测试中由于工艺和操作差异带来的回算浓度的偏差。为了实现上述目的本发明利用卷积神经网络(CNN)来识别不同形状的荧光曲线所对应的样品试剂的浓度。

首先，本发明直接利用了荧光曲线或其他免疫测试所得的曲线的主要特征，放弃了传统的峰面积、TAP值的计算；从而降低了对于工艺和操作的要求。其次，本发明将目前的人工智能技术和医疗检测数据相结合，为将来医疗大数据的发展和应用提供了一条切实可行的途径。

在一个具体实施方案中，本发明通过下述技术方案实现本发明的目的：将一维的荧光数据通过降采样的方法转化为二维的矩阵形式，并根据试剂的浓度给予相应的分类标签，然后利用tensorflow等框架和卷积神经网络分类学习和识别；优选地，在试剂条中除了测试线和质控线以外引入内参线，增加荧光曲线的特征，提高识别算法的性能和成功率。

在一个优选的具体实施方式中，本发明通过修正的降采样方法(引入上下限修正和基线修正)，使得该识别方法可以用在普通CT线数据上。

在另一个具体实施例中，本发明提供了一种进行数据分类的方法，主要包括步骤：

1.免疫数据的获取：分别使用捕获抗体，内参蛋白，质控抗体在层析膜上划线，对应于测试线，内参线，质控线，与样品垫、吸收垫组装成试剂片，然后滴加不同浓度的样品进行测试，通过仪器读取实验结果得到一维的荧光数据；

2.将实验所得的数据分为训练集和测试集

3.利用one-hot编码将不同的测试浓度作为不同的分类标签，将实际的荧光数据作为待分类的“图像”；

4.以一维数据的大小为纵坐标，数据点的位置为横坐标，通过降采样(修正的降采样)的方法将数据转换为2维矩阵的形式，并给予对应的标签；(最关键步骤，修正的降采样中考虑了基线效应和上下限抹平)

5.根据已有的模型建立卷积神经网络(CNN)的模型；

6.确定模型使用的代价函数和网络参数的更新方法；

7.训练模型并且测试模型的正确率，根据训练集和测试集的正确率更新和调整超参数；

8.保存训练模型用于新的荧光数据的分类。

本发明的主要优点包括：

本发明首次将深度学习技术引入到试剂片的研发和设计从而拓展了体外诊断(IVD)领域的数据处理方法。本发明对将来医疗大数据的应用给出了一条实际可行的路径和思考方法。同时，本发明也可以给临床医生给予新的数据参考依据和判别方法，并且通过数据的积累可以进一步提高临床判断的准确性。

(a)本发明的数据分类技术占用系统资源少

(b)本发明优选的数据分类方法(即修正的降采样)可以分类和识别普通的CT线数据即不包括内参线数据。

(c)本发明的数据分类方法的准确率高。

(d)本发明的方法计算速度快，对占用资源少。例如，在使用处理器8700K，显卡GTX1060(6G版本)的前提下，情况1：520个数据，390个训练，130个测试(13分类)，测试轮数42*25，训练和测试时间为158.81秒；情况2：70个数据，56个训练，14个测试(14分类)，测试轮数21*27，训练和测试时间为14.53秒。

(e)可以将定标数据放入算法中，通过分类的正确率查看性能和找到跳点数据。

(f)本发明的方法可用于特征更少、类别间差异更小、相比三线数据更难识别和分类的二线免疫数据(即仅含测试线和质控线的免疫数据)。

(g)本发明的方法特别适于区别正常数据和错误数据(试剂或者仪器的数据异常)，和对低值数据(0值数据)和高值数据(区别阴性和阳性)。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数是重量百分比和重量份数。

实施例1

1.免疫数据的获取：

分别使用捕获抗体，内参蛋白，质控抗体在层析膜上划线，然后与样品垫、吸收垫组装成试剂片并且用不同浓度的样品进行测试，得到多个由180个点的组成的一维荧光曲线数据(一个荧光曲线数据示例参见图2A)。荧光曲线上会出现三个峰，分别对应于测试线、内参线和质控线。

2.将实验数据分成两部分，分别作为训练集和测试集。训练集用于建立分类模型，测试数据用于检测模型的泛化性能(注：测试集不参与模型的建立，只用于检测，因此同一类数据之间需要有很强的相关性(如同一项目的同一批试剂片)。

3.在计算机或者集群中搭建深度学习的相关编译环境。这本申请的实施例中使用了python语言和相关库函数，以及tensorflow作为深度学习的平台(分别使用了CPU版本和GPU版本进行了计算和测试，优选使用GPU版本，其运算效率更高)。

4.在脚本文件中导入需要使用的其他库函数，例如用于xlsx数据的导入和输出的openpyxl、用于计算过程的存储和计算的numpy和pandas等。

5.导入准备好的数据(将数据以excel表格的形式保存并导入)，并将该数据加载到并分配到训练和测试矩阵中。

6.将每条荧光曲线进行降采样处理(采用普通降采样(6.1)或修正(6.2)的降采样进行处理)。

(6.1)即普通降采样：

以下以64×64(img_size)的采样标准为例，进行说明：

假设荧光数据值的上限为2400(number_最大值)，存储荧光数据的矩阵为A，大小为64×64，

对于j位置荧光数据的大小为number，设置interception参数

其中，interception的基于下述方式确定：(number最大值/interception)<＝img_size

x_location＝取整(j/3)(荧光数据180点，除3以后不超过矩阵大小)(公式a)

y_location＝取整(number/interception)(其中，interception＝40)(公式b)

A[x_location，y_location]＝A[x_location，y_location]+1(公式c)(每个像素作为一个数据点)。

对一维荧光曲线数据中每个点都采用上述的操作，得到的矩阵A对应于一条荧光曲线。具体的数据形式可以参考图2B(图2B为图2A所示的荧光曲线数据经普通降采样处理后的数据)。

(6.2)修正的降采样

以下以64×64(img_size)的采样标准为例，进行具体的说明：

假设存储荧光数据的矩阵为A，大小为64×64，

定义一个重要参数截断值记为interception(考虑基线效应)，修正的降采样中，interception的基于下述方式确定：

取整((number_最大值-baseline)/interception)>img_size，这样能保证有原始图像中分出了最终区域和上限区域，但是也不能超过img_size很多(例如，＜1.1img_size)。

计算基线的值并记为baseline。应理解，本领域技术人员能够根据实际所用曲线的特定采用不同的基线值的计算方法，例如参照本文中记载的方法。具体选取何种方法可以考虑曲线有无特殊的缺陷。例如在原始曲线数据为前高后低或者前低后高的情况下，此时可以使用下述方法：选取中间10个点取平均值作为基线值；其中，中间是指测试峰与质控峰之间的位置。

对于j位置荧光数据的大小为number

设置原始的数据值data＝2(对于不同区域的像素给予不同大小的数据点，强化高值的影响和减弱低值的影响)

x_location＝取整(j/3)(公式1)

y_location＝取整((number-baseline)/interception)(公式2)

如果y_location<0，y_location＝0，data＝1(低值减弱)

如果y_location>img_size-1，y_location＝img_size-1，data＝3(高值加强，img_size＝64，即图片的尺寸)

A[x_location，y_location]＝A[x_location，y_location]+data(公式3)

修正降采样后的数据格式可参见图2C(图2C为图2A所示的荧光曲线数据经普通降采样处理后的数据)。

最后，根据图3所示，普通的降采样(即步骤(6.1)中所述的方法)就是将原图(例如，图2A所示的原始曲线)改为尺寸更小的二维矩阵形式(如，图2B所示的64*64二维矩阵形式中曲线)。而优选的降采样(即步骤(6.2)中所述的方法)是通过基线修正和上下线截断将修正图片的部分信息转化到二维矩阵形式(降采样后如图2C所示)，从而突出不同浓度条件下，荧光曲线的主要特征，并减少背景噪声和无关信息的影响。基线修正主要是为了突出荧光曲线的主要特征，而上下限修正则是为了抹平一些相关噪声和将任意强度范围的曲线固定到64×64矩阵中。因此，interception参数非常重要，直接决定了采样的精细度(也就是实际白底区域(如图3所示)在原始图像中所占的范围比例)，一般来说，荧光曲线的最大强度越高，所需要的截断参数也越大。过高或者过低的interception参数会影响识别的正确率，根据不同的测试项目需要额外调整。(其余超参数采用预先调整好的确定值)，不再做额外的调整。对于今后的实验数据只需要调整interception参数的值和整个模型的计算量(即训练总轮数(totelstep)和每轮训练数据的数目(everystep))。

7.对于不同的浓度进行one-hot的编码操作，这里以脑利钠肽(BNP)检测试剂的5个浓度测试组为例(通常一组测试有14个浓度，即14个分类)，进行具体的说明：

浓度5500pg/mL设为[1,0,0,0,0]；

浓度3200pg/mL设为[0,1,0,0,0]；

浓度1600pg/mL设为[0,0,1,0,0]；

浓度100pg/mL设为[0,0,0,1,0]；

浓度0pg/mL设为[0,0,0,0,1]；

每条荧光曲线所对应的矩阵和浓度标签一一对应。

8.建立卷积神经网络的模型，首先用卷积层提取曲线的32个特征，然后接池化层降低数据量；接着，利用卷积层提取64个特征，然后接池化层压缩数据量；继续利用卷积层提取64个特征，然后接池化层压缩数据量；将所有二维数据展开为一维数据；最后，连接两个全连接层，进行网络计算，最后输出分类结果。其中，relu作为激活函数。整个模型采用经典的LeNet-5(原始用来识别手写数据集)，如图4所示。与原始文献相比，本发明采用的模型修改了激活函数和卷积板的数量并减少了全连接层的参数，提高整个模型的识别能力和计算效率。使用最简单的卷积网络是因为目前荧光数据集较为简单和数据量较小，超大的网络由于庞大的参数容易造成过拟合。

9.使用交叉熵作为代价函数。(Murphy,Kevin(2012).Machine Learning:AProbabilistic Perspective.MIT.ISBN 978-0262018029.)交叉熵主要使用在分类问题中。

10.使用RMSPropOptimizer来更新网络参数。(tensorflow中常见的优化函数，在AdaGrad基础上加入了decay factor，防止历史梯度求和过大，AdaGrad使用每个变量的历史梯度值累加作为更新的分母，起到平衡不同变量梯度数值差异过大的问题)。

其中，

AdaGrad:

cache+＝dx**2

x+＝-learning_rate*dx/(np.sqrt(cache)+1e-7)

RMSProp:

cache＝decay_rate*cache+(1-decay_rate)*dx**2

x+＝-learning_rate*dx/(np.sqrt(cache)+1e-7)

以上两种都是tensorflow中自带的函数，可以直接通过程序调用。

11.使用tensorflow和训练集的数据训练模型，利用测试数据评估模型的泛化性能，调整相关参数，(Y.LeCun,L.Bottou,Y.Bengio,and P.Haffner.Gradient-basedlearning applied to document recognition.Proceedings of the IEEE,november1998.)比如学习率、训练次数和全连接层的规模等等。

13.在测试集中得到较高的正确率以后，保存模型，用于判断和识别同类型的新的荧光数据。

在本发明中，根据模型在训练集和测试集上的表现(如测试集的分类的正确率)，调整网络模型中的超参数(例如，interception、和baseline，训练总轮数(totelstep)、每轮训练数据的数目(everystep))。

在具体计算中，根据最后输出结果来判断最后的数据所属的相应分类目标。结果形式如表5所示，其中每一行代表相应曲线所属于的浓度分类，每一行中数值最大(以斜体标出)粗体，接近于1的代表其相应分类(表5中包含了14个浓度分类(A、……N)和14条荧光曲线)。

表5输出结果的数据格式

表5显示了输出结果的数据格式(14个类别时的输出结果)，其中每一行代表一条曲线的测试结果。

此外，如果所检验的荧光数据处于分类目标的中间值，可根据最后的概率分布，取概率最大的分类的目标作为其主分类标准，第二最大值作为次分类目标(例如，参见表5A，对于一条荧光曲线的编码形式有14个值所确定，如果某条曲线的编码(即表5A的某一行)中某个值接近1，并且其他值接近0，那么可以将这条曲线归到相应编码对应的浓度中。此外，如果某条曲线的编码中有两个或者以上的值超过0，那么找到其中最大的两个值。该曲线所对应的浓度应该处于它们之间，并且偏向于数值最大的值所对应的浓度编码。如图表5中第二天曲线(第二行)可被认为第二条曲线处于2号浓度分类(第二列)和3号浓度分类(第三列)之间，且偏向于2号浓度)。

实施例2三线(即测试线T线、质控线C线和内参线)BNP荧光免疫数据训练结果

利用实施例1同样的方法测试第一组BNP荧光免疫数据，检验模型对荧光曲线的识别能力。

2.1免疫数据

该组数据集有5个测试浓度，分别为0、100、1600、3200、5500pg/mL，每个浓度有10个数据(其中8个数据作为训练数据，2个数据作为测试数据)。

训练轮数为13，每个step训练27次训练数据，每一轮训练测试一次训练数据和测试数据的正确率。

2.2训练过程及结果

第一步，在每个浓度中随机抽出两个数据用来测试，那么就得到了40个数据作为训练和10个数据作为测试。因此测试集的正确率经过调整参数(即实施例1中降采样的interception和/或baseline)以后，可以达到100％，即测试偏差变异系数CV为0％。训练和测试结果如表6和表7所示。

表6显示了不同降采样下5浓度分类的训练过程中的训练正确率和测试正确率，以及测试结果的数据格式。当使用修正的降采样预处理数据以后，其格式和目标格式相当接近。其中，step代表训练轮数，train accuracy代表训练集准确率，test accuracy代表测试集准确率。表7显示了测试组预计的目标编码的数据格式，其中，每一行代表一条荧光曲线。该表中总共有10条测试曲线，且每个浓度有2条测试曲线。

如表6和表7所示，一条荧光曲线的编码形式由五个值确定，其中，如果某条曲线的编码中某个值接近1，并且其他值接近0，那么可以将这条曲线归到相应编码对应的浓度中。

表6

表7测试组预计的目标编码的数据格式

可见，在某些训练和测试集划分中，识别的正确率为90％(参见表6)。在测试集中，有一个5500pg/mL浓度的数据，被分到3200浓度的分类中。当采用修正的降采样以后，正确率可以达到100％。如表6所示，修正的降采样能进一步提高网络的识别概率，并且其结果更加接近目标编码并且没有小于0.9的正确分类(即准确率)。如表7显示了目标编码的形式。因此，虽然降采样步骤(步骤(6))无论普通降采样还是修正的降采样均能用于由三线试剂片获得的结构，但是修正的降采样能极大提升训练的效果(如准确率等)，此外，修正过程属于数据的预处理阶段，因此也不会影响其模型运算效率。

实施例3三线BNP荧光免疫数据的训练结果

利用实施例1同样的方法测试另一组BNP荧光免疫数据，检验模型对荧光曲线的识别能力。

3.1免疫数据

本实施例中所用数据集包含了13个测试浓度，分别为0、25、50、100、200、400、800、1200、1600、2000、3200、4400、5500pg/mL，每个浓度包含了40个荧光数据。在每个浓度级别的数据中，取出30个作为训练数据，10个作为测试数据。根据所用的数据集和计算结果调整训练轮数和每轮训练次数。

分别使用普通降采样(即实施例1步骤(6.1)中方法)和修正的降采样(即实施例1步骤(6.2)中方法)进行数据的预处理。训练和测试结果如表8所示。

如表8所示，修正的降采样在训练过程中测试数据正确率的收敛速度更快和其正确率也相对较高。此外由于三线数据的特征较为明显，因此普通的降采样其正确率也达到了90％以上。目前由于实验的工艺和材料等外在条件，错误分类的数据主要来源于跳点数据。这类数据在传统的处理方法中也会导致TAP和回算浓度的CV过大。可见经本发明的方法在增加数据量的条件下，模型的识别能力依然存在。在使用更好的数据集(无跳点、CV小和特征明显)，那么模型的质量(如准确率)也会得到相应的提高。

表8实施例3中13浓度三线试剂片在不同预处理下的训练过程

实施例4CT线(即测试线T线和质控线C线)BNP荧光免疫数据的训练结果

利用实施例1同样的方法测试最普通的T线和C线试剂片，检验模型对荧光曲线的识别能力。

本实施例中所用的的数据集有14个测试浓度，分别为0、15、25、50、100、200、400、800、1200、1600、2000、3200、4400、5500pg/mL，每个浓度有5个数据。

第一步，在每个浓度中随机抽出一个数据用来测试，其余四个数据作为训练数据，那么就得到了56个数据作为训练和14个数据作为测试。

使用普通降采样预处理数据(即实施例1步骤(6.1)中的降采样方法)，然后训练模型，再调整如前所述的超参数后，正确率只能能稳定达到78.57％，其正确率远远小于三线模型中普通采样的正确率。这说明两线试剂片提供的荧光曲线的特征和区分度远远小于三线试剂片。

而使用修正的降采样预处理数据(即实施例1步骤(6.2)中方法)，正确率可以稳定达到92.58％，可见修正的降采样极大改变了模型的识别率，模型的识别能力得到了极大的提高，具体训练过程如表9所示。

表9显示了实施例4中14浓度TC线试剂片的在不同预处理下的训练过程。

表9

除非特别说明，以上的所有对比结果，只有数据的预处理不同(本专利所描述的普通降采样和修正的降采样)。此外，同对比组之间(即实施例2、3或4中)，训练集和测试集在原始数据上的划分是完全一致的，模型参数，训练模型的网络结构都是完全一致的，仅降采样过程不同。不同的对比组(即实施例2、3和4之间的对比)之间，也只有interception参数和训练次数的设置(包括训练轮数和每轮训练数据的数目)是不一样的。interception参数是因为不同实验，数据的取值范围不同；训练次数设置是因为不同的实验所提供的数据量是不同的(只有数据量较大的情况才需要较多的参数和计算步骤，否则容易过拟合)。其他超参数，经过了调参过程，因此不建议随意改动。

在进一步提升所有样本数据的数量(目前所用的样本数量过少，仅14个浓度每个浓度仅5条曲线)以减少样本数据随机性和样本数据的质量(目前所有样本数据的质量相对较差，例如批间差、灵敏度较低、CV偏大和跳点数据，特别是跳点数据)后，经本发明的降采样处理对模型进行训练可提高在测试集上的表现(准确率)。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种用于分类免疫数据的CNN模型的训练方法，其特征在于，所述的训练方法包括步骤：

(1)提供供训练的免疫数据集；

其中，所述免疫数据集包括多个免疫数据，且所述免疫数据是对应于已知样本，并且包括了所述已知样本中的待测目标的检测结果；

并且，所述免疫数据为免疫曲线数据，且所述免疫曲线数据由n个数据对(j，number)组成，且n≥100，j＝1、2、3……或n；

(2)对步骤(1)中的免疫数据集中的部分或全部的免疫数据独立地进行降采样处理，从而得到经降采样的数据集；且在所得的经降采样的数据集中，至少部分的免疫数据是经过降采样处理的免疫数据；

其中，所述降采样处理包括步骤：

(2.2)计算每个数据对(j，number)对应的x_location和y_location；

x_location＝取整(j/c) (公式1)

y_location＝取整((number-baseline)/interception) (公式2)

各式中，c是基于j的最大值和矩阵A的大小确定的参数；baseline代表基线的值；和interception代表截断值，且其是基于假定的免疫数据中的最大值number_max确定的；

(2.3)通过公式3计算矩阵A中(x_location,y_location)处的值；

A[x_location，y_location]＝A[x_location，y_location]+data (公式3)；

并且data的值通过下述方法确定；

a)当公式2所得y_location＜0时，则y_location＝0且data＝1；

c)其余情况，即当0≤公式3所得y_location≤img_size-1时，则y_location不变且data＝2；

其中，img_size代表矩阵A的大小，且img_size＝a；

2.如权利要求1所述的训练方法，其特征在于，所述的已知的免疫数据集具有N1个类别；其中，每个分类各自独立地含有N2个免疫数据，且N1为≥2的整数。

3.如权利要求2所述的训练方法，其特征在于，N1＝2～30的整数；较佳地，N1＝2～20的整数；和/或，N2各自独立地为≥3的整数；更佳地，N2为≥5的整数；最佳地，N2为≥10的整数。

4.如权利要求1所述的训练方法，其特征在于，a＜0.5n；较佳地，a＝0.2n～0.4n范围内的正整数；和/或，b＜0.5n；较佳地，b＝0.2n～0.4n范围内的正整数。

5.如权利要求1所述的训练方法，其特征在于，n/c≤b；较佳地，0.9b≤n/c≤b；更佳地，c为整数且0.9b≤n/c≤b。

6.如权利要求1所述的训练方法，其特征在于，所述的训练方法还包括步骤：

(6)根据CNN模型的效果调整降采样参数。

7.如权利要求1所述的训练方法，其特征在于，所述的训练方法还包括步骤：

(7)当CNN模型的效果达到要求后，保存该模型。

8.一种用于分类免疫数据的CNN模型，其特征在于，所述的CNN模型经如权利要求1所述的方法的训练。

9.一种免疫数据分析装置，其特征在于，所述的装置配置有如权利要求8所述的CNN模型。

10.一种分类免疫数据的方法，其特征在于，所述的方法包括步骤：

将经降采样处理的待分类的数据通过如权利要求8所述的CNN模型进行分类，从而得到分类结果；

其中，

所述待分类的数据为待测样本的免疫数据；

所述经降采样处理的待分类数据经过如权利要求1中步骤(2)中所述的降采样处理。