CN110443789B

CN110443789B - 一种免疫固定电泳图自动识别模型的建立及使用方法

Info

Publication number: CN110443789B
Application number: CN201910708833.6A
Authority: CN
Inventors: 武永康; 魏骁勇; 盛爱林; 黄琪; 钟奇林
Original assignee: West China Hospital of Sichuan University
Current assignee: West China Hospital of Sichuan University
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2021-11-26
Anticipated expiration: 2039-08-01
Also published as: CN110443789A

Abstract

本发明公开一种免疫固定电泳图自动识别模型的建立及使用方法，需要先建立模型，并对模型进行训练，按照以下步骤进行：a)数据准备；b)数据清洗；c)数据预处理；d)数据分割；e)建立模型，CNN网络提取蛋白电泳区带图像特征，各个蛋白电泳区带图像特征拼接组成序列特征；f)数据训练，训练LSTM模型；g)保存得到的模型，建立深度模型后，使用已训练的LSTM模型预测IFE分类结果。本发明提供一种基于端对端的深度学习方法进行IFE图自动识别，运行速度快，准确率高。

Description

一种免疫固定电泳图自动识别模型的建立及使用方法

技术领域

本发明涉及深度学习领域，尤其涉及一种免疫固定电泳图自动识别模型的建立及使用方法。

背景技术

免疫固定电泳(immunofixation electrophoresis，IFE)是一种包括琼脂凝胶蛋白电泳和免疫沉淀两个过程的操作。血清IFE可检测IgG、IgM、IgA等及κ轻链、λ轻链。原理是将样本在琼脂平板上作区带电泳，分离后其上覆盖抗血清，包括抗κ轻链、抗λ轻链、抗μ重链、抗δ重链、抗γ重链、抗ε重链和抗α重链抗血清，当抗体与某区带中的单克隆Ig结合，可形成免疫复合物沉淀，即可被吸附固定，再通过漂洗与染色，呈现浓而窄的着色区带，该技术为免疫固定电泳技术。目前国内外公认IFE技术具有敏感性高和特异性好的特点。

IFE技术在蛋白分类中起到不可替代的优势，但其自动化和标准化却落后于其他技术。目前传统IFE图(免疫固定电泳图)仍需通过人工判断分类。此种方法对人员要求较高，且耗时耗力，分类偏差较大，导致分类准确度和重复性较低的问题，即不同的人员可能对同一张图片给出不同的分类结果。

现有已公开的最佳方法是先用卷积神经网络提取IFE图的特征，然后使用机器学习方法进行分类，该方法并非端到端的结构设计，因此运行速度较慢，实时性得不到保证。

发明内容

本发明旨在提供一种免疫固定电泳图自动识别模型及其使用方法，提供一种基于端对端的深度学习方法进行免疫固定电泳图自动识别，运行速度快，准确率高。

为达到上述目的，本发明是采用以下技术方案实现的：

本发明公开一种免疫固定电泳图自动识别模型的建立方法，包括以下步骤：

a)数据准备，准备多个免疫固定电泳图；

b)数据清洗，采用如下步骤：

b1、剔除受到污染的免疫固定电泳图，

b2、将正常的类型、IgA-KAP类型、IgA-LAM类型、IgG-KAP类型、IgG-LAM类型、IgM-KAP类型、IgM-LAM类型、KAP轻链类型、LAM轻链类型分别记作标签0、1、2、3、4、5、6、7、8；

c)数据预处理，采用如下步骤：

c1、对免疫固定电泳图进行放缩，

c2、对放缩后的免疫固定电泳图进行二值化，

c3、提取连通区域，连通区域共有6个，各自的面积分别记为S_sp、S_igg、S_iga、S_igm、S_kap、S_lam，

c4、确定阈值S_threshold，S_sp、S_igg、S_iga、S_igm、S_kap、S_lam中任一个小于S_threshold，则从原始数据中除去；

d)数据分割，采用如下步骤：

d1、以左端连通区域S_sp的起始位置作为总蛋白电泳区带图像的起始位置L_sp，

d2、电泳图总宽度除以6得到固定分割间隔d，

d3、将L_sp～L_sp+d、L_sp+d～L_sp+2d、L_sp+2d～L_sp+3d、L_sp+3d～L_sp+4d、L_sp+4d～L_sp+5d、L_sp+5d～L_sp+6d对应的区域分割下来，得到分割后的6个免疫蛋白电泳区带图像，分别为总蛋白电泳区带图像、IgG电泳区带图像、IgA电泳区带图像、IgM电泳区带图像、KAP轻链电泳区带图像、LAM轻链电泳区带图像；

e)建立模型，采用如下步骤：

e1、将IgG电泳区带图像、IgA电泳区带图像、IgM电泳区带图像、KAP轻链电泳区带图像、LAM轻链电泳区带图像输入CNN网络中，

e2、对得到的最后一层卷积特征进行AveragePooling降维操作，此时得到的特征值，分别作为IgG_feature，IgA_feature，IgM_feature，KAP_feature，LAM_feature，AveragePooling计算公式如下：

feature(i)＝average conv_feature(·，·，i)i＝{1，2，…，n}

其中，CNN网络模型在最后一层卷积层输出特征为conv_feature∈R^l×l×n，维度为(l，l，n)，表示由n个维度为l×l的特征图构成，feature是降维后输出向量，是一个n维向量，feature(i)表示向量中第i维数值，它是从卷积层输出特征conv_feature的每个特征图上进行AveragePooling操作得到，i表示枚举从1到n的维数值整数集合，

e3、将5个卷积特征分别作为t1，t2，t3，t4，t5时刻特征，并送入到LSTM网络中进行训练学习得到编码后的LSTM特征，最后送入到FC层中进行分类，得到最后的分类结果，特征拼接公式如下

IFE_feat＝merge(IgG_feat，IgA_feat，IgM_feat，KAP_feat，LAM_feat)

其中，IFE&feat为免疫固定电泳图的特征，IgG_feat为IgG电泳区带图像的特征，IgA_feat为IgA电泳区带图像的特征，IgM_feat为IgM电泳区带图像的特征，KAP_feat为KAP轻链电泳区带图像的特征，LAM_feat为LAM轻链电泳区带图像的特征；

f)数据训练，将多张正常类型、IgA-KAP类型、IgA-LAM类型、IgG-KAP类型、IgG-LAM类型、IgM-KAP类型、IgM-LAM类型、KAP轻链类型、LAM轻链类型输入模型，得到LSTM模型；

g)保存得到的LSTM模型；

优选的，步骤e1之前，设置有步骤e0：将IgG电泳区带图像、IgA电泳区带图像、IgM电泳区带图像、KAP轻链电泳区带图像、LAM轻链电泳区带图像放缩至与CNN网络相同的大小。

优选的，步骤e3中，FC层中采用softmax激活函数，softmax函数如下：

其中s_j为对应j类别的softmax计算值，aj为j类别的原始输出值，T为全部类别数量，a^k为第k个类的原始输出值。

优选的，步骤f中，对应二分类时，使用自定义损失函数，公式如下：

其中x为对应真实标签下的预测概率；σ(x)标识对输出值x求sigmod操作；K为平衡因子。

优选的，步骤f中，对应多分类时，使用自定义损失函数，公式如下：

Loss(x)＝-softmax(-Kx)log(softmax(x))

其中x为对应真实标签下的预测概率；softmax(x)表示对x求softmax操作；K为平衡因子。

优选的，步骤e1中CNN网络采用VGG16。

优选的，步骤d3中，使用Python调用OpenCV库对电泳图进行分割。

本发明还公开了一种免疫固定电泳图自动识别模型的使用方法，包括以下步骤：

i)读取待预测的免疫固定电泳图；

ii)依次按照步骤c1、c2、c3、d将免疫固定电泳图分割，得到各蛋白电泳区带；

iii)依次按照步骤e1、e2使用CNN网络提取蛋白电泳区带图像特征；

iv)按照步骤e3，将各个蛋白电泳区带图像特征拼接组成序列特征；

v)将拼接组成的序列特征输入已训练的LSTM模型，预测IFE分类结果；

vi)得到IFE分类结果；

vii)将IFE分类结果保存至数据库。

本发明的有益效果：

1、本发明基于深度学习的方法可自动识别免疫固定电泳图，整体框架采用端到端的设计方案，与现有的已公布的最佳方法对比，运行速度提升50％，使实时性得到进一步保证。

2、本发明中对IFE图的识别达到了较高的精度，在250张IFE图的测试中，与现有的已公布的最佳方法对比，预测精度提升19.8％。

3、本发明所得到的深度学习模型，可移植性非常高，当需要在新的设备环境下进行预测任务时，只要加载保存得到的深度学习模型权重即可，而不需要重新训练数据。

4、本发明可以将电泳图片直接作为模型输入，而不需要人工设计特征，模型自动提取特征，并对电泳图片进行预测和实时返回预测结果给用户。

5、本发明因此采用自定义损失函数代替一般的交叉熵损失函数，能够一定程度解决类别不平衡的问题，易于深度学习模型的训练。

6、本发明采用端到端的设计可以使预测系统实时性大大提升，并且深度学习方法与现有方法对比，精度也得到了提高。

7、本发明采用端到端的设计返回预测结果的实时性(预测速度快)；由于深度学习模型比机器学习方法更适合于处理图片这种非结构化的数据，因此模型的预测精度更高；深度学习的模型可移植性非常高，具有一次训练，随处可用。

附图说明

图1为图像分割的示意图；

图2为模型预测与模型训练的过程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。

本申请中所述的免疫固定电泳图特指IFE图。

本发明需要先建立模型，并对模型进行训练，按照以下步骤进行：

a)数据准备；

b)数据清洗；

c)数据预处理；

d)数据分割；

e)建立模型，CNN网络提取蛋白电泳区带图像特征，各个蛋白电泳区带图像特征拼接组成序列特征；

f)数据训练，训练LSTM模型；

g)保存得到的模型；

得到需要的模型后，使用模型时，按照以下步骤进行：

a)读取待预测的免疫固定电泳图片；

b)图像分割各蛋白电泳区域；

c)CNN网络提取蛋白电泳区带图像特征；

d)各个蛋白电泳区带图像特征拼接组成序列特征；

e)使用已训练的LSTM模型预测IFE分类结果；

f)得到IFE分类结果；

g)将结果保存至数据库。

数据清洗，把电泳图染色时候受污染区域较大的部分直接剔除掉，将正常的类型、IgA-KAP类型、IgA-LAM类型、IgG-KAP类型、IgG-LAM类型、IgM-KAP类型、IgM-LAM类型、KAP轻链类型、LAM轻链类型分别记作标签0，1，2，3，4，5，6，7，8，最后整理得到电泳图和图片标签；

基于指定尺寸，对清洗后的原始数据集中的每张电泳图进行放缩，对放缩后的每张电泳图进行二值处理，对二值化后的电泳图进行连通区域提取，在一张电泳图片中可以提取出6个连通区域，各自的面积分别记为S_sp、S_igg、S_iga、S_igm、S_kap、S_lam，设定一个合适大小的阈值S_threshold，S_sp、S_igg、S_iga、S_igm、S_kap、S_lam分别与S_threshold比较大小，只要其中一个小于阈值S_threshold，则认定该电泳图片包含噪声区域过大，直接从原始数据集中滤除掉，进一步得到干净的数据集；

选取最左边连通区域S_sp的起始位置作为总蛋白电泳区带图像的起始位置L_sp，确定固定分割间隔d，d为电泳图总宽度除以6就可直接得到，然后将L_sp～L_sp+d、，L_sp+d～L_sp+2d、L_sp+2d～L_sp+3d、L_sp+3d～L_sp+4d、L_sp+4d～L_sp+5d、L_sp+5d～L_sp+6d对应的区域分割下来，得到分割后的6个免疫蛋白电泳区带图像，分别为总蛋白电泳区带图像、IgG电泳区带图像、IgA电泳区带图像、IgM电泳区带图像、KAP轻链电泳区带图像、LAM轻链电泳区带图像，其中分割的方法为python调用opencv库编程实现；

将得到的5个图片条带分别输入到CNN(这里采用VGG16)网络中，取CNN网络最后一层卷积特征，再对得到的最后一层卷积特征进行AveragePooling降维操作，此时得到的特征值，分别作为IgG_feature，IgA_feature，IgM_feature，KAP_feature，LAM_feature，AveragePooling计算公式如下：

feature(i)＝average conv_feature(·，·，i)i＝{1，2，…，n}

其中，CNN网络模型在最后一层卷积层输出特征为conv_feature∈R^l×l×n，维度为(l，l，n)，表示由n个维度为l×l的特征图构成，feature是降维后输出向量，是一个n维向量，feature(i)表示向量中第i维数值，它是从卷积层输出特征conv_feature的每个特征图上进行AveragePooling操作得到，i表示枚举从1到n的维数值整数集合；

CNN网络的输入大小是固定的，如256*256，那么需要将原始图片放缩到与CNN网络相同的大小，因此需要先将分割得到的条带图进行放缩，之后再输入到CNN网络；

将5个卷积特征分别作为t1，t2，t3，t4，t5时刻特征，并送入到LSTM网络中进行训练学习得到编码后的LSTM特征，最后送入到FC层中进行分类，得到最后的分类结果；

特征拼接公式如下：

IFE_feat＝merge(IgG_feat，IgA_feat，IgM_feat，KAP_feat，LAM_feat)

其中，IFE_feat为IFE图的特征，IgG_feat为IgG电泳区带图像的特征，IgA_feat为IgA电泳区带图像的特征，IgM_feat为IgM电泳区带图像的特征，KAP_feat为KAP轻链电泳区带图像的特征，LAM_feat为LAM轻链电泳区带图像的特征；

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间循环神经网络，常用于视频，语音等具有前后相关性的样本中。在电泳图的类型判断中，最主要是根据IgG，IgA，IgM，KAP，LAM这五个条带区域的致密度相对关系来看的，如IgG条带和KAP条带致密度同时很大，那么就诊断为IgG-KAP类型，而这种致密度的相对关系可以看成是时序型的关系，因此适合采用LSTM网络来进行建模；

FC层中采用softmax激活函数，最后的输出为对于预测类别的概率，且保证了所有类别预测概率之和为1，softmax函数如下：

其中s_j为对应j类别的softmax计算值，a_j为j类别的原始输出值，T为全部类别数量，a^k为第k个类的原始输出值；

在全部的训练数据集中，正常类型、IgA-KAP类型、IgA-LAM类型、IgG-KAP类型、IgG-LAM类型、IgM-KAP类型、IgM-LAM类型、KAP轻链类型、LAM轻链类型对应的数量分别为2896张、136张、204张、436张、396张、78张、26张、37张、95张，各个类别之间的比例非常不均衡，直接放入模型当中训练，那么就会出现较大偏差，模型很容易预测为占比最大的类别，为解决这个问题，训练时候的通过修改损失函数代替一般的交叉熵损失函数，修改后的损失函数公式如下：

其中x为对应真实标签下的预测概率；σ(x)表示对输出值x求sigmod操作；K为平衡因子，用来平衡正负样本本身的比例不均，而以上公式是对应二分类的情况，多分类的损失函数如下：

Loss(x)＝-softmax(-Kx)log(softmax(x))

其中x为对应真实标签下的预测概率；softmax(x)表示对x求softmax操作；K为平衡因子，用来平衡多个类别不平衡的情况，使模型的Loss更加倾向于易分错的类别；

测试时，从获取的原始数据集中分离出250张电泳图片用作模型的测试，剩下的电泳图片用于训练，最后在测试集上模型的准确率高达98.5％。

当然，本发明还可有其它多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种免疫固定电泳图自动识别模型的建立方法，其特征在于包括以下步骤：

a)数据准备，准备多个免疫固定电泳图；

b)数据清洗，采用如下步骤：

b1、剔除受到污染的免疫固定电泳图，

c)数据预处理，采用如下步骤：

c1、对免疫固定电泳图进行放缩，

c2、对放缩后的免疫固定电泳图进行二值化，

d)数据分割，采用如下步骤：

d2、电泳图总宽度除以6得到固定分割间隔d，

e)建立模型，采用如下步骤：

feature(i)＝averageconv_feature(·，·，i)i＝{1，2，…，n}

e3、将5个卷积特征分别作为时刻特征拼接组成序列特征，并将拼接组成的序列特征送入到LSTM网络中进行训练学习得到编码后的LSTM特征，最后送入到FC层中进行分类，得到最后的分类结果，特征拼接公式如下

IFE_feat＝merge(IgG_feat，IgA_feat，IgM_feat，KAP_feat，LAM_feat)

其中，IFE_feat为免疫固定电泳图的特征，IgG_feat为IgG电泳区带图像的特征，IgA_feat为IgA电泳区带图像的特征，IgM_feat为IgM电泳区带图像的特征，KAP_feat为KAP轻链电泳区带图像的特征，LAM_feat为LAM轻链电泳区带图像的特征；

g)保存得到的LSTM模型。

2.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤e1之前，设置有步骤e0：将IgG电泳区带图像、IgA电泳区带图像、IgM电泳区带图像、KAP轻链电泳区带图像、LAM轻链电泳区带图像放缩至与CNN网络相同的大小。

3.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤e3中，FC层中采用softmax激活函数，softmax函数如下：

4.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤f中，对应二分类时，使用自定义损失函数，公式如下：

5.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤f中，对应多分类时，使用自定义损失函数，公式如下：

Loss(x)＝-softmax(-Kx)log(softmax(x))

6.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤e1中CNN网络采用VGG16。

7.根据权利要求1所述的自动识别模型的建立方法，其特征在于：步骤d3中，使用Python调用OpenCV库对电泳图进行分割。

8.根据权利要求1-7中任一所述的免疫固定电泳图自动识别模型的使用方法，其特征在于包括以下步骤：

i)读取待预测的免疫固定电泳图；

iv)按照步骤e3，将各个蛋白电泳区带图像特征拼接组成序列特征；将拼接组成的序列特征输入已训练的LSTM模型，预测IFE分类结果；

v)得到IFE分类结果；

vi)将IFE分类结果保存至数据库。