CN114219752B - 一种针对血清蛋白电泳的异常区域检测方法 - Google Patents

一种针对血清蛋白电泳的异常区域检测方法 Download PDF

Info

Publication number
CN114219752B
CN114219752B CN202111113218.4A CN202111113218A CN114219752B CN 114219752 B CN114219752 B CN 114219752B CN 202111113218 A CN202111113218 A CN 202111113218A CN 114219752 B CN114219752 B CN 114219752B
Authority
CN
China
Prior art keywords
electrophoresis
value
neural network
convolutional neural
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111113218.4A
Other languages
English (en)
Other versions
CN114219752A (zh
Inventor
魏骁勇
王凌锋
张栩禄
杨震群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111113218.4A priority Critical patent/CN114219752B/zh
Publication of CN114219752A publication Critical patent/CN114219752A/zh
Application granted granted Critical
Publication of CN114219752B publication Critical patent/CN114219752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种针对血清蛋白电泳的异常区域检测方法,属于深度学习和图像识别技术领域,解决现有技术采用人工识别血清蛋白电泳图像中的M蛋白只能人工来识别,无法用设备来识别、识别速度慢、耗时耗力、无法有效的进行识别,识别准确率低等问题。本发明包括:1)血清蛋白电泳图像集的收集;2)对血清蛋白电泳图像集中的电泳图像进行数据处理与输入数据格式设计;3)建立主动学习查询策略;4)训练卷积神经网络模型;5)设计主动学习查询策略的先验模块;6)优化主动学习查询策略,并再次训练卷积神经网络模型;7)基于最终训练好的卷积神经网络模型对待识别的电泳图像进行异常区域识别。本发明用于电泳图像的M蛋白标注。

Description

一种针对血清蛋白电泳的异常区域检测方法
技术领域
一种针对血清蛋白电泳的异常区域检测方法,用于电泳图像的M蛋白标注,属于深度学习和图像识别技术领域。
背景技术
在骨髓浆细胞恶性增殖中,多发性骨髓瘤是较为常见的情况。该类型疾病通常会伴随着在患者体内产生大量的单克隆免疫球蛋白(Monoclonal Protein),单克隆免疫球蛋白是由单一浆细胞克隆增殖产生的单一种类的免疫球蛋白,后续简称M蛋白。血清蛋白电泳和免疫固体电泳是两种基于电泳和沉淀反应的化学分析技术,目前两种方法均已经在临床上被广泛使用。免疫固体电泳用于检测免疫球蛋白的含量,同时该技术还能检验其具体的型别,血清蛋白电泳则用于检测是否含有M蛋白。在临床检测上,相比于免疫固体电泳,血清蛋白电泳成本与收费更低,应用更广泛。
血清蛋白电泳图像一共包含六个区域分别为:白蛋白(Alb),α1球蛋白、α2球蛋白、β1球蛋白、β2球蛋白、γ球蛋白。一般而言,若血清蛋白电泳图像中有M蛋白的存在,则多集中在β1、β2、γ几个区域。
血清蛋白电泳图像中的M蛋白只能通过少数具有专利知识的人员来识别,从而具有以下不足之处:
1.只能人工来识别,无法用设备来识别;
2.识别速度慢,耗时耗力;
3.无法有效的进行识别,识别准确率低。
随着近些年来深度学习的快速发展,可以使用计算机辅助医务人员进行诊断,使用深度学习神经网络模型来自动地标注出血清蛋白电泳图像中M蛋白的存在区域,来辅助医务人员。但存在如下技术问题:
1.传统的深度学习神经模型对数据标注的需求度十分大,其对数据贪婪的特性,导致用于神经网络训练的数据集仍需要医务专家进行大量标注,需要消耗大量的人力、物力、财力。
2.无法主动学习是筛选出更少、更优的样本作为输入进行分析,从而对硬件性能的要求更高。
发明内容
针对上述研究的问题,本发明的目的在于提供一种针对血清蛋白电泳的异常区域检测方法,解决现有技术采用人工识别血清蛋白电泳图像中的M蛋白只能人工来识别,无法用设备来识别、识别速度慢、耗时耗力、无法有效的进行识别,识别准确率低等问题。
为了达到上述目的,本发明采用如下技术方案:
一种针对血清蛋白电泳的异常区域检测方法,包括如下步骤:
步骤1:获取一定量级的血清蛋白电泳图像集,其中,血清蛋白电泳图像集包括已标注含M蛋白的电泳图像和未含M蛋白的电泳图像;
步骤2:对血清蛋白电泳图像集中的各电泳图像进行分割处理得到电泳子条带,基于电泳子条带两两间的关联得到定义了格式的输入数据;
步骤3:建立主动学习查询策略;
步骤4:获取卷积神经网络模型,并基于主动学习查询策略和输入数据训练卷积神经网络模型,得到初步训练好的卷积神经网络模型;
步骤5:基于血清蛋白电泳图像集构建初步训练好的卷积神经网络模型的先验知识模块;
步骤6:基于先验知识模块优化步骤3得到的主动学习查询策略,并基于优化后的主动学习查询策略和输入数据训练初步训练好的卷积神经网络模型,得到最终训练好的卷积神经网络模型;
步骤7:将待识别的电泳图像输入最终训练好的卷积神经网络模型得到的结果与待识别的电泳图像合并,得到标注了异常区域的电泳图像。
进一步,所述步骤1中的一定量级是指血清蛋白电泳图像集包括8万个以上的电泳图像。
进一步,所述步骤2的具体步骤为:
步骤2.1:将血清蛋白电泳图像集中的各电泳图像横向进行等宽度分割,得到各电泳图像对应的多条电泳区域;
步骤2.2:将各电泳区域中的峰值组成对应各电泳区域的电泳子条带;
步骤2.3:基于各电泳图像的电泳子条带两两间的关联,得到定义了格式的输入数据。
进一步,所述步骤2.3的具体步骤为:
步骤2.31:基于各电泳图像的电泳子条带,采用欧式距离求两两电泳子条带间的相似度,得到二维关联相似度矩阵,相似度公式为:
其中,、/>分别代表两个电泳子条带中的第/>个峰值,/>代表每个电泳子条带的峰值数,同时也是该电泳子条带的维数,/>代表了/>、/>两个电泳子条带间的相似度,该值越接近于0,代表相似度越高,相似度值越大说明两个电泳子条带间变化越大;
步骤2.32:将二维关联相似度矩阵作为定义了格式的输入数据。
进一步,所述步骤3中的主动学习查询策略包括期望模型变化策略和不确定性采样的查询策略。
进一步,所述步骤4的具体步骤为:
步骤4.1:获取卷积神经网络模型;
步骤4.2:将输入数据输入期望模型变化策略计算各电泳图像的价值值;
步骤4.3:将期望模型变化策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.4:基于步骤4.3选出的电泳图像训练卷积神经网络模型,若训练后的卷积神经网络模型的正确率达到要求,基于训练后的卷积神经网络模型执行步骤4.5,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.4;
步骤4.5:基于步骤4.4中未用于训练卷积神经网络模型的电泳图像的输入数据,将各输入数据输入不确定性采样的查询策略计算各电泳图像的价值值,不确定性采样的查询策略的公式为:
其中,表示用于评价各电泳图像对卷积神经网络模型训练价值大小,即指价值值,/>表示取最大值,P表示概率,/>表示训练后的卷积神经网络模型的参数集合,表示在/>卷积神经网络模型中/>得到的概率,/>表示取最小值,/>表示卷积神经网络模型预测概率最大的类别,y表示分类,x表示输入的某个电泳图像;
步骤4.6:将不确定性采样的查询策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.7:基于步骤4.6选出的电泳图像训练训练后的卷积神经网络模型,若基于此训练后的卷积神经网络模型的正确率达到要求,得到初步训练后的卷积神经网络模型,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.7。
进一步,所述步骤4中的卷积神经网络模型为Unet网络模型;
进一步,所述步骤5的具体步骤为:
对血清蛋白电泳图像集中含M蛋白的电泳图像进行分割,分割后得到白蛋白Alb,α1、α2、β1、β2、γ六个电泳区域;
基于六个区域,医生在多年临床检验中发现含M蛋白的小区域为β1、β2和γ,β1、β2和γ都在电泳图像的后半部分;
得到含M蛋白的区域为β1、β2和γ以及电泳图像的后半部分,将β1、β2和γ以及电泳图像的后半部分作为重点关注区域,重点关注区域、电泳图像的前半部分及前半部分中的区域即是构建得到的先验知识。
进一步,所述步骤6的具体步骤为:
基于先验知识模块确定M蛋白落在各电泳图像的各个区域的概率;
根据概率大小给各区域分配一个参数,并基于参数得到对应区域的新值,公式为:
其中,表示各区域分配的参数/>与峰值/>相乘的结果,即第/>区域对应的新值,表示第/>区域的峰值,/>表示第/>区域的概率,/>表示给定的数值,取值范围为2-5的整数,表示给各区域分配的参数;
基于新值优化主动学习查询策略;
基于优化后的主动学习查询策略和输入数据训练初步训练好的卷积神经网络模型,得到最终训练好的卷积神经网络模型,在训练过程中,基于优化后的主动学习查询策略分别对各电泳图像进行价值值计算,再基于计算得到的价值值从高到低进行排序,排序后选择大于给定阈值的价值值对应的电泳图像进行训练。
进一步,基于新值优化主动学习查询策略的具体为:
期望模型变化策略的优化:
各输入数据输入期望模型变化策略得到各输入数据的价值值为x1;
对应输入数据的各新值输入期望模型变化策略得到各新值的价值值为x2;
价值值x1加价值值x2的结果即为对应电泳图像的价值值;
不确定性采样的查询策略的优化:
各输入数据输入不确定性采样的查询策略得到各输入数据的价值值为x3;
对应输入数据的各新值输入不确定性采样的查询策略得到各新值的价值值为x4;
价值值x3加价值值x4的结果即为对应电泳图像的价值值。
本发明同现有技术相比,其有益效果表现在:
1.本发明通过对各电泳图像进行分割处理得到电泳子条带,高度地关注了各电泳图像的波形在各个位置的变化,充分适应了电泳图像是连续的电泳带的情况(即指图2中电泳图像竖看是一条连续的电泳带,横看,在x、y坐标轴中是一条连续的曲线,M蛋白也是其中的一个连续的区域,而不是一个单独的点),以及相邻部分之间关联紧密的特性,基于电泳子条带内部的关联性进行建模,将电泳图像的信息转换为电泳图像的波形各个点位之间的相似度信息作为输入,且通过关注波形间各个位置变化的方式保留了电泳图像的关键信息,如边缘渐变、染色深浅等,使最终的卷积神经网络模型能够保证较高的准确率。
2.本发明采用主动学习查询策略,将主动学习常用的期望模型变化(ExpectedModel Change)策略和不确定性采样的查询(UncertaintySampling)策略两种方法的思路结合起来,作为主要的主动学习查询策略。即在早期使用期望模型变化策略,使得选取更贴近大部分含M蛋白的数据作为训练集,使卷积神经网络模型快速收敛并完成对大部分模型的正确诊断分类,在正确率达到一定标准后再采用不确定性采样的查询策略中的置信度最低方法,使得卷积神经网络模型对于更难被区分的血清蛋白电泳图像进行跟高效地分类,引入主动学习查询策略显著地减少了标注的成本,同时由于在原有的数据集(血清蛋白电泳图像集)中存在低质量的数据样本,而引入主动学习查询策略相比于传统的深度学习模型,筛选出了高质量的电泳图像得到的输入数据作为训练集,减少了训练需要的样本输入,节约了时间、金钱、训练机器等的成本,因此提升了卷积神经网络模型结果的正确识别精度。
3.本发明采用人工设计的先验知识模块,将这些先验知识作为依据,对主动学习查询策略进行了进一步的优化,从而使卷积神经网络模型在分类、检测异常区域时更精确,使最终获得的诊断结果正确率更高,使得机器检测的异常区域可视化分布结果更加精确;
4.本发明能主动学习是筛选出更少、更优的样本作为输入进行分析,从而对硬件性能的要求更低。
附图说明
图1为本发明中训练卷积神经网络模型并得到初始训练好的卷积神经网络模型的示意图;
图2为本发明中有M蛋白的血清蛋白电泳图像的示例图,其中,第一个图和第三个图中灰色标注为M蛋白分布区域,第二个图和第四个图中从上至下分别对应第一个图和第三个图从左至右,第二个图和第四个图中的颜色深度对应第一个图和第三个图中的峰值高低;
图3为本发明得到的标注了异常区域的电泳图像。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
本发明主要流程包括:1)血清蛋白电泳图像集的收集;2)对血清蛋白电泳图像集中的电泳图像进行数据处理与输入数据格式设计;3)建立主动学习查询策略;4)训练卷积神经网络模型;5)设计主动学习查询策略的先验模块;6)优化主动学习查询策略,并再次训练卷积神经网络模型;7)基于最终训练好的卷积神经网络模型对待识别的电泳图像进行异常区域识别。具体实现步骤如下:
一、血清蛋白电泳图像集的收集
获取已有标签标记的血清蛋白电泳图像,图像主要由健康人体的电泳图像和患有多发性骨髓瘤患者的电泳图像(即已标注含M蛋白的电泳图像和未含M蛋白的电泳图像)构成,图像数量通常需要达到一定量级,一定量级是指血清蛋白电泳图像集包括8万个以上的电泳图像,以保证卷积神经网络在训练过程中能够收敛,实践中使用过去数年的血清蛋白电泳图像,有足够的数据集帮助神经网络进行充分的训练和预测,以保证卷积神经网络在预测阶段的准确率。
二、对血清蛋白电泳图像集中的电泳图像进行数据处理与输入数据格式设计
对血清蛋白电泳图像进行研究,对步骤一得到的电泳图像进行分割,得到很多条长度(长度都是等分的,在具体实验中进行了多种长度的等分,如,整体长度设为300,可以以1、2、3、5、10等多个长度都进行等分进行实验)相同的电泳区域,并按照从前至后的顺序依次编号。由于电泳图像是一条电泳条带,电泳条带的每一个位置都有一个峰值作为该位置的值,当分割完成后,电泳区域对应的条带可能包含几个峰值,作为一个组,也即组成一个tensor。 将这些小的电泳区域称为电泳子条带。
由于医学专家对M蛋白的识别,是通过观察图像波形是否在某一位置有突兀的变化,因此在进行输入数据格式设计时更加关注其电泳图像波形在每一个位置的变化,即关注各个电泳子条带之间的关系。将电泳子条带两两之间相互关联,互相之间求相似度,获取二维关联相似度矩阵。对t个条带均进行关联后获得规模为t*t的相似度矩阵S,将二维关联相似度矩阵作为定义了格式的输入数据。
由于电泳图像的电泳条带整体是连续的,电泳子条带与电泳子条带间存在强相关性,该相似度矩阵对电泳子子条带间的关系直接建模,将电泳子之间的相关性作为矩阵的值,同时相似度矩阵中间接地存储了电泳图像特征,使模型直接关注电泳带内部的相关性,并保持对电泳图像中其他有效信息的关注,达到更有效的训练过程。使最终模型能够保证较高的准确率。采用欧式距离电泳子条带间的相似度,具体公式为:
、/>分别代表两个电泳子条带中的第/>个峰值,/>代表每个电泳子条带的峰值数,同时也是该电泳子条带的维数,/>代表了/>、/>两个电泳子条带间的相似度,该值越接近于0,代表相似度越高,相似度值越大说明两个电泳子条带间变化越大。按照医学标准,通过电泳子条带变化大小来辨认是否含有M蛋白。
三、建立主动学习查询策略
基于血清蛋白电泳图像的特征,即获取各电泳图像的所有电泳子条带对应的峰值,计算两两峰值间的差值;将所有的峰值和差值作为各电流图像的特征,基于特征、期望模型变化策略和不确定性采样的查询策略建立主动学习查询策略,即期望模型变化策略通过对特征的判断,选出使卷积神经网络模型变化最大的电泳图像,同时通过不确定性采样的查询策略对选出变化最大的电泳图像中卷积神经网络模型难以判断的电泳图像,主动学习查询策略的关键在于如何选择出合适的电泳图像给人工标注(表示所有的标本都没有标注过,主动学习查询策略选择出电泳图像,让医学专家对选出的标注出其异常区域,以供卷积神经网络进行学习。因为在传统的卷积神经网络中,所有的标本都需要进行异常区域标注,而主动学习查询策略只需要对选出的电泳图像中的标本进行标注,减少了标注成本),因此不需要对所有的数据都进行标注,从而显著减少标注的成本。
其中期望模型变化策略简单讲就是选择那些使得模型变化最大或梯度变化最大的样本数据。
本步骤中的不确定性采样的查询策略采用的是置信度最低方法,简单讲就是选择那些最大概率最小的样本进行标注,即在对于二分类或者多分类的模型,通常模型都能够对每一个数据进行打分,判断它究竟更像哪一类。例如,在本发明的场景下,有两个样本分别被总卷积神经网络模型预测,其对阳性阴性两个类别的预测概率分别是:(0.9,0.1) 和(0.51, 0.49)。在此情况下,第一个数据被判定为阳性的概率是 0.9,第二个数据被判定为阳性的概率是 0.51,于是第二个数据明显更“难”被区分,因此更有被继续标注的价值。
卷积神经网络模型是对输入的电泳图像进行训练和测试,使得输出的异常区域与医生标注的异常区域最大程度一致。传统的卷积神经网络模型需要将大多数的图像用于训练,例如8w+电泳图像中,一般百分之70到80,即6w+个电泳图像会用于卷积神经网络模型的训练计算,剩下的用作测试,这样才能使得输出的异常区域与医生标注的类似。
引入主动学习查询策略可以从8w+个电泳图像中,选取出可以让卷积神经网络模型更高效、更迅速地完成网络的训练的图像。即可能只需要8w个图像中的1w个,2w个电泳图像,即可使得输出的异常区域与医生标注的类似。
这样减少了神经网络的输入,节约了时间、金钱、训练等成本。
四、训练卷积神经网络模型
针对血清蛋白电泳图像设计卷积神经网络模型,由于卷积神经网络模型输出中需要对M蛋白的分布区域进行标注,本发明采用Unet网络模型作为基础框架,在图像处理领域,该Unet网络模型已经被证明具备有效的图像识别能力,在实际的场景中部署也与本发明中的血清蛋白电泳图像契合。基于电泳图像的输入数据作为神经网络的输入,具体是采用主动学习查询策略从输入数据获取候选数据集,将医学专家的标注作为监督信息(即已标注含M蛋白和未含M蛋白的标签信息),使用梯度下降的策略训练神经网络,在多次迭代过程后,得到初步训练好的卷积神经网络模型,初步训练好的卷积神经网络模型具备识别M蛋白异常区域检测能力。
具体为:
步骤4.1:获取卷积神经网络模型;
步骤4.2:将输入数据输入期望模型变化策略计算各电泳图像的价值值;
步骤4.3:将期望模型变化策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.4:基于步骤4.3选出的电泳图像训练卷积神经网络模型,若训练后的卷积神经网络模型的正确率达到要求,基于训练后的卷积神经网络模型执行步骤4.5,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.4;
步骤4.5:基于步骤4.4中未用于训练卷积神经网络模型的电泳图像的输入数据,将各输入数据输入不确定性采样的查询策略计算各电泳图像的价值值,不确定性采样的查询策略的公式为:
其中,表示用于评价各电泳图像对卷积神经网络模型训练价值大小,/>表示取最大值,P表示概率,/>表示训练后的卷积神经网络模型的参数集合,/>表示在/>卷积神经网络模型中、/>得到的概率,/>表示取最小值,/>表示卷积神经网络模型预测概率最大的类别,y表示分类,x表示输入的某个电泳图像;
步骤4.6:将不确定性采样的查询策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.7:基于步骤4.6选出的电泳图像训练训练后的卷积神经网络模型,若基于此训练后的卷积神经网络模型的正确率达到要求,得到初步训练后的卷积神经网络模型,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.7。
五、设计主动学习查询策略的先验模块
基于血清蛋白电泳图像集构建初步训练好的卷积神经网络模型的先验知识模块,即对已有的血清蛋白电泳图像的特征进行分析,结合已有的医学知识设计先验知识模块,该模块的设计基于医学已有的公认概念,即M蛋白通常出现在血清蛋白电泳图谱的β1、β2、γ几个区域。同时对医疗系统累积的庞大电泳图像进行了数据分析,得到了具体的M蛋白分布区域。
具体为:
对血清蛋白电泳图像集中含M蛋白的电泳图像进行分割,分割后得到白蛋白Alb,α1、α2、β1、β2、γ六个电流区;基于六个区域,医生在多年临床检验中发现含M蛋白的小区域为β1、β2和γ,β1、β2和γ都在电泳图像的后半部分;得到含M蛋白的区域为β1、β2和γ以及电泳图像的后半部分的重点关注区域,重点关注区域、电泳图像的前半部分及前半部分中的区域即是构建得到的先验知识。
按照步骤2中将条带分割的标准,探究落在M蛋白出现在每一个小条带的概率,结合数据分析与医务人员思路,加大高关注区域在主动学习算法中的影响力。
将这些先验知识作为依据,设计先验知识模块,对步骤3、4中的深度主动学习使用的主动学习算法进行了进一步的优化,使得模型按照更符合专业医务人员诊断的思路进行训练,从而使模型在诊断分类、检测异常区域时更精确,使最终获得的诊断结果正确率更高,使得模型检测的异常区域可视化分布结果与医务人员的标注结果更加类似。
六、优化主动学习查询策略,并再次训练卷积神经网络模型
将先验知识模块加入模型,优化主动学习查询策略,让模型可以筛选出更高质量的样本作为训练集,使得卷积神经网络更贴合实际的检测方向,提升模型的鲁棒性与模型结果的正确诊断精度。
具体步骤为:
基于先验知识模块确定M蛋白落在各电泳图像的各个区域的概率;
根据概率大小给各区域分配一个参数,并基于参数得到对应区域的新值,公式为:
其中,表示各区域分配的参数/>与峰值/>相乘的结果,即第/>区域对应的新值,表示第/>区域的峰值,/>表示第/>区域的概率,/>表示给定的数值,取值范围为2-5的整数,表示给各区域分配的参数;
基于新值优化主动学习查询策略;具体为:
期望模型变化策略的优化:
各输入数据输入期望模型变化策略得到各输入数据的价值值为x1;
对应输入数据的各新值输入期望模型变化策略得到各新值的价值值为x2;
价值值x1加价值值x2的结果即为对应电泳图像的价值值;
不确定性采样的查询策略的优化:
各输入数据输入不确定性采样的查询策略得到各输入数据的价值值为x3;
对应输入数据的各新值输入不确定性采样的查询策略得到各新值的价值值为x4;
价值值x3加价值值x4的结果即为对应电泳图像的价值值。
基于优化后的主动学习查询策略和输入数据训练初步训练好的卷积神经网络模型,得到最终训练好的卷积神经网络模型。此步骤除价值值计算方式不同外,其训练逻辑与训练得到初步训练好的卷积神经网络模型相同,此步骤中各电泳图像的价值值的计算方式为:需要通过优化后的主动学习查询策略计算各电泳图像对应的价值值,再基于此价值值进行排序。如输入数据输入期望模型变化策略计算得到电泳图像的价值值A,对应输入数据的新值输入期望模型变化策略得到价值值B,最终得到此电泳图像的价值值为A+B。优化后的不确定性采样的查询策略计算得到各电泳图像最终的价值值的方式同优化前后的期望模型变化策略。
七、基于最终训练好的卷积神经网络模型对待识别的电泳图像进行异常区域识别
将待识别的电泳图像输入最终训练得到的卷积神经网络模型得到的输出结果与将待识别的电泳图像合并,得到标注了异常区域的直观血清蛋白电泳图像。最终的输出电泳图像将显示出最终训练好的卷积神经网络模型标注的M蛋白分布区域,其分布区域主要分布在β1、β2、γ区域,与医生判断标准相符。再将机器标注的血清蛋白电泳图像与医务人员标注的血清蛋白电泳图像对比,最终训练好的卷积神经网络模型标注的M蛋白分布区域与医务人员标注的M蛋白分布区域类似,效果十分不错。此外还发现极少数医务人员认为是正常阴性样本,但实际却被机器标注出含有M蛋白分布区域的阳性病例。即在测试过程中机器标注了一些电泳图像,认为其含有M蛋白,但在医务人员的诊断中并无标注。在与医务人员确认这些电泳图像时,发现其中部分为疑似病例,有极少电泳图像为医务人员误诊病例(如图2)。这也印证了能通过图像识别这一疾病的专业人士十分少,且图像的辨别十分困难,而本发明方法的辨别效果不错且机器辨别十分迅速,在临床上可以为医务人员诊断提供参考,具有十分有前景的临床价值。
综上所述,本发明与传统的深度学习方法不同,引入主动学习策略与算法。得益于此,显著地减少了样本的标注代价,减轻了医学标注专家稀缺带来的医学标注与诊断的压力,同时也高效地筛选出高质量的样本进行标注,提升了模型训练的鲁棒性,提高了模型分类器的精度。即在血清蛋白电泳图像的诊断过程中,不仅减少了样本标注的时间代价与金钱代价,还提升了对病情的诊断精度。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (9)

1.一种针对血清蛋白电泳的异常区域检测方法,其特征在于,包括如下步骤:
步骤1:获取血清蛋白电泳图像集,其中,血清蛋白电泳图像集包括已标注含M蛋白的电泳图像和未含M蛋白的电泳图像;
步骤2:对血清蛋白电泳图像集中的各电泳图像进行分割处理得到电泳子条带,基于电泳子条带两两间的关联得到定义了格式的输入数据;
步骤3:建立主动学习查询策略;
步骤4:获取卷积神经网络模型,并基于主动学习查询策略和输入数据训练卷积神经网络模型,得到初步训练好的卷积神经网络模型;
步骤5:基于血清蛋白电泳图像集构建初步训练好的卷积神经网络模型的先验知识模块;
步骤6:基于先验知识模块优化步骤3得到的主动学习查询策略,并基于优化后的主动学习查询策略和输入数据训练初步训练好的卷积神经网络模型,得到最终训练好的卷积神经网络模型;
步骤7:将待识别的电泳图像输入最终训练好的卷积神经网络模型得到的结果与待识别的电泳图像合并,得到标注了异常区域的电泳图像;
所述步骤5的具体步骤为:
对血清蛋白电泳图像集中含M蛋白的电泳图像进行分割,分割后得到白蛋白Alb,α1、α2、β1、β2、γ六个电泳区域;
基于六个区域,医生在多年临床检验中发现含M蛋白的小区域为β1、β2和γ,β1、β2和γ都在电泳图像的后半部分;
得到含M蛋白的区域为β1、β2和γ以及电泳图像的后半部分,将β1、β2和γ以及电泳图像的后半部分作为重点关注区域,重点关注区域、电泳图像的前半部分及前半部分中的区域即是构建得到的先验知识。
2.根据权利要求1所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤1中的血清蛋白电泳图像集包括8万个以上的电泳图像。
3.根据权利要求2所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1:将血清蛋白电泳图像集中的各电泳图像横向进行等宽度分割,得到各电泳图像对应的多条电泳区域;
步骤2.2:将各电泳区域中的峰值组成对应各电泳区域的电泳子条带;
步骤2.3:基于各电泳图像的电泳子条带两两间的关联,得到定义了格式的输入数据。
4.根据权利要求3所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤2.3的具体步骤为:
步骤2.31:基于各电泳图像的电泳子条带,采用欧式距离求两两电泳子条带间的相似度,得到二维关联相似度矩阵,相似度公式为:
其中,/>、/>分别代表两个电泳子条带中的第/>个峰值,/>代表每个电泳子条带的峰值数,同时也是该电泳子条带的维数,/>代表了/>、/>两个电泳子条带间的相似度,该值越接近于0,代表相似度越高,相似度值越大说明两个电泳子条带间变化越大;
步骤2.32:将二维关联相似度矩阵作为定义了格式的输入数据。
5.根据权利要求4所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤3中的主动学习查询策略包括期望模型变化策略和不确定性采样的查询策略。
6.根据权利要求5所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤4的具体步骤为:
步骤4.1:获取卷积神经网络模型;
步骤4.2:将输入数据输入期望模型变化策略计算各电泳图像的价值值;
步骤4.3:将期望模型变化策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.4:基于步骤4.3选出的电泳图像训练卷积神经网络模型,若训练后的卷积神经网络模型的正确率达到要求,基于训练后的卷积神经网络模型执行步骤4.5,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.4;
步骤4.5:基于步骤4.4中未用于训练卷积神经网络模型的电泳图像的输入数据,将各输入数据输入不确定性采样的查询策略计算各电泳图像的价值值,不确定性采样的查询策略的公式为:
;其中,/>表示用于评价各电泳图像对卷积神经网络模型训练价值大小,即指价值值,/>表示取最大值,P表示概率,/>表示训练后的卷积神经网络模型的参数集合,/>表示在/>卷积神经网络模型中/>得到的概率,/>表示取最小值, />表示卷积神经网络模型预测概率最大的类别,y表示分类,x表示输入的某个电泳图像;
步骤4.6:将不确定性采样的查询策略计算出的价值值从高到低进行排序,排序后,选择大于给定阈值的价值值对应的电泳图像;
步骤4.7:基于步骤4.6选出的电泳图像训练训练后的卷积神经网络模型,若基于此训练后的卷积神经网络模型的正确率达到要求,得到初步训练后的卷积神经网络模型,否则,从未被选择的排序中选择大于重新给定的阈值的价值值对应的电泳图像,再重新执行步骤4.7。
7.根据权利要求6所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤4中的卷积神经网络模型为Unet网络模型。
8.根据权利要求1所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,所述步骤6的具体步骤为:
基于先验知识模块确定M蛋白落在各电泳图像的各个区域的概率;
根据概率大小给各区域分配一个参数,并基于参数得到对应区域的新值,公式为:
其中,/>表示各区域分配的参数/>与峰值/>相乘的结果,即第/>区域对应的新值,/>表示第/>区域的峰值,/>表示第/>区域的概率,/>表示给定的数值,取值范围为2-5的整数,/>表示给各区域分配的参数;
基于新值优化主动学习查询策略;
基于优化后的主动学习查询策略和输入数据训练初步训练好的卷积神经网络模型,得到最终训练好的卷积神经网络模型,在训练过程中,基于优化后的主动学习查询策略分别对各电泳图像进行价值值计算,再基于计算得到的价值值从高到低进行排序,排序后选择大于给定阈值的价值值对应的电泳图像进行训练。
9.根据权利要求8所述的一种针对血清蛋白电泳的异常区域检测方法,其特征在于,基于新值优化主动学习查询策略的具体为:
期望模型变化策略的优化:
各输入数据输入期望模型变化策略得到各输入数据的价值值为x1;
对应输入数据的各新值输入期望模型变化策略得到各新值的价值值为x2;
价值值x1加价值值x2的结果即为对应电泳图像的价值值;
不确定性采样的查询策略的优化:
各输入数据输入不确定性采样的查询策略得到各输入数据的价值值为x3;
对应输入数据的各新值输入不确定性采样的查询策略得到各新值的价值值为x4;
价值值x3加价值值x4的结果即为对应电泳图像的价值值。
CN202111113218.4A 2021-09-23 2021-09-23 一种针对血清蛋白电泳的异常区域检测方法 Active CN114219752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111113218.4A CN114219752B (zh) 2021-09-23 2021-09-23 一种针对血清蛋白电泳的异常区域检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111113218.4A CN114219752B (zh) 2021-09-23 2021-09-23 一种针对血清蛋白电泳的异常区域检测方法

Publications (2)

Publication Number Publication Date
CN114219752A CN114219752A (zh) 2022-03-22
CN114219752B true CN114219752B (zh) 2023-07-25

Family

ID=80695982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111113218.4A Active CN114219752B (zh) 2021-09-23 2021-09-23 一种针对血清蛋白电泳的异常区域检测方法

Country Status (1)

Country Link
CN (1) CN114219752B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1830004A (zh) * 2003-06-16 2006-09-06 戴纳皮克斯智能成像股份有限公司 凝胶电泳图像的分割和数据挖掘
CN106485698A (zh) * 2016-09-21 2017-03-08 上海理工大学 从凝胶电泳条带图像中获取dna色谱的方法
CN107653185A (zh) * 2017-11-10 2018-02-02 赵庆莲 一种精神分裂症易感基因检测系统
CN110009008A (zh) * 2019-03-18 2019-07-12 四川大学 基于提取的免疫固定电泳图特征对其进行自动分类的方法
CN110033449A (zh) * 2019-04-15 2019-07-19 苏州金唯智生物科技有限公司 电泳图的识别方法、装置、设备及存储介质
CN110443789A (zh) * 2019-08-01 2019-11-12 四川大学华西医院 一种免疫固定电泳图自动识别模型的建立及使用方法
CN113177548A (zh) * 2021-05-08 2021-07-27 四川大学 一种针对免疫固定电泳的重点区域识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902252B2 (en) * 2017-07-17 2021-01-26 Open Text Corporation Systems and methods for image based content capture and extraction utilizing deep learning neural network and bounding box detection training techniques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1830004A (zh) * 2003-06-16 2006-09-06 戴纳皮克斯智能成像股份有限公司 凝胶电泳图像的分割和数据挖掘
CN106485698A (zh) * 2016-09-21 2017-03-08 上海理工大学 从凝胶电泳条带图像中获取dna色谱的方法
CN107653185A (zh) * 2017-11-10 2018-02-02 赵庆莲 一种精神分裂症易感基因检测系统
CN110009008A (zh) * 2019-03-18 2019-07-12 四川大学 基于提取的免疫固定电泳图特征对其进行自动分类的方法
CN110033449A (zh) * 2019-04-15 2019-07-19 苏州金唯智生物科技有限公司 电泳图的识别方法、装置、设备及存储介质
CN110443789A (zh) * 2019-08-01 2019-11-12 四川大学华西医院 一种免疫固定电泳图自动识别模型的建立及使用方法
CN113177548A (zh) * 2021-05-08 2021-07-27 四川大学 一种针对免疫固定电泳的重点区域识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Christopher R. McCudden等.Recognition and management of common, rare, and novel serum protein electrophoresis and immunofixation interferences.Clinical Biochemistry.2018,第51卷72-79. *
Joel Smith等.A comparison between high resolution serum protein electrophoresis and screening immunofixation for the detection of monoclonal gammopathies in serum.Clinical Chemistry and Laboratory Medicine (CCLM).2017,第56卷(第2期),256-263. *
张强.可视化电泳滴定传感:模型、技术与装置.中国博士学位论文全文数据库 工程科技Ⅰ辑.2020,B014-241. *
张译元等.绵羊血清蛋白双向凝胶电泳技术的建立.新疆农业科学.2017,第54卷(第01期),190-196. *

Also Published As

Publication number Publication date
CN114219752A (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
Chen et al. CytoBrain: cervical cancer screening system based on deep learning technology
Duran-Lopez et al. PROMETEO: A CNN-based computer-aided diagnosis system for WSI prostate cancer detection
CN111325103B (zh) 一种细胞标注系统和方法
CN113454733A (zh) 用于预后组织模式识别的多实例学习器
CN102687007B (zh) 利用分层标准化切割的高处理量生物标志物分割
US11639936B2 (en) System, method, and article for detecting abnormal cells using multi-dimensional analysis
CN110097974A (zh) 一种基于深度学习算法的鼻咽癌远端转移预测系统
CN110111895A (zh) 一种鼻咽癌远端转移预测模型的建立方法
CN112150442A (zh) 基于深度卷积神经网络及多实例学习的新冠诊断系统
Xu et al. Using transfer learning on whole slide images to predict tumor mutational burden in bladder cancer patients
AU2021349226C1 (en) Critical component detection using deep learning and attention
CN112419396A (zh) 一种甲状腺超声视频自动分析方法与系统
CN115359264A (zh) 一种密集型分布的粘连细胞深度学习识别方法
CN116228759B (zh) 肾细胞癌类型的计算机辅助诊断系统及设备
Taher et al. Identification of lung cancer based on shape and color
CN114219752B (zh) 一种针对血清蛋白电泳的异常区域检测方法
Mridha et al. Deep learning in lung and colon cancer classifications
Gordon et al. Evaluation of uterine cervix segmentations using ground truth from multiple experts
CN116664932A (zh) 一种基于主动学习的结直肠癌病理组织图像分类方法
Taher et al. Morphology analysis of sputum color images for early lung cancer diagnosis
Yang et al. Leveraging auxiliary information from emr for weakly supervised pulmonary nodule detection
CN111783571A (zh) 一种宫颈细胞自动分类模型建立及宫颈细胞自动分类方法
Akram et al. Recognizing Breast Cancer Using Edge-Weighted Texture Features of Histopathology Images.
Negahbani et al. PathoNet: Deep learning assisted evaluation of Ki-67 and tumor infiltrating lymphocytes (TILs) as prognostic factors in breast cancer; A large dataset and baseline
TWI792751B (zh) 醫學影像專案管理平台

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant