CN111260658B - 一种用于图像分割的深度强化学习方法 - Google Patents
一种用于图像分割的深度强化学习方法 Download PDFInfo
- Publication number
- CN111260658B CN111260658B CN202010029217.0A CN202010029217A CN111260658B CN 111260658 B CN111260658 B CN 111260658B CN 202010029217 A CN202010029217 A CN 202010029217A CN 111260658 B CN111260658 B CN 111260658B
- Authority
- CN
- China
- Prior art keywords
- network
- training
- value
- reinforcement learning
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种用于图像分割的深度强化学习方法,包括以下步骤:1)采集若干相关图像作为训练图像集,并且对其进行预处理,提取出包含目标区域的感兴趣区域;2)针对要分割图像的特点,建立深度强化学习所需的状态值,动作值以及奖赏值;3)构建合适的深度学习网络模型作为深度强化学习方法中的值网络和目标网络;4)在深度网络训练过程中,利用多因素自学习学习曲线对经验池和样本采样大小进行动态调整;5)完成网络的训练,对测试样本进行运动轨迹的预测,从而得到最终的图像的分割结果。本发明提出了一种用于图像分割的深度强化学习方法,通过构建合理的深度强化学习模型,并且对其经验池和样本采样大小进行合理改进,能够有效提高模型训练效率,获得较为精确的分割结果,具有较强的稳定性和应用性。
Description
技术领域
本发明涉及图像处理和智能方法技术领域,具体为一种用于图像分割的深度强化学习方法。
背景技术
深度强化学习是一种基于动态规划求解框架的无模型马尔可夫决策过程处理方法,通过与环境的交互来指导智能体在不同的状态下进行收益最大化的动作,从而得到最优决策。由于其具有智能、有效解决高维状态输入、数据可重用等特点,目前已经广泛应用于智能控制、策略分析、图像处理等领域。然而,传统的深度强化学习方法的经验池大小以及采样大小是固定的,没有考虑到智能体随着训练的进行其学习能力也在不断增强的特性,因此导致在模型训练前期出现效率较低的现象。因此,本专利采用多因子学习曲线动态调整经验池的大小和样本采样大小,提出了一种用于图像分割的深度强化学习方法。
特别的,该方法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
发明内容
本发明为了克服现有技术存在的不足之处,提供了一种用于图像分割的深度强化学习方法。所述方法将图像分割方法转换成目标像素的运动状态估计问题,采用多因素自学习曲线原理动态改变经验池大小和采样样本大小能够有效提高方法效率,得到较为准确的目标状态估计,从而实现最终的图像分割。
本发明采用的技术方案是:一种用于图像分割的深度强化学习方法,包括以下步骤:
1、采集若干相关图像作为训练图像集,并且对其进行预处理,提取出包含目标区域的感兴趣区域。
2、针对要分割图像的特点,构建深度强化学习所需的状态值,动作值以及奖赏值。
3、构建合适的深度学习网络模型作为深度强化学习方法中的值网络和目标网络,比如深度信念网络,堆栈自动编码网络等,并输入样本图像对网络进行训练。
4、根据多因子学习曲线动态调节经验池和样本采样大小,通过图像分割效果来调节深度神经网络的的参数,最终确定网络的模型。
5、深度强化学习模型确定之后,将待分割的图像以同样的方式构建测试样本,通过训练过的深度强化学习模型得出测试样本的分割结果。
所述步骤2具体包括:
21)针对要分割图像的特点,以图像感兴趣区域的每一列为研究对象,构建深度强化学习模型所需要的状态值,动作值,奖赏值。
22)状态值的确定:选取图像每一列某一像素的领域灰度值向量组成状态值。
23)动作值的确定:深度强化学习智能体以图像的顶部或者底部为起始位置,根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚,并依据当前状态做出向上或者向下运动改变当前的状态。
24)奖赏值的确定:依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值,奖赏值可以由图像当前的分割效果与人工最佳分割版本进行对比得出,与人工版本符合率高给出较高的奖赏值,符合率低的给出相应的惩罚值。
所述步骤3具体包括:
31)构建合适的深度学习网络模型作为深度强化学习方法中的值网络和目标网络,比如深度信念网络,堆栈自动编码网络等。其中,深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致,输出层的节点数与智能体的动作总数量相一致,隐含层的层数以及各层的节点数根据图像分割的效果来确定。
32)预训练阶段:从训练图片中获取训练样本并将训练样本储存到经验池中,从经验池中随机抽取部分训练样本,将训练样本输入到输入层,通过逐层训练的方式对各层结构进行训练,低一层隐含层输出作为高一层的输入。
33)微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调。
34)目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步。
35)根据图像分割效果调节和优化网络参数,完成深度神经网络的训练。最后,根据训练好的深度强化学习模型对测试样本进行最终的分割。
所述步骤4具体包括:
41)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
42)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
R表示经验池的大小,N表示样本采样大小,k表示方法的首次学习效果,一般取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,C表示目标网络更新步数间隔,。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
1)建立了针对图像分割的深度强化学习模型所需的状态值,动作值以及奖赏值;2)采用多因子学习曲线动态的调节经验池以及采样样本的大小,提高方法的效率;3)该深度强化学习方法能够取得较为准确的图像分割结果。特别的,该方法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
附图说明
图1是本发明的方法流程图;
图2是基于深度强化学习方法的免疫层析试条图像分割结果图;
图3是基于深度强化学习方法的免疫层析试条定量检测实例结果图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
下面结合附图和在基于图像的免疫层析试条定量检测上的具体实施例对本发明做进一步说明,如图1所示,一种用于图像分割的深度强化学习方法,包括以下步骤:
1、采集若干不同浓度样品液的免疫层析试条图像作为训练图像集,并对其进行预处理,分别提取出包含检测线和质控线的目标区域的感兴趣区域,并且将每一张训练图像被分为两张大小均为115*270的子图像。
2、针对要分割图像的特点,构建深度强化学习所需的状态值,动作值以及奖赏值。
21)针对要分割图像的特点,以子图像的每一列为研究对象,构建深度强化学习模型所必需的状态值,动作值,奖赏值。
22)确定状态量,选取图像每一列某一像素的领域灰度值向量组成状态值,比如领域大小选取为3,那么代表状态的输入向量维度为9。对于超出窗口的像素,采用镜像方法进行补充。
23)确定动作量:对于每一个子图像而言,深度强化学习智能体以顶端或者低端的第一个像素为起始点,根据当前状态与目标状态的差异向上(以低端为起始点)或者向下(以顶端为起始点)运动去改变状态。因此,动作的定义可依据下式:
A表示动作,当A为0时代表强化学习智能体停止运动,当A为1时表示智能体向上或者向下运动。
24)确定奖赏量:借助人工最佳分割版本评估当前分割的好坏,如果强化学习智能体当前的状态与目标状态符合率高于0.9,给与一个高的奖赏值,如果符合率低于0.9,给予一个负的惩罚值。奖赏值或惩罚值的定义如下:
Cr表示当前状态的像素领域与目标像素领域之间的重合率,pf和pf|opt分别表示当前像素领域中的前景区域和目标像素领域中的前景区域,pb和pf|opt分别表示当前像素中的背景区域和目标像素中的背景区域。R表示奖赏值。
取8张不同浓度的图像作为训练集,对于每一张子图像,根据以上定义21)构建状态输入量,并且依据公式(4)和(5)计算出每个状态所对应的奖赏值。
3、构建合适的深度学习网络模型作为深度强化学习方法中的值网络和目标网络,选取深度信念网络,输入训练样本进行训练,并且根据图像分割效果来调节网络参数,从而确定深度网络模型。
31)构建基于受限玻尔兹曼机的深信度神经网络模型,包括一个输入层、两个隐含层和一个输出层,其中,输入层节点数为9,隐含层节点数均为20,输出层节点数为2;训练样本获取:通过深度强化学习智能体与不断环境交互,得到网络训练样本,并将其储存至经验池中,后续训练中,依据公式(1)和(2)从经验池中选取训练样本,初始的经验池大小设置为100,初始样本采样大小设置为80。
32)预训练阶段:将训练样本输入到第1层受限玻尔兹曼机的可见层,通过逐层训练的方式对各层受限玻尔兹曼机进行训练,低一层受限玻尔兹曼机隐含层输出作为高一层受限玻尔兹曼机可见层的输入,每层受限玻尔兹曼机通过对比散度方法确定模型参数θ=(wij,ai,bj)。
33)微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调。
34)目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步,目标网络的更新周期设置为20。
35)根据图像分割效果调节和优化网络参数,完成深信度神经网络的训练,参数确定如下:训练阶段学习率为0.1,奖赏折扣率为0.9。
4、根据多因子学习曲线动态调节经验池和样本采样大小,通过图像分割效果来调节深度神经网络的的参数,最终确定网络的模型。
41)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
42)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
R表示经验池的大小,N表示样本采样大小,k表示方法的首次学习效果,一般取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,C表示目标网络更新步数间隔。
5、将待分割图像以同种方式组建为测试样本,输入训练好的深度强化学习模型得到初始的最终的分割结果Y。
根据得到的图像分割结果计算待测样品液试条图像的特征量,根据样品液浓度与特征量之间的特定关系,得出待测物样品液的定量检测浓度值。
为了验证本发明方法在图像分割领域的效果,将其应用到基于图像的免疫层析试条定量检测上,对不同浓度的人绒毛膜促性腺激素样品液纳米金免疫层析试条图像进行分割,结果如图2、3所示。图2中左侧为试条的检测窗口,右侧为通过本方法的图像分割结果,可以看出,本方法能够取得较准确的分割效果。图3为根据图像分割的结果计算特征量,通过最小均方误差法拟合得到人绒毛膜促性腺激素特征量直线,明显地,拟合直线的相关度很好,相关系数为0.973,从而验证了本方法的准确性和应用性。
本发明提出的用于图像分割的深度强化学习方法,1)建立了针对图像分割的深度强化学习模型所需的状态值,动作值以及奖赏值;2)采用多因子学习曲线动态的调节经验池以及采样样本的大小,提高方法的效率;3)该深度强化学习方法能够取得较为准确的图像分割结果。特别的,该方法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
Claims (2)
1.一种用于图像分割的深度强化学习方法,其特征在于,包括:
S1:采集若干相关图像作为训练图像集,并且对其进行预处理,提取出包含目标区域的感兴趣区域;
S2:针对要分割图像的特点,建立深度强化学习所需的状态值,动作值以及奖赏值;
S3:构建深度学习网络模型作为深度强化学习方法中的值网络和目标网络;
S4:在深度网络训练过程中,利用多因素自学习曲线对经验池和样本采样大小进行动态调整;
S5:完成网络的训练,对测试样本进行运动轨迹的预测,从而得到最终的图像的分割结果;
所述步骤S2中具体包括:
S21:针对要分割图像的特点,以图像感兴趣区域的每一列为研究对象,构建深度强化学习模型所需要的状态值,动作值,奖赏值;
S22:状态值的确定:选取图像每一列某一像素的领域灰度值向量组成状态值;
S23:动作值的确定:深度强化学习智能体以图像的顶部或者底部为起始位置,根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚,并依据当前状态做出向上或者向下运动改变当前的状态;
S24:奖赏值的确定:依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值,奖赏值由图像当前的分割效果与人工最佳分割版本进行对比得出,与人工版本符合率高给出相应的奖赏值,符合率低的给出相应的惩罚值;
所述步骤S4中具体包括:
S41:在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
S42:在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
R表示经验池的大小,N表示样本采样大小,k表示方法的首次学习效果,取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,C表示目标网络更新步数间隔。
2.根据权利要求1所述的一种用于图像分割的深度强化学习方法,其特征在于,所述步骤S3中具体包括:
S31:构建深度学习网络模型作为深度强化学习方法中的值网络和目标网络,深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致,输出层的节点数与智能体的动作总数量相一致,隐含层的层数以及各层的节点数根据图像分割的效果来确定;
S32:预训练阶段从训练图片中获取训练样本并将训练样本储存到经验池中,从经验池中随机抽取部分训练样本,将训练样本输入到输入层,通过逐层训练的方式对各层结构进行训练,低一层隐含层输出作为高一层的输入;
S33:微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调;
S34:目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步;
S35:根据图像分割效果调节和优化网络参数,完成深度神经网络的训练;最后,根据训练好的深度强化学习模型对测试样本进行最终的分割。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029217.0A CN111260658B (zh) | 2020-01-10 | 2020-01-10 | 一种用于图像分割的深度强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010029217.0A CN111260658B (zh) | 2020-01-10 | 2020-01-10 | 一种用于图像分割的深度强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111260658A CN111260658A (zh) | 2020-06-09 |
CN111260658B true CN111260658B (zh) | 2023-10-17 |
Family
ID=70948653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010029217.0A Active CN111260658B (zh) | 2020-01-10 | 2020-01-10 | 一种用于图像分割的深度强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111260658B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112529160B (zh) * | 2020-12-09 | 2024-08-23 | 南京大学 | 一种摄像器材记录的视频图像数据的高维模仿学习方法 |
TWI775265B (zh) * | 2021-01-05 | 2022-08-21 | 財團法人資訊工業策進會 | 強化式學習之訓練系統與訓練方法 |
CN116189166B (zh) * | 2023-02-07 | 2024-08-27 | 台州勃美科技有限公司 | 一种仪表读数方法、装置及机器人 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654203A (zh) * | 2015-12-31 | 2016-06-08 | 西北农林科技大学 | 一种基于支持向量机的黄瓜全程光合速率预测模型及建立方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107274408A (zh) * | 2017-06-16 | 2017-10-20 | 厦门大学 | 一种基于新型粒子滤波算法的图像分割方法 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
-
2020
- 2020-01-10 CN CN202010029217.0A patent/CN111260658B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105654203A (zh) * | 2015-12-31 | 2016-06-08 | 西北农林科技大学 | 一种基于支持向量机的黄瓜全程光合速率预测模型及建立方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107274408A (zh) * | 2017-06-16 | 2017-10-20 | 厦门大学 | 一种基于新型粒子滤波算法的图像分割方法 |
WO2019144575A1 (zh) * | 2018-01-24 | 2019-08-01 | 中山大学 | 一种快速行人检测方法及装置 |
CN109933086A (zh) * | 2019-03-14 | 2019-06-25 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
Non-Patent Citations (3)
Title |
---|
Nianyin Zeng et al . Image-Based Quantitative Analysis of Gold Immunochromatographic Strip via Cellular Neural Network Approach.《IEEE TRANSACTIONS ON MEDICAL IMAGING》.2014,全文. * |
张红.基于深度学习与粒子群优化算法的免疫层析试条定量检测研究.中国优秀硕士学位论文全文数据库 (医药卫生科技辑).2019,全文. * |
曾念寅 .基于深度学习的金免疫层析试条定量检测方法.《中国卫生信息管杂志》.2018,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111260658A (zh) | 2020-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111260658B (zh) | 一种用于图像分割的深度强化学习方法 | |
CN108985334B (zh) | 基于自监督过程改进主动学习的通用物体检测系统及方法 | |
CN109034245B (zh) | 一种利用特征图融合的目标检测方法 | |
CN109993082A (zh) | 卷积神经网络道路场景分类与道路分割方法 | |
CN107229914B (zh) | 一种基于深度q学习策略的手写数字识别方法 | |
CN110532900A (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN108830196A (zh) | 基于特征金字塔网络的行人检测方法 | |
CN114299380A (zh) | 对比一致性学习的遥感图像语义分割模型训练方法及装置 | |
CN109034190A (zh) | 一种动态选择策略的主动样本挖掘的物体检测系统及方法 | |
CN113128620B (zh) | 一种基于层次关系的半监督领域自适应图片分类方法 | |
CN108846413A (zh) | 一种基于全局语义一致网络的零样本学习方法 | |
CN116563738A (zh) | 一种基于不确定性的多阶段引导的小目标半监督学习检测方法 | |
CN109919302B (zh) | 一种用于图像的神经网络的训练方法及装置 | |
CN116524062B (zh) | 一种基于扩散模型的2d人体姿态估计方法 | |
CN114581486A (zh) | 基于全卷积孪生网络多层特征的模板更新目标跟踪算法 | |
CN116110022A (zh) | 基于响应知识蒸馏的轻量化交通标志检测方法及系统 | |
CN113610035A (zh) | 一种基于改进编解码网络的水稻分蘖期杂草分割识别方法 | |
CN113744195A (zh) | 一种基于深度学习的hRPE细胞微管自动检测方法 | |
CN110096976A (zh) | 基于稀疏迁移网络的人体行为微多普勒分类方法 | |
CN111161244A (zh) | 基于FCN+FC-WXGBoost的工业产品表面缺陷检测方法 | |
CN117152503A (zh) | 一种基于伪标签不确定性感知的遥感图像跨域小样本分类方法 | |
CN115861281A (zh) | 一种基于多尺度特征的免锚框表面缺陷检测方法 | |
CN115587964A (zh) | 一种基于熵筛选的伪标签交叉一致性变化检测方法 | |
CN116977710A (zh) | 一种遥感图像长尾分布目标半监督检测方法 | |
CN111832479A (zh) | 基于改进的自适应锚点r-cnn的视频目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |