CN114022718B - 消化系统病理图像识别方法、系统及计算机存储介质 - Google Patents

消化系统病理图像识别方法、系统及计算机存储介质 Download PDF

Info

Publication number
CN114022718B
CN114022718B CN202210013379.4A CN202210013379A CN114022718B CN 114022718 B CN114022718 B CN 114022718B CN 202210013379 A CN202210013379 A CN 202210013379A CN 114022718 B CN114022718 B CN 114022718B
Authority
CN
China
Prior art keywords
image data
value
matrix
original
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210013379.4A
Other languages
English (en)
Other versions
CN114022718A (zh
Inventor
张楚康
张皓
黄志威
明繁华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ankon Technologies Co Ltd
Original Assignee
Ankon Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ankon Technologies Co Ltd filed Critical Ankon Technologies Co Ltd
Priority to CN202210013379.4A priority Critical patent/CN114022718B/zh
Publication of CN114022718A publication Critical patent/CN114022718A/zh
Application granted granted Critical
Publication of CN114022718B publication Critical patent/CN114022718B/zh
Priority to PCT/CN2023/071024 priority patent/WO2023131301A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明揭示了一种消化系统病理图像识别方法、系统及计算机存储介质,所述方法包括:获取待测图像数据;构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值;筛选预测概率值符合预设评估条件的子区域图像数据,形成中间特征序列;构建循环神经网络形成并加载第二学习模型,以第二模型参数组对中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及预测子区域图像数据的最终概率值。本发明提供的消化系统病理图像识别方法,能够实现减少输入数据量、利用序列连贯性进行核查,提高分类准确度的效果。

Description

消化系统病理图像识别方法、系统及计算机存储介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种消化系统病理图像识别方法、系统及计算机存储介质。
背景技术
如何能高效准确分析病理影像数据,特别是消化道恶性肿瘤的病理图像数据,一直是医学领域备受关注的课题。当前针对病理影像的人工智能应用大致可以分为定性诊断和病变识别两个大方向。由于计算负载能力限制,建模思路通常配置为基于卷积神经网络(CNN,Convolutional Neural Network),特别是加载有监督学习(Supervised Learning)模型或弱监督学习(Weakly Supervised Learning)模型,通过医学专业人员向模型中输入病理诊断数据进行学习训练后,应用于新输入病理图像的识别判断。
但基于卷积神经网络固有的缺陷,其输出结果严重依赖于输入数据,模型参数调整需要依赖大量样本训练,充分训练对处理器性能的要求高,训练不充分的情况下会导致输出判断结果误差大。即使在其后方叠加融合模型,其判断结果仍然是取决于卷积神经网络的输出,难以通过加权融合抵消此种不准确性,自然会给医学专业人员的病理识别判断带来困扰。
发明内容
本发明的目的之一在于提供一种消化系统病理图像识别方法,以解决现有技术中病理图像识别过程对性能要求过高,以及判断结果不准确的技术问题。
本发明的目的之一在于提供一种消化系统病理图像识别系统。
本发明的目的之一在于提供一种计算机存储介质。
为实现上述发明目的之一,本发明一实施方式提供一种消化系统病理图像识别方法,包括:获取待测图像数据;构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对所述待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值;筛选所述预测概率值符合预设评估条件的子区域图像数据,构成中间图像数据集合,并根据所述第一模型参数组提取所述中间图像数据集合的特征向量,形成中间特征序列;构建循环神经网络形成并加载第二学习模型,以第二模型参数组对所述中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及所述预测子区域图像数据的所述最终概率值。
作为本发明一实施方式的进一步改进,所述第一学习模型为弱监督学习模型,所述第二学习模型为长短期记忆学习模型;所述方法还包括:去除所述第一学习模型的全连接层形成特征提取模型,并根据第一模型参数组提取所述中间图像数据集合的特征向量,形成中间特征序列。
作为本发明一实施方式的进一步改进,所述方法还包括:获取原始图像数据,计算所述原始图像数据的染色向量矩阵和染色密度矩阵,得到原始向量矩阵和原始密度矩阵,并计算所述原始密度矩阵的最高分位值作为最高原始密度数据;根据最高基准密度数据和所述最高原始密度数据计算迁移系数,并利用所述迁移系数更新所述原始密度矩阵,得到更新密度矩阵;根据基准向量矩阵和更新密度矩阵,计算得到待测图像矩阵;其中,所述基准向量矩阵为至少一组高染色质量图像数据的染色向量矩阵,所述最高基准密度数据为所述高染色质量图像数据的染色密度矩阵的最高分位值。
作为本发明一实施方式的进一步改进,所述方法具体包括:获取原始图像数据,对所述原始图像数据执行色彩空间转换,并删除转换后原始图像数据中小于预设原始阈值的元素,形成原始光密度矩阵;对所述原始光密度矩阵逐行独立计算协方差,形成原始协方差矩阵,根据所述原始协方差矩阵计算特征向量,并进行元素筛选,得到原始特征矩阵;根据所述原始特征矩阵对所述原始光密度矩阵执行投影,计算投影后的原始光密度矩阵的反正切值,得到原始反正切矩阵,并提取所述原始反正切矩阵中的最高分位反正切值和最低分位反正切值;计算所述最高分位反正切值和所述最低分位反正切值分别对应的最高参数向量和最低参数向量,并根据所述原始特征矩阵,分别计算对应的第一染色向量和第二染色向量;根据所述第一染色向量和所述第二染色向量的元素值情况,对所述第一染色向量和所述第二染色向量进行排列,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵。
作为本发明一实施方式的进一步改进,所述第一染色向量为所述原始特征矩阵与所述最低参数向量的点积,所述第二染色向量为所述原始特征矩阵与所述最高参数向量的点积;所述方法具体包括:判断所述第一染色向量的首元素数值是否大于所述第二染色向量的首元素数值;若大于,则将所述第一染色向量排列于所述第二染色向量的左侧,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵;若小于等于,则将所述第二染色向量排列于所述第一染色向量的左侧,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵;所述方法还包括:以所述原始向量矩阵为标准,对所述原始光密度矩阵执行套索回归,生成所述染色密度矩阵,得到所述原始密度矩阵。
作为本发明一实施方式的进一步改进,所述方法还包括:遍历所述待测图像矩阵,按照预设尺寸的滑动窗口对所述待测图像矩阵执行分割,得到所述待测图像矩阵的至少两组子区域图像数据,以及所述子区域图像数据在所述待测图像矩阵中的相对位置数据;遍历所述子区域图像数据的所有像素的灰度数据,计算所述灰度数据中数值小于预设灰度阈值的像素数量与像素总数量的比值,得到所述子区域图像数据的组织区域占比值;根据符合预设处理条件的子区域图像数据形成所述待测图像数据,其中,所述预设处理条件为:所述子区域图像数据的组织区域占比值大于预设占比阈值。
作为本发明一实施方式的进一步改进,所述方法具体包括:获取原始图像数据,构建与所述原始图像数据具有相同尺寸的表层图像模板;根据所述最终概率值和RGB映射曲线,映射得到所述最终概率值对应的伪彩数据,并按照所述预测子区域图像数据的相对位置数据,分别将对应的伪彩数据映射至所述表层图像模板中,生成预测概率分布图像;设定所述预测概率分布图像具有第一权重,设定所述原始图像数据具有第二权重,将所述预测概率分布图像和所述原始图像数据进行加权混合,生成并输出病理分析图像;其中,所述相对位置数据记载所述预测子区域图像数据在所述原始图像数据中的相对位置,所述第一权重和所述第二权重的取值范围为0至1,且所述第一权重和所述第二权重之和等于1。
作为本发明一实施方式的进一步改进,所述方法还包括:获取多组学习图像数据,并对所述学习图像数据执行放大倍率标准化、颜色迁移标准化、图像矩阵分割筛选,得到多组样本图像数据;按照预设比例将所述样本图像数据划分为第一训练集和第一验证集;构建卷积神经网络形成并加载弱监督学习模型,调用激活函数对第一训练集中的多个第一训练图像执行遍历推理,并输出第一训练图像中的多个训练子区域图像数据对应的多个训练推理概率值;按照所述训练推理概率值对所述训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第一输入图像数据;将所述第一输入图像数据及对应第一训练图像的预设诊断分类标签,输入所述弱监督学习模型,训练得到第一初级参数组,计算所述训练推理概率值与所述诊断分类标签的二元交叉熵,作为第一初级参数组的一阶损失函数,并以所述第一初级参数组更新所述弱监督学习模型;迭代训练直至一阶损失函数值收敛至预设损失区间,生成多项第一初级参数组、对应的一阶损失函数值以及对应的第一输入图像数据;分别加载所述多项第一初级参数组下的多个弱监督学习模型,对所述第一验证集中的第一验证图像执行遍历推理,并输出第一验证图像中的多个验证子区域图像数据对应的多个验证推理概率值;对所述多个验证推理概率值进行筛选,得到最高验证推理概率值作为所述第一验证图像的综合推理概率值,并计算所述综合推理概率值与所述第一验证图像的诊断分类标签的二元交叉熵,作为该第一初级参数组的二阶损失函数;综合评价多项第一初级参数组的二阶损失函数值,得到第一损失函数值,将所述第一损失函数值对应的第一初级参数组作为所述第一模型参数组。
作为本发明一实施方式的进一步改进,所述方法还包括:获取所述第一模型参数组对应的第一输入图像数据;去除所述弱监督学习模型的全连接层形成特征提取模型,根据所述第一模型参数组提取所述第一输入图像数据的特征向量,形成学习特征序列;按照预设比例将所述学习特征序列划分为第二训练集和第二验证集;构建循环神经网络形成并加载长短期记忆学习模型,调用激活函数对第二训练集中的多个第二训练图像执行遍历推理,并输出第二训练图像中的多个训练子区域图像数据对应的多个训练推理概率值;按照所述训练推理概率值对所述训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第二输入图像数据;将所述第二输入图像数据及对应第二训练图像的预设诊断分类标签,输入所述长短期记忆学习模型,训练得到第二初级参数,计算所述训练推理概率值与所述诊断分类标签的二元交叉熵,作为第二初级参数组的一阶损失函数,并以所述第二初级参数组更新所述长短期记忆学习模型;加载所述第二初级参数组下的长短期记忆学习模型,对所述第二验证集中的第二验证图像执行遍历推理,并输出第二验证图像中的多个验证子区域图像数据对应的多个验证推理概率值;对所述多个验证推理概率值进行筛选,得到最高验证推理概率值作为所述第二验证图像的综合推理概率值,并计算所述综合推理概率值与所述第二验证图像的诊断分类标签的二元交叉熵,作为该第二初级参数组的二阶损失函数;迭代训练和验证直至二阶损失函数值收敛至预设损失区间,生成多项第二初级参数组、对应的一阶损失函数值以及对应的第二输入图像数据;综合评价多项第二初级参数组的二阶损失函数值,得到第二损失函数值,将所述第二损失函数值对应的第二初级参数组作为所述第二模型参数组。
作为本发明一实施方式的进一步改进,所述方法具体包括:获取所述中间特征序列,形成多个节点;根据遗忘门权重矩阵、当前节点值、上一节点隐藏层输出值、遗忘门偏置向量,进行sigmoid激活,计算遗忘门输出值;根据输入门权重矩阵、当前节点值、上一节点隐藏层输出值、输入门偏置向量,进行sigmoid激活,计算节点更新值;根据候选状态权重矩阵、当前节点值、上一节点隐藏层输出值、候选状态偏置向量,进行tanh激活,计算候选状态更新值;根据遗忘门输出值、上一节点状态值、节点更新值和候选状态更新值计算当前节点状态值;根据输出门权重矩阵、当前节点值、上一节点隐藏层输出值、输出门偏置向量,进行sigmoid激活,计算输出门输出值;对当前节点状态值进行tanh激活,并根据激活后的节点状态值和输出门输出值计算当前节点隐藏层输出值;以所述隐藏层输出值作为所述中间特征序列的最终概率值并输出。
为实现上述发明目的之一,本发明一实施方式提供一种消化系统病理图像识别系统,配置为执行上述任一种技术方案所述的消化系统病理图像识别方法。
为实现上述发明目的之一,本发明一实施方式提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种技术方案所述的消化系统病理图像识别方法。
与现有技术相比,本发明提供的消化系统病理图像识别方法,依次加载卷积神经网络和循环神经网络形成的学习模型,对待测图像数据进行两次分类处理,循环神经网络的输入数据是按照卷积神经网络得到的多个预测概率值排序后筛选形成的,能够进一步利用序列特征连贯性进行错判核查,提高识别分类的准确度,真正实现辅助医学专业人员进行病理判断的效果。同时将卷积神经网络前置、循环神经网络后置,卷积神经网络构建弱监督学习模型可以控制模型的输入数据量,循环神经网络选用长短期记忆模型,长短期记忆模型相对于传统循环神经网络可以缓解长期依赖性。
附图说明
图1是本发明一实施方式中消化系统病理图像识别系统结构原理图;
图2是本发明一实施方式中消化系统病理图像识别方法的步骤原理图;
图3是本发明另一实施方式中消化系统病理图像识别方法的步骤原理图;
图4是本发明一实施方式中消化系统病理图像识别方法的步骤31的第一实施例的步骤原理图;
图5是本发明一实施方式中消化系统病理图像识别方法的步骤311的一具体实施例的步骤原理图;
图6是本发明一实施方式中消化系统病理图像识别方法的步骤3115的一具体实施例的步骤原理图;
图7是本发明一实施方式中消化系统病理图像识别方法的步骤31的第二实施例的步骤原理图;
图8是本发明再一实施方式中消化系统病理图像识别方法的步骤原理图;
图9是本发明一实施方式中消化系统病理图像识别方法的步骤21的一具体实施例的部分步骤原理图;
图10是本发明一实施方式中消化系统病理图像识别方法的步骤21的一具体实施例的另一部分步骤原理图;
图11是本发明一实施方式中消化系统病理图像识别方法的步骤22的一具体实施例的部分步骤原理图;
图12是本发明一实施方式中消化系统病理图像识别方法的步骤22的一具体实施例的另一部分步骤原理图;
图13是本发明一实施方式中消化系统病理图像识别方法的步骤34的一具体实施例的步骤原理图。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
消化系统是人体八大系统之一,其内在疾病具有病症突出而体征不明显的性质,因此对消化系统疾病的检查,特别是对当今多发的消化道恶性肿瘤(例如胃癌)的检查判断,是医学领域关注的重点问题。消化系统恶性肿瘤的诊断排查流程中,基于活检的组织病理学切片检查是恶性肿瘤诊断中不可缺少的环节和标准,如何避免检查效率完全受限于病理医师的人数和经验水平,实现充分利用计算机辅助诊断(CAD,Computer AidedDiagnosis)相关技术进行病理图像中病灶区域位置信息的像素级判断,是本领域亟待解决的技术问题,也是本发明的目的之一。
本发明一实施方式为了解决上述技术问题及潜在或相关的其他问题,提供了一种计算机存储介质,设置于计算机中并存储有计算机程序,所述计算机存储介质可以是计算机能够存取的任何可用介质,或可以是包含一个或多个可用介质集成的服务器、数据中心等存储设备。所述可用介质可以是例如软盘、硬盘、磁带等的磁性介质,或例如DVD(DigitalVideo Disc,高密度数字视频光盘)等的光介质,或例如SSD(Solid State Disk,固态硬盘)等的半导体介质。所述计算机程序被计算机中任一处理器执行时,实施一种消化系统病理图像识别方法,以至少执行:待测图像数据的获取、卷积神经网络的构建、第一学习模型的形成和加载、子区域图像数据的筛选、中间特征序列的形成、循环神经网络的构建、第二学习模型的形成和加载、预测子区域图像数据的生成和输出,以及最终概率值的生成和输出。
本发明一实施方式进一步提供一种如图1所示的消化系统病理图像识别系统100,消化系统病理图像识别系统100包括数据获取模块10、一阶神经网络11和二阶神经网络12。其中,数据获取模块10用于获取待测图像数据,一阶神经网络11用于构建卷积神经网络并执行相关数据的一阶处理,二阶神经网络12用于构建循环神经网络并执行相关数据的二阶处理。
具体地,一阶神经网络11优选配置为卷积神经网络,可以包括第一学习模块111、第一存储模块112、第一筛选模块113和模型重构模块114,二阶神经网络12优选配置为循环神经网络,可以具体包括第二学习模块121、第二存储模块122和第二筛选模块123。其中,第一学习模块111用于形成并加载第一学习模型,调用第一存储模块112中存储的第一模型参数组对待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值并存储至第一存储模块112。
第一筛选模块113用于筛选第一存储模块112中存储的预测概率值,得到符合预设评估条件的对应子区域图像数据,并构成中间图像数据集合。模型重构模块114用于根据第一模型参数执行模型重构,生成特征提取器,并利用特征提取器提取中间图像数据集合的特征向量,形成中间特征序列;优选地,模型重构模块114可以进一步用于对第一学习模块111中搭载的第一学习模型执行重构,生成搭载有第一模型参数的特征提取器。当然,上述第一筛选模块113和模型重构模块114也可以独立于一阶神经网络11和二阶神经网络12而设置,只需要使存在数据交换的模块间配置为具有连接关系即可实现预期技术效果。
第二学习模块121用于形成并加载第二学习模型,调用第二存储模块122中存储的第二模型参数,对模型重构模块114输出的(也可以是中转存储于第二存储模块122中的)中间特征序列执行遍历预测,得到多个子区域图像数据对应的多个最终概率值并存储至第二存储模块122。第二筛选模块123用于筛选第二存储模块122中存储的最终概率值,得到符合预设输出条件的对应子区域图像数据,生成并输出预测子区域图像数据及预测子区域图像数据对应的最终概率值。
当然,本发明提供的消化系统病理图像识别系统100,还可以配置为包括预处理模块和/或模型训练模块。其中,预处理模块可以配置为设置于数据获取模块10和一阶神经网络11之间,且用于获取任一种图像数据(可以是原始图像数据和学习图像数据中的一种),并对该图像数据执行放大倍率标准化、颜色迁移标准化、图像矩阵分割筛选等步骤中的至少一种,以生成多组处理后的图像数据(可以是待测图像数据和样本图像数据中的一种)。
模型训练模块可以配置为设置于数据获取模块10和一阶神经网络11之间,且分别与一阶神经网络11和二阶神经网络12连接。当然,在消化系统病理图像识别系统100设置有预处理模块的实施方式中,模型训练模块可以进一步配置为设置于预处理模块和一阶神经网络11之间。模型训练模块进一步配置为,用于根据学习图像数据和样本图像数据其中之一建立训练集和验证集,将训练集和验证集依次或分别导入一阶神经网络11和/或二阶神经网络12执行迭代训练,并以一阶神经网络11和二阶神经网络12的推理准确度等评价数据为基准,计算得到最优的第一模型参数组和第二模型参数组并存储。
继续如图2所示,本发明一实施方式提供一种消化系统病理图像识别方法,该方法对应的程序或指令,可以搭载于上述计算机存储介质和/或上述消化系统病理图像识别系统100中,以实现消化系统病理图像识别的技术效果,所述方法具体可以包括下述步骤。
步骤31,获取待测图像数据。
所述待测图像数据可以指代病理检测后生成的多组消化系统病理图像,也可以指代上述多组消化系统病理图像中的一组。消化系统病理图像可以以图像矩阵数据的形式作为待测图像数据输入,也可以以普通影像文件的形式作为待测图像数据输入。消化系统病理图像所包含的病理部位可以是经过染色处理后,病变部位和非病变部位可以通过色度相互完全或细微程度区分的,也可以是经过其他形式的处理后,病变部位和非病变部位可以通过其他例如灰度、深度、特殊像素分布差异相互完全或细微程度区分的。待测图像数据也可以是根据消化系统病理图像进行尺寸、颜色、分区面积调整后生成的,当然也可以是根据消化系统病理图像直接格式转换或不转换的原始内容生成的。优选地,上述病理部位经过均匀、清晰且无明显污迹的染色处理,上述消化系统病理图像配置为*.svs和/或*.kfb格式。
步骤32,构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值。
所述分区域遍历预测,可以是由卷积神经网络中的第一学习模型或其他结构按照预设步长、滑动窗口或分割模板划分后,逐个区域进行遍历预测的,也可以是直接接收按照预设步长、滑动窗口或者分割模板划分后的图像数据进行逐个区域遍历预测的。在后一种技术方案中,可以是根据每个子区域的诸如坐标的相对位置数据进行有选择地或者按预设顺序地遍历,也可以是主动为单组图像数据的多个子区域编号后,按照编号顺序遍历。
卷积神经网络(Convolutional Neural Networks,CNN)通常包括输入层、隐含层以及输出层,隐含层可以具体包括至少一组卷积层(convolutional layer)、至少一层池化层(pooling layer)以及至少一层全连接层(fully-connected layer)。输入层用于接收待测图像数据,并优选地对图像矩阵中的像素值进行归一化,以提升卷积神经网络的处理效率。
卷积层用于对图像数据进行特征提取,可以包括多个神经元、多个感受野以及激励函数,以通过卷积核执行线性卷积(linear convolution)、平铺卷积(tiledconvolution)、反卷积(deconvolution)和扩张卷积(dilated convolution)中的至少一种;在经过卷积核之前还可以执行填充步骤,以抵消卷积过程中图像数据的尺寸收缩,可以具体包括按0填充、重复边界值填充(replication padding)、有效填充(valid padding)、相同填充/半填充(same/half padding)、全填充(full padding)、任意填充(arbitrarypadding)。
池化层用于特征选择和信息过滤,包括预设的单一或多种池化函数,用于执行Lp池化(Lp pooling)、随机/混合池化(mixed/stochastic pooling)、谱池化中(spectralpooling)的至少一种。在一种实施方式中,上述卷积层和池化层可以配置为具有多个,卷积层和池化层堆叠形成隐含层构筑Inception模块(Inception module),所述Inception模块还可以进一步设置有瓶颈层,用于简化运算,以实现深度可分卷积构建轻量级卷积神经网络。
全连接层用于对前述结构提取和筛选后的特征进行分类和传输,具体而言可以是进行非线性组合。在一些实施方式中,全连接层同样可以替换为全局均值池化。输出层进一步利用逻辑函数或归一化指数函数进行标签分类的输出,和/或物体中心坐标、大小和分类情况的输出。
在本实施方式中,基于上述卷积神经网络架构,搭载一种可以是经过训练的学习范式,以形成并加载一种第一学习模型。该第一学习模型可以搭载有一种经过训练优化的第一模型参数组,并对输入层接收到的待测图像数据进行遍历预测,并将分类结果以概率数值的形式输出为对应子区域图像数据的预测概率值。所述预测概率值可以是以百分数的形式呈现,并具有[0%,100%]的取值范围,也可以是以小数的形式呈现,并具有[0,1]的取值范围,保留有效位数可根据本领域技术人员需要调整。
步骤33,筛选预测概率值符合预设评估条件的子区域图像数据,构成中间图像数据集合,并根据第一模型参数组提取中间图像数据集合的特征向量,形成中间特征序列。
为了提高预测准确程度,本发明将待测图像数据经过两次神经网络筛选和分类以增强泛化识别效果。在两次神经网络处理之间,需要根据卷积神经网络输出的预测概率值,对子区域图像数据进行评估筛选,从而将筛选后的子区域图像数据送入循环神经网络进行再分类预测。
根据预测概率值对子区域图像数据进行筛选的含义,可以包括:获取一预设概率阈值,判断所述预测概率值是否大于等于所述预设概率阈值,若是,则提取所述预测概率值对应的子区域图像数据,并将其加入所述中间图像数据集合(优选地,所述预设概率阈值为0.5或50%,从而提取正类预测概率值对应的子区域图像数据进行后续再筛选)。还可以包括:获取一预设处理数量值,按照预测概率值对子区域图像数据进行降序排列(可以解释为:将预测概率值高的若干个子区域图像数据提取出来作为中间图像数据集合的元素),由高到低筛选位于高位次的预设处理数量(优选为5)的子区域图像数据加入中间图像数据集合。在一种实施方式中,所述评估条件为:预测概率值大于等于预设概率阈值且降序排列后位于高位次。
由于上述第一学习模型搭载第一模型参数组实现分区域预测,此时可以基于同样的模型参数组形成特征提取器,对经过上述筛选过程形成的中间图像数据集合进行特征提取,从而避免多模型参数导致预测结果发生偏移或特征提取不准确的问题。当然,上述第一模型参数组如前文所述可以是经过训练优化的,也可以是初始化自动生成的模型参数。上述特征提取器可以是由第一学习模型经过处理后形成的,也可以是独立于第一学习模型单独设置且搭载有第一模型参数的。对于前者,所述方法可以进一步包括:去除第一学习模型的全连接层形成特征提取模型,根据第一模型参数组提取中间图像数据集合的特征向量,形成中间特征序列。
当然,步骤33旨在表述一种筛选和特征提取过程,具体的输入和输出数据形式本发明并不限定,举例而言,所述中间特征序列可以是矩阵、向量等多种数据形式,足以被循环神经网络接收并处理即可。
步骤34,构建循环神经网络形成并加载第二学习模型,以第二模型参数组对中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及预测子区域图像数据的最终概率值。
步骤34可以作为步骤32和步骤33的补充筛选过程,这是由于单纯的卷积神经网络或其包含的第一学习模型,可能会因为待测图像质量的因素(例如局部污点和模糊)产生子区域图像数据的错误识别,如果直接用于输出则会导致错误判断的概率增大。由于错误识别的子区域图像数据属于待测图像数据中的少量难例或离群点,因此可以通过高置信区域的序列特征连贯性排除其影响。基于此,步骤33中对预测概率值高的子区域图像数据进行提取,以利用其序列上的相似性进行错误排查,克服前一步骤错误识别的子区域图像数据对整体判断的影响。
具体地,中间特征序列可以包括一组或多组,在包括多组的情况下,第二学习模型配置为以第二模型参数组对多组中间特征序列进行遍历预测,可以是将中间特征序列按照前文步骤降序排列后的顺序,依次送入第二学习模型作为输入数据进行预测,以得到最终概率值。
第二学习模型可以配置有多种学习范式,不同学习范式可以具有不同的结构,相同或不同的结构内可以形成有相同或不同的算法,不同算法内置有相同或不同的优化方式和函数配置。举例而言,学习范式可以包括监督学习(supervised learning)和非监督学习(unsupervised learning);监督学习可以搭载有Teacher Forcing、随时间反向传播(BPThrough Time,BPTT)和实时循环学习架构(Real-Time Recurrent Learning,RTRL);算法可以包括简单循环网络(Simple Recurrent Network,SRN),诸如门控循环单元网络(GatedRecurrent Unit networks,GRU)的门控算法,以及诸如堆叠循环神经网络(StackedRecurrent Neural Network,SRNN)、双向循环神经网络(Bidirectional RecurrentNeural Network,BRNN)的深度算法,当然也可以包括外部记忆(external memory)等扩展算法;优化方式可以包括梯度截断、正则化(regularization)、层归一化(LayerNormalization,LN)、储层计算(reservoir computing)、跳跃连接(skip connection)、渗漏单元(leaky unit)和门控单元(gated unit)等。
在本实施方式中,基于上述循环神经网络架构,搭载一种可以是经过训练的算法,以形成并加载一种第二学习模型。该第二学习模型可以搭载有一种经过训练优化的第二模型参数组,对输入的中间特征序列进行遍历预测,并将分类结果以概率数值的形式输出为对应中间特征序列(也称对应预测子区域图像数据)的最终概率值。最终概率值与前述预测概率值可以具有相同或类似的形式配置。所述预设输出条件可以是:所述最终概率值大于等于预设概率阈值。进一步地,设定预设概率阈值为0.5或50%,以使最终概率值为正类预测概率值自身以及对应的预测子区域图像数据被输出,如此,使病理医师直观了解到病变发生位置和发生概率。
可见,待测图像数据依次经过两阶预测和筛选步骤,能够具有更强的泛化识别效果,通过两阶神经网络的相互配合、依次处理,实现减少输入图像数据需求量、均衡算法长期依赖性和思维能力弱的缺陷,并进一步提高预测准确性和筛选科学性的效果。
本发明另一实施方式提供一种细化的消化系统病理图像识别方法,如图3所示,可以包括下述步骤。
步骤31,获取待测图像数据。
步骤32,构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值。
步骤33’,筛选预测概率值符合预设评估条件的子区域图像数据,构成中间图像数据集合,去除第一学习模型的全连接层形成特征提取模型,并根据第一模型参数组提取中间图像数据集合的特征向量,形成中间特征序列。
步骤34,构建循环神经网络形成并加载第二学习模型,以第二模型参数组对中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及预测子区域图像数据的最终概率值。
在一种实施方式中,上述第一学习模型可以被具体地配置为弱监督学习(WeaklySupervised Learning)模型,上述第二学习模型可以被具体地配置为长短期记忆(LongShort-Term Memory,LSTM)学习模型。
弱监督学习模型可以配置为不完全监督(incomplete supervision)、不确切监督(inexact supervision)和不精确监督(inaccurate supervision)中的一种,在一种实施方式中,可以具体配置为不确切监督,以具有图片级标签的(多示例的)整个图像数据作为训练对象,并将其划分为多个子区域分别执行推理,在得到对象级标签后,以此时训练好的学习模型,实现待测图像数据整体标记和子区域概率预测的精确标记。当然,在搭载有不完全监督时,可以通过主动学习和半监督学习两种方式进行模型训练,在搭载有不精确监督时,可以通过带噪学习的方式进行模型训练。
长短期记忆学习模型可以配置为一般类型或变体类型。一般类型可以包括:结构定义、变量声明、全零初始化、损失函数定义、最大序列长度定义、当前输入获取、前一时刻状态获取、结构输出、状态更新、全连接层输出、计算损失的步骤。变体类型可以包括上文所述双向循环神经网络和深层循环神经网络,可以通过Multi-RNN-Cell类实现前向传播过程,用zero_state获取初始状态。由此利用该非线性模型,能够处理和预测时间序列具有间隔、延时长的数据。
步骤33’提供的去除第一学习模型的全连接层构建特征提取模型的方案,属于本发明的一种实施方式,能够保持前后处理步骤的一致性,达到更好的特征提取效果。基于卷积神经网络通常都具有全连接层,可以理解地,步骤33’的配置与第一学习模型是否配置为弱监督学习模型和/或第二学习模型是否配置为长短期记忆学习模型并不具有绝对相关性,不过是步骤33’与上述模型配置相互配合能够实现更为显著的效果。
进一步地,上述任一种实施方式提供的步骤31,还可以具体包括:获取原始图像数据,根据染色情况对所述原始图像数据执行颜色迁移标准化,使所述原始图像数据具有一致的染色显示,对应生成待测图像矩阵;以所述待测图像矩阵作为所述待测图像数据。
如此,能够大幅提升模型的适应性和泛化识别能力。当然足以实现上述技术效果的、针对原始图像染色情况所做的优化均可以概括为上述过程,待测图像矩阵也可以直接作为待测图像数据进行后续概率预测步骤,也可以经过其他处理后再生成待测图像数据继续执行。
在一种实施方式中,对于上述过程的步骤31,继续如图4所示,本发明提供第一实施例,可以包括下述步骤。
步骤311,获取原始图像数据,计算原始图像数据的染色向量矩阵和染色密度矩阵,得到原始向量矩阵和原始密度矩阵,并计算原始密度矩阵的最高分位值作为最高原始密度数据。
步骤312,根据最高基准密度数据和最高原始密度数据计算迁移系数,并利用迁移系数更新原始密度矩阵,得到更新密度矩阵。
步骤313,根据基准向量矩阵和更新密度矩阵,计算得到待测图像矩阵。
其中,基准向量矩阵为至少一组高染色质量图像数据的染色向量矩阵,最高基准密度数据为高染色质量图像数据的染色密度矩阵的最高分位值。进一步地,评价染色质量高低的标准,在本实施方式中可以包括:色度表现均匀,无褪色或颜色过深。原始图像数据可以是经过苏木素—伊红染色法(H&E Staining)染色后制成的标本图像数据。
经过染色后的图像数据通常由其染色向量矩阵和染色密度矩阵之积构成,进而原始图像数据在本实施方式中被配置为由原始向量矩阵和原始密度矩阵之积构成。为了达到色彩一致性,有必要分析得到原始向量矩阵和原始密度矩阵,并根据一种标准,对原始密度矩阵进行更新,以均一化图像整体的颜色深浅表现,并将原始向量矩阵替换为该标准下的染色向量矩阵(如前述基准向量矩阵),如此达到技术效果。
上述最高分位值根据精确度要求不同,可以具有不同程度的定义,在本实施方式中,可以配置原始密度矩阵以列为单位的99%分位值为最高原始密度数据,并配置基准向量矩阵对应的基准密度矩阵以列为单位的99%分位值为最高基准密度数据。基于此,上述方法还可以具体包括:以列为单位计算原始密度矩阵的99%分位值为最高原始密度数据;以列为单位计算基准向量矩阵对应的基准密度矩阵以列为单位的99%分位值为最高基准密度数据。
定义原始向量矩阵为
Figure 714733DEST_PATH_IMAGE001
,原始密度矩阵为
Figure 428611DEST_PATH_IMAGE002
,最高原始密度数据为
Figure 758748DEST_PATH_IMAGE003
,最高基准密度数据为
Figure 216274DEST_PATH_IMAGE004
,迁移系数为
Figure 827384DEST_PATH_IMAGE005
,更新密度矩阵为
Figure 931738DEST_PATH_IMAGE006
,待测图像矩阵为
Figure 995509DEST_PATH_IMAGE007
,则至少满足:
Figure 991147DEST_PATH_IMAGE008
Figure 207495DEST_PATH_IMAGE009
Figure 263176DEST_PATH_IMAGE010
在此基础上,还可以进一步将待测图像矩阵
Figure 830555DEST_PATH_IMAGE007
进行RGB空间映射,并以映射后的矩阵作为输出的待测图像矩阵,以进行后续处理步骤。定义RGB映射后的待测图像矩阵为
Figure 895463DEST_PATH_IMAGE011
,则至少满足:
Figure 307596DEST_PATH_IMAGE012
上述任一种技术方案(例如图2所示实施方式中步骤31替换实施为上述步骤311至步骤313形成的新的实施方式,和/或图3所示的实施方式中步骤31替换实施为上述步骤311至步骤313形成的新的实施方式,下同)提供的步骤311,还可以具体包括:获取原始图像数据,对原始图像数据执行色彩空间转换生成原始光密度矩阵;将所述原始光密度矩阵投影至原始特征矩阵所在平面,筛选表征主要染色特征的元素生成染色向量;根据染色向量中元素值,对所述染色向量重排生成原始图像数据的染色向量矩阵,得到原始向量矩阵;根据原始向量矩阵对原始光密度矩阵执行压缩估计,生成染色密度矩阵,得到原始密度矩阵。当然,上述基准向量矩阵和基准密度矩阵同样可以是对高染色质量图像数据执行上述步骤得到。
基于此,继续如图5所示,在其一个具体实施例中,步骤311还可以具体包括下述步骤。
步骤3111,获取原始图像数据,对原始图像数据执行色彩空间转换,并删除转换后原始图像数据中小于预设原始阈值的元素,形成原始光密度矩阵。
原始图像数据执行空间转换,可以是由RGB空间转换为光密度(Optical Density,OD)空间,也可以是由其他空间转换为光密度空间。转换后用于进行元素值筛选的预设原始阈值,在一种实施方式可以是
Figure 612807DEST_PATH_IMAGE013
步骤3112,对原始光密度矩阵逐行独立计算协方差,形成原始协方差矩阵,根据原始协方差矩阵计算特征向量,并进行元素筛选,得到原始特征矩阵。
不同染色方式对应会产生不同主要特征,对应不同的特征向量。以苏木素—伊红染色法为例,会形成对应苏木素和伊红两种不同染剂的不同颜色的特征向量。经过协方差计算和特征向量计算后,上述颜色特征被具体为数值,从而可以通过元素筛选进行提取。在采用苏木素—伊红染色法的实施方式中,上述元素筛选可以配置为:筛选提取每个特征向量中第3个和第2个元素,以形成原始特征矩阵,优选地,包括相互正交且分别表征苏木素染色特征的第一原始特征矩阵,以及表征伊红染色特征的第二原始特征矩阵。
步骤3113,根据原始特征矩阵对原始光密度矩阵执行投影,计算投影后的原始光密度矩阵的反正切值,得到原始反正切矩阵,并提取原始反正切矩阵中的最高分位反正切值和最低分位反正切值。
将原始光密度矩阵(可以是分别)投影到(可以是两个)原始特征矩阵所在2D平面后,为了进一步加大并量化染色差异,可以利用反正切算法求取特征向量的角坐标(或极坐标)后,求取并保留高分位值和低分位值用于原始向量矩阵的计算。最高分位反正切值可以是原始反正切矩阵中99%的分位值,最低分位反正切值可以使原始反正切矩阵中1%的分位值。
定义原始光密度矩阵为
Figure 447908DEST_PATH_IMAGE014
,原始特征矩阵为
Figure 67239DEST_PATH_IMAGE015
,投影后生成且用于执行反正切操作的矩阵为
Figure 803987DEST_PATH_IMAGE016
,则至少满足:
Figure 201470DEST_PATH_IMAGE017
步骤3114,计算最高分位反正切值和低分位反正切值分别对应的最高参数向量和最低参数向量,并根据原始特征矩阵,分别计算对应的第一染色向量和第二染色向量。
在计算得到不同染色差异下的最高分位反正切值和最低分位反正切值后,可以根据两者分别形成的参数向量,将2D平面内的原始光密度矩阵还原回光密度空间,从而形成新的染色向量,根据新的染色向量形成的原始向量矩阵,会具有更为明显的且统一的染色差异。
定义对矩阵
Figure 9020DEST_PATH_IMAGE016
执行反正切操作后生成的原始反正切矩阵为
Figure 291097DEST_PATH_IMAGE018
,最高分为反正切值为
Figure 133282DEST_PATH_IMAGE019
,最低分位反正切值为
Figure 590415DEST_PATH_IMAGE020
,则最高参数向量为
Figure 603370DEST_PATH_IMAGE021
,最低参数向量为
Figure 17034DEST_PATH_IMAGE022
,第一染色向量
Figure 182567DEST_PATH_IMAGE023
和第二染色向量
Figure 921853DEST_PATH_IMAGE024
分别配置为至少满足:
Figure 641679DEST_PATH_IMAGE025
Figure 859033DEST_PATH_IMAGE026
即,第一染色向量为原始特征矩阵与最高参数向量的点积,第二染色向量为原始特征向量与最低参数。
步骤3115,根据第一染色向量和第二染色向量的元素值情况,对第一染色向量和第二染色向量进行排列,生成原始图像数据的染色向量矩阵,得到原始向量矩阵。
为了保持原始向量矩阵中,不同染色特征的排序与原始图像数据一致,借此保持不同原始图像数据经过上述处理后所呈现的染色效果保持一致,需要根据不同染色特征进行重排。
步骤3116,以原始向量矩阵为标准,对原始光密度矩阵执行套索回归,生成染色密度矩阵,得到原始密度矩阵。
根据原始向量矩阵求解原始密度矩阵可以具有多种实施方式,具体可以通过线性回归、多项式回归、岭回归、弹性网络回归等进行。在本实施方式中,优选执行套索(LASSO)回归,能够通过参数选择提高运算效率。
可以理解地,上述基准向量矩阵、基准密度矩阵,以及本发明全文涉及颜色迁移标准化的步骤,均可以替换地实施前文所述的步骤,下文不再赘述。
同时,本发明全文提供的任一实施方式中,在进行颜色迁移标准化操作之前,还可以包括放大倍率标准化操作(即,所述方法包括:将放大倍率统一为设定倍率),以避免图像上采样失真,优选将采集到可能存在五倍、十倍、二十倍或四十倍的图像统一为十倍放大倍率(即,以十倍作为所述设定倍率)。此过程中,图像的读取和下采样(针对放大倍率超过十倍的图像)可以利用Python的OpenSlide、OpenCV2(特别是resize操作)工具其中任一完成。可以理解地,本发明全文涉及放大倍率标准化的步骤,均可以替换地实施前文所述的步骤,下文不再赘述。
继续如图6所示,上述任一种技术方案提供的步骤3115,在其一个具体实施例(应用苏木素—伊红染色法的实施例)中还可以具体包括下述步骤。
步骤31151,判断第一染色向量的首元素数值是否大于第二染色向量的首元素数值。
若大于,则(步骤31152)将第一染色向量排列于第二染色向量的左侧,生成原始图像数据的染色向量矩阵,得到原始向量矩阵。
若小于等于,则(步骤31153)将第二染色向量排列于第一染色向量的左侧,生成原始图像数据的染色向量矩阵,得到原始向量矩阵。
如此,可以将表征苏木素特征的元素排在前,将表征伊红的元素排在后,定义原始向量矩阵为
Figure 128341DEST_PATH_IMAGE027
,则执行步骤31152后满足:
Figure 57769DEST_PATH_IMAGE028
执行步骤31153后满足:
Figure 779738DEST_PATH_IMAGE029
上述任一种实施方式提供的步骤31,还可以包括:按照预设尺寸滑动窗口将所述待测图像矩阵执行分割,得到多个子区域图像数据及所述子区域图像数据在所述待测图像矩阵中的位置数据;分析并筛选所述子区域图像数据中的组织占比情况,将组织占比情况符合预设条件的子区域图像数据存储为待测图像数据。也即,在该实施方式中,可以对待测图像矩阵依次进行分割和筛选操作,以包含组织内容物更多的子区域图像数据作为后续预测的对象,从而提高整体效率、降低不必要的耗时,并在弱监督学习之前形成多个所述对象级图像数据。
基于此,继续如图7所示,在其第二实施例中,步骤31还可以具体包括下述步骤。
步骤311,获取原始图像数据,计算原始图像数据的染色向量矩阵和染色密度矩阵,得到原始向量矩阵和原始密度矩阵,并计算原始密度矩阵的最高分位值作为最高原始密度数据。
步骤312,根据最高基准密度数据和最高原始密度数据计算迁移系数,并利用迁移系数更新原始密度矩阵,得到更新密度矩阵。
步骤313,根据基准向量矩阵和更新密度矩阵,计算得到待测图像矩阵。
步骤314,遍历待测图像矩阵,按照预设尺寸的滑动窗口对待测图像矩阵执行分割,得到待测图像矩阵的至少两组子区域图像数据,以及子区域图像数据在待测图像矩阵中的相对位置数据。
步骤315,遍历子区域图像数据的所有像素的灰度数据,计算灰度数据中数值小于预设灰度阈值的像素数量与像素总数量的比值,得到子区域图像数据的组织区域占比值。
步骤316,根据符合预设处理条件的子区域图像数据形成待测图像数据。
其中预设处理条件为:子区域图像数据的组织区域占比值大于预设占比阈值。
所述预设尺寸主要根据不同神经网络的龙骨模型(backbone)确定,在本实施方式中,优选RegNetY-600MF作为龙骨模型。基于此,所述预设尺寸可以配置为224*224像素,也即龙骨模型的设计输入大小。执行分割过程中,预设尺寸的滑窗区域可以配置为,按照其边长的10%-15%为步长进行水平和垂直遍历,以得到一系列子区域图像数据及子区域图像数据在待测图像数据中的相对位置数据(可以是坐标,优选以待测图像数据左下角为坐标原点计算得到),在一种实施方式中,所述步长可以配置为32像素。
步骤314和步骤315之间还可以包括:对所述子区域图像数据进行灰度转化,得到所有子区域图像数据的所有像素的灰度数据。如此,清楚明确地判断得到组织区域占比值,能够方便地剔除背景区域过多,和/或不包含或包含过少组织样本的子区域。当然,灰度转化可以在步骤315之前的任何步骤处穿插或一并执行,本发明并不限制灰度转化步骤的位置。
在一种实施方式中,灰度转化后的子区域图像数据中,背景相较于前景的组织区域会具有更浅的颜色,对应的灰度数据则越高。基于此,所述预设灰度阈值可以配置为等于210,如此将灰度数据中数值小于210的像素判定为构成组织区域。进一步地,所述预设占比阈值可以配置为30%。当然,步骤315和步骤316还可以变换地配置为:计算灰度数据中数值大于等于预设灰度阈值的像素数量与总像素数量的比值,得到子区域图像数据的背景区域占比值;根据符合预设处理条件的子区域图像数据形成待测图像数据,其中,预设处理条件为:子区域图像数据的背景区域占比值小于预设占比阈值,所述预设占比阈值为70%。
当然,步骤316中所述形成待测图像数据的过程,并非仅仅指代保存子区域图像数据本身,还可以配置为保存子区域图像数据及其相对位置数据,或配置为保存未分割的图像数据(例如待测图像矩阵或原始图像数据)以及子区域图像数据的相对位置数据。
对于最后一种情况,可以将步骤316具体配置为:提取符合预设处理条件的子区域图像数据对应的相对位置数据,并将该相对位置数据,以及待测图像矩阵或原始图像数据至少其中之一,一并存储为所述待测图像数据。同时,在后续操作过程中可以对应增加步骤:根据所述相对位置数据,对所述待测图像数据或所述原始图像数据其中之一执行分割,形成多个子区域图像数据。如此,可以减少数据读取压力,避免将巨量小尺寸子区域图像数据均存储以供调用。
定义子区域图像数据在待测图像矩阵中的相对位置数据为:以待测图像矩阵左下角为坐标原点,每个子区域图像数据的左下角坐标。则,相对位置数据可以构成集合
Figure 535204DEST_PATH_IMAGE030
,其中,
Figure 144171DEST_PATH_IMAGE031
为不同子区域图像数据的相对位置数据,设定其中第i个子区域图像数据的相对位置数据为
Figure 225259DEST_PATH_IMAGE032
,且该子区域图像数据的边长为l,则该子区域图像数据的覆盖面积可以表示为
Figure 168945DEST_PATH_IMAGE033
则经过步骤32和步骤33的部分(或步骤32和步骤33’的部分,以及上述两步骤的其他衍生实施方式的步骤)后,可以得到一种预测概率值集合
Figure 744414DEST_PATH_IMAGE034
,其中
Figure 722734DEST_PATH_IMAGE035
为不同符合预设评估条件的子区域图像数据的预测概率值。优选地,该集合中的预测概率值,经过筛选后均为所述正类预测概率值(大于等于0.5或50%)且降序排列后位于高位次(小于等于预设处理数量,优选小于等于5),从而对应提取正类预测概率值对应的子区域图像数据(或子区域图像数据的相对位置数据),优选地,提取子区域图像数据对应的左下角坐标,形成中间图像数据集合
Figure 459877DEST_PATH_IMAGE036
经过步骤33或步骤33’的另一部分,提取中间图像数据集合
Figure 156437DEST_PATH_IMAGE036
中每个坐标位置对应子区域图像数据的特征向量,形成中间特征序列
Figure 253706DEST_PATH_IMAGE037
,其中
Figure 99915DEST_PATH_IMAGE038
为不同符合预设评估条件的子区域图像数据的特征向量。
经过步骤34或其衍生实施方式的步骤,将中间特征序列
Figure 257227DEST_PATH_IMAGE039
输入第二学习模型并进行筛选和判断,若经过两次判断生成的最终概率值仍为正类预测概率值,则该最终概率值对应的预测子区域图像数据所表征的消化系统位置,具有较高的病变概率。
可以理解地,该第二实施例中新增的步骤314至步骤316,可以替换地实施于前文任一种技术方案中,以达到对应的技术效果。换言之,第二实施例可以与前文中任何一个或多个补充步骤进行组合,以对应生成一个或多个替换实施例。此外,本发明全文涉及图像矩阵分割筛选的步骤,均可以替换地实施前文所述的步骤,下文不再赘述。
本发明再一实施方式提供一种更为细化的消化系统病理图像识别方法,如图8所示,可以包括下述步骤。
步骤31,获取待测图像数据。
步骤32,构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值。
步骤33,筛选预测概率值符合预设评估条件的子区域图像数据,构成中间图像数据集合,并根据第一模型参数组提取中间图像数据集合的特征向量,形成中间特征序列。
步骤34,构建循环神经网络形成并加载第二学习模型,以第二模型参数组对中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及预测子区域图像数据的最终概率值。
步骤41,获取原始图像数据,构建与原始图像数据具有相同尺寸的表层图像模板。
步骤42,根据最终概率值和RGB映射曲线,映射得到最终概率值对应的伪彩数据,并按照预测子区域图像数据的相对位置数据,分别将对应的伪彩数据映射至表层图像模板中,生成预测概率分布图像。
步骤43,设定预测概率分布图像具有第一权重,设定原始图像数据具有第二权重,将预测概率分布图像和原始图像数据进行加权混合,生成并输出病例分析图像。
其中,相对位置数据记载预测子区域图像数据在原始图像数据中的相对位置,第一权重和第二权重的取值范围为0至1,且第一权重和第二权重之和等于1。如此,实现了至少将病变部位转换为伪彩图像(或称热力图像),并叠加于原始图像之上进行输出。优选地,输出图像格式为PNG格式,伪彩数据值越大,颜色越深,指示区域为病变部位(存在癌变病灶)的概率越高,反之则概率越小。
当然,在一种实施方式中,由于最终概率值所对应的子区域图像数据是经过步骤33中筛选后的,因此会存在预测子区域图像数据只能覆盖原始图像数据部分,而不能完整覆盖原始图像数据整体的情况。基于此,步骤42中还可以替换地实施为:提取与最终概率值不存在交集的预测概率值,以及该预测概率值对应的子区域图像数据;根据最终概率值、提取的预测概率值和RGB映射曲线,映射得到最终概率值和提取的预测概率值对应的伪彩数据,并按照预测子区域图像数据的相对位置数据,分别将对应的伪彩数据映射至表层图像模板中,生成预测概率分布图像。基于同样的思路,还可以是:根据预测概率值和RGB映射曲线,映射的到预测概率值对应的伪彩数据,并按照预测子区域图像数据的相对位置数据,分别将对应的伪彩数据映射到表层图像模板中,生成预测概率分布图像。
所述表层图像模板可以是空白的单通道掩膜(mask),上述操作过程可以是基于OpenCV2的apply-Color-Map功能实现的,生成的预测概率分布图像可以具有COLORMAP_JET模式。优选上述第一权重和第二权重均为0.5。定义上述最终概率值、最终概率值和提取的预测概率值的组合,或用于输出的预测概率值自身为
Figure 441084DEST_PATH_IMAGE040
,则第i个子区域图像数据对应在预测概率分布图像中的区域可以至少满足:
Figure 92776DEST_PATH_IMAGE041
作为补充地,虽然在前文中定义了“在待测图像矩阵中的相对位置数据”以及“在原始图像数据中的相对位置数据”,但是应当理解地,在根据原始图像矩阵生成待测图像矩阵的过程中,若无图像尺寸调整,则上述两个相对位置数据的概念是一致的;若经过图像尺寸调整,则上述两个相对位置数据的概念,是相互具有对应关系的,在进行步骤41至步骤43的图像叠加的过程中,采用与原始图像数据相对应的相对位置数据(定义为第一相对位置数据),在进行学习模型迭代处理过程中,采用与待测图像矩阵相对应的相对位置数据(定义为第二相对位置数据),且所述第一相对位置数据与第二相对位置数据具有比例上的换算关系。
可以理解地,该再一实施方式中新增的步骤41至步骤43,可以替换地实施于前文任一种技术方案中,以达到对应的技术效果。换言之,该再一实施方式可以与前文中任何一个或多个补充步骤进行组合,以对应生成一个或多个替换实施例。
本发明一实施方式提供一种设置于上述任一种技术方案及其衍生方案的步骤31之前的前置步骤21,以组合形成至少一种新的技术方案,步骤21一具体实施例如图9和图10所示,可以包括下述步骤。
步骤211,获取多组学习图像数据,并对学习图像数据执行放大倍率标准化、颜色迁移标准化、图像矩阵分割筛选,得到多组样本图像数据。
所述放大倍率标准化在于统一所有学习图像数据的放大倍率,所述颜色迁移标准化在于统一所有学习图像数据的颜色一致性和自身的颜色均匀性,所述矩阵分割筛选在于形成多个子区域图像数据以供后续遍历推理(可以是指代子区域图像数据本身,也可以是指代子区域图像数据对应的相对位置数据)。上述三种步骤及相关步骤均可以替换地实施前文所述的实施方式,组合、拼接、替换以形成多种新的实施方式,此处不再赘述。
步骤212,按照预设比例将样本图像数据划分为第一训练集和第一验证集。
预设比例优选可以是7:3,也即第一训练集占七成,第一验证集占三成。划分方式优选地,按照子区域图像数据所在学习图像数据为单位划分,以保证构成单个学习图像数据的多个子区域图像数据能够被分配至同一个集合中(第一训练集或第一验证集),以防止归属于同一学习图像数据的、具有类似性的多个子区域图像数据分配混乱,导致验证指标水平虚高,影响模型实际效果。当然在学习图像数据整体一致性高的情况下,也可以具有其他实施方式。
步骤213,构建卷积神经网络形成并加载弱监督学习模型,调用激活函数,对第一训练集中的多个第一训练图像执行遍历推理,并输出第一训练图像中的多个训练子区域图像数据对应的多个训练推理概率值。
其中,激活函数可以是softmax函数或sigmoid函数。
步骤214,按照训练推理概率值对训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第一输入图像数据。
优选地,仅对大于预设概率阈值的训练推理概率值对应的训练子区域图像进行降序排列,预设概率阈值可以为正类推理概率值(大于0.5或50%)。预设数量在一种实施方式中,可以配置为5。
步骤215,将第一输入图像数据及对应第一训练图像的预设诊断分类标签,输入弱监督学习模型,训练得到第一初级参数组,计算训练推理概率值与诊断分类标签的二元交叉熵,作为第一初级参数组的一阶损失函数,并以第一初级参数组更新弱监督学习模型。
预设诊断分类标签可以是病理医师输入模型训练用的学习图像数据中包含的、至少用于表征该学习图像数据整体是否存在病变部位的标签,优选包含病变部位的学习图像数据具有标签1,不包含的具有标签0。当然,在搭载监督学习模型或其他人为介入水平更高的模型的实施方式中,预设诊断分类标签可以是直接针对第一训练图像的(或针对第一训练图像对应的子区域图像数据的,或针对第一训练图像对应的样本图像数据的)。
定义预设诊断分类标签为
Figure 780109DEST_PATH_IMAGE042
,训练推理概率值为
Figure 373902DEST_PATH_IMAGE043
,计算得到的训练推理概率值总数(也即训练子区域图像数据的总数)为N,在所述一阶损失函数被配置为两者的二元交叉熵的实施方式中,一阶损失函数至少满足:
Figure 530208DEST_PATH_IMAGE044
步骤216,迭代训练直至一阶损失函数收敛至预设损失区间,生成多项第一初级参数组、对应的一阶损失函数值以及对应的第一输入图像数据。
模型训练优化器(optimizer)优选使用Adam,预设损失区间取决于神经网络算法模型框架本身以及不同数据场景,一般具有多种定义方式,本实施方式中,可以定义为一阶损失函数值下降并稳定于预设损失区间。
步骤217,分别加载多项第一初级参数组下的多个弱监督学习模型,对第一验证集中的第一验证图像执行遍历推理,并输出第一验证图像中的多个验证子区域图像数据对应的多个验证推理概率值。
本发明中,可以是步骤217中记载的,训练得到多项第一初级参数组后统一且分别加载不同第一初级参数组,利用第一验证集进行验证(即可以是独立验证),当然也可以是训练得到一项第一初级参数组后,即加载该第一初级参数组并利用第一验证集验证(即也可以是实时验证)。前者适用于数据量大的场景,后者适用于数据量小的场景,本领域技术人员可以根据需要进行调整。
步骤218,对多个验证推理概率值进行筛选,得到最高验证推理概率值作为第一验证图像的综合推理概率值,并计算综合推理概率值与第一验证图像的诊断分类标签的二元交叉熵,作为该第一初级参数组的二阶损失函数。
步骤219,综合评价多项第一初级参数组的二阶损失函数值,得到第一损失函数值,将第一损失函数值对应的第一初级参数组作为第一模型参数组。
对第一验证集进行遍历推理的目的在于挑选多项第一初级参数组中,足以使推理效果最优化的第一初级参数组作为第一模型参数组。前文主要利用一阶损失函数进行第一训练集遍历推理的进度把控,以及进行对应第一初级参数组的初步性能评价,并利用二阶损失函数进行第一验证集推理以评价第一初级参数组的普遍适用性。当然,还可以观察第一初级参数组其他方面的指标进行综合评价,例如在各项推理概率值和预设诊断分类标签之间的匹配概率(或称推理准确率)达到高水平(例如超过97%)的基础上,使用此时各项推理概率值和预设诊断分类标签制作,标本水平推理准确率、敏感度和特异性能评价值等参数,并选取各项参数评价高且均衡的参数组。
本发明一实施方式提供一种设置于上述任一种技术方案及其衍生方案的步骤31之前的前置步骤22,以组合形成至少一种新的技术方案,步骤22一具体实施例如图11和图12所示,可以包括下述步骤。
步骤221,获取第一模型参数组对应的第一输入图像数据。
步骤222,去除弱监督学习模型的全连接层形成特征提取模型,根据第一模型参数组提取第一输入图像数据的特征向量,形成学习特征序列。
步骤223,按照预设比例将学习特征序列划分为第二训练集和第二验证集。
步骤224,构建循环神经网络形成并加载长短期记忆学习模型,调用激活函数,对第二训练集中的多个第二训练图像执行遍历推理,并输出第二训练图像中的多个训练子区域图像数据对应的多个训练推理概率值。
基于同样的、利用具有高训练推理概率值的子区域图像数据之间的序列连贯性,克服卷积神经网络特别是弱监督学习模型错误判断影响的理由,需要前一步骤卷积神经网络输出的第一输入图像数据作为输入进行长短期记忆神经网络的训练。作为补充说明地,第一输入图像数据中包含着多个学习图像数据的多个子区域图像数据,至少包含任一种推理概率处于高位次的至少5个子区域图像数据。因此在进行学习特征序列提取之前,可以选择第一输入图像数据中的部分(可以是预设学习数量,如16或32),或者将其分成预设学习数量个子区域图像数据为一组的多组进行特征提取,生成学习特征序列。本发明并不限定必须对所有第一输入图像数据进行特征提取和后续处理。
如此,至少生成一组由预设学习数量s个子区域图像数据组成的学习特征序列,该学习特征序列长度为预设学习数量s,且具有长度为p的多个特征向量,从而形成s*p的特征向量组成形式,对应构建的长短期记忆学习模型的节点长度同样可以配置为s。优选地,学习特征序列长度s=32,特征向量长度p=608(基于RegNetY-600MF龙骨模型架构决定),对应长短期记忆学习模型的隐藏层数设定为128。
步骤225,按照训练推理概率值对训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第二输入图像数据。
步骤226,将第二输入图像数据及对应第二训练图像的预设诊断分类标签,输入长短期记忆学习模型,训练得到第二初级参数,计算训练推理概率值与诊断分类标签的二元交叉熵,作为第二初级参数组的一阶损失函数,并以第二初级参数组更新长短期记忆学习模型。
步骤227,加载第二初级参数组下的长短期记忆学习模型,对第二验证集中的第二验证图像执行遍历推理,并输出第二验证图像中的多个验证子区域图像数据对应的多个验证推理概率值。
步骤228,对多个验证推理概率值进行筛选,得到最高验证推理概率值作为第二验证图像的综合推理概率值,并计算综合推理概率值与第二验证图像的诊断分类标签的二元交叉熵,作为该第二初级参数组的二阶损失函数。
本发明中,可以是步骤227中记载的,训练得到一项第二初级参数组后,即加载该第二初级参数组并利用第二验证集验证(即可以是实时验证),当然也可以是训练得到多项第二初级参数组后统一且分别加载不同第二初级参数组,利用第二验证集进行验证(即也可以是独立验证)。前者适用于数据量小的场景,后者适用于数据量大的场景,本领域技术人员可以根据需要进行调整。
步骤229,迭代训练和验证直至二阶损失函数值收敛至预设损失区间,生成多项第二初级参数组、对应的一阶损失函数值以及对应的第二输入图像数据。
步骤2210,综合评价多项第二初级参数组的二阶损失函数值,得到第二损失函数值,将第二损失函数值对应的第二初级参数组作为第二模型参数组。
本实施方式中,针对长短期记忆学习模型的训练过程,在第二训练集和第二验证集的划分、模型内部函数配置、降序排列筛选的规则、预设诊断分类标签的定义和调用、模型训练优化器的选型、二阶损失函数的迭代规则、第二模型参数组的生成等层面上,可以参考弱监督学习模型的训练过程进行替换实施,当然本领域技术人员也可以添附其他现有技术形成不脱离本发明构思的新的技术方案,例如使用基于Python的Pytorch和TensorFlow实现学习模型的搭建。
继续如图13所示,上述任一种实施方式提供的步骤34,在其一个具体实施例中还可以具体包括下述步骤。
步骤341,获取中间特征序列,形成多个节点。
步骤342,根据遗忘门权重矩阵、当前节点值、上一节点隐藏层输出值、遗忘门偏置向量,进行sigmoid激活,计算遗忘门输出值。
对于任意一个节点t,定义遗忘门输出值为
Figure 234859DEST_PATH_IMAGE045
,则其至少满足:
Figure 42278DEST_PATH_IMAGE046
其中,
Figure 557704DEST_PATH_IMAGE047
表示sigmoid激活函数,
Figure 450573DEST_PATH_IMAGE048
为遗忘门权重矩阵,
Figure 958915DEST_PATH_IMAGE049
为上一节点隐藏层输出值,
Figure 362784DEST_PATH_IMAGE050
为当前节点值,
Figure 32800DEST_PATH_IMAGE051
为遗忘门偏置向量。
步骤343,根据输入门权重矩阵、当前节点值、上一节点隐藏层输出值、输入门偏置向量,进行sigmoid激活,计算节点更新值。
对于任意一个节点t,定义节点更新值为
Figure 412965DEST_PATH_IMAGE052
,则其至少满足:
Figure 210151DEST_PATH_IMAGE053
其中,
Figure 992162DEST_PATH_IMAGE054
为输入门权重矩阵,
Figure 849391DEST_PATH_IMAGE055
为输入门偏置向量。
步骤344,根据候选状态权重矩阵、当前节点值、上一节点隐藏层输出值、候选状态偏置向量,进行tanh激活,计算候选状态更新值。
对于任意一个节点t,定义候选状态更新值为
Figure 716853DEST_PATH_IMAGE056
,则其至少满足:
Figure 301418DEST_PATH_IMAGE057
其中,
Figure 688668DEST_PATH_IMAGE058
表示tanh激活函数,
Figure 966066DEST_PATH_IMAGE059
为输入门权重矩阵,
Figure 789665DEST_PATH_IMAGE060
为输入门偏置向量。
步骤345,根据遗忘门输出值、上一节点状态值、节点更新值和候选状态更新值计算当前节点状态值。
对于任意一个节点t,定义当前节点状态值为
Figure 191303DEST_PATH_IMAGE061
,则其至少满足:
Figure 682327DEST_PATH_IMAGE062
其中,
Figure 130626DEST_PATH_IMAGE063
为上一节点状态值。
步骤346,根据输出门权重矩阵、当前节点值、上一节点隐藏层输出值、输出门偏置向量进行sigmoid激活,计算输出门输出值。
对于任意一个节点t,定义输出门输出值为
Figure 723413DEST_PATH_IMAGE064
,则其至少满足:
Figure 915360DEST_PATH_IMAGE065
其中,
Figure 260890DEST_PATH_IMAGE066
为输出门权重矩阵,
Figure 630823DEST_PATH_IMAGE067
为输出门偏置向量。
步骤347,对当前节点状态值进行tanh激活,并根据激活后的节点状态值和输出门输出值计算当前节点隐藏层输出值。
对于任意一个节点t,定义隐藏层输出值为
Figure 694594DEST_PATH_IMAGE068
,则其至少满足:
Figure 690232DEST_PATH_IMAGE069
步骤348,以隐藏层输出值作为中间特征序列的最终概率值并输出。
值得注意地,上述多种实施方式提供的多种方法中,包含的多个步骤之间的先后顺序,以及单个步骤中处理内容的先后顺序,在不存在数据获取和使用关联性的情况下可以进行调整,调整可以是将其先后顺序交换,也可以是将不同步骤配置为同时实施,上述各种互不相关的步骤的顺序并不作为本发明的必要技术特征。
综上,本发明提供的消化系统病理图像识别方法,依次加载卷积神经网络和循环神经网络形成的学习模型,对待测图像数据进行两次分类处理,循环神经网络的输入数据是按照卷积神经网络得到的多个预测概率值排序后筛选形成的,能够进一步利用序列特征连贯性进行错判核查,提高识别分类的准确度,真正实现辅助医学专业人员进行病理判断的效果。同时将卷积神经网络前置、循环神经网络后置,卷积神经网络构建弱监督学习模型可以控制模型的输入数据量,循环神经网络选用长短期记忆模型,长短期记忆模型相对于传统循环神经网络可以缓解长期依赖性。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims (11)

1.一种消化系统病理图像识别方法,其特征在于,包括:
获取待测图像数据;
构建卷积神经网络形成并加载第一学习模型,以第一模型参数组对所述待测图像数据执行分区域遍历预测,得到多个子区域图像数据对应的多个预测概率值;
筛选所述预测概率值符合预设评估条件的子区域图像数据,构成中间图像数据集合,并根据所述第一模型参数组提取所述中间图像数据集合的特征向量,形成中间特征序列;
构建循环神经网络形成并加载第二学习模型,以第二模型参数组对所述中间特征序列执行遍历预测,根据最终概率值符合预设输出条件的子区域图像数据,生成并输出预测子区域图像数据及所述预测子区域图像数据的所述最终概率值;所述方法还包括:
获取原始图像数据,计算所述原始图像数据的染色向量矩阵和染色密度矩阵,得到原始向量矩阵和原始密度矩阵,并计算所述原始密度矩阵的最高分位值作为最高原始密度数据;
根据最高基准密度数据和所述最高原始密度数据计算迁移系数,并利用所述迁移系数更新所述原始密度矩阵,得到更新密度矩阵;
根据基准向量矩阵和更新密度矩阵,计算得到待测图像矩阵;
其中,所述基准向量矩阵为至少一组高染色质量图像数据的染色向量矩阵,所述最高基准密度数据为所述高染色质量图像数据的染色密度矩阵的最高分位值。
2.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述第一学习模型为弱监督学习模型,所述第二学习模型为长短期记忆学习模型;所述方法还包括:
去除所述第一学习模型的全连接层形成特征提取模型,并根据第一模型参数组提取所述中间图像数据集合的特征向量,形成中间特征序列。
3.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述方法具体包括:
获取原始图像数据,对所述原始图像数据执行色彩空间转换,并删除转换后原始图像数据中小于预设原始阈值的元素,形成原始光密度矩阵;
对所述原始光密度矩阵逐行独立计算协方差,形成原始协方差矩阵,根据所述原始协方差矩阵计算特征向量,并进行元素筛选,得到原始特征矩阵;
根据所述原始特征矩阵对所述原始光密度矩阵执行投影,计算投影后的原始光密度矩阵的反正切值,得到原始反正切矩阵,并提取所述原始反正切矩阵中的最高分位反正切值和最低分位反正切值;
计算所述最高分位反正切值和所述最低分位反正切值分别对应的最高参数向量和最低参数向量,并根据所述原始特征矩阵,分别计算对应的第一染色向量和第二染色向量;
根据所述第一染色向量和所述第二染色向量的元素值情况,对所述第一染色向量和所述第二染色向量进行排列,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵。
4.根据权利要求3所述的消化系统病理图像识别方法,其特征在于,所述第一染色向量为所述原始特征矩阵与所述最低参数向量的点积,所述第二染色向量为所述原始特征矩阵与所述最高参数向量的点积;所述方法具体包括:
判断所述第一染色向量的首元素数值是否大于所述第二染色向量的首元素数值;
若大于,则将所述第一染色向量排列于所述第二染色向量的左侧,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵;
若小于等于,则将所述第二染色向量排列于所述第一染色向量的左侧,生成所述原始图像数据的染色向量矩阵,得到所述原始向量矩阵;
所述方法还包括:
以所述原始向量矩阵为标准,对所述原始光密度矩阵执行套索回归,生成所述染色密度矩阵,得到所述原始密度矩阵。
5.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述方法还包括:
遍历所述待测图像矩阵,按照预设尺寸的滑动窗口对所述待测图像矩阵执行分割,得到所述待测图像矩阵的至少两组子区域图像数据,以及所述子区域图像数据在所述待测图像矩阵中的相对位置数据;
遍历所述子区域图像数据的所有像素的灰度数据,计算所述灰度数据中数值小于预设灰度阈值的像素数量与像素总数量的比值,得到所述子区域图像数据的组织区域占比值;
根据符合预设处理条件的子区域图像数据形成所述待测图像数据,其中,所述预设处理条件为:所述子区域图像数据的组织区域占比值大于预设占比阈值。
6.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述方法具体包括:
获取原始图像数据,构建与所述原始图像数据具有相同尺寸的表层图像模板;
根据所述最终概率值和RGB映射曲线,映射得到所述最终概率值对应的伪彩数据,并按照所述预测子区域图像数据的相对位置数据,分别将对应的伪彩数据映射至所述表层图像模板中,生成预测概率分布图像;
设定所述预测概率分布图像具有第一权重,设定所述原始图像数据具有第二权重,将所述预测概率分布图像和所述原始图像数据进行加权混合,生成并输出病理分析图像;
其中,所述相对位置数据记载所述预测子区域图像数据在所述原始图像数据中的相对位置,所述第一权重和所述第二权重的取值范围为0至1,且所述第一权重和所述第二权重之和等于1。
7.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述方法还包括:
获取多组学习图像数据,并对所述学习图像数据执行放大倍率标准化、颜色迁移标准化、图像矩阵分割筛选,得到多组样本图像数据;
按照预设比例将所述样本图像数据划分为第一训练集和第一验证集;
构建卷积神经网络形成并加载弱监督学习模型,调用激活函数对第一训练集中的多个第一训练图像执行遍历推理,并输出第一训练图像中的多个训练子区域图像数据对应的多个训练推理概率值;
按照所述训练推理概率值对所述训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第一输入图像数据;
将所述第一输入图像数据及对应第一训练图像的预设诊断分类标签,输入所述弱监督学习模型,训练得到第一初级参数组,计算所述训练推理概率值与所述诊断分类标签的二元交叉熵,作为第一初级参数组的一阶损失函数,并以所述第一初级参数组更新所述弱监督学习模型;
迭代训练直至一阶损失函数值收敛至预设损失区间,生成多项第一初级参数组、对应的一阶损失函数值以及对应的第一输入图像数据;
分别加载所述多项第一初级参数组下的多个弱监督学习模型,对所述第一验证集中的第一验证图像执行遍历推理,并输出第一验证图像中的多个验证子区域图像数据对应的多个验证推理概率值;
对所述多个验证推理概率值进行筛选,得到最高验证推理概率值作为所述第一验证图像的综合推理概率值,并计算所述综合推理概率值与所述第一验证图像的诊断分类标签的二元交叉熵,作为该第一初级参数组的二阶损失函数;
综合评价多项第一初级参数组的二阶损失函数值,得到第一损失函数值,将所述第一损失函数值对应的第一初级参数组作为所述第一模型参数组。
8.根据权利要求7所述的消化系统病理图像识别方法,其特征在于,所述方法还包括:
获取所述第一模型参数组对应的第一输入图像数据;
去除所述弱监督学习模型的全连接层形成特征提取模型,根据所述第一模型参数组提取所述第一输入图像数据的特征向量,形成学习特征序列;
按照预设比例将所述学习特征序列划分为第二训练集和第二验证集;
构建循环神经网络形成并加载长短期记忆学习模型,调用激活函数对第二训练集中的多个第二训练图像执行遍历推理,并输出第二训练图像中的多个训练子区域图像数据对应的多个训练推理概率值;
按照所述训练推理概率值对所述训练子区域图像数据进行降序排列,筛选位于高位次的预设数量的训练子区域图像数据,得到第二输入图像数据;
将所述第二输入图像数据及对应第二训练图像的预设诊断分类标签,输入所述长短期记忆学习模型,训练得到第二初级参数,计算所述训练推理概率值与所述诊断分类标签的二元交叉熵,作为第二初级参数组的一阶损失函数,并以所述第二初级参数组更新所述长短期记忆学习模型;
加载所述第二初级参数组下的长短期记忆学习模型,对所述第二验证集中的第二验证图像执行遍历推理,并输出第二验证图像中的多个验证子区域图像数据对应的多个验证推理概率值;
对所述多个验证推理概率值进行筛选,得到最高验证推理概率值作为所述第二验证图像的综合推理概率值,并计算所述综合推理概率值与所述第二验证图像的诊断分类标签的二元交叉熵,作为该第二初级参数组的二阶损失函数;
迭代训练和验证直至二阶损失函数值收敛至预设损失区间,生成多项第二初级参数组、对应的一阶损失函数值以及对应的第二输入图像数据;
综合评价多项第二初级参数组的二阶损失函数值,得到第二损失函数值,将所述第二损失函数值对应的第二初级参数组作为所述第二模型参数组。
9.根据权利要求1所述的消化系统病理图像识别方法,其特征在于,所述方法具体包括:
获取所述中间特征序列,形成多个节点;
根据遗忘门权重矩阵、当前节点值、上一节点隐藏层输出值、遗忘门偏置向量,进行sigmoid激活,计算遗忘门输出值;
根据输入门权重矩阵、当前节点值、上一节点隐藏层输出值、输入门偏置向量,进行sigmoid激活,计算节点更新值;
根据候选状态权重矩阵、当前节点值、上一节点隐藏层输出值、候选状态偏置向量,进行tanh激活,计算候选状态更新值;
根据遗忘门输出值、上一节点状态值、节点更新值和候选状态更新值计算当前节点状态值;
根据输出门权重矩阵、当前节点值、上一节点隐藏层输出值、输出门偏置向量,进行sigmoid激活,计算输出门输出值;
对当前节点状态值进行tanh激活,并根据激活后的节点状态值和输出门输出值计算当前节点隐藏层输出值;
以所述隐藏层输出值作为所述中间特征序列的最终概率值并输出。
10.一种消化系统病理图像识别系统,其特征在于,配置为执行权利要求1-9任一项所述的消化系统病理图像识别方法。
11.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述的消化系统病理图像识别方法。
CN202210013379.4A 2022-01-07 2022-01-07 消化系统病理图像识别方法、系统及计算机存储介质 Active CN114022718B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210013379.4A CN114022718B (zh) 2022-01-07 2022-01-07 消化系统病理图像识别方法、系统及计算机存储介质
PCT/CN2023/071024 WO2023131301A1 (zh) 2022-01-07 2023-01-06 消化系统病理图像识别方法、系统及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210013379.4A CN114022718B (zh) 2022-01-07 2022-01-07 消化系统病理图像识别方法、系统及计算机存储介质

Publications (2)

Publication Number Publication Date
CN114022718A CN114022718A (zh) 2022-02-08
CN114022718B true CN114022718B (zh) 2022-03-22

Family

ID=80069628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210013379.4A Active CN114022718B (zh) 2022-01-07 2022-01-07 消化系统病理图像识别方法、系统及计算机存储介质

Country Status (2)

Country Link
CN (1) CN114022718B (zh)
WO (1) WO2023131301A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114022718B (zh) * 2022-01-07 2022-03-22 安翰科技(武汉)股份有限公司 消化系统病理图像识别方法、系统及计算机存储介质
CN115346076B (zh) * 2022-10-18 2023-01-17 安翰科技(武汉)股份有限公司 病理图像识别方法及其模型训练方法、系统和存储介质
CN116403074B (zh) * 2023-04-03 2024-05-14 上海锡鼎智能科技有限公司 基于主动标注的半自动图像标注方法及标注装置
CN117315431B (zh) * 2023-11-29 2024-03-22 中国人民解放军陆军军医大学第二附属医院 一种基于深度学习实现辐射后的造血效果分析方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159238A (zh) * 2021-06-23 2021-07-23 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016634B (zh) * 2020-09-30 2023-07-28 北京百度网讯科技有限公司 医学图像识别方法、装置、设备以及存储介质
CN112258476A (zh) * 2020-10-22 2021-01-22 大连东软教育科技集团有限公司 超声心动图心肌异常运动模式分析方法、系统及存储介质
CN114022718B (zh) * 2022-01-07 2022-03-22 安翰科技(武汉)股份有限公司 消化系统病理图像识别方法、系统及计算机存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159238A (zh) * 2021-06-23 2021-07-23 安翰科技(武汉)股份有限公司 内窥镜影像识别方法、电子设备及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Clinical-grade computational pathology using weakly supervised deep learning on whole slide images;Gabriele Campanella 等;《nature medicine》;20190831;第25卷;第1301-1309页 *
Data-efficient and weakly supervised computational pathology on whole-slide images;Ming Y. Lu 等;《nature biomedical engineering》;20210630;第05卷;第555-570页 *
Weakly supervised action learning with RNN based Fine-to-coarse Modeling;Alexander Richard 等;《arXiv:1703.08132[cs.CV]》;20171009;全文 *
一种基于原型学习的多示例卷积神经网络;何克磊 等;《计算机学报》;20170630;第40卷(第06期);第1265-1274页 *
卷积神经网络在UUV上图像识别的应用;宋博扬 等;《第六届中国指挥控制大会》;20180702;第277-281页 *

Also Published As

Publication number Publication date
CN114022718A (zh) 2022-02-08
WO2023131301A1 (zh) 2023-07-13

Similar Documents

Publication Publication Date Title
CN114022718B (zh) 消化系统病理图像识别方法、系统及计算机存储介质
CN109872306B (zh) 医学图像分割方法、装置和存储介质
CN111260055B (zh) 基于三维图像识别的模型训练方法、存储介质和设备
CN110503630B (zh) 一种基于三维深度学习模型的脑出血分类、定位与预测方法
CN109584209B (zh) 血管壁斑块识别设备、系统、方法及存储介质
KR101889722B1 (ko) 악성 종양 진단 방법 및 장치
CN111738363B (zh) 基于改进的3d cnn网络的阿尔茨海默病分类方法
CN111090764B (zh) 基于多任务学习和图卷积神经网络的影像分类方法及装置
CN115272196B (zh) 组织病理图像中病灶区域预测方法
CN114445670B (zh) 图像处理模型的训练方法、装置、设备及存储介质
KR101889724B1 (ko) 악성 종양 진단 방법 및 장치
CN117015796A (zh) 处理组织图像的方法和用于处理组织图像的系统
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN114445356A (zh) 基于多分辨率的全视野病理切片图像肿瘤快速定位方法
Wetteland et al. Automatic diagnostic tool for predicting cancer grade in bladder cancer patients using deep learning
Patil et al. Fast, self supervised, fully convolutional color normalization of h&e stained images
Behar et al. ResNet50-Based Effective Model for Breast Cancer Classification Using Histopathology Images.
Tyagi et al. Identification and classification of prostate cancer identification and classification based on improved convolution neural network
CN112927215A (zh) 一种消化道活检病理切片自动分析方法
CN112488996A (zh) 非齐次三维食管癌能谱ct弱监督自动标注方法与系统
CN111582057A (zh) 一种基于局部感受野的人脸验证方法
CN114693671B (zh) 基于深度学习的肺结节半自动分割方法、装置、设备及介质
Hwang et al. A fuzzy segmentation method to learn classification of mitosis
CN116128895A (zh) 医学图像分割方法、装置和计算机可读存储介质
CN115862112A (zh) 一种人脸图像痤疮疗效评估用目标检测模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant