CN118072378A - 一种基于sam基础模型的动态决策图像分割方法 - Google Patents

一种基于sam基础模型的动态决策图像分割方法 Download PDF

Info

Publication number
CN118072378A
CN118072378A CN202410272817.8A CN202410272817A CN118072378A CN 118072378 A CN118072378 A CN 118072378A CN 202410272817 A CN202410272817 A CN 202410272817A CN 118072378 A CN118072378 A CN 118072378A
Authority
CN
China
Prior art keywords
segmentation
feature
image
agent
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410272817.8A
Other languages
English (en)
Inventor
何文淦
江丽红
许雯慧
穆罕默德·纳比尔
陈秋月
李淑益
古彩玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Quanyi Technology Co ltd
Original Assignee
Zhuhai Quanyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Quanyi Technology Co ltd filed Critical Zhuhai Quanyi Technology Co ltd
Priority to CN202410272817.8A priority Critical patent/CN118072378A/zh
Publication of CN118072378A publication Critical patent/CN118072378A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Eye Examination Apparatus (AREA)

Abstract

本申请提供一种基于SAM基础模型的动态决策图像分割方法,包括:对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置;使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重;为AI‑Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域;处理完关键区域后,AI‑Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习;根据用户反馈,AI‑Agent自动调整分割策略,实时向用户报告进度和结果。

Description

一种基于SAM基础模型的动态决策图像分割方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于SAM基础模型的动态决策图像分割方法。
背景技术
眼底图像分割作为医学图像处理领域的关键技术,在眼科疾病的诊断和治疗中扮演着不可替代的角色。尽管该领域已取得一定进展,仍面临着多个未解决的技术难题。眼底图像的质量受多种因素影响,如照明条件、成像设备差异、以及患者的生理变异等,图像的模糊、失真或噪声等问题严重影响了分割的准确性和可靠性,目前,业界缺乏一种稳健的方法来处理这些质量不一的图像,以实现准确的分割。大多数现有的分割算法依赖于固定的规则或预定义的特征,缺乏必要的灵活性和适应性,在处理未见过的图像类型或复杂病理时效果不佳。眼底图像分割不仅需要识别单一结构,还需同时处理多种结构和特征,现有的单任务分割方法难以满足这种多元化需求,眼底结构的多样性和复杂性,包括血管、视神经盘、黄斑等结构的差异,以及疾病状态下与正常状态的显著区别,对分割算法的准确性和泛化能力提出了高要求。现有技术难以全面满足这些需求,尤其是在处理极端或特殊情况时。在临床应用中,快速获得分割结果对于疾病的及时诊断和治疗至关重要,然而,许多高精度分割技术需要大量的计算资源和时间,这在实际临床环境中是一个显著的限制,因此,如何在保持分割精度的同时提升算法的计算效率和实时性,成为一个迫切需要解决的问题。每个患者的眼底图像都具有独特性,目前的大多数分割技术采用统一的处理方法,忽略了患者间的个体差异,因此,开发能够适应每个患者独特需求的个性化眼底图像分割方法,是未来研究的一个重要方向。
发明内容
本发明提供了一种基于SAM基础模型的动态决策图像分割方法,主要包括:
对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置;
使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重;
获取图像的关键区域特征后,采用任务适应策略,在基于任务适应策略的AI-Agent内多个分割任务共享关键区域特征,根据不同任务的需求对特征进行微调以实现分割目标;
监测基于任务适应策略的AI-Agent性能,当基于任务适应策略的AI-Agent在执行某项任务时性能出现下降时,实施增量更新机制,调整关键区域的特征提取策略,更新注意力分配模式,并重新训练,优化单任务表现;
根据调整后的关键区域特征,建立眼底图像关键区域特征库,当新的眼底图像输入系统时,检索匹配特征库中的样本图像,提取与新图像匹配度高于预设相似度的关键区域位置信息,确定AI-Agent的注意力区域;
在AI-Agent确定注意力区域后,根据共享特征学习和任务适应策略,进行眼底图像分割任务,获取分割结果,并将新的特征和结果更新至眼底图像关键区域特征库;
为AI-Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域;
处理完关键区域后,AI-Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习;
根据用户反馈,AI-Agent自动调整分割策略,实时向用户报告进度和结果。
优选的,所述对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置,包括:
在获取的眼底图像数据集上进行预训练,通过自监督任务学习通用图像特征,包括预测随机遮挡部分的像素内容、进行像素级对比学习;在预训练的基础上,针对分割任务进行迁移学习,通过对模型的参数进行微调,提升在目标分割任务上的性能;优化模型参数,通过反向传播算法更新网络权重,在训练数据上迭代优化模型表现,直到达到预定的停止条件,获取训练好的SAM;将获取的眼底图像输入SAM模型的image encoder,映射到图像特征空间,使用自适应均值滤波进行降噪处理,平滑图像并减少斑点噪声;通过直方图均衡化增强图像对比度,并用拉普拉斯算法对图像进行锐化,提升细节清晰度;利用SAM处理预处理后的眼底图像,识别和定位眼底的关键区域,包括视盘、血管、杯盘;使用SAM对关键区域包括视盘、血管、杯盘进一步分割和识别,结合原始图像的颜色和纹理特征,识别并细分出病变部位;对于难以判断边界的病变区域,使用区域生长算法,从种子点开始,逐步吸收周围相似像素,确定病变区域的范围,SAM为区域生长算法提供精确的起始种子点,增强分割精度;根据SAM的分割结果和区域生长算法的结果,对病变区域的边界进行调整和确认,输出病变区域精确的边界信息、面积、位置。
优选的,所述使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重,包括:
获取SAM分割并标注的眼底图像数据,包括正常图像和各种眼底疾病图像,并对数据进行注释,标记关键区域和病变类型,非关键区域为图像中关键区域以外的区域;对图像进行预处理操作,包括去噪和图像增强,生成眼底图像数据集,将数据集按照预设比例划分为训练集和测试集;根据眼底图像数据的训练集使用ResNet建立眼底特征提取模型,眼底特征提取模型输入的prompt,包括sparse prompt和dense prompt,通过SAM中的promptencoder映射到prompt特征空间,以用户输入的点、目标框或描述性文字作为Sparseprompts,待分割的目标区域的分割mask作为dense prompts;使用误差反向传播算法和Adam更新网络参数,使眼底特征提取模型学习和提取眼底图像的全局特征,并将提取到的特征表示为向量形式,在训练过程中,定期验证眼底特征提取模型在测试集上的性能,确保眼底特征提取模型具有泛化能力;使用支持向量机对眼底特征提取模型中每一层输出的特征进行评估,并根据特征对于识别关键区域和非关键区域的贡献度,分别为关键区域和非关键区域的特征赋予不同的权重;还包括:对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达。
所述对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达,具体包括:
通过眼底特征提取模型提取眼底图像数据的全局特征的向量表示。对眼底特征提取模型添加注意力层,根据标注的关键区域对图像中的像素进行加权,得到关键区域特征加权后的新表示,其中关键区域的特征权重被增强。根据梯度提升决策树确定每个特征在关键区域和非关键区域的权重,根据权重对得到调整后的特征表示进行调整,得到重加权的特征。使用重加权的特征重新训练眼底特征提取模型,确保重训练的过程中眼底特征提取模型关注关键区域,提高关键区域的识别精度。使用测试集对重训练后的眼底特征提取模型进行评估,获取精度、召回率和F1值指标,对模型进行综合评价,根据评估结果,调整眼底特征提取模型参数。
优选的,所述获取图像的关键区域特征后,采用任务适应策略,在基于任务适应策略的AI-Agent内多个分割任务共享关键区域特征,根据不同任务的需求对特征进行微调以实现分割目标,包括:
从眼底视网膜图像中获取关键区域特征,关键区域包括视网膜血管、视神经盘、黄斑,获取关键区域的特征表示mask;将提取的关键区域特征mask输入到AI-Agent中,为每个分割任务,包括分割血管、视神经盘或黄斑,选择和提取相关特征子集,使AI-Agent根据当前任务需求选择与不同分割任务相关的特征子集,得到基于任务适应策略的AI-Agent;通过支持向量机递归特征消除,根据支持向量机对特征赋予的权重,递归地消除特征,保留对分类最有贡献的特征,确保提取的特征子集具有相关性和辨识力;针对每个任务采用的特征变换进行微调,确保特征空间与SAM的encoder模块要求匹配,所述encoder模块要求是特征维度、特征类型和分布和模型兼容性一致,若某个分割任务的特征空间分布与SAM的encoder模块要求不匹配,采用线性映射进行特征子集的调整;将微调后的特征子集输入到基于任务适应策略的AI-Agent对应的SAM的encoder模块中;根据每个分割任务的计算方式,反复输入适配后的特征,直到得到分割精度高于预设精度的分割结果,对于分割精度低于预设精度的分割任务,多次迭代微调特征和SAM参数;根据分割结果对特征微调过程进行评估和反馈,若反馈分割结果不满足需求,分析问题是否出在特征选择或特征变换上,并相应地调整基于任务适应策略的AI-Agent;还包括:使用mask decoder整合image encoder和prompt encoder的输出,从feature map中解码出最终的分割mask。
所述使用mask decoder整合image encoder和prompt encoder的输出,从featuremap中解码出最终的分割mask,具体包括:
构建组件image encoder、prompt encoder、mask decoder,Image Encoder(IE),IE(I)接收眼底图像I并输出特征图FI,Prompt Encoder(PE),PE(S,D)接收sparse promptsS和dense prompts D,输出特征提示FS和FD,Mask-Decoder(MD),MD(FI,FS,FD)接收来自Image Encoder和Prompt Encoder的特征,并解码生成最终的分割mask M。Image Encoder处理输入的眼底图像I,生成特征图FI。同时,Prompt Encoder处理sparse prompts S和dense prompts D,生成特征提示FS和FD,将特征提示FS和FD输入Mask Decoder。MaskDecoder整合特征,并使用解码公式来生成最终的分割mask M。设FI,FS,FD分别为imagefeatures,sparse prompt features,和dense prompt features。解码公式为其中,/>表示特征融合操作,是连接或加权和,Wf和bf是Mask Decoder的权重和偏置,*表示卷积操作,σ是激活函数,sigmoid,用于生成二值或多值分割mask。
优选的,所述监测基于任务适应策略的AI-Agent性能,当基于任务适应策略的AI-Agent在执行某项任务时性能出现下降时,实施增量更新机制,调整关键区域的特征提取策略,更新注意力分配模式,并重新训练,优化单任务表现,包括:
设定周期性的评估点,使用准确度、召回率、F1分数指标评估AI-Agent的性能,实时监控模型的输出,关注使模型性能下降的任务;当性能指标低于预设的阈值,或相对于前一个评估点有高于预设百分比的下降时,触发问题识别机制;对性能下降的任务进行分析,确定问题方向,包括特征提取问题、数据分布变化;获取对当前任务表现下降有贡献的特征,判断是否需要引入新的特征或剔除无用的特征;若问题方向为特征提取问题,引入新的特征提取方法,使用更新的眼底特征提取模型,或调整现有眼底特征提取模型参数;根据错误分析的结果重新调整注意力权重,使模型关注于关键区域;若问题方向为数据分布的变化,通过数据增强或重新采样来适应新的数据分布,更新训练和验证数据集,加入最新的或性能下降相关的数据;根据更新后的特征和调整后数据集,重新训练模型,优化学习率、正则化强度超参数,提高模型的性能和泛化能力;在独立的测试集上验证更新后的模型性能,持续监控模型性能,确保改进措施有效,且没有引入新的问题。
优选的,所述根据调整后的关键区域特征,建立眼底图像关键区域特征库,当新的眼底图像输入系统时,检索匹配特征库中的样本图像,提取与新图像匹配度高于预设相似度的关键区域位置信息,确定AI-Agent的注意力区域,包括:
对已有的眼底图像数据集进行特征提取,将提取的特征及其对应的图像和区域信息存储在数据库,得到眼底图像关键区域特征库。当输入新的眼底图像时,从图像中提取特征,并在眼底图像关键区域特征库中检索最相似的图像或特征。新图像的特征向量为fnew,特征库中样本图像的特征向量为fsample,相似度使用用余弦相似度计算,其中,·表示点积,而║f║是向量的欧几里得范数。从特征库中获取N个相似度高于预设相似度的图像,每个图像的位置信息为Pi且与新图像的相似度得分为Si,注意力区域/>Patt是根据相似度加权的关键区域位置的平均值得分。根据平均值得分调整AI-Agent的注意力区域,AI-Agent的处理策略调整为优先分析Patt高于预设平均值得分指示区域。
优选的,所述在AI-Agent确定注意力区域后,根据共享特征学习和任务适应策略,进行眼底图像分割任务,获取分割结果,并将新的特征和结果更新至眼底图像关键区域特征库,包括:
使用来自不同分割任务,包括血管、视神经盘和黄斑的标注图像训练眼底特征提取模型,眼底特征提取模型学习到不同任务间的通用特征,同时保留对每种任务有用的独特信息,建立共享特征提取模型;为每种分割任务设计任务适应性网络层,包括卷积层或全连接层,任务适应性网络层接收共享特征提取模型的输出并进一步处理适应任务;对于每个新的分割任务,使用标注数据对任务适应性网络层进行微调,而共享特征提取模型的参数保持不变或仅进行微调,确保共享特征提取模型快速适应新任务,同时保持已学习的通用特征;通过在共享特征提取模型中实现空间注意力机制,将AI-Agent确定的注意力区域作为额外的输入信息集成到共享特征提取模型,将共享特征提取模型重点放在关键区域的特征上,忽略其他区域;对于新输入的眼底图像,运用共享特征提取器和经过适应的任务适应性网络层进行图像分割,获取关键区域的精确分割;使用Dice系数评估每个任务的分割结果,根据评估结果继续优化任务适应性网络层,并更新共享特征提取器。
优选的,所述为AI-Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域,包括:
定义眼底图像中的关键区域层次,在最顶层关注全局结构整个视网膜,中层关注主要关键区域视网膜血管、视神经盘、黄斑,底层聚焦于细节特征血管分叉点、微小病变;设计注意力机制以集成来自AI-Agent的多尺度特征,顶层注意力基于整体特征,而底层注意力则集中在局部特征;在顶层,AI-Agent使用其视觉特征提取能力来识别整体的视网膜形状、大小和边缘,定位视网膜血管、视神经盘、黄斑主要关键区域;在中层,注意力机制细化,聚焦于主要关键区域,包括血管的走向、视神经盘的边界,通过中层注意力,连接全局视图和细节特征;在底层,AI-Agent注意力聚焦于细节,包括微小血管、细小病变微观特征;将从各层次获取的信息进行综合分析,确保AI-Agent不仅关注单个区域,并将各个层次的特征融合;根据任务需求和处理过程中的实时反馈,动态调整各层次注意力的资源分配,若分析主要关键区域完成后,AI-Agent重新分配资源,专注次关键区域;还包括:AI-Agent完成主要关键区域的分析后,调整注意力焦点,转向次关键区域。
所述AI-Agent完成主要关键区域的分析后,调整注意力焦点,转向次关键区域,具体包括:
当区域的分割精度达到预设阈值时,AI-Agent判断主要关键区域的分析完成。在主要关键区域分析完成后,AI-Agent评估当前的资源使用,包括计算资源、时间和任务优先级。根据资源评估结果,将资源和注意力转移到次关键区域,降低对已分析区域的资源分配,增加对未分析区域的资源投入。AI-Agent识别图像中的次关键区域,包括血管的细小分支、微小病变,对次关键区域进行细化分析。AI-Agent持续监控对所有区域的处理效果,确保整体分析的质量和效率,并基于持续的性能监控和反馈,进行迭代改进,优化注意力机制和分析策略。
优选的,所述处理完关键区域后,AI-Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习,包括:
在完成预设数量的眼底图像分割后,AI-Agent获取所有的分割结果,包括每个区域的分割图和分割精度、召回率;AI-Agent进行初步分析,比较分割结果与真实标记、计算分割质量指标,识别分割精度高于预设精度的图像和存在问题的图像;对于分割精度低于预设精度的图像,AI-Agent进一步分析以确定问题的性质,包括误分割的区域、未识别的关键结构、分割界限不清晰;根据分析结果,AI-Agent执行增量学习,调整SAM模型参数、更新训练数据和引入新的特征表示,调整SAM分割模型,解决识别出的问题;AI-Agent将增量学习的结果重新应用于图像分割任务,并再次获取和分析结果,持续进行反馈循环,提升分割质量;AI-Agent持续监控分割性能,定期评估整体和各个区域的分割质量,基于性能监控的结果,进行迭代改进。
优选的,所述根据用户反馈,AI-Agent自动调整分割策略,实时向用户报告进度和结果,包括:
设计界面允许用户上传图像,并通过表单为分割结果提供评分;用户通过标注工具在图像上标注问题区域,并在文本框描述反馈,文本框集成基于BERT的对话系统;用户通过文本框输入反馈,BERT解析用户的自然语言,与AI-Agent进行交互,同时AI-Agent通过支持向量机处理用户给出的评分反馈,自动调整分割参数;对于文本反馈,使用BERT解析用户的意见和建议,对于图形标注,使用卷积神经网络识别和理解标注内容;根据用户反馈,调整AI-Agent策略,包括改变分割算法SAM参数、选择不同的预处理方法或调整分割算法SAM;使用Matplotlib展示动态更新任务的完成状态、预计剩余时间以及分割结果,并提供界面供用户确认或请求重分割;集成报告生成工具Python的ReportLab库,自动生成包含分割质量评估、改进建议的报告。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明公开了一种基于SAM基础模型的动态决策图像分割方法。通过图像预处理和关键区域识别,提高了图像分析的准确性和泛化性,减少了由图像质量不一致造成的误诊风险。同时,本技术在特征提取和管理方面的创新,优化了分割过程,提升了对个体差异和疾病状态的适应能力,使得诊断更加个性化和准确。在实时性和计算效率方面,通过快速处理和精确分割眼底图像,满足了临床快速诊断的需求,尤其在紧急或高负荷的临床环境中表现突出,持续学习和优化机制确保了长期稳定性和可靠性的提升。此外,引入的层次注意力机制和特征库建立,在提高准确性的同时进一步提高了效率。
附图说明
图1为本发明的一种基于SAM基础模型的动态决策图像分割方法的流程图。
图2为本发明的一种基于SAM基础模型的动态决策图像分割方法的示意图。
图3为本发明的一种基于SAM基础模型的动态决策图像分割方法的又一示意图。
图4为本发明的一种基于SAM基础模型的动态决策图像分割方法的再一示意图。
图5为本发明的一种基于SAM基础模型的动态决策图像分割方法的另一示意图。
图6为本发明的一种基于SAM基础模型的动态决策图像分割方法的另一示意图。
具体实施方式
为进一步了解本发明的内容,结合附图及实施例对本发明作详细描述。下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
如图1-6,本实施例一种基于SAM基础模型的动态决策图像分割方法具体可以包括:
S101、对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置。
在获取的眼底图像数据集上进行预训练,通过自监督任务学习通用图像特征,包括预测随机遮挡部分的像素内容、进行像素级对比学习;在预训练的基础上,针对分割任务进行迁移学习,通过对模型的参数进行微调,提升在目标分割任务上的性能;优化模型参数,通过反向传播算法更新网络权重,在训练数据上迭代优化模型表现,直到达到预定的停止条件,获取训练好的SAM;将获取的眼底图像输入SAM模型的image encoder,映射到图像特征空间,使用自适应均值滤波进行降噪处理,平滑图像并减少斑点噪声。通过直方图均衡化增强图像对比度,并用拉普拉斯算法对图像进行锐化,提升细节清晰度。利用SAM处理预处理后的眼底图像,识别和定位眼底的关键区域,包括视盘、血管、杯盘。使用SAM对关键区域包括视盘、血管、杯盘进一步分割和识别,结合原始图像的颜色和纹理特征,识别并细分出病变部位。对于难以判断边界的病变区域,使用区域生长算法,从种子点开始,逐步吸收周围相似像素,确定病变区域的范围,SAM为区域生长算法提供精确的起始种子点,增强分割精度。根据SAM的分割结果和区域生长算法的结果,对病变区域的边界进行调整和确认,输出病变区域精确的边界信息、面积、位置。
例如,在获取的一组包含1000张眼底图像的数据集上,决定进行自监督预训练以学习通用图像特征。设计了预训练任务,包括随机遮挡图像中10%的像素,并让模型预测这些遮挡部分的内容。在这个任务中,模型成功预测了75%的被遮挡像素,这表明已经学习到了一些有用的图像特征。此外,还进行了像素级对比学习,随机选取了两张图像中的相似像素块并要求模型判断是否来自同一位置。在这个任务中,使用了一个对比损失函数,并且模型在验证集上的准确率达到了80%。在预训练的基础上,将模型应用于眼底图像的血管分割任务。使用一个包含200张标注图像的数据集作为迁移学习的目标。通过对预训练模型的参数微调,在分割任务的验证集上从一个基线的Dice系数85提高到了90。对于模型参数的优化,使用了一个带动量的随机梯度下降优化器,并设置学习率为001,动量为9。在迭代过程中,监测了模型在训练集上的损失函数值,并发现初始损失为3,经过10个epoch的训练后,损失下降到了0.5。设定了一个提前停止条件,即如果模型在连续5个epoch的验证集上的性能没有改善,则停止训练。模型在第15个epoch停止训练,此时验证集上的Dice系数已经连续5个epoch没有显著提升。得到了一个经过训练的SAM,在独立的测试集上显示出了高于预训练模型的性能表现,Dice系数为92,比预训练模型提升了2个百分点。对于采集的眼底图像,图像的尺寸为512x512像素,输入image encoder使用自适应均值滤波器对图像进行降噪处理,设置滤波器的邻域大小为5x5像素。计算滤波后图像的均方差,评估降噪效果,降噪后图像的均方差为10。接下来,对降噪后的图像进行直方图均衡化处理,增强图像的对比度,直方图均衡化后图像的对比度提升了30%。使用拉普拉斯算法对图像进行锐化处理,提升细节清晰度,锐化后的图像的平均梯度增加了20%。利用SAM处理预处理后的眼底图像,识别和定位眼底的关键区域,包括视盘、血管和杯盘。SAM成功地定位了这些关键区域,并且生成了它们的位置和大小信息。接着,使用SAM对关键区域进行进一步分割和识别,SAM成功地将病变部位从关键区域中分割出来,并给出了它们的位置和面积信息。对于难以判断边界的病变区域,使用区域生长算法成功地确定了病变区域的范围,并给出了病变区域的边界信息。根据SAM的分割结果和区域生长算法的结果,对病变区域的边界进行调整和确认,输出病变区域精确的边界信息、面积、位置。最终输出的病变区域边界信息的准确率达到90%,面积为1000平方像素,位置在图像的中心位置。
S102、使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重。
获取SAM分割并标注的眼底图像数据,包括正常图像和各种眼底疾病图像,并对数据进行注释,标记关键区域和病变类型,非关键区域为图像中关键区域以外的区域;对图像进行预处理操作,包括去噪和图像增强,生成眼底图像数据集,将数据集按照预设比例划分为训练集和测试集;根据眼底图像数据的训练集使用ResNet建立眼底特征提取模型,眼底特征提取模型输入的prompt,包括sparse prompt和dense prompt,通过SAM中的promptencoder映射到prompt特征空间,以用户输入的点、目标框或描述性文字作为Sparseprompts,待分割的目标区域的分割mask作为dense prompts;使用误差反向传播算法和Adam更新网络参数,使眼底特征提取模型学习和提取眼底图像的全局特征,并将提取到的特征表示为向量形式,在训练过程中,定期验证眼底特征提取模型在测试集上的性能,确保眼底特征提取模型具有泛化能力;使用支持向量机对眼底特征提取模型中每一层输出的特征进行评估,并根据特征对于识别关键区域和非关键区域的贡献度,分别为关键区域和非关键区域的特征赋予不同的权重;还包括:对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达。
例如,从SAM数据库中获取了1000张眼底图像数据,并对这些图像进行分割和标注。其中,有800张图像是正常眼底图像,200张图像是各种眼底疾病的图像,包括黄斑病变、青光眼。在对图像进行预处理操作之前,先进行噪声去除操作,应用中值滤波器使用3x3的窗口,去除了图像中的噪声。接下来,应用图像增强技术,通过直方图均衡化,成功增强了图像的亮度和对比度。选择80%的数据作为训练集,即800张图像作为训练集,剩下的200张图像作为测试集,使用准备好的训练集,开始对眼底特征提取模型进行训练。使用ResNet架构作为基础,构建眼底特征提取模型,不仅接收眼底图像作为输入,还接收两种类型的prompts,sparse prompts和dense prompts。Sparse prompts是少量但富有信息的输入,是用户输入的关于图像特定部分的点、目标框或描述性文字,在黄斑病变的图像中,医生会指出黄斑区域并为其提供一个标记或文字描述,在训练集中,sparse prompts由专家标注或通过某种算法生成。Dense prompts是对图像中待分割目标区域的详细描述,为分割mask,在眼底图像中,这是病变区域、视盘或黄斑的精确分割,mask作为训练时的标签,不仅帮助模型更准确地识别目标区域,还提供了丰富的上下文信息。设计prompt encoder,将sparseprompts和dense prompts映射到prompt特征空间,映射过程通过学习prompts与眼底图像之间的关系来提取特征,并将它们转化为模型理解的形式。在训练阶段,眼底图像及其对应的sparse prompts和dense prompts被送入模型,模型学习如何结合图像内容和prompts信息来提取眼底的全局特征,不仅学习图像本身的特征,还学习如何根据额外的提示信息进行特征提取。使用误差反向传播算法和Adam优化器来更新眼底特征提取模型的权重。使用了100个epochs进行训练,并监测训练集上的损失和准确率。在训练过程中,每隔10个epochs验证一次,在验证集上计算损失和准确率,在第50个epoch时,得到了验证集上的损失为5和准确率为90%。使用支持向量机对眼底特征提取模型中每一层输出的特征进行评估,计算每个特征在梯度提升支持向量机中的重要性指标,包括特征重要性得分,某一层的特征重要性得分为[2,3,1,4],则将权重分别赋值为[1,3,0.5,5.5],反映特征对于关键区域和非关键区域识别的贡献。
对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达。
通过眼底特征提取模型提取眼底图像数据的全局特征的向量表示。对眼底特征提取模型添加注意力层,根据标注的关键区域对图像中的像素进行加权,得到关键区域特征加权后的新表示,其中关键区域的特征权重被增强。根据梯度提升决策树确定每个特征在关键区域和非关键区域的权重,根据权重对得到调整后的特征表示进行调整,得到重加权的特征。使用重加权的特征重新训练眼底特征提取模型,确保重训练的过程中眼底特征提取模型关注关键区域,提高关键区域的识别精度。使用测试集对重训练后的眼底特征提取模型进行评估,获取精度、召回率和F1值指标,对模型进行综合评价,根据评估结果,调整眼底特征提取模型参数。
例如,使用眼底特征提取模型提取眼底图像数据的全局特征的向量表示,将关注眼底图像中的病变区域作为关键区域,并根据梯度提升决策树来确定每个特征在关键区域和非关键区域的权重。训练眼底特征提取模型来提取眼底图像的全局特征向量表示,有一个包含1000个眼底图像的训练集,每个图像都有一个对应的标签,表示是否存在眼底病变,使用这个训练集来训练眼底特征提取模型,并得到一个全局特征向量表示。添加一个注意力层到眼底特征提取模型中,以根据标注的关键区域对图像中的像素进行加权,得到关键区域特征加权后的新表示,其中关键区域的特征权重被增强,将关键区域的特征权重设置为原始特征权重的两倍。使用梯度提升决策树来确定每个特征在关键区域和非关键区域的权重,使用决策树算法来训练一个分类器,其目标是根据特征向量预测眼底图像是否存在眼底病变。在训练过程中,决策树会为每个特征分配一个权重,表示该特征对分类结果的重要性。根据决策树的结果,对得到的特征表示进行调整,以得到重加权的特征。若某个特征在关键区域的权重较高,将该特征在整个特征向量中的权重增加一倍。使用重加权的特征来重新训练眼底特征提取模型,在这个过程中,确保眼底特征提取模型关注关键区域,提高关键区域的识别精度,将关键区域的特征权重设置为原始特征权重的三倍,以强调关键区域的重要性。使用测试集对重训练后的眼底特征提取模型进行评估,获取精度、召回率和F1值指标,以对模型进行综合评价。在测试集上,重训练后的眼底特征提取模型达到了90%的精度和召回率,以及85%的F1值。根据评估结果,分析模型的性能并调整眼底特征提取模型参数,如果模型在非关键区域的识别精度较低,增加关键区域的特征权重,以进一步提高模型对关键区域的关注度。
S103、获取图像的关键区域特征后,采用任务适应策略,在基于任务适应策略的AI-Agent内多个分割任务共享关键区域特征,根据不同任务的需求对特征进行微调以实现分割目标。
从眼底视网膜图像中获取关键区域特征,关键区域包括视网膜血管、视神经盘、黄斑,获取关键区域的特征表示mask;将提取的关键区域特征mask输入到AI-Agent中,为每个分割任务,包括分割血管、视神经盘或黄斑,选择和提取相关特征子集,使AI-Agent根据当前任务需求选择与不同分割任务相关的特征子集,得到基于任务适应策略的AI-Agent;通过支持向量机递归特征消除,根据支持向量机对特征赋予的权重,递归地消除特征,保留对分类最有贡献的特征,确保提取的特征子集具有相关性和辨识力;针对每个任务采用的特征变换进行微调,确保特征空间与SAM的encoder模块要求匹配,所述encoder模块要求是特征维度、特征类型和分布和模型兼容性一致,若某个分割任务的特征空间分布与SAM的encoder模块要求不匹配,采用线性映射进行特征子集的调整;将微调后的特征子集输入到基于任务适应策略的AI-Agent对应的SAM的encoder模块中;根据每个分割任务的计算方式,反复输入适配后的特征,直到得到分割精度高于预设精度的分割结果,对于分割精度低于预设精度的分割任务,多次迭代微调特征和SAM参数;根据分割结果对特征微调过程进行评估和反馈,若反馈分割结果不满足需求,分析问题是否出在特征选择或特征变换上,并相应地调整基于任务适应策略的AI-Agent。
例如,有1000个眼底视网膜图像,每个图像均标记了视网膜血管、视神经盘和黄斑的位置,从每个关键区域提取特征。从视网膜血管提取了100维的特征向量,视神经盘和黄斑各提取了50维的特征向量。设计一个AI-Agent,
能够根据任务,包括血管、视神经盘、黄斑分割选择和提取相关的特征子集,AI-Agent基于AutoGPT进行设计。当任务是血管分割时,AI-Agent可能选择100维中的30个最有信息量的血管特征。在血管分割任务中,运行向量机递归特征消除以识别并保留最有贡献的30维特征。每次迭代消除5%的特征,进行14轮迭代来缩减到30维。对于每个特定任务,若所选的特征子集与SAM的encoder模块要求不匹配,进行特征变换。若SAM需要的是20维的encoder,通过主成分分析进一步减少特征维度,在血管分割任务中,将30维特征通过主成分分析减少到20维。将这20维特征输入到SAM中,初始分割精度为85%。进行迭代训练,每次迭代微调特征和SAM参数,调整支持向量机的正则化参数或调整主成分分析的成分数量,经过5次迭代后,分割精度提升到92%。根据分割结果,评估特征微调过程的效果。预设目标是95%精度,若分割结果不满足需求,分析问题可能出在特征选择或特征变换上。调整AI-Agent的策略,选择更多的特征、使用不同的特征消除策略,或者改变特征变换的方法,继续迭代直到达到目标精度。
使用mask decoder整合image encoder和prompt encoder的输出,从feature map中解码出最终的分割mask。
构建组件image encoder、prompt encoder、mask decoder,Image Encoder(IE),IE(I)接收眼底图像I并输出特征图FI,Prompt Encoder(PE),PE(S,D)接收sparse promptsS和dense prompts D,输出特征提示FS和FD,Mask-Decoder(MD),MD(FI,FS,FD)接收来自Image Encoder和Prompt Encoder的特征,并解码生成最终的分割mask M。Image Encoder处理输入的眼底图像I,生成特征图FI。同时,Prompt Encoder处理sparse prompts S和dense prompts D,生成特征提示FS和FD,将特征提示FS和FD输入Mask Decoder。MaskDecoder整合特征,并使用解码公式来生成最终的分割mask M。设FI,FS,FD分别为imagefeatures,sparse prompt features,和dense prompt features。解码公式为其中,/>表示特征融合操作,是连接或加权和,Wf和bf是Mask Decoder的权重和偏置,*表示卷积操作,σ是激活函数,sigmoid,用于生成二值或多值分割mask。
例如,有一组眼底图像和相应的sparse prompts和dense prompts,我们要通过构建的Image Encoder,Prompt Encoder,和Mask Decoder来生成分割mask。Image Encoder(IE)输入眼底图像I,尺寸为256×256,特征图FI,每个特征图尺寸为64×64×32。PromptEncoder(PE)输入Sparse prompts S,包括点坐标和文本描述,有5个sparse prompts。Dense prompts D,为一个256×256的mask图像。特征提示FS和FD,每个都是64×64×16的特征图。Mask Decoder(MD)从Image Encoder和Prompt Encoder输入FI,FS,FD,输出分割maskM,尺寸256×256。解码公式
其中,Wf是3×3×64的权重矩阵,bf是偏置项,σ是sigmoid函数。IE接收一张256×256的眼底图像,通过卷积、池化等操作,生成64×64×32的特征图FI。PE接收5个sparse prompts和一个dense prompt D,每个经过处理流程,生成64×64×16的特征图FS和FD。将FI,FS,FD通过连接得到一个综合特征图,其尺寸为64×64×64。MD使用预设的权重Wf和偏置bf,通过卷积和sigmoid激活,解码出最终的分割maskM,尺寸为256×256。
S104、监测基于任务适应策略的AI-Agent性能,当基于任务适应策略的AI-Agent在执行某项任务时性能出现下降时,实施增量更新机制,调整关键区域的特征提取策略,更新注意力分配模式,并重新训练,优化单任务表现。
设定周期性的评估点,使用准确度、召回率、F1分数指标评估AI-Agent的性能,实时监控模型的输出,关注使模型性能下降的任务。当性能指标低于预设的阈值,或相对于前一个评估点有高于预设百分比的下降时,触发问题识别机制。对性能下降的任务进行分析,确定问题方向,包括特征提取问题、数据分布变化。获取对当前任务表现下降有贡献的特征,判断是否需要引入新的特征或剔除无用的特征。若问题方向为特征提取问题,引入新的特征提取方法,使用更新的眼底特征提取模型,或调整现有眼底特征提取模型参数。根据错误分析的结果重新调整注意力权重,使模型关注于关键区域。若问题方向为数据分布的变化,通过数据增强或重新采样来适应新的数据分布,更新训练和验证数据集,加入最新的或性能下降相关的数据。根据更新后的特征和调整后数据集,重新训练模型,优化学习率、正则化强度超参数,提高模型的性能和泛化能力。在独立的测试集上验证更新后的模型性能,持续监控模型性能,确保改进措施有效,且没有引入新的问题。
例如,每处理100个样本评估一次AI-Agent性能,设定准确度、召回率、F1分数的阈值,准确度>90%,召回率>85%,F1分数>88%。实时跟踪AI-Agent的输出,特别是对性能突然下降的任务进行标记和记录。如果任一性能指标低于阈值或相对于前一评估点下降超过预设的5%,触发问题识别机制。深入分析性能下降的任务,识别是否是特征提取问题、数据分布变化或其他问题。使用LIME等工具分析哪些特征对性能下降有显著贡献,决定是否引入新特征或移除旧特征。若问题是特征提取不足,引入新的特征提取方法,调整现眼底特征提取模型的参数,包括层数、学习率或其他超参数。根据错误分析结果,重新调整模型的注意力权重,确保模型关注于解决问题的关键区域。若分析显示数据分布变化,采用数据增强或重采样策略适应新的数据分布,更新数据集,特别是加入最新或与性能下降相关的数据。使用更新后的特征和调整后的数据集重新训练模型,优化模型的超参数,如学习率、正则化强度,提高性能和泛化能力。使用交叉验证确保模型稳定性和效果,在独立的测试集上验证更新后的模型性能,确保性能提升。即使模型性能已经提升,也持续监控其性能,以及时发现并解决新的问题。
S105、根据调整后的关键区域特征,建立眼底图像关键区域特征库,当新的眼底图像输入系统时,检索匹配特征库中的样本图像,提取与新图像匹配度高于预设相似度的关键区域位置信息,确定AI-Agent的注意力区域。
对已有的眼底图像数据集进行特征提取,将提取的特征及其对应的图像和区域信息存储在数据库,得到眼底图像关键区域特征库。当输入新的眼底图像时,从图像中提取特征,并在眼底图像关键区域特征库中检索最相似的图像或特征。新图像的特征向量为fnew,特征库中样本图像的特征向量为fsample,相似度使用用余弦相似度计算,其中,·表示点积,而║f║是向量的欧几里得范数。从特征库中获取N个相似度高于预设相似度的图像,每个图像的位置信息为Pi且与新图像的相似度得分为Si,注意力区域/>Patt是根据相似度加权的关键区域位置的平均值得分。根据平均值得分调整AI-Agent的注意力区域,AI-Agent的处理策略调整为优先分析Patt高于预设平均值得分指示区域。
例如,有一个包含1000张标注过的眼底图像的数据集,对于每张图像,提取200维的特征向量,包括图像的色彩、纹理、形状信息,每张图像的关键区域,包括视网膜血管、视神经盘和黄斑的位置信息,被标记为坐标(x,y),所有特征向量和位置信息被存储在特征库中。有一个新的眼底图像输入系统,从中提取了一个200维的特征向量fnew。在特征库中,使用余弦相似度计算与每个库中图像的相似度。获取5个匹配度最高的图像,其特征向量分别为fsample1,fsample2,fsample3,fsample4,fsample5,相似度分数分别为s1,s2,s3,s4,s5。这5个图像的关键区域位置信息分别为p1,p2,p3,p4,p5,其中pi=(xi,yi)。根据公式计算加权平均位置得分通过特征匹配,得到以下数值,相似度分数,s1=0.90、s2=0.85、s3=0.80、s4=0.78、s5=0.75,关键区域位置,p1=(100,200)、p2=(110,210)、p3=(105,205)、p4=(120,220)、p5=(115,215)。
计算
Patt=0.90×(100,200)+0.85×(110,210)+0.80×(105,205)+0.78×(120,220)+0.75×(115,215)/(0.90+0.85+0.80+0.78+0.75)。计算得Patt为坐标点(109,209)。AI-Agent根据Patt=(109,209)确定的注意力区域优先处理这一部分区域。
S106、在AI-Agent确定注意力区域后,根据共享特征学习和任务适应策略,进行眼底图像分割任务,获取分割结果,并将新的特征和结果更新至眼底图像关键区域特征库。
使用来自不同分割任务,包括血管、视神经盘和黄斑的标注图像训练眼底特征提取模型,眼底特征提取模型学习到不同任务间的通用特征,同时保留对每种任务有用的独特信息,建立共享特征提取模型;为每种分割任务设计任务适应性网络层,包括卷积层或全连接层,任务适应性网络层接收共享特征提取模型的输出并进一步处理适应任务;对于每个新的分割任务,使用标注数据对任务适应性网络层进行微调,而共享特征提取模型的参数保持不变或仅进行微调,确保共享特征提取模型快速适应新任务,同时保持已学习的通用特征;通过在共享特征提取模型中实现空间注意力机制,将AI-Agent确定的注意力区域作为额外的输入信息集成到共享特征提取模型,将共享特征提取模型重点放在关键区域的特征上,忽略其他区域;对于新输入的眼底图像,运用共享特征提取器和经过适应的任务适应性网络层进行图像分割,获取关键区域的精确分割;使用Dice系数评估每个任务的分割结果,根据评估结果继续优化任务适应性网络层,并更新共享特征提取器。
例如,使用来自不同分割任务的标注图像训练眼底特征提取模型,包括血管、视神经盘和黄斑的分割任务,使用共享特征提取模型来学习通用特征,并保留对每种任务有用的独特信息。在训练过程中,使用1000张标注图像进行眼底特征提取模型的训练。其中,500张图像用于训练共享特征提取模型,而剩下的500张图像用于任务适应性网络层的微调。对于共享特征提取模型,使用卷积层提取图像的特征,并将其输出作为任务适应性网络层的输入,共享特征提取模型的输出维度为256。针对每个分割任务,设计一个任务适应性网络层,包括两个全连接层。任务适应性网络层的第一个全连接层的输出维度为128,第二个全连接层的输出维度为2,用于二分类问题。任务适应性网络层接收共享特征提取模型的输出,并进行进一步处理以适应任务。在微调阶段,使用50张标注图像对任务适应性网络层进行微调,对于血管分割任务,任务适应性网络层在微调后的Dice系数为9。引入空间注意力机制,使用AI-Agent确定的注意力区域作为额外的输入信息集成到共享特征提取模型中。AI-Agent确定的注意力区域是一个矩形框,中心坐标为(100,100),宽度和高度分别为50像素。对于新输入的眼底图像,将其输入到共享特征提取器和经过适应的任务适应性网络层进行图像分割,分割结果的Dice系数为85,表示分割的精度。根据评估结果,发现对于血管分割任务,分割结果的Dice系数较低,为6.5,继续优化血管分割任务适应性网络层,并更新共享特征提取器。
S107、为AI-Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域。
定义眼底图像中的关键区域层次,在最顶层关注全局结构整个视网膜,中层关注主要关键区域视网膜血管、视神经盘、黄斑,底层聚焦于细节特征血管分叉点、微小病变。设计注意力机制以集成来自AI-Agent的多尺度特征,顶层注意力基于整体特征,而底层注意力则集中在局部特征。在顶层,AI-Agent使用其视觉特征提取能力来识别整体的视网膜形状、大小和边缘,定位视网膜血管、视神经盘、黄斑主要关键区域。在中层,注意力机制细化,聚焦于主要关键区域,包括血管的走向、视神经盘的边界,通过中层注意力,连接全局视图和细节特征。在底层,AI-Agent注意力聚焦于细节,包括微小血管、细小病变微观特征。将从各层次获取的信息进行综合分析,确保AI-Agent不仅关注单个区域,并将各个层次的特征融合。根据任务需求和处理过程中的实时反馈,动态调整各层次注意力的资源分配,若分析主要关键区域完成后,AI-Agent重新分配资源,专注次关键区域。
例如,AI-Agent分析了100张眼底图像,从每张图像中识别出整个视网膜的形状和边缘。在这个层次,AI-Agent使用了图像的全局统计特征,包括平均亮度、对比度,以及简单的形状描述符来快速定位视网膜。AI-Agent细化分析了每张图像的视网膜血管平均识别出300个血管点、视神经盘每张图像1个和黄斑每张图像1个,在此过程中,使用图像的局部纹理特征准确地识别区域。分析血管分叉点平均每张图像50个分叉点和微小病变平均每张图像5个病变细节特征后,AI-Agent聚焦于更细致的特征分析,使用局部图像分割算法或纹理分析技术。AI-Agent首先分配70%的资源到顶层和中层,剩余30%的资源到底层。在完成主要关键区域,中层的初步分析后,AI-Agent根据分析结果动态调整资源分配。若发现某张图像的血管结构异常复杂,将更多资源从其他区域转移到这张图像的底层分析,确保精确分割。在每次分析后,AI-Agent收集分割效果的反馈,某个区域的分割精度是90%,另一个区域的精度是85%。根据反馈,AI-Agent调整其注意力模型和特征提取策略,发现某一区域的分割精度为85%低于预设值88%,增加对该区域的特征学习力度,或者调整注意力权重,提高未来分析的精度。
AI-Agent完成主要关键区域的分析后,调整注意力焦点,转向次关键区域。
当区域的分割精度达到预设阈值时,AI-Agent判断主要关键区域的分析完成。在主要关键区域分析完成后,AI-Agent评估当前的资源使用,包括计算资源、时间和任务优先级。根据资源评估结果,将资源和注意力转移到次关键区域,降低对已分析区域的资源分配,增加对未分析区域的资源投入。AI-Agent识别图像中的次关键区域,包括血管的细小分支、微小病变,对次关键区域进行细化分析。AI-Agent持续监控对所有区域的处理效果,确保整体分析的质量和效率,并基于持续的性能监控和反馈,进行迭代改进,优化注意力机制和分析策略。
例如,使用AI-Agent分析一批包含200张眼底图像的数据集,设定视网膜血管分割的预设精度阈值为95%。AI-Agent在分割前100张图像时,平均达到了96%的分割精度,判断主要关键区域的分析已完成。AI-Agent评估分析前100张图像消耗了60%的计算资源和一半的预定时间。基于资源评估结果,AI-Agent决定将剩余的40%资源投入到次关键区域的分析中,降低对已完成主要区域的资源分配。在剩下的100张图像中,AI-Agent识别出平均每张图像约有10个微小病变和20个细小血管分支作为次关键区域。AI-Agent对次关键区域进行细化分析,使用更精细的特征提取技术,平均每张图像的分析时间增加了30%。在处理所有200张图像后,AI-Agent持续监控分割效果,发现在次关键区域的分割精度为92%。基于监控结果,AI-Agent调整其特征学习模型和注意力分配策略,将更多的学习资源投入到提升次关键区域分割的准确性上,在下一批图像分析中,次关键区域的平均分割精度提升到了94%。
S108、处理完关键区域后,AI-Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习。
在完成预设数量的眼底图像分割后,AI-Agent获取所有的分割结果,包括每个区域的分割图和分割精度、召回率。AI-Agent进行初步分析,比较分割结果与真实标记、计算分割质量指标,识别分割精度高于预设精度的图像和存在问题的图像。对于分割精度低于预设精度的图像,AI-Agent进一步分析以确定问题的性质,包括误分割的区域、未识别的关键结构、分割界限不清晰。根据分析结果,AI-Agent执行增量学习,调整SAM模型参数、更新训练数据和引入新的特征表示,调整SAM分割模型,解决识别出的问题。AI-Agent将增量学习的结果重新应用于图像分割任务,并再次获取和分析结果,持续进行反馈循环,提升分割质量。AI-Agent持续监控分割性能,定期评估整体和各个区域的分割质量,基于性能监控的结果,进行迭代改进。
例如,AI-Agent完成了500张图像的分割,平均分割精度为92%,平均召回率为90%。对比真实标记,AI-Agent识别出450张图像的分割结果为良好,而50张图像显示出分割效果不佳。在那50张分割效果不佳的图像中,AI-Agent识别出25张图像存在误分割区域,15张图像未识别关键结构,10张图像分割界限不清晰。对于误分割区域,平均误差面积为2%,未识别的关键结构主要是小血管和黄斑边缘,分割界限不清晰的图像通常在视网膜边缘区域。AI-Agent调整分割模型SAM,对错误最频繁的25张误分割图像进行重点训练,增加图像边缘处理的训练数据。调整了分割网络中的卷积核大小,引入新的特征表示,包括局部纹理描述符,改善对细小血管和边缘区域的识别。经过模型调整后,AI-Agent再次处理那50张图像,此次平均分割精度提升到了95%,召回率提升到了93%。在接下来的100张新图像的分割任务中,AI-Agent保持了平均94%以上的分割精度,基于结果调整学习策略,优化注意力机制,处理下一批新图像。
S109、根据用户反馈,AI-Agent自动调整分割策略,实时向用户报告进度和结果。
设计界面允许用户上传图像,并通过表单为分割结果提供评分。用户通过标注工具在图像上标注问题区域,并在文本框描述反馈,文本框集成基于BERT的对话系统。用户通过文本框输入反馈,BERT解析用户的自然语言,与AI-Agent进行交互,同时AI-Agent通过支持向量机处理用户给出的评分反馈,自动调整分割参数。对于文本反馈,使用BERT解析用户的意见和建议,对于图形标注,使用卷积神经网络识别和理解标注内容。根据用户反馈,调整AI-Agent策略,包括改变分割算法SAM参数、选择不同的预处理方法或调整分割算法SAM。使用Matplotlib展示动态更新任务的完成状态、预计剩余时间以及分割结果,并提供界面供用户确认或请求重分割。集成报告生成工具Python的ReportLab库,自动生成包含分割质量评估、改进建议的报告。
例如,医生上传一个眼底图像,大小为512x512像素,分割模型SAM自动处理并展示初步分割结果。医生通过滑动条对分割结果整体评分,评分范围是1到5,医生给出了3分的评价。医生发现视神经盘区域分割不准确,使用标注工具在图像上圈出该区域,并在文本框中输入,视神经盘区域边缘不够清晰,需要更精细的分割。文本被基于BERT的对话系统处理,处理结果为,需要改进视神经盘的分割。支持向量机处理医生给出的3分评价,判断需要提高分割的准确性,BERT解析文本反馈,识别出关键词视神经盘和边缘不清晰,使用卷积神经网络处理图形标注,精确识别医生标记的区域。根据用户的评分和反馈,AI-Agent决定是否调整分割算法SAM的参数,包括调整边缘检测敏感度从0.3至0.5,或更换预处理方法,包括从直方图均衡化更换至更复杂的Gabor滤波,若用户请求重分割,AI-Agent将根据调整重新处理图像,并展示新的分割结果。使用Matplotlib在用户界面展示重新分割的进度条和预计剩余时间。分割完成后,展示新的分割结果图,医生检查后满意度提高,给出了5分的评价。利用ReportLab库,生成一份详细报告,包含原始图像、分割结果图、分割质量评分、医生的文字反馈及AI-Agent的调整记录,报告显示,视神经盘区域的分割准确度提高了25%,从75%提高到100%。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (10)

1.一种基于SAM基础模型的动态决策图像分割方法,其特征在于,所述方法包括:
对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置;
使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重;
获取图像的关键区域特征后,采用任务适应策略,在基于任务适应策略的AI-Agent内多个分割任务共享关键区域特征,根据不同任务的需求对特征进行微调以实现分割目标;
监测基于任务适应策略的AI-Agent性能,当基于任务适应策略的AI-
Agent在执行某项任务时性能出现下降时,实施增量更新机制,调整关键区域的特征提取策略,更新注意力分配模式,并重新训练,优化单任务表现;
根据调整后的关键区域特征,建立眼底图像关键区域特征库,当新的眼底图像输入系统时,检索匹配特征库中的样本图像,提取与新图像匹配度高于预设相似度的关键区域位置信息,确定AI-Agent的注意力区域;
在AI-Agent确定注意力区域后,根据共享特征学习和任务适应策略,进行眼底图像分割任务,获取分割结果,并将新的特征和结果更新至眼底图像关键区域特征库;
为AI-Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域;
处理完关键区域后,AI-Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习;
根据用户反馈,AI-Agent自动调整分割策略,实时向用户报告进度和结果。
2.根据权利要求1所述的方法,其中,所述对获取的眼底图像进行去噪锐化预处理,使用SAM识别处理后眼底图像中的关键区域和非关键区域,使用区域生长确立区域的边界和位置,包括:
在获取的眼底图像数据集上进行预训练,通过自监督任务学习通用图像特征,包括预测随机遮挡部分的像素内容、进行像素级对比学习;在预训练的基础上,针对分割任务进行迁移学习,通过对模型的参数进行微调,提升在目标分割任务上的性能;优化模型参数,通过反向传播算法更新网络权重,在训练数据上迭代优化模型表现,直到达到预定的停止条件,获取训练好的SAM;将获取的眼底图像输入SAM模型的image encoder,映射到图像特征空间,使用自适应均值滤波进行降噪处理,平滑图像并减少斑点噪声;通过直方图均衡化增强图像对比度,并用拉普拉斯算法对图像进行锐化,提升细节清晰度;利用SAM处理预处理后的眼底图像,识别和定位眼底的关键区域,包括视盘、血管、杯盘;使用SAM对关键区域包括视盘、血管、杯盘进一步分割和识别,结合原始图像的颜色和纹理特征,识别并细分出病变部位;对于难以判断边界的病变区域,使用区域生长算法,从种子点开始,逐步吸收周围相似像素,确定病变区域的范围,SAM为区域生长算法提供精确的起始种子点,增强分割精度;根据SAM的分割结果和区域生长算法的结果,对病变区域的边界进行调整和确认,输出病变区域精确的边界信息、面积、位置。
3.根据权利要求1所述的方法,其中,所述使用眼底图像数据建立眼底特征提取模型,得到区分关键区域和非关键区域的特征,并赋予不同权重,包括:
获取SAM分割并标注的眼底图像数据,包括正常图像和各种眼底疾病图像,并对数据进行注释,标记关键区域和病变类型,非关键区域为图像中关键区域以外的区域;对图像进行预处理操作,包括去噪和图像增强,生成眼底图像数据集,将数据集按照预设比例划分为训练集和测试集;根据眼底图像数据的训练集使用ResNet建立眼底特征提取模型,眼底特征提取模型输入的prompt,
包括sparse prompt和dense prompt,通过SAM中的prompt encoder映射到prompt特征空间,以用户输入的点、目标框或描述性文字作为Sparse
prompts,待分割的目标区域的分割mask作为dense prompts;使用误差反向传播算法和Adam更新网络参数,使眼底特征提取模型学习和提取眼底图像的全局特征,并将提取到的特征表示为向量形式,在训练过程中,定期验证眼底特征提取模型在测试集上的性能,确保眼底特征提取模型具有泛化能力;使用支持向量机对眼底特征提取模型中每一层输出的特征进行评估,并根据特征对于识别关键区域和非关键区域的贡献度,分别为关键区域和非关键区域的特征赋予不同的权重;还包括:对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达;
所述对关键区域和非关键区域的特征分配不同权重,强化关键区域的特征表达,具体包括:通过眼底特征提取模型提取眼底图像数据的全局特征的向量表示;对眼底特征提取模型添加注意力层,根据标注的关键区域对图像中的像素进行加权,得到关键区域特征加权后的新表示,其中关键区域的特征权重被增强;根据梯度提升决策树确定每个特征在关键区域和非关键区域的权重,根据权重对得到调整后的特征表示进行调整,得到重加权的特征;使用重加权的特征重新训练眼底特征提取模型,确保重训练的过程中眼底特征提取模型关注关键区域,提高关键区域的识别精度;使用测试集对重训练后的眼底特征提取模型进行评估,获取精度、召回率和F1值指标,对模型进行综合评价,根据评估结果,调整眼底特征提取模型参数。
4.根据权利要求1所述的方法,其中,所述获取图像的关键区域特征后,采用任务适应策略,在基于任务适应策略的AI-Agent内多个分割任务共享关键区域特征,根据不同任务的需求对特征进行微调以实现分割目标,包括:
从眼底视网膜图像中获取关键区域特征,关键区域包括视网膜血管、视神经盘、黄斑,获取关键区域的特征表示mask;将提取的关键区域特征mask输入到AI-Agent中,为每个分割任务,包括分割血管、视神经盘或黄斑,选择和提取相关特征子集,使AI-Agent根据当前任务需求选择与不同分割任务相关的特征子集,得到基于任务适应策略的AI-Agent;通过支持向量机递归特征消除,根据支持向量机对特征赋予的权重,递归地消除特征,保留对分类最有贡献的特征,确保提取的特征子集具有相关性和辨识力;针对每个任务采用的特征变换进行微调,确保特征空间与SAM的encoder模块要求匹配,所述encoder模块要求是特征维度、特征类型和分布和模型兼容性一致,若某个分割任务的特征空间分布与SAM的encoder模块要求不匹配,采用线性映射进行特征子集的调整;将微调后的特征子集输入到基于任务适应策略的AI-Agent对应的SAM的encoder模块中;根据每个分割任务的计算方式,反复输入适配后的特征,直到得到分割精度高于预设精度的分割结果,对于分割精度低于预设精度的分割任务,多次迭代微调特征和SAM参数;根据分割结果对特征微调过程进行评估和反馈,若反馈分割结果不满足需求,分析问题是否出在特征选择或特征变换上,并相应地调整基于任务适应策略的AI-Agent;还包括:使用mask decoder整合image encoder和prompt encoder的输出,从feature
map中解码出最终的分割mask;
所述使用mask decoder整合image encoder和prompt encoder的输出,从feature map中解码出最终的分割mask,具体包括:构建组件image
encoder、prompt encoder、mask decoder,Image Encoder(IE),IE(I)接收眼底图像I并输出特征图FI,Prompt Encoder(PE),PE(S,D)接收sparse
prompts S和dense prompts D,输出特征提示FS和FD,Mask-Decoder(MD),MD(FI,FS,FD)接收来自Image Encoder和Prompt Encoder的特征,并解码生成最终的分割mask M;ImageEncoder处理输入的眼底图像I,生成特征图FI;同时,Prompt Encoder处理sparse promptsS和dense prompts D,生成特征提示FS和FD,将特征提示FS和FD输入Mask Decoder;MaskDecoder整合特征,并使用解码公式来生成最终的分割mask M;设FI,FS,FD分别为image
features,sparse prompt features,和dense prompt features;解码公式为其中,/>表示特征融合操作,
是连接或加权和,Wf和bf是Mask Decoder的权重和偏置,*表示卷积操作,σ是激活函数,sigmoid,用于生成二值或多值分割mask。
5.根据权利要求1所述的方法,其中,所述监测基于任务适应策略的AI-Agent性能,当基于任务适应策略的AI-Agent在执行某项任务时性能出现下降时,
实施增量更新机制,调整关键区域的特征提取策略,更新注意力分配模式,并重新训练,优化单任务表现,包括:
设定周期性的评估点,使用准确度、召回率和F1分数指标评估AI-Agent的性能,实时监控模型的输出,关注使模型性能下降的任务;当性能指标低于预设的阈值,或相对于前一个评估点有高于预设百分比的下降时,触发问题识别机制;对性能下降的任务进行分析,确定问题方向,包括特征提取问题和数据分布变化;获取对当前任务表现下降有贡献的特征,判断是否需要引入新的特征或剔除无用的特征;若问题方向为特征提取问题,引入新的特征提取方法,使用更新的眼底特征提取模型,或调整现有眼底特征提取模型参数;根据错误分析的结果重新调整注意力权重,使模型关注于关键区域;若问题方向为数据分布的变化,通过数据增强或重新采样来适应新的数据分布,更新训练和验证数据集,加入最新的或性能下降相关的数据;根据更新后的特征和调整后数据集,重新训练模型,优化学习率和正则化强度超参数,提高模型的性能和泛化能力;在独立的测试集上验证更新后的模型性能,持续监控模型性能,确保改进措施有效,且没有引入新的问题。
6.根据权利要求1所述的方法,其中,所述根据调整后的关键区域特征,建立眼底图像关键区域特征库,当新的眼底图像输入系统时,检索匹配特征库中的样本图像,提取与新图像匹配度高于预设相似度的关键区域位置信息,确定AI-Agent的注意力区域,包括:
对已有的眼底图像数据集进行特征提取,将提取的特征及其对应的图像和区域信息存储在数据库,得到眼底图像关键区域特征库;当输入新的眼底图像时,从图像中提取特征,并在眼底图像关键区域特征库中检索最相似的图像或特征;新图像的特征向量为fnew,特征库中样本图像的特征向量为fsample,相似度使用用余弦相似度计算,其中,·表示点积,而║f║是向量的欧几里得范数;从特征库中获取N个相似度高于预设相似度的图像,每个图像的位置信息为Pi且与新图像的相似度得分为Si,注意力区域/>Patt是根据相似度加权的关键区域位置的平均值得分;根据平均值得分调整AI-Agent的注意力区域,AI-Agent的处理策略调整为优先分析Patt高于预设平均值得分指示区域。
7.根据权利要求1所述的方法,其中,所述在AI-Agent确定注意力区域后,
根据共享特征学习和任务适应策略,进行眼底图像分割任务,获取分割结果,并将新的特征和结果更新至眼底图像关键区域特征库,包括:
使用来自不同分割任务,包括血管、视神经盘和黄斑的标注图像训练眼底特征提取模型,眼底特征提取模型学习到不同任务间的通用特征,同时保留对每种任务有用的独特信息,建立共享特征提取模型;为每种分割任务设计任务适应性网络层,包括卷积层或全连接层,任务适应性网络层接收共享特征提取模型的输出并进一步处理适应任务;对于每个新的分割任务,使用标注数据对任务适应性网络层进行微调,而共享特征提取模型的参数保持不变或仅进行微调,确保共享特征提取模型快速适应新任务,同时保持已学习的通用特征;通过在共享特征提取模型中实现空间注意力机制,将AI-Agent确定的注意力区域作为额外的输入信息集成到共享特征提取模型,将共享特征提取模型重点放在关键区域的特征上,忽略其他区域;对于新输入的眼底图像,运用共享特征提取器和经过适应的任务适应性网络层进行图像分割,获取关键区域的精确分割;使用Dice系数评估每个任务的分割结果,根据评估结果继续优化任务适应性网络层,并更新共享特征提取器。
8.根据权利要求1所述的方法,其中,所述为AI-Agent增加层次注意力机制,聚焦至主要关键区域进行特征提取和处理,主要关键区域分析完成后,转向次关键区域,包括:
定义眼底图像中的关键区域层次,在最顶层关注全局结构整个视网膜,中层关注主要关键区域视网膜血管、视神经盘和黄斑,底层聚焦于细节特征血管分叉点和微小病变;设计注意力机制以集成来自AI-Agent的多尺度特征,顶层注意力基于整体特征,而底层注意力则集中在局部特征;在顶层,AI-Agent使用其视觉特征提取能力来识别整体的视网膜形状、大小和边缘,定位视网膜血管、视神经盘和黄斑主要关键区域;在中层,注意力机制细化,聚焦于主要关键区域,包括血管的走向和视神经盘的边界,通过中层注意力,连接全局视图和细节特征;在底层,AI-Agent注意力聚焦于细节,包括微小血管和细小病变微观特征;将从各层次获取的信息进行综合分析,确保AI-Agent不仅关注单个区域,并将各个层次的特征融合;根据任务需求和处理过程中的实时反馈,动态调整各层次注意力的资源分配,若分析主要关键区域完成后,AI-Agent重新分配资源,专注次关键区域;还包括:AI-Agent完成主要关键区域的分析后,调整注意力焦点,转向次关键区域;
所述AI-Agent完成主要关键区域的分析后,调整注意力焦点,转向次关键区域,具体包括:当区域的分割精度达到预设阈值时,AI-Agent判断主要关键区域的分析完成;在主要关键区域分析完成后,AI-Agent评估当前的资源使用,包括计算资源、时间和任务优先级;根据资源评估结果,将资源和注意力转移到次关键区域,降低对已分析区域的资源分配,增加对未分析区域的资源投入;AI-Agent识别图像中的次关键区域,包括血管的细小分支、微小病变,对次关键区域进行细化分析;AI-Agent持续监控对所有区域的处理效果,确保整体分析的质量和效率,并基于持续的性能监控和反馈,进行迭代改进,优化注意力机制和分析策略。
9.根据权利要求1所述的方法,其中,所述处理完关键区域后,AI-Agent获取和分析分割结果,关注分割质量和识别问题,并根据获取的结果反馈进行增量学习,包括:
在完成预设数量的眼底图像分割后,AI-Agent获取所有的分割结果,包括每个区域的分割图和分割精度和召回率;AI-Agent进行初步分析,比较分割结果与真实标记和计算分割质量指标,识别分割精度高于预设精度的图像和存在问题的图像;对于分割精度低于预设精度的图像,AI-Agent进一步分析以确定问题的性质,包括误分割的区域、未识别的关键结构和分割界限不清晰;根据分析结果,AI-Agent执行增量学习,调整SAM模型参数、更新训练数据和引入新的特征表示,调整SAM分割模型,解决识别出的问题;AI-Agent将增量学习的结果重新应用于图像分割任务,并再次获取和分析结果,持续进行反馈循环,提升分割质量;AI-Agent持续监控分割性能,定期评估整体和各个区域的分割质量,基于性能监控的结果,进行迭代改进。
10.根据权利要求1所述的方法,其中,所述根据用户反馈,AI-Agent自动调整分割策略,实时向用户报告进度和结果,包括:
设计界面允许用户上传图像,并通过表单为分割结果提供评分;用户通过标注工具在图像上标注问题区域,并在文本框描述反馈,文本框集成基于BERT的对话系统;用户通过文本框输入反馈,BERT解析用户的自然语言,与AI-Agent进行交互,同时AI-Agent通过支持向量机处理用户给出的评分反馈,自动调整分割参数;对于文本反馈,使用BERT解析用户的意见和建议,对于图形标注,使用卷积神经网络识别和理解标注内容;根据用户反馈,调整AI-Agent策略,包括改变分割算法SAM参数和选择不同的预处理方法或调整分割算法SAM;使用Matplotl ib展示动态更新任务的完成状态和预计剩余时间以及分割结果,并提供界面供用户确认或请求重分割;集成报告生成工具Python的ReportLab库,自动生成包含分割质量评估和改进建议的报告。
CN202410272817.8A 2024-03-11 2024-03-11 一种基于sam基础模型的动态决策图像分割方法 Pending CN118072378A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410272817.8A CN118072378A (zh) 2024-03-11 2024-03-11 一种基于sam基础模型的动态决策图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410272817.8A CN118072378A (zh) 2024-03-11 2024-03-11 一种基于sam基础模型的动态决策图像分割方法

Publications (1)

Publication Number Publication Date
CN118072378A true CN118072378A (zh) 2024-05-24

Family

ID=91101966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410272817.8A Pending CN118072378A (zh) 2024-03-11 2024-03-11 一种基于sam基础模型的动态决策图像分割方法

Country Status (1)

Country Link
CN (1) CN118072378A (zh)

Similar Documents

Publication Publication Date Title
CN110197493B (zh) 眼底图像血管分割方法
Akbar et al. Automated techniques for blood vessels segmentation through fundus retinal images: A review
Bechar et al. Semi-supervised superpixel classification for medical images segmentation: application to detection of glaucoma disease
Melo et al. Microaneurysm detection in color eye fundus images for diabetic retinopathy screening
AU2008356237A1 (en) Automatic cup-to-disc ratio measurement system
RU2513905C2 (ru) Классификация изображения на основе сегментации изображения
Abbas et al. Machine learning methods for diagnosis of eye-related diseases: a systematic review study based on ophthalmic imaging modalities
Algorri et al. Classification of anatomical structures in MR brain images using fuzzy parameters
Zhou et al. Automatic microaneurysms detection based on multifeature fusion dictionary learning
CN113011340B (zh) 一种基于视网膜图像的心血管手术指标风险分类方法及系统
Krishnamoorthi et al. Hybrid feature vector based detection of Glaucoma
Cervantes et al. A comprehensive survey on segmentation techniques for retinal vessel segmentation
US6941288B2 (en) Online learning method in a decision system
CN118072378A (zh) 一种基于sam基础模型的动态决策图像分割方法
CN116510110A (zh) 基于膀胱冲洗仪的液位数据分析及液位控制方法
Mohammedhasan et al. A new deeply convolutional neural network architecture for retinal blood vessel segmentation
CN116309264A (zh) 造影图像判定方法及造影图像判定装置
CN115170492A (zh) 一种基于ai技术的白内障患者术后视力智能预测评估系统
Bhardwaj et al. Two-tier grading system for npdr severities of diabetic retinopathy in retinal fundus images
Thomas et al. Diabetic retinopathy detection using ensembled transfer learning based thrice CNN with SVM classifier
CN112614092A (zh) 脊柱检测方法和装置
Azeroual et al. Convolutional Neural Network for Segmentation and Classification of Glaucoma.
CN117440584B (zh) 手术器械分割辅助图像曝光方法、系统、设备及存储介质
CN113936165B (zh) Ct图像的处理方法、终端及计算机存储介质
Huang et al. SAMCF: Adaptive global style alignment and multi-color spaces fusion for joint optic cup and disc segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination