CN117635621B - 动态视觉驱动的大模型无感交互分割方法 - Google Patents
动态视觉驱动的大模型无感交互分割方法 Download PDFInfo
- Publication number
- CN117635621B CN117635621B CN202410111204.6A CN202410111204A CN117635621B CN 117635621 B CN117635621 B CN 117635621B CN 202410111204 A CN202410111204 A CN 202410111204A CN 117635621 B CN117635621 B CN 117635621B
- Authority
- CN
- China
- Prior art keywords
- visual
- segmentation
- interaction
- user
- behavior
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 117
- 230000000007 visual effect Effects 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 29
- 230000001939 inductive effect Effects 0.000 title claims abstract description 9
- 230000003993 interaction Effects 0.000 claims abstract description 96
- 230000009012 visual motion Effects 0.000 claims abstract description 56
- 230000033001 locomotion Effects 0.000 claims abstract description 28
- 238000003709 image segmentation Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims abstract description 21
- 238000005516 engineering process Methods 0.000 claims abstract description 10
- 238000001914 filtration Methods 0.000 claims abstract description 7
- 230000006399 behavior Effects 0.000 claims description 72
- 230000004438 eyesight Effects 0.000 claims description 12
- 230000004927 fusion Effects 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000016776 visual perception Effects 0.000 claims description 9
- 230000004424 eye movement Effects 0.000 claims description 7
- 238000013461 design Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008713 feedback mechanism Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000004434 saccadic eye movement Effects 0.000 description 3
- 241000287181 Sturnus vulgaris Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 230000003902 lesion Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002674 endoscopic surgery Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006742 locomotor activity Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 231100000915 pathological change Toxicity 0.000 description 1
- 230000036285 pathological change Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 230000003945 visual behavior Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种动态视觉驱动的大模型无感交互分割方法,具体如下:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割;初始化医学图像分割大模型并加载相关参数;使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为高维特征;采用视觉运动数据过滤器,过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据;根据用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割;分割结果与原始图像叠加并可视化给用户提供反馈。本发明在临床上为医生提供更灵活、智能的交互方式,使整个交互分割过程更符合医生个性化的需求,提高了医生的工作效率。
Description
技术领域
本发明涉及动态视觉驱动的大模型无感交互分割方法,主要涉及医学图像分割大模型和眼动仪的合理结合,能广泛应用于计算机辅助诊断和治疗应用中,如内窥镜手术、超声检查、临床诊断等,属于医学图像处理技术领域。
背景技术
医学图像通常具有复杂的结构、多模态信息和各种病理变化,传统的自动分割算法在处理这些复杂情境时可能受限,而交互式分割通过借助医生的经验和直觉,能够更好地适应不同的医学图像特征。医学图像交互式分割充分利用了医生的专业知识。医生能够直观地识别图像中的特定结构、病变区域,通过实时交互,将他们的知识融入到分割过程中,提高了分割结果的可信度。与传统批处理的自动分割方法相比,交互式分割提供了实时反馈的机会。医生可以在分割过程中观察结果,并及时调整参数或提供反馈,以引导算法更准确地执行分割任务。医学图像交互式分割的兴起为医学影像处理领域带来了新的可能性,架起了医生和计算机视觉技术之间的桥梁,为更智能、更准确的医学图像分析打开了崭新的局面。
随着各种交互方法的探索,如边界框、涂鸦和点击,医学图像交互式分割领域取得了重大进展。在这些技术中,绘制边界框因其方便而被广泛采用。然而,在实践中,放射科医生经常发现自己需要对分割结果进行进一步的修正,这既耗时又可能影响准确性。为了解决这个问题,人们开始寻求更实用的方法,特别是交互点击或涂鸦。这些方法允许放射科医生反复标记错误的区域,从而改善分割结果。与绘制涂鸦相比,交互点击更受欢迎,因为它们给放射科医生带来的负担更少,不需要拖放过程。然而,最近的研究表明,视觉交互作为一种革命性的交互方法脱颖而出,甚至超过了点击交互的效率。利用眼动追踪技术,视觉交互分割进一步简化了流程,并在很大程度上减轻了放射科医生的负担。
然而,目前传统的交互分割模型的训练通常要首先采集大量交互数据,训练特定的分割网络,由于医学图像包含各种模态如CT,MRI,超声图像以及病理图像,而且分割种类多样,导致构建一个能够视觉交互分割各种医学图像的分割模型成本极其昂贵。在当前人工智能处于大模型的背景下,分割大模型也逐渐应用于各个领域中。自从计算机视觉分割大模型SAM发布以来,基于SAM的二次应用及衍生项目越来越多,将其应用于各种任务,比如图像修复、图像编辑、目标检测、图像标注、视频跟踪、3D检测、医学图像分割等。因此,基于以上背景,将视觉运动作为一种交互方式与大模型结合构建动态视觉驱动的大模型无感交互分割方法,实现了医生无需主动交互的自然分割,减少了专业人士的时间成本,从而实现了真正意义上的智能诊断。
发明内容
发明目的:本发明的目的旨在提供一种动态视觉驱动的大模型无感交互分割方法,通过利用眼动追踪技术,实现了放射科医生与分割之间的无感交互。这意味着医生无需繁琐的手动标记或设备操作,而是通过自然的视觉运动行为进行交互,降低使用门槛,提高用户体验。方法的设计结合医生的专业知识和视觉引导,使得分割过程更加个性化。通过实时捕捉医生的视觉运动凝视或扫视行为,网络模型能够根据医生的关注点,自适应地调整分割策略,提高分割结果的准确性。利用大型神经网络模型,能够适应不同的图像特性,在医学图像分割任务中取得更为精确的结果。此外,实时显示分割结果,医生可以即时观察到分割效果,并在需要时调整视线以优化结果。这种实时的反馈机制有助于医生更主动地参与到图像分割的过程中,提高整体的效率。
为实现上述目的,本发明提供一种动态视觉驱动的大模型无感交互分割方法,包括如下步骤:
S1:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割;
S2:初始化医学图像分割大模型并加载相关参数;
S3:使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为图像高维特征;
S4:将步骤S3中收集到的原始视觉运动数据通过视觉运动数据过滤器,能够过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据;
S5:根据步骤S3中的用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割;
S6:将步骤S4、S5中筛选好的视觉运动信息作为提示信息输入医学图像分割大模型,模型中使用提示信息编码器对其进行编码为视觉感知高维特征;
S7:将步骤S3中原始图像高维特征与步骤S6中编码后的视觉感知高维特征进行融合操作,并输入最终的解码器进行分割;
S8:将步骤S7中解码得到的分割结果与原始图像叠加并可视化给用户提供反馈,用户根据当前分割结果调整视线进行下次交互从而优化分割结果。
进一步地,所述步骤S1中将视觉运动引入交互式分割,眼动仪的应用能够追踪和记录用户的视觉运动行为,无需用户采取手动控制的方式。在临床医学领域,传统的主动交互方式,如点击和画框,需要用户不断重复交互,而视觉交互则能够在更自然的条件下获取用户的关注点。通过简化整个交互流程,显著降低了用户的认知负担,使得交互过程更加直观和易用。用户只需通过自然的视觉上的扫视或凝视行为,眼动仪实时收集用户的视觉运动数据,便能完成图像交互分割任务,而无需进行主动的、繁琐的操作步骤。这种临床医用的交互设计不仅提高了操作的便捷性,同时也为医生提供了更加舒适和高效的图像分析工具。
进一步地,所述步骤S2中进行神经网络大模型的初始化,并加载先前经过训练得到的参数,目的在于确保在处理医学图像时能够充分利用已学到的特征和知识。
进一步地,所述步骤S3中通过调用眼动仪进行实时视觉运动数据的采集,实现了对用户对当前医学图像感兴趣区域的动态反馈。这一交互机制通过眼动仪对视觉运动数据的实时采集,能够捕捉到用户的注意焦点和关注点,为后续的医学图像分割提供了有力的引导。充分利用医学分割大模型的优势,模型包含图像编码器和提示信息编码器的双编码器架构,两个编码器具有类似结构,由多个Vision Transformer模块构成。一旦用户选择了当前图像,图像编码器即对该图像进行编码,首先将整个图像划分为固定相同大小的块,接着每个图像块通过线性映射层被映射为一个高维的嵌入向量,在这些嵌入向量序列中引入位置编码以表示每个图像块的相对位置,最后通过多头自注意力机制和多层感知机层提取图像高维特征,以全面把握图像的关键信息。
进一步地,所述步骤S4中将收集到的视觉运动数据经过专门设计的过滤器进行处理,以过滤掉可能的噪声,并将视觉运动行为分类为扫视和凝视,从而更准确地捕捉用户的视觉意图。该过程包含一系列详细步骤:映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视点、根据伪扫视点分类扫视行为和凝视行为。首先,对采集到的视觉运动数据进行处理。这些视觉运动数据是时序数据,采集自专业放射科医生,其中视觉注视屏幕像素点被映射到医学图像上的坐标。在处理过程中,首先通过计算所有坐标点两两之间的欧氏距离构建欧氏距离矩阵。通过当前距离矩阵,计算出平均距离。然后遍历所有坐标点并统计与当前坐标点距离大于平均距离的其他坐标点的个数,个数多于所有注视点数量1/5的坐标点被视为噪声并被过滤掉,从而提高数据的准确性和可靠性。由于视觉运动数据是时序数据,为了识别扫视行为和凝视行为,引入了伪扫视点的概念。在视觉运动数据中,若每个坐标点与前一个点的欧氏距离大于平均距离,则标记该点为伪扫视点,表示发生了一次视线移动行为。为了将伪扫视点分类为扫视行为或凝视行为,通过设置凝视半径,并计算每个伪扫视点凝视半径内是否存在足够数量的坐标点,以确定是连续扫视还是视线移动到目标点凝视,其中凝视半径默认设置为平均距离,点的数量默认为所有视觉注视坐标点的1/5。根据半径内坐标点个数,将伪扫视点归类为扫视点或凝视点,为后续的整体交互行为判断提供了有力的基础。
进一步地,所述步骤S5中将筛选后的视觉运动信息传递给医学图像分割大模型,用户在一次完整的视觉交互中表现出的视觉运动行为模式包括凝视和扫视。通常,凝视行为更倾向于发生在形状较小的分割目标上,而扫视行为则通常涉及形状较大的分割目标。为了优化交互过程,设定扫视行为的阈值。在一次完整的视觉交互结束后,如果扫视行为超过了该阈值,整个交互行为被定义为扫视,而所有扫视点将用于后续的分割操作。如果扫视行为未达到阈值,整个交互行为则被视为凝视,阈值默认设置5。这一设置有助于根据视觉运动行为模式更精准地区分凝视和扫视,并将其应用于分割目标的不同尺寸。
进一步地,所述步骤S6中医学图像分割大模型将视觉运动数据作为提示信息输入网络,模型通过独立的提示信息编码器对其编码得到视觉感知高维特征,为后续解码操作提供了丰富的信息,提示信息编码器与图像编码器结构类似。这种双编码的设计使模型能够更全面地捕捉原始图像和视觉运动提示信息的关键特征,引导网络模型关注与目标类别相关的区域,从而增强了分割模型的性能和精度。
进一步地,所述步骤S7中对步骤S3和S6中提取得到的图像高维特征与视觉感知高维特征/>进行融合操作,首先将两个特征在通道维度上进行拼接,然后经过一系列的卷积操作进行通道调整,并使用残差连接降低模型复杂度,对融合后的特征进行解码操作,解码器同样由一系列的/>块构成,对融合特征解码最后输出分割结果。
进一步地,所述步骤S8中分割后的结果与原始图像叠加,首先分割结果与原始图像叠加并可视化给用户提供反馈。用户可以根据当前的分割效果实时调整视线,进行新的交互行为,眼动仪收集新的视觉运动数据。这一视觉交互的过程不仅使得用户能够直观地感知分割结果,而且提供了实时的用户反馈信号。这种迭代的动态视觉交互机制允许用户根据自身需求不断地微调分割结果。通过不断优化,能够逐渐收敛到用户期望的分割效果,提高了分割的精确性和用户满意度。
有益效果:本发明与现有技术相比,具备如下优点:
1、本发明利用动态视觉驱动技术,通过眼动仪实时捕捉用户在医学图像上的视觉运动数据,这种动态视觉信息能够反映用户对图像的注意力,为后续分割提供了关键的引导;
2、本发明采用大型神经网络模型,以更好地学习和理解多种模态的医学图像中复杂结构和特征,能够适应不同的医学图像,并在分割任务中取得更为精确的结果;
3、本发明通过视觉运动数据的实时捕捉,实现了无感交互,即用户无需使用复杂的设备或手动标记图像,而是通过自然的视觉扫视或凝视行为进行交互。这提高了用户体验,降低了使用门槛;
4、本发明设计视觉运动数据过滤器,能够过滤掉噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据。同时根据用户的视觉运动行为模式,能够智能地判断整体交互行为是扫视或凝视,并选择性将相关行为数据作为提示信息用于医学图像大模型分割;
5、本发明在临床应用上,视觉交互能够更直观地捕捉医生的视觉提示,有助于快速而精准地定位和分割医生感兴趣的结构,使整个交互分割过程更符合医生个性化的需求。通过减少主动交互操作,如点击,提供了更轻松和自然的交互方式,降低了医生的交互复杂度,有助于提高医生的工作效率。
附图说明
图1为本发明提供的动态视觉驱动交互分割网络大模型的拓扑结构示意图,
图2为本发明提供的动态视觉驱动的大模型无感交互分割方法的流程示意图,
图3为本发明提供的视觉运动数据过滤器的流程示意图,
图4为本发明通过视觉交互在各类医学图像的分割结果图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
实施例:采用动态视觉驱动技术,将视觉作为一种交互方式引入交互分割任务中具有很大的价值和潜力,目前交互分割模型的训练通常要首先采集大量交互数据,训练特定交互分割网络,导致构建一个能够视觉交互多种医学图像的分割网络模型成本较高。因此,本发明将医学图像分割大模型与动态视觉驱动技术相结合,采用眼动仪收集用户的视觉运动数据作为交互数据用于提示大模型进行分割;交互分割任务中一个比较大的困扰是用户需要频繁的主动交互才能分割出满意的结果,本发明通过视觉运动数据的实时捕捉,整体交互过程实现了无感交互,即用户无需使用复杂的设备或手动标记图像,而是通过自然的视觉运动行为进行交互。这提高了用户体验,降低了使用门槛;考虑到用户观察图像时的视觉不稳定性,眼动仪容易收集到不属于当前分割目标的眼动数据,导致用于大模型的视觉提示信息对最终的分割结果产生了错误引导,本发明采用特殊设计的视觉运动数据过滤器,能够过滤掉噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据,同时根据用户的视觉运动行为模式,能够智能地判断整体交互行为是扫视或凝视,并选择性将相关行为数据作为提示信息用于医学图像大模型分割。这种个性化的判断使得更贴近用户的习惯和需求。
如图2所示,为本发明的流程示意图,动态视觉驱动的大模型无感交互分割方法,包括如下步骤:
S1:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割。
视觉交互具有多方面的优势,特别是在医学图像分割等领域。视觉交互是一种自然、直观的交互方式。医生在观看医学图像时无形之中就是一种直接的交互方式,因此视觉交互能够利用人类自然的视觉行为,减少了用户学习新技能的负担。视觉交互是一种实时的反馈机制,用户的视觉运动数据通过眼动仪收集可以在几乎即时地传递给网络模型,从而能够实时地调整和响应用户的输入。
S2:初始化医学图像分割大模型并加载相关参数。
通过神经网络大模型的初始化,并加载之前经过训练得到的参数,确保了在处理医学图像时具备已学到的特征和知识。如图1所示,医学图像分割大模型为双编码器解码器结构,其中图像编码器与提示信息编码器具有类似结构,由多个模块构成,通过对两种不同数据的编码得到相应高维特征做融合操作输入解码器输出分割结果。
S3:使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为图像高维特征。
借助眼动仪进行实时视觉运动数据的采集,进行视觉交互。这一交互方式提供了关于用户对当前医学图像感兴趣区域的动态反馈,能够记录用户的视觉运动轨迹、注视持续时间等关键信息。这些视觉运动数据反映了用户在观察医学图像时的注意力分布,为后续的分割过程提供了重要的引导。一旦用户选择了当前图像,图像编码器即对该图像进行编码,提取图像高维特征,以全面把握图像的关键信息。
S4:将步骤S3中收集到的原始视觉运动数据通过视觉运动数据过滤器,能够过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据。
收集到的视觉运动数据经过专门设计的过滤器进行处理,以过滤掉可能的噪声,并将视觉运动行为分类为扫视和凝视,从而更准确地捕捉用户的视觉意图。该过程包含一系列详细步骤:映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视点、根据伪扫视点分类扫视行为和凝视行为。首先,对采集到的视觉运动数据进行处理。这些视觉运动数据是时序数据,采集自专业放射科医生,其中视觉注视屏幕像素点被映射到医学图像上的坐标。在处理过程中,首先计算所有坐标点两两之间的欧氏距离构建欧氏距离矩阵。对于二维空间中的两个坐标点和/>的欧氏距离计算公式为:
其中,代表水平方向坐标,/>代表垂直方向坐标,/>为两点之间的欧氏距离。通过当前欧式距离矩阵,计算出平均欧式距离。图3为视觉运动数据过滤器的流程示意图,对每个坐标点进行统计,计算出与当前坐标点距离大于平均距离的坐标点的个数,个数多于所有注视点数量1/5的坐标点被视为噪声并被过滤掉,并经过过滤,以提高视觉运动数据的准确性和可靠性。由于视觉运动数据是时序数据,为了区分扫视和凝视,引入了伪扫视点的概念。在视觉运动数据中,当每个坐标点与前一个点的欧氏距离超过平均距离时,标记该点为伪扫视点,表示发生了一次视线移动行为。为了将伪扫视点细分为扫视或凝视,设定凝视半径,考虑到每次视觉交互的视觉运动数据具有多样性,采用固定的凝视半径会降低方法的分割性能,因此过滤器会选择将当前视觉交互的平均欧氏距离作为凝视半径。接着,计算每个伪扫视点凝视半径内是否存在足够数量的坐标点。这一过程用于判断是连续扫视还是视线移动到目标点并凝视。通过对坐标点数量的计算,坐标点的阈值默认设置为所有视觉注视坐标点的1/5,将伪扫视点准确分类为扫视点或凝视点,为后续的整体行为判断提供了坚实的基础。
S5:根据步骤S3中的用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割。
在一次完整的视觉交互中,用户整体呈现出的视觉运动行为模式主要包括凝视和扫视。具体而言,凝视行为更倾向于出现在形状较小的分割目标上,而扫视行为通常涉及形状较大的分割目标。为了更有效地优化整个交互过程,引入了扫视行为的阈值设定。在一次完整的视觉交互结束后,评估扫视行为的次数,并将其与预设的阈值进行比较,阈值默认为5。如果扫视行为的次数超过了设定的阈值,将整个交互行为定义为扫视。在这种情况下,所有扫视点将被用于后续的分割操作,以便网络模型更全面地捕捉用户在形状较大目标上的关注点。相反,如果扫视行为的比例未达到阈值,整个交互行为则被视为凝视。在这种情况下,网络模型将更加重视形状较小的分割目标,以满足用户对局部区域的关注需求。
S6:将步骤S4、S5中筛选好的视觉运动信息作为提示信息输入医学图像分割大模型,模型中使用提示信息编码器对其进行编码为视觉感知高维特征。
医学图像分割大模型将筛选好的视觉运动数据作为提示信息输入网络,模型通过独立的提示信息编码器对其编码得到视觉感知高维特征,为后续解码操作提供了丰富的信息,提示信息编码器与图像编码器结构类似。这种双编码的设计使模型能够更全面地捕捉原始图像和视觉运动提示信息的关键特征,引导网络模型关注与目标类别相关的区域,从而增强了分割模型的性能和精度。
S7:将步骤S3中原始图像高维特征与步骤S6中编码后的视觉感知高维特征进行融合操作,并输入最终的解码器进行分割。
在融合过程中,模型综合考虑了两个关键信息源的贡献:一方面是原始图像,包含了医学图像的各种结构信息;另一方面是经过编码的视觉运动提示数据,反映了用户在观察图像时的关注点和注意力分布。通过将这两者有机地结合起来,模型能够更全面、准确地把握用户的视觉意图,从而更精细地指导后续的医学图像分割操作。
S8:将步骤S7中解码得到的分割结果与原始图像叠加并可视化给用户提供反馈,用户根据当前分割结果调整视线进行下次交互从而优化分割结果。
通过调整视线进行下一轮的视觉交互,用户能够有针对性地关注认为需要改进的区域。这种可迭代的闭环反馈机制有效地将用户的主观意愿和交互分割过程结合在一起。用户通过直接观察分割结果,并根据个人判断调整视线,不断优化分割的精度直到符合用户需求的程度。
为了证明本发明的有效性,本发明还提供了下述实验:
具体的,本发明选择不同模态的医学图像采用视觉交互验证其有效性,包括CT、超声图像、X光扫描图像、内窥镜图像。
对比实验中将本方法与点击和矩形框分别作为医学图像分割大模型的提示信息的实验结果对比,评价指标为通用的Dice和ASD。对比结果如表1所示,可以看到,在分割性能上,采用动态视觉与其他交互提示相比有比较明显的提升。
表1 动态视觉与其他交互提示信息在分割结果上的对比结果,
加粗表示性能最好。
为直观地展现本方法地有效性,我们将视觉交互的结果与其他交互作为提示信息在视觉效果上进行对比,图4为各交互方法的分割结果。
第一列为原始医学图像;
第二列为原始医学图像的真实分割标签;
第三列为使用点击交互的分割结果;
第四列为使用绘制矩形框交互的分割结果;
第五列为本发明的视觉交互分割结果。
可以看到相比于其他交互方式,视觉交互能够在一次交互行为中传递更多的提示信息,分割结果在细节方面更符合真实器官形状,具有高质量的可视化结果。
表2视觉交互与其他交互方式在交互时间上的对比结果,
加粗表示性能最好。
同时为了验证视觉交互的实时性,选择不同的交互方式测量其进行一次完整交互所平均耗费时间(单位 s/秒),包括点击、绘制矩形框、动态视觉。对比结果如表2所示,视觉完成一次交互平均耗费时间在各个模态的医学图像上要远少于其他两种交互方式。
Claims (8)
1.动态视觉驱动的大模型无感交互分割方法,其特征在于,实现视觉交互分割包括以下步骤:
S1:引入动态视觉驱动分割技术,在医用领域利用医生动态视觉引导实时无感交互分割;
S2:初始化医学图像分割大模型并加载相关参数;
S3:使用眼动仪实时收集用户在图像上的视觉运动数据并将该图像输入图像编码器编码为图像高维特征;
S4:将步骤S3中收集到的原始视觉运动数据通过视觉运动数据过滤器,能够过滤噪声并将视觉运动数据分类为扫视行为数据和凝视行为数据;
S5:根据步骤S3中的用户的视觉运动行为模式,智能选择将扫视行为数据或凝视行为数据作为提示信息用于分割;
S6:将步骤S4、S5中筛选好的视觉运动信息作为提示信息输入医学图像分割大模型,模型中使用提示信息编码器对其进行编码为视觉感知高维特征;
S7:将步骤S3中原始图像高维特征与步骤S6中编码后的视觉感知高维特征进行融合操作,并输入最终的解码器进行分割;
S8:将步骤S7中解码得到的分割结果与原始图像叠加并可视化给用户提供反馈,用户根据当前分割结果调整视线进行下次交互从而优化分割结果。
2.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S1中,在临床中的实时交互分割过程中引入全新的视觉无感交互方式,具体实施为在用户屏幕下方安装眼动仪,无需主动交互,在用户阅读医学图像过程中眼动仪实时收集视觉运动数据,采用动态视觉引导医学图像分割大模型进行分割。
3.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S3中,用户可自行选择待分割医学图像模态类型,医学图像分割大模型包含图像编码器和提示信息编码器,用户选择图像后,图像编码器会对当前图像进行编码,得到图像高维特征/>,并使用眼动仪收集用户在图像上的实时视觉运动数据。
4.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S4中,采用视觉运动数据过滤器对收集到的原始视觉运动数据进行处理,以滤除噪声并将其分类为扫视行为数据和凝视行为数据,视觉运动数据过滤器工作具体步骤如下:映射视觉注视坐标、构建欧式距离矩阵、噪声滤除、确定伪扫视点、根据伪扫视点分类扫视行为和凝视行为;首先,对采集到的数据进行处理,这些视觉运动数据是时序数据,其中视觉注视屏幕像素点被映射到医学图像上的坐标,在处理过程中,首先通过计算所有坐标点两两之间的欧氏距离构建欧氏距离矩阵,通过当前距离矩阵,计算出平均距离,然后遍历所有坐标点并统计与当前坐标点距离大于平均距离的其他坐标点的个数,个数多于所有注视点数量1/5的坐标点被视为噪声并被过滤掉,从而提高数据的准确性和可靠性,由于视觉运动数据是时序数据,在视觉运动数据中,若每个坐标点与前一个点的欧氏距离大于平均距离,则标记该点为伪扫视点,表示发生了一次视线移动行为,为了将伪扫视点分类为扫视行为或凝视行为,通过设置凝视半径,凝视半径默认为平均距离,计算每个伪扫视点凝视半径内是否存在足够数量的坐标点,坐标点数量阈值默认为所有视觉注视坐标点的1/5,以确定是连续扫视还是视线移动到目标点凝视,根据凝视半径内坐标点个数,将伪扫视点归类为扫视点或凝视点。
5.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S5中的根据用户视觉运动行为模式选择将扫视行为或凝视行为作为合适的提示信息用于分割,用户进行一次完整交互的视觉运动行为模式包括凝视与扫视,对于凝视行为通常发生于形状较小分割目标,而扫视通常为形状较大的分割目标,为了更精准地识别用户的扫视行为,预先设置了扫视行为阈值,默认为5,该阈值为凝视行为发生次数,评估扫视行为的发生次数,如果扫视行为大于预设的阈值,将整个交互行为定义为扫视,此时,所有扫视点将被用于后续的分割操作,以确保充分利用用户的全局视觉引导信息,反之为凝视行为,所有凝视点被用于后续分割操作。
6.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S6中的医学图像分割大模型将视觉运动数据作为提示信息输入网络,模型通过独立的提示信息编码器对其编码得到视觉感知高维特征/>,为后续解码操作提供了丰富的信息,提示信息编码器与图像编码器结构类似,这种双编码的设计使模型能够更全面地捕捉原始图像和视觉运动提示信息的关键特征,从而增强了分割模型的性能和精度。
7.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S3和S6中的图像高维特征与视觉感知高维特征/>对其进行融合操作,首先将两个特征在通道维度上进行拼接,然后经过一系列的卷积操作进行通道调整,并使用残差连接降低模型复杂度,将融合后的特征输入解码器,对融合特征解码最后输出分割结果。
8.根据权利要求1所述动态视觉驱动的大模型无感交互分割方法,其特征在于:所述步骤S8具体步骤为:首先将分割结果与原始图像叠加并可视化给用户提供反馈,用户根据当前分割结果调整视线进行下次交互,根据新的交互收集到的视觉运动数据在上次分割结果上进行优化,分割未分割出的区域或调整错分的区域,该过程可不断迭代直到分割结果满足用户需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111204.6A CN117635621B (zh) | 2024-01-26 | 2024-01-26 | 动态视觉驱动的大模型无感交互分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410111204.6A CN117635621B (zh) | 2024-01-26 | 2024-01-26 | 动态视觉驱动的大模型无感交互分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117635621A CN117635621A (zh) | 2024-03-01 |
CN117635621B true CN117635621B (zh) | 2024-04-09 |
Family
ID=90020316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410111204.6A Active CN117635621B (zh) | 2024-01-26 | 2024-01-26 | 动态视觉驱动的大模型无感交互分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117635621B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433697A (zh) * | 2023-06-13 | 2023-07-14 | 南京航空航天大学 | 基于眼动仪的腹部多器官ct图像分割方法 |
CN116993699A (zh) * | 2023-08-03 | 2023-11-03 | 杭州电子科技大学 | 一种眼动辅助训练下的医学图像分割方法及系统 |
CN117197461A (zh) * | 2023-09-13 | 2023-12-08 | 浙江大学 | 基于视觉基础大模型微调的遥感图像交互式分割方法 |
-
2024
- 2024-01-26 CN CN202410111204.6A patent/CN117635621B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116433697A (zh) * | 2023-06-13 | 2023-07-14 | 南京航空航天大学 | 基于眼动仪的腹部多器官ct图像分割方法 |
CN116993699A (zh) * | 2023-08-03 | 2023-11-03 | 杭州电子科技大学 | 一种眼动辅助训练下的医学图像分割方法及系统 |
CN117197461A (zh) * | 2023-09-13 | 2023-12-08 | 浙江大学 | 基于视觉基础大模型微调的遥感图像交互式分割方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117635621A (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3776458B1 (en) | Augmented reality microscope for pathology with overlay of quantitative biomarker data | |
US9295372B2 (en) | Marking and tracking an area of interest during endoscopy | |
CN111383214B (zh) | 实时内窥镜肠镜息肉检测系统 | |
US11908188B2 (en) | Image analysis method, microscope video stream processing method, and related apparatus | |
CN106569673B (zh) | 多媒体病历报告的显示方法及多媒体病历报告的显示设备 | |
CN111563523B (zh) | 利用机器训练的异常检测的copd分类 | |
US10248756B2 (en) | Anatomically specific movie driven medical image review | |
US20150080652A1 (en) | Lesion detection and image stabilization using portion of field of view | |
McKenna et al. | Towards video understanding of laparoscopic surgery: Instrument tracking | |
CN109646112B (zh) | 超音波探针定位系统及超音波探针定位方法 | |
CN110742690A (zh) | 一种用于配置内窥镜的方法及终端设备 | |
EP4309139A1 (en) | Generating augmented visualizations of surgical sites using semantic surgical representations | |
CN117635621B (zh) | 动态视觉驱动的大模型无感交互分割方法 | |
CN116993699A (zh) | 一种眼动辅助训练下的医学图像分割方法及系统 | |
CN116703837B (zh) | 一种基于mri图像的肩袖损伤智能识别方法及装置 | |
Liu et al. | An Improved Kinect-Based Real-Time Gesture Recognition Using Deep Convolutional Neural Networks for Touchless Visualization of Hepatic Anatomical Mode | |
CN117350979A (zh) | 一种基于医疗超声影像的任意病灶分割和追踪系统 | |
CN116152235A (zh) | 一种肺癌ct到pet的医学图像跨模态合成方法 | |
CN114783575B (zh) | 一种医疗用图像处理系统及方法 | |
Schiphorst et al. | Video2report: A video database for automatic reporting of medical consultancy sessions | |
Vaidyanathan et al. | Using human experts' gaze data to evaluate image processing algorithms | |
CN117237269A (zh) | 基于多尺度裁剪和自监督重建的肺部ct异常检测方法 | |
CN112885435B (zh) | 图像目标区域的确定方法、装置和系统 | |
WO2022195305A1 (en) | Adaptive visualization of contextual targets in surgical video | |
Sganga et al. | Deep learning for localization in the lung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |