CN116012586A - 图像处理方法、存储介质及计算机终端 - Google Patents

图像处理方法、存储介质及计算机终端 Download PDF

Info

Publication number
CN116012586A
CN116012586A CN202310020027.6A CN202310020027A CN116012586A CN 116012586 A CN116012586 A CN 116012586A CN 202310020027 A CN202310020027 A CN 202310020027A CN 116012586 A CN116012586 A CN 116012586A
Authority
CN
China
Prior art keywords
image
semantic segmentation
dimensional image
feature set
body tissue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310020027.6A
Other languages
English (en)
Inventor
张灵
陈杰能
夏英达
姚佳文
闫轲
张建鹏
吕乐
裘茗烟
袁铭泽
方伟
唐禹行
许敏丰
周靖人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310020027.6A priority Critical patent/CN116012586A/zh
Publication of CN116012586A publication Critical patent/CN116012586A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本申请公开了一种图像处理方法、存储介质及计算机终端,可应用于图像识别、图像分割领域。其中,该方法包括:获取三维图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。本申请解决了相关技术中对图像进行处理的性能较低的技术问题,达到同时对多种类型的身体组织图像进行识别的目的。

Description

图像处理方法、存储介质及计算机终端
技术领域
本申请涉及图像处理领域,具体而言,涉及一种图像处理方法、存储介质及计算机终端。
背景技术
目前,医学领域采用的语义分割方案通常专注于图像中的单一对象进行识别,因此,当需要对图像中的多个不同类别的对象进行识别时,可以简单地组合多个语义分割模型,以匹配用户对图像进行语义分割的过程。但是,将多个语义分割模型进行组合会造成分割误差叠加的问题,导致多个语义分割模型的性能不确定且结构复杂,进一步导致对图像进行识别的准确度较低,而且,多个语义分割模型进行组合会导致执行时间边长,进一步导致对图像进行识别的效率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种图像处理方法、存储介质及计算机终端,以至少解决相关技术中对图像进行处理的性能较低的技术问题。
根据本申请实施例的一个方面,提供了一种图像处理方法,包括:获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
根据本申请实施例的另一方面,还提供了一种图像处理方法,包括:响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
根据本申请实施例的另一方面,还提供了一种图像处理方法,包括:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动VR设备或AR设备渲染展示目标语义分割结果。
根据本申请实施例的另一方面,还提供了一种图像处理方法,包括:通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
根据本申请实施例的一方面,还提供了一种图像处理装置,包括:获取模块,用于获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;提取模块,用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块,用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块,基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
根据本申请实施例的另一方面,还提供了一种图像处理装置,包括:第一显示模块,用于响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;第二显示模块,用于响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
根据本申请实施例的另一方面,还提供了另一种图像处理装置,包括:呈现模块,用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;提取模块,用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块,用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块,用于基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动模块,用于驱动VR设备或AR设备渲染展示目标语义分割结果。
根据本申请实施例的另一方面,还提供了一种图像处理装置,包括:第一调用模块,用于通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像;提取模块,用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块,用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块,用于基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;第二调用模块,用于通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述任意一项图像处理方法。
根据本申请实施例的另一方面,还提供了一种处理终端,包括:处理器;存储器,与处理器相连接,用于为处理器提供上述任意一项图像处理方法的指令。
在本申请实施例中,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图;
图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图;
图3是根据本申请实施例1的图像处理方法的流程图;
图4是根据本申请实施例的一种可选的图像处理方法的流程图;
图5是根据本申请实施例2的图像处理方法的流程图;
图6是根据本申请实施例的一种可选的操作界面的示意图;
图7是根据本申请实施例3的图像处理方法的流程图;
图8是根据本申请实施例4的图像处理方法的流程图;
图9是根据本申请实施例5的图像处理装置的示意图;
图10是根据本申请实施例6的图像处理装置的示意图;
图11是根据本申请实施例7的图像处理装置的示意图;
图12是根据本申请实施例8的图像处理装置的示意图;
图13是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
Transformer:是一种经典模型,整体架构可以分为编码器和解码器,Transformer模型使用注意力机制,使得该模型可以并行化训练,并拥有全局信息。
自注意力机制:通过自注意力机制,同一组特征向量作为单一映射源,可以与三个不同的参数化矩阵相乘,从而映射到查询(Q)、键(K)和值(V),每个查询都会关注所有的键-值对并生成一个注意力输出。
交叉注意力机制:键和值的映射源相同,但与查询的映射源不同,从而引入了它们的相互依赖关系。
Mask Transformer:属于Transformer的新变体,分割预测可以是通过查询嵌入到分割嵌入向量的转换,然后与图像特征相乘,生成一组具有自己语义类标签的查询嵌入表示。基本组成部分是解码器,可以将对象查询作为输入并逐渐将它们转换为分割嵌入向量。
大多数医疗AI系统被构建为专注于单一类型的身体组织。这可能会严重限制AI的临床采用。需要简单地组装一定数量的AI模型,以匹配实际CT扫描的诊断过程。在本申请中构建了一个统一的转换器(UniT)模型来对CT(Computed Tomography,称为电子计算机断层扫描)扫描中的不同类型的身体组织进行语义分割。UniT是一个基于查询的MaskTransformer模型,具有多个语义分割结果的输出。通过将对象查询解耦为不同类型的对象查询,并进一步建立它们之间的层次关系,有效地协助了不同类型的身体组织的表示学习,并促进了这些复杂的、解剖学相关的不同类型的身体组织图像读取任务的解决。UniT使用大量CT图像进行端到端训练,可以显着减少组合多系统模型产生的误报数量,使得通用高性能医疗AI系统更近一步。
本申请提出了一种新的表示学习方法,该方法可以将不同类型的身体组织的组织信息表示为语义层次结果中Transformer的对象查询。
实施例1
根据本申请实施例,还提供了一种图像处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图。如图1所示,虚拟现实设备104与终端106相连接,终端106与服务器102通过网络进行连接,上述虚拟现实设备104并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端104并不限定于PC、手机、平板电脑等,服务器102可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
可选地,该实施例的虚拟现实设备104包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
该实施例的终端可以用于执行,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动VR设备或AR设备渲染展示目标语义分割结果。
可选地,该实施例的虚拟现实设备104带有的眼球追踪的HMD(Head MountDisplay,头戴式显示器)头显与眼球追踪模块与上述实施例中的作用相同,也即,HMD头显中的屏幕,用于显示实时的画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向。
图1示出的硬件结构框图,不仅可以作为上述AR/VR设备(或移动设备)的示例性框图,还可以作为上述服务器的示例性框图,一种可选实施例中,图2以框图示出了使用上述图1所示的AR/VR设备(或移动设备)作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图,如图2所示,计算环境201包括运行在分布式网络上的多个(图中采用210-1,210-2,…,来示出)计算节点(如服务器)。每个计算节点都包含本地处理和内存资源,终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境201中的多个服务220-1,220-2,220-3和220-4进行提供,分别代表服务“A”,“D”,“E”和“H”。
终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务,在一些实施例中,可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务(计算环境201中提供的一个或多个服务)的供应和/或请求。
服务是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中,可以根据基于虚拟机(Virtual Machine,VM)的虚拟化、基于容器的虚拟化和/或类似的方式提供服务。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机,在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时,根据基于容器的虚拟化,可以启动容器来虚拟化整个操作系统(Operat ing System,OS),以便多个工作负载可以在单个操作系统实例上运行。
在基于容器虚拟化的一个实施例中,服务的若干容器可以被组装成一个Pod(例如,Kubernetes Pod)。举例来说,如图2所示,服务220-2可以配备一个或多个Pod240-1,240-2,…,240-N(统称为Pod)。每个Pod可以包括代理245和一个或多个容器242-1,242-2,…,242-M(统称为容器)。Pod中一个或多个容器处理与服务的一个或多个相应功能相关的请求,代理245通常控制与服务相关的网络功能,如路由、负载均衡等。其他服务也可以为类似于Pod的Pod。
在操作过程中,执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务,执行一个服务的一个或多个功能需要调用另一个服务的一个或多个功能。如图2所示,服务“A”220-1从入口网关230接收终端用户202的用户请求,服务“A”220-1可以调用服务“D”220-2,服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。
上述的计算环境可以是云计算环境,资源的分配由云服务提供上管理,允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能,而不是扩展单个硬件设备来处理潜在的负载。
在上述运行环境下,本申请提供了如图3所示的图像处理方法。需要说明的是,该实施例的图像处理方法可以由图1所示实施例的移动终端执行。图3是根据本申请实施例1的图像处理方法的流程图。如图3所示,该方法可以包括如下步骤:
步骤S302,获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像。
上述的三维图像可以是通过三维影像设备对生物对象进行扫描所得到的图像,例如,在医学领域中,三维图像可以是CT扫描图像、伦琴射线(又称X光)扫描图像。
上述的生物对象可以人、动物等包含器官的对象。上述的身体组织图像可以是生物对象体内正常的器官组织图像,也可以是生物对象体外的器官组织图像,还可以是器官上发生异常或病变的组织图像,例如,肿瘤、囊肿、脓包等,但不仅限于此。可选地,三维图像中通常包含有生物对象的多个身体组织图像,每个身体组织图像可以仅包含一个类型的身体组织。
在一种可选的实施例中,可以通过CT对生物对象进行扫描,从而得到三维图像,或通过伦琴射线(又称X光)来对生物对象进行扫描,从而得到三维图像,还可以从网络上获取到生物对象中至少一个身体组织图像,从而得到三维图像,具体采集待处理图像的方式可以根据实际情况进行确定。
步骤S304,对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息。
上述的第一特征用于表示生物对象的至少一种身体组织的组织信息,此处的第一特征是逐像素的特征。
由于三维图像通常包含有多个通道的图像,而特征提取通常是针对图像级别进行处理的,因此,可以针对三维图像中不同通道的图像进行特征提取,得到不同通道的特征向量,进而对所有通道的特征向量进行汇总,可以得到最终的第一特征集合。在一种可选的实施例中,可以利用主干网络(backbone)对三维图像进行特征提取,得到第一特征集合,在本申请实施例中,可以采用nnUNet作为主干网络提取三维图像的多尺度特征(即第一特征集合)F=[F1,F2,F3,F4],其中,
Figure BDA0004042197970000081
表示通过投影到通道数d并展平空间维度Dj、Hj和Wj所得到的第j层特征图。
步骤S306,对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
在本申请实施例中,可以采用基于查询的Mask Transformer对三维图像进行语义分割,其中,Mask Transformer旨在使用多个查询向量来解码像素级的特征。上述的多个查询向量可以是预先根据语义分割任务所设定的一组K个可选的查询向量q=[q1,...,qk]∈RK×d,其中,K是查询向量的数量,d是查询向量的维度。每个查询向量可以是随机初始化的,并且分配给一语义类。例如,在医学领域中,需要对生物对象的正常身体组织图像(如肺、食道、肝等),以及出现异常或病变的身体组织图像(如肿瘤、囊肿等)进行语义分割,因此,可以针对所有需要进行语义分割的不同类型的身体组织图像,确定查询向量,从而得到上述的多个查询向量。
在一种可选的实施例中,可以通过Transformer模型中的解码器模块对第一特征集合和多个查询向量进行注意力处理,实现以第一特征集合为条件,并通过注意力机制对多个查询向量进行更新,从而可以有效且高效地得到能够表征不同类型的身体组织图像的上下文信息的特征向量,即上述的第一查询向量集合。需要说明的是,此处的注意力处理可以是交叉注意力处理,也可以是交叉注意力处理和自注意力处理,但不仅限于此,在本申请实施例中,以交叉注意力处理和自注意力处理为例进行说明。可选的,对于每个像素点,都可以通过注意力机制在该像素的路径上收集到所有像素的上下文信息,通过进一步的循环操作,每个像素最终都能够获取到全局的依赖关系。
通过对第一特征集合和多个查询向量进行注意力处理,可以在考虑全局的基础上得到多个需要关注的特征向量,从而减少后续图像识别的计算量,并且可以通过查询向量来对第一特征集合进行分类,可以使得后面的语义分割任务的准确度更高。
步骤S308,基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
上述的目标语义分割结果可以是指对三维图像中的所有体素点进行分类,确定属于同一个类型的身体组织图像的体素点,达到像素级语义分割的目的。
在一种可选的实施例中,由于第一特征集合可以包含多种不同类型的身体组织图像的特征向量,而且不同类型的身体组织图像可以对采用不同粒度对同一身体组织图像进行划分得到的,例如,在医学领域中,肿瘤组织图像通常是对器官组织图像进行划分得到的。因此,本申请实施例中的语义分割任务实质是多个不同粒度的语义分割任务,可以通过多任务查询解码模型进行解码。在语义分割过程中,多任务查询解码模型可以对第一特征集合和第一查询向量集合进行联合处理,通过计算L2归一化图像特征(即第一特征集合)F∈Rd×D×H×W和对象查询(即第一查询向量集合)q∈RK×d之间的相似度,来生成K个分割预测M∈RK×D×H×W,然后通过softmax函数可以获取到语义分割任务中的像素级类别识别图(即目标语义分割结果)。可选地,K个分割预测具体计算公式如下:
M=q×F。
通过上述步骤,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织图像进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
需要说明的是,本申请实施例中对身体组织图像进行采集、存储、处理、输出等操作均符合国家法律法规,而且获取到用户的授权许可。
在本申请上述实施例中,对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,包括:利用语义分割模型中的解码器模型对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合。
上述的语义分割模型可以是预先训练得到的用于对三维图像进行语义分割的模型,该模型可以同时对多个不同类型的身体组织图像进行语义分割,该模型可以由三部分组成,分别是用于特征提取的backbone模型、用于对象查询交互的Transformer模型、以及用于生成目标语义分割结果的多任务查询解码模型。上述的解码器模型可以是指Transformer模型,具体可以是Transformer中的解码器decoder。
在一种可选的实施例中,在提取出第一特征集合之后,可以将第一特征集合和预先构建的多个查询向量输入至解码器模型进行注意力处理,解码器模型的输出即为第一查询向量集合。
在本申请上述实施例中,解码器模型包含多个解码层,解码层包含交叉注意力模块、自注意力模块和前馈网络模块,其中,利用解码器模型对输入特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,包括:利用交叉注意力模块对第一特征集合和多个查询向量进行交叉注意力处理,得到交叉注意力特征集合,其中,第一个解码层输入的输入特征集合为第一特征集合;利用自注意力模块对交叉注意力特征集合进行自注意力处理,得到自注意力特征集合;利用前馈网络模块对自注意力特征集合进行处理,得到输出特征集合,其中,最后一个解码层输出的输出特征集合为第一查询向量集合,其他解码层输出的输出特征集合为下一个解码层输入的输入特征集合,其他解码层为多个解码层中除最后一个解码层之外的解码层。
上述的解码器模型可以由多个解码层堆叠构成,可选地,综合考虑解码器模型的解码准确度和解码效率,在本申请实施例中,以3个解码层为例进行说明。解码层都包含有一个多头交叉注意力(即上述的交叉注意力模块)、一个多头自注意力(即上述的自注意力模块)和一个前馈网络(即上述的前馈网络模块)构成。需要说明的是,解码层的具体结构可以采用现有的Transformer模型的中的结构,也可以根据需要在现有的Transformer模型基础上进行改进。
在一种可选的实施例中,解码层输出的输出特征集合可以通过多个查询向量和第一特征集合之间的交叉注意力和特征向量的自注意力来进行更新,具体更新公式如下:qj=SA(CA(qj-1,Fj)),
其中,CA()表示交叉注意力的函数,SA()表示自注意力的函数。
在本申请上述实施例中,基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,包括:基于第一特征集合,将第一查询向量集合中的第一查询向量分别输入语义分割模型中的多任务查询解码模型进行解码,得到目标语义分割结果。
由于不同类型的身体组织图像之间存在包容性,例如,在医学领域中,不同类型的身体组织图像可以是肝脏图像和肝脏肿瘤图像,肝脏图像中又包含有肝脏肿瘤图像。当需要同时对多个类型的身体组织图像进行语义分割时,通过无法将表示不同类型的身体组织图像的特征向量进行联合解码,因此,可以预先构建能够同时执行多个语义分割任务的多任务查询解码模型,并利用三维训练样本进行训练,从而多任务查询解码模型可以将表示不同类型的身体组织图像进行单独解码。
在一种可选的实施例中,可以将第一查询向量集合输入至多任务查询解码模型中,并分别基于第一特征集合进行解码,从而得到多个语义分割结果(即上述的目标语义分割结果)。
在本申请上述实施例中,不同类型的身体组织的组织信息至少包括:第一类型的身体组织的组织信息和第二类型的身体组织的组织信息,第一类型和第二类型对身体组织图像进行划分的粒度不同。
在医学领域中,发生异常或病变的身体组织往往可以划分为不同层级的类型,例如,肿瘤大类和肿瘤亚型。因此,在本申请实施例中,可以将不同类型的身体组织图像划分为两类,分别用C和D表示,第一类型对身体组织图像的划分粒度大于第二类型对身体组织图像的划分粒度,在此基础上,多任务查询模型可以执行双任务语义分割,分别对表示两种不同类型的身体组织的组织信息的第一查询向量进行解码。具体公式如下:
MC=softmax(C×F),
MD=softmax(D×F),
其中,MC表示第一类型的语义分割结果,MD表示第二类型的语义分割结果。
例如,以医学领域为例,可以将多个查询向量划分为三个不重叠的组,分别用S、A和B表示,其中,S表示共享查询,也即双任务语义分割中共享的查询向量;A表示大类查询向量,也即划分粒度较大的语义分割中的查询向量;B表示小类查询向量,也即划分粒度较小的语义分割中的查询向量。而且,B对应的小类是包含于A对应的大类中。因此,C=[A,S],D=[B,S],上面的计算公式变更为:
MA+S=softmax([A,S]×F),
MB+S=softmax([B,S]×F)。
在本申请上述实施例中,利用线性投影层将第一类型的身体组织的组织信息映射至第二类型的身体组织的组织信息。
在一种可选的实施例中,由于第二类型的身体组织的组织信息是第一类型的身体组织的组织信息中的子类型的身体组织的组织信息,因此,可以将第一类型的身体组织的组织信息作为父节点,并将第二类型的身体组织的组织信息作为子节点,从而构建相应的关系图,从而实现构建语义层次关系。具体地,可以通过带矩阵的线性投影层将父节点投射到子节点。
例如,仍以医学领域为例,为了构建查询向量A和查询向量B之间的语义层次关系,可以通过带矩阵
Figure BDA0004042197970000121
的线性投影层将查询向量A∈R1×d投射到查询向量
Figure BDA0004042197970000122
具体公式如下:
B=A×WT
其中,ni表示小类查询向量的数量,T表示矩阵的转置。
在本申请上述实施例中,该方法还包括:获取训练样本,其中,训练样本包含:三维样本图像和预设语义分割结果,三维样本图像包含预设生物对象的至少一个生物组织图像;利用语义分割模型中的主干网络,对三维图像进行特征提取,得到生物组织图像的第二特征集合,其中,第二特征集合中的不同第二特征用于表征三维样本图像中不同通道的图像信息;利用语义分割模型中的编码器模型,对第二特征集合和多个查询向量进行注意力处理,得到第二查询向量集合;基于第二特征集合,将第二查询向量集合中的第二查询向量分别输入至语义分割模型中的多任务查询解码模型进行解码,得到样本语义分割结果;基于预设语义分割结果和样本语义分割结果,确定总损失值;基于总损失值,对语义分割模型的模型参数进行调整。
上述的训练样本可以包括:与三维图像属于相同领域的三维样本图像,以及通过人工标注的预设语义分割结果,即标注信息。
在一种可选的实施例中,通过语义分割模型对三维样本图像进行处理,可以得到样本语义分割结果,然后可以基于样本语义分割结果和预设语义分割结构构建损失函数,从而在确定总损失值之后,可以基于总损失值与预设阈值的比较结果,对语义分割模型的模型参数进行调整,达到模型训练的目的。此处的损失函数可以是交叉熵损失函数和dice损失的组合,用来加强相同目标的相似性。
在本申请上述实施例中,在基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果之后,该方法还包括如下至少之一:将目标连通分量与预设连通分量进行匹配,并在目标连通分量与预设连通分量匹配成功的情况下,确定三维图像的类型为目标连通分量对应的类型,其中,目标连通分量基于目标语义分割结果生成;确定三维图像的类型为目标连通分量中的最大连通分量对应的类型。
上述的预设连通分量可以是基于预设类型的身体组织图像所生成的连通分量。
在一种可选的实施例中,在得到目标语义分割结果之后,可以从目标语义分割结果中提取预设类型的身体组织的语义分割结果,并生成相应的目标连通分量,如果目标连通分量和预设连通分量重叠,则确定三维图像中确实包含预设类型的身体组织,因此,可以确定三维图像的类型为该预设类型。
在另一种可选的实施例中,在得到目标语义分割结果之后,可以从目标语义分割结果中提取每种类型的身体组织的语义分割结果,并生成不同的连通分量,进一步三维图像的类型可以由最大连通分量的类型决定。
在又一种可选的实施例中,由于不同类型的身体组织的组织信息可以进一步划分为两个类型,因此,可以从目标语义分割结果中提取第一类型的身体组织的语义分割结果,以及第二类型的身体组织的语义分割结果。对于第一类型的身体组织的语义分割结果,可以生成相应的目标连通分量,如果目标连通分量和预设连通分量重叠,则确定三维图像中确实包含预设类型的身体组织。对于第二类型的身体组织的语义分割结果,可以生成相应的目标连通分量,并确定三维图像中确实包含最大连通分量的类型的身体组织。因此,最终可以确定三维图像的类型为预设类型和最大连通分量的类型。
下面结合图4,以医学领域为例对本申请一种优选的实施例进行详细说明。如图4所示,首先可以将不同类型的身体组织的组织信息划分为查询S、查询A和查询B,如图4所示,可以划分为S1、S2、S3、A1、A2、A3、B11、B12、B13、B21、B22、B31和B32,然后根据子类型身体组织的关系,通过线性投影FC构建从A到B的查询层次结构,如图4所示,A1到B11、B12、B13的查询层次结构,A2到B21、B22的查询层次结构,A3到B31和B3的查询层次结构。在输入CT扫描图像之后,可以通过backbone提取多尺度特征,并且上述查询向量可以在输入有多尺度特征的Transformer解码器中进行交互和更新,Transformer解码器可以由三个解码层堆叠构成,解码层由多头交叉注意力、多头自注意力和前馈网络构成,最后通过执行双任务查询解码来生成两个任务的语义分割结果。两个任务的语义分割结果可以在推理阶段通过后处理,产生不同类型的身体组织实例。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
根据本申请实施例,还提供了一种图像处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图5是根据本申请实施例2的图像处理方法的流程图。如图5所示,该方法可以包括如下步骤:
步骤S502,响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像。
上述的操作界面可以是提供给用户进行人机交互的界面,可以是客户端界面,也可以是云服务界面。输入指令可以是用户在操作界面上进行操作所生成的指令,通过该指令可以控制影像设备对生物对象进行所扫描,或者直接选择提前扫描号的三维图像。例如,如图6所示,用户可以通过点击“扫描”按钮控制影像设备对生物对象进行所扫描,或者直接将需要进行语义分割的三维图像拖动至虚线框的方式,得到三维图像,三维图像可以显示在右侧的“图像显示区域”中。
步骤S504,响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
上述的图像处理指令可以是用户在操作界面上进行操作所生成的指令,通过该指令可以对三维图像进行特征提取、注意力处理和语义分割,得到目标语义分割结果,例如,如图6所示,图像处理指令可以是用户点击“图像处理”按钮所生成的指令,目标语义分割结果可以显示在右侧的“语义分割结果区域”中。
通过上述步骤,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织图像进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例3
根据本申请实施例,还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的图像处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图7是根据本申请实施例3的图像处理方法的流程图。如图7所示,该方法可以包括如下步骤:
步骤S702,在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像。
在一种可选的实施例中,影像设备可以与VR或AR设备连接,用户可以通过操作VR或AR设备来控制影像设备对生物对象进行扫描。
步骤S704,对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息。
步骤S706,对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
步骤S708,基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
步骤S710,驱动VR设备或AR设备渲染展示目标语义分割结果。
通过上述步骤,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织图像进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
可选地,在本实施例中,上述图像处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示图像处理,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。
可选地,虚拟现实设备包括:存储器、处理器和传输装置。存储器用于存储应用程序,该应用程序可以用于执行:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动VR设备或AR设备渲染展示目标语义分割结果。
需要说明的是,该实施例的上述应用在VR设备或AR设备中的图像处理方法可以包括图3所示实施例的方法,以实现驱动VR设备或AR设备渲染展示图像处理的目的。
可选地,该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件,也可以用于上述处理器与存储器之间的数据传输。
可选地,在虚拟现实设备中,带有眼球追踪的头戴式显示器,该HMD头显中的屏幕,用于显示展示的视频画面,HMD中的眼球追踪模块,用于获取用户眼球的实时运动轨迹,跟踪系统,用于追踪用户在真实三维空间的位置信息与运动信息,计算处理单元,用于从跟踪系统中获取用户的实时位置与运动信息,并计算出用户头部在虚拟三维空间中的三维坐标,以及用户在虚拟三维空间中的视野朝向等。
在本申请实施例中,虚拟现实设备可以与终端相连接,终端与服务器通过网络进行连接,上述虚拟现实设备并不限定于:虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等,上述终端并不限定于PC、手机、平板电脑等,服务器可以为媒体文件运营商对应的服务器,上述网络包括但不限于:广域网、城域网或局域网。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例4
根据本申请实施例,还提供了一种图像处理方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图8是根据本申请实施例4的图像处理方法的流程图。如图8所示,该方法可以包括如下步骤:
步骤S802,通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像。
上述的第一接口可以是客户端与服务器连接的接口,客户端可以通过第一接口将三维图像上传至服务器。
步骤S804,对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息。
步骤S806,对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
步骤S808,基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
步骤S810,通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
上述的第二接口可以是客户端与服务器连接的接口,服务器可以通过第二接口将目标语义分割结果下载至客户端。
通过上述步骤,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织图像进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例5
根据本申请实施例,还提供了一种用于实施上述图像处理方法的图像处理装置,如图9所示,该装置900包括:获取模块902、提取模块904、处理模块906和分割模块908。
其中,获取模块902用于获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;提取模块904用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块906用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块908基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
此处需要说明的是,上述获取模块、提取模块、处理模块和分割模块对应于实施例1中的步骤S302至步骤S308,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
在本申请上述实施例中,处理模块包括:处理单元。
其中,处理单元用于利用语义分割模型中的解码器模型对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合。
在本申请上述实施例中,解码器模型包含多个解码层,解码层包含交叉注意力模块、自注意力模块和前馈网络模块,其中,处理单元包括:第一处理子单元、第二处理子单元和第三处理子单元。
其中,第一处理子单元用于利用交叉注意力模块对输入特征集合和多个查询向量进行交叉注意力处理,得到交叉注意力特征集合,其中,第一个解码层输入的输入特征集合为第一特征集合;第二处理子单元用于利用自注意力模块对交叉注意力特征集合进行自注意力处理,得到自注意力特征集合;第三处理子单元用于利用前馈网络模块对自注意力特征集合进行处理,得到输出特征集合,其中,最后一个解码层输出的输出特征集合为第一查询向量集合,其他解码层输出的输出特征集合为下一个解码层输入的输入特征集合,其他解码层为多个解码层中除最后一个解码层之外的解码层。
在本申请上述实施例中,分割模块包括:解码单元,用于基于第一特征集合,将第一查询向量集合中的第一查询向量分别输入语义分割模型中的多任务查询解码模型进行解码,得到目标语义分割结果。
在本申请上述实施例中,不同类型的身体组织的组织信息至少包括:第一类型的身体组织的组织信息和第二类型的身体组织的组织信息,第一类型和第二类型对身体组织图像进行划分的粒度不同。
在本申请上述实施例中,第一处理模块还用于利用线性投影层将第一类型的身体组织的组织信息映射至第二类型的身体组织的组织信息。
在本申请上述实施例中,该装置还包括:第一确定模块和调整模块。
其中,获取模块还用于获取训练样本,其中,训练样本包含:三维样本图像和预设语义分割结果,三维样本图像包含预设生物对象的至少一个生物组织图像;提取模块还用于利用语义分割模型中的主干网络,对三维图像进行特征提取,得到生物组织图像的第二特征集合,其中,第二特征集合中的不同第二特征用于表征三维样本图像中不同通道的图像信息;处理模块还用于利用语义分割模型中的编码器模型,对第二特征集合和多个查询向量进行注意力处理,得到第二查询向量集合;分割模块还用于基于第二特征集合,将第二查询向量集合中的第二查询向量分别输入至语义分割模型中的多任务查询解码模型进行解码,得到样本语义分割结果;第一确定模块用于基于预设语义分割结果和样本语义分割结果,确定总损失值;调整模块用于基于总损失值,对语义分割模型的模型参数进行调整。
在本申请上述实施例中,该装置还包括如下至少之一:匹配模块和第二确定模块。
其中,匹配模块用于将目标连通分量与预设连通分量进行匹配,并在目标连通分量与预设连通分量匹配成功的情况下,确定三维图像的类型为目标连通分量对应的类型,其中,目标连通分量基于目标语义分割结果生成;第二确定模块用于确定三维图像的类型为目标连通分量中的最大连通分量对应的类型。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
实施例6
根据本申请实施例,还提供了一种用于实施上述图像处理方法的图像处理装置,如图10所示,该装置1000包括:第一显示模块1002和第二显示模块1004。
其中,第一显示模块1002用于响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;第二显示模块1004用于响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
此处需要说明的是,上述第一显示模块和第二显示模块对应于实施例2中的步骤S502至步骤S504,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例2所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例2提供的方案以及应用场景、实施过程相同,但不仅限于实施例2所提供的方案。
实施例7
根据本申请实施例,还提供了一种用于实施上述图像处理方法的图像处理装置,如图11所示,该装置1100包括:呈现模块1102、提取模块1104、处理模块1106、分割模块1108和驱动模块1110。
其中,呈现模块1102用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;提取模块1104用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块1106用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块1108用于基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动模块1110用于驱动VR设备或AR设备渲染展示目标语义分割结果。
此处需要说明的是,上述呈现模块、提取模块、处理模块、分割模块和驱动模块对应于实施例2中的步骤S702至步骤S710,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例3所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例3提供的方案以及应用场景、实施过程相同,但不仅限于实施例3所提供的方案。
实施例8
根据本申请实施例,还提供了一种用于实施上述图像处理方法的图像处理装置,如图12所示,该装置1200包括:第一调用模块1202、提取模块1204、处理模块1206、分割模块1208和第二调用模块1210。
其中,第一调用模块1202用于通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像;提取模块1204用于对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;处理模块1206用于对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;分割模块1208用于基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;第二调用模块1210用于通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
此处需要说明的是,上述第一调用模块、提取模块、处理模块、分割模块和第二调用模块对应于实施例4中的步骤S802至步骤S810,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例4所公开的内容。需要说明的是,上述模块或单元可以是存储在存储器中并由一个或多个处理器处理的硬件组件或软件组件,上述模块也可以作为装置的一部分可以运行在实施例1提供的AR/VR设备中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例4提供的方案以及应用场景、实施过程相同,但不仅限于实施例4所提供的方案。
实施例9
本申请的实施例可以提供一种AR/VR设备,该AR/VR设备可以是AR/VR设备群中的任意一个AR/VR设备。可选地,在本实施例中,上述AR/VR设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述AR/VR设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述AR/VR设备可以执行图像处理方法中以下步骤的程序代码:获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
可选地,图13是根据本申请实施例的一种计算机终端的结构框图。如图13所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器1302、存储器1304、存储控制器、以及外设接口。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的图像处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的图像处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
可选的,上述处理器还可以执行如下步骤的程序代码:利用语义分割模型中的解码器模型对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合。
可选的,上述处理器还可以执行如下步骤的程序代码:利用交叉注意力模块对输入特征集合和多个查询向量进行交叉注意力处理,得到交叉注意力特征集合,其中,第一个解码层输入的输入特征集合为第一特征集合;利用自注意力模块对交叉注意力特征集合进行自注意力处理,得到自注意力特征集合;利用前馈网络模块对自注意力特征集合进行处理,得到输出特征集合,其中,最后一个解码层输出的输出特征集合为第一查询向量集合,其他解码层输出的输出特征集合为下一个解码层输入的输入特征集合,其他解码层为多个解码层中除最后一个解码层之外的解码层。
可选的,上述处理器还可以执行如下步骤的程序代码:基于第一特征集合,将第一查询向量集合中的第一查询向量分别输入语义分割模型中的多任务查询解码模型进行解码,得到目标语义分割结果。
可选的,上述处理器还可以执行如下步骤的程序代码:利用线性投影层将第一类型的身体组织的组织信息映射至第二类型的身体组织的组织信息。
可选的,上述处理器还可以执行如下步骤的程序代码:
采用本申请实施例,在获取到三维图像后,可以对三维图像进行特征提取,得到身体组织图像的第一特征集合,然后对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,最后基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果。容易注意到的是,在语义分割过程中可以引入多个查询向量实现对不同类型的身体组织图像进行识别的目的,无需组合多个语义分割模型,避免将引入的误差进行叠加,从而可以达到同时对多种类型的身体组织图像进行识别,提高对三维图像进行图像处理的准确度,缩短对三维图像进行图像处理的时间,进而提高对三维图像进行图像处理的性能,进而解决了相关技术中对图像进行处理的性能较低的技术问题。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动VR设备或AR设备渲染展示目标语义分割结果。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
本领域普通技术人员可以理解,图13所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobi leInternet Devices,MID)、PAD等终端设备。图13并不对上述电子装置的结构造成限定。例如,计算机终端A还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图3所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例10
本申请的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述计算机可读存储介质可以用于保存上述实施例1所提供的图像处理方法所执行的程序代码。
可选地,在本实施例中,上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:获取三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点。
可选的,上述计算机可读存储介质可以执行如下步骤的程序代码:利用语义分割模型中的解码器模型对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合。
可选的,上述计算机可读存储介质还可以执行如下步骤的程序代码:利用交叉注意力模块对输入特征集合和多个查询向量进行交叉注意力处理,得到交叉注意力特征集合,其中,第一个解码层输入的输入特征集合为第一特征集合;利用自注意力模块对交叉注意力特征集合进行自注意力处理,得到自注意力特征集合;利用前馈网络模块对自注意力特征集合进行处理,得到输出特征集合,其中,最后一个解码层输出的输出特征集合为第一查询向量集合,其他解码层输出的输出特征集合为下一个解码层输入的输入特征集合,其他解码层为多个解码层中除最后一个解码层之外的解码层。
可选的,上述计算机可读存储介质还可以执行如下步骤的程序代码:基于第一特征集合,将第一查询向量集合中的第一查询向量分别输入语义分割模型中的多任务查询解码模型进行解码,得到目标语义分割结果。
可选的,上述计算机可读存储介质还可以执行如下步骤的程序代码:利用线性投影层将第一类型的身体组织的组织信息映射至第二类型的身体组织的组织信息。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:响应作用于操作界面上的输入指令,在操作界面上显示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;响应作用于操作界面上的图像处理指令,在操作界面上显示目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点,目标语义分割结果是基于身体组织图像的第一特征集合和第一查询向量集合,对三维图像进行语义分割得到的,第一特征集合是对三维图像进行特征提取得到的,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息,第一查询向量集合是对第一特征集合和多个查询向量进行注意力处理得到的,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;驱动VR设备或AR设备渲染展示目标语义分割结果。
可选地,在本实施例中,计算机可读存储介质被设置为存储用于执行以下步骤的程序代码:通过调用第一接口获取三维图像,其中,第一接口包括第一参数,第一参数的参数值为三维图像,三维图像包含生物对象的至少一个身体组织图像;对三维图像进行特征提取,得到身体组织图像的第一特征集合,其中,第一特征集合中的第一特征用于表征三维图像的不同通道的图像信息;对第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,第一查询向量集合中的第一查询向量用于表征身体组织图像,及身体组织图像中不同类型的身体组织的组织信息;基于第一特征集合和第一查询向量集合,对三维图像进行语义分割,得到目标语义分割结果,其中,目标语义分割结果用于表征三维图像中属于不同类型的身体组织图像的体素点;通过调用第二接口输出目标语义分割结果,其中,第二接口包括第二参数,第二参数的参数值为目标语义分割结果。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (13)

1.一种图像处理方法,其特征在于,包括:
获取三维图像,其中,所述三维图像包含生物对象的至少一个身体组织图像;
对所述三维图像进行特征提取,得到所述身体组织图像的第一特征集合,其中,所述第一特征集合中的第一特征用于表征所述三维图像的不同通道的图像信息;
对所述第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,所述第一查询向量集合中的第一查询向量用于表征所述身体组织图像,及所述身体组织图像中不同类型的身体组织的组织信息;
基于所述第一特征集合和所述第一查询向量集合,对所述三维图像进行语义分割,得到目标语义分割结果,其中,所述目标语义分割结果用于表征所述三维图像中属于不同类型的身体组织图像的体素点。
2.根据权利要求1所述的方法,其特征在于,对所述第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,包括:
利用语义分割模型中的解码器模型对所述第一特征集合和所述多个查询向量进行注意力处理,得到所述第一查询向量集合。
3.根据权利要求2所述的方法,其特征在于,所述解码器模型包含多个解码层,所述解码层包含交叉注意力模块、自注意力模块和前馈网络模块,其中,利用解码器模型对所述第一特征集合和多个查询向量进行注意力处理,得到所述第一查询向量集合,包括:
利用所述交叉注意力模块对输入特征集合和所述多个查询向量进行交叉注意力处理,得到交叉注意力特征集合,其中,第一个解码层输入的所述输入特征集合为所述第一特征集合;
利用所述自注意力模块对所述交叉注意力特征集合进行自注意力处理,得到自注意力特征集合;
利用所述前馈网络模块对所述自注意力特征集合进行处理,得到输出特征集合,其中,最后一个解码层输出的所述输出特征集合为所述第一查询向量集合,其他解码层输出的所述输出特征集合为下一个解码层输入的所述输入特征集合,所述其他解码层为所述多个解码层中除所述最后一个解码层之外的解码层。
4.根据权利要求1所述的方法,其特征在于,基于所述第一特征集合和所述第一查询向量集合,对所述三维图像进行语义分割,得到目标语义分割结果,包括:
基于所述第一特征集合,将所述第一查询向量集合中的第一查询向量分别输入语义分割模型中的多任务查询解码模型进行解码,得到所述目标语义分割结果。
5.根据权利要求4所述的方法,其特征在于,所述不同类型的身体组织的组织信息至少包括:第一类型的身体组织的组织信息和第二类型的身体组织的组织信息,所述第一类型和所述第二类型对所述身体组织图像进行划分的粒度不同。
6.根据权利要求5所述的方法,其特征在于,利用线性投影层将所述第一类型的身体组织的组织信息映射至所述第二类型的身体组织的组织信息。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取训练样本,其中,所述训练样本包含:三维样本图像和预设语义分割结果,所述三维样本图像包含预设生物对象的至少一个生物组织图像;
利用语义分割模型中的主干网络,对所述三维图像进行特征提取,得到所述生物组织图像的第二特征集合,其中,所述第二特征集合中的不同第二特征用于表征所述三维样本图像中不同通道的图像信息;
利用所述语义分割模型中的编码器模型,对所述第二特征集合和多个查询向量进行注意力处理,得到第二查询向量集合;
基于所述第二特征集合,将所述第二查询向量集合中的第二查询向量分别输入至所述语义分割模型中的多任务查询解码模型进行解码,得到样本语义分割结果;
基于所述预设语义分割结果和所述样本语义分割结果,确定总损失值;
基于所述总损失值,对所述语义分割模型的模型参数进行调整。
8.根据权利要求1所述的方法,其特征在于,在基于所述第一特征集合和所述第一查询向量集合,对所述三维图像进行语义分割,得到目标语义分割结果之后,所述方法还包括如下至少之一:
将目标连通分量与预设连通分量进行匹配,并在所述目标连通分量与所述预设连通分量匹配成功的情况下,确定所述三维图像的类型为所述目标连通分量对应的类型,其中,所述目标连通分量基于所述目标语义分割结果生成;
确定所述三维图像的类型为所述目标连通分量中的最大连通分量对应的类型。
9.一种图像处理方法,其特征在于,包括:
响应作用于操作界面上的输入指令,在所述操作界面上显示三维图像,其中,所述三维图像包含生物对象的至少一个身体组织图像;
响应作用于所述操作界面上的图像处理指令,在所述操作界面上显示目标语义分割结果,其中,所述目标语义分割结果用于表征所述三维图像中属于不同类型的身体组织图像的体素点,所述目标语义分割结果是基于所述身体组织图像的第一特征集合和第一查询向量集合,对所述三维图像进行语义分割得到的,所述第一特征集合是对所述三维图像进行特征提取得到的,所述第一特征集合中的第一特征用于表征所述三维图像的不同通道的图像信息,所述第一查询向量集合是对所述第一特征集合和多个查询向量进行注意力处理得到的,所述第一查询向量集合中的第一查询向量用于表征所述身体组织图像,及所述身体组织图像中不同类型的身体组织的组织信息。
10.一种图像处理方法,其特征在于,包括:
在虚拟现实VR设备或增强现实AR设备的呈现画面上展示三维图像,其中,所述三维图像包含生物对象的至少一个身体组织图像;
对所述三维图像进行特征提取,得到所述身体组织图像的第一特征集合,其中,所述第一特征集合中的第一特征用于表征所述三维图像的不同通道的图像信息;
对所述第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,所述第一查询向量集合中的第一查询向量用于表征所述身体组织图像,及所述身体组织图像中不同类型的身体组织的组织信息;
基于所述第一特征集合和所述第一查询向量集合,对所述三维图像进行语义分割,得到目标语义分割结果,其中,所述目标语义分割结果用于表征所述三维图像中属于不同类型的身体组织图像的体素点;
驱动所述VR设备或所述AR设备渲染展示所述目标语义分割结果。
11.一种图像处理方法,其特征在于,包括:
通过调用第一接口获取三维图像,其中,所述第一接口包括第一参数,所述第一参数的参数值为所述三维图像,所述三维图像包含生物对象的至少一个身体组织图像;
对所述三维图像进行特征提取,得到所述身体组织图像的第一特征集合,其中,所述第一特征集合中的第一特征用于表征所述三维图像的不同通道的图像信息;
对所述第一特征集合和多个查询向量进行注意力处理,得到第一查询向量集合,其中,所述第一查询向量集合中的第一查询向量用于表征所述身体组织图像,及所述身体组织图像中不同类型的身体组织的组织信息;
基于所述第一特征集合和所述第一查询向量集合,对所述三维图像进行语义分割,得到目标语义分割结果,其中,所述目标语义分割结果用于表征所述三维图像中属于不同类型的身体组织图像的体素点;
通过调用第二接口输出所述目标语义分割结果,其中,所述第二接口包括第二参数,所述第二参数的参数值为所述目标语义分割结果。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的方法。
13.一种计算机终端,其特征在于,包括:
处理器;
存储器,与所述处理器相连接,用于为所述处理器提供执行权利要求1至11中任意一项所述的方法的指令。
CN202310020027.6A 2023-01-06 2023-01-06 图像处理方法、存储介质及计算机终端 Pending CN116012586A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310020027.6A CN116012586A (zh) 2023-01-06 2023-01-06 图像处理方法、存储介质及计算机终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310020027.6A CN116012586A (zh) 2023-01-06 2023-01-06 图像处理方法、存储介质及计算机终端

Publications (1)

Publication Number Publication Date
CN116012586A true CN116012586A (zh) 2023-04-25

Family

ID=86022939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310020027.6A Pending CN116012586A (zh) 2023-01-06 2023-01-06 图像处理方法、存储介质及计算机终端

Country Status (1)

Country Link
CN (1) CN116012586A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210248450A1 (en) * 2020-02-07 2021-08-12 Google Llc Sorting attention neural networks
CN114240965A (zh) * 2021-12-13 2022-03-25 江南大学 一种图注意力模型驱动的小样本学习肿瘤分割方法
CN114549405A (zh) * 2022-01-10 2022-05-27 中国地质大学(武汉) 一种基于监督自注意力网络的高分遥感图像语义分割方法
CN114723955A (zh) * 2022-03-30 2022-07-08 上海人工智能创新中心 图像处理方法、装置、设备和计算机可读存储介质
CN114972266A (zh) * 2022-05-31 2022-08-30 东华大学 基于自注意机制和稳定学习的淋巴瘤超声图像语义分割方法
WO2022206414A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 三维目标检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210248450A1 (en) * 2020-02-07 2021-08-12 Google Llc Sorting attention neural networks
WO2022206414A1 (zh) * 2021-03-29 2022-10-06 华为技术有限公司 三维目标检测方法及装置
CN114240965A (zh) * 2021-12-13 2022-03-25 江南大学 一种图注意力模型驱动的小样本学习肿瘤分割方法
CN114549405A (zh) * 2022-01-10 2022-05-27 中国地质大学(武汉) 一种基于监督自注意力网络的高分遥感图像语义分割方法
CN114723955A (zh) * 2022-03-30 2022-07-08 上海人工智能创新中心 图像处理方法、装置、设备和计算机可读存储介质
CN114972266A (zh) * 2022-05-31 2022-08-30 东华大学 基于自注意机制和稳定学习的淋巴瘤超声图像语义分割方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OLIVIER PETIT 等: ""U-Net Transformer: Self and Cross Attention for Medical Image Segmentation"", ARXIV:2103.06104V2, 12 March 2021 (2021-03-12), pages 1 - 10, XP055865938 *
景庄伟 等: "基于深度神经网络的图像语义分割研究综述", 计算机工程, no. 10, 3 June 2020 (2020-06-03), pages 7 - 23 *

Similar Documents

Publication Publication Date Title
CN112771622A (zh) 用于推理、高级处理和机器学习应用程序的虚拟化计算平台
US20190220977A1 (en) Cross-Domain Image Analysis and Cross-Domain Image Synthesis Using Deep Image-to-Image Networks and Adversarial Networks
US8238624B2 (en) Hybrid medical image processing
CN111816301A (zh) 医疗问诊辅助方法、装置、电子设备及介质
DE112020003547T5 (de) Transfer Learning für neuronale Netzwerke
US10817753B2 (en) Learning assistance device, method of operating learning assistance device, learning assistance program, learning assistance system, and terminal device
WO2022242131A1 (zh) 图像分割方法、装置、设备及存储介质
US20210110206A1 (en) Learning assistance device, method of operating learning assistance device, learning assistance program, learning assistance system, and terminal device
DE112021002965T5 (de) Generierung von szenengraphen für unmarkierte daten
JP2018026064A (ja) 画像処理装置、画像処理方法、システム
DE102021115585A1 (de) Empfehlungserzeugung unter verwendung von einem oder mehreren neuronalen netzwerken
CN115994902A (zh) 医学图像分析方法、电子设备及存储介质
CN116188392A (zh) 图像处理方法、计算机可读存储介质以及计算机终端
CN112529913A (zh) 图像分割模型训练方法、图像处理方法及装置
CN116188689A (zh) 辐射场的处理方法、存储介质以及计算机终端
DE102023113190A1 (de) Identifizieren von Applikationspuffern zum Nachbearbeiten und Wiederverwenden in sekundären Applikationen
KR102108418B1 (ko) 재구성된 영상군에 기초한 영상 제공 방법 및 이를 이용한 장치
AU2019430369B2 (en) VRDS 4D medical image-based vein Ai endoscopic analysis method and product
KR20210120489A (ko) 레이블 데이터 생성 방법 및 이를 이용한 학습방법 및 장치
CN113724185A (zh) 用于图像分类的模型处理方法、装置及存储介质
CN116823905A (zh) 图像配准方法、电子设备以及计算机可读存储介质
CN116597159A (zh) 特征提取方法、生物对象部位的状态识别方法及电子设备
Mahmoudi et al. Cloud-based platform for computer vision applications
WO2023160157A1 (zh) 三维医学图像的识别方法、装置、设备、存储介质及产品
CN116012586A (zh) 图像处理方法、存储介质及计算机终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination