CN116188392B

CN116188392B - 图像处理方法、计算机可读存储介质以及计算机终端

Info

Publication number: CN116188392B
Application number: CN202211731783.1A
Authority: CN
Inventors: 袁铭泽; 夏英达; 张灵; 姚佳文; 董和鑫; 裘茗烟; 闫轲; 周靖人; 吕乐
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-06-25
Anticipated expiration: 2042-12-30
Also published as: WO2024141092A1; CN116188392A

Abstract

本申请公开了一种图像处理方法、计算机可读存储介质以及计算机终端。可以用于图像识别、图像分割领域。其中，该方法包括：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。本申请解决了相关技术中对图像处理的准确度较低的技术问题。

Description

图像处理方法、计算机可读存储介质以及计算机终端

技术领域

本申请涉及图像处理领域，具体而言，涉及一种图像处理方法、计算机可读存储介质以及计算机终端。

背景技术

目前，在一些领域中的图像是长尾分布的，即图像中可能会包含有极其复杂的长尾对象，其中，长尾对象用于表示图像中存在少见的像素类型，在一些图像识别任务中比较少见的像素类型则是研究的重点，而目前的图像处理方法在针对长尾分布的图像进行处理时会存在超出分布的情况，即面对超出分布的长尾对象时会显著下降，从而导致图像处理在真实世界应用中的效果受限，从而导致图像处理的准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像处理方法、计算机可读存储介质以及计算机终端，以至少解决相关技术中对图像处理的准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种图像处理方法，包括：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：响应作用于操作界面上的输入指令，在操作界面上显示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动VR设备或AR设备渲染目标识别结果。

根据本申请实施例的另一方面，还提供了一种图像处理方法，包括：通过调用第一接口获取待处理图像，其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；提取模块，用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块，用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块，用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：第一显示模块，用于响应作用于操作界面上的输入指令，在操作界面上显示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；第二显示模块，用于响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：展示模块，用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；提取模块，用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块，用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块，用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动模块，用于驱动VR设备或AR设备渲染目标识别结果。

根据本申请实施例的另一方面，还提供了一种图像处理装置，包括：获取模块，用于通过调用第一接口获取待处理图像，其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像；提取模块，用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块，用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块，用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；输出模块，用于通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述任意一项的方法。

根据本申请实施例的另一方面，还提供了一种计算机终端，包括：处理器；存储器，与处理器相连接，用于为处理器提供执行上述任意一项的方法的指令。

通过上述步骤，获取待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；对所述待处理图像进行特征提取，得到所述部位图像的第一图像特征；对所述第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征所述部位图像中不同像素点的特征类别；基于所述第一图像特征和所述多个注意力特征，对所述待处理图像进行识别，得到所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个注意力特征对待处理图像进行识别，能够定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图；

图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图；

图3是根据本申请实施例1的一种图像处理方法的流程图；

图4是根据本申请实施例的一种目标识别结果的示意图；

图5是根据本申请实施例的一种图像处理过程的示意图；

图6是根据本申请实施例2的一种图像处理方法的流程图；

图7是根据本申请实施例3的一种图像处理方法的流程图；

图8是根据本申请实施例4的一种图像处理方法的流程图；

图9是根据本申请实施例5的一种图像处理装置的示意图；

图10是根据本申请实施例6的一种图像处理装置的示意图；

图11是根据本申请实施例7的一种图像处理装置的示意图；

图12是根据本申请实施例8的一种图像处理装置的示意图；

图13是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，还提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本申请实施例的一种图像处理方法的虚拟现实设备的硬件环境的示意图。如图1所示，虚拟现实设备104与终端106相连接，终端106与服务器102通过网络进行连接，上述虚拟现实设备104并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端104并不限定于PC、手机、平板电脑等，服务器102可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

可选地，该实施例的虚拟现实设备104包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，从而解决了相关技术中对图像处理的准确度较低的技术问题。

该实施例的终端可以用于执行在虚拟现实（Virtual Reality，简称为VR）设备或增强现实（Augmented Reality，简称为AR）设备的呈现画面上展示在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动VR设备或AR设备渲染目标识别结果，并向虚拟现实设备104发送待识别图像，虚拟现实设备104在接收到待识别图像之后在目标投放位置显示出来。

可选地，该实施例的虚拟现实设备104带有的眼球追踪的HMD（Head MountDisplay，头戴式显示器）头显与眼球追踪模块与上述实施例中的作用相同，也即，HMD头显中的屏幕，用于显示实时的画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹。该实施例的终端通过跟踪系统获取用户在真实三维空间的位置信息与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向。

图1示出的硬件结构框图，不仅可以作为上述AR/VR设备（或移动设备）的示例性框图，还可以作为上述服务器的示例性框图，一种可选实施例中，图2以框图示出了使用上述图1所示的AR/VR设备（或移动设备）作为计算环境201中计算节点的一种实施例。图2是根据本申请实施例的一种图像处理方法的计算环境的结构框图，如图2所示，计算环境201包括运行在分布式网络上的多个（图中采用210-1，210-2，…,来示出）计算节点（如服务器）。每个计算节点都包含本地处理和内存资源，终端用户202可以在计算环境201中远程运行应用程序或存储数据。应用程序可以作为计算环境301中的多个服务220-1,220-2,220-3和220-4进行提供，分别代表服务“A”，“D”，“E”和“H”。

终端用户202可以通过客户端上的web浏览器或其他软件应用程序提供和访问服务，在一些实施例中，可以将终端用户202的供应和/或请求提供给入口网关230。入口网关230可以包括一个相应的代理来处理针对服务220（计算环境201中提供的一个或多个服务）的供应和/或请求。

服务220是根据计算环境201支持的各种虚拟化技术来提供或部署的。在一些实施例中，可以根据基于虚拟机（Virtual Machine，VM）的虚拟化、基于容器的虚拟化和/或类似的方式提供服务220。基于虚拟机的虚拟化可以是通过初始化虚拟机来模拟真实的计算机，在不直接接触任何实际硬件资源的情况下执行程序和应用程序。在虚拟机虚拟化机器的同时，根据基于容器的虚拟化，可以启动容器来虚拟化整个操作系统（Operating System，OS），以便多个工作负载可以在单个操作系统实例上运行。

在基于容器虚拟化的一个实施例中，服务220的若干容器可以被组装成一个Pod（例如，Kubernetes Pod）。举例来说，如图2所示，服务220-2可以配备一个或多个Pod 240-1，240-2，…，240-N（统称为Pod 240）。每个Pod 240可以包括代理245和一个或多个容器242-1，242-2，…，242-M（统称为容器242）。Pod 240中一个或多个容器242处理与服务的一个或多个相应功能相关的请求，代理245通常控制与服务相关的网络功能，如路由、负载均衡等。其他服务220也可以为类似于Pod 240的Pod。

在操作过程中，执行来自终端用户202的用户请求可能需要调用计算环境201中的一个或多个服务220，执行一个服务220的一个或多个功能需要调用另一个服务220的一个或多个功能。如图2所示，服务“A”220-1从入口网关230接收终端用户202的用户请求，服务“A”220-1可以调用服务“D”220-2，服务“D”220-2可以请求服务“E”220-3执行一个或多个功能。

上述的计算环境可以是云计算环境，资源的分配由云服务提供上管理，允许功能的开发无需考虑实现、调整或扩展服务器。该计算环境允许开发人员在不构建或维护复杂基础设施的情况下执行响应事件的代码。服务可以被分割完成一组可以自动独立伸缩的功能，而不是扩展单个硬件设备来处理潜在的负载。

在上述运行环境下，本申请提供了如图3所示的图像处理方法。需要说明的是，该实施例的图像处理方法可以由图1所示实施例的移动终端执行。图3是根据本申请实施例1的一种图像处理方法的流程图。如图3所示，该方法可以包括如下步骤：

步骤S302，获取待处理图像。

其中，待处理图像包含生物对象的至少一种器官的部位图像。

上述的待处理图像可以是需要关注异常情况或者局部细节的图像，属于长尾分布的图像，即是属于类别不平衡的图像，其中，长尾分布的图像中一般会出现少见的对象，导致难以识别。在相关领域中，待处理图像可以是CT（ComputedTomography，称为电子计算机断层扫描）扫描图像。

上述的生物对象可以人、动物等包含器官的对象。上述的器官可以是生物对象体内的器官，也可以是生物对象体外的器官，其不限于器官的具体类型。其中，部位图像可以是关注于生物对象中器官的图像，部位图像中可以包含需要图像处理的一个器官，部位图像中还可以包含需要图像处理的多个器官，此处对部位图像不做限定。

在一种可选的实施例中，可以通过影像设备采集到生物对象中至少一个器官的部位图像，还可以从网络上获取到生物对象中至少一个器官的部位图像，从而得到上述的待处理图像，具体采集待处理图像的方式可以根据实际情况进行确定。

步骤S304，对待处理图像进行特征提取，得到部位图像的第一图像特征。

在一种可选的实施例中，可以对待处理图像进行特征提取，得到生物对象中针对于器官部位图像的第一图像特征，其中，第一图像特征用于表示生物对象中器官的特征。对于待处理图像中除部位图像所在区域的其他区域，则不需要得到其对应的图像特征。需要说明书的，此处的第一图像特征是逐像素的特征。

步骤S306，对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别。

上述的多个查询向量（object queries）可以是预先针对不同像素点的特征类别所设定的特征向量，可以作为用于区分特征类别的聚类中心，用于指导第一图像特征进行分类。查询向量可以是表征部位图像中的背景的特征向量，也可以是表征部位图像中的器官的特征向量。需要说明的是，多个查询向量并不是固定不变的，而是可以不断学习调整的特征向量。

在一种可选的实施例中，可以通过Transformer模型中的解码器模块对第一图像特征和多个查询向量进行交叉注意力处理，从而可以有效且高效地得到能够表征部位图像的上下文信息的特征向量（即上述的多个注意力特征），可选的，对于每个像素点，都可以通过交叉注意力在该像素的交叉路径上收集到所有像素的上下文信息，通过进一步的循环操作，每个像素最终都能够获取到全图的依赖关系。

通过对第一图像特征和多个查询向量进行交叉注意力处理，可以在考虑全局的基础上得到多个需要关注的注意力特征，从而减少后续图像识别的计算量，并且可以通过查询向量来对第一图像特征进行分类，可以使得后面的图像识别的准确度更高。

步骤S308，基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果。

其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

上述的目标识别结果用于表示待处理图像中像素的异常分布情况，可以通过异常分布情况进行来定位得到异常区域，即可以通过异常分布图定位出较为少见的分类对象。可选的，可以通过异常分数或者异常分布图来表示像素的异常区域的分布情况，还可以通过其他方式进行表示，此处不做限定。

上述的预设条件用于表示待处理图像中包含长尾对象的像素点，通过第一图像特征和多个注意力特征之间的多个相似度可以确定出待处理图像中包含长尾对象的概率。若其多个相似度中的最大相似度越小，则包含长尾对象的概率越大，其多个相似度中的最大相似度越大，则包含长尾对象的概率越小。

在一种可选的实施例中，可以根据待处理图像中每个像素点对应的第一图像特征和注意力特征定位出特征相似度较低的像素点的区域，从而得到待处理图像的异常像素点分布情况，进而通过该异常像素点分布情况来表示待处理图像中的长尾对象，可以避免遗漏待处理图像中的长尾对象，进而可以提高对待处理图像的处理准确度。

通过上述步骤，获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个查询向量对待处理图像进行识别，从而定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

本申请上述实施例中，基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，包括：确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；获取多个相似度中的最大相似度；获取最大相似度的相反数，得到目标识别结果。

在一种可选的实施例中，给定一张图像，可以通过掩码处理器（MaskTransformers）产生像素级的查询响应，其中，查询响应可以表示为多个注意力特征和聚类中心的相关性，一个像素的最大查询响应表示该像素与其分配到的聚类中心之间的相似性，离群点的最大查询响应比较小，也即离群点与聚类中心的相似度是比较小的，因此，可以在公式中采用最大相似度的相反数作为像素级的异常分数，称为MaxQuery，即：

，

其中，R∈表示查询响应矩阵，A∈表示查询响应对应的异常得分，N表示对查询维度进行最大的操作。

图4是根据本申请实施例的一种目标识别结果的示意图，其中包含三个聚类集群，三个圆点分别表示不同聚类集群的聚类中心，聚类集群中的像素通过正方形表示，聚类集群外的像素通过三角形表示，虚线箭头用于表示聚类集群内像素到聚类中心的向量长度，实线箭头用于表示聚类集群外像素到聚类中心的向量长度，其反映了像素和其分组的聚类中心的距离，聚类集群内像素点的最大向量长度通常比聚类集群外像素点的最大向量长度小，因此，通过上述的方式，可以得到待处理图像中超出分布的像素点。

分布外（out of distribution，简称为OOD）的检测和定位用于检测训练数据中看不到的分布外条件，即异常值，最大分类概率（Maximal softmax probability，简称为MSP）可以作为强大的基线，之后，各种方法从多个方面改进了OOD检测，并且还努力在较大的图像上定位OOD对象或区域，例如，可以在城市驾驶场景中进行定位。景观OOD检测和自然图像定位取得了进展，但是其在真实场景的图像中应用仍具有挑战性。由于现实世界相关领域图像中前景之间的差异很细微，因此他们的OOD检测或定位可以成为典型的近OOD问题。

在一种可选的实施例中，异常分布可以通过最小-最大归一化进一步归一化到[0,1]，图4说明了最大向量在OOD像素识别方面的可行性，本申请中加上负号是由于当一个像素的最大查询响应，也即最大相似度较大时，其成为OOD像素的可能性较小。

此外，本申请中还可以比较异常评分结果，可以根据查询响应的最大值R（pre-softmax，）和聚类分组M（post-softmax，）比较异常分布的结果，其中，的结果准确度大大优于，这是由于一个聚类分布内的像素点可以均匀地靠近多个聚类中心，则M中的最大分数可能非常低，很容易被错误分类为异常的像素点，但是对于最大查询响应R，其分数仍然足够高来表示聚类中的像素点，因此，可以选择最大的查询响应来表示异常区域。对于聚类分配的方式，虽然其会出现错误分类的情况，但是根据需求也可以采用此种方式对像素进行语义分割。

本申请上述实施例中，该方法还包括：确定多个注意力特征对应的目标类型；确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；基于多个相似度和目标类型，对待处理图像中的像素进行语义分割，得到目标语义分割结果，其中，目标语义分割结果用于表征待处理图像中的属于部位图像的像素点的类别。

上述的目标类型可以根据实际的处理任务中所包含的像素类别进行确定。

在一种可选的实施例中，可以确定出多个注意力特征对应的目标类型，可以通过目标类型对多个相似度中与多个注意力特征相似度较大的第一图像特征进行分类，以便得到第一图像特征对应像素的类别，从而实现对待处理图像中像素的语义分割，得到目标语义分割结果，由于注意力特征一般是部位图像中像素点对应的特征，因此通过目标语义分割结果可以显示待处理图像中属于部位图像的像素点的类别。

本申请上述实施例中，基于多个相似度和目标类型，对待处理图像中的像素进行语义分割，得到语义分割结果，包括：基于多个相似度对待处理图像中的像素进行分组，得到第一像素集合；基于目标类型对第一像素集合进行分类，得到语义分割结果。

在一种可选的实施例中，可以根据多个相似度对待处理图像中的像素进行分组，得到第一像素集合，以便通过组的形式来表示不同类别的像素所代表的对象，通过多个注意力特征对应的目标类型，可以将该类别赋予到相似度较大像素点所在的第一像素集合中，从而得到语义分割结果，即得到待处理图像中部位图像中器官的类别。

本申请上述实施例中，对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，包括：利用解码器模型对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

上述的解码器模型可以为Mask transformer，其中，Mask transformer主要用于通过多个查询向量对第一图像特征进行聚类，从而得到聚类结果，以便于根据聚类结果对多个查询向量进行更新，得到多个注意力特征。

本申请上述实施例中，利用解码器模型对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，包括：基于多个查询向量对第一图像特征进行聚类，得到聚类结果；基于聚类结果对多个查询向量进行更新，得到多个注意力特征。

在一种可选的实施例中，可以通过多个查询向量指导第一图像特征进行聚类，得到聚类结果，并根据聚类结果对多个查询向量指导的类别进行激活，从而得到多个注意力特征。

本申请上述实施例中，该方法还包括：获取训练样本，其中，训练样本包括：样本图像和预设语义分割结果，样本图像包含预设生物对象的预设器官的预设图像；对样本图像进行特征提取，得到预设图像的第二图像特征；利用解码器模型对第二图像特征和多个查询向量进行交叉注意力处理，得到多个样本注意力特征；基于第二图像特征和多个样本注意力特征，对样本图像进行识别，得到样本图像的样本处理结果，其中，样本处理结果包括：样本语义分割结果和第二像素集合，样本语义分割结果用于表征样本图像中属于预设图像的像素点，第二像素集合中的像素集合分别包含样本图像中不同预设类型的像素点；基于样本语义分割结果、预设语义分割结果和第二像素集合，确定解码器模型的总损失值；基于总损失值对解码器模型的模型参数进行调整。

上述的训练样本可以为与待处理图像属于相同领域的图像，也可以是其他领域的图像，此处不做限定。

在一种可选的实施例中，通过对训练样本进行处理，可以得到样本语义分割结果和第二像素集合，其中，样本语义分割结果用于表示训练样本中异常像素点的分布情况，第二像素集合用于表示待处理图像中像素的分组情况。

目前，常规的分割损失是模型的重要学习目标，可以将输出值与实际值之间的交叉熵损失用于进行模型训练。但是，当仅使用常规的分割损失时，对象查询主要关注的是背景和器官而不是异常区域，前景和背景之间的显著差异极大地分散了模型对OOD对象和内部对象之间细微差异的关注，一些查询在背景和前景上具有混合表示，这对于判别聚类学习来说是一种不太好的现象，因此，本申请中提出了通过查询分布损失来操纵对象进行查询，并引导其关注前景，尤其是异常部位，并且鼓励集中的集群学习，其关键的步骤是使用真实的集群监督集群的分组情况，

可以将N个通道分为三组，包括、、，三个通道可以分别用于表示背景、器官和异常区域（例如，肿瘤区域），本申请中可以将M个通道与背景类的相关联，可以将通道与器官类的相关联，最后可以将通道与异常区域的相关联，可以将像素集合和分类标签进行合并，具体如下：

，

其中，合并后的表示的是每个空间位置在背景、器官和异常区域三个类别的概率分布，即。

可以将查询分布损失表示为和之间负对数的似然损失，具体如下：

可以根据样本语义分割结果、预设语义分割结果构建分割损失函数，以便通过分割损失函数对解码器模型的分割能力进行提高。

其主要用于对不同类型的像素进行聚类分配以便确定出严格的界限，在集群分配的基础上，最终的损失函数是分割损失函数和查询分布损失函数与权重的组合，具体的表示如下：

，

其中，表示最终的损失函数，表示查询分布损失函数，表示分割损失函数，上述的可以根据实际需求自行调整。

本申请上述实施例中，基于第二图像特征和多个样本注意力特征，对样本图像进行识别，得到第二像素集合，包括：确定第二图像特征和多个样本注意力特征之间的相似度，得到多个样本相似度；基于多个样本相似度对样本图像中的像素进行分组，得到初始像素集合；基于预设类别对初始像素集合进行合并，得到第二像素集合。

上述的预设类别可以为需要关注的类别，例如，可以分为背景、器官和异常区域。

在一种可选的实施例中，可以确定第二图像特征和多个样本注意力特征之间的相似度，从而得到多个样本相似度，根据多个样本相似度可以将样本图像中相似度较大的像素进行分组，得到初始像素集合，可以根据需要检测对象的类别对初始像素集合进行合并，得到用于表示不同类别的第二像素集合。

本申请上述实施例中，基于样本语义分割结果、预设语义分割结果和第二像素集合，确定解码器模型的总损失值，包括：基于样本语义分割结果和预设语义分割结果，确定解码器模型的第一损失值；基于预设语义分割结果对应的预设类别，对预设语义分割结果进行合并，得到预设像素集合；基于第二像素集合和预设像素集合，确定解码器模型的第二损失值；获取第一损失值和第二损失值的加权和，得到总损失值。

上述的第一损失值用于表示解码器模型对于样本图像中异常区域的损失。

上述的第二损失值用于表示解码器模型对于对象识别的损失。

在一种可选的实施例中，对于主要关注异常区域的任务来说，可以通过增加第一损失值的权重或减少第二损失值的权重来提高对于异常区域的识别能力，对于主要关注对象类别的任务来说，可以通过减少第一损失值或增加第二损失值的权重来提高对于图像中像素类别的识别能力。

在相关领域中，图像分割旨在将图像分割成代表感兴趣的对象对应的多个区域，可以专注于某个领域的三维图像X∈，并且可以使用分割模型将其划分为K个类别标记的二进制掩码，公式如下：

，

其中，表示第i类的真实掩码，在这个问题中，1类是指属于背景，2类是指特定的器官，其他则是异常部分，例如肿瘤，由于真实场景下的图像在数据集上呈长尾分布，因此，其分割任务应该被分为监督像素分割或者像素级OOD定位。

图5是根据本申请实施例的一种图像处理过程的示意图，如图5所示，可以使用CNN（Convolutional Neural Network，简称为卷积神经网络）骨架来建立模型，以便提取每个像素的特征P∈和一个Transformer，该Transformer可以逐步更新一组可学习对象的查询向量。第一图像特征和多个查询向量之间的交叉注意力处理如下：

，

其中，上标c和p分别代表查询向量和像素的第一图像特征，可以目标词矩阵、可以是关键词矩阵、可以是第一图像特征对应的向量，通过argmax（）计算和的最大相似度，可以根据最大相似度对进行聚类，根据聚类结果对多个查询向量C可以进行更新，其下标N表示对查询维度进行最大的操作，得到多个注意力特征，本申请中类似全景分割模型（KMax-DeepLab）采用聚类维度的最大元操作来代替原始交叉注意力机制中的空间维度激活函数（Softmax）操作。

根据Masktransformer的聚类分析方法，可以将语义分割视为一个两阶段的聚类分析过程，首先，可以将所有的像素分配到不同的聚类集群中，可以将特征处理模块的掩码嵌入向量制定为聚类中心，可以为第一图像特征，C可以为多个查询向量，C和的乘积R可以表示查询响应，也即注意力特征，其可以表示每个像素和聚类中心之间的相似性，这样，在查询响应R上使用查询式多类分类问题的激活函数，生成一个掩码预测，以便鼓励集群分类的互斥性，其中，多个注意力特征可以为：

，

值得注意的是，与直接使用神经网络的阈值函数（sigmoid）激活不同，查询向量softmax激活可以更好的引导对象查询（聚类中心）关注图像的不同区域，以便实现真实场景图像中图像分割的多样性。

在集群分类的指导下，对分组的像素可以进行分类，可以通过多层感知器（multi-layer perceptron，简称为MLP）评估聚类中心C，以便预测K通道在N个集群中的所属的集群类别∈，然后，汇总了以下的集群分配M分组的像素和其分类用于进行语义分割，公式如下：

，

其中，Z∈代表最终的对数，为了保证最终的分割，可以将经典的分割损失和最终输出的Z和R之间的查询分布损失结合起来。

为了进一步分割图像中未见过的异常区域，OOD定位在对测试图像进行推理时，需要有一个过程，可以给定一个测试图像X∈，OOD定位评估查询向量以便找到表示像素与其分配的聚类中心之间相似性的最大响应，然后，该模型可以生成一个像素级的异常分数图，，其中，，代表X中第i个像素分别属于OOD和分布中的类。

图5中的（b）用于图像分割的神经网络主干，这里可以采用训练框架（nnUNet），（a）中的解码器以交互的方式更新查询向量以便适应内部集群中心，（c）中包括两阶段的聚类分析，其中，第一阶段是聚类分配可以根据像素特征和聚类中心之间的关联性对像素进行分组，从而根据分组得到的像素集合和真实的像素集合构建查询分布损失，第二阶段是聚类分类引导分组像素生成分割损失，即通过分割输出和分割真实构建分割损失，整体的分割由经典的分割损失和查询分布损失进行监督。

本申请方案实现的背景如下：

目前的部分领域的图像分割具有极其复杂的长尾对象，其中尾部条件与相对罕见的类型相关，并且具有临床意义。目前的算法可以证明其在尾部条件下的有效性，以避免在这些OOD的情况下产生临床危险的损害。在本申请中，可以采用Mask Transformers中的对象查询的概念，将语义分割指定为聚类分组，查询在训练期间内适合像素的特征级聚类中心。因此，当在现实场景中对图像进行推理时，可以根据像素之间的相似性核查询检测以定位OOD区域，一般可以将这种OOD本地化成为MaxQuery。此外，现实世界图像的前景，无论是OOD对象还是像素，都是属于器官的一部分。它们之间的差异小于前景和背景之间的差异，可能会误导对象查询过度关注背景。因此本申请中提出了一个查询分布（query-distribution，简称为QD）损失，以便根据查询的级别强制分割目标和其他区域之间的明确边界，改进像素分割和OOD，本申请提出的框架在两个分割任务上进行了测试，即对不同器官的部位图像进行分割，相较于目前的算法，本申请中所采用的算法可以提高像素分割的性能。

图像分割是图像分析中的一项基本任务，随着计算机视觉和深度学习的最新进展，自动化图像分割在各种应用程序中已经达到较好的性能，但是大多数图像分割的方法是基于监督学习，严重依赖于收集和注释训练数据。

然而，实际的图像是长尾分布的，尾部条件是异常值，不足以甚至无法训练出可靠的模型；并且，用像素训练的模型在真实的临床部署中会触发失败或者错误的风险，例如，在对器官图像的分析中，漏检细小的部位将无法准确地对器官图像进行语义分割。因此，分割模型应该提高展示和检测OOD条件的能力。目前的研究虽然在OOD定位上做出了有价值的尝试，但是除了正常情况或模拟OOD条件以进行模型验证，然而真实场景中的临床场景更为复杂，其建立图像像素和过度语义之间的直接关系对于真实场景中的图像分割是困难的，使用这种关系来区分异常值更具有挑战性。

在本申请中，根据Mask Transformers可以将分割拆分为每个像素聚类分配和聚类分类的两阶段过渡，一组明确定义的像素点集合可以极大地有助于从图像中识别出OOD条件，因此，本申请中提出了Max Query，其是一种图像语义分割框架，可以推动MaskTransformers定位到OOD目标。该框架可以采用可学习的对象查询来迭代地适应内聚类中心，由于OODs与分布内（inlier）的聚类中心之间的相似度小于集群内inlier和聚类中心的相似度，因此，MaxQuery使用这种相似度的负值作为监测OODs的指标。

本申请的贡献主要如下：

本申请中可以将查询向量的最大相似度作为OOD定位的主要指标。

本申请中提出的查询分布的损失以将查询集中在重要的前景区域，可以证明对近OOD问题的有效性。

本申请中构建了两个图像数据集，用于实现真实场景中OOD的语义分割或者监测。

本申请中提出的框架大大优于以前的OOD定位方法，并改进了像素分割的性能。

本申请方案实现的相关工作如下：

语义分割可以用于对图像中的需要关注的地方进行检测，因此，开发一种可靠的分割方法比较重要，视觉特征处理网络（Vision Transformers，简称为ViTs）可以将后续的特征处理块（transformer）集成到网络架构的主干中，ViTs对于多类语义分割任务具有良好的表现，多类语义分割任务的问题主要集中在探索图像分割中真实场景OOD的定位检测，目前技术的解决方案提供的性能有限，因此，本申请中研究了一种结合Transformer和nnUNet的新型架构，以提高图像处理的分割性能，从而得到更广泛的使用。

Mask Transformers与直接使用Transformers作为图像分割的网络主干不同，Mask Transformers主要使用独立的特征处理块来增强基于神经网络的主干，全景分割（MaX-Deeplab）将视觉特征处理模块（detection transformer，简称为DETR）中的对象查询解释为用于端到端的全景分割的内存编码查询，掩码框架（MaskFormer）通过统一的卷积神经网络和transformer的设计直观地适用于图像的语义分割，图像的语义分割要求网络对于器官分割的图像纹理具有局部敏感性，并且可以全局理解用于识别器官的形态。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

实施例2

图6是根据本申请实施例2的另一种图像处理方法的流程图。如图6所示，该方法可以包括如下步骤：

步骤S602，响应作用于操作界面上的输入指令，在操作界面上显示待处理图像。

其中，待处理图像包含生物对象的至少一种器官的部位图像；

上述的操作界面可以是能够方便用户进行操作的显示界面，上述的输入指令可以是用于确认待处理图像的指令。

步骤S604，响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果。

其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

上述的图像处理指令可以在需要对图像进行处理时，通过进行相关操作生成的图像处理指令，可以根据该图像处理指令对待处理图像进行处理，并得到待处理图像的目标识别结果。

通过上述步骤，响应作用于操作界面上的输入指令，在所述操作界面上显示待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；响应作用于所述操作界面上的图像处理指令，在所述操作界面上显示所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率，所述目标识别结果是基于所述部位图像的第一图像特征和多个注意力特征对所述待处理图像进行识别得到的，所述多个注意力特征是对所述第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征所述部位图像中不同像素点的特征类别，所述第一图像特征是对所述待处理图像进行特征提取得到的，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个注意力特征对待处理图像进行识别，能够定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种可以应用于虚拟现实VR设备、增强现实AR设备等虚拟现实场景下的图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图7是根据本申请实施例3的一种图像处理方法的流程图。如图7所示，该方法可以包括如下步骤：

步骤S702，在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像。

步骤S704，对待处理图像进行特征提取，得到部位图像的第一图像特征。

步骤S706，对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

其中，不同查询向量用于表征部位图像中不同像素点的特征类别。

步骤S708，基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果。

步骤S710，驱动VR设备或AR设备渲染目标识别结果。

通过上述步骤，通过在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；对所述待处理图像进行特征提取，得到所述部位图像的第一图像特征；对所述第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征所述部位图像中不同像素点的特征类别；基于所述第一图像特征和所述多个注意力特征，对所述待处理图像进行识别，得到所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率；驱动所述VR设备或所述AR设备渲染所述目标识别结果，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个注意力特征对待处理图像进行识别，能够定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

可选地，在本实施例中，上述图像处理方法可以应用于由服务器、虚拟现实设备所构成的硬件环境中。在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等。

可选地，虚拟现实设备包括：存储器、处理器和传输装置。存储器用于存储应用程序，该应用程序可以用于执行：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动VR设备或AR设备渲染目标识别结果。

可选地，该实施例的处理器可以通过传输装置调用上述存储器存储的应用程序以执行上述步骤。传输装置可以通过网络接收服务器发送的媒体文件，也可以用于上述处理器与存储器之间的数据传输。

可选地，在虚拟现实设备中，带有眼球追踪的头戴式显示器，该HMD头显中的屏幕，用于显示展示的视频画面，HMD中的眼球追踪模块，用于获取用户眼球的实时运动轨迹，跟踪系统，用于追踪用户在真实三维空间的位置信息与运动信息，计算处理单元，用于从跟踪系统中获取用户的实时位置与运动信息，并计算出用户头部在虚拟三维空间中的三维坐标，以及用户在虚拟三维空间中的视野朝向等。

在本申请实施例中，虚拟现实设备可以与终端相连接，终端与服务器通过网络进行连接，上述虚拟现实设备并不限定于：虚拟现实头盔、虚拟现实眼镜、虚拟现实一体机等，上述终端并不限定于PC、手机、平板电脑等，服务器可以为媒体文件运营商对应的服务器，上述网络包括但不限于：广域网、城域网或局域网。

实施例4

图8是根据本申请实施例4的一种图像处理方法的流程图。如图8所示，该方法可以包括如下步骤：

步骤S802，通过调用第一接口获取待处理图像。

其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像。

上述的第一接口可以是客户端与服务器连接的接口，客户端可以通过第一接口将待处理图像上传至服务器。

步骤S804，对待处理图像进行特征提取，得到部位图像的第一图像特征。

步骤S806，对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

步骤S808，基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果。

步骤S810，通过调用第二接口输出目标识别结果。

其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

上述的第二接口可以是客户端与服务器连接的接口，服务器可以通过第二接口将目标识别结果返回给客户端。

通过上述步骤，通过调用第一接口获取待处理图像，其中，所述第一接口包括第一参数，所述第一参数的参数值为所述待处理图像，所述待处理图像包含生物对象的至少一种器官的部位图像；对所述待处理图像进行特征提取，得到所述部位图像的第一图像特征；对所述第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征所述部位图像中不同像素点的特征类别；基于所述第一图像特征和所述多个注意力特征，对所述待处理图像进行识别，得到所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率；通过调用第二接口输出所述目标识别结果，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述目标识别结果，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个注意力特征对待处理图像进行识别，能够定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

实施例5

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图9是根据本申请实施例5的一种图像处理装置的示意图，如图9所示，该装置900包括：获取模块902、提取模块904、处理模块906和识别模块908。

其中，获取模块用于获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；提取模块用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

此处需要说明的是，上述获取模块、提取模块、处理模块和识别模块对应于实施例1中的步骤S302至步骤S308，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

本申请实施例中，识别模块包括：第一确定单元、第一获取单元和第二获取单元。

其中，第一确定单元用于确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；第一获取单元用于获取多个相似度中的最大相似度；第二获取单元用于获取最大相似度的相反数，得到目标识别结果。

本申请实施例中，该装置还包括：第一确定模块、第二确定模块和语义分割模块。

其中，第一确定模块用于确定多个注意力特征对应的目标类型；第二确定模块用于确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；语义分割模块用于基于多个相似度和目标类型，对待处理图像中的像素进行语义分割，得到目标语义分割结果，其中，目标语义分割结果用于表征待处理图像中的属于部位图像的像素点的类别。

本申请实施例中，语义分割模块包括：分组单元和分类单元。

其中，分组单元用于基于多个相似度对待处理图像中的像素进行分组，得到第一像素集合；分类单元

用于基于目标类型对第一像素集合进行分类，得到语义分割结果。

本申请实施例中，处理模块包括：第一处理单元。

其中，第一处理单元用于利用解码器模型对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

本申请实施例中，第一处理单元包括：聚类子单元和更新子单元。

其中，聚类子单元用于基于多个查询向量对第一图像特征进行聚类，得到聚类结果；更新子单元用于基于聚类结果对多个查询向量进行更新，得到多个注意力特征。

本申请实施例中，处理模块还包括：第三获取单元、提取单元、第二处理单元、识别单元、第二确定单元和调整单元。

其中，第三获取单元用于获取训练样本，其中，训练样本包括：样本图像和预设语义分割结果，样本图像包含预设生物对象的预设器官的预设图像；提取单元用于对样本图像进行特征提取，得到预设图像的第二图像特征；第二处理单元用于利用解码器模型对第二图像特征和多个查询向量进行交叉注意力处理，得到多个样本注意力特征；识别单元用于基于第二图像特征和多个样本注意力特征，对样本图像进行识别，得到样本图像的样本处理结果，其中，样本处理结果包括：样本语义分割结果和第二像素集合，样本语义分割结果用于表征样本图像中属于预设图像的像素点，第二像素集合中的像素集合分别包含样本图像中不同预设类型的像素点；第二确定单元用于基于样本语义分割结果、预设语义分割结果和第二像素集合，确定解码器模型的总损失值；调整单元用于基于总损失值对解码器模型的模型参数进行调整。

本申请实施例中，识别单元包括：第一确定子单元、分组子单元和第一合并子单元。

其中，第一确定子单元用于确定第二图像特征和多个样本注意力特征之间的相似度，得到多个样本相似度；分组子单元用于基于多个样本相似度对样本图像中的像素进行分组，得到初始像素集合；第一合并子单元用于基于预设类别对初始像素集合进行合并，得到第二像素集合。

本申请实施例中，第二确定单元包括：第二确定子单元、第二合并子单元、第三确定子单元和获取子单元。

其中，第二确定子单元用于基于样本语义分割结果和预设语义分割结果，确定解码器模型的第一损失值；第二合并子单元基于预设语义分割结果对应的预设类别，对预设语义分割结果进行合并，得到预设像素集合；第三确定子单元用于基于第二像素集合和预设像素集合，确定解码器模型的第二损失值；获取子单元用于获取第一损失值和第二损失值的加权和，得到总损失值。

实施例6

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图10是根据本申请实施例6的一种图像处理装置的示意图，如图10所示，该装置包括：第一显示模块1002和第二显示模块1004。

其中，第一显示模块用于响应作用于操作界面上的输入指令，在操作界面上显示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；第二显示模块用于响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

此处需要说明的是，上述第一显示模块1002和第二显示模块1004对应于实施例2中的步骤S602至步骤S604，两个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

实施例7

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图11是根据本申请实施例7的一种图像处理装置的示意图，如图11所示，该装置包括：展示模块1102、提取模块1104、处理模块1106、识别模块1108和驱动模块1110。

其中，展示模块用于在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；提取模块用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动模块用于驱动VR设备或AR设备渲染目标识别结果。

此处需要说明的是，上述展示模块、提取模块、处理模块、识别模块和驱动模块对应于实施例3中的步骤S702至步骤S710，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

实施例8

根据本申请实施例，还提供了一种用于实施上述图像处理方法的图像处理装置，图12是根据本申请实施例8的一种图像处理装置的示意图，如图1200所示，该装置包括：获取模块1202、提取模块1204、处理模块1206、识别模块1208和输出模块1210。

其中，获取模块用于通过调用第一接口获取待处理图像，其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像；提取模块用于对待处理图像进行特征提取，得到部位图像的第一图像特征；处理模块用于对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；识别模块用于基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；输出模块用于通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

此处需要说明的是，上述获取模块、提取模块、处理模块、识别模块和输出模块对应于实施例4中的步骤S802至步骤S810，五个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的AR/VR设备中。

实施例9

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像处理方法中以下步骤的程序代码：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

可选地，图13是根据本申请实施例的一种计算机终端的结构框图。如图13所示，该计算机终端A可以包括：一个或多个（图中仅示出一个）处理器102、存储器104、存储控制器、以及外设接口，其中，外设接口与射频模块、音频模块和显示器连接。。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像识别方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

可选地，上述处理器还可以执行如下步骤的指令：确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；获取多个相似度中的最大相似度；获取最大相似度的相反数，得到目标识别结果。

可选地，上述处理器还可以执行如下步骤的指令：确定多个注意力特征对应的目标类型；确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；基于多个相似度和目标类型，对待处理图像中的像素进行语义分割，得到目标语义分割结果，其中，目标语义分割结果用于表征待处理图像中的属于部位图像的像素点的类别。

可选地，上述处理器还可以执行如下步骤的指令：基于多个相似度对待处理图像中的像素进行分组，得到第一像素集合；基于目标类型对第一像素集合进行分类，得到语义分割结果。

可选地，上述处理器还可以执行如下步骤的指令：利用解码器模型对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

可选地，上述处理器还可以执行如下步骤的指令：基于多个查询向量对第一图像特征进行聚类，得到聚类结果；基于聚类结果对多个查询向量进行更新，得到多个注意力特征。

可选地，上述处理器还可以执行如下步骤的指令：获取训练样本，其中，训练样本包括：样本图像和预设语义分割结果，样本图像包含预设生物对象的预设器官的预设图像；对样本图像进行特征提取，得到预设图像的第二图像特征；利用解码器模型对第二图像特征和多个查询向量进行交叉注意力处理，得到多个样本注意力特征；基于第二图像特征和多个样本注意力特征，对样本图像进行识别，得到样本图像的样本处理结果，其中，样本处理结果包括：样本语义分割结果和第二像素集合，样本语义分割结果用于表征样本图像中属于预设图像的像素点，第二像素集合中的像素集合分别包含样本图像中不同预设类型的像素点；基于样本语义分割结果、预设语义分割结果和第二像素集合，确定解码器模型的总损失值；基于总损失值对解码器模型的模型参数进行调整。

可选地，上述处理器还可以执行如下步骤的指令：确定第二图像特征和多个样本注意力特征之间的相似度，得到多个样本相似度；基于多个样本相似度对样本图像中的像素进行分组，得到初始像素集合；基于预设类别对初始像素集合进行合并，得到第二像素集合。

可选地，上述处理器还可以执行如下步骤的指令：基于样本语义分割结果和预设语义分割结果，确定解码器模型的第一损失值；基于预设语义分割结果对应的预设类别，对预设语义分割结果进行合并，得到预设像素集合；基于第二像素集合和预设像素集合，确定解码器模型的第二损失值；获取第一损失值和第二损失值的加权和，得到总损失值。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：响应作用于操作界面上的输入指令，在操作界面上显示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动VR设备或AR设备渲染目标识别结果。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：通过调用第一接口获取待处理图像，其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

采用本申请实施例，获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，实现了提高对待处理图像的处理精确度。容易注意到的是，可以基于第一图像特征和多个注意力特征对待处理图像进行识别，能够定位到待处理图像中的超出分布的对象，准确确定待处理图像中的异常情况，以提高对待处理图像的处理精确度，进而解决了相关技术中对图像处理的准确度较低的技术问题。

本领域普通技术人员可以理解，图13所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌声电脑以及移动互联网设备（MobileInternetDevices，MID）、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图13中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例10

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的图像处理方法所执行的程序代码。

可选地，在本实施例中，上述计算机可读存储介质可以位于AR/VR设备网络中AR/VR设备终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；获取多个相似度中的最大相似度；获取最大相似度的相反数，得到目标识别结果。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：确定多个注意力特征对应的目标类型；确定第一图像特征和多个注意力特征之间的相似度，得到多个相似度；基于多个相似度和目标类型，对待处理图像中的像素进行语义分割，得到目标语义分割结果，其中，目标语义分割结果用于表征待处理图像中的属于部位图像的像素点的类别。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：基于多个相似度对待处理图像中的像素进行分组，得到第一像素集合；基于目标类型对第一像素集合进行分类，得到语义分割结果。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：利用解码器模型对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：基于多个查询向量对第一图像特征进行聚类，得到聚类结果；基于聚类结果对多个查询向量进行更新，得到多个注意力特征。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：获取训练样本，其中，训练样本包括：样本图像和预设语义分割结果，样本图像包含预设生物对象的预设器官的预设图像；对样本图像进行特征提取，得到预设图像的第二图像特征；利用解码器模型对第二图像特征和多个查询向量进行交叉注意力处理，得到多个样本注意力特征；基于第二图像特征和多个样本注意力特征，对样本图像进行识别，得到样本图像的样本处理结果，其中，样本处理结果包括：样本语义分割结果和第二像素集合，样本语义分割结果用于表征样本图像中属于预设图像的像素点，第二像素集合中的像素集合分别包含样本图像中不同预设类型的像素点；基于样本语义分割结果、预设语义分割结果和第二像素集合，确定解码器模型的总损失值；基于总损失值对解码器模型的模型参数进行调整。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：确定第二图像特征和多个样本注意力特征之间的相似度，得到多个样本相似度；基于多个样本相似度对样本图像中的像素进行分组，得到初始像素集合；基于预设类别对初始像素集合进行合并，得到第二像素集合。

可选地，上述计算机可读存储介质还被设置为用于执行以下步骤的程序代码：基于样本语义分割结果和预设语义分割结果，确定解码器模型的第一损失值；基于预设语义分割结果对应的预设类别，对预设语义分割结果进行合并，得到预设像素集合；基于第二像素集合和预设像素集合，确定解码器模型的第二损失值；获取第一损失值和第二损失值的加权和，得到总损失值。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：响应作用于操作界面上的输入指令，在操作界面上显示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；响应作用于操作界面上的图像处理指令，在操作界面上显示待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率，目标识别结果是基于部位图像的第一图像特征和多个注意力特征对待处理图像进行识别得到的，多个注意力特征是对第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征部位图像中不同像素点的特征类别，第一图像特征是对待处理图像进行特征提取得到的。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；驱动VR设备或AR设备渲染目标识别结果。

可选地，在本实施例中，计算机可读存储介质被设置为存储用于执行以下步骤的程序代码：通过调用第一接口获取待处理图像，其中，第一接口包括第一参数，第一参数的参数值为待处理图像，待处理图像包含生物对象的至少一种器官的部位图像；对待处理图像进行特征提取，得到部位图像的第一图像特征；对第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征部位图像中不同像素点的特征类别；基于第一图像特征和多个注意力特征，对待处理图像进行识别，得到待处理图像的目标识别结果，其中，目标识别结果用于表征待处理图像中的像素点满足预设条件的概率；通过调用第二接口输出目标识别结果，其中，第二接口包括第二参数，第二参数的参数值为目标识别结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；

对所述待处理图像进行特征提取，得到所述部位图像的第一图像特征；

对所述第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，其中，不同查询向量用于表征所述部位图像中不同像素点的特征类别；

基于所述第一图像特征和所述多个注意力特征，对所述待处理图像进行识别，得到所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率；

其中，基于所述第一图像特征和所述多个注意力特征，对所述待处理图像进行识别，得到所述待处理图像的目标识别结果，包括：

确定所述第一图像特征和所述多个注意力特征之间的相似度，得到多个相似度；

获取所述多个相似度中的最大相似度；

获取所述最大相似度的相反数，得到所述目标识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述多个注意力特征对应的目标类型；

基于所述多个相似度和所述目标类型，对所述待处理图像中的像素进行语义分割，得到目标语义分割结果，其中，所述目标语义分割结果用于表征所述待处理图像中的属于所述部位图像的像素点的类别。

3.根据权利要求2所述的方法，其特征在于，基于所述多个相似度和所述目标类型，对所述待处理图像中的像素进行语义分割，得到所述语义分割结果，包括：

基于所述多个相似度对所述待处理图像中的像素进行分组，得到第一像素集合；

基于所述目标类型对所述第一像素集合进行分类，得到所述语义分割结果。

4.根据权利要求1所述的方法，其特征在于，对所述第一图像特征和多个查询向量进行交叉注意力处理，得到多个注意力特征，包括：

利用解码器模型对所述第一图像特征和所述多个查询向量进行交叉注意力处理，得到所述多个注意力特征。

5.根据权利要求4所述的方法，其特征在于，利用解码器模型对所述第一图像特征和所述多个查询向量进行交叉注意力处理，得到所述多个注意力特征，包括：

基于所述多个查询向量对所述第一图像特征进行聚类，得到聚类结果；

基于所述聚类结果对所述多个查询向量进行更新，得到所述多个注意力特征。

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

获取训练样本，其中，所述训练样本包括：样本图像和预设语义分割结果，所述样本图像包含预设生物对象的预设器官的预设图像；

对所述样本图像进行特征提取，得到所述预设图像的第二图像特征；

利用所述解码器模型对所述第二图像特征和所述多个查询向量进行交叉注意力处理，得到多个样本注意力特征；

基于所述第二图像特征和所述多个样本注意力特征，对所述样本图像进行识别，得到所述样本图像的样本处理结果，其中，所述样本处理结果包括：样本语义分割结果和第二像素集合，所述样本语义分割结果用于表征所述样本图像中属于所述预设图像的像素点，所述第二像素集合中的像素集合分别包含所述样本图像中不同预设类型的像素点；

基于所述样本语义分割结果、所述预设语义分割结果和所述第二像素集合，确定所述解码器模型的总损失值；

基于所述总损失值对所述解码器模型的模型参数进行调整。

7.根据权利要求6所述的方法，其特征在于，基于所述第二图像特征和所述多个样本注意力特征，对所述样本图像进行识别，得到所述第二像素集合，包括：

确定所述第二图像特征和所述多个样本注意力特征之间的相似度，得到多个样本相似度；

基于所述多个样本相似度对所述样本图像中的像素进行分组，得到初始像素集合；

基于预设类别对所述初始像素集合进行合并，得到所述第二像素集合。

8.根据权利要求6所述的方法，其特征在于，基于所述样本语义分割结果、所述预设语义分割结果和所述第二像素集合，确定所述解码器模型的总损失值，包括：

基于所述样本语义分割结果和所述预设语义分割结果，确定所述解码器模型的第一损失值；

基于所述预设语义分割结果对应的预设类别，对所述预设语义分割结果进行合并，得到预设像素集合；

基于所述第二像素集合和所述预设像素集合，确定所述解码器模型的第二损失值；

获取所述第一损失值和所述第二损失值的加权和，得到所述总损失值。

9.一种图像处理方法，其特征在于，包括：

响应作用于操作界面上的输入指令，在所述操作界面上显示待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；

响应作用于所述操作界面上的图像处理指令，在所述操作界面上显示所述待处理图像的目标识别结果，其中，所述目标识别结果用于表征所述待处理图像中的像素点满足预设条件的概率，所述目标识别结果是基于所述部位图像的第一图像特征和多个注意力特征对所述待处理图像进行识别得到的，所述多个注意力特征是对所述第一图像特征和多个查询向量进行交叉注意力处理得到的，不同查询向量用于表征所述部位图像中不同像素点的特征类别，所述第一图像特征是对所述待处理图像进行特征提取得到的，所述目标识别结果根据最大相似度的相反数确定，所述最大相似度基于多个相似度确定，所述多个相似度基于所述第一图像特征和所述多个注意力特征之间的相似度确定。

10.一种图像处理方法，其特征在于，包括：

在虚拟现实VR设备或增强现实AR设备的呈现画面上展示待处理图像，其中，所述待处理图像包含生物对象的至少一种器官的部位图像；

驱动所述VR设备或所述AR设备渲染所述目标识别结果；

获取所述多个相似度中的最大相似度；

获取所述最大相似度的相反数，得到所述目标识别结果。

11.一种图像处理方法，其特征在于，包括：

通过调用第一接口获取待处理图像，其中，所述第一接口包括第一参数，所述第一参数的参数值为所述待处理图像，所述待处理图像包含生物对象的至少一种器官的部位图像；

通过调用第二接口输出所述目标识别结果，其中，所述第二接口包括第二参数，所述第二参数的参数值为所述目标识别结果；

获取所述多个相似度中的最大相似度；

获取所述最大相似度的相反数，得到所述目标识别结果。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的方法。

13.一种计算机终端，其特征在于，包括：

处理器；

存储器，与所述处理器相连接，用于为所述处理器提供执行权利要求1至11中任意一项所述的方法的指令。