CN117853490B

CN117853490B - 图像处理方法、图像处理模型的训练方法

Info

Publication number: CN117853490B
Application number: CN202410257868.3A
Authority: CN
Inventors: 姚佳文; 郭广宇; 夏英达; 莫志榮; 郑智琳; 吕乐; 张灵
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2024-03-06
Filing date: 2024-03-06
Publication date: 2024-05-24
Anticipated expiration: 2044-03-06
Also published as: CN117853490A

Abstract

本说明书实施例提供图像处理方法、图像处理模型的训练方法，其中图像处理方法包括：接收图像处理任务，其中，图像处理任务携带目标检测区域对应的多个目标图像，图像处理任务用于检测目标检测区域内是否存在异常对象；将多个目标图像输入至图像处理模型，获得目标检测区域对应的检测结果，其中，基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，检测结果包括检测标注信息、检测类别信息和检测指导文本。通过获得目标图像对应的多个尺度特征信息提高了后续生成检测结果的准确率。检测结果包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

Description

图像处理方法、图像处理模型的训练方法

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种图像处理方法。

背景技术

随着人民生活水平提高，越来越多的人重视自身的健康，肿瘤是影响人健康的重大因素之一，在医学图像中识别肿瘤是需要专业医生根据经验进行识别，受限于医生的经验，借助医学图像的进行图像识别分析成为一个重要课题。

目前人工智能系统已经展现出巨大的潜力，利用大模型对医学图像进行识别在在医学影像计算机辅助诊断（computer aided diagnosis ，CAD）任务中也取得了长足的进步，但是目前对医学图像进行识别分析的模型，识别准确度较低，而且模型在训练时，需要用到大量的标注数据，而标注数据又需要经验丰富的专业医生经验，因此，模型训练的效果也较差。因此，如何提升图像识别模型的图像识别准确度，就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本说明书实施例提供了一种图像处理方法。本说明书一个或者多个实施例同时涉及提供了一种图像处理方法，本说明书同时涉及CT图像处理方法、图像处理模型的训练方法、图像处理装置，一种计算设备、一种计算机可读存储介质，以及一种计算机程序产品，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种图像处理方法，包括：

接收图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象；

将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

根据本说明书实施例的第二方面，提供了一种CT图像处理方法，包括：

接收CT图像处理任务，其中，所述CT图像处理任务携带目标检测区域对应的多个CT图像，所述CT图像处理任务用于检测所述目标检测区域内是否存在异常对象；

将所述多个CT图像输入至CT图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述CT图像处理模型基于多个CT图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

根据本说明书实施例的第三方面，提供了一种图像处理模型的训练方法，应用于云侧设备，包括：

获取样本图像，以及所述样本图像对应的样本标注信息、样本类别信息和样本指导文本；

将所述样本图像和所述样本指导文本输入至图像处理模型，获得所述图像处理模型输出的预测标注信息、预测类别信息和文本损失值；

根据所述样本标注信息、所述样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值；

根据所述模型损失值和所述文本损失值调整所述图像处理模型的模型参数，并继续训练所述图像处理模型，直至达到模型训练停止条件，获得图像处理模型的模型参数；

向端侧设备发送所述图像处理模型的模型参数。

根据本说明书实施例的第四方面，提供了一种图像处理方法，包括：

接收用户发送的图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象；

将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本；

向用户发送所述目标检测区域对应的检测结果。

根据本说明书实施例的第五方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

根据本说明书实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

根据本说明书实施例的第七方面，提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

本说明书一个实施例提供的图像处理方法，通过图像处理模型获得目标图像对应的多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

附图说明

图1是本说明书一个实施例提供的一种图像处理系统的架构图；

图2是本说明书一个实施例提供的一种图像处理方法的流程图；

图3是本说明书一个实施例提供的一种图像处理模型的结构示意图；

图4是本说明书一个实施例提供的一种CT图像处理方法的流程图；

图5是本说明书一个实施例提供的一种图像处理模型的训练方法的流程图；

图6是本说明书一个实施例提供的另一种图像处理方法的流程图；

图7是本说明书一个实施例提供的应用于食管癌检测场景的图像处理方法的流程图；

图8是本说明书一个实施例提供的一种图像处理装置的结构示意图；

图9是本说明书一个实施例提供的一种CT图像处理装置的结构示意图；

图10是本说明书一个实施例提供的另一种图像处理装置的结构示意图；

图11是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

此外，需要说明的是，本说明书一个或多个实施例所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

CT（Computed Tomography）：电子计算机断层扫描，它是利用精确准直的X线束、γ射线、超声波等，与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描，具有扫描时间快，图像清晰等特点，可用于多种疾病的检查。

CAD（computer aided diagnosis）：计算机辅助诊断，是指通过影像学、医学图像处理技术以及其他可能的生理、生化手段，结合计算机的分析计算，辅助发现病灶，提高诊断的准确率。

EC（esophageal cancer）：食管癌，是致命率极高的癌症，具不完全统计5年生存率较低，然而若早期发现可切除/可治愈的食管癌会很大程度上降低死亡率，其中，淋巴结转移是较为常见，具有典型性的一类病症。

目前人工智能系统已经展现出巨大的潜力，利用大模型对医学图像进行识别在在医学影像计算机辅助诊断（computer aided diagnosis ，CAD）任务中也取得了长足的进步，但是目前对医学图像进行识别分析的模型，识别准确度较低。大多数人工智能系统严重依赖肿瘤级别的标注信息，这需要经验丰富的放射科医生的标注。另一方面，临床报告中同时会包含有丰富的描述性信息，而目前的计算机辅助诊断系统还无法有效的利用临床报告中的信息。

基于此，在本说明书中，提供了一种图像处理方法，本说明书同时涉及CT图像处理方法、图像处理模型的训练方法、图像处理装置，一种计算设备、一种计算机可读存储介质，以及一种计算机程序产品，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了本说明书一个实施例提供的一种图像处理系统的架构图，图像处理系统可以包括客户端100和服务端200；

客户端100，用于向服务端200发送图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象；

服务端200，用于将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本；向客户端100发送检测结果；

客户端100，还用于接收服务端200发送的检测结果。

应用本说明书实施例的方案，接收图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象；将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

如此，在利用图像处理模型在对多个目标图像进行处理的过程中，提取了多个目标图像的多尺度特征信息，并基于多尺度特征信息生成了检测标注信息、检测类别信息和检测指导文本，

图像处理系统可以包括多个客户端100以及服务端200，其中，客户端100可以称为端侧设备，服务端200可以称为云侧设备。多个客户端100之间通过服务端200可以建立通信连接，在图像处理场景中，服务端200即用来在多个客户端100之间提供图像处理服务，多个客户端100可以分别作为发送端或接收端，通过服务端200实现通信。

用户通过客户端100可与服务端200进行交互以接收其它客户端100发送的数据，或将数据发送至其它客户端100等。在图像处理场景中，可以是用户通过客户端100向服务端200发布数据流，服务端200根据该数据流生成检测结果，并将检测结果推送至其他建立通信的客户端中。

其中，客户端100与服务端200之间通过网络建立连接。网络为客户端100与服务端200之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。客户端100所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端200。

客户端100可以为浏览器、APP（Application，应用程序）、或网页应用如H5（HyperText Markup Language5，超文本标记语言第5版）应用、或轻应用（也被称为小程序，一种轻量级应用程序）或云应用等，客户端100可以基于服务端200提供的相应服务的软件开发工具包（SDK，Software Development Kit），如基于实时通信（RTC，Real TimeCommunication）SDK开发获得等。客户端100可以部署在电子设备中，需要依赖设备运行或者设备中的某些APP而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端200可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。需要说明的是，服务端200可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（CDN，Content DeliveryNetwork）以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

值得说明的是，本说明书实施例中提供的图像处理方法一般由服务端执行，但是，在本说明书的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本说明书实施例所提供的图像处理方法。在其它实施例中，本说明书实施例所提供的图像处理方法还可以是由客户端与服务端共同执行。

参见图2，图2示出了本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤：

步骤202：接收图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象。

在实际应用中，可以通过服务端，也可以通过客户端接收用户发送的图像处理任务。

具体的，图像处理任务具体是指用于检测目标检测区域内是否存在异常对象的任务。图像处理任务中携带目标检测区域对应的多个目标图像。进一步的，目标检测区域可以理解为用于检测是存在异常对象的分区，异常对象具体是指目标检测区域内的异物。例如，异常对象可以是人体内的肿瘤。

目标检测区域可以是人体内的任一器官，如肝脏、肺、胃、食管等。通过对目标检测区域是否存在异常对象进行预测，可以根据预测结果进一步判断待检测对象的状态，从而对异常对象的定位和精准治疗提供帮助。

待检测对象可以理解为目标检测区域所述的对象，例如，目标图像是张三胃部的CT图像，则目标检测区域为胃部，CT图像即为目标图像，待检测对象即为张三，该图像处理任务用于检测胃部区域是否存在有肿瘤。在实际应用中，待检测对象可以是人，也可以是其他生命体，在本说明书提供的一个或多个具体实施方式中，对此不做限定。

需要说明的是，本说明书一个或多个实施例中，图像处理任务可以应用于对各类医学图像的识别，并根据图像特征判断医学图像中的目标检测区域中是否存在异常对象。示例性的，在胃癌检测的应用场景中，可以根据胃部区域的医学图像，预测在胃部区域中是否存在肿瘤，从而帮助医生对出现异常的部位进行精准定位；在食道癌检测的应用场景中，可以根据食道区域的医学图像，预测在食道中是否存在肿瘤，从而帮助医生对出现异常的部位进行精准定位，便于后续的治疗。

示例性的，在食道癌检测的场景中，获取的目标图像即为食道的图像，具体的，获取的多个目标图像即为食道的CT图像，多个目标图像可以组成食道区域的3D图像。异常对象可以理解为食道中的肿瘤。获取食道区域对应的多个CT图像，通过对多个CT图像进行图像检测处理，检测在食道中是否存在恶性肿瘤。

在实际应用中，异常对象可以为某一种细胞，某一种组织结构等等，例如可以为恶性肿瘤、良性肿瘤、增生组织等等。在本说明书提供的一个或多个实施例中，对此不做限定。

通过接收图像处理任务，可以将图像处理任务中携带的目标检测区域对应的多个目标图像作为输入，用于检测目标检测区域内是否存在异常对象。

在本说明书提供的一具体实施方式中，在接收图像处理任务之前，还包括：

接收图像分割任务，其中，所述图像分割任务携带目标检测区域对应的多个初始图像，所述图像分割任务用于提取所述目标检测区域对应的目标图像；

将各初始图像输入至预先训练的图像分割模型，获得所述图像分割模型输出的各初始图像对应的目标图像。

在本说明书实施例提供的实施例中，目标图像可以理解为目标检测区域对应的特写图像。而在实际应用中，接收到的多个图像可能会存在除了目标检测区域外，还包括了其他的区域，而其他的区域会对目标检测区域造成影响。因此，在本说明书实施例提供的方法中，还对图像做了处理。

具体的，首先获取针对多个初始图像的图像分割任务，初始图像中即包括有目标检测区域，又包括对目标检测区域带来影响的区域。该图像分割任务用于从各初始图像中提取出目标检测区域对应的目标图像。

将多个初始图像输入至预先训练的图像分割模型进行处理。图像分割模型被训练于识别到初始图像中的目标检测区域，并将目标检测区域从初始图像中截取出来，生成目标检测区域对应的目标图像。

以CT图像为例，在本说明书提供的方法中，首先获取初始CT图像，初始CT图像为图像质量要求的平扫CT图像，初始CT图像的来源可以是多个CT扫描机，也可以是同一个CT扫描机，在本说明书中对此不做限定。在获得初始CT图像之后，要统一各初始CT图像的格式。图像分割模型可以是3DUNet。

3DUNet是一种在三维空间中进行图像分割的深度学习架构，是U-Net模型的扩展版本，U-Net最初被设计用于二维生物医学图像的语义分割，并因其优异的表现和对小目标分割的高精度而受到广泛认可。3DUNet将这一思想应用于三维数据集，例如医学影像（如CT、MRI扫描等），这在许多医疗领域非常有用，因为这些领域的数据通常具有丰富的三维结构信息。

在3DUNet中包括有编码器-解码器结构，用于捕获全局上下文信息，以及恢复丢失的空间细节并生成精确的像素级分割标签。3DUNet结构中的3D卷积核在网络中替代了2D卷积核，可以同时处理输入数据在三个维度（长、宽、高）上的特征。同时，3DUNet还能有效地融合不同层次的三维特征，有助于提取复杂的形状和结构信息。该框架在医学图像分割方法有较好的效果。在本说明书提供的方法中，对初始CT图像使用3DUNet结构的预处理策略进行切割处理，获得目标检测区域对应的目标图像，用于后续的处理。

步骤204：将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

实际应用中，在接收到图像处理任务后，可以从图像处理任务中获取其携带的多个目标图像，将多个目标图像输入至图像处理模型，可以获得图像处理模型输出的目标检测区域对应的检测结果，检测结果具体包括检测标注信息、检测类别信息和检测指导文本。

其中，检测标注信息具体是指在目标图像中标记出异常对象的区域，若在目标图像中没有异常对象，则检测标注信息为空。

检测类别信息具体是指针对目标图像的检测，目标检测区域对应的待检测对象所述类别信息。若目标检测区域中包括异常对象，则检测类别信息为异常；若目标检测区域中未包括异常对象，则检测类别信息为正常。

检测指导文本具体是指根据目标图像的检测标注信息、检测类别信息等，输出的针对待检测对象关于异常对象位置、状态等信息的指导性文本。需要注意的是，本说明书实施例提供的检测指导文本是将检测到的异常对象位置、状态等信息，添加到指导文本模版中生成的指导文本。如果在检测标注信息确定有异常对象的情况下，在检测标注信息中会给出异常对象的具体位置、以及待检测对象的类别信息。例如检测指导文本可以是“患者在食管的上部有一个肿瘤，患者患有食管癌”，又例如检测指导文本可以是“患者胃部未检测到肿瘤，患者未检测到胃癌”等等。

在图像处理模型内部会提取各目标图像的多尺度特征信息，再根据多尺度特征信息提取出目标检测区域对应的检测结果。

具体的，所述图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块；

将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，包括S2042-S2046：

S2042、将所述多个目标图像输入至所述多尺度特征提取模块，获得至少一个尺度特征信息。

其中，多尺度特征提取模块具体是指用不同的尺度信息，提取多个目标图像组成的3D模型的目标特征信息。例如，对于给尺寸为W*H*D的3D模型，将其输入到多尺度特征提取模块，该多尺度特征提取模块可以理解为3DUNet的主干特征提取网络，得到多尺度特征图F={F0，F1，F2，……FS}，其中，S为尺度层数，在本说明书提供的一个实施方式中，S=5，即多尺度特征图F={F0，F1，F2，F3，F4，F5}。对于第i个尺度层数对应的特征图。

参见图3，图3示出了本说明书一个实施例提供的图像处理模型的结构示意图，如图3所示，将多个目标图像输入到图像处理模型的多尺度特征提取模块中，经过5个stage的降采样处理，获得多个不同尺度特初始特征信息，再对多个不同尺度的初始特征信息进行卷积处理或反卷积-卷积处理，获得各尺度对应的尺度特征图，从而获得6个多尺度特征图。

S2044、将各尺度特征信息输入至所述特征融合模块，获得特征融合信息。

在获得了多个尺度特征信息之后，将多个尺度特征信息输入到特征融合层中进行特征融合，将多个尺度特征信息统一到同一个尺度内，进行融合，获得了特征融合信息。

参见图3，将多个尺度特征图{F0，F1，F2，F3，F4，F5}输入到特征融合层，在特征融合层中，将多个尺度特征图统一到同一个尺度内进行特征融合，获得融合特征信息Fa。

S2046、将所述特征融合信息输入至所述特征处理模块，获得所述目标检测区域对应的检测结果。

在获得了特征融合信息之后，即可将特征融合信息输入到特征处理模块，在特征处理模块中对特征融合信息进行处理，从而生成针对目标检测区域对应的检测结果。在本说明书提供的实施方式中，检测结果具体包括检测标注信息、检测类别信息和检测指导文本。

在本说明书提供的一具体实施方式中，所述特征处理模块包括异常对象分割单元、异常对象分类单元和指导文本生成单元；

将所述特征融合信息输入至所述特征处理模块，获得所述目标检测区域对应的检测结果，包括：

将所述特征融合信息输入至所述异常对象分割单元，获得检测标注信息；

将所述特征融合信息输入至所述异常对象分类单元，获得检测类别信息；

将所述特征融合信息输入至所述指导文本生成单元，获得检测指导文本；

根据所述检测标注信息、检测类别信息、检测指导文本生成所述目标检测区域对应的检测结果。

在实际应用中，特征处理模块用于对特征融合信息进行处理，提取特征融合信息中的特征，并对提取到的特征进行解码，从而生成对应的检测结果，在特征处理模块中具体包括有异常对象分割单元、异常对象分类单元和指导文本生成单元。

其中，异常对象分割单元用于根据特征融合信息在目标图像中标记出异常对象的区域，在目标图像中分割出目标检测区域对应的异常对象；异常对象分类单元用于根据特征融合信息确定目标检测区域中是否有异常对象，并确定针对待检测对象的分类信息；指导文本生成单元用于根据特征融合信息生成用于指示待检测对象关于异常对象位置、状态等信息的指导性文本。

根据异常对象分割单元、异常对象分类单元和指导文本生成单元分别输出的检测标注信息、检测类别信息和检测指导文本，生成最终的检测结果。

更进一步的，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元；

将所述特征融合信息输入至所述指导文本生成单元，获得检测指导文本，包括：

将所述特征融合信息输入至所述异常位置文本子单元，获得位置指导信息；

将所述特征融合信息输入至所述异常结果文本子单元，获得结果指导信息；

根据所述位置指导信息和所述结果指导信息，生成检测指导文本。

在实际应用中，检测指导文本中具体包括有异常位置指导信息和待检测对象的状态指导信息。因此，在指导文本生成单元中包括有异常位置文本子单元和异常结果文本子单元。其中，异常位置文本子单元用于根据特征融合信息生成异常对象在目标检测区域中的位置信息，异常结果文本子单元，用于生成待检测对象的状态信息。

例如，在对某个用户的胃部CT图像进行检测的过程，用于检测胃部的异常对象，生成检测指导文本，异常位置文本子单元对特征融合信息进行处理后，确定其位置指导信息为“胃的中部”，异常结果文本子单元对特征融合信息进行处理后，确定其结果指导信息为“该用户患有胃癌”。根据位置指导信息和结果指导信息生成最终的检测指导文本“该用户在胃的中部有肿瘤，患有胃癌”。

通过本说明书实施例提供的图像处理方法，将待检测对象针对目标检测区域的多个目标图像输入至图像处理模型，在图像处理模型中对多个目标图像对应的3D图像进行多个尺度特征提取，并对多个尺度特征进行融合后，分别进行标注信息、类别信息和指导文本的生成，从而最终生成检测结果。通过多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

随着计算机技术的不断发展，深度学习逐渐能应用于各种医学影响计算机辅助诊断任务中，深度学习模型依赖大规模精准标注的训练样本和样本标签作为训练数据进行模型训练，目前对图像处理模型在模型训练过程中，其训练数据为目标检测区域内包括异常对象的图像，其对于目标检测区域内没有包括异常对象的处理效果较差。基于此，在本说明书提供的一具体实施方式中，所述图像处理模型通过下述步骤训练获得：

根据所述模型损失值和所述文本损失值调整所述图像处理模型的模型参数，并继续训练所述图像处理模型，直至达到模型训练停止条件。

需要说明的是，在本说明书提供的图像处理模型的训练方法使用了有监督训练和迁移训练的思想，先使用有标注的训练数据训练一个初始模型，再将初始模型中的骨干网络迁移到图像处理模型中，用另一批训练数据进一步进行训练，获得最终的图像处理模型。

样本图像具体是指用于进行模型训练的图像，在实际应用中，样本图像中不仅包含有异常对象的图像，还包含有不存在异常对象的图像。样本图像对应的样本标注信息具体是指在样本图像中对异常对象的标注信息；样本类别信息具体是指样本图像对应的待检测对象的状态信息；样本指导文本具体是指样针对样本图像中异常对象的位置、待检测对象的状态的文本。样本类别信息可以从样本指导文本中获取，也可以是单独的样本类别信息。

以训练计算机辅助诊断领域的辅助诊断图像处理模型为例，在训练过程中，引入了健康者的图像，而不是仅使用肿瘤患者的图像，从而避免了在图像处理模型在真实应用时，面对多样化的无肿瘤图像时，预测出错误的结果。

在获得了样本图像之后，将样本图像输入至图像处理模型中，此时的图像处理模型还是未训练好的图像处理模型。在图像处理模型中，根据各样本图像生成预测检测结果，预测检测结果包括预测标注信息、预测类别信息、预测指导文本。

在本说明书提供的方法中，图像处理模型如上述步骤中的图像处理模型的模型结构，也包括有多尺度特征提取模块、特征融合模块、特征处理模块，样本图像在未训练好的图像处理模型中的数据处理过程，与上述实施例中图像处理模型的数据处理过程相同，关于样本图像在未训练好的图像处理模型中的数据处理过程，参见上述目标图像在图像处理模型中的数据处理过程，在此不在赘述。

在获得了样本图像的预测检测结果之后，可根据预测检测结果和样本检测结果计算模型损失值，在本说明书提供的方法中，计算模型损失值的方法有很多，例如交叉熵损失函数、最大损失函数、平均值损失函数等等，在本说明书中，对损失函数的具体方式不做限定，以实际应用为准。

在本说明书一个或多个具体实施方式中，样本检测结果包括样本标注信息、样本类别信息，预测检测结果包括预测标注信息、预测类别信息，根据所述样本标注信息、所述样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值，包括：

根据所述样本标注信息和所述预测标注信息计算第一损失值；

根据所述样本类别信息和所述预测类别信息计算第二损失值；

根据所述第一损失值和所述第二损失值计算模型损失值。

具体的，在本说明书一个或多个具体实施方式中，样本检测结果包括样本标注信息、样本类别信息，预测检测结果包括预测标注信息、预测类别信息。技术人员希望预测检测结果和样本检测结果一致，从而提升图像处理模型预测的准确性。

用样本标注信息和预测标注信息计算第一损失值，用样本类别信息和预测类别信息计算第二损失值，同时预测指导文本、预测标注信息之间还可以相互验证，进一步提升模型预测的准确性。

再将第一损失值和第二损失值融合，获得模型损失值，具体的，是将第一损失值和第二损失值相加，获得模型损失值。

除此之外，需要注意的是，在本说明书提供的图像处理模型的训练方法中，样本指导文本是在图像处理模型的内部进行处理，获得文本损失值。即需要将样本指导文本也输入到图像处理模型中。图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块、文本特征提取模块；

将所述样本图像和所述样本指导文本输入至图像处理模型，获得所述图像处理模型输出的预测标注信息、预测类别信息和文本损失值，包括：

将所述样本图像输入至所述多尺度特征提取模块，获得至少一个尺度特征信息；

将各尺度特征信息输入至所述特征融合模块，获得特征融合信息；

将所述样本指导文本输入至所述文本特征提取模块，获得样本文本特征信息；

将所述特征融合信息和所述样本文本特征信息输入至所述特征处理模块，获得所述样本图像对应的预测标注信息、预测类别信息和文本损失值。

图像处理模型中多尺度特征提取模块、特征融合模块的处理方式参见上述步骤中的内容，在此不再赘述。

在图像处理模型的模型训练过程中，图像处理模型中还包括有文本特征提取模块，在训练阶段，将所述样本指导文本输入至所述文本特征提取模块，获得样本文本特征信息。同时，在训练阶段，将特征融合信息和样本文本特征信息输入到特征处理模块，在特征处理模块中进行处理后，获得预测标注信息、预测类别信息和文本损失值。

在获得文本损失值和模型损失值后，根据文本损失值和模型损失值一起对图像处理模型的模型参数进行调整，具体的，是将文本损失值和模型损失值相加，获得新的损失值，并根据新的损失值反向传播，调整图像处理模型的模型参数。

在本说明书提供的一具体实施方式中，所述特征处理模块包括异常对象分割单元和异常对象分类单元、指导文本生成单元；

将所述特征融合信息和所述样本文本特征信息输入至所述特征处理模块，获得所述样本图像对应的预测标注信息、预测类别信息和文本损失值，包括：

将所述特征融合信息输入至所述指导文本生成单元，获得预测文本特征信息；

根据所述预测文本特征信息和所述样本文本特征信息计算获得文本损失值。

具体的，在训练阶段的特征处理模块中包括有异常对象分割单元、异常对象分类单元和指导文本生成单元。其中，异常对象分割单元用于根据特征融合信息生成检测标注信息；异常对象分类单元用于根据特征融合信息生成检测类别信息；指导文本生成单元用于根据特征融合信息生成预测文本特征信息，具体是指生成预测文本特征向量，再通过预测文本特征信息和所述样本文本特征信息计算获得文本损失值。

更进一步的，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元，所述样本文本特征信息包括样本位置特征信息和样本结果特征信息；

将所述特征融合信息输入至所述指导文本生成单元，获得预测文本特征信息，包括：

将所述特征融合信息输入至所述异常位置文本子单元，获得预测位置指导信息特征；

将所述特征融合信息输入至所述异常结果文本子单元，获得预测结果指导信息特征；

相应的，根据所述预测文本特征信息和所述样本文本特征信息计算获得文本损失值，包括：

根据所述样本位置特征信息、样本结果特征信息、预测位置指导信息特征和预测结果指导信息特征计算获得文本损失值。

在实际应用中，指导文本生成单元包括异常位置文本子单元和异常结果文本子单元，指导文本生成单元在根据特征融合信息生成预测指导文本的过程中，先生成预测文本特征信息，更进一步的，预测文本特征信息由预测位置指导信息特征和预测结果指导信息特征组成，样本文本特征信息包括样本位置特征信息和样本结果特征信息。根据所述样本位置特征信息、样本结果特征信息、预测位置指导信息特征和预测结果指导信息特征计算获得文本损失值。

在实际应用中，在样本指导文本中具体包括有两部分内容，即样本位置指导信息和样本结果指导信息。其中，样本位置指导信息具体是指目标检测区域内异常对象的位置信息，样本结果指导信息具体是指待检测对象的状态信息。例如样本位置指导信息包括“食管的中部有肿瘤”，样本结果指导信息包括“患者患有食管癌”。样本位置特征信息具体是指样本位置指导信息对应的特征向量，样本结果特征信息具体是指样本结果指导信息对应的特征向量。

将样本指导文本输入到文本特征提取模块中，该文本特征提取模块具体是指可以将样本指导文本转换为对应的文本特征信息的模块，例如Transformer模型的编码器、CLIP模型的文本编码器等等。更进一步的，是将样本指导文本中的样本位置指导信息和样本结果指导信息输入到特征提取模块中，获得样本位置指导信息对应的样本位置指导信息特征、样本结果指导信息对应的样本结果指导信息特征。

在图像处理模型中，包括有指导文本生成单元，在指导文本生成单元中包括异常位置文本子单元和异常结果文本子单元，图像处理模型在处理过程中，会获得异常位置文本子单元输出的预测位置指导信息特征、异常结果文本子单元输出的预测结果指导信息特征。

根据所述样本位置指导信息特征和所述预测位置指导信息特征计算位置损失值，根据所述样本结果指导信息特征和所述预测结果指导信息特征计算结果损失值，再根据位置损失值和所述结果损失值确定文本损失值。

通过文本特征提取模块对样本指导文本进行处理，该文本特征提取模块可以利用样本指导文本中待检测对象的样本位置指导信息和样本结果指导信息对图像处理模型进行监督，充分利用了目前已有的样本指导文本，提升了图像处理模型的训练速度和图像处理模型的预测准确率。

在实际应用中，还存在有样本图像标记信息不全的问题。在实际应用中，只有部分图像中设置有标注信息和样本指导文本，大部分图像只有样本指导文本而没有标注信息。例如对于CT图像，只有部分CT图像由有经验的医生对肿瘤区域进行了标注，而大部分的CT图像没有对肿瘤区域进行标注，在实际应用中，有肿瘤区域标注的CT图像占比可能只有20%-30%，而没有肿瘤区域标注的CT图像占比有70%-80%。样本指导文本可以理解为CT图像对应的临床报告。

为了充分利用样本文本，在本说明书提供的另一具体实施方式中，所述样本图像包括第一样本图像和第二样本图像，其中，所述第一样本图像中标记有样本标注信息，第二样本图像中未标记样本标注信息；

获取样本图像，以及所述样本图像对应的样本标注信息、样本类别信息和样本指导文本，包括：

获取样本图像和样本图像对应的样本指导文本，并从所述样本指导文本中提取样本类别信息；

根据第一样本图像，以及所述第一样本图像对应的样本标注信息和样本指导文本训练图像标注模型，获得用于生成标注信息的图像标注模型；

将所述第二样本输入至所述图像标注模型，获得所述图像标注模型输出的预测标注信息，将所述预测标注信息作为所述第二样本图像的样本标注信息。

其中，第一样本图像即为有样本标注信息的样本图像，第二样本图像即为没有样本标注信息的样本图像。第一样本图像和第二样本图像均有对应的样本指导文本。

在各样本指导文本中可以识别并提取出待检测对象对应的样本类别信息，在获得各样本图像对应的样本类别信息之后，即可先利用有样本标注信息的第一样本图像训练一个图像标注模型，用于为第二样本图像生成样本标注信息。

具体的，由于各样本图像均包括有对应的样本指导文本，第一样本图像有样本标注信息，第二样本图像没有样本标注信息。则先利用第一样本图像和第一样本图像对应的样本标注信息和样本指导文本，预先训练一个图像标注模型，该图像标注模型中包括有异常对象分割单元和指导文本生成单元。

将第一样本图像输入到图像标注模型中，获得异常对象分割单元输出的预测标注信息，获得指导文本生成单元输出的预测指导文本。用预测标注信息、样本标注信息、预测指导文本和样本指导文本计算图像标注模型的模型损失值，基于图像标注模型的模型损失值调整图像标注模型的模型参数，直至达到模型训练停止条件，获得训练好的图像标注模型，该图像标注模型可以对未标记有图像标注信息的图像进行图像标注。

将第二样本图像输入至训练好的图像标注模型，图像标注模型可以为第二样本图像生成预测标注信息，并将该预测标注信息作为第二样本图像对应的样本标注信息。

在训练图像标注模型的过程中，图像标注模型中包括有异常对象分割单元和指导文本生成单元。而在上述步骤中的图像处理模型也包括有异常对象分割单元和指导文本生成单元，为了进一步节省计算资源，所述方法还包括：

将所述图像标注模型中的异常对象分割单元和指导文本生成单元，作为所述图像处理模型的异常对象分割单元和指导文本生成单元。

即将图像标注模型作为教师模型，在对图像标注模型的训练过程中，利用了第一样本图像、第一样本图像对应的样本标注信息和样本指导文本，获得的图像标注模型中的异常对象分割单元和指导文本生成单元已经经过训练调参，具备相应的数据处理能力。可以将异常对象分割单元和指导文本生成单元直接迁移至图像处理模型中，将图像标注模型中的异常对象分割单元和指导文本生成单元，作为图像处理模型的异常对象分割单元和指导文本生成单元。

更进一步的，在训练图像标注模型的过程中，可以设置图像标注模型同样包括多尺度特征提取模块、特征融合模块，在图像标注模型的训练过程中继续进行训练。再将其迁移到图像处理模型中，使得图像处理模型中的多尺度特征提取模块、特征融合模块、特征处理模块中的异常对象分割单元和指导文本生成单元，在图像标注模型的训练过程中进行初步训练。在图像处理模型训练时，再次进行训练，或不再训练，从而提升图像处理模型的模型训练效率。在实际应用中，图像处理模型在模型训练阶段包括文本特征提取模块，在图像处理模型的模型应用阶段，可以不包括文本特征提取模块。

本说明书实施例提供的图像处理模型的训练方法，利用文本特征提取模块，将样本指导文本通过文本特征提取模块获得对应的样本文本特征信息，将样本文本特征信息对图像处理模型的训练进行监督，提升了图像处理模型训练的效率和准确度。

另外，针对样本图像的标注信息不全的情况，采用半监督的图像标注模型的训练方法，利用部分由标注的样本图像，训练一个图像标注模型，用该图像标注模型对未标注的样本图像进行标注，从而丰富了有标注信息的样本图像的数量。

最后，将图像标注模型中的模型结构迁移到图像处理模型中，利用已经训练的图像标注模型中的模型结构继续训练图像处理模型，提升了图像处理模型的训练速度，也避免了计算资源的浪费。

参见图4，图4示出了本说明书一个实施例提供的一种CT图像处理方法的流程图，具体包括以下步骤：

步骤402：接收CT图像处理任务，其中，所述CT图像处理任务携带目标检测区域对应的多个CT图像，所述CT图像处理任务用于检测所述目标检测区域内是否存在异常对象。

步骤404：将所述多个CT图像输入至CT图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述CT图像处理模型基于多个CT图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

需要说明的是，步骤402-步骤404的实现方式，与上述步骤202-步骤204的实现方式相同，本说明书实施例便不再进行赘述。

示例性的，以目标检测区域为胃部为例，接收CT图像处理任务，在CT图像处理任务中包括目标用户的胃部对应的多个CT图像，多个CT图像可以组成目标用户的胃部3D图，该CT图像处理任务用于检测目标用户的胃部中是否存在恶性肿瘤。

应用本说明书实施例的方法，CT图像处理模型为上述实施例中的图像处理模型，CT图像处理模型的模型结构与上述实施例中图像处理模型的结构相同，在此不再赘述。通过将胃部对应的多个CT图像输入至CT图像处理模型，能获得图像处理模型输出的胃部对应的检测结果，从而实现对胃部中是否存在恶性肿瘤的自动检测，具体的，CT图像处理模型根据多个CT图像生成多个尺度特征信息，再根据多个尺度特征信息生成胃部对应的肿瘤标注信息、用户患病状态（患有胃癌或未患病）、用户检测文本（用户胃部的肿瘤部位、用户是否患病等）等信息。

本说明书一个或多个实施例提供的CT图像处理方法，在图像处理模型中对多个CT图像对应的3D图像进行多个尺度特征提取，并对多个尺度特征进行融合后，分别进行标注信息、类别信息和指导文本的生成，从而最终生成检测结果。通过多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

参见图5，图5示出了本说明书一个实施例提供的一种图像处理模型的训练方法的流程图，应用于云侧设备，具体包括以下步骤：

步骤502：获取样本图像，以及所述样本图像对应的样本标注信息、样本类别信息和样本指导文本。

步骤504：将所述样本图像和所述样本指导文本输入至图像处理模型，获得所述图像处理模型输出的预测标注信息、预测类别信息和文本损失值。

步骤506：根据所述样本标注信息、所述样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值。

步骤508：根据所述模型损失值和所述文本损失值调整所述图像处理模型的模型参数，并继续训练所述图像处理模型，直至达到模型训练停止条件，获得图像处理模型的模型参数。

步骤510：向端侧设备发送所述图像处理模型的模型参数。

需要说明的是，步骤502-步骤508与上述图像处理模型的训练方法的实现方式相同，本说明书实施例不在进行赘述。

在实际应用中，由于对模型进行训练需要大量的数据和较好的计算资源，端侧设备可能不具备相应的处理能力，因此，模型训练的过程可以在云侧设备实现，云侧设备在获得了图像处理模型的模型参数后，还可以将模型参数发送至端侧设备。端侧设备可以根据图像处理模型的模型参数在本地构建图像处理模型，进一步利用图像处理模型进行图像处理。

本说明书实施例提供的方法，在对图像处理模型进行训练的过程中，利用文本特征提取模块，将样本指导文本通过文本特征提取模块获得对应的样本文本特征信息，将样本文本特征信息对图像处理模型的训练进行监督，提升了图像处理模型训练的效率和准确度。

参见图6，图6示出了本说明书一个实施例提供的一种图像处理方法的流程图，具体包括以下步骤：

步骤602：接收用户发送的图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象。

步骤604：将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

步骤606：向用户发送所述目标检测区域对应的检测结果。

需要说明的是，步骤602-步骤604的具体实现方式与上述步骤202-步骤204的实现方式相同，在本说明书实施例中不再进行赘述。

在本实施方式中，是接收到用户发送的图像处理请求，在该图像处理请求中包括有图像处理任务，并且在通过上述实施例的图像处理方法处理完成、获得检测结果之后，还需要将检测结果返回给用户，以使用户根据检测结果进行相应的后续处理。

本说明书一个或多个实施例提供的图像处理方法，通过图像处理模型获得目标图像对应的多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

下述结合附图7，以本说明书提供的图像处理方法在食管癌检测场景的应用为例，对所述图像处理方法进行进一步说明。其中，图7示出了本说明书一个实施例提供的一种应用于食管癌检测场景的图像处理方法的流程图，具体包括以下步骤：

步骤702：接收CT图像处理任务，其中，所述CT图像处理任务携带食管对应的多个CT图像，所述CT图像处理任务用于检测所述食管内是否存在肿瘤。

步骤704：将所述多个CT图像输入至CT图像处理模型，获得食管对应的检测结果，其中，所述CT图像处理模型基于多个CT图像对应的多尺度特征信息生成食管对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

在本实施例中，以对食管中是否存在肿瘤为例进行解释说明，预先对CT图像处理模型进行训练。

具体的，采集的数据集中包括有1617例患者的食管癌筛查数据，数据集包括患者对应的CT图像和检测报告。其中，946名患者患有食管癌，671名用户未患有食管癌。邀请资深医生对30%患有食管癌的患者对应的CT图像中的肿瘤进行标注，并根据检测报告为各患者进行最终决定。

先根据30%标注有肿瘤位置的CT图像和其对应的检测报告，训练图像标注模型，图像标注模型中包括有多尺度特征提取模块、特征融合模块、第一特征处理模块，其中第一特征处理模块包括有异常对象分割单元和指导文本生成单元。

在获得图像标注模型后，用图像标注模型为剩余的CT图像进行标注，未患有食管癌的用户对应的CT图像对应的标注信息为“空”。

在标注完成后，提取图像标注模型中的多尺度特征提取模块、特征融合模块、第一特征处理模块，并引入新的异常对象分类单元，将异常对象分类单元与异常对象分割单元和指导文本生成单元组成第二特征处理模块，并由多尺度特征提取模块、特征融合模块和第二特征提取模块构建CT图像处理模型。

从检测报告中获取到各患者对应的患者状态（即患者是否患有食管癌）作为样本类别信息，将图像标注信息作为样本标注信息，从检测报告中提取位置指导信息和结果指导信息作为样本指导文本。

将样本类别信息、样本标注信息、样本指导文本和CT图像作为训练样本，对CT图像处理模型，直至达到CT图像处理模型的模型训练停止条件。

将训练好的CT图像处理模型即可用于食管癌的检测，将新患者的CT图像输入至该CT图像处理模型中进行预测，即可获得该患者对应的检测标注信息、检测类别信息和检测指导文本。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图8示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图8所示，该装置包括：

接收模块802，被配置为接收图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象；

检测模块804，被配置为将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

可选的，所述图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块；

相应的，所述检测模块804，进一步被配置为：

将所述多个目标图像输入至所述多尺度特征提取模块，获得至少一个尺度特征信息；

将所述特征融合信息输入至所述特征处理模块，获得所述目标检测区域对应的检测结果。

可选的，所述特征处理模块包括异常对象分割单元、异常对象分类单元和指导文本生成单元；

相应的，所述检测模块804，进一步被配置为：

可选的，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元；

相应的，所述检测模块804，进一步被配置为：

可选的，所述装置还包括分割模块，被配置为：

可选的，所述装置还包括训练模块，被配置为：

可选的，所述训练模块，进一步被配置为：

根据所述第一损失值和所述第二损失值计算模型损失值。

可选的，所述图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块、文本特征提取模块；

所述训练模块，进一步被配置为：

可选的，所述特征处理模块包括异常对象分割单元和异常对象分类单元、指导文本生成单元；

所述训练模块，进一步被配置为：

可选的，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元，所述样本文本特征信息包括样本位置特征信息和样本结果特征信息；

所述训练模块，进一步被配置为：

可选的，所述样本图像包括第一样本图像和第二样本图像，其中，所述第一样本图像中标记有样本标注信息，第二样本图像中未标记样本标注信息；

所述训练模块，进一步被配置为：

可选的，所述图像标注模型中包括异常对象分割单元和指导文本生成单元；

所述训练模块，进一步被配置为：

通过本说明书实施例提供的图像处理装置，将待检测对象针对目标检测区域的多个目标图像输入至图像处理模型，在图像处理模型中对多个目标图像对应的3D图像进行多个尺度特征提取，并对多个尺度特征进行融合后，分别进行标注信息、类别信息和指导文本的生成，从而最终生成检测结果。通过多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

在对图像处理模型进行训练的过程中，利用文本特征提取模块，将样本指导文本通过文本特征提取模块获得对应的样本文本特征信息，将样本文本特征信息对图像处理模型的训练进行监督，提升了图像处理模型训练的效率和准确度。

上述为本实施例的一种图像处理装置的示意性方案。需要说明的是，该图像处理装置的技术方案与上述的图像处理方法的技术方案属于同一构思，图像处理装置的技术方案未详细描述的细节内容，均可以参见上述图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了CT图像处理装置实施例，图9示出了本说明书一个实施例提供的一种CT图像处理装置的结构示意图。如图9所示，该装置包括：

接收模块902，被配置为接收CT图像处理任务，其中，所述CT图像处理任务携带目标检测区域对应的多个CT图像，所述CT图像处理任务用于检测所述目标检测区域内是否存在异常对象；

检测模块904，被配置为将所述多个CT图像输入至CT图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述CT图像处理模型基于多个CT图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

本说明书一个或多个实施例提供的CT图像处理装置，在图像处理模型中对多个CT图像对应的3D图像进行多个尺度特征提取，并对多个尺度特征进行融合后，分别进行标注信息、类别信息和指导文本的生成，从而最终生成检测结果。通过多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

上述为本实施例的一种CT图像处理装置的示意性方案。需要说明的是，该CT图像处理装置的技术方案与上述的CT图像处理方法的技术方案属于同一构思，CT图像处理装置的技术方案未详细描述的细节内容，均可以参见上述CT图像处理方法的技术方案的描述。

与上述方法实施例相对应，本说明书还提供了图像处理装置实施例，图10示出了本说明书一个实施例提供的一种图像处理装置的结构示意图。如图10所示，该装置包括：

接收模块1002，被配置为接收用户发送的图像处理任务，其中，所述图像处理任务携带目标检测区域对应的多个目标图像，所述图像处理任务用于检测所述目标检测区域内是否存在异常对象。

检测模块1004，被配置为将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述图像处理模型基于多个目标图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本。

发送模块1006，被配置为向用户发送所述目标检测区域对应的检测结果。

本说明书一个或多个实施例提供的图像处理装置，在图像处理模型中对多个图像对应的3D图像进行多个尺度特征提取，并对多个尺度特征进行融合后，分别进行标注信息、类别信息和指导文本的生成，从而最终生成检测结果。通过多个尺度特征信息提高了后续生成检测结果的准确率。在生成的检测结果中，包括了异常对象的位置信息、待检测对象的信息和指导文本，丰富了检测结果，为用户提供多维度的检测信息，提升了用户的使用体验。

图11示出了根据本说明书一个实施例提供的一种计算设备1100的结构框图。该计算设备1100的部件包括但不限于存储器1110和处理器1120。处理器1120与存储器1110通过总线1130相连接，数据库1150用于保存数据。

计算设备1100还包括接入设备1140，接入设备1140使得计算设备1100能够经由一个或多个网络1160通信。这些网络的示例包括公用交换电话网（PSTN，Public SwitchedTelephone Network）、局域网（LAN，Local Area Network）、广域网（WAN，Wide AreaNetwork）、个域网（PAN，Personal Area Network）或诸如因特网的通信网络的组合。接入设备1140可以包括有线或无线的任何类型的网络接口（例如，网络接口卡（NIC，networkinterface controller））中的一个或多个，诸如IEEE802.11无线局域网（WLAN，WirelessLocal Area Network）无线接口、全球微波互联接入（Wi-MAX，WorldwideInteroperability for Microwave Access）接口、以太网接口、通用串行总线（USB，Universal Serial Bus）接口、蜂窝网络接口、蓝牙接口、近场通信（NFC，Near FieldCommunication）。

在本说明书的一个实施例中，计算设备1100的上述部件以及图11中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图11所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备（例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等）、移动电话（例如，智能手机）、可佩戴的计算设备（例如，智能手表、智能眼镜等）或其他类型的移动设备，或者诸如台式计算机或个人计算机（PC，Personal Computer）的静止计算设备。计算设备1100还可以是移动式或静止式的服务器。

其中，处理器1120用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的步骤。

上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是，该计算机程序产品的技术方案与上述的图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案属于同一构思，计算机程序产品的技术方案未详细描述的细节内容，均可以参见上述图像处理方法、CT图像处理方法或图像处理模型的训练方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像处理方法，包括：

其中，所述图像处理模型在训练阶段根据样本图像获得至少一个尺度特征信息，根据各尺度特征信息获得特征融合信息，根据样本指导文本获得样本文本特征信息，根据特征融合信息获得预测标注信息、预测类别信息和预测文本特征信息，根据样本文本特征信息和预测文本特征信息计算获得文本损失值，根据样本图像对应的样本标注信息、样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值，根据模型损失值和文本损失值训练所述图像处理模型。

2.如权利要求1所述的方法，所述图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块；

将所述多个目标图像输入至图像处理模型，获得所述目标检测区域对应的检测结果，包括：

3.如权利要求2所述的方法，所述特征处理模块包括异常对象分割单元、异常对象分类单元和指导文本生成单元；

4.如权利要求3所述的方法，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元；

5.如权利要求1所述的方法，在接收图像处理任务之前，还包括：

6.如权利要求1所述的方法，所述图像处理模型通过下述步骤训练获得：

7.如权利要求6所述的方法，根据所述样本标注信息、所述样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值，包括：

根据所述第一损失值和所述第二损失值计算模型损失值。

8.如权利要求6所述的方法，所述图像处理模型包括多尺度特征提取模块、特征融合模块、特征处理模块、文本特征提取模块；

9.如权利要求8所述的方法，所述特征处理模块包括异常对象分割单元和异常对象分类单元、指导文本生成单元；

将所述特征融合信息输入至所述异常对象分割单元，获得预测标注信息；

将所述特征融合信息输入至所述异常对象分类单元，获得预测类别信息；

10.如权利要求9所述的方法，所述指导文本生成单元包括异常位置文本子单元和异常结果文本子单元，所述样本文本特征信息包括样本位置特征信息和样本结果特征信息；

11.如权利要求6所述的方法，所述样本图像包括第一样本图像和第二样本图像，其中，所述第一样本图像中标记有样本标注信息，第二样本图像中未标记样本标注信息；

12.如权利要求11所述的方法，所述图像标注模型中包括异常对象分割单元和指导文本生成单元，所述方法还包括：

13.一种CT图像处理方法，包括：

将所述多个CT图像输入至CT图像处理模型，获得所述目标检测区域对应的检测结果，其中，所述CT图像处理模型基于多个CT图像对应的多尺度特征信息生成目标检测区域对应的检测结果，所述检测结果包括检测标注信息、检测类别信息和检测指导文本；

其中，所述CT图像处理模型在训练阶段根据样本图像获得至少一个尺度特征信息，根据各尺度特征信息获得特征融合信息，根据样本指导文本获得样本文本特征信息，根据特征融合信息获得预测标注信息、预测类别信息和预测文本特征信息，根据样本文本特征信息和预测文本特征信息计算获得文本损失值，根据样本图像对应的样本标注信息、样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值，根据模型损失值和文本损失值训练所述CT图像处理模型。

14.一种图像处理模型的训练方法，应用于云侧设备，包括：

将所述样本图像和所述样本指导文本输入至图像处理模型，获得所述图像处理模型输出的预测标注信息、预测类别信息和文本损失值，其中，图像处理模型根据样本图像获得至少一个尺度特征信息，根据各尺度特征信息获得特征融合信息，根据样本指导文本获得样本文本特征信息，根据特征融合信息获得预测标注信息、预测类别信息和预测文本特征信息，根据样本文本特征信息和预测文本特征信息计算获得文本损失值；

向端侧设备发送所述图像处理模型的模型参数。

15.一种图像处理方法，包括

其中，所述图像处理模型在训练阶段根据样本图像获得至少一个尺度特征信息，根据各尺度特征信息获得特征融合信息，根据样本指导文本获得样本文本特征信息，根据特征融合信息获得预测标注信息、预测类别信息和预测文本特征信息，根据样本文本特征信息和预测文本特征信息计算获得文本损失值，根据样本图像对应的样本标注信息、样本类别信息和所述预测标注信息、所述预测类别信息计算模型损失值，根据模型损失值和文本损失值训练所述图像处理模型；

向用户发送所述目标检测区域对应的检测结果。

16.一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至15任意一项所述方法的步骤。

17.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至15任意一项所述方法的步骤。

18.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至15任意一项所述方法的步骤。