CN116993963B

CN116993963B - 一种图像处理方法、装置、设备及存储介质

Info

Publication number: CN116993963B
Application number: CN202311225352.2A
Authority: CN
Inventors: 任玉强; 鄢科
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-05
Anticipated expiration: 2043-09-21
Also published as: CN116993963A

Abstract

本申请提供了一种图像处理方法、装置、设备及存储介质，应用于云技术、人工智能、智慧交通、辅助驾驶、车载和地图等各种图像处理场景；方法包括：获取待训练模型的训练数据，待训练模型为待训练的用于进行图像处理的人工神经网络模型，训练数据包括样本文本、样本图像和样本标签，样本标签包括样本图像的检测框标签；对检测框标签进行聚类，得到N个初始锚框尺寸；利用待训练模型执行以下处理：结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果；基于图像预测结果与样本标签之间的差异，训练待训练模型，得到图像处理模型。通过本申请，能够提升模型训练效率。

Description

一种图像处理方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉领域中的图像处理技术，尤其涉及一种图像处理方法、装置、设备及存储介质。

背景技术

在训练用于执行图像处理任务的人工神经网络模型时，常常采用随机目标查询对训练数据中的样本图像进行处理，影响了人工神经网络模型的收敛速度，进而影响了模型训练效率。

发明内容

本申请实施例提供一种图像处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升模型训练效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种图像处理方法，所述图像处理方法包括：

获取待训练模型的训练数据，其中，所述待训练模型为待训练的用于进行图像处理的人工神经网络模型，所述训练数据包括样本文本、样本图像和样本标签，所述样本标签包括所述样本图像的检测框标签；

对所述检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；

利用所述待训练模型执行以下处理：结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果；

基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。

本申请实施例还提供一种图像处理方法，所述图像处理方法包括：

响应于图像处理请求，获得待处理图像和图像文本提示；

利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像处理模型为采用本申请实施例提供的图像处理方法训练获得的，所述图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

本申请实施例提供一种第一图像处理装置，所述第一图像处理装置包括：

数据采集模块，用于获取待训练模型的训练数据，其中，所述待训练模型为待训练的用于进行图像处理的人工神经网络模型，所述训练数据包括样本文本、样本图像和样本标签，所述样本标签包括所述样本图像的检测框标签；

标签聚类模块，用于对所述检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；

图像预测模块，用于利用所述待训练模型执行以下处理：结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果；

模型训练模块，用于基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。

本申请实施例提供一种第二图像处理装置，所述第二图像处理装置包括：

请求响应模块，用于响应于图像处理请求，获得待处理图像和图像文本提示；

图像检测模块，用于利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像处理模型为采用本申请实施例提供的图像处理方法训练获得的，所述图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

在本申请实施例中，所述标签聚类模块，还用于从尺寸维度对所述检测框标签进行聚类，得到M类聚类结果，其中，M≥N，且M为正整数；获取与M类所述聚类结果对应的M个检测框尺寸；从所述检测框标签中，统计每个所述检测框尺寸对应的检测框数量；从M个所述检测框尺寸中，选择所述检测框数量最多的N个所述检测框尺寸；将基于N个所述检测框尺寸，确定为N个所述初始锚框尺寸。

在本申请实施例中，所述第一图像处理装置还包括尺寸获取模块，用于获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸，其中，L为正整数。

在本申请实施例中，所述图像预测模块，还用于结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的文本样本特征，对所述样本图像进行检测，得到所述图像预测结果。

在本申请实施例中，所述图像预测模块，还用于对所述样本图像的初始图像特征进行区域编码，获得初始区域特征；结合N个所述初始锚框尺寸和多个指定目标，确定多个目标查询框；结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征；结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果。

在本申请实施例中，所述图像预测模块，还用于基于所述初始区域特征和所述初始图像特征确定键特征，并基于所述初始图像特征确定值特征，以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征；通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理，得到多个查询框偏移量，所述目标解码器的层数为一层；每个所述目标查询框上叠加对应的所述查询框偏移量，得到与多个所述目标查询框对应的多个目标锚框；获取多个所述目标锚框分别对应的特征，得到所述目标区域特征。

在本申请实施例中，所述图像预测模块，还用于基于所述目标区域特征进行检测框预测，得到预测检测框；对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征；结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分，得到第三目标得分；结合所述第三目标得分和所述关联特征得到文本预测结果；将基于所述文本预测结果，确定为所述图像预测结果。

在本申请实施例中，所述图像预测模块，还用于对所述目标区域特征进行线性转换，得到图像线性特征；对所述样本文本的所述文本样本特征进行线性转换，得到文本线性特征；对所述图像线性特征和所述文本线性特征进行注意力处理，得到相关性权重；叠加所述相关性权重和所述图像线性特征，得到所述关联特征。

在本申请实施例中，所述图像预测模块，还用于基于所述预测检测框对所述初始图像特征进行池化，得到目标图像特征；获取所述目标图像特征和所述目标区域特征的拼接特征；对所述拼接特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征。

在本申请实施例中，所述目标查询框包括以下信息：锚点和锚框，其中，所述锚点表示图像中所述指定目标的位置点，所述锚框表示以所述锚点为中心的区域框尺寸。

本申请实施例提供一种用于图像处理的第一电子设备，所述第一电子设备包括：

第一存储器，用于存储计算机可执行指令或者计算机程序；

第一处理器，用于执行所述第一存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的应用于第一电子设备的图像处理方法。

本申请实施例提供一种用于图像处理的第二电子设备，所述第二电子设备包括：

第二存储器，用于存储计算机可执行指令或者计算机程序；

第二处理器，用于执行所述第二存储器中存储的计算机可执行指令或者计算机程序时，实现本申请实施例提供的应用于第二电子设备的图像处理方法。

本申请实施例提供一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，所述计算机可执行指令或者计算机程序用于被第一处理器执行时，实现本申请实施例提供的应用于第一电子设备的图像处理方法；或者，所述计算机可执行指令或者计算机程序用于被第二处理器执行时，实现本申请实施例提供的应用于第二电子设备的图像处理方法。

本申请实施例提供一种计算机程序产品，包括计算机可执行指令或者计算机程序，所述计算机可执行指令或者计算机程序被第一处理器执行时，实现本申请实施例提供的应用于第一电子设备的图像处理方法；或者，所述计算机可执行指令或者计算机程序被第二处理器执行时，实现本申请实施例提供的应用于第二电子设备的图像处理方法。

本申请实施例至少具有以下有益效果：在训练用于执行图像处理任务的待训练模型时，通过检测框标签的聚类结果确定N个初始锚框，并基于N个初始锚框进行图像检测，实现对待训练模型的训练；由于上述模型训练过程中，N个初始锚框是由标签数据获得的，实现了对训练方向的准确控制，从而，能够加快模型的收敛速度，提升模型训练效率。

附图说明

图1是一种示例性的解码结构示意图；

图2是另一种示例性的解码结构示意图；

图3是本申请实施例提供的图像处理系统的架构示意图；

图4是本申请实施例提供的图3中的一种服务器的结构示意图；

图5是本申请实施例提供的图3中的一种终端的结构示意图；

图6是本申请实施例提供的图像处理方法的流程示意图一；

图7是本申请实施例提供的图像处理方法的流程示意图二；

图8是本申请实施例提供的图像处理方法的流程示意图三；

图9是本申请实施例提供的一种示例性的视觉应用架构图；

图10是本申请实施例提供的一种示例性的解码结构示意图；

图11是本申请实施例提供的一种示例性视觉应用示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本申请实施例所使用的所有的技术和科学术语与所属技术领域的技术人员通常理解的含义相同。本申请实施例中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）人工智能（Artificial Intelligence，AI），是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。本申请实施例提供的图像处理方法应用于人工智能领域。

2）机器学习（Machine Learning，ML），是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科。用于研究计算机模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，机器学习应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。本申请实施例提供的图像处理方法可以采用人工神经网络技术实现。

3）人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本申请实施例中人工神经网络的示例性结构包括图卷积网络（Graph Convolutional Network，GCN，一种用于处理图结构的数据的神经网络）、深度神经网络（Deep Neural Networks，DNN）、卷积神经网络（ConvolutionalNeural Network，CNN）和循环神经网络（Recurrent NeuralNetwork，RNN）、神经状态机（NeuralState Machine，NSM）和相位函数神经网络（Phase-Functioned Neural Network，PFNN）等。本申请实施例中所涉及的待训练模型和图像处理模型均为人工神经网络对应的模型（称为人工神经网络模型）。

4）已知类别（Known Classes），是指训练数据中已标注的目标所属类别；本申请实施例的第三目标得分中所对应的类别可以包括已知类别。

5）未知类别（Unknown Classes），是指在测试数据和待测数据中存在，而在训练数据中未出现的目标所属类别；本申请实施例的第三目标得分中所对应的类别可以包括未知类别。

6）目标检测（Object Detection），是指定位出图像中的每个目标，并确定目标的类别（包括已知类别和未知类别）的处理；本申请实施例的图像处理包括目标检测。

7）开放集目标检测（Open Set Object Detection），是指在开放集的测试数据上进行目标检测；此时，既能够确定已知类别目标的位置和类别，又能够确定非已知类别目标的位置，并将非已知类别的类别标记为未知类别。本申请实施例在训练待训练模型的过程中，可以包括开发集目标检测。

8）特征金字塔网络（Features Pyramid Network，FPN），用于和残差网络（Resnet）共同组成骨干网络（Backbone），以提取图像的多尺度特征。

9）未知概率（Unknown Probability），是指检测出的目标属于未知类别的概率，又称为未知类别的得分。

10）特征图（Feature Map），是指图像和滤波器进行卷积后得到的特征；特征图还可以继续和滤波器进行卷积，得到新的特征图；比如，本申请实施例中的初始图像特征。

11）隐层特征空间（Latent Space），指的是网络隐层特征（网络中间层的输出）所组成的一个特征空间，比如，本申请实施例中的各个编码器和解码中的特征空间。

12）隐层特征区域（Latent Region），指的是隐层特征空间中的区域。

13）区域特征，是指经过全连接层后得到的深度特征，用于进行目标检测。

14）编码向量，是指区域特征经过多各全连接层而降维得到的特征向量；如1024维的区域特征降维到长度为128的编码向量。

需要说明的是，在计算机视觉领域中，比如，在数字分类中，人工神经网络模型将一张图像作为输入，并产生10个输出，每个输出代表其中一个数字类的概率，存在任务通用性问题。为了提升通用性，可以继续在上述人工神经网络模型中添加更多的任务，比如，增加新的预测类型，新的数据集等，此时，通常通过增加额外的输出头（Output Heads）来扩展架构；比如，在执行图像分类（ImageNet分类）和物体检测（Coco检测）时包括1000个类别的置信度输出头（Confidence Output Head）、80个类别的检测框（Box）及对应置信度的输出头；如此，输出头的数量会随着任务和数据集的增多而增加，如此，影响了模型训练效率；以及每次模型应用总是生成1000种置信类型和80个类别的检测框，影响了图像检测效率。

为了提升模型训练效率和图像检测效率，还可以采用自然语言文本定义任务，以替换多头输出。比如，知识问答任务（VQA）：“沙发上坐着什么？”，目标检测与定位任务：“找到所有狗的实例”，图像描述任务：“图像中发生了什么”，图像分类任务：“这是什么类型的对象？”。然而，在采用自然语言文本的多任务视觉系统中，虽然可以执行计算机视觉任务（比如，知识问答，图像描述，图像分类，目标检测与定位）任务，但该多任务视觉系统依赖视觉语言的预训练模型来实现，比如依赖于预训练好的端到端的目标检测器（DETR），而DETR采用的对象查询无明确物理意义，影响了模型训练的收敛，进而影响了模型训练效率。

示例性地，参见图1，图1是一种示例性的解码结构示意图；如图1所示，图像特征（Image Features）1-1用于作为值（V，又称为值特征）输入每层（示例性示出了层1）的跨注意力机制（Cross-Attention）模块1-2，位置编码（PositionalEncodings）1-3与图像特征1-1用于作为键（K，又称为键特征）输入每层的跨注意力机制模块1-2，初始化的解码器嵌入（Edcoder Embeddings）1-4与可学习对象查询（Learnable Queries）1-5用于作为查询特征（Q）输入每层的跨注意力机制模块1-2；进而结合跨注意力机制模块1-2的输出进行下一层（比如，层2）的处理。

此外，还可以将可学习对象查询设置为随机锚框。示例性地，参见图2，图2是另一种示例性的解码结构示意图；如图2所示，图像特征2-1用于作为值输入每层（示例性示出了层1）的跨注意力机制模块2-2，位置编码2-3与图像特征2-1用于作为键输入每层的跨注意力机制模块2-2，初始化的解码器嵌入2-4与可学习对象查询2-5用于作为查询特征输入每层的跨注意力机制模块2-2；进而结合跨注意力机制模块2-2的输出进行下一层（比如，层2）的处理，比如，层1输出的偏移量/>用于与叠加，获得层2的对象查询/>。其中，用于作为位置查询（Position Query），/>用于调整跨注意力机制模块2-2。

需要说明的是，图2中的动态锚框目标检测器（DAB-DETR）提出了一种采用动态锚框（Dynamic Anchor Boxes，DAB）的对象查询，并且逐层更新。如此，能够利用显式的位置先验改善对象查询与特征的相似性，提升模型收敛速度；另外，在位置对应的注意力图上采用锚框的长和宽，相当于在采用一个逐层的软感兴趣区域池化（Soft ROI Pooling）方式不断调整对象查询。然而，仍然存在模型收敛效率的问题。

基于此，本申请实施例提供一种图像处理方法、装置、设备、计算机可读存储介质及计算机程序产品，能够提升模型训练效率。下面说明本申请实施例提供的设备的示例性应用，本申请实施例提供的用于图像处理的第一电子设备（以下简称为模型训练设备）和用于图像处理的第二电子设备（以下简称为模型应用设备）均可以实施为智能手机、智能手表、笔记本电脑、平板电脑、台式计算机、智能家电、机顶盒、智能车载设备、便携式音乐播放器、个人数字助理、专用消息设备、智能语音交互设备、便携式游戏设备和智能音箱等各种类型的终端，也可以实施为服务器，还可以是两者的结合。下面，将说明模型训练设备实施为服务器、而模型应用设备实施为终端时的示例性应用。

参见图3，图3是本申请实施例提供的图像处理系统的架构示意图；如图3所示，为支撑一个图像处理应用，在图像处理系统100中，终端200（示例性示出了终端200-1和终端200-2）通过网络300连接服务器400，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该图像处理系统100中还包括数据库500，用于向服务器400提供数据支持；并且，图3中示出的为数据库500独立于服务器400的一种情况，此外，数据库500还可以集成在服务器400中，本申请实施例对此不作限定。

终端200，用于响应于图像处理请求，获得待处理图像和图像文本提示；利用图像处理模型对待处理图像和图像文本提示进行检测，得到图像检测结果，其中，图像处理模型是服务器400通过网络300发送的，图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类，显示图像检测结果（示例性示出了图形界面210-1和图形界面210-2）。

服务器400，用于获取待训练模型的训练数据，其中，待训练模型为待训练的用于进行图像处理的人工神经网络模型，训练数据包括样本文本、样本图像和样本标签，样本标签包括样本图像的检测框标签；对检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；利用待训练模型执行以下处理：结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果；基于图像预测结果与样本标签之间的差异，训练待训练模型，得到图像处理模型，其中，图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果；通过网络300向终端200发送图像处理模型。

在一些实施例中，服务器400可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不作限制。

参见图4，图4是本申请实施例提供的图3中的一种服务器的结构示意图；如图4所示，服务器400包括：至少一个第一处理器410、第一存储器450和至少一个第一网络接口420。服务器400中的各个组件通过第一总线系统440耦合在一起。可理解，第一总线系统440用于实现这些组件之间的连接通信。第一总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图4中将各种总线都标为第一总线系统440。

第一处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（Digital Signal Processor，DSP），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

第一存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。第一存储器450可选地包括在物理位置上远离第一处理器410的一个或多个存储设备。

第一存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（Read Only Memory，ROM），易失性存储器可以是随机存取存储器（RandomAccess Memory，RAM）。本申请实施例描述的第一存储器450旨在包括任意适合类型的存储器。

在一些实施例中，第一存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

第一操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

第一网络通信模块452，用于经由一个或多个（有线或无线）第一网络接口420到达其他电子设备，示例性的第一网络接口420包括：蓝牙、无线相容性认证（Wi-Fi）、和通用串行总线（Universal Serial Bus，USB）等；

在一些实施例中，本申请实施例提供的第一图像处理装置可以采用软件方式实现，图4示出了存储在第一存储器450中的第一图像处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：数据采集模块4551、标签聚类模块4552、图像预测模块4553、模型训练模块4554和尺寸获取模块4555，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

参见图5，图5是本申请实施例提供的图3中的一种终端的结构示意图；如图5所示，终端200包括：至少一个第二处理器210、第二存储器250、至少一个第二网络接口220和用户接口230。终端200中的各个组件通过第二总线系统240耦合在一起。可理解，第二总线系统240用于实现这些组件之间的连接通信。第二总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图5中将各种总线都标为第二总线系统240。

第二处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

第二存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。第二存储器250可选地包括在物理位置上远离第二处理器210的一个或多个存储设备。

第二存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器，易失性存储器可以是随机存取存储器。本申请实施例描述的第二存储器250旨在包括任意适合类型的存储器。

在一些实施例中，第二存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

第二操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

第二网络通信模块252，用于经由一个或多个（有线或无线）第二网络接口220到达其他电子设备，示例性的第二网络接口220包括：蓝牙、无线相容性认证、和通用串行总线等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块254，用于对来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的第二图像处理装置可以采用软件方式实现，图3示出了存储在第二存储器250中的第二图像处理装置255，其可以是程序和插件等形式的软件，包括以下软件模块：请求响应模块2551和图像检测模块2552，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，本申请实施例提供的第一图像处理装置和第二图像处理装置可以采用硬件方式实现，作为示例，本申请实施例提供的第一图像处理装置和第二图像处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的图像处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（Application Specific Integrated Circuit，ASIC）、DSP、可编程逻辑器件（ProgrammableLogic Device，PLD）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或其他电子元件。

在一些实施例中，终端可以通过运行各种计算机可执行指令或者计算机程序来实现本申请实施例提供的图像处理方法。举例来说，计算机可执行指令可以是微程序级的命令、机器指令或软件指令。计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APPlication，APP），即需要在操作系统中安装才能运行的程序，如图像APP；也可以是能够嵌入至任意APP中的小程序，即只需要下载到浏览器环境中就可以运行的程序。总而言之，上述的计算机可执行指令可以是任意形式的指令，上述计算机程序可以是任意形式的应用程序、模块或插件。

下面，将结合本申请实施例提供的模型训练设备和模型应用设备的示例性应用和实施，说明本申请实施例提供的图像处理方法。另外，本申请实施例提供的图像处理方法应用于云技术、人工智能、智慧交通、车载和地图等各种图像处理场景。

参见图6，图6是本申请实施例提供的图像处理方法的流程示意图一，其中，各步骤的执行主体为模型训练设备；下面将结合图6示出的步骤进行说明。

步骤101、获取待训练模型的训练数据，其中，训练数据包括样本文本、样本图像和样本标签，样本标签包括样本图像的检测框标签。

在本申请实施例中，模型训练设备获取用于训练待训练模型的数据集，并将获得的用于训练待训练模型的数据集称为训练数据。

需要说明的是，样本图像为训练数据中待进行图像处理的图像，比如，待分类的图像，待描述的图像，待进行目标检测的图像，待进行问答的图像等。样本文本为样本图像的文本提示（Prompt），用于确定图像处理任务的处理方向和处理结果；比如，在知识问答场景中，样本文本可以为对待进行问答的图像进行提问的提示文本；在图像描述场景中，样本文本可以为指示对待描述的图像进行描述的提示文本；在目标检测与定位场景中，样本文本可以为指示对待进行目标检测的图像进行目标检测的提示文本；在图像分类场景中，样本文本可以为指示对待分类的图像进行分类的提示文本。这里，样本图像和样本文本共同组合为模型输入数据。样本标签为样本图像和样本文本对应输出结果的标注数据，是一种真实的图像处理结果，包括以下中的至少一种：样本图像的检测框标签，文本输出结果标签，类别标签等。另外，待训练模型为待训练的用于进行图像处理的人工神经网络模型，可以是构建的原始人工神经网络模型，还可以是预训练出的人工神经网络模型，等等，本申请实施例对此不作限定。

步骤102、对检测框标签进行聚类，得到N个初始锚框尺寸。

在本申请实施例中，模型训练设备从尺寸维度对检测框标签进行聚类，以聚类出多个检测框尺寸类别，并基于每个检测框尺寸类别确定一个检测框尺寸，得到多个检测框尺寸，从多个检测框尺寸中选择N个检测框尺寸，以作为N个初始锚框尺寸。其中，N为正整数。

需要说明的是，初始锚框尺寸为预设的查询目标所在区域的尺寸；而查询目标为预设的样本图像中所存在实体，比如，样本图像中的动物、人物、物体和场景等。

在本申请实施例的步骤102中，模型训练设备对检测框标签进行聚类，得到N个初始锚框尺寸，包括：模型训练设备从尺寸维度对检测框标签进行聚类，得到M类聚类结果（称为多个检测框尺寸类别），其中，M≥N，且M为正整数；并获取与M类聚类结果对应的M个检测框尺寸；接着从检测框标签中，统计每个检测框尺寸对应的检测框数量；最后，从M个检测框尺寸中，选择检测框数量最多的N个检测框尺寸；基于N个检测框尺寸，确定N个初始锚框尺寸。

需要说明的是，模型训练设备在对检测框标签进行聚类时，依据尺寸维度进行，以聚类出M个类簇，该M个类簇即为M个聚类结果；其中，在一个聚类结果中，各个检测框的尺寸相近，而属于不同聚类结果的两个检测框之间的尺寸差异大于差异阈值。这里，模型训练设备针对每个聚类结果中各个检测框分别对应的尺寸，确定出一个表征该聚类结果的检测框尺寸；模型训练设备可以通过任选一个检测框确定，还可以通过求取该聚类结果中各个检测框的平均尺寸确定，等等，本申请实施例对此不作限定；最后，模型训练设备针对M类聚类结果，能够获得M个检测框尺寸。另外，模型训练设备可以将M个检测框尺寸中的每个检测框尺寸均确定为初始锚框尺寸，还可以将从M个检测框尺寸中选择的部分检测框尺寸确定为N个初始锚框尺寸，本申请实施例对此不作限定。当模型训练设备将从M个检测框尺寸中选择的部分检测框尺寸确定为N个初始锚框尺寸时，基于检测框数量进行选择。

在本申请实施例中，模型训练设备利用待训练模型执行以下处理（步骤103），以获得基于待训练模型对样本文本和样本图像进行图像处理的结果。

步骤103、结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果。

在本申请实施例中，模型训练设备可以通过待训练模型提取样本文本的特征，并将提取到的特征称为文本样本特征；接着，模型训练设备基于N个初始锚框尺寸确定每个位置点对应的各个目标查询框，最终针对样本图像能够获得多个目标查询框；接着通过多个目标查询框确定用于目标检测的特征，基于确定出的用于目标检测的特征进行目标检测，以及结合确定出的用于目标检测的特征和文本样本特征进行与样本文本所描述的内容相匹配的图像处理，也就获得了图像预测结果。

需要说明的是，图像预测结果是指基于待训练模型对样本文本和样本图像进行图像处理的结果。

参见图7，图7是本申请实施例提供的图像处理方法的流程示意图二，其中，各步骤的执行主体为模型训练设备；在本申请实施例中，步骤103可通过步骤1031至步骤1034实现；也就是说，模型训练设备结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果，包括步骤1031至步骤1034，下面对各步骤进行说明。

步骤1031、对样本图像的初始图像特征进行区域编码，获得初始区域特征。

在本申请实施例中，模型训练设备可以通过待训练模型提取样本图像的整体维度的特征，并将提取到的特征称为初始图像特征；接着，模型训练设备对初始图像特征进行区域编码，以优化初始图像特征，将初始图像特征转换为样本图像的局部区域位置维度的空间特征；这里，将区域编码结果称为初始区域特征。

需要说明的是，初始图像特征为样本图像的整体维度的空间特征，是用于对样本图像进行图像处理的基础特征表示。

步骤1032、结合N个初始锚框尺寸和多个指定目标，确定多个目标查询框。

在本申请实施例中，模型训练设备能够获得多个指定目标，每个指定目标对应一个预先设定的目标，多个指定目标为预先针对样本图像设定的该样本图像最多包括的目标。这里，模型训练设备为每个指定目标确定N个初始锚框尺寸的目标查询框，最终针对多个指定目标，能够获得多个目标查询框。

需要说明的是，每个指定目标为样本图像中的一个预设位置，模型训练设备以指定目标为中心，并以每个初始锚框尺寸为尺寸，确定区域框，所确定的区域框即为目标查询框；从而，针对N个初始锚框尺寸和多个指定目标，能够获得多个指定目标的数量与N的乘积个目标查询框。

在本申请实施例中，目标查询框包括以下信息：锚点和锚框，其中，锚点表示图像中指定目标的位置点，锚框表示以锚点为中心的区域框尺寸。

步骤1033、结合初始区域特征、初始图像特征和多个目标查询框进行注意力处理，得到目标区域特征。

在本申请实施例中，模型训练设备可以通过初始化获取每个目标查询框的特征，并将目标查询框和目标查询框的特征组合为查询特征，通过比较查询特征与初始区域特征和初始图像特征的相似性，实现对初始区域特征、初始图像特征和多个目标查询框的注意力处理，以探测与目标查询框对应且与目标查询框的特征相似的目标；而用于表征该目标的特征即为目标区域特征。

在本申请实施例中，模型训练设备结合初始区域特征、初始图像特征和多个目标查询框进行注意力处理，得到目标区域特征，包括：模型训练设备基于初始区域特征和初始图像特征确定键特征，并基于初始图像特征确定值特征，以及基于多个目标查询框和多个目标查询框各自对应的指定内容特征确定查询特征；通过待训练模型的目标解码器对键特征、值特征和查询特征进行注意力处理，得到多个查询框偏移量；在每个目标查询框上叠加对应的查询框偏移量，得到与多个目标查询框对应的多个目标锚框；获取多个目标锚框分别对应的特征，得到目标区域特征。其中，目标解码器为待训练模型中用于结合键特征、值特征和查询特征获取目标区域特征的解码器，且目标解码器的层数为一层；当然，目标解码器的层数也可以为多层。

需要说明的是，模型训练设备对初始区域特征、初始图像特征和多个目标查询框进行的注意力处理，是一种基于交叉注意力进行解码的过程；其中，初始区域特征与初始图像特征用于确定键特征，初始图像特征用于确定值特征，目标查询框和初始化的目标查询框的特征（称为指定内容特征）用于确定查询特征，进而对值特征、键特征和查询特征进行注意力处理；这里，初始区域特征、初始图像特征和多个目标查询框对应的注意力处理结果为多个查询框偏移量，多个查询框偏移量与多个目标查询框一一对应；从而，模型训练设备将多个查询框偏移量与多个目标查询框一一对应叠加，也就完成了在每个目标查询框上叠加对应查询框偏移量的处理；每个目标查询框上与对应查询框偏移量的叠加结果为一个目标锚框，从而能够获得与多个目标查询框对应的多个目标锚框。另外，目标区域特征包括多个目标锚框中每个目标锚框对应的特征。

步骤1034、结合目标区域特征和样本文本的文本样本特征进行图像检测，得到图像预测结果。

在本申请实施例中，模型训练设备基于目标区域特征，能够实现对样本图像的目标检测；再结合目标检测结果和样本文本的文本样本特征，能够获得与样本图像和样本文本对应的图像处理结果，即为图像预测结果。

在本申请实施例中，模型训练设备结合目标区域特征和样本文本的文本样本特征进行图像检测，得到图像预测结果，包括：模型训练设备先基于目标区域特征进行检测框预测，得到预测检测框；再对目标区域特征和样本文本的文本样本特征进行注意力处理，得到关联特征；并结合目标区域特征预测出的预测检测框的第一目标得分和关联特征预测出的预测检测框的第二目标得分，得到第三目标得分；以及结合第三目标得分和关联特征得到文本预测结果；最后基于文本预测结果，确定图像预测结果。

需要说明的是，目标区域特征是指用于进行目标检测的特征，从而模型训练设备利用待训练模型中的检测框输出头，能够预测出目标区域特征对应的目标所在的检测框，称为目标检测框。由于图像处理任务由样本文本定义，从而，模型训练设备基于样本文本的文本样本特征对目标区域特征进行注意力处理，以从目标区域特征中提取出与样本文本关联的特征，即为关联特征。另外，模型训练设备利用待训练模型中的目标分数输出头预测每个目标检测框的类别得分，也就获得了第一目标得分，该第一目标得分是与样本文本定义的图像处理任务无关的得分；模型训练设备还利用待训练模型中的关联分数输出头，针对关联特征预测与图像处理任务关联的目标检测框的得分，也就获得了第二目标得分，该第二目标得分是与样本文本定义的图像处理任务相关的得分；接着，模型训练设备对第一目标得分和第二目标得分进行加权融合，得到第三目标得分，该第三目标得分是与样本文本定义的图像处理任务相关的最终得分。由于第三目标得分表示了图像处理任务中待处理目标的得分，从而，模型训练设备利用待训练模型中的文本输出头对第三目标得分和关联特征进行预测，以获得文本预测结果，该文本预测结果用于描述样本图像的图像处理结果。

还需要说明的是，图像预测结果至少包括文本预测结果。在知识问答、图像描述、以及目标检测与定位等场景中，图像预测结果包括文本预测结果和携带检测框的样本图像，且携带的检测框为样本文本对应的目标对象的检测框；也就是说，模型训练设备基于文本预测结果，确定图像预测结果包括：模型训练设备基于第三目标得分，从预测检测框中确定待携带检测框，结合待携带检测框与样本图像获得携带检测框的样本图像，将文本预测结果和携带检测框的样本图像，确定为图像预测结果。在图像分类等场景中，图像预测结果包括文本预测结果；也就是说，模型训练设备基于文本预测结果，确定图像预测结果，包括：模型训练设备将文本预测结果，确定为图像预测结果。

在本申请实施例中，模型训练设备对目标区域特征和样本文本的文本样本特征进行注意力处理，得到关联特征，包括：模型训练设备对目标区域特征进行线性转换，得到图像线性特征；并对样本文本的文本样本特征进行线性转换，得到文本线性特征；接着对图像线性特征和文本线性特征进行注意力处理，得到相关性权重；最后叠加相关性权重和图像线性特征，得到关联特征。

需要说明的是，模型训练设备对目标区域特征进行线性转换，并对文本样本特征进行线性转换，以使得线性转换后的目标区域特征和线性转换后的文本样本在维度上一致；其中，图像线性特征为线性转换后的目标区域特征，文本线性特征为线性转换后的文本样本。这里，模型训练设备通过对图像线性特征和文本线性特征进行注意力处理，以从图像线性特征中获取与样本文本对应的特征，即为关联特征。

在本申请实施例中，模型训练设备对目标区域特征和样本文本的文本样本特征进行注意力处理，得到关联特征，包括：模型训练设备基于预测检测框对初始图像特征进行池化，得到目标图像特征；并获取目标图像特征和目标区域特征的拼接特征；最后，对拼接特征和样本文本的文本样本特征进行注意力处理，得到关联特征。

可以理解的是，模型训练设备还用于将预测检测框作用在初始图像特征上，以提升初始图像特征的准确度。另外，由于目标图像特征为样本图像的整体维度的特征，从而，通过拼接目标图像特征和目标区域特征，能够提升拼接特征的丰富度和全面性，进而基于拼接特征获取图像预测结果，能够提升图像处理的准确度。

在本申请实施例的步骤102中，模型训练设备结合N个初始锚框尺寸和样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果，包括：模型训练设备结合L个指定锚框尺寸、N个初始锚框尺寸、以及样本文本的文本样本特征，对样本图像进行检测，得到图像预测结果。

需要说明的是，模型训练设备能够在对检测框标签进行聚类，得到N个初始锚框尺寸之后，获取与N个初始锚框尺寸不同的L个指定锚框尺寸，其中，L为正整数；从而使得模型训练设备能够结合L个指定锚框尺寸和N个初始锚框尺寸进行目标查询框的确定。

可以理解的是，模型训练设备通过获取与N个初始锚框尺寸不同的L个指定锚框尺寸，提升了锚框尺寸的多样性，进而能够提升图像检测的准确度。

步骤104、基于图像预测结果与样本标签之间的差异，训练待训练模型，得到图像处理模型。

在本申请实施例中，模型训练设备在获得了图像预测结果之后，将图像预测结果与样本标签进行比较，以获得图像预测结果与样本标签之间的差异；由于图像预测结果与样本标签之间的差异表征了待训练模型的准确度，从而模型训练设备基于图像预测结果与样本标签之间的差异进行损失函数值的计算，并基于该损失函数值在待训练模型中进行反向传播，以调整待训练模型中的模型参数；另外，待训练模型的训练是迭代进行的，当迭代训练结束时，当前迭代训练出的待训练模型即为图像处理模型。其中，图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。

需要说明的是，当模型训练设备确定迭代训练满足训练结束条件时，确定迭代训练结束；反之，继续进行迭代训练。其中，训练结束条件可以是达到准确度指标阈值，也可以是达到迭代次数阈值，还可以是达到迭代时长阈值，又可以是以上的结合，等等，本申请实施例对此不作限定。

参见图8，图8是本申请实施例提供的图像处理方法的流程示意图三，其中，各步骤的执行主体为模型应用设备；下面将结合图8示出的步骤进行说明。

步骤105、响应于图像处理请求，获得待处理图像和图像文本提示。

在本申请实施例中，模型应用设备从模型训练设备中获得图像处理模型，并在自身设备上部署图像处理模型。接着，当模型应用设备接收到图像处理请求时，就可以利用部署好的图像处理模型进行图像处理。

需要说明的是，图像处理请求用于请求对待处理图像执行图像文本提示所指示的图像处理任务；从而，模型应用设备能够通过图像处理请求获得待处理图像和图像文本提示。其中，待处理图像为待进行图像视觉处理的图像，图像文本提示用于描述待处理图像的视觉处理任务。另外，在知识问答场景中，图像文本提示可以为对待处理图像进行提问的提示文本，比如，图11中的输入文本11-21至输入文本11-24；在图像描述场景中，图像文本提示可以为指示对待处理图像进行描述的提示文本，比如，图11中的输入文本11-25至输入文本11-28；在目标检测与定位场景中，图像文本提示可以为指示对待处理图像进行目标检测的提示文本，比如，图11中的输入文本11-29至输入文本11-212；在图像分类场景中，图像文本提示可以为指示对待处理图像进行分类的提示文本，比如，图11中的输入文本11-213至输入文本11-216。

步骤106、利用图像处理模型对待处理图像和图像文本提示进行检测，得到图像检测结果。

需要说明的是，图像检测结果是模型应用设备利用图像处理模型对待处理图像和图像文本提示进行图像视觉处理获得的输出结果；易知，图像处理模型为图像训练设备通过训练数据进行训练获得的，图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

在本申请实施例中，模型训练设备可以为各种服务器，模型应用设备也可以为各种服务器或各种终端，以及模型训练设备和模型应用设备也可以为同一设备，等等，本申请实施例对此不作限定。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。该示例性应用描述了基于检测框标签的聚类结果确定锚框，以提升模型训练效率的过程。

参见图9，图9是本申请实施例提供的一种示例性的视觉应用架构图；如图9所示，包括视觉编码器9-11、语言编码器9-12、跨模态编码器9-13、视觉解码器9-14（即为框和分数的输出头）、语言解码器9-15（即为文本的输出头，是一种Transformer解码器）。下面对各模块分别进行说明。

视觉编码器9-11，采用了CNN的骨干网络9-111、目标检测器（Anchor-DETR）的编码器（Anchor-DETR Encoder）9-112和解码器（Anchor-DETR Decoder）9-113、以及感兴趣区域（Region of Interest，RoI）池化9-114。

语言编码器9-12，采用预训练模型9-121（BERT）进行编码。

跨模态编码器9-13，包括线性层（Linear Layer）9-131、注意力模块9-132（多模态预训练模型ViLBERT的注意力模块）、线性层9-133和关联条件模块9-134。其中，注意力模块9-132能够将视觉编码器和语言编码器的表达进行跨语境化表示（Cross-ContextualizeRepresentations）。

视觉解码器9-14，包括框输出头（Box Head）9-141、目标分数输出头（ObjectnessHead）9-142和相关性分数输出头（Relatedness Head）9-143。

语言解码器9-15，包括文本解码器（Text Decoder）9-151。

针对输入图像9-2（称为样本图像），由骨干网络9-111进行卷积特征（称为初始图像特征）提取，并将提取到的特征作为编码器9-112和感兴趣区域池化9-114的输入；其中，编码器9-112用于对输入的特征进行处理，以获得每个网格位置的上下文特征（称为初始区域特征），将该上下文特征和对象查询9-21（称为目标查询框）作为解码器9-113的输入，从而为对象查询9-21（R=100）生成相应的区域描述符（Region Descriptors）9-22（称为目标区域特征），感兴趣区域池化9-114对输入的特征和目标框结果9-51（称为预测检测框）进行处理，得到池化特征9-23（称为目标图像特征）；接着，结合区域描述符9-22和池化特征9-23，获得完整的域编码结果9-24（称为拼接特征）。这里，对象查询作为可学习的信息，在编码器9-112和解码器9-113消除了非极大值抑制（Non-Maximum Suppression，NMS）；以及，区域描述符9-22包括位置和有限外观信息。而针对输入文本9-3（描述这幅图像，称为样本文本），由预训练模型9-121进行编码，得到编码特征9-31（称为文本样本特征）。接着，由线性层9-131对域编码结果9-24进行处理，由线性层9-133对编码特征9-31进行处理，将获得的两个处理结果作为注意力模块9-132的输入，以获得跨语境化表示9-41（称为关联特征）。最后，框输出头9-141对区域描述符9-22的边界框进行预测，得到目标框结果9-51（R个候选区域（Region Proposals）），以用于视觉定位（Visual Grounding）和检测任务；目标分数输出头9-142对区域描述符9-22进行预测，得到与任务无关的分数9-52（称为第一目标得分）；相关性分数输出头9-143对跨语境化表示9-41进行预测，得到与任务相关的分数9-53（称为第二目标得分），结合分数9-53和分数9-52得到相关性分数9-54（称为第三目标得分）；相关性分数9-54还用于与跨语境化表示9-41结合，作为关联条件模块9-134的输入，以输出文本9-55（一只狗和一只猫正卧在床上，称为第三目标得分）。

需要说明的是，目标检测器用于将目标检测建模为集合预测（Set Prediction）的问题，采用二分匹配（Bipartite Matching）的标签分配策略，能够实现端到端（End2End），减少了NMS后处理。Anchor-DETR基于检测框的聚类结果确定对象查询，能够提高候选框的准确性；以及采用1层解码处理过程，能够提升模型收敛速度，缩短训练时间。

参见图10，图10是本申请实施例提供的一种示例性的解码结构示意图；如图10所示，解码结构10-1包括一层处理（层1）。图像特征10-11（称为初始图像特征）用于作为值输入跨注意力机制模块10-12，位置编码10-13（称为初始区域特征）与图像特征10-11用于作为键输入跨注意力机制模块10-12，解码器嵌入10-14（称为目标查询框的特征）和可学习对象查询10-15，包括指定查询对象和通过聚类检测框标签获得的查询对象，称为目标查询框）用于作为查询特征输入跨注意力机制模块10-12。这里，层1输出的偏移量/>用于与/>叠加，获得新的对象查询。其中，/>用于作为位置查询（Position Query），用于调整跨注意力机制模块10-12。

需要说明的是，采用指定查询对象和通过聚类检测框标签获得的查询对象作为对象查询，并将解码器的层数设置为1层，在保证模型发现多尺度目标的丰富性的情况下能够提升模型的收敛速度，进而能够降低模型的训练周期。

需要说明的是，模型的骨干网络可以采用图像网络（ImageNet）的预训练参数进行初始化，其余部分均采用随机初始化参数。这里，在训练模型时，采用随机梯度下降法（SGD）求解神经网络模型的卷积模板参数w和偏置参数b，在每次迭代过程中，计算预测结果误差并反向传播到卷积神经网络模型，计算梯度并更新卷积神经网络模型的参数。当在8张图形处理器（Graphics Processing Unit，GPU）的训练环境下，可以将SGD的学习率设置为0.02，批处理尺寸（Batch Size）设置为16张图像，每个GPU两张图像。另外，可以在硬件环境（比如，Nvidia Tesla V100 GPU）中并行训练。

需要说明的是，图9所示的架构，可用于图像相关的内容理解业务当中，比如可以用于知识问答、图像描述、目标检测与定位、以及图像分类中。

示例性地，参见图11，图11是本申请实施例提供的一种示例性视觉应用示意图；如图11所示，在知识问答应用11-11中，针对输入图像和输入文本11-21，能够获得输出结果11-31（称为图像检测结果）；针对输入图像和输入文本11-22，能够获得输出结果11-32；针对输入图像和输入文本11-23，能够获得输出结果11-33；针对输入图像和输入文本11-24，能够获得输出结果11-34。

在图像描述应用11-12中，针对输入图像和输入文本11-25，能够获得输出结果11-35；针对输入图像和输入文本11-26，能够获得输出结果11-36；针对输入图像和输入文本11-27，能够获得输出结果11-37；针对输入图像和输入文本11-28，能够获得输出结果11-38。

在目标检测与定位应用11-13中，针对输入图像和输入文本11-29，能够获得输出结果11-39；针对输入图像和输入文本11-210，能够获得输出结果11-310；针对输入图像和输入文本11-211，能够获得输出结果11-311；针对输入图像和输入文本11-212，能够获得输出结果11-312。

在图像分类应用11-14中，针对输入图像11-41和输入文本11-213，能够获得输出结果11-313；针对输入图像11-42和输入文本11-214，能够获得输出结果11-314；针对输入图像11-43和输入文本11-215，能够获得输出结果11-315；针对输入图像11-44和输入文本11-216，能够获得输出结果11-316。

可以理解的是，在通用视觉模型的训练过程中，基于检测框标签的聚类结果确定锚框，并减少解码层的层数，能够加快收敛速度，降低训练时长，降低训练消耗，提高检测定位类任务的准确性。

下面继续说明本申请实施例提供的第一图像处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图4所示，存储在第一存储器450的第一图像处理装置455中的软件模块可以包括：

数据采集模块4551，用于获取待训练模型的训练数据，其中，所述待训练模型为待训练的用于进行图像处理的人工神经网络模型，所述训练数据包括样本文本、样本图像和样本标签，所述样本标签包括所述样本图像的检测框标签；

标签聚类模块4552，用于对所述检测框标签进行聚类，得到N个初始锚框尺寸，其中，N为正整数；

图像预测模块4553，用于利用所述待训练模型执行以下处理：结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果；

模型训练模块4554，用于基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果。

在本申请实施例中，所述标签聚类模块4552，还用于从尺寸维度对所述检测框标签进行聚类，得到M类聚类结果，其中，M≥N，且M为正整数；获取与M类所述聚类结果对应的M个检测框尺寸；从所述检测框标签中，统计每个所述检测框尺寸对应的检测框数量；从M个所述检测框尺寸中，选择所述检测框数量最多的N个所述检测框尺寸；将基于N个所述检测框尺寸，确定为N个所述初始锚框尺寸。

在本申请实施例中，所述第一图像处理装置455还包括尺寸获取模块4555，用于获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸，其中，L为正整数。

在本申请实施例中，所述图像预测模块4553，还用于结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的文本样本特征，对所述样本图像进行检测，得到所述图像预测结果。

在本申请实施例中，所述图像预测模块4553，还用于对所述样本图像的初始图像特征进行区域编码，获得初始区域特征；结合N个所述初始锚框尺寸和多个指定目标，确定多个目标查询框；结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征；结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果。

在本申请实施例中，所述图像预测模块4553，还用于基于所述初始区域特征和所述初始图像特征确定键特征，并基于所述初始图像特征确定值特征，以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征；通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理，得到多个查询框偏移量，所述目标解码器的层数为一层；在每个所述目标查询框上叠加对应的所述查询框偏移量，得到与多个所述目标查询框对应的多个目标锚框；获取多个所述目标锚框分别对应的特征，得到所述目标区域特征。

在本申请实施例中，所述图像预测模块4553，还用于基于所述目标区域特征进行检测框预测，得到预测检测框；对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征；结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分，得到第三目标得分；结合所述第三目标得分和所述关联特征得到文本预测结果；将基于所述文本预测结果，确定为所述图像预测结果。

在本申请实施例中，所述图像预测模块4553，还用于对所述目标区域特征进行线性转换，得到图像线性特征；对所述样本文本的所述文本样本特征进行线性转换，得到文本线性特征；对所述图像线性特征和所述文本线性特征进行注意力处理，得到相关性权重；叠加所述相关性权重和所述图像线性特征，得到所述关联特征。

在本申请实施例中，所述图像预测模块4553，还用于基于所述预测检测框对所述初始图像特征进行池化，得到目标图像特征；获取所述目标图像特征和所述目标区域特征的拼接特征；对所述拼接特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征。

下面继续说明本申请实施例提供的第二图像处理装置255的实施为软件模块的示例性结构，在一些实施例中，如图5所示，存储在第二存储器250的第二图像处理装置255中的软件模块可以包括：

请求响应模块2551，用于响应于图像处理请求，获得待处理图像和图像文本提示；

图像检测模块2552，用于利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像处理模型为采用本申请实施例提供的图像处理方法训练获得的，所述图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

本申请实施例提供了一种计算机程序产品，该计算机程序产品包括计算机可执行指令或者计算机程序，该计算机可执行指令或者计算机程序存储在计算机可读存储介质中。第一电子设备的第一处理器从计算机可读存储介质读取该计算机可执行指令或者计算机程序，第一处理器执行该计算机可执行指令或者计算机程序，使得该第一电子设备执行本申请实施例上述的应用于第一电子设备的图像处理方法；或者，第二电子设备的第二处理器从计算机可读存储介质读取该计算机可执行指令或者计算机程序，第二处理器执行该计算机可执行指令或者计算机程序，使得该第二电子设备执行本申请实施例上述的应用于第二电子设备的图像处理方法。

本申请实施例提供一种计算机可读存储介质，其中存储有计算机可执行指令或者计算机程序，当计算机可执行指令或者计算机程序被第一处理器执行时，将引起第一处理器执行本申请实施例提供的应用与第一电子设备的图像处理方法；或者，当计算机可执行指令或者计算机程序被第二处理器执行时，将引起第二处理器执行本申请实施例提供的应用与第二电子设备的图像处理方法；例如，如图6示出的图像处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，计算机可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（Hyper TextMarkup Language，HTML）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，计算机可执行指令可被部署为在一个电子设备上执行（此时，这一个电子设备即为模型训练设备和模型应用设备），或者在位于一个地点的多个电子设备上执行（此时，位于一个地点的多个电子设备即为模型训练设备和模型应用设备），又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行（此时，分布在多个地点且通过通信网络互连的多个电子设备即为模型训练设备和模型应用设备）。

可以理解的是，在本申请实施例中，涉及到图像和文本等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。另外，在本申请中，涉及到的数据抓取技术方案实施，在本申请以上实施例运用到具体产品或技术中时，相关训练数据收集、使用和处理过程应该遵守国家法律法规要求，符合合法、正当、必要的原则，不涉及获取法律法规禁止或限制的数据类型，不会妨碍目标网站的正常运行。

综上所述，本申请实施例在训练用于执行图像处理任务的待训练模型时，通过检测框标签的聚类结果确定N个初始锚框，并基于N个初始锚框进行图像检测，实现对待训练模型的训练；由于上述模型训练过程中，N个初始锚框是由标签数据获得的，实现了对训练方向的准确控制，从而，能够加快模型的收敛速度；另外，在模型训练过程中，还降低了解码层数；从而，能够提升模型训练效率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果；

所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果，包括：对所述样本图像的初始图像特征进行区域编码，获得初始区域特征；结合N个所述初始锚框尺寸和多个指定目标，确定多个目标查询框；结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征；结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果；

所述对所述检测框标签进行聚类，得到N个初始锚框尺寸，包括：从尺寸维度对所述检测框标签进行聚类，得到M类聚类结果，其中，，且M为正整数；获取与M类所述聚类结果对应的M个检测框尺寸，从M个检测框尺寸中确定N个所述初始锚框尺寸。

2.根据权利要求1所述的方法，其特征在于，所述从M个检测框尺寸中确定N个所述初始锚框尺寸，包括：

从所述检测框标签中，统计每个所述检测框尺寸对应的检测框数量；

从M个所述检测框尺寸中，选择所述检测框数量最多的N个所述检测框尺寸；

基于N个所述检测框尺寸，确定N个所述初始锚框尺寸。

3.根据权利要求1或2所述的方法，其特征在于，所述对所述检测框标签进行聚类，得到N个初始锚框尺寸之后，所述方法还包括：

获取与N个所述初始锚框尺寸不同的L个指定锚框尺寸，其中，L为正整数；

所述结合N个所述初始锚框尺寸和所述样本文本的文本样本特征，对所述样本图像进行检测，得到图像预测结果，包括：

结合L个所述指定锚框尺寸、N个所述初始锚框尺寸、以及所述样本文本的所述文本样本特征，对所述样本图像进行检测，得到所述图像预测结果。

4.根据权利要求1所述的方法，其特征在于，所述结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征，包括：

基于所述初始区域特征和所述初始图像特征确定键特征，并基于所述初始图像特征确定值特征，以及基于多个所述目标查询框和多个所述目标查询框各自对应的指定内容特征确定查询特征；

通过所述待训练模型的目标解码器对所述键特征、所述值特征和所述查询特征进行注意力处理，得到多个查询框偏移量，所述目标解码器的层数为一层；

在每个所述目标查询框上叠加对应的所述查询框偏移量，得到与多个所述目标查询框对应的多个目标锚框；

获取多个所述目标锚框分别对应的特征，得到所述目标区域特征。

5.根据权利要求1所述的方法，其特征在于，所述结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果，包括：

基于所述目标区域特征进行检测框预测，得到预测检测框；

对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征；

结合所述目标区域特征预测出的所述预测检测框的第一目标得分和所述关联特征预测出的所述预测检测框的第二目标得分，得到第三目标得分；

结合所述第三目标得分和所述关联特征得到文本预测结果；

基于所述文本预测结果，确定所述图像预测结果。

6.根据权利要求5所述的方法，其特征在于，所述对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征，包括：

对所述目标区域特征进行线性转换，得到图像线性特征；

对所述样本文本的所述文本样本特征进行线性转换，得到文本线性特征；

对所述图像线性特征和所述文本线性特征进行注意力处理，得到相关性权重；

叠加所述相关性权重和所述图像线性特征，得到所述关联特征。

7.根据权利要求5所述的方法，其特征在于，所述对所述目标区域特征和所述样本文本的所述文本样本特征进行注意力处理，得到关联特征，包括：

基于所述预测检测框对所述初始图像特征进行池化，得到目标图像特征；

获取所述目标图像特征和所述目标区域特征的拼接特征；

对所述拼接特征和所述样本文本的所述文本样本特征进行注意力处理，得到所述关联特征。

8.根据权利要求1所述的方法，其特征在于，所述目标查询框包括以下信息：锚点和锚框，其中，所述锚点表示图像中所述指定目标的位置点，所述锚框表示以所述锚点为中心的区域框尺寸。

9.一种图像处理方法，其特征在于，所述方法包括：

响应于图像处理请求，获得待处理图像和图像文本提示；

利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像处理模型为采用权利要求1至8任一项所述的方法训练获得的，所述图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

10.一种第一图像处理装置，其特征在于，所述第一图像处理装置包括：

模型训练模块，用于基于所述图像预测结果与所述样本标签之间的差异，训练所述待训练模型，得到图像处理模型，其中，所述图像处理模型用于基于待检测图像和图像文本提示获得图像检测结果；

所述图像预测模块，还用于对所述样本图像的初始图像特征进行区域编码，获得初始区域特征；结合N个所述初始锚框尺寸和多个指定目标，确定多个目标查询框；结合所述初始区域特征、所述初始图像特征和多个所述目标查询框进行注意力处理，得到目标区域特征；结合所述目标区域特征和所述样本文本的所述文本样本特征进行图像检测，得到所述图像预测结果；

所述标签聚类模块，还用于从尺寸维度对所述检测框标签进行聚类，得到M类聚类结果，其中，，且M为正整数；获取与M类所述聚类结果对应的M个检测框尺寸，从M个检测框尺寸中确定N个所述初始锚框尺寸。

11.一种第二图像处理装置，其特征在于，所述第二图像处理装置包括：

图像检测模块，用于利用图像处理模型对所述待处理图像和所述图像文本提示进行检测，得到图像检测结果，其中，所述图像处理模型为采用权利要求1至8任一项所述的方法训练获得的，所述图像文本提示为以下图像处理任务中任一种的提示文本：知识问答，图像描述，目标检测与定位，图像分类。

12.一种用于图像处理的第一电子设备，其特征在于，所述第一电子设备包括：

第一存储器，用于存储计算机可执行指令或者计算机程序；

第一处理器，用于执行所述第一存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求1至8任一项所述的图像处理方法。

13.一种用于图像处理第二电子设备，其特征在于，所述第二电子设备包括：

第二存储器，用于存储计算机可执行指令或者计算机程序；

第二处理器，用于执行所述第二存储器中存储的计算机可执行指令或者计算机程序时，实现权利要求9所述的图像处理方法。

14.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被第一处理器执行时，实现权利要求1至8任一项所述的图像处理方法；或者，所述计算机可执行指令或者计算机程序被第二处理器执行时，实现权利要求9所述的图像处理方法。