CN113822282A

CN113822282A - 图像语义分割方法、装置、计算机设备及存储介质

Info

Publication number: CN113822282A
Application number: CN202110662643.2A
Authority: CN
Inventors: 何楠君; 卢东焕; 李悦翔; 马锴; 郑冶枫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-12-21

Abstract

本申请关于一种图像语义分割方法、装置、计算机设备及存储介质，涉及图像处理技术领域。所述方法包括：获取目标图像；获取目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n个扩展向量矩阵；基于第一向量矩阵、第二向量矩阵、以及n个扩展向量矩阵，获取自注意力向量矩阵；基于自注意力向量矩阵以及第三向量矩阵获取输出向量矩阵；基于输出向量矩阵，获取目标图像对应的语义分割结果。通过上述方法，使得在获取目标图像的语义分割结果的过程中，能够利用扩展向量矩阵充分挖掘K与Q之间不同特征维度包含的空间信息，进而提高了图像语义分割的精度。

Description

图像语义分割方法、装置、计算机设备及存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及图像语义分割方法、装置、计算机设备及存储介质。

背景技术

图像语义分割是机器视觉领域三大基本任务之一，广泛应用于各行各业。如：自动驾驶、人机交互、增强现实等。

在相关技术中，提供了一种基于变压器Transformer的分割框架，用以实现对处理图像的全局信息获取。

然而，上述相关技术中，基于Transformer的分割框架仍存在像素空间位置不对应的问题，使得图像语义分割的性能较差。

发明内容

本申请实施例提供了一种图像语义分割方法、装置、计算机设备及存储介质，可以提高图像语义分割的准确性。该技术方案如下：

一方面，提供了一种图像语义分割方法，所述方法包括：

获取目标图像；

获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；

对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；n为正整数；

基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；

基于所述自注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；

基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

另一方面，提供了一种图像语义分割方法，所述方法包括：

获取目标图像；

通过图像语义分割模型中的循环变压器Transformer获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；

通过所述图像语义分割模型中的解码器，基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

另一方面，提供了一种图像语义分割装置，所述装置包括：

目标图像获取模块，用于获取目标图像；

第一获取模块，用于获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；

位置交换模块，用于对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；

第二获取模块，用于基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；

第三获取模块，用于基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；

语义分割结果获取模块，用于基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

在一种可能的实现方式中，所述第一向量矩阵、所述第二向量矩阵以及所述第三向量矩阵分别包含所述目标图像中各个图像块的特征向量；

所述位置交换模块，用于以所述特征向量为单位，对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，所述位置交换模块，用于以所述特征向量为单位，按照指定步长对所述目标向量矩阵中的数值进行n次循环位置交换，获得n次循环位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，所述位置交换模块，包括：

队列获取子模块，用于获取组成所述目标向量矩阵的特征向量队列；

位置交换子模块，用于响应于一次循环位置交换，将处于所述特征向量队列末端的所述指定步长位数的特征向量，移动至所述特征向量队列的首位，并顺次移动所述特征向量队列中的其他特征向量。

在一种可能的实现方式中，所述位置交换子模块，还用于响应于循环位置交换的次数达到次数阈值，停止循环位置交换；所述次数阈值是基于所述目标向量矩阵中所述特征向量的数量以及所述指定步长确定的。

在一种可能的实现方式中，所述位置交换模块，用于以所述特征向量为单位，随机对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，第二获取模块，包括：

第一获取子模块，用于获取所述第一向量矩阵与n次位置交换分别对应的所述扩展向量矩阵的n个点乘结果；

第二获取子模块，用于获取所述n个点乘结果的平均值；

第三获取子模块，用于基于所述平均值，获取所述目标图像的自注意力向量矩阵。

在一种可能的实现方式中，所述装置还包括：

序列化处理模块，用于在获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵之前，对所述目标图像进行序列化处理，获取所述目标图像对应的一维序列；

所述第一获取模块，用于基于所述一维序列，获取所述目标图像的所述第一向量矩阵，所述第二向量矩阵以及是所述第三向量矩阵。

在一种可能的实现方式中，所述序列化处理模块，包括：

图像划分子模块，用于将所述目标图像划分为N个图像块，N≥2，且N为正整数；

第四获取子模块，用于获取所述N个图像块对应的图像块向量组成的向量矩阵；

线性变换子模块，用于对所述N个图像块向量组成的向量矩阵进行线性变换，获得所述目标图像对应的所述一维序列。

在一种可能的实现方式中，所述第一获取模块，用于基于x组不同的权重矩阵，获得x个不同的向量矩阵分组，每个所述向量矩阵分组中包含各自对应的第一向量子矩阵，第二向量子矩阵以及第三向量子矩阵；所述第一向量矩阵中包含x个所述第一向量子矩阵，所述第二向量矩阵中包含x个第二向量子矩阵，所述第三向量矩阵中包含x个第三向量子矩阵；x为正整数；

所述位置交换模块，用于分别对x个所述向量矩阵分组对应的目标向量子矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量子矩阵；所述目标向量子矩阵是所述第一向量子矩阵以及所述第二向量子矩阵中的至少一个；所述扩展向量矩阵中包含x个所述向量矩阵分组各自对应的扩展向量子矩阵；

所述第二获取模块，用于基于x个所述向量矩阵分组分别对应的所述第一向量子矩阵、所述第二向量子矩阵、以及n次位置交换分别对应的所述扩展向量子矩阵，获取x个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵；所述自注意力向量矩阵中包含x个所述向量矩阵分组各自对应的自注意力向量子矩阵；

所述第三获取模块，用于基于x个所述自注意力向量子矩阵以及所述第三向量矩阵获取所述输出向量矩阵。

在一种可能的实现方式中，所述第三获取模块，包括：

乘积结果获取子模块，用于获取各个所述向量矩阵分组对应的所述目标图像的自注意力向量子矩阵与所述第三向量矩阵相乘得到的乘积结果；

级联子模块，用于对x个所述乘积结果进行级联，获得级联结果；

投影子模块，用于对所述级联结果进行投影，获得所述输出向量矩阵。

另一方面，提供了一种图像语义分割装置，所述装置包括：

目标图像获取模块，用于获取目标图像；

输出向量矩阵获取模块，用于通过图像语义分割模型中的循环变压器Transformer获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；

语义分割结果获取模块，用于通过所述图像语义分割模型中的解码器，基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储由至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述图像语义分割方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现上述图像语义分割方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的图像语义分割方法。

本申请提供的技术方案可以包括以下有益效果：

通过获得目标图像在Q、K、V三个维度上分别对应的第一向量矩阵，第二向量矩阵，以及第三向量矩阵之后，对第一向量矩阵和基于第二向量矩阵中的目标向量矩阵进行n次位置交换，获得n个扩展向量矩阵，基于n个扩展向量矩阵，第一向量矩阵以及第二向量矩阵获得目标图像的自注意力向量矩阵，基于自注意力向量矩阵与第三向量矩阵获取的输出向量矩阵，获得目标图像的语义分割结果。使得在获取目标图像的语义分割结果的过程中，能够利用扩展向量矩阵充分挖掘K与Q之间不同特征维度包含的空间信息，进而提高了图像语义分割的精度，提高了图像语义分割的性能。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一示例性实施例提供的图像语义分割方法所使用的系统的示意图；

图2示出了本申请一示例性实施例示出的图像语义分割方法的流程图；

图3是本申请一示例性实施例示出的一种图像语义分割模型生成以及图像语义分割的框架图；

图4是本申请一示例性实施例提供的一种图像语义分割模型的训练方法的流程图；

图5示出了本申请一示例性实施例示出的图像语义分割模型的示意图；

图6示出了本申请一示例性实施例提供的图像语义分割方法的流程图；

图7是本申请一示例性实施例示出的循环位置交换的示意图；

图8示出了本申请一示例性实施例示出的解码器的示意图；

图9示出了本申请一示例性实施例示出的图像语义分割装置的方框图；

图10示出了本申请一示例性实施例示出的图像语义分割装置的方框图；

图11示出了本申请一示例性实施例示出的计算机设备的结构框图；

图12示出了本申请一示例性实施例示出的计算机设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本申请实施例提供了一种图像语义分割方法，可以提高像素空间位置的对应效果，提高图像语义分割的性能。为了便于理解，下面对本申请涉及的几个名词进行解释。

1)人工智能(Artificial Intelligence，AI)

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请所示的包含图像采集组件的显示设备主要涉及其中的计算机视觉技术以及机器学习/深度学习、自动驾驶、智慧交通等方向。

2)机器学习(Machine Learning，ML)

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

3)计算机视觉技术(Computer Vision，CV)

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像语义分割、图像识别、图像语义理解、图像检索、OCR(OpticalCharacter Recognition，光学字符识别)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

4)自注意力机制(Self Attention Mechanism)

self-attention机制的作用是能够更好地学习到全局特征之间的依赖关系，self-attention通过直接计算图结构中任意两个节点之间的关系，一步到位地获取图结构的全局几何特征。

self-attention利用了attention机制，分三个阶段进行计算：(1)引入不同的函数和计算机制，根据Query和某个Key，计算两者的相似性或者相关性，最常见的方法包括：求两者的向量点积、求两者的向量相似性或者通过再引入额外的神经网络来求值；(2)引入类似softmax的计算方式对第一阶段的得分进行数值转换，一方面可以进行归一化，将原始计算分值整理成所有元素权重之和为1的概率分布；另一方面也可以通过softmax的内在机制更加突出重要元素的权重；(3)第二阶段的计算结果即为对应的权重系数，然后进行加权求和即可得到attention数值。

图1示出了本申请一示例性实施例提供的图像语义分割方法所使用的系统的示意图，如图1所示，该系统包括：服务器110以及终端120。

其中，上述服务器110可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

上述终端120可以是具有网络连接功能以及数据处理功能的终端设备，进一步的，该终端可以是具有图像语义分割功能的终端，比如，终端120可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、智能电视、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

可选的，上述系统中包含一个或者多个服务器110，以及多个终端120。本申请实施例对于服务器110和终端120的个数不做限制。

终端以及服务器通过通信网络相连。可选的，通信网络是有线网络或无线网络。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。本申请在此不做限制。

图2示出了本申请一示例性实施例示出的图像语义分割方法的流程图，该方法由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或者服务器可以是图1所示的终端或服务器，如图2所示，该图像语义分割方法包括以下步骤：

步骤210，获取目标图像。

该目标图像是待进行图像语义分割的图像。

图像语义分割是图像语义分割和计算机视觉中关于图像理解的重要步骤，它是指像素级地识别图像，预测出图像中每一个像素的类标签，即标注出图像中每个像素所属的对象类别。

步骤220，获取目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵。

其中，对于自注意力(self-attention)机制而言，第一向量矩阵Q(Query)，第二向量矩阵K(Key)以及第三向量矩阵V(Value)三个矩阵均来自同一输入特征。

步骤230，对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；该目标向量矩阵是第一向量矩阵以及第二向量矩阵中的至少一个；n为正整数。

步骤240，基于第一向量矩阵、第二向量矩阵、以及n次位置交换分别对应的扩展向量矩阵，获取目标图像的自注意力向量矩阵。

一个目标图像可以视为是由若干图像块组成的整体图像，该自注意力向量矩阵用以指示目标图像中各个图像块之间的相关性；该自注意力向量矩阵的取值依赖于第一向量矩阵Q(Query)以及第二向量矩阵K(Key)。

在相关技术中，在计算自注意力向量矩阵时，通过计算Q与K之间的点乘，之后除以一个尺度标度

其中，除以一个尺度标度的目的是为了防止Q与K之间的点乘结果过大，D_h为Query和Key的向量维度，再利用softmax操作将其结果归一化为概率分布，也就是说，自注意力向量矩阵A(Q，K)的计算过程表示为：

然而，由于相关技术中计算自注意力向量矩阵在计算Q与K的相似度的计算方式不够灵活，从而造成在对图像进行语义分割时带来空间像素不匹配，造成对图像中的小目标物分割不准确。

在本申请实施例中，通过提高计算自注意力向量矩阵在计算Q与K的相似度的计算方式的灵活性，提高了在对图像进行语义分割时的空间像素的匹配度，进而解决对图像中的小目标物分割不准确的问题；本申请实施例中，在基于Q与K计算自注意力向量矩阵时，通过对第一向量矩阵以及第二向量矩阵中的目标向量矩阵中的数值进行n次位置交换，获取目标向量矩阵对应的n个扩展向量矩阵，并基于n个扩展向量与第一向量矩阵，第二向量矩阵获取目标图像的自注意力向量矩阵，从而充分挖掘Q与K之间不同特征维度上包含的空间信息。

其中，该目标向量矩阵可以是第一向量矩阵与目标向量矩阵中的一个，或者，该目标向量矩阵也可以是第一向量矩阵和第二向量矩阵。

步骤250，基于自注意力向量矩阵以及第三向量矩阵获取输出向量矩阵。

步骤260，基于输出向量矩阵，获取目标图像对应的语义分割结果。

综上所述，本申请实施例提供的图像语义分割方法，通过获得目标图像在Q、K、V三个维度上分别对应的第一向量矩阵，第二向量矩阵，以及第三向量矩阵之后，对第一向量矩阵和基于第二向量矩阵中的目标向量矩阵进行n次位置交换，获得n个扩展向量矩阵，基于n个扩展向量矩阵，第一向量矩阵以及第二向量矩阵获得目标图像的自注意力向量矩阵，基于自注意力向量矩阵与第三向量矩阵获取的输出向量矩阵，获得目标图像的语义分割结果。使得在获取目标图像的语义分割结果的过程中，能够利用扩展向量矩阵充分挖掘K与Q之间不同特征维度包含的空间信息，进而提高了图像语义分割的精度，提高了图像语义分割的性能。

示意性的，本申请实施例提供的图像分割方法的应用场景包括但不限于以下场景：

1)自动驾驶场景；

自动驾驶场景中，为了给交通工具增加必要的感知，获取交通工具所处的环境，以便自动驾驶的交通工具可以进行安全行驶时，需要对实时获取的道路场景图像，并对道路场景图像进行图像语义分割，以获取道路场景中的障碍物位置，基于障碍物位置控制交通工具的自动驾驶；在该过程中，为提高对道路场景图像的语义分割效果，可以采用本申请提供的图像分割方法，通过对交通工具上装设的图像采集设备实时获取的道路场景图像进行图像序列化处理，获得道路场景图像对应的一维序列，获取该一维序列在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵，对第一向量矩阵和第二向量矩阵中的目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵，并基于第一向量矩阵，第二向量矩阵以及n次位置交换分别对应的扩展向量矩阵，获取道路场景图像的自注意力向量矩阵，并通过基于该自注意力向量矩阵以及第三向量矩阵获得的输出向量矩阵，获得该道路场景图像的语义分割结果，从而获取道路场景图像中各个障碍物的位置；由于在获取该道路图像的语义分割结果的过程中，通过对目标向量矩阵中的数值进行多次循环位置交换后，结合其他向量矩阵获取道路场景图像的自注意力向量矩阵，充分挖掘了不同维度的特征之间的空间信息，从而提高了图像语义分割的精度，进而提高了道路场景中的障碍物位置的获取准确度，提高了自动驾驶的安全性。

2)医学图像辅助诊断场景；

在医学领域中，医学图像已成为医学辅助诊断的重要辅助工具，对医学图像进行图像语义分割，并基于图像语义分割的结果对医药图像中的不同器官进行标注，可以更好的辅助医护人员进行医疗诊断，比如，对于胸部X光片进行图像语义分割，将X光片中的肺部和心脏分别对应的区域标注出来；在该过程中，图像语义分割的准确性，影响着在医学图像中的信息标注的准确性，进而影响医护人员基于信息标注进行医学诊断的准确性，因此，在医学图像辅助诊断场景中，通过使本申请提供的图像语义分割方法，可以提高对医学图像进行语义分割的准确性，进而提高了信息标准的准确性，提高医疗辅助诊断的准确性。

本申请涉及的图像语义分割方法可以基于图像语义分割模型实现，该方案包括图像语义分割模型生成阶段和图像语义分割阶段。图3是本申请一示例性实施例示出的一种图像语义分割模型生成以及图像语义分割的框架图，如图3所示，在图像语义分割模型生成阶段，图像语义分割模型生成设备310通过预先设置好的训练样本数据集(包括样本图像以及样本图像对应的图像语义分割标签)，得到图像语义分割模型，之后，基于该图像语义分割模型生成图像语义分割模型。在图像语义分割阶段，图像语义分割设备320基于该图像语义分割模型，对输入的目标图像进行处理，获得该目标图像的图像语义结果，比如，确定该目标医学图像中各个的器官面积和位置等等。

其中，上述图像语义分割模型生成设备310和图像语义分割设备320可以是计算机设备，比如，该计算机设备可以是个人电脑、服务器等固定式计算机设备，或者，该计算机设备也可以是平板电脑、电子书阅读器等移动式计算机设备。

可选的，上述图像语义分割模型生成设备310和图像语义分割设备320可以是同一个设备，或者，图像语义分割模型生成设备310和图像语义分割设备320也可以是不同的设备。并且，当图像语义分割模型生成设备310和图像语义分割设备320是不同设备时，图像语义分割模型生成设备310和图像语义分割设备320可以是同一类型的设备，比如图像语义分割模型生成设备310和图像语义分割设备320可以都是服务器；或者图像语义分割模型生成设备310和图像语义分割设备320也可以是不同类型的设备，比如图像语义分割设备320可以是个人电脑或者终端，而图像语义分割模型生成设备310可以是服务器等。本申请实施例对图像语义分割模型生成设备310和图像语义分割设备320的具体类型不做限定。

图4是本申请一示例性实施例提供的一种图像语义分割模型的训练方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或服务器，该终端或服务器可以是图1所示的终端或服务器，如图4所示，该图像语义分割模型的训练方法包括以下步骤：

步骤410，获取样本图像集，该样本图像集中包括至少两个样本图像以及至少两个样本图像分别对应的语义分割标签。

可选的，样本图像对应的语义分割标签可以是相关人员对样本图像认为进行标注的。

步骤420，基于样本图像集进行训练，获得图像语义分割模型。

该图像语义分割模型可以应用于终端或者服务器中，该图像语义分割模型用于对输入的目标图像进行语义分割，获取该目标图像对应的语义分割结果。

示意性的，该图像语义分割模型可以包括线性投影网络(Linear Project)，循环变压器Transformer(Cycle Transformer)，以及解码器(Decoder)。

该线性投影网络，用于获取样本图像对应的一维序列；

该循环变压器Transformer，用于基于该一维序列，获取样本图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；基于第一向量矩阵、第二向量矩阵、以及n次位置交换分别对应的扩展向量矩阵，获取样本图像的自注意力向量矩阵；基于注意力向量矩阵以及第三向量矩阵获取输出向量矩阵；该目标向量矩阵是第一向量矩阵以及第二向量矩阵中的至少一个；

该解码器，用于基于输出向量矩阵，获取样本图像对应的预测语义分割结果。

为便于线性投影网络获取样本图像对应的一维序列，需要对样本图像进行预处理，该预处理过程包括：

将样本图像划分为N个图像块，N≥2，且N为正整数；

获取N个图像块对应的图像块向量组成的向量矩阵；以便于线性投影网络对N个图像块向量组成的向量矩阵进行线性变换，获得样本图像对应的一维序列。

示意性的，对图像语义分割模型的训练过程包括：

通过图像语义分割模型获取样本图像对应的预测语义分割结果；

基于预测语义分割结果以及图像语义分割标签对图像语义分割模型进行参数更新，以对图像语义分割模型进行训练。

其中，可以基于预测语义分割结果以及图像语义分割标签，计算损失函数值；

基于该损失函数值，对图像语义分割模型进行参数更新。

由于需要使得基于图像语义分割模型获得样本图像对应的预测语义分割结果与该样本图像对应的图像语义分割标签相同或相近，才能保证该图像语义分割模型获得的目标图像的图像语义分割结果的准确性，因此，需要在对图像语义分割模型的训练过程中进行多次训练，更新图像语义分割模型中包含的各个部分(线性投影网络，循环变压器Transformer，以及解码器)中的各个参数，直至图像语义分割模型收敛。

在一种可能的实现方式中，该循环变压器Transformer包含多头循环自注意力层；该多头循环自注意力层用于基于x组权重矩阵，并列获得x个向量矩阵分组，每个向量矩阵分组中包含各自对应的第一向量子矩阵，第二向量子矩阵以及第三向量子矩阵；该第一向量矩阵中包含x个向量矩阵分组各自包含的第一向量子矩阵，该第二向量矩阵中包含x个向量矩阵分组各自包含的第二向量子矩阵，该第三向量矩阵中包含x个向量矩阵分组各自包含的第三向量子矩阵；并列获取x个向量矩阵分组分别对应的自注意力向量子矩阵；以及基于x个向量矩阵分组分别对应的自注意力向量子矩阵以及第三向量矩阵获取输出向量矩阵。

也就是说，在本申请的图像语义分割模型是基于多头注意力机制构建的模型，其中，多头注意力机制中包含多组(Q、K、V)矩阵，一组(Q、K、V)矩阵代表一次自注意力机制的运算，将这多个矩阵拼接起来后，乘以一个投影矩阵，即可获得最终的多头注意力层的输出，即本申请中的输出向量矩阵。

图5示出了本申请一示例性实施例示出的图像语义分割模型的示意图，如图5所示，该图像语义分割模型包括线性投影网络510，循环Transformer520，以及解码器530；可选的，该循环Transformer由多头循环自注意力层(Multi-head CycleSelf-Attention)，多层感知器(Multi-Layer Perceptron)以及正则化层(Layer Norm)组成。

其中，图像语义分割模型包括L层循环Transformer，L的值可以基于任务数据量确定；任务数据量包括待处理的目标图像的大小和待处理的目标图像的数量的多少；L的数值越大，说明堆叠的循环Transform的层数越深，L的数值越小，说明堆叠的循环Transform的层数越浅，示意性的，循环Transform的层数可以为12。

本申请提供的图像语义分割模型为一个通用的框架，可以嵌入到任意一个Transformer框架中，具有强大的通用性。

该图像语义分割模型获取目标图像对应的图像语义分割结果，其中，基于图像语义分割模型获取目标图像对应的图像语义分割结果的过程可以实现为：

获取目标图像；

通过图像语义分割模型中的循环变压器Transformer获取目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；基于第一向量矩阵、第二向量矩阵、以及n次位置交换分别对应的扩展向量矩阵，获取目标图像的自注意力向量矩阵；基于注意力向量矩阵以及第三向量矩阵获取输出向量矩阵；该目标向量矩阵是第一向量矩阵以及第二向量矩阵中的至少一个；

通过图像语义分割模型中的解码器，基于输出向量矩阵，获取目标图像对应的语义分割结果。

其中，本申请提供的图像语义分割方法以及图像语义分割模型的训练方法均可以结合区块链技术进行使用；示意性的，待进行图像语义分割的目标图像或者用于训练图像语义分割模型的样本图像均可以存储在区块链系统中，在进行图像语义分割或者图像语义分割模型的训练时，从区块链系统中获取相关图像；同时，也可以将图像的语义分割结果存储在区块链系统中，以保证数据的安全性。

综上所述，本申请提供的图像语义分割模型训练方法，通过基于样本图像集训练获得包括线性投影网络，循环Transformer，以及解码器的图像语义分割模型，使得在提取目标图像的图像语义分割结果时，通过获得目标图像在Q、K、V三个维度上分别对应的第一向量矩阵，第二向量矩阵，以及第三向量矩阵之后，对第一向量矩阵和基于第二向量矩阵中的目标向量矩阵进行n次位置交换，获得n个扩展向量矩阵，基于n个扩展向量矩阵，第一向量矩阵以及第二向量矩阵获得目标图像的自注意力向量矩阵，基于自注意力向量矩阵与第三向量矩阵获取的输出向量矩阵，获得目标图像的语义分割结果。使得在获取目标图像的语义分割结果的过程中，能够利用扩展向量矩阵充分挖掘K与Q之间不同特征维度包含的空间信息，进而提高了图像语义分割的精度，提高了图像语义分割的性能。

以本申请实施例提供的图像语义分割方法是基于图像语义分割模型实现的，且该图像语义分割模型是基于循环Transformer搭建的模型为例，图6示出了本申请一示例性实施例提供的图像语义分割方法的流程图，该方法可以由计算机设备执行，该计算机设备可以实现为终端或者服务器，该终端或者服务器可以是图1所示的终端或服务器，如图6所示，该图像语义分割方法包括以下步骤：

步骤610，获取目标图像。

步骤620，对目标图像进行序列化处理，获取目标图像对应的一维序列。

可选的，通过图像语义分割模型中的线性投影网络对目标图像进行序列化处理，获取目标图像对应的一维序列。

获取目标图像对应的一维序列的过程可以实现为：

将目标图像划分为N个图像块，N≥2，且N为正整数；

获取N个图像块对应的图像块向量组成的向量矩阵；

对N个图像块向量组成的向量矩阵进行线性变换，获得目标图像对应的一维序列。

在一种可能的实现方式中，该线性投影模块还可通过1×1卷积操作，获得目标图像对应的一维序列。

由于图像语义分割模型中的循环Transformer的输入是一维序列，因此，在将目标图像输入到循环Transformer之前，需要将目标图像(H*W*C)转换为1维序列，其中H(height)表示目标图像的高度，W(width)表示目标图像的宽度，C(channel)表示目标图像的通道数；以目标图像的通道数为3为例，对于目标图像x∈R^H×W×3，首先，将目标图像划分成p×q的图像块，其中p和q分别表示图像块的高度和宽度，同一图像块p和q的取值可以相同也可以不同，不同图像块对应的p和q可以对应相同，也可以对应不同。假设不同图像块对应的p和q相同，图像块的数量N可以记为：

其次，获取每个图像块对应的图像块向量，则可以得到N个维度为3*p*q的图像块向量，该图像块向量用以指示每个图像块的像素特征；将这些向量堆叠在一起，获得N个图像块向量组成的向量矩阵X∈R^3×p×q×N。对N个图像块向量组成的向量矩阵进行线性变换，获得目标图像对应的一维序列；其中，线性变换是将N个图像块向量进行特征空间转换，其中，转换矩阵为

线性变换过程表示为：

其中，Y表示目标图像对应的一维序列；基于上述过程实现了目标图像由二维转换成一维序列信号，便于后续的循环Transformer进行特征学习和信息汇合。

步骤630，基于一维序列，获取目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵。

该过程可以表示为：

其中，D表示输出特征的维度，D_h表示输入特征的维度，U_QKV是循环Transformer中可学习的参数矩阵，在模型训练中可更新。

第一向量矩阵，第二向量矩阵以及第三向量矩阵中分别包含对应于目标图像中各个图像块的特征向量。

步骤640，以特征向量为单位，对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵。

在一种可能的实现方式中，对目标向量矩阵中的数值进行n次位置交换可以实现为：

以特征向量为单位，随机对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵。

也就是说，在对目标向量矩阵中的数值进行位置交换时，不限制每次位置交换的特征向量，也不限制该特征向量位置交换后在特征向量队列中的位置，在确保位置交换后的特征向量队列与位置交换前的特征向量不同的前提下，对目标向量矩阵中的数值进行n次随机位置交换。

或者，在另一种可能的实现方式中，以特征向量为单位，按照指定步长对目标向量矩阵中的数值进行n次循环位置交换，获得n次循环位置交换分别对应的扩展向量矩阵。

该指定步长的数值可以由相关人员基于实际需求进行设置，该循环位置交换是指按照一定的位置交换顺序对目标向量矩阵对应的特征向量队列中的特征向量进行位置调整，示意性的，可以按照从队首到队尾的顺序对特征向量进行位置调整，比如，在一次位置交换中，将排在队首的前指定位数个特征向量，移动到队尾；或者，可以按照从队尾到队首的顺序对特征向量进行调整，该过程可以实现为：

获取组成目标向量矩阵的特征向量队列；

响应于一次循环位置交换，将处于特征向量队列末端的指定步长位数的特征向量，移动至特征向量队列的首位，并顺次移动特征向量队列中的其他特征向量。

其中，在对指定步长位数的特征向量进行移动时，可以保持指定步长位数的特征向量的当前的排列方式，将指定步长为数的特征向量整体移动至特征向量队列的首位，示意性的，指定步长为2，特征向量队列对应的向量矩阵为[1，2，3，4]，在一次循环位置交换后，该特征向量队列对应的向量矩阵为[3，4，1，2]；或者，可以将指定步长位数的特征向量，按照当前排列顺序从前往后的顺序依次移动到特征向量队列的首位，示意性的，指定步长为2，特征向量对应的向量矩阵为[1，2，3，4]，在一次循环位置交换后，该特征向量队列对应的向量矩阵为[4，3，1，2]。

示意性的，当指定步长为1时，在一次循环位置交换时，将处于特征向量队列最后一位的数值移动至特征向量队列的第一位，并顺次移动特征向量队列中的其他数值。

将一次循环位置操作后获得的向量矩阵，获取为一个扩展向量矩阵。

图7是本申请一示例性实施例示出的循环位置交换的示意图，如图7所示，以指定步长为1，按照从队尾到队首的顺序进行循环交换为例，目标向量矩阵的特征向量队列中包含4个特征向量，在未进行循环位置交换之前，该特征向量队列对应的向量矩阵为[1，2，3，4]；在经过一次循环位置交换之后，该特征向量队列对应的向量矩阵为[4，1，2，3]；在经过两次循环位置交换之后，该特征向量队列对应的向量矩阵为[3，4，1，2]；在经过三次循环位置交换之后，该特征向量队列对应的向量矩阵为[2，3，4，1]。

由于目标向量矩阵对应的特征向量队列中的特征向量的数量有限，随着循环位置交换的进行，获得的特征向量队列会在某一循环位置交换后恢复到未进行任何循环位置交换之前的状态，比如，如图7所示的目标向量矩阵，在经过四次循环位置交换之后，该特征向量队列对应的向量矩阵为[1，2，3，4]，与该目标向量矩阵未进行任何循环位置操作之前的状态相同，且后续循环位置操作获得的向量矩阵会出现重复，进而出现重复计算，造成冗余，因此，在一种可能的实现方式中，响应于循环位置交换的次数达到次数阈值，停止循环位置交换；次数阈值是基于目标向量矩阵中特征向量的数量以及指定步长确定的；示意性的，该次数阈值＝目标向量矩阵中特征向量的数量/指定步长-1，比如，当指定步长为1，目标向量矩阵中特征向量的数量为4时，次数阈值＝3。

或者，在另一种可能的实现方式中，响应于在一次循环位置交换后，特征向量队列中的特征向量排列方式与原始数值排列方式相同，停止循环位置交换，原始数值排列方式是指未进行循环位置交换时的特征向量队列中的特征向量排列方式。

步骤650，基于第一向量矩阵、第二向量矩阵、以及n次位置交换分别对应的扩展向量矩阵，获取目标图像的自注意力向量矩阵。

在本申请实施例中，该目标向量矩阵可以包括第一向量矩阵以及第二向量矩阵，也就是说，可以同时对第一向量矩阵与第二向量矩阵同时进行位置交换操作，对应的，位置交换次数n为第一向量矩阵进行位置交换的次数，与第二向量矩阵进行位置交换的次数的总和，n次位置交换分别对应的扩展向量矩阵由第一向量矩阵进行位置交换后的扩展向量矩阵以及第二向量矩阵进行位置交换后的扩展向量矩阵组成，基于第一向量矩阵与第二向量矩阵共同对应的扩展向量矩阵，以及第一向量矩阵和第二向量矩阵，获取目标图像的自注意力向量矩阵。

或者，该目标向量矩阵可以实现为第一向量矩阵，或者该目标向量矩阵实现为第二向量矩阵；当目标向量矩阵为第二向量矩阵时，对计算目标图像的注意力矩阵的过程如下：

获取第一向量矩阵与n次位置交换分别对应的扩展向量矩阵的n个点乘结果；

获取n个点乘结果的平均值；

基于平均值，获取目标图像的自注意力向量矩阵。

示意性的，该过程可以表示为：

其中，A表示自注意力向量矩阵，或者注意力图(Attention Map)，Cycle表示循环操作，C＝n表示循环的次数。

当目标向量矩阵为第一向量矩阵时，对计算目标图像的注意力矩阵的过程可以表示为：

步骤660，基于自注意力向量矩阵以及第三向量矩阵获取输出向量矩阵。

当循环Transformer中包含一个循环注意力层时，输出向量矩阵SA(z)的计算过程表示为：

SA(z)＝A_cycleV

当循环Transformer中包含多头循环自注意力层时，对应的，每个循环自注意力层都会对应获取到一个自注意力向量子矩阵，并对应获取到自注意力向量子矩阵与第三向量矩阵的多个乘积结果，因此，需要对多个乘积结果进行进一步处理以获的输出向量矩阵；多头循环自注意力层的获取个输出向量矩阵的过程实现为：

基于x组权重矩阵，获得x个向量矩阵分组，每个向量矩阵分组中均包含各自对应的第一向量子矩阵，该第二向量子矩阵以及第三向量子矩阵；该第一向量矩阵中包含x个向量矩阵分组各自包含的第一向量子矩阵，该第二向量矩阵中包含x个向量矩阵分组各自包含的第二向量子矩阵，该第三向量矩阵中包含x个向量矩阵分组各自包含的第三向量子矩阵；x为正整数；

分别对x个向量矩阵分组对应的目标向量子矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量子矩阵；该目标向量子矩阵是第一向量子矩阵以及第二向量子矩阵中的至少一个；该扩展向量矩阵中包含x个向量矩阵分组各自对应的扩展向量子矩阵；

基于x个向量矩阵分组分别对应的第一向量子矩阵、第二向量子矩阵、以及n次位置交换分别对应的扩展向量子矩阵，获取x个向量矩阵分组分别对应的目标图像的自注意力向量子矩阵；该自注意力向量矩阵中包含x个向量矩阵分组各自对应的自注意力向量子矩阵；

基于x个自注意力向量子矩阵以及第三向量矩阵获取输出向量矩阵。

其中，x组权重矩阵，是x个循环自注意力层在模型训练过程中，基于x个不同的随机矩阵进行参数更新之后获得的，且x个循环自注意力层在自注意向量子矩阵的获取过程中是并行进行处理的，各个循环自注意力层获取自注意力向量子矩阵的过程可以参考步骤630至步骤650的相关内容，此处不再赘述。

该基于x个向量矩阵分组分别对应的目标图像的自注意力向量子矩阵以及第三向量矩阵获取输出向量矩阵，包括：

获取各个向量矩阵分组对应的目标图像的自注意力向量子矩阵与第三向量矩阵相乘得到的乘积结果；

对x个乘积结果进行级联，获得级联结果；

对级联结果进行投影，获得输出向量矩阵。

该输出向量矩阵的计算过程可以表示为：

其中，U_msa表示投影矩阵，其参数在模型训练过程中可更新。

上述步骤630至步骤660可以由图像语义模型中的循环变压器Transformer执行。

步骤670，基于输出向量矩阵，获取目标图像对应的语义分割结果。

其中，该过程可以由图像语义分割模型中的解码器执行，对输出向量矩阵解码的作用是，将循环变压器Transformer汇合后的特征在控件和通道维度进行解码，得到最后的语义分割结果。

其中，常用的解码方式有直接上采样和1×1卷积的操作、多尺度融合上采样以及渐进上采样的方式。以渐进上采样的方式为例，图8示出了本申请一示例性实施例示出的解码器的示意图，如图8所示，通过最后一个循环Transformer后特征，被重新展成一个Tensor(张量)，再通过2×上采样与卷积结合的方式，逐渐将循环Transformer编码后的特征恢复到与输入的图像的空间尺寸一致，通道数为整个数据集的类别数，最终输出目标图像的语义分割结果。

图9示出了本申请一示例性实施例示出的图像语义分割装置的方框图，如图9所示，该装置包括：

目标图像获取模块910，用于获取目标图像；

第一获取模块920，用于获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；

位置交换模块930，用于对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；

第二获取模块940，用于基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；

第三获取模块950，用于基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；

语义分割结果获取模块960，用于基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

所述位置交换模块930，用于以所述特征向量为单位，对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，所述位置交换模块930，用于以所述特征向量为单位，按照指定步长对所述目标向量矩阵中的数值进行n次循环位置交换，获得n次循环位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，所述位置交换模块930，包括：

在一种可能的实现方式中，所述位置交换模块930，用于以所述特征向量为单位，随机对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

在一种可能的实现方式中，第二获取模块940，包括：

第二获取子模块，用于获取所述n个点乘结果的平均值；

在一种可能的实现方式中，所述装置还包括：

所述第一获取模块920，用于基于所述一维序列，获取所述目标图像的所述第一向量矩阵，所述第二向量矩阵以及是所述第三向量矩阵。

在一种可能的实现方式中，所述序列化处理模块，包括：

在一种可能的实现方式中，所述第一获取模块920，用于基于x组权重矩阵，获得x个不同的向量矩阵分组，每个所述向量矩阵分组中均包含各自对应的所述第一向量子矩阵，所述第二向量子矩阵以及所述第三向量子矩阵；所述第一向量矩阵中包含x个所述向量矩阵分组各自包含的第一向量子矩阵，所述第二向量矩阵中包含x个所述向量矩阵分组各自包含的第二向量子矩阵，所述第三向量矩阵中包含x个所述向量矩阵分组各自包含的第三向量子矩阵；x为正整数；x为正整数；

所述位置交换模块930，用于分别对x个所述向量矩阵分组对应的目标向量子矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量子矩阵；所述目标向量子矩阵是所述第一向量子矩阵以及所述第二向量子矩阵中的至少一个；所述扩展向量矩阵中包含x个所述向量矩阵分组各自对应的扩展向量子矩阵；

所述第二获取模块940，用于基于x个所述向量矩阵分组分别对应的所述第一向量子矩阵、所述第二向量子矩阵、以及n次位置交换分别对应的所述扩展向量子矩阵，获取x个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵；所述自注意力向量矩阵中包含x个所述向量矩阵分组各自对应的自注意力向量子矩阵；

所述第三获取模块950，用于基于x个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵以及所述第三向量矩阵获取所述输出向量矩阵。

在一种可能的实现方式中，所述第三获取模块950，包括：

乘积结果获取子模块，用于获取x个各个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵与所述第三向量矩阵相乘得到的x个乘积结果；

综上所述，本申请实施例提供的图像语义分割装置，通过获得目标图像在Q、K、V三个维度上分别对应的第一向量矩阵，第二向量矩阵，以及第三向量矩阵之后，对第一向量矩阵和基于第二向量矩阵中的目标向量矩阵进行n次位置交换，获得n个扩展向量矩阵，基于n个扩展向量矩阵，第一向量矩阵以及第二向量矩阵获得目标图像的自注意力向量矩阵，基于自注意力向量矩阵与第三向量矩阵获取的输出向量矩阵，获得目标图像的语义分割结果。使得在获取目标图像的语义分割结果的过程中，能够利用扩展向量矩阵充分挖掘K与Q之间不同特征维度包含的空间信息，进而提高了图像语义分割的精度，提高了图像语义分割的性能。

图10示出了本申请一示例性实施例示出的图像语义分割装置的方框图，如图10所示，该装置包括：

目标图像获取模块1010，用于获取目标图像；

输出向量矩阵获取模块1020，用于通过图像语义分割模型中的循环变压器Transformer获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵；基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵；基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵；所述目标向量矩阵是所述第一向量矩阵以及所述第二向量矩阵中的至少一个；

语义分割结果获取模块1030，用于通过所述图像语义分割模型中的解码器，基于所述输出向量矩阵，获取所述目标图像对应的语义分割结果。

图11示出了本申请一示例性实施例示出的计算机设备1100的结构框图。该计算机设备可以实现为本申请上述方案中的服务器。所述计算机设备1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述计算机设备1100还包括用于存储操作系统1109、应用程序1110和其他程序模块1111的大容量存储设备1106。

所述大容量存储设备1106通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1106及其相关联的计算机可读介质为计算机设备1100提供非易失性存储。也就是说，所述大容量存储设备1106可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-OnlyMemory，EEPROM)闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(DigitalVersatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1106可以统称为存储器。

根据本公开的各种实施例，所述计算机设备1100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1100可以通过连接在所述系统总线1105上的网络接口单元1107连接到网络1108，或者说，也可以使用网络接口单元1107来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集存储于存储器中，中央处理器1101通过执行该至少一条指令、至少一段程序、代码集或指令集来实现上述各个实施例所示的图像语义分割方法中的全部或者部分步骤。

图12示出了本申请一个示例性实施例提供的计算机设备1200的结构框图。该计算机设备1200可以实现为上述的人脸质量评估设备和/或质量评估模型训练设备，比如：智能手机、平板电脑、笔记本电脑或台式电脑。计算机设备1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，计算机设备1200包括有：处理器1201和存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、12核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像语义分割器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1201所执行以实现本申请中方法实施例提供的图像语义分割方法。

在一些实施例中，计算机设备1200还可选包括有：外围设备接口1203和至少一个外围设备。处理器1201、存储器1202和外围设备接口1203之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1203相连。具体地，外围设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

外围设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和外围设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和外围设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

在一些实施例中，计算机设备1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接近传感器1216。

本领域技术人员可以理解，图12中示出的结构并不构成对计算机设备1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一示例性实施例中，还提供了一种计算机可读存储介质，用于存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述图像语义分割方法中的全部或部分步骤。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在一示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、图4或图6任一实施例所示方法的全部或部分步骤。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像语义分割方法，其特征在于，所述方法包括：

获取目标图像；

2.根据权利要求1所述的方法，其特征在于，所述第一向量矩阵、所述第二向量矩阵以及所述第三向量矩阵分别包含所述目标图像中各个图像块的特征向量；

所述对目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量矩阵，包括：

以所述特征向量为单位，对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

3.根据权利要求2所述的方法，其特征在于，所述以所述特征向量为单位，对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵，包括：

以所述特征向量为单位，按照指定步长对所述目标向量矩阵中的数值进行n次循环位置交换，获得n次循环位置交换分别对应的所述扩展向量矩阵。

4.根据权利要求3所述的方法，其特征在于，所述以所述特征向量为单位，按照指定步长对所述目标向量矩阵中的数值进行n次循环位置交换，获得n次循环位置交换分别对应的所述扩展向量矩阵，包括：

获取组成所述目标向量矩阵的特征向量队列；

响应于一次循环位置交换，将处于所述特征向量队列末端的所述指定步长位数的特征向量，移动至所述特征向量队列的首位，并顺次移动所述特征向量队列中的其他特征向量。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

响应于循环位置交换的次数达到次数阈值，停止循环位置交换；所述次数阈值是基于所述目标向量矩阵中所述特征向量的数量以及所述指定步长确定的。

6.根据权利要求2所述的方法，其特征在于，所述以所述特征向量为单位，对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵，包括：

以所述特征向量为单位，随机对所述目标向量矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的所述扩展向量矩阵。

7.根据权利要求1所述的方法，其特征在于，响应于所述目标向量矩阵为所述第二向量矩阵，所述基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵，包括：

获取所述第一向量矩阵与n次位置交换分别对应的所述扩展向量矩阵的n个点乘结果；

获取所述n个点乘结果的平均值；

基于所述平均值，获取所述目标图像的自注意力向量矩阵。

8.根据权利要求1所述的方法，其特征在于，在获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵之前，所述方法还包括：

对所述目标图像进行序列化处理，获取所述目标图像对应的一维序列；

所述获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵，包括：

基于所述一维序列，获取所述目标图像的所述第一向量矩阵，所述第二向量矩阵以及是所述第三向量矩阵。

9.根据权利要求8所述的方法，其特征在于，所述对所述目标图像进行序列化处理，获取所述目标图像对应的一维序列，包括：

将所述目标图像划分为N个图像块，N≥2，且N为正整数；

获取所述N个图像块对应的图像块向量组成的向量矩阵；

对所述N个图像块向量组成的向量矩阵进行线性变换，获得所述目标图像对应的所述一维序列。

10.根据权利要求1所述的方法，其特征在于，所述获取所述目标图像对应在查询维度上的第一向量矩阵，键维度上的第二向量矩阵以及值维度上的第三向量矩阵；包括：

基于x组权重矩阵，获得x个向量矩阵分组，每个所述向量矩阵分组中包含各自对应的第一向量子矩阵，第二向量子矩阵以及第三向量子矩阵；所述第一向量矩阵中包含x个所述向量矩阵分组各自包含的第一向量子矩阵，所述第二向量矩阵中包含x个所述向量矩阵分组各自包含的第二向量子矩阵，所述第三向量矩阵中包含x个所述向量矩阵分组各自包含的第三向量子矩阵；x为正整数；

分别对x个所述向量矩阵分组对应的目标向量子矩阵中的数值进行n次位置交换，获得n次位置交换分别对应的扩展向量子矩阵；所述目标向量子矩阵是所述第一向量子矩阵以及所述第二向量子矩阵中的至少一个；所述扩展向量矩阵中包含x个所述向量矩阵分组各自对应的扩展向量子矩阵；

所述基于所述第一向量矩阵、所述第二向量矩阵、以及n次位置交换分别对应的所述扩展向量矩阵，获取所述目标图像的自注意力向量矩阵，包括：

基于x个所述向量矩阵分组分别对应的所述第一向量子矩阵、所述第二向量子矩阵、以及n次位置交换分别对应的所述扩展向量子矩阵，获取x个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵；所述自注意力向量矩阵中包含x个所述向量矩阵分组各自对应的自注意力向量子矩阵；

所述基于所述注意力向量矩阵以及所述第三向量矩阵获取输出向量矩阵，包括：

基于x个所述自注意力向量子矩阵以及所述第三向量矩阵获取所述输出向量矩阵。

11.根据权利要求10所述的方法，其特征在于，所述基于x个所述向量矩阵分组分别对应的所述目标图像的自注意力向量子矩阵以及所述第三向量矩阵获取所述输出向量矩阵，包括：

获取各个所述向量矩阵分组对应的所述目标图像的自注意力向量子矩阵与所述第三向量矩阵相乘得到的乘积结果；

对x个所述乘积结果进行级联，获得级联结果；

对所述级联结果进行投影，获得所述输出向量矩阵。

12.一种图像语义分割方法，其特征在于，所述方法包括：

获取目标图像；

13.一种图像语义分割装置，其特征在于，所述装置包括：

目标图像获取模块，用于获取目标图像；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器存储有至少一条指令、至少一条程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的图像语义分割方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至12任一所述的图像语义分割方法。