CN115995079A

CN115995079A - 图像语义相似度分析方法和同语义图像检索方法

Info

Publication number: CN115995079A
Application number: CN202111205389.XA
Authority: CN
Inventors: 周佳乐; 潘兴甲; 鄢科; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2023-04-21

Abstract

本申请涉及智慧安防、智慧交通和智慧城市等领域，提供了一种图像语义相似度分析方法和同语义图像检索方法。所述图像语义相似度分析方法包括：分别获取第一图像和第二图像各自对应的图像区域特征，对各图像区域特征分别进行通道注意力增强处理，得到各自对应的增强区域特征，通过交叉注意力对各增强区域特征进行对齐处理，得到第一对齐区域特征以及第二对齐区域特征，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到图像语义相似度分析结果。采用上述方法，能够提高图像语义相似度分析结果的准确性，便于在同语义图像检索过程中，确保同语义图像检索结果的准确性。

Description

图像语义相似度分析方法和同语义图像检索方法

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像语义相似度分析方法、装置、计算机设备、存储介质和计算机程序产品，以及一种同语义图像检索方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，出现同语义图像检索技术，同语义图像检索是指给定一张图片，从数据库中搜索出和这张图片语义最相近，而外观不一定相近的图片。

传统的图像检索方法往往致力于寻找外观上最相近的图片，当图片中的语义较为简单时，如只有单一前景物体，有一定的效果，但当图片中的语义较为复杂时，如出现多个人或物体的交互时，传统方法无法准确地分析图像之间的语义相似度，导致检索到的同语义图像的准确度不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够准确地计算图像之间的语义相似度的图像语义相似度分析方法、装置、计算机设备、存储介质和计算机程序产品以及同语义图像检索方法、装置、计算机设备、存储介质和计算机程序产品。

一种图像语义相似度分析方法，所述方法包括：

分别获取第一图像和第二图像各自对应的图像区域特征，所述图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置；

对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征；

通过交叉注意力对各所述增强区域特征进行对齐处理，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征；

基于所述第一对齐区域特征和所述第二对齐区域特征，对所述第一图像与所述第二图像进行语义相似度分析，得到图像语义相似度分析结果。

一种图像语义相似度分析装置，所述装置包括：

图像区域特征获取模块，用于分别获取第一图像和第二图像各自对应的图像区域特征，所述图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置；

区域特征增强模块，用于对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征；

区域特征对齐模块，用于通过交叉注意力对各所述增强区域特征进行对齐处理，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征；

相似度分析模块，用于基于所述第一对齐区域特征和所述第二对齐区域特征，对所述第一图像与所述第二图像进行语义相似度分析，得到图像语义相似度分析结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

上述图像语义相似度分析方法、装置、计算机设备、存储介质和计算机程序产品，通过分别获取第一图像和第二图像各自对应的图像区域特征，对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到图像语义相似度分析结果。整个过程中，用图像区域特征表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置，引入了每一图像区域的位置特征，通过进行通道注意力增强和交叉对齐处理，使得图像区域特征刻画了更为丰富的信息，通过使得图像相似度的计算过程能够捕捉更为复杂的关系，从而提高图像语义相似度分析结果的准确性。

一种同语义图像检索方法，所述方法包括：

以基准图像和候选图像分别为第一图像和第二图像，基于上述图像语义相似度分析方法，分别得到所述每一候选图像与所述基准图像之间的图像语义相似度；

基于所述图像语义相似度，从所述候选图像中筛选出符合图像语义相似度条件的目标图像作为所述基准图像的同语义图像。

一种同语义图像检索装置，所述装置包括：

图像语义相似度分析模块，用于以基准图像和候选图像分别为第一图像和第二图像，基于上述图像语义相似度分析装置，分别得到所述每一候选图像与所述基准图像之间的图像语义相似度；

同语义图像筛选模块，用于基于所述图像语义相似度，从所述候选图像筛选出符合图像语义相似度条件的目标图像作为所述基准图像的同语义图像。

上述同语义图像检索方法、装置、计算机设备、存储介质和计算机程序产品，以基准图像和候选图像分别为第一图像和第二图像，基于上述图像语义相似度分析方法，分别得到每一候选图像与基准图像之间的图像语义相似度，确保了图像语义相似度分析结果的准确性，基于图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像，从而得到确保同语义图像检索结果的准确性。

附图说明

图1为一个实施例中图像语义相似度分析方法的应用环境图；

图2为一个实施例中图像语义相似度分析方法的流程示意图；

图3为一个实施例中将位置特征嵌入初始区域特征的示意图；

图4为一个实施例中对图像区域特征进行特征增强的示意图；

图5为一个实施例中增强区域特征的联结过程示意图；

图6为一个实施例中同语义图像检索方法的流程示意图；

图7为一个实施例中图像语义相似度分析方法的流程示意图；

图8为一个实施例中位置相关的区域对齐网络模型的结构示意图；

图9为一个实施例中图像语义相似度分析装置的结构框图；

图10为一个实施例中同语义图像检索装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像语义相似度分析方法和同语义图像检索方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102向服务器104发送对基准图像进行同语义图像检索的请求，服务器104确定与基准图像对应的候选图像，并以基准图像和候选图像分别为第一图像和第二图像，分别获取第一图像和第二图像各自对应的图像区域特征，图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置，服务器104对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，分别得到每一候选图像与基准图像之间的图像语义相似度，服务器104基于图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像并反馈至终端102。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、便携式可穿戴设备和车载终端，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像语义相似度分析方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，分别获取第一图像和第二图像各自对应的图像区域特征，图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置。

其中，第一图像和第二图像是用于进行图像语义相似度分析的对象，第一图像和第二图像用于指代不同的两张图像，在实际的应用中，第一图像和第二图像可以互换。图像语义是指图像中所表达的内容，图像语义与图像中包含的具体对象关联性强，与具体对象在图像中的位置关联性弱。图像语义相似是图像中所表达的内容具有相似性。例如，从不同视角拍摄的同一物体的两张图像，从图像外观来看可能并不相似，但是由于其表达的内容即拍摄物体是相同的，通过图像语义相似度分析，得到的结果应该是两者具有较高的图像语义相似度。

图像区域特征用于相应图像中的每一图像区域以及每一图像区域在相应图像中的位置。其中，图像区域可以表征图像中的物体在图像中所在的区域，每一个图像区域具体可以通过区域的面积、区域的最小外接矩形(长、宽跟角度)、区域的角度、区域的凸性、区域的圆度、区域的最小外接圆大小等表征其区域特性。例如，服务器可以通过对第一图像和第二图像分别进行图像区域识别处理，识别出图像中的k个图像区域，其中，k为图像区域特征识别模型中的一个超参，k的取值可以在图像区域特征提取模型的参数配置过程中进行设定。图像区域特征包括k个图像区域中每一个图像区域所对应的特征，每一个图像区域对应特征的特征维度均为D维，图像区域特征的特征大小为k*D。图像区域特征中包含的位置信息具体可以通过添加所对应图像中每一个图像区域的位置来得到。图像区域在相应图像中的位置可以用图像区域中的指定坐标点来表示，例如图像区域的中心点、或是多个轮廓坐标点的均值等。具体可以通过将每一图像区域的位置信息通过位置向量来表示，通过将位置向量与区域特征进行特征联结或是特征融合来得到可表征每一图像区域在相应图像中的位置的图像区域特征。

具体地，如图3所示，服务器分别将第一图像和第二图像输入区域特征提取模型，基于区域特征提取模型分别对第一图像和第二图像进行区域特征提取，将每一个区域表示为D维特征向量，即第一图像和第二图像各自得到大小为k*D的图像区域特征R₁和R₂，对于R₁和R₂的每个图像区域的区域特征r，分别获取每个图像区域的位置信息，将位置信息对应的位置特征嵌入对应图像区域的区域特征r，得到嵌入了位置信息的区域特征r’，从而得到第一图像对应的嵌入了位置信息的图像区域特征，以及第二图像对应的嵌入了位置信息的图像区域特征。

其中，区域特征提取模型可以是Faster R-CNN模型，Faster R-CNN模型是一种区域生成网络与Fast R-CNN网络的结合，具体为用区域生成网络代替Fast R-CNN中的Selective Search得到的网络。区域生成网络又称区域候选框网络，用于提取图像中的候选框，实现对图像中的每一个图像区域的快速定位以及区域特征的快速生成。

步骤204，对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征。

其中，通道注意力是注意力机制(attention mechanism)中的一种，注意力机制使得神经网络具备专注于其输入或特征子集的能力即选择特定的输入。注意力可以应用于任何类型的输入，在计算能力有限情况下，注意力机制是解决信息超载问题的主要手段的一种资源分配方案，将计算资源分配给更重要的任务由于不同的通道捕捉的是不同的特征，通道注意力用来衡量通道重要性。

通道注意力是指对于每个通道赋予不同的权重，例如，图像A的特征通道1非常重要，特征通道2不重要；图像B的特征通道1不重要，特征通道2很重要；那么在这个时候，对于图像A，应该把注意力集中在特征通道1，即赋予特征通道1更高的权重，对于图像B，应该把注意力集中在特征通道2，即赋予特征通道2更高的权重。

通道注意力增强是指使用目标网络计算通道权重，基于通道权重与特征进行运算，对特征进行更新，得到加强注意力后的特征，从而得到更具有意义的特征表达。通道注意力网络具体可以是SENet(Squeeze-and-Excitation Networks)，卷积网络的每一层有多个卷积核，每个卷积核对应一个特征通道，相对于空间注意力机制，通道注意力在于分配各个卷积通道之间的资源，分配粒度上比空间注意力机制大了一个级别。

具体地，通道权重可以基于图像区域特征来确定，服务器在获取到第一图像和第二图像各自对应的图像区域特征以后，对每一图像对应的图像区域特征分别进行通道注意力增强处理，得到第一图像的图像区域特征对应的第一增强区域特征以及第二图像的图像区域特征对应的第二增强区域特征。

步骤206，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征。

交叉注意力是通过于对不同源图像之间的互相关进行建模，构建密集连接的交叉注意引导网络来动态学习空间对应关系，从而更好地对齐不同输入图像的重要细节的数据处理过程。具体地，通过交叉注意力网络，对第一图像所对应的增强区域特征和第二图像所对应的增强区域特征来动态学习空间对应关系，从而实现第一图像与第二图像的特征对齐，得到对齐后的与第一图像相对应的第一对齐区域特征以及第二图像相对应的第二对齐区域特征。

具体地，服务器通过交叉注意力对各增强区域特征进行对齐处理，可以得到联结的对齐区域特征，通过对联结的对齐区域特征进行特征拆分，得到与第一图像相对应的第一对齐区域特征以及第二图像相对应的第二对齐区域特征。

步骤208，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到图像语义相似度分析结果。

其中，相似度是指两个对象之间的相似程度，语义相似度是指所表达内容的相似程度。具体的，从第一视角和第二视角拍摄的同一物体的两张图像，从图像外观来看可能并不相似，但是其表达的内容即拍摄的对象是高度相似的，通过图像语义相似度分析，从第一视角和第二视角拍摄的同一物体的两张图像两者具有较高的图像语义相似度。语义相似度分析具体可以采用余弦相似度来计算得到，余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

上述图像语义相似度分析方法，通过分别获取第一图像和第二图像各自对应的图像区域特征，图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置，对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到图像语义相似度分析结果。整个过程中，通过引入位置特征和通道注意力，进行通道注意力增强和交叉对齐处理，使得图像区域特征刻画了更为丰富的信息，通过使得图像相似度的计算过程能够捕捉更为复杂的关系，从而提高图像语义相似度分析结果的准确性。

在一个实施例中，分别获取第一图像和第二图像各自对应的图像区域特征，包括：分别提取第一图像和第二图像的初始区域特征；基于初始区域特征所表征的各图像区域，确定每一图像区域中的目标点位置所对应的位置向量；将位置向量嵌入相应目标点位置所属图像区域相对应的初始区域特征，得到第一图像和第二图像各自对应的图像区域特征。

其中，初始区域特征是指直接从图像中提取到的区域特征，与图像区域特征不同的是，图像区域特征是直接提取的区域特征与位置特征的融合结果。初始区域特征有多个图像区域的特征组合而成。每一图像区域中的目标点位置具体可以用图像区域中的指定坐标点来表示，例如图像区域的中心点或是多个轮廓坐标点的均值等。

具体地，服务器分别将第一图像和第二图像输入区域特征提取模型，基于区域特征提取模型分别对第一图像和第二图像进行区域特征提取，将每一个图像区域表示为D维特征向量，即第一图像和第二图像各自得到大小为k*D的区域特征R₁和R₂，对于R₁和R₂的每个图像区域的区域特征r，分别获取每个图像区域的位置信息，将位置信息对应的位置特征嵌入对应图像区域的区域特征r，得到嵌入了位置信息的区域特征r’，从而得到第一图像对应的嵌入了位置信息的图像区域特征R’₁，以及第二图像对应的嵌入了位置信息的图像区域特征R’₂。

其中，位置信息可以是与坐标对应的位置向量，具体可以是两个大小为1*D的位置向量PEx和PEy，其中，PEx表示在坐标系的横坐标方向上的位置的向量表示，PEy表示在坐标系的纵坐标方向上的位置的向量表示，PEx和PEy可以是通过对图像区域中目标点的横纵坐标分别进行正余弦位置编码所得到的1*D的向量。

在本实施例中，通过图像区域中的目标点位置所对应的位置向量作为嵌入的位置特征，能够准确表达每一个图像区域在所属图像中的位置信息，实现更丰富的特征表达，使得图像区域特征刻画了更为丰富的信息，从而提高图像语义相似度分析结果的准确性。

在一个实施例中，基于初始区域特征所表征的各图像区域，分别确定每一图像区域中的目标点位置所对应的位置向量，包括：基于初始区域特征所表征的每一图像区域，分别确定每一图像区域中的目标点在所属图像中的坐标；按照初始区域特征的维度数量，对每一坐标分别进行位置编码，得到与初始区域特征具有相同维度数量的位置向量。

其中，初始区域特征是基于区域特征提取网络从图像中直接提取得到的特征。初始区域特征的维度与区域特征提取网络相对应。例如，区域特征提取网络所识别的图像区域的数量为k，k的取值为固定值，属于区域特征提取网络的超参，基于区域特征提取网络所提取的初始区域特征大小为k*D，D为特征维度，初始区域特征表示从图像中识别出的k个图像区域，并将每一个图像区域用D维的向量来表示。对于输入区域特征提取网络的任意图像，采用同一区域特征提取网络所输出的初始区域特征的特征大小相同，如特征大小均为k*D。

图像区域中的目标点可以是每一个图像区域中指定位置的点，通过目标点可以表征图像区域自身在所属图像中的位置，也可以区分不同图像区域在所属图像中的相对位置关系。图像区域中的目标点可以是图像区域的中心点，也可以是基于图像区域的轮廓点按照相应的逻辑计算得到的点。通过目标点在图像中的位置来表征图像区域在图像中的位置，能够有效简化位置信息的表达，在数据处理过程中，能够简化数据处理过程，提高数据处理效率。服务器基于中心点的坐标位置，得到位置向量，以便将位置信息嵌入至每一图像区域的区域特征，从而使得图像区域特征能够表征每一图像区域在相应图像中的位置。具体地，服务器按照初始区域特征的维度数量，对每一坐标分别进行位置编码，得到与初始区域特征具有相同维度数量的位置向量，从而将图像区域的位置向量嵌入至相应的区域特征。具体的，特征嵌入可以采用向量元素直接求和的方式实现，也可以采用向量联结的方式实现。

在一个具体地应用中，第一图像和第二图像为大小为C*H*W的图像I₁和I₂，将第一图像和第二图像输入Faster R-CNN模型，通过Faster R-CNN模型提取出k个区域特征，每个图像区域表示为D维特征向量，即两张图各自得到大小为k*D的区域特征，记作R₁和R₂。将R₁和R₂作为位置相关的区域对齐网络(Position-Aware Region Alignment Network，为便于表述，以下简称PARANet)的输入。对于R₁和R₂的每个图像区域的区域特征r，记图像区域的中心点在原图中的坐标为pos(x,y)，分别将x,y代入公式(1)，得到两个大小为1*D的位置向量PEx和PEy，将这两个位置向量与原区域特征相加，得到与该图像区域对应的嵌入了位置信息的区域特征r’。

其中，pos为中心点的位置坐标，D为特征维度数量，2i和2i+1为维度坐标，分别表示奇数和偶数。

按照处理上述过程，针对第一图像和第二图像，各自得到嵌入位置特征后的图像区域特征，记作R’₁和R’₂。

在本实施例中，通过图像区域中的目标点位置所对应的位置向量作为嵌入的位置特征，按照初始区域特征的维度数量，对每一坐标分别进行位置编码，实现位置向量的准确嵌入，从而准确表达每一个图像区域在所属图像中的位置信息，实现更丰富的特征表达，使得图像区域特征刻画了更为丰富的信息，从而提高图像语义相似度分析结果的准确性。

在一个实施例中，对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，包括：针对每一图像，获取与所针对图像的图像区域特征相匹配的通道放缩向量；将每一图像区域特征与匹配的通道放缩向量进行点乘处理，得到每一图像各自对应的增强区域特征。

其中，通道放缩向量是注意力机制中用于表征注意力的向量，通道放缩向量与图像区域特征相匹配。具体地，通道放缩向量可以基于图像区域特征按照特征维度进行拟合处理所得到的拟合向量来获得。其中，对图像区域特征按照特征维度所进行的拟合处理可以是通过均值计算来拟合或是通过标准差计算来拟合等。拟合向量是对图像区域特征进行压缩得到的结果，能够表征图像区域特征在每一个维度的分布情况。

具体地，服务器针对第一图像和第二图像分别进行相同的处理，分别得到与第一图像对应的第一增强区域特征以及与第二图像对应的第二增强区域特征，其中，对第一图像的图像区域特征进行特征增强的过程与对第二图像的图像区域特征进行特征增强的过程互不干扰，独立进行。以服务器针对第一图像的处理为例，服务器基于第一图像对应的第一图像区域特征，得到与第一图像区域特征相匹配的第一通道放缩向量，将第一图像区域特征与第一通道放缩向量进行点乘处理，得到第一图像对应的第一增强区域特征。同理，服务器针对第二图像进行相同的处理，得到与第二图像对应的第二增强区域特征。

在本实施例中，通过获取与图像区域特征相匹配的通道放缩向量，能够针对每一个图像对应的图像区域特征进行相应的特征增强，实现对不同图像的针对性处理，通过图像区域特征与匹配的通道放缩向量点乘处理，能够准确地进行特征增强表达，得到更为精准的增强区域特征。

在一个实施例中，针对每一图像，获取与所针对图像的图像区域特征相匹配的通道放缩向量，包括：针对每一图像，按照所针对图像的图像区域特征的特征维度，对相应的图像区域特征按特征维度进行均值处理，得到压缩向量；对压缩向量的线性变换和映射处理，得到通道放缩向量。

其中，压缩向量是对图像区域特征按照特征维度进行拟合处理所得到的结果，基于对压缩向量的线性变换和映射处理，可以得到通道放缩向量。线性变换是指通过线性变换矩阵对压缩向量进行数据变换的处理过程。映射处理是将线性变换结果映射到输出端的过程，映射处理可以通过激活函数来实现，例如Sigmoid函数和ReLU(Rectified LinearUnit，线性整流函数)函数中的任意一个函数或是两种函数的组合来实现，Sigmoid函数是一种激活函数，用于将变量映射到0,1之间，ReLU函数用于隐层神经元输出。

具体地，以服务器针对第一图像的处理为例，服务器按照第一图像的图像区域特征的特征维度，对相应的图像区域特征按特征维度进行均值处理，得到第一图像对应的第一压缩向量，服务器对第一压缩向量的线性变换和映射处理，得到与第一图像对应的第一通道放缩向量，同理，服务器针对第二图像进行相同的处理，得到与第二图像对应的第二通道放缩向量。

在一个具体的应用中，如图4所示，以服务器针对第一图像的图像区域特征进行特征增强为例，第一图像对应的嵌入有位置特征后的图像区域特征为R’₁，R’₁是一个大小为k*D的特征矩阵，其中，k为图像区域的数量，D为特征维度数量，每一个特征维度对应一个通道维度，对于每一个通道维度，需要计算出通道权重即压缩向量，用于对图像区域特征进行特征增强，通道权重的具体计算过程参见公式(2)；

其中，k是指图像区域特征的数量，c为通道维度，c的取值与图像区域特征的特征维度数相同。对于图像区域特征的每一个特征维度，均采用上述公式(2)计算得到相应的通道权重。例如，针对第一图像，在计算第一通道维度的通道权重时，基于第一图像中k个图像区域中每一个区域特征的第一维特征，通过取均值计算，计算得到的均值结果即为第一通道维度的通道权重，其他通道维度的通道权重与第一通道维度的通道权重的计算方法相同。由于区域特征的维度数量为D，则第一图像对应的通道权重可以构成维度为D*1的压缩向量z。

然后，服务器根据通道放缩向量计算公式即公式(3)，计算得到通道放缩向量s；

s＝σ(W₂δ(W₁z)) 公式(3)

其中，W₁，W₂是大小为D*D的线性变换矩阵，σ为Sigmoid函数，δ为ReLU激活函数，计算得到的通道放缩向量s的大小为D*1。

最后，服务器根据区域特征放缩公式，即公式(4)，将第一图像和第二图像各自对应的图像区域特征与相应图像的通道放缩向量进行点乘，得到更新后的第一增强区域特征R”₁和第二增强区域特征R”₂。

R”_i＝s*R’_i 公式(4)

在一个实施例中，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征，包括：将第一图像对应的增强区域特征与第二图像对应的增强区域特征进行联结，得到联结特征；基于注意力网络，对联结特征进行对齐处理，得到联结对齐特征；基于联结特征的联结方式，对联结对齐特征进行特征拆分，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征。

其中，特征的联结是指将两个特征矩阵或是特征向量进行拼接的过程。如图5所示，第一图像对应的第一对齐区域特征为k*D的特征矩阵，第二图像对应的第二对齐区域特征也为k*D的特征矩阵，则通过特征矩阵的联结，可以得到一个大小为2k*D的联结特征矩阵。特征联结与特征拆分是一个互逆的过程，联结对齐特征是对联结特征矩阵进行重组对齐后的结果，重组对齐是对特征的增强过程，并不会影响到特征矩阵的尺寸，因此联结特征矩阵和联结对齐特征矩阵均为2k*D的特征矩阵。基于联结特征的联结方式，对联结对齐特征进行特征拆分，具体可以是将2k*D的联结对齐特征矩阵拆分为两个k*D的对齐特征矩阵，以使得拆分后的特征矩阵的尺寸与联结前的增强区域特征的尺寸相等，并且分别与第一图像和第二图像相对应。

在本实施例中，通过进行特征的联结和拆分以及针对联结特征进行对齐处理，能够实现第一图像的增强区域特征与第二图像的增强区域特征之间的充分重组对齐，增强了第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征的信息丰富度，从而能够得到准确的图像语义相似度分析结果。

在一个实施例中，基于注意力网络，对联结特征进行对齐处理，得到联结对齐特征，包括：基于联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量；将输入特征向量和权重特征向量输入点积注意力网络进行对齐处理；点积注意力网络的输出数据为联结对齐特征。

其中，点积注意力网络可以是单头点积注意力网络，也可以是多头点积注意力网络，其实现的是查询(Query)到键值对(键Key-值Value)的映射，通过将联结对齐特征中的构成元素想象成是由<Key,Value>键值对构成，此时给定目标中的某个元素Query(查询)，计算Query和各个Key的相似性或者相关性，得到每个Key对应Value的权重系数，通过softmax归一化后，对权重和相应Value进行加权求和，即得到了最终更新结果。点积注意力网络是根据Query(Q)与Key之间的匹配度来对Value进行加权的神经网络，而Query,Key以及Value都来自于输入的联结特征，因此点积注意力网络本质上是对联结对齐特征中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数，实现对输入信息进行重组对齐。

具体地，点积注意力网络的计算公式如公式(5)所示；

其中，输入矩阵Q(Query)、K(Key)、V(Value)的矩阵大小相同，记为n*D，其中因子

指的是键向量维度的平方根，

起到调节作用，使得上方内积不至于太大，影响到softmax后的结果。

在本实施例中，服务器通过点积注意力网络进行对齐处理，基于点积注意力网络的网络结构，通过联结特征来得到输入特征向量以及计算注意力权重的权重特征向量，将输入特征向量和权重特征向量输入点积注意力网络进行对齐处理，基于点积注意力网络所输出的联结对齐特征，能够确保重组对齐得到的特征的信息丰富度，从而得到准确的图像语义相似度分析结果。

在一个实施例中，点积注意力网络为多头点积注意力网络；基于联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量，包括：获取多头点积注意力网络的降维投影矩阵和线性变换矩阵，其中，降维投影矩阵的矩阵行数或矩阵列数与多头点积注意力网络中注意力头的数量反相关，降维投影矩阵包括第一降维投影矩阵和第二降维投影矩阵；多头点积注意力网络的输入特征向量为联结特征与线性变换矩阵的乘积；多头点积注意力网络的权重特征向量，包括联结特征与第一降维投影矩阵的乘积以及联结特征与第二降维投影矩阵的乘积。

具体地，多头点积注意力网络与单头点积注意力网络不同，Query，Key，Value需要先进行线性变换，然后输入到放缩点积注意力函数attention，由于多头点积注意力网络包括多个注意力头，因此，需要针对每一个注意力头分别进行计算，各注意力头之间参数不共享，每次Q(Query)、K(Key)、V(Value)进行线性变换的参数是不一样的。然后将h次的基于放缩点积注意力函数得到的计算h个计算结果进行拼接，再进行一次线性变换得到的值作为多头点积注意力网络的结果。

在一个具体地应用中，服务器将第一图像对应的增强区域特征R”₁和第二图像对应的增强区域特征R”₂进行联结(concatenate)，得到一个大小为2k*D的特征张量，记为R”_c。服务器将R”_c经过多头点积注意力网络(Multihead dot-product attention)进行特征对齐，就得到同样大小的潜在对齐后的特征向量，记为R”’。

其中，多头点积注意力函数如公式(6)所示：

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O；

其中，

其中，输入矩阵Q、K、V大小相同，记为n*D。多头点积注意力函数MultiHead(Q，K，V)。其中输入矩阵Q、K、V大小相同，为n*D，h为注意力头(head)的数量，W_i ^Q，W_i ^K，都是维度为Dx(D/h)的矩阵，用于将输入Q，K投影到低维空间，

是维度为D*D的线性变换矩阵。

在本实施例中，服务器基于多头点积注意力函数对联结特征进行重组对齐处理，能够通过h次计算，在不同的表示子空间里学习到更复杂的信息，能够确保重组对齐得到的特征的信息丰富度，从而得到准确的图像语义相似度分析结果。

在一个实施例中，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到图像语义相似度分析结果，包括：分别对第一对齐区域特征和第二对齐区域特征进行均值池化处理，得到与第一对齐区域特征对应的第一池化特征以及与第二对齐区域特征对应的第二池化特征；计算第一池化特征和第二池化特征的余弦距离，得到第一图像与第二图像之间的图像语义相似度分析结果。

其中，均值池化是指对局部接受域中的所有值求均值。服务器按照特征的联结方式，将2k*D的联结对齐特征R”’重新拆分(split)成两个k*D的特征矩阵，分别为与第一图像对应的第一对齐区域特征R₁”’以及与第二图像对应的第二对齐区域特征R₂”’，针对第一对齐区域特征矩阵R₁”’和第二对齐区域特征矩阵R₂”’，分别将矩阵中包括的k个特征向量进行均值池化(Avg Pooling)，每张图各得到一个大小为1*D的特征向量:v₁＝AvgPool(R₁”’)，v₂＝AvgPool(R₂”’)。计算两张图的特征向量v₁和v₂的余弦距离，得到两张图片的全局相似度，即：

Distance(I₁,I₂)＝Cos(v₁,v₂) 公式(7)

在本实施例中，先通过对第一对齐区域特征和第二对齐区域特征分别按照特征维度进行均值池化处理，然后对均值池化得到的池化特征进行余弦距离计算，能够在保留信息丰富度的前提下，简化相似度计算的输入数据的表达，提高数据处理效率。

在一个实施例中，如图6所示，提供了一种同语义图像检索方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤602，以基准图像和候选图像分别为第一图像和第二图像，分别获取第一图像和第二图像各自对应的图像区域特征，图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置。

步骤604，对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征。

步骤606，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征。

步骤608，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，得到第一图像和第二图像之间的图像语义相似度分析结果。

步骤610，基于每一候选图像与基准图像之间的图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像。

其中，基准图像是指用于进行参照检索与其具有相同图像语义图像的对象，一般来说，在一次同语义图像检索任务中，基准图像的数量为1个。在不同的同语义图像检索任务中，基准图像可以不同。例如，在第一次图像检索时，用户从终端输入的基准图像为图像A，在第二次图像检索时，用户从终端输入的基准图像为图像B。候选图像服务器用于执行同语义检索任务的检索对象，候选图像的数量可以是一个，也可以是多个，候选图像可以是用户提供的图像，也可以是由服务器来确定的图像。需要说明的是，同语义图像检索过程中所采用的图像语义相似度分析方法的具体实现过程，可参见上述对于图像语义相似度分析方法进行描述的各实施例。

具体地，服务器首先确定基准图像对应的候选图像，针对每一候选图像，以基准图像和所针对的候选图像分别为第一图像和第二图像，其中，基准图像可以为第一图像也可以为第二图像，当基准图像为第一图像时，则所针对的候选图像为第二图像，当基准图像为第二图像时，则所针对的候选图像为第一图像，服务器分别提取第一图像和第二图像各自对应的初始区域特征，针对每一初始区域特征，基于所针对的初始区域特征所表征的各图像区域，确定每一图像区域中的目标点位置所构成的位置向量，将位置向量嵌入所针对的初始区域特征，分别得到第一图像和第二图像各自对应的图像区域特征，服务器对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，通过交叉注意力对各增强区域特征进行对齐处理，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征，基于第一对齐区域特征和第二对齐区域特征，对第一图像与第二图像进行语义相似度分析，所得到的图像语义相似度分析结果即为所针对的候选图像与基准图像之间的图像语义相似度。采用相同的方法，服务器可以分析得到每一候选图像分别与基准图像之间的图像语义相似度，服务器会基于图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像。图像语义相似度条件可以与基准图像所对应的应用场景相对应，例如图像语义相似度条件可以是同语义图像数量条件也可以是须达到的最小图像语义相似度。例如，在图像内容审核系统的应用场景中，图像语义相似度条件可以是图像语义相似度达到预设阈值，再例如，以图搜图搜索引擎的应用场景中，图像语义相似度条件可以是同语义图像最大的预设数量的图像。

上述同语义图像检索方法，以基准图像和候选图像分别为第一图像和第二图像，基于上述图像语义相似度分析方法，分别得到每一候选图像与基准图像之间的图像语义相似度，确保了图像语义相似度分析结果的准确性，基于图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像，从而得到确保同语义图像检索结果的准确性。

在一个实施例中，同语义图像检索方法，还包括：基于基准图像所对应的目标应用场景，确定与目标应用场景相对应图像语义相似度条件；图像语义相似度条件包括同语义图像数量条件、图像语义相似度阈值条件中的至少一种。

其中，基准图像所对应的目标应用场景可以图像检索任务的触发场景来确定，触发场景可以包括图像内容审核系统，电商场景下的推荐系统，以图搜图搜索引擎等。通过基准图像所对应的目标应用场景，确定与目标应用场景相对应图像语义相似度条件，能够实现不同场景下的个性化处理，扩大同语义图像检索方法的应用范围。

在一个实施例中，如图7所示，提供了一种图像语义相似度分析方法在同语义图像检索场景下的应用，包括以下步骤：

步骤702，以基准图像和候选图像分别为第一图像和第二图像，分别提取第一图像和第二图像的初始区域特征。

步骤704，针对每一初始区域特征，基于所针对的初始区域特征所表征的每一图像区域，分别确定每一图像区域中的目标点在所属图像中的坐标。

步骤706，按照初始区域特征的维度数量，对每一坐标分别进行位置编码，得到与初始区域特征具有相同维度数量的位置向量。

步骤708，将位置向量嵌入所针对的初始区域特征，分别得到第一图像和第二图像各自对应的图像区域特征。

步骤710，针对每一图像，按照所针对图像的图像区域特征的特征维度，对相应的图像区域特征按特征维度进行均值处理，得到压缩向量。

步骤712，对压缩向量进行线性变换和映射处理，得到通道放缩向量。

步骤714，将每一图像区域特征与匹配的通道放缩向量进行点乘处理，得到每一图像各自对应的增强区域特征。

步骤716，将第一图像对应的增强区域特征与第二图像对应的增强区域特征进行联结，得到联结特征。

步骤718，基于联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量。

其中，获取多头点积注意力网络的降维投影矩阵和线性变换矩阵，其中，降维投影矩阵的矩阵行数或矩阵列数与多头点积注意力网络中注意力头的数量反相关，降维投影矩阵包括第一降维投影矩阵和第二降维投影矩阵；多头点积注意力网络的输入特征向量为联结特征与线性变换矩阵的乘积；多头点积注意力网络的权重特征向量，包括联结特征与第一降维投影矩阵的乘积以及联结特征与第二降维投影矩阵的乘积。

步骤720，将输入特征向量和权重特征向量输入点积注意力网络进行对齐处理；点积注意力网络的输出数据为联结对齐特征。

步骤722，基于联结特征的联结方式，对联结对齐特征进行特征拆分，得到第一图像对应的第一对齐区域特征以及第二图像对应的第二对齐区域特征。

步骤724，分别对第一对齐区域特征和第二对齐区域特征进行均值池化处理，得到与第一对齐区域特征对应的第一池化特征以及与第二对齐区域特征对应的第二池化特征。

步骤726，计算第一池化特征和第二池化特征的余弦距离，得到第一图像与第二图像之间的图像语义相似度分析结果。

步骤728，基于基准图像所对应的目标应用场景，确定与目标应用场景相对应图像语义相似度条件。

步骤730，基于每一候选图像与基准图像之间的图像语义相似度，从候选图像中筛选出符合图像语义相似度条件的目标图像作为基准图像的同语义图像。

本申请还提供一种应用场景，该应用场景应用上述的图像语义相似度分析方法。具体地，图像语义相似度分析方法在同语义图像检索场景下的应用如下：

同语义图像检索任务是给定一张图片，从数据库中搜索出和这张图片语义最相近(而外观不一定相近)的图片。传统的图像检索方法往往致力于寻找外观上最相近的图片，当图片中的语义较为简单时(如只有单一前景物体)，有一定的效果，但当图片中的语义较为复杂时(如出现多个人或物体的交互)，传统方法并不能很好地解决。本申请中提出一种应用基于图像语义相似度分析方法的基于区域交叉注意力的图像匹配模型，能够更为精确地计算图像相似度，提升同语义图像检索任务上的效果。基于区域交叉注意力的图像匹配模型，可广泛适用于多种常见的应用场景，如:图像内容审核系统，电商场景下的推荐系统，以图搜图搜索引擎等。

以同语义图像检索任务为指给定一张图片，从数据库中检索出和这张图片语义最相近的图片为例。任务的输入为一张作为查询基准的查询图像(query)，输出的检索结果为数据库中的多张候选图像中与查询图像语义最相似的k张图像。

图像检索任务一般分为两步。第一步，计算查询图像与数据库中所有图像的相似度；第二步，将相似度由高到低排序，返回最相似的前k张图像。而影响图像检索任务效果最关键的步骤在于图像相似度的计算是否足够合理与精确。

本申请提出一种针对同语义图像检索任务设计的创新模型:位置相关的区域对齐网络(Position-Aware Region Alignment Network,下文简称PARANet)，该模型设计了1)引入经过通道注意力调整权重并嵌入了位置编码的区域特征表达2)在上述区域特征表达之上通过交叉注意力计算潜在对齐，能够更为准确地计算图像之间的语义相似度，从而提高同语义图像检索任务的效果。

对于同语义图像检索任务，图像检索任务的流程为：首先计算出查询图像与数据库中所有图像的相似度，然后将相似度由大到小排序，输出前k张图像。而本申请相较与传统的检索方法，关键在于提出了一个用于计算图像相似度的模型：PARANet，其结构如图8所示:选用Faster R-CN作为躯干网络用以提取视觉特征。对于任意一张候选图像，将其与基准图像一起，作为给定的两张图像，服务器针对这两张图像分析其图像语义相似度，具体地，服务器首先使用Faster R-CNN提取图像区域特征，然后将提取出的区域特征作为PARANet网络的输入，PARANet网络的输出即为这两张图像的语义相似度值。

下面具体介绍模型内部构造及从输入到输出的运算过程：

首先，针对两张大小为C x H x W的图像I₁和I₂，经过Faster R-CNN，提取出k个图像区域特征，每个区域表示为D维特征向量，即两张图各自得到大小为k*D的区域特征，记作R₁和R₂。将R₁和R₂作为PARANet网络的输入。

第一步，嵌入位置信息:

对于R₁和R₂的每个区域特征r，记其中心点在原图中的坐标为(x,y)，分别将x,y代入公式(8)，得到两个大小为1*D的位置向量PEx和PEy。将这两条位置向量与原区域特征相加，得到嵌入了位置信息的区域特征r’。

公式(8)位置编码公式

其中，pos为位置坐标，i为维度坐标，D为特征维度大小。按照上述过程，针对两张图各自得到嵌入位置后的区域特征张量，记作R’₁和R’₂。

第二步，通道注意力增强特征:

将两张图的区域特征张量R’₁和R’₂各自使用通道注意力模型进行增强，具体计算过程如下：首先根据公式(9)计算出图像的压缩向量z。

公式(9)压缩向量计算公式

其中，z的维度为D*1，c为通道维度下标。

然后根据公式(10)计算得到通道放缩向量s，(维度为D*1)。，其中W₁，W₂为大小为D*D的线性变换矩阵，σ为Sigmoid函数，δ为ReLU激活函数。

s＝σ(W₂δ(W₁z))

公式(10)通道放缩向量计算公式

最后根据公式(11)，将每个区域特征与通道放缩向量点乘，得到更新后的区域特征R”₁和R”₂。

R”_i＝s*R’_i

公式(11)区域特征放缩公式

第三步，通过交叉注意力进行潜在对齐:

根据公式(12)定义放缩点积注意力函数Attention(Q,K,V)，其中输入矩阵Q、K、V大小相同，记为n*D。根据公式(13)定义多头点积注意力函数MultiHead(Q,K,V)。其中输入矩阵Q、K、V大小相同，为n*D，h为注意力头(head)的数量，W_i ^Q，W_i ^K，都是维度为Dx(D/h)的矩阵，用于将输入Q，K投影到低维空间，

是维度为D*D的线性变换矩阵。

MultiHead(Q,K,V)＝Concat(head₁,…,head_h)W^O

公式(13)多头点积注意力函数

将两张图片的特征R”₁和R”₂联结(concatenate)，得到一个大小为2k*D的特征张量，记为R”_c。将R”_c经过多头点积注意力层(Multihead dot-product attention)进行对齐，就得到同样大小的潜在对齐后的特征向量，记为R”’。即，

R”’＝Multihead(R”_c，R”_c，R”_c)。

第四步，计算全局相似度:

将2k*D的张量R”’重新拆分(split)成两个k*D的特征张量R₁”’和R₂”’，两张图各自将k个特征向量做Avg Pooling，每张图各得到一个大小为1*D的特征向量:v₁＝AvgPool(R₁”’)，v₂＝AvgPool(R₂”’)。计算两张图的特征向量v₁和v₂的余弦距离，得到两张图片的全局相似度，即Distance(I₁,I₂)＝Cos(v₁,v₂)。PARANet网络的输出即为Distance(I₁,I₂)。

其中，PARANet网络的训练过程中数据的处理流程与应用过程中的数据处理过程相同，具体可以参考上述图像语义相似度分析方法各实施例中的数据处理过程，在此不再赘述。PARANet网络在训练过程中的样本构成、采用方式以及损失函数如下：

样本构成:数据集由N张图片构成，每张图片与剩余N-1张中的若干张图片互为图像检索任务的正样本。

批采样方式：每次训练迭代时，从训练数据中均匀随机采样一个包含2K张图片的批(Batch)，其中有K对互为正样本的图片。

损失函数:训练时的损失函数采用Bidirectional in-batch Sampled SoftmaxLoss。将一批(Batch)中的每对图片提取出的特征记作(l_i,r_i)，则损失函数如公式14所示:

公式(14)Bidirectional in-batch Sampled Softmax Loss公式

其中S(·)指点积函数。训练方式:使用Adam(自适应矩估计优化器)作为模型参数优化器，在训练集上,采用小批量梯度下降法，通过最小化损失函数来优化目标模型。学习率衰减策略采用的是固定步长衰减策略，每隔固定的epoch，学习率缩小λ倍(λ＝10)。

应该理解的是，虽然上述各实施例中的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述各实施例中的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图9所示，提供了一种图像语义相似度分析装置900，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括：图像区域特征获取模块902、区域特征增强模块904、区域特征对齐模块906和相似度分析模块908，其中：

图像区域特征获取模块902，用于分别获取第一图像和第二图像各自对应的图像区域特征，所述图像区域特征用于表征相应图像中的每一图像区域以及每一图像区域在相应图像中的位置。

区域特征增强模块904，用于对各图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征。

区域特征对齐模块906，用于通过交叉注意力对各所述增强区域特征进行对齐处理，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征。

相似度分析模块908，用于基于所述第一对齐区域特征和所述第二对齐区域特征，对所述第一图像与所述第二图像进行语义相似度分析，得到图像语义相似度分析结果。

在一个实施例中，所述图像区域特征获取模块包括初始区域特征提取模块，位置向量获取模块以及向量嵌入模块，其中：

所述初始区域特征提取模块，用于分别提取第一图像和第二图像的初始区域特征；

所述位置向量获取模块，用于针对每一初始区域特征，基于所针对的初始区域特征所表征的各图像区域，确定每一图像区域中的目标点位置所构成的位置向量；

所述向量嵌入模块，用于将所述位置向量嵌入所针对的初始区域特征，分别得到所述第一图像和所述第二图像各自对应的图像区域特征。

在一个实施例中，所述位置向量获取模块，还用于基于所述初始区域特征所表征的每一图像区域，分别确定每一图像区域中的目标点在所属图像中的坐标；按照所述初始区域特征的维度数量，对每一所述坐标分别进行位置编码，得到与所述初始区域特征具有相同维度数量的位置向量。

在一个实施例中，所述区域特征增强模块包括通道放缩向量获取模块和点乘处理模块，其中：

所述通道放缩向量获取模块，用于针对每一图像，获取与所针对图像的图像区域特征相匹配的通道放缩向量；

所述点乘处理模块，用于将所述每一图像区域特征与匹配的通道放缩向量进行点乘处理，得到每一图像各自对应的增强区域特征。

在一个实施例中，所述通道放缩向量获取模块，还用于针对每一图像，按照所针对图像的图像区域特征的特征维度，对相应的图像区域特征按特征维度进行均值处理，得到压缩向量；对所述压缩向量进行线性变换和映射处理，得到通道放缩向量。

在一个实施例中，所述区域特征对齐模块包括联结模块、特征对齐模块以及拆分模块，其中：

所述联结模块，用于将所述第一图像对应的增强区域特征与所述第二图像对应的增强区域特征进行联结，得到联结特征；

所述特征对齐模块，用于基于注意力网络，对所述联结特征进行对齐处理，得到联结对齐特征；

所述拆分模块，用于基于所述联结特征的联结方式，对所述联结对齐特征进行特征拆分，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征。

在一个实施例中，所述特征对齐模块，还用于基于所述联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量；将所述输入特征，向量和所述权重特征向量输入所述点积注意力网络进行对齐处理；所述点积注意力网络的输出数据为联结对齐特征。

在一个实施例中，所述点积注意力网络为多头点积注意力网络；特征对齐模块，还用于获取所述多头点积注意力网络的降维投影矩阵和线性变换矩阵，其中，所述降维投影矩阵的矩阵行数或矩阵列数与所述多头点积注意力网络中注意力头的数量反相关，所述降维投影矩阵包括第一降维投影矩阵和第二降维投影矩阵；其中，所述多头点积注意力网络的输入特征向量为所述联结特征与所述线性变换矩阵的乘积；所述多头点积注意力网络的权重特征向量，包括所述联结特征与所述第一降维投影矩阵的乘积以及所述联结特征与所述第二降维投影矩阵的乘积。

在一个实施例中，所述相似度分析模块，还用于分别对所述第一对齐区域特征和所述第二对齐区域特征进行均值池化处理，得到与所述第一对齐区域特征对应的第一池化特征以及与所述第二对齐区域特征对应的第二池化特征；计算所述第一池化特征和所述第二池化特征的余弦距离，得到所述第一图像与所述第二图像之间的图像语义相似度分析结果。

在一个实施例中，如图10所示，提供了一种同语义图像检索装置1000，该装置可以采用软件模块或硬件模块，或者是二者的结合成为计算机设备的一部分，该装置具体包括图像语义相似度分析模块1002和同语义图像筛选模块1004，其中：

图像语义相似度分析模块1002，用于以基准图像和候选图像分别为第一图像和第二图像，基于上述各实施例中的图像语义相似度分析装置，分别得到各所述候选图像与所述基准图像之间的图像语义相似度；

同语义图像筛选模块1004，用于基于所述图像语义相似度，从所述候选图像筛选出符合图像语义相似度条件的目标图像作为所述基准图像的同语义图像。

在一个实施例中，同语义图像检索装置还包括筛选条件确定模块，用于基于所述基准图像所对应的目标应用场景，确定与所述目标应用场景相对应图像语义相似度条件；所述图像语义相似度条件包括同语义图像数量条件、图像语义相似度阈值条件中的至少一种。

关于图像语义相似度分析装置和同语义图像检索装置的具体实施例可以参见上文中对于图像语义相似度分析方法和同语义图像检索方法的实施例，在此不再赘述。上述图像语义相似度分析装置和同语义图像检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一图像和第二图像的语义相似度分析结果。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像语义相似度分析方法和同语义图像检索方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像语义相似度分析方法，其特征在于，所述方法包括：

对各所述图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征；

2.根据权利要求1所述的方法，其特征在于，所述分别获取第一图像和第二图像各自对应的图像区域特征，包括：

分别提取第一图像和第二图像的初始区域特征；

针对每一初始区域特征，基于所针对的初始区域特征所表征的各图像区域，确定每一图像区域中的目标点位置所构成的位置向量；

将所述位置向量嵌入所针对的初始区域特征，分别得到所述第一图像和所述第二图像各自对应的图像区域特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所针对的初始区域特征所表征的各图像区域，确定每一图像区域中的目标点位置所构成的位置向量，包括：

基于所述初始区域特征所表征的每一图像区域，分别确定每一图像区域中的目标点在所属图像中的坐标；

按照所述初始区域特征的维度数量，对每一所述坐标分别进行位置编码，得到与所述初始区域特征具有相同维度数量的位置向量。

4.根据权利要求1所述的方法，其特征在于，所述对各所述图像区域特征分别进行通道注意力增强处理，得到各图像区域特征各自对应的增强区域特征，包括：

针对每一图像，获取与所针对图像的图像区域特征相匹配的通道放缩向量；

将所述每一图像区域特征与匹配的通道放缩向量进行点乘处理，得到每一图像各自对应的增强区域特征。

5.根据权利要求4所述的方法，其特征在于，所述针对每一图像，获取与所针对图像的图像区域特征相匹配的通道放缩向量，包括：

针对每一图像，按照所针对图像的图像区域特征的特征维度，对相应的图像区域特征按特征维度进行均值处理，得到压缩向量；

对所述压缩向量进行线性变换和映射处理，得到通道放缩向量。

6.根据权利要求1所述的方法，其特征在于，所述通过交叉注意力对各所述增强区域特征进行对齐处理，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征，包括：

将所述第一图像对应的增强区域特征与所述第二图像对应的增强区域特征进行联结，得到联结特征；

基于注意力网络，对所述联结特征进行对齐处理，得到联结对齐特征；

基于所述联结特征的联结方式，对所述联结对齐特征进行特征拆分，得到所述第一图像对应的第一对齐区域特征以及所述第二图像对应的第二对齐区域特征。

7.根据权利要求6所述的方法，其特征在于，所述基于注意力网络，对所述联结特征进行对齐处理，得到联结对齐特征，包括：

基于所述联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量；

将所述输入特征向量和所述权重特征向量输入所述点积注意力网络进行对齐处理；所述点积注意力网络的输出数据为联结对齐特征。

8.根据权利要求7所述的方法，其特征在于，所述点积注意力网络为多头点积注意力网络；

所述基于所述联结特征，确定点积注意力网络的输入特征向量以及计算注意力权重的权重特征向量，包括：

获取所述多头点积注意力网络的降维投影矩阵和线性变换矩阵，其中，所述降维投影矩阵的矩阵行数或矩阵列数与所述多头点积注意力网络中注意力头的数量反相关，所述降维投影矩阵包括第一降维投影矩阵和第二降维投影矩阵；

所述多头点积注意力网络的输入特征向量为所述联结特征与所述线性变换矩阵的乘积；

所述多头点积注意力网络的权重特征向量，包括所述联结特征与所述第一降维投影矩阵的乘积以及所述联结特征与所述第二降维投影矩阵的乘积。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述基于所述第一对齐区域特征和所述第二对齐区域特征，对所述第一图像与所述第二图像进行语义相似度分析，得到图像语义相似度分析结果，包括：

分别对所述第一对齐区域特征和所述第二对齐区域特征进行均值池化处理，得到与所述第一对齐区域特征对应的第一池化特征以及与所述第二对齐区域特征对应的第二池化特征；

计算所述第一池化特征和所述第二池化特征的余弦距离，得到所述第一图像与所述第二图像之间的图像语义相似度分析结果。

10.一种同语义图像检索方法，其特征在于，所述方法包括：

以基准图像和候选图像分别为第一图像和第二图像，基于如权利要求1至9中任一项所述的图像语义相似度分析方法，分别得到各所述候选图像与所述基准图像之间的图像语义相似度；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

基于所述基准图像所对应的目标应用场景，确定与所述目标应用场景相对应图像语义相似度条件；

所述图像语义相似度条件包括同语义图像数量条件、图像语义相似度阈值条件中的至少一种。

12.一种图像语义相似度分析装置，其特征在于，所述装置包括：

13.一种同语义图像检索装置，其特征在于，所述装置包括：

图像语义相似度分析模块，用于以基准图像和候选图像分别为第一图像和第二图像，基于如权利要求12所述的图像语义相似度分析装置，分别得到各所述候选图像与所述基准图像之间的图像语义相似度；

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

16.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。