CN116361502A

CN116361502A - 一种图像检索方法、装置、计算机设备及存储介质

Info

Publication number: CN116361502A
Application number: CN202310627353.3A
Authority: CN
Inventors: 黄婷婷; 周星
Original assignee: Shenzhen Rabbit Exhibition Intelligent Technology Co ltd
Current assignee: Shenzhen Rabbit Exhibition Intelligent Technology Co ltd
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-06-30
Anticipated expiration: 2043-05-31
Also published as: CN116361502B

Abstract

本发明公开了一种图像检索方法、装置、计算机设备及存储介质，其中，方法包括：获取终端设备发送的待检索图像和多个标准历史图像；计算待检索图像的元素关系图，并基于元素关系图提取待检索图像的图特征；提取待检索图像的风格特征，并对图特征和风格特征进行融合，得到待检索图像的融合特征；将待检索图像的融合特征与标准历史图像的标准特征进行相似度计算，得到标准历史图像的相似度，并依据标准历史图像的相似度向终端设备推送待检索图像的检索结果；本发明可以实现元素细节特征和图像整体风格特征的有效融合，能够提升对原始图像特征的提取能力，从而得到更为准确的原始图像的特征，进而提高图像检索结果的准确率。

Description

一种图像检索方法、装置、计算机设备及存储介质

技术领域

本发明涉及图像数据处理技术领域，尤其是一种图像检索方法、装置、计算机设备及存储介质。

背景技术

为了方便用户制作线上文件，各类型的文件制作软件应运而生，如演示文稿(Power point，PPT)、H5、Flash软件和视频文件等。用户在使用这些软件制作线上文件时，需要搜索合适图像进行制作，以提高文件的展示效果。

现有技术中，服务器在接收到用户通过搜索引擎中输入的兴趣对象之后，会在图形数据库中检索包含该兴趣对象的所有图像，再将这些包括与兴趣对象相关的所有图像推送给用户，例如，用户在搜索引擎中输入兴趣对象：月亮，则服务器将会拉去包含月亮的所有图像推送给用户。但该类图像搜索方式较为简单，使得搜索出的图像杂乱无章，图像检索结果不够准确。

发明内容

本发明提供一种图像检索方法、装置、计算机设备及存储介质，以解决现有图像检索方法较为简单，导致图像检索结果不够准确的问题。

提供一种图像检索方法，包括：

获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征；

对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图；

基于元素关系图进行图特征提取，得到待检索图像的图特征；

对待检索图像进行风格特征提取，得到待检索图像的风格特征，并对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；

将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。

可选地，对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征，包括：

对待检索图像进行文本识别，确定待检索图像是否存在文本信息；

若待检索图像存在文本信息，则对待检索图像的文本信息进行语义特征提取，得到待检索图像的文本语义特征；

对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。

可选地，确定待检索图像是否存在文本信息之后，该方法还包括：

若待检索图像不存在文本信息，则向终端设备发送待检索图像的检索文本信息输入提示，并获取用户通过终端设备输入的待检索图像的检索文本信息；

对检索文本信息进行语义特征提取，得到待检索图像的文本语义特征；

可选地，对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征，包括：

确定文本语义特征的权重，并确定图特征的权重和风格特征的权重；

根据对应的权重，对文本语义特征、图特征和风格特征进行加权求和，得到待检索图像的融合特征。

可选地，确定文本语义特征的权重，包括：

当待检索图像存在文本信息时，则确定文本语义特征的权重为第一权重；

当待检索图像不存在文本信息时，则确定文本语义特征的权重为第二权重，第二权重大于第一权重。

可选地，对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，包括：

对待检索图像进行组成元素识别，得到待检索图像的多个组成元素和各组成元素的位置；

将待检索图像中组成元素所在区域分割为元素节点区域，得到多个元素节点区域；

依据多个组成元素的位置对多个元素节点区域进行元素构图，得到待检索图像的元素关系图。

可选地，基于元素关系图进行图特征提取，得到待检索图像的图特征，包括：

确定元素关系图中的多个元素节点区域，以及各元素节点区域之间的连接边；

对元素关系图中相邻两元素节点区域间的连接边进行特征提取，得到多个元素边特征；

对元素节点区域中的组成元素进行特征提取，得到多个元素节点特征，元素节点特征包括主题特征和形状特征；

依据元素节点区域在元素关系图中的坐标位置对元素节点区域进行空间关系特征提取，得到多个空间关系特征；

将多个元素边特征、多个元素节点特征和多个空间关系特征，作为待检索图像的图特征。

提供一种图像检索装置，包括：

获取模块，用于获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征；

构建模块，用于对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图；

提取模块，用于基于元素关系图进行图特征提取，得到待检索图像的图特征；

融合模块，用于对待检索图像进行风格特征提取，得到待检索图像的风格特征，并对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；

计算模块，用于将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。

提供一种计算机设备，包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述图像检索方法的步骤。

提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现如上述图像检索方法的步骤。

上述图像检索法、装置、计算机设备及存储介质所提供的一个技术方案中，通过获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征；对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，并基于元素关系图进行图特征提取，得到待检索图像的图特征；对待检索图像进行风格特征提取，得到待检索图像的风格特征，并对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果；本发明实施例通过建立待检索图像中各组成元素的空间关系图，然后基于元素关系图进行图特征提取，能够提升对原始图像特征的提取能力，再对待检索图像的图特征和风格特征进行融合，可以实现元素细节特征和图像整体风格特征的有效融合，从而得到更为准确的原始图像的特征，进而提高图像检索结果的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中图像检索方法的应用环境示意图；

图2是本发明一实施例中图像检索方法的一流程示意图；

图3是图2中步骤S20的一实现流程示意图；

图4是图2中步骤S40的一实现流程示意图；

图5是图2中步骤S40的另一实现流程示意图；

图6是本发明一实施例中图像检索装置的一结构示意图；

图7是本发明一实施例中计算机设备的一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的图像检索方法，可应用在如图1所示的应用场景中，终端设备通过网络与服务器进行通信。当需要进行图像检索时，用户通过终端设备输入待检索图像，终端设备发送待检索图像至服务器；服务器获取终端设备发送的待检索图像后，获取图像数据库中的所有标准历史图像，即获取多个标准历史图像，其中，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征。然后服务器对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，并基于元素关系图进行图特征提取，得到待检索图像的图特征；再对待检索图像进行风格特征提取，得到待检索图像的风格特征；进而，服务器对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；最后，服务器将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。本实施例中，通过建立待检索图像中各组成元素的空间关系图，然后基于元素关系图进行图特征提取，能够提升对原始图像特征的提取能力，再对待检索图像的图特征和风格特征进行融合，可以实现元素细节特征和图像总体风格特征的有效融合，从而得到更为准确的原始图像的特征，进而提高图像检索结果的准确率。

其中，终端设备装置可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑等设备；服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种图像检索方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10：获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像。

当用户需要进行图像检索时，例如用户在通过编辑器制作H5页面、海报和活动页面时，需要在对应编辑页面上添加或者替换合适图像，但编辑平台未存在该图像或者图像数据库图像过多，难以查找到满意的图像，此时，用户需要以某一图像（待检索图像）为锚点，搜索与待检索图像相似的图像，或者搜索该待检索图像的原始图像。因此，当用户需要进行图像检索时，用户需要通过终端设备输入待检索图像，终端设备发送的待检索图像值至服务器，服务器获取终端设备发送的待检索图像，并在获取终端设备发送的待检索图像后，获取图像数据库的多个标准历史图像。

其中，图像数据库存储有多个标准历史图像，每一标准历史图像均对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征。在获取终端设备发送的待检索图像之前，需要获取大量数量的标准历史图像，然后对标准历史图像进行特征计算，得到标准历史图像的图特征和风格特征，然后对图特征和风格特征进行融合，得到标准历史图像的融合特征，并将标准历史图像与其融合特征以一一对应的方式存储在图像数据库，以便后续直接调用。

其中，标准特征的获取方式可以是：对标准历史图像进行组成元素关系计算，得到标准历史图像的元素关系图，并基于标准历史图像的元素关系图进行图特征提取，得到标准历史图像的图特征对标准历史图像进行风格特征提取，得到标准历史图像的风格特征，并对标准历史图像的图特征和风格特征进行特征融合，得到标准历史图像的标准特征。标准特征的获取过程与后续待检索图像的融合特征的具体过程一致。通过建立标准历史图像中各组成元素的空间关系图，然后基于元素关系图进行图特征提取，再对标准历史图像的图特征和风格特征进行融合，可以实现元素细节特征和图像整体风格特征的有效融合，能够提升对原始图像特征的提取能力，使得获得的标准特征能够更为准确地描述标准历史图像的原始图像情况，为后续计算提供准确的数据基础。

在一实施例中，标准历史图像为对历史图像进行标准预处理后的图像，标准预处理包括图像增强和图像复原。图像在成像、采集、传输、复制等过程中图像的质量会有一定的退化，数字化后的图像视觉效果不佳。为了突出图像使图像的主体结构更加明确，需要对图像进行图像增强处理。通过图像增强减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数，从而提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。此外，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复，即图像复原。图像复原主要采用滤波方法，使得滤波过后的图像恢复至原始图。通过对历史图像进行标准预处理得到标准历史图像，能够提高标准历史图像的质量，便于后续能够提取得到准确的图特征和风格特征，进而提高标准特征的准确性。对应地，在获取待检索图像后，对待检索图像的组成元素进行空间关系构建之前，也需要对待检索图像进行标准预处理，以提高待检索图像的兔展质量，从而便于后续提取到准确性的图特征和风格特征。

S20：对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图。

在获取待检索图像之后，服务器需要对待检索图像进行组成元素识别，然后基于组成元素识别结果对待检索图像的组成元素进行空间关系构建，得到待检索图像中各组成元素之间的空间关系图，即待检索图像的元素关系图。其中，图像的组成元素包括构成该图像的图形和图案。

S30：基于元素关系图进行图特征提取，得到待检索图像的图特征。

在得到待检索图像的元素关系图之后，服务器需要基于待检索图像的元素关系图进行图特征提取，得到待检索图像的图特征。其中，图特征包括图像的形状特征和空间关系特征，通过对图像中组成元素的形状和空间关系进行描述，得到图像的图特征，可以提高图特征的准确性。

在其他实施例中，图像的图特征还包括颜色特征和/或纹理特征等，通过形状特征、空间关系特征、颜色特征和/或纹理特征等多维度特征描述原始图像，进一步提高了图特征对图像的描述能力，即进一步提高了图特征的准确性。

S40：对待检索图像进行风格特征提取，得到待检索图像的风格特征。

不同图像具有不同的图像风格，如不同节日、节气等，图像的背景、色调不同，导致图像风格不同；或者应用在不用的行业，其使用的组成元素、展示的风格不同，例如金融行业与教育行业使用的图案元素不同导致图像风格不同；再如，不同设计师设计风格不同，比如一些设计师喜欢圆润的图案线条、一些设计师喜欢锐化的图案线条，从而导致图像风格不同。

在获取待检索图像之后，服务器还需要对待检索图像进行风格特征提取，得到待检索图像的风格特征。其中，可以使用预先训练好的风格识别模型对待检索图像进行风格特征提取，将待检索图像直接输入风格识别模型进行风格特征提取，即可得到待检索图像的风格特征。本实施例中，风格识别模型的训练样本库为前述的图像库，通过多个历史标准图像进行深度学习训练得到风格识别模型，可以提高风格识别模型的精度，从而得到准确的风格特征。

在其他实施例中，若待检索图像为本服务器生成的图像，还可以对待检索图像进行风格埋点数据提取，得到待检索图像的风格埋点数据，然后对该风格埋点数据进行解析，得到待检索图像的风格类型，然后再服务器中查找该风格类型对应的风格特征，作为待检索图像的风格特征。当进行风格特征提取，用户通过本服务器对生成待检索图像时，可以依据用户指示或风格模型的风格识别结果对该图像进行风格埋点，得到携带有风格埋点数据的待检索图像。服务器预先存储有不同风格类型对应的风格特征，以便后续已经风格类型直接查找对应的风格特征，简单快捷，减少数据处理量，降低服务器负载并提高响应速度。

本实施例中，一个图像可以对应一个或者多个风格类型，则图像的风格特征对应有一个或者多个风格特征。

S50：对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征。

在得到待检索图像的图特征和待检索图像的风格特征之后，服务器需要对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征。

其中，特征融合方式可以是：将风格特征转换为基于注意力机制的多个权重，其中，可以采用激活函数对风格特征进行激活，得到基于注意力机制的多个权重；然后将多个权重赋予至图特征的各个特征点（即像素值），得到待检索图像的融合特征。将风格特征转换为注意力机制的权重，将各权重赋予至图特征的各个特征点，使得图像的特征增强，从而实现对图特征和风格特征的有效融合，基于注意力机制的融合方式，使得图像的融合特征能够更加准确的描述原始图像。

本实施例中，采用的激活函数可以是饱和激活函数和非饱和激活函数。其中，饱和激活函数包括sigmoid和tanh；非饱和激活函数包括ReLU（Rectified Linear Unit，修正线性单元）、Leaky ReLU、PReLU（参数化的ReLU）、RReLU（随机ReLU）。为解决激活函数激活风格特征过程中的梯度消失问题，提高输出数据的准确性，并提高收敛速度，本实施例中，采用的激活函数可以是非饱和激活函数。

在其他实施例中，特征融合方式还可以是：获取图特征的权重和风格特征的权重，其中，图特征的权重大于或者等于风格特征权重；然后依据图特征的权重和风格特征的权重，对待检索图像的图特征和风格特征进行加权求和，得到待检索图像的融合特征，简单方便且加重图特征，从而得到准确的融合特征。

S60：将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。

在对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征之后，服务器需要将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度。

在得到每一标准历史图像的相似度之后，服务器会依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。例如，服务器可以依据每一标准历史图像的相似度对多个标准历史图像进行降序排序，得到图像排序数据，然后将该图像排序数据作为待检索图像的检索结果推送至终端设备，以便用户浏览并选取合适的图像，该方式可以提高检索结果的多样性，增加用户选择。

在其他实施例中，服务器还可以依据每一标准历史图像的相似度，筛选出相似度大于预设相似度的标准历史图像，记为待推荐图像，然后依据待推荐图像的相似度对多个待推荐图像进行降序排序，得到图像排序数据，然后将该图像排序数据作为待检索图像的检索结果推送至终端设备，以便用户浏览并选取合适的图像，该方式可以减少终端界面的数据接受量，减少负载。

本实施例中，通过获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征；对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，并基于元素关系图进行图特征提取，得到待检索图像的图特征；对待检索图像进行风格特征提取，得到待检索图像的风格特征；对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。通过建立待检索图像中各组成元素的空间关系图，然后基于元素关系图进行图特征提取，能够提升对原始图像特征的提取能力，再对待检索图像的图特征和风格特征进行融合，可以实现元素细节特征和图像整体风格特征的有效融合，从而得到更为准确的原始图像的特征，为后续的图像相似度计算提供了准确的数据基础，进而提高图像检索结果的准确率。

在一实施例中，如图3所示，步骤S20中，即对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，具体包括如下步骤：

S21：对待检索图像进行组成元素识别，得到待检索图像的多个组成元素和各组成元素的位置。

在获取待检索图像后，服务器通过预设元素识别模型对待检索图像进行组成元素识别，得到待检索图像的多个组成元素，以及各组成元素在待检索图像中的位置，即各组成元素的位置。

其中，图像的组成元素指的是构成该图像的图形和图案。图像的组成元素可以是图像中的文字（包括中文和英文的文字）、符号（包括标点符号、音符和单个字母等）和图案（包括人、动植物、自然景观、日常用品和虚拟图等图案）。通过对图像中对组成元素进行细分，能够得到图像更多的组成元素，从而提高了元素关系图的描述精度，进而提高了图特征的准确性。本实施例中，当待检索图像或标准历史图像为仅存在单一组成元素的图像时，如单一动物的图像、单一人物（人脸）的图像、单一植物的图像，单一物品的图像，支持对该单一组成元素的子元素进行细分，从而计算得到各子元素的空间关系图，作为待检索图像的元素关系图。例如，当待检索图像为仅存在一只狗狗的图像，则对该待检索图像中狗狗的各身体部位进行细分，得到狗狗的头部、四肢、躯体等子元素，其中，头部还可以四份为眼睛、耳朵、嘴等子元素，然后构建上述子元素的空间关系图，作为待检索图像的元素关系图。

本实施例中，预设元素识别模型为基于图像训练样本集进行深度学习训练得到的神经网络模型，能够识别出图像中不同类型的组成元素及其位置。其中，图像训练样本集包括多个标准历史图像，每一标准历史图像包括元素标签和对应的位置标签。在进行神经网络模型训练时，对神经网络模型识别标准历史图像得到的元素及其位置，以及标准历史图像的元素标签和对应的位置标签进行损失值计算，当损失值满足收敛要求时，输出收敛的神经网络模型作为预设元素识别模型，以保证预设元素识别模型的精度，从而提高后续模型识别数据的准确性。

S22：将待检索图像中组成元素所在区域分割为元素节点区域，得到多个元素节点区域。

在得到待检索图像的多个组成元素和各组成元素的位置之后，服务器将待检索图像中组成元素所在区域分割为元素节点区域，得到多个元素节点区域。

S23：依据多个组成元素的位置对多个元素节点区域进行元素构图，得到待检索图像的元素关系图。

在得到多个元素节点区域之后，服务器依据多个组成元素的位置对多个元素节点区域进行元素构图，得到待检索图像的元素关系图。

其中，元素关系图的获取方式可以是：以每一元素节点区域为原点发射多条射线，将射线触及到的元素节点区域依次连接得到闭环图，记为初始关系图，可以减少因单一射线源导致的部分区域未被射线触及的可能，确保各区域都能被射线触及，从而提高了初始关系图的准确性。然后，将初始关系图中两两元素节点区域的距离作为权重，采用普利姆算法在初始关系图中搜索最小生成树，并将最小生成树作为元素关系图。普利姆算法的基本思想：取初始图中任意一个节点 v 作为生成树的根，之后往生成树上添加新的顶点 w，在添加的顶点 w 和已经在生成树上的顶点v 之间必定存在一条边,并且该边的权值在所有连通顶点 v 和 w 之间的边中取值最小，之后继续往生成树上，直至遍历至最后一个顶点。将最小生成树作为元素关系图，在保证各区域的空间位置关系的基础上，减少了数据处理的复杂度。

在其他实施例中，元素关系图的获取方式还可以是其他方式。例如，在得到多个元素节点区域之后，根据组成元素及其位置在多个元素节点区域中确定一个主元素节点区域，主元素节点区域为最接近图像中心的区域；然后以主元素节点区域为中心发射多条射线（多条射线可以是呈360°分散，确保射线能够触及到每一元素节点区域，提高初始关系图的准确性），将射线触及到的元素节点区域依次连接得到闭环图，记为初始关系图，然后将初始关系图中两两元素节点区域的距离作为权重，采用克鲁斯卡尔算法在初始关系图中搜索最小生成树，并将最小生成树作为元素关系图，在保证元素关系图精度的基础上，减少重复区域的射线发射，减少数据处理，加快元素关系图的生成速度。

本实施例中，通过对待检索图像进行组成元素识别，得到待检索图像的多个组成元素和各组成元素的位置，然后将待检索图像中组成元素所在区域分割为元素节点区域，得到多个元素节点区域，最后依据多个组成元素的位置对多个元素节点区域进行元素构图，得到待检索图像的元素关系图，明确了对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图的具体步骤，根据各组成元素的位置进行构图，在保证各组成元素特征的基础上，强化了各组成元素所在区域的空间位置关系，从而提高了元素关系图的准确性。

在一实施例中，步骤S30中，即基于元素关系图进行图特征提取，得到待检索图像的图特征，具体包括如下步骤：

S31：确定元素关系图中的多个元素节点区域，以及各元素节点区域之间的连接边。

本实施例中，待检索图像的元素关系图为以多个组成元素所在区域为节点的最小生成树，为便于表示，以元素节点区域表示组成元素的所在区域，每一元素节点区域表示为每一组成元素的所在区域。

在得到待检索图像的元素关系图之后，服务器确定元素关系图中多个元素节点区域（即多个节点），以及各元素节点区域之间的连接边。由于元素关系图是最小生成树，因而相邻两节点（相邻两元素节点区域）即为共享一个连接边的两个元素节点区域，因而各元素节点区域之间的连接边，即为相邻两元素节点区域的连接边。

S32：对元素关系图中相邻两元素节点区域间的连接边进行特征提取，得到多个元素边特征。

在确定元素关系图中的多个元素节点区域，以及各元素节点区域之间的连接边之后，服务器对元素关系图中相邻两元素节点区域间的连接边进行特征提取，得到多个连接边的特征，即多个元素边特征。元素边特征均包括方向特征和/或形态特征。其中，形态特征为将相邻两元素节点区域的宽和高进行拼接后得到的四维张量；方向特征为最小生成树中各元素节点区域的元素节点生长方向特征。

S33：对元素节点区域中的组成元素进行特征提取，得到多个元素节点特征。

同时，服务器在对各元素节点区域中的组成元素进行节点特征提取，得到多个元素节点特征。其中，每一元素节点特征包括组成元素的主题特征和组成元素的形状特征。服务器需要对各元素节点区域中组成元素的主题进行特征提取，得到各元素节点区域中组成元素的主题特征，并需要对各元素节点区域中组成元素的形状进行特征提取，得到各元素节点区域的形状特征；然后，服务器将组成元素的主题特征和形状特征汇总，得到该组成元素的节点特征，即得到一个元素节点特征；遍历所有元素节点区域，得到多个元素节点特征。

其中，组成元素的主题特征为描述组成元素的主题的特征，例如，组成元素为月亮图，其描述的主题即为月亮，则其主题特征为将月亮进行编码后得到的特征；或者，组成元素为A，其描述的主题为英文字母A，则其主题特征为将英文字母A进行编码后得到的特征。其中，形状特征表示该组成元素的轮廓形状。

在其他实施例中，对元素节点区域中的组成元素进行特征提取，得到多个元素节点特征时，除了需要对组成元素的主题和形状进行特征提取，得到组成元素的主题特征和形状特征之外，还需要对组成元素的颜色和/或组成元素的纹理进行特征提取，得到组成元素的颜色特征和/或纹理特征，即每一元素节点特征还包括组成元素的颜色特征和/或纹理特征，从主题、形状、颜色和/或纹理等多个维度描述图像的组成元素，提高了元素节点特征的准确性，进而提高了图特征的准确性。

S34：依据元素节点区域在元素关系图中的坐标位置对元素节点区域进行空间关系特征提取，得到多个空间关系特征。

此外，服务器还需要依据元素节点区域在元素关系图中的坐标位置，对各元素节点区域进行空间关系特征提取，得到多个空间关系特征。元素节点区域是空间关系特征为该元素节点区域与相邻元素节点区域之间的相对坐标特征。

S35：将多个元素边特征、多个元素节点特征和多个空间关系特征，作为待检索图像的图特征。

在得到多个元素边特征、多个元素节点特征和多个空间关系特征之后，将多个元素边特征、多个元素节点特征和多个空间关系特征，作为待检索图像的图特征。

本实施例中，通过确定元素关系图中的多个元素节点区域，以及各元素节点区域之间的连接边，对元素关系图中相邻两元素节点区域间的连接边进行特征提取，得到多个元素边特征，并对元素节点区域中的组成元素进行特征提取，得到多个元素节点特征，元素节点特征包括组成元素的主题特征和形状特征，并依据元素节点区域在元素关系图中的坐标位置对元素节点区域进行空间关系特征提取，得到多个空间关系特征，最后将多个元素边特征、多个元素节点特征和多个空间关系特征，作为待检索图像的图特征，明确了基于元素关系图进行图特征提取，得到待检索图像的图特征的具体步骤，从各组成元素的主题、形状和空间关系等方面对待检索图像进行多维度描述，提高了图特征的准确性，为后续对进行相似度计算提供了准确基础。

在一实施例中，如图4所示，步骤S50中，即对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征，具体包括如下步骤：

S51：对待检索图像进行文本识别，确定待检索图像是否存在文本信息。

在获取待检索图像的图特征和风格特征之后，需要对待检索图像进行文本识别，确定待检索图像是否存在文本信息。其中，文本信息是具有完整、系统含义的一个句子或多个句子的组合。本实施例中，一个文本信息可以是一个句子、一个段落或者一个篇章。

即在获取待检索图像的图特征和风格特征之后，服务器需要通过文本识别模型对待检索图像进行文本识别，确定待检索图像中是否存在完整的句子或者段落。

S52：若待检索图像存在文本信息，则对待检索图像的文本信息进行语义特征提取，得到待检索图像的文本语义特征。

在确定待检索图像是否存在文本信息之后，若待检索图像存在文本信息，则对待检索图像的文本信息进行语义特征提取，得到待检索图像的文本语义特征。即，若文本识别模型识别到待检索图像存在文本信息，则将识别到的文本信息输入至语义特征模型进行上下文特征提取，得到待检索图像的语义特征。

S53：对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。

在得到待检索图像的文本语义特征之后，将待检索图像的文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。

其中，特征融合方式可以是：获取文本语义特征的权重、图特征的权重和风格特征的权重，其中，图特征的权重大于或者等于文本语义特征的权重，文本语义特征的权重大于等于风格特征的权重；然后依据文本语义特征的权重、图特征的权重和风格特征的权重，对待检索图像的文本语义特征、图特征和风格特征进行加权求和，得到待检索图像的融合特征，简单方便且加重图特征和文本语义特征，从而得到准确的融合特征。

在其他实施例中，特征融合方式还可以是：将风格特征转换为基于注意力机制的多个权重，其中，可以采用激活函数对风格特征进行激活，得到基于注意力机制的多个权重；然后将多个权重赋予至图特征的各个特征点（即像素值），得到增强图特征；再将增强图特征与文本语义特征进行拼接，得到待检索图像的融合特征。将风格特征转换为注意力机制的权重，将各权重赋予至图特征的各个特征点，使得图像的特征增强得到增强图特征，然后将增强图特征与文本语义特征拼接得到融合特征，实现了对文本语义特征、图特征和风格特征的有效融合，通过风格特征对图特征进行增强并保留文本语义特征，使得图像的融合特征能够更加准确的描述原始图像。

本实施例中，通过对待检索图像进行文本识别，确定待检索图像是否存在文本信息；若待检索图像存在文本信息，则对待检索图像的文本信息进行语义特征提取，得到待检索图像的文本语义特征；对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征，明确了对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征的具体步骤，通过提取待检索图像的语义特征，然后将文本语义特征、图特征和风格特征的有效融合，通过风格特征对图特征进行增强并保留语义特征，使得图像的融合特征能够更加准确的描述原始图像。

在一实施例中，如图5所示，步骤S51之后，即确定待检索图像是否存在文本信息之后，该方法还具体包括如下步骤：

S54：若待检索图像不存在文本信息，则向终端设备发送待检索图像的检索文本信息输入提示，并获取用户通过终端设备输入的待检索图像的检索文本信息。

在确定待检索图像是否存在文本信息之后，若待检索图像不存在文本信息，即若文本识别模型未识别到待检索图像存在文本信息，则服务器无法基于文本信息提取得到文本语义特征，此时，服务器可以想终端设备发送待检索图像的检索文本信息输入提示，以提醒用户根据该输入提示输入该检索图像的检索文本信息。在用户通过终端设备输入检索图像的检索文本信息后，服务器获取用户通过终端设备输入的待检索图像的检索文本信息。

S55：对检索文本信息进行语义特征提取，得到待检索图像的文本语义特征。

在获取用户通过终端设备输入的待检索图像的检索文本信息之后，服务器将该检索文本信息输入语义特征模型，以通过语义特征模型对检索文本信息进行上下文特征提取，得到待检索图像的语义特征。

由于对图像进行文本识别时可能会出现识别错误的问题，因此，用户输入的检索文本信息要比识别得到的文本信息的准确性更高，且用户输入的检索文本信息往往比待检索图像中的文本信息更为精确简要，因此通过检索文本信息提取得到的文本语义特征，比通过待检索图像中的文本信息提取到的文本语义特征更为准确。

S56：对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。

在得到待检索图像的文本语义特征之后，服务器对待检索图像的文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。

其中，特征融合方式可以是：将风格特征转换为基于注意力机制的多个权重，其中，可以采用激活函数对风格特征进行激活，得到基于注意力机制的多个权重；然后将多个权重赋予至图特征的各个特征点（即像素值），得到增强图特征；再将增强图特征与文本语义特征进行拼接，得到待检索图像的融合特征。将风格特征转换为注意力机制的权重，将各权重赋予至图特征的各个特征点，使得图像的特征增强得到增强图特征，然后将增强图特征与文本语义特征拼接得到融合特征，实现了对文本语义特征、图特征和风格特征的有效融合，通过风格特征对图特征进行增强并保留文本语义特征，使得图像的融合特征能够更加准确的描述原始图像。

本实施例中，在确定待检索图像是否存在文本信息之后，若待检索图像不存在文本信息，则向终端设备发送待检索图像的检索文本信息输入提示，并获取用户通过终端设备输入的待检索图像的检索文本信息；对检索文本信息进行语义特征提取，得到待检索图像的文本语义特征；对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征。当待检索图像不存在文本信息时，通过提示用户输入检索文本信息能够得到待检索图像的准确文本描述信息，并基于该检索文本信息进行语义特征提取，不仅能够确保活动待检索图像的文本语义特征，获得的文本语义信息还更为准确，进而提高了融合特征的准确性。

在一实施例中，步骤S53或步骤S56中，即对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征，具体包括如下步骤：

S501：确定文本语义特征的权重，并确定图特征的权重和风格特征的权重。

S502：根据对应的权重，对文本语义特征、图特征和风格特征进行加权求和，得到待检索图像的融合特征。

本实施例中，需要先确定文本语义特征的权重，并确定图特征的权重和风格特征的权重。其中，图特征的权重大于或者等于文本语义特征的权重，文本语义特征的权重大于等于风格特征的权重。其中，对应的权重为预先存储在数据库中的权重值，在得到文本语义特征、图特征和风格特征后，服务器可以直接从服务器读取对应特征的权重，简单方便。在其他实施例中，各特征的权重还有其他获取方式，在此不在赘述。

在确定文本语义特征的权重，并确定图特征的权重和风格特征的权重之后，根据对应的权重，对文本语义特征、图特征和风格特征进行加权求和，即依据文本语义特征的权重、图特征的权重和风格特征的权重，对待检索图像的文本语义特征、图特征和风格特征进行加权求和，得到待检索图像的融合特征，简单方便且加重图特征和文本语义特征，从而得到准确的融合特征。

本实施例中，通过确定文本语义特征的权重，并确定图特征的权重和风格特征的权重，然后根据对应的权重，对文本语义特征、图特征和风格特征进行加权求和，得到待检索图像的融合特征，明确了对文本语义特征、图特征和风格特征进行特征融合，得到待检索图像的融合特征的具体步骤，在保证融合特征的准确性的基础上，计算简单，降低了服务器负载和检索响应速度。

在一实施例中，步骤S501中，即确定文本语义特征的权重，具体包括如下步骤：

S5011：当待检索图像存在文本信息时，则确定文本语义特征的权重为第一权重；

S5012：当待检索图像不存在文本信息时，则确定文本语义特征的权重为第二权重，第二权重大于第一权重。

在获取待检索图像的文本语义特征之后，对对文本语义特征、图特征和风格特征进行特征融合时，需要确定文本语义特征的提取数据源，当待检索图像存在文本信息时，表示文本语义特征的提取数据源为识别待检索图像得到的文本信息，此时则确定文本语义特征的权重为第一权重；当待检索图像不存在文本信息时，表示文本语义特征的提取数据源为用户输入的检索文本信息，检索文本信息的准确性高于识别得到的文本信息，因而此时得到的文本语义特征准确性更高，则确定文本语义特征的权重为第二权重，第二权重大于第一权重。

本实施例中，当待检索图像存在文本信息时，则确定文本语义特征的权重为第一权重；当待检索图像不存在文本信息时，则确定文本语义特征的权重为第二权重，第二权重大于第一权重，明确了确定文本语义特征的权重的具体步骤，为不同情况下得到的文本语义特征设定不同的权重值，提高了文本语义特征的权重准确性，从而提高了特征的准确性。

在一实施例中，由于文本语义特征的权重存在变化的可能，在确定文本语义特征的权重之后，可以依据文本语义特征的权重和预设原则确定图特征的权重和风格特征的权重。其中，预设原则为：图特征的权重为文本语义特征的权重与第一预设系数的乘积；风格特征的权重为文本语义特征的权重与第二预设系数的乘积；第一预设系数大于1，且第一预设系数大于第二预设系数，即图特征的权重大于或者等于文本语义特征的权重，文本语义特征的权重大于等于风格特征的权重，确定图特征的权重和风格特征的权重。

在其他实施例中，预设原则还可以是：若文本语义特征的权重为第一权重，则在数据库中获取第一权重对应的第一类权重数据，第一类权重数据包括图特征的权重和风格特征的权重。若文本语义特征的权重为第二权重，则在数据库中获取第二权重对应的第二类权重数据，第二类权重数据包括图特征的权重和风格特征的权重。

本实施例中，根据实际的文本语义特征的权重动态地确定图特征的权重和风格特征的权重，确保了个特征的权重的准确性，提高了融合算法的精度，进而提高了融合特征的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种图像检索装置，该图像检索装置与上述实施例中图像检索方法一一对应。如图6所示，该图像检索装置包括获取模块601、构建模块602、第二提取模块603、融合模块604和计算模块605。各功能模块详细说明如下：

获取模块601，用于获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一标准历史图像对应有标准特征，标准特征为基于标准历史图像的图特征和风格特征进行特征融合得到的特征；

构建模块602，用于对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图；

提取模块603，用于基于元素关系图进行图特征提取，得到待检索图像的图特征；

融合模块604，用于对待检索图像进行风格特征提取，得到待检索图像的风格特征，并对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；

计算模块605，用于将待检索图像的融合特征与每一标准历史图像的标准特征进行相似度计算，得到每一标准历史图像的相似度，并依据每一标准历史图像的相似度向终端设备推送待检索图像的检索结果。

可选地，融合模块604具体用于：

可选地，确定待检索图像是否存在文本信息之后，融合模块604具体还用于：

可选地，融合模块604具体还用于：

可选地，构建模块602具体用于：

可选地，提取模块603具体用于：

关于图像检索装置的具体限定可以参见上文中对于图像检索方法的限定，在此不再赘述。上述图像检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图7所示，提供了一种计算机设备，该计算机设备可以是服务器，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述图像检索方法用到、生成的数据，如多个标准历史图像及其标准特征、待检索图像的图特征和风格特征、待检索图像的检索结果等等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像检索方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

对待检索图像的组成元素进行空间关系构建，得到待检索图像的元素关系图，并基于元素关系图进行图特征提取，得到待检索图像的图特征；

对待检索图像进行风格特征提取，得到待检索图像的风格特征；

对待检索图像的图特征和风格特征进行特征融合，得到待检索图像的融合特征；

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种图像检索方法，其特征在于，包括：

获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一所述标准历史图像对应有标准特征，所述标准特征为基于所述标准历史图像的图特征和风格特征进行特征融合得到的特征；

对所述待检索图像的组成元素进行空间关系构建，得到所述待检索图像的元素关系图；

基于所述元素关系图进行图特征提取，得到所述待检索图像的图特征；

对所述待检索图像进行风格特征提取，得到所述待检索图像的风格特征，并对所述待检索图像的图特征和所述风格特征进行特征融合，得到所述待检索图像的融合特征；

将所述待检索图像的融合特征与每一所述标准历史图像的标准特征进行相似度计算，得到每一所述标准历史图像的相似度，并依据每一所述标准历史图像的相似度向所述终端设备推送所述待检索图像的检索结果。

2.如权利要求1所述的图像检索方法，其特征在于，所述对所述待检索图像的图特征和所述风格特征进行特征融合，得到所述待检索图像的融合特征，包括：

对所述待检索图像进行文本识别，确定所述待检索图像是否存在文本信息；

若所述待检索图像存在文本信息，则对所述待检索图像的文本信息进行语义特征提取，得到所述待检索图像的文本语义特征；

对所述文本语义特征、所述图特征和所述风格特征进行特征融合，得到所述待检索图像的融合特征。

3.如权利要求2所述的图像检索方法，其特征在于，所述确定所述待检索图像是否存在文本信息之后，所述方法还包括：

若所述待检索图像不存在文本信息，则向所述终端设备发送所述待检索图像的检索文本信息输入提示，并获取用户通过所述终端设备输入的所述待检索图像的检索文本信息；

对所述检索文本信息进行语义特征提取，得到所述待检索图像的文本语义特征；

4.如权利要求2所述的图像检索方法，其特征在于，所述对所述文本语义特征、所述图特征和所述风格特征进行特征融合，得到所述待检索图像的融合特征，包括：

确定所述文本语义特征的权重，并确定所述图特征的权重和所述风格特征的权重；

根据对应的所述权重，对所述文本语义特征、所述图特征和所述风格特征进行加权求和，得到所述待检索图像的融合特征。

5.如权利要求4所述的图像检索方法，其特征在于，所述确定所述文本语义特征的权重，包括：

当所述待检索图像存在文本信息时，则确定所述文本语义特征的权重为第一权重；

当所述待检索图像不存在文本信息时，则确定所述文本语义特征的权重为第二权重，所述第二权重大于所述第一权重。

6.如权利要求1-5任一项所述的图像检索方法，其特征在于，所述对所述待检索图像的组成元素进行空间关系构建，得到所述待检索图像的元素关系图，包括：

对所述待检索图像进行组成元素识别，得到所述待检索图像的多个组成元素和各所述组成元素的位置；

将所述待检索图像中所述组成元素所在区域分割为元素节点区域，得到多个所述元素节点区域；

依据多个所述组成元素的位置对多个所述元素节点区域进行元素构图，得到所述待检索图像的元素关系图。

7.如权利要求1-5任一项所述的图像检索方法，其特征在于，所述基于所述元素关系图进行图特征提取，得到所述待检索图像的图特征，包括：

确定所述元素关系图中的多个元素节点区域，以及各所述元素节点区域之间的连接边；

对所述元素关系图中相邻两所述元素节点区域间的连接边进行特征提取，得到多个元素边特征；

对所述元素节点区域中的组成元素进行特征提取，得到多个元素节点特征，所述元素节点特征包括主题特征和形状特征；

依据所述元素节点区域在所述元素关系图中的坐标位置对所述元素节点区域进行空间关系特征提取，得到多个空间关系特征；

将多个所述元素边特征、多个所述元素节点特征和多个所述空间关系特征，作为所述待检索图像的图特征。

8.一种图像检索装置，其特征在于，包括：

获取模块，用于获取终端设备发送的待检索图像，并获取图像数据库的多个标准历史图像，每一所述标准历史图像对应有标准特征，所述标准特征为基于所述标准历史图像的图特征和风格特征进行特征融合得到的特征；

构建模块，用于对所述待检索图像的组成元素进行空间关系构建，得到所述待检索图像的元素关系图；

提取模块，用于基于所述元素关系图进行图特征提取，得到所述待检索图像的图特征；

融合模块，用于对所述待检索图像进行风格特征提取，得到所述待检索图像的风格特征，并对所述待检索图像的图特征和所述风格特征进行特征融合，得到所述待检索图像的融合特征；

计算模块，用于将所述待检索图像的融合特征与每一所述标准历史图像的标准特征进行相似度计算，得到每一所述标准历史图像的相似度，并依据每一所述标准历史图像的相似度向所述终端设备推送所述待检索图像的检索结果。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述图像检索方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像检索方法的步骤。