CN113282779A

CN113282779A - 图像搜索方法、装置、设备

Info

Publication number: CN113282779A
Application number: CN202010102971.2A
Authority: CN
Inventors: 罗未萌; 高飞宇; 王永攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2021-08-20
Also published as: US11574003B2; US20210256052A1

Abstract

本发明实施例提供一种图像搜索方法、装置、设备，该方法包括：获取检索输入图像，其中检索输入图像中包含多个第一文本块；从检索目标数据库中选择待处理图像，其中待处理图像中包含多个第二文本块；根据多个第一文本块生成第一图结构特征，根据多个第二文本块生成第二图结构特征；确定第一图结构特征和第二图结构特征满足预设条件；输出待处理图像作为搜索结果。在该方法中，基于同种图像在图结构特征上具有较高相似度的思路，通过对比各个待处理图像与检索输入图像的图结构特征，可以准确地找出与检索输入图像属于同一类别的待处理图像。

Description

图像搜索方法、装置、设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种图像搜索方法、装置、设备。

背景技术

随着图像处理技术应用到越来越多的领域中，需要处理的图像数量也日渐增长。目前，图像处理过程中经常需要从存储有各种各样图像的数据库中搜索出想要使用的图像。比如，从存储有火车票、身份证、订单等图像的数据库中搜索出身份证图像。但数据库存储的图像数量越多，在该数据库中对某一类别图像进行搜索的实现难度越大。

因此，如何从各种各样的图像中准确地搜索出想要使用的某类图像，成为亟待解决的技术问题。

发明内容

本发明实施例提供一种图像搜索方法、装置、设备，用以准确搜索出想要使用的某类图像。

第一方面，本发明实施例提供一种图像搜索方法，该图像搜索方法包括：

获取检索输入图像，其中，该检索输入图像中包含的多个第一文本块；

从检索目标数据库中，选择待处理图像，其中，该待处理图像中包含的多个第二文本块；

根据多个第一文本块生成第一图结构特征，根据多个第二文本块生成第二图结构特征；

确定第一图结构特征和第二图结构特征的差异度；

输出该待处理图像作为搜索结果。

第二方面，本发明实施例提供一种图像搜索装置，该图像搜索装置包括：

获取模块，用于获取检索输入图像，其中，检索输入图像中包含的多个第一文本块；从检索目标数据库中选择待处理图像，待处理图像中包含的多个第二文本块；

搜索模块，用于根据多个第一文本块生成第一图结构特征，根据多个第二文本块生成第二图结构特征；确定第一图结构特征和所述第二图结构特征满足预设条件；输出待处理图像作为搜索结果。

第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的图像搜索方法。

本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的方法。

在本发明实施例中，由于属于同一类别的多个图像在图结构特征上会体现出一定的相似性，因而，当需要从存储有大量图像的检索目标数据库中搜索出与某检索输入图像相似的图像时，首先，对检索输入图像中包含的多个第一文本块进行标注，从检索目标数据库中选择待处理图像，识别待处理图像中包含的多个第二文本块，以便根据多个第一文本块生成与检索输入图像对应的第一图结构特征，根据多个第二文本块生成与待处理图像对应的第二图结构特征，通过对比第一图结构特征和第二图结构特征，可以确定第一图结构特征和第二图结构特征是否满足预设条件，即确定待处理图像在图结构特征上是否与检索输入图像具有相似性，从而可以将检索目标数据库中与检索输入图像相似的图像都搜索出来，作为图像搜索的搜索结果。在该方案中，基于同种图像在图结构特征上具有较高相似度的思路，通过对比各个待处理图像与检索输入图像的图结构特征，可以准确地找出与检索输入图像属于同一类别的待处理图像。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种图像搜索方法的流程图；

图2为本发明一实施例提供的一种检索输入图像的示意图；

图3为本发明一实施例提供的一种图结构的示意图；

图4a为本发明一实施例提供的一种待处理图像的示意图；

图4b为本发明一实施例提供的另一种图结构的示意图；

图5为本发明一实施例提供的再一种图结构的示意图；

图6为本发明一实施例提供的又一种图结构的示意图；

图7为本发明一实施例提供的一种图像搜索过程的原理示意图；

图8为本发明一实施例提供的另一种图像搜索过程的原理示意图；

图9为本发明实施例提供的一种图像搜索装置的结构示意图；

图10为与图9所示实施例提供的图像搜索装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的图像搜索方案可以由一电子设备来执行，该电子设备可以是诸如智能手机、平板电脑、PC机、笔记本电脑等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为主机集群承载的虚拟服务器，或者也可以为云服务器。

本发明实施例提供的图像搜索方案适用于从存储有大量图像的数据库中对想要使用的图像进行搜索的场景。实际应用中，想要使用的图像比如是具有固定内容的票证图像，如增值税发票、行程单、火车票、退货申请单。

结合以下举例示例性说明本发明实施例提供的图像搜索的实际需求。

比如，图像搜索的目标是：从报销凭证中搜索出行程单。以公司交通费用报销场景为例，为统计公司某段时间支出的交通费用，需要先从员工上传至办公后台数据库的大量报销凭证中搜索出行程单进行核对。

再比如，图像搜索的目标是：从审核文件中搜索出房产贷款申请表。以银行风控部门为例，为分析当前房产贷款业务的申请情况，需要先从银行后台数据库存储的大量审核文件中搜索出房产贷款申请表。

显然，如果数据库中存储有大量图像，如何从数据库中搜索出想要使用的某一类别图像，成为亟待解决的问题，这也是本发明实施例提供的图像搜索方法的核心目的。

针对于上面提到的实际需求，概括来说，本发明实施例提供的图像搜索方法的解决思路是：由于属于同一类别的多个图像在图结构特征上会体现出一定的相似性，因而，可以通过对不同图像对应的图结构特征进行对比，确定不同图像是否属于同一类别。这里，多个图像在图结构特征上体现出的相似性可以理解为，多个图像在文本内容以及文本内容间的位置关系上的相似度。基于上述思路，当需要从存储有大量图像的检索目标数据库中搜索出与某张检索输入图像相似的图像时，通过对比各个待处理图像(指检索目标数据库中存储的各个图像)与检索输入图像的图结构特征，可以确定各个待处理图像在图结构特征上是否与检索输入图像具有相似性，从而准确地找出与检索输入图像属于同一类别的待处理图像，作为图像搜索的搜索结果。

下面结合以下实施例对该图像搜索方法的执行过程进行说明。

图1为本发明实施例提供的一种图像搜索方法的流程图，如图1所示，该方法包括如下步骤：

101、获取检索输入图像，其中，检索输入图像中包含多个第一文本块。

102、从检索目标数据库中选择待处理图像，其中，待处理图像中包含的多个第二文本块。

本发明实施例中，针对从存储有各种类别的大量图像的数据库中搜索某种目标类别的图像的搜索任务，首先需要设置与该目标类别对应的检索输入图像，进而，在数据库中搜索出与该检索输入图像在图结构特征上满足相似度要求的图像。本文中将存储有各种类别的大量图像的数据库称为检索目标数据库。

为保证图像搜索结果的准确性，该检索输入图像应该具有较佳的图像质量，比如图像的清晰度、亮度应该都比较好，而且，背景应该尽量的简单。

可选地，以当前的图像搜索任务是从大量图像中搜索出身份证图像为例，此时，相关工作人员可以拍摄一张质量较佳的身份证图像作为该图像搜索任务对应的检索输入图像。

或者，可选地，工作人员也可以根据实际应用中可能面对的图像搜索任务，预先设置对应于某图像搜索任务的图像质量较佳的图像作为检索输入图像，从而，针对当前需要执行的某种图像搜索任务，直接使用预先设置的与该图像搜索任务对应的图像作为检索输入图像。

在获取检索输入图像后，为了构建与该检索输入图像对应的图结构，还需要标注出该检索输入图像中包含的多个文本块，为区别，称为多个第一文本块。

值得说明的是，如果检索输入图像是通过上述“直接使用预先设置的与当前图像搜索任务对应的图像作为检索输入图像”的方式获得的，那么，应该理解为该检索输入图像已经被预先进行了多个第一文本块的标注。

其中，多个第一文本块是指检索输入图像中包含有独立的固定文本内容的各个区域。也就是说，检索输入图像中包含的文本内容可以分为固定文本内容和非固定文本内容，固定内容往往是与用户无关的，而非固定内容往往是与用户相关的。这里，仅标注出其中包含的固定文本内容，即可以得到多个第一文本块。简单来说，一个第一文本块可以理解为是一个词语或句子。

下面举例说明如何对检索输入图像进行第一文本块标注：假设检索输入图像为图2示意的开户许可证，其中包含的固定文本内容包括：“开户许可证”、“核准号”、“编号”、“经审核，”、“符合开户条件，准予”、“开立基本存款账户。”、“法定代表人(单位负责人)”、“开户银行”、“账号”、“发证机关(盖章)”等，对这些固定文本内容通过文本框进行标注，得到图3示意的多个尺寸、位置不同的第一文本块。

由图3可知，经过对检索输入图像的上述标注处理，一方面可以得到检索输入图像中包含的各个固定文本内容，另一方面可以得到这些固定文本内容之间的位置关系，这些固定文本内容和彼此之间的位置关系将是后续构建与检索输入图像对应的第一图结构特征的关键。

为了能在存储有各种类别的图像的检索目标数据库中搜索出与检索输入图像属于同一类别的图像，针对从检索目标数据库中选择出的待处理图像，也需要识别出其中包含的文本块，为区别，称为多个第二文本块。实际应用中，选择待处理图像的方式可以为随机选择，或其他图像选择方式。

针对待处理图像，可以通过光学字符识别(Optical Character Recognition，简称OCR)软件来获取待处理图像中包含的多个第二文本块。

本实施例中，第二文本块是指待处理图像中包含有独立的文本内容的各个区域。也就是说，待处理图像中包含的文本内容也可以分为与用户无关的固定文本内容以及与用户相关的非固定文本内容。这里，对待处理图像中的文本内容进行识别，以确定待处理图像中包括的文本内容，得到多个第二文本块。从而，根据待处理图像中文本内容的布局信息(如行信息、前后相邻文字间的距离信息，等等)、语义相关性实现了对第二文本块的划分。

为便于理解第二文本块的含义，举例来说，假设待处理图像为图4a示意出的开户许可证，对图4a中示意出的开户许可证进行OCR识别，过滤掉开户许可证中包括的背景图形、边框、公章等非文本内容，并对剩下的文本内容按照分布特征进行划分，其中文本内容包括：“开户许可证”、“核准号”、“编号”、“经审核，”、“XX有限公司”、“法定代表人”、“(单位负责人)”、“开户银行”、“账号”、“发证机关”、“XX机构专用章”等，得到图4b示意的多个尺寸、位置不同的第二文本块。

由图4b可知，经过对待处理图像的上述识别处理，可以得到待处理图像中包含的各个文本内容，以及这些文本内容之间的位置关系，这些文本内容和彼此之间的位置关系也将是后续构建与待处理图像对应的第二图结构特征的关键。

103、根据多个第一文本块生成第一图结构特征，根据多个第二文本块生成第二图结构特征。

其中，根据多个第一文本块生成第一图结构特征，可以实现为：

根据多个第一文本块各自包含的文本内容，生成多个第一文本块各自对应的语义向量；根据多个第一文本块彼此的位置关系，生成不同第一文本块之间对应的位置关系向量；生成由多组第一特征向量组成的第一图结构特征，其中，每组第一特征向量由第一文本块i对应的语义向量、第一文本块j对应的语义向量以及第一文本块i与第一文本块j之间的位置关系向量组成。其中，第一文本块i是多个第一文本块中的任一个，第一文本块j是多个第一文本块中除第一文本块i外的任一个。

由上述第一图结构特征的获取方式可知，第一图结构特征中既包含有多个第一文本块对应的语义特征，又包含多个第一文本块间的位置关系特征，从而对图像搜索结果的准确性，具有促进作用。

可选地，根据多个第一文本块各自包含的文本内容，生成多个第一文本块各自对应的语义向量，可以实现为：

对多个第一文本块各自包含的词语进行编码，以获得对应的词向量；对每个第一文本块对应的多个词向量进行求均值计算，以得到每个第一文本块对应的语义向量。

具体来说，实际应用中，可以预先获取大量语料样本，通过对大量语料样本进行分词处理，得到若干词语，进而，根据每个词语的出现次数对该若干词语进行排序，比如按照出现次数由多到少进行排序，假设总共有N个词语，从而可以生成由顺序排列的N个词语构成的词语表。另外，针对每个词语，可以根据现有的词向量转换算法进行词向量转换，每个词语假设被表示为一个M维的行向量，从而最终会得到一个N*M维的词向量矩阵，其中，该词向量矩阵的第k行词向量对应于词语表中的第k个词语。

基于此，对于多个第一文本块中的第一文本块i来说，可以根据该词向量矩阵与词语表的对应关系，对第一文本块i包含的词语进行编码，以将第一文本块i中包含的词语转换为对应的词向量。

一般来说，第一文本块i通常会包括多个词语，每个词语对应有一个词向量，从而第一文本块i对应多个词向量，计算该多个词向量的均值，将均值计算结果作为第一文本块i的语义向量。

值得说明的是，生成多个第一文本块各自对应的语义向量的方式不以上述举例的实现方式为限，还可以采用其他方式获得多个第一文本块各自对应的语义向量，比如通过神经网络模型来得到该语义向量。

可选地，根据多个第一文本块彼此的位置关系，生成不同第一文本块之间对应的位置关系向量，可以实现为：对于第一文本块i和第一文本块j，确定第一文本块i和第一文本块j之间对应的位置关系向量包括如下至少一种比值：

第一文本块i的宽高比；

第一文本块j的宽度与第一文本块i的高度的比值；

第一文本块j与所述第一文本块i的水平距离，与第一文本块i的高度的比值；

第一文本块j与第一文本块i的垂直距离，与第一文本块i的高度的比值。

实际应用中，可以理解的是，在获取检索输入图像中包含的多个第一文本块时，还标注出每个第一文本块的位置坐标。每个第一文本块的位置坐标以对应的矩形框的四个顶点坐标来表示。基于这四个顶点坐标，可以得到每个第一文本块的长度、宽度、高度。

基于此，假设根据第一文本块i对应的位置坐标，计算出第一文本块i的宽度为W_i，高度为H_i，从而得到第一文本块i的宽高比为W_i/H_i。

假设根据第一文本块j对应的位置坐标，计算出第一文本块j宽度为W_j，从而得到第一文本块j的宽度与第一文本块i的高度的比值为W_j/H_i。

假设根据第一文本块i和第一文本块j各自对应的位置坐标，计算出这两个第一文本块之间的水平距离为X_ji，从而得到该水平距离与第一文本块i的高度的比值为X_ji/H_i。其中，水平距离X_ji的计算方式为：比如计算每个第一文本块对应的矩形框的中心点坐标，以这两个文本块的中心点坐标的横坐标作差得到水平距离。

具体来说，水平距离X_ji的计算方式可以实现为：假设第一文本块i对应的矩形框的中心点坐标为(x_i1，y_i1)，第一文本块j对应的矩形框的中心点坐标为(x_j1，y_j1)，那么，第一文本块i和第一文本块j之间的水平距离X_ji，可以表示为：X_ji＝|x_j1-x_i1|。

假设根据第一文本块i和第一文本块j各自对应的位置坐标，计算出这两个第一文本块之间的垂直距离为Y_ji，从而得到该垂直距离与第一文本块i的高度的比值为Y_ji/H_i。其中，垂直距离Y_ji的计算方式为：比如计算每个第一文本块对应的矩形框的中心点坐标，以这两个文本块的中心点坐标的纵坐标作差得到垂直距离。

具体来说，垂直距离Y_ji的计算方式可以实现为：假设第一文本块i对应的矩形框的中心点坐标为(x_i1，y_i1)，第一文本块j对应的矩形框的中心点坐标为(x_j1，y_j1)，那么，第一文本块i和第一文本块j之间的垂直距离Y_ji，可以表示为：Y_ji＝|y_j1-y_i1|。

可选的，以上述四种比值来表示第一文本块i和第一文本块j彼此的位置关系，得到第一文本块i和第一文本块j之间对应的位置关系向量，可以表示为：R_ij＝[W_i/H_i，W_j/H_i，X_ji/H_i，Y_ji/H_i]。

当然，还可以采用上述四个比值的其他组合来生成第一文本块i和第一文本块j之间对应的位置关系向量，不以此处为限。

显然，对检索输入图像进行多个第一文本块的标注，生成多个第一文本块的语义向量和不同第一文本块之间对应的位置关系向量，实际上就是将检索输入图像描述为一种图结构的过程，该图结构由节点和边构成。其中，多个第一文本块各自对应的语义向量视为该图结构的节点，不同第一文本块彼此的位置关系向量视为该图结构中的连接边。

为便于理解，结合图5来说明检索输入图像对应的图结构。图5为该检索输入图像对应的图结构。假设检索输入图像中包括第一文本块1～第一文本块4这4个第一文本块，在图5中，这4个第一文本块对应的语义向量分别表示为t1～t4，其中，ti表示与第一文本块i(即第i个第一文本块)对应的语义向量。可以设定每个第一文本块与剩下的其他第一文本块之间都存在连接关系，从而，针对第一文本块1来说，假设该第一文本块1(对应于t1)与其他3个第一文本块之间的连接边依次表示为：R12、R13、R14。图5中仅示意了第一文本块1与剩余的其他各个第一文本块之间的全连接关系。

检索输入图像对应的图结构采用第一图结构特征来表示。针对每个第一文本块来说，将该第一文本块对应的语义向量、该第一文本块与其他第一文本块之间对应的位置关系向量、以及该其他第一文本块对应的语义向量，组成该第一文本块对应的一组第一特征向量。其中该其他第一文本块是多个第一文本块中除该第一文本块外的任一个。从而，对多个第一文本块而言，通过生成多个第一文本块对应的多组第一特征向量，可以得到由该多组第一特征向量组成的第一图结构特征。

对于多个第一文本块中的第一文本块i来说，假设多个第一文本块的数量为n，假设第一文本块j是n个第一文本块中除该第一文本块i外的任一个。将第一文本块i对应的语义向量t_i、第一文本块i与第一文本块j之间对应的位置关系向量R_ij、以及第一文本块j对应的语义向量t_j，构成第一文本块i对应的一组第一特征向量[t_i，R_ij，t_j]。基于此，生成该第一文本块i对应的(n-1)组第一特征向量。为了便于理解，结合图5来说明第一文本块1即t1对应的3组第一特征向量的组成，分别表示为：[t1，R12，t2]、[t1，R13，t3]、[t1，R14，t4]。

针对检索输入图像中包含的其他第一文本块所对应的多组第一特征向量的生成过程，与第一文本块1对应的多组第一特征向量的生成过程一致，不再赘述。

最终，由多个第一文本块对应的多组第一特征向量构成第一图结构特征。

以上介绍了针对检索输入图像中包含的多个第一文本块，生成与检索输入图像对应的第一图结构特征的过程。生成与待处理图像对应的第二图结构特征的过程，与之类似，但是也有不同之处。

类似于前文介绍的第一图结构特征的生成过程，在一可选实现方式中，根据多个第二文本块生成第二图结构特征，可以实现为：

根据多个第二文本块各自包含的文本内容，生成多个第二文本块各自对应的语义向量；根据多个第二文本块彼此的位置关系，生成不同第二文本块之间对应的位置关系向量；生成由多组第二特征向量组成的第二图结构特征，其中，每组第二特征向量由第二文本块p对应的语义向量、第二文本块q对应的语义向量以及第二文本块p与第二文本块q之间的位置关系向量组成。其中，第二文本块p是多个第二文本块中的任一个，第二文本块q是多个第二文本块中除第二文本块p外的任一个。

其中，上述第二特征向量的生成过程与前文中第一特征向量的生成过程类似，不再赘述。

从上述第二图结构特征的获取方式可见，第二图结构特征中也包含有多个第二文本块对应的语义特征以及多个第二文本块间的位置关系特征，可以反映待处理图像在文本内容的布局结构上的特点，从而为保障图像搜索结果的准确性，也起到促进作用。

而区别于上述第二图结构特征的获取方式，另一可选实现方式中，根据多个第二文本块生成第二图结构特征，可以实现为：

根据多个第一文本块和多个第二文本块生成第二图结构特征。具体来说，根据多个第二文本块各自包含的文本内容，生成多个第二文本块各自对应的语义向量；根据多个第二文本块彼此的位置关系，生成不同第二文本块之间对应的位置关系向量；生成由多组第二特征向量和多组第三特征向量组成的第二图结构特征，其中，每组第二特征向量由第二文本块p对应的语义向量、第二文本块q对应的语义向量以及第二文本块p与第二文本块q之间的位置关系向量组成，每组第三特征向量中包括第一文本块i对应的语义向量和第二文本块p对应的语义向量。其中，第二文本块p是多个第二文本块中的任一个，第二文本块q是多个第二文本块中除第二文本块p外的任一个，第一文本块i是多个第一文本块中的任一个。

这里，第二特征向量的生成过程也与前文中第一特征向量的生成过程类似，不再赘述。

由上述实现方式可见，第二图结构特征与第一图结构特征的区别主要体现为：第三特征向量。其中，每组第三特征向量中包括多个第一文本块中的一个第一文本块的语义向量以及多个第二文本块中的一个第二文本块的语义向量，而使第一文本块的语义信息能够从检索输入图像传递到待处理图像。其中，为了与第二特征向量和第一特征向量的维数保持一致，第三特征向量中还可以包含位置关系向量，以第一文本块i和第二文本块p为例，该位置关系向量表示第一文本块i和第二文本块p的位置关系。该位置关系向量可以被设置为预设值，比如为1、0等数值。

对多个第二文本块而言，通过生成多个第二文本块对应的多组第二特征向量和多组第三特征向量，可以得到由该多组第二特征向量和该多组第三特征向量组成的第二图结构特征。

为便于理解，结合图5和图6来说明待处理图像对应的图结构。图6为该待处理图像对应的图结构。假设待处理图像中包括第二文本块1～第二文本块5这5个第二文本块，在图6中，这5个第二文本块对应的语义向量分别表示为k1～k5，其中，kp表示与第二文本块p(即第p个第二文本块)对应的语义向量。可以设定每个第二文本块与剩下的其他第二文本块之间都存在连接关系，从而，针对第二文本块1来说，假设该第二文本块1(对应于k1)与其他4个第二文本块之间的连接边依次表示为：M12、M13、M14、M15。图6中仅示意了第二文本块1与剩余的其他各个第二文本块之间的全连接关系。基于图6中的假设，第二文本块1即k1对应的4组第二特征向量的组成，分别表示为：[k1，M12，k2]、[k1，M13，k3]、[k1，M14，k4]、[k1，M15，k5]。

结合图5和图6来示意性的说明多个第二文本块对应的多组第三特征向量：参考上文描述，在图5中，假设检索输入图像中包括第一文本块1～第一文本块4，假设这4个第一文本块的语义信息分别表示为t1～t4。

基于图5的假设，假设这4个第一文本块的语义信息从图5示出的检索输入图像映射到图6示出的待处理图像中，并且，如图6所示，这4个第一文本块的语义信息仍表示为t1～t4。可以设定每个第二文本块与这4个第一文本块之间都存在连接关系，从而，针对第二文本块1来说，假设该第二文本块1(对应于k1)与这4个第一文本块(对应于t1～t4)之间的连接边依次表示为：Z11、Z12、Z13、Z14。图6中仅示意了第二文本块1与这4个第一文本块之间的全连接关系。

基于图6中的假设，第二文本块1即k1对应的4组第三特征向量的组成：[k1，Z11，t1]、[k1，Z12，t1]、[k1，Z13，t3]、[k1，Z14，t4]。实际应用中，Z11、Z12、Z13、Z14可以设置为预设值，该预设值比如为0或1。

针对待处理图像中包含的其他第二文本块所对应的多组第二特征向量和多组第三特征向量的生成过程，与第二文本块1对应的多组第二特征向量和多组第三特征向量的生成过程一致，不再赘述。

最终，由多个第二文本块对应的多组第二特征向量构成第二图结构特征。或者，由多个第二文本块对应的多组第二特征向量和多组第三特征向量构成第二图结构特征。

104、确定第一图结构特征和第二图结构特征符合预设条件。

105、输出待处理图像作为搜索结果。

本实施例中，预设条件包括：对应于检索输入图像的第一图结构特征与对应于待处理图像的第二图结构特征的差异度小于阈值。

具体来说，确定第一图结构特征和第二图结构特征符合预设条件，可以实现为：

将第一图结构特征输入到第一图卷积神经网络模型中，以通过第一图卷积神经网络模型输出多个第一文本块各自对应的编码向量；将第二图结构特征输入到第二图卷积神经网络模型中，以通过第二图卷积神经网络模型输出多个第二文本块各自对应的编码向量；根据多个第一文本块各自对应的编码向量和多个第二文本块各自对应的编码向量，确定第一图结构特征和第二图结构特征的差异度，若差异度小于设定阈值，则确定所述第一图结构特征与所述第二图结构特征满足所述预设条件。

实际应用中，第一图卷积神经网络模型和第二图卷积神经网络模型都可以实现为多层结构，其具有一层或多层全连接层。

结合图5和图7来示意性的说明多个第一文本块各自对应的编码向量的获取过程：参考上文描述，在图5中，假设第一文本块1～第一文本块4这4个第一文本块对应的语义向量分别表示为t1～t4。针对第一文本块1来说，假设其与其他13个第一文本块之间的连接边依次表示为：R12、R13、R14。R12、R13、R114亦即第一文本块1分别相对其他3个第一文本块的位置关系向量。

基于图5中的假设，如图7中所示，针对第一文本块1来说，第一图结构特征中包含由三个元素构成的3组第一特征向量如下：[t1，R12，t2]、[t1，R13，t3]、[t1，R14，t4]。将这3组第一特征向量输入到第一图卷积神经网络模型中，通过第一图卷积神经网络模型的计算，针对这3组第一特征向量，可以得到第一文本块1对应的编码向量，假设表示为G_t1。图7中，每个小方块表示一个文本块对应的多组特征向量的编码结果，即多个方块表示多个文本块对应的编码向量。

针对检索输入图像中包含的其他第一文本块所对应的编码向量的计算过程与第一文本块1对应的编码向量的计算过程一致，不再赘述。

由此可见，通过第一图卷积神经网络模型可以得到多个第一文本块各自对应的编码向量，进而，可选地，可以确定多个第一文本块各自对应的编码向量的第一均值g_t1，以该第一均值g_t1作为检索输入图像对应的图特征编码结果。

类似地，将第二图结构特征输入到第二图卷积神经网络模型中，以通过第二图卷积神经网络模型输出多个第二文本块各自对应的编码向量。

结合图5、图6以及图7来示意性的说明多个第二文本块各自对应的编码向量的获取过程：参考上文描述，在图6中，假设第二文本块1～第二文本块5这5个第二文本块对应的语义向量分别表示为k1～k5。针对第二文本块1来说，假设其与其他4个第二文本块之间的连接边依次表示为：M12～M15。

基于图5和图6中的假设，如图7中所示，针对第二文本块1来说，第二图结构特征中包含如下4组第二特征向量和4组第三特征向量，该4组第二特征向量表示为：[k1，M12，k2]、[k1，M13，k3]、[k1，M14，k4]、[k1，M15，k5]，该4组第三特征向量表示为：[k1，Z11，t1]、[k1，Z12，t1]、[k1，Z13，t3]、[k1，Z14，t4]。将4组第二特征向量和4组第三特征向量输入到第二图卷积神经网络模型中，通过第二图卷积神经网络模型的计算，针对上述第三特征向量和第二特征向量，可以得到第二文本块1对应的编码向量，假设表示为G_k1。

针对待处理图像中包含的其他第二文本块所对应的编码向量的计算过程与第二文本块1对应的编码向量的计算过程一致，不再赘述。

进而，可选地，可以确定多个第二文本块各自对应的编码向量的第二均值g_k1，以该第二均值g_k1作为待处理图像对应的图特征编码结果。

最终，根据第一均值g_t1和第二均值g_k1确定第一图结构特征与所述第二图结构特征的差异度。

第一均值g_t1和第二均值g_k1之间的差异值越小，说明多个第一文本块与多个第二文本块在整体布局信息、各文本块语义相关性等方面的区别越小，即从图结构的角度来看，第一图结构特征与第二图结构特征的差异程度越低，表示两种图结构分别对应的检索输入图像与待处理图像之间的差异程度越低。故而，第一均值g_t1和第二均值g_k1之间的差异值越小，表明第一图结构特征与第二图结构特征的差异度越小，即检索输入图像与待处理图像在图结构特征上越相似。而第一均值g_t1和第二均值g_k1之间的差异值越大，表明第一图结构特征与第二图结构特征的差异度越大，即检索输入图像与待处理图像在图结构特征上越不相似。

可选的，第一均值g_t1和第二均值g_k1之间的差异度可以采用欧氏距离来度量。也就是说，可以采用第一均值g_t1和第二均值g_k1之间的欧式距离来表示检索输入图像与待处理图像的差异度。那么，第一均值g_t1和第二均值g_k1之间的欧氏距离s的计算公式如下：

s(g_t1,g_k1)＝‖g_t1-g_k1‖²

其中，第一均值g_t1和第二均值g_k1之间的欧式距离s越大，表明第一图结构特征与第二图结构特征的差异度越大；第一均值g_t1和第二均值g_k1之间的欧式距离s越小，表明第一图结构特征与第二图结构特征的差异度越小。

基于此，如果第一均值和第二均值之间的欧式距离小于阈值，那么可以认为待处理图像与检索输入图像在图结构特征上具有相似性，即可以确定该待处理图像与检索输入图像匹配，输出该待处理图像作为搜索结果。这里，匹配是指检索输入图像与属于同一类别的待处理图像之间的匹配。从而，结合检索输入图像对多个待处理图像进行遍历，可以搜索出与检索输入图像属于同一类别的待处理图像。

为便于直观地理解上述图像搜索方法的执行过程，结合图8所示实施例来示例性的说明如何从某检索目标数据库中筛选出与某检索输入图像匹配的待处理图像。

在图8所示实施例中，假设了这样的一种实际场景：向用户推送想要查看的火车票图像。该场景中，服务器内设置有检索目标数据库，其中存储有大量的图片，其中不仅包括很多火车票图像，也包括其他类别的图像。

用户通过PC机上传一张拍摄得到的纸质火车票的图片a，该图片a可以作为检索输入图像，对该图片a进行标注得到多个第一文本块，将该图片a标注好后传输至服务器，由服务器根据该多个第一文本块生成第一图结构特征。同时，服务器从检索目标数据库中选择一张图片b作为待处理图像，对该图片b进行识别得到对应的多个第二文本块，进而，根据多个第二文本块生成第二图结构特征。服务器根据第一图结构特征和第二图结构特征，计算出图片a与图片b的差异度，若差异度小于阈值，则可以确定图片b为一张火车票图像，以图片b作为一个搜索结果输出至PC机。从而，可以从检索目标数据库中筛选出与图片a匹配的所有图片作为最终的搜索结果。

假设上述用户为某公司的财务人员，其搜索火车票图像的目的是统计公司在一定时间段内的交通支出费用，从而，基于上述搜索过程，可以将检索目标数据库中的火车票图像都搜索出来，进而，用户可以基于搜索出的这些火车票图像中的时间、金额，统计出公司在一定时间段内的交通支出费用(具体是指乘坐火车出行的费用)。

另一可选实施例中，还假设了这样的一种实际场景：评估房产贷款业务存在的风险。该场景中，银行后台数据库中存储有大量图片，包括针对各类业务的审核文件的图片，比如申请表、身份证明、房产证、公积金证明。该场景中，上述检索输入图像可以是银行工作人员拍摄的一张房产贷款申请表的图片c，上述待处理图像可以是从银行后台数据库中选择一张图片d，从而，通过确定图片c与图片d各自对应的图结构特征之间的差异度，可以确定图片d是否为一张房产贷款申请表的图片，若是，则输出图片d作为一个搜索结果。基于上述搜索过程，可以将银行后台数据库中的房产贷款申请表都搜索出来，从而，根据搜索出的这些房产贷款申请表中的申请人收入情况、申请金额、还款方式，分析出银行在一定时间段内房产贷款业务的办理情况(比如申请人收入水平、总申请金额)。

另一可选实施例中，假设了这样的一种实际场景：某商家需要对店里的某些商品进行盘点。该场景中，商家可以在每种商品到货时，对商品包装进行拍摄得到这种商品对应的商品图像，其中，在对商品包装进行拍摄时，需要拍摄到商品说明信息。实际应用中，该商品说明信息可以包括商品名称、类型、产地、生产许可证号、生产日期、成分、二维码或条形码，等等。基于此，在管理平台中，可以存储各种商品图像与相应商品的销售情况(可以包括库存量、销售记录详情)的对应关系，可以理解的是，每当某种商品出售出一个，该商品的库存量将减一。当该商家想要对清点某种商品的库存量时，可以实时对这种商品进行拍摄，得到一张包含其上述商品说明信息的图像作为检索输入图像，管理平台中存储的上述全部商品图像组成检索目标数据库，从该检索目标数据库中依次选择一张图像作为待处理图像，通过对检索输入图像与待处理图像进行文本块的识别，基于识别的文本块生成各自对应的图结构特征，从而，根据检索输入图像的图结构特征与待处理图像的图结构特征之间的差异度，确定当前选择的待处理图像是否与检索输入图像匹配，若匹配，则说明当前选择的待处理图像即为与当前需要盘点的商品对应的商品图像。此时，可以将管理平台中与该待处理图像对应的库存量等销售信息展示出来以供商家查阅。

上述实施例中的图像搜索方法的具体过程，可以参见前文理解。

综上，本发明实施例提供的图像搜索方法中，由于属于同一类别的多个图像在图结构特征上会体现出一定的相似性，因此，对与检索输入图像相似的待处理图像的搜索主要是通过对比检索输入图像与待处理图像各自对应的图结构特征来实现的。由于图结构特征中同时考虑的文本内容以及文本内容间的位置关系，使得搜索结果的准确性得到有效保证。

前文介绍了图像搜索方法的执行过程，下面简要介绍其中涉及到的第一图卷积神经网络模型和第二图卷积神经网络模型的训练过程。

首先，收集大量训练样本，该训练样本包括多个检索输入图像以及与该多个检索输入图像分别属于同种类别的多个样本图像。接着，对多个检索输入图像各自包含的文本内容进行标注，这里，为了与前文中的多个第一文本块进行区别，将任意检索输入图像的标注结果称为多个第三文本块。可以理解的，多个第三文本块的标注方式与前文中多个第一文本块的标注方式相同。对多个样本图像各自包含的文本内容进行识别，这里，为了与前文中的多个第二文本块进行区别，将任意样本图像的识别结果称为多个第四文本块。可以理解的，多个第四文本块的识别方式与前文中多个第二文本块的识别方式相同。之后，再将多个检索输入图像和多个样本图像进行两两配对，以任一标注后的检索输入图像X和任一识别后的样本图像Y作为一对输入，根据检索输入图像X中包含的多个第三文本块生成第三图结构特征，根据样本图像Y中包含的多个第四文本块生成第四图结构特征。此处，第三图结构特征的获取方式与第一图结构特征的获取方式一致，第四图结构特征的获取方式与第二图结构特征的获取方式一致，不再赘述。从而，将第三图结构特征输入到第一图卷积神经网络模型，并将第四图结构特征输入到第二图卷积神经网络模型，用以训练第一图卷积神经网络模型和第二图卷积神经网络模型。

在训练第一图卷积神经网络模型和第二图卷积神经网络模型的过程中，对各个第三文本块的处理过程与前文中对第一文本块i的处理过程是一致的，对各个第四文本块的处理过程与前文中对第二文本块p的处理过程也是一致的，不再赘述。

针对配对输入的任一检索输入图像X和任一样本图像Y，最终输出的是对该任一样本图像Y是否匹配于该任一检索输入图像X的预测结果，需要根据该预测结果与预先为这对输入设置的标签结果进行对比，以确定模型的损失函数。

本文中，第一图卷积神经网络模型和第二图卷积神经网络模型的损失函数如下：

L_pair＝max{0，γ-t(1-s(G_src，G_tgt))}

其中，L_pair为损失函数，γ为预设值，G_src为第一图卷积神经网络模型输出的与多个第三文本块对应的编码向量的均值，G_tgt为第二图卷积神经网络模型输出的与多个第四文本块对应的编码向量的均值，s(G_src，G_tgt)为G_src与G_tgt的距离；若任一检索输入图像与任一样本图像对应于同一类别，则t的值设置为1，若任一检索输入图像与任一样本图像对应于不同类别，则t的值设置为-1。基于该损失函数对第一图卷积神经网络模型和第二图卷积神经网络模型进行参数的反馈调节，直至这两个模型收敛。

综上，本发明实施例提供的模型训练方法中，通过对多种类别的训练样本(检索输入图像与样本图像)的使用，可以让模型具有学习各种不同类别的检索输入图像与其对应的样本图像在图结构特征上的对应关系的能力。也就是说，通过这种模型训练方法，最终可以得到通用的可以实现图像匹配处理的模型，该图像匹配是指检索输入图像与其对应的同一类别样本图像之间的匹配。基于此，即使在模型训练阶段未使用过某种类别的检索输入图像，但是，如果实际应用中需要处理搜索与该检索输入图像匹配的图像的任务，也可以使用该模型实现，此时，仅需要定义一个这种类别的检索输入图像即可。

以下将详细描述本发明的一个或多个实施例的图像搜索装置。本领域技术人员可以理解，这些图像搜索装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图9为本发明实施例提供的一种图像搜索装置的结构示意图，如图9所示，该图像搜索装置包括：获取模块11、搜索模块12。

获取模块11，用于获取检索输入图像，其中，所述检索输入图像中包含多个第一文本块；从检索目标数据库中，选择待处理图像，所述待处理图像中包含多个第二文本块。

搜索模块12，用于根据所述多个第一文本块生成第一图结构特征，根据所述多个第二文本块生成第二图结构特征；确定所述第一图结构特征和所述第二图结构特征满足预设条件；输出所述待处理图像作为搜索结果。

可选地，在根据所述多个第一文本块生成第一图结构特征的过程中，搜索模块12具体可以用于：根据所述多个第一文本块各自包含的文本内容，生成所述多个第一文本块各自对应的语义向量；根据所述多个第一文本块彼此的位置关系，生成不同第一文本块之间对应的位置关系向量；生成由多组第一特征向量组成的所述第一图结构特征，其中，每组第一特征向量由第一文本块i对应的语义向量、第一文本块j对应的语义向量以及第一文本块i与第一文本块j之间的位置关系向量组成，所述第一文本块i是所述多个第一文本块中的任一个，所述第一文本块j是所述多个第一文本块中除第一文本块i外的任一个。

可选地，在根据所述多个第一文本块各自包含的文本内容，生成所述多个第一文本块各自对应的语义向量的过程中，搜索模块12具体可以用于：对所述多个第一文本块各自包含的词语进行编码，以获得对应的词向量；对每个第一文本块对应的多个词向量进行求均值计算，以得到每个第一文本块对应的语义向量。

可选地，所述第一文本块i和所述第一文本块j之间对应的位置关系向量包括如下至少一种比值：所述第一文本块i的宽高比；所述第一文本块j的宽度与所述第一文本块i的高度的比值；所述第一文本块j与所述第一文本块i的水平距离，与所述第一文本块i的高度的比值；所述第一文本块j与所述第一文本块i的垂直距离，与所述第一文本块i的高度的比值。

可选地，在根据所述多个第二文本块生成第二图结构特征的过程中，搜索模块12具体可以用于：根据所述多个第一文本块和所述多个第二文本块生成第二图结构特征。

可选地，在根据所述多个第一文本块和所述多个第二文本块生成第二图结构特征的过程中，搜索模块12具体可以用于：根据所述多个第二文本块各自包含的文本内容，生成所述多个第二文本块各自对应的语义向量；根据所述多个第二文本块彼此的位置关系，生成不同第二文本块之间对应的位置关系向量；生成由多组第二特征向量和多组第三特征向量组成的所述第二图结构特征，其中，每组第二特征向量由第二文本块p对应的语义向量、第二文本块q对应的语义向量以及第二文本块p与第二文本块q之间的位置关系向量组成，所述第二文本块p是所述多个第二文本块中的任一个，所述第二文本块q是所述多个第二文本块中除第二文本块p外的任一个；每组第三特征向量中包括第一文本块i对应的语义向量和第二文本块p对应的语义向量，所述第一文本块i是所述多个第一文本块中的任一个。

可选地，所述预设条件包括所述第一图结构特征与所述第二图结构特征的差异度小于设定阈值。

可选地，在确定所述第一图结构特征与所述第二图结构特征满足预设条件的过程中，搜索模块12具体可以用于：将所述第一图结构特征输入到第一图卷积神经网络模型中，以通过所述第一图卷积神经网络模型输出所述多个第一文本块各自对应的编码向量；将所述第二图结构特征输入到第二图卷积神经网络模型中，以通过所述第二图卷积神经网络模型输出所述多个第二文本块各自对应的编码向量；根据所述多个第一文本块各自对应的编码向量和所述多个第二文本块各自对应的编码向量，确定所述第一图结构特征与所述第二图结构特征的差异度；若所述差异度小于设定阈值，则所述第一图结构特征与所述第二图结构特征满足所述预设条件。

可选地，在根据所述多个第一文本块各自对应的编码向量和所述多个第二文本块各自对应的编码向量，确定所述第一图结构特征与所述第二图结构特征的差异度的过程中，搜索模块12具体可以用于：确定所述多个第一文本块各自对应的编码向量的第一均值，以及确定所述多个第二文本块各自对应的编码向量的第二均值；根据所述第一均值和所述第二均值，确定所述第一图结构特征与所述第二图结构特征的差异度。

可选地，该装置还包括训练模块。该训练模块用于获取多个检索输入图像以及与所述多个检索输入图像分别属于同种类别的多个样本图像；标注所述多个检索输入图像中各自包含的多个第三文本块；识别所述多个样本图像中各自包含的多个第四文本块；以任一检索输入图像和任一样本图像作为一对输入，根据所述多个第三文本块生成第三图结构特征，根据所述多个第三文本块和所述多个第四文本块生成第四图结构特征，将所述第三图结构特征和所述第四图结构特征分别输入到所述第一图卷积神经网络模型和所述第二图卷积神经网络模型，以训练所述第一图卷积神经网络模型和所述第二图卷积神经网络模型。

其中，所述第一图卷积神经网络模型和所述第二图卷积神经网络模型的损失函数为：

L_pair＝max{0，γ-t(1-s(G_src，G_tgt))}

其中，L为损失函数，r为预设值，G_src为所述第一图卷积神经网络模型输出的与所述多个第三文本块对应的编码向量的均值，G_tgt为所述第二图卷积神经网络模型输出的与所述多个第四文本块对应的编码向量的均值，s(G_src，G_tgt)为G_src与G_tgt的距离；若所述任一检索输入图像与所述任一样本图像对应于同一类别，则t＝1，若所述任一检索输入图像与所述任一样本图像对应于不同类别，则t＝-1。

图9所示图像搜索装置可以执行前述各实施例中提供的方法，本实施例未详细描述的部分，可参考前述实施例的相关说明，在此不再赘述。

在一个可能的设计中，上述图9所示的图像搜索装置的结构可实现为一电子设备。如图10所示，该电子设备可以包括：处理器21、存储器22。其中，所述存储器22上存储有可执行代码，当所述可执行代码被所述处理器21执行时，至少使所述处理器21可以实现如前述实施例中提供的图像搜索方法。

其中，该电子设备的结构中还可以包括通信接口23，用于与其他设备或通信网络通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被无线路由器的处理器执行时，使所述处理器执行前述各实施例中提供的图像搜索方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的各个模块可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的描述，本领域的技术人员可以清楚地了解到各实施例可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像搜索方法，其特征在于，包括：

获取检索输入图像，其中，所述检索输入图像中包含多个第一文本块；

从检索目标数据库中，选择待处理图像，其中，所述待处理图像中包含多个第二文本块；

根据所述多个第一文本块生成第一图结构特征，根据所述多个第二文本块生成第二图结构特征；

确定所述第一图结构特征和所述第二图结构特征满足预设条件；

输出所述待处理图像作为搜索结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个第一文本块生成第一图结构特征，包括：

根据所述多个第一文本块各自包含的文本内容，生成所述多个第一文本块各自对应的语义向量；

根据所述多个第一文本块彼此的位置关系，生成不同第一文本块之间对应的位置关系向量；

生成由多组第一特征向量组成的所述第一图结构特征，其中，每组第一特征向量由第一文本块i对应的语义向量、第一文本块j对应的语义向量以及第一文本块i与第一文本块j之间的位置关系向量组成，所述第一文本块i是所述多个第一文本块中的任一个，所述第一文本块j是所述多个第一文本块中除第一文本块i外的任一个。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一文本块各自包含的文本内容，生成所述多个第一文本块各自对应的语义向量，包括：

对所述多个第一文本块各自包含的词语进行编码，以获得对应的词向量；

对每个第一文本块对应的多个词向量进行求均值计算，以得到每个第一文本块对应的语义向量。

4.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一文本块彼此的位置关系，生成不同第一文本块之间对应的位置关系向量，包括：

对于所述第一文本块i和所述第一文本块j，确定所述第一文本块i和所述第一文本块j之间对应的位置关系向量包括如下至少一种比值：

所述第一文本块i的宽高比；

所述第一文本块j的宽度与所述第一文本块i的高度的比值；

所述第一文本块j与所述第一文本块i的水平距离，与所述第一文本块i的高度的比值；

所述第一文本块j与所述第一文本块i的垂直距离，与所述第一文本块i的高度的比值。

5.根据权利要求1所述的方法，其特征在于，所述根据所述多个第二文本块生成第二图结构特征，包括：

根据所述多个第一文本块和所述多个第二文本块生成第二图结构特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个第一文本块和所述多个第二文本块生成第二图结构特征，包括：

根据所述多个第二文本块各自包含的文本内容，生成所述多个第二文本块各自对应的语义向量；

根据所述多个第二文本块彼此的位置关系，生成不同第二文本块之间对应的位置关系向量；

生成由多组第二特征向量和多组第三特征向量组成的所述第二图结构特征，其中，每组第二特征向量由第二文本块p对应的语义向量、第二文本块q对应的语义向量以及第二文本块p与第二文本块q之间的位置关系向量组成，所述第二文本块p是所述多个第二文本块中的任一个，所述第二文本块q是所述多个第二文本块中除第二文本块p外的任一个；每组第三特征向量中包括第一文本块i对应的语义向量和第二文本块p对应的语义向量，所述第一文本块i是所述多个第一文本块中的任一个。

7.根据权利要求1所述的方法，其特征在于，所述预设条件包括所述第一图结构特征与所述第二图结构特征的差异度小于设定阈值。

8.根据权利要求7所述的方法，其特征在于，所述确定所述第一图结构特征与所述第二图结构特征满足预设条件，包括：

将所述第一图结构特征输入到第一图卷积神经网络模型中，以通过所述第一图卷积神经网络模型输出所述多个第一文本块各自对应的编码向量；

将所述第二图结构特征输入到第二图卷积神经网络模型中，以通过所述第二图卷积神经网络模型输出所述多个第二文本块各自对应的编码向量；

根据所述多个第一文本块各自对应的编码向量和所述多个第二文本块各自对应的编码向量，确定所述第一图结构特征与所述第二图结构特征的差异度；

若所述差异度小于设定阈值，则所述第一图结构特征与所述第二图结构特征满足所述预设条件。

9.根据权利要求8所述的方法，其特征在于，所述根据所述多个第一文本块各自对应的编码向量和所述多个第二文本块各自对应的编码向量，确定所述第一图结构特征与所述第二图结构特征的差异度，包括：

确定所述多个第一文本块各自对应的编码向量的第一均值，以及确定所述多个第二文本块各自对应的编码向量的第二均值；

根据所述第一均值和所述第二均值，确定所述第一图结构特征与所述第二图结构特征的差异度。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个检索输入图像以及与所述多个检索输入图像分别属于同种类别的多个样本图像；

标注所述多个检索输入图像中各自包含的多个第三文本块；

识别所述多个样本图像中各自包含的多个第四文本块；

以任一检索输入图像和任一样本图像作为一对输入，根据所述多个第三文本块生成第三图结构特征，根据所述多个第四文本块生成第四图结构特征，将所述第三图结构特征和所述第四图结构特征分别输入到所述第一图卷积神经网络模型和所述第二图卷积神经网络模型，以训练所述第一图卷积神经网络模型和所述第二图卷积神经网络模型。

11.根据权利要求10所述的方法，其特征在于，所述第一图卷积神经网络模型和所述第二图卷积神经网络模型的损失函数为：

L_pair＝max{0，γ-t(1-s(G_src，G_tgt))}

12.一种图像搜索装置，其特征在于，包括：

获取模块，用于获取检索输入图像，其中，所述检索输入图像中包含多个第一文本块；从检索目标数据库中，选择待处理图像，所述待处理图像中包含多个第二文本块；

搜索模块，用于根据所述多个第一文本块生成第一图结构特征，根据所述多个第二文本块生成第二图结构特征；确定所述第一图结构特征和所述第二图结构特征满足预设条件；输出所述待处理图像作为搜索结果。

13.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至11中任一项所述的图像搜索方法。