CN115880697B

CN115880697B - 图像搜索方法、装置、可读存储介质及电子设备

Info

Publication number: CN115880697B
Application number: CN202310075603.7A
Authority: CN
Inventors: 莫宇; 林翔鹏
Original assignee: Tianyi Cloud Technology Co Ltd
Current assignee: Tianyi Cloud Technology Co Ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2024-01-09
Anticipated expiration: 2043-02-07
Also published as: CN115880697A

Abstract

本发明提供了一种图像搜索方法、装置、计算机可读存储介质及电子设备，该方法包括：获取待匹配图像；确定所述待匹配图像对应的第一特征字符串；获取每张素材图像分别对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于第一预设阈值，每行字数大于第二预设阈值；计算所述第一特征字符串和所述第二特征字符串间的编辑距离；并基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像。本发明提供的技术方案在图像包含较多文本时，可以在素材图像中准确地搜索出目标图像，搜索准确率较高。

Description

图像搜索方法、装置、可读存储介质及电子设备

技术领域

本发明涉及图像处理技术领域，且更具体地，涉及图像搜索方法、装置、可读存储介质及电子设备。

背景技术

目前，在进行图像搜索时，常常用同一个深度卷积网络模型提取待匹配的图像的特征向量，归一化提取到的特征向量，通过内积计算待匹配图像的归一化特征向量和素材库各图像的归一化特征向量的匹配度完成图像的搜索匹配。然而，在图像中包含文本较多时，由于这种场景下的文本图像在布局上比较相似，深度网络模型提取的特性向量区分度不大，导致图像的搜索准确率不高。

发明内容

本发明提供了一种图像搜索方法、装置、计算机可读存储介质及电子设备，以解决现有技术中图像搜索的准确率不高的技术问题。

根据本发明的第一方面，提供了一种图像搜索方法，包括：

获取待匹配图像；

确定所述待匹配图像对应的第一特征字符串；

获取每张素材图像分别对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于第一预设阈值，每行字数大于第二预设阈值；

计算所述第一特征字符串和所述第二特征字符串间的编辑距离；并基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像。

可选地，所述确定所述待匹配图像对应的第一特征字符串，包括：

对所述待匹配图像进行文本位置检测，确定所述待匹配图像中文本的边界框，以及每个所述边界框的中心点位置信息；

基于所述边界框，从所述待匹配图像中切割出子图像；并对每个所述子图像进行文字识别，确定每个所述子图像对应的文字内容；

基于所述边界框的中心点位置信息和预设位置顺序，对所述文字内容进行拼接，确定所述待匹配图像对应的所述第一特征字符串。

可选地，所述计算所述第一特征字符串和所述第二特征字符串间的编辑距离，包括：

在所述第二特征字符串中，选取一个当前特征字符串；

确定所述第一特征字符串和所述当前特征字符串的长度差值；

在所述长度差值大于或等于当前距离阈值的情况下，在所述第二特征字符串中，选取下一个当前特征字符串；

在所述长度差值小于所述当前距离阈值的情况下，确定所述第一特征字符串和所述当前特征字符串间的编辑距离；并在所述第二特征字符串中，选取下一个当前特征字符串。

可选地，在所述确定所述第一特征字符串和所述当前特征字符串间的编辑距离的步骤后，所述方法还包括：

在所述编辑距离小于所述当前距离阈值的情况下，将所述编辑距离设置为新的当前距离阈值；

所述基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像，包括：

在遍历所有所述第二特征字符串后，将与所述编辑距离的最小值对应的素材图像确定为所述目标图像。

可选地，所述获取每张素材图像分别对应的第二特征字符串的步骤前，所述方法还包括：

确定所述待匹配图像对应的分组信息；

基于所述分组信息，确定素材图像。

可选地，在所述待匹配图像为教辅图像的情况下，所述分组信息包括年级信息和/或学科信息。

可选地，在所述待匹配图像为教辅图像的情况下，所述在所述素材图像中搜索出与所述待匹配图像匹配的目标图像的步骤后，所述方法还包括：

确定与所述目标图像对应的标注答案；

将所述待匹配图像中的作答答案与所述标注答案进行对比，确定所述待匹配图像对应的批改结果，并返回所述批改结果。

在所述待匹配图像为教辅图像的情况下，所述在所述素材图像中搜索出与所述待匹配图像匹配的目标图像的步骤后，所述方法还包括：

确定与所述目标图像对应的标注答案；

返回所述目标图像和所述标注答案。

所述获取待匹配图像；确定所述待匹配图像对应的第一特征字符串，包括：

基于图像搜索模块的匹配接口，获取所述待匹配图像；所述图像搜索模块通过OCR模块的接口获取所述待匹配图像对应的所述第一特征字符串；所述图像搜索模块基于特征字符串匹配接口将所述第一特征字符串传入特征字符串匹配模块；

所述获取每张素材图像分别对应的第二特征字符串，以及所述计算所述第一特征字符串和所述第二特征字符串间的编辑距离；并基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像，包括：

所述特征字符串匹配模块读取所述特征字符串匹配模块缓存内的每张素材图像分别对应的第二特征字符串，并计算所述第一特征字符串和所述第二特征字符串间的编辑距离；基于所述编辑距离，确定出与所述待匹配图像匹配的目标索引信息；将所述目标索引信息返回给所述图像搜索模块，所述图像搜索模块基于所述目标索引信息，获取所述目标图像，返回所述目标图像。

可选地，所述基于图像搜索模块的匹配接口，获取所述待匹配图像的步骤前，所述方法还包括：

在接收到底库创建指令的情况下，创建素材图像信息底库；

在图像搜索模块的底库记录项添加接口接收到向所述素材图像信息底库添加的素材图像的记录项时，所述记录项包括素材图像和所述素材图像对应的附加信息；所述图像搜索模块通过OCR模块的接口，获取所述素材图像的所述第二特征字符串；所述图像搜索模块将所述素材图像的路径信息和所述附加信息写入所述素材图像信息底库；所述图像搜索模块将所述素材图像信息底库中数据的索引信息及所述第二特征字符串导入到特征字符串匹配模块缓存中。

可选地，所述图像搜索模块基于所述目标索引信息，获取所述目标图像，返回所述目标图像，包括：

所述图像搜索模块基于所述目标索引信息从所述素材图像信息底库中确定出所述目标图像和所述目标图像对应的目标附加信息，返回所述目标图像和所述目标附加信息。

可选地，所述密集文本图像中文本行数大于第一预设阈值，平均每行字数大于第二预设阈值，所述第一预设阈值为15行，所述第二预设阈值为10个。

根据本发明的第二方面，提供了一种图像搜索装置，包括：

图像搜索模块，用于获取待匹配图像；

OCR模块，用于确定所述待匹配图像对应的第一特征字符串；

特征字符串匹配模块，用于获取素材图像对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于第一阈值，每行字数大于第二阈值；确定所述第一特征字符串和所述第二特征字符串间的编辑距离；基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像。

可选地，所述特征字符串匹配模块，包括：

位置信息确定单元，用于对所述待匹配图像进行文本位置检测，确定所述待匹配图像中文本的边界框，以及每个所述边界框的中心点位置信息；

文本内容确定单元，用于基于所述边界框，从所述待匹配图像中切割出子图像；并对每个所述子图像进行文字识别，确定每个所述子图像对应的文字内容；

字符串确定单元，用于基于所述边界框的中心点位置信息和预设位置顺序，对所述文字内容进行拼接，确定所述待匹配图像对应的所述第一特征字符串。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述图像搜索方法。

根据本发明的第四方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述的图像搜索方法。

与现有技术相比，本发明提供的图像搜索方法、装置、计算机可读存储介质及电子设备，至少包括以下有益效果：

本发明的技术方案在获取到待匹配图像后，确定待匹配图像对应的第一特征字符串，第一特征字符串可以对待匹配图像中的文本信息进行准确表示。获取每张素材图像分别对应的第二特征字符串，每个第二特征字符串可以对对应的素材图像中的文本信息进行准确表示，其中素材图像为预先收集的密集文本图像，密集文本图像中文本行数大于第一预设阈值，每行字数大于第二预设阈值。然后计算第一特征字符串和第二特征字符串间的编辑距离，该编辑距离可以准确地评估出与第一特征字符串对应的待匹配图像和与第二特征字符串对应的素材图像间的匹配程度，编辑距离越大，匹配程度越低，编辑距离越小，匹配程度越高，因此可以根据编辑距离，在素材图像中搜索出与待匹配图像匹配的目标图像，该目标图像的准确性较好，有效提升对于多文本图像搜索的准确性，提升搜索结果的置信度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一示例性实施例提供的图像搜索方法的流程示意图一；

图2是本发明一示例性实施例提供的图像搜索方法的流程示意图二；

图3是本发明一示例性实施例提供的图像搜索装置的结构示意图；

图4是本发明一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将结合本中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例，都属于本实施例保护的范围。

示例性方法

图1是本发明一示例性实施例提供的图像搜索方法的流程示意图，至少包括如下步骤：

步骤10，获取待匹配图像。

其中，待匹配图像为用户输入图像，需要以该图像进行搜索。具体地，待匹配图像可以为教辅图像。

在一种可能的应用场景中，用户打开客户端的交互页面，在交互页面输入一张图像，然后用户下达搜索指令，该图像即为待匹配图像，客户端将待匹配图像发送至服务器，服务器接收该待匹配图像即获取到待匹配图像。

步骤20，确定所述待匹配图像对应的第一特征字符串。

其中，第一特征字符串为待匹配图像中的文字内容的拼接结果，可用于准确地表示待匹配图像中的文本信息。

在一实施例中，所述步骤20，包括：

步骤201，对所述待匹配图像进行文本位置检测，确定所述待匹配图像中文本的边界框，以及每个所述边界框的中心点位置信息。

其中，边界框用于界定待匹配图像中的文本位置，为文本位置检测的结果，确定出每个边界框具有一个中心点，该中心点在待匹配图像中的分布区域即为中心点位置，如左上、左下、右上、右下等。

步骤202，基于所述边界框，从所述待匹配图像中切割出子图像；并对每个所述子图像进行文字识别，确定每个所述子图像对应的文字内容。

其中，子图像为待匹配图像中的一部分，将边界框从待匹配图像中进行切割，得到的每个切割结果即为一张子图像，因此一个边界框会切割出一张子图像，边界框与子图像具有一一对应关系。

进一步地，对子图像进行文字识别，以确定出每张子图像对应的文字内容。先对待匹配图像进行切割，以使得在进行文字识别时，每张子图像中的内容较少，有利于对每张子图像进行准确地识别。

步骤203，基于所述边界框的中心点位置信息和预设位置顺序，对所述文字内容进行拼接，确定所述待匹配图像对应的所述第一特征字符串。

其中，预设位置顺序为预先设定的边界框的中心点位置顺序，例如第一位为左上、第二位为右上、第三位为左下、第四位为右下。因为边界框与子图像具有一一对应关系，每张子图像识别出一个文字内容，即文字内容与边界框具有对应关系，一个边界框具有一个中心点位置，因此一个文字内容对应一个边界框的中心点位置信息，根据预设位置顺序，确定出每个边界框的中心点位置信息对应的拼接位置或拼接顺序，将文字内容按照拼接位置或拼接顺序进行拼接，得到待匹配图像对应的第一特征字符串。

在本实施例中，先对待匹配图像进行文本位置检测，以确定出待匹配图像中文本的所在区域，并利用边界框对文本的所在区域进行划分，得到待匹配图像中不同区域文本分别对应的边界框，确定每个边界框的中心点位置信息。在待匹配图像中基于边界框所在的位置进行切割，得到多张子图像，对每张子图像分别进行文字识别，得到每张子图像分别对应的文字内容。一个文字内容对应有一个边界框的中心点位置信息，根据预设位置顺序，确定每个文字内容的拼接位置或拼接顺序，按照拼接位置或拼接顺序对文本内容进行拼接，得到待匹配图像对应的第一特征字符串，该第一特征字符串可以准确地表示出待匹配图像中的文字内容。

步骤30，获取每张素材图像分别对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于第一预设阈值，每行字数大于第二预设阈值。

其中，每一张素材图像对应一个第二特征字符串，第二特征字符串为素材图像中的文字内容的拼接结果，可用于准确地表示出对应的素材图像中的文字内容。密集文本图像表示素材图像中包含较多的文字，即文本行数大于第一预设阈值，每行字数大于第二预设阈值。进一步地，密集文本图像的文本行数大于第一预设阈值，平均每行字数大于第二预设阈值，第一预设阈值可以为15，第二预设阈值可以为10。

在一种可能的实现方式中，预先对密集文本图像进行收集，针对每张收集到的密集文本图像，对密集文本图像进行文本位置检测，确定密集文本图像中文字的边界框，以及每个边界框的中心点位置信息，基于边界框，从将密集文本图像中切割出子图像，并对每张子图像进行文字识别，确定每张子图像对应的文字内容，基于边界框的中心点位置和预设位置顺序，对文字内容进行拼接，确定密集文本图像对应的第二特征字符串。将确定出的密集文本图像对应的第二特征字符串进行存储，在执行步骤30时，从存储数据中即可以获取到每张素材图像分别对应的第二特征字符串。

在一些实施例中，在步骤30前，所述方法还包括：

步骤50，确定所述待匹配图像对应的分组信息；基于所述分组信息，确定素材图像。

在本实施例中，预先对图像进行分组，不同分组对应不同图像，在获取到待匹配图像后，确定待匹配图像对应的分组信息，然后根据分组信息，选取与该分组信息相同的素材图像。通过对图像进行分组，有效减少素材图像的数量，提高数据计算效率。

在待匹配图像为教辅图像的情况下，分组信息包括年级信息和/或学科信息，其中年级信息可以为小学、中学、高中。当然，年级信息也可以为进一步的划分，如中学一年级、中学二年级和中学三年级等。学科信息包括所属科目和教辅名称，所属科目如语文、数学、英语等，教辅名称用于对教辅材料进行区分。确定出待匹配图像的年级信息和学科信息，选取出与待匹配图像的年级信息和学科信息均相同的素材图像，并后续执行步骤30。

步骤40，计算所述第一特征字符串和所述第二特征字符串间的编辑距离；并基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像。

其中，编辑距离是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。

具体地，在获取到第一特征字符串和第二特征字符串后，计算第一特征字符串和第二特征字符串间的编辑距离，并根据计算出的编辑距离，在素材图像中搜索出与待匹配图像匹配的目标图像。

在一种可能的实现方式中，确定出第一特征字符串和每一第二特征字符串间的编辑距离，在编辑距离中确定出最小值，将编辑距离的最小值对应的素材图像确定为与待匹配图像匹配的目标图像，该目标图像即为图像搜索结果，向用户返回该图像搜索结果。

在一实施例中，所述步骤40计算所述第一特征字符串和所述第二特征字符串间的编辑距离；并基于所述编辑距离，在所述素材图像中搜索出与所述待匹配图像匹配的目标图像，包括：

步骤401，在所述第二特征字符串中，选取一个当前特征字符串。

其中，当前特征字符串为第二特征字符串中的一个。当然也可以在素材图片中随机选取一张当前素材图片，在第二特征字符串中，将该当前素材图片对应的第二特征字符串确定为当前特征字符串。

在一种可能的实现方式中，在第二特征字符串中进行随机选取，确定出一个当前特征字符串。在一种可能的实现方式中，确定各个第二特征字符串对应的序号，将符合设定值的序号（如1号）对应的第二特征字符串选取为当前特征字符串。

步骤402，确定所述第一特征字符串和所述当前特征字符串的长度差值。

具体地，确定出第一特征字符串的第一字符长度，确定出当前特征字符串的第二字符长度，确定第一字符长度和第二字符长度的长度差值，该长度差值可用于对第一特征字符串和当前特征字符串的匹配程度进行初步评估，长度差值越大，表明第一特征字符串和当前特征字符串间的差异越大，匹配的可能性越低；长度差值越小，表明第一特征字符串和当前特征字符串间的差异越小，匹配的可能性较高。

步骤403，在所述长度差值大于或等于当前距离阈值的情况下，在所述第二特征字符串中，选取下一个当前特征字符串。

具体地，在长度差值大于或等于当前距离阈值的情况下，表明第一特征字符串和当前特征字符串间的差异较大，待匹配图像与该当前特征字符串对应的素材图像匹配的可能性较小，因此过滤该素材图像。并在第二特征字符串中选取出下一个当前特征字符串，从而通过长度差值实现对第二特征字符串的初步过滤，避免计算第一特征字符串与每个第二特征字符串间的编辑距离，有效减少数据量，提高计算效率。

在一种可能的情况下，若采用随机选取的方式进行当前特征字符串的选取，则在第二特征字符串中选取一个未被选取过的第二特征字符串作为下一个当前特征字符串，直至不存在未被选取过的第二特征字符串。若采用按序的方式进行当前特征字符串的选取，则将序号排在当前特征字符串下一位的第二特征字符串作为新的当前特征字符串，在确定出当前特征字符串后，再次执行步骤402。

步骤404，在所述长度差值小于所述当前距离阈值的情况下，确定所述第一特征字符串和所述当前特征字符串间的编辑距离；并在所述第二特征字符串中，选取下一个当前特征字符串。

具体地，在长度差值小于当前距离阈值的情况下，确定第一特征字符串和当前特征字符串间的编辑距离，并在第二特征字符串中，选取下一个当前特征字符串，在选取出当前特征字符串后，再次执行步骤402。

在一种可能的实现方式中，当前距离阈值保持不变，在遍历完所有第二特征字符串后，确定出编辑距离的最小值，然后将编辑距离的最小值对应的素材图像确定为目标图像。

在一种可能的实现方式中，当前距离阈值改变，相应地，在所述确定所述第一特征字符串和所述当前特征字符串间的编辑距离的步骤后，所述方法还包括：在所述编辑距离小于所述当前距离阈值的情况下，将所述编辑距离设置为新的当前距离阈值。

在此实现方式中，在步骤404中确定出第一特征字符串和当前特征字符串间的编辑距离后，将该编辑距离与当前距离阈值进行比较，若编辑距离小于当前距离阈值，将计算出的编辑距离设置为新的当前距离阈值，也就是说对于下一个当前特征字符串，则使用新的当前距离阈值进行判断，从而有效提升编辑距离计算的有效性，对于没有可能成为最小编辑距离的素材图像进行过滤，提升数据计算效率。

举例来说，存在若干个第二特征字符串，预先设置一当前距离阈值。在若干个第二特征字符串中选取第一个当前特征字符串，确定第一特征字符串与第一个当前特征字符串的长度差值，在该长度差值大于或等于当前距离阈值的情况下，在若干个第二特征字符串中选取第二个当前特征字符串，并继续确定第一特征字符串与第二个当前特征字符串的长度差值。

进一步地，在第一特征字符串与第一个当前特征字符串的长度差值小于当前距离阈值的情况下，计算第一特征字符串和当前特征字符串间的编辑距离，若编辑距离大于或等于当前距离阈值，则在第二特征字符串中，选取第二个当前特征字符串，并继续确定第一特征字符串与第二个当前特征字符串的长度差值。若编辑距离小于当前距离阈值，则将编辑距离设置为新的当前距离阈值，并在第二特征字符串中，选取第二个当前特征字符串。继续确定第一特征字符串和第二个当前特征字符串的长度差值，此时在将长度差值与当前距离阈值进行比较时，使用是新的当前距离阈值，不断循环上述步骤直至遍历所有的第二特征字符串。通过不断的更新当前距离阈值，在遍历所有的第二特征字符串后，最新的当前距离阈值与编辑距离的最小值相对应，有利于快速准确地在素材图像中搜索出与待匹配图像匹配的目标图像。

在一实施例中，在待匹配图像为教辅图像的情况下，所述在所述素材图像中搜索出与所述待匹配图像匹配的目标图像的步骤后，所述方法还包括：

步骤60，确定与所述目标图像对应的标注答案；将所述待匹配图像中的作答答案与所述标注答案进行对比，确定所述待匹配图像对应的批改结果，并返回批改结果。

具体地，在待匹配图像为教辅图像的情况下，常常需要进行智能批改，因此确定出与目标图像对应的标注答案，该标注答案可以为预先为每张素材图像添加的附加信息，因此在确定出目标图像后，即可以确定出与目标图像对应的标注答案，然后将待匹配图像中的学生的作答答案与标注答案进行对比，确定待匹配图像对应的批改结果。准确的搜索结果为确定出准确的批评结果提供了可能性，提升作用批改的置信度。需要说明的是，对于智能批改而言，图像搜索结果的准确性至关重要，若匹配到错误的图像，则会导致批改错误，智能批改的置信度降低，影响用户的体验感。

在一实施例中，在所述待匹配图像为教辅图像的情况下，所述在所述素材图像中搜索出与所述待匹配图像匹配的目标图像的步骤后，所述方法还包括：确定与所述目标图像对应的标注答案；返回所述目标图像和所述标注答案。在本实施例中，在确定出目标图像后，确定出目标图像对应的标注答案，然后向用户返回给目标图像和标注答案，用户利用返回的目标图像和标注答案进行智能批改。

在上述实施例中，在获取到待匹配图像后，确定待匹配图像对应的第一特征字符串，第一特征字符串可以对待匹配图像中的文本信息进行准确表示。获取每张素材图像分别对应的第二特征字符串，每个第二特征字符串可以对对应的素材图像中的文本信息进行准确表示，其中素材图像为预先收集的密集文本图像，密集文本图像中文本行数大于第一预设阈值，每行字数大于第二预设阈值。然后计算第一特征字符串和第二特征字符串间的编辑距离，该编辑距离可以准确地评估出与第一特征字符串对应的待匹配图像和与第二特征字符串对应的素材图像间的匹配程度，编辑距离越大，匹配程度越低，编辑距离越小，匹配程度越高，因此可以根据编辑距离，在素材图像中搜索出与待匹配图像匹配的目标图像，该目标图像的准确性较好，有效提升对于多文本图像搜索的准确性，提升搜索结果的置信度。

图2是本发明一示例性实施例提供的图像搜索方法的流程示意图，该图像搜索方法应用于目标系统，所述目标系统包括图像搜索模块，OCR（Optical CharacterRecognition，光学字符识别）模块，特征字符串匹配模块，素材图像信息底库。

其中，图像搜索模块提供素材图像入库，待匹配图像搜索和底库信息管理功能。素材图像入库时，图像搜索模块通过OCR模块获取到图像的第二特征字符串，把第二特征字符串、素材图像路径信息、素材图像的元信息作为底库信息存到数据库中。待匹配图像搜索时，图像搜索模块通过OCR模块获取到待匹配图像的第一特征字符串，通过第一特征字符串请求特征字符串匹配模块进行匹配，返回被匹配素材图像的目标索引信息，图像搜索模块通过素材图像的目标索引信息从素材图像信息底库中查找到相应图像的元数据及其他数据，返回给客户端。

OCR模块提供文本检测和文字识别两个功能。文字检测用来定位文本的位置，文字检测按行检测出文字的位置并得到包括文字的边界框。根据边界框从图像中切割出包含文字的子图像，子图像在文字识别功能模块被识别出相应的文本内容。把文本内容按照相应的边界框的中心点位置关系进行拼接，边界框中心点位置按照左上到右下的位置关系进行排序，相应的文本内容也按照边界框中心点的排序关系进行拼接。最后把图像检测出的所有文本拼接成一个长字符串，将最后拼接出来的字符串作为图像的特征字符串。

特征字符串匹配模块提供特征字符串1：N的匹配功能。该模块缓存有所有素材图像的第二特征字符串及其存储在数据库的索引信息。缓存功能可以通过redis实现，也可以直接在本地缓存。特征字符串匹配模块通过计算请求体第一特征字符串和所有缓存的第二特征字符串之间的编辑距离，获得特征字符串之间的匹配程度。特征字符串之间的编辑距离越小，其匹配程度越高，反之越低。特征字符串匹配模块选择匹配度最高的被匹配素材图像的第二特征字符串并返回其在数据库的目标索引信息。

素材图像信息底库存放所有素材图像信息和图像对应的元数据和其他数据，在图像搜索时提供给图像搜索模块使用。其本质是一个数据库，图像搜索模块通过目标索引信息查找其中的素材图像数据。

在利用目标系统进行图像搜索时，具体包括如下步骤：

步骤S1，在接收到底库创建指令的情况下，创建素材图像信息底库。

具体地，先收集密集文本图像作为系统素材底库图像，把搜集到的素材集导入到目标系统进行管理。首先在系统的底库创建接口接收到底库创建指令时，创建一个新的素材图像信息底库。

步骤S2，在图像搜索模块的底库记录项添加接口接收到向所述素材图像信息底库添加的素材图像的记录项时，所述记录项包括素材图像和所述素材图像对应的附加信息；所述图像搜索模块通过OCR模块的接口，获取所述素材图像的所述第二特征字符串；所述图像搜索模块将所述素材图像的路径信息和所述附加信息写入所述素材图像信息底库；所述图像搜索模块将所述素材图像信息底库中数据的索引信息及所述第二特征字符串导入到特征字符串匹配模块缓存中。

具体地，用户通过系统的底库记录项添加接口（该接口由图像搜索模块提供）往新创建的素材图像信息底库添加素材图像的记录项，该记录项可以包括素材图像及其附加信息，比如素材图像展示的文本题目的题干及相应的答案。图像搜索模块收到用户通过接口添加的素材图像的记录项后，通过OCR模块的接口，获取到导入素材图像的第二特征字符串。图像搜索模块把素材图像的路径信息及导入的附加信息组成底库信息项写入到数据库中，路径信息指示素材图像保存的路径，其他附加信息由用户导入，比如教辅题目的标准答案，用于后面的教辅批改。图像搜索模块把导入素材图像存到数据库中的信息项的索引信息及其第二特征字符串通过特征字符串匹配模块的接口导入到特征字符串匹配模块的缓存中。

步骤S3，基于图像搜索模块的匹配接口，获取所述待匹配图像；所述图像搜索模块通过OCR模块的接口获取所述待匹配图像对应的所述第一特征字符串；所述图像搜索模块基于特征字符串匹配接口将所述第一特征字符串传入特征字符串匹配模块。

用户将待匹配密集文本图像导入到系统进行匹配。具体地，客户端通过目标系统的匹配接口向目标系统提交待匹配图像，该接口由图像搜索模块提供。图像搜索模块通过OCR模块的接口获取到待匹配图像的第一特征字符串。图像搜索模块请求特征字符串匹配模块的特征字符串匹配接口传入待匹配图像的第一特征字符串。

步骤S4，所述特征字符串匹配模块读取所述特征字符串匹配模块缓存内的每张素材图像分别对应的第二特征字符串，并计算所述第一特征字符串和所述第二特征字符串间的编辑距离；基于所述编辑距离，确定出与所述待匹配图像匹配的目标索引信息；将所述目标索引信息返回给所述图像搜索模块，所述图像搜索模块基于所述目标索引信息，获取所述目标图像，返回所述目标图像。

具体地，特征字符串匹配模块读取缓存内的第二特征字符串，计算第一特征字符串和第二特征字符串间的编辑距离，通过编辑距离的计算得到最匹配的素材图像的第二特征字符串，并返回最匹配的素材图像在数据库中存储的目标索引信息。

在一种可能的实现方式中，计算编辑距离时，通过编辑距离的当距离阈值，达到计算提前结束和计算剪枝的能力，从而加速编辑距离的计算。匹配算法细节如下：将当前距离阈值设置为无穷大，先计算待匹配特征字符串和素材图像特征字符串的长度差值，如果长度差值比当前距离阈值大，则不需要计算这两个特征字符串的编辑距离，因为这两个特征字符串的编辑距离不可能是最小的，直接过滤掉当前素材图像；如果长度差值比当前距离阈值小，则需要计算这两个特征字符串的编辑距离，在计算过程中编辑距离每一次增加都需要和当前距离阈值做比较，超过当前距离阈值则中断当前编辑距离的计算，因为当前素材图像的第二特征字符串和待匹配的图像的第一特征字符串的编辑距离不可能是最小的，如果整个编辑距离计算下来，得到的编辑距离比当前编辑距离要小，则更新当前距离阈值为当前计算值。执行此过程，直到遍历完所有素材图像的第二特征字符串，得到和待匹配图像的第一特征字符串编辑距离最小的素材图像的第二特征字符串。

进一步地，在获取到目标索引信息后，所述图像搜索模块基于所述目标索引信息从所述素材图像信息底库中确定出目标图像和所述目标图像对应的目标附加信息，返回所述目标图像和所述目标附加信息。即图像搜索模块根据特征字符串匹配模块返回的目标索引信息从数据库中查找最匹配的素材图像信息。图像搜索模块将查找到的素材图像信息全部返回给客户端。

在一种可能的实现方式中，在步骤S3中图像搜索模块基于特征字符串匹配接口不仅将所述第一特征字符串传入特征字符串匹配模块，还将待匹配图像所属的分组信息，对于教辅图像，分组信息是教辅图像所属科目，年级和教辅名称。相应地，在步骤S4中，特征字符串匹配模块基于分组信息，读取所述特征字符串匹配模块缓存内该分组信息内的每张素材图像分别对应的第二特征字符串，在计算第一特征字符串和第二特征字符串间的编辑距离时，遍历的也是该分组信息内的每张素材图像分别对应的第二特征字符串，以减少数据计算量，提高图像搜索效率。

示例性装置

基于与本发明方法实施例相同的构思，本发明实施例还提供了一种图像搜索装置。

图3示出了本发明一示例性实施例提供的图像搜索装置的结构示意图，包括：

图像搜索模块，用于获取待匹配图像；

OCR模块，用于确定所述待匹配图像对应的第一特征字符串；

在本发明一示例性实施例中，所述特征字符串匹配模块，包括：

第一选取单元，用于在所述第二特征字符串中，选取一个当前特征字符串；

差值确定单元，用于确定所述第一特征字符串和所述当前特征字符串的长度差值；

第二选取单元，用于在所述长度差值大于或等于当前距离阈值的情况下，在所述第二特征字符串中，选取下一个当前特征字符串；

第三选取单元，用于在所述长度差值小于所述当前距离阈值的情况下，确定所述第一特征字符串和所述当前特征字符串间的编辑距离；并在所述第二特征字符串中，选取下一个当前特征字符串。

在本发明一示例性实施例中，第三选取单元还用于在所述编辑距离小于所述当前距离阈值的情况下，将所述编辑距离设置为新的当前距离阈值；

相应地，所述特征字符串匹配模块，用于在遍历所有所述第二特征字符串后，将与所述编辑距离的最小值对应的素材图像确定为所述目标图像。

在本发明一示例性实施例中，所述装置还包括：

图像确定模块，用于确定所述待匹配图像对应的分组信息；基于所述分组信息，确定素材图像。

在本发明一示例性实施例中，在所述待匹配图像为教辅图像的情况下，所述分组信息包括年级信息和/或学科信息。

在本发明一示例性实施例中，在所述待匹配图像为教辅图像的情况下，所述装置还包括：批改处理模块，用于确定与所述目标图像对应的标注答案；将所述待匹配图像中的作答答案与所述标注答案进行对比，确定所述待匹配图像对应的批改结果，并返回所述批改结果；

在本发明一示例性实施例中，在所述待匹配图像为教辅图像的情况下，所述装置还包括：答案返回模块，用于确定与所述目标图像对应的标注答案；返回所述目标图像和所述标注答案。

在本发明一示例性实施例中，所述图像搜索模块，用于基于图像搜索模块的匹配接口，获取所述待匹配图像；所述图像搜索模块用于通过OCR模块的接口获取所述待匹配图像对应的所述第一特征字符串；所述图像搜索模块用于基于特征字符串匹配接口将所述第一特征字符串传入特征字符串匹配模块；

特征字符串匹配模块，用于读取所述特征字符串匹配模块缓存内的每张素材图像分别对应的第二特征字符串，并计算所述第一特征字符串和所述第二特征字符串间的编辑距离；基于所述编辑距离，确定出与所述待匹配图像匹配的目标索引信息；将所述目标索引信息返回给所述图像搜索模块，所述图像搜索模块用于基于所述目标索引信息，获取所述目标图像，返回所述目标图像。

在本发明一示例性实施例中，所述装置还包括：

底库创建模块，用于在接收到底库创建指令的情况下，创建素材图像信息底库；

图像搜索模块用于在接收到向所述素材图像信息底库添加的素材图像的记录项时，所述记录项包括素材图像和所述素材图像对应的附加信息；所述图像搜索模块通过OCR模块的接口，获取所述素材图像的所述第二特征字符串；所述图像搜索模块用于将所述素材图像的路径信息和所述附加信息写入所述素材图像信息底库；所述图像搜索模块用于将所述素材图像信息底库中数据的索引信息及所述第二特征字符串导入到特征字符串匹配模块缓存中。

在本发明一示例性实施例中，所述图像搜索模块用于基于所述目标索引信息从所述素材图像信息底库中确定出目标图像和所述目标图像对应的目标附加信息，返回所述目标图像和所述目标附加信息。

在本发明一示例性实施例中，所述密集文本图像中文本行数大于第一预设阈值，平均每行字数大于第二预设阈值，所述第一预设阈值为15行，所述第二预设阈值为10个。

示例性电子设备

图4图示了根据本发明实施例的电子设备的框图。

如图4所示，电子设备40包括一个或多个处理器41和存储器42。

处理器41可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备40中的其他组件以执行期望的功能。

存储器42可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器41可以运行所述程序指令，以实现上文所述的本发明的各个实施例的图像搜索方法以及/或者其他期望的功能。

在一个示例中，电子设备40还可以包括：输入装置43和输出装置44，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

当然，为了简化，图4中仅示出了该电子设备40中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备40还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

第六方面，除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的图像搜索方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的图像搜索方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述发明的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本发明的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

提供所发明的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此发明的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此发明的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种图像搜索方法，其特征在于，包括：

接收到底库创建指令的情况下，创建素材图像信息底库；

在图像搜索模块的底库记录项添加接口接收到向所述素材图像信息底库添加的素材图像的记录项时，所述记录项包括素材图像和所述素材图像对应的附加信息，在待匹配图像为教辅图像的情况下，标注答案为预先为每张素材图像添加的附加信息；所述图像搜索模块通过OCR模块的接口，获取所述素材图像的第二特征字符串；所述图像搜索模块将所述素材图像的路径信息和所述附加信息写入所述素材图像信息底库；所述图像搜索模块将所述素材图像信息底库中数据的索引信息及所述第二特征字符串导入到特征字符串匹配模块缓存中；

基于图像搜索模块的匹配接口，获取待匹配图像；所述图像搜索模块通过OCR模块的接口确定所述待匹配图像对应的第一特征字符串；所述图像搜索模块基于特征字符串匹配接口将所述第一特征字符串传入特征字符串匹配模块；图像搜索模块还将待匹配图像对应的分组信息传入特征字符串匹配模块；其中，在所述待匹配图像为教辅图像的情况下，所述分组信息包括年级信息和/或学科信息；所述特征字符串匹配模块基于分组信息，确定素材图像；读取所述特征字符串匹配模块缓存内的每张素材图像分别对应的第二特征字符串以获取每张素材图像分别对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于15行，平均每行字数大于10个；每一张素材图像对应一个第二特征字符串，第二特征字符串为素材图像中的文字内容的拼接结果；在所述第二特征字符串中，选取一个当前特征字符串；确定出第一特征字符串的第一字符长度，确定出当前特征字符串的第二字符长度，确定第一字符长度和第二字符长度的长度差值；在所述长度差值大于或等于当前距离阈值的情况下，在所述第二特征字符串中，选取下一个当前特征字符串；在所述长度差值小于所述当前距离阈值的情况下，计算所述第一特征字符串和所述第二特征字符串间的编辑距离，在所述编辑距离小于所述当前距离阈值的情况下，将所述编辑距离设置为新的当前距离阈值；并在所述第二特征字符串中，选取下一个当前特征字符串；在遍历所有所述第二特征字符串后，基于所述编辑距离的最小值，在所述素材图像中搜索出与所述待匹配图像最匹配的素材图像的第二特征字符串，并返回最匹配的素材图像在数据库中存储的目标索引信息；

所述图像搜索模块基于所述目标索引信息从所述素材图像信息底库中确定出目标图像和所述目标图像对应的目标附加信息，返回所述目标图像和所述目标附加信息；

所述确定所述待匹配图像对应的第一特征字符串，包括：

2.一种图像搜索装置，其特征在于，包括：

图像搜索模块，用于在接收到向所述素材图像信息底库添加的素材图像的记录项时，所述记录项包括素材图像和所述素材图像对应的附加信息，在待匹配图像为教辅图像的情况下，标注答案为预先为每张素材图像添加的附加信息；所述图像搜索模块通过OCR模块的接口，获取所述素材图像的第二特征字符串；所述图像搜索模块用于将所述素材图像的路径信息和所述附加信息写入所述素材图像信息底库；所述图像搜索模块用于将所述素材图像信息底库中数据的索引信息及所述第二特征字符串导入到特征字符串匹配模块缓存中；

图像搜索模块，用于基于图像搜索模块的匹配接口，获取待匹配图像；

OCR模块，用于确定所述待匹配图像对应的第一特征字符串；

所述图像搜索模块，用于通过OCR模块的接口获取所述待匹配图像对应的所述第一特征字符串；所述图像搜索模块用于基于特征字符串匹配接口将所述第一特征字符串传入特征字符串匹配模块；图像搜索模块还将待匹配图像对应的分组信息传入特征字符串匹配模块；其中，在所述待匹配图像为教辅图像的情况下，所述分组信息包括年级信息和/或学科信息；特征字符串匹配模块，用于基于分组信息，确定素材图像；读取所述特征字符串匹配模块缓存内的每张素材图像分别对应的第二特征字符串以获取素材图像对应的第二特征字符串，所述素材图像为预先收集的密集文本图像，所述密集文本图像中文本行数大于15行，平均每行字数大于10个；每一张素材图像对应一个第二特征字符串，第二特征字符串为素材图像中的文字内容的拼接结果；在所述第二特征字符串中，选取一个当前特征字符串；确定出第一特征字符串的第一字符长度，确定出当前特征字符串的第二字符长度，确定第一字符长度和第二字符长度的长度差值；在所述长度差值大于或等于当前距离阈值的情况下，在所述第二特征字符串中，选取下一个当前特征字符串；在所述长度差值小于所述当前距离阈值的情况下，确定所述第一特征字符串和所述第二特征字符串间的编辑距离，在所述编辑距离小于所述当前距离阈值的情况下，将所述编辑距离设置为新的当前距离阈值；并在所述第二特征字符串中，选取下一个当前特征字符串；在遍历所有所述第二特征字符串后，基于所述编辑距离的最小值，在所述素材图像中搜索出与所述待匹配图像最匹配的素材图像的第二特征字符串，将并返回最匹配的素材图像在数据库中存储的目标索引信息；

所述图像搜索模块基于所述目标索引信息从所述素材图像信息底库中确定出目标图像和所述目标图像对应的目标附加信息，返回目标图像和所述目标附加信息；

所述特征字符串匹配模块，包括：

3.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1所述的图像搜索方法。

4.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1所述的图像搜索方法。