CN109189965A

CN109189965A - 图像文字检索方法及系统

Info

Publication number: CN109189965A
Application number: CN201810837743.2A
Authority: CN
Inventors: 喻民; 姜建国; 梁小霞; 刘超; 黄伟庆
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-07-19
Filing date: 2018-07-26
Publication date: 2019-01-11

Abstract

本发明提供的图像文字检索方法及系统，获取待检索图像中的多个文本区域，分别对多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为预设目标文字。通过构建一个预设目标文字对应的预设单文字模型，使得对于待检索图像中的任一文字的文字图像输入至预设目标文字对应的预设单文字模型后，即可判断出该文字是否是预设目标文字。并不需要对待检索图像中的文字进行识别，大大加快了文字检索的速度，同时节约了资源。

Description

图像文字检索方法及系统

技术领域

本发明涉及图像处理和深度学习技术领域，更具体地，涉及图像文字检索方法及系统。

背景技术

目前，以图像文件为主的多媒体文件已成为信息交流的主体，而如何在海量的图像文件中快速准确地找到用户所需的文件也成为日益突出和紧迫的需求。文字是信息存储和传递的重要载体，如果能够实现图像文字的检索也就能够完成对图像的检索和分类。

图像文字检索的方法包括基于光学字符识别(Optical Character Recognition，OCR)的检索方法和基于图像匹配的检索方法。其中基于OCR的检索方法的思想是将图像中的文字转换为可编辑的文本，然后对可编辑的文本进行检索。该方法首先需进行图像预处理分割出图像中的每个文字，再对图像中的每个文字进行文字识别形成可编辑的文本，然后使用全文检索技术对文本进行检索，进而判断图像中是否含用户指定的目标文字。其中文字识别方法目前主要流行的是基于深度学习的方法，将所有的样本图像分别作为一个神经网络的输入，该神经网络结构图如图1所示，其中样本图像的尺寸为64*64。对于每个样本图像来说，需要判断该样本图像中包含的文字具体是哪一个文字，现有技术中通常采用包括3755个汉字国标一级汉字、10个数字以及52个英文字母在内的共3817个字符的字符图像作为标准文字图像，将每一个样本图像分别输入至神经网络中，经卷积层、池化、全连接层、隐藏层以及softmax层，由softmax层的3817个神经元输出结果，每一个神经元输出结果为该样本图像是否属于该神经元对应的标准文字图像中的文字。也就是说，现有技术中采用的这种方式，对于一个样本图像的输入，会产生3817个输出结果，以最终确定该样本图像中的文字是属于哪种标准文字图像中的文字。

基于图像匹配的检索方法不需要识别图像中的文字，该方法是先制作含有目标文字的图像作为模板图像，然后对待检索图像进行预处理操作，从待检索图像中分割出每个文字图像，再把分割出的单个文字图像和模板图像进行相似性计算来确定该文字是否为模板图像中的目标文字，进而判断待检索图像中是否含有模板图像中的目标文字。

基于OCR的检索方法是把图像中的所有文字都识别出来转换成文本，再对文本进行检索，这样计算量大、检索速率慢，并且该方法的检索精度依赖于识别率，识别率低会直接降低检索准确率和召回率，并且由于对于一个样本图像，需要对应大量的输出结果，这将会使得深度学习训练时也存在网络庞大、参数复杂、训练速度慢等问题。基于图像匹配的检索方法不需要识别图像中的文字，该方法相比于基于OCR的检索方法实现简单、检索速度快，但基于图像匹配的检索方法中采用的模板图像通常限制条件较多，当待检索图像中的目标文字仅满足一种条件时，则检索结果是待检索图像中不包含目标文字，例如模板图像中的文字为“中”，字体为“宋体”，则采用这种方法只能够检索出待检索图像中包含的字体为“宋体”或与“宋体”相似的字体的“中”字，而对于其他字体的“中”字则无法检索出，如果待检索图像中没有字体为“宋体”或与“宋体”相似的字体的“中”字，只有字体为“楷体”的“中”字，则通过该方法检索的结果是待检索图像中并没有“中”字，这将大大降低检索的准确度。

发明内容

为克服上述问题或者至少部分地解决上述问题，本发明提供了一种图像文字检索方法及系统。

一方面，本发明提供了一种图像文字检索方法，包括：

S1，获取待检索图像中的多个文本区域；

S2，分别对所述多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；

S3，将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为所述预设目标文字；

其中，所述预设单文字模型是将目标文字集合中每一目标文字的文字图像均作为样本图像，采用深度学习方法对神经网络进行训练得到，所述目标文字集合中至少包括所述预设目标文字。

优选地，所述S2具体包括：

对于所述多个文本区域中的任一文本区域，对所述任一文本区域进行连通区域分析，得到所述任一文本区域内的所有第一类连通区域；

计算所述所有第一类连通区域中每一第一类连通区域的宽高比，其中，每一宽高比在第一预设阈值范围内的第一类连通区域均作为一个文字的文字图像。

优选地，所述样本图像包括第一类样本图像和第二类样本图像；

所述预设目标文字的文字图像为所述第一类样本图像，所述目标文字集合中除所述预设目标文字外的每一目标文字的文字图像均为所述第二类样本图像；

相应地，所述预设单文字模型是将目标文字集合中每一目标文字的文字图像均作为样本图像，采用深度学习方法对神经网络进行训练得到，具体包括：

将所有第一类样本图像作为所述神经网络的输入，将所述第一预设数值作为所述神经网络的输出结果，采用深度学习方法对所述神经网络进行训练；

同时，将所有第二类样本图像作为所述神经网络的输入，将第二预设数值作为所述神经网络的输出结果，采用深度学习方法对所述神经网络进行训练；

直至训练后的所述神经网络的准确率低于训练过程中已得到的神经网络的准确率中的最佳准确率时，结束训练。

优选地，对于所述目标文字集合中任一目标文字，所述任一目标文字的文字图像包括：第一预设数量个字体种类的所述任一目标文字的文字图像和第二预设数量个字体尺寸的所述任一目标文字的文字图像。

优选地，所述S1具体包括：

获取所述待检索图像的灰度图像，并将所述灰度图像转换为二值图像；

将所述二值图像进行膨胀操作，并对膨胀操作后的所述二值图像进行连通区域分析，获取所述二值图像中的所有第二类连通区域，并将宽度大于第二预设阈值且高度在第三预设阈值范围内的第二类连通区域均作为一个文本区域。

优选地，所述目标文字集合中的目标文字的种类包括：国标一级汉字、数字和英文字母。

优选地，在所述S3中确定所述任一文字为所述预设目标文字后，还包括：

将所述待检索图像的路径存储至所述预设目标文字对应的检索结果列表中。

另一方面，本发明实施例中还提供了一种图像文字检索系统，包括：文本区域获取模块、文字图像获取模块和检索确定模块。其中，

文本区域获取模块用于获取待检索图像中的多个文本区域；

文字图像获取模块用于分别对所述多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；

检索确定模块用于将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为所述预设目标文字；

另一方面，本发明实施例中还提供了一种图像文字检索设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行S1-S3所述的方法。

另一方面，本发明实施例中还提供了一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行S1-S3所述的方法。

本发明提供的图像文字检索方法及系统，首先获取待检索图像中的多个文本区域，然后分别对多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为预设目标文字。通过构建一个预设目标文字对应的预设单文字模型，使得对于待检索图像中的任一文字的文字图像输入至预设目标文字对应的预设单文字模型后，即可判断出该文字是否是预设目标文字。本发明实施例中提供的图像文字检索方法并不需要对待检索图像中的文字进行识别，大大加快了文字检索的速度，同时节约了资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中存在的用于文字识别的神经网络结构示意图；

图2为本发明实施例提供的一种图像文字检索方法的流程的示意图；

图3为本发明实施例提供的一种图像文字检索方法中采用的预设单文字模型的结构示意图；

图4为本发明实施例提供的一种图像文字检索系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，以图像文件为主的多媒体文件已成为信息交流的主体，在大量的图像文件中快速准确地找到用户所需的文件也成为日益突出和紧迫的需求。可以通过图像文件中包含的目标文字实现对图像文件的检索和分类。所以本发明提供了一种图像文字检索方法及系统。

如图2所示，本发明一实施例提供了一种图像文字检索方法，包括：S1，获取待检索图像中的多个文本区域；

具体地，本发明实施例中，各动作的执行主体均为服务器，首先执行S1，即获取待检索图像中的多个文本区域，其中待检索图像可以为彩色图像，也可以是灰度图像，本发明实施例中对此不作具体限定。文本区域是指待检索图像中包含有文字和标点符号等字符的区域，在待检索图像中可以包括多个文本区域，文本区域的具体数量为大于或等于1。对文本区域的划分可以通过但不限于如下方式实现：1)待检索图像中每一行文字作为一个文本区域；2)待检索图像中每一行中文字部分作为一个文本区域，非文字部分作为非文本区域，其中非文字部分是指不包含文字的部分；3)待检索图像中每一行中符合预设尺寸的一个区域作为一个文本区域，大于或小于预设尺寸的一个区域作为一个非文本区域。

得到多个文本区域后执行S2，即分别对每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像，进而可以得到整个待检索图像中每个文字的文字图像。

连通区域分析是连通区域标记，是一种在图像分析处理等众多应用领域中较为常用和基本的方法。例如：OCR识别中字符分割提取(车牌识别、文本识别、字幕识别等)、视觉跟踪中的运动前景目标分割与提取(行人入侵检测、遗留物体检测、基于视觉的车辆检测与跟踪等)、医学图像处理(感兴趣目标区域提取)、等等。也就是说，在需要将前景目标提取出来以便后续进行处理的应用场景中都能够用到连通区域分析方法，通常连通区域分析处理的对象是一张二值化后的图像，它是所有二值图像分析的基础，首先对二值图像中白色像素(目标)进行标记，让每个单独的连通区域形成一个被标识的块，进而可以获取这些块的轮廓、外接矩形、质心、不变矩等几何参数。所以需要先将待检索图像转换为二值图像。连通区域(Connected Component)一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域(Region，Blob)。连通区域分析(Connected Component Analysis)是指将图像中的各个连通区域找出并标记。

连通区域标记算法有很多种，既可以通过matlab中连通区域标记函数bwlabel中使用的算法实现，也可以通过开源库cvBlob中使用的标记算法实现，本发明实施例中对此不作具体限定。

得到每一文本区域中每个文字的文字图像后执行S3，即将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，通过预设目标文字对应的预设单文字模型对每个文字的文字图像进行计算，确定每一文字的文字图像是否符合目标文字对应的预设单文字模型，即将某一文字的文字图像作为预设单文字模型的输入，计算预设单文字模型的输出结果是否为第一预设数值，若预设单文字模型的输出结果为第一预设数值，则可确认该输入的文字图像对应的文字为目标文字，即可确认待检索图像中包含有目标文字。

需要说明的是，预设单文字模型是将目标文字集合中每一目标文字的文字图像均作为样本图像，采用深度学习方法对神经网络进行训练得到，所述目标文字集合中至少包括所述预设目标文字。

目标文字集合中的所有目标文字的文字图像均是一个样本图像，用于训练神经网络。其中，目标文字集合中的预设目标文字的文字图像均作为正样本图像，对应的神经网络的输出结果为第一预设数值；目标文字集合中除预设目标文字外的其他目标文字的文字图像均作为负样本图像，对应的神经网络的输出结果为第二预设数值。

本发明实施例中，首先获取待检索图像中的多个文本区域，然后分别对多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为预设目标文字。通过构建一个预设目标文字对应的预设单文字模型，使得对于待检索图像中的任一文字的文字图像输入至预设目标文字对应的预设单文字模型后，即可判断出该文字是否是预设目标文字。本发明实施例中提供的图像文字检索方法并不需要对待检索图像中的文字进行识别，大大加快了文字检索的速度，同时节约了资源。

在上述实施例的基础上，所述S2具体包括：

具体地，由待检索图像中的文本区域每个文字的文字图像这一过程中，需要对文本区域进行连通区域分析，得到每一文本区域内的所有连通区域，这里的“第一类”仅仅起到区分不同连通区域的作用，与后面的“第二类”相对应，本领域技术人员不能将其理解为其他含义。文本区域内的第一类连通区域可以看做是文字的候选区域，也就是说，得到的第一类连通区域表示的可能是文字，也可能不是文字。此时需要做进一步处理，从所有第一类连通区域中选择出表示文字的连通区域。即对所有第一类连通区域进行筛选，计算所有第一类连通区域中每一第一类连通区域的宽高比，确定宽高比在第一预设阈值范围内的第一类连通区域，并将每一个满足宽高比在第一预设阈值范围内这一限定条件的第一类连通区域作为一个文字的文字图像。对待检索图像中的每一文本区域均执行上述过程，即可得到待检索图像中每一文字的文字图像。其中，宽高比不在第一预设阈值范围内的第一类连通区域则为不是文字的非文字图像。

这里需要说明的是，由于文字图像的宽高比通常为1.1-1.3，所以本发明实施例中可以将第一预设阈值范围设置为1.1-1.3。

本发明实施例中，通过对文本区域进行连通区域分析，得到待检索图像中每一文本区域内的所有第一类连通区域；并计算所有第一类连通区域中每一第一类连通区域的宽高比，确定满足限定条件的第一类连通区域作为一个文字的文字图像。这种方法可以更方便快速的确定出文字的文字图像，而且不需要对文字进行识别，可以大大缩短整个图像文字检索的用时。

在上述实施例的基础上，所述样本图像包括第一类样本图像和第二类样本图像；

具体地，本发明实施例中采用的样本图像是目标文字集合中每一目标文字的文字图像，其中目标文字集合中包含有多个目标文字，其中目标文字的具体数量可根据需要进行设置，例如目标文字集合中目标文字的具体数量可以为3817个，其中包括了三个种类，分别为：国标一级汉字、数字和英文字母，国标一级汉字为3755个，数字为10个，英文字母为52个。

目标文字集合中每一个目标文字的文字图像均有多个，对于目标文字集合中任一目标文字，任一目标文字的文字图像包括：第一预设数量个字体种类的任一目标文字的文字图像和第二预设数量个字体尺寸的任一目标文字的文字图像。例如，任一目标文字为汉字“中”，第一预设数量取值为300，第二预设数量为3，则汉字“中”的文字图像包括300个不同字体种类的汉字“中”的文字图像以及3个不同字体尺寸的汉字“中”的文字图像。字体种类可以包括黑体、楷体、宋体、微软雅黑、方正系列、华文系列和华康系列等。字体尺寸可以包括38、40和42等。本发明实施例中的文字图像可以通过文字图片的形式表示，每个文字图片的尺寸大小为64*64，则每个目标文字共可以得到900张文字图片，样本图像共可对应344万张文字图片，用于训练的样本图像丰富。

样本图像包括第一类样本图像(即上述提到的正样本图像，共900张文字图片)和第二类样本图像(即上述提到的负样本图像，即样本图像中去除900正样本图像外的所有文字图片)。

将所有第一类样本图像作为神经网络的输入，将第一预设数值作为神经网络的输出结果，采用深度学习方法对神经网络进行训练；同时，将所有第二类样本图像作为神经网络的输入，将第二预设数值作为神经网络的输出结果，采用深度学习方法对神经网络进行训练，调整神经网络的参数；也就是说，本发明实施例中同时采用正样本图像和负样本图像对神经网络进行训练，当训练后的神经网络的准确率低于训练过程中已得到的神经网络的准确率中的最佳准确率时，结束训练。需要说明的是，这里所述的神经网络的准确率是指对于给定的一个输入，能够得到与该输入相对应的输出结果，则说明神经网络是正确的，否则是错误的，通过向训练后的神经网络中输入大量的测试样本图像，将训练后的神经网络的输出结果与测试样本图像对应的正确的输出结果进行比较，确定两个输出结果一致的测试样本图像的数量，与测试样本图像的总数量之比即为该训练后的神经网络的准确率。一般情况下，在神经网络的训练过程中，训练得到的神经网络的准确率呈抛物线型，在训练达到一定次数时，得到的神经网络的准确率趋于稳定，但在稳定后准确率还有可能继续上升或呈下降趋势，所以本发明实施例中为避免这两种情况影响训练后的神经网络的最佳准确率的判断，将训练结束的条件设置为训练后的神经网络的准确率低于训练过程中已得到的神经网络的准确率中的最佳准确率。

得到的训练后的神经网络即为预设单文字模型，如图3所示，为预设单文字模型的具体结构图，从图3中可以看出，当向预设单文字模型中输入一张尺寸大小64*64的文字图像时，依次经卷积层、池化层、全连接层、隐藏层后，经softmax层的2个神经单元分别输出第一预设数值或第二预设数值。若输出第一预设数值，则可确定该文字图像对应的文字为预设目标文字，若输出第二预设数值，则可确定该文字图像对应的文字不是预设目标文字。

由于对于目标文字集合中的每一目标文字来说，均对应着900张正样本图像，所以对于每一目标文字均有一对应的预设单文字模型。也就是说，本发明实施例中目标文字集合中的每一目标文字均可以作为预设目标文字对待检索图像中的文字进行检索。

本发明实施例中，通过目标文字的文字图像对神经网络进行训练，得到与每个目标文字对应的预设单文字模型，本发明实施例中采用的训练方法相比于现有的文字模型的训练方法更加简单，并不需要神经网络的复杂运行，且训练速度快。

在上述实施例的基础上，所述S1具体包括：

具体地，为得到待检索图像中的文本区域，需要先将待检索图像转换为二值图像，则首先将待检索图像转换为灰度图像，然后再将灰度图像转换为二值图像。将待检索图像转换为二值图像后，将二值图像进行膨胀操作，并对膨胀操作后的二值图像进行连通区域分析，得到二值图像中的所有第二类连通区域，即每一文本区域。这里需要说明的是，在连通区域分析之前对二值图像进行膨胀操作目的是为了使得到的连通区域为每一文本区域。

进行连通区域分析后，并不是得到的所有第二类连通区域都是文本区域，所以需要从所有第二类连通区域中选取可以作为文本区域的第二类连通区域。将选取条件设置为第二类连通区域的宽度大于第二预设阈值且第二类连通区域的高度在第三预设阈值范围内。第二预设阈值通常设置为20像素，第三预设阈值范围通常设置为5像素-100像素。

在上述实施例的基础上，在所述S3中确定所述任一文字为所述预设目标文字后，还包括：

具体地，本发明实施例中提供的图像文字检索方法在实际应用时，可以用于检索整个文件夹或磁盘中每个待检索图像中是否含有预设目标文字，所以当确定待检索图像中包含有预设目标文字后，可以将待检索图像的路径存储至预设目标文字对应的检索结果列表中，便于后期对包含有预设目标文字的图像进行统计和存储位置的定位。

综上所述，本发明实施例中为了解决现有技术中存在的问题，提出一种了基于预设单文字模型的图像文字检索方法。根据深度学习方法训练出每个预设单文字模型，训练采用的样本图像包含大量的样本。对待检索图像进行预处理分割出待检索图像中的文字，把分割出的单个文字的文字图像放在预设单文字模型中进行计算，以此判断单个文字是否为预设目标文字，进而判断该待检索图像中是否含有预设目标文字，从而能够达到即可以快速检索又不限制文字字体的效果，与现有技术相比，本发明实施例中提供的图像文字检索方法使用预设单文字模型实现图像文字的检索，既能够有效降低检索时间，又不对字体敏感，从而有效提高检索召回率。

如图4所示，在上述实施例的基础上，本发明另一实施例中提供了一种图像文字检索系统，包括：文本区域获取模块41、文字图像获取模块42和检索确定模块43。其中，

文本区域获取模块41用于获取待检索图像中的多个文本区域；

文字图像获取模块42用于分别对所述多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；

检索确定模块43用于将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为所述预设目标文字；

具体地，本发明实施例中提供的图像文字检索系统中各模块的作用与操作流程与上述方法类实施例中的操作流程是一一对应的，本发明实施例中在此不再赘述。

本发明实施例中，首先通过文本区域获取模块获取待检索图像中的多个文本区域，然后通过文字图像获取模块分别对多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；通过检索确定模块将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为预设目标文字。通过构建一个预设目标文字对应的预设单文字模型，使得对于待检索图像中的任一文字的文字图像输入至预设目标文字对应的预设单文字模型后，即可判断出该文字是否是预设目标文字。本发明实施例中提供的图像文字检索系统并不需要对待检索图像中的文字进行识别，大大加快了文字检索的速度，同时节约了资源。

在上述实施例的基础上，本发明另一实施例中提供了一种图像文字检索设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如图2中所述的方法。

在上述实施例的基础上，本发明另一实施例中提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如图2中所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像文字检索方法，其特征在于，包括：

S1，获取待检索图像中的多个文本区域；

2.根据权利要求1所述的图像文字检索方法，其特征在于，所述S2具体包括：

3.根据权利要求1所述的图像文字检索方法，其特征在于，所述样本图像包括第一类样本图像和第二类样本图像；

4.根据权利要求1所述的图像文字检索方法，其特征在于，对于所述目标文字集合中任一目标文字，所述任一目标文字的文字图像包括：第一预设数量个字体种类的所述任一目标文字的文字图像和第二预设数量个字体尺寸的所述任一目标文字的文字图像。

5.根据权利要求1所述的图像文字检索方法，其特征在于，所述S1具体包括：

6.根据权利要求1-5中任一项所述的图像文字检索方法，其特征在于，所述目标文字集合中的目标文字的种类包括：国标一级汉字、数字和英文字母。

7.根据权利要求1-5中任一项所述的图像文字检索方法，其特征在于，在所述S3中确定所述任一文字为所述预设目标文字后，还包括：

8.一种图像文字检索系统，其特征在于，包括：

文本区域获取模块，用于获取待检索图像中的多个文本区域；

文字图像获取模块，用于分别对所述多个文本区域中每一文本区域进行连通区域分析，得到每一文本区域中每个文字的文字图像；

检索确定模块，用于将每一文本区域中每个文字的文字图像分别输入至预设目标文字对应的预设单文字模型中，若对于任一文字的文字图像，所述预设单文字模型输出结果为第一预设数值时，则确定所述任一文字为所述预设目标文字；

9.一种图像文字检索设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1-7中任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1-7中任一项所述的方法。