CN112766269A - 一种图片文本检索方法、智能终端及存储介质 - Google Patents
一种图片文本检索方法、智能终端及存储介质 Download PDFInfo
- Publication number
- CN112766269A CN112766269A CN202110239292.4A CN202110239292A CN112766269A CN 112766269 A CN112766269 A CN 112766269A CN 202110239292 A CN202110239292 A CN 202110239292A CN 112766269 A CN112766269 A CN 112766269A
- Authority
- CN
- China
- Prior art keywords
- target
- text
- retrieval
- vertex
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000001914 filtration Methods 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 description 81
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种图片文本检索方法、智能终端及存储介质,包括:获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。本发明根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,能够从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
Description
技术领域
本发明涉及通信技术领域,尤其涉及的是一种图片文本检索方法、智能终端及存储介质。
背景技术
光学字符识别技术(Optical Character Recognition)是指对文本资料、卡片等的图像文件进行分析识别处理,获取文字及版面信息的过程。目前市面上的OCR技术已经比较成熟,可以较为准确的识别图片中的文字以及文字对应的位置信息,从而为图片文本检索提供文本信息。
现有图片文本检索方法是将检索语句和OCR技术获取的文本信息进行字符串匹配计算,由于OCR识别算法和服务对不规则排布的文本不能有效进行文本块划分,导致无法和检索语句进行有效对比,造成图片文本检索结果准确率较低。
因此,现有技术还有待改进和发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种图片文本检索方法、智能终端及存储介质,旨在解决现有图片文本检索方法由于OCR识别算法和服务对不规则排布的文本不能有效进行文本块划分,导致图片文本检索结果准确率较低的问题。
本发明解决问题所采用的技术方案如下:
第一方面,本发明实施例提供一种图片文本检索方法,其中,包括:
获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;
根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;
从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
所述的图片文本检索方法,其中,所述根据所述目标文本从所述OCR识别结果中提取若干顶点的步骤包括:
获取所述OCR识别结果中的OCR识别字符以及所述目标文本中的目标字符;
遍历所述OCR识别字符,提取出与所述目标字符相同的若干OCR识别字符作为若干所述顶点。
所述的图片文本检索方法,其中,所述确定各个所述顶点的参考距离的步骤包括:
获取各个所述顶点与其相邻OCR识别字符的距离值及各个所述顶点的字符宽度,将所述距离值与预设倍数的所述字符宽度进行比较;
将所述距离值与预设倍数的所述字符宽度中的较小值确定为各个所述顶点的参考距离。
所述的图片文本检索方法,其中,所述根据所述参考距离及所述目标文本的字符顺序创建目标图集的步骤包括:
根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充,并根据填充后的所述邻接矩阵创建初始图集;
根据所述初始图集对所述邻接矩阵进行更新,并根据更新后的所述邻接矩阵创建目标图集。
所述的图片文本检索方法,其中,所述根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充的步骤包括:
根据所述参考距离及所述目标文本的字符顺序,从若干所述顶点中筛选出若干顶点对;
获取若干所述顶点对之间的有向边信息,并根据所述有向边信息对预先创建的邻接矩阵进行填充。
所述的图片文本检索方法,其中,所述初始图集中包含若干子图,所述根据所述初始图集对所述邻接矩阵进行更新的步骤包括:
获取若干所述子图的属性信息,根据所述属性信息从若干所述子图中筛选出若干子图对;
根据若干所述子图对,对所述邻接矩阵进行更新。
所述的图片文本检索方法,其中,所述从若干所述候选检索路径中筛选出目标检索路径的步骤包括:
将各个所述候选检索路径对应的文本链与所述目标文本进行比较,确定各个所述候选检索路径对应的最长相似子串;
根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径。
所述的图片文本检索方法,其中,所述根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径的步骤包括:
若所述最长相似子串与所述目标文本相同,则将所述最长相似子串对应的候选检索路径作为所述目标检索路径;
若所述最长相似子串与所述目标文本不相同,则获取各个所述最长相似子串对应的编辑距离及字符间距方差,根据所述编辑距离及所述字符间距方差从若干所述候选检索路径中筛选出目标检索路径。
第二方面,本发明实施例还提供一种图片文本检索装置,其中,所述装置包括:
顶点提取模块,用于获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;
路径确定模块,用于根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;
文本检索模块,用于从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
第三方面,本发明实施例提供一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如上述任意一项所述的图片文本检索方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述中任意一项所述的图片文本检索方法的步骤。
本发明的有益效果:本发明实施例首先获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离,然后,根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径,最后,从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果,因此,根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,能够从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的图片文本检索方法的流程示意图;
图2是本发明实施例提供的图片文本检索方法的具体应用实施例流程图;
图3是本发明实施例提供的图片文本检索装置的原理框图;
图4是本发明实施例提供的智能终端的内部结构原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
现有图片文本检索方法是通过光学字符识别(Optical Character Recognition,OCR)技术识别出图片文本信息后,将检索语句和图片文本信息进行字符串匹配计算。由于主流的OCR识别算法和服务对不规则排布的文本不能有效划分文本块,其结果多为离散的,这样一句完整的文本字符串经常会被分割成多个小块,无法和检索语句进行有效的对比,造成检索结果准确率较低。
为了解决现有技术的问题,本实施例提供了一种图片文本检索方法,通过所述方法可以从OCR识别结果中确定若干候选检索路径,并从若干候选路径中筛选出目标检索路径,从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。具体实施时,首先获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离,然后,根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径,最后,从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果,因此,根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
举例说明,当需要在图片中对目标文本“九年级上册”进行图片文本检索时,首先获取OCR识别结果及目标文本,根据目标文本从OCR识别结果中提取出所有的“九”、“年”、“级”、“上”、“册”字符作为顶点,并确定各个顶点的参考距离,然后根据各个顶点的参考距离及“九-年-级-上-册”的字符顺序创建目标图集,并按照深度优先原则遍历目标图集,确定“年-级-教-育”、“九-年-级-下-册”、“九-年-九-年-级-上-册”等若干候选检索路径,最后从若干候选检索路径中筛选出目标检索路径“九-年-九-年-级-上-册”,根据目标检索路径输出目标文本对应的图片文本检索结果。由于本实施例中根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,能够从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
示例性方法
本实施例提供一种图片文本检索方法,该方法可以应用于智能终端。具体如图1中所示,所述方法包括:
步骤S100、获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离。
具体地,所述OCR识别结果为对待检索图片通过光学字符识别(OpticalCharacter Recognition,OCR)技术进行识别得到的结果,OCR识别是通过将待检索图片传输给外部OCR服务实现的,外部OCR服务会返回待检索图片中的字符和每个字符相对于图片左上角的像素坐标,所述OCR识别结果为图片文本检索提供了文本信息。所述目标文本为待检索文本,例如需要检索图片中是否包含“九年级上册”,则所述目标文本为“九年级上册”。顶点为从OCR识别结果中提取出的包含于目标文本中的字符,顶点的参考距离为顶点与其相邻字符的距离值及预设倍数的字符宽度中的较小值。如图2所示,本实施例需要进行图片文本检索时,对待检索图片进行OCR识别,获取待检索图片的OCR识别结果及目标文本,根据目标文本从OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离,以便后续步骤中根据所述参考距离创建目标图集。例如,目标文本为“九年级上册”时,从OCR识别结果中找出所有的“九”、“年”、“级”、“上”、“册”字符,并将每个字符作为一个顶点,即顶点数与OCR识别结果中提取出的“九”、“年”、“级”、“上”、“册”字符个数相等,如OCR识别结果中存在4个“九”字符,则存在4个“九”顶点。
在一具体实施方式中,步骤S100中所述根据所述目标文本从所述OCR识别结果中提取若干顶点的步骤包括:
步骤S110、获取所述OCR识别结果中的OCR识别字符以及所述目标文本中的目标字符;
步骤S120、遍历所述OCR识别字符,提取出与所述目标字符相同的若干OCR识别字符作为若干所述顶点。
具体地,顶点是指从OCR识别结果中提取出的包含于目标文本中的字符,本实施例中在提取顶点时,首先获取OCR识别结果中的OCR识别字符以及目标文本中的目标字符,然后遍历所有OCR识别字符,提出与所述目标字符相同的若干OCR识别字符作为若干所述顶点。例如,目标字符包括“九”、“年”、“级”、“上”、“册”,OCR识别字符包括“教”、“育”、“九”、“年”、“级”、“上”、“册”、“年”、“级”、“教”、“育”、“九”、“年”、“级”、“下”、“册”,则依次遍历所有OCR识别字符,提取出“九”、“年”、“级”、“册”、“年”、“级”、“九”、“年”、“级”、“下”、“册”等与目标字符相同的若干OCR识别字符作为若干顶点。
在一具体实施方式中,步骤S100中所述确定各个所述顶点的参考距离的步骤包括:
步骤S130、获取各个所述顶点与其相邻OCR识别字符的距离值及各个所述顶点的字符宽度,将所述距离值与预设倍数的所述字符宽度进行比较;
步骤S140、将所述距离值与预设倍数的所述字符宽度中的较小值确定为各个所述顶点的参考距离。
具体地,各个顶点的参考距离为各个顶点与其相邻字符的距离值及预设倍数的字符宽度中的较小值,本实施例中确定各个顶点的参考距离时,获取各个顶点与其相邻OCR识别字符的距离值及各个所述顶点的字符宽度,并将各个顶点与其相邻OCR识别字符的距离值和预设倍数的字符宽度进行比较,将距离值与预设倍数的字符宽度中的较小值确定为各个顶点的参考距离。例如,确定“九”顶点的参考距离时,获取“九”顶点与其相邻OCR识别字符的距离值,如“九”顶点左边与“育”相邻,右边与“年”相邻,获取“九”和其相邻的字符“育”之间的第一距离值,以及“九”和其相邻的字符“年”之间的第二距离值,并获取“九”顶点的字符宽度,然后将第一距离值、第二距离值以及预设倍数的字符宽度进行比较,取三者中较小值作为“九”顶点的参考距离。在一具体实施例中,预设倍数的字符宽度为3倍的字符宽度。
步骤S200、根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径。
具体地,从OCR识别结果中提取若干顶点及确定各个顶点的参考距离后,首先根据顶点的参考距离及所述目标文本的字符顺序创建目标图集,然后根据目标文本的字符顺序,依次选取一个字符作为起始顶点的字符,按照深度优先原则遍历所述目标图集,确定若干候选检索路径。
在一具体实施方式中,步骤S200中所述根据所述参考距离及所述目标文本的字符顺序创建目标图集的步骤包括:
步骤S210、根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充,并根据填充后的所述邻接矩阵创建初始图集;
步骤S220、根据所述初始图集对所述邻接矩阵进行更新,并根据更新后的所述邻接矩阵创建目标图集。
为了创建目标图集,本实施例中预先创建一个n*n的邻接矩阵,其中n为顶点数,从OCR识别结果中提取出顶点后,首先根据各顶点的参考距离及目标文本的字符顺序对邻接矩阵进行填充,并根据填充后的邻接矩阵创建初始图集;然后根据所述初始图集对所述邻接矩阵进行更新,并根据更新后的所述邻接矩阵创建目标图集。
在一具体实施方式中,步骤S210中所述根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充的步骤包括:
步骤S211、根据所述参考距离及所述目标文本的字符顺序,从若干所述顶点中筛选出若干顶点对;
步骤S212、获取若干所述顶点对之间的有向边信息,并根据所述有向边信息对预先创建的邻接矩阵进行填充。
本实施例中在填充邻接矩阵时,首先判断顶点之间是否符合字符顺序和距离条件,根据所述参考距离及所述目标文本的字符顺序,从若干所述顶点中筛选出若干顶点对,其中,所述顶点对的字符顺序符合目标文本的字符顺序,且所述顶点对中顶点之间的距离小于或者等于所述顶点的参考距离;然后获取若干所述顶点对的有向边信息,并根据所述有向边信息对预先创建的邻接矩阵进行填充,其中,所述有向边信息包括顶点对中顶点间的距离以及方向。例如,当第i个顶点和第j个顶点的距离小于i顶点和j顶点的参考距离时,邻接矩阵的原始d[i][j]记录为第i个顶点到第j个顶点的边的长度,即距离,反则d[i][j]取0,表示不存在连接边。
在一具体实施方式中,步骤S220中所述根据所述初始图集对所述邻接矩阵进行更新的步骤包括:
步骤S221、获取若干所述子图的位置信息,根据所述位置信息从若干所述子图中筛选出若干子图对;
步骤S222、根据若干所述子图对,对所述邻接矩阵进行更新。
具体地,本实施例中根据填充后的邻接矩阵创建的初始图集中包含若干子图,即有边相连的顶点组成一个图,孤立的顶点自成一个图。每个子图都有其对应的属性信息,所述属性信息包括坐标信息和尺寸信息,子图的坐标信息为子图内所有顶点的最小横/纵坐标,子图的尺寸信息包括子图的宽度和高度,子图的宽度为图内最左顶点和最右顶点的距离,子图的高度为图内最上顶点和最下顶点的距离。在创建初始图集后,获取若干所述子图的属性信息,根据所述属性信息从若干所述子图中筛选出若干子图对,其中所述子图对为在二维平面上相邻的子图,然后将子图对中相邻子图的邻接顶点作连接,形成新的有向边信息,并根据新的有向边信息对邻接矩阵进行更新。
进一步地,根据属性信息筛选子图对时,根据子图的属性信息并按照预设倍数对其中一个子图进行等比例放大,若放大后的子图能够与另外一个子图相交,则判断这两个子图为相邻的子图,即为子图对,若否,则判断两个子图在二维平面上不相邻。本实施例中结合人眼视觉习惯,对子图的判邻条件的放大倍数为横向2倍,纵向1.5倍。
步骤M300、从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
所述目标检索路径为与目标文本最相似的文本区域对应的检索路径,本实施例中确定若干候选检索路径后,从若干所述候选检索路径中筛选出目标检索路径,并根据所述目标检索路径输出与目标文本最相似的文本区域的文本链、文本相似度和区域坐标信息等,提高图片文本检索的准确率。
在一具体实施方式中,步骤S300中所述从若干所述候选检索路径中筛选出目标检索路径的步骤包括:
步骤S310、将各个所述候选检索路径对应的文本链与所述目标文本进行比较,确定各个所述候选检索路径对应的最长相似子串;
步骤S320、根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径。
在筛选目标检索路径时,本实施例中将各个所述候选检索路径对应的文本链与所述目标文本进行比较,利用最长公共子串算法确定各个所述候选检索路径对应的最长相似子串,然后根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径。例如,确定三条候选检索路径,分别为“年-级-教-育”、“九-年-级-下-册”和“九-年-九-年-级-上-册”,这3条路径与目标文本“九年级上册”的最长相似子串分别为“年级”、“九年级”和“九年级上册”,即最长相似子串的长度分别为2、3、5。
在一具体实施方式中,步骤S320具体包括:
步骤S321、若所述最长相似子串与所述目标文本相同,则将所述最长相似子串对应的候选检索路径作为所述目标检索路径;
步骤S322、若所述最长相似子串与所述目标文本不相同,则获取各个所述最长相似子串对应的编辑距离及字符间距方差,根据所述编辑距离及所述字符间距方差从若干所述候选检索路径中筛选出目标检索路径。
在根据最长相似子串筛选目标检索路径时,将最长相似子串与目标文本进行比较,若最长相似子串与目标文本完全相同,则将所述最长相似子串对应的候选检索路径作为所述目标检索路径;若各个所述候选检索路径对应的最长相似子串与目标文本均不完全相同,则将各个所述最长相似子串补全长度至与目标文本相同,确定各个所述最长相似子串与目标文本的编辑距离,将编辑距离最小的最长相似子串对应的候选检索路径作为所述目标检索路径。所述编辑距离是指一个字符串变为另一个字符串所需进行的“增、删、改”操作的次数。例如,候选检索路径“九-年-级-下-册”与目标文本“九年级上册”的最长公共子串是“九年级”,将其最长公共子串补齐到目标文本“九年级下册”需要将“下”改为“上”,则其对应的编辑距离为1。
进一步地,若最长相似子串的编辑距离相同,则确定各个最长相似子串对应的字符间距方差,根据视觉习惯,选择字符间距方差最小(即离散程度最小)的最长相似子串对应的候选检索路径作为所述目标检索路径。
由此可见,本发明实施例首先获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离,然后,根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径,最后,从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果,因此,根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,能够从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
示例性设备
如图3中所示,本发明实施例提供一种图片文本检索装置,该装置包括:顶点提取模块310、路径确定模块320、文本检索模块330。具体地,所述顶点提取模块310,用于获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离。所述路径确定模块320,用于根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径。所述文本检索模块330,用于从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
基于上述实施例,本发明还提供了一种智能终端,其原理框图可以如图4所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、温度传感器。其中,该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图片文本检索方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏,该智能终端的温度传感器是预先在智能终端内部设置,用于检测内部设备的运行温度。
本领域技术人员可以理解,图4中示出的原理框图,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的智能终端的限定,具体的智能终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种智能终端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;
根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;
从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
综上所述,本发明公开了一种图片文本检索方法、智能终端及存储介质,包括:获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。本发明根据OCR识别结果中提取的顶点及目标文本的字符顺序创建目标图集,并根据目标图集确定目标检索路径,能够从OCR识别结果中找到与目标文本最相似的文本区域,提高检索结果的准确率。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种图片文本检索方法,其特征在于,包括:
获取OCR识别结果及目标文本,根据所述目标文本从所述OCR识别结果中提取若干顶点,并确定各个所述顶点的参考距离;
根据所述参考距离及所述目标文本的字符顺序创建目标图集,并按照深度优先原则遍历所述目标图集,确定若干候选检索路径;
从若干所述候选检索路径中筛选出目标检索路径,根据所述目标检索路径输出所述目标文本对应的图片文本检索结果。
2.根据权利要求1所述的图片文本检索方法,其特征在于,所述根据所述目标文本从所述OCR识别结果中提取若干顶点的步骤包括:
获取所述OCR识别结果中的OCR识别字符以及所述目标文本中的目标字符;
遍历所述OCR识别字符,提取出与所述目标字符相同的若干OCR识别字符作为若干所述顶点。
3.根据权利要求2所述的图片文本检索方法,其特征在于,所述确定各个所述顶点的参考距离的步骤包括:
获取各个所述顶点与其相邻OCR识别字符的距离值及各个所述顶点的字符宽度,将所述距离值与预设倍数的所述字符宽度进行比较;
将所述距离值与预设倍数的所述字符宽度中的较小值确定为各个所述顶点的参考距离。
4.根据权利要求1所述的图片文本检索方法,其特征在于,所述根据所述参考距离及所述目标文本的字符顺序创建目标图集的步骤包括:
根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充,并根据填充后的所述邻接矩阵创建初始图集;
根据所述初始图集对所述邻接矩阵进行更新,并根据更新后的所述邻接矩阵创建目标图集。
5.根据权利要求4所述的图片文本检索方法,其特征在于,所述根据所述参考距离及所述目标文本的字符顺序对预先创建的邻接矩阵进行填充的步骤包括:
根据所述参考距离及所述目标文本的字符顺序,从若干所述顶点中筛选出若干顶点对;
获取若干所述顶点对之间的有向边信息,并根据所述有向边信息对预先创建的邻接矩阵进行填充。
6.根据权利要求4所述的图片文本检索方法,其特征在于,所述初始图集中包含若干子图,所述根据所述初始图集对所述邻接矩阵进行更新的步骤包括:
获取若干所述子图的属性信息,根据所述属性信息从若干所述子图中筛选出若干子图对;
根据若干所述子图对,对所述邻接矩阵进行更新。
7.根据权利要求1所述的图片文本检索方法,其特征在于,所述从若干所述候选检索路径中筛选出目标检索路径的步骤包括:
将各个所述候选检索路径对应的文本链与所述目标文本进行比较,确定各个所述候选检索路径对应的最长相似子串;
根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径。
8.根据权利要求7所述的图片文本检索方法,其特征在于,所述根据所述最长相似子串,从若干所述候选检索路径中筛选出目标检索路径的步骤包括:
若所述最长相似子串与所述目标文本相同,则将所述最长相似子串对应的候选检索路径作为所述目标检索路径;
若所述最长相似子串与所述目标文本不相同,则获取各个所述最长相似子串对应的编辑距离及字符间距方差,根据所述编辑距离及所述字符间距方差从若干所述候选检索路径中筛选出目标检索路径。
9.一种智能终端,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-8中任意一项所述的图片文本检索方法的步骤。
10.一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1-8中任意一项所述的图片文本检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110239292.4A CN112766269B (zh) | 2021-03-04 | 2021-03-04 | 一种图片文本检索方法、智能终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110239292.4A CN112766269B (zh) | 2021-03-04 | 2021-03-04 | 一种图片文本检索方法、智能终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112766269A true CN112766269A (zh) | 2021-05-07 |
CN112766269B CN112766269B (zh) | 2024-03-12 |
Family
ID=75691046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110239292.4A Active CN112766269B (zh) | 2021-03-04 | 2021-03-04 | 一种图片文本检索方法、智能终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766269B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743105A (zh) * | 2021-09-07 | 2021-12-03 | 深圳海域信息技术有限公司 | 一种基于大数据特征识别的文字近似度检索分析方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007413A (ja) * | 2000-06-20 | 2002-01-11 | Fujitsu Ltd | 画像検索装置 |
JP2002133420A (ja) * | 2000-07-06 | 2002-05-10 | Matsushita Electric Ind Co Ltd | 映像インデックス付けおよびイメージ読み出しシステム |
JP2004334341A (ja) * | 2003-04-30 | 2004-11-25 | Canon Inc | 文書検索装置、文書検索方法及び記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
CN102625937A (zh) * | 2009-08-07 | 2012-08-01 | 谷歌公司 | 用于对视觉查询作出响应的体系结构 |
EP2646949A1 (en) * | 2010-12-01 | 2013-10-09 | Google, Inc. | Identifying matching canonical documents in response to a visual query |
CN106933960A (zh) * | 2017-01-23 | 2017-07-07 | 宇龙计算机通信科技(深圳)有限公司 | 一种图片识别搜索方法及装置 |
CN109063068A (zh) * | 2018-07-23 | 2018-12-21 | 广州云测信息技术有限公司 | 一种图片检索方法和装置 |
CN110895555A (zh) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | 数据检索方法和装置、存储介质及电子装置 |
CN111339335A (zh) * | 2020-03-06 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
CN111666474A (zh) * | 2019-03-08 | 2020-09-15 | 小船出海教育科技(北京)有限公司 | 一种整页搜题的方法及终端 |
-
2021
- 2021-03-04 CN CN202110239292.4A patent/CN112766269B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002007413A (ja) * | 2000-06-20 | 2002-01-11 | Fujitsu Ltd | 画像検索装置 |
JP2002133420A (ja) * | 2000-07-06 | 2002-05-10 | Matsushita Electric Ind Co Ltd | 映像インデックス付けおよびイメージ読み出しシステム |
JP2004334341A (ja) * | 2003-04-30 | 2004-11-25 | Canon Inc | 文書検索装置、文書検索方法及び記録媒体 |
JP2007172077A (ja) * | 2005-12-19 | 2007-07-05 | Fuji Xerox Co Ltd | 画像検索システム及び方法及びプログラム |
CN102625937A (zh) * | 2009-08-07 | 2012-08-01 | 谷歌公司 | 用于对视觉查询作出响应的体系结构 |
EP2646949A1 (en) * | 2010-12-01 | 2013-10-09 | Google, Inc. | Identifying matching canonical documents in response to a visual query |
CN106933960A (zh) * | 2017-01-23 | 2017-07-07 | 宇龙计算机通信科技(深圳)有限公司 | 一种图片识别搜索方法及装置 |
CN109063068A (zh) * | 2018-07-23 | 2018-12-21 | 广州云测信息技术有限公司 | 一种图片检索方法和装置 |
CN110895555A (zh) * | 2018-09-13 | 2020-03-20 | 深圳市蓝灯鱼智能科技有限公司 | 数据检索方法和装置、存储介质及电子装置 |
CN111666474A (zh) * | 2019-03-08 | 2020-09-15 | 小船出海教育科技(北京)有限公司 | 一种整页搜题的方法及终端 |
CN111339335A (zh) * | 2020-03-06 | 2020-06-26 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
Non-Patent Citations (1)
Title |
---|
赵珊;汤永利;: "基于文本检索技术的CBIR算法研究", 光学学报, no. 10, 15 October 2009 (2009-10-15) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743105A (zh) * | 2021-09-07 | 2021-12-03 | 深圳海域信息技术有限公司 | 一种基于大数据特征识别的文字近似度检索分析方法 |
CN113743105B (zh) * | 2021-09-07 | 2022-05-24 | 深圳海域信息技术有限公司 | 一种基于大数据特征识别的文字近似度检索分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112766269B (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10223345B2 (en) | Interactively predicting fields in a form | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
CN112818812A (zh) | 图像中表格信息的识别方法、装置、电子设备及存储介质 | |
CN111428457B (zh) | 数据表的自动格式化 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
US20080107338A1 (en) | Media material analysis of continuing article portions | |
CN114004204B (zh) | 基于计算机视觉的表格结构重建与文字提取方法和系统 | |
CN114529773A (zh) | 基于结构单元的表格识别方法、系统、终端及介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
CN114677695A (zh) | 表格解析方法、装置、计算机设备和存储介质 | |
CN112766246A (zh) | 基于深度学习的文档标题识别方法、系统、终端及介质 | |
CN114724153A (zh) | 一种表格还原方法、装置及相关设备 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN113283432A (zh) | 图像识别、文字排序方法及设备 | |
CN114170423B (zh) | 一种图像文档版面识别方法、装置及其系统 | |
CN115223172A (zh) | 文本提取方法、装置及设备 | |
CN111104539A (zh) | 细粒度车辆图像检索方法、装置及设备 | |
CN112766269B (zh) | 一种图片文本检索方法、智能终端及存储介质 | |
CN113936187A (zh) | 文本图像合成方法、装置、存储介质及电子设备 | |
JP4856235B2 (ja) | 帳票認識方法及び帳票認識装置 | |
CN112580624B (zh) | 基于边界预测的多方向文本区域检测方法和装置 | |
JP4450888B2 (ja) | 帳票認識方法 | |
US11645332B2 (en) | System and method for clustering documents | |
KR20110039900A (ko) | 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 | |
CN117315224A (zh) | 一种改进边界框回归损失的目标检测方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |