CN111046736B - 一种提取文本信息的方法、装置和存储介质 - Google Patents

一种提取文本信息的方法、装置和存储介质 Download PDF

Info

Publication number
CN111046736B
CN111046736B CN201911110263.7A CN201911110263A CN111046736B CN 111046736 B CN111046736 B CN 111046736B CN 201911110263 A CN201911110263 A CN 201911110263A CN 111046736 B CN111046736 B CN 111046736B
Authority
CN
China
Prior art keywords
image
processed
template image
region
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911110263.7A
Other languages
English (en)
Other versions
CN111046736A (zh
Inventor
李壮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fangjianghu Technology Co Ltd
Original Assignee
Beijing Fangjianghu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fangjianghu Technology Co Ltd filed Critical Beijing Fangjianghu Technology Co Ltd
Priority to CN201911110263.7A priority Critical patent/CN111046736B/zh
Publication of CN111046736A publication Critical patent/CN111046736A/zh
Application granted granted Critical
Publication of CN111046736B publication Critical patent/CN111046736B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种提取文本信息的方法、装置和存储介质,具体为首先获取待处理图像,并在待处理图像中提取第一区域,其中,第一区域为待处理图像中的固定文本所在的文本区域,其次,将第一区域与模板图像中的第二区域进行匹配,并在模板图像中筛选出符合匹配条件的待适配模板图像,然后,计算待处理图像与待适配模板图像的适配比,最后,选取数值最大的适配比对应的待适配模板图像作为适配模板图像,并将待处理图像投影至适配模板图像,识别待处理图像投影在适配模板图像的至少一个结构化区域中的文本信息。本申请实施例通过为每一张待处理图像适配模板图像,并根据适配模板图像解析待处理图像中的文本信息,以对文本信息进行结构化提取。

Description

一种提取文本信息的方法、装置和存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种提取文本信息的方法、装置和存储介质。
背景技术
光学字符识别(Optical Character Recognition,OCR)技术能够是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文本的过程。因其可以检测和识别图片中的文本信息被广泛应用于多个领域。
OCR技术可以辅助录入票据信息和辅助审核校验,节约大量的人工成本。应用OCR技术后可以获得图片中的文本位置及其对应的文本内容。在多数情况下,尤其是针对票据类型图片的OCR任务中,如票据种类版式繁多,没有统一固定的格式,仅仅获得这些文本位置和内容信息并不能够实现信息的有效获取,可能会造成信息类型的错误提取等问题。
发明内容
本申请实施例提供了一种提取文本信息的方法,克服了不能有效提取图片上位置和文本信息的技术问题。
该方法包括:
获取待处理图像,并在所述待处理图像中提取第一区域,其中,所述第一区域为所述待处理图像中的固定文本所在的文本区域;
将所述第一区域与模板图像中的第二区域进行匹配,并在所述模板图像中筛选出符合匹配条件的待适配模板图像,其中,所述第二区域为所述模板图像中的固定文本所在的文本区域;
计算所述待处理图像与所述待适配模板图像的适配比;
选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像,并将所述待处理图像投影至所述适配模板图像,识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。
可选地,获取所述待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息;
根据所述第一坐标信息,在至少一个所述模板图像中确定与至少一个所述第一坐标信息对应的所述第二区域;
将所述第一文本信息与对应在所述第二区域中的第二文本信息进行匹配,并记录文本信息相同的所述第一区域的数量;
当所述文本信息相同的所述第一区域的数量大于预设数量时,将所述第二区域对应的所述模板图像确定为所述待适配模板图像。
可选地,计算所述待处理图像在所述待适配模板图像上的最优映射点;
根据所述最优映射点,计算所述待处理图像与所述待适配模板图像的变换矩阵,并按照所述变换矩阵,将所述待处理图像投影至所述待适配模板上;
分别计算所述待处理图像投影的所述第一区域和所述待适配模板图像的所述第二区域上的交集,以及所述第一区域和所述第二区域的并集;
基于所述交集与所述并集的比值,计算所述待处理图像与所述待适配模板图像的适配比。
可选地,在所述待处理图像中与所述待适配模板图像的文本信息相同的所述第一区域的所述第一坐标信息中,选取与所述待适配模板图像的四个顶点的距离最近的四个坐标值作为所述最优映射点。
可选地,提取所述待处理图像中的第三区域和所述适配模板图像中的第四区域,其中,所述第三区域为所述待处理图像中的待检测文本形成的文本区域,所述第四区域为所述适配模板图像中用于填写所述待检测文本的所述结构化区域;
计算所述第三区域和所述第四区域的交集与所述第四区域的比值;
在比值大于第二预设阈值时,确定所述待检测文本在所述第四区域中。
可选地,在所述第四区域中识别所述待处理图像中的所述文本信息。
在本发明的另一个实施例中,提供了一种提取文本信息的装置,该装置包括:
获取模块,用于获取待处理图像,并在所述待处理图像中提取第一区域,其中,所述第一区域为所述待处理图像中的固定文本所在的文本区域;
筛选模块,用于将所述第一区域与模板图像中的第二区域进行匹配,并在所述模板图像中筛选出符合匹配条件的待适配模板图像,其中,所述第二区域为所述模板图像中的固定文本所在的文本区域;
第一计算模块,用于计算所述待处理图像与所述待适配模板图像的适配比;
识别模块,用于选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像,并将所述待处理图像投影至所述适配模板图像,识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。
可选地,所述筛选模块包括:
获取子单元,用于获取所述待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息;
第一确定子单元,用于根据所述第一坐标信息,在至少一个所述模板图像中确定与至少一个所述第一坐标信息对应的所述第二区域;
记录子单元,用于将所述第一文本信息与对应在所述第二区域中的第二文本信息进行匹配,并记录文本信息相同的所述第一区域的数量;
第二确定子单元,用于当所述文本信息相同的所述第一区域的数量大于预设数量时,将所述第二区域对应的所述模板图像确定为所述待适配模板图像。
可选地,所述第一计算模块包括:
第一计算子单元,用于计算所述待处理图像在所述待适配模板图像上的最优映射点;
投影子单元,用于根据所述最优映射点,计算所述待处理图像与所述待适配模板图像的变换矩阵,并按照所述变换矩阵,将所述待处理图像投影至所述待适配模板上;
第二计算子单元,用于分别计算所述待处理图像投影的所述第一区域和所述待适配模板图像的所述第二区域上的交集,以及所述第一区域和所述第二区域的并集;
第三计算子单元,用于基于所述交集与所述并集的比值,计算所述待处理图像与所述待适配模板图像的适配比。
可选地,所述第一计算子单元还用于:
在所述待处理图像中与所述待适配模板图像的文本信息相同的所述第一区域的所述第一坐标信息中,选取与所述待适配模板图像的四个顶点的距离最近的四个坐标值作为所述最优映射点。
可选地,所述装置进一步包括:
提取模块,用于提取所述待处理图像中的第三区域和所述适配模板图像中的第四区域,其中,所述第三区域为所述待处理图像中的待检测文本形成的文本区域,所述第四区域为所述适配模板图像中用于填写所述待检测文本的所述结构化区域;
第二计算模块,用于计算所述第三区域和所述第四区域的交集与所述第四区域的比值;
确定模块,用于在比值大于第二预设阈值时,确定所述待检测文本在所述第四区域中。
可选地,所述识别模块还用于:
在所述第四区域中识别所述待处理图像中的所述文本信息。
在本发明的另一个实施例中,提供了一种非瞬时计算机可读存储介质,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行上述一种提取文本信息的方法中的各个步骤。
在本发明的另一个实施例中,提供了一种终端设备,包括处理器,所述处理器用于执行上述一种提取文本信息的方法中的各个步骤。
基于上述实施例,首先获取待处理图像,并在待处理图像中提取第一区域,其中,第一区域为待处理图像中的固定文本所在的文本区域,其次,将第一区域与模板图像中的第二区域进行匹配,并在模板图像中筛选出符合匹配条件的待适配模板图像,其中,第二区域为模板图像中的固定文本所在的文本区域,然后,计算待处理图像与待适配模板图像的适配比,最后,选取数值最大的适配比对应的待适配模板图像作为适配模板图像,并将待处理图像投影至适配模板图像,识别待处理图像投影在适配模板图像中至少一个结构化区域中的文本信息。本申请实施例通过为每一张待处理图像适配模板图像,并根据适配模板图像解析待处理图像中的文本信息,以对文本信息进行结构化提取。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例100所提供的一种提取文本信息的方法的流程示意图;
图2示出了本申请实施例200示出了待处理图像上第一区域和第三区域的示意图;
图3示出了本申请实施例300示出了模板图像上第二区域和第四区域的示意图;
图4示出了本申请实施例400提供的一种提取文本信息的方法的具体流程的示意图;
图5示出了本申请实施例500还提供一种提取文本信息的装置的示意图;
图6示出了本申请实施例600所提供的一种终端设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
基于现有技术中的问题,本申请实施例提供了一种提取文本信息的方法,主要适用于互联网技术领域。通过为待处理图像适配正确的适配模板图像,进而使用适配模板图像对待处理图像中的文本信息进行结构化提取,以实现一种提取文本信息的方法。以下几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。如图1所示,为本申请实施例100提供的一种提取文本信息的方法的流程示意图。其中,详细步骤如下:
S11,获取待处理图像,并在待处理图像中提取第一区域,其中,第一区域为待处理图像中的固定文本所在的文本区域。
本步骤中,待处理图像中的第一区域为待处理图像中的固定文本部分。一般该固定文本部分为事先规定并印制的制式语言。以待处理图像为票据示例,第一区域为票据中的表项所在的区域,即固定文本所在的区域。一般地,待处理图像中会包含多个第一区域。如图2所示,为本申请实施例200示出的待处理图像中的第一区域的示意图。
S12,将第一区域与模板图像中的第二区域进行匹配,并在模板图像中筛选出符合匹配条件的待适配模板图像,其中,第二区域为模板图像中的固定文本所在的文本区域。
本步骤中,模板图像预先设置,且模板图像中包括第二区域。与第一区域的表达方式相像,第二区域为模板图像中的固定文本所在的文本区域。如图3所示,为本申请实施例300示出的模板图像中的第二区域的示意图。具体的,将待处理图像中的第一区域与模板图像中的第二区域进行匹配,判断模板图像是否为该待处理图像的待适配模板图像。其中,匹配条件为待处理图像中的第一区域与模板图像中第二区域中的文本信息相同,且文本信息相同的第一区域的数量大于预设数量。预设数量可以根据第二区域的数量确定。进一步地,基于上述匹配条件,将待处理图像与各个模板图像进行匹配,筛选出其中满足匹配条件的模板图像作为待适配模板图像。
S13,计算待处理图像与待适配模板图像的适配比。
本步骤中,在获取了待处理图像的待适配模板图像后,计算待处理图像与各个待适配模板图像的适配比。具体的,将待处理图像投影至待适配模板图像上,并计算前述确定相同的多组第一区域和第二区域组成的识别对的交叠比。其中,交叠比为第一区域和第二区域的交集与第一区域和第二区域的并集的比值。进一步地,通过确定交叠比,确定待处理图像与待适配模板图像的适配比。
S14,选取数值最大的适配比对应的待适配模板图像作为适配模板图像,并将待处理图像投影至适配模板图像,识别待处理图像投影在适配模板图像中至少一个结构化区域中的文本信息。。
本步骤中,根据待处理图像与多个待适配模板图像确定的适配值,选取其中适配值最大的待适配模板图像作为适配模板图像。将待处理图像投影至该适配模板图像,并对投影至适配模板图像的待检测文本进行解析和提取。其中,在经过投影后,待处理图像的部分第一区域和适配模板图像的第二区域重合。此时,待处理图像中与第一区域对应的待检测文本信息也投影至第二区域对应的区域中,即待识别图像一般会投影至适配模板图像中至少一个结构化区域中。进一步地,将该待检测文本进行识别。
如上所述,基于上述实施例,首先获取待处理图像,并在待处理图像中提取第一区域,其中,第一区域为待处理图像中的固定文本所在的文本区域,其次,将第一区域与模板图像中的第二区域进行匹配,并在模板图像中筛选出符合匹配条件的待适配模板图像,其中,第二区域为模板图像中的固定文本所在的文本区域,然后,计算待处理图像与待适配模板图像的适配比,最后,选取数值最大的适配比对应的待适配模板图像作为适配模板图像,并将待处理图像投影至适配模板图像,识别待处理图像投影在适配模板图像中至少一个结构化区域中的文本信息。本申请实施例通过为每一张待处理图像适配模板图像,并根据适配模板图像解析待处理图像中的文本信息,以对文本信息进行结构化提取。
如图4所示,为本申请实施例400提供的一种提取文本信息的方法的具体流程的示意图。其中,该具体流程的详细过程如下:
S401,获取待处理图像。
这里,待处理图像可以为任何需要提取文本信息的图像,如票据,表格以及合同等。如图5所示,为本申请实施例示出的待处理图像的示意图。
S402,在待处理图像中提取第一区域。
这里,第一区域为待处理图像中的固定文本部分所在的文本区域。如图2所示,为本申请实施例200示出的待处理图像中的第一区域的示意图。一般地,第一区域为待处理图像中的制式文本部分,如图2中所示,“房屋所有权人”、“共有情况”、“房屋坐落”等表明填写类型的文本信息所在的区域即为第一区域。
S403,在模板库中提取模板图像。
这里,待处理图像的版式种类繁多,因此,为每一种可能的待处理图像的可能的固定板式添加一种模板图像,构建包含多种版式种类的模板图像。进一步地,构造模板图像的步骤包括选取图像中的第二区域和第四区域。其中,第二区域与第一区域的含义相像,为模板图像中的固定文本部分所在的文本区域,而第四区域为填写与第二区域中的固定文本对应的待检测文本所在的最大区域。如图3所示,为本申请实施例300示出的模板图像中的第四区域的示意图。
具体的,构造模板图像的步骤大致相同。第一步,选取第一区域。首先,从该种待处理图像的类型对应的图片中任选一张清晰且文本表格方正,内容无缺失的图片作为底图。然后,在该图片中,选取数量适中(可为8-14个,过少或过多的第一区域的个数都会减少适配鲁棒性)个内容和位置固定的第一区域,并标注出所有第一区域的第一坐标信息和第一文本信息,这些第一区域将作为模板适配的基准。其中,第一区域不仅要标示出第一坐标信息,还要标示出表示内容信息的第一文本信息。第二步,选取第二区域。该步骤旨在表示出要结构化的待检测文本可能出现在图中的位置,并标注出可能位置的最大区域以及所属的第一区域的固定文本的内容。例如,图3中“登记时间”字段,可能出现的最大区域为图3所示,代表“登记时间”对应待检测文本可能出现的位置的最大范围。
S404,在各个模板图像中提取第二区域。
S405,将第一区域中的文本信息与对应的第二区域的文本信息进行匹配。
这里,获取待处理图像中至少一个第一区域的第一坐标信息和第一文本信息。根据第一坐标信息,在至少一个模板图像中确定与至少一个第一坐标信息对应的第二区域,并将第一文本信息与对应在第二区域中的第二文本信息进行匹配,并记录文本信息相同的第一区域的数量。具体的,将待处理图像与模板图像中的固定文字所在的区域进行匹配,即将第一区域中的文本信息与第二区域中的文本信息进行匹配,以判断与该待处理图像相匹配的待适配模板图像。按照获取的第一坐标信息,在模板图像中查找与第一坐标信息表示的位置相近的位置,并确定该位置是否存在第二区域。在存在第二区域时,将第一区域中的文本信息与第二区域中的文本进行一一匹配,并在两个区域中的文本信息全等时,记录全等数量N。
S406,判断第一区域全等于第二区域的数量是否超过预设数量。
这里,预设数量根据模板图像中的第二区域的数量进行设定。如模板图像中的第二区域的数量为M个时,可以设置预设数量为M/3。进一步地,判断N与M/3的数值的大小。
S407,若未超过预设数量时,返回该模板图像与待处理图像的适配比为0。
本步骤中,适配比Match_score为该模板图像与待处理图像适配的可能性。当N小于M/3时,则一般认为该模板图像与待处理图像并不适配,此时,返回适配比Match_score=0。
S408,当超过预设数量时,在待处理图像中选取最优映射点。
本步骤中,当文本信息相同的第一区域的数量大于预设数量时,将第二区域对应的模板图像确定为待适配模板图像。进一步地,计算待处理图像在待适配模板图像上的最优映射点,以确定该待处理图像是否可以投影至该待适配模板图像。这里,待处理图像可能为人为拍摄,在拍摄过程中可能出现倾斜等情况,通过计算最优映射点可以将待处理图像较为准确的投影至待适配模板图像上。具体的,在待处理图像中与待适配模板图像的文本信息相同的第一区域的第一坐标信息中,选取与待适配模板图像的四个顶点的距离最近的四个坐标值作为最优映射点。这里,上述步骤中已经记录了所有与待适配模板图像匹配到的第一区域,至少一个第一区域都包括四个第一坐标信息。因此,所有匹配到的第一坐标信息的数量为4*N个。而要实现待处理图像在待适配模板图像中的投影,需要在4*N个第一坐标信息中选取四个第一坐标信息,其中的至少一个第一坐标信息均对应在待适配模板图像的四个顶点的顶点坐标的距离最近,且每两个第一坐标信息之间形成的夹角接近直角。同时,四个第一坐标信息之间形成的四边形的面积也为最大。
进一步地,最优映射点best_loc的计算公式如下公式1,其中,si表示最优映射点,pi表示待适配模板图像的四个顶点,1<=i<=N。
Figure GDA0002895953850000081
S409,根据最优映射点,将待处理图像投影至待适配模板图像。
本步骤中,根据最优映射点,计算待处理图像与待适配模板图像的变换矩阵,并按照变换矩阵,将待处理图像投影至待适配模板上。具体的,以四个最优映射点为基准点,计算待处理图像与待适配模板图像之间的变换矩阵,并按照该变换矩阵,将待处理图像投影至待适配模板图像上。
S410,计算待处理图像与待适配模板图像的适配比。
这里,在将待处理图像投影在待适配模板图像上后,分别计算待处理图像投影的第一区域和待适配模板图像的第二区域上的交集,以及第一区域和第二区域的并集,并基于交集与并集的比值,计算待处理图像与待适配模板图像的适配比。具体的,Match_score的计算公式如下公式2所示。其中,anchori和pre_anchori分别表示第一区域和第二区域,IoU(anchori,pre_anchori)表示第一区域和第二区域的交叠比(Inter over Union),分母为lg(N),这里将分母N取lg值的原因是为了加强匹配数量N对于Match_score的贡献度,N越大,Match_score应当越大。
Figure GDA0002895953850000091
S411,判断数值最大的适配比是否超过第一预设阈值。
这里,经过上述步骤已经计算出待处理图像和各个待适配模板图像的适配比Match_score,选取数值最大的Match_score记为Max_match_score,判断其是否大于实现给定的第一预设阈值T,
S412,将超过第一预设阈值的适配比对应的待适配模板图像作为适配模板图像。
这里,若大于第一预设阈值则则认为匹配成功,返回该Max_match_score对应的待适配图像模板为适配图像模板。
S413,匹配失败。
S414,将待处理图像投影至适配模板图像上,并判断投影后在适配模板图像上的待处理图像是否满足解析条件。
这里,在将待处理图像投影至适配模板图像上后,提取待处理图像中的第三区域和适配模板图像中的第四区域,其中,第三区域为待处理图像中的待检测文本形成的文本区域,第四区域为适配模板图像中用于填写待检测文本的区域。第三区域一般为待处理图像中与第一区域中的固定文本对应的应当填写的待检测文本。如图2所示,为本申请实施例200示出的待处理图像中的第三区域的示意图。进一步地,解析条件为计算第三区域和第四区域的交集与第四区域的比值IoP(Inter over Predict),并在比值大于第二预设阈值时,确定待检测文本在第四区域中。其中,第二预设阈值的较佳实施例为0.5。
S415,在满足解析条件的投影后的适配模板图像的待处理图像中识别文本信息。
这里,在满足上述解析条件,即确定待处理图像中的待检测文本在第四区域中时,在第四区域中提取待处理图像中的文本信息。若不满足解析条件,则结束流程。
本申请基于上述步骤实现上述一种提取文本信息的方法。通过根据待处理图像预先构造模板图像,每添加一种模板图像的类型,需要手动添加该模板图像的结构信息,包括第二区域和第四区域的选取。进一步地,对待处理图像进行模板图像的适配。将检测识别后的待处理图像的信息与模板库中的模板图像进行逐一匹配,并应用本申请实施例提出的适配算法计算适配比Match_score,若最大Match_score大于第一预设阈值T,则认为该模板图像为适配该待处理图像的适配模板图像。最后,应用适配模板图像对待检测文本进行结构化解析,提取待处理图像中的文本信息。本申请实施例提出的一种提取文本信息,基于检测识别的多模板自适配技术,根据检测算法和识别算法对待处理图像返回的第一区域,为该待处理图像自动选取对应的适配模板图像,进而使用适配模板图像对文本信息进行结构化关键信息提取,提升了文本提取的准确性。
基于同一发明构思,本申请实施例500还提供一种提取文本信息的装置,其中,如图3所示,该装置包括:
获取模块51,用于获取待处理图像,并在待处理图像中提取第一区域,其中,第一区域为待处理图像中的固定文本所在的文本区域;
筛选模块52,用于将第一区域与模板图像中的第二区域进行匹配,并在模板图像中筛选出符合匹配条件的待适配模板图像,其中,第二区域为模板图像中的固定文本所在的文本区域;
第一计算模块53,用于计算待处理图像与待适配模板图像的适配比;
识别模块54,用于选取数值最大且数值满足第一预设阈值的适配比对应的待适配模板图像作为适配模板图像,并将待处理图像投影至适配模板图像,识别待处理图像投影在适配模板图像中至少一个结构化区域中的文本信息。
本实施例中,获取模块51、筛选模块52、第一计算模块53和识别模块54的具体功能和交互方式,可参见图1对应的实施例的记载,在此不再赘述。
可选地,筛选模块52包括:
获取子单元,用于获取待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息;
第一确定子单元,用于根据第一坐标信息,在至少一个模板图像中确定与至少一个第一坐标信息对应的第二区域;
记录子单元,用于将第一文本信息与对应在第二区域中的第二文本信息进行匹配,并记录文本信息相同的第一区域的数量;
第二确定子单元,用于当文本信息相同的第一区域的数量大于预设数量时,将第二区域对应的模板图像确定为待适配模板图像。
可选地,第一计算模块53包括:
第一计算子单元,用于计算待处理图像在待适配模板图像上的最优映射点;
投影子单元,用于根据最优映射点,计算待处理图像与待适配模板图像的变换矩阵,并按照变换矩阵,将待处理图像投影至待适配模板上;
第二计算子单元,用于分别计算待处理图像投影的第一区域和待适配模板图像的第二区域上的交集,以及第一区域和第二区域的并集;
第三计算子单元,用于基于交集与并集的比值,计算待处理图像与待适配模板图像的适配比。
可选地,第一计算子单元还用于:
在待处理图像中与待适配模板图像的文本信息相同的第一区域的第一坐标信息中,选取与待适配模板图像的四个顶点的距离最近的四个坐标值作为最优映射点。
可选地,该装置进一步包括:
提取模块,用于提取待处理图像中的第三区域和适配模板图像中的第四区域,其中,第三区域为待处理图像中的待检测文本形成的文本区域,第四区域为适配模板图像中用于填写待检测文本的结构化区域;
第二计算模块,用于计算第三区域和第四区域的交集与第四区域的比值;
确定模块,用于在比值大于第二预设阈值时,确定待检测文本在第四区域中。
可选地,识别模块54还用于:
在第四区域中识别待处理图像中的文本信息。
如图6所示,本申请的又一实施例600还提供一种终端设备,包括处理器601,其中,处理器601用于执行上述一种提取文本信息的方法的步骤。从图6中还可以看出,上述实施例提供的终端设备还包括非瞬时计算机可读存储介质602,该非瞬时计算机可读存储介质602上存储有计算机程序,该计算机程序被处理器601运行时执行上述一种提取文本信息的方法的步骤。实际应用中,该终端设备可以是一台或多台计算机,只要包括上述计算机可读介质和处理器即可。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘和FLASH等,该存储介质上的计算机程序被运行时,能够执行上述的一种提取文本信息的方法中的各个步骤。实际应用中,所述的计算机可读介质可以是上述实施例中描述的设备/装置/系统中所包含的,也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或多个程序被执行时,能够执行上述的一种提取文本信息的方法中的各个步骤。
根据本申请公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件,或者上述的任意合适的组合,但不用于限制本申请保护的范围。在本申请公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的至少一个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标注的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的至少一个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行变更或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些变更、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种提取文本信息的方法,其特征在于,包括:
获取待处理图像,并在所述待处理图像中提取第一区域,其中,所述第一区域为所述待处理图像中的固定文本所在的文本区域;
将所述第一区域与模板图像中的第二区域进行匹配,并在所述模板图像中筛选出符合匹配条件的待适配模板图像,其中,所述第二区域为所述模板图像中的固定文本所在的文本区域;
计算所述待处理图像在所述待适配模板图像上的最优映射点,并基于所述最优映射点将所述待处理图像投影至所述待适配模板图像,以及,计算所述待处理图像与所述待适配模板图像的适配比,其中,所述适配比为所述待处理图像和所述待适配模板图像中相匹配的匹配数量个所述第一区域与所述第二区域的交叠比的和,与所述匹配数量的对数函数的比值;
选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像,并将所述待处理图像投影至所述适配模板图像,识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。
2.根据权利要求1所述的方法,其特征在于,所述并在所述模板图像中筛选出符合匹配条件的待适配模板图像的步骤包括:
获取所述待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息;
根据所述第一坐标信息,在至少一个所述模板图像中确定与至少一个所述第一坐标信息对应的所述第二区域;
将所述第一文本信息与对应在所述第二区域中的第二文本信息进行匹配,并记录文本信息相同的所述第一区域的数量;
当所述文本信息相同的所述第一区域的数量大于预设数量时,将所述第二区域对应的所述模板图像确定为所述待适配模板图像。
3.根据权利要求2所述的方法,其特征在于,所述计算所述待处理图像与所述待适配模板图像的适配比的步骤包括:
根据所述最优映射点,计算所述待处理图像与所述待适配模板图像的变换矩阵,并按照所述变换矩阵,将所述待处理图像投影至所述待适配模板上;
分别计算所述待处理图像投影的所述第一区域和所述待适配模板图像的所述第二区域上的交集,以及所述第一区域和所述第二区域的并集;
基于所述交集与所述并集的比值,计算所述待处理图像与所述待适配模板图像的适配比。
4.根据权利要求3所述的方法,其特征在于,所述计算所述待处理图像在所述待适配模板图像上的最优映射点的步骤包括:
在所述待处理图像中与所述待适配模板图像的文本信息相同的所述第一区域的所述第一坐标信息中,选取与所述待适配模板图像的四个顶点的距离最近的四个坐标值作为所述最优映射点。
5.根据权利要求4所述的方法,其特征在于,所述并将所述待处理图像投影至所述适配模板图像的步骤和所述在所述识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息的步骤之间,所述方法进一步包括:
提取所述待处理图像中的第三区域和所述适配模板图像中的第四区域,其中,所述第三区域为所述待处理图像中的待检测文本形成的文本区域,所述第四区域为所述适配模板图像中用于填写所述待检测文本的所述结构化区域;
计算所述第三区域和所述第四区域的交集与所述第四区域的比值;
在比值大于第二预设阈值时,确定所述待检测文本在所述第四区域中。
6.根据所述权利要求5所述的方法,其特征在于,所述识别所述待处理图像投影在所述适配模板图像的至少一个结构化区域中的文本信息的步骤包括:
在所述第四区域中识别所述待处理图像中的所述文本信息。
7.一种提取文本信息的装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像,并在所述待处理图像中提取第一区域,其中,所述第一区域为所述待处理图像中的固定文本所在的文本区域;
筛选模块,用于将所述第一区域与模板图像中的第二区域进行匹配,并在所述模板图像中筛选出符合匹配条件的待适配模板图像,其中,所述第二区域为所述模板图像中的固定文本所在的文本区域;
第一计算模块,用于计算所述待处理图像在所述待适配模板图像上的最优映射点,并基于所述最优映射点将所述待处理图像投影至所述待适配模板图像,以及,计算所述待处理图像与所述待适配模板图像的适配比,其中,所述适配比为所述待处理图像和所述待适配模板图像中相匹配的匹配数量个所述第一区域与所述第二区域的交叠比的和,与所述匹配数量的对数函数的比值;
识别模块,用于选取数值最大且数值满足第一预设阈值的所述适配比对应的所述待适配模板图像作为适配模板图像,并将所述待处理图像投影至所述适配模板图像,识别所述待处理图像投影在所述适配模板图像中至少一个结构化区域中的文本信息。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块包括:
获取子单元,用于获取所述待处理图像中至少一个所述第一区域的第一坐标信息和第一文本信息;
第一确定子单元,用于根据所述第一坐标信息,在至少一个所述模板图像中确定与至少一个所述第一坐标信息对应的所述第二区域;
记录子单元,用于将所述第一文本信息与对应在所述第二区域中的第二文本信息进行匹配,并记录文本信息相同的所述第一区域的数量;
第二确定子单元,用于当所述文本信息相同的所述第一区域的数量大于预设数量时,将所述第二区域对应的所述模板图像确定为所述待适配模板图像。
9.一种非瞬时计算机可读存储介质,其特征在于,所述非瞬时计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如权利要求1至6任一项所述的一种提取文本信息的方法中的各个步骤。
10.一种终端设备,其特征在于,包括处理器,所述处理器用于执行如权利要求1至6中任一项所述的一种提取文本信息的方法中的各个步骤。
CN201911110263.7A 2019-11-14 2019-11-14 一种提取文本信息的方法、装置和存储介质 Active CN111046736B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911110263.7A CN111046736B (zh) 2019-11-14 2019-11-14 一种提取文本信息的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911110263.7A CN111046736B (zh) 2019-11-14 2019-11-14 一种提取文本信息的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111046736A CN111046736A (zh) 2020-04-21
CN111046736B true CN111046736B (zh) 2021-04-16

Family

ID=70231893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911110263.7A Active CN111046736B (zh) 2019-11-14 2019-11-14 一种提取文本信息的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111046736B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381153A (zh) * 2020-11-17 2021-02-19 深圳壹账通智能科技有限公司 票据分类的方法、装置和计算机设备
CN112308046A (zh) * 2020-12-02 2021-02-02 龙马智芯(珠海横琴)科技有限公司 图像的文本区域定位方法、装置、服务器及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916940A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 模板优化的字符识别方法和系统
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110399875A (zh) * 2019-07-31 2019-11-01 山东浪潮人工智能研究院有限公司 一种基于深度学习与像素投影的通用表格信息提取方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158957B2 (en) * 2002-11-21 2007-01-02 Honeywell International Inc. Supervised self organizing maps with fuzzy error correction
CN102081731B (zh) * 2009-11-26 2013-01-23 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN105913093B (zh) * 2016-05-03 2019-06-21 电子科技大学 一种用于文字识别处理的模板匹配方法
CN106650718A (zh) * 2016-12-21 2017-05-10 远光软件股份有限公司 凭证图像识别方法及装置
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN110008944B (zh) * 2019-02-20 2024-02-13 平安科技(深圳)有限公司 基于模板匹配的ocr识别方法及装置、存储介质
CN109977935B (zh) * 2019-02-27 2024-04-12 平安科技(深圳)有限公司 一种文本识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916940A (zh) * 2005-08-18 2007-02-21 北大方正集团有限公司 模板优化的字符识别方法和系统
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN110188755A (zh) * 2019-05-30 2019-08-30 北京百度网讯科技有限公司 一种图像识别的方法、装置和计算机可读存储介质
CN110399875A (zh) * 2019-07-31 2019-11-01 山东浪潮人工智能研究院有限公司 一种基于深度学习与像素投影的通用表格信息提取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Text-independent speaker recognition using graph matching;V Hautam Ki et al;《Pattern Recognition Letters》;20081231;第1427-1432页 *
基于图表示和匹配的表单定位与提取;谭婷等;《智能系统学报》;20190430;第14卷(第2期);第231-238页 *

Also Published As

Publication number Publication date
CN111046736A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN110175609B (zh) 界面元素检测方法、装置及设备
CN105303156B (zh) 字符检测装置、方法及程序
CN111078083A (zh) 一种点读内容的确定方法及电子设备
CN111046736B (zh) 一种提取文本信息的方法、装置和存储介质
JP2007114828A (ja) 画像処理装置および画像処理方法
US9575935B2 (en) Document file generating device and document file generation method
JPWO2014030400A1 (ja) 物体識別装置、物体識別方法、及びプログラム
CN111027537A (zh) 一种搜题方法及电子设备
CN114627482A (zh) 基于图像处理与文字识别实现表格数字化处理方法及系统
CN111652145A (zh) 一种公式检测的方法、装置、电子设备和存储介质
CN112446850B (zh) 适配测试方法、装置及电子设备
WO2023053830A1 (ja) 画像処理装置、画像処理方法および記録媒体
CN109977937B (zh) 图像处理方法、装置及设备
CN117115823A (zh) 一种篡改识别方法、装置、计算机设备和存储介质
CN111079777A (zh) 一种基于书页定位的点读方法及电子设备
CN111078983A (zh) 一种待识别页面的确定方法及学习设备
CN115100418A (zh) 一种抗原检测试剂盒识别方法、装置、设备及存储介质
JP4032800B2 (ja) 地図解析装置及びその実現のためのプログラム
JP6250526B2 (ja) 計量メータ読取装置及びプログラム
JP6175904B2 (ja) 照合対象抽出システム、照合対象抽出方法、照合対象抽出プログラム
JP5169648B2 (ja) 原画像探索装置及び原画像探索プログラム
JP5190312B2 (ja) 印鑑照合装置
CN111090989A (zh) 一种基于文字识别的提示方法及电子设备
CN111652182B (zh) 一种悬空手势识别的方法、装置、电子设备和存储介质
JPH11305910A (ja) メニュー選択方法及び装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200703

Address after: 100085 Floor 102-1, Building No. 35, West Second Banner Road, Haidian District, Beijing

Applicant after: Seashell Housing (Beijing) Technology Co.,Ltd.

Address before: 300 280 Tianjin Economic and Technological Development Zone Nangang Industrial Zone Office Building C Block 1, Room 112, Unit 05

Applicant before: BEIKE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210222

Address after: 101309 room 24, 62 Farm Road, Erjie village, Yangzhen, Shunyi District, Beijing

Applicant after: Beijing fangjianghu Technology Co.,Ltd.

Address before: 100085 Floor 101 102-1, No. 35 Building, No. 2 Hospital, Xierqi West Road, Haidian District, Beijing

Applicant before: Seashell Housing (Beijing) Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant