CN109697414A - 一种文本定位方法及装置 - Google Patents

一种文本定位方法及装置 Download PDF

Info

Publication number
CN109697414A
CN109697414A CN201811527265.1A CN201811527265A CN109697414A CN 109697414 A CN109697414 A CN 109697414A CN 201811527265 A CN201811527265 A CN 201811527265A CN 109697414 A CN109697414 A CN 109697414A
Authority
CN
China
Prior art keywords
text
image
line
row
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811527265.1A
Other languages
English (en)
Other versions
CN109697414B (zh
Inventor
丁洪利
刘天悦
詹华年
郑磊波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority to CN201811527265.1A priority Critical patent/CN109697414B/zh
Publication of CN109697414A publication Critical patent/CN109697414A/zh
Application granted granted Critical
Publication of CN109697414B publication Critical patent/CN109697414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本申请提供了一种文本定位方法及装置,涉及计算机领域,所述方法包括:获取待转换文本的目标文本图像;通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。采用本申请,能够提高文本定位的准确率。

Description

一种文本定位方法及装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本定位方法及装置。
背景技术
随着无纸化办公的推行,用户需要通过电子设备将图像中的文本信息转换为计算机字符,以便进行编辑,例如,用户可以对纸质文本进行拍摄,得到文本的图像,再通过电子设备将文本的图像转换为目标格式的电子文件。目标格式包括word(文本)、PDF(PortableDocument Format,便携式文本格式)、ppt(PowerPoint,演示文稿)等,本发明不做限定。
电子设备基于光学字符识别技术,将文本的图像包含的文本信息转换为计算机字符的处理过程可以分为:文本区域检测和版面分析与还原两步。在文本区域检测中,电子设备可以识别出文本的图像包含的文字、插图图像、以及表格;在版面分析与还原中,电子设备可以分析文本的版面所包含的插图图像、文字、以及表格之间的相对位置,以使文本对应的电子文件具有相同的版面布局。
常见的文本定位方法采用连通域的方式识别文本区域,容易受到图像噪声、墨点、以及水印的影响,导致检测的文本区域不准确,影响基于文本区域进行版面分析还原得到电子文件的转换准确率。因此,常见的文本定位方法的准确率低。
发明内容
本申请实施例的目的在于提供一种文本定位方法及装置,以提高文本定位的准确率。具体技术方案如下:
第一方面,提供了一种文本定位方法,所述方法包括:
获取待转换文本的目标文本图像;
通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
可选的,所述获取待转换文本的目标文本图像包括:
获取待转换文本的初始文本图像;
通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
若包含所述插入对象的信息,则确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
若不包含所述插入对象的信息,则将所述初始文本图像作为目标文本图像。
可选的,所述得到文本段图像、以及所述文本段图像对应的第二坐标信息之后,还包括:
若包含所述插入对象的信息,则基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
若不包含所述插入对象的信息,则基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
可选的,所述通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息包括:
在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
如果判断结果为是,则将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
如果判断结果为否,则将所述目标文本行图像作为文本段图像。
可选的,所述基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
如果所述行高比值不属于所述第一预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行高比值属于所述第一预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
如果所述行间距不属于所述第二预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行间距属于所述第二预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
如果所述左侧间距不属于所述第三预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述左侧间距属于所述第三预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
如果所述右侧间距属于所述第四预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果所述右侧间距不属于所述第四预设范围,则按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
可选的,所述按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
如果不存在,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果存在,则判断所述第三文本行图像的纵坐标区间与所述目标文本行图像的纵坐标区间是否重叠;
如果判断结果为否,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
可选的,所述获取待转换文本的初始文本图像包括:
获取预先存储的待转换文本的图像;
将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
可选的,所述通过预设的段落合并规则、所述文本行图像的第一坐标信息,对所述文本行图像进行合并,得到文本段图像,以及每个文本段图像的第二坐标信息之后,还包括:
获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
第二方面,提供了一种文本定位装置,所述装置包括:
第一获取模块,用于获取待转换文本的目标文本图像;
第一确定模块,用于通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
合并模块,用于通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
可选的,所述第一获取模块包括:
获取子模块,用于获取待转换文本的初始文本图像;
第一判断子模块,用于通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
第一确定子模块,用于当包含所述插入对象的信息时,确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
第二确定子模块,用于当不包含所述插入对象的信息时,将所述初始文本图像作为目标文本图像。
可选的,所述装置还包括:
第一存储模块,用于当包含所述插入对象的信息时,基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
第二存储模块,用于当不包含所述插入对象的信息时,基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
可选的,所述合并模块包括:
第三确定子模块,用于在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
判断子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
合并子模块,用于当判断结果为是时,将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
第四确定子模块,用于当判断结果为否时,将所述目标文本行图像作为文本段图像。
可选的,所述判断子模块包括:
第五确定子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
第六确定子模块,用于当所述行高比值不属于所述第一预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第七确定子模块,用于当所述行高比值属于所述第一预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
第六确定子模块,还用于当所述行间距不属于所述第二预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第八确定子模块,用于当所述行间距属于所述第二预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
第六确定子模块,还用于当所述左侧间距不属于所述第三预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第九确定子模块,用于当所述左侧间距属于所述第三预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
第十确定子模块,用于当所述右侧间距属于所述第四预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第二判断子模块,用于当所述右侧间距不属于所述第四预设范围时,按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
可选的,所述第二判断子模块包括:
第三判断子模块,用于基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
第十确定子模块,还用于当不存在所述第三文本行图像时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第四判断子模块,用于当存在所述第三文本行图像时,判断所述第三文本行图像的横坐标区间与所述目标文本行图像的横坐标区间是否重叠;
第十确定子模块,还用于当判断结果为否时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
可选的,所述获取模块包括:
获取子模块,用于获取预先存储的待转换文本的图像;
旋转子模块,用于将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
可选的,所述装置还包括:
第二获取模块,用于获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
分类模块,用于将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
第二确定模块,用于根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一第一方面所述的方法步骤。
本申请实施例提供的一种文本定位方法及装置,可以在获取待转换文本的目标文本图像后,通过预设的文本行检测算法,确定目标文本图像包含的文本行图像、以及文本行图像对应的第一坐标信息。然后,通过预设的段落合并规则、文本行图像对应的第一坐标信息,对文本行图像进行合并,得到文本段图像、以及文本段图像对应的第二坐标信息。由于通过文本行检测算法,从目标文本图像中检测文本行图像,并通过预设的段落合并规则、文本行图像的第一坐标信息,对文本行图像进行合并,以确定属于同一段的文本行图像,得到文本段图像,因此,可以提高文本定位的准确率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本定位方法的流程图;
图2a为本申请实施例提供的一种包含目标显示区域的目标文本图像的示例图;
图2b为本申请实施例提供的一种目标文本图像的示例图;
图2c为本申请实施例提供的一种目标文本图像的示例图;
图2d为本申请实施例提供的一种目标文本图像的示例图;
图2e为本申请实施例提供的一种目标文本图像的示例图;
图3为本申请实施例提供的一种文本定位方法的流程图;
图4为本申请实施例提供的一种文本定位方法的流程图;
图5为本申请实施例提供的一种文本定位方法的流程图;
图6为本申请实施例提供的一种文本定位装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例所提供的一种文本定位方法可以应用于任意需要对待转换文本的文本图像进行文本定位的电子设备,例如,可以为电脑、手机、智能手表等,在此不做具体限定。为了便于描述,以下简称电子设备。
本申请实施例提供了一种文本定位方法,如图1所示,该方法的具体处理流程包括:
步骤101,获取待转换文本的目标文本图像。
在实施中,电子设备可以获取本地存储的待转换文本的图像,作为目标文本图像。也可以获取其他电子设备发送的待转换文本的图像,作为目标文本图像。当然也可以通过自身安装的图像采集器件获取待转换文本的图像,作为目标文本图像,例如,通过自身安装的摄像头获取待转换文本的图像。这都是合理的,在此不做具体限定。
可选的,电子设备可以对待转换文本的图像进行角度校正,得到待转换文本的初始文本图像,并将初始文本图像作为目标文本图像,具体处理过程如下:
步骤1、获取预先存储的待转换文本的图像。
在实施中,电子设备中可以预先存储有多个待转换文本的图像,该图像可以是通过拍摄得到的。
步骤2、将图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
其中,预设坐标系可以是以目标文本图像的左上角为原点的直角坐标系。
在实施中,由于拍摄角度或扫描角度的问题,待转换文本的图像可能会存在倾斜、走形等问题,也即,各图像包含的文字方向可能存在多种情况,例如文字方向可以是标准角度,比如水平向右和垂直向下,与标准角度呈正或负90度、180度、以及正或负3度。
电子设备可以将待转换文本的图像输入至预设的旋转文本图片校正算法模型中,确定待转换文本的图像的基准线与预设坐标系的某一坐标轴之间的目标夹角与目标旋转方向,然后,电子设备可以按照目标旋转方向将待转换文本的图像旋转目标夹角,以使待转换文本的图像的基准线与预设坐标系的坐标轴呈预设的角度,得到待转换文本的初始文本图像。基准线包括待转换文本的图像水平方向的中线。
本申请实施例中,旋转文本图片校正算法模型可以采用4角度分类器,31角度分类器。预设坐标系可以是屏幕坐标系。
例如,电子设备可以将待转换文本的图像输入至预设的4角度分类器,确定待转换文本的图像的水平方向的中线与预设坐标系的y轴之间的目标夹角为0度,然后,电子设备可以通过预设的31角度分类器,确定待转换文本的图像与预设坐标系的y轴之间的目标夹角为5度,目标旋转方向为逆时针,然后,电子设备可以将待转换文本的图像逆时针旋转5度,以使待转换文本的图像的水平方向的中线与预设坐标系的坐标轴呈0度,得到待转换文本的初始文本图像。
本申请实施例中,当电子设备通过扫描部件或拍摄部件获取待转换文本的图像时,图像可能存在倾斜,因此,电子设备通过旋转文本图片校正算法模型,将图像旋转至与预设坐标系的坐标轴呈预设的角度,可以统一各初始文本图像的基准线与坐标轴之间的角度,便于电子设备后续对目标文本图像的文本定位处理。
可选的,在获得待转换文本的初始文本图像后,电子设备还可以基于初始文本图像的图像数据,判断初始文本图像是否包含插入对象,以确定不包含插入对象的目标文本图像。
其中,插入对象包括插图、表格,电子设备中可以预先设置有目标检测算法。
在实施中,电子设备可以通过目标检测算法和初始文本图像的图像数据,判断初始文本图像是否包含插入对象。
目标检测算法可以是任一具有目标检测功能的算法,例如ssd(single shotmultibox detector,单发多箱探测器)算法,或RetinaNet(视网膜网)算法。
根据判断结果的不同,电子设备的具体处理方式也不同:
如果目标文本图像不包含插入对象,电子设备则将初始文本图像作为目标文本图像;如果初始文本图像包含插入对象,电子设备则确定初始文本图像包含的插入对象对应的第三坐标信息、以及去除插入对象的目标文本图像。
其中,第三坐标信息为插入对象对应的目标显示区域的坐标信息,第三坐标信息可以包括预设坐标系中目标显示区域的两个不相邻的顶点的坐标信息,例如,第三坐标信息可以是(x1,x2,y1,y2),其中,x1和y1分别为目标显示区域左上顶点的横坐标和纵坐标,x2和y2分别为目标显示区域右下顶点的横坐标和纵坐标。
在实施中,电子设备可以通过目标检测算法,确定插入对象对应的目标显示区域在预设坐标系中的第三坐标信息。然后,电子设备可以在初始文本图像中,去除插入对象对应的目标显示区域,得到去除插入对象的目标文本图像。
如图2a所示,为本申请实施例提供的一种包含目标显示区域的目标文本图像的示例图,其中,目标显示区域210在预设坐标系中的第一坐标信息为(x1,x2,y1,y2)。
电子设备去除插入对象的方式是多种多样的,例如,电子设备可以通过将组成目标显示区域的各像素点的像素值设置为255的方式,去除插入对象。如图2b所示,为本申请实施例提供的一种去除插入对象的目标文本图像的示例图。
本申请实施例中,电子设备通过目标检测算法判断目标文本图像是否包含插入对象的具体处理过程为现有技术,此处不再赘述。第三坐标信息的表示形式可以是任一能够唯一的限定目标显示区域在预设坐标系中位置的坐标表示形式,本申请实施例不作具体限定。
本申请实施例中,电子设备通过目标检测算法,对初始文本图像是否包含插入对象进行检测,使得电子设备可以根据是否包含插入对象两种情况,确定不同的目标文本图像,能够避免后续电子设备对目标文本图像文本行检测时,插入对象的干扰,能够提高定位准确率。
步骤102,通过预设的文本行检测算法,确定目标文本图像包含的文本行图像、以及文本行图像对应的第一坐标信息。
其中,第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息。
在实施中,电子设备可以通过预设的文本行检测算法,对目标文本图像包含的至少一行文本行进行检测,得到文本行对应的文本行图像、以及文本行图像对应的第一坐标信息。
如图2c所示,为本申请实施例提供的一种目标文本图像的示例图,其中,目标文本图像包含多个文本行图像220。
步骤103,通过预设的段落合并规则、文本行图像对应的第一坐标信息,对文本行图像进行合并,得到文本段图像、以及文本段图像对应的第二坐标信息。
在实施中,电子设备可以针对目标文本图像包含的文本行图像,通过预设的段落合并规则,基于各文本行图像对应的第一坐标信息,确定需要合并的文本行图像,并对确定出的文本行图像进行合并,得到至少一个文本段图像。电子设备通过预设的段落合并规则,对文本行图像进行合并的具体处理过程后续会进行详细说明。
然后,电子设备可以基于需要合并的文本行图像的第一坐标信息,确定合并后得到的文本段图像对应的第二坐标信息。
例如,电子设备通过段落合并规则,确定需要合并的文本行图像为文本行图像a和文本行图像b,然后,电子设备可以对文本行图像a和文本行图像b进行合并,得到文本段图像A。
电子设备可以根据文本行图像a对应的第一坐标信息(1,5,1,2)确定文本行图像a的横坐标区间为[1~5]、纵坐标区间为[1~2],类似的,根据文本行图像b对应的第一坐标信息(1,4,2.5,3.5)确定文本行图像b横坐标区间为[1~4]、纵坐标区间为[2.5~3.5]。然后,电子设备可以对两文本行图像的横坐标区间取最大值5和最小值1,并基于最小值1和最大值5确定文本段图像A的横坐标区间为[1~5],类似的,文本段图像A的纵坐标区间为[1~3.5],由此,可以确定文本段图像A的第二坐标信息为(1,5,1,3.5)。
由此,电子设备可以确定目标文本图像对应的文本段图像,以及文本段图像对应的第二坐标信息。如图2d所示,为本申请实施例提供的一种目标文本图像的示例图,其中,目标文本图像包含多个文本段图像230。
本申请实施例中,电子设备中可以预先设置有文本检测算法,电子设备可以通过文本检测算法,确定文本行图像包含的字符、以及插入对象包含的字符。电子设备可以在对文本行图像进行合并,确定文本段图像时,对文本行图像包含的字符进行合并,确定文本段图像包含的字符。
文本检测算法可以是任一具有文本检测功能的算法,例如EAST(Efficient andAccurate Scene Text Detector,高效准确的场景文本检测器)算法。
本申请实施例中,电子设备基于待转换文本的目标文本图像,确定目标文本图像包含的文本行图像、以及文本行图像对应的第一坐标信息;之后,通过预设的段落合并规则、文本行图像对应的第一坐标信息,对文本行图像进行合并,得到文本段图像、以及文本段图像对应的第二坐标信息。由于通过文本行检测算法,从目标文本图像中检测文本行图像,并通过预设的段落合并规则、文本行图像的第一坐标信息,对文本行图像进行合并,以确定属于同一段的文本行图像,得到文本段图像,因此,可以提高文本定位的准确率。
本申请实施例中,与现有技术通过基于像素识别的连通域算法,对文本图像进行文本区域检测,容易受到图像噪声、墨点、以及水印的影响,导致检测的文本区域不准确相比,电子设备通过文本行检测算法,从目标文本图像中检测和识别文本行的准确率更高。此外,电子设备通过预设的段落合并规则,基于文本行图像对应的第一坐标信息,对文本行图像进行合并,能够确定属于同一段的文本行图像,得到文本段图像,因此,可以进一步提高文本定位的准确率。
可选的,本申请实施例提供了一种电子设备通过预设的段落合并规则,对文本行图像进行合并,得到多个文本段图像,以及每个文本段图像的第二坐标信息的实现方式,如图3所示,该实现方式可以包括如下步骤:
步骤301,在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与目标文本行图像相邻的文本行图像。
在实施中,电子设备可以基于文本行图像的第一坐标信息,确定文本行图像的纵坐标,并按照文本行图像的纵坐标的数值从小到大的顺序,依次确定目标文本行图像、以及与目标文本行图像相邻的文本行图像。
在一种可行的实现方式中,电子设备可以按照文本行图像的纵坐标的数值从小到大的顺序,建立文本行列表,表项中可以存储有某一文本行图像的标识、以及与该文本行图像相邻的文本行图像的标识、以及相邻的文本行图像与该文本行图像的位置关系。与该文本行图像相邻的文本行图像的标识包括:在预设坐标系中位于该文本行图像的下方的文本行图像和/或右方的文本行图像。
与图2e对应,电子设备可以生成如表1所示的文本行列表。
表1
文本行图像的标识 下方文本行图像的标识 右方文本行图像的标识
1 2
2 3 4
其中,1、2、3、4均为文本行图像的标识,标识2为在预设坐标系中位于标识1对应的文本行图像下方的文本行图像的标识,标识3为在预设坐标系中位于标识2对应的文本行图像下方的文本行图像的标识,标识4为在预设坐标系中位于标识2对应的文本行图像右方的文本行图像的标识。
例如,电子设备可以按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像为标识1对应的文本行图像,与目标文本行图像相邻的文本行图像为标识2对应的文本行图像。
步骤302,基于第一文本行图像的第一坐标信息、与目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断目标文本行图像包含的文本与第二文本行图像包含的文本是否属于同一文本段。
其中,第一文本行图像为目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像。
在实施中,电子设备可以根据目标文本行图像包含的文本行图像的第一坐标信息,确定纵坐标的数值最大的文本行图像为处于最后一行的文本行图像,得到第一文本行图像。当目标文本行图像由多个文本行图像组成时,处于最后一行的文本行图像即为第一文本行图像,当目标文本行图像由一个文本行图像组成时,该文本行图像即为第一文本行图像。
电子设备也可以根据目标文本行图像包含的文本行图像的第一坐标信息,确定与目标文本行图像相邻的文本行图像为第二文本行图像。
然后,电子设备可以确定第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,并根据预设的文本段识别规则、第一文本行图像的第一坐标信息、以及第二文本行图像的第一坐标信息,判断目标文本行图像包含的文本与第二文本行图像包含的文本是否属于同一文本段。
如果判断结果为是,则执行步骤303;如果判断结果为否,则执行步骤304。
步骤303,将目标文本行图像和第二文本行图像进行合并,得到新的目标文本行图像。
在实施中,电子设备可以将目标文本行图像和第二文本行图像进行合并,得到新的目标文本行图像。新的目标文本行图像中第二文本行图像即为处于最后一行的第一文本行图像。
电子设备可以根据目标文本行图像包含的文本行图像的第一坐标信息,和第二文本行图像的第一坐标信息,确定新的目标文本行图像的第一坐标信息。
步骤304,将目标文本行图像作为文本段图像。
在实施中,电子设备可以将目标文本行图像作为文本段图像。
例如,电子设备可以在目标文本行图像(标识1对应的文本行图像)中,确定处于最后一行的文本行图像(即标识1对应的文本行图像)为第一文本行图像,并确定与目标文本行图像相邻的文本行图像(标识2对应的文本行图像)为第二文本行图像。然后,电子设备可以确定第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,并根据预设的文本段识别规则、第一文本行图像的第一坐标信息、以及第二文本行图像的第一坐标信息,判断目标文本行图像包含的文本与第二文本行图像包含的文本是否属于同一文本段。
如果判断结果为是,电子设备则将标识1对应的文本行图像和标识2对应的文本行图像进行合并,得到新的目标文本行图像。新的目标文本行图像中标识2对应的文本行图像即为处于最后一行的第一文本行图像。
如果判断结果为否,电子设备则将标识1对应的文本行图像作为文本段图像。
电子设备可以在文本行列表中删除原目标文本行图像的标识相应的表项,并继续针对文本行列表中的表项依次执行上述步骤,直至文本行列表为空,即完成对目标文本图像包含的文本行图像的合并,得到目标文本图像对应的文本段图像。
本申请实施例中,与现有技术采用基于文本区域的像素进行投影的方式,导致文本定位速度较慢相比,电子设备通过预设的段落合并规则,基于文本行图像对应的第一坐标信息,对文本行图像进行合并,可以有效提高文本定位速度。
可选的,本申请实施例提供了一种电子设备通过预设的文本段识别规则,判断目标文本行图像包含的文本与相邻的文本行图像包含的文本是否属于同一文本段的具体实施方式,如图4所示,具体处理过程包括:
步骤401,基于第一文本行图像的第一坐标信息、与目标文本行图像相邻的第二文本行图像的第一坐标信息,确定目标文本行图像与第二文本行图像的行高比值,并确定行高比值是否属于第一预设范围。
在实施中,电子设备可以基于第一文本行图像的纵坐标,确定目标文本行图像的第一行高,并基于第二文本行图像的纵坐标,确定第二文本行图像的第二行高。然后,电子设备可以根据第一行高和第二行高,计算行高比值,并确定行高比值是否属于第一预设范围。第一预设范围可以是预先存储的行高比值的数值范围,例如[0.9~1.1]。
如果行高比值不属于第一预设范围,则执行步骤402;如果行高比值属于第一预设范围,则执行步骤403。
步骤402,确定目标文本行图像包含的文本与第二文本行图像包含的文本不属于同一文本段。
在实施中,电子设备可以确定目标文本行图像包含的文本与第二文本行图像包含的文本不属于同一文本段,然后,电子设备可以执行步骤304。
例如,当电子设备以(x1,x2,y1,y2)形式存储坐标信息时,电子设备可以基于第一文本行图像的第一坐标信息(1,5,1,2),确定第一文本行图像的第一行高为y2-y1=2-1=1,并基于第二文本行图像的第一坐标信息(1,4,2.5,3.5),确定第二文本行图像的第二行高为y2-y1=3.5-2.5=1。然后,电子设备用第一行高1除以第二行高1,计算得到行高比值为1,并将行高比值1与第一预设范围[0.9~1.1]进行比较,确定行高比值1属于第一预设范围,电子设备执行步骤403。
步骤403,基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,确定目标文本行图像与第二文本行图像的行间距,并确定行间距是否属于第二预设范围。
在实施中,电子设备可以基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,计算目标文本行图像与第二文本行图像的行间距,并确定行间距是否属于第二预设范围。第二预设范围可以是预先存储的行间距的数值范围,例如[0.5~1]。
如果行间距不属于第二预设范围,则执行步骤402;如果行间距属于第二预设范围,则执行步骤404。
例如,电子设备可以基于第一文本行图像的第一坐标信息(1,5,1,2)、第二文本行图像的第一坐标信息(1,4,2.5,3.5),计算目标文本行图像与第二文本行图像的行间距为2.5-2=0.5。然后,电子设备将行间距0.5与第二预设范围[0.5~1]进行比较,确定行间距0.5属于第二预设范围,电子设备则执行步骤404。
步骤404,基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,确定目标文本行图像与第二文本行图像的左侧间距,并确定左侧间距是否属于第三预设范围。
在实施中,电子设备可以基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,计算目标文本行图像与第二文本行图像的左侧间距,并确定左侧间距是否属于第三预设范围。第三预设范围可以是预先存储的左侧间距的数值范围,例如[0~0.3]。
如果左侧间距不属于第三预设范围,则执行步骤402;如果左侧间距属于第三预设范围,则执行步骤405。
例如,电子设备可以基于第一文本行图像的第二坐标信息(1,5,1,2)、第二文本行图像的第二坐标信息(1,4,2.5,3.5),计算目标文本行图像与第二文本行图像的左侧间距为1-1=0。然后,电子设备将左侧间距0与第三预设范围[0~0.3]进行比较,确定左侧间距0属于第三预设范围,电子设备执行步骤405。
步骤405,基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,确定目标文本行图像与第二文本行图像的右侧间距,并确定右侧间距是否属于第四预设范围。
在实施中,电子设备可以基于第一文本行图像的第一坐标信息、第二文本行图像的第一坐标信息,计算目标文本行图像与第二文本行图像的右侧间距,并确定右侧间距是否属于第四预设范围。第四预设范围可以是预先存储的右侧间距的数值范围,例如[0~3]。
如果右侧间距属于第四预设范围,则执行步骤303;如果右侧间距不属于第四预设范围,则执行步骤406。
步骤406,按照预设的文本行判断规则,判断目标文本行图像包含的文本与第二文本行图像包含的文本是否属于同一文本段。
在实施中,如果右侧间距不属于第四预设范围,电子设备可以根据预设的文本行判断规则,判断目标文本行图像包含的文本与第二文本行图像包含的文本是否属于同一文本段。
本申请实施例中,电子设备依次确定行高比值、行间距、左侧间距、以及右侧间距等参数,并将确定出的参数与预先设置的预设范围进行比较,只有当各参数均属于相应的预设范围时,才确定目标文本行图像和第二文本行图像对应的文本属于同一段的文本,以将目标文本行图像和第二文本行图像进行合并,从而得到文本段图像。因此,能够提高文本定位的准确率。
可选的,本申请实施例提供了一种电子设备按照预设的文本行判断规则,判断目标文本行图像包含的文本与相邻的文本行图像包含的文本是否属于同一文本段的实现方式,如图5所示,包括:
步骤501,基于目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像。
其中,第三文本行图像的纵坐标区间与第二文本行图像的纵坐标区间重叠。
在实施中,电子设备可以基于目标文本图像包含的各文本行图像的第一坐标信息,确定各文本行图像的横坐标区间和纵坐标区间,然后,电子设备可以将第二文本行图像的横坐标区间和纵坐标区间,与其他文本行图像的横坐标区间和纵坐标区间进行比较,判断是否存在与第二文本行图像的横坐标区间无交集,且纵坐标区间有交集的文本行图像。
例如,电子设备可以基于第二文本行图像的第一坐标信息(1,4,2.5,3.5)确定第二文本行图像的横坐标区间为[1~4],纵坐标区间为[2.5~3.5]。基于类似的方式,电子设备可以确定目标文本图像包含的各文本行图像的横坐标区间和纵坐标区间。然后,电子设备可以将第二文本行图像的横坐标区间和纵坐标区间,与其他文本行图像的横坐标区间和纵坐标区间进行比较,确定某一横坐标区间为[4.5~6],纵坐标区间为[2.5~4]的文本行图像,为与第二文本行图像的横坐标区间无交集,且纵坐标区间有交集的文本行图像,然后,电子设备可以确定存在第三文本行图像。
在一种可行的实现方式中,电子设备可以根据预先确定的文本行列表,确定目标文本行图像的标识的表项,并确定该表项中是否存储有预设坐标系中位于该文本行图像的右方的文本行图像的标识,如果存在该标识,则确定存在第三文本行图像。如果不存在该标识,则确定不存在第三文本行图像。
如果判断结果为是,即存在位于第二文本行图像右侧的第三文本行图像,则执行步骤502;如果判断结果为否,即不存在第三文本行图像,则执行步骤303。
步骤502,判断第三文本行图像的横坐标区间与目标文本行图像的横坐标区间是否重叠。
在实施中,如果存在第三文本行图像,电子设备则可以根据目标文本行图像的第一坐标信息,确定目标文本行图像的横坐标区间,并根据第三文本行图像的第一坐标信息,确定第三文本行图像的横坐标区间,然后,电子设备可以判断第三文本行图像的横坐标区间,与目标文本行图像的横坐标区间是否有交集。
如果第三文本行图像的横坐标区间,与目标文本行图像的横坐标区间无交集,电子设备则判断第三文本行图像不位于目标文本行图像的下方;如果第三文本行图像的横坐标区间,与目标文本行图像的横坐标区间有交集,电子设备则判断第三文本行图像位于目标文本行图像的下方。
例如,电子设备确定出第三文本行图像的横坐标区间为[4.5~6],目标文本行图像的横坐标区间为[1~5],电子设备判断[4.5~6]和[1~5]有交集,即第三文本行图像位于目标文本行图像的下方。
如果判断结果为是,即第三文本行图像位于目标文本行图像的下方,则执行步骤304;如果判断结果为否,即第三文本行图像不位于目标文本行图像的下方,则执行步骤303。
本申请实施例中,当行高比值、行间距、左侧间距等参数均属于相应的预设范围时,但右侧间距不满足预设范围时,电子设备还可以通过判断是否存在位于第二文本行图像右方,且位于目标文本行图像下方的第三文本行图像,确定目标文本行图像和第二文本行图像对应的文本是否属于同一段的文本。基于右侧间距不满足预设范围的特殊情况,电子设备可以将目标文本行图像和第二文本行图像进行合并,从而得到文本段图像。因此,能够提高文本定位的准确率。
可选的,在确定目标文本图像对应的多个文本段图像之后,电子设备还可以确定各文本段图像对应的文本信息的文本属性,具体处理过程包括:
步骤一、获取文本行图像的文本格式信息。
其中,文本格式信息包括行高、字号、以及字体。
在实施中,电子设备可以通过预设的文本行检测算法,在确定文本行图像的同时,确定文本行图像的文本格式信息,由此,得到目标文本图像包含的各文本行图像的文本格式信息。
例如,电子设备可以通过文本行检测算法,确定某一文本行图像的字号为小四,另一文本行图像的字号为小三。
步骤二、将多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像。
在实施中,电子设备可以在多个文本行图像中,确定文本格式信息满足预设相似度的文本行图像为同一类文本行图像,由此,得到多个类别的文本行图像。
当文本格式信息为字号时,电子设备可以将字号相同的两个文本行图像,作为满足预设相似度的文本行图像。
例如,电子设备可以将多个文本行图像按照字号进行分类,将字号均为小三的文本行图像作为第一类别的文本行图像,将字号均为小四的文本行图像作为第二类别的文本行图像,由此,得到两个类别的文本行图像。
步骤三、根据预先存储的类别与文本属性的对应关系,确定各类别文本行图像对应的文本信息的文本属性。
其中,电子设备中可以预先存储有类别与文本属性的对应关系,文本属性包括标题、正文、以及脚注。
在实施中,电子设备可以根据类别与文本属性的对应关系,确定目标文本图像包含的各类别文本行图像对应的文本信息的文本属性。
例如,电子设备可以根据类别与文本属性的对应关系,确定第一类别的文本行图像对应的文本信息的文本属性为标题。
本申请实施例中,电子设备通过确定文本段图像对应的文本信息的文本属性,有利于提高还原待转换文本包含的文本信息的准确度,从而提高文本定位的准确度。
可选的,在确定目标文本图像对应的多个文本段图像之后,电子设备还可以对文本段图像包含的各字符进行存储,以获得待转换文本的目标格式的电子文件。此时,针对初始文本图像是否包含插入对象两种情况,电子设备存储的过程也不同,具体如下:
情况一、若包含插入对象的信息,基于第二坐标信息和第三坐标信息,将预先存储的文本段图像包含的各字符和插入对象进行存储,得到结构化存储的信息。
在实施中,当初始文本图像包含插入对象时,电子设备可以基于插入对象对应的目标显示区域的第三坐标信息,以及文本段图像的第二坐标信息,确定插入对象包含的字符以及文本段图像包含的各字符的版面位置,并按照该版面位置对插入对象包含的字符和文本段图像包含的各字符进行存储,得到结构化存储的信息。
情况二、若不包含插入对象的信息,则基于第二坐标信息,将预先存储的文本段图像包含的各字符进行存储,得到结构化存储的信息。
在实施中,当初始文本图像不包含插入对象时,电子设备可以基于文本段图像的第二坐标信息,将预先存储的文本段图像包含的各字符进行存储,得到结构化存储的信息。
由此,电子设备可以根据预设的信息显示方式,将结构化存储的信息显示为目标格式的电子文件,目标格式包括word(文本)、PDF(Portable Document Format,便携式文本格式)、ppt(PowerPoint,演示文稿)等,本发明不做限定。
本申请实施例中,电子设备针对初始文本图像是否包含插入对象两种情况,采用不同的存储过程,得到的结构化存储的信息能够包含待转换文本的全部字符。进一步的,电子设备可以基于结构化存储的信息,确定待转换文本对应的电子文本,能够实现将待转换文本的图像转换为目标格式的电子文件。
本申请实施例还提供了一种文本定位装置,如图6所示,所述装置包括:
第一获取模块610,用于获取待转换文本的目标文本图像;
第一确定模块620,用于通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
合并模块630,用于通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
可选的,所述第一获取模块包括:
获取子模块,用于获取待转换文本的初始文本图像;
第一判断子模块,用于通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
第一确定子模块,用于当包含所述插入对象的信息时,确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
第二确定子模块,用于当不包含所述插入对象的信息时,将所述初始文本图像作为目标文本图像。
可选的,所述装置还包括:
第一存储模块,用于当包含所述插入对象的信息时,基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
第二存储模块,用于当不包含所述插入对象的信息时,基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
可选的,所述合并模块包括:
第三确定子模块,用于在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
判断子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
合并子模块,用于当判断结果为是时,将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
第四确定子模块,用于当判断结果为否时,将所述目标文本行图像作为文本段图像。
可选的,所述判断子模块包括:
第五确定子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
第六确定子模块,用于当所述行高比值不属于所述第一预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第七确定子模块,用于当所述行高比值属于所述第一预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
第六确定子模块,还用于当所述行间距不属于所述第二预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第八确定子模块,用于当所述行间距属于所述第二预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
第六确定子模块,还用于当所述左侧间距不属于所述第三预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第九确定子模块,用于当所述左侧间距属于所述第三预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
第十确定子模块,用于当所述右侧间距属于所述第四预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第二判断子模块,用于当所述右侧间距不属于所述第四预设范围时,按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
可选的,所述第二判断子模块包括:
第三判断子模块,用于基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
第十确定子模块,还用于当不存在所述第三文本行图像时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第四判断子模块,用于当存在所述第三文本行图像时,判断所述第三文本行图像的横坐标区间与所述目标文本行图像的横坐标区间是否重叠;
第十确定子模块,还用于当判断结果为否时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
可选的,所述获取模块包括:
获取子模块,用于获取预先存储的待转换文本的图像;
旋转子模块,用于将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
可选的,所述装置还包括:
第二获取模块,用于获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
分类模块,用于将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
第二确定模块,用于根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
本申请实施例提供的一种文本定位装置,可以在获取待转换文本的目标文本图像后,通过预设的文本行检测算法,确定目标文本图像包含的文本行图像、以及文本行图像对应的第一坐标信息。然后,通过预设的段落合并规则、文本行图像对应的第一坐标信息,对文本行图像进行合并,得到文本段图像、以及文本段图像对应的第二坐标信息。由于通过文本行检测算法,从目标文本图像中检测文本行图像,并通过预设的段落合并规则、文本行图像的第一坐标信息,对文本行图像进行合并,以确定属于同一段的文本行图像,得到文本段图像,因此,可以提高文本定位的准确率。
本申请实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
获取待转换文本的目标文本图像;
通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
可选的,所述获取待转换文本的目标文本图像包括:
获取待转换文本的初始文本图像;
通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
若包含所述插入对象的信息,则确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
若不包含所述插入对象的信息,则将所述初始文本图像作为目标文本图像。
可选的,所述得到文本段图像、以及所述文本段图像对应的第二坐标信息之后,还包括:
若包含所述插入对象的信息,则基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
若不包含所述插入对象的信息,则基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
可选的,所述通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息包括:
在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
如果判断结果为是,则将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
如果判断结果为否,则将所述目标文本行图像作为文本段图像。
可选的,所述基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
如果所述行高比值不属于所述第一预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行高比值属于所述第一预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
如果所述行间距不属于所述第二预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行间距属于所述第二预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
如果所述左侧间距不属于所述第三预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述左侧间距属于所述第三预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
如果所述右侧间距属于所述第四预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果所述右侧间距不属于所述第四预设范围,则按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
可选的,所述按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
如果不存在,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果存在,则判断所述第三文本行图像的纵坐标区间与所述目标文本行图像的纵坐标区间是否重叠;
如果判断结果为否,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
可选的,所述获取待转换文本的初始文本图像包括:
获取预先存储的待转换文本的图像;
将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
可选的,所述通过预设的段落合并规则、所述文本行图像的第一坐标信息,对所述文本行图像进行合并,得到文本段图像,以及每个文本段图像的第二坐标信息之后,还包括:
获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一一种文本定位方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一一种文本定位方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
本申请实施例提供的一种文本定位方法及装置,可以在获取待转换文本的目标文本图像后,通过预设的文本行检测算法,确定目标文本图像包含的文本行图像、以及文本行图像对应的第一坐标信息。然后,通过预设的段落合并规则、文本行图像对应的第一坐标信息,对文本行图像进行合并,得到文本段图像、以及文本段图像对应的第二坐标信息。由于通过文本行检测算法,从目标文本图像中检测文本行图像,并通过预设的段落合并规则、文本行图像的第一坐标信息,对文本行图像进行合并,以确定属于同一段的文本行图像,得到文本段图像,因此,可以提高文本定位的准确率。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (18)

1.一种文本定位方法,其特征在于,所述方法包括:
获取待转换文本的目标文本图像;
通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
2.根据权利要求1所述的方法,其特征在于,所述获取待转换文本的目标文本图像包括:
获取待转换文本的初始文本图像;
基于所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
若包含所述插入对象的信息,则确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
若不包含所述插入对象的信息,则将所述初始文本图像作为目标文本图像。
3.根据权利要求2所述的方法,其特征在于,所述得到文本段图像、以及所述文本段图像对应的第二坐标信息之后,还包括:
若包含所述插入对象的信息,则基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
若不包含所述插入对象的信息,则基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
4.根据权利要求1所述的方法,其特征在于,所述通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息包括:
在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
如果判断结果为是,则将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
如果判断结果为否,则将所述目标文本行图像作为文本段图像。
5.根据权利要求4所述的方法,其特征在于,所述基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
如果所述行高比值不属于所述第一预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行高比值属于所述第一预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
如果所述行间距不属于所述第二预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述行间距属于所述第二预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
如果所述左侧间距不属于所述第三预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
如果所述左侧间距属于所述第三预设范围,则基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
如果所述右侧间距属于所述第四预设范围,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果所述右侧间距不属于所述第四预设范围,则按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
6.根据权利要求5所述的方法,其特征在于,所述按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段包括:
基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
如果不存在,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
如果存在,则判断所述第三文本行图像的横坐标区间与所述目标文本行图像的横坐标区间是否重叠;
如果判断结果为否,则确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
7.根据权利要求2所述的方法,其特征在于,所述获取待转换文本的初始文本图像包括:
获取预先存储的待转换文本的图像;
将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
8.根据权利要求1所述的方法,其特征在于,所述通过预设的段落合并规则、所述文本行图像的第一坐标信息,对所述文本行图像进行合并,得到文本段图像,以及每个文本段图像的第二坐标信息之后,还包括:
获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
9.一种文本定位装置,其特征在于,所述装置包括:
第一获取模块,用于获取待转换文本的目标文本图像;
第一确定模块,用于通过预设的文本行检测算法,确定所述目标文本图像包含的文本行图像、以及所述文本行图像对应的第一坐标信息,所述第一坐标信息为所述文本行图像对应的目标显示区域的坐标信息;
合并模块,用于通过预设的段落合并规则、所述文本行图像对应的第一坐标信息,对所述文本行图像进行合并,得到文本段图像、以及所述文本段图像对应的第二坐标信息。
10.根据权利要求9所述的装置,其特征在于,所述第一获取模块包括:
获取子模块,用于获取待转换文本的初始文本图像;
第一判断子模块,用于通过所述初始文本图像的图像数据,判断所述初始文本图像是否包含插入对象的信息;
第一确定子模块,用于当包含所述插入对象的信息时,确定所述初始文本图像包含的插入对象对应的第三坐标信息、以及去除所述插入对象的目标文本图像;
第二确定子模块,用于当不包含所述插入对象的信息时,将所述初始文本图像作为目标文本图像。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第一存储模块,用于当包含所述插入对象的信息时,基于所述第二坐标信息和所述第三坐标信息,将预先存储的所述文本段图像包含的各字符和所述插入对象进行存储,得到结构化存储的信息;
第二存储模块,用于当不包含所述插入对象的信息时,基于所述第二坐标信息,将预先存储的所述文本段图像包含的各字符进行存储,得到结构化存储的信息。
12.根据权利要求9所述的装置,其特征在于,所述合并模块包括:
第三确定子模块,用于在预设坐标系中,按照文本行图像的纵坐标的数值从小到大的顺序,确定目标文本行图像、以及与所述目标文本行图像相邻的文本行图像,所述预设坐标系为以所述目标文本图像的左上角为原点的直角坐标系;
判断子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息和预设的文本段识别规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段,所述第一文本行图像为所述目标文本行图像包含的文本行图像中,纵坐标的数值最大的文本行图像;
合并子模块,用于当判断结果为是时,将所述目标文本行图像和所述第二文本行图像进行合并,得到新的目标文本行图像;
第四确定子模块,用于当判断结果为否时,将所述目标文本行图像作为文本段图像。
13.根据权利要求12所述的装置,其特征在于,所述判断子模块包括:
第五确定子模块,用于基于第一文本行图像的第一坐标信息、与所述目标文本行图像相邻的第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行高比值,并确定所述行高比值是否属于第一预设范围;
第六确定子模块,用于当所述行高比值不属于所述第一预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第七确定子模块,用于当所述行高比值属于所述第一预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的行间距,并确定所述行间距是否属于第二预设范围;
第六确定子模块,还用于当所述行间距不属于所述第二预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第八确定子模块,用于当所述行间距属于所述第二预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的左侧间距,并确定所述左侧间距是否属于第三预设范围;
第六确定子模块,还用于当所述左侧间距不属于所述第三预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本不属于同一文本段;
第九确定子模块,用于当所述左侧间距属于所述第三预设范围时,基于所述第一文本行图像的第一坐标信息、所述第二文本行图像的第一坐标信息,确定所述目标文本行图像与所述第二文本行图像的右侧间距,并确定所述右侧间距是否属于第四预设范围;
第十确定子模块,用于当所述右侧间距属于所述第四预设范围时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第二判断子模块,用于当所述右侧间距不属于所述第四预设范围时,按照预设的文本行判断规则,判断所述目标文本行图像包含的文本与所述第二文本行图像包含的文本是否属于同一文本段。
14.根据权利要求11所述的装置,其特征在于,所述第二判断子模块包括:
第三判断子模块,用于基于所述目标文本图像包含的文本行图像的第一坐标信息,判断是否存在第三文本行图像,所述第三文本行图像的纵坐标区间与所述第二文本行图像的纵坐标区间重叠;
第十确定子模块,还用于当不存在所述第三文本行图像时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段;
第四判断子模块,用于当存在所述第三文本行图像时,判断所述第三文本行图像的横坐标区间与所述目标文本行图像的横坐标区间是否重叠;
第十确定子模块,还用于当判断结果为否时,确定所述目标文本行图像包含的文本与所述第二文本行图像包含的文本属于同一文本段。
15.根据权利要求9所述的装置,其特征在于,所述获取模块包括:
获取子模块,用于获取预先存储的待转换文本的图像;
旋转子模块,用于将所述图像输入至预设的旋转文本图片校正算法模型,得到与预设坐标系的坐标轴呈预设的角度的所述待转换文本的初始文本图像。
16.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述文本行图像的文本格式信息,所述文本格式信息包括行高、字号、以及字体;
分类模块,用于将所述多个文本行图像按照文本格式信息进行分类,得到多个类别的文本行图像;
第二确定模块,用于根据预先存储的类别与文本属性的对应关系,确定各类别所述文本行图像对应的文本信息的文本属性,所述文本属性包括标题、正文、以及脚注。
17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一所述的方法步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8任一所述的方法步骤。
CN201811527265.1A 2018-12-13 2018-12-13 一种文本定位方法及装置 Active CN109697414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811527265.1A CN109697414B (zh) 2018-12-13 2018-12-13 一种文本定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811527265.1A CN109697414B (zh) 2018-12-13 2018-12-13 一种文本定位方法及装置

Publications (2)

Publication Number Publication Date
CN109697414A true CN109697414A (zh) 2019-04-30
CN109697414B CN109697414B (zh) 2021-06-18

Family

ID=66231659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811527265.1A Active CN109697414B (zh) 2018-12-13 2018-12-13 一种文本定位方法及装置

Country Status (1)

Country Link
CN (1) CN109697414B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934210A (zh) * 2019-05-17 2019-06-25 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN111553361A (zh) * 2020-03-19 2020-08-18 四川大学华西医院 一种病理切片标签识别方法
CN111881050A (zh) * 2020-07-31 2020-11-03 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
WO2020232866A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 扫描文本分段方法、装置、计算机设备和存储介质
CN112070076A (zh) * 2020-11-13 2020-12-11 深圳壹账通智能科技有限公司 文本段落结构还原方法、装置、设备及计算机存储介质
CN112733837A (zh) * 2019-10-28 2021-04-30 北京易真学思教育科技有限公司 文本图像的校正方法、设备及计算机可读存储介质
WO2023029116A1 (zh) * 2021-08-30 2023-03-09 广东艾檬电子科技有限公司 文本图像的排版方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
US20140281939A1 (en) * 2013-03-13 2014-09-18 Adobe Systems Inc. Method and apparatus for identifying logical blocks of text in a document
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN105630817A (zh) * 2014-11-03 2016-06-01 航天信息股份有限公司 一种电子发票内容解析的方法及系统
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
US20180114059A1 (en) * 2016-10-26 2018-04-26 Myscript System and method for managing digital ink typesetting
CN108021900A (zh) * 2017-12-18 2018-05-11 科大讯飞股份有限公司 版面分栏方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102479173A (zh) * 2010-11-25 2012-05-30 北京大学 识别版面阅读顺序的方法及装置
US20140281939A1 (en) * 2013-03-13 2014-09-18 Adobe Systems Inc. Method and apparatus for identifying logical blocks of text in a document
CN104268127A (zh) * 2014-09-22 2015-01-07 同方知网(北京)技术有限公司 一种电子档版式文件阅读顺序分析的方法
CN105630817A (zh) * 2014-11-03 2016-06-01 航天信息股份有限公司 一种电子发票内容解析的方法及系统
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
US20180114059A1 (en) * 2016-10-26 2018-04-26 Myscript System and method for managing digital ink typesetting
CN107748888A (zh) * 2017-10-13 2018-03-02 众安信息技术服务有限公司 一种图像文本行检测方法及装置
CN108021900A (zh) * 2017-12-18 2018-05-11 科大讯飞股份有限公司 版面分栏方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王丹: "基于版面结构的文本图像检索技术研究", 《中国优秀硕士论文全文数据库 信息科技辑》 *
王玲: "链编码的获取和文档图像的版面分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934210A (zh) * 2019-05-17 2019-06-25 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN109934210B (zh) * 2019-05-17 2019-08-09 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
US10467466B1 (en) 2019-05-17 2019-11-05 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
EP3739505A1 (en) * 2019-05-17 2020-11-18 Nextvpu (Shanghai) Co., Ltd. Layout analysis method, reading assisting device and medium
WO2020233378A1 (zh) * 2019-05-17 2020-11-26 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
WO2020232866A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 扫描文本分段方法、装置、计算机设备和存储介质
CN112733837A (zh) * 2019-10-28 2021-04-30 北京易真学思教育科技有限公司 文本图像的校正方法、设备及计算机可读存储介质
CN111553361A (zh) * 2020-03-19 2020-08-18 四川大学华西医院 一种病理切片标签识别方法
CN111881050A (zh) * 2020-07-31 2020-11-03 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
CN111881050B (zh) * 2020-07-31 2024-06-04 北京爱奇艺科技有限公司 一种文本图层的剪裁方法、装置及电子设备
CN112070076A (zh) * 2020-11-13 2020-12-11 深圳壹账通智能科技有限公司 文本段落结构还原方法、装置、设备及计算机存储介质
WO2023029116A1 (zh) * 2021-08-30 2023-03-09 广东艾檬电子科技有限公司 文本图像的排版方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109697414B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109697414A (zh) 一种文本定位方法及装置
US11886799B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
CN111709339B (zh) 一种票据图像识别方法、装置、设备及存储介质
CN109685055A (zh) 一种图像中文本区域的检测方法及装置
US10049096B2 (en) System and method of template creation for a data extraction tool
US9697423B1 (en) Identifying the lines of a table
US20210295114A1 (en) Method and apparatus for extracting structured data from image, and device
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN105631393A (zh) 信息识别方法及装置
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
RU2370814C2 (ru) Система и способ для обнаружения списка в рукописных входных данных
CN113190781B (zh) 页面布局方法、装置、设备及存储介质
US9767388B2 (en) Method and system for verification by reading
AU2004208732A1 (en) System and method for detecting a hand-drawn object in ink input
CN111931864B (zh) 基于顶点距离与交并比多重优化目标检测器的方法与系统
US10769360B1 (en) Apparatus and method for processing an electronic document to derive a first electronic document with electronic-sign items and a second electronic document with wet-sign items
CN110969056B (zh) 文档图像的文档版面分析方法、装置及存储介质
EP3037985A1 (en) Search method and system, search engine and client
CN115546809A (zh) 基于单元格约束的表格结构识别方法及其应用
KR20230012651A (ko) 이미지 기반 테이블 정보 생성 방법
CN111400575A (zh) 用户标识生成方法、用户识别方法及其装置
CN110008923A (zh) 图像处理方法和训练方法、以及装置、介质、计算设备
CN112396057A (zh) 一种字符识别方法、装置及电子设备
CN103324454B (zh) 用于检测目标区域中排列错位的显示元素的方法和设备
CN113762292B (zh) 一种训练数据获取方法、装置及模型训练方法、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant