CN111767769A - 一种文本提取方法、装置、电子设备及存储介质 - Google Patents

一种文本提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111767769A
CN111767769A CN201910749794.4A CN201910749794A CN111767769A CN 111767769 A CN111767769 A CN 111767769A CN 201910749794 A CN201910749794 A CN 201910749794A CN 111767769 A CN111767769 A CN 111767769A
Authority
CN
China
Prior art keywords
text
line image
image
contour
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910749794.4A
Other languages
English (en)
Inventor
窦方正
张平安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910749794.4A priority Critical patent/CN111767769A/zh
Publication of CN111767769A publication Critical patent/CN111767769A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本提取方法、装置、电子设备及存储介质。其中方法包括:对目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;对任一文本行图像,确定文本行图像中各字段的轮廓组件;基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。基于上述技术方案,通过在对目标图像进行行分割之后,对行分割结果中的每一个文本行图像进行字段划分,提取每一文本行图像中的各个字段,解决对于结构化数据图像进行行分割时,无法准确提取每一个字段的问题,提高了结构化数据图像中文本的提取的准确性。

Description

一种文本提取方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及文本检测技术,尤其涉及一种文本提取方法、装置、电子设备及存储介质。
背景技术
商品详情图(简称商详图)是用于介绍商品信息、属性的图像,包括结构化的数据,通过对商详图的文本提取,可得到商品的详细信息以及属性信息。
目前,对图像进行文本提取一般采用如下两种方式:一是将文本行看作上下文关联的字符序列,利用上下文信息实现文本行的识别是目前的研究趋势,例如常用且检测准确率较高的CTPN文本检测框架。该框架的核心思想是用固定宽度的滑动窗口按行对整个图像进行扫描,最后对满足条件的滑动窗口进行连接,得到检测的文本行。二是利用分割思想,其代表是PixelLink文本检测框架。该框架是基于像素级的文本预测,同时预测每个像素是否是文本,以及该像素邻域内每个像素的类别,利用这种上下文信息进行逐像素的连接。
上述文本提取方式在对结构化数据图像进行文本提取时,均存在前分割或者过分割的问题,导致无法准确提取文本信息。
发明内容
本发明实施例提供一种文本提取方法、装置、电子设备及存储介质,以提高对结构化数据图像的文本提取的准确性。
第一方面,本发明实施例提供了一种文本提取方法,包括:
对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;
对任一文本行图像,确定文本行图像中各字段的轮廓组件;
基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
第二方面,本发明实施例还提供了一种文本提取装置,包括:
行分割模块,用于对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;
轮廓组件确定模块,用于对任一文本行图像,确定文本行图像中各字段的轮廓组件;
字段分割模块,用于基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本申请任意实施例提供的文本提取方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请任意实施例提供的文本提取方法。
本发明通过的技术方案,通过对目标图像进行行分割,得到所述目标图像的文本行图像,其中,所述目标图像包括结构化数据,对任一文本行图像,确定文本行图像中各字段的轮廓组件,基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。通过在对目标图像进行行分割之后,对行分割结果中的每一个文本行图像进行字段划分,提取每一文本行图像中的各个字段,解决对于结构化数据图像进行行分割时,无法准确提取每一个字段的问题,提高了结构化数据图像中文本的提取的准确性。
附图说明
图1为本申请实施例一提供的一种文本提取方法的流程图;
图2是本申请实施例提供的一种行分割结果的示例图;
图3A是本申请中进行平滑处理后文本行图像的示例图;
图3B是本申请中二值化处理后文本行图像的示例图;
图3C是本申请实施例提供的文本行图像的轮廓组件示例图;
图3D是本发明实施例提供的字段提取示例图;
图4A为对未进行平滑处理的文本行图像进行二值化处理后的文本行图像的示例图;
图4B是对未进行平滑处理的文本行图像的轮廓组件的示例图;
图4C是对未进行平滑处理的文本行图像的文本提取示例图;
图5是本申请实施例二提供的一种文本提取方法的流程图;
图6是本申请实施例三提供的一种文本提取装置的结构示意图;
图7为本申请实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本申请实施例一提供的一种文本提取方法的流程图,本实施例可适用于对包括结构化数据的图像进行文本提取的情况,该方法可以由本申请实施例提供的文本提取来执行,具体包括如下步骤:
S110、对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中,所述目标图像包括结构化数据。
S120、对任一文本行图像,确定文本行图像中各字段的轮廓组件。
S130、基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
在本实施例中,目标图像为包括结构化数据的图像,例如,目标图像为商详图。可选的,基于CTPN检测框架对目标图像进行行检测,具体的,可以是基于检测窗口对目标图像按行进行文本检测,对检测出的文本按行设置检测框,基于检测框位置,对目标图像中检测框对应区域进行分割,得到行分割结果,该行分割结果中包括至少一个文本行图像。可选的,可以是将目标图像输入至文本行分割模型中,文本行分割模型对目标图像进行文本提取,得到多个文本行图像,其中,行分割模型为预先训练得到的,具有文本行分割功能的机器学习模块,例如可以是但不限于卷积神经网络模块。示例性的,参见图2,图2是本申请实施例提供的一种行分割结果的示例图。其中,图2为某一电子设备的商详图,包括结构化的参数信息,图2中虚线框中的内容为行分割结果,其中,部分分割结果中存在欠分割现象,例如第二列的第一行、第二行和最后一行。
基于结构化数据的特性,同一行中的不同字段对应不同的参数,彼此独立,在对目标图像进行行分割的基础上,对行分割结果中欠分割的部分进行进一步的分割,以提高结构化数据图像的分割准确度。本实施例中,以字段为单位对行分割结果进行文本提取,符合结构化数据的特性,提高了文本提取的针对性和准确性。
本实施例中,通过识别行分割结果中每一行中各个字段的位置和轮廓,根据各个字段的位置和轮廓对每一行中的字段进行准确分割。可选的,确定文本行图像中各字段的轮廓组件,包括:对所述文本行图像进行平滑处理,将平滑处理后的文本行图像进行二值化处理,生成二值化行图像;对所述二值化行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。其中,轮廓组件为一个闭合轮廓线,该闭合轮廓线用于表示一个字段的轮廓,一个字段对应一个轮廓组件,用于对给字段进行分割。
在本实施例中,可以是基于二维卷积滤波对文本行图像进行平滑处理,其中,二维卷积滤波为模糊滤波,示例性的,该二维卷积滤波可以是但不限于高斯模糊滤波、均值模糊滤波、中值模糊滤波或者基于自定义二维卷积滤波器进行的滤波处理,其中,当自定义二维卷积滤波器进行的滤波处理时,可以是基于调用OpenCV中的二维卷积滤波函数。示例性的,以图2中第二列第一行的分割结果为例,参见图3A,图3A是本申请中进行平滑处理后文本行图像的示例图,图3A中经平滑处理后,每一个字段形成一个模糊整体,而非每一个字符彼此独立,便于后续以字段为单位进行分割。
对平滑处理后的文本行图像进行二值化处理,将待提取的字段部分与背景部分进行颜色分割,示例性的,参见图3B,图3B是本申请中二值化处理后文本行图像的示例图。其中,图3B中字段部分为黑色(像素值为0),背景部分为白色(像素值为255)。可选的,基于OTSU(intra-class variance or the variance within the class,最大类间方差)算法确定进行二值化处理的分割阈值,提高分割阈值的准确性。
对二值化处理得到的结果进行轮廓检测,可得到每一个字段的轮廓组件。具体的,可以是确定每一个像素点与相邻像素点的像素变化值,若像素变化值满足预设值(例如为255),则确定该像素点为轮廓像素点,基于确定的每一个轮廓像素点可形成多个独立的闭合轮廓线,即轮廓组件。示例性的,还可以是基于预设的轮廓检测函数对二值化行图像进行轮廓检测,得到轮廓组件。需要说明的是,轮廓组件为外轮廓组件,当一闭合轮廓线内包括另一闭合轮廓线时,将外轮廓线确定为轮廓组件,并忽略较小的内轮廓线。可选的,当一闭合轮廓线内包括另一闭合轮廓线时,分别判断两个闭合轮廓线是否符合文本要求,具体的,可以是判断闭合轮廓线形成的区域面积是否大于预设面积,若是,则确定闭合轮廓线符合文本要求,将符合文本要求的闭合轮廓线确定为轮廓组件。还可以是判断闭合轮廓线形成的区域的高度是否大于预设高度,以及闭合轮廓线形成的区域的宽度是否大于预设宽度,当上述两项均满足时,确定两个闭合轮廓线符合文本要求,当任一项不满足时,确定两个闭合轮廓线不符合文本要求,将符合文本要求的闭合轮廓线确定为轮廓组件。其中,预设面积、预设高度和预设宽度均是根据当前文本行图像中的文本需求确定,具体的,预设面积可以是文本行图像至少一个文字所占的面积,预设高度和预设宽度可以是文本行图像中一个文字的高度和宽度。示例性的,参见图3C,图3C是本申请实施例提供的文本行图像的轮廓组件示例图,其中图3C中包括三个轮廓组件,分别对应三个字段。
需要说明的是,由于目标图像中文本颜色和背景颜色非固定设置,存在浅色背景深色文本以及深色背景浅色文本两种情况下,对于上述两种情况的目标图像进行二值化处理,字段区域的颜色相反。针对上述情况,可选的,对所述二值化行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件,包括:对所述二值化行图像进行反色处理,生成反色行图像;分别对所述二值化行图像和所述反色行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。本实施例中,通过对文本行图像进行反色处理,得到反色行图像,分别对二值化行图像和反色行图像进行轮廓检测,根据两个文本行图像的轮廓检测结果确定各字段的轮廓组件。可选的,在两个文本行图像的轮廓检测结果中筛选满足文本要求的轮廓组件,保证了浅色背景深色文本以及深色背景浅色文本两种情况下的目标图像的文本提取准确性和普适性。
基于轮廓组件对文本行图像进行字段分割,可以是确定轮廓组件相对于文本行图像的位置,基于轮廓组件的位置,将文本行图像中轮廓组件对应区域进行分割,得到文本行图像中的字段。可选的,基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息,包括:基于所述轮廓组件的外接矩形,根据所述外界矩形对所述文本行图像进行字段分割,得到所述目标图像的文本信息。其中,轮廓组件的外接矩形为包括轮廓组件的最小矩形,通过外接矩形对文本行图像进行字段分割,保证被分割字段的完整性。具体的,确定每一个轮廓组件的外界矩形,基于外界矩形对文本行图像进行字段分割,可以是确定外界矩形相对于文本行图像的位置,基于外界矩形的位置,将文本行图像中外界矩形对应区域进行分割,得到文本行图像中的字段。示例性的,参见图3D,图3D是本发明实施例提供的字段提取示例图。
需要说明的是,本实施例中通过对文本行图像进行平滑处理后,进行字段轮廓的划分,通过模糊处理将每一个字段作为一个整体进行处理,避免了单字符提取的情况,适用于结构化数据的文本提取。示例性的,参见图4A-图4C,其中,图4A为对未进行平滑处理的文本行图像进行二值化处理后的文本行图像的示例图,图4B是对未进行平滑处理的文本行图像的轮廓组件的示例图,其中图4B中每一个字符均存在一个轮廓组件,图4C是对未进行平滑处理的文本行图像的文本提取示例图。根据图4A-图4C可知,在未进行平滑处理时,直接进行二值化处理、轮廓组件确定以及文本提取时,是以字符为单位进行分别提取,而非字段,在得到各个字符之后,需要根据语义以及前后文对得到的字符进行组合,以得到字段,其不仅在处理过程中增加了计算量,还对候选处理增加难度。
本实施例的技术方案,通过在对目标图像进行行分割之后,对行分割结果中的每一个文本行图像进行字段划分,提取每一文本行图像中的各个字段,解决对于结构化数据图像进行行分割时,无法准确提取每一个字段的问题,提高了结构化数据图像中文本的提取的准确性。
实施例二
图5是本申请实施例二提供的一种文本提取方法的流程图,在上述实施例的基础上,对上述方法进行优化,具体的,该方法包括:
S210、对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据。
S220、对任一文本行图像,将所述文本行图像进行灰度化处理,生成灰度行图像。
在本实施例中,如果目标图像为彩色图像,则将彩色图像转换为灰度图像,通过将三通道数据转换为灰度数据,简化了处理数据,降低了计算量。示例性的,可根据如下公式对文本行图像进行灰度化处理:
Gray=R×0.299+G×0.587+B×0.114,其中,R、G、B分别为彩色图像中红、绿、蓝三通道的像素值,Gray为灰度图像的灰度值。
S230、对所述灰度行图像进行平滑处理,将平滑处理后的灰度行图像进行二值化处理,生成二值化行图像。
S240、确定二值化行图像中的字段数量,判断字段数量是否大于1。当字段数量小于或等于1时,取消执行对所述二值化行图像进行轮廓检测的动作,结束;当字段数量大于1时,执行步骤S250。
在本实施例中,确定二值化行图像中独立的颜色区域,将该独立的颜色区域数量确定为字段数量,示例性的,当背景为白色时,确定独立的黑色区域数量,即字段数量;当背景为黑色时,确定独立的白色区域数量,即字段数量。当字段数量为0时,则该文本行图像中字段为空,即不存在待提取的文本,可结束对该文本行图像的处理;当字段数量为1时,则确定该文本行图像中包括一个字段,无需对文本行图像进行字段分割,可结束对该文本行图像的处理;当字段数量大于1时,则确定该文本行图像中包括两个或两个以上的字段,需进行字段分割,执行步骤S250。通过判断文本行图像中的字段数量,确定是否需要对文本行图像继续进行文本提取,避免只存在一个字段或不存在字段时的无效处理过程,简化文本提取过程,降低计算量。
需要说明的是,行分割结果中包括多个文本行图像,可以是对多个文本行图像同步执行步骤S230至步骤S270,当其中任一文本行图像中的字段数量小于或等于1时,取消对该文本行图像执行步骤S250至步骤S270,结束处理;还可以分别对文本行图像依序执行步骤S230至步骤S270,当当前处理的文本行图像中的字段数量小于或等于1时,取消对该文本行图像执行步骤S250至步骤S270,返回步骤S220,对下一文本行图像进行处理。
S250、对所述二值化行图像进行反色处理,生成反色行图像,分别对所述二值化行图像和所述反色行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。
S260、根据预设判断阈值对得到的轮廓组件进行校验,删除校验失败的轮廓组件。
其中,由于对二值化行图像和反色行图像均进行轮廓检测,得到的轮廓组件中包括部分伪轮廓组件,该伪轮廓组件可以是在反色处理后,相邻字段之间的背景区域形成的闭合轮廓。通过对得到的轮廓组件进行校验,删除伪轮廓组件,提高文本提取的准确性。示例性的,可以是基于对轮廓组件包括的区域面积、宽度、高度等参数进行判断,相应的,预设判断阈值可以是面积阈值、宽度阈值和高度阈值,预设判断阈值可以是根据文本行图像中信息属性确定,示例性的,若该文本行图像中字段为长字段,则面积阈值、宽度阈值增大,若该文本行图像中字段为段字段,则面积阈值、宽度阈值减小。
S270、基于所述轮廓组件的外接矩形,根据所述外界矩形对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
本实施例提供的技术方案,通过对图像进行灰度化处理,降低数据处理维度,减小文本提取过程中的计算量;通过字段数量的判断,确定文本行图像是否存在进一步字段分割的需求,避免无效处理操作,提高文本提取效率;通过对轮廓组件的校验,删除无效的轮廓组件,提高字段提取的针对性和提取效率。
实施例三
图6是本发明实施例三提供的一种文本提取装置的结构示意图,该装置包括:
行分割模块310,用于对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;
轮廓组件确定模块320,用于对任一文本行图像,确定文本行图像中各字段的轮廓组件;
字段分割模块330,用于基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
可选的,轮廓组件确定模块320包括:
平滑处理单元,用于对所述文本行图像进行平滑处理;
二值化处理单元,用于将平滑处理后的文本行图像进行二值化处理,生成二值化行图像;
轮廓组件生成单元,用于对所述二值化行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。
可选的,轮廓组件生成单元用于:
对所述二值化行图像进行反色处理,生成反色行图像;
分别对所述二值化行图像和所述反色行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。
可选的,轮廓组件确定模块320还包括:
灰度处理单元,用于在对所述文本行图像进行平滑处理之前,将所述文本行图像进行灰度化处理,生成灰度行图像;
平滑处理单元用于:对所述灰度行图像进行平滑处理。
可选的,轮廓组件确定模块320还包括:
字段数量判断单元,用于在生成二值化行图像之后,确定二值化图像中的字段数量,当字段数量小于或等于1时,取消执行对所述二值化行图像进行轮廓检测的动作。
可选的,还包括:
轮廓组件检验模块,在得到所述文本行图像中各字段的轮廓组件之后,根据预设判断阈值对得到的轮廓组件进行校验,删除校验失败的轮廓组件。
可选的,字段分割模块330用于:
基于所述轮廓组件的外接矩形;
根据所述外界矩形对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
本申请实施例提供的文本提取装置可执行本发明任意实施例所提供的文本提取方法,具备执行文本提取方法相应的功能模块和有益效果。
实施例四
图7为本发明实施例四提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的电子设备412的框图。图7显示的电子设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备412典型的是承担图像分类功能的电子设备。
如图7所示,电子设备412以通用计算设备的形式表现。电子设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。电子设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块426的程序436,可以存储在例如存储装置428中,这样的程序模块426包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块426通常执行本发明所描述的实施例中的功能和/或方法。
电子设备412也可以与一个或多个外部设备414(例如键盘、指向设备、摄像头、显示器424等)通信,还可与一个或者多个使得用户能与该电子设备412交互的设备通信,和/或与使得该电子设备412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,电子设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与电子设备412的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的文本提取方法。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的文本提取方法。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的文本提取方法。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种文本提取方法,其特征在于,包括:
对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;
对任一文本行图像,确定文本行图像中各字段的轮廓组件;
基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
2.根据权利要求1所述的方法,其特征在于,确定文本行图像中各字段的轮廓组件,包括:
对所述文本行图像进行平滑处理,将平滑处理后的文本行图像进行二值化处理,生成二值化行图像;
对所述二值化行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。
3.根据权利要求2所述的方法,其特征在于,对所述二值化行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件,包括:
对所述二值化行图像进行反色处理,生成反色行图像;
分别对所述二值化行图像和所述反色行图像进行轮廓检测,得到所述文本行图像中各字段的轮廓组件。
4.根据权利要求2所述的方法,其特征在于,在对所述文本行图像进行平滑处理之前,还包括:
将所述文本行图像进行灰度化处理,生成灰度行图像;
相应的,对所述文本行图像进行平滑处理包括:
对所述灰度行图像进行平滑处理。
5.根据权利要求2所述的方法,其特征在于,在生成二值化文本行图像之后,还包括:
确定二值化图像中的字段数量,当字段数量小于或等于1时,取消执行对所述二值化行图像进行轮廓检测的动作。
6.根据权利要求1-5任一所述的方法,其特征在于,在得到所述文本行图像中各字段的轮廓组件之后,还包括:
根据预设判断阈值对得到的轮廓组件进行校验,删除校验失败的轮廓组件。
7.根据权利要求1所述的方法,其特征在于,基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息,包括:
基于所述轮廓组件的外接矩形;
根据所述外界矩形对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
8.一种文本提取装置,其特征在于,包括:
行分割模块,用于对目标图像进行行文本检测,根据检测结果对所述目标图像进行行分割,得到所述目标图像的文本行图像,其中所述目标图像包括结构化数据;
轮廓组件确定模块,用于对任一文本行图像,确定文本行图像中各字段的轮廓组件;
字段分割模块,用于基于所述轮廓组件对所述文本行图像进行字段分割,得到所述目标图像的文本信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一所述的文本提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的文本提取方法。
CN201910749794.4A 2019-08-14 2019-08-14 一种文本提取方法、装置、电子设备及存储介质 Pending CN111767769A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749794.4A CN111767769A (zh) 2019-08-14 2019-08-14 一种文本提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749794.4A CN111767769A (zh) 2019-08-14 2019-08-14 一种文本提取方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN111767769A true CN111767769A (zh) 2020-10-13

Family

ID=72718352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749794.4A Pending CN111767769A (zh) 2019-08-14 2019-08-14 一种文本提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111767769A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
US20170351913A1 (en) * 2016-06-07 2017-12-07 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document Field Detection And Parsing
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109284756A (zh) * 2018-08-01 2019-01-29 河海大学 一种基于ocr技术的计算机终端保密检查方法
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110119741A (zh) * 2019-04-08 2019-08-13 浙江大学宁波理工学院 一种有背景的卡证图像信息识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
US20170351913A1 (en) * 2016-06-07 2017-12-07 The Neat Company, Inc. d/b/a Neatreceipts, Inc. Document Field Detection And Parsing
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109284756A (zh) * 2018-08-01 2019-01-29 河海大学 一种基于ocr技术的计算机终端保密检查方法
CN109726643A (zh) * 2018-12-13 2019-05-07 北京金山数字娱乐科技有限公司 图像中表格信息的识别方法、装置、电子设备及存储介质
CN109934181A (zh) * 2019-03-18 2019-06-25 北京海益同展信息科技有限公司 文本识别方法、装置、设备和计算机可读介质
CN110119741A (zh) * 2019-04-08 2019-08-13 浙江大学宁波理工学院 一种有背景的卡证图像信息识别方法

Similar Documents

Publication Publication Date Title
US11886799B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
US10817741B2 (en) Word segmentation system, method and device
CN111369545B (zh) 边缘缺陷检测方法、装置、模型、设备及可读存储介质
CN108229485B (zh) 用于测试用户界面的方法和装置
US9965695B1 (en) Document image binarization method based on content type separation
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN111583223A (zh) 缺陷检测方法、装置、计算机设备及计算机可读存储介质
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
JP2006067585A (ja) デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置
CN110390327B (zh) 前景提取方法、装置、计算机设备及存储介质
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN109344864B (zh) 用于密集物体的图像处理方法及装置
CN111460355B (zh) 一种页面解析方法和装置
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
CN111652208A (zh) 用户界面组件的识别方法、装置、电子设备及存储介质
CN108734161B (zh) 冠字号区域的识别方法、装置、设备及存储介质
CN108960247B (zh) 图像显著性检测方法、装置以及电子设备
CN111241897A (zh) 通过推断视觉关系的工业检验单数字化
CN115689970A (zh) 显示面板的缺陷检测方法、装置、电子设备及存储介质
CN117541546A (zh) 图像裁剪效果的确定方法和装置、存储介质及电子设备
CN110310341B (zh) 颜色算法中默认参数的生成方法、装置、设备和存储介质
KR102026280B1 (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN111444834A (zh) 图像文本行检测方法、装置、设备及存储介质
JP2020119559A (ja) 文字認識方法及び文字認識装置
CN107330470B (zh) 识别图片的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination