CN111626027A - 表格结构还原方法、装置、设备、系统和可读存储介质 - Google Patents

表格结构还原方法、装置、设备、系统和可读存储介质 Download PDF

Info

Publication number
CN111626027A
CN111626027A CN202010432633.5A CN202010432633A CN111626027A CN 111626027 A CN111626027 A CN 111626027A CN 202010432633 A CN202010432633 A CN 202010432633A CN 111626027 A CN111626027 A CN 111626027A
Authority
CN
China
Prior art keywords
table structure
target image
pixel point
feature map
vertex
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010432633.5A
Other languages
English (en)
Other versions
CN111626027B (zh
Inventor
黄相凯
李乔伊
刘明浩
秦铎浩
郭江亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010432633.5A priority Critical patent/CN111626027B/zh
Publication of CN111626027A publication Critical patent/CN111626027A/zh
Application granted granted Critical
Publication of CN111626027B publication Critical patent/CN111626027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种表格结构还原方法、装置、设备、系统和可读存储介质,涉及计算机视觉技术领域。具体实现方案为:获取目标图像,所述目标图像显示有待还原表格;提取所述目标图像的特征图;根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,根据所述相对位置关系还原所述待还原表格的表格结构。本申请实施例可以提高表格结构还原的可用性和泛化能力。

Description

表格结构还原方法、装置、设备、系统和可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及计算机视觉技术领域。
背景技术
现实生活中,表格大多以图像的形式存在的,需要图片形式的表格还原为能够结构化存储的格式,如excel或数据库。在还原的过程中,主要难点在于表格结构的还原,即从图像中识别出有哪些单元是处于同一行的,哪些单元是处于同一列的。
目前,一般采用基于传统视觉的表格框线提取方法还原表格结构,但是该方法仅适用于存在可见表格线的表格图像,导致一定的局限性。另外,对于基于模版的表格重建方案,仅仅适用于某些特定样式的表格识别重建,这样会导致在图像噪声大、表格样式多变等场景容易不能准确地识别重建表格。
由此可见,目前的表格结构还原方案普遍存在着可用性不高,泛化能力差的缺点。
发明内容
本申请实施例提供了一种表格结构还原方法、装置、设备、系统和可读存储介质,以提高表格结构还原的可用性和泛化能力。
第一方面,本申请实施例提供了一种表格结构还原方法,包括:
获取目标图像,所述目标图像显示有待还原表格;
提取所述目标图像的特征图;
根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,所述表格结构包括行检测框和列检测框中的至少一项;
根据所述相对位置关系还原所述待还原表格的表格结构。
第二方面,本申请实施例提供了一种表格结构还原装置,包括:
获取模块,用于获取目标图像,所述目标图像显示有待还原表格;
提取模块,用于提取所述目标图像的特征图;
识别模块,用于根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,所述表格结构包括行检测框和列检测框中的至少一项;
还原模块,用于根据所述相对位置关系还原所述待还原表格的表格结构。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一实施例所提供的一种表格结构还原方法。
第四方面,本申请实施例还提供了一种表格结构还原系统,包括:控制台服务器和用于执行任一实施例所述的表格结构识别方法的多个线上服务器;
所述控制台服务器,用于从终端获取目标图像,并根据负载均衡调度算法将所述目标图像发送至所述多个线上服务器中的目标线上服务器。
第五方面,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行任一实施例所提供的一种表格结构还原方法。
根据本申请的技术可以提高表格结构还原的可用性和泛化能力。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是本申请实施例中的第一种表格结构还原方法的流程图;
图1b是本申请实施例中的一种目标图像的示意图;
图1c是本申请实施例中的另一种目标图像的示意图;
图2a是本申请实施例中的第二种表格结构还原方法的流程图;
图2b是本申请实施例中的表格结构区域的示意图;
图2c是本申请实施例中的行检测框的示意图;
图3a是本申请实施例中的第三种表格结构还原方法的流程图;
图3b是本申请实施例中的表格结构识别模型的结构示意图;
图3c是本申请实施例中的表格结构识别模型的输出结果示意图;
图4a是本申请实施例中的第四种表格结构还原方法的流程图;
图4b是本申请实施例中的行还原的表格效果图;
图4c是本申请实施例中的表格结构还原系统的结构示意图;
图5是本申请实施例中的一种表格结构还原装置的结构图;
图6是用来实现本申请实施例的表格结构还原方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
根据本申请的实施例,图1a是本申请实施例中的第一种表格结构还原方法的流程图,本申请实施例适用于从显示有表格的图像中还原可编辑的表格结构的情况。该方法通过表格结构还原装置执行,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中,该电子设备可以是终端或者服务器。图1a示出的表格结构还原方法,包括:
S110、获取目标图像,目标图像显示有待还原表格。
本实施例中,将显示有待还原表格的图像称为目标图像,目标图像中可显示至少一个待还原表格。本实施例对待还原表格的结构样式不作限定,可以仅包括行,仅包括列,或者既包括行也包括列。待还原表格中可以显示表格线,也可以不显示表格线,而是单纯地以表格中字符的排布凸显表格结构。待还原表格的行或列包括行或列检测框,以及检测框中的字符。图1b是本申请实施例中的一种目标图像的示意图,其中的待还原表格仅包括行,且不显示表格线;图1c是本申请实施例中的另一种目标图像的示意图,其中的待还原表格包括行和列,且显示表格线。
可选的,用户通过终端拍摄表格,得到目标图像,则该目标图像中显示有拍摄的、待还原表格。基于此,获取终端拍摄的目标图像。
可选的,获取多张候选图像,对每张候选图像进行表格识别,筛选出显示有待还原表格的目标图像。其中,可以通过基于表格的目标识别模型对每张候选图像进行表格识别。
S120、提取目标图像的特征图。
特征图(feature map)又称为特征图像,包括但不限于图像的颜色特征、纹理特征、形状特征和空间关系特征。特征图实质是一个特征矩阵,包括的多个矩阵元素可称为特征点,每个特征点映射到目标图像中至少一个像素点。可见,特征图实质表示了目标图像中各像素点的特征,显然,字符像素点的特征与空白区域像素点的特征必然是不同的。
S130、根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,表格结构包括行检测框和列检测框中的至少一项。
本实施例中,无论待还原表格中是否显示表格线,本实施例旨在还原出待还原表格中的行检测框和列检测框中的至少一项。具体的,如果待还原表格中未显示表格线,则还原后的表格需要显示出表格线,以形成的行检测框和/或列检测框;如果待还原表格中显示表格线,则还原后的表格需要还原待还原表格中的表格线,以形成行检测框和/或列检测框。
本实施例中,假设待还原表格中显示行检测框和/或列检测框,根据特征图识别目标图像中每个像素点相对于行检测框和/或列检测框的相对位置关系。其中,行检测框和列检测框的数量均为至少一个,大部分情况下,待还原表格包括多个行检测框和/或多个列检测框。每个像素点相对于表格结构的相对位置关系,例如是否位于行检测框和/或列检测框内。
由于特征图中,字符像素点的特征与空白区域像素点的特征必然是不同的,则特征图能够表明各特征点映射的像素点是字符像素点还是空白区域像素点,进而识别出每个像素点相对于行检测框和/或列检测框的相对位置关系。
可选的,S130包括以下三种可选操作:1)根据特征图,识别目标图像中每个像素点相对于行检测框的相对位置关系;2)根据特征图,识别目标图像中每个像素点相对于列检测框的相对位置关系;3)根据特征图,识别目标图像中每个像素点相对于行检测框的相对位置关系以及相对于列检测框的相对位置关系。
具体的,如果待还原表格仅包括行,则执行第一种操作;如果待还原表格仅包括列,则执行第二种操作;如果待还原表格既包括行又包括列,则执行第三种操作。
在第三种操作中,提取目标图像的第一特征图,根据第一特征图识别目标图像中每个像素点相对于行检测框的相对位置关系;提取目标图像的第二特征图,根据第二特征图识别目标图像中每个像素点相对于列检测框的相对位置关系。具体的,由于像素点相对于行检测框和列检测框的相对位置关系毕竟是两种不同的相对位置关系,则所根据的特征图也会有些不同。为了方便描述区分,将用于识别相对于行检测框的相对位置关系的特征图称为第一特征图,将用于识别相对于列检测框的相对位置关系的特征图称为第二特征图。第三种操作中,对相对于行检测框和列检测框的相对位置关系的识别顺序不作限定,可以先执行相对于行检测框的相对位置关系,或先执行相对于列检测框的相对位置关系,或者并行执行。
可选的,根据深度学习算法,提取目标图像的特征图;根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,以提高识别精度。
S140、根据相对位置关系还原待还原表格的表格结构。
示例性的,根据每个像素点是否位于行检测框和/或列检测框内,筛选位于行检测框或列检测框内的像素点,并将筛选出的像素点的边缘构成待还原表格的行检测框或列检测框。
对应于上述S130包括的三种可选操作,S140也包括以下三种可选操作:1)根据目标图像中每个像素点相对于行检测框的相对位置关系,还原待还原表格的行检测框;2)根据目标图像中每个像素点相对于列检测框的相对位置关系,还原待还原表格的列检测框;3)根据目标图像中每个像素点相对于行检测框的相对位置关系,还原待还原表格的行检测框;以及根据目标图像中每个像素点相对于列检测框的相对位置关系,还原待还原表格的列检测框;将行检测框和列检测框叠加,得到待还原表格的行检测框和列检测框。
本实施例中,通过提取目标图像的特征图,并根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,从而基于特征识别的方法准精准得到每个像素点相对与表格结构的相对位置关系;由于像素点的位置是固定的,根据相对位置信息可以得到表格结构的位置,进而还原表格结构。本实施例创新性地从图像特征的角度对行检测框和列检测框进行直接检测,不依赖任何人工先验知识和设计,不依赖表格线,在图像噪声大、表格样式多变等场景中依然能够成功还原,具有很强的灵活性、可用性和泛化性。
图2a是本申请实施例中的第二种表格结构还原方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化。
可选的,将操作“根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系”细化为“根据特征图,识别目标图像中每个像素点是否位于表格结构内,是否位于表格结构内的设定位置以及与表格结构顶点的距离”。
可选的,将操作“根据相对位置关系还原待还原表格的表格结构”细化为“将相互邻接的位于表格结构内的像素点进行合并,得到表格结构区域;从表格结构区域中,选取位于设定位置的像素点集合;根据像素点集合中各像素点距离表格结构顶点的距离,计算表格结构顶点的位置信息”。
如图2a所示的表格结构还原方法包括:
S210、获取目标图像,目标图像显示有待还原表格。
S220、提取目标图像的特征图。
S230、根据特征图,识别目标图像中每个像素点是否位于表格结构内,是否位于表格结构内的设定位置以及与表格结构顶点的距离。
其中,表格结构内的设定位置包括行检测框的左部和右部,列检测框的上部和下部。行检测框的左部和列检测框的上部可称为头部,行检测框的右部和列检测框的下部可称为尾部。如果行检测框和列检测框是矩形,则表格结构顶点包括行检测框和列检测框的4个顶点。
S240、将相互邻接的位于表格结构内的像素点进行合并,得到表格结构区域。
根据目标图像中每个像素点是否位于表格结构内,确定位于表格结构内的像素点。相互邻接指的是像素点相互邻接,相互邻接的像素点位于同一行检测框或者同一列检测框中。那么将相互邻接的位于表格结构内的像素点进行合并,得到表格结构区域。
图2b是本申请实施例中的表格结构区域的示意图。结合图2b,在表格结构包括行检测框时,将左右邻接的位于行检测框内的像素点进行合并,得到表格结构子区域。然后,将上下邻接的表格结构子区域进行合并,得到表格结构区域。
相应的,在表格结构包括列检测框时,将上下邻接的位于列检测框内的像素点进行合并,得到表格结构子区域。然后,将左右邻接的表格结构子区域进行合并,得到表格结构区域。
S250、从表格结构区域中,选取位于设定位置的像素点集合。
遍历每个表格结构区域,选取每个表格结构区域内位于设定位置的像素点,构成位于设定位置的像素点集合。图2c是本申请实施例中的行检测框的示意图。如图2c所示,设定位置为行检测框的头部和尾部,位于头部的像素点构成头部像素点集合,位于尾部的像素点构成尾部像素点集合。图2c中,行检测框内部除了头部和尾部还包括中部。
S260、根据像素点集合中各像素点距离表格结构顶点的距离,计算表格结构顶点的位置信息。
各像素点距离表格结构顶点的距离包括各像素点距离表格结构各顶点的横向距离和纵向距离。如图2c所示,对于行检测框来说,根据头部各像素点的位置信息,以及头部各像素点距离行检测框头部两个顶点的横向距离和纵向距离,计算行检测框头部两个顶点的位置信息;根据尾部各像素点的位置信息,以及尾部各像素点距离行检测框尾部两个顶点的横向距离和纵向距离,计算行检测框尾部两个顶点的位置信息,至此,得到行检测框4个顶点的位置信息。
相应的,对于列检测框来说,根据头部各像素点的位置信息,以及头部各像素点距离列检测框头部两个顶点的横向距离和纵向距离,计算列检测框头部两个顶点的位置信息;根据尾部各像素点的位置信息,以及尾部各像素点距离列检测框尾部两个顶点的横向距离和纵向距离,计算列检测框尾部两个顶点的位置信息,至此,得到列检测框4个顶点的位置信息。
值得说明的是,像素点集合包括多个像素点,这些像素点计算出的表格结构顶点的位置信息可能是不同的,可以计算平均的位置信息或者选取其中任一位置信息。
在一可选实施方式中,对各像素点距离表格结构顶点的距离进行加权平均,得到各像素点距离表格结构顶点的平均距离;根据平均距离计算表格结构顶点的位置信息。
可选的,获取像素点集合中各像素点位于表格结构内的置信度;采用像素点集合中各像素点位于表格结构内的置信度对各像素点进行加权平均。具体的,通过表格结构识别模型中的全卷积层,对特征图进行全卷积,得到特征图中的每个特征点映射的目标图像中的像素点位于表格结构内的置信度。对表格结构模型的描述详见下述实施例的记载。
可选的,根据像素点集合中各像素点在设定位置的具体位置,确定权值。示例性的,位于设定位置的中间区域的像素点的权值大于位于设定位置的边缘区域的像素点的权值,如图2c所示,像素点1~3的权值为0.9,像素点4的权值为0.6。
得到平均距离后,选定设定位置的中心像素点,即头部的中心像素点和尾部的中心像素点,如图2c中的灰色像素点。在与中心像素点距离前述平均距离后,得到表格结构顶点的位置信息。
本实施例中,通过根据特征图,识别目标图像中每个像素点是否位于表格结构内,是否位于表格结构内的设定位置以及与表格结构顶点的距离,从而确定表格结构内的像素点、位于设位置的像素点,再结合像素点与表格结构顶点的距离,得到表格结构顶点的位置信息,实现表格结构的还原。
进一步的,通过对相互邻接的位于表格结构内的像素点进行合并,并从中选取位于设定位置的像素点集合,能够准确定位到表格结构内部设定位置的像素点;而设定位置的像素点距离表格结构顶点较近,通过设定位置的像素点距离表格结构顶点的距离,能够准确计算表格结构顶点的位置信息。
进一步的,考虑到设定位置的像素点的数量有多个,对像素点集合中各像素点距离表格结构顶点的距离进行加权平均,得到各像素点距离表格结构顶点的平均距离;根据平均距离计算表格结构顶点的位置信息,该位置信息充分考虑到各像素点的距离,有利于提高位置信息的准确性。
本申请实施例中,图3a是本申请实施例中的第三种表格结构还原方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化。
可选的,将操作“提取目标图像的特征图”细化为“通过基于深度学习的表格结构识别模型中的特征提取层,提取目标图像的特征图”,相应的,将操作“根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系”细化为“通过表格结构识别模型中的输出层,根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系”,从而通过表格结构识别模型识别相对位置关系。
如图3a所示的第三种表格结构还原方法,包括:
S310、获取目标图像,目标图像显示有待还原表格。
S320、通过基于深度学习的表格结构识别模型中的特征提取层,提取目标图像的特征图。
S330、通过表格结构识别模型中的输出层,根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系。
基于深度学习的表格结构识别模型,可以是卷积神经网络、基于多层神经元的自编码神经网络,或者以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络。图3b是本申请实施例中的表格结构识别模型的结构示意图。表格结构识别模型包括输入层、特征提取层和输出层。
其中,输入层(Input Layer)用来输入目标图像,具体是输入目标图像的红、绿和蓝三个通道;将目标图像进行尺寸调整,得到表格结构识别模型适用的尺寸,例如1024×1024的尺寸。
图像特征提取层(Feature Extractor Layer)用于提取目标图像的特征图。具体的,图像特征提取层包括:多个特征图提取单元和多个融合单元。
每个特征图提取单元主要是由卷积层和池化层组成,卷积层包括多个卷积核,用于在目标图像或者特征图上进行扫描卷积,从中提取各种意义的特征图,输出到特征图中,池化层用于对特征图进行降维操作,保留特征图中的主要特征。利用这种具有卷积、池化层的深度神经网络模型,可以对图像的变形、模糊、光照变化等具有较高的鲁棒性。
结合图3b,特征图提取单元为4个。第一个特征图提取单元接收输入层的目标图像作为输入,其它特征图提取单元分别接受上一个特征图提取单元输出的特征图作为输入。每一个特征图提取单元都通过多个卷积核的作用提取有意义的特征图,最后通过池化层将特征图的的尺寸减半。在图3b中,第一个特征图提取单元采用256个卷积核提取目标图像的图像特征,得到1024×1024×256维的特征图,并通过池化层将特征图的尺寸减半,输出512×512×256的特征图。第二个特征图提取单元采用512个卷积核提取第一个特征图提取单元输出的特征图的图像特征,得到512×512×512维的特征图,并通过池化层将特征图的尺寸减半,输出256×256×512的特征图。同理第三个特征图提取单元输出128×128×1024维的特征图,第四个特征图提取单元输出64×64×2048维的特征图。综上,多个特征图提取单元顺次相连,逐层提取目标图像的特征图,得到多层特征图。
多层特征图的尺寸不同,代表了不同大小的图像感受野,也蕴含了不同的图像语义特征,为了更好的利用图像信息,通过多个融合单元对各层级的特征图按照由高层至底层的顺序逐层进行融合,得到目标图像的特征图。
具体的,每个融合单元主要由上采样层、拼接层和卷积层组成,具体来讲,第一个融合单元通过上采样层从第四个特征图提取单元输出的64×64×2048维特征图进行2倍上采样,即通过特征图分别沿着行、列的方向各执行1遍完成,得到128×128×2048维的特征图。通过拼接层将该特征图和第三个特征图提取单元输出的128×128×1024维的特征图按最后一维(即第三维)进行拼接,得到128×128×3072维的特征图;之后再通过卷积层(包括128个1×1的卷积核和128个3×3的卷积核)对此特征图下的特征信息进行充分学习和提取,得到融合了第四个特征图提取单元和第三个特征图提取单元的图像语义信息的128×128×128维特征图。同理,第二个融合单元对128×128×128维的特征图进行2倍上采样,并与第二个特征图提取单元输出的256×256×512维的特征图进行拼接,再经过多层卷积后得到256×256×64维的特征图。第三个融合单元对256×256×64维的特征图进行2倍上采样,并与第一个输出的512×512×256维的特征图进行拼接,再经过多层卷积后,最终得到512×512×32维的特征图。至此,512×512×32维的特征图已经完成了图像特征的学习,蕴含了高层及底层不同的图像语义信息。综上,通过多个融合单元通过上采样及卷积的方式将各层级的特征图进行充分融合,从而让表格结构识别模型不仅能学习到包含高层图像语义信息的全局特征(即小尺寸特征图大感受野下的特征),也能兼顾到包含低层图像语义信息的局部图像特征(即大尺寸特征图小感受野下的特征)。
输出层包括多个并行的全卷积层。基于此,通过表格结构识别模型中的多个全卷积层,分别对特征图进行全卷积,得到特征图中的每个特征点映射的目标图像中的像素点位于表格结构内的置信度,位于表格结构内的设定位置的置信度以及与表格结构顶点的距离。
结合图3b,输出层包括3个全卷积层,各全卷积层中卷积核的尺寸分别为1×1×1、1×1×2和1×1×4。各全卷积层分别对512×512×32维的特征图中最后一维进行一系列全卷积,得到512×512×7维的输出结果。该输出结果包括512×512个特征点中每个特征点的7维输出结果。由于目标图像是1024×1024的尺寸,相当于每个特征点映射为目标图像中的4个像素点。图3c是本申请实施例中的表格结构识别模型的输出结果示意图。下面结合图3c详细介绍每个特征点的7维结果。
第一个全卷积层(尺寸为1×1×1)输出1维结果(inside score),表示特征点映射的像素点位于表格结构内的置信度,用来对表格结构内部像素点及表格结构外部像素点进行分类。具体的,如果该置信度大于设定阈值,如0.5,则认为特征点映射的像素点位于表格结构内。
第二个全卷积层(尺寸为1×1×2)输出2维结果(vertex code),分别表示特征点映射的像素点位于设定位置的置信度,以及位于具体设定位置的置信度。用于判断特征点映射的像素点是否位于设定位置以及是头部还是尾部。因为最终的表格结构是通过设定位置的像素点进行回归得到的,而非表格结构内所有像素点,所以要对是否位于设定位置进行区分;而且,为了回归每个表格结构顶点的位置,需要对位于的具体设定位置进行区分。具体的,如果第二维的置信度大于设定阈值,如0.7,则认为特征点映射的像素点位于表格结构内的设定位置;如果第三维的置信度大于设定阈值,如0.5,则认为特征点映射的像素点位于头部;如果第三维的置信度小于或等于设定阈值,如0.5,则认为特征点映射的像素点位于尾部。
第三个全卷积层(尺寸为1×1×4)输出4维结果(Geometry prediction),分别表示设定位置的像素点与表格结构顶点的距离。具体的,如果表格结构识别模型用于识别行检测框,且第3维结果表示特征点映射的像素点位于头部,则按照从左到右的顺序,4维结果依次表示头部各像素点距离左上顶点的横向距离、纵向距离,头部各像素点距离左下顶点的横向距离、纵向距离;如果表格结构识别模型用于识别行检测框,且第3维结果表示特征点映射的像素点位于尾部,则按照从左到右的顺序,4维结果依次表示尾部各像素点距离右上顶点的横向距离、纵向距离,尾部各像素点距离右下顶点的横向距离、纵向距离;如果表格结构识别模型用于识别列检测框,且第3维结果表示特征点映射的像素点位于头部,则按照从左到右的顺序,4维结果依次表示头部各像素点距离左上顶点的横向距离、纵向距离,头部各像素点距离右上顶点的横向距离、纵向距离;如果表格结构识别模型用于识别列检测框,且第3维结果表示特征点映射的像素点位于尾部,则按照从左到右的顺序,4维结果依次表示尾部各像素点距离左下顶点的横向距离、纵向距离,尾部各像素点距离右下顶点的横向距离、纵向距离。
值得说明的是,如果第1维结果表示特征点映射的像素点位于表格结构外,则另外7维结果为空。如果第2维结果表示特征点映射的像素点未位于设定位置,则后5维结果为空。
S340、根据相对位置关系还原待还原表格的表格结构。
在上述可选实施方式中,将相互邻接的位于表格结构内的像素点进行合并,得到表格结构区域;从表格结构区域中,选取位于设定位置的像素点集合;根据像素点集合中各像素点距离表格结构顶点的距离,计算表格结构顶点的位置信息。
在识别行检测框时,从用于识别行检测框的表格结构识别模型输出的第1维结果中,筛选出大于设定阈值的特征点,设定阈值如0.5,将筛选出的特征点映射的像素点中,左右邻接的像素点进行合并,得到表格结构子区域;将上下邻接的表格结构子区域进行合并,得到表格结构区域。从每个表格结构区域中筛选出第2维结果大于设定阈值的像素,并根据第3维结果将筛选出的像素点分类为头部像素集合和尾部像素集合。接着,根据头部像素集合中各像素点到左上顶点的横向距离和纵向距离,到左下顶点的横向距离和纵向距离,计算左上顶点坐标和左下顶点坐标;根据尾部像素集合中各像素点到右上顶点的横向距离和纵向距离,到右下顶点的横向距离和纵向距离,计算右上顶点坐标和右下顶点坐标。
在识别列检测框时,从用于识别列检测框的表格结构识别模型输出的第1维结果中,筛选出大于设定阈值的特征点,设定阈值如0.5,将筛选出的特征点映射的像素点中,上下邻接的像素点进行合并,得到表格结构子区域;将左右邻接的表格结构子区域进行合并,得到表格结构区域。从每个表格结构区域中筛选出第2维结果大于设定阈值的像素,并根据第3维结果将筛选出的像素点分类为头部像素集合和尾部像素集合。接着,根据头部像素集合中各像素点到左上顶点的横向距离和纵向距离,到右上顶点的横向距离和纵向距离,计算左上顶点坐标和右上顶点坐标;根据尾部像素集合中各像素点到左下顶点的横向距离和纵向距离,到右下顶点的横向距离和纵向距离,计算左下顶点坐标和右下顶点坐标。
具体的,根据像素点集合中各像素点距离表格结构顶点的距离,计算表格结构顶点的位置信息,包括:对像素点集合中各像素点距离表格结构顶点的距离进行加权平均,得到各像素点距离表格结构顶点的平均距离;根据平均距离计算表格结构顶点的位置信息。
示例性的,根据各像素点位于表格结构内的置信度,对该像素点距离表格结构顶点的距离进行加权平均,得到各像素点距离表格结构顶点的平均距离;根据平均距离计算表格结构顶点的位置信息。
值得说明的是,一个表格结构识别模型仅用于识别行检测框或者列检测框。因此,如果需要识别待还原表格的行检测框和列检测框,则需要通过一个表格结构识别模型识别行检测框的位置信息,通过另一个表格结构识别模型识别列检测框的位置信息;再将行检测框和列检测框叠加,还原表格结构。
可选的,在获取目标图像之后还包括表格还原模型的训练过程。具体的,将目标图像添加至训练样本集,训练样本集包括多张显示有待还原表格的图像;获取训练样本集中每张图像的标注,标注包括每个像素点相对于表格结构的相对位置关系;采用训练样本集和标注,对表格结构识别模型进行训练。
其中,获取的目标图像均会添加到训练样本集中,通过人工的方式对训练样本集中的各图像进行标注,如图3c所示。然后,按照设定周期,采用训练样本集和标注,对表格结构识别模型进行训练。
本实施例中,通过基于深度学习的表格结构识别模型,提取目标图像的特征图并识别相对位置关系,从而采用深度学习模型,并基于深度特征,提高相对位置关系的准确性。
进一步,通过多个特征图提取单元和多个融合单元,从而让表格结构识别模型不仅能学习到包含高层图像语义信息的全局特征,也能兼顾到包含低层图像语义信息的局部图像特征,进一步提高表格结构识别模型的识别精度。
进一步的,通过表格结构识别模型中的多个全卷积层,从而实现通道级别的特征提取,得到多维结果。
进一步的,通过采用目标图像和标准对表格结构识别模型进行训练,通过图像积累能够实现线上模型的持续优化,以保证能够适应生产系统的最新要求,在表格还原精度、泛化性、规范化等方面都带来了显著的提升。
本申请实施例中,图4a是本申请实施例中的第四种表格结构还原方法的流程图,本申请实施例在上述各实施例的技术方案的基础上进行优化。
可选的,在操作“根据相对位置关系还原待还原表格的表格结构”之后,追加“对目标图像进行字符识别,得到待还原表格中的字符和字符的位置信息;根据字符的位置信息和还原得到的表格结构,计算字符在表格结构中的位置信息;根据字符在表格结构中的位置信息,将字符写入表格结构中”,实现待还原表格的行和/或列的完全还原。
如图4a提供的表格结构还原方法,包括:
S410、获取目标图像,目标图像显示有待还原表格。
S420、提取目标图像的特征图。
S430、根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,表格结构包括行检测框和列检测框中的至少一项。
S440、根据相对位置关系还原待还原表格的表格结构。
S410-S440的描述详见上述各实施例,此处不再赘述。
S450、对目标图像进行字符识别,得到待还原表格中的字符和字符的位置信息。
具体的,采用光学字符识别(Optical Character Recognition,OCR)将目标图像通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字,得到字符和字符的位置信息。
S460、根据字符的位置信息和还原得到的表格结构,计算字符在表格结构中的位置信息。
可选的,根据字符的位置信息与行检测框顶点的位置信息进行匹配,确定字符所处的行检测框顶点的位置信息。将行检测框按照顶点的位置信息从上到下进行排序,得到字符所处的行检测框是哪一个。同理,根据字符的位置信息与列检测框顶点的位置信息进行匹配,确定字符所处的列检测框顶点的位置信息。将列检测框按照顶点的位置信息从左到右进行排序,得到字符所处的列检测框是哪一个。
进一步的,如果需要还原待还原表格的行检测框和列检测框,需要将字符所处的行检测框和列检测框进行叠加,得到字符所处的具体检测框。可见,本实施例完全依靠图像特征进行行列检测,摆脱表格线及人工特征的限制,具有很强的通用性。
S470、根据字符在表格结构中的位置信息,将字符写入表格结构中。
具体的,将字符写入其所处的行检测框和/或列检测框中。图4b是本申请实施例中的行还原的表格效果图。
可选的,在S440和S470处,采用设定文档格式,根据相对位置关系还原待还原表格的表格结构;采用设定文档格式,根据字符在表格结构中的位置信息,将字符写入表格结构中。设定文档格式包括但不限于word、Excel等。
图4c是本申请实施例中的表格结构还原系统的结构示意图。该系统包括控制台服务器和多个线上服务器。控制台服务器用于从终端获取目标图像,并根据负载均衡调度算法将所述目标图像发送至所述多个线上服务器中的目标线上服务器。负载均衡调度算法包括但不限于轮询算法、基于代理的自适应负载均衡算法、加权响应算法等。为了处理高并发的还原请求,控制台服务器根据负载均衡调度算法选择一个线上服务器作为目标线上服务器,并将目标图像发送至目标线上服务器。目标线上服务器用于执行前述任一实施例提供的表格结构识别方法,例如,图1a、图2a和图3a所示的表格结构识别方法。可选的,多个线上服务器分别搭载表格结构识别模型。
在一应用场景中,表格结构还原系统还包括表格还原服务器、训练引擎、控制模块、生产数据库、模型训练数据库等几个主要模块。具体的,终端拍摄表格生成目标图像,并向控制台服务器发送包括目标图像的还原请求。控制台服务器将还原请求转化为可供线上模型(表格结构识别模型)进行处理的数据请求;同时将目标图像写入生产数据库。控制台服务器根据表格结构识别模型的部署情况实时进行负载均衡调度,将数据请求发送至最佳的搭载着表格结构识别模型的服务器上,称为目标线上服务器。该目标线上服务器上运行着表格结构识别模型,该模型已经由训练引擎训练完成。表格结构识别模型对于传输过来的目标图像进行行检测框或列检测框识别,并给出每个字符所处的行检测框和/或列检测框,将结果传送至表格还原服务器。表格还原服务器对所述目标图像进行字符识别,得到所述待还原表格中的字符和所述字符的位置信息;根据所述字符的位置信息和所述目标线上服务器还原得到的所述表格结构,计算所述字符在所述表格结构中的位置信息;根据所述字符在所述表格结构中的位置信息,将所述字符写入所述表格结构中,该模块可以根据不同的文档格式进行不同的适配。表格文件写入完成后,将结果传入控制模块。控制模块与实际的业务场景结合设计,并会将结果及响应的业务处理行为(例如,是否还原成功,还原时长,还原大小)作为线上生产日志存储到生产数据库中。生产数据库中的目标图像可定期对模型训练数据库进行更新,具体将目标图像发送至模型训练数据库中的训练样本集中。通过训练引擎获取所述训练样本集中每张图像的标注,采用所述训练样本集和所述标注,对所述表格结构识别模型进行训练,以对线上模型进行迭代更新,保证线上模型的效果。
本申请实施例中,在识别出行检测框和/或列检测框的基础上,对字符按照其所处的行检测框和/或列检测框,从而进行写入,实现表格的完整还原。
根据本申请的实施例,图5是本申请实施例中的一种表格结构还原装置的结构图,本申请实施例适用于从显示有表格的图像中还原可编辑的表格结构的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。
如图5所示的一种表格结构还原装置500,包括:获取模块501、提取模块502、识别模块503和还原模块504;其中,
获取模块501,用于获取目标图像,目标图像显示有待还原表格;
提取模块502,用于提取目标图像的特征图;
识别模块503,用于根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,表格结构包括行检测框和列检测框中的至少一项;
还原模块504,用于根据相对位置关系还原待还原表格的表格结构。
本申请实施例中,通过提取目标图像的特征图,并根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系,从而基于特征识别的方法准精准得到每个像素点相对与表格结构的相对位置关系;由于像素点的位置是固定的,根据相对位置信息可以得到表格结构的位置,进而还原表格结构。本实施例创新性地从图像特征的角度对行检测框和列检测框进行直接检测,不依赖任何人工先验知识和设计,不依赖表格线,在图像噪声大、表格样式多变等场景中依然能够成功还原,具有很强的灵活性、可用性和泛化性。
进一步的,识别模块503具体用于根据特征图,识别目标图像中每个像素点是否位于表格结构内,是否位于表格结构内的设定位置以及与表格结构顶点的距离。
进一步的,提取模块502具体用于通过基于深度学习的表格结构识别模型中的特征提取层,提取目标图像的特征图。识别模块503具体用于通过表格结构识别模型中的输出层,根据特征图,识别目标图像中每个像素点相对于表格结构的相对位置关系。
进一步的,特征提取层包括:多个特征图提取单元和多个融合单元。提取模块502包括多层特征图提取单元和特征图提取单元;其中,多层特征图提取单元用于通过多个特征图提取单元逐层提取目标图像的特征图,得到多层特征图;特征图提取单元用于通过多个融合单元对各层级的特征图按照由高层至低层的顺序逐层进行融合,得到目标图像的特征图。
进一步的,输出层包括多个并行的全卷积层。识别模块503具体用于:通过表格结构识别模型中的多个全卷积层,分别对特征图进行全卷积,得到特征图中的每个特征点映射的目标图像中的像素点位于表格结构内的置信度,位于表格结构内的设定位置的置信度以及与表格结构顶点的距离。
进一步的,该装置还包括添加模块、标注模块和训练模块;其中,添加模块用于将目标图像添加至训练样本集,训练样本集包括多张显示有待还原表格的图像;标注模块用于获取训练样本集中每张图像的标注,标注包括每个像素点相对于表格结构的相对位置关系;训练模块用于采用训练样本集和标注,对表格结构识别模型进行训练。
进一步的,还原模块504包括合并单元、选取单元和计算单元;其中,合并单元用于将相互邻接的位于表格结构内的像素点进行合并,得到表格结构区域;选取单元用于从表格结构区域中,选取位于设定位置的像素点集合;计算单元用于根据像素点集合中各像素点距离表格结构顶点的距离,计算表格结构顶点的位置信息。
进一步的,计算单元具体用于对像素点集合中各像素点距离表格结构顶点的距离进行加权平均,得到各像素点距离表格结构顶点的平均距离;根据平均距离计算表格结构顶点的位置信息。
进一步的,该装置还包括字符识别模块、位置计算模块和字符写入模块;其中,字符识别模块用于在根据所述相对位置关系还原所述待还原表格的表格结构之后,对目标图像进行字符识别,得到待还原表格中的字符和字符的位置信息;位置计算模块用于根据字符的位置信息和还原得到的表格结构,计算字符在表格结构中的位置信息;字符写入模块用于根据字符在表格结构中的位置信息,将字符写入表格结构中。
上述表格结构还原装置可执行本申请任意实施例所提供的表格结构还原方法,具备执行表格结构还原方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是实现本申请实施例的表格结构还原方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的表格结构还原方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的表格结构还原方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的表格结构还原的方法对应的程序指令/模块(例如,附图5所示的包括获取模块501、提取模块502、识别模块503和还原模块504)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的表格结构还原的方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现表格结构还原方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至执行表格结构还原方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行表格结构还原方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与执行表格结构还原方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种表格结构还原方法,其特征在于,包括:
获取目标图像,所述目标图像显示有待还原表格;
提取所述目标图像的特征图;
根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,所述表格结构包括行检测框和列检测框中的至少一项;
根据所述相对位置关系还原所述待还原表格的表格结构。
2.根据权利要求1所述的方法,其特征在于,所述根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,包括:
根据所述特征图,识别所述目标图像中每个像素点是否位于所述表格结构内,是否位于所述表格结构内的设定位置以及与所述表格结构顶点的距离。
3.根据权利要求1或2所述的方法,其特征在于,所述提取所述目标图像的特征图,包括:
通过基于深度学习的表格结构识别模型中的特征提取层,提取所述目标图像的特征图;
所述根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,包括:
通过所述表格结构识别模型中的输出层,根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系。
4.根据权利要求3所述的方法,其特征在于,所述特征提取层包括:多个特征图提取单元和多个融合单元;
所述通过基于深度学习的表格结构识别模型中的特征提取层,提取所述目标图像的特征图,包括:
通过所述多个特征图提取单元逐层提取所述目标图像的特征图,得到多层特征图;
通过所述多个融合单元对各层级的特征图按照由高层至低层的顺序逐层进行融合,得到所述目标图像的特征图。
5.根据权利要求3所述的方法,其特征在于,所述输出层包括多个并行的全卷积层;
所述通过所述表格结构识别模型中的输出层,根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,包括:
通过所述表格结构识别模型中的多个全卷积层,分别对所述特征图进行全卷积,得到所述特征图中的每个特征点映射的所述目标图像中的像素点位于所述表格结构内的置信度,位于所述表格结构内的设定位置的置信度以及与所述表格结构顶点的距离。
6.根据权利要求3所述的方法,其特征在于,在所述获取目标图像之后,还包括:
将所述目标图像添加至训练样本集,所述训练样本集包括多张显示有待还原表格的图像;
获取所述训练样本集中每张图像的标注,所述标注包括每个像素点相对于表格结构的相对位置关系;
采用所述训练样本集和所述标注,对所述表格结构识别模型进行训练。
7.根据权利要求2所述的方法,其特征在于,所述根据所述相对位置关系还原所述待还原表格的表格结构,包括:
将相互邻接的位于所述表格结构内的像素点进行合并,得到表格结构区域;
从所述表格结构区域中,选取位于所述设定位置的像素点集合;
根据所述像素点集合中各像素点距离所述表格结构顶点的距离,计算所述表格结构顶点的位置信息。
8.根据权利要求7所述的方法,其特征在于,所述根据所述像素点集合中各像素点距离所述表格结构顶点的距离,计算所述表格结构顶点的位置信息,包括:
对所述像素点集合中各像素点距离表格结构顶点的距离进行加权平均,得到所述各像素点距离所述表格结构顶点的平均距离;
根据所述平均距离计算所述表格结构顶点的位置信息。
9.根据权利要求1或2所述的方法,其特征在于,在所述根据所述相对位置关系还原所述待还原表格的表格结构之后,还包括:
对所述目标图像进行字符识别,得到所述待还原表格中的字符和所述字符的位置信息;
根据所述字符的位置信息和还原得到的所述表格结构,计算所述字符在所述表格结构中的位置信息;
根据所述字符在所述表格结构中的位置信息,将所述字符写入所述表格结构中。
10.一种表格结构还原装置,其特征在于,包括:
获取模块,用于获取目标图像,所述目标图像显示有待还原表格;
提取模块,用于提取所述目标图像的特征图;
识别模块,用于根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系,所述表格结构包括行检测框和列检测框中的至少一项;
还原模块,用于根据所述相对位置关系还原所述待还原表格的表格结构。
11.根据权利要求10所述的装置,其特征在于,
所述识别模块,具体用于根据所述特征图,识别所述目标图像中每个像素点是否位于所述表格结构内,是否位于所述表格结构内的设定位置以及与所述表格结构顶点的距离。
12.根据权利要求10或11所述的装置,其特征在于,
所述提取模块,具体用于:通过基于深度学习的表格结构识别模型中的特征提取层,提取所述目标图像的特征图;
所述识别模块,具体用于:通过所述表格结构识别模型中的输出层,根据所述特征图,识别所述目标图像中每个像素点相对于表格结构的相对位置关系。
13.根据权利要求12所述的装置,其特征在于,所述特征提取层包括:多个特征图提取单元和多个融合单元;
所述提取模块包括:
多层特征图提取单元,用于通过所述多个特征图提取单元逐层提取所述目标图像的特征图,得到多层特征图;
特征图提取单元,用于通过所述多个融合单元对各层级的特征图按照由高层至低层的顺序逐层进行融合,得到所述目标图像的特征图。
14.根据权利要求12所述的装置,其特征在于,所述输出层包括多个并行的全卷积层;
所述识别模块,具体用于通过所述表格结构识别模型中的多个全卷积层,分别对所述特征图进行全卷积,得到所述特征图中的每个特征点映射的所述目标图像中的像素点位于所述表格结构内的置信度,位于所述表格结构内的设定位置的置信度以及与所述表格结构顶点的距离。
15.根据权利要求12所述的装置,其特征在于,所述装置还包括:
添加模块,用于在获取目标图像之后将所述目标图像添加至训练样本集,所述训练样本集包括多张显示有待还原表格的图像;
标注模块,用于获取所述训练样本集中每张图像的标注,所述标注包括每个像素点相对于表格结构的相对位置关系;
训练模块,用于采用所述训练样本集和所述标注,对所述表格结构识别模型进行训练。
16.根据权利要求11所述的装置,其特征在于,所述还原模块,包括:
合并单元,用于将相互邻接的位于所述表格结构内的像素点进行合并,得到表格结构区域;
选取单元,用于从所述表格结构区域中,选取位于所述设定位置的像素点集合;
计算单元,用于根据所述像素点集合中各像素点距离所述表格结构顶点的距离,计算所述表格结构顶点的位置信息。
17.根据权利要求16所述的装置,其特征在于,
所述计算单元,具体用于对所述像素点集合中各像素点距离表格结构顶点的距离进行加权平均,得到所述各像素点距离所述表格结构顶点的平均距离;根据所述平均距离计算所述表格结构顶点的位置信息。
18.根据权利要求10或11所述的装置,其特征在于,所述装置还包括:
字符识别模块,用于在根据所述相对位置关系还原所述待还原表格的表格结构之后,对所述目标图像进行字符识别,得到所述待还原表格中的字符和所述字符的位置信息;
位置计算模块,用于根据所述字符的位置信息和还原得到的所述表格结构,计算所述字符在所述表格结构中的位置信息;
字符写入模块,用于根据所述字符在所述表格结构中的位置信息,将所述字符写入所述表格结构中。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种表格结构还原方法。
20.一种表格结构还原系统,其特征在于,包括:控制台服务器和用于执行权利要求1-5或7-8中任一项所述的表格结构识别方法的多个线上服务器;
所述控制台服务器,用于从终端获取目标图像,并根据负载均衡调度算法将所述目标图像发送至所述多个线上服务器中的目标线上服务器。
21.根据要求20所述的系统,其特征在于,还包括:表格还原服务器;
所述表格还原服务器,用于对所述目标图像进行字符识别,得到所述待还原表格中的字符和所述字符的位置信息;根据所述字符的位置信息和所述目标线上服务器还原得到的所述表格结构,计算所述字符在所述表格结构中的位置信息;根据所述字符在所述表格结构中的位置信息,将所述字符写入所述表格结构中。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的一种表格结构还原方法。
CN202010432633.5A 2020-05-20 2020-05-20 表格结构还原方法、装置、设备、系统和可读存储介质 Active CN111626027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010432633.5A CN111626027B (zh) 2020-05-20 2020-05-20 表格结构还原方法、装置、设备、系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010432633.5A CN111626027B (zh) 2020-05-20 2020-05-20 表格结构还原方法、装置、设备、系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN111626027A true CN111626027A (zh) 2020-09-04
CN111626027B CN111626027B (zh) 2023-03-24

Family

ID=72271099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010432633.5A Active CN111626027B (zh) 2020-05-20 2020-05-20 表格结构还原方法、装置、设备、系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN111626027B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200822A (zh) * 2020-10-28 2021-01-08 广东南方数码科技股份有限公司 表格重建方法、装置、计算机设备及存储介质
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014018482A2 (en) * 2012-07-24 2014-01-30 Alibaba Group Holding Ltd Form recognition method and device
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
US20200151444A1 (en) * 2018-11-14 2020-05-14 Adobe Inc. Table Layout Determination Using A Machine Learning System

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014018482A2 (en) * 2012-07-24 2014-01-30 Alibaba Group Holding Ltd Form recognition method and device
US20200151444A1 (en) * 2018-11-14 2020-05-14 Adobe Inc. Table Layout Determination Using A Machine Learning System
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHUBHAM PALIWAL等: "tablenet:deep learning modal for end-to-end table detection and tabular data extraction from scanned document images", 《网页在线公开:ARXIV.ORG/ABS/2001.01469V1》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200822A (zh) * 2020-10-28 2021-01-08 广东南方数码科技股份有限公司 表格重建方法、装置、计算机设备及存储介质
CN112766073A (zh) * 2020-12-31 2021-05-07 贝壳技术有限公司 表格提取方法、装置、电子设备及可读存储介质
CN112766073B (zh) * 2020-12-31 2022-06-10 贝壳找房(北京)科技有限公司 表格提取方法、装置、电子设备及可读存储介质
CN113139625A (zh) * 2021-05-18 2021-07-20 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN113139625B (zh) * 2021-05-18 2023-12-15 北京世纪好未来教育科技有限公司 一种模型训练方法、电子设备及其存储介质
CN114842489A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 表格解析方法及装置
CN116168404A (zh) * 2023-01-31 2023-05-26 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统
CN116168404B (zh) * 2023-01-31 2023-12-22 苏州爱语认知智能科技有限公司 基于空间变换的智能文档处理方法和系统

Also Published As

Publication number Publication date
CN111626027B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN111626027B (zh) 表格结构还原方法、装置、设备、系统和可读存储介质
CN111753727B (zh) 用于提取结构化信息的方法、装置、设备及可读存储介质
WO2020216008A1 (zh) 图像处理方法、装置、存储介质及设备
CN111328396B (zh) 用于图像中的对象的姿态估计和模型检索
CN110610510B (zh) 目标跟踪方法、装置、电子设备及存储介质
CN111986178A (zh) 产品缺陷检测方法、装置、电子设备和存储介质
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN112528976B (zh) 文本检测模型的生成方法和文本检测方法
CN111598164B (zh) 识别目标对象的属性的方法、装置、电子设备和存储介质
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN113591573A (zh) 多任务学习深度网络模型的训练及目标检测方法、装置
CN112906794A (zh) 一种目标检测方法、装置、存储介质及终端
CN111967490A (zh) 用于地图检测的模型训练方法和地图检测方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN111709873A (zh) 图像转换模型生成器的训练方法和装置
CN112150462A (zh) 确定目标锚点的方法、装置、设备以及存储介质
CN111652181B (zh) 目标跟踪方法、装置及电子设备
CN112163577A (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
CN112380566A (zh) 用于对文档图像进行脱敏的方法、装置、电子设备及介质
CN110599455A (zh) 显示屏缺陷检测网络模型、方法、装置、电子设备及存储介质
CN111753739A (zh) 物体检测方法、装置、设备以及存储介质
CN111523467B (zh) 人脸跟踪方法和装置
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
CN112288699A (zh) 图像相对清晰度的评估方法、装置、设备和介质
CN112308145A (zh) 一种分类网络训练方法、分类方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant