CN110287854B - 表格的提取方法、装置、计算机设备和存储介质 - Google Patents
表格的提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110287854B CN110287854B CN201910539220.4A CN201910539220A CN110287854B CN 110287854 B CN110287854 B CN 110287854B CN 201910539220 A CN201910539220 A CN 201910539220A CN 110287854 B CN110287854 B CN 110287854B
- Authority
- CN
- China
- Prior art keywords
- key points
- picture
- area
- detected
- output matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请提出一种表格的提取方法、装置、计算机设备和存储介质,其中,方法包括:获取待检测图片;对待检测图片进行识别以获取待检测图片中表格所在的表格区域;对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵;对表格区域进行识别以提取表格的结构信息;以及根据表格关键点的输出矩阵和表格的结构信息生成表格。该方法无需人工录入表格信息,对扫描、拍照的要求也不高,从而提取表格的成本较低,适用范围广,并且引入了表格关键点检测,以辅助表格的结构信息对表格进行精确的重建,提高了生成的表格的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种表格的提取方法、装置、计算机设备和存储介质。
背景技术
表格是由行与列构成的一种组织、整理数据的有效手段,其清晰、可视化的交流模式,使其在数据分析、科学研究甚至大众的生活中被广泛使用。
目前,将纸质印刷表格转换到电子表格通常有两种方式:一是按照表格的样式,进行人工录入计算机;另一个是对纸质印刷表格扫描、拍照,然后在计算机上对扫描、拍照获取的图片进行表格结构提取。但是,人工录入的工作量较大、成本较高,而通过计算机处理又对扫描、拍照的要求较高,适用性较差。
发明内容
本申请提出一种表格的提取方法、装置、计算机设备和存储介质,用于解决相关技术中表格的提取方法存在工作量大、成本高及适用性差的问题。
本申请一方面实施例提出了一种表格的提取方法,包括:
获取待检测图片;
对所述待检测图片进行识别以获取所述待检测图片中表格所在的表格区域;
对所述表格区域进行识别以提取表格关键点并生成所述表格关键点的输出矩阵;
对所述表格区域进行识别以提取所述表格的结构信息;以及
根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格。
本申请实施例的表格的提取方法,通过获取待检测图片,对待检测图片进行识别以获取待检测图片中表格所在的表格区域,对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵,对表格区域进行识别以提取表格的结构信息,以及根据表格关键点的输出矩阵和表格的结构信息生成表格。由此,通过对待检测图片进行识别得到表格区域,分别对表格区域进行识别,得到表格关键点的输出矩阵和表格的结构信息,再根据表格关键点的输出矩阵和表格的结构信息自动生成表格,无需人工录入表格信息,对扫描、拍照的要求也不高,从而提取表格的成本较低,适用范围广,并且引入了表格关键点检测,以辅助表格的结构信息对表格进行精确的重建,提高了生成的表格的准确性。
本申请另一方面实施例提出了一种表格的提取装置,包括:
第一获取模块,用于获取待检测图片;
第二获取模块,用于对所述待检测图片进行识别以获取所述待检测图片中表格所在的表格区域;
第一生成模块,用于对所述表格区域进行识别以提取表格关键点并生成所述表格关键点的输出矩阵;
提取模块,用于对所述表格区域进行识别以提取所述表格的结构信息;以及
第二生成模块,用于根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格。
本申请实施例的表格的提取装置,通过获取待检测图片,对待检测图片进行识别以获取待检测图片中表格所在的表格区域,对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵,对表格区域进行识别以提取表格的结构信息,以及根据表格关键点的输出矩阵和表格的结构信息生成表格。由此,通过对待检测图片进行识别得到表格区域,分别对表格区域进行识别,得到表格关键点的输出矩阵和表格的结构信息,再根据表格关键点的输出矩阵和表格的结构信息自动生成表格,无需人工录入表格信息,对扫描、拍照的要求也不高,从而提取表格的成本较低,适用范围广,并且引入了表格关键点检测,以辅助表格的结构信息对表格进行精确的重建,提高了生成的表格的准确性。
本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的表格的提取方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的表格的提取方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种表格的提取方法的流程示意图;
图2为本申请实施例提供的另一种表格的提取方法的流程示意图;
图3为本申请实施例提供的一种利用第一卷积神经网络获取表格区域的过程示意图;
图4为本申请实施例提供的另一种表格的提取方法的流程示意图;
图5为本申请实施例提供的一种利用第二卷积神经网络获取输出矩阵的过程示意图;
图6为本申请实施例提供的另一种表格的提取方法的流程示意图;
图7为本申请实施例提供的一种获取表格的结构信息的过程示意图;
图8为本申请实施例提供一种训练模型的过程示意图;
图9为本申请实施例提供的一种提取表格的过程示意图;
图10为本申请实施例提供的一种表格的提取装置的结构示意图;
图11示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的表格的提取方法、装置、计算机设备和存储介质。
本申请实施例,针对相关技术中将纸质印刷表格转换到电子表格时,人工录入工作量大、成本较高,而通过计算机处理又对扫描、拍照的要求较高,适用性较差的问题,提出一种表格的提取方法。
本申请实施例的表格的提取方法,通过对待检测图片进行识别得到表格区域,分别对表格区域进行识别,得到表格关键点的输出矩阵和表格的结构信息,再根据表格关键点的输出矩阵和表格的结构信息自动生成表格,无需人工录入表格信息,成本较低,并且对扫描、拍照的要求不高,适用性较强。
图1为本申请实施例提供的一种表格的提取方法的流程示意图。
如图1所示,该表格的提取方法包括:
步骤101,获取待检测图片。
在实际应用中,如果要提取纸质表格,将纸质表格转换为电子表格,可以利用相机对纸质表格进行拍摄,得到包含表格的图片,将这些图片可作为待检测图片。
步骤102,对待检测图片进行识别以获取待检测图片中表格所在的表格区域。
本实施例中,对待检测图片进行识别,确定待检测图片中是否包含表格,如果包含表格,则获取待检测图片中表格所在的表格区域。
在判断待检测图片中是否包含表格时,通过识别待检测图片中是否存在相交的线,如果存在,可以认为待检测图片中存在表格。当然,也可以假设步骤101获取的待检测图片中包含表格。
具体地,可以确定表格在待检图片中的位置信息。然后,根据表格在待检测图片中的位置信息确定表格区域。这里的位置是可以是表格的4个顶角在待检测图片中的位置,根据表格4个顶角的位置可以确定表格在待检测区域中的范围即表格区域。进一步地,为了提高识别的准确率,也可以根据表格在待检测图片中的位置信息对待检测图片进行裁剪得到表格区域。
本实施例中,通过从待检测图片中识别出表格区域可以有效降低后续处理的计算量,假设表格区域覆盖整幅待检测图片的1/N区域,那么后续的关键点检测、结构识别可以只关注这1/N的区域,计算量降低1/N。
步骤103,对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵。
其中,表格关键点可以是表格中线的交点,即表格各单元格的顶点。
本实施例中,可以按照从左到右、从上到下的顺序对表格区域进行识别,当识别到关键点时,记录关键点的位置,并继续进行识别,从而可以提取表格区域中所有的关键点。这里表格关键点的位置可以是关键点在表格区域中的坐标信息。
当然,可以按照其他顺序或者随机在表格区域中识别关键点以及记录关键点的位置信息。
在获取表格区域内所有关键点的位置信息后,可根据各关键点的位置信息,获取表格关键点的输出矩阵。其中,输出矩阵中的各元素可以是各关键点的标识,也可以是各关键点在表格区域中的坐标信息。
另外,表格的关键点在表格区域中的位置与其在输出矩阵的位置相对应,也就是说,输出矩阵中各关键点之间的位置关系与表格区域中各关键点之间的位置关系相同。
比如,根据关键点A、B、C的位置信息,确定关键点A、B、C为表格的上边缘线上从左到右的三个关键点,那么在输出矩阵中关键点A、B、C的位置是(1,1)、(1,2)、(1,3),即关键点A在输出矩阵的第一行第一列,关键点B在第一行第二列,关键点C在第一行第三列。
或者,对输出矩阵进行一定的处理,如转置等,得到的处理后的矩阵中关键点的位置与其在表格区域中的位置对应。
本实施例中,通过提取出表格的关键点,以便于对表格中的点线进行精确的定位。
步骤104,对表格区域进行识别以提取表格的结构信息。
在对表格区域进行识别提取表格的关键点的同时,还可对表格区域进行识别提取表格的结构信息。其中,表格的结构信息用于描述表格的结构,比如表头、表格中每行有多少单元格、每列有多少单元格等。
步骤105,根据表格关键点的输出矩阵和表格的结构信息生成表格。
在实际应用中,仅根据表格的结构信息生成的表格准确度比较低,而仅表格的关键点生成表格准确性也比较低。
比如,根据关键点的位置连线得到三个单元格,但是实际上中间并不是单元格,这是因为关键点是线的交点,但是并不能确定关键点几条线的交点。
本实施例中,根据表格的结构信息可以确定表格中包含的单元格的位置,然后根据表格关键点的输出矩阵确定各单元格的大小,那么对关键点输出矩阵对关键点进行连线可以生成表格。
本申请实施例的表格的提取方法,通过对待检测图片进行识别得到表格区域,分别对表格区域进行识别,得到表格关键点的输出矩阵和表格的结构信息,再根据表格关键点的输出矩阵和表格的结构信息自动生成表格,无需人工录入表格信息,对扫描、拍照的要求也不高,从而提取表格的成本较低,适用范围广,并且引入了表格关键点检测,以辅助表格的结构信息对表格进行精确的重建,提高了生成的表格的准确性。
上述对待检测图片进行识别获取表格区域时,为了提高识别的准确率,可以利用卷积神经网络进行识别。图2为本申请实施例提供的另一种表格的提取方法的流程示意图。
如图2所示,上述对待检测图片进行识别以获取待检测图片中表格所在的表格区域,包括:
步骤201,通过第一卷积神经网络对待检测图片进行特征提取以生成第一卷积征。
本实施例中,第一卷积神经网络用于特征提取,可以采用一些常用的卷积神经网络,如视觉几何组网络(Visual Geometry Group Network,简称VGGNet)、残差神经网络(Residual Neural Network,简称ResNet)等。通过第一卷积神经网络进行特征提取得到的第一卷积特征包含表格的位置信息。
步骤202,对第一卷积特征进行背景抑制以生成第二卷积特征。
这里是对表格的位置进行检测,而待检测图片中的文字等信息会对表格的位置检测产生一定的干扰,所以此处我们在提取到的第二卷积特征的基础上添加了背景抑制损失,得到第二卷积特征,其作用是使表格线对应的区域在特征上的值尽量大,非表格线对应的区域在特征图上的值尽量小,从而可以准确地获取表格的位置,以实现对表格特征进行强化,增强表格特征,减弱背景的特征。
在具体实现时,可在训练得到表格位置检测模型时,在训练模型的目标函数中添加一个损失函数,即表格二值图片(其可以根据表格关键点绘制出)和特征的L2距离,使其尽量小,以达到表格线对应的区域特征尽量大,背景区域特征尽量小的目的。
步骤203,根据第二卷积特征获取表格的表格位置,根据表格位置获取表格区域。
本实施例中,可以根据第二卷积特征获取表格的表格位置,然后根据表格的位置可以从待检测图片中获取表格区域,具体地,可以是从待检测图片中裁剪出表格区域。
在实际应用中,获取的待检测图片中不一定包含表格,在获取表格区域的同时,还可得到表格的类别,用以表示是不是表格,比如0表示是表格,1表示不是表格。
本申请实施例中,在利用第一卷积神经网络对待检测图片进行识别时,加入背景抑制,可以提高表格位置的识别准确性。
在实际应用中,由于拍摄角度、摄像水平等原因,待检测图片中表格区域可能会存在倾斜的情况,为了提高后续关键点和表格位置识别的准确性,在本申请的一个实施例中,还可根据第二卷积特征获取表格的表格角度,然后根据表格角度对待检测图片进行旋转,对表格区域进行矫正,以克服表格区域存在倾斜缺陷的问题。
其中,表格角度可以是表格的竖直中心线与待检测图片的竖直中心线的夹角,或者是表格的水平中心线与待检测图片的水平中心线的夹角。可以理解的是,可先判断表格角度的大小,当表格角度为零时,不需要对表格区域进行旋转,当表格角度不为零,根据表格角度对表格区域进行矫正。
图3为本申请实施例提供的一种利用第一卷积神经网络获取表格区域的过程示意图。如图3所示,该过程包括卷积特征提取部分、背景抑制部分和表格定位部分。
其中,卷积特征提取部分主要用于特征提取;背景抑制部分通过对提取的特征进行背景抑制,以使表格线对应的区域在特征上的值尽量大,非表格线对应的区域在特征图上的值尽量小,从而便于确定表格区域的位置;表格定位部分用于对表格位置进行定位得到表格的位置,和表格的角度信息,以及表格的类别。
图3中,通过卷积神经网络进行特征提取,可以得到特征C1、C2、C3。其中,特征C1、C2、C3都是卷积神经网络中的不同输出层,C1、C2、C3由于其所处于卷积神经网络中的深度不同,包含了不同的特征信息,如语义、纹理、位置、颜色等信息,然后根据不同的用途可以选择不同的层,本实施例中选择包含有位置信息的特征C3。然后,在C3特征基础上加上背景抑制得到A3特征,相当于对表格的特征进行强化,增强表格的特征,减弱背景的特征。另外,图3中的Inception模块、RPN模块、ROI Pooling模块是神经网络结构中的标准拓扑结构。
上述对表格区域进行识别提取表格关键点并生成表格关键点的输出矩阵时,也可以使用卷积神经网络,以提高关键点提取的准确性。图4为本申请实施例提供的另一种表格的提取方法的流程示意图。
如图4所示,上述对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵,包括:
步骤301,通过第二卷积神经网络对表格区域进行特征提取以生成第三卷积特征。
其中,表格关键点为表格中线的交点。
本实施例中,可以利用第二卷积神经网络对表格区域进行特征提取,得到第三卷积特征。其中,第二卷积神经网络可以和第一卷积神经网络相同,也可以不同。
步骤302,根据第三卷积特征生成表格关键点特征图。
本实施例中,可以根据第三卷积特征获取表格关键点特征图。
其中,表格关键点特征图标识出了表格区域中包含的关键点,比如用黑色点表示关键点。
步骤303,根据表格关键点特征图,获取表格关键点的输出矩阵。
本实施例中,在通过第二卷积神经网络获取表格关键点特征图后,可经过二值化、膨胀、腐蚀等操作可以获取到表格关键点在特征图片中的坐标,进而可映射到在表格区域中的坐标,该坐标即可用矩阵表示得到表格关键点的输出矩阵。
图5为本申请实施例提供的一种利用第二卷积神经网络生成表格关键点特征图的过程示意图。图5中,输入图片为表格区域,第二卷积神经网络对输入图片进行处理,输出表格关键点特征图。
本申请实施例中,通过卷积神经网络生成表格关键点特征图,然后对表格关键点特征图进行处理,得到表格关键点的输出矩阵,可以提高关键点提取的准确性。
上述对表格区域进行识别获取表格的结构信息时,也可以通过卷积神经网络获取。图6为本申请实施例提供的另一种表格的提取方法的流程示意图。
如图6所示,上述对表格区域进行识别以提取表格的结构信息,包括:
步骤401,通过第三卷积神经网络对表格区域进行特征提取以生成第四卷积特征。
本实施例中,还可利用第三卷积神经网络对表格区域进行特征提取,得到第四卷积特征。其中,第四卷积特征携带有表格的结构信息。
步骤402,对第四卷积特征进行编码以生成编码特征。
本实施例中,可通过编码器对第四卷积特征进行编码,生成编码特征。
步骤403,对编码特征进行解码以生成表格的结构信息。
本实施例中,可将编码特征输入一个解码器,通过解码器进行解码,获取文本输出,该文本输出用于描述表格的结构信息。在具体实现时,可以利用循环神经网络进行解码。本实施例中,编码是为了将第三卷积神经网络输出的第四卷积特征转换成适合循环神经网络的输入。
图7为本申请实施例提供的一种获取表格的结构信息的过程示意图。图7中,输入图片为表格区域,即将表格区域输入至第三卷积神经网络中,第三卷积神经网络输出的第四特征输入至编码器进行编码得到编码特征,然后编码特征输入至解码器进行解密,得到用于描述表格的结构信息的文本描述。
图7中,圆圈表示标准注意力机制,圆圈右侧竖直放置并相连的长方形,以及解码器对应的堆叠放置的长方形,均表示神经网络的单元。最后输出的<tabluar>、<tr>、<tdn>、</tabluar>等是HTML和LaTeX中的语法,是表格的结构信息的文本描述,其中,tabluar表示表格,tr表示一行,td表示标准单元格。
本申请实施例中,通过第三卷积神经网络对表格区域进行识别,最终获取表格的结构信息,可以提高表格结构信息识别的准确度。需要说明的是,上述第一卷积神经网络、第二卷积神经网络和第三卷积神经网络可以相同,也可以不同,可以采用常用的卷积神经网络,比如VGGNet、ResNet。另外,第一卷积神经网络、第二卷积神经网络和第三卷积神经网络对应不同的深度模型,根据不同的用途可以选择不同的拓扑结构,然后使用相应的数据训练即可得到对应的模型,使用训练好的模型即可得到相应的预测输出。
在本申请实施例中,可以将上述图3、图5和图7中除输入和输出以外的部分分别看作位置检测模型、关键点检测模型和结构识别模型。也就是说,可先利用位置检测模型对待检测图片进行识别,获取待检测图片中的表格区域,然后分别利用关键点检测模型和结构识别模型对表格区域进行识别,分别获取表格关键点特征图和表格的结构信息。
本实施例中,在利用上述三种模型进行识别处理之前,可预先通过训练获得。下面结合图8进行说明,图8为本申请实施例提供一种训练模型的过程示意图。
具体地,获取大量的表格图片作为训练数据,然后对每张表格图片进行标注,其中标注内容包括:表格位置标注,表格关键点标注,表格结构标注。之后,将表格图片及对应的标注信息作为模型训练的输入,分别通过模型训练得到位置检测模型、关键点检测模型、结构识别模型。
如图8所示,在训练位置检测模型时,将表格图片(原始图像)、表格位置标注信息和表格关键点标注信息作为模型训练的输入,其中,在位置检测模型中使用关键点标注是计算背景抑制损失,从而通过在位置检测模型中,通过表格的关键点信息引入了表格背景抑制损失,提高了表格的检测效果;在训练关键点检测模型时,将表格图片和表格关键点标注信息作为训练模型的输入,经过训练得到关键点检测模型;在训练结构识别模型时,将表格图片和表格结构标注信息输入至训练模型中,经过训练得到结构识别模型。
本申请实施例中,在从待检测图片中提取表格时,通过训练得到三种模型完成,可以大大提高识别的效率和准确度。
下面结合图9对本申请实施例的表格的提取方法进行说明,图9为本申请实施例提供的一种提取表格的过程示意图。
如图9所示,首先将输入图片即待检测图片输入至位置检测模型中,通过位置检测模型,得到位置检测结果,如表格的位置、角度和分类等信息,如果是表格,则根据表格的位置确定表格的表格区域,然后根据表格的角度对表格区域进行旋转处理,然后对处理后的表格区域分别进行关键点检测和结构识别,其中可利用关键点检测模型进行关键点检测,利用结构识别模型进行结构识别,通过关键点检测得到关键点检测结果,通过结构识别获取结构识别结果,然后将关键点检测结果和结构识别结果进行表格结构融合,生成最终识别结果。
为了实现上述实施例,本申请实施例还提出一种表格的提取装置。图10为本申请实施例提供的一种表格的提取装置的结构示意图。
如图10所示,该表格的提取装置包括:第一获取模块510、第二获取模块520、第一生成模块530、提取模块540和第二生成模块550。
第一获取模块510,用于获取待检测图片;
第二获取模块520,用于对待检测图片进行识别以获取待检测图片中表格所在的表格区域;
第一生成模块530,用于对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵;
提取模块540,用于对表格区域进行识别以提取表格的结构信息;以及
第二生成模块550,用于根据表格关键点的输出矩阵和表格的结构信息生成表格。
在本申请实施例一种可能的实现方式中,上述第二获取模块520,包括:
第一生成单元,用于通过第一卷积神经网络对待检测图片进行特征提取以生成第一卷积特征;
第二生成单元,用于对第一卷积特征进行背景抑制以生成第二卷积特征;
第一获取单元,用于根据第二卷积特征获取表格的表格位置,根据表格位置获取表格区域。
在本申请实施例一种可能的实现方式中,上述第二获取模块520,还包括:
第二获取单元,用于根据第二卷积特征获取表格的表格角度;
校正单元,用于根据表格角度对所述表格区域进行校正。
在本申请实施例一种可能的实现方式中,上述表格关键点为表格中线的交点,上述第一生成模块530,具体用于:
通过第二卷积神经网络对表格区域进行特征提取以生成第三卷积特征;
根据第三卷积特征生成表格关键点特征图;
根据所述表格关键点特征图,获取所述表格关键点的输出矩。
在本申请实施例一种可能的实现方式中,上述提取模块540,具体用于:
通过第三卷积神经网络对表格区域进行特征提取以生成第四卷积特征;
对第四卷积特征进行编码以生成编码特征;
对编码特征进行解码以生成表格的结构信息。
需要说明的是,上述对表格的提取方法实施例的解释说明,也适用于该实施例的表格的提取装置,故在此不再赘述。
本申请实施例的表格的提取装置,通过获取待检测图片,对待检测图片进行识别以获取待检测图片中表格所在的表格区域,对表格区域进行识别以提取表格关键点并生成表格关键点的输出矩阵,对表格区域进行识别以提取表格的结构信息,以及根据表格关键点的输出矩阵和表格的结构信息生成表格。由此,通过对待检测图片进行识别得到表格区域,分别对表格区域进行识别,得到表格关键点的输出矩阵和表格的结构信息,再根据表格关键点的输出矩阵和表格的结构信息自动生成表格,无需人工录入表格信息,对扫描、拍照的要求也不高,从而提取表格的成本较低,适用范围广,并且引入了表格关键点检测,以辅助表格的结构信息对表格进行精确的重建,提高了生成的表格的准确性。
为了实现上述实施例,本申请实施例还提出一种计算机设备,包括处理器和存储器;
其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的表格的提取方法或语言模型的预测方法。
图11示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图11显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图11所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图11未显示,通常称为“硬盘驱动器”)。尽管图11中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的表格的提取方法。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种表格的提取方法,其特征在于,包括:
获取待检测图片;
对所述待检测图片进行识别以获取所述待检测图片中表格所在的表格区域;
对所述表格区域进行识别以提取表格关键点并生成所述表格关键点的输出矩阵,所述表格关键点在所述表格区域中的位置与其在所述输出矩阵的位置相对应;
对所述表格区域进行识别以提取所述表格的结构信息;以及
根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格;所述表格的结构信息用于描述所述表格的结构,所述表格的结构信息包括:表头、表格中每行单元格数目、每列单元格数目;
所述表格关键点为所述表格中线的交点,其中,所述对所述表格区域进行识别以提取表格关键点并生成所述表格关键点的输出矩阵,包括:
通过第二卷积神经网络对所述表格区域进行特征提取以生成第三卷积特征;
根据所述第三卷积特征生成表格关键点特征图;
根据所述表格关键点特征图,获取所述表格关键点的输出矩阵;
其中,所述根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格,包括:根据所述表格的结构信息确定所述表格中包含的单元格的位置,并根据所述表格关键点的输出矩阵确定各单元格的大小。
2.如权利要求1所述的表格的提取方法,其特征在于,所述对所述待检测图片进行识别以获取所述待检测图片中表格所在的表格区域,包括:
通过第一卷积神经网络对所述待检测图片进行特征提取以生成第一卷积特征;
对所述第一卷积特征进行背景抑制以生成第二卷积特征;
根据所述第二卷积特征获取所述表格的表格位置,根据所述表格位置获取所述表格区域。
3.如权利要求2所述的表格的提取方法,其特征在于,还包括:
根据所述第二卷积特征获取所述表格的表格角度;
根据所述表格角度对所述表格区域进行校正。
4.如权利要求1所述的表格的提取方法,其特征在于,所述对所述表格区域进行识别以提取所述表格的结构信息,包括:
通过第三卷积神经网络对所述表格区域进行特征提取以生成第四卷积特征;
对所述第四卷积特征进行编码以生成编码特征;
对所述编码特征进行解码以生成所述表格的结构信息。
5.一种表格的提取装置,其特征在于,包括:
第一获取模块,用于获取待检测图片;
第二获取模块,用于对所述待检测图片进行识别以获取所述待检测图片中表格所在的表格区域;
第一生成模块,用于对所述表格区域进行识别以提取表格关键点并生成所述表格关键点的输出矩阵,所述表格关键点在所述表格区域中的位置与其在所述输出矩阵的位置相对应;
提取模块,用于对所述表格区域进行识别以提取所述表格的结构信息;以及
第二生成模块,用于根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格;
所述表格的结构信息用于描述所述表格的结构,所述表格的结构信息包括:表头、表格中每行单元格数目、每列单元格数目;
所述表格关键点为所述表格中线的交点,所述第一生成模块,具体用于:
通过第二卷积神经网络对所述表格区域进行特征提取以生成第三卷积特征;
根据所述第三卷积特征生成表格关键点特征图;
根据所述表格关键点特征图,获取所述表格关键点的输出矩阵;
其中,所述根据所述表格关键点的输出矩阵和所述表格的结构信息生成表格:根据所述表格的结构信息确定所述表格中包含的单元格的位置,并根据所述表格关键点的输出矩阵确定各单元格的大小。
6.如权利要求5所述的表格的提取装置,其特征在于,所述第二获取模块,包括:
第一生成单元,用于通过第一卷积神经网络对所述待检测图片进行特征提取以生成第一卷积特征;
第二生成单元,用于对所述第一卷积特征进行背景抑制以生成第二卷积特征;
第一获取单元,用于根据所述第二卷积特征获取所述表格的表格位置,根据所述表格位置获取所述表格区域。
7.如权利要求6所述的表格的提取装置,其特征在于,所述第二获取模块,还包括:
第二获取单元,用于根据所述第二卷积特征获取所述表格的表格角度;
校正单元,用于根据所述表格角度对所述表格区域进行校正。
8.如权利要求5所述的表格的提取装置,其特征在于,所述提取模块,具体用于:
通过第三卷积神经网络对所述表格区域进行特征提取以生成第四卷积特征;
对所述第四卷积特征进行编码以生成编码特征;
对所述编码特征进行解码以生成所述表格的结构信息。
9.一种计算机设备,其特征在于,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一所述的表格的提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的表格的提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539220.4A CN110287854B (zh) | 2019-06-20 | 2019-06-20 | 表格的提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910539220.4A CN110287854B (zh) | 2019-06-20 | 2019-06-20 | 表格的提取方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110287854A CN110287854A (zh) | 2019-09-27 |
CN110287854B true CN110287854B (zh) | 2022-06-10 |
Family
ID=68005074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910539220.4A Active CN110287854B (zh) | 2019-06-20 | 2019-06-20 | 表格的提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110287854B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733573B (zh) * | 2019-10-14 | 2024-04-19 | 顺丰科技有限公司 | 表格检测方法、装置、移动终端及存储介质 |
CN113343740B (zh) * | 2020-03-02 | 2022-05-06 | 阿里巴巴集团控股有限公司 | 表格检测方法、装置、设备和存储介质 |
CN111507265B (zh) * | 2020-04-17 | 2023-07-25 | 北京百度网讯科技有限公司 | 表格关键点检测模型训练方法、装置、设备以及存储介质 |
CN111582153B (zh) * | 2020-05-07 | 2023-06-30 | 北京百度网讯科技有限公司 | 确定文档朝向的方法和装置 |
CN111695517B (zh) * | 2020-06-12 | 2023-08-18 | 北京百度网讯科技有限公司 | 图像的表格提取方法、装置、电子设备及存储介质 |
CN112560820B (zh) * | 2021-02-22 | 2021-06-01 | 金陵科技学院 | 表格检测方法和装置 |
CN113435257B (zh) * | 2021-06-04 | 2023-10-27 | 北京百度网讯科技有限公司 | 表格图像的识别方法、装置、设备和存储介质 |
CN113627350B (zh) * | 2021-08-12 | 2022-08-02 | 北京百度网讯科技有限公司 | 一种表格检测方法、装置、设备以及存储介质 |
CN113705430B (zh) * | 2021-08-26 | 2024-07-12 | 平安科技(深圳)有限公司 | 基于检测模型的表格检测方法、装置、设备及存储介质 |
CN114495140B (zh) * | 2022-04-14 | 2022-07-12 | 安徽数智建造研究院有限公司 | 表格的信息提取方法、系统、设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574215A (zh) * | 2016-03-04 | 2016-05-11 | 哈尔滨工业大学深圳研究生院 | 一种基于多层特征表示的实例级图像搜索方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109063619A (zh) * | 2018-07-25 | 2018-12-21 | 东北大学 | 一种基于自适应背景抑制滤波器和组合方向梯度直方图的交通信号灯检测方法和系统 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6976733B2 (ja) * | 2017-06-14 | 2021-12-08 | キヤノン株式会社 | 画像処理装置、画像処理方法、およびプログラム |
CN109522816B (zh) * | 2018-10-26 | 2021-07-02 | 北京慧流科技有限公司 | 表格识别方法及装置、计算机存储介质 |
CN109840519B (zh) * | 2019-01-25 | 2023-05-05 | 青岛盈智科技有限公司 | 一种自适应的智能单据识别录入装置及其使用方法 |
-
2019
- 2019-06-20 CN CN201910539220.4A patent/CN110287854B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105574215A (zh) * | 2016-03-04 | 2016-05-11 | 哈尔滨工业大学深圳研究生院 | 一种基于多层特征表示的实例级图像搜索方法 |
CN108416279A (zh) * | 2018-02-26 | 2018-08-17 | 阿博茨德(北京)科技有限公司 | 文档图像中的表格解析方法及装置 |
CN108491788A (zh) * | 2018-03-20 | 2018-09-04 | 上海眼控科技股份有限公司 | 一种用于财务报表单元格的智能提取方法及装置 |
CN108446264A (zh) * | 2018-03-26 | 2018-08-24 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
CN108734089A (zh) * | 2018-04-02 | 2018-11-02 | 腾讯科技(深圳)有限公司 | 识别图片文件中表格内容的方法、装置、设备及存储介质 |
CN109063619A (zh) * | 2018-07-25 | 2018-12-21 | 东北大学 | 一种基于自适应背景抑制滤波器和组合方向梯度直方图的交通信号灯检测方法和系统 |
CN109726643A (zh) * | 2018-12-13 | 2019-05-07 | 北京金山数字娱乐科技有限公司 | 图像中表格信息的识别方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的手写表格识别系统研究与实现;李若月等;《软件导刊》;20190515;第18卷(第5期);第19-20页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110287854A (zh) | 2019-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287854B (zh) | 表格的提取方法、装置、计算机设备和存储介质 | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
CN110827247B (zh) | 一种识别标签的方法及设备 | |
US7942341B2 (en) | Two dimensional dot code, and decoding apparatus and method for a two dimensional dot code | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN110598686A (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN107273883B (zh) | 决策树模型训练方法、确定ocr结果中数据属性方法及装置 | |
WO2013166995A1 (zh) | 一种矩阵式二维码的解码方法 | |
CN112149663A (zh) | 结合rpa和ai的图像文字的提取方法、装置及电子设备 | |
US11651604B2 (en) | Word recognition method, apparatus and storage medium | |
CN110879972B (zh) | 一种人脸检测方法及装置 | |
CN114663897A (zh) | 表格提取方法与表格提取系统 | |
CN110874591A (zh) | 一种图像定位方法、装置、设备及存储介质 | |
CN111753812A (zh) | 文本识别方法及设备 | |
JP4672692B2 (ja) | 単語認識システムおよび単語認識プログラム | |
CN112308048A (zh) | 基于少量标注数据的病历完整性判别的方法、装置及系统 | |
KR20200036353A (ko) | 3차원 자세 추정 장치 및 3차원 자세 추정 방법 | |
CN112991410A (zh) | 一种文本图像配准方法、电子设备及其存储介质 | |
CN112733855A (zh) | 表格结构化方法、表格恢复设备及具有存储功能的装置 | |
KR20110087620A (ko) | 레이아웃 기반의 인쇄매체 페이지 인식방법 | |
CN111476090A (zh) | 水印识别方法和装置 | |
US8649055B2 (en) | Image processing apparatus and computer readable medium | |
CN115984838A (zh) | Poi名称的生成方法、装置、电子设备和存储介质 | |
CN110516641B (zh) | 一种环境地图的构建方法及相关装置 | |
CN114387315A (zh) | 图像处理模型训练、图像处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |