CN110633660B - 一种文档识别的方法、设备和存储介质 - Google Patents

一种文档识别的方法、设备和存储介质 Download PDF

Info

Publication number
CN110633660B
CN110633660B CN201910818333.8A CN201910818333A CN110633660B CN 110633660 B CN110633660 B CN 110633660B CN 201910818333 A CN201910818333 A CN 201910818333A CN 110633660 B CN110633660 B CN 110633660B
Authority
CN
China
Prior art keywords
region
sub
document
determining
intersection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910818333.8A
Other languages
English (en)
Other versions
CN110633660A (zh
Inventor
黄劲
梁泽龙
康阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingsheng Zhichuang Technology Guangzhou Co ltd
Original Assignee
Yingsheng Zhichuang Technology Guangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yingsheng Zhichuang Technology Guangzhou Co ltd filed Critical Yingsheng Zhichuang Technology Guangzhou Co ltd
Priority to CN201910818333.8A priority Critical patent/CN110633660B/zh
Publication of CN110633660A publication Critical patent/CN110633660A/zh
Application granted granted Critical
Publication of CN110633660B publication Critical patent/CN110633660B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种文档识别的方法、设备和存储介质。该方法包括:接收第一文档,第一文档中具有页面;从页面提取具有目标元素的区域,目标元素包括第一表格;检测区域中的交叉点,交叉点为至少两条线段相交的位置;在区域中定位以交叉点组成的子区域,子区域用于表示第一表格中的单元格;识别位于子区域中的字符;生成与第一表格相同的第二表格;将字符写入第二表格中。通过该方法实现了通过单元格重构第一文档中的Excel表格,尤其是异形的Excel表格的有益效果。

Description

一种文档识别的方法、设备和存储介质
技术领域
本发明实施例涉及文字识别技术,尤其涉及一种文档识别的方法、设备和存储介质。
背景技术
根据版式文档的生成过程,文档是数据和结构的集合,具体包括内容数据、物理结构和逻辑结构。文档分析是对文档物理结构进行抽取,而文档理解则是在物理结构和逻辑结构之间建立映射关系。在实际应用中,移动设备的可读性需求使物理和逻辑结构的恢复尤为重要。页面内表格的检测及识别是文档理解的重点之一。表格具有其独立的逻辑功能,需要对其进行物理划分和逻辑标签标定。固定版式文档中的表格对象可能由无数的文本图元和操作构成,也可能整体来自一个图像图元。
表格是文档的重要组成部分,如何准确地识别表格及其表格中的内容,对版式文档的分析尤其重要。现有技术中有一些识别并转换版式文档中表格的方法,如将PDF(Portable Document Format,便携式文档格式)文档中的表格转换成Exce1表格的方法,先识别PDF文档中的表格所含的文本块的边界位置坐标,根据文本块的边界位置坐标来对PDF文档中表格进行行划分和列划分,得到多个划分区域,确定各个文本块所属的划分区域,将划分好区域的文本块写入对应的Excel表格中。
在这样的处理方式中,要达实现较好的识别效果。需要在PDF文档中的Excel表格线条连贯,单元格的大小比较单一。这就导致了不能实现识别PDF中异形的Excel表格的目的。
发明内容
本发明提供一种文档识别的方法、设备和存储介质,以解决不能实现识别PDF中异形的Excel表格的目的的问题。
第一方面,本发明实施例提供了一种文档识别的方法,包括:
接收第一文档,所述第一文档中具有页面;
从所述页面提取具有目标元素的区域,所述目标元素包括第一表格;
检测所述区域中的交叉点,所述交叉点为至少两条线段相交的位置;
在所述区域中定位以所述交叉点组成的子区域,所述子区域用于表示所述第一表格中的单元格;
识别位于所述子区域中的字符;
生成与所述第一表格相同的第二表格;
将所述字符写入所述第二表格中。
在此基础上,所述从所述页面提取具有目标元素的区域,包括:
确定元素识别模型,所述元素识别模型用于识别目标元素;
将所述页面输入所述元素识别模型中,输出具有所述目标元素的区域。
在此基础上,所述目标元素还包括非表格;
所述从所述页面提取具有目标元素的区域,还包括:
判定连续两个所述区域之间是否存在所述非表格;
若是,则确定所述区域有效;
若否,则合并连续两个所述区域,获得新的区域。
在此基础上,所述检测所述区域中的交叉点,包括:
检测所述区域中的横线与竖线;
延伸所述横线;
延伸所述竖线;
确定延伸之后的所述横线与延伸之后的所述竖线相交的位置,作为交叉点。
在此基础上,所述在检测所述区域中的交叉点之前,还包括:
确定所述区域中的第一表格缺少边框;
添加所述第一表格缺少的边框。
在此基础上,所述在所述区域中定位以所述交叉点组成的子区域,包括:
确定在所述横线和所述竖线上至少三个相邻的所述交叉点,作为目标交叉点;
将所述目标交叉点组成的区域,作为子区域。
在此基础上,所述在所述区域中定位以所述交叉点组成的子区域,还包括:
确定相邻的所述子区域在所述区域中是否连通;
若是,则合并相邻的所述子区域,获得新的子区域;
若否,则确定所述子区域有效。
在此基础上,所述确定相邻的所述子区域在所述区域中是否连通,包括:
确定所述子区域中各个交叉点的属性;
若所述属性均为单元格的角点,则确定所述子区域与相邻的子区域不连通;
若所述属性具有至少一个非单元格的角点,则确定所述子区域与相邻的所述子区域连通。
在此基础上,所述目标元素还包括非表格;
所述方法还包括:
确定所述表格与所述非表格在所述第一文档中的位置;
将所述表格与所述非表格按照所述位置写入第二文档中。
第二方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8任一所述的一种文档识别的方法。
第三方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8任一所述的一种文档识别的方法。
本发明通过接收第一文档,第一文档中具有页面;从页面提取具有目标元素的区域,目标元素包括第一表格;检测区域中的交叉点,交叉点为至少两条线段相交的位置;在区域中定位以交叉点组成的子区域,子区域用于表示第一表格中的单元格;识别位于子区域中的字符;生成与第一表格相同的第二表格;将字符写入第二表格中。实现了通过单元格重构第一文档中的Excel表格,尤其是异形的Excel表格的有益效果。
附图说明
图1A为本发明实施例一提供的一种文档识别的方法的流程图;
图1B为本发明实施例一提供的单元格的示意图;
图2A为本发明实施例二提供的一种文档识别的方法的流程图;
图2B为本发明实施例二提供的确定交叉点的示意图;
图3为本发明实施例三提供的文档识别的装置的结构图;
图4为本发明实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1A为本发明实施例一提供的一种文档识别的方法的流程图。本实施例适用于识别不可编辑的文档(如图片、或者PDF格式的文档)中的信息,尤其是用于识别不可编辑的文档中的异形表格及属于所述表格的文字。该方法可以由一种文档识别的装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可配置在具有数据处理能力的电子设备中,例如,手机、平板电脑、可穿戴设备(如智能眼镜、智能手表)等,该电子设备配置有屏幕、中央处理器(CPU)。
参考图1A,该方法具体包括:
S101、接收第一文档。
第一文档中具有页面,页面的数量不加以限定。每个页面可以包括不同的内容,如:文字、图像、表格等。针对页面中的文字、图像、表格可以对页面包括的目标元素进行划分。
在一可行的实现方式中,接收第一文档,将第一文档按照页面进行划分,再对每个页面中的目标元素进行划分。
S102、从所述页面提取具有目标元素的区域。
由于页面的板式不同,包括目标元素的区域会不同。如一页面没有进行分栏,在某几行包括表格或者图片,而其他的位置均为文字时,可以直接通过横线将页面切割为两块或者三块区域。如一个页面分为两栏进行显示时,在左边一栏有一表格,右边一栏包括一图片则需要通过框图的形式对表格和图片进行切割。
在一可行的实现方式中,目标元素包括第一表格,通过识别并对第一表格进行性切割处理,实现从页面中提取具有目标元素的区域的目的。
S103、检测所述区域中的交叉点。
交叉点为至少两条线段相交的位置。两条线段相交说明一个点若要被判定为交叉点,需要包括相互垂直的两条线段。
在一可行的实现方式中,对区域中的横线和竖线进行识别,进而对区域中的交叉点进行检测。当然,也可以通过图像识别技术直接对区域中的交叉点进行检测。
在一可行的实现方式中,在检测区域中的交叉点之前,还包括:确定区域中的第一表格是否为标准化表格,标准化表格是有边框的表格,即表格的四周包括四条线段,以将表格与第一文档中的其他区域区分开。非标准化表格是缺少边框的表格。若第一表格为非标准表格,则添加第一表格缺少的边框,以将其补全为标准化表格。
S104、在所述区域中定位以所述交叉点组成的子区域。
在区域中确定多个交叉点构成的子区域,子区域可以理解为第一表格中的单元格。单元格并不要求格子的大小一致,而是用于表现格子中的内容的连通性。图1B为本发明实施例一提供的单元格的示意图。参考图1B,单元格11与单元格12的大小不一致,但是均为本实施例中的单元格。
在一可行的实现方式中,根据交叉点构建子区域,子区域覆盖了第一表格中的单元格。
S105、识别位于所述子区域中的字符。
当确定作为子区域的单元格后,对单元格中的字符进行识别。
识别字符可以通过光学字符识别(OCR)来进行,该技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。当然,本实施例中对通过何种方式识别位于子区域中的字符不做限制,只要能达到有效识别字符的目的即可。
S106、生成与所述第一表格相同的第二表格。
根据交叉点的信息,构建第二表格。第二表格与第一表格相同,但是第二表格是可编辑的表格。
在一可行的实现方式中,根据交叉点的绝对位置和关联的线段的绝对长度,构建第二表格。构建完第二表格后,根据实际需求的第二表格的大小等,对第二表格进行调整。
S107、将所述字符写入所述第二表格中。
构建完毕第二表格后,将识别获得的字符写入第二表格中,以完成对第一文档中的表格的识别。
在上述实施例的基础上,目标元素还包括非表格。由于文档优先会被切割为页面,因此可能出现第一表格被切割为两个具有目标元素的区域的情况。因此,当一个表格位于页面的底部时,需要判定位于页面的底部的表格与连续的另一个区域之间是否存在非表格。若存在非表格,说明位于页面的底部的表格与连续的页面的区域之间没有关联关系,确定区域有效,即该区域不需要和位于页面的底部的表格进行合并。若不存在非表格,说明位于页面的底部的表格与连续的页面的区域之间有关联关系,则合并连续两个区域(合并两个表格),获得新的区域定区域有效。
本发明实施例通过接收第一文档,第一文档中具有页面;从页面提取具有目标元素的区域,目标元素包括第一表格;检测区域中的交叉点,交叉点为至少两条线段相交的位置;在区域中定位以交叉点组成的子区域,子区域用于表示第一表格中的单元格;识别位于子区域中的字符;生成与第一表格相同的第二表格;将字符写入第二表格中。实现了通过单元格重构第一文档中的Excel表格,尤其是异形的Excel表格的有益效果。
实施例二
图2A为本发明实施例二提供的一种文档识别的方法的流程图。本实施例在实施例一的基础上进行了细化,详细描述了在所述区域中定位以所述交叉点组成的子区域的具体步骤。参考图2A,该方法包括:
S201、接收第一文档。
S202、确定元素识别模型。
元素识别模型是预先训练好的、用于识别目标元素的模型。该模型可以通过深度学习的方式进行构建,也可以通过神经网络的方式进行构建。
在一可行的实现方式中,通过训练样本建ANN分类模型以识别目标元素,并作用于测试样本输出检测结果。首先,针对给定样本对{(xi,yi),xi∈RN,yi={0,1,2,...,100}},xi为训练样本,x为待判决样本,提出一种参数自适应调节的ANN回归模型训练方法,构造神经网络,包括神经网络选取、隐含层数和隐含层节点数选择、输入输出层的节点数确定。神经网络的训练和分类识别。首先,将提取得到的特征作为训练ANN的输入样本X,将表格、文字、图片标记作为ANN的输出Y。(X,Y)共同组成ANN的训练样本对,进行ANN训练。利用训练得到的ANN模型,将提取得到的特征作为训练ANN的输入样本X输入模型,进行识别(即区分表格、文字、图片)。
在一可行的实现方式中,通过训练样本建SVM分类模型识别目标元素,并作用于测试样本输出检测结果。将提取得到的特征作为训练SVM的输入样本X,将表格、文字、图片标记作为SVM的输出Y。(X,Y)共同组成SVM的训练样本对,进行SVM训练。利用训练得到的SVM模型,将提取得到的特征作为训练SVM的输入样本X输入模型,进行识别(即区分表格、文字、图片)
在一可行的实现方式中,通过训练样本建立逻辑回归分类模型以识别目标元素。逻辑回归分类器(LR)的训练和分类识别。首先,将提取得到的特征作为训练LR的输入样本X,将表格、文字、图片标记作为LR的输出Y。(X,Y)共同组成LR的训练样本对,进行LR训练。利用训练得到的LR模型,将提取得到的特征作为训练LR的输入样本X输入模型,进行识别(即区分表格、文字、图片)。
在一可行的实现方式中,通过决策树的方式识别目标元素。分类决策树的核心思想就是在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值,根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止。决策树的生成是一个递归的过程。在决策树的基本算法中,有三种情况会导致递归返回:(1)当前节点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前节点包含的样本集为空,不能划分。通过训练样本建立决策树分类模型,并作用于测试样本输出检测结果。决策树分类器(DM)的训练和分类识别。首先,将提取得到的特征作为训练DM的输入样本X,将表格、文字、图片标记作为LR的输出Y。(X,Y)共同组成DM的训练样本对,进行DM训练。利用训练得到的DM模型,将提取得到的特征作为训练DM的输入样本X输入模型,进行识别(即区分表格、文字、图片)。
当然,还可以通过建立XGBoost分类模型、通过建立AdaBoost分类模型或者通过训练样本建立K近邻分类器(KNN)分类模型来实现识别目标元素的目的。本实施例对此不做具体要求。
S203、将所述页面输入所述元素识别模型中,输出具有所述目标元素的区域。
在一可行的实现方式中,将所述第一文档切割为页面,再将所述页面输入元素识别模型中,以获得目标元素的区域。
在此基础上,还可以获得目标元素的类别,如表格、文字、图像等。
S204、检测所述区域中的横线与竖线。
通过图像识别的方式,可以确定区域中的横线与竖线。
S205、延伸所述横线。
S206、延伸所述竖线。
S207、确定延伸之后的所述横线与延伸之后的所述竖线相交的位置,作为交叉点。
图2B为本发明实施例二提供的确定交叉点的示意图。图2B是将图1B按照步骤S204-S207的方法处理之后获得的存放于内存中的中间表格。区域中包括横线21、横线22和横线23,将其进行延伸,与竖线24和竖线25相交。图2B中的虚线与实线的交叉点即为中间表格与第一表格相比多出的交叉点。
S208、确定在所述横线和所述竖线上至少三个相邻的所述交叉点,作为目标交叉点。
S209、将所述目标交叉点组成的区域,作为子区域。
参考图2B,其中单元格26、单元格27与单元格28为目标交叉点组成的子区域。单元格26包括交叉点261、交叉点262、交叉点263和交叉点264。单元格27包括交叉点263、交叉点264、交叉点271和交叉点272。单元格28包括交叉点264、交叉点272、交叉点281和交叉点282。
在一可行的实现方式中,还需要确定相邻的所述子区域在所述区域中是否连通;若是,则合并相邻的所述子区域,获得新的子区域;若否,则确定所述子区域有效。
在一可行的实现方式中,述确定相邻的子区域在区域中是否连通,包括:确定子区域中各个交叉点的属性;若属性均为单元格的角点,则确定子区域与相邻的子区域不连通;若属性具有至少一个非单元格的角点,则确定子区域与相邻的子区域连通。
具体的,单元格的角点是指具有一定属性的交叉点。一般的,单元格个的角点包括:左上点、左下点、右上点和右下点。当一个交叉点同时关联一根向右的线段和一根向下的线段时,将其作为左上点;当一个交叉点同时关联一根向右的线段和一根向上的线段时,将其作为左下点;当一个交叉点同时关联一根向左的线段和一根向下的线段时,将其作为右上点;当一个交叉点同时关联一根向左的线段和一根向上的线段时,将其作为右下点。当然,同一个交叉点在不同的单元格中,可能代表不同的角点。
参考图2B,单元格26中,包括作为左上点的交叉点261、作为左下点交叉点262、作为右上点交叉点263和作为右下点交叉点264。由于构成单元格26的交叉点的属性均为单元格的角点,因此定子区域与相邻的子区域不连通。
参考图2B,单元格27中,包括作为左上点的交叉点263、交叉点264、作为右上点交叉点271和交叉点264。由于构成单元格27的交叉点的缺少属性为左下点和右下点的单元格的角点,因此定子区域与相邻的子区域连通。则向下与单元格28进行连通,将连通后的单元格27、单元格28作为新的子区域进行判断。
S210、识别位于所述子区域中的字符。
S211、生成与所述第一表格相同的第二表格。
S212、将所述字符写入所述第二表格中。
在上述实施例的基础上,第一文档中还包括非表格的区域。确定表格与非表格在第一文档中的位置;将表格与非表格按照位置写入第二文档中。此时即可以获得可编辑的第二文档。
本发明实施例通过接收第一文档,第一文档中具有页面;从页面提取具有目标元素的区域,目标元素包括第一表格;检测区域中的交叉点,交叉点为至少两条线段相交的位置;在区域中定位以交叉点组成的子区域,子区域用于表示第一表格中的单元格;识别位于子区域中的字符;生成与第一表格相同的第二表格;将字符写入第二表格中。实现了通过单元格重构第一文档中的Excel表格,尤其是异形的Excel表格的有益效果。
实施例三
图3为本发明实施例三提供的文档识别的装置的结构图。该装置包括:第一文档接收模块31、区域提取模块32、交叉点检测模块33、子区域确定模块34、字符识别模块35、第二表格生成模块36和第二表格写入模块37,其中:
第一文档接收模块31,用于接收第一文档,所述第一文档中具有页面;
区域提取模块32,用于从所述页面提取具有目标元素的区域,所述目标元素包括第一表格;
交叉点检测模块33,用于检测所述区域中的交叉点,所述交叉点为至少两条线段相交的位置;
子区域确定模块34,用于在所述区域中定位以所述交叉点组成的子区域,所述子区域用于表示所述第一表格中的单元格;
字符识别模块35,用于识别位于所述子区域中的字符;
第二表格生成模块36,用于生成与所述第一表格相同的第二表格;
第二表格写入模块37,用于将所述字符写入所述第二表格中。
本发明实施例通过接收第一文档,第一文档中具有页面;从页面提取具有目标元素的区域,目标元素包括第一表格;检测区域中的交叉点,交叉点为至少两条线段相交的位置;在区域中定位以交叉点组成的子区域,子区域用于表示第一表格中的单元格;识别位于子区域中的字符;生成与第一表格相同的第二表格;将字符写入第二表格中。实现了通过单元格重构第一文档中的Excel表格,尤其是异形的Excel表格的有益效果。
在上述实施例的基础上,区域提取模块32包括:
元素识别模型确定子模块,用于确定元素识别模型,所述元素识别模型用于识别目标元素;
区域输出子模块,用于将所述页面输入所述元素识别模型中,输出具有所述目标元素的区域。
在上述实施例的基础上,还包括:
连续区域判断模块,用于判定连续两个所述区域之间是否存在所述非表格;
第一判断执行模块,用于确定所述区域有效;
第二判断执行模块,用于合并连续两个所述区域,获得新的区域。
在上述实施例的基础上,交叉点检测模块33包括:
线条检测子模块,用于检测所述区域中的横线与竖线;
横线延伸子模块,用于延伸所述横线;
竖线延伸子模块,用于延伸所述竖线;
交叉点确定子模块,用于确定延伸之后的所述横线与延伸之后的所述竖线相交的位置,作为交叉点。
在上述实施例的基础上,还包括:
边框确定模块,用于确定所述区域中的第一表格缺少边框;
边框添加模块,用于添加所述第一表格缺少的边框。
在上述实施例的基础上,子区域确定模块34包括:
目标交叉点确定子模块,用于确定在所述横线和所述竖线上至少三个相邻的所述交叉点,作为目标交叉点;
子区域确定子模块,用于将所述目标交叉点组成的区域,作为子区域。
在上述实施例的基础上,子区域确定模块34包括:
连通判定子模块,用于确定相邻的所述子区域在所述区域中是否连通;
第一执行子模块,用于则合并相邻的所述子区域,获得新的子区域;
第二执行子模块,用于确定所述子区域有效。
在上述实施例的基础上,连通判定子模块包括:
交叉点属性确定单元,用于确定所述子区域中各个交叉点的属性;
第一执行单元,用于若所述属性均为单元格的角点,则确定所述子区域与相邻的子区域不连通;
第二执行单元,用于若所述属性具有至少一个非单元格的角点,则确定所述子区域与相邻的所述子区域连通。
在上述实施例的基础上,还包括:
位置确定模块,用于确定所述表格与所述非表格在所述第一文档中的位置;
第二文档写入模块,用于将所述表格与所述非表格按照所述位置写入第二文档中。
本实施例提供的一种文档识别装置可用于执行实施例一、实施例二提供的一种文档识别方法,具有相应的功能和有益效果。
实施例四
图4为本发明实施例四提供的一种电子设备的结构示意图。如图4所示,该电子设备包括处理器40、存储器41、通信模块42、输入装置43和输出装置44;电子设备中处理器40的数量可以是一个或多个,图4中以一个处理器40为例;电子设备中的处理器40、存储器41、通信模块42、输入装置43和输出装置44可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器41作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的一种文档识别的方法对应的模块(例如,一种文档识别装置中的第一文档接收模块31、区域提取模块32、交叉点检测模块33、子区域确定模块34、字符识别模块35、第二表格生成模块36和第二表格写入模块37)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述的一种文档识别的方法。
存储器41可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器41可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器41可进一步包括相对于处理器40远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块42,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置43可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。
本实施例提供的一种电子设备,可执行本发明任一实施例提供的文档识别的方法,具体相应的功能和有益效果。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种文档识别的方法,该方法包括:
接收第一文档,所述第一文档中具有页面;
从所述页面提取具有目标元素的区域,所述目标元素包括第一表格;
检测所述区域中的交叉点,所述交叉点为至少两条线段相交的位置;
在所述区域中定位以所述交叉点组成的子区域,所述子区域用于表示所述第一表格中的单元格;
识别位于所述子区域中的字符;
生成与所述第一表格相同的第二表格;
将所述字符写入所述第二表格中。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任一实施例所提供的文档识别的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述文档识别的装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种文档识别的方法,其特征在于,包括:
接收第一文档,所述第一文档中具有页面;
从所述页面提取具有目标元素的区域,所述目标元素包括第一表格;
检测所述区域中的交叉点,所述交叉点为至少两条线段相交的位置;
在所述区域中定位以所述交叉点组成的子区域,所述子区域用于表示所述第一表格中的单元格;
识别位于所述子区域中的字符;
生成与所述第一表格相同的第二表格;
将所述字符写入所述第二表格中;
所述在所述区域中定位以所述交叉点组成的子区域,还包括:
确定相邻的所述子区域在所述区域中是否连通;
若是,则合并相邻的所述子区域,获得新的子区域;
若否,则确定所述子区域有效;
所述确定相邻的所述子区域在所述区域中是否连通,包括:
确定所述子区域中各个交叉点的属性;
若所述属性均为单元格的角点,则确定所述子区域与相邻的子区域不连通;
若所述属性具有至少一个非单元格的角点,则确定所述子区域与相邻的所述子区域连通。
2.根据权利要求1所述的方法,其特征在于,所述从所述页面提取具有目标元素的区域,包括:
确定元素识别模型,所述元素识别模型用于识别目标元素;
将所述页面输入所述元素识别模型中,输出具有所述目标元素的区域。
3.根据权利要求2所述的方法,其特征在于,所述目标元素还包括非表格;
所述从所述页面提取具有目标元素的区域,还包括:
判定连续两个所述区域之间是否存在所述非表格;
若是,则确定所述区域有效;
若否,则合并连续两个所述区域,获得新的区域。
4.根据权利要求1所述的方法,其特征在于,所述检测所述区域中的交叉点,包括:
检测所述区域中的横线与竖线;
延伸所述横线;
延伸所述竖线;
确定延伸之后的所述横线与延伸之后的所述竖线相交的位置,作为交叉点。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述在检测所述区域中的交叉点之前,还包括:
确定所述区域中的第一表格缺少边框;
添加所述第一表格缺少的边框。
6.根据权利要求4所述的方法,其特征在于,所述在所述区域中定位以所述交叉点组成的子区域,包括:
确定在所述横线和所述竖线上至少三个相邻的所述交叉点,作为目标交叉点;
将所述目标交叉点组成的区域,作为子区域。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述目标元素还包括非表格;
所述方法还包括:
确定所述表格与所述非表格在所述第一文档中的位置;
将所述表格与所述非表格按照所述位置写入第二文档中。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的一种文档识别的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的一种文档识别的方法。
CN201910818333.8A 2019-08-30 2019-08-30 一种文档识别的方法、设备和存储介质 Active CN110633660B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910818333.8A CN110633660B (zh) 2019-08-30 2019-08-30 一种文档识别的方法、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910818333.8A CN110633660B (zh) 2019-08-30 2019-08-30 一种文档识别的方法、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110633660A CN110633660A (zh) 2019-12-31
CN110633660B true CN110633660B (zh) 2022-05-31

Family

ID=68969812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910818333.8A Active CN110633660B (zh) 2019-08-30 2019-08-30 一种文档识别的方法、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110633660B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232198A (zh) * 2020-10-15 2021-01-15 北京来也网络科技有限公司 基于rpa及ai的表格内容提取方法、装置、设备及介质
CN112434496B (zh) * 2020-12-11 2021-06-22 深圳司南数据服务有限公司 一种公告文档表格数据识别方法及终端
CN112580500B (zh) * 2020-12-17 2023-07-11 国网山西省电力公司晋城供电公司 一种工程批复文件的信息提取方法、装置及电子设备
CN113343815B (zh) * 2021-05-31 2022-06-07 北森云计算有限公司 一种pdf等版式文档中识别表格的方法
CN114663902B (zh) * 2022-04-02 2023-06-02 北京百度网讯科技有限公司 文档图像处理方法、装置、设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110008923A (zh) * 2019-04-11 2019-07-12 网易有道信息技术(北京)有限公司 图像处理方法和训练方法、以及装置、介质、计算设备
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275820A (ja) * 2004-03-25 2005-10-06 Canon Inc 帳票認識装置、方法、プログラムおよび記憶媒体
JP4825243B2 (ja) * 2008-06-20 2011-11-30 富士通フロンテック株式会社 帳票認識装置、方法、データベース作成装置、方法、及びプログラム
CN110163198B (zh) * 2018-09-27 2022-03-08 腾讯科技(深圳)有限公司 一种表格识别重建方法、装置和存储介质
CN109858325B (zh) * 2018-12-11 2021-07-02 科大讯飞股份有限公司 一种表格检测方法和装置
CN109447007A (zh) * 2018-12-19 2019-03-08 天津瑟威兰斯科技有限公司 一种基于表格节点识别的表格结构补全算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN110163030A (zh) * 2018-02-11 2019-08-23 鼎复数据科技(北京)有限公司 一种基于图像信息的pdf有边框表格抽取方法
CN108416279A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 文档图像中的表格解析方法及装置
CN109657738A (zh) * 2018-10-25 2019-04-19 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110008923A (zh) * 2019-04-11 2019-07-12 网易有道信息技术(北京)有限公司 图像处理方法和训练方法、以及装置、介质、计算设备

Also Published As

Publication number Publication date
CN110633660A (zh) 2019-12-31

Similar Documents

Publication Publication Date Title
CN110633660B (zh) 一种文档识别的方法、设备和存储介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
WO2007022460A2 (en) Post-ocr image segmentation into spatially separated text zones
JP2000194850A (ja) ユ―ザ囲み領域の抽出装置及び抽出方法
CN114419647B (zh) 一种表格信息提取方法及系统
CN112949476B (zh) 基于图卷积神经网络的文本关系检测方法、装置及存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
EP2884425A1 (en) Method and system of extracting structured data from a document
CN113343658B (zh) 一种pdf文件信息抽取方法、装置以及计算机设备
CN114565927A (zh) 表格识别方法、装置、电子设备及存储介质
CN113673528A (zh) 文本处理方法、装置、电子设备和可读存储介质
CN111079709B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
JP2008108114A (ja) 文書処理装置および文書処理方法
Gopakumar et al. Zone-based structural feature extraction for script identification from Indian documents
Padma et al. I DENTIFICATION OF T ELUGU, D EVANAGARI AND E NGLISH S CRIPTS U SING D ISCRIMINATING
CN111476090A (zh) 水印识别方法和装置
JP2000322417A (ja) 画像ファイリング装置及び方法及び記憶媒体
Padma et al. Language identification of Kannada, Hindi and English text words through visual discriminating features
CN115205881A (zh) 一种表格识别方法、设备及介质
CN117151106A (zh) 文档大纲生成方法、装置、电子设备及存储介质
Dahake et al. Optical character recognition for marathi text newsprint
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant