CN112528703A - 一种识别表格结构的方法、装置及电子设备 - Google Patents
一种识别表格结构的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112528703A CN112528703A CN201910876083.3A CN201910876083A CN112528703A CN 112528703 A CN112528703 A CN 112528703A CN 201910876083 A CN201910876083 A CN 201910876083A CN 112528703 A CN112528703 A CN 112528703A
- Authority
- CN
- China
- Prior art keywords
- row
- line
- cell
- identified
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims description 65
- 238000010801 machine learning Methods 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 26
- 238000004891 communication Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 6
- 210000001072 colon Anatomy 0.000 claims description 6
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/457—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种识别表格结构的方法、装置及电子设备,该方法包括:获取该待识别区域中各单元格的单元格内容;基于该待识别区域中各单元格的单元格内容,生成该待识别区域中各单元格的特征信息,根据该待识别区域的每行单元格的特征信息,计算该待识别区域的每相邻两行的相似度;将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格,生成该相似行表格的各行的属性特征;基于该相似行表格的每行的属性特征,确定该相似行表格的各行的结构信息;基于该相似行表格的各行的结构信息,确定该待识别表格的结构信息,采用本发明实施例所述的技术方案,可以对电子表格的表格结构进行自动识别。
Description
技术领域
本发明涉及计算机技术领域中的电子文档技术领域,特别是涉及一种识别表格结构的方法、装置及电子设备。
背景技术
电子表格由多个行组成,根据每一行的表格内容可以将行分为不同的类别,如:行标题、表格内容以及其他,将每一行的类别作为该行的结构信息,该表格中的所有行的结构信息,可以作为该表格的结构信息,基于表格的结构信息,有利于生成该表格的数据分析。
目前,识别表格结构的方法主要有两种:一种是将待识别表格的结构信息默认为指定的结构信息,具体的,将待识别表格的第一行默认为行标题,其他行默认为表格内容;另一种是人工识别表格结构。
但是,在实际使用时,第一种识别方法很难准确的识别表格的结构,第二种识别方法需要基于用户的人工判断,不能自动识别表格的结构,使得用户的体验较差。
发明内容
本发明实施例的目的在于提供一种识别表格结构的方法、装置及电子设备,以实现对电子表格的表格结构进行自动识别。具体技术方案如下:
本发明实施例提供了一种识别表格结构的方法,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
生成所述相似行表格的各行的属性特征;
基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
进一步的,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述生成所述相似行表格的各行的属性特征,包括:
根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
进一步的,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
进一步的,所述根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;
基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
进一步的,所述基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息,包括:
针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;
如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;
如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
进一步的,所述基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息,包括:
针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;
如果所述第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;
如果第一机器学习识别模型识别该行的结构不是行标题,则所述行的结构为其他。
本发明实施例还提供了一种识别表格结构的装置,包括:
获取模块,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
第一生成模块,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
计算模块,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
合并模块,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
第二生成模块,用于生成所述相似行表格的各行的属性特征;
第一确定模块,用于基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
第二确定模块,用于基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
进一步的,所述计算模块,包括:
确定子模块,用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
计算子模块,用于根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述第二生成模块,具体用于根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
进一步的,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
进一步的,所述计算子模块,具体用于基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;以及基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
进一步的,所述第一确定模块,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
进一步的,所述第一确定模块,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果第一机器学习识别模型识别该行的结构不是行标题,则所述行的结构为其他。
本发明实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的识别表格结构的方法步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的识别表格结构的方法步骤。
本发明实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的识别表格结构的方法。
本发明实施例有益效果:
本发明实施例提供的一种识别表格结构的方法,可以针对待识别表格中的待识别区域,获取待识别区域中各单元格的单元格内容;基于待识别区域中所述各单元格的单元格内容,生成待识别区域中各单元格的特征信息;根据待识别区域的每行单元格的特征信息,计算待识别区域的每相邻两行的相似度;基于待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到待识别表格的相似行表格;生成该相似行表格的各行的属性特征;基于该相似行表格的每行的属性特征,生成该相似行表格的各行的结构信息;基于该相似行表格的各行的结构信息,确定待识别表格的结构信息。采用本申请实施例所提供的技术方案,可以对电子表格的表格结构进行自动识别,提高了用户体验。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种识别表格结构的方法的流程图;
图2为本发明实施例提供的一种识别表格结构的方法的流程图;
图3为本发明实施例提供的一种识别表格结构的装置的结构示意图;
图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种识别表格结构的方法,如图1所示,具体可以包括如下步骤:
步骤101、针对待识别表格中的待识别区域,获取该待识别区域中各单元格的单元格内容。
步骤102、基于该待识别区域中各单元格的单元格内容,生成该待识别区域中各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型。
步骤103、根据该待识别区域的每行单元格的特征信息,计算该待识别区域的每相邻两行的相似度。
步骤104、基于该待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格,该相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容。
步骤105、生成该相似行表格的各行的属性特征。
步骤106、基于该相似行表格的每行的属性特征,确定该相似行表格的各行的结构信息。
步骤107、基于该相似行表格的各行的结构信息,确定该待识别表格的结构信息,该待识别表格中各行的结构信息,为该行在该相似行表格中所属的合并行的结构信息。
采用本申请实施例所提供的上述识别表格结构的方法,通过相似行表格的每行的属性特征,可以得知相似行表格的各行的结构信息,基于此,可以确定待识别表格的结构信息,实现了对电子表格的表格结构进行自动识别,提高了用户体验。
下面对本发明实施例提供的识别表格结构的方法进行详细说明:
本本发明实施例还提供了一种识别表格结构的方法,参见图2,可以包括如下步骤:
步骤201、针对待识别表格中的待识别区域,获取该待识别区域中各单元格的单元格内容。
本步骤中,上述的待识别区域可以为待识别表格的全部区域,也就是说,该待识别区域中各单元格的单元格内容,就是该待识别表格中的各单元格的单元格内容。
步骤202、基于该待识别区域中各单元格的单元格内容,生成该待识别区域中各单元格的特征信息。
其中,一个单元格的特征信息表示该单元格的单元格内容所属的类型;具体的,可以将待识别区域中各单元格的单元格内容分为中文、英文、数字、日期、时间、空白等类型,作为待识别区域中各单元格的特征信息。
步骤203、判断该待识别区域是否包含合并单元格,如果是,则进入步骤204;如果不是,则直接进入步骤205。
本步骤中,合并单元格为合并至少两个最小单元格所得到的单元格,最小单元格为无法拆分的单元格,本领以技术人员可以理解的是,待识别区域中的各单元格要么为合并单元格,要么为最小单元格。
具体的,如果该待识别区域包含合并单元格,则进入步骤204;如果该待识别区域不包含合并单元格,则直接进入步骤205。
步骤204、将合并单元格的特征信息和单元格内容,确定为组成该合并单元格的各最小单元格的特征信息和单元格内容。
本步骤中,将合并单元格的特征信息和单元格内容,确定为组成该合并单元格的各最小单元格的特征信息和单元格内容,可以使得每一行的各最小单元格的特征信息的数量相等,有利于计算每相邻两行的相似度,也可以使得每一行的各最小单元格的单元格内容单元格内容的数量相等。
步骤205、根据该待识别区域的每行最小单元格的特征信息,计算该待识别区域的每相邻两行的相似度。
本领域技术人员可以理解的是,如果待识别区域中不包含合并单元格,就是说,待识别区域只包括最小单元格,那么该待识别区域中的每一行的各最小单元格的特征信息的数量相等,可以根据每行各最小单元格的特征信息,得到待识别区域的每行单元格的特征向量。
如果待识别区域中包含合并单元格,可以获取步骤204的执行结果,得到该待识别区域中的每一行的各最小单元格的特征信息,可以根据每行各最小单元格的特征信息,得到该待识别区域的每行单元格的特征向量。
具体的,可以根据每行各最小单元格的特征信息,得到待识别区域的每行单元格的特征向量,然后计算每相邻两行的特征向量的距离,作为每相邻两行的相似度,如果相邻两行的特征向量的距离越大,则每相邻两行的相似度越小,相邻两行的特征向量的距离越小,则每相邻两行的相似度越大;当然也可以通过其他方式,计算每相邻两行的相似度,本申请在此不做限制。
上述的距离可以为欧几里得距离,也可以为其他距离,本申请实施例在此不做限制。
在一个实施例中,可以通过以下方式,生成该行单元格的特征向量:
基于该待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成该待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;
示例性的,特征信息与预设数值之间的对应关系可以如下表所示:
特征信息 | 预设数值 |
中文 | 1 |
英文 | 2 |
数字 | 3 |
日期 | 4 |
时间 | 5 |
空白 | 0 |
假设待识别区域的第一行各最小单元格的特征信息,按照从左到右的顺序为数字、日期、中文、空白,该待识别区域的第一行的特征向量为(3,4,1,0)。
基于该待识别区域的每行的特征向量,计算该待识别区域的相邻两行的相似度。
步骤206、基于该待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到该待识别表格的相似行表格。
本步骤中,第一预设相似度阈值的大小可以根据实际情况,进行设置。
具体的,该待识别区域中的多行合并,得到的该相似行表格的某一行,作为该相似行表格的合并行,那么该合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容。当然,如果该待识别区域中的一行,没有经过合并就得到该相似行表格的某一行,那么该相似行表格的该行的各单元格的单元格内容,为待识别区域中的该行的各单元格的单元格内容。
示例性的,本发明实施例的第一预设相似度阈值为0.9,待识别区域中的第一行与第二行的相似度为0.95;第二行与第三行的相似度为0.93,第三行与第四行的相似度为0.2,则将第一行、第二行和第三行合并为一行,将合并后的表格作为该待识别表格的相似行表格,其中,第一行、第二行和第三行合并得到的行作为该相似行表格的第一行,将待识别区域中的第一行、第二行以及第三行的各单元格的单元格内容,作为该相似行表格的第一行的各单元格的单元格内容,待识别区域中的第四行为该相似行表格的第二行,将待识别区域中的第四行的各单元格的单元格内容,作为该相似行表格的第二行的各单元格的单元格内容。
在一个实施例中,该相似行表格中的各合并行中的各单元格的单元格内容,指的是该合并行中的各最小单元格的单元格内容,如果该待识别区域包含合并单元格,可以直接获取步骤204的执行结果,将为该合并行所合并的全部待识别表格的行中的各最小单元格的单元格内容,作为该合并行中的各单元格的单元格内容。
如果该待识别区域包不含合并单元格,那么该待识别区域待识别区域只包括最小单元格,也可以将该合并行所合并的全部待识别表格的行中的各最小单元格的单元格内容,作为该合并行中的各最小单元格的单元格内容。
在另一个实施例中,该相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容,其中,该单元格包括合并单元格和最小单元格;然后可以根据将个合并行中的各合并单元格的单元格内容,确定为组成该合并单元格的各最小单元格的单元格内容,也可以得到该合并行中的各最小单元格的单元格内容;本申请实施例在此不做限制。
步骤207、生成该相似行表格的各行的属性特征。
具体的,根据该相似行表格的各最小单元格的特征信息以及单元格内容,生成该相似行表格的各行的属性特征;其中,每行的属性特征用于反映该行的内容信息的特征。
在一个实施例中,该相似行表格中的各合并行中的各最小单元格的特征信息,可以为该合并行所合并的全部待识别表格的行中的各最小单元格的特征信息;当然,如果该待识别区域中的一行,没有经过合并就得到该相似行表格的某一行,那么该相似行表格的该行的各最小单元格的特征信息,为待识别区域中的该行的各最小单元格的特征信息。
示例性的,本发明实施例的第一预设相似度阈值为0.9,待识别区域中的第一行与第二行的相似度为0.95;第二行与第三行的相似度为0.93,第三行与第四行的相似度为0.2,则将第一行、第二行和第三行合并为一行,将合并后的表格作为该待识别表格的相似行表格,其中,第一行、第二行和第三行合并得到的行作为该相似行表格的第一行,将待识别区域中的第一行、第二行以及第三行的各单元格的特征信息作为该相似行表格的第一行的各单元格的特征信息,待识别区域中第四行作为该相似行表格的第二行,将待识别区域中的第四行的各单元格的特征信息作为该相似行表格的第二行的各单元格的特征信息。
在另一个实施例中,可以基于该相似行表格中的各合并行中的各最小单元格的单元格内容,生成该行中的各最小单元格的特征信息,其中,该相似行表格中的各合并行中的各最小单元格的单元格内容可以从步骤206的执行结果中直接获取。
进一步的,每行的属性特征可以包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值,其中,该最小单元格包括该相似行表格中的最小单元格以及该相似行表格中的合并单元格所合并的最小单元格。
在计算该行中的合并单元格的数量与该行的最小单元格的数量的比值时,本领域技术人员可以理解的是,假如该行为合并行,具有两个待识别表格的行,第一行具有1个合并单元格和4个最小单元格,其中,该合并单元格为合并2个最小单元格得到的,那么第一行总共具有6个最小单元格,第二行具有2个合并单元格和2个最小单元格,其中,这两个合并单元格均为合并2个最小单元格得到的,那么第二行总共也具有6个最小单元格,那么该合并行总共具有3个合并单元格以及12个最小单元格,因此,该比值为3/12。
在计算该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值时,本领域技术人员可以理解的是,假设该行中总共具有5个最小单元格,该行中的各最小单元格的特征信息按照从左到右的顺序为数字,数字,中文,英文以及日期,距离该行最近的合并行中具有两个待识别表格的行,其中,第一行各最小单元格的特征信息按照从左到右的顺序为数字,数字,英文,英文以及日期,第二行各最小单元格的特征信息按照从左到右的顺序为数字,数字,英文,英文以及日期,只有该行中的第三个单元格的特征信息与合并行中的对应的单元格的特征信息不同,因此该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值为1/5。
进一步的,每行的属性特征还可以包括:该行中的特征信息不包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值;在一种实施方式中,可以根据该相似行表格的各最小单元格的单元格内容获取,也可以根据该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值计算得到。
示例性的,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值为A,该行中的特征信息不包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值为1-A。
进一步的,每行的属性特征还可以包括:该行中的内容的字号与距离该行最近的合并行中的内容的字号的差值;在一种实施方式中,该行中的内容的字号为待识别表格中对应的行中的内容的字号,合并行中的内容的字号为待识别表格中对应的行中的内容的字号,基于此,可以得到该行中的内容的字号与距离该行最近的合并行中的内容的字号的差值。
本领域技术人员可以理解的是,待识别表格中的第一行没有经过合并就得到相似行表格中的第一行,则相似行表格中的第一行的内容的字号为待识别表格中的第一行的内容的字号;待识别表格中的第二行及第三行经过合并就得到相似行表格中的第二行,则相似行表格中的第二行的内容的字号为待识别表格中的第二行及第三行中的内容的字号。
步骤208、基于该相似行表格的每行的属性特征,确定该相似行表格的各行的结构信息。
在一个实施方式中,可以针对该相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,第一机器学习识别模型基于第一训练样本进行训练得到的,第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行。
如果第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,第二机器学习识别模型基于第二训练样本进行训练得到的,第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行。
如果第二机器学习识别模型识别该行的结构不是表格内容,则该行的结构为其他。
在另一个实施方式中,可以针对该相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果。
如果第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果。
如果第一机器学习识别模型识别该行的结构不是行标题,则该行的结构为其他。
其中,第一机器学习识别模型和第二机器学习识别模型的训练过程均为现有技术,本申请实施例在此不做详述。
步骤209、基于该相似行表格的各行的结构信息,确定该待识别表格的结构信息。
本步骤中,待识别表格中各行的结构信息,为该行在相似行表格中所属的合并行的结构信息。
示例性的,相似行表格的第二行的结构为表格内容,相似行表格的第一行为合并待识别表格中的第一行和第二行得到的,那么待识别表格中的第一行和第二行的结构也均为表格内容。
相应于本发明实施例提供的上述识别表格结构的方法,本发明实施例还提供了一种识别表格结构的装置,如图3所示,图3为本发明实施例提供的一种识别表格结构的装置的结构示意图,具体包括:
获取模块301,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
第一生成模块302,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
计算模块303,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
合并模块304,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
第二生成模块305,用于生成所述相似行表格的各行的属性特征;
第一确定模块306,用于基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
第二确定模块307,用于基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
进一步的,所述计算模块303,包括:
确定子模块,用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
计算子模块,用于根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述第二生成模块,具体用于根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
进一步的,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
进一步的,所述计算子模块,具体用于基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;以及基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
进一步的,所述第一确定模块306,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
进一步的,所述第一确定模块306,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果第一机器学习识别模型识别该行的结构不是行标题,则所述行的结构为其他。
本发明实施例还提供了一种电子设备,如图4所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现上述任一所述的识别表格结构的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的识别表格结构的方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的识别表格结构的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (14)
1.一种识别表格结构的方法,其特征在于,包括:
针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
生成所述相似行表格的各行的属性特征;
基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述生成所述相似行表格的各行的属性特征,包括:
根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
3.根据权利要求2所述的方法,其特征在于,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
4.根据权利要求2所述的方法,其特征在于,所述根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度,包括:
基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;
基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息,包括:
针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;
如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;
如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
6.根据权利要求1所述的方法,其特征在于,所述基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息,包括:
针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;
如果所述第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;
如果第一机器学习识别模型识别该行的结构不是行标题,则所述行的结构为其他。
7.一种识别表格结构的装置,其特征在于,包括:
获取模块,用于针对待识别表格中的待识别区域,获取所述待识别区域中各单元格的单元格内容;
第一生成模块,用于基于所述待识别区域中所述各单元格的单元格内容,生成所述待识别区域中所述各单元格的特征信息,一个单元格的特征信息表示该单元格的单元格内容所属的类型;
计算模块,用于根据所述待识别区域的每行单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
合并模块,用于基于所述待识别区域的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到所述待识别表格的相似行表格,所述相似行表格中的各合并行中的各单元格的单元格内容,为该合并行所合并的全部待识别表格的行中的各单元格的单元格内容;
第二生成模块,用于生成所述相似行表格的各行的属性特征;
第一确定模块,用于基于所述相似行表格的每行的属性特征,确定所述相似行表格的各行的结构信息;
第二确定模块,用于基于所述相似行表格的各行的结构信息,确定所述待识别表格的结构信息,所述待识别表格中各行的结构信息,为该行在所述相似行表格中所属的合并行的结构信息。
8.根据权利要求7所述的装置,其特征在于,所述计算模块,包括:
确定子模块,用于当所述待识别区域中包含合并单元格时,将所述合并单元格的特征信息和单元格内容,确定为组成所述合并单元格的各最小单元格的特征信息和单元格内容,其中,所述最小单元格为无法拆分的单元格;
计算子模块,用于根据所述待识别区域的每行最小单元格的特征信息,计算所述待识别区域的每相邻两行的相似度;
所述第二生成模块,具体用于根据所述相似行表格的各最小单元格的特征信息以及单元格内容,生成所述相似行表格的各行的属性特征。
9.根据权利要求8所述的装置,其特征在于,每行的属性特征包括:该行中的合并单元格的数量与该行的最小单元格的数量的比值,该行中的各单元格的特征信息的集合,该行中的特征信息包括中文的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的特征信息包括数字的最小单元格的数量与该行的具有内容的最小单元格的数量的比值,该行中的内容具有的冒号的数量,该行中与距离该行最近的合并行中的最小单元格的特征信息不同的最小单元格的数量,与该行的具有内容的最小单元格的数量的比值。
10.根据权利要求8所述的装置,其特征在于,所述计算子模块,具体用于基于所述待识别区域的每行的各最小单元格的特征信息与预设数值之间的对应关系,生成所述待识别区域的每行的特征向量,每行的特征向量包括该行中的各最小单元格的特征信息对应的预设数值;以及基于所述待识别区域的每行的特征向量,计算所述待识别区域的相邻两行的相似度。
11.根据权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第一机器学习模型,得到该行的结构是否为行标题的识别结果,其中,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果所述第一机器学习识别模型识别该行的结构不是行标题,则将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则所述行的结构为其他。
12.根据权利要求7所述的装置,其特征在于,所述第一确定模块,具体用于针对所述相似行表格的每一行,将该行的属性特征,输入预先训练的第二机器学习识别模型,得到该行的结构是否为表格内容的识别结果,其中,所述第二机器学习识别模型基于第二训练样本进行训练得到的,所述第二训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为表格内容的样本行以及结构不为表格内容的样本行;如果所述第二机器学习识别模型识别该行的结构不是表格内容,则将该行的属性特征,输入预先训练的第一机器学习识别模型,得到该行的结构是否为行标题的识别结果,所述第一机器学习识别模型基于第一训练样本进行训练得到的,所述第一训练样本包括多个样本行的属性特征,以及每个样本行的结构信息,该多个样本行包括结构为行标题的样本行以及结构不为行标题的样本行;如果第一机器学习识别模型识别该行的结构不是行标题,则所述行的结构为其他。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876083.3A CN112528703B (zh) | 2019-09-17 | 2019-09-17 | 一种识别表格结构的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910876083.3A CN112528703B (zh) | 2019-09-17 | 2019-09-17 | 一种识别表格结构的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528703A true CN112528703A (zh) | 2021-03-19 |
CN112528703B CN112528703B (zh) | 2023-11-03 |
Family
ID=74974758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910876083.3A Active CN112528703B (zh) | 2019-09-17 | 2019-09-17 | 一种识别表格结构的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528703B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221519A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 用于处理表格数据的方法、装置、设备、介质和产品 |
CN113268982A (zh) * | 2021-06-03 | 2021-08-17 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN114254599A (zh) * | 2021-10-11 | 2022-03-29 | 上海新氦类脑智能科技有限公司 | 表格合并方法、处理芯片以及电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001109843A (ja) * | 1999-10-12 | 2001-04-20 | Oki Electric Ind Co Ltd | 文字認識方法および装置 |
JP2001331764A (ja) * | 2000-03-13 | 2001-11-30 | Fujitsu Ltd | 文字認識方法 |
US20090313205A1 (en) * | 2008-06-03 | 2009-12-17 | Justsystems Corporation | Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program |
CN109213978A (zh) * | 2017-07-03 | 2019-01-15 | 珠海金山办公软件有限公司 | 一种合并单元格的方法、装置、电子设备及可读存储介质 |
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
-
2019
- 2019-09-17 CN CN201910876083.3A patent/CN112528703B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001109843A (ja) * | 1999-10-12 | 2001-04-20 | Oki Electric Ind Co Ltd | 文字認識方法および装置 |
JP2001331764A (ja) * | 2000-03-13 | 2001-11-30 | Fujitsu Ltd | 文字認識方法 |
US20090313205A1 (en) * | 2008-06-03 | 2009-12-17 | Justsystems Corporation | Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program |
CN109213978A (zh) * | 2017-07-03 | 2019-01-15 | 珠海金山办公软件有限公司 | 一种合并单元格的方法、装置、电子设备及可读存储介质 |
CN109948507A (zh) * | 2019-03-14 | 2019-06-28 | 北京百度网讯科技有限公司 | 用于检测表格的方法和装置 |
CN109993112A (zh) * | 2019-03-29 | 2019-07-09 | 杭州睿琪软件有限公司 | 一种图片中表格的识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
范莉娅 等: "自动获取HTML表格语义层次结构方法", 《清华大学学报(自然科学版)》, vol. 47, no. 10, pages 1586 - 1590 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221519A (zh) * | 2021-05-18 | 2021-08-06 | 北京百度网讯科技有限公司 | 用于处理表格数据的方法、装置、设备、介质和产品 |
CN113221519B (zh) * | 2021-05-18 | 2024-03-29 | 北京百度网讯科技有限公司 | 用于处理表格数据的方法、装置、设备、介质和产品 |
CN113268982A (zh) * | 2021-06-03 | 2021-08-17 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN113268982B (zh) * | 2021-06-03 | 2024-05-28 | 湖南四方天箭信息科技有限公司 | 一种网络表格结构的识别方法及装置、计算机装置及计算机可读取存储介质 |
CN114254599A (zh) * | 2021-10-11 | 2022-03-29 | 上海新氦类脑智能科技有限公司 | 表格合并方法、处理芯片以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112528703B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11017178B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN112163424B (zh) | 数据的标注方法、装置、设备和介质 | |
CN110263311B (zh) | 一种网络页面的生成方法及设备 | |
CN106919551B (zh) | 一种情感词极性的分析方法、装置及设备 | |
CN112528703A (zh) | 一种识别表格结构的方法、装置及电子设备 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN112667805B (zh) | 一种工单类别确定方法、装置、设备及介质 | |
CN110362798B (zh) | 裁决信息检索分析方法、装置、计算机设备和存储介质 | |
CN110276009B (zh) | 一种联想词的推荐方法、装置、电子设备及存储介质 | |
CN113204953A (zh) | 基于语义识别的文本匹配方法、设备及设备可读存储介质 | |
CN111125658A (zh) | 识别欺诈用户的方法、装置、服务器和存储介质 | |
CN112199500B (zh) | 针对评论的情感倾向识别方法、装置及电子设备 | |
CN108804550B (zh) | 一种查询词拓展方法、装置以及电子设备 | |
CN111737543A (zh) | 一种问答对的提取方法、装置、设备和存储介质 | |
CN112560545B (zh) | 一种识别表格方向的方法、装置及电子设备 | |
CN113656575B (zh) | 训练数据的生成方法、装置、电子设备及可读介质 | |
CN112163415A (zh) | 针对反馈内容的用户意图识别方法、装置及电子设备 | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
CN110895924B (zh) | 一种文档内容朗读方法、装置、电子设备及可读存储介质 | |
CN115470356A (zh) | 一种知识图谱构建方法、装置及电子设备 | |
CN113392184A (zh) | 一种相似文本的确定方法、装置、终端设备及存储介质 | |
CN112883232B (zh) | 一种资源搜索方法、装置及设备 | |
CN111191095A (zh) | 网页数据获取方法、装置、设备及介质 | |
CN118261120B (zh) | 数据生成方法、装置、电子设备及存储介质 | |
CN114579762B (zh) | 知识图谱对齐方法、装置、设备、存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |