CN111209831A - 一种基于分类算法的文档表格内容识别方法及装置 - Google Patents

一种基于分类算法的文档表格内容识别方法及装置 Download PDF

Info

Publication number
CN111209831A
CN111209831A CN201911411028.3A CN201911411028A CN111209831A CN 111209831 A CN111209831 A CN 111209831A CN 201911411028 A CN201911411028 A CN 201911411028A CN 111209831 A CN111209831 A CN 111209831A
Authority
CN
China
Prior art keywords
document
text
word
classification algorithm
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911411028.3A
Other languages
English (en)
Inventor
李鹏辉
金鑫
邱锡鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Alphainsight Technology Co ltd
Original Assignee
Shanghai Alphainsight Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Alphainsight Technology Co ltd filed Critical Shanghai Alphainsight Technology Co ltd
Priority to CN201911411028.3A priority Critical patent/CN111209831A/zh
Publication of CN111209831A publication Critical patent/CN111209831A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分类算法的文档表格内容识别方法,包含以下步骤:A、对文档进行解析;B、实现文表分离;C、根据表格第一列和表格前的文本对表格进行分类;D、将表格还原并结构化入库。本发明通过利用深度学习技术巧妙地设计相关的分类模型,高效精确地实现文表分离、表名识别、表格还原等模块,最后准确地实现表格内容识别且结构化入库,避免了大量的规则,开发成本小且易于维护。

Description

一种基于分类算法的文档表格内容识别方法及装置
技术领域
本发明涉及文档处理技术领域,具体是一种基于分类算法的文档表格内容识别方法及装置。
背景技术
在对表格的解读过程中,人类有独有的学习和识别方法。想要建立一套自动化识别表格内容的装置是非常困难的,难点在于1、如何有效的判断表格范围,尤其是无表格线的表格;2、一张完整的PDF版式文档表格识别,在文档换页情况下,如何判断换页前后的表格块属于同一张表;3、表格中的具体文本内容及数值所表达的意思。传统的识别方式一般基于大量规则,开发成本大且难以维护,难以达到高准确率和灵活适应。
发明内容
本发明的目的在于提供一种基于分类算法的文档表格内容识别方法及装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于分类算法的文档表格内容识别方法,其特征在于,包含以下步骤:
A、对文档进行解析;
B、实现文表分离;
C、根据表格第一列和表格前的文本对表格进行分类;
D、将表格还原并结构化入库。
作为本发明的进一步方案:所述步骤A具体是:基于文档的不同类型,分别用不同的处理方式对文档进行解析,获取以字为最小颗粒度的文本信息。
作为本发明的进一步方案:所述文档是word文件时,使用word解析器将word转成xml文件。
作为本发明的进一步方案:所述文档是pdf文件时,使用word解析器将word转成xml文件。
作为本发明的进一步方案:所述步骤B具体是实现在word和pdf情形下的文表分离。
作为本发明的进一步方案:所述文档是word文件时,用word文件解析组件将表格信息抽取出来。
作为本发明的进一步方案:所述文档是pdf文件时,判定表格的范围,并判定每一行是否在表格内。
作为本发明的进一步方案:所述步骤C具体是:分别实现表格分类,即给每一张表自动预测一个标准表名,基于步骤B,已经实现表格和文本的分离,随后将表格前的文本,以及包含文本的目录层级信息,还有表格内具有详细内容单元格的文字信息作为表格的特征,进行标准表名的分类模型训练。
作为本发明的进一步方案:所述步骤D具体是:根据每个表格的单元格的坐标进行拆分,将合并的单元格拆分成多个单元格,使得原始表格转变成每行每列有相同的单元格数的表格,识别表头和表体,随后结构化入库。
一种基于分类算法的文档表格内容识别装置,包括文档解析模块、文表分离模块、表名识别模块和表格还原入库模块,文档解析模块、文表分离模块、表名识别模块和表格还原入库模块依次连接。
与现有技术相比,本发明的有益效果是:本发明通过利用深度学习技术巧妙地设计相关的分类模型,高效精确地实现文表分离、表名识别、表格还原等模块,最后准确地实现表格内容识别且结构化入库,避免了大量的规则,开发成本小且易于维护。
附图说明
图1为本发明的流程图。
图2为本发明的装置原理方框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明实施例中,一种基于分类算法的文档表格内容识别方法及装置,包含以下步骤:
A、步骤A、对文档进行解析;
基于文档的不同类型(pdf/docx/doc),分别用不同的处理方式对文档进行解析,获取以字为最小颗粒度的文本信息。
步骤A1在word的情形下,使用python中的docx包将word转成xml文件。
步骤A2在pdf的情形下,使用tet将pdf转成xml文件。
B、实现文表分离;分别实现在word和pdf情形下的文表分离。
步骤B1在word情形下,用word解析器将表格信息抽取出来。
步骤B2在pdf情形下又分两种情况:表格有表格线和表格没有表格线。
B21在有表格线情形下,采取图像处理的方法,判定表格的范围。
B22在无表格线情形下,采用序列标注的方法将每一行进行标注,学习一个行分类模型。判定每一行是否在表格内。
C、根据表格第一列和表格前的文本对表格进行分类;
实现表格分类,即给每一张表配一个标准表名。基于步骤B,已经实现表格和文本的分离。随后将表格前的文本,包含文本的目录层级信息,以及表格内第一列的单元格的文字信息作为表格的特征,进行标准表名的分类模型训练。
D、将表格还原并结构化入库。
根据每个表格的单元格的坐标进行拆分,将合并的单元格拆分成多个单元格,使得原始表格转变成每行每列有相同的单元格数的表格。识别表头和表体,随后结构化入库。
实施例2:一种基于分类算法的文档表格内容识别装置,包括文档解析模块、文表分离模块、表名识别模块和表格还原入库模块,文档解析模块、文表分离模块、表名识别模块和表格还原入库模块依次连接。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (10)

1.一种基于分类算法的文档表格内容识别方法,其特征在于,包含以下步骤:
A、对文档进行解析;
B、实现文表分离;
C、根据表格第一列和表格前的文本对表格进行分类;
D、将表格还原并结构化入库。
2.根据权利要求1所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述步骤A具体是:基于文档的不同类型,分别用不同的处理方式对文档进行解析,获取以字为最小颗粒度的文本信息。
3.根据权利要求2所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述文档是word文件时,使用word解析器将word转成xml文件。
4.根据权利要求2所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述文档是pdf文件时,使用word解析器将word转成xml文件。
5.根据权利要求4所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述步骤B具体是实现在word和pdf情形下的文表分离。
6.根据权利要求4所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述文档是word文件时,用word文件解析组件将表格信息抽取出来。
7.根据权利要求4所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述文档是pdf文件时,判定表格的范围,并判定每一行是否在表格内。
8.根据权利要求1所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述步骤C具体是:分别实现表格分类,即给每一张表自动预测一个标准表名,基于步骤B,已经实现表格和文本的分离,随后将表格前的文本,以及包含文本的目录层级信息,还有表格内具有详细内容单元格的文字信息作为表格的特征,进行标准表名的分类模型训练。
9.根据权利要求1所述的一种基于分类算法的文档表格内容识别方法,其特征在于,所述步骤D具体是:根据每个表格的单元格的坐标进行拆分,将合并的单元格拆分成多个单元格,使得原始表格转变成每行每列有相同的单元格数的表格,识别表头和表体,随后结构化入库。
10.一种基于分类算法的文档表格内容识别装置,其特征在于,包括文档解析模块、文表分离模块、表名识别模块和表格还原入库模块,文档解析模块、文表分离模块、表名识别模块和表格还原入库模块依次连接。
CN201911411028.3A 2019-12-31 2019-12-31 一种基于分类算法的文档表格内容识别方法及装置 Pending CN111209831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911411028.3A CN111209831A (zh) 2019-12-31 2019-12-31 一种基于分类算法的文档表格内容识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911411028.3A CN111209831A (zh) 2019-12-31 2019-12-31 一种基于分类算法的文档表格内容识别方法及装置

Publications (1)

Publication Number Publication Date
CN111209831A true CN111209831A (zh) 2020-05-29

Family

ID=70789487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911411028.3A Pending CN111209831A (zh) 2019-12-31 2019-12-31 一种基于分类算法的文档表格内容识别方法及装置

Country Status (1)

Country Link
CN (1) CN111209831A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN115563111A (zh) * 2022-09-27 2023-01-03 国网江苏省电力有限公司超高压分公司 一种换流站系统动态模型组态方法及系统

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221582A (zh) * 2008-01-29 2008-07-16 北京北方烽火科技有限公司 一种嵌入式系统数据库的实现方法
CN101615193A (zh) * 2009-07-07 2009-12-30 北京大学 一种基于百科数据提取集成的查询系统
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
US20170109610A1 (en) * 2013-03-13 2017-04-20 Kofax, Inc. Building classification and extraction models based on electronic forms
US20170132463A1 (en) * 2015-11-05 2017-05-11 International Business Machines Corporation Ingestion plan based on table uniqueness
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
US20190005322A1 (en) * 2017-01-14 2019-01-03 Innoplexus Ag Method and system for generating parsed document from digital document
CN109670477A (zh) * 2018-12-28 2019-04-23 上海大智慧财汇数据科技有限公司 面向pdf表格的自动识别系统和方法
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110032989A (zh) * 2019-04-23 2019-07-19 福州大学 一种基于框线特征和像素分布的表格文档图像分类方法
US20190303663A1 (en) * 2018-03-30 2019-10-03 Wipro Limited Method and system for detecting and extracting a tabular data from a document

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101221582A (zh) * 2008-01-29 2008-07-16 北京北方烽火科技有限公司 一种嵌入式系统数据库的实现方法
CN101615193A (zh) * 2009-07-07 2009-12-30 北京大学 一种基于百科数据提取集成的查询系统
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置
US20170109610A1 (en) * 2013-03-13 2017-04-20 Kofax, Inc. Building classification and extraction models based on electronic forms
US20170132463A1 (en) * 2015-11-05 2017-05-11 International Business Machines Corporation Ingestion plan based on table uniqueness
CN106407883A (zh) * 2016-08-10 2017-02-15 北京工业大学 一种复杂表格及其内部手写数字识别方法
US20190005322A1 (en) * 2017-01-14 2019-01-03 Innoplexus Ag Method and system for generating parsed document from digital document
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
US20190303663A1 (en) * 2018-03-30 2019-10-03 Wipro Limited Method and system for detecting and extracting a tabular data from a document
CN108614898A (zh) * 2018-05-10 2018-10-02 爱因互动科技发展(北京)有限公司 文档解析方法与装置
CN109670477A (zh) * 2018-12-28 2019-04-23 上海大智慧财汇数据科技有限公司 面向pdf表格的自动识别系统和方法
CN109993112A (zh) * 2019-03-29 2019-07-09 杭州睿琪软件有限公司 一种图片中表格的识别方法及装置
CN110032989A (zh) * 2019-04-23 2019-07-19 福州大学 一种基于框线特征和像素分布的表格文档图像分类方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111709349A (zh) * 2020-06-11 2020-09-25 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN111709349B (zh) * 2020-06-11 2023-12-01 杭州尚尚签网络科技有限公司 一种针对带表格合同的ocr识别方法
CN113010503A (zh) * 2021-03-01 2021-06-22 广州智筑信息技术有限公司 一种基于深度学习的工程造价数据智能解析方法及系统
CN115563111A (zh) * 2022-09-27 2023-01-03 国网江苏省电力有限公司超高压分公司 一种换流站系统动态模型组态方法及系统

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN111125354A (zh) 文本分类方法及装置
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
WO2023108991A1 (zh) 模型的训练方法、知识分类方法、装置、设备、介质
CN114861677B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN111639185B (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN114218391A (zh) 一种基于深度学习技术的敏感信息识别方法
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN116562270A (zh) 一种支持多模态输入的自然语言处理系统及其方法
CN114821613A (zh) 一种pdf中表格信息的抽取方法和系统
CN114579796B (zh) 机器阅读理解方法及装置
CN115761235A (zh) 基于知识蒸馏的零样本语义分割方法、系统、设备及介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN114419645A (zh) 一种基于ai的合同智能解析方法
CN113936186A (zh) 一种内容识别方法、装置、电子设备及可读存储介质
CN110119694B (zh) 一种图片处理方法、装置及计算机可读存储介质
CN109460701B (zh) 一种基于纵横直方图的字体识别方法
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质
CN111143559A (zh) 基于三元组的词云展示方法及装置
CN116029277B (zh) 多模态知识解析的方法、装置、存储介质、设备
CN116227496B (zh) 一种基于深度学习的电力舆情实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination