CN108614898B - 文档解析方法与装置 - Google Patents

文档解析方法与装置 Download PDF

Info

Publication number
CN108614898B
CN108614898B CN201810444475.8A CN201810444475A CN108614898B CN 108614898 B CN108614898 B CN 108614898B CN 201810444475 A CN201810444475 A CN 201810444475A CN 108614898 B CN108614898 B CN 108614898B
Authority
CN
China
Prior art keywords
text
content
document
lines
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810444475.8A
Other languages
English (en)
Other versions
CN108614898A (zh
Inventor
钟翰廷
韩警
吴金龙
王守崑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ein Interdynamic Technology Development Beijing Co ltd
Original Assignee
Ein Interdynamic Technology Development Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ein Interdynamic Technology Development Beijing Co ltd filed Critical Ein Interdynamic Technology Development Beijing Co ltd
Priority to CN201810444475.8A priority Critical patent/CN108614898B/zh
Publication of CN108614898A publication Critical patent/CN108614898A/zh
Application granted granted Critical
Publication of CN108614898B publication Critical patent/CN108614898B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开提供一种文档解析方法与装置。在根据本公开的文档解析方法(100)中,包括如下步骤:针对文档进行内容解析,以检测出文字行(S110);基于机器学习模型,对文字行进行文本整理(S120);基于机器学习模型,对整理后的文本进行文本分类(S130);基于文本分类的结果,对文档内容进行结构化处理(S140)。根据本公开的文档解析技术利用机器学习模型和自然语言处理技术,对初步的解析结果进行纠正,然后通过机器学习技术将解析出来的内容进行分类,提高最终的结构化的效率和准确率。

Description

文档解析方法与装置
技术领域
本发明涉及基于机器学习的文档处理,更具体涉及文档解析方法与装置。
背景技术
诸如保险、法律等行业,有大量业务文档留存。对这些非结构化或者半结构化的文档进行分析,从中得到结构化数据,是一个常见的需求,但在实际执行时会有许多问题。
现有的文档知识抽取方法,通常要求文档的内容格式比较简单,如只处理例如微软Office软件的DOC或DOCX格式的文档,这样在解析文档上就避开了很多问题。或者,只从文档中抽取简单的内容,如特定的关键词,或者符合规则的某些句子。
但实际上,大量的便携式文档格式(PDF)文档会有复杂的文档布局,简单地解析往往会导致大量的内容错乱。而且,行业文档中往往蕴含了业务相关的多层次结构的知识,只提取关键词或句子很难构建出完整的知识结构。
发明内容
本发明提出一种文档解析方法与装置,希望通过利用机器学习模型和自然语言处理技术,对初步的解析结果进行纠正,然后通过机器学习技术将解析出来的内容进行分类,提高最终的结构化的效率和准确率。
根据本发明的第一方面,提供一种文档解析方法。该方法可以包括:针对文档进行内容解析,以检测出文字行;基于机器学习模型,对文字行进行文本整理;基于机器学习模型,对整理后的文本进行文本分类;基于文本分类的结果,对文档内容进行结构化处理。
优选地,所述文档是便携式文档格式(PDF)文档。
在某些情况下,需要针对图像模式文本进行文本识别,以提取用于进行内容解析的文本;然后针对提取出的文本进行内容解析,以检测出文字行。
优选地,所述的基于机器学习模型,对文字行进行文本整理的步骤可以进一步包括:
文字行分割:用于分割处于同一行但内容上并不连续的文字;
文字行合并:用于将不在同一行但内容连续的多个文字行中的文字合并起来;
文本重排:用于将经过文字行分割与合并后的各个文字行、文字块进行文字内容上的前后衔接。
优选地,所述的针对文档进行内容解析,以检测出文字行的步骤可以进一步包括:针对文档进行内容解析,以检测出文字行和直线。
优选地,根据本发明第一方面的方法可以进一步包括:利用内容解析步骤中检测出的直线划分出表格的外框以及表格中的单元格的边框;根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容。
优选地,所述的基于文本分类的结果,对文档内容进行结构化处理的步骤可以进一步包括:基于文本分类的结果以及解析得到的完整的表格内容,对文档内容进行结构化处理。
优选地,所述的根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容的步骤可以进一步包括:对于跨页表格,从表格的结构和文字行中提取特征,利用机器学习模型,以确定前后两页的表格的合并。
优选地,根据本发明第一方面的方法可以进一步包括:将文档内容结构化处理的结果存储到数据库;以及使用数据库中新增的数据进一步训练所述机器学习模型。
优选地,所述的基于机器学习模型,对整理后的文本进行文本分类的步骤可以进一步包括;在文本分类过程中,删除对结构化没有贡献的标记或符号。
优选地,所述的基于机器学习模型,对文字行进行文本整理的步骤可以包括:基于通过机器学习而得到的语言模型,对文字行进行文本整理。
优选地,所述的基于机器学习模型,对整理后的文本进行文本分类的步骤可以包括:基于通过机器学习而得到的分类模型,对整理后的文本进行文本分类。
根据本发明的第二方面,提供一种文档解析装置,包括:内容解析模块,用于针对文档进行内容解析,以检测出文字行;机器学习模型,通过机器学习而得到;文本整理模块,用于基于所述机器学习模型对文字行进行文本整理;文本分类模块,用于基于所述机器学习模型对整理后的文本进行文本分类;结构化处理模块,用于基于文本分类的结果,对文档内容进行结构化处理;数据库,用于存储文档内容结构化处理的结果,并为所述机器学习模型的进一步训练提供数据。
根据本发明的第三方面,提供一种计算机可读介质,用于记录可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行文档解析方法,包括如下操作:针对文档进行内容解析,以检测出文字行;基于机器学习模型,对文字行进行文本整理;基于机器学习模型,对整理后的文本进行文本分类;基于文本分类的结果,对文档内容进行结构化处理。
本发明融合了规则和机器学习模型,可以用于PDF文档的解析和解析结果纠错。
在本发明中,还可以使用机器学习模型,对文档内容进行分类,以区分出文档内容中不同性质的文本,如:目录、标题、段落、表格、注释等。
附图说明
下面参考附图结合实施例说明本发明。
图1是根据本发明的文档解析方法的流程图。
图2是根据本发明的文档解析装置的示意框图。
图3是根据本发明的优选实施例的文档解析方法的示意图。
图4示出了文字行分割的一个示例。
图5示出了文字行合并的一个示例。
图6示出了表格解析处理的一个示例。
具体实施方式
附图仅用于示例说明,不能理解为对本发明的限制。下面结合附图和实施例对本发明的技术方案做进一步的说明。
图1是根据本发明的文档解析方法的流程图。
本领域技术人员应该理解,本发明的文档解析方法所针对的文档比较常见的就是PDF文档。PDF是Portable Document Format的简称,意为“便携式文档格式”,是由AdobeSystems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。在后文的优选实施例中,将详细解释针对PDF文档进行解析的步骤。在图1中,只一般性地解释根据本发明的通用文档解析方法。
如图1中所示,根据本发明的文档解析方法100开始于步骤S110,在该步骤,针对文档进行内容解析,以检测出文字行。
如果文档中的文本是图像模式的,而非可以直接复制的文本,则步骤S110应当首先针对图像模式文本进行文本识别,以提取用于进行内容解析的文本,然后针对提取出的文本进行内容解析,以检测出文字行。
在步骤S120,基于机器学习模型,对文字行进行文本整理。这里所述的文本整理,按顺序,可以包括以下几个方向:
文字行分割:用于分割处于同一行但内容上并不连续的文字;
文字行合并:用于将不在同一行但内容连续的多个文字行中的文字合并起来;
文本重排:用于将经过文字行分割与合并后的各个文字行、文字块进行文字内容上的前后衔接。
这里所提到的机器学习模型,是通过机器学习而得到的,后文将进一步解释。在步骤S120,该机器学习模型可以进一步被具体化为语言模型。
在步骤S130,基于机器学习模型,对整理后的文本进行文本分类。
在步骤S130,该机器学习模型可以进一步被具体化为分类模型。在步骤S140,基于文本分类的结果,对文档内容进行结构化处理。
在步骤S140的文本分类过程中,可以删除对结构化没有贡献的标记或符号。例如,删去页眉、页脚等标记或符号,降低对上下文的干扰。这一过程可以认为是在文本分类步骤中顺带进行的文本清洗过程。
尽管图1中未示出,但是,文档内容结构化处理的结果可以存储到数据库中。数据库中新增的数据可被用于进一步训练机器学习模型。
尽管在图1中未示出,但是,一般文档中也会出现表格。由于每个表格包含着由交错的直线形成的多个单元格,所以在对表格进行解析时,除了进行内容解析步骤S110中的文字行检测以外,还需进行直线检测。
此外,在进行表格解析时,需要利用内容解析步骤中检测出的直线划分出表格的外框以及表格中的单元格的边框。根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容。
对于特殊情况下出现的跨页表格,从表格的结构和文字行中提取特征,利用机器学习模型,以确定前后两页的表格的合并,例如,是否合并、如何合并等等。
此外,在步骤S140中,对于表格解析而言,除了基于文本分类的结果以外,还要基于解析得到的完整的表格内容,对文档内容进行结构化处理。
图1的文档解析方法100可以在步骤S140之后结束。文档解析之后得到的结构化信息可以用于后续的内容抽取以及知识图谱的构建。
图2是根据本发明的文档解析装置的示意框图。
如图2中所示,根据本发明的文档解析装置200包括:内容解析模块201,用于针对文档进行内容解析,以检测出文字行;机器学习模型208,通过机器学习而得到,可分为语言模型202和分类模型204;文本整理模块203,用于基于所述机器学习模型208(更具体为语言模型202)对文字行进行文本整理;文本分类模块205,用于基于所述机器学习模型208(更具体为分类模型204)对整理后的文本进行文本分类;结构化处理模块206,用于基于文本分类的结果,对文档内容进行结构化处理;数据库207,用于存储文档内容结构化处理的结果,并为机器学习模型208(即语言模型202和分类模型204)的进一步训练提供数据。
本领域技术人员应该理解,内容解析模块201可以用来执行图1中的步骤S110,文本整理模块203可以用来执行图1中的步骤S120,文本分类模块205可以用来执行图1中的步骤S130,结构化处理模块206可以用来执行图1中的步骤S140。
尽管图2中未示出,文本整理模块203可以进一步包括:文字行分割子模块,用于分割处于同一行但内容上并不连续的文字;文字行合并子模块,用于将不在同一行但内容连续的多个文字行中的文字合并起来;文本重排子模块,用于将经过文字行分割与合并后的各个文字行、文字块进行文字内容上的前后衔接。
此外,尽管图2中未示出,但是内容解析模块201也可以用于检测出直线,以便对表格的结构和其中单元格的文字内容进行解析。在此情况下,图2的文档解析装置200可以进一步包括表格解析模块(未示出),其用于利用内容解析模块201中检测出的直线划分出表格的外框以及表格中的单元格的边框;根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容。
表格解析模块还可以进一步包括跨页表格处理子模块(未示出),用于对于跨页表格,从表格的结构和文字行中提取特征,利用机器学习模型208(更具体为语言模型202),以确定前后两页的表格的合并。
在解析表格的情况下,结构化处理模块206可以基于文本分类的结果以及解析得到的完整的表格内容,对文档内容进行结构化处理。
文本分类模块205可以进一步包括文本清洗子模块(未示出),用来删除对结构化没有贡献的标记或符号。例如,文本清洗子模块可以删去页眉、页脚等标记或符号,降低对上下文的干扰。
下面将根据本发明的优选实施例来进一步详细解释本发明的技术方案。
图3是根据本发明的优选实施例的文档解析方法的示意图。
在图3中,使用PDF文档作为本发明中“文档”的一个优选实现方式。PDF文档解析的整体流程如图3中所示。相比传统的PDF解析,本专利的创新在于利用机器学习模型和自然语言处理技术,对初步的解析结果进行了纠正;以及在后面通过机器学习技术将解析出来的内容进行分类,提供最终的结构化的效率和准确率。
有关PDF文件标准,可以参考如下的相关资料:
ISO 19005-1:2005-Document management--Electronic document file formatfor long-term preservation--Part 1:Use of PDF 1.4(PDF/A-1)
ISO 19005-2:2011-Document management--Electronic document file formatfor long-term preservation--Part 2:Use of ISO 32000-1(PDF/A-2)
ISO 19005-3:2012-Document management--Electronic document file formatfor long-term preservation--Part 3:Use of ISO 32000-1with support forembedded files(PDF/A-3)
ISO 32000-1:2008-Document management--Portable document format--Part1:PDF 1.7
申请人希望通过援引以上参考资料而将它们并入到本公开中,成为本公开的说明书的内容的一部分。
如图3中所示,对于待解析的PDF文档,首先将进行文字行检测和直线检测。具体地说,根据相关的PDF标准,如PDF/A-1a、PDF/A-1b对PDF的文件流进行解析,得到文字行、直线等初步的解析结果。得到的文字行和直线将作为后续处理的基础。
本领域技术人员应该理解,尽管在本发明的优选实施例中,解析的是具备可复制文字的PDF文档,但是,本发明同样适用于本身不含可复制文字的图像模式的PDF文档或其他图像模式文档。对于后者而言,尽管解析的过程更为复杂,例如一般还需要针对图像文档进行光学字符识别(OCR)以便提取文字、符号等,但是,一样会先进行相应的文字行检测和/或直线检测,以便接下来的文本整理、分类的操作。
接下来,对于文字部分,将进行文本整理的工作。如图3中所示,文本整理的工作可以分为文字行分割、文字行合并和文本重排三个阶段。
首先来看文字行分割。
文字行分割用来纠正那些在位置上处于同一行,但内容上并不连续的情况。图4示出了文字行分割的一个示例。图4实际上是相关的一个错误的检测示例。或者说,可以认为图4示出了根据以往的方法所得到的文字行分割的结果。
现有技术的做法是通过布局分析,如分析文字与文字之间的距离、行间距离、字体等信息,以将相关的内容正确地划分到相同的一个区域里面。然而,如图4中所示,由于从左至右排列着节号、小标题、正文内容,而小标题被分成了三行来排列,使得文字行分割时容易将节号、小标题、正文内容混为一行,造成文本内容的不连续。例如,图4的第一行中“9.1.4重大器官移植重大器官移植术...”显然并不是一个流畅的句子。
本申请的做法是,使用语言模型来对文本进行建模,考虑文本之间的连续、流畅性。
有关语言模型,既可以参考之前的解释,也可以参考如下的相关资料:
语言模型在维基百科中的释义
Shannon,Claude Elwood."A mathematical theory of communication."Bellsystem technical journal 27.3(1948):379-423
Bengio,Yoshua,et al."A neural probabilistic language model."Journalof machine learning research 3.Feb(2003):1137-1155
Mikolov,Tomas,et al."Recurrent neural network based language model."Eleventh Annual Conference of the International Speech CommunicationAssociation.2010
Pappas,Nikolaos,and Thomas Meyer.A survey on language modeling usingneural networks.No.EPFL-REPORT-192566.Idiap,2012
申请人希望通过援引以上参考资料而将它们并入到本公开中,成为本公开的说明书的内容的一部分。
通过机器学习的训练,得到语言模型,可以尽可能避免文本之间的不连续、不流畅性。例如,还是图4的例子,进行了适当的文字行分割之后,小标题与正文内容会进行分割,不会被考虑为一个连续的句子。
再来看文字行合并。
文字行合并用来将不在同一行但内容连续的多个文字行合并起来,避免因为位置原因导致顺序错乱或在其中混杂入其他文本行。如前述的“文字行分割”在处理完后,得到的结果如图5所示。图5示出了文字行合并的一个示例。
类似地,现有技术的方法基本是通过布局分析来解决这个问题的,比如假设整个文档的内容都是分成左右两栏、三栏或更多,但这种假设往往不是一直都成立的。
在这个问题上,本申请同样使用了语言模型,对一个文字行,判断其四周的邻近文字行是否能与其组成连续、流畅的文本,若可以则合并成一个文本块。
例如,图5中,同属于小标题的文字行“9.1.4重大器官移植”、“术或造血干细”、“胞移植术”可以进行合并,同属于正文的文字行“重大器官移植术,……心脏或”、“肺脏的异体移植手术。”、“造血干细胞移植术……已经实施了造”可以进行合并。
然后是文本重排。
由于文档存在复杂的布局形式,如分栏布局、分栏布局与非分栏布局的混用、表格,在进行初步解析后,得到的文字行或文本块之间的顺序,和真正逻辑意义上的顺序往往会存在一定的偏差。
对此,本申请同样使用语言模型,通过衡量文字行、文本块内容之间的前后衔接是否流畅来得到最后的排列顺序。
接下来是文本分类阶段。
对通过以上阶段解析出来的文字行和文本块,本申请使用分类模型(或称为文本分类模型)进行分类,将文本内容划分成以下几类:
·章节标题
·正文段落
·注释
·页眉
·页脚
·目录
其中,页眉和页脚只起标记作用,在内容上没有实际意义,因此会被直接去除掉;剩下的内容将会用于下一阶段“内容结构化”。
另一方面,来看看表格的解析。
表格中的知识往往都是具备一定结构化的知识,因此本申请设计有专门针对表格进行解析的处理。除此以外,表格中的内容和非表格中的内容是在页面区域上可以很明确地划分开来,将表格解析出来也有助于减少非表格内容解析时的问题。
本申请利用解析结果中的直线划分出表格的外框以及表格中单元格的边框,然后根据位置信息将其中的文字行或文本块与单元格关联起来,最后就得到了完整的表格内容。
图6示出了表格解析处理的一个示例。
在处理跨页表格的问题上,本申请利用机器学习模型,从表格的结构和内容信息中提取特征,能很好地判断出来前后两页的表格是否应该合并。
表格的内容也将作为“内容结构化”阶段的输入之一。
接下来就是内容结构化的阶段。
所谓的结构化,是指将整个文档的内容按照章节、段落结构表示、存储成树形结构。这样,今后在从树形结构中抽取更细粒度的知识的时候,可以先定位到某些章节或者段落中,再去处理,抽取的效率和准确率都能得到提升。
通过前一阶段“文本分类”和之前的表格抽取,本阶段通过章节标题的层级关系、文字行或文本块的顺序,利用一些简单的规则即可完成内容的结构化。
“内容结构化”的结果,除了用于后续的知识抽取、知识图谱构建外,还会持续地存储到数据库(例如图2中所示的数据库207)中,并定期使用新增的数据去训练机器学习模型,也就是本文中反复提到的两个模型,即语言模型和文本分类模型。
本领域普通技术人员应该认识到,本发明的方法可以实现为计算机程序。如上结合图1、2、3所述,通过一个或多个程序执行上述实施例的方法,包括指令来使得计算机或处理器执行结合附图所述的算法。这些程序可以使用各种类型的非瞬时计算机可读介质存储并提供给计算机或处理器。非瞬时计算机可读介质包括各种类型的有形存贮介质。非瞬时计算机可读介质的示例包括磁性记录介质(诸如软盘、磁带和硬盘驱动器)、磁光记录介质(诸如磁光盘)、CD-ROM(紧凑盘只读存储器)、CD-R、CD-R/W以及半导体存储器(诸如ROM、PROM(可编程ROM)、EPROM(可擦写PROM)、闪存ROM和RAM(随机存取存储器))。进一步,这些程序可以通过使用各种类型的瞬时计算机可读介质而提供给计算机。瞬时计算机可读介质的示例包括电信号、光信号和电磁波。瞬时计算机可读介质可以用于通过诸如电线和光纤的有线通信路径或无线通信路径提供程序给计算机。
因此,根据本发明,还可以提供一种计算机程序或一种计算机可读介质,用于记录可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行文档解析方法,包括如下操作:针对文档进行内容解析,以检测出文字行;基于机器学习模型,对文字行进行文本整理;基于机器学习模型,对整理后的文本进行文本分类;基于文本分类的结果,对文档内容进行结构化处理。
上面已经描述了本发明的各种实施例和实施情形。但是,本发明的精神和范围不限于此。本领域技术人员将能够根据本发明的教导而做出更多的应用,而这些应用都在本发明的范围之内。
也就是说,本发明的上述实施例仅仅是为清楚说明本发明所做的举例,而非对本发明实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、替换或改进等,均应包含在本发明权利要求的保护范围之内。

Claims (11)

1.一种通过计算机实现的文档解析方法,包括:
针对具有复杂文档布局的文档进行内容解析,以检测出文字行,其中,所述复杂文档布局包括以下情况:
(a)位置上处于同一行的文字在内容上并不连续,和
(b)内容连续的文字不在同一行而分布在多个文字行;
基于通过机器学习而得到的语言模型,对检测出的文字行进行文本整理,以形成连续、流畅的文本;
基于通过机器学习而得到的分类模型,对整理后的文本进行文本分类,以将文本内容划分成以下几类:章节标题、正文段落、注释、页眉、页脚、目录;
基于文本分类的结果,对文档内容进行结构化处理,以将整个文档的内容按照章节、段落结构表示、存储成树形结构,
其中,所述的基于通过机器学习而得到的语言模型,对检测出的文字行进行文本整理,以形成连续、流畅的文本的步骤进一步包括:
文字行分割:使用所述语言模型对文本进行建模,以分割处于同一行但内容上并不连续的文字;
文字行合并:使用所述语言模型,将不在同一行但内容连续的多个邻近文字行中的文字合并成一个文本块;
文本重排:使用所述语言模型,将经过文字行分割与合并后的各个文字行、文本块进行文字内容上的前后衔接。
2.如权利要求1所述的方法,其中,所述文档是便携式文档格式(PDF)文档。
3.如权利要求1所述的方法,其中,所述的针对文档进行内容解析,以检测出文字行的步骤进一步包括:
针对图像模式文本进行文本识别,以提取用于进行内容解析的文本;
针对提取出的文本进行内容解析,以检测出文字行。
4.如权利要求1所述的方法,其中,所述的针对文档进行内容解析,以检测出文字行的步骤进一步包括:针对文档进行内容解析,以检测出文字行和直线。
5.如权利要求4所述的方法,进一步包括:
利用内容解析步骤中检测出的直线划分出表格的外框以及表格中的单元格的边框;
根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容。
6.如权利要求5所述的方法,其中,所述的基于文本分类的结果,对文档内容进行结构化处理,以将整个文档的内容按照章节、段落结构表示、存储成树形结构的步骤进一步包括:基于文本分类的结果以及解析得到的完整的表格内容,对文档内容进行结构化处理。
7.如权利要求5所述的方法,其中,所述的根据表格的外框以及表格中的单元格的边框所确定的位置信息将其中的文字行或文本块与单元格关联起来,从而解析得到完整的表格内容的步骤进一步包括:
对于跨页表格,从表格的结构和文字行中提取特征,利用所述语言模型,以确定前后两页的表格的合并。
8.如权利要求1所述的方法,进一步包括:
将文档内容结构化处理的结果存储到数据库;以及
使用数据库中新增的数据进一步训练所述语言模型和所述分类模型。
9.如权利要求1所述的方法,其中,所述的基于通过机器学习而得到的分类模型,对整理后的文本进行文本分类的步骤进一步包括;在文本分类过程中,删除对结构化没有贡献的标记或符号。
10.一种文档解析装置,包括:
内容解析模块,用于针对具有复杂文档布局的文档进行内容解析,以检测出文字行,其中,所述复杂文档布局包括以下情况:
(a)位置上处于同一行的文字在内容上并不连续,和
(b)内容连续的文字不在同一行而分布在多个文字行;
机器学习模型,通过机器学习而得到,包括语言模型和分类模型;
文本整理模块,用于基于所述语言模型对检测出的文字行进行文本整理,以形成连续、流畅的文本;
文本分类模块,用于基于所述分类模型对整理后的文本进行文本分类,以将文本内容划分成以下几类:章节标题、正文段落、注释、页眉、页脚、目录;
结构化处理模块,用于基于文本分类的结果,对文档内容进行结构化处理,以将整个文档的内容按照章节、段落结构表示、存储成树形结构;
数据库,用于存储文档内容结构化处理的结果,并为所述机器学习模型的进一步训练提供数据,
其中,所述文本整理模块进一步包括:
文字行分割子模块,用于使用所述语言模型对文本进行建模,以分割处于同一行但内容上并不连续的文字;
文字行合并子模块,用于使用所述语言模型,将不在同一行但内容连续的多个邻近文字行中的文字合并成一个文本块;
文本重排子模块,用于使用所述语言模型,将经过文字行分割与合并后的各个文字行、文本块进行文字内容上的前后衔接。
11.一种计算机可读介质,用于记录可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行文档解析方法,包括如下操作:
针对具有复杂文档布局的文档进行内容解析,以检测出文字行,其中,所述复杂文档布局包括以下情况:
(a)位置上处于同一行的文字在内容上并不连续,和
(b)内容连续的文字不在同一行而分布在多个文字行;
基于通过机器学习而得到的语言模型,对检测出的文字行进行文本整理,以形成连续、流畅的文本;
基于通过机器学习而得到的分类模型,对整理后的文本进行文本分类,以将文本内容划分成以下几类:章节标题、正文段落、注释、页眉、页脚、目录;
基于文本分类的结果,对文档内容进行结构化处理,以将整个文档的内容按照章节、段落结构表示、存储成树形结构,
其中,所述的基于通过机器学习而得到的语言模型,对检测出的文字行进行文本整理,以形成连续、流畅的文本的操作进一步包括:
文字行分割:使用所述语言模型对文本进行建模,以分割处于同一行但内容上并不连续的文字;
文字行合并:使用所述语言模型,将不在同一行但内容连续的多个邻近文字行中的文字合并成一个文本块;
文本重排:使用所述语言模型,将经过文字行分割与合并后的各个文字行、文本块进行文字内容上的前后衔接。
CN201810444475.8A 2018-05-10 2018-05-10 文档解析方法与装置 Expired - Fee Related CN108614898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444475.8A CN108614898B (zh) 2018-05-10 2018-05-10 文档解析方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444475.8A CN108614898B (zh) 2018-05-10 2018-05-10 文档解析方法与装置

Publications (2)

Publication Number Publication Date
CN108614898A CN108614898A (zh) 2018-10-02
CN108614898B true CN108614898B (zh) 2021-06-25

Family

ID=63662789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444475.8A Expired - Fee Related CN108614898B (zh) 2018-05-10 2018-05-10 文档解析方法与装置

Country Status (1)

Country Link
CN (1) CN108614898B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
WO2019077405A1 (en) 2017-10-17 2019-04-25 Handycontract, LLC METHOD, DEVICE AND SYSTEM FOR IDENTIFYING DATA ELEMENTS IN DATA STRUCTURES
CN109685052A (zh) * 2018-12-06 2019-04-26 泰康保险集团股份有限公司 文本图像处理方法、装置、电子设备及计算机可读介质
CN110363102B (zh) * 2019-06-24 2022-05-17 北京融汇金信信息技术有限公司 一种pdf文件的对象识别处理方法及装置
CN110489087B (zh) * 2019-07-31 2023-05-30 北京字节跳动网络技术有限公司 一种生成分形结构的方法、装置、介质和电子设备
CN110728117A (zh) * 2019-08-27 2020-01-24 达而观信息科技(上海)有限公司 基于机器学习和自然语言处理的段落自动识别方法及系统
CN110837788B (zh) * 2019-10-31 2022-10-28 北京深度制耀科技有限公司 一种pdf文档的处理方法及装置
CN111209831A (zh) * 2019-12-31 2020-05-29 上海犀语科技有限公司 一种基于分类算法的文档表格内容识别方法及装置
CN111507230A (zh) * 2020-04-11 2020-08-07 创景未来(北京)科技有限公司 一种文档和表格数据的识别和提取方法及系统
US11734580B2 (en) * 2020-05-19 2023-08-22 Tata Consultancy Services Limited Building analytical platform to enable device fabrication
CN111967240B (zh) * 2020-07-09 2023-06-30 深圳价值在线信息科技股份有限公司 文本解析方法、装置、终端设备及计算机可读存储介质
CN112001368A (zh) * 2020-09-29 2020-11-27 北京百度网讯科技有限公司 文字结构化提取方法、装置、设备以及存储介质
CN112990110B (zh) * 2021-04-20 2022-03-25 数库(上海)科技有限公司 从研报中进行关键信息提取方法及相关设备
CN113779948A (zh) * 2021-09-10 2021-12-10 成都材智科技有限公司 一种核电结构材料数据文件自动化提取系统及方法
CN114997138A (zh) * 2022-06-20 2022-09-02 壹沓科技(上海)有限公司 一种化学品说明书解析方法、装置、设备及可读存储介质
CN116302294B (zh) * 2023-05-18 2023-09-01 安元科技股份有限公司 一种界面化自动识别组件属性的方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250385A (zh) * 2015-06-10 2016-12-21 埃森哲环球服务有限公司 用于文档的自动化信息抽象处理的系统和方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150066653A1 (en) * 2013-09-04 2015-03-05 Google Inc. Structured informational link annotations
CN104517112B (zh) * 2013-09-29 2017-11-28 北大方正集团有限公司 一种表格识别方法与系统
CN107403375A (zh) * 2017-04-19 2017-11-28 北京文因互联科技有限公司 一种基于深度学习的上市公司公告分类及摘要生成方法
CN107145479B (zh) * 2017-05-04 2020-06-02 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250385A (zh) * 2015-06-10 2016-12-21 埃森哲环球服务有限公司 用于文档的自动化信息抽象处理的系统和方法
CN107358208A (zh) * 2017-07-14 2017-11-17 北京神州泰岳软件股份有限公司 一种pdf文档结构化信息提取方法及装置

Also Published As

Publication number Publication date
CN108614898A (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
CN108614898B (zh) 文档解析方法与装置
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
US8452132B2 (en) Automatic file name generation in OCR systems
US8587613B2 (en) System and method for comparing and reviewing documents
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
Déjean et al. A system for converting PDF documents into structured XML format
US7937338B2 (en) System and method for identifying document structure and associated metainformation
US8645184B2 (en) Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service
US20060271847A1 (en) Method and apparatus for determining logical document structure
US9436882B2 (en) Automated redaction
US20070230787A1 (en) Method for automated processing of hard copy text documents
Walker et al. A web-based ocr service for documents
CN108170468B (zh) 一种自动检测注释和代码一致性的方法及其系统
US20180081861A1 (en) Smart document building using natural language processing
US7046847B2 (en) Document processing method, system and medium
KR20120099578A (ko) 문서 내의 목록들의 재구성
CN110909123B (zh) 一种数据提取方法、装置、终端设备及存储介质
US20200175268A1 (en) Systems and methods for extracting and implementing document text according to predetermined formats
McConnaughey et al. The labeled segmentation of printed books
Tarride et al. Large-scale genealogical information extraction from handwritten Quebec parish records
EP2544100A2 (en) Method and system for making document modules
Li et al. Extracting figures and captions from scientific publications
JP2004178010A (ja) 文書処理装置並びにその方法及びプログラム
KR102516560B1 (ko) 수기로 작성된 문서의 관리 시스템
Karpinski et al. Combination of structural and factual descriptors for document stream segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210625

CF01 Termination of patent right due to non-payment of annual fee