CN116306575A - 文档解析方法、文档解析模型训练方法、装置和电子设备 - Google Patents

文档解析方法、文档解析模型训练方法、装置和电子设备 Download PDF

Info

Publication number
CN116306575A
CN116306575A CN202310518177.XA CN202310518177A CN116306575A CN 116306575 A CN116306575 A CN 116306575A CN 202310518177 A CN202310518177 A CN 202310518177A CN 116306575 A CN116306575 A CN 116306575A
Authority
CN
China
Prior art keywords
text block
training
document
analyzed
training text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310518177.XA
Other languages
English (en)
Other versions
CN116306575B (zh
Inventor
彭敬伟
钟良敏
李晓平
顾文斌
孙勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Original Assignee
Shanghai Hengsheng Juyuan Data Service Co ltd
Hangzhou Hengsheng Juyuan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hengsheng Juyuan Data Service Co ltd, Hangzhou Hengsheng Juyuan Information Technology Co ltd filed Critical Shanghai Hengsheng Juyuan Data Service Co ltd
Priority to CN202310518177.XA priority Critical patent/CN116306575B/zh
Publication of CN116306575A publication Critical patent/CN116306575A/zh
Application granted granted Critical
Publication of CN116306575B publication Critical patent/CN116306575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种文档解析方法、文档解析模型训练方法、装置和电子设备,属于计算机技术领域。该方法包括:基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;所述分栏属性用于指示每个所述待解析文本块的分布形式;根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。本申请可以提高适用性和文档解析的效果。

Description

文档解析方法、文档解析模型训练方法、装置和电子设备
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种文档解析方法、文档解析模型训练方法、装置和电子设备。
背景技术
随着计算机技术的发展,人们经常将文字、图片等保存为可携带文件格式(Portable Document Format,简称PDF)的文档进行查看或存储。然而,由于PDF文档丢失了文件原有的一些数据结构信息,因此,在进行PDF文档解析时,无法将PDF文档中的信息以结构化的方式导出。
相关技术中,若需要从PDF文档中导出文字信息,一般可以先获取PDF文档中各段落的阅读顺序,然后按照各段落的阅读顺序将各段落转换为Word格式或超文本标记语言(Hyper Text Markup Language,简称Html)。或者将PDF文档转换为图片,再通过文字识别算法对图片进行识别。
然而,随着PDF文档的表达方式愈加多样,版面形式也越来越丰富,越来越多的PDF文档中存在分栏结构,而相关技术的方案无法准确地根据实际的分栏情况对PDF文档进行解析、识别。因此,相关技术中的方案存在适用性和文档解析的效果较差的问题。
发明内容
本申请的目的在于提供一种文档解析方法、文档解析模型训练方法、装置和电子设备,可以提高适用性和文档解析的效果。
本申请的实施例是这样实现的:
本申请实施例的第一方面,提供一种文档解析方法,所述方法包括:
基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;各所述待解析文本块的分栏属性用于指示每个所述待解析文本块的分布形式;
根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;
分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。
本申请实施例的第二方面,提供了一种文档解析模型训练方法,所述方法包括:
从训练文档中确定出各训练文本块以及各所述训练文本块的实际标注特征,所述实际标注特征用于指示各所述训练文本块的分栏属性;
将各所述训练文本块输入初始文档解析模型,根据各所述训练文本块在所述训练文档中的位置输出各所述训练文本块的预测标注特征;
根据各所述训练文本块的实际标注特征和预测标注特征确定损失信息;
根据所述损失信息迭代优化所述初始文档解析模型,直至优化后的所述初始文档解析模型满足预设条件时,停止迭代并将满足所述预设条件的初始文档解析模型作为所述目标文档解析模型。
本申请实施例的第三方面,提供了一种文档解析装置,所述装置包括:
执行模块,用于基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;各所述待解析文本块的分栏属性用于指示每个所述待解析文本块的分布形式;
第一确定模块,用于根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;
解析模块,用于分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。
本申请实施例的第四方面,提供了一种文档解析模型训练装置,所述装置包括:
第二确定模块,用于从训练文档中确定出各训练文本块以及各所述训练文本块的实际标注特征,所述实际标注特征用于指示各所述训练文本块的分栏属性;
训练模块,用于将各所述训练文本块输入初始文档解析模型,根据各所述训练文本块在所述训练文档中的位置输出各所述训练文本块的预测标注特征;
所述训练模块,还用于根据各所述训练文本块的实际标注特征和预测标注特征确定损失信息;
所述训练模块,还用于根据所述损失信息迭代优化所述初始文档解析模型,直至优化后的所述初始文档解析模型满足预设条件时,停止迭代并将满足所述预设条件的初始文档解析模型作为所述目标文档解析模型。
本申请实施例的第五方面,提供了一种电子设备,所述电子设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述第一方面的文档解析方法和第二方面的文档解析模型训练方法。
本申请实施例的第六方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的文档解析方法和第二方面的文档解析模型训练方法。
本申请实施例的有益效果包括:
本申请实施例提供的一种文档解析模型训练方法,通过从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征,可以将各训练文本块以及各实际标注特征作为训练集,以便进行后续训练过程。
将各训练文本块输入初始文档解析模型,根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征。这样可以通过各预测标注特征反映出当前该初始文档解析模型的性能、精度。
根据各训练文本块的实际标注特征和预测标注特征确定损失信息。可以通过该损失信息确定出预测标注特征与各训练文本块的实际标注特征之间的差异、该初始文档解析模型输出各训练文本块的标注特征的误差大小,可以便于后续对该初始文档解析模型的参数进行调整。
根据该损失信息迭代优化该初始文档解析模型,直至优化后的该初始文档解析模型满足预设条件时,停止迭代并将满足该预设条件的初始文档解析模型作为该目标文档解析模型。通过该损失信息对该初始文档解析模型进行迭代修正,可以有效降低该初始文档解析模型的误差,进而提升该初始文档解析模型和该目标文档解析模型的精确度。
本申请实施例提供的一种文档解析方法,通过基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性。由于该分栏属性用于指示每个待解析文本块的分布形式。进而,在确定待解析文档的待解析区域时,可以利用该分栏属性对待解析文本块进行划分,从而保证任一待解析区域中包括的各待解析文本块的分栏属性是相同的,从而在具有复杂分栏结构的待解析文档时,降低由于分栏结构导致解析与识别工作的复杂度,从而提高相应文档的解析与识别效果。
也就是说,无论一个文档中包括怎样的分栏结构,都可以通过该目标文档解析模型准确地确定出这个文档中各文本块的分栏属性和/或标注特征,以便在后续可以准确地按照各文本块的分栏属性和/或标注特征对这个文档进行解析,以得到准确的解析结果。
如此,可以提高适用性和文档解析的效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的第一种文档解析模型训练方法的流程图;
图2为本申请实施例提供的文档中文本块的示意图;
图3为本申请实施例提供的第二种文档解析模型训练方法的流程图;
图4为本申请实施例提供的第三种文档解析模型训练方法的流程图;
图5为本申请实施例提供的第四种文档解析模型训练方法的流程图;
图6为本申请实施例提供的第五种文档解析模型训练方法的流程图;
图7为本申请实施例提供的文档解析模型的原理示意图;
图8为本申请实施例提供的第一种文档解析方法的流程图;
图9为本申请实施例提供的解析结果的示意图;
图10为本申请实施例提供的第二种文档解析方法的流程图;
图11为本申请实施例提供的一种文档解析装置的结构示意图;
图12为本申请实施例提供的一种文档解析模型训练装置的结构示意图;
图13为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在相关技术中,对于涉及包含文本的文件,基于用户或使用场景的需求,往往需要对于该文件内的文本进行解析与识别。以PDF文档为例,若需要从PDF文档中导出文字信息,一般可以先获取PDF文档中各段落的阅读顺序,然后按照各段落的阅读顺序将各段落转换为Word格式或Html。或者将PDF文档转换为图片,再通过文字识别算法对图片进行识别。然而,随着PDF文档的表达方式愈加多样,版面形式也越来越丰富,越来越多的PDF文档中存在分栏结构,例如,一份PDF文档中包含多个不同区域的文字信息,且文字信息的分布形式较为复杂,从而由于无杂的分栏结构,提高了分析与识别的难度,而相关技术的方案无法准确地根据实际的分栏情况对PDF文档进行解析、识别。因此,相关技术中的方案存在适用性和文档解析的效果较差的问题。
为此,本申请提供一种改进方案,其核心思路在于:通过有效识别待解析文档中各个文本块的分布形式,即识别文档中的分栏结构,通过对不同分栏结构的区域中的文本进行解析,来剔除由于文档的复杂分栏结构所造成的分析与识别的屏障,从而提高对于具有不同分来结构的文档的文本解析准确性与适用性。
可选地,为了实现上述目标,本申请引入文档解析模型,并在下文中结合可能的示例,对该文档解析模型的训练方式,以及文档的解析方法进行示例性说明。
需要说明的是,下文中对于文档解析模型的训练方式、相关数据的定义等实现手段,仅作为示例说明,只要能够实现对于待解析文本块的分布形式进行有效识别,进而在文档解析时,能够利用相关信息,剔除掉分栏结构对于解析与识别的影响,均应属于本领域技术人员在阅读本申请内容后,可以再不进行创造性劳动的前提下实现的,其应该属于本申请涵盖的技术方案内。
下面,本申请首先对本申请实施例提供的文档解析模型训练方法进行示例性说明。
图1为本申请提供的一种文档解析模型训练方法的流程图,该方法可以应用于电子设备,该电子设备可以是任一终端设备或服务器。参见图1,本申请实施例提供一种文档解析模型训练方法,包括:
步骤1001:从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征。
可选地,该训练文档可以是任一PDF文档或Word文档,该训练文档具体可以是包括一栏、二栏、三栏和/或其他数量的分栏结构的PDF文档或Word文档。
各训练文本块可以包括该训练文档中一部分区域的文字。比如,可以将该训练文档中写入顺序相近、位置相近的多个文字作为一个训练文本块,具体可以通过对该训练文档中的各文字进行聚类的方式生成各训练文本块,本申请实施例对此不做限定。
可选地,该实际标注特征用于指示各训练文本块的分栏属性。该实际标注特征可以是由相关技术人员根据实际的分栏结构对各训练文本块进行标注得到的。
该训练文本块的分栏属性可以用于指示任一训练文本块的分栏形式,该分栏属性和/或该分栏形式可以包括分栏和未分栏。
示例性地,假设该训练文档中文字是沿文档的水平方向排布的,也即该训练文档中文字的阅读顺序是横向的,那么若一个训练文本块的分栏属性为分栏,则可以表明在该训练文档中可以存在与这个训练文本块处于同一行的其他文本块。若另一个训练文本块的分栏属性为未分栏,则可以表明在相同的一行上不存在其他文本块。
又例如,假设该训练文档中文字是沿文档的垂直方向排布的,也即该训练文档中文字的阅读顺序是竖向的,那么若一个训练文本块的分栏属性为分栏,则可以表明在该训练文档中可以存在与这个训练文本块处于同一列的其他文本块。若另一个训练文本块的分栏属性为未分栏,则可以表明在相同的一列上不存在其他文本块。
可以理解的是,若该训练文档中任一区域的分栏结构为一栏,那么可以将这任一区域视为未分栏区域,那么处于这任一区域中的训练文本块就为未分栏的训练文本块。若该训练文档中另一区域的分栏结构为二栏或三栏,那么可以将这另一区域视为分栏区域,那么处于这另一区域中的各个训练文本块就为分栏的训练文本块。
可选地,对于二栏或三栏甚至多栏的划分,其可以沿文档的水平方向进行分栏;或者,沿垂直方向进行分栏;或者,可以是水平方向与垂直方向的组合。
又例如,可以用0、1、2这三个数字来标识各训练文本块的实际标注特征。具体,可以将未分栏的训练文本块的实际标注特征标识为0、将分栏的训练文本块的实际标注特征标识为1或2。也即,假设一个分栏的训练文本块的实际标注特征为1,那么与这个分栏的训练文本块相邻的其他分栏的训练文本块的实际标注特征就为2。
这样,就可以通过不同的实际标注特征对各个相近、相邻的分栏训练文本块进行区分,以避免出现将多个不同的分栏训练文本块识别为同一个文本块的问题。
示例性地,为了更好地说明本申请实施例提供的该训练文档中各训练文本块的分栏属性和/或分栏形式,本申请实施例还提供了图2所示的文档示意图。参见图2,图2中的(a)示出了一种实际的文档W1的示意图。
假设,文档W1为一个训练文档,那么文档W1中的文本块P1、文本块P2、文本块P3则可以视作该训练文档中的三个训练文本块。
从图2中的(a)可见,文本块P1占据了文档W1完整宽度的一行或多行,也即在水平方向上,该文档W1中没有其他文本块与文本块P1处于同一行,因此可以确定文本块P1的分栏属性为未分栏。
而文本块P2和文本块P3共同占据了文档W1的一行、甚至多行,因此可以确定文本块P2和文本块P3的分栏属性均为分栏。并且,由于在文本块P2和文本块P3在文档W1所处的区域中只有这两个文本块,因此可以将文本块P2和文本块P3所在区域的分栏结构视为二栏。
需要说明的是,对于文本块P2和文本块P3占据一行的表述,其所指的是以文本块P2及文本块P3所占据的区域的粒度来说,两者彼此具有水平方向的并列关系。并且该并列关系可以指:由于两个文本块区域的大小相同构成绝对的并列,或者当文本块的区域不等时,以一种相对松散的方式构成并列关系。
另外,还可以将文本块P1、文本块P2、文本块P3分别划分为更小的文本块,本申请实施例对此不做限定。
接下来,继续参见图2,图2中的(b)示出了一种模块化的文档W2的示意图。
假设,文档W1为一个训练文档,那么文档W1中的块1、块2、块3、块4、块5、块6、块7则可以视作该训练文档中的7个训练文本块。
从图2中的(b)可见,文档W2中的块1和块7分别占据了文档W2的一整行,也即在文档W2中没有其他文本块与块1或块7处于同一行,因此可以确定文档W2中的块1和块7的分栏属性为未分栏。
而块2、块3、块4共同占据了文档W2的一整行,也即,块2、块3、块4处于文档W2中的同一行,因此可以确定块2、块3、块4的分栏属性均为分栏。并且,由于在块2、块3、块4在文档W2所处的区域中有三个文本块,因此可以将块2、块3、块4所在区域的分栏结构视为三栏。
而块5、块6共同占据了文档W2的一整行,也即,块5、块6处于文档W1中的同一行,因此可以确定块5、块6的分栏属性也为分栏。并且,由于在块5、块6在文档W2所处的区域中有2个文本块,因此可以将块5、块6所在区域的分栏结构视为二栏。
并且,继续参见图2中的(b),在利用标签0、1、2来标识各训练文本块的实际标注特征时,由于块1和块7的分栏属性为未分栏,因此可以将块1和块7的实际标注特征标识为标签0。
而块2、块3、块4的分栏属性为分栏,且块2、块3、块4为三栏的分栏结构,在将块2的实际标注特征标识为标签1时,因为块3与块2相邻,块4与块3相邻,因此将块3标识为标签2、块4标识为标签1。进而还可以根据相同的标识方式,将块5、块6的实际标注特征分别标识为标签1和标签2。
如此,即可根据文档W2中各个块的标签快速、准确地确定出各个块的分栏属性,进而获得每个块的分布形式。
可选地,在确定各训练文本块时,还可以通过各训练文本块中各文字在该训练文档中的位置确定出各训练文本块在该训练文档中的位置,并通过各训练文本块中各文字的写入顺序确定出各训练文本块在该训练文档中的写入顺序。
示例性地,各文字在该训练文档中的位置可以是指各文字在PDF文档中的像素位置,各训练文本块的位置可以包括各训练文本块的最左方、最右方、最上方和最下方位置,也可以包括各训练文本块的宽度和高度。
具体地,对于任一训练文本块来说,该训练文本块中各文字对应的最左侧的坐标作为该训练文本块的最左方位置,各文字对应的最右侧的坐标作为该训练文本块的最右方位置,各文字对应的最下侧的坐标作为该训练文本块的最下方位置,各文字对应的最上侧的坐标作为该训练文本块的最上方位置。进而可以根据该训练文本块的最右方位置和该训练文本块的最左方位置对应的坐标计算该训练文本块的宽度,并根据该训练文本块的最上方位置和该训练文本块的最下方位置对应的坐标计算该训练文本块的高度。本申请实施例对此不做限定。
一般地,可以将由上到下、由左到右的顺序作为默认写入文字的顺序,因此,可以将在该初始文档中最上边的一行中最左侧的一个文字的写入顺序视作1。
值得注意的是,在从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征之后,可以将各训练文本块以及各实际标注特征作为训练集,以便进行后续训练步骤。
步骤1002:将各训练文本块输入初始文档解析模型,根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征。
可选地,该初始文档解析模型可以是以循环神经网络(Recurrent NeuralNetwork,简称RNN)中的长短时记忆网络 (Long Short-Term Memory,简称LSTM)作为基本的序列建模模块的神经网络模型。另外,为了确保网络模型结构的一致性,还可以使用双向长短时记忆网络(Bi-LSTM)来建立该初始文档解析模型,本申请实施例对此不做限定。
该初始文档解析模型可以用于根据各训练文本块在该训练文档中的位置进行处理、运算、预测,以估计出各文本块可能的分类属性和/或标注特征。
可选地,该预测标注特征可以是由该初始文档解析模型估计的用于指示各训练文本块可能的分类属性的特征。
另外,在将各训练文本块输入该初始文档解析模型时,可以按照各训练文本块的写入顺序将各训练文本块依次输入该初始文档解析模型。
值得注意的是,由于该初始文档解析模型还未经过训练,该初始文档解析模型的实际性能可能还较低,因此,该初始文档解析模型输出的各训练文本块的预测标注特征可能并不准确。也即,各预测标注特征可能与各实际标注特征并不相同。
值得说明的是,由该初始文档解析模型根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征,这样可以通过各预测标注特征反映出当前该初始文档解析模型的性能、精度。
步骤1003:根据各训练文本块的实际标注特征和预测标注特征确定损失信息。
可选地,该损失信息用于表征由该初始文档解析模型输出的预测标注特征与各训练文本块的实际标注特征之间的差异。该损失信息还可以用于准确地反映出该初始文档解析模型输出各训练文本块的标注特征的误差大小。
一般地,该损失信息越大,则表明该初始文档解析模型输出各训练文本块的预测标注特征与各训练文本块的实际标注特征之间的差异越大。
值得注意的是,通过准确地确定出该损失信息可以便于后续对该初始文档解析模型的参数进行调整。其中,该电子设备根据该损失信息调整该初始文档解析模型中的参数的操作可以参考相关技术,本申请实施例对此不作限定。
步骤1004:根据该损失信息迭代优化该初始文档解析模型,直至优化后的该初始文档解析模型满足预设条件时,停止迭代并将满足该预设条件的初始文档解析模型作为该目标文档解析模型。
可选地,该预设条件可以是由相关技术人员预先进行设置的,该预设条件可以是训练该初始文档解析模型达到一定的迭代次数,比如500次,当然也可以是其他可能的次数。该预设条件也可以是该损失信息小于一定的阈值。本申请实施例对此不作限定。
可选地,该目标文档解析模型就是已经达到该预设条件的初始文档解析模型。也即,该目标文档解析模型是已经训练好的模型,一般该目标文档解析模型的参数不会再改变。
值得注意的是,由于该损失信息表征了该初始文档解析模型输出的预测标注特征和各实际标注特征之间的差异,那么通过该损失信息对该初始文档解析模型进行迭代修正,可以有效降低该初始文档解析模型输出各预测标注特征的误差,进而提升该初始文档解析模型确定各文本块的分栏属性和/或标注特征的精确度。
值得说明的是,通过该损失信息对该初始文档解析模型进行迭代修正,可以有效降低该初始文档解析模型的误差,进而提升该初始文档解析模型和该目标文档解析模型的精确度。那么,在通过该目标文档解析模型解析任一文档的情况下,就能达到提高确定这任一文档中各文本块的分栏属性和/或标注特征的精度和实用性的效果。
在本申请实施例中,从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征,可以将各训练文本块以及各实际标注特征作为训练集,以便进行后续训练过程。
将各训练文本块输入初始文档解析模型,根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征。这样可以通过各预测标注特征反映出当前该初始文档解析模型的性能、精度。
根据各训练文本块的实际标注特征和预测标注特征确定损失信息。可以通过该损失信息确定出预测标注特征与各训练文本块的实际标注特征之间的差异、该初始文档解析模型输出各训练文本块的标注特征的误差大小,可以便于后续对该初始文档解析模型的参数进行调整。
根据该损失信息迭代优化该初始文档解析模型,直至优化后的该初始文档解析模型满足预设条件时,停止迭代并将满足该预设条件的初始文档解析模型作为该目标文档解析模型。通过该损失信息对该初始文档解析模型进行迭代修正,可以有效降低该初始文档解析模型的误差,进而提升该初始文档解析模型和该目标文档解析模型的精确度。
也就是说,无论一个文档中包括怎样的分栏结构,都可以通过该目标文档解析模型准确地确定出这个文档中各文本块的分栏属性,以便在后续可以准确地按照各文本块的分栏属性对这个文档进行解析,以得到准确的解析结果。对于此部分,会在下文文档解析的示例中进行详细说明。
为了更详细地说明初始文档解析模型输出各预测标注特征的过程,本申请实施例还提供了一种可能的实现方式,在图1的基础上,继续参见图3, 将各训练文本块输入初始文档解析模型,根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征,包括:
步骤1005:将各训练文本块输入初始文档解析模型,提取各训练文本块的位置特征信息。
可选地,该位置特征信息用于指示各训练文本块在该训练文档中的位置。
该位置特征信息具体可以是通过对各训练文本块的位置进行特征提取得到的。
通过提取各位置特征信息,这样,可以消除各训练文本块中不相干的特征的影响,以提高机器学习的效率和效果。
步骤1006:根据该位置特征信息得到与该训练文档对应的位置信息序列。
可选地,该位置信息序列用于指示各训练文本块在该训练文档中的位置关系。
各训练文本块在该训练文档中的位置关系可以是指各训练文本块之间的方向、距离等。
具体,该位置信息序列可以是按照各训练文本块的写入顺序对各训练文本块的位置特征信息进行编码生成的。
值得注意的是,该位置信息序列的维度可以比各位置特征信息的维度高,这样,通过高维度的该位置信息序列进行该初始文档解析模型的训练,可以提高该初始文档解析模型输出预测标注特征的准确性和训练该初始文档解析模型的效率。
步骤1007:根据该位置信息序列输出各训练文本块的预测标注特征。
如此,可以得到准确反映该初始文档解析模型的性能、精度的各训练文本块的预测标注特征,便于后续能够准确地确定出上述损失信息。
一种可能的实现方式中,将各训练文本块输入初始文档解析模型,提取各训练文本块的位置特征信息,包括:
根据预设的滑动窗口和滑动步长从各训练文本块确定至少一个训练文本块集合,并将各训练文本块集合输入该初始文档解析模型。
可选地,预设的滑动窗口的长度可以是80或其他任意正整数,预设的滑动步长可以是滑动窗口的长度的二分之一,本申请实施例对此不做限定。
可选地,该训练文本块集合用于表征各训练文本块的位置信息。
对该训练文本块集合中各训练文本块的位置信息进行特征提取,得到各位置特征信息。
值得注意的是,由于该训练文档中训练文本块的数量可能是不固定的,通过这种滑动窗口的方式将各个文本块作为文本块集合输入到该初始文档解析模型时,若剩下的文本块的数量小于滑动窗口的长度,那么将文本块集合中空缺的部分用0填充。同时,在后续进行特征提取时,可以不对文本块集合中用0填充的部分进行提取,这样,用0填充的部分也就不会参与模型的训练或梯度更新。
这样,就可以避免因为该训练文档中训练文本块的数量不固定导致的生成的各训练文本块集合的长短不一的问题,进而可以得到生成各训练文本块集合和各位置特征信息的统一性。
一种可能的实现方式中,根据该位置特征信息得到与该训练文档对应的位置信息序列,包括:
对各位置特征信息进行编码,并对编码后的位置特征信息进行升维处理,得到该位置信息序列。
可选地,可以是分别针对一个训练文本块集合中的各位置特征信息进行编码,在这种情况下,就可以根据一个训练文本块集合分别得到一个位置信息序列。
也可以针对多个训练文本块集合中的各位置特征信息进行编码,在这种情况下,就可以根据多个训练文本块集合分别得到一个位置信息序列。本申请实施例对此不做限定。
示例性地,任一训练文本块的位置特征信息可以包括这任一训练文本块在该训练文档中最左边的位置、最右边的位置、最上边的位置、最下边的位置。比如,用
Figure SMS_1
表示该训练文档中写入顺序为1的文本块,用/>
Figure SMS_2
表示该训练文档中写入顺序为2的文本块,/>
Figure SMS_3
表示该训练文档中写入顺序为t的文本块,那么文本块/>
Figure SMS_4
的位置特征信息可以表示为:
Figure SMS_5
其中
Figure SMS_7
表示文本块/>
Figure SMS_11
在该训练文档中最左边的位置,/>
Figure SMS_14
表示文本块/>
Figure SMS_9
在该训练文档中最上边的位置,/>
Figure SMS_12
表示文本块/>
Figure SMS_15
在该训练文档中最右边的位置,/>
Figure SMS_17
表示文本块/>
Figure SMS_6
在该训练文档中最下边的位置,/>
Figure SMS_10
表示文本块/>
Figure SMS_13
的宽度,/>
Figure SMS_16
表示文本块/>
Figure SMS_8
的宽度。
然后通过对文本块
Figure SMS_18
……文本块/>
Figure SMS_19
等各个文本块的位置特征信息编码,并对编码后的位置特征信息进行升维处理之后,得到的位置信息序列P可以表示为:
Figure SMS_20
这样,就可以得到高维度的位置信息序列进行该初始文档解析模型的训练,可以提高该初始文档解析模型输出预测标注特征的准确性和训练该初始文档解析模型的效率。
为了更好地解释对编码后的位置特征信息进行升维处理的操作,本申请实施例还提供一种可能的方式。对编码后的位置特征信息进行升维处理,得到该位置信息序列,包括:
将该编码后的位置特征信息乘以预设嵌入矩阵,得到目标乘积。
可选地,该编码后的位置特征信息可以是向量形式的。
该预设嵌入矩阵可以是128维、256维、512维或其他任意可能维度的矩阵,本申请实施例对此不做限定。
值得注意的是,在将该编码后的位置特征信息乘以预设嵌入矩阵之后,就可以实现对该编码后的位置特征信息的升维,而该目标乘积就是升维之后的位置特征信息。
将该目标乘积作为该位置信息序列。
这样,就可以得到高维度的位置信息序列来对该初始文档解析模型进行训练。
一种可能的实现方式中,根据预设的滑动窗口和滑动步长从各训练文本块确定至少一个训练文本块集合之前,该方法还包括:
对各训练文本块的位置信息进行归一化处理。
如此,可以将各训练文本块的位置信息转换为处于区间(1,0)的小数,以便于该电子设备可以快速、高效地处理各训练文本块的位置信息,以及各训练文本块集合。
由于为了保持网络模型结构的一致性,可以使用双向长短时记忆 (Bi-LSTM) 网络来建立该初始文档解析模型,本申请实施例还提供一种可能的实现方式。参见图4, 根据该位置信息序列输出各训练文本块的预测标注特征,包括:
步骤1008:通过子网络在各时间步内根据该位置信息序列中的第一训练文本块的位置特征信息和第二训练文本块的位置特征信息确定出该第一训练文本块的隐藏状态。
可选地,该子网络可以是Bi-LSTM网络。
可选地,该第一训练文本块为各训练文本块中与当前时间步对应的文本块,该第二训练文本块为排列在该第一训练文本块之前的一个文本块。
该第一训练文本块的隐藏状态用于表征该第一训练文本块与该第二训练文本块之间的相对位置关系。
示例性地,假设存在三个时间步,且存在三个训练文本块1、2、3,那么在第一个时间步内,只会根据训练文本块1输出一个初始的隐藏状态。
在第二个时间步内,只会根据训练文本块1和训练文本块2输出一个训练文本块1的隐藏状态。在第三个时间步内,只会根据训练文本块2和训练文本块3输出一个训练文本块2的隐藏状态。本申请实施例对此不做限定。
可以理解的是,该子网络在每一个时间步内都会将两个连续的训练文本块的位置特征信息作为输入,以输出这两个连续的训练文本块中后一个训练文本块的隐藏状态。
由于Bi-LSTM网络的特性,任一个时间步输出的隐藏状态是可以跟踪该时间步前的一个时间步的隐藏状态的,并且,如果能得到各时间步的记忆状态,该时间步还可以跟踪该时间步之前所有时间步的隐藏状态。如此,在所有时间步都输出隐藏状态之后,就可以各个训练文本块之间的相对位置关系。
步骤1009:根据各训练文本块的隐藏状态确定训练文本序列,并根据该训练文本序列确定各训练文本块的预测标注特征。
示例性地,各训练文本块的隐藏状态可以表示为:
Figure SMS_21
其中,
Figure SMS_22
为写入顺序为1的文本块的隐藏状态,/>
Figure SMS_23
为写入顺序为2的文本块的隐藏状态,/>
Figure SMS_24
为写入顺序为t的文本块的隐藏状态。
另外,对于第t个时间步来说,可以通过 Bi-LSTM单元后将当前的文本块
Figure SMS_25
的隐藏状态输出,那么,/>
Figure SMS_26
可以表示为:
Figure SMS_27
其中,
Figure SMS_28
表示第/>
Figure SMS_29
个文本块的隐藏状态,/>
Figure SMS_30
表示第/>
Figure SMS_31
个文本块的记忆状态。
最终,该训练文本序列可以表示为
Figure SMS_32
为了确保在训练该初始文档解析模型时,出现过拟合的情况,本申请实施例提供一种可能的实现方式,在图4的基础上,具体参见图5,根据该训练文本序列确定各训练文本块的预测标注特征,包括:
步骤1010:对该训练文本序列进行随机丢弃处理。
可选地,随机丢弃处理可以是在该初始文档解析模型中设置随机丢弃(Dropout)层,以使得神经网络中每个神经元有一定的概率被移除,比如50%的概率。
这样,就可以防止训练时神经网络模型出现过拟合,减小模型规模,提高模型的泛化能力。
步骤1011:通过预设的线性投影模型对随机丢弃处理后的训练文本序列进行降维处理,并得到与各训练文本块对应的映射结果。
可选地,该预设的线性投影模型可以将多维空间中的数据投影为低维度的数据,以实现降维的目的。
可选地,该映射结果可以用于表征对训练文本序列降维之后,该初始文档解析模型输出的降维结果。
示例性地,若经过上述升维处理之后随机丢弃处理后的训练文本序列为512维数据,那么通过该线性投影模型降维之后,可以依次将512维降低为256、128、……、3维,在降为3维之后,可以确保与各训练文本块对应的映射结果与上述实际标注特征的维度匹配。
一种可能的方式,在执行步骤1011之前,还可以通过全连接层对随机丢弃处理后的训练文本序列进行处理。
如此,可以提高整个模型的鲁棒性。
步骤1012:将各映射结果作为各训练文本块的预测标注特征。
示例性地,步骤1010-1012的过程可以表示为:
Figure SMS_33
其中,
Figure SMS_34
表示第N个训练文本序列。
由于已经将各映射结果降维至3维,那么各映射结果与该实际标注特征的维度是匹配的,那么就可以将各映射结果作为各预测标注特征,这样就可以得到能够反映出当前该初始文档解析模型的性能、精度的各预测标注特征,以便进行后续训练步骤。
接下来,提供一种可能的实现方式来详细说明如何从训练文档中得到各训练文本块的步骤,在图1的基础上,参见图6,从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征,包括:
步骤1013:遍历该训练文档,得到该训练文档中的各文字、各文字的位置信息以及写入顺序。
可选地,可以按照由上到下、由左到右的顺序依次扫描该训练文档中的文字,并将扫描到各文字的顺序作为各文字的写入顺序。
需要说明的是,该扫描顺序基于文档以“行”的形式排布信息内容,若文档存在其他排布形式,例如以“列”的形式排布,或者以“行”与“列”的组合形式进行排布,则该扫描的顺序可以基于具体的排布形式进行调整,例如,从右到左且从上到下。
并且,在扫描各文字时,还可以通过计算各文字中心位置距离该训练文档的各边缘的距离,来确定各文字的位置信息。
各文字的位置信息具体可以包括各文字距离该训练文档的各边缘的像素点的个数、像素位置、各文字在该训练文档中的坐标等信息。
步骤1014:基于各文字的位置信息对各文字进行聚类处理,得到各训练文本块以及各训练文本块的位置信息。
可选地,可以通过任意一种可能的聚类方式对各文字进行聚类,本申请实施例对此不做限定。
各训练文本块的位置信息则可以包括各训练文本块最左侧、最右侧、最上方、最下方在该训练文档的坐标或位置。
步骤1015:按照各训练文本块中文字的写入顺序确定各训练文本块的写入顺序。
具体可以根据各训练文本块中各文字的写入顺序的平均值对各训练文本块进行从小到大排序,各训练文本块的排序位置即为各训练文本块的写入顺序。
步骤1016:根据各训练文本块的位置信息和该训练文档中各区域的分栏属性确定各训练文本块的实际标注特征。
可选地,该训练文档中各区域可以是由相关技术人员根据实际分栏结构的来划分的区域,各区域是不重叠的。
该训练文档中各区域的分栏属性可以是由相关技术人员提前标注的。
具体可以按照各训练文本块的写入顺序,并通过各训练文本块的位置信息确定各训练文本块位于该训练文档中的哪个区域,并按照各训练文本块所在区域的分栏属性以及各训练文本块周围其他训练文本块的分栏属性或实际标注特征确定各训练文本块的实际标注特征。
一般地,可以先确定写入顺序为1的训练文本块的实际标注特征,这样,通过不同的实际标注特征对各个相近、相邻的分栏训练文本块进行区分。
一种可能的实现方式中,根据各训练文本块的实际标注特征和预测标注特征确定损失信息,包括:
利用交叉熵损失函数、各训练文本块的实际标注特征和预测标注特征计算交叉熵损失值,并将该交叉熵损失值作为该损失信息。
示例性地,可以通过如下方式来计算该交叉熵损失值:
Figure SMS_35
其中,
Figure SMS_36
为非线性激活函数,/>
Figure SMS_37
表示权重参数,N表示批处理(batchsize)的大小,/>
Figure SMS_38
表示第i个文本块预测标注特征,/>
Figure SMS_39
表示文本块所在区域所对应的实际标注特征。
一般,
Figure SMS_40
为1或0。比如,若一个文本块的位置信息均为0,那么,这个文本块对应的
Figure SMS_41
为0,其他情况则均为1。
一种可能的方式,根据该损失信息迭代优化该初始文档解析模型,包括:
利用该损失信息和随机梯度下降算法对该初始文档解析模型进行优化,并根据优化结果更新该初始文档解析模型的参数。
可选地,可以通过任一种可能的随机梯度下降算法进行优化,并相应的调整该初始文档解析模型的各个参数,本申请实施例对此不做限定。
这样,可以有效降低该初始文档解析模型的误差,进而提升该初始文档解析模型和该目标文档解析模型的精确度。
为了更好地说明该初始文档解析模型和/或该目标文档解析模型的工作原理,本申请实施例还提供了图7,图7示出了一种文档解析模型的原理示意图,在上图2的基础上,继续参见图7。
可见,该文档解析模型包括特征嵌入层、Bi-LSTM子网络、随机丢弃(Dropout)层、全连接层、Softmax层。
具体地,将图2所示的文档W1作为训练文档,并将文档W1中的各个文本块作为训练文本块输入到文档解析模型中之后,可以通过特征嵌入层提取出各个训练文本块的位置特征信息,并且还可以通过特征嵌入层对各个训练文本块的位置特征信息进行升维处理和其他可能的处理。并将处理后的位置特征信息输入到Bi-LSTM子网络中,由Bi-LSTM网络根据各个训练文本块的隐藏状态确定出训练文本序列,并将训练文本序列输出到随机丢弃层。
再由随机丢弃层对该训练文本序列进行随机丢弃处理,并将随机丢弃处理后的训练文本序列输出到全连接层和Softmax层,以实现通过预设的线性投影模型对随机丢弃处理后的训练文本序列进行降维处理,并得到与各训练文本块对应的映射结果,然后将各映射结果作为各训练文本块的预测标注特征。
最后再基于交叉熵损失函数、各训练文本块的实际标注特征和预测标注特征计算交叉熵损失值,并利用交叉熵损失值迭代优化该初始文档解析模型,以在迭代优化完成的情况下,输出最终的预测标注特征。
基于前文论述,下面对于文档解析方法的示例进行说明,其可以使用能够识别出文本块的分栏属性的文档解析模型,在进行文档解析前,对该文档的分栏结构进行识别,以剔除复杂分栏结构对于文档解析的影响,可选地,该文档解析模型可以采用上述示例的训练方式获得,也可以基于其他方式获得,此处不与限定。具体的,图8为本申请提供的一种文档解析方法的流程图,该方法可以应用于上述电子设备。参见图8,本申请实施例提供一种文档解析方法,包括:
步骤2001:基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性。
可选地, 该待解析文档可以是任意一个PDF文档,该待解析文档可以是分栏文档,也可以是未分栏文档。
各待解析文本块分别包括该待解析文档中不同区域的文字。
可选地,各待解析文本块的分栏属性用于指示每个待解析文本块的分布形式,该分布形式包括分栏和未分栏。
值得注意的是,由于该目标文档解析模型已经是迭代优化后的模型,性能和精度较高,那么由该目标文档解析模型确定的各待解析文本块的分栏属性就已经非常符合各待解析文本块的实际的分栏属性了。
示例性地,由于该初始文档解析模型和/或该目标文档解析模型一般输出的是预测标注特征,那么若任一待解析文本块的预测标注特征为0,则表明这任一待解析文本块的分栏属性为未分栏,若任一待解析文本块的预测标注特征为1或2,则表明这任一待解析文本块的分栏属性为分栏。
这样,就可以通过该目标文档解析模型准确地得到各待解析文本块的分栏属性。
步骤2002:根据各待解析文本块的分栏属性,确定该待解析文档的待解析区域。
可选地,该待解析区域包括分栏区域和/或未分栏区域。该待解析区域的数量可以是任意正整数,本申请实施例对此不做限定。
该待解析区域中可以包括一个待解析文本块,也可以包括多个待解析文本块。
一般地,任一待解析区域中包括的各待解析文本块的分栏属性是相同的,这样,可以确保不会将分栏的待解析文本块和未分栏的待解析文本块划分到同一个待解析区域中。
步骤2003:分别按照各待解析区域对该待解析文档进行解析,得到该待解析文档的解析结果。
值得说明的是,由于该目标文档解析模型确定的各待解析文本块的分栏属性非常符合各待解析文本块的实际的分栏属性,然后再根据各待解析文本块的分栏属性确定出各待解析区域,也即可以准确地将该待解析文档按照实际的分栏结构划分为多个不同的分栏区域或未分栏区域。
然后再分别对各分栏区域和各未分栏区域进行解析,就可以避免在解析时将分栏区域和未分栏区域中的文字混在一起,或者将不同分栏区域内的文字混在一起,导致解析出的文字顺序混乱。
也即,无论待解析文档中包括哪种分栏结构,都可以通过该目标文档解析模型准确地确定出待解析文档中各文本块的分栏属性,以便在后续可以准确地按照各文本块的分栏属性对待解析文档进行解析,以得到准确的解析结果。
在本申请实施例中,通过基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性。由于该分栏属性用于指示每个待解析文本块的分布形式。进而,在确定待解析文档的待解析区域时,可以利用该分栏属性对待解析文本块进行划分,从而保证任一待解析区域中包括的各待解析文本块的分栏属性是相同的,从而在具有复杂分栏结构的待解析文档时,降低由于分栏结构导致解析与识别工作的复杂度,从而提高相应文档的解析与识别效果。
如此,可以提高适用性和文档解析的效果。
一种可能的实现方式中,基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性,包括:
从该待解析文档中提取出各待解析文本块。
可选地,从待解析文档中提取出各待解析文本块时,可以参照上述步骤1001、步骤1013-1015中从训练文档中确定出各训练文本块的方式进行,并且,还可以确定出各待解析文本块的位置信息和写入顺序。本申请实施例对此不做限定。
这样,便于后续确定各待解析文本块的预测标注特征,以最终获得该待解析文本块的分栏属性,进而准确确定该待解析文档的分栏结构。
根据该目标文档解析模型、各待解析文本块的位置信息和写入顺序,得到各待解析文本块的分栏属性。
一般地,具体还可以参照上述步骤1002、步骤1005-1012以及其他对应的步骤中,上述初始文档解析模型对训练文本块的处理过程来通过该目标文档解析模型对各待解析文本块进行类似的处理,以确定出各待解析文本块的分栏属性。
示例性地,若图7所示的文档解析模型已经完成迭代训练,也即图7所示的文档解析模型已经是目标文档解析模型,那么就可以将图2中所示出的文档W1作为待解析文档输入到该目标文档解析模型,以得到文档W1的解析结果。
为了更清楚、明白地对该待解析文档的解析结果进行说明,继续以图2中的(a)为例,并且本申请实施例还提供了图9,图9示出了一种解析结果的示意图。
具体地,在该目标文档解析模型对图2所示文档W1进行解析时,是将文档W1中的文本块P1、文本块P2、文本块P3分别作为了一个待解析区域,并且分别对各待解析区域进行解析的。
从图9所示的解析结果可见,该目标文档解析模型将该文档W1确定为解析显示区域J1、解析显示区域J2、解析显示区域J3,且解析显示区域J1对应文本块P1、解析显示区域J2对应文本块P2、解析显示区域J3对应文本块P3。
可见,图9中所示的解析结果是通过分别对图2中的(a)所示P1、P2、P3进行解析得到的,因此,该解析结果中不同分栏区域内的文字是不会混在一起的,从图9可见本申请实施例提供的文档解析方法可以得到较优的解析结果。
需要说明的是,上述示例中图2中的(a)、图7中左侧一列及图9中的文字内容,为通过网络抓取的公开信息,其仅用于对于本案中分栏场景进行示例性说明。
一种可能的实现方式中,根据该目标文档解析模型、各待解析文本块的位置信息和写入顺序,得到各待解析文本块的分栏属性,包括:
根据各待解析文本块生成文本块序列。
可选地,该文本块序列用于指示各待解析文本块的位置信息和写入顺序。该文本块序列还可以用于指示各待解析文本块在该待解析文档中的位置关系。
示例性地,可以参照上述文档解析模型训练方法的各个实施例中相应的步骤中根据滑动窗口和滑动步长生成上述各训练文本块集合的方式来生成该文本块序列。
将该文本块序列输入到该目标文档解析模型中,以得到各待解析文本块的分栏属性。
具体地,该目标文档解析模型用于根据该文本块序列确定各待解析文本块之间的相对位置关系,并根据该相对位置关系确定并输出各待解析文本块的分栏属性。
示例性地,可以参见上述实施例中将各训练文本块集合输入该初始文档解析模型的方式,将该文本块序列输入到该目标文档解析模型中。
具体可以先对该文本块序列中各待解析文本块在待解析文档中的位置进行特征提取,得到各待解析文本块的位置特征信息,并对各待解析文本块的位置特征信息进行编码、升维处理等操作。
然后再由该目标文档解析模型输出各待解析文本块的预测标注特征,然后再根据预测标注特征确定各待解析文本块的分类属性。本申请实施例对此不做限定。
这样,就可以准确地确定出各待解析文本块的分类属性。
一种可能的实现方式中,参见图10,将该文本块序列输入到该目标文档解析模型中,以得到各待解析文本块的分栏属性,包括:
步骤2004:该目标文档解析模型根据该文本块序列指示的各待解析文本块的位置信息和写入顺序计算用于表征各待解析文本块之间的相对位置关系的隐藏状态。
可选地,具体可以通过上述
Figure SMS_42
等公式来计算各待解析文本块的隐藏状态。
步骤2005:根据各待解析文本块的隐藏状态输出各待解析文本块的预测标注特征。
可选地,具体可以通过各待解析文本块的隐藏状态得到与上述实施例中的训练文本序列类似的待解析文本序列,并对该待解析文本序列进行随机丢弃处理、利用预设的线性投影模型进行降维处理并映射的方式,由该目标文档解析模型准确地输出各待解析文本块的预测标注特征。
步骤2006:通过非线性激活函数对各待解析文本块的预测标注特征进行运算,并将该非线性激活函数输出的计算结果确定各待解析文本块的目标标注特征。
可选地,该非线性激活函数为上述
Figure SMS_43
示例性地,通过该非线性激活函数对各待解析文本块的预测标注特征进行运算之后,会输出多个索引值对应的概率值,比如存在3个索引值,每个索引值会对应一个概率值,就会输出3个概率值。一般地,可以将概率值最大的一个索引值对应的标注特征作为该非线性激活函数输出的计算结果。
例如,一个待解析文本块的预测标注特征可以是三维特征,具体可以是【1.0,2.0,5.0】,该非线性激活函数对这个待解析文本块的预测标注特征进行运算之后,可以依次输出0.02、0.05、0.93三个概率值,可见,这三个概率值相加得到的和为1。假设,该预测标注特征的每一维特征分别对应的三个索引值为0、1、2,那么索引值0对应的概率值就为0.02,索引值1对应的概率值就为0.05,索引值2对应的概率值就为0.93。可见,概率值最大的索引值为2,也即对应的标注特征为2,那么就可以将2作为这个待解析文本块的目标标注特征。本申请实施例对此不做限定。
步骤2007:根据各待解析文本块的目标标注特征确定各待解析文本块的分栏属性。
示例性地,若任一待解析文本块的目标标注特征为0,则表明这任一待解析文本块的分栏属性为未分栏,若任一待解析文本块的目标标注特征为1或2,则表明这任一待解析文本块的分栏属性为分栏。
一种可能的实现方式中,根据各待解析文本块的分栏属性,确定该待解析文档的待解析区域,包括:
确定与第一待解析文本块的分栏属性相同的第二待解析文本块。
可选地,该第一待解析文本块为各待解析文本块中的任意一个。
该第二待解析文本块的数量可以是1个也可以是多个,本申请实施例对此不做限定。
确定该第二待解析文本块和该第一待解析文本块之间的距离是否满足预设距离。
可选地,该预设距离可以是由相关技术人员设置的,一般可以将该预设距离设置的较小,本申请实施例对此不做限定。
若满足,则将该第二待解析文本块和该第一待解析文本块合并为一个待解析区域。
如此,就可以根据各待解析文本块的分类属性和预设距离,将分类属性相同且距离较近的文本块作为一个待解析区域,进而可以避免在解析时将分栏区域和未分栏区域中的文字混在一起,或者将不同分栏区域内的文字混在一起,导致解析出的文字顺序混乱。
一种可能的实现方式中,将该第二待解析文本块和该第一待解析文本块合并为一个该待解析区域之后,该方法还包括:
若该待解析区域中的待解析文本块的分栏属性为分栏,则确定该待解析区域为该分栏区域。
需要说明的是,该待解析区域为第二待解析文本块和第一待解析文本块合并构成的待解析区域。
若该待解析区域中的待解析文本块的分栏属性为未分栏,则确定该待解析区域为该未分栏区域。
这样,就可以准确地确定出该待解析文档中的各个分栏区域和各个未分栏区域,也即,可以准确地、可靠地确定出该待解析文档的分栏结构,以确保解析文档的效果和适用性。
下述对用以执行的本申请所提供文档解析模型训练方法和文档解析方法的装置、设备及计算机可读存储介质等进行说明,其具体的实现过程以及技术效果参见上述,下述不再赘述。
图11是本申请实施例提供的一种文档解析装置的结构示意图,参见图11,该装置包括:
执行模块301,用于基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性。
可选地,该分栏属性用于指示每个待解析文本块的分布形式。
第一确定模块302,用于根据各待解析文本块的分栏属性,确定该待解析文档的待解析区域。
该待解析区域包括分栏区域和/或未分栏区域。
解析模块303,用于分别按照各待解析区域对各待解析文档进行解析,得到该待解析文档的解析结果。
图12是本申请实施例提供的一种文档解析模型训练装置的结构示意图,参见图12,该装置包括:
第二确定模块401,用于从训练文档中确定出各训练文本块以及各训练文本块的实际标注特征。
该实际标注特征用于指示各训练文本块的分栏属性。
训练模块402,用于将各训练文本块输入初始文档解析模型,根据各训练文本块在该训练文档中的位置输出各训练文本块的预测标注特征。
训练模块402,还用于根据各训练文本块的实际标注特征和预测标注特征确定损失信息。
训练模块402,还用于根据该损失信息迭代优化该初始文档解析模型,直至优化后的该初始文档解析模型满足预设条件时,停止迭代并将满足该预设条件的初始文档解析模型作为该目标文档解析模型。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微控制器,或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图13是本申请实施例提供的一种电子设备的结构示意图。参见图13,电子设备包括:存储器501、处理器502,存储器501中存储有可在处理器502上运行的计算机程序,处理器502执行计算机程序时,实现上述任意各个方法实施例中的步骤。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。
可选地,本申请还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述任一文档解析模型训练方法和任一文档解析方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
以上该仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (18)

1.一种文档解析方法,其特征在于,所述方法包括:
基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;各所述待解析文本块的分栏属性用于指示每个所述待解析文本块的分布形式;
根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;
分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。
2.如权利要求1所述的文档解析方法,其特征在于,所述基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性,包括:
从所述待解析文档中提取出各所述待解析文本块,各所述待解析文本块分别包括所述待解析文档中不同区域的文字;
根据所述目标文档解析模型、各所述待解析文本块的位置信息和写入顺序,得到各所述待解析文本块的分栏属性。
3.如权利要求2所述的文档解析方法,其特征在于,所述根据所述目标文档解析模型、各所述待解析文本块的位置信息和写入顺序,得到各所述待解析文本块的分栏属性,包括:
根据各所述待解析文本块生成文本块序列,所述文本块序列用于指示各所述待解析文本块的位置信息和写入顺序;
将所述文本块序列输入到所述目标文档解析模型中,以得到各所述待解析文本块的分栏属性,所述目标文档解析模型用于根据所述文本块序列确定各所述待解析文本块之间的相对位置关系,并根据所述相对位置关系确定并输出各所述待解析文本块的分栏属性。
4.如权利要求3所述的文档解析方法,其特征在于,所述将所述文本块序列输入到所述目标文档解析模型中,以得到各所述待解析文本块的分栏属性,包括:
所述目标文档解析模型根据所述文本块序列指示的各所述待解析文本块的位置信息和写入顺序计算用于表征各所述待解析文本块之间的相对位置关系的隐藏状态;
根据各所述待解析文本块的隐藏状态输出各所述待解析文本块的预测标注特征;
通过非线性激活函数对各所述待解析文本块的预测标注特征进行运算,并将所述非线性激活函数输出的计算结果确定各所述待解析文本块的目标标注特征;
根据各所述待解析文本块的目标标注特征确定各所述待解析文本块的分栏属性。
5.如权利要求1所述的文档解析方法,其特征在于,所述根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,包括:
确定与第一待解析文本块的分栏属性相同的第二待解析文本块,所述第一待解析文本块为各所述待解析文本块中的任意一个;
确定所述第二待解析文本块和所述第一待解析文本块之间的距离是否满足预设距离;
若满足,则将所述第二待解析文本块和所述第一待解析文本块合并为一个所述待解析区域。
6.如权利要求5所述的文档解析方法,其特征在于,所述将所述第二待解析文本块和所述第一待解析文本块合并为一个所述待解析区域之后,所述方法还包括:
若所述待解析区域中的待解析文本块的分栏属性为分栏,则确定所述待解析区域为所述分栏区域;
若所述待解析区域中的待解析文本块的分栏属性为未分栏,则确定所述待解析区域为所述未分栏区域。
7.一种文档解析模型训练方法,其特征在于,所述方法包括:
从训练文档中确定出各训练文本块以及各所述训练文本块的实际标注特征,所述实际标注特征用于指示各所述训练文本块的分栏属性;
将各所述训练文本块输入初始文档解析模型,根据各所述训练文本块在所述训练文档中的位置输出各所述训练文本块的预测标注特征;
根据各所述训练文本块的实际标注特征和预测标注特征确定损失信息;
根据所述损失信息迭代优化所述初始文档解析模型,直至优化后的所述初始文档解析模型满足预设条件时,停止迭代并将满足所述预设条件的初始文档解析模型作为目标文档解析模型。
8.如权利要求7所述的文档解析模型训练方法,其特征在于,所述从训练文档中确定出各训练文本块以及各所述训练文本块的实际标注特征,包括:
遍历所述训练文档,得到所述训练文档中的各文字、各所述文字的位置信息以及写入顺序;
基于各所述文字的位置信息对各所述文字进行聚类处理,得到各所述训练文本块以及各所述训练文本块的位置信息;
按照各所述训练文本块中文字的写入顺序确定各所述训练文本块的写入顺序;
根据各所述训练文本块的位置信息和所述训练文档中各区域的分栏属性确定各所述训练文本块的实际标注特征。
9.如权利要求7所述的文档解析模型训练方法,其特征在于,所述根据各所述训练文本块的实际标注特征和预测标注特征确定损失信息,包括:
利用交叉熵损失函数、各所述训练文本块的实际标注特征和预测标注特征计算交叉熵损失值,并将所述交叉熵损失值作为所述损失信息;
所述根据所述损失信息迭代优化所述初始文档解析模型,包括:
利用所述损失信息和随机梯度下降算法对所述初始文档解析模型进行优化,并根据优化结果更新所述初始文档解析模型的参数。
10.如权利要求7所述的文档解析模型训练方法,其特征在于,所述将各所述训练文本块输入初始文档解析模型,根据各所述训练文本块在所述训练文档中的位置输出各所述训练文本块的预测标注特征,包括:
将各所述训练文本块输入初始文档解析模型,提取各所述训练文本块的位置特征信息,所述位置特征信息用于指示各所述训练文本块在所述训练文档中的位置;
根据所述位置特征信息得到与所述训练文档对应的位置信息序列,所述位置信息序列用于指示各所述训练文本块在所述训练文档中的位置关系;
根据所述位置信息序列输出各所述训练文本块的预测标注特征。
11.如权利要求10所述的文档解析模型训练方法,其特征在于,所述将各所述训练文本块输入初始文档解析模型,提取各所述训练文本块的位置特征信息,包括:
根据预设的滑动窗口和滑动步长从各所述训练文本块确定至少一个训练文本块集合,并将各所述训练文本块集合输入所述初始文档解析模型,所述训练文本块集合用于表征各所述训练文本块的位置信息;
对所述训练文本块集合中各所述训练文本块的位置信息进行特征提取,得到各所述位置特征信息;
所述根据所述位置特征信息得到与所述训练文档对应的位置信息序列,包括:
对各所述位置特征信息进行编码,并对编码后的位置特征信息进行升维处理,得到所述位置信息序列。
12.如权利要求11所述的文档解析模型训练方法,其特征在于,所述对编码后的位置特征信息进行升维处理,得到所述位置信息序列,包括:
将所述编码后的位置特征信息乘以预设嵌入矩阵,得到目标乘积;
将所述目标乘积作为所述位置信息序列;
所述根据预设的滑动窗口和滑动步长从各所述训练文本块确定至少一个训练文本块集合之前,所述方法还包括:
对各所述训练文本块的位置信息进行归一化处理。
13.如权利要求10所述的文档解析模型训练方法,其特征在于,所述根据所述位置信息序列输出各所述训练文本块的预测标注特征,包括:
通过子网络在各时间步内根据所述位置信息序列中的第一训练文本块的位置特征信息和第二训练文本块的位置特征信息确定出所述第一训练文本块的隐藏状态,所述第一训练文本块为各所述训练文本块中与当前时间步对应的文本块,所述第二训练文本块为排列在所述第一训练文本块之前的一个文本块,所述第一训练文本块的隐藏状态用于表征所述第一训练文本块与所述第二训练文本块之间的相对位置关系;
根据各所述训练文本块的隐藏状态确定训练文本序列,并根据所述训练文本序列确定各所述训练文本块的预测标注特征。
14.如权利要求13所述的文档解析模型训练方法,其特征在于,所述根据所述训练文本序列确定各所述训练文本块的预测标注特征,包括:
对所述训练文本序列进行随机丢弃处理;
通过预设的线性投影模型对随机丢弃处理后的训练文本序列进行降维处理,并得到与各所述训练文本块对应的映射结果;
将各所述映射结果作为各所述训练文本块的预测标注特征。
15.一种文档解析装置,其特征在于,所述装置包括:
执行模块,用于基于预先训练好的目标文档解析模型,确定出待解析文档中各待解析文本块的分栏属性;各所述待解析文本块的分栏属性用于指示每个所述待解析文本块的分布形式;
第一确定模块,用于根据各所述待解析文本块的分栏属性,确定所述待解析文档的待解析区域,所述待解析区域包括分栏区域和/或未分栏区域;
解析模块,用于分别按照各所述待解析区域对各所述待解析文档进行解析,得到所述待解析文档的解析结果。
16.一种文档解析模型训练装置,其特征在于,所述装置包括:
第二确定模块,用于从训练文档中确定出各训练文本块以及各所述训练文本块的实际标注特征,所述实际标注特征用于指示各所述训练文本块的分栏属性;
训练模块,用于将各所述训练文本块输入初始文档解析模型,根据各所述训练文本块在所述训练文档中的位置输出各所述训练文本块的预测标注特征;
所述训练模块,还用于根据各所述训练文本块的实际标注特征和预测标注特征确定损失信息;
所述训练模块,还用于根据所述损失信息迭代优化所述初始文档解析模型,直至优化后的所述初始文档解析模型满足预设条件时,停止迭代并将满足所述预设条件的初始文档解析模型作为目标文档解析模型。
17.一种电子设备,其特征在于,包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述权利要求1至14任一项所述的方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,实现权利要求1至14中任一项所述方法的步骤。
CN202310518177.XA 2023-05-10 2023-05-10 文档解析方法、文档解析模型训练方法、装置和电子设备 Active CN116306575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310518177.XA CN116306575B (zh) 2023-05-10 2023-05-10 文档解析方法、文档解析模型训练方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310518177.XA CN116306575B (zh) 2023-05-10 2023-05-10 文档解析方法、文档解析模型训练方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN116306575A true CN116306575A (zh) 2023-06-23
CN116306575B CN116306575B (zh) 2023-08-29

Family

ID=86826054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310518177.XA Active CN116306575B (zh) 2023-05-10 2023-05-10 文档解析方法、文档解析模型训练方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN116306575B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置
CN112380824A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
CN113111871A (zh) * 2021-04-21 2021-07-13 北京金山数字娱乐科技有限公司 文本识别模型的训练方法及装置、文本识别方法及装置
CN113469067A (zh) * 2021-07-05 2021-10-01 北京市商汤科技开发有限公司 一种文档解析方法、装置、计算机设备和存储介质
CN113723330A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种图表文档信息理解的方法及系统
CN114023414A (zh) * 2021-10-12 2022-02-08 浙江禾连网络科技有限公司 一种体检报告多层次结构录入方法、系统以及存储介质
CN114495141A (zh) * 2021-12-14 2022-05-13 中图科信数智技术(北京)有限公司 文档段落位置提取方法、电子设备及存储介质
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN114663902A (zh) * 2022-04-02 2022-06-24 北京百度网讯科技有限公司 文档图像处理方法、装置、设备和介质
CN115131804A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 文档识别方法、装置、电子设备和计算机可读存储介质
CN115273115A (zh) * 2022-07-25 2022-11-01 北京金山数字娱乐科技有限公司 一种文档元素标注方法、装置、电子设备和存储介质
US20230008332A1 (en) * 2022-01-21 2023-01-12 Changxin Memory Technologies, Inc. Parsing method, parsing apparatus, electronic device, and computer storage medium
CN115759039A (zh) * 2022-11-23 2023-03-07 网易有道信息技术(北京)有限公司 文档处理方法、装置、电子设备和存储介质
CN116052195A (zh) * 2023-02-01 2023-05-02 壹沓科技(上海)有限公司 文档解析方法、装置、终端设备和计算机可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427488A (zh) * 2019-07-30 2019-11-08 北京明略软件系统有限公司 文档的处理方法及装置
CN112380824A (zh) * 2020-10-09 2021-02-19 北京中科凡语科技有限公司 自动识别分栏的pdf文档处理方法、装置、设备及存储介质
CN113111871A (zh) * 2021-04-21 2021-07-13 北京金山数字娱乐科技有限公司 文本识别模型的训练方法及装置、文本识别方法及装置
CN113469067A (zh) * 2021-07-05 2021-10-01 北京市商汤科技开发有限公司 一种文档解析方法、装置、计算机设备和存储介质
CN113723330A (zh) * 2021-09-06 2021-11-30 华南理工大学 一种图表文档信息理解的方法及系统
CN114023414A (zh) * 2021-10-12 2022-02-08 浙江禾连网络科技有限公司 一种体检报告多层次结构录入方法、系统以及存储介质
CN114495141A (zh) * 2021-12-14 2022-05-13 中图科信数智技术(北京)有限公司 文档段落位置提取方法、电子设备及存储介质
US20230008332A1 (en) * 2022-01-21 2023-01-12 Changxin Memory Technologies, Inc. Parsing method, parsing apparatus, electronic device, and computer storage medium
CN114495147A (zh) * 2022-01-25 2022-05-13 北京百度网讯科技有限公司 识别方法、装置、设备以及存储介质
CN114663902A (zh) * 2022-04-02 2022-06-24 北京百度网讯科技有限公司 文档图像处理方法、装置、设备和介质
CN115131804A (zh) * 2022-04-21 2022-09-30 腾讯科技(深圳)有限公司 文档识别方法、装置、电子设备和计算机可读存储介质
CN115273115A (zh) * 2022-07-25 2022-11-01 北京金山数字娱乐科技有限公司 一种文档元素标注方法、装置、电子设备和存储介质
CN115759039A (zh) * 2022-11-23 2023-03-07 网易有道信息技术(北京)有限公司 文档处理方法、装置、电子设备和存储介质
CN116052195A (zh) * 2023-02-01 2023-05-02 壹沓科技(上海)有限公司 文档解析方法、装置、终端设备和计算机可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. TOMOVIC: "Aligning document layouts extracted with different OCR engines with clustering approach", EGYPTIAN INFORMATICS JOURNAL, vol. 22, no. 3, XP086783579, DOI: 10.1016/j.eij.2020.12.004 *
于丰畅;陆伟;: "基于机器视觉的PDF学术文献结构识别", 情报学报, no. 04 *
李翌昕;邹亚君;马尽文;: "基于特征提取和机器学习的文档区块图像分类算法", 信号处理, no. 05 *

Also Published As

Publication number Publication date
CN116306575B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US10685462B2 (en) Automatic data extraction from a digital image
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN110489424B (zh) 一种表格化信息提取的方法、装置、存储介质及电子设备
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
US11557140B2 (en) Model-independent confidence values for extracted document information using a convolutional neural network
EP3975139A1 (en) Querying semantic data from unstructured documents
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
US11934786B2 (en) Iterative training for text-image-layout data in natural language processing
CN115917613A (zh) 文档中文本的语义表示
Colter et al. Tablext: A combined neural network and heuristic based table extractor
CN114005125A (zh) 一种表格识别方法、装置、计算机设备和存储介质
CN114818710A (zh) 表格信息提取方法、装置、设备及介质
CN115131803A (zh) 文档字号的识别方法、装置、计算机设备和存储介质
CN114637847A (zh) 模型的训练方法、文本分类方法和装置、设备、介质
US20230023636A1 (en) Methods and systems for preparing unstructured data for statistical analysis using electronic characters
CN116306575B (zh) 文档解析方法、文档解析模型训练方法、装置和电子设备
Garzon et al. Dimensionality Reduction in Data Science
CN115984886A (zh) 表格信息抽取方法、装置、设备及存储介质
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN116030295A (zh) 物品识别方法、装置、电子设备及存储介质
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
JP2022166126A (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
CN115512340A (zh) 基于图片的意图检测方法及装置
CN115937875A (zh) 文本识别方法及装置、存储介质、终端
US11600028B1 (en) Semantic resizing of line charts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant