CN116450571A

CN116450571A - Ai增强的到人类可读且机器可解析的html的pdf转换

Info

Publication number: CN116450571A
Application number: CN202210022655.3A
Authority: CN
Inventors: 陈虎; 温鑫; 贺文亮; 陆明; S·艾哈迈德
Original assignee: Morningstar Corp
Current assignee: Morningstar Corp
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2023-07-18
Also published as: WO2023133330A1

Abstract

本发明涉及AI增强的到人类可读且机器可解析的HTML的PDF转换。一种将PDF文档转换成人类可读且机器可解析的HTML代码的计算机实现方法。该方法包括使用机器学习算法，以便自动注释HTML代码，所述算法是利用经手动注释的HTML代码示例的集合训练的。

Description

AI增强的到人类可读且机器可解析的HTML的PDF转换

技术领域

本发明涉及处理数字文档的方法。具体地，本发明涉及数字文档的格式转换的方法。

背景技术

PDF(可移植文档格式)是一种流行的文件存储格式，其中PDF文件不能被修改，但是可以被方便地共享和打印。虽然人类可以容易地阅读PDF文件，但是计算机不能容易地摄取原始PDF文件以进行后续信息处理。因此，需要将PDF文件转换成更有助于编程解析的其它格式，这在尤其渴望更多数据的人工智能时代是至关重要的。

DE102006025928公开了一种将可移植文档格式文档转换成超文本标记语言文档的计算机化方法。该方法包括以下步骤：提取尺寸和位置被包含在PDF文档的代码中的图像，存储所述图像，将被包含在同一PDF中的文本转换成HTML，以及解析图像和文本。

US20120137207描述了将PDF文件处理并转换成机器可读文件格式的方法和系统。然而，这些方法并不专门针对PDF文件的转换。此外，这些方法采取迭代聚集，以便获得图像、文本和表格的最终分离。

虽然上述公开的方法能够将PDF文档转换成HTML，但是包含HTML注释仍然不是最佳的，这通常导致经转换的文档的较差呈现。此外，经转换的HTML文件常常被不良地标记，从而导致较差的可搜索性和文档内容连续性。

本发明的目的是提供一种消除这些缺点的方法。因此，需要一种能够将PDF文件转换成具有高转换保真度、高呈现和高可搜索性的HTML文件的方法。

发明内容

本发明及其实施方式用于提供针对上述缺点中的一个或更多个缺点的解决方案。为此，本发明涉及将PDF文档转换成人类可读且机器可解析的HTML代码的计算机实现方法。

在第二方面，本发明涉及一种用于改进的PDF到人类可读且机器可解析的HTML转换的计算机系统。根据该方面的该系统允许以简单且有效的方式实现本文所述的方法。

在第三方面，本发明涉及借助将PDF转换成人类可读且机器可解析的HTML的计算机系统使用计算机实现方法。

附图说明

本发明的具体实施方式的附图的以下描述本质上仅是示例性的，并且不旨在限制本教导、其应用或使用。在所有附图中，对应附图标记指示相同或对应的部分和特征。

图1示出了由两个连续部分组成的端到端全卷积网络的架构。

图2示出了分割算法的应用的第一示例。

图3示出了分割算法的应用的第二示例。

图4示出了在列顶部处呈现的第一目标段落。

图5示出了段落排序的第二示例，其中，第二目标段落呈现在第一列的底部。

图6示出了真值(ground truth)与预测(prediction)之间的交叠的示例。

具体实施方式

本发明涉及一种将PDF文档转换成人类可读且机器可解析的HTML代码的计算机实现方法。

除非另外定义，否则在公开本发明时使用的所有术语(包括技术术语和科学术语)具有本发明所属领域的普通技术人员通常理解的含义。借助进一步的指导，包括术语定义，以更好地理解本发明的教导。

如本文所使用的，以下术语具有以下含义：

如本文所使用的“一”、“一个”和“该”是指单数指示物和复数指示物二者，除非上下文另有明确说明。举例来说，“分隔”是指一个或超过一个分隔。

如本文所使用的“包含(comprise)”、“包含(comprising)”和“包含(comprises)”以及“包含(comprised of)”与“包括(include)”、“包括(including)”、“包括(includes)”或者“含有(contain)”、“含有(containing)”、“含有(contains)”是同义的，并且是包含性或开放式用语，其规定了例如随后部件的存在，并且不排除或去除本领域已知的或其中公开的另外的、未列举的部件、特征、要素、成员、步骤的存在。

此外，说明书和权利要求书中的用语第一、第二、第三等用于在相似要素之间进行区分，而不一定用于描述顺序或时间次序，除非特别说明。应当理解，如此使用的用语在适当的情况下是可互换的，并且本文描述的本发明的实施方式能够以不同于本文描述或例示的其它顺序操作。

通过端点表述数值范围包括被包括在该范围内的所有数值和分数，以及所表述的端点。

尽管用语“一个或更多个”或“至少一个”(诸如一组成员中的一个或更多个或者至少一个成员)本身是清楚的，但借助进一步的例示，该用语尤其涵盖对所述成员中的任一成员或对所述成员中的任何两个或更多个成员(诸如，所述成员中的任何≥3、≥4、≥5、≥6或≥7等个成员)以及直至所有所述成员的引用。

除非另外定义，否则在公开本发明时使用的所有术语(包括技术术语和科学术语)具有本发明所属领域的普通技术人员通常理解的含义。借助进一步的指导，包括说明书中使用的术语的定义，以更好地理解本发明的教导。本文所使用的术语或定义仅提供用于帮助理解本发明。

在整个该说明书中对“一个实施方式”或“实施方式”的引用意味着结合该实施方式描述的特定特征、结构或特性被包括在本发明的至少一个实施方式中。因此，在整个该说明书中各处出现的短语“在一个实施方式中”或“在实施方式中”不一定都指同一实施方式，而是可以指同一实施方式。此外，在一个或更多个实施方式中，特定特征、结构或特性可以以任何合适的方式组合，这在本领域技术人员获悉本公开内容后将是显而易见的。此外，虽然本文描述的一些实施方式包括在其它实施方式中包含的一些特征但不包括在其它实施方式中包含的其它特征，但是不同实施方式的特征的组合意味着在本发明的范围内，并且形成不同实施方式，如本领域技术人员将理解的。例如，在权利要求中，所要求保护的实施方式中的任何实施方式可以以任何组合使用。

在第一方面，本发明提供/涉及一种将PDF文档转换成人类可读且机器可解析的HTML代码的计算机实现方法，所述计算机实现方法包括以下步骤：

a.提取文本；

b.提取格式化样式；

c.提取背景图；

d.提取位置信息；

e.提取字体族信息；

f.注释html代码；

g.组织阅读次序；以及

h.包括元数据；

该方法包括使用机器学习算法来自动注释HTML代码，该机器学习算法是利用经手动注释的HTML代码示例的集合训练的。

在优选实施方式中，所提取的字体族信息是True Type字体兼容的。这有利地允许所提取的字体族可以由常规web浏览器正确地渲染。因此，所有PDF要素的成功提取将给出原始PDF与经转换的HTML之间的相同的外观。

在另外或另一实施方式中，段落内的文本是利用<span></span>标签注释的。按照HTML惯例，<span>标签具有特殊属性，使得web浏览器将来自相邻对<span>标签的文本视为它们属于一个单个句子。例如，<span>this is</span><span>an example</span>被认为在功能上与<span>this is an example</span>相同。因此，在来自同一段落的文本段被设置在<span>标签而不是<div>标签的连续对内之后，可以有利地对更长的文本串执行搜索操作。所述文本串可以跨越多行而不损害文本的可搜索性。这是因为，不管用于对长段落进行上推的<span></span>对的数量如何，结果与仅使用一对<span></span>标签(其中，第一标签被设置在段落的开头并且第二标签被设置在末尾)相同。

在另外或另一实施方式中，各个段落是被按照使所述各个段落被包含在<div></div>标签之间的方式注释的。以这种方式，文档的划分实质上更容易，这允许更容易地开发文档布局。

在另外或另一实施方式中，表格被注释，其中，<tr></tr>仅用于针对行进行注释，并且<td></td>仅用于针对表格单元进行注释。这允许保持高水平的代码一致性，这有利地允许获得经转换的文档的呈现，该呈现保持忠实于原始PDF文档。此外，通过保持这种高水平的一致性，有利地确保了经转换的文档的平滑可搜索性。

PDF文档通常包含多个呈现，这使得建立阅读次序尤其具有挑战性。更具体地，以每页多列的形式呈现的文本需要另外的注意，以便在转换之后保持可读的文本。为此，在另外或另一实施方式中，组织阅读次序是基于以下项的组合确定的：

a.固有阅读次序；

b.按照分割算法进行的区域划定(region delineation)；以及

c.段落排序。

无论文本是否被划分成列，所述文本中的大多数文本都已经以正确的顺序被序列化。因此，该固有阅读次序用作组织阅读次序的第一阶段，并用作下一步骤的第一有利线索。

为了划定页面内的区域，使用分割算法。再次地，该步骤在文本以列呈现的情况下特别有意义，因为算法有利地允许识别所述列。在另外或另一实施方式中，所使用的分割算法是U-Net。该架构是由两个连续部分组成的端到端全卷积网络。第一部分是收缩编码器，其中，图像的长度和宽度经由卷积和最大池化连续减半几次降低到小得多的特征图，以捕获图像中的上下文。第二部分是反向扩展解码器，其中，经由上采样卷积将特征图的尺寸连续地加倍回到其原始大小，以实现负责分割图像的像素的精确定位。U-Net的输出是与原始图像相同大小的另一图像，其仅由零和一组成。一的像素形成不规则形状的带。在一些后处理之后，带将产生划定页面的区域的线。在一些实施方式中，段落排序的处理可以用作分割算法的另选方式。更优选地，在分割算法之后使用段落排序处理。

在另外或另一实施方式中，段落排序的处理包括以下步骤：

a.选择多个候选段落，所述候选段落与目标段落相邻或在后续文本列的顶部；

b.将各个候选段落与目标段落配对；

c.评估各个对的适合度；

d.选择具有最佳适合度的对。

作为优选，使用语言模型来评估目标段落和候选段落的各个对的适合度。以这种方式，即使当原始文本以列的形式呈现时，段落也可以被有效地序列化。

在另外或另一实施方式中，被包括在经转换的文件中的元数据包括表格、图、标题、页眉和页脚。这有利地允许在转换时包含丰富的元数据。

作为优选，借助对象识别算法来检测表格和图。作为优选，对象检测算法是YOLO5。YOLO 5是用于对象检测的有效算法，其中它同时执行分类和绘制边界框。对象检测算法的性能可以通过多个度量来评估。优选的度量是交并比(IOU)。该度量由交叠面积与真值和预测的并集之比来定义。作为优选，使用两阶段估计方案，所述估计方案是基于IOU的概念的。

阶段一估计断定的边界框的总命中率，其中，如果预测框的IOU超过至少0.75，则认为命中；否则，预测是未命中或假阳性。因此，阶段一精确率(precision)是真实命中数与所有预测数之比，并且阶段一召回率(recall)是真实命中数与所有真实对象数之比。阶段一是对应精确率和召回率的几何均值。

相比之下，阶段二在预测是真实命中的情况下估计该预测的质量。阶段二精确率是交叠面积与预测面积之比。阶段二召回率是交叠面积与真值面积之比。阶段二得分是精确率和召回率的对应几何均值。

在另外或另一实施方式中，基于标题与正文(regular text)之间的字体样式差异来识别标题。在另外或另一实施方式中，基于文本和文本位置相似性来识别页眉和页脚。这有利地降低了处理在整个文档中表现出高水平重复的要素所需的计算能力。

本发明的第二方面涉及一种用于改进的PDF到人类可读且机器可解析的HTML转换的计算机系统，该计算机系统被配置成执行上述计算机实现方法。

本发明的第三方面涉及借助将PDF转换成人类可读且机器可解析的HTML的上述计算机系统使用上述计算机实现方法。

通过以下非限制性示例进一步描述本发明，所述非限制性示例进一步例示本发明，并且不旨在也不应将它们解释成限制本发明的范围。

附图描述

为了更好地例示本发明的特性，作为示例并且绝不限制其它可能应用，以下呈现了对本发明的多个优选实施方式的描述，其中：

图1示出了由两个连续部分组成的端到端全卷积网络的架构。第一部分是收缩编码器，其中，图像的长度和宽度经由卷积和最大池化连续减半几次降低到小得多的特征图，以捕获图像中的上下文。第二部分是反向扩展解码器，其中，经由上采样卷积将特征图的尺寸连续地加倍回到其原始大小，以实现负责分割图像的像素的精确定位。由于收缩部分与扩展部分对称，所以它产生U形架构。

现在将参考以下示例进一步举例说明本发明。本发明绝不限于给出的示例或附图中呈现的实施方式。

图2示出了分割算法的应用的第一示例。第一图像示出在该图的左侧。输出图像在已经由分割算法处理之后示出在图片的右侧。输出图像与原始图像大小相同，仅由零和一组成。在处理期间，“一”的像素形成不规则形状的带，该带在一些后处理之后产生划定页面的区域的线。该示例中所示的图像展示了处理包括三个文本列的页面的结果。

图3示出了分割算法的应用的第二示例。图像示出在该图的左侧。输出图像在已经由分割算法处理之后示出在图片的右侧。该示例中所示的图像展示了处理包括由标题分开的两对文本列的页面的结果。

图4示出了在列顶部处呈现的第一目标段落1。该图示出了多个候选段落2和3，所述段落与第一目标段落1相邻。

图5示出了段落排序的第二示例，其中，第二目标段落4呈现在第一列的底部。在该图中，候选段落5、6和7不仅是与第二目标段落相邻的段落，而且是下一列顶部处的段落。

图6示出了真值与预测之间的交叠的示例。真值由第一方形表示，而预测由第二方形表示。真值与预测之间的更大交叠指示更好的性能。交并比(IOU)是由交叠面积与真值和预测的并集之比定义的。

附图标记列表

1第一目标段落

2针对第一目标段落的第一候选段落

3针对第一目标段落的第二候选段落

4第二目标段落

5针对第二目标段落的第一候选段落

6针对第二目标段落的第二候选段落

7针对第二目标段落的第三候选段落

假定本发明不限于前述的任何形式的实现，并且在不重新评估所附权利要求的情况下，可以将一些修改添加到所呈现的制造示例中。

本发明绝不限于示例中所述和/或附图中所示的实施方式。相比之下，根据本发明的方法可以以许多不同的方式实现而不脱离本发明的范围。

Claims

1.一种将PDF文档转换成人类可读且机器可解析的HTML代码的计算机实现方法，所述计算机实现方法包括以下步骤：

a.提取文本；

b.提取格式化样式；

c.提取背景图；

d.提取位置信息；

e.提取字体族信息；

f.注释html代码；

g.组织阅读次序；以及

h.包括元数据；

其特征在于，使用机器学习算法来自动注释HTML代码，所述机器学习算法是利用经手动注释的HTML代码示例的集合训练的。

2.根据权利要求1所述的计算机实现方法，其特征在于，所提取的字体族信息是TrueType字体兼容的。

3.根据权利要求1或权利要求2所述的计算机实现方法，其特征在于，段落内的文本是利用<span></span>标签注释的。

4.根据权利要求1至权利要求3中任一项所述的计算机实现方法，其特征在于，各个段落是被按照使所述各个段落被包含在<div></div>标签之间的方式注释的。

5.根据权利要求1至权利要求4中任一项所述的计算机实现方法，其特征在于，表格被注释，其中，<tr></tr>仅用于针对行进行注释，并且<td></td>仅用于针对表格单元进行注释。

6.根据权利要求1至权利要求5中任一项所述的计算机实现方法，其特征在于，所述阅读次序的组织是基于以下项的组合确定的：

a.固有阅读次序；

b.按照分割算法进行的区域划定；以及

c.段落排序。

7.根据权利要求1至权利要求6中任一项所述的计算机实现方法，所述分割算法是U-Net算法。

8.根据权利要求1至权利要求7中任一项所述的计算机实现方法，其特征在于，所述段落排序的处理包括以下步骤：

a.选择多个候选段落，所述候选段落是与目标段落相邻的或在后续文本列的顶部；

b.将各个候选段落与所述目标段落配对；

c.评估各个对的适合度；

d.选择具有最佳适合度的对。

9.根据权利要求1至权利要求8中任一项所述的计算机实现方法，其特征在于，目标段落和候选段落的各个对的所述适合度是使用语言模型评估的。

10.根据权利要求1至权利要求9中任一项所述的计算机实现方法，其特征在于，被包括在经转换的文件中的所述元数据包括表格、图、标题、页眉和页脚。

11.根据权利要求1至权利要求10中任一项所述的计算机实现方法，其特征在于，表格和图是借助对象识别算法检测的。

12.根据权利要求1至权利要求11中任一项所述的计算机实现方法，其特征在于，标题是基于标题与正文之间的字体样式差异识别的。

13.根据权利要求1至权利要求12中任一项所述的计算机实现方法，其特征在于，页眉和页脚是基于文本和文本位置相似性识别的。

14.一种用于改进的PDF到人类可读且机器可解析的HTML转换的计算机系统，所述计算机系统被配置成执行根据前述权利要求1至13中任一项所述的计算机实现方法。

15.一种将PDF转换成人类可读且机器可解析的HTML的根据前述权利要求1至13中任一项所述的计算机实现方法、根据前述权利要求14所述的计算机系统的使用。