CN109657221A

CN109657221A - 一种文档段落排序方法、排序装置、电子设备及存储介质

Info

Publication number: CN109657221A
Application number: CN201811528392.3A
Authority: CN
Inventors: 詹华年; 王洪伟; 刘天悦; 丁洪利
Original assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Chengdu Kingsoft Interactive Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-19
Anticipated expiration: 2038-12-13
Also published as: CN109657221B

Abstract

本发明实施例提供了一种文档段落排序方法、排序装置、电子设备及存储介质，其中方法包括：接收待处理的目标格式文档；获取目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息；基于文本段落的定位信息，确定文本段落间的相对位置信息；基于文本段落的文本行信息，确定文本段落间的紧密度；基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序。本发明实施例能够减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

Description

一种文档段落排序方法、排序装置、电子设备及存储介质

技术领域

本发明涉及版式分析技术领域，特别是涉及一种文档段落排序方法、排序装置、电子设备及存储介质。

背景技术

随着文字识别技术的发展，人们可以将文本格式的文档转换为非文本格式的文档，例如，TIFF(Tag Image File Format，标签图像文件格式)格式，PDF格式等，从而更有利于文档的发布、传播和存档。在将非文本格式文档转换为文本格式文档的过程中，需要对文档中的各文本段落进行排序。

现有的文档段落排序方法，例如阅读顺序算法，通常单纯的基于阅读顺序，对非文本格式文档中所识别的文本段落进行排序，即，按照从左到右、从上到下的顺序，对识别的各文本段落进行排序。而一份文档通常都是多栏的，例如，图1所示的一份文档中，存在多栏区域-单栏区域-多栏区域三个区域(图中由上至下3个虚线框区域)，且文档顶端具有页眉，文档底端具有页脚。

当遇到文档中存在多栏及页眉和/或页脚情况时，如果仍基于阅读顺序对文本段落排序，现有方法会将页眉和页脚也识别为文章的其中一个文本段落，使页眉或页脚夹在文章正文中，从而导致文本段落排序错乱。例如，如图1所示，箭头显示为阅读顺序算法的排序结果，由于阅读顺序算法仅依据在文档页面上的空间位置信息，因此无法正确处理多栏混排情况，易导致文本段落排序错乱。

发明内容

本发明实施例的目的在于提供一种文档段落排序方法，以提高文档中文本段落的排序准确性。具体技术方案如下：

第一方面，本发明实施例提供了一种文档段落排序方法，包括：

接收待处理的目标格式文档；所述目标格式文档中包含文本信息；

获取所述目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息；

基于所述文本段落的定位信息，确定所述文本段落间的相对位置信息；

基于所述文本段落的文本行信息，确定所述文本段落间的紧密度；

基于所述文本段落的相对位置信息及所述文本段落的紧密度，对所述文本段落进行排序。

可选的，所述基于所述文本段落中的文本行信息，确定所述文本段落间的紧密度的步骤，包括：

针对所获取的所述文本段落，将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络，得到所述第一文本段落和所述第二文本段落间的困惑度；所述第一文本段落和所述第二文本段落为所获取的文段段落中的其中两个文本段落；

根据所述困惑度与预设阈值之间的大小比对结果，确定所述第一文本段落和所述第二文本段落间的紧密度。

可选的，所述基于所述文本段落的相对位置信息及所述文本段落的紧密度，对所述文本段落进行排序的步骤，包括：

将所述文本段落的相对位置信息输入第一算法模型，得到各文本段落的排序结果；

根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整。

将所述文本段落的相对位置信息和文本段落间的紧密度输入第二算法模型，得到各文本段落的排序结果。

可选的，所述根据所述困惑度与预设阈值之间的大小关系，确定所述第一文本段落和所述第二文本段落间的紧密度的步骤，包括：

如果所述第一文本段落和所述第二文本段落间的困惑度大于预设阈值，则确定所述第一文本段落和所述第二文本段落间的紧密度低；

如果所述第一文本段落和所述第二文本段落间的困惑度小于或等于预设阈值，则确定所述第一文本段落和所述第二文本段落间的紧密度高。

可选的，所述根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整的步骤，包括：

如果所述文本段落与其它文本段落间的紧密度均低，则将所述文本段落调整至页眉处或页脚处。

第二方面，本发明实施例提供了一种文档段落排序装置，包括：

接收模块，用于接收待处理的目标格式文档；所述目标格式文档中包含文本信息；

获取模块，用于获取所述目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息；

第一确定模块，用于基于所述文本段落的定位信息，确定所述文本段落间的相对位置信息；

第二确定模块，用于基于所述文本段落的文本行信息，确定所述文本段落间的紧密度；

排序模块，用于基于所述文本段落的相对位置关系及所述文本段落的紧密度，对所述文本段落进行排序。

可选的，所述第二确定模块，包括：

处理子模块，用于针对所获取的所述文本段落，将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络，得到所述第一文本段落和所述第二文本段落间的困惑度；所述第一文本段落和所述第二文本段落为所获取的文段段落中的其中两个文本段落；

确定子模块，用于根据所述困惑度与预设阈值之间的大小比对结果，确定所述第一文本段落和所述第二文本段落间的紧密度。

可选的，所述排序模块，包括：

获取子模块，用于将所述文本段落的相对位置信息输入第一算法模型，得到各文本段落的排序结果；

调整子模块，用于根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整。

可选的，所述排序模块，具体用于：

可选的，所述确定子模块，包括：

第一确定单元，用于如果所述第一文本段落和所述第二文本段落间的困惑度大于预设阈值，则确定所述第一文本段落和所述第二文本段落间的紧密度低；

第二确定单元，用于如果所述第一文本段落和所述第二文本段落间的困惑度小于或等于预设阈值，则确定所述第一文本段落和所述第二文本段落间的紧密度高。

可选的，所述调整子模块，具体用于：

第三方面，本发明实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现上述第一方面提供的文档段落排序方法的方法步骤。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述第一方面提供的文档段落排序方法的方法步骤。

第五方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面提供的文档段落排序方法的方法步骤。

第六方面，本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述第一方面提供的文档段落排序方法的方法步骤。

本发明实施例提供的一种文档段落排序方法、排序装置、电子设备及存储介质，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为多栏文档的示意图；

图2为本发明实施例提供的文档段落排序方法的一种流程示意图；

图3为本发明实施例中目标格式文档的示意图；

图4为本发明实施例中步骤S102的一种流程示意图；

图5为本发明实施例中步骤S104的一种流程示意图；

图6为本发明实施例中步骤S1042的一种流程示意图；

图7为本发明实施例中步骤S105的一种流程示意图；

图8为本发明实施例中目标文档得到排序结果后的示意图；

图9为本发明实施例提供的文档段落排序装置的一种结构示意图；

图10为本发明实施例中第二确定模块的一种结构示意图；

图11为本发明实施例中排序模块的一种结构示意图；

图12为本发明实施例中确定子模块的一种结构示意图；

图13为本发明实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

方法实施例

本发明实施例提供了一种文档段落排序方法，如图2所示，该过程可以包括以下步骤：

S101，接收待处理的目标格式文档。

本发明实施例提供的方法可以应用于电子设备。具体地，该电子设备可以为台式计算机、便携式计算机、智能移动终端等。

本发明实施例中，设备所接收的目标格式文档可以为图像格式的文档，例如，TIFF格式、PNG(Portable Network Graphics，便携式网络图形)格式、JPEG(JointPhotographic Experts Group)格式、BMP(Bitmap)格式等图像格式，也可以是非图像格式文档，例如，PDF格式文档。

如图3所示，以方框示出一个目标格式文档中可以包含的内容，目标格式文档中可以包含文章，文章可以包含文本段落，文本段落中可以包含文本行，文本行可以包含文字，也即是说，上述目标格式文档中可以含有文字信息。当然，目标格式文档中还可以包含标题、页眉、页脚、页码等内容。所说的目标格式文档，可以是指有待进行文本段落排序的文档。

并且，所说的待处理的目标格式文档，可以是由原始文档转换而成的文档，例如，由Word(一种由微软公司开发的办公软件)文档、WPS(一种由金山公司开发的办公软件文档)文档等转换而成的文档。

S102，获取目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息。

本发明实施例中，目标格式文档中可以包括多个文本段落，且可以位于目标格式文档中的不同位置，而每个文本段落又可以包括多个文本行，因此，在获取目标格式文档后，设备可以对目标格式文档进行处理，从而得到目标格式文档的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息。其中，文本段落的定位信息中可以至少包括文本段落的定位坐标信息，用于对文本段落进行定位。

作为本发明实施例一种可选的实施方式，如图4所示，上述步骤S102可以包括：

S1021，利用预先训练好的文本行定位神经网络对目标格式文档中的文本行进行定位，得到各文本行的定位信息。

在本发明实施例中，为了提高文本行的定位准确性，设备可以预先根据一定数量的样本目标格式文档，如500个、1000个、10000个等，以及各样本目标格式文档中所包含文本行的定位信息训练得到文本行定位神经网络，该神经网络可以为深度学习神经网络。使用该文本行定位神经网络，当输入包含文本行的目标格式文档时，该文本行定位神经网络可以输出目标格式文档中各文本行的定位信息，例如，坐标信息。

具体地，本发明实施例中，文本行的定位信息可以为文本行对应的一个矩形区域的顶角坐标。例如，矩形区域的左上顶角坐标(x₁，y₁)以及右下顶角坐标(x₂，y₂)，通过这两个顶角坐标，即可确定该矩形区域的范围。

现有技术中，电子设备通常基于像素识别的连通域算法对文档图像进行文本区域检测，容易受到图像噪声、墨点、以及水印的影响，导致检测的文本区域不准确相比，发明实施例通过预先训练好的文本行定位神经网络对目标格式文档中的文本行进行定位，从目标文档中检测和识别文本行的准确率更高。

S1022、将各文本行的定位信息输入预先训练好的机器学习模型中，得到经文本行合并后形成的文本段落及各文本段落的定位信息。

根据前述内容可知，文本段落中可以包含多个文本行，因此，在得到各文本行的定位信息后，可以将文档中属于同一文本段落的文本行合并在一起，得到文本段落以及各文本段落的定位信息。本发明实施例中，采用将文本行合并为文本段落，一方面是由于如果直接采用文本行进行排序，则各文本行字体大小不一、文本行长度不同，影响排序后文档的排版，例如文档中存在每个文本行均空出较大空白的情况，造成文档美观程度低。而同一文本段落中的各文本行字体统一，因此采用文本段落进行排序能够提高排序后文档的美观程度；另一方面是由于一个文档中文本行的数量远大于文本段落的数量，因此采用文本段落进行排序可以降低设备的处理运算量。

在本发明实施例中，为了提高对文本行合并的准确性，设备可以预先根据一定数量的样本文本行，例如，100个、500个、1000个等，以及各样本文本行对应的定位信息训练得到文本行合并机器学习模型。示例性的，上述文本行合并机器学习模型具体可以为XGBoost模型(Extreme Gradient Boosting，一种线性学习模型)，可以将样本文本行的定位信息输入该模型中，通过不断调整模型中的参数训练得到。使用该文本行合并机器学习模型，当输入包含文本行定位信息的多个文本行时，该文本行合并机器学习模型可以输出文本段落及各文本段落的定位信息。上述文本行定位信息至少可以包括：文本行的定位坐标。

具体地，本发明实施例中，文本段落的定位信息可以为文本段落对应的一个矩形区域的顶角坐标，例如，矩形区域的左上顶角坐标(x₃，y₃)以及右下顶角坐标(x₄，y₄)，通过这两个顶角坐标，即可确定该矩形区域的范围。

因此，在本发明实施例中，当设备得到目标格式文档中各文本行的定位信息后，可以将各文本行的定位信息输入预先训练的机器学习模型中，得到文本行合并后形成的文本段落，及各文本段落的定位信息。本方面实施例将文本行进行合并，能够确定属于同一文本段落的文本行，从而得到目标文档中的各个文本段落。

S1023，将各文本段落中的文本行输入预先训练好的文字识别神经网络中，得到各文本段落的文本行信息。

在本发明实施例中，为了提高文字的识别准确性，设备可以预先根据一定数量的样本文本行，如500个、1000个、10000个等，以及各样本文本行中所包含的文字训练得到文字识别神经网络，该神经网络可以为深度学习神经网络。使用该文字识别神经网络，当输入包含文字信息的文本行时，该文字识别神经网络可以输出文本行对应的文字内容，从而实现对文本行中文字的识别。

在本发明实施例中，文本行信息中可以至少包括文本行的文字识别结果，所指的文字识别过程，可以为OCR(Optical Character Recognition，光学字符识别)，因此，向文字识别神经网络输入的文本行，可以是图像或非图像格式的文本行。当然，除所举的例子所示的实现方式以外，实现该特征的方式均属于本发明实施例的保护范围。

S103，基于文本段落的定位信息，确定文本段落间的相对位置信息。

在本发明实施例中，在得到各文本段落的定位信息后，可以容易地确定文本段落间的相对位置信息。其中，上述相对位置信息例如可以为：文本段落间的上下位置信息，文本段落间的左右位置信息，文本段落的对齐信息等。

作为本发明实施例一种可选的实施方式，可以将文本段落的定位信息输入预设的排序算法模型中，从而确定文本段落间的相对位置信息。排序算法模型可以包括：阅读顺序算法模型、冒泡排序模型、快速排序模型等，目的是将信息进行排序，本发明实施例可以选择阅读顺序算法模型。

示例性地，第一文本段落和第二文本段落为目标格式文档中的其中两个文本段落，第一文本段落的定位坐标为[(x₃，y₃)；(x₄，y₄)]，其中，(x₃，y₃)表示第一文本段落对应矩形区域的左上顶角坐标，(x₄，y₄)表示第一文本段落对应矩形区域的右下顶角坐标；第二文本段落的定位坐标为[(x₅，y₅)；(x₆，y₆)]，其中，(x₅，y₅)表示第二文本段落对应矩形区域的左上顶角坐标，(x₆，y₆)表示第二文本段落对应矩形区域的右下顶角坐标，则可以将上述第一文本段落和第二文本段落的定位坐标输入阅读顺序算法模型，阅读顺序算法模型根据上述定位坐标，确定第一文本段落和第二文本段落间的相对位置信息。

需要说明的是，可以根据已有的阅读顺序算法构造阅读顺序算法模型，该阅读顺序算法可以为从上到下、从左到右的阅读顺序算法，是一种符合阅读习惯的算法。

S104，基于文本段落的文本行信息，确定文本段落间的紧密度。

本发明实施例中，在得到各文本段落的文本行信息后，可以利用文本行信息中的文字识别结果，确定文本段落间的紧密度，其中，紧密度用于表示文本段落间的语义连贯程度，紧密度越大则文本段落间的语义连贯程度越高，紧密度越小则文本段落间的语义连贯程度越低。

作为本发明实施例一种可选的实施方式，如图5所示，上述步骤S104具体可以包括：

S1041，针对所获取的文本段落，将第一文本段落的文本行信息及第二文本段落的文本行信息输入预先训练好的NLP(Natural Language Processing，自然语言处理)神经网络，得到第一文本段落和第二文本段落间的困惑度。

在本发明实施例中，为了确定文本段落之间的困惑度，设备可以预先根据一定数量的样本文本行，如500个、1000个、10000个等，以及各样本文本行之间的困惑度训练得到NLP神经网络，该神经网络可以为深度学习神经网络。

其中，样本文本行可以是已经过文字识别的文本行，因此携带有文本行信息。

困惑度可以用于评价文本段落之间句子的通顺程度，示例性地，困惑度具体可以为一个数值。当然，除所举的例子所示的实现方式以外，实现该特征的方式均属于本发明实施例的保护范围。

第一文本段落和第二文本段落可以是所获取的文段段落中的任意两个文本段落，也可以是其中相邻的两个文本段落。

使用该NLP神经网络，当输入分别来自两个文本段落的文本行的文本行信息时，该NLP神经网络可以输出用于表征两个文本段落之间句子通顺程度的困惑度。

因此，在本发明实施例中，当设备得到目标格式文档中各文本段落的文本行信息后，可以将分别取自两个不同文本段落中的文本行信息输入预先训练好的NLP神经网络，得到两个文本段落之间的困惑度，进而根据困惑度确定两个文本段落间的语义连贯性。

S1042，根据困惑度与预设阈值之间的大小比对结果，确定第一文本段落和第二文本段落间的紧密度。

本发明实施例中，可以将所得到的困惑度与预设阈值进行大小比对，从而确定两个文本段落间的紧密度。需要说明的是，本发明实施例中的预设阈值可以为人工预先设定好的一个数值，该数值的大小可以根据实际业务需求灵活设置，当预设阈值越低时，则对文本段落间语义连贯性的判断严格程度越高，其具体数值本发明实施例在此不再赘述。

作为本发明实施例一种可选的实施方式，如图6所示，上述步骤S1042具体可以包括：

S10421，如果第一文本段落和第二文本段落间的困惑度大于预设阈值，则确定第一文本段落和第二文本段落间的紧密度低。

S10422，如果第一文本段落和第二文本段落间的困惑度小于或等于预设阈值，则确定第一文本段落和第二文本段落间的紧密度高。

本发明实施例中，可以根据困惑度与预设阈值的大小比对结果，确定两个文本段落间的紧密度，从而准确地确定两个文本段落间的语义连贯性，为接下来的段落排序步骤提供参照基础。

S105，基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序。

本发明实施例中，在得到文本段落的相对位置信息及文本段落的紧密度后，由于文本段落的相对位置信息能够用于确定各文本段落间的相对位置，文本段落的紧密度能够用于确定各文本段落间的语义连贯性，因此可以利用文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序。

作为本发明实施例一种可选的实施方式，如图7所示，上述步骤S105具体可以包括：

S1051，将文本段落的相对位置信息输入第一算法模型，得到各文本段落的排序结果。

本发明实施例中，可以将文本段落的相对位置信息输入第一算法模型，从而得到各文本段落的排序结果。其中第一算法模型可以为预设的，具体可以选择阅读顺序算法模型，按照从上到下、从左到右的阅读顺序，对各文本段落进行排序，从而使排序后的各文本段落具有相应的位序。

作为本发明实施例一种可选的实施方式，第一算法模型可以参考相对位置信息中所包括的段落对齐信息、行间距信息、页面空白区域信息、标题区域信息等信息对文本段落进行排序。

以行间距信息为例说明，同一个文本段落中的行间距可以是相同的，但相邻的文本段落间，前一文本段落尾部的文本行和后一文本段落首部的行间距通常不同，因此设备可以根据不同文本行的行间距信息辅助确定各位文本段落的位置，进而对各文本段落进行排序。

S1052，根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整。

本发明实施例中，确定文本段落间的紧密度后，便可以根据各文本段落间的紧密度对排序后的文本段落的位序进行调整。

作为本发明实施例一种可选的实施方式，上述步骤S1052具体包括：

如果文本段落与其它文本段落间的紧密度均低，则将文本段落调整至页眉处或页脚处。

本发明实施例中，如果某一文本段落与相邻文本段落间的紧密度均低，则可以确定该文本段落为页眉或页脚的可能性高，可以将该文本段落调整至文档的页眉处或页脚处。因此，相较于现有的单纯基于阅读顺序算法，本发明实施例能够将紧密度低的文本段落调整至文档的页眉处或页脚处，从而避免语义连贯性低的页眉或页脚夹在文档的正文中，克服现有单纯基于阅读顺序算法对文本段落排序时所存在的排序错乱问题。

作为本发明实施例一种可选的实施方式，在得到各文本段落的排序结果后，为了验证哪些文本段落可能是页眉段落或者页脚段落，第一步，可以将位序第一的文本段落作为当前文本段落，则位序第二的文本段落为当前文本段落的相邻段落，然后将当前文本段落中的尾行文本行信息，以及其相邻文本段落中的首行文本行的文本信息共同输入预先训练好的NLP神经网络中，得到困惑度。

当位序第一的文本段落与位序第二的文本段落间的困惑度小于或等于预设阈值时，表明位序第一的文本段落与位序第二的文本段落间的紧密度低，则位序第一的文本段落与位序第二的文本段落为页眉或页脚段落的可能性低，对位序第一的文本段落的验证结束。

第二步，可以将位序第二的文本段落作为当前文本段落，则位序第三的文本段落为当前文本段落的相邻段落，重复上述步骤，直到出现困惑度大于预设阈值的情况。

假设位序第三的文本段落与位序第四的文本段落间的困惑度大于预设阈值，表明位序第三的文本段落与位序第四的文本段落间紧密度低，为了进一步验证，可以将位序第四的文本段落中的尾行文本行信息，以及位序第五的文本段落中的首行文本行信息，共同输入预先训练好的NLP神经网络中，得到新的困惑度；当新的困惑度也大于预设阈值时，表明位序第四的文本段落与位序第五的文本段落间的紧密度也低，则位序第四的文本段落很有可能是页眉段落或页脚段落。

当位序第一的文本段落与位序第二的文本段落间的困惑度大于预设阈值时，表明位序第一的文本段落与位序第二的文本段落间的紧密度低，为了进一步验证，可以将位序第一的文本段落中的尾行文本行信息，以及位序第三的文本段落中的首行文本行信息，共同输入预先训练好的NLP神经网络中，得到新的困惑度，如果新的困惑度小于或等于预设阈值，表明位序第一的文本段落与位序第三的文本段落间的紧密度高，则表明位序第二的文本段落很有可能是页眉段落或页脚段落；如果新的困惑度大于预设阈值，表明位序第一的文本段落与位序第三的文本段落间的紧密度也低，则表明位序第一的文本段落很有可能是页眉段落或页脚段落。

作为本发明实施例另一种可选的实施方式，上述步骤S105具体可以包括：

将文本段落的相对位置信息和文本段落间的紧密度第二算法模型，得到各文本段落的排序结果。

本发明实施例中，可以将文本段落的相对位置信息和文本段落间的紧密度共同输入预设的第二算法模型中，从而得到各文本段落的排序结果。也即，本发明实施例能够文本段落的相对位置信息和文本段落间的紧密度，直接对文本段落进行排序。第二算法模型可以为排序算法模型，可以为第一算法模型的改进，使得其可以根据语义连贯性信息，即所得到的文本段落间的紧密度，并结合阅读顺序算法确定排序结果。

本发明实施例中，所确定的各文本段落的排序结果可以如图8所示，其中，标题对应的文本段落为位序1，正文中左栏的文本段落从上至下依次排序，然后为左下角的页脚段落，然后为右上角的页眉段落，再然后正文中右栏的文本段落从上至下依次排序。

作为本发明实施例一种可选的实施方式，在接收待处理的目标格式文档后，可以将目标格式文档输入预先训练好的图表检测神经网络中，得到目标格式文档中图片的定位信息和表格的定位信息，根据目标格式文档中图片的定位信息和表格的定位信息，确定图片和表格在目标格式文档中对应的区域，对目标格式文档进行图表去除处理，得到处理后的目标格式文档。

对于含有图片或者表格的目标格式文档，如果直接对文档中的文本行进行定位，由于图片或者表格的干扰，会影响文本行定位的准确性。因此，为了提高文本行定位时的定位准确性，在对文本行定位前，可以利用预先训练好的图表检测神经网络去除目标格式文档中的图片或者表格，然后去除其中的图表，从而得到处理后的目标格式文档。

本发明实施例提供的一种文档段落排序方法，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

装置实施例

本发明实施例提供的文档段落排序装置的一种具体实施例，与图1所示流程相对应，参考图9，图9为本发明实施例的文档段落排序装置的一种结构示意图，包括：

接收模块201，用于接收待处理的目标格式文档；目标格式文档中包含文本信息。

获取模块202，用于获取目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息。

第一确定模块203，用于基于文本段落的定位信息，确定文本段落间的相对位置信息。

第二确定模块204，用于基于文本段落的文本行信息，确定文本段落间的紧密度。

排序模块205，用于基于文本段落的相对位置关系及文本段落的紧密度，对文本段落进行排序。

其中，如图10所示，第二确定模块204，包括：

处理子模块2041，用于针对所获取的文本段落，将第一文本段落文本行的文本行信息及第二文本段落的文本行信息输入预先训练好的自然语言处理NLP神经网络，得到第一文本段落和第二文本段落间的困惑度；第一文本段落和第二文本段落为所获取的文段段落中的其中两个文本段落。

确定子模块2042，用于根据困惑度与预设阈值之间的大小比对结果，确定第一文本段落和第二文本段落间的紧密度。

其中，如图11所示，排序模块205，包括：

获取子模块2051，用于将文本段落的相对位置信息输入第一算法模型，得到各文本段落的排序结果。

调整子模块2052，用于根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整。

其中，排序模块205具体用于：

将文本段落的相对位置信息和文本段落间的紧密度输入第二算法模型，得到各文本段落的排序结果。

其中，如图12所示，确定子模块2042，包括：

第一确定单元20421，用于如果第一文本段落和第二文本段落间的困惑度大于预设阈值，则确定第一文本段落和第二文本段落间的紧密度低。

第二确定单元20422，用于如果第一文本段落和第二文本段落间的困惑度小于或等于预设阈值，则确定第一文本段落和第二文本段落间的紧密度高。

其中，调整子模块2052具体用于：

本发明实施例提供的一种文档段落排序装置，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

本发明实施例还提供了一种电子设备，如图13所示，该设备300包括处理器301和机器可读存储介质302，机器可读存储介质存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令实现上述任一项的文档段落排序方法的步骤，可选的，可以实现以下步骤：

接收待处理的目标格式文档；目标格式文档中包含文本信息；

获取目标格式文档中的文本段落，得到各文本段落的定位信息，以及各文本段落的文本行信息；

基于文本段落的定位信息，确定文本段落间的相对位置信息；

基于文本段落的文本行信息，确定文本段落间的紧密度；

基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序。

机器可读存储介质可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例提供的电子设备，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，用以执行上述任一项的文档段落排序方法的步骤，可选的，可以执行如下步骤：

基于文本段落的文本行信息，确定文本段落间的紧密度；

本发明实施例提供的计算机可读存储介质，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一项的文档段落排序方法的步骤，可选的，可以执行以下步骤：

基于文本段落的文本行信息，确定文本段落间的紧密度；

本发明实施例提供的包含指令的计算机程序产品，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

本发明实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述任一项的文档段落排序方法的步骤，可选的，可以执行以下步骤：

基于文本段落的文本行信息，确定文本段落间的紧密度；

本发明实施例提供的包含指令的计算机程序，接收待识别的目标格式文档后，通过获取目标格式文档中的文本段落，各文本段落的定位信息，以及各文本段落的文本行信息，从而确定文本段落间的相对位置信息及文本段落间的紧密度，进而基于文本段落的相对位置信息及文本段落的紧密度，对文本段落进行排序，因此，相较于仅单纯采用阅读顺序对各文本段落排序的方法，能够避免语义连贯性不高的页眉或页脚夹在文档的正文中，减少文本段落排序错乱情况的发生，从而提高文本段落的排序准确性。

对于装置/电子设备/存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种文档段落排序方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述文本段落中的文本行信息，确定所述文本段落间的紧密度的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述文本段落的相对位置信息及所述文本段落的紧密度，对所述文本段落进行排序的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述文本段落的相对位置信息及所述文本段落的紧密度，对所述文本段落进行排序的步骤，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述困惑度与预设阈值之间的大小关系，确定所述第一文本段落和所述第二文本段落间的紧密度的步骤，包括：

6.根据权利要求3所述的方法，其特征在于，所述根据所确定的文本段落间的紧密度，对排序后的文本段落的位序进行调整的步骤，包括：

7.一种文档段落排序装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第二确定模块，包括：

9.根据权利要求7所述的装置，其特征在于，所述排序模块，包括：

10.根据权利要求7所述的装置，其特征在于，所述排序模块，具体用于：

11.根据权利要求8所述的装置，其特征在于，所述确定子模块，包括：

12.根据权利要求9所述的装置，其特征在于，所述调整子模块，具体用于：

13.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现权利要求1-6任一项所述的方法步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法步骤。