CN114495147B

CN114495147B - 识别方法、装置、设备以及存储介质

Info

Publication number: CN114495147B
Application number: CN202210086983.XA
Authority: CN
Inventors: 张力文; 丁鑫哲; 刘凯; 李婷婷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2023-05-05
Anticipated expiration: 2042-01-25
Also published as: CN114495147A

Abstract

本公开提供了一种识别方法、装置、设备以及存储介质，涉及自然语言处理、深度学习等人工智能技术领域。该方法包括：获取待识别文件，将待识别文件转换为图片格式，得到待识别图片；对待识别图片进行光学字符识别，得到识别结果，其中，识别结果包括待识别图片中的各个文本块的信息；基于识别结果确定待识别图片的页面中是否存在分栏；响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。本公开提供的识别方法根据页面版式的复杂程度，选取不同的方式进行顺序识别，提升了技术的泛化能力，从而满足了不同版式的文档解析需求。

Description

识别方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及自然语言处理、深度学习等领域，尤其涉及识别方法、装置、设备以及存储介质。

背景技术

随着信息化和数字化时代的到来，越来越多的文本信息被保存在txt文本文档、word、excel和pdf(Portable Document Format，便携式文档格式)等不同格式的电子文件中。文档智能解析就是解析电子文件的内容并利用其中的有效信息，因而在当今社会有着广泛的用途。

在不同格式的文件中，pdf文件最为复杂，其类型分为电子件和扫描件，pdf文件中记录有丰富、具体的信息，同时也呈现着复杂多变的版式结构。

发明内容

本公开提供了一种识别方法、装置、设备以及存储介质。

根据本公开的第一方面，提供了一种识别方法，包括：获取待识别文件，将待识别文件转换为图片格式，得到待识别图片；对待识别图片进行光学字符识别，得到识别结果，其中，识别结果包括待识别图片中的各个文本块的信息；基于识别结果确定待识别图片的页面中是否存在分栏；响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。

根据本公开的第二方面，提供了一种识别装置，包括：获取模块，被配置成获取待识别文件，将待识别文件转换为图片格式，得到待识别图片；识别模块，被配置成对待识别图片进行光学字符识别，得到识别结果，其中，识别结果包括待识别图片中的各个文本块的信息；第一确定模块，被配置成基于识别结果确定待识别图片的页面中是否存在分栏；第二确定模块，被配置成响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面中任一实现方式描述的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面中任一实现方式描述的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如第一方面中任一实现方式描述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开可以应用于其中的示例性系统架构图；

图2是根据本公开的识别方法的一个实施例的流程图；

图3是根据本公开的识别方法的另一个实施例的流程图；

图4是图3所示的识别方法的确定阅读顺序步骤的分解流程图；

图5是根据本公开的识别装置的一个实施例的结构示意图；

图6是用来实现本公开实施例的识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的识别方法或识别装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送信息等。终端设备101、102、103上可以安装有各种客户端应用。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以提供各种服务。例如，服务器105可以对从终端设备101、102、103获取的待识别文件进行分析和处理，并生成处理结果(例如确定待识别文件的阅读顺序)。

需要说明的是，服务器105可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器105为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开实施例所提供的识别方法一般由服务器105执行，相应地，识别装置一般设置于服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本公开的识别方法的一个实施例的流程200。该识别方法包括以下步骤：

步骤201，获取待识别文件，将待识别文件转换为图片格式，得到待识别图片。

在本实施例中，识别方法的执行主体(例如图1所示的服务器105)会获取待识别文件，并将获取的待识别文件转为图片格式，从而得到待识别图片。其中，待识别文件一般指PDF文件，PDF是Adobe公司发展出来的一种文件格式，它的优点在于跨平台，能保留文件原有的格式，高质量和保真的进行原始文件和格式的呈现，但是PDF是非结构化的数据存储格式，对于进行PDF文件中文本的信息检索或PDF格式转换为其它流式格式文件，提取出来的文本信息并非是按文件的阅读顺序输出，可能存在后序的内容提前出现在输出的文本中，所以本公开提供了一种识别方法，以确定待识别文件(PDF文件)的阅读顺序。

在本实施例中，为了同时支持电子件和扫描件的PDF文件，上述执行主体在获取到待识别的PDF文件后，会将其转换为图片格式，从而得到待识别图片，图片格式可以为jpg(Joint Photographic Group)格式，也称为jpeg(Joint Photographic Experts Group)格式，也可以为png(Portable Network Graphics，便携式网络图形)格式，本实施例对此不做具体限定。当PDF为多页时，上述执行主体会将每一页的内容都转换为图片格式，从而得到多个待识别图片。

步骤202，对待识别图片进行光学字符识别，得到识别结果。

在本实施例中，上述执行主体会对待识别图片进行光学字符识别，得到识别结果，光学字符识别也即OCR(Optical Character Recognition)识别，OCR识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。上述执行主体会对待识别图片进行OCR识别，从而得到识别结果，其中，识别结果包括待识别图片中的各个文本块的信息，例如文本块的内容、文本块的位置信息等。

步骤203，基于识别结果确定待识别图片的页面中是否存在分栏。

在本实施例中，上述执行主体会基于步骤202中得到的识别结果确定待识别图片的页面中是否存在分栏，也即判断待识别图片是简单页面还是复杂页面，简单页面即无分栏的页面，复杂页面即有分栏的页面。例如，可先基于识别结果中的各个文本块的信息来生成各个文本块的特征向量，然后将上述特征向量输入至预先训练好的分类模型中，从而使用该分类模型判断待识别图片的页面中是否存在分栏。其中，分类模型是一个二分类模型，即可以判断该页面有无分栏的一个二分类模型。

可选地，若待识别图片中无分栏，则只需按照“从左到右、从上到下”的阅读顺序进行分段即可。

步骤204，响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。

在本实施例中，若待识别图片的页面中存在分栏，上述执行主体可以基于各个文本块的信息确定待识别图片的阅读顺序。文本块的信息中可以包括文本块的内容以及文本块的位置信息(也即坐标信息)，坐标信息中又可以包括该文本块距离页面最上边、最下边、最左边、最右边的距离，所以上述执行主体可以基于各个文本块的坐标信息来确定文本块的物理顺序。此外，上述执行主体还可以确定各个文本块的逻辑先后顺序，然后再基于逻辑先后顺序对各个文本块进行排序，从而基于排序结果确定待识别图片的阅读顺序。例如，上述执行主体可以基于各个文本块的逻辑先后顺序来构建有向无环图，并确定该有向无环图中所有节点的线性序列，从而基于该线性序列来确定待识别图片中各个文本块的阅读顺序。

本公开实施例提供的识别方法，首先获取待识别文件，将待识别文件转换为图片格式，得到待识别图片；然后对待识别图片进行光学字符识别，得到识别结果；之后基于识别结果确定待识别图片的页面中是否存在分栏；最后响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。本实施例中的识别方法，该方法会判断页面版式的复杂程度，也即页面中是否存在分栏，并根据页面的不同版式，选取不同的方式进行顺序识别，从而可以对不同页面进行识别，满足了不同版式的文档解析需求，提升了技术的泛化能力；此外，该方法无需语料资源和计算资源，进一步提升了页面的识别速度。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

继续参考图3，图3示出了根据本公开的识别方法的另一个实施例的流程300。该识别方法包括以下步骤：

步骤301，获取待识别文件，将待识别文件转换为图片格式，得到待识别图片。

步骤302，对待识别图片进行光学字符识别，得到识别结果。

步骤301-302与前述实施例的步骤201-202基本一致，具体实现方式可以参考前述对步骤201-202的描述，此处不再赘述。

步骤303，分别生成各个文本块的特征向量，得到特征向量集合。

在本实施例中，识别方法的执行主体(例如图1所示的服务器105)可以分别生成各个文本块中的每个文本块的特征向量，从而得到包含每个文本块的特征向量的特征向量集合。在这里，会将每个文本块距离页面最左边、最右边、最下边(底边)以及最上边(顶边)的距离，以及文本块的宽度及文本块的高度作为6个维度，从而基于该6个维度生成该文本块的特征向量，进而生成包含每个文本块的特征向量的特征向量集合。

步骤304，将特征向量集合输入至预先训练的分类模型，输出得到待识别图片的页面中是否存在分栏的判断结果。

在本实施例中，上述执行主体可以将步骤303生成特征向量集合输入至预先训练好的分类模型中，输出得到待识别图片的页面中是否存在分栏的判断结果。这里的分类模型是一个二分类模型，其可以为基于GDBT(Gradient Boosting Decision Tree)的分类模型，GBDT又叫MART(Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。当然，还可以采用其他的分类模型，本实施例中对此不做具体限定。

通过上述步骤判断待识别图片中是否存在分栏，可以更准确地判断页面版式，然后基于页面版式采用不同方式进行处理，进而提升了识别的准确性。

步骤305，响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。

步骤305与前述实施例的步骤204基本一致，具体实现方式可以参考前述对步骤204的描述，此处不再赘述。

步骤306，响应于待识别图片的页面中不存在分栏，根据待识别图片的布局信息对待识别图片进行分段，以确定待识别图片的阅读顺序。

在本实施例中，若待识别图片的页面中不存在分栏，上述执行主体可以根据待识别图片的布局信息对待识别图片进行分段，以确定待识别图片的阅读顺序。若待识别图片中不存在分栏，则说明待识别图片为简单页面，那么便可以根据OCR识别结果中的布局信息以及文字信息对待识别图片进行分段，并按照分段结果按照“从左到右、从上到下”的阅读顺序进行识别即可，其中，布局信息一般指文本块信息，也即段落信息。本步骤提供了待识别图片中不存在分栏时，确定待识别图片的阅读顺序的方法，从而满足了不同版式的文档解析需求，提升了技术的泛化能力。

在本实施例的一些可选实施方式中，响应于无法获取待识别图片的布局信息，对于待识别图片中的每个文本行，判断该文本行的末尾是否有代表结束的标点符号，以及该文本行的下一行的文本是否无紧缩；响应于该文本行的末尾没有代表结束的标点符号，以及该文本行的下一行的文本无紧缩，确定该文本行以及该文本行的下一行属于同一个段落。

在本实现方式中，对于某些未能提取到布局信息的特殊页面，则会按照预先设定的规则进行识别。由于未能提取到布局信息(文本块信息)，所以会将页面按照文本行进行识别。采用的规则如下：针对每个文本行，若该文本行末尾没有代表结束的标点符号(例如句号、叹号、问号等)且该文本行的下一行的文本无缩紧，则可以确定这两行同属一段。从而实现了对特殊页面的解析。

从图3中可以看出，与图2对应的实施例相比，本实施例中的识别方法，该方法突出了判断待识别图片中是否存在分栏的步骤以及待识别图片中不存在分栏时的识别步骤，从而实现了根据页面的不同版式，选取不同的方式进行顺序识别，提升了技术的泛化能力，满足了不同版式的文档解析需求。

继续参考图4，其示出了图3所示的识别方法的确定阅读顺序步骤的分解流程400。该确定阅读顺序步骤包括：

步骤401，确定各个文本块在二维坐标系中的位置信息。

在本实施例中，确定阅读顺序步骤的执行主体(例如图1所示的服务器105)会先确定各个文本块在二维坐标系中的位置信息。也即建立二维坐标系，分别使各个文本块向纵轴和横轴投影，从而得到各个文本块的位置信息，其中，位置信息可以表示为(X₀，Y₀，X₁，Y₁，Weight，Height)X₀是该文本块到页面最左边的距离，Y₀是该文本块到页面最下边(底边)的距离，X₁是该文本块到页面最右边的距离，Y₁是文本块到页面最上边(顶边)的距离，Weight是该文本框的宽度，Height是该文本框的高度。

步骤402，按照位置信息对各个文本块进行排列，得到文本块列表。

在本实施例中，上述执行主体可以按照位置信息对各个文本块进行排列，得到文本块列表。也即基于各个文本块的位置信息，按照从左到右、从上到下的顺序依次进行排列，从而形成一条文本块列表。

步骤403，基于文本块列表中任意两个文本块的逻辑顺序，构建有向无环图。

在本实施例中，上述执行主体可以基于文本块列表中任意两个文本块的逻辑顺序，来构建有向无环图。也即上述执行主体会判断文本块列表中的任意两个文本块的逻辑顺序，然后上述执行主体基于该逻辑顺序来构建有向无环图。其中，有向无环图指的是一个无回路的有向图。

在本实施例的一些可选实施方式中，文本块列表中任意两个文本块的逻辑顺序基于以下步骤确定：对于文本块列表中的每个文本块，将文本块作为当前节点；分别从文本块列表中获取除当前节点外的其他文本块，将该文本块作为待比较节点；基于当前节点与待比较节点的位置信息，确定当前节点与待比较节点的逻辑顺序。

在本实现方式中，上述执行主体可以对已经排列好的文本块列表中的文本块进行循环比较，也即依次取每个文本块(当前节点)与该文本块后续的文本块(待比较节点)进行比较，从而获取前序关系。具体地，针对文本块列表中的每个文本块，将其作为当前节点。然后从文本块列表中依次取出当前文本块外的其他文本块，将其作为待比较节点。然后比较当前节点与待比较节点的位置信息，基于比较结果确定当前节点与待比较节点的逻辑顺序，也即当前节点与待比较节点的前序关系。从而保证了各个文本块的逻辑顺序的准确性。

在本实施例的一些可选实施方式中，位置信息包括该文本块距离页面最左边的第一距离；以及基于当前节点与待比较节点的位置信息，确定当前节点与待比较节点的逻辑顺序，包括：确定当前节点的第一距离与待比较节点的第一距离的差值的绝对值；若绝对值不超过第一预设宽度，或当前节点的第一距离小于待比较节点的第一距离，则当前节点在待比较节点之前。

在本实现方式中，由于位置信息中包含该文本块距离页面最左边的距离，将其记为第一距离(也即X₀)，所以上述执行主体会基于该第一距离来确定当前节点与待比较节点的逻辑顺序。具体地，上述执行主体会先计算当前节点的X₀值与待比较节点的X₀值的差值的绝对值，当该绝对值不超过第一预设宽度或当前节点的X₀值小于待比较节点的X₀值的情况下，则可以确定当前节点在待比较节点之前。其中，第一预设宽度可以为一个字符的宽度，也即在该绝对值不超过一个字符的宽度或当前节点的X₀值小于待比较节点的X₀值的情况下，则可以确定当前节点在待比较节点之前。从而实现了对当前节点在待比较节点之前的情况的判定。

在本实施例的一些可选实施方式中，若绝对值大于等于第二预设宽度，且当前节点的第一距离小于待比较节点的第一距离，则当前节点在待比较节点之后。

在本实现方式中，当该绝对值大于等于第二预设宽度，且当前节点的X₀值小于待比较节点的X₀值时，则可以确定当前节点在待比较节点之后。其中，第二预设宽度可以为待比较节点的文本块宽度，也即在该绝对值大于等于待比较节点的文本块宽度，且当前节点的X₀值小于待比较节点的X₀值的情况下，则可以确定当前节点在待比较节点之前。从而实现了对当前节点在待比较节点之后的情况的判定。

步骤404，采用拓扑排序算法得到有向无环图中所有节点的线性序列。

在本实施例中，上述执行主体可以采用拓扑排序算法得到有向无环图中所有节点的线性序列。

对一个有向无环图(Directed Acyclic Graph简称DAG)G进行拓扑排序，是将G中所有顶点排成一个线性序列，使得图中任意一对顶点u和v，若边<u，v>∈E(G)，则u在线性序列中出现在v之前。通常，这样的线性序列称为满足拓扑次序(Topological Order)的序列，简称拓扑序列。简单的说，由某个集合上的一个偏序得到该集合上的一个全序，这个操作称之为拓扑排序。

上述执行主体可以采用拓扑排序算法来对有向无环图中的所有节点进行排序，从而得到一个全局唯一的线性序列。

步骤405，基于线性序列中的节点数目来确定各个文本块是否完成排序。

在本实施例中，上述执行主体可以基于步骤404得到的线性序列中的节点数目来确定待识别图片中的各个文本块是否完成排序。若排序完成，则排序结果即为待识别图片的阅读顺序。若排序未完成，则需要继续对各个文本块进行排序，以确定待识别图片的阅读顺序。

在本实施例的一些可选实施方式中，步骤405包括：响应于线性序列中的节点数目等于待识别图片中所有文本块的数目，则确定待识别图片中的各个文本块完成排序。

在本实现方式中，若线性序列中的节点数目等于待识别图片中所有文本块的数目，则代表各个文本块已经完成排序。从而保证待识别图片以成功进行解析，并确定了待识别图片的阅读顺序。

在本实施例的一些可选实施方式中，步骤405还包括：响应于线性序列中的节点数目不等于待识别图片中所有文本块的数目，采用递归重试算法确定出错的文本块；重新对出错的文本块之后的所有文本块进行排序，直至所有文本块完成排序。

在本实现方式中，若线性序列中的节点数目不等于待识别图片中所有文本块的数目，则意味着存在特殊的文本块导致排序失败。此时，上述执行主体会采用递归重试机制来寻找出错的文本块。由于出错文本块之前的排序是正确的，所以，只需重新对出错文本块之后的文本块进行排序，直到所有文本块全部排序完成停止。引入递归重试机制，从而保证复杂页面可以解析成功。

从图4中可以看出，本实施例中的确定阅读顺序方法，该方法基于投影的启发式规则，确定了所有文本块中任意两个文本块的先后顺序并构建了有向无环图，然后用拓扑排序算法寻找有向无环图中所有节点全局唯一的线性序列，从而得到待识别图片的阅读顺序。从而提升了PDF文档解析的鲁棒性，并在处理复杂页面时引入了递归重试机制，进一步提升了技术的泛化能力。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的识别装置500包括：获取模块501、识别模块502、第一确定模块503和第二确定模块504。其中，获取模块501，被配置成获取待识别文件，将待识别文件转换为图片格式，得到待识别图片；识别模块502，被配置成对待识别图片进行光学字符识别，得到识别结果，其中，识别结果包括待识别图片中的各个文本块的信息；第一确定模块503，被配置成基于识别结果确定待识别图片的页面中是否存在分栏；第二确定模块504，被配置成响应于待识别图片的页面中存在分栏，基于各个文本块的信息确定待识别图片的阅读顺序。

在本实施例中，识别装置500中：获取模块501、识别模块502、第一确定模块503和第二确定模块504的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，第一确定模块包括：生成子模块，被配置成分别生成各个文本块的特征向量，得到特征向量集合；输入子模块，被配置成将特征向量集合输入至预先训练的分类模型，输出得到待识别图片的页面中是否存在分栏的判断结果。

在本实施例的一些可选的实现方式中，第二确定模块包括：第一确定子模块，被配置成确定各个文本块在二维坐标系中的位置信息；排列子模块，被配置成按照位置信息对各个文本块进行排列，得到文本块列表；构建子模块，被配置成基于文本块列表中任意两个文本块的逻辑顺序，构建有向无环图；第二确定子模块，被配置成采用拓扑排序算法得到有向无环图中所有节点的线性序列；第三确定子模块，被配置成基于线性序列中的节点数目来确定各个文本块是否完成排序。

在本实施例的一些可选的实现方式中，上述识别装置500还包括用于确定文本块列表中任意两个文本块的逻辑顺序的确定逻辑顺序模块，确定逻辑顺序模块被配置成：第一作为子模块，被配置成对于文本块列表中的每个文本块，将文本块作为当前节点；第二作为子模块，被配置成分别从文本块列表中获取除当前节点外的其他文本块，将该文本块作为待比较节点；第四确定子模块，被配置成基于当前节点与待比较节点的位置信息，确定当前节点与待比较节点的逻辑顺序。

在本实施例的一些可选的实现方式中，位置信息包括该文本块距离页面最左边的第一距离；以及第四确定子模块包括：第一确定单元，被配置成确定当前节点的第一距离与待比较节点的第一距离的差值的绝对值；第二确定单元，被配置成若绝对值不超过第一预设宽度，或当前节点的第一距离小于待比较节点的第一距离，则当前节点在待比较节点之前。

在本实施例的一些可选的实现方式中，第四确定子模块还包括：第三确定单元，被配置成若绝对值大于等于第二预设宽度，且当前节点的第一距离小于待比较节点的第一距离，则当前节点在待比较节点之后。

在本实施例的一些可选的实现方式中，第三确定子模块包括：第四确定单元，被配置成响应于线性序列中的节点数目等于待识别图片中所有文本块的数目，则确定待识别图片中的各个文本块完成排序。

在本实施例的一些可选的实现方式中，第三确定子模块还包括：第五确定单元，被配置成响应于线性序列中的节点数目不等于待识别图片中所有文本块的数目，采用递归重试算法确定出错的文本块；排序单元，被配置成重新对出错的文本块之后的所有文本块进行排序，直至所有文本块完成排序。

在本实施例的一些可选的实现方式中，上述识别装置500还包括：分段模块，被配置成响应于待识别图片的页面中不存在分栏，根据待识别图片的布局信息对待识别图片进行分段，以确定待识别图片的阅读顺序。

在本实施例的一些可选的实现方式中，上述识别装置500还包括：判断模块，被配置成响应于无法获取待识别图片的布局信息，对于待识别图片中的每个文本行，判断该文本行的末尾是否有代表结束的标点符号，以及该文本行的下一行的文本是否无紧缩；第三确定模块，被配置成响应于该文本行的末尾没有代表结束的标点符号，以及该文本行的下一行的文本无紧缩，确定该文本行以及该文本行的下一行属于同一个段落。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如识别方法。例如，在一些实施例中，识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

云计算(cloud computer)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用或存储设备等，并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种识别方法，包括：

获取待识别文件，将所述待识别文件转换为图片格式，得到待识别图片；

对所述待识别图片进行光学字符识别，得到识别结果，其中，所述识别结果包括所述待识别图片中的各个文本块的信息；

基于所述识别结果确定所述待识别图片的页面中是否存在分栏；

响应于所述待识别图片的页面中存在分栏，基于所述各个文本块的信息确定所述待识别图片的阅读顺序；

响应于所述待识别图片的页面中不存在分栏，根据所述待识别图片的布局信息对所述待识别图片进行分段，以确定所述待识别图片的阅读顺序；

响应于所述待识别图片的页面中不存在分栏，且响应于无法获取所述待识别图片的布局信息，对于所述待识别图片中的每个文本行，判断该文本行的末尾是否有代表结束的标点符号，以及该文本行的下一行的文本是否无紧缩；响应于该文本行的末尾没有代表结束的标点符号，以及该文本行的下一行的文本无紧缩，确定该文本行以及该文本行的下一行属于同一个段落；

其中，所述基于所述各个文本块的信息确定所述待识别图片的阅读顺序，包括：

确定所述各个文本块在二维坐标系中的位置信息；

按照所述位置信息对所述各个文本块进行排列，得到文本块列表；

基于所述文本块列表中任意两个文本块的逻辑顺序，构建有向无环图；

采用拓扑排序算法得到所述有向无环图中所有节点的线性序列；

基于所述线性序列中的节点数目来确定所述各个文本块是否完成排序，包括：响应于所述线性序列中的节点数目等于所述待识别图片中所有文本块的数目，则确定所述待识别图片中的各个文本块完成排序。

2.根据权利要求1所述的方法，其中，所述基于所述识别结果确定所述待识别图片的页面中是否存在分栏，包括：

分别生成所述各个文本块的特征向量，得到特征向量集合；

将所述特征向量集合输入至预先训练的分类模型，输出得到所述待识别图片的页面中是否存在分栏的判断结果。

3.根据权利要求1所述的方法，其中，所述文本块列表中任意两个文本块的逻辑顺序通过以下步骤确定：

对于所述文本块列表中的每个文本块，将所述文本块作为当前节点；

分别从所述文本块列表中获取除当前节点外的其他文本块，将该文本块作为待比较节点；

基于所述当前节点与所述待比较节点的位置信息，确定所述当前节点与所述待比较节点的逻辑顺序。

4.根据权利要求3所述的方法，其中，所述位置信息包括该文本块距离页面最左边的第一距离；以及

所述基于所述当前节点与所述待比较节点的位置信息，确定所述当前节点与所述待比较节点的逻辑顺序，包括：

确定所述当前节点的第一距离与所述待比较节点的第一距离的差值的绝对值；

若所述绝对值不超过第一预设宽度，或所述当前节点的第一距离小于所述待比较节点的第一距离，则所述当前节点在所述待比较节点之前。

5.根据权利要求4所述的方法，其中，所述基于所述当前节点与所述待比较节点的位置信息，确定所述当前节点与所述待比较节点的逻辑顺序，还包括：

若所述绝对值大于等于所述第一预设宽度，且所述当前节点的第一距离小于所述待比较节点的第一距离，则所述当前节点在所述待比较节点之后。

6.根据权利要求1所述的方法，其中，所述基于所述线性序列中的节点数目来确定所述各个文本块是否完成排序，还包括：

响应于所述线性序列中的节点数目不等于所述待识别图片中所有文本块的数目，采用递归重试算法确定出错的文本块；

重新对所述出错的文本块之后的所有文本块进行排序，直至所有文本块完成排序。

7.一种识别装置，包括：

获取模块，被配置成获取待识别文件，将所述待识别文件转换为图片格式，得到待识别图片；

识别模块，被配置成对所述待识别图片进行光学字符识别，得到识别结果，其中，所述识别结果包括所述待识别图片中的各个文本块的信息；

第一确定模块，被配置成基于所述识别结果确定所述待识别图片的页面中是否存在分栏；

第二确定模块，被配置成响应于所述待识别图片的页面中存在分栏，基于所述各个文本块的信息确定所述待识别图片的阅读顺序；

分段模块，被配置成响应于所述待识别图片的页面中不存在分栏，根据所述待识别图片的布局信息对所述待识别图片进行分段，以确定所述待识别图片的阅读顺序；

第三确定模块，被配置成响应于所述待识别图片的页面中不存在分栏，且响应于无法获取所述待识别图片的布局信息，对于所述待识别图片中的每个文本行，判断该文本行的末尾是否有代表结束的标点符号，以及该文本行的下一行的文本是否无紧缩；响应于该文本行的末尾没有代表结束的标点符号，以及该文本行的下一行的文本无紧缩，确定该文本行以及该文本行的下一行属于同一个段落；

其中，所述第二确定模块包括：

第一确定子模块，被配置成确定所述各个文本块在二维坐标系中的位置信息；

排列子模块，被配置成按照所述位置信息对所述各个文本块进行排列，得到文本块列表；

构建子模块，被配置成基于所述文本块列表中任意两个文本块的逻辑顺序，构建有向无环图；

第二确定子模块，被配置成采用拓扑排序算法得到所述有向无环图中所有节点的线性序列；

第三确定子模块，被配置成基于所述线性序列中的节点数目来确定所述各个文本块是否完成排序，包括：响应于所述线性序列中的节点数目等于所述待识别图片中所有文本块的数目，则确定所述待识别图片中的各个文本块完成排序。

8.根据权利要求7所述的装置，其中，所述第一确定模块包括：

生成子模块，被配置成分别生成所述各个文本块的特征向量，得到特征向量集合；

输入子模块，被配置成将所述特征向量集合输入至预先训练的分类模型，输出得到所述待识别图片的页面中是否存在分栏的判断结果。

9.根据权利要求7所述的装置，其中，所述装置还包括用于确定文本块列表中任意两个文本块的逻辑顺序的确定逻辑顺序模块，所述确定逻辑顺序模块被配置成：

第一作为子模块，被配置成对于所述文本块列表中的每个文本块，将所述文本块作为当前节点；

第二作为子模块，被配置成分别从所述文本块列表中获取除当前节点外的其他文本块，将该文本块作为待比较节点；

第四确定子模块，被配置成基于所述当前节点与所述待比较节点的位置信息，确定所述当前节点与所述待比较节点的逻辑顺序。

10.根据权利要求9所述的装置，其中，所述位置信息包括该文本块距离页面最左边的第一距离；以及

所述第四确定子模块包括：

第一确定单元，被配置成确定所述当前节点的第一距离与所述待比较节点的第一距离的差值的绝对值；

第二确定单元，被配置成若所述绝对值不超过第一预设宽度，或所述当前节点的第一距离小于所述待比较节点的第一距离，则所述当前节点在所述待比较节点之前。

11.根据权利要求10所述的装置，其中，所述第四确定子模块还包括：

第三确定单元，被配置成若所述绝对值大于等于所述第一预设宽度，且所述当前节点的第一距离小于所述待比较节点的第一距离，则所述当前节点在所述待比较节点之后。

12.根据权利要求7所述的装置，其中，所述第三确定子模块还包括：

第五确定单元，被配置成响应于所述线性序列中的节点数目不等于所述待识别图片中所有文本块的数目，采用递归重试算法确定出错的文本块；

排序单元，被配置成重新对所述出错的文本块之后的所有文本块进行排序，直至所有文本块完成排序。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。