CN113378710B

CN113378710B - 图像文件的版面分析方法、装置、计算机设备和存储介质

Info

Publication number: CN113378710B
Application number: CN202110648937.XA
Authority: CN
Inventors: 陈桂安
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2024-03-08
Anticipated expiration: 2041-06-10
Also published as: CN113378710A

Abstract

本申请涉及一种图像文件的版面分析方法、装置、计算机设备和存储介质。所述方法涉及图像处理，包括：获取待识别的图像文件，对待识别的图像文件进行字符识别，得到对应的字符识别结果。根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息，基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。采用本方法结合字符识别结果得到的各字段的坐标信息和文本信息，进行版面分析，无需依赖特定场景，可应用于具有不同数量的字段的图像文件，通用性更高，同时通过综合考虑坐标位置和文本内容，可提升对图像文件的识别准确率。

Description

图像文件的版面分析方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像文件的版面分析方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，以及字符识别技术(OCR技术)的广泛应用，出现了利用结合人工智能技术的OCR项目，通过把图片上的文字转换成字符格式的文字，以便于计算机对文本进行处理和分析。

传统上，OCR项目先用检测模型检测图片上的文字得到文本行坐标，再根据坐标裁剪出文本行图片然后用识别模型识别文字，得到图片上的文本坐标和文本内容。

而传统上利用OCR项目进行字符识别的方式，无法得知识别出的字符对应的具体字段，进而无法进一步无法完成文本分析和处理。为实现对图片字符识别和文本分析处理，出现了将图片上识别得到的坐标、内容、关键字以及参考位等信息结合正则表达式，并多次遍历全部识别结果以进行匹配的方式。但上述结合正则表达式的识别、匹配方式，多用于字段比较少的图片，比如身份证、银行卡等。对于字段比较多的比如增值税发票等的识别和处理，上述结合多项信息进行多次遍历识别的方式，仍然存在易出错、准确率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升对包含多字段的图像文件进行识别和分析时的准确率的图像文件的版面分析方法、装置、计算机设备和存储介质。

一种图像文件的版面分析方法，所述方法包括：

获取待识别的图像文件；

对所述待识别的图像文件进行字符识别，得到对应的字符识别结果；

根据所述字符识别结果，获取所述待识别的图像文件对应的文本信息和坐标信息；

基于所述文本信息、坐标信息进行字段编码，生成对应的字段输入向量；

根据训练好的文本分类模型对所述字段输入向量进行分类处理，得到与所述待识别的图像文件对应的版面分析结果。

在其中一个实施例中，所述根据所述字符识别结果，获取所述待识别的图像文件对应的文本信息和坐标信息，包括：

根据所述字符识别结果，提取所述待识别的图像文件对应的各个字段；

获取各所述字段的文本信息，以及各所述字段在所述待识别的图像文件中的位置；

根据预设坐标系，以及各所述字段在所述待识别的图像文件中的位置，得到各所述字段的坐标信息。

在其中一个实施例中，所述根据预设坐标系，以及各所述字段在所述待识别的图像文件中的位置，得到各所述字段的坐标信息，包括：

根据各所述字段在所述待识别的图像文件中的位置，确定所述待识别的图像文件上各文本框顶点对应的最小水平矩形框；

基于预设坐标系，确提取各所述最小水平矩形框对应的各顶点坐标；

基于各所述最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各所述最小水平矩形框对应的相对坐标；

根据各所述最小水平矩形框对应的相对坐标，生成与各所述字段对应的坐标信息。

在其中一个实施例中，所述对所述待识别的图像文件进行字符识别，得到对应的字符识别结果，包括：

根据训练好的字符识别模型，对所述待识别的图像文件进行字符识别，生成对应的字符识别结果；其中，所述训练好的字符识别模型，根据不同类型的图像文件组成的训练集对原始卷积神经网络模型训练得到。

在其中一个实施例中，所述基于所述文本信息、坐标信息进行字段编码，生成对应的字段输入向量，包括：

获取所述坐标信息对应的字符数据；

建立所述文本信息和所述字符数据之间的关联关系；

基于预设字符表，以及所述文本信息、字符数据之间的关联关系，将与所述文本信息关联的字符数据转换成对应的数字索引；

根据所述数字索引和所述文本信息，得到各所述字段对应的字段输入向量。

在其中一个实施例中，所述根据训练好的文本分类模型对所述字段输入向量进行分类处理，得到与所述待识别的图像文件对应的版面分析结果，包括：

获取训练好的文本分类模型对应的字段标签；

根据各所述字段标签，对各所述字段输入向量的进行字段分类，确定与所述字段标签匹配的字段；

将与各所述字段标签匹配的字段对应的文本信息，按照与所述字段标签对应的预设输出格式，得到所述待识别的图像文件与对应的版面分析结果。

一种图像文件的版面分析装置，所述装置包括：

第一获取模块，用于获取待识别的图像文件；

字符识别结果生成模块，用于对所述待识别的图像文件进行字符识别，得到对应的字符识别结果；

第二获取模块，用于根据所述字符识别结果，获取所述待识别的图像文件对应的文本信息和坐标信息；

字段输入向量生成模块，用于基于所述文本信息、坐标信息进行字段编码，生成对应的字段输入向量；

版面分析结果生成模块，用于根据训练好的文本分类模型对所述字段输入向量进行分类处理，得到与所述待识别的图像文件对应的版面分析结果。

在其中一个实施例中，所述第二获取模块，还用于：

根据各所述字段在所述待识别的图像文件中的位置，确定所述待识别的图像文件上各文本框顶点对应的最小水平矩形框；基于预设坐标系，确提取各所述最小水平矩形框对应的各顶点坐标；基于各所述最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各所述最小水平矩形框对应的相对坐标；根据各所述最小水平矩形框对应的相对坐标，生成与各所述字段对应的坐标信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别的图像文件；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别的图像文件；

上述图像文件的版面分析方法、装置、计算机设备和存储介质中，通过获取待识别的图像文件，并对待识别的图像文件进行字符识别，得到对应的字符识别结果。根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息，进而基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。通过训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。该方法通过对图像文件进行字符识别，并结合字符识别结果得到的各字段的坐标信息和文本信息，进行版面分析，且由于无需依赖特定场景，可应用于具有不同数量的字段的图像文件，通用性更高，同时通过综合考虑坐标位置和文本内容，可提升对图像文件的识别准确率。

附图说明

图1为一个实施例中图像文件的版面分析方法的应用环境图；

图2为一个实施例中图像文件的版面分析方法的流程示意图；

图3为一个实施例中得到各字段的坐标信息的流程示意图；

图4为一个实施例中训练好的文本分类模型的结构示意图；

图5为另一个实施例中图像文件的版面分析方法的流程示意图；

图6为一个实施例中图像文件的版面分析装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的图像文件的版面分析方法，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。服务器104通过获取待识别的图像文件，并对待识别的图像文件进行字符识别，得到对应的字符识别结果。其中，待识别的图像文件可以由终端102发送至服务器104，也可由服务器104从与自身关联的云端存储器中获取。服务器104根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息，进而基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。服务器104根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像文件的版面分析方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取待识别的图像文件。

具体地，当检测到基于终端发送的版面分析请求时，响应版面分析请求，并获取版面分析请求携带的图像文件标识，根据图像文件标识获取对应的待识别的图像文件。

进一步地，待识别的图像文件可存储至终端的本地存储，或存储至与服务器关联的云端存储中。当待识别的图像文件存储在终端时，服务器可根据版面分析请求携带的图像文件标识，从终端的本地存储中，提取与图像文件标识对应的待识别的图像文件。同样地，当待识别的图像文件存储至与服务器关联的云端存储时，服务器根据图像文件标识，从与自身关联的云端存储中，提取与图像文件标识对应的待识别的图像文件。

其中，对于服务器的处理内存充足的情况，可直接将版面分析请求和待识别的图像文件关联存储，将携带待识别的图像文件的版面分析请求发送至服务器，服务器可接收到版面分析请求时，获取版面分析请求携带的待识别的图像文件。

步骤S204，对待识别的图像文件进行字符识别，得到对应的字符识别结果。

具体地，根据训练好的字符识别模型，对待识别的图像文件进行字符识别，生成对应的字符识别结果。其中，训练好的字符识别模型，根据不同类型的图像文件组成的训练集对原始卷积神经网络模型训练得到。

进一步地，通过获取待识别的图像文件的待识别区域，并根据训练好的字符识别模型，对待识别的图像文件的待识别区域进行文字检测和字符识别，生成对应的字符识别结果。

其中，字符识别模型根据由多个不同类型的图像文件组成的训练集，在本实施例中，多个不同类型的图像文件，可以是多个不同类型的增值税发票文件，即字符识别模型，可根据不同类型的增值税发票文件组成的训练集训练得到。其中，不同的增值税发票对应的字段数量不同，以及各字段在增值税发票上的位置不同，进而不同字段的文本信息和坐标信息均不同。

步骤S206，根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息。

具体地，根据字符识别结果，提取待识别的图像文件对应的各个字段，并获取各字段的文本信息，以及各字段在待识别的图像文件中的位置。进而通过获取与待识别的图像文件对应的预设坐标系，并根据预设坐标系，以及各字段在待识别的图像文件中的位置，得到各字段的坐标信息。

其中，字符识别结果包括待识别的图像文件包括的不同字段对应的文本内容，以及各个字段在待识别的图像文件中的不同位置，进而通过基于待识别的图像文件建立相应的坐标系，可进一步确定不同字段的坐标信息。

步骤S208，基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。

具体地，通过获取坐标信息对应的字符数据，并建立文本信息和字符数据之间的关联关系，进而基于预设字符表，以及文本信息、字符数据之间的关联关系，将与文本信息关联的字符数据转换成对应的数字索引，并根据数字索引和文本信息，得到各字段对应的字段输入向量。

进一步地，通过把文本信息和坐标信息进行组合，得到对应的字符串。通过获取预设字符表，并对照预设字符表，把字符串中的每个字符转换成对应的字符索引值，即数字索引，进而根据数字索引和文本信息，得到各字段对应的字段输入向量。

其中，在增值税发票全字段识别时，输入训练好的文本分类模型的字段输入向量长度，是通过将数字索引和文本信息进行拼接之后的字段输入向量的前20位，而不足20位的进行补零操作，直至得到的字段输入向量的长度为20位。

步骤S210，根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。

具体地，通过获取训练好的文本分类模型对应的字段标签，并根据各字段标签，对各字段输入向量的进行字段分类，确定与字段标签匹配的字段，进而将与各字段标签匹配的字段对应的文本信息，按照与字段标签对应的预设输出格式，得到待识别的图像文件与对应的版面分析结果。

进一步地，通过使用坐标和文字信息及端到端的文本分类模型，对字段输入向量做结构化处理，并按照与文本分类模型对应的字段标签，以及各字段对应的文本信息，输出预设格式的版面分析结果。

其中，文本分类模型针对不同字段分别设置相应的字段标签，其中，设置有包括与发票类型、发票编号、发票抬头、开票时间、金额明细、税率明细、购买方信息以及销售方信息等不同字段对应的字段标签。其中，不同字段标签对应的字段的文本信息不同，相应的输出的版面分析结果的格式也不同。

上述图像文件的版面分析方法中，通过获取待识别的图像文件，并对待识别的图像文件进行字符识别，得到对应的字符识别结果。根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息，进而基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。通过训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。该方法通过对图像文件进行字符识别，并结合字符识别结果得到的各字段的坐标信息和文本信息，进行版面分析，且由于无需依赖特定场景，可应用于具有不同数量的字段的图像文件，通用性更高，同时通过综合考虑坐标位置和文本内容，可提升对图像文件的识别准确率。

在一个实施例中，如图3所示，得到各字段的坐标信息的步骤，即根据预设坐标系，以及各字段在待识别的图像文件中的位置，得到各字段的坐标信息步骤，具体包括：

步骤S302，根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框。

具体地，通过获取不同字段在待识别的图像文件中的位置，比如，在待识别的图像文件为增值税发票时，相应的图像文件包括有发票类型、发票编号、发票抬头、开票时间、金额明细、税率明细、购买方信息以及销售方信息等不同字段。

进一步地，由于不同字段在待识别的图像文件中的位置不同，同时不同字段对应的文本信息也不一致，则各个字段以及各字段包括的文本信息组成的字段区域，在待识别的图像文件中所占据的区域也不同。进而，可通过获取各字段在待识别的图像文件中的位置，得到待识别的图像文件上各文本框顶点对应的最小水平矩形框。

其中，最小水平矩形框，用于表示各字段以及对应字段包括的文本信息组成的字段区域的最小值。

步骤S304，基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标。

具体地，由于最小水平矩形框用于表示各字段、以及对应字段包括的文本信息组成的字段区域的最小值，则根据最小水平矩形框，可得到完整包含各字段以及与相应字段对应的文本信息的最小区域。

进一步地，基于待识别的图像文件建立的预设坐标系，以及各文本框顶点对应的最小水平矩形框，提取得到最小水平矩形框对应的各顶点坐标。

其中，最小水平矩形框对应的各顶点坐标包括左上角顶点的横坐标和纵坐标，左下角顶点的横坐标和纵坐标，右上角顶点的横坐标和纵坐标，以及右下角顶点的横坐标和纵坐标。

步骤S306，基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标。

具体地，根据各最小水平矩形框对应的各顶点坐标，即左上角顶点的横坐标和纵坐标，左下角顶点的横坐标和纵坐标，右上角顶点的横坐标和纵坐标，以及右下角顶点的横坐标和纵坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标。

进一步，通过采用以下公式(1)，对最小水平矩形框对应的各顶点坐标进行归一化处理：

其中，以左上角的顶点坐标为例，x0表示左上角顶点横坐标，y0表示左上角顶点纵坐标，w表示最小水平矩形框的宽，而h表示最小水平矩形框的高，x'表示左上角的顶点坐标的相对横坐标，y'表示左上角的顶点坐标的相对纵坐标。

同样地，针对左下角顶点、右上角顶点以及右下角顶点进行归一化处理，得到对应的相对坐标的计算方式，和上述基于左上角的顶点坐标进行归一化处理的方式一致。

步骤S308，根据各最小水平矩形框对应的相对坐标，生成与各字段对应的坐标信息。

具体地，根据最小水平矩形框对应的四个顶点的相对坐标，以左上角的顶点坐标为例，将左上角的顶点坐标x'和y'，分别乘100后，转换得到取值范围在0到100内的离散值。

进一步地，根据各最小水平矩形框对应的各顶点的相对坐标，进行转换后的离散值，得到长度固定的字符串，得到与最小水平矩形框对应的字段的坐标信息。

本实施例中，根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框，并基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标。进而基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标，从而根据各最小水平矩形框对应的相对坐标，可得到与各字段对应的坐标信息。通过采用确定出最小水平矩形框的方式，并进一步基于最小水平矩形框得到待识别的图像文件各字段的坐标信息，用于后续进行版面分析处理，进而提升对图像文件的识别准确率。

在一个实施例中，提供了一种图像文件的版面分析方法，还包括：

对初始卷积神经网络模型结构进行调整，增加嵌入层在初始卷积神经网络模型的输入层之后，得到训练好的文本分类模型。

其中，增加的嵌入层可以包括词嵌入和图像嵌入，用于对低维的数据进行升维，将需要识别的特征进行放大，或将较为笼统、分类不明确的特征进行区分，使得进行分类和识别时，可提升准确率。

进一步地，采用如图4所示的训练好的文本分类模型的结构，对字段向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。参照图4可知，训练好的文本分类模型包括：input(输入层)、embedding(嵌入层)、expand dim(维度增加函数层)、CNN(卷积层)、MaxPool(最大化池)、concat(拼接层)、flatten(压平层)、Dropout层(丢弃层)以及Dense(全连接层)。

上述图像文件的版面分析方法中，通过采用对初始卷积神经网络模型结构进行调整的方式，增加嵌入层在初始卷积神经网络模型的输入层之后，得到用于对各字段输入向量进行分类处理，以得到对应版面分析结果的训练好的文本分类模型。由于增加的嵌入层可用于对低维的数据进行升维，将需要识别的特征进行放大，或将较为笼统、分类不明确的特征进行区分，进而使得进行分类和识别时，可提升版面分析的准确率。

在一个实施例中，如图5，提供了一种图像文件的版面分析方法，参照图5可知，图像文件的版面分析方法，具体包括以下步骤：

1)获取待识别的图像文件。

2)根据训练好的字符识别模型，对待识别的图像文件进行字符识别，生成对应的字符识别结果。

3)根据字符识别结果，提取待识别的图像文件对应的各个字段。

4)获取各字段的文本信息，以及各字段在待识别的图像文件中的位置。

5)根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框。

6)基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标。

7)基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标。

8)根据各最小水平矩形框对应的相对坐标，生成与各字段对应的坐标信息。

9)获取坐标信息对应的字符数据。

10)建立文本信息和字符数据之间的关联关系。

11)基于预设字符表，以及文本信息、字符数据之间的关联关系，将与文本信息关联的字符数据转换成对应的数字索引。

12)根据数字索引和文本信息，得到各字段对应的字段输入向量。

13)获取训练好的文本分类模型对应的字段标签。

14)根据各字段标签，对各字段输入向量的进行字段分类，确定与字段标签匹配的字段。

15)将与各字段标签匹配的字段对应的文本信息，按照与字段标签对应的预设输出格式，得到待识别的图像文件与对应的版面分析结果。

上述图像文件的版面分析方法中，通过对图像文件进行字符识别，并结合字符识别结果得到的各字段的坐标信息和文本信息，进行版面分析，且由于无需依赖特定场景，可应用于具有不同数量的字段的图像文件，通用性更高，同时通过综合考虑坐标位置和文本内容，可提升对图像文件的识别准确率。

应该理解的是，虽然上述实施例涉及的各流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述实施例涉及的各流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种图像文件的版面分析装置，包括：第一获取模块602、字符识别结果生成模块604、第二获取模块606、字段输入向量生成模块608以及版面分析结果生成模块610，其中：

第一获取模块602，用于获取待识别的图像文件。

字符识别结果生成模块604，用于对待识别的图像文件进行字符识别，得到对应的字符识别结果。

第二获取模块606，用于根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息。

字段输入向量生成模块608，用于基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。

版面分析结果生成模块610，用于根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。

上述图像文件的版面分析装置中，通过获取待识别的图像文件，并对待识别的图像文件进行字符识别，得到对应的字符识别结果。根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息，进而基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量。通过训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。该方法通过对图像文件进行字符识别，并结合字符识别结果得到的各字段的坐标信息和文本信息，进行版面分析，且由于无需依赖特定场景，可应用于具有不同数量的字段的图像文件，通用性更高，同时通过综合考虑坐标位置和文本内容，可提升对图像文件的识别准确率。

在一个实施例中，第二获取模块还用于：

根据字符识别结果，提取待识别的图像文件对应的各个字段；获取各字段的文本信息，以及各字段在待识别的图像文件中的位置；根据预设坐标系，以及各字段在待识别的图像文件中的位置，得到各字段的坐标信息。

在一个实施例中，第二获取模块还用于：

根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框；基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标；基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标；根据各最小水平矩形框对应的相对坐标，生成与各字段对应的坐标信息。

上述第二获取模块中，根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框，并基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标。进而基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标，从而根据各最小水平矩形框对应的相对坐标，可得到与各字段对应的坐标信息。通过采用确定出最小水平矩形框的方式，并进一步基于最小水平矩形框得到待识别的图像文件各字段的坐标信息，用于后续进行版面分析处理，进而提升对图像文件的识别准确率。

在一个实施例中，字符识别结果生成模块还用于：

根据训练好的字符识别模型，对待识别的图像文件进行字符识别，生成对应的字符识别结果；其中，训练好的字符识别模型，根据不同类型的图像文件组成的训练集对原始卷积神经网络模型训练得到。

在一个实施例中，字段输入向量生成模块还用于：

获取坐标信息对应的字符数据；建立文本信息和字符数据之间的关联关系；基于预设字符表，以及文本信息、字符数据之间的关联关系，将与文本信息关联的字符数据转换成对应的数字索引；根据数字索引和文本信息，得到各字段对应的字段输入向量。

在一个实施例中，版面分析结果生成模块，还用于：

获取训练好的文本分类模型对应的字段标签；根据各字段标签，对各字段输入向量的进行字段分类，确定与字段标签匹配的字段；将与各字段标签匹配的字段对应的文本信息，按照与字段标签对应的预设输出格式，得到待识别的图像文件与对应的版面分析结果。

关于图像文件的版面分析装置的具体限定可以参见上文中对于图像文件的版面分析方法的限定，在此不再赘述。上述图像文件的版面分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。

该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储字符识别结果、文本信息、坐标信息、字段输入向量以及版面分析结果等数据。

该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像文件的版面分析方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别的图像文件；

对待识别的图像文件进行字符识别，得到对应的字符识别结果；

根据字符识别结果，获取待识别的图像文件对应的文本信息和坐标信息；

基于文本信息、坐标信息进行字段编码，生成对应的字段输入向量；

根据训练好的文本分类模型对字段输入向量进行分类处理，得到与待识别的图像文件对应的版面分析结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

根据字符识别结果，提取待识别的图像文件对应的各个字段；

获取各字段的文本信息，以及各字段在待识别的图像文件中的位置；

根据预设坐标系，以及各字段在待识别的图像文件中的位置，得到各字段的坐标信息。

根据各字段在待识别的图像文件中的位置，确定待识别的图像文件上各文本框顶点对应的最小水平矩形框；

基于预设坐标系，确提取各最小水平矩形框对应的各顶点坐标；

基于各最小水平矩形框对应的各顶点坐标，进行归一化处理，得到各最小水平矩形框对应的相对坐标；

根据各最小水平矩形框对应的相对坐标，生成与各字段对应的坐标信息。

获取坐标信息对应的字符数据；

建立文本信息和字符数据之间的关联关系；

基于预设字符表，以及文本信息、字符数据之间的关联关系，将与文本信息关联的字符数据转换成对应的数字索引；

根据数字索引和文本信息，得到各字段对应的字段输入向量。

获取训练好的文本分类模型对应的字段标签；

根据各字段标签，对各字段输入向量的进行字段分类，确定与字段标签匹配的字段；

将与各字段标签匹配的字段对应的文本信息，按照与字段标签对应的预设输出格式，得到待识别的图像文件与对应的版面分析结果。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别的图像文件；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取坐标信息对应的字符数据；

建立文本信息和字符数据之间的关联关系；

获取训练好的文本分类模型对应的字段标签；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种图像文件的版面分析方法，其特征在于，所述方法包括：

获取待识别的图像文件；所述待识别的图像文件包括不同类型的增值税发票文件，其中，不同的增值税发票文件对应的字段数量不同，以及各字段在所述增值税发票文件上的位置不同；

获取所述坐标信息对应的字符数据，建立所述文本信息和所述字符数据之间的关联关系，基于预设字符表，以及所述文本信息、字符数据之间的关联关系，将与所述文本信息关联的字符数据转换成对应的数字索引，并根据所述数字索引和所述文本信息，得到各所述字段对应的字段输入向量；其中，所述坐标信息对应字符数据，所述字符数据用于转换成数字索引，所述字段输入向量是根据所述文本信息和所述数字索引进行拼接得到的；

获取训练好的文本分类模型对应的字段标签，根据各所述字段标签，对各所述字段输入向量的进行字段分类，确定与所述字段标签匹配的字段，并将与各所述字段标签匹配的字段对应的文本信息，按照与所述字段标签对应的预设输出格式，得到所述待识别的图像文件与对应的版面分析结果；其中，所述训练好的文本分类模型针对不同字段分别设置相应的字段标签，所述字段标签包括与发票类型、发票编号、发票抬头、开票时间、金额明细、税率明细、购买方信息以及销售方信息不同字段对应的字段标签；其中，不同字段标签对应的字段的文本信息不同，对应输出不同的格式版面分析结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述字符识别结果，获取所述待识别的图像文件对应的文本信息和坐标信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据预设坐标系，以及各所述字段在所述待识别的图像文件中的位置，得到各所述字段的坐标信息，包括：

4.根据权利要求1至3任意一项所述的方法，其特征在于，所述对所述待识别的图像文件进行字符识别，得到对应的字符识别结果，包括：

5.一种图像文件的版面分析装置，其特征在于，所述装置包括：

第一获取模块，用于获取待识别的图像文件；所述待识别的图像文件包括不同类型的增值税发票文件，其中，不同的增值税发票文件对应的字段数量不同，以及各字段在所述增值税发票文件上的位置不同；

字段输入向量生成模块，用于获取所述坐标信息对应的字符数据，建立所述文本信息和所述字符数据之间的关联关系，基于预设字符表，以及所述文本信息、字符数据之间的关联关系，将与所述文本信息关联的字符数据转换成对应的数字索引，并根据所述数字索引和所述文本信息，得到各所述字段对应的字段输入向量；其中，所述坐标信息对应字符数据，所述字符数据用于转换成数字索引，所述字段输入向量是根据所述文本信息和所述数字索引进行拼接得到的；

版面分析结果生成模块，用于获取训练好的文本分类模型对应的字段标签，根据各所述字段标签，对各所述字段输入向量的进行字段分类，确定与所述字段标签匹配的字段，并将与各所述字段标签匹配的字段对应的文本信息，按照与所述字段标签对应的预设输出格式，得到所述待识别的图像文件与对应的版面分析结果；其中，所述训练好的文本分类模型针对不同字段分别设置相应的字段标签，所述字段标签包括与发票类型、发票编号、发票抬头、开票时间、金额明细、税率明细、购买方信息以及销售方信息不同字段对应的字段标签；其中，不同字段标签对应的字段的文本信息不同，对应输出不同的格式版面分析结果。

6.根据权利要求5所述的装置，其特征在于，所述第二获取模块，还用于：

7.根据权利要求5所述的装置，其特征在于，所述第二获取模块，还用于：

根据所述字符识别结果，提取所述待识别的图像文件对应的各个字段；获取各所述字段的文本信息，以及各所述字段在所述待识别的图像文件中的位置；根据预设坐标系，以及各所述字段在所述待识别的图像文件中的位置，得到各所述字段的坐标信息。

8.根据权利要求5至7任意一项所述的装置，其特征在于，所述字符识别结果生成模块，还用于：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。