CN112818823A

CN112818823A - 一种基于票据内容和位置信息的文本抽取方法

Info

Publication number: CN112818823A
Application number: CN202110119105.9A
Authority: CN
Inventors: 张书源
Original assignee: Ccb Lanzhi Technology Beijing Co ltd
Current assignee: Ccb Lanzhi Technology Beijing Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-18
Anticipated expiration: 2041-01-28
Also published as: CN112818823B

Abstract

本发明提供了一种基于票据内容和位置信息的文本抽取方法，包括以下步骤：S1：图像校正；S2：进行文字检测，检测出文字块；S3：在检测好的文字块上进行文字识别；S4：对文字块进行分类，得到文字块的文字信息和坐标信息；S5：将文字块的文字信息和坐标信息送入神经网络中，输出每个文字块的标签；S6：对相同标签类型的文字块进行匹配链接，输出抽取结果。本发明通过引入了位置信息的textCNN+blocklink的方法，解决了在二维票据中实体抽取的问题，并通引入的位置信息有效提高了文本抽取的准确率。

Description

一种基于票据内容和位置信息的文本抽取方法

技术领域

本发明涉及单据信息抽取领域，具体而言，涉及一种基于票据内容和位置信息的文本抽取方法。

背景技术

在经济贸易活动中，很多关键要素信息(比如：公司名，日期，金额)是存储在票据的影像中，目前，已经存在各种各样的光学字符识别技术(Optical CharacterRecognition，简称OCR)，将这些票据的影像字符转换为计算机能理解的文本编码。但是如何抽取这些票据中的要素信息，还需要借助自然语言处理(Natural LanguageProcessing，简称NLP)技术来实现关键要素的抽取。

在票据的实体抽取过程中，通常采用textCNN算法进行，传统的textCNN算法是用在一维的文本序列中，只能考虑左右的语境信息，而在单据中，不仅要考虑左右的语境信息，也要考虑文本的位置信息，比如单据的标题常出现于单据的中间偏上的位置，日期常出现于右上角等，然而textCNN算法并不能解决在二维票据中实体抽取的问题，并不能达到理想的文本抽取准确率。

发明内容

针对现有技术存在的问题，本发明提供了一种基于票据内容和位置信息的文本抽取方法，引入了文字块的位置信息，有效提高文本抽取的准确率。

第一方面，本发明提供的一种基于票据内容和位置信息的文本抽取方法，包括以下步骤：

S1：图像校正；

S2：进行文字检测，检测出文字块；

S3：在检测好的文字块上进行文字识别；

S4：对文字块进行分类，得到文字块的文字信息和坐标信息；

S5：将文字块的文字信息和坐标信息送入神经网络中，输出每个文字块的标签；

S6：对相同标签类型的文字块进行匹配链接，输出抽取结果。

进一步，所述步骤S1中，采用east算法求出文字块的倾斜角度，然后根据文字块的倾斜角度校正图片。

进一步，所述步骤S2中，采用pixellink算法进行文字检测。

进一步，所述步骤S3中，采用crnn+ctc算法在检测好的文字块上进行文字识别。

进一步，所述步骤S4中，所述文字信息包括文字块的宽度信息以及高度信息，所述坐标信息包括文字块的左上、左下、右上以及右下的坐标。

进一步，所述步骤S5中，所述神经网络为双层神经网络。

进一步，采用textCNN+location神经网络输出每个文字块的分类标签。

进一步，所述步骤S6中，对分类好的文字块识别其周围的文字块，对相同类型的文字块进行合并。

进一步，所述文字块的标签类型包括包含key的文字块以及包括value的文字块。

进一步，通过最短距离链接相邻的文字块，实现key和value的链接。

第二方面，本发明公开了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述方法的步骤。

第三方面，本发明公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述方法的步骤。

本发明实施例提供的基于票据内容和位置信息的文本抽取方法，通过引入了位置信息的textCNN+blocklink的方法，解决了在二维票据中实体抽取的问题，并通引入的位置信息有效提高了文本抽取的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例示出的基于票据内容和位置信息的文本抽取方法的流程示意图；

图2为textCNN+location神经网络的结构框架图；

图3为不同类型文字块在链接时的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，本发明提供了一种基于票据内容和位置信息的文本抽取方法，包括如下步骤：

S1：图像校正；

S2：进行文字检测，检测出文字块；

S3：在检测好的文字块上进行文字识别；

在传统的textCNN算法中仅仅考虑了文本信息，但是在单据中，文本的位置特征十分重要，通过引入文字块的坐标信息对每个文字块进行分类标签，并且将相同标签类型的文字块进行匹配链接，有效提高了分类器的筛选能力，保证对于文本抽取的准确率。

具体地，在进行图像校正时，采用east算法求出文字块的倾斜角度，然后根据文字块的倾斜角度校正图片。

在进行文字检测时，采用pixellink算法，进行像素级别的实例分割，分辨哪些像素属于文字区域，哪些像素不属于文字区域，即实现文字检测功能。pixellink首先将同一实例中的像素链接起来分割出不同的文本实例，然后直接从分割结果中提取文本包围框，可以在几个基准上实现更好或更可比较的性能，同时只需要更少的训练迭代轮次和更少的训练数据。结合本发明中的抽取方法，通过pixellink算法能够更加有效地进行文字区域的识别，提高文字检测的效率。

在文字检测后，采用crnn+ctc算法在检测好的文字块上进行文字识别，然后对文字识别后的文字块进行分类，得到文字块的文字信息和坐标信息，其中文字块的文字信息包括文字块的宽度信息以及高度信息，文字块的坐标信息包括文字块的左上、左下、右上以及右下的坐标。

在得到文字块的文字信息以及坐标信息后，后续通过textCNN+location的双层神经网络对文字信息以及坐标信息进行分类。

在票据的文本分类中，文字块的位置信息，文字块长度，文字块高度等是十分重要的特征。比如，出现的在票据头部的公司名称，就极有可能是卖方，而出现在票据底部的公司名称是卖方的概率就非常低；日期文字块的宽度一般比较短，卖方的公司名称高度一般比较大。所以需要在textCNN中引入位置，宽度，高度信息，提高分类器的筛选能力。

参见图2所示的textCNN+location神经网络的结构框架图，本发明中文本的提取方法，并不局限于传统textCNN仅仅考虑文本信息的角度，还结合了在单据中文本的位置特征以进行准确地提取。例如，invoice出现在单据的中上位置，则极大概率为单据名称，如果出现在单据底部，则不是单据名称。增加了位置特征信息的输入后，极大的提高了分类的准确性和鲁棒性。

需要指出，本发明能够给将原有的全连接层改为textCNN+location双层网络神经，通过增加神经网络深度和拟合能力，增强了双层网络的异或能力，有效提高了文本抽取的准确率。

经过textCNN+location的双层神经网络对文字块进行分类后，输出每个文字块的分类标签，对分类好的文字块，识别其周围的文字块，如果是同一种标签类型的文字块，合并相同标签类型的文字块，该合并过程具体通过对相同标签类型的文字块进行匹配链接进行的。

神经网络对文字块进行分类识别后，会输出两种标签类型的文字块，具体包括包含key的文字块以及包含value的文字块，在进行匹配链接时，通过最短距离链接相邻的文字块，实现key和value的链接，链接成功的key和value构成的成对文字块，即为要抽取的内容，从而完成了对票据中文本的抽取。

参见图3中的匹配链接过程，K_SELLER标签的文字块只能和V_COMPANY标签的文字块相链接，K_BUYER标签的文字块只能和V_COMPANY标签的文字块相链接；另外，K_DATE标签的文字块也只能和V_DATE标签的文字块相链接。

在具体链接时遵循最小距离原则，由于D1<D2，所以，K_SELLER和V_COMPANY1链接成功，同理，K_BUYER和V_COMPANY2链接成功。通过对上述两对链接成功的文字块进行提取，即完成了票据中目标文本的抽取。

通过本发明中基于票据内容和位置信息的文本抽取方法，有效结合了拟抽取文本在票据中的位置，从而能够更加真实有效地对目标文本进行研判，极大提高了文本抽取的准确率。

通过引入了位置信息的textCNN，以及在分类识别后对相同分类标签的文字块进行匹配链接，构成了本发明中的引入了位置信息的textCNN与blocklink相结合的文本抽取方法，通过该种文本抽取方法，有效改善了原有全连接层的提取状态，结合了位置信息的textCNN能够更加真实地反应拟提取文本的内容，使文本抽取的准确率得到有效保障。

本申请实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的一种基于票据内容和位置信息的文本抽取方法，存储介质是任何的各种类型的存储器设备或存储设备，存储介质包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等；存储介质可以还包括其它类型的存储器或其组合；另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统；第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现基于票据内容和位置信息的文本抽取方法的步骤。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上实施例所述的基于票据内容和位置信息的文本抽取方法，还可以执行本申请任意实施例所提供的基于票据内容和位置信息的文本抽取方法中的相关操作。

最后应说明的是：虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种基于票据内容和位置信息的文本抽取方法，其特征在于，包括如下步骤：

S1：图像校正；

S2：进行文字检测，检测出文字块；

S3：在检测好的文字块上进行文字识别；

2.根据权利要求1所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S1中，采用east算法求出文字块的倾斜角度，然后根据文字块的倾斜角度校正图片。

3.根据权利要求1所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S2中，采用pixellink算法进行文字检测。

4.根据权利要求1所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S3中，采用crnn+ctc算法在检测好的文字块上进行文字识别。

5.根据权利要求1所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S4中，所述文字信息包括文字块的宽度信息以及高度信息，所述坐标信息包括文字块的左上、左下、右上以及右下的坐标。

6.根据权利要求1所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S5中，所述神经网络为双层神经网络。

7.根据权利要求6所述的基于票据内容和位置信息的文本抽取方法，其特征在于，采用textCNN+location神经网络输出每个文字块的分类标签。

8.根据权利要求7所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述步骤S6中，对分类好的文字块识别其周围的文字块，对相同类型的文字块进行合并。

9.根据权利要求8所述的基于票据内容和位置信息的文本抽取方法，其特征在于，所述文字块的标签类型包括包含key的文字块以及包括value的文字块。

10.根据权利要求9所述的基于票据内容和位置信息的文本抽取方法，其特征在于，通过最短距离链接相邻的文字块，实现key和value的链接。