CN113033380A

CN113033380A - 一种文本标注方法

Info

Publication number: CN113033380A
Application number: CN202110306681.4A
Authority: CN
Inventors: 张书源
Original assignee: Ccb Lanzhi Technology Beijing Co ltd
Current assignee: Ccb Lanzhi Technology Beijing Co ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-25
Anticipated expiration: 2041-03-23
Also published as: CN113033380B

Abstract

本发明提供了一种文本标注方法，包括以下步骤：S1：通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框；S2：计算实体文字框与自动检测文字框的重叠度，根据重叠度链接两个文字框，得到自动检测文字框的文字信息；S3：根据实体文字框从图像中将实体文字影像切出，得到文字条影像；S4：将得到的文字条影像送入OCR系统进行识别；S5：将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配，生成文本标注数据。本发明中的文本标注方法，通过在图像上标注实体，能够做到标注和OCR系统解耦，使OCR系统的迭代升级不会对标注结果造成影响。

Description

一种文本标注方法

技术领域

本发明涉及文本信息抽取领域，具体而言，涉及一种文本标注方法。

背景技术

在智能文档领域中，信息抽取任务是一个很常见的任务，它的主要目标是从文档中抽取一些实体信息比如，公司名，日期。这些实体信息散落在图片中的各个位置。

现有实现文档信息抽取的常见方法包括：

1、将图片送入到光学字符识别(Optical Character Recognition，简称OCR)系统中，OCR系统输出文字区域坐标和该区域的文字(输出会有一定的错误)；

2、在OCR系统输出的文本上标注实体信息；

3、将标注好的文本，送入到神经网络中的训练模型，对实体信息进行抽取。

在经济贸易活动中，很多关键要素信息(比如：公司名，日期，金额)是存储在票据的影像中。目前，已经存在各种各样的OCR技术，将这些票据的影像字符转换为计算机能理解的文本编码。但是如何抽取这些票据中的要素信息，还需要借助自然语言处理(NaturalLanguage Processing，简称NLP)技术来实现关键要素的抽取，所以，如何对这些OCR系统输出的自然语言文本进行标注，标注格式是怎样的，就十分重要。

在现有文档信息抽取过程中，因为标注是在OCR系统的结果上进行的，而OCR系统则是不断更新迭代升级的，所以当OCR系统模型改变之后，OCR系统输出的文本错误分布和上一个模型的文本错误分布会有一些差别，导致之前标注数据训练出的模型在新的OCR系统上抽取效果下降，标注和OCR系统严重耦合。

发明内容

针对现有技术存在的问题，本发明提供了一种文本标注方法，能够消减因OCR系统不断更新，对后续训练模型实体信息抽取效果的影响。

第一方面，本发明提供的一种文本标注方法，包括以下步骤：

S1：通过对图像进行人工标注与OCR系统自动识别分别得到实体文字框以及自动检测文字框；

S2：计算实体文字框与自动检测文字框的重叠度，根据重叠度链接两个文字框，得到自动检测文字框的文本；

S3：根据实体文字框从图像中将实体文字影像切出，得到文字条影像；

S4：将得到的文字条影像送入OCR系统进行识别；

S5：将步骤S4中识别出来的文本与步骤S2中自动检测文字框中识别到的文本进行匹配，生成文本标注数据。

进一步，步骤S1中，还包括得到实体文字框的坐标信息，以及通过pixelink算法得到自动检测文字框的坐标信息。

进一步，步骤S1及步骤S2之间还包括对自动检测文字框的坐标信息进行还原，以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。

进一步，以图像的左上角为坐标原点，坐标还原包括：

当图像缩放m倍后：

x＝1/m*x₀

y＝1/m*y₀；

当图像平移(a，b)距离后：

x＝x₀-a

y＝y₀-b；

当图像逆时针旋转θ后：

x＝(x₀*sinθ-y₀*cosθ)/(sin²θ-cos²θ)

y＝(y₀*sinθ-x₀*cosθ)/(sin²θ-cos²θ)；

其中：x₀，y₀为自动检测文字框的坐标，x，y为还原为原始图像的坐标。

进一步，步骤S2中，通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息计算重叠度。

进一步，步骤S2中，计算实体文字框与自动检测文字框的重叠度包括：

其中：IOU为重叠度，I(X)为两个文字框的交集，U(X)为两个文字框的并集。

进一步，步骤S2中，如果实体文字框与自动检测文字框的重叠度大于0.7，对实体文字框与自动检测文字框进行链接。

进一步，步骤S5中，通过正则表达式，以及最长公共子序列算法对文本进行匹配。

第二方面，本发明公开了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述方法的步骤。

第三方面，本发明公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述方法的步骤。

本发明中的文本标注方法，通过在图像上标注实体，能够做到标注和OCR系统解耦，使OCR系统的迭代升级不会对标注结果造成影响。

同时也避免了因OCR系统升级前后文本错误分布之间的差别对训练模型抽取效果的影响，有效提高了实体信息抽取的准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例示出的文本标注方法的流程示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，本发明提供的文本标注方法，包括如下步骤：

S4：将得到的文字条影像送入OCR系统进行识别；

现有的OCR系统都是不断更新迭代升级的，每隔一段时间更新一次，当OCR系统出现变化后，OCR系统输出得到文本都会产生一定的差别，例如：

以前会hello识别成hell0，还完之后会把hello识别成hollo。

因此在OCR系统输出结果中，标注数据对于系统的依赖非常大，OCR系统升级后会导致之前的标注数据不可用。

根据第一版OCR系统输出结果得到的标注数据送入神经网络训练出来的模型，严重影响了在新版OCR系统上的抽取效果。

通过在图像上进行人工标注，当OCR系统更新升级后，能够自动生成最新的标注集，并将标注集送入神经网络重新训练数据，能够有效保证抽取结果的准确性。

在图像中尤其是在票据中，文字的内容信息和位置信息同样重要，所以在标注的过程中，不仅需要标注文字内容，同时还要保留文字的位置信息。

通过在图像上人工标注得到实体文字框的坐标信息，并通过pixelink算法得到OCR系统自动检测文字框的坐标信息。在得到上述两种文字框的坐标信息后，计算两种文字框的重叠度。

需要指出，得到人工标注实体文字框的坐标信息，与通过pixelink算法得到自动检测文字框的坐标信息两个步骤可以并行，也可以串行，在此进行说明。

在计算两种文字框的重叠度之前，由于原始图像在经过OCR系统识别时，会进行缩放、旋转、平移等操作，所以，OCR系统得到的自动检测文字框的坐标信息和原始的影像中的坐标信息会有偏差，因此需要对自动检测文字框的坐标信息进行还原处理，以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。

在进行坐标还原的过程中，首先以图像的左上角为坐标原点，坐标还原的具体过程包括以下几种形式：

当图像缩放m倍后：

x＝1/m*x₀

y＝1/m*y₀；

当图像平移(a，b)距离后：

x＝x₀-a

y＝y₀-b；

当图像逆时针旋转θ后：

x＝(x₀*sinθ-y₀*cosθ)/(sin²θ-cos²θ)

y＝(y₀*sinθ-x₀*cosθ)/(sin²θ-cos²θ)；

通过坐标还原，能够更加真实地反应自动检测文字框在原始图像上的坐标，并通过与人工标注实体文字框进行重叠度分析，保证了标注过程的准确度。

在计算重叠度时，通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息进行计算。每个文字框的坐标信息包括左上，左下，右上以及右下四个点，通过四个点构成的矩形区域来对实体文字框以及自动检测文字框的重叠度进行分析。

计算实体文字框与自动检测文字框的重叠度包括：

通过重叠度判断两个文字框是否能够链接，当重叠度超过阈值，则认为自动检测文字框能够对应图片上的标签。本发明中的阈值为0.7，如果两个文字框的重叠度超过0.7，则可进行后续实体文字框与自动检测文字框的链接匹配。

例如：人工标注中的实体文字框标注了China的文字框，OCR系统识别的自动检测文字框标注了hello China的文字框，China的文字框，包含于hello China的文字框，重叠度100％，即可进行两个文字框的链接。

在链接过程中，得到自动检测文字框中的文字信息。

然后根据实体文字框从图像中将该实体文字框的实体文字影像切出，得到文字条影像，并将该文字条影像送入OCR系统进行识别得到实体文字框中的文字信息。

最后将实体文字框中的文字信息与在链接过程中得到的自动检测文字框中的文字信息进行匹配，最终生成文本标注数据。

在上文所述的基础上继续通过实例形式进行说明，因为两个文字框的重叠度为100％，将两个文字框进行链接后能够得到hello China的文字串，该文字串为两个文字框链接合并后得到的文字串。

然后将包含有China的实体文字框在图像中所对应的实体文字影像切出得到文字条影像，将该文字条影像送入OCR系统进行识别得到China的文字串。最后将China与helloChina进行匹配，最终把hello China中的China标注上国家实体的标签。

在匹配过程中，通过正则表达式，以及最长公共子序列(Longest CommonSubsequence，LCS)算法对文本进行匹配。

通过本发明中的文本标注方法，能够做到标注和OCR系统解耦，使实体信息抽取训练模型能够对最新版本OCR系统生成的标注集进行抽取训练，而使其抽取效果不受OCR系统不可避免的迭代更新的影响，提高了对实体信息抽取的准确性。

本申请实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如上述实施例提供的一种文本标注方法，存储介质是任何的各种类型的存储器设备或存储设备，存储介质包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等；存储介质可以还包括其它类型的存储器或其组合；另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统；第二计算机系统可以提供程序指令给第一计算机用于执行。存储介质包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现文本标注方法的步骤。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上实施例所述的文本标注方法，还可以执行本申请任意实施例所提供的文本标注方法中的相关操作。

最后应说明的是：虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开的较佳实施例而已，并不用以限制本公开，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开保护的范围之内。

Claims

1.一种文本标注方法，其特征在于，包括如下步骤：

S4：将得到的文字条影像送入OCR系统进行识别；

2.根据权利要求1所述的文本标注方法，其特征在于，步骤S1中，还包括得到实体文字框的坐标信息，以及通过pixelink算法得到自动检测文字框的坐标信息。

3.根据权利要求2所述的文本标注方法，其特征在于，步骤S1及步骤S2之间还包括对自动检测文字框的坐标信息进行还原，以使OCR系统自动识别后的文字框坐标还原为原始图像的坐标。

4.根据权利要求3所述的文本标注方法，其特征在于，以图像的左上角为坐标原点，坐标还原包括：

当图像缩放m倍后：

x＝1/m*x₀

y＝1/m*y₀；

当图像平移(a，b)距离后：

x＝x₀-a

y＝y₀-b；

当图像逆时针旋转θ后：

x＝(x₀*sinθ-y₀*cosθ)/(sin²θ-cos²θ)

y＝(y₀*sinθ-x₀*cosθ)/(sin²θ-cos²θ)；

5.根据权利要求2所述的文本标注方法，其特征在于，步骤S2中，通过实体文字框的坐标信息与自动检测文字框经过还原后的坐标信息计算重叠度。

6.根据权利要求5所述的文本标注方法，其特征在于，步骤S2中，计算实体文字框与自动检测文字框的重叠度包括：

7.根据权利要求6所述的文本标注方法，其特征在于，步骤S2中，如果实体文字框与自动检测文字框的重叠度大于0.7，对实体文字框与自动检测文字框进行链接。

8.根据权利要求1所述的文本标注方法，其特征在于，步骤S5中，通过正则表达式，以及最长公共子序列算法对文本进行匹配。