CN113269126A

CN113269126A - 一种基于坐标转换的关键信息提取方法

Info

Publication number: CN113269126A
Application number: CN202110647021.2A
Authority: CN
Inventors: 刘春刚; 李佩钊
Original assignee: Shanghai Yunda Information Technology Co ltd
Current assignee: Shanghai Yunda Information Technology Co ltd
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-17

Abstract

本发明公开了一种基于坐标转换的关键信息提取方法包括以下步骤：步骤一、配置提取关键信息的锚点信息；步骤二、对文档做文字检测和识别，获取每个文字块的位置和对应的值；步骤三、匹配关键字段，找到锚点位置；步骤四、以锚点的左上角点作为参考点，切换相对坐标提取，找出匹配的关键字段位置和内容。此种关键信息提取方法，用户操作方便，当需要提取的关键字段有多个时,提取过程快速，且还能大大降低相关软件的开发难度。

Description

一种基于坐标转换的关键信息提取方法

技术领域

本发明涉及OCR文字识别技术领域，具体涉及一种基于坐标转换的关键信息提取方法，通过坐标转换来获取关键信息，适用于各种商用文档。

背景技术

目前的OCR技术已经能够顺利的将图像的文字内容识别出来。而用户更多的是需要把结构化信息提取出来，特别是某些重要的字段。

由于文档的类型，排版各不相同，很难通过绝对的位置信息和统一的标准把需要的关键信息提取出来。例如要提取“客户订单号：XXX”这个关键字段，不同的类型的文档，对该字段的排版位置不同，同时对其后续的订单号码“XXX”也不同。有的在其右侧，有的在其下方。

另一方面，用户需求提取的关键字段有多个。提取所需的关键信息，往往需要大量的定制化开发，大大加重了开发的难度。

发明内容

本发明的目的在于提供一种基于坐标转换的关键信息提取方法，以解决上述背景技术问题。

为实现上述目的，本发明提供如下技术方案：一种基于坐标转换的关键信息提取方法包含以下步骤：

步骤一、配置提取关键信息的锚点信息；

1-1、打开需要识别的文档，标注需要识别的锚点字段的位置；

1-2、打开需要识别的文档，标注需要识别的关键字段的位置；

1-3、将相关信息，存储成配置文件；

步骤二、对文档做文字检测和识别，获取每个文字块的位置和对应的值；

2-1、用文字检测模型，检测出每个文字字段的位置信息，以矩形框表示；

2-2、用文字识别模型，识别出每个文字字段的内容信息；

步骤三、匹配关键字段，找到锚点位置；

3-1、读取该文档需要提取的字段的配置文档，该配置文档在第一步中生成；

3-2、遍历第二步识别出的文本字段内容，与配置文件中的锚点字段的内容进行匹配；

3-3、找到匹配项后，记录该字段的文本框位置；

步骤四、以锚点的左上角点作为参考点，切换相对坐标提取，找出匹配的关键字段位置和内容；

4-1、获取配置文件中，锚点的文字字符高度；

4-2、计算配置文件中，关键字段的四个坐标点相对于锚点左上角的相对距离，以h为单位；

4-3、以匹配字段的左上角为参考点，通过相对距离，计算出匹配字段对应的文字区域；

4-4、遍历第二步检测出的文本框，找到与其匹配的文本框，其对应的内容即为关键字段的信息。

与现有技术相比，本发明的有益效果是：此种关键信息提取方法，用户操作方便，当需要提取的关键字段有多个时,提取过程快速，且还能大大降低相关软件的开发难度。

附图说明

图1为实施例中锚点标注和提取区域字段标注图；

图2为实施例中获取锚点位置的过程图；

图3为实施例中获取目标字段值的过程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：参照图1，首先打开一种需要提取字段的文档，在该文档中标注出锚点框和需要提取的目标框。锚点框为不变的自读，具有唯一性。目标框为一个或多个，为单一字段或一个区域。同一文档可以配置多个锚点框和其对应的目标框。最终将标注好的信息，存储成一个json文件，存储其它格式的也可以；

参照图2所示，在OCR文字检测和识别的基础上，获取配置中的锚点框，首先通过对文档进行全文的检测和识别，获取文本的信息(位置和内容)。其次通过读取前面配置好的配置文件，加载锚点内容。最后通过遍历识别出来的结果，找出与锚点内容匹配的文本，该文本的位置(x,y,width,height) 即为找到的锚点框位置，记为(Px，Py)；

如图3所示，为获取目标字段的核心流程，首先是加载配置文件，获取锚点框的坐标Anchor_x,Anchor_y(取值为锚点框的左上角)。计算配置文件中，目标框相对于锚点的相对距离d＝D/h。其中D为目标矩形框各个点到 (Anchor_x,Anchor_y)的距离。h为锚点框的文字高度。其次基于上一步得到的真实锚点(Px，Py)，计算出目标区域位置：Dx＝Px+d*h，Dy＝Py+d*h。

最后，通过遍历识别出的文本框，找出与计算出的目标区域匹配的文本框，其对应的文本内容即为需要提取的目标字段。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于坐标转换的关键信息提取方法，其特征在于，具体提取方法方法包含以下步骤：

步骤一、配置提取关键信息的锚点信息；

(1-1)、打开需要识别的文档，标注需要识别的锚点字段的位置；

(1-2)、打开需要识别的文档，标注需要识别的关键字段的位置；

(1-3)、将相关信息，存储成配置文件；

(2-1)、用文字检测模型，检测出每个文字字段的位置信息，以矩形框表示；

(2-2)、用文字识别模型，识别出每个文字字段的内容信息；

步骤三、匹配关键字段，找到锚点位置；

(3-1)、读取该文档需要提取的字段的配置文档，该配置文档在第一步中生成；

(3-2)、遍历第二步识别出的文本字段内容，与配置文件中的锚点字段的内容进行匹配；

(3-3)、找到匹配项后，记录该字段的文本框位置；

(4-1)、获取配置文件中，锚点的文字字符高度；

(4-2)、计算配置文件中，关键字段的四个坐标点相对于锚点左上角的相对距离，以h为单位；

(4-3)、以匹配字段的左上角为参考点，通过相对距离，计算出匹配字段对应的文字区域；

(4-4)、遍历第二步检测出的文本框，找到与其匹配的文本框，其对应的内容即为关键字段的信息。