CN114511857A

CN114511857A - 一种ocr识别结果处理方法、装置、设备及存储介质

Info

Publication number: CN114511857A
Application number: CN202210089301.0A
Authority: CN
Inventors: 杨沅霖; 孙安国
Original assignee: Shanghai Weiwenjia Information Technology Co ltd
Current assignee: Shanghai Weiwenjia Information Technology Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-17

Abstract

本发明涉及OCR识别处理技术领域，具体涉及一种OCR识别结果处理方法、装置、设备及存储介质。本发明通过将目标图像OCR识别结果导入相应的文本识别模型中进行分类识别，判定出第一类文本和第二类文本，以及对应的第一类文本框和第二类文本框；通过确定各文本框的第一中心点坐标或第二中心点坐标，采用邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标；通过提取各第一中心点坐标对应的第一类文本以及第二中心点坐标对应的第二类文本，将各第一类文本及关联的第二类文本进行配对输出展示；可以对目标图像的OCR识别结果进行高效地文本分类提取，并将分类后的文本进行精准的关联匹配，以结构化地输出展示相互关联的文本内容。

Description

一种OCR识别结果处理方法、装置、设备及存储介质

技术领域

本发明涉及OCR识别处理技术领域，具体涉及一种OCR识别结果处理方法、装置、设备及存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)技术主要是将图像中的文字识别为可编辑的字符串。早期的OCR技术主要识别的是一些简单的文档图像，由于深度学习的发展，目前的OCR技术已经广泛应用于各种复杂场景下图像的文字识别。

目前对于表单图像的文本识别结果均为一行一行的文字和对应的坐标位置，对于这些非结构化的结果，需要根据各种应用场景额外提供相应的规则进行编辑整理后才能得到结构化的展示结果。现有的OCR技术识别出的结果也仅仅是一串可编辑的字符串以及字符串对应的文本框和坐标位置，不包含任何结构化信息，对于识别结果往往需要建立一系列规则筛选各项从而录入，或者直接人工录入；前者鲁棒性很差，且目前还没有建立一套完全有效的规则来进行各项信息的筛选，容易出现识别结果错位的情况；后者效率低，需要耗费极大的人力成本。

发明内容

针对现有技术存在的不足，本发明提供了一种OCR识别结果处理方法、装置、设备及存储介质，其应用时，可以对OCR识别结果进行高效地文本分类提取，并将分类后的文本进行精准的关联匹配，以结构化地输出展示相互关联的文本内容。

第一方面，本发明提供一种OCR识别结果处理方法，包括：

获取目标图像的OCR识别结果，所述OCR识别结果包括若干文本框和各文本框内的文本内容，以及各文本框的坐标信息；

将各文本框内的文本内容导入训练完成的文本识别模型中，获得各文本内容的分类结果；

根据分类结果判定各文本内容为第一类文本或者第二类文本，并判定第一类文本对应的文本框为第一类文本框，第二类文本对应的文本框为第二类文本框；

根据各文本框的坐标信息计算获得各文本框的中心点坐标，其中，第一类文本框的中心点坐标为第一中心点坐标，第二类文本框的中心点坐标为第二中心点坐标；

通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标，并将各第一中心点坐标及其最近的第二中心点坐标一一关联对应；

关联提取各第一中心点坐标所在第一类文本框的第一类文本，以及各第一中心点坐标关联对应的第二中心点坐标所在第二类文本框的第二类文本；

将关联提取的第一类文本以及对应的第二类文本进行配对输出展示。

基于上述发明内容，通过将目标图像OCR识别结果中的文本内容导入相应的文本识别模型中进行分类识别，可以判定出各文本内容是第一类文本还是第二类文本，并判定出对应的文本框是第一类文本框还是第二类文本框；通过对目标图像OCR识别结果中各文本框的坐标信息进行计算，可以获得各文本框的中心点坐标，第一类文本框的中心点坐标为第一中心点坐标，第二类文本框的中心点坐标为第二中心点坐标；通过邻近算法可以计算得到各第一中心点坐标对应最近的第二中心点坐标；通过提取各第一中心点坐标对应的第一类文本，以及各第一中心点坐标最近的第二中心点坐标所对应的第二类文本，然后将关联提取的第一类文本以及对应的第二类文本进行配对输出展示；可以对目标图像的OCR识别结果进行高效地文本分类提取，并将分类后的文本进行精准的关联匹配，以结构化地输出展示相互关联的文本内容，可应用于各种图像的文本关联识别展示场景。

在一个可能的设计中，所述文本识别模型采用LayoutLMv2预训练模型，其训练过程包括：

获取文本内容样本集，所述文本内容样本集包含若干带有正标签的第一类文本样本和若干带有负标签的第二类文本样本；

将文本内容样本集导入LayoutLMv2预训练模型进行分类训练，直至LayoutLMv2预训练模型对第一类文本样本和第二类文本样本的分类准确率达到设定阈值。

在一个可能的设计中，所述文本框的坐标信息包括文本框其中一对对角点的坐标，所述根据文本框的坐标信息计算获得文本框的中心点坐标，包括：根据文本框两个对角点的坐标计算获得文本框的中心点坐标。

在一个可能的设计中，所述坐标信息为包含X轴坐标值和Y轴坐标值的平面坐标信息，所述根据文本框两个对角点的坐标计算获得文本框的中心点坐标，包括：分别将两个对角点的X轴坐标值和Y轴坐标值相加，然后除以2，获得文本框的中心点坐标。

在一个可能的设计中，所述通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标，包括：

根据各第一中心点坐标和第二中心点坐标计算各第一中心点坐标与各第二中心点坐标的欧氏距离；

根据各第一中心点坐标与各第二中心点坐标的欧氏距离，对比判定出各第一中心点坐标对应最近的第二中心点坐标。

在一个可能的设计中，所述将关联提取的第一类文本以及对应的第二类文本进行配对输出展示，包括：

将各第一类文本以及其关联对应的第二类文本进行一一配对；

将配对后的第一类文本和第二类文本以第一类文本在前第二类文本在后的方式进行单行的并列输出展示。

第二方面，本发明提供一种OCR识别结果处理装置，所述装置包括获取单元、分类单元、判定单元、第一计算单元、第二计算单元、提取单元和展示单元，其中：

获取单元，用于获取目标图像的OCR识别结果，所述OCR识别结果包括若干文本框和各文本框内的文本内容，以及各文本框的坐标信息；

分类单元，用于将各文本框内的文本内容导入训练完成的文本识别模型中，获得各文本内容的分类结果；

判定单元，用于根据分类结果判定各文本内容为第一类文本或者第二类文本，并判定第一类文本对应的文本框为第一类文本框，第二类文本对应的文本框为第二类文本框；

第一计算单元，用于根据各文本框的坐标信息计算获得各文本框的中心点坐标，其中，第一类文本框的中心点坐标为第一中心点坐标，第二类文本框的中心点坐标为第二中心点坐标；

第二计算单元，用于通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标，并将各第一中心点坐标及其最近的第二中心点坐标一一关联对应；

提取单元，用于关联提取各第一中心点坐标所在第一类文本框的第一类文本，以及各第一中心点坐标关联对应的第二中心点坐标所在第二类文本框的第二类文本；

展示单元，用于将关联提取的第一类文本以及对应的第二类文本进行配对输出展示。

在一个可能的设计中，所述装置还包括训练单元，所述训练单元用于获取文本内容样本集，所述文本内容样本集包含若干带有正标签的第一类文本样本和若干带有负标签的第二类文本样本；并将文本内容样本集导入LayoutLMv2预训练模型进行分类训练，直至LayoutLMv2预训练模型对第一类文本样本和第二类文本样本的分类准确率达到设定阈值。

第三方面，本发明提供一种OCR识别结果处理设备，所述设备包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行上述第一方面中任意一种所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行上述第一方面中任意一种所述的方法。

第五方面，本发明提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行上述第一方面中任意一种所述的方法。

本发明的有益效果为：

本发明通过将目标图像OCR识别结果中的文本内容导入相应的文本识别模型中进行分类识别，可以判定出各文本内容是第一类文本还是第二类文本，并判定出对应的文本框是第一类文本框还是第二类文本框；通过对目标图像OCR识别结果中各文本框的坐标信息进行计算，可以获得各文本框的中心点坐标，第一类文本框的中心点坐标为第一中心点坐标，第二类文本框的中心点坐标为第二中心点坐标；通过邻近算法可以计算得到各第一中心点坐标对应最近的第二中心点坐标；通过提取各第一中心点坐标对应的第一类文本，以及各第一中心点坐标最近的第二中心点坐标所对应的第二类文本，然后将关联提取的第一类文本以及对应的第二类文本进行配对输出展示；可以对目标图像的OCR识别结果进行高效地文本分类提取，并将分类后的文本进行精准的关联匹配，以结构化地输出展示相互关联的文本内容，可应用于各种图像的文本关联识别展示场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的方法步骤示意图；

图2为本发明的装置结构示意图；

图3为本发明的设备构成示意图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是，对于这些实施例方式的说明用于帮助理解本发明，但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而，可用很多备选的形式来体现本发明，并且不应当理解为本发明限制在本文阐述的实施例中。

应当理解，术语第一、第二等仅用于区分描述，而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元，这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元，并且类似地可以将第二单元称作第一单元，同时不脱离本发明的示例实施例的范围。

在下面的描述中提供了特定的细节，以便于对示例实施例的完全理解。然而，本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统，以避免用不必要的细节来使得示例不清楚。在其他实施例中，可以不以非必要的细节来示出众所周知的过程、结构和技术，以避免使得示例实施例不清楚。

实施例1：

本实施例提供一种OCR识别结果处理方法，如图1所示，包括以下步骤：

S101.获取目标图像的OCR识别结果，所述OCR识别结果包括若干文本框和各文本框内的文本内容，以及各文本框的坐标信息。

具体实施时，通过OCR识别技术对目标图像进行文本识别，获得目标图像的OCR识别结果，OCR识别结果包括若干文本框和各文本框内的文本内容，以及各文本框的坐标信息，所述坐标信息为包含X轴坐标值和Y轴坐标值的平面坐标信息，所述文本框的坐标信息包括文本框其中一对对角点的坐标，两个对角点可选择文本框左上角和右下角的对角点，也可选择文本框左下角和右上角的对角点，所述对角点的选择主要是为了后续进行文本框中心点的坐标计算，也可选择文本框四个角的点来完成后续文本框中心点的坐标计算。

S102.将各文本框内的文本内容导入训练完成的文本识别模型中，获得各文本内容的分类结果。

具体实施时，所述文本识别模型采用LayoutLMv2预训练模型，其训练过程包括：获取文本内容样本集，所述文本内容样本集包含若干带有正标签的第一类文本样本和若干带有负标签的第二类文本样本；然后将文本内容样本集导入LayoutLMv2预训练模型进行分类训练，直至LayoutLMv2预训练模型对第一类文本样本和第二类文本样本的分类准确率达到设定阈值，所述阈值可根据实际需求情况进行设定，如设定为85％、90％、95％、100％等。

此处以身份信息表单图像为例，第一类文本样本可包括身份信息表单图像中的“姓名”“性别”“国籍”“民族”“出生日期”“身份号码”“住址”等项目文本，第二类文本样本即为“姓名”“性别”“国籍”“民族”“出生日期”“身份号码”“住址”等项目对应的实际内容文本。

利用训练完成的文本识别模型可以对各文本内容进行分类识别，以区分哪些是对应的第一类文本样本，哪些是对应的第二类文本样本，然后输出相应的分类结果。

S103.根据分类结果判定各文本内容为第一类文本或者第二类文本，并判定第一类文本对应的文本框为第一类文本框，第二类文本对应的文本框为第二类文本框。

具体实施时，根据文本识别模型的分类结果就可以有效判定出目标图像OCR识别结果中哪些文本内容是第一类文本，哪些文本内容是第二类文本。如果是无法识别类型的文本内容，可判定为其他文本忽略掉。第一类文本对应的文本框可判定为第一类文本框，第二类文本对应的文本框可判定为第二类文本框

S104.根据各文本框的坐标信息计算获得各文本框的中心点坐标，其中，第一类文本框的中心点坐标为第一中心点坐标，第二类文本框的中心点坐标为第二中心点坐标。

具体实施时，可利用步骤S101中各文本框的坐标信息来计算获得各文本框的中心点坐标。此处以文本框左上角和右下角的对角点的坐标为例，可分别将左上角和右下角的两个对角点的X轴坐标值和Y轴坐标值相加，然后除以2，获得文本框的中心点坐标。当得到各文本框的中心点坐标后，将第一类文本框的中心点坐标设定为第一中心点坐标，将第二类文本框的中心点坐标设定为第二中心点坐标。

S105.通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标，并将各第一中心点坐标及其最近的第二中心点坐标一一关联对应。

具体实施时，通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标的过程包括：根据各第一中心点坐标和第二中心点坐标计算各第一中心点坐标与各第二中心点坐标的欧氏距离；然后根据各第一中心点坐标与各第二中心点坐标的欧氏距离，对比判定出各第一中心点坐标对应最近的第二中心点坐标。在计算过程中，如果一个第二中心点为多个第一中心点的邻近点，则将该第二中心点匹配给欧氏距离最小的那个第一中心点，以此类推，使每个第一中心点唯一对应一个第二中心点。

邻近算法，即K最邻近(KNN，K-NearestNeighbor)分类算法，是数据挖掘分类技术中最简单的方法之一，近邻算法就是将数据集合中每一个记录进行分类的方法。KNN算法的核心思想是，如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。KNN方法在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

欧氏距离，即欧几里得距离或欧几里得度量，是一个通常采用的距离定义，指在m维空间中两个点之间的真实距离，或者向量的自然长度(即该点到原点的距离)，在二维和三维空间中的欧氏距离就是两点之间的实际距离。在二维平面上的计算公式可表示为：

S106.关联提取各第一中心点坐标所在第一类文本框的第一类文本，以及各第一中心点坐标关联对应的第二中心点坐标所在第二类文本框的第二类文本。

具体实施时，在将各第一中心点坐标及其最近的第二中心点坐标一一关联对应后，可提取出关联对应的第一中心点坐标以及第二中心点坐标所在文本框的第一类文本和第二类文本。此处同样以身份信息表单图像为例，提取的第一类文本为“姓名”，则关联对应的第二类文本为“姓名”对应的实际内容文本“AA”，提取的第一类文本为“性别”，则关联对应的第二类文本为“性别”对应的实际内容文本“BB”…以此类推，将各第一类文本与对应的第二类文本关联对应。

S107.将关联提取的第一类文本以及对应的第二类文本进行配对输出展示。

具体实施时，将各第一类文本与关联对应的第二类文本进行配对输出展示的过程包括：将各第一类文本以及其关联对应的第二类文本进行一一配对；将配对后的第一类文本和第二类文本以第一类文本在前第二类文本在后的方式进行单行的并列输出展示。此处同样以身份信息表单图像为例，最后第一类文本和第二类文本的对应输出展示效果如下：

通过本实施例可以对目标图像的OCR识别结果进行高效地文本分类提取，并将分类后的文本进行精准的关联匹配，以结构化地输出展示相互关联的文本内容，可应用于各种图像的文本关联识别展示场景。

实施例2：

本实施例提供一种OCR识别结果处理装置，如图2所示，所述装置包括获取单元、分类单元、判定单元、第一计算单元、第二计算单元、提取单元和展示单元，其中：

进一步地，所述装置还包括训练单元，所述训练单元用于获取文本内容样本集，所述文本内容样本集包含若干带有正标签的第一类文本样本和若干带有负标签的第二类文本样本；并将文本内容样本集导入LayoutLMv2预训练模型进行分类训练，直至LayoutLMv2预训练模型对第一类文本样本和第二类文本样本的分类准确率达到设定阈值。

实施例3：

本实施例提供一种OCR识别结果处理设备，如图3所示，在硬件层面，包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行实施例1中所述的OCR识别结果处理方法。

可选地，该计算机装置还包括内部总线和通讯接口。处理器、存储器和通讯接口可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。

所述存储器可以但不限于包括随机存取存储器(Random Access Memory，RAM)、只读存储器(Read Only Memory，ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output，FIFO)和/或先进后出存储器(First In Last Out，FILO)等。所述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例4：

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行实施例1中所述的OCR识别结果处理方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

实施例5：

本实施例提供一种包含指令的计算机程序产品，当所述指令在计算机上运行时，使所述计算机执行实施例1中所述的OCR识别结果处理方法。其中，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种OCR识别结果处理方法，其特征在于，包括：

2.根据权利要求1所述的一种OCR识别结果处理方法，其特征在于，所述文本识别模型采用LayoutLMv2预训练模型，其训练过程包括：

3.根据权利要求1所述的一种OCR识别结果处理方法，其特征在于，所述文本框的坐标信息包括文本框其中一对对角点的坐标，所述根据文本框的坐标信息计算获得文本框的中心点坐标，包括：根据文本框两个对角点的坐标计算获得文本框的中心点坐标。

4.根据权利要求3所述的一种OCR识别结果处理方法，其特征在于，所述坐标信息为包含X轴坐标值和Y轴坐标值的平面坐标信息，所述根据文本框两个对角点的坐标计算获得文本框的中心点坐标，包括：分别将两个对角点的X轴坐标值和Y轴坐标值相加，然后除以2，获得文本框的中心点坐标。

5.根据权利要求1所述的一种OCR识别结果处理方法，其特征在于，所述通过邻近算法计算得到各第一中心点坐标对应最近的第二中心点坐标，包括：

6.根据权利要求1所述的一种OCR识别结果处理方法，其特征在于，所述将关联提取的第一类文本以及对应的第二类文本进行配对输出展示，包括：

7.一种OCR识别结果处理装置，其特征在于，所述装置包括获取单元、分类单元、判定单元、第一计算单元、第二计算单元、提取单元和展示单元，其中：

8.根据权利要求7所述的一种OCR识别结果处理装置，其特征在于，所述装置还包括训练单元，所述训练单元用于获取文本内容样本集，所述文本内容样本集包含若干带有正标签的第一类文本样本和若干带有负标签的第二类文本样本；并将文本内容样本集导入LayoutLMv2预训练模型进行分类训练，直至LayoutLMv2预训练模型对第一类文本样本和第二类文本样本的分类准确率达到设定阈值。

9.一种OCR识别结果处理设备，其特征在于，所述设备包括：

存储器，用于存储指令；

处理器，用于读取所述存储器中存储的指令，并根据指令执行权利要求1-6任意一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有指令，当所述指令在计算机上运行时，使得所述计算机执行权利要求1-6任意一项所述的方法。