CN111814673B

CN111814673B - 一种修正文本检测边界框的方法、装置、设备及存储介质

Info

Publication number: CN111814673B
Application number: CN202010652707.6A
Authority: CN
Inventors: 谢文辉; 蔡凌玮; 张�浩; 汪哲逸; 周期律; 常学亮; 刘杰; 李胤辉; 王翔; 陈亮; 邓方进
Original assignee: Chongqing Rural Commercial Bank Co ltd
Current assignee: Chongqing Rural Commercial Bank Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2023-05-26
Anticipated expiration: 2040-07-08
Also published as: CN111814673A

Abstract

本发明公开了一种修正文本检测边界框的方法、装置、设备及存储介质，该方法包括：读取票据切片图像；票据切片图像为对票据图像进行文本检测得到边界框后，从票据图像上截取的仅包含该边界框内图像的切片图像；对票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像；对二值化图像进行图像形态学的腐蚀操作，以横向合并二值化图像中包含的图像元素所属区域；图像元素包含字符及其他标记；对二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为票据切片图像包含的文本对应边界框。从而实现对文本检测结果的修正，得到范围较准确、包含文本较准确的边界框，进而提高票据图像中的文本识别正确率。

Description

一种修正文本检测边界框的方法、装置、设备及存储介质

技术领域

本发明涉及计算机图像处理技术领域，更具体地说，涉及一种修正文本检测边界框的方法、装置、设备及存储介质。

背景技术

采用光学字符识别(Optical Character Recognition，OCR)技术对票据图像中的文本进行识别前，需对票据图像中的文本进行检测并确定具体边界位置，但是现有技术实现具体边界位置确定时，定位到的文本边界框存在范围过大、包括非所需文本的问题，进而严重降低了票据图像中的文本识别正确率。

发明内容

本发明的目的是提供一种修正文本检测边界框的方法、装置、设备及存储介质，能够实现对文本检测结果的修正，得到范围较准确、包含文本较准确的边界框，进而提高票据图像中的文本识别正确率。

为了实现上述目的，本发明提供如下技术方案：

一种修正文本检测边界框的方法，包括：

读取票据切片图像；所述票据切片图像为对票据图像进行文本检测得到边界框后，从所述票据图像上截取的仅包含该边界框内图像的切片图像；

对所述票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像；

对所述二值化图像进行图像形态学的腐蚀操作，以横向合并所述二值化图像中包含的图像元素所属区域；所述图像元素包含字符及其他标记；

对所述二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为所述票据切片图像包含的文本对应边界框。

优选的，对所述二值化图像进行外围轮廓检测之后，还包括：

剔除对所述二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和/或长度小于长度阈值和/或宽度小于宽度阈值的边界框。

优选的，对所述票据切片图像进行二值化操作，包括：

将所述票据切片图像划分为多个图像块，计算每个所述图像块中的灰度均值，确定每个所述图像块中的灰度均值为该图像块的二值化阈值，并基于每个所述图像块的二值化阈值对该图像块进行二值化操作。

优选的，对所述二值化图像进行图像形态学的腐蚀操作之前，还包括：

对所述二值化图像进行图像形态学的膨胀操作。

一种修正文本检测边界框的装置，包括：

读取模块，用于：读取票据切片图像；所述票据切片图像为对票据图像进行文本检测得到边界框后，从所述票据图像上截取的仅包含该边界框内图像的切片图像；

二值化模块，用于：对所述票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像；

合并模块，用于：对所述二值化图像进行图像形态学的腐蚀操作，以横向合并所述二值化图像中包含的图像元素所属区域；所述图像元素包含字符及其他标记；

检测模块，用于：对所述二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为所述票据切片图像包含的文本对应边界框。

优选的，还包括：

剔除模块，用于：对所述二值化图像进行外围轮廓检测之后，剔除对所述二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和/或长度小于长度阈值和/或宽度小于宽度阈值的边界框。

优选的，所述二值化模块包括：

二值化单元，用于：将所述票据切片图像划分为多个图像块，计算每个所述图像块中的灰度均值，确定每个所述图像块中的灰度均值为该图像块的二值化阈值，并基于每个所述图像块的二值化阈值对该图像块进行二值化操作。

优选的，还包括：

去噪模块，用于：对所述二值化图像进行图像形态学的腐蚀操作之前，对所述二值化图像进行图像形态学的膨胀操作。

一种修正文本检测边界框的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上任一项所述修正文本检测边界框的方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述修正文本检测边界框的方法的步骤。

本发明提供了一种修正文本检测边界框的方法、装置、设备及存储介质，该方法包括：读取票据切片图像；所述票据切片图像为对票据图像进行文本检测得到边界框后，从所述票据图像上截取的仅包含该边界框内图像的切片图像；对所述票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像；对所述二值化图像进行图像形态学的腐蚀操作，以横向合并所述二值化图像中包含的图像元素所属区域；所述图像元素包含字符及其他标记；对所述二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为所述票据切片图像包含的文本对应边界框。本申请公开的技术方案中，读取到按照对票据图像进行文本检测得到的边界框截取的票据切片图像后，对票据切片图像进行灰度化操作及二值化操作得到二值化图像，进而对二值化图像进行腐蚀操作以横向合并二值化图像中图像元素，最终对二值化图像检测外围轮廓检测，得到面积最大的一个边界框为票据切片图像包含文本的边界框；由于按照现有技术得到的票据切片图像中，如果包含非所需的文本的标记，通常所需的文本占用面积最大，因此本申请采用上述基于连通域的方案确定各个边界框，筛选面积最大的边界框为包含所需文本的边界框，从而实现对文本检测结果的修正，得到范围较准确、包含文本较准确的边界框，进而提高票据图像中的文本识别正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种修正文本检测边界框的方法的流程图；

图2为本发明实施例提供的一种修正文本检测边界框的装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，其示出了本发明实施例提供的一种修正文本检测边界框的方法的流程图，可以包括：

S11：读取票据切片图像；票据切片图像为对票据图像进行文本检测得到边界框后，从票据图像上截取的仅包含该边界框内图像的切片图像。

本发明实施例提供的一种修正文本检测边界框的方法的执行主体可以为对应的修正文本检测边界框的装置；本申请可以应用于金融行业的票据(发票、转账支票、进账单等)的文本识别，当然也可以应用于其他需要对票据进行文本识别的领域，均在本发明的保护范围之内。其中，票据图像即为对票据进行拍摄得到的彩色图像，对票据图像进行文本检测得到其包含的对应边界框后，仅截取票据图像中该边界框所包含的图像作为票据切片图像，进而基于本申请公开的技术方案对该票据切片图像进行修正。

S12：对票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像。

在读取到票据切片图像后，可以对票据切片图像进行灰度化操作，以得到相应的灰度图像，然后对灰度图像进行二值化操作，得到对应的二值化图像；通过这种方式实现对票据切片图像的预处理，能够使得票据切片图像包含像素点的像素值较单一，进而便于后续对其进行相应的识别。

S13：对二值化图像进行图像形态学的腐蚀操作，以横向合并二值化图像中包含的图像元素所属区域；图像元素包含字符及其他标记。

在得到二值化图像后，可以对二值化图像进行图像形态学的腐蚀操作；通过这种腐蚀操作，能够连接二值化图像中包含的相邻的图像元素(图像元素包括字符以及包含的其他横线、竖线等标记；其中，字符包括文字、数字等)，从而横向合并图像元素得到对应的区域；其中，腐蚀操作与现有技术中对应技术方案实现原理一致，在此不再过多赘述。

S14：对二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为票据切片图像包含的文本对应边界框。

对二值化图像进行外围轮廓检测(具体可以是外围矩形轮廓检测)，能够得到至少一个边界框；一个边界框则为一个横向合并图像元素得到的区域，也即一个可能包含所需文本的区域。需要说明的是，对于现有技术中文本检测得到的边界框来说，如果边界框里存在所需的文本及其他的内容，通常所需的文本占用的面积最大，因此本申请实施例在得到至少一个边界框中，如果边界框的数量为一个，则可以确定该边界框则为包含所需文本的最小的边界框，如果边界框的数量为多个，则确定面积最大的边界框为包含所需文本的最小的边界框。

另外，在确定出包含所需文本的最小的边界框后，可以对票据切片图像再次进行切片，也即仅截取票据切片图像中包含所需文本的最小的边界框所包含的图像，将截取得到的部分图像进行输出，以用于进行后续的OCR识别。

本申请公开的技术方案中，读取到按照对票据图像进行文本检测得到的边界框截取的票据切片图像后，对票据切片图像进行灰度化操作及二值化操作得到二值化图像，进而对二值化图像进行腐蚀操作以横向合并二值化图像中图像元素，最终对二值化图像检测外围轮廓检测，得到面积最大的一个边界框为票据切片图像包含文本的边界框；由于按照现有技术得到的票据切片图像中，如果包含非所需的文本的标记，通常所需的文本占用面积最大，因此本申请采用上述基于连通域的方案确定各个边界框，筛选面积最大的边界框为包含所需文本的边界框，从而实现对文本检测结果的修正，得到范围较准确、包含文本较准确的边界框，进而提高票据图像中的文本识别正确率。

本发明实施例提供的一种修正文本检测边界框的方法，对二值化图像进行外围轮廓检测之后，还可以包括：

剔除对二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和/或长度小于长度阈值和/或宽度小于宽度阈值的边界框。

需要说明的是，对于需要获取的文本包含的单个字符，可以确定该单个字符的宽度的二分之一的值为宽度阈值，该单个字符的长度的二分之一的值为长度阈值，该单个字符的面积为面积阈值，从而如果任一边界框的面积小于面积阈值和/或长度小于长度阈值和/或宽度小于宽度阈值，则说明该任一边界框的特征并不符合所需文本包含的字符应具有的特征，因此可以将该任一边界框进行剔除，从而能够进一步保证最终确定出的边界框的准确性。当然，面积阈值、长度阈值及宽度阈值还可以根据实际需要进行其他设定，均在本发明的保护范围之内；并且，也可以是通过判断边界框的长宽比是否符合预先设定的长宽比范围确定该边界框是否需要剔除，也即边界框的长宽比不符合长宽比范围则剔除，也在本发明的保护范围之内。

本发明实施例提供的一种修正文本检测边界框的方法，对票据切片图像进行二值化操作，可以包括：

将票据切片图像划分为多个图像块，计算每个图像块中的灰度均值，确定每个图像块中的灰度均值为该图像块的二值化阈值，并基于每个图像块的二值化阈值对该图像块进行二值化操作。

在实现二值化操作时，可以按照实际需要将票据切片图像划分为多个图像块，进而计算任一图像块内每个像素点的灰度值的平均值为该任一图像块的二值化阈值，进而将该任一图像块内灰度值大于该任一图像块的二值化阈值的像素点的值设为1，其余的均设为0，从而通过这种自适应阈值二值化操作，使得二值化操作能够符合相应区域内的图像特点，从而进一步保证二值化操作的准确性。

本发明实施例提供的一种修正文本检测边界框的方法，对二值化图像进行图像形态学的腐蚀操作之前，还可以包括：

对二值化图像进行图像形态学的膨胀操作。

需要说明的是，在得到二值化图像后，对二值化图像进行腐蚀操作前，还可以对二值化图像进行膨胀操作，从而去除背景独立的干扰色块或者说独立噪点，实现对边界框内图像的去噪操作，进一步保证了对边界框内图像进行文本识别时的准确性。

在一种具体应用场景中，本申请公开的技术方案可以包括：

步骤A票据切片图像二值化

A1读取经过定位(文本检测)之后的票据切片图像；

A2对彩色的票据切片图像进行灰度化操作，得到灰度图像；

A3对灰度图像进行自适应阈值二值化操作，得到二值化图像；

A4对二值化图像进行图像形态学膨胀操作，去除背景独立的干扰色块；

步骤B腐蚀操作

B1对二值化图像进行腐蚀操作，连接相邻图像元素，合并横向图像元素的区域；

步骤C轮廓检测

C1对经过步骤B的二值化图像进行外围矩形轮廓检测；

C2剔除小于一定面积、小于一定长度、小于一定宽度或者长宽比不符合文本特征的轮廓。

步骤D筛选确定边界框

若经过步骤C处理后的轮廓为1个，则最终边界框为该轮廓；

若经过步骤C处理后的轮廓大于1个，则仅保留面积最大的1个轮廓作为最终边界框；

按照最终的边界框坐标在票据切片图像中进行再切片，并将经过再切片得到的图像输出，进行后续的OCR识别。

本申请能够将边界框修正到所需文本范围，修正了文本检测得到的边界框，去除了票据切片图像中其他的干扰信息，辅助标注工作，修正人工错误标注，有利于提高OCR识别正确率。

本发明实施例还提供了一种修正文本检测边界框的装置，如图2所示，可以包括：

读取模块11，用于：读取票据切片图像；票据切片图像为对票据图像进行文本检测得到边界框后，从票据图像上截取的仅包含该边界框内图像的切片图像；

二值化模块12，用于：对票据切片图像依次进行灰度化操作及二值化操作，得到对应的二值化图像；

合并模块13，用于：对二值化图像进行图像形态学的腐蚀操作，以横向合并二值化图像中包含的图像元素所属区域；图像元素包含字符及其他标记；

检测模块14，用于：对二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为票据切片图像包含的文本对应边界框。

本发明实施例提供的一种修正文本检测边界框的装置，还可以包括：

剔除模块，用于：对二值化图像进行外围轮廓检测之后，剔除对二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和/或长度小于长度阈值和/或宽度小于宽度阈值的边界框。

本发明实施例提供的一种修正文本检测边界框的装置，二值化模块可以包括：

二值化单元，用于：将票据切片图像划分为多个图像块，计算每个图像块中的灰度均值，确定每个图像块中的灰度均值为该图像块的二值化阈值，并基于每个图像块的二值化阈值对该图像块进行二值化操作。

去噪模块，用于：对二值化图像进行图像形态学的腐蚀操作之前，对二值化图像进行图像形态学的膨胀操作。

本发明实施例还提供了一种修正文本检测边界框的设备，可以包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上任一项修正文本检测边界框的方法的步骤。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可以实现如上任一项修正文本检测边界框的方法的步骤。

需要说明的是，本发明实施例提供的一种修正文本检测边界框的装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种修正文本检测边界框的方法中对应部分的详细说明，在此不再赘述。另外，本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种修正文本检测边界框的方法，其特征在于，包括：

对所述二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为所述票据切片图像包含的文本对应边界框；

对所述二值化图像进行外围轮廓检测之后，还包括：

剔除对所述二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和长度小于长度阈值和宽度小于宽度阈值的边界框；

对于需要获取的文本包含的单个字符，确定该单个字符的宽度的二分之一的值为宽度阈值，该单个字符的长度的二分之一的值为长度阈值，该单个字符的面积为面积阈值。

2.根据权利要求1所述的方法，其特征在于，对所述票据切片图像进行二值化操作，包括：

3.根据权利要求2所述的方法，其特征在于，对所述二值化图像进行图像形态学的腐蚀操作之前，还包括：

对所述二值化图像进行图像形态学的膨胀操作。

4.一种修正文本检测边界框的装置，其特征在于，包括：

检测模块，用于：对所述二值化图像进行外围轮廓检测，得到至少一个边界框，并确定其中面积最大的边界框为所述票据切片图像包含的文本对应边界框；

还包括：

剔除模块，用于：对所述二值化图像进行外围轮廓检测之后，剔除对所述二值化图像进行外围轮廓检测得到的多个边界框中，面积小于面积阈值和长度小于长度阈值和宽度小于宽度阈值的边界框；

5.根据权利要求4所述的装置，其特征在于，所述二值化模块包括：

6.根据权利要求5所述的装置，其特征在于，还包括：

7.一种修正文本检测边界框的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至3任一项所述修正文本检测边界框的方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述修正文本检测边界框的方法的步骤。