CN105975955B

CN105975955B - 一种图像中文本区域的检测方法

Info

Publication number: CN105975955B
Application number: CN201610366284.5A
Authority: CN
Inventors: 刘立; 刘艳洋; 吴诗展
Original assignee: Beijing Medical Pat Intelligent Technology Co Ltd
Current assignee: Hangzhou Zhuojian Information Technology Co.,Ltd.
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2019-07-02
Anticipated expiration: 2036-05-27
Also published as: CN105975955A

Abstract

本发明公开一种图像中文本区域的检测方法，包括：将图像划分为多个子图像，所述多个子图像之间无重叠区域且所述多个子图像构成所述图像；基于预设的字符识别规则，确定各子图像的文本置信度；基于各子图像的文本置信度及预设的文本置信度门限，确定目标连通域，所述目标连通域用于确定所述图像中包含的各文本区域；基于预设的连通域确定规则，确定所述图像包含的各连通域；基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域。相比现有技术，本发明提出的图像中文本区域的检测方法，通过划分图像为多个子图像，并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域，适用于具有复杂背景的图像。

Description

一种图像中文本区域的检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种图像中文本区域的检测方法。

背景技术

目前常用的图像中文本区域的检测方法有基于连通域的方法、基于边缘特征的方法和基于纹理特征的方法。各方法的具体说明如下：

基于连通域的方法，假设同一区域的字符具有相似的颜色和亮度，并且与背景区域的颜色存在较大差异的基础上，采用自底向上的方法从图像中提取连通区域，然后利用几何约束构造启发式规则进行连通域分析，将子区域合并得到最终的文本区域。

基于边缘特征的方法，是利用文本区域具有丰富的边缘信息这一特点进行文本区域检测，首先采用某种边缘检测算子从原图像中检测出边缘，然后通过形态学方法将边缘连接成本块，过滤不符合规则的非文本区域，得到最终的文本区域。

基于纹理的方法，把文本区域看作是一种可与背景区分开的特殊的纹理，通常采用Gabor变换、小波变换和傅里叶变换等方法检测图像中文本区域的纹理特征，并利用SVM从候选的文本区域中验证真实的文本区域，对于背景复杂的图像取得了较好的效果。

但是，对于具有复杂背景的图像，因为复杂背景对图像中文本区域产生的干扰大，上述现有的图像中文本区域的检测方法均不适用。

发明内容

鉴于上述问题，本发明提出了克服上述问题或者至少部分地解决上述问题的一种图像中文本区域的检测方法。

为此目的，本发明提出一种图像中文本区域的检测方法，包括：

将图像划分为多个子图像，所述多个子图像之间无重叠区域且所述多个子图像构成所述图像；

基于预设的字符识别规则，确定各子图像的文本置信度；

基于各子图像的文本置信度及预设的文本置信度门限，确定目标连通域，所述目标连通域用于确定所述图像中包含的各文本区域；

基于预设的连通域确定规则，确定所述图像包含的各连通域；

基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域。

可选的，所述将图像划分为多个子图像，包括：

将图像划分为尺寸一致的多个子图像。

可选的，所述基于预设的字符识别规则，确定各子图像的文本置信度，包括：

基于预设的字符识别规则，识别各子图像中的字符，并确定各子图像中各字符的置信度；

基于所述各子图像中各字符的置信度，确定各子图像的文本置信度。

可选的，所述基于所述各子图像中各字符的置信度，确定各子图像的文本置信度，包括：

基于所述各子图像中各字符的置信度，通过文本置信度计算式，确定各子图像的文本置信度；所述文本置信度计算式为：

其中，C为文本置信度，n为字符个数，c_i为第i个字符的置信度。

可选的，所述基于预设的字符识别规则，识别各子图像中的字符，并确定各子图像中各字符的置信度，包括：

基于光学字符识别OCR，识别各子图像中的字符，并确定各子图像中各字符的置信度。

可选的，所述基于各子图像的文本置信度及预设的文本置信度门限，确定目标连通域，包括：

基于预设的连通域提取规则，提取各目标子图像的连通域；所述目标子图像为文本置信度大于预设的文本置信度门限的子图像；

将所述各目标子图像的连通域进行连通域合并，得到目标连通域。

可选的，基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域，包括：

将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。

相比于现有技术，本发明提出的图像中文本区域的检测方法，通过划分图像为多个子图像，并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域，从而得到图像中相对重要的信息，便于后续的处理和应用，适用于具有复杂背景的图像。

附图说明

图1为本发明实施例提供的一种图像中文本区域的检测方法流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

如图1所示，本实施例公开一种图像中文本区域的检测方法，可包括以下步骤101～105：

101、将图像划分为多个子图像，所述多个子图像之间无重叠区域且所述多个子图像构成所述图像。

本实施例中，步骤101中，可将图像划分为尺寸一致的多个子图像。例如每个子图像均为9×9。

102、基于预设的字符识别规则，确定各子图像的文本置信度。

本实施例中，可基于应用场景来选择字符识别规则所使用的字符识别集，有利于提高识别效率。例如，对于金融领域的收费单图像，可选择字符识别规则所使用的字符识别集为数字集合；对于医学领域的化验单图像，可选择字符识别规则所使用的字符识别集为包含“血”、“胞”、“医”等化验常用字符所组成的集合。

由于字符识别规则所使用的字符识别集基于应用场景来选择，因此，可以针对图像所含不同的字符而对图像进行分类。

本实施例中，步骤102具体包括图1中未示出的步骤1021和1022。

1021、基于预设的字符识别规则，识别各子图像中的字符，并确定各子图像中各字符的置信度。

1022、基于所述各子图像中各字符的置信度，确定各子图像的文本置信度。

本实施例中，步骤1021中预设的字符识别规则为光学字符识别(OpticalCharacter Recognition，OCR)。

本实施例中，步骤1021中可通过文本置信度计算式，确定各子图像的文本置信度；所述文本置信度计算式为：

本实施例中，步骤1021中，当基于OCR识别各子图像中的字符后，OCR会提供各子图像中各字符的置信度。

103、基于各子图像的文本置信度及预设的文本置信度门限，确定目标连通域，所述目标连通域用于确定所述图像中包含的各文本区域。

本实施例中，步骤103具体包括图1中未示出的步骤1031和1032。

1031、基于预设的连通域提取规则，提取各目标子图像的连通域；所述目标子图像为文本置信度大于预设的文本置信度门限的子图像。

1032、将所述各目标子图像的连通域进行连通域合并，得到目标连通域。

104、基于预设的连通域确定规则，确定所述图像包含的各连通域。

105、基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域。

本实施例中，步骤105具体为：将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。

可见，本实施例公开的图像中文本区域的检测方法，通过划分图像为多个子图像，并确定各子图像的文本置信度来定位出背景相对复杂的图像中的文本区域，从而得到图像中相对重要的信息，便于后续的处理和应用，适用于具有复杂背景的图像。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种图像中文本区域的检测方法，其特征在于，包括：

基于预设的字符识别规则，确定各子图像的文本置信度；

基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域；

其中，所述基于各子图像的文本置信度及预设的文本置信度门限，确定目标连通域，具体为：基于预设的连通域提取规则，提取各目标子图像的连通域；所述目标子图像为文本置信度大于预设的文本置信度门限的子图像；将所述各目标子图像的连通域进行连通域合并，得到目标连通域；

所述基于所述图像包含的各连通域以及所述目标连通域，确定所述图像中包含的各文本区域，包括：将所述图像包含的各连通域与所述目标连通域的重叠区域确定为所述图像中包含的各文本区域。

2.根据权利要求1所述的方法，其特征在于，所述将图像划分为多个子图像，包括：

将图像划分为尺寸一致的多个子图像。

3.根据权利要求1所述的方法，其特征在于，所述基于预设的字符识别规则，确定各子图像的文本置信度，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述各子图像中各字符的置信度，确定各子图像的文本置信度，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于预设的字符识别规则，识别各子图像中的字符，并确定各子图像中各字符的置信度，包括：基于光学字符识别OCR，识别各子图像中的字符，并确定各子图像中各字符的置信度。