CN109753953A - 图像中定位文本的方法、装置、电子设备和存储介质 - Google Patents

图像中定位文本的方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN109753953A
CN109753953A CN201711071099.4A CN201711071099A CN109753953A CN 109753953 A CN109753953 A CN 109753953A CN 201711071099 A CN201711071099 A CN 201711071099A CN 109753953 A CN109753953 A CN 109753953A
Authority
CN
China
Prior art keywords
candidate
text
image
boundary
connected region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711071099.4A
Other languages
English (en)
Other versions
CN109753953B (zh
Inventor
熊昆
陈建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201711071099.4A priority Critical patent/CN109753953B/zh
Priority to PCT/CN2018/113437 priority patent/WO2019085971A1/zh
Publication of CN109753953A publication Critical patent/CN109753953A/zh
Priority to US16/653,243 priority patent/US11087168B2/en
Application granted granted Critical
Publication of CN109753953B publication Critical patent/CN109753953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明揭示了一种图像中文本定位的方法、装置、电子设备和计算机存储介质。所述方法包括:图像的二值化处理中文本所对应像素点设定为黑色,获得二值图像;通过黑色像素点得到候选连通区域;在二值图像根据所分布候选连通区域和文本排列方向提取连通域候选边界;在候选连通区域根据连通域候选边界和直线特征提取线性候选边界;根据候选连通区域内直线特征匹配直线的数量,进行提取连通域候选边界和线性候选边界的选取获得文本区域。不再需要进行文本内容识别,也不需要利用大数据以及模型,处理效率和准确性能够得到提高,连通域候选边界、线性候选边界的提取以及以此为依据,具备非常高的通用性,因此能够实现高效准确、高通用性的文本区域定位。

Description

图像中定位文本的方法、装置、电子设备和存储介质
技术邻域
本发明涉及多媒体应用技术领域,特别涉及一种图像中定位文本的方法、装置、电子设备和计算机可读存储介质。
背景技术
随着计算机技术、多媒体技术的飞速发展,以图像和图像所构成视频为主的多媒体信息被广泛应用于各个领域。将图像或者呈现图像的视频作为页面内容,并且图像中嵌入了内容丰富的文本,以便于在一定程度上反映该图像所相关的信息。
图像以及图像所构成视频的系统实现中,一方面常常是通过一定的数据来源为此系统提供图像,进而执行各种处理算法,例如,AI图像处理算法,方能够基于图像实现系统中的功能。
由此也带来了图像中定位文本区域的需求。例如,在对图像执行各种处理算法时,最为常用数据来源是监控视频的摄像头等硬件设备,这些硬件设备在采集图像的过程中,为所采集的图像添加了各种文本,如,时间标签、地址标签。
对于处理算法的执行而言,图像中文本的存在使得处理算法不得不增加对于最终所获得处理结果无关的处理,例如,AI图像处理算法中,一方面将增加了处理的复杂度和难度,另一方面也容易导致误差和算法训练的失败。因此,亟待解决图像中文本的定位。
此外,图像中存在的文本,由于硬件设备的种类甚至于生产厂商等的不同,使得图像中文本的位置放置都是不同的,因此,将使得图像中文本定位的实现需要适用于各种情况,具备非常高的通用性。
但是,现有的文本定位方法,主要是使用OCR等字符识别技术或者大数据所对应数学模型。OCR等字符识别技术是首先对图像做预处理,然后进行字符识别从中得到具体的文本内容,即图像中文本包含了什么字符,最后找到识别为字符的区域并使用外接矩形包围,至此方可获得图像中的文本区域。
大数据所对应数学模型实现的文本定位,是在对图像进行一些预处理之后,定位粗糙的候选文字区域(可能包含文字区域和不包含文字区域),然后利用大数据进行模型训练,例如神经网络模型,以通过所训练的模型利用大数据对所输入的图像区分出字符,外接矩形包含所区分出的字符获得文本区域。
使用字符识别技术的代价非常大。首先,所实现的系统过于庞杂,并且也没有必要识别具体字符,这增加了系统负担,且存在着降低效率和准确率的局限性。
而使用大数据所对应数学模型实现的文本定位,计算量需求非常大,并且需要进行场景参数的选取和配置,各种场景之间使用的场景参数差异巨大,因此难以真正适用于各种应用,例如,视频监控应用,通用性不佳。
因此,在图像中文本定位的进行中,存在着实现过于庞杂计算量大,以及参数配置等诸多困难,进而难以真正适用于图像中高效准确、高通用性的文本区域定位。
发明内容
为了解决相关技术中存在的图像定位实现并不适用于图像中高效准确、高通用性的文本区域定位的技术问题,本发明提供了一种图像中文本定位的方法、装置、电子设备和计算机存储介质。
一种图像中定位文本的方法,所述方法包括:
通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像;
通过所述二值图像中黑色像素点的连通域检测得到候选连通区域;
在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界;
在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界;
根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
一种图像中文本定位的装置,所述装置包括:
二值化模块,用于通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像;
连通域检测模块,用于通过所述二值图像中黑色像素点的连通域检测得到候选连通区域;
连通域候选边界提取模块,用于在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界;
线性候选边界提取模块,用于在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界;
验证模块,用于根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如前所述的图像中定位文本的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的图像中定位文本的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
对图像进行文本定位,首先通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像,通过二值图像中黑色像素点的连通域检测微电影到候选连通区域,然后在二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界,在候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界,最后根据候选连通区域内直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域,不再需要进行文本内容的识别,也不需要利用大数据以及所构建的模型,因此简化了图像中文本定位的实现,使得处理效率能够得到提高,并且由于是将文本所对应像素点都通过二值化处理而设定为黑色,保证了后续所处理文本的一致性,进而提高准确性,连通域候选边界、线性候选边界的提取以及以此为依据而最终实现的文本区域获得,将保证了图像中进行的文本定位能够适用于诸多复杂因素存在的情况,具备非常高的通用性,因此能够实现了图像中高效准确、高通用性的文本区域定位。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图;
图2是根据一示例性实施例示出的一种服务器的框图;
图3是根据一示例性实施例示出的一种图像中定位文本的方法的流程图;
图4是根据图3对应实施例示出的对步骤310的细节进行描述的流程图;
图5是根据图3对应实施例示出的对步骤330的细节进行描述的流程图;
图6是根据一示例性实施例示出的二值图像中连通块的示意图;
图7是根据图6对应实施例示出的候选连通区域示意图;
图8是根据一示例性实施例示出的对步骤333的细节进行描述的流程图;
图9是根据图3对应实施例示出的对步骤350的细节进行描述的流程图;
图10是根据一示例性实施例示出的连通域候选边界提取的示意简图;
图11是根据图3对应实施例示出的对步骤370的细节进行描述的流程图;
图12是根据图11对应实施例示出的对步骤373的细节进行描述的流程图;
图13是根据图11所示实施例对步骤371的细节进行描述的流程图;
图14是根据一示例性实施例示出的视频监控场景所获得视频图像二值化和合并后得到的合并图像示意图;
图15是根据图14所对应实施例获得的候选连通区域分布示意图;
图16是根据图15对应实施例示出的完成基于笔画过滤的图像示意图;
图17是根据一示例性实施例示出的文本区域确定的效果图;
图18是根据图16对应实施例输出的文本区域确定的效果图;
图19是根据一示例性实施例示出的一种图像中定位文本的装置的框图;
图20是根据图19对应实施例对二值化模块的细节进行描述的框图;
图21是根据图19对应实施例示出的线性候选边界提取模块的细节进行描述的框图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的本发明所涉及的实施环境示意图。本发明所涉及的实施环境是包括服务器110,除此之外,还将包括提供数据,即图像的数据来源,具体而言,在本实施环境中,数据来源为监控摄像头130。
监控摄像头130被部署于现实环境中,持续进行着现实环境中的图像捕获,因此,将向服务器110持续进行着图像传输。
监控摄像头130在所捕获的图像中,自动添加了时间标签和地址标签。换而言之,图像中存在着时间所对应的文本内容和地址所对应的文本内容。例如,时间所对应的文本内容置于图像顶部位置,地址所对应的文本内容则置于图像底部位置。
并且根据生产厂商的配置,时间标签和地址标签的字符颜色,相同或不相同均有可能。例如,其可同为黑色或白色,但也可能分别为黑色和白色。
服务器110对所获得的图像,将执行本发明所未的流程实现图像中的文本定位,进而即可根据定位的文本区域而应用于各种系统功能的实现。
应当说明的是,本发明图像中文本定位的实现,不限于在服务器中部署相应的处理逻辑,其也可以是部署于其它机器中的处理逻辑,例如,将用于实现于具备计算能力的终端设备中文本定位的处理逻辑等。
图2是根据一示例性实施例示出的一种服务器的框图。该服务器200可因配置或性能不同而产生比较大的差异,可以包括至少一个中央处理器(central processing units,CPU)222(例如,至少一个处理器)和存储器232,至少一个存储应用程序242或数据244的存储介质230(例如至少一个海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括至少一个模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括至少一个电源226,至少一个有线或无线网络接口250,至少一个输入输出接口258,和/或,至少一个操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3、图4、图5、、图9、图11、图12和图13所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的服务器结构。
图3是根据一示例性实施例示出的一种图像中定位文本的方法的流程图。该图像中定位文本的方法适用于图1所示实施环境,该实施环境中的服务器如图2所示,并且执行本发明所示的图像中定位文本的方法。
如图3所示,该图像中定位文本的方法,至少包括以下步骤。
在步骤310中,通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像。
其中,图像用于执行自身的文本定位,应当理解,此图像为视频数据所提供的每一帧图像。当然,可以理解的,也可以获得的单一图像,在此不进行限定,而需要根据所对应的数据来源确定。但是,无论对应于何种数据来源,都是以图像为单位进行文本定位的。
任一与数据来源对接的机器,例如,数据来源所接入的服务器,在获得图像之后,便对此图像执行二值化处理,进而自动进行图像中文本定位的实现。随着数据来源所进行源源不断的图像输入,数据来源所对接的机器将持续不断的进行图像的二值化处理,并传送至后续的逻辑实现中。
应当理解,所指的数据来源,其可为图1所示的监控摄像头130,当然,也可以是向执行文本定位的机器上传图像的终端设备等,在此不进行限定。除此之外,执行本发明所示文本定位的机器,不限于与数据来源对接的机器,也可以是单一存在的终端设备,例如,需对自身所拥有图像进行文本定位的终端设备等。
文本是指图像中存在的汉字以及其它字符,例如,数字字符、英文字符等。文本存在着单一颜色或者多种颜色,将通过二值化处理来使得文本均变为黑色,以最大限定的突出,增强对比度,以此来保障后续处理过程的准确性。
二值化处理过程将以图像中的文本为前景,图像的画面内容为背景实现。通过所配置阈值,将图像的像素点分为两部分,一部分即为通过阈值而区别于画面内容的文本所对应像素点,将此像素点的颜色设定为黑色,至此即可获得二值图像。
进一步的,为增强二值化处理的准确性,将通过所配置的阈值而文本所对应不同颜色的像素点与其它像素点分别划分成两部分,进而方能够使得不同颜色的像素点均被设定为黑色。
也就是说,可以配置几种阈值,以分别进行图像的二值化处理,获得文本中各种颜色对应的像素点,将其均设定为黑色即可。
综上所述,所获得的二值图像,在一个文本所对应颜色单一的示例性实施例中,能够获得一二值图像,配置一种阈值即可;而在图像中存在多种颜色的示例性实施例中,是对所存在颜色分类,根据颜色类别配置阈值,例如将颜色分为两类,以相应配置两种阈值,进而所获得的二值图像有两种,即分别为每一颜色类别所对应的二值图像,以此来确保文本中的像素点均被设定为黑色,所获得的二值图像中存在的黑色像素点准确映射于图像中的文本。
在步骤330中,通过二值图像中黑色像素点的连通区域检测得到候选连通区域。
其中,连通区域是对一团黑色像素点通过矩形边界而形成的区域。对二值图像所存在黑色像素点进行连通区域检测,以确定二值图像中存在的连通区域,进而从中获得候选连通区域。
应当理解,在二值图像文本所对应黑色像素点的存在,存在噪声的可能性非常高,所指的噪声是实质并未对应于文本的黑色像素点,因此,进行连通区域检测而得到的连通区域,可能存在着噪声连通区域,在一个示例性实施例的具体实现中,需要进行连通区域的筛选,准确得到候选连通区域。
在步骤350中,在二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界。
其中,如前所述连通域检测的进行,二值图像中存在着分布于各处的候选连通区域,此候选连通区域由矩形边界包围。在形成候选连通区域的矩形边界中,提取与文本排列方向相匹配的候选连通区域边界为连通域候选边界。
图像中处于相同区域的文本,例如,地址标签、时间标签,都是按照一定的文本排列方向进行汉字或者各种字符的排列的。具体以一横向显示的图像为例,其上添加的地址标签和时间标签等多串文本,虽然分别处于不同区域,但均为水平排列,此时,所指的文本排列方向即为水平排列方向。
所进行的连通域候选边界是在文字排列方向上对应了相同数量候选连通区域边界的直线对,此直线对分别对应了垂直于文字排列方向上的位置点。应当理解的,候选连通区域是矩形区域,一串文本往往被若干个候选连通区域所覆盖,换而言之,这些候选连通区域表示一串文本,而根据文本的特征,这一串文本是按照一方向排列且在此垂直方向的宽度,例如高度一致的,因此能够根据文本排列方向提取到文本区域的候选边界,此边界即为连通域候选边界。
在此连通域候选边界的提取中,是借助于字符,例如数字,具备的连通性提取得到,而并不会产生所提取的连通域候选边界分割了字符的情况,在以字符占据主要的连通域候选边界中,例如,连通域候选边界所对应文本大多为数字的情况下,所提取的连通域候选边界将是所对应文本区域的实际边界。
由此可以知道,在候选连通区域所对应文本大多为数字的情况下,得到连通域候选边界即可由此而获得对应的文本区域。
但是,在图像中文本的定位实现中,对于一候选连通区域,并未识别所对应文本区域的文本内容,以及所存在的是何种类型的字符或者汉字,更无法获知文本区域中数字占据绝大多数甚至于全部,因此即便提取得到候选连通区域,对于数字占据绝大多数甚至于全部的文本区域而言,也仍然需要执行后续的线性候选边界提取,进而通过交叉验证的进行最终确定文本区域,以此来保证准确性,避免误提取的发生。
在步骤370中,在候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界。
其中,连通域候选边界是对图像进行文本定位的过程中初步提取得到的,在此基础上,还将通过进一步的优化而再次进行文本区域中边界的提取,获得线性候选边界。
线性候选边界,是匹配于文本直线特征的文本区域边界。文本的直线特征指示了文本中直线的存在样式。不同类型的字符或者不同语言的文字,例如汉字,都有其所对应的直线特征。例如,对于汉字而言,存在着诸多笔画,并且笔画中基于水平方向和垂直方向的横线和竖线较多,因此汉字所在的文本区域所具备的直线特征为横竖线特征。
候选连通区域中,根据文本的直线特征,在垂直于文本排列方向上,换而言之,也是平行于连通域候选边界逐像素点定位根据连通域候选边界之间宽度形成的区域,以寻找到匹配于直线特征的直线数量最多的区域,以此区域的获得完成线性候选边界的提取。
应当进一步指出的是,所获得的线性候选边界是成对存在的,与之相对应的,连通域候选边界也将是成对存在的。
对于图像中文本定位的实现而言,线性候选边界由于是匹配于文本直线特征的,因此,适用于直线特征明显的文字占据绝大多数甚至于全部的文本区域所对应连通域候选区域中候选边界的提取,此时,所提取的线性候选边界即为文本区域的实际边界。
因此,对于横线和竖线非常多的汉字所占据绝大多数甚至于全部的文本区域,前述步骤所提取得到的连通域候选边界,会造成汉字被所提取的连通域候选边界分割的情况,由连通域候选边界并无法获得准确的文本区域,因此,有必要依赖于线性候选边界最终实现所对应文本区域的确定,进而保证文本定位的准确性。
在步骤390中,根据候选连通区域内直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
其中,通过前述步骤中候选边界的二次提取,获得了连通域候选边界和线性候选边界,因此对于一候选连通区域而言,存在着两种候选边界,需要通过交叉验证的实现获得更为精确的结果,即确认最为可信的候选边界,由交叉验证所指示的候选边界确定图像中的文本区域。
文本中的直线,将是作为文本中文字,特别是作为汉字中的笔画而存在的。对于一候选连通区域而言,如果直线成为所对应文本区域中的基本构成,并且数量众多,则以此直线所匹配的直线特征,即可确定所提取线性候选边界即为所对应文本区域的实际边界,能够由线性候选边界而在图像中准确定位到文本区域。
比如,一候选连通区域,所对应文本区域是以汉字为主,因为笔画的缘故,横线和竖线较多,则此候选连通区域中直线生物所匹配的直线数量,即为横竖线的数量,必然较多,由此,便选取线性候选边界,经由线性候选边界而得到所对应的文本区域。
至此,便完成了连通域候选边界和线性边界的交叉验证,通过此方式,一方面保证了所获得文本区域的准确性,另一方面,也增强了图像中文本定位实现的通用性,也正是甚至此,而使得图像中文本定位的实现不再需要以文本内容的识别为提前条件,得以简化了实现过程,进而相应提高效率。
图4是根据图3对应实施例示出的对步骤310的细节进行描述的流程图。该步骤310,如图4所示,至少包括以下步骤。
在步骤311中,通过配置阈值进行图像中深色文本和淡色文本所对应像素点被设定为黑色的二值化处理,获得淡色文本和深色文本分别对应的二值图像,深色和淡色的划分与所配置阈值相关。
其中,如前所述的,二值化处理过程是将通过所配置的阈值而将图像中文本对应的像素点都设定为黑色。在本示例性实施例中,将颜色分为两大类,一类为深色,另一类与之相对应为淡色,则根据此配置的阈值包括用于区分出深色文本的阈值,即黑阈值,以及用于区分出淡色文本的阈值,即白阈值。
针对于图像,分别通过黑阈值和白阈值二值化图像,获得两种二值图像。也就是说,二值图像包括黑阈值二值图像,即深色文本对应的二值图像,以及白阈值二值图像,即淡色文本对应的二值图像。
具体的,首先将进行文本定位的图像转换为灰度图像,在此灰度图像上对于黑阈值和白阈值分别进行二值化。对于黑阈值所进行的二值化,是把灰度小于黑阈值的像素点都变为黑色,其它的像素点则变为白色,实现深色文本变为黑色的二值化处理过程。对于白阈值所进行的二值化,则是把灰度大于白阈值的像素点变为黑色,其它像素点则变为白色,以此来实现淡色文本变为黑色的二值化处理过程。
由此,在所获得的二值图像中,深色文本所对应的黑色像素点分布于深色文本所对应二值图像中,即黑阈值二值图像,淡色文本所对应黑色像素点分布于淡色文本所对应二值图像,即白阈值二值图像。至此,对于图像中分布了多种颜色的文本而言,其所对应像素点将分布于深色文本所对应二值图像以及淡色文本所对应二值图像,当然,在图像中文本所分布颜色单一,例如均为深色或者淡色时,所对应黑色像素点将绝大多数或者全部分布于一二值图像,另一二值图像则并无黑色像素点的分布,或者仅有少量分布。
在步骤313中,合并淡色文本和深色文本分别对应的二值图像获得合并图像,合并图像用于线性候选边界的提取。
其中,如前所述的,文本所对应像素点二值化处理为黑色,且存在于二值图像中,而此二值图像,包括深色文本所对应二值图像和淡色文本所对应二值图像,此时,有必要进行二者之间的合并,以使得对应于文本的黑色像素点均存在于合并后获得的图像,即合并图像。
至此,所得到的合并图像,将用于后续执行细发候选边界的提取,而二值化图像则用于执行连通域候选边界的提取,进而保证准确性以及完整性。
图5是根据图3对应实施例示出的对步骤330的细节进行描述的流程图。该步骤330,如图5所示,至少包括以下步骤。
在步骤331中,在二值图像进行黑色像素点的连通性查找,获得对应于黑色像素点的连通块。
其中,边通块是黑色像素点所形成的集合,此黑色像素点是聚合在一起的,并且满足从任何一个黑色像素点出发,都可以通过移动到相邻黑色像素点而到达整个集合内其它任何一个像素点。
图6是根据一示例性实施例示出的二值图像中连通块的示意图。在对一二值图像中的黑色像素点完成连通性查找之后,获得如图6所示的三个连通块,图7是根据图6对应实施例示出的候选连通区域示意图,在执行步骤333后即可获得图7所示的三个候选连通区域。
在步骤333中,为每一连通块获得自身的矩形边界,根据矩形边界获得候选连通区域。
其中,在完成了二值图像的连通性查找之后,将得到的连通块存储于矩形区域,此矩形区域即连通块所对应的连通区域,进而方可由连通区域获得候选连通区域。
也就是说,针对每一连通块,获得的短边边界是根据外接于此连通块的横线和竖线确定的,基于外接于此连通块的横线和竖线获得连通块的矩形边界形成连通区域。
可将所获得的连通区域作为候选连通区域,以进行后续所需要的候选边界提取,进而最终获得图像中存在的文本区域。
在一个示例性实施例的具体实现中,也可在获得二值图像中存在的连通区域之后,引入一定的机制进行所获得连通区域中的过滤,以便于精准确定候选连通区域。
图8是根据一示例性实施例示出的对步骤333的细节进行描述的流程图。该步骤333,如图8所示,至少包括以下步骤。
在步骤3331中,针对于每一连通块,都获得匹配于连通块的矩阵边界,通过矩形边界形成连通区域。
其中,如前所述的,连通块,是黑色像素点的集合,是在二值图像中实体存在的,因此,基于此连通块在二值图像中的存在获得,在水平方向和竖直方向上获得形成包含此连通块的矩形边界,即匹配于连通块的矩阵边界。所指的矩形边界与连通块之间的匹配,是指外接于连通块,或者最大限度接近于连通块边缘。为连通块所获得的多个矩形边界均形成二值图像中的连通区域。
在步骤3333中,从连通区域过滤出噪声连通区域,获得候选连通区域。
其中,针对二值图像中文本所对应连通区域,即候选连通区域在各种不同场景存在的特性引入一定的机制进行所获得连通区域的筛选,通过筛选的连通区域最终才会成为候选连通区域。所指的场景,包括捕获图像的真实场景,例如,存在着大型事物的真实场景,明显存在光影噪声的真实场景;也包括进行图像捕获的功能场景,例如,进行文本定位的图像是来自于视频监控场景的,此文本即为视频监控中摄像头加入的时间标签和地址标签。
不同的场景有着不同的形态特性、位置特性以及像素点特性,以此为依据为所引入的筛选机制配置筛选参数。
在一个示例性实施例的具体实现中,所应用的筛选参数包括:
1、连通区域形状,即前述所指的矩形边界,其宽度和高度上的限制。
以此来保证矩形边界的宽度和高度都在合理范围,以过滤掉明显过大和明显过小的连通区域;
2、矩形边界的面积与所包围连通块内真实联通的黑色像素点个数比。
以此来删除明显过于密集和明显过于稀疏的连通区域,这类连通区域必然是噪声连通区域。
连通区域所对应矩形边界内黑色像素点明显过于密集的情况下,所对应的必定不是汉字,而是图像背景中存在的大型事物。
连通区域所对应矩形边界内黑色像素点明显过于稀疏的情况下,所对应的也必定不是文本,而是背景所存在的光影噪声。
3、矩形边界的位置特性。
比如必须位于图像的上方1/5处,在视频监控场景中,时间标签大都会在图像的上方。
通过筛选机制的引入,得以保证后续所进行候选边界提取的准确性,此外,也减少了后续处理的数据量和复杂度,进而有效提升性能和效率。
在此应当进一步说明的是,如图4对应实施例所述的,将通过黑阈值和白阈值而获得深色文本和淡色文本分别对应的二值图像,以避免误检和漏检的发生。此时,与之相对应的,所进行的连通域检测和以此为基础执行的筛选,都是针对于深色文本所对应二值图像以及淡色文本所对应二值图像上黑色像素点进行的,从而获得每一二值图像上的候选连通区域,并对此取并集,即获得所有二值图像的候选连通区域,至此,将有效保障了图像中文本定位的完整性。
图9是根据图3对应实施例示出的对步骤350的细节进行描述的流程图。该步骤350,如图9所示,至少包括以下步骤。
在步骤351中,二值图像中垂直于文本排列方向确定对应了相同数量候选连通区域的像素对位置。
其中,如前所述的,所进行的连通域候选边界提取是以所得到的候选连通区域为依据而执行的。由于图像是由一数据来源,特别是指定的硬件设备,例如摄像头所输出的,文本是由数据来源添加于图像中的,因此必然具备着某此方面的一致性,这些一致性包括但不限于文本排列方向。
根据文本的特性,无论是数字、英文等字符,还是汉字等,都是按照一定的方向进行有序排列的,例如,对于一横向显示的图像而言,其文本排列方向为水平方向,并且具备高度上的一致性。
由此将使得文本区域所对应的候选连通区域也将是按照文本排列方向分布的,并且在垂直于文本排列方向上存在着相对距离,例如前述所列举的高度之间的一致性。因此,能够根据文本排列方向上对应的候选连通区域数量,在垂直于文本排列方向上确定像素对位置。
以文本区域中水平排列的数字为例,水平排列的数字具备高度一致性。此文本区域对应了多个候选连通域,则在竖直方向上,必然存在着两个对应了相同数量且数量最多矩形边界的像素点位置。
应当理解,所指的对应了相同数量候选连通区域的像素对位置,是指能够在文字排列方向上映射到相同数量矩形边界,且所映射矩形边界数量相对于其它像素点最多的两个像素点位置,将根据这两个像素点位置在垂直于文本排列方向上的位置定位连通域候选边界。
候选连通区域中,虽然会存在对定位造成干扰的噪声,也就是说,即便经过了筛选,所得到的候选连通区域也存在着实质上是噪声连通区域的可能性,但是,文本区域是具备一定的长度的,例如存在着较多的数字,因此没有被干扰的字符,实质上不是噪声连通区域的候选连通区域占据绝大多数,噪声与文本内容不可能达到相同水平,故由此而提取的连通域候选边界仍然具备非常高的准确性,特别是对于数字所形成的文本区域而言,由于数字的结构具有连通性,因此失误寻找的概率很小。
在步骤353中,由该像素对位置在文本排列方向上提取文本区域的连通域候选边界。
其中,所得到的像素对指示了垂直于文本排列方向上的两个像素点位置点,这两个像素点位置便构成了像素对位置。连通域候选边界是垂直于文本方向上的直线,因此,根据像素对位置所指示的两个位置点,能够定位文本区域的连通域候选边界。
图10是根据一示例性实施例示出的连通域候选边界提取的示意简图。在图10中,矩形区域410是一串数字水平排列而形成的区域,这一串数字所对应的文本排列方向即为水平方向。
对这一串数字所构成的文本进行连通域检测获得了如图10所示矩形的连通区域430,通过引入的筛选机制而剔除干扰元素,即噪声连通区域431,获得候选连通区域433。
此至,可以确定在竖直方向上存在四个候选连通区域433,这四个候选连通区域在水平方向上的矩形边界均对应于竖直方向上的上下两个像素点位置,这两个像素点位置构成像素对位置。
具体的,构建以水平方向为x轴,竖直方向为y轴的坐标系,所获得的四个候选连通区域平行于x轴的矩形边界均对应于y轴上的同一坐标位置,即y1和y2。y1和y2即为像素对位置,分别由此像素对位置提取得于连通域候选边界450。
通过此方式,一方面,对于数字等连通性能佳的字符所形成文本中,能够精确定位文本区域,即所提取的连通候选边界即为文本区域的实际边界,实现简单且准确性非常高;另一方面,对于连通性不佳的文本而言,为其文本区域的获得进行了初步定位,能够为后续的处理过程提供可靠依据,并且提高了图像中文本定位的通用性。
图11是根据图3对应实施例示出的对步骤370的细节进行描述的流程图。该步骤370,如图11所示,至少包括以下步骤。
在步骤371中,为候选连通区域获取与文本直线特征相匹配的直线集合。
其中,在完成了连通域候选边界的提取之后,便进行线性候选边界的提取。如前述的,文本的直线特征描述了文本中主要包含的直线。在文本中连通性不佳的情况下,文本中的内容,特别是对于汉字而言,其是以笔画为单位存在的。文本的直线特征即为笔画特征,笔画特征对于文本而言是普适的,能够以此为依据而进行文本所对应文本区域的候选边界提取,以准确提取得到线性候选边界。
候选连通区域中,与文本的直线特征相匹配的直线集合是指候选连通区域所存在与直线特征相符的所有直线形成的集合。
在此应当明确指出的是,对于汉字而言,其所形成文本,或者形成的汉字很多数字等类似字符很少的文本,所对应的直线特征是横竖线特征。此时,所获得的直线集合即为候选连通区域中所有横线和竖线的集合。
在步骤373中,通过直线集合、候选连通区域和连通域候选边界提取线性候选边界。
其中,根据直线集合,存在着众多直线的候选连通区域所对应文本具备线性特性,因而是汉字的可能性非常高。所以将根据直线集合以及连通域候选边界来进行候选连通区域中线性候选边界的提取。
如前所述的连通域候选边界,是在文本排列方向上成对提取得到的直线,类似的,所提取的线性候选边界,也将是在文本排列方向上成对提取得到的直线。并且对于一图像而言,其所所添加文本无论是何种字符,何种文字,都将对应着相同的文本排列方向,并且在垂直于文本排列方向上对应的宽度,例如,在竖直方向上的高度都是一致的,因此,能够以连通域候选边界为依据准确提取线性候选边界。
图12是根据图11对应实施例示出的对步骤373的细节进行描述的流程图。该步骤373,如图12所示,至少包括以下步骤。
在步骤3731中,进行候选连通区域的边缘检测获得边缘图像。
其中,通过进行边缘检测输出文本所对应的笔画边缘。所使用的边界检测方法,可以是边缘检测算子为canny算子的边缘检测方法,也可以是其它各种边缘检测方法。
在步骤3733中,对边缘图像中匹配于直线特征的直线进行拓展处理获得增强线性特征的拓展图像。
其中,匹配于直线特征的直线,是指获得的笔画边缘上存在的与直线特征相符的直线,例如,直线特征为横竖线特征时,匹配于直线特征的直线即为笔画边缘上存在的横线和竖线。
拓展处理是补齐边缘检测中被canny算子删除的边缘交汇处,进而便得文本所对应笔画中原本存在的较长竖线以及横线得以被恢复,不再与背景噪声导致的竖线(这些竖线最为明显的特征即为短)混淆,以提升准确度。
应当理解,在边缘检测中,字体粗大的文字中间交汇的地方会被删除,例如,对于笔画上的一个竖线,如果中间有很多横线,那么就会被分割为很多的小竖线,这将导致后续的线性检测以及所提取线性候选边界的不准确性,因此拓展处理犹为关键。
在一个示例性实施例的具体实现中,有序化遍历边缘图像,例如,对于竖线的拓展处理,将在竖直方向上逐像素点进行竖直遍历,如果当前像素点处于一竖线上,并且它的下一个点也处于一竖线上,则从当前像素点所在的当前竖线起始端对比自身与上一竖线末端是否均为黑色,如果均为黑色,说明当前竖线起始端和上一竖线末端之间发生了canny算子导致的像素点舍弃,而并非原本就不连续的,此时需要将当前竖线起始端和上一竖线末端之间空挡补位黑色,这样,即可实现了竖线的拓展,对于汉字而言,将保证了竖直笔画不会被分割,横线的拓展处理过程与此类似,在此不进行重复说明。
在步骤3735中,线性检测拓展图像获得候选连通区域中与文本直线特征相匹配的直线集合。
其中,进行拓展图像的线性检测,至此,便获得与文本直线特征相匹配的笔画边缘上众多直线的集合。例如,在文本的直线特征是横竖线特征时,获得笔画边缘上所有横线和竖线,这些横线和竖线便形成与文本直线特征相匹配的直线集合。
在一个示例实施例中,所进行的线性检测可以使用HoughLine函数,但是参数调整相对而言要求较高。因此,进一步的,将直接遍历拓展图像来完成直线检测,其复杂度是0(w*h),故值得使用,且由于不需要调整参数,故效果更佳。
在一个示例性实施例中,在步骤3731之前,如上所述的步骤373,还包括以下步骤。
遍历候选连通区域中的黑色像素点,如果周边自然方向以及对象线方向上黑色像素点与所对应的笔画边缘像素点之间宽度都处于宽度阈值范围,则去除此黑色像素点。
其中,如前所述的,线性候选边界的提取,是连通域候选边界的检测优化,对数字包含很少,汉字很多的文本,将是一个极大提高准确度的补充,以准确获得汉字较多的文本所对应的文本区域。
通过基于笔画的过滤,而将过大和过小笔画所对应的黑色像素点直接筛除掉,进而对于候选连通区域而言删除了很多的背景干扰。在此应当补充说明的是,此基于笔画的滤过程,也将是针对于候选连通区域进行的,对于二值化处理所获得二值图像为单幅的情况下,将直接此二值图像完成了连通域检测以及连通候选边界的提取之后,即可进入基于笔画的过滤过程。
而对于二值化处理获得的至少两幅二值图像而言,将获取所对应的合并图像,使用合并图像来进行线性检测。
进一步的,周边自然方向以及对角线方向,是相对于一遍历到的黑色像素点而言,由此,将为所遍历到的黑色像素点指定了8个方向上是否会存在宽度未处于宽度阈值范围的黑色像素点,如果均不存在,则说明当前所遍历到的黑色像素点是背景的干扰噪声,将删除当前所遍历到的黑色像素点。
至少,对于造成笔画宽度过大或者过小的黑色像素点,都将予以去除。而保证笔画宽度处于正常范围的黑色像素点,其在基于笔画的过滤中,此黑色像素点必定在某一个方向上是处在预定的宽度阈值范围内的。
通过此方式,利用笔画特征的普适性为图像中文本定位消除了所进行连通域检测中存在的连通块背景干扰,对于所遍历到的每一黑色像素点而言,以自然方向和对象线方向限定像素搜索的搜索范围,保证了过滤的全面性。
图13是根据图11所示实施例对步骤371的细节进行描述的流程图。该步骤371,如图13所示,至少包括以下步骤。
在步骤3711中,候选连通区域中在垂直于文本排列方向逐像素点定位按照连通域候选边界之间宽度所形成且匹配于文本直线特征的直线数量最多的区域,反向再次定位区域。
其中,如前所述的,二值图像中分布着连通域检测甚至于噪声连通区域过滤所得到若干候选连通区域。对每一候选连通区域,以所提取的连通域候选边界为依据,进行区域定位,以在候选连通区域中定位平行于连通域候选边界,且匹配于文本直线特征的直线数量最多的两个区域。
此区域定位的执行,由于涉及两个区域的确定,因此,将沿着垂直于文本排列方向进行正向以及反向的两次逐像素点的划定区域,进而基于所划定区域中匹配直线特征的直线数量判定所划定区域是否为所需要定位的区域。
以直线特征是横竖线特征,文本排列方向是水平方向为例,所提取的连通域候选边界便是在水平方向上形成的两条直线,二者之间存在着宽度,此时,在所进行的区域定位中,在候选连通区域内,首先从上到下对每一个像素点位置i进行遍历,对于一像素点位置i,将得到上边框行坐标up=i&&下边框行坐标down=i+宽度,通过在上边框行坐标和下边框行坐标在水平方向形成的两条直线对,从候选连通区域内划分出一个区域,此时,将提取此区域中横竖线的数量。
以此类推,完成候选连通区域内从上到下的像素点位置遍历,根据每一区域所对应的横竖线数量,确定最大横竖线数量,此最大横竖线数据所对应的区域,即为定位所得到的一区域。
反向再次进行区域定位,即从下到上再次进行逐像素点位置的遍历,此时对于每一像素点位置,都得到下边框行坐标down=I&&上边框行坐标up=i+宽度,以最终确定从下到上的逐像素点位置遍历中再次定位得到一区域。
在步骤3713中,根据两次定位所获得的区域,在文本排列方向上提取相对宽度最远的区域边界对。
其中,通过前述步骤执行的像素点位置遍历,两次定位得到了两个区域,每一区域,都有平行于连通域候选边界的两条区域边界,此时,提取相互之间相对宽度最远的两条区域边界,形成相对宽度最远的区域边界对。
在步骤3715中,根据区域边界对之间的相对宽度确定线性候选边界在垂直于文本排列方向上的中心,并根据中心和连通候选边界之间宽度提取线性候选边界。
其中,对区域边界所在垂直于文本排列方向上的位置取平均即可获得线性候选边界之间的中心,从而以连通候选边界之间的宽度即可在垂直于文本排列方向上定位并提取得到线性候选边界,至此,便实现了基于笔画特特征和线性特征的候选边界提取,从而使得图像中文本的定位能够适用于汉字所组成的复杂文本。
在一个示例性实施例中,该步骤390,如图14所示,至少包括以下步骤。
针对为每一候选连通区域提取的连通域候选边界和线性候选边界,如果连通区域内直线特征的匹配的数量大于指定阈值,则以线性边界确定图像中的文本区域。
如果连通区域内直线特征所匹配的数量不大于指定阈值,则以连通域候选边界确定图像中的文本区域。
其中,如前所述的,通过前述步骤的执行,为每一候选连通区域都提取得到连通域候选边界和线性候选边界之后,便进行两种候选边界的交叉验证,确定所选用的候选边界。
应当理解,图像被添加的文本,大都为数字,少数情况下也可能包含着英文等字符的存在,但是,这所形成的文本都是连通性能较好的,因此,基于连通域候选边界即可精确获得文本区域。
而在汉字形成文本的情况下,连通域候选边界对于文本区域的获得将存在着较大误差,是较为难处理的情况。此时,线性候选边界方可精确获得文本区域。
因此,根据候选连通区域内直线特征匹配的直线数量来识别文本区域所对应文本是否是由汉字形成的,为汉字所形成文本的文本区域选用线性候选边界,即候选连通区域内匹配于直线特征的直线数量超出了指定阈值,则确定所对应的文本是由汉字形成,或者汉字占据了绝大多数。指定阈值可以是2或者其它数值,在此不进行限定。
对于候选连通区域所对应文本而言,如果所提取线性候选边界并不准确,则此候选连通区域内存在很少的与直线特征匹配的直线,必然会选取连通域候选边界获得文本区域,因此,将保证了非常低的文本定位误差率。
以视频监控场景为例,描述上述图像中文本定位的实现过程。在此视频监控场景中,进行文本定位的图像,是视频监控摄像头所采集的视频图像。随着视频监控摄像头持续进行的图像采集,将实时接收到视频图像序列。视频图像序列中存在的每一视频图像,都被视频监控摄像头添加了时间标签和地址标签两类文本,此时,需要定位所存在的文本。
应当理解,对于时间标签,例如,12-30-2016星期五15:41:08,大多为数字;而地址标签,则大部分或者全部都是汉字。
另外,时间标签和地址标签分别对应了黑色文字和白色文字。
在此情况下,进行视频图像的文本定位。
具体的,首先,视频监控摄像头所接入的服务器将以视频图像作为原始图像输入,对于黑阈值进行视频图像的二值化,把小于黑阈值的像素点颜色变为黑色,即黑色像素点,其它的变为白色,得到黑色文字对应的二值图像。
对白阈值进行视频图像的二值化,把大于白阈值的变为黑色,否则变为白色,得到白色文字对应的二值图像。
至此,视频图像所存在的文本,均变成了黑色,其它部分,即背景则变为白色,并进行两个二值图像的合并,得到合并图像,图14是根据一示例性实施例示出的视频监控场景所获得视频图像二值化和合并后得到的合并图像示意图,此合并图像中,顶部存在时间标签510,底部存在地址标签530。
其次,使用黑色文字和白色文字对应的二值图像进行连通域检测和连通域候选边界提取,此时,并不使用合并图像,以达到避免干扰的目的。
连通域检测过程,大至可分为三部分,一是连通块获得,二是连通区域获得,三则是筛选。
如图6至图7所示的,进行二值图像中的连通域查找,得到图6所示的三个连通块,并通过自身所形成的矩形边界,在筛选后获得候选连通区域,即图7所示的三个矩形。
图15是根据图14所对应实施例获得的候选连通区域分布示意图。如图15所示的,将在二值图像上获得多个候选连通区域610。
在图15所分布的候选连通区域610上,参阅图9所示的实现,在水平方向提取连通域候选边界630,进而获得两对连通域候选边界,其是分别对应于时间标签510和地址标签530的。
完成了连通域候选边界提取之后,可以理解,对于时间标签510而言,已经可以准确获得其文本区域,但是在机器执行的具体实现中,并由此并未进行文本内容的识别,因此,机器并不知道时间标签510和地址标签530的存在,故将对于时间标签510而言,仍然继续进行线性候选边界的提取。
线性候选边界的提取,包括:基于笔画的过滤、边缘检测、拓展处理、线性检测以及最终基于汉字中横竖线的候选边界提取。(1)基于笔画的过滤,将是对合并图像执行的。
遍历所有的黑色像素点,对其做像素搜索。具体的,确定4个自然方向和4个对角线方向上是否存在宽度处于宽度阈值范围的黑色像素点,如果在至少在一个方向上存在,则保留所遍历到的黑色像素点。
如果均不存在宽度处于宽度阈值范围的黑色像素点,则说明遍历到的黑色像素点是噪声,对其删除。
以此类推,即可完成基于笔画的过滤,把笔画宽度过大或者过小的直接筛掉。图16是根据图15对应实施例示出的完成基于笔画过滤的图像示意图。
对比图14可以看到,候选连通区域中笔画粗细在特定区域,过大过小的笔画都被过滤掉了。(2)边缘检测。
进行canny边缘检测,获得边缘图像,此时canny边缘检测对于字体粗细大的,中间交汇的地方,会予以删除,使得汉字笔画中存在的横线和竖线被分割成为与背景噪声类似的短线。
(3)拓展处理。
对汉字笔画中横竖线被分割所形成的短线执行拓展处理,进行空挡补位,处理好之后,将所获得的图像与进行笔画过程而输出的图像进行按位与运算,由于canny边缘检测也将使得边缘图像发生一个像素的偏移,因此,需要通过运算来保证融合的准确性。
(4)线性检测。
遍历拓展处理所输出的图像,即拓展图像,检测所存在的横线和竖线,以得到横竖线集合。
(5)基于汉字中横竖线的候选边界提取。
在候选连通区域内从上到下,再从下到上对每一像素点位置进行遍历,以得到包含横竖线数量最多,宽度为连通域候选边界之间宽度的两个区域。
在这两个区域中,提取最上端的区域边界和最下端的区域边界形成区域边界对。对区域边界对之间的宽度取平均,由平均值这一数值所映射的像素点位置确定中心,进而在此中心上确定线性候选边界。
至此,服务器即可进行线性候选边界和连通域候选边界的交叉,以从中选取最为适用的候选边界,形成文本区域710。
图17是根据一示例性实施例示出的文本区域确定的效果图。图18是根据图16对应实施例输出的文本区域确定的效果图。
所获得的文本区域710,分别准确定位了时间标签510和地址标签530,具备非常高的文本定位准确率,具有非常高的抗干扰性能,能够针对多样化的背景获得很好的定位效果。
此外,通过如上所述的实现过程,使得服务器中定位文本的实现不需要使用机器学习等大数据的方法,不需要准确大量的数据,大大增强了适用性,运算量小,减少了系统负担,甚至可以运行在低计算量的嵌入式设备中。
通过图像中文本定位的简单快速实现,能够在大量的图像中自动定位文本,将利用了后续开发的各种功能。
下述为本发明装置实施例,可以用于执行本发明上述硬件设备执行的图像中定位文本的方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明图像中定位文本的方法实施例。
图19是根据一示例性实施例示出的一种图像中定位文本的装置的框图。该图像中定位文本的装置,至少包括:二值化模块910、连通域检测模块930、连通域候选边界提取模块950、线性候选边界提取模块970和验证模块990。
二值化模块910,用于通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像。
连通域检测模块930,用于通过二值图像中黑色像素点的连通域检测得到候选连通区域。
连通域候选边界提取模块950,用于在二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界。
线性候选边界提取模块970,用于在候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界。
验证模块990,用于根据候选连通区域内直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
图20是根据图19对应实施例对二值化模块的细节进行描述的框图。该二值化模块910,如图19所示,至少包括黑白阈值二值化单元911和图像合并单元913。
黑白阈值二值化单元911,用于通过配置阈值进行图像中深色文本和淡色文本所对应像素点被设定为黑色的二值化处理,获得淡色文本和深色文本分别对应的二值图像,深色和淡色的划分与所配置阈值相关。
图像合并单元913,用于合并淡色文本和深色文本分别对应的二值图像获得合并图像,合并图像用于线性候选边界的提取。
图21是根据图19对应实施例示出的线性候选边界提取模块的细节进行描述的框图。如图21所示,线性候选边界提取模块970至少包括:特征直线提取单元971和遍历提取单元973。
特征直线提取单元971,用于为候选连通区域获取与文本直线特征相匹配的直线集合。
遍历提取单元973,用于通过直线集合、候选连通区域和连通域候选边界提取线性候选边界。
可选的,本发明还提供一种硬件设备,该硬件设备可以前述所示实施环境中,执行图3、图4、图5、、图9、图11、图12和图13任一所示的图像中定位文本的方法的全部或者部分步骤。此硬件设备为图像中定位文本的装置,所述装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行:
通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像;
通过所述二值图像中黑色像素点的连通域检测得到候选连通区域;
在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界;
在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界;
根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
该实施例中的装置的处理器执行操作的具体方式已经在有关该硬件设备的图像中定位文本的方法的实施例中执行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的图像中定位文本的方法。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (15)

1.一种图像中定位文本的方法,其特征在于,所述方法包括:
通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像;
通过所述二值图像中黑色像素点的连通域检测得到候选连通区域;
在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界;
在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界;
根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
2.根据权利要求1所述的方法,其特征在于,所述通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像,包括:
通过配置阈值进行图像中深色文本和淡色文本所对应像素点被设定为黑色的二值化处理,获得淡色文本和深色文本分别对应的二值图像,所述深色和淡色的划分与所配置阈值相关;
合并所述淡色文本和深色文本分别对应的二值图像获得合并图像,所述合并图像用于线性候选边界的提取。
3.根据权利要求1或2所述的方法,其特征在于,所述通过所述二值图像中黑色像素点的连通域检测得到候选连通区域,包括:
在所述二值图像进行黑色像素点的连通性查找,获得对应于所述黑色像素点的连通块;
为每一连通块获得自身的矩形边界,根据所述矩形边界获得候选连通区域。
4.根据权利要求3所述的方法,其特征在于,所述为每一连通块获得自身的矩形边界,根据所述矩形边界获得候选连通区域,包括:
针对于每一连通块,都获得匹配于所述连通块的矩形边界,通过所述矩形边界形成连通区域;
从所述连通区域过滤出噪声连通区域,获得候选连通区域。
5.根据权利要求1或2所述的方法,其特征在于,所述在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界,包括:
所述二值图像中垂直于文本排列方向确定对应了相同数量候选连通区域边界的像素对位置;
由所述像素对位置在所述文本排列方向上提取文本区域的连通候选边界。
6.根据权利要求1所述的方法,其特征在于,所述在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界,包括:
为所述候选连通区域获取与文本直线特征相匹配的直线集合;
通过所述直线集合、候选连通区域和连通域候选边界提取线性候选边界。
7.根据权利要求6所述的方法,其特征在于,所述为所述候选连通区域获取与文本直线特征相匹配的直线集合,包括:
进行所述候选连通区域的边缘检测获得边缘图像;
对所述边缘图像中匹配于直线特征的直线进行拓展处理获得增强线性特征的拓展图像;
线性检测所述拓展图像获得所述候选连通区域中与文本直线特征相匹配的直线集合。
8.根据权利要求7所述的方法,其特征在于,所述进行所述候选连通区域的边缘检测获得边缘图像之前,所述为所述候选连通区域获取与文本直线特征相匹配的直线集合,还包括:
遍历候选连通区域中的黑色像素点,如果周边自然方向以及对角线方向上所述黑色像素点与所对应的笔画边缘像素点之间宽度处于宽度阈值范围,则去除所述黑色像素点。
9.根据权利要求6所述的方法,其特征在于,所述通过所述直线集合、候选连通区域和连通域候选边界提取线性候选边界,包括:
所述候选连通区域中在垂直于文本排列方向逐像素点定位按照连通域候选边界之间宽度所形成且匹配于文本直线特征的直线数量最多的区域,反向再次定位所述区域;
根据两次定位所获得的区域,在文本排列方向上提取相对宽度最远的区域边界对;
根据所述区域边界对之间的相对宽度确定线性候选边界在垂直于文本排列方向上的中心,并根据所述中心和连通候选边界之间宽度提取线性候选边界。
10.根据权利要求1所述的方法,其特征在于,所述根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域,包括:
针对为每一候选连通区域提取的连通域候选边界和线性候选边界,如果连通区域内直线特征所匹配的直线数量大于指定阈值,则以所述线性边界确定图像中的文本区域;
如果连通区域内直线特征所匹配的直线数量不大于指定阈值,则以所述连通域候选边界确定图像中的文本区域。
11.一种图像中文本定位的装置,其特征在于,所述装置包括:
二值化模块,用于通过进行图像的二值化处理,将图像中文本所对应像素点设定为黑色,以获得二值图像;
连通域检测模块,用于通过所述二值图像中黑色像素点的连通域检测得到候选连通区域;
连通域候选边界提取模块,用于在所述二值图像根据所分布候选连通区域的边界和文本排列方向提取文本区域的连通域候选边界;
线性候选边界提取模块,用于在所述候选连通区域根据连通域候选边界和文本的直线特征提取线性候选边界;
验证模块,用于根据所述候选连通区域内所述直线特征所匹配直线的数量,进行所提取连通域候选边界和线性候选边界的选取,获得图像中的文本区域。
12.根据权利要求11所述的装置,其特征在于,所述二值化模块包括:
黑白阈值二值化单元,用于通过配置阈值进行图像中深色文本和淡色文本所对应像素点被设定为黑色的二值化处理,获得淡色文本和深色文本分别对应的二值图像,所述深色和淡色的划分与所配置阈值相关;
图像合并单元,用于合并所述淡色文本和深色文本分别对应的二值图像获得合并图像,所述合并图像用于线性候选边界的提取。
13.根据权利要求11所述的装置,其特征在于,所述线性候选边界提取模块包括:
特征直线提取单元,用于为所述候选连通区域获取与文本直线特征相匹配的直线集合;
遍历提取单元,用于通过所述直线集合、候选连通区域和连通域候选边界提取线性候选边界。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现根据权利要求1至10中任一项所述的图像中定位文本的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据权利要求1至10中任一项所述的图像中定位文本的方法。
CN201711071099.4A 2017-11-03 2017-11-03 图像中定位文本的方法、装置、电子设备和存储介质 Active CN109753953B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201711071099.4A CN109753953B (zh) 2017-11-03 2017-11-03 图像中定位文本的方法、装置、电子设备和存储介质
PCT/CN2018/113437 WO2019085971A1 (zh) 2017-11-03 2018-11-01 图像中定位文本的方法、装置、电子设备和存储介质
US16/653,243 US11087168B2 (en) 2017-11-03 2019-10-15 Method and apparatus for positioning text over image, electronic apparatus, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711071099.4A CN109753953B (zh) 2017-11-03 2017-11-03 图像中定位文本的方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN109753953A true CN109753953A (zh) 2019-05-14
CN109753953B CN109753953B (zh) 2022-10-11

Family

ID=66333456

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711071099.4A Active CN109753953B (zh) 2017-11-03 2017-11-03 图像中定位文本的方法、装置、电子设备和存储介质

Country Status (3)

Country Link
US (1) US11087168B2 (zh)
CN (1) CN109753953B (zh)
WO (1) WO2019085971A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914764A (zh) * 2020-08-05 2020-11-10 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN111950356A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本定位方法、装置及电子设备
CN112861520A (zh) * 2021-03-08 2021-05-28 成都字嗅科技有限公司 一种基于计算机的汉字结构优化方法及系统
CN115100196A (zh) * 2022-08-24 2022-09-23 聊城市洛溪信息科技有限公司 一种基于图像分割的冲压件除锈效果评估方法
CN115995091A (zh) * 2023-02-09 2023-04-21 清华大学 一种流程图读取方法及装置、电子设备和存储介质
CN116542883A (zh) * 2023-07-07 2023-08-04 四川大学华西医院 一种磁控胶囊胃镜影像病灶粘膜增强系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110926486B (zh) * 2019-11-26 2021-06-11 百度在线网络技术(北京)有限公司 一种路线确定方法、装置、设备和计算机存储介质
CN111783776B (zh) * 2020-06-30 2022-09-09 平安国际智慧城市科技股份有限公司 基于真实板材的文字识别方法、装置和计算机设备
CN112308805B (zh) * 2020-11-26 2022-03-08 北京的卢深视科技有限公司 深度图连通域检测去噪方法、电子设备及存储介质
CN113076814B (zh) * 2021-03-15 2022-02-25 腾讯科技(深圳)有限公司 文本区域的确定方法、装置、设备及可读存储介质
CN116311333B (zh) * 2023-02-21 2023-12-01 南京云阶电力科技有限公司 针对电气图纸中边缘细小文字识别的预处理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332046B1 (en) * 1997-11-28 2001-12-18 Fujitsu Limited Document image recognition apparatus and computer-readable storage medium storing document image recognition program
US20090290751A1 (en) * 2008-05-23 2009-11-26 Ahmet Mufit Ferman Methods and Systems for Detecting Numerals in a Digital Image
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN102096906A (zh) * 2010-12-13 2011-06-15 汉王科技股份有限公司 用于全景二值图像的反白处理方法和装置
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
US20120063686A1 (en) * 2007-05-04 2012-03-15 I.R.I.S Compression of digital images of scanned documents

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9769354B2 (en) * 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
CN100514355C (zh) * 2005-09-05 2009-07-15 富士通株式会社 指定文本行提取方法和装置
CN101770576A (zh) * 2008-12-31 2010-07-07 北京新岸线网络技术有限公司 字符提取方法和装置
CN101777124A (zh) * 2010-01-29 2010-07-14 北京新岸线网络技术有限公司 一种提取视频文本信息的方法及装置
US10467465B2 (en) * 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6332046B1 (en) * 1997-11-28 2001-12-18 Fujitsu Limited Document image recognition apparatus and computer-readable storage medium storing document image recognition program
US20120063686A1 (en) * 2007-05-04 2012-03-15 I.R.I.S Compression of digital images of scanned documents
US20090290751A1 (en) * 2008-05-23 2009-11-26 Ahmet Mufit Ferman Methods and Systems for Detecting Numerals in a Digital Image
CN102054271A (zh) * 2009-11-02 2011-05-11 富士通株式会社 文本行检测方法和装置
CN102096906A (zh) * 2010-12-13 2011-06-15 汉王科技股份有限公司 用于全景二值图像的反白处理方法和装置
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950356A (zh) * 2020-06-30 2020-11-17 深圳市雄帝科技股份有限公司 印章文本定位方法、装置及电子设备
CN111950356B (zh) * 2020-06-30 2024-04-19 深圳市雄帝科技股份有限公司 印章文本定位方法、装置及电子设备
CN111914764A (zh) * 2020-08-05 2020-11-10 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN111914764B (zh) * 2020-08-05 2023-09-15 杭州睿琪软件有限公司 图像处理方法、图像处理装置、电子设备和存储介质
CN112861520A (zh) * 2021-03-08 2021-05-28 成都字嗅科技有限公司 一种基于计算机的汉字结构优化方法及系统
CN115100196A (zh) * 2022-08-24 2022-09-23 聊城市洛溪信息科技有限公司 一种基于图像分割的冲压件除锈效果评估方法
CN115995091A (zh) * 2023-02-09 2023-04-21 清华大学 一种流程图读取方法及装置、电子设备和存储介质
CN115995091B (zh) * 2023-02-09 2023-08-25 清华大学 一种流程图读取方法及装置、电子设备和存储介质
CN116542883A (zh) * 2023-07-07 2023-08-04 四川大学华西医院 一种磁控胶囊胃镜影像病灶粘膜增强系统
CN116542883B (zh) * 2023-07-07 2023-09-05 四川大学华西医院 一种磁控胶囊胃镜影像病灶粘膜增强系统

Also Published As

Publication number Publication date
CN109753953B (zh) 2022-10-11
US20200117943A1 (en) 2020-04-16
US11087168B2 (en) 2021-08-10
WO2019085971A1 (zh) 2019-05-09

Similar Documents

Publication Publication Date Title
CN109753953A (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN105913093B (zh) 一种用于文字识别处理的模板匹配方法
CN108446698B (zh) 在图像中检测文本的方法、装置、介质及电子设备
KR101617681B1 (ko) 히스토그램들을 갖는 다중 층 연결 요소들을 사용하는 텍스트 검출
CN101908136B (zh) 一种表格识别处理方法及系统
CN102567300B (zh) 图片文档的处理方法及装置
CN110008809A (zh) 表格数据的获取方法、装置和服务器
CN106548169B (zh) 基于深度神经网络的模糊文字增强方法及装置
CN103258201B (zh) 一种融合全局和局部信息的表格线提取方法
CN105740402A (zh) 数字图像的语义标签的获取方法及装置
CN105574524B (zh) 基于对白和分镜联合识别的漫画图像版面识别方法和系统
CN106203454A (zh) 证件版式分析的方法及装置
CN103295009B (zh) 基于笔画分解的车牌字符识别方法
CN110287787B (zh) 图像识别方法、装置及计算机可读存储介质
CN104750678A (zh) 一种图像文本识别翻译眼镜及方法
CN104751093A (zh) 用于获取宿主设备显示的图像识别码的方法和装置
CN116052193B (zh) Rpa界面动态表格的拾取和匹配方法及系统
CN102930251A (zh) 两维收藏品数据收录与甄别的装置和方法
CN204537126U (zh) 一种图像文本识别翻译眼镜
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
CN115861609A (zh) 遥感图像的分割标注方法、电子设备及存储介质
CN111507119B (zh) 标识码识别方法、装置、电子设备及计算机可读存储介质
CN111709338B (zh) 一种用于表格检测的方法、装置及检测模型的训练方法
CN104598289B (zh) 一种识别方法及一种电子设备
CN104881641A (zh) 基于移动设备的问卷和表格数字化识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant