CN106127751B - 图像检测方法、装置以及系统 - Google Patents

图像检测方法、装置以及系统 Download PDF

Info

Publication number
CN106127751B
CN106127751B CN201610446884.2A CN201610446884A CN106127751B CN 106127751 B CN106127751 B CN 106127751B CN 201610446884 A CN201610446884 A CN 201610446884A CN 106127751 B CN106127751 B CN 106127751B
Authority
CN
China
Prior art keywords
image
target document
document image
pixel
pixels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610446884.2A
Other languages
English (en)
Other versions
CN106127751A (zh
Inventor
龙飞
汪平仄
陈志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201610446884.2A priority Critical patent/CN106127751B/zh
Publication of CN106127751A publication Critical patent/CN106127751A/zh
Application granted granted Critical
Publication of CN106127751B publication Critical patent/CN106127751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本公开是关于一种图像检测方法、装置以及系统,属于图像处理技术领域。方法包括:获取目标文档图像,对目标文档图像进行预处理;对经预处理的目标文档图像进行二值化处理以将目标文档图像中的文字转换为第一像素值并将目标文档图像中的背景转换为第二像素值;对第一像素值的像素进行膨胀处理以形成第一区域,并对第二像素值的像素进行连通域处理以形成第二区域;以及根据第一区域中边缘位置的像素的像素坐标,确定目标文档图像的文档边缘线。实现了根据确定的文字区域以确定文档的边缘线,避免了文档中的文字对确定边缘线的干扰,提高了文档边缘线确定的准确度。

Description

图像检测方法、装置以及系统
技术领域
本公开涉及图像处理技术领域,尤其涉及一种图像检测方法、装置以及系统。
背景技术
随着互联网技术的不断发展,移动终端(例如智能手机)的功能也越来越丰富。目前,用户可通过移动终端对拍摄的文档图像进行自动检测,具体而言,用户可通过移动终端拍摄目标文档图像,以供移动终端中具有文档自动检测功能的应用程序根据拍摄的目标文档图像进行文档检测。
在对目标文档图像进行文档检测的过程中,需要先确定文档纸张的边缘线,例如,可以利用直线检测结合滤波等技术直接检测文档纸张的四条边缘线,进而利用变换矩阵将纸张还原为矩形,便于后续进行文字识别。
发明内容
为克服相关技术中存在的问题,本公开实施例提供了一种图像检测方法、装置以及系统。所述技术方案如下:
根据本公开实施例的第一方面,提供一种图像检测方法,包括:
获取目标文档图像,对所述目标文档图像进行预处理;
对经预处理的所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
对所述第一像素值的像素进行膨胀处理以形成第一区域,并对所述第二像素值的像素进行连通域处理以形成第二区域;以及
根据所述第一区域中边缘位置的像素的像素坐标确定所述目标文档图像的文档边缘线。
根据本公开实施例的第二方面,提供一种图像检测装置,包括:
预处理模块,用于对目标文档图像进行预处理;
转换模块,用于对所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
第一形成模块,用于将所述第一像素值的像素进行膨胀处理以形成第一区域;
第二形成模块,用于对所述第二像素值的像素进行连通域处理以形成第二区域;以及
确定模块,用于根据所述第一区域中边缘位置的像素的像素坐标确定所述目标文档图像的文档边缘线。
根据本公开实施例的第三方面,提供另一种图像检测装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标文档图像,对所述目标文档图像进行预处理;
对经预处理的所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
对所述第一像素值的像素进行膨胀处理以形成第一区域,并对所述第二像素值的像素进行连通域处理以形成第二区域;以及
根据所述第一区域中边缘位置的像素的像素坐标确定所述目标文档图像的文档边缘线。
根据本公开实施例的第四方面,提供另一种图像检测方法,包括:
通过本公开第一方面实施例的图像检测方法确定所述目标文档的文档边缘线;
将所述文档边缘线所形成的区域作为待检测区域,并对所述待检测区域中的文字进行识别。
根据本公开实施例的第五方面,提供一种图像检测系统,包括:
本公开第二方面实施例所述的图像检测装置;
识别装置,用于将文档边缘线所形成的区域作为待检测区域,并对所述待检测区域中的文字进行识别。
根据本公开实施例的第六方面,提供另一种图像检测系统,包括:
本公开第三方面实施例所述的图像检测装置;
识别装置,用于将文档边缘线所形成的区域作为待检测区域,并对所述待检测区域中的文字进行识别。
本公开实施例提供的技术方案可以包括以下有益效果:
通过将目标文档图像进行预处理,并通过对目标文档图像二值化处理以将目标文档中的图像中的文字转换为第一像素值并且将目标文档图像中的背景转换为第二像素值,进而分别对第一像素值和的第二像素值的像素进行膨胀处理,以分别生成第一区域和第二区域,进而根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。实现了通过确定文档图像中文字的区域,并根据确定的文字区域的范围确定文档边缘线,避免了文档中的文字对确定边缘线的干扰,提高了文档边缘线确定的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起被配置为解释本公开的原理。
图1是根据一示例性实施例示出的一种图像检测方法的流程图;
图2(a)是根据一示例性实施例示出的经过降采样处理之后的目标文档图像的示例图;
图2(b)是根据一示例性实施例示出的直方图均衡化处理后的目标文档图像的示例图;
图2(c)是根据一示例性实施例示出的具有明显黑白效果的目标文档图像的示例图;
图2(d)是根据一示例性实施例示出的对目标文档图像进行膨胀处理后的目标文档图像的示例图;
图2(e)是根据一示例性实施例示出的对目标文档图像进行连通域处理后的目标文档图像的示例图;
图2(f)是根据一示例性实施例示出的包含文档边缘线的目标文档图像的示例图;
图3是根据一示例性实施例示出的一种图像检测装置的框图;
图4是根据另一示例性实施例示出的一种图像检测装置的框图;
图5是根据又一示例性实施例示出的一种图像检测装置的框图;
图6是根据一示例性实施例示出的一种图像检测方法的流程图;
图7是根据一示例性实施例示出的一种图像检测系统的框图;
图8是根据一示例性实施例示出的另一种图像检测系统的框图;
图9是根据一示例性实施例示出的一种终端1000的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种图像检测方法的流程图。如图1所示,该图像检测方法包括:
在步骤S110中,获取目标文档图像,对目标文档图像进行预处理。
需要理解的是,上述目标文档图像可以是用户使用配置有摄像头的终端主动拍摄的目标文档的图像,也可以是从网络上下载或者是其他用户分享的相关目标文档图像等。
示例地,本公开实施例中的终端可以是手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统且可进行拍照的硬件设备,该穿戴式设备可以是智能手环、智能手表、智能眼镜等。
作为一个示例,为了使得目标文档图像中的文字更加容易被检测到,在获取到目标文档图像之后,可先对目标文档图像进行预处理以初步突出文字所在区域。
在一实施例中,根据具体应用场景的不同,对目标文档图形进行预处理的方式可有多种:
举例而言,可先通过图像去噪算法对目标文档图像进行去噪音处理,以滤除目标文档图像的某些噪音,减少目标文档图像的噪音对后续处理过程的影响。
在本示例中,可对目标文档图像进行缩放以将目标文档图像的分辨率降低至目标分辨率,且该降低分辨率的过程实际相当于滤除了某些噪音信号并突出了低频信号(大块的平均灰度)的过程。其中,上述目标分辨率可由系统根据配置自行标定,也可由用户根据需求进行设置。
例如,对于一个分辨率大小为2300*4200的目标文档图像,可通过降采样的方式将该文档图像的分辨率降采样10倍至目标分辨率230*420,从而通过降采样突出了目标文档图像中的低频信号,即,突出了目标文档图像中文字所在的区域。
基于以上描述,在本示例中,为了进一步提高目标文档图像文字与背景的对比度,使得目标文档图像中的文字更加突出,还可对降采样处理后的目标图像进行直方图均衡化处理。
即对目标文档图像中的像素个数多的文字所在区域的灰度级进行展宽,对像素个数少的背景区域的灰度级进行压缩,从而提高目标文档图像的对比度和灰度色调的变化,使得目标文档图像中的文字所在区域和背景区域的对比更加明显。
在步骤S120中,对经预处理的目标文档图像进行二值化处理以将目标文档图像中的文字转换为第一像素值并将目标文档图像中的背景转换为第二像素值。
可以理解,通过将目标文档图像的文字所在区域和背景区域分别转化为不同的像素值,可以使得被处理后的目标文档图像中的文字和背景的对比更加明显,呈现明显的黑白效果。
作为一个示例,本示例中,在对目标文档图像进行预处理后,可对预处理后的目标文档图像进行二值化处理,以使得目标文档图像中的文字所在区域和背景区域分别转化为第一像素值和第二像素值,其中第一像素值可为255(白色对应的像素值),第二像素值可为0(黑色对应的像素值),从而被处理后的目标图像中的文字所在区域和背景区域得到了明显的区分。
在步骤S130中,将第一像素值的像素进行膨胀处理以形成第一区域,并对第二像素值的像素进行连通域处理以形成第二区域。
在本公开的实施例中,在得到二值化处理后的目标文档图像时,虽然文字所在区域和背景所在区域得到了明显的区分,但是由于文字并不是连续的,每个文字之间的空格也被确定为背景进行处理,因此,目标文档图像中文字所在区域中夹杂着部分背景所带来的“坑”。
为了扩大文字所在区域的边缘线,以填补文字所在区域中的“坑”,本公开实施例中对与文字对应的第一像素值进行膨胀处理,以形成相对连续的第一区域。
在本实施例中,膨胀处理就是一种基于扩大图像的边缘的算法,该算法可以通过添加像素的方式扩大图像的边缘。
在本公开的实施例中,对第一像素值进行膨胀处理,在该第一像素所在区添加大量的第一像素,从而第一像素可覆盖掉其中“夹杂”的第二像素,进而大量的第一像素形成一个相对连续的第一区域,其中由于第二像素带来的“坑”被填补上。
即通过对第一像素值的像素进行膨胀处理,使得目标文档图像中的文字所在区域更加明显,并使得靠近目标文档图像边界的地方与其他的地方不连续,从而达到初步突出文档边缘线的处理效果。
在本公开的一个实施例中,在对目标文档图像进行膨胀处理的过程中,为了对目标文档图像中的文字区域和边缘线进行加强和渲染,可对目标文档中的图像中的第一像素值的像素膨胀N次以形成第一区域,其中,每次像素膨胀的膨胀倍数为预设值,膨胀次数N可为1、2或3。
需要说明的是,上述膨胀倍数的预设值可由系统根据目标文档图像进行标定,也可由用户根据需求自行设定。
基于以上描述,应当理解的是,在实际应用中,目标文档图像中可能包括除了要检测的目标文档外的其他非目标文档的部分图像,比如如图2(d)所示,进行膨胀处理后的目标文档图像的边缘处,可能包含其他非目标文档的中的文字对应的第一区域,因此,为了准确检测出目标文档的边缘线,需要突出目标文档图像中的文字所在区域,而将其他的非目标文档图像中的干扰第一区域进行相应处理。
作为一种实现方式,可对第二像素的像素进行连通域处理以形成第二区域。即获取目标文档图像的图像边缘,并获取与图像边缘相连的连通域,将与图像边缘相连的连通域中的像素均设置为第二像素值以形成第二区域。
其中,需要说明的是,连通域处理是一种基于对二值图像中白色像素(第一像素)的标记,让每个单独的连通区域形成一个被标识的块。其中,连通域的判断是基于白色像素是否邻接判断的。
具体而言,例如可采用四邻域标记算法或者八邻域标记算法判断白色像素是否邻接。由于八邻域标计算法考虑了像素上、下、左、右以及对角线方位的像素,能更好的实施本公开实施例的图像检测方法,因此本公开实施例的图像检测算法采用八邻域标记算法判断白色像素是否邻接。
如图2(d)所示,根据八邻域标记算法获取与所述图像边缘相连的连通域为区域1-8,而显然区域1-3同属于一个目标文档,因此获取目标文档图像的图像边缘,并获取与目标图像文档的图像边缘相连的连通域,即连通域4-8,将连通域1-8中的像素均设置为第二像素值,以形成第二区域,即将其他干扰第一区域的像素值转换为与背景一致的第二像素值。
在步骤S140中,根据第一区域中边缘位置的像素的像素坐标,确定目标文档图像的文档边缘线。
由于文档的边缘线处于文字所在区域的四周,因此,可通过文字所在的第一区域边缘位置像素的像素位置确定目标文档图像的文档边缘线。
作为一个示例,在确定目标文档图像的文档边缘线的过程中,可先获取第一区域中像素位置的纵坐标和横坐标,并提取第一区域中像素位置的纵坐标和横坐标的最大值和最小值,然后,根据纵坐标和横坐标的最大值和最小值确定目标文档图像的文档边缘线。
进而,在根据纵坐标和横坐标的最大值和最小值确定目标文档图像的文档边缘线的过程中,可分别在横坐标和纵坐标的最大值和最小值之外进行直线检测以确定文档边缘线,由此,可使得根据文字确定的文档边缘线更加准确。
可以理解的是,通过确定文字所在第一区域的横纵坐标来确定目标文档图像中文字所在的矩形区域,进而在确定的文字所在的矩形区域的基础上确定出的文档边缘线更加准确,避免了通过直接定位文档边缘线时文字和文档所在背景带来的干扰。
为了使得本领域的技术人员更加了解本公开,现结合图2(a)至图2(f)对本公开的图像检测方法进行示例说明,说明如下:
在获取目标文档图像后,可采用降采样的方式滤除目标文档图像中的某些噪音并且突出了低频信号,所获得的目标文档图像的如图2(a)所示,文字和背景有了初步的区分。
进一步地,如图2(b)所示,在对目标文档图像降采样处理后,对目标文档图像进行直方图均衡化处理,以获取文字与背景对比明显的、更加清晰的目标文档图像。
在此基础上,如图2(c)所示,对目标文档图像进行二值化处理,以获取具有明显黑白效果的目标文档图像,如图2(c)所示,目标文档图像中的文字所在区域全部被就标记为白色(第一像素值),背景区域全部被标记为黑色(第二像素值)。
进而,如图2(d)所示,为了消除目标文档图像的边界效应,对目标文档图像进行膨胀处理,以突出目标文档图像中的文字所在区域(第一区域)。并且为了进一步地突出目标文档图像的中目标文档的文字所在区域,如图2(e)所示对膨胀化处理后的目标文档图像进行连通域处理,将与图像边缘相连的连通域部分的像素全部设置为0(黑色对应的像素值)。
更进一步地,获取图2(e)中文字所在的第一区域的横坐标与纵坐标,并提取第一区域中像素位置的纵坐标和横坐标的最大值和最小值,以及分别在纵坐标和横坐标的最大值和最小值之外进行直线检测以确定文档边缘线,包含文档边缘线的目标文档图像的形式,如图2(f)所示,在得到的文字所在区域的矩形位置之外,检测直线就可以排除文字的干扰,尽可能准确的找到目标文档图像中的文档边缘线。
综上所述,本公开实施例提供的图像检测方法,通过将目标文档图像进行预处理,并通过对目标文档图像二值化处理以将目标文档中的图像中的文字转换为第一像素值并且将目标文档图像中的背景转换为第二像素值,进而分别对第一像素值和的第二像素值的像素进行膨胀处理,以分别生成第一区域和第二区域,进而根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。实现了通过确定文档图像中文字的区域,并根据确定的文字区域的范围确定文档边缘线,避免了文档中的文字对确定边缘线的干扰,提高了文档边缘线确定的准确度。
下面详细描述本公开图像检测装置,可以用于执行本公开图像检测方法。对于本公开文档图像检测装置实施例中未披露的细节,请参照本公开图像检测方法的实施例。
图3是根据一示例性实施例示出的一种图像检测装置的框图。如图3所示,该图像检测装置包括:预处理模块310、转换模块320、第一形成模块330、第二形成模块340和确定模块350。
预处理模块310被配置为获取目标文档图像,对目标文档图像进行预处理。
作为一个示例,为了使得目标文档图像更加容易被检测到,在获取到目标文档图像之后,预处理模块310可先对目标文档图像进行预处理,以初步突出文字所在区域。
例如,预处理模块310可先通过图像去噪算法对目标图像进行去噪音处理,以滤除目标文档图像的某些噪音,减少目标文档图像的噪音对后续处理过程的影响。
在本示例中,预处理模块310可对目标文档图像进行缩放以将目标文档图像的分辨率降低至目标分辨率,且该降低分辨率的过程实际相当于滤除了某些噪音信号并突出了低频信号(大块的平均灰度)的过程。其中,上述目标分辨率可由系统根据配置自行标定,也可由用户根据需求进行设置。
基于以上描述,在本示例中,为了进一步提高目标文档图像文字与背景的对比度,使得目标文档图像中的文字更加突出,预处理模块310还可对降采样处理后的目标图像进行直方图均衡化处理。
转换模块320被配置为对经预处理后的目标文档图像进行二值化处理以将目标文档图像中的文字转换为第一像素值并将目标文档图像中的背景转换为第二像素值。
通过转换模块320将目标文档图像的文字所在区域和背景区域分别转化为不同的像素值,可以使得被处理后的目标文档图像中的文字和背景的对比更加明显。
作为一个示例,在对目标文档图像进行预处理后,转换模块320可对预处理后的目标文档图像进行二值化处理,以使得目标文档图像中的文字所在区域和背景区域分别转化为第一像素值和第二像素值,其中第一像素值可为255(黑色对应的像素值),第二像素值可为0(白色对应的像素值),从而被处理后的目标图像中的文字所在区域和背景区域得到了明显的区分。
第一形成模块330被配置为将第一像素值的像素进行膨胀处理以形成第一区域。
第二形成模块340被配置为对第二像素值的像素进行连通域处理以形成第二区域。
作为一个示例,为了准确地得到文档的边缘线,可通过第一形成模块330和第二形成模块340对二值化处理后的目标文档图像进行膨胀处理,以使文字所在区域更加明显以及靠近目标文档图像边界的地方与其他的地方不连续,从而达到初步突出文档边缘线的处理效果。
在对目标文档图像进行膨胀处理的过程中,为了对目标文档图像中的文字区域和边缘线进行加强和渲染,第一形成模块330可对目标文档中的图像中的第一像素值的像素膨胀N次以形成第一区域,其中,每次像素膨胀的膨胀倍数为预设值,膨胀次数N可为1-3。
确定模块350,被配置为根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。
由于文档的边缘线处于文字所在区域的四周,因此,确定模块350可通过文字所在的第一区域中边缘位置的像素的像素位置确定目标文档图像的文档边缘线。可以理解的是,确定模块350通过确定文字所在第一区域的横纵坐标来确定目标文档图像中文字所在的矩形区域,进而在确定的文字所在的矩形区域的基础上确定出的文档边缘线更加准确,避免了通过直接定位文档边缘线时文字和文档所在背景带来的干扰。
综上所述,本公开实施例提供的图像检测装置,通过将目标文档图像进行预处理,并通过对目标文档图像二值化处理以将目标文档中的图像中的文字转换为第一像素值并且将目标文档图像中的背景转换为第二像素值,进而分别对第一像素值和的第二像素值的像素进行膨胀处理,以分别生成第一区域和第二区域,进而根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。实现了通过确定文档图像中文字的区域,并根据确定的文字区域的范围确定文档边缘线,避免了文档中的文字对确定边缘线的干扰,提高了文档边缘线确定的准确度。
图4是根据另一示例性实施例示出的一种图像检测装置的框图,在如图3所示的基础上,如图4所示,该第二形成模块340包括:第一获取子模块341、第二获取子模块342和设置子模块343。
第一获取子模块341被配置为获取目标文档图像的图像边缘;
第二获取子模块342被配置为于获取与图像边缘相连的连通域;
设置子模块343被配置为将与图像边缘相连的连通域中的像素均设置为第二像素值以形成第二区域。
其中,第二获取子模块342获取与图像边缘相连的连通域的方式有很多,可根据具体的应用场景进行选择,本实施例对此不作限制,举例说明:
第二获取子模块作为另一个示例,第二获取子模块342可根据八邻域标记算法获取与图像边缘相连的连通域。
需要说明的是,前述对图像检测方法实施例的解释说明也适用于该实施例的文档检测中文档边缘线的确定装置,其实现原理类似,此处不再赘述。
综上,本公开实施例提供的图像检测装置,通过对目标文档图像进行预处理,并通过对目标文档图像二值化处理以将目标文档中的图像中的文字转换为第一像素值并且将目标文档图像中的背景转换为第二像素值,进而分别对第一像素值和的第二像素值的像素进行膨胀处理,以分别生成第一区域和第二区域,根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。由此,通过文档图像中文字的区域准确确定了文档边缘线,避免了文档中的文字对确定文档边缘线的干扰,提高了文档边缘线确定的准确度。
图5是根据又一示例性实施例示出的一种图像检测装置的框图,在如图3所示的基础上,如图5所示,该确定模块350包括:第三获取子模块351、提取子模块352和确定子模块353。
第三获取子模块351被配置为获取第一区域中像素位置的纵坐标和横坐标;
提取子模块352被配置为提取第一区域中像素位置的纵坐标和横坐标的最大值和最小值;
确定子模块353被配置为根据纵坐标和横坐标的最大值和最小值确定目标文档图像的文档边缘线
作为一个示例,在确定子模块353根据纵坐标和横坐标的最大值和最小值确定目标文档图像的文档边缘线的过程中,可分别在横坐标和纵坐标的最大值和最小值之外进行直线检测以确定文档边缘线,由此,可使得根据文字确定的文档边缘线更加准确。
需要说明的是,前述对图像检测方法实施例的解释说明也适用于该实施例的文档检测中文档边缘线的确定装置,其实现原理类似,此处不再赘述。
需要说明的是,前述对图像检测方法实施例的解释说明也适用于该实施例的文档检测中文档边缘线的确定装置,其实现原理类似,此处不再赘述。
综上,本公开实施例提供的图像检测装置,根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线,由此,通过文档图像中文字的区域准确确定了文档边缘线,避免了文档中的文字对确定文档边缘线的干扰,提高了文档边缘线确定的准确度。
下面详细描述本公开另一种图像检测装置,可以用于为执行本公开图像检测方法实施例。对于本公开图像检测装置实施例中未被披露的细节,请参照本公开图像检测方法实施例。
作为一个示例,该图像检测装置包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为:
获取目标文档图像,对所述目标文档图像进行预处理;
对经预处理的目标文档图像进行二值化处理以将目标文档图像中的文字转换为第一像素值并将目标文档图像中的背景转换为第二像素值;
将第一像素值的像素进行膨胀处理以形成第一区域,并对第二像素值的像素进行连通域处理以形成第二区域;以及
根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。
需要说明的是,前述对图像检测方法实施例的解释说明也适用于该实施例的图像检测装置,其实现原理类似,此处不再赘述。
综上所述,本公开实施例提供的图像检测装置,通过对目标文档图像进行预处理,并对目标文档图像二值化处理以将目标文档中的图像中的文字转换为第一像素值并且将目标文档图像中的背景转换为第二像素值,进而分别对第一像素值和的第二像素值的像素进行膨胀处理,以分别生成第一区域和第二区域,根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。由此,通过文档图像中文字的区域准确确定了文档边缘线,避免了文档中的文字对确定文档边缘线的干扰,提高了文档边缘线确定的准确度。
下面详细描述本公开图像检测方法的实施例,图6是根据一示例性实施例示出的一种图像检测方法的流程图。如图6所示,该图像检测方法包括:
在步骤S610中,确定目标文档的文档边缘线。
需要说明的是,确定目标文档的文档边缘线的方法是本公开第一方面实施例参照图1至图2详细描述的图像检测方法,在此不再赘述。
在步骤S620中,将文档边缘线所形成的区域作为待检测区域,并对待检测区域中的文字进行识别。
可以理解,文档中的文字一定存在于文档边缘线所围成的区域内,因此将文档边缘线所形成的区域作为待检测的区域,其中上述区域可为矩形区域,进而对待检测区域中的文字进行识别,避免了直接对目标文档图像中的文字进行识别所造成的资源浪费。
综上所述,本公开实施例提供的图像检测方法,将确定的文档边缘线所形成的区域作为检测区域,并直接对检测区域中的文字进行识别,提高了目标文档中文字被识别的速度,避免了资源的浪费。
下面详细描述本公开图像检测系统实施例,可以用于为执行本公开图像检测方法实施例。对于本公开图像检测系统实施例中未被披露的细节,请参照本公开图像检测方法实施例。
图7是根据一示例性实施例示出的一种图像检测系统的框图。如图7所示,该文档检测系统包括图像检测装置300和识别装置400。
需要说明的是,图像检测装置300为本公开参照图3至图5对图像检测装置的具体描述,在此不再赘述。
识别装置400被配置为将文档边缘线所形成的区域作为待检测区域,并对待检测区域中的文字进行识别。
可以理解,文档中的文字一定存在于文档边缘线所围成的区域内,因此识别装置400将文档边缘线所形成的区域作为待检测的区域,其中上述区域可为矩形区域,进而对待检测区域中的文字进行识别,避免了直接对目标文档图像中的文字进行识别所造成的资源浪费。
综上所述,本公开实施例提供的图像检测系统,将确定的文档边缘线所形成的区域作为检测区域,并直接对检测区域中的文字进行识别,提高了目标文档中文字被识别的速度,避免了资源的浪费。
下面详细描述本公开另一种图像检测系统实施例,可以用于为执行本公开图像检测方法实施例。对于本公开图像检测系统实施例中未被披露的细节,请参照本公开图像检测方法实施例。
图8是根据一示例性实施例示出的另一种图像检测系统的框图。如图8所示,该图像检测系统包括图像检测装置500和识别装置600。
需要说明的是,图像检测装置500参照本公开第三方面实施例描述的另一种图像检测装置的具体描述,在此不再赘述。
识别装置600被配置为将文档边缘线所形成的区域作为待检测区域,并对待检测区域中的文字进行识别。
可以理解,文档中的文字一定存在于文档边缘线所围成的区域内,因此识别装置600将文档边缘线所形成的区域作为待检测的区域,其中上述区域可为矩形区域,进而对待检测区域中的文字进行识别,避免了直接对目标文档图像中的文字进行识别所造成的资源浪费。
综上所述,本公开实施例提供的图像检测系统,将确定的文档边缘线所形成的区域作为检测区域,并直接对检测区域中的文字进行识别,提高了目标文档中文字被识别的速度,避免了资源的浪费。
图9是根据一示例性实施例示出的一种终端1000的框图。例如,该终端1000可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图9,终端1000可以包括以下一个或多个组件:处理组件1002,存储器1004,电源组件1006,多媒体组件1008,音频组件1010,输入/输出(I/O)的接口1012,传感器组件1014,以及通信组件1016。
处理组件1002通常控制终端1000的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1002可以包括一个或多个模块,便于处理组件1002和其他组件之间的交互。例如,处理组件1002可以包括多媒体模块,以方便多媒体组件1008和处理组件1002之间的交互。
存储器1004被配置为存储各种类型的数据以支持在终端1000的操作。这些数据的示例包括被配置为在终端1000上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1006为终端1000的各种组件提供电力。电源组件1006可以包括电源管理系统,一个或多个电源,及其他与为终端1000生成、管理和分配电力相关联的组件。
多媒体组件1008包括在所述终端1000和用户之间的提供一个输出接口的触控显示屏。在一些实施例中,触控显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1008包括一个前置摄像头和/或后置摄像头。当终端1000处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1010被配置为输出和/或输入音频信号。例如,音频组件1010包括一个麦克风(MIC),当终端1000处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中,音频组件1010还包括一个扬声器,被配置为输出音频信号。
I/O接口1012为处理组件1002和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1014包括一个或多个传感器,被配置为为终端1000提供各个方面的状态评估。例如,传感器组件1014可以检测到终端1000的打开/关闭状态,组件的相对定位,例如所述组件为终端1000的显示器和小键盘,传感器组件1014还可以检测终端1000或终端1000一个组件的位置改变,用户与终端1000接触的存在或不存在,终端1000方位或加速/减速和终端1000的温度变化。传感器组件1014可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器,如CMOS或CCD图像传感器,被配置为在成像应用中使用。在一些实施例中,该传感器组件1014还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件1016被配置为便于终端1000和其他设备之间有线或无线方式的通信。终端1000可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1016还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,被配置为执行上述图像检测方法(图1至图2所示的方法)。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1004,上述指令可由终端1000的处理器1020执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行一种图像检测方法、装置以及系统,方法包括:
获取目标文档图像,对目标文档图像进行预处理;
对经预处理的目标文档图像进行二值化处理以将目标文档图像中的文字转换为第一像素值并将目标文档图像中的背景转换为第二像素值;
将第一像素值的像素进行膨胀处理以形成第一区域,并对第二像素值的像素进行连通域处理以形成第二区域;以及
根据第一区域中边缘位置的像素的像素坐标确定目标文档图像的文档边缘线。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种图像检测方法,其特征在于,包括:
获取目标文档图像,对所述目标文档图像进行预处理;
对经预处理的所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
对所述第一像素值的像素进行膨胀处理以形成第一区域,并对所述第二像素值的像素进行连通域处理以形成第二区域;以及
根据所述第一区域中边缘位置的像素的像素坐标,确定所述目标文档图像的文档边缘线;
所述根据所述第一区域中边缘位置的像素的像素坐标,确定所述目标文档图像的文档边缘线包括:
获取所述第一区域中像素位置的纵坐标和横坐标;
提取所述第一区域中像素位置的纵坐标和横坐标的最大值和最小值;以及
分别在所述纵坐标和横坐标的最大值和最小值之外进行直线检测以确定所述文档边缘线。
2.如权利要求1所述的图像检测方法,其特征在于,所述获取目标文档图像,对所述目标文档图像进行预处理包括:
对所述目标文档图像进行降采样;
对降采样后的所述目标文档图像进行直方图均衡化处理。
3.如权利要求1所述的图像检测方法,其特征在于,对所述第一像素值的像素进行膨胀处理以形成第一区域包括:
对所述第一像素值的像素膨胀N次以形成所述第一区域,其中,每次像素膨胀的膨胀倍数为预设值,N为1、2或3。
4.如权利要求1所述的图像检测方法,其特征在于,所述对所述第二像素值的像素进行连通域处理以形成第二区域包括:
获取二值化处理后的所述目标文档图像的图像边缘,并获取与所述图像边缘相连的连通域;
将所述与所述图像边缘相连的连通域中的像素均设置为第二像素值以形成所述第二区域。
5.如权利要求4所述的图像检测方法,其特征在于,所述获取与所述图像边缘相连的连通域包括:
根据八邻域标记算法获取所述图像边缘相连的连通域。
6.一种图像检测装置,其特征在于,包括:
预处理模块,用于获取目标文档图像,对所述目标文档图像进行预处理;
转换模块,用于对经预处理的所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
第一形成模块,用于将所述第一像素值的像素进行膨胀处理以形成第一区域;
第二形成模块,用于对所述第二像素值的像素进行连通域处理以形成第二区域;以及
确定模块,用于根据所述第一区域中边缘位置的像素的像素坐标确定所述目标文档图像的文档边缘线;
所述确定模块包括:
第三获取子模块,用于获取所述第一区域中像素位置的纵坐标和横坐标;
提取子模块,用于提取所述第一区域中像素位置的纵坐标和横坐标的最大值和最小值;以及
确定子模块,分别在所述纵坐标和横坐标的最大值和最小值之外进行直线检测以确定所述文档边缘线。
7.如权利要求6所述的图像检测装置,其特征在于,所述预处理模块用于:
对所述目标文档图像进行缩放以将所述目标文档图像的分辨率降低至目标分辨率,并对所述目标文档图像进行直方图均衡化处理。
8.如权利要求6所述的图像检测装置,其特征在于,所述第一形成模块将用于:
将所述第一像素值的像素膨胀N次以形成所述第一区域,其中,每次像素膨胀的膨胀倍数为预设值,N为1、2或3。
9.如权利要求6所述的图像检测装置,其特征在于,所述第二形成模块包括:
第一获取子模块,用于获取所述目标文档图像的图像边缘;
第二获取子模块,用于获取与所述图像边缘相连的连通域;以及
设置子模块,用于将所述与所述图像边缘相连的连通域中的像素均设置为第二像素值以形成所述第二区域。
10.如权利要求9所述的图像检测装置,其特征在于,所述第二获取子模块根据八邻域标记算法获取与所述图像边缘相连的连通域。
11.一种图像检测装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取目标文档图像,对所述目标文档图像进行预处理;
对经预处理的所述目标文档图像进行二值化处理以将所述目标文档图像中的文字转换为第一像素值并将所述目标文档图像中的背景转换为第二像素值;
对所述第一像素值的像素进行膨胀处理以形成第一区域,并对所述第二像素值的像素进行连通域处理以形成第二区域;以及
根据所述第一区域中边缘位置的像素的像素坐标确定所述目标文档图像的文档边缘线;
所述根据所述第一区域中边缘位置的像素的像素坐标,确定所述目标文档图像的文档边缘线包括:
获取所述第一区域中像素位置的纵坐标和横坐标;
提取所述第一区域中像素位置的纵坐标和横坐标的最大值和最小值;以及
分别在所述纵坐标和横坐标的最大值和最小值之外进行直线检测以确定所述文档边缘线。
12.一种图像检测方法,其特征在于,包括以下步骤:
通过如权利要求1-5任一项所述的图像检测方法确定所述目标文档的文档边缘线;
将所述文档边缘线所形成的区域作为待检测区域,并对所述待检测区域中的文字进行识别。
13.一种图像检测系统,其特征在于,包括:
如权利要求6-10任一项所述的图像检测装置;
识别装置,用于将文档边缘线所形成的区域作为待检测区域,并对所述待检测区域中的文字进行识别。
CN201610446884.2A 2016-06-20 2016-06-20 图像检测方法、装置以及系统 Active CN106127751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610446884.2A CN106127751B (zh) 2016-06-20 2016-06-20 图像检测方法、装置以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610446884.2A CN106127751B (zh) 2016-06-20 2016-06-20 图像检测方法、装置以及系统

Publications (2)

Publication Number Publication Date
CN106127751A CN106127751A (zh) 2016-11-16
CN106127751B true CN106127751B (zh) 2020-04-14

Family

ID=57471168

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610446884.2A Active CN106127751B (zh) 2016-06-20 2016-06-20 图像检测方法、装置以及系统

Country Status (1)

Country Link
CN (1) CN106127751B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778440B (zh) * 2016-12-21 2020-04-21 腾讯科技(深圳)有限公司 二维码识别方法及装置
CN107509115A (zh) * 2017-08-29 2017-12-22 武汉斗鱼网络科技有限公司 一种获取游戏直播中精彩时刻画面的方法及装置
CN108304840B (zh) * 2017-08-31 2022-11-11 腾讯科技(深圳)有限公司 一种图像数据处理方法以及装置
CN109992754B (zh) * 2017-12-29 2023-06-16 阿里巴巴(中国)有限公司 文档处理方法及装置
CN108510476B (zh) * 2018-03-14 2022-03-15 五邑大学 一种基于机器视觉的手机屏线路检测方法
CN109142393A (zh) * 2018-09-03 2019-01-04 佛亚智能装备(苏州)有限公司 一种缺陷分类方法、装置及系统
WO2020061767A1 (zh) * 2018-09-25 2020-04-02 西门子股份公司 一种图像处理方法、装置、计算机程序产品和计算机可读介质
CN111080665B (zh) * 2019-12-31 2023-06-09 歌尔光学科技有限公司 图像边框识别方法、装置、设备和计算机存储介质
CN111460774B (zh) * 2020-04-02 2023-06-30 北京易优联科技有限公司 曲线中数据的还原方法、装置、存储介质、电子设备
CN111476243A (zh) * 2020-04-13 2020-07-31 中国工商银行股份有限公司 影像文字识别方法及装置
CN112132851A (zh) * 2020-11-25 2020-12-25 恒银金融科技股份有限公司 一种针对金融票据图像旋转角度的计算方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009137634A1 (en) * 2008-05-06 2009-11-12 Compulink Management Center, Inc. Camera-based document imaging
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN103034856A (zh) * 2012-12-18 2013-04-10 深圳深讯和科技有限公司 定位图像中文字区域的方法及装置
CN104463126A (zh) * 2014-12-15 2015-03-25 湖南工业大学 一种扫描文档图像的倾斜角自动检测方法
CN105260428A (zh) * 2015-09-29 2016-01-20 北京奇艺世纪科技有限公司 图片处理方法和装置
CN105303189A (zh) * 2014-07-29 2016-02-03 阿里巴巴集团控股有限公司 一种用于检测预定区域中特定标识图像的方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103295027B (zh) * 2013-05-17 2016-06-08 北京康拓红外技术股份有限公司 一种基于支持向量机的铁路货车挡键丢失故障识别方法
CN104063711B (zh) * 2014-06-23 2018-04-06 西北工业大学 一种基于K‑means方法的走廊消失点快速检测算法
CN104751136B (zh) * 2015-03-11 2018-04-27 西安理工大学 一种基于人脸识别的多相机视频事件回溯追踪方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009137634A1 (en) * 2008-05-06 2009-11-12 Compulink Management Center, Inc. Camera-based document imaging
CN102254171A (zh) * 2011-07-13 2011-11-23 北京大学 一种基于文本边界的中文文档图像畸变校正方法
CN103034856A (zh) * 2012-12-18 2013-04-10 深圳深讯和科技有限公司 定位图像中文字区域的方法及装置
CN105303189A (zh) * 2014-07-29 2016-02-03 阿里巴巴集团控股有限公司 一种用于检测预定区域中特定标识图像的方法及装置
CN104463126A (zh) * 2014-12-15 2015-03-25 湖南工业大学 一种扫描文档图像的倾斜角自动检测方法
CN105260428A (zh) * 2015-09-29 2016-01-20 北京奇艺世纪科技有限公司 图片处理方法和装置

Also Published As

Publication number Publication date
CN106127751A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106127751B (zh) 图像检测方法、装置以及系统
US10157326B2 (en) Method and device for character area identification
EP3163504B1 (en) Method, device and computer-readable medium for region extraction
CN109344832B (zh) 图像处理方法及装置、电子设备和存储介质
CN105095881B (zh) 人脸识别方法、装置及终端
US10452890B2 (en) Fingerprint template input method, device and medium
US20170124386A1 (en) Method, device and computer-readable medium for region recognition
KR101782633B1 (ko) 영역 인식 방법 및 장치
US9924226B2 (en) Method and device for processing identification of video file
CN106228556B (zh) 图像质量分析方法和装置
CN110569835B (zh) 一种图像识别方法、装置和电子设备
CN109784164B (zh) 前景识别方法、装置、电子设备及存储介质
CN109509195B (zh) 前景处理方法、装置、电子设备及存储介质
CN109784327B (zh) 边界框确定方法、装置、电子设备及存储介质
CN112200040A (zh) 遮挡图像检测方法、装置及介质
CN113920465A (zh) 片尾识别方法、装置、电子设备及存储介质
CN107507128B (zh) 图像处理方法及设备
CN107219989B (zh) 图标处理方法、装置及终端
CN111754414A (zh) 一种图像处理方法、装置和用于图像处理的装置
CN106469446B (zh) 深度图像的分割方法和分割装置
US11417028B2 (en) Image processing method and apparatus, and storage medium
CN115641269A (zh) 一种图像修补方法、装置及可读存储介质
CN114693707B (zh) 物体轮廓模板获取方法、装置、设备及存储介质
CN110876015B (zh) 确定图像分辨率的方法及装置、电子设备及存储介质
CN113744172A (zh) 文档图像的处理方法及装置、训练样本的生成方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant