CN110503084B - 一种图像中的文字区域识别方法和装置 - Google Patents

一种图像中的文字区域识别方法和装置 Download PDF

Info

Publication number
CN110503084B
CN110503084B CN201810483316.9A CN201810483316A CN110503084B CN 110503084 B CN110503084 B CN 110503084B CN 201810483316 A CN201810483316 A CN 201810483316A CN 110503084 B CN110503084 B CN 110503084B
Authority
CN
China
Prior art keywords
image
identified
text
area
carrying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810483316.9A
Other languages
English (en)
Other versions
CN110503084A (zh
Inventor
白帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tencent Technology Co Ltd
Original Assignee
Guangzhou Tencent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Tencent Technology Co Ltd filed Critical Guangzhou Tencent Technology Co Ltd
Priority to CN201810483316.9A priority Critical patent/CN110503084B/zh
Publication of CN110503084A publication Critical patent/CN110503084A/zh
Application granted granted Critical
Publication of CN110503084B publication Critical patent/CN110503084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了一种图像中的文字区域识别方法,所述方法包括:对待识别图像进行边缘检测得到检测结果;根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。可见,本申请所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。

Description

一种图像中的文字区域识别方法和装置
技术领域
本申请涉及图像处理领域,特别是涉及一种图像中的文字区域识别方法和装置。
背景技术
随着网络技术的发展,用户可以通过网络获得大量文字信息。文字信息的传播方式各式各样,需要采取对应的技术手段筛查、识别文字信息的内容,以避免不当的文字信息在大量用户中传播,造成不好的用户体验。
以图像形式传播文字信息是目前一种常见的传播方式,这种方式中,文字信息被截取成图像,通过传播该图像的方式实现传播该图像中所携带文字信息的目的。针对这种方式需要使用图像识别技术对网络中传播的图像进行识别,以识别图像中是否携带文字信息。传统的图像识别方式包括光学字符识别(Optical Character Recognition,OCR),这种方式可以识别出图像中文字信息的具体内容,并可以将图像中的文字转换成文本格式供后续处理。
通过OCR可以准确的识别出图像中文字信息的具体文字内容,但是实现识别所需的计算量也很可观。目前网络中每天都有海量图像在传播,这种大计算量的图像识别方式难以满足当前的识别需求,识别成本较高。
发明内容
为了解决上述技术问题,本申请提供了一种图像中的文字区域识别方法和装置,以能够实现快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
本申请实施例公开了如下技术方案:
本申请第一方面提供了一种图像中的文字区域识别方法,所述方法包括:
对待识别图像进行边缘检测得到检测结果;
根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
可选的,所述文字排版结构包括至少一个条状区域,以及当包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件。
可选的,在所述对待识别图像进行边缘检测得到检测结果之前,所述方法还包括:
对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述对待识别图像进行边缘检测得到检测结果,包括:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
可选的,在所述对待识别图像进行边缘检测得到检测结果之后,所述方法还包括:
根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,包括:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域。
可选的,所述对待识别图像进行边缘检测得到检测结果,包括:
对所述待识别图像进行索贝尔边缘检测得到检测结果。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述待识别图像为携带有不当文字信息的可疑图像;
对所述待识别图像中的文字信息进行文字筛查。
本申请第二方面提供了一种图像中的文字区域识别装置,所述装置包括:边缘检测模块、膨胀腐蚀模块和区域确定模块;
所述边缘检测模块,用于对待识别图像进行边缘检测得到检测结果;
所述膨胀腐蚀模块,用于根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
所述区域确定模块,用于若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
可选的,所述文字排版结构包括至少一个条状区域,以及当包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件。
可选的,所述装置还包括:灰度化模块;
所述灰度化模块,用于对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述边缘检测模块,还用于:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
可选的,所述装置还包括:二值化模块;
所述二值化模块,用于根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述膨胀腐蚀模块,还用于:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
可选的,所述区域确定模块,还用于:
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域。
可选的,所述边缘检测模块,还用于:
对所述待识别图像进行索贝尔边缘检测得到检测结果。
可选的,所述装置还包括:
图像确定模块,用于确定所述待识别图像为携带有不当文字信息的可疑图像;
文字筛查模块,用于对所述待识别图像中的文字信息进行文字筛查。
本申请第三方面提供了一种图像中的文字区域识别设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行第一方面中任一项所述的图像中的文字区域识别方法。
本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面中任一项所述的图像中的文字区域识别方法。
由上述技术方案可以看出,对待识别图像进行边缘检测得到检测结果,通过该检测结果可以对待识别图像进行膨胀腐蚀处理,以便将检测出的边缘在待识别图像中通过一定程度的外扩和内缩形成成片的膨胀腐蚀区域,根据该膨胀腐蚀区域中是否具有符合文字排版结构的区域,可以快速确定出该待识别图像是否包括携带有文字信息的文字区域。由于一般具有文字区域的图像大部分情况下文字区域中都会携带有需要筛查的不当文字信息,故实际筛查过程中并不需要了解图像中文字信息的具体内容,只要确定出图像中是否包括文字区域即可,而本申请所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像中的文字区域识别系统的架构示意图;
图2为本申请实施例提供的一种图像中的文字区域识别方法的方法流程图;
图3为本申请实施例提供的一种图像边缘检测示意图;
图4为本申请实施例提供的一种图像膨胀腐蚀处理示意图;
图5为本申请实施例提供的一种图像膨胀腐蚀处理示意图;
图6为本申请实施例提供的一种确定文字区域示意图;
图7A为本申请实施例提供的一种图像中的文字区域识别方法的方法流程图;
图7B为本申请实施例提供的一种图像中的文字区域识别方法的方法流程图;
图8a为本申请实施例提供的一种图像中的文字区域识别装置的结构示意图;
图8b为本申请实施例提供的一种图像中的文字区域识别装置的结构示意图;
图8c为本申请实施例提供的一种图像中的文字区域识别装置的结构示意图;
图8d为本申请实施例提供的一种图像中的文字区域识别装置的结构示意图;
图9为本申请实施例提供的一种图像中的文字区域识别设备的结构示意图;
图10为本申请实施例提供的一种图像中的文字区域识别设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
传统的图像识别方式包括OCR,这种方式可以识别出图像中文字信息的具体内容,并可以将图像中的文字转换成文本格式供后续处理。虽然通过OCR可以准确的识别出图像中文字信息的具体文字内容,但是实现识别图像中的具体文字内容所需的计算量也很可观。目前网络中每天都有海量图像在传播,这种大计算量的图像识别方式难以满足当前的识别需求,识别成本较高。
为此,本申请实施例提供了一种图像中的文字区域识别方法,以希望在识别图像中是否携带文字信息的过程中,只需要确定出图像中是否包括文字区域即可,而不需要和传统方式一样需要了解图像中文字信息的具体内容。其中,为便于描述,可以将图像中携带有文字信息的区域称之为文字区域。这样,便可以实现本申请所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
作为一种示例,图1示出了本实施例提供的一种图像中的文字区域识别系统的架构示意图,本申请实施例提供的图像中的文字区域识别方法可以应用于如图1所示的图像中的文字区域识别系统中,该图像中的文字区域识别系统可以包括终端101和服务器102。其中,该终端101可以为具有通信功能的设备,例如可以是具有通信功能的手机、笔记本电脑、台式电脑、平板电脑、电子书阅读器、动态影像专家压缩标准音频层面4(MovingPicture Experts Group Audio Layer IV,MP4)播放器和膝上型便携计算机等。
可以理解的是,图1所示的图像中的文字区域识别系统可以应用于图像传播场景中。例如,该图像传播场景可以为用户通过终端101中的即时聊天应用发送图像,举例来说,用户可以通过终端101中的微信或QQ向其他好友发送图像;又例如,该图像传播场景可以为用户通过终端101中的社交应用发布图像,举例来说,用户可以通过终端101中的微博或Facebook发布图像。
在该图像传播场景中,当用户通过终端101向好友发送图像或者在社交平台上发布图像时,服务器102可以获取到该图像,比如服务器102可以从网络中获取到该图像。并且,服务器102可以对该图像进行筛查,以便能够确定出该图像是否携带有不当文字信息。
由于一般具有文字区域的图像大部分情况下文字区域中都会携带有需要筛查的不当文字信息,故在本申请实施例中,在对待识别图像进行筛查的过程中,可以不需要了解图像中文字信息的具体内容,而只要确定出图像中是否包括文字区域即可。需要说明的是,在本申请实施例中,服务器102获取到图像后,服务器102需要识别该图像是否包括携带有文字信息的文字区域,而在服务器102没有确定这些图像是否包括文字区域之前,可以将这些图像称之为待识别图像。
具体地,服务器102获取到待识别图像后,服务器102可以先对该待识别图像进行边缘检测,得到该待识别图像对应的检测结果。然后,服务器102可以根据该检测结果,对该待识别图像进行膨胀腐蚀处理,以便可以将检测出的边缘在该待识别图像中通过一定程度的外扩和内缩形成成片的膨胀腐蚀区域。接着,服务器102可以判断该膨胀腐蚀区域中是否具有符合文字排版结构的区域,若是,服务器102可以确定该待识别图像中包括携带有文字信息的文字区域。这样,本申请实施例所提供的技术方案可以不需要识别图像中文字信息的具体内容,而只需要确定出图像中是否包括文字区域即可,故本申请实施例所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定待识别图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
接下来,结合图1进行举例说明,如图1所示,假设终端101向服务器102发送的待识别图像为包括了药丸图案和“包治百病”这四个汉字的图像。服务器102接收到该待识别图像后,该服务器102可以先对该待识别图像进行边缘检测得到检测结果。然后,该服务器102可以根据该检测结果对该待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域。接着,该服务器102可以检测该膨胀腐蚀区域中是否具有符合文字排版结构的区域;若是,该服务器102可以确定该待识别图像中包括了携带有文字信息的文字区域。
可以理解的是,在上述应用场景中,虽然本申请实施方式的动作描述为完全由服务器102执行,但是,这些动作也可以完全由终端101执行,或者,部分由终端101执行、部分由服务器102执行。本申请在执行主体方面不受限制,只要执行了本申请实施方式所公开的动作即可。
需要注意的是,上述应用场景仅是为了便于理解本申请而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
下面结合附图,详细说明本申请的各种非限制性实施方式。
接下来,将以本申请所提供的图像中的文字区域识别方法应用于服务器为例,对本申请所提供的图像中的文字区域识别方法进行介绍。参见图2,为本申请实施例提供的一种图像中的文字区域识别方法的方法流程图。如图2所示,可以包括如下步骤:
S201:对待识别图像进行边缘检测得到检测结果。
在本实施例中,边缘检测是为了能够检测出待识别图像中所展示对象的边缘,例如图像中所展示文字的边缘。具体地,边缘检测的方式可以为:先通过待识别图像中像素亮度的变化,确定出属于边缘的像素,例如,假设像素A和像素B为两个相邻的像素,若像素A与像素B之间的亮度变化较大,可以将像素A视为属于边缘的像素;接着,可以根据属于边缘的像素确定出该待识别图像中的边缘。可以理解的是,待识别图像中的边缘所包围的区域通常可以反映该待识别图像中的重要信息,比如待识别图像中的文字信息。故对待识别图像进行边缘检测所得到的检测结果可以大幅度地减少该待识别图像中的数据量,并且可以剔除该待识别图像中不重要的信息,而保留该待识别图像中重要的信息。
因此,在本实施例中,服务器获取到待识别图像后,服务器可以对该待识别图像进行边缘检测,得到该待识别图像的检测结果,其中,检测结果可以包括待识别图像中所存在的边缘。举例来说,假设图3(a)所示的图像为待识别图像,该待识别图像经过边缘检测后,可以得到如图3(b)所示的检测结果,其中,该检测结果包括了该待识别图像中多个区域的边缘。
需要说明的是,本实施例提供了多种对待识别图像进行边缘检测的方式,例如,可以采用canny边缘检测的方式或者索贝尔(Sobel)边缘检测的方式。接下来,将以Sobel边缘检测为例,具体介绍如何对待识别图像进行边缘检测得到检测结果。
在本实施例的一种实现方式中,可以对待识别图像进行Sobel边缘检测得到检测结果,例如,可以通过Sobel算子对待识别图像进行边缘检测得到检测结果。
具体地,可以先通过Sobel算子计算待识别图像亮度函数的一阶梯度的近似值。其中,Sobel算子是一个离散的一阶差分算子,Sobel算子可以包括两组3×3的矩阵,这两组矩阵中的一组矩阵为横向模板,另一组矩阵为纵向模版。Sobel算子中的横向模板可以与待识别图像中的像素作平面卷积,得到该待识别图像中的像素在横向上的亮度差分近似值;Sobel算子中的纵向模板可以与待识别图像中的像素作平面卷积,得到该待识别图像中的像素在纵向上的亮度差分近似值。例如,可以通过公式(1)和公式(2)分别得到待识别图像中的像素在横、纵向上的亮度差分近似值,
其中,代表Sobel算子中的横向模板;/>代表Sobel算子中的纵向模板;A代表待识别图像中的任意一个像素;Gx代表A在横向上的亮度差分近似值;Gy代表A在纵向上的亮度差分近似值。
然后,可以根据该待识别图像中的像素分别在横向上和纵向上的亮度差分近似值,计算像素对应的梯度的大小和方向。例如,可以通过公式(3)和公式(4)分别得到像素对应的梯度的大小和方向,
其中,Gx代表待识别图像中的任意一个像素在横向上的亮度差分近似值;Gy代表该像素在纵向上的亮度差分近似值;G代表该像素对应的梯度的大小;θ代表该像素对应的梯度的方向。
接着,可以根据该待识别图像中的像素对应的梯度的大小和方向,确定像素对应的梯度矢量。紧接着,可以根据该待识别图像中各个像素分别对应的梯度矢量,确定出该待识别图像中所存在的边缘,从而可以得到该待识别图像的边缘检测的检测结果。
S202:根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域。
在本实施例中,在对待识别图像中的文字信息进行筛查的过程中,只是需要确定出待识别图像中是否包括文字信息即可,而并不需要了解待识别图像中文字信息的具体内容,故只需要确定待识别图像中是否包括携带有文字信息的文字区域。由于对待识别图像进行边缘检测得到的检测结果中,区域的边缘可能会存在毛刺,而这些毛刺会影响到对于区域是否为文字区域的判断。
故此,在服务器对待识别图像进行边缘检测得到检测结果后,服务器可以将该检测结果中的边缘在该待识别图像中进行膨胀腐蚀处理,例如,如图4所示,可以先将该检测结果中的边缘在待识别图像(即图4(a))中进行膨胀处理,然后进行腐蚀处理,最后再进行膨胀处理,得到如图4(d)所示的膨胀腐蚀区域。需要说明的是,膨胀可以理解为在待识别图像中将与检测结果中的边缘所接触的所有背景像素合并到该边缘中,使该边缘向外部一定程度的扩张的过程,腐蚀可以理解为在待识别图像中消除检测结果中的边缘的像素,使该边缘向内部一定程度的收缩的过程。
服务器对待识别图像进行膨胀腐蚀处理后,服务器可以得到检测结果中的边缘在待识别图像中通过一定程度的外扩和内缩形成成片的膨胀腐蚀区域。由于在待识别图像中针对检测结果中的边缘进行膨胀腐蚀处理,可以使该待识别图像中的边缘形成成片的膨胀腐蚀区域,从而可以消除边缘中的毛刺。因此,根据检测结果对待识别图像进行膨胀腐蚀处理得到的膨胀腐蚀区域不存在毛刺,并且膨胀腐蚀区域的轮廓也更为明显,这样,可以保证根据膨胀腐蚀区域确定出待识别图像中文字区域的准确性。
S203:若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
在本实施例中,文字排版结构可以用于对文字进行有规则的排列,并且文字排版结构符合用户的阅读习惯,故依据文字排版结构进行排版所得到的文字区域能够方便用户进行阅读,可以提高该文字区域的可读性。其中,文字排版结构可以包括至少一个条状区域,可以理解的是,根据文字排版结构排版得到的文字区域可以是条状区域,比如文字区域可以呈现为直线、斜线、曲线等条状形状。
需要说明的是,当需要排版的文字较多时,文字排版结构可以包括多个条状区域,即依据文字排版结构排版得到的文字区域可以有多个。并且,该多个条状区域间的位置关系可以满足文字排版条件,例如该多个条状区域之间可以是有规律、等间距的分布。举例来说,若一个待识别图像中包括多个条状区域,且该多个条状区域间的位置关系是平行的、等间距的分布,那么,可以认为该多个条状区域为符合文字排版结构的区域,从而可以确定该待识别图像中包括携带有文字信息的文字区域。
因此,在服务器根据检测结果对待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域后,服务器可以根据膨胀腐蚀区域的轮廓,判断膨胀腐蚀区域中是否具有符合文字排版结构的区域。若膨胀腐蚀区域中具有符合文字排版结果的区域,比如轮廓呈现条形状的区域,那么,服务器可以确定该待识别图像中包括携带有文字信息的文字区域。
接下来,将结合图5进行举例说明。图5所示的图像为经过膨胀腐蚀处理后的待识别图像,该待识别图像中包括膨胀腐蚀区域A、膨胀腐蚀区域B、膨胀腐蚀区域C和膨胀腐蚀区域D。具体地,膨胀腐蚀区域A的轮廓为不规则形状,故可以认为膨胀腐蚀区域A不是符合文字排版结构的区域;而膨胀腐蚀区域B、膨胀腐蚀区域C和膨胀腐蚀区域D的轮廓均为规则的条形状,故可以认为膨胀腐蚀区域B、膨胀腐蚀区域C和膨胀腐蚀区域D均是符合文字排版结构的区域。也就是说,该待识别图像中包括了符合文字排版结构的膨胀腐蚀区域,因此,可以确定该待识别图像中包括携带有文字信息的文字区域。
由上述技术方案可以看出,对待识别图像进行边缘检测得到检测结果,通过该检测结果可以对待识别图像进行膨胀腐蚀处理,以便将检测出的边缘在待识别图像中通过一定程度的外扩和内缩形成成片的膨胀腐蚀区域,根据该膨胀腐蚀区域中是否具有符合文字排版结构的区域,可以快速确定出该待识别图像是否包括携带有文字信息的文字区域。由于一般具有文字区域的图像大部分情况下文字区域中都会携带有需要筛查的不当文字信息,故实际筛查过程中并不需要了解图像中文字信息的具体内容,只要确定出图像中是否包括文字区域即可,而本申请所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
在本实施的技术方案中,由于只需要确定待识别图像中包括了携带有文字信息的文字区域即可,并且判断待识别图像中的一个区域是否为文字区域的依据与该区域的颜色并不相关,也就是说,本实施例并不关心待识别图像中所包括的颜色。因此,为能够提高确定待识别图像中的文字区域的精度,在本实施例的一种实现方式中,上述图2对应的实施例可以在S201之前,还可以包括以下步骤:对待识别图像进行图像灰度化处理得到灰度化结果。
具体地,在服务器获取到待识别图像后,服务器可以先对该待识别图像进行图像灰度化处理,例如可以采用分量法、最大值法、平均值法或者加权平均法对待识别图像进行灰度化处理,得到该待识别图像的灰度化结果。可以理解的是,待识别图像的灰度化结果可以包括该待识别图像中各个像素的灰度值。
需要说明的是,待识别图像的灰度化结果与该待识别图像相比较,该灰度化结果仅保留了该待识别图像的灰度值,因此,该灰度化结果实现了该待识别图像的降维。
相应地,S201可以包括以下步骤:根据灰度化结果对待识别图像进行边缘化检测得到检测结果。具体地,服务器对待识别图像进行图像灰度化处理得到灰度化结果后,服务器可以对该灰度化结果下的待识别图像进行边缘化检测,得到该灰度化结果下的待识别图像的检测结果。由于灰度化结果下的待识别图像中各个像素仅存在灰度值,故对灰度化结果下的待识别图像进行边缘化检测的过程中,只需要对各个像素的灰度值进行处理即可,这样,与直接对待识别图像进行边缘化检测相比较,可以减少对待识别图像进行边缘化检测的计算量。
可见,本实施例提供的技术方案中,在对待识别图像进行边缘检测得到检测结果之前,可以对待识别图像进行图像灰度化处理得到灰度化结果,这样,可以使灰度化结果下的待识别图像实现了降维,并且仅保留了待识别图像中各个像素的灰度值,从而大大降低了识别待识别图像中文字区域的复杂程度,减少了冗余信息所造成的识别误差,提高了识别待识别图像中文字区域的精度。
在本实施例的技术方案中,由于需要根据文字排版结构确定出待识别图像中是否包括携带有文字信息的文字区域,也就是说,本实施例可以通过待识别图像中各个区域的轮廓,确定出携带有文字信息的文字区域。因此,为能够提高确定待识别图像中的文字区域的准确性和效率,在本实施例的一种实现方式中,上述图2对应的实施例在S201之后,还可以包括以下步骤:根据检测结果对待识别图像进行二值化处理得到二值化结果。
具体地,在服务器对待识别图像进行边缘检测得到检测结果后,服务器可以将该检测结果中的边缘在该待识别图像中进行二值化处理。例如,可以在待识别图像中,将检测结果所检测出的边缘中所有灰度值大于或等于阈值的像素视为属于该边缘,并可以将这些灰度值大于或等于该阈值的像素的灰度值设置为255;以及,可以将检测结果所检测出的边缘中所有灰度值小于该阈值的像素视为不属于该边缘,并可以将这些灰度值小于该阈值的像素的灰度值设置为0,以表示背景。
在服务器根据检测结果对待识别图像进行二值化处理后,可以得到该检测结果中的边缘在该待识别图像中的二值化结果。由于在根据检测结果对待识别图像进行二值化处理的过程中,可以将该检测结果中的边缘在该待识别图像中各个像素的灰度值设置为0或255。因此,二值化结果下的待识别图像可以呈现出明显的黑白效果,并且,二值化结果下的待识别图像与该待识别图像相比较,二值化结果下的待识别图像的数据量大为减少,并且能够更加凸显出检测结果中的边缘在待识别图像中的轮廓。
需要说明的是,在本实施例中,S202可以包括以下步骤:根据二值化结果对待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域。具体地,服务器根据待识别图像的检测结果,对该待识别图像进行二值化处理得到二值化结果后,服务器可以对该二值化结果下的待识别图像进行膨胀腐蚀处理,得到膨胀腐蚀区域。
可见,本实施例提供的技术方案中,在对待识别图像进行边缘检测得到检测结果之后,可以根据该检测结果对该待识别图像进行二值化处理得到二值化结果。这样,可以使二值化结果下的待识别图像中的数据量大为减少,能够更加凸显出检测结果中的边缘在待识别图像中的轮廓,从而能够提高根据文字排版结构确定待识别图像中的文字区域的准确性;并且,由于二值化结果下的待识别图像与该待识别图像相比较,二值化结果下的待识别图像的数据量大为减少,故根据二值化结果对待识别对象进行膨胀腐蚀处理,可以减少对待识别图像进行膨胀腐蚀处理以及后续操作的计算量,提高了识别待识别图像中文字区域的效率。
需要说明的是,在确定待识别图像中包括携带有文字信息的文字区域后,为了能够在待识别图像中标识出文字区域的位置,以便于可以为后续针对该文字区域进行处理时提供便利,在本实施例的一种实现方式中,上述图2对应的实施例可以在S203之后,还可以包括以下步骤:确定膨胀腐蚀区域中符合文字排版结构的目标区域的范围,并根据目标区域的范围在待识别图像中确定文字区域。
在本实施例中,为便于描述,可以将膨胀腐蚀区域中符合文字排版结构的区域称之为目标区域。
具体地,在服务器确定待识别图像中包括携带有文字信息的文字区域后,服务器可以先从膨胀腐蚀区域中确定符合文字排版结构的目标区域,例如,可以将膨胀腐蚀区域中呈现规则的矩阵形状的区域作为目标区域。然后,服务器可以确定目标区域的范围,例如,可以根据目标区域在待识别图像中的位置信息以及轮廓,确定该目标区域的范围。接着,服务器可以根据目标区域的范围,确定该目标区域在待识别图像中对应的区域,并且可以将该区域作为该待识别图像中的文字区域,另外,还可以在该待识别图像中,通过与目标区域的轮廓相同大小的矩阵框对该文字区域进行标识。
接下来,将结合图6进行举例说明。假设图6(a)所示的图像为待识别图像,图6(b)所示的图像为该待识别图像经过膨胀腐蚀处理后的图像,并且,图6(b)中包括了膨胀腐蚀区域A和膨胀腐蚀区域B。由于膨胀腐蚀区域A为不规则形状的区域,而膨胀腐蚀区域B为规则的矩阵形状的区域,因此,可以将膨胀腐蚀区域B作为目标区域。然后,可以确定膨胀腐蚀区域B的范围,并可以根据膨胀腐蚀区域B的范围确定出待识别图像中的区域C为文字区域。接着,如图6(c)所示,可以根据膨胀腐蚀区域B的轮廓确定出与其同样大小的矩阵框,并可以通过该矩阵框对该待识别图像中的区域C进行标识。
需要说明的是,在确定待识别图像中包括携带有文字信息的文字区域后,为了可以进一步确定出该待识别图像是否携带有不当文字信息,以便于可以为后续针对携带有不当文字信息的图像进行处理提供便利。在本实施例的一种实现方式中,如图7A所示,上述图2对应的实施例可以在S203之后,还可以包括以下步骤:
S211:确定所述待识别图像为携带有不当文字信息的可疑图像;
S212:对所述待识别图像中的文字信息进行文字筛查。
具体地,在服务器确定待识别图像中包括携带有文字信息的文字区域后,由于一般具有文字区域的图像大部分情况下文字区域中都会携带有需要筛查的不当文字信息,故可以先将该待识别图像确定为携带有不当文字信息的可疑图像。然后,服务器可以确定出该待识别图像中的文字区域。接着,服务器可以对该文字区域中的文字信息进行识别,并可以对所识别出的文字信息进行文字筛查,以便后续可以根据文字筛查结果判断该文字信息是否为不当文字信息,从而可以为后续确定出该待识别图像是否为携带有不当文字信息的图像提供便利。
为便于更好的理解和实施本申请实施例的上述方案,下面将结合图7B来举例相应的应用场景,对本申请实施例所提供的一种图像中的文字区域识别方法进行具体说明。其中,图7B对应的应用场景中可以包括智能手机(即终端)和用于识别图像中是否包括携带有文字区域的服务器,且该智能手机中安装有微信应用。
假设用户正在通过智能手机(即终端)中的微信应用向微信好友发送一张携带有文字信息的广告图像(即待识别图像),那么,该服务器可以截获该广告图像,并且,该服务器可以对该广告图像中的文字区域进行识别。具体地,该服务器对该广告图像中的文字区域进行识别的过程可以包括以下步骤:
S701:服务器对广告图像进行图像灰度化处理得到灰度化结果。
S702:该服务器根据该灰度化结果对该广告图像进行Sobel边缘检测得到检测结果。
S703:该服务器根据该检测结果对该广告图像进行二值化处理得到二值化结果。
S704:该服务器根据该二值化结果对该广告图像进行膨胀腐蚀处理得到膨胀腐蚀区域。
S705:若该膨胀腐蚀区域中具有符合文字排版结构的区域,该服务器确定该广告图像中包括携带有文字信息的文字区域。
S706:该服务器确定该膨胀腐蚀区域中符合文字排版结构的目标区域的范围。
S707:该服务器根据该目标区域的范围在该广告图像中确定文字区域。
S708:该服务器确定该广告图像为携带有不当文字信息的可疑图像。
S709:该服务器对该广告图像中的文字信息进行文字筛查。
由上述技术方案可以看出,服务器对广告图像进行边缘检测得到检测结果,服务器通过该检测结果可以对广告图像进行膨胀腐蚀处理,以便将检测出的边缘在广告图像中通过一定程度的外扩和内缩形成成片的膨胀腐蚀区域,根据该膨胀腐蚀区域中是否具有符合文字排版结构的区域,可以快速确定出该广告图像是否包括携带有文字信息的文字区域。由于一般具有文字区域的图像大部分情况下文字区域中都会携带有需要筛查的不当文字信息,故实际筛查过程中并不需要了解图像中文字信息的具体内容,只要确定出图像中是否包括文字区域即可,而本申请所提供的技术方案相对于传统方式计算量小,可以快速、准确的确定图像中是否包括文字区域,能够满足海量图像识别的需求,降低了识别成本。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图8a所示,本申请实施例提供的一种图像中的文字区域识别装置800,所述装置800包括:边缘检测模块801、膨胀腐蚀模块802和区域确定模块803;
所述边缘检测模块801,用于对待识别图像进行边缘检测得到检测结果;
所述膨胀腐蚀模块802,用于根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
所述区域确定模块803,用于若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
在一个实施例中,所述文字排版结构包括至少一个条状区域,以及当包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件。
在一个实施例中,请参阅图8b所示,所述装置800还包括:灰度化模块804;
所述灰度化模块804,用于对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述边缘检测模块801,还用于:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
在一个实施例中,请参阅图8c所示,所述装置800还包括:二值化模块805;
所述二值化模块805,用于根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述膨胀腐蚀模块802,还用于:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
在一个实施例中,所述区域确定模块803,还用于:
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域。
在一个实施例中,所述边缘检测模块801,还用于:
对所述待识别图像进行索贝尔边缘检测得到检测结果。
在一个实施例中,请参阅图8d所示,所述装置800还包括:图像确定模块;
图像确定模块806,用于确定所述待识别图像为携带有不当文字信息的可疑图像;
文字筛查模块807,用于对所述待识别图像中的文字信息进行文字筛查。
本申请实施例提供了一种图像中的文字区域识别设备,该图像中的文字区域识别设备可以为如图9所示的服务器。图9是本申请实施例提供的一种服务器结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)922(例如,一个或一个以上处理器)和存储器932,一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器922可以设置为与存储介质930通信,在服务器900上执行存储介质930中的一系列指令操作。
服务器900还可以包括一个或一个以上电源926,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口958,和/或,一个或一个以上操作系统941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
其中,CPU 922用于执行如下步骤:
对待识别图像进行边缘检测得到检测结果;
根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
可选的,所述文字排版结构包括至少一个条状区域,以及当包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件。
可选的,在所述对待识别图像进行边缘检测得到检测结果之前,所述方法还包括:
对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述对待识别图像进行边缘检测得到检测结果,包括:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
可选的,在所述对待识别图像进行边缘检测得到检测结果之后,所述方法还包括:
根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,包括:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域。
可选的,所述对待识别图像进行边缘检测得到检测结果,包括:
对所述待识别图像进行索贝尔边缘检测得到检测结果。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述待识别图像为携带有不当文字信息的可疑图像;
对所述待识别图像中的文字信息进行文字筛查。
本申请实施例提供了一种图像中的文字区域识别设备,如图10所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端(Point of Sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图10示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图10,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图10中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图10中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图10示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据。可选的,处理器1080可包括一个或多个处理单元;优选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),优选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1080还具有以下功能:
对待识别图像进行边缘检测得到检测结果;
根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域。
可选的,所述文字排版结构包括至少一个条状区域,以及当包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件。
可选的,在所述对待识别图像进行边缘检测得到检测结果之前,所述方法还包括:
对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述对待识别图像进行边缘检测得到检测结果,包括:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
可选的,在所述对待识别图像进行边缘检测得到检测结果之后,所述方法还包括:
根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,包括:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域。
可选的,所述对待识别图像进行边缘检测得到检测结果,包括:
对所述待识别图像进行索贝尔边缘检测得到检测结果。
可选的,在所述确定所述待识别图像中包括携带有文字信息的文字区域之后,所述方法还包括:
确定所述待识别图像为携带有不当文字信息的可疑图像;
对所述待识别图像中的文字信息进行文字筛查。
本申请实施例还提供一种计算机可读存储介质,用于存储程序代码,该程序代码用于执行前述各个实施例所述的一种图像中的文字区域识别方法中的任意一种实施方式。
本申请实施例还提供一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例所述的一种图像中的文字区域识别方法中的任意一种实施方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (8)

1.一种图像中的文字区域识别方法,其特征在于,所述方法包括:
对待识别图像进行边缘检测得到检测结果;
根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,所述根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,包括:将所述检测结果中的边缘在所述待识别图像中进行第一次膨胀处理;将所述边缘在所述待识别图像中进行第一次膨胀处理后进行腐蚀处理;将所述边缘在所述待识别图像中进行腐蚀处理后进行第二次膨胀处理,得到所述膨胀腐蚀区域,以将检测出的边缘在待识别图像中通过外扩和内缩形成成片的膨胀腐蚀区域;
根据所述膨胀腐蚀区域的轮廓判断所述膨胀腐蚀区域中是否具有符合文字排版结构的区域;
若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域;其中,若所述膨胀腐蚀区域的轮廓为规则的条形状,确定所述膨胀腐蚀区域中具有符合文字排版结构的区域,所述文字排版结构用于对文字进行有规则的排列,且,所述文字排版结构符合用户的阅读习惯,所述文字排版结构包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件;
确定所述待识别图像为携带有不当文字信息的可疑图像;
确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;
根据所述目标区域的范围在所述待识别图像中确定所述文字区域;
对所述文字区域中的文字信息进行文字筛查,根据文字筛查结果判断所述文字信息是否为不当文字信息,以确定待识别图像是否为携带有不当文字信息的图像;
其中,所述对待识别图像进行边缘检测得到检测结果,包括:
通过索贝尔Sobel算子计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值;
根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,计算所述像素对应的梯度的大小和方向;
根据所述像素对应的梯度的大小和方向,确定所述像素对应的梯度矢量;
根据所述待识别图像中各个像素分别对应的梯度矢量,得到所述检测结果;
其中,所述通过索贝尔Sobel算子计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,包括:
通过以下公式计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,
其中,代表Sobel算子中的横向模板;/>代表Sobel算子中的纵向模板;A代表待识别图像中的任意一个像素;Gx代表A在横向上的亮度差分近似值;Gy代表A在纵向上的亮度差分近似值;
其中,所述根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,计算所述像素对应的梯度的大小和方向,包括:
根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,通过以下公式计算所述像素对应的梯度的大小和方向,
其中,Gx代表待识别图像中的任意一个像素在横向上的亮度差分近似值;Gy代表该像素在纵向上的亮度差分近似值;G代表该像素对应的梯度的大小;θ代表该像素对应的梯度的方向。
2.根据权利要求1所述的方法,其特征在于,在所述对待识别图像进行边缘检测得到检测结果之前,所述方法还包括:
对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述对待识别图像进行边缘检测得到检测结果,包括:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
3.根据权利要求1所述的方法,其特征在于,在所述对待识别图像进行边缘检测得到检测结果之后,所述方法还包括:
根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域,包括:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
4.一种图像中的文字区域识别装置,其特征在于,所述装置包括:边缘检测模块、膨胀腐蚀模块、区域确定模块、图像确定模块和文字筛查模块;
所述边缘检测模块,用于对待识别图像进行边缘检测得到检测结果;
所述膨胀腐蚀模块,用于根据所述检测结果对所述待识别图像进行膨胀腐蚀处理得到膨胀腐蚀区域;
所述区域确定模块,用于根据所述膨胀腐蚀区域的轮廓判断所述膨胀腐蚀区域中是否具有符合文字排版结构的区域;若所述膨胀腐蚀区域中具有符合文字排版结构的区域,确定所述待识别图像中包括携带有文字信息的文字区域;其中,若所述膨胀腐蚀区域的轮廓为规则的条形状,确定所述膨胀腐蚀区域中具有符合文字排版结构的区域,所述文字排版结构用于对文字进行有规则的排列,且,所述文字排版结构符合用户的阅读习惯,所述文字排版结构包括多个条状区域时,所述多个条状区域间的位置关系满足文字排版条件;
所述图像确定模块,用于确定所述待识别图像为携带有不当文字信息的可疑图像;
所述区域确定模块,还用于确定所述膨胀腐蚀区域中符合文字排版结构的目标区域的范围;根据所述目标区域的范围在所述待识别图像中确定所述文字区域;
所述文字筛查模块,用于对所述文字区域中的文字信息进行文字筛查,根据文字筛查结果判断所述文字信息是否为不当文字信息,以确定待识别图像是否为携带有不当文字信息的图像;
所述膨胀腐蚀模块,具体用于:
将所述检测结果中的边缘在所述待识别图像中进行第一次膨胀处理;
将所述边缘在所述待识别图像中进行第一次膨胀处理后进行腐蚀处理;
将所述边缘在所述待识别图像中进行腐蚀处理后进行第二次膨胀处理,得到所述膨胀腐蚀区域,以将检测出的边缘在待识别图像中通过外扩和内缩形成成片的膨胀腐蚀区域;
所述边缘检测模块,具体用于:
通过索贝尔Sobel算子计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值;
根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,计算所述像素对应的梯度的大小和方向;
根据所述像素对应的梯度的大小和方向,确定所述像素对应的梯度矢量;
根据所述待识别图像中各个像素分别对应的梯度矢量,得到所述检测结果;
其中,所述通过索贝尔Sobel算子计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,包括:
通过以下公式计算所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,
其中,代表Sobel算子中的横向模板;/>代表Sobel算子中的纵向模板;A代表待识别图像中的任意一个像素;Gx代表A在横向上的亮度差分近似值;Gy代表A在纵向上的亮度差分近似值;
其中,所述根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,计算所述像素对应的梯度的大小和方向,包括:
根据所述待识别图像中的像素在横向上的亮度差分近似值和在纵向上的亮度差分近似值,通过以下公式计算所述像素对应的梯度的大小和方向,
其中,Gx代表待识别图像中的任意一个像素在横向上的亮度差分近似值;Gy代表该像素在纵向上的亮度差分近似值;G代表该像素对应的梯度的大小;θ代表该像素对应的梯度的方向。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:灰度化模块;
所述灰度化模块,用于对所述待识别图像进行图像灰度化处理得到灰度化结果;
所述边缘检测模块,还用于:
根据所述灰度化结果对所述待识别图像进行边缘检测得到所述检测结果。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:二值化模块;
所述二值化模块,用于根据所述检测结果对所述待识别图像进行二值化处理得到二值化结果;
所述膨胀腐蚀模块,还用于:
根据所述二值化结果对所述待识别图像进行膨胀腐蚀处理得到所述膨胀腐蚀区域。
7.一种图像中的文字区域识别设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3中任一项所述的图像中的文字区域识别方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3中任一项所述的图像中的文字区域识别方法。
CN201810483316.9A 2018-05-18 2018-05-18 一种图像中的文字区域识别方法和装置 Active CN110503084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810483316.9A CN110503084B (zh) 2018-05-18 2018-05-18 一种图像中的文字区域识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810483316.9A CN110503084B (zh) 2018-05-18 2018-05-18 一种图像中的文字区域识别方法和装置

Publications (2)

Publication Number Publication Date
CN110503084A CN110503084A (zh) 2019-11-26
CN110503084B true CN110503084B (zh) 2024-03-01

Family

ID=68584860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810483316.9A Active CN110503084B (zh) 2018-05-18 2018-05-18 一种图像中的文字区域识别方法和装置

Country Status (1)

Country Link
CN (1) CN110503084B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111476800A (zh) * 2020-03-31 2020-07-31 万翼科技有限公司 一种基于形态学操作的文字区域检测方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008011484A (ja) * 2006-06-02 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN105868757A (zh) * 2016-03-25 2016-08-17 上海珍岛信息技术有限公司 一种图像文字中的文字定位方法及装置
CN106250831A (zh) * 2016-07-22 2016-12-21 北京小米移动软件有限公司 图像检测方法、装置和用于图像检测的装置
CN107766861A (zh) * 2017-11-14 2018-03-06 深圳码隆科技有限公司 人物图像服装颜色识别方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008011484A (ja) * 2006-06-02 2008-01-17 Nippon Telegr & Teleph Corp <Ntt> 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
CN103679168A (zh) * 2012-08-30 2014-03-26 北京百度网讯科技有限公司 文字区域检测方法及装置
CN103488983A (zh) * 2013-09-13 2014-01-01 复旦大学 一种基于知识库的名片ocr数据修正方法和系统
CN105654057A (zh) * 2015-12-31 2016-06-08 中国建设银行股份有限公司 基于图片内容的图片审核系统及图片审核方法
CN105868757A (zh) * 2016-03-25 2016-08-17 上海珍岛信息技术有限公司 一种图像文字中的文字定位方法及装置
CN106250831A (zh) * 2016-07-22 2016-12-21 北京小米移动软件有限公司 图像检测方法、装置和用于图像检测的装置
CN107766861A (zh) * 2017-11-14 2018-03-06 深圳码隆科技有限公司 人物图像服装颜色识别方法、装置及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
图像文本定位算法的研究与设计;李旋;《信息系统工程》;20150220(第02期);期刊136-139页 *
朱明.数据挖掘.中国科学技术大学出版社,2008,425-430页. *
李旋.图像文本定位算法的研究与设计.《信息系统工程》.2015,(第02期),期刊136-139页. *

Also Published As

Publication number Publication date
CN110503084A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
US10755063B2 (en) Method and apparatus for detecting two-dimensional barcode
US10796133B2 (en) Image processing method and apparatus, and electronic device
US20170344783A1 (en) Method for launching application and terminal
US10061970B2 (en) Method for controlling unlocking and mobile terminal
CN108205398B (zh) 网页动画适配屏幕的方法和装置
CN110443190B (zh) 一种对象识别方法和装置
US10423814B2 (en) Method for unlocking mobile terminal and mobile terminal
US10599913B2 (en) Face model matrix training method and apparatus, and storage medium
CN110796157A (zh) 一种图像差异识别方法、装置及存储介质
CN110784672B (zh) 一种视频数据传输方法、装置、设备及存储介质
CN110083742B (zh) 一种视频查询方法和装置
CN110347858B (zh) 一种图片的生成方法和相关装置
CN112541489A (zh) 图像检测方法、装置、移动终端及存储介质
CN110503084B (zh) 一种图像中的文字区域识别方法和装置
CN109639880B (zh) 一种天气信息显示方法及终端设备
CN110908586A (zh) 一种键盘的显示方法、装置及终端设备
CN113535055A (zh) 一种基于虚拟现实播放点读物的方法、设备及存储介质
CN112733573B (zh) 表格检测方法、装置、移动终端及存储介质
CN111899042A (zh) 恶意曝光广告行为的检测方法、装置、存储介质及终端
CN116777219A (zh) 一种目标企业风险评估方法、装置、设备及存储介质
CN116263992A (zh) 图像识别方法、装置及存储介质
CN112106034B (zh) 一种用于神经网络的卷积方法及装置
CN116703808A (zh) 假商品样本图像生成方法、相关装置及存储介质
CN117218506A (zh) 用于图像识别的模型训练方法、图像识别方法及相关装置
CN116992826A (zh) 一种文档数据的处理方法、装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant