CN110399867A - 一种文本类图像区域的识别方法、系统及相关装置 - Google Patents
一种文本类图像区域的识别方法、系统及相关装置 Download PDFInfo
- Publication number
- CN110399867A CN110399867A CN201810374731.0A CN201810374731A CN110399867A CN 110399867 A CN110399867 A CN 110399867A CN 201810374731 A CN201810374731 A CN 201810374731A CN 110399867 A CN110399867 A CN 110399867A
- Authority
- CN
- China
- Prior art keywords
- pixel
- parameter
- text class
- region
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种文本类图像区域的识别方法,应用于图像识别技术领域,该识别方法将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,用户实际体验更佳。本申请还同时公开了一种文本类图像区域的识别系统、装置及计算机可读存储介质,具有上述有益效果。
Description
技术领域
本申请涉及图像识别技术领域,特别涉及一种文本类图像区域的识别方法、系统、装置及计算机可读存储介质。
背景技术
随着企业级大规模办公的展开,为进一步的降低企业办公成本和提升安全性,无需为每个员工单独架设一套PC的虚拟桌面技术逐渐开始崭露头角。
虚拟桌面技术是一种实现桌面系统的远程动态访问与数据中心统一托管的技术,可以让用户通过任何联网设备、在任何时间、任何地点访问在网络中的个人桌面系统。该技术由“云端”为用户提供远程的计算机桌面服务,即在“云端”上运行用户所需的操作系统和应用软件,然后将桌面视图以图像的方式发送至用户的瘦客户端上进行显示,且以同样的方式向“云端”发送用户输入的信息并实时接收“云端”发来的新内容进行显示。
传输的桌面内容根据内容和显示清晰度要求的不同通常可被分为文本类图像和自然图像两大类,其中的文本类图像只能采用高保真的压缩算法进行压缩以保证其高可辨识性,而对于自然图像则可允许存在一定程度失真。进行压缩是为尽可能的降低传输的数据量来提高带宽利用率,因此虚拟桌面技术中的一项关键技术即为如何识别文本类图像以准确对其进行压缩。
现有技术为准确识别文本类图像,先后采用了传统的基于图像区域特征提取(MSER)的方法、基于机器学习、深度学习(如RCNN、Fast-RCNN、Faster-RCNN等)的方法来实现识别文本类图像,上述方法精确度高,但同时由于繁琐的计算步骤往往需要付出较高的计算代价,所需时间也相对较长,会使得传输的桌面图像拥有较高的延迟,为客户带来了较差的体验。
因此,如何克服现有文本类图像识别方法存在的各项技术缺陷,提供一种基本不影响识别效果、且识别步骤简单、只需付出较低的计算代价、延迟较低的文本类图像识别方案是本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种文本类图像区域的识别方法,将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,用户实际体验更佳。
本申请的另一目的在于提供了一种文本类图像区域的识别系统、装置及计算机可读存储介质。
为实现上述目的,本申请提供一种文本类图像区域的识别方法,该识别方法包括:
将原始图像划分为预设大小的像素宏块;
提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数;其中,所述区别特征参数包括颜色特征参数、梯度特征参数中的至少一种;
判断所述区别特征参数是否处于文本类图像区域的区别特征参数范围内;
若是,则确定对应的像素宏块为所述文本类图像区域。
可选的,当所述区别特征参数为所述颜色特征参数时,提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数,包括:
提取各所述像素宏块对应的颜色种类和颜色数量;
根据所述颜色种类和所述颜色数量计算得到颜色直方图方差;
将所述颜色数量、所述颜色种类和所述颜色直方图方差共同作为对应像素宏块的颜色特征参数。
可选的,当所述区别特征参数为所述梯度特征参数时,提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数,包括:
提取各所述像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
根据所述横向梯度值、所述纵向梯度值以及所述斜向梯度值计算得到梯度和;
将所述梯度和作为对应像素宏块的梯度特征参数。
可选的,当所述区别特征参数处于文本类图像区域的区别特征参数范围内时,还包括:
提取各所述像素宏块对应的像素值行列和信息的像素值行列和方差以及像素值行列和不同值个数;
判断所述像素值行列和方差以及所述像素值行列和不同值个数是否处于所述文本类图像区域的像素值行列和参数范围内;
若均处于所述像素值行列和参数范围内,则确定对应的像素宏块为所述文本类图像区域。
可选的,当所述区别特征参数处于文本类图像区域的区别特征参数范围内时,还包括:
根据所述像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;
判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
若所述差异处于所述预设差异范围内,则确定相邻的各像素宏块均为所述文本类图像区域。
为实现上述目的,本申请还提供了一种文本类图像区域的识别系统,该识别系统包括:
预设大小划分单元,用于将原始图像划分为预设大小的像素宏块;
特征信息提取单元,用于提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数;其中,所述区别特征参数包括颜色特征参数、梯度特征参数中的至少一种;
区别特征参数判断单元,用于判断所述区别特征参数是否处于文本类图像区域的区别特征参数范围内;
文本类图像区域第一判定单元,用于当所述区别特征参数处于所述区别特征参数范围内时,确定对应的像素宏块为所述文本类图像区域。
可选的,所述特征信息提取单元包括:
第一颜色特征获取子单元,用于提取各所述像素宏块对应的颜色种类和颜色数量;
第二颜色特征获取子单元,用于根据所述颜色种类和所述颜色数量计算得到颜色直方图方差;
颜色特征参数获取子单元,用于将所述颜色数量、所述颜色种类和所述颜色直方图方差共同作为对应像素宏块的颜色特征参数。
可选的,所述特征信息提取单元包括:
各方向梯度值获取子单元,用于提取各所述像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
梯度和计算子单元,用于根据所述横向梯度值、所述纵向梯度值以及所述斜向梯度值计算得到梯度和;
梯度特征参数获取子单元,用于将所述梯度和作为对应像素宏块的梯度特征参数。
可选的,该识别系统还包括:
行列和信息获取单元,用于提取各所述像素宏块对应的像素值行列和信息的像素值行列和方差以及像素值行列和不同值个数;
行列和参数判断子单元,用于判断所述像素值行列和方差以及所述像素值行列和不同值个数是否处于所述文本类图像区域的像素值行列和参数范围内;
文本类图像区域第二判定单元,用于当所述像素值行列和方差以及所述像素值行列和不同值个数均处于所述像素值行列和参数范围内时,确定对应的像素宏块为所述文本类图像区域。
可选的,该识别系统还包括:
综合参数计算单元,用于根据所述像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;
差异值判断单元,用于判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
文本类图像区域第三判定单元,用于当所述差异处于所述预设差异范围内时,确定相邻的各像素宏块均为所述文本类图像区域。
为实现上述目的,本申请还提供了一种文本类图像区域的识别装置,该识别装置包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述内容所描述的文本类图像区域的识别方法的步骤。
为实现上述目的,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述内容所描述的文本类图像区域的识别方法的步骤。
本申请所提供的一种文本类图像区域的识别方法:将原始图像划分为预设大小的像素宏块;提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数;判断所述区别特征参数是否处于文本类图像区域的区别特征参数范围内;若是,则确定对应的像素宏块为所述文本类图像区域。
可见,本申请所提供的技术方案,将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,用户实际体验更佳。本申请同时还提供了一种文本类图像区域的识别系统、装置及计算机可读存储介质,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种文本类图像区域的识别方法的流程图;
图2为本申请实施例所提供的文本类图像区域的识别方法中一种仅基于颜色特征参数进行判断的流程图;
图3为本申请实施例所提供的文本类图像区域的识别方法中一种仅基于梯度特征参数进行判断的流程图;
图4为本申请实施例所提供的文本类图像区域的识别方法中一种同时根据颜色特征参数和梯度特征参数进行判断的流程图;
图5为本申请实施例所提供的另一种文本类图像区域的识别方法的流程图;
图6为本申请实施例所提供的一种文本类图像区域的识别系统的结构框图。
具体实施方式
本申请的核心是提供一种文本类图像区域的识别方法、系统、装置及计算机可读存储介质,将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,用户实际体验更佳。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都为本申请保护的范围。
实施例一
以下结合图1,图1为本申请实施例所提供的一种文本类图像区域的识别方法的流程图。
其具体包括以下步骤:
S101:将原始图像划分为预设大小的像素宏块;
本步骤旨在将较大的原始图像切分成多个相对较小且大小相同的像素宏块,因为每个像素宏块都是该原始图像组成部分,每个像素宏块中的内容、像素总数都相对较少,这样以便后续步骤直接基于切分好的各像素宏块进行计算、识别,以减少计算代价和所需时间。
虽然从理论上对一张分辨率为100×100的原始图像和由该原始图像切分出的100个分辨率为10×10的像素宏块执行相同的计算操作,由于执行计算操作的对象均为10000个像素,两者所耗费的时间应保持一致。但在实际情况中,100个10×10的像素宏块执行完相同计算操作所耗费的时间往往会小于直接对100×100的原始图像所耗费的时间,就好像实现一个大目标和难度会明显大于实现完该大目标的所有分解步骤一样,由于此种现象的存在,本申请将较大的原始图像划分为多个较小的像素宏块,旨在降低计算完成所耗费的时间。
具体的,一张分辨率为100×100的原始图像在切分时,可以采用不同的切分方式,例如,可以将其切分为100个10×10的像素宏块,也可以将其切分为4个50×50的像素宏块,上面给出的两种切分方式是不存在重叠区域的,即一个像素不会在多个像素宏块中多次执行相同的计算,能够消除不必要计算资源的浪费,且每个像素宏块中都拥有相同个数的像素,也便于后续对计算得到的各区别特征参数进行统一的比较。通常情况下,可采用与原始图像分辨率比例相同的切分方式,来消除重叠计算区域,但在特殊情况下导致重叠现象的出现是不可避免的时候,也可以按照要求的切分方式进行切分。尤其是当存在少数区别于大多数像素宏块所拥有的像素个数不相同的像素宏块时,还需要在后期进行归一化处理,以免结果或值出现偏向(例如偏向像素数较多的像素宏块)。
更常见的,还可以按照16×16、32×32、64×64等比例进行切分,应视实际情况下该原始图像的分辨率进行最合适比例的切分,此处并不做具体限定。
S102:提取各像素宏块中的特征信息,并根据各特征信息计算得到对应像素宏块的区别特征参数;
在S101的基础上,本步骤旨在从每个像素宏块中提取其中包含的特征信息,以得到能够区别文本类图像与自然类图像的区别特征的参数。其中,区别特征参数包括颜色特征参数、梯度特征参数中的至少一种。
需要说明的是,本申请所说的文本类图像并不仅局限于真正仅有文本构成的图像,还包括适合用高保真算法(无损算法)进行压缩的一些色调简单的图标和其它简单的桌面元素。根据常识与经验可以得知,上述文本类图像有着明显区别于自然图像的特征:(1)文本类图像通常拥有的颜色种类较少(如黑底白字或白底黑字等)且不同颜色种类的像素个数相差较大,而自然图像的颜色分布更加连续且均匀,颜色种类较多;(2)文本类图像往往有着更为明显和锐利的边缘,而自然图像在不同颜色边缘处会明显的更加柔和。
因此,根据以上两种较为明显的区别特征,本步骤旨在从各像素宏块中提取得到相关特征信息,并基于这些特征信息计算得到包括颜色特征参数和梯度特征参数在内的区别特征参数,以便与真正的文本类图像的区别特征参数范围进行匹配,最终判定该像素宏块是否为文本类图像。
进一步的,除上述两种较为明显的区别特征外,还存在其它一些起到辅助判断的特征,例如各像素宏块的像素值行列和信息、以及相邻的各像素宏块间的关联性参数等等,这些辅助参数无法单独作为判定是否为文本类图像的依据,但能够在基于上述区别特征参数得到的判断结果后起到增加判断准确率的作用,具体的使用方案的执行步骤可参见后续实施例,同时,由于实际场景的复杂性,可能会在使用如何辅助特征以及如何使用的选择中根据实际场景的不同进行适应性改变,此处并不做具体限定。
S103:判断区别特征参数是否处于文本类图像区域的区别特征参数范围内;
其中,本文中所说的“文本类图像区域”即为在原始图像中拥有文本类图像特征的部分区域图像,将该区域图像单独提取出来即为文本类图像。
在S102的基础上,本步骤旨在将S102中得到的区别特征参数与真正的文本类图像的区别特征参数范围进行比较,看是否落在这个范围内。即基于区别特征参数判断对应的像素宏块是否为文本类图像区域。其中,真正的文本类图像的区别特征参数明显不仅为一个具体的值,而是由大量训练材料得到的一个参考范围,就好像误差允许范围一样,因此此处只需看从每个像素宏块中得到的区别特征参数是否处于该区别特征参数范围内即可。
具体的,由于仅颜色特征信息就可能包括诸如颜色种类、同一颜色占用的像素数量、色差以及颜色直方图等细分出的具体参数,在S102仅选用其中一种颜色特征信息作为颜色特征参数在本步骤进行判断时,假设选取的颜色特征信息为颜色种类,则会判断该像素宏块对应的颜色种类是否处于文本类图像区域的颜色种类参数范围内;当在S102中选用多种颜色特征信息共同作为颜色特征参数在本步骤进行判断时,假设不仅选取了颜色种类,还选取了同一颜色占用的像素数量、色差以及颜色直方图四种颜色特征信息,则其中一种判断方式为需要构成此时的颜色特征参数的四种颜色特征信息均处于对应的参数范围内才能通过判断。
当然,在由多种颜色特征信息共同构成该颜色特征参数时,根据实际情况的不同以及各颜色特征信息重要性的不同,还可以为不同的颜色特征信息设置不同的判断权值,并使用加权后的特征信息与对应的参数范围进行比较,以进一步增加判断的合理性;还可以当存在四种颜色特征信息时,其中任意三种通过对应的判断后就判定通过本步骤的判断等等方式,相应的,也可适用于梯度特征参数等其它区别特征参数或辅助特征参数上,此处并不做具体限定,可以根据实际情况的不同灵活选择。
S104:确定对应的像素宏块为自然图像区域;
本步骤建立在S103的判断结果为该区别特征参数未处于文本类图像区域的区别特征参数范围内的基础上,即计算得到该区别特征参数的像素宏块为自然图像区域。
S105:确定对应的像素宏块为文本类图像区域。
本步骤建立在S103的判断结果为该区别特征参数处于文本类图像区域的区别特征参数范围内的基础上,即计算得到该区别特征参数的像素宏块为文本类图像区域。
基于上述技术方案,本申请实施例提供的一种文本类图像区域的识别方法,将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,用户实际体验更佳。
实施例二
以下结合图2,图2为本申请实施例所提供的文本类图像区域的识别方法中一种仅基于颜色特征参数进行判断的流程图。
本实施例提供一种仅根据各像素宏块中的颜色特征信息进行计算,并将计算得到的颜色特征参数作为对应像素宏块是否为文本类图像区域的判断依据,具体包括以下步骤:
S201:将原始图像划分为预设大小的像素宏块;
S202:提取各像素宏块对应的颜色种类和颜色数量;
S203:根据颜色种类和颜色数量计算得到颜色直方图方差;
S204:将颜色数量、颜色种类和颜色直方图方差共同作为对应像素宏块的颜色特征参数;
S202至S204三步骤旨在根据文本类图像区别于自然类图像的颜色特征进行区别特征的计算,并最终基于颜色数量、颜色种类和颜色直方图方差这三个参数作为表征对应像素宏块颜色特征的区别特征参数。
其中,颜色直方图描述的是不同颜色在整幅图像中所占的比例,却不关心每种颜色所处的空间位置;颜色直方图方差则为基于该像素宏块中拥有的颜色种类数计算得到的方差,因此在颜色直方图方差这一项中,文本类图像往往会明显大于自然图像。颜色直方图方差指的是对像素宏块的颜色直方图中不为0的值组成的集合求方差。
S205:判断颜色特征参数是否处于文本类图像区域的颜色特征参数范围内;
在S204的基础上,本步骤旨在判断计算得到的颜色特征参数是否处于真正的文本类图像区域所对应的颜色特征参数范围内,由于本实施例中的颜色特征参数具体包括颜色数量、颜色种类以及颜色直方图方差三中颜色特征信息,因此对应在判断时需要这三种颜色特征信息均处于对应的文本类图像区域的参数范围内才能通过判断,以尽可能的增加使用单一种类区别特征参数时的判断准确度。
S206:确定对应的像素宏块为自然图像区域;
本步骤建立在S205的判断结果为计算得到的颜色特征参数并未处于该颜色特征参考范围内的基础上,说明计算得到该颜色特征参数与文本类图像区域的颜色特征参数不相符,即对应的像素宏块为自然图像区域。
S207:确定对应的像素宏块为文本类图像区域。
本步骤建立在S205的判断结果为计算得到的颜色特征参数处于该颜色特征参考范围内的基础上,说明计算得到该颜色特征参数符合文本类图像区域的颜色特征参数,即对应的像素宏块为文本类图像区域。
实施例三
以下结合图3,图3为本申请实施例所提供的文本类图像区域的识别方法中一种仅基于梯度特征参数进行判断的流程图。
本实施例提供一种仅根据各像素宏块中的梯度特征信息进行计算,并将计算得到的梯度特征参数作为对应像素宏块是否为文本类图像区域的判断依据,具体包括以下步骤:
S301:将原始图像划分为预设大小的像素宏块;
S302:提取各像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
S303:根据横向梯度值、纵向梯度值以及斜向梯度值计算得到梯度和;
S304:将梯度和作为对应像素宏块的梯度特征参数;
S302至S304三步骤旨在根据文本类图像区别于自然类图像的梯度特征进行区别特征的计算,并基于梯度值、纵向梯度值以及斜向梯度值计算得到对应像素宏块的梯度和,并将该梯度和作为表征对应像素宏块的梯度特征的区别特征参数。由于文本类图像往往在不同种类颜色的交界处具有更加明显、锐利的边缘,因此,文本类图像的梯度特征参数也会明显大于自然图像的梯度特征参数。
S305:判断梯度特征参数是否处于文本类图像区域的梯度特征参数范围内;
在S304的基础上,本步骤旨在判断计算得到的梯度特征参数是否处于真正的文本类图像区域所对应的梯度特征参数范围内。由于本实施例中的梯度特征参数是基于横向梯度值、纵向梯度值以及斜向梯度值计算得到的梯度和,因此在判断时需要判断该梯度和是否处于对应的文本类图像区域的梯度和参数范围内才能通过判断,以尽可能的增加使用单一种类区别特征参数时的判断准确度。
S306:确定对应的像素宏块为自然图像区域;
本步骤建立在S305的判断结果为计算得到的梯度特征参数并未处于该梯度特征参考范围内的基础上,说明计算得到该梯度特征参数与文本类图像区域的梯度特征参数不相符,即对应的像素宏块为自然图像区域。
S307:确定对应的像素宏块为文本类图像区域。
本步骤建立在S305的判断结果为计算得到的梯度特征参数处于该梯度特征参考范围内的基础上,说明计算得到该梯度特征参数符合文本类图像区域的梯度特征参数,即对应的像素宏块为文本类图像区域。
实施例四
以下结合图4,图4为本申请实施例所提供的文本类图像区域的识别方法中一种同时根据颜色特征参数和梯度特征参数进行判断的流程图。
本实施例提供一种同时根据各像素宏块中的颜色特征信息和梯度特征信息进行计算,并将计算得到的颜色特征参数和梯度特征参数同时作为判断对应像素宏块是否为文本类图像区域的判断依据,采用两重判断机制,相较于实施例二和实施例三采用的一重判断机制,无疑能够得到更加准确的判断结果。具体包括以下步骤:
S401:将原始图像划分为预设大小的像素宏块;
S402:提取各像素宏块对应的颜色种类和颜色数量;
S403:根据颜色种类和颜色数量计算得到颜色直方图方差;
S404:将颜色数量、颜色种类和颜色直方图方差共同作为对应像素宏块的颜色特征参数;
S405:判断颜色特征参数是否处于文本类图像区域的颜色特征参数范围内;
首先根据提取得到的颜色特征信息计算得到颜色特征参数,并基于该颜色特征参数做第一次判断。
S406:提取各像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
S407:根据横向梯度值、纵向梯度值以及斜向梯度值计算得到梯度和;
S408:将梯度和作为对应像素宏块的梯度特征参数;
S409:判断梯度特征参数是否处于文本类图像区域的梯度特征参数范围内;
在基于颜色特征参数做的第一次判断通过后,再根据提取得到的梯度特征信息计算得到梯度特征参数,并基于该梯度特征参数做第二次判断。
S410:确定对应的像素宏块为自然图像区域;
当第一次判断未通过和第二次判断未通过时,说明对应的像素宏块的特征信息不能同时满足两种区别特征参数的判断,因此在两重判断机制下只能确定对应的像素宏块为自然图像区域。
S411:确定对应的像素宏块为文本类图像区域。
仅当第二次判断通过时(第二次判断进行的基础为通过第一次判断),说明对应的像素宏块的特征信息同时满足了两种区别特征参数的判断,因此在两重判断机制下可以更大概率的确定对应的像素宏块为文本类图像区域。
当然,本实施例在第一次判断中使用了颜色特征参数,第二次判断中使用了梯度特征参数,但并不对首先使用哪种区别特征参数做首次判断进行限定,也可以颠倒过来,因为这两种区别特征参数均能够单独使用来完成判断目的,可以根据实际情况灵活选择前后关系。
实施例五
以下结合图5,图5为本申请实施例所提供的另一种文本类图像区域的识别方法的流程图。
本实施例建立在实施例二、实施例三或实施例四的基础上,在基于颜色特征参数和/或梯度特征参数作为区别特征参数完成判断后,再利用其它辅助特征参数来进一步降低误判率。
在桌面内容中,横纵边界线、横纵交叉线会大量存在,如窗口的边界、窗口内各种栏目的边界、Excel表格线等等,而存在这些内容的像素宏块会在经过上面两个实施例的判断中被较大概率的归入文本类图像,因为这些内容通常背景色单一、只存在一两条垂直或水平的线条,符合上述对文本类图像的特点的说明。因此,为消除这些被误判为文本类图像的像素宏块,需要采取其它辅助特征进行相关消除操作。
S501:将原始图像划分为预设大小的像素宏块;
S502:提取各像素宏块中的特征信息,并根据各特征信息计算得到对应像素宏块的区别特征参数;
S503:判断区别特征参数是否处于文本类图像区域的区别特征参数范围内;
S501至S503中的内容可以参考实施例二、三以及四的具体操作,在此不再赘述。
S504:提取各像素宏块对应的像素值行列和信息,得到各像素宏块的像素值行列和方差以及像素值行列和不同值个数;
由于这些被误判的像素宏块具有背景色单一、只存在一两条垂直或水平的线条的特点,相对应的,基于横纵边界线的像素宏块的行方差或列方差中必有一个的值接近0,而存在横纵边界线交叉的像素宏块的像素行和与列和的不同值个数较小(例如2或3个不同值),且这些参数会明显区别于真正的文本类图像的同类特征参数,因此可以基于像素值行列和信息进行二次筛选,来降低误判率。
S505:判断像素值行列和方差以及像素值行列和不同值个数是否处于文本类图像区域的像素值行列和参数范围内;
S506:根据像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;该综合参数正比于颜色直方图方差与梯度和以及像素值行列和方差这三者的乘积。
S507:判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
经过S504对像素值行列和信息的计算和S505的判断筛选后,S506和S507旨在基于“邻域”的思想对处于相邻关系的各像素宏块进行差异性计算,因为同属文本类图像区域的相邻像素宏块间的差异性应处于一定的范围内。
由于实施例二、三以及四进行的判断针对的每个像素宏块,有可能出现相邻的各像素宏块在单独基于区别特征参数进行判断时通过了筛选,但相邻的各像素宏块间的综合参数差异却较大的现象,针对可能出现的此种现象,本步骤基于“邻域”的思想(或称全局调整思想)进行进一步的判断,以提高判断的准确率结果。
S508:确定相邻的各像素宏块不全为文本类图像区域;
若出现相邻的各像素宏块在单独基于区别特征参数进行判断时通过了筛选,但相邻的各像素宏块间的综合参数差异却较大的现象时,可确定相邻的各像素宏块不全为文本类图像区域,即存在误判的像素宏块,还需要将误判的像素宏块挑选出来。
S509:确定相邻的各像素宏块均为文本类图像区域。
若相邻的各像素宏块间的综合参数差异处于预设的差异范围内时,则可确定相邻的各像素宏块均为文本类图像区域。
以上各实施例均可以采用多种切分方式对原始图像进行切分,以得到各相对较小的像素宏块,根据当今较为常用的图像分辨率,可以采用16×16的大小对原始图像进行定长切分,即得到均拥有256个像素的各像素宏块,以16行16列的方式构成每个像素宏块,也可根据实际情况选择诸如32×32或64×64以及其它大小的切分规格,此部分内容在S101中有详细说明,可以参见相关说明。
基于上述技术方案,本申请实施例提供的一种文本类图像区域的识别方法,将原始图像划分为多个较小的像素宏块,以将原先直接针对于该原始图像进行的识别操作转换为各像素宏块,极大的降低了计算压力,同时根据文本类图像区别于自然图像的特征信息进行计算,得到包括颜色特征参数和梯度特征参数在内的区别特征信息,并将其作为判断对应像素宏块是否为文本类图像的依据,仅使用了较少的计算和判断步骤,无疑降低了计算所需的代价,能够实现以较低的延迟完成传输桌面内容的目的,同时利用行列和信息以及基于“邻域”思想的综合参数进行全局调整,进一步降低了误判率,用户实际体验更佳。
因为情况复杂,无法一一列举进行阐述,本领域技术人员应能意识到根据本申请提供的基本方法原理结合实际情况可以存在很多的例子,在不付出足够的创造性劳动下,应均在本申请的保护范围内。
下面请参见图6,图6为本申请实施例所提供的一种文本类图像区域的识别系统的结构框图。
该识别系统可以包括:
预设大小划分单元100,用于将原始图像划分为预设大小的像素宏块;
特征信息提取单元200,用于提取各像素宏块中的特征信息,并根据各特征信息计算得到对应像素宏块的区别特征参数;其中,区别特征参数包括颜色特征参数、梯度特征参数中的至少一种;
区别特征参数判断单元300,用于判断区别特征参数是否处于文本类图像区域的区别特征参数范围内;
文本类图像区域第一判定单元400,用于当区别特征参数处于区别特征参数范围内时,确定对应的像素宏块为文本类图像区域。
其中,特征信息提取单元200包括:
第一颜色特征获取子单元,用于提取各像素宏块对应的颜色种类和颜色数量;
第二颜色特征获取子单元,用于根据颜色种类和颜色数量计算得到颜色直方图方差;
颜色特征参数获取子单元,用于将颜色数量、颜色种类和颜色直方图方差共同作为对应像素宏块的颜色特征参数。
其中,特征信息提取单元200包括:
各方向梯度值获取子单元,用于提取各像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
梯度和计算子单元,用于根据横向梯度值、纵向梯度值以及斜向梯度值计算得到梯度和;
梯度特征参数获取子单元,用于将梯度和作为对应像素宏块的梯度特征参数。
进一步的,该识别系统还可以包括:
行列和信息获取单元,用于提取各像素宏块对应的像素值行列和信息,得到各像素宏块的像素值行列和方差以及像素值行列和不同值个数;
行列和参数判断子单元,用于判断像素值行列和方差以及像素值行列和不同值个数是否处于文本类图像区域的像素值行列和参数范围内;
文本类图像区域第二判定单元,用于当像素值行列和方差以及像素值行列和不同值个数均处于像素值行列和参数范围内时,确定对应的像素宏块为文本类图像区域。
更进一步的,该识别系统还可以包括:
综合参数计算单元,用于根据像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;
差异值判断单元,用于判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
文本类图像区域第三判定单元,用于当差异处于预设差异范围内时,确定相邻的各像素宏块均为文本类图像区域。
基于上述实施例,本申请还提供了一种文本类图像区域的识别装置,该识别装置可以包括存储器和处理器,其中,该存储器中存有计算机程序,该处理器调用该存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然,该识别装置还可以包括各种必要的网络接口、电源以及其它零部件等。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行终端或处理器执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (12)
1.一种文本类图像区域的识别方法,其特征在于,包括:
将原始图像划分为预设大小的像素宏块;
提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数;其中,所述区别特征参数包括颜色特征参数、梯度特征参数中的至少一种;
判断所述区别特征参数是否处于文本类图像区域的区别特征参数范围内;
若是,则确定对应的像素宏块为所述文本类图像区域。
2.根据权利要求1所述的识别方法,其特征在于,当所述区别特征参数为所述颜色特征参数时,提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数,包括:
提取各所述像素宏块对应的颜色种类和颜色数量;
根据所述颜色种类和所述颜色数量计算得到颜色直方图方差;
将所述颜色数量、所述颜色种类和所述颜色直方图方差共同作为对应像素宏块的颜色特征参数。
3.根据权利要求1或2所述的识别方法,其特征在于,当所述区别特征参数为所述梯度特征参数时,提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数,包括:
提取各所述像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
根据所述横向梯度值、所述纵向梯度值以及所述斜向梯度值计算得到梯度和;
将所述梯度和作为对应像素宏块的梯度特征参数。
4.根据权利要求3所述的识别方法,其特征在于,当所述区别特征参数处于文本类图像区域的区别特征参数范围内时,还包括:
提取各所述像素宏块对应的像素值行列和信息的像素值行列和方差以及像素值行列和不同值个数;
判断所述像素值行列和方差以及所述像素值行列和不同值个数是否处于所述文本类图像区域的像素值行列和参数范围内;
若均处于所述像素值行列和参数范围内,则确定对应的像素宏块为所述文本类图像区域。
5.根据权利要求4所述的识别方法,其特征在于,当所述区别特征参数处于文本类图像区域的区别特征参数范围内时,还包括:
根据所述像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;
判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
若所述差异处于所述预设差异范围内,则确定相邻的各像素宏块均为所述文本类图像区域。
6.一种文本类图像区域的识别系统,其特征在于,包括:
预设大小划分单元,用于将原始图像划分为预设大小的像素宏块;
特征信息提取单元,用于提取各所述像素宏块的特征信息,并根据各所述特征信息计算得到对应像素宏块的区别特征参数;其中,所述区别特征参数包括颜色特征参数、梯度特征参数中的至少一种;
区别特征参数判断单元,用于判断所述区别特征参数是否处于文本类图像区域的区别特征参数范围内;
文本类图像区域第一判定单元,用于当所述区别特征参数处于所述区别特征参数范围内时,确定对应的像素宏块为所述文本类图像区域。
7.根据权利要求6所述的识别系统,其特征在于,所述特征信息提取单元包括:
第一颜色特征获取子单元,用于提取各所述像素宏块对应的颜色种类和颜色数量;
第二颜色特征获取子单元,用于根据所述颜色种类和所述颜色数量计算得到颜色直方图方差;
颜色特征参数获取子单元,用于将所述颜色数量、所述颜色种类和所述颜色直方图方差共同作为对应像素宏块的颜色特征参数。
8.根据权利要求6或7所述的识别系统,其特征在于,所述特征信息提取单元包括:
各方向梯度值获取子单元,用于提取各所述像素宏块对应的横向梯度值、纵向梯度值以及斜向梯度值;
梯度和计算子单元,用于根据所述横向梯度值、所述纵向梯度值以及所述斜向梯度值计算得到梯度和;
梯度特征参数获取子单元,用于将所述梯度和作为对应像素宏块的梯度特征参数。
9.根据权利要求8所述的识别系统,其特征在于,还包括:
行列和信息获取单元,用于提取各所述像素宏块对应的像素值行列和信息的像素值行列和方差以及像素值行列和不同值个数;
行列和参数判断子单元,用于判断所述像素值行列和方差以及所述像素值行列和不同值个数是否处于所述文本类图像区域的像素值行列和参数范围内;
文本类图像区域第二判定单元,用于当所述像素值行列和方差以及所述像素值行列和不同值个数均处于所述像素值行列和参数范围内时,确定对应的像素宏块为所述文本类图像区域。
10.根据权利要求9所述的识别系统,其特征在于,还包括:
综合参数计算单元,用于根据所述像素宏块的区别特征参数和像素值行列和信息计算得到综合参数;
差异值判断单元,用于判断相邻的各像素宏块的综合参数间的差异是否处于预设差异范围内;
文本类图像区域第三判定单元,用于当所述差异处于所述预设差异范围内时,确定相邻的各像素宏块均为所述文本类图像区域。
11.一种识别文本类图像的装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述的文本类图像区域的识别方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的文本类图像区域的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810374731.0A CN110399867B (zh) | 2018-04-24 | 2018-04-24 | 一种文本类图像区域的识别方法、系统及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810374731.0A CN110399867B (zh) | 2018-04-24 | 2018-04-24 | 一种文本类图像区域的识别方法、系统及相关装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110399867A true CN110399867A (zh) | 2019-11-01 |
CN110399867B CN110399867B (zh) | 2023-05-12 |
Family
ID=68321968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810374731.0A Active CN110399867B (zh) | 2018-04-24 | 2018-04-24 | 一种文本类图像区域的识别方法、系统及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399867B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339305A (zh) * | 2021-12-22 | 2022-04-12 | 深信服科技股份有限公司 | 一种虚拟桌面图像处理方法及相关装置 |
CN116228600A (zh) * | 2023-05-08 | 2023-06-06 | 江苏慕藤光精密光学仪器有限公司 | 图像处理方法及相关设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040076337A1 (en) * | 2002-09-05 | 2004-04-22 | Hirobumi Nishida | Image processing device estimating black character color and ground color according to character-area pixels classified into two classes |
CN104281850A (zh) * | 2013-07-09 | 2015-01-14 | 腾讯科技(深圳)有限公司 | 一种文字区域识别方法和装置 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
US9563961B1 (en) * | 2016-01-19 | 2017-02-07 | Xerox Corporation | Method and system for image processing |
CN106529380A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 图像的识别方法及装置 |
US20170351708A1 (en) * | 2016-06-06 | 2017-12-07 | Think-Cell Software Gmbh | Automated data extraction from scatter plot images |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
-
2018
- 2018-04-24 CN CN201810374731.0A patent/CN110399867B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040076337A1 (en) * | 2002-09-05 | 2004-04-22 | Hirobumi Nishida | Image processing device estimating black character color and ground color according to character-area pixels classified into two classes |
CN104281850A (zh) * | 2013-07-09 | 2015-01-14 | 腾讯科技(深圳)有限公司 | 一种文字区域识别方法和装置 |
CN104463138A (zh) * | 2014-12-19 | 2015-03-25 | 深圳大学 | 基于视觉结构属性的文本定位方法及系统 |
CN106529380A (zh) * | 2015-09-15 | 2017-03-22 | 阿里巴巴集团控股有限公司 | 图像的识别方法及装置 |
US9563961B1 (en) * | 2016-01-19 | 2017-02-07 | Xerox Corporation | Method and system for image processing |
US20170351708A1 (en) * | 2016-06-06 | 2017-12-07 | Think-Cell Software Gmbh | Automated data extraction from scatter plot images |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114339305A (zh) * | 2021-12-22 | 2022-04-12 | 深信服科技股份有限公司 | 一种虚拟桌面图像处理方法及相关装置 |
CN116228600A (zh) * | 2023-05-08 | 2023-06-06 | 江苏慕藤光精密光学仪器有限公司 | 图像处理方法及相关设备 |
CN116228600B (zh) * | 2023-05-08 | 2023-08-25 | 江苏慕藤光精密光学仪器有限公司 | 图像处理方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110399867B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109166159B (zh) | 获取图像的主色调的方法、装置及终端 | |
CN101877137B (zh) | 突出显示主题元素的方法及其系统 | |
CN100363978C (zh) | 文本字符的词干位置的自动优化 | |
CN108255555B (zh) | 一种系统语言切换方法及终端设备 | |
CN104658030B (zh) | 二次图像混合的方法和装置 | |
CN101155249A (zh) | 电子水印嵌入装置和电子水印检测装置 | |
CN110135262A (zh) | 敏感数据防偷窥处理方法、装置、设备及存储介质 | |
CN110263616A (zh) | 一种文字识别方法、装置、电子设备及存储介质 | |
CN104077091B (zh) | 一种显示处理方法和电子设备 | |
CN110490181B (zh) | 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 | |
CN112651953B (zh) | 图片相似度计算方法、装置、计算机设备及存储介质 | |
CN110399867A (zh) | 一种文本类图像区域的识别方法、系统及相关装置 | |
CN106294339A (zh) | 应用中加载图片的方法及装置 | |
CN109408177A (zh) | 一种配置图片中文字颜色的方法、装置及电子设备 | |
CN109410295A (zh) | 颜色设置方法、装置、设备及计算机可读存储介质 | |
CN110990617B (zh) | 一种图片标记方法、装置、设备及存储介质 | |
US11321812B2 (en) | Display method, display device, virtual reality display device, virtual reality device, and storage medium | |
CN103854020A (zh) | 文字识别方法及装置 | |
CN115509474A (zh) | 题目显示方法、装置、存储介质以及电子设备 | |
CN103020651B (zh) | 一种微博图片敏感信息检测方法 | |
CN104463419A (zh) | 课堂中实现多维评价数据记录的方法 | |
CN116052195A (zh) | 文档解析方法、装置、终端设备和计算机可读存储介质 | |
CN110472222A (zh) | 自动排版方法、装置、电子设备和计算机可读存储介质 | |
CN110176207A (zh) | 一种图像数据确定方法、装置及电子设备 | |
US20220245820A1 (en) | Heuristics-based detection of image space suitable for overlaying media content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |