CN106296629A - 图像处理装置和方法 - Google Patents
图像处理装置和方法 Download PDFInfo
- Publication number
- CN106296629A CN106296629A CN201510253089.7A CN201510253089A CN106296629A CN 106296629 A CN106296629 A CN 106296629A CN 201510253089 A CN201510253089 A CN 201510253089A CN 106296629 A CN106296629 A CN 106296629A
- Authority
- CN
- China
- Prior art keywords
- picture
- document
- pixel
- pixels
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Image Analysis (AREA)
- Facsimile Image Signal Circuits (AREA)
- Image Processing (AREA)
Abstract
本公开涉及图像处理装置和方法。所述装置包括:分类单元,用于分别对双面文档中第一和第二面文档的像素进行分类,以获取第一和第二候选背景像素集合;确定单元,用于确定双面文档的特定位置,其中第一和第二面文档中在特定位置处的像素分别属于第一和第二候选背景像素集合;计算单元,用于分别基于在第一候选背景像素集合中在特定位置处的像素的强度值和梯度值来计算第一强度阈值和梯度阈值;背景获取单元,用于根据第一强度阈值和梯度阈值对第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为第一面文档的背景区域;以及前景获取单元,用于从第一面文档中去除背景区域以获取第一面文档的前景区域。
Description
技术领域
本公开涉及图像处理的技术领域,具体地涉及用于文档图像分割的图像处理装置和方法。
背景技术
这个部分提供了与本公开有关的背景信息,这不一定是现有技术。
在版面分析中的文档图像分割目的是提取文本区域如文字、图像、表格以及半调。这个技术广泛应用于文档组织、检索和理解。由于接下来的文档图像理解包括页面分类都是基于文档分割结果,所以文档分割的性能非常关键。
传统方法从文本图像中计算特定特征如字体信息、连通域和纹理。然而,许多扫描文档内容复杂,包含文字、自然场景图像、表格甚至半调。被误检为背景的较浅的图片和半色调会降低分割性能。更有甚者,许多双面书写或者打印的文档会有背透,亦即正面文档中可见该文档的背面内容。背透的存在严重影响了背景检测的准确率。
发明内容
这个部分提供了本公开的一般概要,而不是其全部范围或其全部特征的全面披露。
本公开的目的在于提供一种用于文档图像分割的图像处理装置和方法,其能够针对双面扫描图像有效地检测其中的背景区域,从而可以得到前景区域并使得从前景区域中区分文字区域和图片区域成为可能。
根据本公开的一方面,提供了一种图像处理装置,该装置包括:分类单元,用于对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合,并且对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;确定单元,用于确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;计算单元,用于基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值,并且基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;背景获取单元,用于根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及前景获取单元,用于从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
根据本公开的另一方面,提供了一种图像处理方法,该方法包括:对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合;对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值;基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
根据本公开的另一方面,提供了一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据本公开的图像处理方法。
使用根据本公开的图像处理装置和方法,可以利用双面文档中的每一面文档的像素信息来获取均匀背景像素集合作为文档图像的背景区域,因此获得的背景区域更加精确,并且可以得到更为准确的前景区域,而且使得从前景区域中更加准确地区分文字区域和图片区域成为可能。
从在此提供的描述中,进一步的适用性区域将会变得明显。这个概要中的描述和特定例子只是为了示意的目的,而不旨在限制本公开的范围。
附图说明
在此描述的附图只是为了所选实施例的示意的目的而非全部可能的实施,并且不旨在限制本公开的范围。在附图中:
图1为图示根据本公开的实施例的图像处理装置的结构的框图;
图2为图示根据本公开的实施例的图像处理装置中的图片获取单元的结构的框图;
图3为图示根据本公开的实施例的图像处理装置中的计算单元的结构的框图;
图4为图示获取文档图像的像素的强度阈值或梯度阈值的例子的示意图;
图5为图示获取文档图像的像素的强度阈值或梯度阈值的另一例子的示意图;
图6为图示根据本公开的另一实施例的图像处理装置中的计算单元的结构的框图;
图7为根据本公开的实施例的图像处理方法的流程图;以及
图8为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
虽然本公开容易经受各种修改和替换形式,但是其特定实施例已作为例子在附图中示出,并且在此详细描述。然而应当理解的是,在此对特定实施例的描述并不打算将本公开限制到公开的具体形式,而是相反地,本公开目的是要覆盖落在本公开的精神和范围之内的所有修改、等效和替换。要注意的是,贯穿几个附图,相应的标号指示相应的部件。
具体实施方式
现在参考附图来更加充分地描述本公开的例子。以下描述实质上只是示例性的,而不旨在限制本公开、应用或用途。
提供了示例实施例,以便本公开将会变得详尽,并且将会向本领域技术人员充分地传达其范围。阐述了众多的特定细节如特定部件、装置和方法的例子,以提供对本公开的实施例的详尽理解。对于本领域技术人员而言将会明显的是,不需要使用特定的细节,示例实施例可以用许多不同的形式来实施,它们都不应当被解释为限制本公开的范围。在某些示例实施例中,没有详细地描述众所周知的过程、众所周知的结构和众所周知的技术。
本公开提出了一种文档版面分析技术,特别针对双面扫描图像,可以有效检测其中的均一背景区域,并且可以从所有可能的前景区域中区分文字和图片区域。最终文档图像可以被分割成背景区域、文字区域(包含文字行或者表格)以及图片区域(包含图片、半调)。
图1图示了根据本公开的实施例的图像处理装置100的结构。如图1所示,根据本公开的实施例的图像处理装置100可以包括分类单元110、确定单元120、计算单元130、背景获取单元140、前景获取单元150等。
分类单元120可以对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合。进一步,分类单元120可以对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合。
在本公开中,候选背景像素集合可以被认为是区别于相对较暗的前景区域的具有较高亮度的像素的集合,通常包含纯背景像素或者图片和半调区域中的明亮和平滑部分。换言之,针对双面文档中的每一面文档,分类单元120将其中的文档图像的像素粗略地分类为候选背景像素和非候选背景像素。
进一步,确定单元120可以确定双面文档的特定位置。这里,第一面文档的文档图像中在所述特定位置处的像素属于第一候选背景像素集合,并且第二面文档的文档图像中在所述特定位置处的像素属于第二候选背景像素集合。
需要说明的是,针对双面文档上的每一个位置,每一面文档的文档图像的像素既可能是候选背景像素(bg),也可能是非候选背景像素(fg)。这样一来,针对双面文档上的每一个位置,双面文档的文档图像的像素就存在以下四种组合:bgbg、fgfg、fgbg和bgfg。在确定单元120确定的特定位置处,双面文档的文档图像的像素为bgbg。
接下来,基于在第一候选背景像素集合中在确定单元120确定的特定位置处的像素的强度值,计算单元130可以计算强度阈值(第一强度阈值)。进一步,基于在第一候选背景像素集合中在确定单元120确定的特定位置处的像素的梯度值,计算单元130可以计算梯度阈值。这里,计算单元130针对第一候选背景像素集合来计算强度阈值和梯度阈值。同样地,计算单元130也可以针对第二候选背景像素集合来计算强度阈值和梯度阈值,或者也可以针对这两个候选背景像素集合来进行计算,本公开对此并没有限制。下面的操作也是针对第一候选背景像素集合进行的。本领域技术人员可以意识到的是,下面的操作同样可以针对第二候选背景像素集合来进行,或者也可以针对这两个候选背景像素集合来进行。
进一步,背景获取单元140可以根据计算单元130计算的强度阈值和梯度阈值对第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为第一面文档的文档图像的背景区域。
进而,前景获取单元150可以从第一面文档的文档图像中去除背景区域以获取第一面文档的文档图像的前景区域。
在根据本公开的实施例的图像处理装置100中,确定单元120确定了双面文档的文档图像的像素为bgbg的特定位置。基于双面文档的特定位置处的像素信息,计算单元130进一步计算了强度阈值和梯度阈值,以便背景获取单元140可以获取均匀背景像素集合作为文档图像的背景区域,因此获得的背景区域更加精确,并且前景获取单元150可以得到更为准确的前景区域,而且使得从前景区域中更加准确地区分文字区域和图片区域成为可能。
优选地,如图1所示,根据本公开的实施例的图像处理装置100可以进一步包括文字获取单元160和图片获取单元170。
文字获取单元160可以从前景区域中选择第一面文档的文档图像的文字区域。
进一步,图片获取单元170可以根据前景区域和文字区域来确定第一面文档的文档图像的图片区域。
为了更好地理解本公开的技术方案,下面针对本公开的图像处理装置进行更加详细地描述。
根据本公开的优选实施例,分类单元110可以包括强度计算单元(未示出)和选择单元(未示出)。
强度计算单元可以计算第一面文档的文档图像中所有像素的强度值。
进一步,选择单元可以选择强度值大于预定强度阈值(第二强度阈值)的像素以构成第一候选背景像素集合。
如上面提到的那样,强度计算单元和选择单元同样可以针对第二面文档的文档图像进行计算和选择。
具体而言,通常背景像素的亮度值要比前景像素的亮度值大。所以阈值法能被用于检测。像素亮度值高于给定阈值的像素被分为背景像素。相对地,像素亮度值低于给定阈值的像素则为前景像素。而对于双面文档图像而言,背透像素通常要比产生它的文字的亮度高,而比背景像素要低。于是双阈值方法通常被用来进行分类检测。具体地,像素亮度高于第一给定阈值的像素划分为背景像素。相对地,像素亮度低于第二给定阈值的像素被认为是前景像素,而像素亮度介于这两个给定阈值之间的像素则为背透像素。在本公开中,背透像素即使被分类单元110分类到候选背景像素集合中,由于确定单元120会确定该背透像素不会处于双面文档的特定位置(因为与背透像素相对应的像素会被分类为前景像素),所以该背透像素的像素信息也不会被计算单元130用来计算强度阈值或梯度阈值。
图3示出了根据本公开的实施例的图像处理装置中的计算单元300。图3所示的计算单元300对应于图1所示的计算单元130。
如图3所示,计算单元300可以包括获取单元(第一获取单元)310、获取单元(第二获取单元)320、频率差值计算单元330和强度阈值确定单元340。
首先,获取单元310可以获取在第一候选背景像素集合中在特定位置处的像素的强度值的频率曲线。
其次,获取单元320可以获取由获取单元310获取的频率曲线的波峰和波谷。
进一步,频率差值计算单元330可以计算频率值最大的波峰和频率值次大的波峰之间的频率差值。
进而,当频率差值计算单元330计算的频率差值大于频率阈值时,强度阈值确定单元340可以选择频率值最大的波峰左侧的波谷所对应的强度值作为第一强度阈值。并且,当频率差值计算单元330计算的频率差值小于或者等于频率阈值时,强度阈值确定单元340可以选择频率值最大的波峰和频率值次大的波峰之间的波谷所对应的强度值作为第一强度阈值。
根据本公开,候选背景像素被选定为均一背景像素时,需要满足两个条件。一个条件是像素的亮度要高于给定亮度阈值,另一个条件是像素的梯度要低于给定梯度阈值。
具体地,为了得到某页图像的亮度阈值,例如首先可以计算候选背景像素的亮度直方图。针对双面打印图像,必须双面均为候选背景像素的像素(记为bgbg像素)才被选中用来得到该阈值,并且正面和反面图像的阈值分别计算。
第二步是直方图平滑。例如可以用均值滤波来平滑直方图曲线。
最后,寻找经过平滑后的曲线的波峰和波谷。对于纯文字的文本图像,仅仅有一个由均一背景像素产生的最大的波峰,以及噪声产生的一些小的波峰。这有别于带有图片或者半调的杂志图像的直方图,对这类图像,通常有至少两个明显的大波峰,分别代表均一背景和图片或者半调。图4和图5示例了以上两种情况。
亮度阈值通过波峰分布情况获得。具体地可以是找到前两个最大的波峰。如果两个峰值对应的频度相差过大(如图4所示),则最大波峰左侧的波谷值设置为阈值。否则(如图5所示),两个波峰之间的波谷值设置为阈值。
图6示出了根据本公开的另一实施例的图像处理装置中的计算单元600。图6所示的计算单元600同样对应于图1所示的计算单元130。
如图6所示,计算单元600可以包括获取单元(第一获取单元)610、获取单元(第二获取单元)620、频率差值计算单元630和梯度阈值确定单元640。
首先,获取单元610可以获取在第一候选背景像素集合中在特定位置处的像素的梯度值的频率曲线。
其次,获取单元620可以获取由获取单元610获取的频率曲线的波峰和波谷。
进一步,频率差值计算单元630可以计算频率值最大的波峰和频率值次大的波峰之间的频率差值。
进而,当频率差值计算单元630计算的频率差值大于频率阈值时,梯度阈值确定单元640可以选择频率值最大的波峰左侧的波谷所对应的梯度值作为梯度阈值。并且,当频率差值计算单元630计算的频率差值小于或者等于频率阈值时,梯度阈值确定单元640可以选择频率值最大的波峰和频率值次大的波峰之间的波谷所对应的梯度值作为梯度阈值。
从以上描述可以看出,梯度阈值可以通过上述与计算强度阈值的方法相同的方法计算,即可以通过候选背景像素的梯度直方图得到,这里不再予以重复。
根据本公开的优选实施例,背景像素获取单元140(参见图1)可以包括获得单元(未示出)和选择单元(未示出)。
获得单元可以获得第一候选背景像素集合中所有像素的强度值和梯度值。
接下来,选择单元可以选择强度值大于第一强度阈值并且梯度值小于梯度阈值的像素以构成均匀背景像素集合。
以这种方式,背景像素获取单元140就获取了更加精确的背景区域。
根据本公开的优选实施例,文字获取单元160(参见图1)可以包括连通域获取单元(未示出)和选择单元(未示出)。
连通域获取单元可以获取前景区域中的一个或者多个连通域。
进一步,选择单元可以从一个或者多个连通域中选择第一面文档的文档图像的文字区域。
图2示出了根据本公开的实施例的图像处理装置中的图片获取单元200。图2所示的图片获取单元200对应于图1所示的图片获取单元170。
如图2所示,图片获取单元200可以包括去除单元210、候选图片选择单元220和图片确定单元230。
去除单元210可以从前景区域中的一个或者多个连通域中去除属于文字区域的连通域。
接下来,候选图片选择单元220可以从剩余的连通域中选择第一面文档的文档图像的候选图片区域。
然后,图片确定单元230可以根据候选图片区域来确定第一面文档的文档图像的图片区域。
优选地,候选图片选择单元220可以从剩余的连通域中选择面积大于面积阈值并且紧实度大于紧实度阈值的连通域作为候选图片区域。这里,紧实度为既在连通域中又在连通域的凸包中的像素与连通域的凸包中的像素的比率。
另外,如图2所示,图片确定单元230可以包括填充单元231。填充单元231可以选择性地填充候选图片区域中的空白像素点。图片确定单元230可以将填充后的候选图片区域作为第一面文档的文档图像的图片区域。
需要说明的是,除了均一背景像素,其余的像素是所有可能的前景像素,包含文字、图片和半调。本公开可以将文字区域和图片以及半色调区域区分开来。例如,开操作可以用来从前景图像中去除可能的文字区域。计算连通域的面积可以获得面积直方图。由于文字数量通常远大于图片或者半色调的数量,所以直方图中最大峰值对应文字连通域的面积。于是用该面积S来确定开操作的结构元素,比如宽为W(S=W2)的方形结构元素。
经过开操作,剩下的连通域如果满足一定条件即被标注为图片或者半色调区域。例如可以用区域面积与包含该区域的最小凸包的面积之比表示区域的紧实度。面积大于给定阈值并且紧实度也大于给定阈值的区域可以判定为图片或者半调区域。
最后,填充图片或者半调区域中的小空洞,而大洞被保留,由此得到文档图像的图片区域。
下面结合图7来描述根据本公开的实施例的图像处理方法。根据本公开的方法可以对文档图像进行分割。
如图7所示,根据本公开的实施例的图像处理方法开始于步骤S110。在步骤S110中,对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合。
接下来,在步骤S120中,对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合。
接下来,在步骤S130中,确定双面文档的特定位置。这里,第一面文档的文档图像中在特定位置处的像素属于第一候选背景像素集合,并且第二面文档的文档图像中在特定位置处的像素属于第二候选背景像素集合。
接下来,在步骤S140中,基于在第一候选背景像素集合中在特定位置处的像素的强度值来计算第一强度阈值。
接下来,在步骤S150中,基于在第一候选背景像素集合中在特定位置处的像素的梯度值来计算梯度阈值。
接下来,在步骤S160中,根据第一强度阈值和梯度阈值对第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为第一面文档的文档图像的背景区域。
接下来,在步骤S170中,从第一面文档的文档图像中去除背景区域以获取第一面文档的文档图像的前景区域。在这之后,过程结束。
根据本公开的实施例,该方法可以进一步包括:从前景区域中选择第一面文档的文档图像的文字区域;以及根据前景区域和文字区域来确定第一面文档的文档图像的图片区域。
根据本公开的实施例,从前景区域中选择第一面文档的文档图像的文字区域可以包括:获取前景区域中的一个或者多个连通域;以及从一个或者多个连通域中选择第一面文档的文档图像的文字区域。
根据本公开的实施例,根据前景区域和文字区域来确定第一面文档的文档图像的图片区域可以包括:从前景区域中的一个或者多个连通域中去除属于文字区域的连通域;从剩余的连通域中选择第一面文档的文档图像的候选图片区域;以及根据候选图片区域来确定第一面文档的文档图像的图片区域。
根据本公开的实施例,从剩余的连通域中选择第一面文档的文档图像的候选图片区域可以包括:从剩余的连通域中选择面积大于面积阈值并且紧实度大于紧实度阈值的连通域作为候选图片区域,其中,紧实度为既在连通域中又在连通域的凸包中的像素与连通域的凸包中的像素的比率。
根据本公开的实施例,根据候选图片区域来确定第一面文档的文档图像的图片区域可以包括:选择性地填充候选图片区域中的空白像素点;以及将填充后的候选图片区域作为第一面文档的文档图像的图片区域。
根据本公开的实施例,在步骤S110中对双面文档中第一面文档的文档图像的像素进行分类以获取第一候选背景像素集合可以包括:计算第一面文档的文档图像中所有像素的强度值;以及选择强度值大于第二强度阈值的像素以构成第一候选背景像素集合。
根据本公开的实施例,在步骤S160中根据第一强度阈值和梯度阈值对第一候选背景像素集合中的像素进行分类以获取均匀背景像素集合可以包括:获得第一候选背景像素集合中所有像素的强度值和梯度值;以及选择强度值大于第一强度阈值并且梯度值小于梯度阈值的像素以构成均匀背景像素集合。
根据本公开的实施例,在步骤S140中基于在第一候选背景像素集合中在特定位置处的像素的强度值来计算第一强度阈值可以包括:获取在第一候选背景像素集合中在特定位置处的像素的强度值的频率曲线;获取频率曲线的波峰和波谷;计算频率值最大的波峰和频率值次大的波峰之间的频率差值;当频率差值大于频率阈值时,选择频率值最大的波峰左侧的波谷所对应的强度值作为第一强度阈值;以及当频率差值小于或者等于频率阈值时,选择频率值最大的波峰和频率值次大的波峰之间的波谷所对应的强度值作为第一强度阈值。
根据本公开的实施例,在步骤S150中基于在第一候选背景像素集合中在特定位置处的像素的梯度值来计算梯度阈值可以包括:获取在第一候选背景像素集合中在特定位置处的像素的梯度值的频率曲线;获取频率曲线的波峰和波谷;计算频率值最大的波峰和频率值次大的波峰之间的频率差值;当频率差值大于频率阈值时,选择频率值最大的波峰右侧的波谷所对应的梯度值作为梯度阈值;以及当频率差值小于或者等于频率阈值时,选择频率值最大的波峰和频率值次大的波峰之间的波谷所对应的梯度值作为梯度阈值。
根据本公开的实施例的图像处理方法的上述步骤的各种具体实施方式前面已经作过详细描述,在此不再重复说明。
显然,根据本公开的图像处理方法的各个操作过程可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本公开的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。此时,只要该系统或者设备具有执行程序的功能,则本公开的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,计算机通过连接到因特网上的相应网站,并且将依据本公开的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本公开的技术方案。
图8为其中可以实现根据本公开的实施例的图像处理装置和方法的通用个人计算机的示例性结构的框图。
如图8所示,CPU 1301根据只读存储器(ROM)1302中存储的程序或从存储部分1308加载到随机存取存储器(RAM)1303的程序执行各种处理。在RAM 1303中,也根据需要存储当CPU 1301执行各种处理等等时所需的数据。CPU 1301、ROM 1302和RAM 1303经由总线1304彼此连接。输入/输出接口1305也连接到总线1304。
下述部件连接到输入/输出接口1305:输入部分1306(包括键盘、鼠标等等)、输出部分1307(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,以及扬声器等)、存储部分1308(包括硬盘等)、通信部分1309(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1309经由网络比如因特网执行通信处理。根据需要,驱动器1310也可连接到输入/输出接口1305。可拆卸介质1311比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1310上,使得从中读出的计算机程序根据需要被安装到存储部分1308中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1311安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1311。可拆卸介质1311的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1302、存储部分1308中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
在本公开的系统和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上虽然结合附图详细描述了本公开的实施例,但是应当明白,上面所描述的实施方式只是用于说明本公开,而并不构成对本公开的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本公开的实质和范围。因此,本公开的范围仅由所附的权利要求及其等效含义来限定。
关于包括以上实施例的实施方式,还公开下述的附记:
附记1.一种图像处理装置,包括:
分类单元,用于对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合,并且对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;
确定单元,用于确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;
计算单元,用于基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值,并且基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;
背景获取单元,用于根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及
前景获取单元,用于从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
附记2.根据附记1所述的装置,进一步包括:
文字获取单元,用于从所述前景区域中选择所述第一面文档的文档图像的文字区域;以及
图片获取单元,用于根据所述前景区域和所述文字区域来确定所述第一面文档的文档图像的图片区域。
附记3.根据附记2所述的装置,其中,所述文字获取单元包括:
连通域获取单元,用于获取所述前景区域中的一个或者多个连通域;以及
选择单元,用于从所述一个或者多个连通域中选择所述第一面文档的文档图像的文字区域。
附记4.根据附记3所述的装置,其中,所述图片获取单元包括:
去除单元,用于从所述前景区域中的一个或者多个连通域中去除属于所述文字区域的连通域;
候选图片选择单元,用于从剩余的连通域中选择所述第一面文档的文档图像的候选图片区域;以及
图片确定单元,用于根据所述候选图片区域来确定所述第一面文档的文档图像的图片区域。
附记5.根据附记4所述的装置,其中,所述候选图片选择单元从剩余的连通域中选择面积大于面积阈值并且紧实度大于紧实度阈值的连通域作为所述候选图片区域,并且其中,所述紧实度为既在所述连通域中又在所述连通域的凸包中的像素与所述连通域的凸包中的像素的比率。
附记6.根据附记4所述的装置,其中,所述图片确定单元包括:
填充单元,用于选择性地填充所述候选图片区域中的空白像素点,并且
所述图片确定单元将填充后的候选图片区域作为所述第一面文档的文档图像的图片区域。
附记7.根据附记1所述的装置,其中,所述分类单元包括:
强度计算单元,用于计算所述第一面文档的文档图像中所有像素的强度值;以及
选择单元,用于选择强度值大于第二强度阈值的像素以构成所述第一候选背景像素集合。
附记8.根据附记1所述的装置,其中,所述背景获取单元包括:
获得单元,用于获得所述第一候选背景像素集合中所有像素的强度值和梯度值;以及
选择单元,用于选择强度值大于所述第一强度阈值并且梯度值小于所述梯度阈值的像素以构成所述均匀背景像素集合。
附记9.根据附记1所述的装置,其中,所述计算单元包括:
第一获取单元,用于获取在所述第一候选背景像素集合中在特定位置处的像素的强度值的频率曲线;
第二获取单元,用于获取所述频率曲线的波峰和波谷;
频率差值计算单元,用于计算频率值最大的波峰和频率值次大的波峰之间的频率差值;以及
强度阈值确定单元,用于当所述频率差值大于频率阈值时,选择所述频率值最大的波峰左侧的波谷所对应的强度值作为所述第一强度阈值,并且当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的强度值作为所述第一强度阈值。
附记10.根据附记1所述的装置,其中,所述计算单元包括:
第一获取单元,用于获取在所述第一候选背景像素集合中在特定位置处的像素的梯度值的频率曲线;
第二获取单元,用于获取所述频率曲线的波峰和波谷;
频率差值计算单元,用于计算频率值最大的波峰和频率值次大的波峰之间的频率差值;以及
梯度阈值确定单元,用于当所述频率差值大于频率阈值时,选择所述频率值最大的波峰右侧的波谷所对应的梯度值作为所述梯度阈值,并且当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的梯度值作为所述梯度阈值。
附记11.一种图像处理方法,包括:
对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合;
对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;
确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;
基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值;
基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;
根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及
从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
附记12.根据附记11所述的方法,进一步包括:
从所述前景区域中选择所述第一面文档的文档图像的文字区域;以及
根据所述前景区域和所述文字区域来确定所述第一面文档的文档图像的图片区域。
附记13.根据附记12所述的方法,其中,从所述前景区域中选择所述第一面文档的文档图像的文字区域包括:
获取所述前景区域中的一个或者多个连通域;以及
从所述一个或者多个连通域中选择所述第一面文档的文档图像的文字区域。
附记14.根据附记13所述的方法,其中,根据所述前景区域和所述文字区域来确定所述第一面文档的文档图像的图片区域包括:
从所述前景区域中的一个或者多个连通域中去除属于所述文字区域的连通域;
从剩余的连通域中选择所述第一面文档的文档图像的候选图片区域;以及
根据所述候选图片区域来确定所述第一面文档的文档图像的图片区域。
附记15.根据附记14所述的方法,其中,从剩余的连通域中选择所述第一面文档的文档图像的候选图片区域包括:
从剩余的连通域中选择面积大于面积阈值并且紧实度大于紧实度阈值的连通域作为所述候选图片区域,
其中,所述紧实度为既在所述连通域中又在所述连通域的凸包中的像素与所述连通域的凸包中的像素的比率。
附记16.根据附记14所述的方法,其中,根据所述候选图片区域来确定所述第一面文档的文档图像的图片区域包括:
选择性地填充所述候选图片区域中的空白像素点;以及
将填充后的候选图片区域作为所述第一面文档的文档图像的图片区域。
附记17.根据附记11所述的方法,其中,根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类以获取均匀背景像素集合包括:
获得所述第一候选背景像素集合中所有像素的强度值和梯度值;以及
选择强度值大于所述第一强度阈值并且梯度值小于所述梯度阈值的像素以构成所述均匀背景像素集合。
附记18.根据附记11所述的方法,其中,基于在所述第一候选背景像素集合中在特定位置处的像素的强度值来计算第一强度阈值包括:
获取在所述第一候选背景像素集合中在特定位置处的像素的强度值的频率曲线;
获取所述频率曲线的波峰和波谷;
计算频率值最大的波峰和频率值次大的波峰之间的频率差值;
当所述频率差值大于频率阈值时,选择所述频率值最大的波峰左侧的波谷所对应的强度值作为所述第一强度阈值;以及
当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的强度值作为所述第一强度阈值。
附记19.根据附记11所述的方法,其中,基于在所述第一候选背景像素集合中在特定位置处的像素的梯度值来计算梯度阈值包括:
获取在所述第一候选背景像素集合中在特定位置处的像素的梯度值的频率曲线;
获取所述频率曲线的波峰和波谷;
计算频率值最大的波峰和频率值次大的波峰之间的频率差值;
当所述频率差值大于频率阈值时,选择所述频率值最大的波峰右侧的波谷所对应的梯度值作为所述梯度阈值;以及
当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的梯度值作为所述梯度阈值。
附记20.一种机器可读存储介质,其上携带有包括存储在其中的机器可读指令代码的程序产品,其中,所述指令代码当由计算机读取和执行时,能够使所述计算机执行根据附记11-19中任何一项所述的方法。
Claims (10)
1.一种图像处理装置,包括:
分类单元,用于对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合,并且对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;
确定单元,用于确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;
计算单元,用于基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值,并且基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;
背景获取单元,用于根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及
前景获取单元,用于从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
2.根据权利要求1所述的装置,进一步包括:
文字获取单元,用于从所述前景区域中选择所述第一面文档的文档图像的文字区域;以及
图片获取单元,用于根据所述前景区域和所述文字区域来确定所述第一面文档的文档图像的图片区域。
3.根据权利要求2所述的装置,其中,所述文字获取单元包括:
连通域获取单元,用于获取所述前景区域中的一个或者多个连通域;以及
选择单元,用于从所述一个或者多个连通域中选择所述第一面文档的文档图像的文字区域。
4.根据权利要求3所述的装置,其中,所述图片获取单元包括:
去除单元,用于从所述前景区域中的一个或者多个连通域中去除属于所述文字区域的连通域;
候选图片选择单元,用于从剩余的连通域中选择所述第一面文档的文档图像的候选图片区域;以及
图片确定单元,用于根据所述候选图片区域来确定所述第一面文档的文档图像的图片区域。
5.根据权利要求4所述的装置,其中,所述候选图片选择单元从剩余的连通域中选择面积大于面积阈值并且紧实度大于紧实度阈值的连通域作为所述候选图片区域,并且其中,所述紧实度为既在所述连通域中又在所述连通域的凸包中的像素与所述连通域的凸包中的像素的比率。
6.根据权利要求4所述的装置,其中,所述图片确定单元包括:
填充单元,用于选择性地填充所述候选图片区域中的空白像素点,并且
所述图片确定单元将填充后的候选图片区域作为所述第一面文档的文档图像的图片区域。
7.根据权利要求1所述的装置,其中,所述背景获取单元包括:
获得单元,用于获得所述第一候选背景像素集合中所有像素的强度值和梯度值;以及
选择单元,用于选择强度值大于所述第一强度阈值并且梯度值小于所述梯度阈值的像素以构成所述均匀背景像素集合。
8.根据权利要求1所述的装置,其中,所述计算单元包括:
第一获取单元,用于获取在所述第一候选背景像素集合中在特定位置处的像素的强度值的频率曲线;
第二获取单元,用于获取所述频率曲线的波峰和波谷;
频率差值计算单元,用于计算频率值最大的波峰和频率值次大的波峰之间的频率差值;以及
强度阈值确定单元,用于当所述频率差值大于频率阈值时,选择所述频率值最大的波峰左侧的波谷所对应的强度值作为所述第一强度阈值,并且当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的强度值作为所述第一强度阈值。
9.根据权利要求1所述的装置,其中,所述计算单元包括:
第一获取单元,用于获取在所述第一候选背景像素集合中在特定位置处的像素的梯度值的频率曲线;
第二获取单元,用于获取所述频率曲线的波峰和波谷;
频率差值计算单元,用于计算频率值最大的波峰和频率值次大的波峰之间的频率差值;以及
梯度阈值确定单元,用于当所述频率差值大于频率阈值时,选择所述频率值最大的波峰右侧的波谷所对应的梯度值作为所述梯度阈值,并且当所述频率差值小于或者等于频率阈值时,选择所述频率值最大的波峰和所述频率值次大的波峰之间的波谷所对应的梯度值作为所述梯度阈值。
10.一种图像处理方法,包括:
对双面文档中第一面文档的文档图像的像素进行分类,以获取第一候选背景像素集合;
对双面文档中第二面文档的文档图像的像素进行分类,以获取第二候选背景像素集合;
确定所述双面文档的特定位置,其中所述第一面文档的文档图像中在所述特定位置处的像素属于所述第一候选背景像素集合,并且所述第二面文档的文档图像中在所述特定位置处的像素属于所述第二候选背景像素集合;
基于在所述第一候选背景像素集合中在所述特定位置处的像素的强度值来计算第一强度阈值;
基于在所述第一候选背景像素集合中在所述特定位置处的像素的梯度值来计算梯度阈值;
根据所述第一强度阈值和所述梯度阈值对所述第一候选背景像素集合中的像素进行分类,以获取均匀背景像素集合作为所述第一面文档的文档图像的背景区域;以及
从所述第一面文档的文档图像中去除所述背景区域以获取所述第一面文档的文档图像的前景区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510253089.7A CN106296629B (zh) | 2015-05-18 | 2015-05-18 | 图像处理装置和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510253089.7A CN106296629B (zh) | 2015-05-18 | 2015-05-18 | 图像处理装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106296629A true CN106296629A (zh) | 2017-01-04 |
CN106296629B CN106296629B (zh) | 2019-01-22 |
Family
ID=57631217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510253089.7A Active CN106296629B (zh) | 2015-05-18 | 2015-05-18 | 图像处理装置和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106296629B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898169A (zh) * | 2018-06-19 | 2018-11-27 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108961157A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN109637505A (zh) * | 2018-12-21 | 2019-04-16 | 余姚市荣大塑业有限公司 | 四琴弦式中提琴 |
CN115908458A (zh) * | 2023-03-09 | 2023-04-04 | 国家海洋局南海标准计量中心 | 一种深海区域干涉条纹提取方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1700253A (zh) * | 2004-05-20 | 2005-11-23 | 明基电通股份有限公司 | 图像修正系统及方法以及计算机可读取存储媒体 |
US7428331B2 (en) * | 2004-11-30 | 2008-09-23 | Seiko Epson Corporation | Page background estimation using color, texture and edge features |
CN101615252A (zh) * | 2008-06-25 | 2009-12-30 | 中国科学院自动化研究所 | 一种自适应图像文本信息提取方法 |
CN102194117A (zh) * | 2010-03-05 | 2011-09-21 | 北京大学 | 文稿页面方向检测方法和装置 |
CN103729636A (zh) * | 2013-12-18 | 2014-04-16 | 小米科技有限责任公司 | 字符切割方法、装置及电子设备 |
-
2015
- 2015-05-18 CN CN201510253089.7A patent/CN106296629B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1700253A (zh) * | 2004-05-20 | 2005-11-23 | 明基电通股份有限公司 | 图像修正系统及方法以及计算机可读取存储媒体 |
US7428331B2 (en) * | 2004-11-30 | 2008-09-23 | Seiko Epson Corporation | Page background estimation using color, texture and edge features |
CN101615252A (zh) * | 2008-06-25 | 2009-12-30 | 中国科学院自动化研究所 | 一种自适应图像文本信息提取方法 |
CN102194117A (zh) * | 2010-03-05 | 2011-09-21 | 北京大学 | 文稿页面方向检测方法和装置 |
CN103729636A (zh) * | 2013-12-18 | 2014-04-16 | 小米科技有限责任公司 | 字符切割方法、装置及电子设备 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108898169A (zh) * | 2018-06-19 | 2018-11-27 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108961157A (zh) * | 2018-06-19 | 2018-12-07 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN108961157B (zh) * | 2018-06-19 | 2021-06-01 | Oppo广东移动通信有限公司 | 图片处理方法、图片处理装置及终端设备 |
CN109637505A (zh) * | 2018-12-21 | 2019-04-16 | 余姚市荣大塑业有限公司 | 四琴弦式中提琴 |
CN109637505B (zh) * | 2018-12-21 | 2020-11-17 | 苏州依唯森电器有限公司 | 四琴弦式中提琴 |
CN115908458A (zh) * | 2023-03-09 | 2023-04-04 | 国家海洋局南海标准计量中心 | 一种深海区域干涉条纹提取方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106296629B (zh) | 2019-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6100744B2 (ja) | 自動修復を用いたカラー文書画像セグメンテーション及び二値化 | |
CN105096347B (zh) | 图像处理装置和方法 | |
EP2461290B1 (en) | Image processing device, image processing method, and program | |
JP4745297B2 (ja) | デジタル画像における均一な色の領域を特定する方法およびシステム | |
US9092668B2 (en) | Identifying picture areas based on gradient image analysis | |
CN107093172A (zh) | 文字检测方法及系统 | |
CN106326895A (zh) | 图像处理装置和图像处理方法 | |
CN106296629A (zh) | 图像处理装置和方法 | |
CN103971361B (zh) | 图像处理装置和方法 | |
CN105719243A (zh) | 图像处理装置和方法 | |
JP2009111978A (ja) | 背景色を推定する方法およびシステム | |
CN102855478B (zh) | 图像中文本区域定位方法和装置 | |
US20120242792A1 (en) | Method and apparatus for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by image difference determination | |
CN112348831A (zh) | 基于机器学习的页岩sem图像分割方法 | |
Boiangiu et al. | Voting Based Image Binarization | |
CN110246139B (zh) | 基于双阈值的浮游生物原位图像roi快速提取方法 | |
JP5888068B2 (ja) | 画像処理装置およびプログラム | |
JPWO2008099580A1 (ja) | 細胞特徴量算出装置および細胞特徴量算出方法 | |
CN106611406B (zh) | 图像校正方法和图像校正设备 | |
TW200820136A (en) | Video content detector | |
CN108596840A (zh) | 一种用于深度学习评定血管网络发育水平的数据集增强方法 | |
CN102930267B (zh) | 卡片扫描图像的切分方法 | |
CN105335935B (zh) | 图像处理装置和方法 | |
Shao et al. | An adaptive image contrast enhancement algorithm based on retinex | |
JP6031936B2 (ja) | 画像処理装置及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |