CN101819632A - 用于内容识别的系统和方法 - Google Patents

用于内容识别的系统和方法 Download PDF

Info

Publication number
CN101819632A
CN101819632A CN201010156688A CN201010156688A CN101819632A CN 101819632 A CN101819632 A CN 101819632A CN 201010156688 A CN201010156688 A CN 201010156688A CN 201010156688 A CN201010156688 A CN 201010156688A CN 101819632 A CN101819632 A CN 101819632A
Authority
CN
China
Prior art keywords
content
data set
scans
content data
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201010156688A
Other languages
English (en)
Other versions
CN101819632B (zh
Inventor
詹姆斯·T·史密斯第二
李红
约瑟夫·S·齐斯兹克泽维斯基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liguang Co ltd
Ricoh Production Print Solutions LLC
Original Assignee
Ricoh Production Print Solutions LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Production Print Solutions LLC filed Critical Ricoh Production Print Solutions LLC
Publication of CN101819632A publication Critical patent/CN101819632A/zh
Application granted granted Critical
Publication of CN101819632B publication Critical patent/CN101819632B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

公开了一种用于识别在扫描图像内的内容的系统和方法。所述系统包括:扫描器,配置为捕获和数字化具有内容段的扫描内容;电子数据存储器件,配置为存储用于描述扫描内容的扫描内容数据集;以及分段装置,配置为识别所述内容段的内容段类型,并被配置为通过向扫描内容数据集应用S形函数而建立修改内容数据集,其中所述修改内容数据集对应于修改内容直方图,该修改内容直方图比对应于扫描内容数据集的扫描内容直方图更极化。

Description

用于内容识别的系统和方法
本发明是申请日为2006年8月25日、申请号为200610121882.2且发明名称为“用于内容识别的系统和方法”的发明专利申请的分案申请。
技术领域
本发明涉及扫描图像分割,具体上涉及识别在被扫描的文件中的文本、图像和艺术线条内容。
背景技术
诸如绝版(out-of-print)书籍之类的硬拷贝文件的传统数字化是缓慢和困难的。部分地,所述困难起因于识别在给定文件中的各种类型内容的需要。一些典型内容类型是文本、图像和艺术线条。文本一般包括具有一致大小的小字符或符号。艺术线条一般包括线条和图案的绘制图。图像一般包括具有许多中间级(诸如灰度)来描绘某个画面的画面。文本和艺术线条基本上是双级的(例如黑和白)。相反,图像具有更多的半色调形式的灰度级(例如在8位系统中的256级)(例如,近似于中间色或阴影——诸如灰色——的空间分布的高分辨率像素)。
术语“扫描内容”在此用于指被扫描和数字化的任何内容。术语“图像内容”指在扫描内容中的特定类型的内容、半色调图像。其他类型的内容包括文本和艺术线条,如上所述。为了保持扫描内容的优质再现,可以不同的方式来处理不同的内容类型。但是,为了以不同的方式来处理不同的内容类型,可能需要首先识别每个内容类型。
一种传统的扫描技术使用在文件中的不同内容类型的人工识别。例如,一个人在内容段周围物理地绘制矩形限制的方框或其他标识符,以指示应当以某种方式来处理所述被限制的内容。内容段指具有一致内容类型的扫描文件或扫描内容的一部分。可以按照默认处理模式来处理在所述限制方框之外的内容。因此,在一个示例中,一个人可以在半色调图像段周围而不是在文本段周围绘制矩形限制方框。所述半色调图像可以被去遮蔽(descreen)以去除半色调,并且可以将文本简单地按比例放大到较高的分辨率,并且将阈值按比例变为两级。传统的去遮蔽使用用于将半色调平滑为共色(contone)图像的算法。不幸的是,这种用于在图像周围绘制矩形限制方框的传统方法缓慢并且成本大。
另一种传统的扫描技术使用局部优化,局部优化使用在扫描内容中的局部信息,确定是否应当将内容段当作两级文本和艺术线条或半色调图像。但是,局部优化没有足够的信息来将扫描文件分割为可以按照每个段的内容类型而不同地处理的独立内容段。结果,局部优化扫描技术可导致降低的图像质量。
从上述的讨论应当清楚的是,需要一种用于克服传统扫描分段技术的装置、系统和方法。有益的是,这样的装置、系统和方法将比人工分段更快和简单。另外,这样的装置、系统和方法将比局部优化技术更准确。
发明内容
响应于本领域的当前状态,具体上响应于还没有由当前的扫描分段技术完全解决的本领域内的问题和需要,已经开发了本发明的几个实施例。因此,本发明已经被开发来提供一种用于扫描分段的装置、系统和方法,其克服了在本领域内的许多或全部上述缺陷。
本发明的各实施例便于扫描分段。具体上,某些实施例自动化扫描分段,包括识别段和每个段的内容类型。
用于识别在扫描内容中的内容的装置配备逻辑单元,它包括多个模块,它们被配置来在功能上执行扫描分段所需要的操作。在所述实施例中的这些模块包括图像模块、修改模块、识别模块、分段模块、面积计算模块、面积比较模块、子图像模块、直方图计算模块、直方图比较模块和相邻模块。  在一个实施例中,所述图像模块访问扫描内容数据集。所述扫描内容数据集可以作为修改内容数据集的基础,所述修改内容数据集继而可以用于识别扫描内容的可能内容类型。
在一个实施例中,所述修改模块从扫描内容数据集建立修改内容数据集。为了建立修改内容数据集,修改模块可以向扫描内容数据集应用数学函数。在一个实施例中,所述修改模块向扫描内容数据集应用S形函数,以便建立修改内容数据集。
在一个实施例中,所述识别模块识别在修改内容数据集内的内容段。所述识别模块可以使用8相邻连接性确定来识别修改内容数据集的内容段。
在一个实施例中,所述分段模块识别在修改内容数据集内的内容段的内容段类型。对应地,所述分段模块识别扫描内容数据集的内容段的内容段类型。在一个实施例中,所述分段模块响应于所计算的段表面面积小于预定的最小图像表面面积的判定,将内容段的内容段类型识别为文本。
在一个实施例中,如果所述段表面面积不小于预定的最小图像表面面积,则分段模块响应于修改内容直方图类似于扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。否则,所述分段模块可以响应于所述修改内容直方图不类似于扫描内容直方图的判定,将内容段的内容段类型识别为图像。或者,所述分段模块可以将所述内容段类型识别为另一内容类型。
在一个实施例中,所述面积计算模块计算在修改内容数据集内的内容段的段表面面积。在一个实施例中,所述面积比较模块将所计算的内容段的段表面面积与预定的最小图像表面面积相比较。
在一个实施例中,所述子图像模块定义子图像窗口,它包括其大小被确定为等于或大于所述最小图像表面面积的内容段。所述子图像窗口可以用于识别修改内容数据集的数据的一部分或扫描内容数据集的对应部分。在一个实施例中,所述子图像窗口可以是矩形的,其宽度和高度近似等于但是略大于所选择的内容段的所计算的宽度和高度。或者,所述子图像窗口可以使用其他形状的各种大小或轮廓。
在一个实施例中,所述直方图计算模块计算用于描述扫描内容数据集的扫描内容直方图。具体上,所述直方图计算模块可以计算对应于被应用到扫描内容数据集的子图像窗口的扫描内容立方图。类似地,所述直方图计算模块可以计算对应于被应用到修改内容数据集的子图像窗口的修改内容直方图。在一个实施例中,所述直方图比较模块将修改内容直方图与扫描内容直方图相比较。
在一个实施例中,所述相邻模块将预定范围的像素值转换为在预定范围内的单个像素值,换句话说,所述相邻模块向在某组像素值内的每个像素分配单个像素值。所述相邻模块可以对于对应于单色通道或多色通道的修改内容数据集执行这样的分组操作。
一种本发明的系统也被提供来识别在扫描文件内的内容。所述系统可以被体现为具有扫描器、电子存储器件和分段装置的扫描器系统。所述扫描器捕获和数字化具有内容段的扫描内容。所述电子数据存储器件存储用于描述所述数字化的扫描内容的扫描内容数据集。所述分段装置识别内容段的内容段类型。所述系统也可包括用户界面、捕获模块和数字化模块。
一种信号承载介质也被提供来存储程序,所述程序当被执行时执行识别在扫描内容内的内容的操作。在一个实施例中,所述操作包括:通过向扫描内容数据集应用S形函数来建立修改内容数据集;识别在修改内容数据集内的内容段;并且在修改的扫描数据和原始扫描数据之间比较数据。
在进一步的实施例中,所述操作可以包括:确定与基本上黑色的像素的8相邻连接性,并且识别在所述内容段内的所有像素。在进一步的实施例中,所述操作可以包括:计算在修改内容数据集内的内容段的段表面面积,将所述段表面面积与最小的图像表面面积相比较:并且/或者响应于所述段表面面积小于所述最小图像表面面积的判定,将内容段的内容段类型识别为文本。
在进一步的实施例中,所述操作可以包括:响应于内容段不是文本的判定,定义包括内容段的子图像窗口;计算对应于所述子图像窗口的扫描内容直方图;计算对应于子图像窗口的修改的扫描内容直方图;并且/或者,将修改的扫描内容直方图与所述扫描内容直方图相比较。在进一步的实施例中,所述操作可以包括:响应于所述修改的扫描内容直方图类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条;响应于所述修改的扫描内容直方图不类似于所述扫描内容直方图的判定,将内容段的内容段类型识别为图像;并且/或者,将预定范围的像素值转换为在所述预定范围的像素值内的单个像素值。
有益的是,所提供的实施例自动地识别扫描内容的段,并且识别每个段的内容类型。各个段的内容类型的识别便于按照其内容类型而适当地处理每个段。另外,这样的扫描分段提高了扫描数字化和再现的质量。
遍及本说明书对于特征、优点或类似的语言的引用,不意味着可以使用本发明实现的所有特征和优点应当处于或处于本发明的任何单个实施例中。而是,引用所述特征和优点的语言被明白表示:结合一个实施例所述的具体特征、优点或特性被包括在本发明的至少一个实施例中。因此,遍及本说明书对于特征和优点和类似的语言的讨论可以但不必然指向同一实施例。
而且,可以在一个或多个实施例中以任何适当的方式来组合本发明的所述特征、优点和特性。本领域内的技术人员将会认识到:可以在没有特定实施例的一个或多个具体特征或优点的情况下实践本发明。在其他情况下,在某些实施例中可识别本发明的所有实施例中可能未提供的另外的特征和优点。
本发明的这些特征和优点通过下面的说明和权利要求将变得更充分清楚,或者可以通过实践如以下给出的本发明来获知。
附图说明
为了会容易地了解本发明的优点,将通过参见在附图中图解的具体实施例,提供如上简述的本发明的更具体的说明。在了解这些附图仅仅描述本发明的典型实施例、因此不被视为限制其范围的情况下,将通过使用附图来额外具体和详细地描述和解释本发明,附图中:
图1是图解扫描器系统的一个实施例的示意方框图;
图2是图解分段装置的一个实施例的示意方框图;
图3是图解具有各种类型的内容的文件的一个实施例的示意方框图;
图4是图解S形函数的一个实施例的示意曲线图;
图5是图解像素阵列的一个实施例的示意方框图;
图6是图解分段方法的一个实施例的示意流程图;
图7是图解分段识别方法的一个实施例的示意流程图;以及图8是图解类型识别方法的一个实施例的示意流程图。
具体实施方式
在本说明书中所述的许多功能单元已经被标注为模块,以便更具体地强调它们的实现独立性。例如,可以将模块实现为硬件电路,它包括定制的VLSI(超大规模集成电路)或门阵列、诸如逻辑芯片、晶体管或其他离散分段的现成半导体。模块也可以被实现在可编程硬件器件中,诸如现场可编程门阵列、可编程阵列逻辑或可编程逻辑器件等。
也可以以通过各种类型的处理器执行的软件来实现模块。可执行代码的被识别模块可以例如包括计算机指令的一个或多个物理或者逻辑块,其例如被组织为对象、过程或功能。尽管如此,被识别模块的可执行部分不必物理地位于一起,而是可以包括在不同位置存储的全异指令,其当在逻辑上结合在一起时包括所述模块,并且实现所述模块的所述目的。
事实上,可执行代码的模块可以是单个指令或多个指令,并且可以甚至被分布在几个不同的代码段上、在不同的程序之间和跨越几个存储器件。类似地,操作数据可以在此在各模块内被识别和图解,并且可以以任何适当的形式被体现并且被组织在任何适当类型的数据结构中。所述操作数据可以被汇集为单个数据集,或者可以被分布在包括不同存储器件上的不同位置上,并且可以至少部分地仅仅作为在系统或网络上的电子信号存在。
图1说明了扫描器系统100的一个实施例。所图解的扫描器系统100包括中央处理单元(CPU)102,用户界面104和电子存储器件106。所图解的扫描器系统100也包括捕获模块108、数字化模块110和分段装置112。
CPU 102处理算术和逻辑运算以及控制指令。在一个实施例中,用户界面104包括硬件和软件,以便于向扫描器系统100中输入用户命令以及向用户显示或另外通信来自扫描器系统100的信息。用户界面104可以包括硬件和软件,所述硬件诸如键盘、可视显示器等,所述软件诸如命令提示、图形用户界面(GUl)、菜单等。
捕获模块108便于使用硬件和/或软件来捕获文件图像。类似地,数字化模块110便于建立所捕获的文件的数字化图像。所述文件的数字化图像在此被称为扫描内容。在一个实施例中,扫描内容被表示为用于描述在扫描内容内的许多独立像素的扫描内容数据集114。扫描内容数据集114可以如图所示被存储在电子存储器件106中或另一电子存储器件中。电子存储器件106或其他的电子存储器件可以是扫描器系统100本地的,如图所示,或者可以位于扫描器系统100的远处。
当在扫描内容数据集114中以诸如黑色之类的单色通道来表示扫描内容时,每个像素可以具有对应于相关联的像素的灰度级的单色调值。或者,当通过诸如红色、绿色和蓝色之类的多色通道来表示扫描内容时,每个像素可以具有对应于相关联的像素的每个色调级的色调值。在一个实施例中,色调的色调值在8位系统中在0和255之间。例如,0可以表示黑色,255可以表示白色,并且在0和255之间的中间值可以表示特定级的灰色、红色、蓝色或绿色。或者,所述色调值的范围可小于或大于8位系统中的色调值的范围。
分段装置112便于将扫描内容自动地分割为不同的内容类型,诸如文本、艺术线条和图像。如在此使用的,术语“图像”与“扫描内容”区分地被使用来表示内容类型而不是文件本身的图形表示。在某些实施例中,分段装置112实现修改内容数据集(未示出),以便利扫描内容数据集114的分段。分段装置112可以是对扫描器系统100本地的,如图所示,或可以在扫描器系统100远处。参见图2而更详细地示出和描述了分段装置112的一个示例。
图2描述了实际上可类似于图1的分段装置112的分段装置200的一个实施例。所图解的分段装置200包括图像模块202、修改模块204、识别模块206、分段模块208、面积计算模块210、面积比较模块212、子图像模块214、直方图计算模块216、直方图比较模块218和相邻模块220。除了下面马上说明的之外,参见图6-8的流程图进一步说明这些模块的每个的功能的实施例。
在一个实施例中,图像模块202访问扫描内容数据集114。扫描内容数据集114可以作为修改内容数据集的基础,所述修改内容数据集继而可以用于识别扫描内容的可能内容类型。
在一个实施例中,修改模块204从扫描内容数据集114建立修改内容数据集。以这种方式,扫描内容数据集114可以保持不变,同时操纵修改内容数据集以确定在扫描内容内的各个段的内容类型。如在此使用的,术语“段(segment)”表示在扫描内容内的一致内容类型的区域。在一个实施例中,可以通过与扫描内容的其他段的物理分离来识别段。例如,文本的一个段落可以由从艺术线条绘制的空白来分离。类似地,通过扫描文件内的间隔或边缘,可以将画面、图形、图表或图像与文本分离。参见图3,更详细地示出和说明内容类型的一些示例。
为了建立修改内容数据集,修改模块204可以向扫描内容数据集114应用数学函数。在一个实施例中,修改模块204向扫描内容数据集114应用S形函数,以便建立修改内容数据集。参见图4,更详细地示出和说明S形函数的曲线图的一个示例。
一般地,数学S形函数可以便于将数据向极性极端强制。在像素值的情况下,数学S形函数可以用于将扫描内容数据集114的中间值转换为更接近0或255的新值。以这种方式,向扫描内容数据集114应用数学S形函数,可以便于在双级段(例如文本和艺术线条)和半色调段(例如图像)之间区分。数学S形函数的一个示例如下:
f ( x ) = ( x 128 ) n &times; 128,0 < x < 128
f ( x ) = 255 - ( 255 - x 127 ) n &times; 127,128 < x < 255
其中,n是用于确定S形函数的形状的参数,x是扫描内容数据集114的像素的像素值,f(x)定义修改内容数据集的修改像素的对应修改像素值。在替代实施例中,可以使用数学S形函数的其他变形。在进一步的实施例中,修改模块204可以应用类似于数学S形函数的其他函数,以便建立修改内容数据集。
在一个实施例中,识别模块206分析所述修改内容数据集,以从扫描内容识别独立的段。在一个实施例中,识别模块206可以使用8相邻连接性确定来识别修改内容数据集的内容段。一般地,8相邻连接性的确定指:分析所选择的像素的相邻像素,确定是否相邻像素连接到所选择的像素。换句话说,可以使用8相邻连接性来确定一个段包括相邻像素的程度。当通过多个迭代而扩展时,8相邻连接性便于了内容段的周长的识别。参见图5而说明关于8相邻连接性的进一步的细节。
在一个实施例中,分段模块208识别在修改内容数据集内的内容段的内容段类型。对应地,分段模块208识别扫描内容数据集114的内容段的内容段类型。在一个实施例中,分段模块208响应于判定所计算的段表面面积小于预定的最小图像表面面积,识别内容段的内容段类型为文本。
在另一个实施例中,如果所述段表面面积不小于预定的最小图像表面面积,则分段模块208响应于修改内容直方图类似于扫描内容直方图的判定,将内容段的内容段类型识别为艺术线条。否则,分段模块208可以响应于修改内容直方图不类似于扫描内容直方图的判定,将内容段的内容段类型识别为图像。  在一个实施例中,面积计算模块210计算在修改内容数据集内的内容段的段表面面积。可以以多种方式来计算所述段表面面积。例如,可以通过相加在内容段内的“导通(on)”像素的总数而计算内容段的段表面面积。所述“导通”像素来自使用内容段的左、右、上、下坐标而建立的矩形限制方框的位图。
在一个实施例中,面积比较模块212将所计算的内容段的段表面面积与预定的最小图像表面面积相比较。可以以像素、量度或描述可以与所计算的段表面面积相比较的最小图像尺寸的任何其他量,表达所述最小图像表面面积。在一个实施例中,预定的最小图像表面面积的使用预先假定:所有的非文本段将具有大子任何文本段的最大尺寸的最小尽寸。否则,可以将具有等于或大于最小图像表面面积的表面面积的文本段处理为图形而不是文本。但是,在给定识别和处理双级图形的能力的情况下,这样的处理可能不会对于过大的文本的图像质量有害,如下所述。
在一个实施例中,子图像模块214定义子图像窗口,它包括被确定为等于或大于最小图像表面面积的内容段。换句话说,如果内容段被确定为不是文本,则子图像模块214可以定义大约围绕所述非文本段的子图像窗口。所述子图像窗口可以用于识别修改内容数据集的数据的一部分或扫描内容数据集114的对应部分。在一个实施例中,所述子图像窗口可以是矩形的,其宽度和高度大约等于但是略大于所选择的内容段的所计算的宽度和高度。参见图3更详细示出和说明子图像窗口的一个示例。
在一个实施例中,直方图计算模块216计算用于描述扫描内容数据集114的扫描内容直方图。具体上,直方图计算模块216可以计算对应于被应用到扫描内容数据集114的子图像窗口的扫描内容直方图。类似地,直方图计算模块216可以计算对应于被应用到修改内容数据集的子图像窗口的修改内容直方图。一般地,直方图是被分析数据的不同灰度级的频率分布的表示。
在一个实施例中,直方图比较模块218将修改内容直方图与扫描内容直方图相比较。如上所述,在所述直方图之间的类似性可以被分段模块208解释为指示对应的内容段是双级艺术线条,因为应用S形函数对于基本上黑和白的图形有很小的影响。或者,在所述直方图之间的不类似性可以被分段模块208解释为指示对应的内容段是半色调图像,因为S形函数的应用使得中间色调级图像失真。
在一个实施例中,相邻模块220将预定范围的像素值转换为在所述预定范围内的单个像素值。换句话说,相邻模块220向某组像素值内的每个像素分配单个像素值。例如,相邻模块220可以识别具有在0和10之间的像素值的、在扫描内容数据集114内的所有像素。然后相邻模块220可以使用黑色模块222,向所有那些被识别的像素分配0值。以这种方式,假定是黑色的所有的像素实际上被分配为黑色。类似地,相邻模块220可以识别具有在245和255之间的像素值的所有像素,并且使用白色模块224将它们转换为255的值。相邻模块220也可以执行彩色像素的类似操作,改变单个色调(例如红色、绿色和蓝色)或色调的组合。有益的是,相邻模块220可以提高扫描数据的动态范围,并且去除噪音。
图3描述了具有各种类型的内容的文件300的一个实施例。所图解的文件300表示可扫描的文件,诸如来自书籍的页面,它可以由扫描器系统100扫描。文件300也图解可以被扫描内容数据集114表示的扫描内容302(由最外部的虚线示出)。
所述的文件300包括在可扫描的文件的区域内的三种不同的内容类型。可扫描文件的最上面的内容段包括双级艺术线条内容。可扫描文件的中间的内容段包括双级文本(由方框表示)。可扫描的文件的最低的内容段包括半色调图像。
如在此所述,分段装置200识别表示扫描内容的扫描内容数据集114的各种内容段。分段装置200可以使用修改内容数据集来便利这样的识别。分段装置200也识别每个内容段的内容类型。在所述的实施例中,扫描内容数据集114包括三个内容段。艺术线条内容对应于艺术线条段304。文本内容对应于文本段306。在另一个实施例中,每个文本字符可以被定义为独立文本段306。图像内容对应于图像段308。图6-8的流程图提供了分段装置200可以执行来识别每个内容段及其内容类型的操作的一个实施例的进一步的细节。
图4描述了数学S形函数的一个实施例。S形函数的所图解的图形表示400仅仅是一个示例表示。其他类型的S形函数部分地根据所使用的常数,可以产生更多或更少线性的表示。虽然如上所述给出了数学S形函数的具体示例,参见图2的说明,可以使用具有更少或更多的常数或其他数学项的其他数学函数。另外,可以线性地或按照其他方式调整一些数学S形函数,以容纳在0和255之间的像素值的范围。
所图解的S形函数在修改内容数据集和扫描内容数据集114的像素值之间产生非线性关系。在给定所示出的示例S形函数的情况下,与扫描内容数据集114的对应像素相比较,可以将修改内容数据集的像素的像素值调整为更接近极性极端的任一个。
对于大约在值128之下的扫描内容数据集114的每个像素值,可以将修改内容数据集的对应像素的值调整为更接近值0。或者,对于大约在值128之上的扫描内容数据集114的每个像素值,可以将修改内容数据集的对应像素的值调整为更接近值255。在一个实施例中,这种修改建立了修改内容数据集,它人为地将扫描器的动态像素值范围(对于8位扫描器而言通常在大约20和230之间)扩展到更大的范围(例如在0和255之间)。
图5描述了用于说明8相邻连接性的像素阵列500的一个实施例。像素阵列500包括一个中心像素P1和8个相邻像素N1到N8。所选择的像素P1基本上是黑色的。8相邻连接性的概念用于确定所述相邻像素N1到N8的哪个也基本上是黑色的(假定扫描内容包括相对于亮背景的黑色印刷)。
在一个实施例中,识别模块206分析所述相邻像素N1到N8的每个,并且确定哪些像素类似于所选择的像素P1。可以通过比较每个像素的像素值来确定所述类似性。或者,如果像素在像素值的预定范围内,则可确定类似性。例如,可以将具有在230和255之间的像素值的任何像素确定为类似。在另一个示例中,可以将具有小于20的像素值的任何像素确定为类似。在所图解的实施例中,识别模块206可以确定相邻像素N1、N2和N5到N8与所选择的像素P1类似。
图6描述了可以由分段装置200与扫描器系统100结合来执行的分段方法600的一个实施例。所图解的分段方法600开始,并且修改模块204建立(602)对应于扫描内容数据集114的修改内容数据集。所述修改内容数据集可以被存储在电子存储器件106上或在另一个电子存储器件上。在一个实施例中,修改模块204向扫描内容数据集114应用S形函数,以便建立修改内容数据集,如上所述。
使用所述修改内容数据集,然后识别模块206识别(604)在所述修改内容数据集内的内容段。或者,识别模块206可以识别(604)在修改内容数据集内的所有内容段。在识别模块206识别内容段后,然后分段模块208根据所识别的内容段的内容而识别(606)内容段类型。在一个实施例中,分段模块208将所述内容段类型识别为文本、艺术线条或图像。或者,分段模块208可以更一般地(例如文本或画面、图形或双级或半色调)或更具体地(例如文本、艺术线条和图像的子类等)识别内容。然后所述的分段方法600结束。
图7描述了通过图6的分段方法600的段识别操作604的示例而给出的段识别方法700的一个实施例。所图解的段识别方法700开始,并且识别模块206识别(702)开始像素,如参见图5的像素阵列500所述的被选择像素P1
然后识别模块206确定(704)是否存在可以处理的更多的像素。如果存在,则识别模块206确定(706)是否已经在组合的段像素周围检测到白色边界(假定基本上黑色的内容段)。如果还没有建立这样的边界,则识别模块206确定(708)是否被处理的像素的面积超过定义总的处理面积的窗口大小,它对应于扫描内容302。
然后识别模块206识别(710)所选择的像素的相邻像素。在一个实施例中,识别模块206使用8相邻连接性来识别(710)相邻像素。对于被识别的相邻像素,识别模块206确定(712)哪些像素是基本上黑色的,并且调整(714)用于定义内容段的段窗口。当更多的黑色像素被识别为属于特定的内容段时,对应的段窗口被扩展(714)以包括被识别的像素。
所图解的段识别方法700迭代地继续在段中选择像素,直到满足终止标准。当识别模块206确定(704)已经处理了所有的像素、确定(706)已经对于所述段建立了白色边界或确定(708)所处理的面积超过了像素处理窗口时,所描述的段识别方法700结束。
图8描述了通过图6的分段方法600的识别操作606的示例而给出的类型识别方法800的一个实施例。所图解的类型识别方法800开始,并且识别模块206识别(802)内容段之一,它可能已经按照如上所述的段识别方法700而被识别出。然后面积计算模块210计算(804)所选择的内容段的段表面面积。然后面积比较模块212将所计算的段表面面积与预定的最小图像表面面积相比较,以确定(806)是否所述段表面面积小于所述最小图像表面面积。如果所述段表面面积小于所述最小图像表面面积,则分段模块208将所述段类型识别(808)为文本内容。
如果段表面面积不小于最小图像表面面积,则子图像模块214定义(810)围绕所述段的子图像窗口。然后直方图计算模块216计算(812)对应于所述子图像窗口的扫描内容数据集114的扫描内容直方图。直方图计算模块216也计算(814)对应于所述子图像窗口的修改内容数据集的修改内容直方图。
直方图比较模块218随后将修改内容直方图和扫描内容直方图相比较,以确定(816)是否所述直方图是类似的。如果所述直方图被确定(816)为类似的,则分段模块208将所述段识别(818)为艺术线条内容。否则,如果所述直方图被确定(816)为不类似,则分段模块208将所述段识别(820)为图像内容。
在将段识别为文本、艺术线条或图像内容后,分段装置200确定(822)是否另外的段需要被处理,如果需要,则迭代地返回以选择(802)随后的内容段。否则,所描述的类型识别方法800结束。
有益的是,所提供的实施例自动地识别扫描内容的段,并且识别每个内容段的内容类型。独立段的内容类型的识别便于按照其内容类型而适当地处理每个段。另外,这样的扫描段提高了扫描数字化和再现的质量。
在此包括的所述示意流程图被一般地描述为逻辑流程图。因此,所述顺序和标注的操作指示所提供的方法的一个实施例。可以想象在功能、逻辑或效果上等同于所说明的方法的一个或多个操作或其部分的其他操作和方法。另外,所使用的格式和符号被提供来说明所述方法的逻辑操作,并且被理解为不限制所述方法的范围。虽然各种箭头类型和线条类型可以被用于所述流程图中,但是它们被理解为不限制对应方法的范围。事实上,一些箭头或其他连接符可以用于仅仅指示所述方法的逻辑流程。例如,箭头可以指示在所述方法的所列举操作之间的未指定持续时间的等待或监视时段。另外,特定方法发生的顺序可以或可以不严格地遵守所示出的对应操作的顺序。
遍及本说明书对于“一个(an,one)实施例”或类似语言的引用,表示有关所述实施例所述的特定特征、结构或特性被包括在本发明的至少一个实施例中。因此,遍及本说明书出现词语“在一个(an,one)实施例中”和类似语言,可以、但不必然全部指同一实施例。
对于信号承载介质的引用可以采取能够产生信号、使得产生信号或使得在数字处理装置上执行机器可读指令的程序的任何形式。信号承载介质可以体现为传输线路、致密盘、数字视频盘、磁带、伯努里驱动器、磁盘、穿孔卡、快闪存储器、集成电路或其他数字处理装置存储设备。
而且,可以在一个或多个实施例中以任何适当的方式来组合本发明的所述特征、结构或特性。在随后的说明中,提供了多种具体细节,诸如编程、软件模块、用户选择、网络交易、数据库查询、数据库结构、硬件模块、硬件电路、硬件芯片等的示例,以提供对本发明实施例的完全理解。但是,本领域内的技术人员将会明白,在没有一个或多个所述具体细节的情况下,或使用其他方法、部件、材料等,可以实践本发明。在其他情况下,不详细示出或说明公知结构、材料或操作,以避免模糊本发明的各方面。
在不脱离本发明的精神或基本特性的情况下,本发明可以被体现为其他具体形式。所述实施例在各个方面都要被考虑为仅仅是说明性的而不是限定性的。因此,本发明的范围由权利要求而不是由上述的说明指示。在权利要求的等同内容的含义和范围内的所有改变要被包含在它们的范围内。

Claims (14)

1.一种用于识别在扫描图像内的内容的系统,所述系统包括:
扫描器,配置为捕获和数字化具有内容段的扫描内容;
电子数据存储器件,配置为存储用于描述扫描内容的扫描内容数据集;以及
分段装置,配置为识别所述内容段的内容段类型,并被配置为通过向扫描内容数据集应用S形函数而建立修改内容数据集,其中所述修改内容数据集对应于修改内容直方图,该修改内容直方图比对应于扫描内容数据集的扫描内容直方图更极化。
2.按照权利要求1的系统,其中,所述修改内容数据集按照S形函数而与扫描内容数据集相关,其中所述S形函数被定义为基本上类似如下形式:
f ( x ) = ( x 128 ) n &times; 128,0 < x < 128
f ( x ) = 255 - ( 255 - x 127 ) n &times; 127,128 < x < 255
其中,n是用于确定S形函数的形状的参数,x是扫描内容数据集的像素的像素值,f(x)定义修改内容数据集的修改像素的对应修改像素值。
3.按照权利要求1的系统,其中,所述分段装置还被配置为响应于所述修改内容直方图与所述扫描内容直方图类似的判定,将所述内容段的内容段类型识别为艺术线条。
4.按照权利要求1的系统,其中,所述分段装置进一步被配置为响应于所述修改内容直方图不与扫描内容直方图类似的判定,将所述内容段的内容段类型识别为图像。
5.按照权利要求1的系统,其中,所述修改内容数据集包括对应于至少一个彩色通道的数据。
6.按照权利要求1的系统,其中,所述分段装置进一步被配置为确定与基本上黑色的像素的8相邻连接性,以识别在所述内容段内的像素。
7.按照权利要求1的系统,其中,所述分段装置被进一步配置为响应于内容段表面面积小于最小图像表面面积的判定,将所述内容段的内容段类型识别为文本。
8.一种用于识别在扫描图像内的内容的方法,所述方法包括:
捕获具有内容段的扫描内容;
存储用于描述扫描内容的扫描内容数据集;
识别所述内容段的内容段类型;以及
通过向扫描内容数据集应用S形函数而建立修改内容数据集,其中所述修改内容数据集对应于修改内容直方图,该修改内容直方图比对应于扫描内容数据集的扫描内容直方图更极化。
9.按照权利要求8的方法,其中,所述修改内容数据集按照S形函数而与扫描内容数据集相关,其中所述S形函数被定义为基本上类似如下形式:
f ( x ) = ( x 128 ) n &times; 128,0 < x < 128
f ( x ) = 255 - ( 255 - x 127 ) n &times; 127,128 < x < 255
其中,n是用于确定S形函数的形状的参数,x是扫描内容数据集的像素的像素值,f(x)定义修改内容数据集的修改像素的对应修改像素值。
10.按照权利要求8的方法,其中,所述识别内容段类型还包括:
响应于所述修改内容直方图与所述扫描内容直方图类似的判定,将所述内容段的内容段类型识别为艺术线条。
11.按照权利要求8的方法,其中,所述识别内容段类型还包括:
响应于所述修改内容直方图不与扫描内容直方图类似的判定,将所述内容段的内容段类型识别为图像。
12.按照权利要求8的方法,其中,所述修改内容数据集包括对应于至少一个彩色通道的数据。
13.按照权利要求8的方法,还包括:
确定与基本上黑色的像素的8相邻连接性,以识别在所述内容段内的像素。
14.按照权利要求8的方法,其中,所述识别内容段类型还包括:
响应于内容段表面面积小于最小图像表面面积的判定,将所述内容段的内容段类型识别为文本。
CN2010101566884A 2005-08-25 2006-08-25 用于内容识别的系统和方法 Expired - Fee Related CN101819632B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/212,371 US7599556B2 (en) 2005-08-25 2005-08-25 Apparatus, system, and method for scanning segmentation
US11/212,371 2005-08-25

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2006101218822A Division CN1920853B (zh) 2005-08-25 2006-08-25 用于内容识别的系统和方法

Publications (2)

Publication Number Publication Date
CN101819632A true CN101819632A (zh) 2010-09-01
CN101819632B CN101819632B (zh) 2012-07-11

Family

ID=37778573

Family Applications (2)

Application Number Title Priority Date Filing Date
CN2010101566884A Expired - Fee Related CN101819632B (zh) 2005-08-25 2006-08-25 用于内容识别的系统和方法
CN2006101218822A Expired - Fee Related CN1920853B (zh) 2005-08-25 2006-08-25 用于内容识别的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN2006101218822A Expired - Fee Related CN1920853B (zh) 2005-08-25 2006-08-25 用于内容识别的系统和方法

Country Status (2)

Country Link
US (1) US7599556B2 (zh)
CN (2) CN101819632B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8213687B2 (en) * 2006-04-28 2012-07-03 Hewlett-Packard Development Company, L.P. Image processing methods, image processing systems, and articles of manufacture
US20110188720A1 (en) * 2010-02-02 2011-08-04 General Electric Company Method and system for automated volume of interest segmentation
CN104021391B (zh) * 2013-03-01 2019-03-26 北京三星通信技术研究有限公司 处理超声图像的方法和装置以及乳腺癌诊断设备
US9058539B2 (en) 2013-04-16 2015-06-16 Canon Kabushiki Kaisha Systems and methods for quantifying graphics or text in an image

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4926251A (en) * 1987-04-07 1990-05-15 Kabushiki Kaisha Toshiba Color image processing apparatus with image corrector
US5125045A (en) * 1987-11-20 1992-06-23 Hitachi, Ltd. Image processing system
EP0358815B1 (en) * 1988-09-12 1993-05-26 Océ-Nederland B.V. System and method for automatic segmentation
US4937682A (en) * 1988-12-28 1990-06-26 Hewlett-Packard Company Method and apparatus for providing contrast/intensity control in a document scanner
JPH03139783A (ja) 1989-10-26 1991-06-13 Oki Electric Ind Co Ltd 文書画像の外接矩形切り出し方法
US5274714A (en) * 1990-06-04 1993-12-28 Neuristics, Inc. Method and apparatus for determining and organizing feature vectors for neural network recognition
US5696842A (en) * 1991-07-04 1997-12-09 Ricoh Company, Ltd. Image processing system for adaptive coding of color document images
US5515451A (en) * 1992-01-08 1996-05-07 Fuji Xerox Co., Ltd. Image processing system for selectively reproducing documents
US5841903A (en) 1992-01-17 1998-11-24 Yamaha Corporation Method and device for extracting a connected component of image data
ATE196205T1 (de) 1993-06-30 2000-09-15 Ibm Verfahren zum segmentieren von bildern und klassifizieren von bildelementen zur dokumentverarbeitung
US6680782B1 (en) * 1993-06-30 2004-01-20 Nexpress Solutions Llc Method and apparatus of using a raster image processor and interpolator to increase the speed of operation and reduce memory requirements for electronic printing
US5731823A (en) * 1994-01-27 1998-03-24 Hewlett-Packard Company Automatic optimization of hardcopy output for enhanced appearance and throughput
EP0677817B1 (en) 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
JP3096388B2 (ja) 1994-06-22 2000-10-10 シャープ株式会社 電子複写機における自動画質調整装置
JP3772262B2 (ja) * 1994-08-12 2006-05-10 ヒューレット・パッカード・カンパニー 画像の型を識別する方法
US5642473A (en) 1994-10-17 1997-06-24 Xerox Corporation Paper saving reprographic device
US5787194A (en) 1994-11-08 1998-07-28 International Business Machines Corporation System and method for image processing using segmentation of images and classification and merging of image segments using a cost function
JPH08138043A (ja) * 1994-11-10 1996-05-31 Matsushita Electric Ind Co Ltd 画像処理装置
AU4594796A (en) * 1994-11-25 1996-06-19 Yuriy Alexandrov System and method for diagnosis of living tissue diseases
US5729632A (en) * 1994-12-08 1998-03-17 Eastman Kodak Company Reproduction apparatus and method for adjusting rendering with toners of different particle sizes
US5884296A (en) * 1995-03-13 1999-03-16 Minolta Co., Ltd. Network and image area attribute discriminating device and method for use with said neural network
US5802207A (en) * 1995-06-30 1998-09-01 Industrial Technology Research Institute System and process for constructing optimized prototypes for pattern recognition using competitive classification learning
US5857030A (en) * 1995-08-18 1999-01-05 Eastman Kodak Company Automated method and system for digital image processing of radiologic images utilizing artificial neural networks
AUPN727295A0 (en) 1995-12-21 1996-01-18 Canon Kabushiki Kaisha Zone segmentation for image display
JPH09224153A (ja) * 1996-02-19 1997-08-26 Mita Ind Co Ltd 画像データ処理装置
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US6078697A (en) * 1996-10-01 2000-06-20 Eastman Kodak Company Method and apparatus for segmenting image data into contone, text and halftone classifications
US5892843A (en) * 1997-01-21 1999-04-06 Matsushita Electric Industrial Co., Ltd. Title, caption and photo extraction from scanned document images
US5767978A (en) * 1997-01-21 1998-06-16 Xerox Corporation Image segmentation system
US6738154B1 (en) * 1997-01-21 2004-05-18 Xerox Corporation Locating the position and orientation of multiple objects with a smart platen
US6028956A (en) * 1997-04-04 2000-02-22 Kofile Inc. Object location and span determination method and apparatus which determines a location and span of an object in an image
JP3585703B2 (ja) * 1997-06-27 2004-11-04 シャープ株式会社 画像処理装置
JP3028096B2 (ja) 1998-03-09 2000-04-04 日本電気株式会社 画像データ転送システムおよび方法
US6633411B1 (en) 1998-04-01 2003-10-14 International Business Machines Corporation Method and apparatus for repurposing binary images
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6233353B1 (en) * 1998-06-29 2001-05-15 Xerox Corporation System for segmenting line drawings from text within a binary digital image
US6594403B1 (en) 1999-01-29 2003-07-15 Xerox Corporation Systems and methods for registering scanned documents
JP3475849B2 (ja) 1999-04-16 2003-12-10 日本電気株式会社 文書画像取得装置および文書画像取得方法
JP2000307865A (ja) * 1999-04-19 2000-11-02 Canon Inc 情報処理装置、記録装置、情報処理方法、および記録方法
US6377711B1 (en) * 1999-06-30 2002-04-23 Xerox Corporation Methods and systems for detecting the edges of objects in raster images using diagonal edge detection
US6594401B1 (en) * 1999-10-20 2003-07-15 Xerox Corporation Detection and elimination of scanning artifacts
JP2001313831A (ja) * 1999-11-05 2001-11-09 Ricoh Co Ltd 画像処理装置、画像処理方法、およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US6625312B1 (en) * 2000-02-28 2003-09-23 Xerox Corporation Document classification using segmentation tag statistics
US6741753B1 (en) * 2000-09-05 2004-05-25 Hewlett-Packard Development Company, L.P. Method and system of local color correction using background liminance masking
US6826316B2 (en) * 2001-01-24 2004-11-30 Eastman Kodak Company System and method for determining image similarity
US6826310B2 (en) * 2001-07-06 2004-11-30 Jasc Software, Inc. Automatic contrast enhancement
US6678346B2 (en) 2001-10-11 2004-01-13 Ge Medical Systems Global Technology Company Llc Cone-beam CT scanner with image reconstruction using multiple sub-images
US6679583B2 (en) 2001-10-31 2004-01-20 Agfa-Gevaert Fast mutually interstitial printing
US7024049B2 (en) * 2002-01-16 2006-04-04 Xerox Corporation Method and apparatus for improving image appearance
US7206450B2 (en) 2002-04-25 2007-04-17 Microsoft Corporation Compression of bi-level images with explicit representation of ink clusters
JP4226278B2 (ja) * 2002-06-14 2009-02-18 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、画像処理プログラム、およびこれを記録した記録媒体
US7158686B2 (en) * 2002-09-19 2007-01-02 Eastman Kodak Company Enhancing the tonal characteristics of digital images using inflection points in a tone scale function
US7058234B2 (en) * 2002-10-25 2006-06-06 Eastman Kodak Company Enhancing the tonal, spatial, and color characteristics of digital images using expansive and compressive tone scale functions
CN1234094C (zh) * 2002-12-23 2005-12-28 北京邮电大学 基于贝叶斯分类器的文字字体判断设备及其方法
JP2006003816A (ja) * 2004-06-21 2006-01-05 Sharp Corp 画像形成装置及びこれに用いられる濃度補正データ生成方法
US7450268B2 (en) * 2004-07-02 2008-11-11 Hewlett-Packard Development Company, L.P. Image reproduction
JP4166744B2 (ja) * 2004-10-18 2008-10-15 シャープ株式会社 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
JP4139834B2 (ja) * 2005-08-31 2008-08-27 シャープ株式会社 画像処理装置、画像形成装置、画像読取装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4437825B2 (ja) * 2007-02-16 2010-03-24 シャープ株式会社 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体

Also Published As

Publication number Publication date
CN1920853B (zh) 2011-03-16
CN101819632B (zh) 2012-07-11
CN1920853A (zh) 2007-02-28
US20070047812A1 (en) 2007-03-01
US7599556B2 (en) 2009-10-06

Similar Documents

Publication Publication Date Title
DE69724755T2 (de) Auffinden von Titeln und Photos in abgetasteten Dokumentbildern
CN102567300B (zh) 图片文档的处理方法及装置
US4903312A (en) Character recognition with variable subdivisions of a character region
US5434953A (en) Use of fast textured reduction for discrimination of document image components
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
US8027550B2 (en) Image-document retrieving apparatus, method of retrieving image document, program, and recording medium
US6839466B2 (en) Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
CN103034848B (zh) 一种表单类型的识别方法
DE60020038T2 (de) Verfahren zum Verarbeiten eines numerischen Bildes
US8971614B2 (en) Extracting object edges from images
JPH07131641A (ja) 画像処理装置
CN111461068A (zh) 一种染色体中期图识别和分割方法
CN110766017A (zh) 基于深度学习的移动终端文字识别方法及系统
US20020076107A1 (en) Document image segmentation using loose gray scale template matching
CN112507782A (zh) 文本图像的识别方法及装置
CN113688838B (zh) 红色笔迹提取方法、系统、可读存储介质及计算机设备
CN1920853B (zh) 用于内容识别的系统和方法
JPH0644374A (ja) 入力イメージが空白であるかどうかを決定する方法
Hemachander et al. Locally adaptive block thresholding method with continuity constraint
US7130085B2 (en) Half-tone dot elimination method and system thereof
US6741751B1 (en) Logic based tagging for hyperacuity rendering of an input image with a 5×5 context
CN114511862A (zh) 表格识别方法、装置及电子设备
CN113569859A (zh) 一种图像处理方法、装置、电子设备及存储介质
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
CN112163581B (zh) 一种车牌字母识别方法、系统、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee
CP03 Change of name, title or address

Address after: New jersey, USA

Patentee after: Ricoh production printing solutions Co.

Address before: American Colorado

Patentee before: INFOPRINT SOLUTIONS CO.,LLC

TR01 Transfer of patent right

Effective date of registration: 20161012

Address after: Tokyo, Japan

Patentee after: Liguang Co.,Ltd.

Address before: New jersey, USA

Patentee before: Ricoh production printing solutions Co.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120711

Termination date: 20190825