CN100576233C - 检测文档图像中的字符的方向 - Google Patents
检测文档图像中的字符的方向 Download PDFInfo
- Publication number
- CN100576233C CN100576233C CN200610067618A CN200610067618A CN100576233C CN 100576233 C CN100576233 C CN 100576233C CN 200610067618 A CN200610067618 A CN 200610067618A CN 200610067618 A CN200610067618 A CN 200610067618A CN 100576233 C CN100576233 C CN 100576233C
- Authority
- CN
- China
- Prior art keywords
- character
- row
- character row
- picture
- group model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/242—Aligning, centring, orientation detection or correction of the image by image rotation, e.g. by 90 degrees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Facsimile Scanning Arrangements (AREA)
- Control Or Security For Electrophotography (AREA)
Abstract
公开了一种各自能够检测文档图像中的字符方向的设备、方法、系统、计算机程序和产品。该字符方向是基于检测结果而确定的,该检测结果指明具有选定方向的文档图像的字符行与正立位置的训练数据之间的相似度。
Description
技术领域
以下公开一般涉及各自能够检测文档图像中的字符的方向的设备、方法、系统、计算机程序和产品。
背景技术
现有图像处理设备可基于文档图像中包含的字符来检测文档图像的方向。然而,通常不知道字符的类型。由此,为了正确检测文档图像的方向,现有图像处理设备需要存储用于多种语言和其每个方向的大量参考文档图像。结果,现有设备需要大量存储器。此外,由于现有图像处理设备需要比较文档图像和每个参考文档图像,所以检测文档图像的方向的处理耗费时间。所以,存在对于较不笨重并能更有效和高效地工作的图像处理设备的需求。
发明内容
本发明的示范实施例包括各自能够检测文档图像中的字符方向的设备、方法、系统、计算机程序和产品。
在一个示例中,从输入文档图像中提取至少一个字符行。该字符行被旋转预定角度以具有选定方向。具有选定方向的字符行被转换为第一符号集。获得基于具有正立(upright)位置的参考文档图像而产生的训练数据。检测具有选定方向的字符行和正立位置的训练数据之间的相似度,以产生字符行的检测结果。基于该检测结果,而确定输入文档图像的方向。
本发明提供一种图像处理设备,包括:用于从具有多个字符的输入文档图像中提取字符行的部件;用于通过将字符行旋转预定角度而使得该字符行具有选定方向的部件;用于将具有选定方向的字符行转换为第一字符集的部件;用于获得基于具有正立位置的参考文档图像所产生的训练数据的部件;用于检测具有选定方向的字符行和正立位置的训练数据之间的相似度以产生检测结果的部件;和用于基于该检测结果而确定输入文档图像中的多个字符的方向的部件,其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算具有选定方向的字符行的发生概率;其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;和基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
本发明还提供一种图像处理方法,包括步骤:从具有多个字符的输入文档图像中提取字符行;首先选择要考虑的方向,其中将该字符行旋转预定角度以具有选定方向;从该字符行获得布局信息;将该布局信息转换为符号集;和计算该符号集的发生概率以产生检测结果,其中对于字符行的预定数目的方向,重复首先选择、获得、转换、和计算的步骤;其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算该发生概率;其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
本发明还提供一种图像处理系统,包括:处理器;存储装置,配置为存储多个指令,当所述多个指令由处理器激活时,其使得处理器执行多个功能中的至少一个,所述多个功能包括:从输入文档图像中提取字符行;将该字符行旋转预定角度以具有选定方向;将具有选定方向的字符行转换为第一符号集;获得具有选定方向的字符行的得分,其中该得分指明具有选定方向的字符行和正立位置的训练数据之间的相似度;和基于该得分确定输入文档图像的方向,其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算具有选定方向的字符行的发生概率;其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;和基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
附图说明
通过结合附图考虑时参考以下详细描述,本公开的更全面的评价及其许多附带的优点将易于获得并变得更好理解,其中:
图1是图示了根据本发明示范实施例的图像处理设备的结构的示意性方框图;
图2是图示了根据本发明的示范实施例的由图1的图像处理设备执行的检测文档图像中的字符方向的操作的流程图;
图3是用于解释根据本发明的示范实施例的由图1的图像处理设备执行的检测文档图像中的字符方向的操作的图解;
图4A是从具有从正立位置旋转了0度的水平字符行的文档图像中提取的示例水平字符行的图解;
图4B是从具有从正立位置旋转了180度的水平字符行的文档图像中提取的示例水平字符行的图解;
图4C是从具有从正立位置旋转了90度的垂直字符行的文档图像中提取的示例水平字符行的图解;
图4D是从具有从正立位置旋转了270度的垂直字符行的文档图像中提取的示例水平字符行的图解;
图5A是从具有从正立位置旋转了90度的水平字符行的文档图像中提取的示例垂直字符行的图解;
图5B是从具有从正立位置旋转了270度的水平字符行的文档图像中提取的示例垂直字符行的图解;
图5C是从具有从正立位置旋转了0度的垂直字符行的文档图像中提取的示例垂直字符行的图解;
图5D是从具有从正立位置旋转了180度的垂直字符行的文档图像中提取的示例垂直字符行的图解;
图6是图示了根据本发明示范实施例的检测字符行中的字符方向的操作的流程图;
图7是字符行中的示例外接矩形的图解;
图8是示例倾斜字符行的图解;
图9A是具有英文字符的示例水平字符行的图解;
图9B是具有日文字符的示例水平字符行的图解;
图10A是用于解释根据本发明示范实施例的将图9A的字符行转换为符号集的操作的图解;
图10B是用于解释根据本发明示范实施例的将图9B的字符行转换为符号集的操作的图解;
图11是包括符号集的数据的示例结构的图解;
图12是图1的图像处理设备中存储的示例三元组(trigram)表格的图解;图13是彼此相邻的示例外接矩形的图解;
图14是用于解释根据本发明示范实施例的将图9A的字符行转换为符号集的操作的图解;
图15是从镜像文档图像中提取的示例水平字符行的图解;
图16是图示了根据本发明示范实施例的图像处理设备的功能结构的示意性方框图;
图17是图示了根据本发明示范实施例的图像处理系统的结构的示意性方框图;和
图18是图示了合并图1的图像处理设备的图像形成设备的外貌的透视图。
具体实施方式
在描述图中所示的优选实施例时,为了简明而采用了特定术语。然而,该专利说明书的公开不意欲限于所选择的特定术语,并且应该理解每个特定元件包括以类似方式工作的所有技术等同。现在参考附图,其中几幅图中的相同附图标记表示相同或对应的部分,图1图示了根据本发明示范实施例的图像处理设备100。
该图像处理设备100能够检测一部分或整个文档图像中的字符的方向。
如图1所示,该图像处理设备100包括经由总线相连的中央处理单元(CPU)1、只读存储器(ROM)2、非易失性随机存取存储器(NVRAM)5、通信装置9、显示装置7、硬盘驱动器(HDD)3、随机存取存储器(RAM)4、输入装置6、和介质驱动器8。
CPU 1控制图像处理设备100的整体操作。
HDD 3存储各种数据,包括以各种方式输入到图像处理设备100的文档图像。例如,文档图像可通过使用扫描仪扫描文档而获得。该扫描仪可合并在图像处理设备100中或与图像处理设备100相耦接。在另一示例中,该文档图像可利用ROM 2中存储的字处理程序由图像处理设备100产生。在另一示例中,该文档图像可通过通信装置9从通信线路或网络中接收。在另一示例中,该文档图像可从HDD 3中读出。
在该例子中,HDD 3另外存储包括例如Windows或Unix的操作系统程序的各种计算机程序、或包括本发明的方向检测程序的各种应用程序。
ROM 2存储计算机程序,其使得CPU 1将存储在HDD 3中的一个或多个计算机程序装载到RAM 4上。RAM 4起到CPU 1的工作区的作用。例如,RAM 4配置从HDD 3所获得的文档图像用于进一步处理。
NVRAM 5存储训练数据,其是对各自具有偏离正立位置0度的方向的一类或多类参考文档图像进行训练得到的。
在该示例中,NVRAM 5存储三种类型的训练数据,包括第一类、第二类、和第三类。第一类训练数据是对从位于正立位置的亚洲参考文档图像中提取的水平字符行中包含的多个字符进行训练得到的。第二类训练数据是对从位于正立位置的亚洲参考文档图像中提取的垂直字符行中包含的多个字符进行训练得到的。第三类训练数据是对从位于正立位置的拉丁参考文档图像中提取的水平字符行中包含的多个字符进行训练得到的。在该示例中,亚洲参考文档图像包括来自包括日语、韩语和汉语的亚洲语言的任一种的字符。拉丁参考文档图像包括来自包括英语、法语、西班牙语、德语、和意大利语的拉丁语言的任一种的字符。然而,亚洲参考文档图像或拉丁参考文档图像可包括来自任何其它语言的字符,只要这些字符在以下参考图9A和9B所述的布局信息方面类似即可。
输入装置6包括允许用户输入各种数据的任何类型的装置,例如键盘或鼠标。
显示装置8包括能够显示各种数据的任何类型的装置,例如液晶显示器。
介质驱动器8包括能够从存储介质读取数据的任何类型的装置。存储介质的例子包括但不限于软盘、硬盘、光盘、磁光盘、磁带、非易失性存储卡、ROM(只读存储器)等。该存储介质也可存储CPU 1要使用的任何一种计算机程序。
通信装置9包括能够将图像处理设备100连接到通信线路或网络例如因特网或局域网(LAN)的任何类型的装置。通信装置9可以使图像处理设备100从/向网络下载/上载数据。
现在参考图2,根据本发明的示范实施例而解释用于检测文档图像中的字符方向的操作。当用户使用输入装置6输入命令数据时,由CPU 1执行图2所示的步骤。
步骤S 1输入文档图像。文档图像具有多个字符,如图3所示。在该示例中,文档图像中的字符包括日语字符和英语字符。然而,该文档图像可包括任何语言的任何字符。此外,该文档图像可以是具有比原始文档图像的分辨率低的分辨率的压缩图像。
步骤S2利用任何一种公知字符识别方法提取文档图像中的每个字符的一个或多个外接矩形。此外,步骤S2基于所提取的外接矩形而形成一个或多个字符行。例如,CPU 1提取黑像素的行程(run)并基于所提取的行程而形成最小外接矩形(下面称为“外接矩形”)。位置接近的外接矩形被集合成一个字符行。
此时,没有标识文档图像中的字符方向。如果外接矩形被形成为水平字符行,则可为了提取的字符行中的字符而假设四类方向,如图4A到4D所示。如图4A所示,提取的水平字符行可包括具有偏离正立位置0度的方向的多个字符,其原始地属于水平字符行(“HL 0”)。如图4B所示,提取的水平字符行可包括具有偏离正立位置180度的方向的多个字符,其原始地属于水平字符行(“HL 180”)。如图4C所示,提取的水平字符行可包括具有偏离正立位置90度的方向的多个字符,其原始地属于垂直字符行(“VL 90”)。如图4D所示,提取的水平字符行可包括具有偏离正立位置270度的方向的多个字符,其原始地属于垂直字符行(“VL 270”)。
在另一例子中,如果外接矩形被形成为垂直字符行,则可为了提取的字符行中的字符而假设四类方向,如图5A到5D所示。如图5A所示,提取的垂直字符行可包括具有偏离正立位置90度的方向的多个字符,其原始地属于水平字符行(“HL 90”)。如图5B所示,提取的垂直字符行可包括具有偏离正立位置270度的方向的多个字符,其原始地属于水平字符行(“HL 270”)。如图5C所示,提取的垂直字符行可包括具有偏离正立位置0度的方向的多个字符,其原始地属于垂直字符行(“VL 0”)。如图5D所示,提取的垂直字符行可包括具有偏离正立位置180度的方向的多个字符,其原始地属于垂直字符行(“VL 180”)。
在该示例中,从字符行或文档图像的正立位置沿顺时针方向测量字符行或文档图像中的字符方向。然而,也可沿逆时针方向测量该方向。
此外,字符行的类型数目可根据字符中使用的语言类型而不同。例如,来自例如英语语言的拉丁语言的字符仅形成为水平字符行。因此,不考虑图4C、4D、5C、和5D中示出的示例情况。
此外,可考虑除了图4A、4B、4C、4D、5A、5B、5C和5D中示出的上述方向之外的任何数目的方向。例如,该角度可以是90的倍数。在另一示例中,可如下参考图15所述考虑指明从文档图像的镜像中提取字符行的示例情况的相反方向。
此外,在步骤S2,不是从整个文档图像中提取,而是可从部分文档图像中提取多个字符行。
步骤S3选择在步骤S2中形成的字符行中的一个。
步骤S4利用NVRAM 5中存储的至少一类训练数据检测所选字符行中的字符方向。
对于步骤S2中形成的每个字符行,而执行步骤S3和S4。因此,对于每个字符行,产生指明字符行中的字符方向的检测结果。
步骤S5分析文档图像中的字符行的检测结果。
步骤S6基于步骤S5作出的分析而确定文档图像中的字符方向。
现在参考图6,根据本发明的示范实施例解释检测字符行中的字符方向的操作。在CPU 1选择字符行之一之后,在图2和3的步骤S4中执行图6所示的步骤。
步骤S40选择要首先考虑的语言类型。在该例子中,首先考虑亚洲语言。
步骤S41选择要首先考虑的方向。在该例子中,假设要处理的字符行具有从正立位置偏离0度的方向的多个字符(“HL0”或“VL0”)。由此,缺省选择0度方向。
步骤S42基于字符行中的外接矩形的高度而定义字符行的高度。
例如,如图7所示,字符行的高度H最好被设置为大于外接矩形21的高度h。该外接矩形21可以是属于字符行的任何一个外接矩形。如图7所示,外接矩形21可以由位于外接矩形的左上角的起点(Xs,Ys)和位于外接矩形的右下角的终点(Xe,Ye)表示。外接矩形21的高度h可以被计算为起点和终点在Y坐标中的差(Ys-Ye)。通过将字符行的高度H设置为大于外接矩形21的高度h,即使当字符行包含小尺寸字符时或者即使当字符倾斜时,也可正确标识字符行中的字符。
可以以各种方式获得字符行的高度H。在一个例子中,将首先选择的外接矩形的高度h乘以预定常数A。相乘的高度(h*A)被设置为高度H的当前值。类似地,将其次选择的外接矩形的高度h乘以预定常数A。然后将相乘的高度(h*A)与高度H的当前值作比较。如果相乘的高度(h*A)大于高度H的当前值,则其次选择的外接矩形的相乘的高度(h*A)被用作高度H的当前值。在对于字符行中的每个外接矩形执行该操作之后,高度H被设置为大于任一个外接矩形的高度。例如,预定常数A可被设置为1.2。
在另一例子中,可利用作为从字符行中的外接矩形的高度中选择出的最大高度值的最大高度hs计算字符行的高度H。最大高度hs被乘以预定常数A,并且高度H的值被设置为相乘的高度(hs*A)。
图6的步骤S43利用外接矩形的终点的Y坐标值Ye来定义字符行的基线。在该例子中,CPU 1获得字符行中所有外接矩形的值Ye,并仅提取低于所定义高度H的一半的值Ye。基于所提取的值Ye,利用任一种已知方法来绘出回归线。该回归线用作字符行的基线。
代替绘出回归线,可利用任何其它方法确定基线。例如,可通过绘出以下直线而确定基线,该直线经过在字符行的末尾安排的外接矩形的终点。然而,如果如图8所示提取倾斜字符行30,则基线可被不正确地定义为如图8的“e”所示。通过绘出回归线可将基线“e”调整为基线“d”,其拟合字符行30中的外接矩形的终点。
返回参考图6,步骤S44获得字符行中的外接矩形的布局信息,并对该布局信息进行归一化(normalize)。
字符行中的外接矩形的布局信息根据字符行中的字符方向而不同。此外,该布局信息根据字符行中的字符中使用的语言类型而变化。在该例子中,可从外接矩形中提取一个或多个参数作为布局信息,包括从基线开始的高度Ys、高度h、和宽度w,如图7所示。该布局信息稍后用于检测字符行中的字符的方向。
图9A和9B图示了这样的示例情况,用于解释如何可将布局信息用于检测字符行中的字符方向或字符行中的字符中所使用的语言类型。
如图9A所示,英语字符行主要包括两类字符:大写字符(即大写字母),例如“W”;和小写字符(即小写字母),例如“h”。除了这些字符类型,可存在例如单引号“′”或句号“.”的标点符号。
在该英语字符行中,从基线开始的外接矩形的高度Ys可被分类为两组。大写字符相对于基线具有相对大的高度Ys,如图9A中的“a”所示。小写字符相对于基线具有相对低的高度Ys,如图9A中的“b”所示。类似地,外接矩形的高度h可被分类为两组。在图9A中,字符“W”、“h”、“y”、“t”、“f”、和“d”具有相对大的高度h,而字符“w”、“o”、“a”、和“s”具有相对小的高度h。英语字符的宽度基本相同,除了标点符号之外。
如果图9A的英语字符行中的字符从正立位置旋转,则可由上述参数表示的这些特性发生变化。通过分析外接矩形的参数,可检测字符行中的字符方向。
上述特性也可共用于例如法语、西班牙语、意大利语、德语等的其它拉丁语言。
如图9B所示,日语字符行主要包括三种类型字符:由“d”指明的片假名字符、由“e”指明的平假名字符、和由“f”指明的日本汉字字符。除了这些字符类型之外,可存在例如“g”指明的引号或标点符号的记号。
在日语字符行中,从基线开始的外接矩形的高度Ys可改变,特别是当如日本汉字字符f所示为一个字符形成多于一个外接矩形时。类似地,外接矩形的高度h或宽度w可改变,特别是当为一个字符形成多于一个外接矩形时。
如果图9B中的日语字符行中的字符从正立位置旋转,则可由上述参数表示的这些特性发生变化。通过分析外接矩形的参数,可检测字符行中的字符方向。
上述特性也可共用于例如汉语和韩语的其他亚洲语言。
一旦为字符行中的每一外接矩形获得布局信息,该布局信息就可被归一化为在0和1之间的范围内。例如,相对于字符行的高度H而归一化高度Ys以获得归一化的高度YsRate=Ys/H。类似地,相对于字符行的高度H而分别归一化高度h和宽度w,以获得归一化的高度hRate=h/H和归一化的宽度wRate=w/H。
返回参考图6,步骤S45将字符行的归一化的布局信息转换为符号集。
从左到右安排字符行中的字符以形成字符串。由于每一字符可由一个或多个外接矩形表示,并且每一外接矩形可由布局信息表示,所以该字符行可由时间序列的布局信息表示。此外,利用任何一种公知量化方法,可将时间序列的布局信息量化为离散符号的集合。
例如,如果归一化的高度YsRate被获得为布局信息,则归一化的高度YsRate可被量化为多个整数值,如等式:INT(YsRate*(N-1))所述,其中N对应于量化级别的数目。在该示例中,归一化的高度YsRate被量化为15个级别。所获得的每个值还分配有ID(标识)标签。以这种方式,如图10A所示,可基于外接矩形的高度Ys将图9A的英语字符行转换为符号s021、s124、s032、s048、s012等的集合。类似地,如图10B所示,可基于外接矩形的高度Ys将图9B的日语字符行转换为符号s243、s086、s045、s189、s211等的集合。
在另一示例中,如果归一化的高度hRate被获得为布局信息,则归一化的高度hRate可被量化为多个整数值,如等式:INT(hRate*(N-1))所述,其中N对应于量化级别的数目。在该示例中,归一化的高度hRate可被量化为8个级别。另外,所获得的每个值还分配有ID标签。
在另一示例中,如果归一化的宽度wRate被获得为布局信息,则归一化的宽度wRate可被量化为多个整数值,如等式:INT(wRate*(N-1))所述,其中N对应于量化级别的数目。在该示例中,归一化的宽度wRate可被量化为2个级别。另外,所获得的每个值还分配有ID标签。
可替换地,包括上述参数YsRate、hRate、和wRate的任何组合可用于量化。例如,字符行可由参数YsRate、hRate、和wRate所定义的三维矢量的时间序列表示。利用公知矢量量化方法中的任一种,三维矢量的时间序列可被量化为可以以一维表示的符号集合。在该示例中,归一化的高度YsRate、归一化的高度hRate、和归一化的宽度wRate分别被量化为15个级别、8个级别、和2个级别。所量化的布局信息还分配有从240个ID级别中选出的ID级别。
此外,如图11所示,所量化的布局信息可由8比特数据(即1字节数据)表示。如图11所示,归一化的高度YsRate作为4比特数据而存储在数据区As中。归一化的高度hRate作为3比特数据而存储在数据区Ah中。归一化的宽度wRate作为1比特数据而存储在数据区Aw中。
返回参考图6,步骤S46利用NVRAM 5中存储的至少一类训练数据,而针对步骤S40中选择的语言和步骤S41中选择的方向来计算符号集合的发生概率。
在该示例中,NVRAM 5存储3类n元组(n-gram)的模型作为训练数据。对从位于正立位置的亚洲参考文档图像提取的水平字符行中的字符训练第一类n元组模型。对从位于正立位置的亚洲参考文档图像提取的垂直字符行中的字符训练第二类n元组模型。对从拉丁参考文档图像提取的水平字符行中的字符训练第三类n元组模型。此外,在该示例中,使用三元组模型作为检测字符方向的n元组模型。
首先,CPU 1获得要用于检测字符行中的字符方向的三元组模型之一。在该示例中,由于在步骤S40选择亚洲语言,所以CPU 1获得对亚洲参考文档图像进行训练得到的第一和第二类三元组模型。此外,该示例假设已在前一步骤中提取了水平字符行。因此,首先选择用于亚洲参考文档图像的水平字符行的三元组模型。
如以上参考图1所述,三元组模型例如以图12所示表格的形式存储在NVRAM 5中。参考图12,n元组模型可用于获得符号Wi跟随在符号Wi-2和Wi-1之后的发生概率P(W),其由等式:P(W)=∏(i=1,n)P(Wi|Wi-2,Wi-1)表示。此外,在该示例中,通过将发生概率的对数乘以-1000,而将发生概率转换为整数值,以利于计算。为字符行中的多组三个连续字符中的每一组获得整数值。所获得的整数值的和可用作得分(score),其指明具有选定方向的字符行与具有正立位置的n元组模型的水平字符行之间的相似度。更具体地,如果该得分为低,则正处理的字符行可象图4A所示的“HL0”的示例情况一样。以这种方式,可检测字符行中的字符方向。
图6的步骤S47确定是否已为所选语言的所有可能方向计算了概率(即得分)。如果已考虑了所有可能的方向(步骤S47中的“是”),则操作进行到步骤S49。如果还没有考虑所有可能的方向(步骤S47中的“否”),则操作进行到步骤S48。
步骤S48选择下次考虑的下一方向。
例如,如果为水平字符行中的字符首先考虑0度方向,则CPU 1使得正处理的字符行从正立位置旋转90度。CPU 1然后选择与从正立位置偏离0度方向的参考文档图像的垂直字符行对应的三元组模型之一。利用所选三元组模型,CPU 1以与以上参考步骤S42到S46所述基本类似的方式计算得分,其指明具有所选方向(即90度方向)的字符行和具有正立位置的n元组模型的垂直字符行之间的相似度。更具体地,如果该得分为低,则正处理的字符行可能看起来象图4D所示的“VL270”的示例情况一样。该得分可以存储在NVRAM 5中供进一步使用。
类似地,在考虑90度的方向之后,CPU 1可使得具有90度方向的字符行旋转90度。可替换地,CPU 1可使得具有0度方向的字符行从正立位置旋转180度。CPU 1然后选择与具有0度方向的参考文档图像的水平字符行对应的三元组模型。利用所选的三元组模型,CPU 1以与以上参考步骤S42到S46所述基本类似的方式计算得分,其指明具有所选方向(即180度方向)的字符行和具有正立位置的n元组模型的水平字符行之间的相似度。更具体地,如果该得分为低,则正处理的字符行可能看起来象图4B所示的“HL180”的示例情况一样。该得分可以存储在NVRAM 5中供进一步使用。
类似地,在考虑180度的方向之后,CPU 1可使得具有180度方向的字符行旋转90度。可替换地,CPU 1可使得具有0度方向的字符行从正立位置旋转270度。CPU 1然后选择与具有0度方向的参考文档图像的垂直字符行对应的三元组模型。利用所选的三元组模型,CPU 1以与以上参考步骤S42到S46所述基本类似的方式计算得分,其指明具有所选方向(即270度方向)的字符行和具有正立位置的n元组模型的垂直字符行之间的相似度。更具体地,如果该得分为低,则正处理的字符行可象图4C所示的“VL90”的示例情况一样。该得分可以存储在NVRAM 5中供进一步使用。
在该示例中,CPU 1利用三角函数而改变字符行中的字符方向。例如,通过将原始坐标(x,y)旋转θ度而获得的新坐标(rx,ry)可通过以下函数获得:
rx=cosθ*x+sinθ*y;和
ry=-sinθ*x+cosθ*y。
然而,如果要考虑的字符方向被限制为90度的倍数,例如0、90、180或270度,则cosθ和sinθ的值是固定的。由此,可进一步简化上述三角函数。
返回参考图6,步骤S49确定是否已为所有语言类型考虑了可能方向。如果已考虑了所有语言类型(步骤S49中的“是”),则操作结束。如果还没有考虑所有语言类型(步骤S49中的“否”),则操作进行到步骤S50。
步骤S50选择下一语言类型。在该示例中,选择拉丁语言用于进一步处理。以这种方式,可为亚洲和拉丁语言类型中的每一种的预定数目的方向计算概率(即得分)。
CPU 1然后选择具有最大发生概率值(即最小得分值)的方向之一。例如,参考图3,由于方向“HL0”具有最低得分23098,所以CPU 1确定所提取的水平字符行的方向为0度。
图6的操作可以以各种其它方式执行。
在一个示例中,除了三元组模型之外的任何类型的n元组模型可用作训练数据,例如二元组模型。
在另一示例中,CPU 1可在步骤S40之前利用布局信息首先检测字符行的语言类型,并在步骤S40选择所检测的语言类型。例如,存在于外接矩形中的黑像素的数目,即外接矩形的黑像素的密度,可用于检测语言类型。如图9A和9B所示,黑像素的密度趋向于在英语字符行中相对低,而黑像素的密度趋向于在日语字符行中相对高。由此,黑像素的密度可促进检测字符行的语言类型的操作,该操作可在步骤S40之前执行。一旦指定了语言类型,则仅需要为所检测的语言类型计算发生概率或得分。因此,可不执行步骤S40、S49和S50。
此外,可根据文档图像的内容而预先设置语言类型。例如,如果文档图像仅包含日语字符,则可不执行步骤S40、S49和S50中的任一个。可经由图1的输入装置6从用户预先获得有关文档图像的内容的信息,例如在文档图像中使用的语言。
在另一示例中,可根据布局信息或用户偏好而考虑任意数目的方向。例如,可仅考虑0和180度的方向,以降低计算负荷。此外,可利用三角函数考虑除了包括0、90、180、和270度的上述方向之外的任何方向。
此外,如图15所示,如果使用手动扫描仪,则可能已从通过在扫描文档图像时交替扫描和副扫描(sub-scan)方向而产生的镜像文档图像中提取了字符行。特别是,图15所示字符行对应于图4A所示字符行的镜像。可通过对基于具有0度方向的参考文档图像产生的n元组模型应用仿射变换,而获得所提取的字符行与从镜像文档图像提取的字符行对应的概率。
在另一示例中,除了外接矩形的包括高度Ys、高度h、和宽度w的参数之外,或者可替换地,可从外接矩形中提取任何其它类型的参数作为布局信息。
例如,可提取指明与字符行中的其它外接矩形的关系的外接矩形的参数,例如到相邻外接矩形的距离。这是因为对于每种语言类型来说,两个相邻字符的距离都是不同的。例如,如图9A所示,英语字符行包括相对大数量的空白,每个空白对应于外接矩形的标准尺寸。如图9B所示,日语字符行包括相对小数量的空白。此外,如图9A所示,撇号可在英语字符行的下部产生空白。由此,通过分析字符行中的外接矩形的距离,可检测字符行的方向。
参考图13,可提取相对于安排在外接矩形43的右边的外接矩形45的距离d作为布局信息。可获得该距离d,作为相邻外接矩形45的起点的X坐标X2s和外接矩形43的终点的X坐标X1e之间的差值(X2s-X1e)。在该示例中,假设该距离d具有大于0的值。然而,在一些情况下,包括两个相邻外接矩形沿水平方向(即X轴)重叠的情况下,距离d可具有负值。
可相对于字符行的高度H而归一化外接矩形的距离d,以获得归一化的距离dRate=d/H。归一化的距离dRate可被量化为多个整数值,如等式:INT((dRate*(N-1))+B)所述,其中N对应于量化级别的数目并且B对应于预定常数。所获得的每个值还分配有ID标签。
如图14所示,可基于外接矩形的距离d而将图9A的英语字符行中包括的空白转换为符号sSPC。在图14中,字符41和42之间的距离a没有被转换为符号,因为其具有比常数B定义的预定值小的值。例如,如果该预定值被设置为0.25,则具有小于0.25的值的距离“a”没有被转换为符号。各自具有大于0.25的值的字符43和45之间的距离“b”以及字符46和48之间的距离“c”分别被转换为符号sSPC。
此外,在该示例中,可根据距离d的值而向字符行中的空白分配多于一个符号sSPC。例如,如果距离d值具有负值,则可向具有距离d的空白分配与符号sSPC不同的符号。
此外,如上所述,距离d可与任意数目的上述参数相组合。例如,字符行可由由参数YsRate、hRate、wRate和dRate定义的四维矢量的时间序列表示。此外,由这些参数定义的布局信息可由图11所示的8比特数据表示。由于可为包括YsRate、hRate、和wRate的参数分配240个符号,所以可为参数dRate分配16个符号。
在另一示例中,取代单独利用发生概率,CPU 1可使用其他参数,用于确定字符行中的字符方向。
例如,在一些情况下,发生概率的最大值可比发生概率的第二大值仅大很小量。为了提高准确率,CPU 1可确定发生概率的最大值是否比发生概率的第二大值大预定量。如果最大值大预定量,则CPU 1将选择具有发生概率的最大值的方向作为字符行中的字符方向。如果该最大值不足够大,则CPU 1可确定该字符行中的字符方向是不可检测的。
返回参考图2,一旦对于在图2和3的步骤S2中提取的所有字符行检测了字符方向,则CPU 1分析该检测结果(步骤S5),并基于该分析而确定文档图像的方向(步骤S6)。
例如,CPU 1可分析作为图3所示表格在步骤S4获得的检测结果。图3的表格以与包括VL0、VL90、VL180、VL270、HL0、HL90、HL180、和HL270的检测方向对应的方式列出文档图像中的多个字符行。
在一个示例中,CPU 1可选择具有最大数目字符行的方向作为文档图像的方向。参考图3,将选择具有最大数68的方向HL0。
然而,在一些示例情况下,字符行的最大数可仅比字符行的第二大数大很小量。例如,如果对于每个字符提取出沿四个方向(上、下、左、和右)基本对称的一个外接矩形,则不能正确检测亚洲字符行的方向。在另一示例中,根据字符行中的两个相邻字符之间的距离,在步骤S2可能不正确地确定字符行的水平或垂直方向。
为了提高准确率,CPU 1可确定字符行的最大数是否比字符行的第二大数大预定量。如果该最大数大预定量,则CPU 1将选择具有最大数的方向作为文档图像的方向。如果该最大数不足够大,则CPU 1可确定该文档图像的方向是不可检测的。
在另一示例中,CPU 1可考虑每一字符行中包括的字符数目。通过选择具有相对大数目字符的字符行,可提高准确率。
在另一例子中,为了提高准确率,可以不考虑具有小于预定长度的长度的字符行。
在另一例子中,为了提高准确率,可考虑具有在文档图像中最频繁发生的高度的字符行。
在确定了文档图像的方向之后,如果所确定的方向不对应于正立位置,则CPU 1还可利用任一已知方法来校正文档图像的方向。具有正确方向的文档图像还可被存储在HDD 3中,或由显示装置7显示。可替换地,具有正确方向的文档图像可利用打印机打印出,该打印机可合并在图像处理设备100中或与其耦接。
根据以上教义的各种附加修改和变形都是另外可能的。所以,应理解,在所附权利要求的范围内,可以以除了这里特别描述的方式之外的方式实现该专利说明书中的公开。
例如,在该公开和所附权利要求的范围内,不同示意性实施例的元件和/或特征可彼此组合和/或彼此替换。
此外,图像处理设备100的结构可不限于图1所示结构,只要执行参考图16所述功能即可。
如图16所示,图像处理设备200包括字符行提取器201、方向变换器202、符号获得器203、训练数据获得器204、行方向检测器205、和图像方向确定器206。
字符行提取器201接收具有多个字符的输入文档图像。字符行提取器201然后从部分或整个文档图像中提取字符行。在该示例中,字符行可以由各自基于字符行中的至少一个字符产生的多个外接矩形表示。由于基于多个外接矩形形成字符行,所以甚至可以从具有低分辨率的压缩文档图像中提取字符行。
方向变换器202通过将字符行旋转预定角度而使得字符行具有选定方向。所述预定角度可以是90的倍数,例如0、90、180和270。此外,字符行的方向可利用三角函数进行改变。此外,该选定方向可以是与从输入文档图像的镜像中提取的字符行对应的反向方向。
该符号获得器203将具有选定方向的字符行转换为第一符号集。例如,可以从字符行中的外接矩形获得布局信息。在该示例中,布局信息对应于多个参数中的至少一个或任意组合,所述参数包括从字符行的基线开始的外接矩形的高度、外接矩形的高度、外接矩形的宽度、外接矩形相对于与该外接矩形相邻安排的外接矩形之一的距离、外接矩形中包括的黑像素的数目等。该布局信息然后被转换为第一符号集。
该训练数据获得器204获得基于具有正立位置的参考文档图像而产生的训练数据。在该示例中,字符行提取器201预先从一个或多个参考文档图像中提取两类字符行:一类对应于水平字符行;而另一类对应于垂直字符行。该字符行(即水平或垂直字符行)然后利用符号获得器203而被转换为第二符号集。第二符号集的统计趋势(例如由n元组模型表示的发生概率)然后被计算并被存储为训练数据。因此,训练数据至少包括对从参考文档图像提取的水平字符行进行训练得到的第一类训练数据、和对从参考文档图像提取的垂直字符行进行训练得到的第二类训练数据。
行方向检测器205检测具有选定方向的字符行和正立位置的训练数据之间的相似度,以产生检测结果。
例如,行方向检测器205利用正立位置的训练数据获得具有选定方向的字符行的发生概率。该发生概率可被存储为得分以供进一步使用。此外,在该示例中,可根据正被处理的字符行而切换用于检测的训练数据。例如,可根据字符行的选定方向而切换第一类和第二类训练数据。
图像方向确定器206基于检测结果确定输入文档图像中的多个字符的方向,以产生确定结果。
除了上述元件之外,图16的图像处理设备200可包括图像方向校正器,其基于确定结果而将输入文档图像的方向校正为正立位置。可替换地,可以由方向变换器202调整输入文档图像的方向。
此外,如图17所示,可以由具有一个或多个设备的图像处理系统执行本发明的上述和其它功能或方法中的任一个。
参考图17,方向检测程序可以经由网络而上传到图像处理设备102和103中的任一个。利用从网络下载的程序,图像处理设备102和103中的任一个变得能够以与上述基本类似的方式检测文档图像中的字符方向。
此外,可与任何其它设备相组合地使用本发明的上述和其它图像处理设备。
例如,如图18所示,图1的图像处理设备100可合并在图像形成设备300中。图像形成设备300另外包括扫描仪301和打印机302。
在示例操作中,扫描仪301将要处理的文档扫描为输入文档图像。图像处理设备100检测输入文档图像的方向,并将该方向校正为正立位置。打印机302将具有正确方向的输入文档图像作为打印图像打印。
此外,可利用由此编程的一个或多个传统通用目的微处理器和/或信号处理器、通过传统组件电路的合适网络的互连而准备的ASIC或通过其组合,而实现本发明的上述和其它方法中的任何一个。
本专利申请基于2005年3月17日向日本专利局提交的日本专利申请第2005-077879号并要求其优先权,通过引用而由此合并其全部内容。
Claims (16)
1.一种图像处理设备,包括:
用于从具有多个字符的输入文档图像中提取字符行的部件;
用于通过将字符行旋转预定角度而使得该字符行具有选定方向的部件;
用于将具有选定方向的字符行转换为第一字符集的部件;
用于获得基于具有正立位置的参考文档图像所产生的训练数据的部件;
用于检测具有选定方向的字符行和正立位置的训练数据之间的相似度以产生检测结果的部件;和
用于基于该检测结果而确定输入文档图像中的多个字符的方向的部件,
其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算具有选定方向的字符行的发生概率;
其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;和基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且
其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
2.根据权利要求1的设备,其中利用三角函数而改变字符行的方向。
3.根据权利要求1的设备,其中该预定角度是90的倍数。
4.根据权利要求3的设备,其中该选定方向包括与从输入文档图像的镜像中提取的字符行对应的反向方向。
5.根据权利要求1的设备,其中该训练数据包括:
对从参考文档图像提取的水平字符行进行训练得到的第一类训练数据;和
对从参考文档图像提取的垂直字符行进行训练得到的第二类训练数据。
6.根据权利要求1的设备,还包括:
用于输入输入文档图像以进一步处理的部件。
7.根据权利要求6的设备,还包括:
用于将输入文档图像的方向校正为正立位置的部件。
8.根据权利要求7的设备,还包括:
用于输出具有正立位置的输入文档图像的部件。
9.一种图像处理方法,包括步骤:
从具有多个字符的输入文档图像中提取字符行;
首先选择要考虑的方向,其中将该字符行旋转预定角度以具有选定方向;
从该字符行获得布局信息;
将该布局信息转换为符号集;和
计算该符号集的发生概率以产生检测结果,
其中对于字符行的预定数目的方向,重复首先选择、获得、转换、和计算的步骤;
其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算该发生概率;
其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;和基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且
其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
10.根据权利要求9的方法,还包括步骤:
其次选择要考虑的语言类型,其中该选定方向是基于该语言类型而确定的。
11.根据权利要求9的方法,其中该语言类型是基于由转换步骤获得的布局信息而选择的。
12.根据权利要求9的方法,其中对于预定数目的语言类型,重复首先选择、其次选择、获得、转换、和计算的步骤。
13.根据权利要求9的方法,还包括步骤:
基于检测结果确定输入文档图像的方向以产生确定结果。
14.根据权利要求13的方法,还包括步骤:
基于该确定结果而旋转该输入文档图像,以具有与正立位置对应的方向。
15.一种图像处理系统,包括:
处理器;
存储装置,配置为存储多个指令,当所述多个指令由处理器激活时,其使得处理器执行多个功能中的至少一个,所述多个功能包括:
从输入文档图像中提取字符行;
将该字符行旋转预定角度以具有选定方向;
将具有选定方向的字符行转换为第一符号集;
获得具有选定方向的字符行的得分,其中该得分指明具有选定方向的字符行和正立位置的训练数据之间的相似度;和
基于该得分确定输入文档图像的方向,
其中利用从位于正立位置的参考文档图像产生的n元组模型,而计算具有选定方向的字符行的发生概率;
其中该n元组模型包括:基于从参考文档图像提取的水平字符行而产生的第一n元组模型;和基于从参考文档图像提取的垂直字符行而产生的第二n元组模型;并且
其中根据具有选定方向的字符行,而切换第一n元组模型和第二n元组模型。
16.根据权利要求15的系统,其中该存储装置还包括对具有正立位置的参考文档图像进行训练得到的训练数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP077879/05 | 2005-03-17 | ||
JP2005077879A JP4607633B2 (ja) | 2005-03-17 | 2005-03-17 | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1834992A CN1834992A (zh) | 2006-09-20 |
CN100576233C true CN100576233C (zh) | 2009-12-30 |
Family
ID=36581976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200610067618A Expired - Fee Related CN100576233C (zh) | 2005-03-17 | 2006-03-17 | 检测文档图像中的字符的方向 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7567730B2 (zh) |
EP (1) | EP1703444B1 (zh) |
JP (1) | JP4607633B2 (zh) |
CN (1) | CN100576233C (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106485193A (zh) * | 2015-09-02 | 2017-03-08 | 富士通株式会社 | 文档图像的方向检测装置及方法 |
US11120478B2 (en) | 2015-01-12 | 2021-09-14 | Ebay Inc. | Joint-based item recognition |
Families Citing this family (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8989431B1 (en) * | 2007-07-11 | 2015-03-24 | Ricoh Co., Ltd. | Ad hoc paper-based networking with mixed media reality |
US7516130B2 (en) * | 2005-05-09 | 2009-04-07 | Trend Micro, Inc. | Matching engine with signature generation |
JP4869841B2 (ja) | 2006-03-14 | 2012-02-08 | 株式会社リコー | 画像処理装置、画像方向判別方法、および画像方向判別プログラム |
US20080225340A1 (en) * | 2007-03-14 | 2008-09-18 | Ricoh Company, Limited | Image processing apparatus, image processing method, and computer program product |
US8208725B2 (en) * | 2007-06-21 | 2012-06-26 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying text orientation in a digital image |
US8144989B2 (en) * | 2007-06-21 | 2012-03-27 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying text orientation in a digital image |
US8340430B2 (en) * | 2007-07-10 | 2012-12-25 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8027539B2 (en) | 2008-01-11 | 2011-09-27 | Sharp Laboratories Of America, Inc. | Method and apparatus for determining an orientation of a document including Korean characters |
US8023741B2 (en) | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for detecting numerals in a digital image |
US8023770B2 (en) * | 2008-05-23 | 2011-09-20 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying the orientation of a digital image |
US8160365B2 (en) * | 2008-06-30 | 2012-04-17 | Sharp Laboratories Of America, Inc. | Methods and systems for identifying digital image characteristics |
US8537409B2 (en) * | 2008-10-13 | 2013-09-17 | Xerox Corporation | Image summarization by a learning approach |
JP5299225B2 (ja) | 2009-01-20 | 2013-09-25 | 株式会社リコー | 情報処理装置、情報処理方法、及びプログラム |
KR101035739B1 (ko) * | 2009-02-13 | 2011-05-20 | 전남대학교산학협력단 | 문자 인식의 왜곡을 보정하는 방법 |
US20110052094A1 (en) * | 2009-08-28 | 2011-03-03 | Chunyu Gao | Skew Correction for Scanned Japanese/English Document Images |
US20110090253A1 (en) * | 2009-10-19 | 2011-04-21 | Quest Visual, Inc. | Augmented reality language translation system and method |
JP5538812B2 (ja) * | 2009-10-23 | 2014-07-02 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
KR101207127B1 (ko) * | 2010-03-19 | 2012-11-30 | 전남대학교산학협력단 | 문자 인식 전처리 방법 및 장치 |
CN102855477B (zh) * | 2011-06-29 | 2014-12-17 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
CN102890783B (zh) * | 2011-07-20 | 2015-07-29 | 富士通株式会社 | 识别图像块中文字的方向的方法和装置 |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
CA2863522C (en) | 2012-01-23 | 2018-08-28 | Microsoft Corporation | Formula detection engine |
CN104205126B (zh) * | 2012-03-23 | 2018-06-08 | 微软技术许可有限责任公司 | 对手写字符的无旋转识别 |
CN103455806B (zh) * | 2012-05-31 | 2017-06-13 | 富士通株式会社 | 文档处理装置、文档处理方法以及扫描仪 |
US9076058B2 (en) | 2013-01-29 | 2015-07-07 | Sharp Laboratories Of America, Inc. | Methods, systems and apparatus for determining orientation in a document image |
US9330070B2 (en) | 2013-03-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Detection and reconstruction of east asian layout features in a fixed format document |
JP6116531B2 (ja) * | 2014-08-08 | 2017-04-19 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
US20160217157A1 (en) * | 2015-01-23 | 2016-07-28 | Ebay Inc. | Recognition of items depicted in images |
CN106156807B (zh) * | 2015-04-02 | 2020-06-02 | 华中科技大学 | 卷积神经网络模型的训练方法及装置 |
US10311318B2 (en) * | 2015-07-17 | 2019-06-04 | Rakuten, Inc. | Reference line setting device, reference line setting method and reference line setting program |
CN105740860B (zh) * | 2016-01-28 | 2018-04-06 | 河南大学 | 自然场景中商铺标牌汉字区域自动检测方法 |
CN107284039B (zh) * | 2016-04-01 | 2023-12-26 | 常州金品精密技术有限公司 | 多通道在线自动打标装置及打标方法 |
CN106407976B (zh) * | 2016-08-30 | 2019-11-05 | 百度在线网络技术(北京)有限公司 | 图像字符识别模型生成和竖列字符图像识别方法和装置 |
CN106407979B (zh) * | 2016-10-25 | 2019-12-10 | 深圳怡化电脑股份有限公司 | 一种票据字符校正的方法及装置 |
CN110603541B (zh) * | 2017-05-05 | 2023-04-25 | 北京嘀嘀无限科技发展有限公司 | 用于图像重定向的系统和方法 |
CN108229470B (zh) * | 2017-12-22 | 2022-04-01 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
JP7234495B2 (ja) | 2018-01-25 | 2023-03-08 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
CN109670480B (zh) * | 2018-12-29 | 2023-01-24 | 深圳市丰巢科技有限公司 | 图像判别方法、装置、设备及存储介质 |
CN110647882A (zh) * | 2019-09-20 | 2020-01-03 | 上海眼控科技股份有限公司 | 图像校正方法、装置、设备及存储介质 |
CN111241365B (zh) * | 2019-12-23 | 2023-06-30 | 望海康信(北京)科技股份公司 | 表格图片解析方法及系统 |
CN114187435A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
US5031225A (en) * | 1987-12-09 | 1991-07-09 | Ricoh Company, Ltd. | Character recognition method for recognizing character in an arbitrary rotation position |
JPH04195485A (ja) * | 1990-11-28 | 1992-07-15 | Hitachi Ltd | 画像情報入力装置 |
JP2530393B2 (ja) | 1991-06-28 | 1996-09-04 | 三菱電機株式会社 | キ―ロックスイッチ |
JP3359651B2 (ja) | 1992-01-30 | 2002-12-24 | 株式会社リコー | 画像方向認識・統一方法および画像方向認識・統一装置 |
JP3220226B2 (ja) * | 1992-05-13 | 2001-10-22 | 株式会社リコー | 文字列方向判別方法 |
JPH0773274A (ja) * | 1993-09-07 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08293000A (ja) * | 1995-04-21 | 1996-11-05 | Canon Inc | 画像処理装置及び方法 |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
US6804414B1 (en) * | 1998-05-01 | 2004-10-12 | Fujitsu Limited | Image status detecting apparatus and document image correcting apparatus |
JPH11338973A (ja) * | 1998-05-22 | 1999-12-10 | Fujitsu Ltd | 文書画像補正装置および文書画像補正方法 |
TW457458B (en) * | 1998-06-01 | 2001-10-01 | Canon Kk | Image processing method, device and storage medium therefor |
JP2000067156A (ja) | 1998-08-24 | 2000-03-03 | Canon Inc | 画像処理装置及び方法 |
JP2001043310A (ja) * | 1999-07-30 | 2001-02-16 | Fujitsu Ltd | 文書画像補正装置および補正方法 |
JP2004272798A (ja) * | 2003-03-11 | 2004-09-30 | Pfu Ltd | 画像読み取り装置 |
JP4678712B2 (ja) * | 2003-07-31 | 2011-04-27 | 株式会社リコー | 言語識別装置、プログラム及び記録媒体 |
US7508984B2 (en) * | 2003-07-31 | 2009-03-24 | Ricoh Company, Ltd. | Language recognition method, system and software |
JP4553241B2 (ja) * | 2004-07-20 | 2010-09-29 | 株式会社リコー | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
-
2005
- 2005-03-17 JP JP2005077879A patent/JP4607633B2/ja not_active Expired - Fee Related
-
2006
- 2006-03-02 EP EP06251145A patent/EP1703444B1/en active Active
- 2006-03-15 US US11/375,130 patent/US7567730B2/en not_active Expired - Fee Related
- 2006-03-17 CN CN200610067618A patent/CN100576233C/zh not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11120478B2 (en) | 2015-01-12 | 2021-09-14 | Ebay Inc. | Joint-based item recognition |
CN106485193A (zh) * | 2015-09-02 | 2017-03-08 | 富士通株式会社 | 文档图像的方向检测装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060210195A1 (en) | 2006-09-21 |
US7567730B2 (en) | 2009-07-28 |
JP2006260274A (ja) | 2006-09-28 |
CN1834992A (zh) | 2006-09-20 |
JP4607633B2 (ja) | 2011-01-05 |
EP1703444A2 (en) | 2006-09-20 |
EP1703444B1 (en) | 2012-05-23 |
EP1703444A3 (en) | 2009-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100576233C (zh) | 检测文档图像中的字符的方向 | |
US7580571B2 (en) | Method and apparatus for detecting an orientation of characters in a document image | |
US7031519B2 (en) | Orthogonal technology for character recognition | |
JP2713622B2 (ja) | 表形式文書読取装置 | |
EP0461793B1 (en) | Method for image analysis | |
US10417516B2 (en) | System and method for preprocessing images to improve OCR efficacy | |
KR102504635B1 (ko) | 영상 처리 방법 및 영상 처리 시스템 | |
US11823497B2 (en) | Image processing system and an image processing method | |
JPH11120293A (ja) | 文字認識/修正方式 | |
EP0810542A2 (en) | Bitmap comparison apparatus and method | |
JP4280355B2 (ja) | 文字認識装置 | |
CN115311666A (zh) | 图文识别方法、装置、计算机设备及存储介质 | |
US6958755B1 (en) | Personalized computer fonts | |
US7133556B1 (en) | Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition | |
TWM618756U (zh) | 影像識別系統 | |
JP6310155B2 (ja) | 文字認識装置、文字認識方法及び文字認識プログラム | |
JP4697387B2 (ja) | 原稿画像判定装置、原稿画像判定方法及びそのプログラム | |
KR100317653B1 (ko) | 대용량인쇄체문자인식을위한특징추출방법 | |
CN116721431A (zh) | 还原图像中字符排版的方法 | |
JP3320083B2 (ja) | 文字認識装置及び方法 | |
JPH0259503B2 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091230 |
|
CF01 | Termination of patent right due to non-payment of annual fee |