CN102760233B

CN102760233B - 图像处理装置

Info

Publication number: CN102760233B
Application number: CN201210119225.XA
Authority: CN
Inventors: 九津见毅
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2011-04-25
Filing date: 2012-04-20
Publication date: 2015-04-15
Anticipated expiration: 2032-04-20
Also published as: JP5337194B2; CN102760233A; JP2012230480A; US8705862B2; US20120269438A1

Abstract

本发明的目的在于提供一种图像处理装置，该图像处理装置，在由文件读取装置读取的文件图像的处理中，能够更准确地求出文件图像中的通过文字识别而得到的文字列的倾斜。图像处理装置包括：类似文字提取部，其提取并输出包括构成文字列的文字之中的形状和大小相互相同或类似的文字的文字组，其中，上述文字列包括从由文件读取装置读取的文件图像通过光学文字识别后而得到的文字；和倾斜计算部，其根据从该类似文字提取部输出的文字组的各文字的位置信息，计算上述文字列的倾斜值。

Description

图像处理装置

技术领域

本发明涉及在由文件读取装置读取的文件图像的处理中，对文件图像中的通过文字识别而得到的文字列的倾斜进行取得的图像处理装置。

背景技术

近年来，已知有通过光学文字识别(OCR：Optical CharacterRecognition)读取文件，在行间附加该读取的图像的文件中的原文的译文(以下称为“注释(ruby)”)的技术。作为该技术的典型的文献，有与本申请为同一申请人申请的日本特愿2009-255373号。

在这种向文件图像添加注释的系统中，例如图17所示，即使在略微倾斜地扫描原文件而使文字列L11倾斜的情况下，或者原文件中存在倾斜的文字列L11的情况下，为了出于注释的美观的观点而沿着该倾斜的文字列倾斜地生成注释，需要取得文件图像中的各文字列的正确的倾斜值。该注释生成以外的处理也需要正确的文字列的倾斜值。

作为求取倾斜值的方法，现有技术中，通过与文字列的各文字外接的矩形的坐标、例如各矩形的左下坐标或者各矩形的中心坐标等决定基准，以文字列单位求得回归的直线，将该直线的倾斜作为文字列的倾斜值。

另外，作为不使用回归计算的方法，有根据文字列的始端的文字和终端的文字的坐标求得这两个文字之间的倾斜，作为上述文字列的倾斜值的方法。

在上述的求取文件图像的文字列的倾斜值的方法中，例如存在如下问题。

例如当原文件的文字是英文字母时，如图18所示与文字外接的矩形B11的上端与下端的高度不对齐，根据文字配置的不同，如果仅使它们的坐标回归，则如图19所示，存在真正的倾斜K11与求得的倾斜K12不同的情况。而且，因为需要回归计算，所以计算量大。

另外，在不进行回归计算而仅根据文字列的始端的文字和终端的文字求取文字列的倾斜的方法中，根据始端与文字和终端的文字的不同，存在真正的倾斜与求得的倾斜更大地不同的情况。

发明内容

本发明提供一种图像处理装置，其在由文件读取装置读取的文件图像的处理中，更准确地求取文件图像中的通过文字识别而得到的文字列的倾斜。

本发明的目的在于提供一种图像处理装置，其特征在于，包括：类似文字提取部，其提取并输出包括构成文字列的文字之中的形状和大小相互相同或类似的文字的文字组，其中，上述文字列包括从由文件读取装置读取的文件图像通过光学文字识别后而得到的文字；和倾斜计算部，其根据从该类似文字提取部输出的文字组的各文字的位置信息，计算上述文字列的倾斜值。

本发明的另一目的在于提供一种图像处理装置，其特征在于：上述类似文字提取部，提取包括在构成上述文字列的文字之中的最多的文字的文字组。

本发明的另一目的在于提供一种图像处理装置，其特征在于：上述类似文字提取部，提取包括在上述文字列中的语言中一般而言出现频率高的文字的文字组。

本发明的另一目的在于提供一种图像处理装置，其特征在于：上述类似文字提取部，从包括在构成上述文字列的文字之中的最多的文字的文字组和包括在上述文字列中的语言中一般而言出现频率高的文字的文字组之中，提取在上述文字列内文字间隔更均等的文字组。

本发明的另一目的在于提供一种图像处理装置，其特征在于：上述类似文字提取部，输出包括从所提取的上述文字组中摘录的文字的文字组。

附图说明

图1是本发明的图像处理装置的一例的框图。

图2是说明类似文字提取部为了计算倾斜而提取的文字组的一例的图。

图3是说明文字列的语言中一般而言出现频率高且文字的外接矩形对齐的文字的列表的例子的图。

图4是说明类似文字提取部为了计算倾斜而提取的文字组的其他例的图。

图5是说明类似文字提取部为了计算倾斜而输出的文字组的其他例的图。

图6是说明能够利用图7说明的方法解决的问题的图。

图7是说明倾斜计算部的文字列的倾斜值的计算方法的一例的图。

图8是说明倾斜计算部的文字列的倾斜值的计算方法的其他例的图。

图9是表示图2、图4、图5所示的情况的各文字的坐标变换后的坐标值的例子的表。

图10是表示图7所示的情况的各文字的坐标变换后的坐标值的例子的表。

图11是表示图8所示的情况的各文字的坐标变换后的坐标值的例子的表。

图12是说明图1的图像处理装置的处理例子的流程图。

图13A和图13B是说明图12的步骤S4的文字组选择提取处理的一例的流程图。

图14是说明图12的步骤S5的文字摘录处理的一例的流程图。

图15是说明图12的步骤S12的倾斜值计算处理的一例的流程图。

图16是说明图12的步骤S12的倾斜值计算处理的其他例的流程图。

图17是说明本发明的课题的图。

图18是说明本发明的课题的图。

图19是说明本发明的课题的图。

具体实施方式

图1是本发明的图像处理装置的一例的框图。

本发明的图像处理装置，如图1的参照符号10所例示的那样，包括光学文字识别部11、翻译部12、倾斜取得部13和图像处理部14。

光学文字识别部11对通过扫描读取文件而得的文件图像数据进行光学文字识别处理，按每个文字列取得文字和该文字的坐标信息作为处理结果。其中，作为文字的坐标信息，只要X坐标从“外接矩形的左端”、“外接矩形的右端”、“外接矩形的中央”等，Y坐标从“外接矩形的上端”、“外接矩形的下端”、“外接矩形的中央”等之中决定统一基准即可。在此，XY坐标都取为“外接矩形的中央”。

翻译部12，根据存储于未图示的存储部的翻译辞典，对由光学文字识别部11识别的文字进行翻译，生成翻译文数据。

倾斜取得部13，取得由光学文字识别部11取得的文字列的倾斜值，输出到图像处理部14。关于倾斜取得部13所具有的类似文字提取部13a和倾斜计算部13b在后面叙述。

图像处理部14，根据从光学文字识别部11输出的文字列的信息、来自翻译部12的翻译文数据和来自倾斜计算部13b的倾斜，进行图像处理，沿文字列生成附加翻译文后的图像数据。

本图像处理装置10的特征部的倾斜取得部13包括：类似文字提取部13a，其提取并输出包括构成由光学文字识别部11取得的文字列的文字之中的形状和大小相互相同或类似的文字的文字组；和倾斜计算部13b，其根据从类似文字提取部13a输出的文字组的文字的位置信息通过直线回归等计算文字列的倾斜值。

这样在图像处理装置10中，由于仅利用构成文字列的相同或类似的文字构成的文字组计算文字列的倾斜值，因此不会发生起因于与文字外接的矩形形状的偏差的问题，能够计算准确的(符合文字配置意图的)倾斜。

图2是说明类似文字提取部13a为了计算倾斜而提取的文字组的一例的图。

类似文字提取部13a，如上所述，从构成由光学文字识别部11取得的文字列的文字中提取包括形状和大小相互相同或类似的文字的文字组，更具体地说，例如提取实际频繁出现的文字组，该实际频繁出现的文字组包括在构成由光学文字识别部11取得的文字列的文字之中的最多的文字。

例如图2所示，在文字列L1为“Users’Documents.”的情况下，类似文字提取部13a提取包括两个文字“s”的文字组。

在根据该文字组计算文字列的倾斜值的情况下，因为仅利用同一文字，所以不会发生起因于与文字外接的矩形形状的偏差的问题，能够计算准确的倾斜值。

图3和图4是说明类似文字提取部为了计算倾斜而提取的文字组的其他例的图。

类似文字提取部13a，除了图2的例子以外，例如根据翻译辞典判定由光学文字识别部11取得的文字列的语言的种类，取得该语言中一般而言出现频率高且该文字的外接矩形对齐的文字(以下，称为一般频繁出现文字)。另外，一般频繁出现文字，例如按每种语言作为列表存储于未图示的存储部，在图3的列表T1中，记载有作为英语的一般频繁出现文字的“a”、“c”、“e”、“o”、“s”。而且，类似文字提取部13a提取作为所取得的一般频繁出现文字的、包括构成文字识别后的文字列的文字的文字组(一般频繁出现文字组)。

例如图4所示，在文字列L2为“Users’Documents.”的情况下，类似文字提取部13a将文字列L2的语言判定为英语，提取作为英语的一般频繁出现文字的、包括文字列L2中包含的文字“s”、“e”、“o”、“c”的一般频繁出现文字组。

在根据该一般频繁出现文字组计算文字列的倾斜值的情况下，由于仅利用文字的外接矩形的尺寸和向与文字列的前进方向垂直的方向的偏移量大致一致的文字，因此能够最大限度地抑制文字的外接矩形形状的偏差的问题的影响，能够计算准确的倾斜。另外，在图2的方法中不能为了计算文字列的倾斜而利用充分个数的文字数据的情况下，在本例中，有可能能够利用上述充分个数的文字数据。

另外，类似文字提取部13a，一旦取得一般频繁出现文字和实际频繁出现文字组两者，也可以从它们之中选择提取通过文字识别而得到的文字列内的文字的分布偏差小的一方。在这种情况下，能够得到更加准确的值。关于分布偏差的判定方法在后面叙述。

图5是说明类似文字提取部13a为了计算倾斜而输出的文字组的其他例的图。

类似文字提取部13a可以将构成为了计算倾斜而提取的文字组的全部文字输出到计算部13b，但在构成的文字数多的情况下，也可以摘录一部分的文字并输出。

例如，在对于“Users’Document.”提取由文字“s”、“e”、“o”、“c”共计7字(参照图4)构成的一般频繁出现文字的情况下，类似文字提取部13a，如图5所示，摘录包括“s”、“c”的文字组，输出到倾斜计算部13b。在倾斜计算部13b中，根据该摘录的文字组的坐标信息计算文字列的倾斜值。

在该方法中能够用较少的计算量得到适当的倾斜值。

另外，如图6所示，光学文字识别部11有时将原文件中高度错开且横向相邻的两个文字列L4、L5识别为一个文字列。在这种情况下，像现有方式那样，如果使用所识别的文字列的全部文字或者始端和终端的文字来计算文字列的倾斜值，则真正的倾斜K1与计算出的倾斜K2有较大的不同。

图7是说明解决上述问题的倾斜计算部13b的文字列的倾斜值的计算方法的一例的图。

在将两个文字列L4、L5识别为一个文字列的情况下，倾斜计算部13b从由类似文字提取部13a输出的文字组中取得与倾斜增减方向相关的坐标的差最小的组合的文字，仅根据该取得的文字的坐标信息计算文字列的倾斜值。

例如，倾斜计算部13b，如图7所示，在文字列“Users’Document.”被识别为一个文字列的情况下，从由类似文字提取部13a输出的文字“s”、“c”(文字M11～M14)中取得与倾斜增减方向相关的纸的垂直方向的坐标“Y坐标”的差最小的文字M11和M12。然后，计算出该文字M11和M12的文字间的倾斜值作为文字列的倾斜值。

像这样计算文字列的倾斜值的方式更加具有如下效果。即，在原文件图像中或者读入时并不太倾斜的两个文字列L4、L5被识别为一个文字列的情况下，能够用较少的计算量计算出与准确的倾斜K1(参照图6)接近的倾斜K3。

图8是说明将两个文字列L6、L7文字识别为一个文字列的情况的倾斜计算部的文字列的倾斜值的计算方法的其他例的图。

在将两个文字列L6、L7识别为一个文字列的情况下，倾斜计算部13b取得从类似文字提取部13a输出的文字组的全部相邻的两个文字间的倾斜值，从所取得的文字间的倾斜值组中除去了作为统计学上不符合值的倾斜值(与其他有很大不同的值)的倾斜值中计算文字列的倾斜值。

例如，倾斜计算部13b，如图8所示，在文字列“Users’Document.”被识别为一个文字列的情况下，对于从类似文字提取部13a输出的文字“s”、“c”(文字M11～M14)，取得全部的相邻的2个文字间的倾斜值。即，取得文字M11与文字M12之间的倾斜值、文字M12与文字M13之间的倾斜值和文字M13与文字M14之间的倾斜值。所取得的倾斜之中，因为文字M12与文字M13之间的倾斜与其他有较大不同所以除去，根据文字M11与文字M12之间的倾斜、文字M13与文字M14之间的倾斜，例如通过求出它们的平均值来计算文字列的倾斜值。

像这样计算文字列的倾斜值的方式更加具有如下效果。即，不仅在原文件图像中或者读入时并不倾斜的两个文字列被识别为一个文字列的情况下，而且在原文件中或读入时倾斜的两个文字列L6、L7被文字识别为一个文字列的情况下，也能够计算出准确的文字列的倾斜值。

倾斜计算部13b用如上所述的方法计算文字列的倾斜值，但在计算出的文字列的倾斜值为规定值以下的情况下，倾斜取得部13也可以输出0作为文字列的倾斜值。

在像这样倾斜微小的情况下通过将之作为未倾斜来处理，具有如下效果。即，例如，在将与原文对应的译文等注释以沿原文的方式输出时，由输出介质(例如，显示装置、打印机或者它们的驱动器)的分辨率不同而导致在输出文字列(注释)中不能很好地表现微小的倾斜而以有台阶差的方式进行显示的问题得以消除，能够漂亮地输出。另外，注释配置时的计算量也得以削减。不仅是本例这样的注释，即使再现原文件的倾斜地输出原文的文本数据的情况下，也能够同样漂亮地输出且削减计算量。

另外，本发明中所谓“倾斜值”，是指沿文字列的虚拟的直线的、Y坐标(纸的纵向的坐标)的位移对X坐标(纸的宽度方向的坐标)的位移的比率。即，该虚拟的直线的相对于水平的角度设为θ时，倾斜值为tanθ。另外，“倾斜值”也可以通过另外的方法定义。

另外，倾斜取得部13，优选将包括对象的文字列的图像整体或者一部分坐标系预先变换为从该坐标系旋转90度、180度或270度的状态的坐标系，以使倾斜计算部13b中的计算结果在规定的范围内(例如，相对于水平方向-45度～+45度)收束。如果采用这种结构，则不论原文件是纵排还是横排都能够用统一的方法计算文字列的倾斜值。另外，由于以90度单位进行坐标变换，所以能够用单纯的加减法变换坐标值。图9是表示图2、图4、图5所示的文字列的坐标变换后的坐标值的例子的表，图10是表示图7所示的文字列的坐标变换后的坐标值的例子的表，图11是表示图8所示的文字列的坐标变换后的坐标值的例子的表。

图12是说明图1的图像处理装置10的处理例子的流程图。

图像处理装置10，如图所示，当在光学文字识别部11中取得文字列和构成该文字列的文字的坐标信息时，倾斜取得部13进行坐标变换以使文字列的坐标系变为从初始旋转90度、180度或270度的状态的坐标系(步骤S1)，再次取得上述坐标信息。由此，例如取得图9～图11所示的坐标值。

然后，类似文字提取部13a，从构成由光学文字识别部11取得的文字列的文字中取得实际频繁出现文字组(步骤S2)。例如，在图2的例子中，取得文字列L1的“Users’Document.”中最多的有3个的文字“s”。图9中取得文字编号2、5、15的文字。

另外，类似文字提取部13a，从构成由光学文字识别部11取得的文字列的文字中取得一般频繁出现文字组(步骤S3)。例如，在图5的例子中存在图3的列表T1的情况下，取得图10的文字编号2、3、5、8、9、12、15的文字。

在步骤S4中，类似文字提取部13a，选择提取所取得的实际频繁出现文字组和一般频繁出现文字组中的任一文字组。

接着，类似文字提取部13a，从所选择提取的文字组中摘录全部或一部分文字，作为文字组输出到倾斜计算部13b(步骤S5)。然后，倾斜计算部13b计算文字列的倾斜(步骤S6)。

进而，倾斜计算部13，对计算出的文字列的倾斜值是否为微小即是否为阈值以下进行判定(步骤S7)，在是阈值以上的情况(“否”的情况)下进入步骤S9，在是阈值以下的情况(“是”的情况)下，将计算出的文字列的倾斜值替换为0(步骤S8)，之后，使处理进入步骤S9。阈值例如为0.01。在步骤S9中，对计算出的文字列的倾斜值进行坐标变换以使适合步骤S1中的坐标变换前的坐标系。

图13是说明图12的步骤S4的文字组选择提取处理的一例的流程图。

首先，类似文字提取部13a，对取得倾斜值的对象的文字列是否为2字以下进行判定(步骤S11)。在是2字以下的情况(“否”的情况)下，由于用与现有技术相同的方法取得文字列的倾斜值，所以结束处理，在比2字多的情况(“是”的情况)下，对实际频繁出现文字组是否为1字以下进行判定(步骤S12)。

在实际频繁出现文字组是1字以下的情况(“是”的情况)下，对一般频繁出现文字组是否为1字以下进行判定(步骤S13)，在是1字以下的情况(“是”的情况)下，结束处理，在比2字多的情况(“是”的情况)下，选择提取一般频繁出现文字组(步骤S14)。

在步骤S12中，在实际频繁出现文字组比1字多的情况(“否”的情况)下，对一般频繁出现文字组是否为1字以下进行判定(步骤S15)，在是1字以下的情况(“是”的情况)下，选择提取实际频繁出现文字(步骤S21)。在比1字多的情况(“否”的情况)下，使处理进入步骤S16。

在步骤S16中，对于实际频繁出现文字组和一般频繁出现文字组，对两端的文字间的距离是否一方比另一方长进行判定，在长的情况(“是”的情况)下，选择提取长的一方的文字组(步骤S17)。在短的情况(“否”的情况)下，对实际频繁出现文字组和一般频繁出现文字组中是否存在字数差进行判定(步骤S18)。

在步骤S18中，在判定为存在字数差的情况(“是”的情况)下，选择提取字数多的一方的文字组(步骤S19)。在判定为不存在字数差的情况(“否”的情况)下，选择提取文字的部分偏斜少的文字组，具体而言，选择提取文字组的中央的文字的X坐标(如果文字组的文字数是偶数，则为中央的2个文字的坐标的平均)与两端的文字的X坐标的平均相近的一方的文字组(步骤S20)。

另外，虽然省略了详细说明，但在对象的文字列为2字的情况，和实际频繁出现文字组为1字且一般频繁出现文字组为1字的情况下，与现有技术同样，根据构成文字列的全部文字和两端的文字的坐标信息计算文字列的倾斜值。

图14是说明图12的步骤S5的文字摘录处理的一例的流程图。本例是在所选择提取的文字组的文字数比4大的情况下，摘录四个文字的例子。

首先，类似文字提取部13a，对所选择提取的文字组的文字数是否为4以下进行判定(步骤S31)。在为4字以下的情况(“是”的情况)下，摘录全部的文字，作为文字组输出到倾斜计算部13b(步骤S32)，在比四字多的情况(“否”的情况)下，取得所选择提取的文字组的文字数除以3的结果的整数值a(步骤S33)。然后，从所选择提取的文字组之中摘录两端的文字和从两端的文字起a字内一侧的文字，作为文字组输出到倾斜计算部13b(步骤S34)。

图15是说明图12的步骤S12的倾斜值计算处理的一例的流程图。其中，在此，作为文字列，输入图7和图10所示的文字列，在这种情况下，在至步骤S5为止的处理中，摘录图10的文字编号2、5、9、15的文字。

倾斜计算部13b，首先，对于所摘录的文字，计算全部的两个文字间的Y坐标之差(步骤S41)。

然后，计算Y坐标之差最小的文字间的倾斜值作为文字列的倾斜值(步骤S42)。在图10的例子中，可知所摘录的文字之中，文字编号2的文字“s”与文字编号5的文字“s”之差最小，为“2.0”，所以能够算出这两个文字间的倾斜值为(409.0-407.0/209.0-160.5)＝0.041，作为文字列的倾斜值。

图16是说明图12的步骤S12的倾斜值计算处理的其他例的流程图。其中，在此，作为文字列，输入图7和图10所示的文字列，在这种情况下，在至步骤S5为止的处理中，摘录图10的文字编号2、5、9、15的文字。

倾斜计算部13b，首先，在所摘录的文字中的全部的相邻两个文字间计算倾斜值(步骤S51)。在图10的例子中，计算文字编号2的文字“s”与文字编号5的文字“s”之间的倾斜值、文字编号5的文字“s”与文字编号9的文字“c”之间的倾斜值、文字编号9的文字“c”与文字编号15的文字“s”之间的倾斜值，分别为0.1875、-0.2458、0.1867。

接着，倾斜计算部13b，对计算出的倾斜值组的平均值和统计学上的分散进行计算“步骤S52”，根据计算出的平均值和统计学上的分散，除去作为不符合值的倾斜值(步骤S53)。在图10的例子中，倾斜值“-0.2458”作为不符合值被除去。

然后，倾斜计算部13b，从剩下的文字间的倾斜值计算文字列的倾斜值(步骤S54)。例如，在图10的例子中，计算剩下的倾斜值“0.1875”、“0.1867”的平均值“0.1871”，作为文字列的倾斜值。

以上，根据本发明，能够提供一种图像处理装置，其在由文件读取装置读取的文件图像的处理中，更准确地求出文件图像中的通过文字识别而得到的文字列的倾斜。

Claims

1.一种图像处理装置，其特征在于，包括：

类似文字提取部，其提取并输出包括构成文字列的文字之中的形状和大小相互相同或类似的文字的文字组，其中，所述文字列包括从由文件读取装置读取的文件图像通过光学文字识别后而得到的文字；和

倾斜计算部，其根据从该类似文字提取部输出的文字组的各文字的位置信息，计算所述文字列的倾斜值，

所述类似文字提取部所提取并输出的文字组，是包括在构成所述文字列的文字之中的最多的文字的文字组和包括a、c、e、o、s的文字组之中，在所述文字列内文字间隔更均等的文字组。

2.如权利要求1所述的图像处理装置，其特征在于：

所述类似文字提取部，输出包括从所提取的所述文字组中摘录的文字的文字组。