CN108121988B - 信息处理方法和装置以及信息检测方法和装置 - Google Patents

信息处理方法和装置以及信息检测方法和装置 Download PDF

Info

Publication number
CN108121988B
CN108121988B CN201611088547.7A CN201611088547A CN108121988B CN 108121988 B CN108121988 B CN 108121988B CN 201611088547 A CN201611088547 A CN 201611088547A CN 108121988 B CN108121988 B CN 108121988B
Authority
CN
China
Prior art keywords
sliding window
column
text line
rectangular sliding
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611088547.7A
Other languages
English (en)
Other versions
CN108121988A (zh
Inventor
李鑫
范伟
孙俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201611088547.7A priority Critical patent/CN108121988B/zh
Publication of CN108121988A publication Critical patent/CN108121988A/zh
Application granted granted Critical
Publication of CN108121988B publication Critical patent/CN108121988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

公开了一种信息处理方法和装置以及信息检测方法和装置,其中该信息处理方法包括:从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括该字符串样本的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径;以及通过对基于所述相对位置关系和连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割。根据本公开的实施例,能够直接对灰度字符串图像进行字符分割,而无需进行图像的二值化。

Description

信息处理方法和装置以及信息检测方法和装置
技术领域
本公开涉及图像处理领域,具体涉及可以直接对灰度字符串图像进行分割的信息处理方法和装置以及信息检测方法和装置。
背景技术
在字符识别领域,通常先要对字符串图像进行分割,利用分割后的结果可以进行组合识别等工作。但是在日常生活中,不论是打印机打印出来的字符串图像还是手写字符串图像,字符之间经常有一定程度的粘连,仅仅使用基于连接部件的方法不能够将其分开。而且基于连接部件的方法通常依赖图像二值化方法,当图像质量较差时,不能够正确地对图像进行二值化,有可能将一些本不该分割的部位分割,出现分割过碎的情况。
发明内容
在下文中给出了关于本公开的简要概述,以便提供关于本公开的某些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。
鉴于以上问题,本公开的目的是提供一种可以直接对灰度字符串图像进行字符分割、而无需进行图像的二值化的信息处理方法和装置以及信息检测方法和装置。
根据本公开的一方面,提供了一种信息处理方法,包括:可以从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括该字符串样本的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径;以及可以通过对基于所述相对位置关系和连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割。
根据本公开的另一方面,提供了一种信息检测方法,包括:可以从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括待检测字符串的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径;以及可以将基于所述相对位置关系和连接关系得到的相关特征作为预定分类器的输入,以便对待检测字符串进行字符分割。
根据本公开的又一方面,提供了一种信息检测装置,包括:获得关系单元,被配置成可以从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括待检测字符串的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径;以及检测单元,被配置成可以将基于所述相对位置关系和连接关系得到的相关特征作为预定分类器的输入,以便对待检测字符串进行字符分割。
根据本公开的其它方面,还提供了用于实现上述根据本公开的方法的计算机程序代码和计算机程序产品以及其上记录有该用于实现上述根据本公开的方法的计算机程序代码的计算机可读存储介质。
在下面的说明书部分中给出本公开实施例的其它方面,其中,详细说明用于充分地公开本公开实施例的优选实施例,而不对其施加限定。
附图说明
本公开可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本公开的优选实施例和解释本公开的原理和优点。其中:
图1是示出根据本公开的实施例的信息处理方法的流程示例的流程图;
图2是示出字符串图像的示例的图;
图3是示出根据本公开的实施例的具有标注的字符串图像的示例的图;
图4是示出根据本公开实施例的滑窗路径的示例的图;
图5是示出根据本公开实施例的对矩形滑窗内的图像的连接关系设定分类标签的示意图;
图6是示出根据本公开的实施例的信息处理装置的功能配置示例的框图;
图7是示出根据本公开的实施例的信息检测方法的流程示例的流程图;
图8是示出根据本公开实施例的字符串图像的字符分割结果的示例的图;
图9是示出根据本公开的实施例的信息检测装置的功能配置示例的框图;以及
图10是示出作为本公开的实施例中可采用的信息处理装置的个人计算机的示例结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其它细节。
根据本公开的一方面,提出了一种信息处理方法,该信息处理方法可以直接对灰度字符串图像进行处理、而不依赖于图像的二值化,具体地,该信息处理方法通过沿灰度字符串图像的重心线、以预定步幅移动矩形窗口来提取图像块数据,利用图像块及其分割情况对分类器进行训练,以便对待检测字符串进行字符分割。
下面结合附图详细说明根据本公开的实施例。
首先,将参照图1描述根据本公开的实施例的信息处理方法100的流程示例。图1是示出根据本公开的实施例的信息处理方法100的流程示例的流程图。如图1所示,根据本公开的实施例的信息处理方法100包括获得关系步骤S102和获得分类器步骤S104。
首先,在步骤S102中,可以从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括该字符串样本的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径。
具体地,输入字符串样本的图像可以是彩色图像或者灰度图像。在输入字符串样本的图像是彩色图像的情况下,将其转换为相应的灰度图像。可以采用本领域常用的技术手段将彩色图像转换为相应的灰度图像,这里不再累述。
另外,在输入字符串样本的图像包括多个文本行的情况下,可以将该图像划分成多个子图像,其中,每个子图像包括一个文本行并且每个文本行包括一个字符串样本。每个字符串样本可以包括至少一个字符和/或至少一个笔划。图2是示出字符串图像的示例的图。如图2所示,字符串中不但包括诸如“2”、“0”、“年”、“以”、“来”、“国”等的字符,而且还包括笔划“,”。可以从输入字符串样本的图像得到这些字符和笔划之间的相对位置关系和连接关系。其中,对于包括字符串样本的文本行,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径,并且可以基于该文本行的滑窗路径和该文本行的平均高度,得到字符和笔划之间的相对位置关系和连接关系。将在下文中详细描述得到字符和笔划之间的相对位置关系和连接关系的具体方式。
优选地,输入字符串样本中的每个字符和每个笔划均可以具有标注,该标注可以包括完全包围该字符的包围盒或者是完全包围该笔划的包围盒。即,输入字符串样本的图像可以是已标注好的字符串图像,标注内容为:每个字符或每个笔划完整的包围盒,即每个字符或每个笔划的上下左右边界。
图3是示出根据本公开的实施例的具有标注的字符串图像的示例的图。具体地,图3示出了与图2中示出的字符串图像相对应的具有标注的字符串图像。如图3所示,每个字符和笔划都被标注了用于字符分割的、完全包围该字符的包围盒或者是完全包围该笔划的包围盒;例如,字符“2”被标注了完全包围该字符的包围盒,字符“0”被标注了完全包围该字符的包围盒,字符“国”被标注了完全包围该字符的包围盒,以及笔划“,”被标注了完全包围该笔划的包围盒。将字符串样本中的第i个字符串或笔划的标注信息表示为Ri=(xi0,yi0,xi1,yi1),其中,(xi0,yi0)为包围盒的左上角的坐标位置,(xi1,yi1)为包围盒的右下角的坐标位置。根据每个包围盒的左上角的坐标位置和右下角的坐标位置,可以确定该包围盒的上下左右边界。
优选地,文本行的灰度图像中的每列像素的列重心点可以是通过以下方式得到的:获得该文本行的灰度图像的高度;以及对于该文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则可以将该特定像素作为该列像素的列重心点。
具体地,假设文本行的灰度图像中的每一列有n个像素,即该文本行的灰度图像的高度为n,并且每个像素的灰度像素值为pi(i=0,1,…,n-1),pi=0表示该像素为黑色,而pi=255表示该像素为白色。对于该文本行的灰度图像中的每列像素中的第j(j=0,1,…,n-1)个像素,如果该列中排列在该第j个像素之上的所有像素的像素值之和与该列中排列在该第j个像素以下的所有像素的像素值之和的差值绝对值最小,即
Figure BDA0001167010970000051
在像素位置j处最小,其中abs为绝对值操作,那么该列中的第j个位置为该列的重心点。以上获得每列像素的列重心点的方法仅仅是示例,还可以采用本领域中的其他技术手段来获得每列像素的列重心点。
将文本行的灰度图像中的每列像素的列重心点进行连接,可以得到该文本行的滑窗路径。具体地,逐列计算文本行的灰度图像中每列的重心点,若假设有w列,则得到w个重心点。可以将这些重心点利用最小二乘法进行曲线拟合。假设m表示曲线拟合时的曲线阶数,则经曲线拟合可以得到一条m阶的曲线。其中,可以根据经验确定m的值,优选地,m的值可以为6。以上采用最小二乘法进行曲线拟合来获得文本行的滑窗路径仅仅是示例,还可以采用本领域中的其他技术手段来获得文本行的滑窗路径。
优选地,可以对文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。按以上方法得到的滑窗路径可能不平滑,可以采用本领域已知方法对该滑窗路径进行平滑处理,从而得到平滑后的滑窗路径。
图4是示出根据本公开实施例的滑窗路径的示例的图。如图4所示,将文本行的灰度图像中的每列像素的列重心点进行连接,得到了该文本行的滑窗路径。
优选地,所述相对位置关系可以通过以下方式得到:基于文本行的平均高度而确定具有预定滑动步幅和预定宽度的矩形滑窗;使该矩形滑窗沿滑窗路径在该文本行上以所述预定滑动步幅滑动;使得该矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而可以确定该矩形滑窗的高度;以及如果该矩形滑窗的高度小于该文本行的平均高度,则可以将该矩形滑窗的高度校正为该文本行的平均高度,从而保留了该矩形滑窗内的字符或笔划的位置信息。
具体地,首先获取文本行的灰度图像中每一列的上下边界:从上向下扫描每一列像素,对于i=0,1,…,n-1,将第一次满足pi-pi+1>λ(其中,λ为预定阈值,可以根据经验确定)所对应的第i个位置确定为该列的上边界;再从下向上扫描每一列像素,对于i=n-1,n-2,…,0,将第一次满足pi+1-pi>λ所对应的第i个位置确定为该列的下边界。将每列的下边界减去上边界可以得到该列的高度。对于所有的w列的高度求平均,可以计算文本行的平均高度Ha。以上计算文本行的平均高度的方法仅仅是示例,还可以采用本领域中的其他技术手段来计算文本行的平均高度。
基于文本行的平均高度Ha可以确定具有预定宽度round(α*Ha)(其中,α为小于1的实数)和预定滑动步幅round(β*Ha)(其中,β为小于1的实数)的矩形滑窗;其中,round()表示取整,α和β可以根据经验确定,优选地,α可以在1/3至1/5的范围内。矩形滑窗窗口的中心点为当前列的重心点位置;使该矩形滑窗沿滑窗路径在该文本行上以上述预定滑动步幅滑动;矩形滑窗的预定滑动步幅β*Ha的取值影响以下所述的连接关系判定的精确度,矩形滑窗的预定滑动步幅取值越小,则矩形滑窗对字符串遍历的越精细,从而连接关系判定的精确度越高,而矩形滑窗的预定滑动步幅取值越大,则连接关系判定的精确度越低。
对于该矩形滑窗的宽度范围内包含的所有列,根据各列的上下边界分别获得所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度hw,也就是说,使该矩形滑窗完全包围窗内的各列像素的上边界和下边界。如果矩形滑窗的高度hw小于文本行的平均高度Ha,则以该窗口中心的重心位置为窗口中心,高度上下补齐到平均高度,即hw=Ha,从而保留了该矩形滑窗内的字符或笔划的位置信息。下面结合图4来描述对矩形滑窗的高度的确定。假设矩形滑窗内包括字符“许”和其周围的空白字符,可以根据矩形滑窗中各列的上下边界分别获得该矩形滑窗中所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度;从图4可以看出,该高度不小于该文本行的平均高度,则确定该高度为矩形滑窗的高度,从而该矩形滑窗完全包围字符“许”的各列像素的上边界和下边界。另外,假设矩形滑窗内包括一个笔划“,”和该笔划周围的空白字符,可以根据矩形滑窗中各列的上下边界分别获得该矩形滑窗中所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度;从图4可以看出,该高度小于该文本行的平均高度,则以该窗口中心的重心位置为窗口中心,高度上下补齐到平均高度,即确定该文本行的平均高度为矩形滑窗的高度,从而保留了该笔划“,”的位置信息。
优选地,所述连接关系可以通过以下方式得到:如果矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间,则可以确定中线的位置为分割点;如果矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间,则可以确定中线的位置为粘连分割点;以及如果矩形滑窗内包括一个部件并且中线落在所述一个部件上,则可以确定中线的位置是非分割点,其中,所述部件为以下中的任一个:整个字符、字符的一部分、整个笔划以及笔划的一部分。
由于输入字符串样本为标注数据,因此可以根据标注数据获得所述连接关系,由此获得连接关系的分类标签。具体地,根据标记数据,能够得到矩形滑窗的中线位置是落在字符包围盒内、两个包围盒之间、还是在两个包围盒的重叠区域内。如果矩形滑窗的中线落在一个包围盒内,则可以确定中线的位置是非分割点,设定分类标签为0;如果矩形滑窗的中线落在两个分离的字符和/或笔划的包围盒之间,则可以确定中线的位置为分割点,设定分类标签为1;而如果矩形滑窗的中线落在两个相互连接的字符和/或笔划的包围盒的重叠区域内,则可以确定中线的位置为粘连分割点,设定分类标签为2。
图5是示出根据本公开实施例的对矩形滑窗内的图像的连接关系设定分类标签的示意图。如图5所示,最左侧矩形滑窗内包括两个字符“考”和“察”,由于这两个字符“考”和“察”相互分离,因此该矩形滑窗的中线落在字符“考”的包围盒与字符“察”的包围盒之间,从而可以确定中线的位置为分割点,设定分类标签为1;中间矩形滑窗内包括一个字符“安”,该矩形滑窗的中线落在字符“安”的包围盒内,因此可以确定中线的位置为非分割点,设定分类标签为0;最右侧矩形滑窗内包括两个字符“2”和“0”,由于这两个字符“2”和“0”相互连接,因此该矩形滑窗的中线落在字符“2”的包围盒与字符“0”的包围盒的重叠区域内,从而可以确定中线的位置为粘连分割点,设定分类标签为2。
在步骤S104中,可以通过对基于相对位置关系和连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割。
具体地,将在步骤S102中基于相对位置关系和连接关系得到的相关特征作为分类器的输入来对分类器进行训练,获得训练好的参数,从而可以使用训练好的分类器对待检测字符串进行字符分割。
优选地,在步骤S104中,将与所获得的矩形滑窗以及矩形滑窗的中线的位置相关的信息作为分类器的输入来对分类器进行训练,以使得经训练得到的分类器能够确定其输入是否为字符串样本中的分割点、粘连分割点以及非分割点中的任一个。
具体地,将上述所获得的矩形滑窗内的图像以及该图像的连接关系的分类标签作为分类器的输入来对分类器进行训练,以使得经训练得到的分类器能够确定其输入是否为字符串样本中的分割点、粘连分割点以及非分割点中的任一个。
例示而非限制,上述分类器可以是卷积神经网络。
上面以横排文字为例进行了说明,但是以上信息处理方法100也可以应用于竖排文字,只需要将竖排文字旋转90度从而变成横排文字即可。
综上所述,根据本公开的实施例的信息处理方法100可以直接对灰度字符串图像进行处理而无需进行图像的二值化,从而比基于连接部件的字符分割方法更精确;另外,由于根据本公开的实施例的信息处理方法100不依赖于图像的二值化,因此适用性更好。
与上述信息处理方法实施例相对应地,本公开还提供了以下信息处理装置的实施例。
图6是示出根据本公开的实施例的信息处理装置600的功能配置示例的框图。
如图6所示,根据本公开的实施例的信息处理装置600可以包括获得关系单元602和获得分类器单元604。接下来将描述各个单元的功能配置示例。
在获得关系单元602中,可以从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括该字符串样本的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径。
具体地,输入字符串样本的图像可以是彩色图像或者灰度图像。在输入字符串样本的图像是彩色图像的情况下,将其转换为相应的灰度图像。可以采用本领域常用的技术手段将彩色图像转换为相应的灰度图像,这里不再累述。
优选地,输入字符串样本中的每个字符和每个笔划均可以具有标注,该标注可以包括完全包围该字符的包围盒或者是完全包围该笔划的包围盒。即,输入字符串样本的图像可以是已标注好的字符串图像,标注内容为:每个字符或每个笔划完整的包围盒,即每个字符或每个笔划的上下左右边界。
具有标注的字符串图像的示例可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,文本行的灰度图像中的每列像素的列重心点可以是通过以下方式得到的:获得该文本行的灰度图像的高度;以及对于该文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则可以将该特定像素作为该列像素的列重心点。
获得文本行的灰度图像中的每列像素的列重心点的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
将文本行的灰度图像中的每列像素的列重心点进行连接,可以得到该文本行的滑窗路径。获得文本行的滑窗路径的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,可以对文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。按以上方法得到的滑窗路径可能不平滑,可以采用本领域已知方法对该滑窗路径进行平滑处理,从而得到平滑后的滑窗路径。
优选地,所述相对位置关系可以通过以下方式得到:基于文本行的平均高度而确定具有预定滑动步幅和预定宽度的矩形滑窗;使该矩形滑窗沿滑窗路径在该文本行上以所述预定滑动步幅滑动;使得该矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而可以确定该矩形滑窗的高度;以及如果该矩形滑窗的高度小于该文本行的平均高度,则可以将该矩形滑窗的高度校正为该文本行的平均高度,从而保留了该矩形滑窗内的字符或笔划的位置信息。
获得相对位置关系的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,所述连接关系可以通过以下方式得到:如果矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间,则可以确定中线的位置为分割点;如果矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间,则可以确定中线的位置为粘连分割点;以及如果矩形滑窗内包括一个部件并且中线落在所述一个部件上,则可以确定中线的位置是非分割点,其中,所述部件为以下中的任一个:整个字符、字符的一部分、整个笔划以及笔划的一部分。
获得连接关系的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
在获得分类器单元604中,可以通过对基于相对位置关系和连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割。
具体地,将在获得关系单元602中基于相对位置关系和连接关系得到的相关特征作为分类器的输入来对分类器进行训练,获得训练好的参数,从而可以使用训练好的分类器对待检测字符串进行字符分割。
优选地,在获得分类器单元604中,将与所获得的矩形滑窗以及矩形滑窗的中线的位置相关的信息作为分类器的输入来对分类器进行训练,以使得经训练得到的分类器能够确定其输入是否为字符串样本中的分割点、粘连分割点以及非分割点中的任一个。
具体地,将上述所获得的矩形滑窗内的图像以及该图像的连接关系的分类标签作为分类器的输入来对分类器进行训练,以使得经训练得到的分类器能够确定其输入是否为字符串样本中的分割点、粘连分割点以及非分割点中的任一个。
综上所述,根据本公开的实施例的信息处理装置600可以直接对灰度字符串图像进行处理而无需进行图像的二值化,从而比基于连接部件的字符分割方法更精确;另外,由于根据本公开的实施例的信息处理装置600不依赖于图像的二值化,因此适用性更好。
应指出,尽管以上描述了根据本公开的实施例的信息处理装置的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息处理方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
根据本公开的另一方面,提供了一种信息检测方法,该信息检测方法可以直接对灰度字符串图像进行处理、而不依赖于图像的二值化,具体地,该信息检测方法通过沿灰度字符串图像的重心线、逐像素移动矩形窗口来提取图像块数据,利用经训练的预定分类器对图像块的分割情况进行检测,以便对待检测字符串进行字符分割。
下面,将参照图7描述根据本公开的实施例的信息检测方法700的流程示例。图7是示出根据本公开的实施例的信息检测方法700的流程示例的流程图。如图7所示,根据本公开的实施例的信息检测方法700包括获得关系步骤S702和检测步骤S704。
在获得关系步骤S702中,可以从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括待检测字符串的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径。
具体地,待检测字符串的图像没有标注数据。待检测字符串的图像可以是彩色图像或者灰度图像。在待检测字符串的图像是彩色图像的情况下,将其转换为相应的灰度图像。可以采用本领域常用的技术手段将彩色图像转换为相应的灰度图像,这里不再累述。
另外,在待检测字符串的图像包括多个文本行的情况下,可以将该图像划分成多个子图像,其中,每个子图像包括一个文本行并且每个文本行包括一个字符串。每个字符串可以包括至少一个字符和/或至少一个笔划。还参照图2,假设图2中的字符串是待检测字符串,该字符串中不但包括诸如“2”、“0”、“年”、“以”、“来”、“国”等的字符,而且还包括笔划“,”。可以从待检测字符串的图像得到这些字符和笔划之间的相对位置关系和连接关系。其中,对于待检测字符串的文本行,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径,并且可以基于该文本行的滑窗路径和该文本行的平均高度,得到字符和笔划之间的相对位置关系和连接关系。将在下文中详细描述得到字符和笔划之间的相对位置关系和连接关系的具体方式。
优选地,文本行的灰度图像中的每列像素的列重心点可以是通过以下方式得到的:获得该文本行的灰度图像的高度;以及对于该文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则可以将该特定像素作为该列像素的列重心点。
具体地,假设文本行的灰度图像中的每一列有n个像素,即该文本行的灰度图像的高度为n,并且每个像素的灰度像素值为pi(i=0,1,…,n-1),pi=0表示该像素为黑色,而pi=255表示该像素为白色。对于该文本行的灰度图像中的每列像素中的第j(j=0,1,…,n-1)个像素,如果该列中排列在该第j个像素之上的所有像素的像素值之和与该列中排列在该第j个像素以下的所有像素的像素值之和的差值绝对值最小,即
Figure BDA0001167010970000131
在像素位置j处最小,其中abs为绝对值操作,那么该列中的第j个位置为该列的重心点。以上获得每列像素的列重心点的方法仅仅是示例,还可以采用本领域中的其他技术手段来获得每列像素的列重心点。
将文本行的灰度图像中的每列像素的列重心点进行连接,可以得到该文本行的滑窗路径。具体地,逐列计算文本行的灰度图像中每列的重心点,若假设有w列,则得到w个重心点。可以将这些重心点利用最小二乘法进行曲线拟合。假设m表示曲线拟合时的曲线阶数,则经曲线拟合可以得到一条m阶的曲线。其中,可以根据经验确定m的值,优选地,m的值可以为6。以上采用最小二乘法进行曲线拟合来获得文本行的滑窗路径仅仅是示例,还可以采用本领域中的其他技术手段来获得文本行的滑窗路径。
优选地,可以对文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。按以上方法得到的滑窗路径可能不平滑,可以采用本领域已知方法对该滑窗路径进行平滑处理,从而得到平滑后的滑窗路径。
参照图4,其示出了根据本公开实施例的滑窗路径的示例。
优选地,所述相对位置关系是通过以下方式得到的:基于文本行的平均高度而确定具有预定宽度的矩形滑窗;使该矩形滑窗沿该滑窗路径在该文本行上进行逐像素滑动;使得该矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而可以确定该矩形滑窗的高度;以及如果该矩形滑窗的高度小于该文本行的平均高度,则可以将该矩形滑窗的高度校正为该文本行的平均高度,从而保留了该矩形滑窗内的字符或笔划的位置信息。
具体地,首先获取文本行的灰度图像中每一列的上下边界:从上向下扫描每一列像素,对于i=0,1,…,n-1,将第一次满足pi-pi+1>λ(其中,λ为预定阈值,可以根据经验确定)所对应的第i个位置确定为该列的上边界;再从下向上扫描每一列像素,对于i=n-1,n-2,…,0,将第一次满足pi+1-pi>λ所对应的第i个位置确定为该列的下边界。将每列的下边界减去上边界可以得到该列的高度。对于所有的w列的高度求平均,可以计算文本行的平均高度Ha。以上计算文本行的平均高度的方法仅仅是示例,还可以采用本领域中的其他技术手段来计算文本行的平均高度。
基于文本行的平均高度Ha可以确定具有预定宽度round(α*Ha)(其中,α为小于1的实数)的矩形滑窗;其中,round()表示取整,α可以根据经验确定,优选地,α可以在1/3至1/5的范围内。矩形滑窗窗口的中心点为当前列的重心点位置;使该矩形滑窗沿滑窗路径在该文本行上逐像素进行滑动,从而可以获得所有的待检测窗口图像。
对于该矩形滑窗的宽度范围内包含的所有列,根据各列的上下边界分别获得所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度hw,也就是说,使该矩形滑窗完全包围窗内的各列像素的上边界和下边界。如果矩形滑窗的高度hw小于文本行的平均高度Ha,则以该窗口中心的重心位置为窗口中心,高度上下补齐到平均高度,即hw=Ha,从而保留了该矩形滑窗内的字符或笔划的位置信息。还结合图4来描述对矩形滑窗的高度的确定。假设矩形滑窗内包括字符“许”和其周围的空白字符,可以根据矩形滑窗中各列的上下边界分别获得该矩形滑窗中所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度;从图4可以看出,该高度不小于该文本行的平均高度,则确定该高度为矩形滑窗的高度,从而该矩形滑窗完全包围字符“许”的各列像素的上边界和下边界。另外,假设矩形滑窗内包括一个笔划“,”和该笔划周围的空白字符,可以根据矩形滑窗中各列的上下边界分别获得该矩形滑窗中所有列中的最高点位置和最低点位置,用该最高点位置减去该最低点位置则得到矩形滑窗的高度;从图4可以看出,该高度小于该文本行的平均高度,则以该窗口中心的重心位置为窗口中心,高度上下补齐到平均高度,即确定该文本行的平均高度为矩形滑窗的高度,从而保留了该笔划“,”的位置信息。
优选地,可以基于与矩形滑窗的中线的位置相关的信息,获得所述连接关系。具体地,矩形滑窗的中线的位置主要有如下三种情形:矩形滑窗内包括一个部件并且中线落在所述一个部件上;矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间;矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间;其中,所述部件为以下中的任一个:整个字符、字符的一部分、整个笔划以及笔划的一部分。可以基于如上所述矩形滑窗的中线的位置的信息,获得所述连接关系。
在检测步骤S704中,可以将基于相对位置关系和连接关系得到的相关特征作为预定分类器的输入,以便对待检测字符串进行字符分割。
具体地,预定分类器可以是利用根据本公开实施例的信息处理方法100训练得到的分类器。在检测步骤S704中,将基于相对位置关系和连接关系得到的相关特征作为该预定分类器的输入,以便对待检测字符串进行字符分割。
优选地,可以将所述相对位置关系和所述连接关系作为该预定分类器的输入,以确定待检测字符串中的位于矩形滑窗的中线位置处的每一列是否为分割点、粘连分割点以及非分割点中之一。
具体地,将每个矩形滑窗内的窗口图像输入到该预定分类器,来确定待检测字符串中的位于矩形滑窗的中线位置处的每一列是分割点、粘连分割点还是非分割点。如果矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间,则可以确定中线的位置为分割点,设定连接关系的分类标签为1;如果矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间,则可以确定中线的位置为粘连分割点,设定分类标签为2;以及如果矩形滑窗内包括一个部件并且中线落在所述一个部件上,则可以确定中线的位置是非分割点,设定分类标签为0。
由于该矩形滑窗沿滑窗路径在文本行上逐像素进行滑动,从而可以使文本行中的每列依次位于矩形滑窗的中线位置处,按照上述信息检测方法700,可以获文本行中的每列的分类结果。将每个矩形滑窗内的窗口图像的分类结果(即,文本行中的每列的分类结果)进行组合合并,得到了整个字符串图像的字符分割结果。图8是示出根据本公开实施例的字符串图像的字符分割结果的示例的图。在图8中,字符串图像中的竖直的线或块表示分割点或粘连分割点所在的位置。
上面以横排文字为例进行了说明,但是以上信息检测方法700也可以应用于竖排文字,只需要将竖排文字旋转90度从而变成横排文字即可。
综上所述,根据本公开的实施例的信息检测方法700可以直接对灰度字符串图像进行处理而无需进行图像的二值化,从而比基于连接部件的字符分割方法更精确;另外,由于根据本公开的实施例的信息检测方法700不依赖于图像的二值化,因此适用性更好。
与上述信息检测方法实施例相对应地,本公开还提供了以下信息检测装置的实施例。
图9是示出根据本公开的实施例的信息检测装置900的功能配置示例的框图。
如图9所示,根据本公开的实施例的信息检测装置900可以包括获得关系单元902和检测单元904。接下来将描述各个单元的功能配置示例。
在获得关系单元902中,可以从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,可以基于包括待检测字符串的文本行的滑窗路径和该文本行的平均高度,得到所述相对位置关系和连接关系,并且其中,可以将该文本行的灰度图像中的每列像素的列重心点进行连接,得到该文本行的滑窗路径。
具体地,待检测字符串的图像没有标注数据。待检测字符串的图像可以是彩色图像或者灰度图像。在待检测字符串的图像是彩色图像的情况下,将其转换为相应的灰度图像。可以采用本领域常用的技术手段将彩色图像转换为相应的灰度图像,这里不再累述。
优选地,文本行的灰度图像中的每列像素的列重心点可以是通过以下方式得到的:获得该文本行的灰度图像的高度;以及对于该文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则可以将该特定像素作为该列像素的列重心点。
获得文本行的灰度图像中的每列像素的列重心点的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
将文本行的灰度图像中的每列像素的列重心点进行连接,可以得到该文本行的滑窗路径。获得文本行的滑窗路径的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,可以对文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。按以上方法得到的滑窗路径可能不平滑,可以采用本领域已知方法对该滑窗路径进行平滑处理,从而得到平滑后的滑窗路径。
优选地,所述相对位置关系是通过以下方式得到的:基于文本行的平均高度而确定具有预定宽度的矩形滑窗;使该矩形滑窗沿该滑窗路径在该文本行上进行逐像素滑动;使得该矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而可以确定该矩形滑窗的高度;以及如果该矩形滑窗的高度小于该文本行的平均高度,则可以将该矩形滑窗的高度校正为该文本行的平均高度,从而保留了该矩形滑窗内的字符或笔划的位置信息。
获得相对位置关系的方法可以参见以上方法实施例中相应位置的描述,在此不再重复。
优选地,可以基于与矩形滑窗的中线的位置相关的信息,获得所述连接关系。具体地,矩形滑窗的中线的位置主要有如下三种情形:矩形滑窗内包括一个部件并且中线落在所述一个部件上;矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间;矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间;其中,所述部件为以下中的任一个:整个字符、字符的一部分、整个笔划以及笔划的一部分。可以基于如上所述矩形滑窗的中线的位置的信息,获得所述连接关系。
在检测单元904中,可以将基于相对位置关系和连接关系得到的相关特征作为预定分类器的输入,以便对待检测字符串进行字符分割。
具体地,预定分类器可以是利用根据本公开实施例的信息处理方法100训练得到的分类器。在检测单元904中,将基于相对位置关系和连接关系得到的相关特征作为该预定分类器的输入,以便对待检测字符串进行字符分割。
优选地,可以将所述相对位置关系和所述连接关系作为该预定分类器的输入,以确定待检测字符串中的位于矩形滑窗的中线位置处的每一列是否为分割点、粘连分割点以及非分割点中之一。
具体地,将每个矩形滑窗内的窗口图像输入到该预定分类器,来确定待检测字符串中的位于矩形滑窗的中线位置处的每一列是分割点、粘连分割点还是非分割点。如果矩形滑窗内包括两个分离的部件并且矩形滑窗的中线落在所述分离的两个部件之间,则可以确定中线的位置为分割点,设定连接关系的分类标签为1;如果矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间,则可以确定中线的位置为粘连分割点,设定分类标签为2;以及如果矩形滑窗内包括一个部件并且中线落在所述一个部件上,则可以确定中线的位置是非分割点,设定分类标签为0。
由于该矩形滑窗沿滑窗路径在文本行上逐像素进行滑动,从而可以使文本行中的每列依次位于矩形滑窗的中线位置处,则可以获文本行中的每列的分类结果。将每个矩形滑窗内的窗口图像的分类结果(即,文本行中的每列的分类结果)进行组合合并,得到了整个字符串图像的字符分割结果。
综上所述,根据本公开的实施例的信息检测装置900可以直接对灰度字符串图像进行处理而无需进行图像的二值化,从而比基于连接部件的字符分割方法更精确;另外,由于根据本公开的实施例的信息检测装置900不依赖于图像的二值化,因此适用性更好。
应指出,尽管以上描述了根据本公开的实施例的信息检测装置的功能配置,但是这仅是示例而非限制,并且本领域技术人员可根据本公开的原理对以上实施例进行修改,例如可对各个实施例中的功能模块进行添加、删除或者组合等,并且这样的修改均落入本公开的范围内。
此外,还应指出,这里的装置实施例是与上述方法实施例相对应的,因此在装置实施例中未详细描述的内容可参见方法实施例中相应位置的描述,在此不再重复描述。
应理解,根据本公开的实施例的存储介质和程序产品中的机器可执行的指令还可以被配置成执行上述信息检测方法,因此在此未详细描述的内容可参考先前相应位置的描述,在此不再重复进行描述。
相应地,用于承载上述包括机器可执行的指令的程序产品的存储介质也包括在本发明的公开中。该存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
另外,还应该指出的是,上述系列处理和装置也可以通过软件和/或固件实现。在通过软件和/或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图10所示的通用个人计算机1000安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图10中,中央处理单元(CPU)1001根据只读存储器(ROM)1002中存储的程序或从存储部分1008加载到随机存取存储器(RAM)1003的程序执行各种处理。在RAM 1003中,也根据需要存储当CPU 1001执行各种处理等时所需的数据。
CPU 1001、ROM 1002和RAM 1003经由总线1004彼此连接。输入/输出接口1005也连接到总线1004。
下述部件连接到输入/输出接口1005:输入部分1006,包括键盘、鼠标等;输出部分1007,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等;存储部分1008,包括硬盘等;和通信部分1009,包括网络接口卡比如LAN卡、调制解调器等。通信部分1009经由网络比如因特网执行通信处理。
根据需要,驱动器1010也连接到输入/输出接口1005。可拆卸介质1011比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1010上,使得从中读出的计算机程序根据需要被安装到存储部分1008中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质1011安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图10所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1011。可拆卸介质1011的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 1002、存储部分1008中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
以上参照附图描述了本公开的优选实施例,但是本公开当然不限于以上示例。本领域技术人员可在所附权利要求的范围内得到各种变更和修改,并且应理解这些变更和修改自然将落入本公开的技术范围内。
例如,在以上实施例中包括在一个单元中的多个功能可以由分开的装置来实现。替选地,在以上实施例中由多个单元实现的多个功能可分别由分开的装置来实现。另外,以上功能之一可由多个单元来实现。无需说,这样的配置包括在本公开的技术范围内。
在该说明书中,流程图中所描述的步骤不仅包括以所述顺序按时间序列执行的处理,而且包括并行地或单独地而不是必须按时间序列执行的处理。此外,甚至在按时间序列处理的步骤中,无需说,也可以适当地改变该顺序。
另外,根据本公开的技术还可以如下进行配置。
附记1.一种信息处理方法,包括:
从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,基于包括所述字符串样本的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
通过对基于所述相对位置关系和所述连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割。
附记2.根据附记1所述的信息处理方法,其中,对所述文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。
附记3.根据附记1所述的信息处理方法,其中,所述文本行的灰度图像中的每列像素的列重心点是通过以下方式得到的:
获得所述文本行的灰度图像的高度;以及
对于所述文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则将所述特定像素作为该列像素的列重心点。
附记4.根据附记1所述的信息处理方法,其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定滑动步幅和预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上以所述预定滑动步幅滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
附记5.根据附记4所述的信息处理方法,其中,所述连接关系是通过以下方式得到的:
如果所述矩形滑窗内包括两个分离的部件并且所述矩形滑窗的中线落在所述分离的两个部件之间,则确定中线的位置为分割点;
如果所述矩形滑窗内包括两个相互连接的部件并且中线落在所述两个相互连接的部件之间,则确定中线的位置为粘连分割点;以及
如果所述矩形滑窗内包括一个部件并且中线落在所述一个部件上,则确定中线的位置是非分割点,
其中,所述部件为以下中的任一个:整个字符、字符的一部分、整个笔划以及笔划的一部分。
附记6.根据附记5所述的信息处理方法,其中,将与所获得的矩形滑窗以及所述矩形滑窗的中线的位置相关的信息作为所述分类器的输入来对所述分类器进行训练,以使得经训练得到的分类器能够确定其输入是否为所述字符串样本中的所述分割点、所述粘连分割点以及所述非分割点中的任一个。
附记7.根据附记1所述的信息处理方法,其中,所述输入字符串样本中的每个字符和每个笔划均具有标注,该标注包括完全包围该字符的包围盒或者是完全包围该笔划的包围盒。
附记8.一种信息检测方法,包括:
从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括所述待检测字符串的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
将基于所述相对位置关系和所述连接关系得到的相关特征作为预定分类器的输入,以便对所述待检测字符串进行字符分割。
附记9.根据附记8所述的信息检测方法,其中,对所述文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。
附记10.根据附记8所述的信息检测方法,其中,所述文本行的灰度图像中的每列像素的列重心点是通过以下方式得到的:
获得所述文本行的灰度图像的高度;以及
对于所述文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则将所述特定像素作为该列像素的列重心点。
附记11.根据附记8所述的信息检测方法,其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上进行逐像素滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
附记12.根据附记11所述的信息检测方法,其中,基于与所述矩形滑窗的中线的位置相关的信息,获得所述连接关系。
附记13.根据附记12所述的信息检测方法,其中,将所述相对位置关系和所述连接关系作为所述预定分类器的输入,以确定所述待检测字符串中的位于所述矩形滑窗的中线位置处的每一列是否为分割点、粘连分割点以及非分割点中之一。
附记14.一种信息检测装置,包括:
获得关系单元,被配置成从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括所述待检测字符串的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
检测单元,被配置成将基于所述相对位置关系和所述连接关系得到的相关特征作为预定分类器的输入,以便对所述待检测字符串进行字符分割。
附记15.根据附记14所述的信息检测装置,其中,对所述文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。
附记16.根据附记14所述的信息检测装置,其中,所述文本行的灰度图像中的每列像素的列重心点是通过以下方式得到的:
获得所述文本行的灰度图像的高度;以及
对于所述文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则将所述特定像素作为该列像素的列重心点。
附记17.根据附记14所述的信息检测装置,其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上进行逐像素滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
附记18.根据附记17所述的信息检测装置,其中,基于与所述矩形滑窗的中线的位置相关的信息,获得所述连接关系。
附记19.根据附记18所述的信息检测装置,其中,将所述相对位置关系和所述连接关系作为所述预定分类器的输入,以确定所述待检测字符串中的位于所述矩形滑窗的中线位置处的每一列是否为分割点、粘连分割点以及非分割点中之一。

Claims (9)

1.一种信息处理方法,包括:
从输入字符串样本的图像得到字符串样本中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括所述字符串样本的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
通过对基于所述相对位置关系和所述连接关系得到的相关特征进行训练,得到分类器,以便对待检测字符串进行字符分割,
其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定滑动步幅和预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上以所述预定滑动步幅滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
2.根据权利要求1所述的信息处理方法,其中,对所述文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。
3.根据权利要求1所述的信息处理方法,其中,所述文本行的灰度图像中的每列像素的列重心点是通过以下方式得到的:
获得所述文本行的灰度图像的高度;以及
对于所述文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则将所述特定像素作为该列像素的列重心点。
4.一种信息检测方法,包括:
从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括所述待检测字符串的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
将基于所述相对位置关系和所述连接关系得到的相关特征作为预定分类器的输入,以便对所述待检测字符串进行字符分割,
其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上进行逐像素滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
5.根据权利要求4所述的信息检测方法,其中,对所述文本行的滑窗路径进行平滑处理,以得到平滑后的滑窗路径。
6.根据权利要求4所述的信息检测方法,其中,所述文本行的灰度图像中的每列像素的列重心点是通过以下方式得到的:
获得所述文本行的灰度图像的高度;以及
对于所述文本行的灰度图像中的每列像素中的特定像素,如果该列中排列在该特定像素之上的所有像素的像素值之和与该列中排列在该特定像素以下的所有像素的像素值之和的差值绝对值最小,则将所述特定像素作为该列像素的列重心点。
7.根据权利要求4所述的信息检测方法,其中,基于与所述矩形滑窗的中线的位置相关的信息,获得所述连接关系。
8.根据权利要求7所述的信息检测方法,其中,将所述相对位置关系和所述连接关系作为所述预定分类器的输入,以确定所述待检测字符串中的位于所述矩形滑窗的中线位置处的每一列是否为分割点、粘连分割点以及非分割点中之一。
9.一种信息检测装置,包括:
获得关系单元,被配置成从待检测字符串的图像得到待检测字符串中包括的字符和笔划之间的相对位置关系和连接关系,其中,基于包括所述待检测字符串的文本行的滑窗路径和所述文本行的平均高度,得到所述相对位置关系和所述连接关系,并且其中,将所述文本行的灰度图像中的每列像素的列重心点进行连接,得到所述文本行的滑窗路径;以及
检测单元,被配置成将基于所述相对位置关系和所述连接关系得到的相关特征作为预定分类器的输入,以便对所述待检测字符串进行字符分割,
其中,所述相对位置关系是通过以下方式得到的:
基于所述文本行的平均高度而确定具有预定宽度的矩形滑窗;
使所述矩形滑窗沿所述滑窗路径在所述文本行上进行逐像素滑动;
使得所述矩形滑窗完全包围窗内的各列像素的上边界和下边界,从而确定所述矩形滑窗的高度;以及
如果所述矩形滑窗的高度小于所述文本行的平均高度,则将所述矩形滑窗的高度校正为所述文本行的平均高度,从而保留了所述矩形滑窗内的字符或笔划的位置信息。
CN201611088547.7A 2016-11-30 2016-11-30 信息处理方法和装置以及信息检测方法和装置 Active CN108121988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611088547.7A CN108121988B (zh) 2016-11-30 2016-11-30 信息处理方法和装置以及信息检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611088547.7A CN108121988B (zh) 2016-11-30 2016-11-30 信息处理方法和装置以及信息检测方法和装置

Publications (2)

Publication Number Publication Date
CN108121988A CN108121988A (zh) 2018-06-05
CN108121988B true CN108121988B (zh) 2021-09-24

Family

ID=62227118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611088547.7A Active CN108121988B (zh) 2016-11-30 2016-11-30 信息处理方法和装置以及信息检测方法和装置

Country Status (1)

Country Link
CN (1) CN108121988B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796129A (zh) * 2018-08-03 2020-02-14 珠海格力电器股份有限公司 一种文本行区域检测方法及装置
CN112022641A (zh) * 2020-09-10 2020-12-04 深圳职业技术学院 一种辅助转眼运动的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930545A (zh) * 2009-06-24 2010-12-29 夏普株式会社 手写识别方法和设备
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN102855478A (zh) * 2011-06-30 2013-01-02 富士通株式会社 图像中文本区域定位方法和装置
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7873216B2 (en) * 2007-02-27 2011-01-18 Seiko Epson Corporation Distortion correction of a scanned image

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930545A (zh) * 2009-06-24 2010-12-29 夏普株式会社 手写识别方法和设备
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN102156865A (zh) * 2010-12-14 2011-08-17 上海合合信息科技发展有限公司 手写文本行字符切分方法、识别方法
CN102855478A (zh) * 2011-06-30 2013-01-02 富士通株式会社 图像中文本区域定位方法和装置
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN103984943A (zh) * 2014-05-30 2014-08-13 厦门大学 一种基于贝叶斯概率框架的场景文本识别方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备

Also Published As

Publication number Publication date
CN108121988A (zh) 2018-06-05

Similar Documents

Publication Publication Date Title
CN101453575B (zh) 一种视频字幕信息提取方法
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
JP6366024B2 (ja) 画像化された文書からテキストを抽出する方法及び装置
US8600165B2 (en) Optical mark classification system and method
US8306325B2 (en) Text character identification system and method thereof
EP2669847B1 (en) Document processing apparatus, document processing method and scanner
US10643094B2 (en) Method for line and word segmentation for handwritten text images
US6532302B2 (en) Multiple size reductions for image segmentation
JP2011018338A (ja) スキャンされた文書画像内の前景画素群の連結グループをマーキング種類に基づき分類する方法及びシステム
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
KR101396678B1 (ko) 시각장애인을 위한 햅틱 디스플레이 기반 시각정보 표시시스템 및 방법
CN108121988B (zh) 信息处理方法和装置以及信息检测方法和装置
CN111461133A (zh) 快递面单品名识别方法、装置、设备及存储介质
Rabaev et al. Text line detection in corrupted and damaged historical manuscripts
CN114495141A (zh) 文档段落位置提取方法、电子设备及存储介质
US20110222772A1 (en) Resolution adjustment of an image that includes text undergoing an ocr process
CN114581928A (zh) 一种表格识别方法及系统
GB2572386A (en) An image processing system and an image processing method
Park et al. A method for automatically translating print books into electronic Braille books
CN110516592A (zh) 一种基于手写数字字符的识别方法
Seuret et al. Pixel level handwritten and printed content discrimination in scanned documents
WO2023059876A1 (en) Systems and methods for detecting objects
Melhem et al. Text line segmentation of Al-Quran pages using binary representation
Manlises et al. Expiry Date Character Recognition on Canned Goods Using Convolutional Neural Network VGG16 Architecture
CN114494678A (zh) 文字识别方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant