CN106156772A - 用于确定词间距的方法和设备以及用于分词的方法和系统 - Google Patents
用于确定词间距的方法和设备以及用于分词的方法和系统 Download PDFInfo
- Publication number
- CN106156772A CN106156772A CN201510132285.9A CN201510132285A CN106156772A CN 106156772 A CN106156772 A CN 106156772A CN 201510132285 A CN201510132285 A CN 201510132285A CN 106156772 A CN106156772 A CN 106156772A
- Authority
- CN
- China
- Prior art keywords
- spacing
- region
- word
- character
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
本公开涉及用于确定词间距的方法和设备以及用于分词的方法和系统。一种用于确定文档图像中的词间距的方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。
Description
技术领域
本发明一般地涉及文档的处理,更具体地,涉及用于确定词间距的方法和设备以及用于分词的方法和系统。
背景技术
词分割是OCR的一个重要步骤。常规地,词分割方法相当简单,因为例如通过将行中的间距聚类成两类,即“字符间距”和“词间距”,而容易将行中的词彼此分开。这里,间距表示一对相邻字符或连通字符区域之间的空白区的长度。
但是,仅使用聚类方法不能将所有间距分类到正确的组。在有些情况下,一些词间距被错误地分类为字符间距。在另外一些情况下,一些字符间距被错误地分类为词间距。
例如,这三个专利,即,US 5321770(“Method fordetermining boundaries of words in text”,1991年11月19日提交)、US 5557689(“Optical word recognition by examinationof word shape”,1995年6月1日提交)和US 6249604(“Methodfor determining boundaries of words in text”,2001年6月19日提交)使用相同的方法来确定词边界。它们使用中值滤波来创建新的行图像,以使得可以用黑像素填充字符之间的较小空白,并且,词成为像素的单个连通集。
在上面这三个专利描述的方法中,需要在中值滤波之后创建新的图像。该方法需要更多内存来保存临时图像。另外,中值滤波方法需要处理行图像中的所有像素,这花费更多的运行时间。此外,对于一些mono-space字体,字符之间的空白大,中值滤波方法不能去除字符之间的空白。
另外,美国专利7471826(“Character segmentation byslices”,国际商业机器公司,2008年3月31提交)描述了一种词分割方法。在上述该专利描述的方法中,分别针对mono-space字体和成比例的字体计算间距阈值。另外,其中没有描述确定成比例的字体类型的字符间距的详细方式。
发明内容
鉴于以上,需要能够提高文档图像中的字符和词的识别精度和/或能够减少执行词分割时所需的存储资源的这样的用于确定词间距的方法和设备以及用于分词的方法和系统。
本发明旨在解决上面所述的问题。本发明的一个目的是提供用于确定词间距的方法和设备以及用于分词的方法和系统以解决以上问题之一。
通常,通过例如扫描获得的文档图像将先被倾斜校正和二值化。然后,例如使用布局分析方法将文档图像划分成文本块。将文本块图像划分成文本行图像。在文本行图像区域中,例如通过使用黑像素投影或连通域(connected-component)信息,将字符和/或连通字符区域分出。
在本发明中,对字符或连通字符区域之间的间距计数。然后,可以使用例如聚类方法来计算用于分类词间距和字符间距的阈值,并且可以使用字符的上下文信息和间距来调整词间距阈值。
具体地,根据本公开的第一方面,提供一种用于确定文档图像中的词间距的方法,所述方法包括:划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。
根据本公开的第二方面,提供一种分词方法,包括:词间距确定步骤,通过使用上述用于确定文档图像中的词间距的方法来确定文档图像的行图像区域中的词间距;以及分割步骤,根据所确定的词间距,从所述行图像区域中分割词。
根据本公开的第三方面,提供一种被配置为确定文档图像中的词间距的设备,所述设备包括:划分部件,被配置为将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;第一获得部件,被配置为对于至少一个行图像区域,通过聚类方法获得第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和调整部件,被配置为根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值确定至少一个行图像区域中的最终词间距。
根据本公开的第四方面,提供一种分词系统,包括:上述被配置为确定文档图像中的词间距的设备;以及分割设备,被配置为根据由所述设备确定的文档图像的行图像区域中的词间距,从所述行图像区域中分割词。
这样,本发明能够提高文档图像中的字符和词的识别精度和/或能够减少执行词分割时所需的存储资源。
参照附图阅读示例性实施例的以下描述,本发明的其他特性特征和优点将变得清晰。
附图说明
并入到说明书中并且构成说明书一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。在这些附图中,类似的附图标记用于表示类似的项。
图1是示出能够实现本发明的实施例的计算机系统的示例性硬件配置的框图。
图2示例性地示出根据本发明的实施例用于确定文档图像中的词间距的方法的流程图。
图3示例性地示出通过聚类方法获得的词间距划分结果。
图4示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整的示例性方式的流程图。
图5示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式。
图6示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式的流程图。
图7示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式。
图8示例性地示出可以在受怀疑区域确定步骤中可选地使用的间距直方图。
图9示例性地示出可以在受怀疑区域确定步骤中可选地使用的间距直方图的另一个例子。
图10示例性地示出可以在受怀疑区域确定步骤中可选地使用的再一个间距直方图。
图11示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的第二获得步骤的示例性方式。
图12(a)、图12(b)和图12(c)分别示例性地示出行图像、间距直方图和受怀疑词间距的位置,图12(d)示出了一些字符例子以示例它们的分类。
图13(a)和图13(b)分别示例性地示出通过使用前一字符和后一字符的间距和类型信息来判断间距的例子。
图14示例性地示出根据本发明的实施例的分词方法的流程图。
图15示例性地示出根据本发明的实施例的被配置为确定文档图像中的词间距的设备的框图。
图16示例性地示出调整部件的框图。
图17示例性地示出根据本发明的实施例的分词系统的框图。
具体实施方式
应当注意,以下的实施例并不意欲限制所附权利要求的范围,并且在实施例中描述的特征的所有组合对于解决本发明的技术问题并不一定是必需的。以下描述的本发明的实施例中的每一个都可单独地实施,或者在必要的情况下或在单个实施例中组合来自各个实施例的要素或特征是有益的情况下作为多个实施例或者它们的特征的组合来实施。
由于图中类似的附图标记用于表示类似的元件,因此,将不在说明书中重复描述这些类似的元件,并且,本领域普通技术人员将理解这些类似的元件表示类似的含义。
此外,在本公开中,可以通过软件、硬件、固件或者其任意组合来实施本发明的被配置为确定文档图像中的词间距的设备的每个单元、部件和/或组件。另外,可以通过软件、硬件、固件或者其任意组合来实施根据本发明的用于确定文档图像中的词间距的方法。也就是说,本发明的方法和系统不限于其实现方式,并且,本发明的保护范围仅由所附的权利要求限定。
在本公开中,术语“第一”和“第二”等仅用于相互区分本发明的要素,它们不意在表示时间顺序、优先级、重要性等。
而且,在本公开中,步骤的执行顺序不是必须要按照流程图所示出和实施例中所提到的那样,而是可以根据实际情况来灵活变通的,即,本发明不应该受到流程图所示出的步骤的执行顺序的限制。
下面,将参照附图详细描述本发明的示例性实施例。
图1是示出可以实现本发明的实施例的计算机系统1000的示例性硬件配置的框图。
如图1中所示,计算机系统1000包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其他程序模块1136和某些程序数据1137驻留在RAM 1132中。
诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其他程序模块1146和某些程序数据1147。
诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180。或者,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
视频接口1190连接到监视器1191。
输出外围接口1195连接到打印机1196和扬声器1197。
图1所示的计算机系统只是示例性的,并且决不意图限制本发明、本发明的应用或用途。
图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的部件,也可以向其添加一个或更多个附加的部件。
图1所示的计算机系统可以以任何方式被用户使用,本公开对于用户使用计算机系统的方式不作任何限制。
图2示例性地示出根据本发明的实施例用于确定文档图像中的词间距的方法的流程图。
如图2所示,在划分步骤S100,先将例如通过扫描获得的文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且然后将每个行图像区域划分成字符或连通字符区域。然后,过程转到步骤S200。
通常,上面所述的文档图像要先被纠偏和二值化。然后,例如使用布局分析方法将其划分为文本图像块。文本图像块被分为文本行图像。在文本行图像区域中,例如通过使用黑像素投影和/或连通域信息,划分出字符或连通字符区域。
这里,本领域普通技术人员已知的或者以后要开发的技术都可以用在划分步骤S100,本发明对此不作任何限制。
在第一获得步骤S200,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,以将至少一个行图像区域中的所有间距分组为字符间距或词间距。因此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距(也可以被认为是粗略词间距),小于或等于该第一词间距阈值的间距被称为初始字符间距(也可以被认为是粗略字符间距)。然后,过程转到步骤S300。
这里,如上所述,间距表示一对相邻字符或连通字符区域之间的空白区的长度。
在本实施例中,使用聚类方法来得到把所有间距分为字符间距(两个相邻字符之间的间距)或词间距(两个相邻词之间的间距,所述词包括仅由一个字符构成的这种字,例如“a”)的要被称为第一词间距阈值的词间距阈值(字符间距和词间距之间的分界)。
这里,本实施例中要使用的聚类方法可以是例如判别分析(DA)或线性判别分析(LDA)。但是,本发明不限于任何聚类方法,只要它可以获得适当的结果,例如,关于间距的阈值。
当然,能够获得能够将所有间距分割为字符间距或词间距的这种词间距阈值的其他方法也可以在本发明中使用。
此外,优选地,可以对于一个行图像区域执行步骤S200以获得更精确的识别结果。
这里,尽管已经获得第一词间距阈值,但是通过它分割间距的结果很多情况下并不令人满意。具体地,它不能将至少一个行图像区域中的所有间距分类成正确的间距类,即,字符间距类或词间距类,如示例性地示出在步骤S200获得的结果的图3所示。
在图3中,一些间距被分类到错误的间距组,即,词间距被分类为字符间距,或者字符间距被分类为词间距,被错误地分类的间距位置用虚线圆圈标记。具体地,两个“词间距”被错误地分类为“字符间距”,如图3所示。
为了校正在步骤S200得到的被错误分类的间距,在调整步骤S300,根据文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。
这里,文档图像中的上下文信息可以包括关于前面的字符和/或后面的字符的间距和/或类型等的信息。例如,文档图像中的上下文信息还可以包括字符的字体和/或字体大小、行间隔、字符宽度或每行的平均字符宽度、字符高度或每行的平均字符高度、行长度或平均行长度等。但是,本发明不限于以上所描述的那些。
关于调整第一词间距阈值的方式,尽管至少一个行图像区域中的每个间距有可能被用作新的第二词间距阈值,但是与第一词间距阈值相邻的间距(即,第一词间距阈值周围的间距)可能优选地被当作新的第二词间距阈值的备选。换而言之,略微调整第一词间距阈值以找到更适合的词间距阈值(新的词间距阈值)因较少的处理时间和较低的复杂性而可能更可取。
选择新的第二词间距阈值的原则可以是如下这样:真正的词间距可能小于例如通过聚类方法计算出的那些初始(粗略)词间距,但是它们应当大于那些真正的字符间距,例如,相邻的字符间距。
这里,请注意,上面描述的技术思想仅是示例性的,本发明不限于那些,需要了解的是,本实施例的目标是通过找到合适的词间距阈值以将间距分组到正确的间距类,正确地分割字符和词。因此,能够实现该目标的任何一种方式都是可以的。
因此,需要强调的是,不应当限制调整第一词间距阈值的方式,并且主要目的是找到合适的词间距阈值以便正确地分割字符和词。
与本申请的背景技术部分中描述的现有技术相比,通过本实施例,具体地,通过调整由聚类方法获得的粗略词间距阈值,可以提高文档图像中的字符和词的识别精度,和/或可以降低执行词分割时所需的存储资源。
如上所述,可以按照各种方式执行本实施例中的第一词间距阈值的调整,本领域技术人员根据上面这些可以知道如何实现本发明。然而,为了更好地全面理解本发明,下面将参考图4解释用于实现本实施例的调整步骤S300的示例性方式。
图4示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整的示例性方式的流程图。
如图4所示,根据本发明的实施例,关于第一词间距阈值的调整步骤S300例如可以包括受怀疑区域确定步骤S310和第二获得步骤S320。
其中,在受怀疑区域确定步骤S310,可以基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域。
这里,首先,所述至少一个受怀疑区域可以仅包括一个受怀疑区域,也可以包括多于一个受怀疑区域,例如,两个受怀疑区域,受怀疑区域的数量可以根据情况而定,其在本发明中不是非常重要。
其次,所述至少一个受怀疑区域包括至少一个行图像区域中的一些间距。所述至少一个受怀疑区域中的间距越少,将花费越少的处理时间。另一方面,所述至少一个受怀疑区域中的间距越多,获得的结果可能越精确。因此,就所述至少一个行图像区域中的间距的数量而言,其也依情况而定。
第三,如上所述,可以基于第一词间距阈值确定一个或多个受怀疑区域。例如,覆盖与第一词间距阈值相邻的间距(即,第一词间距阈值周围的间距)的区域可以优选地被当作受怀疑区域。当然,也可以使用其他种类的方法来确定受怀疑区域。
然后,在第二获得步骤S320,可以根据上面所述的文档图像中的上下文信息,从所述至少一个受怀疑区域获得第二词间距阈值。
这里,优选地,文档图像中的上下文信息可以既包括行图像区域中的前面的字符和/或后面的字符的间距,又包括行图像区域中的前面的字符和/或后面的字符的类型,以便于得到更精确的识别结果。
另外,例如,如上所述,与第一词间距阈值相邻的间距(即,第一词间距阈值周围的间距)或它们中的一些(例如,在左侧或右侧与第一词间距阈值相邻的间距)可以优选地被当作新的第二词间距阈值的备选。也就是说,可以选择一个或更多个受怀疑区域中的一个间距作为新的第二词间距阈值来代替第一词间距阈值。
尽管已参照图4描述了调整第一词间距阈值的具体实现方式,并且本领域技术人员根据以上这些能够知道如何实现本发明,但是,为了更好更全面地理解本发明,以下将参照图5-7来描述根据本发明的实施例的在第一词间距阈值的调整中的受怀疑区域确定步骤的几种具体实现方式。
首先,图5示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式的流程图。
如图5所示,受怀疑区域确定步骤S310可以包括以下步骤中的至少之一:
左侧受怀疑区域确定步骤S3111,对于至少一个行图像区域,从初始字符间距选择特定初始字符间距作为所述第一词间距阈值的左侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的左侧受怀疑区域;和
右侧受怀疑区域确定步骤S3112,对于至少一个行图像区域,从初始词间距选择特定初始词间距作为所述第一词间距阈值的右侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的右侧受怀疑区域。
更具体地,左侧受怀疑区域可以由以下这样的初始字符间距构成:初始字符间距之中较大的并且小于第一词间距阈值的初始字符间距,相应地,右侧受怀疑区域可以由以下这样的初始词间距构成:初始词间距之中较小的并且大于第一词间距阈值的初始词间距。
举例来说,在一个行图像区域中的字符具有小的字体并且占用一个短行的情况下,左侧和右侧受怀疑区域中的每一个可以分别仅由一个间距构成。可替换地,也可能仅有一个受怀疑区域。另一方面,在一个行图像区域中的字符具有大的字体并且占用一个长行的情况下,左侧和右侧受怀疑区域中的每一个可以分别由更多个间距构成。仍然可替换地,对于受怀疑区域,可以通过实验或经验或者根据情况来设置或确定每个受怀疑区域。
上述的那些仅是例子,本发明不限于此。
然后,图6示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式的流程图。
如图6所示,受怀疑区域确定步骤S310可以包括以下步骤:
步骤S3121,基于所述第一词间距阈值,对于通过使用聚类方法获得的累积直方图进行拆分而得到两个新的累积直方图;
步骤S3122,通过使用聚类方法对于所述两个新的累积直方图进行聚类,而获得两个新的阈值;以及
步骤S3123,将所述第一词间距阈值和所述两个新的阈值根据它们的大小而组成至少一个受怀疑区域,其中,该至少一个受怀疑区域能够包括左侧受怀疑区域和右侧受怀疑区域。
更具体地,在步骤S3121,对于例如通过使用聚类方法(诸如LDA聚类方法之类)获得的累积直方图,例如通过分别将累积直方图上在第一词间距阈值左侧的值和累积直方图上在第一词间距阈值右侧的值设置为特定值(例如0),将该累积直方图拆分成两个累积直方图。
在步骤S3122,通过诸如LDA之类的聚类方法对于在步骤S3121获得的两个新的累积直方图进行聚类。每次聚类可以获得一个新的阈值,从而在该步骤可以获得两个新的阈值(可以称为第一直方图阈值和第二直方图阈值)。
在步骤S3123,对于在步骤S200获得的第一词间距阈值和在步骤S3122获得的两个新的直方图阈值,根据它们的大小(它们的数值之间的大小关系),由它们组成至少一个受怀疑区域。这里,与上面类似,该至少一个受怀疑区域可以包括左侧受怀疑区域和右侧受怀疑区域。例如,如果第一词间距阈值是5,第一直方图阈值是3,第二直方图阈值是6,则左侧受怀疑区域可以是[3,5],右侧受怀疑区域可以是[5,6]。当然,一个受怀疑区域也是可能的。在该情况下,受怀疑区域可以是[3,6]。在本实施例中,如何构造受怀疑区域不限于上面所述的例子,而是可以依情况而变。
优选地,如图6所示,本实施例的用于确定文档图像中的词间距的方法可以进一步包括判断步骤S4001,用于根据通过聚类所述两个新的累积直方图获得的类间方差(between-cluster variance)来判断各受怀疑区域是否为能够接受的。例如,可以判断通过聚类所述两个新的累积直方图获得的类间方差是否大于可以通过经验或实验等获得的某阈值。
具体地,关于各受怀疑区域,如果判断至少一个受怀疑区域是能够接受的,则过程可以转到图4中的步骤S320。否则,过程结束,或者可以考虑将第一词间距阈值用作第二词间距阈值。
图6中的判断步骤S4001不是必须的。也就是说,本发明的用于确定文档图像中的词间距的方法可以不包括它。
第三,图7示例性地示出根据本发明的实施例用于实现第一词间距阈值的调整中的受怀疑区域确定步骤的示例性方式的流程图。
如图7所示,所述受怀疑区域确定步骤S310可以包括以下步骤中的至少之一:
步骤S3131,在针对至少一个行图像区域、通过使用聚类方法获得的以间距为横轴(参见图8中的“间距”)、间距的数量为纵轴(参见图8中的“计数”)的累积直方图上,从所述第一词间距阈值开始,往左查找第一个其纵坐标不等于0的初始字符间距而将该初始字符间距作为左侧受怀疑区域的右边界,并且从该右边界开始,往左查找第一个作为局部极大值的初始字符间距作为左侧受怀疑区域(也称为小的受怀疑间距范围)的左边界;和
步骤S3132,在上述累积直方图上,从所述第一词间距阈值开始,往右查找第一个其纵坐标不等于0的初始词间距而将该初始词间距作为右侧受怀疑区域的左边界,并且从该左边界开始往右查找第一个作为局部极大值的初始词间距作为右侧受怀疑区域(也称为大的受怀疑间距范围)的右边界。
优选地,如图7所示,本发明的用于确定文档图像中的词间距的方法可以进一步包括判断步骤S4002,用于根据以下项中的至少之一,判断各受怀疑区域是否为能够接受的:
1)各受怀疑区域中出现的各间距的数量之和;
2)各受怀疑区域中出现的间距之中的最大间距;和
3)各受怀疑区域中出现的间距之中的最小间距。
具体地,对于各受怀疑区域,如果判断至少一个受怀疑区域是能够接受的,则过程可以转到图4中的步骤S320。否则,过程结束,或者可以考虑将第一词间距阈值用作第二词间距阈值。
图7中的判断步骤S4002不是必须的。也就是说,本发明的用于确定文档图像中的词间距的方法可以不包括它。
为了更好更全面地理解图7中的各步骤,下面将详细描述例子。
关于在步骤S3131如何确定左侧受怀疑区域,首先,对于至少一个行图像区域,通过使用聚类方法获得累积直方图。在该累积直方图上,例如,间距的数值为其横轴,间距的数量为其纵轴,如图8所示。然后,从第一词间距阈值到PITCH[0],即,沿着横轴的左方,扫描每个PITCH[X],以便找到第一个不等于0的PITCH[X],由此使用该“X”作为左侧受怀疑区域的右边界。
然后,从左侧受怀疑区域的右边界到PITCH[0],即,沿着横轴的左方,扫描每个PITCH[X],以便找到第一个等于0或小于PITCH[X+1]的PITCH[X],由此使用该“X+1”(即,局部极大值)作为左侧受怀疑区域的左边界。
这里,请注意,作为局部极大值的左侧受怀疑区域的左边界(这里称为“X+1”)包括PITCH[X]等于0或PITCH[X]小于PITCH[X+1]这两种情况,并且上述PITCH[X]是沿着横轴的左方找到的第一个。
现在,以图8中所示的情况作为例子:其中,小的受怀疑间距范围(即,左侧受怀疑区域)的左边界等于小的受怀疑间距范围的右边界(第一个PITCH[X]等于0的情况)。
为了容易理解上面的步骤,将以图9所示的情况作为另一个例子。如图9所示,如果第一词间距阈值等于14(或15至23),则可以找到小的受怀疑间距范围并且小的受怀疑间距范围的左边界是14,小的受怀疑间距范围的右边界也是14(第一个PITCH[X]等于0的情况)。
另外,如果第一词间距阈值等于12(或13),则可以找到小的受怀疑间距范围并且小的受怀疑间距范围的左边界是12,小的受怀疑间距范围的右边界也是12(第一个PITCH[X]等于0的情况)。
此外,如果第一词间距阈值等于4(或5至11),则可以找到小的受怀疑间距范围并且小的受怀疑间距范围的左边界是1(PITCH[1]是PITCH[4]至PITCH[0]之间的局部最大值),小的受怀疑间距范围的右边界是4(PITCH[X]小于PITCH[X+1]的情况,并且PITCH[X]是沿着横轴左方找到的第一个)。
另一方面,关于在步骤S3132如何确定右侧受怀疑区域(也称为大的受怀疑间距范围),与上述的确定左侧受怀疑区域的方式类似,如图10所示,从第一词间距阈值到PITCH[MAX_PITCH_IN_LINE],即,沿着横轴的右方,扫描每个PITCH[X],然后找到第一个不等于0的PITCH[X]。该“X”为该大的受怀疑间距范围的左边界。
然后,从该大的受怀疑间距范围的左边界到PITCH[MAX_PITCH_IN_LINE],即,沿着横轴的右方,扫描每个PITCH[X],然后找到第一个等于0的PITCH[X+1]或者该PITCH[X+1]前面的那个,即PITCH[X]大于它。该“X”是该大的受怀疑间距范围的右边界。
为了更好地理解上面的操作,下面将参照图9来举出例子。
在第一词间距阈值等于4(或5至11)的情况下,可以找到大的受怀疑间距范围,并且该大的受怀疑间距范围的左边界是12,该大的受怀疑间距范围的右边界也是12。
在第一词间距阈值等于12(或13)的情况下,可以找到大的受怀疑间距范围,并且该大的受怀疑间距范围的左边界是14,该大的受怀疑间距范围的右边界也是14。
在第一词间距阈值等于14(或15至23)的情况下,可以找到大的受怀疑间距范围,并且该大的受怀疑间距范围的左边界是24,该大的受怀疑间距范围的右边界是26。
现在,关于上面的与左侧受怀疑区域有关的判断步骤S4002,为了更容易地理解本步骤,将参照图9给出具体的解释。
具体地,例如,如果小的受怀疑间距范围满足作为例子的下述条件,该小的受怀疑间距范围可被认为是能够接受的间距范围:
1)小的受怀疑间距范围中的“间距直方图数量”之和小于阈值(例如,TH1=4);并且
2)小的受怀疑间距范围中的最小间距大于阈值(例如,TH2=“行高/10”)。
例如,在小的受怀疑间距范围为从X1(左边界)到Xn(右边界)并且PITCH[X1]=Y1,PITCH[X2]=Y2,……,PITCH[Xn]=Yn的情况下:
“间距直方图数量”之和为‘Y1+Y2+…+Yn’,并且
最小间距为‘X1’。
如图9所示,在第一词间距阈值等于14的情况下,小的受怀疑间距范围中的“间距直方图数量”之和为1,并且小的受怀疑间距范围中的最小间距大于TH2,因此,小的受怀疑间距范围[14,14]是一个能够接受的范围。
另外,在第一词间距阈值等于12的情况下,小的受怀疑间距范围中的“间距直方图数量”之和为2,并且小的受怀疑间距范围中的最小间距大于TH2,因此,小的受怀疑间距范围[12,12]是一个能够接受的范围。
然而,在第一词间距阈值等于4的情况下,小的受怀疑间距范围中的“间距直方图数量”之和(其为4)和小的受怀疑间距范围中的最小间距都不能满足能够接受的条件,因此,找到的小的受怀疑间距范围[1,4]不是一个能够接受的范围。
接着,判断大的受怀疑间距范围是否是能够接受的。
如果大的受怀疑间距范围满足作为例子的下述条件,该大的受怀疑间距范围可以是能够接受的间距范围:
1)大的受怀疑间距范围中的“间距直方图数量”之和小于阈值(例如,TH1=4);并且
2)大的受怀疑间距范围中的最大间距小于“行中的最大间距”。
例如,参照图9,在第一词间距阈值等于4的情况下,大的受怀疑间距范围[12,12]中的“间距直方图数量”之和为2,并且大的受怀疑间距范围中的最大间距小于“行中的最大间距”,因此,大的受怀疑间距范围[12,12]是一个能够接受的范围。
在第一词间距阈值等于12的情况下,大的受怀疑间距范围[14,14]中的“间距直方图数量”之和为1,并且大的受怀疑间距范围中的最大间距小于“行中的最大间距”,因此,大的受怀疑间距范围[14,14]是一个能够接受的范围。
在第一词间距阈值等于14的情况下,找到的大的受怀疑间距范围不是一个能够接受的大的受怀疑间距范围,因为大的受怀疑间距范围中的“间距直方图数量”之和与最大间距都不能满足能够接受的条件。
这里,请注意,上面描述的关于左侧受怀疑区域和右侧受怀疑区域的能够接受的条件仅是作为例子给出的,本发明对其不作限制。事实上,如上所述,以下项中的任何一个或任意组合都可被当作能够接受的条件:
1)各受怀疑区域中出现的各间距的数量之和;
2)各受怀疑区域中出现的间距之中的最大间距;以及
3)各受怀疑区域中出现的间距之中的最小间距。
也就是说,在本实施例中,上面的条件可以任意组合。
现在,将参照图11详细描述根据本发明的实施例用于实现第一词间距阈值的调整中的第二获得步骤的示例性方式。
如图11所示,第二获得步骤S320可以包括以下步骤中的至少之一:
1)步骤S3201,对于处于左侧受怀疑区域内的作为受怀疑词间距的各初始字符间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始字符间距是否均属于词间距,在作为受怀疑词间距的所述各初始字符间距均属于词间距的情况下,将所述第一词间距阈值的左侧受怀疑区域的左边界用作所述第二词间距阈值;和
2)步骤S3202,对于处于右侧受怀疑区域内的作为受怀疑词间距的各初始词间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始词间距是否均属于词间距,在作为受怀疑词间距的所述各初始词间距均属于词间距的情况下,将所述第一词间距阈值的右侧受怀疑区域的右边界作为所述第二词间距阈值。
为了更好更全面地理解上面的步骤S3201和S3202,将在下面给出更详细的例子。
具体地,在步骤S3201,首先,对于至少一个行图像区域,属于小的受怀疑间距范围(左侧受怀疑区域)的初始字符间距被当作受怀疑词间距,也就是说,小的受怀疑间距范围中的受怀疑词间距等于或大于小的受怀疑间距范围的左边界并且等于或小于小的受怀疑间距范围的右边界。
例如,对于图12(a)中所示的行图像,通过例如聚类方法获得的该行图像的对应的间距直方图在图12(b)中示出,并且通过例如聚类方法获得的第一词间距阈值是6,小的受怀疑间距范围是从5(小的受怀疑间距范围的左边界)到5(小的受怀疑间距范围的右边界)。因此,行图像中的受怀疑词间距的位置在图12(c)用虚线圆圈示出。
然后,通过使用前一个字符的类型和间距信息和/或后一个字符的类型和间距信息来判断小的受怀疑间距范围中的所有受怀疑词间距是词间距还是字符间距。
作为例子,判断原则可以如下:
如果受怀疑词间距是真正的词间距,则它们的间距应当小于通过聚类方法计算出的词间距,而应当大于前一字符间距和后一字符间距。也就是说,在执行判断步骤时,可以仅使用前面字符和后面字符的间距。但是,这只是一个示例性例子,事实上,本实施例中可以使用各种判断原则。例如,可以使用相邻的前一字符的间距和/或相邻的后一字符的间距来执行上述判断,也可以使用前面几个字符的间距和/或后面几个字符的间距来执行上述判断。
另外,为了更准确地判断间距,也可使用关于字符类型的信息来执行上述判断。
具体地,例如,可以根据字符的纵横比和大小以及字符之间的空白将字符如下分类成一些组:
“标点符号字符”(PC):(字符高度<TH3且字符宽度<TH3,例如TH3=“行高/3”)
“瘦字符”(TC):(字符宽度/字符高度<TH4,例如,TH4=1/2);
“连通字符”(LC):(字符宽度/字符高度>TH5,例如,TH5=2);
“重叠字符”(OC):(字符间距小于0);
“普通字符”(NC):(其它字符)。
在该情况下,关于上述分类的一些字符例子将如下给出,如图12(d)所示。
“-”的字符类型是“标点符号字符”。
“sse”的字符类型是“连通字符”。
“1”和“)”的字符类型是“瘦字符”。
“o”的字符类型是“重叠字符”(字符“o”与字符“f”重叠)。
“g”的字符类型是“重叠字符”(字符“g”与字符“rin”重叠)。
为了更好更全面地理解本发明,将在下面给出对前一字符和后一字符的间距信息及字符类型信息进行组合的例子。
具体地,用作上下文信息的前一字符的类型和间距信息以及后一字符的类型和间距信息包括以下项:
当前(受怀疑)间距,
前一间距,
当前字符类型(CCT),
前一字符类型(PCT),
后一字符,
后一字符类型(NCT)。
然后,使用前一字符类型、前一间距和当前字符类型、当前间距来核对当前间距,从而判断受怀疑间距是词间距还是字符间距。例如,主要逻辑可以如下这样:
如果(“当前字符类型”不是TC且“当前字符类型”不是PC)
如果(“前一字符类型”是NC且当前间距>前一间距的3倍)
则当前受怀疑间距是词间距。
否则如果(“前一字符类型”是LC)
则当前受怀疑间距是词间距。
否则如果(“前一字符类型”是OC且(“当前间距”大于一个阈值(例如,TH6=“行高/3”)且“重叠字符在当前行中的比率”大于一个阈值(例如,TH7=“字符或连通字符区域的总数量/3”)))
则当前受怀疑间距是词间距。
否则
当前受怀疑间距是字符间距。
否则
当前受怀疑间距是字符间距。
例如,如图13(a)所示,当前(受怀疑间距)是字符“s”和字符“p”之间的间距,该间距是5。前一个间距是字符“e”和字符“s”之间的间距,该前一个间距是1。当前字符是字符“p”,字符类型是“NC”(正常字符)。前一个字符是字符“s”,字符类型是“NC”(正常字符)。“当前字符类型”不是TC和PC,“前一字符类型”是NC,且“当前间距”大于“前一间距”的3倍。因此,根据前一间距和字符类型(上下文信息),字符“p”和字符“s”之间的间距被认为是“词间距”。
然后,使用后一字符类型、后一间距和当前字符类型、当前间距来核对当前间距,从而判断受怀疑间距是词间距还是字符间距。例如,主要逻辑可以描述如下:
如果(“当前字符类型”不是TC且“当前字符类型”不是PC)
如果(“后一字符类型”是NC且当前间距>后一间距的3倍)
则当前受怀疑间距是词间距。
否则如果(“后一字符类型”是LC)
则当前受怀疑间距是词间距。
否则如果(“后一字符类型”是OC且(“当前间距”大于一个阈值(例如,TH6=“行高/3”)且“重叠字符在当前行中的比率”大于一个阈值(例如,TH7=“字符或连通字符区域的总数量/3”)))
则当前受怀疑间距是词间距。
否则
当前受怀疑间距是字符间距。
否则
当前受怀疑间距是字符间距。
例如,如图13(b)所示,当前(受怀疑间距)是字符“s”和字符“p”之间的间距,该间距是5。下一个间距是字符“p”和字符“o”之间的间距,该下一个间距是1。当前字符是字符“p”,字符类型是“NC”(正常字符)。下一个字符字符“o”,字符类型是“NC”(正常字符)。“当前字符类型”不是TC和PC,“下一字符类型”是NC,且“当前间距”大于“下一间距”的3倍。因此,根据下一间距和字符类型(上下文信息),字符“p”和字符“s”之间的间距被认为是“词间距”。
然后,如果既根据前一字符的类型和间距信息,也根据下一个字符的类型和间距信息,当前受怀疑间距都同时被判断为词间距,则将其认为是词间距。
在作为受怀疑词间距的各初始字符间距中的每一个都属于词间距的情况下,第一词间距阈值的左侧受怀疑区域的左边界用作第二词间距阈值。
关于右侧受怀疑区域(大的受怀疑间距范围)的判断步骤S3202与上面描述的关于左侧受怀疑区域的步骤S3201类似。接着,将给出关于它的简单描述。
首先,属于大的受怀疑间距范围的间距被当作受怀疑间距(它们大于或等于大的受怀疑间距范围的左边界且小于或等于大的受怀疑间距范围的右边界)。
然后,通过利用例如前一字符的类型和间距信息及后一字符的类型和间距信息,判断是否大的受怀疑间距范围中的所有受怀疑间距都是词间距。
具体地,先使用前一字符类型、间距及当前字符类型和间距来判断一个受怀疑间距是否是词间距。例如,主要逻辑可以如下这样:
如果(“当前字符类型”不是TC且“当前字符类型”不是PC)
如果(“前一字符类型”是NC且当前间距>前一间距的3倍)
则当前受怀疑间距是词间距。
否则如果(“前一字符类型”是LC)
则当前受怀疑间距是词间距。
否则如果(“前一字符类型”是OC且(“当前间距”大于一个阈值(例如,TH6=“行高/3”)且“重叠字符在当前行中的比率”大于一个阈值(例如,TH7=“字符或连通字符区域的总数量/3”)))
则当前受怀疑间距是词间距。
否则
当前受怀疑间距是字符间距。
否则
当前受怀疑间距是字符间距。
然后,利用后一字符类型、间距及当前字符类型和间距来判断受怀疑间距是否是词间距。例如,主要逻辑可以如下这样:
如果(“当前字符类型”不是TC且“当前字符类型”不是PC)
如果(“后一字符类型”是NC且当前间距>后一间距的3倍)
则当前受怀疑间距是词间距。
否则如果(“后一字符类型”是LC)
则当前受怀疑间距是词间距。
否则如果(“后一字符类型”是OC且(“当前间距”大于一个阈值(例如,TH6=“行高/3”)且“重叠字符在当前行中的比率”大于一个阈值(例如,TH7=“字符或连通字符区域的总数量/3”)))
则当前受怀疑间距是词间距。
否则
当前受怀疑间距是字符间距。
否则
当前受怀疑间距是字符间距。
在作为受怀疑词间距的各初始字符间距中的每一个都属于词间距的情况下,第一词间距阈值的右侧受怀疑区域的右边界用作第二词间距阈值。
这里,请注意,本发明不限于以上描述的步骤次序,本实施例中的步骤顺序可以任意变化。
另外,应注意,对于短行,其词间距可以根据相邻行的词间距阈值来设置。
图14示例性地示出根据本发明的实施例的分词方法的流程图。
具体地,如图14所示,根据本实施例的分词方法可以包括:
词间距确定步骤S10,通过使用上面描述的根据本发明的实施例的用于确定词间距的方法来确定文档图像的行图像区域中的词间距;以及
分割步骤S11,根据所确定的词间距,从所述行图像区域中分割词。
其中,要在分割步骤S11使用的用于分词的技术可以是本领域中已知或以后要开发的任何技术。
接着,将参照图15描述根据本发明实施例的被配置为确定文档图像中的词间距的设备10。
如图15所示,上述设备10可以包括划分部件100、第一获得部件200和调整部件300。
这里,划分部件100可以被配置为将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域。
上述的第一获得部件200可以被配置为对于至少一个行图像区域,通过聚类方法获得第一词间距阈值。因此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距可以被认为是粗略词间距(也可称为初始词间距),小于或等于该第一词间距阈值的间距可以被认为是粗略字符间距(也可称为初始字符间距)。
调整部件300可以被配置为根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值确定至少一个行图像区域中的最终词间距。
这里,上述划分部件100、第一获得部件200和调整部件300分别执行与上面的划分步骤S100、第一获得步骤S200和调整步骤S300类似的操作,因此,这里不给出详细描述。
另外,如图16所示,调整部件300可以包括:
受怀疑区域确定部件310,其可以被配置为基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域;和
第二获得部件320,其可以被配置为根据作为文档图像中的上下文信息的以下项之一,从所述至少一个受怀疑区域获得第二词间距阈值:
1)行图像区域中的前面的字符和/或后面的字符的间距;和
2)行图像区域中的前面的字符和/或后面的字符的类型及间距。
这里,上述受怀疑区域确定部件310和第二获得部件320分别执行与上面的受怀疑区域确定步骤S310和第二获得步骤S320类似的操作,因此,这里不给出详细描述。
优选地,如图15所示,上述设备10可以进一步包括判断部件400。
这里,上述判断部件400执行与上面的判断步骤S4001或上面的判断步骤S4002类似的操作,因此,这里不给出详细描述。
此外,图17示例性地示出根据本发明的实施例的分词系统的框图。
具体地,如图17所示,根据本实施例的分词系统(用附图标记1表示)可以包括:
根据本发明实施例的上述设备10;和
分割设备11,其可以被配置为根据由所述设备10确定的文档图像的行图像区域中的词间距,从所述行图像区域中分割词。
这里,上述分割设备11执行与上述分割步骤S11类似的操作,因此,这里不给出详细描述。
通过本实施例,具体地,通过调整例如由聚类方法获得的初始阈值,可以提高文档图像中的字符和词的识别精度,并且还可以降低执行词分割时所需的存储资源。更具体地,通过现有技术(例如,LDA)识别的不恰当或错误的字符间距或词间距可以通过本实施例被纠正。
尽管已经参照附图描述了本公开,但是实施例不限于上面描述的那些。本领域普通技术人员将明白,其他实施例也可以适用于本公开。另外,实施例中所示的组件仅是例子,它们并不限于这样的形式,而是可以是单个的组件或者可以彼此组合。
另外,请注意,可以用许多方式实施本公开的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本公开的方法和设备。上述的方法步骤的次序仅是示例性的,本公开的方法步骤不限于以上具体描述的次序,除非以其他方式明确说明。此外,在一些实施例中,本公开还可以被实施为记录在记录介质中的程序,其包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于实现根据本公开的方法的程序的记录介质。
在上面的描述中,虽然已通过示例详细展示了本公开的一些具体实施例,但是本领域普通技术人员应当理解,上述例子仅意图是示例性的而非限制本公开的范围。本领域普通技术人员应当理解,上述实施例可以被修改而不脱离本公开的范围和实质。本公开的范围是通过所附的权利要求来限定的。
Claims (18)
1.一种用于确定文档图像中的词间距的方法,所述方法包括:
划分步骤,将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;
第一获得步骤,对于至少一个行图像区域,通过聚类方法得到第一词间距阈值,由此,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和
调整步骤,根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值来确定至少一个行图像区域中的最终词间距。
2.根据权利要求1所述的方法,其中,所述调整步骤包括:
受怀疑区域确定步骤,基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域;和
第二获得步骤,根据作为文档图像中的上下文信息的以下项之一,从所述至少一个受怀疑区域获得第二词间距阈值:
1)行图像区域中的前面的字符和/或后面的字符的间距;和
2)行图像区域中的前面的字符和/或后面的字符的类型及间距。
3.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤中的至少之一:
左侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始字符间距选择特定初始字符间距作为所述第一词间距阈值的左侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的左侧受怀疑区域;和
右侧受怀疑区域确定步骤,对于至少一个行图像区域,从所述初始词间距选择特定初始词间距作为所述第一词间距阈值的右侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的右侧受怀疑区域。
4.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤:
基于所述第一词间距阈值,对于通过使用聚类方法获得的累积直方图进行拆分而得到两个新的累积直方图;
通过使用聚类方法对于所述两个新的累积直方图进行聚类,而获得两个新的阈值;和
将所述第一词间距阈值和所述两个新的阈值根据它们的大小而组成至少一个受怀疑区域,其中,该至少一个受怀疑区域能够包括左侧受怀疑区域和右侧受怀疑区域。
5.根据权利要求4所述的方法,还包括:判断步骤,根据通过对于所述两个新的累积直方图进行聚类所获得的类间方差,判断各受怀疑区域是否为能够接受的。
6.根据权利要求2所述的方法,其中,所述受怀疑区域确定步骤包括以下步骤中的至少之一:
在针对至少一个行图像区域、通过使用聚类方法获得的以间距为横轴、间距的数量为纵轴的累积直方图上,从所述第一词间距阈值开始往左查找第一个其纵坐标不等于0的初始字符间距而将该初始字符间距作为左侧受怀疑区域的右边界,并且从该右边界开始往左查找第一个作为局部极大值的初始字符间距作为左侧受怀疑区域的左边界;和
在所述累积直方图上,从所述第一词间距阈值开始往右查找第一个其纵坐标不等于0的初始词间距而将该初始词间距作为右侧受怀疑区域的左边界,并且从该左边界开始往右查找第一个作为局部极大值的初始词间距作为右侧受怀疑区域的右边界。
7.根据权利要求6所述的方法,还包括:判断步骤,根据以下项中的至少之一,判断各受怀疑区域是否为能够接受的:
1)各受怀疑区域中出现的各间距的数量之和;
2)各受怀疑区域中出现的间距之中的最大间距;和
3)各受怀疑区域中出现的间距之中的最小间距。
8.根据权利要求2所述的方法,其中,所述第二获得步骤包括以下步骤中的至少之一:
1)对于处于左侧受怀疑区域内的作为受怀疑词间距的各初始字符间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始字符间距是否均属于词间距,在作为受怀疑词间距的所述各初始字符间距均属于词间距的情况下,将所述第一词间距阈值的左侧受怀疑区域的左边界用作所述第二词间距阈值;和
2)对于处于右侧受怀疑区域内的作为受怀疑词间距的各初始词间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始词间距是否均属于词间距,在作为受怀疑词间距的所述各初始词间距均属于词间距的情况下,将所述第一词间距阈值的右侧受怀疑区域的右边界作为所述第二词间距阈值。
9.一种分词方法,包括:
词间距确定步骤,通过使用根据权利要求1~8中的任一项所述的方法来确定文档图像的行图像区域中的词间距;以及
分割步骤,根据所确定的词间距,从所述行图像区域中分割词。
10.一种被配置为确定文档图像中的词间距的设备,所述设备包括:
划分部件,被配置为将文档图像划分为文本图像块,然后将文本图像块划分为行图像区域,并且将每个行图像区域划分成字符或连通字符区域;
第一获得部件,被配置为对于至少一个行图像区域,通过聚类方法获得第一词间距阈值,其中,在至少一个行图像区域中的各间距之中,大于该第一词间距阈值的间距被称为初始词间距,小于或等于该第一词间距阈值的间距被称为初始字符间距;和
调整部件,被配置为根据该文档图像中的上下文信息,调整所述第一词间距阈值以获得第二词间距阈值,以便根据该第二词间距阈值确定至少一个行图像区域中的最终词间距。
11.根据权利要求10所述的设备,其中,所述调整部件包括:
受怀疑区域确定部件,被配置为基于所述第一词间距阈值来确定由至少一个行图像区域中的一部分间距构成的至少一个受怀疑区域;和
第二获得部件,被配置为根据作为文档图像中的上下文信息的以下项之一,从所述至少一个受怀疑区域获得第二词间距阈值:
1)行图像区域中的前面的字符和/或后面的字符的间距;和
2)行图像区域中的前面的字符和/或后面的字符的类型及间距。
12.根据权利要求11所述的设备,其中,所述受怀疑区域确定部件被配置为能够执行以下操作中的至少之一:
1)对于至少一个行图像区域,从所述初始字符间距选择特定初始字符间距作为所述第一词间距阈值的左侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的左侧受怀疑区域;和
2)对于至少一个行图像区域,从所述初始词间距选择特定初始词间距作为所述第一词间距阈值的右侧受怀疑区域的左边界和右边界,由此确定所述第一词间距阈值的右侧受怀疑区域。
13.根据权利要求11所述的设备,其中,所述受怀疑区域确定部件被配置为能够执行以下操作:
基于所述第一词间距阈值,对于通过使用聚类方法获得的累积直方图进行拆分而得到两个新的累积直方图;
通过使用聚类方法对于所述两个新的累积直方图进行聚类,而得到两个新的阈值;和
将所述第一词间距阈值和所述两个新的阈值根据大小而组成至少一个受怀疑区域,其中,该至少一个受怀疑区域能够包括左侧受怀疑区域和右侧受怀疑区域。
14.根据权利要求13所述的设备,所述设备还包括:判断部件,被配置为根据通过对于所述两个新的累积直方图进行聚类所获得的类间方差,判断各受怀疑区域是否为能够接受的。
15.根据权利要求11所述的设备,其中,所述受怀疑区域确定部件被配置为能够执行以下操作中的至少之一:
1)在针对至少一个行图像区域、通过使用聚类方法获得的以间距为横轴、间距的数量为纵轴的累积直方图上,从所述第一词间距阈值往左查找第一个其纵坐标不等于0的初始字符间距而将该初始字符间距作为左侧受怀疑区域的右边界,并且从该右边界开始往左查找第一个作为局部极大值的初始字符间距作为左侧受怀疑区域的左边界;和
2)在该累积直方图上,从所述第一词间距阈值往右查找第一个其纵坐标不等于0的初始词间距而将该初始词间距作为右侧受怀疑区域的左边界,并且从该左边界开始往右查找第一个作为局部极大值的初始词间距作为右侧受怀疑区域的右边界。
16.根据权利要求15所述的设备,所述设备还包括:判断部件,被配置为根据以下项中的至少之一,判断各受怀疑区域是否为能够接受的:
1)各受怀疑区域中出现的各间距的数量之和;
2)各受怀疑区域中出现的间距之中的最大间距;和
3)各受怀疑区域中出现的间距之中的最小间距。
17.根据权利要求11所述的设备,其中,所述第二获得部件被配置为能够执行以下操作中的至少之一:
1)对于处于左侧受怀疑区域内的作为受怀疑词间距的各初始字符间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始字符间距是否均属于词间距,在判断作为受怀疑词间距的所述各初始字符间距均属于词间距的情况下,将所述第一词间距阈值的左侧受怀疑区域的左边界作为所述第二词间距阈值;和
2)对于处于右侧受怀疑区域内的作为受怀疑词间距的各初始词间距,将其与作为文档图像中的一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,或者,结合作为文档图像中的另一种上下文信息的行图像区域中的前面的字符和/或后面的字符的类型,将其与作为文档图像中的所述一种上下文信息的行图像区域中的前面的字符和/或后面的字符的间距在大小上进行比较,并且,根据比较结果来判断作为受怀疑词间距的所述各初始词间距是否均属于词间距,在判断作为受怀疑词间距的所述各初始词间距均属于词间距的情况下,将所述第一词间距阈值的右侧受怀疑区域的右边界作为所述第二词间距阈值。
18.一种分词系统,包括:
根据权利要求10~17中的任一项所述的设备;以及
分割设备,被配置为根据由所述设备确定的文档图像的行图像区域中的词间距,从所述行图像区域中分割词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510132285.9A CN106156772B (zh) | 2015-03-25 | 2015-03-25 | 用于确定词间距的方法和设备以及用于分词的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510132285.9A CN106156772B (zh) | 2015-03-25 | 2015-03-25 | 用于确定词间距的方法和设备以及用于分词的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106156772A true CN106156772A (zh) | 2016-11-23 |
CN106156772B CN106156772B (zh) | 2019-08-02 |
Family
ID=57339235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510132285.9A Active CN106156772B (zh) | 2015-03-25 | 2015-03-25 | 用于确定词间距的方法和设备以及用于分词的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106156772B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133169A (zh) * | 2016-12-01 | 2018-06-08 | 北京新唐思创教育科技有限公司 | 一种针对文本图像的成行处理方法及其装置 |
CN110348497A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种基于WT-GloVe词向量构建的文本表示方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7471826B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Character segmentation by slices |
CN101655835A (zh) * | 2009-08-26 | 2010-02-24 | 北大方正集团有限公司 | 电子文档中文字信息处理、输出和字符检索的方法及装置 |
CN102982328A (zh) * | 2011-08-03 | 2013-03-20 | 夏普株式会社 | 字符识别装置和字符识别方法 |
US20140270526A1 (en) * | 2013-03-14 | 2014-09-18 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
CN104094281A (zh) * | 2012-03-05 | 2014-10-08 | 欧姆龙株式会社 | 字符识别用的图像处理方法、使用该方法的字符识别装置及程序 |
-
2015
- 2015-03-25 CN CN201510132285.9A patent/CN106156772B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7471826B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Character segmentation by slices |
CN101655835A (zh) * | 2009-08-26 | 2010-02-24 | 北大方正集团有限公司 | 电子文档中文字信息处理、输出和字符检索的方法及装置 |
CN102982328A (zh) * | 2011-08-03 | 2013-03-20 | 夏普株式会社 | 字符识别装置和字符识别方法 |
CN104094281A (zh) * | 2012-03-05 | 2014-10-08 | 欧姆龙株式会社 | 字符识别用的图像处理方法、使用该方法的字符识别装置及程序 |
US20140270526A1 (en) * | 2013-03-14 | 2014-09-18 | Konica Minolta Laboratory U.S.A., Inc. | Method for segmenting text words in document images |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133169A (zh) * | 2016-12-01 | 2018-06-08 | 北京新唐思创教育科技有限公司 | 一种针对文本图像的成行处理方法及其装置 |
CN110348497A (zh) * | 2019-06-28 | 2019-10-18 | 西安理工大学 | 一种基于WT-GloVe词向量构建的文本表示方法 |
CN110348497B (zh) * | 2019-06-28 | 2021-09-10 | 西安理工大学 | 一种基于WT-GloVe词向量构建的文本表示方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106156772B (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101615252B (zh) | 一种自适应图像文本信息提取方法 | |
CN1276384C (zh) | 视频流可分类符号分离的方法与系统 | |
Yanikoglu et al. | Pink Panther: a complete environment for ground-truthing and benchmarking document page segmentation | |
CN102822846B (zh) | 用于对来自文本行图像的单词进行分割的方法和设备 | |
US10062001B2 (en) | Method for line and word segmentation for handwritten text images | |
CN104573675B (zh) | 作业图像的展示方法和装置 | |
CN103098074A (zh) | 光学字符识别中的文档页分割 | |
CN108154132A (zh) | 一种身份证文字提取方法、系统及设备和存储介质 | |
CN104182722A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
JP2005309608A (ja) | 文字認識結果出力装置、文字認識装置、その方法及びプログラム | |
CN103093185B (zh) | 字符识别装置、图像处理装置及其方法 | |
CN105868759A (zh) | 分割图像字符的方法及装置 | |
JP6116044B2 (ja) | 細胞挙動解析装置、細胞挙動解析方法、及びプログラム | |
Lv et al. | Nuclei R-CNN: improve mask R-CNN for nuclei segmentation | |
Shivakumara et al. | Gradient-angular-features for word-wise video script identification | |
CN104036292A (zh) | 一种医学影像数字胶片中文字区域提取方法及提取系统 | |
Tuna et al. | Indexing and keyword search to ease navigation in lecture videos | |
CN105654082A (zh) | 字符识别后处理方法、设备及包括该设备的图像拾取设备 | |
CN104182744A (zh) | 文本检测方法和装置以及文本信息提取方法和系统 | |
CN103377379A (zh) | 文本检测设备、文本信息提取系统及其方法 | |
CN106156772A (zh) | 用于确定词间距的方法和设备以及用于分词的方法和系统 | |
CN100456317C (zh) | 行方向判定方法以及装置 | |
CN111144256B (zh) | 基于视频动态分析的电子表格公式合成与错误检测方法 | |
Vu et al. | Automatic extraction of text regions from document images by multilevel thresholding and k-means clustering | |
Li et al. | Segmenting compound biomedical figures into their constituent panels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |