CN102968610A

CN102968610A - 收据图像处理方法和设备

Info

Publication number: CN102968610A
Application number: CN2011102703883A
Authority: CN
Inventors: 常兰兰; 孙俊; 何源; 于浩; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2013-03-13
Anticipated expiration: 2031-08-31
Also published as: CN102968610B

Abstract

本发明提供一种收据图像处理方法和设备，该方法包括：根据特征信息检测收据图像中表示金额的金额数字；根据金额数字来识别收据图像中包含金额数字的特征行；以及基于特征行的位置分布，分别将收据图像中的各个文本行分组到彼此之间相似的若干重复块中。

Description

收据图像处理方法和设备

技术领域

本申请总体上涉及图像处理的领域，更具体而言，涉及一种收据图像处理方法和设备。

背景技术

收据是一种常用的金融票据。在实际应用中，经常通过扫描仪等图像捕获设备来捕获收据图像，然后对捕获的收据图像进行内容分析以获得相关信息。但是，对收据图像进行内容分析常常存在很多困难，例如，在收据图像中，收据的长度通常根据其中记录项的多少而变化，即收据图像中包含的文本行的行数根据其中记录项的多少而变化，一般一个记录项对应一类物品，并且一个记录项通常包含若干文本行，每个文本行分别描述该类物品的相关信息，例如金额、识别码、折扣等；又例如，在收据图像中，收据的抬头通常是开具该收据的公司的标识，该标识一般难以准确切割并且难以通过OCR技术来准确识别。因此，现有技术中进行内容分析的可靠性和准确性较差。

发明内容

在下文中将给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本申请的实施例，提供了一种收据图像处理方法，该方法可包括：根据金额的特征信息检测收据图像中表示金额的金额数字；根据金额数字来识别收据图像中包含金额数字的特征行；以及基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。这样，通过将收据图像中的文本行分组到彼此之间相似的重复块中，可以以重复块为单元对收据图像进行内容分析，从而显著提高收据图像的内容分析的可靠性和准确性。

根据本申请的实施例，检测步骤可包括：将收据图像切分成行和词；在各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字；以及根据十进制数字与之前字符或词之间的距离，以及之前字符或词本身的属性，来确定金额数字。

根据本发明的实施例，识别步骤包括：以已经被识别出的特征行为参照，计算收据图像中的各个文本行与已经被识别出的特征行之间的第一相似度；以及将第一相似度大于预定阈值的文本行也识别为特征行。

根据本发明的实施例，分组步骤包括：分别以特征行为边界，将特征行以及位于特征行与其之后最邻近的特征行之间的各个文本行，分组到同一重复块中。

根据本发明的实施例，分别计算重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度；将第二相似度大于预定阈值的文本行作为重复模式；以及将具有最多重复模式的重复块作为代表重复块。

根据本申请的实施例，提供了一种收据图像处理设备，该设备可包括：检测装置，用于根据金额的特征信息检测收据图像中表示金额的金额数字；识别装置，用于根据金额数字来识别收据图像中包含金额数字的特征行；以及分组装置，用于基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。这样，通过分组装置将收据图像中的文本行分组到彼此之间相似的重复块中，可以以重复块为单元对收据图像进行内容分析，从而显著提高收据图像的内容分析的可靠性和准确性。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1示出根据本发明的一个实施例的收据图像处理方法的处理的流程图；

图2示出根据本发明的一个实施例的检测收据图像中的金额数字的处理的流程图；

图3是示出从收据图像中检测到的金额数字的示意图；

图4是示出收据图像中的文本行的词属性串的示意图；

图5示出根据本发明的一个实施例的校正收据图像中的特征行的处理的流程图；

图6是示出特征行与文本行之间的第一相似度的示意图；

图7是示出利用金额数字的位置信息验证第一相似度的示意图；

图8示出根据本发明的一个实施例的确定代表重复块的处理的流程图；

图9是示出从收据图像中识别的特征行的示意图；

图10是示出对收据图像中的文本行进行分组而得到的重复块的示意图；

图11A示出根据发明的一个实施例的对数据图像进行划分并利用重复块对收据图像进行聚类的处理的流程图；

图11B是示出对数据图像进行划分所得到的各部分的示意图；

图12A示出根据本发明的一个实施例的收据图像处理设备的框图；

图12B示出根据本发明的另一实施例的收据图像处理设备的框图；

图13示出根据本发明的一个实施例的检测装置的框图；

图14示出根据本发明的一个实施例的识别装置的框图；

图15示出根据本发明的一个实施例的分组装置的框图；以及

图16示出了可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构，而省略了与本发明关系不大的其他细节。

图1示出根据本发明的一个实施例的收据图像处理方法的处理的流程图。申请人注意到，收据图像中的文本行有的包含表示金额的金额数字，有的不包含表示金额的金额数字，而且包含表示金额的金额数字的文本行往往是收据中一个新的记录项的开始。因此，如果能识别收据图像中包含表示金额的金额数字的文本行，则能够准确地识别收据中的记录项，进而能提供收据图像的内容分析的可靠性和准确性。

另外还需说明的是，在此仅仅以英语文字为例来说明根据本发明的实施例的收据图像处理方法的说明。本领域技术人员可以理解，根据本发明的实施例的收据图像处理方法同样也适用于其它语言文字的收据图像。出于简洁目的，在此以及在下文中并未针对其它语言文字而逐一举例说明。

在借助根据本发明的实施例的收据图像处理方法对收据图像进行处理时，如图1所示，该方法在步骤100开始。

在步骤102，根据金额的特征信息检测收据图像中表示金额的金额数字。

收据图像可以是已经存在于电子收据中的收据图像，也可以是根据应用需要通过图像捕获设备获取的收据图像。金额的特征信息指的是可以用来检测表示金额的金额数字的金额在收据图像中的位置信息和/或金额本身的符号特征信息。例如，金额在收据图像中的位置信息可以是金额在收据图像中的右对齐位置，而金额本身的符号特征信息可以是金额的数字格式为小数点后两位十进制数字。本领域技术人员可以理解，还可以采用其它的用于表征金额的特征信息，只要可以根据其来检测收据图像中表示金额的金额数字即可。

下面，根据图2来详细描述用于根据金额的特征信息检测收据图像中表示金额的金额数字的一个实施例。图2示出根据本发明的一个实施例的检测收据图像中的金额数字的处理的流程图。

如图2所示，该方法在步骤200开始。在步骤202，将收据图像切分成文本行和词。

可以采用现有技术中已知的各种方法，例如投影方法将收据图像等图像数据切分成文本行和词。由于本发明并不涉及对将图像数据切分成文本行和词的方法的改进，故在此不再赘述。关于利用投影方法切分文本行和词的方法例如可以参考Mohamed Cheriet，Nawwaf Kharma，Cheng-LinLiu，Ching Suen的“Character Recognition Systems：A Guide for Studentsand Practitioners”(2007年10月由Wiley出版)，第208页等。

接着，在步骤204，在各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字。

如上所述，金额一般位于收据图像中的右对齐位置，而且金额的数字格式一般为小数点后两位十进制数字。因此，可以根据诸如右对齐位置、最后两位或倒数第二、三位字符为两个连续数字的十进制数字等金额的特征信息，在收据图像中搜索表示金额的金额数字。

结合图3来说明从收据图像中检测到的金额数字。图3是示出从收据图像中检测到的金额数字的示意图。

如图3所示，第一字符串301“2.99T”和第二字符串302“14.98”分别位于其所在文本行的右对齐位置处。另外，第一字符串301“2.99T”中的倒数第二、三位字符“99”为两个连续数字的十进制数字，而第二字符串302“14.98”中的最后两位字符“98”为两个连续数字的十进制数字。因此，如图3中的方框内的数字所示，在第一字符串301“2.99T”所在文本行的右对齐位置搜索到第一字符串301“2.99T”中的倒数第二、三位字符“99”作为金额数字，在第二字符串302“14.98”所在文本行的右对齐位置搜索到第二字符串302“14.98”中的最后两位字符“98”作为金额数字。

回到图2，在步骤206，根据由步骤204得到的十进制数字与之前字符或词之间的距离，以及之前字符或词本身的属性，来确定金额数字。

注意，本文中所述的字符或词不包括诸如小数点、冒号等符号。例如，可以通过在确定金额数字之前的预处理将诸如小数点、冒号等符号去除，或者可以在进行金额数字的确定的处理时直接忽略诸如小数点、冒号等符号。

由步骤204得到的十进制数字之前的字符或词本身的属性指的是，例如由步骤204得到的十进制数字之前的字符或词本身是否全部为十进制数字。如果之前的字符或词本身包含了非十进制数字的其它字符，则可以确定其不是金额数字。如果之前的字符或词本身全部为十进制数字，则其可能为金额数字，也可能为时间或编码等其它数字格式，因此在这种情况下，还需要判断由步骤204得到的十进制数字与之前字符或词之间的距离是否满足预定条件。

假设由步骤204得到的十进制数字与之前字符或词之间的距离为d，测量到的平均字符宽度为w，以及测量到的平均字符间距为g，则由步骤204得到的十进制数字与之前字符或词之间的距离所要满足的预定条件例如可为：

r₁×(w+g)＜d＜r₂×(w+g) 公式(1)

其中，参数r₁和r₂的值可以根据经验确定，例如可根据文本的排版等信息来统计地确定。此外，参数r₁和r₂的值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

还是以图3为例，由步骤204得到的第一字符串301“2.99T”中的十进制数字“99”之前的字符为“2”，该字符“2”全部为十进制数字，并且十进制数字“99”与其之前的字符“2”之间的距离d₁满足上述公式(1)，因此将第一字符串301“2.99T”中的“2.99”确定为金额数字。类似地，由步骤204得到的第二字符串302“14.98”中的十进制数字“98”之前的字符为“14”，该字符“14”全部为十进制数字，并且十进制数字“98”与其之前的字符“14”之间的距离d₂也满足上述公式(1)，因此将第二字符串302“14.98”中的“14.98”确定为金额数字。

需要注意的是，经过步骤102检测到的金额数字可能存在错误。例如，由于OCR的识别错误而导致的漏检，例如原本应该是金额数字，但是由于OCR识别错误而没有将其检测出来。再例如，将其它数字格式误检为金额数字，例如将诸如时间、编码等原本不是金额数字的其它数字格式误检为金额数字。稍后将详细描述如何避免或改进这些错误。

回到图1，在步骤102检测到收据图像中表示金额的金额数字之后，接着在步骤104，根据所检测到的金额数字来识别收据图像中包含金额数字的特征行。

还是以上述图3为例，由于在步骤102中将第一字符串301“2.99T”中的“2.99”确定为金额数字，因此将包含该金额数字“2.99”的文本行“83-SEASONAL DEC 019815211 2.99T”识别为特征行。类似地，由于在步骤102中将将第二字符串302“14.98”中的“14.98”确定为金额数字，因此将包含该金额数字“14.98”的文本行“SUBTOTAL 14.98”也确定为特征行。

如上所述，经过步骤102检测到的金额数字可能存在错误，因此在步骤104中根据检测到的金额数字识别收据图像中包含金额数字的特征行时也相应地可能存在错误。为了避免或改进由金额数字的错误所导致的特征行的错误，可以采用多种方式来校正特征行。

下面，根据图5来详细说明对收据图像中的特征行进行校正的一个实施例。图5示出根据本发明的一个实施例的校正收据图像中的特征行的处理的流程图。

如图5所示，在步骤502，以已经被识别出的特征行为参照，计算收据图像中的各个文本行与已经被识别出的特征行之间的第一相似度。

已经被识别出的特征行指的是根据金额数字从收据图像中识别出的包含金额数字的特征行。如上所述，根据金额数字来识别特征行可能存在错误，因此可通过将收据图像中的各个文本行与已经被识别出的特征行进行第一相似度比较，并且根据第一相似度的比较结果来判断文本行中是否存在漏识别的特征行(即应该是特征行，但由于OCR识别错误未能检测出金额数字，进而导致没有被识别出的特征行)，或者已经被识别出的特征行中是否存在误识别的特征行(即原本不是特征行，但由于其中包含的其它数字格式被误检为金额数字，进而导致被误识别出的特征行)。

可采用多种方式来进行上述第一相似度的比较。下面举出若干种比较第一相似度的方式的示例。但是，本领域技术人员应该理解，本发明中的第一相似度的比较方式不限于此，还可以采用本领域中其它合适的比较文本行之间相似度的各种方式来进行上述第一相似度的比较，只要其可以用来判断文本行之间是否相似即可。

根据本发明的一个示例，上述第一相似度例如为各个文本行与特征行之间的左对齐相似度，其中，左相似度指示各个文本行与特征行左对齐的概率。即，可以根据文本行与特征行之间的左对齐相似度来判断文本行与特征行是否相似。

根据本发明的又一示例，上述第一相似度例如为各个文本行与所述特征行之间的右对齐相似度，其中，右相似度指示各个文本行与特征行右对齐的概率。即，可以根据文本行与特征行之间的右对齐相似度来判断文本行与特征行是否相似。

根据本发明的又一示例，上述第一相似度例如为各个文本行与所述特征行之间的尺寸相似度，其中，尺寸相似度指示各个文本行中的字符与特征行中的字符具有相同大小的概率。即，可以根据文本行与特征行之间的尺寸相似度来判断文本行与特征行是否相似。

根据本发明的又一示例，上述第一相似度例如为各个文本行与所述特征行之间的词属性串的编辑距离，其中，词属性串的编辑距离表示词属性传之间的相似性，即从一个词属性串变换到另一词属性串所需的操作的多少。即，可以根据文本行与特征行之间的词属性串的编辑距离来判断文本行与特征行是否相似。关于编辑距离例如可以参考Mohamed Cheriet，Nawwaf Kharma，Cheng-Lin Liu，Ching Suen的“Character RecognitionSystems：A Guide for Students and Practitioners”(2007年10月由Wiley出版)，第172页等。

另外，文本行的词属性串指的是通过给文本行中的每个词赋以表示其字符属性的符号而得到的一串符号，其可以表示该文本行的字符属性组成。可结合图4对文本行的词属性串进行详细说明。图4是示出收据图像中的文本行的词属性串的示意图。如图4所示，例如为文本行中的词“STUDDED”赋以符号“A”以表示该词“STUDDED”的主要组成为英文字符。又例如，为文本行中的词“19.50”赋以符号“N”以表示该词“19.50”的主要组成为数字。按照上述方式，可以得到文本行“STUDDEDBOARDWALK T 19.50N”的词属性串为“AAANA”。本领域技术人员应该理解，可以将上述符合“A”和“N”互换，即用符号“A”表示其主要组成为数字的词，而用“N”表示其主要组成为英文字符的词。另外，还可以用其它符号来表示词属性串，例如用符号“1”表示其主要组成为英文字符的词，用符号“0”表示其主要组成为数字的词，反之亦然。

下面，结合图6来详细说明如何计算文本行与特征行之间的第一相似度。图6是示出文本行与特征行之间的第一相似度的示意图。

如图6所示，假设上部文本行为已经识别出的特征行(在下文中被称为“上部特征行”)，下部文本行为收据图像中的任意一个文本行(在下文中被称为“下部文本行”)。又假设，上部特征行的平均字符宽度为w₁，下部文本行的平均字符宽度为w₂，两者之间的差为sd_w＝|w₁-w₂|；上部特征行的平均字符高度为h₁，下部文本行的平均字符高度为h₂，两者之间的差为sd_h＝|h₁-h₂|；上部特征行与下部文本行的左边界之间的水平偏移量为d₁，上述特征行与下部文本行的右边界之间的水平偏移量为d₂。基于上述假设，例如可以分别根据下面的公式来计算上部特征行与下部文本行之间的左对齐相似度、右对齐相似度、尺寸相似度和词属性串的编辑距离：

左对齐相似度：

S_{1} = e^{- \frac{{d_{1}}^{2}}{{(\frac{w_{1} + w_{2}}{2})}^{2}}};

右对齐相似度：

S_{2} = e^{- \frac{{d_{2}}^{2}}{{(\frac{w_{1} + w_{2}}{2})}^{2}}};

尺寸相似度：

S_{3} = (e^{- \frac{{sd}_{w}^{2}}{{(\frac{w_{1} + w_{2}}{2})}^{2}}} + e^{- \frac{{sd}_{h}^{2}}{{(\frac{h_{1} + h_{2}}{2})}^{2}}}) / 2;

以及

词属性串的编辑距离：d_p。

接着，在步骤504，将第一相似度的值大于预定阈值的文本行也识别为特征行。

根据步骤502计算出的第一相似度，将第一相似度的值与预定阈值进行比较，判断第一相似度的值是否大于预定阈值，并将第一相似度的值大于预定阈值的文本行也识别为特征行，从而可以将漏识别的特征行增补回来，实现了对特征行的校正。另外，如果在步骤502中与已经识别出的特征行进行第一相似度比较的文本行本身也是特征行，即对两个特征行进行第一相似度的比较，则可以利用所计算的第一相似度来判断误识别的特征行。例如，如果某特征行CL与其它特征行之间的第一相似度的值均小于预定阈值，则可将该特征行CL判断为误识别特征行，从而可以将误识别特征行不再识别为特征行，也实现了对特征行的校正。本领域技术人员应当理解，上述预定阈值可以根据经验确定，也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

还是以上述左对齐相似度、右对齐相似度、尺寸相似度和词属性串的编辑距离为例，例如可以将左偏移量S₁与第一预定阈值T₁进行比较，并判断S₁是否大于T₁；另外，例如可以将右偏移量S₂与第二预定阈值T₂进行比较，并判断S₂是否大于T₂；另外，例如可以将尺寸相似度S₃与第三预定阈值T₃进行比较，并判断S₃是否大于T₃；以及，例如可以将词属性串的编辑距离d_p与第四预定阈值T₄进行比较，并判断d_p是否大于T₄。例如，当同时满足上述四个条件时，即满足((S₁＞T₁)and(S₂＞T₂)and(S₃＞T₃)and(d_p＞T₄))时，确定所比较的文本行与特征行是相似的。本领域技术人员应该可以理解，可以不必同时满足上述四个条件，而是只要满足其中任意若干个条件，就可以确定所比较的文本行与特征行是相似的，只要其比较的准确度在可以接收的范围内即可。另外，本领域技术人员应当理解，上述各个预定阈值T₁、T₂、T₃、T₄可以根据经验确定，也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

另外，根据本发明的又一优选实施例，还可根据金额数字在特征行与文本行中的位置对应信息对第一相似度进行验证。

例如，可以根据特征行中的金额数字的位置信息，确定在待检测文本行中的对应位置是否存在金额数字。如果在待检测文本行的对应位置处存在金额数字，则判定待检测文本行与特征行是相似的；反之，则判定待检测文本行与特征行是不相似的，从而可以对第一相似度进行进一步验证，以提高特征行识别的准确度和可靠性。

下面，结合图7来详细说明利用金额数字的位置信息验证第一相似度的处理。图7是示出利用金额数字的位置信息验证第一相似度的示意图。如图7所示，假设上部文本行为已经识别出的特征行(在下文中被称为“上部特征行”)，下部文本行为收据图像中的任意一个文本行(在下文中被称为“下部文本行”)。如图7所示，从上部特征行“SUBTOTAL 14.98”得到的词属性串为“100”，从下部文本行“T1 2 25000 10.99 .25”得到的词属性串为“10000”。利用上部特征行“SUBTOTAL 14.98”中的金额数字“14.98”的位置信息(即实方框701所示的位置)，确定在下部文本行“T1 2 25000 10.99 .25”的对应位置(即虚方框702所示的位置)是否存在金额数字。在图7所示的示例中，在上述对应位置(即虚方框702所示的位置)处存在金额数字“25”，因此判定下部文本行“T122500010.99.25”与特征行“SUBTOTAL 14.98”是相似的，从而将下部文本行T1 2 25000 10.99 .25”也识别为特征行。

再次回到图1，在步骤104根据所检测到的金额数字识别出收据图像中包含金额数字的特征行之后，接着在步骤106，基于特征行的位置分布，分别将收据图像中的各个文本行分组到彼此之间相似的若干重复块中。

如上文中所述，包含表示金额的金额数字的特征行往往是收据中一个新的记录项的开始，因此在识别出收据图像中包含金额数字的特征行之后，可以根据特征行在收据图像中所处的位置，将收据图像中所有的文本行分组到若干重复块中，各个重复块之间在结构上是彼此相似的，即一个重复块中所包含的各个文本行与另一重复块中所包含的各个文本行之间彼此相似。

根据本发明的一个优选实施例，例如可以分别以特征行为边界，将特征行以及位于特征行与其之后最邻近的特征行之间的各个文本行，分组到同一重复块中。本领域技术人员应当理解，以特征行为边界来分组文本行仅是本发明的一个优选实施例，但是本发明不限于此。

下面结合图9和图10来详细说明根据特征行的位置分布将文本行分组到重复块中的处理的具体过程。图9是示出从收据图像中识别的特征行的示意图，图10是示出对收据图像中的文本行进行分组而得到的重复块的示意图。

如图9所示，根据步骤104的处理，分别将文本行901“DRAPED VEST24.50N”、文本行902“STUDDED BOARDWLK T 19.50N”、文本行903“JEWELED T 9.97N”、文本行904“SUBTOTAL53.97”以及文本行905“TOTAL 53.97”识别为特征行(下文中，分别被称为特征行901、特征行902、特征行903、特征行904和特征行905)。然后，以相邻的特征行901和特征行902为边界，将从特征行901到相邻特征行902之间的两个文本行“000016632788”、和“Return Price 119.00”以及特征行901本身，一起分组到同一重复块1001中，因此如图10所示，重复块1001中包括特征行901以及两个文本行“000016632788”、和“Return Price 1 19.00”。类似地，以相邻的特征行902和特征行903为边界，将从特征行902到相邻特征行903之间的一个文本行“000016928160”以及特征行902本身，一起分组到同一重复块1002中，因此如图10所示，重复块1002中包括特征行902以及一个文本行“000016928160”。类似地，以相邻的特征行903和特征行904为边界，将从特征行903到相邻特征行904之间的四个文本行“000016822108”、“19.95-9.98”、“B1G150％OFF T’S，TANKS，POLOS”、和“ReturnPrice 1 15.47”以及特征行903本身，一起分组到同一重复块1003中，因此如图10所示，重复块1003中包括特征行903以及四个个文本行“000016822108”、“19.95-9.98”、“B1G1 50％ OFF T’S，TANKS，POLOS”、和“Return Price 1 15.47”。另外，由于特征行904与特征行905之间没有文本行，特征行905之后也没有文本行，因此将特征行904单独分组为重复块1004，将特征行905单独分组为重复块1005，因此如图10所示，重复块1004仅包括特征行904，重复块1005仅包括特征行905。

因此，如图10所示，通过上述处理，将收据图像中的所有文本行分组成为重复块1001、重复块1002、重复块1003、重复块1004和重复块1005。各个重复块彼此之间在结构上是相似的，例如上述各个重复块分别包括一个特征行。再例如，重复块1001中的文本行“000016632788”、重复块1002中的文本行“000016928160”和重复块1003中的文本行“000016822108”彼此之间也是相似的。再例如，重复块1001中的文本行“Return Price 1 19.00”和重复块103中的文本行“Return Price 115.47”彼此之间也是相似的。

下面结合图8来详细说明根据本发明的一个实施例的从若干个重复块中确定代表重复块的处理的具体过程。图8示出根据本发明的一个实施例的确定代表重复块的处理的流程图。

如图8所示，在步骤802，分别计算重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度。

还是以图9和图10为例，例如对于重复块1001，除了特征行901之外，还包括两个文本行“000016632788”、和“Return Price 1 19.00”；对于重复块1003，除了特征行903之外，还包括四个文本行“000016822108”、“19.95-9.98”、“B1G1 50％ OFF T’S，TANKS，POLOS”、和“Return Price 1 15.47”。因此，将重复块1001中的文本行“000016632788”与重复块1003中的四个文本行中的每个分别进行第二相似度的比较；类似地，将重复块1001中的文本行“Return Price 119.00”与重复块1003中的四个文本行中的每个分别进行第二相似度的比较。重复块1001中的各个文本行与重复块1002中的各个文本行之间的第二相似度的比较，以及重复块1002中的各个文本行与重复块1003中的各个文本行之间的第二相似度的比较也是类似的，在此不再赘述。

可采用多种方式来进行上述第二相似度的比较。下面举出若干种比较第二相似度的方式的示例。但是，本领域技术人员应该理解，本发明中的第二相似度的比较方式不限于此，还可以采用本领域中其它合适的比较文本行之间相似度的各种方式来进行上述第二相似度的比较，只要其可以用来判断文本行之间是否相似即可。

根据本发明的一个示例，上述第二相似度例如为文本行之间的左对齐相似度，其中，左相似度指示文本行之间左对齐的概率。即，可以根据文本行之间的左对齐相似度来判断文本行是否相似。

根据本发明的又一示例，上述第二相似度例如为文本行之间的右对齐相似度，其中，右相似度指示文本行之间对齐的概率。即，可以根据文本行之间的右对齐相似度来判断文本行是否相似。

根据本发明的又一示例，上述第二相似度例如为文本行之间的词属性串的编辑距离，其中，词属性串的编辑距离表示词属性串之间的相似性，即从一个词属性串变换到另一词属性串所需的操作的多少。即，可以根据文本行之间的词属性串的编辑距离来判断文本行是否相似。关于编辑距离例如可以参考Mohamed Cheriet，Nawwaf Kharma，Cheng-Lin Liu，Ching Suen的“Character Recognition Systems：A Guide for Students andPractitioners”(2007年10月由Wiley出版)，第172页等。

上文中已经对左对齐相似度、右对齐相似度和文本行的词属性串的编辑距离进行了详细说明，在此不再赘述。

根据本发明的又一示例，上述第二相似度例如为文本行与该文本行所属的重复块中的相邻特征行之间的相对位置。

还是以图9和图10为例来说明，例如在重复块1001中，文本行“000016632788”相对于特征行901的位置是特征行901之后的第一个文本行；类似地，在重复块1002中，文本行“000016928160”相对于特征行902的位置是特征行901之后的第一个文本行；类似地，在重复块1003中，文本行“000016822108”相对于特征行903的位置是特征行903之后的第一个文本行。因此，上述三个文本行与其相应的相邻特征行之间的相对位置是相似的。

接着，在步骤804，将第二相似度大于预定阈值的文本行作为重复模式。

根据步骤802计算出的第二相似度，将第二相似度的值与预定阈值进行比较，判断第二相似度的值是否大于预定阈值，并将第二相似度的值大于预定阈值的文本行作为重复模式。本领域技术人员应当理解，上述预定阈值可以根据经验确定，也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

还是以上述左对齐相似度、右对齐相似度、词属性串的编辑距离和文本行与同一重复块中的相邻特征行之间的相对距离为例，例如可以将左偏移量S₁与第一预定阈值T₁’进行比较，并判断S₁是否大于T₁’；另外，例如可以将右偏移量S₂与第二预定阈值T₂’进行比较，并判断S₂是否大于T₂’；另外，例如可以将词属性串的编辑距离d_p与第四预定阈值T₃’进行比较，并判断d_p是否大于T₃’；以及，例如可以将文本行与同一重复块中的相邻特征行之间的相对距离d_tc与第四阈值T₄’进行比较，并判断d_tc是否大于T₄’。例如，当同时满足上述四个条件时，即满足((S₁＞T₁’)and(S₂＞T₂’)and(d_p＞T₃’)and(d_tc＞T₄’))时，确定该文本行为重复模式。本领域技术人员应该可以理解，可以不必同时满足上述四个条件，而是只要满足其中任意若干个条件，就可以确定所比较的文本行与特征行是相似的，只要其比较的准确度在可以接收的范围内即可。另外，本领域技术人员应当理解，上述各个预定阈值T₁’、T₂’、T₃’、T₄’可以根据经验确定，也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

以图9和图10为例，根据上述判断标准，例如各个重复块中所包括的特征行为重复模式。再例如，重复块1001中的文本行“000016632788”、重复块1002中的文本行“000016928160”和重复块1003中的文本行“000016822108”彼此之间也是相似的，因此也为重复模式。再例如，重复块1001中的文本行“Return Price 1 19.00”和重复块103中的文本行“Return Price 1 15.47”彼此之间也是相似的，因此也为重复模式。

接着，在步骤806，将具有最多重复模式的重复块作为代表重复块。

以图9和图10为例，重复块1001中具有3个重复模式，重复块1002具有2个重复模式，重复块1003具有3个重复模式，重复块1004具有1个重复模式，重复块1005具有1个重复模式。可见，重复块1001和重复块1003具有最多的重复模式，但是重复块1003中除重复模式外还具有非重复模式的文本行，而重复块1001中所包括的全部为重复模式。因此，将重复块1001作为代表重复块。

下面，结合图11A和图11B来详细说明根据本发明的一个实施例的对数据图像进行划分并利用重复块对收据图像进行聚类的处理的具体过程。图11A示出根据发明的一个实施例的对数据图像进行划分并利用重复块对收据图像进行聚类的处理的流程图；图11B是示出对数据图像进行划分所得到的各部分的示意图。

如图11A所示，在步骤1102，根据所得到的重复块将收据图像划分成头部、数据部和尾部，其中，数据部包括全部的重复块，头部为收据图像中位于数据部之前的部分，而尾部为收据图像中位于数据部之后的部分。

如图11B所示，数据部1112包括全部的重复块(对应于图10中的由重复块1001、1002、1003、1004和1005所组成的部分)，头部1110位于数据部1112之前，其包括诸如公司标识、公司地址等公司相关信息。尾部1114位于数据部1112之后，其包括诸如公司电话、公司邮箱等公司相关信息。

接着，在步骤1104，通过匹配头部和/或数据部中的各重复块，对收据图像进行聚类。

例如，可通过预先训练的数据库来对收据图像的头部进行匹配。由于收据图像的头部中的公司标识一般为艺术体格式，一般难以通过OCR技术来准确识别，因此在本发明中例如可使用标识图像匹配技术来识别公司标识中的公司名称。对于头部中的诸如公司电话、公司地址、公司邮箱等公司相关信息可以使用OCR识别技术来提取和识别。

根据本发明的一个优选实施例，例如可以用代表重复块进行数据部之间的匹配。由于代表重复块是包含重复模式最多的重复块，因此利用代表重复块进行数据部的匹配能够提高匹配效率。本领域技术人员应当理解，用代表重复块进行匹配仅是本发明的优选实施例，但本发明不限于此。例如，直接用数据部中的各个重复块进行匹配也能够实现数据部的匹配。

下面结合图12A来详细说明根据本发明的一个实施例的收据图像处理设备的配置。图12A示出根据本发明的一个实施例的收据图像处理设备的框图。

收据图像处理设备1200包括：检测装置1202，用于根据金额的特征信息检测收据图像中表示金额的金额数字；识别装置1204，用于根据金额数字来识别收据图像中包含金额数字的特征行；以及分组装置1206，用于基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。

需要指出的是，在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应，在此不再赘述。

图13示出根据本发明的一个实施例的检测装置的框图。如图13所示，在根据本实施例的收据图像处理设备的一个改进方案中，检测装置1202包括：切分装置1302，用于将收据图像切分成文本行和词；搜索装置1304，用于在各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字；以及确定装置1306，用于根据十进制数字与之前字符或词之间的距离，以及之前字符或词本身的属性，来确定金额数字。

图14示出根据本发明的一个实施例的识别装置的框图。如图14所示，在根据本实施例的收据图像处理设备的一个改进方案中，识别装置1204包括：第一相似度计算装置1402，用于以已经被识别出的特征行为参照，计算收据图像中的各个文本行与已经被识别出的特征行之间的第一相似度；阈值判断装置1404，用于将第一相似度大于预定阈值的文本行也识别为特征行；以及验证装置1406，用于根据所述金额数字在所述特征行与文本行中的位置对应信息对所述第一相似度进行验证。

图15示出根据本发明的一个实施例的分组装置的框图。如图15所示，在根据本实施例的收据图像处理设备的一个改进方案中，分组装置1206包括：第二相似度计算装置1502，用于分别计算所述重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度；重复模式确定装置1504，用于将所述第二相似度大于预定阈值的文本行作为重复模式；以及代表重复块确定装置1506，用于将具有最多重复模式的重复块作为代表重复块。

图12B示出根据本发明的另一实施例的收据图像处理设备1200’的框图。如图12B所示，收据图像处理设备1200’包括：检测装置1202，用于根据金额的特征信息检测收据图像中表示金额的金额数字；识别装置1204，用于根据金额数字来识别收据图像中包含金额数字的特征行；分组装置1206，用于基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中；划分装置1208，用于根据所得到的重复块将所述收据图像划分成头部、数据部和尾部，其中，所述数据部包括全部的所述重复块，所述头部为所述收据图像中位于所述数据部之前的部分，而所述尾部为所述收据图像中位于所述数据部之后的部分；以及聚类装置1210，用于通过匹配所述头部和/或所述数据部中的各重复块，对所述收据图像进行聚类。

上述图12至图15中的各个装置例如可以被配置成按照相应方法中的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。

本领域技术人员理解，在上面描述的根据本发明各实施例的收据图像处理方法中的各步骤或者收据图像处理装置中的各功能装置，可以根据实际需要进行任意的组合，即，一个收据图像处理方法实施例中的处理步骤可以与其它收据图像处理方法实施例中的处理步骤进行组合，或者，一个收据图像处理设备实施例中的功能装置可以与其它收据图像处理设备实施例中的功能装置进行组合，以便实现所期望的技术目的。

此外，本申请的实施例还提出了一种多媒体终端设备，其包括上述根据本发明的实施例的收据图像处理设备及其改进方案。

此外，本申请的实施例还提出了一种程序产品，该程序产品承载机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如根据上述本发明的实施例的收据图像处理方法。

此外，本申请的实施例还提出了一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如根据上述本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

根据本发明的实施例的收据图像处理设备及其个组成部件可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的信息处理设备(例如图16所示的通用计算机1600)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图16中，中央处理单元(CPU)1601根据只读存储器(ROM)1602中存储的程序或从存储部分1608加载到随机存取存储器(RAM)1603的程序执行各种处理。在RAM 1603中，也根据需要存储当CPU 1601执行各种处理等等时所需的数据。CPU 1601、ROM 1602和RAM 1603经由总线1604彼此连接。输入/输出接口1605也连接到总线1604。

下述部件连接到输入/输出接口1605：输入部分1606(包括键盘、鼠标等等)、输出部分1607(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1608(包括硬盘等)、通信部分1609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1609经由网络比如因特网执行通信处理。根据需要，驱动器1610也可连接到输入/输出接口1605。可拆卸介质1611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1610上，使得从中读出的计算机程序根据需要被安装到存储部分1608中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1611安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图16所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1611。可拆卸介质1611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1602、存储部分1608中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。再者，由措辞“第一”，“第二”，“第三”等等限定的技术特征或者参数，并不因为这些措辞的使用而具有特定的顺序或者优先级或者重要性程度。换句话说，这些措辞的使用只是为了区分或识别这些技术特征或者参数而没有任何其他的限定含义。

通过以上的描述不难看出，本发明的实施例提供的技术方案包括但不限于：

附记1.一种收据图像处理方法，包括：

根据金额的特征信息检测所述收据图像中表示所述金额的金额数字；

根据所述金额数字来识别所述收据图像中包含所述金额数字的特征行；以及

基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。

附记2.根据附记1所述的方法，其中，所述检测包括：

将所述收据图像切分成文本行和词；

在所述各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字；以及

根据所述十进制数字与之前字符或词之间的距离，以及所述之前字符或词本身的属性，来确定所述金额数字。

附记3.根据附记1所述的方法，其中，所述识别包括：

以已经被识别出的特征行为参照，计算所述收据图像中的各个文本行与所述已经被识别出的特征行之间的第一相似度；以及

将所述第一相似度的值大于预定阈值的文本行也识别为特征行。

附记4.根据附记3所述的方法，其中，所述第一相似度为各个文本行与所述特征行之间的左对齐相似度、右对齐相似度、尺寸相似度和词属性串的编辑距离。

附记5.根据附记4所述的方法，其中，还根据所述金额数字在所述特征行与文本行中的位置对应信息对所述第一相似度进行验证。

附记6.根据附记1所述的方法，其中，所述分组包括：

分别以所述特征行为边界，将所述特征行以及位于所述特征行与其之后最邻近的特征行之间的各个文本行，分组到同一重复块中。

附记7.根据附记1所述的方法，其中，所述分组包括：

分别计算所述重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度；

将所述第二相似度大于预定阈值的文本行作为重复模式；以及

将具有最多重复模式的重复块作为代表重复块。

附记8.根据附记7所述的方法，其中，所述第二相似度包括各个文本行各个文本行之间的左对齐相似度、右对齐相似度、词属性串的编辑距离、以及各个文本行与其之前最邻近的特征行之间的相对位置的相似度。

附记9.根据附记1-8中任一项所述的方法，还包括：

根据所得到的重复块将所述收据图像划分成头部、数据部和尾部，其中，所述数据部包括全部的所述重复块，所述头部为所述收据图像中位于所述数据部之前的部分，而所述尾部为所述收据图像中位于所述数据部之后的部分；以及

通过匹配所述头部和/或所述数据部中的各重复块，对所述收据图像进行聚类。

附记10.根据附记9所述的方法，其中，用所述代表重复块进行所述数据部之间的匹配。

附记11.一种收据图像处理设备，包括：

检测装置，用于根据金额的特征信息检测所述收据图像中表示所述金额的金额数字；

识别装置，用于根据所述金额数字来识别所述收据图像中包含所述金额数字的特征行；以及

分组装置，用于基于所述特征行的位置分布，分别将所述收据图像中的各个文本行分组到彼此之间相似的若干重复块中。

附记12.根据附记11所述的设备，其中，所述检测装置包括：

切分装置，用于将所述收据图像切分成文本行和词；

搜索装置，用于在所述各个文本行的右对齐位置搜索最后两位或倒数第二、三位字符为两个连续数字的十进制数字；以及

确定装置，用于根据所述十进制数字与之前字符或词之间的距离，以及所述之前字符或词本身的属性，来确定所述金额数字。

附记13.根据附记11所述的设备，其中，所述识别装置包括：

第一相似度计算装置，用于以已经被识别出的特征行为参照，计算所述收据图像中的各个文本行与所述已经被识别出的特征行之间的第一相似度；以及

阈值判断装置，将所述第一相似度的值大于预定阈值的文本行也识别为特征行。

附记14.根据附记13所述的设备，其中，所述第一相似度为所述特征行之间的左对齐相似度、右对齐相似度、尺寸相似度和词属性串的编辑距离。

附记15.根据附记14所述的设备，其中，所述识别装置还包括：

验证装置，用于根据所述金额数字在所述特征行与文本行中的位置对应信息对所述第一相似度进行验证。

附记16.根据附记11所述的设备，其中，所述分组装置用于：

附记17.根据附记11所述的设备，所述分组装置包括：

第二相似度计算装置，用于分别计算所述重复块中除特征行以外的各个文本行与其它重复块中除特征行以外的各个文本行之间的第二相似度；

重复模式确定装置，用于将所述第二相似度大于预定阈值的文本行作为重复模式；以及

代表重复块确定装置，用于将具有最多重复模式的重复块作为代表重复块。

附记18.根据附记17所述的设备，其中，所述第二相似度包括各个文本行各个文本行之间的左对齐相似度、右对齐相似度、词属性串的编辑距离、以及各个文本行与其之前最邻近的特征行之间的相对位置的相似度。

附记19.根据附记11-18中任一项所述的设备，还包括：

划分装置，用于根据所得到的重复块将所述收据图像划分成头部、数据部和尾部，其中，所述数据部包括全部的所述重复块，所述头部为所述收据图像中位于所述数据部之前的部分，而所述尾部为所述收据图像中位于所述数据部之后的部分；以及

聚类装置，用于通过匹配所述头部和/或所述数据部中的各重复块，对所述收据图像进行聚类。

附记20.根据附记19所述的设备，其中，用所述代表重复块进行所述数据部之间的匹配。

附记21、一种从收据图像中提取关键信息的方法，包括：

采用附记1-10中任一项所述的收据图像处理方法获得所述收据图像的各重复块；以及

从所述各重复块中提取所述关键信息。

附记22.一种从收据图像中提取关键信息的设备，包括：

用于采用附记11-20中任一项所述的收据图像处理设备获得所述收据图像的各重复块的装置；以及

用于从所述各重复块中提取所述关键信息的装置。

附记23.一种程序产品，该程序产品承载机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如附记1-10中任一项所述的收据图像处理方法。

附记24.一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如附记1-10中任一项所述的收据图像处理方法。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等同含义来限定。

Claims

1.一种收据图像处理方法，包括：

2.根据权利要求1所述的方法，其中，所述检测包括：

将所述收据图像切分成文本行和词；

3.根据权利要求1所述的方法，其中，所述识别包括：

4.根据权利要求1所述的方法，其中，所述分组包括：

5.根据权利要求1所述的方法，其中，所述分组包括：

将具有最多重复模式的重复块作为代表重复块。

6.一种收据图像处理设备，包括：

7.根据权利要求6所述的设备，其中，所述检测装置包括：

切分装置，用于将所述收据图像切分成文本行和词；

8.根据权利要求6所述的设备，其中，所述识别装置包括：

阈值判断装置，将所述第一相似度大于预定阈值的文本行也识别为特征行。

9.根据权利要求6所述的设备，其中，所述分组装置用于：

10.根据权利要求6所述的设备，其中，所述分组装置包括：