CN102855264A

CN102855264A - 文档处理方法及其装置

Info

Publication number: CN102855264A
Application number: CN2011101925773A
Authority: CN
Inventors: 常兰兰; 孙俊; 何源; 于浩; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-07-01
Filing date: 2011-07-01
Publication date: 2013-01-02
Anticipated expiration: 2031-07-01
Also published as: CN102855264B

Abstract

本申请涉及文档处理方法及其装置，其中对于多个输入的文档图像中的每个文档图像：检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

Description

文档处理方法及其装置

技术领域

本申请总体上涉及图像处理的领域，更具体而言，涉及一种文档处理方法及其装置。

背景技术

文档标题通常隐含了文档的主题，对于分析、理解以及管理文档有重要意义。在文档系统中，通常将具有相同标题的文档划归一类文档。在传统方法中，通常提供了一种根据人工生成的模板来定位标题的位置和内容，从而对文档分类，然而此方法并不适合应用于大规模数据处理。此外，现有技术中还存在一种基于OCR识别的文档分类方法，其首先借助OCR识别检测文档的标题字符串并且基于所识别的文档标题对文档进行分类，然而此方法应用领域单一，并不适于包含多种标题的文档。

发明内容

在下文中将给出关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

根据本申请的实施例，在对文档进行处理时，对于多个输入的文档图像中的每个文档图像：检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

这样，通过上述文档处理，能够实现从对文档中每个文档图像提取标题候选。基于所提出的标题候选，对所述多个文档图像获得的标题候选进行聚类，从而得到具有同类标题的文档分类。由此，显著缩减了文档处理的耗时。而且，基于上述文档处理，能够实现对大规模文档进行处理，尤其是分类和归档。

根据本申请的实施例还提出了一种文档处理装置，其包括：检测单元，其配置成对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像，其中所述初始关键字符是所述多个文档图像的标题中的关键字符；提取单元，其配置成针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；选择单元，其配置成计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；聚类单元，其配置成基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。借助该文档处理装置，显著缩减了文档处理的耗时。而且借助该文档处理装置，能够实现对大规模文档进行处理，尤其是分类和归档。

附图说明

本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解，其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分，而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中：

图1示出了根据本发明的一个实施例的文档处理方法的流程图，

图2示出了根据本发明的另一实施例的文档处理方法的流程图，

图3示出了图2所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图，

图4示出了根据本发明的另一实施例的文档处理方法的流程图，

图5示出了图4所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图，

图6示出了根据本发明的另一实施例的文档处理方法的流程图，

图7示出了图6所示的根据本发明的实施例的文档处理方法的一个改进方案的流程图，

图8a示出了根据本发明的一个实施例的文档处理方法的实例，

图8b示出了图8a中所示的文档的实例，

图9示出了根据本发明的一个实施例的文档处理装置的示意性结构图；

图10示出了根据本发明的另一实施例的文档处理装置示意性结构图；以及

图11示出了可用于作为实施根据本发明的实施例的信息处理设备的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定，以便实现开发人员的具体目标，并且这些决定可能会随着实施方式的不同而有所改变。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构，而省略了与本发明关系不大的其他细节。

第一实施例

图1示出了根据本发明的一个实施例的文档处理方法的流程图100。经统计，大量存在的常用文档标题通常具有共同关键字符，如“书”、“表”、“单”、“票”、“据”等等。在进行文档处理时，尤其是在提取文档标题时，上述这类共同关键字符非常适于作为初始关键字符。当然，在针对特定文档进行处理时，还可能涉及其他特定的关键字符。在此情况下也可以由用户预先给定初始关键字符或者通过一定的学习而获得特定的关键字符。由于本发明并不涉及对特定的关键字符的获取的方法的改进，故在此不再赘述。

另外还需说明的是，在此仅仅以汉语文字为例来说明根据本发明的实施例的文档处理方法的说明。鉴于中日韩三国文字上的相似性，根据本发明的实施例的文档处理方法同样也适用于韩文或日文编辑的文档以及未在此提及且适于本发明的方法处理的象形文字编辑的文档。出于简洁目的，在此以及在下文中并未针对日文和韩文而逐一举例说明。

在借助根据本发明的实施例的文档处理方法对文档进行处理时，如图1所示，该方法在步骤S110开始。

在步骤S120，对于多个输入的文档图像中的每个文档图像，检测与初始关键字符相匹配的初始关键字符图像。初始关键字符是多个文档图像的标题中的关键字符。该初始关键字符可以根据统计来确定，也可以根据待处理的文档的特点由用户输入特定的关键字符，或者也可以基于学习来确定。多个输入的文档图像可以是已经存在于电子文档中的文档图像，也可以根据应用需要而输入的文档图像。在此还需说明的是，初始关键字符图像可能包含单个字符也可能包含多个字符，即字符串。在此和在下文中出于描述的简洁仅就初始关键字符图像为单个字符的情况予以充分描述。对于关键字符串的情况处理是类似的。

由于文档来源各异，文档标题在编排(字形、字体、大小、各字符间的间距)往往差异巨大。例如，在相同文档标题的多个文档中可能存在以宋体印刷的关键字符，也可能存在以楷体印刷的关键字符，又或者文档标题之间间隔或大小不一样等等，所以“与初始关键字符相匹配”在此应理解为：与初始关键字符在编排上(例如大小、形状等)具有一定的相似性，而非严格的完全相同。这种匹配也可能基于对初始关键字符进行一定的放缩。同时，在同一文档中也可能检测到多个与初始关键字符相匹配的初始关键字符图像。这些初始关键字符图像可能位于同一文档中的不同部位中。在执行步骤S120检测与初始关键字符相匹配的初始关键字符图像，并不仅仅获取初始关键字符图像，而是还获取初始关键字符图像在文档图像中的位置、其大小等等信息，以便后续进一步处理。在此，初始关键字符图像在文档图像中的位置应理解为相对位置，例如处于文档图像中哪一个行或哪一列，距文档图像垂直中心线的距离等等。这些信息获取越多，在进行后续步骤时能够得到更为精确且可靠的结果。

在步骤S130，针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像。初始关键字符图像与相邻字符图像构成准标题区域。文档通常以横向或竖向方式书写，基于图像连通性可以容易地识别出文档的字符是横向印刷还是竖向印刷。由此，以在步骤S120所检测到的关键字符图像为中心，在横向印刷的情况下在步骤130中提取该初始关键字符图像相邻的至少一个字符图像可以在初始关键字符右边两侧，而在竖向印刷的情况下，则在初始关键字符上下两侧。一般而言，文档标题处于文档图像中比较突出的位置。例如，在横向印刷的文档图像中，文档标题会出现在文档页面首行居中或者两侧对齐的位置中。在此情况下，完整的文档标题左右两侧通常并无其他字符。同样地，在竖向印刷的文档图像中，文档标题会出现在文档页面右侧起始行或左侧起始行上部、居中或者下部的位置中，同样完整的文档标题上下两侧也无其他字符。在此情况下，可以根据处于特定位置上的可能的文档标题来确定所需提取的与初始关键字符图像相邻的字符图像数目。也可以根据特定应用而预先给定所需提取的与初始关键字符图像相邻的字符图像数目。而且，所选择的相邻字符图像的数目越多，则文档处理也越精确。

为了使后续处理获得的结果更为精确，在步骤S130检测相邻字符图像时还可以一同获得相邻字符图像在文档图像中的位置信息、与关键字符图像的相对距离以及相邻字符图像的大小和字体等等的信息。

在步骤S140，计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选。所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性。利用文档标题通常处于文档页面中比较特定的位置这一规律，可以计算准标题区域为实际标题的置信度，即准标题区域是实际标题的概率的大小。该概率的大小取决于准标题区域在文档中的位置、其大小、长宽比和字体等等。在下文中将结合附图来详细地描述相邻字符图像的置信度值的计算和选择的一个具体示例。

需要指出的是：在本申请的上下文中所提及的“标题候选”仅仅是为了与实际标题区分而采取的命名，其本身并未任何限制性含义。

在步骤S150，基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。简言之，根据在步骤S140中确定的各个文档的标题候选对文档进行分类并且由此进行归档。

这样，实现了基于自动提取到文档标题而对文档进行分类和归档。由此极大地减小了文档处理的耗时。另外，由于该文档处理能够自动地执行，因此还能够实现对大规模文档处理。

第二实施例

图2示出了根据本发明的另一实施例的文档处理方法的流程图200。

在步骤S210，该文档处理方法开始。经步骤S220、S230和S240从多个输入的文档图像中的每个文档图像分别获得标题候选。基于所获得的标题候选，标题候选进行聚类S250还包括：在步骤S251，针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选中的初始关键字符之间的相似性，计算所述任意两个文档图像之间的标题相似性。

具体而言，一个文档图像与另一文档图像之间的标题相似性一方面取决于该文档图像的标题候选与另一文档图像的标题候选中的初始关键字符图像在各自文档图像中的位置之间的相似性，另一方面取决于该文档图像的标题候选与该另一文档图像的标题候选的初始关键字符之间的相似性。基于这两方面的相似性，可以准确地确定文档的标题相似性。

标题候选进行聚类S250还包括：在步骤S252，将彼此之间具有大于或等于第一预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。具体而言，将标题相似性在一定范围的文档图像视为同类标题文档，并且将这些文档图像划分成同类标题文档分类。在此，第一预定阈值理解为文档的标题在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第一预定阈值可以根据经验确定。此外，该第一预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

在图2所示的实施例中，步骤S220、S230和S240例如可以采取分别与图1所示的步骤S120、S130和S140相同或者类似的方法来执行，因此在此不再赘述。

在本实施例的文档处理方法的另一改进方案中，如图3所示，经过步骤S320、S330、S340、S351、S352从各个文档中获得同类标题的文档分类之后，在步骤S353，在具有同类标题的文档分类中，基于该文档分类中的文档图像之间的标题相似性确定中心标题候选，其中所述中心标题候选是所述文档分类中的任一文档图像与其他文档图像之间的标题相似性之和最高的文档图像的标题候选。也就是说，确定一个能够表征该文档分类的标题。

在步骤S354，将所述中心标题候选与该文档分类中的其他文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性小于第三预定阈值的文档图像排除出在该文档分类。根据所确定的中心标题候选，对该文档分类重新进行比较，从而排除相似性小于第三预定阈值的文档。由此，进一步提高文档分类的精度。在此，第三预定阈值理解为中心标题候选以及其他文档图像的标题候选在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第三预定阈值可以根据经验确定。此外，该第三预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

在步骤S355，将所述中心标题候选与该文档分类之外的文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性大于或等于第四预定阈值的文档图像划入该文档分类。所述第四预定阈值大于或等于所述第三预定阈值。由此，能够提高该文档分类的准确度。在此第四预定阈值理解为中心标题候选在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第四预定阈值可以根据经验确定。此外，该第四预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

上述步骤S354的处理相当于是对已经被归为具有同类标题的文档的标题图像进行相互校验，以便将误归于同类的文档(即，实际上并不具有同类标题的文档)排除出此类，或者也可以借此处理，识别出由于外力(例如打孔等)而毁损的文档标题。显然，这样的处理进一步提高了文档标题提取和管理的效率以及精度。

上述步骤S355的处理可以识别出先前处理中遗漏的、具有同类标题的文档，由此也可进一步提高文档标题提取和管理的效率以及精度。

虽然在图3中同时包括了上述步骤S354和S355的处理，但是容易理解的是，这两个步骤的处理既可以都进行，也可以根据实际情况择一地进行，并且无论何种方式都能够改善文档标题提取和管理的效率和精度。

在图3所示的实施例中，步骤S320、S330和S340例如可以采取分别与图1所示的步骤S120、S130和S140以及图2所示的步骤S220、S230和S240中相同或者类似的方法来执行，因此在此不再赘述。

第三实施例

图4示出了根据本发明的另一实施例的文档处理方法的流程图400。

经步骤S420、S430、S440从各个文档获取到各个文档图像的标题候选之后，在步骤S450，识别与每个标题候选中的相邻字符图像相对应的字符作为该标题候选的相邻字符，其中相邻字符和对应于所述标题候选的初始关键字符构成标题候选字符。该识别可以基于现有技术中已知的OCR识别技术来进行。识别技术并不涉及本申请的对现有技术的改进。在此不再赘述。对相邻字符图像进行识别以确定对应字符在国际字符编码中的相应编码。

在步骤S461，针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性。初始关键字符图像在各自文档图像中的位置之间的相似性。通过OCR识别获得标题候选对应的字符，即其各个字符对应的编码，因此该文档图像的标题候选与该另一文档图像的标题候选的构成字符之间的相似性取决于标题候选的各个字符的编码的匹配性。结合初始关键字符图像在各自文档图像中的位置以及对标题候选的构成字符之间的相似性可以更为精确地计算其中一个文档与另一文档的标题相似性。

在步骤S462，将彼此之间具有大于或等于第二预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。在此第二预定阈值取决于标题的各个字符在编码、大小、各字符间的间距以及在文档图像中所处的位置的间距以及在文档图像中所处的位置方面的综合评价。该第二预定阈值可以根据经验确定。此外，该第二预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

在图4所示的实施例中，步骤S420、S430、S440例如可以采取分别与图1所示的步骤S120、S130、S140、图2所示的步骤S220、S230、S240和图3所示的步骤S320、S330、S340相同或者类似的方法来执行，因此在此不再赘述。

在本实施例的文档处理方法的另一改进方案中，如图5所示，经步骤S520、S530、S540、S550、S561、S562获得同类标题的文档分类之后，在步骤S653，在具有同类标题的文档分类中，基于该文档分类中的文档图像之间的标题相似性确定中心标题候选，其中所述中心标题候选是所述文档分类中的任一文档图像与其他文档图像之间的标题相似性之和最高的文档图像的标题候选。也就是说，确定一个能够表征该文档分类的标题。

在步骤S564，将所述中心标题候选与该文档分类中的其他文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性小于第三预定阈值的文档图像排除出在该文档分类。根据所确定的中心标题候选，对该文档分类重新进行比较，从而排除相似性小于第三预定阈值的文档，从而进一步提高文档分类的精度。在此第三预定阈值理解为中心标题候选在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第三预定阈值可以根据经验确定。此外，该第三预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

在步骤S565，将所述中心标题候选与该文档分类之外的文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性大于或等于第四预定阈值的文档图像划入该文档分类。所述第四预定阈值大于或等于所述第三预定阈值。由此，能够进一步避免该文档分类的遗漏。在此第四预定阈值理解为中心标题候选在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第四预定阈值可以根据经验确定。此外，该第四预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。

上述步骤S563的处理相当于是对已经被归为具有同类标题的文档的标题图像进行相互校验，以便将误归于同类的文档(即，实际上并不具有同类标题的文档)排除出此类，或者也可以借此处理，识别出由于外力(例如打孔等)而毁损的文档标题。显然，这样的处理进一步提高了文档标题提取和管理的效率以及精度。

上述步骤S565的处理可以识别出先前处理中遗漏的、具有同类标题的文档，由此也可进一步提高文档标题提取和管理的效率以及精度。

虽然在图5中同时包括了上述步骤S564和S565的处理，但是容易理解的是，这两个步骤的处理既可以都进行，也可以根据实际情况择一地进行，并且无论何种方式都能够改善文档标题提取和管理的效率和精度。

在图5所示的实施例中，步骤S520、S530、S540、S550、S561、S562例如可以采取分别与图4所示的步骤S420、S430、S440、S450、S461、S462相同或者类似的方法来执行，因此在此不再赘述。

第四实施例

图6示出了根据本发明的另一实施例的文档处理方法的流程图600。

经步骤S620、S630、S640、S650从文档图像获得具有同类标题的文档分类之后，在步骤S650，从具有同类标题的文档分类中的各标题候选中选择有代表性的标题候选作为标题模板。换言之，将获得的典型标题候选模板化。其中，选择有代表性的候选标题候选作为模板例如可以利用上述在图3和图5中分别示出的在具有同类标题的文档分类中生成中心标题候选的处理来实现。

在步骤S660，对于不同于所述多个文档图像的文档图像，将与所述标题模板的相似程度大于或等于第五预定阈值的图像区域所属的文档图像划入该文档分类。由此，可以进一步简化文档处理并且提高文档处理精度。同时，还提高了文档处理的效率。该实施例尤其适于针对特定文档的大规模处理。在此第五预定阈值理解为标题模板以及待被比较相似程度的图像区域在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第五预定阈值可以根据经验确定。此外，该第五预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整，以达到较高的精度且计算开销适当的良好折衷。相似程度的具体比较方法可利用各种已知的方法，例如可以借助Hanchuan Pen，Fuhui Long，Zheru，Chi以及Wan-chi Siu的“Document image template matchingbased on component block list”(Pattern Recognition Letters第22卷，第9期、2001年7月，第1033-1042页)所描述的比较方法。当然，本申请并不排除其他现有技术中的比较方法。

在图6所示的实施例中，步骤S610、S620、S630、S640例如可以采取分别与图1至图5中所示的各相应步骤相同或者类似的方法来获得具有同类标题的文档分类，因此在此不再赘述。

对图6中的实施例的文档处理方法的另一改进方案，如图7所示，在步骤S770，对于不同于所述多个文档图像的文档图像，将其中未识别出与该文档分类的各标题候选相对应的初始关键字符、但是识别出与所述标题模板之间的相似程度大于或等于第六预定阈值的图像区域的文档图像划入该文档分类。在此第六预定阈值理解为模板以及待被比较相似程度的图像区域在字形、字体、大小、各字符间的间距以及在文档图像中所处的位置方面的综合评价。该第六预定阈值可以根据经验确定。此外，该第六预定阈值也可以由用户预先给定，或者可以根据学习过程由用户动态地调整。从而降低了文档的不可分类率。相似程度的具体比较方法可利用各种已知的方法，例如可以借助Hanchuan Pen，Fuhui Long，Zheru，Chi以及Wan-chi Siu的“Document image template matching based on componentblock list”(Pattern Recognition Letters第22卷，第9期、2001年7月，第1033-1042页)所描述的比较方法。当然，本申请并不排除其他现有技术中的比较方法。

在图7所示的实施例中，步骤S720、S730、S740例如可以采取分别与图1至图6中所示的相应各步骤相同或者类似的方法来获得具有同类标题的文档分类，因此在此不再赘述。

另外还需说明的是，由于中文存繁简两种形式，在对包含简体和繁体编辑的混合文档进行识别时，一种方式是将含义相同但分别用简体和简体编辑的文档视为不同并且加以分类，以上各个实施例所描述的方法均能实现，在此不再赘述。另一方式是将含义相同但分别用简体和简体编辑的文档视为相同文档。在此情况下，利用简体字符和繁体字符的编码对应关系，将其归类同一类文档。

以下以具体实例来阐述上述实施例可能的具体实现方式：

第一实例：图8a示出了根据本发明的一个实施例的文档处理方法的具体实例的示意图。

多个待处理的文档标题示例性地包括：楷体印刷的标题为

的文档1、宋体印刷的标题为

的文档2、宋体印刷的标题为

的文档3以及宋体印刷的标题为

的文档4等等。根据经验或者用户预先确定，可将在该文档图像中的

或作为文档关键字符。文档图像经配准，首先检测与初始关键字符相匹配的初始关键字符图像，如图8a中通过包围字符图像

和

的框所示。随后，提取与该初始关键字符图像相邻的至少一个字符图像，即文档1中的字符图像

、文档2中的字符图像

、文档3中的字符图像

以及文档4中的字符图像

等等，如均通过图8a中包围各个字符图像的框所示。提取到的相邻的至少一个字符图像作为该关键字符图像的相邻字符图像。

根据C＝S^aD_n ^bD_h ^cK^d来计算准标题区域的置信度值，其中C为所述置信度值，S为所述相邻字符图像和相对应的初始关键字符图像的平均尺寸，D_n为准标题区域的水平中心与该文档图像的水平中心之间的距离同该文档图像的宽度之比，D_h为所述准标题区域的上边缘与该文档图像的上边缘之间的距离同该文档图像的长度之比，K为所述初始关键字符图像与所述初始关键字符之间的匹配程度，a、b、c、d分别是S、D_n、D_h、K的预设的权重。a、b、c、d可以根据经验来确定或由用户基于一定的尝试动态地调整。如图8b所示，F1表示标题图像的水平中心线，F2表示标题图像的垂直中心线并且F3表示文档图像的垂直中心线。S、D_n、D_h可以根据如下式确定：

S = Σ_{i = 1}^{N} (w_{i} + h_{i}) / (2 * N),

D_n＝1-D_ch/W，

D_h＝1-D_tv/H，

其中w是初始关键字符图像的宽度，h是初始关键字符图像的高度，N为文档数目；

D_ch是所述相邻字符图像的准标题区域的水平中心与该文档图像的水平中心之间的距离，D_tv是所述准标题区域的上边缘与该文档图像的上边缘之间的距离，以及W是文档图像宽度以及H是文档图像高度。尤其是在OCR识别的情况下，K为OCR识别的准确度。OCR识别的准确度例如可以参考Mohamed Cheriet，Nawwaf Kharma，Cheng-Lin Liu，Ching Suen的“Character Recognition Systems：A Guide for Students andPractitioners”(2007年10月由Wiley出版)以及H.Bunke和P.S.P.Wang的“Handbook of Character Recognition and Document Image Analysis”(2007年由World Scientific Publishing出版(新加坡))。

根据置信度值的计算结果，选择具有最高的置信度值的相邻字符图像的准标题区域作为该文档图像的标题候选，即文档1中的标题候选

、文档2中的标题候选

、文档3中的标题候选

、文档4中的标题候选

等等。根据所获得的标题候选将从所述多个文档图像获得的标题候选进行聚类，由此将文档1和文档2归为一类，而文档3和文档4分别划归为一类。聚类可以通过各种现有的合适方法来实现，例如可以可以借助Rui Xu，Donald Wunsch的“Survey of ClusteringAlgorithms”(2005年5月第3期第16卷，IEEE Transactions on NeuralNetwork)所描述的聚类方法。当然，本申请并不排除其他现有技术中的聚类方法。需要说明的是：出于清楚的原因在此仅以此四个文档为例进行了简要描述，本发明并不限于此。更确切地说，本发明可以应用于大规模文档处理，并且尤其是适于包含多种文档标题的文档的分类。

第二实例：仍以图8a-8b所示的待处理的文档：楷体印刷的标题为

的文档1、宋体印刷的标题为

的文档2、宋体印刷的标题为

的文档3以及宋体印刷的标题为

的文档4等等为例。将在该文档图像中的

和

作为文档关键字符。首先检测与初始关键字符相匹配的初始关键字符图像。随后，提取与该初始关键字符图像相邻的至少一个字符图像，即文档1中的字符

、文档2中的字符

、文档3中的字符

以及文档4中的字符

等等。提取到的相邻的至少一个字符图像作为该关键字符图像的相邻字符图像。随后，通过OCR识别与每个标题候选中的相邻字符图像相对应的字符，作为该标题候选的相邻字符，即文档1中的相邻字符为、文档2中的相邻字符为

、文档3中的相邻字符为

以及文档4中的相邻字符为

，由于经过OCR识别，所以此时相邻字符在编辑字体上并无差异。文档1和文档2尽管字体存在差异但OCR所识别的字符编码相同并且其标题候选中的初始关键字符图像在各自文档图像中的位置之间相同，因此相似性大于或等于第二预定阈值，从而将文档1和文档2划分为同类标题的文档分类。而文档1-2与文档3和4之间以及文档3与文档4之间所计算的相似性达不到第二预定阈值，因此将文档3和文档4分别划分为一类。

第五实施例

图9示出了根据本发明的一个实施例的文档处理装置900的示意性结构图。文档处理装置900包括：检测单元910，其配置成对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像，其中所述初始关键字符是所述多个文档图像的标题中的关键字符；提取单元920，其配置成针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；选择单元930，其配置成计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；聚类单元940，其配置成基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

需要指出的是，在与装置有关的实施例中所涉及的相关术语或表述与以上对根据本发明的实施例的方法的实施例阐述中所使用的术语或表述对应，在此不再赘述。

在根据本实施例的文档处理装置的一个改进方案中，聚类单元还包括：相似性计算子单元，其配置成针对所述多个输入的文档图像中的其他两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及分类子单元，其配置成将彼此之间具有大于或等于第二预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。

在根据本实施例的文档处理装置的一个改进方案中，该聚类单元还包括：中心标题候选确定子单元，其被配置成在具有同类标题的文档分类中，基于该文档分类中的文档图像之间的标题相似性确定中心标题候选，其中所述中心标题候选是所述文档分类中的任一文档图像与其他文档图像之间的标题相似性之和最高的文档图像的标题候选；误分类文档排除子单元，其被配置成将所述中心标题候选与该文档分类中的其他文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性小于第三预定阈值的文档图像排除出在该文档分类；以及遗漏文档补充子单元，其被配置成将所述中心标题候选与该文档分类之外的文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性大于或等于第四预定阈值的文档图像划入该文档分类，所述第四预定阈值大于等于所述第三预定阈值。

在根据本实施例的文档处理装置的一个改进方案中，该文档处理装置还包括：模板化单元，其配置成从具有同类标题的文档分类中的各标题候选中选择有代表性的标题候选作为标题模板；以及划分单元，其配置成对于不同于所述多个文档图像的文档图像，将与所述标题模板的相似程度大于或等于第五预定阈值的图像区域所属的文档图像划入该文档分类。在此所提及的“第五预定阈值”的含义与根据本发明的方法的实施例的阐述中所提及的“第五预定阈值”相同或者类似，在此不再赘述。

在根据本实施例的文档处理装置的一个改进方案中，该文档处理装置还包括：再划分单元，其配置成：对于不同于所述多个文档图像的文档图像，将其中未识别出与该文档分类的各标题候选相对应的初始关键字符、但是识别出与所述标题模板之间的相似程度大于或等于第六预定阈值的图像区域的文档图像划入该文档分类。在此所提及的“第六预定阈值”的含义与根据本发明的方法的实施例的阐述中所提及的“第六预定阈值”相同或者类似，在此不再赘述。

在根据本实施例的文档处理装置的一个改进方案中，选择单元930包括置信度值计算子单元，该置信度值计算子单元根据如下式子来计算置信度值：

C＝S^aD_n ^bD_h ^cK^d，

其中C为所述置信度值，S为所述相邻字符图像和相对应的初始关键字符图像的平均尺寸，D_n为由所述准标题区域的水平中心与该文档图像的水平中心之间的距离与该文档图像的宽度之比，D_h为所述准标题区域的上边缘与该文档图像的上边缘之间的距离与该文档图像的长度之比，K为所述初始关键字符图像与所述初始关键字符之间的匹配程度，a、b、c、d分别是S、D_n、D_h、K的预设的权重。在此所提及的各参数的含义及其计算与根据本发明的方法的实施例的阐述中所提及的各个参数的含义及其计算相同或者类似，在此不再赘述。

上述图9中的检测单元910、提取单元920、选择单元930和聚类单元940例如可以被配置成按照上述图1-3中所示的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。

第六实施例

图10示出了根据本发明的另一实施例的文档处理装置1000的示意性结构图。该文档处理装置1000除了包括检测单元1010、提取单元1020、选择单元1030和聚类单元1050之外包括识别单元1040。该识别单元配置成识别与每个标题候选中的相邻字符图像相对应的字符作为该标题候选的相邻字符，其中相邻字符和对应于所述标题候选的初始关键字符构成标题候选字符。该聚类单元1050包括：相似性计算子单元1052，其配置成针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及分类子单元1054，其配置成将彼此之间具有大于或等于第二预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。在此所提及的“第二预定阈值”的含义与根据本发明的方法的实施例的阐述中所提及的“第二预定阈值”相同或者类似，在此不再赘述。

上述图10中的检测单元1010、提取单元1020、选择单元1030、识别单元1040和聚类单元1050例如可以配置成按上述图4中所示的相应步骤的工作方式来操作。细节参见上述针对根据本申请的实施例的方法所阐述的实施例。在此不再赘述。

本领域技术人员理解，在上面描述的根据本发明各实施例的文档处理方法中的各步骤或者文档处理装置中的各功能单元，可以根据实际需要进行任意的组合，即，一个文档处理方法实施例中的处理步骤可以与其他文档处理方法实施例中的处理步骤进行组合，或者，一个文档处理装置实施例中的功能单元可以与其他文档处理装置实施例中的功能单元进行组合，以便实现所期望的技术目的。

此外，本申请的实施例还提出了一种多媒体终端设备，其包括上述根据本发明的实施例的文档处理装置及其改进方案。

此外，本申请的实施例还提出了一种程序产品，该程序产品承载机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如根据上述本发明的实施例的文档处理方法。

此外，本申请的实施例还提出了一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如根据上述本发明的实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

根据本发明的实施例的文档处理装置及其个组成部件可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的信息处理设备(例如图11所示的通用计算机1100)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

在图11中，中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中，也根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。

下述部件连接到输入/输出接口1105：输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要，驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器1110上，使得从中读出的计算机程序根据需要被安装到存储部分1108中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

最后，还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外，在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。再者，由措辞“第一”，“第二”，“第三”等等限定的技术特征或者参数，并不因为这些措辞的使用而具有特定的顺序或者优先级或者重要性程度。换句话说，这些措辞的使用只是为了区分或识别这些技术特征或者参数而没有任何其他的限定含义。

通过以上的描述不难看出，本发明的实施例提供的技术方案包括但不限于：

附记1.一种文档处理方法，其包括：

对于多个输入的文档图像中的每个文档图像：

检测与初始关键字符相匹配的初始关键字符图像，所述初始关键字符是所述多个文档图像的标题中的关键字符；

针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；

计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；

基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

附记2.根据附记1所述的方法，其中，所述将标题候选进行聚类包括：

针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选中的初始关键字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及

将彼此之间具有大于或等于第一预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。

附记3.根据附记1所述的方法，包括：

识别与每个标题候选中的相邻字符图像相对应的字符作为该标题候选的相邻字符，其中相邻字符和对应于所述标题候选的初始关键字符构成标题候选字符；并且

所述将标题候选进行聚类包括：

针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及

将彼此之间具有大于或等于第二预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。

附记4.根据附记2或3所述的方法，其中所述将标题候选进行聚类还包括：

在具有同类标题的文档分类中，基于该文档分类中的文档图像之间的标题相似性确定中心标题候选，其中所述中心标题候选是所述文档分类中的任一文档图像与其他文档图像之间的标题相似性之和最高的文档图像的标题候选；

将所述中心标题候选与该文档分类中的其他文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性小于第三预定阈值的文档图像排除出在该文档分类；和/或

将所述中心标题候选与该文档分类之外的文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性大于或等于第四预定阈值的文档图像划入该文档分类，所述第四预定阈值大于或等于所述第三预定阈值。

附记5.根据附记1所述的方法，其还包括：

从具有同类标题的文档分类中的各标题候选中选择有代表性的标题候选作为标题模板；和/或

对于不同于所述多个输入的文档图像的文档图像，将与所述标题模板的相似程度大于或等于第五预定阈值的图像区域所属的文档图像划入该文档分类。

附记6.根据附记5所述的方法，其还包括：

对于不同于所述多个输入的文档图像的文档图像，将其中未识别出与该文档分类的各标题候选相对应的初始关键字符、但是识别出与所述标题模板之间的相似程度大于或等于第六预定阈值的图像区域的文档图像划入该文档分类。

附记7.根据附记1至6之一所述的方法，其中，所述置信度值计算方法如下：

C＝S^aD_n ^bD_h ^cK^d，

其中C为所述置信度值，S为所述相邻字符图像和相对应的初始关键字符图像的平均尺寸，D_n为由所述准标题区域的水平中心与该文档图像的水平中心之间的距离与该文档图像的宽度之比，D_h为所述准标题区域的上边缘与该文档图像的上边缘之间的距离与该文档图像的长度之比，K为所述初始关键字符图像与所述初始关键字符之间的匹配程度，a、b、c、d分别是S、D_n、D_h、K的预设的权重。

附记8.一种文档处理装置，其包括：

检测单元，其配置成对于多个输入的文档图像中的每个文档图像检测与初始关键字符相匹配的初始关键字符图像，其中所述初始关键字符是所述多个文档图像的标题中的关键字符；

提取单元，其配置成针对每个初始关键字符图像，提取与该初始关键字符图像相邻的至少一个字符图像作为相邻字符图像，其中初始关键字符图像与相邻字符图像构成准标题区域；

选择单元，其配置成计算每个准标题区域的置信度值，并且选择具有最高置信度值的准标题区域作为该文档图像的标题候选，其中所述准标题区域的置信度值表示相应的准标题图像是该文档图像的标题的可能性；

聚类单元，其配置成基于从所述多个文档图像获得的标题候选对文档图像进行聚类，从而得到具有同类标题的文档分类。

附记9.根据附记8所述的装置，其中，所述聚类单元包括：

相似性计算子单元，其配置成针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选中的初始关键字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及

分类子单元，其配置成将彼此之间具有大于或等于第一预定阈值的标题相似性的文档图像归类为具有同类标题的文档分。

附记10.根据附记8所述的装置，其中该装置还包括：识别单元，其配置成识别与每个标题候选中的相邻字符图像相对应的字符作为该标题候选的相邻字符，其中相邻字符和对应于所述标题候选的初始关键字符构成标题候选字符；并且

所述聚类单元包括：

相似性计算子单元，其配置成针对所述多个输入的文档图像中的任意两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及

分类子单元，其配置成将彼此之间具有大于或等于第二预定阈值的标题相似性的文档图像归类为具有同类标题的文档分类。

附记11.根据附记9或10所述的装置，其中所述聚类单元还包括：

中心标题候选确定子单元，其被配置成在具有同类标题的文档分类中，基于该文档分类中的文档图像之间的标题相似性确定中心标题候选，其中所述中心标题候选是所述文档分类中的任一文档图像与其他文档图像之间的标题相似性之和最高的文档图像的标题候选；

误分类文档排除子单元，其被配置将所述中心标题候选与该文档分类中的其他文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性小于第三预定阈值的文档图像排除出在该文档分类；和/或

遗漏文档补充子单元，其被配置成将所述中心标题候选与该文档分类之外的文档图像的标题候选进行比较，将与所述中心标题候选所属的文档图像之间的标题相似性大于或等于第四预定阈值的文档图像划入该文档分类，所述第四预定阈值大于或等于所述第三预定阈值。

附记12.根据附记8所述的装置，其中该装置还包括：

模板化单元，其配置成：从具有同类标题的文档分类中的各标题候选中选择有代表性的标题候选作为标题模板；和/或

划分单元，其配置成：对于不同于所述多个文档图像的文档图像，将与所述标题模板的相似程度大于或等于第五预定阈值的图像区域所属的文档图像划入该文档分类。

附记13.根据附记12所述的装置，其中该装置还包括：

再划分单元，其配置成：对于不同于所述多个文档图像的文档图像，将其中未识别出与该文档分类的各标题候选相对应的初始关键字符、但是识别出与所述标题模板之间的相似程度大于或等于第六预定阈值的图像区域的文档图像划入该文档分类。

附记14.根据附记8至13之一所述的装置，其中，所述选择单元包括置信度值计算子单元，该置信度值计算子单元根据如下方法计算置信度值：

C＝S^aD_n ^bD_h ^cK^d，

附记15.一种程序产品，该程序产品承载机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行如附记1至7中的任一项所述的方法。

附记16.一种存储介质，该存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行如附记1至7中的任一项所述的方法。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等同含义来限定。

Claims

1.一种文档处理方法，其包括：

对于多个输入的文档图像中的每个文档图像：

2.根据权利要求1所述的方法，其中，所述将标题候选进行聚类包括：

3.根据权利要求1所述的方法，还包括：

所述将标题候选进行聚类包括：

4.根据权利要求2或3所述的方法，其中所述将标题候选进行聚类还包括：

5.根据权利要求1至4中任一项所述的方法，其中，所述置信度值计算方法如下：

C＝S^aD_n ^bD_h ^cK^d，

6.一种文档处理装置，其包括：

7.根据权利要求6所述的装置，其中，所述聚类单元包括：

8.根据权利要求6所述的装置，其中该装置还包括：识别单元，其配置成识别与每个标题候选中的相邻字符图像相对应的字符作为该标题候选的相邻字符，其中相邻字符和对应于所述标题候选的初始关键字符构成标题候选字符；并且

所述聚类单元包括：

相似性计算子单元，其配置成针对所述多个输入的文档图像中的其他两个文档图像，基于标题候选中的初始关键字符图像在所述任意两个文档图像中的位置之间的相似性，以及标题候选字符之间的相似性，计算所述任意两个文档图像之间的标题相似性；以及

9.根据权利要求7或8所述的方法，其中所述聚类单元还包括：

10.根据权利要求6至9中任一项所述的装置，其中选择单元包括置信度值计算子单元，该置信度值计算子单元根据如下方法计算置信度值：

C＝S^aD_n ^bD_h ^cK^d，