CN101571921A

CN101571921A - 关键字识别方法和装置

Info

Publication number: CN101571921A
Application number: CNA2008100912990A
Authority: CN
Inventors: 孙俊; 藤井勇作; 武部浩明; 藤本克仁; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-04-28
Filing date: 2008-04-28
Publication date: 2009-11-04
Anticipated expiration: 2028-04-28
Also published as: JP5240047B2; CN101571921B; JP2009266232A

Abstract

一种关键词识别方法和装置。其对多幅包含共有关键词的图案或文档中包含的共有关键词进行识别，首先根据包含共有关键词的区域的灰度值生成二值前景累积图，并确定可能的关键字分割段，识别出对应于每个可能的关键字分割段的识别字符，利用标准关键词中包含的关键字构成的关键字组合对与上述识别字符构成的关键字匹配对的对应关系、估计关键词中心的位置，利用对应于上述关键词中心的关键字匹配对生成一个图，利用图中的最大完全子图确定识别字符中正确的关键字，并识别出遗漏关键字和粘连关键字，判定上述共有关键词中包含了具有最大识别比例的关键词。

Description

关键字识别方法和装置

技术领域

本发明涉及关键字的识别方法和装置，尤其是涉及从多页具有共有图像或文字的图像或文档中提取共有的关键词的方法和装置。

背景技术

现有的字符识别方法一般是对于没有被遮挡的完整的信息进行字符识别，在图1中示出的六幅PPT文档中，虽然每一幅图像中都存在单词“CONFIDENTIAL”，但是没有一幅图像包含了完整的关键词“CONFIDENTIAL”，每一幅图案中都有文字或图案遮挡了关键词的一部分，这导致关键词中字母的缺失或者字形的退化，由于常用的字符识别方法利用的是动态规划方法来进行字符串的识别，字形的退化会导致识别距离的不可靠，从而导致字符串识别的失败。并且，通用的字符识别方法一次只能够处理一幅图像中的字符识别问题，而没有结合多幅图像中的信息来进行识别，从而无法对图1中示出的关键词进行理想的识别。

在非专利文献：H.Takebe，K.Fujimoto.“Word extraction methodby generating multiple character hypotheses”，IEICE Technical report，PRMU2007-217：19-24，2007.中公开了一种基于文档中包含的字符的左右位置关系、利用最大完全子图来判断是否有存在某个字符串的可能的技术方案。但是这种判断只是一种较为粗略的估计，只能确定在一个文档中存在具有某种位置关系的多个字符，并不能肯定地判断在文档中存在一个特定的字符串，并且，其中，需要识别的字符本身并没有被遮挡。

因此，需要一种能够比较准确地和/或令人满意地从多页具有共有图像或文字的图案或文档中提取共有的关键词的技术，其能够克服现有技术中的上述缺陷，即使在因各种原因而导致共有图像劣化的情况下，也能够获得令人满意的结果。本发明就是致力于解决上述的一个或多个问题。

发明内容

本发明要解决的问题是从多幅背景复杂并具有遮挡的图像或文档中识别共有图像或文字。

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。但是，应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分，也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念，以此作为稍后给出的更详细描述的前序。对于本领域普通技术人员而言，本发明的下述各个方面和由所附独立权利要求限定的方案可以与本发明中的实施例和/或从属权利要求进行任意可能的适当组合。

本发明第一方面提供了一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别方法，该方法包括：根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图；根据上述二值前景累积图确定其分割点，并确定可能的关键字分割段；对所有可能的关键字分割段中的对象进行字符识别，得到对应于所有可能的关键字分割段的识别字符；针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词，执行下列步骤：利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置，所述关键字匹配对是由各个标准关键词中包含的关键字构成的，所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的；将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点，生成一个图，并利用包含的两两均连通的顶点个数最多的、所述图中的最大完全子图来确定正确的关键字；基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词，确定遗漏关键字；基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词，识别粘连关键字；根据针对所述各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字，判定所述共有关键词包含哪一个标准关键词。

根据本发明第二方面的关键词识别方法，其中，在估计共有图像中关键词中心的位置之前，删除位置重叠、由相同字符构成的多个关键字匹配对中的关键字识别距离之和不是最小的关键字匹配对。

根据本发明第一或第二方面的关键词识别方法，其中，由所述各个标准关键词中包含的所有关键字两两组合、构成所述关键字组合对。

根据本发明第一或第二方面的关键词识别方法，其中，利用可继承分割方法确定所述可能的关键字分割段。

根据本发明第一或第二方面的关键词识别方法，其中，利用关键字组合对中的关键字之间的距离与相应关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。

根据本发明第一或第二方面的关键词识别方法，其中对可能的关键字分割段中的字符分别进行正反两次识别，利用识别出的正反两组字符进行关键词中心估计。

根据本发明第一或第二方面的关键词识别方法，其中，将相对于当前关键词、正确识别的关键字的比例超过一个预定值时，认为当前关键词为共有关键词中包含的关键词。

根据本发明第一或第二方面的关键词识别方法，其中将相对于所述标准关键词字典中、正确识别的关键字的比例最高的关键词判定为共有关键词中包含的关键词。

本发明第三方面提供了一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别装置，该装置包括：根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图的装置；分割部，其确定所述二值前景累积图的分割点；可能的关键字分割段确定部，其根据所述分割点确定所有可能的关键字分割段；字符识别部，其对所有可能的关键字分割段中的对象进行字符识别，得到对应于所有可能的关键字分割段的识别字符；关键词中心位置估计部，其针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词、利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置，所述关键字组合对是由所述各个标准关键词中包含的关键字构成的，所述关键字匹配对是由上述识别字符中包含的、与关键字组合对的字符相同的字符构成的；基于最大完全子图的关键字提取部，其将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点，生成一个图，并利用所述图中的最大完全子图来确定正确的关键字，所述最大完全子图中包含的两两均连通的顶点个数最多的；遗漏关键字识别部，其基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词，确定遗漏关键字；粘连关键字识别部，其基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词，识别粘连关键字；关键词确定部，根据针对各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字，判定所述共有关键词包含所述标准字典中的哪一个关键词。

根据本发明第四方面的关键词识别装置，其还包括关键字匹配对筛选部，关键字匹配对筛选部在关键词中心位置估计部估计共有关键词中心的位置之前，删除位置重叠、包含的字符相同的多个关键字匹配对中关键字识别距离之和不是最小的关键字匹配对。

根据本发明第三或第四方面的关键词识别装置，其中，由所述各个标准关键词中包含的所有关键字两两组合，构成所述关键字组合对。

根据本发明第三或第四方面的关键词识别装置，其中，分割部利用可继承分割方法确定所述可能的关键字分割段。

根据本发明第三或第四方面的关键词识别装置，其中，所述关键词中心位置估计部利用关键字组合对中的关键字之间的距离与相应的关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。

根据本发明第三或第四方面的关键词识别装置，其中字符识别部对可能的关键字分割段中的字符分别进行正反两次识别，将识别出的正反两组字符输入关键词中心位置估计部，进行关键词中心估计。

根据本发明第三或第四方面的关键词识别装置，其中关键词识别部将相对于当前关键词、正确识别的关键字的比例超过一个预定值时，认为当前关键词为共有关键词中包含的关键词。

根据本发明第三或第四方面的关键词识别装置，其中关键词识别部将相对于所述标准关键词字典中、正确识别的关键字的比例最高的关键词判定为共有关键词中包含的关键词。

本发明第五方面提供了一种计算机程序，所述计算机程序使得计算机可以执行下列步骤：根据上述多幅图案或文档中包含共有关键词的区域的灰度值生成二值前景累积图；根据上述二值前景累积图确定可能的关键字分割段；对所有可能的关键字分割段中的图案进行字符识别，得到对应于每个可能的关键字分割段的识别字符；利用标准关键词中包含的关键字构成的关键字组合对与关键字匹配对的对应关系、估计关键词中心的位置，所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的；将对应于上述关键词中心的多个关键字匹配对中包含的识别字符作为一个图的顶点、使其互相连通，得到最大完全子图，将包含的顶点个数最多的最大完全子图对应的关键词中心作为真正的关键词中心，将包含的顶点个数最多的最大完全子图的各个顶点对应的字符作为正确的关键字；基于上述正确的关键字和关键词中心以及标准关键词，确定遗漏关键字；基于上述正确的关键字、确定的遗漏关键字、关键词中心以及标准关键词，识别粘连关键字；判定上述共有关键词中包含了具有最大识别比例的关键词，具有最大识别比例的关键词是这样的关键词：对应于具有最大识别比例的关键词识别出的正确的关键字、确定的遗漏关键字和粘连关键字的总个数最多。

本发明第六方面提供了一种存储介质，在该存储介质上存储了如本发明第三方面所述的计算机程序。

以下结合附图对本发明的实施例进行详细说明。

附图说明

以下将参照下面的附图对实施例进行解释，以下示例仅仅是作为一种示例而非意于限制本发明，其中：

图1例示出了带有共有关键词“CONFIDENTIAL”的六幅PPT；

图2示出根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图；

图3示出了根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别方法的流程图；

图4中给出了根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别方法的图解；

图4a例示出对图1中的六幅PPT图像经过位置对准后、从其中分别剪切出的、包含关键词“CONFIDENTIAL”的六个灰度图案；

图4b例示出去除了剪切图像中的背景之后得到的前景图；

图4c例示出根据图4b中的前景图得到的二值前景累积图；

图4d例示出进行可继承字符分隔后得到的最终的分割点；

图4e例示出进行基于最大完全子图的关键字提取、遗漏关键字提取和粘连关键字提取后得到的示意图；

图4f图示出对估计出的关键词中心位置进行投票的投票结果；

图5显示了针对图4c中的二值前景累计图进行可继承分割的示意图；

图6示出了针对图4c中的二值前景累计图进行可继承分割的流程图；

图7示出了针对标准关键词字典中的关键词“CONFIDENTIAL”进行基于最大完全子图的关键字提取的示意图；

图8显示的是图5中包含的六幅图像的垂直方向的投影直方图；

图9中示出了保存在标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图；

图10示出根据本发明第二实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图。

具体实施方式

图1中示出了带有共有关键词“CONFIDENTIAL”的六幅PPT，可以看出，在这六幅图像中，关键词“CONFIDENTIAL”由于遮挡等原因都是残缺不全的，这使得从其中任何单幅图像中都不能找出完整的关键词，从而无法仅根据其中任何一幅图像正确地识别出关键词。

图2中示出了本发明中的用于关键词识别的装置的结构。接下来结合图2中示出的各个部件来具体说明。

本发明中结合多幅具有共有图像的图像来进行关键词的识别，首先，将图1中示出的六幅PPT图像进行位置上的对准，进行图像对准例如可以采用本申请人之前提出的专利申请号为2008100087720.2，发明名称为“图像处理方法和装置及水印检测系统”中记载的方法，但是并不限于采用这一方法，现有的进行图像对准的方法均可以用于本发明进行图像对准。

将包含共有关键词“CONFIDENTIAL”的图像分别从多幅PPT图像中剪切出来，由于每幅图像中的关键词均在一定程度上被文字或图像遮挡，所以剪切出的图像中除了包括关键词和背景图像(例如白色、灰色的纯色背景或其他带有底纹的背景)，还包括遮挡关键词的文字或者图案，以下将遮挡关键词的文字或者图案简称为遮挡图案。

图4a中示出了对图1中的六幅PPT图像经过位置对准后、从其中分别剪切出的、包含关键词“CONFIDENTIAL”的六个灰度图案，对于这六个灰度图案，首先进行背景去除，从而仅保留关键词的图案和遮挡图案(在此将包括关键词和遮挡图案的图案称为前景图案，以与上述背景图案进行区分)，进行背景去除的方法有很多种，例如可以使用如下方式：

首先，利用公式(1)针对剪切出的六幅图像中的每一个像素点、求在该像素点的图像灰度的均值和方差：

M_{xy} = \frac{1}{6} Σ_{i = 1}^{6} {G^{i}}_{xy}, V_{xy} = \sqrt{\frac{1}{6} Σ_{i = 1}^{6} ({G^{i}}_{xy} - M_{xy}) ({G^{i}}_{xy} - M_{xy})} - - - (1)

其中，i表示剪切出的图像的序号，i≤N，如图4a所示，(x，y)表示在一幅剪切图像中的像素点的坐标位置，每一幅图像中的坐标原点(0，0)可以选取剪切图像左下方的点A，显然，坐标原点的选取并不是限于这一点，Gⁱxy表示在第i幅剪切图像中、在像素点(x，y)处的灰度值，Mxy表示六幅剪切图像中相同位置(x，y)处的灰度均值，Vx表示在所述一个位置(x，y)处的方差值。

一般而言，背景点的数目远大于前景点的数目，由于不同图像中背景像素点的灰度变化不大，而前景像素点的灰度变化较大，因此可以通过设置一个方差阈值(比如方差的平均值)，找出方差值小于方差阈值的所有像素点，如此计算得到的方差值小于方差阈值的像素点中有可能包括方差变化很小的背景点以及方差变化很小的关键词笔画点。由于关键词笔画的灰度和背景点灰度有差异，因此，可以把方差值小于方差阈值的点根据其灰度分成两类，假设背景点的个数多于关键词笔画点，就可以从分类的结果中把背景点确定下来。根据灰度分类的方法很多，例如可以简单地计算所有点的平均灰度值作为阈值来进行两类的划分。图4b示出了背景去除之后的前景图。前景图中背景像素点的灰度被统一赋值为255。

从去除背景图案之后的六个前景图案中，可以得到六个图像的前景累积灰度图，前景累计灰度图的计算公式(2)如下，其中将灰度值小于255的像素点对应的值设定为1，当然，此处选取的值255仅是作为一种示例，也可以将其设定为其他的值：

P_{xy} = Σ_{i = 1}^{6} \{\begin{matrix} 1 & G_{xy}^{i} < 255 \\ 0 & G_{xy}^{i} = 255 \end{matrix} - - - (2)

在上式中，i表示六个图像中每个图像的序号，x和y分别表示在每幅剪切图像中的像素点在x方向和y方向位置的值，Pxy表示在(x，y)处的六个图像的前景累积灰度值。从上式可以看出，前景累积灰度图中每个点的累积灰度值的最大值是包含共有关键词的图像的个数N，此处N＝6。当六个剪切图像在某一位置(x，y)处的灰度值均为255时，Pxy即为0，当六个剪切图像中只有一幅图像在(x，y)处的灰度值小于255时，Pxy即为1，依次类推，当六个剪切图像中的所有图像在(x，y)处的灰度值小于255时，Pxy即为6。

利用公式(3)可以从前景累积灰度图得到如图4c所示的二值前景累积图：

B_{xy}^{i} = \{\begin{matrix} 255 & P_{xy} < i \\ 0 & P_{xy} &GreaterEqual; i \end{matrix} - - - (3)

二值前景累积图包括N层，N等于包含共有关键词的剪切图像的个数，此处N＝6。如公式(3)所示，在第i层二值前景累计图中，如果取值是255，表示至少有i幅图像在点(x，y)处是前景点，如果取值是0，则表示最多i-1幅图像在点(x，y)处是前景点，如图4c所示，最上层(此处对应于i＝6)中的黑点代表在六幅剪切图像中都是前景点的点，第二层(此处对应于i＝5)代表至少在N-1(此处为5)幅图像中是前景点的点，依此类推，最下面的一层(此处对应于i＝1)代表在N层中至少出现过一次前景点的点。

上述生成二值前景累积图的过程仅仅是作为一种示例，对于本领域普通技术人员而言，还存在很多其他的方式来生成二值前景累积图，在此不再赘述。

上述二值前景累积图是后面进行关键词识别的基础，将生成的二值前景累积图提供给图2中示出的分割部1，分割部1根据二值前景累积图中的空白段对其进行分割。在此，分割部1利用可继承字符分割方法进行分割，当然，进行分割的方法有很多种，在这里仅仅是以可继承字符分割方法作为一种示例进行说明。

图5显示了分割部1针对二值前景累计图进行可继承分割的示意图。首先，在每一层关键词图像中找出在黑色的像素点之间的空白段，将其作为空白分割段，这些空白分割段的中点代表物理分割点，如图5中的在图中用虚线的分割线表示。然后，对物理分割点进行合并和继承。从第二层开始，对上一层的每一个空白分割段，检查在本层是否存在一个空白分割段和它有重叠。从前述二值前景累积图的生成方式可以看出，下层的二值累积图像总是完全包含上层的二值累积图像，因此如果下层的空白分割段和上层空白分割段有重合的话，那么下层的空白分割段所代表的分割信息应当更加精确，所以用下层空白分割段的中点来代替上层空白分割段的中点，这就是物理分割点的合并过程。如果上层物理分割段和下层的没有重合，这意味着下层图像在这个分割段范围之内发生了粘连，则把从上层物理分割段得到的物理分割点当作下层的粘连分割点(在图中用实线的分割线表示)，这个过程就是物理分割点的继承。最下面那层图中的分割点代表最终的分割结果。

由于前述的待识别的剪切图像中的关键词被遮挡或者粘连等原因，虽然如上所述得到了分割结果，但是如图5所示，此时得到的分割结果有可能将关键字从中切断、所以仍然无法确定关键字的正确的分割位置，所以在得到最终的所有分割点之后，需要从这些分割点中计算出所有可能的关键字分割段。

分割部1将得到的最终的分割结果提供给可能的关键字分割段确定部2，以找到所有可能的关键字分割段。首先，假设切出来的关键词图像的高度就是关键词中的关键字高度，并预先设定一个关键字分割段的最大宽度与关键字高度的比例关系，例如可以将关键字分割段的最大宽度设定为关键字高度的1.5倍(此处1.5倍只是作为一个示例，根据实际情况，可以将其设定为其他值，例如1，2等等)，然后找出所有满足这个关键字宽度条件的所有分割段以及分割段的组合，将其确定为可能的关键字分割段。得到可能的关键字分割段之后，可能的关键字分割段确定部2将确定的可能的关键字分割段提供给字符识别部3，字符识别部3再对N层图像中、每个可能的关键字分割段中的图像进行字符识别。结果如表一所示：

表一：字分割段及其识别结果

序号	分割段起点坐标，分割段终点坐标	第1层识别结果	第1层识别距离	第2层识别结果	第2层识别距离	第3层识别结果	第3层识别距离	第4层识别结果	第4层识别距离	第5层识别结果	第5层识别距离	第6层识别结果	第6层识别距离
序号	分割段起点坐标，分割段终点坐标	第1层识别结果	第1层识别距离	第2层识别结果	第2层识别距离	第3层识别结果	第3层识别距离	第4层识别结果	第4层识别距离	第5层识别结果	第5层识别距离	第6层识别结果	第6层识别距离	00	(081 114)	C	903	C	861	C	855	C	801	C	793	C	845
01	(081 120)	C	903	C	835	C	817	C	727	C	694	C	857	00	(081 114)	C	903	C	861	C	855	C	801	C	793	C	845
01	(081 120)	C	903	C	835	C	817	C	727	C	694	C	857	02	(081 135)	C	903	C	900	C	847	C	823	C	837	G	798
03	(081 159)	C	903	O	925	Q	902	Q	872	Q	851	Q	845	02	(081 135)	C	903	C	900	C	847	C	823	C	837	G	798
03	(081 159)	C	903	O	925	Q	902	Q	872	Q	851	Q	845	04	(115 120)	O	920	N	868	J	924	J	922	J	922	I	866
05	(115 135)	O	920	J	924	J	922	J	903	J	928	I	903	04	(115 120)	O	920	N	868	J	924	J	922	J	922	I	866
05	(115 135)	O	920	J	924	J	922	J	903	J	928	I	903	06	(115 159)	O	920	L	928	J	943	X	920	A	888	H	838
07	(115 193)	O	920	O	929	O	942	M	920	M	882	W	806	06	(115 159)	O	920	L	928	J	943	X	920	A	888	H	838
07	(115 193)	O	920	O	929	O	942	M	920	M	882	W	806	08	(121 135)	O	920	J	893	J	901	J	932	I	935	I	817
09	(121 159)	O	920	J	899	J	930	K	925	W	893	H	869	08	(121 135)	O	920	J	893	J	901	J	932	I	935	I	817
09	(121 159)	O	920	J	899	J	930	K	925	W	893	H	869	10	(121 193)	O	920	O	928	Q	940	M	907	M	870	M	782
11	(136 159)	O	920	M	759	L	949	L	939	X	885	I	895	10	(121 193)	O	920	O	928	Q	940	M	907	M	870	M	782
11	(136 159)	O	920	M	759	L	949	L	939	X	885	I	895	12	(136 193)	O	920	J	939	O	917	O	832	Q	879	W	887
13	(136 211)	M	887	O	938	U	931	Q	892	W	880	W	837	12	(136 193)	O	920	J	939	O	917	O	832	Q	879	W	887
13	(136 211)	M	887	O	938	U	931	Q	892	W	880	W	837	14	(160 193)	O	920	O	924	J	912	D	910	D	879	B	908
15	(160 211)	M	887	U	937	M	910	M	848	N	745	M	790	14	(160 193)	O	920	O	924	J	912	D	910	D	879	B	908
15	(160 211)	M	887	U	937	M	910	M	848	N	745	M	790	16	(194 211)	M	887	J	895	I	865	I	837	J	821	I	818
17	(194 249)	J	909	N	837	N	757	N	745	N	810	M	859	16	(194 211)	M	887	J	895	I	865	I	837	J	821	I	818
17	(194 249)	J	909	N	837	N	757	N	745	N	810	M	859	18	(194 270)	U	940	M	916	M	848	M	824	M	821	M	785
19	(212 249)	N	858	M	935	V	908	V	907	V	932	E	880	18	(194 270)	U	940	M	916	M	848	M	824	M	821	M	785
19	(212 249)	N	858	M	935	V	908	V	907	V	932	E	880	20	(212 270)	C	933	M	906	W	892	M	870	M	832	M	782
21	(212 290)	J	932	W	935	W	916	W	897	W	863	W	788	20	(212 270)	C	933	M	906	W	892	M	870	M	832	M	782
21	(212 290)	J	932	W	935	W	916	W	897	W	863	W	788	22	(250 270)	I	879	I	851	I	759	I	808	I	831	I	597
23	(250 290)	F	932	F	884	F	827	T	879	F	859	E	867	22	(250 270)	I	879	I	851	I	759	I	808	I	831	I	597
23	(250 290)	F	932	F	884	F	827	T	879	F	859	E	867	24	(250 312)	M	924	M	918	M	904	M	911	M	899	M	800
25	(271 290)	M	856	J	922	D	938	P	933	P	927	I	833	24	(250 312)	M	924	M	918	M	904	M	911	M	899	M	800
25	(271 290)	M	856	J	922	D	938	P	933	P	927	I	833	26	(271 312)	U	905	U	912	U	906	U	906	H	904	B	864
27	(291 312)	I	629	I	663	I	620	I	740	I	702	I	757	26	(271 312)	U	905	U	912	U	906	U	906	H	904	B	864
27	(291 312)	I	629	I	663	I	620	I	740	I	702	I	757	28	(313 366)	D	749	D	732	D	717	D	783	D	837	M	877
29	(367 408)	T	908	E	905	L	905	E	854	B	858	B	858	28	(313 366)	D	749	D	732	D	717	D	783	D	837	M	877
29	(367 408)	T	908	E	905	L	905	E	854	B	858	B	858	30	(367 442)	U	941	U	934	M	928	M	851	M	720	M	719
31	(409 442)	O	936	L	938	J	912	E	878	B	866	B	866	30	(367 442)	U	941	U	934	M	928	M	851	M	720	M	719
31	(409 442)	O	936	L	938	J	912	E	878	B	866	B	866	32	(443 511)	W	929	W	934	M	919	M	798	M	718	M	697
33	(512 533)	I	833	I	889	I	817	I	773	I	669	I	656	32	(443 511)	W	929	W	934	M	919	M	798	M	718	M	697
33	(512 533)	I	833	I	889	I	817	I	773	I	669	I	656	34	(534 610)	M	941	M	917	M	908	M	887	M	882	W	871
35	(611 625)	J	740	J	688	J	682	J	626	J	701	J	754	34	(534 610)	M	941	M	917	M	908	M	887	M	882	W	871
35	(611 625)	J	740	J	688	J	682	J	626	J	701	J	754	36	(611 655)	J	740	J	688	J	682	L	932	L	933	L	935
37	(647 655)	O	920	O	920	O	920	H	917	W	907	W	886	36	(611 655)	J	740	J	688	J	682	L	932	L	933	L	935
37	(647 655)	O	920	O	920	O	920	H	917	W	907	W	886	38	(647 707)	O	920	O	920	O	920	J	929	J	927	J	928
39	(675 707)	O	920	O	920	O	920	I	931	I	930	I	930	38	(647 707)	O	920	O	920	O	920	J	929	J	927	J	928

表一中，第二栏中的分割段起点坐标表示某一个可能的关键字分割段的起点坐标值，分割段终点坐标表示某一个可能的关键字分割段的终点坐标值。如前所述，将可能的关键字分割段的宽度设定为小于等于关键字的高度的约1.5倍，此处假定已知关键字的高度为55像素点，因此可能的关键字分割段的最大宽度为82个像素点。基于此，可以确定出表一中第二栏中示出的39个可能的关键字分割段。

具体地，如附图5所示，分割点1至坐标起点(0，0)的距离为081个像素点，对应于坐标值为081，分割点2至坐标起点(0，0)的距离为114个像素点，对应于坐标值为114，分割点1至分割点2的分割段由(081114)表示，由于114-081＝33，即这一分割段的宽度小于可能的关键字的分割段的最大宽度82，所以可能的关键字分割段确定部2将其确定为第一个可能的关键字分割段；分割点1至分割点3的分割段由(081 120)表示，可能的关键字分割段确定部2将其确定为第二个可能的关键字分割段；依次类推，分割点1至分割点4的分割段由(081 159)表示，被确定为第4个可能的关键字分割段；分割点1至分割点5的分割段的宽度为193-081＝112个像素点，112大于最大的可能的关键字分割段的宽度082，因此不被确定为可能的关键字分割段。确定出所有以0081为起点的可能的关键字分割段后，以第二个分割点后的第一个像素点为起点再依次确定可能的关键字分割段(因为已经确定0114在分割段(0081，0114)中，所以以其后面的第一个分割点为起点)，例如：在此以0114后的第一个像素点0115为起点确定出了分割段(0115，120)等，依次类推，可能的关键字分割段确定部2确定出所有可能的关键字分割段。

在表一的每一行中，还包括六个关键字识别结果和六个关键字识别距离，六个关键字识别结果分别表示字符识别部3对于每一层中的每一个可能的关键字分割段中的图案的识别结果，六个关键字识别距离分别表示：每一层中的每一个可能的关键字分割段中的图案的灰度矢量(将每个关键字识别段中的图案例如划分为8*8的块，每个块的灰度平均值构成的矢量值，在此不再详述)与用于字符识别的标准字库中关于26个字母的标准灰度矢量之间的矢量距离，该识别距离的值越小、表明其对应的识别的结果越准确。

字符识别部3将表一中的(分割段起点坐标，分割段终点坐标)，识别出的第一层识别结果，第一层识别距离，第二层识别结果，第二层识别距离，......，第六层识别结果，第六层识别距离分别提供给以下将要说明的关键词中心位置估计部5，用于进行关键词中心的位置估计。

从图5和表一可以看出，由于二值前景累积图中有很多噪声存在，因此识别的结果非常不稳定，并且还有一些字符可能完全被遮挡(如DEN中的N)，直接找到可能的CONFIDENTIAL组合是非常困难的。因此，本发明中采用标准关键词字典生成部4生成待识别的所有关键词信息的标准关键词字典，例如预先存储“CONFIDENTIAL”、“DO NOT COPY”、“NO COPY”、“TOP SECRET”、“SECRET”、“INTERNAL USE ONLY”、“ORIGINAL”等有关文件的机密程度的关键词的信息，当然这些词语仅仅是作为示例，标准关键词字典中存储的待识别的信息并不限于这些有关机密程度的词语的信息，标准关键词字典生成部5可以根据实际的需要、生成包括所有待识别的关键词的信息的标准关键词字典。

首先，标准关键词字典生成部4将每个关键词图像归一化到统一的宽度和高度，例如按比例伸缩、使其宽度为1000像素点。然后求每个关键词图像中包含的每个字符的中心点的位置以及字符之间的切分点，这里，每个字符的中心点的位置可以是该字符的中心到该关键词第一个字母的中心的相对距离，当然也可以是该字符的中心到该关键词的第一个字母的最左边的边缘点之间的相对距离，这个位置的起点是如何确定的并不重要，重要的是利用上述各个字符的中心的位置可以确定出该关键词中包含的任意两个字母之间的相对距离、以及任意一个字母到该关键词中心的相对距离。接下来，利用上述位置信息和分割点，标准关键词字典生成部4对关键词中的每个关键字进行编号，找出由该关键词中包括的所有字符两两组成的、所有关键字组合对，并统计每个关键字组合对的如下信息：关键字组合对序号、关键字组合对中的两个字符、关键字组合对中两个关键字的序号、关键字组合对中两个关键字中心点之间的距离、关键字组合对中第一个字符(左边的字符，这里并不限于第一个字符，显然也可以利用第二个字符到关键词中心的距离)距离关键词中心的距离。

对于每个关键词、标准关键词字典生成部4选择多个不同的字体的该关键词，对于每个字体的该关键词都计算上述位置信息和距离信息，对针对每个关键词的位置信息和距离信息分别取平均值，就得到了最终的标准关键词字典。对于关键词“CONFIDENTIAL”来说，标准关键词字典中的内容如表二所示：

表二“CONFIDENTIAL”标准关键词字典

“CONFIDENTIAL”中包含的所有字符及其中心位置如下所示(下列位置的单位是像素点)：

C	O	N	F	I	D	E	N	T	I	A	L
C	O	N	F	I	D	E	N	T	I	A	L	039	138	240	332	392	466	560	653	744	809	877	964

“CONFIDENTIAL”中包含的所有字符之间的分割点位置如下所示：

CO	ON	NF	FI	ID	DE	EN	NT	TI	IA	AL
CO	ON	NF	FI	ID	DE	EN	NT	TI	IA	AL	080	175	278	358	408	504	594	697	779	825	921

关键字组合对信息：

序号	关键字组合对的编码	第一个关键字的序号	第二个关键字的序号	两个关键字之间的距离	第一个关键字距中心的距离
序号	关键字组合对的编码	第一个关键字的序号	第二个关键字的序号	两个关键字之间的距离	第一个关键字距中心的距离	01	CO	00	01	99	461
02	CN	00	02	201	461	01	CO	00	01	99	461
02	CN	00	02	201	461	03	CF	00	03	293	461
04	CI	00	04	353	461	03	CF	00	03	293	461
04	CI	00	04	353	461	05	CD	00	05	427	461
06	CE	00	06	521	461	05	CD	00	05	427	461
06	CE	00	06	521	461	07	CN	00	07	614	461
08	CT	00	08	705	461	07	CN	00	07	614	461
08	CT	00	08	705	461	09	CI	00	09	770	461
10	CA	00	10	838	461	09	CI	00	09	770	461
10	CA	00	10	838	461	11	CL	00	11	925	461
12	ON	01	02	102	362	11	CL	00	11	925	461
12	ON	01	02	102	362	13	OF	01	03	194	362
14	OI	01	04	254	362	13	OF	01	03	194	362
14	OI	01	04	254	362	15	OD	01	05	328	362
16	OE	01	06	422	362	15	OD	01	05	328	362
16	OE	01	06	422	362	17	ON	01	07	515	362
18	OT	01	08	606	362	17	ON	01	07	515	362
18	OT	01	08	606	362	19	OI	01	09	671	362
20	OA	01	10	739	362	19	OI	01	09	671	362
20	OA	01	10	739	362	21	OL	01	11	826	362
22	NF	02	03	92	260	21	OL	01	11	826	362
22	NF	02	03	92	260	23	NI	02	04	152	260
24	ND	02	05	226	260	23	NI	02	04	152	260
24	ND	02	05	226	260	25	NE	02	06	320	260
26	NN	02	07	413	260	25	NE	02	06	320	260
26	NN	02	07	413	260	27	NT	02	08	504	260
28	NI	02	09	569	260	27	NT	02	08	504	260

29	NA	02	10	637	260
29	NA	02	10	637	260	30	NL	02	11	724	260
31	FI	03	04	60	168	30	NL	02	11	724	260
31	FI	03	04	60	168	32	FD	03	05	134	168
33	FE	03	06	228	168	32	FD	03	05	134	168
33	FE	03	06	228	168	34	FN	03	07	321	168
35	FT	03	08	412	168	34	FN	03	07	321	168
35	FT	03	08	412	168	36	FI	03	09	477	168
37	FA	03	10	545	168	36	FI	03	09	477	168
37	FA	03	10	545	168	38	FL	03	11	632	168
39	ID	04	05	74	108	38	FL	03	11	632	168
39	ID	04	05	74	108	40	IE	04	06	168	108
41	IN	04	07	261	108	40	IE	04	06	168	108
41	IN	04	07	261	108	42	IT	04	08	352	108
43	II	04	09	417	108	42	IT	04	08	352	108
43	II	04	09	417	108	44	IA	04	10	485	108
45	IL	04	11	572	108	44	IA	04	10	485	108
45	IL	04	11	572	108	46	DE	05	06	94	34
47	DN	05	07	187	34	46	DE	05	06	94	34
47	DN	05	07	187	34	48	DT	05	08	278	34
49	DI	05	09	343	34	48	DT	05	08	278	34
49	DI	05	09	343	34	50	DA	05	10	411	34
51	DL	05	11	498	34	50	DA	05	10	411	34
51	DL	05	11	498	34	52	EN	06	07	93	60
53	ET	06	08	184	60	52	EN	06	07	93	60
53	ET	06	08	184	60	54	EI	06	09	249	60
55	EA	06	10	317	60	54	EI	06	09	249	60
55	EA	06	10	317	60	56	EL	06	11	404	60
57	NT	07	08	91	153	56	EL	06	11	404	60
57	NT	07	08	91	153	58	NI	07	09	156	153
59	NA	07	10	224	153	58	NI	07	09	156	153
59	NA	07	10	224	153	60	NL	07	11	311	153
61	TI	08	09	65	244	60	NL	07	11	311	153
61	TI	08	09	65	244	62	TA	08	10	133	244
63	TL	08	11	220	244	62	TA	08	10	133	244
63	TL	08	11	220	244	64	IA	09	10	68	309
65	IL	09	11	155	309	64	IA	09	10	68	309
65	IL	09	11	155	309	66	AL	10	11	87	377

以序号01中的内容来举例说明表二中的各栏信息的意思，C和O分别是一个组合对中包含的两个关键字，00和01分别表示C和O在关键词中的序号，即C和O分别为“CONFIDENTIAL”中的第0个和第1个字母，99表示字母C和字母O之间的距离138-039＝99，461表示字母C距离中心点500的距离500-039＝461。

当然上述组合对的选取也并不限于两两字母组成的组合对，利用多于两个字母组成的组合对也同样可以实现本发明。

在进行关键词识别时，标准关键词字典生成部4将其生成的有关各个关键词的标准关键词字典信息提供给关键词中心位置估计部5，关键词中心位置估计部5基于字符识别部3提供的字符识别结果、利用标准关键词字典中包含的关于各个关键词的关键字信息，计算针对上述字符识别部3识别出的字符的关键词中心。

在实际的计算过程中，关键词中心位置估计部5需要利用标准关键词字典生成部4中生成的、如表二中所示的关键词信息和字符识别部3识别出的字符进行匹配、来识别关键词，这里，仅以标准关键词字典生成部4生成的关于关键词“CONFIDENTIAL”的信息作为示例、来说明如何将字符识别部3识别出的字符与标准关键词字典中的“CONFIDENTIAL”所包含的关键字组合对进行匹配、从而进行关键词的识别的。

虽然在字符识别部3中识别出了一些字符，但是由于在二值前景累积图中存在噪声信息，使得并不能够确定这些字符是在该关键词中的第几个字符，所以，只要字符识别部3识别出的字符中出现了与标准关键词字典中的关键字组合对中的两个字符相同的两个字符时，就将其作为该关键字组合对的关键字匹配对，并利用该关键字组合对中的两个关键字之间的位置关系以及上述匹配对中的两个字符之间的位置关系的对应比例关系、以及第一个关键字到关键词中心的距离信息来估计对应于该匹配对中的两个字符的关键词中心。例如，在“CONFIDENTIAL”中出现了两个“N”，关键词中心位置估计部5在进行关键词中心位置估计的时候，由于并不知道字符识别部3识别出的“N”是“CONFIDENTIAL”中的第几个位置处的N，所以会利用字符识别部中识别出的“N”与字符识别部识别出的其他字符(例如与“C”)之间的位置关系、以及表二中的与这两个字符(“N”和“C”)相应的所有关键字组合对(例如对应于序号为02和07中的关于两个“CN”)的信息来进行关键词中心位置的估计，将这一计算过程用下列公式表示：

D1/D2＝D1’/D2’

D1表示在标准关键词字典中生成的、关键字组合对中的两个关键字之间的距离，D2表示与该关键字组合对对应的关键字匹配对中的两个字符之间的距离，D1’在标准关键词字典中生成的、表示关键字组合对中的第一个字符到关键词中心的距离，D2’表示关键字匹配对中的第一个字符到估计中心的距离，这一距离可以通过D1，D2，D1’，D2’的比例关系计算得到。

当然，在此，利用关键字组合对中的关键字之间的距离与关键字匹配对中的字符之间的距离的对应比例关系来进行关键词中心的估计，但是并不限于采用这一方式，只要利用关键字组合对中的关键字与关键字匹配对中的关键字之间的固有比例关系、都可以估计出关键词中心的位置，例如还可以采用关键字组合对中的关键字的宽度与关键字组合对中的一个字符到关键词中心的比值同关键字匹配对中的字符的宽度与其到关键词中心的距离的比值之间的对应比例关系，来进行关键词中心的估计。

如上所述的、当在一个剪切图案中的关键词中或者标准关键字典中的关键词中存在多个相同字符时，利用上述匹配方式进行的关键词中心位置估计会产生不正确的估计值；并且，如表一所示，由于噪声的影响，识别出的字符中本身就存在很多错误的字符，所以利用错误的字符进行上述关键字匹配、得到的关键词中心位置估计值也不是真正的关键词中心位置。因此，本发明中利用投票的原理，首先设置一个计数器序列，计数器的长度等于包含关键词的剪切图像的宽度，每次估计出一个关键词中心位置、计数器就对估计出来的关键词中心位置处累加一个值。在基于正确识别的关键字计算出的正确的关键词中心的位置处应当会出现一个山峰，具体地说，相对于“CONFIDENTIAL”进行匹配时，如果利用从剪切图像中正确识别的字符(例如“C”、“O”、“N”、“F”等)来计算关键词中心位置，应当会计算出正确的关键词中心，并在正确的关键词中心形成一个峰值，否则，如果剪切图像中原本包含的关键词是“CONFIDENTIAL”，正确识别出其中的字符“C”、“O”、“E”和“T”，但是利用“TOP SECRET”的关键词信息中有关这几个字符(下划线)与其进行匹配、并根据前述的对应比例关系进行匹配，由于剪切图像中的待识别的关键词与“TOP SECRET”的位置关系本身是不对应的、所以不会在“TOPSECRET”的正确的关键词中心形成一个峰值。优选地，为了避免估计误差，通常不仅对估计出来的中心位置累加一个值，而且对中心位置附近的像素点也分别累加一个稍小一点的数值。例如，可以对中心位置正负10个像素点的位置处分别累加如下数值，当然，这些值仅仅是作为一种示例：

2

4

8

14

24

38

53

70

85

96

100

96

85

70

53

38

24

14

8

4

2

上述值中的“100”表示累加给识别出的一个中心位置处的值，最左边的“2”是累加给该中心位置处向左10个像素点处的值，最右边的“2”是累加给该中心位置处向右10个像素点处的值。另外，优选地，可以高斯函数、三角函数的形式、向估计出的关键词中心位置处累加一个较大的值、并对估计出的关键词中心位置附近的点分别累加一个稍小一点的数值。

如前所述，投票的结果将在对应于正确识别的字符的、正确的关键词中心位置处形成一个山峰，如图4e中的最上面部分的表示投票结果的图4f所示。但是，由于噪声的干扰，投票的结果往往会出现多于一个山峰，而正确的关键词中心所对应的位置并不一定是最高的山峰。因此，可以预先设定一个阈值，保留下高度值超过预先设定的阈值的所有山峰，采用下述的基于最大完全子图的方法对其逐一检验，找出真正的对应关键词中心的那个峰值，这里优选地可以用最高的山峰的高度值的一半作为阈值。

在进行上述中心位置投票后，关键词中心位置估计部5将上述保留下的多个关键词中心位置中的每一个分别与估计出该中心位置的关键字匹配对对应存储，并且存储所述关键字匹配对中的字符在该关键词中的序号，并将其提供给基于最大完全子图的关键字提取部6。其中，如果一个关键字匹配对估计出的关键词中心和当前的关键词中心的位置偏差小于一个预定的范围，则认为该关键字匹配对和当前的关键词中心发生了对应，也将其进行对应存储，并提供给基于最大完全子图的关键字提取部6，优选地，可以将该预定的范围确定为高度的一倍，例如当前的关键词中心的位置为500，字符高度为100，则认为投票到范围(400，600)的位置的关键字匹配都与当前关键词中心相对应。

对于上述保留下的关键词中心，基于最大完全子图的关键字提取部6根据关键词中心位置估计部5中提供的关键词中心位置中的每一个分别与估计出该中心位置的关键字匹配对的对应关系，提取与当前估计出的关键词中心对应的多个匹配对及匹配对中包含的字符在该关键词中的序号。

基于最大完全子图的关键字提取部6对应于每一个估计出的关键词中心、通过下述的基于最大完全子图的关键字提取方法获得与该中心对应的关键字，与某一个关键词中心相对应找到的关键字个数最大的关键词中心被认为是真正的关键词中心。表三列出了与图三中投票得到的关键词估计中心峰值所对应的所有关键字匹配对，在此假定只有一个超过阈值的山峰。从左到右的顺序是：序号，第一个顶点的字符，第二个顶点的字符，第一个顶点的关键字序号，第二个顶点的关键字序号，和估计出的关键词中心的位置：

表三：图三中投影峰值对应的关键字匹配对

序号	第一个顶点的编码	第二个顶点的编码	第一个顶点的关键字序号	第二个顶点的关键字序号	估计的关键词中心位置
序号	第一个顶点的编码	第二个顶点的编码	第一个顶点的关键字序号	第二个顶点的关键字序号	估计的关键词中心位置	00	C	N	0	2	380
01	C	F	0	3	365	00	C	N	0	2	380
01	C	F	0	3	365	02	C	I	0	4	363
03	C	D	0	5	359	02	C	I	0	4	363
03	C	D	0	5	359	04	C	E	0	6	354
05	C	I	0	9	353	04	C	E	0	6	354
05	C	I	0	9	353	06	O	N	1	2	368
07	O	F	1	3	358	06	O	N	1	2	368
07	O	F	1	3	358	08	O	I	1	4	359
09	O	D	1	5	358	08	O	I	1	4	359
09	O	D	1	5	358	10	O	E	1	6	355
11	O	I	1	9	358	10	O	E	1	6	355
11	O	I	1	9	358	12	N	F	2	3	353
13	N	I	2	4	358	12	N	F	2	3	353
13	N	I	2	4	358	14	N	D	2	5	357
15	N	E	2	6	356	14	N	D	2	5	357
15	N	E	2	6	356	16	N	I	2	9	359
17	F	I	3	4	361	16	N	I	2	9	359
17	F	I	3	4	361	18	F	D	3	5	358
19	F	E	3	6	355	18	F	D	3	5	358
19	F	E	3	6	355	20	F	I	3	9	358
21	I	D	4	5	357	20	F	I	3	9	358
21	I	D	4	5	357	22	I	E	4	6	356
23	I	I	4	9	358	22	I	E	4	6	356
23	I	I	4	9	358	24	D	E	5	6	357
25	D	T	5	8	345	24	D	E	5	6	357
25	D	T	5	8	345	26	D	L	5	11	343
27	D	I	5	9	358	26	D	L	5	11	343
27	D	I	5	9	358	28	E	I	6	9	355

基于最大完全子图的关键字提取部6找到所有对应当前关键词中心的关键字匹配对后，对所有这些关键字匹配对建立一个图，如图7所示，其中图的每个顶点分别表示上述匹配对中的一个字符。如果在表一所示的一个字分割段出现了两个不同的字符识别结果，并且上述不同的字符识别结果均在标准关键词字典中当前要识别的关键词中包含了，那么分别将它们确定为不同的顶点。比如，表一中的第31项中有“O”和“E”两个识别结果，由于字符“O”和“E”都属于“CONFIDENTIAL”中的字符，无法判断出哪一个字符是错误的，所以把这两个识别结果都保留下来，分别作为一个顶点，从而对应于这一个字分割段得到了2个顶点。对所有与当前关键词中心相对应的关键词匹配对、连接每个关键词匹配对分别包含的两个顶点，从而构成了一个图结构。图7示出了对应于当前的关键词中心的峰值、根据与之对应的所有关键字匹配对画出的图。

然后在图7所示的图结构中寻找最大完全子图，最大完全子图是这样的图：在最大完全子图中，两两顶点之间都有连接、并且在该子图中包含的顶点个数最多。从以上对于关键词中心的估计过程可以看出，两两之间连接的关键字表示由这样的两个关键字估计出了同一个关键词中心，那么由于最大完全子图中的所有顶点之间都两两连通，所以可以判定：最大完全子图中的所有顶点都估计出了同一个关键词中心，因此可以将最大完全子图中包含的所有顶点对应的字符确定为对应于当前关键词中心的正确识别的关键字。

如图7所示，其中将表三中示出的、与当前的关键词中心相应的28个匹配对中的各个匹配对中包含的两个关键字连接起来，可以看出：关键字序号为0，2，3，4，5，6，9的关键字C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个顶点两两连通，这些顶点连接所组成的子图是一个最大完全子图，这些顶点代表的分割段互相之间没有重叠，而且都正确估计了同一个关键词中心，因此将这些顶点所表示的字符作为对应于当前关键词中心、正确识别的关键字。

在此，将当前关键词中心和这些正确识别的关键字作为关键词识别的基准。在基于最大子图的关键字识别之后，遗漏关键字识别部7利用表三中由关键字C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个顶点构成的每个关键字匹配对、以及标准关键词字典表二中存储的关于各个字符的中心位置信息以及各个字符之间的距离信息估计出其它需要识别的关键字(剩下的、还没有确定的关键字)的中心位置，并对各个需要识别的关键字的中心位置处的字符进行识别，判断在剪切图像中该位置处的字符是否对应于“CONFIDENTIAL”在该位置处的关键字，即，判断该计算出的字符中心位置处是否出现了预计的关键字，如果出现了预计的关键字，则将这一字符判断为在遗漏的该位置上正确的关键字。

例如在基于最大完全子图的关键字提取部6中已经确定了在剪切图像中包含了C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个关键字，那么与完整的“CONFIDENTIAL”相比，遗漏关键字识别部7预计应当在(1)的位置处出现“O”，在(7)的位置处出现“N ”，在(8)的位置处出现“T”，在(10)的位置处出现“A”，在(11)的位置处出现“L”，由于在“NT”和“AL”之间出现了粘连，所以对位置(1)处的字符进行识别，由于(1)的位置处的确出现了“O”，所以遗漏关键字识别部7可以判定此处的字符“O”为正确的字符。

进行上述字符识别的方法有很多，优选地，可以利用在表一中关于每一层的识别结果来进行上述判断，而不再重新进行识别。基于表一中的对于各个可能的字分割段的识别结果，如果某个可能的关键字分割段满足如下三个条件，那么就认为该可能的关键字分割段包含了预计的遗漏关键字：

1.该可能的关键字分割段和已经识别出来的关键字在位置上没有重叠；

2.估计出来的关键字的中心位置落在了该可能的关键字分割段的范围以内；

3.该可能的关键字分割段的识别结果中包含了需要识别的关键字。

经过遗漏关键字的判断之后，可以确定出“O”为遗漏的正确的关键字。

在识别出所有的遗漏关键字之后，还有一些关键字由于粘连的原因无法正确识别，因此最后利用粘连关联关键字识别部8进行粘连关键字的识别。

对于粘连关键字可以采用现有的方法来识别，优选地，可以采用直方图投影的方法，在待识别的剪切图像中，首先找到所有未经识别的关键字及其对应的图像片段，如果有2个或者2个以上的连续的未识别出的关键字，则判定这些字符之间发生了粘连，找出剪切图像中所有的这样图像片段并求这些图像片段的投影直方图。

如图5中所示，在“NT”和“AL”两处发生了粘连，图8中示出了图5中包含的六幅图像的垂直方向的投影直方图。投影直方图是本领域图像处理领域公知的技术，即对字符的灰度图像从字符上端的方向向字符下端投影，对与投影线相交的黑点像素累计求和，得到字符的灰度累计分布图，投影图上曲线的值表示在这个水平位置上黑色像素点的个数。两条竖线12和线13之间的部分是没有被识别出来的“AL”的部分。

图9中示出了保存在标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图，由于26个英文字符的标准投影直方图分别具有对应于各自形状的特定的分布，所以利用粘连字符“AL”的投影直方图信息可以找到标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图中对应的部分，如两条竖线14和15之间的部分，然后通过直方图匹配的方法来将图5中包含的六幅图像的垂直方向的投影直方图与标准投影直方图对准，直方图匹配的一个方式是：

1.把上述六幅图像的垂直方向的投影直方图伸缩至和标准关键词字典中的关键词“CONFIDENTIAL”的直方图相同的宽度；

2.通过求上述六幅图像的垂直方向的投影直方图和关键字字典中的关键词“CONFIDENTIAL”的直方图的一维数据的相关值，来求六幅图像的垂直方向的投影直方图与标准投影直方图的最佳匹配偏移量，并利用这个偏移量来对齐六幅图像的垂直方向的投影直方图与标准投影直方图；

3.最后，利用标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图的各个关键字的分割点(表二中示出)来确定上述六幅图像的垂直方向的投影直方图中的粘连部分的分割位置。

经过上述粘连切分之后，对被切分出来的剪切图像中的分割段进行字符识别，如果字符识别的结果和在该位置上预计应该出现的关键字相同，则粘连关键字识别部8认为粘连分割的结果是正确的结果，并识别出粘连的关键字。

图4e例示出进行基于最大完全子图的关键字提取、遗漏关键字提取和粘连关键字提取后得到的示意图，其中用阴影线示出了基于最大完全子图的关键字“C”、“N”、“F”、“I(5)”、“D”、“E”、“I(9)”，用斜线示出了基于遗漏的关键字的位置估计出的关键字“O”，用格线示出了粘连切分后识别出的粘连的关键字“T”、“A”和“L”。

此时，如果对应于标准关键词字典中的待识别的关键词“CONFIDENTIAL”来对剪切图案中的关键词进行上述判断，得到的正确识别的关键字的个数超过了“CONFIDENTIAL”的总个数(12个)的一定比例，则关键词确定部9可以认为包含共有图像的剪切图案中所包含的关键词是“CONFIDENTIAL”，例如，将该比例设定为70％，只有超过这个比例的关键词才认为待检测的图像中可能包含了目标关键词。在上述示例中识别出关键字“C”、“N”、“F”、“I”、“D”、“E”、“O”、“T”、“A”和“L”，即被识别出的关键字个数是11，总关键字个数是12个，因此识别比例是11/12＝91.7％，超过了给定的比例，因此关键词确定部9可以直接判断待检测的剪切图案中的确包含了“CONFIDENTIAL”这个关键词。

如前所述的，如果有超过一个关键词需要检测，则针对每个关键词都建立一个标准关键词字典，对标准关键词字典中的每个关键词通过上述过程得到一个被识别出来的关键字总个数。在关键词确定部9进行判断时，也可以对对应于每一个标准关键词字典中的关键词计算出上述识别出的总个数，用被识别的关键字个数除以关键词中的关键字个数，得到一个识别的比例，并判定具有最大识别比例的关键词是剪切图案中的确包含的关键词。

采用上述方法，利用了包含共有图像或文字的多幅图案或文档，从中剪切出包含共有图像或文字的多个剪切图像，最大程度地利用了多福图像中包含的信息，克服解决了由于遮挡、粘连等原因而使得每一幅图像中都没有包含完整的共有图像的信息、无法正确识别共有这一技术问题；并且，利用共有关键词中包含的各个关键字之间的位置关系、各个关键字与关键词中心的位置关系，使各个关键字相互校验，判断出正确的关键字，实现了高效准确的共有图像或文字的识别。

实施例2

附图10示出了根据本发明的第二实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图，第二实施例与第一实施例中的关键词识别装置的区别仅在于：在关键词字典生成部4和关键词中心位置估计部5之间还具有一个关键字匹配对筛选部10。

在利用关键词中心位置估计部5进行估计关键词中心位置的投票之前，利用关键字匹配对筛选部10进行关键字匹配对的筛选，删除位置重叠、代码相同的关键字匹配对、以减少用以估计关键词中心位置的投票所需的时间。

例如，表一中的序号(00和04)同序号(01和05)中识别出的字符中都分别包含“C”和“O”，都能作为表二中的序号为“01”中的关键字组合对“CO”的关键字匹配对，但是两个C和两个O之间在位置上分别都重叠了，在实际中是不可能在重叠的位置出现两个相同的字符的，正确的匹配对不可能在位置上和代码上发生冲突，这说明这两对中有一对是错误的，因此关键字匹配对筛选部10只保留匹配对中的两个关键字的识别距离之和最小的那个关键字匹配对(识别距离越小代表识别越可靠)。

在此，表一中的序号(00和04)中的“C”和“O”识别距离之和的最小值为：序号00中的第五层识别距离793(在序号00中的六个识别距离中的最小值)+序号04中的第一层识别距离920＝1713，序号(01和05)中的“℃”和“O ”的识别距离之和为694+920＝1614，因此关键字匹配对筛选部10只保留序号01和05中的“C”和“O”构成的关键字匹配对“CO”，删除序号01和04中的“C ”和“O”构成的关键字匹配对“CO”。

通过利用关键字匹配对筛选部10删除冗余的关键字匹配对，可以大大减小用于关键词中心位置估计的时间，从而缩短了关键词识别所需的时间，大大提高了关键词识别的效率。

实施例3

在实施例3中，进行共有图像中包含的关键词的识别的过程与第一种或第二种相同，不同之处仅在于，在进行共有关键词的识别时，有可能会出现输入的文档颠倒的情况，即每一幅文档中需要识别的共有关键词都是反的，为了对这种情况下的共有关键词也进行正确的识别，在字符识别部3中对每个可能的关键字分割段中的字符进行正反连次识别，如某个关键字分割段中包含的字符都是反的(“A”是反过来的“

”)，字符识别部对确定所有的可能的关键字分割段中的字符都进行正反两次识别，从而得到两组关于关键字分割段中的字符识别结果，并将两组字符识别结果分别输入关键词中心位置估计部5中，进行后续的估计，后面的进行关键字提取的方法和实施例1和2中相同。

采用优选地实施方式3，可以更好地避免在用户由于疏忽使放入的文档上下颠倒时，也能正确地识别出多幅图像中共有的关键词，从而例如在复制机密文档时，仍然能够有效地防止机密信息的泄露。

本发明中的关键词识别装置和方法可以应用于扫描仪、复印机或多功能一体机等设备中，使得该扫描仪、复印机或多功能一体机等设备可以从多幅包含共有图像或文字的图像或文档中提取出共有图像或文字，这里共有的图案或文字可以是嵌入在其中的水印，从而对文档进行管理，防止机密文件的复制、扫描等。当然，上述关键词的检测装置和方法也可以被用于其他需要识别共有图像或文字的场合。

此外，虽然本申请以具有共有图像的PPT为例子进行了说明，但是，显然，上述关键词识别装置和方法并不限于PPT文件，同样也可以被用于word文档、pdf文件、其他格式的文本文件、或者各种图像格式的文件中的共有图像或文字的识别。

此外，虽然本发明中以关键词“CONFIDENTIAL”为例进行了说明，但是，显然，上述关键词的检测装置和方法可以根据实际应用的需要在标准关键词字典中建立多个关键词的信息，关键词的数量不受限制，可以根据实际的需要进行选择。另外上述识别方法也并不限于用于英文关键词的识别，其同样可以被用于进行中文、法文、德文、希腊语等等其他各种语言的文字进行识别。

此外，显然，根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。

而且，本发明的目的也可以通过下述方式实现：将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备，并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。

此时，只要该系统或者设备具有执行程序的功能，则本发明的实施方式不局限于程序，并且该程序也可以是任意的形式，例如，目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。

上述这些机器可读存储介质包括但不限于：各种存储器和存储单元，半导体设备，磁盘单元例如光、磁和磁光盘，以及其它适于存储信息的介质等。

另外，客户计算机通过连接到因特网上的相应网站，并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序，也可以实现本发明。

以上虽然结合附图详细描述了本发明的实施例，但是应当明白，上面所描述的实施方式只是用于说明本发明，而并不构成对本发明的限制。对于本领域的技术人员来说，可以对上述实施方式做出各种修改和变更而没有背离本发明的实质和范围。因此，本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims

1、一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别方法，该方法包括：

根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图；

根据上述二值前景累积图确定其分割点，并确定可能的关键字分割段；

对所有可能的关键字分割段中的对象进行字符识别，得到对应于所有可能的关键字分割段的识别字符；

针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词，执行下列步骤：

利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置，所述关键字匹配对是由各个标准关键词中包含的关键字构成的，所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的；

将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点，生成一个图，并利用包含的两两均连通的顶点个数最多的、所述图中的最大完全子图来确定正确的关键字；

基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词，确定遗漏关键字；

基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词，识别粘连关键字；

根据针对所述各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字，判定所述共有关键词包含哪一个标准关键词。

2、根据权利要求1所述的关键词识别方法，其中，在估计共有关键词中心的位置之前，删除位置重叠、由相同字符构成的多个关键字匹配对中的关键字识别距离之和不是最小的关键字匹配对。

3、根据权利要求1或2所述的关键词识别方法，其中，由所述各个标准关键词中包含的所有关键字两两组合、构成所述关键字组合对。

4、根据权利要求1或2所述的关键词识别方法，其中，利用可继承分割方法确定所述可能的关键字分割段。

5、根据权利要求1或2所述的关键词识别方法，其中，利用关键字组合对中的关键字之间的距离与相应关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。

6、一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别装置，该装置包括：

根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图的装置；

分割部，其确定所述二值前景累积图的分割点；

可能的关键字分割段确定部，其根据所述分割点确定所有可能的关键字分割段；

字符识别部，其对所有可能的关键字分割段中的对象进行字符识别，得到对应于所有可能的关键字分割段的识别字符；

关键词中心位置估计部，其针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词、利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置，所述关键字组合对是由所述各个标准关键词中包含的关键字构成的，所述关键字匹配对是由上述识别字符中包含的、与关键字组合对的字符相同的字符构成的；

基于最大完全子图的关键字提取部，其将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点，生成一个图，并利用所述图中的最大完全子图来确定正确的关键字，所述最大完全子图中包含的两两均连通的顶点个数最多的；

遗漏关键字识别部，其基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词，确定遗漏关键字；

粘连关键字识别部，其基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词，识别粘连关键字；

关键词确定部，根据针对各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字，判定所述共有关键词包含所述标准字典中的哪一个关键词。

7、根据权利要求6所述的关键词识别装置，其还包括关键字匹配对筛选部，关键字匹配对筛选部在关键词中心位置估计部估计共有关键词中心的位置之前，删除位置重叠、包含的字符相同的多个关键字匹配对中关键字识别距离之和不是最小的关键字匹配对。

8、根据权利要求6或7所述的关键词识别装置，其中，由所述各个标准关键词中包含的所有关键字两两组合，构成所述关键字组合对。

9、根据权利要求6或7所述的关键词识别装置，其中，所述分割部利用可继承分割方法确定所述可能的关键字分割段。

10、根据权利要求6或7所述的关键词识别装置，其中，所述关键词中心位置估计部利用关键字组合对中的关键字之间的距离与相应的关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。