CN101571921A - 关键字识别方法和装置 - Google Patents

关键字识别方法和装置 Download PDF

Info

Publication number
CN101571921A
CN101571921A CNA2008100912990A CN200810091299A CN101571921A CN 101571921 A CN101571921 A CN 101571921A CN A2008100912990 A CNA2008100912990 A CN A2008100912990A CN 200810091299 A CN200810091299 A CN 200810091299A CN 101571921 A CN101571921 A CN 101571921A
Authority
CN
China
Prior art keywords
keyword
key word
character
center
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100912990A
Other languages
English (en)
Other versions
CN101571921B (zh
Inventor
孙俊
藤井勇作
武部浩明
藤本克仁
直井聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN2008100912990A priority Critical patent/CN101571921B/zh
Priority to JP2009106923A priority patent/JP5240047B2/ja
Publication of CN101571921A publication Critical patent/CN101571921A/zh
Application granted granted Critical
Publication of CN101571921B publication Critical patent/CN101571921B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

一种关键词识别方法和装置。其对多幅包含共有关键词的图案或文档中包含的共有关键词进行识别,首先根据包含共有关键词的区域的灰度值生成二值前景累积图,并确定可能的关键字分割段,识别出对应于每个可能的关键字分割段的识别字符,利用标准关键词中包含的关键字构成的关键字组合对与上述识别字符构成的关键字匹配对的对应关系、估计关键词中心的位置,利用对应于上述关键词中心的关键字匹配对生成一个图,利用图中的最大完全子图确定识别字符中正确的关键字,并识别出遗漏关键字和粘连关键字,判定上述共有关键词中包含了具有最大识别比例的关键词。

Description

关键字识别方法和装置
技术领域
本发明涉及关键字的识别方法和装置,尤其是涉及从多页具有共有图像或文字的图像或文档中提取共有的关键词的方法和装置。
背景技术
现有的字符识别方法一般是对于没有被遮挡的完整的信息进行字符识别,在图1中示出的六幅PPT文档中,虽然每一幅图像中都存在单词“CONFIDENTIAL”,但是没有一幅图像包含了完整的关键词“CONFIDENTIAL”,每一幅图案中都有文字或图案遮挡了关键词的一部分,这导致关键词中字母的缺失或者字形的退化,由于常用的字符识别方法利用的是动态规划方法来进行字符串的识别,字形的退化会导致识别距离的不可靠,从而导致字符串识别的失败。并且,通用的字符识别方法一次只能够处理一幅图像中的字符识别问题,而没有结合多幅图像中的信息来进行识别,从而无法对图1中示出的关键词进行理想的识别。
在非专利文献:H.Takebe,K.Fujimoto.“Word extraction methodby generating multiple character hypotheses”,IEICE Technical report,PRMU2007-217:19-24,2007.中公开了一种基于文档中包含的字符的左右位置关系、利用最大完全子图来判断是否有存在某个字符串的可能的技术方案。但是这种判断只是一种较为粗略的估计,只能确定在一个文档中存在具有某种位置关系的多个字符,并不能肯定地判断在文档中存在一个特定的字符串,并且,其中,需要识别的字符本身并没有被遮挡。
因此,需要一种能够比较准确地和/或令人满意地从多页具有共有图像或文字的图案或文档中提取共有的关键词的技术,其能够克服现有技术中的上述缺陷,即使在因各种原因而导致共有图像劣化的情况下,也能够获得令人满意的结果。本发明就是致力于解决上述的一个或多个问题。
发明内容
本发明要解决的问题是从多幅背景复杂并具有遮挡的图像或文档中识别共有图像或文字。
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。对于本领域普通技术人员而言,本发明的下述各个方面和由所附独立权利要求限定的方案可以与本发明中的实施例和/或从属权利要求进行任意可能的适当组合。
本发明第一方面提供了一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别方法,该方法包括:根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图;根据上述二值前景累积图确定其分割点,并确定可能的关键字分割段;对所有可能的关键字分割段中的对象进行字符识别,得到对应于所有可能的关键字分割段的识别字符;针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词,执行下列步骤:利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置,所述关键字匹配对是由各个标准关键词中包含的关键字构成的,所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的;将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点,生成一个图,并利用包含的两两均连通的顶点个数最多的、所述图中的最大完全子图来确定正确的关键字;基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词,确定遗漏关键字;基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词,识别粘连关键字;根据针对所述各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字,判定所述共有关键词包含哪一个标准关键词。
根据本发明第二方面的关键词识别方法,其中,在估计共有图像中关键词中心的位置之前,删除位置重叠、由相同字符构成的多个关键字匹配对中的关键字识别距离之和不是最小的关键字匹配对。
根据本发明第一或第二方面的关键词识别方法,其中,由所述各个标准关键词中包含的所有关键字两两组合、构成所述关键字组合对。
根据本发明第一或第二方面的关键词识别方法,其中,利用可继承分割方法确定所述可能的关键字分割段。
根据本发明第一或第二方面的关键词识别方法,其中,利用关键字组合对中的关键字之间的距离与相应关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。
根据本发明第一或第二方面的关键词识别方法,其中对可能的关键字分割段中的字符分别进行正反两次识别,利用识别出的正反两组字符进行关键词中心估计。
根据本发明第一或第二方面的关键词识别方法,其中,将相对于当前关键词、正确识别的关键字的比例超过一个预定值时,认为当前关键词为共有关键词中包含的关键词。
根据本发明第一或第二方面的关键词识别方法,其中将相对于所述标准关键词字典中、正确识别的关键字的比例最高的关键词判定为共有关键词中包含的关键词。
本发明第三方面提供了一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别装置,该装置包括:根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图的装置;分割部,其确定所述二值前景累积图的分割点;可能的关键字分割段确定部,其根据所述分割点确定所有可能的关键字分割段;字符识别部,其对所有可能的关键字分割段中的对象进行字符识别,得到对应于所有可能的关键字分割段的识别字符;关键词中心位置估计部,其针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词、利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置,所述关键字组合对是由所述各个标准关键词中包含的关键字构成的,所述关键字匹配对是由上述识别字符中包含的、与关键字组合对的字符相同的字符构成的;基于最大完全子图的关键字提取部,其将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点,生成一个图,并利用所述图中的最大完全子图来确定正确的关键字,所述最大完全子图中包含的两两均连通的顶点个数最多的;遗漏关键字识别部,其基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词,确定遗漏关键字;粘连关键字识别部,其基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词,识别粘连关键字;关键词确定部,根据针对各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字,判定所述共有关键词包含所述标准字典中的哪一个关键词。
根据本发明第四方面的关键词识别装置,其还包括关键字匹配对筛选部,关键字匹配对筛选部在关键词中心位置估计部估计共有关键词中心的位置之前,删除位置重叠、包含的字符相同的多个关键字匹配对中关键字识别距离之和不是最小的关键字匹配对。
根据本发明第三或第四方面的关键词识别装置,其中,由所述各个标准关键词中包含的所有关键字两两组合,构成所述关键字组合对。
根据本发明第三或第四方面的关键词识别装置,其中,分割部利用可继承分割方法确定所述可能的关键字分割段。
根据本发明第三或第四方面的关键词识别装置,其中,所述关键词中心位置估计部利用关键字组合对中的关键字之间的距离与相应的关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。
根据本发明第三或第四方面的关键词识别装置,其中字符识别部对可能的关键字分割段中的字符分别进行正反两次识别,将识别出的正反两组字符输入关键词中心位置估计部,进行关键词中心估计。
根据本发明第三或第四方面的关键词识别装置,其中关键词识别部将相对于当前关键词、正确识别的关键字的比例超过一个预定值时,认为当前关键词为共有关键词中包含的关键词。
根据本发明第三或第四方面的关键词识别装置,其中关键词识别部将相对于所述标准关键词字典中、正确识别的关键字的比例最高的关键词判定为共有关键词中包含的关键词。
根据本发明第三或第四方面的关键词识别装置,其中字符识别部对可能的关键字分割段中的字符分别进行正反两次识别,将识别出的正反两组字符输入关键词中心位置估计部,进行关键词中心估计。
本发明第五方面提供了一种计算机程序,所述计算机程序使得计算机可以执行下列步骤:根据上述多幅图案或文档中包含共有关键词的区域的灰度值生成二值前景累积图;根据上述二值前景累积图确定可能的关键字分割段;对所有可能的关键字分割段中的图案进行字符识别,得到对应于每个可能的关键字分割段的识别字符;利用标准关键词中包含的关键字构成的关键字组合对与关键字匹配对的对应关系、估计关键词中心的位置,所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的;将对应于上述关键词中心的多个关键字匹配对中包含的识别字符作为一个图的顶点、使其互相连通,得到最大完全子图,将包含的顶点个数最多的最大完全子图对应的关键词中心作为真正的关键词中心,将包含的顶点个数最多的最大完全子图的各个顶点对应的字符作为正确的关键字;基于上述正确的关键字和关键词中心以及标准关键词,确定遗漏关键字;基于上述正确的关键字、确定的遗漏关键字、关键词中心以及标准关键词,识别粘连关键字;判定上述共有关键词中包含了具有最大识别比例的关键词,具有最大识别比例的关键词是这样的关键词:对应于具有最大识别比例的关键词识别出的正确的关键字、确定的遗漏关键字和粘连关键字的总个数最多。
本发明第六方面提供了一种存储介质,在该存储介质上存储了如本发明第三方面所述的计算机程序。
以下结合附图对本发明的实施例进行详细说明。
附图说明
以下将参照下面的附图对实施例进行解释,以下示例仅仅是作为一种示例而非意于限制本发明,其中:
图1例示出了带有共有关键词“CONFIDENTIAL”的六幅PPT;
图2示出根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图;
图3示出了根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别方法的流程图;
图4中给出了根据本发明第一实施例的用于识别多幅图像中的共有图像的关键词识别方法的图解;
图4a例示出对图1中的六幅PPT图像经过位置对准后、从其中分别剪切出的、包含关键词“CONFIDENTIAL”的六个灰度图案;
图4b例示出去除了剪切图像中的背景之后得到的前景图;
图4c例示出根据图4b中的前景图得到的二值前景累积图;
图4d例示出进行可继承字符分隔后得到的最终的分割点;
图4e例示出进行基于最大完全子图的关键字提取、遗漏关键字提取和粘连关键字提取后得到的示意图;
图4f图示出对估计出的关键词中心位置进行投票的投票结果;
图5显示了针对图4c中的二值前景累计图进行可继承分割的示意图;
图6示出了针对图4c中的二值前景累计图进行可继承分割的流程图;
图7示出了针对标准关键词字典中的关键词“CONFIDENTIAL”进行基于最大完全子图的关键字提取的示意图;
图8显示的是图5中包含的六幅图像的垂直方向的投影直方图;
图9中示出了保存在标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图;
图10示出根据本发明第二实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图。
具体实施方式
图1中示出了带有共有关键词“CONFIDENTIAL”的六幅PPT,可以看出,在这六幅图像中,关键词“CONFIDENTIAL”由于遮挡等原因都是残缺不全的,这使得从其中任何单幅图像中都不能找出完整的关键词,从而无法仅根据其中任何一幅图像正确地识别出关键词。
图2中示出了本发明中的用于关键词识别的装置的结构。接下来结合图2中示出的各个部件来具体说明。
本发明中结合多幅具有共有图像的图像来进行关键词的识别,首先,将图1中示出的六幅PPT图像进行位置上的对准,进行图像对准例如可以采用本申请人之前提出的专利申请号为2008100087720.2,发明名称为“图像处理方法和装置及水印检测系统”中记载的方法,但是并不限于采用这一方法,现有的进行图像对准的方法均可以用于本发明进行图像对准。
将包含共有关键词“CONFIDENTIAL”的图像分别从多幅PPT图像中剪切出来,由于每幅图像中的关键词均在一定程度上被文字或图像遮挡,所以剪切出的图像中除了包括关键词和背景图像(例如白色、灰色的纯色背景或其他带有底纹的背景),还包括遮挡关键词的文字或者图案,以下将遮挡关键词的文字或者图案简称为遮挡图案。
图4a中示出了对图1中的六幅PPT图像经过位置对准后、从其中分别剪切出的、包含关键词“CONFIDENTIAL”的六个灰度图案,对于这六个灰度图案,首先进行背景去除,从而仅保留关键词的图案和遮挡图案(在此将包括关键词和遮挡图案的图案称为前景图案,以与上述背景图案进行区分),进行背景去除的方法有很多种,例如可以使用如下方式:
首先,利用公式(1)针对剪切出的六幅图像中的每一个像素点、求在该像素点的图像灰度的均值和方差:
M xy = 1 6 Σ i = 1 6 G i xy , V xy = 1 6 Σ i = 1 6 ( G i xy - M xy ) ( G i xy - M xy ) - - - ( 1 )
其中,i表示剪切出的图像的序号,i≤N,如图4a所示,(x,y)表示在一幅剪切图像中的像素点的坐标位置,每一幅图像中的坐标原点(0,0)可以选取剪切图像左下方的点A,显然,坐标原点的选取并不是限于这一点,Gixy表示在第i幅剪切图像中、在像素点(x,y)处的灰度值,Mxy表示六幅剪切图像中相同位置(x,y)处的灰度均值,Vx表示在所述一个位置(x,y)处的方差值。
一般而言,背景点的数目远大于前景点的数目,由于不同图像中背景像素点的灰度变化不大,而前景像素点的灰度变化较大,因此可以通过设置一个方差阈值(比如方差的平均值),找出方差值小于方差阈值的所有像素点,如此计算得到的方差值小于方差阈值的像素点中有可能包括方差变化很小的背景点以及方差变化很小的关键词笔画点。由于关键词笔画的灰度和背景点灰度有差异,因此,可以把方差值小于方差阈值的点根据其灰度分成两类,假设背景点的个数多于关键词笔画点,就可以从分类的结果中把背景点确定下来。根据灰度分类的方法很多,例如可以简单地计算所有点的平均灰度值作为阈值来进行两类的划分。图4b示出了背景去除之后的前景图。前景图中背景像素点的灰度被统一赋值为255。
从去除背景图案之后的六个前景图案中,可以得到六个图像的前景累积灰度图,前景累计灰度图的计算公式(2)如下,其中将灰度值小于255的像素点对应的值设定为1,当然,此处选取的值255仅是作为一种示例,也可以将其设定为其他的值:
P xy = &Sigma; i = 1 6 1 G xy i < 255 0 G xy i = 255 - - - ( 2 )
在上式中,i表示六个图像中每个图像的序号,x和y分别表示在每幅剪切图像中的像素点在x方向和y方向位置的值,Pxy表示在(x,y)处的六个图像的前景累积灰度值。从上式可以看出,前景累积灰度图中每个点的累积灰度值的最大值是包含共有关键词的图像的个数N,此处N=6。当六个剪切图像在某一位置(x,y)处的灰度值均为255时,Pxy即为0,当六个剪切图像中只有一幅图像在(x,y)处的灰度值小于255时,Pxy即为1,依次类推,当六个剪切图像中的所有图像在(x,y)处的灰度值小于255时,Pxy即为6。
利用公式(3)可以从前景累积灰度图得到如图4c所示的二值前景累积图:
B xy i = 255 P xy < i 0 P xy &GreaterEqual; i - - - ( 3 )
二值前景累积图包括N层,N等于包含共有关键词的剪切图像的个数,此处N=6。如公式(3)所示,在第i层二值前景累计图中,如果取值是255,表示至少有i幅图像在点(x,y)处是前景点,如果取值是0,则表示最多i-1幅图像在点(x,y)处是前景点,如图4c所示,最上层(此处对应于i=6)中的黑点代表在六幅剪切图像中都是前景点的点,第二层(此处对应于i=5)代表至少在N-1(此处为5)幅图像中是前景点的点,依此类推,最下面的一层(此处对应于i=1)代表在N层中至少出现过一次前景点的点。
上述生成二值前景累积图的过程仅仅是作为一种示例,对于本领域普通技术人员而言,还存在很多其他的方式来生成二值前景累积图,在此不再赘述。
上述二值前景累积图是后面进行关键词识别的基础,将生成的二值前景累积图提供给图2中示出的分割部1,分割部1根据二值前景累积图中的空白段对其进行分割。在此,分割部1利用可继承字符分割方法进行分割,当然,进行分割的方法有很多种,在这里仅仅是以可继承字符分割方法作为一种示例进行说明。
图5显示了分割部1针对二值前景累计图进行可继承分割的示意图。首先,在每一层关键词图像中找出在黑色的像素点之间的空白段,将其作为空白分割段,这些空白分割段的中点代表物理分割点,如图5中的在图中用虚线的分割线表示。然后,对物理分割点进行合并和继承。从第二层开始,对上一层的每一个空白分割段,检查在本层是否存在一个空白分割段和它有重叠。从前述二值前景累积图的生成方式可以看出,下层的二值累积图像总是完全包含上层的二值累积图像,因此如果下层的空白分割段和上层空白分割段有重合的话,那么下层的空白分割段所代表的分割信息应当更加精确,所以用下层空白分割段的中点来代替上层空白分割段的中点,这就是物理分割点的合并过程。如果上层物理分割段和下层的没有重合,这意味着下层图像在这个分割段范围之内发生了粘连,则把从上层物理分割段得到的物理分割点当作下层的粘连分割点(在图中用实线的分割线表示),这个过程就是物理分割点的继承。最下面那层图中的分割点代表最终的分割结果。
由于前述的待识别的剪切图像中的关键词被遮挡或者粘连等原因,虽然如上所述得到了分割结果,但是如图5所示,此时得到的分割结果有可能将关键字从中切断、所以仍然无法确定关键字的正确的分割位置,所以在得到最终的所有分割点之后,需要从这些分割点中计算出所有可能的关键字分割段。
分割部1将得到的最终的分割结果提供给可能的关键字分割段确定部2,以找到所有可能的关键字分割段。首先,假设切出来的关键词图像的高度就是关键词中的关键字高度,并预先设定一个关键字分割段的最大宽度与关键字高度的比例关系,例如可以将关键字分割段的最大宽度设定为关键字高度的1.5倍(此处1.5倍只是作为一个示例,根据实际情况,可以将其设定为其他值,例如1,2等等),然后找出所有满足这个关键字宽度条件的所有分割段以及分割段的组合,将其确定为可能的关键字分割段。得到可能的关键字分割段之后,可能的关键字分割段确定部2将确定的可能的关键字分割段提供给字符识别部3,字符识别部3再对N层图像中、每个可能的关键字分割段中的图像进行字符识别。结果如表一所示:
表一:字分割段及其识别结果
  序号   分割段起点坐标,分割段终点坐标   第1层识别结果   第1层识别距离   第2层识别结果   第2层识别距离   第3层识别结果   第3层识别距离   第4层识别结果   第4层识别距离   第5层识别结果   第5层识别距离   第6层识别结果   第6层识别距离
00 (081 114) C 903 C 861 C 855 C 801 C 793 C 845
  01   (081 120)   C   903   C   835   C   817   C   727   C   694   C   857
  02   (081 135)   C   903   C   900   C   847   C   823   C   837   G   798
  03   (081 159)   C   903   O   925   Q   902   Q   872   Q   851   Q   845
  04   (115 120)   O   920   N   868   J   924   J   922   J   922   I   866
  05   (115 135)   O   920   J   924   J   922   J   903   J   928   I   903
  06   (115 159)   O   920   L   928   J   943   X   920   A   888   H   838
  07   (115 193)   O   920   O   929   O   942   M   920   M   882   W   806
  08   (121 135)   O   920   J   893   J   901   J   932   I   935   I   817
  09   (121 159)   O   920   J   899   J   930   K   925   W   893   H   869
  10   (121 193)   O   920   O   928   Q   940   M   907   M   870   M   782
  11   (136 159)   O   920   M   759   L   949   L   939   X   885   I   895
  12   (136 193)   O   920   J   939   O   917   O   832   Q   879   W   887
  13   (136 211)   M   887   O   938   U   931   Q   892   W   880   W   837
  14   (160 193)   O   920   O   924   J   912   D   910   D   879   B   908
  15   (160 211)   M   887   U   937   M   910   M   848   N   745   M   790
  16   (194 211)   M   887   J   895   I   865   I   837   J   821   I   818
  17   (194 249)   J   909   N   837   N   757   N   745   N   810   M   859
  18   (194 270)   U   940   M   916   M   848   M   824   M   821   M   785
  19   (212 249)   N   858   M   935   V   908   V   907   V   932   E   880
  20   (212 270)   C   933   M   906   W   892   M   870   M   832   M   782
  21   (212 290)   J   932   W   935   W   916   W   897   W   863   W   788
  22   (250 270)   I   879   I   851   I   759   I   808   I   831   I   597
  23   (250 290)   F   932   F   884   F   827   T   879   F   859   E   867
  24   (250 312)   M   924   M   918   M   904   M   911   M   899   M   800
  25   (271 290)   M   856   J   922   D   938   P   933   P   927   I   833
  26   (271 312)   U   905   U   912   U   906   U   906   H   904   B   864
  27   (291 312)   I   629   I   663   I   620   I   740   I   702   I   757
  28   (313 366)   D   749   D   732   D   717   D   783   D   837   M   877
  29   (367 408)   T   908   E   905   L   905   E   854   B   858   B   858
  30   (367 442)   U   941   U   934   M   928   M   851   M   720   M   719
  31   (409 442)   O   936   L   938   J   912   E   878   B   866   B   866
  32   (443 511)   W   929   W   934   M   919   M   798   M   718   M   697
  33   (512 533)   I   833   I   889   I   817   I   773   I   669   I   656
  34   (534 610)   M   941   M   917   M   908   M   887   M   882   W   871
  35   (611 625)   J   740   J   688   J   682   J   626   J   701   J   754
  36   (611 655)   J   740   J   688   J   682   L   932   L   933   L   935
  37   (647 655)   O   920   O   920   O   920   H   917   W   907   W   886
  38   (647 707)   O   920   O   920   O   920   J   929   J   927   J   928
  39   (675 707)   O   920   O   920   O   920   I   931   I   930   I   930
表一中,第二栏中的分割段起点坐标表示某一个可能的关键字分割段的起点坐标值,分割段终点坐标表示某一个可能的关键字分割段的终点坐标值。如前所述,将可能的关键字分割段的宽度设定为小于等于关键字的高度的约1.5倍,此处假定已知关键字的高度为55像素点,因此可能的关键字分割段的最大宽度为82个像素点。基于此,可以确定出表一中第二栏中示出的39个可能的关键字分割段。
具体地,如附图5所示,分割点1至坐标起点(0,0)的距离为081个像素点,对应于坐标值为081,分割点2至坐标起点(0,0)的距离为114个像素点,对应于坐标值为114,分割点1至分割点2的分割段由(081114)表示,由于114-081=33,即这一分割段的宽度小于可能的关键字的分割段的最大宽度82,所以可能的关键字分割段确定部2将其确定为第一个可能的关键字分割段;分割点1至分割点3的分割段由(081 120)表示,可能的关键字分割段确定部2将其确定为第二个可能的关键字分割段;依次类推,分割点1至分割点4的分割段由(081 159)表示,被确定为第4个可能的关键字分割段;分割点1至分割点5的分割段的宽度为193-081=112个像素点,112大于最大的可能的关键字分割段的宽度082,因此不被确定为可能的关键字分割段。确定出所有以0081为起点的可能的关键字分割段后,以第二个分割点后的第一个像素点为起点再依次确定可能的关键字分割段(因为已经确定0114在分割段(0081,0114)中,所以以其后面的第一个分割点为起点),例如:在此以0114后的第一个像素点0115为起点确定出了分割段(0115,120)等,依次类推,可能的关键字分割段确定部2确定出所有可能的关键字分割段。
在表一的每一行中,还包括六个关键字识别结果和六个关键字识别距离,六个关键字识别结果分别表示字符识别部3对于每一层中的每一个可能的关键字分割段中的图案的识别结果,六个关键字识别距离分别表示:每一层中的每一个可能的关键字分割段中的图案的灰度矢量(将每个关键字识别段中的图案例如划分为8*8的块,每个块的灰度平均值构成的矢量值,在此不再详述)与用于字符识别的标准字库中关于26个字母的标准灰度矢量之间的矢量距离,该识别距离的值越小、表明其对应的识别的结果越准确。
字符识别部3将表一中的(分割段起点坐标,分割段终点坐标),识别出的第一层识别结果,第一层识别距离,第二层识别结果,第二层识别距离,......,第六层识别结果,第六层识别距离分别提供给以下将要说明的关键词中心位置估计部5,用于进行关键词中心的位置估计。
从图5和表一可以看出,由于二值前景累积图中有很多噪声存在,因此识别的结果非常不稳定,并且还有一些字符可能完全被遮挡(如DEN中的N),直接找到可能的CONFIDENTIAL组合是非常困难的。因此,本发明中采用标准关键词字典生成部4生成待识别的所有关键词信息的标准关键词字典,例如预先存储“CONFIDENTIAL”、“DO NOT COPY”、“NO COPY”、“TOP SECRET”、“SECRET”、“INTERNAL USE ONLY”、“ORIGINAL”等有关文件的机密程度的关键词的信息,当然这些词语仅仅是作为示例,标准关键词字典中存储的待识别的信息并不限于这些有关机密程度的词语的信息,标准关键词字典生成部5可以根据实际的需要、生成包括所有待识别的关键词的信息的标准关键词字典。
首先,标准关键词字典生成部4将每个关键词图像归一化到统一的宽度和高度,例如按比例伸缩、使其宽度为1000像素点。然后求每个关键词图像中包含的每个字符的中心点的位置以及字符之间的切分点,这里,每个字符的中心点的位置可以是该字符的中心到该关键词第一个字母的中心的相对距离,当然也可以是该字符的中心到该关键词的第一个字母的最左边的边缘点之间的相对距离,这个位置的起点是如何确定的并不重要,重要的是利用上述各个字符的中心的位置可以确定出该关键词中包含的任意两个字母之间的相对距离、以及任意一个字母到该关键词中心的相对距离。接下来,利用上述位置信息和分割点,标准关键词字典生成部4对关键词中的每个关键字进行编号,找出由该关键词中包括的所有字符两两组成的、所有关键字组合对,并统计每个关键字组合对的如下信息:关键字组合对序号、关键字组合对中的两个字符、关键字组合对中两个关键字的序号、关键字组合对中两个关键字中心点之间的距离、关键字组合对中第一个字符(左边的字符,这里并不限于第一个字符,显然也可以利用第二个字符到关键词中心的距离)距离关键词中心的距离。
对于每个关键词、标准关键词字典生成部4选择多个不同的字体的该关键词,对于每个字体的该关键词都计算上述位置信息和距离信息,对针对每个关键词的位置信息和距离信息分别取平均值,就得到了最终的标准关键词字典。对于关键词“CONFIDENTIAL”来说,标准关键词字典中的内容如表二所示:
表二“CONFIDENTIAL”标准关键词字典
“CONFIDENTIAL”中包含的所有字符及其中心位置如下所示(下列位置的单位是像素点):
  C   O   N   F   I   D   E   N   T   I   A   L
  039   138   240   332   392   466   560   653   744   809   877   964
“CONFIDENTIAL”中包含的所有字符之间的分割点位置如下所示:
  CO   ON   NF   FI   ID   DE   EN   NT   TI   IA   AL
  080   175   278   358   408   504   594   697   779   825   921
关键字组合对信息:
  序号   关键字组合对的编码   第一个关键字的序号   第二个关键字的序号   两个关键字之间的距离   第一个关键字距中心的距离
  01   CO   00   01   99   461
  02   CN   00   02   201   461
  03   CF   00   03   293   461
  04   CI   00   04   353   461
  05   CD   00   05   427   461
  06   CE   00   06   521   461
  07   CN   00   07   614   461
  08   CT   00   08   705   461
  09   CI   00   09   770   461
  10   CA   00   10   838   461
  11   CL   00   11   925   461
  12   ON   01   02   102   362
  13   OF   01   03   194   362
  14   OI   01   04   254   362
  15   OD   01   05   328   362
  16   OE   01   06   422   362
  17   ON   01   07   515   362
  18   OT   01   08   606   362
  19   OI   01   09   671   362
  20   OA   01   10   739   362
  21   OL   01   11   826   362
  22   NF   02   03   92   260
  23   NI   02   04   152   260
  24   ND   02   05   226   260
  25   NE   02   06   320   260
  26   NN   02   07   413   260
  27   NT   02   08   504   260
  28   NI   02   09   569   260
  29   NA   02   10   637   260
  30   NL   02   11   724   260
  31   FI   03   04   60   168
  32   FD   03   05   134   168
  33   FE   03   06   228   168
  34   FN   03   07   321   168
  35   FT   03   08   412   168
  36   FI   03   09   477   168
  37   FA   03   10   545   168
  38   FL   03   11   632   168
  39   ID   04   05   74   108
  40   IE   04   06   168   108
  41   IN   04   07   261   108
  42   IT   04   08   352   108
  43   II   04   09   417   108
  44   IA   04   10   485   108
  45   IL   04   11   572   108
  46   DE   05   06   94   34
  47   DN   05   07   187   34
  48   DT   05   08   278   34
  49   DI   05   09   343   34
  50   DA   05   10   411   34
  51   DL   05   11   498   34
  52   EN   06   07   93   60
  53   ET   06   08   184   60
  54   EI   06   09   249   60
55 EA 06 10 317 60
  56   EL   06   11   404   60
  57   NT   07   08   91   153
  58   NI   07   09   156   153
  59   NA   07   10   224   153
  60   NL   07   11   311   153
  61   TI   08   09   65   244
  62   TA   08   10   133   244
  63   TL   08   11   220   244
  64   IA   09   10   68   309
  65   IL   09   11   155   309
  66   AL   10   11   87   377
以序号01中的内容来举例说明表二中的各栏信息的意思,C和O分别是一个组合对中包含的两个关键字,00和01分别表示C和O在关键词中的序号,即C和O分别为“CONFIDENTIAL”中的第0个和第1个字母,99表示字母C和字母O之间的距离138-039=99,461表示字母C距离中心点500的距离500-039=461。
当然上述组合对的选取也并不限于两两字母组成的组合对,利用多于两个字母组成的组合对也同样可以实现本发明。
在进行关键词识别时,标准关键词字典生成部4将其生成的有关各个关键词的标准关键词字典信息提供给关键词中心位置估计部5,关键词中心位置估计部5基于字符识别部3提供的字符识别结果、利用标准关键词字典中包含的关于各个关键词的关键字信息,计算针对上述字符识别部3识别出的字符的关键词中心。
在实际的计算过程中,关键词中心位置估计部5需要利用标准关键词字典生成部4中生成的、如表二中所示的关键词信息和字符识别部3识别出的字符进行匹配、来识别关键词,这里,仅以标准关键词字典生成部4生成的关于关键词“CONFIDENTIAL”的信息作为示例、来说明如何将字符识别部3识别出的字符与标准关键词字典中的“CONFIDENTIAL”所包含的关键字组合对进行匹配、从而进行关键词的识别的。
虽然在字符识别部3中识别出了一些字符,但是由于在二值前景累积图中存在噪声信息,使得并不能够确定这些字符是在该关键词中的第几个字符,所以,只要字符识别部3识别出的字符中出现了与标准关键词字典中的关键字组合对中的两个字符相同的两个字符时,就将其作为该关键字组合对的关键字匹配对,并利用该关键字组合对中的两个关键字之间的位置关系以及上述匹配对中的两个字符之间的位置关系的对应比例关系、以及第一个关键字到关键词中心的距离信息来估计对应于该匹配对中的两个字符的关键词中心。例如,在“CONFIDENTIAL”中出现了两个“N”,关键词中心位置估计部5在进行关键词中心位置估计的时候,由于并不知道字符识别部3识别出的“N”是“CONFIDENTIAL”中的第几个位置处的N,所以会利用字符识别部中识别出的“N”与字符识别部识别出的其他字符(例如与“C”)之间的位置关系、以及表二中的与这两个字符(“N”和“C”)相应的所有关键字组合对(例如对应于序号为02和07中的关于两个“CN”)的信息来进行关键词中心位置的估计,将这一计算过程用下列公式表示:
D1/D2=D1’/D2’
D1表示在标准关键词字典中生成的、关键字组合对中的两个关键字之间的距离,D2表示与该关键字组合对对应的关键字匹配对中的两个字符之间的距离,D1’在标准关键词字典中生成的、表示关键字组合对中的第一个字符到关键词中心的距离,D2’表示关键字匹配对中的第一个字符到估计中心的距离,这一距离可以通过D1,D2,D1’,D2’的比例关系计算得到。
当然,在此,利用关键字组合对中的关键字之间的距离与关键字匹配对中的字符之间的距离的对应比例关系来进行关键词中心的估计,但是并不限于采用这一方式,只要利用关键字组合对中的关键字与关键字匹配对中的关键字之间的固有比例关系、都可以估计出关键词中心的位置,例如还可以采用关键字组合对中的关键字的宽度与关键字组合对中的一个字符到关键词中心的比值同关键字匹配对中的字符的宽度与其到关键词中心的距离的比值之间的对应比例关系,来进行关键词中心的估计。
如上所述的、当在一个剪切图案中的关键词中或者标准关键字典中的关键词中存在多个相同字符时,利用上述匹配方式进行的关键词中心位置估计会产生不正确的估计值;并且,如表一所示,由于噪声的影响,识别出的字符中本身就存在很多错误的字符,所以利用错误的字符进行上述关键字匹配、得到的关键词中心位置估计值也不是真正的关键词中心位置。因此,本发明中利用投票的原理,首先设置一个计数器序列,计数器的长度等于包含关键词的剪切图像的宽度,每次估计出一个关键词中心位置、计数器就对估计出来的关键词中心位置处累加一个值。在基于正确识别的关键字计算出的正确的关键词中心的位置处应当会出现一个山峰,具体地说,相对于“CONFIDENTIAL”进行匹配时,如果利用从剪切图像中正确识别的字符(例如“C”、“O”、“N”、“F”等)来计算关键词中心位置,应当会计算出正确的关键词中心,并在正确的关键词中心形成一个峰值,否则,如果剪切图像中原本包含的关键词是“CONFIDENTIAL”,正确识别出其中的字符“C”、“O”、“E”和“T”,但是利用“TOP SECRET”的关键词信息中有关这几个字符(下划线)与其进行匹配、并根据前述的对应比例关系进行匹配,由于剪切图像中的待识别的关键词与“TOP SECRET”的位置关系本身是不对应的、所以不会在“TOPSECRET”的正确的关键词中心形成一个峰值。优选地,为了避免估计误差,通常不仅对估计出来的中心位置累加一个值,而且对中心位置附近的像素点也分别累加一个稍小一点的数值。例如,可以对中心位置正负10个像素点的位置处分别累加如下数值,当然,这些值仅仅是作为一种示例:
 2   4   8   14   24   38   53   70   85   96   100   96   85   70   53   38   24   14   8   4   2
上述值中的“100”表示累加给识别出的一个中心位置处的值,最左边的“2”是累加给该中心位置处向左10个像素点处的值,最右边的“2”是累加给该中心位置处向右10个像素点处的值。另外,优选地,可以高斯函数、三角函数的形式、向估计出的关键词中心位置处累加一个较大的值、并对估计出的关键词中心位置附近的点分别累加一个稍小一点的数值。
如前所述,投票的结果将在对应于正确识别的字符的、正确的关键词中心位置处形成一个山峰,如图4e中的最上面部分的表示投票结果的图4f所示。但是,由于噪声的干扰,投票的结果往往会出现多于一个山峰,而正确的关键词中心所对应的位置并不一定是最高的山峰。因此,可以预先设定一个阈值,保留下高度值超过预先设定的阈值的所有山峰,采用下述的基于最大完全子图的方法对其逐一检验,找出真正的对应关键词中心的那个峰值,这里优选地可以用最高的山峰的高度值的一半作为阈值。
在进行上述中心位置投票后,关键词中心位置估计部5将上述保留下的多个关键词中心位置中的每一个分别与估计出该中心位置的关键字匹配对对应存储,并且存储所述关键字匹配对中的字符在该关键词中的序号,并将其提供给基于最大完全子图的关键字提取部6。其中,如果一个关键字匹配对估计出的关键词中心和当前的关键词中心的位置偏差小于一个预定的范围,则认为该关键字匹配对和当前的关键词中心发生了对应,也将其进行对应存储,并提供给基于最大完全子图的关键字提取部6,优选地,可以将该预定的范围确定为高度的一倍,例如当前的关键词中心的位置为500,字符高度为100,则认为投票到范围(400,600)的位置的关键字匹配都与当前关键词中心相对应。
对于上述保留下的关键词中心,基于最大完全子图的关键字提取部6根据关键词中心位置估计部5中提供的关键词中心位置中的每一个分别与估计出该中心位置的关键字匹配对的对应关系,提取与当前估计出的关键词中心对应的多个匹配对及匹配对中包含的字符在该关键词中的序号。
基于最大完全子图的关键字提取部6对应于每一个估计出的关键词中心、通过下述的基于最大完全子图的关键字提取方法获得与该中心对应的关键字,与某一个关键词中心相对应找到的关键字个数最大的关键词中心被认为是真正的关键词中心。表三列出了与图三中投票得到的关键词估计中心峰值所对应的所有关键字匹配对,在此假定只有一个超过阈值的山峰。从左到右的顺序是:序号,第一个顶点的字符,第二个顶点的字符,第一个顶点的关键字序号,第二个顶点的关键字序号,和估计出的关键词中心的位置:
表三:图三中投影峰值对应的关键字匹配对
  序号   第一个顶点的编码   第二个顶点的编码   第一个顶点的关键字序号   第二个顶点的关键字序号   估计的关键词中心位置
  00   C   N   0   2   380
  01   C   F   0   3   365
  02   C   I   0   4   363
  03   C   D   0   5   359
  04   C   E   0   6   354
  05   C   I   0   9   353
  06   O   N   1   2   368
  07   O   F   1   3   358
  08   O   I   1   4   359
  09   O   D   1   5   358
  10   O   E   1   6   355
  11   O   I   1   9   358
  12   N   F   2   3   353
  13   N   I   2   4   358
  14   N   D   2   5   357
  15   N   E   2   6   356
  16   N   I   2   9   359
  17   F   I   3   4   361
  18   F   D   3   5   358
  19   F   E   3   6   355
  20   F   I   3   9   358
  21   I   D   4   5   357
  22   I   E   4   6   356
  23   I   I   4   9   358
  24   D   E   5   6   357
  25   D   T   5   8   345
  26   D   L   5   11   343
  27   D   I   5   9   358
  28   E   I   6   9   355
基于最大完全子图的关键字提取部6找到所有对应当前关键词中心的关键字匹配对后,对所有这些关键字匹配对建立一个图,如图7所示,其中图的每个顶点分别表示上述匹配对中的一个字符。如果在表一所示的一个字分割段出现了两个不同的字符识别结果,并且上述不同的字符识别结果均在标准关键词字典中当前要识别的关键词中包含了,那么分别将它们确定为不同的顶点。比如,表一中的第31项中有“O”和“E”两个识别结果,由于字符“O”和“E”都属于“CONFIDENTIAL”中的字符,无法判断出哪一个字符是错误的,所以把这两个识别结果都保留下来,分别作为一个顶点,从而对应于这一个字分割段得到了2个顶点。对所有与当前关键词中心相对应的关键词匹配对、连接每个关键词匹配对分别包含的两个顶点,从而构成了一个图结构。图7示出了对应于当前的关键词中心的峰值、根据与之对应的所有关键字匹配对画出的图。
然后在图7所示的图结构中寻找最大完全子图,最大完全子图是这样的图:在最大完全子图中,两两顶点之间都有连接、并且在该子图中包含的顶点个数最多。从以上对于关键词中心的估计过程可以看出,两两之间连接的关键字表示由这样的两个关键字估计出了同一个关键词中心,那么由于最大完全子图中的所有顶点之间都两两连通,所以可以判定:最大完全子图中的所有顶点都估计出了同一个关键词中心,因此可以将最大完全子图中包含的所有顶点对应的字符确定为对应于当前关键词中心的正确识别的关键字。
如图7所示,其中将表三中示出的、与当前的关键词中心相应的28个匹配对中的各个匹配对中包含的两个关键字连接起来,可以看出:关键字序号为0,2,3,4,5,6,9的关键字C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个顶点两两连通,这些顶点连接所组成的子图是一个最大完全子图,这些顶点代表的分割段互相之间没有重叠,而且都正确估计了同一个关键词中心,因此将这些顶点所表示的字符作为对应于当前关键词中心、正确识别的关键字。
在此,将当前关键词中心和这些正确识别的关键字作为关键词识别的基准。在基于最大子图的关键字识别之后,遗漏关键字识别部7利用表三中由关键字C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个顶点构成的每个关键字匹配对、以及标准关键词字典表二中存储的关于各个字符的中心位置信息以及各个字符之间的距离信息估计出其它需要识别的关键字(剩下的、还没有确定的关键字)的中心位置,并对各个需要识别的关键字的中心位置处的字符进行识别,判断在剪切图像中该位置处的字符是否对应于“CONFIDENTIAL”在该位置处的关键字,即,判断该计算出的字符中心位置处是否出现了预计的关键字,如果出现了预计的关键字,则将这一字符判断为在遗漏的该位置上正确的关键字。
例如在基于最大完全子图的关键字提取部6中已经确定了在剪切图像中包含了C(0)、N(2)、F(3)、I(4)、D(5)、E(6)、I(9)这几个关键字,那么与完整的“CONFIDENTIAL”相比,遗漏关键字识别部7预计应当在(1)的位置处出现“O”,在(7)的位置处出现“N ”,在(8)的位置处出现“T”,在(10)的位置处出现“A”,在(11)的位置处出现“L”,由于在“NT”和“AL”之间出现了粘连,所以对位置(1)处的字符进行识别,由于(1)的位置处的确出现了“O”,所以遗漏关键字识别部7可以判定此处的字符“O”为正确的字符。
进行上述字符识别的方法有很多,优选地,可以利用在表一中关于每一层的识别结果来进行上述判断,而不再重新进行识别。基于表一中的对于各个可能的字分割段的识别结果,如果某个可能的关键字分割段满足如下三个条件,那么就认为该可能的关键字分割段包含了预计的遗漏关键字:
1.该可能的关键字分割段和已经识别出来的关键字在位置上没有重叠;
2.估计出来的关键字的中心位置落在了该可能的关键字分割段的范围以内;
3.该可能的关键字分割段的识别结果中包含了需要识别的关键字。
经过遗漏关键字的判断之后,可以确定出“O”为遗漏的正确的关键字。
在识别出所有的遗漏关键字之后,还有一些关键字由于粘连的原因无法正确识别,因此最后利用粘连关联关键字识别部8进行粘连关键字的识别。
对于粘连关键字可以采用现有的方法来识别,优选地,可以采用直方图投影的方法,在待识别的剪切图像中,首先找到所有未经识别的关键字及其对应的图像片段,如果有2个或者2个以上的连续的未识别出的关键字,则判定这些字符之间发生了粘连,找出剪切图像中所有的这样图像片段并求这些图像片段的投影直方图。
如图5中所示,在“NT”和“AL”两处发生了粘连,图8中示出了图5中包含的六幅图像的垂直方向的投影直方图。投影直方图是本领域图像处理领域公知的技术,即对字符的灰度图像从字符上端的方向向字符下端投影,对与投影线相交的黑点像素累计求和,得到字符的灰度累计分布图,投影图上曲线的值表示在这个水平位置上黑色像素点的个数。两条竖线12和线13之间的部分是没有被识别出来的“AL”的部分。
图9中示出了保存在标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图,由于26个英文字符的标准投影直方图分别具有对应于各自形状的特定的分布,所以利用粘连字符“AL”的投影直方图信息可以找到标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图中对应的部分,如两条竖线14和15之间的部分,然后通过直方图匹配的方法来将图5中包含的六幅图像的垂直方向的投影直方图与标准投影直方图对准,直方图匹配的一个方式是:
1.把上述六幅图像的垂直方向的投影直方图伸缩至和标准关键词字典中的关键词“CONFIDENTIAL”的直方图相同的宽度;
2.通过求上述六幅图像的垂直方向的投影直方图和关键字字典中的关键词“CONFIDENTIAL”的直方图的一维数据的相关值,来求六幅图像的垂直方向的投影直方图与标准投影直方图的最佳匹配偏移量,并利用这个偏移量来对齐六幅图像的垂直方向的投影直方图与标准投影直方图;
3.最后,利用标准关键词字典中的关于“CONFIDENTIAL”的理想投影直方图的各个关键字的分割点(表二中示出)来确定上述六幅图像的垂直方向的投影直方图中的粘连部分的分割位置。
经过上述粘连切分之后,对被切分出来的剪切图像中的分割段进行字符识别,如果字符识别的结果和在该位置上预计应该出现的关键字相同,则粘连关键字识别部8认为粘连分割的结果是正确的结果,并识别出粘连的关键字。
图4e例示出进行基于最大完全子图的关键字提取、遗漏关键字提取和粘连关键字提取后得到的示意图,其中用阴影线示出了基于最大完全子图的关键字“C”、“N”、“F”、“I(5)”、“D”、“E”、“I(9)”,用斜线示出了基于遗漏的关键字的位置估计出的关键字“O”,用格线示出了粘连切分后识别出的粘连的关键字“T”、“A”和“L”。
此时,如果对应于标准关键词字典中的待识别的关键词“CONFIDENTIAL”来对剪切图案中的关键词进行上述判断,得到的正确识别的关键字的个数超过了“CONFIDENTIAL”的总个数(12个)的一定比例,则关键词确定部9可以认为包含共有图像的剪切图案中所包含的关键词是“CONFIDENTIAL”,例如,将该比例设定为70%,只有超过这个比例的关键词才认为待检测的图像中可能包含了目标关键词。在上述示例中识别出关键字“C”、“N”、“F”、“I”、“D”、“E”、“O”、“T”、“A”和“L”,即被识别出的关键字个数是11,总关键字个数是12个,因此识别比例是11/12=91.7%,超过了给定的比例,因此关键词确定部9可以直接判断待检测的剪切图案中的确包含了“CONFIDENTIAL”这个关键词。
如前所述的,如果有超过一个关键词需要检测,则针对每个关键词都建立一个标准关键词字典,对标准关键词字典中的每个关键词通过上述过程得到一个被识别出来的关键字总个数。在关键词确定部9进行判断时,也可以对对应于每一个标准关键词字典中的关键词计算出上述识别出的总个数,用被识别的关键字个数除以关键词中的关键字个数,得到一个识别的比例,并判定具有最大识别比例的关键词是剪切图案中的确包含的关键词。
采用上述方法,利用了包含共有图像或文字的多幅图案或文档,从中剪切出包含共有图像或文字的多个剪切图像,最大程度地利用了多福图像中包含的信息,克服解决了由于遮挡、粘连等原因而使得每一幅图像中都没有包含完整的共有图像的信息、无法正确识别共有这一技术问题;并且,利用共有关键词中包含的各个关键字之间的位置关系、各个关键字与关键词中心的位置关系,使各个关键字相互校验,判断出正确的关键字,实现了高效准确的共有图像或文字的识别。
实施例2
附图10示出了根据本发明的第二实施例的用于识别多幅图像中的共有图像的关键词识别装置的结构框图,第二实施例与第一实施例中的关键词识别装置的区别仅在于:在关键词字典生成部4和关键词中心位置估计部5之间还具有一个关键字匹配对筛选部10。
在利用关键词中心位置估计部5进行估计关键词中心位置的投票之前,利用关键字匹配对筛选部10进行关键字匹配对的筛选,删除位置重叠、代码相同的关键字匹配对、以减少用以估计关键词中心位置的投票所需的时间。
例如,表一中的序号(00和04)同序号(01和05)中识别出的字符中都分别包含“C”和“O”,都能作为表二中的序号为“01”中的关键字组合对“CO”的关键字匹配对,但是两个C和两个O之间在位置上分别都重叠了,在实际中是不可能在重叠的位置出现两个相同的字符的,正确的匹配对不可能在位置上和代码上发生冲突,这说明这两对中有一对是错误的,因此关键字匹配对筛选部10只保留匹配对中的两个关键字的识别距离之和最小的那个关键字匹配对(识别距离越小代表识别越可靠)。
在此,表一中的序号(00和04)中的“C”和“O”识别距离之和的最小值为:序号00中的第五层识别距离793(在序号00中的六个识别距离中的最小值)+序号04中的第一层识别距离920=1713,序号(01和05)中的“℃”和“O ”的识别距离之和为694+920=1614,因此关键字匹配对筛选部10只保留序号01和05中的“C”和“O”构成的关键字匹配对“CO”,删除序号01和04中的“C ”和“O”构成的关键字匹配对“CO”。
通过利用关键字匹配对筛选部10删除冗余的关键字匹配对,可以大大减小用于关键词中心位置估计的时间,从而缩短了关键词识别所需的时间,大大提高了关键词识别的效率。
实施例3
在实施例3中,进行共有图像中包含的关键词的识别的过程与第一种或第二种相同,不同之处仅在于,在进行共有关键词的识别时,有可能会出现输入的文档颠倒的情况,即每一幅文档中需要识别的共有关键词都是反的,为了对这种情况下的共有关键词也进行正确的识别,在字符识别部3中对每个可能的关键字分割段中的字符进行正反连次识别,如某个关键字分割段中包含的字符都是反的(“A”是反过来的“
Figure A20081009129900291
”),字符识别部对确定所有的可能的关键字分割段中的字符都进行正反两次识别,从而得到两组关于关键字分割段中的字符识别结果,并将两组字符识别结果分别输入关键词中心位置估计部5中,进行后续的估计,后面的进行关键字提取的方法和实施例1和2中相同。
采用优选地实施方式3,可以更好地避免在用户由于疏忽使放入的文档上下颠倒时,也能正确地识别出多幅图像中共有的关键词,从而例如在复制机密文档时,仍然能够有效地防止机密信息的泄露。
本发明中的关键词识别装置和方法可以应用于扫描仪、复印机或多功能一体机等设备中,使得该扫描仪、复印机或多功能一体机等设备可以从多幅包含共有图像或文字的图像或文档中提取出共有图像或文字,这里共有的图案或文字可以是嵌入在其中的水印,从而对文档进行管理,防止机密文件的复制、扫描等。当然,上述关键词的检测装置和方法也可以被用于其他需要识别共有图像或文字的场合。
此外,虽然本申请以具有共有图像的PPT为例子进行了说明,但是,显然,上述关键词识别装置和方法并不限于PPT文件,同样也可以被用于word文档、pdf文件、其他格式的文本文件、或者各种图像格式的文件中的共有图像或文字的识别。
此外,虽然本发明中以关键词“CONFIDENTIAL”为例进行了说明,但是,显然,上述关键词的检测装置和方法可以根据实际应用的需要在标准关键词字典中建立多个关键词的信息,关键词的数量不受限制,可以根据实际的需要进行选择。另外上述识别方法也并不限于用于英文关键词的识别,其同样可以被用于进行中文、法文、德文、希腊语等等其他各种语言的文字进行识别。
此外,显然,根据本发明的上述方法的各个操作过程也可以以存储在各种机器可读的存储介质中的计算机可执行程序的方式实现。
而且,本发明的目的也可以通过下述方式实现:将存储有上述可执行程序代码的存储介质直接或者间接地提供给系统或设备,并且该系统或设备中的计算机或者中央处理单元(CPU)读出并执行上述程序代码。
此时,只要该系统或者设备具有执行程序的功能,则本发明的实施方式不局限于程序,并且该程序也可以是任意的形式,例如,目标程序、解释器执行的程序或者提供给操作系统的脚本程序等。
上述这些机器可读存储介质包括但不限于:各种存储器和存储单元,半导体设备,磁盘单元例如光、磁和磁光盘,以及其它适于存储信息的介质等。
另外,客户计算机通过连接到因特网上的相应网站,并且将依据本发明的计算机程序代码下载和安装到计算机中然后执行该程序,也可以实现本发明。
以上虽然结合附图详细描述了本发明的实施例,但是应当明白,上面所描述的实施方式只是用于说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式做出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。

Claims (10)

1、一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别方法,该方法包括:
根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图;
根据上述二值前景累积图确定其分割点,并确定可能的关键字分割段;
对所有可能的关键字分割段中的对象进行字符识别,得到对应于所有可能的关键字分割段的识别字符;
针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词,执行下列步骤:
利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置,所述关键字匹配对是由各个标准关键词中包含的关键字构成的,所述关键字匹配对是由上述识别字符中包含的、与上述关键字组合对的字符相同的字符构成的;
将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点,生成一个图,并利用包含的两两均连通的顶点个数最多的、所述图中的最大完全子图来确定正确的关键字;
基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词,确定遗漏关键字;
基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词,识别粘连关键字;
根据针对所述各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字,判定所述共有关键词包含哪一个标准关键词。
2、根据权利要求1所述的关键词识别方法,其中,在估计共有关键词中心的位置之前,删除位置重叠、由相同字符构成的多个关键字匹配对中的关键字识别距离之和不是最小的关键字匹配对。
3、根据权利要求1或2所述的关键词识别方法,其中,由所述各个标准关键词中包含的所有关键字两两组合、构成所述关键字组合对。
4、根据权利要求1或2所述的关键词识别方法,其中,利用可继承分割方法确定所述可能的关键字分割段。
5、根据权利要求1或2所述的关键词识别方法,其中,利用关键字组合对中的关键字之间的距离与相应关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。
6、一种从包含共有关键词的多幅图像或文档中识别共有关键词的关键词识别装置,该装置包括:
根据上述多幅图像或文档中包含共有关键词的区域的灰度值生成二值前景累积图的装置;
分割部,其确定所述二值前景累积图的分割点;
可能的关键字分割段确定部,其根据所述分割点确定所有可能的关键字分割段;
字符识别部,其对所有可能的关键字分割段中的对象进行字符识别,得到对应于所有可能的关键字分割段的识别字符;
关键词中心位置估计部,其针对标准关键词字典中包含的至少一个标准关键词中的各个标准关键词、利用关键字组合对和与之对应的关键字匹配对的对应关系、估计共有关键词中心的位置,所述关键字组合对是由所述各个标准关键词中包含的关键字构成的,所述关键字匹配对是由上述识别字符中包含的、与关键字组合对的字符相同的字符构成的;
基于最大完全子图的关键字提取部,其将对应于估计出的关键词中心位置的多个关键字匹配对中包含的识别字符作为一个图的顶点,生成一个图,并利用所述图中的最大完全子图来确定正确的关键字,所述最大完全子图中包含的两两均连通的顶点个数最多的;
遗漏关键字识别部,其基于上述估计出的关键词中心位置和正确的关键字以及所述各个标准关键词,确定遗漏关键字;
粘连关键字识别部,其基于上述估计出的关键词中心位置、正确的关键字、确定的遗漏关键字以及所述各个标准关键词,识别粘连关键字;
关键词确定部,根据针对各个标准关键词识别出的所述正确的关键字、所述确定的遗漏关键字和粘连关键字,判定所述共有关键词包含所述标准字典中的哪一个关键词。
7、根据权利要求6所述的关键词识别装置,其还包括关键字匹配对筛选部,关键字匹配对筛选部在关键词中心位置估计部估计共有关键词中心的位置之前,删除位置重叠、包含的字符相同的多个关键字匹配对中关键字识别距离之和不是最小的关键字匹配对。
8、根据权利要求6或7所述的关键词识别装置,其中,由所述各个标准关键词中包含的所有关键字两两组合,构成所述关键字组合对。
9、根据权利要求6或7所述的关键词识别装置,其中,所述分割部利用可继承分割方法确定所述可能的关键字分割段。
10、根据权利要求6或7所述的关键词识别装置,其中,所述关键词中心位置估计部利用关键字组合对中的关键字之间的距离与相应的关键字匹配对中的字符之间的距离的对应比例关系、以及关键字组合对中至少一个关键字到所述各个标准关键词中心的距离来估计共有关键词中心的位置。
CN2008100912990A 2008-04-28 2008-04-28 关键字识别方法和装置 Expired - Fee Related CN101571921B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008100912990A CN101571921B (zh) 2008-04-28 2008-04-28 关键字识别方法和装置
JP2009106923A JP5240047B2 (ja) 2008-04-28 2009-04-24 キーワード識別方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100912990A CN101571921B (zh) 2008-04-28 2008-04-28 关键字识别方法和装置

Publications (2)

Publication Number Publication Date
CN101571921A true CN101571921A (zh) 2009-11-04
CN101571921B CN101571921B (zh) 2012-07-25

Family

ID=41231276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100912990A Expired - Fee Related CN101571921B (zh) 2008-04-28 2008-04-28 关键字识别方法和装置

Country Status (2)

Country Link
JP (1) JP5240047B2 (zh)
CN (1) CN101571921B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102722729A (zh) * 2011-03-22 2012-10-10 柯尼卡美能达美国研究所有限公司 通过用字符的形状特征来比较字符而检测文档变化的方法
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN103345481A (zh) * 2013-06-19 2013-10-09 新疆大学 一种维吾尔文图像文件的标注方法
CN103577414A (zh) * 2012-07-20 2014-02-12 富士通株式会社 数据处理方法和设备
CN103886096A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 基于图片的远程虫害识别方法
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN106021237A (zh) * 2012-02-07 2016-10-12 微软技术许可有限责任公司 语言无关的概率内容匹配
WO2016187888A1 (zh) * 2015-05-28 2016-12-01 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN106485246A (zh) * 2016-09-19 2017-03-08 北京小米移动软件有限公司 字符识别方法及装置
CN106663212A (zh) * 2014-10-31 2017-05-10 欧姆龙株式会社 文字识别装置、文字识别方法以及程序
CN106682671A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 图像文字识别系统
CN107766826A (zh) * 2017-10-30 2018-03-06 广东小天才科技有限公司 一种查找单词释义的方法及电子设备
CN108540629A (zh) * 2018-04-20 2018-09-14 佛山市小沙江科技有限公司 一种儿童用终端保护外壳
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN113191343A (zh) * 2021-03-31 2021-07-30 成都飞机工业(集团)有限责任公司 一种基于卷积神经网络的航空线材识别码自动识别方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202086B (zh) * 2015-05-04 2020-02-28 阿里巴巴集团控股有限公司 一种图片处理、获取方法、装置及系统
CN106586135B (zh) * 2016-12-28 2018-09-18 天津普达软件技术有限公司 一种产品包装盒生产日期喷印不良品剔除方法
CN113657330B (zh) * 2021-08-24 2024-02-09 深圳市快易典教育科技有限公司 一种字体书写笔顺生成方法、系统及其应用方法
CN116072274B (zh) * 2023-03-06 2023-06-13 四川互慧软件有限公司 一种救护车医护自动调派系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03218567A (ja) * 1989-09-11 1991-09-26 Oki Electric Ind Co Ltd 電子辞書
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
JP3692018B2 (ja) * 2000-01-24 2005-09-07 株式会社東芝 テロップ情報処理装置
JP4136316B2 (ja) * 2001-01-24 2008-08-20 富士通株式会社 文字列認識装置
CN100478979C (zh) * 2002-11-26 2009-04-15 中国科学院计算技术研究所 利用身材信息辅助人脸信息的身份识别方法
CN100485711C (zh) * 2003-05-16 2009-05-06 中国地质大学(武汉) 手写字体的计算机识别与自动输入方法
JP4294456B2 (ja) * 2003-12-08 2009-07-15 株式会社リコー 特定キャラクタ列検索装置、特定キャラクタ列検索方法、特定キャラクタ列検索プログラム、および記録媒体

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154974A (zh) * 2011-03-07 2013-06-12 株式会社Ntt都科摩 字符识别装置、字符识别方法、字符识别系统以及字符识别程序
CN102722729A (zh) * 2011-03-22 2012-10-10 柯尼卡美能达美国研究所有限公司 通过用字符的形状特征来比较字符而检测文档变化的方法
CN106021237A (zh) * 2012-02-07 2016-10-12 微软技术许可有限责任公司 语言无关的概率内容匹配
CN106021237B (zh) * 2012-02-07 2019-07-02 微软技术许可有限责任公司 语言无关的概率内容匹配
CN103577414B (zh) * 2012-07-20 2017-04-12 富士通株式会社 数据处理方法和设备
CN103577414A (zh) * 2012-07-20 2014-02-12 富士通株式会社 数据处理方法和设备
CN103345481A (zh) * 2013-06-19 2013-10-09 新疆大学 一种维吾尔文图像文件的标注方法
CN103345481B (zh) * 2013-06-19 2016-08-24 新疆大学 一种维吾尔文图像文件的标注方法
CN103886096A (zh) * 2014-04-03 2014-06-25 江苏物联网研究发展中心 基于图片的远程虫害识别方法
CN105574523A (zh) * 2014-10-31 2016-05-11 株式会社东芝 字符识别装置及方法、图像显示装置、图像检索装置
CN106663212A (zh) * 2014-10-31 2017-05-10 欧姆龙株式会社 文字识别装置、文字识别方法以及程序
CN106663212B (zh) * 2014-10-31 2019-12-24 欧姆龙株式会社 文字识别装置、文字识别方法以及计算机可读存储介质
WO2016187888A1 (zh) * 2015-05-28 2016-12-01 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN106485246A (zh) * 2016-09-19 2017-03-08 北京小米移动软件有限公司 字符识别方法及装置
CN106682671A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 图像文字识别系统
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
CN107766826A (zh) * 2017-10-30 2018-03-06 广东小天才科技有限公司 一种查找单词释义的方法及电子设备
CN107766826B (zh) * 2017-10-30 2020-11-03 广东小天才科技有限公司 一种查找单词释义的方法及电子设备
CN108540629A (zh) * 2018-04-20 2018-09-14 佛山市小沙江科技有限公司 一种儿童用终端保护外壳
CN110059572A (zh) * 2019-03-22 2019-07-26 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN110059572B (zh) * 2019-03-22 2021-08-10 中国科学院自动化研究所 基于单字匹配的文档图像中文关键词检测方法、系统
CN113191343A (zh) * 2021-03-31 2021-07-30 成都飞机工业(集团)有限责任公司 一种基于卷积神经网络的航空线材识别码自动识别方法

Also Published As

Publication number Publication date
JP5240047B2 (ja) 2013-07-17
CN101571921B (zh) 2012-07-25
JP2009266232A (ja) 2009-11-12

Similar Documents

Publication Publication Date Title
CN101571921B (zh) 关键字识别方法和装置
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
Kaneko et al. Robust image registration by increment sign correlation
CN102117414B (zh) 基于文件特征用多级图像比较认证打印文件的方法和装置
US5748809A (en) Active area identification on a machine readable form using form landmarks
US6014460A (en) Character strings reading device
RU2445699C1 (ru) Способ обработки данных оптического распознавания символов (ocr), где выходные данные включают в себя изображения символов с нарушенной видимостью
CN101122953B (zh) 一种图片文字分割的方法
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
JP6268023B2 (ja) 文字認識装置およびその文字切り出し方法
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
CN104217203A (zh) 复杂背景卡面信息识别方法及系统
CN100474331C (zh) 字符串识别装置
Meunier Optimized XY-cut for determining a page reading order
CN103425974A (zh) 图像处理装置和图像处理方法
US7769234B2 (en) Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
US20030066890A1 (en) Graphically demodulating graphical bar codes without foreknowledge of the original unmodulated base image
US20220392240A1 (en) Computer vision method for detecting document regions that will be excluded from an embedding process and computer programs thereof
US8787702B1 (en) Methods and apparatus for determining and/or modifying image orientation
Kee et al. Printer profiling for forensics and ballistics
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
CN101814141A (zh) 存储介质、字符识别方法以及字符识别设备
US8200016B2 (en) Method and apparatus for character string recognition
CN114495144A (zh) 文本图像中表格key-value信息的提取方法及装置
Randriamasy et al. Automatic benchmarking scheme for page segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120725

Termination date: 20180428

CF01 Termination of patent right due to non-payment of annual fee