CN105468732A

CN105468732A - 一种图像关键词检查方法及装置

Info

Publication number: CN105468732A
Application number: CN201510816513.4A
Authority: CN
Inventors: 胡波; 刘超; 刘坤颖; 喻民; 李楠
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-04-06

Abstract

本发明涉及一种图像关键词检查方法及装置。该方法包括：获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像；将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，所述图像模板库中包括各标准文字图像和文字编号之间的对应关系；根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词。本发明通过建立有限文字个数的图像模板库和有限关键词个数的模式词库，能高效检查扫描图像中的关键词，适用于保密检查等审查工作中的特殊需求，提高了图像文字匹配的效率。

Description

一种图像关键词检查方法及装置

技术领域

本发明涉及图像文字识别技术领域，尤其涉及一种图像关键词检查方法及装置。

背景技术

计算机网络和信息技术的飞速发展使得信息的传输变得非常方便快捷。信息技术的发展在为我们带来便捷的同时，信息安全问题也越来越受到关注。保密工作是国家安全的命脉，在国家相关部门对计算机终端进行保密检查工作的过程中，以图像形式存储的扫描文件成为重点检查对象和检查难点。以往针对文本文件的文字检索工具提取文字较为容易，重点在于提升关键词检索的匹配效率。对于以图像形式存储的扫描文件，如何识别出图像中的文字成为关键点和难点。

扫描文件图像具有以下特点：图像的背景较为单一，图像中文字的字体和大小较为多样化。因此，扫描文件图像文字关键词匹配装置的技术难点主要有两个：其一是图像文件内的文档排版分析；其二是文字/符号的识别。

基于SIFT特征与灰度差值直方图特征的文字识别方法(CN101561866A)首先构建各种复杂背景下字体类别、文字大小和方向均不相同的汉字模板图库，然后对模板图库中的图片进行特征提取，计算待识别汉字的特征向量，最后基于SIFT特征与灰度差值直方图特征寻找模板库中与待识别汉字最相近的汉字。但是该方法无法对图像中的包括两个或两个以上文字的关键词进行检查。

发明内容

本发明所要解决的技术问题是：现有的图像文字识别方法无法高效进行特定关键词的检查。

为解决上述技术问题，本发明一方面提出了一种图像关键词检查方法，该图像关键词检查方法包括：

获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像；

将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，所述图像模板库中包括各标准文字图像和文字编号之间的对应关系；

根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词。

可选地，在所述获取待检查图像之前，还包括：

对预定的图像文档进行预处理；

获取预定的图像文档中每个文字的位置；

根据所述文字的位置提取所述文字的轮廓，建立图像模板库。

可选地，所述获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像，包括：

获取待检查图像，对所述待检查图像进行预处理；

对所述待检查图像中的每个文字进行膨胀操作，通过连通域分析获取所述待检查图像中每个文字的位置；

对所述待检查图像中的每个文字进行矫正；

采用最优阈值分割法对所述每个文字的连通域的外接矩形内的图像进行二值化；

对所述每个文字的连通域进行纵向投影和横向投影，将所述待检查图像分割成各个仅包含单个文字的子图像。

可选地，所述将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，包括：

获取每个子图像与所述图像模板库中的所有标准文字图像的差异值；

根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号。

可选地，所述获取每个子图像与所述图像模板库中的所有图像的差异值；根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号，包括：

对所述每个子图像对照图像模板库中的图像的大小进行尺寸归一化；

对所述每个子图像进行二值化处理；

计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离，根据所述距离计算所述图像模板库中的文字与所述每个子图像中的文字的差异值；

获取所述差异值小于预定阈值的所述图像模板库中图像及所述图像对应的文字编号；

其中，所述差异值为所述距离的方差与所述距离的均值的乘积。

可选地，所述根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词，包括：

根据各子图像对应的文字编号查询预先建立的模式词库；

判断各子图像与其相邻的子图像对应的文字编号是否能组成所述模式词库中的待检查关键词对应的有序序列，若是，则所述待检测图像中存在待检查关键词。

可选地，在所述根据所述文字的位置提取所述文字的轮廓之后，还包括：

对所述文字进行欧式距离变换。

可选地，所述获取预定的图像文档中每个文字的位置，包括：

对所述预定的图像文档中的文字进行膨胀操作，将每个文字的多个连通域合并在一起，获取预定的图像文档中每个文字的位置。

可选地，在所述建立图像模板库之后，还包括：

建立模式词库，所述模式词库包括与所述图像模板库中的相对应的文字编号的有序序列。

另一方面，本发明还提出了一种图像关键词检查装置，该装置包括：

图像分割单元，用于获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像；

文字匹配单元，用于将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，所述图像模板库中包括各标准文字图像和文字编号之间的对应关系；

关键词匹配单元，用于根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词。

本发明通过建立有限文字个数的图像模板库和有限关键词个数的模式词库，能高效检查扫描图像中的关键词，适用于保密检查等审查工作中的特殊需求，提高了图像文字匹配的效率。

附图说明

通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1示出了本发明一个实施例的图像关键词检查方法示意图；

图2示出了本发明一个实施例的建立图像模板库的流程示意图；

图3示出了本发明一个实施例的分割待检查图像的流程示意图；

图4示出了本发明一个实施例的文字匹配的流程示意图；

图5示出了本发明一个实施例的关键词匹配的流程示意图；

图6示出了本发明的图像关键词检查方法的原理图；

图7示出了本发明一个实施例的图像关键词检查装置的结构示意图。

具体实施方式

下面将结合附图对本发明的实施例进行详细描述。

图1是本发明一个实施例提供的图像关键词检查方法的示意图。如图1所示，该图像关键词检查方法包括：

S1：获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像；

S2：将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，所述图像模板库中包括各标准文字图像和文字编号之间的对应关系；

S3：根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词。

本实施例的图像关键词检查方法，通过建立有限文字个数的图像模板库和有限关键词个数的模式词库，能高效检查扫描图像中的关键词，适用于保密检查等审查工作中的特殊需求，提高了图像文字匹配的效率。

在一种可选的实施方式中，在所述获取待检查图像之前，还包括建立图像模板库。图2示出了本发明一个实施例的建立图像模板库的流程示意图。如图2所示，建立图像模板库包括：

S21：对预定的图像文档进行预处理；

S22：获取预定的图像文档中每个文字的位置；

S23：根据所述文字的位置提取所述文字的轮廓，建立图像模板库。

其中，所述图像模板库包括文字编号、文字名称及不同字体、相同大小的文字图像集合。

进一步地，在所述根据所述文字的位置提取所述文字的轮廓之后，还包括：

对所述文字进行欧式距离变换。

在进行单个文字匹配之前，对所述图像模板库中的文字进行欧式距离变换是为了减少后续相似度的计算量，提高识别效率。

所述获取预定的图像文档中每个文字的位置，包括：

在实际应用中，对预定的图像文档进行预处理，包括：

对预定的图像文档进行图像去噪与增强；

对预定的图像文档进行二值化处理；

对二值化处理后的预定的图像文档进行去噪。

在另一种可选的实施方式中，在所述建立图像模板库之后，还包括：

建立模式词库，所述模式词库包括与所述图像模板库中的相对应的汉字编号的有序序列。

可选地，所述模式词库还包括关键词编号和关键词名称。

本发明中的图像模板库和模式词库都支持扩展，在不同的工作场景中能够灵活调整模式词库来适应不同关键词的匹配，能够适用于保密检查对个别关键词或特殊关键词的审查。

图3示出了本发明一个实施例的分割待检查图像的流程示意图。如图3所示，所述获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像，包括：

S31：获取待检查图像，对所述待检查图像进行预处理；

S32：对所述待检查图像中的每个文字进行膨胀操作，通过连通域分析获取所述待检查图像中每个文字的位置；

S33：对所述待检查图像中的每个文字进行矫正；

S34：采用最优阈值分割法对所述每个文字的连通域的外接矩形内的图像进行二值化；

S35：对所述每个文字的连通域进行纵向投影和横向投影，将所述待检查图像分割成各个仅包含单个文字的子图像。

在实际应用中，利用FreeImage读取图像文件，FreeImage能对常见图像格式(jpeg/jpg、bmp、png、dib、tiff/tif、gif)文件进行读取，因此该图像关键词检查方法能对多种图像格式文件进行关键词的检查。

特别地，选择大小合适的连通域，保证这些连通域中只包含文字，通过跟踪每行文字，可以得到每行文字的倾斜程度，以此对汉字进行矫正，在版式识别未出现严重错误的情况下获得准确地矫正结果。

进一步地，在将所述待检查图像分割成多个子图像之后，还可以去除子图像中的干扰，去除过大或过小的连通域，包括标点和图像上的小块污点。

图4示出了本发明一个实施例的文字匹配的流程示意图。如图4所示，文字匹配包括：

S41：对所述每个子图像对照图像模板库中的图像的大小进行尺寸归一化；

S42：对所述每个子图像进行二值化处理；

S43：计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离，根据所述距离计算所述图像模板库中的文字与所述每个子图像中的文字的差异值；

S44:获取所述差异值小于预定阈值的所述图像模板库中图像及所述图像对应的文字编号；

在差异值小于预定阈值的情况下，差异值越低说明子图像中的文字与图像模板库中的文字越相似。

本发明改进了现有的计算hausdorff距离的方法。Hausdorff距离的用途是度量模板的边缘和目标的边缘之间的匹配程度，根据Hausdorff距离的定义，当图像受到噪声污染或存在遮挡等情况时，Haudorff距离容易造成误匹配。为了减少这种误匹配，即减少噪声点对匹配的影响，本发明做出了改进，这些距离可以看成是两个字的差别大小，考虑了中心对齐后字还是错位的情况，这种错位会造成均值大方差小，均值和方差本身都可以反映字符的相似度。因此，计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离，并计算这些距离的方差和均值的乘积，这个乘积作为匹配衡量指标，该值越低说明与模板越相似，提高了图像文字匹配的准确性。

另一方面，预先对所述图像模板库中的汉字进行欧式距离变换，减少了相似度的计算量，提高了图像文字匹配的效率。

图5示出了本发明一个实施例的关键词匹配的流程示意图。如图5所示，关键词匹配包括：

S51：根据各子图像对应的文字编号查询预先建立的模式词库；

S52：判断各子图像与其相邻的子图像对应的文字编号是否能组成所述模式词库中的待检查关键词对应的有序序列，若是，则所述待检测图像中存在待检查关键词。

图6示出了本发明的图像关键词检查方法的原理图。如图6所示，本发明的图像关键词检查方法包括：

S61：建立有限文字个数的图像模板库；

S62：建立有限关键词个数的模式词库；

S63：获取待检查图像，对所述待检查图像进行预处理；

S64：对所述待检查图像进行子图像分割；

S65：对所述待检查图像进行文字匹配和关键词匹配，判断所述待检查图像中是否包含特定关键词。

图7示出了本发明一个实施例的图像关键词检查装置的结构示意图。如图7所示，该图像关键词检查装置包括：

图像分割单元71，用于获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像；

文字匹配单元72，用于将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，所述图像模板库中包括各标准文字图像和文字编号之间的对应关系；

关键词匹配单元73，用于根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词。

本实施例的图像关键词检查装置通过建立有限文字个数的图像模板库和有限关键词个数的模式词库，能高效检查扫描图像中的关键词，适用于保密检查等审查工作中的特殊需求，提高了图像文字匹配的效率。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种图像关键词检查方法，其特征在于，包括：

2.根据权利要求1所述的图像关键词检查方法，其特征在于，在所述获取待检查图像之前，还包括：

对预定的图像文档进行预处理；

获取预定的图像文档中每个文字的位置；

3.根据权利要求1所述的图像关键词检查方法，其特征在于，所述获取待检查图像，将所述待检查图像分割成各个仅包含单个文字的子图像，包括：

获取待检查图像，对所述待检查图像进行预处理；

对所述待检查图像中的每个文字进行矫正；

4.根据权利要求1所述的图像关键词检查方法，其特征在于，所述将各子图像与预先建立的图像模板库中的标准文字图像进行匹配，以获得各子图像对应的文字编号，包括：

5.根据权利要求4所述的图像关键词检查方法，其特征在于，

所述获取每个子图像与所述图像模板库中的所有图像的差异值；根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号，包括：

对所述每个子图像进行二值化处理；

6.根据权利要求4所述的图像关键词检查方法，其特征在于，

所述根据各子图像对应的文字编号查询预先建立的模式词库，检测所述待检查图像中的关键词，包括：

根据各子图像对应的文字编号查询预先建立的模式词库；

7.根据权利要求2所述的图像关键词检查方法，其特征在于，在所述根据所述文字的位置提取所述文字的轮廓之后，还包括：

对所述文字进行欧式距离变换。

8.根据权利要求2所述的图像关键词检查方法，其特征在于，所述获取预定的图像文档中每个文字的位置，包括：

9.根据权利要求2所述的图像关键词检查方法，其特征在于，在所述建立图像模板库之后，还包括：

10.一种图像关键词检查装置，其特征在于，包括