CN113158745B

CN113158745B - 一种基于多特征算子的乱码文档图片识别方法及系统

Info

Publication number: CN113158745B
Application number: CN202110143109.0A
Authority: CN
Inventors: 相彦
Original assignee: Beijing Huilang Times Technology Co Ltd
Current assignee: Beijing Huilang Times Technology Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2024-04-02
Anticipated expiration: 2041-02-02
Also published as: CN113158745A

Abstract

本发明提出了一种基于多特征算子的乱码文档图片识别方法，涉及图像识别领域。一种基于多特征算子的乱码文档图片识别方法，包括如下步骤：采集多个图像样本，对上述图像样本进行多尺度图像加强处理；将上述图像样本进行SIFT特征提取；对上述图像样本进行GIST特征提取；获取待检测图像，通过多数值KNN算法对上述待检测图像进行判定。此外本发明还提出了一种基于多特征算子的乱码文档图片识别系统，应用上述方法实现。本发明其能够提高识别乱码文档的准确率，提高对乱码文档识别的适用范围。

Description

一种基于多特征算子的乱码文档图片识别方法及系统

技术领域

本发明涉及图片识别领域，具体而言，涉及一种基于多特征算子的乱码文档图片识别方法。

背景技术

随着科技时代的来临，越来越多的文字、符号编辑后在网络中相互分享并以图片的形式展示，给大家的阅读带来了极大的方便。然而，由于传输、格式匹配、转换、兼容等问题，数据库、网络中的很多图片会以乱码的形式展现，不仅极大地影响了阅读效果，也占用了很多存储、网络资源。因此，如何精准地将乱码文档图片识别出来是一项非常有意义的工作。

针对上述问题，很多专家和学者对上述问题进行了较为深入的研究。基于深度卷积神经网络的乱码文档图片识别方法有较高的识别精度，但它往往依赖于海量的训练样本和较大的计算资源。KNN算法作为低耗的分类、识别方法可以实现乱码文档图片识别，由于没有充分考虑乱码文档图片的多样性、差异性和复杂性，所以准确率和普适性还并不是非常理想。因此，如何在传统方法的基础上，找到一种准确率较高、普适性较强的乱码文档识别方法是一个亟待解决的问题。

发明内容

本发明的目的在于提供一种基于多特征算子的乱码文档图片识别方法，其能够提高识别乱码文档的准确率，提高对乱码文档识别的适用范围。

本发明的另一目的在于提供一种基于多特征算子的乱码文档图片识别系统，其能够提高识别乱码文档的准确率，提高对乱码文档识别的适用范围。

本发明的实施例是这样实现的：

第一方面，本申请实施例提供一种基于多特征算子的乱码文档图片识别方法，包括如下步骤：(1)采集多个图像样本，对上述图像样本进行多尺度图像加强处理；(2)将上述图像样本进行SIFT特征提取；(3)对上述图像样本进行GIST特征提取；(4)获取待检测图像，通过多数值KNN算法对上述待检测图像进行判定。

在本发明的一些实施例中，上述步骤(1)中，上述图像样本包括正常训练样本和负正常训练样本，选取多个非乱码文档图片作为上述正常训练样本，选取多个乱码文档图片作为上述负正常训练样本。

在本发明的一些实施例中，上述步骤(1)包括如下步骤：将上述正常训练样本和上述负正常训练样本分别进行多尺度的高斯模糊；将模糊后的上述正常训练样本和上述负正常训练样本分别和原图做减法，得到不同程度的细节信息；将不同程度的细节信息加权到原图中，得到含有丰富细节信息的加强图像。

在本发明的一些实施例中，通过人工选取的方式分别选取上述正常训练样本和上述负正常训练样本。

在本发明的一些实施例中，上述步骤(4)中，所述步骤(4)中，利用上述步骤(1)～(3)对所有所述图像样本进行处理后通过数值KNN算法模型存储，利用所述数值KNN算法模型对所述待检测图像进行判定。

在本发明的一些实施例中，上述步骤(4)包括如下步骤：计算上述待检测图像分别与各上述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个上述训练样本，判断得到的多个上述训练样本是否属于上述正常训练样本或负正常训练样本，当多数属于正常训练样本时判定上述待检测图像为非乱码文档图片，否则判定上述待检测图像为乱码文档图片。

在本发明的一些实施例中，计算上述待检测图像分别与各上述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个上述训练样本包括：基于SIFT特征算子的欧式距离计算上述待检测图像与其它训练样本的空间距离；基于GIST特征算子的欧式距离计算它与其它训练样本的空间距离；对两种特征算子的欧式距离进行等权重加权，得到与上述待检测图像最相似的多个上述训练样本。

在本发明的一些实施例中，上述一种基于多特征算子的乱码文档图片识别方法包括如下步骤：多次选取数量不同的相似度高的训练样本，当上述待检测图像被判定为上述非乱码文档图片的次数更多时，判定上述待检测图像被判定为上述非乱码文档图片，否则判定上述待检测图像为上述乱码文档图片。

在本发明的一些实施例中，若上述待检测图像有2次以上被判定为上述乱码文档图片，则判定为上述乱码文档图片。

第二方面，本申请实施例提供一种基于多特征算子的乱码文档图片识别系统，应用上述一种基于多特征算子的乱码文档图片识别方法实现。

相对于现有技术，本发明的实施例至少具有如下优点或有益效果：

针对第一方面：本发明实施例通过采集多个图像样本对乱码文档进行图像识别，提高了乱码文档识别的准确性；多尺度图像加强处理可以对文档图像进行深度预处理，便于对文档图像进行精确识别；通过对图像样本进行SIFT特征提取，实现第一次表征，提高了图像样本的识别准确性；并且还通过GIST特征再次对图像样本进行提取，实现第二次表征，从而利用搜索树对图像样本的多个特征进行搜索索引扩展，扩大了识别图像样本特征的范围，同时进一步提高了识别图像的准确性和完整性；通过获取待检测图像，从而利用多数值KNN算法对上待检测图像进行判定，进而利用多个相似度高的图像样本对待检测图像进行验证，实现了图像的全局和局部特征的识别，提高了识别乱码文档的准确率，扩大了乱码文档识别的适用范围，并且节省了深度学习的复杂算法计算、存储资源，满足了低耗的要求。

针对第二方面：与第一方面的工作原理及有益效果相同，不必再次描述。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一种基于多特征算子的乱码文档图片识别方法的流程示意图；

图2为本发明实施例中待检测图像识别方法的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的各个实施例及实施例中的各个特征可以相互组合。

实施例

请参阅图1～图2，图1所示为本申请实施例提供的一种基于多特征算子的乱码文档图片识别方法的流程示意图，包括如下步骤：(1)采集多个图像样本，对上述图像样本进行多尺度图像加强处理；(2)将上述图像样本进行SIFT特征提取；(3)对上述图像样本进行GIST特征提取；(4)获取待检测图像，通过多数值KNN算法对上述待检测图像进行判定。

详细的，采集的多个图像样本中包括乱码文档图片，从而便于根据乱码文档的特征对待检测图像进行对比识别。详细的，多尺度图像处理为现有技术在此不必详细描述。将图像样本进行多尺度图像处理后根据不同尺度分别通过SIFT特征提取进行表征。其中，SIFT算法实现特征匹配主要有三个流程，1、提取关键点；2、对关键点附加详细的信息(局部特征)，即描述符；3、通过特征点(附带上特征向量的关键点)的两两比较找出相互匹配的若干对特征点，建立景物间的对应关系。详细的，SIFT特征提取后通过GIST特征再次进行表征。其中可选的，SIFT特征提取的过程包括：创建Gabor滤波器组，对原彩色图求均值转为灰度图像，对图像进行预滤波缩放局部对比度，分块计算gabor特征并组合。详细的，终端获取待检测图像后，利用多数值KNN算法将待检测图像进行分类判定。可选的，待检测图像可以通过步骤(1)～(3)处理后利用多数值KNN算法判定。可选的，经过步骤(1)～(3)处理后的图像样本通过多数值KNN算法模型存储后与待检测图像分别进行对比，得到最终待检测图像是否属于乱码文档的判定结果。

详细的，图像样本包括多个非乱码文档图片和多个乱码文档图片，便于提取乱码文档和非乱码文档的特征，从而准确识别待检测图像。

详细的，正常训练样本和负正常训练样本通过高斯模糊减少图像噪声以及降低细节层次，增强图像在不同比例大小下的图像效果，经过高斯模糊后减少图像噪音得到各图像样本在不同程度下的细节信息，并将细节信息加权到原图像，得到细节特征加强后的图像。并且，加强处理后的图像通过步骤(2)进行表征，进一步提高了乱码文档识别的准确性。

详细的，人工选取图像样本可以利用网络、数据库任意一种方式获取，便于对图像样本是否属于正常训练样本或负正常训练样本进行准确识别，从而准确识别待检测图像。可选的，训练样本和待检测图像均可以通过扫描、拍照、截图等任意方式获取包含文档内容的图像。

详细的，数值KNN算法模型根据图像样本是否属于乱码图像或非乱码图像的具体类型进行存储，从而在输入待检测图像后利用KNN算法模型对待检测图像与各个图像样本进行对比，从而得到待检测图像的判定结果。

详细的，计算待检测图像分别与不同训练样本之间的欧式距离，从而利用欧式距离越小相似度越高得到相似性较高的多个训练样本，从而利用训练样本的类型最终确认待检测图像。其中，根据欧式距离的预设阈值确定多个训练样本，从而根据训练样本中乱码文档图片的数量取人待检测图像是否为乱码文档，提高了识别乱码文档的准确性。

详细的，基于SIFT特征算子和GIST特征算子计算待检测图像与各个训练样本的欧式距离，能够通过算子在表征下映射的多个对象与待检测图像进行比较，提高了识别乱码文档的准确性。其中，通过两种表征方式的权重加权得到更准确的欧式距离，能够提高训练样本的相似性高，从而对待检测图像进行准确识别。其中，权重可以根据多次试验的经验得到，在此不做具体限定。

可选的，对多尺度加强和表征后的待检测图像，多次选取相似度高的数量不同的训练样本进行判定。具体的，可以分别利用10、20和50个相似度高的训练样本进行对比，从而筛选重复的训练样本进行比较，提高识别乱码文档的准确性。

可选的，当通过两个或以上的相似度高的训练样本与待检测图像进行比较时，若待检测图像有2次及以上被判定为非乱码文档图片，则将其最终判定为非乱码文档图片，当待检测图像有0次或1次被判定为非乱码文档图片时，且待检测图像有2次及以上被判定为乱码文档图片，则将其最终判定为乱码文档图片。

本申请实施例还提供一种基于多特征算子的乱码文档图片识别系统，应用上述一种基于多特征算子的乱码文档图片识别方法实现。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，流程图中的每个方框、以及流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本申请实施例提供的一种基于多特征算子的乱码文档图片识别方法及系统：

本申请实施例通过采集多个图像样本对乱码文档进行图像识别，提高了乱码文档识别的准确性；多尺度图像加强处理可以对文档图像进行深度预处理，便于对文档图像进行精确识别；通过对图像样本进行SIFT特征提取，实现第一次表征，提高了图像样本的识别准确性；并且还通过GIST特征再次对图像样本进行提取，实现第二次表征，从而利用搜索树对图像样本的多个特征进行搜索索引扩展，扩大了识别图像样本特征的范围，同时进一步提高了识别图像的准确性和完整性；通过获取待检测图像，从而利用多数值KNN算法对上待检测图像进行判定，进而利用多个相似度高的图像样本对待检测图像进行验证，实现了图像的全局和局部特征的识别，提高了识别乱码文档的准确率，扩大了乱码文档识别的适用范围，并且节省了深度学习的复杂算法计算、存储资源，满足了低耗的要求。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其它的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种基于多特征算子的乱码文档图片识别方法，其特征在于，包括如下步骤：（1）采集多个图像样本，对所述图像样本进行多尺度图像加强处理；（2）将所述图像样本进行SIFT特征提取；（3）对所述图像样本进行GIST特征提取；（4）获取待检测图像，通过多数值KNN算法对所述待检测图像进行判定；

所述图像样本包括正常训练样本和负正常训练样本，选取多个非乱码文档图片作为所述正常训练样本，选取多个乱码文档图片作为所述负正常训练样本；将所述正常训练样本和所述负正常训练样本分别进行多尺度的高斯模糊；将模糊后的所述正常训练样本和所述负正常训练样本分别和原图做减法，得到不同程度的细节信息；将不同程度的细节信息加权到原图中，得到含有丰富细节信息的加强图像；

步骤（4）中，利用步骤（1）~（3）对所有所述图像样本进行处理后通过数值KNN算法模型存储，利用所述数值KNN算法模型对所述待检测图像进行判定；

步骤（4）包括如下步骤：计算所述待检测图像分别与各所述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个所述训练样本，判断得到的多个所述训练样本是否属于所述正常训练样本或负正常训练样本，当多数属于正常训练样本时判定所述待检测图像为非乱码文档图片，否则判定所述待检测图像为乱码文档图片；

计算所述待检测图像分别与各所述训练样本之间的欧式距离，利用欧式距离得到相似度高的多个所述训练样本包括：基于SIFT特征算子的欧式距离计算所述待检测图像与其它训练样本的空间距离；基于GIST特征算子的欧式距离计算它与其它训练样本的空间距离；对两种特征算子的欧式距离进行等权重加权，得到与所述待检测图像最相似的多个所述训练样本。

2.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，通过人工选取的方式分别选取所述正常训练样本和所述负正常训练样本。

3.如权利要求1所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，包括如下步骤：多次选取数量不同的相似度高的训练样本，当所述待检测图像被判定为所述非乱码文档图片的次数更多时，判定所述待检测图像被判定为所述非乱码文档图片，否则判定所述待检测图像为所述乱码文档图片。

4.如权利要求3所述的一种基于多特征算子的乱码文档图片识别方法，其特征在于，若所述待检测图像有2次以上被判定为所述乱码文档图片，则判定为所述乱码文档图片。

5.一种基于多特征算子的乱码文档图片识别系统，其特征在于，应用如权利要求1-4中任一项所述一种基于多特征算子的乱码文档图片识别方法实现。