CN108960234A

CN108960234A - 一种基于词袋模型的Logo识别方法及系统

Info

Publication number: CN108960234A
Application number: CN201810609883.4A
Authority: CN
Inventors: 项照程; 于华妍; 王新璇; 陆佃杰
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2018-12-07

Abstract

本发明公开了一种基于词袋模型的Logo识别方法及系统，获取含有Logo信息的图像并对其进行处理，检测处理后的图像中Logo的位置信息，根据Logo的位置信息从图像中截取含有Logo的图块，对含有Logo的图块进行识别。本发明基于词袋模型进行比较匹配，大大地提高了识别准确率，克服了识别精度低的问题。

Description

一种基于词袋模型的Logo识别方法及系统

技术领域

本发明属于图像识别技术领域，具体涉及一种基于词袋模型的Logo识别方法及系统。

背景技术

Logo在长期的生活和实践中成为一种视觉化的信息表达方式，在生活实践中经过抽象与美化，集中以图形的形式表现出来，并具有一定的精神内涵，传递特定的信息，形成人们相互交流的视觉语言。如今Logo作为企业的一种重要标志，是企业综合信息传递的一种重要媒介，在企业形象宣传中，是出现频率最高、最关键的因素，企业的整体实力、管理机制、产品和服务，都被涵盖与Logo中。因此，如何设计一种Logo识别方法及系统，提高识别准确率，克服识别精度低的问题，仍是待解决的技术问题。

发明内容

为了克服上述现有技术的不足，本发明提供了一种基于词袋模型的Logo识别方法及系统，基于词袋模型进行比较匹配，大大地提高了识别准确率，克服了识别精度低的问题。

本发明所采用的技术方案是：

一种基于词袋模型的Logo识别方法，该方法包括以下步骤：

获取含有Logo信息的图像并对其进行处理；

检测处理后的图像中Logo的位置信息；

根据Logo的位置信息从图像中截取含有Logo的图块；

对含有Logo的图块进行识别。

进一步的，所述获取含有Logo信息的图像并对其进行处理的步骤包括：

获取含有Logo信息的图像，并对其进行显著性标注，将显著性标注后的图像保存，返回显著性标注后的图像的路径；

将显著性处理后的图像进行自适应阈值二值化操作，将二值化操作后的图像保存，返回二值化操作后的图像路径。

进一步的，所述根据Logo的位置信息从图像中截取含有Logo的图块的步骤包括：

获取处理后的图像中各个轮廓最小外接矩形，得到含有信息的图块的坐标位置信息；

根据图块的坐标位置信息从处理后的图像中截取含有信息的图块，生成多个图块；

用事先训练好的随机森林分类器判断每个图块是否为含有Logo的图块，从而识别出含有Logo的图块。

进一步的，所述对含有Logo的图块进行识别的步骤包括：

基于图像的纹理构成将含有Logo的图块划分为含字符型Logo的图块和含非字符型型Logo的图块；

针对含字符型Logo的图块，采用OCR识别方法对含有Logo的图块中的字符进行识别，得到字符串，将字符串与已知Logo名称进行匹配，如果匹配成功，则输出字符串，本次Logo识别完毕；

针对含非字符型型Logo的图块，采用视觉词袋模型对含非字符型Logo的图块进行检索，提取含非字符型Logo的图块的SIFT、SURF、HOG特征，并将其形成视觉词汇，对视觉词汇进行聚类运算，将运算后的视觉词汇与已知Logo的视觉词汇进行比较，如果汉明距离小于5，则判定为可能匹配的Logo；否则，判定为不是此Logo；输出所有可能匹配的Logo，本次Logo识别完毕。

进一步的，所述将含有Logo的图块划分为含字符型Logo的图块和含非字符型型Logo的图块的步骤包括：

采用OCR识别方法对含有Logo的图块中的字符进行识别，如果识别结果的置信度大于80％，且识别结果在已知Logo名称集中，则判定该含有Logo的图块为含字符型Logo的图块；否则判定为含非字符型Logo的图块。

一种基于词袋模型的Logo识别系统，该系统包括：

Logo检测定位模块，被配置为获取含有Logo信息的图像，并对图像进行显著性处理和自适应阈值二值化操作，检测处理后的图像中Logo的位置信息，根据Logo的位置信息从处理后的图像中截取含有Logo的图块；

Logo类型分类模块，被配置为将含有Logo的图块划分为含字符型Logo的图块和含非字符型型Logo的图块；

Logo识别模块，被配置为分别对含字符型Logo的图块和含非字符型型Logo的图块进行识别。

进一步的，所述Logo分类模块是基于图像的纹理构成将Logo检测定位模块得到含有Logo的图块分类成含字符型Logo的图块和含非字符型型Logo的图块。

进一步的，所述Logo分类模块采用OCR识别方法对含有Logo的图块中的字符进行识别，如果识别结果的置信度大于80％，且识别结果在已知Logo名称集中，则判定该含有Logo的图块为含字符型Logo的图块；否则判定为含非字符型Logo的图块。

进一步的，所述Logo识别模块采用视觉词袋模型来进行图像检索。

进一步的，所述Logo识别模块提取图像的SIFT、SURF、HOG特征，并将其形成视觉词汇，且对视觉词汇进行聚类运算。

与现有技术相比，本发明的有益效果是：

(1)本发明通过Logo图像检测定位模块对图像进行处理，提高Logo信息的信噪比，减少无用信息对Logo识别的影响；通过Logo类型分类模块，将包含Logo信息的图像标示为不同的种类，通过Logo识别模块对不同种类的包含Logo信息的图像进行处理，识别出Logo信息，实现图像到名称的转换，提高转换效率和识别精度；

(2)本发明的方法简单，不会忽略小尺寸的Logo信息，可以快速、准确地识别出图片中的Logo。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是Logo识别系统的流程图；

图2是Logo识别方法的流程图；

图3是Logo识别方法的示例；

图4是显著性处理的示例；

图5是自适应阈值二值化的示例；

图6是通过随机森林模型判断Logo所在图块的示例

图7是判断Logo类型的示例；

图8是生成视觉词汇的示例。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本申请的一种典型的实施方式中，如图1所示，提供了一种基于词袋模型的Logo识别系统，该系统包括：

Logo检测定位模块，被配置为获取含有Logo信息的图像，并对图像进行处理，得到含有Logo的图块。其目的是提高Logo信息的信噪比，减少无用信息对Logo识别的影响。

Logo类型分类模块，被配置为将含Logo的图块划分为含字符型Logo的图块、含非字符型型Logo的图块。其目的是将包含Logo信息的图像标示为不同的种类。

Logo识别模块，被配置为分别对含字符型Logo的图块、含非字符型型Logo的图块进行识别，将含Logo的图像识别为Logo名称。其目的是识别出Logo信息，实现图像到名称的转换，其运用的方法是基于词袋模型进行比较匹配。

在本实施例中，所述Logo检测定位模块的主要目的是检测含Logo的图块在图像中的位置。所述Logo检测定位模块先对图像进行显著性处理，对显著性处理之后的图像进行自适应阈值二值化操作；对自适应阈值二值化操作后的图像进行检测，得到含Logo的图块在图像中的位置信息，根据位置信息对自适应阈值二值化操作后的图像进行分割，得到多个图块；分割后的图块要经过随机森林分类器的处理，并从处理后的多幅图块中选出要进行下一步操作的图块。

在本实施例中，所述Logo分类模块基于图像的纹理构成将经过Logo检测定位模块处理的图像分类成含字符型Logo的图块、含非字符型Logo的图块。所述Logo分类模块是采用OCR识别方法识别图像中的字符，如果识别结果的置信度大于80％，且识别结果在已知Logo名称集中，则判定为含字符型Logo的图像；否则判定为含非字符型Logo的图像。

在本实施例中，所述Logo识别模块采用视觉词袋模型来进行图像检索。所述Logo识别模块需提取图像的SIFT、SURF、HOG特征，并将其形成视觉词汇，且视觉词汇需要进行聚类运算。

本发明实施例提出的基于词袋模型的Logo识别系统，通过Logo图像检测定位模块对图像进行处理，提高Logo信息的信噪比，减少无用信息对Logo识别的影响；通过Logo类型分类模块，将包含Logo信息的图像标示为不同的种类，通过Logo识别模块对不同种类的包含Logo信息的图像进行处理，识别出Logo信息，实现图像到名称的转换，提高转换效率和识别精度。

本申请的另一种典型实施方式，如图2所示，提供了一种基于词袋模型的Logo识别方法，该方法包括以下步骤：

步骤101：获取含有Logo信息的图像并对其进行处理；

步骤102：检测处理后的图像中Logo的位置信息；

步骤103：根据Logo的位置信息从图像中截取含有Logo的图块；

步骤104：对含有Logo的图块进行识别。

为了使本领域的技术人员更好的了解本发明，下面列举一个更为详细的实施例，如图3-8所示，本发明实施例提供了一种基于词袋模型的Logo识别方法，该方法包括以下步骤；

步骤201：搭建开发环境；

步骤202：创建一个函数saliency，获取含有Logo信息的图像文件，并对其进行显著性标注，并将标注后的图像保存，返回标注后的图像的路径；

步骤203：创建一个函数adaptiveThreshold，将步骤202标注后的图像进行自适应阈值二值化操作，并将二值化操作后的图像保存，返回二值化操作后的图像路径；

步骤204：创建一个函数cut，获取步骤203处理后的图像中的各个轮廓最小外接矩形，得到含有信息的图块的坐标信息，将含有信息的图块的坐标信息保存下来；根据保存的坐标信息截取原图像并生成多个图块；

步骤205：创建一个函数radomForest，用事先训练好的随机森林判断步骤204生成的多个图块是否为含有Logo的图块，从而识别出含有Logo的图块；

步骤206：创建一个函数OCR，对步骤205识别出的图块进行字符识别，如果识别结果的置信度大于80％，则输出识别结果；否则含有Logo的图块进行步骤208；

步骤207：创建一个函数isChar，将步骤206得到的字符串与已知Logo名称进行匹配，如果匹配成功，则输出字符串，本次Logo识别完毕；否则，进入步骤208；

步骤208：创建一个函数BOVW，将步骤205识别出的图块进行运算得出一个视觉词汇；

步骤208：创建一个函数compare，将步骤208得出的视觉词汇与已知Logo的视觉词汇进行比较，如果汉明距离小于5，则判定为可能匹配的Logo；否则，判定为不是此Logo；输出所有可能匹配的Logo，本次Logo识别完毕。

本发明实施例提出的Logo识别方法，对图像进行处理，提高Logo信息的信噪比，减少无用信息对Logo识别的影响；将包含Logo信息的图像标示为不同的种类，对不同种类的包含Logo信息的图像进行处理，识别出Logo信息，实现图像到名称的转换，提高转换效率和识别精度；实现方法相对简单，过程清晰，且识别效率和准确率较高，不会忽略小尺寸的Logo信息，易于开发人员开发、调试与维护。使用者可以用此方法快速、准确地识别出图片中的Logo。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于词袋模型的Logo识别方法，其特征是，包括以下步骤：

获取含有Logo信息的图像并对其进行处理；

检测处理后的图像中Logo的位置信息；

根据Logo的位置信息从图像中截取含有Logo的图块；

对含有Logo的图块进行识别。

2.根据权利要求1所述的基于词袋模型的Logo识别方法，其特征是，所述获取含有Logo信息的图像并对其进行处理的步骤包括：

3.根据权利要求1所述的基于词袋模型的Logo识别方法，其特征是，所述根据Logo的位置信息从图像中截取含有Logo的图块的步骤包括：

4.根据权利要求1所述的基于词袋模型的Logo识别方法，其特征是，所述对含有Logo的图块进行识别的步骤包括：

5.根据权利要求1所述的基于词袋模型的Logo识别方法，其特征是，所述将含有Logo的图块划分为含字符型Logo的图块和含非字符型型Logo的图块的步骤包括：

6.一种基于词袋模型的Logo识别系统，其特征是，该系统包括：

7.根据权利要求6所述的基于词袋模型的Logo识别系统，其特征是，所述Logo分类模块是基于图像的纹理构成将Logo检测定位模块得到含有Logo的图块分类成含字符型Logo的图块和含非字符型型Logo的图块。

8.根据权利要求6所述的基于词袋模型的Logo识别系统，其特征是，所述Logo分类模块采用OCR识别方法对含有Logo的图块中的字符进行识别，如果识别结果的置信度大于80％，且识别结果在已知Logo名称集中，则判定该含有Logo的图块为含字符型Logo的图块；否则判定为含非字符型Logo的图块。

9.根据权利要求6所述的基于词袋模型的Logo识别系统，其特征是，所述Logo识别模块采用视觉词袋模型来进行图像检索。

10.根据权利要求6所述的基于词袋模型的Logo识别系统，其特征是，所述Logo识别模块提取图像的SIFT、SURF、HOG特征，并将其形成视觉词汇，且对视觉词汇进行聚类运算。