CN110147790B

CN110147790B - 基于自适应阈值的场景图像商标检测方法、系统、装置

Info

Publication number: CN110147790B
Application number: CN201910395244.7A
Authority: CN
Inventors: 刘杰; 郑阳; 张树武
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-04-15
Anticipated expiration: 2039-05-13
Also published as: CN110147790A

Abstract

本发明属于图像识别技术领域，具体涉及一种基于自适应阈值的场景图像商标检测方法、系统、装置，旨在解决商标因多区域、稀疏化导致的检测效率低的问题。本系统方法包括获取待检测的场景图像；基于场景图像的SIFT特征和面积，计算阈值，得到MSER区域；提取MSER区域的HOG特征，基于二分类模型获取稳定值；根据SS算法提取场景图像的候选区域，获取候选区域和MSER区域的重叠比，基于重叠比和MSER区域稳定值得到候选区域稳定值；基于候选区域稳定值，计算自适应判别阈值，获取生成区域；基于生成区域，采用非极大值抑制，获取商标的检测区域。本发明有效地解决了商标多区域、稀疏化问题，提高了场景图像商标检测准确率。

Description

基于自适应阈值的场景图像商标检测方法、系统、装置

技术领域

本发明属于图像识别技术领域，具体涉及一种基于自适应阈值的场景图像商标检测方法、系统、装置。

背景技术

随着多媒体技术的发展，形象生动、信息量大、表现力强的多媒体信息越来越被人们所获取。同时，互联网的高速发展，为这些多媒体信息的传播提供了便捷的途径。因此，如何在这些多媒体信息中，快速地获得有价值的信息，显得至关重要，基于内容的图像分析技术就是在这一背景下产生。商标是一种特殊的标识，承载着图像的高层语义部分，是理解图像内容的重要组成部分，对于商家、消费者而言起着非常重要的作用。目前商标检测已经应用于广告内容监控、图像视频分析以及信息安全监控，具有广泛的应用前景和极大的商业价值。

自然场景图像中，商标形状的多样性、大小的不确定性以及图像背景的复杂性，对商标的检测造成了很大的困难。针对出现的这些问题，越来越多的研究人员开始注重自然场景商标检测的研究。选择性搜索(Selective Search，SS)算法被广泛用于商标检测，在提取候选区域的过程中取得了一定的效果，然而这种方法虽然能够将商标区域完整地检测，但是会产生大量的杂质，对后续的精度造成了一定的影响。最大稳定极值区域(MaximallyStable Extremal Region，MSER)是一种非常经典的连通域提取方法，被用于文本检测过程中。由于商标与文本具有一定的相似性，能够与背景具有鲜明的对比，因此MSER可以作为一个商标检测的方法。然而，商标其自身又具有与文本不同的属性，如商标的种类繁多，一个商标往往对应着一个连通域或者多个连通域，并且每一个商标存在着分布密集和稀疏的问题。针对多个连通域构成的商标，很难有相应的规则将其聚为一起构成商标。因此，MSER在检测商标的过程中又有一定的局限性。

鉴于此，本发明为了能够高效地完成对商标的检测，融合了SS和MSER检测算法。SS算法可以基于相似性融合相邻的区域，MSER算法可以根据连通域的稳定性提取商标的连通域，两者相辅相成，充分发挥各自优势。

发明内容

为了解决现有技术中的上述问题，即为了解决场景图像中商标因多区域、稀疏化导致的检测效率低的问题，本发明第一方面，提出了一种基于自适应阈值的场景图像商标检测方法，该方法包括：

步骤S10，获取待检测的场景图像，作为输入图像；

步骤S20，基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值，并基于该阈值获取最大稳定极值区域；

步骤S30，提取所述最大稳定极值区域的HOG特征，基于二分类模型获取最大稳定极值区域的稳定值；

步骤S40，根据SS算法提取所述输入图像的SS候选区域，计算所述SS候选区域和所述最大稳定极值区域的重叠比，基于所述重叠比和所述的最大稳定极值区域稳定值获取SS候选区域的稳定值；

步骤S50，基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值，并基于该阈值获取SS生成区域；

步骤S60，基于步骤S50得到的SS生成区域，采用非极大值抑制方法，获取商标的图像区域作为检测结果。

在一些优选的实施方式中，步骤S20中“基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值”，其计算方法为：

其中，Δ为判断控制区域是否为MSER区域的阈值，μ为一个固定值，用以表示最小阈值的大小，KN为SIFT点的个数，Area为图像底乘以高的面积，λ为控制阈值权重的参数。

在一些优选的实施方式中，步骤S30中“基于二分类模型获取最大稳定极值区域的稳定值”，其计算方法为：

其中，w为二分类模型的参数，TCS为每一个连通域的稳定值，x^*为连通域HOG特征，T为转置符号。

在一些优选的实施方式中，步骤S50中“基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值”，其方法为：

基于所述的SS候选区域的稳定值，根据预设的系数组，构建候选阈值集合；

基于所述候选阈值集合中各候选阈值，分别求取图像中商标区域的平均最佳覆盖率及生成区域个数；

选取最佳覆盖率值大于预设值和生成区域个数少于预设值对应的阈值，作为自适应判别阈值。

在一些优选的实施方式中，所述预设的系数组为{0.1,0.2,...,0.9}，基于该系数组构建的候选阈值集合Λ为：

Λ＝{0.1μ,0.2μ,...,0.9μ}

其中，μ为SS候选区域稳定值的平均值。

在一些优选的实施方式中，所述商标区域的平均最佳覆盖率为商标区域的最佳覆盖率ABO的平均值；商标区域的最佳覆盖率的计算方法为：

其中，|G^c|代表着类别c的真实框的个数，

是类别c中第i个真实框，l_j代表第j个检测框，Ω为检测框的集合，

为真实框和检测框的重叠比。

本发明的第二方面，提出了一种基于自适应阈值的场景图像商标检测系统，该系统包括获取模块、MSER模块、MSER稳定值模块、SS区域稳定值模块、SS生成区域模块、输出模块；

所述的获取模块，配置为获取待检测的场景图像，作为输入图像；

所述的MSER模块，配置为基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值，并基于该阈值获取最大稳定极值区域；

所述的MSER稳定值模块，配置为提取所述最大稳定极值区域的HOG特征，基于二分类模型获取最大稳定极值区域的稳定值；

所述的SS区域稳定值模块，配置为根据SS算法提取所述输入图像的SS候选区域，计算所述SS候选区域和所述最大稳定极值区域的重叠比，基于所述重叠比和所述的最大稳定极值区域稳定值获取SS候选区域的稳定值；

所述的SS生成区域模块，配置为基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值，并基于该阈值获取SS生成区域；

所述的输出模块，配置为基于SS生成区域模块得到的SS生成区域，采用非极大值抑制方法，获取商标的图像区域作为检测结果。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行上述的基于自适应阈值的场景图像商标检测方法。

本发明的第四方面，提出了一种处理设置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行上述的基于自适应阈值的场景图像商标检测方法。

本发明的有益效果：

本发明有效地解决商标多区域、稀疏化的问题，提高了场景图像商标检测的准确率。本发明通过计算图像的面积以及计算图像关键点，进而计算出提取连通域的自适应阈值，避免了固定阈值对连通域提取的影响；通过构造二分类模型，获得每一个连通域的稳定值，有效地减少杂质对候选结果的影响；结合区域重叠比以及MSER稳定值，获得SS区域的稳定值，通过对区域稳定值大小的判断，排除杂质区域并保留商标区域，提高了商标检测的准确率；利用非极大值抑制的方法，排除了冗余的区域，得到了最终的商标检测结果。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的基于自适应阈值的场景图像商标检测方法的流程示意图；

图2是本发明一种实施例的基于自适应阈值的场景图像商标检测方法的MSER检测过程示例图；

图3本发明一种实施例的基于自适应阈值的场景图像商标检测系统的框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的基于自适应阈值的场景图像商标检测方法，如图1所示，包括以下步骤：

步骤S10，获取待检测的场景图像，作为输入图像；

基于步骤S50得到的SS生成区域，采用非极大值抑制方法，获取商标的图像区域作为检测结果。

为了更清晰地对本发明基于自适应阈值的场景图像商标检测方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

步骤S10，获取待检测的场景图像，作为输入图像。

在本实施例中，主要是针对商标方面的检测和识别，获取的待检测的自然场景图像来源于多媒体技术、互联网或者其他资源。基于获取到的场景图像，作为输入图像。

步骤S20，基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值，并基于该阈值获取最大稳定极值区域。

本实施例中，首先根据尺度不变特征变换(Scale-invariant featuretransform，SIFT)方法的定义，求得图像中稳定的SIFT关键点。

基于获取的场景图像的面积、SIFT关键点的个数等参数构造提取连通域的阈值，连通域阈值计算公式如公式(1)所示：

根据定义，判断一个区域是否为MSER时，主要受参数Δ影响，参数Δ越大，获得的连通域个数越少。因为每一张图像各不相同，如果用固定的参数Δ提取连通域，势必会造成一定的误差。当两张图像具有相同大小时，图像中SIFT关键点个数多则说明图像较为复杂，此时会有较多的杂质生成，利用高阈值可以排除较多的杂质。同理，SIFT关键点少则说明图像较为简单，利用低阈值能够保留连通域。因此，为了能够根据每一张图像的实际情况提取连通域，特构造了自适应阈值公式。通过公式观察，当λ＝0时，Δ＝μ，此时代表图像中连通域的阈值为一固定值μ。通过交叉验证，当μ＝10，λ＝2700时，提取图像最大稳定极值区域能够达到最优解。最优解可以基于领域先验知识获得，也可以根据实际情况进行人为判定。

图2示例性地给出了连通域生成的示意图以及连通域的二值化表示。图2的(a)中为MSER区域检测结果，图2的(b)中为“黑底白字”情况下固定参数的检测结果，图2的(c)中为“黑底白字”背景中符合自适应阈值条件下得到的检测结果。通过图中提取的连通域结果可以观察到，自适应阈值的方法可以在保留连通域的前提下，排除部分不符合要求的连通域，如图2的(b)中虚线框内的区域被有效地排除。

步骤S30，提取所述最大稳定极值区域的HOG特征，基于二分类模型获取最大稳定极值区域的稳定值。

因为方向梯度直方图(Histogram of Oriented Gradient，HOG)特征对图像几何和光学的形变都能够保持很好的不变性，同时稳定性极强。因此在本实施例中，选择HOG特征作为表达连通域的特征。

基于获取的HOG特征得到最大稳定极值区域的稳定值，需要通过二分类模型。首先针对二分类模型进行训练，然后使用二分类模型进行获取最大稳定极值区域的稳定值。

在FilckerLogos-27数据库中，随机提取3000个样本作为正样本，5000个含有背景的样本作为负样本。

由于分类模型判断样本是否为商标，因此是一个二分类问题，可以利用二分类模型解决此类问题。模型的损失函数如公式(2)所示：

其中，w为二分类模型参数，γ为正则项参数，_xi为训练样本的特征向量，_yi为样本对应的类别符号，T为转置符号，n为总的样本数量，模型采用梯度下降法进行训练。

根据训练好的模型，计算每一个连通域的稳定值。模型的输出为一个概率值，反映了预测为商标的可能性的大小，概率越大，可能性越大。概率值的计算如公式(3)所示：

其中，TCS为每一个连通域的稳定值，x^*为连通域HOG特征。

步骤S40，根据SS算法提取所述输入图像的SS候选区域，计算所述SS候选区域和所述最大稳定极值区域的重叠比，基于所述重叠比和所述的最大稳定极值区域稳定值获取SS候选区域的稳定值。

利用选择性搜索算法SS算法对图像进行候选区域的提取。

计算每一个SS区域与MSER连通域的重叠比(Intersection over Union，IOU)，构造矩阵Mat_IOU。矩阵Mat_IOU横坐标为MSER连通域，纵坐标为SS连通域。矩形与矩形之间的重叠比IOU(A,B)计算如下公式(4)所示：

其中，IOU(A,B)为矩形A与矩形B的重叠比，Rect(A)和Rect(B)分别代表矩形A和矩形B的面积。

结合计算的区域IOU和MSER连通域稳定值，计算SS区域的稳定值，如公式(5)所示：

S_WCS＝Mat_IOU·S_TCS (5)

其中，S_WCS为SS区域的稳定值，Mat_IOU为矩形的重叠比矩阵，S_TCS为MSER连通域的稳定值。

步骤S50，基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值，并基于该阈值获取SS生成区域。

本实施例中，基于所述的SS候选区域的稳定值，根据预设的系数组，构建候选阈值集合，选取候选阈值集合中各候选阈值，分别求取图像中商标区域的平均最佳覆盖率及生成区域个数，对比最佳覆盖率值和生成区域个数，得到最佳的自适应判别阈值。具体步骤如下：

步骤S51，计算当前图像中所有SS连通域的稳定值S_WCS，根据预设的系数组{0.1,0.2,...,0.9}，构造阈值候选集合Λ＝{0.1μ,0.2μ,...,0.9μ}，μ为所有S_WCS的平均值；

步骤S52，定义阈值τ分别取Λ中的每一个值，候选区域的得分值大于阈值，则保留，否则，作为杂质排除；

步骤S53，在固定阈值前提下，求得图像中商标区域的平均最佳覆盖率(MeanAverage Best Overlap，MABO)以及生成区域的个数；

步骤S54，选取最佳覆盖率值大于预设值和生成区域个数少于预设值对应的阈值，作为自适应判别阈值。

预设值可以为基于领域先验知识获得，也可以根据实际情况进行人为设定。

商标区域的平均最佳覆盖率(Mean Average Best Overlap，MABO)为商标区域的最佳覆盖率(Average Best Overlap，ABO)的平均值，最佳覆盖率计算如公式(6)所示：

其中，|G^c|代表着类别c的真实框的个数，

为真实框和检测框的重叠比，计算如公式(7)所示：

其中，

为类别c中第i个真实框的面积，Rect(l_j)为第j个检测框的面积。

随着阈值τ取值的增加，生成的区域个数会越来越少，同时MABO也会随着降低。为了平衡MABO以及生成区域的个数之间的关系，当τ＝0.2μ时，检测结果最佳。由于μ为图像中所有S_WCS的平均值，所以区域稳定值的阈值与图像有关，避免了固定值造成的错误影响。

在本实施例中，将SS区域按照稳定值进行排序，得到稳定值最大的SS区域，与剩下的区域对比IOU值，得到检测的商标区域。具体步骤如下：

步骤S61，将SS区域按照步骤S40得到的稳定值的大小进行从大到小的排序。

步骤S62，稳定值最大的区域分别与余下的区域对比IOU值，若大于设定阈值，则将稳定值小的重叠区域排除，保留稳定值大的区域。

步骤S63，剩余的区域中，同样执行步骤S62，以此类推，得到所有符合条件的区域。

步骤S64，每一个商标通过结合选择性搜索连通域和最大稳定极值区域被正确地检测，并输出具体的坐标位置，并根据检测区域位置进行标记。

本发明第二实施例的一种基于自适应阈值的场景图像商标检测系统，如图3所示，包括：获取模块100、MSER模块200、MSER稳定值模块300、SS区域稳定值模块400、SS生成区域模块500、输出模块600；

获取模块100，配置为获取待检测的场景图像，作为输入图像；

MSER模块200，配置为基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值，并基于该阈值获取最大稳定极值区域；

MSER稳定值模块300，配置为提取所述最大稳定极值区域的HOG特征，基于二分类模型获取最大稳定极值区域的稳定值；

SS区域稳定值模块400，配置为根据SS算法提取所述输入图像的SS候选区域，计算所述SS候选区域和所述最大稳定极值区域的重叠比，基于所述重叠比和所述的最大稳定极值区域稳定值获取SS候选区域的稳定值；

SS生成区域模块500，配置为基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值，并基于该阈值获取SS生成区域；

输出模块600，配置为基于SS生成区域模块500得到的SS生成区域，采用非极大值抑制方法，获取商标的图像区域作为检测结果。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考签署方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的基于自适应阈值的场景图像商标检测系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的基于自适应阈值的场景图像商标检测方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的基于自适应阈值的场景图像商标检测方法。

所述技术领域的技术人员可以清楚的了解到，未描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考签署方法实例中的对应过程，在此不再赘述。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的模块、方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于自适应阈值的场景图像商标检测方法，其特征在于，该方法包括：

步骤S10，获取待检测的场景图像，作为输入图像；

其中，所述二分类模型其在训练过程中的损失函数为：

其中，w为二分类模型参数，γ为正则项参数，_xi为训练样本的特征向量，_yi为训练样本对应的类别符号，T为转置符号，n为总的训练样本数量；

其中，基于所述重叠比和所述的最大稳定极值区域稳定值获取SS候选区域的稳定值，其方法为：

S_WCS＝Mat_IOU·S_TCS

其中，S_WCS为SS候选区域的稳定值，Mat_IOU为矩形的重叠比矩阵，S_TCS为MSER连通域的稳定值，IOU(A,B)为矩形A与矩形B的重叠比，Rect(A)和Rect(B)分别代表矩形A和矩形B的面积；

所述矩形的重叠比矩阵Mat_IOU的构造方法为：

计算每一个SS区域与MSER连通域的重叠比，构造矩阵Mat_IOU，即矩形的重叠比矩阵；矩形的重叠比矩阵Mat_IOU横坐标为MSER连通域，纵坐标为SS连通域；

其中，“基于所述的SS候选区域的稳定值，计算选取SS候选区域的阈值”，其方法为：

选取最佳覆盖率值大于预设值和生成区域个数少于预设值对应的阈值，作为自适应判别阈值；

所述预设的系数组为{0.1,0.2,...,0.9}，基于该系数组构建的候选阈值集合Λ为：

Λ＝{0.1μ,0.2μ,...,0.9μ}

其中，μ为SS候选区域稳定值的平均值；

2.根据权利要求1所述的基于自适应阈值的场景图像商标检测方法，其特征在于，步骤S20中“基于所述输入图像的SIFT特征和面积，计算选取最大稳定极值区域的阈值”，其计算方法为：

3.根据权利要求1所述的基于自适应阈值的场景图像商标检测方法，其特征在于，步骤S30中“基于二分类模型获取最大稳定极值区域的稳定值”，其计算方法为：

4.根据权利要求1所述的基于自适应阈值的场景图像商标检测方法，其特征在于，所述商标区域的平均最佳覆盖率为商标区域的最佳覆盖率ABO的平均值；商标区域的最佳覆盖率的计算方法为：

其中，|G^c|代表着类别c的真实框的个数，

为真实框和检测框的重叠比。

5.一种基于自适应阈值的场景图像商标检测系统，其特征在于，该系统包括获取模块、MSER模块、MSER稳定值模块、SS区域稳定值模块、SS生成区域模块、输出模块；

其中，所述二分类模型其在训练过程中的损失函数为：

S_WCS＝Mat_IOU·S_TCS

所述矩形的重叠比矩阵Mat_IOU的构造方法为：

Λ＝{0.1μ,0.2μ,...,0.9μ}

其中，μ为SS候选区域稳定值的平均值；

6.一种存储装置，其中存储有多条程序，其特征在于，所述程序应用由处理器加载并执行以实现权利要求1-4任一项所述的基于自适应阈值的场景图像商标检测方法。

7.一种处理设置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-4任一项所述的基于自适应阈值的场景图像商标检测方法。