CN112347284B

CN112347284B - 一种组合商标图像检索方法

Info

Publication number: CN112347284B
Application number: CN202010975070.4A
Authority: CN
Inventors: 苏海; 张淑青; 余松森; 钟莉
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2024-05-14
Anticipated expiration: 2040-09-16
Also published as: CN112347284A

Abstract

本发明公开一种组合商标图像检索方法，包括：收集各类商标图像，建立商标库；使用卷积神经网络模型提取待检测组合商标图像的特征，并计算提取得到的特征与商标库中各个商标提取到的特征的欧式距离，根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q；使用端对端的文字识别算法检索并识别待检测组合商标中的文字；对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T；融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S。本方法分别对图像与文字进行提取和识别，并融合两者得到最终的检索结果。可以较准确地检索到组合商标图像相似性结果。

Description

一种组合商标图像检索方法

技术领域

本发明属于数字图像处理领域，涉及一种组合商标图像检索方法。

背景技术

商标图像根据图像内容可以大致分为文字商标、图形商标、组合商标三类，如图2所示。尺度不变特征变换算法(SIFT)能够提取比较稳定的图像特征，具有尺度不变性，对于旋转和光照变化的图像具有鲁棒性，但是传统的基于SIFT特征的图像检索方法，如Jia S等在《Trademark image retrieval algorithm based on SIFT feature》(GreenCommunications and Networks，2017,113:201-207.)中提到的图像检索方法，对于当前大规模的商标图像而言，效率效果都相对较低，方法的适用性不广。Noh H等在《Large-scaleimage retrieval with attentive deep local features》(Proceedings of the IEEEInternational Conference on Computer Vision,2017:3456-3465.)中提出了一种大规模商标图像检索技术，利用全卷积神经网络模型Resnet50提取局部密集特征，提取的特征具有语义局部特征，使特征匹配更加精确。WenMei等在《Trademark image retrievalbased on faster R-CNN》(Journal of Physics Conference Series,2019,1237(3):32-42.)中，首次将Faster R-CNN应用于商标图像检索，图像的全局特征描述符由Faster R-CNN提取，图像的局部特征由RPN网络提取。

但上述方法均没有考虑到组合商标图像中含有大量文字。这些文字不仅需要从字形出发判断是否有近似商标，其读音是否与已有注册商标相近也是商标注册审查时需要考虑的因素。

发明内容

为克服现有技术缺陷，本发明提出一种组合商标图像检索方法。

本发明目的通过至少通过以下技术方案之一实现。

一种组合商标图像检索方法，包括以下步骤：

收集各类商标图像，若商标中含有文字，标注其文字信息，建立商标库；

使用卷积神经网络模型提取待检测组合商标图像的特征，并计算提取得到的特征与商标库中各个商标提取到的特征的欧式距离，根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q；

使用端对端的文字识别算法检索并识别待检测组合商标中的文字；

对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T；

融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S，即为最终的商标检索结果。

进一步的，述卷积神经网络模型为VGG16预训练模型，所述欧式距离的计算公式为：

其中，A,B为两个n维特征向量，A_i为向量A在第i维度上的值，B_i为向量B在第i维度上的值。

进一步的，所述端对端的文字识别算法为CRNN算法，由卷积神经网络CNN、循环神经网络RNN和转录层CTC Loss组成，CNN负责提取输入文字图像的特征，得到特征图；将CNN输出的特征图输入到循环神经网络RNN中对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，得到预测结果后，使用CTC Loss，把从循环层得到的标签分布转换成最后的标签序列，从而得到文字识别结果。

进一步的，采用文字排序算法为融合文字拼音编码与五笔编码的文字排序算进行所述相似度排序，具体步骤为：

计算两个文字字符串的拼音编码差异D_PY：

其中，a_PY，b_PY分别表示待排序的文字字符的拼音编码，ED(·)表示编辑距离算法，MAX(·)表示为求两个数的最大值，|·|表示为求该文字字符串的长度，

所述编辑距离算法指两个字符串之间，由一个转成另一个所需要的最小编辑操作次数，计算过程如下：两个字符串a,b的距离以动态规划的算法进行计算，首先构造一个以|a|+1为行，|b|+1为列的过程矩阵D,先给矩阵D的第一行和第一列赋值从0开始递增，D[i][0]＝i,0≤i≤|a|,D[0][j]＝j,0≤j≤|b|，之后矩阵中的其他元素由下式计算得到：

D[i][j]＝min(D[i-1][j]+1，D[i][j-1]+1，D[i-1][j-1]+cost)

其中，D[i-1][j]+1代表删除一个字符的操作，D[i][j-1]+1代表增加一个字符的操作，D[i-1][j-1]+cost代表替换字符操作，cost的值由a[i]、b[j]两数的关系确定，如果a[i]＝b[j],则cost＝1，否则cost＝0，以此迭代计算出最后D[|a|][|b|]的值为编辑距离ED(a，b)的值，

计算两个文字字符串的五笔编码差异D_WB：

其中，a_WB，b_WB分别表示待排序的文字字符的五笔编码；

计算两个文字字符串的编辑距离，求解过程中，过程矩阵D_s第一行第一列的元素计算如下：

D[i][0]＝i,0≤i≤|a|

D[0][j]＝j,0≤j≤|b|

过程矩阵D_s除第一行第一列以外的其他元素计算如下：

根据计算得到的编辑距离，对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T。

进一步的，所述融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S，具体为：

检索序列Q和T都有的商标，如果商标库中某一商标同时存在于序列Q与T中，则将该商标列入最终检索结果序列S中，如果有多个商标都存在序列Q和T中，则以各个商标在序列Q和T的顺序平均值依次列入序列S中；

如果商标库中某一商标只存在于序列Q或T中，则根据其在各个序列中的顺序依次列入序列S中，如果两个商标分别在序列Q的顺序与序列T的顺序相同，则优先将序列Q对应的商标列入序列S中。

本发明还提供一种组合商标图像检索装置，包括：

商标库建立模块，用于收集各类商标图像，若商标中含有文字，标注其文字信息；

特征提取模块，用于使用卷积神经网络模型提取待检测组合商标图像的特征；

计算排序模块，用于计算提取得到的特征与商标库中各个商标提取到的特征的欧式距离，并根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q；

识别模块，用于使用端对端的文字识别算法检索并识别待检测组合商标中的文字；

排序模块，用于对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T；

融合模块，用于融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S，即为最终的检索结果。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

本发明还提供一种计算机可读介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。

与现有技术相比，本发明实现的有益效果至少如下：

本发明结合了组合商标的图像特点与实际商标注册的需求，是一种高效高质的组合商标图像检索方法。本发明所提供的方法，首先提取商标图像特征并且进行文字识别，再分别对图像特征与识别文字与商标库中的各个商标进行相似度检索排序，最后融合图像与文字的检索结果，得到最终检索结果。同时考虑商标图像中的图像和文字，可以更为准确地检索到组合商标图像相似性结果。

附图说明

图1：本发明实施例的流程图。

图2：商标库部分商标图像示例。

图3：商标库分类情况示例。

图4：VGG16模型示意图。图4中仍存在有灰度填充，请进行修改

图5：本发明实施例于自建商标库的部分检索结果。

图6：本发明实施例中的一种组合商标图像检索装置的结构框图。

具体实施方式

以下结合附图和具体实施方式对本发明的方案做进一步的阐述。

实施例1

请见图1，在一个具体的实施例中，提供了一种组合商标图像方法，包括以下步骤：

步骤1：收集各类商标图像，整理为商标库，商标库部分商标图像如图2所示，商标库中含有文字商标、图形商标和组合商标。一共1000张商标图像，同时通过人工分类，将相同相近或相似的商标归为一类，每个类图片有1-15张商标图像，其中某一分类商标如图3所示。如果商标中含有文字，则标注其文字信息。

步骤2：使用卷积神经网络模型提取待检测组合商标图像的特征，并计算提取得到的特征与商标库中各个商标提取到的特征的欧式距离，根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q。

具体的，使用VGG16模型提取组合商标图像的特征。所使用的VGG16模型包含13个卷积层和3个全连接层，其中包括5个卷积层，每个卷积层后面有一个最大池化层，所有隐层的激活单元都采用ReLU函数。卷积层后面有两个4096维度和一个1000维度的全连接层，全连接层后面是一个softmax分类器。卷积层的后面都采用3x3的小卷积核来进行池化操作，卷积层步长被设置为1，VGG16模型如图4所示。由于当前商标图像没有一个标准的数据集，重新建立数据集训练网络并不可行，因此将直接采用以普通图像进行预训练得到的VGG16网络模型，将商标图像输入经过预训练的VGG16模型，进行模型微调。

使用同一VGG16模型对商标库的各个商标进行特征提取，计算待检索商标的特征与商标库中各个商标的特征的欧式距离，欧式距离计算公式为：

其中，A,B为两个n维特征向量，A_i为向量A在第i维度上的值，B_i为向量B在第i维度上的值。根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q。

步骤3：使用端对端的文字识别算法检索并识别待检测组合商标中的文字。

具体的，使用CRNN算法检索并识别组合商标中的文字。CRNN算法，由卷积神经网络CNN、循环神经网络RNN和转录层CTC Loss组成，CNN主要负责提取输入文字图像的特征，得到特征图。再把CNN输出的特征图输入到RNN循环神经网络中对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，得到预测结果后，使用CTC Loss，把从循环层得到的标签分布转换成最后的标签序列，从而得到文字识别结果。

步骤4：对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T。

具体的，采用融合文字拼音编码与五笔编码的文字排序算法，具体步骤为：

步骤4.1：计算两个文字字符串的拼音编码差异D_PY：

编辑距离算法指两个字符串之间，由一个转成另一个所需要的最小编辑操作次数，计算过程如下：两个字符串a,b的距离以动态规划的算法进行计算，首先构造一个以|a|+1为行，|b|+1为列的过程矩阵D,先给矩阵D的第一行和第一列赋值从0开始递增，D[i][0]＝i,0≤i≤|a|,D[0][j]＝j,0≤j≤|b|，之后矩阵中的其他元素由下式计算得到：

D[i][j]＝min(D[i-1][j]+1，D[i][j-1]+1，D[i-1][j-1]+cost)

其中，i，j为字符下标，D[i][j]代表字符串a[0]，a[1]，...，a[i]和字符串b[0]，b[1]，...，b[j]的编辑距离，D[i-1][j]+1代表删除一个字符的操作，D[i][j-1]+1代表增加一个字符的操作，D[i-1][j-1]+cost代表替换字符操作，cost代表字符a[i]、字符b[j]是否相等，其值由a[i]、b[j]两数的关系确定，如果a[i]＝b[j],则cost＝1，否则cost＝0，以此迭代计算出最后D[|a|][|b|]的值为编辑距离ED(a，b)的值；

步骤4.2：计算两个文字字符串的五笔编码差异D_WB：

其中，a_WB，b_WB分别表示待排序的文字字符的五笔编码；

步骤4.3：计算两个文字字符串的编辑距离，求解过程中，过程矩阵D_s第一行第一列的元素计算如下：

D[i][0]＝i,0≤i≤|a|

D[0][j]＝j,0≤j≤|b|

过程矩阵D_s除第一行第一列以外的其他元素计算如下：

步骤4.4：根据计算得到的编辑距离，对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T。

步骤5：融合检索结果序列Q和T，得到最终检索结果序列S，即为最终的商标检索结果。具体包括以下步骤：

步骤5.1：检索序列Q和T都有的商标，如果商标库中某一商标同时存在于序列Q与T中，则将该商标列入最终检索结果序列S中，如果有多个商标都存在序列Q和T中，则以各个商标在序列Q和T的顺序平均值依次列入序列S中；

步骤5.2：如果商标库中某一商标只存在于序列Q或T中，则根据其在序列中的顺序列入序列S中，如果两个商标分别在序列Q的顺序与序列T的顺序相同，则优先将序列Q对应的商标列入序列S中。通过以上步骤最终得到检索结果序列S。

本发明具体实施例步骤1所建立的商标库，其部分检索结果如图5所示。采用查全率(Recall)、和平均精度均值(Mean Average Precision，MAP)作为商标图像检索结果评价指标，与SIFT、HU矩特征、SURF三种图像检索算法，深度学习方法Resnet50模型、VGGnet模型作对比，根据步骤1所建立的商标库每一类都有15个相似的商标图像，因此当检索数量设置为15时，计算查全率和MAP，其对比结果如下。

表1五种方法商标检索对比结果1

	查全率	MAP
			SIFT	0.682	0.786
HU	0.601	0.702
			SURF	0.716	0.790
Resnet50	0.805	0.818
			VGGnet	0.812	0.825
本申请的方法	0.862	0.884

当检索数量不设置为15时，一般以查找到相似商标图像为优先选择，因此仅考虑查全率，其对比结果如下。

表2五种方法商标检索对比结果1

从表1和表2可以明显看到，相比于其他现有的检索方法，采用本实施例提供的检索方法的得到商标检索结果明显更优，体现了本实施例提供的组合商标检索方法的优越性，可以更为准确地检索到组合商标图像的相似性结果。

实施例2

在一个具体的实施例中，如图6所示，提供了一种组合商标图像检索装置，包括：

其中，特征提取模块中的卷积神经网络模型为VGG16预训练模型。

其中，计算排序模块中欧式距离的计算公式为：

其中，识别模块中的识别算法为CRNN算法，由卷积神经网络CNN、循环神经网络RNN和转录层CTC Loss组成，CNN负责提取输入文字图像的特征，得到特征图；将CNN输出的特征图输入到循环神经网络RNN中对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，得到预测结果后，使用CTC Loss，把从循环层得到的标签分布转换成最后的标签序列，从而得到文字识别结果。

其中，融合模块中采用融合文字拼音编码与五笔编码的文字排序算进行所述相似度排序。

上述的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例3

在一个具体的实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述组合商标图像检索方法的步骤。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、数据库、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储商标样本图像以及数据库等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述组合商标图像检索方法。

实施例4

在一个具体的实施例中，提供了一种计算机可读介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述组合商标图像检索方法的步骤。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种组合商标图像检索方法，其特征在于，包括以下步骤：

融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S，即为最终的商标检索结果；所述卷积神经网络模型为VGG16预训练模型，所述欧式距离的计算公式为：

其中，A,B为两个n维特征向量，A_m为向量A在第m维度上的值，B_m为向量B在第m维度上的值;

根据欧式距离的大小对商标检索结果进行排序，得到基于图像特征的检索结果序列Q；所述端对端的文字识别算法为CRNN算法，由卷积神经网络CNN、循环神经网络RNN和转录层CTC Loss组成，CNN负责提取输入文字图像的特征，得到特征图；将CNN输出的特征图输入到循环神经网络RNN中对特征序列进行预测，对序列中的每个特征向量进行学习，并输出预测标签分布，得到预测结果后，使用CTC Loss，把从循环层得到的标签分布转换成最后的标签序列，从而得到文字识别结果；采用融合文字拼音编码与五笔编码的文字排序算法进行所述相似度排序，并得到基于文字识别的检索结果序列T，具体步骤为：

计算两个文字字符串的拼音编码差异D_PY：

所述编辑距离算法指两个字符串之间，由一个转成另一个所需要的最小编辑操作次数，计算过程如下：两个字符串a，b的距离以动态规划的算法进行计算，首先构造一个以|a|+1为行，|b|+1为列的过程矩阵D，先给矩阵D的第一行和第一列赋值从0开始递增，D[i][0]＝i，0≤i≤|a|，D[0][j]＝j，0≤j≤|b|，之后矩阵中的其他元素由下式计算得到：

D[i][j]＝min(D[i-1][j]+1，D[i][j-1]+1，D[i-1][j-1]+cost)

其中，i，j为字符下标，D[i][j]代表字符串a[0]，a[1]，...，a[i]和字符串b[0]，b[1]，...，b[j]的编辑距离，D[i-1][j]+1代表删除一个字符的操作，D[i][j-1]+1代表增加一个字符的操作，D[i-1][j-1]+cost代表替换字符操作，cost代表字符a[i]、字符b[j]是否相等，其值由a[i]、b[j]两数的关系确定，如果a[i]＝b[j]，则cost＝1，否则cost＝0，以此迭代计算出最后D[|a|][|b|]的值为编辑距离ED(a，b)的值；

计算两个文字字符串的五笔编码差异D_WB：

其中，a_WB，b_WB分别表示待排序的文字字符的五笔编码；

D[i][0]＝i，0≤i≤|a|

D[0][j]＝j，0≤j≤|b|

过程矩阵D_s除第一行第一列以外的其他元素计算如下：

其中，D[i-1][j]+1代表删除一个字符的操作，D[i][j-1]+1代表增加一个字符的操作，D[i-1][j-1]+cost代表替换字符操作；

根据计算得到的编辑距离，对识别得到的文字与商标库中的各个商标对应文字进行相似度排序，得到基于文字识别的检索结果序列T；所述融合检索结果序列Q和检索结果序列T，得到最终检索结果序列S，具体为：

检索序列Q和序列T都有的商标，如果商标库中某一商标同时存在于序列Q与T中，则将该商标列入最终检索结果序列S中，如果有多个商标都存在序列Q和序列T中，则以各个商标在序列Q和序列T的顺序平均值依次列入序列S中；

如果商标库中某一商标只存在于序列Q或T中，则根据其在序列中的顺序列入序列S中，如果两个商标分别在序列Q的顺序与序列T的顺序相同，则优先将序列Q对应的商标列入序列S中。

2.一种实现权利要求1所述检索方法的组合商标图像检索装置，其特征在于，包括：

3.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于：所述处理器执行所述计算机程序时实现权利要求1所述方法的步骤。

4.一种计算机可读介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1所述的方法的步骤。