CN111274429A

CN111274429A - 一种基于gan的数据增强的无监督商标检索系统及方法

Info

Publication number: CN111274429A
Application number: CN202010039075.6A
Authority: CN
Inventors: 梁观术; 曹江中; 戴青云; 黄云飞
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2020-06-12

Abstract

本发明公开了一种基于GAN的数据增强的无监督商标检索系统，包括GAN数据增强模块、实例区分模块、商标检索模块。GAN数据增强模块用于生成商标数据集，扩充训练集；实例区分模块用于训练无监督网络，提取的商标特征；商标检索模块用于计算商标数据库与待检索商标特征的相似度量并按照大小进行排序。首先，使用商标数据集来训练对抗生成网络。然后，将已训练完的GAN模块来生成增强的数据集，并加上原来商标数据集组成新的商标数据集。最后，将新的商标数据集用于训练实例区分模块。在商标检索模块中，分别将待检索商标图像和新的商标数据集通过已训练好的实例区分模块提取商标特征。本发明有效地解决了商标检索中数据标注困难和数据多样性不足的问题。

Description

一种基于GAN的数据增强的无监督商标检索系统及方法

技术领域

本发明涉及人工智能领域，特别是涉及一种基于对抗生成网络的数据增强的无监督商标检索系统方法。

背景技术

商标作为知识产权的重要组成部分，其保护对企业品牌价值有着深刻的影响。同时，商标在一定程度上象征着商品的质量和商家的信誉。随着商品经济的快速发展，无论是商标注册申请量、商标注册审查量还是有效注册商标量的数目都在不断增加，手工查找相似的商标图像几乎是一项不可能完成的工作。因此，商标检索系统被认为是执法机关处理商标保护案件的有力工具。然而，目前商标申请者从申请新商标到批准需要很长时间，其中大部分时间消耗在于检索相似商标上，这很大程度影响营业者的经济利益，因此，一套快速且有效的商标检索系统对加快商标注册、防止近似伪造商标以及保护商标权益具有很重要的意义。

目前，商标智能检索主要有文字和图像两种方式。基于文字的商标检索方法太依赖于人工操作且商标图像携带丰富的信息，仅仅使用文字完整描述一张商标图像是很有难度的事情，而且在描述商标图像过程中难免加入主观性。然而，基于图像方式在表达商标图像的特性中具有较大的信息量，能够很好的描述一张商标图像。因此，商标的图像检索也经常被当作主要的商标智能检索方式。在商标图像的智能检索研究中，主要有两种主流思路。一种是通过传统的特征设计方法，例如颜色直方图，局部二值模式(LBP)，GIST，Bag ofVisual Words(Bo VW))，Shape Context，SIFT，SURF，HOG。另一种是基于神经网络的有监督学习方法。Tursun首次把神经网络运用于商标检索上，其检索的效果明显验证优于传统的方法。实验结果验证了神经网络在商标检索上是可行的。然而，以上两种基于图像的商标检索方法都存在一定的不足。在传统的特征设计方法中，由于其特征没有对商标数据的特性进行学习，所提取的特征往往难以真正表达商标图像的特征，从而导致检索性能不足；在神经网络的特征学习方法中，商标的大数据背景下，商标数据标记和收集的问题也不容忽视，大量数据的标注往往是一项难以完成的任务，并且商标数据具有极其的多样性潜质，简单的采样往往难以覆盖真实样本的多样性，为机器学习系统带来了一定的学习偏差。

因此，本发明通过无监督特征学习方法解决了商标检索数据标注难的问题，并且，通过了GAN数据增强方法解决数据不足的问题。

发明内容

为了解决现有技术中数据标记困难和收集不足的问题，本发明提供了一种基于GAN的数据增强的无监督商标检索方法。

为解决上述技术问题，本发明的技术方案如下：

一种基于GAN(对抗生成网络)的数据增强的无监督商标检索系统，包括GAN数据增强模块、实例区分模块、商标检索模块，其中GAN数据增强模块用于增强商标数据集，扩充商标训练集；实例区分训练模块用于训练无监督网络，得到商标特征提取器；商标检索模块用于计算商标数据库与待检索商标特征的相似度量，输出商标的排序结果。

在一种优选方案中，所述的GAN数据增强模块通过已训练好的GAN模型来生成商标数据集，并将增强的商标数据集与原来的商标数据集结合在一起，组成新的商标数据库M。

在一种优选方案中，所述的GAN模型的训练步骤如下：

步骤1.保持生成器G(z)的参数不变，在噪声分布P_z(z)中随机选取m个噪声样本Z＝{z₁,z₂,...,z_n}，同时，从商标真实数据P_real(x)中进行随机抽取n个商标数据X＝{x₁x₂,...,x_n}；

步骤2.最大化判别损失迭代训练更新判别器；然后，保持判别器D(x)的参数不变最小化判别损失迭代训练生成器；

步骤3.通过循环步骤1和步骤2，形成博弈学习模式，最终当判别器无法判断输入样本的来源时，即理想状态下

训练达到稳定状态，得到一个最优的生成器参数；

步骤4.使用已训练完成的生成器G(z)来生成商标数据集Q，并结合原来的商标数据集，形成一个新的商标数据集M，用于训练实例区分算法。

在一种优选方案中，所述的最大化判别损失迭代训练更新判别器的公式如下：

其中x来自真实的商标数据分布x～P_real(x)，z来自随机噪声分布z～P_z(z)，D(x)为判别器输出商标数据来源的类别(1：真实商标数据分布，0：生成数据分布)，G(z)为生成器以Z为输入生成的图片样本，n是训练图像批次大小。

在一种优选方案中，所述的最小化判别损失迭代训练生成器的公式如下：

在一种优选方案中，所述的实例区分模块利用增强后的商标数据库M通过实例区分算法来训练无监督网络，得到商标特征提取器。

在一种优选方案中，所述的商标特征提取器将新的商标数据集M经过已训练好的商标特征提取器进行特征提取，形成商标特征库F＝{F₁,F₂,...,F_n}，其中F∈R^n×128，同理，利用商标特征提取器进行提取检索图像I的特征F'，其中F'∈R^1×128。

在一种优选方案中，所述的商标检索模块将增强后的商标数据库M经过已训练好的商标特征提取器进行特征提取，形成商标特征库，选取商标检索集中任意一张商标I，将其经过商标特征提取器进行提取特征F'，根据欧式距离来计算商标数据库与待检索商标特征的相似度量。

一种基于GAN的数据增强的无监督商标检索方法，应用于上述的系统，其特征在于，包括以下步骤：

S1.GAN数据增强模块用于增强商标数据集，扩充商标训练集，获得新的商标商标数据库；

S2.实例区分训练模块训练无监督网络，得到商标特征提取器，提取待检索商标的图像特征；

S3.商标检索模块计算商标数据库与待检索商标特征的相似度量，输出商标的排序结果。

现有技术相比，本发明技术方案的有益效果是：

1.现在商标检索方法侧重于深度学习的有监督方法，忽略了有监督方法在大数据背景下数据标注的代价，而我们的方法是无监督方法，解决了数据标注难的问题。

2.现有的数据增强方法侧重于传统的数据增强方法，而实例区分算法是通过学习样本的差异来训练神经网络，具有多样性的数据集对实例算法有积极的效果，但是传统数据增强方法会让实例区分学习到噪声的分布，显然是不可取的。然而，GAN能产生符合真实数据分布的样本，其数据往往具有多样性的特点，非常符合对实例区分算法的样本需求。

附图说明

图1是一种基于GAN的数据增强的无监督商标检索系统模块示意图。

图2是一种基于GAN的数据增强的无监督商标检索方法示意图。

图3是一种基于GAN的数据增强的无监督商标检索方法效果示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于GAN的数据增强的无监督商标检索系统，包括GAN数据增强模块、实例区分模块、商标检索模块，其中GAN数据增强模块用于增强商标数据集，扩充商标训练集；实例区分训练模块用于训练无监督网络，得到商标特征提取器；商标检索模块用于计算商标数据库与待检索商标特征的相似度量，输出商标的排序结果。

在一种优选方案中，所述的GAN模型的训练步骤如下：

训练达到稳定状态，得到一个最优的生成器参数；

其中x来自真实的商标数据分布x～P_real(x)，z来自随机噪声分布z～P_z(z)，D(x)为判别器输出商标数据来源的类别，其中1：真实商标数据分布，0：生成数据分布；G(z)为生成器以Z为输入生成的图片样本，n是训练图像批次大小。

实施例2

一种基于GAN的数据增强的无监督商标检索方法，应用于上述的系统，包括以下步骤：

在一种优选方案中，所述的GAN模型的训练步骤如下：

训练达到稳定状态，得到一个最优的生成器参数；

步骤4.使用已训练完成的生成器G(z)来生成商标数据集Q，并结合原来的商标数据集，形成一个新的商标数据集M。

实施例3

本发明提供了一种商标检索方法。使用ResNet50作为无监督网络，在实例区分模式中，商标数据集经过已训练好的GAN模型生成数据集Q，并将数据集Q加上原来商标数据集，组成新的商标数据集M，最后通过新的商标数据集M来训练实例区分模块得到商标特征提取器ResNet50。在检索模块中，把新的商标数据集M经过已训练好的商标特征提取器ResNet50进行提取特征，组成商标特征库F＝{F₁,F₂,...,F_n}。同样地，再把待检索图像经过已训练好的商标特征提取器ResNet50进行提取特征F'，最后，根据欧式距离计算商标数据库与检索图像的相似度量，并按照相似度量的大小进行排序。

请参考图1，商标检索系统包括GAN数据增强模块、实例区分模块、商标检索模块。其中待检索图像和商标数据库分别为在线检索和模型训练的输入端，在模型训练时，商标数据库的输出端与GAN数据增强模块输入端相连，通过GAN生成增强后的数据集，并加上原来的数据集，组成一个新的商标数据集，该新的商标数据集输出端与实例区分模块的输入端相连，目的是通过新的数据集来训练实例区分模块。在线检索时，待检索图像输出端与已训练完的实例区分模块输入端相连，提取检索图像的特征。实例区分模块的输出端与检索模块输入端相连，检索模块的输出端是显示图像排序结果。

请参考图3，共有5组检索结果图像，其中左边第一张均为检索图像，左边第二张至第十张均为检索结果。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于GAN的数据增强的无监督商标检索系统，其特征在于，包括GAN数据增强模块、实例区分模块、商标检索模块，其中GAN数据增强模块用于增强商标数据集，扩充商标训练集；实例区分训练模块用于训练无监督网络，得到商标特征提取器；商标检索模块用于计算商标数据库与待检索商标特征的相似度量，输出商标的排序结果。

2.根据权利要求1所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的GAN数据增强模块通过已训练好的GAN模型来生成商标数据集，并将增强的商标数据集与原来的商标数据集结合在一起，组成新的商标数据库M。

3.根据权利要求2所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的GAN模型的训练步骤如下：

训练达到稳定状态，得到一个最优的生成器参数；

4.根据权利要求3所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的最大化判别损失迭代训练更新判别器的公式如下：

其中x来自真实的商标数据分布x～P_real(x)，z来自随机噪声分布z～P_z(z)，D(x)为判别器输出商标数据来源的类别，G(z)为生成器以Z为输入生成的图片样本，n是训练图像批次大小。

5.根据权利要求3所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的最小化判别损失迭代训练生成器的公式如下：

6.根据权利要求1所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的实例区分模块利用增强后的商标数据库M通过实例区分算法来训练无监督网络，得到商标特征提取器。

7.根据权利要求6所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的商标特征提取器将新的商标数据集M经过已训练好的商标特征提取器进行特征提取，形成商标特征库F＝{F₁,F₂,...,F_n}，其中F∈R^n×128，同理，利用商标特征提取器进行提取检索图像I的特征F'，其中F'∈R^1×128。

8.根据权利要求5所述的基于GAN的数据增强的无监督商标检索方法，其特征在于，所述的商标检索模块将增强后的商标数据库M经过已训练好的商标特征提取器进行特征提取，形成商标特征库，选取商标检索集中任意一张商标I，将其经过商标特征提取器进行提取特征F'，根据欧式距离来计算商标数据库与待检索商标特征的相似度量。

9.一种基于GAN的数据增强的无监督商标检索方法，应用于权利要求1-8任一项所述的系统，其特征在于，包括以下步骤：

10.根据权利要求9所述的基于GAN的数据增强的无监督商标检索系统，其特征在于，所述的GAN数据增强模块通过已训练好的GAN模型来生成商标数据集，并将增强的商标数据集与原来的商标数据集结合在一起，组成新的商标数据库M。