CN113569934B

CN113569934B - Logo分类模型构建方法、系统、电子设备及存储介质

Info

Publication number: CN113569934B
Application number: CN202110817148.4A
Authority: CN
Inventors: 朱彦浩; 胡郡郡; 唐大闰
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2024-01-23
Anticipated expiration: 2041-07-20
Also published as: CN113569934A

Abstract

本发明公开了一种LOGO分类模型构建方法、系统、电子设备及存储介质，LOGO分类模型构建方法包括：LOGO图像处理步骤：对原始LOGO图像进行处理获得仅具有LOGO标志的第一图像和具有所述LOGO标志及周边区域的第二图像；特征提取步骤：通过编码模块对第一图像和第二图像进行特征提取获得第一特征和第二特征；第一处理步骤：根据第一特征及/或第二特征获得第一向量和第二向量；第二处理步骤：根据第一向量和第二向量通过嵌入模块对应地获得第三向量和第四向量；第四向量处理步骤：对第四向量与Label进行arcface‑loss的学习形成LOGO分类模型。通过本发明能够对相似的LOGO进行有效的区分。

Description

LOGO分类模型构建方法、系统、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别涉及一种基于双流网络的LOGO分类模型构建方法、系统、电子设备及存储介质。

背景技术

LOGO是企业形象或者产品形象的符号化体现。logo最重要的一个功能就是识别性，便于消费群体或受众将不同企业的同类产品，或同一行业的不同企业区别开来，从而将logo所代表的产品或者企业打造成一种品牌，logo是无形的资产。对于LOGO进行相应的自动识别，可以帮助企业进行更好的数据分析和市场占比分析，较高的识别精准率有助于更好的进行企业策略的规划和制定。

在LOGO识别领域，同一行业内的LOGO标识大同小异，LOGO之间的区分度不高。如化妆品行业中，兰蔻/兰芝，COLORKEY/COLORPOP等的区分度不高，传统的分类网络结构难以满足实际需求。另一方面，LOGO的周边信息对于LOGO的分类有一定的作用，以汽车的LOGO为例，不同汽车的家族式前脸对于其LOGO的识别效果是有一定的提升作用的，但是多余的周边信息带来更多有效信息的同时会带来比有效信息更多的噪声信息，如何能够使得网络结构学习到有用的信息内容是重要的也是困难的。

基于以上问题现有技术大都采取以下方案：

1.检测一体化的识别方法

目前较为简单的方法就是与检测器一体化的识别，使用目标检测领域知名的FasterRcnn，SSD以及YOLO等系列的算法将识别的过程放在检测过程的最后，使用较为简单的分类头进行分类。这种方法的好处是较为便捷，不需要重新训练识别分类器检测和识别是一个端到端的过程。但其缺点在于：无法对于检测和识别进行解耦合。这就导致了无法使用更加强大的识别网络，且对于出现频次较少的LOGO甚至是未出现过的LOGO其识别的效果会非常的差。

2.单独的分类器方法

单独分类器的方法是目前业界比较通用的方案，检测器使用一个通用的LOGO检测器，对检测器检测到的类似LOGO的图形将其送入到分类器进行LOGO的类别分类。这种方法相对于第一种方案而言有更多的设计空间，但其缺点在于：未使用LOGO的周边信息，且对于相似的LOGO无法做出有效的区分。

因此亟需开发一种克服上述缺陷的基于双流网络的LOGO分类模型构建方法、系统、电子设备及存储介质。

发明内容

针对上述问题，本申请实施例提供了一种LOGO分类模型构建方法、系统、电子设备及存储介质，以至少解决对相似的LOGO无法做出有效区分的问题。

本发明提供一种LOGO分类模型构建方法，其中，包括：

LOGO图像处理步骤：对原始LOGO图像进行处理获得仅具有LOGO标志的第一图像和具有所述LOGO标志及周边区域的第二图像；

特征提取步骤：通过编码模块对所述第一图像和所述第二图像进行特征提取获得第一特征和第二特征；

第一处理步骤：根据所述第一特征及/或所述第二特征获得第一向量和第二向量；

第二处理步骤：根据所述第一向量和所述第二向量通过嵌入模块对应地获得第三向量和第四向量；

第四向量处理步骤：对所述第四向量与Label进行arcface-loss的学习形成LOGO分类模型。

上述的LOGO分类模型构建方法，其中，所述第一处理步骤包括：

第一向量获取步骤：对所述第一特征进行全局平均池化操作后通过预测器获得所述第一向量；

聚合步骤：对所述第一特征和所述第二特征进行聚合后输出聚合特征；

第二向量获取步骤：对所述聚合特征进行全局平均池化操作后获得所述第二向量；

注意力机制步骤：通过注意力机制模块根据所述聚合特征学习所述第一特征及所述第二特征间的相关关系。

上述的LOGO分类模型构建方法，其中，所述第二处理步骤还包括：对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

上述的LOGO分类模型构建方法，其中，所述第四向量处理步骤还包括：对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

本发明还提供一种LOGO分类模型构建系统，其中，包括：

LOGO图像处理单元，对原始LOGO图像进行处理获得仅具有LOGO标志的第一图像和具有所述LOGO标志及周边区域的第二图像；

特征提取单元，通过编码器对所述第一图像和所述第二图像进行特征提取获得第一特征和第二特征；

第一处理单元，根据所述第一特征及/或所述第二特征获得第一向量和第二向量；

第二处理单元，根据所述第一向量和所述第二向量通过嵌入器对应地获得第三向量和第四向量；

第四向量处理单元，对所述第四向量与Label进行arcface-loss的学习形成LOGO分类模型。

上述的LOGO分类模型构建系统，其中，所述第一处理单元包括：

第一向量获取模块，对所述第一特征进行全局平均池化操作后通过预测器获得所述第一向量；

聚合模块，对所述第一特征和所述第二特征进行聚合后输出聚合特征；

第二向量获取模块，对所述聚合特征进行全局平均池化操作后获得所述第二向量；

注意力机制模块，根据所述聚合特征学习所述第一特征及所述第二特征间的相关关系。

上述的LOGO分类模型构建系统，其中，所述第二处理单元对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

上述的LOGO分类模型构建系统，其中，所述第四向量处理单元还对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

本发明还提供一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如上述中任一项所述的LOGO分类模型构建方法。

本发明还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上述中任一项所述的LOGO分类模型构建方法。

本发明相对于现有技术其有益效果在于：

本发对于LOGO的周边信息进行了添加，并设计了双流的对比学习网络结构，并加入了新颖的attention模块使得有周边LOGO信息的网络结构能够学习到中央区域的特征，从而能够更好的学习到LOGO的周边信息并且对于相似的LOGO进行有效的区分。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明的LOGO分类模型构建方法的流程图；

图2为图1中步骤S3的分步骤流程图；

图3为本发明的LOGO分类模型的框架示意图；

图4为本发明的LOGO分类模型构建系统的结构示意图；

图5为本发明的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、“S1”、“S2”、…等，并非特别指称次序或顺位的意思，也非用以限定本发明，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

请参照图1-图3，图1本发明的LOGO分类模型构建方法的流程图；图2为图1中步骤S2的分步骤流程图；图3为本发明的LOGO分类模型的框架示意图。如图1-图3所示，本发明的LOGO分类模型构建方法包括：

LOGO图像处理步骤S1：对原始LOGO图像进行处理获得仅具有LOGO标志的第一图像和具有所述LOGO标志及周边区域的第二图像；

特征提取步骤S2：通过编码模块对所述第一图像和所述第二图像进行特征提取获得第一特征和第二特征；

第一处理步骤S3：根据所述第一特征及/或所述第二特征获得第一向量和第二向量；

第二处理步骤S4：根据所述第一向量和所述第二向量通过嵌入模块对应地获得第三向量和第四向量；

第四向量处理步骤S5：对所述第三向量与Label进行arcface-loss的学习形成LOGO分类模型。

进一步地，所述第一处理步骤S3包括：

第一向量获取步骤S31：对所述第一特征进行全局平均池化操作后通过预测器获得所述第一向量；

聚合步骤S32：对所述第一特征和所述第二特征进行聚合后输出聚合特征；

第二向量获取步骤S33：对所述聚合特征进行全局平均池化操作后获得所述第二向量；

注意力机制步骤S34：通过注意力机制模块根据所述聚合特征学习所述第一特征及所述第二特征间的相关关系。

再进一步地，所述第二处理步骤S4还包括：对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

更进一步地，所述第四向量处理步骤S5还包括：对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

以下请参照图3，结合一具体实施例对本发明的LOGO分类模型构建方法进行具体说明。

1、x1是只有LOGO标志的第一图像，x2是添加了一定周边区域的第二图像，这两种图像被送入到同一个编码模块(Encoder)中做特征提取分别获得第一特征和第二特征。

2、经过特征提取后的第一特征和第二特征会做一个特征的聚合获得聚合特征，聚合特征被送入到一个注意力机制(attention)模块中去学习第一特征和第二特征之间的相关关系。

3、经过特征提取后的第一特征会单独经过全局平均池化操作(GAP)后送入一个预测(Predictor)模块，生成一个1*512维的向量即第一向量。

4、经过注意力机制(attention)模块的聚合特征会经过全局平均池化操作(GAP)生成一个1*512维的向量即第二向量。

5、上路的1*512的第一向量会与下路1*512的第二向量做一个相似性的学习，使用回归损失函数(L2-Loss)做距离的拉近。

6、上下两路的第一向量和第二会向量经过同一个嵌入模块(embedder)生成两个1*256的向量即第三向量和第四向量，这两个向量也会做一个相似性的学习，使用余弦相似度距离做学习。

7、下路的第四向量会与Label做一个arcface-loss的学习。

需要说明的是，在模型的测试阶段，图3中的灰色区域将不再参与运算，这部分区域仅仅只用于做训练使用。

请参照图4，图4为本发明的LOGO分类模型构建系统的结构示意图。

如图4所示，本发明的LOGO分类模型构建系统包括：

LOGO图像处理单元11，对原始LOGO图像进行处理获得仅具有LOGO标志的第一图像和具有所述LOGO标志及周边区域的第二图像；

特征提取单元12，通过编码器对所述第一图像和所述第二图像进行特征提取获得第一特征和第二特征；

第一处理单元13，根据所述第一特征及/或所述第二特征获得第一向量和第二向量；

第二处理单元14，根据所述第一向量和所述第二向量通过嵌入器对应地获得第三向量和第四向量；

第四向量处理单元15，对所述第三向量与Label进行arcface-loss的学习形成LOGO分类模型。

进一步地，所述第一处理单元13包括：

第一向量获取模块131，对所述第一特征进行全局平均池化操作后通过预测器获得所述第一向量；

聚合模块132，对所述第一特征和所述第二特征进行聚合后输出聚合特征；

第二向量获取模块133，对所述聚合特征进行全局平均池化操作后获得所述第二向量；

注意力机制模块134，根据所述聚合特征学习所述第一特征及所述第二特征间的相关关系。

再进一步地，所述第二处理单元14对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

更进一步地，所述第四向量处理单元15对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

请参照图5，图5为本发明的电子设备的结构示意图。如图5所示，本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种LOGO分类模型构建方法。

在其中一些实施例中，电子设备还可包括通信接口83和总线80。其中，如图5所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种LOGO分类模型构建方法。

综上所述，本发对于LOGO的周边信息进行了添加，并设计了双流的对比学习网络结构，并加入了新颖的attention模块使得有周边LOGO信息的网络结构能够学习到中央区域的特征，从而能够更好的学习到LOGO的周边信息并且对于相似的LOGO进行有效的区分。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种LOGO分类模型构建方法，其特征在于，包括：

第四向量处理步骤：对所述第四向量与Label进行arcface-loss的学习形成LOGO分类模型；

其中，所述第一处理步骤包括：

第二向量获取步骤：对经过注意力机制模块的所述聚合特征进行全局平均池化操作后获得所述第二向量；

2.如权利要求1所述的LOGO分类模型构建方法，其特征在于，所述第二处理步骤还包括：对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

3.如权利要求1所述的LOGO分类模型构建方法，其特征在于，所述第四向量处理步骤还包括：对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

4.一种LOGO分类模型构建系统，其特征在于，包括：

第二处理单元，根据所述第一向量和所述第二向量通过嵌入模块对应地获得第三向量和第四向量；

第四向量处理单元，对所述第四向量与Label进行arcface-loss的学习形成LOGO分类模型；

其中，所述第一处理单元包括：

第二向量获取模块，对经过注意力机制模块的所述聚合特征进行全局平均池化操作后获得所述第二向量；

5.如权利要求4所述的LOGO分类模型构建系统，其特征在于，所述第二处理单元对所述第一向量和所述第二向量进行相似性学习，通过回归损失函数拉近所述第一向量和所述第二向量之间的距离。

6.如权利要求4所述的LOGO分类模型构建系统，其特征在于，所述第四向量处理单元还对所述第三向量和所述第四向量使用余弦相似度距离进行相似性学习。

7.一种电子设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3中任一项所述的LOGO分类模型构建方法。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述的LOGO分类模型构建方法。