CN112861656B

CN112861656B - 商标相似性检测方法、装置、电子设备和存储介质

Info

Publication number: CN112861656B
Application number: CN202110080634.2A
Authority: CN
Inventors: 侯丽; 严明洋
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2024-05-14
Anticipated expiration: 2041-01-21
Also published as: WO2022156067A1; CN112861656A

Abstract

本申请涉及人工智能技术领域，具体公开了一种商标相似性检测方法、装置、电子设备和存储介质，其中，商标相似性检测方法包括：对第一商标样本进行数据增广，得到第二商标样本；根据第二商标样本进行模型训练，得到特征提取模型；将第一待检测商标图像输入到特征提取模型，得到第一特征向量；将第二待检测商标图像输入到特征提取模型，得到第二特征向量；根据第一特征向量和第二特征向量，确定第一待检测商标图像和第二待检测商标图像之间的相似度；若相似度大于阈值，则确定第一待检测商标图像和第二待检测商标图像相似。

Description

商标相似性检测方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种商标相似性检测方法、装置、电子设备和存储介质。

背景技术

商标，作为经营者提供的商品或服务的显著标志，在一定程度上代表了该经营者，以及其在其所经营的领域中所累积的声誉，象征着经营者的信誉和可靠度的，是企业日益激烈的市场竞争活动中的重要组成部分。并且，由于商标所代表的经营者的声誉，使商标可以说明的拥有该商标的产品或服务的性质和质量符合。由此，可以帮助消费者识别和购买某些产品或服务。基于此，商标可以说是企业的无形资产，其重要性不言而喻。因此，商标必须具有足够的独特性以避免与其他商标发生混淆或冲突。目前，市面上充斥着各种大型或知名企业的仿冒商标，在扰乱市场秩序的同时，也严重影响了大型或知名企业的声誉。

商标的近似是指两商标文字的字形、读音、含义或者图形的构图、着色、外观近似，或者文字和图形组合后的整体排列组合方式和外观近似，或者其三维标志的形状和外观近似，或者其颜色或者颜色组合近似，使用在同一种或者类似商品或者服务上易使相关公众对商品或者服务的来源产生误认。

传统的商标相似性度量方法往往是通过计算商标图像的结构相似性或直方图计算商标图像的相似度，或者通过人工提取商标特征并利用模式识别的方式计算商标的相似度。然而，这些方法计算速度慢，商标相似度的准确率容易受到噪声干扰等因素的影响，导致相似度计算的准确率低。

发明内容

为了解决现有技术中存在的上述问题，本申请实施方式提供了一种商标相似性检测方法、装置、电子设备和存储介质，可以在提高商标的相似度获取效率的同时，保证相似度的精准度。

第一方面，本申请的实施方式提供了一种商标相似性检测方法，包括：

对第一商标样本进行数据增广，得到第二商标样本；

根据第二商标样本进行模型训练，得到特征提取模型；

将第一待检测商标图像输入到特征提取模型，得到第一特征向量；

将第二待检测商标图像输入到特征提取模型，得到第二特征向量；

根据第一特征向量和第二特征向量，确定第一待检测商标图像和第二待检测商标图像之间的相似度；

若相似度大于阈值，则确定第一待检测商标图像和第二待检测商标图像相似。

第二方面，本申请的实施方式提供了一种商标相似性检测装置，包括：

预处理模块，用于对第一商标样本进行数据增广，得到第二商标样本；

训练模块，用于根据第二商标样本进行模型训练，得到特征提取模型；

提取模块，用于将第一待检测商标图像输入到特征提取模型，得到第一特征向量，以及将第二待检测商标图像输入到特征提取模型，得到第二特征向量；

处理模块，用于根据第一特征向量和第二特征向量，确定第一待检测商标图像和第二待检测商标图像之间的相似度；

第三方面，本申请实施方式提供一种电子设备，包括：处理器，处理器与存储器相连，存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序，以使得电子设备执行如第一方面的方法。

第四方面，本申请实施方式提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序使得计算机执行如第一方面的方法。

第五方面，本申请实施方式提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机可操作来使计算机执行如第一方面的方法。

实施本申请实施方式，具有如下有益效果：

可以看出，在本申请实施方式中，通过对训练用的商标样本进行数据增广，充分扩增了训练样本在各种情况下的数据，使得训练后的模型可以在商标图像的各个尺度和视角下，以及多种干扰等情况下，任具有良好的鲁棒性。同时，使后续对商标相似度的计算的准确率不容易受到图像形变、光照强度、噪声干扰等因素的影响。此外，相比于传统的人工提取特征的方法，本申请实施方式实现了商标相似度检测的自动化执行，具有快速、高效、漏检率低等优点。

附图说明

为了更清楚地说明本申请实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施方式提供的一种商标相似性检测方法的流程示意图；

图2为本申请实施方式提供的另一种特征提取模型的运作流程示意图；

图3为本申请实施方式提供的一种获取文本向量的流程示意图；

图4为本申请实施方式提供的一种商标相似性检测装置的功能模块组成框图；

图5为本申请实施方式提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施方式”意味着，结合实施方式描述的特定特征、结果或特性可以包含在本申请的至少一个实施方式中。在说明书中的各个位置出现该短语并不一定均是指相同的实施方式，也不是与其它实施方式互斥的独立的或备选的实施方式。本领域技术人员显式地和隐式地理解的是，本文所描述的实施方式可以与其它实施方式相结合。

参阅图1，图1为本申请实施方式提供的一种商标相似性检测方法的流程示意图。该商标相似性检测方法包括以下步骤：

101：对第一商标样本进行数据增广，得到第二商标样本。

在本实施方式中，通过对第一商标样本进行扰动处理，得到扰动图像，再对扰动图像添加预设的噪声，实现对第一商标样本的数据增广。其中，该扰动处理主要用于模拟造成图像信息变动的场景。该扰动处理可以包括以下至少一种：平移处理、缩放处理、旋转处理以及翻转处理。该预设噪声可以包括以下至少一种高斯噪声、加性噪声、随机噪声以及椒盐噪声。

在可选的实施方式中，该扰动处理还可以用于模拟造成图像信息丢失的场景。因此，该扰动处理还可以包括以下至少一种：图像压缩处理、图像剪切处理、图像覆盖处理、图像中至少部分区域的替换处理以及色彩变换处理。其中，该色彩变换处理可以包括以下至少一种：对比度变换处理、亮度变换处理、饱和度变换处理以及色调变换处理。

由此，充分扩增了训练样本在各种情况下的数据，使得训练后的模型可以在商标图像的各个尺度和视角下，以及多种干扰等情况下，任具有良好的鲁棒性。同时，使后续对商标相似度的计算的准确率不容易受到图像形变、光照强度、噪声干扰等因素的影响。

此外，在本实施方式中，在对第一商标样本进行数据增广之前，还可以对商标图像进行图像主体提取，以去除第一商标样本中与商标本身无关的元素，例如：背景等。示例性的，可以对第一商标样本进行边缘检测，得到第一检测结果。根据第一检测结果，对第一商标样本进行裁剪，得到第一商标主体图像，再将第一商标主体图像作为新的第一商标样本，执行后续操作。由此，除去商标样本中不属于商标部分的元素，便于后续操作的执行，提高了商标相似性检测的效率。

在可选的实施方式中，还可以通过对第一商标样本进行显著性检测，得到第二检测结果。根据第二检测结果，对第一商标样本进行裁剪，得到第二商标主体图像，再将第二商标主体图像作为新的第一商标样本。

或者，同时对第一商标样本进行边缘检测和显著性检测，得到第一检测结果和第二检测结果，再根据第一检测结果和第二检测结果，对第一商标样本进行裁剪，得到第三商标主体图像，将第三商标主体图像作为新的第一商标样本。由此，通过边缘检测和显著性检测相互应征，使对商标图像的图像主体提取更加精准。

102：根据第二商标样本进行模型训练，得到特征提取模型。

在本实施方式中，采用深度卷积AlexNet网络模型作为模型训练的基础模型，该网络模型包括：5个卷积层、3个池化层和4个全连接层，模型的激励函数选择ReLU函数，在引入数据的非线性效果的同时，使训练效率更快。

此外，在本实施方式中，可以对多个第一商标样本分别进行数据增广，以获取多个第二商标样本。从而根据多个第二商标样本进行模型训练，以提升模型的适用性。

103：将第一待检测商标图像输入到特征提取模型，得到第一特征向量。

在本实施方式中，特征提取模型训练好后，将第一待检测商标图像输入到特征提取模型，选取该模型的倒数第二层的返回值，作为该第一待检测商标图像对应的第一特征向量。由此，可以使第一特征向量包含足够多的图像特征，从而更加全面的反映商标的各个特征，以提升后续相似度计算的精准度。

在可选的实施方式中，还提供了另一种特征提取模型，该特征提取模型通过对商标图像进行分割，将商标图像分割为文本区域和图像区域。再分别获取对应文本区域的文本向量，以及对应图像区域的图像向量，将文本向量和图像向量进行拼接，从而获取特征向量。

基于此，以下将以第一待检测商标图像为例，对该特征提取模型进行说明。

参见图2，图2为本申请实施方式提供的另一种特征提取模型的运作流程示意图。如图2所示，该特征提取模型的运作流程包括：

201：对第一待检测商标图像进行图像分割，得到文本区域和图像区域。

示例性的，可以通过确定第一待检测商标图像中每一个像素的自适应阈值，从而根据该自适应阈值对第一待检测商标图像进行阈值分割，从而得到文本区域和图像区域。此外，还可以采用例如全卷积网络对图像进行语义分割等方式分割第一待检测商标图像，本申请对图像分割的方式不进行限定。

202：对文本区域中的文本进行词嵌入处理，得到文本向量。

示例性的，本申请给出一种获取文本向量的方法，如图3所示，该方法包括：

301：对文本区域中的文本进行语义切分，得到至少一个词语。

302：对于至少一个词语中的每个词语，分别根据每个词语查询实体标签库，确定每个词语对应的实体标签。

在本实施方式中，该实体标签库中维护了大部分日常常用词语和预先定义的实体标签的映射关系，因此，通过对词语进行搜索，即可快速确定该词语对应的实体标签。

303：对每个词语进行词嵌入处理，得到词向量，以及对每个词语对应的实体标签进行编码，得到实体向量。

在本实施方式中，实体向量和词向量之间是一一对应的关系。

304：根据至少一个实体向量和至少一个词向量，确定文本向量。

示例性的，将每个词语对应的词向量的实体向量进行横向拼接，确定该词语的词特征向量，继而根据该词特征向量进行语义理解。然后，根据文本区域中的文本所切分出的所有词语的词特征向量和语义理解结果，确定文本区域中的文本的文本向量。由此，通过实体标签对词语的领域进行预先分类，提升语义理解的效率和精度，继而提升获取的文本向量的精度。

203：对图像区域中的图像进行特征提取，得到图像向量。

204：将文本向量和图像向量进行拼接，得到第一特征向量。

示例性的，该拼接优选为横向拼接。由此，综合第一待检测商标图像中的文本信息和图像信息，使获取到的第一特征向量更加精准。

在可选的实施方式中，还可以获取第一待检测商标图像的特征信息，例如，标识第一待检测商标图像应用的领域的领域信息。对该领域信息进行词嵌入处理，获取领域向量。具体处理过程与上述对文本区域中的文本进行词嵌入处理的方法类似，在此不再赘述。

然后，将文本向量、领域向量和图像向量进行拼接，得到第一特征向量。由此，使获得的第一特征向量中包含了商标的应用领域特征，以提升后续相似度计算的精准度。同时，也使得后续计算得出的相似度结果可以直接应用于商标的侵权判定。

104：将第二待检测商标图像输入到特征提取模型，得到第二特征向量。

在本实施方式中，对第二待检测商标图像的第二特征向量的提取，与上述对第一待检测商标图像的第一特征向量的提取的方法类似，在此不再赘述。

105：根据第一特征向量和第二特征向量，确定第一待检测商标图像和第二待检测商标图像之间的相似度。

在本实施方式中，通过计算第一待检测商标图像对应的第一特征向量，和第二待检测商标图像对应的第二特征向量之间的夹角余弦值，并用该夹角余弦值作为第一待检测商标图像和第二待检测商标图像之间的相似度。

示例性的，通过特征提取模型，可以得到长度相等的第一特征向量A＝[a1，a2，…，ai，…，an]，和第二特征向量B＝[b1，b2，…，bi，…，bn]，其中，i＝1，2，…，n。

基于此，夹角余弦值可以通过公式①表示：

其中，A·B表示第一特征向量A与第二特征向量B的内积，丨丨为取模符号，丨A丨表示第一特征向量A的模，丨B丨表示第二特征向量B的模。

进一步的，第一特征向量A与第二特征向量B的内积可以通过公式②表示：

进一步的，第一特征向量A的模可以通过公式③表示：

最后，将该夹角余弦值作为第一待检测商标图像和第二待检测商标图像之间的相似度。示例性的，第一待检测商标图像和第二待检测商标图像之间的相似度可以通过公式④表示：

d＝cosθ…………④

由于余弦值的取值范围为【-1，1】，这使得余弦值在高维的情况下依然拥有相同时为1、正交时为0、相反时为-1的性质。即，余弦值越趋近于1，代表两个向量的方向越接近；越趋近于-1，他们的方向越相反；接近于0，表示两个向量近乎于正交，可以提现两个向量方向上的相对差异。由此，采用余弦值作为第一待检测商标图像和第二待检测商标图像之间的相似度，可以精确的表示第一待检测商标图像和第二待检测商标图像之间的相似程度。

106：若相似度大于阈值，则所述第一待检测商标图像和第二待检测商标图像相似。

由上述可知，余弦值的取值范围为【-1，1】，且余弦值越趋近于1，代表两个向量的方向越接近。因此，可以设定一个阈值，当相似度大于该阈值时即可认为第一待检测商标图像和第二待检测商标图像相似。

综上所述，本发明所提供的商标相似性检测方法，通过对训练用的商标样本进行数据增广，充分扩增了训练样本在各种情况下的数据，使得训练后的模型可以在商标图像的各个尺度和视角下，以及多种干扰等情况下，任具有良好的鲁棒性，使后续对商标相似度的计算的准确率不容易受到图像形变、光照强度、噪声干扰等因素的影响。同时，采用两个向量的夹角余弦值作为两个向量之间的相似度，使即使在高维空间下，依旧可以精确的表示第一待检测商标图像和第二待检测商标图像之间的相似程度，提高了商标相似性检测方法的精准度。此外，相比于传统的人工提取特征的方法，本申请实施方式实现了商标相似度检测的自动化执行，具有快速、高效、漏检率低等优点。

参阅图4，图4为本申请实施方式提供的一种商标相似性检测装置的功能模块组成框图。如图4所示，该商标相似性检测装置4包括：

预处理模块41，用于对第一商标样本进行数据增广，得到第二商标样本。

训练模块42，用于根据第二商标样本进行模型训练，得到特征提取模型。

提取模块43，用于将第一待检测商标图像输入到特征提取模型，得到第一特征向量，以及将第二待检测商标图像输入到特征提取模型，得到第二特征向量。

处理模块44，用于根据第一特征向量和第二特征向量，确定第一商标和第二商标之间的相似度。当相似度大于阈值时，确定第一商标和第二商标相似。

在本发明的实施方式中，在对第一商标样本进行数据增广，得到第二商标样本方面，预处理模块41，具体用于：

对第一商标样本进行第一扰动处理，得到第一扰动图像，其中，第一处理包括以下至少一种：平移处理、缩放处理、旋转处理和翻转处理；

对第一扰动图像添加预设噪声，得到第二商标样本，其中，预设噪声包括以下至少一种：高斯噪声、加性噪声、随机噪声以及椒盐噪声。

在本发明的实施方式中，在对第一商标样本进行数据增广，得到第二商标样本之前，预处理模块41，还用于：

对第一商标样本进行边缘检测，得到第一检测结果；

根据第一检测结果，对第一商标样本进行裁剪，得到第一商标主体图像；

将第一商标主体图像作为第一商标样本。

在本发明的实施方式中，在将第一待检测商标图像输入到特征提取模型，得到第一特征向量方面，提取模块43，具体用于：

对第一待检测商标图像进行图像分割，得到文本区域和图像区域；

对文本区域中的文本进行词嵌入处理，得到文本向量；

对图像区域中的图像进行特征提取，得到图像向量；

将文本向量和图像向量进行拼接，得到第一特征向量。

在本发明的实施方式中，在对文本区域中的文本进行词嵌入处理，得到文本向量方面，提取模块43，具体用于：

对文本区域中的文本进行语义切分，得到至少一个词语；

对于至少一个词语中的每个词语，分别根据每个词语查询实体标签库，确定每个词语对应的实体标签；

对每个词语进行词嵌入处理，得到词向量，以及对每个词语对应的实体标签进行编码，得到实体向量，其中，实体向量和词向量一一对应；

根据至少一个实体向量和至少一个词向量，确定第一文字向量。

在本发明的实施方式中，在对图像区域中的图像进行特征提取，得到图像向量之后，提取模块43，还用于：

确定第一待检测商标图像的领域信息，领域信息用于标识第一待检测商标图像应用的领域；

对领域信息进行词嵌入处理，得到领域向量；

将文本向量和图像向量进行拼接，得到第一特征向量，包括：

将文本向量、领域向量和图像向量进行拼接，得到第一特征向量。

在本发明的实施方式中，在根据第一特征向量和第二特征向量，确定第一商标和第二商标之间的相似度方面，处理模块44，具体用于：

对第一特征向量进行取模，得到第一模；

对第二特征向量进行取模，得到第二模；

确定第一模与第二模的乘积值；

确定第一特征向量和第二特征向量的内积；

将内积与乘积值的商，作为相似度。

参阅图5，图5为本申请实施方式提供的一种电子设备的结构示意图。如图5所示，电子设备500包括收发器501、处理器502和存储器503。它们之间通过总线504连接。存储器503用于存储计算机程序和数据，并可以将存储器503存储的数据传输给处理器502。

处理器502用于读取存储器503中的计算机程序执行以下操作：

对第一商标样本进行数据增广，得到第二商标样本。

根据第二商标样本进行模型训练，得到特征提取模型。

将第一待检测商标图像输入到特征提取模型，得到第一特征向量，以及将第二待检测商标图像输入到特征提取模型，得到第二特征向量。

根据第一特征向量和第二特征向量，确定第一商标和第二商标之间的相似度。当相似度大于阈值时，确定第一商标和第二商标相似。

在本发明的实施方式中，在对第一商标样本进行数据增广，得到第二商标样本方面，处理器502，具体用于执行以下操作：

在本发明的实施方式中，在对第一商标样本进行数据增广，得到第二商标样本之前，处理器502，具体用于执行以下操作：

对第一商标样本进行边缘检测，得到第一检测结果；

将第一商标主体图像作为第一商标样本。

在本发明的实施方式中，在将第一待检测商标图像输入到特征提取模型，得到第一特征向量方面，处理器502，具体用于执行以下操作：

对文本区域中的文本进行词嵌入处理，得到文本向量；

对图像区域中的图像进行特征提取，得到图像向量；

将文本向量和图像向量进行拼接，得到第一特征向量。

在本发明的实施方式中，在对文本区域中的文本进行词嵌入处理，得到文本向量方面，处理器502，具体用于执行以下操作：

对文本区域中的文本进行语义切分，得到至少一个词语；

在本发明的实施方式中，在对图像区域中的图像进行特征提取，得到图像向量之后，处理器502，具体用于执行以下操作：

对领域信息进行词嵌入处理，得到领域向量；

在本发明的实施方式中，在根据第一特征向量和第二特征向量，确定第一商标和第二商标之间的相似度方面，处理器502，具体用于执行以下操作：

对第一特征向量进行取模，得到第一模；

对第二特征向量进行取模，得到第二模；

确定第一模与第二模的乘积值；

确定第一特征向量和第二特征向量的内积；

将内积与乘积值的商，作为相似度。

应理解，本申请中商标相似性检测装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)、机器人或穿戴式设备等。上述商标相似性检测装置仅是举例，而非穷举，包含但不限于上述商标相似性检测装置。在实际应用中，上述商标相似性检测装置还可以包括：智能车载终端、计算机设备等等。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。

因此，本申请实施方式还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施方式中记载的任何一种商标相似性检测方法的部分或全部步骤。例如，所述存储介质可以包括硬盘、软盘、光盘、磁带、磁盘、优盘、闪存等。

本申请实施方式还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施方式中记载的任何一种商标相似性检测方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施方式，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施方式均属于可选实施方式，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施方式中，对各个实施方式的描述都各有侧重，某个实施方式中没有详述的部分，可以参见其他实施方式的相关描述。

在本申请所提供的几个实施方式中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施方式的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施方式进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种商标相似性检测方法，其特征在于，所述方法包括：

对第一商标样本进行数据增广，得到第二商标样本；

根据所述第二商标样本进行模型训练，得到特征提取模型；

将第一待检测商标图像输入到所述特征提取模型，得到第一特征向量；

将第二待检测商标图像输入到所述特征提取模型，得到第二特征向量；

根据所述第一特征向量和所述第二特征向量，确定所述第一待检测商标图像和所述第二待检测商标图像之间的相似度；

若所述相似度大于阈值，则确定所述第一待检测商标图像和所述第二待检测商标图像相似；

其中，所述将第一待检测商标图像输入到所述特征提取模型，得到第一特征向量，包括：

对所述第一待检测商标图像进行图像分割，得到文本区域和图像区域；

对所述文本区域中的文本进行语义切分，得到至少一个词语；

对于所述至少一个词语中的每个词语，分别根据所述每个词语查询实体标签库，确定所述每个词语对应的实体标签；

对所述每个词语进行词嵌入处理，得到词向量，以及对所述每个词语对应的实体标签进行编码，得到实体向量，其中，所述实体向量和所述词向量一一对应；

根据至少一个所述实体向量和至少一个所述词向量，确定文本向量；

对所述图像区域中的图像进行特征提取，得到图像向量；

确定所述第一待检测商标图像的领域信息，所述领域信息用于标识所述第一待检测商标图像应用的领域；

对所述领域信息进行词嵌入处理，得到领域向量；

将所述文本向量、所述领域向量和所述图像向量进行拼接，得到所述第一特征向量。

2.根据权利要求1所述的方法，其特征在于，所述对第一商标样本进行数据增广，得到第二商标样本，包括：

对所述第一商标样本进行扰动处理，得到扰动图像，其中，所述扰动处理包括以下至少一种：平移处理、缩放处理、旋转处理以及翻转处理；

对所述扰动图像添加预设噪声，得到所述第二商标样本，其中，所述预设噪声包括以下至少一种：高斯噪声、加性噪声、随机噪声以及椒盐噪声。

3.根据权利要求1或2所述的方法，其特征在于，在所述对第一商标样本进行数据增广，得到第二商标样本之前，所述方法还包括：

对所述第一商标样本进行边缘检测，得到第一检测结果；

根据所述第一检测结果，对所述第一商标样本进行裁剪，得到第一商标主体图像；

将所述第一商标主体图像作为所述第一商标样本。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一特征向量和所述第二特征向量，确定所述第一商标和所述第二商标之间的相似度，包括：

对所述第一特征向量进行取模，得到第一模；

对所述第二特征向量进行取模，得到第二模；

确定所述第一模与所述第二模的乘积值；

确定所述第一特征向量和所述第二特征向量的内积；

将所述内积与所述乘积值的商，作为所述相似度。

5.一种商标相似性检测装置，其特征在于，所述装置包括：

训练模块，用于根据所述第二商标样本进行模型训练，得到特征提取模型；

提取模块，用于将第一待检测商标图像输入到所述特征提取模型，得到第一特征向量，以及将第二待检测商标图像输入到所述特征提取模型，得到第二特征向量；

处理模块，用于根据所述第一特征向量和所述第二特征向量，确定所述第一待检测商标图像和所述第二待检测商标图像之间的相似度；

其中，在所述用于将第一待检测商标图像输入到所述特征提取模型，得到第一特征向量方面，所述提取模块用于：

对所述图像区域中的图像进行特征提取，得到图像向量；

对所述领域信息进行词嵌入处理，得到领域向量；

6.一种电子设备，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述一个或多个程序包括用于执行权利要求1-4任一项方法中的步骤的指令。

7.一种可读计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-4任一项所述的方法。