CN113157960A

CN113157960A - 相似数据获取的方法及装置、电子设备和计算机可读存储介质

Info

Publication number: CN113157960A
Application number: CN202110212318.6A
Authority: CN
Inventors: 刘阳
Original assignee: Beijing Jindi Technology Co Ltd
Current assignee: Beijing Jindi Technology Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-07-23

Abstract

本公开的实施例提供了相似数据获取的方法及装置、计算机可读存储介质和电子设备。该方法包括：响应于数据校验请求，对待检验数据进行元素提取，以构建所述待检验数据的特征信息集合；其中，所述待校验数据为商标数据，所述特征信息集合中至少包括商标数据的一种构成元素；对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量；基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。本公开技术方案能够实现快速筛选出相似商标，提高商标相似搜索的效率和降低成本。

Description

相似数据获取的方法及装置、电子设备和计算机可读存储介质

技术领域

本公开涉及计算机技术领域，特别涉及相似数据获取的方法及装置、电子设备和计算机可读存储介质。

背景技术

现有的数据处理系统，一般会直接根据处理需求进行数据处理，很少在处理前对数据进行数据校验。然而，在大量应用场景下都需要对数据进行事先校验、相似数据的匹配等，以支持业务的高质、高效完成。例如，在用户有商标申请需求时，通常通过电子申请系统直接向官方提交商标注册申请，但是若待申请商标与现有商标存在相同或相似元素，商标申请则存在较大的不予授权可能。因此，若在商标申请提交前能够对待申请商标数据进行查重、分析等处理后再行提交，可以有效减少无效地操作，从而减少社会资源成本的浪费，但目前现有的数据查重处理技术中识别元素相对较为单一、识别效果差且效率较低，针对上述需求，目前没有很好的解决方案。

发明内容

本公开的目的在于提供相似数据获取的方法及装置、电子设备和计算机可读存储介质，进而至少在一定程度上实现快速筛选出相似商标，提高商标相似搜索的效率和降低成本。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供相似数据获取的方法，包括：响应于数据校验请求，对待检验数据进行元素提取，以构建所述待检验数据的特征信息集合；其中，所述待校验数据为商标数据，所述特征信息集合中至少包括商标数据的一种构成元素；对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量；基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

在本公开的示例性实施例中，在基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度之前，还包括：响应于检索模式的选择，确定所述待检验数据的目标显著词库；其中，所述检索模式包括分层检索模式和模糊检索模式；在所述分层检索模式的情况下，确定检索限定，根据所述检索限定从存储的多个候选显著词库中确定出目标显著词库；在模糊检索模式的情况下，将所述多个候选显著词库确定为所述待检验数据的目标显著词库。

在本公开的示例性实施例中，所述在所述分层检索模式的情况下，确定检索限定，包括：确定所述特征信息集合中包括的构成元素的种类，以及根据所述构成元素的种类，确定各个种类构成元素的组合；根据各个种类构成元素的组合，确定所述待校验数据的目标类别，其中，所述目标类别确定为检索限定。

在本公开的示例性实施例中，所述对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量，包括：根据所述目标类别，确定所述待检验数据格式处理的算法；根据确定的算法，对所述待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到所述待检验数据的特征向量。

在本公开的示例性实施例中，所述基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据，包括：根据所述待校验数据的特征信息集合，确定所述待检验数据的文字元素构成和非文字元素构成；基于所述各种构成元素的特征向量，分别计算所述文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度；基于文字元素构成和非文字元素构成的预设权重以及所述初始相似度，从所述目标显著词库中筛选出相似度大于预设阈值的输出数据，其中所述输出数据为所述待校验数据的相似数据。

在本公开的示例性实施例中，所述构成元素包括文字、图形、字母、数字、音频、三维标志或其组合的颜色；和/或，所述相似度为欧氏距离、曼哈顿距离、马氏距离、夹角余弦和汉明距离中的一种或几种组合。

根据本公开的第二方面，提供相似数据获取的装置，包括：

元素提取模块，用于响应于数据校验请求，对待检验数据进行元素提取，以构建所述待检验数据的特征信息集合；

向量化模块，用于对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量；

相似度计算模块，用于基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

在本公开的示例性实施例中，还包括检索模块，用于响应于检索模式的选择，确定所述待检验数据的目标显著词库；其中，所述检索模式包括分层检索模式和模糊检索模式；

在所述分层检索模式的情况下，确定检索限定，根据所述检索限定从存储的多个候选显著词库中确定出目标显著词库；在模糊检索模式的情况下，将所述多个候选显著词库确定为所述待检验数据的目标显著词库。

在本公开的示例性实施例中，所述检索模块还用于，确定所述特征信息集合中包括的构成元素的种类，以及根据所述构成元素的种类，确定各个种类构成元素的组合；根据各个种类构成元素的组合，确定所述待校验数据的目标类别，其中，所述目标类别确定为检索限定。

在本公开的示例性实施例中，所述检索模块还用于，根据所述目标类别，确定所述待检验数据格式处理的算法；根据确定的算法，对所述待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到所述待检验数据的特征向量。

在本公开的示例性实施例中，所述相似度计算模块，还用于根据所述待校验数据的特征信息集合，确定所述待检验数据的文字元素构成和非文字元素构成；基于所述各种构成元素的特征向量，分别计算所述文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度；基于文字元素构成和非文字元素构成的预设权重以及所述初始相似度，从所述目标显著词库中筛选出相似度大于预设阈值的输出数据，其中所述输出数据为所述待校验数据的相似数据。

在本公开的示例性实施例中，所述构成元素包括文字、图形、字母、数字、音频、三维标志或其组合的颜色；和/或

所述相似度为欧氏距离、曼哈顿距离、马氏距离、夹角余弦和汉明距离中的一种或几种组合。

根据本公开的第三方面，提供一种电子设备，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行上述的相似数据获取的方法。

根据本公开的第四方面，提供一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述的相似数据获取的方法。

由上述技术方案可知，本公开示例性实施例中的信息处理方法及装置、计算机可读存储介质、电子设备至少具备以下优点和积极效果：

本公开实施例中的相似数据获取的方法，首先通过对商标的抽取不同元素的特征，以及对各自构成元素进行特征向量化，实现对商标数据的特征信息构建和相似计算，以达到商标的相似搜索服务。接着通过制定自定义的显著词库信息，来帮助企业更快筛选出相似商标。在显著词库中，会汇总和统计现有商标中具有显著信息的商标，同时加重该商标在该显著信息中的关联权重，当相似商标查询时，如果触发显著词库，可返回显著词库中关联的商标。极大的提高了商标相似搜索的效率和降低成本。

本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的数据校验的示例性系统架构的示意图；

图2示出本公开示例性实施例中相似数据获取的方法的流程示意图；

图3示出根据本公开的另一实施例的相似数据获取的方法的流程图示意图；

图4示出本公开示例性实施例中相似数据获取的装置的框图；

图5示出本公开示例性实施例中用于执行数据校验的电子设备的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施例使得本公开将更加全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、装置、步骤等。在其它情况下，不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。

在本公开中，除非另有明确的规定和限定，“连接”等术语应做广义理解，例如，可以是电连接或可以互相通讯；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本公开中的具体含义。

图1示出了可以应用本公开实施例的数据校验的示例性系统架构100的示意图。

如图1所示，系统架构100可以包括终端设备101、102、103中的一种或多种，网络104和服务器105。网络104用以在终端设备101、102、103 和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器 105可以是多个服务器组成的服务器集群等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。

服务器105可以是提供各种服务的服务器。例如用户利用终端设备 103(也可以是终端设备101或102)向服务器105发送请求数据校验请求，使得服务器105响应于数据校验请求，对待检验数据进行元素提取，以构建待检验数据的特征信息集合；其中，待校验数据为商标数据，特征信息集合中至少包括商标数据的一种构成元素。以及，对特征信息集合中包括的各种构成元素进行格式处理，以得到各种构成元素的特征向量。然后，基于各种构成元素的特征向量，计算待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

参见图2，为本发明一示例性实施例提供的相似数据获取的方法的流程示意图，该方法包括以下步骤：

S210，响应于数据校验请求，对待检验数据进行元素提取，以构建待检验数据的特征信息集合。其中，待校验数据为商标数据，特征信息集合中至少包括商标数据的一种构成元素。

S220，对特征信息集合中包括的各种构成元素进行格式处理，以得到各种构成元素的特征向量。

S230，基于各种构成元素的特征向量，计算待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

本公开实施方式提供的相似数据获取的方法，一方面，通过对商标的抽取不同元素的特征，以及对各自构成元素进行特征向量化，实现对商标数据的特征信息构建和相似计算，以达到商标的相似搜索服务。另一方面，通过制定自定义的显著词库信息，来帮助企业更快筛选出相似商标。在显著词库中，会汇总和统计现有商标中具有显著信息的商标，同时加重该商标在该显著信息中的关联权重，当相似商标查询时，如果一旦触发显著词库，则首先返回显著词库中关联的商标。极大的提高了商标相似搜索的效率和降低成本。

商标是指能将自己的商品或服务与他人的商品和服务区分开的标志，包括文字、图形、字母、数字、音频、三维标志和颜色组合，以及上述要素的组合。作为构成商标的文字、图形、字母、数字、音频、三维标志或其组合的颜色，在申请注册商标时若未明确提出指定颜色要求，均按黑白颜色注册，也按黑白颜色保护。明确提出指定颜色或颜色组合的，则按所指定的颜色或颜色组合注册，也按指定颜色或颜色组合保护。在本发明实施例中，待检验数据的特征信息集合中的构成元素包括文字、图形、字母、数字、音频、三维标志或其组合的颜色。

在基于各种构成元素的特征向量，计算待校验数据与存储的目标显著词库中数据的相似度之前，响应于检索模式的选择，确定待检验数据的目标显著词库；其中，检索模式包括分层检索模式和模糊检索模式。在分层检索模式的情况下，确定检索限定，根据检索限定从存储的多个候选显著词库中确定出目标显著词库。在本方面实施例中，可以针对不同业务领域或者构成元素形成多个显著词库(候选显著词库)，在进行检索的过程中，可从多个候选显著词库中选出目标显著词库，然后将待校验词与该目标显著词库中的数据进行相似度计算，进而加快计算效率。

模糊检索模式，即进行粗略检索，对检索条件没有具体的限定。在模糊检索模式的情况下，将多个候选显著词库确定为待检验数据的目标显著词库。分层检索模式提供按照“文字”、“图标”、“图像”等不同类别进行查询，也可进行不同领域(用户可选择或输入)下的分之查询选择。模糊查询则直接输入图标本身，系统自定义去检索查询。在本发明实施例中，提供不同的检索模式，以适应用户的不同需求。分层策略可以更加精细化的帮助用户去方便的找到相似的商标目的。

分层检索模式，是指根据某个或者多个检索条件进行检索，该检索条件可以是用户输入的业务领域、用户指定的构成元素组合、商标注册时间等。另外，检索模式还可以是检索系统自动生成的，例如可根据提取的构成元素进行生成，或者根据用户的历史检索数据生成等。该检索条件可用于选择目标显著词库，进而加快相似度的计算效率。在分层检索模式的情况下，确定检索限定的过程中，确定特征信息集合中包括的构成元素的种类，以及根据构成元素的种类，确定各个种类构成元素的组合。根据各个种类构成元素的组合，确定待校验数据的目标类别，其中，目标类别确定为检索限定。将提取的各个元素特征进行分类和组合，例如：如果只包含文字则归为A类，如果只包含图标，则划分为B类，如果只包含图像则分为C类，如果同时包含汉字和图标，则为D类，如果同时包含图标和图像则为E类，如果同时包含汉字、图标和图像，则分为F类。该分类可有效的提升相似查询的效率和目标商标的准确率。

对特征信息集合中包括的各种构成元素进行格式处理，以得到各种构成元素的特征向量的过程中，根据目标类别，确定待检验数据格式处理的算法。根据确定的算法，对待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到待检验数据的特征向量。不同的元素构成可能需要不同的转换算法，例如文字的特征信息主要包含，文本的组合词库和拆分后训练的词向量信息，可通过基于VSM结合深度模型或者word2vec得到特征向量。图标和图像的特征信息利用深度网络抽取的特征信息，同时也将特征信息转化为特征向量。

在S230中，根据待校验数据的特征信息集合，确定待检验数据的文字元素构成和非文字元素构成。基于各种构成元素的特征向量，分别计算文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度。基于文字元素构成和非文字元素构成的预设权重以及初始相似度，从目标显著词库中筛选出相似度大于预设阈值的输出数据，其中该输出数据为待校验数据的相似数据。在本发明实施例中，相似度为欧氏距离、曼哈顿距离、马氏距离、夹角余弦和汉明距离中的一种或几种组合。

进一步，通过步骤S230确定的校验结果，可以是审核通过或者审核不通过的结论，也可以是查询到的相似商标，该校验结果可根据需求进行自定义。该校验结果也可以是商标禁用识别的结论，例如，国家名称、同政府间国际组织的徽记、带有民族歧视性的等不得作为商标使用，仅直接表示商品的质量、主要原料、功能、用途、重量、数量及其他特点的标志不得作为商标注册，等等。其中，上述情况不对本发明实施例做具体限定。针对上述情况，通过本发明实施例也可以实现，具体的，自定义的显著词库中的数据，可表征不得作为商标使用或者不得作为商标注册的情况。通过对待检验数据的元素提取以及向量化，基于该自定义的显著词库，可判断出待校验的商标是否可以使用或者是否可以注册。以及，在该实施例中，确定的校验结果还可包括详细的情况说明。

图3示意性示出了根据本公开的另一实施例的相似数据获取的方法的流程图。

与上述实施例的不同之处在于，图3提供的相似数据获取的方法还可以进一步包括以下步骤：

S310，进行商标元素的提取，以及进行商标元素分类。

S320，进行数据格式转换，将特征信息转化为特征向量。

S330，针对文字和非文字两部分，进行相似度计算。

商标能将自己的商品或服务与他人的商品和服务区分开的标志(包括文字、图形、字母、数字、音频、三维标志和颜色组合，以及上述要素的组合)。作为构成商标的文字、图形、字母、数字、音频、三维标志或其组合的颜色，在申请注册商标时若未明确提出指定颜色要求，均按黑白颜色注册，也按黑白颜色保护。明确提出指定颜色或颜色组合的，则按所指定的颜色或颜色组合注册，也按指定颜色或颜色组合保护。针对各个商标的构成元素，具体的：

1.文字商标

是指仅用文字构成的商标，包括中国汉字和少数民族字、外国文字或以各种不同字组合的商标。

2.图形商标

是指仅用图形构成的商标。其中主要分为：

(1)记号商标：是指用某种简单符号构成图案的商标；

(2)几何图形商标：是以较抽象的图形构成的商标；

(3)自然图形商标：是以人物、动植物、自然风景等自然的物象为对象所构成的图形商标。有的以实物照片，有的则经过加工提炼、概括与夸张等手法进行处理的自然图形所构成的商标。

3.字母商标

是指用拼音文字或注音符号的最小书写单位，包括拼音文字、外文字母如英文字母、拉丁字母等所构成的商标。

4.数字商标

用阿拉伯数字、罗马数字或者是中文大写数字所构成的商标。

5.三维标志商标

又称为立体商标，用具有长、宽、高三种度量的三维立体物标志构成的商标标志，它与我们通常所见的表现在一个平面上的商标图案不同，而是以一个立体物质形态出现，这种形态可能出现在商品的外形上，也可以表现在商品的容器或其他地方。这是2001年新修订的《商标法》所增添的新内容，这将使得中国的商标保护制度更加完善。

6.颜色组合商标

颜色组合商标是指由两种或两种以上的彩色排列、组合而成的商标。文字、图案加彩色所构成的商标，不属颜色组合商标，只是一般的组合商标。

7.(上述1～6的)组合商标

指由两种或两种以上成分相结合构成的商标，也称复合商标。

8.音响商标

以音符编成的一组音乐或以某种特殊声音作为商品或服务的商标即是音响商标。如美国一家唱片公司使用11个音符编成一组乐曲，把它灌制在他们所出售的录音带的开头，作为识别其商品的标志。这个公司为了保护其音响的专用权，防止他人使用、仿制而申请了注册。音响商标目前只在美国等少数国家得到承认，我国在2014年5月1日正式实施的新《商标法》中，首次增加了声音商标的规定。

9.气味商标

气味商标就是以某种特殊气味作为区别不同商品和不同服务项目的商标。目前，这种商标只在个别国家被承认它是商标。在中国气味尚不能注册为商标。

10.位置商标

位置商标是指某种商品特定部位的立体形状、图案、颜色以及它们的组合，通过它们区分提供商品或服务的提供者。

在S310中，通过对商标各个构成元素进行抽取，来对构造每个商标的所属特征信息，来支持之后的相似查询搜索服务。对图标元素，例如：圆形、星形、方形等元素，图标元素本身具有较为明显的轮廓特征，可通过openCV 检测技术来识别图标轮廓，进一步可通过识别的信息抽取对应图标的特征信息。图像具有一定的复杂性和抗干扰性，对复杂图像的提取可通过深度学习算法实现，然后可通过深度网络模型直接端对端的提取图像的特征信息。

提取构成元素后，可根据构成元素的组合对待校验商标进行分类，具体类别可根据检测精度或者业务场景自定义。以及，还可根据历史校验数据定时对分类进行更新。示例性的，如果只包含文字则归为A类，如果只包含图标，则划分为B类，如果只包含图像则分为C类，如果同时包含汉字和图标，则为D类，如果同时包含图标和图像则为E类，如果同时包含汉字、图标和图像，则分为F类。该分类信息用于之后的分层策略检索，可有效的提升相似查询的效率和目标商标的准确率。

在S330中，商标的相似计算可分文字和非文字两部分。文字部分，通过 OCR识别的商标包含的文字信息，包含汉字、外文字母、数字等文本信息，文本对比结果可设置为相同和相似两种情况，具体的：

商标相同：首先完全相同的汉字或者字母和单词为相同，相似度权重可设置为1。

商标相似：

a.包含相同的字，排列顺序不同，注音和设计，相似度权重可设置为 0.9(示例性的)。

b.字、词重叠，相似度权重可设置为0.8(示例性的)。

c.由三个或者三个以上汉字构成，仅个别汉字不同，相似度权重可设置为0.7(示例性的)。

d.文字读音相同或者近似，且字形或者整体外观近似，相似度权重可设置为0.6(示例性的)。

e.文字构成、读音不同，但商标字形近似，相似度权重可设置为0.5 (示例性的)。

f.外文商标由四个或者四个以上字母构成，仅个别字母不同，相似度权重可设置为0.4(示例性的)。

g.外文商标仅在形式上发生单复数、动名词、缩写、添加冠词、比较级或最高级、词性等变化，相似度权重可设置为0.3(示例性的)。

非文字商标查询主要是通过特征向量，进行向量相似度计算，向量的相似性度量通常采用的方法就是计算样本间的“距离”，常见向量相似度计算算法有多种：欧氏距离、曼哈顿距离、马氏距离、夹角余弦、汉明距离等，距离越小越相似。本发明实施例可通过向量的欧式距离进行度量相似度。例如某图标被向量化为10位长度的1111111111，另一图标被向量化为10为长度的1111111100，则这两个向量的欧式距离为最后两位的距离，即为2，则相似度为2/10＝0.8。

在商标特征信息中，一般文字的表达含义要强于图标，在计算整体相似度时，文字的相似度占比可设置为0.6(示例性的)，非文字的相似度占比为可设置为0.4。

本发明实施例，可基于查询搜索引擎服务实现。具体的，该服务使用向量搜索引擎，该引擎可同时支持百万级别的向量查询和向量形似计算，可提供稳定有效的查询服务。以及，在搜索服务中，提供高级分层搜索模式和模糊搜索模式，分层搜索模式提供按照“文字”、“图标”、“图像”等不同类别进行查询，也可进行不同领域下的分之查询选择。模糊查询则直接输入图标本身，系统自定义去检索查询。分层策略可以更加精细化的帮助用户去方便的找到相似的商标目的。并且，通过制定自定义的显著词库信息，来帮助企业更快筛选出相似商标，在显著词库中，会汇总和统计现有商标中具有显著信息的商标，同时加重该商标在该显著信息中的关联权重，当相似商标查询时，如果一旦触发显著词库，则首先返回显著词库中关联的商标。例如：“京东生鲜公社”(示例性的，不构成限定或指向性)商标中，京东为显著性词，当查询“京东生鲜公社”等商标时，可直接搜索出“京东生鲜”“京东”等商标。

图4示意性示出了根据本公开的一实施例的相似数据获取的装置的框图。本公开实施例提供的相似数据获取的装置可以设置在终端设备上，也可以设置在服务端上，或者部分设置在终端设备上，部分设置在服务端上，例如，可以设置在图1中的服务器105(根据实际替换)，但本公开并不限定于此。

本公开实施例提供的相似数据获取的装置400可以包括：

元素提取模块401，用于响应于数据校验请求，对待检验数据进行元素提取，以构建待检验数据的特征信息集合；其中，待校验数据为商标数据，特征信息集合中至少包括商标数据的一种构成元素；

向量化模块402，用于对特征信息集合中包括的各种构成元素进行格式处理，以得到各种构成元素的特征向量；

相似度计算模块403，用于基于各种构成元素的特征向量，计算待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

本公开实施例提供的相似数据获取的装置还包括检索模块，用于响应于检索模式的选择，确定待检验数据的目标显著词库；其中，检索模式包括分层检索模式和模糊检索模式；

在分层检索模式的情况下，确定检索限定，根据检索限定从存储的多个候选显著词库中确定出目标显著词库；在模糊检索模式的情况下，将多个候选显著词库确定为待检验数据的目标显著词库。

检索模块还用于，确定特征信息集合中包括的构成元素的种类，以及根据构成元素的种类，确定各个种类构成元素的组合；根据各个种类构成元素的组合，确定待校验数据的目标类别，其中，目标类别确定为检索限定。

检索模块还用于，根据目标类别，确定待检验数据格式处理的算法；根据确定的算法，对待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到待检验数据的特征向量。

相似度计算模块，还用于根据待校验数据的特征信息集合，确定待检验数据的文字元素构成和非文字元素构成；基于各种构成元素的特征向量，分别计算文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度；基于文字元素构成和非文字元素构成的预设权重以及初始相似度，从目标显著词库中筛选出相似度大于预设阈值的输出数据，其中该输出数据为待校验数据的相似数据。

本公开实施方式提供的相似数据获取的装置，一方面，通过对商标的抽取不同元素的特征，以及对各自构成元素进行特征向量化，实现对商标数据的特征信息构建和相似计算，以达到商标的相似搜索服务；另一方面，通过制定自定义的显著词库信息，来帮助企业更快筛选出相似商标。在显著词库中，会汇总和统计现有商标中具有显著信息的商标，同时加重该商标在该显著信息中的关联权重，当相似商标查询时，如果一旦触发显著词库，则首先返回显著词库中关联的商标。极大的提高了商标相似搜索的效率和降低成本。

本公开实施例提供的相似数据获取的装置中的各个模块、单元和子单元的具体实现可以参照上述相似数据获取的方法中的内容，在此不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之，上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。

如图5所示，示例电子设备50包括用于执行软件例程的处理器501尽管为了清楚起见示出了单个处理器，但是电子设备50也可以包括多处理器系统。处理器501连接到通信基础设施502，用于与电子设备50的其他组件进行通信。通信基础设施502可以包括例如通信总线、交叉开关或网络。

电子设备50还包括诸如随机存取存储器(Random Access Memory，RAM) 之类的存储器，所述存储器可包括主存储器503和辅助存储器510。辅助存储器510可以包括，例如硬盘驱动器511和/或可移动存储驱动器512，可移动存储驱动器512可以包括软盘驱动器，磁带驱动器，光盘驱动器等。可移动存储驱动器512以常规方式对可移动存储单元513进行读取和/或写入。可移动存储单元513可以包括由可移动存储驱动器512读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解，可移动存储单元513包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。

在一种可选实施方式中，辅助存储器510可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备50中的其他类似装置。这样的装置可以包括例如可移动存储单元521和接口520。可移动存储单元521 和接口520的示例包括：程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或 PROM)和相关联的插槽、以及其他可移动存储单元521和允许软件和数据从可移动存储单元521传输到电子设备50的接口520。

电子设备50还包括至少一个通信接口540。通信接口540允许软件和数据经由通信路径541在电子设备50和外部设备之间传输。在本发明的各种实施例中，通信接口540允许数据在电子设备50和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口540可用于在不同的电子设备50之间交换数据，这些电子设备50形成互连的计算机网络的一部分。通信接口540的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口540可以是有线的或者可以是无线的。经由通信接口540传输的软件和数据为信号形式，该信号可以是能够被通信接口540接收的电、磁、光或其他信号。这些信号经由通信路径541被提供给通信接口。

如图5所示，电子设备50还包括显示器接口531和音频接口532，显示器接口531执行用于将图像渲染到关联的显示器530的操作，音频接口532 用于执行通过关联的扬声器533播放音频内容的操作。

在本申请文件中，术语“计算机程序产品”部分程度上可以指代：可移动存储单元513、可移动存储单元521、安装在硬盘驱动器511中的硬盘、或承载着软件通过通信路径541(无线链路或电缆)到通信接口540的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备50以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、 USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等，这些部件无论是在电子设备50的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备50提供软件、应用程序、指令和/或数据，这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。

计算机程序(也被称为计算机程序代码)存储在主存储器503和/或辅助存储器510中。也可以经由通信接口540来接收计算机程序。此类计算机程序在被执行时使电子设备50能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中，计算机程序在被执行时，使处理器501能够执行上述实施例的特征。因此，此类计算机程序代表计算机系统50的控制器。

软件可以存储在计算机程序产品中，并使用可移动存储驱动器512、硬盘驱动器511或接口520加载到电子设备50中。替代地，可以通过通信路径 541将计算机程序产品下载到计算机系统50。该软件在由处理器501执行时促使电子设备50执行本文描述的实施例的功能。

应该理解，图5的实施例仅以示例的方式给出。因此，在一些实施例中，可以省略电子设备50的一个或多个特征。而且，在一些实施例中，电子设备50的一个或多个特征可以被组合在一起。另外，在一些实施例中，电子设备50的一个或多个特征可以被分成一个或多个组成部分。

可以理解的是，图5所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。

在一种实施方式中，服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现图2和图3所示方法的功能。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被电子设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备 (可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。

可能以许多方式来实现本发明的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种相似数据获取的方法，其特征在于，包括：

响应于数据校验请求，对待检验数据进行元素提取，以构建所述待检验数据的特征信息集合；

对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量；

基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据。

2.根据权利要求1所述的方法，其特征在于，在基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度之前，还包括：

响应于检索模式的选择，确定所述待检验数据的目标显著词库；其中，所述检索模式包括分层检索模式和模糊检索模式；

在所述分层检索模式的情况下，确定检索限定，根据所述检索限定从存储的多个候选显著词库中确定出目标显著词库；

在模糊检索模式的情况下，将所述多个候选显著词库确定为所述待检验数据的目标显著词库。

3.根据权利要求2所述的方法，其特征在于，在所述分层检索模式的情况下，确定检索限定，包括：

确定所述特征信息集合中包括的构成元素的种类，以及根据所述构成元素的种类，确定各个种类构成元素的组合；

根据各个种类构成元素的组合，确定所述待校验数据的目标类别，其中，所述目标类别确定为检索限定。

4.根据权利要求3所述的方法，其特征在于，对所述特征信息集合中包括的各种构成元素进行格式处理，以得到所述各种构成元素的特征向量，包括：

根据所述目标类别，确定所述待检验数据格式处理的算法；

根据确定的算法，对所述待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到所述待检验数据的特征向量。

5.根据权利要求1所述的方法，其特征在于，基于所述各种构成元素的特征向量，计算所述待校验数据与存储的目标显著词库中数据的相似度，以确定所述待校验数据的相似数据，包括：

根据所述待校验数据的特征信息集合，确定所述待检验数据的文字元素构成和非文字元素构成；

基于所述各种构成元素的特征向量，分别计算所述文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度；

基于文字元素构成和非文字元素构成的预设权重以及所述初始相似度，从所述目标显著词库中筛选出相似度大于预设阈值的输出数据，其中所述输出数据为所述待校验数据的相似数据。

6.根据权利要求1所述的方法，其特征在于，所述构成元素包括文字、图形、字母、数字、音频、三维标志或其组合的颜色；和/或

7.一种相似数据获取的装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，还包括检索模块，用于响应于检索模式的选择，确定所述待检验数据的目标显著词库；其中，所述检索模式包括分层检索模式和模糊检索模式；

9.根据权利要求8所述的装置，其特征在于，所述检索模块还用于，确定所述特征信息集合中包括的构成元素的种类，以及根据所述构成元素的种类，确定各个种类构成元素的组合；根据各个种类构成元素的组合，确定所述待校验数据的目标类别，其中，所述目标类别确定为检索限定。

10.根据权利要求9所述的装置，其特征在于，所述检索模块还用于，根据所述目标类别，确定所述待检验数据格式处理的算法；根据确定的算法，对所述待检验数据的特征信息集合中的各种构成元素进行格式处理,以得到所述待检验数据的特征向量。

11.根据权利要求7所述的装置，其特征在于，所述相似度计算模块，还用于根据所述待校验数据的特征信息集合，确定所述待检验数据的文字元素构成和非文字元素构成；基于所述各种构成元素的特征向量，分别计算所述文字元素构成和非文字元素构成与存储的目标显著词库中数据的初始相似度；基于文字元素构成和非文字元素构成的预设权重以及所述初始相似度，从所述目标显著词库中筛选出相似度大于预设阈值的输出数据，其中所述输出数据为所述待校验数据的相似数据。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～6中任意一项所述的相似数据获取的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～6中任意一项所述的相似数据获取的方法。