CN116049741A

CN116049741A - 商品分类编码的快速识别方法、装置、电子设备及介质

Info

Publication number: CN116049741A
Application number: CN202310346459.6A
Authority: CN
Inventors: 王林东
Original assignee: Eurekos Technology Industry Group Co ltd
Current assignee: Eurekos Technology Industry Group Co ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-05-02
Anticipated expiration: 2043-04-03
Also published as: CN116049741B

Abstract

本申请涉及数据查询技术的领域，尤其是涉及一种商品分类编码的快速识别方法、装置、电子设备及介质。方法包括：获取待匹配商品名称，并基于待匹配商品名称，从预设数据库筛选出与待匹配商品名称对应的商品信息；基于预设商品名称字典库，将商品信息中的商品名称进行分词处理，确定关键词；确定关键词对应的关键词向量值，并基于关键词和关键词向量值，确定商品向量数据；将商品向量数据进行数据处理，确定目标商品信息，并从目标商品信息中提取出待匹配商品名称对应的商品分类编码。本申请可快速匹配到与所输入的商品名称相同或最为匹配的商品信息，并自动确定商品编码，提高工作的准确度和效率。

Description

商品分类编码的快速识别方法、装置、电子设备及介质

技术领域

本申请涉及数据查询技术的领域，尤其是涉及一种商品分类编码的快速识别方法、装置、电子设备及介质。

背景技术

在互联网+时代下，商品分类编码把商品生命周期内各个阶段所触发的信息自动化、无缝地连接在一起，电子商务应用商品编码实现商品数据自动采集、精准入库以及快速查找等应用模式成为必然趋势。

传统的目标商品名称对应的商品编码查询方法是通过前期相关人员将多个商品名称以及多个商品名称对应的多个商品分类编码等类别信息录入至数据库中，用户有查询需求时，首先通过模糊搜索筛选出与输入的商品名称对应的部分商品信息，之后从该部分商品信息中确定需要的商品分类编码。

而模糊搜索只能筛选出与商品名称对应的部分商品信息，且用户在查询到该类商品信息时，仍需要在该类商品信息中手动找出对应的商品分类编码，不能实现对商品分类编码的精准定位，且由于数据库的庞大，模糊搜索出来的商品信息量也会很大，确定目标商品名称对应的商品分类编码需要花费大量时间，效率低下。

发明内容

为了能够快速准确的确定商品分类编码，本申请提供一种商品分类编码的快速识别方法、装置、电子设备及介质。

第一方面，本申请提供一种商品分类编码的快速识别方法，采用如下的技术方案：

一种商品分类编码的快速识别方法，包括：

获取待匹配商品名称，并基于所述待匹配商品名称，从预设数据库筛选出与所述待匹配商品名称对应的商品信息；

基于预设商品名称字典库，将所述商品信息中的商品名称进行分词处理，确定关键词；

确定所述关键词对应的关键词向量值，并基于所述关键词和所述关键词向量值，确定商品向量数据；

将所述商品向量数据进行数据处理，确定目标商品信息，并从所述目标商品信息中提取出所述待匹配商品名称对应的商品分类编码；

所述数据处理包含分区处理。

通过采用上述技术方案，首先基于获取的待匹配商品名称，从预设数据库中筛选出与待匹配商品名称对应的商品信息，将商品信息中的商品名称基于预设商品名称字典库进行分词，以将商品名称拆分成数个关键词，之后对关键词进行算法处理来确定对应的关键字向量值，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据；之后对商品向量数据进行数据处理确定目标商品信息，最后从目标商品信息中提取待匹配商品名称所对应的商品分类编码；从而能够智能快速匹配到与待匹配商品名称对应的目标商品信息，同时自动确定商品编码，提高工作效率和准确度。

在一种可能的实现方式中，所述关键词为多个关键词，所述商品信息为多个商品信息，所述确定所述关键词对应的关键词向量值，并基于所述关键词和所述关键词向量值，确定商品向量数据，包括：

计算所述多个关键词分别对应的TF值和IDF值；

基于所述多个关键词分别对应的TF值和IDF值，确定所述多个关键词分别对应的权重；

将所述多个关键词分别对应的权重进行标准化处理，确定关键词向量值；

以所述关键词向量值作为所述待匹配商品名称和所述商品信息中的商品名称，确定商品向量数据。

通过采用上述技术方案，计算所确定的每一个关键词的TF值和IDF值，结合TF值以及IDF值确定每一个关键词的权重，之后将确定出的所有权重进行标准化处理确定出关键词向量值，随后，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据，为下一步的数据处理提供基础。

在一种可能的实现方式中，所述计算所述多个关键词分别对应的TF值，包括：

按下式计算所述多个关键词的TF值：

其中，表示关键词i在商品信息j中出现的频次，其中，i表示关键词的一个元素，j表示商品信息的一个元素，s表示商品信息j中所有的关键词的数量。

通过采用上述技术方案，确定出每个关键词在商品信息中出现的数量，随后，将每个关键词在商品信息中出现的数量与商品信息中所有的关键词的数量进行比值计算，确定出每个关键词在商品信息中出现的频率，即TF值。

在一种可能的实现方式中，所述计算所述多个关键词分别对应的IDF值，包括：

按下式计算所述多个关键词的IDF值：

n表示关键词i在商品信息出现的总频次，表示关键词的数量，k表示商品信息的数量，表示关键词i在主要类别c_i中的商品名称i₁中出现的频次，其中，主要类别c_i表示商品信息里占比最多的类别，表示商品名称i₁在主要类别中的关键词的数量，t表示商品信息中的主要类别商品信息数量，表示关键词i在次要类别商品i₂中的商品名称i₁中出现的频次，其中，次要类别i₂表示除主要类别c_i外的其他类别，表示商品名称i₂在次要类别中的关键词的数量，s表示商品信息中的次要类别商品信息数量。

在一种可能的实现方式中，所述基于所述多个关键词分别对应的TF值和IDF值，确定所述多个关键词分别对应的权重，包括：

按下式计算所述多个关键词分别对应的权重：

其中，表示关键词的TF值，表示关键词的IDF值，表示关键词的权重。

通过采用上述技术方案，计算出的关键词的权重，可以反映出关键词的重要程度，关键词权重数值越高，表示该关键词越重要。

在一种可能的实现方式中，所述将所述多个关键词分别对应的权重进行标准化处理，确定多个关键词向量值，包括：

按下式计算所述多个关键词向量值：

x表示要标准化的值，μ表示样本的平均值，S表示样本的标准差，表示关键词向量值。

通过采用上述技术方案，计算出关键词向量值，以消除权重之间的量级差异，使得更容易处理数据，提高算法的准确性。

在一种可能的实现方式中，所述方法还包括：

获取历史交易数据，并提取所述历史交易数据中的类别信息；

所述类别信息包括商品名称；

基于所述类别信息，构建数据库；

将所述类别信息中包含的所有商品名称进行分词整合，确定商品名称字典库。

通过采用上述技术方案，提取历史交易数据中的类别信息并构建数据库，之后将类别信息中包含的商品名称进行分词处理，以拆分所有商品名称的关键词，最后确定包含所有关键词的商品名称字典库，通过商品名称字典库和数据库的建立，提供大量的数据支撑，提高用户查询成功率。

第二方面，本申请提供一种商品分类编码的快速识别装置，采用如下的技术方案：

一种商品分类编码的快速识别装置，包括筛选模块、关键词确定模块、向量数据确定模块以及匹配模块，其中，

筛选模块，用于获取待匹配商品名称，并基于所述待匹配商品名称，从预设数据库筛选出与所述待匹配商品名称对应的商品信息；

关键词确定模块，用于基于预设商品名称字典库，将所述商品信息中的商品名称进行分词处理，确定关键词；

向量数据确定模块，用于确定所述关键词对应的关键词向量值，并基于所述关键词和所述关键词向量值，确定商品向量数据；

匹配模块，用于将所述商品向量数据进行数据处理，确定目标商品信息，并从所述目标商品信息中提取出所述待匹配商品名称对应的商品分类编码，所述数据处理包含分区处理。

通过采用上述技术方案，首先筛选模块基于获取的待匹配商品名称，从预设数据库中筛选出与待匹配商品名称对应的商品信息，关键词确定模块将商品信息中的商品名称基于预设商品名称字典库进行分词，以将商品名称拆分成数个关键词，之后向量数据确定模块对关键词进行算法处理来确定对应的关键字向量值，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据；之后匹配模块对商品向量数据进行数据处理确定目标商品信息，最后从目标商品信息中提取待匹配商品名称所对应的商品分类编码；从而能够智能快速匹配到与待匹配商品名称对应的目标商品信息，同时自动确定商品编码，提高工作效率和准确度。

在一种可能的实现方式中，所述向量数据确定模块包括TF-IDF计算单元、权重计算单元、标准化单元以及汇总单元，其中，

TF-IDF计算单元，用于计算所述多个关键词分别对应的TF值和IDF值；

权重计算单元，用于基于所述多个关键词分别对应的TF值和IDF值，确定所述多个关键词分别对应的权重；

标准化单元，用于将所述多个关键词分别对应的权重进行标准化处理，确定关键词向量值；

汇总单元，用于以所述关键词向量值作为所述待匹配商品名称和所述商品信息中的商品名称，确定商品向量数据。

在一种可能的实现方式中，所述TF-IDF计算单元，具体用于：

按下式计算所述多个关键词的TF值：

其中，表示所述关键词i在所述商品信息j中出现的频次，其中，i表示关键词的一个元素，j表示商品信息的一个元素，s表示所述商品信息j中所有的所述关键词的数量。

在一种可能的实现方式中，所述TF-IDF计算单元，具体用于：

按下式计算所述多个关键词的IDF值：

在一种可能的实现方式中，所述权重计算单元，具体用于：

按下式计算所述多个关键词分别对应的权重：

在一种可能的实现方式中，所述标准化单元，具体用于：

按下式计算关键词向量值：

在一种可能的实现方式中，商品分类编码的快速识别装置，还包括：类别信息提取模块、数据库构建模块以及商品名称字典库构建模块，其中，

类别信息获取模块，用于获取历史交易数据，并提取所述历史交易数据中的类别信息，所述类别信息包括商品名称；

数据库构建模块，用于基于所述类别信息，构建数据库；

商品名称字典库构建模块，用于将所述类别信息中包含的所有商品名称进行分词整合，确定商品名称字典库。

第三方面，本申请提供一种电子设备，采用如下的技术方案：

一种电子设备，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行上述商品分类编码的快速识别方法。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，包括：存储有能够被处理器加载并执行上述商品分类编码的快速识别方法的计算机程序。

综上所述，本申请包括以下有益技术效果：

1、首先基于获取的待匹配商品名称，从预设数据库中筛选出与待匹配商品名称对应的商品信息，将商品信息中的商品名称基于预设商品名称字典库进行分词，以将商品名称拆分成数个关键词，之后对关键词进行算法处理来确定对应的关键字向量值，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据；之后对商品向量数据进行数据处理确定目标商品信息，最后从目标商品信息中提取待匹配商品名称所对应的商品分类编码；从而能够智能快速匹配到与待匹配商品名称对应的目标商品信息，同时自动确定商品编码，提高工作效率和准确度。

2、计算所确定的每一个关键词的TF值和IDF值，结合TF值以及IDF值确定每一个关键词的权重，之后将确定出的所有权重进行标准化处理确定出关键词向量值，随后，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据；从而可清晰直观地区分关键词的重要程度，为下一步的数据处理提供基础。

附图说明

图1是本申请实施例商品分类编码的快速识别方法的流程示意图；

图2是本申请实施例商品分类编码的快速识别系统的流程示意图；

图3是本申请实施例基于商品分类编码的快速识别装置的方框示意图；

图4是本申请实施例电子设备的示意图。

具体实施方式

以下结合附图1-4对本申请作进一步详细说明。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种商品分类编码的快速识别方法，由电子设备执行，该电子设备可以为服务器，也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式设备，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式电脑等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。

参照图1，该方法包括：步骤S101、步骤S102、步骤S103以及步骤S104，其中：

S101、获取待匹配商品名称，并基于待匹配商品名称，从预设数据库筛选出与待匹配商品名称对应的商品信息。

对于本申请实施例，待匹配商品名称表示用户需要查询商品分类编码对应的主体，即，用户在需要查询商品编码时输入的商品名称。

预设数据库包含所有的历史交易数据，商品信息表示经过筛选得到的与待匹配商品名称对应的商品信息，其中，商品信息可以为多个商品信息。

预设数据库的构建方式可以包含以下任意一种，方式一，用户将历史交易数据通过人工的方式录入到电子设备，电子设备将历史交易数据进行处理和整合，构建形成数据库；方式二，电子设备从存储空间中获取历史交易数据，对历史交易数据进行分析处理并整合，由分析处理后的历史交易数据构建预设数据库，方便之后对历史交易数据的筛选。

进一步地，历史交易数据的存储方式可以包含以下至少一种，方式一，可将历史交易数据存储于电子设备本身的存储空间；方式二，可将历史交易数据存储在与电子设备相连的硬件存储设备中；方式三，可将历史交易数据存储在云端存储空间，方便随时调取。

具体地，电子设备获取用户输入的待匹配商品名称，之后电子设备将待匹配商品名称代入到预设数据库中，与预设数据库中的历史交易数据进行对比，筛选出与待匹配商品名称对应的商品信息，例如用户输入的待匹配商品名称为“舒肤佳香皂”，通过对预设数据库中的历史交易数据进行模糊搜索，筛选出“舒肤佳香皂”、“舒肤佳沐浴液”以及“力士香皂”等相关商品信息。

本申请实施例后续将以，“舒肤佳香皂”作为用户输入的待匹配商品名称，进行举例说明。

S102、基于预设商品名称字典库，将商品信息中的商品名称进行分词处理，确定关键词。

预设商品名称字典库中包含将预设数据库中的商品名称进行分词得到的所有关键词。

具体地，电子设备对预设数据库中的历史交易数据的商品名称进行分词处理，拆分得到多个关键词，例如，“舒肤佳洗手液”经过分词处理可以得到“舒肤佳”以及“洗手液”两个关键词；将多个关键词汇总，进而得到商品名称字典库；商品名称字典库的建立一方面为了与拆分待匹配商品名称后的关键词进行快速匹配，另一方面也确立了拆分关键词的标准，即拆分确定的关键词均需要包含在商品名称字典库中。

具体地，电子设备对商品信息进行拆分处理，确定商品信息中包含的商品名称，随后，电子设备将确定出的商品名称根据预设商品名称字典库进行分词处理，得到多个对应的关键词，例如，“舒肤佳香皂”通过预设数据库的模糊检索，可以筛选出“舒肤佳香皂”、“舒肤佳沐浴液”以及“力士香皂”，根据预设商品名称字典库对“舒肤佳香皂”、“舒肤佳沐浴液”以及“力士香皂”进行分词可以得到“舒肤佳”、“香皂”、“沐浴液”以及“力士”四个关键词；需要说明的是，对商品名称拆分的方式具体可根据预设商品名称字典库中包含的关键词集合方式进行设定，本申请实施例不做具体限定。

S103、确定关键词对应的关键词向量值，并基于关键词和关键词向量值，确定商品向量数据。

对于本申请实施例，关键词向量值反映关键词的重要程度，关键词向量值越大，证明该关键词越重要。

具体地，电子设备将确定出的多个关键词依次进行TF-IDF算法得到多个关键词分别对应的权重，为了消除量级差异，电子设备将多个关键词分别对应的权重进行标准化计算，从而确定关键词向量值，计算完成后用确定的关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定所有商品名称分别对应的商品向量名称，其中，商品向量名称表示每个关键词向量值代替对应商品名称来表示的向量名称，例如“舒肤佳香皂”中舒肤佳的关键词向量值为0.2，“香皂”的关键词向量值为0.3，则“舒肤佳香皂”的商品向量名称为“0.2 0.3”；之后电子设备汇总所有商品向量名称，确定商品向量数据，其中，商品向量数据包含多个商品向量名称。

S104、将商品向量数据进行数据处理，确定目标商品信息，并从目标商品信息中提取出待匹配商品名称对应的商品分类编码。

在本实施例中，目标商品信息表示与待匹配商品名称匹配度最高的商品信息；商品分类编码表示目标商品信息中对应的商品分类编码。

具体地，数据处理不仅包含分区处理，还包含DBSCAN算法，电子设备首先将商品向量数据根据向量长度分区，以对应的向量长度命名各分区，例如，“舒肤佳香皂”可分词得到两个关键词，“舒肤佳纯白清香香皂”可分词得到四个关键词，因此“舒肤佳香皂”会分在“二区”，而“舒肤佳纯白清香香皂”会被分在“四区”，之后通过DBSCAN算法对各分区内的商品向量名称进行聚类处理，以确定出每个区的聚类结果，将每个区的聚类结果分别与待匹配商品名称之间进行欧式距离的计算，提取欧式距离最短的商品名称所在的商品信息作为目标商品信息，最后电子设备从目标商品信息中确定商品分类编码，提前进行分区处理，方便对各局部区域同时进行聚类，提高工作效率。

需要说明的是，向量长度表示商品名称中包含的对应关键词向量值的数量，向量长度相同的商品名称会分在同一个区，并且，为了确定待匹配商品名称所对应的匹配度最高的目标商品信息，因此无需计算待匹配商品名称的向量长度，每个区都有待匹配商品名称的商品向量名称，即，每个分区均以待匹配商品名称的商品向量名称作为核心点进行聚类。

本申请实施例提供了一种商品分类编码的快速识别方法，当用户在电子设备上输入想查询的待匹配商品名称后，电子设备首先通过模糊搜索从预设数据库中筛选与待匹配商品名称对应的一类商品信息，之后将该类商品信息中包含的商品名称以预设商品名称字典库为依据，拆分成多个关键词，随后，分别计算多个关键词的TF值和IDF值确定关键词的权重，为了消除量级差异，将权重进行标准化计算确定关键词向量值，之后以关键词向量值作为所有商品名称，确定每个商品名称分别对应的商品向量名称，并将确定的所有商品向量名称进行整合，确定出商品向量数据，电子设备将商品向量数据根据向量长度进行分区，DBSCAN算法对各分区分别聚类得到各分区的聚类结果，计算各区聚类结果和待匹配商品名称的欧式距离，最终确定目标商品信息并自动确定商品分类编码；从而实现智能快速匹配到与待匹配商品名称对应的目标商品信息，同时自动确定商品编码，提高工作效率和准确度。

步骤S103中，确定关键词对应的关键词向量值，并基于关键词和关键词向量值，确定商品向量数据，具体包括：步骤S11（附图未示出）、步骤S12（附图未示出）、步骤S13（附图未示出）以及步骤S14（附图未示出），其中，

S11、计算多个关键词分别对应的TF值和IDF值；

S12、基于多个关键词分别对应的TF值和IDF值，确定多个关键词分别对应的权重；

S13、将多个关键词分别对应的权重进行标准化处理，确定关键词向量值；

S14、以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据。

在本申请实施例中，关键词可以为多个关键词，商品信息可以为多个商品信息。

具体地，电子设备确定出所有关键词，通过TF-IDF算法求出每个关键词的TF值和IDF值，将TF值和IDF值进行乘法运算确定每个关键词向量的权重，旨在区分每个关键词的重要程度，而由于算法确定的权重数值可能存在量级差异，故将该权重数值进行标准化确定关键词向量值，之后以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定出每个商品名称对应的商品向量名称，将所有的商品向量名称汇总确定商品向量数据。

具体地，步骤S11中，计算多个关键词分别对应的TF值，具体包括：

按下式计算多个关键词的TF值：

具体地，步骤S11中，计算多个关键词分别对应的IDF值，具体包括：

按下式计算多个关键词的IDF值：

需要说明的，由于可能存在一个关键词频次很高，但是却不重要的情况，例如用户输入的待匹配商品名称为“舒肤佳的香皂”，其中“的”可能在商品信息中多次出现，但是重要程度不高，因此需要计算值来平衡值。

具体地，步骤S12中，基于多个关键词分别对应的TF值和IDF值，确定多个关键词分别对应的权重，具体包括：

按下式计算多个关键词分别对应的权重：

进一步说明的，将TF值和IDF值进行乘法运算确定关键词的权重，该权重可以反映关键词的重要程度。

具体地，步骤S13中，将多个关键词分别对应的权重进行标准化处理，确定关键词向量值，具体包括：

按下式计算关键词向量值：

值得说明的，由于权重数值可能存在较大的量级差异，因此需要将该权重数值进行标准化处理，方便利用商品向量名称更清晰地表示待匹配商品名称和所有商品信息的商品名称。

具体地，步骤S14中，以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据，具体包括：

由于DBSCAN算法需要对向量才能进行聚类，因此电子设备需要将确认的关键词向量值作为商品名称，确定商品向量名称，例如“舒肤佳香皂”中舒肤佳的关键词向量值为0.2，“香皂”的关键词向量值为0.3，则“舒肤佳香皂”用“0.2 0.3”来表示，将所有的商品向量名称整合，确定商品向量数据，方便之后进行分区处理和DBSCAN算法。

本申请实施例的一种可能的实现方式，商品分类编码的快速识别方法，还包括步骤S21、步骤S22以及步骤S23，具体包括：

S21、获取历史交易数据，并提取历史交易数据中的类别信息，类别信息包括商品名称。

具体地，电子设备将历史交易数据进行筛选，筛选出历史交易数据中的商品名称、供应商名称、供应商编码、商品分类编码、商品26位编码、以及商品价格等类别信息，其中历史交易数据是公司在全国范围内的历史交易数据。

S22、基于类别信息，构建数据库。

具体地，电子设备将类别信息以数据字典的形式生成数据库，其中，数据字典包含主体表和属性表，主体表里包含主体和属性代码，属性表里包含属性代码和属性Value,不同属性分别建表。

需要说明的，属性表中的属性Value指的是历史交易数据中包含的各个类别信息。

S23、将类别信息中包含的所有商品名称进行分词整合，确定商品名称字典库。

具体地，技术人员对预设数据库中历史交易数据的商品名称根据分布特性进行分词，拆分出多个关键词。其中，分布特性指的是商品名称中包含的不同内容的前后分布关系，例如，商品名称为“舒肤佳香皂”，“舒肤佳”表示一个“品牌”，“品牌”即为“舒肤佳”的分布特性，“香皂”表示一个“类别”，“类别”即为“香皂”的分布特性，将拆分得到的多个关键词进行整合，确定关键词的集合来构建商品名称字典库，方便之后快速准确对用户输入的待匹配商品名称进行分词。

需要说明的是，历史交易数据和数据库需要进行不断迭代更新，同样的，该商品名称字典库也需要不断更新。

在步骤S104中，将商品向量数据进行数据处理，还包括以下步骤：

S31、基于关键词向量值对商品信息中的商品名称进行分区处理。

具体地，电子设备以关键词向量值的向量长度作为标准，划分为若干个局部区域，例如，“舒肤佳香皂”经过模糊检索后可以得到“舒肤佳亲肤香皂”、“舒肤佳纯白清香香皂”以及“立白100g香皂”，之后经过预设商品名称字典库分词，“舒肤佳亲肤香皂”可拆分成3个关键词，相应的会有3个关键词向量值，即，“舒肤佳亲肤香皂”的向量长度为3，同理可得，“舒肤佳纯白清香香皂”的向量长度为4，“立白100g香皂”的向量长度为3，因此，“舒肤佳亲肤香皂”和“立白100g香皂”会被分在同一个区，而“舒肤佳纯白清香香皂”会在另外一个区，之后电子设备将向量长度相同的商品向量名称分在同一个区，之后将待匹配商品名称的商品向量名称加入每一个分区；分区处理可以降低了全局变量Eps值的影响，并且方便使用并行处理 ,从而提高聚类效率 ,也降低了DBSCAN算法对内存的高要求。

S32、对分区处理后的商品信息进行DBSCAN算法聚类，将各分区的聚类结果合并，确定目标商品信息。

具体地，电子设备利用DBSCAN算法对各局部区域内的商品名称同时进行聚类，将聚类的结果分别与待匹配商品名称对应的商品向量名称进行欧式距离计算，取最短的计算结果所对应的商品信息作为目标商品信息，即，与待匹配商品名称最匹配的商品信息，从而完成整个数据的聚类分析。

参照图2所示，电子设备预先通过历史交易数据构建数据库，将历史交易数据中的商品名称进行分词处理得到多个关键词构建商品名称字典库，作为之后待匹配商品名称分词的标准，当用户输入待匹配商品名称时，电子设备先从预设数据库中筛选与待匹配商品名称相关的部分商品信息，为了更精确地找到目标商品信息，电子设备根据预设商品名称字典库将待匹配商品名称和部分商品信息中的商品名称进行分词，将分词后的关键词分别进行TF-IDF算法计算，得到关键词向量值，之后根据向量长度进行分区处理，提高处理效率，同时对各分区进行DBSCAN聚类，得到目标商品信息，提取目标商品信息中的商品分类编码。

上述实施例从方法流程的角度介绍一种商品分类编码的快速识别方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种商品分类编码的快速识别装置，具体详见下述实施例。

商品分类编码的快速识别装置30具体可以包括：筛选模块301、关键词确定模块302、向量数据确定模块303以及匹配模块304，其中，

一种商品分类编码的快速识别装置，包括：

筛选模块301，用于获取待匹配商品名称，并基于待匹配商品名称，从预设数据库筛选出与待匹配商品名称对应的商品信息；

关键词确定模块302，用于基于预设商品名称字典库，将商品信息中的商品名称进行分词处理，确定关键词；

向量数据确定模块303，用于确定关键词对应的关键词向量值，并基于关键词和关键词向量值，确定商品向量数据；

匹配模块304，用于将所述商品向量数据进行数据处理，确定目标商品信息，并从所述目标商品信息中提取出所述待匹配商品名称对应的商品分类编码，所述数据处理包含分区处理。

本申请实施例的一种可能的实现方式，向量数据确定模块303，包括TF-IDF计算单元、权重计算单元、标准化单元以及汇总单元，其中，

TF-IDF计算单元，用于计算多个关键词分别对应的TF值和IDF值；

权重计算单元，用于基于多个关键词分别对应的TF值和IDF值，确定多个关键词分别对应的权重；

标准化单元，用于将多个关键词分别对应的权重进行标准化处理，确定关键词向量值；

汇总单元，用于以关键词向量值作为待匹配商品名称和商品信息中的商品名称，确定商品向量数据。

本申请实施例的一种可能的实现方式，TF-IDF计算单元，具体用于：

按下式计算多个关键词的TF值：

按下式计算多个关键词的IDF值：

本申请实施例的一种可能的实现方式，权重计算单元，具体用于：

按下式计算多个关键词分别对应的权重：

本申请实施例的一种可能的实现方式，标准化单元，具体用于：

按下式计算关键词向量值：

本申请实施例的一种可能的实现方式，商品分类编码的快速识别装置30，还包括：类别信息提取模块、数据库构建模块以及商品名称字典库构建模块，其中，

类别信息获取模块，用于获取历史交易数据，并提取历史交易数据中的类别信息，类别信息包括商品名称；

数据库构建模块，用于基于类别信息，构建数据库；

商品名称字典库构建模块，用于将类别信息中包含的所有商品名称进行分词整合，确定商品名称字典库。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还从实体装置的角度介绍了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。可选地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。

处理器401可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种商品分类编码的快速识别方法，其特征在于，包括：

所述数据处理包含分区处理。

2.根据权利要求1所述的一种商品分类编码的快速识别方法，其特征在于，所述关键词为多个关键词，所述商品信息为多个商品信息，所述确定所述关键词对应的关键词向量值，并基于所述关键词和所述关键词向量值，确定商品向量数据，包括：

计算所述多个关键词分别对应的TF值和IDF值；

3.根据权利要求2所述的一种商品分类编码的快速识别方法，其特征在于，所述计算所述多个关键词分别对应的TF值，包括：

按下式计算所述多个关键词的TF值：

4.根据权利要求2所述的一种商品分类编码的快速识别方法，其特征在于，所述计算所述多个关键词分别对应的IDF值，还包括：

按下式计算所述多个关键词的IDF值：

n表示关键词i在商品信息出现的总频次，表示关键词的数量，k表示商品信息的数量，表示关键词i在主要类别c_i中的商品名称i₁中出现的频次，其中，主要类别c_i

表示商品信息里占比最多的类别，表示商品名称i₁在主要类别中的关键词的数量，t表示商品信息中的主要类别商品信息数量，表示关键词i在次要类别商品i₂

中的商品名称i₁中出现的频次，其中，次要类别i₂表示除主要类别c_i外的其他类别，表示商品名称i₂在次要类别中的关键词的数量，s表示商品信息中的次要类别商品信息数量。

5.根据权利要求2所述的一种商品分类编码的快速识别方法，其特征在于，所述基于所述多个关键词分别对应的TF值和IDF值，确定所述多个关键词分别对应的权重，包括：

按下式计算所述多个关键词分别对应的权重：

6.根据权利要求2所述的一种商品分类编码的快速识别方法，其特征在于，所述将所述多个关键词分别对应的权重进行标准化处理，确定关键词向量值，包括：

按下式计算所述关键词向量值：

7.根据权利要求1所述的一种商品分类编码的快速识别方法，其特征在于，所述方法还包括：

所述类别信息包括商品名称；

基于所述类别信息，构建数据库；

8.一种商品分类编码的快速识别装置，其特征在于，包括：

9.一种电子设备，其特征在于，该电子设备包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1～7任一项所述的一种商品分类编码的快速识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1～7任一项所述的一种商品分类编码的快速识别方法。