CN114493783A

CN114493783A - 一种基于双重检索机制的商品匹配方法

Info

Publication number: CN114493783A
Application number: CN202210086751.4A
Authority: CN
Inventors: 李会锋
Original assignee: Dezhi Shangcheng Group Co ltd
Current assignee: Dezhi Shangcheng Group Co ltd
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-05-13

Abstract

本发明涉及商品搜索的技术领域，尤其公开了一种基于双重检索机制的商品匹配方法；包括步骤S1：获取待检索商品的商品标题描述；步骤S2：将商品标题描述，根据语义相似度进行搜索并匹配，得到第一搜索结果；根据语义相似度进行搜索为：运用自然语言处理(NLP)技术，对商品标题描述，通过机器学习模型转换为语句向量，计算该语句向量与样本库中商品的向量的相似度；步骤S3：将商品标题描述，根据Elasticsearch搜索引擎进行搜索并匹配，得到第二搜索结果；步骤S4：根据自定义算法，将第一搜索结果和第二搜索结果进行合并和分析处理，得到最终匹配结果。本发明的商品匹配方法，创新了现有的基于语义相似度算法的检索机制，智能程度高，商品搜索匹配、准确率高。

Description

一种基于双重检索机制的商品匹配方法

技术领域

本发明涉及商品搜索的技术领域，尤其涉及一种基于双重检索机制的商品匹配方法。

背景技术

商品检索或者匹配是电子商务领域最为常用的技术，但是面对不同的用户，输入的检索信息可能是长句(信息丰富)，也可能是短句，甚至也可能是相关的信息，如果针对这种不确定的输入,兼容长句描述和短句描述以及相似描述都能完成商品精准匹配是当前电子商务信息检索一个难点，也是一个迫切需要解决的技术问题。而传统的商品检索方法主要以下，各种方法的不足具体分析如下：

方法1：直接利用商品描述语句在数据库中查询，这种方法的缺点是对于长文本的商品描述很难直接在数据库中实现匹配，数据库基本返回为空。

方法2：对所有数据建立搜索引擎，比如利用Elasticsearch建立全文搜索引擎，然后将商品描述语句输入到搜索引擎库中，实现检索，这种检索的本质上是做“字”的匹配，当商品描述语句与待查询语句存在相同的字时可以检索出来，但是该种检索不能实现语义检索，比如要查询“苹果iphone”，如果采用Elasticsearch的or查询，则可能检索出水果，而检索者的目标应该是手机。

方法3：借鉴自然语言处理中的语句相似度比较方法，采用基于语义相似度的查询方法，比如将商品描述语句直接采用word2vec或者采用Bert深度学习模型将语句中的词转为词向量，然后对所有的词做平均处理形成查询句向量，然后对比该查询句向量与样本库中商品的描述语句向量计算二者相似度，选择相似度值最高的最为匹配成功的商品。该种方法能够实现语义检索，但是由于“商品描述语句”与样本库中商品标题存在较大的差异。

显然以上几种方法，均不能同时解决兼容长句描述和短句描述以及相似描述都能完成商品精准匹配的难点。

发明内容

本发明提出了一种基于双重检索机制的电商商品匹配方法，该方法基于双重检索机制，一方面使用Elasticsearch进行检索，一方面创新了现有的基于语义相似度算法的检索机制，最终结合两者匹配结果进一步排序，提高匹配的准确性，实现能兼容长句描述和短句描述以及相似描述都能完成商品精准匹配的目标。

本发明一种基于双重检索机制的电商商品匹配方法，包括以下步骤：步骤S1：获取待检索商品的商品标题描述；步骤S2：将所述商品标题描述，根据语义相似度进行搜索并匹配，得到第一搜索结果；所述根据语义相似度进行搜索为：运用自然语言处理(NLP)技术，对所述商品标题描述，通过机器学习模型转换为语句向量，计算该语句向量与样本库中商品的向量的相似度；步骤S3：将所述商品标题描述，根据Elasticsearch搜索引擎进行搜索并匹配，得到第二搜索结果；步骤S4：根据自定义算法，将所述第一搜索结果和第二搜索结果进行合并和分析处理，得到最终匹配结果。

因此，本发明的基于双重检索机制的商品匹配方法，创新了现有的基于语义相似度算法的检索机制，主要是将商品描述切分为多个类别因素，包括品牌、品名、型号、颜色、数字、英文数字混合体、描述、原句所有分词、剩余词。将得到的这多个类别因素的词语转化为词向量，词向量串接构建成句向量，然后利用基于相似度算法的查询模型进行检索，最终得到匹配结果。

这种做法有利于针对某一系列词语进行加权处理，提升权重，从而提升商品检索匹配精度。进一步，基于这种商品描述的切分策略，本方法设计了基于品牌、品名，基于品牌、品名和型号，以及全句检索三个模型，在查询的过程中，同时使用三个模型进行查询，得本方法能兼容长句描述和短句描述以及相似描述都能完成商品精准匹配的目标。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明的基于双重检索机制的商品匹配方法的流程示意图；

图2是本发明的基于双重检索机制的商品匹配方法的步骤S2的流程示意图；

图3是本发明的基于双重检索机制的商品匹配方法的步骤S2的另一实施方式的流程示意图；

图4是本发明的基于双重检索机制的商品匹配方法的步骤S21的流程示意图；

图5是本发明的基于双重检索机制的商品匹配方法的步骤S22的流程示意图；

图6是本发明的基于双重检索机制的商品匹配方法的步骤S23的流程示意图；

图7是本发明的基于双重检索机制的商品匹配方法的步骤S24的流程示意图；

图8是本发明的基于双重检索机制的商品匹配方法的步骤S3的流程示意图；

图9是本发明的基于双重检索机制的商品匹配方法的步骤S4的流程示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

如图1所示，为本发明的基于双重检索机制的商品匹配方法的流程示意图，包括如下步骤：

步骤S1：获取待检索商品的商品标题描述；

步骤S2：将所述商品标题描述，根据语义相似度进行搜索并匹配，得到第一搜索结果；

所述根据语义相似度进行搜索为：运用自然语言处理(NLP)技术，对所述商品标题描述，通过机器学习模型转换为语句向量，计算该语句向量与样本库中商品的向量的相似度；

步骤S3：将所述商品标题描述，根据Elasticsearch搜索引擎进行搜索并匹配，得到第二搜索结果；

步骤S4：根据自定义算法，将所述第一搜索结果和第二搜索结果进行合并和分析处理，得到最终匹配结果。

其中，步骤S1中，可以通过API(Application Programming Interface，应用程序接口)获取到待检索的商品标题描述。

如图2所示，为本发明的基于双重检索机制的商品匹配方法的步骤S2的流程示意图；所述步骤S2中，包括：

步骤S21：根据待检索商品的商品标题描述，提取多个类别因素；

步骤S22：构造商品标题描述的语句向量；

步骤S23：对商品标题描述的语句向量进行降维；

步骤S24：采用KNN算法，从样本库中匹配与商品标题描述语句向量最近似的向量。

示例性的，本发明中，所述多个类别因素包括9个类别，分别为：品牌、品名、型号、颜色、数字、英文数字混合体、描述、原句所有分词、剩余词。

如图3所示，为本发明的基于双重检索机制的商品匹配方法的步骤S2的另一实施方式的流程示意图；作为一种优选方式，在所述步骤S21之前，还包括：

步骤S20：设置样本数据库，所述样本数据库中包括若干个商品的品牌、品名、型号、颜色以及停用词。此类样本数据库，用于在对待检索商品标题描述的分词过程中提取相应的信息。例如有一个商品标题描述是：得力卷笔刀黑色68659。通过词库可以从中提取到的信息有3个词语，分别是：得力(品牌)、卷笔刀(商品)、黑色(颜色)。另外停用词库则是用于去除“的”“了”“呢”之类的无用词语。

本发明中，所述步骤S21：根据待检索商品的商品标题描述，提取多个类别因素包括：如图4所示，为本发明的基于双重检索机制的商品匹配方法的步骤S21的流程示意图；

步骤S211：将待检索商品标题描述中大写的字母转为小写字母；

步骤S212：采用正则表达式提取商品标题描述中的型号；

其中，正则表达式规则：[a-zA-Z0-9]+[-]{1}[a-zA-Z0-9]+[-]？[a-zA-Z0-9]*。

步骤S213：通过分词工具进行分词，并且对文本里中的停用词进行删除处理；所述停用词包括：“的”、“地”、“得”；

步骤S214：根据样本数据库，提取待检索商品的品牌、品名、颜色；

步骤S215：通过第一预设函数判断，并提取英文数据混合体；

步骤S216：通过第二预设函数判断提取数字；

步骤S217：通过分词工具提取关键词，作为描述词；

步骤S218：将剩余未被提取的词语作为剩余词。

经过分词步骤，将待检索的商品标题描述分词为9大类别，例：

商品标题描述：广博(GuangBo)60只装15mm彩色长尾夹子燕尾夹票夹办公用品PJTC005。

本发明中，如图5所示，为本发明的基于双重检索机制的商品匹配方法的步骤S22的流程示意图；所述步骤S22：构造商品标题描述的语句向量包括：

步骤S221：建立语料库；在该步骤中，采用分词工具，对商品标题描述进行分词，形成一个以词为单位的文本库；

步骤S222：构造机器学习字、词向量训练模型；

在该步骤中，采用Word2vec模型，将语料库作为训练模型的输入，通过机器学习方式，训练词向量维度为300维的词向量模型；

步骤S223：对同一类别内的语句，采用向量平均处理，构造类别的类别向量；

在该步骤中，首先利用训练后的词向量模型，将获取到的待检索商品标题语句9大类别进行词向量转化(通过训练后的词向量模型能够得到每个词与词向量的映射关系)，每个词语转化为一个300维的词向量。然后将同一类别的词向量采用Numpy(python开源的数值计算扩展库)的mean函数求取均值，同一类别的词向量计算后得到一个300维的类别向量。

步骤S224：将不同类别的类别向量串联形成待检索商品标题语句向量。

在该步骤中，采用拼接的方式拼接9大类别的类别向量后形成一个维度为2700维的商品标题语句向量。

本发明中，如图6所示，为本发明的基于双重检索机制的商品匹配方法的步骤S23的流程示意图；所述步骤S23：对商品标题描述的语句向量进行降维包括：

步骤S231：针对电商垂直领域，构建多个PCA降维模型；

在该步骤中，首先从作为检索库的商品数据集中随机取样，针对每条商品数据进行构造语句向量，形成训练PCA模型的输入数据集。最后采用PCA(主成分分析方法)实现方法，将已构造好的语句向量作为训练数据集训练PCA降维模型；此步骤中需要分别训练品牌+品名，品牌+品名+型号，以及全句检索三个PCA降维模型。

步骤S232：获取待检索商品标题语句向量；

步骤S233：加载训练后的PCA模型，将待检索商品标题语句向量从2700维降低为300维。

本发明中，如图7所示，为本发明的基于双重检索机制的商品匹配方法的步骤S24的流程示意图；

所述步骤S24：采用KNN算法，从样本库中匹配与商品标题描述语句向量最近似的向量包括：

步骤S241：构造待检索商品标题样本库；在该步骤中，采用KNN实现方法；首先对作为检索库的商品数据进行构造语句向量，并分别利用训练后的PCA降维模型对语句向量进行降维，形成KNN模型的训练数据集。然后基于不同商品结构信息训练品牌+品名，品牌+品名+型号，以及全句检索三个KNN模型；

步骤S242：获取待检索商品标题语句向量；

步骤S243：采用KNN模型，从样本库中匹配与待检索商品标题最相似的TopN目标商品标题，得到第一搜索结果；

在该步骤中，将待检索商品语句向量作为KNN模型的输入参数，调用多个KNN模型进行检索，不同的KNN模型分别返回TopN目标商品标题。

基于不同商品结构信息训练KNN模型的多模型融合，包括：

1.对训练数据集进行数据切片，只保留品牌、商品两大类别信息训练的KNN模型。

2.对训练数据集进行数据切片，只保留品牌、商品、型号三大类别信息训练的KNN模型。

3.训练数据集不通过数据切片，保留完整商品信息训练的模型。

示例性的，对待检索商品标题描述语句向量基于不同的商品结构信息进行数据切片，处理后得到以下3个语句向量。

1.只保留品牌、品名两大类别信息语句向量，该语句向量只有600维。

2.只保留品牌、品名、型号三种类别信息的语句向量，该语句向量只有900维。

3.保留完整商品信息训练的语句向量，该语句向量有2700维。

然后，利用预训练的多个PCA模型，分别对切片后的3个语句向量降维，每个PCA模型对应处理不同的语句向量。以下是不同的PCA模型处理不同的语句向量。

1.基于品牌、品名类别信息的PCA模型对只保留品牌、品名类别信息的语句向量降维，将600维降为300维。

2.基于品牌、品名、型号类别信息的PCA模型对只保留品牌、品名、型号类别信息的语句向量降维，将900维降为300维。

3.基于九大类别的PCA模型对保留完整商品信息的语句向量阵维，将2700维降为300维。

如图8所示，为本发明的基于双重检索机制的商品匹配方法的步骤S3的流程示意图；所述步骤S3：将所述商品标题描述，根据Elasticsearch搜索引擎进行搜索并匹配，得到第二搜索结果包括：

步骤S31：安装IK中文分词器；

步骤S32：将商品标题描述作为分词字段，将检索库商品数据导入到Elasticsearch搜索引擎。

步骤S33：Elasticsearch搜索引擎根据导入的商品数据建立倒排索引。

步骤S34：通过API程序获取待检索商品标题描述。

步骤S35：将待检索商品标题描述作为查询语句，采用match查询模式，调用Elasticsearch搜索引擎提供的REST API进行检索，Elasticsearch返回TopN目标商品标题。

如图9所示，为本发明的基于双重检索机制的商品匹配方法的步骤S4的流程示意图；步骤S4：根据自定义算法，将所述第一搜索结果和第二搜索结果进行合并和分析处理，得到最终匹配结果；步骤S4中，合并KNN多模型和Elasticsearch搜索引擎检索的结果集。

本步骤包括：

步骤S41：针对所述第一搜索结果和第二搜索结果，对每个搜索结果进行分词、拆字，比较与待检索商品标题描述出现重复词、重复字的数量；

步骤S42：对相同重复数量(重复词+重复字的数量)的结果进行分组；

步骤S43：根据不同重复数量对分组进行降序；

步骤S44：对相同重复数量的每一组结果进一步排序，根据重复词的数量降序，若重复词数量相等再按商品标题描述的字符串长度降序；

步骤S45：将满足升序条件的结果升序。

所述将满足升序条件的结果进行升序包括：

1、在原来的排序基础上找出与待检索商品标题描述出现相同品牌、型号的结果分为一组。

2、将在这一组中存在与待检索商品标题描述没有的品牌(如果存在中文的品牌，则忽略英文品牌)的结果降序。

3、将在这一组中存在多个品牌、商品且标题包含‘适用’字眼的结果降序。

最后将这一组结果排到基础排序头部。

步骤S46：将满足降序条件的结果降序；

本发明中，对满足以下条件的结果在基础排序上进行降序：

满足降序条件的有：在原来的基础排序上找出存在多个品牌、商品且标题包含‘适用’字眼的结果。最后将满足降序的结果排到了基础排序的尾部，作为最终的排序结果。

与传统的方法相比，本发明实现了基于双重检索机制的电商商品匹配方法。有以下优点：

对电商商品描述切分为9个系列的词语，并以此构造查询语句向量的方法，这样有利于保留商品的结构性信息、有利于通过加权的方式提升部分词语的权重、可以训练基于不同商品结构信息的语句相似度查询模型。

另一方面，本发明结合Elasticsearch检索，弥补了在做相似度检索时的缺陷。这里的缺陷指的是当分词库的词汇不全面、不完善的情况下，在进行分词时未能有效的把品牌或品名切分，这将不利于后续的句向量构建，进行相似度计算。通过本发明可以提高在这种不确定情况下的商品匹配精度，目前我们在京东商品1000万测试中，不同查询长度语句下查询匹配精准率超过96％。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双重检索机制的商品匹配方法，其特征在于，所述商品匹配方法包括如下步骤：

步骤S1：获取待检索商品的商品标题描述；

2.根据权利要求1所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S2中，包括：

步骤S22：构造商品标题描述的语句向量；

步骤S23：对商品标题描述的语句向量进行降维；

3.根据权利要求2所述的基于双重检索机制的商品匹配方法，其特征在于：所述多个类别因素包括：品牌、品名、型号、颜色、数字、英文数字混合体、描述、原句所有分词、剩余词。

4.根据权利要求3所述的基于双重检索机制的商品匹配方法，其特征在于：在所述步骤S21之前，还包括：

步骤S20：设置样本数据库，所述样本数据库中包括若干个商品的品牌、品名、型号、颜色以及停用词。

5.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S21：根据待检索商品的商品标题描述，提取多个类别因素包括：

步骤S212：采用正则表达式提取商品标题描述中的型号；

步骤S215：通过第一预设函数判断，并提取英文数据混合体；

步骤S216：通过第二预设函数判断提取数字；

步骤S217：通过分词工具提取关键词，作为描述词；

步骤S218：将剩余未被提取的词语作为剩余词。

6.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S22：构造商品标题描述的语句向量包括：

步骤S221：建立语料库；在该步骤中，采用任意一种分词工具，对商品标题描述进行分词，形成一个以词为单位的文本库；

步骤S222：构造机器学习字、词向量训练模型；

7.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S23：对商品标题描述的语句向量进行降维包括：

步骤S231：针对电商垂直领域，构建多个PCA降维模型；

步骤S232：获取待检索商品标题语句向量；

8.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S24：采用KNN算法，从样本库中匹配与商品标题描述语句向量最近似的向量包括：

步骤S242：获取待检索商品标题语句向量；

步骤S243：采用KNN模型，从样本库中匹配与待检索商品标题最相似的TopN目标商品标题；

在该步骤中，将待检索商品语句向量作为KNN模型的输入参数，调用多个KNN模型进行检索，不同的KNN模型分别返回TopN目标商品标题，得到第一搜索结果。

9.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：所述步骤S3：将所述商品标题描述，根据Elasticsearch搜索引擎进行搜索并匹配，得到第二搜索结果包括：

步骤S31：安装IK中文分词器；

步骤S32：将商品标题描述，作为分词字段，将检索库商品数据导入到Elasticsearch搜索引擎；

步骤S33：Elasticsearch搜索引擎根据导入的商品数据建立倒排索引；

步骤S34：通过API程序获取待检索商品标题描述；

步骤S35：将待检索商品标题描述作为查询语句，采用match查询模式，调用Elasticsearch搜索引擎提供的REST API进行检索，Elasticsearch返回TopN目标商品标题，得到第二搜索结果。

10.根据权利要求4所述的基于双重检索机制的商品匹配方法，其特征在于：步骤S4：根据自定义算法，将所述第一搜索结果和第二搜索结果进行合并和分析处理，得到最终匹配结果包括：

步骤S43：根据不同重复数量对分组进行降序；

步骤S45：将满足升序条件的结果进行升序；

步骤S46：将满足降序条件的结果进行降序。