CN110647630A

CN110647630A - 检测同款商品的方法及装置

Info

Publication number: CN110647630A
Application number: CN201910939649.2A
Authority: CN
Inventors: 李翀; 周成; 李林杰; 吴岗
Original assignee: Zhejiang Zhi Yu Information Technology Co Ltd
Current assignee: Yiwu Zhiyu Information Technology Co.,Ltd.
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-03

Abstract

本发明公开一种检测同款商品的方法及装置，该方法中将用于训练的原始商品文本信息按照商品品牌分为不同的数据集；确定同一商品品牌的数据集中商品之间的同款关系；基于确定了上述同款关系的数据集训练神经网络得到同款商品预测模型；将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果，由于首先从“商品品牌”入手，将同款比较转化为同商品品牌数据集的小规模计算，便于同款商品预测模型的训练，提高实际可操作性，另外，同款商品预测模型基于商品文本信息建立，可通过机器自动实现同款商品的判断。

Description

检测同款商品的方法及装置

技术领域

本发明涉及电子商务技术领域，更具体的说，本发明涉及一种检测同款商品的方法及装置。

背景技术

电商系统中汇集了大量的商品，随着商品日渐丰富，同款商品可能来自于不同个人卖家、不同公司卖家以及平台方；但电商系统无法约束卖家提供完全一致的信息，例如，同款商品，不同卖家可能提供不同图像、取不同商品标题、商品属性信息完整填写或略写等，这会导致电商平台虽然销售了同款的多个商品，但因信息不一致而无法确认哪些商品属同款商品，因此，准确找出同款商品，以便对它们统一管理，是电商平台迫切需要解决的问题。

现有技术采用如下方案确定同款商品：

第一种是依据商品图像确定是否为同款商品，即对于图像的某些数学特征，相似度高的认定为同款商品；但图像比较难解决像手机、手表、电器、鞋子等图像差别细微的场景，对外观相近商品难以区分；第二种技术方案是根据商品描述信息判断是否为同款商品，但商家对商品的描述方式没有统一模式，表达方式具有多样性，难以通过机器自动进行判断。

发明内容

本发明要解决的技术问题是提供一种检测同款商品的方法及装置，可广泛应用于电商平台，且可通过机器自动实现同款商品的判断。

为解决上述技术问题，本发明采用如下技术方案：

一种检测同款商品的方法，其包括如下步骤：

将用于训练的原始商品文本信息按照商品品牌分为不同的数据集；

确定同一商品品牌的数据集中商品之间的同款关系；

基于确定了上述同款关系的数据集训练神经网络得到同款商品预测模型；

将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果。

优选地，将用于训练的原始商品文本信息按照商品品牌分为不同的数据集具体包括：

提取原始商品文本信息中商品品牌字段的文本信息；

确定商品的品牌文本相似度阈值，根据提取的各商品品牌字段的文本信息计算编辑距离以及品牌最长字符数计算该商品的品牌文本相似度，若超过上述品牌文本相似度阈值，则确定为同一商品品牌；

将同一商品品牌的商品文本信息集中到同一个数据集存储。

优选地，确定同一商品品牌的数据集中商品之间的同款关系是提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系。

优选地，基于确定了同款关系的数据集训练神经网络得到同款商品预测模型具体包括：

在确定了同款关系的数据集中取出一对商品的商品文本信息输入神经网络；

神经网络将该对商品的商品文本信息处理为相应的数值向量；

训练神经网络将该对商品的数值向量进行对比判断确定是否为同款，直到确定了同款关系的数据集中所有数据输入神经网络训练完成后得到同款商品预测模型。

优选地，确定了同款关系的数据集分为训练集、验证集和测试集，通过训练集训练神经网络得到同款商品预测模型，通过验证集对训练好的神经网络同款商品预测模型进行验证，通过测试集对训练好的神经网络同款商品预测模型进行测试。

另外，本发明一种检测同款商品的装置，其包括：

同品牌处理模块，将用于训练的原始商品文本信息按照商品品牌分为不同的数据集；

同款关系处理模块，用于确定同一商品品牌的数据集中商品之间的同款关系；

训练处理模块，用于基于确定了同款关系的数据集训练神经网络得到同款商品预测模型；

预测处理模块，用于将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果。

优选地，同品牌处理模块具体包括：

提取模块，用于提取原始商品文本信息中商品品牌字段的文本信息；

同一品牌商品确定模块，用于确定商品的品牌文本相似度阈值，根据提取的各商品品牌字段的文本信息计算编辑距离以及品牌最长字符数计算该商品的品牌文本相似度，若超过上述商品的品牌文本相似度阈值，则确定为同一商品品牌；

存储模块，用于将同一商品品牌的商品文本信息集中到同一个数据集存储。

优选地，同款关系处理模块确定同一商品品牌的数据集中商品之间的同款关系是提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系。

优选地，训练处理模块具体包括：

输入处理模块，用于在确定了同款关系的数据集取出一对商品的商品文本信息输入神经网络；

数值向量处理模块，用于神经网络将所述商品文本信息处理为两个数值向量；

判断处理模块，用于训练神经网络将两个数值向量进行对比判断确定是否为同款，直到确定了同款关系的数据集中所有数据输入神经网络训练完成后得到同款商品预测模型。

优选地，确定了同款关系的数据集分为训练集、验证集和测试集；

所述训练处理模块通过训练集训练神经网络得到同款商品预测模型，通过验证集对训练好的神经网络同款商品预测模型进行验证，通过测试集对训练好的神经网络同款商品预测模型进行测试。

与现有技术相比，本发明具有以下有益效果：

本发明检测同款商品的方法中，将用于训练的原始商品文本信息按照商品品牌分为不同的数据集；确定同一商品品牌的数据集中商品之间的同款关系；基于确定了上述同款关系的数据集训练神经网络得到同款商品预测模型；将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果，由于首先从“商品品牌”入手，将同款比较转化为同商品品牌数据集的小规模计算，便于同款商品预测模型的训练，提高实际可操作性，另外，同款商品预测模型基于商品文本信息建立，可通过机器自动实现同款商品的判断，且均衡了商品文本信息的不完整、商品文本信息错误、抓取同商品品牌不同型号的文本差异，可广泛应用于电商平台进行同款商品检测。

附图说明

图1是本发明检测同款商品的方法的一个具体实施例流程图；

图2是本发明采用的神经网络的原理示意图；

图3是本发明采用的神经网络的一个具体实施例结构示意图；

图4是本发明检测同款商品的装置的一个具体实施例组成框图；

图5是图4中同品牌处理模块的一个具体实施例框图；

图6是图4中训练处理模块的一个具体实施例框图。

具体实施方式

参考图1，该图是本发明检测同款商品的方法的一个具体实施例流程图，本实施例的方法主要包括如下步骤：

步骤S101，将用于训练的原始商品文本信息按照商品品牌分为不同的数据集，具体实现时，作为一个具体实施例，例如，可采用下述方式将用于训练的原始商品文本信息按照商品品牌分为不同的数据集，即：

提取原始商品文本信息中商品品牌字段的文本信息；

将同一商品品牌的商品文本信息集中到同一个数据集存储；

需要说明的，本实施例中上述商品的品牌文本相似度可定义为：

1-商品A和商品B品牌的编辑距离/商品A和商品B品牌的最长字符数；

其中编辑距离是针对二个字符串(例如英文字)的差异程度的量化量测，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串，编辑距离可以用在自然语言处理中，本实施例中可根据商品品牌文本信息的编辑距离和商品文本的最长字符数确定品牌文本相似度，品牌文本相似度阈值取0.9以上才认为是同一商品品牌；

下面以一个具体的例子进行说明，表1为一个商品文本信息样例

表1

将表1的商品文本信息样例根据品牌相似度划分为不同品牌的数据集，具体来说，如表2所示，有同一个品牌部分数据拼写错误，或使用不同表示形式；为便于文本语言的后期处理，统一转换为小写的文本信息，根据文本编辑距离，得到表2品牌相似度比较结果

表2

品牌相似度	logitech.	logitech	logi-tech	oppo	phillips	philips
							logitech.	1	0.94	0.91	0.15	0.24	0.25
logitech	0.94	1	0.94	0.17	0.25	0.27
							logi-tech	0.91	0.94	1	0.15	0.24	0.25
oppo	0.15	0.17	0.15	1	0.33	0.36
							phillips	0.24	0.25	0.24	0.33	1	0.93
philips	0.25	0.27	0.25	0.36	0.93	1

按照相似度为0.9以上的，视为同一品牌，上面表2中logi-tech与logitech.是0.94的相似度，视为同一品牌，而logi-tech与logitech是0.94相似度，与logitech.是0.91相似度，即得到的同一品牌为：

品牌1：{logitech.,Logitech,logi-tech}

品牌2：{oppo}

品牌3：{phillips,philips}

步骤S102，确定同一商品品牌的数据集中商品之间的同款关系，具体实现时是通过提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系，如下表3的实施例所示，A1、A2、A3为同一品牌的不同文本表述，本步骤中比较A1和A2以及A1和A3的商品文本信息可确定该同一品牌下的商品是否为同款关系，这里不再赘述；

表3

步骤S103，基于确定了上述同款关系的数据集训练神经网络得到同款商品预测模型，具体实现时，作为一个例子，可采用下述方式进行训练，即：

首先，在确定了同款关系的数据集中取出一对商品的商品文本信息输入神经网络；

神经网络将该对商品的商品文本信息处理为相应的数值向量，具体实现时，例如作为一个实施例，可采用Fasttext方法将商品文本信息处理为相应的数值向量，举例说，假设输入商品文本信息为(x_1,x_2),x_1、x_2分别代表商品1和商品2的英文文本信息,使用Fasttext方法将两组文本的每个单词(去除标点符号)用Fasttext方法处理成两组矩阵：M_1,M_2；其中M_1和M_2分别为L_1*d、L_2*d,L_1,L_2代表两组文本的单词个数，d＝300，使用fasttext提供的默认值，最终将商品文本信息处理为相应的数值向量；

需要说明的，从商品文本信息到向量，一般情况下，自然语言处理先将商品文本信息，比如一段英文的商品描述，先转换为小写字母，去除一些高频的但没有意义的停用词(比如is,a,the等)、去除标点符号，提取词干等一系列常用的文本预处理，将句子转换为一个个单词；转换为单词后，最终的目标是将句子转换为计算机可以用来计算的数值，来代表某个单词；本实施例采用的做法是，使用公开的基于fasttext训练好的模型文件wiki.en.bin，它基于大量的英语文稿训练，是学术界惯用的文件，可以将它形象地看成一本大字典，需要哪个单词的向量，就在该文件中查找到，一般每个单词对应一个d＝300的向量，文件中不包含的单词，使用模型指定的默认向量；也就是先会经过如下步骤：

文本句子→多个单词→在fasttext预训练模型文件中查找→单词对应的向量(每个单词300维)→多个单词对应的向量

经过上面的步骤，可以把一段文本转换为多个单词对应的多个向量；其中，不同商品的单词往往有差异、有不同的单词，且单词长短有的也存在差异，这个时候，采用词嵌入(word embedding)的方法，把两段不同长度的文本转换成单词一一对应的向量；

一般会按如下的方式，得到一个非常稀疏的数值矩阵，来代表一段文本的特征；矩阵的行，对应每个单词，矩阵每行是d＝300的行向量(也就是说句子列是300)，像下表4所示，如果商品A没有m331这个单词，那么A转换为向量时，m331这个单词对应的矩阵行位置是全为0的行向量；一般单词列表成千上万长度，如果单词列表为2万，商品A的文本转换为20000x300的数值矩阵；其他商品文本类似，经过词嵌入的操作后，得到矩阵大小一致的数值矩阵，来表示该商品文本对应的数值特征；

表4.不同商品在同样单词顺序下的词嵌入操作(0表示0向量)

也就是经过如下过程将商品文本信息处理成对应的数值向量矩阵：

文本句子→多个单词→在fasttext预训练模型文件中查找→单词对应的向量(每个单词300维)→多个单词对应的向量→词嵌入获得商品(数值)矩阵特征。

训练神经网络将该对商品的数值向量进行对比判断确定是否为同款，直到确定了同款关系的数据集中所有数据输入神经网络训练完成后得到同款商品预测模型；

需要说明的，上述实施例中应用的神经网络是由很多节点构成的，这些节点又叫做人工神经元(或神经元)，作为一个例子，一种神经网络结构如图2所示，X1～Xn是输入信号，Wij表示表示从神经元j到神经元i的连接权值，θ表示一个阈值(threshold)，或称为偏置(bias)，神经元i的输出与输入的关系表示为：

Yi＝f(neti)yi＝f(neti)

Yi表示神经元i的输出，函数f称为激活函数(Activation Function)或转移函数(Transfer Function)，net称为净激活(net activation)

神经网络最重要的功能是分类，本实施例中神经网络的输入是两个商品文本信息，经过处理后转换为两个数值向量，神经网络对两个数值向量进行比较，输出一个0-1之间的分类数值，取分类阈值为0.5，则输出的分类数值大于0.5时，可认为输入的两个商品为同款商品，小于0.5则认为输入的两个商品为非同款商品，为了训练神经网络，首先需要收集一些样本，人为标记上正确分类结果，然后用这些标记好的数据训练神经网络得到分类预测模型(本实施例中即同款商品预测模型)，前述确定了同款关系的数据集即是样本，并标记了正确分类结果(即确定了是否同款关系)，训练好的神经网络即可按照分类预测模型对新的数值向量进行比较，确定是否为同款关系，需要说明的，将商品文本信息转换为同样长度、同样大小规模的矩阵后，就可以应用数学的方法来比较；一个最简单的比较方法是直接比较两个矩阵的值在某个距离(比如欧式距离)定义下是否比较接近(距离小)；但这样只有在两个文本的单词尽量一致的情况下才会有比较高的相似，显然这样的情况太特殊，应用场景比较少，本实施例中采用递归神经网络(RNN)的方法，通过打标构建的样本中，即已将样本转换为包含是/否同款，可以用作监督学习；将这些样本数据，也即每次两个商品文本信息，即两个20000x300维，先送到RNN神经网络中，输出两个300维向量；再对输出连接多层神经网络，最后一层是输入300维向量，输出为0-1之间的概率值；这里采用sigmoid激活函数，可以得到一个0-1的输出值x，判断是否同款阈值为0.5，当x>0.5时分类确定为同款。

如图3所示，最开始，神经网络的每层权重是随机初始化，经过层层神经网络计算，相应输出值x也比较随机，因为是随机初始化，模型还不具备表达预测能力，相当于乱猜，所以分类同款/非同款的错误率很高，模型的目标是降低错误率；神经网络训练使用梯度反向传播的方法，在损失函数的约束下，每次训练朝着降低总体错误率的方向，更新迭代神经网络每层的参数，也就是说，随着不停的迭代训练，更新神经网络的参数，会慢慢地使得分类误差率变低，直到误差降低到一定水平，将训练集中的样本训练完成；这时候，模型具备较高的分类准确度，训练好的同款商品预测模型，在测试集上也能表现出稳定的分类准确度，模型就可以应用在将来的样本外的数据的预测上。比如，第k次模型的参数下，总体误分类率为0.25；下一次迭代(k+1次)前，更新参数：计算最后一层的梯度方向，沿梯度负方向更新最后一层参数，方向传播到倒数第二层，沿梯度负方向更新该层参数，再反向传播、更新参数，直到第一层，当所有参数更新了一遍，第k+1次迭代(训练)，再沿第一层向最后一层，计算误分类率，重复这样的训练过程直到误分类率维持较低的稳定水平。

步骤S104，将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果。

需要说明的，上述实施例中确定了同款关系的数据集可分为训练集、验证集和测试集，例如表5所示的例子，训练集的数据集大小为43049，验证集的数据集大小为14350，测试集的数据集大小为86099

表5

数据集	同款	非同款	数据集大小
				训练集	1500	41549	43049
验证集	416	13889	14350
				测试集	2906	83193	86099

本实施例中通过训练集训练神经网络得到同款商品预测模型，通过验证集对训练好的神经网络同款商品预测模型进行验证，通过测试集对训练好的神经网络同款商品预测模型进行测试，这里不再赘述。

上述实施例中，通过编辑距离和品牌文本相似度，将同款比较转化为同商品品牌数据集的小规模计算，可降低计算量，便于同款商品预测模型的训练，另外，同款商品预测模型基于商品文本信息建立，可通过机器自动实现同款商品的判断，且均衡了商品文本信息的不完整、商品文本信息错误、抓取同商品品牌不同型号的文本差异，可广泛应用于电商平台进行同款商品检测。

参考图4，该图是本发明检测同款商品的装置的具体实施例组成框图，主要包括如下模块：同品牌处理模块1、同款关系处理模块2、训练处理模块3和预测处理模块4，具体来说

同品牌处理模块1，本实施例中同品牌处理模块1将用于训练的原始商品文本信息按照商品品牌分为不同的数据集，具体实现时，参考图5，作为一个优选实施例，同品牌处理模块1可包括：

提取模块11，用于提取原始商品文本信息中商品品牌字段的文本信息；

同一品牌商品确定模块12，用于确定商品的品牌文本相似度阈值，根据提取的各商品品牌字段的文本信息计算编辑距离以及品牌最长字符数计算该商品的品牌文本相似度，若超过上述商品的品牌文本相似度阈值，则确定为同一商品品牌；

存储模块13，用于将同一商品品牌的商品文本信息集中到同一个数据集存储。

同款关系处理模块2，本实施例中同款关系处理模块2用于确定同一商品品牌的数据集中商品之间的同款关系，具体实现时，作为一个例子，同款关系处理模块2确定同一商品品牌的数据集中商品之间的同款关系可以采用提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系，这里不再赘述；

训练处理模块3，本实施例中训练处理模块3用于基于确定了同款关系的数据集训练神经网络得到同款商品预测模型，需要说明的，确定了同款关系的数据集可分为训练集、验证集和测试集；所述训练处理模块3可通过训练集训练神经网络得到同款商品预测模型，通过验证集对训练好的神经网络同款商品预测模型进行验证，通过测试集对训练好的神经网络同款商品预测模型进行测试。

具体实现时，参考图6，作为一个优选实施例，训练处理模块3可包括：

输入处理模块31，用于在确定了同款关系的数据集取出一对商品的商品文本信息输入神经网络；

数值向量处理模块32，用于神经网络将所述商品文本信息处理为两个数值向量；

判断处理模块33，用于训练神经网络将两个数值向量进行对比判断确定是否为同款，直到确定了同款关系的数据集中所有数据输入神经网络训练完成后得到同款商品预测模型。

预测处理模块4，本实施例中预测处理模块用于将待检测同款关系的每对商品的商品文本信息输入训练好的神经网络，训练好的神经网络按照所述同款商品预测模型进行预测，输出该对商品是否为同款商品的预测结果，例如，利用一对商品文本信息(商品x的文本信息，需要对比的商品y的文本信息)，通过神经网络来预测商品x和商品y是否是同款，这里不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种检测同款商品的方法，其特征在于，包括如下步骤：

确定同一商品品牌的数据集中商品之间的同款关系；

2.根据权利要求1所述的方法，其特征在于，将用于训练的原始商品文本信息按照商品品牌分为不同的数据集具体包括：

提取原始商品文本信息中商品品牌字段的文本信息；

将同一商品品牌的商品文本信息集中到同一个数据集存储。

3.根据权利要求1所述的方法，其特征在于，确定同一商品品牌的数据集中商品之间的同款关系是提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系。

4.根据权利要求1所述的方法，其特征在于，基于确定了同款关系的数据集训练神经网络得到同款商品预测模型具体包括：

5.根据权利要求4所述的方法，其特征在于，确定了同款关系的数据集分为训练集、验证集和测试集，通过训练集训练神经网络得到同款商品预测模型，通过验证集对训练好的神经网络同款商品预测模型进行验证，通过测试集对训练好的神经网络同款商品预测模型进行测试。

6.一种检测同款商品的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，同品牌处理模块具体包括：

8.根据权利要求6所述的装置，其特征在于，同款关系处理模块确定同一商品品牌的数据集中商品之间的同款关系是提取同一商品品牌的数据集中各个商品的商品标题、商品描述、型号、规格字段的文本信息进行比较确定是否为同款关系。

9.根据权利要求6所述的装置，其特征在于，训练处理模块具体包括：

10.根据权利要求6所述的装置，其特征在于，确定了同款关系的数据集分为训练集、验证集和测试集；