CN104778186A

CN104778186A - 将商品对象挂载到标准产品单元的方法及系统

Info

Publication number: CN104778186A
Application number: CN201410019036.4A
Authority: CN
Inventors: 陈俊波; 陈春明; 王力; 庞昂博; 蔡维佳
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-01-15
Filing date: 2014-01-15
Publication date: 2015-07-15
Anticipated expiration: 2034-01-15
Also published as: HK1207452A1; CN104778186B

Abstract

本申请公开了将商品对象挂载到标准产品单元的方法及系统，其中，所述方法包括：对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型；获取第一训练数据，生成SPU聚类中心；获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心；将各个商品对象分别表示为<商品对象，目标SPU聚类中心>二元组，并分别进行特征提取，将二元组分别表示为特征向量；获取标注信息，得到第二训练数据；建立回归模型；将商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，以便向相关应用提供挂载结果。通过本申请，能更准确地将商品对象自动挂载到SPU上。

Description

将商品对象挂载到标准产品单元的方法及系统

技术领域

本申请涉及商品对象信息分析技术领域，特别是涉及将商品对象挂载到标准产品单元的方法及系统。

背景技术

在一个电子商务网站中，存在大量的交易信息，其中包括卖家出售的商品对象的描述信息。这些商品对象的描述信息一般是卖家在发布商品对象是通过枚举输入产生的。在实际应用中，出于获得更高的搜索命中率等目的，卖家在发布商品对象时，在对商品对象的名称进行描述时，除了最基本的商品名、型号等信息之外，往往还会添加进一些属性信息到名称中。例如，某商品对象是一款iPhone5S手机，但是卖家可能会将其名称描述为：“苹果iPhone5S16G内存800W像素”，另外一卖家可能会将其名称描述为：“假一赔命Apple/苹果iPhone5S代手机16G32G国际无锁正品包邮”，等等。这就会出现以下情况：许多不同的卖家会出售本质上相同的商品对象，但是对商品对象名称的具体描述却千差万别。

另一方面，电子商务网站可以采用标准产品单元（Standard Product Unit，SPU）来描述本质上相同的商品。SPU是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品最本质的特性。例如，在前述手机的例子中，对应的SPU就可以描述为“苹果/iPhone5S16G”，等等。在实际应用中，往往会具有将商品对象映射到标准产品单元SPU的需求。将商品对象映射到SPU后的应用有很多。例如：通过观察同一SPU下不同商品的价格分布，识别电子商务中的假货问题；通过分析相同SPU商品的交易，可以得到电子商务领域中商品的供应链关系；通过识别相同SPU的商品，可以改进搜索结果的用户体验；等等。但是，如何将商品映射到SPU，是电子商务领域的基础性难题。

现有技术对于商品挂载到SPU的处理方式为，让卖家自行填写商品的各种属性以及属性值，当商品的关键属性的属性值与SPU的关键属性的属性值完全匹配时，将商品挂载到该SPU上。

可见，现有技术中的实现方式中，挂载结果的准确性在很大程度上依赖于用户手动输入的属性及属性值的准确性。但是，由于电子商务领域的属性与属性值的可能取值太过庞大，以至于卖家填写的过程非常复杂，而且在这种复杂的过程中，卖家往往会由于各种原因，发生漏填、错填或者填写不规范内容的情况。在这种情况下，商品就无法正常的挂载到正确的SPU上，这不但会降低商品发布效率，而且会浪费网络资源。

因此，如何更准确地将商品对象自动挂载到正确的SPU上，是迫切需要本领域技术人员解决的技术问题。

发明内容

本申请提供了将商品对象挂载到标准产品单元的方法及系统，能够更准确地将商品对象自动挂载到正确的SPU上。

本申请提供了如下方案：

一种将商品对象挂载到标准产品单元的方法，包括：

对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词，权重，类型>三元组组成的三元组向量进行描述；其中，类型包括品牌词、产品词、属性词或普通词；

获取第一训练数据，其中，各个SPU下预先挂载有预置数目的商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

基于各个商品对象以及SPU聚类中心的三元组向量，获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心；

将各个商品对象分别表示为<商品对象，目标SPU聚类中心>二元组，并针对各个二元组，分别进行特征提取，将二元组分别表示为特征向量；

针对预置数目的二元组，获取标注信息，得到第二训练数据，所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心；

根据第二训练数据中的各个特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型；

将待预测的商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，并将待预测的商品对象挂载到所述的SPU下，以便向相关应用提供挂载结果。

一种将商品对象挂载到标准产品单元的系统，包括：

文本处理单元，用于对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词，权重，类型>三元组组成的三元组向量进行描述；其中，类型包括品牌词、产品词、属性词或普通词；

聚类单元，用于获取第一训练数据，其中，各个SPU下预先挂载有预置数目的商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

近似对象识别单元，用于基于各个商品对象以及SPU聚类中心的三元组向量，获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心；

特征提取单元，用于将各个商品对象分别表示为<商品对象，目标SPU聚类中心>二元组，并针对各个二元组，分别进行特征提取，将二元组分别表示为特征向量；

训练数据获取单元，用于针对预置数目的二元组，获取标注信息，得到第二训练数据，所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心；

回归模型建立单元，用于根据第二训练数据中的各个特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型；

预测单元，用于将待预测的商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，并将待预测的商品对象挂载到所述的SPU下，以便向相关应用提供挂载结果。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，为SPU识别问题特别设计了文本挖掘方法，在该方法中，首先将商品对象以及SPU的文本描述信息用一个或多个<分词，权重，类型>三元组组成的向量来表示，并根据已经正确挂载到SPU下的部分商品对象进行聚类，得到SPU聚类中心，这样，可以提供丰富的语义信息；之后，为了降低计算量，还可以首先针对各个商品对象，计算出与商品对象距离比较仅的部分目标SPU聚类中心，再基于部分训练数据中的商品对象与目标SPU聚类中心组成的二元组进行模型的训练，利用训练出的模型对商品对象进行预测。这样可以将各个商品对象挂载到对应的SPU上，并且由于语义信息比较丰富，可以得到较高的准确性。

其次，本申请实施例还提供了TF,IDF，Cosine距离，扩展Jaccard距离等各种距离度量指标。通过上述方法，提供丰富的信息帮助最终的决策判断。另外，为了自动给商品对象推荐SPU，需要计算每个商品对象与SPU之间的COSINE相似性。本申请实施例通过COSINE相似性与扩展Jaccard距离之间的关联关系，用扩展Jaccard LSH的方式替代了传统的COSINE LSH方式，提高了系统的性能。最后，本申请实施例采用数据驱动的方式能有效识别各种常见的关联关系模式，识别良好的决策边界，有效提高自动推荐系统的准确率。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图；

图2是本申请实施例提供的方法中的通用CRF模型示意图；

图3是本申请实施例中的异构网络图模型示意图；

图4是本申请实施例中优化后的CRF网络图模型示意图；

图5是本申请实施例中的回归模型对应的ROC曲线示意图；

图6是本申请实施例提供的系统的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，提供了基于机器学习方法的、数据驱动的、自动的标准产品单元（SPU）的推荐系统，在该系统中，假设已经有部分商品对象正确的挂载在SPU下，利用这部分数据进行模型的训练，之后再通过商品对象文本描述信息、SPU文本描述信息以及训练出的回归模型，来确定商品对象是否属于该SPU。为此，本申请实施例首先需要对商品对象以及SPU的文本描述信息进行预处理，将商品对象以及SPU均表示为<分词：权重：类型>三元组组成的三元组向量的形式；之后，为了避免SPU文本描述中的规范词汇无法覆盖到相同语义的其他文本描述，还可以对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，得到其质心所在的向量，称为SPU聚类中心；再然后，为了减小工作量，还可以针对各个商品对象，找出与其距离小于某阈值的目标SPU聚类中心，基于商品及其对应的这种目标SPU聚类中心，来确定需要将商品对象挂载到哪个SPU下。下面对具体的实现方式进行详细地介绍。

参见图1，本申请实施例首先提供了一种将商品对象挂载到标准产品单元的方法，该方法可以包括以下步骤：

S101：对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词：权重：类型>三元组组成的三元组向量进行描述；

在该步骤中，处理的对象是所有商品对象组成的第一集合A＝{a₁,a₂,…,a_N}，以及所有标准产品单元SPU组成的第二集合P＝{p₁,p₂,…,p_M}，其中，在所述第一集合以及第二集合中，每个元素对应一个文本字符串。商品对象和SPU的形式都是文本字符串a_i＝[a_i1,a_i2,…],p_j＝[p_j1,p_j2,…],其中a_ik和p_jk都是单个的字符。例如，一个典型的商品文本如下：“RIBECS伊贝诗正品珍珠润白保湿营养水100g美白补水柔润保湿”，其中，a_i1对应R，a_i2对应I，以此类推；一个典型的SPU文本如下：“HR/赫莲娜修护菁华霜（滋润型）”，其中，p_j1对应H，p_j2对应R，以此类推。

该步骤中，需要针对每一个商品对象和SPU的字符串进行文本处理，将商品对象和SPU转换为<分词，权重，类型>的三元组集合。商品对象可以形式化的表示为a_i＝{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_k:t_K}，SPU可以形式化的表示为p＝{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_k:t_K}。其中，w_i为一个单词，s_i是该单词的权重，t_i为该单词的类型。其中，所有类型的可能取值类型包括品牌词、产品词、属性词或普通词中的部分或全部类型。

具体实现时，该步骤分为以下三个子步骤：

a）对商品对象以及SPU的文本描述信息分别进行分词。

可以存在一个分词器。分词器将一串连续的文本分割为一个个的单词。例如，“HR/赫莲娜修护菁华霜（滋润型）”经过分词器的处理，被切割为“HR_/_赫莲娜_修护_菁华霜_(_滋润型_)”。其中“_”为分隔标示。

其中，中文分词算法有很多种，例如CDWS，n-gram，隐马尔可夫模型，CRF（Conditional Random Field）等等。在本申请实施例中，可以采用CRF作为中文分词算法。

b）计算各个分词的权重。

具体的，可以通过计算TF/IDF算法来实现。其中，TF/IDF算法就是计算每一个单词在当前文本中的重要程度。TF衡量当前单词出现在当前文档中的频率，频率越高，表示该单词对于当前文档越重要。IDF衡量当前单词的概念的宽泛程度，若该单词的概念越宽泛，则表示该单词对于当前文档越不重要。形式化的,TF和IDF可以表示为：

{TF}_{ij} = \frac{f_{ij}}{\max_{k} f_{ik}} - - - (1)

其中，f_ij定义为单词j出现在商品/SPU文本i总的频率。

IDF_j＝log₂(N/n_j) （2）

其中，N定义为商品/SPU的总数，n_j定义为包含单词j的商品/SPU的总数。

c）实体词类型识别

商品对象文本和SPU文本中，不同的词有不同的权重，在本申请实施例中，可以将所有可能出现的词分为四种不同的类型：品牌词、产品词、属性词、普通词。采用这四种不同种类的方式是因为，在SPU自动推荐的应用中，这四种实体词在绝大部分情况下，已经足够描述一个具体的SPU。例如，“RIBECS伊贝诗正品珍珠润白保湿营养水100g美白补水柔润保湿”，其中，“RIBECS”，“伊贝诗”是品牌词，“保湿营养水”是产品词，“珍珠润白”，“美白补水”，“柔润保湿”是属性词，其余的是普通词。

具体实现时，为了进行实体词类型的挖掘，可以使用通用的CRF模型来实现。但通用CRF模型却无法处理电子商务中实体词固有的歧义性问题。例如，在电子产品的上下文中，“苹果”这个文本是一个品牌词；但在水果的上下文中，“苹果”这个文本是一个产品词。又例如，“HR”在化妆品的上下文中，是一个品牌词（的缩写）；但在教育的上下文中，“HR”这个文本又是一个普通词。如何有效的识别上述歧义性是SPU自动推荐的一个核心问题之一。

为此，在本申请实施例中可以采用如下三个步骤来实现：

首先，利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息对应的初步切分序列，其中，在初步切分序列中，各条文本描述信息被切分为一个或多个实体词，并确定出各个实体词所属的类型；

然后，根据各个初步切分序列中包含的实体词，建立异构网络图模型，在异构网络图模型中，将所述实体词作为节点，将实体词在同一文本描述信息中的共现关系映射为节点之间的边，两个实体之间的条件概率作为边的权重；

最后，将通用的CRF模型与异构网络图模型集成，得到优化的CRF模型，利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息最终的切分序列。

下面首先介绍利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分的过程。

CRF模型是一种基于无向图的判别式模型，如图2所示，其中，是观测序列。是切分序列。它是一种用来标记和切分序列化数据的统计模型。该模型在给定观测序列的条件下，计算标记序列的联合后验概率。形式化的定义切分序列的联合后验概率为：

p (\overset{&RightArrow;}{y} | \overset{&RightArrow;}{x}) = \frac{1}{z (\overset{&RightArrow;}{x})} \exp (Σ_{i} Σ_{j} λ_{j} f_{j} (y_{i - 1}, y_{i}, \overset{&RightArrow;}{x}, i)) - - - (3)

其中，为归一化因子，为第j个特征，λ_j为待学习的参数。

具体实现时，首先需要有一组训练数据，在这组训练数据中，每个观测序列已经按照正确的方式得到了对应的切分序列。其中，所谓的观测序列是指商品对象/SPU原始的文本描述信息，例如，某商品对象的文本描述信息为“苹果iPhone5S16G内存800W像素”，则观测序列中的X1对应“苹果”，X2对应“iPhone”，X3对应“5S”，X4对应“16G”，以此类推，也即在该例子中：

其中，T=7。

对应的切分序列就是将“苹果”确定为品牌词，“iPhone5S”确定为产品词，“16G内存”以及“800W像素”确定为属性词；同时，可以预先分别为各个类型定义一个值，例如“1”代表品牌词，“2”代表产品词，“3”代表属性词，“4”代表普通词，则该例子中：

\overset{&RightArrow;}{Y} = {1,2,2,3,3,3,3},

其中，T=7。

每一条训练数据都包含观测序列以及对应切分序列，为了进行CRF模型的训练，首先需要从各条训练数据中进行特征提取。在本申请实施例中，提取的特征可以包括以下特征中的一个或者多个：

<1>位置信息

所谓位置信息也就是切分序列中的元素在切分序列中的位置信息。也即，对于序列其中的元素Y_i在该序列中的位置，在下角标i代表元素在序列中的顺序编号的情况下，i的取值就可以代表该元素Y_i在该序列中的位置信息。

<2>上下文信息

上下文信息，也就是切分序列中的元素在切分序列中的上下文关系信息。例如，对于序列其中的元素Y_i在该序列中的上一个相邻元素Y_i-1，和/或下一个相邻元素Y_i+1。之所以提取上下文信息，是因为上下文信息能够从一定程度上体现出当前实体词属于什么类型。

<3>词性信息

所谓的词性信息，也就是切分序列中的元素所对应的实体词属于什么词性的，例如名词、形容词等。之所以提取词性信息，是因为词性信息也能够从一定程度上体现出实体词的类型，例如，如果是名词，则属于品牌词或者产品词的概率会比较高，如果是形容词、数词等，则属于属性词的概率会比较高，等等。

<4>语言类型信息

语言类型也就是中文、英文、数字等。例如，如果某实体词是英文+数字的组合，则属于产品词的概率会比较高。

<5>特殊词汇信息

有些类型的词在进行描述时，可能会进行特殊的标记。例如，在说明产品的容量等信息时，往往用括号括起来，则，如果某实体词用括号括起来，则属于属性词的概率比较高。

在实际应用中，上述各个特征可以全部提取出来，或者也可以提取其中的部分特征。

对于训练数据而言，在按照上述方式进行了特征提取之后，就可以带入到公式（3）的模型中进行训练。针对每一个特征f_j，在训练得到对应的参数λ_j之后，训练过程结束。

之后就可以将各个商品对象/SPU的文本描述信息表示为观测序列的形式，针对同一个商品对象/SPU的观测序列，按照各种可能的切分方式进行切分得到多个切分序列，分别对各个切分序列按照前述方式进行特征提取之后，带入到训练出的模型中进行计算概率值，最后概率值最高的切分序列就可以确定为该商品对象/SPU对应的初步切分序列。

也就是说，对于一个商品对象对应的观测序列而言，可以对应切分出多个切分序列，按照上述CRF模型分别计算各个切分序列对应的概率值，其中概率最高的就可以作为该商品对象的初步切分序列。并且，如果上述CRF模型足够好，则输入一个商品对象对应的观测序列，例如，之后，输出的就是正确的切分序列，例如，,

\overset{&RightArrow;}{Y} = {1,2,2,3,3,3,3} .

当然，如前文所述，在使用上述通用的CRF模型进行实体词类型的挖掘时，可能会由于实体词存在歧义，导致最终的类型识别结果不是足够准确。例如，上述例子中的“苹果”可能会被识别成一个产品词，使得模型输出的结果变为：

\overset{&RightArrow;}{Y} = {2, 2,2,3,3,3,3}

显然这是不正确的。因此，在本申请实施例中，还可以通过异构网络图模型对通用CRF模型进行优化。具体的，将利用通用CRF模型得到的结果组织成异构网络图模型的形式。具体来说，将其中的每一个实体映射为一个节点，将实体之间的共现关系映射为节点之间的边。这里，可以只关心三种类型的实体词：品牌词、产品词、属性词。不同的实体用不同类型的节点来表示。边的权重为两个实体之间的条件概率。例如，图3中，b_i=“苹果（品牌）”到d_j=“手机（产品）”的边的权重为，P(d_j|b_i)，即出现b_i的前提下，d_j发生的概率。

在得到该异构网络图模型之后，就可以将通用的CRF模型与异构网络图模型集成，得到优化的CRF模型。如图4所示，在一种具体的实现方式下，优化后的CRF模型可以是：

p (\overset{&RightArrow;}{y} | \overset{&RightArrow;}{x}) = \frac{1}{z (\overset{&RightArrow;}{x})} \exp (Σ_{i} Σ_{j} λ_{j} f_{j} (y_{i - 1}, y_{i}, \overset{&RightArrow;}{x}, i) + Σ_{i} Σ_{k} γ_{k} g_{k} (y_{i}, G)) - - - (4)

其中，G为异构网络图的子图，由当前观测序列在通用的CRF模型下得到的所有可能的实体的节点组成。γ_k是待学习的参数，g_k(y_i,G)是当前节点y_i在异构网络图G中的特征。公式（4）中的前半部分与公式（3）是完全相同的参数λ_j的取值仍然可以使用之前训练得到的结果。这样，在使用公式（4）进行训练时，需要获取到一组γ_k的取值。

具体实现时，可以从通用CRF模型的训练结果中选取一组预测正确的结果，作为训练数据，并分别从子图G中提取以下特征：

<1>切分出的实体词在所述子图中的入度;

<2>实体词在入边上的最大权重值;

<3>实体词在入边上的平均权重值;

<4>在子图中，与实体词类型相同的节点个数。

在上述四个特征全部被提取出的情况下，需要训练得到四个γ_k的取值，四个γ_k的取值全部获取到之后，训练结束。

之后，就可以使用公式（4）进行实体词类型的识别。具体的，对于各个商品对象/SPU对应的观测序列，首先按照通用CRF模型中所述的各个特征进行特征提取，同时按照其对应的子图进行特征提取，然后，将提取出的各个特征输入到公式（4）对应的模型中，即可输出对应的切分序列。该切分序列的准确度相对应通用的CRF模型输入的切分序列，会得到较大的提高。

在得到各个商品对象/SPU对应的切分序列之后，就可以结合之前的分词结果以及权重获取结果，生成各个商品对象/SPU对应的三元组向量。需要说明的是，利用分词器对文本描述信息进行分词时，会将文本描述信息划分成一个个的词语，而前述的切分序列中，利用分词器的结果作为输入，输出的是更大粒度的结果，同时还获取到了各个实体词的类型信息。例如分词器的输出为“苹果”，“iPhone”，“5S”，这三个词就成为切分序列的输入，而切分序列算法的输出为“苹果”（品牌），“iPhone5S”（产品）。在本申请实施例中，具体实现时，最终生成的三元组时，其中的词语是以分词器的分词结果为准，相应的，计算权重时，也是按照分词器的分词结果计算各个词语的权重。在确定词语的类型时，再利用实体词类型识别过程中的结果。例如，前述例子中，分词器将文本描述信息切分为“苹果”、“iPhone”、“5S”这三个词之后，在确定各自的类型信息时，根据实体词类型识别的结果，将“苹果”确定为品牌词，将“iPhone”确定为产品词，将“5S”也确定为产品词。

总之，通过上述各个步骤，将商品对象转换为如下格式a_i＝{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_k:t_K}，SPU转换为如下格式p_j＝{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_k:t_K}。其中，w_i为一个单词，s_i是该单词的权重，t_i为该单词的类型。

S102：获取第一训练数据，其中，各个SPU下预先挂载有多个商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

通过步骤S101已经将各个商品对象以及SPU表示成三元组向量的形式，通过该步骤S102可以进一步对SPU的三元组向量进行优化，使得最终挂载结果的正确性得到进一步提高。

之所以要采用这种方式对SPU的三元组向量进行优化，是因为在电子商务服务系统中，往往已经有相当比例的商品对象已经由卖家挂载到SPU下。这些数据在现有技术的方法中没有被很好的利用。因为现有的方法通过人工制定规则的方式来进行SPU的识别。而人工制定规则中，可能并不能很好的反映各个分词的权重，或者很难覆盖同一语义的内容在表述上的千差万别。优选地，本申请实施例中通过聚合挂载在相同SPU下的商品对象，并进行挖掘与分析，可以使得SPU的三元组向量中的权重更准确的反应对应分词的重要程度，另外，也能很好的识别相同语义内容的不同文本描述。对于后者，SPU的文本描述中一般都是一些规范化的用语，但是在实际应用中对商品对象进行描述时，其他的一些没有写进SPU的文本信息，可能也能从很大程度上代表一个商品对象。例如，对于某款手机而言，SPU中可能仅写入了iPhone，但是实际上卖家用户可能更多的将其称为“苹果”等等。如果仅用SPU中的iPhone与商品对象进行比对，则对于一些没有将iPhone写入商品对象描述，而仅将“苹果”写入商品对象描述的商品对象，可能无法准确地挂载到该SPU下。

因此，在本申请实施例中，除了得到前述步骤S101中各个商品对象以及SPU对应的三元组向量之外，还可以获取一些训练数据，这些训练数据中，已经将一些商品对象正确的挂载到对应的SPU下。具体的，这种训练数据可以是一些卖家标注的。当然，为了提高训练数据的质量，可以首先从卖家中筛选出一些信用值较高的用户，将这些用户的标注信息作为训练数据。然后根据这些训练数据进行商品对象的聚合。

具体在进行商品对象的聚合时，可以将挂载在相同SPU下的商品对象聚合在一起，得到如下数据结构，其中，代表第j所在的聚类，该聚类表示为一个集合，其中的元素是第j个SPU p_j，以及所有挂载在该SPU下的商品对象a_ji。其中，p_j和a_ji都可以表示为{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_K:t_K}的形式。然后，根据属于同一个聚类的所有元素，计算其质心所在的向量。即，计算

\hat{p_{j}} = {w_{1} : s_{1} : t_{1}, w_{2} : s_{2} : t_{2}, . . ., w_{K} : s_{k} : t_{K}} .

其中w_1…K为所有可能单词的全集，由于每个商品对象/SPU中可能出现的单词数量有限，因此该向量是一个稀疏向量，即，该向量中权重值s_1…K的大部分取值都为0。记a_j0＝p_j，则有，

s (\hat{p_{j}}, w_{k}) = \frac{Σ_{i} s (a_{ji}, w_{k})}{T} - - - (5)

其中，表示中单词w_k的权重。

也就是说，针对SPU的三元组向量中包含的分词，根据挂载在该SPU下的各个商品对象分别对应的三元组，计算分词的平均权重，利用该平均权重替换该SPU对应的三元组中的权重信息。

例如，假设某SPU下挂载了100件商品对象，该SPU的三元组向量中包含“iPhone”一词，其权重初始值（也即在步骤S101中计算出的权重）是80。经统计，在该SPU下挂载的商品对象的三元组向量中，“iPhone”在产品词类型下出现的次数为90次，其中，在70件商品对象中，“iPhone”的权重为100，另外20件商品对象中，“iPhone”的权重为80，则可以计算出“iPhone”的平均权重为（70×100+21(因为spu中的iPhone一词也要参与计算)×80）/90=96.44。因此，就可以将该SPU下的三元组{iPhone,80，产品词}，修改为{iPhone,96.44，产品词}。也就是说，根据该SPU下挂载的各个商品对象的文本描述信息可以看出，iPhone对该SPU的重要程度要大于原有的“80”一值。

另外，针对SPU的三元组向量中未包含、但挂载在该SPU下的商品对象的三元组向量中包含的分词，可以根据挂载在该SPU下的各个商品对象分别对应的三元组，统计各分词在对应类型下出现的次数，以及平均权重，如果次数以及平均权重符合预置条件，则将该分词、平均权重以及对应的类型组成的三元组添加到该SPU的三元组向量中。

例如，假设某SPU下挂载了100件商品对象，该SPU的三元组向量中没有出现“苹果”一词，但是在该SPU下挂载的商品对象的三元组向量中，“苹果”在品牌词类型下出现的次数为80次，其中，在50件商品对象中，“苹果”的权重为100，另外30件商品对象中，“苹果”的权重为50，则可以计算出“苹果”的平均权重为（50×100+30×50）/80=81.25。假设预置的次数阈值为50次，平均权重的阈值为50，则该“苹果”一次符合条件，因此，就可以将{苹果,81.25，品牌词}这一三元组添加到该SPU的三元组向量中。

总之，通过该步骤S102可以将各个SPU表示为SPU聚类中心，在后续的步骤中，将会使用SPU聚类中心的三元组向量来代替步骤S101中计算得到的SPU的三元组向量。

S103：基于各个商品对象以及SPU聚类中心的三元组向量，获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心；

在得到SPU聚类中心的三元组向量之后，可以直接将各个商品对象以及各个SPU聚类中心分别进行比对，将与商品对象匹配度最高的SPU聚类中心对应的SPU，确定为该商品对象所属的SPU。也就是说，通过前述步骤S101以及S102的处理，可以得到一个商品对象的集合A＝{a₁,a₂,…,a_N}，以及一个SPU聚类中心的集合下一步需要的工作是计算任意给定的商品对象a_i和任意给定的SPU聚类中心之间的相关关系。由于商品对象通常只与少数的SPU聚类中心相似，而与绝大多数的SPU聚类中心没有关联。因此，用笛卡尔积的方式计算商品对象与SPU聚类中心得到的结果中，绝大多数都是无用的结果。另一方面，在电子商务系统中，商品对象的集合通常在千万-亿的规模，而SPU的规模通常在十万-百万甚至更大的规模。因此，用笛卡尔积的方式在性能上是不可接受的。

因此，在本申请实施例中，为了降低计算量，可以在计算商品对象与SPU聚类中心的相关关系之前，首先基于各个商品对象以及SPU聚类中心的三元组向量，获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心，之后再仅将各个商品对象与这种目标SPU聚类中心。

具体实现时，可以用LSH（Local Similarity Hash）算法为所有的SPU聚类中心编制索引。然后针对任意给定的商品对象a_i，通过查询LSH索引，得到规模很小的与给定商品对象a_i的距离处于给定阈值之内的SPU聚类中心的集合。可以将SPU聚类中心的LSH索引可以表示为一个函数，针对任意给定的商品a_i，LSH函数返回与该商品的距离小于一定阈值t的所有SPU聚类中心：在一个应用的实例中，本申请实施例可以选择扩展Jaccard距离作为距离的度量。通常通过LSH索引得到的SPU聚类中心的集合的规模是原始规模的两个数量级以下。其中，关于LSH索引以及扩展Jaccard距离的具体实现方式，可以参见已有技术中的实现，这里不再详述。

S104：将各个商品对象分别表示为<商品对象，目标SPU聚类中心>二元组，并针对各个二元组，分别进行特征提取，将二元组分别表示为特征向量；

通过前三个步骤的处理，可以得到一个商品的集合A＝{a₁,a₂,…,a_N}，一个SPU聚类中心的集合以及一个SPU聚类中心的LSH索引函数后续就可以进行商品对象与SPU之间的关联关系的预测。具体在进行这种关联关系的预测时，首先针对给定的任意商品a_i，用LSH函数计算与该商品的距离小于一定阈值t的所有SPU聚类中心：然后，针对每一对进行特征提取。之后，随机采样部分样本进行人工标注，并根据人工标注的数据训练回归模型。最后，用训练得到的模型预测商品对象与SPU之间的关联关系。

特征提取是以训练数据以及测试数据作为输入，训练数据和测试数据的格式为其中，a_i是商品，是聚类中心，都表示为{w₁:s₁:t₁,w₂:s₂:t₂,…,w_K:s_k:t_K}的形式。其中，训练数据中带有标注信息，例如，0表示a_i不属于1表示a_i属于

具体在进行特征提取时，提取的特征可以包括以下几种：

<1>二元组内的商品对象与目标SPU聚类中心之间的距离尺度特征;

距离尺度特征可以包括余弦（cosine）距离、Jaccard距离以及扩展Jaccard距离等多种距离值指标，通过多种距离值指标相结合，可以提供模型的准确度。

<2>二元组内的商品对象与目标SPU聚类中心之间的文本特征；

文本特征包括同时出现在商品对象以及目标SPU聚类中心中的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重。可以形式化的表示为：其中s(a_i,w_i)为一个函数，该函数返回商品a_i中单词w_i的权重。也就是说，如果某单词既出现在商品对象中，又出现在该商品对象对应的目标SPU聚类中心中，则可以根据该单词在该商品对象以及目标SPU聚类中心的权重，计算一个综合权重值。该共现的单词以及综合权重可以作为二元组内的商品对象与目标SPU聚类中心之间的文本特征。

<3>二元组内的商品对象与目标SPU聚类中心之间的实体特征。

实体特征包括同时出现在商品对象以及目标SPU聚类中心中、且类型相同的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重。

也即，与文本特征不同的是，单词不仅需要在二元组内的商品对象以及目标SPU聚类中心中共现，还需要类型相同，将这种单词提取出来，计算其综合权重，将这种单词、对应的类型以及综合权重，作为二元组内的商品对象与目标SPU聚类中心之间的实体特征。可以形式化的表示为：给定特定的实体类型t，实体特征的计算为

S105：针对预置数目的二元组，获取标注信息，得到第二训练数据，所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心；

如步骤S104中所述，针对各个商品对象以及对应的目标SPU聚类中心组成的二元组，除了需要进行特征提取，得到特征向量，还需要对其中一部分样本进行标注，将标注的样本作为训练数据，来进行回归模型的训练。

当然，对于按照S103中提取出的特征，特征数量可能会比较多，为了提高训练过程的效率以及准确性，还可以对提取出的特征进行选择，从中选择出信息含量比较高的特征，带入到后续的模型能够训练过程中。

其中，距离尺度特征为连续变量，文本特征与实体特征为离散特征。针对不同的特征种类，选择不同的特征选择方法。针对连续性特征，用随机森林(Random Forest)算法进行特征选择。随机森林算法的优点是能较好的计算特征权重，缺点是性能较差。由于连续性特征的数量不多，因此可以用采用随机森林算法进行特征筛选。针对离散特征，由于特征的数量太庞大，用随机森林的方式并不适合，因此，可以采用卡方检验的方式来进行特征选择。

S106：根据第二训练数据中的各个特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型；

通过特征提取和特征选择，可以将训练数据表示为特征向量的形式，针对每一条训练数据F_i，都有一个标注结果t_i∈{0,1}。需要拟合一个回归模型，使得该回归模型的预测结果与标注结果的误差最小。通常可以采用均方误差作为衡量回归模型优劣的指标：

在一个应用的实例中，采用了逻辑回归(Logistic Regression)作为回归模型：

p (y | F_{i}) = \frac{1}{1 + \exp (- θ^{T} \cdot F_{i})} - - - (7)

其中，F_i是给定的特征向量，θ^T是待拟合的参数，p(y|F_i)是回归值。训练过程通过标注数据，以极大似然估计的方式确定θ^T的取值，得到回归模型，并可以保存为文件的形式。

S107：将待预测的商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，并将待预测的商品对象挂载到所述的SPU下，以便向相关应用提供挂载结果。

通过特征提取，可以将待预测的数据表示成特征向量的形式，进而将这种特征向量带入到公式（7）所示的回归模型中，进行概率计算。这样，对于同一个待预测的商品对象而言，如果与其距离小于阈值的目标SPU聚类中心的数量为n个，就可以计算得到n个概率值，选择其中一个概率值超过一定阈值且概率最高的结果，就可以确定为该商品对象所属的SPU。

需要说明的是，在上述预测的过程中，用不同的阈值（阈值是指逻辑回归公式7中计算得到的条件概率）进行预测时，在标注的测试数据上会得到不同的准确率(Precision)/召回率(Recall)。完成回归算法模型拟合之后，在测试集合上针对该模型计算对应的ROC（Receiver Operating Characteristic）曲线。在一个实例中，得到的ROC曲线如图5所示。

具体实现时，针对每一条输入的数据，用训练阶段得到的回归模型进行预测，得到回归值，并用回归值作为SPU识别的标准。可以根据业务对于Precision/Recall的要求，在ROC曲线中取合适的阈值来判断给定的商品是否属于给定的SPU。例如，在假货的识别业务中，对准确率的要求非常高，那么可以设定一个较高的条件概率阈值，优先保证SPU下挂商品的准确率。在搜索用户体验改善的业务中，对召回率的要求比较高，那么可以设定一个较低的条件概率阈值，优先保证SPU下挂商品的召回率。

总之，在本申请实施例中，为SPU识别问题特别设计了文本挖掘方法，在该方法中，首先将商品对象以及SPU的文本描述信息用一个或多个<分词，权重，类型>三元组组成的向量来表示，并根据已经正确挂载到SPU下的部分商品对象进行聚类，得到SPU聚类中心，这样，可以提供丰富的语义信息；之后，为了降低计算量，还可以首先针对各个商品对象，计算出与商品对象距离比较仅的部分目标SPU聚类中心，再基于部分训练数据中的商品对象与目标SPU聚类中心组成的二元组进行模型的训练，利用训练出的模型对商品对象进行预测。这样可以将各个商品对象挂载到对应的SPU上，并且由于语义信息比较丰富，可以得到较高的准确性。

与本申请实施例提供的将商品对象挂载到标准产品单元的方法相对应，本申请实施例还提供了一种将商品对象挂载到标准产品单元的系统，参见图6，该系统可以包括：

文本处理单元601，用于对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词，权重，类型>三元组组成的三元组向量进行描述；

其中，类型包括品牌词、产品词、属性词或普通词中的部分或全部类型；

聚类单元602，用于获取第一训练数据，其中，各个SPU下预先挂载有预置数目的商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

近似对象识别单元603，用于基于各个商品对象以及SPU聚类中心的三元组向量，获取与商品对象的距离小于预置阈值的所有目标SPU聚类中心；

特征提取单元604，用于将各个商品对象分别表示为<商品对象，目标SPU聚类中心>二元组，并针对各个二元组，分别进行特征提取，将二元组分别表示为特征向量；

训练数据获取单元605，用于针对预置数目的二元组，获取标注信息，得到第二训练数据，所述标注信息用于表示商品对象是否属于对应的目标SPU聚类中心；

回归模型建立单元606，用于根据第二训练数据中的各个特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型；

预测单元607，用于将待预测的商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，并将待预测的商品对象挂载到所述的SPU下，以便向相关应用提供挂载结果。

其中，所述文本处理单元601具体可以包括：

初步切分单元，用于利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息对应的初步切分序列，其中，在初步切分序列中，各条文本描述信息被切分为一个或多个实体词，并确定出各个实体词所属的类型；

异构网络图建立单元，用于根据各个初步切分序列中包含的实体词，建立异构网络图模型，在所述异构网络图模型中，将所述实体词作为节点，将实体词在同一文本描述信息中的共现关系映射为节点之间的边，两个实体之间的条件概率作为边的权重；

优化单元，用于将所述通用的CRF模型与所述异构网络图模型集成，得到优化的CRF模型，利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息对应的切分序列。

其中，所述通用的CRF模型中，提取的特征包括切分序列中的元素在切分序列中的位置信息、上下文信息、词性信息、语言类型信息和/或特殊词汇信息。

在将所述通用的CRF模型与所述异构网络图模型集成时，根据同一文本描述信息中切分出的实体词，从异构网络图中提取子图，提取的特征包括切分出的实体词在所述子图中的入度、实体词在入边上的最大权重值、实体词在入边上的平均权重值和/或在子图中，与实体词类型相同的节点个数。

在具体实现时，聚类单元602具体可以用于：

针对SPU的三元组向量中包含的分词，根据挂载在该SPU下的各个商品对象分别对应的三元组，计算分词的平均权重，利用该平均权重替换该SPU对应的三元组中的权重信息。

另外，聚类单元602具体还可以用于：

针对SPU的三元组向量中未包含、但挂载在该SPU下的商品对象的三元组向量中包含的分词，根据挂载在该SPU下的各个商品对象分别对应的三元组，统计各分词在对应类型下出现的次数，以及平均权重，如果所述次数以及平均权重符合预置条件，则将该分词、平均权重以及对应的类型组成的三元组添加到该SPU的三元组向量中。

从二元组中提取的特征包括：二元组内的商品对象与目标SPU聚类中心之间的距离尺度特征、文本特征和/或实体特征；其中，所述距离尺度特征包括余弦距离、Jaccard距离以及扩展Jaccard距离；所述文本特征包括同时出现在商品对象以及目标SPU聚类中心中的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重；所述实体特征包括同时出现在商品对象以及目标SPU聚类中心中、且类型相同的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重。

回归模型建立单元606具体可以包括：

特征选择单元，用于从提取出的特征中选择信息含量符合预置条件的特征，组成二元组的特征向量；

建立单元，用于根据提取出的各个二元组的特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请实施例所提供的将商品对象挂载到标准产品单元的方法及系统，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种将商品对象挂载到标准产品单元的方法，其特征在于，包括：

对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词，权重，类型>三元组组成的三元组向量进行描述；

获取第一训练数据，其中，各个SPU下预先挂载有多个商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

将待预测的商品对象的特征向量输入到所述回归模型中，根据预测结果确定待预测的商品对象所属的SPU，并将待预测的商品对象挂载到所述的SPU下。

2.根据权利要求1所述的方法，其特征在于，所述获取各个分词所属的类型，包括：

利用通用的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息对应的初步切分序列，其中，在初步切分序列中，各条文本描述信息被切分为一个或多个实体词，并确定出各个实体词所属的类型；

根据各个初步切分序列中包含的实体词，建立异构网络图模型，在所述异构网络图模型中，将所述实体词作为节点，将实体词在同一文本描述信息中的共现关系映射为节点之间的边，两个实体之间的条件概率作为边的权重；

将所述通用的CRF模型与所述异构网络图模型集成，得到优化的CRF模型，利用优化的CRF模型对各个商品对象以及SPU的文本描述信息进行切分，得到各个文本描述信息对应的切分序列。

3.根据权利要求2所述的方法，其特征在于，所述通用的CRF模型中，提取的特征包括切分序列中的元素在切分序列中的位置信息、上下文信息、词性信息、语言类型信息和/或特殊词汇信息。

4.根据权利要求2所述的方法，其特征在于，将所述通用的CRF模型与所述异构网络图模型集成时，根据同一文本描述信息中切分出的实体词，从异构网络图中提取子图，提取的特征包括切分出的实体词在所述子图中的入度、实体词在入边上的最大权重值、实体词在入边上的平均权重值和/或在子图中，与实体词类型相同的节点个数。

5.根据权利要求1所述的方法，其特征在于，所述对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，包括：

6.根据权利要求1所述的方法，其特征在于，所述对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，包括：

7.根据权利要求1所述的方法，其特征在于，从二元组中提取的特征包括：二元组内的商品对象与目标SPU聚类中心之间的距离尺度特征、文本特征和/或实体特征；其中，所述距离尺度特征包括余弦距离、Jaccard距离以及扩展Jaccard距离；所述文本特征包括同时出现在商品对象以及目标SPU聚类中心中的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重；所述实体特征包括同时出现在商品对象以及目标SPU聚类中心中、且类型相同的分词，以及根据该分词分别在商品对象以及目标SPU聚类中心中的权重获得的综合权重。

8.根据权利要求1所述的方法，其特征在于，所述根据第二训练数据中的各个特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型，包括：

从提取出的特征中选择信息含量符合预置条件的特征，组成二元组的特征向量；

根据提取出的各个二元组的特征向量以及所述标注信息，对预置的回归模型中的参数进行拟合，建立回归模型。

9.一种将商品对象挂载到标准产品单元的系统，其特征在于，包括：

文本处理单元，用于对商品对象以及标准产品单元SPU的文本描述信息分别进行分词，并计算各个分词在对应文本描述信息中的权重，获取各个分词所属的类型，以便将各个商品对象以及SPU分别用一个或多个<分词，权重，类型>三元组组成的三元组向量进行描述；

聚类单元，用于获取第一训练数据，其中，各个SPU下预先挂载有多个商品对象；对挂载在同一SPU下的各个商品对象分别对应的三元组进行聚类，生成SPU聚类中心；

10.根据权利要求9所述的系统，其特征在于，所述文本处理单元包括：