CN107122980B

CN107122980B - 识别商品所属类目的方法和装置

Info

Publication number: CN107122980B
Application number: CN201611050920.XA
Authority: CN
Inventors: 王俞霖
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-01-25
Filing date: 2011-01-25
Publication date: 2021-08-27
Anticipated expiration: 2031-01-25
Also published as: US20130304687A1; JP5864614B2; JP2016066376A; EP2668590A1; JP2014507716A; WO2012102898A1; CN107122980A; JP6109290B2; US20140297577A1; CN102609422A; TW201232301A; EP2668590A4; US8812420B2; TWI519976B; US9104968B2

Abstract

本申请提供类目错放识别方法和装置。所提供的一种类目错放识别方法包括步骤：获取商品标题中各个词在当前类目下的词频；根据各个词在当前类目下的词频，计算所述商品标题的综合词频；以及将所述综合词频与当前类目的第一阈值相比较，根据比较结果确定是否存在类目错放。利用本申请，能够准确识别出类目错放，减少类目错放识别的遗漏概率，所需的系统资源要求低，从而可以节省系统资源，提高运算效率。

Description

识别商品所属类目的方法和装置

本申请是发明名称为“类目错放识别方法和装置”、申请号为201110026733.9、申请日为2011年1月25日的中国申请的分案申请。

技术领域

本申请涉及数据处理领域，尤其涉及一种识别商品所属类目的方法和装置。

背景技术

随着电子商务的发展，开网店和网购在网民中越来越普遍。网上交易系统提供一个网上交易平台，其按照类目对网店的商品进行管理。每个大的类目可以划分成更细的子类目，形成一颗类目树。网购商品不断增多，类目树也不断增长，随之产生一个问题，开网店的卖家会无意或者故意将所卖的商品放在错误的类目下，这被称为类目错放。

类目错放会导致搜索结果不准确，并造成系统存储、计算资源的浪费，而且对用户造成不好的体验。例如，用户通过点击类目树，查看类目A的商品，却看到了类目B的商品，并且也会对卖家造成损失，例如放到错误的类目下的商品可能会被忽略掉。如果能够识别出类目错放的商品，将其改正，则可以消除上述负面影响，提高系统的存储和计算资源的利用率，给买家和卖家带来更好的服务。

对商品类目错放进行识别的一种方法是，通过点击字典进行类目错放识别。其中，点击字典由多条记录组成，每条记录中标明在用户的一个查询的搜索结果中，用户点击到某个类目的概率。通过记录用户的查询和点击行为，能够得到对于一个查询，用户点击的商品的分布。当判断一个商品是否属于类目错放的时候，将该商品的标题进行分词，将标题分词后的每个词当作一个查询，在点击字典里查找该查询的类目分布，如果查找到原来标注的类目，就认为不是类目错放，否则认为类目错放。

用上述的方法，在对海量数据(如千万、上亿级商品数据)进行错放识别时遗漏情况严重，只能识别并召回几万的类目错放的数据。一个原因是点击字典数据量庞大且分布具有稀疏性，大部分类目错放的商品没有被点击字典中的查询覆盖到。另一个原因是，这种方式运算量大，且运算过程复杂，对系统资源要求高，计算时间长。

因此，上述方法不能满足互联网行业快速响应的业务需求。如何提供一种类目错放识别技术，以减少类目错放的遗漏，降低类目错放识别对系统资源要求，提高系统的存储和计算资源的利用率，是本申请所需要解决的技术问题。

发明内容

本申请的目的在于，提供一种识别商品所属类目的方法和装置，以减少类目错放识别的遗漏概率，降低类目错放识别对系统资源要求，节省系统资源，提高运算效率。

为了实现上述目的，本申请的一个方案提供了一种识别商品所属类目的方法，包括如下步骤：

将商品标题分成词的集合，获取商品标题中各个词在当前类目下的词频，所述词频为词在类目下的概率值；

根据各个词在当前类目下的词频，确定商品标题与当前类目的匹配程度；

根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目。

本申请的再一个方案提供了一种识别商品所属类目的装置，包括：

词频获取模块，用于将商品标题分成词的集合，获取商品标题中各个词在当前类目下的词频，所述词频为词在类目下的概率值；

类目识别模块，用于根据各个词在当前类目下的词频，确定商品标题与当前类目的匹配程度，根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目。

本申请提供的方法和装置，能够通过将商品标题的综合词频与当前类目的第一阈值相比较来识别商品所属类目；此外，由于TOP值能够反映商品标题与类目的匹配程度，所以根据TOP值确定的商品标题与类目的综合相关度值也就能够反映商品标题与类目的匹配程度，根据商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果来识别商品所属类目；通过设置第二阈值，可以减少类目错放识别的遗漏概率，例如，如果第二阈值设置较低，即可以识别出大多数类目错放。另外，本申请提供的方法中，主要涉及到TOP值的获取和综合相关度值的获取，获取这两个值的运算与现有技术相比，所需的系统资源要求低，从而可以节省系统资源，提高运算效率。

通过以下参照附图对优选实施例的说明，本申请的上述以及其它目的、特征和优点将更加明显。

附图说明

图1示例性示出本申请实施例一的类目错放识别方法的流程图；

图2示例性示出本申请实施例二的类目错放识别方法的流程图；

图3示例性示出本申请实施例三的类目错放识别方法的流程图；

图4示例性示出本申请实施例四的类目错放识别方法的流程图；

图5示例性示出本申请实施例五的类目错放识别装置的框图；

图6示例性示出本申请实施例六的类目错放识别装置的框图；

图7示例性示出本申请实施例七的类目错放识别装置的框图；

图8示例性示出本申请实施例八的类目错放确定模块的框图；

图9示例性示出本申请实施例九的类目错放确定模块的框图；以及

图10示例性示出本申请TOP值获取模块的框图。

具体实施方式

下面将详细描述本申请的实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本申请。

商品是按照类目存放的，每个商品都有一个标题，作为对这件商品的描述。类目和标题是商品的两个最基本的属性。

标题一般是一个短语，可以通过分词将标题分成词的集合。标题和词的关系可以用如下公式(1)来表示：

T＝t₁t₂…t_n (1)

上述公式(1)中，T表示标题，标题T是由许多词t(包括t₁,t₂,…,t_n，其中n为正整数)构成。

另外，在本申请的实施例中，还需要统计一个类目下商品的数量。具体地，根据预先设置的规则，一件商品能够且只能放在唯一的类目下，因此所有类目下商品的数量之和等于所有商品的数量。一个类目下的商品数量能够体现出该类目出现的频率。

为了识别类目错放，可以首先检测商品标题和该商品标题所在的当前类目是否匹配。也就是说，给定一个类目，对于不同的商品标题，可以首先度量每个商品标题与当前类目的匹配程度。

下面详细介绍本申请的实施例。

实施例一

图1示例性示出本申请类目错放识别方法实施例一的流程图，该实施例包括：

步骤101、获取商品标题中各个词在当前类目下的词频。

提供一包括多个类目的数据库，该数据库中每个类目下包括至少一词以及每个词在该类目下的词频；其中，词频为词在各类目下的概率值。一般而言，一个词在不同类目下的词频是不同的。下面结合实例来具体说明“词频”的概念。

一个商品标题由一个词或多个词构成，而每个词在不同的类目下出现的频率是不同的。比如“耐克”会在“运动鞋”和“运动服”等运动产品类目下的商品标题中大量出现，而“诺基亚”在“手机”类目下的商品标题中大量出现。相反地，“耐克”在“手机”类目下的商品标题中很少出现，“诺基亚”在“运动鞋”类目下的商品标题中很少出现。可见，同样的词在不同的类目下的词频是不同的，可利用这种不同对类目进行区分。

根据本申请的实施例，可以统计所有的词在所有类目下的词频。具体地，对于给定词t和类目C，可以得到词频TF_t,C，TF_t,C表示词t在类目C下出现的概率，即P(t|C)。根据一个类目下所有商品标题中词的数量，可以将该词频TF_t,C归一化为(0,1)之间的一个数值。t和C进行不同组合，可以得到多个词频。

在实际应用中，对于市场上出现的商品标题中存在的各种词，都能够得到其在不同类目下的词频，以建立在一个数据库中。该数据库可以存储在如ROM、RAM等各种存储装置中。

步骤102、根据各个词在当前类目下的词频，计算所述商品标题的综合词频；

该步骤中，可根据已经取得的各个词在当前类目下的词频，通过累加等方式计算所述商品标题的综合词频，或者，还可根据所述商品标题中各个顺序、是否重复等信息，为各个词设定权重值，根据各个词的权重值和词频，通过加权计算所述商品标题的综合词频。本申请实施例中对此不作限定。

步骤103、将所述综合词频与当前类目的第一阈值相比较，根据比较结果确定是否存在类目错放。

其中，所述第一阈值可根据所述数据库中每个类目下包括的词以及每个词在该类目下的词频进行设定。所述综合词频越低，表明该商品标题的商品分类在当前类目下的可能性越低，当低于设定的所述第一阈值时，可以认为存在类目错放。

其中，所述第一阈值在不同的类目下可以是不同的。也就是说，根据商品标题中的词在不同类目下的词频的分布特点，可在不同的类目下预先设置不同的第一阈值，以建立第一阈值数据库。该第一阈值数据库可以与所述包括多个类目的数据库合并为一个数据库，也可以是两个独立的数据库，并可以存储在相应的存储装置中。

举例而言，假设在“运动鞋”这一类目下的第一阈值可以设为0.6，而在“手机”这一类目下的第一阈值可以设为3。并假设“耐克慢跑鞋”在“运动鞋”类目下得到的综合词频为1.5，在“手机”类目下得到的综合词频为0.2。由于“耐克慢跑鞋”在“运动鞋”类目下得到的综合词频为1.5大于该类目下的第一阈值0.6，这表明分类在该类目下的可能性较高。而“耐克慢跑鞋”在“手机”类目下得到的综合词频为0.2，远小于该类目下的第一阈值3，这表明分类在该类目下的可能性非常小。

此外，在进行词频统计时，有些词在各个类目下都大量出现，比如“冲钻”、“优惠”、“热卖”等词，“【】”等符号的修饰词，以及“的”、“也”等助词，这些词称为停用词。由于停用词在所有类目下的商品标题中出现的频率波动不大，对于区分商品所属的类目帮助不大，如果对这些停用词也进行词频统计，不但会浪费计算资源，有时甚至会出现反作用。例如A类目下的商品标题中大量出现某个停用词x，在B类目下的商品标题中如果偶尔出现x，则这商品有被放到A类目下的可能。

为了减少停用词对于类目识别的影响，优选地，可以预先设置一个停用词表，根据这个停用词表可以将商品标题中的停用词剔除掉，从而有助于减少运算量，降低误判率。

下面介绍确定停用词的方法。

根据停用词的定义，一个词的词频在多个类目下分布越均匀，这个词成为停用词的可能性越高。可以根据每个词在所有类目下的分布熵来确定这个词是否是停用词，停用词的确定可采用多种方案，以下列举一实例进行说明，需要说明的是，该实例不构成对本申请中停用词确定方式的限定。

具体地，可以根据如下公式(2)计算一个词在所有类目下的分布熵：

上述公式(2)中，Ent(t)表示词t在所有类目下的分布熵，P(t|C_i)为词t在类目C_i下的词频，n为正整数。

计算出所有词的分布熵后，将各个词按照分布熵从大到小的顺序排列。根据各个词的排列，确定一个阈值。分布熵高于阈值的词确定为停用词，列入到停用词表中。根据本申请的一个实施例，该阈值可以根据数据处理的实际需要来确定。

在本申请的实施例一以及后续的类目错放识别的各个实施例中，可以将停用词过滤掉，从而减少运算量，降低误判率，提高数据处理的速度。

实施例二

图2示例性示出本申请类目错放识别方法实施例二的流程图，该实施例包括：

步骤201、获取商品标题中各个词在当前类目下的TOP值；

本实施例中，提供一包括多个类目的数据库，该数据库中每个类目下包括至少一词以及每个词在该类目下的TOP值。

在本实施例中，采用了TOP值。一个词在一个类目下的TOP值为该类目下，词频比该词高的所有词的词频之和。例如，类目C下词频从高到低的3个词依次是t₁，t₂和t₃，这三个词对应的词频分别为p₁，p₂和p₃，对应于t₁，t₂，t₃这3个词的TOP值分别为0，p₁，p₁+p₂。TOP值反映出一个商品标题中的词和一个类目的匹配程度，通过TOP值可以简化类目错放识别复杂度。在上面的例子中，t₁的词频p₁最高，其TOP值为0；t₃的词频p₃最低，其TOP值为p₁+p₂。也就是说，商品标题中的词在某一类目下的TOP值越低，则该商品标题中的该词在该类目下的匹配程度越高；反之，在某一类目下的TOP值越高，则该商品标题中的该词在该类目下的匹配程度越低。

在计算每个类目下的各商品标题中的每个词在该类目下的TOP值时，同样可以首先过滤掉停用词，即不计算停用词的TOP值，以使TOP值更能反映出一个商品标题中的词和一个类目的匹配程度。

具体地，在该步骤201中，对于某一个商品标题，为了识别该商品标题是否放在错误的类目下，可以首先获取该商品标题中的各个词在该商品标题的当前类目下的TOP值。该商品标题中的各个词可以是通过分词的方式获得。

步骤202、根据预先确定的TOP值与相关度值的映射关系，获取各个词的TOP值对应的相关度值，并将各个词的TOP值对应的相关度值相加，获取商品标题的综合相关度值。

表一示例性示出了本申请实施例中TOP值与相关度值的映射关系。

表一

表一中的相关度值体现了某一个TOP值对应的类目与词的相关程度。在获取到各个词的TOP值以后，通过表一就可以获取各个词对应的相关度值。

由于TOP值中概率值是数值非常小的多位数字，如果直接以TOP值相加，其计算量大，并且计算出的结果差别小，不能很好地反映出商品标题在对应类目相关程度的高低。因此，本申请实施例中，通过TOP值与相关度值的关系表，将TOP值对应的相关度值根据TOP值的分布状况进行量化，以简化TOP值的计算，这不但可以降低计算的复杂度，而且可以更好地反映出商品标题在对应类目的相关程度。

表一中TOP值与相关度值的映射关系可以根据数据处理的实际需求来设置，表一中只是给出一个示例性的例子，TOP值与相关度值的映射关系不限于表一所示。

在获取各个词的TOP值对应的相关度值后，将各个词的TOP值对应的相关度值相加，即可得到商品标题与当前类目的综合相关度值。具体地，可以如公式(3)所示：

上述公式(3)，RR(T,C)为商品标题T与类目C的综合相关度值，TOP(t_i,C)为商品标题T中的词t_i在类目C下的TOP值，F_TR为将每个词的TOP值映射到相关度值的映射函数，n为正整数。

例如，对于一个商品标题T，其包括三个词t₁、t₂和t₃,，这三个词在类目C下的TOP值分别为TOP(t₁,C)、TOP(t₂,C)和TOP(t₃,C)，根据表一，可以分别查找到这三个TOP值对应的相关度值，例如，查找到这三个TOP值对应的相关度值分别是10、5和1，将这三个相关度值相加，得到商品标题T与类目C的综合相关度值为10+5+1＝16。

步骤203、将所述商品标题在当前类目下的综合相关度值与第二阈值相比，根据比较结果确定是否存在类目错放。

具体地，如果商品标题在当前类目下的综合相关度值低于第二阈值，则说明商品标题与当前类目的相关性较低，可以认为存在类目错放。如果商品标题在当前类目下的综合相关度值大于或等于该第二阈值，则说明商品标题在当前类目下的综合相关度值可以达到要求，可以认为不存在类目错放。

其中，所述第二阈值可根据商品标题的综合相关度值分布状况进行设定。待分类的商品的商品标题的综合相关度值越低，表明分类在当前类目下的可能性越低，当低于设定的第二阈值时，可以认为存在类目错放。例如，当第二阈值被设置为20时，上述商品标题T与类目C的综合相关度值为16，小于第二阈值20，可以认为商品标题T对应的商品在该商品类目C下存在类目错放。

所述第二阈值在不同的类目下可以是不同的。也就是说，对于同一个商品标题，可以根据实践中得到的数据在不同的类目下预先设置对应的第二阈值，以建立第二阈值数据库。该第二阈值数据库可以是一个单独的数据库，也可以是与所述包括多个类目的数据库合并，形成一个数据库，并存储在相应的存储装置中。

此外，也可以根据实际需要在同一类目下设置不同的第二阈值。如果第二阈值设置得较高，则被认为存在类目错放的概率比较大，可以提高召回率，即可以将确定为放到错误的类目下的商品召回，重新确定该商品应该放置的类目，这样可促使用户重新选择类目或者修改商品标题中的词，以提高搜索的准确率。

为了减少数据运算量，在步骤201中，具体可以是获取商品标题中除了停用词以外的各个词在当前类目下的TOP值。步骤201中获取商品标题中各个词在当前类目下的TOP值的步骤可以包括：确定商品标题中是否存在停用词；如果存在停用词，将商品标题的各个词中的停用词过滤掉；获取过滤掉停用词之后的各个词在当前类目下的TOP值。

本申请实施例二提供的技术方案中，由于TOP值能够反映商品标题与类目的匹配程度，所述综合相关度值是根据TOP值确定的，因此根据TOP值确定的商品标题与类目的综合相关度值能够反映商品标题与类目的匹配程度，根据商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果来确定是否存在类目错放，可以准确识别出类目错放；通过设置第二阈值，可以减少类目错放识别的遗漏概率。另外，在实施例二的方案中，主要涉及到TOP值的获取和综合相关度值的获取，获取这两个值的运算与现有技术相比，所需的系统资源要求低，从而可以节省系统资源，提高运算效率。

实施例三

实施例二提供的方法中，如果商品标题在当前类目下的综合相关度值低于第二阈值，则确定存在类目错放。然而，在有的情况下，商品标题在当前类目下的综合相关度值低于第二阈值的情况，也不一定就是类目错放。例如，如果第二阈值设置得过高，则有可能导致一些与当前类目的综合相关度值低于第二阈值的商品标题被认为放到了错误的类目下，而实际上该商品标题并没有错放。

为了进一步提高类目错放识别的准确度，本申请的实施例三中，当商品标题与当前类目的综合相关度值低于第二阈值时，确定存在类目错放后，优选地，还进一步包括类目预测步骤。

图3示例性示出本申请类目错放识别方法实施例三的流程图，包括：

步骤301、获取商品标题中各个词在当前类目下的TOP值；

步骤302、根据预先确定的TOP值与相关度值的映射关系，获取各个词的TOP值对应的相关度值，将各个词的TOP值对应的相关度值相加，获取商品标题与当前类目的综合相关度值；

步骤303将商品标题在当前类目下的综合相关度值与第二阈值相比，如果商品标题在当前类目下的综合相关度值小于第二阈值，确定存在商品放置异常，执行步骤304。如果商品标题在当前类目下的综合相关度值大于或等于第二阈值，则确定不存在商品放置异常；

步骤304获取该商品标题的推荐类目；

步骤305根据该商品标题和该商品标题的推荐类目，得到与商品标题匹配的目标类目；

步骤306获取商品标题在目标类目下的后验概率和商品标题在当前类目下的后验概率，并比较商品标题在目标类目下的后验概率和商品标题在当前类目下的后验概率，如果商品标题在目标类目下的后验概率与商品标题在当前类目下的后验概率之间的差值或比值大于第三阈值，则确定存在类目错放；否则，确定不存在类目错放。

在上述步骤303中，当确定存在商品放置异常时，说明当前类目可能不是最合适的类目。因此可以获取一些其他的类目，从而进一步确定该商品标题是否与其他的类目更加匹配。

在步骤304获取该商品标题的推荐类目中，获取与商品标题匹配的推荐类目时，可以比较商品标题与所有类目的匹配程度，从而获取与商品标题匹配的推荐类目。具体如何比较商品标题与类目的匹配程度，可以根据本领域的技术手段来实现，例如，可以根据商品标题中的词检索各类目，根据商品标题中的词与各类目的匹配结果，获得推荐类目，此处不再详细赘述。但是，上述通过比较商品标题与所有类目的匹配程度，从而获取与商品标题匹配的推荐类目的方法，相对来说，效率比较低，因为数据处理量很大。

根据本申请的一个实施例，优选地，提供一推荐类目数据库，该数据库中存储有商品标题中的各个词及与每个词对应的推荐类目。该推荐类目数据库可以是一个独立的数据库，也可以是与实施例二中的所述包括多个类目的数据库合并成一个数据库，即该数据库中每个类目下包括至少一词以及每个词在该类目下的TOP值以及每个词对应的推荐类目。每个词的推荐类目可以依据该词在不同类目中的出现概率确定，例如将出现该词概率高的至少一个类目作为该词的推荐类目。所述步骤304中，通过该推荐类目数据库获得商品标题中各个词的推荐类目。

所述步骤305中，具体可以包括：根据获取的商品标题中各个词对应的推荐类目，将各个词在对应的推荐类目下的词频作为推荐类目的权重，统计每个推荐类目的权重之和，将权重之和最大的推荐类目作为目标类目。

例如，如表二所示为本申请的实施例中推荐类目的一个示例，假设商品标题为“孔明灯”，即只具有一个词“孔明灯”，这个词的两个推荐类目分别是类目(类目编号：50014247)“居家日用/收纳/礼品>>婚庆用品服务区>>孔明灯/许愿灯”和类目(类目编号：50016031)“玩具/模型/娃娃/人偶>>中国传统玩具>>孔明灯”。“孔明灯”在类目“居家日用/收纳/礼品>>婚庆用品服务区>>孔明灯/许愿灯”下的词频为0.144263，即该推荐类目的权重为0.144263；“孔明灯”在类目“玩具/模型/娃娃/人偶>>中国传统玩具>>孔明灯”下的词频为0.139776，即该推荐类目的权重为0.139776。由于只有一个词，所以这两个推荐类目的权重之和分别为0.144263和0.139776。可以将推荐类目“居家日用/收纳/礼品>>婚庆用品服务区>>孔明灯/许愿灯”作为首选的目标类目，也可以将这两个类目均作为备选的目标类目。

表二

上述“孔明灯”是以一个商品标题具有一个词举例说明。下面以一个商品标题由多个词构成为例进行说明。

假设某一商品的商品标题为“蓝色纯棉衬衫”，对该商品标题进行分词后得到“蓝色”、“纯棉”和“衬衫”三个词。

从上述的推荐类目数据库中，可以得到这三个词各自对应的推荐类目。其中，每个词可以对应有多个不同的推荐类目，且在不同推荐类目下的推荐权重不同；依据推荐权重值从大到小的排序，可以选取出权重较大的几个类目。例如，对于每个词选取出其对应的权重较大的前三个类目，则在这些类目互不重复的情况下，三个词共对应九个类目。在这九个类目中，再通过比较这三个词在每个类目下的权重之和，选取出权重之和较大的前几个类目作为推荐类目。

例如，对于“蓝色纯棉衬衫”，经上述过程从推荐类目数据库中得到的前三个推荐类目为“童装/童鞋/孕妇装>>衬衫”、类目“男装>>衬衫”和类目“女装/女士精品>>衬衫”。如表三所示为商品标题“蓝色纯棉衬衫”推荐类目的示例。

表三

表三中，词“蓝色”在这三个推荐类目下的词频分别是：0.00351304、0.00271352和0.00186753，即这三个推荐类目在词“蓝色”下获得的权重分别是0.00351304、0.00271352和0.00186753。类似地，这三个推荐类目在词“纯棉”下获得的权重分别是：0.0149095、0.0148579和0.00693222。在词“衬衫”下获得的权重分别是0.0974684、0.129388和0.0905442。

推荐类目“童装/童鞋/孕妇装>>衬衫”的权重之和为0.00351304+0.0149095+0.0974684＝0.11589094；推荐类目“男装>>衬衫”的权重和为0.00271352+0.0148579+0.129388＝0.14695942；推荐类目“女装/女士精品>>衬衫”的权重和为0.00186753+0.00693222+0.0905442＝0.09934395。其中，权重之和最大的是“男装>>衬衫”，因此可以将类目“男装>>衬衫”作为首选的目标类目，也可以将这三个类目均作为备选的目标类目。

根据上述实例，步骤305中是通过计算各个推荐类目的权重之和来获取目标类目。在另一个实例中，可以将各个词在商品标题中出现的概率组成一个标题向量，将每个词在某个类目下的词频组成一个类目向量，通过计算标题向量和类目向量的乘积，确定目标类目。

具体地，步骤305可以包括：获取预测类目的标题向量和类目向量，标题向量中的元素为商品标题中各个词在该商品标题中出现的概率，类目向量中的元素为商品标题中各个词在该预测类目下的词频；对于每个预测类目，获取标题向量和类目向量的乘积，选择乘积最大的预测类目作为目标类目。

在本申请的实施例中，预测类目是指供选择的候选类目。

下面通过一个具体的例子来说明如何获取目标类目。

例如，商品标题“米奇MP3四代眨眼睛米奇(2G)多色可选”经过分词后可以得到“米奇”、“MP3”、“四代”、“眨眼睛”、“米奇”、“2G”、“多色”和“可选”，一共8个词，“米奇”在该商品标题中出现的概率为0.25，其它词的概率为0.125，则该商品标题的标题向量可以表示为：

[0.25_米奇 0.125_MP3 0.125_四代 0.125_眨眼睛 0.125_2G 0.125_多色 0.125_可选]。

其中，0.25_米奇表示“米奇”在商品标题中出现的概率，即在八个词组成的商品标题中出现了两次，其他的各个元素的含义类似。

另外，每个类目下的词有不同的词频，这样每个类目也可以表示为类目向量的形式，上述商品标题对于类目C的类目向量可以表示为：

[TF_米奇,C TF_MP3,C TF_四代,C TF_眨眼睛,C TF_2G,C TF_多色,C TF_可选,C]。

其中，TF_米奇,C表示“米奇”在类目C下的词频。其他各个元素的含义类似。

对于类目C，标题向量和类目向量的乘积为：

[0.25_米奇 0.125_MP3 0.125_四代 0.125_眨眼睛 0.125_2G 0.125_多色 0.125_可选]x

[TF_米奇,C TF_MP3,C TF_四代,C TF_眨眼睛,C TF_2G,C TF_多色,C TF_可选,C]

＝0.25_米奇x TF_米奇,C+0.125_MP3x TF_MP3,C+0.125_四代x TF_四代,C+0.125_眨眼睛x TF_眨眼睛,C+0.125_2G x TF_2G,C+0.125_多色x TF_多色,C+0.125_可选x TF_可选,C

依据上述方法可以计算出各个预测类目的类目向量与标题向量的乘积，将乘积值最大的预测类目作为目标类目。

在该实施例中，假设任意词在任意类目下都有大于0的词频。而事实上并非如此。如果一个词t在一个类目C下没有出现过，那么该词在该类目下的概率P(t|C)为0，这样含有t的商品标题T属于该类目C的后验概率P(t|C)也为0，为平滑处理这种情况，根据本申请的一个优选实施例，如果需要计算P(t|C)，而词t在类目C下从来都没有出现过，则可以认为该词在该类目下只出现过一次，这种情况可用如下的公式来表示词t_i在类目C下的词频：

上述公式(6)中，t_i为类目C下出现过的所有词，#t_i为t_i在类目C下出现的次数，n为正整数。

由于一个类目下所有词的总数很大，对一个没出现的词增加一个计数，不会影响结果的准确性。

该实例提供的方法中，在计算某个词在某个类目下的词频时，对于一个词在一个类目下没有出现的情况，可以认为该词在该类目下只出现过一次，以提高类目错放识别的全面性。

在步骤306中，商品标题在类目下的后验概率可以通过如公式(4)所示的贝叶斯公式获得：

上述公式中，P(C|T)为类商品标题T在类目C下的后验概率，P(C)为类目C下所有商品的数量，P(T)为常量，对于任意的类目C，P(T)都一样。

假设商品标题中的各个词服从独立分布，则公式(4)可以简化为：

公式(5)中，P(t_i|C)表示词t_i在类目C下的后验概率。

根据公式(5)，只要知道一个词在一个类目下的词频以及每个类目下商品的数量，就可以计算出商品标题在一个类目下的后验概率。

其中，第三阈值的取值可以根据数据处理的实际需要来确定。第三阈值的数据库可以存储在相应的存储装置中。较佳地，第三阈值的取值可以大一些，使得P(C_new|T)远大于P(C_old|T)，这样就能够更准确地保证目标类目更匹配该商品标题，提高类目错放识别的准确性。

实施例三中步骤301和302分别与实施例二中的步骤201和202类似，此处不再赘述。

本申请实施例三提供的技术方案中，如果商品标题与当前类目的综合相关度值小于第二阈值，则确定存在商品放置异常，在获取目标类目后，比较商品标题在目标类目下的后验概率和商品标题在当前类目下的后验概率，进一步确定是否存在比当前类目更合适的类目。这不但能够更加准确地识别是否存在类目错放，而且还能够为错放的商品标题的商品提供更恰当的目标类目。

实施例四

在实施例三中，通过比较商品标题在当前类目下的后验概率和商品标题在目标类目下的后验概率来确定是否存在类目错放。也可以通过将商品标题在当前类目下的综合相关度与商品标题在目标类目下的综合相关度相比较来确定是否存在类目错放。

图4示例性示出本申请类目错放识别方法实施例四的流程图。

其中，步骤401-405与实施例三中对应的步骤301-305类似，此处不再赘述。下面描述本实施例与实施例三的不同之处。

步骤406获取商品标题在目标类目下的综合相关度值，比较商品标题在目标类目下的综合相关度值与商品标题在当前类目下的综合相关度值。如果商品标题在目标类目下的综合相关度值与商品标题在当前类目下的综合相关度值之间的差值或比值大于第四阈值，则确定存在类目错放。否则，确定不存在类目错放，结束。

步骤406中，通过比较商品标题在目标类目下的综合相关度值与商品标题在当前类目下的综合相关度值，可以确定目标类目是否更匹配商品标题。第四阈值可以根据数据处理的实际情况确定，第四阈值的数据库可以存储在相应的存储装置中。较佳地，第四阈值可以取较大的值，使得商品标题在目标类目下的综合相关度值远大于商品标题在当前类目下的综合相关度值，这样就能够更准确地保证目标类目与当前类目相比，更匹配商品标题，提高类目错放识别的准确性。

商品标题在目标类目下的综合相关度值，和商品标题在当前类目下的综合相关度值，可以根据实施例二中介绍的商品标题在类目下的综合相关度值的获取方法来获取和计算，此处不再赘述。

本申请实施例四提供的技术方案中，如果商品标题在当前类目下的综合相关度值小于第二阈值，则确定存在商品放置异常，在获取目标类目后，比较商品标题在目标类目下的综合相关度值与商品标题在当前类目下的综合相关度值，进一步确定是否存在比当前类目更合适的类目，从而确定是否类目错放。通过两次判断，可以更加准确地识别是否存在类目错放，减少类目错放识别的遗漏概率。另外，实施例四的技术方案中，主要涉及到TOP值的获取、综合相关度值的获取以及比较商品标题在目标类目下的综合相关度值与商品标题在当前类目下的综合相关度值的步骤，与现有技术相比，其对系统资源要求低，从而可以节省系统资源，提高运算效率。

本申请的类目错放识别方法可用计算机等硬件执行计算机可执行程序来实现。

根据本申请的一个实施例，可以使用C++语言，在分布式机群环境下来实现上述类目错放识别方法。其中，所述分布式机群环境就硬件架构而言，例如有工作站集群(COW)、大规模并行处理机(MPP)、对称多处理机(SMP)、分布式异构计算集群(典型是GRID)等等，在此不予赘述。

下面描述根据本申请执行上述方法的类目错放识别装置的实例。

实施例五

图5示例性示出本申请类目错放识别装置500的框图，该装置是识别商品所属类目装置的一个实施例。

本实施例的类目错放识别装置500其与实施例一提供的方法相对应，包括：词频获取模块501、综合词频计算模块502以及类目错放确定模块503。其中，所述综合词频计算模块502与所述词频获取模块501相连接，所述类目错放确定模块503与所述综合词频计算模块502相连接，其中：

所述词频获取模块501，用于获取商品标题中各个词在当前类目下的词频；

所述综合词频计算模块502，用于根据所述词频获取模块501获取的各个词在当前类目下的词频，计算所述商品标题的综合词频；

所述类目错放确定模块503，用于将所述综合词频计算模块502计算得到的综合词频与当前类目的第一阈值相比较，根据比较结果确定是否存在类目错放。这里的综合词频计算模块和类目错误确定模块可以统称为类目识别模块。

实施例六

图6示例性示出本申请类目错放识别装置600的框图。

本实施例的类目错放识别装置600其与实施例一提供的方法相对应，包括词频获取模块601、综合词频计算模块602以及类目错放确定模块603，其与实施例五相同，在此不予赘述。本实施例与实施例五的不同之处在于，还包括与所述词频获取模块601相连接的停用词过滤模块604，用于在所述词频获取模块601获取商品标题中各个词在当前类目下的词频之前，将所述商品标题的各个词中的停用词进行过滤。

实施例七

图7示例性示出本申请类目错放识别装置700的框图。

本实施例的类目错放识别装置700其与实施例二提供的方法相对应，包括TOP值获取模块701、综合相关度值获取模块702以及类目错放确定模块703。其中，所述综合相关度值获取模块702与TOP值获取模块701相连接，所述类目错放确定模块703与所述综合相关度值获取模块702相连接，这里的TOP值获取模块、综合相关度值获取模块和类目错误确定模块可以统称为类目识别模块，其中：

所述TOP值获取模块701，用于获取商品标题中各个词在当前类目下的TOP值；词在当前类目下的TOP值为当前类目下，词频比该词高的所有词的词频之和。

所述综合相关度值获取模块702，用于根据预先确定的TOP值与相关度值的映射关系，获取所述TOP值获取模块701得到的各个词的TOP值对应的相关度值，并将各个词的TOP值对应的相关度值相加，获取商品标题在当前类目下的综合相关度值。

所述类目错放确定模块703，用于将所述综合相关度值获取模块702获取的所述商品标题在当前类目下的综合相关度值与第二阈值相比，根据比较结果确定是否存在类目错放。

其中，所述类目错放确定模块703将所述商品标题在当前类目下的综合相关度值与第二阈值相比，如果所述商品标题在当前类目下的综合相关度值小于第二阈值，则确定存在类目错放；如果所述商品标题在当前类目下的综合相关度值大于或等于第二阈值，则确定不存在类目错放。

实施例八

图8示例性示出根据实施例八的类目错放确定模块的框图。

本实施例的类目错放识别装置其与实施例三提供的方法相对应，包括的TOP值获取模块701、综合相关度值获取模块702，其与实施例七相同，此处不予赘述。本实施例与实施例七的不同之处在于，本实施例的类目错放确定模块703包括商品放置异常确定单元801、目标类目获取单元802、后验概率获取单元803以及类目错放确定单元804，其中，所述目标类目获取单元802与所述商品放置异常确定单元801相连接，所述后验概率获取单元803与所述目标类目获取单元802相连接，所述类目错放确定单元804与所述后验证概率获取单元803相连接。

所述商品放置异常确定单元801，用于将所述商品标题在当前类目下的综合相关度值与第二阈值相比，如果所述商品标题在当前类目下的综合相关度值小于第二阈值，则确定存在商品放置异常。

所述目标类目获取单元802，用于在所述商品放置异常确定单元801确定存在商品放置异常的情况下，获取该商品标题的推荐类目，再根据该商品标题和该商品标题的推荐类目，得到与所述商品标题匹配的目标类目。

所述后验概率比较单元803，用于获取商品标题在目标类目下的后验概率和商品标题在当前类目下的后验概率。

所述类目错放确定单元804，用于比较所述商品标题在所述目标类目获取模块获取的目标类目下的后验概率和所述商品标题在当前类目下的后验概率，并在商品标题在目标类目下的后验概率与商品标题在当前类目下的后验概率之间的差值或比值大于第三阈值的情况下确定存在类目错放。

实施例九

图9示例性示出根据实施例九的类目错放确定模块的框图。

本实施例的类目错放识别装置与实施例四提供的方法相对应，包括TOP值获取模块701、综合相关度值获取模块702，其与实施例七相同，此处不予赘述。本实施例与实施例七的不同之处在于，本实施例的所述类目错放确定模块703包括商品放置异常确定单元901、目标类目获取单元902、综合相关度值比较单元903以及类目错放确定单元904。其中，所述目标类目获取单元902与所述商品放置异常确定单元901相连接，所述综合相关度值比较单元903与所述目标类目获取单元902相连接，所述类目错放确定单元904与所述综合相关度值比较单元903相连接。

所述商品放置异常确定单元901，用于将所述商品标题在当前类目下的综合相关度值与第二阈值相比，如果所述商品标题在当前类目下的综合相关度值小于第二阈值，则确定存在商品放置异常。

所述目标类目获取单元902，用于在所述商品放置异常确定单元901确定存在商品放置异常的情况下，获取该商品标题的推荐类目，再根据该商品标题和该商品标题的推荐类目，得到与所述商品标题匹配的目标类目。

所述综合相关度值比较单元903，用于比较所述商品标题在所述目标类目获取单元902获取的目标类目下的综合相关度值与所述商品标题在当前类目下的综合相关度。

所述类目错放确定单元904，用于在所述商品标题在所述目标类目下的综合相关度值与所述商品标题在所述当前类目下的综合相关度值之间的差值或比值大于第四阈值的情况下确定存在类目错放。

另外，在上述实施例七至实施例九中，如图10所示，TOP值获取模块可以包括TOP值获取单元1000、停用词查找单元1001以及停用词过滤单元1002，该停用词过滤单元1002与所述停用词查找单元1001、TOP值获取单元1000相连接。

其中，停用词查找单元1001用于基于词在类目下的分布熵来确定所述商品标题中是否存在停用词；停用词过滤单元1002用于在所述停用词查找单元1001确定存在停用词的情况下，过滤所述停用词。TOP值获取单元1000获取过滤掉停用词之后的各个词在当前类目下的TOP值。

利用本申请如上所述的装置，能够通过将商品标题的综合词频与当前类目的第一阈值相比较来确定是否存在类目错放；此外，由于TOP值能够反映商品标题与类目的匹配程度，所以根据TOP值确定的商品标题与类目的综合相关度值也就能够反映商品标题与类目的匹配程度，根据商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果来确定是否存在类目错放，可以准确识别出类目错放；通过设置第二阈值，可以减少类目错放识别的遗漏概率，例如，如果第二阈值设置较低，即可以识别出大多数类目错放。另外，本申请提供的装置中，主要涉及到TOP值的获取和综合相关度值的获取，获取这两个值的运算与现有技术相比，所需的系统资源要求低，从而可以节省系统资源，提高运算效率。

虽然已参照典型实施例描述了本申请，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种识别商品所属类目的方法，包括如下步骤：

根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目；

其中，所述根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目，包括：获取所述商品标题的推荐类目；根据所述商品标题和所述商品标题的推荐类目，得到与所述商品标题匹配的目标类目；根据与所述商品标题对应的所述目标类目和所述当前类目，识别所述商品是否属于所述当前类目。

2.根据权利要求1所述的方法，其特征在于，所述根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目，还包括：

根据所述商品标题与当前类目的匹配程度确定所述商品是否存在商品放置异常，根据商品是否存在商品放置异常识别所述商品是否属于所述当前类目。

3.根据权利要求2所述的方法，其特征在于，所述根据各个词在当前类目下的词频，确定商品标题与当前类目的匹配程度，包括：

根据所述各个词在当前类目下的词频计算所述商品标题的综合词频，所述综合词频越低，商品标题的商品分类在当前类目下的可能性越低；

将所述综合词频与当前类目的第一阈值相比较，根据比较结果确定所述商品标题与当前类目的匹配程度，所述第一阈值根据每个类目下包括的词及每个词在该每个类目下的词频进行设定。

4.根据权利要求3所述的方法，其特征在于，所述根据所述商品标题与当前类目的匹配程度确定所述商品是否存在商品放置异常，包括：

当所述综合词频与当前类目的第一阈值相比较的比较结果是综合词频小于第一阈值时，则所述商品标题与当前类目的不匹配，确定所述商品存在商品放置异常。

5.根据权利要求2所述的方法，其特征在于，所述根据各个词在当前类目下的词频，确定商品标题与当前类目的匹配程度，包括：

根据所述各个词在当前类目下的词频，获取商品标题中各个词在当前类目下的TOP值；其中，所述词在当前类目下的TOP值为在当前类目下词频比该词高的所有词的词频之和；

根据所述TOP值确定商品标题与当前类目的匹配程度，所述商品标题中的词在某一个类目下的TOP值越低，所述商品标题中的该词在该某一个类目下的匹配程度越高。

6.根据权利要求5所述的方法，其特征在于，根据所述TOP值确定商品标题与当前类目的匹配程度，包括：

根据预先确定的TOP值与相关度值的映射关系，获取各个词的TOP值对应的相关度值，并将各个词的TOP值对应的相关度值相加，获取商品标题在当前类目下的综合相关度值；

将所述商品标题在当前类目下的综合相关度值与第二阈值相比，根据比较结果确定所述商品标题与当前类目的匹配程度，所述第二阈值根据商品标题的综合相关度值分布状况进行设定。

7.根据权利要求6所述的方法，其特征在于，所述根据所述商品标题与当前类目的匹配程度确定所述商品是否存在商品放置异常，根据商品是否存在商品放置异常识别所述商品是否属于所述当前类目，包括：

当所述商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果是所述商品标题在当前类目下的综合相关度值小于第二阈值，则确定所述商品标题与当前类目的不匹配，存在商品放置异常，所述商品不属于所述当前类目；

当所述商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果是所述商品标题在当前类目下的综合相关度值大于或等于第二阈值，则确定所述商品标题与当前类目的匹配，不存在商品放置异常，所述商品属于所述当前类目。

8.根据权利要求6所述的方法，其特征在于，所述根据所述商品标题与当前类目的匹配程度确定所述商品是否存在商品放置异常，包括：

当所述商品标题在当前类目下的综合相关度值与第二阈值相比的比较结果是所述商品标题在当前类目下的综合相关度值小于第二阈值，则所述商品标题与当前类目的不匹配，确定存在商品放置异常。

9.根据权利要求2所述的方法，其特征在于，在根据所述商品标题与当前类目的匹配程度确定所述商品存在商品放置异常时，所述根据商品是否存在商品放置异常识别所述商品是否属于所述当前类目包括：

如果确定存在商品放置异常，则获取该商品标题的推荐类目，再根据该商品标题和该商品标题的推荐类目，得到与所述商品标题匹配的目标类目；

获取商品标题在目标类目下的后验概率和商品标题在当前类目下的后验概率，并比较所述商品标题在所述目标类目下的后验概率和所述商品标题在当前类目下的后验概率；

如果商品标题在目标类目下的后验概率与商品标题在当前类目下的后验概率之间的差值或比值大于第三阈值，则确定所述商品不属于所述当前类目；

或者，

比较所述商品标题在目标类目下的综合相关度值与所述商品标题在当前类目下的综合相关度值；

如果所述商品标题在所述目标类目下的综合相关度值与所述商品标题在所述当前类目下的综合相关度值之间的差值或比值大于第四阈值，则确定所述商品不属于所述当前类目；

其中，所述根据所述商品标题和所述推荐类目，得到与所述商品标题匹配的目标类目，包括：根据所述各个词对应的推荐类目，将各个词在对应的推荐类目下的词频作为推荐类目的权重，统计每个推荐类目的权重之和，将权重之和最大的推荐类目作为所述目标类目；或者，获取预测类目的标题向量和类目向量，所述标题向量中的元素为所述商品标题中各个词在该商品标题中出现的概率，类目向量中的元素为所述商品标题中各个词在该预测类目下的词频，对于每个预测类目，获取所述标题向量和所述类目向量的乘积，选择乘积最大的预测类目作为所述目标类目。

10.根据权利要求1至9中任一项所述的方法，其特征在于，获取商品标题中各个词在当前类目下的词频之前，所述方法还包括：

基于商品标题中词在类目下的分布熵来确定所述商品标题中是否存在停用词；

如果存在停用词，则过滤所述停用词。

11.一种识别商品所属类目装置，包括：

类目识别模块，用于根据各个词在当前类目下的词频，确定商品标题与当前类目的匹配程度，根据所述商品标题与当前类目的匹配程度识别所述商品是否属于所述当前类目；

12.根据权利要求11所述的装置，其特征在于，类目识别确定模块包括综合词频计算模块和类目错误确定模块，其中：

所述综合词频计算模块，用于根据所述词频获取模块获取的各个词在当前类目下的词频，计算所述商品标题的综合词频，所述综合词频越低，商品标题的商品分类在当前类目下的可能性越低；

所述类目错误确定模块，具体用于将所述综合词频计算模块计算得到的综合词频与当前类目的第一阈值相比较，根据比较结果确定所述商品标题与当前类目的匹配程度，以确定是否存在类目错放，所述第一阈值根据每个类目下包括的词及每个词在该每个类目下的词频进行设定。

13.根据权利要求11所述的装置，其特征在于，所述类目识别模块包括TOP值获取模块、综合相关度值获取模块和类目错误确定模块，其中：

所述TOP值获取模块，用于获取商品标题中各个词在当前类目下的TOP值；词在当前类目下的TOP值为当前类目下，词频比该词高的所有词的词频之和；

所述综合相关度值获取模块，用于根据预先确定的TOP值与相关度值的映射关系，获取所述TOP值获取模块得到的各个词的TOP值对应的相关度值，并将各个词的TOP值对应的相关度值相加，获取商品标题在当前类目下的综合相关度值；以及

所述类目错放确定模块，用于将所述综合相关度值获取模块获取的所述商品标题在当前类目下的综合相关度值与第二阈值相比，根据比较结果确定所述商品标题与当前类目的匹配程度。