CN105786810A

CN105786810A - 类目映射关系的建立方法与装置

Info

Publication number: CN105786810A
Application number: CN201410784706.1A
Authority: CN
Inventors: 杨志雄; 张洪; 梁丽
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-12-16
Filing date: 2014-12-16
Publication date: 2016-07-20
Anticipated expiration: 2034-12-16
Also published as: CN105786810B; WO2016095727A1

Abstract

本申请实施方式提供了一种特征关键词与类目间、类目与类目间的类目映射关系的建立方法及其装置。特征关键词与类目间类目映射关系建立的方法包括：获取特征关键词，利用该特征关键词获取与该关键词匹配的目标对象以及对目标对象进行操作的操作行为数据；确定与该特征关键词匹配的每个目标对象所属的类目；根据目标对象的操作行为数据计算每个目标对象所属类目的类目值；将特征关键词与类目值符合预设条件的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。本申请实施方式能够提高类目映射关系的准确性。

Description

类目映射关系的建立方法与装置

技术领域

本申请的实施方式涉及信息处理技术领域，尤其涉及一种关键词与类目以及类目与类目之间的类目映射关系的建立方法与装置。

背景技术

随着互联网技术的发展，电子网站上积聚的信息内容越来越多。这些信息内容可以被看成一个个目标对象，为了便于电子网站使用者(比如，电子网站管理、维护人员，电子网站的访问者等)对这些目标对象进行检索、浏览、收藏等操作，通常情况下，电子网站会将众多的目标对象按照特定属性要求划分类目，形成类目体系，从而通过类目体系来实现对众多的目标对象分门别类。根据电子网站以及目标对象的不同情况，各个电子网站划分出来的类目在数量、层级、名称等方面可能各不相同。

由于不同电子网站的类目体系可能存在差别，在遇到需要将一个电子网站某个类目下的目标对象转移到另一个电子网站的类目体系下等情况时，便需要利用类目映射关系。比如，A电子网站需要将a类目下的某个目标对象转移到B电子网站，那么就需要先确定该目标对象在B电子网站中属于哪个类目，然后才能将该目标对象转移到确定的B电子网站的相关类目之下。确定A电子网站某类目下的目标对象在B电子网站中的所属类目的过程，便涉及类目映射关系的建立问题。

在现有技术中，存在一种类目与类目之间的类目映射关系的方法。该方法先从一个电子网站的待映射类目中选择该类目下某个(些)目标对象为样本对象，然后以样本对象的特征信息为关键词，在另一个电子网站中查找与该特征信息匹配的目标对象，并确定查找到的目标对象所属的类目，如果该类目下包含的目标对象与预先选择的样本对象的数量之比大于某个预设值，则在这两个电子网站的上述类目之间建立类目映射关系。

这种方法能够建立不同电子网站的类目之间的映射关系，从而在需要将一个电子网站某个类目下的目标对象转移到另一个网站的类目体系中时，可以直接按照该类目映射关系实现转移。但是，由于这种类目映射关系的建立是以目标对象特征信息的匹配为基础的，而这种匹配主要为文本匹配，文本匹配方式仅从字面意义上实现匹配，导致建立的类目映射关系准确性较低。

发明内容

为了解决上述问题，本申请实施方式提供了一种关键词与类目以及类目与类目间的类目映射关系的建立方法与相应的装置，以提高类目映射关系的准确性。

本申请实施方式提供的关键词与类目间的类目映射关系的建立方法包括：

获取特征关键词，利用该特征关键词获取与该关键词匹配的目标对象以及对目标对象进行操作的操作行为数据；

确定与该特征关键词匹配的每个目标对象所属的类目；

根据目标对象的操作行为数据计算每个目标对象所属类目的类目值；

将特征关键词与类目值符合预设条件的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

优选地，如果一个类目具有多个类目值，对多个类目值进行求和运算，将求和运算结果作为该一个类目的类目值。

优选地，对目标对象进行操作的操作行为包括至少两种类型的操作行为，不同类型的操作行为反映的目标对象被接受的程度不同，根据目标对象被接受的程度为每种类型的操作行为分配权重，所述根据目标对象的操作行为数据计算每个目标对象所属类目的类目值具体为按照如下公式计算每个目标对象所属的类目的类目值：

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

其中：v(c_j)为第j个类目的类目值，k_i为对目标对象进行第i种类型的操作行为的操作行为数据量，w_i为第i种类型的操作行为的权重，N为大于或等于2的自然数。

优选地，所述方法还包括：

对目标对象进行第i种类型的操作行为的操作行为数据量按照如下方式进行修正：

\overset{Δ}{k_{i}} = k_{i} \times θ_{i}^{t}

其中：为修正后的第i种类型的操作行为的操作行为数据量，为第i种类型的操作行为的时间衰减函数，t为第i种类型的操作行为发生之时距离当前时间的时长；

将修正后的操作行为数据量用于计算目标对象所属类目的类目值。

优选地，所述方法还包括：

在获取到对目标对象进行操作的操作行为数据后，判断操作行为数据的数据量是否大于第一预设阈值，如果是，则执行确定与特征关键词匹配的每个目标对象所属的类目步骤；如果否，则：

从与特征关键词匹配的目标对象中选择匹配度最高的前M个目标对象；

确定M个目标对象各自所属的类目；

将特征关键词与M个目标对象所属的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

本申请实施例还提供了一种类目与类目间的类目映射关系的建立方法，该方法包括：

确定第一电子网站的第一类目下每个目标对象的每个特征关键词；

利用特征关键词，查找前述权利要求1至4中任何一种方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系。

优选地，将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系具体包括：

如果特征关键词对应的类目有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

按照类目值大小对各个类目进行排序，对前L个类目的类目值进行求和运算，求和运算的结果大于第二预设阈值，所述L为大于等于1的自然数；

将第一类目与L个类目之间对应关系确定为类目与类目间的类目映射关系。

对各个类目值进行归一化处理；

按照归一化处理后的归一化值的大小对各个类目进行排序，对前P个类目的归一化值进行求和运算，求和运算的结果大于第三预设阈值，所述P为大于等于1的自然数；

将第一类目与P个类目之间对应关系确定为类目与类目间的类目映射关系。

本申请实施方式还提供了一种特征关键词与类目间的类目映射关系的建立装置。该装置包括：获取单元、第一类目确定单元、类目值计算单元和第一映射关系确定单元，其中：

所述获取单元，用于获取特征关键词，利用该特征关键词获取与该关键词匹配的目标对象以及对目标对象进行操作的操作行为数据；

所述第一类目确定单元，用于确定与该特征关键词匹配的每个目标对象所属的类目；

所述类目值计算单元，用于根据目标对象的操作行为数据计算每个目标对象所属类目的类目值；

所述第一映射关系确定单元，用于将特征关键词与类目值符合预设条件的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

优选地，所述装置还包括求和单元，用于在一个类目具有多个类目值时，对多个类目值进行求和运算，将求和运算结果作为该一个类目的类目值。

优选地，对目标对象进行操作的操作行为包括至少两种类型的操作行为，不同类型的操作行为反映的目标对象被接受的程度不同，则所述装置还包括：权重分配单元；

所述权重分配单元，用于根据目标对象被接受的程度为每种类型的操作行为分配权重，

所述类目值计算单元，具体用于按照如下公式计算每个目标对象所属的类目的类目值：

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

优选地，所述装置还包括：数据量修正单元，用于对目标对象进行第i种类型的操作行为的操作行为数据量按照如下方式进行修正：

\overset{Δ}{k_{i}} = k_{i} \times θ_{i}^{t}

所述类目值计算单元将修正后的操作行为数据量用于计算目标对象所属类目的类目值。

优选地，所述装置还包括：判断单元、选择单元、第二类目确定单元和第二映射关系确定单元，其中：

所述判断单元，用于在获取到对目标对象进行操作的操作行为数据后，判断操作行为数据的数据量是否大于第一预设阈值，如果是，则触发第一类目确定单元；如果否，则触发选择单元：

所述选择单元，用于从与特征关键词匹配的目标对象中选择匹配度最高的前M个目标对象；

所述第二类目确定单元，用于确定M个目标对象各自所属的类目；

所述第二映射关系确定单元，用于将特征关键词与M个目标对象所属的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

本申请实施方式还提供了一种类目与类目间的类目映射关系的建立装置。该装置包括：关键词确定单元、类目获取单元和第三映射关系确定单元，其中：

所述关键词确定单元，用于确定第一电子网站的第一类目下每个目标对象的每个特征关键词；

所述类目获取单元，用于利用特征关键词，查找前述方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

所述第三映射关系确定单元，用于将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系。

优选地，所述第三映射关系确定单元包括第一求和子单元、第一排序子单元、第二求和子单元和第一映射关系确定子单元，其中：

所述第一求和子单元，用于在特征关键词对应的类目有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

所述第一排序子单元，用于按照类目值大小对各个类目进行排序；

所述第二求和子单元，用于对前L个类目的类目值进行求和运算，求和运算的结果大于第二预设阈值，所述L为大于等于1的自然数；

所述第一映射关系确定子单元，用于将第一类目与L个类目之间对应关系确定为类目与类目间的类目映射关系。

优选地，所述第三映射关系确定单元包括第一求和子单元、归一化子单元、第二排序子单元、第三求和子单元和第二映射关系确定子单元，其中：

所述第一求和子单元，用于在特征关键词对应的类目有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述权利要求1至5中任何一种方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

所述归一化子单元，用于对各个类目值进行归一化处理；

所述第二排序子单元，用于按照归一化处理后的归一化值的大小对各个类目进行排序；

所述第三求和子单元，用于对前P个类目的归一化值进行求和运算，求和运算的结果大于第三预设阈值，所述P为大于等于1的自然数；

所述第二映射关系确定子单元，用于将第一类目与P个类目之间对应关系确定为类目与类目间的类目映射关系。

本申请实施例的方式建立了特征关键词与类目之间的类目映射关系，该映射关系以操作行为数据为基础进行，而操作行为数据更能反映用户对目标对象的倾向，从而使得基于这种类目映射关系的搜索、比较等更加准确。此外，本申请实施例的方式可以建立类目与类目之间的类目映射关系不仅考虑了目标对象的文本匹配，而且考虑了目标对象的操作行为数据，由于操作行为数据更能反映用户对目标对象的倾向，从而使得按照本申请建立的类目映射关系更加精准，更加符合用户需要。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1为本申请的特征关键词与类目间的类目映射关系建立方法的一个实施例的流程示意图；

图2为本申请的类目与类目间的类目映射关系建立方法的一个实施例的流程示意图；

图3为本申请的特征关键词与类目间的类目映射关系建立装置的一个实施例的组成框图；

图4本申请的类目与类目间的类目映射关系建立装置的一个实施例的组成框图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

参见图1，该图示出了本申请的类目映射关系建立方法的一个实施例，该实施例的类目映射关系为特征关键词与电子网站的类目之间的映射关系，这种映射关系可以在多种场景下使用。比如，当需要在电子网站纷繁复杂的内容中查找某个(条)需要的目标对象时，可以编辑一个或多个能够表征将要查找的目标对象属性的特征关键词，然后以该特征关键词为检索词，检索特征关键词与类目间的映射关系，获得与该特征关键词对应的类目，然后按照某种预定的规则获取该类目下的全部或部分目标对象，这些目标对象中有较大的概率包含有用户真正需要的目标对象，从而用户可以进行相互比较、甄别后选定最符合要求的目标对象。这里的预定规则可以根据用户自身的需要进行设定，比如，可以是将全部的目标对象依据某个属性值进行升序(降序)排列，并呈现出来，也可以是仅显示与特征关键词匹配程度最高的某个(些)目标对象。下面对图1所示的实施例进行详细介绍。

步骤S11：获取特征关键词，利用该特征关键词获取与该关键词匹配的目标对象以及对目标对象进行操作的操作行为数据；

特征关键词可以较好地反映目标对象的特征，在电子网站中，通过特征关键词能够查找到与该特征关键词匹配的目标对象。特征关键词可以是电子网站的管理者预先定义的，也可以是对电子网站的用户输入的历史关键词进行分析、加工得到的。与此对应地，可以通过至少如下两种示例性方式获取特征关键词以及对应的目标对象。一种示例性方式是：电子网站管理维护者在将目标对象链接(或设置)到电子网站时，根据情况选定一个或多个能够概括目标对象某方面特征(属性)的词(比如，某个商品的商品名称、材质、板型等)，将该选定的词作为特征关键词，并将其存储到数据库之中，这样，便可以直接从该数据库中获取特征关键词以及与之匹配的目标对象。另一种示例性方式是：用户在进入电子网站后，会在电子网站提供的搜索框中输入某些词语，以期望通过搜索引擎搜索到他需要的目标对象，这种情况下可以借助于搜索引擎系统，将搜索引擎系统对用户输入的词语进行加工分析得到的检索词作为特征关键词，将利用检索词搜索到的检索结果作为与该特征关键词匹配的目标对象。

在获取特征关键词和与特征关键词相匹配的目标对象后，还可以从搜索引擎系统或电子网站中获取对目标对象的操作行为数据。通常情况下，用户可以对电子网站提供的目标对象进行多种类型的操作。以电子商务网站展现的某个商品为例，用户的操作行为可以表现为对该商品进行点击浏览、收藏、加入购物车、交易该商品等行为，这些对商品的操作行为将被电子网站记录下来，形成操作行为数据。这些操作行为数据反映出了用户对某个目标对象的接受程度，相对于那些未被用户操作的目标对象(比如，没有被点击的商品)，更能体现用户的需求倾向。此外，操作行为数据除如上所述可以来自于用户对目标对象的操作行为外，还可以来自电子网站的管理维护者对目标对象的各种操作行为，比如，推荐、置顶等行为。在本申请实施例中，操作行为究竟来自哪个主体，操作行为的类型究竟可以是哪些种类的行为，只要与本申请发明目的不冲突，均可以作为本申请的目标对象对应的操作行为数据。

步骤S12：确定与该特征关键词匹配的每个目标对象所属的类目；

按照前述步骤可以获得某个特征关键词对应的目标对象以及目标对象对应的操作行为数据，然后，针对每个目标对象，确定各个目标对象属于哪个类目。通常情况下，一个特征关键词对应的目标对象可能存在多个，从而使得确定出来的“类目”也可能包括多个。也就是说，一个特征关键词可能对应多个类目。

步骤S13：根据目标对象的操作行为数据计算每个目标对象所属类目的类目值；

在确定目标对象的类目后，可以计算每个类目的类目值。对于计算类目值的具体方式，可以存在多种，但是，无论哪种计算类目值的方式，计算出来的结果应当能够反映该类目之下的目标对象的操作行为数据情况，具体地，类目之下的目标对象的操作行为数据与基于此计算出来的类目值之间可以体现为一种正向比例关系，即操作行为数据越大(小)，计算得到的类目值相应越大(小)，也可以体现为反向比例关系，这里的正向、反向比例关系将决定后续步骤类目值与预设阀值之间的比较方式。为了便于体现类目与该类目的类目值之间的关系，可以以向量方式来呈现，该向量可以仅仅为两维向量，即一维为各个类目(c1、c2..ck)，另一维为各个类目对应的类目值(v(c1)、v(c2)…v(c))，简单地，可以用数学式表示如下：

vec = [\begin{matrix} c 1 & v (c 1) \\ c 2 & v (c 2) \\ . & . \\ . & . \\ . & . \\ ck & v (ck) \end{matrix}]

步骤S14：将特征关键词与类目值符合预设条件的类目之间的对应关系确定为特征关键词与类目间的类目映射关系；

计算出各个类目的类目值之后，可以判断这些类目值是否符合预设条件，从而将那些符合预设条件的类目筛选出来，建立特征关键词与这些类目之间的类目映射关系(这里建立的类目映射关系可以用数学式表示为：f1(word，vec)，f1为建立的类目映射关系，word为特征关键词，vec为前述基于类目与类目值得到的向量)。该筛选过程可以根据实际需要来把握筛选的方式与筛选的程度。比如，为了尽可能全面、充分地建立某个特征关键词与电子网站的类目之间的类目映射关系，可以采取将计算出来的类目值与某个预设阈值比较的方式进行筛选。具体筛选时，判断该计算出来的类目值是否大于(或小于)预设阈值，为获得较多的符合条件的类目可以降低(提高)预设阈值。而为了尽可能精准、有针对性建立某个特征关键词与电子网站的类目之间的类目映射关系，则可以提高(降低)预设阈值，从而获得较少但较为满足需要的类目。需要注意的是，这里到底采取将类目值与预设阈值进行“大于”的比较，还是进行“小于”的比较，如前所述，取决于前一步骤中采取哪种方式来计算类目值。如果类目值是正向地反映类目之下的目标对象的操作行为数据，即操作行为数据越大，类目值也越大，那么，这里的“比较”是比较类目值是否大于预设阈值，从而将特征关键词与那些大于预设阈值的类目之间的对应关系确定为特征关键词与类目之间的类目映射关系。道理类似，在类目值是反向地反映类目之下的目标对象的操作行为数据，那么，这里的“比较”是比较类目值是否小于第一预设阈值，从而将特征关键词与那些小于第一预设阈值的类目之间的对应关系确定为特征关键词与类目之间的类目映射关系。当然，这两种情形下的预设阈值可以相同，也可以不同，不同的预设阈值更能体现与不同的类目值计算方式的匹配。

在步骤S13中，叙及可以采取多种具体方式实现类目值的计算，为了更明确地说明本申请的技术方案，下面给出一种示例性计算方式，这种计算方式主要考虑两个因素：一是对类目的操作行为的操作行为类型；二是不同操作行为类型对类目值的影响程度。

通常情况下，对目标对象的操作存在多种操作方式，这些不同的操作方式可以划归为不同的操作行为类型，在进行操作行为数据的统计过程中，相同操作类型的操作行为产生的数据被归并为一类，即统计出一个与该类型对应的数据。比如，对于电子网站上的某个商品，“点击浏览”为一种操作行为类型，统计得到的该商品被点击的次数即为“点击浏览”这一操作行为的操作行为数据，“收藏商品”为另一种操作行为类型，统计得到的该商品被收藏的次数即为“收藏商品”这一操作行为的操作行为数据。

从上述对操作行为类型的划分来看，不同的操作行为类型反映出目标对象被接受的程度是不相同的。比如，“收藏商品”这一操作行为类型比“点击浏览”这一操作行为更体现了用户对目标对象的选择倾向。为此，在考虑操作行为类型基础上，还可以针对不同的操作行为类型分配不同的权重，分配权重的依据通常可以参考这些操作行为类型体现出来的用户对目标对象的接受程度。也就是说，在计算类目值过程中，可以将“收藏商品”行为产生的相应数据量对类目值的影响程度设置得比“点击浏览”行为更大，类似地，“加入购物车”比“收藏商品”更大，“交易商品”比“加入购物车”更大。

由此，可以按照下式来计算类目值：

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

由上述计算类目值的公式可以看出，这种计算出来的类目值能够较好地体现用户对目标对象的偏好程度，如果基于该类目值来建立特征关键词与类目之间的类目映射关系，那么将使基于这种类目映射关系的各种应用场合更能精准地给出需要的类目以及目标对象，从而提升用户体验。但是，在具体应用过程中，可能还可以对一些细节作进一步优化。这里，为简便起见，示例性地叙述三种供理解技术方案的参考优化方式：

示例性之一：多类目求和运算。如前所述，一个特征关键词可能存在多个目标对象与之匹配，而一个目标对象也可能被划分到多个类目之中，这样，在由“特征关键词→目标对象→目标对象所属的类目”这条“线索”获取到的“类目”可能数量众多，而且可能存在相同的类目。尽管可以不甄别类目是否出现重复，而只将计算得到的每个类目值与预设阈值进行比较，同样能够得到可与特征关键词建立映射关系的类目，但是，这样可能会导致建立的类目映射关系不准确。假设特征关键词A存在两个匹配的目标对象b1、b2，目标对象b1属于类目c1，也属于类目c2，目标对象b2属于类目c2和c3，对于类目c1、c3而言，均仅得到一个类目值v(c1)、v(c3)类目，那么可以直接将v(c1)、v(c3)与预设阈值进行比较，以判断它们是否能够作为与特征关键词A对应的类目。但对于类目c2而言，存在基于目标对象b1的操作行为数据计算得到的类目值v_b1(c2)，以及基于目标对象b2的操作行为数据计算得出的类目值v_b2(c2)，这时，如果直接将v_b1(c2)、v_b2(c2)单独与预设阈值进行比较，可能均小于预设阈值(本处采用正向关系的计算方式)，从而被排除在可与特征关键词A建立映射关系的类目之外，而实际上由于v_b1(c2)、v_b2(c2)均是针对类目c2得到的类目值，应该将它们求和之后的结果与预设阈值进行比较，从而有可能作为与特征关键词A建立映射关系的类目被保留下来。也就是说，在实际应用过程中，如果存在一个类目具有多个类目值时，可以对多个类目值进行求和运算，将求和运算的结果作为该类目的类目值。通过这看似简单的求和操作，可以使基于类目值建立起来的类目映射关系更加符合实际情况。

示例性之二：时间因素对类目值的影响。在现实中，用户的兴趣点在时间轴线上是变化的，即用户对目标对象的操作行为存在“迁移性”的特点，基于该特点，如果以相对于用户当前操作时间较远的操作行为数据来估计用户的当前行为，将可能出现较大的偏差。比如，在一年前，针对某个目标对象的“点击浏览”行为产生的数据量为50万、“收藏商品”行为产生的数据量为20万，而当前的一段时间内针对同样的目标对象的“点击浏览”量为40万，“收藏商品”量为25万，尽管表面上看“点击浏览”量出现了下滑，但“收藏商品”量却呈现上升趋势，这不是说明该目标对象越来越不被人接受(40+25＜50+20)，而是相反，说明该目标对象越来越被人接受(25＞20)，由此可以看出，通常情况下越靠近当前时间的用户操作行为数据越能正确反映目标对象被接受的程度，进而计算得到的类目值也越可靠。也就是说，在计算类目值(考虑各个操作行为数据)时，不仅要横向考虑不同操作行为类型的各自权重，而且还应当考虑时间因素对操作行为数据有效性的影响，并认识到这种影响是随着时间轴向后以衰减方式来发挥影响的。为此，本申请实施方式在使用各操作行为数据时，引入时间衰减函数，按照如下的方式对操作行为数据进行修正，以便利用修正后的操作行为数据量进行目标对象所属类目的类目值的计算：

\overset{Δ}{k_{i}} = k_{i} \times θ_{i}^{t}

其中：为修正后的第i种类型的操作行为的操作行为数据量，为第i种类型的操作行为的时间衰减函数，t为第i种类型的操作行为发生之时距离当前时间的时长。这里的θ可以根据需要选取小于1且大于0的数值，比如，0.962。

示例性之三：操作行为数据量偏少的处理。在实际应用过程中，某个(些)目标对象可能“无人问津”或者关注量极少，这种情况下，尽管同样可以按照上述方式对每个目标对象所属的类目进行类目值计算，进而依据该计算得到的类目值进行类目映射关系的建立，但是，这样可能“得不偿失”，消耗过多的资源。为此，本申请的一种实施例考虑在这种情况下不再进行类目值的计算，而采用如下方式进行弥补：

确定M个目标对象各自所属的类目；

这种弥补方式省去了对类目值的计算，而直接将与目标对象匹配有关类目(比如前M个)作为建立类目映射关系的类目。这里的第一预设阈值可以根据需要对其进行控制，如果以节约资源为主要目标并兼顾精准性，可以将该阈值设置得高一些，相反，则设置得更低一些。

上述内容详细叙述了建立特征关键词与类目间的类目映射关系的过程以及基于各种实际情况可能进行的优化性处理。但是，这基本上是从一个电子网站的内部来考虑类目映射关系。如果建立了这种类目映射关系，便可以使用户检索某个目标对象，尤其是与该目标对象同类的目标对象(即相同类目之下的其他目标对象或关联类目之下的目标对象)时，能够更方便地检索，提供更多的选择余地，从而也就提高了用户最终获得其需要的目标对象的可能性，改善了用户体验(比如，可以提供多个目标对象在质量、价格等方面的横向比较)。实际上，除了这种电子网站的特征关键词与该电子网站的类目体系之间的类目映射关系外，现实中还可能存在另一类类目映射关系，即一个电子网站的类目体系与另一个电子网站的类目体系之间的类目映射关系。也就是说，本申请的类目映射关系是从单侧角度而言，至少建立了到“类目”的映射关系即可称为类目映射关系。

为便于对类目与类目间的类目映射关系的理解，下面举两个应用实例。一种应用场景是：一个卖家在电子网站A上发布了某个商品，现在需要将该商品发布到电子网站B上，但是，由于电子网站A、B可能属于不同的运营商在维护管理，因而具有不同的类目体系，那么将该商品由电子网站A转移到电子网站B上必须考虑这两个类目体系的差异。这种情形下，便涉及到类目与类目之间的类目映射关系，具有该类目映射关系，便可通过对该商品在电子网站A上的类目查找到该商品在电子网站B上的类目，从而实现商品在不同电子网站上的顺利发布。另一种应用场景是：一个卖家在B2C/C2C电子网站上进行商品发布，但是，该卖家还可能作为买家在一个B2B电子网站上采购进货，这时，B2B电子网站需要向该用户推荐B2B上的商品，如果根据该用户在B2C/C2C电子网站上发布的商品，能够计算得到其在B2B电子网站上可能感兴趣的对应类目，那么便可进行针对性的推荐。而要计算该用户在B2B电子网站上感兴趣的类目，也涉及到类目与类目之间的类目映射关系问题。为了适应这些现实需要，本申请实施方式在特征关键词与类目之间的类目映射关系基础之上，还提供了一种类目与类目映射关系的建立方法。参见图2，该图示出了该建立方法的流程。

步骤S21：确定第一电子网站的第一类目下每个目标对象的每个特征关键词；

如前所述，特征关键词可以表现为目标对象的名称、材质、板型等各方面的属性，在确定特征关键词时，如果出现“脏词”、无意义的修饰词，那么应当剔除掉，从而使最终得到的特征关键词为真正有效的词。这里的第一类目即是需要建立类目映射关系的类目，也就是，如果需要建立第一电子网站中的某个类目与第二电子网站的类目之间的类目映射关系，即将该类目作为第一类目。当然，这里第一类目、第一电子网站、第二电子网站中的“第一”、“第二”仅仅是便于称呼不同类目、网站的方便而给出的，并不代表顺序关系。

步骤S22：利用特征关键词，查找第二电子网站中依据前述方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

在第一电子网站的某个类目下获得部分或者全部的目标对象的特征关键词之后，即可以该特征关键词为检索词，到第二电子网站中的类目映射关系中进行查找操作，由于第二电子网站的类目映射关系包含有特征关键词与该第二电子网站的类目之间的对应关系，从而可以查找到与第一电子网站中的特征关键词对应的第二电子网站的相关类目。

步骤S23：将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系；

这里借助于特征关键词的“桥梁作用”，顺利地从第二电子网站中查找到相关的类目，那么便可以将第一类目与查找到的第二电子网站的相关类目建立对应关系，该对应关系即是类目与类目间的类目映射关系，用数学式表示是：f2(item，vec)，item为第一类目。建立了这种类目与类目之间的类目映射关系的情况下，上述提及的两个应用场景的问题便可迎刃而解了。

在上述的类目与类目的映射关系建立过程中，除了在特征关键词与类目之间的类目映射关系中考虑类目值之外，类目与类目之间并未使用到类目值，也就是说，可以将查找到的全部类目作为与第一类目具有对应关系的类目。但是，在实际应用过程中，可能需要对查找到的全部类目按照某种规则进行筛选，仅将那些满足条件的类目才最终作为与第一类目对应的类目，以建立起类目与类目之间的类目映射关系。比如，一种筛选方式是将查找到的全部类目的各类目值逐个与预设的某个阈值进行比较，将大于该预设阈值的类目作为与第一类目建立映射关系的类目。除这种“单个类目比较”的方式外，还可以进行“总和式”类目比较，而且，这种“总和式”方式可以先按照类目值大小对查找到的类目进行排序，然后从大到小(或者从小到大)进行类目值累加，直到累加后的总和大于(小于)某个预设阈值(比如，第二预设阈值)，这时，已经累加的类目(比如，前L个)即可作为与第一类目具有类目映射关系的类目。

当然，上述的“总和式”类目比较方式是直接将类目值进行累加的，还可能存在的一种变形方式，即先对查找到的类目的类目值进行归一化处理，然后按照归一化处理后的归一化值的大小进行类目排序，再进行求和运算，直至求和的结果大于某个预设阈值(比如，第三预设阈值)，这时，已经累加的项目(比如，前P个)即可作为与第一类目具有类目映射关系的类目。

在进行上述类目映射关系中，还可能存在这样的情形：由于第一类目之下包含多个目标对象，每个目标对象又可能具有多个特征关键词，那么站在“第一类目”这个层级上，依据各个特征关键词获得的类目可能存在重复。比如，第一类目下的特征关键词A对应类目a1，第一类目下的特征关键词B也可能对应类目a1，那么应当将针对特征关键词A对应的类目a1的类目值v_A(a1)与针对特征关键词B对应的类目目a1的类目值v_B(a1)进行求和运算，得到一个与类目a1对应的最终的类目值[v(a1)＝v_A(a1)+v_B(a1)]，进而，上述无论是“单个类目比较式”还是“总和式”，只要利用到类目值均可以利用该最终的类目值进行计算。

还需要说明的是上述类目映射关系的建立是以类目下的当前目标对象为基础的，如果某个类目下由于电子网站的更新，新增加了目标对象，那么可以先就该增加的目标对象进行类目值的计算，以及与特征关键词对应的类目的查找工作，然后再将这些结果累计到上一次结果中，而不需要全部重新计算，从而大大减少了计算量，提高系统性能。对于第二电子网站中出现目标对象的更新，道理类似，不再重复叙述。

上述内容详细说明了如何建立类目映射关系(包括特征关键词与类目之间的类目映射关系和类目与类目之间的类目映射关系)，与建立类目映射关系的方法相对应，本申请实施方式还提供了建立类目映射关系的装置。参见图3，该图示出了建立特征关键词与类目间的类目映射关系的建立装置的组成框图。该装置包括：获取单元31、第一类目确定单元32、类目值计算单元33和第一映射关系确定单元34，其中：

获取单元31，用于获取特征关键词，利用该特征关键词获取与该关键词匹配的目标对象以及对目标对象进行操作的操作行为数据；

第一类目确定单元32，用于确定与该特征关键词匹配的每个目标对象所属的类目；

类目值计算单元33，用于根据目标对象的操作行为数据计算每个目标对象所属类目的类目值；

第一映射关系确定单元34，用于将特征关键词与类目值符合预设条件的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

该装置实施例可以取得与前述的方法实施例相同或类似的技术效果。该装置可以具体设置在电子网站上，以建立本电子网站的类目体系与特征关键词的类目映射关系，从而方便基于本电子网站的查询、比较、对比等操作，也方便建立别的电子网站与本电子网站之间的类目映射关系。此外，在实际应用过程中，该装置实施例还可以进行多方面的改进，以获得更优的技术效果或满足某个特定需要。

比如，在一个类目具有多个类目值时，上述装置还可以包括求和单元，用于对多个类目值进行求和运算，将求和运算结果作为该一个类目的类目值。再比如，如果对目标对象进行操作的操作行为包括至少两种类型的操作行为，不同类型的操作行为反映的目标对象被接受的程度不同，则所述装置还可以包括：权重分配单元，用于根据目标对象被接受的程度为每种类型的操作行为分配权重，这样，类目值计算单元在计算每个目标对象所属的类目的类目值时便可以按照如下的公式进行计算：

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

其中：v(c_j)为第j个类目的类目值，k_i为对目标对象进行第i种类型的操作行为的操作行为数据量，w_i为第i种类型操作行为的权重，N为大于等于2的自然数。

还比如，上述装置还可以包括修正单元，用于对目标对象进行第i种类型的操作行为的操作行为数据量按照如下方式进行修正：

\overset{Δ}{k_{i}} = k_{i} \times θ_{i}^{t}

这样，类目值计算单元在计算每个目标对象所属类目的类目值时可以使用该修正后的操作行为数据量。

此外，上述装置实施例还可以包括：判断单元35、选择单元36、第二类目确定单元37和第二映射关系确定单元38，其中：

判断单元35，用于在获取到对目标对象进行操作的操作行为数据后，判断操作行为数据的数据量是否大于第一预设阈值，如果是，则触发第一类目确定单元；如果否，则触发选择单元：

选择单元36，用于从与特征关键词匹配的目标对象中选择匹配度最高的前M个目标对象；

第二类目确定单元37，用于确定M个目标对象各自所属的类目；

第二映射关系确定单元38，用于将特征关键词与M个目标对象所属的类目之间的对应关系确定为特征关键词与类目间的类目映射关系。

参见图4，该图示出了本申请实施例的一种类目与类目间的类目映射关系的建立装置。该装置包括：关键词确定单元41、类目获取单元42和第三映射关系确定单元43，其中：

关键词确定单元41，用于确定第一电子网站的第一类目下每个目标对象的每个特征关键词；

类目获取单元42，用于利用特征关键词，查找第二电子网站的依据前述方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

第三映射关系确定单元43，用于将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系。

该装置的各个单元对应的功能具有不同的实现方式，那么其对应的内部结构也可能存在差别。比如，上述第三映射关系确定单元43可以包括第一求和子单元431、第一排序子单元432、第二求和子单元433和第三映射关系确定子单元434，其中：

第一求和子单元431，用于在特征关键词对应的类目有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述权利要求1至5中任何一种方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

第一排序子单元432，用于按照类目值大小对各个类目进行排序；

第二求和子单元433，用于对前L个类目的类目值进行求和运算，求和运算的结果大于第三预设阈值，所述L为大于等于1的自然数；

第三映射关系确定子单元434，用于将第一类目与L个类目之间对应关系确定为类目与类目间的类目映射关系。

此外，上述第三映射关系确定单元的另一种组成结构还可以包括第一求和子单元、归一化子单元、第二排序子单元、第三求和子单元和第二映射关系确定子单元，其中：

所述归一化子单元，用于对各个类目值进行归一化处理；

所述第三求和子单元，用于对前P个类目的归一化值进行求和运算，求和运算的结果大于第四预设阈值，所述P为大于等于1的自然数；

应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种特征关键词与类目间的类目映射关系的建立方法，其特征在于，该方法包括：

确定与该特征关键词匹配的每个目标对象所属的类目；

2.根据权利要求1所述的方法，其特征在于，如果一个类目具有多个类目值，对多个类目值进行求和运算，将求和运算结果作为该一个类目的类目值。

3.根据权利要求2所述的方法，其特征在于，对目标对象进行操作的操作行为包括至少两种类型的操作行为，不同类型的操作行为反映的目标对象被接受的程度不同，根据目标对象被接受的程度为每种类型的操作行为分配权重，所述根据目标对象的操作行为数据计算每个目标对象所属类目的类目值具体为按照如下公式计算每个目标对象所属的类目的类目值：

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

{\overset{Δ}{k}}_{i} = k_{i} \times θ_{i}^{t}

5.根据权利要求1至4中任何一项所述的方法，其特征在于，所述方法还包括：

确定M个目标对象各自所属的类目；

6.一种类目与类目间的类目映射关系的建立方法，其特征在于，该方法包括：

利用特征关键词，查找第二电子网站中依据前述权利要求1至4中任何一种方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

7.根据权利要求6所述的方法，其特征在于，将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系具体包括：

如果在第一类目下的特征关键词对应的类目中有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述权利要求1至4中任何一种方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

8.根据权利要求6所述的方法，其特征在于，将第一类目与所述特征关键词对应的类目之间的对应关系确定为类目与类目间的类目映射关系具体包括：

如果特征关键词对应的类目有相同的类目，对相同类目的类目值进行求和运算，所述类目值为前述权利要求1至5中任何一种方法中得到的类目值；将求和运算的结果作为该相同类目的最终类目值；

对各个类目值进行归一化处理；

9.一种特征关键词与类目间的类目映射关系的建立装置，其特征在于，该装置包括：获取单元、第一类目确定单元、类目值计算单元和第一映射关系确定单元，其中：

10.根据权利要求9所述的装置，其特征在于，所述装置还包括求和单元，用于在一个类目具有多个类目值时，对多个类目值进行求和运算，将求和运算结果作为该一个类目的类目值。

11.根据权利要求9所述的装置，其特征在于，对目标对象进行操作的操作行为包括至少两种类型的操作行为，不同类型的操作行为反映的目标对象被接受的程度不同，则所述装置还包括：权重分配单元；

v (c_{j}) = Σ_{i = 1}^{N} w_{i} \times k_{i}

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：数据量修正单元，用于对目标对象进行第i种类型的操作行为的操作行为数据量按照如下方式进行修正：

{\overset{Δ}{k}}_{i} = k_{i} \times θ_{i}^{t}

13.根据权利要求9至12中任何一项所述的装置，其特征在于，所述装置还包括：判断单元、选择单元、第二类目确定单元和第二映射关系确定单元，其中：

14.一种类目与类目间的类目映射关系的建立装置，其特征在于，该装置包括：关键词确定单元、类目获取单元和第三映射关系确定单元，其中：

所述类目获取单元，用于利用特征关键词，查找前述权利要求1至4中任何一种方法建立的特征关键词与类目间的类目映射关系，得到所述特征关键词对应的类目；

15.根据权利要求14所述的方法，其特征在于，所述第三映射关系确定单元包括第一求和子单元、第一排序子单元、第二求和子单元和第一映射关系确定子单元，其中：

16.根据权利要求14所述的装置，其特征在于，所述第三映射关系确定单元包括第一求和子单元、归一化子单元、第二排序子单元、第三求和子单元和第二映射关系确定子单元，其中：

所述归一化子单元，用于对各个类目值进行归一化处理；