CN108153754A

CN108153754A - 一种数据处理方法及其装置

Info

Publication number: CN108153754A
Application number: CN201611101349.XA
Authority: CN
Inventors: 范正洁; 熊龙
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Communications Co Ltd
Priority date: 2016-12-02
Filing date: 2016-12-02
Publication date: 2018-06-12
Anticipated expiration: 2036-12-02
Also published as: CN108153754B

Abstract

本发明实施例公开了一种数据处理方法，所述方法包括：获取基准标签树和待融合标签树；从所述待融合标签树中选取出待融合标签，从所述基准标签树中选取出与所述待融合标签对应的基准标签；获取所述待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取所述基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征；基于标签特征，将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，以便于将所述待融合标签树与所述基准标签树进行合并处理。本发明实施例还公开了一种数据处理装置。

Description

一种数据处理方法及其装置

技术领域

本发明涉及数据处理技术，尤其涉及一种数据处理方法及其装置。

背景技术

随着大数据技术的深入研究与应用，企业的专注点日益聚焦于怎样利用大数据来为精准营销服务，进而深入挖掘潜在的商业价值。于是，“用户画像”的概念也就应运而生。用户画像，即用户信息标签化。企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息之后，抽象出一个用户的商业全貌，得到用户画像，这是企业应用大数据技术的基本方式。用户画像为企业提供了重要的信息基础，能够帮助企业快速、精准地找到用户群体以及确定用户需求等更信息。构建用户画像的核心工作即是给用户贴“标签”，其中标签是通过对用户信息分析而来的高度精炼的特征标识。利用标签来表示用户兴趣的优势在于不仅能反映用户行为特征，表明用户的兴趣偏好，还能反映用户兴趣偏好资源的语义特征。因此，构建能够用来准确化描述一系列不同用户行为的标签体系是用户画像技术的基础和核心技术。

目前用于刻画用户行为的标签生成方法有：

第一，专家经验，根据经验知识，人工设定标签体系，以刻画用户行为；但是，该方式中需要有丰富的经验、渊博的知识、对用户数据有充分了解的专家，否则经验知识得到的标签无法准确的描述用户行为；

第二，主题学习模型，直接利用用户数据例如用户访问的网页的文本信息，通过主题学习模型(例如LDA)获得一系列主题，并将该一系列主题作为固定的标签体系来刻画用户行为；但是，此方式生成的标签粒度比较粗，比如女装，若想在女装中进一步细化出“裙装”、“外套”时，此方法则无法实现，且当用户的数据发生变化或者增加时，需要在保证原本的标签不变的情况下重新利用主题模型更新标签，更新一次标签消耗的计算资源较大；

第三，非统一的标签，最直接的方法，不是固定一些标签，将用户行为归类于这些标签下，而是直接利用从用户数据例如用户访问网页的文本信息中提取出的描述词语(例如关键词)等来刻画用户行为。此方式，由于没有固定的标签描述用户行为，即没有统一的标签体系，所以，会对管理用户行为造成困难，当需要找某一类行为的用户时，如果使用统一的标签体系，则只需要找包含特定的几个标签的用户即可，但是如果没有统一的标签体系，则无法确定筛选的条件，寻找符合条件的用户会很困难；并且分析用户行为时，由于没有统一的标签体系，很难准确定位用户的行为或者类型。

发明内容

为解决现有存在的技术问题，本发明实施例提供了一种数据处理方法及其装置，能至少解决现有技术中存在的上述问题。

本发明实施例的技术方案是这样实现的：

本发明实施例第一方面提供了一种数据处理方法，所述方法包括：

获取基准标签树和待融合标签树；

从所述待融合标签树中选取出待融合标签，从所述基准标签树中选取出与所述待融合标签对应的基准标签；

获取所述待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取所述基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征；

基于标签特征，将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，以便于将所述待融合标签树与所述基准标签树进行合并处理。

上述方案中，所述方法包括：

获取至少两个原始标签体系；每一所述原始标签体系中均包含有至少一个标签树；

获取每一标签树的根标签的标签特征；

至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树；

对应地，所述获取基准标签树和待融合标签树，包括：

从每一组标签树中选取出一个基准标签树，将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。

上述方案中，所述至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树，包括：

判断至少两个标签树中根标签的标签特征是否相同；

若存在根标签的标签特征相同的至少两个标签树，则将根标签的标签特征相同的标签树划归类为同一组，得到至少一组标签树；或者，

若不存在根标签的标签特征相同的至少两个标签树，则获取根标签对应的至少一个子标签的标签特征；

根据至少两个标签树中子标签的标签特征相同的个数，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树。

上述方案中，所述方法还包括：

基于每一组标签树中的所有标签树的结构特征，对每一组标签树进行排序处理；

对应地，所述获取基准标签树和待融合标签树，包括：

从排序处理后的每一组标签树中选取出一个基准标签树，并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。

上述方案中，所述方法还包括：

获取输入信息；所述输入信息表征所述待融合标签的合并位置；

对应地，所述至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，包括：

基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。

上述方案中，所述将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，包括：

判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征，是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同；

若相同，则判断所述待融合标签的标签特征是否与所述基准标签的标签特征相同；

若相同，则将所述基准标签的位置作为所述待融合标签的合并位置。

上述方案中，判断两个标签的标签特征是否相同的步骤包括：

获取两个标签的语义信息，基于语义信息判断两个标签的标签特征是否相同；或者，

获取两个标签各自对应的子标签的语义信息，确定出两个标签中语义信息相同的子标签的个数，基于语义信息相同的子标签的个数来确定两个标签的标签特征是否相同。

本发明实施例第二方面提供了一种数据处理装置，所述装置包括：

第一获取单元，用于获取基准标签树和待融合标签树；

确定单元，用于从所述待融合标签树中选取出待融合标签，从所述基准标签树中选取出与所述待融合标签对应的基准标签；

第二获取单元，用于获取所述待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取所述基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征；

处理单元，用于基于标签特征，将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，以便于将所述待融合标签树与所述基准标签树进行合并处理。

上述方案中，所述第一获取单元，还用于获取至少两个原始标签体系；每一所述原始标签体系中均包含有至少一个标签树；

所述第二获取单元，还用于获取每一标签树的根标签的标签特征；

所述处理单元，还用于至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树；

所述第一获取单元，还用于从每一组标签树中选取出一个基准标签树，将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。

上述方案中，所述处理单元，还用于判断至少两个标签树中根标签的标签特征是否相同；若存在根标签的标签特征相同的至少两个标签树，则将根标签的标签特征相同的标签树划归类为同一组，得到至少一组标签树；或者，若不存在根标签的标签特征相同的至少两个标签树，则获取根标签对应的至少一个子标签的标签特征；根据至少两个标签树中子标签的标签特征相同的个数，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树。

上述方案中，所述处理单元，还用于基于每一组标签树中的所有标签树的结构特征，对每一组标签树进行排序处理；

对应地，所述第一获取单元，还用于从排序处理后的每一组标签树中选取出一个基准标签树，并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。

上述方案中，所述第二获取单元，还用于获取输入信息；所述输入信息表征所述待融合标签的合并位置；

所述处理单元，还用于基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。

上述方案中，所述处理单元，还用于判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征，是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同；

上述方案中，所述处理单元中判断两个标签的标签特征是否相同的步骤包括：

获取两个标签的语义信息，基于语义信息判断两个标签的标签特征是否相同；或者，获取两个标签各自对应的子标签的语义信息，确定出两个标签中语义信息相同的子标签的个数，基于语义信息相同的子标签的个数来确定两个标签的标签特征是否相同。

本发明实施例所述的数据处理方法及其装置，通过获取待融合标签树中的待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取基准标签树中基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征，并基于标签特征，将所述待融合标签与所述基准标签进行匹配，进而确定出待融合标签插入到基准标签树中的合并位置，实现待融合标签树与基准标签树的合并过程，进而得到合并标签树，如此，利用合并标签树即可对用户的目标行为特征进行分析，实现将不同平台中的标签体系进行融合后统一分析用户的目标行为特征的目的。

这里，由于本发明实施例所述的方法，是将现有标签体系中的标签树进行融合处理，所以，得到的新的合并标签体系更细致、准确且适应性广，描述用户目标行为特征也更准确简洁。

附图说明

图1为本发明实施例一数据处理方法的实现流程示意图；

图2为本发明实施例数据处理装置的组成结构示意图；

图3为本发明实施例数据处理方法的具体应用的实现流程示意图。

具体实施方式

为了能够更加详尽地了解本发明的特点与技术内容，下面结合附图对本发明的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本发明。

实施例一

本实施例提供了一种数据处理方法；具体地，这里，为了克服上述现有方法的缺点，本实施例着眼于对各行业网站不同标签体系的整理和融合，提出一种利用不同网站导航，也即利用不同原始标签体系自动化生成新的标签体系的方法。具体地，图1为本发明实施例一所述的数据处理方法的实现流程示意图；如图1所示，所述方法包括：

步骤101：获取基准标签树和待融合标签树；

在一具体实施例中，在步骤101之前，所述方法还包括：获取至少两个原始标签体系；如原始标签体系来源于各行业网站的网站导航系统，这里，每一所述原始标签体系中均包含有至少一个标签树；例如，原始标签体系中包含有至少一个根标签，以及根标签对应的至少一个第一级子标签至第i级子标签；所述i为大于等于1的正整数；以根标签，及其对应的第i级子标签为基础，建立标签树，即每一根标签对应一个标签树，也就是说，所述原始标签体系中根标签的个数与该原始标签体系中标签树的个数相一致。进一步地，获取每一标签树的根标签的标签特征，至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树；此时，步骤101则具体为：从每一组标签树中选取出一个基准标签树，将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。

在实际应用中，每组标签树中包含有两个或两个以上的标签树，这里，当包含有两个以上的标签树时，还需要对每组中的标签树进行排序，具体地，基于每一组标签树中的所有标签树的结构特征，对每一组标签树进行排序处理；进而从排序处理后的每一组标签树中选取出一个基准标签树，并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。

在另一具体实施例中，对标签树进行分组的步骤包括：判断至少两个标签树中根标签的标签特征是否相同；若存在根标签的标签特征相同的至少两个标签树，则将根标签的标签特征相同的标签树划归类为同一组，得到至少一组标签树；若不存在根标签的标签特征相同的至少两个标签树，则获取根标签对应的至少一个子标签的标签特征；根据至少两个标签树中子标签的标签特征相同的个数，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树。例如，将两个标签树中子标签的标签特征相同的子标签的个数大于预设阈值的两个标签树划分为同一组。

步骤102：从所述待融合标签树中选取出待融合标签，从所述基准标签树中选取出与所述待融合标签对应的基准标签；

步骤103：获取所述待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取所述基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征；

这里，与待融合标签具有关联关系的上一级标签可以具体为所述待融合标签的父标签，和/或其祖父标签等；同理，与基准标签具有关联关系的上一级标签可以具体为所述基准标签的父标签，和/或其祖父标签等。

本实施例中，所述待融合标签可以具体为所述待融合标签树中的任一标签，如根标签，或者与根标签对应的子标签；同理，所述基准标签也可以具体为所述基准标签树中的任一标签，如根标签，或者与根标签对应的子标签。

在实际应用中，所述标签特征可以具体为语义信息、或者为附件语义信息；这里，所述附加语义信息可以具体为标签对应的子标签的语义信息等。

步骤104：基于标签特征，将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，以便于将所述待融合标签树与所述基准标签树进行合并处理。

在一具体实施例中，将两个标签进行匹配，进而根据匹配结果确定出合并位置的具体过程包括：判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征，是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同；若相同，则判断所述待融合标签的标签特征是否与所述基准标签的标签特征相同；若相同，则将所述基准标签的位置作为所述待融合标签的合并位置。例如，可以将待融合标签的标签特征、待融合标签的父标签和祖父标签的标签特征作为该待融合标签的目标特征，将基准标签的标签特征、基准标签的父标签和祖父标签的标签特征作为基准标签的目标特征，进而将待融合标签的目标特征和基准标签的目标特征进行比较，以判断两者是否相同；具体地，将待融合标签的父标签、祖父标签与基准标签的父标签、祖父标签两两进行比较，当两者存在一对相同时，则判断待融合标签的标签特征与基准标签的标签特征是否“相同”，若相同，则找到了待融合标签“匹配”的基准标签，若不相同，则这个基准标签不是待融合标签的“匹配”标签。当然，若两者均相同时，则也找到了待融合标签“匹配”的基准标签。

这里，若待融合标签未在所述基准标签树中找到合并位置，此时，可以获取输入信息；所述输入信息表征所述待融合标签的合并位置；进而基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置，当然，可以直接基于输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。

本实施例中，判断两个标签(根标签，或者根标签对应的任一子标签)的标签特征是否相同的步骤包括：获取两个标签的语义信息，基于语义信息判断两个标签的标签特征是否相同；或者，获取两个标签各自对应的子标签的语义信息，确定出两个标签中语义信息相同的子标签的个数，基于语义信息相同的子标签的个数来确定两个标签的标签特征是否相同，例如，两个标签中语义信息相同的子标签的个数大于预设阈值时，认为该两个标签相同；否则，认为不相同。在实际应用中，判断语义信息是否相同时，可以根据具体应用环境，并不必须两者语义信息严格一致时才认为两者相同。

这样，本发明实施例所述的方法，通过获取待融合标签树中的待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取基准标签树中基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征，并基于标签特征，将所述待融合标签与所述基准标签进行匹配，进而确定出待融合标签插入到基准标签树中的合并位置，实现待融合标签树与基准标签树的合并过程，进而得到合并标签树，如此，利用合并标签树即可对用户的目标行为特征进行分析，实现将不同平台中的标签体系进行融合后统一分析用户的目标行为特征的目的。

实施例二

本实施例提供了一种数据处理装置，如图2所示，所述装置包括：

第一获取单元21，用于获取基准标签树和待融合标签树；

确定单元22，用于从所述待融合标签树中选取出待融合标签，从所述基准标签树中选取出与所述待融合标签对应的基准标签；

第二获取单元23，用于获取所述待融合标签的标签特征，和与所述待融合标签具有关联关系的至少一个上一级标签的标签特征；以及，获取所述基准标签的标签特征，和与所述基准标签具有关联关系的至少一个上一级标签的标签特征；

处理单元24，用于基于标签特征，将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，以便于将所述待融合标签树与所述基准标签树进行合并处理。

在一实施例中，所述第一获取单元21，还用于获取至少两个原始标签体系；每一所述原始标签体系中均包含有至少一个标签树；

所述第二获取单元23，还用于获取每一标签树的根标签的标签特征；

所述处理单元24，还用于至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树；

所述第一获取单元21，还用于从每一组标签树中选取出一个基准标签树，将每一组标签树中除基准标签树以外的其他标签树作为待融合标签树。

在另一实施例中，所述处理单元24，还用于判断至少两个标签树中根标签的标签特征是否相同；若存在根标签的标签特征相同的至少两个标签树，则将根标签的标签特征相同的标签树划归类为同一组，得到至少一组标签树；或者，若不存在根标签的标签特征相同的至少两个标签树，则获取根标签对应的至少一个子标签的标签特征；根据至少两个标签树中子标签的标签特征相同的个数，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树。

在另一实施例中，所述处理单元24，还用于基于每一组标签树中的所有标签树的结构特征，对每一组标签树进行排序处理；

对应地，所述第一获取单元21，还用于从排序处理后的每一组标签树中选取出一个基准标签树，并将每一组标签树中除所述基准标签树以外的其他标签树作为待融合标签树。

在另一实施例中，所述第二获取单元23，还用于获取输入信息；所述输入信息表征所述待融合标签的合并位置；

所述处理单元24，还用于基于匹配结果以及所述输入信息确定出所述待融合标签插入到所述基准标签树中的合并位置。

在另一实施例中，所述处理单元24，还用于判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征，是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同；

在另一实施例中，所述处理单元中判断两个标签的标签特征是否相同的步骤包括：

这里需要指出的是：以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

在本申请所提供的实施例二中，应该理解到，所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。基于此，本发明实施例还提供了另外一种划分及组合方式，如下述实施例三所述，通过下述实施例三所述的模块或单元能够实现本发明实施例所述的数据处理方法。

实施例三

本实施例提供了一种针对互联网用户Web访问行为的标签体系自动化生成方法，利用本实施例所述的方法生成的新的标签体系，可以准确全面的描述网络用户的兴趣爱好。具体地，实际应用中，在基于Web访问行为的用户画像的过程中，使用的用户数据主要是用户浏览的网页数据，利用用户浏览网页的规律，总结提炼用户的行为特征。用户浏览的网页主要包括三类行业网站：门户网站(比如新浪)、金融网站(比如同花顺)、电商网站(比如淘宝网)。用户浏览的网页在其站点中有着相应的导航分类，比如新闻军事类，并且网站导航是专家经过仔细考虑给出的，而且根据众多网民的用户体验进行优化调整，这样的标签体系相对主题模型等技术训练出的标签更准确简练。所以，本实施例直接利用现有网站的导航标签来刻画用户的行为特征。但是由于同一行业的网站，其内容虽然相似，但导航分类的结构却有所差异，所以本实施例首先整理统一这些同一行业的导航，进而利用整理出的导航来最终生成刻画用户行为的标签体系。

具体地，本实施例首先获取目标行业的主流网站的导航，即获得目标行业对应的原始标签体系，这里，在实际应用中，可以先确定出目标用户行为，即需要研究的用户行为，比如需要研究用户的消费习惯时，则提取淘宝、京东等主流电商网站的原始标签体系；然后通过人工与自动化结合的手段，将同一行业的不同原始标签体系进行合并，如将淘宝与京东的标签体系进行融合，得到最终的合并标签体系，进而利用合并标签体系来刻画用户的行为特征，即刻画用户针对目标用户行为的行为特征。进一步地，本实施例所述的方法可以通过以下两个模块来实现，即：获取原始标签体系模块和半自动化模块；其中，

第一、所述获取原始标签体系模块；这里，为了使最终的得到的合并标签体系更加全面、精准，所述获取原始标签体系模块可以选择具有代表性的网站作为合并标签体系的基础，进而利用网络爬虫技术或者人工的方法获得目标站点的原始标签体系，也即网站导航，并存入到数据库(数据库类型任意)中，以为半自动化模块合并标签提供原始数据。

第二，所述半自动化模块，利用所述获取原始标签体系模块得到的原始标签体系，通过人工和自动化方法相结合的方式，合并同一行业的不同原始标签体系(这里，只有相同行业的标签体系才能够相互合并，比如电商行业的标签体系包括天猫、京东、苏宁易购等；金融行业的标签体系包括同花顺、中金在线，东方财富网等；门户行业的标签体系包括新浪、网易、搜狐等)，进而生成新的标签体系，也即合并标签体系。其主要思路是：首先利用自动化的方法生成原始标签系统对应的大部分标签的合并建议，即标签应该合并的位置或者标签应该与哪个标签合并，但是由于自动化的方法无法全部确定出标签合并的位置，有些标签合并的位置比较多，有些标签无法确定合并的位置，因此还需要人工的方式辅助自动化的方法来合并这些有异议的标签，所以，为实现上述半自动化的合并过程，本实施例中所述半自动化模块可以通过以下半自动化系统实现，以完成自动化标签合并建议的生成以及与人交互的过程；这里，所述半自动化系统包括交互子模块和处理子模块以及数据库。具体地，所述半自动化系统的工作原理为：在交互子模块选择要合并的标签，传递给处理子模块；处理子模块自动化整理出这些标签的合并建议，并传递给交互子模块进行实现；交互子模块通过颜色标记出哪部分标签确定了合并位置，哪些标签未确定合并位置，需要人的辅助，人工对那些需要辅助的标签的合并建议进行编辑，给出确定的标签合并位置，传递给处理子模块；处理子模块存储最终的合并建议到数据库中，并且根据最终的合并建议合并原始标签体系中标签，得到合并标签体系，并传递给交互子模块；交互子模块显示合并处理后的合并标签体系，以供处理人员确定是否有需要修改的地方，当存在需要修改的地方时，获取处理人员给出的修改建议，比如某个标签重复可以直接删除这个标签，并将修改建议传递给处理子模块；处理子模块根据修改建议修改所述合并标签体系，最终生成新的标签体系(即最终版本的合并标签体系)，并将新的标签体系传入数据库中保存。基于上述原理，对所述半自动化系统中的交互子模块和处理子模块的主要功能做进一步详细说明；其中，

所述处理子模块，主要负责自动化的生成标签合并的建议，处理交互子模块传递的新的标签合并建议以及标签体系修改建议，按照最终的建议合并原始标签体系，并将合并处理后的合并标签体系发送至数据库进行存储。

这里，在实际应用中，一个原始标签体系由多层次的标签组成，每个一级标签可以看作是根标签，相应的二级标签是根标签的子标签，如每个根标签对应多级子标签；这里，每个根标签及其对应的子标签可以看作是一个标签树，这样可以将原始标签体系看作是由根标签对应的标签树构成；且每个原始标签体系有几个根标签，就有相应的几个标签树，也就是说，原始标签体系中标签树的个数与根标签的个数相同。

进一步地，所述处理子模块标签合并的主要思路包括：

将不同原始标签体系中满足合并条件的标签树相互合并，最终得到合并标签体系。这里，标签树能够相互合并的条件有两个:第一是标签树的根标签完全相同，那么标签树的内容是相似的，标签树能够相互合并；第二是标签树的子标签内容相似，即两个标签树中相互重合的子标签数量(相同的标签数据按两个计算)占两个标签树的总标签数(即第一个标签树的总标签数与第二个标签树的总标签数之和)的百分比达到某个阈值(阈值可根据具体实际设定)，则认为两个标签树的内容相似，能够相互合并。以上两个条件只要满足一个条件，则认为两个标签树可以相互合并。根据上述判断条件将原始标签体系中的所有标签树分组，每个组内的标签树的标签内容相似，可以用组内的根标签(选则能够表明分组内容的根标签)表示这个分组的内容，即组名，将分在同一组的标签树两两进行合并，最终得到合并后的合并标签体系。在组内两个标签树合并的过程中，其中一个作为基准标签树，另一个作为待融合标签树，将待融合标签树插入到基准标签树中，这就说明合并后的标签树的结构与基准标签树相似，即基准标签树的层次结构越分明，合并后的标签树的结构也分明。而在合并的过程中，由于每个分组中标签树的数量可能超过两个，此时，以怎样的顺序合并标签树，决定了最后合并标签树的结构，所以，本实施例还需要对每个分组内的标签树根据其结构层次、包含标签数量的多少进行排序，决定标签树的合并顺序，即前两个标签树进行合并，合并后再与第三个标签树进行合并，以此类推得到最终的合并标签体系。综上，每组标签树合并过程中，首先要决定以怎样的顺序合并标签树，然后在两个标签树进行合并的时候，决定待融合标签插入基准标签树的位置(即标签合并建议)。具体地，步骤包括：

步骤1：确定标签树的合并顺序；在实际应用中，每组的标签树可能有多个，所以需要确定这些标签树的合并顺序；具体地，按照标签树其结构层次、包含标签数量的多少进行对每组中标签树排序，即标签树的分层越多、叶子标签(也即子标签)越多，标签树排序位置越靠前。然后依次对排序处理后的标签树进行合并处理，排序在最前的标签树作为基准标签树，其次作为待融合标签树。这里，所述标签树排序的具体方法包括：

步骤1-1：首先按照标签树的分层排序，层数越多(说明标签的划分结构更有层次性，更完善)，排位越靠前；

步骤1-2：存在层次相同的标签树时，将层数相同的标签树再进行排序，对于层数相同的标签树的排序方法有两种：一种是子标签中非叶子标签的数目越多(说明标签的划分类别比较多，结构更细致完整)，排位越靠前；另一种是子标签中叶子标签的数量越多(说明包含的标签比较多，标签更细致完整)，排位越靠前。

步骤2：标签合并位置的生成；将待融合标签体系中的待融合标签与基准标签进行对比，寻找合并的位置。具体寻找合并位置的方法如下：

步骤2-1：从待融合标签树中自下而上取待融合标签(如从叶子标签开始，逐级向上延伸，直至到根标签，以逐级选取待融合标签)，然后与相应基准标签树的每个标签进行比较，这里，可以将待融合标签的标签特征、待融合标签的父标签和祖父标签的标签特征作为该待融合标签的目标特征，同理，将基准标签的标签特征、基准标签的父标签和祖父标签的标签特征作为基准标签的目标特征，进而将待融合标签的目标特征和基准标签的目标特征进行比较，以判断两者是否相同；例如，将待融合标签的父标签、祖父标签与基准标签的父标签、祖父标签两两进行比较，当两者存在一对相同时，则判断待融合标签的标签特征与基准标签的标签特征是否“相同”，若相同，则找到了待融合标签“匹配”的基准标签，若不相同，则这个基准标签不是待融合标签的“匹配”标签。当然，若两者均相同时，则也找到了待融合标签“匹配”的基准标签。

步骤2-2：根据是否存在与待融合标签“匹配”的基准标签，来确定待融合标签合并的位置；具体地，如果找到了与待融合标签“匹配”的一个基准标签，那么这个待融合标签合并的位置就是这个基准标签的位置，这里，若待融合标签存在子标签，则两者的子标签也是相互合并的关系；进一步地，如果找到多个与待融合标签“匹配”的基准标签，那么这个待融合标签不确定其合并位置，但是有时也会选合并位置集合，即将待融合标签“匹配”到的多个基准标签位置；进一步地，如果未找到待融合标签“匹配”的基准标签，那么这个待融合标签合并的位置与其父标签直接相关，其父标签合并的位置决定了待融合标签的合并位置，即合并后待融合标签与其父标签依然保持父子关系，比如父标签与某一基准标签合并，那么待融合标签加入到这个基准标签的下级标签中。但是若其父标签也没有确定合并位置，那么这个待融合标签就是不确定合并位置的标签。

本实施例给出了判断两个标签是否“相同”的方法有两种方式：

方式一：根据标签本身语义信息进行判断：有两个标签——待融合标签A和基准标签B，待融合标签A和基准标签B分别由n和m个字组成，它们分别表示为A₁A₂...A_n和B₁B₂...B_m，其中A_i、B_j分别表示组成待融合标签A和基准标签B的字。这里，在实际应用中，可以逐个比较待融合标签A和基准标签B的字，若待融合标签A中的字有a个字在基准标签B中找到，则认为待融合标签A和基准标签B的相似度为a/n，若这个相似度大于一预设值，如0.5，则认为待融合标签A和基准标签B“相同”；否则，不“相同”。

方式二：根据标签的附加语义进行判断：在待融合标签A和基准标签B都有子标签的情况下，利用子标签的相似性判断两个标签是否“相同”。比如，所述标签待融合A和基准标签B，它们的所有子标签的集合是Ω_A和Ω_B，其集合中标签数量分别为N_A和N_B，此时，计算待融合标签A和基准标签B的子标签的集合Ω_A和Ω_B的交集——Ω_A∩B，交集中标签数量是N_A∩B，此时，两个标签的子标签的重合率是:设置一个阈值(需要根据实际统计情况进行调整)，当重合率大于该阈值时，则认为两个标签的子标签相似度足够大，这两个标签是“相同”的，否则，不“相同”。

上述两个方法中任意一个方法确定两个标签是“相同”的关系，则认为两个标签“相同”。

这样，基于步骤确定出的待融合标签的位置，即可以生成标签合并建议。

进一步地，所述交互子模块，主要负责显示原始标签体系以及标签合并的建议，同时允许人工通过交互界面修改完善标签合并的建议，并传递给处理子模块，以便于最终显示合并后的合并标签体系，同样允许人工修改完善合并后的合并标签体系，并传递给处理子模块，完成修订后的新标签体系。这里，所述交互子模块包含两个关键功能，分别为界面显示功能和交互流程功能；其中，所述界面显示功能的主要功能通过四个单元实现，该四个单元具体为：根标签目录单元，原始标签体系单元、标签合并的建议单元，以及合并后标签体系单元；其中，

所述根标签目录单元，在合并标签体系过程中，主要思路是依次将同一组的标签树合并，最终得到合并后的标签体系。所以要通过根标签目录单元在界面中展示根标签目录(也即组名)，这里，每个根标签(即每个组)下对应多个标签树，在实际应用中，可以通过根标签目录选择特定的根标签(也即选中特定的组)，进而确定出要合并的组，然后依次合并组内的标签树。

所述原始标签体系单元，用于在选中根标签后，显示该根标签对应的分组中的前两个标签树，比如该组有三个标签树，首次展示要合并的前两个标签树，然后再展示合并后的标签树与第三个标签树。这里，每次合并两个标签树，其中一个为待融合标签树，另一个基准标签树，对于待融合标签树，可以用两种颜色显示，一种表明确定合并位置的标签，另一种表明不确定合并位置的标签，以便于人工辅助确定出不确定合并位置的标签的具体位置。

所述标签合并的建议单元，从处理子模块读取相应的合并建议，并显示，以便于人工对建议进行编辑和选取，确定出每个标签的合并建议，并传递给处理子模块。

所述合并标签体系单元，用于显示合并后的标签体系，以供人工判断合并后的标签体系是否满意；具体地，所述处理子模块根据合并建议(即每个标签合并位置)合并标签，生成合并后标签体系，交互子模块通过所述合并标签体系单元显示合并后的标签体系。进一步地，人工可以通过合并标签体系单元对合并后的标签体系直接进行编辑，比如删除某个标签，处理子模块根据交互子模块中合并标签体系单元的编辑对标签体系进行修改，以便于生成新的标签体系，并存入数据库中。

这里，交互子模块的处理过程包括：

步骤一：通过根标签目录单元程序的交互界面选择根标签目录中的某个根标签(例如选择根标签“女装”，其对应三个标签树，进而依次合并这三个标签树)，处理子模块从数据库中读出该根标签对应的前两个原始标签树，并自动化生成该两个原始标签树的合并建议，交互子模块显示这两个原始标签树(一个为基准标签树，另一个为待融合标签树)以及合并建议；

步骤二：选择待融合标签树中不确定合并位置的标签，编辑这些标签的合并位置(可以选择已有的合并建议或者重新编辑合并位置)，待编辑全部完成后，将这些建议传递给处理子模块，处理子模块将每个标签合并的位置建议存入数据库，并且根据这些建议合并标签体系，然后由交互子模块显示合并后的标签树；

步骤三：通过交互界面对合并后的标签体系直接进行修改，完成后，交互子模块将这些改动传递给处理子模块，处理子模块基于修改建议修改合并后的标签体系，并将修改后的新的标签树存入数据库中；

步骤四：若该根标签分组下还有其他未合并的标签树，则转入步骤二继续合并该组内的标签树；若该根标签分组下标签树合并完毕，但还有其他根标签分组下的标签树未合并，则转入步骤一继续合并其他分组的标签树；若全部合并完毕，则结束，显示最终合并后的标签体系。

这样，通过以上步骤，完成标签体系的合并过程。这里，合并后的标签体系可以应用于用户画像，比如利用合并后标签体系中各个标签对应的网页文本信息(每个合并后的标签都来源于原始标签体系的一个或几个标签，可以根据原始标签对应的网站内的网页获得各个标签对应网页的文本信息)，训练分类器，当已知用户浏览某些具体网页时，通过对这些网页分类，来确定用户感兴趣的网页的类型，进而确定出用户的行为特征。

与现有技术相比，本发明实施例首次提出了利用网站导航信息构建全面、精准的标签体系，通过分析各行业主流网站的导航标签体系，并以此为基础，将同一行业的不同站点的标签体系整合成统一的标签体系，本发明实施例合并后得到的标签体系相比于单个站点的标签体系或者现有技术生成的标签体系具有如下特征：

第一、合并标签体系具有大众性、准确性；现有技术中标签体系的选择并没有考虑使用网页导航等的标签体系。而本发明实施例构建了一个相对比较完备的标签体系，即以多个网站上的已有标签体系作为基础，通过对其进行融合，得到一个普适的标签体系，更大程度上反映了用户喜好。进一步地，由于网站的标签体系能够指引用户找到感兴趣的站点，提供良好的用户体验，所以网站本身的标签体系不仅很好的描述了网站的信息，更在一定程度上适应用户的兴趣和习惯，使用这样具有一定代表性的标签体系作为构建合并标签体系的基础，可使最后形成的合并标签体系更准确且适应性广，描述用户爱好行为更准确简洁。

第二、合并标签体系更全面且精炼；现在标签体系只着眼于标签本身，而并没有针对不同标签体系进行融合，所以得到的标签体系并不完善。而本发明实施例形成的合并标签体系由于合并了多个网站的标签体系，包含的标签类别更多，标签间层级明显，描述用户喜好更加细致，并且从语义和内容的层面多次对相似标签进行融合，且借助人工的辅助，使得得到的合并标签体系更精炼。

第三，标签体系的合并方法适用性广；本发明实施例的标签体系合并方法，不局限于结构相似的标签体系的合并，可以将结构不同或者在体系中不同位置的标签进行合并，因此，具有适应性广的特点。

第四，合并标签体系更新频率较低而且更新成本较低；由于合并得到的合并标签体系可以包含目标行业的大部分描述用户行为的标签，而且，只有在原始标签体系发生比较大的变动时，才需要重新合并标签体系，所以，本发明实施例生成的合并标签体系生命周期比较长，不需要频繁更新。并且即使更新标签体系，也只是处理、合并网站的导航标签，不会大规模处理用户数据例如用户浏览的网页数据，所以更新成本较低。

这样，利用合并标签体系对用户行为进行的分析时，得到的用户行为特征更加精准。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明实施例的实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明实施例原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明实施例的保护范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取基准标签树和待融合标签树；

2.根据权利要求1所述的方法，其特征在于，所述方法包括：

获取每一标签树的根标签的标签特征；

对应地，所述获取基准标签树和待融合标签树，包括：

3.根据权利要求2所述的方法，其特征在于，所述至少根据每一标签树的根标签的标签特征，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树，包括：

判断至少两个标签树中根标签的标签特征是否相同；

4.根据权利要求2或3所述的方法，其特征在于，所述方法还包括：

对应地，所述获取基准标签树和待融合标签树，包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述待融合标签与所述基准标签进行匹配，并至少基于匹配结果确定出所述待融合标签插入到所述基准标签树中的合并位置，包括：

7.根据权利要求3或6所述的方法，其特征在于，判断两个标签的标签特征是否相同的步骤包括：

8.一种数据处理装置，其特征在于，所述装置包括：

第一获取单元，用于获取基准标签树和待融合标签树；

9.根据权利要求8所述的装置，其特征在于，所述第一获取单元，还用于获取至少两个原始标签体系；每一所述原始标签体系中均包含有至少一个标签树；

10.根据权利要求9所述的装置，其特征在于，所述处理单元，还用于判断至少两个标签树中根标签的标签特征是否相同；若存在根标签的标签特征相同的至少两个标签树，则将根标签的标签特征相同的标签树划归类为同一组，得到至少一组标签树；或者，若不存在根标签的标签特征相同的至少两个标签树，则获取根标签对应的至少一个子标签的标签特征；根据至少两个标签树中子标签的标签特征相同的个数，对所述至少两个原始标签体系中的所有标签树进行分组处理，得到至少一组标签树。

11.根据权利要求9或10所述的装置，其特征在于，所述处理单元，还用于基于每一组标签树中的所有标签树的结构特征，对每一组标签树进行排序处理；

12.根据权利要求8所述的装置，其特征在于，所述第二获取单元，还用于获取输入信息；所述输入信息表征所述待融合标签的合并位置；

13.根据权利要求8所述的装置，其特征在于，所述处理单元，还用于判断与所述待融合标签具有关联关系的至少一个上一级标签的标签特征，是否与与所述基准标签具有关联关系的至少一个上一级标签的标签特征相同；若相同，则判断所述待融合标签的标签特征是否与所述基准标签的标签特征相同；若相同，则将所述基准标签的位置作为所述待融合标签的合并位置。

14.根据权利要求10或13所述的装置，其特征在于，所述处理单元中判断两个标签的标签特征是否相同的步骤包括：