CN105427174A

CN105427174A - 一种基于社交网络的转行用户的挖掘方法及装置

Info

Publication number: CN105427174A
Application number: CN201510894587.XA
Authority: CN
Inventors: 李金奎
Original assignee: Weimeng Chuangke Network Technology China Co Ltd
Current assignee: Weimeng Chuangke Network Technology China Co Ltd
Priority date: 2015-12-08
Filing date: 2015-12-08
Publication date: 2016-03-23

Abstract

本发明的实施例提供一种基于社交网络的转行用户的挖掘方法及装置，该方法包括：构建用户能力标签映射集；根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。该方法有利于提升挖掘转行用户的准确率。

Description

一种基于社交网络的转行用户的挖掘方法及装置

技术领域

本发明涉及互联网技术，具体地涉及一种基于社交网络的转行用户的挖掘方法及装置。

背景技术

转行用户是指：在微博等社交网络中，有些账号在运营过程中由于商业利益或其他方面的原因，近期发表的博文内容同之前相比呈现出比较大的领域或行业差异性。比如，某一账号之前一直在发表关于星座相关的内容，近期发表的内容转向了汽车相关，则该账号属于转行用户。

图1为现有的转行用户挖掘方案的流程图。如图1所示，现有技术是采用基于内容识别的方案，即主要是通过对近期发表的内容和之前发表的内容分别进行分类计算，如果所属领域不同，则判别为转行用户。

发明人在实现本发明的过程中发现上述技术的不足之处在于：

1、严重依赖于内容分类的准确率，误判率较高；

2、对于区分不明显的两个标签间的转行用户识别率低。

发明内容

本发明实施例的目的是，提供一种基于社交网络的转行用户的挖掘方法及装置，从三个维度来挖掘转行用户，以提高挖掘转行用户的准确率。

为达上述目的，一方面，提供一种基于社交网络的转行用户的挖掘方法，包括：构建用户能力标签映射集，所述用户能力标签映射集是指与用户能力标签相关的标签集合；根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；其中，所述用户能力标签信息包括用户能力标签及其对应的权重；根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

为达上述目的，另一方面，提供一种基于社交网络的转行用户的挖掘装置，包括：构建单元，用于构建用户能力标签映射集，所述用户能力标签映射集是指与用户能力标签相关的标签集合；第一分析单元，用于根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；其中，所述用户能力标签信息包括用户能力标签及其对应的权重；第二分析单元，用于根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；第三分析单元，用于根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；确定单元，用于根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

上述技术方案具有如下有益效果：上述技术方案通过构建用户能力标签映射集，结合该用户能力标签映射集从被分组信息、自填信息、内容信息三个维度分析用户能力标签信息，并基于该三个维度的用户能力标签信息中的至少其一来确定转行用户进行输出，从而相比于现有技术中的单独采用内容来识别转行用户的技术方案，降低了误判率，有利于提升挖掘转行用户的准确率和覆盖率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有的转行用户挖掘方案的流程图；

图2为本发明实施例一的转行用户挖掘方法的流程图；

图3为本实施例三的转行用户的挖掘装置的整体功能框图；

图4为本实施例三的转行用户的挖掘装置的具体功能框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例在对用户能力标签、自填信息和博文等相关数据信息进行深入分析的基础之上，确定了从下述三个维度来挖掘转行用户：一是将近期的用户被分组信息映射到用户能力标签，并与之前的用户能力标签进行对比；二是将用户的昵称、简介、自标签等自填信息映射到用户能力标签，并与之前的用户能力标签进行对比；三是将用户发表的原创博文打上标签，并同用户的能力标签进行对比；最终将上述结果进行融合，达到阈值条件的用户将被确定为转行用户。

实施例一

图2为本发明实施例一的转行用户挖掘方法的流程图。如图1所示，该基于社交网络的转行用户的挖掘方法包括如下步骤：

步骤210：构建用户能力标签映射集；

其中，用户能力标签是指：描述用户在社交网络中通过自填信息、发表的博文等信息所呈现出的能力特征的标签。能力标签映射集是和选定的用户能力标签具有关联关系的标签集合。具体地，用户能力标签映射集是指与用户的能力标签相关的标签集合。比如用户的能力标签是互联网，则该能力标签的映射集包含互联网技术，互联网大牛，互联网1，电子商务等。构建用户能力标签映射集的方式多种，包括但不限于如下方式：以用户的被分组信息为语料，利用编辑距离+共现频次等算法，构建出用户能力标签的映射集。

步骤220：根据用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；其中，该用户能力标签信息包括用户能力标签及其对应的权重；

其中，第一维度是指用户被分组维度或粉丝维度。用户被分组信息反映的是粉丝对该用户近期的分组情况。具体实施时，本步骤可以将用户近期的被分组信息映射到能力标签：例如分析用户最近三个月的被分组信息，依据上一步骤构建的用户能力标签映射表，从粉丝维度分析出用户近期的能力标签。

步骤230：根据用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；

其中，第二维度是指用户自填信息维度或用户自身维度。用户的自填信息包括但不限于用户的昵称、简介和自标签等信息。具体实施时，本步骤可分析用户的昵称、简介和自标签，并将其映射到用户能力标签，从用户自身维度分析出用户近期的能力标签。

步骤240：根据用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；

其中，第三维度是指内容维度或用户原创博文维度。用户的内容信息反映用户发表的原创博文的内容、类别或主题，主要包括用户发表的原创博文对应的博文标签及其次数。具体实施时，本步骤可以分析用户近半年的原创博文，给博文打上标签，同时引入时间衰减因子，增大用户近期的原创博文的权重，从内容维度分析出用户近期的能力标签。

步骤250：根据第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

其中，本步骤可结合上述3个维度中至少一个维度的特征，将达到预设条件的用户作为转行用户对外输出。

具体地，本步骤可采用如下方式中确定出转行用户：如果第一维度的用户能力标签所对应的权重大于第一预设分值，则确定为转行用户；或者，如果第二维度的用户能力标签所对应的权重大于第二预设分值，则确定为转行用户；或者，如果第三维度的用户能力标签所对应的权重大于第三预设分值，则确定为转行用户；或者，如果第一、第二、第三维度的用户能力标签均具有权重，则确定为转行用户；或者，如果两个维度的用户能力标签具有权重，且该两个维度中的一个维度为第三维度，则确定为转行用户。

本发明的实施例通过构建用户能力标签映射集，结合该用户能力标签映射集从被分组信息、自填信息、内容信息三个维度分析用户能力标签信息，并基于该三个维度的用户能力标签信息中的至少其一来确定转行用户进行输出，从而降低了误判率，有利于提升挖掘转行用户的准确率。

实施例二

本实施例二对图1所示的方法进行进一步的描述。

可选地，步骤210具体可以包括如下步骤：筛选出用户能力标签的种子标签，生成种子标签库；利用编辑距离算法和共现频次算法将所述种子标签库扩展为用户能力标签映射集。其中，种子标签是人工指定的用户能力标签的相关标签，主要包含能力标签的拼音形式、英文形式等。比如，用户能力标签是教育，则可以人工指定几个种子标签：education，edu，jiaoyu等。

可选地，步骤220具体可以包括如下步骤：获得用户的包括被分组名称及被分组次数在内的被分组信息；根据所述用户能力标签映射集，将所述被分组信息映射到第一维度的用户能力标签，并根据被分组次数计算出所述第一维度的用户能力标签的权重。

可选地，步骤230具体可以包括如下步骤：将用户当前的昵称、简介和自标签进行分词；将分词结果利用所述用户能力标签映射集映射到第二维度的用户能力标签，并根据所述第二维度的用户能力标签与所述昵称、简介和自标签相匹配的次数计算出所述第二维度的用户能力标签的权重。

可选地，步骤240具体可以包括如下步骤：获取用户的博文，利用分类器给博文打上分类标签，并统计该分类标签对应的分类次数；根据所述分类标签和所述用户能力标签映射集确定第三维度的用户能力标签；根据所述分类标签的分类次数计算出所述第三维度的用户能力标签的权重。

以下通过具体的例子对本实施例的上述技术方案进一步详细说明：

一、构建用户能力标签映射集

首先，对于选定的用户能力标签，通过所属用户的认证信息、行业信息、标签的拼音及其缩写、标签的英文及其缩写、别名、分类体系等信息进行筛选作为选定的用户能力标签的种子标签，下表列出了根据不同类型的规则生成种子标签的示例：

表1：不同类型的规则生成种子标签示例

其次，以上一步确定的种子标签库为基础，利用编辑距离和共现频次算法对种子标签库进一步扩展为用户能力标签的映射表。编辑距离算法的具体计算逻辑如表2所述：

表2：编辑距离计算的具体逻辑描述

对于共现频率的计算，计算依据是如果用户甲被分到了用户标签A中和用户标签B中，并且被分配的次数均大于2，则用户标签A和用户标签B的共现频率为1。遍历全部用户，计算出用户标签之间的共现频率。

最终形成的用户能力标签映射集为：

表3：用户能力标签及其对应的能力标签映射集

二、将用户近期的被分组信息映射到用户能力标签

在微博等社交网络中，当用户的能力标签发生变化时，最先感知到的应该是关注该用户的粉丝，具体体现为粉丝对该用户近期的分组信息。通过对用户近3个月的被分组信息进行分析，然后依据上一步骤构建的用户能力标签映射集，将被分组信息映射到用户的能力标签，并根据相关的分组次数计算出对应的能力标签的权重，从粉丝维度反映出用户近期的能力标签。

具体的能力标签的权重计算公式为：

其中，count为相关分组的总次数。

表4：用户近期被分组信息能力映射表

三、将用户自填信息映射到用户能力标签

对于转行用户而言，用户的昵称、简介和自标签信息都是其最新能力标签的体现，用户通过上述信息向关注他的粉丝传达其主页所包含的信息或其个人所具备的能力，将用户当前的昵称、简介和自标签信息进行分词，并将分词结果利用能力标签映射集映射到能力标签，并根据其匹配的次数计算其能力标签的权重，从用户自身维度分析出用户近期的能力标签。

具体的能力标签权重的计算逻辑：昵称、简介和自标签三项，匹配上其中的一项为30分，匹配上其中的两项为60分，全部匹配上为90分。

表5：用户自填信息能力映射表

四、将用户原创博文映射到用户能力标签

获取用户近半年的原创博文，利用训练好的分类器，给博文打上相应的分类标签(内容标签)，同时引入时间衰减因子，增大用户近期的原创博文的权重，计算在内容维度方面，用户近期的能力标签及对应的权重。通过时间衰减因子，近期的博文在能力标签计算中占的权重更大。内容标签：描述用户发表的某一篇博文内容的标签。

表6：用户原创博文及对应的标签

用户能力标签权重的计算公式为：

其中count为用户近半年被打上对应标签的原创博文数。

用户昵称	原创博文标签及次数	用户能力标签及权重	前期能力标签
				二次元的大世界	动漫：425	动漫：90.75	职场
PS技巧精选	设计：598	设计：92.14	体育

表7：用户原创博文能力映射表

五、输出转行用户

将用户近期被分组信息、自填信息和原创博文三个维度的能力标签映射信息进行融合，并依据设定的相关阈值规则提取出符合条件的用户作为转行用户输出。

转行用户输出规则
	1.用户被分组维度权重大于50分
2.用户自填信息维度权重大于等于60分
	3.用户原创博文维度权重大于50分
4.用户三个维度均有权重分值
	5.用户两个维度有权重分值，且其中一个维度为用户原创博文维度

表8：转行用户输出规则表

上述技术方案的有益技术效果在于：与传统方法相比，在微博等社交网络中，本实施例除了利用用户的内容信息以外，还可以利用用户自身的信息以及用户的被分组信息，这些新增的数据源，能够有效地提升转行用户的准确率和覆盖率。

实施例三

本实施例提供一种基于社交网络的转行用户的挖掘装置。图3为本实施例三的转行用户的挖掘装置的整体功能框图，如图3所示，该装置包括：

构建单元310，用于构建用户能力标签映射集，该用户能力标签映射集是指与用户能力标签相关的标签集合；

第一分析单元320，用于根据用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；

第二分析单元330，用于根据用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；其中，该用户能力标签信息包括用户能力标签及其对应的权重；

第三分析单元340，用于根据用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；

确定单元350，用于根据第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

进一步地，构建单元310，具体可以用于筛选出用户能力标签的种子标签，生成种子标签库；利用编辑距离算法和共现频次算法将种子标签库扩展为用户能力标签映射集。

图4为本实施例三的转行用户的挖掘装置的具体功能框图。参阅图4：

进一步地，第一分析单元320具体可以包括：获取子单元321，用于获得用户的包括被分组名称及被分组次数在内的被分组信息；映射子单元322，用于根据用户能力标签映射集，将被分组信息映射到第一维度的用户能力标签；计算子单元323，用于根据被分组次数计算出第一维度的用户能力标签的权重。

进一步地，第二分析单元330具体可以包括：分词子单元331，用于将用户当前的昵称、简介和自标签进行分词；映射子单元332，用于将分词结果利用用户能力标签映射集映射到第二维度的用户能力标签；计算子单元333，用于根据第二维度的用户能力标签与昵称、简介和自标签相匹配的次数计算出第二维度的用户能力标签的权重。

进一步地，第三分析单元340具体可以包括：获取子单元341，用于获取用户的博文，利用分类器给博文打上分类标签，并统计该分类标签对应的分类次数；映射子单元342，用于根据分类标签和用户能力标签映射集确定第三维度的用户能力标签；计算子单元343，用于根据分类标签的分类次数计算出第三维度的用户能力标签的权重。

较佳地，确定单元350，可以具体用于：如果第一维度的用户能力标签所对应的权重大于第一预设分值，则确定为转行用户；或者，如果第二维度的用户能力标签所对应的权重大于第二预设分值，则确定为转行用户；或者，如果第三维度的用户能力标签所对应的权重大于第三预设分值，则确定为转行用户；或者，如果第一、第二、第三维度的用户能力标签均具有权重，则确定为转行用户；或者，如果两个维度的用户能力标签具有权重，且该两个维度中的一个维度为第三维度，则确定为转行用户。

上述各功能单元的工作方法或具体实施过程已在前述方法实施例详述，故在此不再赘述。

本发明的实施例的挖掘装置通过构建用户能力标签映射集，结合该用户能力标签映射集从被分组信息、自填信息、内容信息三个维度分析用户能力标签信息，并基于该三个维度的用户能力标签信息中的至少其一来确定转行用户进行输出，从而降低了误判率，有利于提升挖掘转行用户的准确率。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrativecomponents)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于社交网络的转行用户的挖掘方法，其特征在于，包括：

构建用户能力标签映射集，所述用户能力标签映射集是指与用户能力标签相关的标签集合；

根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；其中，所述用户能力标签信息包括用户能力标签及其对应的权重；

根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；

根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；

根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

2.根据权利要求1所述的方法，其特征在于，所述构建用户能力标签映射集包括：

筛选出用户能力标签的种子标签，生成种子标签库；

利用编辑距离算法和共现频次算法将所述种子标签库扩展为用户能力标签映射集。

3.根据权利要求2所述的方法，其特征在于，根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息，包括：

获得用户的包括被分组名称及被分组次数在内的被分组信息；

根据所述用户能力标签映射集，将所述被分组信息映射到第一维度的用户能力标签，并根据被分组次数计算出所述第一维度的用户能力标签的权重。

4.根据权利要求2所述的方法，其特征在于，根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息，包括：

将用户当前的昵称、简介和自标签进行分词；

将分词结果利用所述用户能力标签映射集映射到第二维度的用户能力标签，并根据所述第二维度的用户能力标签与所述昵称、简介和自标签相匹配的次数计算出所述第二维度的用户能力标签的权重。

5.根据权利要求2所述的方法，其特征在于，根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息，包括：

获取用户的博文，利用分类器给博文打上分类标签，并统计该分类标签对应的分类次数；

根据所述分类标签和所述用户能力标签映射集确定第三维度的用户能力标签；

根据所述分类标签的分类次数计算出所述第三维度的用户能力标签的权重。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户，包括：

如果第一维度的用户能力标签所对应的权重大于第一预设分值，则确定为转行用户；或者，

如果第二维度的用户能力标签所对应的权重大于第二预设分值，则确定为转行用户；或者，

如果第三维度的用户能力标签所对应的权重大于第三预设分值，则确定为转行用户；或者，

如果第一、第二、第三维度的用户能力标签均具有权重，则确定为转行用户；或者，

如果两个维度的用户能力标签具有权重，且所述两个维度中的一个维度为第三维度，则确定为转行用户。

7.一种基于社交网络的转行用户的挖掘装置，其特征在于，包括：

构建单元，用于构建用户能力标签映射集，所述用户能力标签映射集是指与用户能力标签相关的标签集合；

第一分析单元，用于根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息；其中，所述用户能力标签信息包括用户能力标签及其对应的权重；

第二分析单元，用于根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息；

第三分析单元，用于根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息；

确定单元，用于根据所述第一、第二、第三维度的用户能力标签信息中的至少其一，确定出转行用户。

8.根据权利要求7所述的装置，其特征在于，所述构建单元，具体用于筛选出用户能力标签的种子标签，生成种子标签库；利用编辑距离算法和共现频次算法将所述种子标签库扩展为用户能力标签映射集。

9.根据权利要求8所述的装置，其特征在于，

所述第一分析单元，具体包括：

获取子单元，用于获得用户的包括被分组名称及被分组次数在内的被分组信息；

映射子单元，用于根据所述用户能力标签映射集，将所述被分组信息映射到第一维度的用户能力标签；

计算子单元，用于根据被分组次数计算出所述第一维度的用户能力标签的权重；

和/或，所述第二分析单元，具体包括：

分词子单元，用于将用户当前的昵称、简介和自标签进行分词；

映射子单元，用于将分词结果利用所述用户能力标签映射集映射到第二维度的用户能力标签；

计算子单元，用于根据所述第二维度的用户能力标签与所述昵称、简介和自标签相匹配的次数计算出所述第二维度的用户能力标签的权重；

和/或，所述第三分析单元，具体包括：

获取子单元，用于获取用户的博文，利用分类器给博文打上分类标签，并统计该分类标签对应的分类次数；

映射子单元，用于根据所述分类标签和所述用户能力标签映射集确定第三维度的用户能力标签；

计算子单元，用于根据所述分类标签的分类次数计算出所述第三维度的用户能力标签的权重。

10.根据权利要求7所述的装置，其特征在于，所述确定单元，具体用于：如果第一维度的用户能力标签所对应的权重大于第一预设分值，则确定为转行用户；或者，如果第二维度的用户能力标签所对应的权重大于第二预设分值，则确定为转行用户；或者，如果第三维度的用户能力标签所对应的权重大于第三预设分值，则确定为转行用户；或者，如果第一、第二、第三维度的用户能力标签均具有权重，则确定为转行用户；或者，如果两个维度的用户能力标签具有权重，且所述两个维度中的一个维度为第三维度，则确定为转行用户。