CN109325171A

CN109325171A - 基于领域知识的用户兴趣分析方法及系统

Info

Publication number: CN109325171A
Application number: CN201810896429.1A
Authority: CN
Inventors: 张园美; 陈嘉辉
Original assignee: Weibo Internet Technology China Co Ltd
Current assignee: Weibo Internet Technology China Co Ltd
Priority date: 2018-08-08
Filing date: 2018-08-08
Publication date: 2019-02-12

Abstract

本发明实施例提供了一种基于领域知识兴趣分析方法及系统，所述方法包括：根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集；提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集；根据预先构建用户兴趣分析的领域知识树，计算当前用户的兴趣标签集中各个兴趣标签的权重；根据当前用户的兴趣标签集和各个兴趣标签的权重，得到当前用户的兴趣模型。通过分析这些少量的关键节点，实现对任一普通用户兴趣的获取，从而克服了微博文字少、内容泛、用词不规范、点击次数少等特点造成微博用户兴趣分析面临的困难。

Description

基于领域知识的用户兴趣分析方法及系统

技术领域

本发明涉及互联网用户数据挖掘领域，尤其涉及一种基于领域知识对用户进行兴趣分析的方法及系统。

背景技术

在互联网领域，希望根据有限的用户信息精准的挖掘出用户的兴趣，便于为用户提供高质量的个性化服务，实现用户和商家的双赢。目前，认为能反映出微博用户兴趣所在的信息主要涵盖用户的注册信息、用户行为信息(如关注、转发、评论等)及内容信息三方面。在现有技术中，分析用户兴趣的方法有以下三种，方法一：根据用户的注册信息分析用户兴趣的方法中，通过提取用户的年龄、性别、国籍、职业等特征，基于人口统计学特征分析用户兴趣。方法二：根据用户行为信息，如关注、转发、评论等内容，提取用户的兴趣标签，进而分析用户兴趣。方法三：基于用户内容分析，基于语义分析、词频统计等方法，提取关键词特征分析用户兴趣。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：方法一只适用于分析用户的基础特征，无法进行更深入的兴趣挖掘及分析；方法二，由于微博具有复杂网络的特点，用户行为也分为不同的类别，现有技术不能有效识别及标识代表用户兴趣的关键路径行为，难以有效提取用户兴趣；方法三，由于微博内容碎片化的特点，文本挖掘用户兴趣的方法效果不理想。

发明内容

本发明实施例提供一种基于领域知识的用户兴趣分析方法及系统，充分利用了微博中不同类型用户之间的关系，在用户构建的复杂网络关系中，通过分析少量的关键节点用户，统计分析并确定任一普通用户的兴趣之所在。避免了微博文字少、内容泛、用词不规范、点击次数少特点造成微博用户兴趣分析面临的困难。

一方面，本发明实施例提供了一种基于领域知识的用户兴趣分析方法，所述方法包括：

根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集；

提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集；

根据预先构建的用户兴趣分析的领域知识树，计算当前用户的兴趣标签集中各个兴趣标签的权重；

根据当前用户的兴趣标签集和各个兴趣标签的权重，得到当前用户的兴趣模型。

另一方面，本发明实施例提供了一种基于领域知识的用户兴趣分析系统，所述系统包括：

采集单元，用于根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集；

提取单元，用于提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集；

计算单元，用于根据预先构建的用户兴趣分析的领域知识树，计算兴趣标签集中各个兴趣标签的权重；

建模单元，用于根据当前用户的兴趣标签集和各个兴趣标签的权重，得到当前用户的兴趣模型。

上述技术方案具有如下有益效果：因为采用筛选当前用户关注的关键节点的技术手段，所以达到了分析少量关键节点从而得到当前用户兴趣标签的技术效果，因为采用了预先构建用户兴趣分析的领域知识树的技术手段，所以达到了基于所述的领域知识树得到任一兴趣标签的权重，从而得到任一普通用户的兴趣模型的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例基于领域知识的用户兴趣分析方法的流程图；

图2是本发明实施例基于领域知识的用户兴趣分析系统的结构示意图；

图3是本发明实施例1用户的领域知识树的示意图；

图4是本发明实施例1用户的兴趣模型的示意图；

图5是本发明实施例1用户兴趣分析的整体框架图；

图6是本发明实施例2用户的兴趣分类树的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请具体参考图1，图1是本发明实施例基于领域知识的用户兴趣分析方法的流程图：

101、根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集；

102、提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集；

103、根据预先构建的用户兴趣分析的领域知识树，计算兴趣标签集中各个兴趣标签的权重；

104、根据当前用户的兴趣标签集和各个兴趣标签的权重，得到当前用户的兴趣模型。

优选地，用户兴趣分析的领域知识树的构建方法，具体包括：

筛选粉丝数大于预设阈值的用户，采集筛选出的所有用户预设的兴趣标签；

建立粉丝数大于预设阈值的所有用户的兴趣标签的上位概念与下位概念之间的层级关系；

将预先设置的固定内容标签作为用户兴趣分析的领域知识树的唯一根节点；

将最高层上位概念的兴趣标签置于所述领域知识树根节点下的第一层级的位置；

将最高层上位概念的兴趣标签所对应下位概念的兴趣标签，置于所述最高层上位概念的兴趣标签的下一层级的位置；

依此类推，根据各个兴趣标签之间的上位概念与下位概念之间的层级关系，得到用户兴趣分析的领域知识树。

优选地，所述根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集，具体包括：

提取当前用户的关注信息列表；

针对所述关注信息列表中每一个节点，若所述关注信息列表中的当前节点的粉丝数大于预设阈值，则所述当前节点为关键节点；

将各个关键节点的集合作为当前用户的关键节点集。

优选地，所述提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集，具体包括：

根据关键节点的属性信息，将各个关键节点分成名人关键节点和主题领域关键节点两大类；

提取名人关键节点预设的至少两个兴趣标签；

提取主题领域关键节点预设的至少一个兴趣标签；

汇总提取的各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集。

优选地，所述根据预先构建用户兴趣分析的领域知识树，计算当前用户的兴趣标签集中各个兴趣标签的权重，具体包括：

根据用户兴趣分析的领域知识树，确定当前用户的兴趣标签集中各个兴趣标签在所述领域知识树的具体位置；

针对当前用户的兴趣标签集中每一个兴趣标签，分别执行如下操作：

根据当前兴趣标签在所述领域知识树中的位置，确定当前兴趣标签的分值；

根据当前兴趣标签的分值，计算兴趣标签集中与当前兴趣标签同一层级的所有兴趣标签的分值之和；

根据当前兴趣标签的分值、以及计算出的与所述当前兴趣标签同一个层级的所有兴趣标签的分值之和，得到当前兴趣标签的权重。

进一步优选地，所述根据当前兴趣标签在所述领域知识树中位置，确定当前兴趣标签的分值，具体包括：

如果当前兴趣标签在所述领域知识树中的位置处于最底层，执行如下操作：

根据当前用户对提取当前兴趣标签的关键节点的操作行为，预设各类型的操作行为的分值，所述操作行为包括如下类型：关注、评论、转发；

统计当前用户对提取当前兴趣标签的所有关键节点进行不同类型的操作行为时分别对应的总次数；

将当前兴趣标签下各类型的操作行为的分值与不同类型的操作行为分别对应的总次数进行加权运算，得到当前兴趣标签的分值；

如果当前兴趣标签在所述的领域知识树中的位置处于非最底层，执行如下操作：

应用上述针对最底层的兴趣标签的分值计算方法，计算当前非最底层的兴趣标签的自身分值；

将当前非最底层的兴趣标签的自身分值与其下一层级位置上的所有兴趣标签的分值之和，作为当前非最底层的兴趣标签的最终分值。

请具体参考图2，图2是本发明实施例基于领域知识的用户兴趣分析系统的结构示意图：

采集单元21，用于根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集；

提取单元22，用于提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集；

计算单元23，用于根据预先构建的用户兴趣分析的领域知识树，计算兴趣标签集中各个兴趣标签的权重；

建模单元24，用于根据当前用户的兴趣标签集和各个兴趣标签的权重，得到当前用户的兴趣模型。

优选地，所述系统还包括构建单元25，用于构建用户兴趣分析的领域知识树，构建单元25的一种可能结构，具体可以包括：

筛选模块，用于筛选粉丝数大于预设阈值的用户，采集筛选出的所有用户的预设的兴趣标签；

预建模块，用于建立粉丝数大于预设阈值的所有用户的兴趣标签的上位概念与下位概念之间的层级关系；

根节点模块，用于将预先设置的固定内容标签作为用户兴趣分析的领域知识树的唯一根节点；

建层模块，用于将最高层上位概念的兴趣标签置于所述领域知识树根节点下的第一层级的位置；将最高层上位概念的兴趣标签所对应下位概念的兴趣标签，置于所述最高层上位概念的兴趣标签的下一层级的位置；依此类推，根据各个兴趣标签之间的上位概念与下位概念之间的层级关系，得到用户兴趣分析的领域知识树。

优选地，所述采集单元21的一种可能结构，具体包括：

提取关注列表模块，用于提取当前用户的关注信息列表；

筛选模块，用于针对所述关注信息列表中每一个节点，若所述关注信息列表中的当前节点的粉丝数大于预设阈值，则所述节点为关键节点；

汇总模块，用于各个关键节点的集合作为当前用户的关键节点集。

优选地，所述提取单元22的一种可能结构，具体包括：

分类模块，用于根据关键节点的属性信息，将各个关键节点分成名人关键节点和主题领域关键节点两大类；

第一提取兴趣标签模块，用于提取名人关键节点预设至少两个兴趣标签；

第二提取兴趣标签模块，用于提取根据主题领域关键节点预设至少一个兴趣标签；

合并模块，用于汇总提取的各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集。

优选地，所述计算单元23的一种可能结构，具体包括：

确定模块，用于根据用户兴趣分析的领域知识树，确定当前用户的兴趣标签集中各个兴趣标签在所述领域知识树的位置；

计算模块，用于针对当前用户的兴趣标签集中每一个兴趣标签，根据当前兴趣标签在所述领域知识树中的位置，确定当前兴趣标签的分值；

求和模块，用于根据当前兴趣标签的分值，计算兴趣标签集中与当前兴趣标签同一层级的所有兴趣标签的分值之和；

求权重模块，用于根据当前兴趣标签的分值、以及计算出的与当前兴趣标签同一个层级的所有兴趣标签的分值之和，得到当前兴趣标签的权重。

进一步优选地，所述计算模块，具体包括：

第一计算子模块，用于如果当前兴趣标签在所述领域知识树中的位置处于最底层，根据当前用户对提取当前兴趣标签的关键节点的操作行为，预设各类型的操作行为的分值，所述操作行为，包括：关注、评论、转发；统计当前用户对提取当前兴趣标签的所有关键节点进行不同类型操作行为时分别对应的总次数；根据当前兴趣标签下各类型的操作行为的分值与不同类型的操作行为分别对应的总次数的加权运算，得到当前兴趣标签的分值；

第二计算子模块，用于如果当前兴趣标签在所述领域知识树中的位置处于的非最底层，应用上述第一计算子模块针对最底层的兴趣标签的分值计算方法，计算当前非底层的兴趣标签的自身分值；将当前非最底层的兴趣标签的自身得分与其下一层级位置上的所有兴趣标签的分值之和，作为当前非最底层的兴趣标签的最终分值。

上述技术方案具有如下的有益效果：因为采用了筛选当前用户关注的信息列表中的节点的粉丝数量大于预设阈值的技术手段，所以达到了精选出有价值的关键节点的技术效果；因为采用了将当前用户关注的关键节点分成名人关键节点和领域知识关键节点两大类节点，并根据不同的关键节点的类型分别提取预设的数量适宜的兴趣标签，所以达到了少量分析关键节点就可以得到数量合适且质量上乘的用户兴趣标签的技术效果；因为采用了具体预设兴趣标签的上位概念与下位概念之间的关系的技术手段，所以达到了构建用户兴趣分析的领域知识树的技术效果；因为采用了预设当前用户对提取兴趣标签的关键节点的不同类型的操作行为得分、统计当前用户对提取兴趣标签的关键节点进行不同类型的操作行为分别对应的总次数的技术手段，所以达到了精准计算当前用户兴趣标签的权重的技术效果。本发明提供的技术方案，在充分分析微博网络特点的基础上，从用户的需求出发，以数据挖掘技术作为实现方法，分析不同用户群体的兴趣差异，提出了以用户关注的关键节点用为分析其兴趣的新思路。通过分析用户在微博上的社交关系及行为数据，分析用户兴趣偏好，从而满足用户需求，并提供高质量的个性服务，使用户和商家都从中受益，为微博网站的盈利和发展提供条件。

下面结合具体的应用实施例对本发明的技术方案作进一步的阐述：

本发明实施例以关键节点作为分析普通用户的兴趣的背景，通过对这些关键节点的特征进行向量化标识，来分析普通用户的兴趣特征。请具体参考图3，图3是本发明实施例1用户的领域知识树的示意图。

首先确定当前用户的兴趣来源，在一优选的实施例中，通过分析微博网络中的关键节点，来确定当前用户的兴趣来源，如何确定微博中的关键节点呢？微博中的关键节点，也就是微博中的关键节点用户，当某一个微博中的用户的粉丝数超过了预设阈值(例如，阈值设为10000)时，就认为这个微博用户是关键节点用户。为什么可以通过分析微博网络内的关键节点用户来得到普通用户的兴趣呢？这是因为，微博用户对其它微博用户关注的原因就是对其感兴趣，微博中的关键节点用户主要可以分为两大类，一类是名人微博，另一类是主题领域类微博。普通微博用户对名人微博关注的原因是对该名人本身或是对该名人所从事的职业和专长比较感兴趣；关注主题领域类微博，则是对其内容感兴趣，目的是为了获取特定领域的信息。如果把关键节点用户用合理的标签进行抽象化表示，如名人微博用其名字和职业作为代表，主题领域类微博以其发布的内容作为代表，则可以把关键节点用户标注出来，作为分析普通微博用户兴趣的领域知识。

然后，将普通微博用户的兴趣分类。在明确用户兴趣来源的基础上，如何将代表用户兴趣的特征进行规范化分类及标识尤为重要。提取关键节点用户的兴趣标签也是难点，针对名人微博，提取至少两个兴趣标签。在一优选的实施例中，通过人工的方式确定代表某一关键节点微博用户的兴趣标签，这些兴趣标签可看作是基本的知识单元。例如：刘翔的微博可用“110米栏”和“刘翔”两个兴趣标签来表示，分别代表了他的专业领域以及他本人是某些粉丝心中偶像的事实。

分析各个兴趣标签的外延，建立各个兴趣标签之间的上位概念与下位概念的层级关系；将“用户兴趣”作为用户兴趣分析的领域知识树的唯一根节点；将具有最大外延的上位概念，换言之，具有最高层级上位概念的兴趣标签置于所述领域知识树根节点下的第一层级的位置；将隶属于具有最高层级的上位概念的兴趣标签中的，具有下一层级下位概念的兴趣标签，置于所述上位概念的兴趣标签的下一层级的位置；依此类推，根据各个兴趣标签之间的上位概念与下位概念之间的层级关系，得到用户兴趣的领域知识树。按照标签的内涵和外延形成树状组织，外延越大的概念越靠近领域知识树的根部，内涵越接近的领域知识树的位置越靠近。从第一层级依次往下由粗粒度到细粒度地把兴趣标签组织起来，得到用户兴趣的领域知识树。在一优选的实施例中，得到微博用户兴趣分析的领域知识树，也可以称为微博用户兴趣分析的背景知识树，所述领域知识树是主要体现了两类上位概念与下位概念的关系，Kind-of的类属关系以及Instance-of的概念和个体之间的关系。请具体参考图3，如体育和跳水之间是Kind-of的关系，娱乐和人物之间是Instance-of关系。由于，所述的当前用户的领域知识是根据关键节点微博用户的兴趣标签得来的，所以树上的概念不一定是完备的，即相关的领域概念未必全都涵盖，此外，兴趣标签的粒度表明了对领域知识刻画的精细程度，以能把关键节点微博用户表示精楚为度，但是，可以能过机器学习的方式，根据人工设定的兴趣标签不断完善用户兴趣分析的领域知识树。

请具体参考图4，图4是本发明实施例1用户的兴趣模型的示意图；

在本发明提供的技术方案中，用向量空间模型表示法向量空间模型表示法(VSM)，即利用关键词及其权重组成的向量形式来表征用户的兴趣特征及偏好，能够准确清晰的表示出当前用户的兴趣。其基本形式如下：

I＝{(u₁,w₁),(u₂,w₂),...,(u_n,w_n)}

其中，I表示当前用户的兴趣集合，ui表示兴趣标签，wi是对应于ui的权重，表示了当前用户对该兴趣标签感兴趣的程度。

由于兴趣标签选自用户兴趣分析的领域知识树，故其规模和规范性都可以控制，而用户兴趣分析的领域知识树是有层次结构的，因此微博用户的兴趣也是有层次的，是整个领域知识树的一部分如图4所示。

请具体参考图5，图5是本发明实施例1用户兴趣分析的整体框架图；首先，提取当前微博用户的关注信息列表，筛选出关注节点用户的粉丝数大于阈值的关键节点，得到关键节点集，当微博用户关注对象中存在某一关键节点时，则所述的关键节点的兴趣标签自动放入所述当前微博用户的兴趣标签集合中，综合所有其关注的关键节点微博用户的兴趣标签，并合同相同的兴趣标签，得到所述微博用户的初始兴趣标签集合。名人关键节点的兴趣标签有“名字”和“职业”两个，主题领域关键节点的兴趣标签为“内容领域”。计算各个兴趣标签的权重值，得到由当前用户兴趣标签和用户兴趣标签权重组成的当前用户兴趣模型。

其中，得到当前用户的兴趣标签只考虑了微博用户关注列表，通常认为用户关注列表变化不频繁，是当前用户长期兴趣的反应；计算当前用户的兴趣标签的权重地过程中主要考虑了当前用户与关键节点间的互动行为，职转发，评论等不同类型的操作行为，反应了当前用户的短期兴趣。研究表明，用户的长期兴趣稳定不易变化，比起短期兴趣而言更能反映出用户兴趣的大小。而关注行为体现了用户的长期兴趣，评论是用户兴趣的直接表达。因此，当用户转发某条微博并附加有关评论时，更能体现其兴趣。故通常认为用户在微博上的行为所体现出兴趣度的大小关系为：关注>转发且评论>转发但不评论。

在一优选的实施例中，用A表示任意一个普通微博用户，确定A的兴趣的过程如下：

a.确定关键节点集合。提取A的关注列表，在A所有关注的微博中，当fan(i)>T₀时，第i个用户被认为是关键节点，在这个具体的实施例中，就是关键节点微博用户。其中，fan(i)表示第i个关注对象的粉丝数，T₀是判别某个被关注对象是否是关键节点微博用户的阈值。根据关键节点类微博的粉丝数普遍超过一万，而普通微博用户的粉丝很难达到这一规模的特点，设定T₀＝10000。

b.确定兴趣标签集合。从A的第j个关键节点用户中提取其兴趣标签{b_j}＝{b_j1,b_j2,…,b_jk}，其中b_j表示第j个博主所对应兴趣标签，后面是其具体k个兴趣标签的集合；综合A所有关注的n个关键节点微博用户的兴趣标签，合并相同的兴趣标签，形成A的兴趣标签集合{b₁₁,b₁₂,…,b_j1,…,b_nk}。

c.对应用户兴趣分析的领域知识树，明确A的兴趣标签集合中所有兴趣标签在用户兴趣分析的领域知识树中位置。

d.计算兴趣标签集合中各个兴趣标签的分值。若A的兴趣标签集合中的兴趣标签处于用户兴趣分析的领域知识树最底层的位置，则按下述方法计算所述兴趣标签的分值，计算出所有底层兴趣标签的得分值。设定微博上关注、转发且评论、转发但不评论的分值分别为2、1、0.5，由于微博用户在某方面的行为越频繁表示其该方面的兴趣越大，故采用加权运算的方式构建底层兴趣标签得分值计算公式如下：

S(i)＝f_i(关注)×2+f_i(转发且评论)×1+f_i(转发但不评论)×0.5 (2.1)

其中，S(i)表示第i个兴趣标签的得分，f_i(关注)表示对提取第i个兴趣标签所对应的关键节点微博用户进行“关注”的频数，f_i(转发且评论)，表示对提取第i个兴趣标签所对应的关键节点微博用户进行“转发且评论”的频数，其它以此类推，例如，A关注了100个关键节点用户；其中，A关注美食类的关键节点微博用户有20个，那分析A的兴趣时，美食这个兴趣标签的进行关注的频数，就可以认为是20。

若A的兴趣标签集中的兴趣标签处于用户兴趣分析的领域知识树的非最底层的位置，则先由公式(2.1)计算所述兴趣标签自身的分值，所述兴趣标签的最终分值由与其直接相关的所有底层兴趣标签的分值和其自身分值加和求得。

e.求兴趣标签的权重。对应领域知识树某层的标签，其权重的计算公式为：

W_i＝S(i)/∑S(i) (2.2)

其中，W_i为兴趣标签i的权重，∑S(i)是同一层上所有兴趣标签分值之和。对每一层兴趣标签都做同样的处理，得到该层每个兴趣标签的权重。

综合b、e就得到了微博用户A的兴趣模型。

结合以上分析步骤及计算公式，微博用户兴趣表示方法具体如下所示：

请具体参考图5，图5是本发明实施例2用户的兴趣模型的示意图；

随机选取一位微博用户B，按照本发提供微博用户兴趣获取方法，获取微博用户B兴趣的过程和结果如下：

a.提取微博用户B的关注用户列表，根据领域知识树获取B所关注的关键节点微博用户的兴趣标签。得到代表B初始兴趣标签集合为{美食、时尚、笑话、电影、漫画、旅行、经济、做饭很简单、美食工厂、吃货天堂、潮流大连、HOLD时尚风、全球时尚最前线、混搭风、冷笑话精选、搞笑排行榜、明星A、电影集结号、漫画家A、漫画铺子、北京玩乐、日本攻略、经济之声、经济学家A}；

b.对应于用户兴趣分析的领域知识树，明确B的兴趣标签集合中所有兴趣标签的位置。比如其所关注的兴趣标签“经济之声”、“经济学家A”隶属于“经济”兴趣标签的子层级；

c.计算各个兴趣标签的得分值。从领域知识树的最底层标签开始，统计微博用户对各个兴趣标签的关注、转发、评论等行为的频数，按照公式(2.1)，计算出所有兴趣标签的分值；

d.计算各个兴趣标签的权重。根据公式(2.2)确定各兴趣标签的权重，得到B的各个标签的得分值及其权重值如表1所示。

表1微博用户B的兴趣标签得分值及权重

对照用户兴趣分析的领域知识树，综合a和d就得到了微博用户B的兴趣。

为了验证本发明提供的技术方案得到的微博用户兴趣分析方法的正确性、合理性及普适性，需要把所获取的微博用户兴趣与其真实兴趣做对比分析。

微博用户的真实兴趣是通过调查问卷和访谈等方式获得。调查主要有两项：一是围绕微博用户兴趣集开展。把通过本发明提供方法获得的某用户兴趣集合，呈现给该微博用户，让其判断这些兴趣是否是其微博中所表现出的兴趣，是否有出现在其微博中真实兴趣而没有在标签集合中出现等；二是围绕微博用户各个兴趣程度大小展开。由于用户很难按照自身的兴趣直接给出权重，故要求用户对其所感兴趣的标签进行打分排序(十分制，分值越大代表兴趣越大)，并与实验结果得到的排序做对比。

对于微博用户B，根据第一项工作的结果，使用查全率、查准率、协调均值F1作为评价指标，当查全率、查准率、F1的阈值均大于0.85^[2]时，说明该方法能够准确全面的挖掘出用户的兴趣。若任一指标值在该阈值之上，则表示该指标通过验证。B兴趣分析的结果评价如表2所示:

表2微博用户B的兴趣模型评价表

上述结果表明本方法能够准确的挖掘出用户B的兴趣类别。通过与该用户访谈，她还喜爱文学，对韩寒比较感兴趣，但从其微博上却看不到这些信息，这是查全率不到90％的原因。在准确性方面，她表示有些信息只是偶尔看看，算不得是兴趣，故查准率没有达到100％。

对于微博用户B，根据第二项工作的结果，将通过访谈法得到的微博用户B的兴趣标签得分值按照公式(2.3)进行处理，得到用户B的实际兴趣如表3所示：

表3微博用户B实际兴趣得分及权重表

为了验证用户实际兴趣与使用本发明提供的方法所获得的用户兴趣之间是否一致，采用相关性检验和非参数检验两种形式。其中相关性检验采用皮尔逊相关系数来检验真实兴趣与获得兴趣之间在多大程度上一致；非参数检验针对我们无法事先确定待分析的两类数据样本的总体分布情况而采用了两个独立样本的Mann-Whitney(曼－惠特尼U检验)检验和K-S检验，分别检验两个样本总体在位置和分布上是否存在显著差异。得到结果如表4所示：

表4微博用户B的检验结果统计表

这从统计学意义上说明，通过本文所提出的方法得到的用户B兴趣模型能够较好地描述该用户的实际兴趣。

然而，为了验证该方法是否具有一般性，需要通过假设检验确定该方法是否可以用于分析其它普通新浪微博用户的兴趣。

与微博用户B的兴趣分析方法一样，对样本中其他微博用户做同样的分析处理。统计80名实验用户各个指标通过频数(各阈值设定与用户B相同)，结果如表5所示：

表5评价指标统计表

使用SPSS软件对表3.6中的数据进行卡方检验，结果如表6所示：

表6卡方检验统计表

从该表可知，对评价指标的六个变量进行卡方检验所得到渐进显著性P值均大于0.05，说明针对样本数据的分析方法能够推广到总体，即本申请提出的用户兴趣建模方法在新浪微博普通用户中具有普遍的适用性。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

为使本领域内的任何技术人员能够实现或者使用本发明，上面对所公开实施例进行了描述。对于本领域技术人员来说；这些实施例的各种修改方式都是显而易见的，并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此，本公开并不限于本文给出的实施例，而是与本申请公开的原理和新颖性特征的最广范围相一致。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例可以做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于领域知识的用户兴趣分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于领域知识的用户兴趣分析方法，其特征在于，用户兴趣分析的领域知识树的构建方法，具体包括：

3.根据权利要求1所述的基于领域知识的用户兴趣分析方法，其特征在于，所述根据当前用户的关注信息列表，筛选出当前用户关注的关键节点，确定当前用户的关键节点集，具体包括：

提取当前用户的关注信息列表；

将各个关键节点的集合作为当前用户的关键节点集；

所述提取各个关键节点的兴趣标签，合并相同的兴趣标签，得到当前用户的兴趣标签集，具体包括：

提取名人关键节点预设的至少两个兴趣标签；

提取主题领域关键节点预设的至少一个兴趣标签；

4.根据权利要求1所述的基于领域知识的用户兴趣分析方法，其特征在于，

所述根据预先构建的用户兴趣分析的领域知识树，计算当前用户的兴趣标签集中各个兴趣标签的权重，具体包括：

根据用户兴趣分析的领域知识树，确定当前用户的兴趣标签集中各个兴趣标签在所述领域知识树中的位置；

根据当前兴趣标签的分值、以及计算出的与当前兴趣标签同一个层级的所有兴趣标签的分值之和，得到当前兴趣标签的权重。

5.根据权利要求4所述的基于领域知识树的用户兴趣分析方法，其特征在于，

根据当前兴趣标签在所述领域知识树中的位置，确定当前兴趣标签的分值，具体包括：

如果当前兴趣标签在所述领域知识树中的位置处于最底层，则执行如下操作：

如果当前兴趣标签在所述领域知识树中的位置处于非最底层，执行如下操作：

6.一种基于领域知识的用户兴趣分析的系统，其特征在于，所述系统包括：

计算单元，用于根据预先构建的用户兴趣分析的领域知识树，计算当前用户的兴趣标签集中各个兴趣标签的权重；

7.根据权利要求6所述的基于领域知识的用户兴趣分析系统，其特征在于，还包括：

构建单元，用于构建用户兴趣分析的领域知识树，具体包括：

筛选模块，用于筛选粉丝数大于预设阈值的用户，采集筛选出的所有用户预设的兴趣标签；

8.根据权利要求6所述的基于领域知识的用户兴趣分析方法及系统，所述采集单元，具体包括：

提取关注列表模块，用于提取当前用户的关注信息列表；

汇总模块，用于将各个关键节点的集合作为当前用户的关键节点集；

所述提取单元，具体包括：

第一提取兴趣标签模块，用于提取名人关键节点预设的至少两个兴趣标签；

第二提取兴趣标签模块，用于提取主题领域关键节点预设的至少一个兴趣标签；

9.根据权利要求6所述的基于领域知识的用户兴趣分析系统，其特征在于，所述计算单元，具体包括：

10.根据权利要求9所述的基于领域知识的用户兴趣分析系统，其特征在于，所述计算模块，具体包括：

第二计算子模块，用于如果当前兴趣标签在所述领域知识树中的位置处于非最底层，应用上述第一计算子模块针对最底层的兴趣标签的分值计算方法，计算当前非最底层的兴趣标签的自身分值；将当前非最底层的兴趣标签的自身得分与其下一层级位置上的所有兴趣标签的分值之和，作为当前非最底层的兴趣标签的最终分值。