CN105573995A

CN105573995A - 一种兴趣识别方法、设备以及数据分析方法

Info

Publication number: CN105573995A
Application number: CN201410525882.3A
Authority: CN
Inventors: 冯亮; 尹亚伟; 张上誉
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2014-10-09
Filing date: 2014-10-09
Publication date: 2016-05-11
Anticipated expiration: 2034-10-09
Also published as: CN105573995B

Abstract

<b>本申请公开了一种基于社交网络的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；</b><b>通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布。本申请还公开了一种兴趣识别设备与数据分析方法。</b>

Description

一种兴趣识别方法、设备以及数据分析方法

技术领域

本发明涉及计算机领域，并具体涉及一种兴趣识别方法、设备以及数据分析方法。

背景技术

随着电子商务规模的不断扩大，商品的种类和数量快速增长，客户或潜在客户的群体规模庞大。客户需要花费大量的时间才能选购到心意商品，而企业传统识别潜在客户的方法能力有限。因此，对用户进行兴趣分析是管理复杂的客户关系、改善用户购物体验的一项重要工作。

用户兴趣是进行网络营销、电子商务推荐和个性化信息检索等个性化信息服务的关键，它反映了用户的个人特征和兴趣偏好，是进行个性化信息服务的重要依据。

由于用户的即时兴趣受到生活习惯、时间、地点、天气、工作计划及其他周围环境因素的影响，其预测工作也变得非常复杂。并且，导致预测工作更为困难的是，针对某一用户的即时兴趣是完全个性化的，无法以其他个体的交易数据作为经验历史数据来借鉴。

发明内容

社交网络近年来蓬勃发展，已成为人们信息发表和关注的一个重要线上媒体。而用户发表和关注信息直接或间接显示其兴趣和关注点等特征。因此，作为一种新兴的外部数据参考，基于社交网络的数据分析是获取用户兴趣爱好的一个重要突破点。

根据本申请的一个方面，提供了一种基于社交网络的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。

在上述兴趣识别方法中，所述第一权重设置为当前日期与所述发送时间的天数差的自然对数的指数与时间调剂因子两者的乘积，所述时间调剂因子可被调节，其取值范围为大于0小于1。

在上述兴趣识别方法中，所述权重值还包括与消息的发送方相关的第二权重。

在上述兴趣识别方法中，所述兴趣分类模型根据如下的步骤来预先确定：(a)获取训练数据并对所述训练数据进行标注；(b)将所述训练数据转换为特征向量集合；以及(c)识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。

在上述兴趣识别方法中，步骤(a)包括：使用网络爬虫从数据源处收集页面数据；对所收集的页面数据进行文本数据的抽取；设置若干个兴趣类别；以及为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。

在上述兴趣识别方法中，步骤(b)包括：将所述文本数据按照一定规范切分成词序列；对所述词序列标注词性，并去除与兴趣识别无关的一些词；为所述词序列进行编码，并转换空间向量模型；以及根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。

在上述兴趣识别方法中，所述社交网络为微博。

在上述兴趣识别方法中，所述数据源为门户网站、论坛以及微博，并且其中，对于门户网站和论坛，所抽取的文本为标题、正文、发表时间和文档标签，而对于微博，所抽取的文本为正文和发表时间。

在上述兴趣识别方法中，去除与兴趣识别无关的一些词包括：去除介词、代词、副词以及连词；以及去除停用词，所述停用词为实际含义较少、对判断文章内容作用不大的词语。

根据本申请的另一个方面，提供了一种基于社交网络的兴趣识别设备，包括：接收装置，用于接收关于一用户的兴趣的查询请求；收集装置，用于从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；第一计算装置，用于根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；第二计算装置，用于根据所述消息的发送时间来计算所述消息的第一权重；第三计算装置，用于通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及分析装置，用于根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。

在上述兴趣识别设备中，所述第二计算装置配置成计算当前日期与所述发送时间的天数之间差的自然对数的指数，并将其与时间调剂因子相乘，其中，所述时间调剂因子可被调节，取值范围为大于0小于1。

在上述兴趣识别设备中，所述权重值还包括与消息的发送方相关的第二权重。

上述兴趣识别设备还可包括：获取装置，用于获取训练数据并对所述训练数据进行标注；转换装置，用于将所述训练数据转换为特征向量集合；以及识别装置，用于识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。

在上述兴趣识别设备中，所述获取装置包括：第一单元，用于使用网络爬虫从数据源处收集页面数据；第二单元，用于对所收集的页面数据进行文本数据的抽取；第三单元，用于设置若干个兴趣类别；以及第四单元，用于为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。

在上述兴趣识别设备中，所述转换装置包括：第五单元，用于将所述文本数据按照一定规范切分成词序列；第六单元，用于对所述词序列标注词性，并去除与兴趣识别无关的一些词；第七单元，用于为所述词序列进行编码，并转换空间向量模型；以及第八单元，用于根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。

在上述兴趣识别设备中，所述社交网络为微博。

在上述兴趣识别设备中，所述第二单元配置为当数据源为门户网站和论坛时，抽取其标题、正文、发表时间和文档标签，而当数据源为微博时，抽取其正文和发表时间。

在上述兴趣识别设备中，第六单元配置为去除介词、代词、副词以及连词；以及去除停用词，所述停用词代表实际含义较少、对判断文章内容作用不大的词语。

根据本申请的又一方面，提供了一种数据分析方法，包括：在接收关于一用户的兴趣的查询请求后，从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；根据所述消息的发送时间来计算所述消息的第一权重；根据所述消息的发送者来计算所述消息的第二权重；通过将所述属于某一主题分类的概率与包括所述第一权重和所述第二权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布；其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。

在上述数据分析方法中，所述第一权重设置为当前日期与所述发送时间的天数差的自然对数的指数与时间调剂因子两者的乘积，所述时间调剂因子可被调节，其取值范围为大于0小于1。

在上述数据分析方法中，所述兴趣分类模型根据如下的步骤来预先确定：(a)获取训练数据并对所述训练数据进行标注；(b)将所述训练数据转换为特征向量集合；以及(c)识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。

在上述数据分析方法中，步骤(a)包括：使用网络爬虫从数据源处收集页面数据；对所收集的页面数据进行文本数据的抽取；设置若干个兴趣类别；以及为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。

在上述数据分析方法中，步骤(b)包括：将所述文本数据按照一定规范切分成词序列；对所述词序列标注词性，并去除与兴趣识别无关的一些词；为所述词序列进行编码，并转换空间向量模型；以及根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。

在上述数据分析方法中，所述社交网络为微博。

在上述数据分析方法中，所述数据源为门户网站、论坛以及微博，并且其中，对于门户网站和论坛，所抽取的文本为标题、正文、发表时间和文档标签，而对于微博，所抽取的文本为正文和发表时间。

在上述数据分析方法中，去除与兴趣识别无关的一些词包括：去除介词、代词、副词以及连词；以及去除停用词，所述停用词为实际含义较少、对判断文章内容作用不大的词语。

附图说明

在参照附图阅读了本发明的具体实施方式以后，本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是：这些附图仅仅用于配合具体实施方式说明本发明的技术方案，而并非意在对本发明的保护范围构成限制。

图1是根据本申请的实施例，基于社交网络的兴趣识别方法的示意图。

具体实施方式

下面介绍的是本发明的多个可能实施例中的一些，旨在提供对本发明的基本了解，并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解，根据本发明的技术方案，在不变更本发明的实质精神下，本领域的一般技术人员可以提出可相互替换的其它实现方式。因此，以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明，而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。

本申请提出了一种基于社交网络（诸如微博等）的用户兴趣分析识别方法。相比于其他用户相关的外部数据，社交网络具有真实性高、时效性强、数据开放性等优点。对分析用户个人属性，识别兴趣爱好有着重要价值。以下以微博为例介绍，介绍本申请的具体实施例。

在观察了各个主流微博平台后，发明人发现微博表现形式和用户属性在不同平台上存在一些差异。但是，微博的基本属性（即文本内容和以关注方式建立联系）却是相同的，因此，以下将把分析范围聚焦在文本内容。另外，直观上讲，自身发送的微博信息是与用户最为紧密相关的数据，在最大程度上体现了用户兴趣和关注点，但是，部分的用户较少发送微博，他们在多数情况下是作为观众围观关注者发送的消息。所以，为提高分析结果的准确性，本申请同时着眼于用户自身和关注者两方面发布的微博消息。

如图1所示，基于微博的兴趣识别方法，包括：接收关于一用户的兴趣的查询请求；从社交网络收集与该用户相关的数据；根据预先确定的兴趣分类模型，得出所述用户对于某一主题分类的兴趣指数值；以及根据所述兴趣指数值，分析该用户的兴趣分布。兴趣分类模型可通过如下三个阶段来预先确定：1)训练数据获取和标注；2)特征抽取；以及3)构建模型。其中，训练数据获取和标注阶段用于负责从指定的网站中收集页面信息，抽取文本格式内容，并对文本内容进行标注。特征抽取阶段用于将收集得到的文本生成候选特征，并加以筛选，供下一阶段构建模型。构架模型阶段负责训练文本的主题分类模型。

在一个具体实现中，当用户提交识别请求，兴趣识别设备首先从微博平台中抽取该用户的微博数据，并使用训练得到的模型，分析该用户兴趣分布，最后返回识别结果。

微博中的热点不断推陈出新，其中很大一部分的内容涉及到时事新闻、热点消息。具有产生频率快，聚集人气广，流行时间短等特点。这就要求兴趣识别设备能够快速识别这些热点信息。所以获得兴趣分类模型的三个阶段每隔一段时间运行，以尽可能收集到时新信息，保证训练模型的时新度。

在一个具体实施例中，在训练数据获取和标注阶段，训练数据要求为文本类型。候选的数据源有很多，包括门户网站中报道、主题论坛（例如百度贴吧、天涯论坛）中帖子和微博数据本身等。而理想的数据源具有以下几个特点：文本工整度高、话题涵盖面广、表达方式与微博贴近、内容实新、和自分类性等特点。门户网站中的报道、论坛帖子、微博在这几方面各有长短，因此，本申请同时采用这几种数据源作为训练数据。该阶段的具体工作步骤如下：

1)使用网络爬虫或者其他方式从数据源中下载收集页面数据；

2)文本数据抽取。由于在上个步骤中，从门户网站和论坛中下载得到的数据为HTML页面，其中夹杂对数据分析无意义的HTML标签和脚本代码。从HTML页面中，抽取指定的文本内容。对于门户网站报道和论坛帖子，抽取的目标是标题、正文、发表时间和文档标签（若有）。而微博内容，抽取的目标则是正文和发表时间；

3)将带有标题的文本，复制两份标题添加至正文；

4)设置若干个兴趣类别，例如：体育、娱乐、财经和科技等等；

5)数据标注。每份文本标注一个标签，标签的内容是预先设置的文本主题类别。一些门户网站中新闻报道附有文档标签，通过设置标签和主题映射的关系，快速标注文档；如果报道附带n个不同主题类别的标签（n大于1），那么复制n份文本，并逐一设置不同标签；剩余文本采用人工方式进行标注。

在一个具体的实施例中，抽取特征阶段负责将文本转化为特征向量，以便后续的模式学习。具体工作步骤如下：

1)对文本进行分词。分词是将文本按照一定规范切分成词序列的过程，例如：句子“上海地处长江入海口”，经过分词过程，转化为“上海/地处/长江/入海口”序列；

2)标注词性，并去除介词、代词、副词、连词；

3)去除停用词。停用词是指实际含义较少，对判断本文内容作用不大的词语。停用词的选择范围来自于搜索引擎公开的停用词列表；

4)为字词进行ID编码，ID编码的格式为32为Integer整数，生成一份字词装换的编码字典<字词，ID>。这样，后续的文本处理都是基于字词的ID进行的，而非字词本身，这样可以有效地减少处理时计算机的存储和计算负担；

5)将文本装换为空间向量模型。向量空间模型将文本内容转化为向量空间中的向量，其中，向量空间中的一条坐标轴代表一个字或词，坐标轴之间代表的字或词不重复。文本包含该字或词的数量表示该坐标轴的值。坐标轴的值域理论上从零到正无限；

6)特征选择，在机器学习的实际应用中，特征数量往往较多，其中可能存在不相关的特征。特征选择能剔除不相关或冗余的特征，从而达到减少特征个数，提高模型精确度，减少运行时间的目的。在实际操作中，我们通过计算特征和相关类别的统计信息，去除若干特征。

经过以上步骤，训练文本可转换为特征向量集合。

在一个具体实施例中，模型构建阶段负责识别特征并量化特征对主题判断的贡献度，从而生成文本的主题模型，旨在帮助系统快速准确地判断文档主题。该阶段用到的主要算法是分类，分类算法是一种有监督的机器学习算法，需要预先设置有标注的训练数据。为了防止训练数据倾斜，影响模型效果，每个类别选取接近数量的训练数据文档，文档的字数尽可能接近。

通常，用户发表的微博内容和关注者发表的内容，很大程度上，反映了用户所见所闻和所思所感，以上两部分内容有助于系统判断用户兴趣。同时，本申请的发明人注意到：1)微博内容发表时间越是距离当前较近，越能够反映用户真实兴趣；2)各个微博账户发表微博频率不同，发消息频繁的微博账户可能过度影响兴趣识别的结果。为了有效地处理这些问题，本申请使用参数方式调节各个信息内容的权重。具体工作步骤如下：

1)用户提交服务时，系统首先需要从微博平台中抽取。系统接收用户提交微博账号信息。根据账号信息，后台网络爬虫搜集该用户过去制定时间内发送的微博消息集合和其关注者发送的微博消息集合；

2)将每一条微博消息的内容文本、转发文本和发者的昵称三者的字符串叠加，以字符‘-’连接，形成完整的微博信息；

3)逐一计算微博信息的主题分类的概率值和权重值。结合权重值，累加类别的概率值，生成兴趣指数的向量，指数越高，用户持有该兴趣的概率越大。反之亦然。

计算兴趣指数的完整伪代码如下表1所示：

其中，在表1所示的算法第8行的生成消息权重方法为，首先，计算当前日期离发送微博消息的天数差的自然对数的指数。然后将该指数乘以时间调剂因子α，α的值域为0到1，调剂因子越大，发布时间距离越近的微博对兴趣识别的影响力越大，反之亦然。

算法第13行规约化方式是，以数据均衡调节因子β为幂，取类别打分的指数。β的值域为0到1，数据均衡调节因子越小，各账户发布的微博对兴趣识别的影响力越均衡，反之亦然。

算法第14行的累加方式过程中，首先，将自发微博的权重因子η乘以自发微博消息的兴趣类别打分，1-η乘以关注人微博消息的兴趣类别打分。随后，两者相加生成最终的兴趣指数。η是自发微博的权重因子，值域为0到1。η越大，则表示自发微博对判断兴趣识别的影响力越大，反之亦然。

综上所述，本申请结合微博数据特点和微博用户操作习惯，分析了用户相关的微博内容，以识别该用户的兴趣。具体方法包括：首先，设定一套主题分类结构，并收集符合主题的文本集，作为训练数据。然后，根据训练文本，训练文本集的主题模型。当系统接收到查询请求时，收集用户相关的数据，计算各个博文文本的主题分类的最大概率，作为该博文的初始主题指数，计算该博文的权重值，权重值由当前日期离发送微博消息的天数差的自然对数的指数、发文者的权重值等因素构成。最后，结合权重值，累加类别的概率值，生成兴趣指数分布。

以上基于微博用户兴趣识别方法至少具有如下优点：第一，利用微博数据识别用户兴趣爱好，相比于其他的用户相关的外部数据，微博具有真实性高、时效性强、数据开放性等优点；第二，在线下训练模型；在训练集数据不断扩展的情况下，能够逐步增加识别特征，提高系统识别的准确度；第三，引入了内容类别、发送时间、用户类型等方面信息参与分析，提高识别准确率；同时，采用参数方式调节设置各个信息内容的权重，具有相当的灵活性和适应性。

尽管以上以微博作为社交网络的一个具体示例介绍了本申请的兴趣识别方法，但本领域技术人员容易明白，该兴趣识别方法也可以通过除微博以外的其他社交网络（例如微信等）来实行，其本质是相同的。

另外，上面介绍的兴趣识别方法可通过计算机程序的方式来进行实现。

上文中，参照附图描述了本发明的具体实施方式。但是，本领域中的普通技术人员能够理解，在不偏离本发明的精神和范围的情况下，还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims

1.一种基于社交网络的兴趣识别方法，包括：

接收关于一用户的兴趣的查询请求；

从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；

根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；

根据所述消息的发送时间来计算所述消息的第一权重；

通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并针对所有消息依次进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及

根据所述兴趣指数值，分析该用户的兴趣分布；

其中，所述对于某一主题分类的兴趣指数值与用户对该主题分类的兴趣度成正比。

2.如权利要求1所述的兴趣识别方法，其中，所述第一权重设置为当前日期与所述发送时间的天数差的自然对数的指数与时间调剂因子两者的乘积，所述时间调剂因子可被调节，其取值范围为大于0小于1。

3.如权利要求1或2所述的兴趣识别方法，其中，所述权重值还包括与消息的发送方相关的第二权重。

4.如权利要求1所述的兴趣识别方法，其中，所述兴趣分类模型根据如下的步骤来预先确定：

(a)获取训练数据并对所述训练数据进行标注；

(b)将所述训练数据转换为特征向量集合；以及

(c)识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。

5.如权利要求4所述的兴趣识别方法，其中，步骤(a)包括：

使用网络爬虫从数据源处收集页面数据；

对所收集的页面数据进行文本数据的抽取；

设置若干个兴趣类别；以及

为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。

6.如权利要求4所述的兴趣识别方法，其中，步骤(b)包括：

将所述文本数据按照一定规范切分成词序列；

对所述词序列标注词性，并去除与兴趣识别无关的一些词；

为所述词序列进行编码，并转换空间向量模型；以及

根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。

7.如权利要求1所述的兴趣识别方法，其中，所述社交网络为微博。

8.如权利要求5所述的兴趣识别方法，其中，所述数据源为门户网站、论坛以及微博，并且其中，对于门户网站和论坛，所抽取的文本为标题、正文、发表时间和文档标签，而对于微博，所抽取的文本为正文和发表时间。

9.如权利要求6所述的兴趣识别方法，其中，去除与兴趣识别无关的一些词包括：

去除介词、代词、副词以及连词；以及

去除停用词，所述停用词为实际含义较少、对判断文章内容作用不大的词语。

10.一种基于社交网络的兴趣识别设备，包括：

接收装置，用于接收关于一用户的兴趣的查询请求；

收集装置，用于从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；

第一计算装置，用于根据预先确定且定期更新的兴趣分类模型，计算所收集的数据中的每一消息属于某一主题分类的概率；

第二计算装置，用于根据所述消息的发送时间来计算所述消息的第一权重；

第三计算装置，用于通过将所述属于某一主题分类的概率与包括所述第一权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及

分析装置，用于根据所述兴趣指数值，分析该用户的兴趣分布；

11.如权利要求10所述的兴趣识别设备，其中，所述第二计算装置配置成计算当前日期与所述发送时间的天数之间差的自然对数的指数，并将其与时间调剂因子相乘，其中，所述时间调剂因子可被调节，取值范围为大于0小于1。

12.如权利要求10或11所述的兴趣识别设备，其中，所述权重值还包括与消息的发送方相关的第二权重。

13.如权利要求10所述的兴趣识别设备，还包括：

获取装置，用于获取训练数据并对所述训练数据进行标注；

转换装置，用于将所述训练数据转换为特征向量集合；以及

识别装置，用于识别所述特征向量集合中的特征并量化该特征对主题分类的贡献度，从而生成基于文本的兴趣分类模型。

14.如权利要求13所述的兴趣识别设备，其中，所述获取装置包括：

第一单元，用于使用网络爬虫从数据源处收集页面数据；

第二单元，用于对所收集的页面数据进行文本数据的抽取；

第三单元，用于设置若干个兴趣类别；以及

第四单元，用于为所抽取的每一份文本数据标注一标签，所述标签的内容为所述若干个兴趣类别中的至少一个类别。

15.如权利要求13所述的兴趣识别设备，其中，所述转换装置包括：

第五单元，用于将所述文本数据按照一定规范切分成词序列；

第六单元，用于对所述词序列标注词性，并去除与兴趣识别无关的一些词；

第七单元，用于为所述词序列进行编码，并转换空间向量模型；以及

第八单元，用于根据所述空间向量模型，进行特征的选择，从而得到特征向量的集合。

16.如权利要求10所述的兴趣识别设备，其中，所述社交网络为微博。

17.如权利要求14所述的兴趣识别设备，其中，所述第二单元配置为当数据源为门户网站和论坛时，抽取其标题、正文、发表时间和文档标签，而当数据源为微博时，抽取其正文和发表时间。

18.如权利要求15所述的兴趣识别设备，其中，第六单元配置为去除介词、代词、副词以及连词；以及去除停用词，所述停用词代表实际含义较少、对判断文章内容作用不大的词语。

19.一种数据分析方法，包括：

在接收关于一用户的兴趣的查询请求后，从社交网络收集与该用户相关的数据，所述数据包括该用户发表的消息以及该用户在所述社交网络中所关注的对象发表的消息；

根据所述消息的发送时间来计算所述消息的第一权重；

根据所述消息的发送者来计算所述消息的第二权重；

通过将所述属于某一主题分类的概率与包括所述第一权重和所述第二权重的权重值进行相乘，并进行累加，从而得出所述用户对于某一主题分类的兴趣指数值；以及

根据所述兴趣指数值，分析该用户的兴趣分布；