CN104850647A

CN104850647A - 一种微博团体的发现方法及装置

Info

Publication number: CN104850647A
Application number: CN201510284124.1A
Authority: CN
Inventors: 李扬曦; 杜翠兰; 佟玲玲; 李睿; 王晶; 刘洋; 查奇文; 秦韬; 付戈
Original assignee: National Computer Network and Information Security Management Center
Current assignee: National Computer Network and Information Security Management Center
Priority date: 2015-05-28
Filing date: 2015-05-28
Publication date: 2015-08-19

Abstract

本发明公开了一种微博团体的发现方法及装置，其中，该方法包括：根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；采用无监督学习方式从兴趣特征向量中确定用户团体信息。本发明实施例为不同种类的信息建立各自独立的特征信息词典，从用户一定时间段内更新的信息中分词，来与特征信息词典中的词语进行比对，进而确定用户的兴趣特征向量，再通过无监督学习方式来确定用户团体信息，通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体，具有更准确的推广意义，传播力度大大提高，解决了现有问题。

Description

一种微博团体的发现方法及装置

技术领域

本发明涉及数据挖掘领域，特别是涉及一种微博团体的发现方法及装置。

背景技术

近年来，以微博为代表的社交网络正成为人们日常交流、获取资讯的新途径，在生活中扮演着越来越重要的角色。与此同时，微博也由于其信息扩散速度快、扩散范围广等特点，成为各微博运营商、互联网公司、广告主进行内容推荐和广告投放的重要平台。同时，在学术界和工业界，针对微博用户行为、网络结构的研究和应用也在蓬勃发展。

传统的内容推荐、广告投放通常采用无差别的方式，即不考虑用户之间影响力和兴趣的差异，直接将热门的信息和广告等推送给所有用户，这样的做法未考虑用户之间的差异，投放和推送的效果往往不尽如人意。近年来，出现了针对用户群体的精准推荐技术，即利用用户之间的跟随/粉丝关系构建用户网络，将热点内容推送至网络中影响力较大的用户(如粉丝数较多的用户)，利用这些用户来影响其他用户，从而实现信息的扩散和传播，提高了内容推荐和广告推送的有效性。

然而，这类方法存在着局限性：这些方法的本质是以用户之间的跟随/粉丝关系来构建用户关系网络，而跟随/粉丝关系往往受到“名人效应”或“僵尸粉丝”的影响，因此表面的跟随/粉丝关系并不能说明用户之间存在同样的兴趣爱好。也就是说，通过这类方法构建的跟随/粉丝关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果；同时，部分具有相同兴趣的用户之间由于并不具有跟随/粉丝关系，会被这类方法所遗漏，从而造成内容推荐、广告营销不能达到预期的效果。

发明内容

本发明提供一种微博团体的发现方法及装置，用以解决现有技术中，仅通过跟随/粉丝关系构建用户关系网络，然而这类方法构建的关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果的问题。

为解决上述技术问题，一方面，本发明提供一种微博团体的发现方法，包括：根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

进一步，构建特征信息词典包括：按照如下公式计算当前语料库中待生成词典的各词语的IDF值，所述IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；保留计算得到的IDF值超过预定IDF值的词语，并将其添加到所述当前语料库对应的词典中，以构建所述特征信息词典。

进一步，从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量，包括：从数据集中统计当前用户的数值型特征；将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数；将所述数值型特征和得到的所述TFIDF值进行拼接，以得到用户的兴趣特征向量。

进一步，采用无监督学习方式从所述兴趣特征向量中确定用户团体信息之后，还包括：通过预定行为的权重值构建用户互动关系网络，其中，所述预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为；在所述用户互动关系网络中，通过网络结构分析的方法对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；根据所述每个用户的重要值确定微博扩散策略。

进一步，对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值包括：计算整个团体中每个用户节点的中心性，其中，所述中心性包括：浓度中心性、亲近中心性和居间中心性；通过迭代的方式确定所述每个用户节点的加权PageRank值；根据所述中心性和所述加权PageRank值确定用户的重要值。

进一步，通过如下公式确定用户的重要程度：s(a)＝αC_degree(a)+βC_closeness(a)+γC_betweenness(a)+δwPR(a)；其中，C_degree(a)为用户的频度中心性，C_closeness(a)为用户的亲近中心性，C_betweenness(a)为用户的居间中心性，wPR(a)为一个时间窗内用户的活跃值，α、β、γ和δ为调节各权重的系数。

另一方面，本发明提供一种微博团体的发现装置，包括：词典构建模块，用于根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；特征确定模块，用于从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；学习模块，用于采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

进一步，所述词典构建模块包括：计算单元，用于按照如下公式计算当前语料库中待生成词典的各词语的IDF值，所述IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；词典构建单元，用于保留计算得到的IDF值超过预定IDF值的词语，并将其添加到所述当前语料库对应的词典中，以构建所述特征信息词典。

进一步，所述特征确定模块包括：统计单元，用于从数据集中统计当前用户的数值型特征；映射单元，用于将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数；特征确定单元，用于将所述数值型特征和得到的所述TFIDF值进行拼接，以得到用户的兴趣特征向量。

进一步，还包括：网络构建模块，用于通过预定行为的权重值构建用户互动关系网络，其中，所述预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为；角色识别模块，用于在所述用户互动关系网络中，通过网络结构分析方法对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；策略确定模块，用于根据所述每个用户的重要值确定微博扩散策略。

本发明为不同种类的信息建立各自独立的特征信息词典，在从用户一定时间段内更新的信息中分词，来与特征信息词典中的词语进行比对，进而确定用户的兴趣特征向量，再通过无监督学习方式来确定用户团体信息，通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体，具有更准确的推广意义，传播力度大大提高，解决了现有通过跟随/粉丝关系构建用户关系网络，然而这类方法构建的关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果的问题。

附图说明

图1是本发明实施例中微博团体的发现方法的流程图；

图2是本发明实施例中微博团体的发现装置的结构示意图；

图3是本发明实施例中微博团体的发现装置词典构建模块的结构示意图；

图4是本发明实施例中微博团体的发现装置特征确定模块的结构示意图；

图5是本发明实施例中微博团体的发现装置的优选结构示意图；

图6是本发明优选实施例中微博团体的发现和用户角色识别方法的实现过程示意图；

图7是本发明优选实施例中用户兴趣特征示意图。

具体实施方式

为了解决现有技术中，通过跟随/粉丝关系构建用户关系网络，然而这类方法构建的关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果的问题，本发明提供了一种微博团体的发现方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

本发明实施例提供了一种微博团体的发现方法，该方法的流程如图1所示，包括步骤S102至S106：

S102，根据微博用户的元信息及微博内容，构建相互独立的特征信息词典。其中，用户的元信息可以包括用户个人描述信息和认证信息等，由于此类信息通常都是采用较为正式的语言，因此，在设计时，可以考考将其设计成为一个词典，当然，为了提高准确性，可以为不同的元信息建立不同的特征信息词典。

S104，从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量。在实现时，从用户的元信息中分词，也要从微博内容中分词，将分词得到的词语和特征信息词典中的词语进行比对，进而确定用户的兴趣特征向量。

S106，采用无监督学习方式从兴趣特征向量中确定用户团体信息。在确定用户的兴趣特征向量后，采用无监督学习方式学习，并采用聚类方法进行团体发现，以确定用户团体信息。

本发明实施例为不同种类的信息建立各自独立的特征信息词典，在从用户一定时间段内更新的信息中分词，来与特征信息词典中的词语进行比对，进而确定用户的兴趣特征向量，再通过无监督学习方式来确定用户团体信息，通过此过程确定的用户团体信息是具有相同或相似兴趣爱好的团体，具有更准确的推广意义，传播力度大大提高，解决了现有通过跟随/粉丝关系构建用户关系网络，然而这类方法构建的关系网络不等价于用户兴趣网络，这就造成待推荐的信息内容主题和用户网络之间的不匹配，无法达到最好的内容推荐和推送效果的问题。

在构建特征信息词典的过程中，按照如下公式计算当前语料库中待生成词典的各词语的IDF值，IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；保留计算得到的IDF值超过预定IDF值的词语(此类词语具有较高的可用性，可以作为词典中的词语)，并将其添加到当前语料库对应的词典中，以构建特征信息词典。

建立好特征信息词典后，从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量，具体的，将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数，最后将得到的各分词的TFIDF值进行拼接，来得到用户的兴趣特征向量。举个例子，对于元信息分词的词语集合，映射到元信息词典(实际可以包括用户认证信息词典和用户描述信息词典)，形成2个向量，例如200维的认证信息向量和300维的描述信息向量；对于微博内容分词的词语集合，映射到微博内容词典，例如形成一个500维的微博内容向量。然后把这3个向量拼起来，形成1个1000维的用户兴趣特征向量。

进一步，为了增加对用户趣特征向量确定的准确性，还可以直接从数据集中统计当前用户的数值型特征，例如用户微博数、粉丝数、好友数等；再将数值型特征和得到的TFIDF值进行拼接，以得到用户的兴趣特征向量。还是以上面的例子为基础，如果增加了用户微博数、粉丝数、好友数作为参考，则用户兴趣特征向量的维度便增加了3，即最后形成的是1个1003维的用户兴趣特征向量。

在采用无监督学习方式从兴趣特征向量中确定用户团体信息之后，还可以利用用户互动行为构建团体内用户关系网络，使用结构分析方法确定用户的角色。实现时，通过预定行为的权重值构建用户互动关系网络，其中，预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为等，例如，跟随关系行为的权重值为0.2，粉丝关系行为的权重值为0.5，转发关系行为的权重值为0.3，这三种关系通过系数加权，并相加；在用户互动关系网络中，通过网络结构分析方法对用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；最后，根据每个用户的重要值确定微博扩散策略。

实现时，对用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值包括：计算整个团体中每个用户节点的中心性，其中，中心性包括：浓度中心性、亲近中心性和居间中心性；通过迭代的方式确定每个用户节点的加权PageRank值；根据中心性和加权PageRank值确定用户的重要值。可以通过如下公式确定用户的重要程度：s(a)＝αC_degree(a)+βC_closeness(a)+γC_betweenness(a)+δwPR(a)；其中，C_degree(a)为用户的频度中心性，C_closeness(a)为用户的亲近中心性，C_betweenness(a)为用户的居间中心性，wPR(a)为一个时间窗内用户的活跃值，α、β、γ和δ为调节各权重的系数。

本发明实施例还提供了一种微博团体的发现装置，该装置的结构示意如图2所示，包括：词典构建模块10，用于根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；特征确定模块20，与词典构建模块10耦合，用于从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；学习模块30，与特征确定模块20耦合，用于采用无监督学习方式从兴趣特征向量中确定用户团体信息。

词典构建模块10可以如图3所示，包括：计算单元101，用于按照如下公式计算当前语料库中待生成词典的各词语的IDF值，IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；词典构建单元102，与计算单元101耦合，用于保留计算得到的IDF值超过预定IDF值的词语，并将其添加到当前语料库对应的词典中，以构建特征信息词典。

特征确定模块20可以如图4所示，包括：统计单元201，用于从数据集中统计当前用户的数值型特征；映射单元202，与统计单元201耦合，用于将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数；特征确定单元203，与映射单元202耦合，用于将数值型特征和得到的TFIDF值进行拼接，以得到用户的兴趣特征向量。在一个优选实施例中，上述特征确定模块20也可以不统计数值型特征，则可以仅包括映射单元和特征确定单元，本实施例不再赘述。

在图2的基础上，上述装置还可以如图5所示，包括角色分析的各种模块，具体可以是：网络构建模块40，与学习模块30耦合，用于通过预定行为的权重值构建用户互动关系网络，其中，预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为；角色识别模块50，与网络构建模块40耦合，用于在用户互动关系网络中，通过网络结构分析方法对用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；策略确定模块60，与角色识别模块50耦合，用于根据每个用户的重要值确定微博扩散策略。

优选实施例

本发明提出一种基于用户兴趣的微博团体发现方法和用户角色识别方法，解决了现有方法仅依靠用户跟随/粉丝关系，微博用户团体和用户角色识别不准确的问题。

本发明实施例主要包含两个方面的内容：(a)首先将用户团体发现问题映射为按照用户兴趣进行聚类的问题，设计用户兴趣特征并确定用户团体，解决了现有方法仅通过跟随/粉丝关系构建网络，通过网络分析确定用户兴趣团体的局限性；(b)其次提出了一种兴趣团体内用户互动关系网络构建方法，并综合利用网络的中心性指标、PageRank指标等确定用户个体在团体中重要程度。

该方法从用户兴趣出发，有效的发现了兴趣相似的用户团体，解决了现有方法中用户关系团体与用户兴趣团体不一致的问题；通过综合考虑中心性指标、PageRank指标等确定了团体中用户的重要程度，为信息的精准推荐、精准营销提供了基础。

在实现上，微博用户团体发现和团体中用户角色识别方法可以使用纯软件实现。本发明实施例逻辑上划分为微博用户团体发现和用户角色识别两部分，包括了用户兴趣特征抽取、用户团体发现、用户互动关系网络构建、用户角色识别等四个部分，如附图6所示。下面结合具体实现过程进行说明。

(1)用户兴趣特征抽取是指设计描述用户兴趣的特征，并从用户元信息(如用户微博数、用户粉丝数、用户好友数、个人描述信息、认证信息等)和微博内容中提取出用户兴趣特征。用户兴趣特征抽取过程中包含词典构建、特征抽取等环节。

1.词典构建是指从微博用户个人描述信息、认证信息及微博内容等文本中抽取特征时所采用的词典。通用的词典并不适合直接应用于微博数据处理，这主要是由于如下两点原因：首先，微博的个人描述信息、认证信息、微博内容的语言特点各不相同，如微博认证信息通常语言较为正式，其中包含很多关于职业、公司名称等的词语，而个人描述信息和微博内容相对较为口语化。因此，理想的情况是为个人描述信息、认证信息、和微博内容构建不同的词典；其次，受限于微博的长度限制，微博中的个人描述信息、认证信息和微博内容都较短，如果采用包含较多词语的通用词典会导致词语向量过于稀疏，不利于后续的处理。

所以，本发明提出对于微博的个人描述信息、个人认证信息和微博内容构建不同的词典，且在构造词典时仅保留有意义的、且重要的实词。以个人描述信息词典的构建为例，收集部分个人描述信息为语料库，通过对语料库中的文本进行分词，仅保留分词结果中的名词和动词，并计算这些词语的IDF(InvertedDocument Frequency，文档频率的倒数)值，并保留IDF值较大的部分词语作为词典。一个词语w的IDF值的计算方式如下式所示：

IDF (w) = \log \frac{N}{n_{d}}

其中，N表示整个语料库中的个人描述信息条数，n_d表示当前词语出现过的个人描述信息条数。IDF值越大的词语代表性越强，IDF值越小的词语表明该词语出现在较多的描述信息中，代表性越弱。

2.特征抽取指从一段时间的用户元信息和微博内容中抽取出描述了用户兴趣的特征向量。对于微博数、粉丝数、好友数等数值型特征，直接从数据集中统计得到。对于用户个人描述信息、用户认证信息、用户微博内容，在分词之后分别映射到上一环节构建的词典上，并使用TFIDF值对每个词语加权。以个人描述信息特征抽取为例，对于每个用户的个人描述信息分词之后，表示为一个长度等于个人描述信息词典大小的向量，向量的每个维度对应词典中的一个词语，维度的取值为该词语在该条信息中的TFIDF值。一个词语w的TFIDF值的计算方式如下式所示：

TFIDF (w) = TF * IDF = \frac{c_{w}}{c} * \log \frac{N}{n_{d}}

其中，IDF值的计算同上式，TF值表示词语w在当前个人描述信息中出现的频率，c_w表示词语w出现的次数，c表示当前个人描述信息总的词语个数。对于用户认证信息和用户微博内容，分别采用上述方法获得特征向量。

将微博数、粉丝数、好友数等数值型特征与个人信息特征向量等拼接起来，由于用户的个人描述信息、认证信息和用户微博内容反映了用户的真实兴趣，因此，这个拼接的特征向量中蕴含了用户的兴趣爱好，可以用于接下来的基于用户兴趣的团体发现。

(2)微博用户团体发现是指利用抽取的用户兴趣特征将微博用户划分至不同的团体中，同一团体中的用户拥有相似的兴趣，可以根据其兴趣爱好进行内容推荐和广告营销。其目的是从用户兴趣角度出发，发现兴趣相似或一致的、且联系较为紧密的用户群体。传统的用户团体发现通常采用网络结构分析的方法，即通过微博用户之间的跟随/粉丝关系构建关系网络，通过对网络结构进行分析，从中找出距离较近的点的集合，并定义为一个用户团体。然而，这种方法得到的用户团体仅仅是跟随/粉丝关系上的团体，并非是兴趣上一致的团体。研究表明，一个用户跟随另一个用户主要有如下四个因素：(a)该用户是名人，(b)该用户跟随了自己，自己出于礼貌也跟随了对方，(c)与对方有相同的兴趣爱好，(d)营销账号。可见跟随/粉丝关系与兴趣一致之间并不等价，跟随/粉丝关系上的团体不能完全代表这些用户拥有共同的兴趣爱好，那么基于此团体信息进行的内容推荐将很难达到预期的效果。

因此，本实施例提出在发现用户团体时不依赖于用户跟随/粉丝关系，而是对于每个微博用户设计其兴趣特征，并采用无监督的机器学习方法得到微博用户团体信息。用户兴趣特征可以从用户元信息(如用户微博数、用户粉丝数、用户好友数、个人描述信息、认证信息等)和微博内容中提取，即从一段时间的用户元信息和微博内容中抽取出描述了用户兴趣的特征向量。对于微博数、粉丝数、好友数等数值型特征，直接从数据集中统计得到。对于用户个人描述信息、用户认证信息、用户微博内容，将分词之后的结果映射到词典上，并使用TFIDF值加权。最后将微博数、粉丝数、好友数等数值型特征与个人信息特征向量等拼接起来，这个拼接的特征向量中描述了用户的兴趣爱好，如附图7所示。

接下来采用无监督机器学习的方式从这些兴趣特征向量中得到用户团体信息。具体的说，以上述用户兴趣特征表示每个用户，采用聚类方法K-Means进行团体发现。聚类结果中属于同一类的用户则为同一个用户团体。对于每个用户团体，从他们的兴趣特征中选取出现频率最高的若干个词语，作为该团体的标签，并应用于后续的内容推荐中。本发明提出的采用无监督机器学习算法确定用户团体的方法从用户的真实兴趣出发，不受跟随/粉丝关系的约束，聚类得到的用户团体更有可能拥有同样的兴趣。

本实施例提出的采用无监督机器学习算法确定用户团体的方法从用户的真实兴趣出发，不受跟随/粉丝关系的约束，聚类得到的用户团体更有可能拥有同样的兴趣。

(3)用户互动关系网络构建是指利用同一团体中用户之间的互动信息构建用户关系网络，为下一步的用户角色识别提供支撑。用户互动关系网络是一个有向图G(v,e,w)，其中每个节点v表示团体中的一个用户，节点之间的边e表示用户之间的关系，边的权重w表示用户之间关系的强度。传统的用户网络仅使用跟随/粉丝关系确定边e，即如果用户a和用户b之间存在跟随/粉丝关系，则v_a和v_b之间存在边e，否则不存在。

但这并不能完全体现用户之间的关联性。本发明提出除了利用跟随/粉丝关系，还应挖掘用户之间的其他互动行为来确定边e和权重w，例如用户之间的转发关系和关系。用户a转发了用户b的微博，或用户a了用户b，同样说明他们之间存在着某种联系。因此，本发明提出从微博内容中发现用户之间的转发关系和关系，与跟随/粉丝关系一起作为用户之间的关系权重：

w(a,b)＝αw_跟随+βw_转发+γw

其中α,β,γ为调节各种权重的系数。其中转发的权重w_转发的计算方式定义如下：

w_转发(a,b)＝#_转发(b)/#_转发

即a转发b的微博数占其转发微博总数的比例。w采用类似的方式计算。

上述用户互动关系网络构建的方式主要有以下两方面的优点：首先是挖掘了更丰富的用户之间的关联关系，能更准确的描述用户之间的关系；其次，将转发关系和关系纳入到网络的构建中降低了网络的稀疏程度，将传统方法中可能被遗漏的用户(例如不与任何用户存在跟随/粉丝的用户)加入的关系网络中，为下一步的用户角色识别提供了良好的数据支撑。

(4)用户角色识别是指利用上一过程构建的用户关系网络确定出网络中各用户的重要程度，为后续的内容推荐和广告投放服务。用户角色识别过程包括了用户中心性计算和加权PageRank计算两个环节。

用户中心性计算环节计算网络中每个节点的中心性，中心性越高则用户影响力越大。本发明中需要计算的中心性包括频度中心性、亲近中心性和居间中心性。频度中心性的目的是发现网络中的名人，定义为该用户的入度：

C_degree(a)＝Σw

然而频度中心性仅能体现用户在网络中的受欢迎程度，无法体现用户对网络的控制能力。亲近中心性用来衡量每个用户在网络中的覆盖广度，通过计算节点到网络中其他节点的最短路径平均值得到，可以用来发现网络中的“八卦”传播者，定义如下：

C_closeness(a)＝1/∑_b≠ashortestDist(b)

居间中心性计算网络中所有最短路径通过节点的次数，用来发现网络中的传播瓶颈或桥梁节点，定义如下：

C_betweenness(a)＝#shortestPath(a)

加权PageRank计算环节采用迭代的方式确定网络中各节点的重要程度。一个节点的PageRank(PR)值由其链入的节点的PR值相加决定，一个节点将自己的PR值均与的分配给其链出的节点，定义如下：

PR (a) = \frac{1 - d}{N} + d Σ_{b &Element; M (a)} \frac{1}{L (b)} PR (b)

其中L表示链出的节点数，M(a)表示与a连接的节点集合，而d是为了保证结果收敛增加的平滑因子。

本发明提出对PageRank算法进行改进，以使其更适用于微博用户角色识别。具体的说，在改进的wPageRank中，一个节点的PR值不是均匀的分配给其链出的节点，而是根据链出节点的活跃度进行分配，越活跃的用户获得的PR值越高。定义用户活跃度为一个时间窗内用户的活动次数s(发表微博、评论、等)，因此改进的PageRank算法wPageRank定义如下：

wPR (a) = \frac{1 - d}{N} + d Σ_{b &Element; M (a)} \frac{s (b)}{Σ_{b} s (b)} wPR (b)

本发明提出综合考虑上述环节计算得到的中心性和wPageRank值以确定各节点的重要程度。定义如下：

s(a)＝αC_degree(a)+βC_closeness(a)+γC_betweenness(a)+δwPR(a)

将团体内用户按照其重要程度s(a)进行排序，即确定出了网络中的领袖用户、一般重要用户、普通用户等。此处的α,β,γ,δ仅表示系数而已，取值与前述的α,β,γ并不相同，也并非一个系数，因此，此处的α,β,γ,δ也可以用A、B、C、D等参数代替。

上述用户角色识别算法综合考虑了用户团体网络的中心性特性和迭代计算的PageRank值，能更准确的确定用户在团体中的角色。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

1.一种微博团体的发现方法，其特征在于，包括：

根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；

从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；

采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

2.如权利要求1所述的发现方法，其特征在于，构建特征信息词典包括：

按照如下公式计算当前语料库中待生成词典的各词语的IDF值，所述IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；

保留计算得到的IDF值超过预定IDF值的词语，并将其添加到所述当前语料库对应的词典中，以构建所述特征信息词典。

3.如权利要求2所述的发现方法，其特征在于，从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量，包括：

从数据集中统计当前用户的数值型特征；

将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数；

将所述数值型特征和得到的所述TFIDF值进行拼接，以得到用户的兴趣特征向量。

4.如权利要求1至3中任一项所述的发现方法，其特征在于，采用无监督学习方式从所述兴趣特征向量中确定用户团体信息之后，还包括：

通过预定行为的权重值构建用户互动关系网络，其中，所述预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为；

在所述用户互动关系网络中，通过网络结构分析的方法对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；

根据所述每个用户的重要值确定微博扩散策略。

5.如权利要求4所述的发现方法，其特征在于，对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值包括：

计算整个团体中每个用户节点的中心性，其中，所述中心性包括：浓度中心性、亲近中心性和居间中心性；

通过迭代的方式确定所述每个用户节点的加权PageRank值；

根据所述中心性和所述加权PageRank值确定用户的重要值。

6.如权利要求5所述的发现方法，其特征在于，通过如下公式确定用户的重要程度：

s(a)＝αC_degree(a)+βC_closeness(a)+γC_betweenness(a)+δwPR(a)；

其中，C_degree(a)为用户的频度中心性，C_closeness(a)为用户的亲近中心性，C_betweenness(a)为用户的居间中心性，wPR(a)为一个时间窗内用户的活跃值，α、β、γ和δ为调节各权重的系数。

7.一种微博团体的发现装置，其特征在于，包括：

词典构建模块，用于根据微博用户的元信息及微博内容，构建相互独立的特征信息词典；

特征确定模块，用于从预定时间段内用户的元信息和微博内容中分词，并基于特征信息词典和提取到的词语确定用户的兴趣特征向量；

学习模块，用于采用无监督学习方式从所述兴趣特征向量中确定用户团体信息。

8.如权利要求7所述的发现装置，其特征在于，所述词典构建模块包括：

计算单元，用于按照如下公式计算当前语料库中待生成词典的各词语的IDF值，所述IDF值的计算公式为：其中，N表示当前整个语料库中的信息总条数，n_d表示当前词语出现过的信息条数；

词典构建单元，用于保留计算得到的IDF值超过预定IDF值的词语，并将其添加到所述当前语料库对应的词典中，以构建所述特征信息词典。

9.如权利要求8所述的发现装置，其特征在于，所述特征确定模块包括：

统计单元，用于从数据集中统计当前用户的数值型特征；

映射单元，用于将用户的元信息及微博内容对应的词语分别映射到对应的词典上，并使用TFIDF值加权，其中，分词W的TFIDF值计算方式如下：其中，c_w表示词语w出现的次数，c表示当前整个语料库总的词语个数；

特征确定单元，用于将所述数值型特征和得到的所述TFIDF值进行拼接，以得到用户的兴趣特征向量。

10.如权利要求7至9中任一项所述的发现装置，其特征在于，还包括：

网络构建模块，用于通过预定行为的权重值构建用户互动关系网络，其中，所述预定行为包括：跟随关系行为、粉丝关系行为、转发关系行为；

角色识别模块，用于在所述用户互动关系网络中，通过网络结构分析方法对所述用户团体信息中的用户进行角色识别，以确定整个团体中每个用户的重要值；

策略确定模块，用于根据所述每个用户的重要值确定微博扩散策略。