CN106446146B

CN106446146B - 一种微博中事件持续关注者的识别模型建立及识别方法

Info

Publication number: CN106446146B
Application number: CN201610839220.2A
Authority: CN
Inventors: 谷蓓蓓; 罗准辰; 王新; 罗威; 陈钧; 韦博
Original assignee: CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Current assignee: CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2019-05-17
Anticipated expiration: 2036-09-21
Also published as: CN106446146A

Abstract

本发明公开了一种微博中事件持续关注者的识别模型的建立方法，所述方法包括：建立训练样本集，包括关注某一事件的用户及与该事件相关的微博；分别提取训练样本集中每个用户的关注度特征和认可度特征，分别训练出关注度用户分类模型和排序模型，所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。基于上述识别模型，本发明还提供了一种微博中事件持续关注者的识别方法，该方法能够识别出事件持续关注者，通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合，可有效提升特定信息检索的效率。

Description

一种微博中事件持续关注者的识别模型建立及识别方法

技术领域

本发明涉及信息检索技术领域，尤其涉及专家信息检索技术领域，特别涉及一种微博中事件持续关注者的识别模型建立及识别方法。

背景技术

微博内容简短且相关信息高度分散，对信息获取方式与检索方法带来了冲击与考验。利用传统的信息检索方法在微博中跟踪特定事件或话题跟踪，强烈依赖于检索词的选择，在海量微博信息背景下往往面临着有用数据稀疏、数据冗余、话题漂移与子事件的衍生所造成的检索信息不完备等诸多困难。新媒体环境的一个显著特点即以用户为核心来组织信息。围绕特定事件往往存在一批关注用户，出于兴趣或者职责，这些用户能够对事件保持持续关注，并随着事件演化发布含有相关信息的微博。此类用户通常对事件相关领域也有着较为深入的了解，积累了大量的相关知识与可靠的信息来源，是潜在的事件信息提供者。特别值得注意的是，“事件持续关注者”不同于“领域专家”。“领域专家”通常是指对特定领域有经验或经历的人，偏静态化，而“事件持续关注者”则指代更为细粒度的群体，以事件为单位组织用户，随事件的发展呈现出高度动态变化特点；“领域专家”并不要求发布相应信息，“事件持续关注者”则特指具有较大可能发布事件相关信息的用户。“事件持续关注者”是信息获取的重要源头，对于话题跟踪、事件挖掘等具有重要意义。

如果能够有效识别出持续关注事件并提供相关信息的潜在用户，即“事件持续关注者”。则可以为事件跟踪开辟了新的思路，并能够有效避免关键词检索方法在事件发展过程中有可能产生的检索词未知等困境。

发明内容

本发明的目的在于，针对海量微博信息背景下对特定事件信息的检索需求，提出一种事件持续关注者的识别模型建立方法，该方法通过提取训练样本中用户的关注度特征和认可度特征，训练出事件持续关注者的识别模型；然后基于识别模型提供了一种事件持续关注者的识别方法，通过该方法可以获得事件持续关注者，克服信息检索在微博信息环境中面临的信息冗余、有用数据稀疏等困难，以辅助检索人员高效获取特定事件的完备信息。

为了实现上述目的，本发明提供了一种微博中事件持续关注者的识别模型建立方法，所述方法包括：建立训练样本集，包括关注某一事件的用户及与该事件相关的微博；分别提取训练样本集中每个用户的关注度特征和认可度特征，分别训练出关注度用户分类模型和排序模型，所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。

上述技术方案中，所述方法具体包括：

步骤S1)通过关键词检索事件相关微博，获取关注该事件的初始用户群，通过用户的历史微博信息与预先准备的事件描述进行相似度计算，对事件相关微博进行判断与统计，过滤与该事件不相关的微博，从而获取每个用户与该事件相关的微博；初始用户群与每个用户发布的与该事件相关的微博构成训练样本集；

步骤S2)获取训练样本集中每个用户的关注度特征；

步骤S3)建立关注度用户分类模型，该模型为一个SVM分类器；输入为用户的关注度特征，输出为分类结果，将分类结果为“是”的用户组成关注用户初始集合U；

步骤S4)获取关注用户初始集合U中每个用户的认可度特征；

步骤S5)建立排序模型R，输入为集合U中每个用户的认可度特征，输出为对用户所发布事件相关信息的重要性进行排序的用户顺序；

步骤S6)训练排序模型R；

步骤S7)所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。

上述技术方案中，所述步骤S2)的关注度特征包括：用户对于事件的活跃程度、用户对事件的反映及时性、用户与其他用户之间的互动情况、用户兴趣以及用户的基本状态；根据用户所发布的历史微博信息、好友关系、背景信息数据提取用户对事件的关注度特征。

上述技术方案中，所述步骤S4)的用户的认可度特征包括：自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度，从用户的微博形象、自身能力以及对事件信息的把控情况层面提取用户的认可度特征。

基于上述方法建立的微博中事件持续关注者的识别模型，本发明还提供了一种微博中事件持续关注者的识别方法，该方法包括：

步骤T1)获取对某一微博事件关注的用户集及每个用户发布的与该事件相关的微博；

步骤T2)获取用户集中每个用户的关注度特征，输入训练好的用户分类模型，得到用户初始集合U₀；

步骤T3)获取集合U₀中用户的认可度特征，输入训练好的排序模型，得到集合U₀的用户排序；

步骤T4)根据用户排序，选取前k名用户作为高认可度用户。

上述技术方案中，所述k的取值为集合U₀中用户数量的1/10再取整。

本发明的优势在于：

本发明的方法能够在微博中跟踪特定事件相关信息，能够以用户为切入点，通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合，可有效提升特定信息检索的效率。

附图说明

图1为基于SVM的用户关注度评估流程示意图；

图2为本发明的微博中事件持续关注者的识别模型的建立方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细的说明。

如图1所示，微博中的事件持续关注者识别方法从用户对事件的关注度(信息可持续性)以及用户的认可度(信息的重要性)两个角度对微博中关注特定事件的用户进行评估，从而筛选出能够持续提供事件信息的优质用户，即事件持续关注者。

一种微博中事件持续关注者的识别模型的建立方法，所述方法包括：

步骤S1)通过关键词检索事件相关微博，获取关注该事件的初始用户群，通过用户的历史微博信息与预先准备的事件描述进行相似度计算，对事件相关微博进行判断与统计，过滤与该事件不相关的微博，从而获取每个用户与该事件相关的微博；初始用户群与每个用于与该事件相关的微博构成训练样本集；

步骤S2)获取训练样本集中每个用户的关注度特征；

针对训练样本集中的每个用户，根据用户所发布的历史微博信息、好友关系、背景信息等数据提取用户对事件的关注度特征。关注度特征包括：用户对于事件的活跃程度、对事件的反映及时性、与其他用户之间的互动情况、用户兴趣以及用户的基本状态。其中，用户的活跃性与反应及时性综合了用户围绕特定事件所发布相关微博的数量与频率特征，用户兴趣则基于用户历史微博、订阅列表信息与事件描述的相似度计算，互动情况主要考虑了信息源受到其好友关注内容所带来的影响与推动力。

结合SVM分类算法，对训练样本集中预先进行手工标注的持续发布事件信息的用户进行训练，得到分类效果最佳的模型以及用户样本的分类。本发明中的关注度用户分类模型并不区分事件类型，对任意事件具有普适性。

步骤S4)获取关注用户初始集合U中每个用户的认可度特征；

认可度特征包括：自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度，从用户的微博形象、自身能力以及对事件信息的把控情况层面提取。其中，自我描述信息完整度根据用户公开展示信息的重要性进行打分，平台利用度求取用户利用微博平台关注他人、发布信息等的日均指标数，用于表示其对平台使用的频繁程度，信息输出能力综合了用户发布信息的附加信息量，而信息传播能力对用户传播信息过程中引起的个人知名度、被关注增多等情况构建了相关特征，事件认知度同时考虑了用户微博与所属于的自定义列表描述同事件描述信息的相似度特征。

步骤S6)训练排序模型R；

对用户所发布事件相关信息的重要性进行排序。在排序学习框架下，结合构建的认可度描述特征，训练出一个排序模型。首先给定一个查询集合Q，在不同的查询日期检索事件相关信息，获取对应的关注用户集合{u}，并对用户在查询日期之后所发布的事件相关微博是否被他人转发进行手工标注。接着，应用排序学习算法对手工标注的数据进行训练，生成排序学习模型R。对于一个新的查询和其所对应的用户集合{u}和微博集合{t}，抽取相同的特征形成特征集合，然后利用生成好的排序学习模型对进行相关排序。

步骤S7)所述微博中事件持续关注者的识别模型包括训练好的用户分类模型和排序模型。

基于上述方法建立的微博中事件持续关注者的识别模型，本发明还提供了一种微博中事件持续关注者的识别方法，

如图2所示，所述方法包括：

步骤T1)建立对某一微博关注的用户集；

步骤T4)根据用户排序，选取前k名用户作为高认可度用户组成高认可度用户集合U₁；k的取值为集合U₀中用户数量的1/10再取整。

对于已经发布过少量事件相关信息的初始用户集合进行关注度评估，从信息的可持续性角度获取能够持续提供事件相关信息的用户集合；然后对上述用户集合进行认可度评估，最终选取认可度较高的用户集合作为最终的事件持续关注者集合，以保证事件持续关注者不但能够持续发布特定事件相关信息，而且信息具有一定的可研究价值。

Claims

1.一种微博中事件持续关注者的识别模型的建立方法，所述方法包括：建立训练样本集，包括关注某一事件的用户及与该事件相关的微博；分别提取训练样本集中每个用户的关注度特征和认可度特征，分别训练出关注度用户分类模型和排序模型，所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型；

所述方法具体包括：

步骤S2)获取训练样本集中每个用户的关注度特征；

步骤S4)获取关注用户初始集合U中每个用户的认可度特征；

步骤S6)训练排序模型R；

2.根据权利要求1所述的微博中事件持续关注者的识别模型的建立方法，其特征在于，所述步骤S2)的关注度特征包括：用户对于事件的活跃程度、用户对事件的反映及时性、用户与其他用户之间的互动情况、用户兴趣以及用户的基本状态；根据用户所发布的历史微博信息、好友关系、背景信息数据提取用户对事件的关注度特征。

3.根据权利要求1所述的微博中事件持续关注者的识别模型的建立方法，其特征在于，所述步骤S4)的用户的认可度特征包括：自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度，从用户的微博形象、自身能力以及对事件信息的把控情况层面提取用户的认可度特征。

4.一种微博中事件持续关注者的识别方法，基于权利要求1-3之一所述的方法建立的微博中事件持续关注者的识别模型实现，该方法包括：

步骤T4)根据用户排序，选取前k名用户作为高认可度用户。

5.根据权利要求4中的微博中事件持续关注者的识别方法，其特征在于，所述k的取值为集合U₀中用户数量的1/10再取整。