CN106446146B - 一种微博中事件持续关注者的识别模型建立及识别方法 - Google Patents

一种微博中事件持续关注者的识别模型建立及识别方法 Download PDF

Info

Publication number
CN106446146B
CN106446146B CN201610839220.2A CN201610839220A CN106446146B CN 106446146 B CN106446146 B CN 106446146B CN 201610839220 A CN201610839220 A CN 201610839220A CN 106446146 B CN106446146 B CN 106446146B
Authority
CN
China
Prior art keywords
user
event
microblogging
follower
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610839220.2A
Other languages
English (en)
Other versions
CN106446146A (zh
Inventor
谷蓓蓓
罗准辰
王新
罗威
陈钧
韦博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Original Assignee
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE filed Critical CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority to CN201610839220.2A priority Critical patent/CN106446146B/zh
Publication of CN106446146A publication Critical patent/CN106446146A/zh
Application granted granted Critical
Publication of CN106446146B publication Critical patent/CN106446146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种微博中事件持续关注者的识别模型的建立方法,所述方法包括:建立训练样本集,包括关注某一事件的用户及与该事件相关的微博;分别提取训练样本集中每个用户的关注度特征和认可度特征,分别训练出关注度用户分类模型和排序模型,所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。基于上述识别模型,本发明还提供了一种微博中事件持续关注者的识别方法,该方法能够识别出事件持续关注者,通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合,可有效提升特定信息检索的效率。

Description

一种微博中事件持续关注者的识别模型建立及识别方法
技术领域
本发明涉及信息检索技术领域,尤其涉及专家信息检索技术领域,特别涉及一种微博中事件持续关注者的识别模型建立及识别方法。
背景技术
微博内容简短且相关信息高度分散,对信息获取方式与检索方法带来了冲击与考验。利用传统的信息检索方法在微博中跟踪特定事件或话题跟踪,强烈依赖于检索词的选择,在海量微博信息背景下往往面临着有用数据稀疏、数据冗余、话题漂移与子事件的衍生所造成的检索信息不完备等诸多困难。新媒体环境的一个显著特点即以用户为核心来组织信息。围绕特定事件往往存在一批关注用户,出于兴趣或者职责,这些用户能够对事件保持持续关注,并随着事件演化发布含有相关信息的微博。此类用户通常对事件相关领域也有着较为深入的了解,积累了大量的相关知识与可靠的信息来源,是潜在的事件信息提供者。特别值得注意的是,“事件持续关注者”不同于“领域专家”。“领域专家”通常是指对特定领域有经验或经历的人,偏静态化,而“事件持续关注者”则指代更为细粒度的群体,以事件为单位组织用户,随事件的发展呈现出高度动态变化特点;“领域专家”并不要求发布相应信息,“事件持续关注者”则特指具有较大可能发布事件相关信息的用户。“事件持续关注者”是信息获取的重要源头,对于话题跟踪、事件挖掘等具有重要意义。
如果能够有效识别出持续关注事件并提供相关信息的潜在用户,即“事件持续关注者”。则可以为事件跟踪开辟了新的思路,并能够有效避免关键词检索方法在事件发展过程中有可能产生的检索词未知等困境。
发明内容
本发明的目的在于,针对海量微博信息背景下对特定事件信息的检索需求,提出一种事件持续关注者的识别模型建立方法,该方法通过提取训练样本中用户的关注度特征和认可度特征,训练出事件持续关注者的识别模型;然后基于识别模型提供了一种事件持续关注者的识别方法,通过该方法可以获得事件持续关注者,克服信息检索在微博信息环境中面临的信息冗余、有用数据稀疏等困难,以辅助检索人员高效获取特定事件的完备信息。
为了实现上述目的,本发明提供了一种微博中事件持续关注者的识别模型建立方法,所述方法包括:建立训练样本集,包括关注某一事件的用户及与该事件相关的微博;分别提取训练样本集中每个用户的关注度特征和认可度特征,分别训练出关注度用户分类模型和排序模型,所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。
上述技术方案中,所述方法具体包括:
步骤S1)通过关键词检索事件相关微博,获取关注该事件的初始用户群,通过用户的历史微博信息与预先准备的事件描述进行相似度计算,对事件相关微博进行判断与统计,过滤与该事件不相关的微博,从而获取每个用户与该事件相关的微博;初始用户群与每个用户发布的与该事件相关的微博构成训练样本集;
步骤S2)获取训练样本集中每个用户的关注度特征;
步骤S3)建立关注度用户分类模型,该模型为一个SVM分类器;输入为用户的关注度特征,输出为分类结果,将分类结果为“是”的用户组成关注用户初始集合U;
步骤S4)获取关注用户初始集合U中每个用户的认可度特征;
步骤S5)建立排序模型R,输入为集合U中每个用户的认可度特征,输出为对用户所发布事件相关信息的重要性进行排序的用户顺序;
步骤S6)训练排序模型R;
步骤S7)所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。
上述技术方案中,所述步骤S2)的关注度特征包括:用户对于事件的活跃程度、用户对事件的反映及时性、用户与其他用户之间的互动情况、用户兴趣以及用户的基本状态;根据用户所发布的历史微博信息、好友关系、背景信息数据提取用户对事件的关注度特征。
上述技术方案中,所述步骤S4)的用户的认可度特征包括:自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度,从用户的微博形象、自身能力以及对事件信息的把控情况层面提取用户的认可度特征。
基于上述方法建立的微博中事件持续关注者的识别模型,本发明还提供了一种微博中事件持续关注者的识别方法,该方法包括:
步骤T1)获取对某一微博事件关注的用户集及每个用户发布的与该事件相关的微博;
步骤T2)获取用户集中每个用户的关注度特征,输入训练好的用户分类模型,得到用户初始集合U0
步骤T3)获取集合U0中用户的认可度特征,输入训练好的排序模型,得到集合U0的用户排序;
步骤T4)根据用户排序,选取前k名用户作为高认可度用户。
上述技术方案中,所述k的取值为集合U0中用户数量的1/10再取整。
本发明的优势在于:
本发明的方法能够在微博中跟踪特定事件相关信息,能够以用户为切入点,通过检索事件持续关注者的微博信息流以获取相对密集、完备的事件信息集合,可有效提升特定信息检索的效率。
附图说明
图1为基于SVM的用户关注度评估流程示意图;
图2为本发明的微博中事件持续关注者的识别模型的建立方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示,微博中的事件持续关注者识别方法从用户对事件的关注度(信息可持续性)以及用户的认可度(信息的重要性)两个角度对微博中关注特定事件的用户进行评估,从而筛选出能够持续提供事件信息的优质用户,即事件持续关注者。
一种微博中事件持续关注者的识别模型的建立方法,所述方法包括:
步骤S1)通过关键词检索事件相关微博,获取关注该事件的初始用户群,通过用户的历史微博信息与预先准备的事件描述进行相似度计算,对事件相关微博进行判断与统计,过滤与该事件不相关的微博,从而获取每个用户与该事件相关的微博;初始用户群与每个用于与该事件相关的微博构成训练样本集;
步骤S2)获取训练样本集中每个用户的关注度特征;
针对训练样本集中的每个用户,根据用户所发布的历史微博信息、好友关系、背景信息等数据提取用户对事件的关注度特征。关注度特征包括:用户对于事件的活跃程度、对事件的反映及时性、与其他用户之间的互动情况、用户兴趣以及用户的基本状态。其中,用户的活跃性与反应及时性综合了用户围绕特定事件所发布相关微博的数量与频率特征,用户兴趣则基于用户历史微博、订阅列表信息与事件描述的相似度计算,互动情况主要考虑了信息源受到其好友关注内容所带来的影响与推动力。
步骤S3)建立关注度用户分类模型,该模型为一个SVM分类器;输入为用户的关注度特征,输出为分类结果,将分类结果为“是”的用户组成关注用户初始集合U;
结合SVM分类算法,对训练样本集中预先进行手工标注的持续发布事件信息的用户进行训练,得到分类效果最佳的模型以及用户样本的分类。本发明中的关注度用户分类模型并不区分事件类型,对任意事件具有普适性。
步骤S4)获取关注用户初始集合U中每个用户的认可度特征;
认可度特征包括:自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度,从用户的微博形象、自身能力以及对事件信息的把控情况层面提取。其中,自我描述信息完整度根据用户公开展示信息的重要性进行打分,平台利用度求取用户利用微博平台关注他人、发布信息等的日均指标数,用于表示其对平台使用的频繁程度,信息输出能力综合了用户发布信息的附加信息量,而信息传播能力对用户传播信息过程中引起的个人知名度、被关注增多等情况构建了相关特征,事件认知度同时考虑了用户微博与所属于的自定义列表描述同事件描述信息的相似度特征。
步骤S5)建立排序模型R,输入为集合U中每个用户的认可度特征,输出为对用户所发布事件相关信息的重要性进行排序的用户顺序;
步骤S6)训练排序模型R;
对用户所发布事件相关信息的重要性进行排序。在排序学习框架下,结合构建的认可度描述特征,训练出一个排序模型。首先给定一个查询集合Q,在不同的查询日期检索事件相关信息,获取对应的关注用户集合{u},并对用户在查询日期之后所发布的事件相关微博是否被他人转发进行手工标注。接着,应用排序学习算法对手工标注的数据进行训练,生成排序学习模型R。对于一个新的查询和其所对应的用户集合{u}和微博集合{t},抽取相同的特征形成特征集合,然后利用生成好的排序学习模型对进行相关排序。
步骤S7)所述微博中事件持续关注者的识别模型包括训练好的用户分类模型和排序模型。
基于上述方法建立的微博中事件持续关注者的识别模型,本发明还提供了一种微博中事件持续关注者的识别方法,
如图2所示,所述方法包括:
步骤T1)建立对某一微博关注的用户集;
步骤T2)获取用户集中每个用户的关注度特征,输入训练好的用户分类模型,得到用户初始集合U0
步骤T3)获取集合U0中用户的认可度特征,输入训练好的排序模型,得到集合U0的用户排序;
步骤T4)根据用户排序,选取前k名用户作为高认可度用户组成高认可度用户集合U1;k的取值为集合U0中用户数量的1/10再取整。
对于已经发布过少量事件相关信息的初始用户集合进行关注度评估,从信息的可持续性角度获取能够持续提供事件相关信息的用户集合;然后对上述用户集合进行认可度评估,最终选取认可度较高的用户集合作为最终的事件持续关注者集合,以保证事件持续关注者不但能够持续发布特定事件相关信息,而且信息具有一定的可研究价值。

Claims (5)

1.一种微博中事件持续关注者的识别模型的建立方法,所述方法包括:建立训练样本集,包括关注某一事件的用户及与该事件相关的微博;分别提取训练样本集中每个用户的关注度特征和认可度特征,分别训练出关注度用户分类模型和排序模型,所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型;
所述方法具体包括:
步骤S1)通过关键词检索事件相关微博,获取关注该事件的初始用户群,通过用户的历史微博信息与预先准备的事件描述进行相似度计算,对事件相关微博进行判断与统计,过滤与该事件不相关的微博,从而获取每个用户与该事件相关的微博;初始用户群与每个用户发布的与该事件相关的微博构成训练样本集;
步骤S2)获取训练样本集中每个用户的关注度特征;
步骤S3)建立关注度用户分类模型,该模型为一个SVM分类器;输入为用户的关注度特征,输出为分类结果,将分类结果为“是”的用户组成关注用户初始集合U;
步骤S4)获取关注用户初始集合U中每个用户的认可度特征;
步骤S5)建立排序模型R,输入为集合U中每个用户的认可度特征,输出为对用户所发布事件相关信息的重要性进行排序的用户顺序;
步骤S6)训练排序模型R;
步骤S7)所述微博中事件持续关注者的识别模型包括训练好的关注度用户分类模型和排序模型。
2.根据权利要求1所述的微博中事件持续关注者的识别模型的建立方法,其特征在于,所述步骤S2)的关注度特征包括:用户对于事件的活跃程度、用户对事件的反映及时性、用户与其他用户之间的互动情况、用户兴趣以及用户的基本状态;根据用户所发布的历史微博信息、好友关系、背景信息数据提取用户对事件的关注度特征。
3.根据权利要求1所述的微博中事件持续关注者的识别模型的建立方法,其特征在于,所述步骤S4)的用户的认可度特征包括:自我描述信息完整度、平台利用度、信息输出能力、信息传播能力和事件认知度,从用户的微博形象、自身能力以及对事件信息的把控情况层面提取用户的认可度特征。
4.一种微博中事件持续关注者的识别方法,基于权利要求1-3之一所述的方法建立的微博中事件持续关注者的识别模型实现,该方法包括:
步骤T1)获取对某一微博事件关注的用户集及每个用户发布的与该事件相关的微博;
步骤T2)获取用户集中每个用户的关注度特征,输入训练好的用户分类模型,得到用户初始集合U0
步骤T3)获取集合U0中用户的认可度特征,输入训练好的排序模型,得到集合U0的用户排序;
步骤T4)根据用户排序,选取前k名用户作为高认可度用户。
5.根据权利要求4中的微博中事件持续关注者的识别方法,其特征在于,所述k的取值为集合U0中用户数量的1/10再取整。
CN201610839220.2A 2016-09-21 2016-09-21 一种微博中事件持续关注者的识别模型建立及识别方法 Active CN106446146B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610839220.2A CN106446146B (zh) 2016-09-21 2016-09-21 一种微博中事件持续关注者的识别模型建立及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610839220.2A CN106446146B (zh) 2016-09-21 2016-09-21 一种微博中事件持续关注者的识别模型建立及识别方法

Publications (2)

Publication Number Publication Date
CN106446146A CN106446146A (zh) 2017-02-22
CN106446146B true CN106446146B (zh) 2019-05-17

Family

ID=58166336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610839220.2A Active CN106446146B (zh) 2016-09-21 2016-09-21 一种微博中事件持续关注者的识别模型建立及识别方法

Country Status (1)

Country Link
CN (1) CN106446146B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104035972A (zh) * 2014-05-21 2014-09-10 哈尔滨工业大学深圳研究生院 一种基于微博的知识推荐方法与系统
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104281669A (zh) * 2014-09-28 2015-01-14 西安电子科技大学 社交网络用户影响数值的评估方法和装置
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN105740366A (zh) * 2016-01-26 2016-07-06 哈尔滨工业大学深圳研究生院 微博用户兴趣推理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016070028A1 (en) * 2014-10-31 2016-05-06 Informite Inc. Systems and methods for keyword research and analysis for paid search

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458042A (zh) * 2013-09-10 2013-12-18 上海交通大学 一种微博广告用户检测方法
CN104035972A (zh) * 2014-05-21 2014-09-10 哈尔滨工业大学深圳研究生院 一种基于微博的知识推荐方法与系统
CN104216954A (zh) * 2014-08-20 2014-12-17 北京邮电大学 突发事件话题状态的预测装置及预测方法
CN104281669A (zh) * 2014-09-28 2015-01-14 西安电子科技大学 社交网络用户影响数值的评估方法和装置
CN105653518A (zh) * 2015-12-25 2016-06-08 北京理工大学 一种基于微博数据的特定群体发现及扩充方法
CN105740366A (zh) * 2016-01-26 2016-07-06 哈尔滨工业大学深圳研究生院 微博用户兴趣推理方法及装置

Also Published As

Publication number Publication date
CN106446146A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN103530540B (zh) 基于人机交互行为特征的用户身份属性检测方法
Tran et al. Privacy-cnh: A framework to detect photo privacy with convolutional neural network using hierarchical features
Rabani et al. Detection of suicidal ideation on Twitter using machine learning & ensemble approaches
CN106462807A (zh) 根据大规模非结构化数据学习多媒体语义
CN110990683B (zh) 一种基于地域与情感特征的微博谣言集成识别方法及装置
CN102855552A (zh) 信息处理设备、信息处理方法和程序
CN108460153A (zh) 一种混合博文与用户关系的社交媒体好友推荐方法
CN113254652B (zh) 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN106537387B (zh) 检索/存储与事件相关联的图像
CN106682236A (zh) 基于机器学习的专利数据处理方法及其处理系统
CN110489565A (zh) 基于领域知识图谱本体中的对象根类型设计方法及系统
Hao et al. How do Mainland Chinese tourists perceive Hong Kong in turbulence? A deep learning approach to sentiment analytics
Hu et al. Fine-grained classification of drug trafficking based on Instagram hashtags
Tsinganos et al. Utilizing convolutional neural networks and word embeddings for early-stage recognition of persuasion in chat-based social engineering attacks
CN106446146B (zh) 一种微博中事件持续关注者的识别模型建立及识别方法
Sharma et al. A Survey of Detection and Mitigation for Fake Images on Social Media Platforms
CN109871889A (zh) 突发事件下大众心理评估方法
Chin Knowledge transfer: what, how, and why
JP2014096086A (ja) 文書分類システムおよび方法
Singgalen Performance Evaluation of SVM Algorithm in Sentiment Classification: A Visual Journey of Wonderful Indonesia Content
Sun et al. Urban region function mining service based on social media text analysis
Johansson et al. Customer segmentation using machine learning
CN115578100A (zh) 支付验证方式的识别方法、装置、电子设备和存储介质
CN112200260A (zh) 一种基于丢弃损失函数的人物属性识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant