CN106503064B - 一种自适应微博话题摘要的生成方法 - Google Patents

一种自适应微博话题摘要的生成方法 Download PDF

Info

Publication number
CN106503064B
CN106503064B CN201610865867.2A CN201610865867A CN106503064B CN 106503064 B CN106503064 B CN 106503064B CN 201610865867 A CN201610865867 A CN 201610865867A CN 106503064 B CN106503064 B CN 106503064B
Authority
CN
China
Prior art keywords
topic
blog article
sub
blog
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610865867.2A
Other languages
English (en)
Other versions
CN106503064A (zh
Inventor
王莹
罗准辰
罗威
韦博
陈钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Original Assignee
CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE filed Critical CHINA NATIONAL DEFENCE SCIENCE TECHNOLOGY INFORMATION CENTRE
Priority to CN201610865867.2A priority Critical patent/CN106503064B/zh
Publication of CN106503064A publication Critical patent/CN106503064A/zh
Application granted granted Critical
Publication of CN106503064B publication Critical patent/CN106503064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Abstract

本发明提供了一种自适应微博话题摘要的生成方法,所述方法包括:步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;步骤6)对博文子集进行处理,生成最终的摘要。该方法能够提高微博话题摘要的质量,提升用户体验。

Description

一种自适应微博话题摘要的生成方法
技术领域
本发明涉及信息检索技术领域,尤其涉及社交媒体中的信息检索、自动摘要,具体涉及一种自适应微博话题摘要的生成方法。
背景技术
目前,用户从微博中查找某一话题的相关信息时,往往求助于信息检索技术。但这种方式有一些缺陷:1)大量信息会导致用户信息过载;2)检索回的结果会存在冗余;3)仅仅通过检索结果无法感知话题事件的发展脉络。话题自动摘要技术通过对微博数据进行压缩表示,更好地帮助用户浏览和吸收微博上的海量信息,能有效解决信息检索技术面临的困境。
目前,微博话题自动摘要的过程可以分为几个步骤:1)话题对应子话题的发现,如在“日本地震”话题中发现“伤亡情况”,“救援行动”,“地震事件新闻”等一系列子话题。2)子话题时序顺序识别,自动摘要相比于信息检索技术的重要区别便是能显示出事件发展的脉络,因此识别子话题的时间上的先后顺序十分重要;3)子话题代表性的博文选取。针对每个子话题选取代表性的博文生成最终的话题摘要。
子话题代表性博文选择是微博话题摘要生成的重要步骤。很多话题摘要方法不区分子话题的类型,对所有子话题采用相同的模型选取代表性的博文。但是,子话题类型间往往存在差异,例如“日本地震”话题对应的一系列子话题“伤亡情况”,“救援行动”,“地震事件新闻”等。“伤亡情况”子话题具有时间相关性,在选取代表性博文时应该选取之间最近的一条;而针对“地震事件新闻”子话题,应该选取更具有权威性的博文,如官方媒体发布或被广泛转发。如果不区分子话题间的区别,一同对待,势必会降低话题摘要的效果。
发明内容
本发明的目的在于,针对微博话题摘要的需求,提出一种微博话题摘要生成方法,该方法自动识别话题对应子话题的类型,然后针对不同的子话题类型,采取不同的博文选取模型选取代表性博文,由此生成话题摘要。该方法能够提高微博话题摘要的质量,提升用户体验。
为了实现上述目的,本发明提供了一种自适应微博话题摘要的生成方法,所方法包括:
步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;
步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;
步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;
步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;
步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;
步骤6)将博文子集合并成一段文本作为最终的摘要。
上述技术方案中,所述步骤4)之前还包括:建立子话题博文选取模型,所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,所述方法包括:
步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;
步骤S2)对两个训练数据集中的博文提取相同的特征;
步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;
步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同。
上述技术方案中,所述步骤S2)的特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息。
上述技术方案中,所述步骤S4)中,时间相关性子话题博文选取模型在博文时间归一化特征上分配的权重大于非时间性相关子话题博文选取模型在博文时间归一化特征上分配的权重。
本发明的优势在于:
本发明提供了一套完整的微博摘要生成流程,并针对流程中代表性博文选择这一重要环节作出改进,提出了针对不同的子话题类型使用不同的代表性博文选取模型,可有效提升微博摘要质量。
附图说明
图1为本发明的自适应微博话题摘要的生成方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
如图1所示,一种自适应微博话题摘要的生成方法,所述方法包括:
步骤1)采用层次聚类的方法识别话题中的子话题;
层次聚类输入的是一个博文集合,输出的是一系列子话题以及与每个子话题对应的博文子集。层次聚类的核心是计算博文间的相似度。在计算博文间相似度时,采取基于特征的方式,提取的特征包括:文本相似度、时间相似度、实体词相似度、句式结构相似度等。
步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并依此对子话题进行排序;
为了识别展现话题的发展脉络,需要识别出子话题发展的时间先后顺序。
步骤3)识别子话题类型;
子话题类型识别本质上是对子话题进行分类的过程。通过预先定义好一系列子话题类型,本方法中,定义了两种类型:时间相关和非时间相关。时间相关子话题指其对应的博文重复持续报道某一事件,并按照时序关系不断更新,如“日本地震”话题对应的“伤亡情况”子话题,随着时间的变化,伤亡人数也不断变化。非时间相关子话题指其发布的内容不随时间变化,博文时间先后顺序对信息的获取不产生影响。如“日本地震”话题对应的“地震事件新闻”子话题,通常权威媒体发布相关博文后,后续内容不会随时间变化更新。将新的子话题对应到其中的某一类。并依据其对应的博文选取模型选取代表性博文。
采用排序模型作为博文选取模型,通过基于特征的排序方法,选取排名靠前的博文作为最终该子话题的选取结果。
步骤4)按照子话题的类型,基于相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;
所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,建立这两个模型具体包括:
步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;
步骤S2)对两个训练数据集中的博文提取相同的特征;所述特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息
步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;
步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同。
时间相关性子话题博文选取模型在博文时间归一化特征上分配的权重大于非时间性相关子话题博文选取模型在博文时间归一化特征上分配的权重。
步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;
步骤6)将博文子集合并成一段文本作为最终的摘要。

Claims (2)

1.一种自适应微博话题摘要的生成方法,所方法包括:
步骤1)采用层次聚类的算法识别话题中的子话题和每个子话题对应的博文集合;
步骤2)采用子话题对应的博文集合的平均发布时间作为子话题的发生时间,并按照该时间对子话题进行排序;
步骤3)将子话题按照两种类型:时间相关和非时间相关进行划分;
步骤4)根据子话题的类型,利用相同类型的子话题博文选取模型对博文集合中的博文进行排序,选取排在第一位的博文为代表性博文;
步骤5)按照步骤2)的子话题的排序,将每个代表性博文进行排序,得到一个博文子集;
步骤6)将博文子集合并成一段文本作为最终的摘要;
所述步骤4)还包括:建立子话题博文选取模型,所述子话题博文选取模型包括:时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型,所述方法包括:
步骤S1)构建时间相关性子话题训练数据集和非时间相关性子话题训练数据集,每个训练数据集包括:若干个子话题、每个子话题对应的博文集,通过人工标注得到的博文的排序;
步骤S2)对两个训练数据集中的博文提取相同的特征;
步骤S3)建立时间相关性子话题博文选取模型和非时间相关性子话题博文选取模型;两个模型都为排序模型;输入为每个子话题的若干个博文的特征组成的特征向量,输出为博文的排序;
步骤S4)对两种排序模型进行训练;两个模型的差别为在博文时间归一化特征上分配的权重不同;
所述步骤S2)的特征包括:博文长度归一化示、博文时间归一化表示、转发数归一化表示、博文是否包含超链接、博文是否包含主题词和博文是否包含提及信息。
2.根据权利要求1所述的自适应微博话题摘要的生成方法,其特征在于,所述步骤S4)中,时间相关性子话题博文选取模型在博文时间归一化特征上分配的权重大于非时间性相关子话题博文选取模型在博文时间归一化特征上分配的权重。
CN201610865867.2A 2016-09-29 2016-09-29 一种自适应微博话题摘要的生成方法 Active CN106503064B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610865867.2A CN106503064B (zh) 2016-09-29 2016-09-29 一种自适应微博话题摘要的生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610865867.2A CN106503064B (zh) 2016-09-29 2016-09-29 一种自适应微博话题摘要的生成方法

Publications (2)

Publication Number Publication Date
CN106503064A CN106503064A (zh) 2017-03-15
CN106503064B true CN106503064B (zh) 2019-07-02

Family

ID=58290179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610865867.2A Active CN106503064B (zh) 2016-09-29 2016-09-29 一种自适应微博话题摘要的生成方法

Country Status (1)

Country Link
CN (1) CN106503064B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582967B (zh) * 2018-12-03 2023-08-18 深圳前海微众银行股份有限公司 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN110889292B (zh) * 2019-11-29 2022-06-03 福州大学 一种基于句义结构模型的文本数据生成观点摘要的方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609445A (zh) * 2009-07-16 2009-12-23 复旦大学 基于时间信息的关键子话题提取方法
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9299113B2 (en) * 2013-09-13 2016-03-29 Microsoft Technology Licensing, Llc Social media driven information interface

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101609445A (zh) * 2009-07-16 2009-12-23 复旦大学 基于时间信息的关键子话题提取方法
CN102831193A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于分布式多级聚类的话题检测装置及方法
CN104516961A (zh) * 2014-12-18 2015-04-15 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于地域的话题挖掘及话题走势分析方法及系统
CN104915447A (zh) * 2015-06-30 2015-09-16 北京奇艺世纪科技有限公司 一种热点话题追踪及关键词确定方法及装置
CN105488092A (zh) * 2015-07-13 2016-04-13 中国科学院信息工程研究所 一种时间敏感和自适应的子话题在线检测方法及系统
CN105354216A (zh) * 2015-09-28 2016-02-24 哈尔滨工业大学 一种中文微博话题信息处理方法

Also Published As

Publication number Publication date
CN106503064A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Hu et al. Exploiting social relations for sentiment analysis in microblogging
CN106294425B (zh) 商品相关网络文章之自动图文摘要方法及系统
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
US9201880B2 (en) Processing a content item with regard to an event and a location
CN109190017B (zh) 热点信息的确定方法、装置、服务器及存储介质
CN109960756B (zh) 新闻事件信息归纳方法
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
US9817908B2 (en) Systems and methods for news event organization
CN104484343B (zh) 一种对微博进行主题发现与追踪的方法
CN104484431B (zh) 一种基于领域本体的多源个性化新闻网页推荐方法
CN105930411A (zh) 一种分类器训练方法、分类器和情感分类系统
CN106095949A (zh) 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统
CN105378730A (zh) 社交媒体分析与输出
CN103577405A (zh) 基于兴趣分析的微博博主社区分类方法
CN108629010A (zh) 一种基于主题和服务组合信息的web服务推荐方法
CN108920521A (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN106294358A (zh) 一种信息的检索方法及系统
CN107506472A (zh) 一种学生浏览网页分类方法
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN106156179B (zh) 一种信息检索方法及装置
CN106503064B (zh) 一种自适应微博话题摘要的生成方法
CN106202498A (zh) 一种基于分类语料库‑关键词词频‑记录关联的网络行为习惯量化方法
CN105447013A (zh) 一种新闻推荐系统
CN108829806A (zh) 一种跨事件新闻文本情感分析方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant