CN106202487A - 基于用户发帖行为模式的多线索社会事件总结方法 - Google Patents

基于用户发帖行为模式的多线索社会事件总结方法 Download PDF

Info

Publication number
CN106202487A
CN106202487A CN201610569558.0A CN201610569558A CN106202487A CN 106202487 A CN106202487 A CN 106202487A CN 201610569558 A CN201610569558 A CN 201610569558A CN 106202487 A CN106202487 A CN 106202487A
Authority
CN
China
Prior art keywords
microblogging
social events
event
clue
development
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610569558.0A
Other languages
English (en)
Other versions
CN106202487B (zh
Inventor
郭斌
张佳凡
於志文
欧阳逸
周兴社
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201610569558.0A priority Critical patent/CN106202487B/zh
Publication of CN106202487A publication Critical patent/CN106202487A/zh
Application granted granted Critical
Publication of CN106202487B publication Critical patent/CN106202487B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户发帖行为模式的多线索社会事件总结方法,用于解决现有多线索社会事件总结方法实用性差的技术问题。技术方案是根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。

Description

基于用户发帖行为模式的多线索社会事件总结方法
技术领域
本发明涉及一种多线索社会事件总结方法,特别涉及一种基于用户发帖行为模式的多线索社会事件总结方法。
背景技术
近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,基于社交媒体数据进行社会事件总结的工作受到了越来越多的研究人员的关注。当某一社会事件发生时,会有大量的用户在第一时间通过社交网络发布相关的信息,进行相关的讨论,这里往往还包含了许多目击者或是现场的第一手信息。与传统媒体相比,社交媒体发布的信息更全面,然而,由于未经过专业编辑的整理过滤,这些信息往往是杂乱的。因此,需要通过有效地措施对这些社交媒体信息进行整理过滤,以得到清晰的结果用于社会事件总结,为人们了解社会事件提供有价值的参考。
专利CN1710563提出了一种重要新闻事件检测和摘要的方法,该专利主要面向新闻视频数据,将多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要。专利CN104850606A公开了一种移动群智感知社会事件的总结方法,利用Tucker张量分解和K-means聚类分析对社会事件进行总结。专利CN104182504A公开了一种新闻事件的动态跟踪和总结算法,采用社区发现算法从词共现图中提取与新闻事件相关的多个主题,对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。这些专利的不足之处就是忽略了社会事件中有多个线索,每个线索都有自己的发展情况。比如在天津大爆炸事件中,有救援情况的线索,有清理事故现场的线索,有受灾群众安置的线索等。只有区分这些线索才可以得到一个清晰可读的社会事件总结,便于用户了解社会事件不同方面的发展概况。
发明内容
为了克服现有多线索社会事件总结方法实用性差的不足,本发明提供一种基于用户发帖行为模式的多线索社会事件总结方法。该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
本发明解决其技术问题所采用的技术方案:一种基于用户发帖行为模式的多线索社会事件总结方法,其特点是包括以下步骤:
步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词。
步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。
步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。
步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结。
步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结。
其中,子模性函数为,
f ( S ) = Σ i ∈ V \ S Σ j ∈ S s i m ( i , j ) - λ Σ i , j ∈ S : i ≠ j s i m ( i , j )
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小。利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
本发明的有益效果是:该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于用户发帖行为模式的多线索社会事件总结方法的流程图。
具体实施方式
参照图1。本发明基于用户发帖行为模式的多线索社会事件总结方法具体步骤如下:
步骤1、根据关键字“天津塘沽大爆炸”利用网络爬虫获得关于天津大爆炸事件的微博,提取微博中的正文内容及时间字段,利用分词工具对正文内容进行分词并过滤停止词。
步骤2、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
步骤3、利用TF-IDF计算正文内容中的关键词,如消防员、震感、小区、事故现场等。根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
步骤4、利用深度优先算法搜索图模型T中的所有连通子图ST,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。比如ST1={a,b,c},ST2={d,e},a,b,c,d,e分别代表五个不同的微博。
步骤5、利用深度优先算法搜索图模型A中的所有连通子图SA,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。比如SA1={a,d},SA2={b,c,e}。
步骤6、根据ST1,ST2,SA1,SA2,可以得知属于线索A1的微博a,d属于两个不同的发展阶段,a∈ST1,d∈ST2,同理可以得知属于线索A2的微博b,c和e属于两个不同的发展阶段b,c∈ST1,e∈ST2。由此,我们可以得知道该事件有两个线索,线索A1(a→d),线索A2(b→e,c→e)。
步骤7、根据子模性函数利用贪心算法剔除各线索中的冗余信息。经过计算,发现线索A2中c为冗余信息,则剔除c,最终的事件总结为,该事件包括线索A1以及线索A2,其内部发展情况为线索A1(a→d),线索A2(b→e)。

Claims (1)

1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:
步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;
步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;
步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;
步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;
步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;
步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;
步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结;
其中,子模性函数为,
f ( S ) = Σ i ∈ V \ S Σ j ∈ S s i m ( i , j ) - λ Σ i , j ∈ S : i ≠ j s i m ( i , j )
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小;利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
CN201610569558.0A 2016-07-19 2016-07-19 基于用户发帖行为模式的多线索社会事件总结方法 Expired - Fee Related CN106202487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610569558.0A CN106202487B (zh) 2016-07-19 2016-07-19 基于用户发帖行为模式的多线索社会事件总结方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610569558.0A CN106202487B (zh) 2016-07-19 2016-07-19 基于用户发帖行为模式的多线索社会事件总结方法

Publications (2)

Publication Number Publication Date
CN106202487A true CN106202487A (zh) 2016-12-07
CN106202487B CN106202487B (zh) 2019-06-21

Family

ID=57494477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610569558.0A Expired - Fee Related CN106202487B (zh) 2016-07-19 2016-07-19 基于用户发帖行为模式的多线索社会事件总结方法

Country Status (1)

Country Link
CN (1) CN106202487B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280772A (zh) * 2018-01-24 2018-07-13 北京航空航天大学 社交网络中基于事件关联的故事脉络生成方法
CN110083756A (zh) * 2018-01-26 2019-08-02 国际商业机器公司 识别知识图数据结构中的冗余节点
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN103729420A (zh) * 2013-12-20 2014-04-16 潘大庆 微博热点追踪系统及追踪方法
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101488150A (zh) * 2009-03-04 2009-07-22 哈尔滨工程大学 一种实时多角度网络热点事件分析装置及分析方法
CN102779190A (zh) * 2012-07-03 2012-11-14 北京大学 一种时序海量网络新闻的热点事件快速检测方法
CN103530402A (zh) * 2013-10-23 2014-01-22 北京航空航天大学 一种基于改进的PageRank的微博关键用户识别方法
CN103729420A (zh) * 2013-12-20 2014-04-16 潘大庆 微博热点追踪系统及追踪方法
CN103955505A (zh) * 2014-04-24 2014-07-30 中国科学院信息工程研究所 一种基于微博的事件实时监测方法及系统
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280772A (zh) * 2018-01-24 2018-07-13 北京航空航天大学 社交网络中基于事件关联的故事脉络生成方法
CN108280772B (zh) * 2018-01-24 2022-02-18 北京航空航天大学 社交网络中基于事件关联的故事脉络生成方法
CN110083756A (zh) * 2018-01-26 2019-08-02 国际商业机器公司 识别知识图数据结构中的冗余节点
CN110083756B (zh) * 2018-01-26 2023-11-17 勤达睿公司 识别知识图数据结构中的冗余节点
CN110555108A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 事件脉络生成方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106202487B (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
Wang et al. Efficiently estimating motif statistics of large networks
CN104850601B (zh) 基于图数据库的警务实时分析应用平台及其构建方法
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
WO2020160186A1 (en) Real-time event detection on social data streams
CN103092956A (zh) 社交网络平台上话题关键词自适应扩充的方法及系统
CN106202487A (zh) 基于用户发帖行为模式的多线索社会事件总结方法
Farseev et al. bbridge: A big data platform for social multimedia analytics
Grace et al. Social Triangulation: A new method to identify local citizens using social media and their local information curation behaviors.
Ouyang et al. Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data
Isaj et al. Multi-source spatial entity linkage
CN106056515A (zh) 一种社区网格事件聚类特征的提取方法
CN104850623B (zh) 多维度数据分析模型动态扩展方法和系统
CN104199947A (zh) 一种对重点人员言论监督与关联关系挖掘的方法
CN104765763B (zh) 一种基于概念格的异构空间信息服务分类的语义匹配方法
Zheng et al. Analysis of criminal social networks with typed and directed edges
Rizzo et al. Shaping city neighborhoods leveraging crowd sensors
Zheng et al. Signed directed social network analysis applied to group conflict
Zhang et al. Automatic report generation based on multi-modal information
Khan et al. A big data platform for spatio-temporal social event discovery
Jayarajah et al. Social signal processing for real-time situational understanding: A vision and approach
Li et al. Graph summarization for source selection of querying over Linked Open Data
Amati et al. Twitter: temporal events analysis
CN102609419B (zh) 相似数据排重方法
CN105512484B (zh) 一种采用特征值相似度的数据关联方法
Yoshioka et al. Issues for linking geographical open data of geonames and wikipedia

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190621

CF01 Termination of patent right due to non-payment of annual fee