CN106202487A - 基于用户发帖行为模式的多线索社会事件总结方法 - Google Patents
基于用户发帖行为模式的多线索社会事件总结方法 Download PDFInfo
- Publication number
- CN106202487A CN106202487A CN201610569558.0A CN201610569558A CN106202487A CN 106202487 A CN106202487 A CN 106202487A CN 201610569558 A CN201610569558 A CN 201610569558A CN 106202487 A CN106202487 A CN 106202487A
- Authority
- CN
- China
- Prior art keywords
- microblogging
- social events
- event
- clue
- development
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000003542 behavioural effect Effects 0.000 title claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 6
- 210000001367 artery Anatomy 0.000 claims description 2
- 210000003462 vein Anatomy 0.000 claims description 2
- 230000006870 function Effects 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000004880 explosion Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于用户发帖行为模式的多线索社会事件总结方法,用于解决现有多线索社会事件总结方法实用性差的技术问题。技术方案是根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
Description
技术领域
本发明涉及一种多线索社会事件总结方法,特别涉及一种基于用户发帖行为模式的多线索社会事件总结方法。
背景技术
近年来,随着社交媒体,如微博,Twitter等为代表的社交网络的快速发展,基于社交媒体数据进行社会事件总结的工作受到了越来越多的研究人员的关注。当某一社会事件发生时,会有大量的用户在第一时间通过社交网络发布相关的信息,进行相关的讨论,这里往往还包含了许多目击者或是现场的第一手信息。与传统媒体相比,社交媒体发布的信息更全面,然而,由于未经过专业编辑的整理过滤,这些信息往往是杂乱的。因此,需要通过有效地措施对这些社交媒体信息进行整理过滤,以得到清晰的结果用于社会事件总结,为人们了解社会事件提供有价值的参考。
专利CN1710563提出了一种重要新闻事件检测和摘要的方法,该专利主要面向新闻视频数据,将多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要。专利CN104850606A公开了一种移动群智感知社会事件的总结方法,利用Tucker张量分解和K-means聚类分析对社会事件进行总结。专利CN104182504A公开了一种新闻事件的动态跟踪和总结算法,采用社区发现算法从词共现图中提取与新闻事件相关的多个主题,对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。这些专利的不足之处就是忽略了社会事件中有多个线索,每个线索都有自己的发展情况。比如在天津大爆炸事件中,有救援情况的线索,有清理事故现场的线索,有受灾群众安置的线索等。只有区分这些线索才可以得到一个清晰可读的社会事件总结,便于用户了解社会事件不同方面的发展概况。
发明内容
为了克服现有多线索社会事件总结方法实用性差的不足,本发明提供一种基于用户发帖行为模式的多线索社会事件总结方法。该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
本发明解决其技术问题所采用的技术方案:一种基于用户发帖行为模式的多线索社会事件总结方法,其特点是包括以下步骤:
步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词。
步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。
步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。
步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结。
步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结。
其中,子模性函数为,
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小。利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
本发明的有益效果是:该方法根据相关的关键字获得社交网络中与该事件相关的微博,提取微博中的正文以及时间字段,对正文进行预处理。根据时间字段构建表示用户发帖行为模式的图模型T。根据正文内容构建表示微博内容相似性的图模型A。识别图模型T中的所有连通子图,每一个连通子图代表事件发展的不同阶段。识别图模型A中的所有连通子图,每一个连通子图代表事件中的不同线索。冗余信息剔除,得到有发展脉络的多线索社会事件总结。本发明根据用户发帖的行为模式能够更加全面的考虑社会事件中不同线索的内部发展,从而获得更细粒度的社会事件总结,反映事件的动态发展及变化,实用性强。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于用户发帖行为模式的多线索社会事件总结方法的流程图。
具体实施方式
参照图1。本发明基于用户发帖行为模式的多线索社会事件总结方法具体步骤如下:
步骤1、根据关键字“天津塘沽大爆炸”利用网络爬虫获得关于天津大爆炸事件的微博,提取微博中的正文内容及时间字段,利用分词工具对正文内容进行分词并过滤停止词。
步骤2、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T。
步骤3、利用TF-IDF计算正文内容中的关键词,如消防员、震感、小区、事故现场等。根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A。
步骤4、利用深度优先算法搜索图模型T中的所有连通子图ST,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段。比如ST1={a,b,c},ST2={d,e},a,b,c,d,e分别代表五个不同的微博。
步骤5、利用深度优先算法搜索图模型A中的所有连通子图SA,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索。比如SA1={a,d},SA2={b,c,e}。
步骤6、根据ST1,ST2,SA1,SA2,可以得知属于线索A1的微博a,d属于两个不同的发展阶段,a∈ST1,d∈ST2,同理可以得知属于线索A2的微博b,c和e属于两个不同的发展阶段b,c∈ST1,e∈ST2。由此,我们可以得知道该事件有两个线索,线索A1(a→d),线索A2(b→e,c→e)。
步骤7、根据子模性函数利用贪心算法剔除各线索中的冗余信息。经过计算,发现线索A2中c为冗余信息,则剔除c,最终的事件总结为,该事件包括线索A1以及线索A2,其内部发展情况为线索A1(a→d),线索A2(b→e)。
Claims (1)
1.一种基于用户发帖行为模式的多线索社会事件总结方法,其特征在于包括以下步骤:
步骤一、当一个社会事件发生后,根据相关的关键字利用网络爬虫获得社交网络中与该社会事件相关的微博,提取微博中的正文以及时间字段,对正文进行分词预处理,过滤无用的停止词;
步骤二、根据时间字段计算不同微博间的发布时间间隔,以微博作为节点,根据微博间的发布时间间隔构建边,若时间间隔小于2.4小时,则两个节点间有一条边,以此构建表示用户发帖行为模式的图模型T;
步骤三、利用TF-IDF计算正文内容中的关键词,根据关键词构建文本向量,利用余弦距离计算不同微博的文本向量的距离,以微博作为节点,根据微博间文本向量的距离构建边,若文本向量距离大于0.5,则两个节点间有一条边,以此构建表示微博内容相似性的图模型A;
步骤四、利用深度优先算法搜索图模型T中的所有连通子图,不同的连通子图代表事件的不同发展阶段,同一个连通子图中的微博涉及相同的发展阶段;
步骤五、利用深度优先算法搜索图模型A中的所有连通子图,不同的连通子图代表事件的不同线索,同一个连通子图中的微博涉及相同的线索;
步骤六、根据步骤四得到事件的不同发展阶段涉及的微博,根据步骤五得到事件的不同线索涉及的微博,将步骤五的结果映射至步骤四的结果上,得到在同一线索中微博的阶段分布,即得到线索的内部发展,进而得到有发展脉络的多线索社会事件总结;
步骤七、利用贪心算法使子模性函数最大化以剔除线索中的冗余信息,得到有发展脉络的多线索社会事件总结;
其中,子模性函数为,
其中,V代表线索,S代表最后选中的微博,i,j代表微博,这个函数的意义就是使S中的微博信息覆盖率最大,冗余率最小;利用贪心算法得到使该子模性函数最大化的微博集合S,即剔除了冗余信息后的线索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610569558.0A CN106202487B (zh) | 2016-07-19 | 2016-07-19 | 基于用户发帖行为模式的多线索社会事件总结方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610569558.0A CN106202487B (zh) | 2016-07-19 | 2016-07-19 | 基于用户发帖行为模式的多线索社会事件总结方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106202487A true CN106202487A (zh) | 2016-12-07 |
CN106202487B CN106202487B (zh) | 2019-06-21 |
Family
ID=57494477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610569558.0A Expired - Fee Related CN106202487B (zh) | 2016-07-19 | 2016-07-19 | 基于用户发帖行为模式的多线索社会事件总结方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106202487B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280772A (zh) * | 2018-01-24 | 2018-07-13 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN110083756A (zh) * | 2018-01-26 | 2019-08-02 | 国际商业机器公司 | 识别知识图数据结构中的冗余节点 |
CN110555108A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 事件脉络生成方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN102779190A (zh) * | 2012-07-03 | 2012-11-14 | 北京大学 | 一种时序海量网络新闻的热点事件快速检测方法 |
CN103530402A (zh) * | 2013-10-23 | 2014-01-22 | 北京航空航天大学 | 一种基于改进的PageRank的微博关键用户识别方法 |
CN103729420A (zh) * | 2013-12-20 | 2014-04-16 | 潘大庆 | 微博热点追踪系统及追踪方法 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
-
2016
- 2016-07-19 CN CN201610569558.0A patent/CN106202487B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101488150A (zh) * | 2009-03-04 | 2009-07-22 | 哈尔滨工程大学 | 一种实时多角度网络热点事件分析装置及分析方法 |
CN102779190A (zh) * | 2012-07-03 | 2012-11-14 | 北京大学 | 一种时序海量网络新闻的热点事件快速检测方法 |
CN103530402A (zh) * | 2013-10-23 | 2014-01-22 | 北京航空航天大学 | 一种基于改进的PageRank的微博关键用户识别方法 |
CN103729420A (zh) * | 2013-12-20 | 2014-04-16 | 潘大庆 | 微博热点追踪系统及追踪方法 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280772A (zh) * | 2018-01-24 | 2018-07-13 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN108280772B (zh) * | 2018-01-24 | 2022-02-18 | 北京航空航天大学 | 社交网络中基于事件关联的故事脉络生成方法 |
CN110083756A (zh) * | 2018-01-26 | 2019-08-02 | 国际商业机器公司 | 识别知识图数据结构中的冗余节点 |
CN110083756B (zh) * | 2018-01-26 | 2023-11-17 | 勤达睿公司 | 识别知识图数据结构中的冗余节点 |
CN110555108A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 事件脉络生成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106202487B (zh) | 2019-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wang et al. | Efficiently estimating motif statistics of large networks | |
CN104850601B (zh) | 基于图数据库的警务实时分析应用平台及其构建方法 | |
CN105630884B (zh) | 一种微博热点事件的地理位置发现方法 | |
WO2020160186A1 (en) | Real-time event detection on social data streams | |
CN103092956A (zh) | 社交网络平台上话题关键词自适应扩充的方法及系统 | |
CN106202487A (zh) | 基于用户发帖行为模式的多线索社会事件总结方法 | |
Farseev et al. | bbridge: A big data platform for social multimedia analytics | |
Grace et al. | Social Triangulation: A new method to identify local citizens using social media and their local information curation behaviors. | |
Ouyang et al. | Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data | |
Isaj et al. | Multi-source spatial entity linkage | |
CN106056515A (zh) | 一种社区网格事件聚类特征的提取方法 | |
CN104850623B (zh) | 多维度数据分析模型动态扩展方法和系统 | |
CN104199947A (zh) | 一种对重点人员言论监督与关联关系挖掘的方法 | |
CN104765763B (zh) | 一种基于概念格的异构空间信息服务分类的语义匹配方法 | |
Zheng et al. | Analysis of criminal social networks with typed and directed edges | |
Rizzo et al. | Shaping city neighborhoods leveraging crowd sensors | |
Zheng et al. | Signed directed social network analysis applied to group conflict | |
Zhang et al. | Automatic report generation based on multi-modal information | |
Khan et al. | A big data platform for spatio-temporal social event discovery | |
Jayarajah et al. | Social signal processing for real-time situational understanding: A vision and approach | |
Li et al. | Graph summarization for source selection of querying over Linked Open Data | |
Amati et al. | Twitter: temporal events analysis | |
CN102609419B (zh) | 相似数据排重方法 | |
CN105512484B (zh) | 一种采用特征值相似度的数据关联方法 | |
Yoshioka et al. | Issues for linking geographical open data of geonames and wikipedia |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190621 |
|
CF01 | Termination of patent right due to non-payment of annual fee |