CN106407473B

CN106407473B - 一种基于事件相似性建模的获取事件脉络的方法及其系统

Info

Publication number: CN106407473B
Application number: CN201610961737.9A
Authority: CN
Inventors: 郭培伦; 陈雁; 李平; 胡栋; 孙先
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2020-01-31
Anticipated expiration: 2036-10-27
Also published as: CN106407473A

Abstract

本发明公开了一种基于事件相似性建模的获取事件脉络的方法及其系统，所述的方法包括的步骤如下：S1、获取相应事件的信息；S2、根据事件的信息建立数据库，并按照一定的时间窗D的大小分别存储相应的事件；S3、对数据库里的数据信息进行深度挖掘，建立词汇网络模型和事件库，获取相应的motif结构保存到事件库；S4、根据不同的事件类型进行事件脉络的获取。能够对各大新闻网站的信息、微信微博和论坛的评论信息等进行事件相似性比较，能够快速的获取相关事件的信息，具有方法简单、获取事件速度快和精确度高等特点。

Description

一种基于事件相似性建模的获取事件脉络的方法及其系统

技术领域

本发明涉及事件信息挖掘和相似性提取领域，尤其涉及一种基于相似性建模的获取事件脉络的方法及其系统。

背景技术

现实生活中每时每刻都在发生着事件，事件通过人的感受、记忆、分析形成了片段性的文字描述。如今是网络迅速发展的时代，也是信息层出不穷的时代，而新闻阅读已经成为大多数网民每天必不可少的一种习惯或者行为，每天也同时有海量的新闻被无数媒体发布出来，如何能从这些媒体选取重要的新闻和感兴趣的事件进行阅读，已经成为了大多数网民的需求。

现有的中国专利申请号为201510324990.9的基于微博的事件脉络获取方法和系统，所述方法包括：获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信息；计算事件的原创微博及其转发微博的信息在统计时间段内对应的关于专题的事件热度时间分布；根据统计时间段内专题的事件热度时间分布，从统计时间段内选取多个事件脉络事件节点，及其对应的节点事件构成专题的事件脉络。该发明的技术方案实现利用微博快速、准确的获取预定专题所包含事件的事件脉络。但是在生活中我们获取新闻不只是通过微博，还会通过各大新闻网站、微信和论坛获取新闻，而该发明并不能对这其中的新闻信息进行事件脉络的提取，而且也不能通过对新闻信息、微信微博和论坛的评论来进行事件相似性的比较，其所适用的范围较小。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于事件相似性建模的获取事件脉络的方法及其系统，解决了以上所说的问题。

本发明的目的是通过以下技术方案来实现的：一种基于事件相似性建模的获取事件脉络的方法，方法的步骤如下：

S1、获取相应事件的信息；

S2、根据事件的信息建立数据库，并按照一定的时间窗D的大小分别存储相应的事件；

S3、对数据库里的数据信息进行深度挖掘，建立词汇网络模型和事件库，获取相应的motif结构保存到事件库；

S4、根据不同的事件类型进行事件脉络的获取。

所述S1中的获取事件信息的技术包括网虫爬取技术。

所述S2中的数据库信息包括新闻信息、微博微信评论信息和论坛评论信息。

所述S3的具体步骤如下：

S31、提取事件语料中的词语；对语料进行分词、去停用词之后，将得到的词语存入词库，更新词库；

S32、构建词汇网络；利用事件的词库信息建立相应的词汇网络模块，并设定一个距离L，只有在一篇文章中距离该词距离没有超过L的，它们之间的无向加权边的权重就加1；

S33、获取词汇网络中的结构；设置一个阈值Q，如果无向加权边的权重超过阈值则保留，反之则删除；

S34、根据破坏最少的motif结构获取最大划分比例的原则，对词汇网络中的结构进行社团划分，获取相应的社团结构。

所述S4的具体步骤如下：

S41、通过实用LDA主题模型获取相应的主题分类；

S42、合并同一个时间窗中的相同事件；根据时间窗D中每个事件包含相应的motif结构的种类，利用Jaccard相似性计算方法计算事件之间的相似性，并设置一个高阈值Y，如果超过这个阈值，就合并为相同事件，否则就不合并；

S43、获取时间窗中符合要求的事件；根据实际的需要设定时间窗D的大小，以及相适应的阈值Z，并选择获取时间窗D中topK个事件或者选择阈值达到Z的所有事件；

S44、获取事件的脉络；利用事件的主要属性计算每个时间中获取的事件之间的相似性，并设置一个阈值W，如果阈值W比阈值Y和阈值Z要小，则采用事件的弱相似性来获取事件的脉络；

S45、去除事件脉络中重复的内容；对得到的事件脉络再次进行相似性计算，设置阈值V，阈值V大于阈值W，防止两个相邻的时间窗中存在一个事件的同一阶段的事件。

所述的获取相应社团结构以如下公式计算：

其中，φ_M(S)表示词汇网络中的结构数，表示至少分别跟S和

重合一个节点的motif结构的数量；

表示去除S后剩下的节点数；vol_M(S)表示存在S中的motif结构的节点数；

表示存在中的motif结构的节点数。

所述S42中的Jaccard相似性计算公式如下：

其中A和B表示不同的事件。

一种基于事件相似性建模的获取事件脉络的系统，包括数据爬取模块、数据库、事件分析模块、事件库、相似性计算模块、用户前端模块和用户后端模块；

所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博微信及其相关评论信息的爬取；

所述的数据库主要用于存储数据爬取模块爬取的各类新闻和评论的数据信息；

所述的事件分析模块主要用于对数据库中的数据信息进行数据挖掘和事件词汇网络的建模，包括对新闻语料的分析、主题的提取和motif结构的获取；

所述的事件库主要用于保存事件分析模块生成的各类事件信息；

所述的相似性计算模块主要用于按照不同的相似性要求，进行相似性的计算；

所述的用户前端模块主要用于为用户提供界面方便其登入事件相关信息；所述的用户包括网站或者信息平台的管理人员；

所述的用户后端模块主要用于调用相似性计算模块的相似性计算函数，根据用户输入的事件信息获取相应的事件脉络，结果存储后提供给特定网站进行调用。

本发明的有益效果是：一种基于事件相似性建模的获取事件脉络的方法及其系统，能够对各大新闻网站的信息、微信微博和论坛的评论信息等进行事件相似性比较，能够快速的获取相关事件的信息，具有方法简单、获取事件速度快和精确度高等特点。

附图说明

图1为方法的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于事件相似性建模的获取事件脉络的方法，方法的步骤如下：

S1、获取相应事件的信息；爬取近X天发生的新闻事件信息，以及对应的微信微博及各大论坛上的评论；

S4、根据不同的事件类型进行事件脉络的获取。

所述S1中的获取事件信息的技术包括网虫爬取技术。

所述S3的具体步骤如下：

S32、构建词汇网络；利用事件的词库信息建立相应的词汇网络模块，并设定一个距离L(即L个词)，只有在一篇文章中距离该词距离没有超过L的，它们之间的无向加权边的权重就加1；

S34、根据破坏最少的motif结构获取最大划分比例的原则，对词汇网络中的结构进行社团划分，获取相应的社团结构；因为相同或者相似的事件肯定具有相同或者相似的结构，比如：百度的新闻可能是A₁与A₂离婚了，而搜狐上的新闻是A₂与A₁离婚了；结构上都是某人与某人离婚，这个主要为了整合，并获取当天不同的网站报道的同一事件。

所述S4的具体步骤如下：

S41、通过实用LDA主题模型获取相应的主题分类；事件的脉络一般都属于同一个主题，目的在于缩小事件的范围，从而提高计算相似性的速度，避免与不同的主题事件进行比较；

S43、获取时间窗中符合要求的事件；根据实际的需要设定时间窗D的大小，以及相适应的阈值Z，并选择获取时间窗D中topK个事件(相似度最大的K个事件)或者选择阈值达到Z的所有事件；

S44、获取事件的脉络；利用事件的主要属性计算每个时间中获取的事件之间的相似性，并设置一个阈值W，如果阈值W比阈值Y和阈值Z要小，则采用事件的弱相似性来获取事件的脉络；因为一件事中的人物或者地点等属性在事件的发展过程中是不变的，例如A₁与A₂的离婚事件，但是它们的离婚事件在发展过程中新出现了一些小的事件，比如分财产，A₁与A₂就是贯穿整个事件的主线，所以这里会采用弱相似性，因为不能说包含A₁与A₂的就一定属于同一事件；

S45、去除事件脉络中重复的内容；对得到的事件脉络再次进行相似性计算，设置阈值V，阈值V大于阈值W，跟阈值Y和阈值Z相当；防止两个相邻的时间窗中存在一个事件的同一阶段的事件。在每个时间窗中采用强相似性是为了获取每个时间窗中不同网站报道的同一事件，而获取事件脉络后采用强相似性是为了避免在时间窗两端出现相同事件，因为两个相邻的时间窗有可能框住同一个事件。

所述的获取相应社团结构以如下公式计算：

其中，φ_M(S)表示词汇网络中的结构数，

表示至少分别跟S和重合一个节点的motif结构的数量；

表示去除S后剩下的节点数；vol_M(S)表示存在S中的motif结构的节点数；表示存在

中的motif结构的节点数。

所述S42中的Jaccard相似性计算公式如下：

其中A和B表示不同的事件。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。