CN106294621A

CN106294621A - 一种基于复杂网络结点相似性的计算事件相似性的方法和系统

Info

Publication number: CN106294621A
Application number: CN201610621943.5A
Authority: CN
Inventors: 李平; 彭欣宇; 陈雁; 胡栋; 孙先; 陈凯琪; 朱鹏军; 韩修龙; 郭培伦; 许斌; 刘婷; 朱婷婷; 李永乐; 林辉; 黄飞
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2016-08-02
Filing date: 2016-08-02
Publication date: 2017-01-04
Anticipated expiration: 2036-08-02
Also published as: CN106294621B

Abstract

本发明公开了一种基于复杂网络结点相似性的计算事件相似性的方法和系统，其方法包括：获取事件信息，并提取所述事件信息的关键词；计算任意两个事件信息中相同关键词的比例；根据所述任意两个事件信息中相同关键词的比例构建事件网络；计算事件网络中任意两个节点的相似性；将相似性大于合并阈值的两个节点对应的事件信息进行合并。本发明能够有效地计算事件信息的相似度，并将相似性大于合并阈值的两个事件信息进行合并，此外，本发明降低了事件相似性计算过程中的计算量，提高事件相似性计算的准确率。

Description

一种基于复杂网络结点相似性的计算事件相似性的方法和系统

技术领域

本发明涉及相似性计算技术领域，特别是涉及一种基于复杂网络结点相似性的计算事件相似性的方法和系统。

背景技术

目前，随着互联网的普及，信息的传播方式已经从原来主要依靠电视、报纸等传统媒体转变成依靠互联网来传播。因此，网络媒体作为一种新的信息传播形式，已经深入人们的日常生活。网民言论活跃已经达到前所未有的热度，不管是国内还是国际事件，都能形成网上舆论，通过这种网络表达观点、传播思想，进而产生巨大的舆论压力，达到任何部门、机构都无法忽视的地步。这就体现了舆论系统的重要性。然而网络上有那么多言论，很多时候爬虫从不同网站爬去的内容可能是同一个事件，如何能够通过计算事件相似性来判断就成为一个亟待解决的问题。虽然现在市面已经存在一些计算事件相似性的系统，但是现有的计算事件相似性的系统要都是通过文本分析来计算相似性，存在计算量大、准确率低等问题。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于复杂网络结点相似性的计算事件相似性的方法和系统，能够降低事件相似性计算过程中的计算量，提高事件相似性计算的准确率。

本发明的目的是通过以下技术方案来实现的：一种基于复杂网络结点相似性的计算事件相似性的方法，其特征在于：包括：

获取事件信息，并提取所述事件信息的关键词；

计算任意两个事件信息中相同关键词的比例；

根据所述任意两个事件信息中相同关键词的比例构建事件网络；

计算事件网络中任意两个节点的相似性；

将相似性大于合并阈值的两个节点对应的事件信息进行合并。

两个事件信息中相同关键词的比例的计算公式为：

两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。

所述事件网络的构建方法为：

将每个事件信息作为事件网络中的一个节点；

判断任意两个事件信息中相同关键词的比例是否大于连边阈值：若大于连边阈值则在这两个事件信息对应的节点之间连线。

两个节点的相似性的计算公式为：

相似性=两个节点相同的邻居结点数/两个节点的度的总和。

一种基于复杂网络结点相似性的计算事件相似性的系统，包括：

信息获取模块，用于获取事件信息；

关键词提取模块，用于提取所述事件信息的关键词；

相同关键词比例计算模块，用于计算任意两个事件信息中相同关键词的比例；

事件网络构建模块，用于根据任意两个事件信息中相同关键词的比例构建事件网络；

节点相似性计算模块，用于计算事件网络中任意两个节点的相似性；

事件合并模块，用于将相似性大于合并阈值的两个节点对应的事件信息进行合并。

两个事件信息中相同关键词的比例的计算公式为：

所述事件网络的构建方法为：

将每个事件信息作为事件网络中的一个节点；

两个节点的相似性的计算公式为：

相似性=两个节点相同的邻居结点数/两个节点的度的总和。

本发明的有益效果是：本发明能够有效地计算事件信息的相似度，并将相似性大于合并阈值的两个事件信息进行合并，此外，本发明降低了事件相似性计算过程中的计算量，提高事件相似性计算的准确率。

附图说明

图1为本发明中基于复杂网络结点相似性的计算事件相似性的方法的流程图；

图2为本发明的构建事件网络的流程图；

图3为本发明中基于复杂网络结点相似性的计算事件相似性的系统的示意框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于复杂网络结点相似性的计算事件相似性的方法，包括：

步骤一、获取事件信息，并提取所述事件信息的关键词。

步骤二、计算任意两个事件信息中相同关键词的比例。两个事件信息中相同关键词的比例的计算公式为：

步骤三、根据所述任意两个事件信息中相同关键词的比例构建事件网络。如图2所示，所述事件网络的构建方法为：

将每个事件信息作为事件网络中的一个节点；

步骤四、计算事件网络中任意两个节点的相似性。两个节点的相似性的计算公式为：

相似性=两个节点相同的邻居结点数/两个节点的度的总和，两个节点的度的总和即为两个节点的邻居节点的总数。

步骤五、将相似性大于合并阈值的两个节点对应的事件信息进行合并。

实施例一

本实施例中对从不同门户网站抓取到不同新闻的相似性进行计算，并将相似性大于合并阈值的两条新闻进行合并，连边阈值设为0.6，合并阈值设置为0.7，包括以下步骤：

S1. 采用爬虫从各门户网站爬取新闻，并提取爬取到的每条新闻的关键词；

S2. 遍历爬取到的每条新闻，将其与其余所有爬取到的新闻进行相同关键词的比例计算，并保存计算结果；

S3. 将所有爬取到的新闻都转化成网络中的节点，即将每条新闻作为网络中的一个节点，然后进行节点间的连边，连边的方法为：判断两个节点对应的新闻的相同关键词的比例计算结果是否大于连边阈值0.6，若是，则将这两点进行连边，否则这两点不连边；

S4.计算网络中每一个节点与其他节点的相似性；

S5.若两个节点之间的相似性大于设置的合并阈值0.7时，将这两个节点对应的新闻进行合并，否则这两个节点对应的新闻不进行合并。

如图3所示，一种基于复杂网络结点相似性的计算事件相似性的系统，包括信息获取模块、关键词提取模块、相同关键词比例计算模块、事件网络构建模块、节点相似性计算模块和事件合并模块。

所述信息获取模块，用于获取事件信息。

所述关键词提取模块，用于提取所述事件信息的关键词。

所述相同关键词比例计算模块，用于计算任意两个事件信息中相同关键词的比例。两个事件信息中相同关键词的比例的计算公式为：

所述事件网络构建模块，用于根据任意两个事件信息中相同关键词的比例构建事件网络。所述事件网络的构建方法为：将每个事件信息作为事件网络中的一个节点；判断任意两个事件信息中相同关键词的比例是否大于连边阈值：若大于连边阈值，则在这两个事件信息对应的节点之间连线，否则这两个事件信息对应的节点之间不连线。

所述节点相似性计算模块，用于计算事件网络中任意两个节点的相似性。两个节点的相似性的计算公式为：

所述事件合并模块，用于将相似性大于合并阈值的两个节点对应的事件信息进行合并。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于复杂网络结点相似性的计算事件相似性的方法，其特征在于：包括：

获取事件信息，并提取所述事件信息的关键词；

计算任意两个事件信息中相同关键词的比例；

计算事件网络中任意两个节点的相似性；

2.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法，其特征在于：两个事件信息中相同关键词的比例的计算公式为：

3.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法，其特征在于：所述事件网络的构建方法为：

将每个事件信息作为事件网络中的一个节点；

4.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法，其特征在于：两个节点的相似性的计算公式为：

相似性=两个节点相同的邻居结点数/两个节点的度的总和。

5.一种基于复杂网络结点相似性的计算事件相似性的系统，其特征在于：包括：

信息获取模块，用于获取事件信息；

关键词提取模块，用于提取所述事件信息的关键词；

6.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统，其特征在于：两个事件信息中相同关键词的比例的计算公式为：

7.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统，其特征在于：所述事件网络的构建方法为：

将每个事件信息作为事件网络中的一个节点；

8.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统，其特征在于：两个节点的相似性的计算公式为：

相似性=两个节点相同的邻居结点数/两个节点的度的总和。