CN106294621A - 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 - Google Patents
一种基于复杂网络结点相似性的计算事件相似性的方法和系统 Download PDFInfo
- Publication number
- CN106294621A CN106294621A CN201610621943.5A CN201610621943A CN106294621A CN 106294621 A CN106294621 A CN 106294621A CN 201610621943 A CN201610621943 A CN 201610621943A CN 106294621 A CN106294621 A CN 106294621A
- Authority
- CN
- China
- Prior art keywords
- event
- similarity
- node
- event information
- ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 14
- 239000000284 extract Substances 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims description 6
- 238000011524 similarity measure Methods 0.000 abstract description 7
- 241000270322 Lepidosauria Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于复杂网络结点相似性的计算事件相似性的方法和系统,其方法包括:获取事件信息,并提取所述事件信息的关键词;计算任意两个事件信息中相同关键词的比例;根据所述任意两个事件信息中相同关键词的比例构建事件网络;计算事件网络中任意两个节点的相似性;将相似性大于合并阈值的两个节点对应的事件信息进行合并。本发明能够有效地计算事件信息的相似度,并将相似性大于合并阈值的两个事件信息进行合并,此外,本发明降低了事件相似性计算过程中的计算量,提高事件相似性计算的准确率。
Description
技术领域
本发明涉及相似性计算技术领域,特别是涉及一种基于复杂网络结点相似性的计算事件相似性的方法和系统。
背景技术
目前,随着互联网的普及,信息的传播方式已经从原来主要依靠电视、报纸等传统媒体转变成依靠互联网来传播。因此,网络媒体作为一种新的信息传播形式,已经深入人们的日常生活。网民言论活跃已经达到前所未有的热度,不管是国内还是国际事件,都能形成网上舆论,通过这种网络表达观点、传播思想,进而产生巨大的舆论压力,达到任何部门、机构都无法忽视的地步。这就体现了舆论系统的重要性。然而网络上有那么多言论,很多时候爬虫从不同网站爬去的内容可能是同一个事件,如何能够通过计算事件相似性来判断就成为一个亟待解决的问题。虽然现在市面已经存在一些计算事件相似性的系统,但是现有的计算事件相似性的系统要都是通过文本分析来计算相似性,存在计算量大、准确率低等问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于复杂网络结点相似性的计算事件相似性的方法和系统,能够降低事件相似性计算过程中的计算量,提高事件相似性计算的准确率。
本发明的目的是通过以下技术方案来实现的:一种基于复杂网络结点相似性的计算事件相似性的方法,其特征在于:包括:
获取事件信息,并提取所述事件信息的关键词;
计算任意两个事件信息中相同关键词的比例;
根据所述任意两个事件信息中相同关键词的比例构建事件网络;
计算事件网络中任意两个节点的相似性;
将相似性大于合并阈值的两个节点对应的事件信息进行合并。
两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
所述事件网络的构建方法为:
将每个事件信息作为事件网络中的一个节点;
判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值则在这两个事件信息对应的节点之间连线。
两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和。
一种基于复杂网络结点相似性的计算事件相似性的系统,包括:
信息获取模块,用于获取事件信息;
关键词提取模块,用于提取所述事件信息的关键词;
相同关键词比例计算模块,用于计算任意两个事件信息中相同关键词的比例;
事件网络构建模块,用于根据任意两个事件信息中相同关键词的比例构建事件网络;
节点相似性计算模块,用于计算事件网络中任意两个节点的相似性;
事件合并模块,用于将相似性大于合并阈值的两个节点对应的事件信息进行合并。
两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
所述事件网络的构建方法为:
将每个事件信息作为事件网络中的一个节点;
判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值则在这两个事件信息对应的节点之间连线。
两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和。
本发明的有益效果是:本发明能够有效地计算事件信息的相似度,并将相似性大于合并阈值的两个事件信息进行合并,此外,本发明降低了事件相似性计算过程中的计算量,提高事件相似性计算的准确率。
附图说明
图1为本发明中基于复杂网络结点相似性的计算事件相似性的方法的流程图;
图2为本发明的构建事件网络的流程图;
图3为本发明中基于复杂网络结点相似性的计算事件相似性的系统的示意框图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于复杂网络结点相似性的计算事件相似性的方法,包括:
步骤一、获取事件信息,并提取所述事件信息的关键词。
步骤二、计算任意两个事件信息中相同关键词的比例。两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
步骤三、根据所述任意两个事件信息中相同关键词的比例构建事件网络。如图2所示,所述事件网络的构建方法为:
将每个事件信息作为事件网络中的一个节点;
判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值则在这两个事件信息对应的节点之间连线。
步骤四、计算事件网络中任意两个节点的相似性。两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和,两个节点的度的总和即为两个节点的邻居节点的总数。
步骤五、将相似性大于合并阈值的两个节点对应的事件信息进行合并。
实施例一
本实施例中对从不同门户网站抓取到不同新闻的相似性进行计算,并将相似性大于合并阈值的两条新闻进行合并,连边阈值设为0.6,合并阈值设置为0.7,包括以下步骤:
S1. 采用爬虫从各门户网站爬取新闻,并提取爬取到的每条新闻的关键词;
S2. 遍历爬取到的每条新闻,将其与其余所有爬取到的新闻进行相同关键词的比例计算,并保存计算结果;
S3. 将所有爬取到的新闻都转化成网络中的节点,即将每条新闻作为网络中的一个节点,然后进行节点间的连边,连边的方法为:判断两个节点对应的新闻的相同关键词的比例计算结果是否大于连边阈值0.6,若是,则将这两点进行连边,否则这两点不连边;
S4.计算网络中每一个节点与其他节点的相似性;
S5.若两个节点之间的相似性大于设置的合并阈值0.7时,将这两个节点对应的新闻进行合并,否则这两个节点对应的新闻不进行合并。
如图3所示,一种基于复杂网络结点相似性的计算事件相似性的系统,包括信息获取模块、关键词提取模块、相同关键词比例计算模块、事件网络构建模块、节点相似性计算模块和事件合并模块。
所述信息获取模块,用于获取事件信息。
所述关键词提取模块,用于提取所述事件信息的关键词。
所述相同关键词比例计算模块,用于计算任意两个事件信息中相同关键词的比例。两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
所述事件网络构建模块,用于根据任意两个事件信息中相同关键词的比例构建事件网络。所述事件网络的构建方法为:将每个事件信息作为事件网络中的一个节点;判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值,则在这两个事件信息对应的节点之间连线,否则这两个事件信息对应的节点之间不连线。
所述节点相似性计算模块,用于计算事件网络中任意两个节点的相似性。两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和,两个节点的度的总和即为两个节点的邻居节点的总数。
所述事件合并模块,用于将相似性大于合并阈值的两个节点对应的事件信息进行合并。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (8)
1.一种基于复杂网络结点相似性的计算事件相似性的方法,其特征在于:包括:
获取事件信息,并提取所述事件信息的关键词;
计算任意两个事件信息中相同关键词的比例;
根据所述任意两个事件信息中相同关键词的比例构建事件网络;
计算事件网络中任意两个节点的相似性;
将相似性大于合并阈值的两个节点对应的事件信息进行合并。
2.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法,其特征在于:两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
3.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法,其特征在于:所述事件网络的构建方法为:
将每个事件信息作为事件网络中的一个节点;
判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值则在这两个事件信息对应的节点之间连线。
4.根据权利要求1所述的一种基于复杂网络结点相似性的计算事件相似性的方法,其特征在于:两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和。
5.一种基于复杂网络结点相似性的计算事件相似性的系统,其特征在于:包括:
信息获取模块,用于获取事件信息;
关键词提取模块,用于提取所述事件信息的关键词;
相同关键词比例计算模块,用于计算任意两个事件信息中相同关键词的比例;
事件网络构建模块,用于根据任意两个事件信息中相同关键词的比例构建事件网络;
节点相似性计算模块,用于计算事件网络中任意两个节点的相似性;
事件合并模块,用于将相似性大于合并阈值的两个节点对应的事件信息进行合并。
6.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统,其特征在于:两个事件信息中相同关键词的比例的计算公式为:
两个事件信息中相同关键词的比例=两个事件信息中相同关键词的数量/两个事件信息中关键词的总数。
7.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统,其特征在于:所述事件网络的构建方法为:
将每个事件信息作为事件网络中的一个节点;
判断任意两个事件信息中相同关键词的比例是否大于连边阈值:若大于连边阈值则在这两个事件信息对应的节点之间连线。
8.根据权利要求5所述的一种基于复杂网络结点相似性的计算事件相似性的系统,其特征在于:两个节点的相似性的计算公式为:
相似性=两个节点相同的邻居结点数/两个节点的度的总和。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610621943.5A CN106294621B (zh) | 2016-08-02 | 2016-08-02 | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610621943.5A CN106294621B (zh) | 2016-08-02 | 2016-08-02 | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106294621A true CN106294621A (zh) | 2017-01-04 |
CN106294621B CN106294621B (zh) | 2019-11-12 |
Family
ID=57663888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610621943.5A Expired - Fee Related CN106294621B (zh) | 2016-08-02 | 2016-08-02 | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106294621B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506459A (zh) * | 2017-08-29 | 2017-12-22 | 环球智达科技(北京)有限公司 | 一种基于影片相似度的影片推荐方法 |
CN107506456A (zh) * | 2017-08-29 | 2017-12-22 | 环球智达科技(北京)有限公司 | 一种基于影片剧情信息的相似度计算方法 |
CN109615080A (zh) * | 2018-09-20 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN110555108A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 事件脉络生成方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386456B1 (en) * | 2000-02-24 | 2013-02-26 | Richard Paiz | Codex search patterns |
CN103150383A (zh) * | 2013-03-15 | 2013-06-12 | 中国科学院计算技术研究所 | 一种短文本数据的事件演化分析方法 |
CN105939524A (zh) * | 2016-06-21 | 2016-09-14 | 南京大学 | 一种无线传感器网络节点事件实时预测方法 |
-
2016
- 2016-08-02 CN CN201610621943.5A patent/CN106294621B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386456B1 (en) * | 2000-02-24 | 2013-02-26 | Richard Paiz | Codex search patterns |
CN103150383A (zh) * | 2013-03-15 | 2013-06-12 | 中国科学院计算技术研究所 | 一种短文本数据的事件演化分析方法 |
CN105939524A (zh) * | 2016-06-21 | 2016-09-14 | 南京大学 | 一种无线传感器网络节点事件实时预测方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107506459A (zh) * | 2017-08-29 | 2017-12-22 | 环球智达科技(北京)有限公司 | 一种基于影片相似度的影片推荐方法 |
CN107506456A (zh) * | 2017-08-29 | 2017-12-22 | 环球智达科技(北京)有限公司 | 一种基于影片剧情信息的相似度计算方法 |
CN110555108A (zh) * | 2018-05-31 | 2019-12-10 | 北京百度网讯科技有限公司 | 事件脉络生成方法、装置、设备及存储介质 |
CN109615080A (zh) * | 2018-09-20 | 2019-04-12 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
CN109615080B (zh) * | 2018-09-20 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 无监督模型评估方法、装置、服务器及可读存储介质 |
US10997528B2 (en) | 2018-09-20 | 2021-05-04 | Advanced New Technologies Co., Ltd. | Unsupervised model evaluation method, apparatus, server, and computer-readable storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN106294621B (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shao et al. | A novel model of dam displacement based on panel data | |
CN102411638B (zh) | 一种新闻检索结果的多媒体摘要生成方法 | |
CN102254038B (zh) | 一种分析网络评论相关度的系统及其分析方法 | |
Sun et al. | Identifying influential users by their postings in social networks | |
CN106294621A (zh) | 一种基于复杂网络结点相似性的计算事件相似性的方法和系统 | |
CN102750390B (zh) | 新闻网页要素自动提取方法 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN110781317A (zh) | 事件图谱的构建方法、装置及电子设备 | |
CN103246732B (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
CN108399241B (zh) | 一种基于多类特征融合的新兴热点话题检测系统 | |
CN104424231B (zh) | 多维数据的处理方法及装置 | |
CN107273496B (zh) | 一种微博网络地域突发事件的检测方法 | |
CN102346766A (zh) | 基于极大团发现的网络热点话题检测方法及装置 | |
CN105488092A (zh) | 一种时间敏感和自适应的子话题在线检测方法及系统 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN106055604A (zh) | 基于词网络进行特征扩展的短文本主题模型挖掘方法 | |
Fu et al. | Web content extraction based on webpage layout analysis | |
CN104268230A (zh) | 一种基于异质图随机游走的中文微博客观点探测方法 | |
CN104346382B (zh) | 使用语言查询的文本分析系统和方法 | |
Chen et al. | Finding keywords in blogs: Efficient keyword extraction in blog mining via user behaviors | |
CN105740370A (zh) | 一种在线Web新闻内容抽取系统 | |
CN104199947A (zh) | 一种对重点人员言论监督与关联关系挖掘的方法 | |
CN106295681A (zh) | 一种基于复杂网络标签传播算法的事件分类方法和系统 | |
CN106156364A (zh) | 一种基于时间流的计算新闻事件动态影响力的方法与系统 | |
Yang et al. | An Opinion-aware Approach to Contextual Suggestion. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191112 |
|
CF01 | Termination of patent right due to non-payment of annual fee |