CN106407473B - 一种基于事件相似性建模的获取事件脉络的方法及其系统 - Google Patents

一种基于事件相似性建模的获取事件脉络的方法及其系统 Download PDF

Info

Publication number
CN106407473B
CN106407473B CN201610961737.9A CN201610961737A CN106407473B CN 106407473 B CN106407473 B CN 106407473B CN 201610961737 A CN201610961737 A CN 201610961737A CN 106407473 B CN106407473 B CN 106407473B
Authority
CN
China
Prior art keywords
event
events
information
similarity
acquiring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201610961737.9A
Other languages
English (en)
Other versions
CN106407473A (zh
Inventor
郭培伦
陈雁
李平
胡栋
孙先
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Petroleum University
Original Assignee
Southwest Petroleum University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Petroleum University filed Critical Southwest Petroleum University
Priority to CN201610961737.9A priority Critical patent/CN106407473B/zh
Publication of CN106407473A publication Critical patent/CN106407473A/zh
Application granted granted Critical
Publication of CN106407473B publication Critical patent/CN106407473B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于事件相似性建模的获取事件脉络的方法及其系统,所述的方法包括的步骤如下:S1、获取相应事件的信息;S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;S4、根据不同的事件类型进行事件脉络的获取。能够对各大新闻网站的信息、微信微博和论坛的评论信息等进行事件相似性比较,能够快速的获取相关事件的信息,具有方法简单、获取事件速度快和精确度高等特点。

Description

一种基于事件相似性建模的获取事件脉络的方法及其系统
技术领域
本发明涉及事件信息挖掘和相似性提取领域,尤其涉及一种基于相似性建模的获取事件脉络的方法及其系统。
背景技术
现实生活中每时每刻都在发生着事件,事件通过人的感受、记忆、分析形成了片段性的文字描述。如今是网络迅速发展的时代,也是信息层出不穷的时代,而新闻阅读已经成为大多数网民每天必不可少的一种习惯或者行为,每天也同时有海量的新闻被无数媒体发布出来,如何能从这些媒体选取重要的新闻和感兴趣的事件进行阅读,已经成为了大多数网民的需求。
现有的中国专利申请号为201510324990.9的基于微博的事件脉络获取方法和系统,所述方法包括:获取统计时间段内针对预定的专题所包含的事件的原创微博及其转发微博的信息;计算事件的原创微博及其转发微博的信息在统计时间段内对应的关于专题的事件热度时间分布;根据统计时间段内专题的事件热度时间分布,从统计时间段内选取多个事件脉络事件节点,及其对应的节点事件构成专题的事件脉络。该发明的技术方案实现利用微博快速、准确的获取预定专题所包含事件的事件脉络。但是在生活中我们获取新闻不只是通过微博,还会通过各大新闻网站、微信和论坛获取新闻,而该发明并不能对这其中的新闻信息进行事件脉络的提取,而且也不能通过对新闻信息、微信微博和论坛的评论来进行事件相似性的比较,其所适用的范围较小。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于事件相似性建模的获取事件脉络的方法及其系统,解决了以上所说的问题。
本发明的目的是通过以下技术方案来实现的:一种基于事件相似性建模的获取事件脉络的方法,方法的步骤如下:
S1、获取相应事件的信息;
S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;
S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;
S4、根据不同的事件类型进行事件脉络的获取。
所述S1中的获取事件信息的技术包括网虫爬取技术。
所述S2中的数据库信息包括新闻信息、微博微信评论信息和论坛评论信息。
所述S3的具体步骤如下:
S31、提取事件语料中的词语;对语料进行分词、去停用词之后,将得到的词语存入词库,更新词库;
S32、构建词汇网络;利用事件的词库信息建立相应的词汇网络模块,并设定一个距离L,只有在一篇文章中距离该词距离没有超过L的,它们之间的无向加权边的权重就加1;
S33、获取词汇网络中的结构;设置一个阈值Q,如果无向加权边的权重超过阈值则保留,反之则删除;
S34、根据破坏最少的motif结构获取最大划分比例的原则,对词汇网络中的结构进行社团划分,获取相应的社团结构。
所述S4的具体步骤如下:
S41、通过实用LDA主题模型获取相应的主题分类;
S42、合并同一个时间窗中的相同事件;根据时间窗D中每个事件包含相应的motif结构的种类,利用Jaccard相似性计算方法计算事件之间的相似性,并设置一个高阈值Y,如果超过这个阈值,就合并为相同事件,否则就不合并;
S43、获取时间窗中符合要求的事件;根据实际的需要设定时间窗D的大小,以及相适应的阈值Z,并选择获取时间窗D中topK个事件或者选择阈值达到Z的所有事件;
S44、获取事件的脉络;利用事件的主要属性计算每个时间中获取的事件之间的相似性,并设置一个阈值W,如果阈值W比阈值Y和阈值Z要小,则采用事件的弱相似性来获取事件的脉络;
S45、去除事件脉络中重复的内容;对得到的事件脉络再次进行相似性计算,设置阈值V,阈值V大于阈值W,防止两个相邻的时间窗中存在一个事件的同一阶段的事件。
所述的获取相应社团结构以如下公式计算:
Figure BDA0001144701300000021
其中,φM(S)表示词汇网络中的结构数,表示至少分别跟S和
Figure BDA0001144701300000023
重合一个节点的motif结构的数量;
Figure BDA0001144701300000024
表示去除S后剩下的节点数;volM(S)表示存在S中的motif结构的节点数;
Figure BDA0001144701300000025
表示存在中的motif结构的节点数。
所述S42中的Jaccard相似性计算公式如下:
Figure BDA0001144701300000027
其中A和B表示不同的事件。
一种基于事件相似性建模的获取事件脉络的系统,包括数据爬取模块、数据库、事件分析模块、事件库、相似性计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博微信及其相关评论信息的爬取;
所述的数据库主要用于存储数据爬取模块爬取的各类新闻和评论的数据信息;
所述的事件分析模块主要用于对数据库中的数据信息进行数据挖掘和事件词汇网络的建模,包括对新闻语料的分析、主题的提取和motif结构的获取;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的相似性计算模块主要用于按照不同的相似性要求,进行相似性的计算;
所述的用户前端模块主要用于为用户提供界面方便其登入事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用相似性计算模块的相似性计算函数,根据用户输入的事件信息获取相应的事件脉络,结果存储后提供给特定网站进行调用。
本发明的有益效果是:一种基于事件相似性建模的获取事件脉络的方法及其系统,能够对各大新闻网站的信息、微信微博和论坛的评论信息等进行事件相似性比较,能够快速的获取相关事件的信息,具有方法简单、获取事件速度快和精确度高等特点。
附图说明
图1为方法的流程图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种基于事件相似性建模的获取事件脉络的方法,方法的步骤如下:
S1、获取相应事件的信息;爬取近X天发生的新闻事件信息,以及对应的微信微博及各大论坛上的评论;
S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;
S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;
S4、根据不同的事件类型进行事件脉络的获取。
所述S1中的获取事件信息的技术包括网虫爬取技术。
所述S2中的数据库信息包括新闻信息、微博微信评论信息和论坛评论信息。
所述S3的具体步骤如下:
S31、提取事件语料中的词语;对语料进行分词、去停用词之后,将得到的词语存入词库,更新词库;
S32、构建词汇网络;利用事件的词库信息建立相应的词汇网络模块,并设定一个距离L(即L个词),只有在一篇文章中距离该词距离没有超过L的,它们之间的无向加权边的权重就加1;
S33、获取词汇网络中的结构;设置一个阈值Q,如果无向加权边的权重超过阈值则保留,反之则删除;
S34、根据破坏最少的motif结构获取最大划分比例的原则,对词汇网络中的结构进行社团划分,获取相应的社团结构;因为相同或者相似的事件肯定具有相同或者相似的结构,比如:百度的新闻可能是A1与A2离婚了,而搜狐上的新闻是A2与A1离婚了;结构上都是某人与某人离婚,这个主要为了整合,并获取当天不同的网站报道的同一事件。
所述S4的具体步骤如下:
S41、通过实用LDA主题模型获取相应的主题分类;事件的脉络一般都属于同一个主题,目的在于缩小事件的范围,从而提高计算相似性的速度,避免与不同的主题事件进行比较;
S42、合并同一个时间窗中的相同事件;根据时间窗D中每个事件包含相应的motif结构的种类,利用Jaccard相似性计算方法计算事件之间的相似性,并设置一个高阈值Y,如果超过这个阈值,就合并为相同事件,否则就不合并;
S43、获取时间窗中符合要求的事件;根据实际的需要设定时间窗D的大小,以及相适应的阈值Z,并选择获取时间窗D中topK个事件(相似度最大的K个事件)或者选择阈值达到Z的所有事件;
S44、获取事件的脉络;利用事件的主要属性计算每个时间中获取的事件之间的相似性,并设置一个阈值W,如果阈值W比阈值Y和阈值Z要小,则采用事件的弱相似性来获取事件的脉络;因为一件事中的人物或者地点等属性在事件的发展过程中是不变的,例如A1与A2的离婚事件,但是它们的离婚事件在发展过程中新出现了一些小的事件,比如分财产,A1与A2就是贯穿整个事件的主线,所以这里会采用弱相似性,因为不能说包含A1与A2的就一定属于同一事件;
S45、去除事件脉络中重复的内容;对得到的事件脉络再次进行相似性计算,设置阈值V,阈值V大于阈值W,跟阈值Y和阈值Z相当;防止两个相邻的时间窗中存在一个事件的同一阶段的事件。在每个时间窗中采用强相似性是为了获取每个时间窗中不同网站报道的同一事件,而获取事件脉络后采用强相似性是为了避免在时间窗两端出现相同事件,因为两个相邻的时间窗有可能框住同一个事件。
所述的获取相应社团结构以如下公式计算:
Figure BDA0001144701300000051
其中,φM(S)表示词汇网络中的结构数,
Figure BDA0001144701300000052
表示至少分别跟S和重合一个节点的motif结构的数量;
Figure BDA0001144701300000054
表示去除S后剩下的节点数;volM(S)表示存在S中的motif结构的节点数;表示存在
Figure BDA0001144701300000056
中的motif结构的节点数。
所述S42中的Jaccard相似性计算公式如下:
其中A和B表示不同的事件。
一种基于事件相似性建模的获取事件脉络的系统,包括数据爬取模块、数据库、事件分析模块、事件库、相似性计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博微信及其相关评论信息的爬取;
所述的数据库主要用于存储数据爬取模块爬取的各类新闻和评论的数据信息;
所述的事件分析模块主要用于对数据库中的数据信息进行数据挖掘和事件词汇网络的建模,包括对新闻语料的分析、主题的提取和motif结构的获取;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的相似性计算模块主要用于按照不同的相似性要求,进行相似性的计算;
所述的用户前端模块主要用于为用户提供界面方便其登入事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用相似性计算模块的相似性计算函数,根据用户输入的事件信息获取相应的事件脉络,结果存储后提供给特定网站进行调用。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (5)

1.一种基于事件相似性建模的获取事件脉络的方法,其特征在于:方法的步骤如下:
S1、获取相应事件的信息;
S2、根据事件的信息建立数据库,并按照一定的时间窗D的大小分别存储相应的事件;
S3、对数据库里的数据信息进行深度挖掘,建立词汇网络模型和事件库,获取相应的motif结构保存到事件库;
所述S3的具体步骤如下:
S31、提取事件语料中的词语;对语料进行分词、去停用词之后,将得到的词语存入词库,更新词库;
S32、构建词汇网络;利用事件的词库信息建立相应的词汇网络模块,并设定一个距离L,只有在一篇文章中距离该词距离没有超过L的,它们之间的无向加权边的权重就加1;
S33、获取词汇网络中的结构;设置一个阈值Q,如果无向加权边的权重超过阈值则保留,反之则删除;
S34、根据破坏最少的motif结构获取最大划分比例的原则,对词汇网络中的结构进行社团划分,获取相应的社团结构;获取相应社团结构以如下公式计算:
Figure FDA0002244690860000011
其中,φM(S)表示词汇网络中的结构数,
Figure FDA0002244690860000012
表示至少分别跟S和
Figure FDA0002244690860000013
重合一个节点的motif结构的数量;
Figure FDA0002244690860000015
表示去除S后剩下的节点数;volM(S)表示存在S中的motif结构的节点数;
Figure FDA0002244690860000014
表示存在
Figure FDA0002244690860000016
中的motif结构的节点数
S4、根据不同的事件类型进行事件脉络的获取;
所述S4的具体步骤如下:
S41、通过实用LDA主题模型获取相应的主题分类;
S42、合并同一个时间窗中的相同事件;根据时间窗D中每个事件包含相应的motif结构的种类,利用Jaccard相似性计算方法计算事件之间的相似性,并设置一个高阈值Y,如果超过这个阈值,就合并为相同事件,否则就不合并;
S43、获取时间窗中符合要求的事件;根据实际的需要设定时间窗D的大小,以及相适应的阈值Z,并选择获取时间窗D中topK个事件或者选择阈值达到Z的所有事件;
S44、获取事件的脉络;利用事件的主要属性计算每个时间中获取的事件之间的相似性,并设置一个阈值W,如果阈值W比阈值Y和阈值Z要小,则采用事件的弱相似性来获取事件的脉络;
S45、去除事件脉络中重复的内容;对得到的事件脉络再次进行相似性计算,设置阈值V,阈值V大于阈值W,防止两个相邻的时间窗中存在一个事件的同一阶段的事件。
2.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S1中的获取事件信息的技术包括网虫爬取技术。
3.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S2中的数据库信息包括新闻信息、微博微信评论信息和论坛评论信息。
4.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法,其特征在于:所述S42中的Jaccard相似性计算公式如下:
Figure FDA0002244690860000021
其中A和B表示不同的事件。
5.根据权利要求1所述的一种基于事件相似性建模的获取事件脉络的方法所运用的一种基于事件相似性建模的获取事件脉络的系统,其特征在于:包括数据爬取模块、数据库、事件分析模块、事件库、相似性计算模块、用户前端模块和用户后端模块;
所述的数据爬取模块主要用于对各大新闻网站信息以及相关论坛和微博微信及其相关评论信息的爬取;
所述的数据库主要用于存储数据爬取模块爬取的各类新闻和评论的数据信息;
所述的事件分析模块主要用于对数据库中的数据信息进行数据挖掘和事件词汇网络的建模,包括对新闻语料的分析、主题的提取和motif结构的获取;
所述的事件库主要用于保存事件分析模块生成的各类事件信息;
所述的相似性计算模块主要用于按照不同的相似性要求,进行相似性的计算;
所述的用户前端模块主要用于为用户提供界面方便其登入事件相关信息;所述的用户包括网站或者信息平台的管理人员;
所述的用户后端模块主要用于调用相似性计算模块的相似性计算函数,根据用户输入的事件信息获取相应的事件脉络,结果存储后提供给特定网站进行调用。
CN201610961737.9A 2016-10-27 2016-10-27 一种基于事件相似性建模的获取事件脉络的方法及其系统 Expired - Fee Related CN106407473B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610961737.9A CN106407473B (zh) 2016-10-27 2016-10-27 一种基于事件相似性建模的获取事件脉络的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610961737.9A CN106407473B (zh) 2016-10-27 2016-10-27 一种基于事件相似性建模的获取事件脉络的方法及其系统

Publications (2)

Publication Number Publication Date
CN106407473A CN106407473A (zh) 2017-02-15
CN106407473B true CN106407473B (zh) 2020-01-31

Family

ID=58014823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610961737.9A Expired - Fee Related CN106407473B (zh) 2016-10-27 2016-10-27 一种基于事件相似性建模的获取事件脉络的方法及其系统

Country Status (1)

Country Link
CN (1) CN106407473B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382276B (zh) * 2018-12-29 2023-06-20 中国科学院信息工程研究所 一种事件发展脉络图生成方法
CN110232077B (zh) * 2019-06-19 2021-05-14 北京百度网讯科技有限公司 事件脉络生成方法及装置
CN114598719A (zh) * 2021-09-06 2022-06-07 广东东华发思特软件有限公司 智慧城市物联事件管理方法、装置及可读介质
CN115878761B (zh) * 2023-03-02 2023-05-09 湖南蚁坊软件股份有限公司 事件脉络生成方法、设备及介质
CN117034905B (zh) * 2023-08-07 2024-05-14 重庆邮电大学 一种基于大数据的互联网假新闻识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103197983A (zh) * 2013-04-22 2013-07-10 东南大学 基于概率图模型的服务组件可靠性在线时间序列预测方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN103197983A (zh) * 2013-04-22 2013-07-10 东南大学 基于概率图模型的服务组件可靠性在线时间序列预测方法
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法

Also Published As

Publication number Publication date
CN106407473A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407473B (zh) 一种基于事件相似性建模的获取事件脉络的方法及其系统
CN106250513B (zh) 一种基于事件建模的事件个性化分类方法及系统
Unankard et al. Emerging event detection in social networks with location sensitivity
CN104394118B (zh) 一种用户身份识别方法及系统
CN107633044A (zh) 一种基于热点事件的舆情知识图谱构建方法
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN111382276B (zh) 一种事件发展脉络图生成方法
CN103020159A (zh) 一种面向事件的新闻展现方法和装置
CN103914494A (zh) 一种微博用户身份识别方法及系统
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN106980651B (zh) 一种基于知识图谱的爬取种子列表更新方法及装置
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
US20160248724A1 (en) Social Message Monitoring Method and Apparatus
CN109597926A (zh) 一种基于社交媒体突发事件的信息获取方法及系统
Hernandez et al. Constructing consumer profiles from social media data
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN104123336A (zh) 深度玻尔兹曼机模型及短文本主题分类系统和方法
Phuvipadawat et al. Detecting a multi-level content similarity from microblogs based on community structures and named entities
CN105447013A (zh) 一种新闻推荐系统
CN110941703A (zh) 一种基于机器学习和模糊规则的集成简历信息抽取方法
Sha et al. Resolving entity morphs based on character-word embedding
CN111310066B (zh) 一种基于主题模型和关联规则算法的好友推荐方法及系统
CN109408704B (zh) 基金数据关联方法、系统、计算机设备和存储介质
Lu et al. Trending words based event detection in Sina Weibo
CN113806616B (zh) 微博用户识别方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200131

Termination date: 20211027