CN106021351A - 针对新闻事件的聚合提取方法及装置 - Google Patents

针对新闻事件的聚合提取方法及装置 Download PDF

Info

Publication number
CN106021351A
CN106021351A CN201610303436.7A CN201610303436A CN106021351A CN 106021351 A CN106021351 A CN 106021351A CN 201610303436 A CN201610303436 A CN 201610303436A CN 106021351 A CN106021351 A CN 106021351A
Authority
CN
China
Prior art keywords
news
text
content
same
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610303436.7A
Other languages
English (en)
Other versions
CN106021351B (zh
Inventor
李华基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Polytechnic
Original Assignee
Shenzhen Polytechnic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Polytechnic filed Critical Shenzhen Polytechnic
Priority to CN201610303436.7A priority Critical patent/CN106021351B/zh
Publication of CN106021351A publication Critical patent/CN106021351A/zh
Application granted granted Critical
Publication of CN106021351B publication Critical patent/CN106021351B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种针对新闻事件的聚合提取方法及装置,其中,该方法包括获取各个新闻源的新闻;对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。本发明提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。

Description

针对新闻事件的聚合提取方法及装置
技术领域
本发明涉及新闻信息技术领域,特别涉及一种针对新闻事件的聚合提取方法及装置。
背景技术
新闻,它是对新近发生的有社会意义并引起公众兴趣的事实的简短报道。因此,真实性、时效性及文字少、篇幅小成为消息的基本特征。报纸、广播、电视新闻是使用得最广泛的一种新闻体裁。
然而,随着信息化技术的迅速发展,如何将新闻快速而有效的传播出去,成为当今社会一个非常重要的问题。除了传统的报纸、电视等可以用来作为新闻传播的媒介之外,网络也是新闻传播的一个重要媒介。
目前,网络作为媒介传播新闻时,一般都是由各个新闻媒体将新闻发布在自己网站或频道上。大众通过关键词搜索可以看到与关键词先关的新闻,这些新闻的来源不同,例如来自新浪、腾讯、网易等等,甚至很多个人发出的相关信息。虽然这些新闻和关键词相关,但是,并不能确定这些新闻都是针对同一事件新闻,因此,在这些铺天盖地的信息,大众很难从中挑选针对某一事件的新闻,极大地影响了用户阅读新闻的效率及获取新闻信息的准确性。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明第一方面实施例在于提出一种针对新闻事件的聚合提取方法。
本发明的第二方面实施例在于提出一种针对新闻事件的聚合提取装置。
为了实现上述目的,本发明第一方面实施例的针对新闻事件的聚合提取方法,包括:
获取各个新闻源的新闻;
对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;
对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;
根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
根据本发明提供的针对新闻事件的聚合提取方法,对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。
为了实现上述目的,本发明第二方面实施例的针对新闻事件的聚合提取装置,包括:
第一获取单元,用于获取各个新闻源的新闻;
第一相关度计算单元,用于对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;
第一汇编单元,用于对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;
展现单元,用于根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
根据本发明提供的针对新闻事件的聚合提取装置,第一相关度计算单元对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;第一汇编单元对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。
附图说明
图1是本发明实施例针对新闻事件的聚合提取方法的流程图;
图2是本发明实施例针对新闻事件的聚合提取方法中步骤S101的流程图;
图3是本发明实施例针对新闻事件的聚合提取方法中步骤S102的流程图;
图4是本发明另一实施例针对新闻事件的聚合提取方法的流程图;
图5是本发明另一实施例针对新闻事件的聚合提取方法中步骤S204的流程图;
图6是本发明实施例针对新闻事件的聚合提取装置结构示意图;
图7是本发明实施例针对新闻事件的聚合提取装置中第一获取单元结构示意图;
图8是本发明实施例针对新闻事件的聚合提取装置中第一相关度计算单元结构示意图;
图9是本发明另一实施例针对新闻事件的聚合提取装置结构示意图;
图10是本发明另一实施例针对新闻事件的聚合提取装置中排序单元结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
参照图1所示,图1示出了本发明实施例提供的针对新闻事件的聚合提取方法的流程图,为了便于描述,仅示出了与本发明实施例相关的部分。具体的,该针对新闻事件的聚合提取方法,包括:
S101、获取各个新闻源的新闻。
该步骤中,可以使用新闻源提供的接口获取新闻数据。由于网络上的新闻信息来源广泛,例如来自各个新闻媒体网站的新闻,还有一些个人或组织发布至网上的事件信息等,所以,上述新闻源可以是任意网站的新闻,也可以是搜索引擎搜集的各种事件信息等。
在本发明的一个实施例中,步骤S101具体可以包括:
S1011、定时抓取新闻源的新闻页面。例如采用JAVA爬虫抓取新闻页面。
S1012、解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。由于抓取的新闻页面一般包括除了文本内容、新闻发布时间之外的其他诸多内容,例如链接地址等等,而作为读者而言,需要获取的信息一般仅限于文本内容、新闻发布时间等,因此,在抓取到新闻页面之后,提取新闻页面中的文本内容和新闻发出时间。
S102、对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组。
由于在网络上获取新闻来自各个不同新闻源,而且每条新闻针对的可能属于不同的事件,所以,对来自不同新闻源的新闻两两之间进行相关度计算,根据计算的相关度即可判断两个新闻之间是否是针对同一事件,即当相关度大于设定值时,将两新闻确定为针对同一事件的新闻。如果是针对同一事件的新闻,则将两个新闻放入同一新闻组,位于该新闻组内的所有新闻即是针对同一事件的。
在本发明的一个实施例中,步骤S102具体可以包括:
S1021、采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;也即是,查找不同新闻源的两个新闻的文本内容中以一定频率重复出现的词汇,共现词汇和/或句子一定程度上反应了该新闻所针对的事件,例如“楼市”。
S1022、引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系。
由于共现词和/或句子一定程度上反应了该新闻所针对事件,所以,如果两个新闻中的第一共现词和/或句子的含义是相同的或相近似的,则说明两者所针对的事件极有可能是同一事件。由此,该步骤中,在步骤S1021确定两个新闻各自的共现词和/或句子之后,引入词典对两个新闻中的共现词和/或句子进行语义比较,找到两个新闻中的共现词和/或句子之间的相关关系,该相关关系一包包括相同词或句子、近义词、反义词、无关联词,无关联词是指在语义上完全不同,没有任何关联的两个词汇,例如“楼市”与“房地产”可以理解为近义词。
S1023、提取不同新闻源的两个新闻中的新闻发布时间。
由于相类似事件的新闻中共现词和/或句子可能相同,但是,相类似事件并不是同一事件,例如2000年发生“XX刑事案件”和2010年发生“XX刑事案件”,两者的案情相似,因此,从两个新闻中查找的共现词和/或句子可能是非常接近的,也即是,其两者之间的相关关系可能为相同词或近义词。如果由此判断两者的为针对同一事件的新闻而将其列入同一新闻组,则明显影响准确性。
而新闻发出时间则间接表征了新闻所针对的事件的发生事件,也即是,新闻报道事件一般与事件发生的事件相隔不会太久,由此,该步骤中,需要提取两个新闻的新闻发布时间,以该新闻发布时间作为参考,则显著提高针对同一事件的新闻分类准确率。
S1024、将不同新闻源的两个新闻中的新闻发布时间进行比较,确定新闻发布时间的相关关系。
每篇新闻都有时间戳,在时间戳可以作为新闻发布时间,将两篇新闻的发布时间进行对比,确定新闻发布时间的相关关系,该相关关系可以是相同时间、临近时间和无关联时间,临近时间是指两篇新闻的新闻发布时间前后相差较少,例如相差几天。无关联时间是指两篇新闻的新闻报道事件相差较大,例如相差一个月或几个月。
S1025、根据所述第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系计算所述两个新闻之间的相关度。
由于两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系表征了两个新闻所针对的事件之间的关联性,即两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系为相同词或近义词时,说明两者所针对的事件极有可能是同一事件,但是也有可能是发生在不同时间的相似事件。而两个新闻的新闻发布时间的相关关系表征了事件发生时间的关联性。所以,以第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系作为参考,来判断两篇新闻是否针对同一事件,可以提高判断的准确性,剔除不同时间发生的相类似事件的干扰。
S1026、当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组。也就是说,当两篇新闻的共现词语义相同或接近,并且,新闻发布时间相同或邻近时,则说明两者针对的是同一事件,将两新闻放入同一事件新闻组中。
需要说明的是,为了提高两篇新闻是否针对的是同一事件的准确性,可以在步骤S1021中,尽量查找多个共现词和/或句子,再通过步骤S1022对多个共现词和/或句子的语义分析比较,最终,步骤S1025计算的相关度更加精确,步骤S1026中将两新闻确定为针对同一事件的新闻的准确性更高。
在发明的另一个实施例中,还包括:
S1027、当相关度小于设定值时,两新闻确定为针对不同事件的新闻并建立两个事件新闻组,两新闻分别位于两所述事件新闻组中。如此,可以针对不同时间的新闻分别放入至不同新闻组中,用户可以根据需要选择对应的新闻组。
S103、对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文。
也就是说,该步骤中,是将位于同一事件新闻组中的所有新闻的文本内容进行汇总,并按照一定的顺序编排形成文本内容集,并且记载在同一网页页面,例如从页面的上之下依次排放针对同一事件的各个新闻媒体的文本内容,例如腾讯新闻文本内容、新浪新闻文本内容、央视网新闻文本内容、……、个人发出的事件先关信息(例如公众人物的微博、微信内容等)。
S104、根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
需要说明的是,也网页页面可以是网站,也可以以新闻客户端的上的页面。当用户需要查看新闻时,点击直接进入网站或新闻客户端上,再进入至该网页页面上浏览该事件的各个不同新闻源的新闻报道。
根据本实施例提供的针对新闻事件的聚合提取方法,对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。
参照图2所示,图2示出了本发明实施例提供的针对新闻事件的聚合提取方法的另一流程图,为了便于描述,仅示出了与本发明实施例相关的部分。具体的,该针对新闻事件的聚合提取方法,包括:
S201、获取各个新闻源的新闻。
S202、对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组。
S203、对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文。
S204、根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序。
由于以网络作为新闻的载体,网络监管制度不完善,导致了网络上的新闻的真实性参差不齐。所以,本实施例中,可以根据新闻内容的真实性对同一新闻组内的各个新闻的文本内容进行顺序排列,例如对来自新浪、腾讯等新闻媒体的新闻的文本内容排列在网页页面的上方,而其他机构、组织或个人发布的信息可以排列在网页页面的下方,如此,用户在流量新闻的时,一般都是从上之下浏览(拖动页面),确保用户浏览的新闻为真实性较高的新闻的文本内容。
在本发明的一个实施例中,步骤S204具体可以包括:
S2041、获取政府职能机构网站上公告信息及公告时间。由于政府职能机构一般会对重要事件作出指示或公式,而且以文本方式公开的政府职能机构的官方网站上,而且,其具有针对某个事件或现象的概述。而政府职能部门公告信息的具有权威性和真实性,所以,可以将公告信息及公告时间作为判断新闻真实性的依据。
S2042、采用词汇共现算法查找来自所述政府职能机构网站上公告信息与所述新闻中的第二共现词汇和/或句子。也即是,查找政府职能机构网上的上公告信息及新闻的文本内容中以一定频率重复出现的词汇,该共现词汇和/或句子一定程度上反应了该其针对的事件。
S2043、引入词典语义分析所述第二共现词汇和/或句子之间的相关关系。
由于第二共现词和/或句子一定程度上反应了该公告信息或新闻所针对事件,所以,如果公告信息中的共现词和/或句子的含义与新闻中的共现词和/或句子的含义是相同的或相近似的,则说明两者所针对的事件极有可能是同一事件或者是相关联的内容。由此,引入词典对政府职能机构的公开信息和新闻中的第二共现词和/或句子进行语义比较,找到政府职能机构的公开信息和该新闻中的第二共现词和/或句子之间的相关关系,该相关关系一包包括相同词或句子、近义词、反义词、无关联词,无关联词是指在语义上完全不同,没有任何关联的两个词汇。
S2044、将所述新闻中的新闻发布时间与所述公告信息的公告时间进行比较,确定新闻发布时间与公告时间的相关关系。该相关关系可以是相同时间、临近时间和无关联时间,临近时间是指两篇新闻的新闻发布时间前后相差较少,例如相差几天。
S2045、根据所述第二共现词汇和/或句子之间的相关关系及所述新闻发送时间与公告时间的相关关系计算所述新闻与所述公告信息之间的相关度。
由于政府职能机构的公告信息和新闻的文本内容中所述第二共现词汇和/或句子之间的相关关系表征了两者所针对的事件之间的关联性。所以,以第二共现词汇和/或句子之间的相关关系及所述公告时间和新闻发布时间的相关关系作为参考,来判断政府职能机构的公告信息和该新闻是否针对同一事件,可以提高判断的准确性。
如上所述,由于政府职能部门发布的公告信息具有权威性和真实性,所以,当政府职能机构的公告信息和该新闻是针对同一事件时,则说明该新闻是真实的,否则有可能不真实。
S2046、根据所述新闻与所述公告信息之间的相关度大小,对同一事件新闻组内各个新闻的文本内容在同一网页页面上进行依次排序。
也就是说,将针对同一事件新闻组中与所述公告信息之间的相关度越大的新闻排列的网页页面的最上面,相关度越小的依次排列再网页页面的下面。
S205、根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
根据本实施例提供的针对新闻事件的聚合提取方法,对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文,根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。同时,确保用户浏览新闻的真实性。
参照图4所示,图4示出了本发明另一实施例一种针对新闻事件的聚合提取装置,包括:
第一获取单元301,用于获取各个新闻源的新闻;
第一相关度计算单元302,用于对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;
第一汇编单元303,用于对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;
展现单元304,用于根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
在本发明的一个实施例中,所述第一获取单元301包括:
抓取模块3011,用于定时抓取新闻源的新闻页面;
解析模块3012,用于解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。
在本发明的一个实施例中,所述第一相关度计算单元302包括:
第一查找模块3021,用于采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;
第一词义分析模块3022,用于引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系;
提取模块3023,用于提取不同新闻源的两个新闻中的新闻发布时间;
第一时间对比模块3024,用于将不同新闻源的两个新闻中的新闻发布时间进行比较,确定新闻发布时间的相关关系;
第一计算模块3025,用于根据所述第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系计算所述两个新闻之间的相关度;
确定模块3026,用于当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组。
在本发明的另一个实施例中,所述确定模块3026还用于:
当相关度小于设定值时,两新闻确定为针对不同事件的新闻并建立两个事件新闻组,两新闻分别位于两所述事件新闻组中。
在本发明的又一个实施例中,还包括:
排列单元305,用于根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序,所述排序单元305具体包括:
获取模块3051,用于获取政府职能机构网站上公告信息及公告时间;
第二查找模块3052,用于采用词汇共现算法查找来自所述政府职能机构网站上公告信息与所述新闻中的第二共现词汇和/或句子;
第二词义分析模块3053,用于引入词典语义分析所述第二共现词汇和/或句子之间的相关关系;
第二时间对比模块3054,用于将所述新闻中的新闻发布时间与所述公告信息的公告时间进行比较,确定新闻发布时间与公告时间的相关关系;
第二计算模块3055,用于根据所述第二共现词汇和/或句子之间的相关关系及所述新闻发送时间与公告时间的相关关系计算所述新闻与所述公告信息之间的相关度;
排列模块3056,用于根据所述新闻与所述公告信息之间的相关度大小,对同一事件新闻组内各个新闻的文本内容在同一网页页面上进行依次排序。
根据本发明提供的针对新闻事件的聚合提取装置,第一相关度计算单元302对来自不同新闻源的新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;第一汇编单元303对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;文本内容包括新闻标题及正文。由此,用户在同一网页页面上可以浏览针对同一事件的所有新闻报道,如此,提高用户从网络上获取新闻信息的准确性以及用户浏览新闻的效率。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置或系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种针对新闻事件的聚合提取方法,其特征在于,包括:
获取各个新闻源的新闻;
对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;
对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;
根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
2.根据权利要求1所述的针对新闻事件的聚合提取方法,其特征在于,所述获取各个新闻源的新闻包括:
定时抓取新闻源的新闻页面;
解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。
3.根据权利要求2所述的针对新闻事件的聚合提取方法,其特征在于,所述对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,包括:
采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;
引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系;
提取不同新闻源的两个新闻中的新闻发布时间;
将不同新闻源的两个新闻中的新闻发布时间进行比较,确定新闻发布时间的相关关系;
根据所述第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系计算所述两个新闻之间的相关度;
当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组。
4.根据权利要求3所述的针对新闻事件的聚合提取方法,其特征在于,还包括:
当相关度小于设定值时,两新闻确定为针对不同事件的新闻并建立两个事件新闻组,两新闻分别位于两所述事件新闻组中。
5.根据权利要求1所述的针对新闻事件的聚合提取方法,其特征在于,所述根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集之前还包括:
根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序,具体包括:
获取政府职能机构网站上公告信息及公告时间;
采用词汇共现算法查找来自所述政府职能机构网站上公告信息与所述新闻中的第二共现词汇和/或句子;
引入词典语义分析所述第二共现词汇和/或句子之间的相关关系;
将所述新闻中的新闻发布时间与所述公告信息的公告时间进行比较,确定新闻发布时间与公告时间的相关关系;
根据所述第二共现词汇和/或句子之间的相关关系及所述新闻发送时间与公告时间的相关关系计算所述新闻与所述公告信息之间的相关度;
根据所述新闻与所述公告信息之间的相关度大小,对同一事件新闻组内各个新闻的文本内容在同一网页页面上进行依次排序。
6.一种针对新闻事件的聚合提取装置,其特征在于,包括:
第一获取单元,用于获取各个新闻源的新闻;
第一相关度计算单元,用于对来自不同新闻源的所述新闻两两之间进行相关度计算,当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组,相关联的两新闻位于同一事件新闻组;
第一汇编单元,用于对同一事件新闻组内各个新闻的文本内容进行汇编形成针对同一事件不同新闻源的文本内容集,并将该文本内容集加载至同一网页页面;所述文本内容包括新闻标题及正文;
展现单元,用于根据用户发出的访问请求,打开网页页面展示同一事件不同新闻源的文本内容集。
7.根据权利要求6所述的针对新闻事件的聚合提取装置,其特征在于,所述第一获取单元包括:
抓取模块,用于定时抓取新闻源的新闻页面;
解析模块,用于解析抓取的所述新闻页面,提取新闻页面中的文本内容以及新闻发布时间。
8.根据权利要求7所述的针对新闻事件的聚合提取装置,其特征在于,所述第一相关度计算单元包括:
第一查找模块,用于采用词汇共现算法查找来自不同新闻源的两个新闻的文本内容中的第一共现词汇和/或句子;
第一词义分析模块,用于引入词典语义分析两个新闻的文本内容中所述第一共现词汇和/或句子之间的相关关系;
提取模块,用于提取不同新闻源的两个新闻中的新闻发布时间;
第一时间对比模块,用于将不同新闻源的两个新闻中的新闻发布时间进行比较,确定新闻发布时间的相关关系;
第一计算模块,用于根据所述第一共现词汇和/或句子之间的相关关系及所述新闻发送时间的相关关系计算所述两个新闻之间的相关度;
确定模块,用于当相关度大于设定值时,将两新闻确定为针对同一事件的新闻并建立一事件新闻组。
9.根据权利要求8所述的针对新闻事件的聚合提取装置,其特征在于,所述确定模块还用于:
当相关度小于设定值时,两新闻确定为针对不同事件的新闻并建立两个事件新闻组,两新闻分别位于两所述事件新闻组中。
10.根据权利要求6所述的针对新闻事件的聚合提取装置,其特征在于,还包括:
排列单元,用于根据新闻内容的真实性对同一新闻组内各个新闻的文本内容依次排序,所述排序单元具体包括:
获取模块,用于获取政府职能机构网站上公告信息及公告时间;
第二查找模块,用于采用词汇共现算法查找来自所述政府职能机构网站上公告信息与所述新闻中的第二共现词汇和/或句子;
第二词义分析模块,用于引入词典语义分析所述第二共现词汇和/或句子之间的相关关系;
第二时间对比模块,用于将所述新闻中的新闻发布时间与所述公告信息的公告时间进行比较,确定新闻发布时间与公告时间的相关关系;
第二计算模块,用于根据所述第二共现词汇和/或句子之间的相关关系及所述新闻发送时间与公告时间的相关关系计算所述新闻与所述公告信息之间的相关度;
排列模块,用于根据所述新闻与所述公告信息之间的相关度大小,对同一事件新闻组内各个新闻的文本内容在同一网页页面上进行依次排序。
CN201610303436.7A 2016-05-10 2016-05-10 针对新闻事件的聚合提取方法及装置 Expired - Fee Related CN106021351B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610303436.7A CN106021351B (zh) 2016-05-10 2016-05-10 针对新闻事件的聚合提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610303436.7A CN106021351B (zh) 2016-05-10 2016-05-10 针对新闻事件的聚合提取方法及装置

Publications (2)

Publication Number Publication Date
CN106021351A true CN106021351A (zh) 2016-10-12
CN106021351B CN106021351B (zh) 2019-04-12

Family

ID=57099558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610303436.7A Expired - Fee Related CN106021351B (zh) 2016-05-10 2016-05-10 针对新闻事件的聚合提取方法及装置

Country Status (1)

Country Link
CN (1) CN106021351B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN108021596A (zh) * 2016-11-04 2018-05-11 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN110633438A (zh) * 2018-05-31 2019-12-31 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN111708879A (zh) * 2020-05-11 2020-09-25 北京明略软件系统有限公司 针对事件的文本聚合方法、装置及计算机可读存储介质
CN113626618A (zh) * 2021-10-12 2021-11-09 深圳前海环融联易信息科技服务有限公司 基于跨篇章事件提取的案件串联方法、装置及相关组件
CN113779983A (zh) * 2021-04-16 2021-12-10 南京擎盾信息科技有限公司 文本数据处理方法以及装置、存储介质、电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831192A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于话题的新闻检索装置及方法
CN103020159A (zh) * 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置
CN103164427A (zh) * 2011-12-13 2013-06-19 中国移动通信集团公司 新闻聚合方法及装置
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN103942264A (zh) * 2014-03-26 2014-07-23 北京奇虎科技有限公司 推送包含新闻信息的网页的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164427A (zh) * 2011-12-13 2013-06-19 中国移动通信集团公司 新闻聚合方法及装置
CN102831192A (zh) * 2012-08-03 2012-12-19 人民搜索网络股份公司 基于话题的新闻检索装置及方法
CN103793418A (zh) * 2012-10-31 2014-05-14 珠海富讯网络科技有限公司 一种针对证券行业的实时垂直搜索引擎的搜索方法
CN103020159A (zh) * 2012-11-26 2013-04-03 百度在线网络技术(北京)有限公司 一种面向事件的新闻展现方法和装置
CN103942264A (zh) * 2014-03-26 2014-07-23 北京奇虎科技有限公司 推送包含新闻信息的网页的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曲云鹏等: ""词汇链文本表示模型计算方法综述"", 《知识管理论坛》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021596A (zh) * 2016-11-04 2018-05-11 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN108021596B (zh) * 2016-11-04 2021-12-28 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN107944001A (zh) * 2017-12-05 2018-04-20 北京金山安全软件有限公司 热点新闻的检测方法、装置及电子设备
CN110633438A (zh) * 2018-05-31 2019-12-31 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110633438B (zh) * 2018-05-31 2023-04-07 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN111708879A (zh) * 2020-05-11 2020-09-25 北京明略软件系统有限公司 针对事件的文本聚合方法、装置及计算机可读存储介质
CN113779983A (zh) * 2021-04-16 2021-12-10 南京擎盾信息科技有限公司 文本数据处理方法以及装置、存储介质、电子装置
CN113779983B (zh) * 2021-04-16 2022-10-04 南京擎盾信息科技有限公司 文本数据处理方法以及装置、存储介质、电子装置
CN113626618A (zh) * 2021-10-12 2021-11-09 深圳前海环融联易信息科技服务有限公司 基于跨篇章事件提取的案件串联方法、装置及相关组件
CN113626618B (zh) * 2021-10-12 2022-02-15 深圳前海环融联易信息科技服务有限公司 基于跨篇章事件提取的案件串联方法、装置及相关组件
WO2023060634A1 (zh) * 2021-10-12 2023-04-20 深圳前海环融联易信息科技服务有限公司 基于跨篇章事件提取的案件串联方法、装置及相关组件

Also Published As

Publication number Publication date
CN106021351B (zh) 2019-04-12

Similar Documents

Publication Publication Date Title
CN106021351A (zh) 针对新闻事件的聚合提取方法及装置
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
CN102831214B (zh) 时间序列搜索引擎
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN109299271B (zh) 训练样本生成、文本数据、舆情事件分类方法及相关设备
CN106021418B (zh) 新闻事件的聚类方法及装置
Soltani et al. A survey on digital evidence collection and analysis
Jaimes et al. Learning personalized video highlights from detailed MPEG-7 metadata
Chen et al. Visualization of network data provenance
KR101252670B1 (ko) 연관 콘텐츠 제공 장치, 방법 및 컴퓨터 판독 가능한 기록 매체
CN104820686A (zh) 一种网络搜索方法及网络搜索系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN101369276A (zh) 一种Web浏览器缓存数据的取证方法
JP2014502753A (ja) ウェブページ情報の検出方法及びシステム
CN103116635B (zh) 面向领域的暗网资源采集方法和系统
CN106202563A (zh) 一种实时关联事件新闻推荐方法及系统
CN103838754A (zh) 信息搜索装置及方法
CN104809252A (zh) 互联网数据提取系统
CN105095175A (zh) 获取截短的网页标题的方法及装置
CN106021552A (zh) 基于人群行为模拟的互联网爬虫并发数据采集方法及系统
CN104834739A (zh) 互联网信息存储系统
CN106844588A (zh) 一种基于网络爬虫的用户行为数据的分析方法及系统
Jagtap et al. Misinformation detection on YouTube using video captions
Varol et al. Review of evidence analysis and reporting phases in digital forensics process
CN107092665A (zh) 一种数据检索系统及检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190412

Termination date: 20210510

CF01 Termination of patent right due to non-payment of annual fee