CN105787095A - 互联网新闻的自动生成方法和装置 - Google Patents

互联网新闻的自动生成方法和装置 Download PDF

Info

Publication number
CN105787095A
CN105787095A CN201610154211.XA CN201610154211A CN105787095A CN 105787095 A CN105787095 A CN 105787095A CN 201610154211 A CN201610154211 A CN 201610154211A CN 105787095 A CN105787095 A CN 105787095A
Authority
CN
China
Prior art keywords
news
structuring
event
sentence
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610154211.XA
Other languages
English (en)
Other versions
CN105787095B (zh
Inventor
石忠民
江云辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201610154211.XA priority Critical patent/CN105787095B/zh
Publication of CN105787095A publication Critical patent/CN105787095A/zh
Application granted granted Critical
Publication of CN105787095B publication Critical patent/CN105787095B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种互联网新闻的自动生成方法和装置,方法包括以下步骤:利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。本发明以时间为主线展现完整的新闻事件,让用户轻松了解事件的发展过程。

Description

互联网新闻的自动生成方法和装置
技术领域
本发明涉及计算机信息处理领域,具体涉及一种互联网新闻事件的自动生成方法和装置。
背景技术
随着移动互联网技术的发展,如今,人们越来越多地通过手机等终端设备浏览新闻,由于受手机设备屏幕小的限制,受众阅读碎片化导致新闻文本叙事碎片化。以往,人们消费新闻的时间、场景相对比较固定,比如在晚饭时观看电视新闻,在早饭时浏览报纸新闻或听早间广播等,到了移动互联网时代,受众新闻消费呈现出高度的离散性,手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的,长则一个小时短则几分钟,如果一则消息不能在短短的几秒内抓住受众的注意力,那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。
互联网上的内容每天都处于快速的增长之中,这给搜索引擎带来了全新的挑战。不仅如此,广大用户的要求也日益严苛,他们要的不仅是准确的匹配结果,更是能够解决问题的答案。在日趋嘈杂的网络内容环境下,搜索引擎要更加聪明和智慧,要更加理解不同用户、不同关键词背后真正的意图,以及用户所希望获得的内容,并通过技术创新和资源整合,给予清晰的呈现。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种互联网新闻的自动生成方法和装置,以时间为主线展现完整的新闻事件,让用户再不用自己梳理,就能轻松了解整个事件的发展过程,从而有效提高获取信息的效率,并引导用户进行深度阅读。
为解决上述问题,本发明所采用的技术方案如下:
方案一:
互联网新闻的自动生成方法,包括以下步骤:
S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
S2、分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
S3、对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
优选的,所述结构化新闻至少包括标题、正文和发布时间。
优选的,对获取到的结构化新闻进行识别包括下子步骤:
S31、分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;
S32、根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;
S33、根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;
S34、分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类。
优选的,在步骤S31中,利用TextRank算法识别结构化新闻中的关键词,以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合,其中,N>0。
优选的,在步骤S32中,采用以下步骤对每个结构化新闻进行分组:
S321、为第一个结构化新闻创建新闻分组,新闻分组中包括结构化新闻、关键词表和更新时间,其中,关键词表由新闻分组中每个结构化新闻中的关键词集合组成,取新闻分组中所有结构化新闻中最新的发布时间作为更新时间;
S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前结构化新闻放入对应的新闻分组中;其中,时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差;
S323、新闻分组中新增加结构化新闻后,则对应更新该新闻分组中的关键词表和更新时间。
优选的,在步骤S34中,所述事件条件包括以下三个条件:
条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量;
条件2、新闻聚类中的结构化新闻的数量在预设数量范围内;
条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差;
若同时满足条件1、条件2和条件3,则满足事件条件。
优选的,在步骤S4中,结构化新闻生成对应的新闻摘要包括以下步骤:
S41、对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
S42、分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
S43、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分。
S44、选取排序分最高的保留句子作为该结构化新闻的摘要。
优选的,在步骤S43和S44之间还包括以下步骤:
S431、以排序分高低选取前N1个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行步骤S432,若否,执行步骤S44;其中,N1>1;
S432、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该结构化新闻的摘要,若否,则执行步骤S433;
S433、选取排序分最高的待筛选摘要作为该结构化新闻的摘要。
优选的,计算保留句子与标题的相似度Similarity(s)的步骤如下:
S421、基于哈工大同义词词林对保留句子和标题进行同义词转换;
S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。
方案二:
互联网新闻的自动生成装置,包括以下模块:
抓取模块:用于利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
结构化模块:用于分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
新闻事件识别模块:用于对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
摘要生成模块:用于分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
排序模块:用于将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
优选的,所述结构化新闻至少包括标题、正文和发布时间。
优选的,在新闻事件识别模块中,对获取到的结构化新闻进行识别包括下子模块:
关键词识别模块:用于分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;
新闻分组生成模块:用于根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;
新闻聚类生成模块:用于根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;
新闻事件生成模块:用于分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类。
优选的,在关键词识别模块中,利用TextRank算法识别结构化新闻中的关键词,以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合,其中,N>0。
优选的,在新闻分组生成模块中,采用以下步骤对每个结构化新闻进行分组:
S321、为第一个结构化新闻创建新闻分组,新闻分组中包括结构化新闻、关键词表和更新时间,其中,关键词表由新闻分组中每个结构化新闻中的关键词集合组成,取新闻分组中所有结构化新闻中最新的发布时间作为更新时间;
S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前结构化新闻放入对应的新闻分组中;其中,时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差;
S323、新闻分组中新增加结构化新闻后,则对应更新该新闻分组中的关键词表和更新时间。
优选的,在新闻事件生成模块中,所述事件条件包括以下三个条件:
条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量;
条件2、新闻聚类中的结构化新闻的数量在预设数量范围内;
条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差;
若同时满足条件1、条件2和条件3,则满足事件条件。
优选的,在摘要生成模块中,结构化新闻生成对应的新闻摘要包括以下子模块:
分句模块:用于对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
第一计算模块:用于分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
第二计算模块:用于根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分。
第一摘要选取模块:用于选取排序分最高的保留句子作为该结构化新闻的摘要。
优选的,在第二计算模块和第一摘要选取模块之间还包括以下模块:
第一判断模块:用于以排序分高低选取前N1个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行第二判断模块,若否,执行第一摘要选取模块;其中,N1>1;
第二判断模块:用于判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该结构化新闻的摘要,若否,则执行第二摘要选取模块;
第二摘要选取模块:用于选取排序分最高的待筛选摘要作为该结构化新闻的摘要。
优选的,在第一计算模块中,计算保留句子与标题的相似度Similarity(s)的步骤如下:
S421、基于哈工大同义词词林对保留句子和标题进行同义词转换;
S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。
相比现有技术,本发明的有益效果在于:
通过在建立针对主流新闻网站进行信息抓取的基础上,自动识别新闻事件,并抽取事件生命周期中各个重要发展阶段的新闻内容,按照时间轴的组织方式完整、清晰、简洁地重现一个新闻事件的发展过程,即事件脉络。使用户在最短的时间里轻松掌握每个热点新闻事件的来龙去脉,极大地提高了获取信息的效率。特别是对手机用户而言,在方寸屏幕之上通过浏览事件脉络,在碎片化的时间内全面知晓事情的来龙去脉,实现对热点事件的快速阅读和深入了解,为手机用户带来前所未有的方便、快捷的阅读体验。
附图说明
图1为本发明的互联网新闻的自动生成方法的流程图。
图2为本发明的事件脉络结构及其展开示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
参考图1,一种互联网新闻的自动生成方法,包括以下步骤:
S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
S2、分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
S3、对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
其中,在步骤S1中,采用分布式爬虫,可以把抓取任务拆分为多任务,分别部署在不同的服务器上进行抓取,提高信息的抓取效率。主要将国内主流新闻网站作为数据来源,包括新浪、网易、腾讯、凤凰网、人民网等互联网数据,可实现每5分钟抓取一次上述网站的最新新闻,基本涵盖了国内新闻领域的主要新闻内容。
在步骤S2中,提取了新闻网页源代码后,主要利用自然语言处理技术、语法语义分析技术从中提取新闻信息,提取新闻信息后封装成特定结构,形成结构化新闻,结构化新闻中至少包括标题、正文和发布时间,当然还可以包括作者等信息。
在步骤S3中,对获取到的结构化新闻进行识别包括下子步骤:
S31、分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合。在该步骤中,利用TextRank算法识别结构化新闻中的关键词,以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合,其中,N>0,TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。
S32、根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻。
其中,采用以下步骤对每个结构化新闻进行分组:
S321、为第一个结构化新闻创建新闻分组,新闻分组中包括结构化新闻、关键词表和更新时间,其中,关键词表由新闻分组中每个结构化新闻中的关键词集合组成,取新闻分组中所有结构化新闻中最新的发布时间作为更新时间。
S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前结构化新闻放入对应的新闻分组中,若比较相似度小于预设阈值,则为当前结构化新闻新建一个新闻分组;其中,时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差。时间条件的作用是避免将时间跨度过长的新闻放进一个新闻分组中,因为时间跨度过长的而且在后发布的新闻已经不算是新闻了。
S323、新闻分组中新增加结构化新闻后,则对应更新该新闻分组中的关键词表和更新时间。
例如,当前存在两个新闻分组,每个新闻分组中都有两个结构化新闻,则表示两个新闻分组之间是不相同的新闻,同一个新闻分组中的结构化新闻是相同的新闻。当前新增了一个结构化新闻,如果两个新闻分组的更新时间都符合时间条件,则该结构化新闻中的关键词集合分别与两个新闻分组中的关键词表进行相似度比较,相似度比较为现有算法,比较后该关键词集合与第一个新闻分组中的关键词表的相似度大于预设阈值,则认为该结构化新闻与第一个新闻分组中的结构化新闻为相同新闻。然后将该结构化新闻放入第一个新闻分组中,该结构化新闻的发布时间比第一个新闻分组中的结构化新闻的发布时间都晚,则将该结构化新闻的发布时间作为第一个新闻分组的更新时间。另外,该结构化新闻的关键词集合也合并进第一个新闻分组的关键词表中。
S33、根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类。
在该步骤中,聚类的技术可以是现有的,聚类后,每个聚类中一般都有多个新闻分组,而每个新闻分组中一般都有多个结构化新闻,实际上,同一新闻分组中的新闻都是相同新闻,因此,将每个新闻分组中发布时间最早的结构化新闻提取出来即可达到去重的效果,则形成的新闻聚类中就包括了多个互不相同的结构化新闻。
S34、分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类。
事件条件包括以下三个条件:条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量;条件2、新闻聚类中的结构化新闻的数量在预设数量范围内;条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差;若同时满足条件1、条件2和条件3,则满足事件条件。其中,条件1的作用是起到了新闻聚焦的作用,避免出现过于宽泛的新闻范围;条件2的作用是避免一个新闻事件中的新闻过少或过多,过少通常是不完整的,过多则太臃肿;条件3的作用是避免一个新闻事件中的新闻之间的时间过渡过大,应当限定在一定的时间范围内,保证新闻的时效性。通过上述条件的设定,得到的新闻事件既能很好地反映整个事件的发展过程和时效性,也更加适合用户阅读。
在步骤S4中,新闻事件中的新闻摘要为该新闻内容的浓缩,目的是在用户阅读了新闻标题后,进一步了解新闻相关的重要信息,以便决定是否进一步阅读新闻的详细内容。用户阅读新闻大多利用手机,由于手机屏幕小,为了使有限的文字传递给用户的信息最大化的同时,尽可能减少重复信息,因此,结构化新闻生成对应的新闻摘要包括以下步骤:
S41、对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子。通过该步骤可以限定句子的长度,从而限定了标题的长度。
S42、分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s)。其中,引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低,而句子的权重则表明该句子在该新闻中的价值,通常是句子包含的关键词越多,则其价值越大。
其中,计算保留句子与标题的相似度Similarity(s)的步骤如下:
S421、基于哈工大同义词词林对保留句子和标题进行同义词转换;
S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。即将保留句子和标题中的词组的交集除以词组的并集得到相似度Similarity(s)。
S43、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分。通过上述公式,排序分越高,则对应的句子越可能成为摘要。
S44、选取排序分最高的保留句子作为该结构化新闻的摘要。
进一步的,在步骤S43和S44之间还包括以下步骤:
S431、以排序分高低选取前N1个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行步骤S432,若否,执行步骤S44;其中,N1>1。
一般来说,预设的情感词包括具有强烈情感的副词、连词以及观点词。例如,连词包括不过、但是、于是、此外等等;副词包括相当、完美、几乎、绝对等等;观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。
S432、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该结构化新闻的摘要,若否,则执行步骤S433。
S433、选取排序分最高的待筛选摘要作为该结构化新闻的摘要。
在步骤S5中,将新闻事件中的多个结构化新闻以发布时间为条件进行排序,一般是以时间倒序的方式对多个结构化新闻进行排序,排序后就能很完整地显示一个事件的发展过程,而最新的新闻排在最先也能够让用户首先了解到事件的最新情况。排序后将每个结构化新闻所对应的摘要生成事件脉络结构,则一个事件脉络结构表现出来的就是精简的信息,便于阅读。当然,事件脉络结构中还可以包括每个结构化新闻所对应的时间和图片。图2示出了事件脉络结构的其中一种表现,以及展开该事件脉络结构的过程。
通过上述的步骤,本发明的方法的优点在于:通过在建立针对主流新闻网站进行信息抓取的基础上,自动识别新闻事件,并抽取事件生命周期中各个重要发展阶段的新闻内容,按照时间轴的组织方式完整、清晰、简洁地重现一个新闻事件的发展过程,即事件脉络。使用户在最短的时间里轻松掌握每个热点新闻事件的来龙去脉,极大地提高了获取信息的效率。特别是对手机用户而言,在方寸屏幕之上通过浏览事件脉络,在碎片化的时间内全面知晓事情的来龙去脉,实现对热点事件的快速阅读和深入了解,为手机用户带来前所未有的方便、快捷的阅读体验。
对应于上述的互联网新闻的自动生成方法,本发明还公开了一种互联网新闻的自动生成装置,包括以下模块:
抓取模块:用于利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
结构化模块:用于分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
新闻事件识别模块:用于对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
摘要生成模块:用于分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
排序模块:用于将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
优选的,所述结构化新闻至少包括标题、正文和发布时间。
优选的,在新闻事件识别模块中,对获取到的结构化新闻进行识别包括下子模块:
关键词识别模块:用于分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;
新闻分组生成模块:用于根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;
新闻聚类生成模块:用于根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;
新闻事件生成模块:用于分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类。
优选的,在关键词识别模块中,利用TextRank算法识别结构化新闻中的关键词,以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合,其中,N>0。
优选的,在新闻分组生成模块中,采用以下步骤对每个结构化新闻进行分组:
S321、为第一个结构化新闻创建新闻分组,新闻分组中包括结构化新闻、关键词表和更新时间,其中,关键词表由新闻分组中每个结构化新闻中的关键词集合组成,取新闻分组中所有结构化新闻中最新的发布时间作为更新时间;
S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前结构化新闻放入对应的新闻分组中;其中,时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差;
S323、新闻分组中新增加结构化新闻后,则对应更新该新闻分组中的关键词表和更新时间。
优选的,在新闻事件生成模块中,所述事件条件包括以下三个条件:
条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量;
条件2、新闻聚类中的结构化新闻的数量在预设数量范围内;
条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差;
若同时满足条件1、条件2和条件3,则满足事件条件。
优选的,在摘要生成模块中,结构化新闻生成对应的新闻摘要包括以下子模块:
分句模块:用于对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
第一计算模块:用于分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
第二计算模块:用于根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分。
第一摘要选取模块:用于选取排序分最高的保留句子作为该结构化新闻的摘要。
优选的,在第二计算模块和第一摘要选取模块之间还包括以下模块:
第一判断模块:用于以排序分高低选取前N1个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行第二判断模块,若否,执行第一摘要选取模块;其中,N1>1;
第二判断模块:用于判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该结构化新闻的摘要,若否,则执行第二摘要选取模块;
第二摘要选取模块:用于选取排序分最高的待筛选摘要作为该结构化新闻的摘要。
优选的,在第一计算模块中,计算保留句子与标题的相似度Similarity(s)的步骤如下:
S421、基于哈工大同义词词林对保留句子和标题进行同义词转换;
S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.互联网新闻的自动生成方法,其特征在于,包括以下步骤:
S1、利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
S2、分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
S3、对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
S4、分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
S5、将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
2.根据权利要求1所述的互联网新闻的自动生成方法,其特征在于,所述结构化新闻至少包括标题、正文和发布时间。
3.根据权利要求2所述的互联网新闻的自动生成方法,其特征在于,在步骤S3中,对获取到的结构化新闻进行识别包括下子步骤:
S31、分别对每个结构化新闻进行关键词识别,得到每个结构化新闻所对应的关键词集合;
S32、根据关键词集合的相似度对每个结构化新闻进行分组,得到多个新闻分组,属于同一新闻分组的结构化新闻为相同新闻;
S33、根据新闻分组的相似度对每个新闻分组进行聚类,并将每个聚类中的每个新闻分组中发布时间最早的结构化新闻提取出来,属于同一聚类中被提取出来的结构化新闻组成对应的新闻聚类;
S34、分别判断每个新闻聚类是否满足预设的事件条件,若是,则将该新闻聚类记为新闻事件,若否,则丢弃该新闻聚类。
4.根据权利要求3所述的互联网新闻的自动生成方法,其特征在于,在步骤S31中,利用TextRank算法识别结构化新闻中的关键词,以权重大小顺序取前N个关键词组成该结构化新闻的关键词集合,其中,N>0。
5.根据权利要求3所述的互联网新闻的自动生成方法,其特征在于,在步骤S32中,采用以下步骤对每个结构化新闻进行分组:
S321、为第一个结构化新闻创建新闻分组,新闻分组中包括结构化新闻、关键词表和更新时间,其中,关键词表由新闻分组中每个结构化新闻中的关键词集合组成,取新闻分组中所有结构化新闻中最新的发布时间作为更新时间;
S322、将新增的当前结构化新闻中的关键词集合与符合时间条件的新闻分组中的关键词表进行比较,若比较相似度大于预设阈值,则将当前结构化新闻放入对应的新闻分组中;其中,时间条件是指当前结构化新闻的发布时间与新闻分组中的更新时间的时间差小于第一预设时间差;
S323、新闻分组中新增加结构化新闻后,则对应更新该新闻分组中的关键词表和更新时间。
6.根据权利要求3所述的互联网新闻的自动生成方法,其特征在于,在步骤S34中,所述事件条件包括以下三个条件:
条件1、新闻聚类中的所有结构化新闻之间的相同关键词的数量不小于预设数量;
条件2、新闻聚类中的结构化新闻的数量在预设数量范围内;
条件3、新闻聚类中的结构化新闻的最早发布时间和最新发布时间之间的时间差小于第二预设时间差;
若同时满足条件1、条件2和条件3,则满足事件条件。
7.根据权利要求2所述的互联网新闻的自动生成方法,其特征在于,在步骤S4中,结构化新闻生成对应的新闻摘要包括以下步骤:
S41、对该结构化新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
S42、分别计算每个保留句子与标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
S43、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;
S44、选取排序分最高的保留句子作为该结构化新闻的摘要。
8.根据权利要求7所述的互联网新闻的自动生成方法,其特征在于,在步骤S43和S44之间还包括以下步骤:
S431、以排序分高低选取前N1个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行步骤S432,若否,执行步骤S44;其中,N1>1;
S432、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该结构化新闻的摘要,若否,则执行步骤S433;
S433、选取排序分最高的待筛选摘要作为该结构化新闻的摘要。
9.根据权利要求7所述的互联网新闻的自动生成方法,其特征在于,计算保留句子与标题的相似度Similarity(s)的步骤如下:
S421、基于哈工大同义词词林对保留句子和标题进行同义词转换;
S422、针对同义词转换后的保留句子和标题采用Jaccard距离计算保留句子和标题的相似度Similarity(s)。
10.互联网新闻的自动生成装置,其特征在于,包括以下模块:
抓取模块:用于利用分布式爬虫从特定的新闻网站抓取新闻页面的源代码;
结构化模块:用于分别从各个新闻页面的源代码中提取新闻信息,并分别将各个新闻信息封装成相同结构的结构化新闻;
新闻事件识别模块:用于对获取到的结构化新闻进行识别,得到相互独立的新闻事件,每个新闻事件中包括多个属于同一事件的结构化新闻,且同一新闻事件中的每个结构化新闻分别表示不同的事件阶段;
摘要生成模块:用于分别对新闻事件中的每个结构化新闻生成对应的新闻摘要;
排序模块:用于将新闻事件中的多个结构化新闻以发布时间为条件进行排序,排序后以各个结构化新闻所对应的新闻摘要生成事件脉络结构。
CN201610154211.XA 2016-03-16 2016-03-16 互联网新闻的自动生成方法和装置 Active CN105787095B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610154211.XA CN105787095B (zh) 2016-03-16 2016-03-16 互联网新闻的自动生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154211.XA CN105787095B (zh) 2016-03-16 2016-03-16 互联网新闻的自动生成方法和装置

Publications (2)

Publication Number Publication Date
CN105787095A true CN105787095A (zh) 2016-07-20
CN105787095B CN105787095B (zh) 2019-09-27

Family

ID=56393950

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154211.XA Active CN105787095B (zh) 2016-03-16 2016-03-16 互联网新闻的自动生成方法和装置

Country Status (1)

Country Link
CN (1) CN105787095B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
WO2018072577A1 (zh) * 2016-10-21 2018-04-26 腾讯科技(深圳)有限公司 一种文本生成方法及服务器
CN108021596A (zh) * 2016-11-04 2018-05-11 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN109947935A (zh) * 2018-08-17 2019-06-28 麒麟合盛网络技术股份有限公司 新闻事件的生成方法及装置
CN110020104A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110175293A (zh) * 2019-05-30 2019-08-27 北京小米智能科技有限公司 一种确定新闻脉络的方法、装置及电子设备
CN110309415A (zh) * 2018-03-16 2019-10-08 广东神马搜索科技有限公司 新闻信息生成方法、装置及电子设备可读存储介质
CN110633438A (zh) * 2018-05-31 2019-12-31 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN113553812A (zh) * 2021-06-22 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的新闻处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114324A1 (en) * 2003-09-14 2005-05-26 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114324A1 (en) * 2003-09-14 2005-05-26 Yaron Mayer System and method for improved searching on the internet or similar networks and especially improved MetaNews and/or improved automatically generated newspapers
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN103473263A (zh) * 2013-07-18 2013-12-25 大连理工大学 一种面向新闻事件演变过程的可视化展现方法
CN104915446A (zh) * 2015-06-29 2015-09-16 华南理工大学 基于新闻的事件演化关系自动提取方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MASAKI MORI 等: "Topic Detection and Tracking for News Web Pages", 《PROCEEDINGS OF THE 2006 IEEE/WIC/ACM INTERNATIONAL CONFERENCE ON WEB INTELLIGENCE》 *
周序生: "改进的最小最大聚类方法在新闻主题来源追踪中的应用", 《湖南工业大学学报》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018072577A1 (zh) * 2016-10-21 2018-04-26 腾讯科技(深圳)有限公司 一种文本生成方法及服务器
CN108021596A (zh) * 2016-11-04 2018-05-11 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN108021596B (zh) * 2016-11-04 2021-12-28 百度在线网络技术(北京)有限公司 新闻的展示方法和装置
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN107193792A (zh) * 2017-05-18 2017-09-22 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN107193792B (zh) * 2017-05-18 2020-10-02 北京百度网讯科技有限公司 基于人工智能的生成文章的方法和装置
CN110020104B (zh) * 2017-09-05 2023-04-07 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110020104A (zh) * 2017-09-05 2019-07-16 腾讯科技(北京)有限公司 新闻处理方法、装置、存储介质及计算机设备
CN110309415A (zh) * 2018-03-16 2019-10-08 广东神马搜索科技有限公司 新闻信息生成方法、装置及电子设备可读存储介质
CN108427761A (zh) * 2018-03-21 2018-08-21 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN108595388A (zh) * 2018-04-23 2018-09-28 乐山师范学院 一种面向网络新闻报道的大事记自动生成方法
CN108763198B (zh) * 2018-05-11 2021-06-22 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN108763198A (zh) * 2018-05-11 2018-11-06 北京理工大学 一种生成式的学术论文中相关工作的自动产生方法
CN110633438A (zh) * 2018-05-31 2019-12-31 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN110633438B (zh) * 2018-05-31 2023-04-07 腾讯科技(深圳)有限公司 一种新闻事件处理的方法、终端、服务器及存储介质
CN109947935A (zh) * 2018-08-17 2019-06-28 麒麟合盛网络技术股份有限公司 新闻事件的生成方法及装置
CN110895586A (zh) * 2018-08-22 2020-03-20 腾讯科技(深圳)有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN110895586B (zh) * 2018-08-22 2023-07-14 深圳市雅阅科技有限公司 生成新闻页面的方法、装置、计算机设备及存储介质
CN110175293A (zh) * 2019-05-30 2019-08-27 北京小米智能科技有限公司 一种确定新闻脉络的方法、装置及电子设备
CN110175293B (zh) * 2019-05-30 2021-01-29 北京小米智能科技有限公司 一种确定新闻脉络的方法、装置及电子设备
CN111310022A (zh) * 2019-12-06 2020-06-19 四川聚民科技有限公司 一种基于融媒体的便民服务系统
CN113553812A (zh) * 2021-06-22 2021-10-26 北京来也网络科技有限公司 结合rpa和ai的新闻处理方法及装置

Also Published As

Publication number Publication date
CN105787095B (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN105787095A (zh) 互联网新闻的自动生成方法和装置
CN100405371C (zh) 一种提取新词的方法和系统
CN105760546B (zh) 互联网新闻摘要的自动生成方法和装置
US8347231B2 (en) Methods, systems, and computer program products for displaying tag words for selection by users engaged in social tagging of content
CN103365924B (zh) 一种互联网信息搜索的方法、装置和终端
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN103226597B (zh) 基于自然语义的关键词广告匹配方法
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
CN101788988B (zh) 信息抓取方法
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
CN103617169A (zh) 一种基于Hadoop的微博热点话题提取方法
CN107463592B (zh) 用于将内容项目与图像匹配的方法、设备和数据处理系统
US20130305131A1 (en) Method, system and computer storage medium for pre-reading network data
CN102968510B (zh) 互联网人物信息的搜索方法及系统
US20140250116A1 (en) Identifying time sensitive ambiguous queries
CN104090923A (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN106933380B (zh) 一种词库的更新方法和装置
CN102682011A (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN103150409A (zh) 一种用户检索词推荐的方法及系统
CN110955855B (zh) 一种信息拦截的方法、装置及终端
CN102436458A (zh) 一种命令解析的方法及其系统
CN107766398A (zh) 用于使图像与内容项目匹配的方法、装置和数据处理系统
WO2014114143A1 (en) Method, apparatus and computer storage medium for acquiring hot content
CN105760436B (zh) 音频数据的处理方法及装置
CN106611022B (zh) 提高网站站内搜索效率的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant