CN105760546B - 互联网新闻摘要的自动生成方法和装置 - Google Patents
互联网新闻摘要的自动生成方法和装置 Download PDFInfo
- Publication number
- CN105760546B CN105760546B CN201610154212.4A CN201610154212A CN105760546B CN 105760546 B CN105760546 B CN 105760546B CN 201610154212 A CN201610154212 A CN 201610154212A CN 105760546 B CN105760546 B CN 105760546B
- Authority
- CN
- China
- Prior art keywords
- sentence
- abstract
- news
- similarity
- retaining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种互联网新闻摘要的自动生成方法和装置,方法包括:对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;选取排序分最高的保留句子作为该新闻的摘要。本发明实现自动识别一篇新闻中最能体现该新闻价值的句子,并将其作为该新闻的摘要。
Description
技术领域
本发明涉及计算机信息处理领域,具体涉及一种互联网新闻摘要的自动生成方法和装置。
背景技术
随着移动互联网技术的发展,如今,人们越来越多地通过手机等终端设备浏览新闻,由于受手机设备屏幕小的限制,受众阅读碎片化导致新闻文本叙事碎片化。以往,人们消费新闻的时间、场景相对比较固定,比如在晚饭时观看电视新闻,在早饭时浏览报纸新闻或听早间广播等,到了移动互联网时代,受众新闻消费呈现出高度的离散性,手机等便携移动终端的使用和公共休闲场所或是公共交通工具上无线网络的覆盖使得新闻受众能在任何时间、任何地点获取新闻。而这些获取新闻的时间通常是碎片化的,长则一个小时短则几分钟,如果一则消息不能在短短的几秒内抓住受众的注意力,那么移动网络的刷新功能会立刻用其它信息覆盖这条消息。
摘要是一篇新闻浓缩的精华,是最能体现出该新闻的核心内容部分,因此,如何根据一篇新闻自动地生成摘要是值得研究的。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种互联网新闻摘要的自动生成方法和装置,实现自动识别一篇新闻中最能体现该新闻价值的句子,并将其作为该新闻的摘要。
为解决上述问题,本发明所采用的技术方案如下:
方案一:
互联网新闻摘要的自动生成方法,包括以下步骤:
S1、对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
S2、分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
S3、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;
S4、选取排序分最高的保留句子作为该新闻的摘要。
优选的,在步骤S3和S4之间还包括以下步骤:
S31、以排序分高低选取前N个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行步骤S32,若否,执行步骤S4;其中,N>1;
S32、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行步骤S33;
S33、选取排序分最高的待筛选摘要作为该新闻的摘要。
优选的,预设的情感词包括带有情感的副词、连词以及观点词。
优选的,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距 离计算保留句子和新闻标题的相似度Similarity(s)。
方案二:
互联网新闻摘要的自动生成装置,其特征在于,包括以下模块:
分句模块:用于对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
第一计算模块:用于分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
第二计算模块:用于根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;
第一摘要选取模块:用于选取排序分最高的保留句子作为该新闻的摘要。
优选的,在第二计算模块和第一摘要选取模块之间还包括以下模块:
第一判断模块:用于以排序分高低选取前N个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行第二判断模块,若否,执行第一摘要选取模块;其中,N1>1;
第二判断模块:用于判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行第二摘要选取模块;
第二摘要选取模块:用于选取排序分最高的待筛选摘要作为该新闻的摘要。
优选的,预设的情感词包括带有情感的副词、连词以及观点词。
优选的,在第一计算模块中,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。
相比现有技术,本发明的有益效果在于:通过避免与标题相似、权重高和包含情感词三个条件,实现自动识别一篇新闻中最能体现该新闻价值的句子,并将其作为该新闻的摘要。
附图说明
图1为本发明的互联网新闻摘要的自动生成方法的流程图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述:
参考图1,一种互联网新闻摘要的自动生成方法,新闻摘要为该新闻内容的浓缩,目的是在用户阅读了新闻标题后,进一步了解新闻相关的重要信息,以便决定是否进一步阅读新闻的详细内容。用户阅读互联网新闻大多利用手机,由于手机屏幕小,为了使有限的文字传递给用户的信息最大化的同时,尽可能减少重复信息,因此,新闻摘要的自动生成方法包括以下步骤:
S1、对新闻的正文进行分句,并保留句子长度在预设长度范围内 的句子,记为保留句子。通过该步骤可以限定句子的长度,从而限定了标题的长度。
S2、分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s)。其中,引入保留句子与标题的相似度是为了使最后选取的摘要与标题的相似度低,而句子的权重则表明该句子在该新闻中的价值,通常是句子包含的关键词越多,则其价值越大,利用TextRank算法识别新闻中的关键词。TextRank算法是在Google核心算法PageRank算法的基础上衍生出来的。
其中,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。即将保留句子和新闻标题中的词组的交集除以词组的并集得到相似度Similarity(s)。
S3、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分。通过上述公式,排序分越高,则对应的句子越可能成为摘要。
S4、选取排序分最高的保留句子作为该新闻的摘要。
进一步的,在步骤S3和S4之间还包括以下步骤:
S31、以排序分高低选取前N个保留句子记为待筛选摘要,并分 别判断待筛选摘要中是否包含预设的情感词,若是,执行步骤S32,若否,执行步骤S4;其中,N>1;
S32、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行步骤S33;
S33、选取排序分最高的待筛选摘要作为该新闻的摘要。
其中,一般来说,预设的情感词包括具有强烈情感的副词、连词以及观点词。例如,连词包括不过、但是、于是、此外等等;副词包括相当、完美、几乎、绝对等等;观点词包括察觉、发现、认为、主张、猜想、表示、以为等等。
本发明的方法优点在于:通过避免与标题相似、权重高和包含情感词三个条件,实现自动识别一篇新闻中最能体现该新闻价值的句子,并将其作为该新闻的摘要。
对应于上述的互联网新闻摘要的自动生成方法,本发明还公开了一种互联网新闻摘要的自动生成装置,其特征在于,包括以下模块:
分句模块:用于对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
第一计算模块:用于分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
第二计算模块:用于根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;
第一摘要选取模块:用于选取排序分最高的保留句子作为该新闻 的摘要。
优选的,在第二计算模块和第一摘要选取模块之间还包括以下模块:
第一判断模块:用于以排序分高低选取前N个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行第二判断模块,若否,执行第一摘要选取模块;其中,N1>1;
第二判断模块:用于判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行第二摘要选取模块;
第二摘要选取模块:用于选取排序分最高的待筛选摘要作为该新闻的摘要。
优选的,预设的情感词包括带有情感的副词、连词以及观点词。
优选的,在第一计算模块中,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (4)
1.互联网新闻摘要的自动生成方法,其特征在于,包括以下步骤:
S1、对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
S2、分别计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
S3、根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,以排序分高低选取前N个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,其中,Rank(s)为保留句子的排序分;
S31、若待筛选摘要中包含预设的情感词,执行步骤S32,若待筛选摘要中不包含预设的情感词,选取排序分最高的保留句子作为该新闻的摘要;其中,N>1;
S32、判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行步骤S33;
S33、选取排序分最高的保留句子作为该新闻的摘要;
预设的情感词包括带有情感的副词、连词以及观点词。
2.根据权利要求1所述的互联网新闻摘要的自动生成方法,其特征在于,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。
3.互联网新闻摘要的自动生成装置,其特征在于,包括以下模块:
分句模块:用于对新闻的正文进行分句,并保留句子长度在预设长度范围内的句子,记为保留句子;
第一计算模块:用于计算每个保留句子与新闻标题的相似度Similarity(s),以及每个保留句子的权重Weight(s);
第二计算模块:用于根据公式Rank(s)=Weight(s)/Similarity(s)计算每个保留句子的排序分,其中,Rank(s)为保留句子的排序分;
第一判断模块:用于以排序分高低选取前N个保留句子记为待筛选摘要,并分别判断待筛选摘要中是否包含预设的情感词,若是,执行第二判断模块,若否,选取排序分最高的保留句子作为该新闻的摘要;其中,N1>1;
第二判断模块:用于判断是否只有一个包含预设的情感词的待筛选摘要,若是,则将该待筛选摘要作为该新闻的摘要,若否,则执行第二摘要选取模块;
第二摘要选取模块:用于选取排序分最高的保留句子作为该新闻的摘要;
预设的情感词包括带有情感的副词、连词以及观点词。
4.根据权利要求3所述的互联网新闻摘要的自动生成装置,其特征在于,在第一计算模块中,计算保留句子与新闻标题的相似度Similarity(s)的步骤如下:
S21、基于哈工大同义词词林对保留句子和新闻标题进行同义词转换;
S22、针对同义词转换后的保留句子和新闻标题采用Jaccard距离计算保留句子和新闻标题的相似度Similarity(s)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610154212.4A CN105760546B (zh) | 2016-03-16 | 2016-03-16 | 互联网新闻摘要的自动生成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610154212.4A CN105760546B (zh) | 2016-03-16 | 2016-03-16 | 互联网新闻摘要的自动生成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105760546A CN105760546A (zh) | 2016-07-13 |
CN105760546B true CN105760546B (zh) | 2019-07-30 |
Family
ID=56333385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610154212.4A Active CN105760546B (zh) | 2016-03-16 | 2016-03-16 | 互联网新闻摘要的自动生成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105760546B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407182A (zh) * | 2016-09-19 | 2017-02-15 | 国网福建省电力有限公司 | 一种用于企业电子公文文档自动摘要的方法 |
CN106844341B (zh) * | 2017-01-10 | 2020-04-07 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN108304445B (zh) * | 2017-12-07 | 2021-08-03 | 新华网股份有限公司 | 一种文本摘要生成方法和装置 |
CN108363743B (zh) * | 2018-01-24 | 2020-06-02 | 清华大学深圳研究生院 | 一种智能问题生成方法、装置和计算机可读存储介质 |
CN108427761B (zh) * | 2018-03-21 | 2022-01-14 | 腾讯科技(深圳)有限公司 | 一种新闻事件处理的方法、终端、服务器及存储介质 |
CN108470026A (zh) * | 2018-03-23 | 2018-08-31 | 北京奇虎科技有限公司 | 新闻标题的句子主干内容提取方法及装置 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
CN108363700A (zh) * | 2018-03-23 | 2018-08-03 | 北京奇虎科技有限公司 | 新闻标题的质量评估方法及装置 |
CN110162618B (zh) * | 2019-02-22 | 2021-09-17 | 北京捷风数据技术有限公司 | 一种非对照语料的文本概要生成方法及装置 |
CN110263153B (zh) * | 2019-05-15 | 2021-04-30 | 北京邮电大学 | 面向多源信息的混合文本话题发现方法 |
CN110717332B (zh) * | 2019-07-26 | 2020-09-08 | 昆明理工大学 | 基于非对称孪生网络的新闻与案件相似度计算方法 |
CN113468318A (zh) * | 2020-03-31 | 2021-10-01 | 中国电信股份有限公司 | 摘要自动生成方法、装置和计算机可读存储介质 |
CN112579646A (zh) * | 2020-12-15 | 2021-03-30 | 中国建设银行股份有限公司 | 筛选清单的方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311167A (ja) * | 1999-04-28 | 2000-11-07 | Sharp Corp | 文書処理装置及び方法並びにこれに利用される記憶媒体 |
CN1955952A (zh) * | 2005-10-25 | 2007-05-02 | 国际商业机器公司 | 用于自动提取副标题信息的系统和方法 |
CN102411638A (zh) * | 2011-12-30 | 2012-04-11 | 中国科学院自动化研究所 | 一种新闻检索结果的多媒体摘要生成方法 |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
-
2016
- 2016-03-16 CN CN201610154212.4A patent/CN105760546B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000311167A (ja) * | 1999-04-28 | 2000-11-07 | Sharp Corp | 文書処理装置及び方法並びにこれに利用される記憶媒体 |
CN1955952A (zh) * | 2005-10-25 | 2007-05-02 | 国际商业机器公司 | 用于自动提取副标题信息的系统和方法 |
CN102411638A (zh) * | 2011-12-30 | 2012-04-11 | 中国科学院自动化研究所 | 一种新闻检索结果的多媒体摘要生成方法 |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN105005563A (zh) * | 2014-04-15 | 2015-10-28 | 腾讯科技(深圳)有限公司 | 一种摘要生成方法及装置 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN104503958A (zh) * | 2014-11-19 | 2015-04-08 | 百度在线网络技术(北京)有限公司 | 文档摘要的生成方法及装置 |
CN104915446A (zh) * | 2015-06-29 | 2015-09-16 | 华南理工大学 | 基于新闻的事件演化关系自动提取方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105760546A (zh) | 2016-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105760546B (zh) | 互联网新闻摘要的自动生成方法和装置 | |
CN104216875B (zh) | 基于非监督关键二元词串提取的微博文本自动摘要方法 | |
CN101777068B (zh) | 一种用于移动通讯设备终端的网页页面预读及整合浏览系统及其应用方法 | |
CN105787095A (zh) | 互联网新闻的自动生成方法和装置 | |
CN103294778B (zh) | 一种推送资讯信息的方法及系统 | |
CN108984650B (zh) | 计算机可读记录介质及计算机设备 | |
WO2017036047A1 (zh) | 信息提取方法和信息提取装置 | |
US20170249934A1 (en) | Electronic device and method for operating the same | |
CN104142964A (zh) | 信息匹配的方法及装置 | |
US20150154295A1 (en) | Searching method, system and storage medium | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN101739437A (zh) | 一种网络搜音机的实现方法及其专用设备 | |
CN102110169A (zh) | 移动终端网络搜索方法及移动终端 | |
CN107862004A (zh) | 智能排序方法及装置、存储介质、电子设备 | |
CN103631506A (zh) | 基于终端的阅读方法及相应的终端 | |
CN101788988A (zh) | 信息抓取方法 | |
CN106708885A (zh) | 一种实现搜索的方法和装置 | |
CN104010223B (zh) | 接管终端系统进行视频播放的方法和系统 | |
CN104281619A (zh) | 搜索结果排序系统及方法 | |
CN104915458B (zh) | 一种在用户搜索应用时自动联想的方法、系统及移动终端 | |
JP2013134738A (ja) | 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 | |
CN103942226B (zh) | 获取热点内容的方法和装置 | |
CN101777067B (zh) | 一种用于移动通讯设备终端的网页内容识别管理系统 | |
CN105956023A (zh) | 一种生僻字库网络化应用的方法及系统 | |
CN106970969A (zh) | 一种智能问答机器人系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |