CN109033074B - 新闻摘要生成方法、装置、设备及计算机可读介质 - Google Patents

新闻摘要生成方法、装置、设备及计算机可读介质 Download PDF

Info

Publication number
CN109033074B
CN109033074B CN201810694244.2A CN201810694244A CN109033074B CN 109033074 B CN109033074 B CN 109033074B CN 201810694244 A CN201810694244 A CN 201810694244A CN 109033074 B CN109033074 B CN 109033074B
Authority
CN
China
Prior art keywords
sentence
header
event
reason
meaning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810694244.2A
Other languages
English (en)
Other versions
CN109033074A (zh
Inventor
徐伟
刘家辰
肖欣延
吕雅娟
佘俏俏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810694244.2A priority Critical patent/CN109033074B/zh
Publication of CN109033074A publication Critical patent/CN109033074A/zh
Application granted granted Critical
Publication of CN109033074B publication Critical patent/CN109033074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种新闻摘要生成方法、装置、设备及计算机可读介质,其中,新闻摘要生成方法包括:获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;基于所述事件要素片段生成所述事件类新闻的摘要。本发明的技术方法基于事件新闻要素生成摘要,工作量可控,且能提高摘要的逻辑性。

Description

新闻摘要生成方法、装置、设备及计算机可读介质
技术领域
本发明涉及信息处理技术,尤其涉及一种新闻摘要生成方法、装置、设备及计算机可读介质。
背景技术
新闻摘要抽取是指对一篇或多篇新闻文章,抽取出简短、流畅、覆盖核心内容的文本。新闻摘要的通用技术包括基于句子的抽取法和以字符或者词为基础粒度的文本生成法。抽取法对于事件类新闻,其抽取的句子可能在逻辑上不连贯(即句子A与句子B可能是事件中不相邻的两个阶段的一部分,但在摘要中却连在了一起,导致逻辑出现问题),这对事件类新闻的摘要质量来说往往是致命的。然而受限于现有的机器学习技术,我们还较难对逻辑的连贯性做建模,因此短期内还不能找到一种通用的、解决逻辑可能不连贯的方法。文本生成法利用模型学习原文的语义等特征,之后按照自然语言生成方法逐字(或词)生成摘要结果,由于结果易出现逻辑混乱、连贯性差等问题,尚不能满足实际应用的需要。
发明内容
本发明实施例提供一种新闻摘要生成方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种新闻摘要生成方法,包括:
获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
基于所述事件要素片段生成所述事件类新闻的摘要。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述获取所述事件类新闻中的事件要素片段的步骤包括:
确定所述事件类新闻的有效正文;
从所述有效正文中抽取所述事件要素片段。
结合第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤,包括:
从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者
根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数,将具有最高报头句匹配分数的句子作为报头句。
结合第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
结合第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
将所述报头句作为所述摘要的首句;
当所述原因句中具有原因的触发词以及所述报头句没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面。
结合第一方面的第三种或第四种实现方式,本发明实施例在第一方面的第五种实现方式中,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第六种实现方式中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
将所述报头句作为所述摘要的首句;
当所述意义句中具有意义的触发词以及所述报头句没有超过摘要字数限制时,将所述意义句添加至所述报头句的后面。
结合第一方面的第五种实现方式,本发明实施例在第一方面的第七种实现方式中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
将所述报头句作为所述摘要的首句;
当原因句中具有原因的触发词以及所述报头句没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面;
当所述意义句中具有意义的触发词、所述报头句以及所述原因句没有超过摘要字数限制时,将所述意义句添加至所述原因句的后面。
第二方面,本发明实施例提供一种新闻摘要生成装置,包括:
事件要素片段获取模块,用于获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
摘要生成模块,用于基于所述事件要素片段生成所述事件类新闻的摘要。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述事件要素片段获取模块包括:
有效正文确定单元,用于确定所述事件类新闻的有效正文;
事件要素片段抽取单元,用于从所述有效正文中抽取所述事件要素片段。
结合第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述事件要素片段抽取单元包括:
报头句确定子单元,用于从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数,将具有最高报头句匹配分数的句子作为报头句。
结合第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述事件要素片段抽取单元还包括:
原因句确定子单元,用于根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
结合第二方面的第二种或第三种实现方式,本发明实施例在第二方面的第四种实现方式中,所述事件要素片段抽取单元还包括:
意义句确定子单元,用于根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,新闻摘要生成装置的结构中包括处理器和存储器,所述存储器用于存储支持新闻摘要生成装置执行上述第一方面中新闻摘要生成方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述新闻摘要生成装置还可以包括通信接口,用于新闻摘要生成装置与其他设备或通信网络通信。
第三方面,本发明实施例提供了一种计算机可读存储介质,用于存储新闻摘要生成装置所用的计算机软件指令,其包括用于执行上述第一方面中新闻摘要生成方法为新闻摘要生成装置所涉及的程序。
本发明实施例基于事件类新闻的要素生成摘要,工作量可控,且能提高摘要的逻辑性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的新闻摘要生成方法的流程图。
图2为本发明实施例的新闻摘要生成方法的第一种实施方式的流程图。
图3为本发明实施例的新闻摘要生成方法的第二种实施方式的流程图。
图4为本发明实施例的新闻摘要生成方法的句子选择流程图。
图5为本发明实施例的新闻摘要生成方法的第三种实施方式的流程图。
图6为本发明实施例的新闻摘要生成方法的第四种实施方式的流程图。
图7为本发明实施例的新闻摘要生成装置的结构图。
图8为本发明实施例的新闻摘要生成装置的第一种实施方式的结构图。
图9为本发明实施例的新闻摘要生成装置的第二种实施方式的结构图。
图10为本发明实施例的新闻摘要生成装置的第三种实施方式的结构图。
图11为本发明实施例的新闻摘要生成装置的第四种实施方式的结构图。
图12为本发明实施例的新闻摘要生成设备的组成结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例旨在提供一种事件类新闻的摘要的生成方法和装置,根据句子对要素的覆盖进行句子抽取,以生成摘要。
在一个实施例中,本发明提供一种新闻摘要生成方法,如图1所示,包括:
步骤S110,获取所述事件类新闻中的事件要素片段。
其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项。事件要素片段可以包括一个句子或多个句子,也可以包括一个句子中的部分内容,例如,一个句子中以逗号划分的文字。
事件类新闻可以包括“新闻六要素”,即时间、地点、人物、事件、原因和过程。从新闻摘要的需求角度,“过程”可以不应该出现在摘要中,因为“过程”会包含大量较长的句子,抽取“过程”往往是导致摘要结果逻辑不连贯的原因。此外,事件类新闻往往包含一个“影响”、“原因”或“意义”的描述,其往往较短,抽取风险也不会太高,因此,可以出现在摘要结果中。综上,我们结合了事件类新闻的特点,以及摘要的需求,主要提取的事件类新闻的要素包括时间要素、地点要素、人物要素和事件内容要素中的一项或多项,其中,事件内容要素包括事件概述要素、原因要素、意义要素(影响要素)中的一项或多项。基于这些要素可以为事件类新闻做一个很好的摘要。
步骤S120,基于事件要素片段生成事件类新闻的摘要。
在第一种实施方式中,如图2所示,步骤S110包括:
步骤S111,确定所述事件类新闻的有效正文。
在步骤S111中,可以先对事件类新闻进行预处理,主要是完成分词、词性标注、命名实体识别和无效句子的识别等一项或多项操作。
其中,分词包括把句子切分为词语,词性标注包括把词标注词性,命名实体识别是识别出实体(例如识别出人名、地名、机构名等),这些基础分析是后续句子选择的基础。无效句子包括与新闻内容本身无关的句子,常见的如版权声明、网址推广、作者信息等。识别无效句子可以明确事件类新闻的有效正文的开头和结尾,即删除无效句子,以保留事件类新闻的有效正文。
步骤S112,从所述有效正文中抽取所述事件要素片段。
在确定了有效正文后,可以基于事件类新闻的要素抽取事件要素片段,如通过报头句、原因句或意义(影响)句的抽取以获得事件要素片段。下面分别进行介绍。
在第二种实施方式中,可以基于报头句和原因句的抽取以获得事件要素片段,进而生成摘要,如图3所示,本实施例的新闻摘要生成方法包括:
步骤S111,确定所述事件类新闻的有效正文。
步骤S211,从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数;将具有最高报头句匹配分数的句子作为报头句。
其中,报头句通常会存在于事件类新闻中。根据先验知识,报头句包含时间要素、地点要素、人物要素、事件概述要素的概率较高,因此将确定的报头句作为事件要素片段放入到摘要候选集合中。
确定报头句的方式可以包括两种。一种是有效正文中存在具有报头模式的句子,如包含类似“XX报”、“XX电”、“XX讯”模式的句子,可以从有效正文的第一段中进行抽取。另一种是有效正文中不存在具有明显的报头模式,这是可以定义报头句特征,基于句子与报头句特征的匹配性抽取报头句。
如定义报头句特征包括:
a.是否包含绝对日期(xx月xx日);
b.是否包含相对日期(“近日”、“昨晚”、“今晨”等);
c.是否包含地点(根据命名实体识别的结果);
d.人名与时间在句子中的最短距离(如果无人名或无时间,置为“0”;否则置为:“时间串的起始位置-人名串起始位置-人名串长度+1”;如果是多个值取绝对值最小的值);
e.人名与地点的在句子中的最短距离(如果无人名或无地点,置为“0”;否则置为:“地点串的起始位置-人名串起始位置-人名串长度+1”;如果是多个值取绝对值最小的值);
f.时间与地名在句子中的最短距离(如果无人名或无地名,置为“0”;否则置为:“地名串的起始位置-人名串起始位置-人名串长度+1”;如果是多个值取绝对值最小的值);
g.是否包含事件相关的词(如“发生”、“在”、“宣布”等);
h.句子是否是段落内的第一句;
i.句子是否是在第一段;
j.该句是否包含前一句的时间、地点、人物(根据前面的时间、地点、人名识别结果);
k.是否包含言论(引号)。
然后,根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数,该过程可以用逻辑回归的算法进行。如基于句子A的每个报头句特征进行打分,然后将每个报头句特征下的分数累加以获得句子A的报头句匹配分数。在得到每个句子的报头句匹配分数后,选择报头句匹配分数最高的句子作为报头句。
其中,报头句特征a~i是正向特征,即在计算分数时为正数。报头句特征j和报头句特征k是负向特征,即在计算分数时为负数。另外,每个报头句特征的权重可以不同,即在累积每项特征下的分值时要考虑权重系数。
为了能够快速找到报头句,可以在有效正文的前两段和后两段中,基于句子与报头句特征的匹配性抽取报头句。
当有足够的训练数据时,可以应用深度神经网络构建报头句抽取模型,来获得报头句,进而提升抽取效果。
可以看出第一种情况抽取报头句的效率更高,因此,判断是否有具有报头模式的句子(S401)在确定报头句时,可以先抽取具有报头模式的句子(S402)。再继续确定原因句(S403)和意义句(S404)。如果没有匹配的,再基于句子与报头句特征的匹配性抽取报头句(S405),如图4所示。
继续参阅图3,在步骤S211之后,还包括:
步骤S212,根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
首先,定义原因句特征包括:
l.是否包含“原因”的触发词(例如“因为”,“导致”,“之所以”);
m.是否包含“原因”相关词(例如“可能”,“猜测”,“曾经”);
n.与报头句的共现的实体的数量;
o.与报头句共现的非停用词的数量(停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等没有实际含义的功能词);
p.是否包含时间;
q.是否包含人名出现在句子开头。
然后,根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,可以用逻辑回归的算法进行。如对于句子B,基于每个原因句特征进行打分,然后将每个原因句特征下的分数累加以获得句子B的原因句匹配分数。在得到每个句子的原因句匹配分数后,选择原因句匹配分数最高的句子作为原因句。
其中,原因句特征l~o是正向特征,即在计算分数时为正数。原因句特征p和原因句特征q是负向特征,即在计算分数时为负数。另外,每个原因句特征的权重可以不同,即在累积每项特征下的分值时要考虑权重系数。
可以将确定的原因句作为事件要素片段加入摘要候选集合。为了能够快速找到原因句,可以在有效正文的前两段和后两段中,基于句子与原因句特征的匹配性确定原因句。
当有足够的训练数据时,我们可以应用深度神经网络构建原因句抽取模型,来获得原因句,进而提升抽取效果。
经过以上方法,摘要候选集合中的事件要素片段包括报头句和原因句。可以对报头句和原因句进行句子后处理,主要包括不规范符号、非关键信息的去除,这些元素会降低摘要质量,同时占据摘要字数。不规范符号主要是一些网页元素、新闻元素符号,如↓、▲、▇等;非关键信息,例如括号内的内容,包括括号。
继续参阅图3,本实施方式中,步骤S120可以包括:
步骤S221,将所述报头句作为所述摘要的首句;
步骤S222,当所述原因句中具有原因的触发词以及所述报头句没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面。
也就是说,可以基于报头句和原因句生成摘要,在生成摘要时,我们可以触发词检查,以保证摘要质量,具体的包括:
首先,将报头句作为摘要结果的开头;
其次,查看原因句是否有“原因”的触发词,如果没有,则跳过;查看加入该句后摘要长度是否超过长度限制,如果超过则跳过;否则把原因句加入到摘要结果中;
最后,得到摘要结果。
在第三种实施方式中,可以基于报头句和意义句的抽取以获得事件要素片段,进而生成摘要,如图5所示,本实施例的新闻摘要生成方法包括:
步骤S111,确定所述事件类新闻的有效正文。
步骤S211,从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数;将具有最高报头句匹配分数的句子作为报头句。
步骤S312,根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
首先,定义意义句特征包括:
r.是否包含“意义”的触发词(例如“通过”,“随着”等);
s.是否包含“意义”相关词(例如“加强”,“共赢”,“更加”等);
t.与报头句的共现的实体的数量;
u.与报头句共现的非停用词的数量(停用词主要包括英文字符、数字、数学字符、标点符号及使用频率特高的单汉字等没有实际含义的功能词);
v.是否包含时间;
w.是否包含人名出现在句子开头。
然后,根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,可以用逻辑回归的算法进行。如对于句子C,基于每个意义句特征进行打分,然后将每个意义句特征下的分数累加以获得句子C的意义句匹配分数。在得到每个句子的意义句匹配分数后,选择意义句匹配分数最高的句子作为意义句。
其中,意义句特征r~u是正向特征,即在计算分数时为正数。意义句特征v和意义句特征w是负向特征,即在计算分数时为负数。另外,每个意义句特征的权重可以不同,即在累积每项特征下的分值时要考虑权重系数。
可以将确定的意义句作为事件要素片段加入摘要候选集合,为了能够快速找到意义句,可以在有效正文的前两段和后两段中,基于句子与意义句特征的匹配性确定意义句。
当有足够的训练数据时,我们可以应用深度神经网络构建意义句抽取模型,来获得意义句,进而提升抽取效果。
经过以上方法,摘要候选集合中的事件要素片段包括报头句和意义句,可以对报头句和意义句进行句子后处理,后处理的方法参见第二种实施方式。
继续参阅图5,本实施方式中,步骤S120可以包括:
步骤S221,将所述报头句作为所述摘要的首句;
步骤S222,当所述意义句中具有意义的触发词以及所述报头句没有超过摘要字数限制时,将所述意义句添加至所述报头句的后面。
也就是说,可以基于报头句和意义句生成摘要,在生成摘要时,我们可以触发词检查,以保证摘要质量,具体的包括:
首先,将报头句作为摘要结果的开头;
其次,查看意义句是否有“意义”的触发词,如果没有,则跳过;查看加入该句后摘要长度是否超过长度限制,如果超过则跳过;否则把意义句加入到摘要结果中;
最后,得到摘要结果。
在第四种实施方式中,可以基于报头句、原因句和意义句的抽取以获得事件要素片段,进而生成摘要,如图6所示,本实施例的新闻摘要生成方法包括:
步骤S111,确定所述事件类新闻的有效正文。
步骤S211,从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数;将具有最高报头句匹配分数的句子作为报头句。
步骤S212,根据句子与各原因句特征的匹配性,获得有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
步骤S312,根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
步骤S321,将所述报头句作为所述摘要的首句;
步骤S322,当原因句中具有原因的触发词以及所述报头句没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面;
步骤S323,当所述意义句中具有意义的触发词、所述报头句以及所述原因句没有超过摘要字数限制时,将所述意义句添加至所述原因句的后面。
也就是说,可以基于报头句、原因句和意义句生成摘要,在生成摘要时,我们可以触发词检查,以保证摘要质量,具体的包括:
首先,将报头句作为摘要结果的开头;
其次,查看原因句是否有“原因”的触发词,如果没有,则跳过;查看加入该句后摘要长度是否超过长度限制,如果超过则跳过;否则把原因句加入到摘要结果中;
接着,查看意义句是否有“意义”的触发词,如果没有,则跳过;查看加入后摘要长度是否超过限制,如果超过则跳过;否则把意义句加入到摘要结果中;
最后,得到摘要结果。
其中,步骤S212和步骤S312的顺序可调换。
在另一个实施例中,本发明提供一种新闻摘要生成装置,如图7所示,包括:
事件要素片段获取模块110,用于获取所述事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
摘要生成模块120,用于基于所述事件要素片段生成所述事件类新闻的摘要。
如图8所示,在第一种实施方式中,事件要素片段获取模块110包括:
有效正文确定单元111,用于确定所述事件类新闻的有效正文;
事件要素片段抽取单元112,用于从所述有效正文中抽取所述事件要素片段。
如图9所示,在第二种实施方式中,事件要素片段抽取单元112包括:
报头句确定子单元211,用于从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句;或者根据句子与各报头句特征的匹配性,获得所述有效正文的每个句子的报头句匹配分数,将具有最高报头句匹配分数的句子作为报头句;
以及原因句确定子单元212,用于根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
如图10所示,在第三种实施方式中,事件要素片段抽取单元112包括:
报头句确定子单元211以及意义句确定子单元312,用于根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
如图11所示,在第四种实施方式中,事件要素片段抽取单元112包括报头句报头句确定子单元211、原因句确定单元212以及意义句确定子单元312。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
本实施例还提供一种新闻摘要生成设备,如图12所示,该设备包括:存储器510和处理器520,存储器510内存储有可在处理器520上运行的计算机程序。处理器520执行所述计算机程序时实现上述实施例中的新闻摘要生成方法。所述存储器510和处理器520的数量可以为一个或多个。
该设备还包括:
通信接口530,用于与外界设备进行通信,进行数据交互传输。
存储器510可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器510、处理器520和通信接口530独立实现,则存储器510、处理器520和通信接口530可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器510、处理器520及通信接口530集成在一块芯片上,则存储器510、处理器520及通信接口530可以通过内部接口完成相互间的通信。
综上所述,本实施例的新闻摘要生成方法和装置基于事件类新闻的要素生成摘要,工作量可控,且能提高摘要的逻辑性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种新闻摘要生成方法,其特征在于,包括:
获取事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
基于所述事件要素片段生成所述事件类新闻的摘要,所述摘要包括报头句、原因句以及意义句;
其中,所述获取事件类新闻中的事件要素片段的步骤包括:
确定所述事件类新闻的有效正文;
从所述有效正文中抽取所述事件要素片段;
其中,所述从所述有效正文中抽取所述事件要素片段的步骤,包括:
根据句子与各报头句特征的匹配性,获取所述句子对应于所述各报头句特征的分数;
将所述对应于所述各报头句特征的分数进行累加,以确定所述有效正文的每个句子的报头句匹配分数;
将具有最高报头句匹配分数的句子作为报头句;
其中,在所述报头句特征为正向特征的情况下,所述报头句匹配分数为正数;在所述报头句特征为负向特征的情况下,所述报头句匹配分数为负数;
其中,所述基于所述事件要素片段生成所述事件类新闻的摘要的步骤包括:
将所述报头句作为所述摘要的首句;
当原因句中具有原因的触发词,以及所述原因句和所述报头句的字数总和没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面;
当意义句中具有意义的触发词,以及所述报头句、所述原因句和所述意义句的字数总和没有超过摘要字数限制时,将所述意义句添加至所述原因句的后面。
2.根据权利要求1所述的方法,其特征在于,所述从所述有效正文中抽取所述事件要素片段的步骤,包括:
从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句。
3.根据权利要求2所述的方法,其特征在于,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
4.根据权利要求2或3所述的方法,其特征在于,所述从所述有效正文中抽取所述事件要素片段的步骤还包括:
根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
5.一种新闻摘要生成装置,其特征在于,包括:
事件要素片段获取模块,用于获取事件类新闻中的事件要素片段,其中,所述事件要素片段包括所述事件类新闻的时间要素、地点要素、人物要素和事件内容要素中的至少一项;
摘要生成模块,用于基于所述事件要素片段生成所述事件类新闻的摘要,所述摘要包括报头句、原因句以及意义句;
其中,所述事件要素片段获取模块包括:
有效正文确定单元,用于确定所述事件类新闻的有效正文;
事件要素片段抽取单元,用于从所述有效正文中抽取所述事件要素片段;
其中,所述事件要素片段抽取单元进一步用于:
根据句子与各报头句特征的匹配性,获取所述句子对应于所述各报头句特征的分数;
将所述对应于所述各报头句特征的分数进行累加,以确定所述有效正文的每个句子的报头句匹配分数;
将具有最高报头句匹配分数的句子作为报头句;
其中,在所述报头句特征为正向特征的情况下,所述报头句匹配分数为正数;在所述报头句特征为负向特征的情况下,所述报头句匹配分数为负数;
其中,所述摘要生成模块进一步用于:
将所述报头句作为所述摘要的首句;
当原因句中具有原因的触发词,以及所述原因句和所述报头句的字数总和没有超过摘要字数限制时,将所述原因句添加至所述报头句的后面;
当意义句中具有意义的触发词,以及所述报头句、所述原因句和所述意义句的字数总和没有超过摘要字数限制时,将所述意义句添加至所述原因句的后面。
6.根据权利要求5所述的装置,其特征在于,所述事件要素片段抽取单元包括:
报头句确定子单元,用于从所述有效正文的指定段落中抽取具有报头模式的句子作为报头句。
7.根据权利要求6所述的装置,其特征在于,所述事件要素片段抽取单元还包括:
原因句确定子单元,用于根据句子与各原因句特征的匹配性,获得所述有效正文的每个句子的原因句匹配分数,将具有最高原因句匹配分数的句子作为原因句。
8.根据权利要求6或7所述的装置,其特征在于,所述事件要素片段抽取单元还包括:
意义句确定子单元,用于根据句子与各意义句特征的匹配性,获得所述有效正文的每个句子的意义句匹配分数,将具有最高意义句匹配分数的句子作为意义句。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至4中任一所述的方法。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一所述的方法。
CN201810694244.2A 2018-06-29 2018-06-29 新闻摘要生成方法、装置、设备及计算机可读介质 Active CN109033074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810694244.2A CN109033074B (zh) 2018-06-29 2018-06-29 新闻摘要生成方法、装置、设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810694244.2A CN109033074B (zh) 2018-06-29 2018-06-29 新闻摘要生成方法、装置、设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN109033074A CN109033074A (zh) 2018-12-18
CN109033074B true CN109033074B (zh) 2023-05-23

Family

ID=65520899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810694244.2A Active CN109033074B (zh) 2018-06-29 2018-06-29 新闻摘要生成方法、装置、设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN109033074B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858869A (zh) * 2018-12-21 2019-06-07 厦门市美亚柏科信息股份有限公司 用于处理事件信息的方法和装置
CN109766434B (zh) * 2018-12-29 2020-12-11 北京百度网讯科技有限公司 摘要生成方法及装置
CN111046168B (zh) * 2019-12-19 2023-12-01 智慧芽信息科技(苏州)有限公司 用于生成专利概述信息的方法、装置、电子设备和介质
CN112307336B (zh) * 2020-10-30 2024-04-16 中国平安人寿保险股份有限公司 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
CN112989031B (zh) * 2021-04-28 2021-08-03 成都索贝视频云计算有限公司 基于深度学习的广播电视新闻事件要素抽取方法
CN113139050B (zh) * 2021-05-10 2022-07-19 桂林电子科技大学 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530399A (zh) * 2013-10-23 2014-01-22 合山市科学技术情报研究所 一种新闻情报处理系统
CN104503958B (zh) * 2014-11-19 2017-09-26 百度在线网络技术(北京)有限公司 文档摘要的生成方法及装置
CN106484767B (zh) * 2016-09-08 2019-06-21 中国科学院信息工程研究所 一种跨媒体的事件抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
一种新的报文摘要(MDC)生成算法;李顺东 等;《计算机研究与发展》;20030331;第40卷(第3期);第413-416页 *
基于词频统计的多文档自动摘要生成方案;仇丽青 等;《微计算机信息》;20090206;第25卷(第6期);第413-416页 *
面向新闻情报分析的自动摘要技术研究;王艳红 等;《湖南工业职业技术学院学报》;20140831;第14卷(第4期);第18-20页 *

Also Published As

Publication number Publication date
CN109033074A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033074B (zh) 新闻摘要生成方法、装置、设备及计算机可读介质
Mitra et al. An automatic approach to identify word sense changes in text media across timescales
Sun et al. Dom based content extraction via text density
Wang et al. Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing
Gupta et al. A survey of common stemming techniques and existing stemmers for indian languages
US20150095769A1 (en) Layout Analysis Method And System
JP2009545808A5 (zh)
WO2017177809A1 (zh) 语言文本的分词方法和系统
DE102018007165A1 (de) Vorhersage von stilbrüchen innerhalb eines textinhalts
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
CN113254593B (zh) 文本摘要生成方法、装置、计算机设备及存储介质
CN110321466A (zh) 一种基于语义分析的证券资讯查重方法及系统
CN110134970B (zh) 标题纠错方法和装置
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN106202057A (zh) 相似新闻信息的识别方法和装置
Mann et al. Multi-field information extraction and cross-document fusion
Wong et al. iSentenizer‐μ: Multilingual Sentence Boundary Detection Model
CN111160028B (zh) 判断两个文本语义相似度的方法、装置、存储介质及设备
US8108391B1 (en) Identifying non-compositional compounds
CN111681731A (zh) 一种对检查报告进行自动颜色标注的方法
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN102955842A (zh) 一种多特征融合识别中文机构名的控制方法
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN109727591B (zh) 一种语音搜索的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant