CN110287491A - 事件名生成方法及装置 - Google Patents

事件名生成方法及装置 Download PDF

Info

Publication number
CN110287491A
CN110287491A CN201910556230.9A CN201910556230A CN110287491A CN 110287491 A CN110287491 A CN 110287491A CN 201910556230 A CN201910556230 A CN 201910556230A CN 110287491 A CN110287491 A CN 110287491A
Authority
CN
China
Prior art keywords
title
clause
supplement
event name
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910556230.9A
Other languages
English (en)
Other versions
CN110287491B (zh
Inventor
韩翠云
陈玉光
刘远圳
潘禄
施茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910556230.9A priority Critical patent/CN110287491B/zh
Publication of CN110287491A publication Critical patent/CN110287491A/zh
Application granted granted Critical
Publication of CN110287491B publication Critical patent/CN110287491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Abstract

本发明实施例提供一种事件名生成方法及装置,在将获取的标题切分为标题子句后,进一步将该标题子句输入到预先训练的事件名生成模型,事件名生成模型可以根据标题子句自动输出该标题对应的事件名,整个过程不需要人工参与,生成事件名的效率较高。

Description

事件名生成方法及装置
技术领域
本发明涉及深度学习技术领域,尤其涉及事件名生成方法及装置。
背景技术
随着互联网的发展,新闻事件得到越来越多的关注,在新闻推送网站中,通常需要根据新闻对应的事件实体生成事件名,通过事件名为用户提供新闻引导。
现有技术在对事件实体生成事件名时,首先通过生成模型对事件实体进行切分等操作,得到关键字,但是关键字通常在语流畅性和语义完整性上有欠缺,不能作为事件名,因此还需要通过人工编辑的方式对关键字编辑,才能得到事件名。
但是现有生成事件名的方式需要人工参与,导致生成事件名的效率很低。
发明内容
本发明实施例提供事件名生成方法及装置,以解决得到事件名的效率低的技术问题。
本发明实施例第一方面提供一种事件名生成方法,包括:
获取标题;
将所述标题进行切分得到至少一个标题子句;
将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的;
利用所述事件名生成模型输出所述标题对应的事件名。
可选的,所述事件名生成模型输出所述标题对应的事件名,包括:
在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
可选的,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;
在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;
在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述事件名生成模型输出所述标题对应的事件名,包括:
在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;
根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
可选的,所述对所述至少一个标题子句进行补充,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;
在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
可选的,所述根据对所述至少一个标题子句的补充输出所述标题对应的事件名,包括:
在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;
确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,将所述标题进行切分得到至少一个标题子句,包括:
在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
本发明实施例第二方面提供一种事件名生成装置,包括:
获取模块,用于获取标题;
切分模块,用于将所述标题进行切分得到至少一个标题子句;
输入模块,用于将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的;
输出模块,用于利用所述事件名生成模型输出所述标题对应的事件名。
可选的,所述输出模块包括:
第一输出子模块,用于在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第一输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第二输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第三输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,第一输出子模块包括:
第四输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,输出模块包括:
第二输出子模块,用于在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
可选的,所述第二输出子模块,包括:
第五输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
可选的,所述第二输出子模块,包括:
第五输出单元,用于在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述切分模块包括:
切分子模块,用于在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
本发明实施例第三方面提供一种电子设备,包括:处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如前述第一方面任一项所述的方法的指令。
本发明实施例第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如前述第一方面任一项所述的方法。
本发明实施例相对于现有技术的有益效果:
本发明实施例中提供了一种事件名生成方法及装置,在将获取的标题切分为标题子句后,进一步将该标题子句输入到预先训练的事件名生成模型,事件名生成模型可以根据标题子句自动输出该标题对应的事件名,整个过程不需要人工参与,生成事件名的效率较高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的事件名生成方法的流程示意图;
图2为本发明实施例提供的事件名生成方法的事件名标注示意图;
图3为本发明实施例提供的事件名生成方法的另一流程示意图;
图4为本发明提供的事件名生成装置实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
本发明实施例中提供了一种事件名生成方法和装置,在将获取的标题切分为标题子句后,进一步将该标题子句输入到预先训练的事件名生成模型,事件名生成模型可以根据标题子句自动输出该标题对应的事件名,整个过程不需要人工参与,生成事件名的效率较高。
本发明实施例可以应用于终端,终端可以包括:手机、平板电脑、笔记本电脑、台式电脑或者服务器等可以运行事件名生成模型的电子设备;本发明实施例对此不作具体限定。
本发明实施例所描述的标题可以是新闻网站等中包括的新闻标题等;本发明实施例对此不作具体限定。
本发明实施例所描述的标题子句可以是标题中去除对于事件描述没有关键作用的内容之后剩下的内容,其中,对于事件描述没有关键作用的内容可以包括形容词、副词和标点等,本发明实施例对此不作具体限定。
本发明实施例所描述的事件名可以是至少具备主语和谓语的、且能清楚表达一个事件的词组或句子,本发明实施例对事件名的具体形式不作限定。
本发明实施例所描述的事件子句可以是至少包含一个动词,或者比较明确的事件类型的词组。示例的,明确的事件类型可以为地震、车祸等,本发明实施例对此不作具体限定。
本发明实施例所描述的事件名生成模型可以是基于神经网络等深度学习算法训练的模型,事件名生成模型中可以包括多个卷积层等,本发明实施例对此不作具体限定。
如图1所示,图1为本发明实施例提供的事件名生成方法的流程示意图。
该方法具体可以包括:
步骤S101:获取标题。
本发明实施例中,可以通过在新闻网站中抓取标题的方式获取标题;也可以通过在标题数据库中获取标题的方式获取标题;还可以根据实际的应用场景,采用其他方式获取标题,本发明实施例对此不作具体限定。
步骤S102:将所述标题进行切分得到至少一个标题子句。
本发明实施例中,可以根据实际的应用场景,确定适应的切分策略,将标题切分为至少一个标题子句。示例的,切分策略可以包括基于正则匹配切的切分策略等,本发明实施例对将标题进行切分得到至少一个标题子句的方法不作具体限定。
可选的,步骤S102包括:在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
本发明实施例中,对标题中所包括的事件进行判定,在标题中包括的事件大于两个的情况下,可以认为该标题是盘点类新闻标题,不对应具体的事件,对于该类盘点类新闻标题生成事件名后,不能为用户提供较好的事件名引导,且会对计算资源造成占用,因此,可以将包括的事件大于两个的标题去除,保留包括的事件不大于两个的标题,进而根据包括的事件不大于两个的标题生成事件名,从而可以避免对计算资源的占用。
步骤S103:将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的。
本发明实施例中,事件名生成模型是预先训练的,训练该事件名生成模型时,具体可以包括:样本标注和模型调优两个步骤。
具体应用中,样本标注步骤中,可以首先获取样本,在对样本进行标注。示例的,可以从事件图谱资源库中召回各领域近一年的新闻资讯,再随机选取5000个事件,将其整理为事件、新闻连接、标题和正文的格式,然后将标题切分得到标题子句,建立标题和标题子句的映射关系,再由人工标注标题子句对应的实际事件名,从而得到事件名标注样本。参照图2,示出了一种事件名标注的示意图,可以对标题进行人工标注事件名,还可以对该事件名进行打分,通过事件名的打分反映该事件名的准确程度。
在模型调优步骤中,可以事件名标注样本输入神经网络模型中,根据该神经网络模型输出的事件名与实际事件名的差异,调整神经网络模型中各节点的参数,直到神经网络模型输出的事件名与实际事件名的差异小于预设差异值,可以认为训练得到事件名生成模型。
步骤S104:利用所述事件名生成模型输出所述标题对应的事件名。
具体应用中,将至少一个标题子句以及标题输入该预先训练的事件名生成模型后,该事件名生成模型就可以按照训练中学习的算法等,自动生成以及输出该标题对应的事件名。
可以理解,实际应用中,可能存在着根据对至少一个标题子句的简单处理就能得到事件名的情况,也能存在根据对至少一个标题子句的简单处理不能得到事件名的情况。
可选的,步骤S104可以包括在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
具体应用中,根据该至少一个标题子句得到事件名可以是,对该至少一个标题子句进行简单的补充后,就可以得到事件名。可选的,根据该至少一个标题子句得到事件名的情况下,输出该标题对应的事件名可以通过四种实现方式。
第一种实现方式为:在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
本发明实施例中,标题子句中包括主谓结构,且该标题子句的不存在歧义,且该标题子句语义完整,可以认为该标题子句符合事件名的定义,可以将该标题子句作为标题对应的事件名进行输出。
第二种实现方式为:在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
本发明实施例中,标题子句中包括主谓结构,但是该标题子句存在歧义,则该存在歧义的标题子句不能作为事件名,可以通过标题和/或标题对应的正文对该标题子句进行补充,若补充后的标题子句语义完整,则可以认为补充后的标题子句符合事件名的定义,可以将补充后的标题子句作为标题对应的事件名进行输出。本发明实施例中,通过标题和/或标题对应的正文对该标题子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题和/或标题对应的正文对该标题子句进行适当的补充。
第三种实现方式为:在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
本发明实施例中,标题子句中不包括主谓结构,可以根据标题对该标题子句进行补充,得到第一补充子句,若第一补充子句不存在歧义且语义完整,则可以认为第一补充子句符合事件名的定义,可以将第一补充子句作为标题对应的事件名进行输出。本发明实施例中,通过标题对该标题子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题对该标题子句进行适当的补充。
第四种实现方式为:在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
本发明实施例中,标题子句中不包括主谓结构,可以根据标题对该标题子句进行补充,得到第一补充子句,若第一补充子句存在歧义,可以根据标题和/或该标题对应的正文对第一补充子句进行补充,得到第二补充子句,若第二补充子句语义完整,则可以认为第二补充子句符合事件名的定义,可以将第二补充子句作为标题对应的事件名进行输出。本发明实施例中,通过标题对该标题子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题对该标题子句进行适当的补充,得到第一补充子句。通过标题和/或标题对应的正文对该第一补充子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题和/或标题对应的正文对该第一补充子句进行适当的补充。
可选的,步骤S104可以包括在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
具体应用中,根据该至少一个标题子句不能得到事件名可以是,对该至少一个标题子句进行简单的补充后,不能得到事件名,需要进行进一步的操作才能得到事件名。
可选的,所述对所述至少一个标题子句进行补充,包括:在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
本发明实施例中,标题子句中不包括主谓结构,可以根据标题对该标题子句进行补充,得到第三补充子句,若第三补充子句存在歧义,可以根据标题和/或该标题对应的正文对第三补充子句进行补充,得到第四补充子句。本发明实施例中,通过标题对该标题子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题对该标题子句进行适当的补充,得到第三补充子句。通过标题和/或标题对应的正文对该第三补充子句进行补充的具体方式可以根据实际的应用场景确定,示例的,可以根据标题对应事件的领域等,按照需求获取事件名标注样本,然后根据该事件名标注样本训练符合要求的事件名生成模型,使得该事件名生成模型能够通过标题和/或标题对应的正文对该第三补充子句进行适当的补充,得到第四补充子句。
可选的,所述根据对所述至少一个标题子句的补充输出所述标题对应的事件名,包括:在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
本发明实施例中,在第四补充子句语义不完完整的情况下,可以进一步判定该第四补充子句是否包含事件子句,在第四补充子句包含事件子句的情况下,可以认为该第四补充子句还有生成事件名的可能,则进一步对第四补充子句进行补充和/或改写,得到第五补充子句,将该第五补充子句作为该标题对应的事件名进行输出。
可以理解,若第四补充子句不包含事件子句,则可以认为该第四补充子句没有生成事件名的可能,因此可以丢弃该标题,不再进行后续的操作。
综上所述,本发明实施例中提供了一种事件名生成方法及装置,在将获取的标题切分为标题子句后,进一步将该标题子句输入到预先训练的事件名生成模型,事件名生成模型可以根据标题子句自动输出该标题对应的事件名,整个过程不需要人工参与,生成事件名的效率较高。可以理解,因为本申请实施例的事件名生成方法不需要人工参与,所以可以适用于对新闻网站中的大量标题进行生成事件名的操作。
参照图3,示出了本发明实施例中生成事件名的一种实现流程。如图3所示,该方法具体可以包括:
在对标题切分得到标题子句后,判定该标题子句是否包括主谓结构,若该标题子句不包括主谓结构,则根据标题进行补充,得到第一补充内容,并进一步判定第一补充内容是否存在歧义;若该标题子句包括主谓结构,则进一步判定该标题子句是否存在歧义,若该标题子句或第一补充内容存在歧义,则根据标题和/或标题对应的正文进一步补充,得到第二补充内容,并进一步判定第二补充内容语义是否完整;若该标题子句或第一补充内容不存在歧义,则进一步判定该标题子句或第一补充内容语义是否完整,在该标题子句或第一补充内容或第二补充内容语义完整的情况下,输出将语义完整的该标题子句或第一补充内容或第二补充内容作为该标题对应的事件名输出;在该标题子句或第一补充内容或第二补充内容语义不完整的情况下,进一步判定该语义不完整的标题子句或第一补充内容或第二补充内容是否包含事件子句,若该语义不完整的标题子句或第一补充内容或第二补充内容包含事件子句,则进一步对该语义不完整的标题子句或第一补充内容或第二补充内容进行补充和/或改写,将改写后的内容作为标题对应的事件名输出;若该语义不完整的标题子句或第一补充内容或第二补充内容不包含事件子句,则丢弃该标题,不根据该标题进行事件名生成。
可以理解,上述步骤只是对本发明实施例的示例介绍,每个步骤不是必须的,可以根据实际的应用场景,采用其中的部分或全部步骤生成事件名,本发明实施例对此不作具体限定。
本发明实施例中,先采用抽取策略从标题中切分得到标题子句,再根据生成策略对在抽取策略中不能得到事件名的内容进一步补充改写,进一步生成事件名,提升了根据标题生成事件名的生成概率。
图4为本发明提供的事件名生成装置实施例的结构示意图。如图4所示,本实施例提供的事件名生成装置包括:
获取模块410,用于获取标题;
切分模块420,用于将所述标题进行切分得到至少一个标题子句;
输入模块430,用于将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的;
输出模块440,用于利用所述事件名生成模型输出所述标题对应的事件名。
可选的,所述输出模块包括:
第一输出子模块,用于在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第一输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第二输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述第一输出子模块包括:
第三输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,第一输出子模块包括:
第四输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,输出模块包括:
第二输出子模块,用于在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
可选的,所述第二输出子模块,包括:
第五输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
可选的,所述第二输出子模块,包括:
第五输出单元,用于在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
可选的,所述切分模块包括:
切分子模块,用于在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
本发明实施例中提供了一种事件名生成方法及装置,在将获取的标题切分为标题子句后,进一步将该标题子句输入到预先训练的事件名生成模型,事件名生成模型可以根据标题子句自动输出该标题对应的事件名,整个过程不需要人工参与,生成事件名的效率较高。
本发明各实施例提供的事件名生成装置可用于执行如前述各对应的实施例所示的方法,其实现方式与原理相同,不再赘述。
本发明实施例还提供一种电子设备,包括:处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如前述实施例中任一项所述的方法的指令。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如前述实施例中任一项所述的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (22)

1.一种事件名生成方法,其特征在于,所述方法包括:
获取标题;
将所述标题进行切分得到至少一个标题子句;
将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的;
利用所述事件名生成模型输出所述标题对应的事件名。
2.根据权利要求1所述的方法,其特征在于,所述事件名生成模型输出所述标题对应的事件名,包括:
在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
3.根据权利要求2所述的方法,其特征在于,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
4.根据权利要求2所述的方法,其特征在于,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;
在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
5.根据权利要求2所述的方法,其特征在于,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
6.根据权利要求2所述的方法,其特征在于,所述在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;
在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
7.根据权利要求1所述的方法,其特征在于,所述事件名生成模型输出所述标题对应的事件名,包括:
在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;
根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
8.根据权利要求7所述的方法,其特征在于,所述对所述至少一个标题子句进行补充,包括:
在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;
在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
9.根据权利要求8所述的方法,其特征在于,所述根据对所述至少一个标题子句的补充输出所述标题对应的事件名,包括:
在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;
确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
10.根据权利要求1-9任一项所述的方法,其特征在于,将所述标题进行切分得到至少一个标题子句,包括:
在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
11.一种事件名生成装置,其特征在于,包括:
获取模块,用于获取标题;
切分模块,用于将所述标题进行切分得到至少一个标题子句;
输入模块,用于将所述至少一个标题子句以及所述标题输入预先训练的事件名生成模型;其中,所述事件名生成模型为根据多个事件名标注样本训练得到的;
输出模块,用于利用所述事件名生成模型输出所述标题对应的事件名。
12.根据权利要求11所述的装置,其特征在于,所述输出模块包括:
第一输出子模块,用于在根据所述至少一个标题子句得到事件名的情况下,输出所述标题对应的事件名。
13.根据权利要求12所述的装置,其特征在于,所述第一输出子模块包括:
第一输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句不存在歧义,且所述标题子句语义完整的情况下,确定所述标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
14.根据权利要求12所述的装置,其特征在于,所述第一输出子模块包括:
第二输出单元,用于在所述标题子句中包括主谓结构,且所述标题子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述标题子句进行补充;在所述补充后的标题子句语义完整的情况下,确定所述补充后的标题子句为所述标题对应的事件名,并输出所述标题对应的事件名。
15.根据权利要求12所述的装置,其特征在于,所述第一输出子模块包括:
第三输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;
在所述第一补充子句的不存在歧义,且所述第一补充子句语义完整的情况下,确定所述第一补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
16.根据权利要求12所述的装置,其特征在于,第一输出子模块包括:
第四输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第一补充子句;在所述第一补充子句存在歧义的情况下,根据所述标题和/或所述标题对应的正文对所述第一补充子句进行补充,得到第二补充子句;在所述第二补充子句语义完整的情况下,确定所述第二补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
17.根据权利要求11所述的装置,其特征在于,输出模块包括:
第二输出子模块,用于在所述事件名生成模型根据所述至少一个标题子句不能得到事件名的情况下,对所述至少一个标题子句进行补充;根据对所述至少一个标题子句的补充输出所述标题对应的事件名。
18.根据权利要求17所述的装置,其特征在于,所述第二输出子模块,包括:
第五输出单元,用于在所述标题子句中不包括主谓结构的情况下,根据所述标题对所述标题子句进行补充,得到第三补充子句;在所述第三补充子句存在歧义的情况下,根据所述标题或所述标题对应的正文对所述第三补充子句进行补充,得到第四补充子句。
19.根据权利要求18所述的装置,其特征在于,所述第二输出子模块,包括:
第五输出单元,用于在所述第四补充子句语义不完整,且所述第四补充子句中包含事件子句的情况下,对所述第四补充子句进行补充和/或改写,得到第五补充子句;确定所述第五补充子句为所述标题对应的事件名,并输出所述标题对应的事件名。
20.根据权利要求11-19任一项所述的装置,其特征在于,所述切分模块包括:
切分子模块,用于在所述标题内包括的事件不大于两个的情况下,将所述标题进行切分得到至少一个标题子句。
21.一种电子设备,其特征在于,包括:
处理器,存储器以及计算机程序;其中,所述计算机程序被存储在所述存储器中,并且被配置为由所述处理器执行,所述计算机程序包括用于执行如权利要求1-10任一项所述的方法的指令。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被执行时,实现如权利要求1-10任一项所述的方法。
CN201910556230.9A 2019-06-25 2019-06-25 事件名生成方法及装置 Active CN110287491B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910556230.9A CN110287491B (zh) 2019-06-25 2019-06-25 事件名生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910556230.9A CN110287491B (zh) 2019-06-25 2019-06-25 事件名生成方法及装置

Publications (2)

Publication Number Publication Date
CN110287491A true CN110287491A (zh) 2019-09-27
CN110287491B CN110287491B (zh) 2024-01-12

Family

ID=68005669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910556230.9A Active CN110287491B (zh) 2019-06-25 2019-06-25 事件名生成方法及装置

Country Status (1)

Country Link
CN (1) CN110287491B (zh)

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2001337945A (ja) * 2000-05-26 2001-12-07 Sharp Corp 自動編集装置及び方法並びにこれに利用される記憶媒体
US20150339288A1 (en) * 2014-05-23 2015-11-26 Codeq Llc Systems and Methods for Generating Summaries of Documents
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107766585A (zh) * 2017-12-07 2018-03-06 中国科学院电子学研究所苏州研究院 一种面向社交网络的特定事件抽取方法
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108460150A (zh) * 2018-03-23 2018-08-28 北京奇虎科技有限公司 新闻标题的处理方法及装置
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN108491512A (zh) * 2018-03-23 2018-09-04 北京奇虎科技有限公司 新闻标题的摘要方法及装置
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109710710A (zh) * 2018-12-13 2019-05-03 北京百度网讯科技有限公司 兴趣点的事件挖掘方法及其装置
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2001337945A (ja) * 2000-05-26 2001-12-07 Sharp Corp 自動編集装置及び方法並びにこれに利用される記憶媒体
US20150339288A1 (en) * 2014-05-23 2015-11-26 Codeq Llc Systems and Methods for Generating Summaries of Documents
CN105824803A (zh) * 2016-03-31 2016-08-03 北京奇艺世纪科技有限公司 一种热点事件名称的确定方法及装置
CN106202574A (zh) * 2016-08-19 2016-12-07 清华大学 面向微博平台话题推荐的评估方法及装置
CN106383817A (zh) * 2016-09-29 2017-02-08 北京理工大学 利用分布式语义信息的论文标题生成方法
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN107239445A (zh) * 2017-05-27 2017-10-10 中国矿业大学 一种基于神经网络的新闻事件抽取的方法及系统
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107766585A (zh) * 2017-12-07 2018-03-06 中国科学院电子学研究所苏州研究院 一种面向社交网络的特定事件抽取方法
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108460150A (zh) * 2018-03-23 2018-08-28 北京奇虎科技有限公司 新闻标题的处理方法及装置
CN108470026A (zh) * 2018-03-23 2018-08-31 北京奇虎科技有限公司 新闻标题的句子主干内容提取方法及装置
CN108491512A (zh) * 2018-03-23 2018-09-04 北京奇虎科技有限公司 新闻标题的摘要方法及装置
CN108763333A (zh) * 2018-05-11 2018-11-06 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN109800413A (zh) * 2018-12-11 2019-05-24 北京百度网讯科技有限公司 新闻事件的识别方法、装置、设备及可读存储介质
CN109710710A (zh) * 2018-12-13 2019-05-03 北京百度网讯科技有限公司 兴趣点的事件挖掘方法及其装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NAOYA OKUMURA ET AL: "Generating Headline Candidates for News Articles", 2016 IEEE 17TH INTERNATIONAL CONFERENCE ON INFORMATION REUSE AND INTEGRATION, pages 355 - 340 *

Also Published As

Publication number Publication date
CN110287491B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN103020295B (zh) 一种问题标签标注方法及装置
CN105930314A (zh) 基于编码-解码深度神经网络的文本摘要生成系统及方法
US20170060826A1 (en) Automatic Sentence And Clause Level Topic Extraction And Text Summarization
CN103473224B (zh) 基于问题求解过程的习题语义化方法
CN101840414A (zh) 从网络文本创建动画的设备和方法
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN102622453A (zh) 基于本体的食品安全事件语义检索系统
CN110134963A (zh) 一种文本挖掘应用于道路交通事故数据处理的方法
CN112948596B (zh) 知识图谱构建方法、装置、计算机设备及计算机存储介质
CN112149386A (zh) 一种事件抽取方法、存储介质及服务器
CN107679035A (zh) 一种信息意图检测方法、装置、设备和存储介质
EP3387525A1 (en) Learning from input patterns in programing-by-example
CN110516239A (zh) 一种基于卷积神经网络的分段池化关系抽取方法
Sherchan et al. Harnessing Twitter and Instagram for disaster management
CN108304519A (zh) 一种基于图数据库的知识森林构建方法
CN117332852A (zh) 基于知识图谱的大模型训练部署方法及系统
CN110287491A (zh) 事件名生成方法及装置
CN103488743B (zh) 网页元素抽取方法和网页元素抽取系统
US20190236153A1 (en) Knowledge management system and process for managing knowledge
Hagiwara et al. Adaptive recommendation for question decomposition in web-based investigative learning
CN103870590A (zh) 具有报错特征的网页识别方法和装置
CN104111965B (zh) 基于差别矩阵的ogc地理信息服务描述词汇约简方法
Al-Msie'deen Softcloud: A tool for visualizing software artifacts as tag clouds
Wick et al. Enhancing RSS feeds with extracted geospatial information for further processing and visualization
Zheyu et al. Concept map building from linked open data for cybersecurity awareness training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant