CN112699677A - 事件提取方法及装置、电子设备、存储介质 - Google Patents
事件提取方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112699677A CN112699677A CN202011643985.1A CN202011643985A CN112699677A CN 112699677 A CN112699677 A CN 112699677A CN 202011643985 A CN202011643985 A CN 202011643985A CN 112699677 A CN112699677 A CN 112699677A
- Authority
- CN
- China
- Prior art keywords
- event
- word
- sentence
- processed
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种事件提取方法及装置、电子设备、存储介质,该方法包括:对待处理句子进行分词、词性标注以及依存句法分析,生成待处理句子中每个词语的词性标签以及不同词语之间的依存关系标签;根据待处理句子中每个词语的词性标签,找出待处理句子的事件触发词;根据待处理句子中不同词语之间的依存关系标签以及待处理句子中已知的带有事件要素标签的关键词,确定事件触发词对应的事件要素词;将事件触发词与事件要素词组合输出,得到待处理句子的事件提取结果。该方案从语义层面提取事件,无需设置模板,可以适用于不同文本的事件提取,方案适用范围广。
Description
技术领域
本申请涉及文本处理方法,特别涉及一种事件提取方法及装置、电子设备、存储介质。
背景技术
互联网中存在大量的文本,由于自然语言的多样性,这些文本中可能包含较多的用户不感兴趣的无效信息。为了从这些文本中获取用户感兴趣的信息,可以对这些文本进行事件抽取,以分析这些文本各自表示的事件。事件提取是自然语言理解领域常使用且关注度很高的模块。
示例性的,可以针对不同类型的事件设置不同的模板,每个模板用于表示构成该事件的事件要素以及事件的组织规则。提取待处理文本中的实体,作为事件要素,并将待处理文本的事件要素与模板进行匹配,以确定与待处理文本的事件要素相匹配的模板,按照该模板所表示的组织规则,将待处理文本的事件要素组织成事件。
但是,模板的类型有限,可能存在无法与模板匹配的文本,该方案无法抽取这些文本中的事件,即适用性较差。
发明内容
本申请实施例提供了一种事件提取方法,无需设置模板,可以适用多种文本的事件提取。
本申请实施例提供了一种事件提取方法,所述方法包括:
对待处理句子进行分词、词性标注以及依存句法分析,生成所述待处理句子中每个词语的词性标签以及不同词语之间的依存关系标签;
根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
在一实施例中,在所述对待处理句子进行分词、词性标注以及依存句法分析之前,所述方法还包括:
获取待处理文本;
根据断句标志对待处理文本进行断句,得到多个所述待处理句子。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为动词或动名词,判断所述词语是否属于已知的非触发动词;
若所述词语不属于已知的非触发动词,根据不同词语之间的依存关系标签,判断所述词语是否带有状中关系标签,若不是,将所述词语标记为事件触发词。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为形容词,判断所述词语是否在已知的形容词库中;
若所述词语在所述形容词库中,将所述词语标记为事件触发词。
在一实施例中,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为名词,判断所述词语是否在已知的事件专有名词库中;
若所述词语在所述事件专有名词库中,且所述词语不是已知的事件要素词,将所述词语标记为事件触发词。
在一实施例中,所述根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词,包括:
根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,找出与所述关键词具有依存关系的子节点;
判断所述关键词的子节点是否为所述事件触发词或带有事件要素标签;
若所述关键词的子节点为所述事件触发词或带有事件要素标签,将所述关键词作为所述事件触发词对应的事件要素词。
在一实施例中,在所述判断所述关键词的子节点是否为所述事件触发词或带有事件要素标签之后,所述方法还包括:
若所述关键词的子节点不是所述事件触发词,且未带有事件要素标签,则将所述关键词和所述关键词的子节点合并,作为所述事件触发词对应的事件要素词。
在一实施例中,所述将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果,包括:
根据所述待处理句子中不同词语之间的依存关系标签,判断所述事件触发词是否带有核心关系标签、动宾关系标签或并列关系标签;
若所述事件触发词带有核心关系标签、动宾关系标签或并列关系标签,将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
本申请实施例提供了一种事件提取装置,所述装置包括:
句子预处理模块,用于对待处理句子进行分词、词性标注以及依存句法分析,得到所述待处理句子中每个词语的词性以及不同词语之间的依存关系标签;
触发词查找模块,用于根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
要素确定模块,用于根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
事件输出模块,用于将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述事件提取方法。
本申请实施例提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述事件提取方法。
本申请上述实施例提供的技术方案,通过对待处理句子进行分词、词性标注和依存句法分析,基于每个词语的词性标签、不同词语之间的依存关系标签、待处理句子中已知的带有事件要素标签的关键词,找出待处理句子的事件触发词、事件要素词,从而得到待处理句子的事件提取结果,从语义层面提取事件,无需设置模板,可以适用于不同文本的事件提取,方案适应范围广。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1是本申请一实施例提供的电子设备的结构示意图;
图2是本申请一实施例提供的事件提取方法的流程示意图;
图3是本申请另一实施例提供的事件提取方法的流程示意图;
图4是图2对应实施例中步骤S230的细节流程图;
图5是本申请一实施例提供的事件提取装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的事件提取方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的事件提取方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的关键点检测模型的训练方法或者关键点检测方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的事件提取方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的事件提取方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、智能手表、车载设备等智能终端。
图2是本申请实施例提供的事件提取方法的流程示意图。如图2所示,该方法可以由上述电子设备执行。如图2所示,该方法包括以下步骤S210-步骤S240。
步骤S210:对待处理句子进行分词、词性标注以及依存句法分析,生成所述待处理句子中每个词语的词性以及不同词语之间的依存关系标签。
其中,待处理句子可以是待处理文本中的一个句子。例如,待处理文本可以是新闻文本。在一实施例中,可以从服务器下载待处理文本,根据断句标志对待处理文本进行断句,得到多个所述待处理句子。之后采用本申请实施例提供的方法,提取每个待处理句子的事件提取结果。本申请对“事件”的定义是:某个特定的时间和环境下发生的,由若干角色参与,表现出动作特征、状态改变的一件事情。例如,几月几日某某某做了什么,可以认为是一个事件。
其中,断句标志可以如下表1所示,有6种形式。
表1断句标志列表
。” | ?” | !” | 。 | ! | ? |
也就是说,如果出现以上表格中的断句标志,则断句标志之前的语句可以划分为一个句子。为避免引号错位的问题,从左到右,可以先基于前三个带有引号的断句标志进行句子拆分,之后再基于后三个断句标志进行句子拆分。
举例来说,待处理文本“2018年7月26日,某组织总理事会在某地举行年内第三次会议。x国常驻某组织大使张某某根据x国方会前提交的文件对y国经济模式进行指责。y国常驻某组织大使李某某予以驳斥。这是x国y国大使继5月8日后在总理事会上再次交锋”,以“句号”为断句标志进行拆分,得到以下四个待处理句子:
①2018年7月26日,某组织总理事会在某地举行年内第三次会议。
②x国常驻某组织大使张某某根据x国方会前提交的文件对y国经济模式进行指责。
③y国常驻某组织大使李某某予以驳斥。
④这是x国y国大使继5月8日后在总理事会上再次交锋。
在一实施例中,可以使用ICTCLAS分词器先对待处理句子进行分词操作,得到一个个词语。之后使用ICTCLAS分词器对分词操作后的词语进行词性标注,即为每个词语打上相应的词性标签,名词标记为n、时间词标记为nt、数词标记为m、量词标记为q、代词标记为r、动词标记为v、形容词标记为a、副词标记为d、介词标记为p、人名标记为nr、地名标记为ns、团体机关单位名称标记为ni,标点符号标记为w等等。
在得到每个词语的词性标签后,可以通过已有的依存句法处理工具(例如LTP)分析不同词语之间的依存关系,为基于依存关系的不同,打上相应的标签。如下表2所示,词语之间的依存关系可以有主谓关系、动宾关系、间宾关系等等。
表2依存关系的标签释义
例如,某个词是核心关系词,则可以打上HED(核心关系)标签,如果某个词作为主语与其他词构成主谓关系,则该词可以打上SBV(主谓关系)标签,以此类推。
以上述第一个待处理句子为例,可以得到如下表3所示的分词、词性以及依存关系结果。
表3为待处理句子①进行依存句法分析的处理结果
从上表中可以看出,“举行”一词带有动词标签v,其词性是动词,“举行”一词带有核心关系标签(HED),“总理事会”一词带有主谓关系标签(SBV),“总理事会”与“举行”具有主谓关系。“某组织”一词是“总理事会”一词的子节点。
步骤S220:根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词。
其中,事件触发词可以是四类词性,分别是动词、动名词、形容词、名词。即事件触发词的词性标签至少是v(动词),vn(动名词)、a(形容词)或n(名词)四者之一。下面详细说明,某个词语属于这四种词性之一时,是否作为事件触发词的判断过程。
在一实施例中,如图3所示,上述步骤S220可以包括以下步骤S221-步骤S222。
步骤S221:针对所述待处理句子中的每个词语,若所述词语的词性标签为动词或动名词,可以判断所述词语是否属于已知的非触发动词。
需要说明的是,大部分动词表示了一个动作的发生,是事件触发词,但是形式动词,情态动词,“有”、“是”、“为”、“像”类申明主语属性的动词,“让”、“使”类的使动动词,前述的四类动词一般不考虑作为事件触发词。故非触发动词可以认为是前述已知的四类不作为事件触发词的动词,可以将这四类动词存储在数据库中,如果某个词语属于动词或动名词,但是在该数据库中,则不作为事件触发词。
步骤S222:若所述词语不属于已知的非触发动词,根据不同词语之间的依存关系标签,判断所述词语是否带有状中关系标签,若不是,将所述词语标记为事件触发词。
需要说明的是,小部分动词或动名词在语法功能上作为状语修饰成分,故不作为事件触发词,例如“年均增加5倍”中的“年均_v”。
也就是说,如果某个词语属于动词或动名词,且不在上述数据库(四类不作为事件触发词的动词)中,则可以继续判断该词语是否带有状中关系标签,从而确定该词语是否作为状语修饰成分。如果该词语不带有状中关系标签,可以认为该词语不是作为状语修饰成分,故该词语可以作为事件触发词进行标记。举例来说,可以在该词语之后标记“Y”,从而代表该词语属于事件触发词。
在一实施例中,如图3所示,上述步骤S220可以包括以下步骤S223-步骤S224。
步骤S223:针对所述待处理句子中的每个词语,若所述词语的词性标签为形容词,判断所述词语是否在已知的形容词库中。
需要说明的是,大部分形容词不是事件触发词,仅表示事物状态;小部分形容词可以充当事件触发词,判断标准包括:同时具有动词和形容词词性的形容词可以成为事件触发词;具有事件要素、动作属性的形容词可以成为事件触发词。例如,“王先生热心于公益事业”。一些类似“热心”的形容词可以跟介词,再跟事件客体,此时属于具有事件要素,可以作为事件触发词。例如,“他正在忙碌着”。“正在”、“着”是动作的属性,表示动作正在进行,此时属于带有动作属性,可以作为事件触发词。经总结,常见的可以做事件触发词的形容词有以下:明晰、有利、专注、热心、忙碌、活跃、松懈、完善、忙、强大、不满、不逊。
这些可以作为事件触发词的形容词可以存储在数据库中,形成上述形容词库。故如果某个词语是形容词,可以判断在词语是否在已知的形容词库中。
步骤S224:若所述词语在所述形容词库中,将所述词语标记为事件触发词。
在一实施例中,上述步骤S220可以包括以下步骤S225-步骤S227。
步骤S225:针对所述待处理句子中的每个词语,若所述词语为名词,判断所述词语是否在已知的事件专有名词库中。
需要说明的是,事件专有名词也可以作为事件触发词,但是如果事件专有名词已经是另外触发词的事件要素,则不作为事件触发词。故可以提前构建事件专有名词库,事件专有名词库中可以存储所有可以作为触发词的事件专有名词。例如,“张某某将于明日对x国进行国事访问”。
“国事访问”为事件专有名词,发起这个事件的人为“张某某”,接受这个事件的客体为“x国”,事件发生时间为“明日”。
步骤S226:若所述词语在所述事件专有名词库中,且所述词语不是已知的事件要素词,将所述词语标记为事件触发词。
也就是说,如果某个词语是名词,且在事件专有名词库中,但是如果这个词语已经是其他触发词的事件要素词,则这个词语不作为事件触发词。相反的,如果这个词语是名词,且在事件专有名词库中,也不是其他触发词的事件要素词,则这个词语作为事件触发词进行标记。在一实施例中,事件要素词可以结合人工进行标注,并打上相应的标签。除了动名词和事件专有名词,其他名词不作为事件触发词。
以上表3为例,待处理句子①中动词“举行”可以作为事件触发词,事件专有名词“会议”已经成为了“举行”的事件要素,则不作为事件触发词。
步骤S230:根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词。
其中,关键词是指待处理句子中已知的带有事件要素标签的词语。为与其他词语进行区分,已带有事件要素标签的词语可以称为关键词。
可以人工对每一个事件触发词进行事件要素标注,并将事件要素的标注结果存储到计算机等电子设备中,从而通过电子设备可以获得带有事件要素标签的关键词。如果事件要素是一个短语,标签可以仅标注在短语的中心词上。例如“x国驻y国大使张某某”是事件中的受动者需要标注A1,而该短语在依存结构句法中被拆分成不同的分词单位:x国/驻/y国/大使/张某某,故可以仅将A1标注在短语核心分词单位“张某某”后。
如下表4所示,事件要素标签可以有以下种类。
表4事件要素标签的类型
表5 TENSE标签下包含的三个小类
表6 A3作为事件中的其他语义相关对象包含的小类
依据 | Accord | 事件的依据 |
主题 | Topic | 事件的主题范围 |
场合 | Scene | 抽象的事件发生地点 |
A3为事件触发词的非必要事件要素,其目的只是为了更详细描述事件,缺省不对句法完整性造成损害,是一个开放标签集。
对于待处理句子中带有事件要素标签的词语(即关键词),基于不同词语之间的依存关系标签,可以判断该关键词的子节点是否有跟该关键词所在事件的触发词和事件要素重合的成分;有,不合并,只输出该关键词作为事件要素词;没有,合并该关键词的所有子节点,作为事件要素词输出。
在一实施例中,如图4所示,上述步骤S230具体包括以下步骤S231-步骤S234。
步骤S231:根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,找出与所述关键词具有依存关系的子节点。
其中,子节点是指对关键词进行修饰的词语。根据不同词语之间的依存关系标签,可以找出与关键词具有依存关系的所有子节点。例如,具有状中关系(ADV)的状语,具有定中关系(ATT)的定语。以表3为例,“某组织”可以认为是“总理事会”的子节点。“年内”可以认为是“会议”的子节点,“第三”可以认为是“次”的子节点,“次”可以认为是“会议”的子节点。
步骤S232:判断所述关键词的子节点是否为所述事件触发词或带有事件要素标签。
步骤S233:若所述关键词的子节点为所述事件触发词或带有事件要素标签,将所述关键词作为所述事件触发词对应的事件要素词。
步骤S234:若所述关键词的子节点不是所述事件触发词,且未带有事件要素标签,则将所述关键词和所述关键词的子节点合并,作为所述事件触发词对应的事件要素词。
表7是待处理句子①的事件触发词和事件要素标签
从表7可以看出,“举行”标记为Y,是事件触发词;“日”的事件要素标签是TMP,代表事发时间;“总理事会”的事件要素标签是A0,代表事件中的施动者;“某地”的事件要素标签是LOC,代表事发地点;“会议”的事件要素标签是A1,代表事件中的受动者。
根据表7中的依存关系标签可知“日”的所有子节点有2018年7月26,故合并带有TMP标签的关键词“日”与其所有子节点“2018年7月26”,得到代表事发时间的事件要素词“2018年7月26日”。同理,合并带有A0标签的关键词“总理事会”与其所有子节点“某组织”,得到代表事件中的施动者的事件要素词“某组织总理事会”。合并带有A1标签的关键词“会议”与其所有子节点“年内第三次”,得到代表事件中的受动者的事件要素词“年内第三次会议”。
表8待处理句子①的事件触发词和事件要素词
触发词 | A0 | A1 | TMP | LOC |
举行 | 某组织总理事会 | 年内第三次会议 | 2018年7月26日 | 某地 |
步骤S240:将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
在一实施例中,可以根据事件触发词和事件要素词在待处理句子的先后顺序,将事件触发词和事件要素词按照该顺序进行排列后输出。以上述待处理句子①为例,最后将事件触发词与事件要素词组合输出可以得到“2018年7月26日某组织总理事会某地举行年内第三次会议”作为事件提取结果。
为了控制事件数量,可以仅提取主要事件,在一实施例中,为了筛选出主要事件,电子设备可以根据待处理句子中不同词语之间的依存关系标签,判断所述事件触发词是否带有核心关系标签(HED)、动宾关系标签(VOB)或并列关系标签(COO);若所述事件触发词带有核心关系标签、动宾关系标签或并列关系标签,将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
也就是说,只筛选事件触发词的依存结构句法节点为HED或VOB或COO的事件为主要事件。
本申请上述实施例提供的技术方案,在依存结构句法的层面上确定事件要素词,增加了句法层面的帮助;建立了比较完整的事件要素体系;对事件触发词按照词性进行分类,辅助以语义上的类别,比较全面地解释了事件的内涵,帮助达成较高的事件提取结果。
以待处理句子②“x国常驻某组织大使张某某根据x国方会前提交的文件对y国经济模式进行指责”为例。
表9为待处理句子②的事件触发词和事件要素标签
待处理句子②中动词“提交”、“指责”是事件触发词,“提交”对应的带有事件要素标签的关键词有带有A0标签的“方”、带有TMP标签的“前”、带有A1标签的文件。“方”的子节点有“x国”,合并得到事件要素词“x国方”;“前”的子节点有“会”,合并得到子节点“会前”;“文件”的子节点“提交”是“提交”事件中的触发词,因此不进行合并。
表9待处理句子②的事件触发词和事件要素词
触发词 | A0 | A1 | TMP |
提交 | X国方 | 文件 | 会前 |
以待处理句子③“y国常驻某组织大使李某某予以驳斥”为例。
表10为待处理句子③的事件触发词和事件要素标签
待处理句子③中“予以”是形式动词,因此不作为触发词,但后跟的动名词“驳斥”符合规则,可以作为事件触发词。
带有事件要素标签的关键词有带有A0标签的“李某某”,“李某某”的子节点有“Y国常驻某组织大使”,合并得到事件要素词“Y国常驻某组织大使李某某”。
表11待处理句子③的事件触发词和事件要素词
触发词 | A0 |
驳斥 | Y国常驻某组织大使李某某 |
以待处理句子④“这是x国y国大使继5月8日后在总理事会上再次交锋”为例。
表12为待处理句子④的事件触发词和事件要素标签
待处理句子④中动词“交锋”是事件触发词,“交锋”对应的带有事件要素标签的关键词有带有A0标签的“大使”、带有TMP标签的“后”、带有Scene标签的“上”。“大使”的子节点有“x国Y国”,合并得到事件要素词“x国Y国大使”;“后”的子节点有“继5月8日”,合并得到事件要素词“继5月8日后”;“上”的子节点“总理事会”,合并得到事件要素词“总理事会上”。
表13待处理句子④的事件触发词和事件要素词
触发词 | A0 | TMP | Scene |
交锋 | 中美大使 | 继5月8日后 | 总理事会上 |
对于上述的四句待处理句子,如果用户希望仅展示主要事件,则可以筛选出事件触发词带有HED标签、VOB标签或COO标签的事件,最后可以筛选得到“举行”事件、“指责”事件、“驳斥”事件、“交锋”事件。
以另一待处理文本“新华社北京11月19日电(记者李某某)在19日举行的外交部例行记者会上,外交部发言人张某某就“xx联盟”涉A地声明、B国C地关系、D国方涉B国文件等问题回答了记者提问。”为例,根据断句标志进行断句,得到的待处理句子为上述待处理文本。
表14为本申请列举的一种待处理句子的事件触发词和事件要素标签
根据事件触发词的判断流程,得到待处理句子中动词“举行”、动词“回答”是事件触发词,“举行”对应的带有事件要素标签的关键词有带有A1标签的“记者会”、带有TMP标签的“日”。“记者会”的子节点有“外交部例行”,合并得到事件要素词“外交部例行记者会”,“记者会”的子节点“举行”是“举行”事件中的触发词,因此不进行合并。“日”的子节点有“19”,合并得到事件要素词“19日”。
表15为“举行”事件的事件触发词和事件要素词
待处理句子中“回答”对应的带有事件要素标签的关键词有带有scene标签的“上”,带有A0标签的“张某某”,带有topic标签的“问题”,带有tense-past标签的“了”;带有A1标签的“提问”。
Scene事件要素中,标签标注在核心要素“上”,“上”的子节点都不是“回答”事件的要素,因此合并“上”的所有子节点。“上”的子节点有“19日举行的外交部例行记者会”,合并得到事件要素词“19日举行的外交部例行记者会上”。“张某某”的子节点有“外交部发言人”,合并得到事件要素词“外交部发言人”;“问题”的子节点有“xx联盟涉A地声明、B国C地关系、D国方涉B国文件等”,合并得到事件要素词“xx联盟涉A地声明、B国C地关系、D国方涉B国文件等问题”。“提问”的子节点有“记者”合并得到事件要素词“记者提问”。
表16为“回答”事件的事件触发词和事件要素词
用户如果希望仅展示主要事件,由于“回答”这个事件触发词带有“HED”,故“回答”事件可以认为是主要事件。
下述为本申请装置实施例,可以用于执行本申请上述事件提取方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请事件提取方法实施例。
图5为本申请一实施例示出的事件提取装置的框图。如图5所示,该装置包括:句子预处理模块510、触发词查找模块520、要素确定模块530以及事件输出模块540。
句子预处理模块510,用于对待处理句子进行分词、词性标注以及依存句法分析,得到所述待处理句子中每个词语的词性以及不同词语之间的依存关系标签;
触发词查找模块520,用于根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
要素确定模块530,用于根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
事件输出模块540,用于将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
上述装置中各个模块的功能和作用的实现过程具体详见上述事件提取方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种事件提取方法,其特征在于,所述方法包括:
对待处理句子进行分词、词性标注以及依存句法分析,生成所述待处理句子中每个词语的词性标签以及不同词语之间的依存关系标签;
根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
2.根据权利要求1所述的方法,其特征在于,在所述对待处理句子进行分词、词性标注以及依存句法分析之前,所述方法还包括:
获取待处理文本;
根据断句标志对待处理文本进行断句,得到多个所述待处理句子。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为动词或动名词,判断所述词语是否属于已知的非触发动词;
若所述词语不属于已知的非触发动词,根据不同词语之间的依存关系标签,判断所述词语是否带有状中关系标签,若不是,将所述词语标记为事件触发词。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为形容词,判断所述词语是否在已知的形容词库中;
若所述词语在所述形容词库中,将所述词语标记为事件触发词。
5.根据权利要求1所述的方法,其特征在于,所述根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词,包括:
针对所述待处理句子中的每个词语,若所述词语的词性标签为名词,判断所述词语是否在事件专有名词库中;
若所述词语在所述事件专有名词库中,且所述词语不是已知的事件要素词,将所述词语标记为事件触发词。
6.根据权利要求1所述的方法,其特征在于,所述根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词,包括:
根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,找出与所述关键词具有依存关系的子节点;
判断所述关键词的子节点是否为所述事件触发词或带有事件要素标签;
若所述关键词的子节点为所述事件触发词或带有事件要素标签,将所述关键词作为所述事件触发词对应的事件要素词。
7.根据权利要求6所述的方法,其特征在于,在所述判断所述关键词的子节点是否为所述事件触发词或带有事件要素标签之后,所述方法还包括:
若所述关键词的子节点不是所述事件触发词,且未带有事件要素标签,则将所述关键词和所述关键词的子节点合并,作为所述事件触发词对应的事件要素词。
8.根据权利要求1所述的方法,其特征在于,所述将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果,包括:
根据所述待处理句子中不同词语之间的依存关系标签,判断所述事件触发词是否带有核心关系标签、动宾关系标签或并列关系标签;
若所述事件触发词带有核心关系标签、动宾关系标签或并列关系标签,将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
9.一种事件提取装置,其特征在于,所述装置包括:
句子预处理模块,用于对待处理句子进行分词、词性标注以及依存句法分析,得到所述待处理句子中每个词语的词性以及不同词语之间的依存关系标签;
触发词查找模块,用于根据所述待处理句子中每个词语的词性标签,找出所述待处理句子的事件触发词;
要素确定模块,用于根据所述待处理句子中不同词语之间的依存关系标签以及所述待处理句子中已知的带有事件要素标签的关键词,确定所述事件触发词对应的事件要素词;
事件输出模块,用于将所述事件触发词与所述事件要素词组合输出,得到所述待处理句子的事件提取结果。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-8任意一项所述的事件提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643985.1A CN112699677B (zh) | 2020-12-31 | 2020-12-31 | 事件提取方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011643985.1A CN112699677B (zh) | 2020-12-31 | 2020-12-31 | 事件提取方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112699677A true CN112699677A (zh) | 2021-04-23 |
CN112699677B CN112699677B (zh) | 2023-05-02 |
Family
ID=75514212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011643985.1A Active CN112699677B (zh) | 2020-12-31 | 2020-12-31 | 事件提取方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699677B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821605A (zh) * | 2021-10-12 | 2021-12-21 | 广州汇智通信技术有限公司 | 一种事件抽取方法 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN115293156A (zh) * | 2022-09-29 | 2022-11-04 | 四川大学华西医院 | 监狱短信异常事件提取方法、装置、计算机设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
US20200312297A1 (en) * | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and device for extracting factoid associated words from natural language sentences |
-
2020
- 2020-12-31 CN CN202011643985.1A patent/CN112699677B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN109446513A (zh) * | 2018-09-18 | 2019-03-08 | 中国电子科技集团公司第二十八研究所 | 一种基于自然语言理解的文本中事件的抽取方法 |
CN109241538A (zh) * | 2018-09-26 | 2019-01-18 | 上海德拓信息技术股份有限公司 | 基于关键词和动词依存的中文实体关系抽取方法 |
US20200312297A1 (en) * | 2019-03-28 | 2020-10-01 | Wipro Limited | Method and device for extracting factoid associated words from natural language sentences |
CN110210019A (zh) * | 2019-05-21 | 2019-09-06 | 四川大学 | 一种基于递归神经网络的事件要素抽取方法 |
CN110941692A (zh) * | 2019-09-28 | 2020-03-31 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 互联网政治外交类新闻事件抽取方法 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
Non-Patent Citations (5)
Title |
---|
ANRAN WANG等: "Biomedical event extraction based on distributed representation and deep learning", 《IEEE XPLORE》 * |
崔莹: "基于相似义原和依存句法的政外领域事件抽取方法", 《计算机工程与科学》 * |
王毅等: "领域事件图谱构建方法综述", 《数据分析与知识发现》 * |
王红斌等: "触发词扩展、神经网络及依存分析相结合的事件研究", 《软件导刊》 * |
程良等: "基于依存树与规则相结合的汉泰新闻事件要素抽取方法", 《软件导刊》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113821605A (zh) * | 2021-10-12 | 2021-12-21 | 广州汇智通信技术有限公司 | 一种事件抽取方法 |
CN113821605B (zh) * | 2021-10-12 | 2024-05-14 | 广州汇智通信技术有限公司 | 一种事件抽取方法 |
CN114398891A (zh) * | 2022-03-24 | 2022-04-26 | 三峡智控科技有限公司 | 基于日志关键词生成kpi曲线并标记波段特征的方法 |
CN115293156A (zh) * | 2022-09-29 | 2022-11-04 | 四川大学华西医院 | 监狱短信异常事件提取方法、装置、计算机设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112699677B (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Surdeanu | Overview of the TAC2013 Knowledge Base Population Evaluation: English Slot Filling and Temporal Slot Filling. | |
US20180101518A1 (en) | Variables and method for authorship attribution | |
CN100371927C (zh) | 使用机器翻译技术标识释义的方法和系统 | |
CN112699677B (zh) | 事件提取方法及装置、电子设备、存储介质 | |
US20150278195A1 (en) | Text data sentiment analysis method | |
US9613093B2 (en) | Using question answering (QA) systems to identify answers and evidence of different medium types | |
Alruily et al. | Crime profiling for the Arabic language using computational linguistic techniques | |
Pham et al. | Information extraction for Vietnamese real estate advertisements | |
Bharti et al. | PolitePEER: does peer review hurt? A dataset to gauge politeness intensity in the peer reviews | |
Tadić | Croatian lemmatization server | |
Lytvyn et al. | The Lexical Innovations Identification in English-Language Eurointegration Discourse for the Goods Analysis by Comments in E-Commerce Resources | |
Nordhoff et al. | Imtvault: Extracting and enriching low-resource language interlinear glossed text from grammatical descriptions and typological survey articles | |
Makrynioti et al. | PaloPro: a platform for knowledge extraction from big social data and the news | |
US20220366135A1 (en) | Extended open information extraction system | |
Tongtep et al. | Pattern-based extraction of named entities in thai news documents | |
Kirk | The present perfect in Irish English | |
Din et al. | Corpus-Based Study of Identifying Verb Patterns Used in Pakistani Newspaper Headlines | |
Verhoeven et al. | Automatic Compound Processing: Compound Splitting and Semantic Analysis for Afrikaans and Dutch | |
Elsebai | A rules based system for named entity recognition in modern standard Arabic | |
Malik et al. | A Hierarchical Part of Speech Tag set for Saraiki Language | |
Helen | Automatic abstractive summarization task for new article | |
Chang et al. | International Journal of Computational Linguistics & Chinese Language Processing, Volume 25, Number 1, June 2020 | |
Kaur et al. | Evaluation of Punjabi named entity recognition using context word feature | |
Goujon et al. | Extraction of relations between entities from texts by learning methods | |
Mattingly | Adapting Topic Modeling for Computational Analysis of Framing Processes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |