CN103530281B

CN103530281B - 一种论元抽取方法和系统

Info

Publication number: CN103530281B
Application number: CN201310482550.7A
Authority: CN
Inventors: 李培峰; 朱巧明; 周国栋; 张玉华; 孔芳
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2013-10-15
Filing date: 2013-10-15
Publication date: 2016-06-22
Anticipated expiration: 2033-10-15
Also published as: CN103530281A

Abstract

本发明公开一种论元抽取方法和系统，所述方法基于标注信息对训练语料中标注事件实例进行处理，得到训练语料论元模式集合；基于测试语料中事件实例的角色集合对事件实例进行处理，得到测试语料候选论元模式集合；根据论元、触发词语义相似性及依存路径相似性，计算每一候选论元模式和训练语料论元模式集合中各论元模式的模式语义相似度，并基于此获取包含候选论元匹配事件实例中可匹配角色的匹配度信息的论元模式相似度集合；基于论元模式相似度集合，选取与事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为角色的论元。可见本发明基于语义特征对中文事件的论元进行提取，提高了中文事件论元提取的准确率和性能。

Description

一种论元抽取方法和系统

技术领域

本发明属于文本信息抽取领域，尤其涉及一种论元抽取方法和系统。

背景技术

事件的论元抽取是理解自然语言的重要基础，可以为人们快速获取知识提供便利的途径，是计算机理解自然语言的必要条件，对自动文摘、机器翻译、问答系统等具有积极的促进作用。

目前，主流的事件论元抽取方法为机器学习法，该方法利用句法特征来识别事件的论元及其角色。但中文是一种话题驱动的语言，是一种意合语言，以能够表达清楚语义为准，区别于英文句子较为严谨的句法结构，中文句子结构较为松散，句子成分搭配也较为灵活，且为了表述的连贯性和简洁性，部分句法成分缺省是一种常态，从而很多中文句子存在句法特征不够明显的特点。因而上述基于句法特征的事件论元抽取方法在抽取中文事件的论元时，准确率较低、性能较低。

发明内容

有鉴于此，本发明的目的在于提供一种论元抽取方法和系统，实现基于语义特征对中文事件的论元进行提取，从而提高中文事件论元提取的准确率和性能。

为此，本发明公开如下技术方案：

一种论元抽取方法，包括：

从训练语料中抽取包含标注信息的标注事件实例，基于所述标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，其中，所述训练语料论元模式集合包括至少一个训练语料论元模式，所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组；

从测试语料中抽取事件实例，获取所述事件实例的角色集合，基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，其中，所述测试语料候选论元模式集合包括至少一个候选论元模式，所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组；

根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合；

基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合，所述论元模式相似度集合包括论元模式相似度元素，所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息；

基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。

优选的，所述基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合具体包括：

对所述事件实例进行实体识别和依存关系分析，得到测试语料实体集合和测试语料依存关系集合；

依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理，得到测试语料候选论元集合；

根据所述测试语料依存关系集合，获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径；

将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合，得到测试语料候选论元模式，各测试语料候选论元模式构成测试语料候选论元模式集合；

依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式，得到测试语料筛选论元模式，将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。

优选的，所述根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合具体包括：

基于优化的夹角余弦法，利用公式（1）计算所述候选论元模式p_m和所述训练语料论元模式集合TP中的每个论元模式tp_j的依存路径相似度SimD(p_m,tp_j)：

SimD (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} \times λ_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

其中，n是p_m和tp_j中不同的依存关系数目，是p_m的依存路径中各个依存关系出现个数的向量，是tp_j的依存路径中各个依存关系的出现个数的向量，是训练语料中各个依存关系的权重向量；

利用公式（2）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个模式tpj的论元语义相似度SimA(p_m,tp_j)：

基于语义距离，利用公式（3）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个论元模式tp_j的触发词义原相似度SimT(p_m,tp_j)：

SimT(p_m，tp_j)＝α/(α+d)(3)

其中，d是在义原层次体系中，p_m中的触发词义原到tp_j中的触发词义原的路径长度，α是一个可调节的参数；

利用公式（4）计算所述测试语料中的候选论元模式p_m和所述训练语料论元模式集合中的每个论元模式tp_j的模式语义相似度Sim(p_m,tp_j)：

Sim(p_m，tp_j)＝β×SimT(p_m，tp_j)+(l-β)×SimA(p_m，tp_j)×SimD(p_m，tp_j)(4)其中，β是一个可调节的参数；

基于所述模式语义相似度，得到所述测试语料中的候选论元模式p_m的模式语义相似度集合，所述模式语义相似度集合的每个元素由所述训练语料论元模式集合中的每个论元模式tp_j及其模式语义相似度Sim(p_m,tp_j)组成。。

优选的，所述基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合具体包括：

从所述事件实例的角色集合中获取每个候选论元模式中的候选论元可与之匹配的各个可匹配角色，各个可匹配角色构成可匹配角色集合；

针对所述可匹配角色集合中的每个可匹配角色，从所述候选论元模式的模式语义相似度集合中选取论元模式中论元对应的角色和所述可匹配角色一致的各个模式语义相似度，并选取所述各个模式语义相似度中值最大的模式语义相似度作为所述候选论元模式中的候选论元匹配所述可匹配角色的匹配度；

将所述匹配度和所述可匹配角色进行组合，得到格式为（匹配度，角色）的匹配度角色对；

将所述候选论元模式的各匹配度角色对添加到所述候选论元模式，得到与所述候选论元模式相对应的论元模式相似度元素，各候选论元模式相对应的论元模式相似度集合元素构成论元模式相似度集合。

优选的，所述论元抽取方法，还包括：

若所述事件实例中存在未匹配论元的角色，则依据预设的相关事件语义推理规则，从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。

优选的，所述预设的相关事件语义推理规则具体包括并列触发词实例推理规则、多角色论元推理规则、多论元角色推理规则、同指事件推理规则以及相关事件推理规则。

一种论元抽取系统，包括训练语料分析模块、测试语料分析模块、计算模块、获取模块和论元抽取模块，其中：

所述训练语料分析模块，用于从训练语料中抽取包含标注信息的标注事件实例，基于所述标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，其中，所述训练语料论元模式集合包括至少一个训练语料论元模式，所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组；

所述测试语料分析模块，用于从测试语料中抽取事件实例，获取所述事件实例的角色集合，基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，其中，所述测试语料候选论元模式集合包括至少一个候选论元模式，所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组；

所述计算模块，用于根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合；

所述获取模块，用于基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合，所述论元模式相似度集合包括论元模式相似度元素，所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息；

所述论元抽取模块，用于基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。

优选的，所述测试语料分析模块包括：

第二分析模块，用于对所述事件实例进行实体识别和依存关系分析，得到测试语料实体集合和测试语料依存关系集合；

候选论元获取模块，用于依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理，得到测试语料候选论元集合；

第二路径获取模块，用于根据所述测试语料依存关系集合为，获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径；

第二组合模块，用于将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合，得到测试语料候选论元模式，各测试语料候选论元模式构成测试语料候选论元模式集合；

筛选模块，用于依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式，得到测试语料筛选论元模式，将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。

优选的，所述计算模块包括：

第一计算模块，用于基于优化的夹角余弦法，利用如下公式（1）计算所述候选论元模式p_m和所述训练语料论元模式集合TP中的每个论元模式tp_j的依存路径相似度SimD(p_m,tp_j)：

SimD (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} \times λ_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

其中，n是p_m和tp_j中不同的依存关系数目，是p_m的依存路径中各个依存关系出现个数的向量，是tp_j的依存路径中各个依存关系的出现个数的向量，是训练语料中各依存关系的权重向量；

第二计算模块，用于利用如下公式（2）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个模式tp_j的论元语义相似度SimA(p_m,tp_j)：

第三计算模块，用于基于语义距离，利用如下公式（3）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个论元模式tp_j的触发词义原相似度SimT(p_m,tp_j)：

SimT(p_m，tp_j)＝α/(α+d)(3)

第四计算模块，用于利用公式（4）计算所述测试语料中的候选论元模式p_m和所述训练语料论元模式集合中的每个论元模式tp_j的模式语义相似度Sim(p_m,tp_j)：

Sim(p_m，tp_j)＝β×SimT(p_m，tp_j)+(l-β)×SimA(p_m，tp_j)×SimD(p_m，tp_j)(4)

其中，β是一个可调节的参数；

模式语义相似度集合获取模块，用于基于所述模式语义相似度，得到所述测试语料中的候选论元模式p_m的模式语义相似度集合，所述模式语义相似度集合的每个元素由所述训练语料论元模式集合中的每个论元模式tp_j及其模式语义相似度Sim(p_m,tp_j)组成。

优选的，所述获取模块包括：

可匹配角色获取模块，用于从所述事件实例的角色集合中获取每个候选论元模式的候选论元可与之匹配的各个可匹配角色，各个可匹配角色构成可匹配角色集合；

匹配度获取模块，用于针对所述可匹配角色集合中的每个可匹配角色，从所述候选论元模式的模式语义相似度集合中选取论元模式中论元对应的角色和所述可匹配角色一致的各个模式语义相似度，并选取所述各个模式语义相似度中值最大的模式语义相似度作为所述候选论元模式中的候选论元匹配所述可匹配角色的匹配度；

组对模块，用于将所述匹配度和所述可匹配角色进行组合，得到格式为（匹配度，角色）的匹配度角色对；

添加模块，用于将所述候选论元模式的各匹配度角色对添加到所述候选论元模式，得到与所述候选论元模式相对应的论元模式相似度元素，各候选论元模式相对应的论元模式相似度集合元素构成论元模式相似度集合。

优选的，所述论元抽取系统，还包括关联匹配模块，所述关联匹配模块用于在所述事件实例中存在未匹配论元的角色时，依据预设的相关事件语义推理规则，从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。

本发明实施例提供的论元抽取方法，基于训练语料中标注事件实例的标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，基于测试语料中事件实例的角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，之后，以训练语料中的论元模式为参照，根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度，并在此基础上获取包含候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息的论元模式相似度集合，最后，基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。可见，本发明具体通过基于论元语义、触发词语义等进行论元的提取，实现了基于语义特征对中文事件的论元进行提取的目的，从而提高了中文事件论元提取的准确率和性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的论元抽取方法的一种流程图；

图2是本发明实施例一提供的获取训练语料论元模式集合的流程图；

图3是本发明实施例一提供的获取测试语料候选论元模式集合的流程图；

图4是本发明实施例一提供的计算模式语义相似度的流程图；

图5是本发明实施例一提供的获取论元模式相似度集合的流程图；

图6是本发明实施例一提供的基于论元模式相似度集合为事件实例的角色匹配论元的流程图；

图7是本发明实施例二提供的论元抽取方法的另一种流程图；

图8是本发明实施例三提供的论元抽取系统的一种结构图；

图9是本发明实施例三提供的论元抽取系统的另一种结构图。

具体实施方式

为了引用和清楚起见，下文中使用的技术名词、简写或缩写总结解释如下：

实体：Entity，是指一个语义类别中的对象或对象的集合，如人名、交通工具和地名等。

事件：Event，指在真实世界中已经/可能/将要发生的事情，一般包括时间、地点和人物等角色。由于表达方式的不同，每个特定的事件可能有不止一个的事件实例。

事件类型：EventType，事件的类别，如“出生”、“死亡”和“攻击”等。

事件实例：EventMention，在具体文档中描述一个事件的句子。

触发词：Trigger，用于识别事件的谓词（动词和名词居多），又称为锚（Anchor），是事件的基本要素之一。抽取事件也就是抽取事件的触发词。如“生于”、“出生”等就是出生事件的触发词。

触发词实例：TriggerMention，触发词在具体句子中的出现，如句子“张三出生于上海。”和“李四出生于2012年。”是2个事件实例，其中的2个“出生”就是触发词“出生”的两个实例。

论元：Argument，和事件相关的实体实例，是构成事件的基本要素之一。

角色：Role，表述论元和事件的关系，如出生事件的角色有人物、出生时间、出生地点等。

训练语料：TrainingData，标注了各种事件信息（包括触发词、实体、论元、角色）的文档集合，也称为标注语料。本发明从该语料中学习论元在事件实例中的表示形式，从而构建新的论元抽取和推理方法，并最终使用该方法从测试语料中抽取事件实例的论元信息。

测试语料：TestData，未标注论元信息的事件句集合，本发明的目标是从测试语料中抽取每个事件实例的论元信息并赋予不同的角色。

知网：HowNet，一个由董振东等建立的，以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

义原：Sememe，用于描述词汇语义的最小意义单位。如“129die死”就是词汇“死”的一个义原，其中数字是义原的编号。

召回率：Recall，系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽取性能的指标之一。

准确率：Pricision，系统正确抽取的事件个数占所有抽取出的事件的比例。衡量事件抽取性能的指标之一。

F1指数：F1-Measure，衡量事件抽取性能的综合指标之一，准确率（P）和召回率（R）的加权几何平均值，即：

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开一种论元抽取方法和系统，用于从测试语料中抽取事件实例的各个不同角色的论元信息，本发明适用于对中文事件进行论元抽取。以下将通过各实施例对本发明的论元抽取方法和系统进行详细说明。

实施例一

本发明实施例一公开了一种论元抽取方法，如图1所示，该方法包括：

S1：从训练语料中抽取包含标注信息的标注事件实例，基于所述标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，其中，所述训练语料论元模式集合包括至少一个训练语料论元模式，所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组。

其中，请参见图2，步骤S1具体包括：

S11：从训练语料中抽取包含标注信息的标注事件实例。

具体地，本实施例从训练语料的每个文档中抽取标注事件实例，即带有标注信息的事件实例，得到训练语料标注事件实例集合，所述文档的内容包括原始文档、标注的事件实例和实体信息。以下通过例1的训练语料文档来说明抽取的过程，例1具体如下：

例1：文档名：XIN20001231.0200.0010

<event_mentionID="EV1-1"TYPE="Attack">

<mention_extentSTART="300"END="349">以色列军方叙述星期六早

的攻击始末时说，一名恐怖分子向守卫克法尔·达罗姆犹太殖民区陆

军哨所的士兵开枪。

<entity_mentionID="E8-2"TYPE="PER"START="321"END="324">恐

怖分子</entity_mention>

<entity_mentionID="E13-1"TYPE="LOC"START="343"END="344">

哨所</entity_mention>

<entity_mentionID="E16-1"TYPE="PER"START="345"END="346">

士兵</entity_mention>

……

抽取所述文档内的每一个XML（可扩展标记语言，ExtensibleMarkupLanguage）标签<event_mention>的内容作为标注事件实例，各标注事件实例构成标注事件实例集合。其中，<event_mention>、<mention_extent>、<mention_argument>、<entity_mention>和<anchor>分别是事件实例、事件实例所在的事件句、事件实例的论元、实体和触发词的标记（标注）。<event_mention>的属性TYPE标记了事件实例所属的事件类型，如例1的事件实例中触发词为“开枪”，事件类型为“Attack”（攻击）；<mention_argument>的属性ROLE表示论元填充的角色名称，本例中论元“恐怖分子”填充的角色为“Attacker”（攻击者）；<entity_mention>的属性TYPE表示实体的类型，如“PER”（人）和“LOC”（地理位置）；“Victim”（牺牲者）和“Place”（地点）是角色名。

S12：根据所述标注事件实例的标注信息，对所述标注事件实例进行论元抽取、依存关系分析，得到训练语料论元集合和训练语料依存关系集合。

抽取每个标注事件实例的所有论元，得到训练语料论元集合。具体抽取过程如下：抽取标注事件实例内的每一个XML标签<mention_argument>的内容作为论元；通过<mention_argument>的属性REFID和<entity_mention>的属性ID的对应关系，可以得到所述论元的实体类型。所述训练语料论元集合中每元素的格式如下：

<事件句编号><事件类型><文档名><(论元1，角色1，实体类型1，位置1)，(论元2，角色2，实体类型2，位置2)，……>

例1中的事件实例在所述训练语料论元集合中的论元如以下例2所示：

例2：<1201><Attack><XIN20001231.0200.0010><(恐怖分子，Attacker，PER，START="321"END="324")，(哨所，Place，LOC，START="343"END="344")，(士兵，Victim，PER，START="345"END="346")>

抽取每一标注事件实例内的每一个XML标签<mention_extent>的内容作为事件实例的事件句，得到训练语料事件句集合，所述训练语料事件句的格式如下：

<事件句编号><文档名><事件实例ID><事件类型><触发词，触发词位置><事件句>

则例1中事件实例的事件句如以下例3所示：

例3：<1201><XIN20001231.0200.0010><EV1-1><Attack><开枪，START="347"END="348"><以色列军方叙述星期六早的攻击始末时说，一名恐怖分子向守卫克法尔·达罗姆犹太殖民区陆军哨所的士兵开枪。>。

采用分词工具，分别对所述训练语料事件句集合中的每个事件句进行词语切分，得到用空格分隔词语的训练语料分词句子集合，例3中的事件句经过词语切分后如例4所示：

例4：以色列军方叙述星期六早的攻击始末时说，一名恐怖分子向守卫克法尔·达罗姆犹太殖民区陆军哨所的士兵开枪。

根据所述训练语料论元集合中的实体信息，通过词合并或词切分操作修改所述训练语料分词句子集合中的分词结果，使得每个实体作为一个完整的词（不被空格分隔成多个词），得到训练语料实体处理句子集合。在例4中“克法尔·达罗姆犹太殖民区”和“恐怖分子”是标注实体，所以该句被修改为如下例5：

例5：以色列军方叙述星期六早的攻击始末时说，一名恐怖分子向守卫克法尔·达罗姆犹太殖民区陆军哨所的士兵开枪。

采用依存关系分析工具，对所述训练语料实体处理句子集合进行依存关系分析，得到训练语料依存关系集合。所述依存关系集合的格式如下：

<事件句编号><依存关系1，依存关系2，……>

例5经过依存关系分析后，得到的依存结果如例6所示：

例6：<3102><nn(军方-2,以色列-1)，nsubj(叙述-3,军方-2)，prep(克法尔达罗姆犹太殖民区-15,向-13)，nn(哨所-17,陆军-16)，nsubj(开枪-4,恐怖分子-1)，prep(开枪-4,向-2)，pobj(向-2,士兵-3)……>

其中，“nn”，“nsubj”、“pobj”和“prep”是Standford依存分析工具输出的关系标签，分别表示并列名词、主谓、介词性宾语和介词关系。

S13：根据所述训练语料依存关系集合，获取所述训练语料论元集合中每个论元到其对应的触发词实例的依存路径。

获取训练语料论元集合中的每个论元（实体）到其对应的触发词实例的依存路径。具体过程如下：

从训练语料论元集合获取每一个<论元，触发词>对，例如例2中三个论元和对应的触发词会生成3个<论元，触发词>对：<恐怖分子，开枪>、<哨所、开枪>和<士兵，开枪>；根据所述论元对应的事件句编号分别从训练语料依存关系集合中获取所述论元所在事件句的所有依存关系；并从所述依存关系中利用树广度遍历的方法，以所述论元为树的根结点，找到所述根结点到所述触发词的依存路径。

S14：将所述论元、所述论元对应的触发词实例和依存路径进行组合，得到训练语料论元模式，各训练语料论元模式构成训练语料论元模式集合。

把所述论元、触发词和依存路径组合得到<论元，触发词，依存路径>三元组，作为训练语料论元模式，加入训练语料论元模式集合。

此处需要说明的是，依存路径是指任意两个结点（例如论元和触发词）之间通过依存关系建立的路径。如例6中根据依存关系“prep(开枪-4,向-2)”和“pobj(向-2,士兵-3)”得到论元“士兵”和触发词“开枪”之间的依存路径是“pobj->prep”，则对应的训练语料论元模式为<士兵，开枪，pobj->prep>。

S2：从测试语料中抽取事件实例，获取所述事件实例的角色集合，基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，其中，所述测试语料候选论元模式集合包括至少一个候选论元模式，所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组。

请参见图3，步骤S2具体包括：

S21：从测试语料中抽取事件实例，获取所述事件实例的角色集合。

具体地，首先从测试语料各个文档中抽取事件实例（事件句），得到测试语料事件实例集合，并获取所述事件实例的角色集合，本实施例中，针对测试语料事件实例中的每个事件句，从预先定义的事件类型定义文档中读取所述事件句的事件类型对应的角色集合，例如以下例7的“Attack”（攻击）事件实例对应的角色有“Attacker”（攻击者）、“Target”（被攻击者）、“Time”（时间）、“Place”（地点）、“Instrument”（攻击武器）。需要说明的是，在抽取事件实例之前，测试语料中的事件实例已经由相应的事件句识别工具识别并标注。本发明不涉及事件实例的识别问题，重点在于识别事件实例中的论元信息。所述测试语料事件实例集合中每个事件实例的格式具体请参见例7的测试语料事件实例：

例7：<event_mentionID=”EV5-1”SNO=”3102”TYPE=”Attack”ANCHOR=”打”ANCHOR_START="521"ANCHOR_END="521"><今天早上，我正在吃1块钱的蛋筒时，看到大街上一个少年挥棒打了一个中年妇女。</event_mention>

其中，SNO、ANCHOR、ANCHOR_START和ANCHOR_END分别表示句子编号、触发词、触发词起始和结束位置。

S22：对所述事件实例进行实体识别和依存关系分析，得到测试语料实体集合和测试语料依存关系集合。

采用分词工具对所述测试语料事件实例集合中的每个事件句进行词语切分，得到用空格分隔词语的测试语料分词句子集合。

采用实体识别工具，对测试语料分词句子集合中的每个事件实例进行实体识别，各事件实例的实体构成测试语料实体集合，所述测试语料实体集合中每一元素即事件实例的实体格式如下：

<事件句编号><事件类型><(实体1，实体类型1，位置1)，(实体2，实体类型2，位置2)，……>

从例7对应的事件句中可抽取7个实体，具体如例8所示：

例8：<3102><Attack><今天早上，TIME，START="502"END="505"><我，PER，START="507"END="507”><1块钱，MONEY，START="512"END="514"><大街，LOC，START="512"END="513"><少年，PER，START="517"END="518")，(棒，WEA，START="520"END="520")，(中年妇女，PER，START="525"END="528")>

其中，“TIME”、“MONEY”和“WEA”是实体类型，分别表示时间、钱和武器。

相应地，根据测试语料实体集合中的实体信息，通过词合并或词切分操作修改测试语料分词句子集合中的分词结果，使得每个实体作为一个完整的词（不被空格分隔成多个词），得到测试语料实体处理句子集合。

与训练语料依存关系分析过程相类似，此处仍采用依存关系分析工具对测试语料实体处理句子集合中每个句子进行依存关系分析，得到测试语料依存关系集合。所述测试语料依存关系集合的格式如下：

<事件句编号><依存关系1，依存关系2，……>。

S23：依据所述角色集合对所述测试语料实体集合中的实体进行分析、处理，得到测试语料候选论元集合。

接下来，根据测试语料事件实例的角色定义从测试语料实体集合中抽取各个事件实例的候选论元，加入测试语料候选论元集合。具体过程如下：在获取了测试语料事件实例集合中每个事件实例对应的角色集合的基础上，获取所述角色集合中每个角色可填充（匹配）的实体类型，从而得到所述角色集合可填充的实体类型集合。如例7的“Attack”（攻击）事件实例对应的角色有“Attacker”（攻击者）、“Target”（被攻击者）、“Time”（时间）、“Place”（地点）、“Instrument”（攻击武器），其对应的实体类型集合为“PER，ORG（组织），TIME，LOC，FAC（设施），WEA，VEH（交通工具）”。则例7中只有实体“1块钱”的类型不在所述实体类型集合中，因此把其它6个实体作为测试语料候选论元，加入测试语料候选论元集合。相应于事件实例的实体格式：<事件句编号><事件类型><(实体1，实体类型1，位置1)，(实体2，实体类型2，位置2)，……>，测试语料事件实例的候选论元格式为：<事件句编号><事件类型><(候选论元1，实体类型1，位置1)，(候选论元2，实体类型2，位置2)，……>。

S24：根据所述测试语料依存关系集合，获取所述测试语料候选论元集合中的每一候选论元到其对应的触发词实例的依存路径。

分别获取测试语料候选论元集合中的每个候选论元到其对应的触发词实例的依存路径。具体的获取过程为：从测试语料候选论元集合获取每一个<候选论元，触发词>对；根据所述候选论元对应的事件句编号分别从所述测试语料依存关系集合中获取所述候选论元所在事件句的所有依存关系；并从所述依存关系中利用树广度遍历的方法，以所述候选论元为树的根结点，找到所述根结点到所述触发词的依存路径。

S25：将所述候选论元、所述候选论元对应的触发词实例和依存路径进行组合，得到测试语料候选论元模式，各测试语料候选论元模式构成测试语料候选论元模式集合。

把所述候选论元、触发词和依存路径组合得到<候选论元，触发词，依存路径>三元组，作为候选论元模式，加入测试语料候选论元模式集合。

S26：依据预设的筛选规则从所述测试语料候选论元模式中删除不符合所述预设的筛选规则的候选论元模式，得到测试语料筛选论元模式，将所述测试语料筛选论元模式替换所述测试语料候选论元模式作为新的测试语料候选论元模式。

本实施例为了更加准确地对测试语料进行论元提取，继续对上述候选论元模式集合中的候选论元模式进行筛选。具体根据预先设定的筛选规则从测试语料候选论元模式集合中删除不符合规则的候选论元模式，得到删除后的测试语料候选论元模式，将所述删除后的测试语料候选论元模式标记为测试语料筛选论元模式集合。

本实施例提供的筛选规则如下：

1）并列实体筛选规则。

如果存在多个实体并列出现的情况，即在事件实例中两个或多个实体连着出现，则只保留最后一个实体的模式，从测试语料候选论元模式集合中删除在并列结构中的其它实体对应的实体（候选论元）模式。

如在事件实例“公安部/GPEA级通缉犯/PER周克华/PER在重庆/LOC沙坪坝区/LOC童家桥/LOC被公安民警/PER成功击毙。”中出现的并列实体有“公安部/GPEA级通缉犯/PER周克华/PER”和“重庆/LOC沙坪坝区/LOC童家桥/LOC”，则只保留“周克华/PER”和“童家桥/LOC”这两个实体。这样做的依据是：依据事件实例中事件的实际情况，绝大多数情况下，在并列结构中最后一个实体为事件论元。

2）时间角色规则。

如果一个实体的类型是“TIME”（时间），且其在事件实例的位置在触发词实例后面，则从测试语料候选论元模式集合中删除该实体对应的候选论元模式。

3）依存路径长度规则。

如果某一实体到其对应触发词的依存路径长度大于第一阈值（如：10），则从测试语料候选论元模式集合中删除该实体对应的候选论元模式。

依存路径长度是指依存路径中依存关系的数目，例如依存路径“pobj->prep”和“nn->nsubj->prep->pobj”的依存路径长度分别为2和4。

测试语料候选论元模式集合中不符合上述筛选规则的测试语料候选论元模式被删除后得到测试语料筛选论元模式集合，将该测试语料筛选论元模式集合替代原有的测试语料候选论元模式集合，作为新的测试语料候选论元模式集合，后续继续对该新的测试语料候选论元模式进行处理，以抽取出测试语料中事件实例的论元。

S3：根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合。

其中，如图4所示，步骤S3具体包括：

S31：基于优化的夹角余弦法，利用如下公式（1）计算所述候选论元模式p_m和所述训练语料论元模式集合TP中的每个论元模式tp_j的依存路径相似度SimD(p_m,tp_j)：

SimD (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} {\times λ}_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

其中，n是p_m和tp_j中不同的依存关系数目，是p_m的依存路径中各个依存关系出现个数的向量，是tp_j的依存路径中各个依存关系的出现个数的向量，是训练语料中各个依存关系的权重向量，λ₁，λ₂，…，λ_n分别表示训练语料中各依存关系在所述训练语料论元模式集合所有论元模式的依存路径中出现的概率，具体通过统计方式得到。

例如，依存路径“pobj->prep”和“prep->nn->pobj”中有三种依存关系，分别为“pobj”（1）、“prep”（2）和“nn”（3）（括号中的数字表示向量中变量的下标，即q₁和d₁对应依存关系“pobj”，q₂和d₂对应“prep”），则假设则它们的依存路径相似度为：

\frac{1 \times 1 \times {0.1}^{2} + 1 \times 1 \times {0.01}^{2} + 0 \times 1 \times 0.00 5^{2}}{\sqrt{{(1 \times 0.1)}^{2} + {(1 \times 0.01)}^{2} + {(0 \times 0.005)}^{2}} \times \sqrt{{(1 \times 0.1)}^{2} + {(1 \times 0.01)}^{2} + {(1 \times 0.005)}^{2}}} = 0.9988

S32：利用如下公式（2）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个模式tp_j的论元语义相似度SimA(p_m,tp_j)：

具体地，本实施例中，论元语义相似度通过相比较的两个论元的实体类型是否相同来衡量，即如果训练语料论元模式中的论元与测试语料候选论元模式中的候选论元的实体类型相同，例如都是“PER”，则两者的论元语义相似度为1，否则对该论元语义相似度赋值一个小的数字0.1。

S33：基于语义距离，利用公式（3）计算所述候选论元模式p_m和所述训练语料论元模式集合中每个论元模式tp_j的触发词义原相似度SimT(p_m,tp_j)：

SimT(p_m，tp_j)＝α/(α+d)(3)

具体地，从HowNet中检索得到p_m和tp_j中的触发词的义原，由于所有的义原在HowNet中根据上下位关系构成了一个树状的义原层次体系，本发明采用简单的通过语义距离来计算义原的相似度，本实施例具体采用p_m和tp_j中触发词的义原在义原层次体系中的路径距离（即路径长度）d来表示语义距离，以计算两个触发词的义原相似度。其中，路径长度d是一个正整数，可以通过调用HowNet提供的函数获得。α是一个可调节的参数，本实施例将其设置为1.6。SimT(p_m,tp_j)的值在0-1之间。

S34：利用公式（4）计算所述测试语料中的候选论元模式p_m和所述训练语料论元模式集合中的每个论元模式tp_j的模式语义相似度Sim(p_m,tp_j)：

Sim(p_m，tp_j)＝，β×SimT(p_m，tp_j)=(1-β)×SimA(p_m，tp_j)×SimD(p_m，tp_j)(4)

其中，β是一个可调节的参数。本实施例中，β取值0.6。

S35：基于以上步骤得到的模式语义相似度，得到所述测试语料中的候选论元模式p_m的模式语义相似度集合，所述模式语义相似度集合的每个元素由所述训练语料论元模式集合中的每个论元模式tpj及其模式语义相似度Sim(p_m,tp_j)组成。

S4：基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合，所述论元模式相似度集合包括论元模式相似度元素，所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息。

其中，参见图5，步骤S4具体包括：

S41：从所述事件实例的角色集合中获取每个候选论元模式的候选论元可与之匹配的各个可匹配角色，各个可匹配角色构成可匹配角色集合。

具体地，依据所述事件实例的触发词所属的事件类型，从预先定义的事件类型定义文档中读取所述事件类型可以填充或匹配模式中候选论元（实体）的各个可填充角色，即各个可匹配角色，构成该候选论元的可匹配角色集合。例如“Attack”（攻击）事件中角色“Attacker”（攻击者）和“Target”（攻击目标）对应的实体类型都是“GPE/ORG/PER”，那么实体类型为PER的候选论元“少年”可以匹配的角色集合是{Attacker，Target}。

S42：针对所述可匹配角色集合中的每个可匹配角色，从所述候选论元模式的模式语义相似度集合中选取训练语料论元模式中论元对应的角色和所述可匹配角色一致的各个模式语义相似度，并选取所述各个模式语义相似度中值最大的模式语义相似度作为所述候选论元模式中的候选论元匹配所述可匹配角色的匹配度。

S43：将所述匹配度和所述可匹配角色进行组合，得到格式为（匹配度，角色）的匹配度角色对。

S44：将所述候选论元模式的各匹配度角色对添加到所述候选论元模式，得到与所述候选论元模式相对应的论元模式相似度元素，各候选论元模式相对应的论元模式相似度集合元素构成论元模式相似度集合。

具体地，例如模式“<少年，打，nsubj->conj>”加入了匹配度角色对后，得到的论元模式相似度元素为：<少年，打，nsubj->conj，（0.931，Attacker），（0.547，Target）>，表示候选论元“少年”匹配触发词实例“打”的角色“Attacker”的匹配度为0.931，匹配角色“Target”的匹配度为0.547。匹配度越高，则所述候选论元匹配所述角色的概率就越高。

S5：基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。

其中，请参见图6，步骤S5具体包括：

S51：删除所述论元模式相似度集合中匹配度值不大于预设阈值的所有匹配度角色对，删除所述论元模式相似度集合中无匹配度角色对的候选论元模式，将删除处理后的论元模式相似度集合标记为可选模式集合，对可选模式集合中的论元模式相似度元素按照其包括的各匹配度角色对中取值最高的匹配度进行排序。

具体地，可依据论元模式相似度元素包括的各匹配度角色对中取值最高的匹配度将各论元模式相似度元素升序排序或降序排序，本实施例采用降序排序，例如，论元模式相似度元素1<少年，打，nsubj->conj，（0.931，Attacker），（0.547，Target）>及论元模式相似度元素2<中年妇女，打，……，（0.592，Attacker），（0.884，Target）>，则论元模式相似度元素1中取值最高的匹配度为0.931，论元模式相似度元素2中取值最高的匹配度为0.884，则依据论元模式相似度元素包括的各匹配度角色对中取值最高的匹配度降序排序后论元模式相似度元素1在论元模式相似度元素2之前。

S52：判断所述可选模式集合是否为空，若判断结果为否，则执行步骤S53；否则若判断结果为是，则结束。

S53：从所述可选模式集合中选择匹配度最高的论元模式相似度元素。

仍以上述论元模式相似度元素1<少年，打，nsubj->conj，（0.931，Attacker），（0.547，Target）>及论元模式相似度元素2<中年妇女，打，……，（0.592，Attacker），（0.884，Target）>为例，最高匹配度为（0.931，Attacker），则上述两个论元模式相似度元素1、2经步骤S53处理后最终需的选择结果为论元模式相似度元素1。

S54：判断所述论元模式相似度元素包括的匹配度角色对是否为一个，若判断结果为是，则执行步骤S58；否则，若判断结果为否，执行步骤S55。

S55：判断所述论元模式相似度元素包括的候选论元模式中候选论元和触发词的位置关系。

具体地，如果候选论元的属性“Start”的值小于等于触发词实例的属性“Start”的值，则所述候选论元和触发词的位置关系置为“前”；否则，所述位置关系为“后”；如果在候选论元和触发词实例之间存在“被”，则把依据属性“Start”的值所得的位置关系反转，即“前”变成“后”，“后”变成“前”；如果候选论元前存在动词“把”，则同样把依据属性“Start”的值所得的位置关系反转。

S56：从所述论元模式相似度元素中读取匹配度最高的匹配度角色对，获取所述匹配度角色对中的角色，并从预先定义的事件类型定义文档中读取所述角色在事件实例中和触发词的参照位置信息。

其中，所述参照位置信息具体为角色在触发词前或角色在触发词后。

S57：判断所述候选论元和触发词的位置关系与所述参照位置信息是否一致，若判断结果为是，则执行步骤S58；否则，若判断结果为否，则执行步骤S59。

S58：判断所述角色是否已经有论元匹配，若判断结果为否，则将所述论元模式相似度元素中的候选论元与所述角色匹配，作为所述角色的论元，并把对应事件实例的编号，所述候选论元和所述角色一起加入事件角色集合，在可选模式集合中删除所述论元模式相似度元素；转S52。

其中，所述事件角色集合的格式为：<事件句编号><实体，角色>。

例7经过S5各步骤处理后的事件角色集合如下：

{<3102><今天早上，Time>，<3102><少年，Attacker>，<3102><棒，Intrument>，<3102><中年妇女，Target>}。

S59：从所述论元模式相似度元素中删除所述角色所在的匹配度角色对；若删除后论元模式相似度元素不包含匹配度角色对，则从所述可选模式集合中删除所述论元模式相似度元素；否则，重新对可选模式集合中的论元模式相似度元素按照匹配度角色对中最高的匹配度排序。之后，执行步骤S52。

通过以上步骤S1、S2、S3、S4及S5，实现了为事件实例的各个角色匹配论元，完成了事件实例的论元抽取过程。

需要说明的是，步骤S1及S2的执行次序不局限于本实施例中公开的顺序，可以依照本实施例先执行S1获取训练语料论元模式集合，再执行S2获取测试语料候选论元模式集合；也可以先执行S2，再执行S1；还可以S1、S2交叉执行，例如，首先获取训练语料标注事件实例集合和测试语料事件实例集合，之后，分别对所述训练语料标注事件实例集合和测试语料事件实例集合中的每个事件句进行词语切分、词语合并和分割、依存关系分析等操作，即获取训练语料论元模式集合以及测试语料候选论元模式集合的过程分阶段交叉进行。

还需要说明的是，本发明中涉及到的分词工具、实体识别工具和依存关系分析工具等，可采用自然语言处理技术中通用的工具，例如采用分词工具ICTCLAS，实体识别工具StanfordNER以及依存关系分析工具StanfordParser等。

综上所述，本发明实施例提供的论元抽取方法，基于训练语料中标注事件实例的标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，基于测试语料中事件实例的角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，之后，以训练语料中的论元模式为参照，根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度，并在此基础上获取包含候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息的论元模式相似度集合，最后，基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。可见，本发明具体通过基于论元语义、触发词语义等进行论元的提取，实现了基于语义特征对中文事件的论元进行提取的目的，从而提高了中文事件论元提取的准确率和性能。

实施例二

本发明实施例二公开了论元抽取方法的另一种流程，如图7所示，其在包括了实施例一中论元抽取方法的步骤S1、S2、S3、S4以及S5的基础上，还包括如下步骤：

S6：若所述事件实例中存在未匹配论元的角色，则依据预设的相关事件语义推理规则，从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。

具体地，如果所述角色集合中存在空的角色，即存在未匹配论元的角色，则对所述空的角色进行推理，具体从触发词语义、同指事件和关联事件入手，根据相关事件语义推理规则，从所述空角色的事件实例所在文档中获取与该事件实例相关的事件实例，并从相关事件实例在事件角色集合中的信息中选择合适的论元（与所述空角色相关的角色匹配的论元），将所述论元与所述空角色进行匹配。通过上述过程，最终空的角色被匹配了论元，得到新的事件角色集合，实现了为事件实例的各个角色匹配论元，完成论元抽取过程。

预设的相关事件语义推理规则包括：

（1）并列触发词实例推理规则。

其中，并列触发词指在句子中相邻出现的两个触发词。如“他杀死了这个少年。”中“Attack”（攻击）事件触发词实例“杀”和“Die”（死亡）事件触发词实例“死”就是并列触发词。并列触发词拥有相同的论元，可把一个触发词实例的论元填充到与之并列的另外一个触发词实例的角色中。

具体推理规则为：分别获取并列触发词实例所在事件实例的事件类型；根据所述事件类型从预先定义的并列触发词角色对应表中找到两个事件类型的角色对应关系；如果一个事件实例存在空角色，而另一个事件实例与之对应的角色存在匹配的论元，则把所述论元与所述空角色进行匹配。

所述并列触发词角色对应表描述了任意两个并列触发词所属事件的不同角色之间的可匹配关系。如上述攻击和死亡事件存在以下的可匹配关系：

Attack（Attacker）-Die（Agent）：攻击事件的攻击者一般是死亡事件的施事者；

Attack（Target）-Die（Victim）：攻击事件的被攻击者一般是死亡事件的牺牲者。

具体地，例如，“他杀死了这个少年。”中的两个事件实例在所述事件角色集合中的信息如下：

<5412><他，Attacker>：攻击事件

<5413><少年，Victim>：死亡事件

则可以根据以上攻击和死亡事件存在的可填充关系，从攻击事件的“Attacker”角色中获取论元，与死亡事件中对应的空“Agent”角色相匹配，得到死亡事件的“Agent”角色的论元：<5413><他，Agent>；同理，从死亡事件的“Victim”角色中获取论元，与攻击事件中对应的空“Target”角色相匹配，得到攻击事件的“Target”角色的论元：<5412><少年，Target>。

（2）多角色论元推理规则。

根据触发词的语义，部分论元可以填充到多个角色中。例如：在攻击事件中对自己的攻击，具体如触发词为“自杀”、“自刎”的攻击事件，其角色“Attacker”和“Target”是同一个论元。

根据上述特点，本实施例提供如下多角色论元推理规则：如果事件实例的触发词实例是“自+动词”结构，则根据预先定义的同一事件角色对应表，把非空角色的论元与该事件实例中相应的空角色进行匹配。

例如，事件实例“他今天上午在家中自残。”在所述事件角色集合中的信息为：<4329><他，Attacker>，该事件实例的角色“Target”为空角色，则根据定义的同一事件角色对应表中的对应关系“Attack(Attacker-Target)”，把角色“Attacker”的论元“他”填充到对应的角色“Target”中，得到：<4329><他，Target>，实现为空角色“Target”匹配论元。

（3）多论元角色推理规则。

在事件中，部分角色可以匹配多个论元。如离婚事件中的角色“Person”（人）可以是夫妻双方，死亡事件中的角色“Victim”（牺牲者）也可以匹配多个论元。

基于上述特点，本实施例提供如下多论元角色推理规则：如果所述事件角色集合中某个事件实例的角色匹配的论元和其它实体存在枚举关系，则把所述其它实体均作为所述角色的论元进行匹配。

其中，所述枚举关系的判定方法如下：两个实体在句子中利用“、”、“和”、“与”和“同”等枚举关系的连词或标点符号连接，则所述两个实体形成枚举关系。如“死亡人员有：张三、李四和王五。”中的人名“张三”、“李四”和“王五”就是枚举关系。如果已经识别“张三”为该死亡事件实例的角色“Victim”的论元，则同样把“李四”和“王五”与所述角色“Victim”相匹配。

（4）同指事件推理规则。

同指事件是指描述相同内容的事件实例。如在一个文档中，“……7名基地组织成员在美国战机的空袭中死亡。……..美国战机空袭了也门哈德拉毛省的一个修理厂。”中的两个触发词“空袭”分别触发了2个事件实例，它们指向同一个真实发生的事件，所以它们是同指事件。同指事件具有完全相同的角色和论元。

本实施例提供如下同指事件推理规则：任意的两个出现在同一文档中的同指事件实例，如果其中一个事件实例的某个角色匹配了论元，而另外一个事件实例相同的角色为空，则把所述论元与所述空角色相匹配。

例如针对上述“空袭”触发的两个事件实例，利用同指事件推理规则，可以把后一个事件实例的角色“Place”（地点）的论元“修理厂”与前一个事件实例的相同角色“Place”相匹配。

（5）相关事件推理规则。

相关事件是指两个事件实例之间存在一定的关系，如因果关系、时序关系等。相关事件一般会共享部分论元。如例子“美国战机空袭了也门哈德拉毛省的一个修理厂。……造成8人死亡。”，前面的攻击事件是后面的死亡事件的原因，很明显它们至少具有相同的角色“Time”（时间）和“Place”（地点），另外，攻击事件的角色“Attacker”（攻击者）一般是死亡事件的角色“Agent”（施事者）；攻击事件的角色“Target”(被攻击者)一般是死亡事件的角色“Victim”（牺牲者）。

基于此，提供如下相关事件推理规则：

对任意的两个出现在同一文档中的触发词实例，获取它们各自的事件类型；根据所述事件类型从预先定义的相关事件角色对应表中找到所述事件类型的角色对应关系；对每一对角色对应关系，如果其中一个事件实例的角色存在论元而另外一个事件实例与之对应的角色为空，则把所述论元与空角色相匹配。

相关事件角色对应表的结构如下：

<事件类型1（角色1）-事件类型1（角色1）>，表示事件类型1中的角色1和事件类型2中的角色2可以相互填充。

本实施例二是对实施例一中论元抽取方法的完善和补充，为经实施例一的方法抽取论元后，仍未匹配上论元的角色进一步地进行论元抽取、匹配，以实现更大程度地针对事件实例的各个角色对事件实例进行论元抽取。

实施例三

本发明实施例三基于上述实施例一和实施例二，公开了一种论元抽取系统。

首先，请参见图8，与实施例一的论元抽取方法相对应，本实施例提供的论元抽取系统包括如下结构：训练语料分析模块100、测试语料分析模块200、计算模块300、获取模块400和论元抽取模块500，其中：

训练语料分析模块100，用于从训练语料中抽取包含标注信息的标注事件实例，基于所述标注事件实例的标注信息对所述标注事件实例进行分析、处理，得到训练语料论元模式集合，其中，所述训练语料论元模式集合包括至少一个训练语料论元模式，所述训练语料论元模式包括由所述标注事件实例的论元、所述标注事件实例的触发词、所述论元到所述触发词的依存路径组合成的三元组。

训练语料分析模块100具体包括第一分析模块、第一路径获取模块和第一组合模块。

第一分析模块，用于根据所述标注事件实例的标注信息，对所述标注事件实例进行论元识别、依存关系分析，得到训练语料论元集合和训练语料依存关系集合；

第一路径获取模块，用于根据所述训练语料依存关系集合，获取所述训练语料论元集合中每个论元到其对应的触发词实例的依存路径；

第一组合模块，用于将所述论元、所述论元对应的触发词实例和依存路径进行组合，得到训练语料论元模式，各训练语料论元模式构成训练语料论元模式集合。

测试语料分析模块200，用于从测试语料中抽取事件实例，获取所述事件实例的角色集合，基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合，其中，所述测试语料候选论元模式集合包括至少一个候选论元模式，所述候选论元模式包括由所述事件实例的候选论元、所述事件实例的触发词、所述候选论元到所述触发词的依存路径组合成的三元组。

测试语料分析模块200包括第二分析模块、候选论元获取模块、第二路径获取模块、第二组合模块和筛选模块。

计算模块300，用于根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的各论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合。

计算模块300包括第一计算模块、第二计算模块、第三计算模块和第四计算模块。

SimD (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} \times λ_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

SimT(p_m，tp_j)＝α/(α+d)(3)

其中，β是一个可调节的参数。

获取模块400，用于基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合，所述论元模式相似度集合包括论元模式相似度元素，所述论元模式相似度元素包括候选论元模式中的候选论元匹配所述事件实例中可匹配角色的匹配度信息。

获取模块400包括可匹配角色获取模块、匹配度获取模块、组对模块和添加模块。

论元抽取模块500，用于基于所述论元模式相似度集合，选取与所述事件实例中的角色匹配度最高且匹配度大于预设阈值的候选论元作为所述角色的论元。

相应于实施例二的论元抽取方法，本实施例提供了论元抽取系统的另一种结构，请参见图9，其在包括了上述训练语料分析模块100、测试语料分析模块200、计算模块300、获取模块400和论元抽取模块500的基础上，还包括关联匹配模块600。

关联匹配模块600，用于在所述事件实例中存在未匹配论元的角色时，依据预设的相关事件语义推理规则，从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。

对于本发明实施例三公开的论元抽取系统而言，由于其与实施例一和实施例二公开的论元抽取方法相对应，所以描述的比较简单，相关相似之处请参见实施例一和实施例二中论元抽取方法部分的说明即可，此处不再详述。

综上所述，本发明结合论元语义和相关事件间的语义以及中文表述的本质，对中文事件的论元进行抽取、推理，和现有的方法相比，本发明可以抽取更多的事件论元，从而提高了中文事件论元抽取的整体性能。请参见表1，表1示出了本发明方法和现有方法论元抽取性能的对比实验数据，具体地，表1的数据基于中文ACE2005语料库。ACE2005语料库是信息抽取常用的训练语料，包括633个文档。

实验数据表明，本发明的方法与现有最好的中文事件论元抽取方法（Li,P.F.,ZhouG.D.,ZhuQ.M.andHouL.B.(2012).EmployingcompositionalsemanticsanddiscourseconsistencyinChineseeventextraction.InProceedingsofthe2012JointConferenceonEmpiricalMethodsinNaturalLanguageProcessingandComputationalNaturalLanguageLearning(EMNLP-CoNLL2012),pages1006-1016.）相比，性能得到了明显提高，F1值提高9.1%，从而验证了本发明的有效性。

表1

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种论元抽取方法，其特征在于，包括：

2.根据权利要求1所述的论元抽取方法，其特征在于，所述基于所述角色集合对所述事件实例进行分析、处理，得到测试语料候选论元模式集合具体包括：

3.根据权利要求2所述的论元抽取方法，其特征在于，所述根据论元语义相似性、触发词语义相似性以及依存路径相似性，计算所述测试语料候选论元模式中的每一候选论元模式和所述训练语料论元模式集合中的所有论元模式的模式语义相似度，得到每一候选论元模式的模式语义相似度集合具体包括：

基于优化的夹角余弦法，利用公式(1)计算所述候选论元模式p_m和所述训练语料论元模式集合TP中的每个论元模式tp_j的依存路径相似度SimD(p_m,tp_j)：

S i m D (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} \times λ_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

其中，n是p_m和tp_j中不同的依存关系数目，q_i是p_m的依存路径中第i个(1≤i≤n)依存关系出现的个数，d_i是tp_j的依存路径中第i个(1≤i≤n)依存关系出现的个数，λ_i是训练语料中第i个(1≤i≤n)依存关系的权重；

利用公式(2)计算所述候选论元模式p_m和所述训练语料论元模式集合中每个模式tpj的论元语义相似度SimA(p_m,tp_j)：

基于语义距离，利用公式(3)计算所述候选论元模式p_m和所述训练语料论元模式集合中每个论元模式tp_j的触发词义原相似度SimT(p_m,tp_j)：

SimT(p_m，tp_j)＝α/(α+d)(3)其中，d是在义原层次体系中，p_m中的触发词义原到tp_j中的触发词义原的路径长度，α是一个可调节的参数；

利用公式(4)计算所述测试语料中的候选论元模式p_m和所述训练语料论元模式集合中的每个论元模式tp_j的模式语义相似度Sim(p_m,tp_j)：

Sim(p_m，tp_j)＝β×SimT(p_m，tp_j)+(1-β)×SimA(p_m，tp_j)×SimD(p_m，tp_j)(4)

其中，β是一个可调节的参数；

基于所述模式语义相似度，得到所述测试语料中的候选论元模式p_m的模式语义相似度集合，所述模式语义相似度集合的每个元素由所述训练语料论元模式集合中的每个论元模式tp_j及其模式语义相似度Sim(p_m,tp_j)组成。

4.根据权利要求3所述的论元抽取方法，其特征在于，所述基于各个候选论元模式的模式语义相似度集合，获取论元模式相似度集合具体包括：

将所述匹配度和所述可匹配角色进行组合，得到匹配度角色对；

5.根据权利要求1～4任意一项所述的论元抽取方法，其特征在于，还包括：

6.根据权利要求5所述的论元抽取方法，其特征在于，所述预设的相关事件语义推理规则具体包括并列触发词实例推理规则、多角色论元推理规则、多论元角色推理规则、同指事件推理规则以及相关事件推理规则。

7.一种论元抽取系统，其特征在于，包括训练语料分析模块、测试语料分析模块、计算模块、获取模块和论元抽取模块，其中：

8.根据权利要求7所述的论元抽取系统，其特征在于，所述测试语料分析模块包括：

9.根据权利要求8所述的论元抽取系统，其特征在于，所述计算模块包括：

第一计算模块，用于基于优化的夹角余弦法，利用如下公式(1)计算所述候选论元模式p_m和所述训练语料论元模式集合TP中的每个论元模式tp_j的依存路径相似度SimD(p_m,tp_j)：

S i m D (p_{m}, {tp}_{j}) = \frac{Σ_{i = 1}^{n} q_{i} \times d_{i} \times λ_{i}^{2}}{\sqrt{Σ_{i = 1}^{n} {(q_{i} \times λ_{i})}^{2}} \times \sqrt{Σ_{i = 1}^{n} {(d_{i} \times λ_{i})}^{2}}} - - - (1)

第二计算模块，用于利用如下公式(2)计算所述候选论元模式p_m和所述训练语料论元模式集合中每个模式tp_j的论元语义相似度SimA(p_m,tp_j)：

第三计算模块，用于基于语义距离，利用如下公式(3)计算所述候选论元模式p_m和所述训练语料论元模式集合中每个论元模式tp_j的触发词义原相似度SimT(p_m,tp_j)：

SimT(p_m，tp_j)＝α/(α+d)(3)

第四计算模块，用于利用公式(4)计算所述测试语料中的候选论元模式p_m和所述训练语料论元模式集合中的每个论元模式tp_j的模式语义相似度Sim(p_m,tp_j)：

其中，β是一个可调节的参数；

10.根据权利要求9所述的论元抽取系统，其特征在于，所述获取模块包括：

组对模块，用于将所述匹配度和所述可匹配角色进行组合，得到匹配度角色对；

11.根据权利要求7～10任意一项所述的论元抽取系统，其特征在于，还包括关联匹配模块，所述关联匹配模块用于在所述事件实例中存在未匹配论元的角色时，依据预设的相关事件语义推理规则，从与所述事件实例相关的事件实例的论元中为所述未匹配论元的角色匹配论元。