CN104331480A

CN104331480A - 一种中文事件触发词的抽取系统及方法

Info

Publication number: CN104331480A
Application number: CN201410626003.6A
Authority: CN
Inventors: 李培峰; 周国栋; 朱巧明; 孔芳; 朱晓旭
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-11-07
Filing date: 2014-11-07
Publication date: 2015-02-04
Anticipated expiration: 2034-11-07
Also published as: CN104331480B

Abstract

本发明提供一种中文事件触发词的抽取系统及方法。所述系统包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块及触发词识别模块。本发明根据角色语义是事件语义的表示形式之一，提供了利用核心角色和辅助角色来表示角色语义的方法，并用于中文事件触发词的抽取。与现有最好的中文事件抽取方法和系统相比，本发明提供的方法对于中文事件触发词的抽取性能有了明显提升。

Description

一种中文事件触发词的抽取系统及方法

技术领域

本发明属于自然语言处理领域，特别是涉及一种抽取某个事件触发词的抽取系统及方法。

背景技术

事件(Event)是信息表示的一种主要形式，它是一种特定人、物、事在特定时间和特定地点相互作用的客观事实(也称“自然事件”)，如人的受伤、死亡事件和食品的添加剂事件等。作为信息抽取的一个子任务，事件抽取是信息抽取的研究热点，它的研究内容是自动地从自然文本中发现特定类型的事件及其事件元素。事件作为理解自然语言的基本要素之一，是自动文摘、机器翻译、问答系统和决策系统等主要自然语言理解应用的基础。如从互联网抽取恐怖袭击有关的事件(包括攻击事件、死亡事件等)，可以用于分析各个国家、地区的安全状况；从海量文本中抽取药品副作用事件，可以为药品使用、监管和研发服务。所以，对事件抽取方法的研究，特别是对中文事件抽取的研究有着重要的应用价值。

由于事件抽取严重依赖于实体识别、句法和依存关系分析等前续环节，而且事件在文本中的表达方式更多依赖于语义关系而非语法关系，导致了事件抽取性能在各个信息抽取任务中最低。目前，事件抽取的2个子任务触发词抽取和论元抽取的F1值一般分别在50％～60％和40％～50％左右，性能较低。由于事件抽取的核心是抽取其中的触发词并判断其事件类型，因此目前业界讨论的重点是事件触发词抽取。

在事件中，触发词和角色对应的实体，以及它们之间的内在关系是事件抽取的主要依据。所以，如何捕获触发词、实体和两者之间关系的语义信息将很重要。但是，由于语义信息难于获取，在英文中绝大多数句子级别的事件抽取系统主要还是沿用了语义角色标注的方法，充分利用句法信息来识别事件实例及其角色。然而，事件的角色不同于语义角色标注的角色。语义角色标注中的角色表达了和谓词之间在语法层面上的关系，只有笼统的几种(如：Arg0-Arg5，ArgM)。而事件中的角色和触发词之间的关系则基于语义层面。而且，由于表述的多样性，它们之间并不一定存在明确的语法关系。另外，事件的角色类别较多，每个角色都体现了它在不同事件中的语义(如攻击事件中的角色攻击者和攻击对象)。由于英文句子相对而言具有比较严谨的句法结构，多数事件的论元和触发词之间也有相对明确的句法结构，所以句法信息在英文事件抽取中被证明有效。但是，中文是一种意合语言，其句子结构较为松散，句子成分搭配也较为灵活。而且，作为一种话题驱动的语言，中文为了表述的连贯性和简洁性，部分句法成分缺省是一种常态。这些中文固有特点造成了句法特征在中文事件抽取中的效果不像在英文中那么明显。所以，如何针对中文的行文特点，从事件中获取更为有效、适合中文事件抽取的语义信息，特别是角色语义信息是需要解决的一个关键问题。

当前，绝大多数的中文触发词抽取方法沿用了语义角色标注方法，利用句法信息来识别事件实例及其角色。由于中文是一种意合语言，其句子结构较为松散，句子成分搭配也较为灵活。而且，作为一种话题驱动的语言，中文为了表述的连贯性和简洁性，部分句法成分缺省是一种常态。这些中文固有特点造成了句法信息在中文事件抽取中的效果不像在英文中那么明显，相对性能较差。

针对以上问题，本发明提出面向中文固有特点的中文事件触发词抽取系统和方法，根据角色语义是事件语义的表示形式之一，利用核心角色和辅助角色来表示论元语义，并利用机器学习的方法来进行中文事件触发词抽取。本发明的方法和系统，与现有最好的中文事件抽取方法和系统相比，抽取性能得到了明显提升。

为更好地理解本发明，下面对一些专用名词作出介绍。

实体(Entity)：一个语义类别中的对象或对象的集合，如人名、交通工具和地名等。

事件(Event)：在真实世界中已经/可能/将要发生的事情，一般包括时间、地点和人物等角色，如出生、死亡、地震和车祸等事件。

角色(Role)：事件的参与者和属性，一般用实体来填充。如死亡者、死亡时间和事件地点就是死亡事件的角色。

触发词(Trigger)：用于识别事件的核心词(一般为动词和名词居多)。如“生于”、“出生”等就是出生事件触发词。

依存关系(Dependency Tree)：依存句法是由法国语言学家L.Tesniere提出，通过分析语言各成分之间的依存关系揭示其句法结构，主张句子中谓语动词是支配其它成分的中心成分，而它本身却不受其他任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。依存关系由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组，如“nsubj(攻击,机器人军队)”，表示支配成分“机器人军队”是受支配成分“攻击”的nsubj(形式主语)。

依存路径(Dependency Path)：在依存树上任意2个结点之间不包含结点、只包含边(依存关系)的路径。

PropBank：一个以动词词典为标注基础，以动词的论元角色为标注对象，集语义词典和标注语料库于一身的论元角色语义知识库。

知网(HowNet)：一个由董振东等建立的，以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。

召回率(Recall)：系统正确抽取的事件个数占所有正确事件的比例。衡量事件抽取性能的指标之一。

准确率(Pricision)：系统正确抽取的事件个数占所有抽取出的事件的比例。衡量事件抽取性能的指标之一。

F1指数(F1-Measure)：衡量事件抽取性能的综合指标之一，准确率(P)和召回率(R)的加权几何平均值，即：

发明内容

本发明提供一种中文事件触发词的抽取系统，包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块、触发词识别模块，所述句法和依存分析模块连接核心和辅助角色定义模块，所述核心和辅助角色定义模块连接训练语料特征抽取模块，所述训练语料特征抽取模块连接候选触发词抽取模块，所述候选触发词抽取模块连接基本特征抽取模块，所述基本特征抽取模块连接训练集模板抽取模块，所述训练集模板抽取模块连接候选模板抽取模块，所述候选模板抽取模块连接实体特征抽取模块，所述实体特征抽取模块连接触发词识别模块。所述分句单元连接实体识别单元，所述实体识别单元连接句法分析单元，所述句法分析单元连接依存分析单元。所述训练语料特征抽取模块，包括训练语料触发词抽取单元、训练语料句法和依存分析单元、训练语料特征抽取单元，所述训练语料触发词抽取单元连接训练语料句法和依存分析单元，所述训练语料句法和依存分析单元连接训练语料特征抽取单元。所述候选触发词抽取模块，包括候选触发词选择单元及相似候选触发词选择单元，所述候选触发词选择单元连接相似候选触发词选择单元。所述训练集模板抽取模块，包括核心实体抽取单元、核心模板抽取单元、辅助实体抽取单元及辅助模板抽取单元，所述核心实体抽取单元连接核心模板抽取单元，所述核心模板抽取单元连接辅助实体抽取单元，所述辅助实体抽取单元连接辅助模板抽取单元。所述候选模板抽取模块，包括事件类型初判单元、实体类型生成单元、候选实体选择单元及候选模板抽取单元，所述事件类型初判单元连接实体类型生成单元，所述实体类型生成单元连接候选实体选择单元，所述候选实体选择单元连接候选模板抽取单元。所述实体特征抽取模块，包括核心模板相似度计算单元、辅助模板相似度计算单元、核心实体特征抽取单元及辅助实体特征抽取单元，所述核心模板相似度计算单元连接辅助模板相似度计算单元，所述辅助模板相似度计算单元连接核心实体特征抽取单元，所述核心实体特征抽取单元连接辅助实体特征抽取单元。所述触发词识别模块，包括触发词抽取训练单元及触发词抽取单元，所述触发词抽取训练单元连接触发词抽取单元。

本发明还提供一种中文事件触发词的抽取方法，包括以下步骤：

S1、对原始文本每个文档中的句子分别进行词语切分，实体识别、句法分析和依存关系分析，得到依存和句法文档集合；

S2、根据需要抽取事件的定义，人工定义每类事件的核心角色和辅助角色，得到核心辅助角色集合；

S3、根据训练语料标注的事件信息，抽取所有的事件实例及其特征，得到训练集触发词集合和训练集特征集合；

S4、根据训练集触发词集合中标注的触发词，从依存和句法文档集合中抽取候选触发词，构成候选触发词集合；

S5、对候选触发词集合中的每个候选触发词，从依存和句法文档集合中得到基本特征集合；

S6、对训练集触发词集合中每个触发词，根据所述触发词的事件类型，分别获取核心或辅助实体及其各自对应的实体类型，和所述触发词、所述触发词事件类型、所述触发词和所述核心或辅助实体间的依存路径构成核心或辅助模板五元组，得到训练集核心模板集合和训练集辅助模板集合；

S7、对基本特征集合中的每个候选触发词，判断所述候选触发词的初步事件类型；再根据所述初步事件类型抽取所述初步事件类型的核心和辅助角色对应的所有核心和辅助实体及其实体类型，和所述候选触发词、所述触发词事件类型、所述候选触发词与所述核心和辅助实体间的依存路径，分别构成核心和辅助论元模板五元组，得到候选核心模板集合和候选辅助模板集合；

S8、对基本特征集合中的每个候选触发词，分别从候选核心模板集合和候选辅助模板集合中为所述触发词的初步事件类型对应的核心角色和辅助角色选择核心实体和辅助实体，把所述核心实体和辅助实体及其实体类型作为新特征加入基本特征集合，得到完整特征集合；

S9、根据训练集特征集合中的特征，训练一个最大熵事件触发词抽取模型；再利用所述最大熵事件触发词抽取模型对的每个候选触发词根据完整特征集合进行识别，得到识别触发词集合。

优选的，步骤S1还包括以下步骤：

S101、对原始文本每个文档中的句子进行分句，并对每个分句后句子调用分词工具切分词语，得到用空格分隔词语的第一文档集合；

S102、调用实体识别工具从第一文档集合的每个文档中识别实体并进行标注，得到第二文档集合；

S103、对第二文档集合中每个文档调用句法分析工具进行句法分析，得到第三文档集合；

S104、对第三文档集合中每个文档调用依存关系分析工具进行依存分析，得到依存和句法文档集合。

优选的，步骤S3还包括以下步骤：

S301、从训练语料中抽取标注的事件触发词，得到训练集触发词集合；

S302、对训练语料中包含事件触发词的每个句子，调用S1对所述句子进行词语切分，句法分析和依存关系分析，得到依存和句法训练集合；

S303、根据预先选择的触发词特征，从依存和句法训练集合中抽取训练集触发词集合中每个触发词的特征，构成训练集特征集合。

优选的，步骤S4还包括以下步骤：

S401、从依存和句法文档集合中选择词性标注为名词或动词且在训练集触发词集合中出现的词作为候选触发词，加入候选触发词第一集合；

S402、对依存和句法文档集合中每个词性标注为名词或动词且与训练集触发词集合中的任意一个触发词具有至少一个相同汉字的词，计算所述词和所述训练集触发词集合中的任意一个触发词的语义相似度的最大值；如果所述语义相似度的最大值等于1，则把所述词加入候选触发词第一集合，得到候选触发词集合。

优选的，步骤S5的具体过程为：根据预先选择的触发词特征，从依存和句法集合中抽取候选触发词集合中每个候选触发词的基本特征，构成基本特征集合。

优选的，步骤S6还包括以下步骤：

S601、对训练集触发词集合中每个触发词，根据所述触发词在训练语料中标注的事件类型获取所述事件类型的所有核心角色对应的核心实体及其实体类型；每个所述核心实体及其实体类型和所述触发词及其事件类型构成一个四元组，所有的四元组构成了核心实体触发词集合；

S602、对核心实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的核心实体和触发词之间的依存路径，构成核心模板五元组，得到训练集核心模板集合；

S603、对训练集触发词集合中每个触发词，根据所述触发词在训练语料中标注的事件类型获取所述事件类型的所有辅助角色对应的辅助实体及其实体类型；每个所述辅助实体及其实体类型和所述触发词及其事件类型构成一个四元组，所有的四元组构成了辅助实体触发词集合；

S604、对辅助实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的辅助实体和触发词之间的依存路径，构成辅助模板五元组，得到训练集辅助模板集合。

优选的，在步骤S7中，对基本特征集合中的每个候选触发词tr_i，执行以下步骤：

S701、根据触发词集合中的触发词和语义相似度，初步判断所述候选触发词tr_i的初步事件类型tt_i；

S702、从所述核心辅助角色集合中分别获取所述事件类型tt_i的所有核心角色和辅助角色；把所述核心角色对应的所有核心实体类型加入候选核心实体类型集合；把所述辅助角色对应的所有辅助实体类型加入候选辅助实体类型集合；

S703、从依存和句法集合中抽取和所述候选触发词tr_i在同一个句子的所有实体，得到候选实体第一集合；从所述候选实体第一集合中过滤掉实体类型不在候选核心实体类型集合中的实体，得到候选核心实体集合；从所述候选实体第一集合中过滤掉实体类型不在候选辅助实体类型集合中的实体，得到候选辅助实体集合；

S704、候选核心实体集合中的每个核心实体e_i及其实体类型et_i和所述触发词tr_i及其初步事件类型tt_i、所述核心实体e_i和候选触发词tr_i的依存路径p_i，构成核心模板五元组，得到候选触发词tr_i的候选核心模板集合；候选辅助实体集合中的每个辅助实体e_i及其实体类型et_i和所述触发词tr_i及其事件类型tt_i、所述辅助实体e_i和候选触发词tr_i之间的依存路径p_i，构成辅助模板五元组，得到候选触发词tr_i的候选辅助模板集合。

优选的，在步骤S8中，对基本特征集合中的每个候选触发词tr_i，执行以下步骤：

S801、计算候选触发词tr_i的候选核心模板集合中每个核心模板五元组CandP_i和训练集核心模板集合中事件类型为tt_i，核心实体类型为et_i的每个核心模板五元组Pattern_j的模板相似度SimP(CandP_i,Pattern_j)的最大值MCP_i；把所述最大值MCP_i加入核心模板五元组CandP_i，得到带相似度核心模板六元组，加入带相似度候选核心模板集合。

S802、计算候选触发词tr_i的候选辅助模板集合中每个辅助模板五元组CandP_i和训练集辅助模板集合中事件类型为tt_i，辅助实体类型为et_i的每个辅助模板五元组Pattern_j的模板相似度SimP(CandP_i,Pattern_j)的最大值MCP_i；把所述最大值MCP_i加入辅助模板五元组CandP_i，得到带相似度辅助模板六元组，加入带相似度候选辅助模板集合。

S803、从核心辅助角色集合中分别获取所述事件类型tt_i的所有核心角色；对每个核心角色，根据所述核心角色对应的核心实体类型集合选择一个核心实体类型属于所述核心实体类型集合且相似度最大的带相似度核心模板六元组；把所述带相似度核心模板六元组中的核心实体e_i和核心实体类型et_i作为候选触发词tr_i的新特征加入基本特征集合中候选触发词tr_i的基本特征中，并把所述带相似度核心模板六元组从带相似度候选核心模板集合中删除。

S804、从核心辅助角色集合中分别获取所述事件类型tt_i的所有辅助角色；对每个辅助角色，根据所述辅助角色对应的辅助实体类型集合选择一个辅助实体类型属于所述辅助实体类型集合且相似度最大的带相似度辅助模板六元组；把所述带相似度辅助模板六元组中的辅助实体e_i和辅助实体类型et_i作为候选触发词tr_i的新特征加入基本特征集合中候选触发词tr_i的基本特征中，并把所述带相似度辅助模板六元组从带相似度候选辅助模板集合中删除；最终得到的基本特征集合就是完整特征集合。

优选的，步骤S9还包括以下步骤：

S901、把训练集特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件触发词抽取模型；

S902、把完整特征集合中每个候选触发词的特征作为输入，调用所述最大熵事件触发词抽取模型对候选触发词进行识别，获得每个候选触发词的事件类型(或被识别为非事件)，得到识别触发词集合。

通过本发明提供的中文事件触发词的抽取方法及系统，通过利用角色的语义信息，并利用核心角色和辅助角色来表示论元语义、利用机器学习的方法来进行中文事件触发词抽取。与现有最好的中文事件抽取方法和系统相比，大大提升了事件抽取的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明较佳实施例提供的中文事件触发词的抽取系统的结构示意图。

图2是本发明较佳实施例提供的句法和依存分析模块的结构示意图。

图3是本发明较佳实施例提供的训练语料特征抽取模块的结构示意图。

图4是本发明较佳实施例提供的候选触发词抽取模块的结构示意图。

图5是本发明较佳实施例提供的训练集模板抽取模块的结构示意图。

图6是本发明较佳实施例提供的候选模板抽取模块的结构示意图。

图7是本发明较佳实施例提供的实体特征抽取模块的结构示意图。

图8是本发明较佳实施例提供的触发词识别模块的结构示意图。

图9是本发明较佳实施例提供的中文事件触发词的抽取方法的流程图。

图10是本发明较佳实施例提供的句法和依存分析模块工作流程图。

图11是本发明较佳实施例提供的训练语料特征抽取模块工作流程图。

图12是本发明较佳实施例提供的训练语料特征抽取方法中的示例句法树图。

图13是本发明较佳实施例提供的候选触发词抽取模块工作流程图。

图14是本发明较佳实施例提供的训练集模板抽取模块工作流程图。

图15是本发明较佳实施例提供的候选模板抽取模块工作流程图。

图16是本发明较佳实施例提供的实体特征抽取模块工作流程图。

图17是本发明较佳实施例提供的触发词识别模块工作流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本实施例以从自然文本中ACE(Automatic Context Extraction)定义的33类事件为例，详细说明本发明的实施过程。

图1是本发明较佳实施例提供的中文事件触发词的抽取系统的结构示意图。如图1所示，本发明较佳实施例提供的中文事件触发词的抽取系统包括句法和依存分析模块1、核心和辅助角色定义模块2、训练语料特征抽取模块3、候选触发词抽取模块4、基本特征抽取模块5、训练集模板抽取模块6、候选模板抽取模块7、实体特征抽取模块8、触发词识别模块9，所述句法和依存分析模块1连接核心和辅助角色定义模块2，所述核心和辅助角色定义模块2连接训练语料特征抽取模块3，所述训练语料特征抽取模块3连接候选触发词抽取模块4，所述候选触发词抽取模块4连接基本特征抽取模块5，所述基本特征抽取模块5连接训练集模板抽取模块6，所述训练集模板抽取模块6连接候选模板抽取模块7，所述候选模板抽取模块7连接实体特征抽取模块8，所述实体特征抽取模块8连接触发词识别模块9。

图2是本发明较佳实施例提供的句法和依存分析模块的结构示意图。如图2所示，本发明较佳实施例提供的句法和依存分析模块包括分句单元101、实体识别单元102、句法分析单元103及依存分析单元104，所述分句单元101连接实体识别单元102，所述实体识别单元102连接句法分析单元103，所述句法分析单元103连接依存分析单元104。

图3是本发明较佳实施例提供的训练语料特征抽取模块的结构示意图。如图3所示，本发明较佳实施例提供的训练语料特征抽取模块包括训练语料触发词抽取单元301、训练语料句法和依存分析单元302、训练语料特征抽取单元303，所述训练语料触发词抽取单元301连接训练语料句法和依存分析单元302，所述训练语料句法和依存分析单元302连接训练语料特征抽取单元303。

图4是本发明较佳实施例提供的候选触发词抽取模块的结构示意图。如图4所示，本发明较佳实施例提供的候选触发词抽取模块包括候选触发词选择单元401及相似候选触发词选择单元402，所述候选触发词选择单元401连接相似候选触发词选择单元402。

图5是本发明较佳实施例提供的训练集模板抽取模块的结构示意图。如图5所示，本发明较佳实施例提供的训练集模板抽取模块包括核心实体抽取单元601、核心模板抽取单元602、辅助实体抽取单元603及辅助模板抽取单元604，所述核心实体抽取单元601连接核心模板抽取单元602，所述核心模板抽取单元602连接辅助实体抽取单元603，所述辅助实体抽取单元603连接辅助模板抽取单元604。

图6是本发明较佳实施例提供的候选模板抽取模块的结构示意图。如图6所示，本发明较佳实施例提供的候选模板抽取模块包括事件类型初判单元701、实体类型生成单元702、候选实体选择单元703及候选模板抽取单元704，所述事件类型初判单元701连接实体类型生成单元702，所述实体类型生成单元702连接候选实体选择单元703，所述候选实体选择单元703连接候选模板抽取单元704。

图7是本发明较佳实施例提供的实体特征抽取模块的结构示意图。如图7所示，本发明较佳实施例提供的实体特征抽取模块包括核心模板相似度计算单元801、辅助模板相似度计算单元802、核心实体特征抽取单元803及辅助实体特征抽取单元804，所述核心模板相似度计算单元801连接辅助模板相似度计算单元802，所述辅助模板相似度计算单元802连接核心实体特征抽取单元803，所述核心实体特征抽取单元803连接辅助实体特征抽取单元804。

图8是本发明较佳实施例提供的触发词识别模块的结构示意图。如图8所示，本发明较佳实施例提供的触发词识别模块包括触发词抽取训练单元901及触发词抽取单元902，所述触发词抽取训练单元901连接触发词抽取单元902。

图9是本发明较佳实施例提供的中文事件触发词的抽取方法的流程图。如图9所示，本发明较佳实施例提供的中文事件触发词的抽取方法包括步骤S1～S9。

步骤S1：对原始文本每个文档中的句子分别进行词语切分，实体识别、句法分析和依存关系分析，得到依存和句法文档集合。

具体而言，对原始文本每个文档中的句子分别调用分词工具、实体识别工具、句法分析工具和依存关系分析工具进行词语切分、实体识别、句法分析和依存关系分析。

图10是本发明较佳实施例提供的句法和依存分析模块工作流程图。如图10所示，本发明较佳实施例提供的句法和依存分析模块工作流程包括步骤S101～S104。

S101、对原始文本每个文档中的句子进行分句，并对每个分句后句子调用分词工具切分词语，得到用空格分隔词语的第一文档集合。本步骤中，对原始文本每个文档中的句子以“。”、“！”和“？”为分隔符进行分句。

举例而言，句子“机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。”经过词语切分后为例1：机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。

S102、调用实体识别工具从第一文档集合的每个文档中识别实体并进行标注，得到第二文档集合。本步骤中，所述第二文档集合中每个实体标注格式为“实体/实体类型”。

比如，例2：机器人军队/ORG用导弹/WEA攻击银河系共和国/GPE纳布星球/LOC，并且造成了3名/NUM银河系共和国/GPE平民/PER受伤。其中，“ORG”、“WEA”、“GPE”、“LOC”、“NUM”和“PER”分别表示的实体类别是组织机构、武器装备、政治性实体、位置、数量和人。除此之外，常用的实体类别还有“TIME”、“JOB”、“FAC”和“VEH”等，分别表示时间、工作岗位、场所和交通工具等。

S103、对第二文档集合中每个文档调用句法分析工具进行句法分析，得到第三文档集合。

具体地，例2经过句法分析后得到的句法结构如例3所示，例3：((IP(NP(NR机器人军队))(VP(VP(PP(P用)(NP(NN导弹)))(VP(VV攻击)(NP(NR银河系共和国)(NR纳布星球))))(PU，)(CC并且)(VP(VV造成)(AS了)(NP(CD3名)(NR银河系共和国)(NN平民))(IP(VP(VV受伤)))))(PU。)))。其中，句法分析是指对句子中的词语语法功能进行分析。“NR”、“P”、“NN”、“VV”、“PU”、“CC”、“AS”和“CD”分别是句法分析后的标签，分别表示专用名词、介词、普通名词、普通动词、标点符号、连词、时态词和数量词；“NP”、“VP”、“PP”和“IP”分别表示名词性短语、动词性短语、介词性短语和子句。

S104、对第三文档集合中每个文档调用依存关系分析工具进行依存分析，得到依存和句法文档集合。本步骤中，所述依存和句法文档集合为标注了实体、句法结构和依存关系的依存和句法文档集合。

如前所述，例3经过自动依存分析后，得到的结果部分如例4所示，例4：nsubj(攻击-4,机器人军队-1)；prep(攻击-4,用-2)；pobj(用-2,导弹-3)；nn(纳布星球-6,银河系共和国-5)；dobj(攻击-4,纳布星球-6)；cc(攻击-4,并且-8)；dep(攻击-4,造成-9)；asp(造成-9,了-10)；nummod(平民-13,3名-11)；nn(平民-13,银河系共和国-12)；nsubj(受伤-14,平民-13)；ccomp(造成-9,受伤-14)。

其中，“nn”，“nsubj”、“dobj”、“cc”、“conj”、“asp”、“numod”、“ccomp”、“dep”、“pobj”和“prep”是Standford依存分析工具输出的关系标签，分别表示并列名词、主谓关系、直接宾语、连接关系、联合关系、数量修饰、时态标词、从句补语、介词宾语、其它关系和介词关系。依存关系由支配成分(Government)、受支配成分(Dependent)和它们之间的语法关系(Relation)组成的三元组，如“nsubj(攻击-3,机器人军队-1)”，表示支配成分“机器人军队”是受支配成分“攻击”的形式主语。词语后面的数字表示该词语在句子中的序号。

步骤S2：根据需要抽取事件的定义，人工定义每类事件的核心角色和辅助角色，得到核心辅助角色集合。

具体而言，所述核心辅助角色集合中的每一项结构为，

<事件类型>

<核心角色1><核心实体类型集合1>

……

<核心角色n><核心实体类型集合n>

<辅助角色1><辅助实体类型集合1>

……

<辅助角色n><辅助实体类型集合n>。

举例而言，攻击事件(Attack)的核心和辅助角色定义如例5所示，例5：<7>//7是攻击事件的事件类型编号

<K：Attacker><PER/ORG/GPE>

<K：Target><PER/ORG/GPE/VEH/FAC/LOC>

<A：Instrument><WEA>

其中，K和A分别表示核心角色和辅助角色。攻击事件有2个核心角色，分别是攻击者(Attacker)和被攻击者(Target)；有一个辅助角色(Instrument：攻击设备)。每类事件具有多个核心角色和辅助角色，每个核心角色/辅助角色均具有对应的可填充的实体类型集合。

一个完整事件可以表达成为“5W1H”形式(Who(施事者谁)，What(什么)，Whom(受事者谁)，When(什么时候)，Where(什么地方)，How(怎么样))，其中“What”的语义一般由事件触发词体现，其余“4W”则对应事件中扮演不同角色的实体。其中，“When”和“Where”对应的角色绝大多数情况下为时间和地点，它们对应的实体一般不具有明显的事件类型区分度。所以，只有“Who”和“Whom”对应的角色所填充的实体才具有区分度，才能用于识别事件。为此，本发明定义了用于触发词抽取的核心角色，回答了事件中核心的“2W”(Who，Whom)问题，一般是事件的施事者和受事者(如攻击事件的角色攻击者和被攻击者)。填充核心角色的实体称为核心实体。“1H”用于辅助说明事件的一些细节信息(如宣判事件中的判决结果、攻击事件中的武器等)，主要包括交通工具、职位、具体罪行、武器等，对应的角色称为辅助角色(如离职事件的角色职位)。填充辅助角色的实体称为辅助实体。辅助角色同样可为事件触发词抽取提供有力依据，其作用不亚于核心角色，是体现事件语义的主要指标之一。

步骤S3：根据训练语料标注的事件信息，抽取所有的事件实例及其特征，得到训练集触发词集合和训练集特征集合。

图11是本发明较佳实施例提供的训练语料特征抽取模块工作流程图。如图11所示，本发明较佳实施例提供的训练语料特征抽取模块工作流程包括步骤S301～S303。

S301、从训练语料中抽取标注的事件触发词，得到训练集触发词集合。

具体地，一个标注事件例如例6所示：<9日早上,Time:TIME>一个穿白色衣服的<少年,Attacker:PER>在<大街,Place:LOC>上用<棒,Instrument:WEA><打,Anchor:Attack>了一个<中年妇女,Target:PER>。

其中，“Anchor:Attack”表示事件的触发词，其类型是“Attack”(攻击)；“Time:TIME”表示其角色是“Time”(攻击时间)，实体类型是“TIME”，其它角色的标注类似。

从该事件中可抽取一个事件触发词“打”。可从训练语料所有标注的事件中抽取所有的触发词，构成训练集触发词集合。

S302、对训练语料中包含事件触发词的每个句子，调用S1对所述句子进行词语切分，句法分析和依存关系分析，得到依存和句法训练集合。

具体地，例6的句子经过词语切分，句法分析和依存关系分析得到的句法结构和依存关系如例7所示，例7：

句法：((IP(NP(CP(IP(NP(NT9日早上))(NP(NN一个))(VP(VV穿)(NP(ADJP(JJ白色))(NP(NN衣服)))))(DEC的))(NP(NN少年)))(VP(PP(P在)(LCP(NP(NN大街))(LC上)))(PP(P用)(CLP(M棒)))(VP(VV打)(AS了)(NP(NN一个)(NN中年妇女))))(PU。)))。

部分依存关系：nsubj(打-13,少年-7)，prep(打-13,用-11)，dep(用-11,棒-12)，dobj(打-13,中年妇女-16)。

在S303中，每个触发词tr_i的特征集合为：

<类别：n>(第n(n>0)类事件的触发词；0-非事件触发词)

<1＝tr_i><2＝tr_i的词性><3＝tr_i前面的词+tr_i><4＝tr_i前面词的词性+tr_i的词性><5＝tr_i+tr_i后面的词><6＝tr_i的词性+tr_i后面词的词性><7＝在句法树中tr_i到第一个IP标记的路径长度><8＝在句法树中tr_i到顶层IP标记的路径><9＝包含tr_i的短语结构><10＝tr_i在同义词词林中的语义类别><11＝tr_i是否在PropBank中作为谓词><12＝tr_i在依存关系中的支配者><13＝tr_i在依存关系中的被支配者><14＝tr_i的依存关系><15＝tr_i的核心角色对应的实体><16＝tr_i的核心角色对应的实体的实体类型><17＝tr_i的辅助角色对应的实体><18＝tr_i的辅助角色对应的实体的实体类型>。其中，1≤n≤N，N为需要抽取的总的事件类别数目，每个类别赋予一个不同的数字来表示事件类别编号。

举例而言，例6中的触发词“打”的特征集合如例8：

7 1＝打 2＝VV 3＝棒打 4＝M+VV 5＝打了 6＝VV+AS 7＝4 8＝VV-VP-VP-IP9＝VP 10＝Fa01 11＝1 12＝少年 12＝用 12＝中年妇女 14＝nsubj 14＝prep 14＝dobj15＝少年 16＝PER 15＝中年妇女 16＝PER 17＝棒 18＝WEA。

其中，事件类型Attack的编号是7，特征1-6和9可以从例7的句法结构中得到；7和8可以根据例7的句法结构对应的句法树得到(如图12所示)，其中路径长度是指在该路径中句法标记的数量(在例图4中为4)；特征10从“同义词词林”检索得到“打”的语义编号是“Fa01”；特征11从PropBank中检索得到“打”是一个谓词(1：是；0-不是)；特征12-14从例7的依存关系中得到，在该例中，没有“打”的被支配者，只有支配者(nsubj(打-13,少年-7)，prep(打-13,用-11)，dobj(打-13,中年妇女-16))说明“少年”、“用”和“中年妇女”是“打”的支配者)，依存关系有“nsubj”、“prep”和“dobj”；另外，从标注语料(例6)和攻击事件的核心和辅助角色定义(例5)可知攻击者(Attacker)和被攻击者(Target)是核心角色，对应的核心实体为“少年”和“中年妇女”，实体类型都是“PER”；对应的辅助角色是攻击设备(Instrument)，辅助实体是“棒”，类型“WEA”。

步骤S4：根据训练集触发词集合中标注的触发词，从依存和句法文档集合中抽取候选触发词，构成候选触发词集合。

图13是本发明较佳实施例提供的候选触发词抽取模块工作流程图。如图13所示，本发明较佳实施例提供的候选触发词抽取模块工作流程包括步骤S401～S402。

S401、从依存和句法文档集合中选择词性标注为名词或动词且在训练集触发词集合中出现的词作为候选触发词，加入候选触发词第一集合。

具体而言，从依存和句法文档集合中选择词性标注为“NN”(名词)或“VV”(动词)且在训练集触发词集合中出现的词作为候选触发词，加入候选触发词第一集合，所述触发词集合中的每一个候选触发词项包括：<候选触发词><标注了实体、句法结构和依存关系的候选触发词所在句子>。由于在中文中绝大多数事件触发词是动词或名词，所以本发明选择动词和名词作为候选触发词。

例如，例1所示句子“机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。”根据它的句法结构例3可以得到5个词性为“VV/NN”的词，为“导弹”、“攻击”、“造成”、“平民”和“受伤”。由于只有“受伤”在训练集触发词集合中出现过，所以把该词加入候选触发词第一集合。

于此，所述名词标注为“NN”动词标注为“VV”。本实施例中，词t和触发词a的语义相似度SimT(t,a)定义为SimT(t,a)＝α/(α+d)。此外，本发明采用HowNet的语义距离来计算词汇的相似度，返回值为0-1之间的一个浮点数，值越大说明两个词越相似。d为候选触发词t和种子触发词a在HowNet中的路径距离，通过调用HowNet提供的函数获得。α是一个可调节的参数，本发明设置为1.6。

例如，例1所示句子中的动词“攻击”和训练集触发词集合中的触发词“突击”具有相同的字“击”，并且它们的语义相似度为1(同义词)，所以把“攻击”作为候选触发词。

步骤S5：对候选触发词集合中的每个候选触发词，从依存和句法文档集合中得到基本特征集合。

步骤S5的具体过程为：根据预先选择的触发词特征，从依存和句法集合中抽取候选触发词集合中每个候选触发词的基本特征，构成基本特征集合。

其中，每个触发词tri的基本特征集合为：<1＝tr_i><2＝tr_i的词性><3＝tr_i前面的词+tr_i><4＝tr_i前面词的词性+tr_i的词性><5＝tr_i+tr_i后面的词><6＝tr_i的词性+tr_i后面词的词性><7＝在句法树中tr_i到第一个IP标记的路径长度><8＝在句法树中tr_i到顶层IP标记的路径><9＝包含tr_i的短语结构><10＝tr_i在同义词词林中的语义类别><11＝tr_i是否在PropBank中作为谓词><12＝tr_i在依存关系中的支配者><13＝tr_i在依存关系中的被支配者><14＝tr_i的依存关系>。

于此，由于没有事件的标注信息，和训练集特征集合相比，缺少4个特征(即15-18)。例如，可以根据例3和例4为候选触发词“攻击”和“受伤”抽取特征1-14。这些特征可作为识别候选触发词“攻击”和“受伤”是那类事件触发词的依据。

步骤S6：对训练集触发词集合中每个触发词，根据所述触发词的事件类型，分别获取核心或辅助实体及其各自对应的实体类型，和所述触发词、所述触发词事件类型、所述触发词和所述核心或辅助实体间的依存路径构成核心或辅助模板五元组，得到训练集核心模板集合和训练集辅助模板集合。

图14是本发明较佳实施例提供的训练集模板抽取模块工作流程图。如图14所示，本发明较佳实施例提供的训练集模板抽取模块工作流程包括步骤S601～S604。

S601、对训练集触发词集合中每个触发词，根据所述触发词在训练语料中标注的事件类型获取所述事件类型的所有核心角色对应的核心实体及其实体类型；每个所述核心实体及其实体类型和所述触发词及其事件类型构成一个四元组，所有的四元组构成了核心实体触发词集合。其中，所述四元组表述为，<核心实体，核心实体类型，触发词，触发词事件类型>。

例如，根据攻击事件的核心角色定义(例5)可知攻击者(Attacker)和被攻击者(Target)是核心角色。则例6中攻击事件的触发词“打”的核心实体为“少年”和“中年妇女”，实体类型都是“PER”。则这两个实体和触发词“打”构成了2个如例9所述的四元组：

例9：

<少年，PER，打，7>

<中年妇女，PER，打，7>

S602、对核心实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的核心实体和触发词之间的依存路径，构成核心模板五元组，得到训练集核心模板集合。其中，所述核心模板五元组表述为，<核心实体，核心实体类型，触发词，触发词事件类型，依存路径>。

具体地，例9中的2个四元组中“少年”和“打”的依存路径是“nsubj”，而“中年妇女”和“打”的依存路径是“dobj”，则得到的核心模板五元组如例10：

<少年，PER，打，7，nsubj>

<中年妇女，PER，打，7，dobj>

S603、对训练集触发词集合中每个触发词，根据所述触发词在训练语料中标注的事件类型获取所述事件类型的所有辅助角色对应的辅助实体及其实体类型；每个所述辅助实体及其实体类型和所述触发词及其事件类型构成一个四元组，所有的四元组构成了辅助实体触发词集合。其中，所述四元组表述为，<辅助实体，辅助实体类型，触发词，触发词事件类型>。

例如，根据攻击事件的辅助角色定义(例5)可知攻击设备(Instrument)是辅助角色。则例6中攻击事件的触发词“打”的辅助实体为“棒”，实体类型都是“WEA”。则这个实体和触发词“打”构成了1个如例11所述的四元组：

例11：<棒，WEA，打，7>

S604、对辅助实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的辅助实体和触发词之间的依存路径，构成辅助模板五元组，得到训练集辅助模板集合。其中，所述辅助模板五元组表述为，<辅助实体，辅助实体类型，触发词，触发词事件类型，依存路径>。

例11中的四元组中“棒”和“打”的依存路径是“prep-dep”(从“prep(打-13,用-11)”和“dep(用-11,棒-12)”得到)，则得到的辅助模板五元组如例12：

例12：<棒，PER，打，7，prep-dep>

步骤S7：对基本特征集合中的每个候选触发词，判断所述候选触发词的初步事件类型；再根据所述初步事件类型抽取所述初步事件类型的核心和辅助角色对应的所有核心和辅助实体及其实体类型，和所述候选触发词、所述触发词事件类型、所述候选触发词与所述核心和辅助实体间的依存路径，分别构成核心和辅助论元模板五元组，得到候选核心模板集合和候选辅助模板集合。

图15是本发明较佳实施例提供的候选模板抽取模块工作流程图。如图15所示，本发明较佳实施例提供的候选模板抽取模块工作流程包括步骤S701～S704。

S701、根据触发词集合中的触发词和语义相似度，初步判断所述候选触发词tr_i的初步事件类型tt_i。

具体而言，所述判断候选触发词tr_i的初步事件类型的具体方法如下：如果所述候选触发词tr_i在触发词集合中出现，则从所述触发词集合中抽取所有触发词为tr_i的事件，并统计所有的所述事件中出现次数最多的事件类型作为候选触发词tr_i的初步事件类型tt_i；否则，计算所述候选触发词tr_i和训练集触发词集合中的任意一个触发词a_j的语义相似度SimT(tr_i,a_j)；统计训练集触发词集合中和候选触发词tr_i的语义相似度值等于1的所有触发词的事件类型及其出现次数，把出现次数最多的事件类型作为候选触发词tr_i的初步事件类型tt_i；所述语义相似度SimT(tr_i,a_j)计算方法同步骤S402中的语义相似度计算方法。

例如，例1所示句子“机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。”中的候选触发词“受伤”在触发词集合中出现次数最多的事件类型是受伤事件(Injure)，所以候选触发词“受伤”的初步事件类型为6(受伤事件的事件类型编号是6)。另外一个候选触发词“攻击”在触发词集合中没有出现，则计算它和触发词集合中的每个触发词的语义相似度，得到语义相似度值为1的触发词有三个：“突击”、“击”和“进攻”，它们都作为攻击事件的触发词，所以候选触发词“攻击”的初步事件类型为7。需要说明的是，有的触发词(如：“射”既可以触发攻击事件(发射子弹)，又可以触发移动事件(如：发射飞船))可以触发不止一类事件，所以本发明把这类触发词最常出现的事件类型作为它们的初步事件类型。

S702、从所述核心辅助角色集合中分别获取所述事件类型tt_i的所有核心角色和辅助角色；把所述核心角色对应的所有核心实体类型加入候选核心实体类型集合；把所述辅助角色对应的所有辅助实体类型加入候选辅助实体类型集合。

例如，候选触发词“攻击”的初步事件类型为攻击事件，那么它的核心角色是攻击者(Attacker)和被攻击者(Target)，核心实体类型集合是“PER/ORG/GPE/VEH/FAC/LOC”。辅助角色是攻击设备(Instrument)，辅助实体类型集合是“WEA”。

S703、从依存和句法集合中抽取和所述候选触发词tr_i在同一个句子的所有实体，得到候选实体第一集合；从所述候选实体第一集合中过滤掉实体类型不在候选核心实体类型集合中的实体，得到候选核心实体集合；从所述候选实体第一集合中过滤掉实体类型不在候选辅助实体类型集合中的实体，得到候选辅助实体集合。

例如，例1所示句子“机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。”中有7个实体(机器人军队/ORG、导弹/WEA、银河系共和国/GPE、纳布星球/LOC、3名/NUM、银河系共和国/GPE、平民/PER)，加入候选实体第一集合；由于攻击事件的核心实体类型集合是“PER/ORG/GPE/VEH/FAC/LOC”，则过滤掉候选实体“导弹/WEA”、“3名/NUM”，把其余5个实体加入候选核心实体集合；由于攻击事件的辅助实体类型集合是“WEA”，则过滤掉6个候选实体，只有“导弹/WEA”加入候选辅助实体集合。

具体地，候选核心实体集合中的每个核心实体e_i及其实体类型et_i和所述触发词tr_i及其初步事件类型tt_i构成<核心实体e_i，核心实体类型et_i，候选触发词tr_i，初步事件类型tt_i>四元组，得到候选核心实体触发词集合；对所述候选核心实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的核心实体e_i和候选触发词tr_i之间的依存路径p_i，构成核心模板五元组<核心实体e_i，核心实体类型et_i，候选触发词tr_i，初步事件类型tt_i，依存路径p_i>，得到候选触发词tr_i的候选核心模板集合；候选辅助实体集合中的每个辅助实体e_i及其实体类型et_i和所述触发词tr_i及其事件类型tt_i构成<辅助实体e_i，辅助实体类型et_i，候选触发词tr_i，初步事件类型tt_i>四元组，得到候选辅助实体触发词集合；对所述候选辅助实体触发词集合中的每个四元组，从依存和句法训练集合中得到所述四元组中的辅助实体e_i和候选触发词tr_i之间的依存路径p_i，构成辅助模板五元组<辅助实体e_i，辅助实体类型et_i，候选触发词tr_i，初步事件类型tt_i，依存路径p_i>，得到候选触发词tr_i的候选辅助模板集合。

例如，候选触发词“攻击”的候选核心实体集合中有5个候选核心实体，则得到5个核心模板五元组。如例13所示：

<机器人军队，ORG，攻击，7，nsubj>

<银河系共和国(第一个)，GPE，攻击，7，dobj-nn>

<纳布星球，LOC，攻击，7，dobj>

<银河系共和国(第二个)，GPE，攻击，7，dep-ccomp-nsubj-nn>

<平民，PER，攻击，7，dep-ccomp-nsubj>。

在候选辅助实体集合中有一个候选辅助实体，则得到1个辅助模板五元组。如例14所示：<导弹，WEA，攻击，7，prep-pobj>。

步骤S8：对基本特征集合中的每个候选触发词，分别从候选核心模板集合和候选辅助模板集合中为所述触发词的初步事件类型对应的核心角色和辅助角色选择核心实体和辅助实体，把所述核心实体和辅助实体及其实体类型作为新特征加入基本特征集合，得到完整特征集合。

图16是本发明较佳实施例提供的实体特征抽取模块工作流程图。如图16所示，本发明较佳实施例提供的实体特征抽取模块工作流程，即对基本特征集合中的每个候选触发词tr_i执行步骤S801～S804。

具体地，所述核心模板五元组CandP_i为<核心实体e_i，核心实体类型et_i，候选触发词tr_i，初步事件类型tt_i，依存路径p_i>，所述核心模板五元组Pattern_j为<核心实体e_j，核心实体类型et_j，触发词tr_j，触发词事件类型tt_j，依存路径p_j>，所述带相似度核心模板六元组为<核心实体e_i，核心实体类型et_i，候选触发词tr_i，初步事件类型tt_i，依存路径p_i，相似度MCP_i>。其中，MCP_i的计算方法为，

\begin{matrix} {MCP}_{i} = \underset{j &Element; {EV}_{i}}{MAX} (SimP ({CandP}_{i}, {Pattern}_{j})) \\ = \underset{j &Element; {EV}_{i}}{MAX} (SimT ({tr}_{i}, {tr}_{j}) \times SimD (p_{i}, p_{j})) \end{matrix} .

其中，EV_i是所述训练集核心模板集合中事件类型为tt_i、核心实体类型为et_i的核心模板五元组集合。

所述依存路径p_j和p_i的依存路径相似度SimD(p_i,p_j)为：

SimD (p_{i}, p_{j}) = \frac{Σ_{m = 1}^{n} q_{m} \times d_{m}}{\sqrt{Σ_{m = 1}^{n} {q_{i}}^{2}} \times \sqrt{Σ_{m = 1}^{n} {d_{m}}^{2}}}

其中，n是p_j和p_i中不同的依存关系数目，是p_j中各个依存关系出现个数(如果没有出现，则为0)的向量，是p_i中各个依存关系的出现个数的向量。

例如，候选触发词“攻击”的一个核心模板五元组<银河系共和国(第二个)，GPE，攻击，7，dep-ccomp-nsubj-nn>和训练集核心模板集合中的一个核心模板五元组<少年，PER，打，7，nsubj>的语义相似度是0.44。在这两个模板的依存路径中有4个不同的依存关系，所以两个向量分别是(1,1,1,1)和(0,0,1,0)，分别对应依存关系dep、ccomp、nsubj和nn，则根据以上公式计算得到的依存路径相似度为0.5。那么它们的模板相似度为0.22。

对例13中的每个核心模板五元组计算最大的模板相似度，得到如下的带相似度核心模板六元组。如例15所示：

<机器人军队，ORG，攻击，7，nsubj，0.96>

<银河系共和国(第一个)，GPE，攻击，7，dobj-nn，0.74>

<纳布星球，LOC，攻击，7，dobj，0.87>

<银河系共和国(第二个)，GPE，攻击，7，dep-ccomp-nsubj-nn，0.24>

<平民，PER，攻击，7，dep-ccomp-nsubj，0.45>。

具体地，所述辅助模板五元组CandP_i为<辅助实体e_i，辅助实体类型et_i，候选触发词tr_i，初步事件类型tt_i，依存路径p_i>，所述辅助模板五元组Pattern_j为<辅助实体e_j，辅助实体类型et_j，触发词tr_j，触发词事件类型tt_j，依存路径p_j>，所述带相似度辅助模板六元组为<辅助实体e_i，辅助实体类型et_j，候选触发词tr_i，初步事件类型tt_i，依存路径p_i，相似度MCP_i>。其中，所述MCP_i的计算方法和步骤S801中的计算方法相同。

举例而言，对例14中的辅助模板五元组计算最大的模板相似度，得到如下的带相似度辅助模板六元组。如例16所示：<导弹，WEA，攻击，7，prep-pobj，0.82>。

S803、具体地，从核心辅助角色集合中分别获取所述事件类型tt_i的所有核心角色；对每个核心角色，根据所述核心角色对应的核心实体类型集合，从带相似度候选核心模板集合中选择一个核心实体类型属于所述核心实体类型集合且相似度最大的带相似度核心模板六元组；把所述带相似度核心模板六元组中的核心实体e_i和核心实体类型et_i作为候选触发词tr_i的新特征加入基本特征集合中候选触发词tr_i的基本特征中，并把所述带相似度核心模板六元组从带相似度候选核心模板集合中删除。其中，所述新特征的表示方法为，

<16＝tr_i的核心实体e_i><17＝tr_i的核心实体类型et_i>。

例如，由于攻击事件有两个核心角色攻击者(Attacker)和被攻击者(Target)，根据它们的核心实体类型，分别选择相似度最大的两个候选实体“机器人军队”和“纳布星球”作为核心实体，则新的特征如例17：16＝机器人军队17＝ORG16＝纳布星球17＝LOC。

S804、从核心辅助角色集合中分别获取所述事件类型tt_i的所有辅助角色；对每个辅助角色，根据所述辅助角色对应的辅助实体类型集合选择一个辅助实体类型属于所述辅助实体类型集合且相似度最大的带相似度辅助模板六元组；把所述带相似度辅助模板六元组中的辅助实体e_i和辅助实体类型et_i作为候选触发词tr_i的新特征加入基本特征集合中候选触发词tr_i的基本特征中，并把所述带相似度辅助模板六元组从带相似度候选辅助模板集合中删除；最终得到的基本特征集合就是完整特征集合。其中，所述新特征的表示方法为，

<18＝tr_i的辅助实体e_i><19＝tr_i的辅助实体类型et_i>。

例如，由于攻击事件有一个辅助角色攻击设备(Instrument)，根据它的辅助实体类型，选择相似度最大的候选实体“导弹”作为辅助实体，则新的特征如例18：17＝导弹18＝WEA。

步骤S9：根据训练集特征集合中的特征，训练一个最大熵事件触发词抽取模型；再利用所述最大熵事件触发词抽取模型对的每个候选触发词根据完整特征集合进行识别，得到识别触发词集合。

图17是本发明较佳实施例提供的触发词识别模块工作流程图。如图17所示，本发明较佳实施例提供的触发词识别模块工作流程包括步骤S901～S902。

S901、把训练集特征集合中的特征作为输入，调用最大熵分类工具训练得到一个最大熵事件触发词抽取模型。

具体地，所述最大熵事件触发词抽取模型包括训练集特征集合、训练得到的参数和最大熵分类工具。

例如，例1所示句子“机器人军队用导弹攻击银河系共和国纳布星球，并且造成了3名银河系共和国平民受伤。”中的2个候选触发词“攻击”和“受伤”最后的识别结果如例19：

攻击，7，0.973

受伤，6，0.981

则所述识别结果表明最大熵事件触发词抽取模型把“攻击”识别为事件类别编号为7(攻击事件)，把“受伤”识别为事件编号类别为6(受伤事件)。

表1是本发明在中文ACE2005语料库上的测试结果。ACE2005语料库是信息抽取常用的训练语料，包括633个文档。实验数据表明，本发明提供的方法及系统，对比目前最好的句子级别的中文事件抽取系统在F1值上提高了2.9％。

系统	P(％)	R(％)	F1
				基准系统	66.8	59.0	62.6
本发明的系统	78.3	56.5	65.5

表1

综上所述，通过本发明较佳实施例提供的中文事件触发词的抽取系统及方法，通过利用角色的语义信息，并利用核心角色和辅助角色来表示论元语义、利用机器学习的方法来进行中文事件触发词抽取。如此，与现有最好的中文事件抽取方法和系统相比，大大提升了事件抽取的性能。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.中文事件触发词的抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤S3包括：

4.根据权利要求1所述的方法，其特征在于，所述步骤S4包括：

5.根据权利要求1所述的方法，其特征在于，所述步骤S5的具体过程为：

根据预先选择的触发词特征，从依存和句法集合中抽取候选触发词集合中每个候选触发词的基本特征，构成基本特征集合。

6.根据权利要求1所述的方法，其特征在于，所述步骤S6还包括：

7.根据权利要求1所述的方法，其特征在于，在步骤S7中，对基本特征集合中的每个候选触发词tr_i，执行以下步骤：

8.根据权利要求1所述的方法，其特征在于，在步骤S8中，对基本特征集合中的每个候选触发词tr_i，执行以下步骤：

9.根据权利要求1所述的方法，其特征在于，所述步骤S9包括：

10.一种中文事件触发词的抽取系统，其特征在于，包括句法和依存分析模块、核心和辅助角色定义模块、训练语料特征抽取模块、候选触发词抽取模块、基本特征抽取模块、训练集模板抽取模块、候选模板抽取模块、实体特征抽取模块、触发词识别模块，所述句法和依存分析模块连接核心和辅助角色定义模块，所述核心和辅助角色定义模块连接训练语料特征抽取模块，所述训练语料特征抽取模块连接候选触发词抽取模块，所述候选触发词抽取模块连接基本特征抽取模块，所述基本特征抽取模块连接训练集模板抽取模块，所述训练集模板抽取模块连接候选模板抽取模块，所述候选模板抽取模块连接实体特征抽取模块，所述实体特征抽取模块连接触发词识别模块，

其中，所述句法和依存分析模块，包括分句单元、实体识别单元、句法分析单元及依存分析单元，所述分句单元连接实体识别单元，所述实体识别单元连接句法分析单元，所述句法分析单元连接依存分析单元，

所述训练语料特征抽取模块，包括训练语料触发词抽取单元、训练语料句法和依存分析单元、训练语料特征抽取单元，所述训练语料触发词抽取单元连接训练语料句法和依存分析单元，所述训练语料句法和依存分析单元连接训练语料特征抽取单元，

所述候选触发词抽取模块，包括候选触发词选择单元及相似候选触发词选择单元，所述候选触发词选择单元连接相似候选触发词选择单元，

所述训练集模板抽取模块，包括核心实体抽取单元、核心模板抽取单元、辅助实体抽取单元及辅助模板抽取单元，所述核心实体抽取单元连接核心模板抽取单元，所述核心模板抽取单元连接辅助实体抽取单元，所述辅助实体抽取单元连接辅助模板抽取单元，

所述候选模板抽取模块，包括事件类型初判单元、实体类型生成单元、候选实体选择单元及候选模板抽取单元，所述事件类型初判单元连接实体类型生成单元，所述实体类型生成单元连接候选实体选择单元，所述候选实体选择单元连接候选模板抽取单元，

所述实体特征抽取模块，包括核心模板相似度计算单元、辅助模板相似度计算单元、核心实体特征抽取单元及辅助实体特征抽取单元，所述核心模板相似度计算单元连接辅助模板相似度计算单元，所述辅助模板相似度计算单元连接核心实体特征抽取单元，所述核心实体特征抽取单元连接辅助实体特征抽取单元，

所述触发词识别模块，包括触发词抽取训练单元及触发词抽取单元，所述触发词抽取训练单元连接触发词抽取单元。