CN106021371A

CN106021371A - 一种事件识别方法及系统

Info

Publication number: CN106021371A
Application number: CN201610308712.9A
Authority: CN
Inventors: 熊德意; 李方圆; 黄瑞红
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-05-11
Filing date: 2016-05-11
Publication date: 2016-10-12

Abstract

一种事件识别方法及系统，将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。本申请通过将初始短语在两种语言之间以结构化短语的形式相互映射，可以解决单一语言的语料资源匮乏的问题，并且能够通过挖掘两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信息，从而可以获得更为完备的用于进行事件识别的事件短语，提高事件识别的准确率和召回率。

Description

一种事件识别方法及系统

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种事件识别方法及系统。

背景技术

事件识别(Event Recognition)是信息抽取(Information Extraction，IE)领域中一个非常重要的研究方向，也是自然语言处理(natural languageprocessing，NLP)任务的一项基础工作，主要是为了确定文档是否与某一特定类型的事件相关。

目前，事件识别方法通常是在单一语言的基础上开展的，而单一语言的语料数据的数量和质量有限，导致事件识别的准确率和召回率的提升空间有限。

发明内容

有鉴于此，本申请实施例提供一种事件识别方法及系统，以提高事件识别的准确率和召回率。

为了实现上述目的，本申请实施例提供的技术方案如下：

一种事件识别方法，包括：

将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；

获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；

将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。

优选地，所述将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，包括：

在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找包括所述初始短语的第一语句；

对所述第一语句进行依存分析，得到所述第一语句的句法特征，并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语；所述第一结构化短语中包括所述初始短语的语义学信息以及所述初始短语的句法结构信息；

将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句，并根据所述第一语句和所述第二语句之间的词对齐信息，在所述第二语句中确定与所述第一结构化短语相对应的第二短语；

对所述第二语句进行依存分析，得到所述第二语句的句法特征，并从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语；所述第二结构化短语中包括所述第二短语的语义学信息以及所述第二短语的句法结构信息；

在所述双语平行语料中的所述第二语言端查找包括所述第二结构化短语的第三语句；

将所述第三语句映射到所述双语平行语料中的所述第一语言端的第四语句，并根据所述第三语句和所述第四语句之间的词对齐信息，在所述第四语句中确定与所述第二结构化短语相对应的第三短语；

对所述第四语句进行依存分析，得到所述第四语句的句法特征，并从所述第四语句的句法特征中获取与所述第三短语相对应的第三结构化短语；所述第三结构化短语中包括所述第三短语的语义学信息以及所述第三短语的句法结构信息。

优选地，所述对映射过程中生成的所述结构化短语进行后处理，包括：

获取所述第二结构化短语和所述第三结构化短语；

判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含并列结构；

如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含并列结构，则将包含并列结构的所述第二结构化短语和所述第三结构化短语拆分成多个不具有并列结构的短语，并同时保留拆分前后的短语以及不包含并列结构的所述第二结构化短语和所述第三结构化短语。

获取所述第二结构化短语和所述第三结构化短语；

判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含修饰成分；

如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含修饰成分，则将包含修饰成分的所述第二结构化短语和所述第三结构化短语中的修饰成分删除，并保留删除修饰成分后的所述第二结构化短语和所述第三结构化短语。

获取所述第二结构化短语与所述第三结构化短语；

根据预先设置的过滤规则，对所述第二结构化短语和所述第三结构化短语进行过滤，并保留过滤后剩余的所述第二结构化短语和所述第三结构化短语；所述过滤规则包括：词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。

一种事件识别系统，包括：

映射模块，用于将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；

处理模块，用于获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；

识别模块，用于将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。

优选地，所述映射模块，包括：

第一查找单元，用于在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找包括所述初始短语的第一语句；

第一分析单元，用于对所述第一语句进行依存分析，得到所述第一语句的句法特征，并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语；所述第一结构化短语中包括所述初始短语的语义学信息以及所述初始短语的句法结构信息；第一确定单元，用于将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句，并根据所述第一语句和所述第二语句之间的词对齐信息，在所述第二语句中确定与所述第一结构化短语相对应的第二短语；

第二分析单元，用于对所述第二语句进行依存分析，得到所述第二语句的句法特征，并从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语；所述第二结构化短语中包括所述第二短语的语义学信息以及所述第二短语的句法结构信息；

第二查找单元，用于在所述双语平行语料中的所述第二语言端查找包括所述第二结构化短语的第三语句；

第二确定单元，用于将所述第三语句映射到所述双语平行语料中的所述第一语言端的第四语句，并根据所述第三语句和所述第四语句之间的词对齐信息，在所述第四语句中确定与所述第二结构化短语相对应的第三短语；

第三分析单元，用于对所述第四语句进行依存分析，得到所述第四语句的句法特征，并从所述第四语句的句法特征中获取与所述第三短语相对应的第三结构化短语；所述第三结构化短语中包括所述第三短语的语义学信息以及所述第三短语的句法结构信息。

优选地，所述映射模块，还包括：

第一获取单元，用于获取所述第二结构化短语和所述第三结构化短语；

第一判断单元，用于判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含并列结构；

拆分单元，用于如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含并列结构，则将包含并列结构的所述第二结构化短语和所述第三结构化短语拆分成多个不具有并列结构的短语，并同时保留拆分前后的短语以及不包含并列结构的所述第二结构化短语和所述第三结构化短语。

优选地，所述映射模块，还包括：

第二获取单元，用于获取所述第二结构化短语和所述第三结构化短语；

第二判断单元，用于判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含修饰成分；

删除单元，用于如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含修饰成分，则将包含修饰成分的所述第二结构化短语和所述第三结构化短语中的修饰成分删除，并保留删除修饰成分后的所述第二结构化短语和所述第三结构化短语。

优选地，所述映射模块，还包括：

第三获取单元，用于获取所述第二结构化短语和所述第三结构化短语；

过滤单元，用于根据预先设置的过滤规则，对所述第二结构化短语和所述第三结构化短语进行过滤，并保留过滤后剩余的所述第二结构化短语和所述第三结构化短语；所述过滤规则包括：词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。

由以上本申请实施例提供的技术方案可见，相对于现有技术，本申请具有如下有益效果：

应用本申请提供的事件识别方法及系统，将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。可见，本申请实施例通过将初始短语在两种语言之间以结构化短语的形式相互映射，可以解决单一语言的语料资源匮乏的问题，并且能够通过挖掘两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信息，从而可以获得更为完备的用于进行事件识别的事件短语，提高事件识别的准确率和召回率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例提供的事件识别方法的流程图；

图2为本申请提供的从初始短语生成事件短语及其句法结构信息的示意图；

图3为本申请提供的英文端与中文端平行句子依存分析示意图；

图4为本申请实施例提供的从英文端到中文端的一次完整的映射过程的示意图；

图5为本申请提供的第二语言端的句子句法分析结果示意图；

图6为本申请一个实施例提供的事件识别系统的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本申请一个实施例提供的事件识别方法的流程图。

参照图1所示，本申请提供的一种事件识别方法，包括：

S101：将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；

在本申请实施例中，第一语言可以为英文，第二语言可以为中文，当然，第一语言和第二语言均可以选取其它语言，本申请实施例并不对语言范围进行限定。

在第一语言和第二语言之间以结构化短语的形式进行相互映射，是指在第一语言和第二语言之间进行相互翻译的基础上，将初始短语以一种结构化短语的形式在第一语言和第二语言之间进行映射结构化短语既包含短语的单词内容成分，也包含短语的单词内容成分之间的结构信息即句法结构信息，而且结构化短语在去掉句法结构信息后，可以转化成一般的正常短语。

再举例说明什么是结构化的短语：staged<dobj>demonstrations这个短语包含单词结点staged、demonstrations，还有它们之间的关系，dobj即direct object表示它们是主语和谓语之间的直接宾语关系。本申请实施例定义这种单词与单词间关系共存的短语为结构化短语，每个单词就是一个结点，两个结点之间的便是它们的关系。还可以将这个结构化短语还原成一般的正常短语：staged demonstrations，再例如：call<prep_for>boycott这个短语，还原成一般的正常短语就是call for boycott，其间的关系prep即preposition表介词，prep_for表示介词中的for关系，因此，需要将这个for还原到正常短语当中去。

在本申请实施例中，当第一语言是英文，第二语言是中文时，所述将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，包括：

在所述第一语言和所述第二语言所在的双语平行语料中的所述第一语言端查找包括所述初始短语的第一语句；对所述第一语句进行依存分析，得到所述第一语句的句法特征，并从所述第一语句的句法特征中获取与所述初始短语相对应的第一结构化短语；所述第一结构化短语中包括所述初始短语的语义学信息以及所述初始短语的句法结构信息；将所述第一语句映射到所述双语平行语料中的第二语言端的第二语句，并根据所述第一语句和所述第二语句之间的词对齐信息，在所述第二语句中确定与所述第一结构化短语相对应的第二短语；对所述第二语句进行依存分析，得到所述第二语句的句法特征，并从所述第二语句的句法特征中获取与所述第二短语相对应的第二结构化短语；所述第二结构化短语中包括所述第二短语的语义学信息以及所述第二短语的句法结构信息；在所述双语平行语料中的所述第二语言端查找包括所述第二结构化短语的第三语句；将所述第三语句映射到所述双语平行语料中的所述第一语言端的第四语句，并根据所述第三语句和所述第四语句之间的词对齐信息，在所述第四语句中确定与所述第二结构化短语相对应的第三短语；对所述第四语句进行依存分析，得到所述第四语句的句法特征，并从所述第四语句的句法特征中获取与所述第三短语相对应的第三结构化短语；所述第三结构化短语中包括所述第三短语的语义学信息以及所述第三短语的句法结构信息。

在本申请实施例中，所述第一语言端的结构化短语包括所述第一结构化短语和所述第三结构化短语；所述第二语言端的结构化短语包括所述第二结构化短语；

以图2为例，示出了本申请从初始短语生成事件短语及其句法结构信息的过程。当英文的初始短语“staged demonstrations”映射到中文端的时候，可能有多种映射结果，短语的结构也可能会发生变换。例如有结构保持不变，依旧是谓语和它的宾语形式的：“进行示威”、“举行游行”，也可以是两个并列的动词：“示威游行”，更可以只用一个单个的动词或者单个的名词“示威”、“游行”就表示出一个英文短语的含义。等到映射回英文端时，句法结构信息又进一步丰富，如图2(c)所示。本申请方法的思路就是按照图2所示进行的。

在具体实施时，本申请的方法又与传统的方法不同，有很多前人的工作仅仅是采用通过词对齐信息，进行两种语言的短语相互映射，保存整个短语，而本申请不仅通过词对齐进行短语的映射，更关键的是利用整个句子的依存分析结果，将短语的句法结构信息保存下来，从而可以过滤掉短语中间很多无关紧要的修饰成分。比如“hold a gigantic and vigorous demonstration”(举行一场声势浩大的游行示威)，本申请关心的主体事件是“hold demonstration”，至于这场游行示威的规模场面如何，并不重要，而一旦保存了结构“hold<dobj>demonstration”，无论是小规模的游行还是大规模的游行或者是工人游行还是无业人士游行的短语都可以捕捉到。

本申请举图3一个具体的例子来详细说明本申请进行依存分析的方法。首先通过斯坦福句法分析工具(Stanford parser工具)对英文和中文平行句子做依存分析，分析出句子的句法结构(图3中(b)和(c))，并用GIZA++工具获得它们之间的词对齐(word alignment)信息，如图3所示。通过词对齐信息本申请可以实现从英文到中文或者从中文到英文的短语映射映射。本申请的方法与传统的短语映射方法最大的不同就在于结合了句子依存分析的结果作为一个重要的信息，映射过程也不再是简单的短语映射，而是一个包含句法结构信息的短语的映射。

图4是本申请实施例提供的从英文到中文的一个完整的学习过程的示意图。

首先，本申请有两个初始的英文短语列表，即描述事件不同方面的短语列表event phrases list和purpose phrases list，以下简称EP和PP。每个列表约600个短语，短语列表中的短语都是正常的英文短语，而非结构化的短语，但所有的短语仅包含两种结构，一种是及物动词衔接其直接宾语的核心词的结构(用dobj表示)，另一种是不及物动词衔接介词再衔接宾语的核心词结构(用prep_x表示，其中x为介词)。

然后本申请将这些短语分别到语料中找匹配，这个匹配就是语料的某一句话中，出现过这个短语的每一个单词(语料是以句子为单位的)，以图4中organized a demonstration这个短语举例说明，要求这个短语中的三个单词在语料的某一句话中都出现过，那么这个句子就是一个候选可能出现该短语的句子。

本申请要进一步对这句话进行句法分析，在图3中，source端(英文端)句子的依存分析结果图3(b)中，匹配到了一个dobj(organized-4,demonstration-6)的结构，本申请可以找到这个短语内部的结构：“dobj”即direct object表示它们是主语和谓语之间的直接宾语关系，表示单词demonstration是organized的直接宾语，本申请用“organized<dobj>demonstration”来表示这个结构，这种单词与单词间关系共存的短语即为结构化短语。然后，在source端(第一语言端，在本申请实施例中是指英文端)句子中确定以上短语所在的跨度，在图4例子中为[3,5]，之所以和匹配到的[4,6]不同，是因为依存分析结果中0表示根节点ROOT，并非真实存在的单词结点，但是句法分析内部的机制，要考虑根结点ROOT是0位置的问题，因此第一个单词从1开始，每个单词后面的位置都是多1的，而词对齐信息真正匹配的时候，第一个单词是0开始，所以有跨度的首尾都需要减1。

完成上述步骤以后，也找到了该句子中具有这样一个结构的短语，那么根据这个短语的跨度[3,5]，再通过词对齐信息获取对应的target端(第二语言端，在本申请实施例中是指中文端)的短语跨度，在图4例子中为[3,7]，跨度最左最右的结点分别认为是start_node和end_node。到这里，完成了短语的映射。

下面根据依存分析的结果对target端句子进行依存分析，如图3(c),再根据依存分析的结果构造出target端句子的依存句法树，从句法树中找从start_node到end_node的一条最短路径，若这样的路径存在，则抽取出来，作为本申请学习到的一个新的结构化的短语，图4例子中为“组织<dobj>示威”。

到这里，本申请已经学习到了中文端的结构化的短语，后续映射回英文端的过程所采用的就是这里学习到的结构化的短语。

为了对所学习到的短语所具有的结构进行进一步的分析，可以利用PoStags信息将短语泛化为最一般的结构。PoS tags表示：part-of-speech tags,含义为：词性标注，是在句法分析过程中得到的关于各个单词的词性信息，比如图5中所示的一个第二语言端的句子句法分析的结果，后半部分是依存分析结果，前半部分是句法结构信息树，句法结构信息树包含每个单词结点的词性标注信息，例如，本申请通过词性标注信息可获取“民间”这个单词对应的词性是NN,其表示为一个名词。接着结合单词对应的词性标注信息可将结构化短语中的每一个单词结点替换成该单词对应的词性，即可将该短语泛化成一般的结构“VV<dobj>NN”。

按照如上的过程，就可以完成所有的从英文的初始短语到中文的第二短语的映射，得到第二结构化短语以后，经过并列结构拆分、修饰成分删除、短语过滤等后处理，再将它们按照类似以上步骤再映射回英文端，得到第三结构化短语，再将其经过并列结构拆分、修饰成分删除、短语过滤等后处理，再将第三结构化短语转化为一般普通短语，即可以得到扩展后的新的英文短语了。从中文的第二短语映射回英文的第三短语的过程类似，这里就不再赘述。

对于上述的从英文映射到中文，再从中文映射到英文的过程，本申请实施例称之为一轮迭代，即每一轮的迭代包含两个映射过程，即从初始的英文短语映射到中文端，再从中文端映射回英文端，完成一个完整的学习的过程。本申请实施例是以进行一轮迭代进行举例的，在实际应用中，还可以通过多轮迭代的学习过程，不断地扩展事件短语，学习新的短语结构。当新一轮迭代增加的短语数量不超过前一轮短语数量的10％时，本申请认为新学习到的短语不足以进行新一轮的迭代，则可以停止自动迭代过程。

在本申请实施例中，当第一语言是英文，第二语言是中文时，所述对映射过程中生成的所述结构化短语进行后处理，包括：获取所述第二结构化短语和所述第三结构化短语；判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含并列结构；如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含并列结构，则将包含并列结构的所述第二结构化短语和所述第三结构化短语拆分成多个不具有并列结构的短语，并同时保留拆分前后的短语以及不包含并列结构的所述第二结构化短语和所述第三结构化短语。

在短语的学习过程中，本申请会针对学习到的短语做一个拆分的工作，原因有二：

一是因为，现有的事件识别是基于单一语言的语料进行学习的，但这个语料不是双语平行语料，而本申请实施例采用的是一个双语语料，两个语料存在一定的差异性，导致现有的事件识别的事件短语很多并没有在本申请语料中出现，那么本申请可用的事件识别短语就非常有限了，为了尽可能充分地利用上现有的短语，所以要做一些合理地扩展。

二是因为在本申请学习的过程中，发现了一个非常有意思的语言学现象(linguistic phenomenon)，当描述同一个事件的时候，汉语中有时候会采用两个具有相似含义的并列结构来起到一种加强语气的作用，比如“捍卫<dobj>人权<conj>民主”(具有VV<dobj>NN<conj>NN的结构)，这里人权和民主由一个连词连接，是并列的关系，而在英文中，则会视为是重复，通常用“defendhuman rights”来表示同一个含义的事件。为了充分的利用上这种语言学上的差异，本申请方案中将短语中包含<conj>的关系(“conj”是conjunction的含义，表连接关系)的，从<conj>处进行拆分，经过拆分重组的两个新短语即为：“捍卫<dobj>人权”和“捍卫<dobj>民主”，在方案中，本申请将拆分重组前后的短语都保留。

在本申请实施例中，当第一语言是英文，第二语言是中文时，所述对映射过程中生成的所述结构化短语进行后处理，包括：获取所述第二结构化短语和所述第三结构化短语；判断所述第二结构化短语和所述第三结构化短语的句法结构信息中是否包含修饰成分；如果所述第二结构化短语和所述第三结构化短语的句法结构信息中包含修饰成分，则将包含修饰成分的所述第二结构化短语和所述第三结构化短语中的修饰成分删除，并保留删除修饰成分后的所述第二结构化短语和所述第三结构化短语。

为了提炼短语，尽可能的去掉短语中的修饰词，保留核心词，本申请还需要对短语进行压缩提炼，例如'VV<dobj>NN<clf>M<nummod>CD'结构的一个短语“发射<dobj>炮弹<clf>枚<nummod>六”这样的结构中，后面的“六”是一个修饰词，“枚”起到衔接作用的量词，都是修饰成分，本申请关注的核心还是“发射<dobj>炮弹”这个短语，因此，对于诸如此类的短语本申请要进行短语的压缩，去掉后面的半截，只保留“发射<dobj>炮弹”的部分。通过压缩短语，最后只保留节点数不超过3个的短语。

在本申请实施例中，当第一语言是英文，第二语言是中文时，所述对映射过程中生成的所述结构化短语进行后处理，包括：获取所述第二结构化短语和所述第三结构化短语；根据预先设置的过滤规则，对所述第二结构化短语和所述第三结构化短语进行过滤，并保留过滤后剩余的所述第二结构化短语和所述第三结构化短语；所述过滤规则包括：词频过滤规则、结构过滤规则和特异性过滤规则中的任意一种或任意几种的组合。

事件抽取之所以是一个很困难的任务，就是因为前驱的一些处理过程中会引入大量的噪声带到后面的方案之中。本申请的方案也一样，由于词对齐的错误，本申请经常会遇到源端包含的信息映射到目标端时损失了部分，或者source端、target端的信息并不是对齐的等情况。而且依存句法分析的准确率也并不是很高，虽然本申请已经采用了当前效果比较好的stanford的依存分析工具(斯坦福句法分析工具)，但是其在中文上的表现也并不是很好。因此，本申请方案采用了一些启发性的规则来排除掉一些不正确或者不完整的短语，从而控制短语质量。

词频过滤规则：本申请保留至少出现过2次的短语，防止该短语出现了一次仅仅是因为一个词对齐错误或者语料中并不常见的短语搭配。

结构过滤规则：在短语的分解和提炼部分中，本申请也说明了短语在句子中的句法结构可以提供很多有价值的信息。本申请过滤掉了以“AS”,“P”,“DEC”,“LC”,“PU”,“CD”,“MSP”(AS:中文的“了”，P：对，在，向一类的介词，DEC:中文的“的”，LC:上下前后一类的方位词，PU:中文的标点符号，CD:一二三这样的数词，MSP:“所，而，来”这样起衔接作用的虚词)结尾的所有的短语，因为这些结构结尾的短语往往都是不完整的，例如：短语“进行<asp>了”具有VV<asp>AS的结构，但是这明显是一个信息不完整的短语，很有可能是因为词对齐错误造成的宾语的缺失，因此本申请要过滤掉它们。超过4个结点的句法结构信息太复杂，往往其中包含修饰成分的结点，因此本申请全部过滤掉，部分4个结点的结构也通过短语压缩的方法处理成不超过3个结点的短语。

特异性过滤规则：在学习过程中，有一些短语可能会出现多次，这有两个可能：一个是因为这个短语确实是紧密与事件相关，二是这个短语是语料中一个高频词汇，因此多次被学到。本申请要确保短语是与本申请的事件相近的短语，而描述事件的短语通常不会是在语料中频繁出现的，所以本申请定义一个指标叫做短语特异性(phrase_specificity)来避免学习过程中引用一些高频的但是无关的事件短语：

p h r a s e_s p e c i f i c i t y (p) = \frac{N_{l}}{N_{c}} * 100 - - - (1)

其中Nl表示短语p在本申请一轮映射过程中学习到的次数，Nc表示该短语在语料出现的总次数。若Nl没有出现几次，而Nc很大，说明这个短语很可能是一个因为词对齐错误等学习到的与事件无关的高频短语词汇。这个指标描述了一个短语与本申请主题的关联性接近的程度。例如“take place”这是一个出现频率很高的短语，既可以是“protest”或“demonstration”的举行，又可以是“Olympic Games”、“elections”的举办，前者描述的是与主题相关的内容，但是后者则和事件没有任何关系了，因此，这个短语很大概率描述的是和本申请主题无关的事件，这类短语要过滤掉。在短语学习规模上，本申请设置一个调整集(tuning set)来进行控制，每轮通过调整集(tuning set)动态的来确定phrase_specificity值。

S102：获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；

在本申请实施例中，获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语，即获取经过后处理的所述第一结构化短语和所述第三结构化短语；

S103：将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。

在本申请实施例中，将上文所述的第一结构化短语和第三结构化短语及每轮迭代生成的第一语言端的全部结构化短语进行各种后处理之后，再将最终保留的短语去掉其中的句法结构信息后，即可转化为所述第一语言端的事件短语。这些事件短语即可用于文本进行事件识别。

本文的工作主要是对前人工作(Huang and Riloff,2013)的扩展和丰富。Huang在她的工作中针对事件识别这一任务提出了一种基于匹配事件短语(event phrase)以及事件多方面描述的短语(event facet phrases)的思路，并且进一步提出了一种自举(bootstrapped)的方法来自动迭代的从完全没有标注的文本中学习这些短语。事件多方面短语是指某一事件的不同方面的信息，例如做这个事件的人群(agent)，做这个事件的目的(purpose)等。在Huang&Riloff的工作中，通过这种自举算法获得很高的准确率P(87.80％)和不错的召回率R(71.29％)，最终获得了78.69％的F-score。然而这种方法需要严格的限定短语的句法结构，即所学的短语必须满足两种特定的结构：一种是及物动词衔接其直接宾语的核心词的结构(用dobj表示)，另一种是不及物动词衔接介词再衔接宾语的核心词结构(用prep_x表示，其中x为介词)。在此严格的限制之下，导致很多有价值的短语并不能学习到。针对Huang工作的局限性，本申请提出了一种在双语之间进行结构映射的方法来挖掘一些在原本严格语言学限制下丢失的短语并且发掘一些新的句法结构信息来扩展原有Huang的工作。

本申请实施例与传统的短语映射方法最大的不同就在于结合了句子句法结构的信息，传统的方法只是映射短语本身，只是简单地进行短语的映射，而本申请映射是一个具有句法结构的短语，这样的最大的好处同时也是方法的创新点在于：

结合了句法结构信息，使得学习到的短语在语义学上更有意义，传统的短语映射的方法由于未结合句法信息，可能会因为词对齐错误导致学习到的短语，并没有什么实际的意义，只是不完整的错误短语。

映射结构结构化的短语，可以过滤掉短语之间的一些修饰成分，比如：“举行一场声势浩大的游行”。通过句法分析得出的结果如，可以找到举行和游行之间的关系，就是谓语和直接宾语的关系，而中间的修饰成分，比如到底是一场游行，还是很多场游行，这个游行的规模怎么样，到底是浩大，还是小规模的，本申请并不关心，本申请真正抽取的是最核心的“举行<dobj>游行”这个短语，而去除中间的修饰成分。

由于本申请映射的是类似于“举行<dobj>游行”这样的结构化的短语，而不是整个短语“举行一场声势浩大的游行”，所以在语料中可以得到更多的匹配，就是只要出现了举行游行，不管中间是什么修饰成分都可以匹配到。

因此，应用本申请提供的事件识别方法，将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。可见，本申请实施例通过将初始短语在两种语言之间以结构化短语的形式相互映射，可以解决单一语言的语料资源匮乏的问题，并且能够通过挖掘两种语言之间在语言学上的差异或者通过语义上的一些约束来挖掘多样化的句法结构信息，从而可以获得更为完备的用于进行事件识别的事件短语，提高事件识别的准确率和召回率。

图6为本申请一个实施例提供的事件识别系统的结构图。

参照图6所示，本申请提供的一种事件识别系统，包括：

映射模块1，用于将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，并对映射过程中生成的所述结构化短语进行后处理；

处理模块2，用于获取相互映射并经过后处理后得到的所述第一语言端的所述结构化短语；

识别模块3，用于将获取的所述第一语言端的所述结构化短语转化为所述第一语言端的事件短语，并根据所述事件短语对文本进行事件识别。

优选地，所述映射模块1，可以包括：

优选地，所述映射模块1，还可以包括：

本申请实施例提供的事件识别系统，可以采用上述方法实施例中的事件识别方法，具体功能可以参照上述任一方法实施例中的步骤描述，此处不再赘述。

在具体应用中，本方案采用(Huang and Riloff,2013)自举学习算法学习得到的描述事件不同方面的短语列表event phrases list和purpose phrases list，(简称EP和PP)作为系统的原始输入。在双语平行语料large2(LDC corpusLDC2004E12,LDC2004T08,LDC2005T10,LDC2003E14,LDC2002E18,LDC2005T06,LDC2003E07,LDC2004T07，约357万行句子)上进行方案。通过GIZA++工具跑词对齐和运用斯坦福的句法分析工具对句子进行依存分析。

本申请采用的调整集(tuning set)和测试集(test set)均与huang工作中的相同，由于原始Huang的任务是在英语上开展的，因此采用的都是英文的Keywords，社会动乱的事件包括：strikes,protests,occupations,rallies和一些相似的造成一些骚乱和阻碍社会正常秩序的行为。Huang工作中，选取了6个关键词(protest,strike,march,rally,riot,occupy)以及它们的不同形态的词作为种子，从英文Gigaword语料中抽取至少包含以上1个关键词(或其变形)的文档出来，大概抽了约100万篇文档，然后从这里随机抽取400篇文章来进行语料标注，采用了一系列标注规则来标注这篇文章是否与社会动乱相关。最后将这400篇文档分为两份，一份为tuning set(100篇)，另一份为test set(300篇)，tuning set是作为测试之前的调整，把方案中的参数在tuning set上调整到最佳，然后再放到test set上测评，最终得到测评结果。

第一行是Huang工作中的结果，作为本申请的baseline，进行两轮迭代得到了最好的结果，结果显示，本申请的方法以损失不到2％的准确率下，较大的提升了Recall值，F值获得了81.87的好结果。

表1：方案测评结果

除了极大的扩展了原有短语的数量，本申请还进一步分析通过双语结构映射的方法学习到的新的短语结构，由于英语和汉语之间的语言差异性(linguistic divergences)，本申请学习到很多新的英文短语结构、中文短语结构。

例如中文可以用一个动词“泄愤”就表示一个英文三个单词的短语“wenttheir anger”，中文可以用一个名词“静坐”表示“stage a sit-in”，或者用两个动词“进行绝食”来表示一个复杂的英文短语“go on hunger strike”等。还有中文喜欢用两个并列的相似含义的词汇描述一个事件，比如“进行游行示威”。

表2新的中文短语结构示例

通过中文的扩展，英文的短语结构也丰富了很多，如下表所示。丰富了原有的动词开头的事件短语结构，同时也学习到很多有趣的名词开头的短语结构(因为在传统的研究者眼中，通常表示事件的都是动词的短语，而不考虑名词结构的短语)

表3新的英文短语结构示例

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种事件识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将第一语言端的初始短语在第一语言和第二语言之间以结构化短语的形式进行相互映射，包括：

3.根据权利要求2所述的方法，其特征在于，所述对映射过程中生成的所述结构化短语进行后处理，包括：

获取所述第二结构化短语和所述第三结构化短语；

4.根据权利要求2所述的方法，其特征在于，所述对映射过程中生成的所述结构化短语进行后处理，包括：

获取所述第二结构化短语和所述第三结构化短语；

5.根据权利要求2所述的方法，其特征在于，所述对映射过程中生成的所述结构化短语进行后处理，包括：

获取所述第二结构化短语与所述第三结构化短语；

6.一种事件识别系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述映射模块，包括：

8.根据权利要求7所述的系统，其特征在于，所述映射模块，还包括：

9.根据权利要求7所述的系统，其特征在于，所述映射模块，还包括：

10.根据权利要求7所述的系统，其特征在于，所述映射模块，还包括：