CN107562772B

CN107562772B - 事件抽取方法、装置、系统和存储介质

Info

Publication number: CN107562772B
Application number: CN201710530618.2A
Authority: CN
Inventors: 吴刚
Original assignee: Nanjing Ke Data Technology Co Ltd
Current assignee: Nanjing Ke Data Technology Co Ltd
Priority date: 2017-07-03
Filing date: 2017-07-03
Publication date: 2020-03-24
Anticipated expiration: 2037-07-03
Also published as: CN107562772A

Abstract

本发明公开了一种事件抽取方法、装置、系统和存储介质。该方法包括：利用对语料库进行模式学习得到的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别；使用模式学习得到的模式，模式匹配事件句，得到与模式相匹配的事件句集；根据预设的与事件类别对应的事件学习模板，抽取事件句集中的事件内容。根据本发明实施例提供的事件抽取方法，可以提高事件内容抽取的效率和完整性。

Description

事件抽取方法、装置、系统和存储介质

技术领域

本发明涉及信息抽取领域，尤其涉及事件抽取方法、装置、系统和存储介质。

背景技术

作为信息抽取的重要组成部分，事件抽取具有广阔的应用前景和巨大的现实意义，并且在自动文摘、自动问答、情报研究和信息检索等领域有着广泛的应用。事件抽取的主要目的是把包含事件的非结构化文本以结构化的形式呈现出来。

事件抽取通常可以分为元事件(Meta Event)抽取和主题事件(Topic Event)抽取。其中，元事件表示一个动作的发生或者状态的变化，包括参与该动作的一系列成分例如时间、地点、主体和客体等。元事件是主题事件的基本组成单位。

事件抽取是信息处理领域的关键技术，目前事件抽取的主要方法包括基于模式匹配的元事件抽取。基于模式匹配方法对事件的识别和抽取是在一些模式的指导下完成的，抽取时需要通过模式匹配算法找出符合模式约束条件的信息即可。

但是，基于模式匹配方法需要大量的人工建立模式，模式的创建者需要较高的技能水平。随着互联网技术的发展，WEB文本不断丰富，面对大规模语料，人工建立模式的数量较大，使用模式匹配的方法显得费时费力，且人工建立的模式往往比较片面且不够准确，从而可能导致抽取的事件内容不够完整和准确。

发明内容

本发明实施例提供事件抽取方法、装置、系统和存储介质，可以提高事件内容抽取的效率和完整性。

根据本发明实施例的一方面，提供一种事件抽取方法，包括：利用对语料库进行模式学习得到的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别；使用模式学习得到的模式，模式匹配事件句，得到与模式相匹配的事件句集；根据预设的与事件类别对应的事件学习模板，抽取事件句集中的事件内容。

根据本发明实施例的另一方面，提供一种事件抽取装置，包括：事件句定位及分类模块，用于利用对语料库进行模式学习得到的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别；事件句匹配模块，用于使用模式学习得到的模式，模式匹配事件句，得到与模式相匹配的事件句集；事件内容抽取模块，用于根据预设的与事件类别对应的事件学习模板，抽取事件句集中的事件内容。

根据本发明实施例的再一方面，提供一种事件抽取系统，包括：存储器，用于储存可执行程序代码；处理器，用于读取存储器中存储的可执行程序代码以执行上述的事件抽取方法。

根据本发明实施例的又一方面，提供一种计算机可读存储介质，该计算机可读存储介质包括指令，当该指令在计算机上运行时，使得计算机执行上述各方面所述的方法。

根据本发明实施例的事件抽取方法、装置、系统和存储介质，利用模式学习得到的触发词定位所述语料库的文档中的事件句并对定位到的事件分类；并利用学习得到的模式，对定位到的事件句进行模式匹配，根据每种事件类别对应的事件学习模板学习事件内容。根据本发明实施例的事件抽取方法，在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的内容，提高了事件识别的效率，有利于提高事件识别的完整性和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是示出根据本发明一实施例的事件抽取方法的流程图；

图2示出图1中利用对语料库进行模式学习得到触发词之前的流程图；

图3是示出图2中通过远程监督的关系抽取方法得到语料库中的模式候选句的具体流程图；

图4是示出图2中根据触发词与实体对之间的位置关系从模式候选句中抽取候选模式的具体流程图；

图5是示出图2中根据位于实体位置之前位置词汇的词性进行候选模式合并以获取新的模式的具体流程图；

图6是示出根据本发明实施例的另一实施例的事件抽取方法的流程图；

图7是示出根据本发明一实施例的事件抽取装置的结构示意图；

图8是示出根据本发明另一实施例的事件抽取装置的结构示意图；

图9是图8中模式候选句获取模块的具体结构示意图；

图10是图8中候选模式抽取模块的具体结构示意图；

图11是图8中候选模式合并模块的具体结构示意图；

图12示出了根据本发明再一实施例的事件抽取装置的结构示意图；

图13是示出了能够实现根据本发明实施例的事件抽取方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中，事件抽取(Event Extraction)的任务可以被定义为事件的检测与识别(Event detection and recognition，VDR)，即识别特定类型的事件，并进行相关信息的确定和抽取，主要的相关信息包括：事件的类型和子类型、事件的元素等。

本发明实施例可以采用自动从语料库中学习新的模式，并在学习到新模式之后使用模式和模板学习结合的方式进行事件抽取，在进行模式学习和事件抽取的过程中，会涉及大量的实体词、触发词、已有和训练中扩增的模式、事件句集等相关数据，为了更好的保存和使用上述相关数据，可以通过对应的表或集合的形式对上述相关数据进行管理。

在一些实施例中，定义关系表R＝{r₁，r₂，…，r_x}，关系表中的每一项可以表示一个由人工定义的关系relation_i，作为一个具体的示例，关系可以是合作、竞争或收购等。

在一些实施例中，定义触发词表Triggers，该触发词表Triggers＝{(t₁，r₁)，(t₂，r₂)，…，(t_k，r_k)}，其中，t_i是一个触发词，r_i∈R，表示触发词所属的关系，i＝1，2，…，k。初始化的触发词表Trigger，可以由人工添加触发词及其对应关系。

在一些实施例中，定义模式描述词表conjunctions，可以用于保存模式中使用的模式描述词。

在一些实施例中，可以定义模式库Patterns＝{p₁，p₂，…，p_n}，可以表示多个模式的集合，对于模式库中的一个模式，可以表示为Patternp_i＝(entity1，entity2，relation_i，conjunctions_i)，其中，模式p_i包含实体entity1、实体entity2、关系relation_i和模式描述词conjunctions_i，关系relation∈关系表R，模式描述词表conjunctions由固定的词或者短语组成。

需要说明的是，entity1和entity2作为两个实体，实体的具体内容可以不同，但在模式p_i中，entity1的位置和entity2的位置的顺序固定。并且，在entity1的位置和entity2的位置的顺序固定的前提下，模式中的conjunctions_i也具有指定的位置。

作为一个示例，在一个模式中，conjunctions_i的位置可以在entity1的位置和entity2的位置中间；在另一个模式中，conjunctions_i可以位于entity1的位置之前，在再一个模式中，conjunctions_i可以位于entity2的位置之后。例如，在一个模式中，实体词entity1、实体词entity2、模式描述词conjunctions1以及该模式表示的关系relation可以有如下组合：entity1-conjunctions1-entity2-relation。

在一些实施例中，定义句子集Sents，可以用于保存将指定的语料库切分成句子的结果。

在一些实施例中，定义候选句集CandSent，可以用于保存利用模式库Patterns中已有的模式，即种子模式，从语料库中抽取候选句的结果。

在一些实施例中，定义实体对集Entitys，可以用于保存使用种子模式从语料库中抽取候选句中的结果中的实体对。

在一些实施例中，定义模式候选句集PatternsSent，可以用于保存利用实体对和预设的抽取方法，从指定的语料库中抽取得到的模式候选句。

在一些实施例中，定义候选模式集CandPatterns，可以用于保存从模式候选句中抽取出的候选模式，和该候选模式的抽取次数。

在一些实施例中，定义事件学习模板库Templates，学习模板与关系表中的关系一一对应。

在一些实施例中，定义事件句集EventSent，可以用于保存事件句、实体对及其对应的模式；

在一些实施例中，定义事件模板内容集TLearn，可以用于保存从事件句中学到的模板及学习次数

为了更好的理解本发明，下面将结合附图，详细描述根据本发明实施例的事件抽取方法、装置、系统和存储介质，应注意，这些实施例并不是用来限制本发明公开的范围。

图1是示出根据本发明实施例的事件抽取方法的流程图。如图1所示，本实施例中的事件抽取方法100包括以下步骤：

步骤S110，利用对语料库进行模式学习得到的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别。

作为一个示例，语料库CE＝{d₁，d₂，…，d_n}，表示该语料语料库共为n篇文档，每一篇文档包含标题、正文内容、文档生成时间、文档源置信度。

在一些实施例中，作为后续使用定位语料库的文档中的事件句的基础工作，事件抽取方法还包括：

使用实体识别工具识别语料库中所有文档中的实体。

取训练语料库CE中的文档，利用文档发布时间和上下文内容，将文档中的相对时间转变为绝对时间。

作为一个示例，如果文档中的相对时间缺失年份信息，则根据上下文信息和文档发布时间为该相对时间添加年份信息。

步骤S120，使用模式学习得到的模式，模式匹配事件句，得到与模式相匹配的事件句集。

在该步骤中，使用模式库Patterns中的模式在文本中搜索事件句，可以过滤掉大部分的非事件句。

步骤S130，根据预设的与事件类别对应的事件学习模板，抽取事件句集中的事件内容。

在一些实施例中，学习模板可以是人工根据不同的关系手动创建的，一个模板内容可以包含事件主体、事件行为、事件客体、事件时间、事件地点、事件置信度、事件元素置信度等信息，并可以根据实际情况进行扩充。

根据本发明实施例中的事件抽取方法，利用已经预先学习到的模式进行事件定位和事件句匹配，再根据预设的事件学习模板学习匹配到的事件句中的事件内容，可以提高事件内容抽取的效率。

由于学习到的模式是可以自动从语料库中进行机器学习，并可以通过持续不断训练进行模式库的扩充，有利于提高模式抽取的准确性和完整性，从而提高事件抽取的准确度和完整度。

图2是图1中利用对语料库进行模式学习得到的触发词的步骤之前的流程图。也就是说，在一些实施例中，在上述步骤S110之前，事件抽取方法100还可以包括：

步骤S101，分别计算语料库中的词汇与预设的触发词表中每个触发词的触发词相似度，触发词相似度的最大值大于触发词相似度阈值时，设置词汇与最大值对应的触发词具有相同的关系分类，并将词汇作为模式学习得到的触发词。

作为一个示例，指定的语料库CD＝{d₁，d₂，…，d_m}，表示该语料库为m篇文档。在一些实施例中，每一片文档包含文档标题、文档内容。

在该步骤中，语料库中的词汇可以通过使用分词工具和实体识别工具，获得指定语料库中的词汇和该语料库中所有文档的实体。

在本发明实施例中，对识别实体的方法不作具体限定。实体识别的方法可以根据实际情况进行选择，例如，本发明实施例中识别的方法可以包括：基于局域条件随机场(Conditional Random Field，CRF)的实体识别方法或基于多模板(Hidden Markov Model，HMM)等实体识别方法。识别出的实体内容可以包含但不限于人名、地名、时间、组织名。

在一些实施例中，计算语料库CD中的词汇与当前触发词表Triggers中所有触发词的相似度，得到该词汇与每个触发词的相似度值，取这些相似度值中的最大值，如果该相似度值中的最大值超于预设的触发词相似度阈值T_θ，则设置该词汇的关系分类与该相似度值中的最大值对应的触发词具有相同的关系分类。并将该词汇添加到触发词表TRiggers，作为学习得到的触发词。

在一些实施例中，相似度阈值T_θ可以是在多次实验中人工确定的值，使用不同的相似度计算方法阈值T_θ的范围可以不同。

在一些实施例中，相似度计算使用可以词向量word embeddings方法。

作为一个示例，取语料库中的一个词汇，计算该词汇和每个触发词的分布式表示的向量，然后分别计算该词汇的分布式表示向量和每个触发词的分布式表示向量之间的相似度，得到与该词汇具有最大相似度的触发词。使用同样的方法处理语料库中的其他词汇，从语料库中的词汇中学习新的触发词。

在该示例中，在计算词汇的分布式表示的向量时，向量的维度可以生成每个词为相同维度的向量，该维数可以根据实际需要进行自定义。作为一个更具体的示例，可以在拥有较大范围的语料库基础上训练100维、150维或200维以上维度的词向量，然后计算当前词汇与触发词的向量之间的相似度。

在该示例中，计算当前词汇与每个触发词之间的相似度的方法可以根据实际情况进行选择，例如余弦相似度算法和相对熵(Kullback-Leibler divergence)算法。也就是说，在本发明实施例中，不对两个词之间的相似度的方法进行具体的限定。

通过步骤S101，对语料库进行模式学习时，可以将学习得到的触发词添加到触发词表Trigger中。在进行事件抽取的步骤S110时，可以利用对语料库进行模式学习后的触发词表中的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别。

在一些实施例中，在初始的触发词表Trigger的基础上，可以通过人工的方式扩充该触发词表，即人工向触发词表Trigger中添加新的触发词和新的触发词的对应关系。

在另一些实施例中，如果触发词表通过人工的方式进行维护，在步骤S110中，可以通过触发词表中已有的触发词，定位语料库中的文档中的事件句，并根据触发词表中包含的触发词的关系分类确定事件句的事件类别。

步骤S102，使用预设的种子模式抽取语料库中的候选句，并获取候选句中的实体对。

在该步骤中，可以将获取的候选句中的实体对，存入实体对集Entitys。

步骤S103，利用候选句中的实体对，通过远程监督的关系抽取方法得到语料库中的模式候选句。

在一些实施例中，如图3所示，步骤S103具体还可以包括：

步骤S1031，对预设的语料库中的文档进行实体识别，得到文档中的实体。

步骤S1032，根据实体对中的实体搜索语料库的文档中的句子。

步骤S1033，句子中包含实体对，并且句子中实体以外的词汇包含触发词表中的触发词时，根据句子、句子中包含的实体对和句子中包含的触发词，得到语料库中的模式候选句。

在该实施例中，首先可以通过切分语料库，得到该语料库中的句子，如果语料库中的句子中同时满足下述条件1、条件2和条件3时，抽取该句子为模式候选句。

条件1，该句子包含触发词表中的触发词，且该句子中包含的触发词所属的关系与模式包含的关系相同。

条件2，该句子中包含模式描述词表conjunctions中的词或者短语，且该句子中包含的模式描述词在句子中的位置与模式包含的模式描述词的位置相对应。

条件3，该句子中或该句子的子句中包含实体entity1和实体entity2，且该模式也包含实体entity1和实体entity2时，抽取该句子为模式候选句。

在一些实施例中，如果句子中包含多个触发词，可以将根据句子、句子中包含的实体对和句子中包含的触发词分多次进行保存，从而得到多个模式候选句，该多个模式候选句的个数可以和该句子中包含的触发词的个数相同，每个模式候选句中至少包含该多个触发词中的一个。

作为一个示例，entity1为“华为”，entity2为“九阳”，在整个语料库中寻找同时出现“华为”和“九阳”两个词的句子，并且该句子中除实体“华为”和“九阳”之外的词存在于触发词表中，如“合作”在触发词表中，那么句子“华为与九阳达成合作意向”就会被添加到候选句集中。

在该实施例中，对使用种子模式抽取语料库得到的实体对，使用远程监督的关系抽取方法(Distance Supervision)在整个语料库中抽取模式候选句。在一些实施例中，可以将得到的模式候选句存入模式候选句集PatternsSent。

步骤S104，根据模式候选句中包含的触发词与模式候选句中包含的实体对之间的位置关系，从模式候选句中抽取候选模式。

在一些实施例中，如图4所示，步骤S104具体还可以包括：

步骤S1041，获取模式候选句中包含的触发词在模式候选句中的位置作为触发词位置，将模式候选句中包含的实体对中的实体分别作为第一实体和第二实体，并获取模式候选句中第一实体的位置作为第一实体位置，获取模式候选句中第二实体的位置作为第二实体位置，第二实体位置位于第一实体位置之后。

步骤S1042，触发词位置位于第一实体位置之前，获取位于触发词位置到第二实体位置的内容作为抽取的候选模式，并将位于触发词位置与第一实体位置之间的词汇以及位于第一实体位置与第二实体位置之间的词汇作为模式描述词。

在该步骤中，位于触发词位置与第一实体位置之间的模式描述词，以及位于第一实体位置与第二实体位置之间的模式描述词，构成模式描述信息。

步骤S1043，触发词位置位于第一实体位置和第二实体位置之间，获取位于第一实体位置到第二实体位置的内容作为抽取的候选模式，并将位于第一实体位置与触发词位置之间的词汇以及位于触发词位置与第二实体位置之间的词汇作为模式描述词。

在该步骤中，位于第一实体位置与触发词位置之间的模式描述词，以及位于触发词位置与第二实体位置之间的模式描述词，构成模式描述信息。

步骤S1044，触发词位置位于第二实体位置之后，获取位于第一实体位置到触发词位置的内容作为抽取的候选模式，并将位于第一实体位置与第二实体位置之间的词汇以及位于第二实体位置与触发词位置之间的词汇作为模式描述词。

在该步骤中，位于第一实体位置与第二实体位置之间的模式描述词，以及位于第二实体位置与触发词位置之间的模式描述词，构成模式描述信息。

作为一个示例，模式候选句例如是“W1 W2 W3 W4 W5 W6 W7”，该模式候选集包括7个字句，模式库Patterns中的一个模式为“entity1 conjunction₁ entity2 relation”，通过分析，“W1 W2”子句中包括实体W1，“W4 W5 W6”子句包含实体W6，并且，W7为触发词表Triggers中的触发词，conjunction1对应于W3。通过上述分析可以发现，该模式候选句可以与模式包含的内容和该内容在模式中对应的位置相匹配，则认为该模式候选句是符合该模式的。

作为一个更具体的示例，模式候选句例如是“华为与九阳携手共建智能厨房”，当前的模式是“entity1 conjunction₁ entity2 relation”。经分析，entity1是“华为”，entity2是“九阳”，conjunction₁对应于“与”，ralation是包含在触发词表中的“携手”对应的合作关系。该句子符合当前模式“entity1 conjunction₁ entity2 relation”。

步骤S105，通过抽取的候选模式和候选模式的抽取次数，根据预设的评分方法对候选模式打分，并获取分数大于模式评分阈值的候选模式。

具体地，可以通过下述公式(1)计算候选模式的分数：

在上述公式(1)中，score(p)表示计算得到的候选模式的分数，count(p)表示模式p匹配到的次数，count(i，p)表示第i个实体对被模式p匹配到的次数。

在该步骤中，通过对候选模式的评分，可以筛选出分数大于模式评分阈值的候选模式，过滤掉得分低于阈值的候选模式。

步骤S106，根据分数大于模式评分阈值的候选模式中的，且位于实体对中每个实体的位置之前位置的词汇的词性，合并分数大于模式评分阈值的候选模式，并将合并后的候选模式作为模式学习得到的模式。

在一些实施例中，如图5所示，步骤S106具体可以包括以下步骤：

步骤S1061，获取抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体，第二实体的位置位于第一实体的位置之后。

步骤S1062，将位于第一实体的前一个位置起向前位置的连续的名词作为第一名词，将第一名词与第一实体合并，并将与第一实体合并后的候选模式作为新抽取的候选模式。

步骤S1063，将位于第二实体的前一个位置起向前位置的，且除第一实体以外的连续的名词作为第二名词，将第二名词与第二实体合并，并将与第二实体合并后的候选模式作为新抽取的候选模式。

步骤S1064，将新抽取的候选模式作为模式学习得到的模式。

在该实施例中，可以根据词性对候选模式进行合并得到新抽取的候选模式，通过聚合不同的模式减少模式的数量，有利于精简学习得到的模式，提高学习到的模式的质量。

在一些实施例中，将合并后的模式添加到模式库Patterns中，并通过下述公式(2)重新为候选模式进行评分。

score(p′)＝Max(score(p)) (2)

在上述公式(2)中，p′可以表示合并后的模式，合并后的模式的分数为参与合并的模式的最高分。

通过上述步骤S102-S106，对语料库进行模式学习时，可以将学习得到的模式添加到模式库Patterns中，在进行事件抽取的步骤S120时，可以使用进行模式学习后的模式库中的模式，模式匹配事件句，得到与模式相匹配的事件句集。

应注意，步骤S120中所述的模式学习得到的模式，可以是进行模式学习后的模式库中的模式。

继续参考图2，在一些实施例中，事件抽取方法100还可以包括：

步骤S107，抽取学习得到的模式中的事实，并添加抽取的事实到预设的事实库。

在一些实施例中，利用上述公式(1)对得到的事实进行评分，对事实的评分等于抽取得到该事实的模式的得分，由多个模式抽取出该事实时，该事实的得分可以取该每个模式得分中的最高分，即利用下述公式(3)计算得到事实得分：

score(f)＝Max(score(p′)) (3)

在公式(3)中，p′可以表示合并后的模式，score(p′)表示合并后的模式的得分，合并后的模式中抽取得到的事实的得分可以取该每个模式得分中的最高分。

图6是根据本发明实施例的另一实施例的事件抽取方法的流程图。图6与图1相同或等同的步骤使用相同的标号。如图6所示，事件抽取方法200基本相同于事件抽取方法100，不同之处在于，事件抽取方法200中，还可以包括：

步骤S140，抽取的事件内容中包含相同事件，将包含相同事件的事件内容进行聚合。

在一些实施例中，相同的学习模板可以从同一篇文档中学习到不同的内容，可以通过聚合减少事件数量。

在该步骤中，使用不同的模板进行学习和聚合相同事件内容，提高了事件内容抽取的准确性和抽取的文本事件的完整度。

步骤S150，获取事件内容对应的语料库的预设文档源置信度，以及事件内容中包含的相同事件被抽取的次数。

步骤S160，根据预设文档源置信度和相同事件被抽取的次数，计算聚合后的事件内容的置信度。

在该实施例中，不同的模板在同一篇文档中可以学习到不同的事件，事件置信度可以反映事件在文本中的重要程度。

根据本发明实施例所述的事件抽取方法，在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的事件内容，新学习的模式有助于提高对事件的定位和识别的效率和准确度，使用不同的模板进行学习和聚合相同事件内容，可以提高对事件内容抽取的准确性和文本事件的完整度。

下面结合附图，详细介绍根据本发明实施例的事件抽取装置。

图7示出了根据本发明一实施例提供的事件抽取装置的结构示意图。如图7所示，事件抽取装置700包括：

事件句定位及分类模块710，用于利用对语料库进行模式学习得到的触发词，定位语料库的文档中的事件句，并根据触发词的关系分类确定事件句的事件类别。

事件句匹配模块720，用于使用模式学习得到的模式，模式匹配事件句，得到与模式相匹配的事件句集。

事件内容抽取模块730，用于根据预设的与事件类别对应的事件学习模板，抽取事件句集中的事件内容。

根据本发明实施例的事件抽取装置，利用已经预先学习到的模式进行事件定位和事件句匹配，再根据预设的事件学习模板学习匹配到的事件句中的事件内容，可以提高事件内容抽取的效率。

图8示出了根据本发明另一实施例的事件抽取装置的结构示意图。如图8所示，事件抽取装置700还可以包括：

触发词学习模块701，用于分别计算语料库中的词汇与预设的触发词表中每个触发词的触发词相似度，触发词相似度的最大值大于触发词相似度阈值时，设置词汇与最大值对应的触发词具有相同的关系分类，并将词汇作为模式学习得到的触发词；

实体对获取模块702，用于使用预设的种子模式抽取语料库中的候选句，并获取候选句中的实体对。

模式候选句获取模块703，用于利用候选句中的实体对，通过远程监督的关系抽取方法得到语料库中的模式候选句。

在一些实施例中，如图9所示，模式候选句获取模块还包括：

实体识别单元7031，用于对预设的语料库中的文档进行实体识别，得到文档中的实体；

句子获取单元7032，用于根据实体对中的实体搜索语料库的文档中的句子；

模式候选句获取模块7033还用于句子中包含实体对，并且句子中实体以外的词汇包含触发词表中的触发词时，根据句子、句子中包含的实体对和句子中包含的触发词，得到语料库中的模式候选句。

在该实施例中，对使用种子模式抽取语料库得到的实体对，使用远程监督的关系抽取方法(Distance Supervision)在整个语料库中抽取模式候选句。

候选模式抽取模块704，用于根据模式候选句中包含的触发词与模式候选句中包含的实体对之间的位置关系，从模式候选句中抽取候选模式。

在一些实施例中，如图10所示，候选模式抽取模块704具体可以包括：

位置获取单元7041，用于获取模式候选句中包含的触发词在模式候选句中的位置作为触发词位置，将模式候选句中包含的实体对中的实体分别作为第一实体和第二实体，并获取模式候选句中第一实体的位置作为第一实体位置，获取模式候选句中第二实体的位置作为第二实体位置，第二实体位置位于第一实体位置之后。

第一候选模式抽取单元7042，用于触发词位置位于第一实体位置之前，获取位于触发词位置到第二实体位置的内容作为抽取的候选模式，并将位于触发词位置与第一实体位置之间的词汇以及位于第一实体位置与第二实体位置之间的词汇作为模式描述词。

第二候选模式抽取单元7043，用于触发词位置位于第一实体位置和第二实体位置之间，获取位于第一实体位置到第二实体位置的内容作为抽取的候选模式，并将位于第一实体位置与触发词位置之间的词汇以及位于触发词位置与第二实体位置之间的词汇作为模式描述词。

第三候选模式抽取单元7044，用于触发词位置位于第二实体位置之后，获取位于第一实体位置到触发词位置的内容作为抽取的候选模式，并将位于第一实体位置与第二实体位置之间的词汇以及位于第二实体位置与触发词位置之间的词汇作为模式描述词。

在该实施例中，通过模式候选句中触发词位置与实体对中实体的相对位置关系，从模式候选句中抽取候选模式。

候选模式评分模块705，用于通过抽取的候选模式和候选模式的抽取次数，根据预设的评分方法对候选模式打分，并获取分数大于模式评分阈值的候选模式。

候选模式合并模块706，用于根据分数大于模式评分阈值的候选模式中的，且位于实体对中每个实体的位置之前位置的词汇的词性，合并分数大于模式评分阈值的候选模式，并将合并后的候选模式作为模式学习得到的模式。

在一些实施例中，如图11所示，候选模式合并模块706具体还可以包括：

实体词获取单元7061，用于获取抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体，第二实体的位置位于第一实体的位置之后。

实体词名词第一合并单元7062，用于将位于第一实体的前一个位置起向前位置的连续的名词作为第一名词，将第一名词与第一实体合并，并将与第一实体合并后的候选模式作为新抽取的候选模式。

实体词名词第二合并单元7063，用于将位于第二实体的前一个位置起向前位置的，且除第一实体以外的连续的名词作为第二名词，将第二名词与第二实体合并，并将与第二实体合并后的候选模式作为新抽取的候选模式。

候选模式合并模块706还用于将新抽取的候选模式作为模式学习得到的模式。

上述实施例中从语料库中学习新的模式的步骤可以是一个循环迭代的过程，即重复多次从语料库中学习新的模式，迭代次数Iter可以是预设的参数。

继续参考图8，在一些实施例中，事件抽取装置700还可以包括：

事实抽取模块707，用于抽取学习得到的模式中的事实，并添加抽取的事实到预设的事实库。

图12示出了根据本发明再一实施例的事件抽取装置的结构示意图。图12与图7相同或等同的结构使用相同的标号。如图12所示，事件抽取装置1200基本相同于事件抽取装置700，不同之处在于，事件抽取装置1200还包括：

事件聚合模块740，用于抽取的事件内容中包含相同事件，将包含相同事件的事件内容进行聚合；

事件置信度参数获取模块750，用于获取事件内容对应的语料库的预设文档源置信度，以及事件内容中包含的相同事件被抽取的次数；

事件置信度计算模块760，用于根据预设文档源置信度和相同事件被抽取的次数，计算聚合后的事件内容的置信度。

在该实施例中，事件置信度可以反映事件在文本中的重要程度，对聚合后的时间内容的置信度进行评价。

根据本发明实施例的事件抽取装置的其他细节与以上结合图1至图6描述的根据本发明实施例的事件抽取方法类似，在此不再赘述。

结合图1至图12描述的根据本发明实施例的事件抽取方法和装置可以由计算设备实现。图13是示出能够实现根据本发明实施例的事件抽取方法和装置的计算设备的示例性硬件架构的结构图。如图13所示，计算设备1300包括输入设备1301、输入接口1302、中央处理器1303、存储器1304、输出接口1305、以及输出设备1306。其中，输入接口1302、中央处理器1303、存储器1304、以及输出接口1305通过总线1310相互连接，输入设备1301和输出设备1306分别通过输入接口1302和输出接口1305与总线1310连接，进而与计算设备1300的其他组件连接。具体地，输入设备1301接收来自外部的输入信息(例如，语料库和种子模式)，并通过输入接口1302将输入信息传送到中央处理器1303；中央处理器1303基于存储器1304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1304中，然后通过输出接口1305将输出信息传送到输出设备1306；输出设备1306将输出信息输出到计算设备1300的外部供用户使用。

也就是说，图13所示的计算设备也可以被实现为事件抽取系统，该事件抽取系统包括：处理器1303和存储器1304。该存储器1304用于储存有可执行程序代码；处理器1303用于读取存储器中存储的可执行程序代码以执行上述实施例的事件抽取方法，并可以执行事件抽取方法中的步骤S110-S160、步骤S101-S107、步骤S1031-S1033、步骤S1041-S1044以及步骤S1061-S1064。

通过本发明实施例的事件抽取系统，在学习到新模式之后使用模式和模板学习结合的方式从文本中抽取相关的内容，提高了事件识别的效率，有利于提高事件识别的完整性和准确性。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种事件抽取方法，其特征在于，所述事件抽取方法包括：

利用对语料库进行模式学习得到的触发词，定位所述语料库的文档中的事件句，并根据所述触发词的关系分类确定所述事件句的事件类别；

使用所述模式学习得到的模式，模式匹配所述事件句，得到与所述模式相匹配的事件句集；

根据预设的与所述事件类别对应的事件学习模板，抽取所述事件句集中的事件内容；

其中，在所述利用对语料库进行模式学习得到的触发词之前，还包括：

分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度，所述触发词相似度的最大值大于触发词相似度阈值时，设置所述词汇与所述最大值对应的触发词具有相同的关系分类，并将所述词汇作为所述模式学习得到的触发词；

使用预设的种子模式抽取所述语料库中的候选句，并获取所述候选句中的实体对；

利用所述候选句中的实体对，通过远程监督的关系抽取方法得到所述语料库中的模式候选句；

根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系，从所述模式候选句中抽取候选模式；

通过抽取的候选模式和所述候选模式的抽取次数，根据预设的评分方法对所述候选模式打分，并获取分数大于模式评分阈值的候选模式；

根据所述分数大于模式评分阈值的候选模式中的，且位于所述实体对中每个实体的位置之前位置的词汇的词性，合并所述分数大于模式评分阈值的候选模式，并将合并后的候选模式作为所述模式学习得到的模式。

2.根据权利要求1所述的事件抽取方法，其特征在于，所述利用所述候选句中的实体对，通过远程监督的关系抽取方法得到所述语料库中的模式候选句，包括：

对预设的语料库中的文档进行实体识别，得到所述文档中的实体；

根据所述实体对中的实体搜索所述语料库的文档中的句子；

所述句子中包含所述实体对，并且所述句子中实体以外的词汇包含所述触发词表中的触发词时，根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词，得到所述语料库中的模式候选句。

3.根据权利要求1所述的事件抽取方法，其特征在于，所述根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系，从所述模式候选句中抽取候选模式，包括：

获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置，将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体，并获取所述模式候选句中所述第一实体的位置作为第一实体位置，获取所述模式候选句中所述第二实体的位置作为第二实体位置，所述第二实体位置位于所述第一实体位置之后；

所述触发词位置位于所述第一实体位置之前，获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式，并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词；

所述触发词位置位于所述第一实体位置和所述第二实体位置之间，获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式，并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词；

所述触发词位置位于第二实体位置之后，获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式，并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。

4.根据权利要求1所述的事件抽取方法，其特征在于，所述根据所述分数大于模式评分阈值的候选模式中的，且位于所述实体对中每个实体的位置之前位置的词汇的词性，合并所述分数大于模式评分阈值的候选模式，并将合并后的候选模式作为所述学习得到的模式，包括：

获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体，所述第二实体的位置位于所述第一实体的位置之后；

将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词，将所述第一名词与所述第一实体合并，并将与所述第一实体合并后的候选模式作为新抽取的候选模式；

将位于所述第二实体的前一个位置起向前位置的，且除所述第一实体以外的连续的名词作为第二名词，将所述第二名词与所述第二实体合并，并将与所述第二实体合并后的候选模式作为新抽取的候选模式；

将所述新抽取的候选模式作为所述模式学习得到的模式。

5.根据权利要求1所述的事件抽取方法，其特征在于，所述事件抽取方法还包括：

抽取所述学习得到的模式中的事实，并添加抽取的事实到预设的事实库。

6.根据权利要求1所述的事件抽取方法，其特征在于，所述事件抽取方法还包括：

抽取的所述事件内容中包含相同事件，将包含所述相同事件的所述事件内容进行聚合；

获取所述事件内容对应的所述语料库的预设文档源置信度，以及所述事件内容中包含的所述相同事件被抽取的次数；

根据所述预设文档源置信度和所述相同事件被抽取的次数，计算所述聚合后的事件内容的置信度。

7.一种事件抽取装置，其特征在于，所述事件抽取装置包括：

事件句定位及分类模块，用于利用对语料库进行模式学习得到的触发词，定位所述语料库的文档中的事件句，并根据所述触发词的关系分类确定所述事件句的事件类别；

事件句匹配模块，用于使用所述模式学习得到的模式，模式匹配所述事件句，得到与所述模式相匹配的事件句集；

事件内容抽取模块，用于根据预设的与所述事件类别对应的事件学习模板，抽取所述事件句集中的事件内容；

其中，所述事件抽取装置还包括：

触发词学习模块，用于分别计算所述语料库中的词汇与预设的触发词表中每个触发词的触发词相似度，所述触发词相似度的最大值大于触发词相似度阈值时，设置所述词汇与所述最大值对应的触发词具有相同的关系分类，并将所述词汇作为所述模式学习得到的触发词；

实体对获取模块，用于使用预设的种子模式抽取所述语料库中的候选句，并获取所述候选句中的实体对；

模式候选句获取模块，用于利用所述候选句中的实体对，通过远程监督的关系抽取方法得到所述语料库中的模式候选句；

候选模式抽取模块，用于根据所述模式候选句中包含的触发词与所述模式候选句中包含的实体对之间的位置关系，从所述模式候选句中抽取候选模式；

候选模式评分模块，用于通过抽取的候选模式和所述候选模式的抽取次数，根据预设的评分方法对所述候选模式打分，并获取分数大于模式评分阈值的候选模式；

候选模式合并模块，用于根据所述分数大于模式评分阈值的候选模式中的，且位于所述实体对中每个实体的位置之前位置的词汇的词性，合并所述分数大于模式评分阈值的候选模式，并将合并后的候选模式作为所述模式学习得到的模式。

8.根据权利要求7所述的抽取装置，其特征在于，所述模式候选句获取模块还包括：

实体识别单元，用于对预设的语料库中的文档进行实体识别，得到所述文档中的实体；

句子获取单元，用于根据所述实体对中的实体搜索所述语料库的文档中的句子；

模式候选句获取模块，还用于所述句子中包含所述实体对，并且所述句子中实体以外的词汇包含所述触发词表中的触发词时，根据所述句子、所述句子中包含的所述实体对和所述句子中包含的所述触发词，得到所述语料库中的模式候选句。

9.根据权利要求7所述的抽取装置，其特征在于，所述候选模式抽取模块还包括：

位置获取单元，用于获取所述模式候选句中包含的触发词在所述模式候选句中的位置作为触发词位置，将所述模式候选句中包含的实体对中的实体分别作为第一实体和第二实体，并获取所述模式候选句中所述第一实体的位置作为第一实体位置，获取所述模式候选句中所述第二实体的位置作为第二实体位置，所述第二实体位置位于所述第一实体位置之后；

第一候选模式抽取单元，用于所述触发词位置位于所述第一实体位置之前，获取位于所述触发词位置到所述第二实体位置的内容作为所述抽取的候选模式，并将位于所述触发词位置与所述第一实体位置之间的词汇以及位于所述第一实体位置与所述第二实体位置之间的词汇作为模式描述词；

第二候选模式抽取单元，用于所述触发词位置位于所述第一实体位置和所述第二实体位置之间，获取位于所述第一实体位置到所述第二实体位置的内容作为所述抽取的候选模式，并将位于所述第一实体位置与所述触发词位置之间的词汇以及位于所述触发词位置与所述第二实体位置之间的词汇作为所述模式描述词；

第三候选模式抽取单元，用于所述触发词位置位于第二实体位置之后，获取位于所述第一实体位置到所述触发词位置的内容作为所述抽取的候选模式，并将位于所述第一实体位置与所述第二实体位置之间的词汇以及位于所述第二实体位置与所述触发词位置之间的词汇作为所述模式描述词。

10.根据权利要求7所述的抽取装置，其特征在于，所述候选模式合并模块还包括：

实体词获取单元，用于获取所述抽取的候选模式包含的实体对中的实体分别作为第一实体和第二实体，所述第二实体的位置位于所述第一实体的位置之后；

实体词名词第一合并单元，用于将位于所述第一实体的前一个位置起向前位置的连续的名词作为第一名词，将所述第一名词与所述第一实体合并，并将与所述第一实体合并后的候选模式作为新抽取的候选模式；

实体词名词第二合并单元，用于将位于所述第二实体的前一个位置起向前位置的，且除所述第一实体以外的连续的名词作为第二名词，将所述第二名词与所述第二实体合并，并将与所述第二实体合并后的候选模式作为新抽取的候选模式；

所述候选模式合并模块还用于将所述新抽取的候选模式作为所述模式学习得到的模式。

11.根据权利要求7所述的抽取装置，其特征在于，所述事件抽取装置还包括：

事实抽取模块，用于抽取所述学习得到的模式中的事实，并添加抽取的事实到预设的事实库。

12.根据权利要求7所述的抽取装置，其特征在于，所述事件抽取装置还包括：

事件聚合模块，用于抽取的所述事件内容中包含相同事件，将包含所述相同事件的所述事件内容进行聚合；

事件置信度参数获取模块，用于获取所述事件内容对应的所述语料库的预设文档源置信度，以及所述事件内容中包含的所述相同事件被抽取的次数；

事件置信度计算模块，用于根据所述预设文档源置信度和所述相同事件被抽取的次数，计算所述聚合后的事件内容的置信度。

13.一种事件抽取系统，其特征在于，所述事件抽取系统包括：

存储器，用于储存可执行程序代码；

处理器，用于读取所述存储器中存储的可执行程序代码以执行权利要求1至6任一项所述的事件抽取方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-6任意一项所述的事件抽取方法。