CN110597994A

CN110597994A - 事件元素识别方法和装置

Info

Publication number: CN110597994A
Application number: CN201910876890.5A
Authority: CN
Inventors: 周厚谦; 钟辉强; 刘亮; 尹存祥; 方军; 骆金昌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2019-12-20

Abstract

本申请公开了事件元素识别方法和装置，涉及信息提取技术领域。具体实现方案为：事件元素识别方法包括：根据预设触发词表，从目标语料中获取候选语句，候选语句中包括预设触发词表中的触发词；利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型；根据事件语句的事件类型，识别事件语句中的事件元素。本申请利用快速文本分类模型获取的候选语句的语句特征，能够快速准确的筛选出事件语句，从而能够保证识别出的事件语句中的事件元素更加精准。

Description

事件元素识别方法和装置

技术领域

本申请涉及计算机技术领域，尤其涉及信息提取技术领域。

背景技术

企业舆情作为刻画企业画像的重要组成部分，涵盖了企业在生产经营活动中出现的人员、资本、经营等相关事件的信息，这些信息对于评估企业潜在的风险有着重要意义。企业舆情数据通常是来自各大平台的非结构化文本数据，因此需要从中识别挖掘出所需要的结构化信息。然而，目前事件抽取和事件元素识别的方法存在一定的缺陷，导致最终的事件元素识别的召回率和精确度较低，无法满足准确刻画企业画像的要求。

发明内容

本申请实施例提供一种事件元素识别方法和装置，以解决现有技术中的一个或多个技术问题。

第一方面，本申请实施例提供了一种事件元素识别方法，包括：

根据预设触发词表，从目标语料中获取候选语句，候选语句中包括预设触发词表中的触发词；

利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型；

根据事件语句的事件类型，识别事件语句中的事件元素。

本实施例利用快速文本分类模型获取的候选语句的语句特征，能够快速准确的筛选出事件语句，从而能够保证识别出的事件语句中的事件元素更加精准。

在一种实施方式中，利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型，包括：

利用快速文本分类模型，获取候选语句中各词的词向量；

根据候选语句中各词的词向量，获取候选语句的语句特征；

根据候选语句的语句特征，确定出事件语句及事件语句的事件类型。

本实施例通过快速文本分类模型能够自动获取到各候选语句中各词的词向量，并且根据各词向量能够准确的获取到整个候选语句的语句特征。从而实现根据候选语句的语句特征，快速准确的筛选出事件语句，提高筛选事件语句的效率。

在一种实施方式中，快速文本分类模型至少包括嵌入层、隐藏层和输出层，利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型，包括：

利用嵌入层，获取候选语句中各词的词向量；

根据候选语句中各词的词向量，获取候选语句的语句特征；

利用隐藏层，根据候选语句的语句特征，判断候选语句是否为事件语句；

利用输出层，输出候选语句的判断结果，判断结果包括候选语句是否为事件语句以及事件类型。

本实施例通过嵌入层能够自动获取到各词的词向量，并且利用自动获取的各词的词向量进一步表征候选语句的语句特征，从而实现根据候选语句的语句特征，快速准确的筛选出事件语句。节省了人工构建特征的过程，提高了筛选事件语句的效率。

在一种实施方式中，根据事件语句的事件类型，识别事件语句中的事件元素，包括：

根据事件语句的事件类型，选择对应的序列标注模型；

利用序列标注模型，对事件语句中的各字进行序列标注；

根据事件语句中的各字的序列标注结果，识别事件语句中的事件元素。

本实施例通过对事件语句中各字进行序列标注，增强了字序列中各字之间的关联性，从而使得基于序列标注结果识别出的事件元素更加准确。

在一种实施方式中，序列标注模型至少包括嵌入层、长短期记忆网络层以及条件随机场层，利用序列标注模型，对事件语句中的各字进行序列标注，包括：

利用嵌入层，获取事件语句中各词的词向量；

利用长短期记忆网络层，根据事件语句中各词的词向量，获取事件语句所在文本中的上下文信息特征；

利用条件随机场层，获取事件语句中的各字之间的关联关系；

根据事件语句所在文本中的上下文信息特征以及事件语句中的各字之间的关联关系，对事件语句中的各字进行标注。

本实施例通过将长短期记忆网络层和条件随机场层结合，能够对事件语句中的各字进行更加准确的标注，有效提高了标注和事件元素识别的效果。

在一种实施方式中，构建预设触发词表包括：

构建初始触发词表，初始触发词表中包括第一触发词；

根据第一触发词，利用词语转向量模型获取与第一触发词相关联的多个候选触发词；

利用支持向量机模型，对多个候选触发词进行筛选，获取第二触发词；

将第二触发词加入初始触发词表，构建预设触发词表。

本实施例通过对触发词进行扩展和筛选，使得触发词表中的触发词更加丰富，能够有效提高后续获取候选语句的召回率。

第二方面，本申请实施例提供了一种事件元素识别装置，包括：

第一获取模块，用于根据预设触发词表，从目标语料中获取候选语句，候选语句中包括预设触发词表中的触发词；

确定模块，用于利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型；

识别模块，用于根据事件语句的事件类型，识别事件语句中的事件元素。

在一种实施方式中，确定模块包括：

第一获取子模块，用于利用快速文本分类模型，获取候选语句中各词的词向量；

第二获取子模块，用于根据候选语句中各词的词向量，获取候选语句的语句特征；

确定子模块，用于根据候选语句的语句特征，确定出事件语句及事件语句的事件类型。

在一种实施方式中，识别模块包括：

选择子模块，用于根据事件语句的事件类型，选择对应的序列标注模型；

标注子模块，用于利用序列标注模型，对事件语句中的各字进行序列标注；

识别子模块，用于根据事件语句中的各字的序列标注结果，识别事件语句中的事件元素。

在一种实施方式中，还包括：

第一构建模块，用于构建初始触发词表，初始触发词表中包括第一触发词；

第二获取模块，用于根据第一触发词，利用词语转向量模型获取与第一触发词相关联的多个候选触发词；

筛选模块，用于利用支持向量机模型，对多个候选触发词进行筛选，获取第二触发词；

第二构建模块，用于将第二触发词加入初始触发词表，构建预设触发词表。

第三方面，本申请实施例提供了一种电子设备，电子设备的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，电子设备的结构中包括处理器和存储器，存储器用于存储支持电子设备执行上述事件元素识别方法的程序，处理器被配置为用于执行存储器中存储的程序。电子设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，用于存储电子设备及电子设备所用的计算机软件指令，其包括用于执行上述事件元素识别方法所涉及的程序。

上述申请中的一个实施例具有如下优点或有益效果：利用快速文本分类模型获取的候选语句的语句特征，能够快速准确的筛选出事件语句，从而能够保证识别出的事件语句中的事件元素更加精准。因为采用了通过快速文本分类模型获取候选语句的语句特征的技术手段，所以克服了事件语句筛选不准确的技术问题，进而达到能够快速准确的筛选出事件语句，从而能够保证识别出的事件语句中的事件元素更加精准的技术效果。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的事件元素识别方法的流程图；

图2是根据本申请第一实施例的事件元素识别方法的步骤S200的流程图；

图3是根据本申请第一实施例的另一事件元素识别方法的步骤S200的流程图；

图4是根据本申请快速文本分类模型的结构图；

图5是根据本申请第一实施例的事件元素识别方法的步骤S300的流程图；

图6是根据本申请第一实施例的另一事件元素识别方法的步骤S300的流程图；

图7是根据本申请序列标注模型的结构图；

图8是根据本申请第一实施例的事件元素识别方法的构建预设触发词表的流程图；

图9是根据本申请第一实施例的另一事件元素识别方法的流程图；

图10是根据本申请第二实施例的事件元素识别装置的结构框图；

图11是根据本申请第二实施例的事件元素识别装置的确定模块的结构框图；

图12是根据本申请第二实施例的事件元素识别装置的识别模块的结构框图；

图13是根据本申请第二实施例的另一事件元素识别装置的结构框图；

图14是用来实现本申请实施例的事件元素识别方法的电子设备的框图；

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

根据本申请的第一实施例，本申请提供了一种事件元素识别方法，如图1所示，该方法包括：

S100：根据预设触发词表，从目标语料中获取候选语句，候选语句中包括预设触发词表中的触发词。

目标语料的来源以及语料的类型可以根据需要进行选择。例如，目标语料可以为各大网络平台中的新闻舆情数据。目标语料还可以为工商、司法等机构的公开信息数据等。

候选语句中至少包含有预设触发词表中的一个触发词。候选语句可以为一句话，也可以为一整段话。预设触发词表中可以包含有多个类型事件的触发词。也可以仅包含有一个类型事件的触发词。

S200：利用快速文本分类(fasttext)模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型。

fasttext是开源的词向量与文本分类工具。fasttext提供简单而高效的文本分类和表征学习的方法，性能比肩深度学习而且速度更快。fasttext结合了自然语言处理和机器学习中最成功的理念。可以用于文本分类和句子分类。将语句(一段文本或一句话)输入fasttext模型，可以输出该语句属于不同类别的概率。举例来说：fasttext能够学会“男孩”、“女孩”、“男人”、“女人”指代的是特定的性别，并且能够将这些数值存在相关文档中。然后，当某个程序在提出一个用户请求(假设是“我女友现在在哪儿？”)，它能够马上在fasttext生成的文档中进行查找并且理解用户想要问的是有关女性的问题。

语句特征可以包括用来表征候选语句的特征。例如，语句特征可以包括句子的语义特征。事件语句可以包括用来描述所关注事件的内容。事件类型可以包括企业高管调动、企业员工讨薪、企业运营亏损等类型。

在一个示例中，快速文本分类模型可以为二分类模型，以判断候选语句是不是某一类型的事件语句。二分类模型可以同时完成候选语句的判断和事件类型的确认。例如，快速分类模型是用于判断企业人事变动的二分类模型，则该快速分类模型输出的结果可以为候选语句是企业人事变动事件语句，也可以为候选语句不是企业人事变动事件语句，即同时进行了事件和类型判断。

在另一个示例中，快速文本分类模型也可以同时判断多个不同类型的事件。即根据候选语句的语句特征，输出候选语句分别是多个不同类型的事件语句的概率。当概率满足阈值要求时，则认为候选语句是对应事件类型的事件语句。

S300：根据事件语句的事件类型，识别事件语句中的事件元素。事件元素可以包括表征事件的一个或多个必要组成要素。例如，事件、地点、人物等。不同的事件类型所需要关注的事件元素也不尽相同。具体的事件元素可以根据需要进行选择和调整。

在一个示例中，在企业人员高管调动事件语句中，可以定义公司、人名、动作、发生日期、职位等为事件元素。在资本相关股票事件语句中，可以定义公司、动作、发生日期，资本类型，数额等为事件元素。该示例仅用于举例说明，具体定义的事件元素并不限于此。

在一个示例中，事件元素识别方法，包括：

S100：根据预设触发词表，从目标语料中获取多个候选语句，每个候选语句中至少包括预设触发词表中的一个触发词。

S200：利用快速文本分类(fasttext)模型，通过各候选语句的语句特征，从各候选语句中确定事件语句及事件语句的事件类型。

S300：根据事件语句的事件类型，识别事件语句中的事件元素。

在一种实施方式中，如图2所示，利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型，包括：

S210：利用快速文本分类模型，获取候选语句中各词的词向量。候选语句中的词可以包括词组，也可以包括单个字的单词。例如，你、我、他等，也可以认为是句子中的词。词向量可以包括表征该词特征的至少一个维度的向量。

S220：根据候选语句中各词的词向量，获取候选语句的语句特征。语句特征可以包括表征该句子的任意特征。例如，句子的语义特征。

S230：根据候选语句的语句特征，确定候选语句是否为事件语句。

在一种实施方式中，快速文本分类模型至少包括嵌入层(embedding)、隐藏层(hidden)和输出层。如图3所示，利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型，包括：

S2110：利用嵌入层，自动获取候选语句中各词的词向量。

S2210：根据候选语句中各词的词向量，获取候选语句的语句特征。

S2310：利用隐藏层，根据候选语句的语句特征，判断候选语句是否为事件语句。

S2410：利用输出层，输出候选语句的判断结果。判断结果包括候选语句是否为事件语句以及事件语句的类型。

在一个实例中，如图4所示，嵌入层能够将输入的一个词的序列(一段文本或者一句话)中的词和词组组成特征向量(即图4中示出的W1、W2、Wn-1、Wn)，再将特征向量通过线性变换映射到隐藏层，隐藏层再映射到标签(label)输出层，以输出这个词序列属于不同类别事件的概率。fasttext算法是一个快速文本分类算法，与基于神经网络的分类算法相比在保持高精度的情况下加快了训练速度和测试速度，且不需要预训练好的词向量，fasttext会自己训练词向量。

在一个示例中，快速分类模型的构建过程包括：将进行分词处理的句子词序列样本作为训练样本输入到模型中进行计算。根据模型的计算结果以及句子词序列样本的标注结果计算损失值。根据损失值调整模型参数。直至模型的计算结果满足阈值要求，则完成快速分类模型的训练。其中，输入的句子样本可以包括一个类型的事件语句，即训练出的快速分类模型只能够用于识别该类别的事件。输入的句子样本也可以包括多个类型的事件语句，即训练出的快速分类模型能够用于识别多种类别的事件。

在一种实施方式中，如图5所示，根据事件语句的事件类型，识别事件语句中的事件元素，包括：

S310：根据事件语句的事件类型，选择对应的序列标注模型。对应的序列标注模型可以包括用于识别某一特定事件类型或某些特定事件类型的模型。

S320：利用序列标注模型，对事件语句中的各字进行序列标注。

S330：根据事件语句中的各字的序列标注结果，识别事件语句中的事件元素。

在一种实施方式中，如图6所示，序列标注模型至少包括嵌入层、长短期记忆网络层(LSTM,Long Short-Term Memory)以及条件随机场层(CRF,Conditional RandomFields)，利用序列标注模型，对事件语句中的各字进行序列标注，包括：

S3210：利用嵌入层，获取事件语句中各词的词向量。

S3220：利用长短期记忆网络层，根据事件语句中各词的词向量，获取事件语句所在文本中的上下文信息特征。

S3230：利用条件随机场层，获取事件语句中的各字之间的关联关系。

S3240：根据事件语句所在文本中的上下文信息特征以及事件语句中的各字之间的关联关系，对事件语句中的各字进行标注。

在一个示例中，序列标注模型输入的按字切分的句子字序列为“张小明在7月卸任X网的董事长”。序列标注模型输出的序列标注结果为“(张/s_person)(小/o_person)(明/e_person)(在/none)(7/s_date)(月/e_date)(卸/s_action)(任/e_action)(X/s_company)(网/e_company)(的/none)(董/s_position)(事/o_position)(长/e_position)”。其中，字的标注结果包括前缀和后缀，前缀表示字的位置信息，后缀表示字的类型信息。上述实施例中，前缀部分的s,o,e分别表示事件元素实体的开头，中间和结尾。后缀部分的person表示人、date表示时间、action表示动作、company表示公司、none表示非事件元素、position表示职位。

根据事件语句“张小明在7月卸任X网的董事长”的标注结果，可以获取到的事件元素包括：人物事件元素(张小明)、时间事件元素(7月)、动作事件元素(卸任)、公司事件元素(X网)以及职位事件元素(董事长)。

在一个示例中，序列标注模型的构建包括：

如图7所示，采用1层embedding层，多层双向的lstm层以及1层crf层完成模型结构构建。

将对每个字均进行了序列标注的句子作为训练样本。并将其中的90％输入到模型中进行训练使用，完成模型的初步参数调整。

利用剩余的10％的训练样本作为验证集，输入到初步参数调整的模型中。根据模型的计算结果对模型参数进行进一步的优化。直至模型对训练样本的计算结果满足阈值要求，即完成模型的训练。

在一种实施方式中，如图8所示，构建预设触发词表包括：

S400：构建初始触发词表，初始触发词表中包括第一触发词。第一触发词的数量及对应的事件类型，可以根据需要进行选择和调整。

S500：根据第一触发词，利用词语转向量(Word2vec，Word to vector)模型获取与第一触发词相关联的多个候选触发词。

S600：利用支持向量机模型(SVM，Support Vector Machine)，对多个候选触发词进行筛选，获取第二触发词。

S700：将第二触发词加入初始触发词表，构建预设触发词表。

在一个示例中，构建预设触发词表包括：

1、提取出已有语料中发生某一类或某几类事件的语句中的部分触发词作为第一触发词，用于构建初始触发词表。

2、使用在海量语料中训练的word2vec模型获取与初始触发词表中各第一触发词相似的第二触发词扩展到触发词表中。具体如下：

(1)使用分词工具例如结巴(jieba)中文分词工具根据各第一触发词的词性在海量的词汇列表中筛选出候选触发词。

(2)使用预训练好的word2vec模型获取每个词的词向量。

(3)通过两两计算候选触发词和第一触发词的词向量得到向量之间的距离，即相似性比较。如果距离小于某个阈值，说明两者的词义是相近的，候选触发词可以作为第二触发词扩展到触发词表当中。距离计算可以使用夹角余弦公式计算。阈值需要根据每类子事件类型的不同和实际情况进行调整。

3、通过标注数据构造出触发词分类器训练样本，在此基础上训练触发词二分类器(例如支持向量机模型)，判断候选触发词是否可以作为触发词。使用分类器剔除掉候选触发词中的非触发词。具体如下：

(1)模型训练：提取出训练样本句子中的词(例如，动词)，若为触发词则标注为正样本，非触发词则标注为负样本。将训练样本输入初始SVM模型中，通过每个词在所在文本的上下文窗口内的词，以及每个候选触发词的词性特征，对训练样本句子中的词进行计算。根据计算结果及标注值，调整模型参数，直至计算出的损失值满足阈值要求，完成SVM模型训练。

(2)候选触发词筛选：选择预训练好的svm二分类模型。找到候选触发词在新闻语料中的句子，提取出特征，使用训练好的svm模型进行二分类，将所有的正类词筛选出来，构造出最终的触发词表。注意到候选触发词在新闻语料中可能出现多次，有多个句子，这里只要其中一个句子分类为正，那么便认为候选词为触发词。

在一个示例中，根据预设触发词表，从目标语料中获取候选语句，包括：

用标点符号做为分隔符对每条文本信息(例如，新闻)的标题和正文进行分句。再使用jieba工具对每条句子进行分词，判断是否有词在构造好的某一类事件的触发词表中，如果有，则将该句子做为该事件的候选事件句子。

在一个示例中，如图9所示，事件元素识别方法，包括：

S10：获取新闻语料。

S20：利用Word2vec模型对初始触发词表进行触发词扩展，以及利用SVM模型进行触发词筛选。

S30：构建预设触发词表。

S40：基于预设触发词表做事件检测，从新闻语料中获取候选语句。

S50：利用fasttext模型从候选语句中确定事件语句及事件语句的事件类型。

S60：根据事件语句的事件类型，利用序列标注模型，对事件语句中的各字进行序列标注。

S70：根据事件语句中的各字的序列标注结果，识别事件语句中的事件元素。根据事件元素进一步获取结构化的事件语句。

根据本申请的第二实施例，本申请实施例提供了一种事件元素识别装置100，如图10所示，该装置包括：

第一获取模块10，用于根据预设触发词表，从目标语料中获取候选语句，候选语句中包括预设触发词表中的触发词。

确定模块20，用于利用快速文本分类模型，通过候选语句的语句特征，从候选语句中确定事件语句及事件语句的事件类型。

识别模块30，用于根据事件语句的事件类型，识别事件语句中的事件元素。

在一种实施方式中，如图11所示，确定模块20包括：

第一获取子模块21，用于利用快速文本分类模型，获取候选语句中各词的词向量。

第二获取子模块22，用于根据候选语句中各词的词向量，获取候选语句的语句特征。

确定子模块23，用于根据候选语句的语句特征，确定候选语句是否为事件语句。

在一个示例中，确定模块20包括：

第一获取子模块21，用于利用嵌入层，获取候选语句中各词的词向量；

第二获取子模块22，用于根据候选语句中各词的词向量，获取候选语句的语句特征；

确定子模块23，用于利用隐藏层，根据候选语句的语句特征，判断候选语句是否为事件语句；还用于利用输出层，输出候选语句的判断结果，判断结果包括候选语句是否为事件语句以及事件类型。

在一种实施方式中，如图12所示，识别模块30包括：

选择子模块31，用于根据事件语句的事件类型，选择对应的序列标注模型。

标注子模块32，用于利用序列标注模型，对事件语句中的各字进行序列标注。

识别子模块33，用于根据事件语句中的各字的序列标注结果，识别事件语句中的事件元素。

在一个示例中，标注子模块32包括：

词向量获取单元，用于利用所述嵌入层，获取所述事件语句中各词的词向量；

上下文信息特征获取单元，用于利用所述长短期记忆网络层，根据所述事件语句中各词的词向量，获取所述事件语句所在文本中的上下文信息特征；

关联关系获取单元，用于利用所述条件随机场层，获取所述事件语句中的各字之间的关联关系；

标注单元，用于根据所述事件语句所在文本中的上下文信息特征以及所述事件语句中的各字之间的关联关系，对所述事件语句中的各字进行标注。

在一种实施方式中，如图13所示，还包括：

第一构建模块40，用于构建初始触发词表，初始触发词表中包括第一触发词。

第二获取模块50，用于根据第一触发词，利用Word2vec模型获取与第一触发词相关联的多个候选触发词。

筛选模块60，用于利用支持向量机模型，对多个候选触发词进行筛选，获取第二触发词。

第二构建模块70，用于将第二触发词加入初始触发词表，构建预设触发词表。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图14所示，是根据本申请实施例的事件元素识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图14所示，该电子设备包括：一个或多个处理器901、存储器902，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图14中以一个处理器901为例。

存储器902即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的事件元素识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的事件元素识别的方法。

存储器902作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的事件元素识别的方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的事件元素识别的方法。

存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据事件元素识别的电子设备的使用所创建的数据等。此外，存储器902可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器902可选包括相对于处理器901远程设置的存储器，这些远程存储器可以通过网络连接至事件元素识别的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

事件元素识别的方法的电子设备还可以包括：输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接，图14中以通过总线连接为例。

输入装置903可接收输入的数字或字符信息，以及产生与事件元素识别的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管(Light EmittingDiode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

本申请上述实施例还具有以下优点：

本申请不依赖产品，可以作为一个独立的功能模块。解决了从新闻等舆情语料中提取出企业风险事件，并识别出事件的各类型元素，相较规则模式匹配方法和传统的机器学习方法具有良好的召回率和精确率提升。

本申请采用word2vec模型对进行了触发词表进行了扩展，并用svm模型对触发词表做筛选，丰富了触发词表，能有效提高召回率。

本申请在事件语句抽取上使用fasttext模型，相比于规则模式匹配方法，能适用更普遍的领域场景，减少了大量的人工工作。fasttext模型的embedding层能够自动获取词的词义向量，结合词向量表征语句特征，而不需要人工参与构造特征，同时训练效率较高，分类效果好。

本申请在事件元素抽取上，将分类问题转换为序列标注问题，增强了事件元素之间联系。使用lstm+crf的序列标注模型，embedding层自动获取词的词义向量，lstm层能够捕捉到句子长远上下文信息特征，crf层能够捕捉序列前后的强依赖关系，这使得整体的识别效果优于传统的机器学习方法。

此外，本申请是基于流水线模型的事件抽取方法，先进行事件抽取，再对事件元素进行抽取，是一套完整的解决方案，且能通用于其他领域的事件识别。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种事件元素识别方法，其特征在于，包括：

根据预设触发词表，从目标语料中获取候选语句，所述候选语句中包括所述预设触发词表中的触发词；

利用快速文本分类模型，通过所述候选语句的语句特征，从所述候选语句中确定事件语句及所述事件语句的事件类型；

根据所述事件语句的事件类型，识别所述事件语句中的事件元素。

2.根据权利要求1所述的方法，其特征在于，利用快速文本分类模型，通过所述候选语句的语句特征，从所述候选语句中确定事件语句及所述事件语句的事件类型，包括：

利用所述快速文本分类模型，获取所述候选语句中各词的词向量；

根据所述候选语句中各词的词向量，获取所述候选语句的语句特征；

根据所述候选语句的语句特征，确定出事件语句及所述事件语句的事件类型。

3.根据权利要求2所述的方法，其特征在于，所述快速文本分类模型至少包括嵌入层、隐藏层和输出层，利用快速文本分类模型，通过所述候选语句的语句特征，从所述候选语句中确定事件语句及所述事件语句的事件类型，包括：

利用所述嵌入层，获取所述候选语句中各词的词向量；

利用所述隐藏层，根据所述候选语句的语句特征，判断所述候选语句是否为所述事件语句；

利用所述输出层，输出所述候选语句的判断结果，所述判断结果包括所述候选语句是否为事件语句以及事件类型。

4.根据权利要求1所述的方法，其特征在于，根据所述事件语句的事件类型，识别所述事件语句中的事件元素，包括：

根据所述事件语句的事件类型，选择对应的序列标注模型；

利用所述序列标注模型，对所述事件语句中的各字进行序列标注；

根据所述事件语句中的各字的序列标注结果，识别所述事件语句中的事件元素。

5.根据权利要求4所述的方法，其特征在于，所述序列标注模型至少包括嵌入层、长短期记忆网络层以及条件随机场层，利用所述序列标注模型，对所述事件语句中的各字进行序列标注，包括：

利用所述嵌入层，获取所述事件语句中各词的词向量；

利用所述长短期记忆网络层，根据所述事件语句中各词的词向量，获取所述事件语句所在文本中的上下文信息特征；

利用所述条件随机场层，获取所述事件语句中的各字之间的关联关系；

根据所述事件语句所在文本中的上下文信息特征以及所述事件语句中的各字之间的关联关系，对所述事件语句中的各字进行标注。

6.根据权利要求1所述的方法，其特征在于，构建所述预设触发词表包括：

构建初始触发词表，所述初始触发词表中包括第一触发词；

根据所述第一触发词，利用词语转向量模型获取与所述第一触发词相关联的多个候选触发词；

利用支持向量机模型，对所述多个候选触发词进行筛选，获取第二触发词；

将所述第二触发词加入所述初始触发词表，构建所述预设触发词表。

7.一种事件元素识别装置，其特征在于，包括：

第一获取模块，用于根据预设触发词表，从目标语料中获取候选语句，所述候选语句中包括所述预设触发词表中的触发词；

确定模块，用于利用快速文本分类模型，通过所述候选语句的语句特征，从所述候选语句中确定事件语句及所述事件语句的事件类型；

识别模块，用于根据所述事件语句的事件类型，识别所述事件语句中的事件元素。

8.根据权利要求7所述的装置，其特征在于，所述确定模块包括：

第一获取子模块，用于利用所述快速文本分类模型，获取所述候选语句中各词的词向量；

第二获取子模块，用于根据所述候选语句中各词的词向量，获取所述候选语句的语句特征；

确定子模块，用于根据所述候选语句的语句特征，确定出事件语句及所述事件语句的事件类型。

9.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

选择子模块，用于根据所述事件语句的事件类型，选择对应的序列标注模型；

标注子模块，用于利用所述序列标注模型，对所述事件语句中的各字进行序列标注；

识别子模块，用于根据所述事件语句中的各字的序列标注结果，识别所述事件语句中的事件元素。

10.根据权利要求7所述的装置，其特征在于，还包括：

第一构建模块，用于构建初始触发词表，所述初始触发词表中包括第一触发词；

第二获取模块，用于根据所述第一触发词，利用词语转向量模型获取与所述第一触发词相关联的多个候选触发词；

筛选模块，用于利用支持向量机模型，对所述多个候选触发词进行筛选，获取第二触发词；

第二构建模块，用于将所述第二触发词加入所述初始触发词表，构建所述预设触发词表。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。