CN107797993A

CN107797993A - 一种基于序列标注的事件抽取方法

Info

Publication number: CN107797993A
Application number: CN201711113722.8A
Authority: CN
Inventors: 赵二超; 韩伟
Original assignee: Chengdu Blue Scene Information Technology Co Ltd
Current assignee: Chengdu Blue Scene Information Technology Co Ltd
Priority date: 2017-11-13
Filing date: 2017-11-13
Publication date: 2018-03-13

Abstract

本发明公开了一种基于序列标注的事件抽取方法，包括以下几个步骤：步骤1，对输入文本进行预处理；步骤2，利用LSTM+CRF网络对文本的字序列进行标注；步骤3，归并标注结果，得到事件元素；步骤4，将提取出的事件及其元素填充到设计好的模板，形成一句话描述。其主要解决的问题是如何从上市公司各类重大事项的公告中，抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。

Description

一种基于序列标注的事件抽取方法

技术领域

本发明涉及一种事件抽取方法，具体讲是基于序列标注的事件抽取方法。

背景技术

随着数据的增长以及数字化媒体信息的爆炸，信息抽取变得越来越重要且困难。普遍存在的问题是，大多数数据最初都是非结构化的，如用自然语言描述的文本，使得机器难以直接理解。这使得当数据量特别大的时候，自动化的信息检索和信息抽取变得很难。狭义的信息抽取即文本挖掘，即通过使用NLP (自然语言处理)技术，从不同新闻、博客等来源的文本中抽取信息，并以结构化的方式存储。事件作为一种从文本中抽取出来的信息，表征了实体之间在特定时间、空间的行为关系。因此，事件抽取也是关系抽取的一种。比如贷款事件，可以表示为<公司>向<银行>贷款<金额>，<期限>。

目前，主流的事件抽取系统主要存在三个问题；一是分别在不同阶段提取实体和事件，存在传播误差。首先，运用命名实体识别人名、地名、机构名。然后，将这些作过实体标注的文本作为输入进行事件及其元素抽取。这样，命名实体识别的错误会影响事件的判断。二是大多数已有工作多采用N元语法模型(N一般不大于3)，无法对长距离依赖建模。三是，对于具体的领域，往往需要构建大量的人工特征。做好特征选择代价是很大的，如专家知识的获取、最优特征的选择，并且可移植性很差。近年来，深度学习方法采用分层处理去学习数据的层次化特征表示，并在众多领域获得了相当好的结果。沿着这个趋势，最近越来越多的自然语言处理(NLP)研究采用了深度学习方法。传统方法解决NLP问题采用了浅层模型和高维度、极稀疏的特征向量，表征能力有限。而深度学习采用端到端的深层次模型，可以自动地构建词法、句法甚至语义特征，并从整体上去优化性能。

发明内容

因此，为了解决上述不足，本发明在此提供一种基于序列标注的事件抽取方法。其主要原理是从上市公司各类重大事项的公告中，将事件的各元素(如对于贷款事件，包括借贷人、银行、金额等)自动抽取出来，并填充到模板形成一句人类语言形式的事件描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。

本发明是这样实现的，构造一种基于序列标注的事件抽取方法，其特征在于：包括以下几个步骤：

步骤1，对输入文本进行预处理，过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声。将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子，以便后续模型高效地处理；

步骤2，利用LSTM+CRF网络对文本的字序列进行标注，经过大量的参数调整，最终确定单层双向LSTM网络结构。双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断。单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数，LSTM的结果需要利用维特比算法进行解码，得到句子级别的最优标注结果；

步骤3，归并标注结果，将标注结果中同类型且连续的标注提取出来，并保留具有完整的“B”到“E”标记的结果作为识别到的实体，将实体中“公司”替换发布公告的公司名；

步骤4，形成一句话描述。将提取出的事件及其元素填充到设计好的模板。

根据本发明所述一种基于序列标注的事件抽取方法，其特征在于：对于步骤1来讲，同时用规则提前识别文中的数字实体，并用统一的符号代替，用于后续模型继续判断数字实体的子类型(金额、期限)。该手段可以减轻模型负担及提升数字的识别效果。

根据本发明所述一种基于序列标注的事件抽取方法，其特征在于：对于步骤4来讲，核心算法模块的训练需要大量的人工标注数据；人工地标注了数千篇公司公告用以训练，使得模型能够很好地适应具体应用场景；另外，为了加快训练速度和增加泛化性，提前利用无监督的word2vec模型对大量无标注的公告进行训练，得到字向量，该字向量用于深度学习模型输入层的初始化。

本发明具有如下优点：本发明在此提供一种基于序列标注的事件抽取方法，其主要解决的问题是如何从上市公司各类重大事项的公告中，抽取出贷款、合并等事件并给出人类语言形式描述。通过上述实施具有如下有益效果：

(1)将事件抽取建模为序列标注问题，避免了级联模型的传播误差，从整体上优化识别效果；

(2)采用了深度学习技术，避免了人工构造特征。系统不受专家知识的约束，可以方便地拓展到其它事件类型的抽取工作中；

(3)利用了CRF约束，进一步优化了识别效果；

(4)相比传统金融数据公司，我们采用了自动化的方式抽取事件信息。该结果具有丰富性、高效性，可进一步用于量化交易、股票公告简讯推送。

附图说明

图1是本发明所述基于序列标注的事件抽取方法的流程框图；

图2是本发明所述基于序列标注的事件抽取方法的举例标注结果示意图。

具体实施方式

下面将结合附图1-图2对本发明进行详细说明，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明通过改进在此提供一种基于序列标注的事件抽取方法。实施时，从非结构化数据中进行事件抽取可以使得信息抽取系统从各方面获益。比如，可以根据用户偏好和识别到的事件对用户作个性化的新闻推荐。另外，事件抽取对风险分析系统，舆情监控系统，决策支持系统都很有帮助。

本专利主要解决的问题是如何从上市公司各类重大事项的公告中，抽取出贷款、合并等事件并给出人类语言形式描述。节约了金融从业人员每天阅读大量的公司公告的人力成本。

本专利将事件抽取建模为序列标注问题，即对输入文本的每个字标注其是否是某类事件元素的起始(B-)、中间(I-)、结尾(E-)或不属于(O)任何事件。为了方便描述核心内容，另举一个简化的例子，“X公司向Y银行贷款Z元人民币”。标注结果参见图2：

另外，当单个字构成实体就用“S-”标记。

将各字的标注按起始、中间、结尾的顺序进行归并可以得到完整的事件类型及其元素。上面例子可以得到事件元素“X公司”、“Y银行”和“Z元人名币”。本专利的序列标注模块采用了LSTM深度神经网络，输入为稠密的字向量，输出为每个字对应的标记状态的概率分布，也是一个向量。

要得到最终事件的输出，需要确定每个字对应的状态。最简单的方法是取每个字的标记状态概率分布中概率最大的那个状态。如上例中的“公”对应的 I-ORG的概率为0.85,E-ORG为0.05,B-BANK为0.03，其它状态总共为0.07。因此，“公”最终的输出状态为I-ORG。

然而，该方案忽略了标记之间的强依赖性。“X”选择了B-ORG，那么它后边字的状态为I-ORG和E-ORG的概率大大增加。因此，将字级别似然函数替换为类似于CRF的句子级别的似然函数(sentence level log-likelihood，SSL)，用于描述这种约束关系。前者简单地累加句子中各字的损失，后者从整体考虑句子的损失。

本发明包括以下几个步骤：

步骤1，对输入文本进行预处理。过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声。将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子，以便模型高效地处理。用规则提前识别文中的数字实体，并用统一的符号代替，用于后续模型继续判断数字实体的子类型(金额、期限)。该手段可以减轻模型负担及提升数字的识别效果。

步骤2，利用LSTM+CRF网络对文本的字序列进行标注。经过大量的参数调整，最终确定单层双向LSTM网络结构。双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断。单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数，LSTM的结果需要利用维特比算法进行解码，得到句子级别的最优标注结果。

步骤3，归并标注结果。将标注结果中同类型且连续的标注提取出来，并保留具有完整的“B”到“E”标记的结果作为识别到的实体。将实体中“公司”替换发布公告的公司名。

核心算法模块的训练需要大量的人工标注数据。采用人工地标注了数千篇公司公告用以训练，使得模型能够很好地适应具体应用场景。另外，为了加快训练速度和增加泛化性，提前利用无监督的word2vec模型对大量无标注的公告进行训练，得到字向量。该字向量用于深度学习模型输入层的初始化。

本发明专利通过上述实施具有如下有益效果：

(3)利用了CRF约束，进一步优化了识别效果；

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于序列标注的事件抽取方法，其特征在于：包括以下几个步骤：

步骤1，对输入文本进行预处理，过滤掉文本中多余的空格、pdf文档常见的乱码符号等噪声；将输入的公告内容按换行符、句号等符号划分为若干长度较短的句子，以便模型高效地处理；

步骤2，利用LSTM+CRF网络对文本的字序列进行标注；经过大量的参数调整，最终确定单层双向LSTM网络结构；双向的优势在于能够同时根据上文和下文对当前字符所属类型进行判断；单层是试验对比过1到4层之后选取的最优结果。由于利用了SSL损失函数，LSTM的结果需要利用维特比算法进行解码，得到句子级别的最优标注结果；

步骤3，归并标注结果；将标注结果中同类型且连续的标注提取出来，并保留具有完整的“B”到“E”标记的结果作为识别到的实体，将实体中“公司”替换发布公告的公司名；

步骤4，形成一句话描述；将提取出的事件及其元素填充到设计好的模板。

2.根据权利要求1所述一种基于序列标注的事件抽取方法，其特征在于：对于步骤1来讲，同时用规则提前识别文中的数字实体，并用统一的符号代替，用于后续模型继续判断数字实体的子类型(金额、期限)；该手段可以减轻模型负担及提升数字的识别效果。

3.根据权利要求1所述一种基于序列标注的事件抽取方法，其特征在于：对于步骤4来讲，核心算法模块的训练需要大量的人工标注数据；采用人工地标注了数千篇公司公告用以训练，使得模型能够很好地适应具体应用场景；另外，为了加快训练速度和增加泛化性，提前利用无监督的word2vec模型对大量无标注的公告进行训练，得到字向量，该字向量用于深度学习模型输入层的初始化。