CN111078886A

CN111078886A - 基于dmcnn的特殊事件提取系统

Info

Publication number: CN111078886A
Application number: CN201911312367.6A
Authority: CN
Inventors: 陈泽勇; 张治同; 姚松; 张莉
Original assignee: Chengdu Dippmann Information Technology Co Ltd
Current assignee: Chengdu Dippmann Information Technology Co Ltd
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-04-28
Anticipated expiration: 2039-12-18
Also published as: CN111078886B

Abstract

本发明提出了基于DMCNN的特殊事件提取系统，包括文本数据输入模块，输入新闻报道、广播稿的文本数据；文本数据预处理模块，用于单词嵌入预训练并对文本文档进行向量化处理；殊事件提取执行模块，用于从文档向量中根据事件参数提取特殊事件；结果输出模块，根据特殊事件提取结果输出文件；通过分类器，将对事件的提取机制转变为一个文本分类问题，对事件参数的提取比转化为一个在文本分类基础上的一个分类的属性信息的提取；本发明使用无监督的预训练词嵌入作为基本特征的来源，可提取到更有价值的线索，且准确率更高，可通过web服务系统完成大量用户并发使用BERT模型完成单词嵌入预训练，解决并发访问拥塞问题。

Description

基于DMCNN的特殊事件提取系统

技术领域

本发明涉及文本信息提取技术领域，尤其涉及基于DMCNN的特殊事件提取系统。

背景技术

传统的特殊事件提取依赖人工设计的特征和复杂的NLP工具；需要大量的人力成本，而且会产生误差传播以及数据稀疏问题；自动地抽取文本级别的以及句子级别的特征，虽然不需要使用复杂的NLP工具，可以一个单词表示模型来描述有意义的语义规律，并采用一个基于卷积神经网络的框架来描述句子级别的线索；然而，CNN仅仅能描述句子中最重要的信息，当考虑多事件句子的时候可能丢失掉有价值的事实和线索。

现有BERT模型规模很大，运行时间相对较长，如果多个用户同时使用BERT模型，则可能会出现堵塞现象，如果直接调用该模型以完成单词嵌入预训练，是无法高效的同时为多个任务请求服务的。

发明内容

本发明的目的在于，针对上述问题，提出基于DMCNN的特殊事件提取系统，用于从新闻报道文本中提取特殊事件信息，包括：

文本数据输入模块，输入新闻报道、广播稿的文本数据；

文本数据预处理模块，用于单词嵌入预训练并对文本文档进行向量化处理；

特殊事件提取执行模块，用于从文档向量中根据事件参数提取特殊事件；

结果输出模块，根据特殊事件提取结果输出文件。

进一步的，所述文本数据预处理模块包括预训练模块和向量化处理模块；

所述预训练模块通过word2vector模型或BERT模型进行单词嵌入预训练得到特定语料的向量表示；

所述向量化处理模块根据特定语料的向量表示将文本数据对应的文本文档进行向量化处理得到word2vector词向量和BERT词向量。

进一步的，所述预训练模块用于对文本文档进行分词和去除停用词处理。

进一步的，所述word2vector词向量为文本文档每个单词或短语的向量表示，将词向量向句子向量空间和文档向量空间进行扩展获得文档向量；所述向量空间的扩展包括向量叠加后求平均。

进一步的，所述BERT模型通过注意力机制和transform机制对特定语料训练后得到的文本文档每个单词或短语的向量表示。

进一步的，所述系统基于DOCKER容器技术为BERT模型搭建容器级别的WEB服务以形成WEB服务层，所述WEB服务层以http接口形式满足多用户并发使用BERT模型的需要。

进一步的，所述特殊事件提取执行模块设置有一个分类器，所述分类器用于进行参数分类和计算每个事件参数角色的置信度；所述参数角色为事件与参数之间的关系。

进一步的，所述分类器将对事件的提取机制转变为一个文本分类问题，对事件参数的提取转化为在文本分类基础上的分类的属性信息的提取。

进一步的，所述参数分类根据事件触发器分类进行，所述事件触发器为最能清楚表达事件发生的一个词，所述触发器分类和参数分类构成事件提取的框架。

进一步的，所述系统还包括效果评估模块，所述效果评估模块对输出结果进行评估。

进一步的，所述系统还包括日志管理模块，所述日志管理模块对输出结果和效果评估进行保存以生成操作日志，并对日志进行管理。

进一步的，所述结果提取模块输出为指定目录下的EXCEL文件。

本发明的有益效果：通过一个分类器，将对事件的提取机制转变为一个文本分类问题，对事件参数的提取比转化为一个在文本分类基础上的一个分类的属性信息的提取；本发明使用无监督的预训练词嵌入作为基本特征的来源，可对文本文档提取到更有价值的线索，其事件提取准确率更高，可通过web服务系统完成大量用户并发使用BERT模型完成单词嵌入预训练，解决并发访问拥塞问题。

附图说明

图1是本发明系统模块结构图；

图2是本发明web服务示意图；

图3是本发明web服务系统逻辑结构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示。

基于DMCNN的特殊事件提取系统，用于从新闻报道文本中提取特殊事件信息，包括：

文本数据输入模块，输入新闻报道、广播稿的文本数据；

结果输出模块，根据特殊事件提取结果输出文件。

文本数据预处理模块包括预训练模块和向量化处理模块；

所述预训练模块通过word2vector模型和BERT模型进行单词嵌入预训练得到特定语料的向量表示；

其中预训练模块还对文本文档进行分词和去除停用词处理。

所述word2vector词向量为文本文档每个单词或短语的向量表示，将词向量向句子向量空间和文档向量空间进行扩展获得文档向量；所述向量空间的扩展包括向量叠加后求平均。

所述BERT模型通过注意力机制和transform机制对特定语料训练后得到的文本文档每个单词或短语的向量表示。

具体的，如果是采用word2vector向量方式进行词嵌入，则直接计算去除停用词后的文档的向量，具体方式为文档的向量由句子向量叠加后求平均，句子向量由词向量叠加后求平均。

如果是采用bert向量方式进行词嵌入，其基本原理和使用word2vector方式相同，但是因为BERT模型规模很大，如果像使用word2vector那样直接调用，则无法高效的同时为多个任务请求服务，因此在这部分，系统使用DOCKER容器技术专门为使用BERT模型搭建了一个容器级别的WEB服务，通过在DOCKER容器级别的WEB服务层，以HTTP接口形式提供基于Restful风格的WEB服务，具体架构如图2所示。

在本系统中嵌入了一个小型的WEB服务系统，该WEB服务系统主要是为了多用户并发使用BERT模型设计，因为BERT模型规模很大，运行时间相对较长，如果多个用户同时使用BERT模型，则可能会出现堵塞现象，因此利用DOCKER容器开发了一个小型的WEB服务系统嵌入到整个系统中，以解决多用户并发使用BERT模型的难点问题，具体逻辑结构如图3所示。

在本系统中，图3中的应用程序换成了Ngix和BERT模型，docker的宿主机系统采用CentOs7或ubuntu16及以上，考虑到文本事件提取时的文本数量会有很大的一个增长，因此在上述系统的基础上，本系统还利用swarm容器编排工具开发一个具有分布式特性的可以跨主机的多容器系统。

作为一个整体实际上都处于一个所谓的集群中，它可能对应了一到多台的实际服务器；每台服务器上都装有Docker并且开启了基于HTTP的DockerAPI；这个集群中有一个SwarmManager的管理者，用来管理集群中的容器资源。

管理者的管理对象不是服务器层面而是集群层面的，也就是说通过Manager，只能笼统地向集群发出指令而不能具体到某台具体的服务器上要干什么(这也是Swarm的根本所在)。

至于具体的管理实现方式，Manager向外暴露了一个HTTP接口，外部用户通过这个HTTP接口来实现对集群的管理；对于稍微大一点的集群，可拿出一台实际的服务器作为专门的管理者，作为学习而言，也可以把管理者和被管理者放在一台服务器上。

Swarm提供了丰富的服务管理，对于一个服务来说，常会遇到的一件事是滚动更新，swarm封装了命令docker service update，只要给这个命令加上--image参数指定一个新镜像，那么该服务中的所有容器都会被更新成这个新镜像的内容；但为了保证可用性，必然不能同时更新所有容器；swarm内置了一个滚动更新的机制，可以依次更新各个容器从而避免更新期间的不可用。

在docker service create的时候可以指出--upgrade-delay参数，表示更新服务对应的任务或一组任务之间的时间间隔；时间间隔用数字和时间单位表示，m表示分，h表示时，所以10m30s表示10分30秒的延时；另外update-parallelism参数标志配置调度器每次同时更新的最大任务数量，默认情况下此参数值为1，即一个一个容器地更新；在有了滚动更新的保障之后，再来执行docker service update，比如docker service update--imagetomcatssh:v2 swarmtest，则swarm会自动地去按照滚动更新的策略更新各个容器(实际上就是把旧容器关停并启动新容器)。

在更新过程中docker service ps swarmtest可以查看更新的实时情况,在这个过程中，swarm先Shutdown了一台节点上的老容器并且启动新容器，如果新容器启动成功后就再等10秒(创建service时指定的参数)，然后开始操作下一台；另外，如果操作一台的过程中发生错误导致新容器没有正确运行起来，那么更新任务会到此暂停，不会继续往下；docker service update后面的--update-failure-action参数可以指定是否要跳过错误。

特殊事件提取执行模块设置有一个分类器，所述分类器用于进行参数分类和计算每个事件参数角色的置信度；所述参数角色为事件与参数之间的关系；在特殊事件提取执行模块中执行DMCNN算法；所述参数分类根据事件触发器分类进行，所述事件触发器为最能清楚表达事件发生的一个词，所述触发器分类和参数分类构成事件提取的框架。

利用ACE提供的实体标签，预测出带有具体子类型的事件触发器以及每个句子的候选参数，通过分类器，将对事件的提取机制转变为一个文本分类问题，对事件参数的提取转化为在文本分类基础上的分类的属性信息的提取。

在一个实施例中，分类器进行参数分类和计算每个事件参数角色的置信度包括如下步骤：

词汇级别特征表示：

本实施例使用无监督的预训练词嵌入作为基本特征的来源，选择候选词的嵌入(候选触发，候选参数)和上下文标记(候选词的左和右标记)，然后，所有这些单词嵌入被连接到词汇级特征向量L中，以表示参数分类中的词汇级特征。

句子级别特征表示：

本实施例使用DMCNN来提取句子级特征；DMCNN使用动态多池层来获取句子每个部分的最大值，该值由事件触发器和事件参数分割。

句子级别特征表示步骤包括如下子步骤：

输入：

上下文单词特征(CWF)，把整个句子中的所有单词都当作语境。CWF是通过查找单词嵌入而转换的每个单词标记的向量。

位置特征(PF)：指定哪些单词是参数分类中的预测触发器或候选参数；它被定义为当前单词与预测的触发或候选参数的相对距离；为了编码位置特征，每个距离值也由嵌入矢量表示，与单词嵌入类似，距离值随机初始化并通过反向传播进行优化。

事件类型特征(EF)：将触发分类阶段预测的事件类型编码为DMCNN的一个重要线索，如PF。

假设字嵌入的大小为dw＝4，位置嵌入的大小为dp＝1，事件类型嵌入的大小为de＝1.令xi∈Rd采用向量表示对应的第i个单词句子，其中d＝d_ω+d_p*2+d_e。长度为n的句子表示如下：

其中

是连接运算符。因此，组合字嵌入、位置嵌入和事件类型嵌入可以转换实例作为一个矩阵

然后，X被输入到卷积部分。

卷积：

卷积层旨在捕获整个句子的组成语义，并将这些有价值的语义压缩成特征映射；通常，让xi：i+j指的是单词x_i，x_i+1，...，x_i+j的串联。卷积运算涉及滤波器

其应用于h词的窗口以产生新特征；例如，通过以下运算符从单词xi：i+h-1的窗口生成特征c_i，

c_i＝f(ω·x_i：i+h-1+b)

其中b∈R是偏置项，f是非线性函数；该滤波器器应用于句子x_1：h，x_2：h+1，...，x_n-h+1：n中的每个可能的单词窗口，以产生特征映射c_i，其中索引i的范围从1到n-h+1；为了捕获不同的特征，通常在卷积中使用多个滤波器；假设使用m个滤波器W＝w₁，w₂，...，w_m，卷积运算可以表示为：

c_ji＝f(ω_j·x_i：i+h-1+b_j)

其中j的范围是1到m。卷积结果是矩阵

动态多池：

为了提取最重要的特征(最大值)，根据参数分类阶段中的候选参数和预测触发器将每个特征映射分成多个部分；保留每个拆分部分的最大值。

动态多池可以表示为如下公式，其中1≤j≤m且1≤i≤3。

p_ij＝max(c_ij)

通过动态多池层，获得每个特征映射的p_ij。然后，将所有p_ij连接起来形成一个向量

它可以被认为是更高级别的特征(句子级特征)。

输出：

上面提到的自动学习的词汇和句子级别特征被连接成单个向量F＝[L，P]；为了计算每个参数角色的置信度，特征向量

其中m是特征映射的数量，并且d_l是词汇级别特征的维度，被馈送到分类器中。

所述分类器计算每个事件参数角色的置信度方法如下：

O＝w_sF+b_s；

其中，

为变换矩阵，n1为参数角色的数量，包括候选参数的“无角色”标签；在活动中扮演任何角色；对于正则化，还在倒数第二层采用了退化，通过在向前和向后传播过程中随机地降低隐藏单元的比例p，可以防止对隐藏单元的共同自适应；其

为最终输出。

训练：

将参数分类阶段的所有参数定义为θ＝(E，PF1，PF2，EF，W，b，WS，bs)；

具体来说，E是字嵌入，PF1和PF2是位置嵌入，EF是事件类型的嵌入，W和b是滤波器的参数，Ws和bs是输出层的所有参数；给定输入示例s，具有参数θ的网络输出向量O，其中第i个分量Oi包含自变量角色i的分数；为了获得条件概率p(i|x，θ)，对所有参数角色类型执行softmax操作：

给定所有的(假设T)训练样例(xi；yi)，然后就可以定义目标函数如下：

为了计算网络参数θ，使用Adadelta更新规则，通过随机梯度下降在混洗小批量上最大化对数似然J(θ)。

触发器分类模型：

在触发器分类中，仅在词法级别特征表示中使用候选触发器及其左右标记，在句子级别的特征表示中，使用与参数分类中相同的CWF，但仅使用候选触发器的位置来嵌入位置特征，此外，不是将句子分成三个部分，而是通过候选触发器将句子分成两部分；除了特征和模型的上述变化之外，将触发器分类为参数的分类；这两个阶段构成了事件提取的框架。

基于DMCNN的特殊事件提取系统，所述系统还包括效果评估模块，所述效果评估模块对输出结果进行评估。

系统还包括日志管理模块，所述日志管理模块对输出结果和效果评估进行保存以生成操作日志，并对日志进行管理。

所述结果提取模块输出为指定目录下的EXCEL文件，系统设置有map结构体用于保存事件提取算法最终结果。

当出现文本数据集合过大，造成内存溢出时，系统内部数据全部回滚到出错前状态，并保存当前出错输出信息至日志管理模块，所述出错输出信息包括出错时间、出错等级、出错原因以及出错地点。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书界定。

Claims

1.基于DMCNN的特殊事件提取系统，用于从新闻报道文本中提取特殊事件信息，其特征在于，包括：

文本数据输入模块，输入新闻报道、广播稿的文本数据；

结果输出模块，根据特殊事件提取结果输出文件。

2.根据权利要求1所述的基于DMCNN的特殊事件提取系统，其特征在于，所述文本数据预处理模块包括预训练模块和向量化处理模块；

3.根据权利要求2所述的基于DMCNN的特殊事件提取系统，其特征在于，所述预训练模块用于对文本文档进行分词和去除停用词处理。

4.根据权利要求2所述的基于DMCNN的特殊事件提取系统，其特征在于，所述word2vector词向量为文本文档每个单词或短语的向量表示，将词向量向句子向量空间和文档向量空间进行扩展获得文档向量；所述向量空间的扩展包括向量叠加后求平均。

5.根据权利要求2所述的基于DMCNN的特殊事件提取系统，其特征在于，所述BERT模型通过注意力机制和transform机制对特定语料训练后得到的文本文档每个单词或短语的向量表示。

6.根据权利要求2所述的基于DMCNN的特殊事件提取系统，其特征在于，所述系统基于DOCKER容器技术为BERT模型搭建容器级别的WEB服务以形成WEB服务层，所述WEB服务层以http接口形式满足多用户并发使用BERT模型的需要。

7.根据权利要求1所述的基于DMCNN的特殊事件提取系统，其特征在于，所述特殊事件提取执行模块设置有一个分类器，所述分类器用于进行参数分类和计算每个事件参数角色的置信度；所述参数角色为事件与参数之间的关系。

8.根据权利要求7所述的基于DMCNN的特殊事件提取系统，其特征在于，所述分类器将对事件的提取机制转变为一个文本分类问题，对事件参数的提取转化为在文本分类基础上的分类的属性信息的提取。

9.根据权利要求7所述的基于DMCNN的特殊事件提取系统，其特征在于，所述参数分类根据事件触发器分类进行，所述事件触发器为最能清楚表达事件发生的一个词，所述触发器分类和参数分类构成事件提取的框架。

10.根据权利要求1所述的基于DMCNN的特殊事件提取系统，其特征在于，所述系统还包括效果评估模块，所述效果评估模块对输出结果进行评估。

11.根据权利要求10所述的基于DMCNN的特殊事件提取系统，其特征在于，所述系统还包括日志管理模块，所述日志管理模块对输出结果和效果评估进行保存以生成操作日志，并对日志进行管理。

12.根据权利要求1所述的基于DMCNN的特殊事件提取系统，其特征在于，所述结果提取模块输出为指定目录下的EXCEL文件。