CN115292568B

CN115292568B - 一种基于联合模型的民生新闻事件抽取方法

Info

Publication number: CN115292568B
Application number: CN202210201217.3A
Authority: CN
Inventors: 云静; 焦磊; 郑博飞; 袁静姝; 廉亚红; 刘利民
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-11-17
Anticipated expiration: 2042-03-02
Also published as: CN115292568A

Abstract

本发明提供了一种基于联合模型的民生新闻事件抽取方法，使用网络爬虫爬取网络公开民生领域新闻，对原始语料进行数据清洗，获得可用的文本语料数据；对数据进行人工标注，获得质量较高的数据集；使用预训练语言模型Bert获得词嵌入表示；实现长短期记忆神经网络模型捕获文本数据单词之间的依赖特征，并作为共享参数层，实现联合提取；实现多层标签指针网络分别提取触发词和事件参数，解决角色重叠问题。本发明通过网络公开民生新闻人工标注数据集，利用预训练语言模型和循环神经网络挖掘民生新闻文本数据的深层语义信息，利用多层标签指针网络解决角色重叠问题，在民生新闻事件抽取任务上取得了较好的效果。

Description

一种基于联合模型的民生新闻事件抽取方法

技术领域

本发明属于人工智能与大数据分析应用技术领域，涉及对舆情的智能分析，特别涉及一种基于联合模型的民生新闻事件抽取方法。

背景技术

当今快速发展的社会，每天都有大量的新闻在不同的社交平台或者媒体上传播。随着云计算与大数据分析技术的发展，舆情智能监控也成为目前热门的研究方向。通过事件抽取系统可以将复杂的新闻事件分解，获得结构化的有效的信息，为下一步政府决策提供了有效的支持。

当前基于深度学习的传统事件抽取方法大致分为两种：基于管道模型和基于联合模型的抽取方法。基于管道模型的事件抽取方法将事件抽取任务分为多个阶段的序列标注任务，但是基于管道模型的抽取方法存在误差传播，即上有任务的误差会导致后续任务出现错误。基于联合模型的事件抽取方法则构建起触发词和事件参数之间的关系，对每个部分进行整体更新，对触发词和事件参数联合提取。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于联合模型的民生新闻事件抽取方法，通过构建事件检测和事件参数识别之间的关联关系得到联合模型；利用多层标签指针网络代替传统序列标注任务，解决角色重叠问题。在民生领域事件抽取任务上取得了良好的效果，大大减少了人工分析民生新闻的劳动成本和时间成本，提升了民生领域事件抽取的效果。

为了实现上述目的，本发明采用的技术方案是：

一种基于联合模型的民生新闻事件抽取方法，包括如下步骤：

步骤1，数据获取、预处理：

使用网络爬虫爬取公开的民生新闻，对原始民生新闻进行文本预处理，并进行分句、分词，获得可用的民生文本语料库；

步骤2，对步骤1中获取的文本语料库中的新闻数据进行人工标注，得到标注后的民生新闻数据集；

步骤3，首先，利用Bert预训练语言模型获取标注后的民生新闻数据的词嵌入表示，其次，利用长短期记忆神经网络模型捕获词嵌入表示序列中的语义特征，然后，利用多层标签指针网络进行触发词提取得到触发词集合，实现事件类型检测；之后，利用注意力机制将触发词集合与词嵌入表示融合成新的特征表示，并再次利用长短期记忆神经网络模型捕获新的特征表示序列中的语义特征，最后，再次利用多层标签指针网络进行事件参数提取，得到最终结果。

进一步地，所述步骤1具体步骤为：

步骤1.1，使用网络爬虫根据关键词从新闻网站上爬取公开的民生新闻，所述民生新闻包括民生类事件；所述民生类事件细分为城乡社会保障、教育、就业、社会管理和医保5种类型事件；

步骤1.2，对原始民生新闻进行包括去重、去除无效符号在内的文本预处理；

步骤1.3，对完成步骤1.2文本预处理的民生新闻，利用jieba工具进行分句、分词，获得可用的民生文本语料库。

进一步地，所述步骤2具体步骤为：

步骤2.1，对步骤1中获取的文本语料库中的每种事件定义触发词和事件参数，并预定义事件结构；

步骤2.2，根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注。

进一步地，所述步骤2.1，触发词是指爬取每种新闻时设定的关键词，也是判断事件类型的唯一标准；所述事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件，得出不同类型事件所必需包含的事件元素。所述事件元素即事件参数；所述事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成。

进一步地，所述步骤3中，使用Bert预训练语言模型对标注后的民生新闻数据进行编码，获得数据的词嵌入表示，每一条词嵌入表示的顺序为相应新闻数据中词的顺序，将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型，使用3层LSTM捕获词嵌入表示序列中的语义特征。

进一步地，所述步骤3中，通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span)，每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成；同时，根据定义的触发词叠加多组二分类网络，即一个触发词分配一组二分类网络，同时对词嵌入表示序列中的每个字/词进行多次二分类判断，实现事件类型检测；输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置。

进一步地，所述利用多层标签指针网络进行事件参数提取，具体过程为：当前输入的词嵌入表示序列包含事件类型，首先根据相应的事件结构，为每组二分类网络分配一个事件参数标签，每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测，来确定词嵌入表示序列中的事件参数位置。

与现有技术相比，本发明针对同一实体在不同事件中的角色分类也不同，即角色重叠问题，采用参数共享的方法，以及触发词和事件参数之间的关联关系，事件检测任务和事件参数识别任务使用长短期记忆神经网络层作为共享参数层，实现多层标签指针网络代替传统的序列标注任务，解决角色重叠问题；将提取出的触发词融合进词嵌入表示中作为事件参数识别模块的输入进行预测。采用本发明，可极大程度上解决传统基于管道模型的事件抽取方法存在误差传播的现象，提高事件抽取模型预测的准确性，为政府相关部门提供更精确的处理结果。

附图说明

图1是本发明流程示意图。

图2是本发明模型框架图。

图3是事件类型检测中的多层标签指针网络示意图。

图4是事件参数检测中的多层标签指针网络示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本发明为一种基于联合模型的民生新闻事件抽取方法，包括如下步骤：

步骤1，数据获取、预处理：

使用网络爬虫爬取公开的民生新闻，对原始民生新闻进行文本预处理，并进行分句、分词等操作，获得可用的民生文本语料库。具体步骤为：

步骤1.1，使用网络爬虫根据关键词从新闻网站上爬取公开的民生新闻共2万条，民生新闻包括民生类事件，两类事件各1.0万条；所述民生类事件又细分为城乡社会保障、教育、就业、社会管理和医保5种类型事件。民生类事件的每种新闻数量为：城乡社会保障类新闻1000条；教育类新闻3000条；就业类新闻2000条；社会管理类新闻3000条；医保类新闻1000条。

步骤1.2，对原始民生新闻进行数据清洗等文本预处理，如去重、去除无效符号等，以除掉重复新闻以及无效符号。

步骤2，采用人工标注方法，对步骤1中获取的文本语料库中的新闻数据进行人工标注，得到标注质量较高的民生新闻数据集。具体步骤为：

步骤2.1，对步骤1中获取的文本语料库中的每种事件预定义事件结构，定义触发词和事件参数。

本发明中，触发词是指爬取每种新闻时设定的关键词，也是判断事件类型的唯一标准；事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件，得出不同类型事件所必需包含的事件元素，例如时间、参与人员、所在城市等。事件元素即事件参数；事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成。表1为本实施例中的原始民生领域新闻数据的类型及事件结构定义，如下：

表1

步骤2.2，根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注，得到标注质量较高的民生新闻数据集，并将每种类型的新闻按照7:2:1的比例分成训练集、测试集、验证集。

即本步骤利用民生新闻事件抽取系统实现，该抽取系统基于Bert预训练语言模型，长短期记忆神经网络模型和多层标签指针网络。其中的民生事件检测任务以及民生事件论元抽取任务均使用该抽取系统。

具体步骤可分解描述如下：

步骤3.1，语义特征获取：

使用Bert预训练语言模型对标注后的民生新闻数据进行编码，获得数据的词嵌入表示，每一条词嵌入表示的顺序为相应新闻数据中词的顺序，将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型，使用3层LSTM捕获词嵌入表示序列中的语义特征。

步骤3.2，事件类型检测：

通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span)，每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成；同时，根据定义的触发词叠加多组二分类网络，即一个触发词分配一组二分类网络，同时对词嵌入表示序列中的每个字/词进行多次二分类判断，实现事件类型检测；输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置。

其原理可描述为：当前输入的词嵌入表示序列X＝{x₁,x₂,...,x_n}，根据每种事件类型的触发词，每一组指针向量(start，end)分别对应一个触发词，将每组指针向量的值初始化为0，记为S_s＝S_e＝{0，0，.,,,，0}，长度与当前输入的X长度相等，即S_s和S_e组成的二维矩阵表示一个触发词，每一列都对应词嵌入表示序列中的每一个字/词。

具体过程为：首先根据定义好的触发词，为每组二分类网络分配一个触发词标签，每组二分类网络长度相等且都等于当前输入的词嵌入表示序列的长度。每组二分类网络都由一个头位置指针和尾位置指针组成。然后每组二分类网络中的头位置指针和尾位置指针都利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测，来确定词嵌入表示序列中是否含有触发词。sigmoid函数阈值设定为0.45，当一组二分类网络中的头位置指针(尾位置指针)得到某个字/词的检测值大于0.45，则认为该字/词为触发词的起始(结束)位置，并将该组二分类网络中对应该字/词位置的起始(结束)位置设为1。如图3所示，当“触发词1农业”对应的二分类网络检测到“农”字时，头位置指针的检测值大于0.45，认为该字是触发词的起始位置，便将该字对应头位置指针的值设为1；同理，当尾指针检测到“业”字时检测值同样大于0.45，便将该字对应尾位置指针的值设为1。通过以上步骤实现事件类型检测。

步骤3.3，事件参数提取：

如图3所示，当前输入的词嵌入表示序列只包含“竞赛行为”2种事件类型，首先根据该事件的事件结构m＝{a,b,c,d}，a,b,c,d均为该事件类型新闻的事件参数，为每组二分类网络分配一个事件参数标签，然后每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测，来确定词嵌入表示序列中的事件参数位置。sigmoid函数阈值同样设定为0.45，当事件参数标签为a的二分类网络中的头位置指针(尾位置指针)得到某个字/词的检测值大于0.45，则认为该字/词是事件参数a的起始(结束)位置，并将该组二分类网络中对应该字/词位置的起始(结束)位置设为1。若事件参数标签为b的二分类网络在该字/词上的检测值也大于0.45，则同样执行以上步骤，如图4所示，在“地点”对应的二分类网络检测当前输入的词嵌入表示序列时，当头位置指针检测到“车”字时，其检测值大于0.45，则认为“车”是该事件参数的起始位置，则将该字对应头位置指针处的值设为1，同理，当尾位置指针检测到“乡”字时，其检测值大于0.45，便将“乡”字对应尾位置指针处的值设为1，以此实现事件参数检测。

本发明采用多层标签指针网络来计算输入序列的每个字/词在其对应指针位置是0/1的值，以此来确定触发词的起始位置及参数角色类型的起始位置。事件类型检测和事件参数检测的原理相似，可分别以事件类型检测模块和事件参数检测模块实现。因此，本发明基于联合模型的思想进行建模，事件类型检测模块和事件参数检测模块结构类似，均由长短期记忆神经网络和多层标签指针网络构成，故可以同步更新两个模型参数，达到联合效果。

在事件类型检测过程中，经过LSTM捕获特征之后，先进行触发词提取，实现多层标签指针网络代替传统的序列标注任务，得到触发词集合T＝{t₁,t₂,...,t_n}。

在事件参数检测过程中，利用注意力机制将T与词嵌入表示融合成新的特征表示，送入到事件参数识别模块中的3层LSTM中进行特征捕获，然后利用多层标签指针网络进行预测，得到事件参数识别最终结果。

事件类型检测模块和事件参数检测模块的训练方法为：

在步骤2执行所得的标注数据作为Bert预训练语言模型的输入，得到数据的词嵌入表示。然后将词嵌入表示序列输入到事件检测模块中的3层LSTM进行语义特征捕获，公式如下：

S＝Bert(X)

h_l＝LSTM(h_l-1),l∈[1,3]

其中，X为步骤2得到的数据集，S为词嵌入表示；l为LSTM的层数。

在检测识别过程中，本发明使用了一种多层标签指针网络来实现序列标注任务，即通过两个二分类网络生成两个0/1序列来确定事件参数在序列中的起止边界(span),每个都由一个头位置指针(start)和一个尾位置指针(end)确定，同时采用多个二分类网络来对进行角色分类。输入序列中每个字(token)都可以表示成某一元素的起止位置，任意两个组成的都可以表示成任意一个事件角色，这样就解决了角色重叠问题。

具体地，结合附图2进行说明，为待提取文本中需要提取的事件参数角色都分别对应一组指针向量(start，end),将所有角色标签的和指针向量分别组合在一起可以得到两个二维矩阵,记为S_s和S_e，即S_s和S_e中的每一行表示一个角色类型,每一列都对应序列中一个token。本发明采用多组二分类网络来预测输入序列在每个角色对应及指针向量所有位置是0/1的可能性来确定事件参数的起止位置及参数角色类型。整个任务可以视为对输入序列的每个进行多标签分类,第个被预测为角色的元素起止位置的概率值。

即，检测过程可以视为对输入序列X的每个字/词x_i,i∈[1,n]进行多标签分类，输入序列的第i个字/词为某一种事件类型/事件参数类型的起始位置的概率值，公式如下：

其中x_i为输入序列中第i个字/词的向量表示；上标的s、e表示start和end；W_s ^r和为可训练权重向量，/>和/>为偏置项；σ为sigmoid激活函数，设置sigmoid激活函数阈值为0.45，即使用sigmoid函数对词嵌入表示序列中每个字/词进行分类预测时，超过0.45时则认为该字/词为触发词的一部分。

进一步地，利用多层标签指针网络对输入序列的每个字/词进行计算，最终得到检测出的触发词集合T＝{t₁,t₂,...,t_n}。

在联合过程时，利用注意力机制依次将触发词集合T中的每一个触发词t与词嵌入表示H融合成新的特征序列，然后作为事件参数识别模块的输入，利用与事件检测模块相同的方法进行抽取，得到最终的事件参数预测结果。利用融合触发词集合能够在一定程度上使得事件参数识别模块学习到触发词与事件参数之间的关联关系。生成新的特征序列公式如下：

α₁＝softmax(v^T tanh(W₁H+W₂t₁))

H₁＝α·H

α₂＝softmax(v^T tanh(W₁H+W₂t₂))

H₂＝α₂·H₁

...

α_n＝softmax(v^Ttanh(W₁H+W₂t_n))

其中H为输入的词嵌入表示序列X；t为触发词，V、W₁、W₂为可训练权重。V^T为V的转置矩阵，为原始输入序列H融合触发词集合后生成的新的特征序列。

在完成上述步骤后，应用时，将步骤2所生成的数据集作为抽取系统的输入数据，抽取系统经过训练测试后输出抽取结果，提高预测准确性和模型适用性，为相关部门提供更精确的处理结果。综上，本发明通过网络公开民生新闻人工标注数据集，利用预训练语言模型和循环神经网络挖掘民生新闻文本数据的深层语义信息，利用多层标签指针网络解决角色重叠问题，在民生新闻事件抽取任务上取得了较好的效果。

本发明实施例中，所依赖的硬件为一台计算机，配置包含硬件环境：CPU：1颗Inteli7-9700处理器(3.10GHz)；GPU：1块8G GeForce RTX 2060SUPER；软件环境：操作系统：Ubantu 16.04；深度学习框架：Torch1.6；语言及开发环境：Python 3.6、Anaconda 3。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于联合模型的民生新闻事件抽取方法，其特征在于，包括如下步骤：

步骤1，数据获取、预处理：

步骤2，对步骤1中获取的文本语料库中的新闻数据进行人工标注，得到标注后的民生新闻数据集；具体步骤为：

步骤2.1，对步骤1中获取的文本语料库中的每种事件定义触发词和事件参数，并预定义事件结构；所述触发词是指爬取每种新闻时设定的关键词，也是判断事件类型的唯一标准；所述事件结构是通过分析步骤1获得的民生文本语料库中的每种类型事件，得出不同类型事件所必需包含的事件元素，所述事件元素即事件参数；所述事件结构由确定其事件类型的触发词以及组成该事件的事件参数组成；

步骤2.2，根据步骤2.1中预定义好的事件结构对每条新闻数据进行人工标注；

步骤3，包括：

步骤3.1，语义特征获取，方法如下：

使用Bert预训练语言模型对标注后的民生新闻数据进行编码，获得数据的词嵌入表示，每一条词嵌入表示的顺序为相应新闻数据中词的顺序，将各词嵌入表示组成的词嵌入表示序列输入至长短期记忆神经网络模型，使用3层LSTM捕获词嵌入表示序列中的语义特征；

步骤3.2，利用多层标签指针网络进行触发词提取得到触发词集合，实现事件类型检测，方法如下：

通过头位置指针和尾位置指针两个0/1序列来确定触发词在词嵌入表示序列中的起止边界(span)，每组二分类网络均由一个头位置指针(start)和一个尾位置指针(end)组成；同时，根据定义的触发词叠加多组二分类网络，即一个触发词分配一组二分类网络，同时对词嵌入表示序列中的每个字/词进行多次二分类判断，实现事件类型检测；输入的词嵌入表示序列中每个字/词均能够表示成某一触发词的起止位置；

步骤3.3，利用注意力机制将触发词集合与词嵌入表示融合成新的特征表示，并再次利用长短期记忆神经网络模型捕获新的特征表示序列中的语义特征，最后再次利用多层标签指针网络进行事件参数提取，得到最终结果；

其中所述利用多层标签指针网络进行事件参数提取，具体过程为：当前输入的词嵌入表示序列包含事件类型，首先根据相应的事件结构，为每组二分类网络分配一个事件参数标签，每组二分类网络中的头位置指针和尾位置指针均利用sigmoid函数对当前输入的词嵌入表示序列中的每个字/词进行二分类检测，来确定词嵌入表示序列中的事件参数位置。

2.根据权利要求1所述基于联合模型的民生新闻事件抽取方法，其特征在于，所述步骤1具体步骤为：