CN113792545A

CN113792545A - 一种基于深度学习的新闻事件活动名称抽取方法

Info

Publication number: CN113792545A
Application number: CN202111354123.1A
Authority: CN
Inventors: 杨瀚; 朱婷婷; 温序铭
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2021-12-14
Anticipated expiration: 2041-11-16
Also published as: CN113792545B

Abstract

本发明公开了一种基于深度学习的新闻事件活动名称抽取方法，包括步骤：S1，收集新闻文本数据并标注其中的新闻事件活动名称，构建新闻事件活动名称数据集；S2，利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型，并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型；S3，利用步骤S2中训练好的新闻事件活动名称抽取模型，对输入的新闻文本进行预测，获得新闻文本中包含的新闻事件活动名称；本发明具有抽取新闻事件活动名称完整、准确和高效的优点。

Description

一种基于深度学习的新闻事件活动名称抽取方法

技术领域

本发明涉及新闻文本内容信息抽取领域，更为具体的，涉及一种基于深度学习的新闻事件活动名称抽取方法。

背景技术

新媒体时代下，我们每天接收到的新闻资讯数据呈现爆炸式增长，快速掌握新闻资讯内容成为迫切任务。自动抽取新闻事件活动名称能够满足用户便捷查看当前发生各个热点事件的需求，也可用于推荐、去重、提升事件排行榜单等业务场景，具有十分重要的实际意义。

目前新闻事件活动名抽取多采用序列标注技术方向来实现，是一个类似于实体识别但又难于实体识别的任务。实际生产中面临着许多难点问题：如中文分词问题，错误的分词会导致最后抽取的事件活动名称不完整，出现中文词语被错误截断的问题；另外由于事件活动名相对实体而言往往更长，较长的文本信息就需要考虑上下文信息捕捉与传递误差的问题，否则容易出现信息抽取不完全；事件活动名称往往包含更复杂的语法特征，结构信息相对于实体而言也更复杂更多变。

发明内容

本发明的目的在于克服现有技术的不足，为解决上述问题，提供一种基于深度学习的新闻事件活动名称抽取方法，解决背景中的问题，具有抽取新闻事件活动名称完整、准确和高效的优点。

本发明的目的是通过以下方案实现的：

一种基于深度学习的新闻事件活动名称抽取方法，包括步骤：

S1，收集新闻文本数据并标注其中的新闻事件活动名称，构建新闻事件活动名称数据集；

S2，利用预训练模型与深度学习方法构建新闻事件活动名称抽取模型，并利用所述新闻事件活动名称数据集训练所述新闻事件活动名称抽取模型；

S3，利用步骤S2中训练好的新闻事件活动名称抽取模型，对输入的新闻文本进行预测，获得新闻文本中包含的新闻事件活动名称。

进一步地，步骤S1包括子步骤：

S11，对收集的新闻文本数据，根据中文语句分割符号进行分句后，记录分句后的新闻文本数量K，K为正整数；

S12，将完成分句的K条新闻文本数据，复制N份并分发给N个相互独立的标注系统进行数据标注，N为正整数；

S13，构建评价中心服务，收集N个标注系统的已标注数据，对N个标注系统的标注质量进行评价并将存在标注争议的数据回退给标注系统，直至标注争议消除，并在满足预选设定的条件后生成新闻事件活动名称数据集。

进一步地，步骤S2中所述构建新闻事件活动名称抽取模型包括构建：文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。

进一步地，步骤S3包括子步骤：

S31，按照中文语句分割符号对收集到的新闻文本数据进行分句，将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型；

S32，利用所述新闻事件活动名称抽取模型，获得新闻文本包含的事件活动名称候选集合

，其中

表示候选事件活动名称的数量，

表示第r个事件活动名称；

S33，对新闻事件活动名称进行后处理，得到输入新闻文本数据中所包含的事件名称预测结果。

进一步地，步骤S12中在所述复制N份并分发给N个相互独立的标注系统后，由N位新闻从业人员进行数据标注。

进一步地，步骤S13中包括子步骤：

S131，设置标注争议判定阈值为

，设置数据质量过审阈值

；

S132，基于N个标注系统的相同文本内容的已标注数据，若N个标注系统对于同一条数据产生M种不同的标注结果，M为正整数；第i种标注结果的数量为m_i，i=1,2,...,M，计算标注争议判定权重

如下：

其中，

求取最大值的函数；

S133，判定当前新闻文本的标注结果是否存在争议，判定方法如下：

无争议，

有争议；

S134，基于步骤S133的判断结果进行处理：若当前新闻文本的标注结果有争议，则将N个系统对于当前新闻文本的标注全部清除并返回到N个系统进行再标注，若当前新闻文本的标注结果无争议，则记录为无争议标注文本数据并统计无争议标注文本数据数量，记为

；

S135，对所有K条新闻文本数据重复步骤S132至S134，并计算无争议标注文本数据数量占总文本数量的比例

，计算公式如下：

；

S136，若S135的计算结果满足条件

，则将K条新闻文本数据，及其最优标注结果导出为新闻事件活动名称数据集，其中最优标注结果的定义为：每一条新闻文本数据在全部N个标注系统的M种标注结果中，

数量

最多的第i个标注结果；若S135的计算结果不满足条件

，则重复步骤 S132至S135，直至满足条件

后将K条新闻文本数据，及其最优标注结果导出为新闻事件活动名称数据集，其中，最优标注结果的定义为：每一条新闻文本数据在全部N个标注系统的M种标注结果中，数量

最多的第i个标注结果。

进一步地，构建所述文本字符编码层包括子步骤：使用预训练模型BERT对文本进行字符级编码，将输入的新闻文本的每个字符j转换为设定的维度的实数向量

，维度记为p。

进一步地，构建所述文本分词编码层包括子步骤：

S2A1，对输入的新闻文本进行分词，并根据BMES规则进行分词标注；

S2A2，定义分词编码矩阵

，其中，第一行为BMES规则中B对应的分词编码、第二行为BMES规则中M对应的分词编码、第三行为BMES规则中E对应的分词编码、第四行为BMES规则中S对应的分词编码；

S2A3，通过分词编码矩阵

将输入新闻文本的每个字符j转化为维度为p 的实数向量

，并构建分词嵌入矩阵

，其中H的第j行为

，L输入新闻文本的字符数量。

进一步地，构建所述文本词语编码层包括子步骤：

S2B1，统计输入新闻文本的字符数量L；

S2B2，构建初始化分词表示矩阵

，初始化Q中的每一个元素均为0；

S2B3，构建字符嵌入矩阵

，其中U的第j行是

；

S2B4，基于利用BMES规则进行的分词标注，更新分词表示矩阵为

；

S2B5，按照如下公式计算输入新闻文本的词语嵌入矩阵

：

其中，

表示矩阵乘法。

进一步地，构建文本特征融合层包括子步骤：

S2C1，将步骤S2A3得到的分词嵌入矩阵

、步骤S2B3得到的字符嵌入矩阵

、步骤 S2B5得到的词语嵌入矩阵

依次进行拼接，得到三维文本表示矩阵

；

S2C2，构建卷积神经网络层

对

进行卷积操作，并得到卷积后的融合三维文本表示矩阵

；

S2C3，构建最大池化层P对

在第二维度上执行最大池化得到融合文本表示矩阵

；

S2C4，构建上下文语义融合层

，采用双向长短期记忆神经网络对融合文本表示矩阵进行上下文语义融合，得到上下文文本表示矩阵

。

进一步地，步骤S2B4包括子步骤：

S2B41，初始化文本词语首字符统计

；

S2B42，若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为S，则令

；

若输入新闻文本的第l个字符根据BMES规则进行分词标注后得到的标注为B，则令

，令

；

若输入新闻文本的第l个字符在根据BMES规则进行分词标注后得到的标注为M或 E，则令

，其中

；

S2B43，对输入新闻文本从第一个字符开始依次对每一个字符执行步骤S2B42，从而完成更新后的分词表示矩阵，记为

。

进一步地，构建所述事件活动名称抽取层包括子步骤：采用CRF算法将上下文文本表示矩阵

作为输入，得到事件活动名称的预测结果。

进一步地，步骤S33中所述后处理包括子步骤：

S331，若当前事件活动名称

仅包含一个字符，则从事件活动名候选集中删除当前事件活动名称；

若当前事件活动名称

起始字符或结尾字符为顿号、逗号、分号、冒号、句号、感叹号、问号、省略号其中之一的，则删除首尾的对应符号并将余下的文本继续作为事件活动名称保留在候选集中；

若当前事件活动名称

的起始字符在利用BMES规则进行分词标注后的标注结果不为B或S其中之一，则从事件活动名候选集中删除当前事件活动名称；

若当前事件活动名称

的起始字符在利用BMES规则进行分词标注后的标注结果不为E或S其中之一，则从事件活动名候选集中删除当前事件活动名称；

S332，分别针对

的情况，依次执行步骤S331，得到修改后的事件活动名称候选集，作为最终的预测结果。

本发明的有益效果是：

本发明实施例，解决了背景中提成的问题，具有抽取新闻事件活动名称完整、准确和高效的优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于深度学习的新闻事件活动名称抽取方法的框架图。

图2为本发明实施例中构建自动评价中心服务的步骤流程图。

图3为利用基于深度学习的新闻事件活动名称抽取系统进行新闻事件活动名称抽取过程示意图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

如图1所示，一种基于深度学习的新闻事件活动名称抽取方法，包括步骤：

在本发明的其他可选实施例中，需要进一步说明的是，步骤S1包括子步骤：

S11，对收集的新闻文本数据，根据中文语句分割符号进行分句后，记录分句后的新闻文本数量K，K为正整数；可以通过互联网、广播电视、报刊杂志收集新闻文本数据；中文语句分割符号包括：句号（“。”）、感叹号（“！”）、问号、省略号（“……”）；

在本发明的其他可选实施例中，需要进一步说明的是，步骤S2中所述构建新闻事件活动名称抽取模型包括构建：文本字符编码层、文本分词编码层、文本词语编码层、文本特征融合层和事件活动名称抽取层。

在本发明的其他可选实施例中，需要进一步说明的是，步骤S3包括子步骤：

S31，按照中文语句分割符号对收集到的新闻文本数据进行分句，将分句后的新闻文本数据输入到所述新闻事件活动名称抽取模型；中文语句分割符号包括：句号（“。”）、感叹号（“！”）、问号、省略号（“……”）；

，其中

表示候选事件活动名称的数量，

表示第r个事件活动名称；

在本发明的其他可选实施例中，需要进一步说明的是，步骤S12中在所述复制N份并分发给N个相互独立的标注系统后，由N位新闻从业人员进行数据标注。

在本发明的其他可选实施例中，需要进一步说明的是，如图2所示，步骤S13中包括子步骤：

S131，设置标注争议判定阈值为

，设置数据质量过审阈值

；

S132，基于N个标注系统的相同文本内容的已标注数据，若N个标注系统对于同一条数据产生M种不同的标注结果，M为正整数，；，第i种标注结果的数量为m_i，i=1,2,...,M，计算标注争议判定权重

如下：

其中，

求取最大值的函数；

无争议，

有争议；

；

，计算公式如下：

；

S136，若S135的计算结果满足条件

数量

最多的第i个标注结果；若S135的计算结果不满足条件

，则重复步骤 S132至S135，直至满足条件

最多的第i个标注结果。

在本发明的其他可选实施例中，需要进一步说明的是，构建所述文本字符编码层包括子步骤：使用预训练模型BERT对文本进行字符级编码，将输入的新闻文本的每个字符j 转换为设定的维度的实数向量

，维度记为p。

在本发明的其他可选实施例中，需要进一步说明的是，如图3所示，构建所述文本分词编码层包括子步骤：

S2A1，对输入的新闻文本进行分词，并根据BMES规则进行分词标注；在该步骤中所述对输入的新闻文本进行分词，可使用开源工具包jieba；，其中，“BMES”规则是指：多字符组合而成的词语，第一个字符标记为“B”，中间字符标记为“M”，结束字符标记为“E”；单字符形成的词语或标点标记为“S”；

S2A2，定义分词编码矩阵

S2A3，通过分词编码矩阵

将输入新闻文本的每个字符j转化为维度为p 的实数向量

，并构建分词嵌入矩阵

，其中H的第j行为

，L输入新闻文本的字符数量。

在本发明的其他可选实施例中，需要进一步说明的是，构建所述文本词语编码层包括子步骤：

S2B1，统计输入新闻文本的字符数量L；

S2B2，构建初始化分词表示矩阵

，初始化Q中的每一个元素均为0；

S2B3，构建字符嵌入矩阵

，其中U的第j行是

；

；

S2B5，按照如下公式计算输入新闻文本的词语嵌入矩阵

：

其中，

表示矩阵乘法。

在本发明的其他可选实施例中，需要进一步说明的是，如图3所示，构建文本特征融合层包括子步骤：

S2C1，将步骤S2A3得到的分词嵌入矩阵

、步骤S2B3得到的字符嵌入矩阵

、步骤 S2B5得到的词语嵌入矩阵

依次进行拼接，得到三维文本表示矩阵

；

S2C2，构建卷积神经网络层

对

进行卷积操作，并得到卷积后的融合三维文本表示矩阵

；

S2C3，构建最大池化（MaxPool）层P对

在第二维度上执行最大池化得到融合文本表示矩阵

；

S2C4，构建上下文语义融合层

，采用双向长短期记忆神经网络（Bi-LSTM）对融合文本表示矩阵进行上下文语义融合，得到上下文文本表示矩阵

。

在本发明的其他可选实施例中，需要进一步说明的是，步骤S2B4包括子步骤：

S2B41，初始化文本词语首字符统计

；

；

，令

；

，其中

；

。

在本发明的其他可选实施例中，需要进一步说明的是，构建所述事件活动名称抽取层包括子步骤：采用CRF算法将上下文文本表示矩阵

作为输入，得到事件活动名称的预测结果。

在本发明的其他可选实施例中，需要进一步说明的是，步骤S33中所述后处理包括子步骤：

S331，若当前事件活动名称

若当前事件活动名称

若当前事件活动名称

若当前事件活动名称

S332，分别针对

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。