CN112989031B

CN112989031B - 基于深度学习的广播电视新闻事件要素抽取方法

Info

Publication number: CN112989031B
Application number: CN202110464100.XA
Authority: CN
Inventors: 杨瀚; 朱婷婷; 温序铭
Original assignee: Chengdu Sobei Video Cloud Computing Co ltd
Current assignee: Chengdu Sobei Video Cloud Computing Co ltd
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-08-03
Anticipated expiration: 2041-04-28
Also published as: CN112989031A

Abstract

本发明公开了基于深度学习的广播电视新闻事件要素抽取方法，包括步骤：S1，标注待分析的广播电视新闻数据的摘要和要素信息，构建摘要数据集和要素数据集；S2，利用预训练模型构建摘要抽取模型和要素抽取模型，并利用构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型；S3，利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型，利用所述模型对输入的广播电视新闻进行预测，获得结构化的要素抽取结果等；本发明能够对广播电视新闻内容进行高效的要素提取，为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。

Description

基于深度学习的广播电视新闻事件要素抽取方法

技术领域

本发明涉及广播电视新闻文本结构化领域，更为具体的，涉及基于深度学习的广播电视新闻事件要素抽取方法。

背景技术

近年来，随着我国广播电视行业的迅猛发展，媒体内容数据、用户服务数据等正在海量增长。

广播电视新闻是一种非结构化的媒体内容数据，由标题、导语、主体、背景、结语组成，其中标题、导语、主体往往不可或缺，此外某些场景下还存在同期声。因此，新闻通常都相对冗长。新闻要素如时间（when）、地点（where ）、人物（who ）、事件（what）、原因（why）等作为一则新闻报道所必须具备的基本要素，可以作为新闻内容所蕴含的事件信息的结构化表征，进而高度概括新闻实质内容。然而，单纯依靠人工识别新闻要素并整理成结构化信息费时又费力，因此新闻要素的自动抽取具有重要意义。此外，通过新闻要素的自动抽取实现无结构化新闻的结构化转换也可为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供支持。

发明内容

本发明的目的在于克服现有技术的不足，提供基于深度学习的广播电视新闻事件要素抽取方法，能够对广播电视新闻内容进行高效的要素提取，为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持等。

本发明的目的是通过以下方案实现的：

基于深度学习的广播电视新闻事件要素抽取方法，包括步骤：

S1，标注待分析的广播电视新闻数据的摘要和要素信息，构建摘要数据集和要素数据集；

S2，利用预训练模型构建摘要抽取模型和要素抽取模型，并利用步骤S1中构建的摘要数据集、要素数据集来训练摘要抽取模型和要素抽取模型；

S3，利用步骤S2中训练好的摘要抽取模型和要素抽取模型来构建两阶段广播电视新闻要素自动抽取模型，利用所述模型对输入的广播电视新闻进行预测，获得结构化的要素抽取结果。

进一步地，在步骤S1中，构建要素数据集是在摘要数据集的基础上进行，包括如下步骤：

S11，建立N类目标类型新闻事件核心要素词库，利用同义词对核心要素词进行扩充，然后对扩充后的新闻事件核心要素词库进行修订，召回新闻事件数据，同时定位新闻事件摘要中的核心句；然后对核心要素词进行归类，以作为核心要素的归一化表达；其中，N为正整数；

S12，根据新闻事件核心要素词筛选出所标注的摘要中的核心句；采样设定的核心句，总结核心句中的所有其他要素特点及其在新闻中所承担的角色类别信息，为后续搭建要素标注系统提供相关的配置信息和约束信息；利用基于Brat搭建的要素标注工具对所有核心句进行标注获得要素标注信息；

S13，利用文本增强手段扩充数据集，保持样本均衡；具体包括：首先利用特定占位符替换核心要素与其他要素；然后按扩充比例对文本中其他字符进行随机处理；再对其他要素进行同类替换：汇总同类新闻事件同类角色用词，对每条文本中的事件其他要素进行随机替换，替换候选为在同类新闻事件中扮演同类角色的词；最后还原被占位的核心要素和未被替换的其他要素词。经过这些处理，可以尽量减小文本增强过程中带来的语义漂移问题，从而保证文本增强的数据质量。

进一步地，步骤S2中摘要抽取模型记为BertSum模型，该BertSum模型基于Bert模型，其在Bert之上添加基于Transformer的摘要抽取层，以获取作为摘要的句子信息。

进一步地，步骤S2中要素抽取模型串联顺序包括：文本向量化层、核心要素提取层，其他要素提取层以及核心要素归一化表达层。

进一步地，文本向量化层采用经过摘要抽取训练fine-tune后的Bert层。

进一步地，考虑到一个新闻核心句中可能描述了多个新闻事件，存在多个核心要素词，并且这些核心要素词之间可能存在嵌套的情况（这里指一个核心要素词在另一个核心要素词内部，是其子串），所以，在该实施方案中，核心要素提取层的构建过程包括如下步骤：

B1，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，计算每个字是核心要素开始字符的概率大小值

，其中字向量

为字

经过文本向量化层后的结果：

B2，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，获得每个字是核心要素结束字符的概率大小值

:

B3，对步骤B1、B2获得的核心要素提取结果进行过滤，以去除为核心要素开始或结束字符的概率大小值中较小的识别结果，从而获得位置集合

、

；这里，

，

；其中，

和

为阈值；

B4，根据步骤B3获得核心词集合

，这里

为集合

中最靠近

的元素。这样可以同时识别多个核心要素词，即使核心要素词之间存在嵌套关系。

进一步地，考虑到对新闻核心句所描述的事件来说，每个类别的其他要素可能有多个，并且这些要素词之间可能存在嵌套的情况；同时，引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素，所以，在该实施方案中，其他要素层的构建过程包括如下步骤：

C1，取出

里的每一个核心词

，首先获得其语义向量

，然后将其与每个字的字向量相加获得特征语义向量

，以此融入不同核心要素的语义，使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别；其中，

为第j个字向量，

为第k个字向量；

C2，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类其他要素开始字符的概率大小值

：

C3，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类要素结束字符的概率大小值

：

C4，对步骤C2、C3获得的其他要素提取结果进行过滤，以去除为其他要素开始或结束字符的概率大小值中较小的识别结果，从而获得位置集合

、

，其中

；这里，

，

；其中，

和

为阈值；k为数字，表示第k个位置；

C5，根据步骤C4获得其他要素集合

，这里

为集合

中最靠近

的元素，

。这样，每个类别下，都可以同时识别多个其他要素词，即使其他要素词之间存在嵌套关系。

进一步地，核心要素归一化层的构建过程包括如下步骤：

D1，取出结果

中的每一个核心要素词

,首先获得其语义向量

,同样针对每类其他要素结果

中每个其他要素词

，并获得相应语义向量

；然后将所有这些语义向量拼接作为Self-Attention层的输入

，利用Self-Attention层获得更对核心要素的更高层语义表征，以更好地进行核心要素的归一化判别：

这里函数

表示基于Self-Attenion的语义表征提取层，

表示核心要素词

的更高层语义表征，k为其他要素词

的开始位置，

为其他要素词

的结束位置，H为核心要素词及该核心要素词下所有其他要素词的语义向量拼接的结果向量；

D2，定义将语义矩阵

和激活函数softmax，将语义矩阵

和激活函数softmax分别用于每个核心要素的语义表征向量

，获得每个核心要素的类别，并将该类别作为规一化术语表达：

。

进一步地，步骤S2中，训练摘要抽取模型和要素抽取模型均采用批梯度下降算法；摘要抽取模型的损失函数采用二分类的交叉熵损失函数；要素抽取模型的损失函数包括三部分：核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数，核心要素归一化部分则采用多分类的交叉熵损失函数，最终要素抽取模型的损失函数为三部分加权和。

进一步地，步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测，获得结构化的要素抽取结果包括如下步骤：

S31，对输入的广播电视新闻数据进行清洗，去除同期声，保留导语、正文，如果有标题同样保留，为后续摘要抽取以及要素抽取过滤无关或无用内容；

S32，利用训练好的摘要抽取模型分析导语和正文内容，获得新闻的摘要句，将提取的摘要与标题合并，构成要素抽取模型分析内容；

S33，对带分析内容进行分字，获得字序列

，并将其输入文本向量化层，获得每个字的字向量

；这里

为待分析内容长度，

、

分别代表第

个字和其对应字向量；

S34，将向量化结果输入核心要素提取层，获得新闻核心要素提取结果；

S35，融合核心要素提取结果和S33的向量结果送入其他要素提取层，获得新闻其他要素提取结果；

S36，融合核心要素提取结果和其他要素提取结果送入核心要素归一化表达层，获得核心要素术语归一化结果，整合核心要素、其他要素和核心要素归一化结果形成结构化新闻要素信息并提供给用户。

本发明的有益效果包括：

本发明能够对广播电视新闻内容进行高效的要素提取，为整合新闻资源、汇聚全媒体新闻内容、建立内容知识库、梳理新闻事件脉络等上层分析或应用服务提供智能技术支持。具体的，能够保证文本增强的数据质量；即使核心要素词之间存在嵌套关系，可以同时识别多个核心要素词；能够更好地识别各类别下的与相应核心要素相关的其他要素；通过融入不同核心要素的语义，使后续模型层能在此基础上更好地进行与核心要素词相关的其他要素识别，能够更好地进行核心要素的归一化判别等，提高了广播电视新闻内容要素抽取效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于深度学习的广播电视新闻要素抽取方法流程框架图；

图2为本发明实施例中两阶段要素抽取模型结构示意图；

图3为本发明实施例中利用摘要抽取模型和要素抽取模型进行要素提取过程示意图。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

实施例1

如图1~3所示，基于深度学习的广播电视新闻事件要素抽取方法，包括步骤：

实施例2

在实施例1的基础上，在步骤S1中，构建要素数据集是在摘要数据集的基础上进行，包括如下步骤：

实施例3

在实施例1的基础上，步骤S2中摘要抽取模型记为BertSum模型，该BertSum模型基于Bert模型，其在Bert之上添加基于Transformer的摘要抽取层，以获取作为摘要的句子信息。

步骤S2中要素抽取模型串联顺序包括：文本向量化层、核心要素提取层，其他要素提取层以及核心要素归一化表达层。

文本向量化层采用经过摘要抽取训练fine-tune后Bert层。

考虑到一个新闻核心句中可能描述了多个新闻事件，存在多个核心要素词，并且这些核心要素词之间可能存在嵌套的情况（这里指一个核心要素词在另一个核心要素词内部，是其子串），所以，在该实施方案中，核心要素提取层的构建过程包括如下步骤：

B1，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，计算每个字是核心要素开始字符的概率大小值

，其中字向量

为字

经过文本向量化层后的结果：

B2，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，获得每个字是核心要素结束字符的概率大小值

:

、

；这里，

，

；其中，

和

为阈值；

B4，根据步骤B3获得核心词集合

，这里

为集合

中最靠近

考虑到对新闻核心句所描述的事件来说，每个类别的其他要素可能有多个，并且这些要素词之间可能存在嵌套的情况；同时，引入核心要素信息以及其他要素类别信息有助于更好地识别各类别下的与相应核心要素相关的其他要素，所以，在该实施方案中，其他要素层的构建过程包括如下步骤：

C1，取出

里的每一个核心词

，首先获得其语义向量

，然后将其与每个字的字向量相加获得特征语义向量

为第j个字向量，

为第k个字向量；

C2，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类其他要素开始字符的概率大小值

：

C3，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类要素结束字符的概率大小值

：

、

，其中

；这里，

，

；其中，

和

为阈值；

C5，根据步骤B8获得其他要素集合

，这里

为集合

中最靠近

的元素，

核心要素归一化层的构建过程包括如下步骤：

D1，取出结果

中的每一个核心要素词

,首先获得其语义向量

,同样针对每类其他要素结果

中每个其他要素词

，并获得相应语义向量

；然后将所有这些语义向量拼接作为Self-Attention层的输入

这里函数

表示基于Self-Attenion的语义表征提取层，

表示核心要素词

的更高层语义表征，k为其他要素词

的开始位置，

为其他要素词

D2，定义将语义矩阵

和激活函数softmax，将语义矩阵

和激活函数softmax分别用于每个核心要素的语义表征向量

。

步骤S2中，训练摘要抽取模型和要素抽取模型均采用批梯度下降算法；摘要抽取模型的损失函数采用二分类的交叉熵损失函数；要素抽取模型的损失函数包括三部分：核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数，核心要素归一化部分则采用多分类的交叉熵损失函数，最终要素抽取模型的损失函数为三部分加权和。

步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测，获得结构化的要素抽取结果包括如下步骤：

S33，对带分析内容进行分字，获得字序列

，并将其输入文本向量化层，获得每个字的字向量

；这里

为待分析内容长度，

、

分别代表第

个字和其对应字向量；

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，在一台计算机设备（可以是个人计算机，服务器，或者网络设备等）以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质，进行测试或者实际的数据在程序实现中存在于只读存储器（Random Access Memory，RAM）、随机存取存储器（Random Access Memory，RAM）等。

Claims

1.基于深度学习的广播电视新闻事件要素抽取方法，其特征在于，包括步骤：

步骤S2中要素抽取模型串联顺序包括：文本向量化层、核心要素提取层，其他要素提取层以及核心要素归一化表达层；文本向量化层采用经过摘要抽取训练fine-tune后的Bert层；

核心要素提取层的构建过程包括如下步骤：

B1，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，计算每个字是核心要素开始字符的概率大小值

，其中字向量为字

经过文本向量化层后的结果：

B2，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字向量

，获得每个字是核心要素结束字符的概率大小值

:

、

；这里，

，

；其中，

和

为阈值；

B4，根据步骤B3获得核心词集合

，这里

为集合

中最靠近

的元素；

其他要素层的构建过程包括如下步骤：

C1，取出核心词集合

里的每一个核心词

，首先获得其语义向量

，然后将其与每个字的字向量相加获得特征语义向量

为第j个字向量，

为第k个字向量；

C2，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类其他要素开始字符的概率大小值

：

C3，针对每类其他要素

，

是其他要素集合，定义语义矩阵

，将语义矩阵

和激活函数sigmoid分别用于每个字的特征语义向量

，获得每个字是o类要素结束字符的概率大小值

：

、

，其中

；这里，

，

；其中，

和

为阈值，k为数字，表示第k个位置；

C5，根据步骤C4获得其他要素集合

，这里

为集合

中最靠近

的元素，

；

核心要素归一化层的构建过程包括如下步骤：

D1，取出结果

中的每一个核心要素词

,首先获得其语义向量

,同样针对每类其他要素结果

中每个其他要素词

，并获得相应语义向量

；然后将所有这些语义向量拼接作为Self-Attention层的输入

这里函数

表示基于Self-Attenion的语义表征提取层，

表示核心要素词

的更高层语义表征，k为其他要素词

的开始位置，l为其他要素词

D2，定义语义矩阵

和激活函数softmax，将语义矩阵

和激活函数softmax分别用于每个核心要素的语义表征向量

，获得每个核心要素的类别，并将该类别作为归一化术语表达：

；

2.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法，其特征在于，在步骤S1中，构建要素数据集是在摘要数据集的基础上进行，包括如下步骤：

S13，利用文本增强手段扩充数据集，保持样本均衡；具体包括：首先利用特定占位符替换核心要素与其他要素；然后按扩充比例对文本中其他字符进行随机处理；再对其他要素进行同类替换：汇总同类新闻事件同类角色用词，对每条文本中的事件其他要素进行随机替换，替换候选为在同类新闻事件中扮演同类角色的词；最后还原被占位的核心要素和未被替换的其他要素词。

3.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法，其特征在于，步骤S2中摘要抽取模型记为BertSum模型，该BertSum模型基于Bert，其在Bert之上添加基于Transformer的摘要抽取层，以获取作为摘要的句子信息。

4.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法，其特征在于，步骤S2中，训练摘要抽取模型和要素抽取模型均采用批梯度下降算法；摘要抽取模型的损失函数采用二分类的交叉熵损失函数；要素抽取模型的损失函数包括三部分：核心要素提取部分、其他要素提取部分均采用二分类的交叉熵损失函数，核心要素归一化部分则采用多分类的交叉熵损失函数，最终要素抽取模型的损失函数为三部分加权和。

5.根据权利要求1所述的基于深度学习的广播电视新闻事件要素抽取方法，其特征在于，步骤S3中利用所构建两阶段广播电视新闻要素自动抽取模型对输入的广播电视新闻进行预测，获得结构化的要素抽取结果包括如下步骤：

S33，对待分析内容进行分字，获得字序列

，并将其输入文本向量化层，获得每个字的字向量

；这里

为待分析内容长度，

、

分别代表第

个字和其对应字向量；

S35，融合核心要素提取结果和步骤S33的向量结果送入其他要素提取层，获得新闻其他要素提取结果；