CN113987171A

CN113987171A - 基于预训练模型变种的新闻文本分类方法及系统

Info

Publication number: CN113987171A
Application number: CN202111222503.XA
Authority: CN
Inventors: 黄孝喜; 童伟; 王荣波; 谌志群; 姚金良
Original assignee: Shaoxing Dadao Career Education Information Consulting Co ltd; Hangzhou Dianzi University
Current assignee: Shaoxing Dadao Career Education Information Consulting Co ltd; Hangzhou Dianzi University
Priority date: 2021-10-20
Filing date: 2021-10-20
Publication date: 2022-01-28

Abstract

本发明公开了一种基于预训练模型变种的新闻文本分类方法及系统，属于文本分类领域。本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取，对于已经经过预训练的BERT模型，其广泛适用于下游任务的各个集合，不需要利用重复数据进行训练，同时基于self‑attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上，引入了RNN模型，用于捕捉长距离文本依赖上信息丢失的问题，对结果进行特征融合，在新闻文本分类上取得了较为理想的效果。

Description

基于预训练模型变种的新闻文本分类方法及系统

技术领域

本发明涉及大数据分析技术领域，特别是涉及一种基于预训练模型变种的新闻文本分类方法。

背景技术

随着互联网新闻领域的蓬勃发展，越来越多的人们习惯在移动设备上浏览新闻，同时随着网络信息的快速增长，人们接受的新闻内容信息是有限的，同时对于网络新闻分类一直是自然语言处理领域中的经典问题，对于新闻这类长文本分类的研究已经相对比较透彻，但是其中依然有非常多的细节和商业化实现过程中会遇到的很多额外的困难需要考虑，传统的人工标注分类的方法不仅容易更加费时费力，而且容易误判，所以如何快速准确判断新闻文本分类的类别在自然语言处理领域一直是比较有挑战性的问题，涉及到自然语言处理，数据挖掘，机器学习等多个领域的学科技术和方法。

现有的技术文献中，一般是基于传统的卷积神经网络分类和基于统计的机器学习分类方法，对于已经成熟的文本语料库误差还是存在分类准确率不够高，同时对于最新的新闻语料分类效果不是很好，导致在传统领域对比人工标注分类仍有不足。

发明内容

本发明的目的是提供一种基于预训练模型变种的新闻文本分类方法，从而解决现有技术中分类存在的前述问题。

为实现上述发明目的，本发明所采用的具体技术方案如下：

第一方面，本发明提供了一种基于预训练模型变种的新闻文本分类方法，其包括如下步骤：

S1、获取标注有类别标签的新闻文本语料，形成分类语料库；

S2、利用所述分类语料库对新闻文本分类模型进行训练，所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架，首先将新闻文本处理为相同长度的句向量，然后输入预训练模型BERT中进行转换得到词向量矩阵，再将词向量矩阵传入循环神经网络RNN中，由卷积层和池化层进行二次特征提取得到语义特征向量，语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果；

S3、将待分类的新闻文本输入训练后的新闻文本分类模型中，输出新闻文本的分类结果。

作为优选，所述S1中，利用爬虫爬取新闻网站中的新闻主题作为文本信息，利用新闻网站的分类新闻窗口对文本进行分类，得到分类语料库。

作为优选，所述新闻文本在处理为句向量时，若小于标准句向量长度则在末尾用0进行补全填充，若大于标准句向量长度则通过切割将其划分为标准句向量长度。

作为优选，所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。

作为优选，输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。

第二方面，本发明提供一种基于预训练模型变种的新闻文本分类系统，其包括：

数据获取模块：用于获取标注有类别标签的新闻文本语料，形成分类语料库；

模型训练模块：用于利用所述分类语料库对新闻文本分类模型进行训练，所述新闻文本分类模型基于预训练模型BERT和循环神经网络RNN组成模型框架，首先将新闻文本处理为相同长度的句向量，然后输入预训练模型BERT中进行转换得到词向量矩阵，再将词向量矩阵传入循环神经网络RNN中，由卷积层和池化层进行二次特征提取得到语义特征向量，语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果；

分类模块：用于将待分类的新闻文本输入训练后的新闻文本分类模型中，输出新闻文本的分类结果。

作为优选，所述数据获取模中，利用爬虫爬取新闻网站中的新闻主题作为文本信息，利用新闻网站的分类新闻窗口对文本进行分类，得到分类语料库。

相对于现有技术而言，本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取，对于已经经过预训练的BERT模型，其广泛适用于下游任务的各个集合，不需要利用重复数据进行训练，同时基于self-attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上，引入了RNN模型，用于捕捉长距离文本依赖上信息丢失的问题，对结果进行特征融合，在新闻文本分类上取得了较为理想的效果。

附图说明

图1为基于预训练模型变种的新闻文本分类方法的步骤流程示意图。

图2是本发明的BERT-RNN的模型结构示意图。

图3是TextRNN模型中的Attention机制示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。本发明中各个实施方式的技术特征在没有相互冲突的前提下，均可进行相应组合。

下面结合具体实施案例，进一步阐述本发明。应理解，这些案例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或者修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于预训练模型变种的新闻文本分类方法，其包括如下步骤：

S1、获取标注有类别标签的新闻文本语料，形成分类语料库。

作为本实施例中的实现形式，先利用爬虫爬取新闻网站，获取新闻主题作为文本信息，从而形成初始数据集S0＝{s1,s2,s3,…sN}，其中，si为所述初始数据集中的第i个新闻文本，i＝1，2,…N，N为初始数据集中的文本总数。然后根据每个新闻文本在新闻网站中所处的分类新闻窗口对文本进行分类，例如分为时事类、军事类、科技类、财经类等等，由此得到分类语料库。假设总的分类类别为n，则可将初始数据集划分为子类集D0＝{d1,d2,d3,…dn}，dj为第j类新闻文本，j＝1，2,…n。

S2、基于用于语言理解的深度双向Transformer预训练(Pre-training of DeepBidirectional Transformers for Language Understanding)中的BERT(BidirectionalEncoder Representations from Transformers)和循环神经网络RNN级联来构建新闻文本分类模型(BERT-RNN)，然后利用S1中得到的分类语料库对新闻文本分类模型进行训练。

如图2所示，新闻文本分类模型由预训练模型变种后得到，具体基于预训练模型BERT和循环神经网络RNN组成模型框架，首先将新闻文本处理为相同长度的句向量，然后输入预训练模型BERT中进行转换得到词向量矩阵，再将词向量矩阵传入循环神经网络RNN中，由卷积层和池化层进行二次特征提取得到语义特征向量，语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果。

在本实施例中，新闻文本在处理为句向量时，若小于标准句向量长度则在末尾用0进行补全填充，若大于标准句向量长度则通过切割将其划分为标准句向量长度。若有指定，标准句向量长度按照指定值，若无指定则默认选择数据集中的最大长度。另外，需要注意的是，输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。

需注意的是，由于本实施例中的新闻文本为中文文本，而原始的BERT模型是基于英文文本进行预训练的，因此用于构建新闻文本分类模型的预训练模型BERT需要采用大量无标注的中文文本进行微调，进行微调的方式为通过随机mask进行训练。具体而言本实施例中随机mask的方式为：将无标注的中文文本数据集，随机mask每一个句子中15％的词，用其上下文进行预测。为了防止某些词在fine-tuning阶段从未出现，对于mask的词，80％的情况采用完全mask策略，10％的情况是随机取一个词来代替mask的词，10％的情况下保持不变。选择一些句子对A和B，其中50％的数据B是A的下一条句子，剩余50％的数据来自于数据集中的其他随机选择的句子。

在上述新闻文本分类模型中，BERT与RNN是级联的。传统的Bert模型在进行文本分类在output层后直接加入softmax层进行分类，虽然可以得到较好的预测结果，但是其模型准确率不高。在本发明中，先利用BERT对文本每个词进行向量化表示获取文本的语义特征，构建语义映射矩阵，输出的词向量矩阵不直接进行分类而是作为embedding层输入到RNN层的卷积层和池化层中，利用卷积层和池化层对词向量特征进行再一次地提取，通过RNN输出维度相同的特征进行后续的文本分类，这种做法可以进一步提升模型的准确率。

BERT模型对词向量进行编码时引入了Attention机制。传统的Seq2Seq模型，无法捕捉长距离依赖上文本可能会丢失的问题，但BERT模型的Attention机制为了解决这个问题，对于编码器(encoder)模型输出的隐藏状态(hidden state)不再作为下一个解码器(decoder)的输入，而是将所有编码器输出的隐藏状态作为输入提供给解码器。解码器选取与当前节点最合适的隐藏状态作为输入，计算隐藏状态的值，对于每一个值进行softmax计算，相关性更高的隐藏状态作为解码器的输入。自注意力机制self-attention的计算公式如下：

在self-attention中，Query、Key和Value。目标字及其上下文的字都有各自的原始Value，Attention机制将目标字作为Query、其上下文的各个字作为Key，并将Query与各个Key的相似性作为权重，把上下文各个字的Value融入目标字的原始Value中。Attention机制将目标字和上下文各个字的语义向量表示作为输入，首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示，然后计算Query向量与各个Key向量的相似度作为权重，加权融合目标字的Value向量和各个上下文字的Value向量，作为Attention的输出。

因此，通过BERT层和位置公式可以对输入的分类文本中的词语进行权重分配，将得到的词向量构造成词向量矩阵。将在BERT中输出的词向量矩阵输入到RNN层里面的卷积层和池化层，即可利用卷积层和池化层对文本进行二次特征提取，输出维度相同的特征值，计算主题词在不同分类文本中出现频数计算转为特征向量。本实施例中循环神经网络RNN可采用TextRNN模型，其中卷积层中卷积核采用的窗口大小为2或3或4，池化层采用最大池化，卷积核数量为256，池化层输出的新闻文本的特征向量作为全连接层的输入，全连接层输出再经过softmax层，即可得到最终的分类结果。

新闻文本分类模型的具体训练方式为现有技术，可基于最小化损失函数的原则通过优化器进行参数优化。当完成上述新闻文本分类模型的训练后，即可进行实际的新闻文本分类任务。

S3、将待分类的新闻文本输入训练后的新闻文本分类模型中，待分类的新闻文本去除标点符号后，先被处理为相同长度的句向量，然后输入预训练模型BERT中进行转换得到词向量矩阵，再将词向量矩阵传入循环神经网络RNN中，由卷积层和池化层进行二次特征提取得到语义特征向量，语义特征向量最终通过全连接层和Softmax层后输出新闻文本的分类结果。

为了进一步展示本发明的技术效果，下面将上述实施例中的新闻文本分类方法应用于一个具体数据集上。其中BERT-RNN模型中，BERT模型通过维基百科中的中文文本数据集进行微调，TextRNN模型中具有Attention机制，且模型参数随机初始化，同时应加入dropout层，防止数据过拟合的产生。如图3所示，TextRNN模型中的Attention机制能够基于注意力权重对输入进行加权。

新闻数据集来源于THUCNews数据集，预处理过的THUCNews数据集用来训练BERT-RNN模型，在训练之前应将数据集划分为训练集、测试集和验证集，将取得训练效果较好的参数保存。

另外，为了更直观的进行对比，本发明中还同时用单独的TextCNN、TextRNN、和BERT在相同数据集上进行了测试。最终，四种模型在验证集上的分类准确率结果如表1所示：

表1四种模型在验证集上的分类准确率

从结果可以看出，本发明的新闻文本分类模型BERT-RNN的准确率明显高于另外三种模型。由此可见，本发明采用BERT和RNN复合模型对数据集中的特征进行有效提取，对于已经经过预训练的BERT模型，其广泛适用于下游任务的各个集合，不需要利用重复数据进行训练，同时基于self-attention机制可以有效的可以不仅可以得到源端与目标端词与词之间的依赖关系，同时还可以有效获取源端或目标端自身词与词之间的依赖关系。在此基础上，引入了RNN模型，用于捕捉长距离文本依赖上信息丢失的问题，对结果进行特征融合，在新闻文本分类上取得了较为理想的效果。

在本发明的另一实施例中，还提供了一种与前述分类方法完全对应的一种基于预训练模型变种的新闻文本分类系统，其包括：

由于上述新闻文本分类系统中各模块分别对应了前述实施例的S1～S3，因此其中具体的实现方式亦可参见前述实施例，对此不再赘述。

需要说明的是，根据本发明公开的实施例，上述学习者画像系统中的各种模块的具体实现功能可以通过编写的计算机软件程序来实现，计算机程序中包含用于执行相应方法的程序代码。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于预训练模型变种的新闻文本分类方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于预训练模型变种的新闻文本分类方法，其特征在于，所述S1中，利用爬虫爬取新闻网站中的新闻主题作为文本信息，利用新闻网站的分类新闻窗口对文本进行分类，得到分类语料库。

3.如权利要求1所述的基于预训练模型变种的新闻文本分类方法，其特征在于，所述新闻文本在处理为句向量时，若小于标准句向量长度则在末尾用0进行补全填充，若大于标准句向量长度则通过切割将其划分为标准句向量长度。

4.如权利要求1所述的基于预训练模型变种的新闻文本分类方法，其特征在于，所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。

5.如权利要求1所述的基于预训练模型变种的新闻文本分类方法，其特征在于，输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。

6.一种基于预训练模型变种的新闻文本分类系统，其特征在于，包括：

7.如权利要求6所述的基于预训练模型变种的新闻文本分类系统，其特征在于，所述数据获取模块中，利用爬虫爬取新闻网站中的新闻主题作为文本信息，利用新闻网站的分类新闻窗口对文本进行分类，得到分类语料库。

8.如权利要求6所述的基于预训练模型变种的新闻文本分类系统，其特征在于，所述新闻文本在处理为句向量时，若小于标准句向量长度则在末尾用0进行补全填充，若大于标准句向量长度则通过切割将其划分为标准句向量长度。

9.如权利要求6所述的基于预训练模型变种的新闻文本分类系统，其特征在于，所述预训练模型BERT通过将BERT模型在无标注的中文文本数据集上进行微调后得到。

10.如权利要求6所述的基于预训练模型变种的新闻文本分类系统，其特征在于，输入新闻文本分类模型的文本需预先对句子中的标点符号进行剔除。