CN111666373A

CN111666373A - 一种基于Transformer的中文新闻分类方法

Info

Publication number: CN111666373A
Application number: CN202010375567.2A
Authority: CN
Inventors: 范梦真; 杨芳洲; 刘金; 罗轶凤; 钱卫宁; 周傲英
Original assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Current assignee: Shanghai Guandian Technology Co ltd; East China Normal University
Priority date: 2020-05-07
Filing date: 2020-05-07
Publication date: 2020-09-15

Abstract

本发明公开了一种基于Transformer的中文新闻分类方法，其特点是采用可并行的Transformer‑Encoder来对文本序列进行编码，采用“词‑句‑文章”多层的网络来提取新闻的文本信息，利用attention机制来降维得到文章级别的向量，并且结合NER命名实体识别技术引入实体信息来丰富特征，最后融合两部分特征输入分类器，训练得到分类模型，提高分类模型训练的效率和预测的精度。本发明在某领域的文本分类任务上，相比于现有的分类模型，可并行化的序列编码方式降低了模型训练的时间开销，attention机制和加入实体信息提高了模型对重要信息的识别能力，同时，识别了新闻中的实体信息，减少了机器阅读文字的歧义。

Description

一种基于Transformer的中文新闻分类方法

技术领域

本发明涉及自然语言处理领域，尤其涉及基于Transformer的多层文本编码并结合某领域实体信息的中文新闻分类方法。

背景技术

互联网时代文本信息大量产生，例如每天的行业新闻中蕴含大量有效信息，获取并为这些高效准确地为文本打上标签，是自然语言处理复杂任务的基础。类别化后的新闻也有利于研究员针对性地分析和预测行业行情变化。文本分类是自然语言处理中的一项基础任务，是指根据预先定义好的类别体系将文本打上相应一个或多个标签的过程，由于标签数的不同文本分类又分为单分类和多分类两种。

传统的机器学习文本分类方法，通常包括两个部分：特征表示和分类模型。传统文本特征表示方式主要有Bow(词袋)、Tf-idf(词频-逆文档频率)等，在将文档向量化后，使用诸如逻辑回归、SVM、朴素贝叶斯、决策树等方法分类。传统的语言表示模型特征稀疏且无法表征相似度。随着深度学习技术的发展，文本表示模型可以使用word2vec、glove 等分布式表示的语言模型，并使用神经网络进行信息提取和分类。近年来，注意力机制的提出和广泛使用，提升了文本分类的效果。但是现有文本分类方法针对新闻分类仍然有以下不足。

1)RNN类序列模型资源消耗大

现有的文本分类模型大部分基于类别较少，粒度较粗的场景，一般是几类到几十类，使用循环神经网络(RNN)和长短期记忆神经网络(LSTM)进行特征提取。在序列增长时，RNN类模型难以很好地保存序列信息，导致重要词汇的权重在分类中降低。同时由于并行化困难，资源消耗较大，难以做到大规模高效的训练和预测。

2)没有结合具体领域的知识进行分类

以金融领域的文本分类为例，在与金融相关的新闻中所出现的人名、公司名、机构名等实体信息含有与类别相关的信息，但这些名称中可能含有与其他类别相近的信息，如“某证券公司遭处罚”，为“行业监管类”新闻而不是“证券类”新闻，由于没有识别出“某证券公司”这个实体导致分类错误；或者“近年来某地果农收益是往年十余倍，得益于在某互联网平台的曝光”这类新闻属于农业而与互联网行业的相关性不大。所以，识别出新闻的实体能够避免上述歧义，提高新闻分类方法的准确率。

综上所述，适用于大规模文本的高效计算且对于领域内实体信息敏感的文本分类技术尚未出现。

发明内容

本发明的目的是针对现有技术的不足而提供的一种基于在文本领域受到关注的Transformer序列编码方式，结合attention机制，使用“词-句-文档”的层级神经网络编码新闻，结合命名实体识别的结果，将实体信息编码进文档的表达中，提升新闻表征的信息量，得到一个有丰富语义同时融合了实体知识的表征用于新闻分类的方法。

实现本发明目的的具体技术方案是：

步骤1：新闻收集与处理

收集新闻，对收集到的新闻进行文本预处理，并划分出训练集、验证集和测试集；其中，文本预处理包括分词及去除停用词；

步骤2：词向量模型训练

使用步骤1中处理后的全部新闻训练word2vec词向量模型，保存训练好的word2vec 词向量模型；

步骤3：基于Transformer序列编码构建层级神经网络

基于Transformer序列编码构建层级神经网络，用于提取文本特征；

步骤4：文本特征提取

使用步骤2的词向量模型将步骤1中预处理后的新闻转化为向量表示，将向量输入步骤3构建的层级神经网络，输出的向量为新闻的文本特征；

步骤5：实体特征识别与提取

使用命名实体识别模型识别步骤1处理后的新闻，得到其中的所有的实体及其实体类型，并用步骤2中的词向量模型把实体和实体类型编码为向量，将向量平均值作为新闻的实体特征；

步骤6：特征融合

合并步骤4中的文本特征和步骤5中的实体特征作为一篇新闻的向量表示；

步骤7：训练与保存模型

将步骤6得到的向量输入一层的全连接神经网络作为分类器，输出为新闻属于各个类别的概率，在训练集上使用交叉熵损失函数衡量预测概率与新闻真实类别的差距，通过Adam优化器反向传播更新层级神经网络和分类器中的参数,每次更新参数后计算验证集上损失函数的值，重复上述过程直到验证集上损失函数不再下降，保存此时层级神经网络、命名实体识别模型和分类器的组成的整体模型；

步骤8：新闻预测

将新闻输入训练好整体模型中，得到新闻属于各个类别的概率，取概率最大的类别为预测类别。

针对步骤1，所述收集新闻为收集来自各大新闻门户网站和公众号；所述分词方法使用中文分词方法THULAC；所述停用词由公开的中文停用词表以及新闻中词频-逆文档频率 Tf-idf值低的词人工筛选后合并构成；所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

针对步骤2，所述训练word2vec词向量模型使用skip-gram方法训练。

针对步骤3，具体构建过程如下：

层级神经网络使用Transformer序列编码器的Encoder，Encoder包括Multi-HeadAttention模块和Feed-Forward Networks模块；

Multi-Head Attention模块：设输入为X＝(x₁,x₂,…,x_n)，输出用MultiHead(X)表示，公式如下：

head_i＝Attention(XW_i ^X,XW_i ^X,XW_i ^X)(i＝0,1,…,n)

MultiHead(X)＝Concat(head₁,head₂,…,head_h)W^o

为权重矩阵，d_model,d_X，分别为输入向量维度和子空间维度；Attention，表示self-Attention机制，head_i表示第i个子空间，Concat表示合并操作；

所述self-Attention机制，公式如下：

其中，d_k为输入维度，

为尺度因子，Q,K,V分别Attention机制的query、key和value，在Multi-Head Attention模块中，Q,K,V的值与XW_i ^X相同；

Feed-Forward Networks模块：该模块的输入为Multi-Head Attention部分的输出加上输入原始输入X，设为x，输出为FFN(x)，公式如下：

x＝MultiHead(X)+X

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述W_i,b_i(i＝1,2)分别表示第i层神经网络权重项和偏移项；

基于上述Encoder构建层级神经网络，层级指词级别和句级别，构建步骤为：

词级别：设第i句的词组成的序列长度为n，用X_i＝[x_i1,x_i2,…,x_in]表示，将X_i作为上述的 Encoder的输入，得到X_i′＝[x_i1′,x_i2′,…,x_in′]；

使用soft Attention对X′进行降维，得到句向量s_i，公式如下：

u_ij＝tanh(W_wx_ij′+b_w)

其中，W_w，b_w为权重矩阵和偏移项，tanh为激活函数，u_ij为输x_ij′经过一层神经网络的输出，u_w为权重向量,α_ij为x_ij′的权重，x_ij′为X_i′中第j个向量,u_ij ^T为u_ij转置；

句级别：设新闻共有m个句子，每一句经词级别的处理后得到句向量，所有句向量构成序列为S＝[s₁,s₂,…,s_m]，将S作为上述Encoder的输入，得到S′＝[s₁′,s₁′,…,s_n′]；

使用soft Attention机制对S′进行降维，输出文章级别的向量d，计算如下：

h_i＝tanh(W_ss_i′+b_s)

其中，W_s，b_s为权重矩阵和偏移项，tanh为激活函数，h_i为输s_i′经过一层神经网络的输出， u_s为权重向量,β_i为s′_i的权重，s′_i为S′中第i个向量,h_i ^T为h_i转置；

上述词级别和句级别的处理构成了层级神经网络。

针对步骤4，所述新闻转化为向量表示是一个三维张量，分别对应层级神经网络的句级别、词级别和每个词的词向量；上述输入具体为将每一句的词序列都输入层级神经网络词级别的到句向量，再将所有句向量Concat合并输入层级神经网络句级别，得到新闻的文本特征d。

针对步骤5，所述的命名实体识别模型为Bi-LSTM+CRF；所述实体类型包括新闻中的上市公司、非上市公司、人名、地点、时间、金钱和产品。

针对步骤6，所述合并方式为concat,合并后新闻的向量表示的维度为文本特征和实体特征维度之和。

针对步骤7，所述分类器输出前要使用softmax激活函数，分类器输出为c维向量，其中 c为新闻总类别数,分类器中计算如下：

p＝softmax(W_cd′+b_c)

其中，u_s为随机初始化的权重向量,W_s为全连接层权重，b_s为偏移项；p∈R^c为输出的向量，表示新闻属于各个类别的概率,d′为合并后新闻的向量；

所述交叉熵损失函数计算如下：

其中y_i(i＝1,2,…,c)等于1时表示新闻属于第i类,

为分类器预测新闻属于第i类的概率。

本发明在精细粒度的文本分类任务上，相比于现有的分类模型，可并行化的序列编码降低了模型训练的时间开销，同时attention机制和加入实体信息提高了模型对重要信息的识别能力。

附图说明

图1为本发明基于Transformer序列编码构建层级神经网络的结构示意图；

图2为本发明流程图。

具体实施方式

本发明使用THULAC分词对所有目标新闻语料进行分词，并使用全量分词后的语料训练word2vec词向量模型，用训练好的词向量模型得到新闻语料的词向量序列，然后基于Transformer序列编码器和Attention机制构建“词-句子-文章”的层级文本语义提取网络，同时将新闻输入命名实体识别模型，得到新闻中的词对应的实体类型，取出每篇文章中出现最多的实体及其类型，最后将两部分表征合并作为文档表征，输入分类器进行分类，得到最终的结果。

通过以下具体实施例对本发明作进一步的详细说明。

实施例1

参阅图2，按下述步骤进行基于Transformer的中文文本分类模型训练：

S1：收集目标网站和公众号的新闻，对收集到的新闻进行文本预处理，并划分出训练集、验证集和测试集；其中，文本预处理包括分词及去除停用词，例如：

原始文本：

平安基金张某：坚持新股常态化发行，有利于发行生态法治化、市场化12月1日消息，据悉，证监会将按照发展股权融资、优化上市公司质量、服务实体经济的整体需求，坚持新股常态化发行；重视市场投融资两端的平衡，明确市场预期，严把资本市场入口关，推动发行、注册和市场承受力的有机统一衔接，切实防控各类风险。

预处理后文本序列：

['平安','基金','张某','：','坚持','新股','常态化','发行','，','有利于','发行','生态','法治化','、','市场化','12月1日','消息','据悉',' 证监会','将','按照','发展','股权','融资','、','优化','上市公司','质量','、','服务','实体','经济','的','整体','需求','坚持','新股','常态化','发行','重视','市场','投融资','两端','平衡','明确','市场','预期','严把','资本','市场','入口关',”推动','发行','、','注册','市场','承受力','有机','统一','衔接','切实','防控','各类','风险','。']；

S2：使用S1中处理后的新闻训练word2vec词向量模型,这里指使用收集到的全部新闻，保存训练好的word2vec词向量模型；word2vec词向量模型使用skip-gram方法训练。

S3：构建基于Transformer序列编码的层级神经网络。层级神经网络如图1所示；

Multi-Head Attention模块：该模块将输入映射进多个子空间中，在子空间中使self-Attention机制(下式中用Attention代替)，并合并每个子空间的结果得到输出，设输入为X＝(x₁,x₂,…,x_n)，公式如下：

head_i＝Attention(XW_i ^X,XW_i ^X,XW_i ^X)(i＝0,1,…,n)

MultiHead(X)＝Concat(head₁,head₂,…,head_h)W^o

为权重矩阵，d_model,d_X，分别为输入向量维度和子空间维度；head_i表示第i个子空间，Concat表示合并操作的方式；

所述self-Attention机制，公式如下：

其中，d_k为输入维度，

为尺度因子，Q,K,V分别Attention机制的query、key和value，在Multi-Head Attention部分中，Q,K,V的值与XW_i ^X相同；

x＝MultiHead(X)+X

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

上述W_i,b_i(i＝1,2)分别表示第i层神经网络权重项和偏移项；

基于上述Encoder构建层级神经网络模型，层级指词级别和句级别，构建步骤为：

词级别：设第i句的词组成的序列长度为n，用X_i＝[x_i1,x_i2,…,x_in]表示，将X_i作为X输入上述Transformer序列编码器的Encoder，得到X_i′＝[x_i1′,x_i2′,…,x_in′]；

使用soft Attention对X′进行降维，得到句向量s_i，公式如下：

u_ij＝tanh(W_wx_ij′+b_w)

句级别：设新闻共有m个句子，每一句经词级别的处理后得到句向量，所有句向量构成序列为S＝[s₁,s₂,…,s_m]，使用Transformer序列编码器的Encoder对该序列进行编码得到S′＝[s₁′,s₁′,…,s_n′]；

h_i＝tanh(W_ss_i′+b_s)

S4:使用S2的词向量模型将步骤1中预处理后的新闻转化为向量表示，得到一个三维张量，分别对应句级别、词级别和词向量，将每一句的词序列都输入层级神经网络词级别的到句向量，再将句向量输入层级神经网络句级别，输出为新闻的文本特征向量d；

S4：提取实体特征。将例子中的词序列输入命名实体识别模型中，得到其中的所有的实体及其实体类型，并用步骤2中的词向量模型把实体和实体类型编码为向量，将这些向量平均值作为新闻的实体特征r；

S5：融合两部分特征。使用concat方式合并步骤4中的文本特征和步骤5中的实体特征作为一篇新闻的向量表示d′＝Concat(d,r)；

S6：模型训练与保存。将得到新闻的向量输入一层的全连接神经网络作为分类器，使用交叉熵损失函数衡量预测概率与新闻真实类别的差距，并通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值。分类器中计算如下：

p＝softmax(W_cd′+b_c)

其中，u_s为随机初始化的权重向量,W_s为全连接层权重，b_s为偏移项，参与模型的训练； p∈R^c为输出的向量，表示新闻属于类别c的概率,d′为新闻的向量表示；

那么，交叉熵损失函数计算如下：

其中y_i等于1时表示新闻属于第i类,

为分类器预测新闻属于第i类的概率；通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值，需要更新的参数包括层级神经网络和分类器中的参数，重复上述过程直到验证集上损失函数不再下降，保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型；

S7：将例子中的新闻输入上述保存的整体模型中，得到预测数的概率，本实施例中的类别c为20，输出p＝[0.08050156,0.02728766,0.03207764,0.06168538,0.05952194,0.03316066,0.07006078,0.05632877,0.04960008,0.05180365,0.03285286,0.02650431,0.01506351,0.07907253,0.00450123,0.03119562,0.05675745, 0.104023,0.03745773,0.09054364],其中概率最大的为第18类，

在本实施例代表“行业监管”类别，所以，预测类别为“行业监管”。

综上所述，本发明采用可并行的Transformer-Encoder来对文本序列进行编码，利用attention机制来降维得到文本向量，并且结合命名实体识别技术(NER)引入实体信息来丰富文本特征，最后融合两部分特征进行模型训练得到分类模型，提高分类模型训练的效率和预测的精度。本发明在精细粒度的文本分类任务上，相比于现有的分类模型，可并行化的序列编码降低了模型训练的时间开销，同时attention机制和加入实体信息提高了模型对重要信息的识别能力。

以上仅是本发明的一个实施示例。本发明的保护范围并不局限于上述实例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进，应视为本发明的保护范围。

Claims

1.一种基于Transformer的中文新闻分类方法，其特征在于，该方法包括以下具体步骤：

步骤1：新闻收集与处理

步骤2：词向量模型训练

使用步骤1中处理后的全部新闻训练word2vec词向量模型，保存训练好的word2vec词向量模型；

步骤3：基于Transformer序列编码构建层级神经网络

步骤4：文本特征提取

步骤5：实体特征识别与提取

步骤6：特征融合

步骤7：训练与保存模型

将步骤6得到的向量输入一层的全连接神经网络作为分类器，输出为新闻属于各个类别的概率，在训练集上使用交叉熵损失函数衡量预测概率与新闻真实类别的差距，通过Adam优化器反向传播更新层级神经网络和分类器中的参数，每次更新参数后计算验证集上损失函数的值，重复上述过程直到验证集上损失函数不再下降，保存此时层级神经网络、命名实体识别模型和分类器组成的整体模型；

步骤8：新闻预测

将新闻输入训练好的整体模型中，得到新闻属于各个类别的概率，取概率最大的类别为预测类别。

2.根据权利要求1所述的新闻分类方法，其特征在于，步骤1所述收集新闻为收集来自各大新闻门户网站和公众号；所述分词方法使用中文分词方法THULAC；所述停用词由公开的中文停用词表以及新闻中词频-逆文档频率Tf-idf值低的词人工筛选后合并构成；所述划分默认百分之七十为训练集、百分之十为验证集和百分之二十为测试集。

3.根据权利要求1所述的新闻分类方法，其特征在于，步骤2所述训练word2vec词向量模型使用skip-gram方法训练。

4.根据权利要求1所述的新闻分类方法，其特征在于，步骤3具体构建过程如下：

Multi-Head Attention模块：设输入为X＝(x₁，x₂，…，x_n)，输出用MultiHead(X)表示，公式如下：

head_i＝Attention(XW_i ^X，XW_i ^X，XW_i ^X)(i＝0，1，…，n)

MultiHead(X)＝Concat(head₁，head₂，…，head_h)W^o

为权重矩阵，d_model，d_X，分别为输入向量维度和子空间维度；Attention，表示self-Attention机制，head_i表示第i个子空间，Concat表示合并操作；所述self-Attention机制，公式如下：

其中，d_k为输入维度，

为尺度因子，Q，K，V分别Attention机制的query、key和value，在Multi-Head Attention模块中，Q，K，V的值与XW_i ^X相同；

x＝MultiHead(X)+X

FFN(x)＝max(0，xW₁+b₁)W₂+b₂

上述W_i，b_i(i＝1，2)分别表示第i层神经网络权重项和偏移项；

词级别：设第i句的词组成的序列长度为n，用X_i＝[x_i1，x_i2，…，x_in]表示，将X_i作为上述的Encoder的输入，得到X_i′＝[x_i1′，x_i2′，…，x_in′]；

使用soft Attention对X′进行降维，得到句向量s_i，公式如下：

u_ij＝tanh(W_wx_ij′+b_w)

其中，W_w，b_w为权重矩阵和偏移项，tanh为激活函数，u_ij为输x_ij′经过一层神经网络的输出，uw为权重向量，α_ij为x_ij′的权重，x_ij′为X_i′中第j个向量，u_ij ^T为u_ij转置；

句级别：设新闻共有m个句子，每一句经词级别的处理后得到句向量，所有句向量构成序列为S＝[s₁，s₂，…，s_m]，将S作为上述Encoder的输入，得到S′＝[s₁′，s₁′，…，s_n′]；

h_i＝tanh(W_ss_i′+b_s)

其中，W_s，b_s为权重矩阵和偏移项，tanh为激活函数，h_i为输s_i′经过一层神经网络的输出，u_s为权重向量，β_i为s′_i的权重，s′_i为S′中第i个向量，h_i ^T为h_i转置；

上述词级别和句级别的处理构成了层级神经网络。

5.根据权利要求1所述的新闻分类方法，其特征在于，步骤4中所述新闻转化为向量表示是一个三维张量，分别对应层级神经网络的句级别、词级别和每个词的词向量；所述将向量输入具体为将每一句的词序列都输入层级神经网络的词级别得到句向量，再将所有句向量Concat合并输入层级神经网络句级别，得到新闻的文本特征d。

6.根据权利要求1所述的新闻分类方法，其特征在于，步骤5中所述的命名实体识别模型为Bi-LSTM+CRF：所述实体类型包括新闻中的上市公司、非上市公司、人名、地点、时间、金钱和产品。

7.根据权利要求1所述的新闻分类方法，其特征在于，步骤6所述合并，其方式为concat，合并后新闻的向量表示的维度为文本特征和实体特征维度之和。

8.根据权利要求1所述的新闻分类方法，其特征在于，步骤7所述分类器输出前要使用softmax激活函数，分类器输出为c维向量，其中c为新闻总类别数，分类器中计算如下：

p＝softmax(W_cd′+b_c)

其中，W_c为全连接层权重，b_c为偏移项；p∈R^c为输出的向量，表示新闻属于各个类别的概率，d′为合并后新闻的向量；

所述交叉熵损失函数计算如下：

其中y_i(i＝1，2，…，c)等于1时表示新闻属于第i类，

为分类器预测新闻属于第i类的概率。