CN112434159A

CN112434159A - 一种利用深度神经网络进行论文多标签分类的方法

Info

Publication number: CN112434159A
Application number: CN202011286949.4A
Authority: CN
Inventors: 吴含前; 滕倚昊; 姚莉; 李露
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-03-02

Abstract

本发明公开了一种利用深度神经网络进行论文多标签分类的方法，该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成（预测）阶段；该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成（预测）阶段；其中在所述输入序列特征学习阶段，本发明根据论文文本序列，利用双向长短时记忆网络生成特征向量序列；在所述标签序列生成阶段，将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络，来预测该论文可能所属的下一个标签。模型通过优化后的梯度下降算法进行迭代训练，最终使用训练好的模型，结合Beam Search算法对论文所属类别进行多标签分类。

Description

一种利用深度神经网络进行论文多标签分类的方法

技术领域

本发明涉及文本分类方法，具体涉及一种利用深度神经网络进行论文多标签分类的方法。

背景技术

随着科技的发展和大量学术活动的展开，各类学术数据呈爆发式增长。学术论文作为一种重要的学术数据之一，是各类学术成果的记录和主要载体。以知网为代表的数字图书馆每年收录大量论文，为了方便管理和查阅，论文的分类是必须工作之一，同时论文分类也是实现推荐、检索等其他服务的基础。目前知网或arXiv等平台的论文分类工作主要还是基于人工和同行审阅。虽然这在一定程度上能够确保论文类别标签的真实性和准确性，但同时也存在低效，容易受到人工主观影响等不足。因此实现自动化的论文分类工作具有一定的应用价值。

论文主要为文本形式，一篇论文可以有多个类别，论文分类实际上属于文本多标签分类的研究范畴。基于SVM等传统的文本分类方法依赖特征工程，需要耗费专业人力，成本较高，不适合大规模的论文分类场景。随着人工智能的快速发展，以各类深度神经网络为基础的深度学习技术为论文分类提供了新的方法。目前已有许多针对文本分类的深度神经网络模型。Yoon Kim等在“Convolutional Neural Networks For SentenceClassification(arXiv preprint arXiv：1408.5882，2014)”中提出了基于卷积神经网络的TextCNN模型，在短文本分类上取得了良好性能，且模型并行度好，训练速度较快。但该算法存在需要进行卷积超参数调参，不适合处理长文本等不足。Lai等在“RecurrentConvolutional Neural Networks for Text Classification(In AAAI Vol.333，pp.2267-2273)”中提出了基于卷积和递归神经网络的TextRCNN模型，综合了CNN和RNN的模型各自的优点。但上述这些模型一般都适用于单标签分类，将已知的单标签高性能分类器应用于多标签分类，需要对神经网络输出进行改造。一般做法为在神经网络最后几层采用多个Sigmoid层，或者采用Softmax并设置阈值。这些方法简单易行，但忽略了标签之间的相关性信息，在具有标签相关性的多标签分类场景中容易受到性能上的损失。

发明内容

为解决上述问题，本发明公开了一种利用深度神经网络来提高论文多标签分类的方法，通过将论文多标签分类转化为标签序列生成问题，并利用基于深度递归神经网络构建一个类似seq2seq的标签序列生成模型，使得模型不仅能学习到输入序列之间的相关性特征，并能学习到输出标签序列之间的相关性，提高论文多标签分类性能。本发明的技术方案是：

一种利用深度神经网络来提高论文多标签分类的方法，该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成(预测)阶段；

其中在所述输入序列特征学习阶段，本发明根据论文文本序列，利用双向长短时记忆网络生成特征向量序列；在所述标签序列生成阶段，将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络，来预测该论文可能所属的下一个标签。

一种利用深度神经网络进行论文多标签分类的方法，包括训练阶段和预测阶段。在训练阶段，以论文标题和摘要组成的文本序列作为输入，以论文所属若干类别标签作为输出，采用小批量随机梯度下降和Adam优化算法训练网络模型；在预测阶段，将未标注的论文标题和摘要文本序列输入模型，通过在工程上实现Beam Search算法预测最可能的标签序列，从而预测该论文可能所属的多个类别。

所述神经网络模型包括3层架构；分别为输入单词序列的嵌入层，由双向长短时记忆网络构成的编码层和由单向长短时记忆网络构成的解码层。

所述嵌入层用于对原始输入序列进行降维和初步语义的表达。所述编码层用于对输入序列进行特征提取，生成包含全文特征的上下文向量，作为解码器的输入用于解码。所述解码层用于生成类别标签序列；其中3层架构中，第一嵌入层输出维度为300、第二层隐层网络维度为400，第三层隐层网络维度为100。

在训练阶段，所述神经网络模型的输入序列为论文标题和摘要序列，将两者进行链接操作(concat)之后，以450为序列长度进行补齐或截断。即使用450个单词组成的序列作为一个样本输入；采用预训练的Word2vec模型作为嵌入层，其输出维度为300。训练采用小批量方法，并设置小批量参数batch_size为M，则输入第二层网络的训练数据维度为M×450×300，其中M值的大小可以根据实验情况调节。模型的训练损失函数选择交叉熵损失函数(CE)。而采用的优化函数，即训练模型参数的方法，是基于梯度下降算法的改进。采用Adam算法，该算法结合了RMSProp和momentum动量方法，如下式所示：

其中β₁，β₂∈[0，1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-8，

表示t-1次迭代中的参数梯度矩阵。在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。

本发明利用基于深度神经网路的序列生成模型来预测论文所属的多个标签，模型整体架构的核心部分由基于递归神经网络(长短时记忆网络)的编码器和解码器构成。对于单个样本来说，假设解码层在时刻t-1的上下文向量为c_t-1，上一时刻输出的标签嵌入向量为y_t-1，上一时刻的隐层状态为s_t-1，则时刻t的隐层状态可以通过长短时记忆网络递归公式计算出来。计算方式如下：

s_t＝LSTM(s_t-1，W_gy_t-1+W_cc_t-1)

公式中解码器隐层状态向量s的维度在本发明中设置为100。上下文向量c的维度为编码器隐层维度，本发明中设置为400。解码器某一时刻的输入包括两部分，第一部分是上一时刻的隐层状态s_t-1，第二部分是上一时刻输出的标签嵌入向量y_t-1和上一时刻的上下文向量c_t-1，经过参数矩阵W_g和W_c的线性变换之后再相加形成的输入向量。

计算得到当前的隐层状态向量之后可以计算该当前时刻的输出，计算方式如下：

o_t＝tanh(W_ds_t+V_dc_t)

其中s_t是解码器当前时刻的隐层状态向量，c_t是解码器当前时刻的上下文向量。两者进行线性变换后，输入激活函数得到输出向量o_t。其中W_d和V_d是线性变换的参数矩阵，激活函数采用tanh激活函数。对于上下文向量而言，某一时刻的上下文向量c_t可以根据Attention机制，对编码器输出的特征向量进行加权求和得出，计算方式如下：

其中c_t是上下文向量，s_t是解码器第t时刻的状态，h_i是编码器第i时刻的状态。

W_a，U_a是待学习的参数。α_t，i是归一化后的加权系数，代表编码器第i时刻的状态h_i对解码器第t时刻的c_t的重要程度。

所述标签序列生成的计算过程如下：

所述解码器单向长短时记忆网络采用单向长短时记忆网络，其当前时刻的隐层状态s_t和前一时刻状态s_t-1，前一时刻的标签嵌入向量y_t-1，以及前一时刻的输入上下文向量c_t-1有关。

s_t＝LSTM(s_t-1，W_gy_t-1+W_cc_t-1)

当前编码器输出o_t和当前隐层网络状态s_t，以及当前输入上下文向量c_t有关。其计算方式为tanh(W_ds_t+V_dc_t)。其中W_d和V_d是参数矩阵，s_t和c_t通过该参数矩阵进行线性变换之后，再使用tanh非线性激活函数计算得到当前输出向量o_t。

o_t＝tanh(W_ds_t+V_dc_t)

最后对维度为400的输出向量o_t采用线性变换，映射到新的输出空间，该空间的维度等于标签数量加1，并采用Softmax函数将向量转化为概率分布，计算方式如下：

y_t＝Softmax(Linear(o_t))

取概率分布中最大概率对应的标签作为该时刻的预测标签。并采用Beam Search算法保留当前前5个最大概率的标签序列。当算法输出的概率y_t中，最大概率的标签是结束标签“<EOS>”时候，该样本所有标签预测结束。

有益效果：

1)本发明的神经网络模型采用3层架构，嵌入层采用预训练的词向量，能减少输入维度，并能初步表示单词静态语义。编码器采用长短时记忆网络，能很好地学习输入序列较长期的相关性特征，有效编码论文信息。解码器采用特殊结构的输入设计，引入Attention机制让解码器注意到上下文中的重要部分。同时将输出标签嵌入向量接入下一时刻输入，能让解码器学习到标签序列之间的额外相关性信息，提高多标签分类的性能。

2)本发明在训练视频超分辨率模型时采用小批量梯度下降结合Adam优化算法，既减少了局部最优的风险和震荡现象，又加快了模型收敛的速度。

附图说明

图1、是本发明方法流程图；

图2是本发明构建的论文多标签分类模型架构图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明，应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。需要说明的是，下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向，词语“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。

本发明针对论文标题和摘要文本序列构建了基于深度神经网络的标签序列生成模型，在模型构建过程中基于相关研究文献设置了超参数，包括编码器、解码器的隐层维度参数等；然后利用预训练的Word2vec神经网络模型对原始one-hot编码的输入文本序列进行单词分布式表示，有效地进行降维和静态语义表示。并通过编码器提取输入单词序列的特征，通过Attention机制编码成不同的解码器上下文向量，并和上一时刻的标签嵌入向量一起作为解码器的输入。最后输出该论文所属的标签序列，取序列中包含的所有标签集合作为该论文的所属标签。

参照图1，本发明提出的论文多标签分类方法，包括训练阶段和预测阶段，在训练阶段，以小批量的论文标题和摘要文本序列作为输入，以小批量的论文所属标签序列作为输出，训练得到论文多标签分类网络模型。在训练阶段的序列生成过程中，可以使用上一时刻真实标签对应的嵌入向量作为预测下一时刻标签的输入；在预测阶段，将待分类的论文标题和摘要输入训练好的神经网络模型。由于预测阶段输入样本应视为无标注数据，只能使用某一时刻模型预测的标签嵌入向量作为预测下一时刻标签的输入。为了缓解预测阶段的曝光误差问题，使用Beam Search算法搜索最优标签序列，得到该论文所属的多个类别。

本发明的论文多标签分类深度神经网络模型包括嵌入层，编码层，解码层共三层架构。嵌入层用于对原始输入序列进行降维和初步语义的表达。编码层用于对输入序列进行特征提取，生成包含全文特征的上下文向量。解码层用于生成类别标签序列，预测该论文所属多个标签。由这三层神经网络组成的可训练多层网络结构可构成用于论文标签分类的模型，其具体过程如下：

嵌入层用于将原始one-hot输入转化为分布式词向量，进行降维和初步语义的表达，该过程通过式1来表达：

x_v＝W^K×V·w_v (1)

其中W代表预训练好的词向量矩阵参数，W的大小是K×V，其中K是输出的分布式词向量的维度大小，V是词典大小，W的第v列是词典中索引为v的单词的词向量。w_v是第v个单词的one-hot向量。即w_v中除了第v个索引元素为1，其余为0。x_v是第v个单词经过嵌入后的分布式词向量，本发明中该向量维度设置为300。

第二编码层用于输入分布式词向量序列的特征提取，将上一阶段输出的词向量序列x₁，x₂...x₄₄₉，x₄₅₀通过长短时记忆网络遍历，输出特征向量序列h₁，h₂...h₄₄₉，h₄₅₀。利用式2表示：

h_t＝[LSTM_R(x_t)，LSTM_L(x_t)] (2)

将双向的LSTM输出进行直接连接，形成大小为2倍隐层维度的特征向量h_t。该特征向量代表着输入序列t时刻的单词特征，同时包含着该单词上下文相关性特征，可以用来编码上下文向量c_t。

第三解码层用于输出标签序列，先根据上面得到的特征向量序列h₁，h₂...h₄₄₉，h₄₅₀生成上下文向量c_t。作为解码器t时刻的输入。同时在输入结构中加入前一时刻输出向量，利用长短时记忆网络最终输出该时刻的标签概率分布y_t。

s_t＝LSTM(s_t-1，W_gy_t-1+W_cc_t-1) (3)

o_t＝tanh(W_ds_t+V_dc_t) (4)

y_t＝Softmax(Linear(o_t)) (5)

其中概率分布y_t的大小是标签数量+1，代表“<EOS>”标签在内的所有标签可能性。

本发明在包括嵌入层在内的多处使用了dropout技术防止过拟合。模型采用交叉熵损失函数，训练模型参数的方法是小批量梯度下降算法，并结合Adam算法进行优化，Adam算法结合了RMSProp和momentum动量方法，采用式子4表示：

其中β₁，β₂∈[0，1)，分别是一阶动量衰减系数和二阶动量衰减系数，一般取值为0.9和0.999，ε为进步值，一般取值1e^-8，这三个参数是模型设置好的可以调节的参数，属于超参数。

表示t-1次迭代中的参数梯度矩阵。在第t次迭代，X_t为参数矩阵，m_t是一阶动量，v_t是二阶动量，属于中间变量，α是学习速率。Adam算法实际上是一种自适应调节学习率的方法，因为它根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整对于每个参数的学习速率，既可以减少局部最优的风险，又可以加快收敛的速度。

在模型的超参数设置方面，本发明的模型中的解码器和编码器部分，均以长短时记忆网络作为基础构成。长短时记忆网络的隐层参数是最主要的超参数，设置过小将限制模型的性能，设置过大将无法再提高性能，同时增加了模型的计算复杂度。因此本发明通过实验做了折中处理，将编码器隐层大小设置为400，将解码器隐层大小设置为100。在保证模型性能同时不会让计算量大幅增加。

在训练阶段，本发明的模型输入序列为论文标题和摘要两部分直接链接后的文本。为了批量输入，需要将每一篇论文文本长度进行统一。假如小批量大小为M，样本序列统一长度为L，嵌入后的词向量维度为V，则编码器一次输入数据维度为M×L×V，其中M和L可以根据实验情况调节。为了充分并行训练模型，M一般设置为2的幂次方。M设置过大将影响模型训练速度，但能减小震荡，设置过小虽然训练速度较快，但震荡过大。L则需要根据对样本数据进行统计进行设置，设置过大将增大计算量，设置过小会丢失过多输入信息。在实施例中取M＝32，取L＝450。小批量的训练方式可以结合随机梯度下降和批量梯度下降的特点，在适当减小随机震荡的同时提高训练速度。

为了验证本发明相对于其他文本多标签分类算法的优势，进行了一些列的对比实验，客观上采用多标签版本的Micro-Precision、Micro-Recall和Micro-F1-Score值来度量分类质量。实验环境配置包括硬件和软件两部分，训练模型使用的硬件配置是Intel Xeon2.5GHz，4核，内存8GB。软件配置部分，操作系统为Ubuntu 18.0.4，利用的深度学习框架为Pytorch 0.4.1，基于python3.7以及一些科学计算库。实验的步骤主要包括三个方面，首先是数据准备；然后模型训练；最后是通过训练好的模型进行论文多标签分类测试，展示分类效果。

1)数据准备

实验采用的数据主要是从Microsoft Academic学术网站收集到的公开论文数据，包括来自不同领域的学者所发表的论文。论文文本包括标题和摘要部分，以及论文所属的标签集。然后对论文进行筛选，仅保留计算机科学相关的论文，标签体系则采用MicrosoftAcademic网站“Computer Science”标签下的直接二级标签，包括“Machine Learning”“Database”等在内的一共34个标签，加上结束标签“<EOS>”一共35个标签。最后数据集一共包括55840个样本，按照8∶2的比例划分训练集和测试集。

2)模型训练

在训练开始之前，初始化各超参数。对训练集中每个样本的输入序列进行补齐和截断操作，将标题和摘要文本序列统一设置成450个单词大小。并根据整体数据统计，按照标签出现频数倒序排序每一个样本的输出标签序列，以便让模型优先学习多数样本，并对于测试集同样进行上述预处理操作。对于样本标签中的类别不平衡问题，采用下采样的方式进行缓解。最后使用训练集进行迭代训练，采用CE函数作为代价函数，采用小批量梯度下降结合Adam优化方法进行训练，每隔固定时间步进行模型的测试，并保留每次的模型。

训练过程中一共迭代30次，由于没有采用GPU进行加速，所以耗时较长。

将训练好的模型权重以checkpoint.pt文件进行存储，然后使用测试数据集进行测试。与训练不同的是，在测试阶段使用了Beam Search算法保留5个当前最大概率的标签序列，最后取全局概率最大的标签序列。

3)实验结果

得到训练模型后在测试集上测试模型性能，通过模型预测的标签集合和真实标签集合进行对比，并分别计算多标签版本的精度(Micro-Precision)、召回率(Micro-Recall)、F1值(Micro-F1-Score)以及海明损失(Hamming-Loss)，以这四个参数作为客观评价指标。

从表2可以看出，相比于去噪后的SRCNN算法，本发明所提出的算法有明显优势，不仅是在F1值上，还是在Hamming Loss值上。这主要是因为在解码层采用了独特的输入设计，将前一时刻的输出标签信息作为预测下一标签的输入，使得模型能够学习到标签之间的相关性。从而在具有标签相关性的场景下能取得比传统单标签分类模型改造的方法更优的性能。

表1是根据本发明实施例的对于Microsoft Academic数据集测试效果对比；

本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种利用深度神经网络进行论文多标签分类的方法，其特征在于，该方法将多标签分类视为标签序列生成过程；方法分为输入序列特征学习阶段和标签序列生成(预测)阶段；其中在所述输入序列特征学习阶段，本发明根据论文文本序列，利用双向长短时记忆网络生成特征向量序列，采用小批量随机梯度下降和Adam优化算法训练神经网络模型。

2.在所述标签序列生成阶段，将由特征向量序列构成的上下文向量和上一时刻的标签嵌入向量输入单向长短时记忆网络，来预测该论文可能所属的下一个标签。

3.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述神经网络模型包括输入单词序列的嵌入层，由双向长短时记忆网络构成的编码层，由单向长短时记忆网络构成的解码层共3层架构；所述嵌入层用于对输入文本序列进行降维和初步的语义表示；所述长短时记忆网络用于学习输入序列之间的长期相关性特征，并编码特征向量序列；所述单向长短时记忆网络用于生成标签序列。

4.根据权利要求2所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述输入单词序列的嵌入层的输出维度为300维，双向长短时记忆网络构成的编码层的网络隐层维度为400维，单向长短时记忆网络构成的解码层的网络隐层维度为100维。

5.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，输入序列特征学习阶段中所述神经网络模型的输入序列长度为450，即使用450个单词组成的序列作为一个样本输入；以此为长度对论文单词序列统一进行补齐或者截断操作，形成的向量进行模型的训练。

6.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述神经网络模型中训练模型参数的方法采用Adam算法，其形式如下式所示：

7.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述上下文向量为特征向量序列的加权求和，通过引入Attention机制对不同时刻的上下文向量进行编码，其中上下文向量计算方法如下：

W_a，U_a是待学习的参数；α_t，i是归一化后的加权系数，代表编码器第i时刻的状态h_i对解码器第t时刻的上下文向量c_t的重要程度。

8.根据权利要求1所述的一种利用深度神经网络进行论文多标签分类的方法，其特征在于，所述标签序列生成的计算过程如下：

s_t＝LSTM(s_t-1，W_gy_t-1+W_cc_t-1)

o_t＝tanh(W_ds_t+V_dc_t)

y_t＝softmax(Linear(o_t))

其中解码器单向长短时记忆网络采用单向长短时记忆网络，其当前时刻的隐层状态s_t和前一时刻状态s_t-1，前一时刻的标签嵌入向量y_t-1，以及前一时刻的输入上下文向量c_t-1有关；

当前编码器输出o_t和当前隐层网络状态s_t，以及当前输入上下文向量c_t有关；

其计算方式为tanh(W_ds_t+V_dc_t)；

其中W_d和V_d是参数矩阵，s_t和c_t通过该参数矩阵进行线性变换之后，再使用tanh非线性激活函数计算得到当前输出向量o_t；由于当前输出o_t维度和输出标签维度可能不一致，因此再通过一个线性层将其映射到标签空间；所得向量每一维度可以认为是对应标签的分数；最后通过一个Softmax层将分数转换为标签概率分布y_t(标签嵌入向量)，取最高概率的标签作为当前预测的标签。