CN109582789B

CN109582789B - 基于语义单元信息的文本多标签分类方法

Info

Publication number: CN109582789B
Application number: CN201811339313.4A
Authority: CN
Inventors: 林俊旸; 苏祺; 孙栩
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-11-12
Filing date: 2018-11-12
Publication date: 2021-07-09
Anticipated expiration: 2038-11-12
Also published as: CN109582789A

Abstract

本发明公布了一种基于语义单元信息的文本多标签分类方法，建立语义单元多标签分类模型SU4MLC，将基于注意力机制的循环神经网络序列到序列模型作为基线模型进行改进，通过改进源端用于注意力机制的表示；利用深度学习中的空洞卷积对基线模型的源端上下文表示进行语义单元相关信息抽取，得到语义单元信息；利用多层混合的注意力机制将语义单元信息和词级别信息进行结合，提供给解码器；利用解码器进行标签序列的解码，由此实现基于语义单元信息的文本多标签分类。本发明能够解决现有的注意力机制易受到噪声影响且对分类贡献不足的问题，能够提升注意力机制对文本分类的贡献，更高效地解决文本多标签分类问题。

Description

基于语义单元信息的文本多标签分类方法

技术领域

本发明涉及自然语言处理技术，具体涉及一种基于语义单元信息的文本多标签分类方法。

背景技术

文本多标签分类技术是一种自然语言处理技术，主要针对输入文本对其进行打标签的工作，相当于将文本分入多个标签类别。这个领域的工作有很强的应用价值，比如在新闻领域对新闻文本进行标签分类，或者对用户信息进行标签分类从而构建用户画像。

过去的工作一般把文本多标签的工作看作是一个多分类问题，传统的方法利用了语言学知识和统计方法结合的手段实现分类，而在机器学习兴起以后，许多基于机器学习算法的方法，比如基于SVM的rank-SVM和基于KNN的ML-KNN，相比传统方法取得较大的进步，但它们捕捉到的信息层次较低，难以得到标签之间的关联的信息。

近期NIPS 2017上Nam et al.(2017)和COLING 2018上Pengcheng Yang et al.(2018)的工作将文本多标签分类问题处理成一个序列到序列的关系，将其视为一个输入文本序列转化到标签序列的问题，利用神经网络技术，构建了一个基于注意力机制的序列到序列模型，包含编码器、解码器和注意力机制，由编码器对输入文本进行编码成输入的高级别表示以及启动解码器的句子表示，而解码器则利用句子表示进行逐步解码，并在每个时间步利用注意力机制对源端的相关的高级别表示进行关注。该模型利用的注意力机制依然是现有传统的注意力机制，捕捉的更多的是标签相关的词级别的细粒度信息，容易受到噪音的影响，细粒度信息对于标签的归类帮助不够显著。因此，将上述基于神经网络技术的基于注意力机制的序列到序列模型用于处理文本多标签分类问题，存在注意力机制由于捕捉的是词级别的细粒度低阶信息，易受到噪声影响且对分类贡献不足的缺陷。而现有方法难以解决其噪声影响问题，也难以对分类提供足够的贡献。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于语义单元信息的文本多标签分类方法，建立语义单元多标签分类模型(Semantic Unit for Multi-label TextClassification，模型简称SU4MLC)，将基于注意力机制的序列到序列模型作为基线模型进行改进，改进注意力机制关注的内容，即改进源端的用于注意力机制的表示，来提升注意力机制对文本分类的贡献，从而解决目前基于注意力机制的序列到序列模型在文本多标签分类问题中存在的注意力机制易受到噪声影响且对分类贡献不足的问题，提升基于注意力机制的序列到序列模型在文本多标签分类问题上的表现。

本发明的原理如下：经过数据观察与研究发现，输入文本往往包含多个事件，可以看作是一个语义单元，往往可构建为一个句子或能够表示一个事件的短语。本发明方法首先利用深度学习技术中的空洞卷积技术对基线模型的源端上下文表示进行语义单元相关的信息抽取，然后利用多层混合的注意力机制将语义单元信息和词级别信息进行结合，提供给解码器进行标签序列的解码，从而实现基于语义单元信息的文本多标签分类。

本发明提供的技术方案是：

一种基于语义单元信息的文本多标签分类方法，建立语义单元多标签分类模型SU4MLC，将基于注意力机制的序列到序列模型作为基线模型进行改进，通过改进源端的用于注意力机制的表示，提升注意力机制对文本分类的贡献；包括：

首先，利用深度学习中的空洞卷积技术，对基线模型的源端上下文表示进行语义单元相关信息抽取，得到语义单元信息；

然后，利用多层混合的注意力机制将语义单元信息和词级别信息进行结合，提供给解码器；

最后，解码器进行标签序列的解码，由此实现基于语义单元信息的文本多标签分类。

本发明提供的上述文本多标签分类方法(SU4MLC)提升了基于注意力机制的序列到序列模型在文本多标签分类问题上的表现。

上述基于语义单元信息的文本多标签分类方法具体包括如下步骤：

1)输入：将输入的文本进行分词，建立字典；

使用词嵌入技术获得字典中每个词的词嵌入表示；文本以词为单位，设计字典大小；使用词嵌入技术获得字典中每个词的表示；

具体实施时，不使用预训练好的词嵌入表示，而是对字典中每个词的表示进行随机初始化，在训练基于注意力机制的循环神经网络序列到序列模型的同时训练词嵌入表示；

2)构建编码器。

编码器由双向的三层长短时记忆网络(LSTM)(Hochreiter and Schmid-huber,1996)，构成，输入端接收以词为单位的输入文本，编码器进行编码，每接收一个单词输入就能输出一个向量表示，这一系列的向量表示称为源端上下文表示h；

3)构建多级别空洞卷积网络

利用多级别空洞卷积网络(Multi-level dilated convolution)，对编码器得到的源端上下文表示进行语义单元信息表示的建模，三个层级的空洞卷积由于卷积核的空洞间距不同，捕捉的信息级别和覆盖范围不同，同时空洞卷积不会因为核的捕捉范围增大而增加参数；最终得到语义信息表示h′；

4)构建解码器和混合注意力机制

解码器由单向的三层LSTM构成，在每一个时间点输出的隐状态s_t利用层次化的混合注意力机制(Hybrid Attention Mechanism)，首先对语义单元信息h′进行注意力计算(如式2-式4所示，c_t即为注意力机制的输出。将隐状态s_t和h′代入到式2～4中的s_t和h中，得到输出c_t，此处为了区分，命名为s′_t)得到s′_t，然后再使用s′_t对源端上下文信息h进行注意力计算(计算步骤同上，将s′_t和h代入到式2-4中的s_t和h中，得到输出c_t，此处为了区分命名为

)得到

然后将s′_t和

相加后输出新的隐状态o_t，实现方法如下：

其中，o_t表示最终的解码输出；

表示向量相加；s′_t和

为上述混合注意力机制的输出；

注意力计算方法如式2～4：

其中，式4中s_t表示解码器每个时间点输出的隐状态，h_i为源端上下文信息h的第i个向量，W_a是模型通过训练学习得到的参数矩阵。e_t,i由式4计算得出，代表s_t和h_i的相关度。t表示解码时间点；T表示向量转置。

式3表示，s_t对h中的每一个向量都进行式4的计算，然后利用式3中的softmax函数(即式3所示公式，exp(e_t,i)表示对式4中的e_t,i进行指数函数的计算，而

表示将s_t对h中的每一个向量进行式4的计算得到的e_t,j进行指数函数的计算后并求和(由于n为源端上下文表示h的长度，而式3的分母部分为求和，j则表示求和公式的下标，从1到n)，从而得到输出α_t,i。α_t,i为e_t,i经过归一化后的值。由于式3的计算使得s_t对h中的每一个向量(此处表示为第i个向量)都有一个对应的α_t,i，式2将每一个α_t,i和对应的h_i进行相乘后求和，得到最终的向量输出c_t。c_t表示注意力机制的最终输出，代表与当前输出相关的源端上下文信息。

4)输出

输出端利用softmax函数在每一个解码时间步，输出概率最高的标签，直到解码结束。输出标签即为文本分类。

通过上述步骤，实现基于语义单元信息的文本多标签分类。

本发明的有益效果：

本发明提供一种基于语义单元信息的文本多标签分类方法，构建模型SU4MLC，将基于注意力机制的序列到序列模型作为基线模型进行改进，改进注意力机制关注的内容，通过改进源端的用于注意力机制的表示，来提升注意力机制对文本分类的贡献，从而解决现有基于注意力机制的序列到序列模型在文本多标签分类问题中存在的注意力机制易受到噪声影响且对分类贡献不足的问题，能够提升基于注意力机制的序列到序列模型在文本多标签分类问题上的表现。

具体应用表明，本发明方法有效地利用语义信息单元提升了基线模型在数据集上的表现，在文本多标签分类的数据集RCV-V2的F-score从86.7提升到了88.2，同时参数增量小，在扩大信息捕捉范围的同时不增加参数，提高了精度的同时牺牲了很少的参数代价和时间代价。

附图说明

图1是本发明方法流程示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于语义单元信息的文本多标签分类方法，将基于注意力机制的序列到序列模型作为基线模型进行改进，改进注意力机制关注的内容，通过改进源端的用于注意力机制的表示，提升基于注意力机制的序列到序列模型在文本多标签分类的贡献。

本发明提出的模型SU4MLC采用的基线模型是基于注意力机制的循环神经网络序列到序列模型，循环神经网络采用的是LSTM。图1是本发明方法流程示意图。具体实现步骤如下：

1.构建模型

1).输入：将输入的文本进行分词，建立字典；使用词嵌入技术获得字典中每个词的词嵌入表示；文本以词为单位，设计字典大小，如50000，把最高频的50000个词放入字典中，其他词用“<unk>”符号代替；使用词嵌入的技术获得字典中每个词的表示(不使用预训练好的词嵌入表示，对字典中每个词的表示进行随机初始化，跟随着基于注意力机制的循环神经网络序列到序列模型的训练而训练词嵌入表示)；

2).编码：设计一个由LSTM组成的循环神经网络作为编码器，编码器为三层双向LSTM，将输入文本的每个词的词嵌入表示，按照时间顺序输入到编码器中，得到句子表示和源端的上下文表示，记作h＝{h₁,h₂,…,h_n}(n为输入文本的单词个数)；

3).多层级空洞卷积：将源端的上下文h表示送入我们提出的多层级空洞卷积网络进行语义信息单元编码，本实施例中多层级空洞卷积网络的具体层数为3层，每次的空洞间距分别为1,2,3，从而保证空洞卷积能够覆盖源端全文每个时间点的表示，得到语义信息单元表示h′；

4).解码：设计一个由LSTM组成的循环神经网络作为解码器，解码器为三层单向LSTM，训练阶段将正确的标签序列利用上述词嵌入技术的方法获得标签嵌入表示，然后将这些标签嵌入表示按照时间顺序输入到解码器中进行训练；

5).混合注意力机制：解码的每一个时间步利用全局注意力机制，首先用解码器每个时间点的输出s_t，对语义信息单元表示h′进行注意力的计算(如式2-4所示)，得出新的隐状态s′_t，再利用s′_t，对源端上下文的表示h进行注意力计算得到

上述注意力计算方法对词级别信息的注意力计算能够基于语义信息单元的信息；然后将s′_t和

进行相加得到最终解码时间步的输出o_t(如式1所示)；

6).输出：输出端利用softmax函数在每一个解码时间步，输出概率最高的标签，直到解码结束。测试阶段则把上一个时间步的输出当作当前时间步的输入到训练好的解码器进行解码，输出文本分类的标签，直到输出终止符“<eos>”为止；

2.训练和测试模型

1).利用最大似然的方法对本发明提出的模型SU4MLC进行训练，以下目标函数的意义是使最接近于最优的标签分类的输出的概率最大化，式子表示如式1：

其中，

指的是正确的标签序列，y指的是SU4MLC模型生成的标签序列，x指的是输入文本，θ指的是模型参数。通过式5计算得到目标函数的梯度，然后用Adam算法(Kingma&Ba,2014)依照梯度对参数θ进行更新，使目标函数最大化。

2).测试阶段将用于测试的文本输入到训练好的模型中，按照上述模型的运行流程生成测试文本所对应的标签序列(即文本被分入的类别)。

本发明具体实施中，文本编码器所用的循环神经网络的参数具体为：词表示维度为512，隐藏层维度为512，输入词表的大小为50000；标签解码器的参数与文本编码器一致，即标签表示维度为512，隐藏层维度为512，生成的标签表大小为100。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于语义单元信息的文本多标签分类方法，将基于注意力机制的循环神经网络序列到序列模型作为基线模型进行改进，通过改进源端用于注意力机制的表示，提升注意力机制对文本分类的贡献；

首先，利用深度学习中的空洞卷积，对基线模型的源端上下文表示进行语义单元相关信息抽取，得到语义单元信息；

最后，利用解码器进行标签序列的解码，由此实现基于语义单元信息的文本多标签分类；

所述基于语义单元信息的文本多标签分类方法具体包括如下步骤：

1)输入：将输入的文本进行分词，建立字典；使用词嵌入技术获得字典中每个词的词嵌入表示；

2)构建编码器：编码器由双向的三层长短时记忆网络LSTM构成，输入端接收以词为单位的输入文本，通过编码器进行编码；每接收一个单词输入即输出一个向量表示；将输出的一系列向量表示称为源端上下文表示h；

3)构建解码器：解码器由单向的三层LSTM构成，输出端利用softmax函数在每一个解码时间步，输出概率最高的标签，直到解码结束；

解码过程中，采用全局注意力机制，在每一个解码时间步，利用解码输出s_t对编码器得到的源端上下文表示h，进行相关度的计算；根据相关度获得注意力的分布，输出新的隐状态s′_t，辅助当前时间步的解码，具体计算如下：

31)构建多级别空洞卷积网络：利用多级别空洞卷积网络，对编码器得到的源端上下文表示进行语义单元信息表示的建模；不同层级的空洞卷积由于卷积核的空洞间距不同，捕捉的信息级别和覆盖范围不同，空洞卷积参数相同，得到语义信息表示h′；

32)构建解码器和混合注意力机制：解码过程中，在每一个时间点输出的隐状态s_t利用层次化的混合注意力机制，首先对语义单元信息h′进行注意力计算，得到s′_t；然后再使用s′_t对源端上下文信息h进行注意力计算得到

再将s′_t和

相加后输出新的隐状态o_t；

4)输出：输出端利用softmax函数在每一个解码时间步输出概率最高的标签，直到解码结束；输出标签即为文本分类；

通过上述步骤，实现基于语义单元信息的文本多标签分类。

2.如权利要求1所述基于语义单元信息的文本多标签分类方法，其特征是，步骤1)中，文本以词为单位，设计字典大小；字典中每个词的表示不使用预训练好的词嵌入表示，而是对字典中每个词的表示进行随机初始化，在训练基线模型的同时训练词嵌入表示。

3.如权利要求1所述基于语义单元信息的文本多标签分类方法，其特征是，步骤31)构建多级别空洞卷积网络包括三个层级的空洞卷积。

4.如权利要求1所述基于语义单元信息的文本多标签分类方法，其特征是，步骤32)所述层次化的混合注意力机制具体执行如下操作：

321)首先通过式2～4对语义单元信息h′进行注意力计算：

其中，s_t表示解码器每个时间点输出的隐状态；h_i为源端上下文信息h的第i个向量；W_a是模型通过训练学习得到的参数矩阵；e_t,i代表s_t和h_i的相关度；t表示解码时间点；T表示向量转置；α_t,i为e_t,i经过归一化后的值；c_t为注意力机制的输出；

322)然后再使用s′_t对源端上下文信息h进行注意力计算得到

323)再通过式1将s′_t和

相加：

即输出新的隐状态o_t。

5.如权利要求1所述基于语义单元信息的文本多标签分类方法，其特征是，步骤4)具体利用最大似然的方法对模型进行训练，采用式5所示的目标函数：

其中，

是正确的标签序列；y为模型生成的标签序列；x是输入文本；θ是模型参数。

6.如权利要求5所述基于语义单元信息的文本多标签分类方法，其特征是，通过式5计算得到目标函数的梯度，再通过Adam算法依照梯度对模型参数θ进行更新，使目标函数最大化，从而使得最接近的标签分类输出的概率最大化。